CN107045503A

CN107045503A - 一种特征集确定的方法及装置

Info

Publication number: CN107045503A
Application number: CN201610082067.3A
Authority: CN
Inventors: 涂丹丹; 张家劲
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-02-05
Filing date: 2016-02-05
Publication date: 2017-08-15
Anticipated expiration: 2036-02-05
Also published as: US20180150746A1; WO2017133188A1; CN107045503B; US11461659B2

Abstract

本发明公开了一种特征集确定的方法，包括：根据接收到的特征集确定请求，获取用于特征学习的数据，特征集确定请求中包括特征学习的学习目标，对该数据进行类型分析，划分出第一类型的数据和第二类型的数据，对第一类型的数据进行半监督学习，提取出多个第一类型的特征，对第二类型的数据进行自适应学习，提取出多个第二类型的特征；对第一类型的特征和第二类型的特征进行评估，以得到最优特征集，最优特征集包括多个准确率满足预置条件的特征，准确率为特征与学习目标的接近程度。本发明实施例提供的特征集确定的方法，不仅提高了特征学习的效率，还可以提升特征集的准确度。

Description

一种特征集确定的方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种特征集确定的方法及装置。

背景技术

在计算机视觉、模式识别、数据挖掘很多应用问题中，经常会遇到高维度的数据，高维度的数据通常指的是包含很多种类的数据，例如：各种商品的数据，每种商品都可以看作是一个维度。高维度的数据会造成很多问题，例如导致算法运行性能以及准确性的降低。特征学习的目标是从原始数据中找到有用的特征集，再运用一些有效的算法，实现数据的聚类、分类以及检索等任务。

整个数据挖掘过程中，一半以上的时间用在特征学习阶段。特征学习的目的是通过无监督学习、特征提取和特征选择等技术消除不相关和冗余的特征来降低系统的复杂性。当机器学习算法由于不相关的特征所导致的伪结构而变得混乱时，会导致严重的过拟合问题。在机器学习领域中，为了减少计算成本和存储成本以及提高预测的准确性，特征学习技术变得越来越重要。

发明内容

为了解决现有技术中特征学习花费的时间多的问题，本发明实施例提供一种特征集确定的方法，针对不同类型的数据采用不同的处理方法，不仅提高了特征学习的效率，还可以获得由准确度更高的特征组成的最优特征集，从而提高了所确定的特征集的准确度。本发明实施例还提供了相应的装置。

为达到上述目的，本发明的实施例采用如下技术方案：

本发明第一方面提供一种特征集确定的方法，常应用于分布式运算平台，分布式运算平台可以包括多个计算节点，每个计算节点都可以根据控制节点的指示或者预先配置的任务触发特征集确定的过程。特征集确定的方法可以包括：根据接收到的特征集确定请求，获取用于特征学习的数据，该特征集确定请求中包括该特征学习的学习目标；对获取到的数据进行类型分析，划分出第一类型的数据和第二类型的数据，第一类型的数据为非数值类型的数据，第二类型的数据为数值类型的数据；对第一类型的数据进行半监督学习，以提取出多个第一类型的特征，对第二类型的数据进行自适应学习，以提取出多个第二类型的特征；对多个第一类型的特征和多个第二类型的特征进行评估，以得到最优特征集，最优特征集包括多个准确率满足预置条件的特征，准确率为各个特征与学习目标的接近程度；将该最优特征集输出，以响应特征集确定请求。其中，特征学习就是通过例如：最近邻中心的距离的方法来寻找各个类的中心，实现数据的聚类，然后对聚类后的各个类中的数据进行分析，抽取出其中的特征。例如：如果对人脸进行特征学习，因为同类的数据具有趋向性，脸部用于描绘同一面部器官的数据也会聚到一个类中，然后对各类中的数据进行分析，抽取出其中的各个面部器官的特征数据，从而确定所学习数据对应的是人脸。从上述第一方面的描述可以看出，针对不同类型的数据采用不同的处理方法，不仅提高了特征学习的效率，还可以提升特征集的准确度。

结合第一方面，在第一种可能的实现方式中，第一类型的数据包括标注数据和非标注数据，上述第一方面中的步骤对第一类型的数据进行半监督学习，以提取出多个第一类型的特征，包括：利用稀疏自编码算法对非标注数据进行无监督学习，得到稀疏自编码算法的函数参数W和b，参数W为稀疏自编码算法中的变量系数，参数b为稀疏自编码算法中的常量；利用前馈自编码算法，对标注数据，以及W和b进行特征变换，以得到多个第一类型的特征。其中，W和b本身是变量，但通过对非标注数据的无监督学习，会根据非标注数据得到W和b的具体数值，而且W和b的数量有多个，通常用矩阵的形式表示。从上述第一方面第一种可能的实现方式中可以看出，非标注数据和非标注数据都有对应的处理方法，不需要为每个数据都贴标签，节省了大量的人工，而且少量的标注数据还可以检验从非标注数据中得出的特征，保证了准确度。

结合第一方面，在第二种可能的实现方式中，上述第一方面中的步骤对第二类型的数据进行自适应学习，以提取出多个第二类型的特征，包括：对第二类型的数据进行线性相关性判断；根据线性相关性判断的结果，采用与该结果对应的特征提取策略进行特征提取，以得到特征变换矩阵；根据特征变换矩阵对第二类型的数据中的标注数据进行特征变换，以得到多个第二类型的特征。从上述第一方面第二种可能的实现方式中可以看出，针对不同的判断结果采用不同的特征提取策略进行特征提取，可以提高计算效率。

结合第一方面第二种可能的实现方式，在第三种可能的实现方式中，上述第二种可能实现方式中的步骤：根据特征变换矩阵对第二类型的数据中的标注数据进行特征变换，以得到第二类型的特征，包括：根据特征变换矩阵对第二类型的数据中的标注数据进行特征变换，得到自适应学习得到的特征；当自适应学习得到的特征满足准确率的要求时，则将自适应学习得到的特征作为第二类型的特征；当自适应学习得到的特征不满足所述准确率的要求时，对自适应学习得到的特征进行自动特征选择，以确定第二类型的特征。从上述第一方面第三种可能的实现方式中可以看出，第二类型的特征的准确率都是满足要求的，从而提高了特征的准确度。

结合第一方面第二种或第三种可能的实现方式，在第四种可能的实现方式中，上述第二种或第三种中的步骤：根据线性相关性判断的结果，采用与该结果对应的特征提取策略进行特征提取，以得到特征变换矩阵，包括：当该结果为线性相关时，若标注数据集的数据量在第二类型的数据中所占的比例超过预置阈值，则采用线性判别分析LDA算法进行监督线性特征提取，以得到特征变换矩阵，若该比例低于预置阈值，则采用主成分分析PCA算法进行非监督线性特征提取，得到特征变换矩阵；当该结果为非线性相关时，若该比例超过所述预置阈值，则采用核线性判别分析KLDA算法进行监督线性特征提取，得到特征变换矩阵，若该比例低于所述预置阈值，则采用MIGFE算法进行非监督非线性特征提取，得到特征变换矩阵。从上述第一方面第四种可能的实现方式中可以看出，针对不同的判断结果采用了不同的算法进行特征提取，从而提高了计算效率。

结合第一方面第三种可能的实现方式，在第五种可能的实现方式中，在第三种中的步骤：当自适应学习得到的特征不满足准确率的要求时，对自适应学习得到的特征进行自动特征选择，以确定第二类型的特征，包括：去除自适应学习得到的特征中的常量，以得到多个初选特征；根据每个初选特征的信息增益和所述每个初选特征之间的相似程度，对所述每个初选特征进行排序并筛选，将排序后的初选特征作为所述第二类型的特征。从上述第一方面第五种可能的实现方式中可以看出，通过去除常量、特征排序并筛选，可以减少冗余的特征，确保得到的第二特征都是有用的特征，从而提高了计算效率。

本发明第二方面提供一种特征集确定的装置，该一种特征集确定的装置被配置实现上述第一方面或第一方面任一可选的实现方式所提供的方法的功能，由硬件/软件实现，其硬件/软件包括与上述功能相应的单元。

本发明第三方面提供一种计算机存储介质，该计算机存储介质存储有上述第一方面或第一方面任一可选的实现方式的特征集确定的程序。

本发明第四方面提供一种物理主机，所述物理主机包括：硬件层、运行在所述硬件层之上的宿主机Host、以及运行在所述Host之上的一个或多个虚拟机，所述虚拟机被配置实现上述第一方面或第一方面任一可选的实现方式所提供的方法的功能，由硬件/软件实现，其硬件/软件包括与上述功能相应的单元。

与现有技术中特征学习花费的时间很多相比，本发明实施例提供的特征集确定的方法，在特征学习时，针对不同类型的数据采用不同的处理方法，不仅提高了特征学习的效率，还可以获得由准确度更高的特征组成的最优特征集，从而提升特征集的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中特征集确定的网络环境的一实施例示意图；

图2是本发明实施例中特征集确定的方法的另一实施例示意图；

图3是本发明实施例中特征集确定的方法的另一实施例示意图；

图4是本发明实施例中特征集确定的方法的另一实施例示意图；

图5是本发明实施例中特征集确定的方法的另一实施例示意图；

图6是本发明实施例中特征集确定的装置的一实施例示意图；

图7是本发明实施例中特征集确定的装置的另一实施例示意图；

图8是实现本发明实施例中用于特征集确定的一物理主机的一示意图。

具体实施方式

本发明实施例提供一种特征集确定的方法，针对不同类型的数据采用不同的处理方法，不仅提高了特征学习的效率，还可以提升特征集的准确度。本发明实施例还提供了相应的装置。以下分别进行详细说明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解本发明实施例，下面对本发明实施例中会使用到的专业术语做简单说明。

最近邻中心的距离：就是根据分布比较集中的多个数据确定一个中心，然后其他数据与该中心的距离满足邻近条件的就可以认为归属于同一类。

特征学习：就是通过例如：最近邻中心的距离来寻找各个类的中心，实现数据的聚类，然后对聚类后的各个类中的数据进行分析，抽取出其中的特征。例如：如果对人脸进行特征学习，因为同类的数据具有趋向性，脸部用于描绘同一面部器官的数据也会聚到一个类中，然后对各类中的数据进行分析，抽取出其中的各个面部器官的特征数据，从而确定所学习数据对应的是人脸。

特征集：包含多个特征的集合。

最优特征集：准确度满足预置条件的特征的集合。

准确率：特征集合中的各特征与所述学习目标的接近程度。

标注数据：带有标签的数据。

非标注数据：未带标签的数据。

标注数据集：标注数据的集合。

非标注数据集：非标注数据的集合。

稀疏自编码算法是一种深度学习算法，也常称为稀疏自编码器。

稀疏自编码算法中的函数参数W和b：W和b本身是变量，但通过对非标注数据的无监督学习，会根据非标注数据得到W和b的具体数值，而且W和b的数量有多个，通常用矩阵的形式表示。例如：可表示为如下矩阵：

当然，上述矩阵也只是举例说明，实际上，W和b的取值可以更多，不限于矩阵中的几个。

前馈自编码算法也是一种深度学习算法，也常称为前馈自编码器。

无监督学习:一种训练方法，有训练样本，但是没有训练标签。

全监督学习:一种训练方法，有训练样本和训练标签。

半监督学习：一种训练方法，有训练样本，但只有一部分有训练标签。

线性判别分析(Linear Discriminant Analysis,LDA)算法、主成分分析(Principal Component Analysis,PCA)算法、核线性判别分析(kernel LinearDiscriminant Analysis，KLDA)算法和MIGFE算法都是现有技术中的已有算法，在此不作详细赘述。

下面本申请中所提及的上述相关名词，都可以参阅上述解释进行理解。

随着互联网的快速发展，网络中的数据量也越来越大，服务运营商或者其他厂商可以通过对网络中数据的分析确定一些服务策略，因此，目前对数据的分析就变得尤为重要，对数据的分析通常是对数据进行特征学习，得到数据的特征集，然后根据数据的特征集制定出数据挖掘模型、机器智能模型或人工智能模型等。然后使用相应的模型制定相应的服务策略。

由上述描述可以看出无论是制定哪种模型，特征学习都是必不可少的一个步骤。因此，本发明实施例中重点描述特征学习的过程。

首先参阅图1，介绍本发明实施例中特征学习的网络环境。

图1所示的网络中包括存储资源组、控制节点和多个计算节点。网络中的海量数据通常存储在存储资源组中，存储资源组为网络中的计算设备或者用户设备提供网络存储资源，可以将存储资源组理解为一个存储资源池，在本发明实施例中存储资源组中的数据是面向网络中的所有计算节点的，并不针对个别计算节点做数据分割。控制节点可以控制每个计算节点进行特征学习，例如：控制节点可以给计算节点一个特征集确定请求，然后该计算节点可以根据该特征集确定请求从存储资源池中获取数据，并对数据进行特征学习，然后输出响应该特征集确定请求的最优特征集。当然，计算节点特征学习的过程也可以不受控制控制节点来控制，也可以在计算节点的上进行任务设定，当检测到存储资源组中产生一定量的数据时，就自动启动特征学习任务，输出最优特征集。

图1所示的计算节点看上去都是独立的设备，实际上，计算节点也可以是一个物理机上的虚拟机。

分布式系统是网络中常见的系统，将本发明实施例的特征学习过程结合在分布式系统中，可以参阅图2进行理解。

图2所示的分布式系统包括分布式文件系统(Hadoop Distributed FileSystem，HDSF)和分布式运算平台，HDSF可以对应图1中的存储资源池，分布式运算平台可以包括图1中的控制节点和多个计算节点。

图2中以其中一个计算节点对数据的特征学习，确定特征集的过程为例说明分布式计算平台中各个计算节点确定特征集的过程。

如图2所示，本发明实施例提供的确定特征集的方法的一实施例包括：

100、计算节点接收控制节点发送的特征集确定请求。

所述特征集确定请求中包括所述特征学习的学习目标，所述学习目标表示本次特征学习的方向，也就是对本次特征学习的要求，或者说是最终要输出的结果，也就是说学习目标指的是从海量数据中筛选出所需要数据的方向，例如：学习目标可以是从商品的购买数据中学习出买家为男性还是女性，也就是说学习目标是判断买家性别。

每次特征学习只会设定一个学习目标。

当然，该请求也可以是计算节点自身的任务触发的，不限于只从控制节点接收。

101、计算节点根据接收到的特征集确定请求，从分布式存储系统获取用于特征学习的数据。

分布式存储系统中的数据可以是图像、视频、语音、文本和数值类型的数据。

102、计算节点对获取到的数据进行类型分析，划分出第一类型的数据和第二类型的数据，所述第一类型的数据为非数值类型的数据，所述第二类型的数据为数值类型的数据。

第一类型的数据可以为图像、视频、语音、文本和特殊文字等非数值类型的数据。

第二类型的数据为数值类型的数据。数值类型的数据都是精确的数值，所以可以针对这些数值做特定的特征提取。

103、计算节点对所述第一类型的数据进行半监督学习，提取出多个第一类型的特征。

单一特征确定出来的学习目标是不可信的，所以特征集中通常会包含多个特征。

半监督学习指的是对有标注的数据进行全监督学习，对没有标注的数据进行无监督学习。

104、计算节点对所述第二类型的数据进行自适应学习。

当自适应学习得到的特征满足准确率的要求时，则将自适应学习得到的特征作为第二类型的特征。当自适应学习得到的特征不满足准确率的要求时，则执行步骤105。

准确率在本申请中指的是所学习出的特征与所述学习目标的接近程度，例如：当学习目标为买家为男性还是女性时，与国籍相关的特征则认为是与学习目标接近程度很低的数据，与化妆品相关的特征则认为是与学习目标接近程度很高的特征，因此，可以根据特征与学习目标的接近程度确定是否满足准确率的要求。

本申请中评估特征的准确率时，采用的是平均值，如果准确率的平均值不满足预置条件，例如：未达到60％，则认为是自适应学习得到的特征不满足准确率的要求。

105、计算节点对自适应学习得到的特征进行自动特征选择，确定多个第二类型的特征。

当步骤104中确定的自适应学习得到的特征的平均值的准确率没到达预置条件，则通过自动特征选择，清除其中准确率较低的特征，保留准确率高于预置条件的特征，例如：清除其中与国籍相关的特征。

106、计算节点对所述多个第一类型的特征和所述多个第二类型的特征进行评估。

对第一类型的特征和第二类型的特征通过准确率进行评估，评估的方法与步骤104和105基本相同，都是筛选掉准确率低的特征，保留准确率高于预置条件的特征。从而得到步骤107中的最优特征集。

107、计算节点得到最优特征集并输出。

该最优特征集可以是第一类型的特征的最优特征集和第二类型的特征的最优特征集的并集。

与现有技术中从数据中学习特征花费的时间多相比，本发明实施例提供的特征集确定的方法，针对不同类型的数据，采用不同的特征学习方法，不仅提高了特征学习的效率，还可以特征集确定的准确率，降低数据挖掘门槛。

参阅图3，图2中步骤103对所述第一类型的数据进行半监督学习，提取出第一类型的特征的过程可以包括如下步骤：

1031、将第一类型的数据按照有标注和无标注进行分组，可以得到1032-1的非标注数据集和1033-1的标注数据集。

有标注可以理解为有标签，无标注可以理解为无标签，非标注数据集就是无标签数据的集合，标注数据集就是有标签数据的集合。

1032-1、分组得到非标注数据集。

1032-2、利用稀疏自编码算法对所述非标注数据进行无监督学习。

分布式文件系统中的数据的维度通常很高，以商品数据为例：当有一万种商品时，则商品数据就有一万维。稀疏自编码算法的稀疏功能可以将数据的维度降到很低，例如：可以将一万维的数据降到十维或者更低，简单来说，也就是稀疏自编码算法可以将一个万*万的矩阵或者千*千的矩阵降为十*十的矩阵，或者其他n*m的矩阵，n和m都是小于20的正整数。利用稀疏自编码算法实现数据降维的过程可以参阅现有技术进行理解，本处不做过多赘述。

1032-3、利用稀疏自编码算法对所述非标注数据进行无监督学习后，得到稀疏自编码算法的函数参数W和b。

W和b的介绍可以参阅前述专业术语描述部分进行理解。

1033-1、分组得到标注数据集，并进一步将标注数据集划分为步骤1033-2的训练数据集和1033-3的测试数据集。

标注数据集就是有标签的数据集。可选的，为了确保提取的特征的准确度，将标注数据集划分为训练数据集和测试数据集。

训练数据集用于特征训练，测试数据集用于测试训练出的特征是否满足准确度的要求。

1033-2、训练数据集。

1033-3、测试数据集。

1033-4、针对训练数据集和测试数据集分别输入所述W和所述b，按照前馈自编码算法进行特征变换，得到1033-5的训练特征集和1033-6的测试特征集。

训练特征集就是用来训练模型的特征集，测试特征集是用来测试模型准确度的特征集，实际上训练特征集和测试特征集都是特征的集合，只是其中的特征的用途不同。

1033-5、训练特征集。

1033-6、测试特征集。

1033-7、对训练特征集采用分类和回归等方法进行模型监督训练。

1033-8、训练得到模型。

1033-9、针对得到的模型，再使用测试特征集中的特征进行评估分类和模型回归，最后确定多个第一类型的特征。

参阅图4，图2中步骤104对所述第二类型的数据进行自适应学习，提取出自适应学习后的特征可以包括如下步骤：

1041、第二类型特征的数据。

1042-1、对第二类型特征的数据进行线性相关性判定。

1042-2、线性特征提取。

可以采用主成分分析(Principal Component Analysis,PCA)或者线性判别分析(Linear Discriminant Analysis,LDA)的方法进行线性特征提取。

1042-3、非线性特征提取。

可以采用MIGFE/核线性判别分析(kernel Linear Discriminant Analysis，KLDA)的方法进行非线性特征提取。

1042-4、特征变换矩阵。

由线性特征提取和非线性特征提取的结果得到特征变换矩阵。

1043-1、第二类型的数据中的标注数据集。

将第二类型的数据中的标注数据集划分为训练数据集和测试数据集，训练数据集用于训练特征参数，测试数据集用于特征测试。

1043-2、训练数据集。

1043-3、测试数据集。

1043-4、特征变换。

将步骤1042-4中的特征变换矩阵输入步骤1043-2的训练数据集和步骤1043-3的测试数据集，可以分别得到步骤1043-5的训练特征集和步骤1043-6的测试特征集。

1043-5、训练特征集。

1043-6、测试特征集。

1043-7、对训练特征集采用分类和回归等方法进行模型监督训练。

1043-8、1043-7训练得到的模型。

1043-9、针对得到的模型，再使用测试特征集中的特征进行评估分类和模型回归，最后确定多个自适应学习得到的特征。

当自适应学习得到的特征满足准确率的要求时，则该自适应学习得到的特征作为第二类型的特征。当自适应学习得到的特征的准确率不满足要求时，则执行步骤105，确定多个第二类型的特征。

参阅图5，针对步骤104或者步骤105最终确定的第二类型的特征可以进行准确率评估，得到最优特征集。

105-1、自适应学习得到的特征。

105-2、去除自适应学习得到的特征中的常量，得到多个初选特征。

自适应学习得到的特征有很多个，其中可能会有些特征是常量，本申请中特征是常量则意味着对学习目标基本没有影响，例如：学习目标是判断买家是男性还是女性时，买家的国际则可以认为是常量。

105-3、信息增益排序。

因特征随着时间的变化可能会有增益，例如：买家可能再次或多次购买了化妆品，则化妆品的特征就会有增益。所以在确定最优特征集的特征时应该考虑到特征的信息增益。将增益较高的优先考虑。实际上，还可以按照增益率进行排序，增益率即为增益的比率。

105-4、初选特征之间的相似程度排序。

相似程度通常指的是两个特征之间的相似性，例如：面膜和保湿霜之间的相似性就很高，相似程度也就很高，在确定买家是男还是女的学习目标上两者的功能是一致的，因此为了降低数据的维度，可以删除其中一个。

105-5、按序搜索。

基于排序结果，使用后向搜索算法，依次减少特征的数目。

105-6、候选特征子集。

105-7、分类、回归算法训练和测试。

105-8、准确率评估。

105-9、选择最优特征子集。

这种自动特征选择的方法基于排序后的特征重要性序列寻找最优特征子集，大幅度减少了特征搜索空间，提高了运行效率。并使用增强学习算法，避免贡献度较小的特征未被选择，提升了特征子集的准确率。

参阅图6，本发明实施例提供的特征集确定的装置的一实施例包括：

获取单元201，用于根据接收到的特征集确定请求，获取用于特征学习的数据，所述特征集确定请求中包括所述特征学习的学习目标；

分析单元202，用于对所述获取单元201获取的所述数据进行类型分析，划分出第一类型的数据和第二类型的数据，所述第一类型的数据为非数值类型的数据，所述第二类型的数据为数值类型的数据；

特征提取单元203，用于对所述分析单元202分析出的所述第一类型的数据进行半监督学习，以提取出多个第一类型的特征，对所述分析单元分析出的所述第二类型的数据进行自适应学习，以提取出多个第二类型的特征；

评估单元204，用于对所述特征提取单元203提出的所述多个第一类型的特征和所述多个第二类型的特征进行评估，以得到最优特征集，所述最优特征集包括多个准确率满足预置条件的特征，所述准确率为各个所述特征与所述学习目标的接近程度；

输出单元205，用于将所述评估单元204评估后得到的所述最优特征集输出，以响应所述特征集确定请求。

与现有技术中从数据中学习特征花费的时间多相比，本发明实施例提供的特征集确定的装置，针对不同类型的数据，采用不同的特征处理方法，不仅提高了特征学习的效率，还可以提高特征集确定的准确率，降低数据挖掘门槛。

可选地，所述特征提取单元203具体用于：

利用稀疏自编码算法对所述非标注数据进行无监督学习，得到稀疏自编码算法的函数参数W和b，所述W为所述稀疏自编码算法中的变量系数，所述b为所述稀疏自编码算法中的常量；

利用前馈自编码算法，对所述标注数据，以及所述W和b进行特征变换，以得到各个第一类型的特征。

可选地，所述特征提取单元203具体用于：

对所述第二类型的数据进行线性相关性判断；

根据线性相关性判断的结果，采用与所述结果对应的特征提取策略进行特征提取，以得到特征变换矩阵；

根据所述特征变换矩阵对所述第二类型的数据中的标注数据进行特征变换，以得到各个第二类型的特征。

可选地，所述特征提取单元203具体用于：

根据所述特征变换矩阵对所述第二类型的数据中的标注数据进行特征变换，得到自适应学习得到的特征；

当所述自适应学习得到的特征满足所述准确率的要求时，则将所述自适应学习得到的特征作为所述第二类型的特征；

当所述自适应学习得到的特征不满足所述准确率的要求时，对所述自适应学习得到的特征进行自动特征选择，以确定第二类型的特征。

可选地，所述特征提取单元203具体用于：

当所述结果为线性相关时，若所述标注数据集的数据量在所述第二类型的数据中所占的比例超过预置阈值，则采用线性判别分析LDA算法进行监督线性特征提取，以得到特征变换矩阵，若所述比例低于所述预置阈值，则采用主成分分析PCA算法进行非监督线性特征提取，得到特征变换矩阵；

当所述结果为非线性相关时，若所述比例超过所述预置阈值，则采用核线性判别分析KLDA算法进行监督线性特征提取，得到特征变换矩阵，若所述比例低于所述预置阈值，则采用MIGFE算法进行非监督非线性特征提取，得到特征变换矩阵。

可选地，所述特征提取单元203具体用于：

去除所述自适应学习得到的特征中的常量，以得到多个初选特征；

根据每个所述初选特征的信息增益和所述每个所述初选特征之间的相似程度，对所述每个所述初选特征进行排序并筛选，将排序后的初选特征作为所述第二类型的特征。

以上所描述的特征学习的装置可以图1和图2所示网络中的计算节点。图7是本发明实施例提供的特征学习的装置20的结构示意图。所述特征学习的装置20包括处理器210、存储器250和输入/输出I/O设备230，存储器250可以包括只读存储器和随机存取存储器，并向处理器210提供操作指令和数据。存储器250的一部分还可以包括非易失性随机存取存储器(NVRAM)。

在一些实施方式中，存储器250存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集:

在本发明实施例中，通过调用存储器250存储的操作指令(该操作指令可存储在操作系统中)，执行如下操作：

根据接收到的特征集确定请求，获取用于特征学习的数据，所述特征集确定请求中包括所述特征学习的学习目标；

对所述数据进行类型分析，划分出第一类型的数据和第二类型的数据，所述第一类型的数据为非数值类型的数据，所述第二类型的数据为数值类型的数据；

对所述第一类型的数据进行半监督学习，以提取出多个第一类型的特征，对所述第二类型的数据进行自适应学习，以提取出多个第二类型的特征；

对所述多个第一类型的特征和所述多个第二类型的特征进行评估，以得到最优特征集，所述最优特征集包括多个准确率满足预置条件的特征，所述准确率为各个所述特征与所述学习目标的接近程度；

将所述最优特征集输出，以响应所述特征集确定请求。

处理器210控制特征学习的装置20的操作，处理器210还可以称为CPU(Central Processing Unit，中央处理单元)。存储器250可以包括只读存储器和随机存取存储器，并向处理器210提供指令和数据。存储器250的一部分还可以包括非易失性随机存取存储器(NVRAM)。的应用中特征学习的装置20的各个组件通过总线系统220耦合在一起，其中总线系统220除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统220。

上述本发明实施例揭示的方法可以应用于处理器210中，或者由处理器210实现。处理器210可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器210中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器210可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器250，处理器210读取存储器250中的信息，结合其硬件完成上述方法的步骤。

可选地，处理器210具体用于：

利用前馈自编码算法，对所述标注数据，以及所述W和b进行特征变换，以得到多个第一类型的特征。

可选地，处理器210具体用于：

对所述第二类型的数据进行线性相关性判断；

根据所述特征变换矩阵对所述第二类型的数据中的标注数据进行特征变换，以得到多个第二类型的特征。

可选地，处理器210具体用于：

另外，本发明实施例中提供的一种特征集确定的方法，还可以由一个或多个虚拟机(Virtual machine，VM)所在的物理主机执行。例如，可以由该物理主机上的Host执行，Host为VMM和运行在该VMM上的特权虚拟机的结合。这种实现方式往往使用在云计算场景中。

例如，上述获取单元201、分析单元202、特征提取单元203、评估单元204和输出单元205可以设置在一个或多个虚拟机上。例如，可以通过一个虚拟机实现上述特征提取单元203，其他单元也可以各通过一个虚拟机实现，或者某几个单元通过一个虚拟机实现，本发明实施例不做限定。

示例性的，如图8所示，上述获取单元201、分析单元202、特征提取单元203、评估单元204和输出单元205可以设置在一个虚拟机所在的物理主机100上，由物理主机100执行上述实施例中的特征集确定的方法。

其中，该物理主机100包含硬件层、运行在所述硬件层之上的宿主机Host 1001、以及运行在所述Host 1001之上的至少一个虚拟机VM1002，以及所述硬件层，所述硬件层包括网卡1003，可选的，还可以包括处理器1004和内存1005；其中，Host可以包括该物理主机100上的VMM和运行于该VMM上的特权虚拟机，虚拟机1002为该物理主机100上除特权虚拟机之外的其他虚拟机。

具体的，虚拟机1001：通过虚拟机软件可以在一台物理主机上模拟出一台或者多台虚拟的计算机，而这些虚拟机就像真正的计算机那样进行工作，虚拟机上可以安装操作系统和应用程序，虚拟机还可访问网络资源。对于在虚拟机中运行的应用程序而言，虚拟机就像是在真正的计算机中进行工作。

硬件层：虚拟化环境运行的硬件平台。其中，硬件层可包括多种硬件，例如某物理主机的硬件层可包括处理器1004(例如CPU)和内存1005，还可以包括网卡1003(例如RDMA网卡)、存储器等等高速/低速输入/输出(I/O，Input/Output)设备，及具有特定处理功能的其它设备。

宿主机1001(Host)：作为管理层，用以完成硬件资源的管理、分配；为虚拟机呈现虚拟硬件平台；实现虚拟机的调度和隔离。其中，Host可能是虚拟机监控器(VMM)；此外，有时VMM和1个特权虚拟机配合，两者结合组成Host。其中，虚拟硬件平台对其上运行的各个虚拟机提供各种硬件资源，如提供虚拟处理器(如VCPU)、虚拟内存、虚拟磁盘、虚拟网卡等等。其中，该虚拟磁盘可对应Host的一个文件或者一个逻辑块设备。虚拟机运行在Host为其准备的虚拟硬件平台上，Host上运行一个或多个虚拟机。

特权虚拟机：一种特殊的虚拟机，亦可称为驱动域，例如这种特殊的虚拟机在Xen Hypervisor平台上被称作Dom0，在该虚拟机中安装了例如网卡、SCSI磁盘等真实物理设备的驱动程序，能检测和直接访问这些真实物理设备。其他虚拟机利用Hypervisor提供的相应机制通过特权虚拟机访问真实物理设备。

应理解，本发明实施例可以应用于xen虚拟机平台中，也可以应用于可以应用于任意一个迁移虚拟机时需要将虚拟机内存进行映射的虚拟化平台中；本发明实施例对此不进行限制。

具体的，特征集确定的方法可参见上述如图1-图5部分的相关描述进行理解，此处不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本发明实施例所提供的特征集确定的方法以及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种特征集确定的方法，其特征在于，包括：

将所述最优特征集输出，以响应所述特征集确定请求。

2.根据权利要求1所述的方法，其特征在于，所述第一类型的数据包括标注数据和非标注数据，所述对所述第一类型的数据进行半监督学习，以提取出多个第一类型的特征，包括：

利用前馈自编码算法，对所述标注数据，以及所述W和所述b进行特征变换，以得到多个第一类型的特征。

3.根据权利要求1所述的方法，其特征在于，所述对所述第二类型的数据进行自适应学习，以提取出多个第二类型的特征，包括：

对所述第二类型的数据进行线性相关性判断；

4.根据权利要求3所述的方法，其特征在于，所述根据所述特征变换矩阵对所述第二类型的数据中的标注数据进行特征变换，以得到多个第二类型的特征，包括：

当所述自适应学习得到的特征不满足所述准确率的要求时，对所述自适应学习得到的特征进行自动特征选择，以确定所述第二类型的特征。

5.根据权利要求3或4所述的方法，其特征在于，所述根据线性相关性判断的结果，采用与所述结果对应的特征提取策略进行特征提取，以得到特征变换矩阵，包括：

6.根据权利要求4所述的方法，其特征在于，所述当所述自适应学习得到的特征不满足所述准确率的要求时，对所述自适应学习得到的特征进行自动特征选择，以确定第二类型的特征，包括：

根据所述多个初选特征的信息增益和所述多个初选特征之间的相似程度，对所述多个初选特征进行排序并筛选，以得到第二类型的特征。

7.一种特征集确定的装置，其特征在于，包括：

获取单元，用于根据接收到的特征集确定请求，获取用于特征学习的数据，所述特征集确定请求中包括所述特征学习的学习目标；

分析单元，用于对所述获取单元获取的所述数据进行类型分析，划分出第一类型的数据和第二类型的数据，所述第一类型的数据为非数值类型的数据，所述第二类型的数据为数值类型的数据；

特征提取单元，用于对所述分析单元分析出的所述第一类型的数据进行半监督学习，以提取出多个第一类型的特征，对所述分析单元分析出的所述第二类型的数据进行自适应学习，以提取出多个第二类型的特征；

评估单元，用于对所述特征提取单元提出的所述多个第一类型的特征和所述多个第二类型的特征进行评估，以得到最优特征集，所述最优特征集包括多个准确率满足预置条件的特征，所述准确率为各个所述特征与所述学习目标的接近程度；

输出单元，用于将所述评估单元评估后得到的所述最优特征集输出，以响应所述特征集确定请求。

8.根据权利要求7所述的装置，其特征在于，

所述特征提取单元具体用于：

9.根据权利要求7所述的装置，其特征在于，

所述特征提取单元具体用于：

对所述第二类型的数据进行线性相关性判断；

10.根据权利要求9所述的装置，其特征在于，

所述特征提取单元具体用于：

11.根据权利要求9或10所述的装置，其特征在于，

所述特征提取单元具体用于：

12.根据权利要求9-11任一所述的装置，其特征在于，

所述特征提取单元具体用于：

13.一种特征集确定的装置，其特征在于，包括：收发器、存储器和处理器和总线，

所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接，当所述特征集确定的装置运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述特征集确定的装置执行如权利要求1-6中任意一项所述的特征集确定的方法。

14.一种物理主机，其特征在于，所述物理机包括：硬件层、运行在所述硬件层之上的宿主机Host、以及运行在所述Host之上的一个或多个虚拟机，

所述虚拟机用于执行如权利要求1-6中任意一项所述的特征集确定的方法。