CN107291760A

CN107291760A - 无监督的特征选择方法、装置

Info

Publication number: CN107291760A
Application number: CN201610205887.7A
Authority: CN
Inventors: 黄光远; 兰金鹤; 麦港林
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-04-05
Filing date: 2016-04-05
Publication date: 2017-10-24
Also published as: WO2017173929A1; TW201738774A

Abstract

本申请公开一种无监督的特征选择方法、装置，其首先根据特征之间的相似度构建特征拓扑图，然后将该特征拓扑图进行分割，使得相似度较高的特征节点划分在同一个连通图中，实现对样本数据的特征聚类，从而在无法预先确定样本数据的分类标示的场景下也可以对样本数据的特征进行选择；在通过连通图完成特征聚类后，进一步可以从每个连通图中选出一个节点，并将该节点对应的特征为代表特征，记入目标特征集，从而得到整个样本数据对应的全面且不重复的代表特征。因此，本申请不需要依赖样本数据的分类标示，可以实现无监督的特征选择，且保证目标特征集中不会出现两个或两个以上相类似的特征，使得目标特征集可以更直观地描述样本数据，避免信息冗余。

Description

无监督的特征选择方法、装置

技术领域

本申请涉及计算机数据处理技术领域，尤其涉及无监督的特征选择方法、装置。

背景技术

目前，基于大数据分析的应用不断涌现，如信息检索、挖掘用户的消费倾向、消费模式等；通过对样本数据进行分析，提取出能够描述样本数据的属性信息，即样本的特征。例如，从某商品的网络销售数据中，可以提取出购买用户等级、购买次数、购金额等特征。一般的，样本数据都具有多个特征，但未必每个特征都对数据的分析有用处，因此需要从大量特征中选出有效的特征，以减少特征集中特征的个数，进而减小具体应用中基于特征集的计算过程的复杂度，提高预测精度。

针对样本数据的特征选择问题，相关技术中已经给出多种实现方法，这些实现方法大多都是需要依赖样本数据分类标示的有监督方式，即各条样本数据的类别应当为已知，从而根据这些已知类别调整特征选择模型的参数，以保证特征选择的准确率。

但是有些应用场景下样本数据不具备分类标示，从而难以通过现有特征选择方法进行特征选择。另外，应用现有特征选择方法会出现所选出的两个或两个以上特征所代表的信息相似的现象，即最终得到的特征集存在信息冗余。

发明内容

为克服相关技术中存在的问题，本申请提供一种无监督的特征选择方法、装置。

本申请第一方面，提供一种无监督的特征选择方法，包括：

计算样本数据的所有特征之间的相似度；

以特征为节点，根据节点之间的相似度构建特征拓扑图；

对所述特征拓扑图进行分割，得到一个或多个连通图；

根据所述连通图，确定目标特征集。

结合第一方面，在第一方面第一种可行的实施方式中，根据节点之间的相似度构建特征拓扑图，包括：

在任意相似度大于零的两个节点之间添加一条边，得到所述特征拓扑图。

结合第一方面，或者第一方面第一种可行的实施方式，在第一方面第二种可行的实施方式中，对所述特征拓扑图进行分割，得到一个或多个连通图，包括：

分别将所述特征拓扑图中每条边对应的相似度与预设相似度阈值进行比较；

删除所述特征拓扑图中相似度小于所述预设相似度阈值的边；

将通过边连接的节点划分在同一个连通图中，得到一个或多个连通图。

结合第一方面，或者第一方面第一种可行的实施方式，在第一方面第三种可行的实施方式中，对所述特征拓扑图进行分割，得到一个或多个连通图，包括：

为所述特征拓扑图中的每个节点设置唯一的标签；

将每个节点的标签传播至相应的邻居节点；

对于每个节点，将自己的标签和接收到的所有来自邻居的标签进行比较，选其中值最小的标签作为相应节点的新标签；

判断各个节点的标签是否发生变化；

如果存在至少一个节点的标签发生变化，则返回执行所述将每个节点的标签传播至相应的邻居节点的步骤；

如果所有节点的标签均未发生变化，则将标签相同的节点划分在同一个连通图中，得到一个或多个连通图。

结合第一方面，或者第一方面第一种可行的实施方式，在第一方面第四种可行的实施方式中，根据所述连通图，确定目标特征集，包括：

分别确定每个连通图中的核心节点，并将各个核心节点对应的特征记入目标特征集。

结合第一方面第四种可行的实施方式，在第一方面第五种可行的实施方式中，分别确定每个连通图中的核心节点，包括：

根据各个节点的节点度值、介数值和Kcore系数中的任意一种确定每个连通图中的核心节点。

本申请第二方面，提供一种无监督的特征选择装置，包括：

相似度计算单元，用于计算样本数据的所有特征之间的相似度；

拓扑图构建单元，用于以特征为节点，根据节点之间的相似度构建特征拓扑图；

连通图挖掘单元，用于对所述特征拓扑图进行分割，得到一个或多个连通图；

目标特征选择单元，用于根据所述连通图，确定目标特征集。

结合第二方面，在第二方面第一种可行的实施方式中，所述拓扑图构建单元具体被配置为：

结合第二方面，或者第二方面第一种可行的实施方式，在第二方面第二种可行的实施方式中，所述连通图挖掘单元包括：第一挖掘模块；

所述第一挖掘模块被配置为：

结合第二方面，或者第二方面第一种可行的实施方式，在第二方面第三种可行的实施方式中，所述连通图挖掘单元包括：第二挖掘模块；

所述第二挖掘模块被配置为：

为所述特征拓扑图中的每个节点设置唯一的标签；

将每个节点的标签传播至相应的邻居节点；

判断各个节点的标签是否发生变化；

结合第二方面，或者第二方面第一种可行的实施方式，在第二方面第四种可行的实施方式中，所述目标特征选择单元具体被配置为：

结合第二方面第四种可行的实施方式，在第二方面第五种可行的实施方式中，所述目标特征选择单元具体被配置为：根据各个节点的节点度值、介数值和Kcore系数中的任意一种确定每个连通图中的核心节点。

由以上技术方案可知，本申请实施例基于图论知识完成对样本数据的分析，首先根据特征之间的相似度构建特征拓扑图，然后将该特征拓扑图进行分割，使得相似度较高的特征节点划分在同一个连通图中，实现对样本数据的特征聚类，从而在无法预先确定样本数据的分类标示的场景下也可以对样本数据的特征进行选择；在通过连通图完成特征聚类后，进一步从每个连通图中选出一个节点，并将该节点对应的特征为代表特征，记入目标特征集，从而得到整个样本数据对应的全面且不重复的代表特征。因此，本实施例不需要依赖样本数据的分类标示，可以实现无监督的特征选择，且保证目标特征集中不会出现两个或两个以上相类似的特征，使得目标特征集可以更直观地描述样本数据，避免信息冗余。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种无监督的特征选择方法的流程图。

图2是本申请实施例提供的无监督的特征选择方法中挖掘连通图的原理示意图。

图3是本申请实施例提供的无监督的特征选择方法中分割特征拓扑图的一种方法示意图。

图4是本申请实施例提供的一种无监督的特征选择装置的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1示出的一种无监督的特征选择方法的流程图。如图1所示，该方法包括以下步骤。

S11、计算样本数据的所有特征之间的相似度。

具体的，本申请实施例可以根据欧氏距离、余弦距离和杰卡德相似系数中的任意一种计算两个特征之间的相似度。

其中，欧氏距离表征空间两点之间的绝对距离。假设两个特征分别为X、Y，可以视为多维空间中的两个点，坐标分别为X(x₁,x₂,...)和Y(y₁,y₂,...)，则其欧氏距离计算公式为：计算结果Eu(X,Y)即可作为特征X和Y之间的相似度；其中x_i表示特征X在多维坐标系中第i维的坐标，y_i表示特征Y在多维坐标系中第i维的坐标，i＝1，2,……。

余弦距离，也称为余弦相似度，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。特征X和Y的余弦距离，即X和Y对应的向量和的夹角余弦值，计算公式为：计算结果cos(X,Y)即可作为特征X和Y之间的相似度。相比欧氏距离，余弦距离更加注重两个特征在方向上的差异。

杰卡德相似系数，两个集合的交集元素个数与这两个集合的并集元素个数之间的比值，称为这两个集合的杰卡德系数；对于特征X和Y，其对应的向量和为多维向量，将每个维度的数值分别视为一个元素，多维向量的各个维度值构成一个集合，故特征X和Y也可以视为两个集合，进而可以计算其杰卡德相似系数，公式为：计算结果J(X,Y)即可作为特征X和Y之间的相似度。

当然，除了上述欧氏距离、余弦距离和杰卡德相似系数以为，本申请实施例还可以采用其他方法计算两个特征之间的相似度，实际应用中可以根据具体场景的不同，选择不同的公式来计算特征之间的相似性。

S12、以特征为节点，根据节点之间的相似度构建特征拓扑图。

S13、对所述特征拓扑图进行分割，得到一个或多个连通图。

在拓扑图中，若任意两个节点间均有路径相连(既包括通过一条边直接相连，也包括通过至少一个节点和至少两条边间接相连)，则称为连通图。根据上述建图的逻辑可知，相对于连通图外的节点，处于同一连通图中的各节点之间的连接关系更紧密，即处于同一连通图中的各节点对应的特征之间的相似度更高，也即步骤S13实际是将相似特征对应的节点聚合到同一个连通图中，实现对样本数据的特征聚类，从而不需要预知样本数据的分类标示。

S14、根据所述连通图，确定目标特征集。

由于每个连通图都相当于一类相似特征的集合，故本实施例步骤S14可以从每个连通图中选择一个节点，将该节点对应的特征作为该连通图所对应的特征集合的代表特征，记入目标特征集，使得目标特征集中每种类型的特征仅包含一个，保证目标特征集中的特征之间的差异性。

由以上技术方案可知，本申请实施例基于图论知识完成对样本数据的分析，首先根据特征之间的相似度构建特征拓扑图，然后将该特征拓扑图进行分割，使得相似度较高的特征节点划分在同一个连通图中，实现对样本数据的特征聚类，从而在无法预先确定样本数据的分类标示的场景下也可以对样本数据的特征进行选择；在通过连通图完成特征聚类后，进一步从每个连通图中选择一个节点，并将该节点对应的特征为代表特征，记入目标特征集，从而得到整个样本数据对应的全面且不重复的代表特征。因此，本实施例不需要依赖样本数据的分类标示，可以实现无监督的特征选择，且保证目标特征集中不会出现两个或两个以上相类似的特征，使得目标特征集可以更直观地描述样本数据，避免信息冗余。

在本申请一个可行的实施例中，步骤S12所述的根据节点之间的相似度构建特征拓扑图，具体可以包括：

如图2所示，假设有标号为1至8的八个特征，分别表示某购物网站中某个商品7天浏览次数、14天浏览次数、30天浏览次数、60天浏览次数、7天购买次数、14天购买次数、30天购买次数、60天购买次数。构建这八个特征对应的特征拓扑图的过程为：经过相似度计算得知，标号为1和2的两个特征之间的相似度为0.7，则将二者对应的节点通过一条边连接，标号为3和7的两个特征之间的相似度为0.2，则将二者对应的节点通过一条边连接……依此类推，可以得到图2所示特征拓扑图。另外，为了更直观的展现特征之间的相似度高低，可以设定相似度越小，相应的边长度越大，使得相应的两个节点之间距离越大(例如图2中，由于0.7＞0.2，故标号1和2之间的边比标号3和7之间的边短)，从而可以根据节点密集程度确定相应特征的相似度高低，即节点之间越密集度，相应的特征之间相似度越高。

在本申请一个可行的实施例中，上述步骤S14所述的根据所述连通图，确定目标特征集，具体可以包括：

仍参照图2，根据上述步骤S13对八个特征对应的特征拓扑图进行分割，可以得到标号分别为A和B的两个连通图(虚线圈表示)；进而，在步骤S14中可以确定连通图A的核心节点为节点3，连通图B的核心节点为节点7，并将该核心节点3和7对应的特征作为代表特征记入目标特征集，即核心节点3对应的特征为节点1至4对应的四个特征的代表特征，核心节点7对应的特征为节点5至8对应的四个特征的代表特征。

可选的，上述确定各个连通图的核心节点的方法有多种，至少包括：根据各个节点的节点度值(Node Degree)、介数值和Kcore系数中的任意一种确定所述核心节点；具体可以根据应用场景的不同，选择不同的确定方法。

其中，某个节点的节点度值，指在拓扑图中该节点相关联的边的条数；相应的，可以选择节点度值最大的节点作为核心节点。

某个节点的介数值，指拓扑图中经过该节点的最短路径的数目与拓扑图中最短路径的总数之间的比值；相应的，可以选择介数值最大的节点作为核心节点。

根据KCore算法计算各节点在连通图结构上的Kcore系数，本质上是过滤连通图中的边缘节点，找出连通图中相对核心位置的点并发现他们的关联。

仍以图2所示情境为例，根据节点度值确定核心节点的步骤为：连通图A中，节点3相关联的边共4条，即节点3的节点度值为4，且连通图A中其他节点的节点度值都小于4，故可以确定节点3为连通图A的核心节点；相应的，节点3对应的特征作为连通图A的代表特征，被记入目标特征集。

由以上技术方案可知，本申请基于图论知识对样本数据特征进行聚类、选择，不需要依赖样本数据的分类标示(即无监督)，且最终得到的目标特征集中的各个代表特征差异都较大，不会存在信息冗余。以电商数据为例，对于“用户的星级”、“15天浏览次数”、“15天购买次数”、“15天购买总金额”等用户特征，通过本实施例可以识别出“15天浏览次数”、“15天购买次数”和“15天购买总金额”三者为相似特征，目标特征集中最多存在三者中的一个。

上述步骤S13所述的对特征拓扑图进行分割，实际是实现特征聚类，也即实现对所有特征的无监督分类。实际应用中，步骤S13的具体实施方法可以有多种。在本申请一个可行的实施例中，可以直接根据特征之间的相似度进行特征拓扑图的分割，具体步骤如下：

S1311、分别将所述特征拓扑图中每条边对应的相似度与预设相似度阈值进行比较；

S1312、删除所述特征拓扑图中相似度小于所述预设相似度阈值的边；

S1313、将通过边连接的节点划分在同一个连通图中，得到一个或多个连通图。

具体的，两个特征之间的相似度取值范围为[0,1]，相似度为0表示两个特征完全不相似，相似度为1表示两个特征完全相同。相应的，上述预设相似度阈值可以根据具体应用场景设置，预设相似度阈值越高，特征拓扑图中节点分布越分散，从而可以挖掘出的连通图个数越多且每个连通图的规模越小，从而使得目标特征集中可以得到更多的代表特征；相反，预设相似度阈值越低，特征拓扑图中节点分布越密集，可以挖掘出的连通图个数越少且每个连通图的规模越大，从而最终得到的目标特征集中代表特征越少。一般的，预设相似度阈值不宜小于0.5。

仍参照图2，对标号为1至8的八个特征对应的特征拓扑图进行分割，假设预设相似度阈值设置为0.5则将特征拓扑图中每条边对应的相似度分别与0.5进行比较，删除相似度小于0.5的边，如节点3和7之间的边(以虚线表示)，从而可以得到A和B两个连通图。

参照图3、在本申请另一个可行的实施例中，步骤S13中还可以基于标签传播算法实现对特征拓扑图的分割，具体步骤如下：

S1321、为所述特征拓扑图中的每个节点设置一个唯一的标签；具体的，可以将节点ID作为其标签。

S1322、将每个节点的标签传播至相应的邻居节点。

S1323、对于每个节点，将自己的标签和接收到的所有来自邻居的标签进行比较，选其中值最小的标签作为相应节点的新标签。

S1324、判断各个节点的标签是否发生变化(即判断是否存在标签发生变化的节点)，如果存在至少一个节点的标签发生变化，则返回至步骤S1322，如果所有节点的标签均未发生变化，则执行步骤S1325。

S1325、将标签相同的节点划分在同一个连通图中，得到一个或多个连通图。

仍参照图2所示情境，对于节点1，将其标签label1分别传播至其邻居节点2和3，并接收邻居节点2、3传播来的标签label2和label3，将label1、label2和label3进行比较，得到的比较结果为label3的值最小，则将节点1的标签由label1更改为label3；其他节点也依照与节点1相同的方式进行标签传播、比较及更新。由于至少节点1对应的标签发生了变化，故返回步骤S1322，继续在八个节点之间进行标签传播、比较及更新；依此循环，直至相对于上一次循环结果，八个节点的标签都无变化，停止循环并执行步骤S1325；例如，假设此时节点1至4对应的标签都为label3，节点5至8对应的标签都为label7，则将标签同为label3的节点1至4划分在同一个连通图A中(实际意义为表征浏览次数的特征都划分在了连通图A中)，标签同为label7的节点5至8划分在同一个连通图B中(实际意义为表征购买次数的特征都划分在了连通图B中)。

需要说明的是，上述步骤S1323中选择值最小的标签作为节点的新标签仅仅是一种具体实施方式，也可以选择值最大的标签，只要保证同一特征拓扑图中的所有节点采用的选择标准一致即可。

上述标签传播算法尤其适用于特征拓扑图较简单的场景，标签传播、比较工作量不会太大，且简单易行。在本申请其他实施例中，对于较复杂的特征拓扑图，也可以采用社区发现算法完成对特征拓扑图的分割(特征聚类)，得到连通图。

另外，本申请实施例还提供了一种计算机存储介质，例如可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等；该计算机存储介质中存储有程序，当所述存储介质中的程序由数据分析平台的相应处理器执行时，使得该数据分析平台能够执行上述方法实施例中记载的无监督的特征选择方法的部分或全部步骤。

相应于上述无监督的特征选择方法，本申请实施例还提供了一种无监督的特征选择装置。图4为该装置的一种结构框图，具体包括：相似度计算单元301、拓扑图构建单元302、连通图挖掘单元303和目标特征选择单元304。

其中，该相似度计算单元301用于，计算样本数据的所有特征之间的相似度。

该拓扑图构建单元302用于，以特征为节点，根据节点之间的相似度构建特征拓扑图。

该连通图挖掘单元303用于，对所述特征拓扑图进行分割，得到一个或多个连通图。

该目标特征选择单元304用于，根据所述连通图，确定目标特征集。

由以上装置结构可知，本申请实施例首先根据特征之间的相似度构建特征拓扑图，然后将该特征拓扑图进行分割，使得相似度较高的特征节点划分在同一个连通图中，实现对样本数据的特征聚类，从而在无法预先确定样本数据的分类标示的场景下也可以对样本数据的特征进行选择；在通过连通图完成特征聚类后，进一步从每个连通图中选出一个节点，并将该节点对应的特征为代表特征，记入目标特征集，从而得到整个样本数据对应的全面且不重复的代表特征。因此，本实施例不需要依赖样本数据的分类标示，可以实现无监督的特征选择，且保证目标特征集中不会出现两个或两个以上相类似的特征，使得目标特征集可以更直观地描述样本数据，避免信息冗余。

在本申请一个可行的实施例中，上述拓扑图构建单元302具体被配置为：在任意相似度大于零的两个节点之间添加一条边，得到所述特征拓扑图。

在本申请一个可行的实施例中，上述连通图挖掘单元303可以包括第一挖掘模块；该第一挖掘模块具体被配置为：分别将所述特征拓扑图中每条边对应的相似度与预设相似度阈值进行比较；删除所述特征拓扑图中相似度小于所述预设相似度阈值的边；将通过边连接的节点划分在同一个连通图中，得到一个或多个连通图。

在本申请另一个可行的实施例中，上述连通图挖掘单元303也可以包括第二挖掘模块；该第二挖掘模块具体被配置为：为所述特征拓扑图中的每个节点设置唯一的标签；将每个节点的标签传播至相应的邻居节点；对于每个节点，将自己的标签和接收到的所有来自邻居的标签进行比较，选其中值最小的标签作为相应节点的新标签；判断各个节点的标签是否发生变化；如果存在至少一个节点的标签发生变化，则返回执行所述将每个节点的标签传播至相应的邻居节点的步骤；如果所有节点的标签均未发生变化，则将标签相同的节点划分在同一个连通图中，得到一个或多个连通图。

在本申请一个可行的实施例中，上述目标特征选择单元304具体被配置为：分别确定每个连通图中的核心节点，并将各个核心节点对应的特征记入目标特征集。

可选的，为确定每个连通图中的核心节点，所述目标特征选择单元具体被配置为：根据各个节点的节点度值、介数值和Kcore系数中的任意一种确定每个连通图中的核心节点。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种无监督的特征选择方法，其特征在于，包括：

计算样本数据的所有特征之间的相似度；

以特征为节点，根据节点之间的相似度构建特征拓扑图；

对所述特征拓扑图进行分割，得到一个或多个连通图；

根据所述连通图，确定目标特征集。

2.根据权利要求1所述的方法，其特征在于，根据节点之间的相似度构建特征拓扑图，包括：

3.根据权利要求1或2所述的方法，其特征在于，对所述特征拓扑图进行分割，得到一个或多个连通图，包括：

4.根据权利要求1或2所述的方法，其特征在于，对所述特征拓扑图进行分割，得到一个或多个连通图，包括：

为所述特征拓扑图中的每个节点设置唯一的标签；

将每个节点的标签传播至相应的邻居节点；

判断各个节点的标签是否发生变化；

5.根据权利要求1或2所述的方法，其特征在于，根据所述连通图，确定目标特征集，包括：

6.根据权利要求5所述的方法，其特征在于，分别确定每个连通图中的核心节点，包括：

7.一种无监督的特征选择装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述拓扑图构建单元具体被配置为：

9.根据权利要求7或8所述的装置，其特征在于，所述连通图挖掘单元包括：第一挖掘模块；

所述第一挖掘模块被配置为：

10.根据权利要求7或8所述的装置，其特征在于，所述连通图挖掘单元包括：第二挖掘模块；

所述第二挖掘模块被配置为：

为所述特征拓扑图中的每个节点设置唯一的标签；

将每个节点的标签传播至相应的邻居节点；

判断各个节点的标签是否发生变化；

11.根据权利要求7或8所述的装置，其特征在于，所述目标特征选择单元具体被配置为：

12.根据权利要求11所述的装置，其特征在于，为确定每个连通图中的核心节点，所述目标特征选择单元具体被配置为：