CN109543775A

CN109543775A - 一种基于密度聚类的面向聚类算法的特征选择方法

Info

Publication number: CN109543775A
Application number: CN201910047858.6A
Authority: CN
Inventors: 李晖; 施若; 冯刚
Original assignee: Guizhou Lianke Weixin Technology Co Ltd
Current assignee: Guizhou Lianke Weixin Technology Co Ltd
Priority date: 2018-12-18
Filing date: 2019-01-18
Publication date: 2019-03-29

Abstract

本发明公开了一种基于密度聚类的面向聚类算法的特征选择方法。按下述步骤完成：a.设：数据集D包含M个实例和N个特征，则有由N个特征构成的特征集F＝{f₁，f₂，…，f_N}；对数据集D进行归一化处理得数据集D'，之后使用欧几里德距离作为数据集D'中特征间的相似度度量，构建特征间的相似度矩阵；b.使用DBSCAN算法进行相似度矩阵的特征聚类，将特征分为核心特征、边界特征和非典型特征三类；c.特征聚类完成后使用特征选择算法选出n维的特征子集F’，其中n≤N，且且保证特征子集F’中的特征之间的冗余最少。本发明具有准确率高、计算成本低、海量数据和稀疏数据集的处理能力强的特点。

Description

一种基于密度聚类的面向聚类算法的特征选择方法

技术领域

本发明涉及数据分析技术领域，特别是一种基于密度聚类的面向聚类算法的特征选择方法。

背景技术

特征学习作为机器学习的研究重点之一，随着机器学习领域的发展也获得了长足的进步。在高维数据中，聚类或分类的效率及准确性通常很难令人满意，并且随着特征数量增大时其性能会急剧下降，为此在训练机器学习模型之前使用特征选择技术来解决此问题，能够起到很好地效果。特征选择作为一种重要的数据分析技术，其用于减少特征冗余并挖掘高维数据中的隐藏信息，其准确性对于数据分析至关重要。

目前很多学者已对特征选择方法进行了研究，大致可分为四类。第一类方法：Filter方法，例如Relief、基于互信息和最大信息系数的度量等，该类方法是为每个特征分配权重，它的主要特点是简单易用，但是不适合用于处理连续变量，并且计算结果对离散化的方式很敏感，通常此方法在准确率方面较低；第二类方法：Wrapper方法，例如递归特征消除法、LasVegasWrapper等，该类方法是将特征子集的选择视为搜索优化问题，然后生成待评估的不同组合，最后再与其它组合进行比较，Wrapper方法的明显缺点是计算成本过高，且有过拟合的风险；第三类方法：Embedded方法，例如引入正则项、随机森林等，该类方法旨在减少在Wrapper方法中对不同子集重新分类所需的计算时间，它是在确定模型的过程中，挑选出那些对模型训练有重要意义的特征；该类方法缺点是对高维数据集的效果较弱；第四类方法：Filter和Wrapper方法的组合，通过特定的学习算法与Filter方法类似的时间复杂度来实现最佳性能，该类方法缺点是对稀疏数据集的效果较差。

发明内容

本发明的目的在于，提供一种基于密度聚类的面向聚类算法的特征选择方法。本发明具有准确率高、计算成本低、海量数据和稀疏数据集的处理能力强的特点。

本发明的技术方案。一种基于密度聚类的面向聚类算法的特征选择方法，按下述步骤完成，

a.设：数据集D包含M个实例和N个特征，则有由N个特征构成的特征集F＝{f₁，f₂，…，f_N}；

对数据集D进行归一化处理得数据集D'，之后使用欧几里德距离作为数据集D'中特征间的相似度度量，构建特征间的相似度矩阵；

b.使用DBSCAN算法进行相似度矩阵的特征聚类，将特征分为核心特征、边界特征和非典型特征三类；

c.特征聚类完成后使用特征选择算法选出n维的特征子集F’，其中n≤N，且且保证特征子集F’中的特征之间的冗余最少。

前述的基于密度聚类的面向聚类算法的特征选择方法所述的步骤a中，所述的归一化处理为，使用最大最小值规范化对特征进行缩放，计算公式如下：

x_scaled＝x_std×(max-min)+min (2)

其中max和min表示特征的取值范围，在本算法中选择1和0分别作为最大值max和最小值min；x表示数据在某特征属性上的取值；x_min和x_max表示数据在该特征属性上的取值范围的最小和最大值；x_std表示对实际数值进行标准化后的结果，x_scaled表示进行归一化伸缩后的结果。

前述的基于密度聚类的面向聚类算法的特征选择方法所述的步骤a中，所述的相似度矩阵按下述方法构建：

归一化处理后的数据集D'中，所有特征的值都在0和1之间，然后计算数据集D'中的每个特征与其它特征间的欧氏距离；特征f_i(x₁,x₂,…,x_M)和f_j(y₁,y₂,…,y_M)的欧式距离定义为：

数据集D包含M个实例和N个特征；x和y表示两个特征；

则构建的相似度矩阵如下：

其中matrix_s是一个方阵，f_row ^th是指第row个特征，f_column ^th是指第column个特征，矩阵中的值代表了f_row ^th与f_column ^th的欧氏距离。

前述的基于密度聚类的面向聚类算法的特征选择方法所述的步骤b中，相似度矩阵的特征聚类具体如下：

定义1：邻域，写作Nei(f_N)，表示特征f_i和f_j的欧氏距离小于Eps；所述的Eps是用在聚类中作收敛条件的距离阈值，邻域的具体定义如下：

Nei(f_i)＝{f_j|dist(f_i，f_j)≤eps，f_j∈F} (5)

定义2：若某特征邻域中的特征数不小于minFts，则该特征是核心特征；所述的minFts表示邻域的半径；

定义3：边界特征的邻域特征数少于minFts，但是它在某个核心特征的邻域中；

定义4：非典型特征是除了核心特征和边界特征之外特征；

定义5：如果特征f_j由f_i直接密度可达，则f_i是核心特征且f_j∈Nei(f_i)；

定义6：如果特征f_i由f_j密度可达，则存在特征链f₁，…，f_N，满足f₁＝f_j，f_N＝f_i，且f_i由f_i+1直接密度可达。

前述的基于密度聚类的面向聚类算法的特征选择方法所述的步骤c中,特征选择算法具体如下：

当特征簇的数量+非典型特征的数量＝要选择的特征数量时，选择距离每个特征簇中所有非典型特征最远的特征，并将其添加到非典型特征集中，以保证后面选择的特征与同一特征簇中的其它特征最不相关；

当要选择的特征数量小于剩余聚类的数量时，则计算每个聚类中的特征与非典型特征的距离，并对这些特征排序、按降序依次选择；

当要选择的特征数量大于剩余特征簇的数量，则根据每个特征簇的特征数量分配待选择的特征数，并且在每个特征簇中选择相应的边界特征。

前述的基于密度聚类的面向聚类算法的特征选择方法所述的步骤c中，通过选择所述的minFt和Eps，保证特征子集F’中的特征之间的冗余最少。

有益效果

与现有技术相比，本发明使用DBSCAN算法对特征进行聚类，并提出了一种基于相似度的数据聚类特征选择策略：首先将数据规范化使所有值都在特定区间内；其次根据欧氏距离的传递性，用其来估计两个特征之间的接近程度，即使用欧氏距离来度量特征之间的距离；欧氏距离的传递性特点保证了非相邻特征也可以是相似的，并且同一特征簇中的特征与其它特征簇更加无关；最后提出一种可以选择最具代表性的特征的一种较优的策略，提高了对稀疏数据集的处理能力。本发明使用欧几里德距离来度量特征之间的相似度，并应用基于密度的聚类算法DBSCAN对相关的特征聚类，此外，本发明又提出了一种能够准确选择每个特征簇中的代表性特征的策略(特征选择算法)，使得特征子集F’在聚类算法中具有更高的准确率。

本发明中，当把特征选择和聚类都同时应用于将相似特征划分到相同特征簇中时，DBACAN算法能够有效地找出对聚类结果的准确性有很大影响的不相关特征，进一步提高特征子集F’的准确性。

本发明将特征聚类并选择部分特征作为完整特征的最佳表示，即使用特征子集F’作为特征集F的最佳表示，使得聚类结果更准确。且由于特征子集F’中的特征之间的冗余最少，有效降低了计算成本和过拟合的风险。

本发明中，噪声点(即非典型特征)的特点是邻域特征少且离其它特征簇较远，因此非典型特征对数据聚类的结果有重要影响。由于DBSCAN算法能够识别噪声点，且DBSCAN算法在海量数据下表现较佳，因此本发明使用聚类进行特征选择，使用DBSCAN算法来实现高维数据的特征聚类及选择，并根据特征的相似度将其划分到不同的特征簇中。通过该方法有效提高了聚类及后续特征选择的准确性。

为了证明本发明有益效果，申请人进行了如下实验：

为了评估特征子集的聚类性能，本发明采用广泛使用的k-Means算法来验证结果。

K-means是一种基于划分的聚类方法，其思想简单易于运行，但是必须事先给定簇的数量以确定最终分成几类，然后随机挑选几个点作为初始中心点，再根据预定义的启发式算法迭代重置数据点，直到达到最终目标，保证“类内的点足够近，类间的点足够远”。由于每次计算所有样本和每个质心之间的相似性，因此k-Means算法在大规模数据集上效率较低。

为了对聚类结果有更好的参照，实验均使用带标签的数据集。因此k-Means中的k值即数据的类标签数。

以下实验运行在3.6GHzIntel2CoreCPU，4GB内存和64位Centos7操作系统的个人计算机上。本发明实验的数据集来自UCI数据集，数据集详细参数如表1所示。

表1实验数据集

实验方法如下：使用开源机器学习框架Scikit-learn对本发明与其它特征选择算法进行比较，对比算法包括基于方差分析的SelectKBest、Extra Trees Classifier和RFE。其中，实验中的单变量特征选择算法SelectKBest不能对所有类型的值进行分析，因此实验中使用f_classif对离散型数据进行度量以及使用f_regression来度量连续型数据。

需要说明的是，本发明的执行结果是通过多次实验来获取较优的minFts和Eps值得到的结果，以下实验中不再对这两个值有具体说明。

聚类结果评估：为了评估算法的准确性，本实验使用众所周知的k-Means均值聚类算法验证，并将聚类结果用四个指标进行比较，即Rand指数，V-measures，SilhouetteCoefficient和Calinski-Harabaz score。这四个指标均是值越大表示聚类效果越好。

其中，TreeClassifier算法可以自动选择特征的数量，因此图1-4中TreeClassifier的折线图仅表示具有浮动特征数的聚类结果，其目的在于可以清晰地与其它算法进行比较。TreeClassifier能够获得不确定数量的特征，是因为它的主要思想是训练一系列不同的决策树模型，并在每个树中随机选择特征集的子集。

图1,2展示了不同特征选择方法在两个小数据集中，即Mice Protein Expression和SCADI，选定不同特征数的准确性比较。其中Mice Protein Expression数据集中有1080个样本，77个特征属性和8个类标签，SCADI中有70个样本，205个特征属性和7个类标签。

从图1可以观察到TreeClassifier的4个度量值都明显低于本发明。选择较少的特征时KBest和RFE的表现不佳。此外，在Silhouette Coefficient和Calinski-Harabaz指标中，Fesim可以获得比另外三种方法更准确的结果。

从图2可看出，SelectKBest的准确度比第一个数据集中的Calinski-Harabaz值要高。本发明在大多数情况下准确率较高，并且随着所选特征数量的增加其精度也随之提高。TreeClassifier在此数据集上选择了大约50个特征，但在选择50个特征时它的准确度明显比另外三种算法更差。SelectKBest的准确率比较低，直到选择120个特征以上才获得良好的准确度。

以下实验是在两个较大的数据集Epileptic Seizure Recognition和geneexpression cancer RNA-Seq选择不同特征数的结果的准确性比较，其中前者包含较多的实例，而后者具有较多的特征，结果对比如图3,4所示。

从图3中可以看出，TreeClassifier每次会自动选择大约70个特征，但在这种情况下准确率较低。由于TreeClassifier模型无法设置所需的特征数，因此当选择特征的数量大于TreeClassifier自动获取的特征数时，它将会失去高准确率的优势。

图4展示了数据集的维度大小对四种算法的影响。当选择少量特征时，本发明的准确率不如其它算法，但是特征数量在超过600时，四种方法的度量值都接近了最大值。

综合以上实验可以得出，随着选择特征数量的增加聚类评价指标也呈现上升趋势。其中一个原因是，特征维度越多，概率估计越准确，各个指标就越容易得到更大的值。另一个原因是，选择的特征越多，数据信息越完整，聚类结果也就越好。

并且从结果中可以看出本发明在选择较少特征时准确率较低。因为当指定特征的数量很少时，本发明倾向于优先选择非典型特征，在这种情况下选择的数据通常不能很好地还原完整数据集的聚类结果，但其准确率仍然与大多数其它方法相当甚至更好。

并且本发明在Silhouette Coefficients指标中表现良好，因为SilhouetteCoefficients的计算基于欧几里德距离，而本发明的原则同样也是选择最远距离的特征。

另一方面，虽然本发明在计算高维数据的相似度矩阵时比SelectKBest和TreeClassifier算法耗时长，但它的平均执行时间仅为RFE的十分之一。

附图说明

图1是在Mice Protein Expression数据集中算法的比较；

图2是在SCADI数据集中算法的比较；

图3是在Epileptic Seizure Recognition数据集中算法的比较；

图4是在gene expression cancer RNA-Seq数据集中算法的比较；

具体实施方式

下面结合实施例对本发明作进一步的说明，但并不作为对本发明限制的依据。

实施例1。一种基于密度聚类的面向聚类算法的特征选择方法，按下述步骤完成，

对数据集D进行归一化处理得数据集D'，之后使用欧几里德距离(欧氏距离)作为数据集D'中特征间的相似度度量，构建特征间的相似度矩阵；归一化能够提高准确率，它在涉及到距离计算的算法时效果显著；

b.使用DBSCAN算法进行相似度矩阵的特征聚类，将特征分为核心特征、边界特征和非典型特征三类；具体依据DBSCAN算法中对点的划分原则将特征分为三类：核心特征、边界特征以及非典型特征；

前述的步骤a中，所述的归一化处理为，使用最大最小值规范化对特征进行缩放，计算公式如下：

x_scaled＝x_std×(max-min)+min (2)

前述的步骤a中，所述的相似度矩阵按下述方法构建：

数据集D包含M个实例和N个特征；x和y表示两个特征，每个特征用M个实例(即数据记录)在该属性上的取值(x₁,x₂,…,x_M)来表示；

则构建的相似度矩阵如下：

相似度矩阵构建的伪代码如下：

前述的步骤b中，相似度矩阵的特征聚类具体如下：

定义1：邻域，写作Nei(f_N)，表示特征f_i和f_j的欧氏距离小于Eps；所述的Eps是用在聚类中作收敛条件的距离阈值(该距离阈值很小)，邻域的具体定义如下：

Nei(f_i)＝{f_j|dist(f_i，f_j)≤eps，f_j∈F} (5)

定义4：非典型特征是除了核心特征和边界特征之外特征；具体地，非典型特征是从噪声点延伸出来的定义，它既不属于核心特征也不属于边界特征。

特征聚类的伪代码如下：

前述的步骤c中,特征选择算法具体如下：

当特征簇的数量+非典型特征的数量＝要选择的特征数量时，选择距离每个特征簇中所有非典型特征最远的特征，并将其添加到非典型特征集中，以保证后面选择的特征与同一特征簇中的其它特征最不相关；参见下述特征选择算法伪代码的第3-8行；

当要选择的特征数量小于剩余聚类(即剩余特征簇)的数量时，则计算每个聚类(即特征簇)中的特征与非典型特征的距离，并对这些特征排序、按降序依次选择；参见下述特征选择算法伪代码的第9-16行；

当要选择的特征数量大于剩余特征簇的数量(参见下述特征选择算法伪代码的第17-22行)，则根据每个特征簇的特征数量分配待选择的特征数，并且在每个特征簇中选择相应的边界特征。因为同一簇中的特征已经相关，所以考虑到选择策略越简单，算法就会越高效。

通过特征选择算法，使得特征子集F’在聚类算法中具有更高的准确率。

特征选择算法的伪代码如下：

前述的步骤c中，通过选择所述的minFt和Eps，保证特征子集F’中的特征之间的冗余最少；minFt和Eps参数的值，需要在实验过程中逐渐试错，然后确定下来较优的组合。

Claims

1.一种基于密度聚类的面向聚类算法的特征选择方法，其特征在于，按下述步骤完成，

2.根据权利要求1所述的基于密度聚类的面向聚类算法的特征选择方法，其特征在于：步骤a中，所述的归一化处理为，使用最大最小值规范化对特征进行缩放，计算公式如下：

x_scaled＝x_std×(max-min)+min (2)

3.根据权利要求2所述的基于密度聚类的面向聚类算法的特征选择方法，其特征在于，步骤a中，所述的相似度矩阵按下述方法构建：

数据集D包含M个实例和N个特征；x和y表示两个特征；

则构建的相似度矩阵如下：

4.根据权利要求3所述的基于密度聚类的面向聚类算法的特征选择方法，其特征在于，步骤b中，相似度矩阵的特征聚类具体如下：

Nei(f_i)＝{f_j|dist(f_i，f_j)≤eps，f_j∈F} (5)

定义4：非典型特征是除了核心特征和边界特征之外特征；

5.根据权利要求4所述的基于密度聚类的面向聚类算法的特征选择方法，其特征在于，步骤c中,特征选择算法具体如下：

6.根据权利要求5所述的基于密度聚类的面向聚类算法的特征选择方法，其特征在于，步骤c中，通过选择所述的minFt和Eps，保证特征子集F’中的特征之间的冗余最少。