CN102722578A

CN102722578A - 一种基于拉普拉斯正则化无监督的聚类特征选取方法

Info

Publication number: CN102722578A
Application number: CN2012101825144A
Authority: CN
Inventors: 何晓飞; 姚冠红
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-05-31
Filing date: 2012-05-31
Publication date: 2012-10-10
Anticipated expiration: 2032-05-31
Also published as: CN102722578B

Abstract

本发明公开了一种基于拉普拉斯正则化无监督的聚类特征选取方法，包括：（1）构建样本特征矩阵；（2）计算拉普拉斯矩阵；（3）对样本特征矩阵进行特征提取。本发明通过直接度量后续学习预测结果的方差来选择特征，能直接提高后续学习预测效果；同时在特征提取过程中考虑选取的特征点对于学习问题的预测值的影响，故能有效提高后续的学习效率；另外本发明数据的建模是基于数据的流形几何的拉普拉斯方法，该方法能有效的反映数据在空间中的分布信息，从而能够找出信息量最大的维度。

Description

一种基于拉普拉斯正则化无监督的聚类特征选取方法

技术领域

本发明属于数据处理技术领域，具体涉及一种基于拉普拉斯正则化无监督的聚类特征选取方法。

背景技术

聚类是机器学习和数据挖掘中一种常见的多元统计分析方法，它讨论的对象是大量的样品，要求能按各自的特性来进行合理的分类，没有任何模式可供参考或依循，即在没有先验知识的情况下进行的。目前，作为一种有效地数据分析手段，聚类方法被广泛应用于各大领域：在商业上，聚类分析被用来发现不同的客户群，并且通过购买模式刻画不同的客户群的特征；在生物上，聚类分析被用来动植物分类和基因进行分类，获取对种群固有结构的认识；在地理上，聚类能够帮助在地球中被观察的数据库上趋于的相似性；在保险行业上，聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组，同时根据住宅类型，价值，地理位置来鉴定一个城市的房产分组；在互联网应用中，聚类分析被用来对网络中的文档进行归类，对虚拟社区中的用户进行分组。

常见的聚类分析方法主要包括如下几种：

（1）分裂法，又称划分方法，首先创建K个划分，K为要创建的划分的个数；然后利用一个循环定位的技术通过将对象从一个划分移到另一个划分来改善划分质量。典型的划分方法有：K均值聚类算法（Kmeans）、K中心聚类算法（Kmedoids）和聚类大应用程序算法（CLARA，Clustering LARge Application）等。

（2）层次法，通过创建一个层次以分解给定的数据集。该方法可以分为自上而下（分解）和自下而上（合并）两种操作方式。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。典型的层次方法有：基于平衡迭代降低的层次聚类算法（BIRCH，Balanced Iterative Reducing andClustering using Hierarchies）、基于表达的聚类算法（CURE，Clustering UsingREprisentatives）和基于动态模型的层次聚类算法（CHEMALOEN）等。

（3）基于密度的方法，根据密度完成对象的聚类。它根据对象周围的密度不断增长聚类。典型的基于密度的方法有：基于密度的聚类算法（DBSCAN，Densit-based Spatial Clustering of Application with Noise）和基于对象排序识别聚类结构的聚类算法（OPTICS，Ordering Points To Identify the Clustering Structure）。

（4）基于网格的方法，首先将对象空间划分为有限个单元以构成网格结构，然后利用网格结构完成聚类。

（5）基于模型的方法，它假设每个聚类的模型并发现适合相应模型的数据。

这些传统的聚类方法已经比较成功的解决了低维数据的聚类问题，但随着信息技术的迅速发展，数据采集能力的提高导致各领域数据的维度呈指数级增长，由于实际应用中数据的复杂性，在处理许多高维数据时传统的聚类方法经常失效。因为传统聚类方法对高维数据集中进行聚类时，主要遇到两个问题：（1）高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零，大大增加了运算的复杂度；（2）高维带来的维度灾难使得某些聚类算法的实用性几乎为零，在图像，识别，信息检索等众多领域，严重影响学习的效率和效果。

针对以上两个问题，研究者提出了特征选择和特征提取两种聚类预处理方法。特征提取是将原有的特征进行转换和组合，产生新的有效的特征。而特征选择是从原来大量的特征中挑选出包含最多信息的特征。这两项技术是成功的数据应用学习的重要组成部分。根据是否利用标记数据进行训练，特征选择可以分成监督式特征学习和非监督式特征学习。典型的监督式特征学习包括费舍尔分值法（Fish score），蓬松相关系数法（Person correlation coefficients）等。这些方法能很有效的进行特征选择。然而，在实际应用中，由于对数据进行标记需要昂贵的人力成本，并且有时候，带标记的数据难以取得，因此监督式学习就难以在一些应用中发挥作用。

故为了解决维数灾难和消除数据中对于学习来说不必要的冗余信息，常采用非监督式特征选择对数据进行预处理。目前主要的非监督式方法有：

拉普拉斯分值法（Laplacian Score）：利用数据的原始流形空间信息，挑选出最符合数据几何分布规律的特征点。它从最本质的原理出发，充分利用了数据的分布特性，揭示事物的本质，简化复杂的问题。

Q-alpha法：通过优化最小二乘法标准函数通过估计所选维度数据点的聚类性来挑选特征。

方差法（Variance）：选取方差变化最大的特征为所需特征。

拉普拉斯分值作为经典的特征选择的谱方法，目前已经广泛应用于各种应用，该方法可以有效地找出数据的主要特征，但是不能有效地提取出数据的类别特征；Q-alpha作为一种特征选择方法，在基因的选择上有很好的效果，但是不适合其他应用（比如图形图像的处理）；方差特征选择法是最简单的一种特征选择方法之一，但是它仅仅选择变化最大的特征作为包含信息量最大的特征，这样的选择方式容易被噪音数据所干扰。

发明内容

针对现有技术所存在的上述技术缺陷，本发明提供了一种基于拉普拉斯正则化无监督的聚类特征选取方法，能够改善后续学习及聚类分析的效果，提高学习及聚类分析的判别能力。

一种基于拉普拉斯正则化无监督的聚类特征选取方法，包括如下步骤：

（1）获取样本数据集合，进而构建样本数据集合的样本特征矩阵；

所述的样本特征矩阵为n×m维矩阵，n为特征个数，m为样本个数，且m和n均为大于1的自然数；

（2）根据所述的样本特征矩阵，计算出其对应的拉普拉斯矩阵；

（3）根据所述的拉普拉斯矩阵，利用基于拉普拉斯正则化算法从样本特征矩阵中提取出k行特征集合，k为预期给定的特征提取个数。

所述的步骤（3）中，利用基于拉普拉斯正则化算法从样本特征矩阵中提取出k行特征集合的具体过程如下：

a.取样本特征矩阵中的任一行特征集合作为特征过渡矩阵Y₁；

b.根据以下方程组计算特征过渡矩阵Y₁对应的方差z₁：

z₁＝max{g₁₁，g₁₂，g₁₃…g_1m}

g_1j＝(y_1j)^TH^-1Y₁(Y1)^TH^-1y_1j

H^{- 1} = \frac{1}{β} I - \frac{1}{β} Y_{1} {(Q_{1})}^{- 1} {(Y_{1})}^{T}

Q₁＝M+(Y₁)^TY₁

M＝β(I+αL)^-1

其中：y_1j为Y₁的第j列特征向量，j为自然数，且1≤j≤m，L为样本特征矩阵对应的拉普拉斯矩阵，I为单位矩阵，α和β均为给定的运算系数；

c.根据步骤a和b，遍历样本特征矩阵中的每一行特征集合，得到n个方差，从样本特征矩阵中提取出最小方差所对应的一行特征集合，并令该行特征集合为S₁，以完成第一次特征提取；

d.依次完成k次特征提取后从样本特征矩阵中提取得到k行特征集合；

其中，关于第i次特征提取的过程为：构建一i×m维矩阵，令S₁~S_i-1为该矩阵的前i-1行特征集合，取样本特征矩阵中除S₁~S_i-1外的任一行特征集合为该矩阵的第i行特征集合，并使该矩阵作为特征过渡矩阵Y_i，i为自然数，且2≤i≤k；根据以下方程组计算特征过渡矩阵Y_i对应的方差z_i：

z_i＝max{g_i1，g_i2，g_i3…g_im}

g_ij＝(y_ij)^TH^-1Y_i(Y_i)^TH^-1y_ij

H^{- 1} = \frac{1}{β} I - \frac{1}{β} Y_{i} {(Q_{i})}^{- 1} {(Y_{i})}^{T}

Q_i＝M+(Y_i)^TY_i

M＝β(I+αL)^-1

其中：y_ij为Y_i的第j列特征向量；

依此，遍历样本特征矩阵中除S₁~S_i-1外的每一行特征集合，得到n-i+1个方差，从样本特征矩阵中提取出最小方差所对应的一行特征集合，并令该行特征集合为S_i。

优选地，第i次特征提取过程中，根据以下方程组计算特征过渡矩阵Y_i对应的方差z_i：

z_i＝max{g_i1，g_i2，g_i3…g_im}

g_ij＝(y_ij)^TH^-1Y_i(Y_i)^TH^-1y_ij

H^{- 1} = \frac{1}{β} I - \frac{1}{β} Y_{i} {(Q_{i})}^{- 1} {(Y_{i})}^{T}

{(Q_{i})}^{- 1} = {[M + {(Y_{i})}^{T} Y_{i}]}^{- 1} = {(Q_{i - 1})}^{- 1} - \frac{{(Q_{i - 1})}^{- 1} x_{i} {(x_{i})}^{T} {(Q_{i - 1})}^{- 1}}{1 + {(x_{i})}^{T} {(Q_{i - 1})}^{- 1} x_{i}}

其中：x_i为Y_i的第i行特征集合。

采用该优选技术方案能够大幅减少相应运算量，有效提升特征提取过程的速率。

本发明的有益技术效果为：

（1）促进后续学习分析的有效性：相比其他特征选择方法，本发明方法通过直接度量后续学习预测结果的方差来选择特征，由此方法选择出的特征能直接提高后续学习预测效果。

（2）可解释性：因为本发明方法选取特征点的过程是直接考虑选取的特征点对于学习问题的预测值的影响，所以比其他方法更能直接的提高后续的学习效率。

（3）良好的数据建模：本发明方法数据的建模是基于数据的流形几何的拉普拉斯方法，该方法相比于一般模型，能有效的反映数据在空间中的分布信息；基于此方法的特征选择方法能够找出信息量最大的维度。

附图说明

图1为本发明特征提取方法的步骤流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的聚类方法进行详细说明。

如图1所示，一种基于拉普拉斯正则化无监督的聚类特征选取方法，包括如下步骤：

（1）构建样本特征矩阵。

本实施方式以ORL人脸数据集为例，该数据集合的统计信息如表1所示。

表1

数据集	人脸图像帧数	人脸类别数	图像特征个数
				ORL	1400	20	1024

其中，ORL人脸数据集中有1400帧人脸图像，1400帧人脸图像由20个不同相貌的人的人脸图像组成（每个人各70帧人脸图像）。

选取ORL人脸数据集中五类人脸图像作为原始的高维数据集合，并构建对应的样本特征矩阵X，X为n×m维矩阵，m为样本个数（即图像帧数），n为样本的特征个数，样本特征矩阵中的元素值为样本各特征的特征值；m=5×70=350，n=1024。

（2）计算拉普拉斯矩阵。

根据样本特征矩阵X，计算出其对应的拉普拉斯矩阵L；

求解拉普拉斯矩阵L的具体过程如下：

a.构造邻接图：将n个数据点构造成邻接图G。定义度量点之间关联性的函数，根据定义，如果x_i和x_j关联度高（也可以认为是点与点在流形上的相近程度），则在图G上的点i和点j就有边相连。

一般采用两种函数用来计算点之间的相关性:

1.∈-邻接计算法，[∈∈R]。如果||x_i-x_j||²＜∈，则图G上的点i和点j之间有边相连。

2.K近邻法，[k∈N]。如果x_i在x_j的k个最近邻中或者x_j在x_i的k个最近邻中，则图G上的i和j之间有边相连。（本实施方式采用K近邻法）

b.赋权重：构造m×m的矩阵W，W_ij表示图G上点i和点j之间边的权重值，如果i和j之间没有边相连，则权重为0。W_ij的计算方法也有两种：

1.高斯核，如果点i和点j是相连的。则权重

2.二值法，如果点i和点j相连，则权重W_ij＝1。

L=D-W，其中D矩阵为对角矩阵，对角上的每个元素D_ii＝∑_j W_ij。

（3）对样本特征矩阵进行特征提取。

a.取样本特征矩阵X中的任一行特征集合作为特征过渡矩阵Y₁；

b.根据以下方程组计算特征过渡矩阵Y₁对应的方差z₁：

z₁＝max{g₁₁，g₁₂，g₁₃…g_1m}

g_1j＝(y_1j)^TH^-1Y₁(Y₁)^TH^-1y_1j

H^{- 1} = \frac{1}{β} I - \frac{1}{β} Y_{1} {(Q_{1})}^{- 1} {(Y_{1})}^{T}

Q₁＝M+(Y₁)^TY₁

M＝β(I+αL)^-1

其中：y_1j为Y₁的第j列特征向量，j为自然数，且1≤j≤m，L为样本特征矩阵X对应的拉普拉斯矩阵，I为单位矩阵，α和β均为运算系数；本实施方式中，α=β=0.001。

c.根据步骤a和b，遍历样本特征矩阵X中的每一行特征集合，得到n个方差，从样本特征矩阵X中提取出最小方差所对应的一行特征集合，并令该行特征集合为S₁，以完成第一次特征提取；

d.依次完成k次特征提取后从样本特征矩阵X中提取得到k行特征集合；

其中，关于第i次特征提取的过程为：构建一i×m维矩阵，令S₁~S_i-1为该矩阵的前i-1行特征集合，取样本特征矩阵X中除S₁~S_i-1外的任一行特征集合为该矩阵的第i行特征集合，并使该矩阵作为特征过渡矩阵Y_i，i为自然数，且2≤i≤k，k为预期的特征提取个数，本实施方式k=20；根据以下方程组计算特征过渡矩阵Y_i对应的方差z_i：

z_i＝max{g_i1，g_i2，g_i3…g_im}

g_ij＝(y_ij)^TH^-1Y_i(Y_i)^TH^-1y_ij

H^{- 1} = \frac{1}{β} I - \frac{1}{β} Y_{i} {(Q_{i})}^{- 1} {(Y_{i})}^{T}

{(Q_{i})}^{- 1} = {[M + {(Y_{i})}^{T} Y_{i}]}^{- 1} = {(Q_{i - 1})}^{- 1} - \frac{{(Q_{i - 1})}^{- 1} x_{i} {(x_{i})}^{T} {(Q_{i - 1})}^{- 1}}{1 + {(x_{i})}^{T} {(Q_{i - 1})}^{- 1} x_{i}}

其中：y_ij为Y_i的第j列特征向量，x_i为Y_i的第i行特征集合。

依此，遍历样本特征矩阵X中除S₁~S_i-1外的每一行特征集合，得到n-i+1个方差，从样本特征矩阵X中提取出最小方差所对应的一行特征集合，并令该行特征集合为S_i。

最后对提取得到的k行特征集合构成的数据矩阵进行K均值聚类。

以下依次使聚类个数p＝10，15，通过分析精确度（accuracy，简写为AC）和标准化互信息（normalized mutual information，简写为NMI）两个指标来比较通过Laplacian Score、Q-alpha、Variance和本实施方式四种特征提取方法预处理后的聚类效果；最终的指标数据结果如表2所示。

精确度是用来计量正确标记的数据的百分比：

标准化互信息是用来度量两个集合之间的相关性的信息度量，给定两个集合C和C′：

MI (C, C^{'}) = \underset{c_{i} &Element; C, c_{j}^{'} &Element; C^{'}}{Σ} p (c_{i}, c_{j}^{'}) \cdot \log \frac{p (c_{i}, c_{j}^{'})}{p (c_{i}) \cdot p (c_{j}^{'})}

NMI (C, C^{'}) = \frac{MI (C, C^{'})}{\max (H (C), H (C^{'}))}

其中：p(c_i)，p(c′_j)表示从数据集中任意选取某一数据，分别属于c_i，c′_j的概率，p(c_i，c′_j)则表示同时属于两类的概率；H(C)和H(C′)分别表示C和C′的熵。

表2

由表2可见，本实施方式相比现有技术的三种特征提取方法，聚类的效果和判别能力能够得到明显的改善和提高。

Claims

1.一种基于拉普拉斯正则化无监督的聚类特征选取方法，包括如下步骤：

2.根据权利要求1所述的基于拉普拉斯正则化无监督的聚类特征选取方法，其特征在于：所述的步骤（3）中，利用基于拉普拉斯正则化算法从样本特征矩阵中提取出k行特征集合的具体过程如下：

b.根据以下方程组计算特征过渡矩阵Y₁对应的方差z₁：

z₁＝max{g₁₁，g₁₂，g₁₃…g_1m}

g_1j＝(y_1j)^TH^-1Y₁(Y₁)^TH^-1y_1j

H^{- 1} = \frac{1}{β} I - \frac{1}{β} Y_{1} {(Q_{1})}^{- 1} {(Y_{1})}^{T}

Q₁＝M+(Y₁)^TY₁

M＝β(I+αL)^-1

z_i＝max{g_i1，g_i2，g_i3…g_im}

g_ij＝(y_ij)^TH^-1Y_i(Y_i)^TH^-1y_ij

H^{- 1} = \frac{1}{β} I - \frac{1}{β} Y_{i} {(Q_{i})}^{- 1} {(Y_{i})}^{T}

Q_i＝M+(Y_i)^TY_i

M＝β(I+αL)^-1

其中：y_ij为Y_i的第j列特征向量；

3.根据权利要求2所述的基于拉普拉斯正则化无监督的聚类特征选取方法，其特征在于：第i次特征提取过程中，根据以下方程组计算特征过渡矩阵Y_i对应的方差z_i：

z_i＝max{g_i1，g_i2，g_i3…g_im}

g_ij＝(y_ij)^TH^-1Y_i(Y_i)^TH^-1y_ij

H^{- 1} = \frac{1}{β} I - \frac{1}{β} Y_{i} {(Q_{i})}^{- 1} {(Y_{i})}^{T}

{(Q_{i})}^{- 1} = {[M + {(Y_{i})}^{T} Y_{i}]}^{- 1} = {(Q_{i - 1})}^{- 1} - \frac{{(Q_{i - 1})}^{- 1} x_{i} {(x_{i})}^{T} {(Q_{i - 1})}^{- 1}}{1 + {(x_{i})}^{T} {(Q_{i - 1})}^{- 1} x_{i}}

其中：x_i为Y_i的第i行特征集合。