CN105139031A

CN105139031A - 一种基于子空间聚类的数据处理方法

Info

Publication number: CN105139031A
Application number: CN201510520771.8A
Authority: CN
Inventors: 孙哲南; 谭铁牛; 宋凌霄; 张曼; 赫然
Original assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co Ltd
Current assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co Ltd
Priority date: 2015-08-21
Filing date: 2015-08-21
Publication date: 2015-12-09

Abstract

本发明公开了一种基于子空间聚类的数据处理方法，包括步骤：对于需要进行子空间聚类的全部数据，提取其中的特征点；对所提取的全部特征点归一化处理，获得特征点矩阵；为经过归一化处理的每个特征点x建立一个近邻集Ω；根据每个特征点x的近邻集Ω，构建全部特征点间的相似度矩阵W；计算全部特征点间的相似度矩阵W对应的拉普拉斯矩阵L，并对每个拉普拉斯矩阵L进行谱聚类分割，获得每个特征点的类别标号，实现对全部数据的子空间聚类处理。本发明公开的一种基于子空间聚类的数据处理方法，其在保证高精度的同时，高效地对大规模数据进行聚类处理，满足大规模数据处理需求，很好地适用于图像处理、计算机视觉和图像运动分割等数据处理领域。

Description

一种基于子空间聚类的数据处理方法

技术领域

本发明涉及模式识别、数字图像处理等数据处理技术领域，特别是涉及一种基于子空间聚类的数据处理方法。

背景技术

目前，聚类分析是数据挖掘领域中的关键技术之一。高维数据聚类是聚类分析技术的难点和重点，子空间聚类是实现高维数据集聚类的有效途径，它是在高维数据空间中对传统聚类算法的一种扩展，其思想是将搜索局部化在相关维中进行。子空间聚类技术因其在现实生活中的适用性而在图像分割、运动分割、人脸聚类、图像压缩与表示等方面具有广泛的应用。子空间聚类的目的是是寻找位于混合高维空间中的聚类，其基本假设是高维空间中的点往往分布于多个不同的低维子空间中，而每个低维子空间即为一个类。

对于基于谱聚类的子空间聚类方法，目前由于其优异的性能而备受关注，国内外领先的子空间聚类算法大多属于这一类。基于谱聚类的子空间聚类方法通常分为两个步骤：首先对输入的特征点计算一个亲和力矩阵，用于度量特征点之间的相关性；然后对此亲和力矩阵应用谱聚类算法得到聚类分割结果。基于谱聚类的子空间聚类算法主要差异在于不同的亲和力矩阵构建方法。而亲和力矩阵的构建方法可以分为两类，第一类方式是：将每个特征数据表示为其他特征数据的线性组合，从而将这些线性组合稀疏作为亲和力的度量。求解这种线性组合的过程往往依赖于最优化理论，因此这种方法被称为基于最优化的亲和力矩阵构建方法。第二类构建亲和力矩阵的方法则不经过优化过程，而是使用贪婪算法直接为每个特征数据选择一批相近特征数据作为其近邻集，然后以特征数据是否在其近邻集内的所属关系来构建亲和力矩阵。这类方法的计算过程相比基于最优化的方法要简化很多，因此，具有计算速度快的优点，但是由于贪婪算法只能达到单步最优的特征，其聚类结果往往容易收到噪声点的影响，因此，严重影响到聚类的效果，其所取得的聚类精度较低，无法满足人们的使用需求。

如今，随着大数据时代的来临，人们需要处理的数据规模往往非常大，因此，人们对基于聚类算法的数据处理方法提出了更要的要求，要求不仅高效，而且具有更高的聚类精度。因此，目前现有的基于谱聚类的子空间聚类的数据处理方法中，基于最优化的方法时间复杂度较高，而基于贪婪算法的方法聚类结果易受噪声点影响，鲁棒性不强，因此现有的子空间聚类数据处理方法并不适用于大规模数据的处理。

因此，目前迫切需要开发出一种方法，其可以在保证高精度的同时，快速、有效地对大规模的数据进行聚类处理，可以满足人们的大规模数据处理需求，节约人们宝贵的时间。

发明内容

有鉴于此，本发明的目的是提供一种基于子空间聚类的数据处理方法，其可以在保证高精度的同时，快速、有效地对大规模的数据进行聚类处理，可以满足人们的大规模数据处理需求，节约人们宝贵的时间，可以很好地适用于图像处理、计算机视觉和图像运动分割等数据处理领域，具有重大的生产实践意义。

为此，本发明提供了一种基于子空间聚类的数据处理方法，包括以下步骤：

第一步：对于需要进行子空间聚类的全部数据，提取其中的特征点；

第二步：对所提取的全部特征点进行归一化处理，获得特征点矩阵；

第三步：为经过归一化处理的每个特征点x建立一个近邻集Ω，每个所述近邻集Ω包含与其所归属特征点x所在的子空间距离最近的、预设数量的样本特征点；

第四步：根据每个特征点x的近邻集Ω，对应构建全部特征点间的相似度矩阵W；

第五步：计算全部特征点间的相似度矩阵W对应的拉普拉斯矩阵L，并对每个拉普拉斯矩阵L进行谱聚类分割，获得每个特征点的类别标号，实现对全部数据的子空间聚类处理。

其中，所述第二步具体为：将全部特征点分别除以自己的模长，获得对应的单位向量，然后以获得的单位向量代替原特征点作为新的特征点，最终获得特征点矩阵X∈R^D×N；

其中，D为特征维度，N为特征点数量，X的每一列即对应一个特征点的特征向量。

其中，所述第三步具体包括以下步骤：

步骤A)以经过归一化处理的每个特征点x为中心样本特征点，为每个特征点x构建初始化的近邻集Ω；

步骤B)根据近邻集Ω内包含的样本特征点，确定所述中心样本特征点x所在子空间U的正交基，实现对子空间U张成的更新；

步骤C)对于不在中心样本特征点x近邻集Ω内的所有特征点，逐一计算它们到中心样本特征点x的子空间U的投影，在子空间U上投影长度最大的特征点即为距离子空间U最近的样本特征点，将与当前所述中心样本特征点x所在的子空间距离最近的样本特征点新添加到近邻集Ω中；

步骤D)计算所述近邻集Ω中的每个样本特征点与中心样本特征点x的亲和力，如果所述近邻集Ω中与中心样本特征点x的亲和力最低的样本特征点不是新添加到近邻集Ω中的样本特征点，则从近邻集Ω中删除该样本特征点，然后返回执行步骤B)，直到所述近邻集Ω中所有样本特征点的数量达到预设数量。

其中，所述步骤A)包括以下步骤：

首先将每个特征点x作为中心样本特征点，并将自身加入到初始化的近邻集Ω内；

对于除中心样本特征点x外的其余特征点，选取距中心样本特征点x最近的P个特征点，P为预设的大于1的整数，根据稀疏表示目标函数min||c||₁s.t.x＝X^(P)c，逐一计算所述距中心样本特征点x最近的P个特征点对中心样本特征点x的重构系数，并选择其中重构系数c最大项对应的特征点作为除中心样本特征点x外加入近邻集Ω的第一个样本特征点，从而为每个中心样本特征点x构建初始化的近邻集Ω。

其中，在所述步骤B)中，所述子空间U的正交基按增量方式计算得到，具体正交基的计算公式如下：

η_{m + 1} = x_{j^{*}} - Σ_{k = 1}^{m} < x_{j^{*}}, η_{k} > η_{k};

其中，为加入近邻集Ω的最后一个特征点，为与正交基η_k的内积。。

其中，在所述步骤C)中，对于不在中心样本特征点x近邻集Ω内的所有特征点，其在子空间U上的投影长度按以下公式计算：

{proj}_{U} (x) = \sqrt{Σ_{k = 1}^{m} < x, η_{k} >^{2}};

其中，m为当前中心样本特征点x的子空间的维度,<x,η_k>为x与正交基η_k的内积。。

其中，在所述步骤D)中，计算所述近邻集Ω中的每个样本特征点与中心样本特征点x的亲和力的公式如下:

其中，X_Ω为由位于近邻集Ω内的特征点构成的矩阵，为X_Ω的Moore-Penrose伪逆矩阵，指的第k行，c_k即为近邻集Ω中第k个特征点与中心样本特征点x的亲和力。

其中，所述第四步具体包括以下步骤：

计算特征点间的毗邻矩阵Z，所述毗邻矩阵Z的计算公式为

其中，i,j＝1，2，…，N；

然后，根据特征点间的毗邻矩阵Z，计算对应的相似度矩阵W＝Z+Z^T，其中，Z^T为毗邻矩阵Z的转置。

其中，所述第五步具体包括以下步骤：

步骤A1)计算度矩阵D，D为一对角矩阵，其对角线上的元素为

D_{ii} = Σ_{j = 1}^{N} W_{ij};

其中，i＝1，2，…，N；

步骤A2)根据所述度矩阵D和相似度矩阵W，计算拉普拉斯矩阵L＝D-W；

步骤A3)计算拉普拉斯矩阵L的前k个最大特征值所对应的特征向量{v₁,v₂,…,v_k}，其中k为用户指定的分割类别数，然后将这k个N维特征向量排列在一起组成第一矩阵V，N为大于0的整数；

步骤A4)将第一矩阵V中的每一行{V₁，V₂，…，V_N}当做k维空间的一个向量，对这N个向量采用K-means聚类算法进行聚类，聚类结果记为S₁，S₂，…，S_k；

步骤A5)对于全部特征点中第i个样本特征点，若V_i∈S_j，则第i个样本特征点的输出类别标号为j，其中1≤i≤N，且i为整数，1≤j≤k，且j为整数，从而获得每个特征点的类别标号，实现对全部数据的子空间聚类处理。

由以上本发明提供的技术方案可见，与现有技术相比较，本发明提供了一种基于子空间聚类的数据处理方法，其相比现有的基于优化的子空间聚类方法的运算复杂度大大降低，更加适应于大规模数据的处理，本发明可以在保证高精度的同时，快速、有效地对大规模的数据进行聚类处理，可以满足人们的大规模数据处理需求，节约人们宝贵的时间，可以很好地适用于图像处理、计算机视觉和图像运动分割等数据处理领域，具有重大的生产实践意义。

附图说明

图1为本发明提供的一种基于子空间聚类的数据处理方法的流程图；

图2为本发明提供的一种基于子空间聚类的数据处理方法的具体实施例中，在对人脸图像进行2类、3类、5类和10类聚类实验时的准确率和计算时间示意框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和实施方式对本发明作进一步的详细说明。

参见图1，本发明提供一种基于子空间聚类的数据处理方法，其采用基于浮动搜索和贪婪近邻选择的子空间聚类数据处理方法，可以很好地适用于图像处理、计算机视觉和图像运动分割等数据处理领域，满足人们的大规模数据处理需求。该方法包括以下步骤：

步骤S101：对于需要进行子空间聚类的全部数据，提取其中的特征点；

步骤S102：对所提取的全部特征点进行归一化处理，从而获得特征点矩阵；

步骤S103：为经过归一化处理的每个特征点x建立一个近邻集Ω，每个所述近邻集Ω包含与其所归属特征点x所在的子空间(即低维子空间)距离最近的、预设数量的样本特征点；

步骤S104：根据每个特征点x的近邻集Ω，对应构建特征点间的相似度矩阵W；

步骤S105：计算全部特征点间的相似度矩阵W对应的拉普拉斯矩阵L，并对每个拉普拉斯矩阵L进行谱聚类分割，获得每个特征点的类别标号，从而实现对全部数据的子空间聚类处理。

在本发明中，需要说明的是，所述需要进行子空间聚类的全部数据可以为多个影像数据以及其他任意种类的需要进行子空间聚类的数据。

在步骤S101中，所述特征点可以为角点、交叉点等具体关键信息的特征点，也可将每个数据样本视为一独立特征点。

在步骤S101中，对所得到的每个特征点提取特征向量，每个特征向量都定义为一个列向量x∈R^D×1。其中D为特征维度。特征的选择无具体要求，据具体情况而定。

在步骤S102中，对所提取的全部特征点进行的归一化处理操作具体可以为：将全部特征点分别除以自己的模长，获得对应的单位向量，然后以获得的单位向量代替原特征点作为新的特征点，最终获得特征点矩阵X∈R^D×N。其中，D为特征维度，N为特征点数量，X的每一列即对应一个特征点的特征向量。

在步骤S103中，对于经过归一化处理的每个特征点x，建立一个近邻集的步骤具有包括以下子步骤：

步骤S1031：以经过归一化处理的每个特征点x为中心样本特征点，为每个特征点x构建初始化的近邻集Ω；

对于本发明，该步骤S1031具体包括以下步骤：

对于除特征点x外的其余特征点，选取距中心样本特征点x最近的P个特征点，P为预设的大于1的整数，根据稀疏表示目标函数min||c||₁s.t.x＝X^(P)c，逐一计算所述距中心样本特征点x最近的P个特征点对中心样本特征点x的重构系数，并选择其中重构系数c最大项对应的中心样本特征点作为除特征点x外加入近邻集Ω的第一个样本特征点，从而为每个中心样本特征点x构建初始化的近邻集Ω。

对于本发明，需要说明的是，对于任意一个中心样本特征点x，首先将其自身加入近邻集Ω内。求解如下稀疏表示目标函数，从而得到除中心样本特征点x外第一个加入近邻集的样本特征点：

min||c||₁s.t.x＝X^(P)c；

其中X代表特征点矩阵，P是用户指定的初始近邻选择范围，X^(P)是由距离x最近的前P个特征点构成的特征向量矩阵X^(P)∈R^D×P，c则是P个近邻对x进行稀疏表示的重构系数。这是一个典型的l₁范数最优化的问题，完成这一步即可对每个特征点x求得一个其近邻对x的重构系数c。然后，选择重构系数c中最大项对应的特征点作为除特征点x外加入近邻集Ω的第一个样本特征点。

步骤S1032：根据近邻集Ω内包含的样本特征点，确定所述中心样本特征点x所在子空间U的正交基，实现对子空间U张成的更新；

需要说明的是，对于本发明，对于任意一个特征点x，它的子空间的张成由近邻集Ω内的样本特征点完全决定。子空间U由一系列正交基η₁,η₂,…,η_m表示，其中，m为当前近邻集Ω内的样本特征点个数。子空间U的正交基按增量方式计算得到，具体计算公式如下：

η_{m + 1} = x_{j^{*}} - Σ_{k = 1}^{m} < x_{j^{*}}, η_{k} > η_{k};

其中，为加入近邻集Ω的最后一个特征点，为与正交基η_k的内积。根据上述公式，即可根据最新加入近邻集的特征点及已得到的正交基η₁,η₂,…,η_m，计算得到新的正交基η_m+1。按照加入近邻集Ω的顺序依次计算，即可根据Ω内所有元素得到全部的正交基。若当前子空间的维度已达用户指定维度，则不再增加正交基，张成的子空间不再更新。

步骤S1033：对于不在中心样本特征点x近邻集Ω内的所有特征点，逐一计算它们到中心样本特征点x的子空间U的投影，在子空间U上投影长度最大的特征点即为距离子空间U最近的样本特征点，将与当前所述中心样本特征点x所在的子空间距离最近的样本特征点新添加到近邻集Ω中(即支撑样本集)。

对于本发明，需要说明的是，根据上一步骤S1033得到子空间U后，对不在近邻集Ω内的所有特征点计算到子空间U的投影。因所有特征点均已归一化处理，故在子空间U上投影长度最大的点即为距离子空间U最近的样本特征点。对于不在特征点x近邻集Ω内的所有特征点，其在子空间U上的投影长度按以下公式计算：

{proj}_{U} (x) = \sqrt{Σ_{k = 1}^{m} < x, η_{k} >^{2}}

其中m为当前特征点x的子空间的维度。其中,<x,η_k>为x与正交基η_k的内积。

对于本发明采用的方法，贪婪地选择不在近邻集Ω合中距离当前子空间U最近的特征点作为下一个加入近邻集Ω的样本。

j^{*} = \arg \underset{j &Element; [N] \ Ω}{m a x} {proj}_{U} (x_{j})

其中，[N]代表集合{1，2，…，N}，即所有样本特征点的索引集合，[N]\Ω代表近邻集Ω在集合[N]中的补集。即在未加入近邻集Ω的特征点中选取距离当前子空间最近的点加入近邻集Ω。

步骤S1034：计算所述近邻集Ω中的每个样本特征点与中心样本特征点x的亲和力，如果所述近邻集Ω中与中心样本特征点x的亲和力最低的样本特征点不是新添加到近邻集Ω中的样本特征点，则从近邻集Ω中删除该样本特征点(如果是，不做处理)，然后返回执行步骤S1032，直到所述近邻集Ω中所有样本特征点的数量达到预设数量(即用户预设的数量)。

对于本发明，通过实施步骤S1033，通过检测亲和力的高低，来回溯并剔除近邻集Ω中不合适的样本特征点。每次加入一个新的样本特征点至近邻集Ω后，对近邻集Ω中所有元素进行一个回溯。具体实现上，计算在子空间U中的每个样本特征点与中心样本特征点x的亲和力公式如下：

其中，X_Ω为由位于近邻集Ω内的特征点构成的矩阵，为X_Ω的Moore-Penrose伪逆矩阵，指的第k行，c_k即为Ω中第k个特征点与x的亲和力。因此，若求得的与中心样本特征点x亲和力最低的点不是最近加入的则将该与x亲和力最低的点从近邻集Ω中剔除。因此，对于本发明，如果近邻集Ω中的邻居总数(即样本特征点总数)达到用户预设的数目，则退出迭代，否则返回执行步骤S1032，重复循环执行，继续增加近邻集内的样本特征点，直到近邻集Ω中的邻居总数(即样本特征点总数)达到用户预设的数目。

对于所述步骤S104，根据每个特征点x的近邻集Ω，对应构建每个特征点的相似度矩阵W，该步骤具体包括以下步骤：

步骤S1041：计算全部特征点间的毗邻矩阵Z，所述毗邻矩阵Z的计算公式为

其中，i,j＝1，2，…，N；

步骤S1042：然后，根据特征点间的的毗邻矩阵Z，计算对应的相似度矩阵W＝Z+Z^T，其中，Z^T为毗邻矩阵Z的转置。

对于所述步骤S105，计算全部特征点间的相似度矩阵W对应的拉普拉斯矩阵L，并对每个拉普拉斯矩阵L进行谱聚类分割，获得每个特征点的类别标号，从而实现对全部数据的子空间聚类处理。其中，计算每个特征点的相似度矩阵W的拉普拉斯矩阵L的过程如下，包括以下步骤：

步骤S1051：计算度矩阵D，D为一对角矩阵，其对角线上的元素为

D_{ii} = Σ_{j = 1}^{N} W_{ij};

其中，i＝1，2，…，N；

步骤S1052：根据所述度矩阵D和相似度矩阵W，计算拉普拉斯矩阵L＝D-W；

步骤S1053：计算拉普拉斯矩阵L的前k个最大特征值所对应的特征(列)向量{v₁,v₂,…,v_k}，其中k为用户指定的分割类别数，然后将这k个N维特征向量排列在一起组成第一矩阵V，N为大于0的整数；

步骤S1054：将第一矩阵V中的每一行{V₁，V₂，…，V_N}当做k维空间的一个向量，对这N个向量采用K-means聚类算法进行聚类，聚类结果记为S₁，S₂，…，S_k，N为大于0的整数；

对于本发明，为了不影响以上步骤S1054的运算执行时间，本发明采用了一种现有快速的k均值聚类算法lites-kmeans；

步骤S1055：对于第i个样本特征点，若V_i∈S_j，则第i个样本特征点的输出类别标号为j，其中1≤i≤N，且i为整数，1≤j≤k，且j为整数，从而获得每个特征点的类别标号，实现对全部数据的子空间聚类处理。

对于本发明，针对实际环境下处理大规模数据的需求，提出了一种基于浮动搜索和贪婪近邻选择的子空间聚类的数据处理方法。该方法使用贪婪算法选择样本来构建子空间，并加入浮动搜索来回溯判断由贪婪算法选择的样本是否为正确样本，最后依据所选样本构成的近邻集生成毗邻矩阵来进行子空间聚类。

本发明采用贪婪子空间近邻选择的方法来构建近邻集，并加入浮动搜索剔除错误选择的样本特征点。贪婪选择的特性使得该方法具有较快的计算效率，而浮动搜索的引入使该方法增强了算法的鲁棒性，可以获得更高的识别率。

为更加清楚地理解本发明的技术方案，下面结合具体实施例来进一步说明。

将本发明提出的技术方案应用于一个公开的人脸数据库，即Extended-YaleB人脸数据库。该数据库包括28个人的在64种不同光照条件，9种不同姿态下的人脸图像。在本发明的实施例中，采用其中由每个人脸的64张正脸图像构成数据库子集，进行2类聚类实验。为了降低计算量，本发明把原始96×84的人脸图像降采样到48×42大小，并将降采样的图像拉成一个维度为2016的列向量作为输入特征。选择两个人共128张图像进行聚类，因此输入数据矩阵为2016×128。具体步骤如下：

第一步：首先对所有输入数据进行归一化，得到128个单位长度的特征向量。

第二步：由于不用光照下的人脸图像理论上来说位于一个9维的子空间上，且考虑在实际条件下噪声等的影响，因此，本发明将构建的子空间维度设为15，略高于理论子空间维度。考虑到每一类的样本特征点实际数目较多且类别较少，设定初始邻居选择范围为10个样本特征点，近邻集的容量为15个样本特征点。

第三步：然后根据技术细节中所述步骤S103，为每个样本特征点计算得到包含15个邻居的近邻集(每个所述近邻集Ω包含与其所归属特征点x所在的子空间距离最近的、预设数量为15的样本特征点)。

第四步：根据邻接关系，计算相似度矩阵W以及拉普拉斯矩阵L，对L进行谱聚类分割，获得最终的聚类结果。

参见图2，展示了本发明提供的技术方案在进行2类、3类、5类以及10类聚类实验时的准确率和计算效率，每个结果均为100次随机实验的平均值。由图2可以得知，和传统方法相比较，本发明提供的方法在具有较高的聚类精度和较高的运算效率。

因此，基于本发明提供的一种基于子空间聚类的数据处理方法，其相比现有的基于优化的子空间聚类方法的运算复杂度大大降低，更加适应于大规模数据的处理，本发明可以在保证高精度的同时，快速、有效地对大规模的数据进行聚类处理，可以满足人们的大规模数据处理需求，节约人们宝贵的时间，可以很好地适用于图像处理、计算机视觉和图像运动分割等数据处理领域，具有重大的生产实践意义。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于子空间聚类的数据处理方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述第二步具体为：将全部特征点分别除以自己的模长，获得对应的单位向量，然后以获得的单位向量代替原特征点作为新的特征点，最终获得特征点矩阵X∈R^D×N；

3.如权利要求1所述的方法，其特征在于，所述第三步具体包括以下步骤：

4.如权利要求3所述的方法，其特征在于，所述步骤A)包括以下步骤：

5.如权利要求4所述的方法，其特征在于，在所述步骤B)中，所述子空间U的正交基按增量方式计算得到，具体正交基的计算公式如下：

η_{m + 1} = x_{j^{*}} - Σ_{k = 1}^{m} < x_{j^{*}}, η_{k} > η_{k};

6.如权利要求5所述的方法，其特征在于，在所述步骤C)中，对于不在中心样本特征点x近邻集Ω内的所有特征点，其在子空间U上的投影长度按以下公式计算：

{proj}_{U} (x) = \sqrt{Σ_{k = 1}^{m} < x, η_{k} >^{2}};

7.如权利要求6所述的方法，其特征在于，在所述步骤D)中，计算所述近邻集Ω中的每个样本特征点与中心样本特征点x的亲和力的公式如下:

8.如权利要求1至7中任意一项所述的方法，其特征在于，所述第四步具体包括以下步骤：

计算特征点间的毗邻矩阵Z，所述毗邻矩阵Z的计算公式为

其中，i,j＝1，2，…，N；

9.如权利要求1至7中任意一项所述的方法，其特征在于，所述第五步具体包括以下步骤：

步骤A1)计算度矩阵D，D为一对角矩阵，其对角线上的元素为

D_{i i} = Σ_{j = 1}^{N} W_{i j};

其中，i＝1，2，…，N；