CN106845519A

CN106845519A - 一种分布式实现的稀疏子空间聚类方法

Info

Publication number: CN106845519A
Application number: CN201611183512.1A
Authority: CN
Inventors: 袁晓彤; 吴杰祺; 刘青山
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2017-06-13

Abstract

本发明公开了一种分布式实现的稀疏子空间聚类方法，其在多台计算机组成的集群上，将数据分发到每个计算节点上，然后每个计算节点选取本计算机和其他计算机的数据计算一个Lasso稀疏重建子问题直至问题收敛，当所有子问题由所有计算节点分工计算完成后，将计算结果向量汇总到主进程或管理节点，进行后续的带权无向图的生成和谱聚类过程，最终得到分类编号。较常用的ADMM串行计算，在不降低分类精确度的情况下，计算速度有了明显的提高。

Description

一种分布式实现的稀疏子空间聚类方法

技术领域

本发明公开了一种分布式实现的稀疏子空间聚类方法，涉及机器学习数据处理技术领域。

背景技术

聚类问题是无监督机器学习研究的重要问题之一，在图像处理，数据挖掘，社交网络等领域得到广泛研究和应用。然而在许多实际问题中，随着数据维度的不断快速增加，所谓的“维数灾难”问题也日益显著。高维的数据如果用传统方法来求解，时间复杂度往往会难以承受，因此高维数据的高效建模和计算问题成为目前数据挖掘的重要挑战和难点。

Elhamifar&Vidal提出了建立在自表达性质基础上的稀疏子空间聚类模型。该模型利用每个样本的稀疏自表达重建系数构造相似度矩阵，进而将相似度矩阵应用谱聚类。坐标下降算法是经典的优化算法之一，近年来在高维稀疏学习问题(如LASSO)中得到很好的应用。

针对稀疏子空间聚类模型的自表达系数矩阵优化问题提出一种基于坐标下降的求解方法及其分布式实现。目前关于分布式稀疏子空间聚类算法的研究还较少。在原始的SSC论文中，Elhamifar&Vidal在求解系数矩阵使用的方法是交替方向乘子法(AlternatingDirection Method of Multipliers,ADMM)。但是ADMM需要更多的迭代次数，收敛速度慢，停止准则不好判断，参考量之间相互耦合，因此不利于分布式实现。故本发明提出一种案将整体的一个Lasso问题拆解成数个Lasso子问题进而分布式计算。

发明内容

为解决现有技术上的缺陷，本发明目的是在于提供了一种分布式实现的稀疏子空间聚类方法，充分利用计算机资源，将传统串行计算拓展到高性能分布式计算，符合大数据处理的趋势，降低了算法的处理时间。

为实现上述目的，本发明的技术方案如下：

一种分布式实现的稀疏子空间聚类方法，包括以下步骤：

步骤1、首先将待聚类的数据或图片提取特征后按列排列组成一个矩阵，得到原始数据。

步骤2、将原始数据分配到每个计算节点上，由于每个计算节点要分别计算各自的Lasso问题，所以各个计算节点要将数据用不同的序号分割，每个计算节点再从其他节点复制所有其他节点的数据，以得到求解Lasso稀疏重建需要的数据。

步骤3、以上就得到了分布式解决Lasso问题的条件，每个计算节点独立运行，用坐标下降法求解各自的Lasso问题。如果是单机并行计算，由于各个数据的稀疏重建是独立的，因此可以通过多核cpu并行计算。

步骤4、由于特征数量远远大于计算节点的数量，需要多次对计算节点分配需要以遍历完所有的特征。

步骤5、将每个计算节点的计算结果全部收集汇总，进行后续的带权无向图的生成和谱聚类过程，最终得到分类编号。

将整个Lasso稀疏重建问题拆解成Lasso子问题，并分别独立求解。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)将大问题分解成子问题分布式计算后，降低了算法的处理时间；

(2)充分利用计算机资源，将传统串行计算拓展到高性能分布式计算，符合大数据处理的趋势。

附图说明

图1是本发明机并行实现过程；

图2是本发明分布式实现过程。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

参加图1和图2，本发明提供的一种分布式实现的稀疏子空间聚类方法，其首先在将求解相似度矩阵的Lasso问题过程中将常用的ADMM算法替换为坐标下降法求解，然后利用坐标下降法求解Lasso问题过程的可分性将问题分布式计算。

本发明方法包括以下步骤：在多台计算机组成的集群上，将数据分发到每个计算节点上，然后每个计算节点选取本计算机和其他计算机的数据计算一个Lasso稀疏重建子问题直至问题收敛，当所有子问题由所有计算节点分工计算完成后，将计算结果向量汇总到主进程或管理节点，进行后续的带权无向图的生成和谱聚类过程，最终得到分类编号。较常用的ADMM串行计算，在不降低分类精确度的情况下，计算速度有了明显的提高。其具体方法如下：

步骤1、首先将待分类的图片提取特征后按列排列组成一个矩阵，得到原始数据：关于原始数据的生成，简要介绍一下稀疏子空间聚类模型。假设在D维欧几里得空间R^D中有n个线性的子空间他们的维度分别是给定一个具有N个无噪声的数据点集合这些数据点取自n个子空间中，则用一个矩阵来包括所有数据点，如：

Y＝[y₁,y₂,...,y_N] (1)

其中，是维度为d_l的矩阵，矩阵的元素来自于S_l且满足N_l＞d_l。假设事先不知道子空间的先验基，也不知道数据点属于哪一个子空间，那么子空间聚类的问题就归结于子空间数量是挖掘，每个子空间的维度和基，还有对矩阵Y的数据分割。要解决这个问题，首先对于每个数据点，寻找一些其他属于同一个子空间的数据点，这可以通过一个全局稀疏优化程序来将数据点所属子空间的信息保存在一个矩阵中。然后将这个矩阵应用在谱聚类中来聚类数据。

上述全局稀疏优化程序得出的矩阵称为稀疏表达矩阵，其代表的是重建的系数。如上文所述，在子空间集合中的每个数据点能够被数据集中的其他数据点共同重建。有这样一个数据点可以表示为

y_i＝Y_-ic_i,c_ii＝0 (2)

其中，c_i＝[c_i1,...,c_iN]^T，而c_ii＝0表示在数据点组成的矩阵Y中，每个数据点可以被写成其他数据点Y_-i的线性组合，而其中并不包括自己。然而，通常字典Y中y_i的表达结构并不是独一无二的，这就形成了这样一个事实：子空间中数据点的数量一般比它的维度大，也就是N_l＞D_l。这样一来，每个Y_l就有一个非平凡的零空间，从而带来了每个数据点有无限个表达结构的结果。问题(2)就成了稀疏子空间聚类的关键点。假设存在一个稀疏解c_i，它的非零项对应着同一子空间的数据点，将这样的解作为稀疏子空间的表达结构。

具体来说，一个归属于d_l维子空间S_l的数据点y_i可以被写成d_l个S_l内其他点的线性组合。最终，出于理想化的考虑，一个数据点的稀疏表达可以找出同一个子空间的数据点，非零元素的数目就是潜在子空间的维度。

由于(2)方程可以有无穷多个解，可以用范数加在这个最小化目标函数中，如

将每部分写成整体形式，并考虑加性噪声，则得到如下优化问题

(3)和(4)的解就是数据点的子空间稀疏表达系数。可以用ADMM方法求解，亦可以使用坐标下降法，而且同样有稀疏解，在后一节中会介绍坐标下降法对这个问题的求解。

在解出目标优化程序后得到了数据点的稀疏表达矩阵，接下来就是考虑如何用这个矩阵来将数据分割至不同的子空间中。

对这个问题，可以建立一个带权无向图g＝(v,ε,W)，其中v定义为此图关于N个数据点的N个节点，定义为每个节点之间的边界的集合，W∈R^N×N是一个对称且非负的对称矩阵，并作为一个相似度矩阵来表示边界的权重。一个理想的带权无向图，它在同一个子空间的节点是互相链接的，而不同子空间的节点是互相没有联系的。相似度矩阵W由下式给出

W＝|C|+|C|^T (5)

这说明节点i与节点j通过一个权重为|c_ij|+|c_ji|的边界相联系。最后对相似度矩阵应用谱聚类算法得出聚类结果。

步骤2、将原始数据分配到计算机的每个核或者每个计算节点上，由于每个核或者每个计算节点要分别计算各自的Lasso问题，所以每个核或计算节点要将数据用不同的序号分割，以得到Lasso需要的数据；所述下坐标下降法对于Lasso的求解过程：

坐标下降法适用于解决最小化目标函数问题，是一种非梯度算法。坐标下降法寻找一个目标函数的局部最小值，先选定一个坐标方向x_i，并固定其他所有的方向x_-i，对当前坐标方向一维搜索，优化，再选定x_i+1，固定其他的坐标再计算，循环直到目标函数稳定。

对于上面(3)的问题，要用坐标下降法求解，需要将每一个样本的自表达问题等价地写成如下Lasso的形式：

设原始数据Y∈R^D×N，如上文所设，其中y_i是Y中的第i列，Y_-i是Y中抽出向量y_i剩下的元素组成的矩阵，i∈{i＝1,2,...,N}。x是解集C中去掉全零对角线剩下矩阵元素中的一列，λ是平衡式中两项的参数。在选定一个x_i并固定x_-i后，令Ψ＝Y_-i ^TY_-i，ω^T＝-y_i ^TY_-i，Ψ_i是矩阵Ψ的第i列，ωi是向量ω的第i个元素，xi的每一个元素为k∈{k＝1,2,...,N-1}。为了求出(6)的最优解，先展开(6)：

令Ψ＝Y_-i ^TY_-i，ω^T＝-y_i ^TY_-i，由于后面会对f(x)求导，而y_i ^Ty_i是已知的常数，所以先忽略这一常数项，则得到下式：

对其展开计算：

选定一个坐标方向x_i，固定其他所有的坐标x_-i，即为常数，由于Ψ,ω皆事先给定，则可令所有带有x_-i的项之和为const，得到下式：

接下来要求f(x)的最小值，以x₁为例，由于Ψ,ω非负，就可以直接将(8)对x₁求导，但由于其中包括绝对值项，同时对x的正负做出讨论：

当x＞0:

f'(x)＝Ψ₁₁x₁+Ψ₂₁x₂+…+Ψ_n1x_n+ω₁+λ

其中x₂…x_n项Ψ₂₁x₂+…+Ψ_n1x_n可以表示成Ψ₁x-Ψ₁₁x₁，令导数f'(x)＝0，得

x₁ ^k+1表示对x₁进行第k+1次迭代得到的值，Ψ₁是矩阵Ψ的第一列，由于规定x＞0，令β＝Ψ₁x₁-Ψ₁₁x₁ ^k+ω₁，有β＜-λ，若β≥-λ，要使f(x)达到最小值，只有唯一的x＝0。

当x＜0:

f'(x)＝Ψ₁₁x₁+Ψ₂₁x₂+…+Ψ_n1x_n+ω₁-λ

同理得到

由于规定x＜0，同样令β＝Ψ₁x₁-Ψ₁₁x₁ ^k+ω₁，有β＞λ，若β≤λ，要使f(x)达到最小值，同样只有x＝0。推广到一般形式：

得到之后对x_i做一次更新，如此循环直至目标函数下降至稳定状态。

步骤3、分布式解决Lasso问题，将每个核或计算节点称为计算节点，每个计算节点用坐标下降法求解各自的Lasso问题：分布式的求解方式通过步骤2来拓展，假设每个计算节点序号是R，R∈{R＝1,2,...,P}，计算节点的数目为P。如果是单机并行计算，假设计算机的核心数目为P，那么它的进程数目一般来说也是P，每个进程序号是R，R∈{R＝1,2,…,P}，在所有进程上更新对应进程数目个数的坐标。令则对于(6)，分布式后的最优解为：

步骤5、将每个计算节点的计算结果全部收集汇总，进行后续的带权无向图的生成和谱聚类过程，最终得到分类编号：每个核心得出的最优解暂时存放在不同的位置，然后需要用分布式框架中的集合通信来将所有的x_i+R汇聚到一个核心中，再进行后续的运算。此分布式方法在坐标下降法每次循环之外，求解每个x_i的过程与非分布式模式下完全相同，所以这个过程并未影响目标函数的收敛，求得的解同样有效。

将计算量庞大的Lasso问题分解成Lasso子问题分布式计算后，降低了算法的处理时间，充分利用计算机资源，将传统串行计算拓展到高性能分布式计算，符合大数据处理的趋势。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种分布式实现的稀疏子空间聚类方法，其特征在于，其方法包括：

(A)在多台计算机组成的集群上，将原始数据分配到每个计算节点上；

(B)每个计算节点选取本计算机和其他计算机的原始数据计算一个Lasso稀疏重建子问题直至问题收敛；

(C)当所有子问题由所有计算节点分工计算完成后，将计算结果向量汇总到主进程或管理节点，进行后续的带权无向图的生成和谱聚类过程，最终得到分类编号。

2.根据权利要求1所述的稀疏子空间聚类方法，其特征在于，所述步骤(A)中，将待聚类的数据或图片提取特征后按列排列组成一个矩阵，得到所述原始数据。

3.根据权利要求1所述的稀疏子空间聚类方法，其特征在于，所述步骤(B)中，各个计算节点将原始数据用不同的序号分割，每个计算节点再从其他节点复制所有其他节点的原始数据，以得到求解Lasso稀疏重建需要的数据。

4.根据权利要求1或3所述的稀疏子空间聚类方法，其特征在于，所述步骤(B)中，每个计算节点独立运行，用坐标下降法求解各自的Lasso问题；如果是单机并行计算，可通过多核cpu并行计算。

5.如权利要求1或2所述的稀疏子空间聚类方法，其特征在于，所述步骤(A)中，原始数据的生成方法为：设在D维欧几里得空间R^D中有n个线性的子空间其维度分别是给定一个具有N个无噪声的数据点集合这些数据点取自n个子空间中，则原始数据矩阵Y包括所有数据点：

Y＝[y₁,y₂,...,y_N]

其中，是维度为d_l的矩阵，矩阵的元素来自于S_l且满足N_l＞d_l；。

6.如权利要求5所述的稀疏子空间聚类方法，其特征在于，所述步骤(B)中，计算一个Lasso稀疏重建子问题的子空间稀疏表达系数为：

min||c_i||₁

s.t.y_i＝Y_-ic_i,c_ii＝0

将每部分写成整体形式，并考虑加性噪声，则得到如下优化：

minλ||C||₁+||E||²

s.t.Y＝YC+E,diag(C)＝0

其中，c_i稀疏解，Y为原始数据矩阵；C为所有c_i组成的矩阵，E为误差或噪声。

7.如权利要求6所述的稀疏子空间聚类方法，其特征在于，所述各个计算节点将原始数据用不同的序号分割，其方法为：建立一个带权无向图g＝(v,ε,W)，其中v定义为此带权无向图关于N个数据点的N个节点，定义为每个节点之间的边界的集合，W∈R^N×N是一个对称且非负的对称矩阵，并作为一个相似度矩阵W来表示边界的权重；相似度矩阵W由下式给出：

W＝|C|+|C|^T

最后对相似度矩阵W通过谱聚类算法得出聚类结果。

8.如权利要求4所述的稀疏子空间聚类方法，其特征在于，所述坐标下降法的方法为：寻找一个目标函数的局部最小值，先选定一个坐标方向x_i，并固定其他所有的方向x_-i，对当前坐标方向一维搜索，优化，再选定x_i+1，固定其他的坐标再计算，循环直到目标函数稳定。

9.如权利要求7所述的稀疏子空间聚类方法，其特征在于，每个计算节点求解各自的Lasso问题，分布式后的最优解为：令

其中，每个计算节点序号是R，R∈{R＝1,2,...,P}，计算节点的数目为P

Ψ＝Y_-i ^TY_-i，i为样本序号。