CN111401413A

CN111401413A - 一种基于优化理论的带规模约束的并行聚类方法

Info

Publication number: CN111401413A
Application number: CN202010131917.0A
Authority: CN
Inventors: 赵生捷; 余豪; 张�林
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2020-07-10

Abstract

本发明涉及一种基于优化理论的带规模约束的并行聚类方法，包括以下步骤：步骤S1：获取待聚类的数据集以及规模约束向量，根据所述数据集和规模约束向量进行参数初始化；步骤S2：通过分配矩阵将完成参数初始化的所述数据集分解成多个子问题；步骤S3：引入拉格朗日乘子向量，由投影矩阵并行求解所述子问题并进行聚类，根据子问题的求解结果更新所述分配矩阵；步骤S4：计算收敛判断参数，根据所述收敛判断参数来判断聚类是否达到停止收敛准则，若满足所述停止收敛准则，停止迭代并输出当前的所述分配矩阵及对应的聚类结果，否则将继续执行步骤S1‑S3进行迭代。与现有技术相比，本发明具有在有限次迭代内处理大规模数据集、提供高质量的聚类结果等优点。

Description

一种基于优化理论的带规模约束的并行聚类方法

技术领域

本发明涉及机器学习领域，尤其是涉及一种基于优化理论的带规模约束的并行聚类方法。

背景技术

聚类分析是一种广泛应用于挖掘数据间关系的技术，聚类分析的结果是将数据集划分为若干簇，使得簇内数据尽可能相似，簇间数据尽可能不同。常见的聚类方法如K-Means是非常简单有效的聚类算法，它能在有限次迭代内获得局部最优解。然而，在一些应用场景中，我们希望获得在一定规模约束下的聚类结果。如在大规模问题求解中，我们需要将原问题划分为规模更小的子问题，并使用分布式计算模型求解。为了保证每个计算节点的负载均衡(即每个计算节点的任务量应尽量一致)以及子问题的可求解性(即子问题内部的数据相似性)，我们需要使用带规模约束的聚类算法进行数据划分。

目前已有一些关于带规模约束的聚类方法研究，但存在一定的缺陷。有研究使用基于几何信息的启发式方法来使得聚类结果更加均匀，然而聚类质量远不如K-Means的结果。同时有研究对K-means进行了更改，并使用给定数据集的先验知识选择性地初始化聚类中心，但是这种方法过多依赖于先验知识，不具有普适性。另外以K-Means为基础的均衡K-Means聚类方法，由于空间复杂度过高，在数据集稍大的情况下，便难以执行。

发明内容

本发明的目的就是为了克服上述现有技术存在的聚类质量不好、过多依赖于先验知识、无法在数据集较大时执行的缺陷而提供一种基于优化理论的带规模约束的并行聚类方法。

本发明的目的可以通过以下技术方案来实现：

一种基于优化理论的带规模约束的并行聚类方法，包括以下步骤：

步骤S1：获取待聚类的数据集以及规模约束向量，根据所述数据集和规模约束向量进行参数初始化；

步骤S2：通过分配矩阵将完成参数初始化的所述数据集分解成多个子问题；

步骤S3：引入拉格朗日乘子向量，由投影矩阵并行求解所述子问题并进行聚类，根据子问题的求解结果更新所述分配矩阵；

步骤S4：计算收敛判断参数，根据所述收敛判断参数来判断聚类是否达到停止收敛准则，若满足所述停止收敛准则，停止迭代并输出当前的所述分配矩阵及对应的聚类结果，否则将继续执行步骤S1-S3进行迭代。

所述分配矩阵具体为：

其中，

为第t+1次迭代时分配矩阵的第i行向量，

为分配矩阵的第i行向量，b_i ^(t)为第t次迭代时投影矩阵的第i行向量。

所述投影矩阵具体为：

其中，

为第t+1次迭代时投影矩阵的第i行向量，n为规模约束向量，λ^(t+1)为第t+1次迭代时的拉格朗日乘子向量，ρ为拉格朗日乘子向量的惩罚项系数，

为第t+1次迭代时分配矩阵的转置矩阵，N为过程变量，

为H^TH的列向量，H为聚类数据集，

为A矩阵的列向量，A＝NI-11^T。

所述投影矩阵并行求解子问题的具体过程为：

步骤S301：将所述投影矩阵中第i行向量的元素按逆序排序后赋值，获得投影序列；

步骤S302：求解所述投影序列，计算出对应的投影向量；

步骤S303：分配矩阵根据所述投影向量进行迭代更新。

所述投影序列的求解公式具体为：

其中，u_j和u_i为投影序列中的元素，为投影矩阵中第i行向量的元素个数。

所述投影向量的计算公式具体为：

x_i＝max{b_i+δ,0}

其中，x_i为投影向量，b_i为投影矩阵的第i行向量，δ为过程变量，具体如下：

其中，θ为投影序列对应的过程变量。

所述拉格朗日乘子向量具体为：

λ^(t+1)：＝λ^(t)+ρ(X^T(t+1)1-n)

其中，为第t次迭代时的拉格朗日乘子向量。

所述收敛判断参数具体为：

r^(t+1)：＝||1^TX^(t+1)-n||

s^(t+1)：＝||X^(t+1)-X^(t)||

其中，r^(t+1)和s^(t+1)为第t+1次迭代时的收敛判断参数，X^(t)为第t次迭代时的分配矩阵，1^T为过程变量。

所述停止收敛准则具体为：

∈^pri＝10^-5*‖n‖

∈^dual＝10^-5*‖λ‖

其中，∈^pri和∈^dual为停止收敛准则的设定阈值。

所述步骤S4中停止迭代的条件为r(^t+1)＜∈^pri且s(^t+1)＜∈^dual。

与现有技术相比，本发明具有以下有益效果：

1.本发明通过引入带有惩罚项系数的拉格朗日乘子向量，将规模约束中的列约束消除，使聚类优化问题可以并行化，对初始参数设定不敏感，能够在有限次迭代中处理大规模数据集下的带规模约束聚类问题。

2.本发明通过投影矩阵对子问题进行并行求解，投影矩阵中考虑了拉格朗日乘子向量和分配矩阵的转置矩阵之间的关系，获得稳定获得高质量的解。

3.本发明实现了算法参数优化的完全并行，易于部署在MapReduce或Spark等分布式计算框架下，具有较高的适用性。

附图说明

图1为本发明的流程示意图；

图2为本发明实施例一中聚类方法的迭代次数对比图；

图3为本发明实施例一中聚类方法的聚类质量对比图；

图4为本发明实施例一中聚类方法的规模约束效果对比图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，一种基于优化理论的带规模约束的并行聚类方法，包括以下步骤：

步骤S1：获取待聚类的数据集以及规模约束向量，根据数据集和规模约束向量进行参数初始化；

步骤S2：通过分配矩阵将完成参数初始化的数据集分解成多个子问题；

步骤S3：引入拉格朗日乘子向量，由投影矩阵并行求解子问题并进行聚类，根据子问题的求解结果更新分配矩阵；

步骤S4：计算收敛判断参数，根据收敛判断参数来判断聚类是否达到停止收敛准则，若满足停止收敛准则，停止迭代并输出当前的分配矩阵及对应的聚类结果，否则将继续执行步骤S1-S3进行迭代。

分配矩阵具体为：

其中，

为第t+1次迭代时分配矩阵的第i行向量，

投影矩阵具体为：

其中，

为第t+1次迭代时分配矩阵的转置矩阵，N为过程变量N＝1^Tn，

为H^TH的列向量，H为聚类数据集，

为A矩阵的列向量，A＝NI-11^T。

投影矩阵并行求解子问题的具体过程为：

步骤S301：将投影矩阵中第i行向量的元素按逆序排序后赋值，获得投影序列；

步骤S302：求解投影序列，计算出对应的投影向量；

步骤S303：分配矩阵根据投影向量进行迭代更新。

投影序列的求解公式具体为：

投影向量的计算公式具体为：

x_i＝max{b_i+δ,0}

其中，θ为投影序列对应的过程变量。

拉格朗日乘子向量具体为：

λ^(t+1)：＝λ^(t)+ρ(X^T(t+1)1-n)

其中，为第t次迭代时的拉格朗日乘子向量。

收敛判断参数具体为：

r^(t+1)：＝||1^TX^(t+1)-n||

s^(t+1)：＝||X^(t+1)-X^(t)||

停止收敛准则具体为：

∈^pri＝10^-5*‖n‖

∈^dual＝10^-5*‖λ‖

其中，∈^pri和∈^dual为停止收敛准则的设定阈值，停止收敛准则越小，则收敛精度越高以及收敛速度越慢。

步骤S4中停止迭代的条件为r^(t+1)＜∈^pri且s^(t+1)＜∈^dual。

本发明所求解的问题是在K-Means的优化目标下，添加规模约束。K-Means的优化问题如下所示：

其中，C表示聚类结果的簇集合，K为簇集合中簇的个数，h_i为数据集H的第i点向量，h_j为数据集H的第j点向量，c_k为第k聚类的中心向量，n_k为第k聚类的点数目。

为了让优化问题更易添加约束并求解，需要将上式做等价替换，即引入分配矩阵X，如下所示：

其中，x_k为矩阵X的第k列向量，W为过程变量，具体为W＝HH^T，H为数据集。

去除常数项后，上述最小化问题将等价转化为：

加入聚类约束和规模约束后，本发明的优化问题即可产生，具体如下：

其中，X_i,k的取值范围是0到1之间，对应的行约束

其中i为1到N之间的整数，行约束是聚类问题的基本约束，即每个点对应与所有簇的分配概率之和为1；1^Tx_k＝n_k为列约束，即规模约束，列约束定义了聚类结果中的每一簇的预期数据点数目。

行约束和列约束是相互耦合的，为了让问题求解可以并行化，本发明引增拉格朗日乘子法，将列约束消除，在优化问题中添加拉格朗日乘子项和惩罚项，即：

其中，L_ρ(X,λ)为加入拉格朗日乘子项和惩罚项后的聚类优化函数，

为矩阵X的第k列向量的转置向量。

然而，上述优化函数仍然难以获得求解。考虑到目标项为凸函数，在给定区间内的最大值一定落在区间端点上，因此使用泰勒近似对上述函数做一阶近似。对于目标项，有梯度计算和近似函数如下所示：

其中，

为矩阵X的第k列向量的估计量。

惩罚项也进行一阶近似，具体如下：

其中，I为单位矩阵，A为过程变量，具体为A＝NI-11^T。

完成以上近似后，去除常数无关项，原优化问题转变为如下形式：

其中，λ_k为拉格朗日算子，

的取值范围是0到1。

将转变后的优化问题进行等价的并行拆解，转化为N个子优化问题叠加的形式，具体如下：

其中，n^T为预期聚类的尺寸向量，

为分配矩阵X的估计量。

实施例一

基于图1的Spark分布式计算流程，将本发明的聚类结果与交织群卷积算法IGC、模糊聚类算法FCM和K-Means聚类算法的聚类结果进行对比。

如图2所示，在迭代次数方面，本发明提出的方法的收敛速度较为稳定，在大规模数据集的测试用例下，依然可以在有限次数内完成求解，并得到高质量的聚类结果。其中IGC算法则对数据集规模较为敏感，大规模测试下，IGC很难收敛。

在聚类质量的对比上，以K-Means算法的聚类结果为标准(由于K-Means并无规模约束，故其类内平方和(WCSS)最小)，WCSS越大，则聚类质量越差。如图3所示，本发明提出的方法所得结果与K-Means结果较为相近，也即在保证了聚类规模约束下，依然可以获得高质量的聚类结果。

如图4所示，在规模约束效果方面，由于K-Means聚类算法并无规模约束，所以其表现最差；FCM在聚类质量上表现良好，但事实上其并不能保证规模约束；本发明提出的方法与IGC在这一指标上表现都能达到预期。

从收敛稳定性、聚类质量和规模约束效果进行考虑，本发明所提方法与其他聚类算法相比具有一定优势。

此外，需要说明的是，本说明书中所描述的具体实施例，所取名称可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等小变化或者简单变化，均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。