CN111401413A - 一种基于优化理论的带规模约束的并行聚类方法 - Google Patents

一种基于优化理论的带规模约束的并行聚类方法 Download PDF

Info

Publication number
CN111401413A
CN111401413A CN202010131917.0A CN202010131917A CN111401413A CN 111401413 A CN111401413 A CN 111401413A CN 202010131917 A CN202010131917 A CN 202010131917A CN 111401413 A CN111401413 A CN 111401413A
Authority
CN
China
Prior art keywords
vector
matrix
projection
iteration
scale constraint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010131917.0A
Other languages
English (en)
Inventor
赵生捷
余豪
张�林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010131917.0A priority Critical patent/CN111401413A/zh
Publication of CN111401413A publication Critical patent/CN111401413A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于优化理论的带规模约束的并行聚类方法,包括以下步骤:步骤S1:获取待聚类的数据集以及规模约束向量,根据所述数据集和规模约束向量进行参数初始化;步骤S2:通过分配矩阵将完成参数初始化的所述数据集分解成多个子问题;步骤S3:引入拉格朗日乘子向量,由投影矩阵并行求解所述子问题并进行聚类,根据子问题的求解结果更新所述分配矩阵;步骤S4:计算收敛判断参数,根据所述收敛判断参数来判断聚类是否达到停止收敛准则,若满足所述停止收敛准则,停止迭代并输出当前的所述分配矩阵及对应的聚类结果,否则将继续执行步骤S1‑S3进行迭代。与现有技术相比,本发明具有在有限次迭代内处理大规模数据集、提供高质量的聚类结果等优点。

Description

一种基于优化理论的带规模约束的并行聚类方法
技术领域
本发明涉及机器学习领域,尤其是涉及一种基于优化理论的带规模约束的并行聚类方法。
背景技术
聚类分析是一种广泛应用于挖掘数据间关系的技术,聚类分析的结果是将数据集划分为若干簇,使得簇内数据尽可能相似,簇间数据尽可能不同。常见的聚类方法如K-Means是非常简单有效的聚类算法,它能在有限次迭代内获得局部最优解。然而,在一些应用场景中,我们希望获得在一定规模约束下的聚类结果。如在大规模问题求解中,我们需要将原问题划分为规模更小的子问题,并使用分布式计算模型求解。为了保证每个计算节点的负载均衡(即每个计算节点的任务量应尽量一致)以及子问题的可求解性(即子问题内部的数据相似性),我们需要使用带规模约束的聚类算法进行数据划分。
目前已有一些关于带规模约束的聚类方法研究,但存在一定的缺陷。有研究使用基于几何信息的启发式方法来使得聚类结果更加均匀,然而聚类质量远不如K-Means的结果。同时有研究对K-means进行了更改,并使用给定数据集的先验知识选择性地初始化聚类中心,但是这种方法过多依赖于先验知识,不具有普适性。另外以K-Means为基础的均衡K-Means聚类方法,由于空间复杂度过高,在数据集稍大的情况下,便难以执行。
发明内容
本发明的目的就是为了克服上述现有技术存在的聚类质量不好、过多依赖于先验知识、无法在数据集较大时执行的缺陷而提供一种基于优化理论的带规模约束的并行聚类方法。
本发明的目的可以通过以下技术方案来实现:
一种基于优化理论的带规模约束的并行聚类方法,包括以下步骤:
步骤S1:获取待聚类的数据集以及规模约束向量,根据所述数据集和规模约束向量进行参数初始化;
步骤S2:通过分配矩阵将完成参数初始化的所述数据集分解成多个子问题;
步骤S3:引入拉格朗日乘子向量,由投影矩阵并行求解所述子问题并进行聚类,根据子问题的求解结果更新所述分配矩阵;
步骤S4:计算收敛判断参数,根据所述收敛判断参数来判断聚类是否达到停止收敛准则,若满足所述停止收敛准则,停止迭代并输出当前的所述分配矩阵及对应的聚类结果,否则将继续执行步骤S1-S3进行迭代。
所述分配矩阵具体为:
Figure BDA0002396010850000021
其中,
Figure BDA0002396010850000022
为第t+1次迭代时分配矩阵的第i行向量,
Figure BDA0002396010850000023
为分配矩阵的第i行向量,bi (t)为第t次迭代时投影矩阵的第i行向量。
所述投影矩阵具体为:
Figure BDA0002396010850000024
其中,
Figure BDA0002396010850000025
为第t+1次迭代时投影矩阵的第i行向量,n为规模约束向量,λ(t+1)为第t+1次迭代时的拉格朗日乘子向量,ρ为拉格朗日乘子向量的惩罚项系数,
Figure BDA0002396010850000026
为第t+1次迭代时分配矩阵的转置矩阵,N为过程变量,
Figure BDA0002396010850000027
为HTH的列向量,H为聚类数据集,
Figure BDA0002396010850000028
为A矩阵的列向量,A=NI-11T
所述投影矩阵并行求解子问题的具体过程为:
步骤S301:将所述投影矩阵中第i行向量的元素按逆序排序后赋值,获得投影序列;
步骤S302:求解所述投影序列,计算出对应的投影向量;
步骤S303:分配矩阵根据所述投影向量进行迭代更新。
所述投影序列的求解公式具体为:
Figure BDA0002396010850000029
其中,uj和ui为投影序列中的元素,为投影矩阵中第i行向量的元素个数。
所述投影向量的计算公式具体为:
xi=max{bi+δ,0}
其中,xi为投影向量,bi为投影矩阵的第i行向量,δ为过程变量,具体如下:
Figure BDA0002396010850000031
其中,θ为投影序列对应的过程变量。
所述拉格朗日乘子向量具体为:
λ(t+1):=λ(t)+ρ(XT(t+1)1-n)
其中,为第t次迭代时的拉格朗日乘子向量。
所述收敛判断参数具体为:
r(t+1):=||1TX(t+1)-n||
s(t+1):=||X(t+1)-X(t)||
其中,r(t+1)和s(t+1)为第t+1次迭代时的收敛判断参数,X(t)为第t次迭代时的分配矩阵,1T为过程变量。
所述停止收敛准则具体为:
pri=10-5*‖n‖
dual=10-5*‖λ‖
其中,∈pri和∈dual为停止收敛准则的设定阈值。
所述步骤S4中停止迭代的条件为r(t+1)<∈pri且s(t+1)<∈dual
与现有技术相比,本发明具有以下有益效果:
1.本发明通过引入带有惩罚项系数的拉格朗日乘子向量,将规模约束中的列约束消除,使聚类优化问题可以并行化,对初始参数设定不敏感,能够在有限次迭代中处理大规模数据集下的带规模约束聚类问题。
2.本发明通过投影矩阵对子问题进行并行求解,投影矩阵中考虑了拉格朗日乘子向量和分配矩阵的转置矩阵之间的关系,获得稳定获得高质量的解。
3.本发明实现了算法参数优化的完全并行,易于部署在MapReduce或Spark等分布式计算框架下,具有较高的适用性。
附图说明
图1为本发明的流程示意图;
图2为本发明实施例一中聚类方法的迭代次数对比图;
图3为本发明实施例一中聚类方法的聚类质量对比图;
图4为本发明实施例一中聚类方法的规模约束效果对比图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,一种基于优化理论的带规模约束的并行聚类方法,包括以下步骤:
步骤S1:获取待聚类的数据集以及规模约束向量,根据数据集和规模约束向量进行参数初始化;
步骤S2:通过分配矩阵将完成参数初始化的数据集分解成多个子问题;
步骤S3:引入拉格朗日乘子向量,由投影矩阵并行求解子问题并进行聚类,根据子问题的求解结果更新分配矩阵;
步骤S4:计算收敛判断参数,根据收敛判断参数来判断聚类是否达到停止收敛准则,若满足停止收敛准则,停止迭代并输出当前的分配矩阵及对应的聚类结果,否则将继续执行步骤S1-S3进行迭代。
分配矩阵具体为:
Figure BDA0002396010850000041
其中,
Figure BDA0002396010850000042
为第t+1次迭代时分配矩阵的第i行向量,
Figure BDA0002396010850000043
为分配矩阵的第i行向量,bi (t)为第t次迭代时投影矩阵的第i行向量。
投影矩阵具体为:
Figure BDA0002396010850000044
其中,
Figure BDA0002396010850000045
为第t+1次迭代时投影矩阵的第i行向量,n为规模约束向量,λ(t+1)为第t+1次迭代时的拉格朗日乘子向量,ρ为拉格朗日乘子向量的惩罚项系数,
Figure BDA0002396010850000046
为第t+1次迭代时分配矩阵的转置矩阵,N为过程变量N=1Tn,
Figure BDA0002396010850000047
为HTH的列向量,H为聚类数据集,
Figure BDA0002396010850000051
为A矩阵的列向量,A=NI-11T
投影矩阵并行求解子问题的具体过程为:
步骤S301:将投影矩阵中第i行向量的元素按逆序排序后赋值,获得投影序列;
步骤S302:求解投影序列,计算出对应的投影向量;
步骤S303:分配矩阵根据投影向量进行迭代更新。
投影序列的求解公式具体为:
Figure BDA0002396010850000052
其中,uj和ui为投影序列中的元素,为投影矩阵中第i行向量的元素个数。
投影向量的计算公式具体为:
xi=max{bi+δ,0}
其中,xi为投影向量,bi为投影矩阵的第i行向量,δ为过程变量,具体如下:
Figure BDA0002396010850000053
其中,θ为投影序列对应的过程变量。
拉格朗日乘子向量具体为:
λ(t+1):=λ(t)+ρ(XT(t+1)1-n)
其中,为第t次迭代时的拉格朗日乘子向量。
收敛判断参数具体为:
r(t+1):=||1TX(t+1)-n||
s(t+1):=||X(t+1)-X(t)||
其中,r(t+1)和s(t+1)为第t+1次迭代时的收敛判断参数,X(t)为第t次迭代时的分配矩阵,1T为过程变量。
停止收敛准则具体为:
pri=10-5*‖n‖
dual=10-5*‖λ‖
其中,∈pri和∈dual为停止收敛准则的设定阈值,停止收敛准则越小,则收敛精度越高以及收敛速度越慢。
步骤S4中停止迭代的条件为r(t+1)<∈pri且s(t+1)<∈dual
本发明所求解的问题是在K-Means的优化目标下,添加规模约束。K-Means的优化问题如下所示:
Figure BDA0002396010850000061
其中,C表示聚类结果的簇集合,K为簇集合中簇的个数,hi为数据集H的第i点向量,hj为数据集H的第j点向量,ck为第k聚类的中心向量,nk为第k聚类的点数目。
为了让优化问题更易添加约束并求解,需要将上式做等价替换,即引入分配矩阵X,如下所示:
Figure BDA0002396010850000062
其中,xk为矩阵X的第k列向量,W为过程变量,具体为W=HHT,H为数据集。
去除常数项后,上述最小化问题将等价转化为:
Figure BDA0002396010850000063
加入聚类约束和规模约束后,本发明的优化问题即可产生,具体如下:
Figure BDA0002396010850000064
其中,Xi,k的取值范围是0到1之间,对应的行约束
Figure BDA0002396010850000065
其中i为1到N之间的整数,行约束是聚类问题的基本约束,即每个点对应与所有簇的分配概率之和为1;1Txk=nk为列约束,即规模约束,列约束定义了聚类结果中的每一簇的预期数据点数目。
行约束和列约束是相互耦合的,为了让问题求解可以并行化,本发明引增拉格朗日乘子法,将列约束消除,在优化问题中添加拉格朗日乘子项和惩罚项,即:
Figure BDA0002396010850000066
其中,Lρ(X,λ)为加入拉格朗日乘子项和惩罚项后的聚类优化函数,
Figure BDA0002396010850000067
为矩阵X的第k列向量的转置向量。
然而,上述优化函数仍然难以获得求解。考虑到目标项为凸函数,在给定区间内的最大值一定落在区间端点上,因此使用泰勒近似对上述函数做一阶近似。对于目标项,有梯度计算和近似函数如下所示:
Figure BDA0002396010850000071
Figure BDA0002396010850000072
其中,
Figure BDA0002396010850000073
为矩阵X的第k列向量的估计量。
惩罚项也进行一阶近似,具体如下:
Figure BDA0002396010850000074
其中,I为单位矩阵,A为过程变量,具体为A=NI-11T
完成以上近似后,去除常数无关项,原优化问题转变为如下形式:
Figure BDA0002396010850000075
其中,λk为拉格朗日算子,
Figure BDA0002396010850000076
的取值范围是0到1。
将转变后的优化问题进行等价的并行拆解,转化为N个子优化问题叠加的形式,具体如下:
Figure BDA0002396010850000077
其中,nT为预期聚类的尺寸向量,
Figure BDA0002396010850000078
为分配矩阵X的估计量。
实施例一
基于图1的Spark分布式计算流程,将本发明的聚类结果与交织群卷积算法IGC、模糊聚类算法FCM和K-Means聚类算法的聚类结果进行对比。
如图2所示,在迭代次数方面,本发明提出的方法的收敛速度较为稳定,在大规模数据集的测试用例下,依然可以在有限次数内完成求解,并得到高质量的聚类结果。其中IGC算法则对数据集规模较为敏感,大规模测试下,IGC很难收敛。
在聚类质量的对比上,以K-Means算法的聚类结果为标准(由于K-Means并无规模约束,故其类内平方和(WCSS)最小),WCSS越大,则聚类质量越差。如图3所示,本发明提出的方法所得结果与K-Means结果较为相近,也即在保证了聚类规模约束下,依然可以获得高质量的聚类结果。
如图4所示,在规模约束效果方面,由于K-Means聚类算法并无规模约束,所以其表现最差;FCM在聚类质量上表现良好,但事实上其并不能保证规模约束;本发明提出的方法与IGC在这一指标上表现都能达到预期。
从收敛稳定性、聚类质量和规模约束效果进行考虑,本发明所提方法与其他聚类算法相比具有一定优势。
此外,需要说明的是,本说明书中所描述的具体实施例,所取名称可以不同,本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等小变化或者简单变化,均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (10)

1.一种基于优化理论的带规模约束的并行聚类方法,其特征在于,包括以下步骤:
步骤S1:获取待聚类的数据集以及规模约束向量,根据所述数据集和规模约束向量进行参数初始化;
步骤S2:通过分配矩阵将完成参数初始化的所述数据集分解成多个子问题;
步骤S3:引入拉格朗日乘子向量,由投影矩阵并行求解所述子问题并进行聚类,根据子问题的求解结果更新所述分配矩阵;
步骤S4:计算收敛判断参数,根据所述收敛判断参数来判断聚类是否达到停止收敛准则,若满足所述停止收敛准则,停止迭代并输出当前的所述分配矩阵及对应的聚类结果,否则将继续执行步骤S1-S3进行迭代。
2.根据权利要求1所述的一种基于优化理论的带规模约束的并行聚类方法,其特征在于,所述分配矩阵具体为:
Figure FDA0002396010840000011
其中,
Figure FDA0002396010840000012
为第t+1次迭代时分配矩阵的第i行向量,
Figure FDA0002396010840000013
为分配矩阵的第i行向量,bi (t)为第t次迭代时投影矩阵的第i行向量。
3.根据权利要求1所述的一种基于优化理论的带规模约束的并行聚类方法,其特征在于,所述投影矩阵具体为:
Figure FDA0002396010840000014
其中,bi (t+1)为第t+1次迭代时投影矩阵的第i行向量,n为规模约束向量,λ(t+1)为第t+1次迭代时的拉格朗日乘子向量,ρ为拉格朗日乘子向量的惩罚项系数,
Figure FDA0002396010840000017
为第t+1次迭代时分配矩阵的转置矩阵,N为过程变量,
Figure FDA0002396010840000015
为HTH的列向量,H为聚类数据集,
Figure FDA0002396010840000016
为A矩阵的列向量,A=NI-11T
4.根据权利要求3所述的一种基于优化理论的带规模约束的并行聚类方法,其特征在于,所述投影矩阵并行求解子问题的具体过程为:
步骤S301:将所述投影矩阵中第i行向量的元素按逆序排序后赋值,获得投影序列;
步骤S302:求解所述投影序列,计算出对应的投影向量;
步骤S303:分配矩阵根据所述投影向量进行迭代更新。
5.根据权利要求4所述的一种基于优化理论的带规模约束的并行聚类方法,其特征在于,所述投影序列的求解公式具体为:
Figure FDA0002396010840000021
其中,uj和ui为投影序列中的元素,为投影矩阵中第i行向量的元素个数。
6.根据权利要求5所述的一种基于优化理论的带规模约束的并行聚类方法,其特征在于,所述投影向量的计算公式具体为:
xi=max{bi+δ,0}
其中,xi为投影向量,bi为投影矩阵的第i行向量,δ为过程变量,具体如下:
Figure FDA0002396010840000022
其中,θ为投影序列对应的过程变量。
7.根据权利要求3所述的一种基于优化理论的带规模约束的并行聚类方法,其特征在于,所述拉格朗日乘子向量具体为:
Figure FDA0002396010840000023
其中,为第t次迭代时的拉格朗日乘子向量。
8.根据权利要求3所述的一种基于优化理论的带规模约束的并行聚类方法,其特征在于,所述收敛判断参数具体为:
r(t+1):=||1TX(t+1)-n||
s(t+1):=||X(t+1)-X(t)||
其中,r(t+1)和s(t+1)为第t+1次迭代时的收敛判断参数,X(t)为第t次迭代时的分配矩阵,1T为过程变量。
9.根据权利要求8所述的一种基于优化理论的带规模约束的并行聚类方法,其特征在于,所述停止收敛准则具体为:
pri=10-5*||n||
dual=10-5*||λ||
其中,∈pri和∈dual为停止收敛准则的设定阈值。
10.根据权利要求9所述的一种基于优化理论的带规模约束的并行聚类方法,其特征在于,所述步骤S4中停止迭代的条件为r(t+1)<∈pri且s(t+1)<∈dual
CN202010131917.0A 2020-02-29 2020-02-29 一种基于优化理论的带规模约束的并行聚类方法 Pending CN111401413A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010131917.0A CN111401413A (zh) 2020-02-29 2020-02-29 一种基于优化理论的带规模约束的并行聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010131917.0A CN111401413A (zh) 2020-02-29 2020-02-29 一种基于优化理论的带规模约束的并行聚类方法

Publications (1)

Publication Number Publication Date
CN111401413A true CN111401413A (zh) 2020-07-10

Family

ID=71434077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010131917.0A Pending CN111401413A (zh) 2020-02-29 2020-02-29 一种基于优化理论的带规模约束的并行聚类方法

Country Status (1)

Country Link
CN (1) CN111401413A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985336A (zh) * 2020-07-22 2020-11-24 深圳供电局有限公司 人脸图像聚类方法、装置、计算机设备和存储介质
CN112949232A (zh) * 2021-03-17 2021-06-11 梁文毅 一种基于分布式建模的电气仿真方法
CN114897110A (zh) * 2022-07-15 2022-08-12 成都飞机工业(集团)有限责任公司 群孔测量摆角规划方法、可读介质和设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985336A (zh) * 2020-07-22 2020-11-24 深圳供电局有限公司 人脸图像聚类方法、装置、计算机设备和存储介质
CN112949232A (zh) * 2021-03-17 2021-06-11 梁文毅 一种基于分布式建模的电气仿真方法
CN114897110A (zh) * 2022-07-15 2022-08-12 成都飞机工业(集团)有限责任公司 群孔测量摆角规划方法、可读介质和设备
CN114897110B (zh) * 2022-07-15 2022-11-18 成都飞机工业(集团)有限责任公司 群孔测量摆角规划方法、可读介质和设备
WO2024011779A1 (zh) * 2022-07-15 2024-01-18 成都飞机工业(集团)有限责任公司 群孔测量摆角规划方法、可读介质和设备

Similar Documents

Publication Publication Date Title
Yuan et al. Tensor ring decomposition with rank minimization on latent space: An efficient approach for tensor completion
Bhimani et al. Accelerating K-Means clustering with parallel implementations and GPU computing
CN111401413A (zh) 一种基于优化理论的带规模约束的并行聚类方法
Kimura et al. A fast hierarchical alternating least squares algorithm for orthogonal nonnegative matrix factorization
Yang et al. LFTF: A framework for efficient tensor analytics at scale
Qu et al. A nonconvex approach for exact and efficient multichannel sparse blind deconvolution
CN106845519A (zh) 一种分布式实现的稀疏子空间聚类方法
CN109508752A (zh) 一种基于结构化锚图的快速自适应近邻聚类方法
CN106294288B (zh) 一种分布式非负矩阵分解方法
Chen et al. LABIN: Balanced min cut for large-scale data
CN110705648A (zh) 大规模多视图数据自降维K-means算法及系统
CN112149045A (zh) 一种适用于大规模数据的降维、关联分析方法
Papa et al. SGD algorithms based on incomplete U-statistics: large-scale minimization of empirical risk
Liu et al. Decentralized robust subspace clustering
CN106778812B (zh) 聚类实现方法和装置
Kovács et al. Graphical elastic net and target matrices: Fast algorithms and software for sparse precision matrix estimation
CN114399653A (zh) 一种基于锚点图的快速多视图离散聚类方法及系统
Huang et al. Mini-batch stochastic ADMMs for nonconvex nonsmooth optimization
Barger et al. k-means for streaming and distributed big sparse data
Valle et al. Parallel approach for ensemble learning with locally coupled neural networks
Du et al. Maxios: Large scale nonnegative matrix factorization for collaborative filtering
Bühlmann et al. Magging: maximin aggregation for inhomogeneous large-scale data
Raman et al. DS-MLR: exploiting double separability for scaling up distributed multinomial logistic regression
Vahidian et al. Group Distributionally Robust Dataset Distillation with Risk Minimization
Fercoq Parallel coordinate descent for the AdaBoost problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200710