CN111401413A - 一种基于优化理论的带规模约束的并行聚类方法 - Google Patents
一种基于优化理论的带规模约束的并行聚类方法 Download PDFInfo
- Publication number
- CN111401413A CN111401413A CN202010131917.0A CN202010131917A CN111401413A CN 111401413 A CN111401413 A CN 111401413A CN 202010131917 A CN202010131917 A CN 202010131917A CN 111401413 A CN111401413 A CN 111401413A
- Authority
- CN
- China
- Prior art keywords
- vector
- matrix
- projection
- iteration
- scale constraint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000005457 optimization Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 76
- 239000011159 matrix material Substances 0.000 claims abstract description 69
- 230000009977 dual effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于优化理论的带规模约束的并行聚类方法,包括以下步骤:步骤S1:获取待聚类的数据集以及规模约束向量,根据所述数据集和规模约束向量进行参数初始化;步骤S2:通过分配矩阵将完成参数初始化的所述数据集分解成多个子问题;步骤S3:引入拉格朗日乘子向量,由投影矩阵并行求解所述子问题并进行聚类,根据子问题的求解结果更新所述分配矩阵;步骤S4:计算收敛判断参数,根据所述收敛判断参数来判断聚类是否达到停止收敛准则,若满足所述停止收敛准则,停止迭代并输出当前的所述分配矩阵及对应的聚类结果,否则将继续执行步骤S1‑S3进行迭代。与现有技术相比,本发明具有在有限次迭代内处理大规模数据集、提供高质量的聚类结果等优点。
Description
技术领域
本发明涉及机器学习领域,尤其是涉及一种基于优化理论的带规模约束的并行聚类方法。
背景技术
聚类分析是一种广泛应用于挖掘数据间关系的技术,聚类分析的结果是将数据集划分为若干簇,使得簇内数据尽可能相似,簇间数据尽可能不同。常见的聚类方法如K-Means是非常简单有效的聚类算法,它能在有限次迭代内获得局部最优解。然而,在一些应用场景中,我们希望获得在一定规模约束下的聚类结果。如在大规模问题求解中,我们需要将原问题划分为规模更小的子问题,并使用分布式计算模型求解。为了保证每个计算节点的负载均衡(即每个计算节点的任务量应尽量一致)以及子问题的可求解性(即子问题内部的数据相似性),我们需要使用带规模约束的聚类算法进行数据划分。
目前已有一些关于带规模约束的聚类方法研究,但存在一定的缺陷。有研究使用基于几何信息的启发式方法来使得聚类结果更加均匀,然而聚类质量远不如K-Means的结果。同时有研究对K-means进行了更改,并使用给定数据集的先验知识选择性地初始化聚类中心,但是这种方法过多依赖于先验知识,不具有普适性。另外以K-Means为基础的均衡K-Means聚类方法,由于空间复杂度过高,在数据集稍大的情况下,便难以执行。
发明内容
本发明的目的就是为了克服上述现有技术存在的聚类质量不好、过多依赖于先验知识、无法在数据集较大时执行的缺陷而提供一种基于优化理论的带规模约束的并行聚类方法。
本发明的目的可以通过以下技术方案来实现:
一种基于优化理论的带规模约束的并行聚类方法,包括以下步骤:
步骤S1:获取待聚类的数据集以及规模约束向量,根据所述数据集和规模约束向量进行参数初始化;
步骤S2:通过分配矩阵将完成参数初始化的所述数据集分解成多个子问题;
步骤S3:引入拉格朗日乘子向量,由投影矩阵并行求解所述子问题并进行聚类,根据子问题的求解结果更新所述分配矩阵;
步骤S4:计算收敛判断参数,根据所述收敛判断参数来判断聚类是否达到停止收敛准则,若满足所述停止收敛准则,停止迭代并输出当前的所述分配矩阵及对应的聚类结果,否则将继续执行步骤S1-S3进行迭代。
所述分配矩阵具体为:
所述投影矩阵具体为:
其中,为第t+1次迭代时投影矩阵的第i行向量,n为规模约束向量,λ(t+1)为第t+1次迭代时的拉格朗日乘子向量,ρ为拉格朗日乘子向量的惩罚项系数,为第t+1次迭代时分配矩阵的转置矩阵,N为过程变量,为HTH的列向量,H为聚类数据集,为A矩阵的列向量,A=NI-11T。
所述投影矩阵并行求解子问题的具体过程为:
步骤S301:将所述投影矩阵中第i行向量的元素按逆序排序后赋值,获得投影序列;
步骤S302:求解所述投影序列,计算出对应的投影向量;
步骤S303:分配矩阵根据所述投影向量进行迭代更新。
所述投影序列的求解公式具体为:
其中,uj和ui为投影序列中的元素,为投影矩阵中第i行向量的元素个数。
所述投影向量的计算公式具体为:
xi=max{bi+δ,0}
其中,xi为投影向量,bi为投影矩阵的第i行向量,δ为过程变量,具体如下:
其中,θ为投影序列对应的过程变量。
所述拉格朗日乘子向量具体为:
λ(t+1):=λ(t)+ρ(XT(t+1)1-n)
其中,为第t次迭代时的拉格朗日乘子向量。
所述收敛判断参数具体为:
r(t+1):=||1TX(t+1)-n||
s(t+1):=||X(t+1)-X(t)||
其中,r(t+1)和s(t+1)为第t+1次迭代时的收敛判断参数,X(t)为第t次迭代时的分配矩阵,1T为过程变量。
所述停止收敛准则具体为:
∈pri=10-5*‖n‖
∈dual=10-5*‖λ‖
其中,∈pri和∈dual为停止收敛准则的设定阈值。
所述步骤S4中停止迭代的条件为r(t+1)<∈pri且s(t+1)<∈dual。
与现有技术相比,本发明具有以下有益效果:
1.本发明通过引入带有惩罚项系数的拉格朗日乘子向量,将规模约束中的列约束消除,使聚类优化问题可以并行化,对初始参数设定不敏感,能够在有限次迭代中处理大规模数据集下的带规模约束聚类问题。
2.本发明通过投影矩阵对子问题进行并行求解,投影矩阵中考虑了拉格朗日乘子向量和分配矩阵的转置矩阵之间的关系,获得稳定获得高质量的解。
3.本发明实现了算法参数优化的完全并行,易于部署在MapReduce或Spark等分布式计算框架下,具有较高的适用性。
附图说明
图1为本发明的流程示意图;
图2为本发明实施例一中聚类方法的迭代次数对比图;
图3为本发明实施例一中聚类方法的聚类质量对比图;
图4为本发明实施例一中聚类方法的规模约束效果对比图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,一种基于优化理论的带规模约束的并行聚类方法,包括以下步骤:
步骤S1:获取待聚类的数据集以及规模约束向量,根据数据集和规模约束向量进行参数初始化;
步骤S2:通过分配矩阵将完成参数初始化的数据集分解成多个子问题;
步骤S3:引入拉格朗日乘子向量,由投影矩阵并行求解子问题并进行聚类,根据子问题的求解结果更新分配矩阵;
步骤S4:计算收敛判断参数,根据收敛判断参数来判断聚类是否达到停止收敛准则,若满足停止收敛准则,停止迭代并输出当前的分配矩阵及对应的聚类结果,否则将继续执行步骤S1-S3进行迭代。
分配矩阵具体为:
投影矩阵具体为:
其中,为第t+1次迭代时投影矩阵的第i行向量,n为规模约束向量,λ(t+1)为第t+1次迭代时的拉格朗日乘子向量,ρ为拉格朗日乘子向量的惩罚项系数,为第t+1次迭代时分配矩阵的转置矩阵,N为过程变量N=1Tn,为HTH的列向量,H为聚类数据集,为A矩阵的列向量,A=NI-11T。
投影矩阵并行求解子问题的具体过程为:
步骤S301:将投影矩阵中第i行向量的元素按逆序排序后赋值,获得投影序列;
步骤S302:求解投影序列,计算出对应的投影向量;
步骤S303:分配矩阵根据投影向量进行迭代更新。
投影序列的求解公式具体为:
其中,uj和ui为投影序列中的元素,为投影矩阵中第i行向量的元素个数。
投影向量的计算公式具体为:
xi=max{bi+δ,0}
其中,xi为投影向量,bi为投影矩阵的第i行向量,δ为过程变量,具体如下:
其中,θ为投影序列对应的过程变量。
拉格朗日乘子向量具体为:
λ(t+1):=λ(t)+ρ(XT(t+1)1-n)
其中,为第t次迭代时的拉格朗日乘子向量。
收敛判断参数具体为:
r(t+1):=||1TX(t+1)-n||
s(t+1):=||X(t+1)-X(t)||
其中,r(t+1)和s(t+1)为第t+1次迭代时的收敛判断参数,X(t)为第t次迭代时的分配矩阵,1T为过程变量。
停止收敛准则具体为:
∈pri=10-5*‖n‖
∈dual=10-5*‖λ‖
其中,∈pri和∈dual为停止收敛准则的设定阈值,停止收敛准则越小,则收敛精度越高以及收敛速度越慢。
步骤S4中停止迭代的条件为r(t+1)<∈pri且s(t+1)<∈dual。
本发明所求解的问题是在K-Means的优化目标下,添加规模约束。K-Means的优化问题如下所示:
其中,C表示聚类结果的簇集合,K为簇集合中簇的个数,hi为数据集H的第i点向量,hj为数据集H的第j点向量,ck为第k聚类的中心向量,nk为第k聚类的点数目。
为了让优化问题更易添加约束并求解,需要将上式做等价替换,即引入分配矩阵X,如下所示:
其中,xk为矩阵X的第k列向量,W为过程变量,具体为W=HHT,H为数据集。
去除常数项后,上述最小化问题将等价转化为:
加入聚类约束和规模约束后,本发明的优化问题即可产生,具体如下:
其中,Xi,k的取值范围是0到1之间,对应的行约束其中i为1到N之间的整数,行约束是聚类问题的基本约束,即每个点对应与所有簇的分配概率之和为1;1Txk=nk为列约束,即规模约束,列约束定义了聚类结果中的每一簇的预期数据点数目。
行约束和列约束是相互耦合的,为了让问题求解可以并行化,本发明引增拉格朗日乘子法,将列约束消除,在优化问题中添加拉格朗日乘子项和惩罚项,即:
然而,上述优化函数仍然难以获得求解。考虑到目标项为凸函数,在给定区间内的最大值一定落在区间端点上,因此使用泰勒近似对上述函数做一阶近似。对于目标项,有梯度计算和近似函数如下所示:
惩罚项也进行一阶近似,具体如下:
其中,I为单位矩阵,A为过程变量,具体为A=NI-11T。
完成以上近似后,去除常数无关项,原优化问题转变为如下形式:
将转变后的优化问题进行等价的并行拆解,转化为N个子优化问题叠加的形式,具体如下:
实施例一
基于图1的Spark分布式计算流程,将本发明的聚类结果与交织群卷积算法IGC、模糊聚类算法FCM和K-Means聚类算法的聚类结果进行对比。
如图2所示,在迭代次数方面,本发明提出的方法的收敛速度较为稳定,在大规模数据集的测试用例下,依然可以在有限次数内完成求解,并得到高质量的聚类结果。其中IGC算法则对数据集规模较为敏感,大规模测试下,IGC很难收敛。
在聚类质量的对比上,以K-Means算法的聚类结果为标准(由于K-Means并无规模约束,故其类内平方和(WCSS)最小),WCSS越大,则聚类质量越差。如图3所示,本发明提出的方法所得结果与K-Means结果较为相近,也即在保证了聚类规模约束下,依然可以获得高质量的聚类结果。
如图4所示,在规模约束效果方面,由于K-Means聚类算法并无规模约束,所以其表现最差;FCM在聚类质量上表现良好,但事实上其并不能保证规模约束;本发明提出的方法与IGC在这一指标上表现都能达到预期。
从收敛稳定性、聚类质量和规模约束效果进行考虑,本发明所提方法与其他聚类算法相比具有一定优势。
此外,需要说明的是,本说明书中所描述的具体实施例,所取名称可以不同,本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等小变化或者简单变化,均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (10)
1.一种基于优化理论的带规模约束的并行聚类方法,其特征在于,包括以下步骤:
步骤S1:获取待聚类的数据集以及规模约束向量,根据所述数据集和规模约束向量进行参数初始化;
步骤S2:通过分配矩阵将完成参数初始化的所述数据集分解成多个子问题;
步骤S3:引入拉格朗日乘子向量,由投影矩阵并行求解所述子问题并进行聚类,根据子问题的求解结果更新所述分配矩阵;
步骤S4:计算收敛判断参数,根据所述收敛判断参数来判断聚类是否达到停止收敛准则,若满足所述停止收敛准则,停止迭代并输出当前的所述分配矩阵及对应的聚类结果,否则将继续执行步骤S1-S3进行迭代。
4.根据权利要求3所述的一种基于优化理论的带规模约束的并行聚类方法,其特征在于,所述投影矩阵并行求解子问题的具体过程为:
步骤S301:将所述投影矩阵中第i行向量的元素按逆序排序后赋值,获得投影序列;
步骤S302:求解所述投影序列,计算出对应的投影向量;
步骤S303:分配矩阵根据所述投影向量进行迭代更新。
8.根据权利要求3所述的一种基于优化理论的带规模约束的并行聚类方法,其特征在于,所述收敛判断参数具体为:
r(t+1):=||1TX(t+1)-n||
s(t+1):=||X(t+1)-X(t)||
其中,r(t+1)和s(t+1)为第t+1次迭代时的收敛判断参数,X(t)为第t次迭代时的分配矩阵,1T为过程变量。
9.根据权利要求8所述的一种基于优化理论的带规模约束的并行聚类方法,其特征在于,所述停止收敛准则具体为:
∈pri=10-5*||n||
∈dual=10-5*||λ||
其中,∈pri和∈dual为停止收敛准则的设定阈值。
10.根据权利要求9所述的一种基于优化理论的带规模约束的并行聚类方法,其特征在于,所述步骤S4中停止迭代的条件为r(t+1)<∈pri且s(t+1)<∈dual。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010131917.0A CN111401413A (zh) | 2020-02-29 | 2020-02-29 | 一种基于优化理论的带规模约束的并行聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010131917.0A CN111401413A (zh) | 2020-02-29 | 2020-02-29 | 一种基于优化理论的带规模约束的并行聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111401413A true CN111401413A (zh) | 2020-07-10 |
Family
ID=71434077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010131917.0A Pending CN111401413A (zh) | 2020-02-29 | 2020-02-29 | 一种基于优化理论的带规模约束的并行聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401413A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985336A (zh) * | 2020-07-22 | 2020-11-24 | 深圳供电局有限公司 | 人脸图像聚类方法、装置、计算机设备和存储介质 |
CN112949232A (zh) * | 2021-03-17 | 2021-06-11 | 梁文毅 | 一种基于分布式建模的电气仿真方法 |
CN114897110A (zh) * | 2022-07-15 | 2022-08-12 | 成都飞机工业(集团)有限责任公司 | 群孔测量摆角规划方法、可读介质和设备 |
-
2020
- 2020-02-29 CN CN202010131917.0A patent/CN111401413A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985336A (zh) * | 2020-07-22 | 2020-11-24 | 深圳供电局有限公司 | 人脸图像聚类方法、装置、计算机设备和存储介质 |
CN112949232A (zh) * | 2021-03-17 | 2021-06-11 | 梁文毅 | 一种基于分布式建模的电气仿真方法 |
CN114897110A (zh) * | 2022-07-15 | 2022-08-12 | 成都飞机工业(集团)有限责任公司 | 群孔测量摆角规划方法、可读介质和设备 |
CN114897110B (zh) * | 2022-07-15 | 2022-11-18 | 成都飞机工业(集团)有限责任公司 | 群孔测量摆角规划方法、可读介质和设备 |
WO2024011779A1 (zh) * | 2022-07-15 | 2024-01-18 | 成都飞机工业(集团)有限责任公司 | 群孔测量摆角规划方法、可读介质和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuan et al. | Tensor ring decomposition with rank minimization on latent space: An efficient approach for tensor completion | |
Bhimani et al. | Accelerating K-Means clustering with parallel implementations and GPU computing | |
CN111401413A (zh) | 一种基于优化理论的带规模约束的并行聚类方法 | |
Kimura et al. | A fast hierarchical alternating least squares algorithm for orthogonal nonnegative matrix factorization | |
Yang et al. | LFTF: A framework for efficient tensor analytics at scale | |
Qu et al. | A nonconvex approach for exact and efficient multichannel sparse blind deconvolution | |
CN106845519A (zh) | 一种分布式实现的稀疏子空间聚类方法 | |
CN109508752A (zh) | 一种基于结构化锚图的快速自适应近邻聚类方法 | |
CN106294288B (zh) | 一种分布式非负矩阵分解方法 | |
Chen et al. | LABIN: Balanced min cut for large-scale data | |
CN110705648A (zh) | 大规模多视图数据自降维K-means算法及系统 | |
CN112149045A (zh) | 一种适用于大规模数据的降维、关联分析方法 | |
Papa et al. | SGD algorithms based on incomplete U-statistics: large-scale minimization of empirical risk | |
Liu et al. | Decentralized robust subspace clustering | |
CN106778812B (zh) | 聚类实现方法和装置 | |
Kovács et al. | Graphical elastic net and target matrices: Fast algorithms and software for sparse precision matrix estimation | |
CN114399653A (zh) | 一种基于锚点图的快速多视图离散聚类方法及系统 | |
Huang et al. | Mini-batch stochastic ADMMs for nonconvex nonsmooth optimization | |
Barger et al. | k-means for streaming and distributed big sparse data | |
Valle et al. | Parallel approach for ensemble learning with locally coupled neural networks | |
Du et al. | Maxios: Large scale nonnegative matrix factorization for collaborative filtering | |
Bühlmann et al. | Magging: maximin aggregation for inhomogeneous large-scale data | |
Raman et al. | DS-MLR: exploiting double separability for scaling up distributed multinomial logistic regression | |
Vahidian et al. | Group Distributionally Robust Dataset Distillation with Risk Minimization | |
Fercoq | Parallel coordinate descent for the AdaBoost problem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200710 |