CN106845519A - 一种分布式实现的稀疏子空间聚类方法 - Google Patents
一种分布式实现的稀疏子空间聚类方法 Download PDFInfo
- Publication number
- CN106845519A CN106845519A CN201611183512.1A CN201611183512A CN106845519A CN 106845519 A CN106845519 A CN 106845519A CN 201611183512 A CN201611183512 A CN 201611183512A CN 106845519 A CN106845519 A CN 106845519A
- Authority
- CN
- China
- Prior art keywords
- sparse
- data
- matrix
- clustering method
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 230000003595 spectral effect Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 33
- 238000011480 coordinate descent method Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 9
- 239000000654 additive Substances 0.000 claims description 2
- 230000000996 additive effect Effects 0.000 claims description 2
- 239000000470 constituent Substances 0.000 claims 1
- 238000005192 partition Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 6
- 238000007418 data mining Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Discrete Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种分布式实现的稀疏子空间聚类方法,其在多台计算机组成的集群上,将数据分发到每个计算节点上,然后每个计算节点选取本计算机和其他计算机的数据计算一个Lasso稀疏重建子问题直至问题收敛,当所有子问题由所有计算节点分工计算完成后,将计算结果向量汇总到主进程或管理节点,进行后续的带权无向图的生成和谱聚类过程,最终得到分类编号。较常用的ADMM串行计算,在不降低分类精确度的情况下,计算速度有了明显的提高。
Description
技术领域
本发明公开了一种分布式实现的稀疏子空间聚类方法,涉及机器学习数据处理技术领域。
背景技术
聚类问题是无监督机器学习研究的重要问题之一,在图像处理,数据挖掘,社交网络等领域得到广泛研究和应用。然而在许多实际问题中,随着数据维度的不断快速增加,所谓的“维数灾难”问题也日益显著。高维的数据如果用传统方法来求解,时间复杂度往往会难以承受,因此高维数据的高效建模和计算问题成为目前数据挖掘的重要挑战和难点。
Elhamifar&Vidal提出了建立在自表达性质基础上的稀疏子空间聚类模型。该模型利用每个样本的稀疏自表达重建系数构造相似度矩阵,进而将相似度矩阵应用谱聚类。坐标下降算法是经典的优化算法之一,近年来在高维稀疏学习问题(如LASSO)中得到很好的应用。
针对稀疏子空间聚类模型的自表达系数矩阵优化问题提出一种基于坐标下降的求解方法及其分布式实现。目前关于分布式稀疏子空间聚类算法的研究还较少。在原始的SSC论文中,Elhamifar&Vidal在求解系数矩阵使用的方法是交替方向乘子法(AlternatingDirection Method of Multipliers,ADMM)。但是ADMM需要更多的迭代次数,收敛速度慢,停止准则不好判断,参考量之间相互耦合,因此不利于分布式实现。故本发明提出一种案将整体的一个Lasso问题拆解成数个Lasso子问题进而分布式计算。
发明内容
为解决现有技术上的缺陷,本发明目的是在于提供了一种分布式实现的稀疏子空间聚类方法,充分利用计算机资源,将传统串行计算拓展到高性能分布式计算,符合大数据处理的趋势,降低了算法的处理时间。
为实现上述目的,本发明的技术方案如下:
一种分布式实现的稀疏子空间聚类方法,包括以下步骤:
步骤1、首先将待聚类的数据或图片提取特征后按列排列组成一个矩阵,得到原始数据。
步骤2、将原始数据分配到每个计算节点上,由于每个计算节点要分别计算各自的Lasso问题,所以各个计算节点要将数据用不同的序号分割,每个计算节点再从其他节点复制所有其他节点的数据,以得到求解Lasso稀疏重建需要的数据。
步骤3、以上就得到了分布式解决Lasso问题的条件,每个计算节点独立运行,用坐标下降法求解各自的Lasso问题。如果是单机并行计算,由于各个数据的稀疏重建是独立的,因此可以通过多核cpu并行计算。
步骤4、由于特征数量远远大于计算节点的数量,需要多次对计算节点分配需要以遍历完所有的特征。
步骤5、将每个计算节点的计算结果全部收集汇总,进行后续的带权无向图的生成和谱聚类过程,最终得到分类编号。
将整个Lasso稀疏重建问题拆解成Lasso子问题,并分别独立求解。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)将大问题分解成子问题分布式计算后,降低了算法的处理时间;
(2)充分利用计算机资源,将传统串行计算拓展到高性能分布式计算,符合大数据处理的趋势。
附图说明
图1是本发明机并行实现过程;
图2是本发明分布式实现过程。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
参加图1和图2,本发明提供的一种分布式实现的稀疏子空间聚类方法,其首先在将求解相似度矩阵的Lasso问题过程中将常用的ADMM算法替换为坐标下降法求解,然后利用坐标下降法求解Lasso问题过程的可分性将问题分布式计算。
本发明方法包括以下步骤:在多台计算机组成的集群上,将数据分发到每个计算节点上,然后每个计算节点选取本计算机和其他计算机的数据计算一个Lasso稀疏重建子问题直至问题收敛,当所有子问题由所有计算节点分工计算完成后,将计算结果向量汇总到主进程或管理节点,进行后续的带权无向图的生成和谱聚类过程,最终得到分类编号。较常用的ADMM串行计算,在不降低分类精确度的情况下,计算速度有了明显的提高。其具体方法如下:
步骤1、首先将待分类的图片提取特征后按列排列组成一个矩阵,得到原始数据:关于原始数据的生成,简要介绍一下稀疏子空间聚类模型。假设在D维欧几里得空间RD中有n个线性的子空间他们的维度分别是给定一个具有N个无噪声的数据点集合这些数据点取自n个子空间中,则用一个矩阵来包括所有数据点,如:
Y=[y1,y2,...,yN] (1)
其中,是维度为dl的矩阵,矩阵的元素来自于Sl且满足Nl>dl。假设事先不知道子空间的先验基,也不知道数据点属于哪一个子空间,那么子空间聚类的问题就归结于子空间数量是挖掘,每个子空间的维度和基,还有对矩阵Y的数据分割。要解决这个问题,首先对于每个数据点,寻找一些其他属于同一个子空间的数据点,这可以通过一个全局稀疏优化程序来将数据点所属子空间的信息保存在一个矩阵中。然后将这个矩阵应用在谱聚类中来聚类数据。
上述全局稀疏优化程序得出的矩阵称为稀疏表达矩阵,其代表的是重建的系数。如上文所述,在子空间集合中的每个数据点能够被数据集中的其他数据点共同重建。有这样一个数据点可以表示为
yi=Y-ici,cii=0 (2)
其中,ci=[ci1,...,ciN]T,而cii=0表示在数据点组成的矩阵Y中,每个数据点可以被写成其他数据点Y-i的线性组合,而其中并不包括自己。然而,通常字典Y中yi的表达结构并不是独一无二的,这就形成了这样一个事实:子空间中数据点的数量一般比它的维度大,也就是Nl>Dl。这样一来,每个Yl就有一个非平凡的零空间,从而带来了每个数据点有无限个表达结构的结果。问题(2)就成了稀疏子空间聚类的关键点。假设存在一个稀疏解ci,它的非零项对应着同一子空间的数据点,将这样的解作为稀疏子空间的表达结构。
具体来说,一个归属于dl维子空间Sl的数据点yi可以被写成dl个Sl内其他点的线性组合。最终,出于理想化的考虑,一个数据点的稀疏表达可以找出同一个子空间的数据点,非零元素的数目就是潜在子空间的维度。
由于(2)方程可以有无穷多个解,可以用范数加在这个最小化目标函数中,如
将每部分写成整体形式,并考虑加性噪声,则得到如下优化问题
(3)和(4)的解就是数据点的子空间稀疏表达系数。可以用ADMM方法求解,亦可以使用坐标下降法,而且同样有稀疏解,在后一节中会介绍坐标下降法对这个问题的求解。
在解出目标优化程序后得到了数据点的稀疏表达矩阵,接下来就是考虑如何用这个矩阵来将数据分割至不同的子空间中。
对这个问题,可以建立一个带权无向图g=(v,ε,W),其中v定义为此图关于N个数据点的N个节点,定义为每个节点之间的边界的集合,W∈RN×N是一个对称且非负的对称矩阵,并作为一个相似度矩阵来表示边界的权重。一个理想的带权无向图,它在同一个子空间的节点是互相链接的,而不同子空间的节点是互相没有联系的。相似度矩阵W由下式给出
W=|C|+|C|T (5)
这说明节点i与节点j通过一个权重为|cij|+|cji|的边界相联系。最后对相似度矩阵应用谱聚类算法得出聚类结果。
步骤2、将原始数据分配到计算机的每个核或者每个计算节点上,由于每个核或者每个计算节点要分别计算各自的Lasso问题,所以每个核或计算节点要将数据用不同的序号分割,以得到Lasso需要的数据;所述下坐标下降法对于Lasso的求解过程:
坐标下降法适用于解决最小化目标函数问题,是一种非梯度算法。坐标下降法寻找一个目标函数的局部最小值,先选定一个坐标方向xi,并固定其他所有的方向x-i,对当前坐标方向一维搜索,优化,再选定xi+1,固定其他的坐标再计算,循环直到目标函数稳定。
对于上面(3)的问题,要用坐标下降法求解,需要将每一个样本的自表达问题等价地写成如下Lasso的形式:
设原始数据Y∈RD×N,如上文所设,其中yi是Y中的第i列,Y-i是Y中抽出向量yi剩下的元素组成的矩阵,i∈{i=1,2,...,N}。x是解集C中去掉全零对角线剩下矩阵元素中的一列,λ是平衡式中两项的参数。在选定一个xi并固定x-i后,令Ψ=Y-i TY-i,ωT=-yi TY-i,Ψi是矩阵Ψ的第i列,ωi是向量ω的第i个元素,xi的每一个元素为k∈{k=1,2,...,N-1}。为了求出(6)的最优解,先展开(6):
令Ψ=Y-i TY-i,ωT=-yi TY-i,由于后面会对f(x)求导,而yi Tyi是已知的常数,所以先忽略这一常数项,则得到下式:
对其展开计算:
选定一个坐标方向xi,固定其他所有的坐标x-i,即为常数,由于Ψ,ω皆事先给定,则可令所有带有x-i的项之和为const,得到下式:
接下来要求f(x)的最小值,以x1为例,由于Ψ,ω非负,就可以直接将(8)对x1求导,但由于其中包括绝对值项,同时对x的正负做出讨论:
当x>0:
f'(x)=Ψ11x1+Ψ21x2+…+Ψn1xn+ω1+λ
其中x2…xn项Ψ21x2+…+Ψn1xn可以表示成Ψ1x-Ψ11x1,令导数f'(x)=0,得
x1 k+1表示对x1进行第k+1次迭代得到的值,Ψ1是矩阵Ψ的第一列,由于规定x>0,令β=Ψ1x1-Ψ11x1 k+ω1,有β<-λ,若β≥-λ,要使f(x)达到最小值,只有唯一的x=0。
当x<0:
f'(x)=Ψ11x1+Ψ21x2+…+Ψn1xn+ω1-λ
同理得到
由于规定x<0,同样令β=Ψ1x1-Ψ11x1 k+ω1,有β>λ,若β≤λ,要使f(x)达到最小值,同样只有x=0。推广到一般形式:
得到之后对xi做一次更新,如此循环直至目标函数下降至稳定状态。
步骤3、分布式解决Lasso问题,将每个核或计算节点称为计算节点,每个计算节点用坐标下降法求解各自的Lasso问题:分布式的求解方式通过步骤2来拓展,假设每个计算节点序号是R,R∈{R=1,2,...,P},计算节点的数目为P。如果是单机并行计算,假设计算机的核心数目为P,那么它的进程数目一般来说也是P,每个进程序号是R,R∈{R=1,2,…,P},在所有进程上更新对应进程数目个数的坐标。令则对于(6),分布式后的最优解为:
步骤4、由于特征数量远远大于计算节点的数量,需要多次对计算节点分配需要以遍历完所有的特征。
步骤5、将每个计算节点的计算结果全部收集汇总,进行后续的带权无向图的生成和谱聚类过程,最终得到分类编号:每个核心得出的最优解暂时存放在不同的位置,然后需要用分布式框架中的集合通信来将所有的xi+R汇聚到一个核心中,再进行后续的运算。此分布式方法在坐标下降法每次循环之外,求解每个xi的过程与非分布式模式下完全相同,所以这个过程并未影响目标函数的收敛,求得的解同样有效。
将计算量庞大的Lasso问题分解成Lasso子问题分布式计算后,降低了算法的处理时间,充分利用计算机资源,将传统串行计算拓展到高性能分布式计算,符合大数据处理的趋势。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (9)
1.一种分布式实现的稀疏子空间聚类方法,其特征在于,其方法包括:
(A)在多台计算机组成的集群上,将原始数据分配到每个计算节点上;
(B)每个计算节点选取本计算机和其他计算机的原始数据计算一个Lasso稀疏重建子问题直至问题收敛;
(C)当所有子问题由所有计算节点分工计算完成后,将计算结果向量汇总到主进程或管理节点,进行后续的带权无向图的生成和谱聚类过程,最终得到分类编号。
2.根据权利要求1所述的稀疏子空间聚类方法,其特征在于,所述步骤(A)中,将待聚类的数据或图片提取特征后按列排列组成一个矩阵,得到所述原始数据。
3.根据权利要求1所述的稀疏子空间聚类方法,其特征在于,所述步骤(B)中,各个计算节点将原始数据用不同的序号分割,每个计算节点再从其他节点复制所有其他节点的原始数据,以得到求解Lasso稀疏重建需要的数据。
4.根据权利要求1或3所述的稀疏子空间聚类方法,其特征在于,所述步骤(B)中,每个计算节点独立运行,用坐标下降法求解各自的Lasso问题;如果是单机并行计算,可通过多核cpu并行计算。
5.如权利要求1或2所述的稀疏子空间聚类方法,其特征在于,所述步骤(A)中,原始数据的生成方法为:设在D维欧几里得空间RD中有n个线性的子空间其维度分别是给定一个具有N个无噪声的数据点集合这些数据点取自n个子空间中,则原始数据矩阵Y包括所有数据点:
Y=[y1,y2,...,yN]
其中,是维度为dl的矩阵,矩阵的元素来自于Sl且满足Nl>dl;。
6.如权利要求5所述的稀疏子空间聚类方法,其特征在于,所述步骤(B)中,计算一个Lasso稀疏重建子问题的子空间稀疏表达系数为:
min||ci||1
s.t.yi=Y-ici,cii=0
将每部分写成整体形式,并考虑加性噪声,则得到如下优化:
minλ||C||1+||E||2
s.t.Y=YC+E,diag(C)=0
其中,ci稀疏解,Y为原始数据矩阵;C为所有ci组成的矩阵,E为误差或噪声。
7.如权利要求6所述的稀疏子空间聚类方法,其特征在于,所述各个计算节点将原始数据用不同的序号分割,其方法为:建立一个带权无向图g=(v,ε,W),其中v定义为此带权无向图关于N个数据点的N个节点,定义为每个节点之间的边界的集合,W∈RN×N是一个对称且非负的对称矩阵,并作为一个相似度矩阵W来表示边界的权重;相似度矩阵W由下式给出:
W=|C|+|C|T
最后对相似度矩阵W通过谱聚类算法得出聚类结果。
8.如权利要求4所述的稀疏子空间聚类方法,其特征在于,所述坐标下降法的方法为:寻找一个目标函数的局部最小值,先选定一个坐标方向xi,并固定其他所有的方向x-i,对当前坐标方向一维搜索,优化,再选定xi+1,固定其他的坐标再计算,循环直到目标函数稳定。
9.如权利要求7所述的稀疏子空间聚类方法,其特征在于,每个计算节点求解各自的Lasso问题,分布式后的最优解为:令
其中,每个计算节点序号是R,R∈{R=1,2,...,P},计算节点的数目为P
Ψ=Y-i TY-i,i为样本序号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611183512.1A CN106845519A (zh) | 2016-12-20 | 2016-12-20 | 一种分布式实现的稀疏子空间聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611183512.1A CN106845519A (zh) | 2016-12-20 | 2016-12-20 | 一种分布式实现的稀疏子空间聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106845519A true CN106845519A (zh) | 2017-06-13 |
Family
ID=59140852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611183512.1A Pending CN106845519A (zh) | 2016-12-20 | 2016-12-20 | 一种分布式实现的稀疏子空间聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106845519A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107356431A (zh) * | 2017-07-11 | 2017-11-17 | 华南理工大学 | 基于admm与稀疏组合学习的滚动轴承性能退化评估方法 |
CN107492101A (zh) * | 2017-09-07 | 2017-12-19 | 四川大学 | 基于自适应构造最优图的多模态鼻咽肿瘤分割算法 |
CN108881444A (zh) * | 2018-06-22 | 2018-11-23 | 东南大学 | 一种内容流行度分布不一致的雾无线接入网非同步编码缓存方法 |
CN111639006A (zh) * | 2020-05-29 | 2020-09-08 | 深圳前海微众银行股份有限公司 | 一种集群的进程管理方法及装置 |
CN112070142A (zh) * | 2020-09-02 | 2020-12-11 | 平安科技(深圳)有限公司 | 车辆配件的分组方法、装置、电子设备及存储介质 |
CN114581221A (zh) * | 2022-05-05 | 2022-06-03 | 支付宝(杭州)信息技术有限公司 | 分布式计算系统以及计算机设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105469431A (zh) * | 2015-12-21 | 2016-04-06 | 电子科技大学 | 基于稀疏子空间的追踪方法 |
-
2016
- 2016-12-20 CN CN201611183512.1A patent/CN106845519A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105469431A (zh) * | 2015-12-21 | 2016-04-06 | 电子科技大学 | 基于稀疏子空间的追踪方法 |
Non-Patent Citations (1)
Title |
---|
吴杰祺等: "利用坐标下降实现并行稀疏子空间聚类", 《计算机应用》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107356431A (zh) * | 2017-07-11 | 2017-11-17 | 华南理工大学 | 基于admm与稀疏组合学习的滚动轴承性能退化评估方法 |
CN107356431B (zh) * | 2017-07-11 | 2019-05-14 | 华南理工大学 | 基于admm与稀疏组合学习的滚动轴承性能退化评估方法 |
CN107492101A (zh) * | 2017-09-07 | 2017-12-19 | 四川大学 | 基于自适应构造最优图的多模态鼻咽肿瘤分割算法 |
CN108881444A (zh) * | 2018-06-22 | 2018-11-23 | 东南大学 | 一种内容流行度分布不一致的雾无线接入网非同步编码缓存方法 |
CN108881444B (zh) * | 2018-06-22 | 2020-11-03 | 东南大学 | 一种内容流行度分布不一致的雾无线接入网非同步编码缓存方法 |
CN111639006A (zh) * | 2020-05-29 | 2020-09-08 | 深圳前海微众银行股份有限公司 | 一种集群的进程管理方法及装置 |
CN111639006B (zh) * | 2020-05-29 | 2023-03-21 | 深圳前海微众银行股份有限公司 | 一种集群的进程管理方法及装置 |
CN112070142A (zh) * | 2020-09-02 | 2020-12-11 | 平安科技(深圳)有限公司 | 车辆配件的分组方法、装置、电子设备及存储介质 |
CN112070142B (zh) * | 2020-09-02 | 2024-05-10 | 平安科技(深圳)有限公司 | 车辆配件的分组方法、装置、电子设备及存储介质 |
CN114581221A (zh) * | 2022-05-05 | 2022-06-03 | 支付宝(杭州)信息技术有限公司 | 分布式计算系统以及计算机设备 |
CN114581221B (zh) * | 2022-05-05 | 2022-07-29 | 支付宝(杭州)信息技术有限公司 | 分布式计算系统以及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106845519A (zh) | 一种分布式实现的稀疏子空间聚类方法 | |
Joseph et al. | Impact of regularization on spectral clustering | |
Savas et al. | Clustered low rank approximation of graphs in information science applications | |
Aaron et al. | Dynamic incremental k-means clustering | |
Oti et al. | Comprehensive review of K-Means clustering algorithms | |
CN112988693A (zh) | 一种异常数据检测中谱聚类算法并行化方法及系统 | |
Hajinezhad et al. | Nonconvex alternating direction method of multipliers for distributed sparse principal component analysis | |
CN114399653A (zh) | 一种基于锚点图的快速多视图离散聚类方法及系统 | |
CN108549692A (zh) | Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法 | |
Alrabea et al. | Enhancing k-means algorithm with initial cluster centers derived from data partitioning along the data axis with PCA | |
Zhang et al. | Enabling in-situ data analysis for large protein-folding trajectory datasets | |
Gasteiger et al. | Scalable optimal transport in high dimensions for graph distances, embedding alignment, and more | |
Kumagai et al. | Combinatorial clustering based on an externally-defined one-hot constraint | |
Zhao et al. | Towards scalable spectral embedding and data visualization via spectral coarsening | |
Chu et al. | An alternating rank-k nonnegative least squares framework (ARkNLS) for nonnegative matrix factorization | |
Ballani et al. | Sparse inverse covariance estimation with hierarchical matrices | |
Hosseini-Asl et al. | Nonnegative matrix factorization for document clustering: A survey | |
Maggu et al. | Transformed locally linear manifold clustering | |
CN109614581B (zh) | 基于对偶局部学习的非负矩阵分解聚类方法 | |
Gao et al. | Graph regularized symmetric non-negative matrix factorization for graph clustering | |
US11315036B2 (en) | Prediction for time series data using a space partitioning data structure | |
CN109145111B (zh) | 一种基于机器学习的多特征文本数据相似度计算方法 | |
Silva et al. | A hybrid parallel SOM algorithm for large maps in data-mining | |
Ding et al. | Efficient model-based collaborative filtering with fast adaptive PCA | |
CN113688575A (zh) | 一种运用属性选择和平衡约束的谱聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170613 |