CN113627462A - 基于矩阵分解和多划分对齐的医疗数据聚类方法及系统 - Google Patents

基于矩阵分解和多划分对齐的医疗数据聚类方法及系统 Download PDF

Info

Publication number
CN113627462A
CN113627462A CN202110705655.9A CN202110705655A CN113627462A CN 113627462 A CN113627462 A CN 113627462A CN 202110705655 A CN202110705655 A CN 202110705655A CN 113627462 A CN113627462 A CN 113627462A
Authority
CN
China
Prior art keywords
matrix
partition
view
representing
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110705655.9A
Other languages
English (en)
Inventor
朱信忠
徐慧英
刘新旺
李苗苗
涂文轩
李洪波
张长旺
葛铭
殷建平
赵建民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN202110705655.9A priority Critical patent/CN113627462A/zh
Publication of CN113627462A publication Critical patent/CN113627462A/zh
Priority to CN202111326424.3A priority patent/CN115293220A/zh
Priority to US18/275,814 priority patent/US20240111829A1/en
Priority to PCT/CN2022/098951 priority patent/WO2022267956A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于矩阵分解和多划分对齐的医疗数据聚类方法及系统。其中涉及的基于矩阵分解和多划分对齐的医疗数据聚类方法,包括:S1.获取与医疗数据相对应的原始图像数据;S2.对获取的原始图像数据相对应的多视图数据通过多层矩阵进行分解,得到各个视图的基础划分矩阵;S3.利用列变换将得到的各个视图的基础划分矩阵进行融合对齐,得到一致融合后的划分矩阵;S4.将得到的各个视图的基础划分矩阵以及一致融合后的划分矩阵进行统一,并构建统一后划分矩阵相对应的目标函数;S5.采用交替优化方法优化构建的目标函数,得到优化后的统一划分矩阵;S6.对得到的优化后的统一划分矩阵进行谱聚类,得到最终的聚类结果。

Description

基于矩阵分解和多划分对齐的医疗数据聚类方法及系统
技术领域
本发明涉及面向医疗诊断的多视图聚类技术领域,尤其涉及基于矩阵分解和多划分对齐的医疗数据聚类方法及系统。
背景技术
在实际的医疗诊断应用中,大多数医疗数据都是由不同视图构成的。例如在肺部图像诊断中,可以获得X射线视图、CT视图与核磁共振视图等多种信息源,研究者通过机器学习算法对多视图数据进行分析处理,来辅助医生诊断,从而提高医疗诊断的效率并达到减少医生的工作负担的目的。如上所述,通过样本的不同信息源或不同属性对其个体进行描述,我们称之为称为多视图数据,其对应处理多视图数据的聚类算法,称之为多视图聚类算法。由于对大量的医疗数据进行精准标注的成本十分高昂,多视图聚类作为一种重要的无监督数据分析方法,通过多视图聚类可以充分利用多个医疗视图之间的多样性和互补信息,此类算法对医疗辅助诊断的发展起着非常重要的作用,具有很好的研究与应用价值。
现有的多视图聚类算法可以通过基于模型的不同进一步分为四类:协同训练、多核学习、图聚类和子空间聚类。对于上述四种方法均可以使用早期融合基本思想进行视图融合。早期融合的主要思想是将多个视图的特征表示或图结构融合成一个公共的表示或者一个公共的图结构。例如,基于图的聚类方法在每个视图下构建样本相似性,然后通过随机行走策略融合这些图。多核学习方法通过线性或非线性组合融合多个基核以获得最佳的聚类核。子空间聚类的目的是为每个视图找到合适的低维表示或结构,然后将它们融合成一个包含丰富信息的公共表示或结构以用于聚类。另一方面,除了对视图进行早期融合还有后期融合的方式。该方法是将单个视图的聚类结果融合起来,也称为决策级融合。后期融合可以分为集成学习和协作式训练。集成聚类算法的输入是对应于多个视图的聚类结果。如在工作中,通过定义最终聚类结果与输入聚类结果之间的距离作为公共损失函数以来获得聚类结果。协作式训练的关注点是如何在协作式训练中获得更好的聚类结果。通过对每个视图进行谱嵌入获得多个聚类结果,并将获得的聚类结果用于影响其他视图的原始表示。此外将后期融合应用于多核k-means聚类,降低了算法的复杂性和时间成本。
NMF被广泛用于聚类,因为它有能力处理捕捉不同观点的基本表示。一些工作通过定义多样性来减少不同视图表示之间的冗余。此外,交叉熵成本函数和邻居信息均被引入以指导学习过程。尽管NMF可以很好地解决高维问题。但它在捕捉数据的内部结构方面似乎无能为力,因此后续的工作达到了保留通过添加图形正则化项以及流行的正则化项,达到保留数据空间的局部几何结构的目的。为了减少离群值的影响,在工作中必须引入流形正则化的范数。随着研究的发展,单层NMF聚类所提取的信息往往不能满足我们对数据信息挖掘的需要。为了探索数据中更深层次的隐藏信息,现有技术中提出了一个深度半NMF模型来探索具有隐含的低层隐藏属性的复杂层次信息。受深度半NMF的影响,模型DMVC学习了公共的该模型通过对原始数据结构的指导,学习包含深层信息的低维表征。最近,还提出了一种通过深度NMF方法进行多视图聚类的方法来自动学习每个视图的最佳权重。
当前传统现有的NMF方法通过学习具有丰富信息的低维表示实现了聚类性能的大幅提升,但它们仍然可以通过以下考虑进行改进虑的情况下得到改进。1)充分发挥原始数据的作用以获得更多的判别信息;2)重点关注视图之间的共享和视图之间的特定信息;3)改进的融合策略多视图信息的改进策略。
发明内容
本发明的目的是针对现有技术的缺陷,提供了基于矩阵分解和多划分对齐的医疗数据聚类方法及系统。
为了实现以上目的,本发明采用以下技术方案:
基于矩阵分解和多划分对齐的医疗数据聚类方法,包括:
S1.获取与医疗数据相对应的原始图像数据;
S2.对获取的原始图像数据相对应的多视图数据通过多层矩阵进行分解,得到各个视图的基础划分矩阵;
S3.利用列变换将得到的各个视图的基础划分矩阵进行融合对齐,得到一致融合后的划分矩阵;
S4.将得到的各个视图的基础划分矩阵以及一致融合后的划分矩阵进行统一,并构建统一后划分矩阵相对应的目标函数;
S5.采用交替优化方法优化构建的目标函数,得到优化后的统一划分矩阵;
S6.对得到的优化后的统一划分矩阵进行谱聚类,得到最终的聚类结果。
进一步的,所述步骤S4中构建统一后划分矩阵相对应的目标函数,表示为:
Figure BDA0003131132200000031
Figure BDA0003131132200000032
其中,α(v)表示对于第v个视图的权重;X(v)表示第v个视图的特征矩阵;
Figure BDA0003131132200000033
表示第v个视图的第i层基础矩阵;λ表示划分学习和融合学习的一个平衡系数;
Figure BDA0003131132200000034
W(v)、H分别表示第v个视图的基础划分矩阵、列对齐矩阵、一致融合后的划分矩阵;β(v)表示针对后期融合过程中第v个视图对应基础划分的权重;HT表示H的转置;W(v)T表示W(v)的转置。
进一步的,所述步骤S5中采用交替优化方法优化构建的目标函数,具体包括:
A1.固定变量
Figure BDA0003131132200000035
W(v)、β、α(v),优化H,则H的优化式表示为:
min-tr(HU),s.t.HHT=Ik
其中,
Figure BDA0003131132200000036
表示融合后的划分矩阵;
A2.固定变量H、
Figure BDA0003131132200000037
W(v)、β、α(v),优化
Figure BDA0003131132200000038
Figure BDA0003131132200000039
的优化式表示为:
Figure BDA00031311322000000310
其中,
Figure BDA00031311322000000311
表示前i-1个基矩阵的累乘;
A3.固定变量
Figure BDA0003131132200000041
H、
Figure BDA0003131132200000042
W(v)、β、α(v),优化
Figure BDA0003131132200000043
Figure BDA0003131132200000044
的优化式表示为:
Figure BDA0003131132200000045
其中,
Figure BDA0003131132200000046
表示前i个基矩阵的累乘;
A4.固定变量
Figure BDA0003131132200000047
H、W(v)、β、α(v),优化
Figure BDA0003131132200000048
Figure BDA0003131132200000049
的优化式表示为:
Figure BDA00031311322000000410
其中,
Figure BDA00031311322000000411
表示前i个基矩阵的累乘;
Figure BDA00031311322000000412
表示除了第v个视图对应的划分矩阵的其他基础划分的融合;
A5.固定变量
Figure BDA00031311322000000413
H、β、α(v),优化W(v),则W(v)的优化式表示为:
min-tr(W(v)TQ),s.t.W(v)W(v)T=Ik
其中,
Figure BDA00031311322000000414
表示第v个视图的相似度和其对应的权重的乘积;
A6.固定变量
Figure BDA00031311322000000415
W(v)、β、H,优化α(v),则α(v)的优化式表示为:
Figure BDA00031311322000000416
其中,
Figure BDA00031311322000000417
表示第v个视图的重构损失;
A7.固定变量
Figure BDA00031311322000000418
W(v)、H、α(v),优化β,则β的优化式表示为:
Figure BDA00031311322000000419
β的优化式化简为:
Figure BDA00031311322000000420
其中,fT=[f1,f2,…,fV],表示不同视图相似度矩阵的迹的集合;
Figure BDA00031311322000000421
表示第v个视图的相似度矩阵的迹。
进一步的,所述步骤A1、A2、A3、A4、A5中均还包括:通过SVD分解得到优化后的结果。
进一步的,所述步骤A4中还包括:
构造拉格朗日函数,求构造的拉格朗日函数对应的KKT条件,得到
Figure BDA0003131132200000051
的更新,表示为:
Figure BDA0003131132200000052
Figure BDA0003131132200000053
Figure BDA0003131132200000054
其中,θu(ZHW)表示关于Z、H、W的一个函数,作为公式的分子;θl(ZHW)表示关于Z、H、W的一个函数,作为公式的分母。
进一步的,所述步骤A6中还包括:
构造拉格朗日函数,求构造的拉格朗日函数对应的KKT条件,得到α(v)的更新,表示为:
Figure BDA0003131132200000055
其中,R(v)表示第v个视图的重构损失。
进一步的,所述步骤A7中还包括:
根据柯西不等式,得到更新β的闭式解,表示为:
Figure BDA0003131132200000056
其中,f表示不同视图相似度矩阵的迹的集合。
相应的,还提供基于矩阵分解和多划分对齐的医疗数据聚类系统,包括:
获取模块,用于获取与医疗数据相对应的原始图像数据;
分解模块,用于对获取的原始图像数据相对应的多视图数据通过多层矩阵进行分解,得到各个视图的基础划分矩阵;
融合模块,用于利用列变换将得到的各个视图的基础划分矩阵进行融合对齐,得到一致融合后的划分矩阵;
构建模块,用于将得到的各个视图的基础划分矩阵以及一致融合后的划分矩阵进行统一,并构建统一后划分矩阵相对应的目标函数;
优化模块,用于采用交替优化方法优化构建的目标函数,得到优化后的统一划分矩阵;
聚类模块,用于对得到的优化后的统一划分矩阵进行谱聚类,得到最终的聚类结果。
进一步的,所述构建模块中构建统一后划分矩阵相对应的目标函数,表示为:
Figure BDA0003131132200000061
Figure BDA0003131132200000062
其中,α(v)表示对于第v个视图的权重;X(v)表示第v个视图的特征矩阵;
Figure BDA0003131132200000063
表示第v个视图的第i层基础矩阵;λ表示划分学习和融合学习的平衡系数;
Figure BDA0003131132200000064
W(v)、H分别表示第v个视图的基础划分矩阵、列对齐矩阵、一致融合后的划分矩阵;β(v)表示针对后期融合过程中第v个视图对应基础划分的权重;HT表示H的转置;W(v)T表示W(v)的转置。
进一步的,所述优化模块中采用交替优化方法优化构建的目标函数,具体包括:
固定变量
Figure BDA0003131132200000065
W(v)、β、α(v),优化H,则H的优化式表示为:
min-tr(HU),s.t.HHT=Ik
其中,
Figure BDA0003131132200000066
表示融合后的划分矩阵;
固定变量H、
Figure BDA0003131132200000067
W(v)、β、α(v),优化
Figure BDA0003131132200000068
Figure BDA0003131132200000069
的优化式表示为:
Figure BDA00031311322000000610
其中,
Figure BDA00031311322000000611
表示前i-1个基矩阵的累乘;
固定变量
Figure BDA0003131132200000071
H、
Figure BDA0003131132200000072
W(v)、β、α(v),优化
Figure BDA0003131132200000073
Figure BDA0003131132200000074
的优化式表示为:
Figure BDA0003131132200000075
其中,
Figure BDA0003131132200000076
表示前i个基矩阵的累乘;
固定变量
Figure BDA0003131132200000077
H、W(v)、β、α(v),优化
Figure BDA0003131132200000078
Figure BDA0003131132200000079
的优化式表示为:
Figure BDA00031311322000000710
其中,
Figure BDA00031311322000000711
表示前i个基矩阵的累乘;
Figure BDA00031311322000000712
表示除了第v个视图对应的划分矩阵的其他基础划分的融合;
固定变量
Figure BDA00031311322000000713
H、β、α(v),优化W(v),则W(v)的优化式表示为:
min-tr(W(v)TQ),s.t.W(v)W(v)T=Ik
其中,
Figure BDA00031311322000000714
表示第v个视图的相似度和其对应的权重的乘积;
固定变量
Figure BDA00031311322000000715
W(v)、β、H,优化α(v),则α(v)的优化式表示为:
Figure BDA00031311322000000716
其中,
Figure BDA00031311322000000717
表示第v个视图的重构损失;
固定变量
Figure BDA00031311322000000718
W(v)、H、α(v),优化β,则β的优化式表示为:
Figure BDA00031311322000000719
β的优化式化简为:
Figure BDA00031311322000000720
其中,fT=[f1,f2,…,fV],表示第v个视图的重构损失;
Figure BDA00031311322000000721
表示第v个视图的相似度矩阵的迹。
与现有技术相比,本发明提出了一种新颖的基于深度矩阵分解和划分对齐的传统聚类方法,该方法包括基础划分学习模块和多划分融合模块的优化目标。大量消融实验可表明,本发明所添加的多划分融合模块有助于视图间信息的更好的融合以及随着层数的增加,能够获取到更加丰富的信息。在六个公共数据集上的实验结果证明本发明的性能优于现有方法的性能。
附图说明
图1是实施例一提供的基于矩阵分解和多划分对齐的医疗数据聚类方法流程图;
图2是实施例一提供的MVC-DMF-MPA框架示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对当前基于矩阵分解的传统聚类方法仅仅考虑了视图间的共有信息而忽略了视图的特有信息,导致表示学习不充分以及前期融合可能掺杂进噪声,导致结果学习不准确的问题,提供了基于矩阵分解和多划分对齐的医疗数据聚类方法及系统,通过深度半非负矩阵分解得到每个视图的基础划分矩阵,然后通过对这些基础划分矩阵进行列选择后的矩阵在进行组合得到融合后的划分矩阵,将公共划分矩阵对融合后的划分矩阵进行逼近进。通过基划分矩阵和后期融合过程交替优化。最终使用公共划分进行k-means聚类,实现聚类的目的。
实施例一
本实施例提供基于矩阵分解和多划分对齐的医疗数据聚类方法,如图1所示,包括:
S1.获取与医疗数据相对应的原始图像数据;
S2.对获取的原始图像数据相对应的多视图数据通过多层矩阵进行分解,得到各个视图的基础划分矩阵;
S3.利用列变换将得到的各个视图的基础划分矩阵进行融合对齐,得到一致融合后的划分矩阵;
S4.将得到的各个视图的基础划分矩阵以及一致融合后的划分矩阵进行统一,并构建统一后划分矩阵相对应的目标函数;
S5.采用交替优化方法优化构建的目标函数,得到优化后的统一划分矩阵;
S6.对得到的优化后的统一划分矩阵进行谱聚类,得到最终的聚类结果。
本实施例提供一种基于矩阵分解和后期融合的无监督传统聚类方法,如图2所示,该方法主要由两个部分组成,即基础划分矩阵学习模块(多层半非负矩阵分解)和后期融合。
在步骤S4中,将得到的各个视图的基础划分矩阵以及一致融合后的划分矩阵进行统一,并构建统一后划分矩阵相对应的目标函数。
为了降低噪声影响结果的可能性以及降低时间提高效率,采用了划分级也就是决策级融合。学习到了不同视图的划分矩阵Hi以及一致的融合后的划分矩阵H。目标函数表示为:
Figure BDA0003131132200000091
Figure BDA0003131132200000092
其中,α(v)表示对于第v个视图的权重;X(v)表示第v个视图的特征矩阵;
Figure BDA0003131132200000093
表示第v个视图的第i层基础矩阵;λ表示划分学习和融合学习的平衡系数;
Figure BDA0003131132200000094
W(v)、H分别表示第v个视图的基础划分矩阵、列对齐矩阵、一致融合后的划分矩阵;β(v)表示针对后期融合过程中第v个视图对应基础划分的权重;HT表示H的转置;W(v)T表示W(v)的转置。||·||F表示F范数。
上述公式是通过深度非负矩阵分解得到每个视图的划分,在后续步骤中将每个视图的划分进行列选择进而逼近一个统一的划分矩阵,最终用这个统一的划分矩阵来聚类。
在步骤S5中,采用交替优化方法优化构建的目标函数,得到优化后的统一划分矩阵。
目标函数的优化问题直接解起来较为困难,因此提出了一种迭代算法来有效的解决该优化问题。
具体包括:
A1.固定变量
Figure BDA0003131132200000101
W(v)、β、α(v),优化H,则H的优化式表示为:
min-tr(HU),s.t.HHT=Ik
其中,tr()表示迹;
Figure BDA0003131132200000102
表示融合后的划分矩阵;可以直接对U做SVD分解得到优化后的H。
A2.固定变量H、
Figure BDA0003131132200000103
W(v)、β、α(v),优化
Figure BDA0003131132200000104
Figure BDA0003131132200000105
的优化式表示为:
Figure BDA0003131132200000106
其中,
Figure BDA0003131132200000107
表示前i-1个基矩阵的累乘;可以直接对
Figure BDA00031311322000001023
做SVD分解得到优化后的
Figure BDA0003131132200000108
A3.固定变量
Figure BDA0003131132200000109
H、
Figure BDA00031311322000001010
W(v)、β、α(v),优化
Figure BDA00031311322000001011
Figure BDA00031311322000001012
的优化式表示为:
Figure BDA00031311322000001013
其中,
Figure BDA00031311322000001014
表示前i-1个基矩阵的累乘;可以直接对Φ做SVD分解得到优化后的
Figure BDA00031311322000001015
A4.固定变量
Figure BDA00031311322000001016
H、W(v)、β、α(v),优化
Figure BDA00031311322000001017
Figure BDA00031311322000001018
的优化式表示为:
Figure BDA00031311322000001019
其中,
Figure BDA00031311322000001020
表示前i个基矩阵的累乘;
Figure BDA00031311322000001021
表示除了第v个视图对应的划分矩阵的其他基础划分的融合;可以直接对Φ、G做SVD分解得到优化后的
Figure BDA00031311322000001022
其中还包括:
还包括:
构造拉格朗日函数,求构造的拉格朗日函数对应的KKT条件,得到
Figure BDA0003131132200000111
的更新,表示为:
Figure BDA0003131132200000112
Figure BDA0003131132200000113
Figure BDA0003131132200000114
其中,[]+表示正值部分;[]-表示负值部分;θu(ZHW)表示关于Z、H、W的一个函数,作为公式的分子;θl(ZHW)表示关于Z、H、W的一个函数,作为公式的分母。
A5.固定变量
Figure BDA0003131132200000115
H、β、α(v),优化W(v),则W(v)的优化式表示为:
min-tr(W(v)TQ),s.t.W(v)W(v)T=Ik
其中,
Figure BDA0003131132200000116
表示第v个视图的相似度和其对应的权重的乘积;可以直接对Q做SVD分解得到优化后的W(v)
A6.固定变量
Figure BDA0003131132200000117
W(v)、β、H,优化α(v),则α(v)的优化式表示为:
Figure BDA0003131132200000118
其中,
Figure BDA0003131132200000119
表示第v个视图的重构损失。构造拉格朗日函数,求构造的拉格朗日函数对应的KKT条件,得到α(v)的更新,表示为:
Figure BDA00031311322000001110
其中,R(v)表示第v个视图的重构损失;。
A7.固定变量
Figure BDA00031311322000001111
W(v)、H、α(v),优化β,则β的优化式表示为:
Figure BDA0003131132200000121
β的优化式化简为:
Figure BDA0003131132200000122
其中,fT=[f1,f2,…,fV],表示不同视图相似度矩阵的迹的集合;
Figure BDA0003131132200000123
表示第v个视图的相似度矩阵的迹。根据柯西不等式,得到更新β的闭式解,表示为:
Figure BDA0003131132200000124
其中,表示不同视图相似度矩阵的迹的集合。
综上,目标函数值随着上述分步优化交替执行而单调下降。同时,目标函数有下界。因此,上述优化过程可以保证收敛。且提出一种基于非负矩阵分解和多划分对齐的多视图聚类算法,将聚类过程、融合过程统一在一个框架中。一致的划分矩阵的学习更适用于聚类,从而促使算法可以达到更好的聚类效果。
本实施例的与现有技术的区别在于:
(1)提出了一种深度半NMF和多划分对齐的多视图聚类方法。将基础划分学习和后期融合阶段统一到一个框架中。使之能够互相促进,互相指导,以获得最终用于聚类的共同划分矩阵。
(2)首先使用深度半NMF框架来分解特征矩阵以获得每个视图的基础划分矩阵。然后,采用后期融合的方式融合基础划分矩阵,最后通过最大化对齐融合后的基划分矩阵和公共划分矩阵以获得公共划分矩阵。
(3)设计交替优化算法来解决优化问题,并在六个多视图数据集上进行了广泛的实验。
本实施例提出了一种新颖的基于深度矩阵分解和划分对齐的传统聚类方法,该方法包括基础划分学习模块和多划分融合模块的优化目标。大量消融实验可表明,本实施例所添加的多划分融合模块有助于视图间信息的更好的融合以及随着层数的增加,能够获取到更加丰富的信息。
相应的,还提供基于矩阵分解和多划分对齐的医疗数据聚类系统,包括:
获取模块,用于获取与医疗数据相对应的原始图像数据;
分解模块,用于对获取的原始图像数据相对应的多视图数据通过多层矩阵进行分解,得到各个视图的基础划分矩阵;
融合模块,用于利用列变换将得到的各个视图的基础划分矩阵进行融合对齐,得到一致融合后的划分矩阵;
构建模块,用于将得到的各个视图的基础划分矩阵以及一致融合后的划分矩阵进行统一,并构建统一后划分矩阵相对应的目标函数;
优化模块,用于采用交替优化方法优化构建的目标函数,得到优化后的统一划分矩阵;
聚类模块,用于对得到的优化后的统一划分矩阵进行谱聚类,得到最终的聚类结果。
进一步的,所述构建模块中构建统一后划分矩阵相对应的目标函数,表示为:
Figure BDA0003131132200000131
Figure BDA0003131132200000132
其中,α(v)表示对于第v个视图的权重;X(v)表示第v个视图的特征矩阵;
Figure BDA0003131132200000133
表示第v个视图的第i层基础矩阵;λ表示划分学习和融合学习的平衡系数;
Figure BDA0003131132200000134
W(v)、H分别表示第v个视图的基础划分矩阵、列对齐矩阵、一致融合后的划分矩阵;β(v)表示针对后期融合过程中第v个视图对应基础划分的权重;HT表示H的转置;W(v)T表示W(v)的转置。
进一步的,所述优化模块中采用交替优化方法优化构建的目标函数,具体包括:
固定变量
Figure BDA0003131132200000135
W(v)、β、α(v),优化H,则H的优化式表示为:
min-tr(HU),s.t.HHT=Ik
其中,
Figure BDA0003131132200000141
表示融合后的划分矩阵;
固定变量H、
Figure BDA0003131132200000142
W(v)、β、α(v),优化
Figure BDA0003131132200000143
Figure BDA0003131132200000144
的优化式表示为:
Figure BDA0003131132200000145
其中,
Figure BDA0003131132200000146
表示前i-1个基矩阵的累乘;
固定变量
Figure BDA0003131132200000147
H、
Figure BDA0003131132200000148
W(v)、β、α(v),优化
Figure BDA0003131132200000149
Figure BDA00031311322000001410
的优化式表示为:
Figure BDA00031311322000001411
其中,
Figure BDA00031311322000001412
表示前i个基矩阵的累乘;
固定变量
Figure BDA00031311322000001413
H、W(v)、β、α(v),优化
Figure BDA00031311322000001414
Figure BDA00031311322000001415
的优化式表示为:
Figure BDA00031311322000001416
其中,
Figure BDA00031311322000001417
表示前i个基矩阵的累乘;
Figure BDA00031311322000001418
表示除了第v个视图对应的划分矩阵的其他基础划分的融合;
固定变量
Figure BDA00031311322000001419
H、β、α(v),优化W(v),则W(v)的优化式表示为:
min-tr(W(v)TQ),s.t.W(v)W(v)T=Ik
其中,
Figure BDA00031311322000001420
表示第v个视图的相似度和其对应的权重的乘积;
固定变量
Figure BDA00031311322000001421
W(v)、β、H,优化α(v),则α(v)的优化式表示为:
Figure BDA00031311322000001422
其中,
Figure BDA00031311322000001423
表示第v个视图的重构损失;
固定变量
Figure BDA00031311322000001424
W(v)、H、α(v),优化β,则β的优化式表示为:
Figure BDA0003131132200000151
β的优化式化简为:
Figure BDA0003131132200000152
其中,fT=[f1,f2,…,fV],表示不同视图相似度矩阵的迹的集合;
Figure BDA0003131132200000153
表示第v个视图的相似度矩阵的迹。
实施例二
本实施例提供的基于矩阵分解和多划分对齐的医疗数据聚类方与实施例一的不同之处在于:
本实施例通过六种数据来验证本方法。
所使用的数据集共有六种,包括三种图数据集与三种非图数据集,数据集的统计信息如表1所示。
Figure BDA0003131132200000154
表1数据集
BBC:该数据集属于文本型,包含685个样本,分布在5个类别中。有4个视图,每个视图的维度分别为:4659、4633、4665、4684。
BBCSport:该数据集属于文本类型,包含544条文本数据,分布在5个类别中。共有2个视图,每个视图的维度分别为3183和3203。
MSRCV1:该数据集属于图像类型,包含210条文本数据,分布在3个类别中。共有5个视图,每个视图的维度分别为1302、512、100、256、210。
ORL:该数据集属于图像类型,包含400张图片,分布在40个类别中。共有3个视图,每个视图的维度分别是4096、3304、6750。
Reuters:该数据集属于文本类型,包含1200条文本数据,分布在6个类别中。共有5个视图,每个视图的维度分别为2000、2000、2000、2000、2000。
HW:该数据集属于图片类型,包含2000个图像,分布在10个类别中。共有2个视图,每个视图的维度分别为240和216。
本方法与12种基准算法进行了对比。对比算法包括将视图特征拼接后作为输入的k-means、一个基于核的方法MVKKM,一个基于图的方法GMC、两种基于子空间的PMSC和CSMVSC、两种协同训练方法Co-train和Co-reg以及五个基于矩阵分解的模型MultiNMF、MVCF、ScaMVC、DMVC和AwDMVC。
实验设置:
对于本方法和所有的对比方法,首先进行数据预处理,即对所有的数据集进行标准化处理。其中加权系数γ是从[2-12,2-11,...24,25]中选择。本方法认为簇数k是每个数据集的真实类的数量且在分解过程中每层的维度应与簇数相关,因此设计了两个方案:一个两层的维度p2=[l1,k],另一层的维度p3=[l1,l2,k]。其中,p2中的l1是从[4k,5k,6k]中选择的,而p3中l1,l2分别从[8k,10k,12k]和[4k,5k,6k]中选择。本方法将每个实验重复50次,以避免随机初始化的影响并保存最佳结果。所有的实验都在配置为Intel i9-9900KCPU@3.60GHz×16和64GB内存的台式电脑上进行。
评价指标:
本方法采用传统聚类算法领域公认的三种评价指标:聚类精度(ACC)、标准互信息(NMI)和纯度(PUR)。
实验结果:
本方法通过在6种标准数据集上与12种基准算法进行对比实验,结果如表2所示,表2为本方法与其他深度聚类方法的比较,其中最好的结果是标记为粗体字。表3显示了三种不同指标在六个数据集上比第二好的方法的增量值。从这些表格中,有以下的结论:1)如表3所示为在六个数据集上,三种不同指标上较第二好的增量值,在BBC数据上,ACC、NMI、Purity的增加值分别为11.68%、15.55%和3.47%;在BBCSport的数据上,改善值为19.85%、11.31%和17.46%;对于NMI在Retuers和HW,虽然性能比第二轮下降了2.28%和4.59%,但差异较小。总的来说,本方法在六个基准上优于这些基线算法。2)与同样使用了深度半NMF框架强基线DMVC和AwDMVC相比,可以发现,本方法总是取得最好的结果。这意味着本方法的后期融合策略对于这些数据集来说更加有效和稳健。3)与先进行图形融合,然后在后期融合之前进行光谱聚类的PMSC相比,本方法更有优势。这进一步表明,多层半NMF可以提取更多隐藏的有用信息。
Figure BDA0003131132200000171
Figure BDA0003131132200000181
表2
Metric BBC BBCSport MSRCV1 ORL Reuters HW
ACC 11.68% 19.85% 1.90% 3.50% 6.40% 4.86%
NMI 15.55% 11.31% 3.47% 1.78% -2.28% -4.59%
PUR 3.47% 17.46% 1.90% 3.75% 4.50% 4.33%
表3
本实施例在六个公共数据集上的实验结果证明本发明的性能优于现有方法的性能。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.基于矩阵分解和多划分对齐的医疗数据聚类方法,其特征在于,包括:
S1.获取与医疗数据相对应的原始图像数据;
S2.对获取的原始图像数据相对应的多视图数据通过多层矩阵进行分解,得到各个视图的基础划分矩阵;
S3.利用列变换将得到的各个视图的基础划分矩阵进行融合对齐,得到一致融合后的划分矩阵;
S4.将得到的各个视图的基础划分矩阵以及一致融合后的划分矩阵进行统一,并构建统一后划分矩阵相对应的目标函数;
S5.采用交替优化方法优化构建的目标函数,得到优化后的统一划分矩阵;
S6.对得到的优化后的统一划分矩阵进行谱聚类,得到最终的聚类结果。
2.根据权利要求1所述的基于矩阵分解和多划分对齐的医疗数据聚类方法,其特征在于,所述步骤S4中构建统一后划分矩阵相对应的目标函数,表示为:
Figure FDA0003131132190000011
Figure FDA0003131132190000012
其中,α(v)表示对于第v个视图的权重;X(v)表示第v个视图的特征矩阵;
Figure FDA0003131132190000013
表示第v个视图的第i层基础矩阵;λ表示划分学习和融合学习的一个平衡系数;
Figure FDA0003131132190000014
W(v)、H分别表示第v个视图的基础划分矩阵、列对齐矩阵、一致融合后的划分矩阵;β(v)表示针对后期融合过程中第v个视图对应基础划分的权重;HT表示H的转置;W(v)T表示W(v)的转置。
3.根据权利要求2所述的基于矩阵分解和多划分对齐的医疗数据聚类方法,其特征在于,所述步骤S5中采用交替优化方法优化构建的目标函数,具体包括:
A1.固定变量
Figure FDA0003131132190000015
W(v)、β、α(v),优化H,则H的优化式表示为:
min-tr(HU),s.t.HHT=Ik
其中,
Figure FDA0003131132190000021
表示融合后的划分矩阵;
A2.固定变量H、
Figure FDA0003131132190000022
W(v)、β、α(v),优化
Figure FDA0003131132190000023
Figure FDA0003131132190000024
的优化式表示为:
Figure FDA0003131132190000025
其中,
Figure FDA0003131132190000026
表示前i-1个基矩阵的累乘;
A3.固定变量
Figure FDA0003131132190000027
H、
Figure FDA0003131132190000028
W(v)、β、α(v),优化
Figure FDA0003131132190000029
Figure FDA00031311321900000210
的优化式表示为:
Figure FDA00031311321900000211
其中,
Figure FDA00031311321900000212
表示前i个基矩阵的累乘;
A4.固定变量
Figure FDA00031311321900000213
H、W(v)、β、α(v),优化
Figure FDA00031311321900000214
Figure FDA00031311321900000215
的优化式表示为:
Figure FDA00031311321900000216
其中,
Figure FDA00031311321900000217
表示前i个基矩阵的累乘;
Figure FDA00031311321900000218
表示除了第v个视图对应的划分矩阵的其他基础划分的融合;
A5.固定变量
Figure FDA00031311321900000219
H、β、α(v),优化W(v),则W(v)的优化式表示为:
min-tr(W(v)TQ),s.t.W(v)W(v)T=Ik
其中,
Figure FDA00031311321900000220
表示第v个视图的相似度和其对应的权重的乘积;
A6.固定变量
Figure FDA00031311321900000221
W(v)、β、H,优化α(v),则α(v)的优化式表示为:
Figure FDA00031311321900000222
其中,
Figure FDA00031311321900000223
表示第v个视图的重构损失;
A7.固定变量
Figure FDA00031311321900000224
W(v)、H、α(v),优化β,则β的优化式表示为:
Figure FDA0003131132190000031
β的优化式化简为:
Figure FDA0003131132190000032
其中,fT=[f1,f2,…,fV],表示不同视图相似度矩阵的迹的集合;
Figure FDA0003131132190000033
表示第v个视图的相似度矩阵的迹。
4.根据权利要求3所述的基于矩阵分解和多划分对齐的医疗数据聚类方法,其特征在于,所述步骤A1、A2、A3、A4、A5中均还包括:通过SVD分解得到优化后的结果。
5.根据权利要求3所述的基于矩阵分解和多划分对齐的医疗数据聚类方法,其特征在于,所述步骤A4中还包括:
构造拉格朗日函数,求构造的拉格朗日函数对应的KKT条件,得到
Figure FDA0003131132190000034
的更新,表示为:
Figure FDA0003131132190000035
Figure FDA0003131132190000036
Figure FDA0003131132190000037
其中,θu(ZHW)表示关于Z、H、W的一个函数,作为公式的分子;θl(ZHW)表示关于Z、H、W的一个函数,作为公式的分母。
6.根据权利要求3所述的基于矩阵分解和多划分对齐的医疗数据聚类方法,其特征在于,所述步骤A6中还包括:
构造拉格朗日函数,求构造的拉格朗日函数对应的KKT条件,得到α(v)的更新,表示为:
Figure FDA0003131132190000038
其中,
Figure FDA0003131132190000039
表示第v个视图的重构损失。
7.根据权利要求3所述的基于矩阵分解和多划分对齐的医疗数据聚类方法,其特征在于,所述步骤A7中还包括:
根据柯西不等式,得到更新β的闭式解,表示为:
Figure FDA0003131132190000041
其中,f表示不同视图相似度矩阵的迹的集合。
8.基于矩阵分解和多划分对齐的医疗数据聚类系统,其特征在于,包括:
获取模块,用于获取与医疗数据相对应的原始图像数据;
分解模块,用于对获取的原始图像数据相对应的多视图数据通过多层矩阵进行分解,得到各个视图的基础划分矩阵;
融合模块,用于利用列变换将得到的各个视图的基础划分矩阵进行融合对齐,得到一致融合后的划分矩阵;
构建模块,用于将得到的各个视图的基础划分矩阵以及一致融合后的划分矩阵进行统一,并构建统一后划分矩阵相对应的目标函数;
优化模块,用于采用交替优化方法优化构建的目标函数,得到优化后的统一划分矩阵;
聚类模块,用于对得到的优化后的统一划分矩阵进行谱聚类,得到最终的聚类结果。
9.根据权利要求8所述的基于矩阵分解和多划分对齐的医疗数据聚类系统,其特征在于,所述构建模块中构建统一后划分矩阵相对应的目标函数,表示为:
Figure FDA0003131132190000042
Figure FDA0003131132190000043
其中,α(v)表示对于第v个视图的权重;X(v)表示第v个视图的特征矩阵;
Figure FDA0003131132190000044
表示第v个视图的第i层基础矩阵;λ表示划分学习和融合学习的平衡系数;
Figure FDA0003131132190000045
W(v)、H分别表示第v个视图的基础划分矩阵、列对齐矩阵、一致融合后的划分矩阵;β(v)表示针对后期融合过程中第v个视图对应基础划分的权重;HT表示H的转置;W(v)T表示W(v)的转置。
10.根据权利要求9所述的基于矩阵分解和多划分对齐的医疗数据聚类系统,其特征在于,所述优化模块中采用交替优化方法优化构建的目标函数,具体包括:
固定变量
Figure FDA0003131132190000051
W(v)、β、α(v),优化H,则H的优化式表示为:
min-tr(HU),s.t.HHT=Ik
其中,
Figure FDA0003131132190000052
表示融合后的划分矩阵;
固定变量H、
Figure FDA0003131132190000053
W(v)、β、α(v),优化
Figure FDA0003131132190000054
Figure FDA0003131132190000055
的优化式表示为:
Figure FDA0003131132190000056
其中,
Figure FDA0003131132190000057
表示前i个基矩阵的累乘;
固定变量
Figure FDA0003131132190000058
H、
Figure FDA0003131132190000059
W(v)、β、α(v),优化
Figure FDA00031311321900000510
Figure FDA00031311321900000511
的优化式表示为:
Figure FDA00031311321900000512
其中,
Figure FDA00031311321900000513
表示前i个基矩阵的累乘;
固定变量
Figure FDA00031311321900000514
H、W(v)、β、α(v),优化
Figure FDA00031311321900000515
Figure FDA00031311321900000516
的优化式表示为:
Figure FDA00031311321900000517
其中,
Figure FDA00031311321900000518
表示前m个基矩阵的累乘;
Figure FDA00031311321900000519
表示除了第v个视图对应的划分矩阵的其他基础划分的融合;
固定变量
Figure FDA00031311321900000520
H、β、α(v),优化W(v),则W(v)的优化式表示为:
min-tr(W(v)TQ),s.t.W(v)W(v)T=Ik
其中,
Figure FDA00031311321900000521
表示第v个视图的相似度和其对应的权重的乘积;
固定变量
Figure FDA00031311321900000522
W(v)、β、H,优化α(v),则α(v)的优化式表示为:
Figure FDA0003131132190000061
其中,
Figure FDA0003131132190000062
表示第v个视图的重构损失;
固定变量
Figure FDA0003131132190000063
W(v)、H、α(v),优化β,则β的优化式表示为:
Figure FDA0003131132190000064
β的优化式化简为:
Figure FDA0003131132190000065
其中,fT=[f1,f2,…,fV],表示不同视图相似度矩阵的迹的集合;
Figure FDA0003131132190000066
表示第v个视图的相似度矩阵的迹。
CN202110705655.9A 2021-06-24 2021-06-24 基于矩阵分解和多划分对齐的医疗数据聚类方法及系统 Pending CN113627462A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110705655.9A CN113627462A (zh) 2021-06-24 2021-06-24 基于矩阵分解和多划分对齐的医疗数据聚类方法及系统
CN202111326424.3A CN115293220A (zh) 2021-06-24 2021-11-10 基于矩阵分解和多划分对齐的多视图聚类方法及系统
US18/275,814 US20240111829A1 (en) 2021-06-24 2022-06-15 Multi-view clustering method and system based on matrix decomposition and multi-partition alignment
PCT/CN2022/098951 WO2022267956A1 (zh) 2021-06-24 2022-06-15 基于矩阵分解和多划分对齐的多视图聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110705655.9A CN113627462A (zh) 2021-06-24 2021-06-24 基于矩阵分解和多划分对齐的医疗数据聚类方法及系统

Publications (1)

Publication Number Publication Date
CN113627462A true CN113627462A (zh) 2021-11-09

Family

ID=78378342

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110705655.9A Pending CN113627462A (zh) 2021-06-24 2021-06-24 基于矩阵分解和多划分对齐的医疗数据聚类方法及系统
CN202111326424.3A Pending CN115293220A (zh) 2021-06-24 2021-11-10 基于矩阵分解和多划分对齐的多视图聚类方法及系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202111326424.3A Pending CN115293220A (zh) 2021-06-24 2021-11-10 基于矩阵分解和多划分对齐的多视图聚类方法及系统

Country Status (3)

Country Link
US (1) US20240111829A1 (zh)
CN (2) CN113627462A (zh)
WO (1) WO2022267956A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022267956A1 (zh) * 2021-06-24 2022-12-29 浙江师范大学 基于矩阵分解和多划分对齐的多视图聚类方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063757A (zh) * 2018-07-20 2018-12-21 西安电子科技大学 基于块对角表示和视图多样性的多视图子空间聚类方法
CN109002854A (zh) * 2018-07-20 2018-12-14 西安电子科技大学 基于隐表示和自适应的多视图子空间聚类方法
CN111754624A (zh) * 2019-03-29 2020-10-09 株式会社理光 变换矩阵确定方法、设备和可记录介质
CN112990265A (zh) * 2021-02-09 2021-06-18 浙江师范大学 基于二部图的后期融合多视图聚类机器学习方法及系统
CN113627462A (zh) * 2021-06-24 2021-11-09 浙江师范大学 基于矩阵分解和多划分对齐的医疗数据聚类方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022267956A1 (zh) * 2021-06-24 2022-12-29 浙江师范大学 基于矩阵分解和多划分对齐的多视图聚类方法及系统

Also Published As

Publication number Publication date
WO2022267956A1 (zh) 2022-12-29
US20240111829A1 (en) 2024-04-04
CN115293220A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
Chen et al. Jointly learning kernel representation tensor and affinity matrix for multi-view clustering
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
Jia et al. Multi-view spectral clustering tailored tensor low-rank representation
Huang et al. Self-weighted multi-view clustering with soft capped norm
Zhang et al. Multi-view clustering via deep matrix factorization and partition alignment
Zhang et al. Joint representation learning for multi-view subspace clustering
WO2022267954A1 (zh) 基于统一锚点与子空间学习的谱聚类方法及系统
Liu et al. ASFS: A novel streaming feature selection for multi-label data based on neighborhood rough set
Tang et al. One-step multiview subspace segmentation via joint skinny tensor learning and latent clustering
Xie et al. Multiple graphs learning with a new weighted tensor nuclear norm
CN116403730A (zh) 一种基于图神经网络的药物相互作用预测方法及系统
Chen et al. Fast self-guided multi-view subspace clustering
Liu et al. Auto-weighted collective matrix factorization with graph dual regularization for multi-view clustering
CN113627462A (zh) 基于矩阵分解和多划分对齐的医疗数据聚类方法及系统
Hao et al. Multi-label learning with missing features and labels and its application to text categorization
Zhao et al. Tensorized incomplete multi-view clustering with intrinsic graph completion
Guo et al. Tensor-based adaptive consensus graph learning for multi-view clustering
Hao et al. Tensor-based incomplete multi-view clustering with low-rank data reconstruction and consistency guidance
Zhang et al. Center consistency guided multi-view embedding anchor learning for large-scale graph clustering
Shu et al. Self-weighted graph learning for multi-view clustering
Shang et al. Incomplete multi-view clustering by simultaneously learning robust representations and optimal graph structures
Yuan et al. Double-matched matrix decomposition for multi-view data
Li et al. Incomplete multiview subspace clustering based on multiple kernel low-redundant representation learning
Mu et al. Tensor-based consensus learning for incomplete multi-view clustering
Yu et al. Effective incomplete multi-view clustering via low-rank graph tensor completion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211109

WD01 Invention patent application deemed withdrawn after publication