CN113627462A

CN113627462A - 基于矩阵分解和多划分对齐的医疗数据聚类方法及系统

Info

Publication number: CN113627462A
Application number: CN202110705655.9A
Authority: CN
Inventors: 朱信忠; 徐慧英; 刘新旺; 李苗苗; 涂文轩; 李洪波; 张长旺; 葛铭; 殷建平; 赵建民
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-11-09
Also published as: WO2022267956A1; US20240111829A1; CN115293220A

Abstract

本发明公开了基于矩阵分解和多划分对齐的医疗数据聚类方法及系统。其中涉及的基于矩阵分解和多划分对齐的医疗数据聚类方法，包括：S1.获取与医疗数据相对应的原始图像数据；S2.对获取的原始图像数据相对应的多视图数据通过多层矩阵进行分解，得到各个视图的基础划分矩阵；S3.利用列变换将得到的各个视图的基础划分矩阵进行融合对齐，得到一致融合后的划分矩阵；S4.将得到的各个视图的基础划分矩阵以及一致融合后的划分矩阵进行统一，并构建统一后划分矩阵相对应的目标函数；S5.采用交替优化方法优化构建的目标函数，得到优化后的统一划分矩阵；S6.对得到的优化后的统一划分矩阵进行谱聚类，得到最终的聚类结果。

Description

基于矩阵分解和多划分对齐的医疗数据聚类方法及系统

技术领域

本发明涉及面向医疗诊断的多视图聚类技术领域，尤其涉及基于矩阵分解和多划分对齐的医疗数据聚类方法及系统。

背景技术

在实际的医疗诊断应用中，大多数医疗数据都是由不同视图构成的。例如在肺部图像诊断中，可以获得X射线视图、CT视图与核磁共振视图等多种信息源，研究者通过机器学习算法对多视图数据进行分析处理，来辅助医生诊断，从而提高医疗诊断的效率并达到减少医生的工作负担的目的。如上所述，通过样本的不同信息源或不同属性对其个体进行描述，我们称之为称为多视图数据，其对应处理多视图数据的聚类算法，称之为多视图聚类算法。由于对大量的医疗数据进行精准标注的成本十分高昂，多视图聚类作为一种重要的无监督数据分析方法，通过多视图聚类可以充分利用多个医疗视图之间的多样性和互补信息，此类算法对医疗辅助诊断的发展起着非常重要的作用，具有很好的研究与应用价值。

现有的多视图聚类算法可以通过基于模型的不同进一步分为四类：协同训练、多核学习、图聚类和子空间聚类。对于上述四种方法均可以使用早期融合基本思想进行视图融合。早期融合的主要思想是将多个视图的特征表示或图结构融合成一个公共的表示或者一个公共的图结构。例如，基于图的聚类方法在每个视图下构建样本相似性，然后通过随机行走策略融合这些图。多核学习方法通过线性或非线性组合融合多个基核以获得最佳的聚类核。子空间聚类的目的是为每个视图找到合适的低维表示或结构，然后将它们融合成一个包含丰富信息的公共表示或结构以用于聚类。另一方面，除了对视图进行早期融合还有后期融合的方式。该方法是将单个视图的聚类结果融合起来，也称为决策级融合。后期融合可以分为集成学习和协作式训练。集成聚类算法的输入是对应于多个视图的聚类结果。如在工作中，通过定义最终聚类结果与输入聚类结果之间的距离作为公共损失函数以来获得聚类结果。协作式训练的关注点是如何在协作式训练中获得更好的聚类结果。通过对每个视图进行谱嵌入获得多个聚类结果，并将获得的聚类结果用于影响其他视图的原始表示。此外将后期融合应用于多核k-means聚类，降低了算法的复杂性和时间成本。

NMF被广泛用于聚类，因为它有能力处理捕捉不同观点的基本表示。一些工作通过定义多样性来减少不同视图表示之间的冗余。此外，交叉熵成本函数和邻居信息均被引入以指导学习过程。尽管NMF可以很好地解决高维问题。但它在捕捉数据的内部结构方面似乎无能为力，因此后续的工作达到了保留通过添加图形正则化项以及流行的正则化项，达到保留数据空间的局部几何结构的目的。为了减少离群值的影响，在工作中必须引入流形正则化的范数。随着研究的发展，单层NMF聚类所提取的信息往往不能满足我们对数据信息挖掘的需要。为了探索数据中更深层次的隐藏信息，现有技术中提出了一个深度半NMF模型来探索具有隐含的低层隐藏属性的复杂层次信息。受深度半NMF的影响，模型DMVC学习了公共的该模型通过对原始数据结构的指导，学习包含深层信息的低维表征。最近，还提出了一种通过深度NMF方法进行多视图聚类的方法来自动学习每个视图的最佳权重。

当前传统现有的NMF方法通过学习具有丰富信息的低维表示实现了聚类性能的大幅提升，但它们仍然可以通过以下考虑进行改进虑的情况下得到改进。1)充分发挥原始数据的作用以获得更多的判别信息；2)重点关注视图之间的共享和视图之间的特定信息；3)改进的融合策略多视图信息的改进策略。

发明内容

本发明的目的是针对现有技术的缺陷，提供了基于矩阵分解和多划分对齐的医疗数据聚类方法及系统。

为了实现以上目的，本发明采用以下技术方案：

基于矩阵分解和多划分对齐的医疗数据聚类方法，包括：

S1.获取与医疗数据相对应的原始图像数据；

S2.对获取的原始图像数据相对应的多视图数据通过多层矩阵进行分解，得到各个视图的基础划分矩阵；

S3.利用列变换将得到的各个视图的基础划分矩阵进行融合对齐，得到一致融合后的划分矩阵；

S4.将得到的各个视图的基础划分矩阵以及一致融合后的划分矩阵进行统一，并构建统一后划分矩阵相对应的目标函数；

S5.采用交替优化方法优化构建的目标函数，得到优化后的统一划分矩阵；

S6.对得到的优化后的统一划分矩阵进行谱聚类，得到最终的聚类结果。

进一步的，所述步骤S4中构建统一后划分矩阵相对应的目标函数，表示为：

其中，α^(v)表示对于第v个视图的权重；X^(v)表示第v个视图的特征矩阵；

表示第v个视图的第i层基础矩阵；λ表示划分学习和融合学习的一个平衡系数；

W^(v)、H分别表示第v个视图的基础划分矩阵、列对齐矩阵、一致融合后的划分矩阵；β^(v)表示针对后期融合过程中第v个视图对应基础划分的权重；H^T表示H的转置；W^(v)T表示W^(v)的转置。

进一步的，所述步骤S5中采用交替优化方法优化构建的目标函数，具体包括：

A1.固定变量

W^(v)、β、α^(v)，优化H，则H的优化式表示为：

min-tr(HU),s.t.HH^T＝I_k

其中，

表示融合后的划分矩阵；

A2.固定变量H、

W^(v)、β、α^(v)，优化

则

的优化式表示为：

其中，

表示前i-1个基矩阵的累乘；

A3.固定变量

H、

W^(v)、β、α^(v)，优化

则

的优化式表示为：

其中，

表示前i个基矩阵的累乘；

A4.固定变量

H、W^(v)、β、α^(v)，优化

则

的优化式表示为：

其中，

表示前i个基矩阵的累乘；

表示除了第v个视图对应的划分矩阵的其他基础划分的融合；

A5.固定变量

H、β、α^(v)，优化W^(v)，则W^(v)的优化式表示为：

min-tr(W^(v)TQ),s.t.W^(v)W^(v)T＝I_k

其中，

表示第v个视图的相似度和其对应的权重的乘积；

A6.固定变量

W^(v)、β、H，优化α^(v)，则α^(v)的优化式表示为：

其中，

表示第v个视图的重构损失；

A7.固定变量

W^(v)、H、α^(v)，优化β，则β的优化式表示为：

β的优化式化简为：

其中，f^T＝[f₁,f₂,…,f_V]，表示不同视图相似度矩阵的迹的集合；

表示第v个视图的相似度矩阵的迹。

进一步的，所述步骤A1、A2、A3、A4、A5中均还包括：通过SVD分解得到优化后的结果。

进一步的，所述步骤A4中还包括：

构造拉格朗日函数，求构造的拉格朗日函数对应的KKT条件，得到

的更新，表示为：

其中，θ_u(ZHW)表示关于Z、H、W的一个函数，作为公式的分子；θ_l(ZHW)表示关于Z、H、W的一个函数，作为公式的分母。

进一步的，所述步骤A6中还包括：

构造拉格朗日函数，求构造的拉格朗日函数对应的KKT条件，得到α^(v)的更新，表示为：

其中，R^(v)表示第v个视图的重构损失。

进一步的，所述步骤A7中还包括：

根据柯西不等式，得到更新β的闭式解，表示为：

其中，f表示不同视图相似度矩阵的迹的集合。

相应的，还提供基于矩阵分解和多划分对齐的医疗数据聚类系统，包括：

获取模块，用于获取与医疗数据相对应的原始图像数据；

分解模块，用于对获取的原始图像数据相对应的多视图数据通过多层矩阵进行分解，得到各个视图的基础划分矩阵；

融合模块，用于利用列变换将得到的各个视图的基础划分矩阵进行融合对齐，得到一致融合后的划分矩阵；

构建模块，用于将得到的各个视图的基础划分矩阵以及一致融合后的划分矩阵进行统一，并构建统一后划分矩阵相对应的目标函数；

优化模块，用于采用交替优化方法优化构建的目标函数，得到优化后的统一划分矩阵；

聚类模块，用于对得到的优化后的统一划分矩阵进行谱聚类，得到最终的聚类结果。

进一步的，所述构建模块中构建统一后划分矩阵相对应的目标函数，表示为：

表示第v个视图的第i层基础矩阵；λ表示划分学习和融合学习的平衡系数；

进一步的，所述优化模块中采用交替优化方法优化构建的目标函数，具体包括：

固定变量

W^(v)、β、α^(v)，优化H，则H的优化式表示为：

min-tr(HU),s.t.HH^T＝I_k

其中，

表示融合后的划分矩阵；

固定变量H、

W^(v)、β、α^(v)，优化

则

的优化式表示为：

其中，

表示前i-1个基矩阵的累乘；

固定变量

H、

W^(v)、β、α^(v)，优化

则

的优化式表示为：

其中，

表示前i个基矩阵的累乘；

固定变量

H、W^(v)、β、α^(v)，优化

则

的优化式表示为：

其中，

表示前i个基矩阵的累乘；

表示除了第v个视图对应的划分矩阵的其他基础划分的融合；

固定变量

H、β、α^(v)，优化W^(v)，则W^(v)的优化式表示为：

min-tr(W^(v)TQ),s.t.W^(v)W^(v)T＝I_k

其中，

表示第v个视图的相似度和其对应的权重的乘积；

固定变量

W^(v)、β、H，优化α^(v)，则α^(v)的优化式表示为：

其中，

表示第v个视图的重构损失；

固定变量

W^(v)、H、α^(v)，优化β，则β的优化式表示为：

β的优化式化简为：

其中，f^T＝[f₁,f₂,…,f_V]，表示第v个视图的重构损失；

表示第v个视图的相似度矩阵的迹。

与现有技术相比，本发明提出了一种新颖的基于深度矩阵分解和划分对齐的传统聚类方法，该方法包括基础划分学习模块和多划分融合模块的优化目标。大量消融实验可表明，本发明所添加的多划分融合模块有助于视图间信息的更好的融合以及随着层数的增加，能够获取到更加丰富的信息。在六个公共数据集上的实验结果证明本发明的性能优于现有方法的性能。

附图说明

图1是实施例一提供的基于矩阵分解和多划分对齐的医疗数据聚类方法流程图；

图2是实施例一提供的MVC-DMF-MPA框架示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

本发明的目的是针对当前基于矩阵分解的传统聚类方法仅仅考虑了视图间的共有信息而忽略了视图的特有信息，导致表示学习不充分以及前期融合可能掺杂进噪声，导致结果学习不准确的问题，提供了基于矩阵分解和多划分对齐的医疗数据聚类方法及系统，通过深度半非负矩阵分解得到每个视图的基础划分矩阵，然后通过对这些基础划分矩阵进行列选择后的矩阵在进行组合得到融合后的划分矩阵，将公共划分矩阵对融合后的划分矩阵进行逼近进。通过基划分矩阵和后期融合过程交替优化。最终使用公共划分进行k-means聚类，实现聚类的目的。

实施例一

本实施例提供基于矩阵分解和多划分对齐的医疗数据聚类方法，如图1所示，包括：

S1.获取与医疗数据相对应的原始图像数据；

本实施例提供一种基于矩阵分解和后期融合的无监督传统聚类方法，如图2所示，该方法主要由两个部分组成，即基础划分矩阵学习模块(多层半非负矩阵分解)和后期融合。

在步骤S4中，将得到的各个视图的基础划分矩阵以及一致融合后的划分矩阵进行统一，并构建统一后划分矩阵相对应的目标函数。

为了降低噪声影响结果的可能性以及降低时间提高效率，采用了划分级也就是决策级融合。学习到了不同视图的划分矩阵Hi以及一致的融合后的划分矩阵H。目标函数表示为：

W^(v)、H分别表示第v个视图的基础划分矩阵、列对齐矩阵、一致融合后的划分矩阵；β^(v)表示针对后期融合过程中第v个视图对应基础划分的权重；H^T表示H的转置；W^(v)T表示W^(v)的转置。||·||_F表示F范数。

上述公式是通过深度非负矩阵分解得到每个视图的划分，在后续步骤中将每个视图的划分进行列选择进而逼近一个统一的划分矩阵，最终用这个统一的划分矩阵来聚类。

在步骤S5中，采用交替优化方法优化构建的目标函数，得到优化后的统一划分矩阵。

目标函数的优化问题直接解起来较为困难，因此提出了一种迭代算法来有效的解决该优化问题。

具体包括：

A1.固定变量

W^(v)、β、α^(v)，优化H，则H的优化式表示为：

min-tr(HU),s.t.HH^T＝I_k

其中，tr()表示迹；

表示融合后的划分矩阵；可以直接对U做SVD分解得到优化后的H。

A2.固定变量H、

W^(v)、β、α^(v)，优化

则

的优化式表示为：

其中，

表示前i-1个基矩阵的累乘；可以直接对

做SVD分解得到优化后的

A3.固定变量

H、

W^(v)、β、α^(v)，优化

则

的优化式表示为：

其中，

表示前i-1个基矩阵的累乘；可以直接对Φ做SVD分解得到优化后的

A4.固定变量

H、W^(v)、β、α^(v)，优化

则

的优化式表示为：

其中，

表示前i个基矩阵的累乘；

表示除了第v个视图对应的划分矩阵的其他基础划分的融合；可以直接对Φ、G做SVD分解得到优化后的

其中还包括：

还包括：

的更新，表示为：

其中，[]⁺表示正值部分；[]^-表示负值部分；θ_u(ZHW)表示关于Z、H、W的一个函数，作为公式的分子；θ_l(ZHW)表示关于Z、H、W的一个函数，作为公式的分母。

A5.固定变量

H、β、α^(v)，优化W^(v)，则W^(v)的优化式表示为：

min-tr(W^(v)TQ),s.t.W^(v)W^(v)T＝I_k

其中，

表示第v个视图的相似度和其对应的权重的乘积；可以直接对Q做SVD分解得到优化后的W^(v)。

A6.固定变量

W^(v)、β、H，优化α^(v)，则α^(v)的优化式表示为：

其中，

表示第v个视图的重构损失。构造拉格朗日函数，求构造的拉格朗日函数对应的KKT条件，得到α^(v)的更新，表示为：

其中，R^(v)表示第v个视图的重构损失；。

A7.固定变量

W^(v)、H、α^(v)，优化β，则β的优化式表示为：

β的优化式化简为：

表示第v个视图的相似度矩阵的迹。根据柯西不等式，得到更新β的闭式解，表示为：

其中，表示不同视图相似度矩阵的迹的集合。

综上，目标函数值随着上述分步优化交替执行而单调下降。同时，目标函数有下界。因此，上述优化过程可以保证收敛。且提出一种基于非负矩阵分解和多划分对齐的多视图聚类算法，将聚类过程、融合过程统一在一个框架中。一致的划分矩阵的学习更适用于聚类，从而促使算法可以达到更好的聚类效果。

本实施例的与现有技术的区别在于：

(1)提出了一种深度半NMF和多划分对齐的多视图聚类方法。将基础划分学习和后期融合阶段统一到一个框架中。使之能够互相促进，互相指导，以获得最终用于聚类的共同划分矩阵。

(2)首先使用深度半NMF框架来分解特征矩阵以获得每个视图的基础划分矩阵。然后，采用后期融合的方式融合基础划分矩阵，最后通过最大化对齐融合后的基划分矩阵和公共划分矩阵以获得公共划分矩阵。

(3)设计交替优化算法来解决优化问题，并在六个多视图数据集上进行了广泛的实验。

本实施例提出了一种新颖的基于深度矩阵分解和划分对齐的传统聚类方法，该方法包括基础划分学习模块和多划分融合模块的优化目标。大量消融实验可表明，本实施例所添加的多划分融合模块有助于视图间信息的更好的融合以及随着层数的增加，能够获取到更加丰富的信息。

获取模块，用于获取与医疗数据相对应的原始图像数据；

固定变量

W^(v)、β、α^(v)，优化H，则H的优化式表示为：

min-tr(HU),s.t.HH^T＝I_k

其中，

表示融合后的划分矩阵；

固定变量H、

W^(v)、β、α^(v)，优化

则

的优化式表示为：

其中，

表示前i-1个基矩阵的累乘；

固定变量

H、

W^(v)、β、α^(v)，优化

则

的优化式表示为：

其中，

表示前i个基矩阵的累乘；

固定变量

H、W^(v)、β、α^(v)，优化

则

的优化式表示为：

其中，

表示前i个基矩阵的累乘；

表示除了第v个视图对应的划分矩阵的其他基础划分的融合；

固定变量

H、β、α^(v)，优化W^(v)，则W^(v)的优化式表示为：

min-tr(W^(v)TQ),s.t.W^(v)W^(v)T＝I_k

其中，

表示第v个视图的相似度和其对应的权重的乘积；

固定变量

W^(v)、β、H，优化α^(v)，则α^(v)的优化式表示为：

其中，

表示第v个视图的重构损失；

固定变量

W^(v)、H、α^(v)，优化β，则β的优化式表示为：

β的优化式化简为：

表示第v个视图的相似度矩阵的迹。

实施例二

本实施例提供的基于矩阵分解和多划分对齐的医疗数据聚类方与实施例一的不同之处在于：

本实施例通过六种数据来验证本方法。

所使用的数据集共有六种，包括三种图数据集与三种非图数据集，数据集的统计信息如表1所示。

表1数据集

BBC：该数据集属于文本型，包含685个样本，分布在5个类别中。有4个视图，每个视图的维度分别为：4659、4633、4665、4684。

BBCSport：该数据集属于文本类型，包含544条文本数据，分布在5个类别中。共有2个视图，每个视图的维度分别为3183和3203。

MSRCV1：该数据集属于图像类型，包含210条文本数据，分布在3个类别中。共有5个视图，每个视图的维度分别为1302、512、100、256、210。

ORL：该数据集属于图像类型，包含400张图片，分布在40个类别中。共有3个视图，每个视图的维度分别是4096、3304、6750。

Reuters：该数据集属于文本类型，包含1200条文本数据，分布在6个类别中。共有5个视图，每个视图的维度分别为2000、2000、2000、2000、2000。

HW：该数据集属于图片类型，包含2000个图像，分布在10个类别中。共有2个视图，每个视图的维度分别为240和216。

本方法与12种基准算法进行了对比。对比算法包括将视图特征拼接后作为输入的k-means、一个基于核的方法MVKKM，一个基于图的方法GMC、两种基于子空间的PMSC和CSMVSC、两种协同训练方法Co-train和Co-reg以及五个基于矩阵分解的模型MultiNMF、MVCF、ScaMVC、DMVC和AwDMVC。

实验设置：

对于本方法和所有的对比方法，首先进行数据预处理，即对所有的数据集进行标准化处理。其中加权系数γ是从[2-12，2-11，...24,25]中选择。本方法认为簇数k是每个数据集的真实类的数量且在分解过程中每层的维度应与簇数相关，因此设计了两个方案：一个两层的维度p2＝[l1,k]，另一层的维度p3＝[l1,l2,k]。其中，p2中的l1是从[4k,5k,6k]中选择的，而p3中l1,l2分别从[8k,10k,12k]和[4k,5k,6k]中选择。本方法将每个实验重复50次，以避免随机初始化的影响并保存最佳结果。所有的实验都在配置为Intel i9-9900KCPU@3.60GHz×16和64GB内存的台式电脑上进行。

评价指标：

本方法采用传统聚类算法领域公认的三种评价指标：聚类精度(ACC)、标准互信息(NMI)和纯度(PUR)。

实验结果：

本方法通过在6种标准数据集上与12种基准算法进行对比实验，结果如表2所示，表2为本方法与其他深度聚类方法的比较，其中最好的结果是标记为粗体字。表3显示了三种不同指标在六个数据集上比第二好的方法的增量值。从这些表格中，有以下的结论：1)如表3所示为在六个数据集上，三种不同指标上较第二好的增量值，在BBC数据上，ACC、NMI、Purity的增加值分别为11.68％、15.55％和3.47％；在BBCSport的数据上，改善值为19.85％、11.31％和17.46％；对于NMI在Retuers和HW，虽然性能比第二轮下降了2.28％和4.59％，但差异较小。总的来说，本方法在六个基准上优于这些基线算法。2)与同样使用了深度半NMF框架强基线DMVC和AwDMVC相比，可以发现，本方法总是取得最好的结果。这意味着本方法的后期融合策略对于这些数据集来说更加有效和稳健。3)与先进行图形融合，然后在后期融合之前进行光谱聚类的PMSC相比，本方法更有优势。这进一步表明，多层半NMF可以提取更多隐藏的有用信息。

表2

Metric

BBC

BBCSport

MSRCV1

ORL

Reuters

HW

ACC

11.68％

19.85％

1.90％

3.50％

6.40％

4.86％

NMI

15.55％

11.31％

3.47％

1.78％

-2.28％

-4.59％

PUR

3.47％

17.46％

1.90％

3.75％

4.50％

4.33％

表3

本实施例在六个公共数据集上的实验结果证明本发明的性能优于现有方法的性能。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。