CN113392894A

CN113392894A - 一种多组学数据的聚类分析方法和系统

Info

Publication number: CN113392894A
Application number: CN202110644202.XA
Authority: CN
Inventors: 怀晓晨; 穆红章
Original assignee: Lingyu Yinnuo Beijing Technology Co ltd
Current assignee: Lingyu Yinnuo Beijing Technology Co ltd
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-09-14

Abstract

本申请实施例公开了一种多组学数据的聚类分析方法和系统，通过采用神经网络对MR影像信息进行分割，根据各部分分割信息，提取高通量影像超参数；对临床数据、人口学数据和实验室检查数据进行处理，生成不同维度的向量表示；将所述高通量影像数据和所述不同维度的向量表示进行多源数据融合，得到融合后的多源异构数据；构建多源异构数据集，通过训练并测试多源图聚类模型，得到最优模型；将MR影像信息输入到所述最优模型中，分析不同类别差异性和同一类别相似性。采用图结构的方式，直观表达数据之间的关联情况，捕捉不同的特征，模型更鲁棒，实现基于图神经网络模型的高效聚类算法，具有很高的实用价值。

Description

一种多组学数据的聚类分析方法和系统

技术领域

本申请实施例涉及数据分析技术领域，具体涉及一种多组学数据的聚类分析方法和系统。

背景技术

近年来，多组学分析已广泛应用于医学亚型分析上，高通量数据融合，准确定义亚型，已成为精准医疗的重要话题。目前多组学融合面临着很多问题，如数据庞杂、数据稀疏、数据异质等。数据融合的方法可分为相似性方法、基于降维方法、基于统计的方法。

基于相似性的方法是使用样本之间的相似度来聚类数据，由于在当前的多组学数据中，样本数量远远小于特征数量，基于相似性的方法在样本量不足的情况下，很难有较好的效果。基于谱聚类的算法没有利用节点路径信息，影响了聚类的准确性。

发明内容

为此，本申请实施例提一种多组学数据的聚类分析方法和系统，采用图结构的方式，直观表达数据之间的关联情况，捕捉不同的特征，模型更鲁棒，实现基于图神经网络模型的高效聚类算法，具有很高的实用价值。

为了实现上述目的，本申请实施例提供如下技术方案：

根据本申请实施例的第一方面，提供了一种多组学数据的聚类分析方法，所述方法包括：

采用神经网络对MR影像信息进行分割，根据各部分分割信息，提取高通量影像超参数；

对临床数据、人口学数据和实验室检查数据进行处理，生成不同维度的向量表示；

将所述高通量影像数据和所述不同维度的向量表示进行多源数据融合，得到融合后的多源异构数据；

构建多源异构数据集，通过训练并测试多源图聚类模型，得到最优模型；

将MR影像信息输入到所述最优模型中，分析不同类别差异性和同一类别相似性。

可选地，所述将所述高通量影像数据和所述不同维度的向量表示进行多源数据融合，得到融合后的多源异构数据，包括：

添加MR定位定量开采的影像组学超参数，将四种不同类型的数据进行预处理，基于对应的每个特征进行归一化处理；

对预处理后的四种数据进行数据对齐；

将对齐后的数据进行关联，针对每一个组学样本分别构建关联矩阵，通过局部高斯核构建相似性度量指标，计算每个关联矩阵的相邻样本，过滤权重小于设定范围的数据，得到过滤后的多组学信息的关联矩阵；

利用随机游走算法融合不同组学的关联矩阵。

可选地，所述通过训练并测试多源图聚类模型，得到最优模型，包括：

采用多源图聚类模型实现聚类分析，对节点的局部邻居的特征进行采样和聚合，生成节点表示；

利用节点对的内积运算重构原始网络结构，结合注意力机制学习邻居节点的权重，以使得自动学习特征；

在模型训练过程中，采用自训练聚类模块，以实现对图嵌入的约束和整合，对构建的多源图聚类模型进行训练和验证，调整和优化网络参数，以实现多源图聚类模型的训练和收敛。

可选地，所述将MR影像信息输入到所述最优模型中，分析不同类别差异性和同一类别相似性，包括：

针对多源异构数据，在特征选择时遍历特征的所有可能性；

进行相关度分析，分析各个特征的方差对总方差的贡献大小，以衡量各个特征的重要性，其中特征方差贡献越高重要性越高；

根据特征方差，确定MR影像信息中不同类别差异性和同一类别相似性。

根据本申请实施例的第二方面，提供了一种多组学数据的聚类分析系统，所述系统包括：

高通量影像数据生成模块，用于采用神经网络对MR影像信息进行分割，根据各部分分割信息，提取高通量影像超参数；

基本数据处理模块，用于对临床数据、人口学数据和实验室检查数据进行处理，生成不同维度的向量表示；

多源数据融合模块，用于将所述高通量影像数据和所述不同维度的向量表示进行多源数据融合，得到融合后的多源异构数据；

多源图聚类模块构建模块，用于构建多源异构数据集，通过训练并测试多源图聚类模型，得到最优模型；

数据分析模块，用于将MR影像信息输入到所述最优模型中，分析不同类别差异性和同一类别相似性。

可选地，所述多源数据融合模块，具体用于：

对预处理后的四种数据进行数据对齐；

利用随机游走算法融合不同组学的关联矩阵。

可选地，所述多源图聚类模块构建模块，具体用于：

可选地，所述数据分析模块，具体用于：

针对多源异构数据，在特征选择时遍历特征的所有可能性；

根据本申请实施例的第三方面，提供了一种设备，所述设备包括：数据采集装置、处理器和存储器；所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行第一方面任一项所述的方法。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行如第一方面任一项所述的方法。

综上所述，本申请实施例提供了一种多组学数据的聚类分析方法和系统，通过采用神经网络对MR影像信息进行分割，根据各部分分割信息，提取高通量影像超参数；对临床数据、人口学数据和实验室检查数据进行处理，生成不同维度的向量表示；将所述高通量影像数据和所述不同维度的向量表示进行多源数据融合，得到融合后的多源异构数据；构建多源异构数据集，通过训练并测试多源图聚类模型，得到最优模型；将MR影像信息输入到所述最优模型中，分析不同类别差异性和同一类别相似性。采用图结构的方式，直观表达数据之间的关联情况，捕捉不同的特征，模型更鲁棒，实现基于图神经网络模型的高效聚类算法，具有很高的实用价值。

附图说明

为了更清楚地说明本申请实施例的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本申请实施例可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本申请实施例所能产生的功效及所能达成的目的下，均应仍落在本申请实施例所揭示的技术内容能涵盖的范围内。

图1为本申请实施例提供的多组学数据的聚类分析方法流程示意图；

图2为本申请实施例提供的数据融合流程图；

图3为本申请实施例提供的多源图聚类模型示意图；

图4为本申请实施例提供的多组学数据的聚类分析系统。

具体实施方式

以下由特定的具体实施例说明本申请实施例的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请实施例的其他优点及功效，显然，所描述的实施例是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

随着图神经网络研究的日益广泛，网络包含丰富的关系信息，能够拟合多源异构数据，实现基于人工智能的高效的聚类算法，它可以提供对疾病发病机理的更深入了解以及针对性疗法的设计，多组学融合聚类是从多组学数据中识别疾病亚型的主要工具。研究将其应用在亚型分析上，具有很高的实用价值。

以往的研究多数使用单一的生物组学数据的样本进行分析，在分析过程中，多数使用k-means等机器学习方法，在数据量庞杂的情况下，容易出现数据特征稀疏，数据冗余等问题，有很多局限性和不足。本申请实施例通过多源异构数据构建多源图聚类模型通过节点表示学习，能尽可能详尽的计算结构相似性和不同结构的差异性。通过多源图聚类分析，获取无标签数据的隐藏规律和特征。

本申请实施例采用图结构的方式，能够直观表达数据之间的关联情况，能通过推理学习的方法，捕捉不同的特征，模型更鲁棒，实现基于图神经网络模型的高效聚类算法，具有很高的实用价值。

图1示出了本申请实施例提供的多组学数据的聚类分析方法流程示意图，所述方法包括如下步骤：

步骤101：采用神经网络对MR影像信息进行分割，根据各部分分割信息，提取高通量影像超参数；

步骤102：对临床数据、人口学数据和实验室检查数据进行处理，生成不同维度的向量表示；

步骤103：将所述高通量影像数据和所述不同维度的向量表示进行多源数据融合，得到融合后的多源异构数据；

步骤104：构建多源异构数据集，通过训练并测试多源图聚类模型，得到最优模型；

步骤105：将MR影像信息输入到所述最优模型中，分析不同类别差异性和同一类别相似性。

在一种可能的实施方式中，在步骤103中，所述将所述高通量影像数据和所述不同维度的向量表示进行多源数据融合，得到融合后的多源异构数据，包括：

添加MR定位定量开采的影像组学超参数，将四种不同类型的数据进行预处理，基于对应的每个特征进行归一化处理；对预处理后的四种数据进行数据对齐；将对齐后的数据进行关联，针对每一个组学样本分别构建关联矩阵，通过局部高斯核构建相似性度量指标，计算每个关联矩阵的相邻样本，过滤权重小于设定范围的数据，得到过滤后的多组学信息的关联矩阵；利用随机游走算法融合不同组学的关联矩阵。

在一种可能的实施方式中，在步骤104中，所述通过训练并测试多源图聚类模型，得到最优模型，包括：

采用多源图聚类模型实现聚类分析，对节点的局部邻居的特征进行采样和聚合，生成节点表示；利用节点对的内积运算重构原始网络结构，结合注意力机制学习邻居节点的权重，以使得自动学习特征；在模型训练过程中，采用自训练聚类模块，以实现对图嵌入的约束和整合，对构建的多源图聚类模型进行训练和验证，调整和优化网络参数，以实现多源图聚类模型的训练和收敛。

在一种可能的实施方式中，在步骤105中，所述将MR影像信息输入到所述最优模型中，分析不同类别差异性和同一类别相似性，包括：

针对多源异构数据，在特征选择时遍历特征的所有可能性；进行相关度分析，分析各个特征的方差对总方差的贡献大小，以衡量各个特征的重要性，其中特征方差贡献越高重要性越高；根据特征方差，确定MR影像信息中不同类别差异性和同一类别相似性。

下面对本申请实施例提供的一种多组学数据的聚类分析方法进行进一步详细说明，包括以下步骤：

S1：采用神经网络对MR影像进行分割，根据各部分分割信息，得到高通量影像超参数；也就是建立MR影像定量定位模型，能够自动生成定量定位的超参数，为多源异构数据提供高通量影像数据。

其中，步骤S1具体包括：

S11：MR序列原始图的预处理。

利用MR影像检查中大量未标记的图像数据进行生成对抗学习，生成对抗模型同时训练两个网络：一个专注于图像生成，另一个专注于图像判别。当判别器无法判断生成器生成的“假图”和原始图像的差别时，此时，生成对抗网络的特征提取模块则学习到了MR影像的底层纹理特征。

S12：MR影像特征提取。

将准确获取到MR影像底层纹理的模型进行迁移学习提高分割网络的特征提取能力，同时针对MR影像特点设计结构损失函数，给予像素较少的结构类别以更高的权重，提高图像分割准确率,最终模型具备MR影像的特征。

S13：基于MR影像分割定位定量模型。

首先针对分割后的MR图像通过高斯滤波进行平滑性处理，之后进行边缘检测，从而根据梯度信息得到分割区域的外边界信息。对边缘检测之后的图像，进行二值化处理，即可明确定位出结构的边界。准确分割测量后的各结构可以实现定量诊断。

S14：影像超参数获取。

将原始数据输入到模型中，提取影像超参数信息。

S2：对临床数据、人口学数据和实验室检查数据进行处理，生成不同维度的向量表示。

其中步骤S2具体包括：

S21：采集录入人口学数据，主要包括：性别、长期生活地、发病年龄、就诊年龄、身高体重、左右侧、吸烟史、骨折创伤史、感染史、年收入、职业、教育水平。

S22：采集录入临床症状关键信息。

S23：融合实验室检查数据，如血红蛋白浓度、白蛋白、尿酸、乳酸脱氢酶、肌酸激酶、骨标组合、血沉、C反应蛋白、类风湿因子、CCP抗体、HLA-B27等。

S3：将高通量影像数据、S2结果进行深度融合，得到融合后的多源异构数据。将多源数据进行融合，能够从多源异构的人口学、临床、影像学及实验室数据中筛选出能够对诊断结果提取关键数据，进行融合。

其中S3具体包括如下步骤：

S31：添加S1步骤MR定位定量可开采的影像组学(Radiomics)超参数；如图2所示，将四种不同类型的数据进行预处理，由于多源组学数据维度陡增，可能存在噪声和无效信息，影响分析结果，因此数据预处理也非常重要。在数据预处理阶段，由于不同特征计算出的数值差别较大，需要所有数据对应的每个特征进行归一化处理。数据归一化方法使用公式(1)。

其中

表示第n个特征，m表示样本数，

表示所有样本特征值的均值。将组学相关信息归一化后，为数据融合做数据准备。

S32：将四组数据预处理后，进行数据对齐。由于四类数据相关度不高，因此结合数据的语义信息，根据人为定义的规则来确定记录是否指代同一实体，进行数据对齐。

S33：将对齐后的数据进行关联，进一步构建图数据。每一个组学样本分别构建关联矩阵，通过局部高斯核构建相似性度量指标，然后计算每个关联矩阵的相邻样本，如果权重较小，则认为相关度较低，可能是噪声，因此将这部分数据过滤掉。最终得到的过滤后的多组学信息的关联矩阵。

S34：进行数据融合。

将关联矩阵做数据融合。利用随机游走算法融合不同组学的信息，并且通过实验证明二步随机游走(r＝2)时即可达到一个稳定的状态。

S4：构建多源异构数据集，通过搭建多源图聚类模型，训练并测试模型，获取最优模型。

步骤S4具体包括：

S41：采用多源图聚类模型如图3所示，实现聚类分析，首先对节点的局部邻居的特征进行采样和聚合来生成节点表示，然后利用节点对的内积运算来重构原始网络结构，最后结合注意力机制来学习邻居节点的权重，使其自动学习特征。

S42：在模型训练过程中，为了更好的构建网络模型(如图3所示)，采用自训练聚类模块，实现对图嵌入的约束和整合，对构建的多源图聚类模型进行训练和验证，不断调整和优化网络参数，以实现该网络模型的充分训练和收敛。

其中，DNN模块损失函数如公式(2)：

自监督模块Student’s t-distribution作为内核来衡量数据的表示向量hi和聚类中心向量v_i的相似性，如公式(3)所示：

h_i是H(L)的第i行向量，u_i是预训练autoencoder学习到的向量表示的K-means初始化中心。q_ij表示样本i分配给类别j可能性。

在获得聚类结果分布q后，目标是通过学习高置信度赋值来优化数据表示。具体来说，希望使数据表示更接近聚类中心，从而提高聚类的内聚性。因此，计算目标分布P如公式(4)所示:

其中f_j＝∑_iq_ij，在目标分布p中，q中的每一个赋值都被平方并归一化，使赋值具有更高的置信度，从而得到如下公式(5)目标函数:

目标分布p通过最小化q和p分布之间的KL散度损失，可以帮助DNN模块更好地表示聚类任务，使数据表示更接近集群中心。这被认为是一种自我监督机制，因为目标分布p是由分布q来计算的，而p分布反过来又监督分布q的更新。

GCN模块公式如(6)所示：

模型loss函数如公式(7)所示：

S5：原始数据输入到模型中，输出原始数据中不同类别差异性和同一类别相似性，分析原始数据亚型类型及特征。

其中S5具体包括如下步骤：

S51：根据多组学数据的聚类结果，在特征选择过程中，设计一种自动遍历所有特征数的方法，即在特征选择上会遍历特征的所有可能性。

S52：进行相关度分析，分析研究各个特征的方差对总方差的贡献大小(F检验p-value值)来衡量各个特征的重要性，其中特征方差贡献越高重要性越高。

S53：根据特征方差，寻找原始数据中不同类别差异性和同一类别相似性。

本申请实施例通过图结构能够直观表达数据之间的关联情况，能通过推理学习的方法，捕捉不同的特征，使模型更鲁棒。

综上所述，本申请实施例提供了一种多组学数据的聚类分析方法，通过采用神经网络对MR影像信息进行分割，根据各部分分割信息，提取高通量影像超参数；对临床数据、人口学数据和实验室检查数据进行处理，生成不同维度的向量表示；将所述高通量影像数据和所述不同维度的向量表示进行多源数据融合，得到融合后的多源异构数据；构建多源异构数据集，通过训练并测试多源图聚类模型，得到最优模型；将MR影像信息输入到所述最优模型中，分析不同类别差异性和同一类别相似性。采用图结构的方式，直观表达数据之间的关联情况，捕捉不同的特征，模型更鲁棒，实现基于图神经网络模型的高效聚类算法，具有很高的实用价值。

基于相同的技术构思，本申请实施例还提供了一种多组学数据的聚类分析系统，如图4所示，所述系统包括：

高通量影像数据生成模块401，用于采用神经网络对MR影像信息进行分割，根据各部分分割信息，提取高通量影像超参数；

基本数据处理模块402，用于对临床数据、人口学数据和实验室检查数据进行处理，生成不同维度的向量表示；

多源数据融合模块403，用于将所述高通量影像数据和所述不同维度的向量表示进行多源数据融合，得到融合后的多源异构数据；

多源图聚类模块构建模块404，用于构建多源异构数据集，通过训练并测试多源图聚类模型，得到最优模型；

数据分析模块405，用于将MR影像信息输入到所述最优模型中，分析不同类别差异性和同一类别相似性。

在一种可能的实施方式中，所述多源数据融合模块403，具体用于：添加MR定位定量开采的影像组学超参数，将四种不同类型的数据进行预处理，基于对应的每个特征进行归一化处理；对预处理后的四种数据进行数据对齐；将对齐后的数据进行关联，针对每一个组学样本分别构建关联矩阵，通过局部高斯核构建相似性度量指标，计算每个关联矩阵的相邻样本，过滤权重小于设定范围的数据，得到过滤后的多组学信息的关联矩阵；利用随机游走算法融合不同组学的关联矩阵。

在一种可能的实施方式中，所述多源图聚类模块构建模块404，具体用于：采用多源图聚类模型实现聚类分析，对节点的局部邻居的特征进行采样和聚合，生成节点表示；利用节点对的内积运算重构原始网络结构，结合注意力机制学习邻居节点的权重，以使得自动学习特征；在模型训练过程中，采用自训练聚类模块，以实现对图嵌入的约束和整合，对构建的多源图聚类模型进行训练和验证，调整和优化网络参数，以实现多源图聚类模型的训练和收敛。

在一种可能的实施方式中，所述数据分析模块405，具体用于：针对多源异构数据，在特征选择时遍历特征的所有可能性；进行相关度分析，分析各个特征的方差对总方差的贡献大小，以衡量各个特征的重要性，其中特征方差贡献越高重要性越高；根据特征方差，确定MR影像信息中不同类别差异性和同一类别相似性。

基于相同的技术构思，本申请实施例还提供了一种设备，所述设备包括：数据采集装置、处理器和存储器；所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行所述的方法。

基于相同的技术构思，本申请实施例还提供了一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行所述的方法。

本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

需要说明的是，尽管在附图中以特定顺序描述了本申请实施例方法的操作，但这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然本申请提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种多组学数据的聚类分析方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述将所述高通量影像数据和所述不同维度的向量表示进行多源数据融合，得到融合后的多源异构数据，包括：

对预处理后的四种数据进行数据对齐；

利用随机游走算法融合不同组学的关联矩阵。

3.如权利要求1所述的方法，其特征在于，所述通过训练并测试多源图聚类模型，得到最优模型，包括：

4.如权利要求1所述的方法，其特征在于，所述将MR影像信息输入到所述最优模型中，分析不同类别差异性和同一类别相似性，包括：

针对多源异构数据，在特征选择时遍历特征的所有可能性；

5.一种多组学数据的聚类分析系统，其特征在于，所述系统包括：

6.如权利要求5所述的系统，其特征在于，所述多源数据融合模块，具体用于：

对预处理后的四种数据进行数据对齐；

利用随机游走算法融合不同组学的关联矩阵。

7.如权利要求5所述的系统，其特征在于，所述多源图聚类模块构建模块，具体用于：

8.如权利要求5所述的系统，其特征在于，所述数据分析模块，具体用于：

针对多源异构数据，在特征选择时遍历特征的所有可能性；

9.一种设备，其特征在于，所述设备包括：数据采集装置、处理器和存储器；

所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行如权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行如权利要求1-4任一项所述的方法。