CN116741397B

CN116741397B - 基于多组学数据融合的癌症分型方法、系统及存储介质

Info

Publication number: CN116741397B
Application number: CN202311022652.0A
Authority: CN
Inventors: 马韵洁; 夏莎莎; 王飞; 王佐成; 吴艳平
Original assignee: Data Space Research Institute
Current assignee: Data Space Research Institute
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-11-03
Anticipated expiration: 2043-08-15
Also published as: CN116741397A

Abstract

本发明涉及医疗数据分析技术领域，公开了基于多组学数据融合的癌症分型方法、系统及存储介质。癌症分型方法首先对患者癌症细胞样本的组学数据进行归一化处理，然后基于高斯核函数构建经过归一化处理的各种组学数据的相似性矩阵，再利用相似网络融合算法对各种组学数据的相似性矩阵进行融合，将各种组学数据的相似性矩阵与整体相似性网络的融合过程转化为一个约束最小化问题的构建，通过约束最小化问题求解出目标矩阵。最后利用聚类算法对目标矩阵进行聚类处理，进而将癌症患者划分为不同的亚型或子群体。该癌症分型方法能提供更准确、可靠的癌症分型结果。

Description

基于多组学数据融合的癌症分型方法、系统及存储介质

技术领域

本发明涉及医疗数据分析技术领域，尤其涉及一种基于多组学数据融合的癌症分型方法，还涉及应用这种癌症分型方法的癌症分型系统以及计算机可读存储介质。

背景技术

癌症是一种侵略性强且复杂的疾病，其异质性使得针对不同肿瘤类型的特定治疗变得具有挑战性。癌症的临床异质性可追溯到形态相似的肿瘤具有多个明显不同发病机制的亚型。因此，准确预测癌症亚型对于帮助理解癌症的演变、优化患者分层和设计有效的治疗方法是有意义且必要的。许多基于唯一的生物学特征或临床结果的方法已用于识别特定肿瘤组织中的癌症亚型。然而，大多数这些方法只使用单一的数据类型，因此无法全面描述生物体的临床信息，也无法捕捉癌症的细微差别。将癌症基因组与癌症表型联系起来是困难的，因为基因组不是简单或独立的，而是复杂的并且彼此相互作用。因此，全面了解肿瘤不同组织类型对于高效的疾病诊断和治疗至关重要。

癌症基因组图谱（TCGA）提供了来自不同平台的各种癌症的测序数据即组学数据，包括基因表达、拷贝数和DNA甲基化数据。这些不同类型的数据提供了互补或共同的信息，涵盖了高度有序的分子和细胞事件。一些癌症亚型预测模型已经整合了多样的组学数据，以捕捉表型的复杂性和生物过程的异质性。使用多组学数据的模型比使用单组学数据（如基因表达）的模型提供了对特定生物过程或复杂疾病的分子机制的更全面的理解。

但是，现有的多组学聚类方法并没有考虑到各个组学数据类型之间的相似性，以及融合矩阵与基因调控网络的拓扑结构之间的一致性，造成对于患者癌症亚型分类结果的准确性较低。

发明内容

为了克服现有技术中多组学聚类方法对患者癌症亚型分类结果的准确性较低的技术问题，本发明提出了基于多组学数据融合的癌症分型方法、系统及存储介质。

为实现上述目的，本发明公开一种基于多组学数据融合的癌症分型方法，包括以下步骤，即步骤一至步骤五。

步骤一、对患者癌症细胞样本的组学数据进行归一化处理。每个样本具有m种组学数据。

步骤二、基于高斯核函数构建经过归一化处理的各种组学数据的相似性矩阵。其中，高斯核函数中的高斯核计算方式为：将欧氏距离添加到核函数中，采用k最近邻算法即KNN计算出每个样本的邻居信息，并将每个样本的邻居信息添加到核函数中。

步骤三、利用相似网络融合算法对各种组学数据的相似性矩阵进行融合，形成包含有多组学数据的整体相似性网络。整体相似性网络通过拉普拉斯矩阵L _G描述拓扑结构。

步骤四、将各种组学数据的相似性矩阵与整体相似性网络的融合过程转化为一个约束最小化问题的构建，通过约束最小化问题求解出融合的目标矩阵S。约束最小化问题的表达为：

式中，f(S)为目标函数。W ^l为第l种组学数据的相似性矩阵，l∈{1,2,…m}。α _l为W ^l的权重。||·||_F表示“·”的Frobenius范数。β和γ是控制正则化强度的非负超参数。

步骤五、利用聚类算法对目标矩阵S进行聚类处理，进而将癌症患者划分为不同的亚型或子群体。

作为上述方案的进一步改进，步骤一中，患者癌症细胞样本设有n个，记为{x₁,x₂,…,x_n}，每个样本数据具有m种不同的组学数据，记为，l∈{1,2,…m}。

其中，对样本的组学数据进行归一化处理的表达公式如下：

式中，表示第i个样本的第l种组学数据，i∈{1,2,…n}，/>表示归一化后的相应特征。/>和/>分别表示/>的经验均值和方差。

作为上述方案的进一步改进，步骤二中，第l种组学数据的相似性矩阵W ^l中的矩阵元素表示记为，表示第i个样本的第l种组学数据与第j个样本的第l种组学数据之间的相似性，其计算公式如下：

式中，表示第j个样本的第l种组学数据，j∈{1,2,…n}；σ _i表示第i个样本的局部密度；σ _j表示第j个样本的局部密度；/>表示第i个样本的第l种组学数据与第j个样本的第l种组学数据之间的欧氏距离；其中，局部密度σ _i、σ _j的计算公式分别如下：

式中，表示对/>利用KNN算法得到的/>的k个邻居，记为集合/>；其中，/>，的取值范围为/>，z的取值范围为集合/>，其中；/>表示对/>利用KNN算法得到的/>的k个邻居，记/>为集合/>；其中，/>，的取值范围为/>，y的取值范围为集合/>，其中。

作为上述方案的进一步改进，步骤三中，拉普拉斯矩阵为一个图G的矩阵表示，该图由若干个节点和边构成，其中的节点表示样本，边表示样本组学数据的相似性。L _G计算方式如下：

L _G=D _G －A _G

式中，D _G为度矩阵，对角线元素为每个节点的度数。A _G为邻接矩阵，表示节点之间的连接关系。

作为上述方案的进一步改进，步骤三中，相似网络融合算法包括以下过程：

对每种组学数据的相似性矩阵进行归一化处理。

将归一化后的相似性矩阵组合成一个相似性网络集合。

依次对相似性网络集合中的每一个网络进行迭代更新，直至所有网络融合收敛，得到整体相似性网络。其中，对每一个网络即对象网络进行更新的方式为：通过集合中的其余任意一个网络的一处节点对相似性信息，更新对象网络中相应节点对的相似性信息。

作为上述方案的进一步改进，步骤四中，非负超参数的设置方式为：对超参数进行初步估计，指定超参数范围。在超参数范围内进行穷举搜索，通过在每个超参数上选择一组候选值，对所有可能的组合进行评估，找到在交叉验证或验证集上表现最好的超参数组合。

作为上述方案的进一步改进，步骤五中，利用K-means聚类算法对目标矩阵S进行聚类处理。

作为上述方案的进一步改进，多种组学数据至少包括：DNA甲基化数据、mRNA表达数据和miRNA表达数据。

本发明还公开一种基于多组学数据融合的癌症分型系统，其应用上述基于多组学数据融合的癌症分型方法。癌症分型系统包括：预处理模块、构建模块、第一融合模块、第二融合模块以及聚类模块。

预处理模块用于对患者癌症细胞样本的组学数据进行归一化处理。

构建模块用于基于高斯核函数构建经过归一化处理的各种组学数据的相似性矩阵。

第一融合模块用于利用相似网络融合算法对各种组学数据的相似性矩阵进行融合。

第二融合模块用于将各种组学数据的相似性矩阵与整体相似性网络的融合过程转化为一个约束最小化问题的构建，通过约束最小化问题求解出目标矩阵。

聚类模块用于利用聚类算法对目标矩阵进行聚类处理，进而将癌症患者划分为不同的亚型或子群体。

本发明还公开一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时，实现上述基于多组学数据融合的癌症分型方法的步骤。

与现有技术相比，本发明至少存在如下有益效果：

（1）本发明公开的基于多组学数据融合的癌症分型方法，通过将所述各种组学数据的相似性矩阵与所述整体相似性网络的融合过程转化为约束最小化问题的构建，在目标函数中分别引入融合权重项、相似性保持项、正则化项，从而综合考虑了不同组学数据的相似性、拓扑结构和谱聚类性能需求，能够提供更准确、可靠的癌症分型结果，为精细化治疗和管理提供更有效的指导。

（2）本发明提供的癌症分型方法通过在约束最小化问题引入局部尺度参数来计算高斯核函数。传统的高斯核函数使用固定的全局尺度参数，而谱聚类通过使用局部尺度参数，根据节点的局部结构动态调整高斯核函数的尺度。这样可以更好地适应不同数据集的局部变化，提高聚类的准确性，尤其在存在不同密度的数据集中更有效。

（3）本发明提供的癌症分型方法通过在约束最小化问题引入相似性保持项，通过对各个相似性矩阵之间的差异进行最小化，实现了数据融合的目的。这有助于综合不同数据源的信息，提高结果的可靠性和鲁棒性。

（4）本发明提供的癌症分型方法通过在约束最小化问题引入正则化项，考虑了融合矩阵与整体相似网络的拓扑结构之间的一致性。通过最小化融合矩阵与整体相似性网络的差异，可以保持融合后的网络在拓扑结构上与原始网络的一致性，有助于保留重要的调控关系和生物学特征。

（5）利用本发明产生的癌症分型结果可以为精细化治疗和管理提供重要的指导。一方面，不同亚型的癌症可能对特定的治疗方法具有不同的响应。通过将患者划分到特定的亚型中，可以为每个患者提供个体化的治疗方案，以最大程度地提高治疗效果。另一方面，不同亚型的癌症具有不同的生存和预后情况。通过对癌症患者进行分型，可以更准确地评估患者的预后，并为患者提供相应的预后管理和护理。

（6）本发明公开的癌症分型系统以及计算机可读存储介质均可应用上述癌症分型方法，其有益效果与上述方法的有益效果相同，在此不再赘述。

附图说明

图1为本发明实施例1基于多组学数据融合的癌症分型方法的流程图；

图2为本发明实施例1中通过SNF算法得到整体相似性网络的示意图；

图3为本发明实施例1中对四种癌症亚型进行分析的生存曲线图；

图4为本发明实施例2基于多组学数据融合的癌症分型系统的模块图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1，本实施例提供一种基于多组学数据融合的癌症分型方法，用于准确识别癌症亚型，这有助于更好地理解癌症的发病机制，并有助于改善临床治疗和患者生存，以及癌症基因组和精准医学研究的发展。

该癌症分型方法的整体过程为：首先，针对每种组学数据，利用新的高斯核函数计算出其相似性矩阵，以捕捉数据内部的相似性信息。然后，利用SNF算法对这些相似性矩阵进行融合，形成一个综合的相似性网络，该网络综合了不同组学数据的信息，能够更全面地描述样本之间的相似性。接下来，通过一种新的融合算法，将基于组学数据相似性矩阵和SNF算法的相似性网络进行融合，得到一个新的网络（矩阵），这个新的矩阵综合了不同组学数据的特征，并反映了样本之间的关联程度。最后，利用谱聚类方法对新的矩阵进行聚类，将样本划分为不同的簇或亚型。这样可以识别出不同的癌症亚型或其他生物学类别，为进一步的精细化治疗和管理提供了基础。

具体地，本实施例中，该癌症分型方法可包括以下详细步骤。

假设有n个患者癌症细胞样本{x₁,x₂,…,x_n}，以下简称样本；每个样本有m种不同的组学数据，记为，l∈{1,2,…m}。本实施例中，多种组学数据可至少包括：DNA甲基化数据、mRNA表达数据和miRNA表达数据，当然，在其他实施例中，还可以包括其他癌症选型中常用的组学数据。

第一步：对患者癌症细胞样本的组学数据进行归一化处理。归一化处理的表达公式如下所示：

其中，表示第i个样本的第l种组学数据，i∈{1,2,…n}，/>表示归一化后的相应特征。/>和/>分别表示/>的经验均值和方差。

第二步：基于高斯核函数构建经过归一化处理的各种组学数据的相似性矩阵。

由于单个高斯核函数难以应用于多尺度数据，本发明提出了一种新的方法计算高斯核函数中的高斯核。首先将欧氏距离添加到核函数中，采用k最近邻算法（KNN：k-NearestNeighbor）计算出每个样本的邻居信息，并将每个样本的邻居信息添加到核函数中。记W ^l为第l种组学数据形成的相似性矩阵，其中矩阵元素表示记为，可表示第i个样本的第l种组学数据与第j个样本的第l种组学数据之间的相似性。/>的计算公式为：

式中，表示对/>利用KNN算法得到的/>的k个邻居，记为集合/>；其中，/>，的取值范围为/>，z的取值范围为集合/>，其中；

表示对/>利用KNN算法得到的/>的k个邻居，记/>为集合，y的取值范围为集合/>，其中/>。这种修改方式将权重与样本的局部密度关联起来，更好地捕捉了样本之间的相似性和差异性。通过调整k的值，可以控制权重的分布范围，从而适应不同数据集的特点。这种改进方法可以提高相似性矩阵的准确性和鲁棒性，更好地反映数据的局部结构和相似性。

第三步：利用相似网络融合算法（SNF:Similarity Network Fusion）对各种组学数据的相似性矩阵进行融合，形成包含有多组学数据的整体相似性网络。

例如，在癌症数据集中，可以利用SNF算法来融合患者的mRNA表达、DNA甲基化和miRNA表达等数据。

请结合图2，具体而言，SNF算法可包括以下过程，即a~d。

a、根据步骤二得到患者癌症细胞样本的各种组学数据的相似性矩阵；

b、构建样本间各组学的相似性网络：将患者癌症细胞样本表示为网络节点，使用样本间组学数据的相似性作为边；

c、每个相似性网络通过其他相似性网络的信息进行迭代更新。例如，以图2中的网络1为例，每次更新时，通过从网络2中选取一对节点对的相似性信息，更新网络1中相应节点对的相似性。

d、迭代网络融合最终收敛到整体相似性网络：经过多次迭代更新，最后每个组学的相似性网络不会发生变化即最后收敛到一个整体相似性网络。红色和蓝色边表示了miRNA表达和DNA甲基化数据类型对整体相似性网络的贡献。

在一些实施例中，在进行迭代更新之前，还可以对每种组学数据的相似性矩阵进行归一化处理；将归一化后的相似性矩阵组合成一个相似性网络集合。

本实施例中，通过集成SNF算法形成的多组学数据网络，以及多个组学的相似性矩阵来整合多组学数据，用于识别癌症亚型。方法的核心是将多个组学数据源的相似性信息融合起来，以构建一个新的关系网络，该网络可以更好地表达样本之间的关系。与其他聚类方法相比，新方法对癌症亚型的预测性能相当甚至更好。这表明通过集成SNF算法和组学的相似性矩阵，可以成功地从多组学数据中发现和识别有意义的癌症亚型，证实了多组学数据融合的必要性和优越性。

假设基于样本的各种组学数据，利用SNF算法形成的融合网络结构表示为一个图G，该图由若干个节点和边构成，其中的节点表示样本，边表示样本组学数据的相似性。可以使用拉普拉斯矩阵L _G来描述这个图的拓扑结构。拉普拉斯矩阵可以通过以下方式计算：

L _G=D _G －A _G

第四步：将各种组学数据的相似性矩阵（即W ¹，W ²，…，W ^m）与整体相似性网络的融合过程转化为一个约束最小化问题的构建，通过约束最小化问题求解出融合的目标矩阵S。约束最小化问题的表达为：

式中，f(S)为目标函数。α _l为W ^l的权重。||·||_F表示“·”的Frobenius范数。β和γ是控制正则化强度的非负超参数。其中，目标矩阵S表示第四步进行融合后得到的结果，是一个n乘n的矩阵，矩阵中的每行和每列均代表患者癌症细胞样本编号。

另外，数学公式中的s.t.是subject to的缩写，表示约束条件。在数学规划中，对于决策方案的各项限制，常以不等式或方程式的形式出现。在经济问题中，对目标函数常常要在一定约束条件下求最大值(或最小值)，它们包含着用来代表决策方案的变量，借以对决策方案施加限制范围，在此不再赘述。

上述超参数β和γ的具体设置方式如下，即（1）~（2）。

（1）领域知识和经验：可根据对问题领域的了解和经验，对超参数进行初步估计。

（2）网格搜索：在指定的超参数范围内进行穷举搜索。通过在每个超参数上选择一组候选值，对所有可能的组合进行评估，找到在交叉验证或验证集上表现最好的超参数组合。

下面介绍约束最小化问题里各项公式和参数含义，即1~3。

1.融合权重项：权重变量α ₁，α ₂，…，α _m，用于调整每个相似性矩阵的权重。

2.相似性保持项：为了保持目标矩阵S与原始相似性矩阵（W ¹，W ²，…，W ^m）的信息，使用这一项来度量融合后的矩阵S与原始矩阵之间的差异。

3.正则化项：这一项（即）是为了将SNF算法形成的拓扑结构纳入目标函数中，所以在融合目标函数中添加得正则化项。这种添加正则化项方式是基于拉普拉斯矩阵的正则化。具体来说，可以将融合后的矩阵S与拉普拉斯矩阵L _G进行相似性度量，通过最小化它们之间的差异来保持拓扑结构的一致性。

第五步：利用聚类算法对目标矩阵S进行聚类处理，进而将癌症患者划分为不同的亚型或子群体。

本实施例中，可采用K-means聚类算法对目标矩阵S做聚类处理。当然，在其他实施例中，也可采用其他现有的聚类方法，如：均值漂移聚类、基于密度的聚类、谱聚类等。

综上所述，本实施例提供的基于多组学数据融合的癌症分型方法在融合数据、保持拓扑结构和优化谱聚类性能等方面具有很好的优点。它综合考虑了不同组学数据的相似性、拓扑结构和谱聚类需求，能够提供更准确、可靠的癌症分型结果，为精细化治疗和管理提供更有效的指导。具体优点包括：

引入了局部尺度参数来计算高斯核函数。传统的高斯核函数使用固定的全局尺度参数，而谱聚类通过使用局部尺度参数，根据节点的局部结构动态调整高斯核函数的尺度。这样可以更好地适应不同数据集的局部变化，提高聚类的准确性，尤其在存在不同密度的数据集中更有效。

数据融合能力：目标函数中的第一项即相似性保持项考虑了各个组学数据类型之间的相似性，通过对各个相似性矩阵之间的差异进行最小化，实现了数据融合的目的。这有助于综合不同数据源的信息，提高结果的可靠性和鲁棒性。

拓扑结构保持：目标函数中的第二项即正则化项考虑了融合矩阵与基因调控网络的拓扑结构之间的一致性。通过最小化融合矩阵与基因调控网络的差异，可以保持融合后的网络在拓扑结构上与原始网络的一致性，有助于保留重要的调控关系和生物学特征。

本发明利用基于多组学数据融合的癌症分型方法产生的癌症分型结果，可以为精细化治疗和管理提供重要的指导，具体包括：

个体化治疗方案：不同亚型的癌症可能对特定的治疗方法具有不同的响应。通过将患者划分到特定的亚型中，可以为每个患者提供个体化的治疗方案，以最大程度地提高治疗效果。

预后评估：不同亚型的癌症具有不同的生存和预后情况。通过对癌症患者进行分型，可以更准确地评估患者的预后，并为患者提供相应的预后管理和护理。

为了验证本实施例提出的基于多组学数据融合的癌症分型方法，本实施例还进行了如下的性能验证试验以及对比评估。

首先，本实施例提供的癌症分型方法中的第一步至第五步，可以命名为多组学融合算法（Multi Omics Fusion），简称MOFusion算法。实验机器配置如下：操作系统为Ubuntu；显卡为NVIDIA RTX3060；框架版本为PyTorch1.10。在这样的实验环境下，进行了基于多组学数据融合的癌症分型方法的试验，并记录了相应的性能指标。

如下表1所示，本实施例使用了TCGA数据库中的两个公开癌症数据集BreastCancer（乳腺癌），Colorectal Cancer（结直肠癌），其中包含三种类型的组学数据（基因表达、miRNA表达和DNA甲基化）来评估MOFusion算法的性能。

表1：癌症数据集样本的组学数据

请参阅图3，本实施例中，使用结直肠癌591样本运用MOfusion算法融合其多组学数据后，然后利用K-means聚类算法对融合后的数据做聚类，预测了四种癌症亚型，并利用生存分析对这四种亚型进行分析。四种癌症亚型的生存曲线（即：Subtype1、Subtype2、Subtype3和Subtype4）显示了这些癌症亚型（即Cancer Subtypes）的生存概率（即纵坐标Survival Probability）和生存时间（即横坐标Time）。这些结果为深入研究新亚型的生物学特征和临床表现提供了新的线索。根据图3的生存曲线可以得到如下信息。

Subtype1生存曲线显示该亚型的结直肠癌患者在较长时间范围内有较高的生存概率。生存曲线从初始时间点开始，生存概率逐渐下降，但下降速率较缓慢。这可能意味着Subtype1亚型的结直肠癌相对较为缓慢发展，患者的预后相对较好。

Subtype2生存曲线显示该亚型的结直肠癌患者在早期阶段就有较高的风险导致死亡。生存概率从初始时间点开始迅速减小，表明Subtype2亚型可能是较为恶性和进展迅速的结直肠癌亚型，患者需要更紧急和积极的治疗干预。

Subtype3生存曲线显示该亚型的结直肠癌患者在早期阶段有较高的生存概率，然后随着时间逐渐下降，但下降速率较缓慢。这可能意味着Subtype3亚型的结直肠癌在早期可能对治疗有较好的反应，但在长时间范围内，患者的生存率可能逐渐下降。

Subtype4生存曲线呈现出明显的阶梯形下降，患者的生存概率在初始时间点急剧减小，并在后续时间段内保持相对稳定的低水平。这可能意味着Subtype4亚型的结直肠癌在早期阶段就有较高的风险导致死亡，而在后续时间内，患者的生存率持续较低。

综上所述，这四种结直肠癌亚型在生存曲线上呈现出不同的特征。Subtype1和Subtype3的生存曲线相对平稳，生存概率较高，可能代表相对较为良性的亚型。Subtype2和Subtype4的生存曲线显示较高的风险和较低的生存概率，可能代表较为恶性的亚型，需要更加紧急和积极的治疗干预。对不同亚型的理解有助于指导结直肠癌患者的个体化治疗和预后评估。

另外，为了评估本实施例方法的聚类性能，如下表2所示，本实施例使用了两个评估标准和已有的三种算法进行比较，具体评价指标分别是ARI（调整兰德指数）和NMI（归一化互信息）。

表2：不同算法聚类性能的对比评估

其中，调整兰德指数（ARI）是用于衡量两个聚类结果之间一致性的广泛使用的度量标准，ARI的数值范围在[-1,1]之间，值越接近1表示聚类结果与真实标签的一致性越高。

归一化互信息（NMI）考虑了聚类结果之间的互信息和熵，并将其归一化以消除数据集规模对度量结果的影响。NMI的数值范围在[0,1]之间，值越接近1表示聚类结果与真实标签的一致性越高。

在表2中，SNF（Similarity Network Fusion）是相似网络融合算法，其通过整合不同数据类型的相似性网络来提高癌症分型和生物标记物识别的性能，在前文已介绍，在此不再赘述。ANF（Affinity Network Fusion）是一种用于癌症患者聚类的算法，通过融合多组学数据信息来发现癌症的亚型并实现半监督学习。DeFusion是一种多组学数据融合算法，利用去噪网络正则化来抑制噪声和数据特定模式，实现对癌症数据集的生物学信息提取和癌症亚型发现。

由此可见，本实施例提供的MOFusion相较于现有的其他三种算法，聚类结果与真实标签的一致性更高，印证了本发明公开的基于多组学数据融合的癌症分型方法的有效性。

实施例2

请参阅图4，本发明还公开一种基于多组学数据融合的癌症分型系统100，其应用上述基于多组学数据融合的癌症分型方法。癌症分型系统100包括：预处理模块101、构建模块102、第一融合模块103、第二融合模块104以及聚类模块105。

预处理模块101用于对患者癌症细胞样本的组学数据进行归一化处理。

构建模块102用于基于高斯核函数构建经过归一化处理的各种组学数据的相似性矩阵。

第一融合模块103用于利用相似网络融合算法对各种组学数据的相似性矩阵进行融合。

第二融合模块104用于将各种组学数据的相似性矩阵与整体相似性网络的融合过程转化为一个约束最小化问题的构建，通过约束最小化问题求解出目标矩阵。

聚类模块105用于利用聚类算法对目标矩阵进行聚类处理，进而将癌症患者划分为不同的亚型或子群体。

实施例3

本发明还公开一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时，实现实施例1基于多组学数据融合的癌症分型方法的步骤。

该计算机可读存储介质可以包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储介质也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card ,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器通常用于存储安装于计算机设备的操作系统和各类应用软件等。此外，存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

当然，对于本领域技术人员而言，本发明不限于上述示范性实施例的细节，而还包括在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现的相同或类似结构。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims

1.一种基于多组学数据融合的癌症分型方法，其特征在于，包括以下步骤：

步骤一、对患者癌症细胞样本的组学数据进行归一化处理；每个样本具有m种组学数据；所述患者癌症细胞样本设有n个，记为{x₁,x₂,…,x_n}，每个样本数据具有m种不同的组学数据，记为，l∈{1,2,…m}；

步骤二、基于高斯核函数构建经过归一化处理的各种组学数据的相似性矩阵；其中，所述高斯核函数中的高斯核计算方式为：将欧氏距离添加到核函数中，采用k最近邻算法即KNN计算出每个样本的邻居信息，并将每个样本的邻居信息添加到核函数中；

其中，第l种组学数据的相似性矩阵W ^l中的矩阵元素表示记为，表示第i个样本的第l种组学数据与第j个样本的第l种组学数据之间的相似性，其计算公式如下：

式中，/>表示第i个样本的第l种组学数据，i∈{1,2,…n}；/>表示第j个样本的第l种组学数据，j∈{1,2,…n}；σ _i表示第i个样本的局部密度；σ _j表示第j个样本的局部密度；/>表示第i个样本的第l种组学数据与第j个样本的第l种组学数据之间的欧氏距离；

步骤三、利用相似网络融合算法对各种组学数据的相似性矩阵进行融合，形成包含有多组学数据的整体相似性网络；所述整体相似性网络通过拉普拉斯矩阵L _G描述拓扑结构；

步骤四、将所述各种组学数据的相似性矩阵与所述整体相似性网络的融合过程转化为一个约束最小化问题的构建，通过所述约束最小化问题求解出融合的目标矩阵S；所述约束最小化问题的表达为：

式中，f(S)为目标函数；α _l为W ^l的权重；||·||_F表示“·”的Frobenius范数；β和γ是控制正则化强度的非负超参数；

步骤五、利用聚类算法对所述目标矩阵S进行聚类处理，进而将癌症患者划分为不同的亚型或子群体。

2.根据权利要求1所述的一种基于多组学数据融合的癌症分型方法，其特征在于，步骤一中，对样本的组学数据进行归一化处理的表达公式如下：

式中，/>表示归一化后的相应特征；/>和/>分别表示/>的经验均值和方差。

3.根据权利要求2所述的一种基于多组学数据融合的癌症分型方法，其特征在于，步骤二中，局部密度σ _i、σ _j的计算公式分别如下：式中，/>表示对/>利用KNN算法得到的/>的k个邻居，记/>为集合/>；其中，/>，/>的取值范围为/>，z的取值范围为集合/>，其中/>；/>表示对/>利用KNN算法得到的/>的k个邻居，记/>为集合/> ；其中，，/>的取值范围为/>，y的取值范围为集合/>，其中/>。

4.根据权利要求1所述的一种基于多组学数据融合的癌症分型方法，其特征在于，步骤三中，所述拉普拉斯矩阵为一个图G的矩阵表示，该图由若干个节点和边构成，其中的节点表示样本，边表示样本组学数据的相似性；L _G计算方式如下：

L _G=D _G －A _G

式中，D _G为度矩阵，对角线元素为每个节点的度数；A _G为邻接矩阵，表示节点之间的连接关系。

5.根据权利要求1所述的一种基于多组学数据融合的癌症分型方法，其特征在于，步骤三中，所述相似网络融合算法包括以下过程：

对每种组学数据的相似性矩阵进行归一化处理；

将归一化后的相似性矩阵组合成一个相似性网络集合；

依次对所述相似性网络集合中的每一个网络进行迭代更新，直至所有网络融合收敛，得到所述整体相似性网络；其中，对每一个网络即对象网络进行更新的方式为：通过集合中的其余任意一个网络的一处节点对相似性信息，更新对象网络中的相应节点对的相似性信息。

6.根据权利要求1所述的一种基于多组学数据融合的癌症分型方法，其特征在于，步骤四中，所述非负超参数的设置方式为：

对超参数进行初步估计，指定超参数范围；

在所述超参数范围内进行穷举搜索，通过在每个超参数上选择一组候选值，对所有可能的组合进行评估，找到在交叉验证或验证集上表现最好的超参数组合。

7.根据权利要求1所述的一种基于多组学数据融合的癌症分型方法，其特征在于，步骤五中，利用K-means聚类算法对所述目标矩阵S进行聚类处理。

8.根据权利要求1所述的一种基于多组学数据融合的癌症分型方法，其特征在于，多种组学数据至少包括：DNA甲基化数据、mRNA表达数据和miRNA表达数据。

9.一种基于多组学数据融合的癌症分型系统，其特征在于，其应用如权利要求1至8中任意一项所述的基于多组学数据融合的癌症分型方法；所述癌症分型系统包括：

预处理模块，其用于对患者癌症细胞样本的组学数据进行归一化处理；

构建模块，其用于基于高斯核函数构建经过归一化处理的各种组学数据的相似性矩阵；

第一融合模块，其用于利用相似网络融合算法对各种组学数据的相似性矩阵进行融合；

第二融合模块，其用于将所述各种组学数据的相似性矩阵与所述整体相似性网络的融合过程转化为一个约束最小化问题的构建，通过所述约束最小化问题求解出目标矩阵；以及

聚类模块，其用于利用聚类算法对所述目标矩阵进行聚类处理，进而将癌症患者划分为不同的亚型或子群体。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时，实现如权利要求1至8中任意一项所述的基于多组学数据融合的癌症分型方法的步骤。