CN117591953A

CN117591953A - 基于多组学数据的癌症分类方法、系统及电子设备

Info

Publication number: CN117591953A
Application number: CN202410078042.0A
Authority: CN
Inventors: 马韵洁; 常静怡; 王佐成; 宋国磊; 吴艳平; 王飞
Original assignee: Data Space Research Institute
Current assignee: Data Space Research Institute
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-02-23

Abstract

本发明涉及医疗数据分析技术领域，公开了基于多组学数据的癌症分类方法、系统及电子设备。该方法首先获取不同样本的多种组学数据；构建每种组学数据的样本加权相似度矩阵；根据各样本的特征向量和每种组学数据的样本加权相似度矩阵构建图数据；再将图数据输入至图注意力网络中，融合邻居节点信息，更新节点的向量表示；随后将图注意力网络最后一层的隐藏层输出送入深度神经网络，将特征维度投影到分类数目上，从而构建分类器以得到每种组学数据的基础预测结果；最后将多种组学数据的基础预测结果视为不同视图下的预测，利用注意力机制计算得到每个分类器预测结果的权重，加权融合得到最终预测结果。本发明提升了癌症类型识别的准确性。

Description

基于多组学数据的癌症分类方法、系统及电子设备

技术领域

本发明涉及医疗数据分析技术领域，具体是基于多组学数据的癌症分类方法，以及应用这种方法的癌症分类系统以及电子设备。

背景技术

随着组学技术的快速发展，可以获取临床患者更为详细的生物医学数据。虽然每种组学技术只能捕捉到生物复杂性的一部分，但整合多种类型的组学数据可以更全面的揭示潜在生物过程，综合利用多组学数据建模能够更全面的探索人类疾病规律，提高患者临床结果预测的准确性。

如何有效地利用多组学数据中的相互作用和互补信息是一个挑战。对于多组学数据建模，若直接将特征向量拼接，不仅会忽略不同类别组学数据之间的内在关联，还会导致特征维度升高，导致维度灾难。现有方法对多组学数据进行融合，一般是在输入空间或低维特征空间进行融合。利用无监督方式获取多组学数据融合后的低维表示，用于下游任务的聚类或分类任务。这种方式没有充分利用标签的信息。同时，若只用样本每种组学数据的表达谱数据进行建模，会忽略了样本内部关联，从而限制了癌症类型识别的准确性。

发明内容

为了避免和克服现有技术中存在的技术问题，本发明提供了基于多组学数据的癌症分类方法、系统及电子设备。不仅利用了样本的特征还利用了样本之间的内在联系，通过图神经网络对样本内在信息进行融合，提升了癌症类型识别的准确性。通过利用注意力机制，自适应的计算每个分类器在最终结果预测中的权重，进一步提升了癌症分类效果。

为实现上述目的，本发明提供如下技术方案：

本发明公开基于多组学数据的癌症分类方法，包括以下步骤S1~S6。

S1.获取不同患者癌细胞即样本的多种组学数据。

S2.构建每种组学数据的样本加权相似度矩阵S’，包括以下过程：

将每个样本作为节点，将各样本的同一种组学数据作为各样本的特征向量，根据特征向量计算样本间的相似度，从而得到S’。

S3.根据各样本的每种组学数据与对应的样本加权相似度矩阵，构建用于训练的图数据；/>表示节点集合即样本集合；/>表示由样本加权相似度矩阵S’得到的邻接矩阵；/>表示特征向量。

S4.将每种组学的图数据输入至对应的图注意力网络中，融合邻居节点信息，更新节点的向量表示。

S5.将图注意力网络最后一层的隐藏层输出送入深度神经网络，将特征维度投影到分类数目上，从而构建分类器以得到每种组学数据的基础预测结果。

S6.将多种组学数据的基础预测结果视为不同视图下的预测，利用注意力机制计算得到每个分类器预测结果的权重，加权融合得到最终预测结果。

作为上述方案的进一步改进，步骤S4具体包括以下过程：

S41.设目标节点v _i，其邻居节点v _j到v _i的注意力权重e _ij为：

式中，α用于计算目标节点与邻居节点的相似度；h _i表示目标节点v _i的特征向量；h _j表示目标节点v _i的邻居节点v _j的特征向量；W表示图注意力网络的参数。

S42.利用以下公式计算简化注意力权重：

式中，α ^（l）是第l层可训练的权重向量；l表示图神经网络的第l层；leakRelu表示激活函数；表示图神经网络的第l-1层邻居节点v _j的特征向量；/>表示第l层目标节点v _i到邻居节点v _j的注意力权重。

S43.对所述简化注意力权重进行归一化处理，得到注意力系数：

式中，表示目标节点v _i的邻居节点集合；v _r表示邻居节点集合/>中的任意一个邻居节点；/>表示第l层目标节点v _i到邻居节点v _r的注意力权重；/>表示图注意力网络第l层目标节点v _i到邻居节点v _j之间的注意力系数。

S44.根据注意力系数对所有邻居节点进行聚合，得到目标节点的特征向量：

式中，表示图注意力网络第l层目标节点v _i的特征向量；/>表示图注意力网络第l层目标节点v _i与邻居节点v _r之间的注意力系数；W ^(l)为第l层的可训练权重参数；/>表示图神经网络的第l-1层邻居节点v _r的特征向量RELU表示激活函数。

作为上述方案的进一步改进，步骤S6中，组学数据共q种，q种组学数据的基础预测结果为；利用注意力机制计算得到每个分类器预测结果的权重/>：

接着，得到最终预测结果z _i：

式中，T=1,…,q。

作为上述方案的进一步改进，基础预测结果和最终预测结果的总损失L为：

式中，L _{BasicClassifier}表示第T种组学数据的基础预测结果的损失；L _{FinalClassifier}表示最终预测结果的损失；γ为用于调整基础预测结果损失的权重；基础预测结果与最终预测结果的损失均使用交叉熵损失，即：

式中，N’表示样本数量；K’表示癌症分类标签数目；y_ic表示第i个节点的真实标签，是示性变量，即若第i个节点的类别是c，则y_ic=1，否则为0；表示第T个分类器的第i个节点类别是c的预测概率。

作为上述方案的进一步改进，步骤S1中，对原始获取的组学数据进行预处理，具体过程包括：

将获取的多组学数据进行质量控制，去除噪声与实验批次效应；

利用统计方法观察数据分布，去除异常值并处理缺失值；

按照组学数据类型进行特征转化和标准化，最终整理、规范成多个组学矩阵。

作为上述方案的进一步改进，对原始获取的组学数据进行预处理的具体过程还包括：

先利用统计方法过滤组学数据的冗余特征；然后进行差异分析以验证剩余特征在不同样本间的差异性，根据假设检验p值与差异倍数选取特征；接着通过通路分析和富集分析以了解组学数据的生物学功能。

作为上述方案的进一步改进，在对获取的组学数据进行预处理之后，还进行以下特征筛选工作：

对预处理后的组学数据，先参考相关文献、生物信息库以进行目标疾病检索，整理并记录已经过实验验证的生物标志物，该类已验证的生物标记物在组学数据的特征中保留；

利用机器学习算法对每种组学数据进行特征选择和降维，以减少维度并提取最相关的特征。

作为上述方案的进一步改进，步骤S2中，先根据特征向量计算样本间的相似度，得到初步的样本加权相似度矩阵S，随后利用KNN算法为每个节点保留K个边，其余边权重设置为0，从而得到所述样本加权相似度矩阵S’。

本发明还公开基于多组学数据的癌症分类系统，应用上述基于多组学数据的癌症分类方法；所述癌症分类系统包括：数据获取模块、数据特征筛选模块、图数据构建模块、基础结果预测模块以及基础结果融合模块。

数据获取模块用于获取不同患者癌细胞即样本的多种组学数据，并对组学数据进行预处理。

数据特征筛选模块用于对每种组学数据进行特征选择和降维，以减少组学数据的维度并提取最相关的特征。

图数据构建模块用于通过计算样本间的相似度以构建样本加权相似度网络，从而构建用于训练的图数据。

基础结果预测模块，其用于利用图神经网络对图数据特征进行抽取、融合，得到每种组学数据的基础预测结果。

基础结果融合模块用于利用注意力机制，对多种组学数据的基础预测结果进行融合，计算得到最终预测结果。

本发明还公开一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述基于多组学数据的癌症分类方法的步骤。

与现有技术相比，本发明的有益效果是：

1、本发明公开的基于多组学数据的癌症分类方法，不仅利用了样本的特征还利用了样本之间的内在联系，通过图神经网络对样本内在信息进行融合，提升了癌症类型识别的准确性。通过综合样本自身的特征信息与样本间的关联，为不同组学数据构建了分类器，并在标签空间进行多组学数据的融合，从而提供了更全面和准确的癌症分类。另外，相较于在标签空间直接拼接或对基础预测结果取平均的方法，本发明利用注意力机制，自适应的计算每个分类器在最终结果预测中的权重，进一步提升了癌症分类效果。

2、本发明公开的基于多组学数据的癌症分类方法，利用了来自不同组学数据源，从而提供了更全面和深入的癌症特征描述。这种综合利用有助于更好地理解癌症的生物学特征，为个体化医学提供了有力支持。通过本发明的癌症分类方法，能够根据每位患者多组学数据进行癌症临床分类。对于精确医学和治疗决策具有巨大潜力。

3、本发明公开的基于多组学数据的癌症分类系统以及电子设备，可应用上述基于多组学数据的癌症分类方法，能够产生与该方法相同的有益效果，在此不再赘述。

附图说明

图1为本发明实施例1中基于多组学数据的癌症分类方法的流程图。

图2为本发明实施例1中基于多组学数据的癌症分类方法涉及的算法前向传播过程示意图。

图3为本发明实施例2中基于多组学数据的癌症分类系统的框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1和图2，本实施例提供一种基于多组学数据的癌症分类方法，通过构建加权样本相似度矩阵，利用图深度神经网络抽取特征并进行分类任务，既利用了样本的特征数据，也利用了表示样本关联的网络拓扑信息。并采用集成的思想，在标签空间进行多组学信息的融合，学习标签空间中更高层次的组学内和组学间相关性。

具体地，癌症分类方法包括以下步骤S1~S6。

S1.获取不同患者癌细胞即样本的多种组学数据。

本实施例中，可通过组学数据获取患者多组学数据，如DNA甲基化数据、mRNA表达量、miRNA表达量、CNV（Copy Number Variant，拷贝数变异）等。在实际应用中，可以从TCGA（癌症基因组图谱）等专业生信数据库直接下载数据，也可以自行收集患者样本数据，利用组学技术检测得到。

获取患者多组学数据之后，还对获取的组学数据进行预处理，具体过程为：将获取的多组学数据进行质量控制，去除噪声与实验批次效应；利用统计方法观察数据分布，去除异常值并处理缺失值；按照组学数据类型进行特征转化和标准化，最终整理、规范成多个组学矩阵。

另外，组学数据特征维度很高，存在噪声与冗余特征，因此需要利用统计方法，过滤冗余特征；具体地，可将零均值或低方差的低信息量特征剔除，针对不同类型的组学数据，设定不同的方差阈值进行过滤。进一步的，为了验证剩余特征在不同样本间的差异性，进行差异分析，根据假设检验p值与差异倍数选取特征。最后通过通路分析与富集分析，了解数据的生物学功能，避免数据错误引起的假阳问题。特别的，由于miRNA的特征量较少，可用的信息有限，因此对于miRNA特征只过滤零方差的特征。

需要说明的是，上述p值是差异分析中常用的统计指标，它可以评估观察到的差异是否具有统计学意义。p值是指在零假设成立的情况下，观察到的数据或更极端情况出现的概率。它反映了差异的显著性程度，越小表示差异越显著。p值的计算通常基于统计检验方法，如t检验、方差分析或非参数检验等。这些方法根据样本数据的分布和假设条件，计算出相应的p值。

本实施例中，对预处理后的组学数据，还可进行特征筛查工作：首先参考相关文献、生物信息库进行目标疾病检索，整理、记录已经过实验验证的生物标志物，这类已验证的生物标记物在特征中直接保留。进一步的，利用机器学习算法对每种组学数据进行特征选择和降维，以减少维度并提取最相关的特征，其中，可以使用PCA、t-SNE、随机森林等特征选择方法。

将每个样本作为节点，将各样本的同一种组学数据作为各样本的特征向量，R为实数集，N是样本个数，D是特征维度。

根据特征向量计算样本间的相似度，得到初步的样本加权相似度矩阵S。随后利用KNN算法为每个节点保留K个边，其余边权重设置为0，从而得到最终的样本加权相似度矩阵S’。

S3.根据各样本的每种组学数据与对应的样本加权相似度矩阵，构建用于训练的图数据；/>表示节点集合即样本集合，每个节点表示一个样本；/>表示邻接矩阵，由样本加权相似度矩阵S’得到。

S4.将每种组学的图数据输入至对应的图注意力网络中，融合邻居节点信息，更新节点的向量表示。具体的计算过程如下，即S41~S44。

S42.利用以下公式计算简化注意力权重：

式中，α ^（l）是第l层可训练的权重向量；l表示图神经网络的第l层；leakRelu表示激活函数，属于RELU激活函数的一种，用于实现神经网络的非线性变换；表示图神经网络的第l-1层邻居节点v _j的特征向量；/>表示第l层目标节点v _i到邻居节点v _j的注意力权重。

需要说明的是，这里的下标r和与j都是指目标节点v _i的邻居节点，区分点在于，某个邻居节点（v _j）的注意力权重是需要除以所有邻居节点（v _r泛指邻居节点集合中的任一节点，这个下标表示的是求和的范围，即对目标节点所有邻居节点的注意力权重求和）。

传统的图学习方法中运用的图卷积神经网络（Graph Convolution Network，GCN）算法，不能够处理动态图问题，无法很好的处理训练阶段与测试阶段图数据不同的问题，同时在聚合过程中不易实现将不同的权重分配给不同的邻居节点。本发明采取图注意力网络（Graph Attention Network，GAT）抽取图特征，结合深度神经网络（多层全连接网络或者可以进行任务分类的网络）得到每种组学数据各自的基础预测结果。GAT在聚合过程中可以自适应的学习到给定目标节点邻居节点的权重。各种组学数据构建加权相似度网络、训练得到基础预测结果的步骤一致。

其中，组学数据共q种，q种组学数据的基础预测结果为；利用注意力机制计算得到每个分类器预测结果的权重/>：

接着，得到最终预测结果z _i：

。

式中，T=1,…,q，是组学数据也即分类器的序号。

本实施例中，以miRNA、DNA甲基化、CNV这三种组学数据为例，p ^M,p ^D,…p ^CNV（分别是由miRNA、DNA甲基化、CNV拷贝数据组学数据训练得到的预测结果），利用注意力机制计算得到每个分类器预测结果的权重为：

另外关于损失计算，基础预测结果和最终预测结果的总损失L为：

本实施例还对本发明提出的多组学癌症分类方法进行对比验证。以TCGA生物数据库中乳腺癌（breast cancer susceptibility gene, BRCA）患者数据为例，共5种癌症子型，875例样本，三种组学特征，分别是miRNA表达量（503维），CNV拷贝数（24777维）、DNA甲基化数据（20105维）。

对比模型包括：

①不参考相关生物信息，不做特征筛选，利用t分布随机邻近插入（t-SNE）算法对数据进行降维，接着利用支持向量机进行分类。

②利用t-SNE算法降维，将降维后的特征向量作为本发明涉及图数据中节点的特征向量。

③结合生物信息，保留部分已得到验证的生物标志物，并利用机器学习算法进行特征筛选。利用本发明所提出的方法建模（KNN设置K=30）。

注：t-SNE算法是一种非线性的降维技术，降维后获取低维度的特征表示，其各分量不具备生物学可解释性。

评估指标使用准确率（Accuracy）与加权F1（weight-F1），分类基础效果如表1所示：

表1：乳腺癌分类实验结果表

由表1可以看出，传统无监督降维既会模糊原始的输入特征，也会在降维中丢失部分特征的信息。将t-SNE降维后的特征输入本方法，通过捕捉样本内部的关联，模型效果相较于支持向量机模型有一定的提升。本发明采取方法获得了最优效果，除此之外，本方法在特征筛选阶段参考了生物医学相关文献，筛选了特征子集，具备可解释性，为进一步的生物标志物发现奠定了基础。

综上所述，本实施例提供的基于多组学数据的癌症分类方法，具有如下优点：

1.多组学数据综合利用

本方法综合利用了来自不同组学数据源（如基因表达、DNA甲基化、蛋白质表达等）的信息，从而提供了更全面和深入的癌症特征描述。这种多模态性质使得方法在理解癌症生物学和病理生理学方面具有独特的优势。该方法综合了样本自身的特征信息与样本间的关联，为不同组学数据构建了分类器，并在标签空间进行多组学数据的融合，从而提供了更全面和准确的癌症分类。

此外，这种综合利用有助于更好地理解癌症的生物学特征，为个体化医学提供了有力支持。

2.高准确性

本发明相较于传统癌症分类方法，不仅利用了样本的特征还利用了样本之间的内在联系，通过图神经网络对样本内在信息进行融合，提升了癌症类型识别的准确性。

一方面，相较于在特征层面融合，考虑到不同组学数据数据类型不同，如表达量数据为大于等于0的浮点数，CNV数据为频次计数。在特征层面融合需要额外的预处理与统一表示学习，在此过程中会丢失原始组学数据的部分信息。本发明通过在标签空间，对多组学信息进行融合，相较于无监督多组学表示学习，既利用了标签信息，也在更高层次完成了信息的融合与最终结果的预测。

另一方面，相较于在标签空间直接拼接或对基础预测结果取平均的方法，本发明利用注意力机制，自适应的计算每个分类器在最终结果预测中的权重，进一步提升了癌症分类效果。

实施例2

请参阅图2，本发明还公开基于多组学数据的癌症分类系统100，应用上述基于多组学数据的癌症分类方法；所述癌症分类系统100包括：数据获取模块101、数据特征筛选模块102、图数据构建模块103、基础结果预测模块104以及基础结果融合模块105。

数据获取模块101用于获取不同患者癌细胞即样本的多种组学数据，并对组学数据进行预处理。

数据特征筛选模块102用于对每种组学数据进行特征选择和降维，以减少组学数据的维度并提取最相关的特征。

图数据构建模块103用于通过计算样本间的相似度以构建样本加权相似度网络，从而构建用于训练的图数据。

基础结果预测模块104，其用于利用图神经网络对图数据特征进行抽取、融合，得到每种组学数据的基础预测结果。

基础结果融合模块105用于利用注意力机制，对多种组学数据的基础预测结果进行融合，计算得到最终预测结果。

实施例3

本实施例提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序。处理器执行所述计算机程序时实现实施例1的基于多组学数据的癌症分类方法的步骤。

实施例1的癌症分类方法在应用时，可以软件的形式进行应用，如设计成独立运行的程序，安装在电子设备上，电子设备可以是电脑、智能手机、控制系统以及其他物联网设备等。当然，实施例1的癌症分类方法也可以设计成嵌入式运行的程序，安装在电子设备上，如安装在单片机上。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于多组学数据的癌症分类方法，其特征在于，包括以下步骤：

S1.获取不同患者癌细胞即样本的多种组学数据；

将每个样本作为节点，将各样本的同一种组学数据作为各样本的特征向量，根据特征向量计算样本间的相似度，从而得到S’；

S3.根据各样本的每种组学数据与对应的样本加权相似度矩阵，构建用于训练的图数据；/>表示节点集合即样本集合；/>表示由样本加权相似度矩阵S’得到的邻接矩阵；/>表示特征向量；

S4.将每种组学的图数据输入至对应的图注意力网络中，融合邻居节点信息，更新节点的向量表示；

S5.将图注意力网络最后一层的隐藏层输出送入深度神经网络，将特征维度投影到分类数目上，从而构建分类器以得到每种组学数据的基础预测结果；

2.根据权利要求1所述的基于多组学数据的癌症分类方法，其特征在于，步骤S4具体包括以下过程：

式中，α用于计算目标节点与邻居节点的相似度；h _i表示目标节点v _i的特征向量；h _j表示目标节点v _i的邻居节点v _j的特征向量；W表示图注意力网络的参数；

S42.利用以下公式计算简化注意力权重：

式中，α ^（l）是第l层可训练的权重向量；l表示图神经网络的第l层；leakRelu表示激活函数；/>表示图神经网络的第l-1层邻居节点v _j的特征向量；/>表示第l层目标节点v _i到邻居节点v _j的注意力权重；

式中，/>表示目标节点v _i的邻居节点集合；v _r表示邻居节点集合/>中的任意一个邻居节点；/>表示第l层目标节点v _i到邻居节点v _r的注意力权重；/>表示图注意力网络第l层目标节点v _i到邻居节点v _j之间的注意力系数；

式中，/>表示图注意力网络第l层目标节点v _i的特征向量；/>表示图注意力网络第l层目标节点v _i与邻居节点v _r之间的注意力系数；W ^(l)为第l层的可训练权重参数；/>表示图神经网络的第l-1层邻居节点v _r的特征向量RELU表示激活函数。

3.根据权利要求2所述的基于多组学数据的癌症分类方法，其特征在于，步骤S6中，组学数据共q种，q种组学数据的基础预测结果为；利用注意力机制计算得到每个分类器预测结果的权重/>：

接着，得到最终预测结果z _i：

式中，T=1,…,q。

4.根据权利要求3所述的基于多组学数据的癌症分类方法，其特征在于，基础预测结果和最终预测结果的总损失L为：

式中，N’表示样本数量；K’表示癌症分类标签数目；y_ic表示第i个节点的真实标签，是示性变量，即若第i个节点的类别是c，则y_ic=1，否则为0；/>表示第T个分类器的第i个节点类别是c的预测概率。

5.根据权利要求1所述的基于多组学数据的癌症分类方法，其特征在于，步骤S1中，对原始获取的组学数据进行预处理，具体过程包括：

利用统计方法观察数据分布，去除异常值并处理缺失值；

6.根据权利要求5所述的基于多组学数据的癌症分类方法，其特征在于，对原始获取的组学数据进行预处理的具体过程还包括：

7.根据权利要求6所述的基于多组学数据的癌症分类方法，其特征在于，在对获取的组学数据进行预处理之后，还进行以下特征筛选工作：

8.根据权利要求1所述的基于多组学数据的癌症分类方法，其特征在于，步骤S2中，先根据特征向量计算样本间的相似度，得到初步的样本加权相似度矩阵S，随后利用KNN算法为每个节点保留K个边，其余边权重设置为0，从而得到所述样本加权相似度矩阵S’ 。

9.基于多组学数据的癌症分类系统，其特征在于，应用如权利要求1至8中任一项所述的基于多组学数据的癌症分类方法；所述癌症分类系统包括：

数据获取模块，其用于获取不同患者癌细胞即样本的多种组学数据，并对组学数据进行预处理；

数据特征筛选模块，其用于对每种组学数据进行特征选择和降维，以减少组学数据的维度并提取最相关的特征；

图数据构建模块，其用于通过计算样本间的相似度以构建样本加权相似度网络，从而构建用于训练的图数据；

基础结果预测模块，其用于利用图神经网络对图数据特征进行抽取、融合，得到每种组学数据的基础预测结果；以及

基础结果融合模块，其用于利用注意力机制，对多种组学数据的基础预测结果进行融合，计算得到最终预测结果。

10.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至8中任意一项所述的基于多组学数据的癌症分类方法的步骤。