CN118116600A

CN118116600A - 一种基于多组学和临床检验数据的结直肠癌预后方法

Info

Publication number: CN118116600A
Application number: CN202410532738.6A
Authority: CN
Inventors: 吴艳平; 王飞; 马韵洁; 王佐成
Original assignee: Data Space Research Institute
Current assignee: Data Space Research Institute
Priority date: 2024-04-30
Filing date: 2024-04-30
Publication date: 2024-05-31

Abstract

本发明公开了一种基于多组学和临床检验数据的结直肠癌预后方法，包括S1、从不同数据源、数据库或实验收集来自不同结直肠癌患者组学数据和患者在手术切除结直肠癌后两年后的生存状况，并采集与患者相关的临床数据，并对组学数据和临床数据进行预处理操作；S2、通过预处理后的组学数据和临床数据以及生存状况构建患者组学相似性网络；S3、编码患者的节点拓扑结构信息和患者临床数据信息；S4、将患者的节点拓扑结构信息和患者临床数据信息添加到图注意力网络的编码中；S5、通过预测模型预测患者在手术切除结直肠癌后两年后的生存状况；S6、使用二元交叉熵损失函数对预测模型进行优化。本发明具备更好的动态适应性，适应癌症发展中的动态变化。

Description

一种基于多组学和临床检验数据的结直肠癌预后方法

技术领域

本发明涉及医疗数据分析技术领域，尤其涉及一种基于多组学和临床检验数据的结直肠癌预后方法。

背景技术

近年来，生物信息学和计算机科学的迅速发展为癌症研究提供了前所未有的机会和挑战。癌症作为一种复杂的疾病，其发病机制涉及多个层面的生物学过程。为了更全面地理解癌症的分子机制和提高预测模型的准确性，研究人员积极探索如何整合多组学数据。结直肠癌作为常见的恶性肿瘤之一，其研究对于癌症生物学的深入理解和治疗策略的制定具有重要意义。

现有技术存在以下的几点问题：

数据孤立：传统预后模型通常基于单一类型的数据，如临床检查数据，导致数据之间的信息交互较为有限。这种数据孤立性使得模型无法全面考虑家结直肠癌患者的组学信息，限制了对患者病理状态的深入理解。癌症的发展受到多种数据类型的影响，如多组学，蛋白质组学等。仅使用少量数据类型可能无法充分捕捉到癌症发病的复杂性，导致预测结果不够准确。

特征表示不足：部分模型对患者的特征表示学习较为有限，未能深入挖掘患者数据中的潜在信息。这可能导致模型无法捕捉结直肠癌患者的疾病状态变化，影响了预后分析的灵敏度。

数据整合与分析复杂性：多组学数据融合在生物信息学和医学研究中变得越来越普遍，但面临的主要挑战之一是如何有效地整合来自基因表达、拷贝数变异和DNA甲基化等多源数据，并在这些复杂数据集中提取关键信息。

癌症异质性：癌症作为一种高度异质性的疾病，患者之间存在显著的分子和表型差异。如何克服这种异质性，以建立更为准确的生存期预测模型，对于个体化治疗和研究更精细的癌症亚型具有挑战性。

患者各组学相似性之间的关系：传统的模型往往忽略了患者之间的组学相似性，而这在疾病研究中可能是一个关键的因素。有效地考虑和利用患者在基因表达、拷贝数变异和DNA甲基化等多组学数据上的相互作用，以提高模型的全面性和预测性能，是一个需要解决的难题。

因此，如何提供一种基于多组学和临床检验数据的结直肠癌预后方法是本领域技术人员亟需解决的问题。

发明内容

本发明的一个目的在于提出一种基于多组学和临床检验数据的结直肠癌预后方法，本发明考虑了拓扑结构信息使得模型能够以更全面的视角进行癌症预后分析，同时具备更好的动态适应性，以更好地适应癌症发展中的动态变化。

根据本发明实施例的一种基于多组学和临床检验数据的结直肠癌预后方法，包括如下步骤：

S1、从不同数据源、数据库或实验收集来自不同结直肠癌患者组学数据和患者在手术切除结直肠癌后两年后的生存状况，并采集与患者相关的临床数据，并对组学数据和临床数据进行预处理操作；

S2、通过预处理后的组学数据和临床数据以及生存状况构建患者组学相似性网络；

S3、编码患者的节点拓扑结构信息和患者临床数据信息；

S4、将患者的节点拓扑结构信息和患者临床数据信息添加到图注意力网络的编码中；

S5、通过预测模型预测患者在手术切除结直肠癌后两年后的生存状况；

S6、使用二元交叉熵损失函数对预测模型进行优化。

可选的，所述组学数据包括lncRNA、miRNA、DNA拷贝数变异和DNA甲基化数据，所述临床数据包括年龄、性别、癌症分期、体重指数、肿瘤位置、肿瘤大小、收缩压、舒张压、肿瘤标志物癌胚抗原、CA 19-9、炎症指标C-反应蛋白、白细胞计数和沉积率。

可选的，所述S1具体包括：

S11、在采集的数据集中，若某个组学数据的缺失比例大于20%，将这个组学数据删除；

S12、对于组学数据和临床数据使用Z-score标准化；

S13、不同类型的组学数据特征，通过节点特征转换将不同类型节点的原始特征投影到统一的潜空间中。

可选的，所述S2具体包括：

S21、定义每种组学数据的相似度矩阵：

；

其中, 表示欧几里得距离，是超参数，为：

；

其中，表示患者在第种组学数据中的前m个邻居，m个邻居是通过计算与第种组学的所有其余样本欧几里得距离，进行排序，选择前m个作为邻居；

S22、引入权重整合四种组学数据的相似度，表示第种组学数据的重要性，最终的整合相似度矩阵定义为:

；

S23、构建具有节点特征的图：

；

其中，表示顶点集，E表示边集，定义和分别为顶点数和边数；

S24、根据患者在手术切除结直肠癌后两年后的生存状况，死亡表示0，生存表示1，构建患者之间的关联图，将每个患者表示为图中的节点，如果两个患者都在两年后都生存创建一条边，对于每个患者，通过最终的整合相似度矩阵选择前K个最相似的患者作为邻居创建一条边。

可选的，所述图中节点的拓扑结构信息的建立包括利用随机游走算法对每个节点i生成指定长度为D的节点序列，使用双向长短时记忆网络学习每条节点i的节点序列表示，序列表示进行融合，得到节点的拓扑结构表示。

可选的，所述图中节点的拓扑结构信息的建立具体包括：

从图G上的节点随机游走，在随机游走的第步访问的节点，随机游走的下一个节点按照如下概率从的邻居节点中选出：

；

其中，表示节点的度，表示的邻居节点集合，代表随机游走时，选取了节点后下一个选取的节点；

将随机游走记录的节点依次连接起来，形成一个长度为D的随机游走序列，随机游走序列呈现从起始节点到目标节点的节点路径，使用随机游走算法对每个节点生成p条随机序列，用seq=表示p条随机序列；

使用长短时记忆网络学习p条随机序列的表示，令节点i的第y条序列表示为的节点序列，其中，是起始节点，是随机序列中的节点，将节点特征通过短时记忆网络逐步输入，得到第y条序列的最终表示；

将得到的p条随机序列表示进行加权融合，获得节点拓扑结构表示：

；

其中，，的取值范围是1到p，为：

。

可选的，所述患者临床数据的特征编码包括：

将患者的原始临床数据特征向量记为，使用变换矩阵将特征向量转换为64维向量:

；

将节点类型特征与节点结构特征进行加权融合，所述节点类型特征为原始临床数据特征，所述节点结构特征为节点的拓扑结构表示，最终得到患者临床数据的特征表示为：

；

其中，是预设的超参数，表示权重。

可选的，所述节点的拓扑结构信息和患者临床数据信息添加到图注意力网络的编码中，形成改进的图注意力机制：

；

采用多头注意力机制，通过M个参数矩阵分别计算注意力系数，将计算得到的结果合并：

；

其中，表示在GAT的第层中节点的编码表示，初始的为患者多组学特征，表示节点的邻居节点集合，表示节点与其邻居节点之间的注意力权重，表示权重参数，用于计算注意力得分，表示图神经网络在第 (l) 层的权重矩阵，表示自然指数函数，表示Leaky ReLU激活函数，||表示向量的拼接操作。

可选的，所述S5具体包括：

用={0,1}表示患者生存情况，采用两层MLP预测器预测患者两年后生存状况，计算如下：

；

其中，是ReLU激活函数，是Sigmoid激活函数，是可训练的权重矩阵集合，是偏置向量集合；

值越高，生存的概率越低，说明需要及时接入治疗，反之生存的概率越高。

可选的，所述预测模型的优化具体包括：

采用二元交叉熵损失函数定义如下：

；

其中，的取值范围是1到n，n表示预测模型训练时患者的个数，表示第q个患者样本的实际标签取值为0或1，表示预测模型预测第q个样本为正类的概率，其值介于0到 1之间，和分别表示预测概率和其补概率的对数值，表示对所有样本计算损失的总和；

使用Adam优化器最小化二元交叉熵损失函数，端到端训练整个预测模型。

本发明的有益效果是：

（1）本发明通过充分融合患者的组学数据和临床数据，有效地解决了数据孤立性问题。通过整合来自基因表达、拷贝数变异和DNA甲基化等多源数据，确保了模型对癌症发展的多方面影响有更全面的考虑。

（2）本发明引入了改进的地图注意力机制，使得模型能够更深入地挖掘患者数据中的潜在信息。这有助于提高对结直肠癌患者疾病状态变化的敏感性，解决了特征表示不足的问题。

（3）本发明通过有效整合多组学数据，考虑了患者之间的分子和表型差异，从而更好地应对结直肠癌作为高度异质性疾病的挑战。这有助于建立更为准确的生存期预测模型，为个体化治疗和精细研究癌症亚型提供支持。

（4）本发明通过改进的地图注意力机制，有效地考虑和利用患者在基因表达、拷贝数变异和DNA甲基化等多组学数据上的相互作用。这有助于提高模型对患者之间组学相似性的敏感性，增强了模型的全面性和预测性能。

（5）本发明改进的地图注意力机制，专注于有效融合患者节点的类型信息和拓扑结构信息。这一机制能够更精准地捕捉患者之间的错综复杂关系，使得模型能够更全面地理解癌症发展中的相互作用。

（6）本发明考虑了拓扑结构信息使得模型能够以更全面的视角进行癌症预后分析，同时具备更好的动态适应性，以更好地适应癌症发展中的动态变化。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提出的一种基于多组学和临床检验数据的结直肠癌预后方法的流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

参考图1，一种基于多组学和临床检验数据的结直肠癌预后方法，包括如下步骤：

S3、编码患者的节点拓扑结构信息和患者临床数据信息；

S6、使用二元交叉熵损失函数对预测模型进行优化。

本实施方式中，组学数据包括lncRNA、miRNA、DNA拷贝数变异和DNA甲基化数据，临床数据包括年龄、性别、癌症分期、体重指数、肿瘤位置、肿瘤大小、收缩压、舒张压、肿瘤标志物癌胚抗原、CA 19-9、炎症指标C-反应蛋白、白细胞计数和沉积率，以更全面地了解患者的生理状态和癌症特征。

本实施方式中，S1具体包括：

S12、对于组学数据和临床数据使用Z-score标准化；

在这里，我们将类型,其中分别表示lncRNA,miRNA、CNV（DNA拷贝数变异）和DNA（甲基化数据）。对于给定类型的数据组学数据，我们应用特定于数据类型的线性变换矩阵，获得该数据的降维后的特征向量，定义如下：

；

其中，线性变换矩阵是可学习的参数，表示原始特征向量,其中对于每种组学数据的不同，表示对于类型c的组学线性变换矩阵，利用将这些组学数据降维到64维。将每种组学数据都对应的特征矩阵记为 , 其中是患者数量, 分别表示 IncRNA、 miRNA、CNV 和 DNA甲基化数据。

本实施方式中，S2具体包括：

S21、定义每种组学数据的相似度矩阵：

；

其中, 表示欧几里得距离，是超参数，为：

；

这个整合方法考虑每种组学数据的相似度, 并通过调整权重来平衡它们之间的影响。

S23、构建具有节点特征的图：

；

本实施方式中，图中节点的拓扑结构信息的建立包括利用随机游走算法对每个节点i生成指定长度为D的节点序列，使用双向长短时记忆网络学习每条节点i的节点序列表示，序列表示进行融合，得到节点的拓扑结构表示。

本实施方式中，图中节点的拓扑结构信息的建立具体包括：

；

其中，，的取值范围是1到p，为：

。

本实施方式中，患者临床数据的特征编码包括：

；

其中，是预设的超参数，表示权重。

本实施方式中，节点的拓扑结构信息和患者临床数据信息添加到图注意力网络的编码中，形成改进的图注意力机制：

；

我们利用5层GAT训练数据，将最后一层编码过后的患者组学特征记为。

本实施方式中，S5具体包括：

患者在手术切除结直肠癌后两年后的生存状况（死亡：0，生存：1），用={0,1} 表示患者生存情况，然后采用一个两层MLP预测器来预测患者两年后生存状况。具体而言，计算如下：

；

本实施方式中，预测模型的优化具体包括：

采用二元交叉熵损失函数定义如下：

；

其中，的取值范围是1到n，n表示预测模型训练时患者的个数，表示第q个患者样本的实际标签取值为0或1，表示预测模型预测第q个样本为正类的概率，其值介于0 到1之间，和分别表示预测概率和其补概率的对数值，表示对所有样本计算损失的总和；

实施例1为预测模型实验效果：

癌症生存期预测模型的性能评估主要依赖于常见的分类模型指标，包括准确率（Accuracy）、精确度（Precision）、召回率（Recall）、AUC值和ROC曲线。这些指标通过对测试数据集进行预测，计算模型的真正例、假正例、假反例和真反例，从而量化模型对新样本的分类能力。其中，准确率反映了所有正确分类样本在总样本中的比例，而精确度和召回率分别关注了模型对正例的正确预测和正确分类的正例比例。

Accuracy：表示所有正确分类样本在总样本中的比例：

；

Precision: 表示模型预测为正样本的所有样本有多少比例是真正的正样本：

；

Recall: 表示模型分类正确的所有样本中有多少比例是分类正确的正样本：

；

结直肠癌预测任务中，我们比较了四种已有模型KNN(K最近邻)、SVM(支持向量机)、DNN(深度神经网络)、LR(逻辑回归)）与我们提出的COADGAT预测模型的性能。结果表明，COADGAT预测模型在准确率、精确度、召回率以及AUC等指标上均表现出色，相较于传统模型如K最近邻、支持向量机、深度神经网络和逻辑回归，更有效地预测了结直肠癌患者的生存状况。这凸显了COADGAT在结直肠癌患者生存预测中的有效性。这些发现为在结直肠癌中选择适当的预测模型提供了有力支持，并对患者生存状况进行更全面的理解。

我们通过TCGA数据库积极收集了628名结直肠癌患者的详细数据，这包括lncRNA、miRNA、DNA拷贝数变异、DNA甲基化和临床特征等多方面信息。TCGA作为一个全球性的肿瘤基因组学计划，提供了大规模的癌症患者数据，为我们的研究提供了宝贵的资源，以深入了解结直肠癌的分子特征和临床表现。我们将总数据集随机划分为训练集和测试集, 划分比例大致为 8: 2, 具体数据划分见表1。本文中为了保证研究方法的公平性和鲁棒性, 我们对每次数据划分都按照 5折交叉验证分别进行 5 次实验, 最后取平均得到该方法在此次数据划分下的总体评价指标得分，如下表1和表2所示：

表1 数据分布情况

表2 五种不同模型的多种性能评价指标对比表

/>

本发明通过充分融合患者的组学数据和临床数据，有效地解决了数据孤立性问题。通过整合来自基因表达、拷贝数变异和DNA甲基化等多源数据，确保了模型对癌症发展的多方面影响有更全面的考虑。

本发明引入了改进的地图注意力机制，使得模型能够更深入地挖掘患者数据中的潜在信息。这有助于提高对结直肠癌患者疾病状态变化的敏感性，解决了特征表示不足的问题。

本发明通过有效整合多组学数据，考虑了患者之间的分子和表型差异，从而更好地应对结直肠癌作为高度异质性疾病的挑战。这有助于建立更为准确的生存期预测模型，为个体化治疗和精细研究癌症亚型提供支持。

本发明通过改进的地图注意力机制，有效地考虑和利用患者在基因表达、拷贝数变异和DNA甲基化等多组学数据上的相互作用。这有助于提高模型对患者之间组学相似性的敏感性，增强了模型的全面性和预测性能。

本发明改进的地图注意力机制，专注于有效融合患者节点的类型信息和拓扑结构信息。这一机制能够更精准地捕捉患者之间的错综复杂关系，使得模型能够更全面地理解癌症发展中的相互作用。

本发明考虑了拓扑结构信息使得模型能够以更全面的视角进行癌症预后分析，同时具备更好的动态适应性，以更好地适应癌症发展中的动态变化。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多组学和临床检验数据的结直肠癌预后方法，其特征在于，包括如下步骤：

S3、编码患者的节点拓扑结构信息和患者临床数据信息；

S6、使用二元交叉熵损失函数对预测模型进行优化。

2.根据权利要求1所述的一种基于多组学和临床检验数据的结直肠癌预后方法，其特征在于，所述组学数据包括lncRNA、miRNA、DNA拷贝数变异和DNA甲基化数据，所述临床数据包括年龄、性别、癌症分期、体重指数、肿瘤位置、肿瘤大小、收缩压、舒张压、肿瘤标志物癌胚抗原、CA 19-9、炎症指标C-反应蛋白、白细胞计数和沉积率。

3.根据权利要求2所述的一种基于多组学和临床检验数据的结直肠癌预后方法，其特征在于，所述S1具体包括：

S12、对于组学数据和临床数据使用Z-score标准化；

4.根据权利要求3所述的一种基于多组学和临床检验数据的结直肠癌预后方法，其特征在于，所述S2具体包括：

S21、定义每种组学数据的相似度矩阵：

；

其中, 表示欧几里得距离，/>是超参数，/>为：

；

其中，表示患者/>在第/>种组学数据中的前m个邻居，m个邻居是通过计算/>与第/>种组学的所有其余样本欧几里得距离，进行排序，选择前m个作为邻居；

S22、引入权重整合四种组学数据的相似度，表示第/>种组学数据的重要性，最终的整合相似度矩阵/>定义为:

；

S23、构建具有节点特征的图：

；

其中，表示顶点集，E表示边集，定义/>和/>分别为顶点数和边数；

5.根据权利要求4所述的一种基于多组学和临床检验数据的结直肠癌预后方法，其特征在于，所述图中节点的拓扑结构信息的建立包括利用随机游走算法对每个节点i生成指定长度为D的节点序列，使用双向长短时记忆网络学习每条节点i的节点序列表示，序列表示进行融合，得到节点的拓扑结构表示。

6.根据权利要求5所述的一种基于多组学和临床检验数据的结直肠癌预后方法，其特征在于，所述图中节点的拓扑结构信息的建立具体包括：

从图G上的节点随机游走，在随机游走的第/>步访问的节点/>，随机游走的下一个节点按照如下概率从/>的邻居节点中选出：

；

其中，表示节点/>的度，/>表示/>的邻居节点集合，/>代表随机游走时，选取了节点/>后下一个选取的节点；

将随机游走记录的节点依次连接起来，形成一个长度为D的随机游走序列，随机游走序列呈现从起始节点到目标节点的节点路径，使用随机游走算法对每个节点生成p条随机序列，用seq=/>表示p条随机序列；

使用长短时记忆网络学习p条随机序列的表示，令节点i的第y条序列表示为的节点序列，其中，/>是起始节点，/>是随机序列中的节点，将节点特征通过短时记忆网络逐步输入，得到第y条序列的最终表示；

；

其中，，/>的取值范围是1到p，/>为：

。

7.根据权利要求6所述的一种基于多组学和临床检验数据的结直肠癌预后方法，其特征在于，所述患者临床数据的特征编码包括：

将患者的原始临床数据特征向量记为，使用变换矩阵/>将特征向量/>转换为64维向量/>:

；

其中，是预设的超参数，表示权重。

8.根据权利要求7所述的一种基于多组学和临床检验数据的结直肠癌预后方法，其特征在于，所述节点的拓扑结构信息和患者临床数据信息添加到图注意力网络的编码中，形成改进的图注意力机制：

；

采用多头注意力机制，通过M个参数矩阵分别计算注意力系数/>，将计算得到的结果合并：

；

其中，表示在GAT的第 /> 层中节点/>的编码表示，初始的/>为患者多组学特征，/>表示节点/>的邻居节点集合，/>表示节点/>与其邻居节点/>之间的注意力权重，/>表示权重参数，用于计算注意力得分，/> 表示图神经网络在第 (l) 层的权重矩阵，/>表示自然指数函数，/> 表示Leaky ReLU激活函数，||表示向量的拼接操作。

9.根据权利要求8所述的一种基于多组学和临床检验数据的结直肠癌预后方法，其特征在于，所述S5具体包括：

；

其中，是ReLU激活函数，/>是Sigmoid激活函数，/>是可训练的权重矩阵集合，/>是偏置向量集合；

10.根据权利要求9所述的一种基于多组学和临床检验数据的结直肠癌预后方法，其特征在于，所述预测模型的优化具体包括：

采用二元交叉熵损失函数定义如下：

；

其中，的取值范围是1到n，n表示预测模型训练时患者的个数，/>表示第q个患者样本的实际标签取值为0或1，/>表示预测模型预测第q个样本为正类的概率，其值介于0到1之间，/>和/>分别表示预测概率和其补概率的对数值，/>表示对所有样本计算损失的总和；