CN118116600A - 一种基于多组学和临床检验数据的结直肠癌预后方法 - Google Patents
一种基于多组学和临床检验数据的结直肠癌预后方法 Download PDFInfo
- Publication number
- CN118116600A CN118116600A CN202410532738.6A CN202410532738A CN118116600A CN 118116600 A CN118116600 A CN 118116600A CN 202410532738 A CN202410532738 A CN 202410532738A CN 118116600 A CN118116600 A CN 118116600A
- Authority
- CN
- China
- Prior art keywords
- data
- node
- patient
- representing
- clinical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000001333 Colorectal Neoplasms Diseases 0.000 title claims abstract description 48
- 206010009944 Colon cancer Diseases 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000004393 prognosis Methods 0.000 title claims abstract description 22
- 238000012360 testing method Methods 0.000 title claims abstract description 20
- 230000004083 survival effect Effects 0.000 claims abstract description 39
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 33
- 201000011510 cancer Diseases 0.000 claims abstract description 28
- 238000001356 surgical procedure Methods 0.000 claims abstract description 9
- 238000002474 experimental method Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000005295 random walk Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 14
- 230000007067 DNA methylation Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 108091070501 miRNA Proteins 0.000 claims description 6
- 239000002679 microRNA Substances 0.000 claims description 6
- 238000011282 treatment Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 108020004414 DNA Proteins 0.000 claims description 4
- 108020005198 Long Noncoding RNA Proteins 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 239000000523 sample Substances 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 108010074051 C-Reactive Protein Proteins 0.000 claims description 3
- 102100032752 C-reactive protein Human genes 0.000 claims description 3
- 102000012406 Carcinoembryonic Antigen Human genes 0.000 claims description 3
- 108010022366 Carcinoembryonic Antigen Proteins 0.000 claims description 3
- 206010061218 Inflammation Diseases 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000004820 blood count Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000008021 deposition Effects 0.000 claims description 3
- 230000035487 diastolic blood pressure Effects 0.000 claims description 3
- 230000004054 inflammatory process Effects 0.000 claims description 3
- 210000000265 leukocyte Anatomy 0.000 claims description 3
- 239000013610 patient sample Substances 0.000 claims description 3
- 230000035488 systolic blood pressure Effects 0.000 claims description 3
- 239000000439 tumor marker Substances 0.000 claims description 3
- 238000002759 z-score normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 abstract description 6
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 238000011160 research Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 239000000126 substance Substances 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000002955 isolation Methods 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002962 histologic effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于多组学和临床检验数据的结直肠癌预后方法,包括S1、从不同数据源、数据库或实验收集来自不同结直肠癌患者组学数据和患者在手术切除结直肠癌后两年后的生存状况,并采集与患者相关的临床数据,并对组学数据和临床数据进行预处理操作;S2、通过预处理后的组学数据和临床数据以及生存状况构建患者组学相似性网络;S3、编码患者的节点拓扑结构信息和患者临床数据信息;S4、将患者的节点拓扑结构信息和患者临床数据信息添加到图注意力网络的编码中;S5、通过预测模型预测患者在手术切除结直肠癌后两年后的生存状况;S6、使用二元交叉熵损失函数对预测模型进行优化。本发明具备更好的动态适应性,适应癌症发展中的动态变化。
Description
技术领域
本发明涉及医疗数据分析技术领域,尤其涉及一种基于多组学和临床检验数据的结直肠癌预后方法。
背景技术
近年来,生物信息学和计算机科学的迅速发展为癌症研究提供了前所未有的机会和挑战。癌症作为一种复杂的疾病,其发病机制涉及多个层面的生物学过程。为了更全面地理解癌症的分子机制和提高预测模型的准确性,研究人员积极探索如何整合多组学数据。结直肠癌作为常见的恶性肿瘤之一,其研究对于癌症生物学的深入理解和治疗策略的制定具有重要意义。
现有技术存在以下的几点问题:
数据孤立:传统预后模型通常基于单一类型的数据,如临床检查数据,导致数据之间的信息交互较为有限。这种数据孤立性使得模型无法全面考虑家结直肠癌患者的组学信息,限制了对患者病理状态的深入理解。癌症的发展受到多种数据类型的影响,如多组学,蛋白质组学等。仅使用少量数据类型可能无法充分捕捉到癌症发病的复杂性,导致预测结果不够准确。
特征表示不足:部分模型对患者的特征表示学习较为有限,未能深入挖掘患者数据中的潜在信息。这可能导致模型无法捕捉结直肠癌患者的疾病状态变化,影响了预后分析的灵敏度。
数据整合与分析复杂性: 多组学数据融合在生物信息学和医学研究中变得越来越普遍,但面临的主要挑战之一是如何有效地整合来自基因表达、拷贝数变异和DNA甲基化等多源数据,并在这些复杂数据集中提取关键信息。
癌症异质性: 癌症作为一种高度异质性的疾病,患者之间存在显著的分子和表型差异。如何克服这种异质性,以建立更为准确的生存期预测模型,对于个体化治疗和研究更精细的癌症亚型具有挑战性。
患者各组学相似性之间的关系:传统的模型往往忽略了患者之间的组学相似性,而这在疾病研究中可能是一个关键的因素。有效地考虑和利用患者在基因表达、拷贝数变异和DNA甲基化等多组学数据上的相互作用,以提高模型的全面性和预测性能,是一个需要解决的难题。
因此,如何提供一种基于多组学和临床检验数据的结直肠癌预后方法是本领域技术人员亟需解决的问题。
发明内容
本发明的一个目的在于提出一种基于多组学和临床检验数据的结直肠癌预后方法,本发明考虑了拓扑结构信息使得模型能够以更全面的视角进行癌症预后分析,同时具备更好的动态适应性,以更好地适应癌症发展中的动态变化。
根据本发明实施例的一种基于多组学和临床检验数据的结直肠癌预后方法,包括如下步骤:
S1、从不同数据源、数据库或实验收集来自不同结直肠癌患者组学数据和患者在手术切除结直肠癌后两年后的生存状况,并采集与患者相关的临床数据,并对组学数据和临床数据进行预处理操作;
S2、通过预处理后的组学数据和临床数据以及生存状况构建患者组学相似性网络;
S3、编码患者的节点拓扑结构信息和患者临床数据信息;
S4、将患者的节点拓扑结构信息和患者临床数据信息添加到图注意力网络的编码中;
S5、通过预测模型预测患者在手术切除结直肠癌后两年后的生存状况;
S6、使用二元交叉熵损失函数对预测模型进行优化。
可选的,所述组学数据包括lncRNA、miRNA、DNA拷贝数变异和DNA甲基化数据,所述临床数据包括年龄、性别、癌症分期、体重指数、肿瘤位置、肿瘤大小、收缩压、舒张压、肿瘤标志物癌胚抗原、CA 19-9、炎症指标C-反应蛋白、白细胞计数和沉积率。
可选的,所述S1具体包括:
S11、在采集的数据集中,若某个组学数据的缺失比例大于20%,将这个组学数据删除;
S12、对于组学数据和临床数据使用Z-score标准化;
S13、不同类型的组学数据特征,通过节点特征转换将不同类型节点的原始特征投影到统一的潜空间中。
可选的,所述S2具体包括:
S21、定义每种组学数据的相似度矩阵:
;
其中, 表示欧几里得距离,是超参数,为:
;
其中,表示患者在第种组学数据中的前m个邻居,m个邻居是通过计算
与第种组学的所有其余样本欧几里得距离,进行排序,选择前m个作为邻居;
S22、引入权重整合四种组学数据的相似度,表示第种组学数据的重要性,
最终的整合相似度矩阵定义为:
;
S23、构建具有节点特征的图:
;
其中,表示顶点集,E表示边集,定义和分别为顶点数和边数;
S24、根据患者在手术切除结直肠癌后两年后的生存状况,死亡表示0,生存表示1,构建患者之间的关联图,将每个患者表示为图中的节点,如果两个患者都在两年后都生存创建一条边,对于每个患者,通过最终的整合相似度矩阵选择前K个最相似的患者作为邻居创建一条边。
可选的,所述图中节点的拓扑结构信息的建立包括利用随机游走算法对每个节
点i生成指定长度为D的节点序列,使用双向长短时记忆网络学习每条节点i的节点序列表
示,序列表示进行融合,得到节点的拓扑结构表示。
可选的,所述图中节点的拓扑结构信息的建立具体包括:
从图G上的节点 随机游走,在随机游走的第步访问的节点,随机游走
的下一个节点按照如下概率从的邻居节点中选出:
;
其中, 表示节点的度,表示的邻居节点集合,代表随机游
走时,选取了节点后下一个选取的节点;
将随机游走记录的节点依次连接起来,形成一个长度为D的随机游走序列,随机游
走序列呈现从起始节点到目标节点的节点路径,使用随机游走算法对每个节点生成p条
随机序列,用seq=表示p条随机序列;
使用长短时记忆网络学习p条随机序列的表示,令节点i的第y条序列表示为的节点序列,其中,是起始节点,是随机序列中的节点,将节点特征
通过短时记忆网络逐步输入,得到第y条序列的最终表示;
将得到的p条随机序列表示进行加权融合,获得节点拓扑结构表示:
;
其中,,的取值范围是1到p,为:
。
可选的,所述患者临床数据的特征编码包括:
将患者的原始临床数据特征向量记为,使用变换矩阵将特征向量
转换为64维向量:
;
将节点类型特征与节点结构特征进行加权融合,所述节点类型特征为原始临床数据特征,所述节点结构特征为节点的拓扑结构表示,最终得到患者临床数据的特征表示为:
;
其中,是预设的超参数,表示权重。
可选的,所述节点的拓扑结构信息和患者临床数据信息添加到图注意力网络的编码中,形成改进的图注意力机制:
;
;
采用多头注意力机制,通过M个参数矩阵分别计算注意力系数,将计算得
到的结果合并:
;
其中,表示在GAT的第 层中节点的编码表示,初始的为患者多
组学特征,表示节点的邻居节点集合,表示节点与其邻居节点之间的注意力
权重,表示权重参数,用于计算注意力得分, 表示图神经网络在第 (l) 层的权重
矩阵, 表示自然指数函数, 表示Leaky ReLU激活函数,||表示向
量的拼接操作。
可选的,所述S5具体包括:
用={0,1}表示患者生存情况,采用两层MLP预测器预测患者两年后生存状况,
计算如下:
;
其中,是ReLU激活函数,是Sigmoid激活函数,是可训练的权重
矩阵集合,是偏置向量集合;
值越高,生存的概率越低,说明需要及时接入治疗,反之生存的概率越高。
可选的,所述预测模型的优化具体包括:
采用二元交叉熵损失函数定义如下:
;
其中,的取值范围是1到n,n表示预测模型训练时患者的个数,表示第q个患者
样本的实际标签取值为0或1,表示预测模型预测第q个样本为正类的概率,其值介于0到
1之间,和分别表示预测概率和其补概率的对数值,表示对所有样
本计算损失的总和;
使用Adam优化器最小化二元交叉熵损失函数,端到端训练整个预测模型。
本发明的有益效果是:
(1)本发明通过充分融合患者的组学数据和临床数据,有效地解决了数据孤立性问题。通过整合来自基因表达、拷贝数变异和DNA甲基化等多源数据,确保了模型对癌症发展的多方面影响有更全面的考虑。
(2)本发明引入了改进的地图注意力机制,使得模型能够更深入地挖掘患者数据中的潜在信息。这有助于提高对结直肠癌患者疾病状态变化的敏感性,解决了特征表示不足的问题。
(3)本发明通过有效整合多组学数据,考虑了患者之间的分子和表型差异,从而更好地应对结直肠癌作为高度异质性疾病的挑战。这有助于建立更为准确的生存期预测模型,为个体化治疗和精细研究癌症亚型提供支持。
(4)本发明通过改进的地图注意力机制,有效地考虑和利用患者在基因表达、拷贝数变异和DNA甲基化等多组学数据上的相互作用。这有助于提高模型对患者之间组学相似性的敏感性,增强了模型的全面性和预测性能。
(5)本发明改进的地图注意力机制,专注于有效融合患者节点的类型信息和拓扑结构信息。这一机制能够更精准地捕捉患者之间的错综复杂关系,使得模型能够更全面地理解癌症发展中的相互作用。
(6)本发明考虑了拓扑结构信息使得模型能够以更全面的视角进行癌症预后分析,同时具备更好的动态适应性,以更好地适应癌症发展中的动态变化。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的一种基于多组学和临床检验数据的结直肠癌预后方法的流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
参考图1,一种基于多组学和临床检验数据的结直肠癌预后方法,包括如下步骤:
S1、从不同数据源、数据库或实验收集来自不同结直肠癌患者组学数据和患者在手术切除结直肠癌后两年后的生存状况,并采集与患者相关的临床数据,并对组学数据和临床数据进行预处理操作;
S2、通过预处理后的组学数据和临床数据以及生存状况构建患者组学相似性网络;
S3、编码患者的节点拓扑结构信息和患者临床数据信息;
S4、将患者的节点拓扑结构信息和患者临床数据信息添加到图注意力网络的编码中;
S5、通过预测模型预测患者在手术切除结直肠癌后两年后的生存状况;
S6、使用二元交叉熵损失函数对预测模型进行优化。
本实施方式中,组学数据包括lncRNA、miRNA、DNA拷贝数变异和DNA甲基化数据,临床数据包括年龄、性别、癌症分期、体重指数、肿瘤位置、肿瘤大小、收缩压、舒张压、肿瘤标志物癌胚抗原、CA 19-9、炎症指标C-反应蛋白、白细胞计数和沉积率,以更全面地了解患者的生理状态和癌症特征。
本实施方式中,S1具体包括:
S11、在采集的数据集中,若某个组学数据的缺失比例大于20%,将这个组学数据删除;
S12、对于组学数据和临床数据使用Z-score标准化;
S13、不同类型的组学数据特征,通过节点特征转换将不同类型节点的原始特征投影到统一的潜空间中。
在这里,我们将类型,其中分别表示lncRNA,miRNA、CNV(DNA拷
贝数变异)和DNA(甲基化数据)。对于给定类型的数据组学数据,我们应用特定于数
据类型的线性变换矩阵,获得该数据的降维后的特征向量,定义如下:
;
其中,线性变换矩阵是可学习的参数,表示原始特征向量,其中对于每种
组学数据的不同,表示对于类型c的组学线性变换矩阵,利用将这些组学数据
降维到64维。将每种组学数据都对应的特征矩阵记为 , 其中 是患者
数量, 分别表示 IncRNA、 miRNA、CNV 和 DNA甲基化数据。
本实施方式中,S2具体包括:
S21、定义每种组学数据的相似度矩阵:
;
其中, 表示欧几里得距离,是超参数,为:
;
其中,表示患者在第种组学数据中的前m个邻居,m个邻居是通过计算与第种组学的所有其余样本欧几里得距离,进行排序,选择前m个作为邻居;
S22、引入权重整合四种组学数据的相似度,表示第种组学数据的重要性,
最终的整合相似度矩阵定义为:
;
这个整合方法考虑每种组学数据的相似度, 并通过调整权重 来平衡它们之
间的影响。
S23、构建具有节点特征的图:
;
其中,表示顶点集,E表示边集,定义和分别为顶点数和边数;
S24、根据患者在手术切除结直肠癌后两年后的生存状况,死亡表示0,生存表示1,构建患者之间的关联图,将每个患者表示为图中的节点,如果两个患者都在两年后都生存创建一条边,对于每个患者,通过最终的整合相似度矩阵选择前K个最相似的患者作为邻居创建一条边。
本实施方式中,图中节点的拓扑结构信息的建立包括利用随机游走算法对每个
节点i生成指定长度为D的节点序列,使用双向长短时记忆网络学习每条节点i的节点序列
表示,序列表示进行融合,得到节点的拓扑结构表示。
本实施方式中,图中节点的拓扑结构信息的建立具体包括:
从图G上的节点 随机游走,在随机游走的第步访问的节点,随机游走
的下一个节点按照如下概率从的邻居节点中选出:
;
其中, 表示节点的度,表示的邻居节点集合,代表随机游走
时,选取了节点后下一个选取的节点;
将随机游走记录的节点依次连接起来,形成一个长度为D的随机游走序列,随机游
走序列呈现从起始节点到目标节点的节点路径,使用随机游走算法对每个节点生成p条
随机序列,用seq=表示p条随机序列;
使用长短时记忆网络学习p条随机序列的表示,令节点i的第y条序列表示为的节点序列,其中,是起始节点,是随机序列中的节点,将节点特征
通过短时记忆网络逐步输入,得到第y条序列的最终表示;
将得到的p条随机序列表示进行加权融合,获得节点拓扑结构表示:
;
其中,,的取值范围是1到p,为:
。
本实施方式中,患者临床数据的特征编码包括:
将患者的原始临床数据特征向量记为,使用变换矩阵将特征向
量转换为64维向量:
;
将节点类型特征与节点结构特征进行加权融合,所述节点类型特征为原始临床数据特征,所述节点结构特征为节点的拓扑结构表示,最终得到患者临床数据的特征表示为:
;
其中,是预设的超参数,表示权重。
本实施方式中,节点的拓扑结构信息和患者临床数据信息添加到图注意力网络的编码中,形成改进的图注意力机制:
;
;
采用多头注意力机制,通过M个参数矩阵分别计算注意力系数,将计算得
到的结果合并:
;
其中,表示在GAT的第 层中节点的编码表示,初始的为患者多
组学特征,表示节点的邻居节点集合,表示节点与其邻居节点之间的注意
力权重,表示权重参数,用于计算注意力得分, 表示图神经网络在第 (l) 层的权
重矩阵, 表示自然指数函数, 表示Leaky ReLU激活函数,||表示
向量的拼接操作。
我们利用5层GAT训练数据,将最后一层编码过后的患者组学特征记为。
本实施方式中,S5具体包括:
患者在手术切除结直肠癌后两年后的生存状况(死亡:0,生存:1), 用={0,1}
表示患者生存情况,然后采用一个两层MLP预测器来预测患者两年后生存状况。具体而言,
计算如下:
;
其中,是ReLU激活函数,是Sigmoid激活函数,是可训练的权重
矩阵集合,是偏置向量集合;
值越高,生存的概率越低,说明需要及时接入治疗,反之生存的概率越高。
本实施方式中,预测模型的优化具体包括:
采用二元交叉熵损失函数定义如下:
;
其中,的取值范围是1到n,n表示预测模型训练时患者的个数,表示第q个患
者样本的实际标签取值为0或1,表示预测模型预测第q个样本为正类的概率,其值介于0
到1之间,和分别表示预测概率和其补概率的对数值,表示对所有
样本计算损失的总和;
使用Adam优化器最小化二元交叉熵损失函数,端到端训练整个预测模型。
实施例1为预测模型实验效果:
癌症生存期预测模型的性能评估主要依赖于常见的分类模型指标,包括准确率(Accuracy)、精确度(Precision)、召回率(Recall)、AUC值和ROC曲线。这些指标通过对测试数据集进行预测,计算模型的真正例、假正例、假反例和真反例,从而量化模型对新样本的分类能力。其中,准确率反映了所有正确分类样本在总样本中的比例,而精确度和召回率分别关注了模型对正例的正确预测和正确分类的正例比例。
Accuracy:表示所有正确分类样本在总样本中的比例:
;
Precision: 表示模型预测为正样本的所有样本有多少比例是真正的正样本:
;
Recall: 表示模型分类正确的所有样本中有多少比例是分类正确的正样本:
;
结直肠癌预测任务中,我们比较了四种已有模型KNN(K最近邻)、SVM(支持向量机)、DNN(深度神经网络)、LR(逻辑回归))与我们提出的COADGAT预测模型的性能。结果表明,COADGAT预测模型在准确率、精确度、召回率以及AUC等指标上均表现出色,相较于传统模型如K最近邻、支持向量机、深度神经网络和逻辑回归,更有效地预测了结直肠癌患者的生存状况。这凸显了COADGAT在结直肠癌患者生存预测中的有效性。这些发现为在结直肠癌中选择适当的预测模型提供了有力支持,并对患者生存状况进行更全面的理解。
我们通过TCGA数据库积极收集了628名结直肠癌患者的详细数据,这包括lncRNA、miRNA、DNA拷贝数变异、DNA甲基化和临床特征等多方面信息。TCGA作为一个全球性的肿瘤基因组学计划,提供了大规模的癌症患者数据,为我们的研究提供了宝贵的资源,以深入了解结直肠癌的分子特征和临床表现。 我们将总数据集随机划分为训练集和测试集, 划分比例大致为 8: 2, 具体数据划分见表1。本文中为了保证研究方法的公平性和鲁棒性, 我们对每次数据划分都按照 5折交叉验证分别进行 5 次实验, 最后取平均得到该方法在此次数据划分下的总体评价指标得分,如下表1和表2所示:
表1 数据分布情况
表2 五种不同模型的多种性能评价指标对比表
/>
本发明通过充分融合患者的组学数据和临床数据,有效地解决了数据孤立性问题。通过整合来自基因表达、拷贝数变异和DNA甲基化等多源数据,确保了模型对癌症发展的多方面影响有更全面的考虑。
本发明引入了改进的地图注意力机制,使得模型能够更深入地挖掘患者数据中的潜在信息。这有助于提高对结直肠癌患者疾病状态变化的敏感性,解决了特征表示不足的问题。
本发明通过有效整合多组学数据,考虑了患者之间的分子和表型差异,从而更好地应对结直肠癌作为高度异质性疾病的挑战。这有助于建立更为准确的生存期预测模型,为个体化治疗和精细研究癌症亚型提供支持。
本发明通过改进的地图注意力机制,有效地考虑和利用患者在基因表达、拷贝数变异和DNA甲基化等多组学数据上的相互作用。这有助于提高模型对患者之间组学相似性的敏感性,增强了模型的全面性和预测性能。
本发明改进的地图注意力机制,专注于有效融合患者节点的类型信息和拓扑结构信息。这一机制能够更精准地捕捉患者之间的错综复杂关系,使得模型能够更全面地理解癌症发展中的相互作用。
本发明考虑了拓扑结构信息使得模型能够以更全面的视角进行癌症预后分析,同时具备更好的动态适应性,以更好地适应癌症发展中的动态变化。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于多组学和临床检验数据的结直肠癌预后方法,其特征在于,包括如下步骤:
S1、从不同数据源、数据库或实验收集来自不同结直肠癌患者组学数据和患者在手术切除结直肠癌后两年后的生存状况,并采集与患者相关的临床数据,并对组学数据和临床数据进行预处理操作;
S2、通过预处理后的组学数据和临床数据以及生存状况构建患者组学相似性网络;
S3、编码患者的节点拓扑结构信息和患者临床数据信息;
S4、将患者的节点拓扑结构信息和患者临床数据信息添加到图注意力网络的编码中;
S5、通过预测模型预测患者在手术切除结直肠癌后两年后的生存状况;
S6、使用二元交叉熵损失函数对预测模型进行优化。
2.根据权利要求1所述的一种基于多组学和临床检验数据的结直肠癌预后方法,其特征在于,所述组学数据包括lncRNA、miRNA、DNA拷贝数变异和DNA甲基化数据,所述临床数据包括年龄、性别、癌症分期、体重指数、肿瘤位置、肿瘤大小、收缩压、舒张压、肿瘤标志物癌胚抗原、CA 19-9、炎症指标C-反应蛋白、白细胞计数和沉积率。
3.根据权利要求2所述的一种基于多组学和临床检验数据的结直肠癌预后方法,其特征在于,所述S1具体包括:
S11、在采集的数据集中,若某个组学数据的缺失比例大于20%,将这个组学数据删除;
S12、对于组学数据和临床数据使用Z-score标准化;
S13、不同类型的组学数据特征,通过节点特征转换将不同类型节点的原始特征投影到统一的潜空间中。
4.根据权利要求3所述的一种基于多组学和临床检验数据的结直肠癌预后方法,其特征在于,所述S2具体包括:
S21、定义每种组学数据的相似度矩阵:
;
其中, 表示欧几里得距离,/>是超参数,/>为:
;
其中,表示患者/>在第/>种组学数据中的前m个邻居,m个邻居是通过计算/>与第/>种组学的所有其余样本欧几里得距离,进行排序,选择前m个作为邻居;
S22、引入权重整合四种组学数据的相似度,表示第/>种组学数据的重要性,最终的整合相似度矩阵/>定义为:
;
S23、构建具有节点特征的图:
;
其中,表示顶点集,E表示边集,定义/>和/>分别为顶点数和边数;
S24、根据患者在手术切除结直肠癌后两年后的生存状况,死亡表示0,生存表示1,构建患者之间的关联图,将每个患者表示为图中的节点,如果两个患者都在两年后都生存创建一条边,对于每个患者,通过最终的整合相似度矩阵选择前K个最相似的患者作为邻居创建一条边。
5.根据权利要求4所述的一种基于多组学和临床检验数据的结直肠癌预后方法,其特征在于,所述图中节点的拓扑结构信息的建立包括利用随机游走算法对每个节点i生成指定长度为D的节点序列,使用双向长短时记忆网络学习每条节点i的节点序列表示,序列表示进行融合,得到节点的拓扑结构表示。
6.根据权利要求5所述的一种基于多组学和临床检验数据的结直肠癌预后方法,其特征在于,所述图中节点的拓扑结构信息的建立具体包括:
从图G上的节点 随机游走,在随机游走的第/>步访问的节点/>,随机游走的下一个节点按照如下概率从/>的邻居节点中选出:
;
其中, 表示节点/>的度,/>表示/>的邻居节点集合,/>代表随机游走时,选取了节点/>后下一个选取的节点;
将随机游走记录的节点依次连接起来,形成一个长度为D的随机游走序列,随机游走序列呈现从起始节点到目标节点的节点路径,使用随机游走算法对每个节点生成p条随机序列,用seq=/>表示p条随机序列;
使用长短时记忆网络学习p条随机序列的表示,令节点i的第y条序列表示为的节点序列,其中,/>是起始节点,/>是随机序列中的节点,将节点特征通过短时记忆网络逐步输入,得到第y条序列的最终表示;
将得到的p条随机序列表示进行加权融合,获得节点拓扑结构表示:
;
其中,,/>的取值范围是1到p,/>为:
。
7.根据权利要求6所述的一种基于多组学和临床检验数据的结直肠癌预后方法,其特征在于,所述患者临床数据的特征编码包括:
将患者的原始临床数据特征向量记为,使用变换矩阵/>将特征向量/>转换为64维向量/>:
;
将节点类型特征与节点结构特征进行加权融合,所述节点类型特征为原始临床数据特征,所述节点结构特征为节点的拓扑结构表示,最终得到患者临床数据的特征表示为:
;
其中,是预设的超参数,表示权重。
8.根据权利要求7所述的一种基于多组学和临床检验数据的结直肠癌预后方法,其特征在于,所述节点的拓扑结构信息和患者临床数据信息添加到图注意力网络的编码中,形成改进的图注意力机制:
;
;
采用多头注意力机制,通过M个参数矩阵分别计算注意力系数/>,将计算得到的结果合并:
;
其中,表示在GAT的第 /> 层中节点/>的编码表示,初始的/>为患者多组学特征,/>表示节点/>的邻居节点集合,/>表示节点/>与其邻居节点/>之间的注意力权重,/>表示权重参数,用于计算注意力得分,/> 表示图神经网络在第 (l) 层的权重矩阵,/>表示自然指数函数,/> 表示Leaky ReLU激活函数,||表示向量的拼接操作。
9.根据权利要求8所述的一种基于多组学和临床检验数据的结直肠癌预后方法,其特征在于,所述S5具体包括:
用={0,1}表示患者生存情况,采用两层MLP预测器预测患者两年后生存状况,计算如下:
;
其中,是ReLU激活函数,/>是Sigmoid激活函数,/>是可训练的权重矩阵集合,/>是偏置向量集合;
值越高,生存的概率越低,说明需要及时接入治疗,反之生存的概率越高。
10.根据权利要求9所述的一种基于多组学和临床检验数据的结直肠癌预后方法,其特征在于,所述预测模型的优化具体包括:
采用二元交叉熵损失函数定义如下:
;
其中,的取值范围是1到n,n表示预测模型训练时患者的个数,/>表示第q个患者样本的实际标签取值为0或1,/>表示预测模型预测第q个样本为正类的概率,其值介于0到1之间,/>和/>分别表示预测概率和其补概率的对数值,/>表示对所有样本计算损失的总和;
使用Adam优化器最小化二元交叉熵损失函数,端到端训练整个预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410532738.6A CN118116600A (zh) | 2024-04-30 | 2024-04-30 | 一种基于多组学和临床检验数据的结直肠癌预后方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410532738.6A CN118116600A (zh) | 2024-04-30 | 2024-04-30 | 一种基于多组学和临床检验数据的结直肠癌预后方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118116600A true CN118116600A (zh) | 2024-05-31 |
Family
ID=91216354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410532738.6A Pending CN118116600A (zh) | 2024-04-30 | 2024-04-30 | 一种基于多组学和临床检验数据的结直肠癌预后方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118116600A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109994200A (zh) * | 2019-03-08 | 2019-07-09 | 华南理工大学 | 一种基于相似度融合的多组学癌症数据整合分析方法 |
CN112309576A (zh) * | 2020-09-22 | 2021-02-02 | 江南大学 | 基于深度学习ct影像组学的结直肠癌生存期预测方法 |
CN115985442A (zh) * | 2023-02-07 | 2023-04-18 | 电子科技大学 | 一种基于图对比学习的癌症生存预测模型构建方法 |
CN116741397A (zh) * | 2023-08-15 | 2023-09-12 | 数据空间研究院 | 基于多组学数据融合的癌症分型方法、系统及存储介质 |
CN117079804A (zh) * | 2023-08-20 | 2023-11-17 | 中国科学技术大学 | 一种消化系统肿瘤临床结果预测模型的构建方法及系统 |
-
2024
- 2024-04-30 CN CN202410532738.6A patent/CN118116600A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109994200A (zh) * | 2019-03-08 | 2019-07-09 | 华南理工大学 | 一种基于相似度融合的多组学癌症数据整合分析方法 |
CN112309576A (zh) * | 2020-09-22 | 2021-02-02 | 江南大学 | 基于深度学习ct影像组学的结直肠癌生存期预测方法 |
CN115985442A (zh) * | 2023-02-07 | 2023-04-18 | 电子科技大学 | 一种基于图对比学习的癌症生存预测模型构建方法 |
CN116741397A (zh) * | 2023-08-15 | 2023-09-12 | 数据空间研究院 | 基于多组学数据融合的癌症分型方法、系统及存储介质 |
CN117079804A (zh) * | 2023-08-20 | 2023-11-17 | 中国科学技术大学 | 一种消化系统肿瘤临床结果预测模型的构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Saha et al. | A generalized automatic clustering algorithm in a multiobjective framework | |
US11482305B2 (en) | Artificial intelligence analysis of RNA transcriptome for drug discovery | |
Singh et al. | Artificial intelligence based medical decision support system for early and accurate breast cancer prediction | |
CN112435720B (zh) | 一种基于自注意力机制与多药物特征组合的预测方法 | |
CN116741397B (zh) | 基于多组学数据融合的癌症分型方法、系统及存储介质 | |
Abdikenov et al. | Analytics of heterogeneous breast cancer data using neuroevolution | |
Liou et al. | Applying data mining for the analysis of breast cancer data | |
CN115985503B (zh) | 基于集成学习的癌症预测系统 | |
Suo et al. | Application of clustering analysis in brain gene data based on deep learning | |
Yao et al. | ICSDA: a multi-modal deep learning model to predict breast cancer recurrence and metastasis risk by integrating pathological, clinical and gene expression data | |
Rahman et al. | IDMIL: an alignment-free Interpretable Deep Multiple Instance Learning (MIL) for predicting disease from whole-metagenomic data | |
Hussein et al. | Deep learning and machine learning via a genetic algorithm to classify breast cancer DNA data | |
Kumar et al. | Integrating Diverse Omics Data Using Graph Convolutional Networks: Advancing Comprehensive Analysis and Classification in Colorectal Cancer | |
Choi et al. | Cell subtype classification via representation learning based on a denoising autoencoder for single-cell RNA sequencing | |
Kumar et al. | An Early Cancer Prediction Based On Deep Neural Learning | |
CN118116600A (zh) | 一种基于多组学和临床检验数据的结直肠癌预后方法 | |
Nascimben et al. | Polygenic risk modeling of tumor stage and survival in bladder cancer | |
Shiuh et al. | Prediction of Thyroid Disease using Machine Learning Approaches and Featurewiz Selection | |
JP2004355174A (ja) | データ解析方法及びそのシステム | |
CN111599412B (zh) | 基于词向量与卷积神经网络的dna复制起始区域识别方法 | |
Alzubaidi et al. | A new hybrid global optimization approach for selecting clinical and biological features that are relevant to the effective diagnosis of ovarian cancer | |
CN112735596A (zh) | 一种相似患者的确定方法、装置、电子设备及存储介质 | |
Mandal et al. | A genetic algorithm-based clustering approach for selecting non-redundant microrna markers from microarray expression data | |
Ramkumar et al. | Multimodal prediction of breast cancer using radiogenomics and clinical trials with decision fusion | |
Han et al. | Performing protein fold recognition by exploiting a stack convolutional neural network with the attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |