CN115985442A - 一种基于图对比学习的癌症生存预测模型构建方法 - Google Patents
一种基于图对比学习的癌症生存预测模型构建方法 Download PDFInfo
- Publication number
- CN115985442A CN115985442A CN202310071845.9A CN202310071845A CN115985442A CN 115985442 A CN115985442 A CN 115985442A CN 202310071845 A CN202310071845 A CN 202310071845A CN 115985442 A CN115985442 A CN 115985442A
- Authority
- CN
- China
- Prior art keywords
- disease
- cancer
- patient
- nodes
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于图对比学习的癌症生存预测模型构建方法,属于信息技术领域,解决了癌症生存预测模型的效果受限问题。包括步骤S1:获取癌症患者的临床数据和历史共病数据,进行数据预处理;S2:构建患者疾病关系图,并用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示;S3:基于S2,构建正负疾病样本对;S4:基于S2、S3和图卷积网络生成疾病节点的特征表示,并构建对比损失;S5:基于患者疾病关系图结构和图神经网络生成癌症患者的特征表示,并构建分类损失;S6:模型训练、优化损失函数并对癌症患者的生存情况进行分类预测。本发明考虑患者的共病特征对癌症的生存状态的影响,获得更准确的预测效果。
Description
技术领域
本发明涉及信息技术领域,具体涉及一种基于图对比学习的癌症生存预测模型构建方法。
背景技术
癌症是全球疾病负担的主要原因,具有较高的发病率和死亡率。癌症生存预测是指对癌症患者的生存风险进行预测,得到癌症患者的生存结果,这对辅助医生优化治疗措施有重要意义,能够改善癌症患者的长期预后情况,有效避免过度治疗及医疗资源的浪费。
癌症生存预测研究主要分为风险因素识别和生存预测两类。风险因素识别主要采用传统统计方法研究影响癌症生存预后的风险因素,如突变基因和临床特征等,此类研究常常受限于样本来源,研究样本数量较少。随着医疗信息化的发展,电子医疗数据的积累为基于机器学习的癌症生存预测研究奠定了基石,现有的预测方法主要基于COX、Lasso回归分析和神经网络等模型实现,而用于预测使用的变量通常包括组学、临床和医学影像类数据。
近年来研究人员发现癌症患者的共病情况,即癌症患者确诊前患有的一种或多种其他疾病,与癌症预后之间存在着一定关联。尽管共病可能影响着癌症的生存预后,但目前的癌症生存预测方法却往往忽略了共病与生存状况的关系,并未对患者共病这一重要特征进行建模,因而限制了生存预测模型的效果。
发明内容
针对现有技术中存在的问题,本发明提供一种基于图对比学习的癌症生存预测模型构建方法,其目的在于:考虑癌症患者的历史共病记录对癌症的生存状态的影响,获得更准确的预测效果。
本发明采用的技术方案如下:
一种基于图对比学习的癌症生存预测模型构建方法,包括如下步骤:
S1:获取癌症患者的临床数据和历史共病数据,并对临床数据和历史共病数据进行预处理;所述获取癌症患者的临床数据包括人口统计学信息、治疗信息和病理学信息,对临床数据进行数据分级和标准化预处理;获取癌症患者的历史共病数据,包括癌症患者在癌症确诊前患有的所有慢性疾病,疾病采用ICD-10疾病分类标准进行编码预处理;
S2:构建患者疾病关系图,并用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示;
S3:基于S2,以ICD-10疾病分类标准为依据,构建正负疾病样本对;
S4:基于S2、S3和图卷积网络生成疾病节点的特征表示,通过投影生成疾病节点的对比表征,并构建对比损失;
S5:基于患者疾病关系图结构和图神经网络生成癌症患者的特征表示,并构建分类损失;
S6:模型训练、优化损失函数并进行生存预测。
优选的,所述S2中构建患者疾病关系图具体为:
构建患者疾病关系图G=(V,E),V为点集,E为边集;所述患者疾病关系图中,V可划分为两个互不相交的节点子集Vp和Vd,其中Vp中每个节点表示一个癌症患者,Vd中的每个节点表示一个癌症群体的慢性共病;若患者p患有疾病d,则将表示患者p的节点与表示疾病d的节点相连,最终由所有的患者-疾病连边构成边集E。
优选的,所述S2中用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示具体为:
癌症患者的临床特征包括人口统计学信息、治疗信息和病理学信息,选用对应特征作为癌症患者节点的初始特征表示其中pi表示第i位癌症患者;用独热编码初始化疾病节点的特征表示,具体的,第i个疾病节点di的初始特征表示
优选的,所述S3中以ICD-10疾病分类标准为依据,构建正负疾病样本对具体为:
以ICD-10分类标准为基础,对于一个疾病A,从它所在的疾病组中随机选取另一个疾病B,构成正样本对(A,B);同时通过采样获得k个负样本对,负样本对具体采样方法为:首先随机选取k1个与疾病A不在同一疾病章节的疾病作为第一负样本;再从疾病A处于相同疾病章节但不同疾病组的疾病中随机选取k-k1个疾病,作为第二负样本,第二负样本的占比通过调节(k-k1)与k的比值决定;所述k个负样本分别和第一负样本、第二负样本构成k对负样本对。
优选的,所述S4中基于图卷积网络生成疾病节点的特征表示,通过投影器生成疾病节点的对比表征具体为:
在患者疾病关系图G中,疾病节点的一阶邻居均为患者节点,患者节点的一阶邻居均为疾病节点;首先,基于患者疾病关系图G,以图卷积网络为特征提取编码器,获取每个疾病节点的特征表示特别的,当图卷积网络的层数定义为1层时,疾病节点的特征表示是对患有该疾病的所有癌症患者的特征聚合表示,然后将每个疾病的特征表示输入到投影器得到对比表征所述的投影器结构为两层的全连接网络。
优选的,所述S4中构建对比损失具体为:
依据ICD-10分类标准,相同疾病组内的疾病应该具有更相似的表征,而不同疾病组或不同疾病章节的疾病表征间应该具有更低的相似性,基于此,在经过S4中定义的图卷积网络编码器和投影器得到每个疾病节点的对比表征后,构建对比损失函数LmarginNCE,具体的,LmarginNCE的计算方法如下:
其中,N为疾病节点总数;表示一对正样本对;表示一对负样本对;V-表示由di的k个负样本构成的集合;τ为超参数;sim(di,dj)是度量疾病di和dj相似性的函数,具体的,其中,和为通过S4中定义的图卷积网络编码器和投影器得到的疾病节点di和dj的对比表征,和表示和的模长;m为决策边界且m<0。
优选的,所述S5中生成癌症患者特征表示具体为:
癌症患者p的特征表示是基于患者疾病关系图的结构,结合临床特征和历史共病信息共同生成的;具体的,由临床特征表示共病邻居聚合表示和癌症患者邻居聚合表示构成;癌症患者的最终特征表示hp由和拼接后得到,计算公式如下:
其中,||表示向量的拼接。
其中,N(p)表示癌症患者节点p的一阶邻居集合,p′是集合N(p)中的元素,hp′是节点p′的特征表示,AGGREGATE函数旨在聚合节点p的邻居的嵌入表示,可选用均值计算函数,则是由聚合函数AGGREGATE产生的协同表示;
所述癌症患者邻居聚合表示通过聚合癌症患者的二阶癌症患者邻居节点而得;对于一个癌症患者节点p,首先对通过同一种元路径与癌症患者节点p关联的癌症患者邻居节点进行单独聚合,得到在每种元路径下的癌症患者邻居节点聚合结果
其中,Φr表示第r种疾病章节元路径,r=1,2,...,M,M为元路径种类数;表示节点p通过元路径Φr所关联的癌症患者邻居节点的集合;j则是集合中的节点,hj是节点j的特征表示;为可训练的权重矩阵;即集合的节点个数;
其中,Vp表示癌症患者节点集,|Vp|表示Vp中的节点个数;q是一个列向量,其参数通过训练得到;tanh为一种激活函数;Wα和bα分别是可训练的参数矩阵和偏置项;是节点p以元路径Φr所关联的邻居节点的聚合表示;M是元路径种类数;
优选的,所述S5中构建分类损失具体为:
分类损失函数Lclf可采用交叉熵损失函数,公式如下式:
优选的,所述S6中模型训练、优化损失函数并对癌症患者的生存情况进行分类预测具体为:
获取癌症患者的历史疾病数据和人口统计学、治疗、病理学临床数据,将获取的癌症患者的数据按照7:1:2的比例划分为训练集、验证集和测试集,并对历史疾病和临床数据进行预处理;基于患者的历史疾病信息,构建包含所有癌症患者的患者疾病关系图,并分别初始化癌症患者和疾病节点的特征表示;基于图卷积网络可获取疾病节点的特征表示一方面,将输入投影器得到疾病节点的对比表征基于对比表征计算对比损失LmarginNCE;另一方面,分别聚合癌症患者节点的临床特征、共病邻居节点的特征表示和基于元路径的癌症患者邻居节点的特征表示,并将聚合的结果拼接后得到癌症患者节点的最终特征表示hp;之后将hp输入到生存情况预测分类器,得到生存预测概率基于训练集中癌症患者的预测概率和真实生存状态yp计算分类损失函数Lclf;最终,总损失函数L如下式:
L=λLclf+(1-λ)LmarginNCE
其中,λ为超参数。通过Adam算法优化损失函数L,直到L的值不再下降时,停止训练,得到训练好的预测模型;
当对测试集中癌症患者5年内的生存概率进行预测时,基于构建好的患者疾病关系图,利用训练好的预测模型,获得疾病节点的特征表示,生成测试集中癌症患者的临床特征表示、共病邻居聚合表示和基于元路径的癌症患者邻居聚合表示,将三种不同维度的特征表示拼接后通过生存情况预测分类器即可获得癌症患者的生存情况预测结果。
综上所述,本发明具有如下有益效果:
(1)本发明考虑了患者的历史共病特征对癌症的生存状态的影响,有利于获得更准确的预测效果;
(2)本发明可获取更具有表征力的疾病特征表示,并利用对比损失作为正则化因子,辅助癌症生存预测任务。基于疾病ICD-10分类标准固有的层次信息定义疾病之间的相似性,并且构建MarginNCE对比损失函数,有利于降低模型对噪声的敏感性;
(3)癌症患者的特征表示由患者节点的临床特征、疾病邻居的特征表示和基于元路径的癌症患者邻居的特征表示共同构成;同时考虑患者的自身的临床特征和患者疾病关系图的结构特征,使得患者表征更充分。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明的流程示意框图;
图2为本发明的癌症生存预测模型框架示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合图1、图2对本发明作详细说明。
一种基于图对比学习的癌症生存预测模型构建方法,包括如下步骤:
S1:获取癌症患者的临床数据和历史共病数据,并对临床数据和历史共病数据进行预处理;所述获取癌症患者的临床数据包括人口统计学信息、治疗信息和病理学信息,对临床数据进行数据分级和标准化预处理;获取癌症患者的历史共病数据包括癌症患者在癌症确诊前患有的所有慢性疾病,疾病采用ICD-10疾病分类标准进行编码预处理;
S2:构建患者疾病关系图,并用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示;
S3:基于S2,以ICD-10疾病分类标准为依据,构建正负疾病样本对;
S4:基于S2、S3和图卷积网络生成疾病节点的特征表示,通过投影生成疾病节点的对比表征,并构建对比损失;
S5:基于患者疾病关系图结构和图神经网络生成癌症患者的特征表示,并构建分类损失;
S6:模型训练、优化损失函数并对癌症患者的生存情况进行分类预测。
S2中构建患者疾病关系图具体为:
构建患者疾病关系图G=(V,E),V为点集,E为边集;所述患者疾病关系图中,V可划分为两个互不相交的节点子集Vp和Vd,其中Vp中每个节点表示一个癌症患者,Vd中的每个节点表示一个癌症群体的慢性共病;若患者p患有疾病d,则将表示患者p的节点与表示疾病d的节点相连,最终由所有的患者-疾病连边构成边集E。需要说明的是,疾病统一采用国际疾病分类第十版(ICD-10)编码,ICD-10根据疾病的特征将疾病划分为22个疾病章节,261个疾病组,共2045个类目编码,图G中的一个疾病节点即对应于一个类目编码。
S2中用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示具体为:
癌症患者的临床特征包括人口统计学信息、治疗信息和病理学信息,选用对应特征作为癌症患者节点的初始特征表示其中pi表示第i位癌症患者;用独热编码初始化疾病节点的特征表示,具体的,第i个疾病节点di的初始特征表示
S3中以ICD-10疾病分类标准为依据,构建正负疾病样本对具体为:
以ICD-10分类标准为基础,对于一个疾病A,从它所在的疾病组中随机选取另一个疾病B,构成正样本对(A,B);同时通过采样获得k个负样本对,负样本对具体采样方法为:首先随机选取k1个与疾病A不在同一疾病章节的疾病作为第一负样本;再从疾病A处于相同疾病章节但不同疾病组的疾病中随机选取k-k1个疾病,作为第二负样本,第二负样本的占比通过调节(k-k1)与k的比值决定;所述k个负样本分别和第一负样本、第二负样本构成k对负样本对。
S4中基于图卷积网络生成疾病节点的特征表示,通过投影器生成疾病节点的对比表征具体为:
在患者疾病关系图G中,疾病节点的一阶邻居均为患者节点,患者节点的一阶邻居均为疾病节点;首先,基于患者疾病关系图G,以图卷积网络为特征提取编码器,获取每个疾病节点的特征表示特别的,当图卷积网络的层数定义为1层时,疾病节点的特征表示是对患有该疾病的所有癌症患者的特征聚合表示,然后将每个疾病的特征表示输入到投影器得到对比表征所述的投影器结构为两层的全连接网络。
S4中构建对比损失具体为:
依据ICD-10分类标准,相同疾病组内的疾病应该具有更相似的表征,而不同疾病组或不同疾病章节的疾病表征间应该具有更低的相似性,基于此,在经过S4中定义的图卷积网络编码器和投影器得到每个疾病节点的对比表征后,构建对比损失函数LmarginNCE,具体的,LmarginNCE的计算方法如下:
其中,N为疾病节点总数;表示一对正样本对;表示一对负样本对;V-表示由di的k个负样本构成的集合;τ为超参数;sim(di,dj)是度量疾病di和dj相似性的函数,具体的,其中,和为通过S4中定义的图卷积网络编码器和投影器得到的疾病节点di和dj的对比表征,和表示和的模长;m为决策边界且m<0,通过添加决策边界m降低正负样本分别与节点di之间相似性度量的差异边界,从而更适应S3中所述的正负样本对构建方法。
S5中生成患者特征表示具体为:
癌症患者p的特征表示是基于患者疾病关系图的结构,结合临床特征和历史共病信息共同生成的;具体的,由临床特征表示共病邻居聚合表示和癌症患者邻居聚合表示构成;癌症患者的最终特征表示hp由和拼接后得到,计算公式如下:
其中,||表示向量的拼接。
其中,N(p)表示癌症患者节点p的一阶邻居集合,p'是集合N(p)中的元素,hp′是节点p′的特征表示,AGGREGATE函数旨在聚合节点p的邻居的嵌入表示,可选用均值计算函数,则是由聚合函数AGGREGATE产生的协同表示;
依据疾病节点所属的疾病章节(如循环系统、肿瘤、呼吸系统等),可以在患者疾病关系图中找到“患者-疾病章节-患者”这样的元路径,如“患者-循环系统疾病-患者”、“患者-肿瘤-患者”和“患者-呼吸系统疾病-患者”等。每条元路径可以连接两个癌症患者,而所述元路径连接的两个癌症患者患有相同疾病章节的疾病,所以更可能有着更相似的身体状况或临床表现。基于此,可根据所述的元路径进一步挖掘患者之间的潜在关系。癌症患者邻居聚合表示就是通过聚合以所述元路径相连的邻居患者节点特征表示而得到;
所述癌症患者邻居聚合表示通过聚合癌症患者的二阶癌症患者邻居节点而得;对于一个癌症患者节点p,首先对通过同一种元路径与癌症患者节点p关联的癌症患者邻居节点进行单独聚合,得到在每种元路径下的癌症患者邻居节点聚合结果
其中,Φr表示第r种疾病章节元路径,r=1,2,...,M,M为元路径种类数;表示节点p通过元路径Φr所关联的邻居患者节点的集合;j则是集合中的节点,hj是节点j的特征表示;为可训练的权重矩阵;即集合的节点个数;
其中,Vp表示癌症患者节点集,|Vp|表示Vp中的节点个数;q是一个列向量,其参数通过训练得到;tanh为一种激活函数;Wα和bα分别是可训练的参数矩阵和偏置项;是节点p以元路径Φr所关联的邻居节点的聚合表示;M是元路径种类数;
S5中构建分类损失具体为:
分类损失函数Lclf可采用交叉熵损失函数,公式如下式:
S6中模型训练、优化损失函数并对癌症患者的生存情况进行分类预测具体为:
获取癌症患者的历史疾病数据和人口统计学、治疗、病理学临床数据,将获取的癌症患者的数据按照7:1:2的比例划分为训练集、验证集和测试集,并对历史疾病和临床数据进行预处理;基于患者的历史疾病信息,构建包含所有癌症患者的患者疾病关系图,并分别初始化癌症患者和疾病节点的特征表示;基于图卷积网络可获取疾病节点的特征表示一方面,将输入投影器得到疾病节点的对比表征基于对比表征计算对比损失LmarginNCE;另一方面,分别聚合癌症患者节点的临床特征、共病邻居节点的特征表示和基于元路径的癌症患者邻居节点的特征表示,并将聚合的结果拼接后得到癌症患者节点的最终特征表示hp;之后将hp输入到生存情况预测分类器,得到生存预测概率基于训练集中癌症患者的预测概率和真实生存状态yp计算分类损失函数Lclf;最终,总损失函数L如下式:
L=λLclf+(1-λ)LmarfinNCE
其中,λ为超参数。通过Adam算法优化损失函数L,直到L的值不再下降时,停止训练,得到训练好的预测模型;
当对测试集中癌症患者5年内的生存概率进行预测时,基于构建好的患者疾病关系图,利用训练好的预测模型,获得疾病节点的特征表示,生成测试集中癌症患者的临床特征表示、共病邻居聚合表示和基于元路径的癌症患者邻居聚合表示,将三种不同维度的特征表示拼接后通过生存情况预测分类器即可获得癌症患者的生存情况预测结果。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
Claims (10)
1.一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,包括如下步骤:
S1:获取癌症患者的临床数据和历史共病数据,并对临床数据和历史共病数据进行预处理;
S2:构建患者疾病关系图,并用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示;
S3:基于S2,以ICD-10疾病分类标准为依据,构建正负疾病样本对;
S4:基于S2、S3和图卷积网络生成疾病节点的特征表示,通过投影生成疾病节点的对比表征,并构建对比损失;
S5:基于患者疾病关系图结构和图神经网络生成癌症患者的特征表示,并构建分类损失;
S6:模型训练、优化损失函数并对癌症患者的生存情况进行分类预测。
2.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S2中构建患者疾病关系图具体为:
构建患者疾病关系图G=(V,E),V为点集,E为边集;所述患者疾病关系图中,V可划分为两个互不相交的节点子集Vp和Vd,其中Vp中每个节点表示一个癌症患者,Vd中的每个节点表示一个癌症群体的慢性共病;若患者p患有疾病d,则将表示患者p的节点与表示疾病d的节点相连,最终由所有的患者-疾病连边构成边集E。
4.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S3中以ICD-10疾病分类标准为依据,构建正负疾病样本对具体为:
以ICD-10分类标准为基础,对于一个疾病A,从它所在的疾病组中随机选取另一个疾病B,构成正样本对(A,B);同时通过采样获得k个负样本对,负样本对具体采样方法为:首先随机选取k1个与疾病A不在同一疾病章节的疾病作为第一负样本;再从疾病A处于相同疾病章节但不同疾病组的疾病中随机选取k-k1个疾病,作为第二负样本,第二负样本的占比通过调节(k-k1)与k的比值决定;所述k个负样本分别和第一负样本、第二负样本构成k对负样本对。
6.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S4中构建对比损失具体为:
依据ICD-10分类标准,相同疾病组内的疾病应该具有更相似的表征,而不同疾病组或不同疾病章节的疾病表征间应该具有更低的相似性,基于此,在经过S4中定义的图卷积网络编码器和投影器得到每个疾病节点的对比表征后,构建对比损失函数LmarginNCE,具体的,LmarginNCE的计算方法如下:
其中,N(p)表示癌症患者节点p的一阶邻居集合,p′是集合N(p)中的元素,hp′是节点p′的特征表示,AGGREGATE函数旨在聚合节点p的邻居的嵌入表示,可选用均值计算函数,则是由聚合函数AGGREGATE产生的协同表示;
所述癌症患者邻居聚合表示通过聚合癌症患者的二阶癌症患者邻居节点而得;对于一个癌症患者节点p,首先对通过同一种元路径与癌症患者节点p关联的癌症患者邻居节点进行单独聚合,得到在每种元路径下的癌症患者邻居节点聚合结果
其中,Φr表示第r种疾病章节元路径,r=1,2,...,M,M为元路径种类数;表示节点p通过元路径Φr所关联的癌症患者邻居节点的集合;j则是集合中的节点,hj是节点j的特征表示;为可训练的权重矩阵;即集合的节点个数;
其中,Vp表示癌症患者节点集,|Vp|表示Vp中的节点个数;q是一个列向量,其参数通过训练得到;tanh为一种激活函数;Wα和bα分别是可训练的参数矩阵和偏置项;是节点p以元路径Φr所关联的邻居节点的聚合表示;M是元路径种类数;
10.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S6中模型训练、优化损失函数并对癌症患者的生存情况进行分类预测具体为:
获取癌症患者的历史疾病数据和人口统计学、治疗、病理学临床数据,将获取的癌症患者的数据划分为训练集、验证集和测试集,并对历史疾病和临床数据进行预处理;基于患者的历史疾病信息,构建包含所有癌症患者的患者疾病关系图,并分别初始化癌症患者和疾病节点的特征表示;基于图卷积网络可获取疾病节点的特征表示一方面,将输入投影器得到疾病节点的对比表征基于对比表征计算对比损失LmarginNCE;另一方面,分别聚合癌症患者节点的临床特征、共病邻居节点的特征表示和基于元路径的癌症患者邻居节点的特征表示,并将聚合的结果拼接后得到癌症患者节点的最终特征表示hp;之后将hp输入到生存情况预测分类器,得到生存预测概率基于训练集中癌症患者的预测概率和真实生存状态yp计算分类损失函数Lclf;最终,总损失函数L如下式:
L=λLclf+(1-λ)LmarginNCE
其中,λ为超参数。通过Adam算法优化损失函数L,直到L的值不再下降时,停止训练,得到训练好的预测模型;
当对测试集中癌症患者的生存概率进行预测时,基于构建好的患者疾病关系图,利用训练好的预测模型,获得疾病节点的特征表示,生成测试集中癌症患者的临床特征表示、共病邻居聚合表示和基于元路径的癌症患者邻居聚合表示,将三种不同维度的特征表示拼接后通过生存情况预测分类器即可获得癌症患者的生存情况预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310071845.9A CN115985442A (zh) | 2023-02-07 | 2023-02-07 | 一种基于图对比学习的癌症生存预测模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310071845.9A CN115985442A (zh) | 2023-02-07 | 2023-02-07 | 一种基于图对比学习的癌症生存预测模型构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115985442A true CN115985442A (zh) | 2023-04-18 |
Family
ID=85976051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310071845.9A Pending CN115985442A (zh) | 2023-02-07 | 2023-02-07 | 一种基于图对比学习的癌症生存预测模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115985442A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116682565A (zh) * | 2023-07-28 | 2023-09-01 | 济南蓝博电子技术有限公司 | 一种数字化医疗信息在线监测方法、终端及介质 |
CN118116600A (zh) * | 2024-04-30 | 2024-05-31 | 数据空间研究院 | 一种基于多组学和临床检验数据的结直肠癌预后方法 |
-
2023
- 2023-02-07 CN CN202310071845.9A patent/CN115985442A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116682565A (zh) * | 2023-07-28 | 2023-09-01 | 济南蓝博电子技术有限公司 | 一种数字化医疗信息在线监测方法、终端及介质 |
CN118116600A (zh) * | 2024-04-30 | 2024-05-31 | 数据空间研究院 | 一种基于多组学和临床检验数据的结直肠癌预后方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115985442A (zh) | 一种基于图对比学习的癌症生存预测模型构建方法 | |
CN113782089B (zh) | 基于多组学数据融合的药物敏感性预测方法和装置 | |
CN112966114B (zh) | 基于对称图卷积神经网络的文献分类方法和装置 | |
CN112784913B (zh) | 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置 | |
US20230222311A1 (en) | Generating machine learning models using genetic data | |
CN111898689A (zh) | 一种基于神经网络架构搜索的图像分类方法 | |
CN113157957A (zh) | 一种基于图卷积神经网络的属性图文献聚类方法 | |
CN112233798B (zh) | 基于病理模式与注意力机制的可解释疾病风险分析系统 | |
Vidhya et al. | Deep learning based big medical data analytic model for diabetes complication prediction | |
Guedes et al. | Long short term memory on chronic laryngitis classification | |
CN115064266B (zh) | 基于不完整多组学数据的癌症诊断系统、设备及介质 | |
CN114743037A (zh) | 一种基于多尺度结构学习的深度医学图像聚类方法 | |
Shirazi et al. | Deep learning in the healthcare industry: theory and applications | |
CN117153268A (zh) | 一种细胞类别确定方法及系统 | |
CN114999635A (zh) | 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法 | |
CN114898879A (zh) | 一种基于图表示学习的慢病风险预测方法 | |
Swarna et al. | Detection of colon cancer using inception v3 and ensembled cnn model | |
CN114420201A (zh) | 一种多源数据高效融合的药物靶标相互作用的预测方法 | |
Mukherji et al. | Recent landscape of deep learning intervention and consecutive clustering on biomedical diagnosis | |
CN117591953A (zh) | 基于多组学数据的癌症分类方法、系统及电子设备 | |
CN113362900A (zh) | 一种预测n4-乙酰胞苷的混合模型 | |
CN117316268A (zh) | 基于跨模态和图卷积的miRNA和疾病预测方法 | |
Li et al. | Neural architecture search via proxy validation | |
CN116978464A (zh) | 数据处理方法、装置、设备以及介质 | |
CN115691817A (zh) | 一种基于融合神经网络的LncRNA-疾病关联预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |