CN115985442A - 一种基于图对比学习的癌症生存预测模型构建方法 - Google Patents

一种基于图对比学习的癌症生存预测模型构建方法 Download PDF

Info

Publication number
CN115985442A
CN115985442A CN202310071845.9A CN202310071845A CN115985442A CN 115985442 A CN115985442 A CN 115985442A CN 202310071845 A CN202310071845 A CN 202310071845A CN 115985442 A CN115985442 A CN 115985442A
Authority
CN
China
Prior art keywords
disease
cancer
patient
nodes
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310071845.9A
Other languages
English (en)
Inventor
邱航
杨萍
阳旭菻
王利亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202310071845.9A priority Critical patent/CN115985442A/zh
Publication of CN115985442A publication Critical patent/CN115985442A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于图对比学习的癌症生存预测模型构建方法,属于信息技术领域,解决了癌症生存预测模型的效果受限问题。包括步骤S1:获取癌症患者的临床数据和历史共病数据,进行数据预处理;S2:构建患者疾病关系图,并用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示;S3:基于S2,构建正负疾病样本对;S4:基于S2、S3和图卷积网络生成疾病节点的特征表示,并构建对比损失;S5:基于患者疾病关系图结构和图神经网络生成癌症患者的特征表示,并构建分类损失;S6:模型训练、优化损失函数并对癌症患者的生存情况进行分类预测。本发明考虑患者的共病特征对癌症的生存状态的影响,获得更准确的预测效果。

Description

一种基于图对比学习的癌症生存预测模型构建方法
技术领域
本发明涉及信息技术领域,具体涉及一种基于图对比学习的癌症生存预测模型构建方法。
背景技术
癌症是全球疾病负担的主要原因,具有较高的发病率和死亡率。癌症生存预测是指对癌症患者的生存风险进行预测,得到癌症患者的生存结果,这对辅助医生优化治疗措施有重要意义,能够改善癌症患者的长期预后情况,有效避免过度治疗及医疗资源的浪费。
癌症生存预测研究主要分为风险因素识别和生存预测两类。风险因素识别主要采用传统统计方法研究影响癌症生存预后的风险因素,如突变基因和临床特征等,此类研究常常受限于样本来源,研究样本数量较少。随着医疗信息化的发展,电子医疗数据的积累为基于机器学习的癌症生存预测研究奠定了基石,现有的预测方法主要基于COX、Lasso回归分析和神经网络等模型实现,而用于预测使用的变量通常包括组学、临床和医学影像类数据。
近年来研究人员发现癌症患者的共病情况,即癌症患者确诊前患有的一种或多种其他疾病,与癌症预后之间存在着一定关联。尽管共病可能影响着癌症的生存预后,但目前的癌症生存预测方法却往往忽略了共病与生存状况的关系,并未对患者共病这一重要特征进行建模,因而限制了生存预测模型的效果。
发明内容
针对现有技术中存在的问题,本发明提供一种基于图对比学习的癌症生存预测模型构建方法,其目的在于:考虑癌症患者的历史共病记录对癌症的生存状态的影响,获得更准确的预测效果。
本发明采用的技术方案如下:
一种基于图对比学习的癌症生存预测模型构建方法,包括如下步骤:
S1:获取癌症患者的临床数据和历史共病数据,并对临床数据和历史共病数据进行预处理;所述获取癌症患者的临床数据包括人口统计学信息、治疗信息和病理学信息,对临床数据进行数据分级和标准化预处理;获取癌症患者的历史共病数据,包括癌症患者在癌症确诊前患有的所有慢性疾病,疾病采用ICD-10疾病分类标准进行编码预处理;
S2:构建患者疾病关系图,并用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示;
S3:基于S2,以ICD-10疾病分类标准为依据,构建正负疾病样本对;
S4:基于S2、S3和图卷积网络生成疾病节点的特征表示,通过投影生成疾病节点的对比表征,并构建对比损失;
S5:基于患者疾病关系图结构和图神经网络生成癌症患者的特征表示,并构建分类损失;
S6:模型训练、优化损失函数并进行生存预测。
优选的,所述S2中构建患者疾病关系图具体为:
构建患者疾病关系图G=(V,E),V为点集,E为边集;所述患者疾病关系图中,V可划分为两个互不相交的节点子集Vp和Vd,其中Vp中每个节点表示一个癌症患者,Vd中的每个节点表示一个癌症群体的慢性共病;若患者p患有疾病d,则将表示患者p的节点与表示疾病d的节点相连,最终由所有的患者-疾病连边构成边集E。
优选的,所述S2中用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示具体为:
癌症患者的临床特征包括人口统计学信息、治疗信息和病理学信息,选用对应特征作为癌症患者节点的初始特征表示
Figure BDA0004064977760000021
其中pi表示第i位癌症患者;用独热编码初始化疾病节点的特征表示,具体的,第i个疾病节点di的初始特征表示
Figure BDA0004064977760000022
优选的,所述S3中以ICD-10疾病分类标准为依据,构建正负疾病样本对具体为:
以ICD-10分类标准为基础,对于一个疾病A,从它所在的疾病组中随机选取另一个疾病B,构成正样本对(A,B);同时通过采样获得k个负样本对,负样本对具体采样方法为:首先随机选取k1个与疾病A不在同一疾病章节的疾病作为第一负样本;再从疾病A处于相同疾病章节但不同疾病组的疾病中随机选取k-k1个疾病,作为第二负样本,第二负样本的占比通过调节(k-k1)与k的比值决定;所述k个负样本分别和第一负样本、第二负样本构成k对负样本对。
优选的,所述S4中基于图卷积网络生成疾病节点的特征表示,通过投影器生成疾病节点的对比表征具体为:
在患者疾病关系图G中,疾病节点的一阶邻居均为患者节点,患者节点的一阶邻居均为疾病节点;首先,基于患者疾病关系图G,以图卷积网络为特征提取编码器,获取每个疾病节点的特征表示
Figure BDA0004064977760000023
特别的,当图卷积网络的层数定义为1层时,疾病节点的特征表示是对患有该疾病的所有癌症患者的特征聚合表示,然后将每个疾病的特征表示
Figure BDA0004064977760000024
输入到投影器得到对比表征
Figure BDA0004064977760000025
所述的投影器结构为两层的全连接网络。
优选的,所述S4中构建对比损失具体为:
依据ICD-10分类标准,相同疾病组内的疾病应该具有更相似的表征,而不同疾病组或不同疾病章节的疾病表征间应该具有更低的相似性,基于此,在经过S4中定义的图卷积网络编码器和投影器得到每个疾病节点的对比表征后,构建对比损失函数LmarginNCE,具体的,LmarginNCE的计算方法如下:
Figure BDA0004064977760000031
其中,N为疾病节点总数;
Figure BDA0004064977760000032
表示一对正样本对;
Figure BDA0004064977760000033
表示一对负样本对;V-表示由di的k个负样本构成的集合;τ为超参数;sim(di,dj)是度量疾病di和dj相似性的函数,具体的,
Figure BDA0004064977760000034
其中,
Figure BDA0004064977760000035
Figure BDA0004064977760000036
为通过S4中定义的图卷积网络编码器和投影器得到的疾病节点di和dj的对比表征,
Figure BDA0004064977760000037
Figure BDA0004064977760000038
表示
Figure BDA0004064977760000039
Figure BDA00040649777600000310
的模长;m为决策边界且m<0。
优选的,所述S5中生成癌症患者特征表示具体为:
癌症患者p的特征表示是基于患者疾病关系图的结构,结合临床特征和历史共病信息共同生成的;具体的,由临床特征表示
Figure BDA00040649777600000311
共病邻居聚合表示
Figure BDA00040649777600000312
和癌症患者邻居聚合表示
Figure BDA00040649777600000313
构成;癌症患者的最终特征表示hp
Figure BDA00040649777600000314
Figure BDA00040649777600000315
拼接后得到,计算公式如下:
Figure BDA00040649777600000316
其中,||表示向量的拼接。
进一步地,所述癌症患者临床特征表示
Figure BDA00040649777600000317
是对患者人口统计学特征、治疗信息和病理学信息的表征,构建方式如下式:
Figure BDA00040649777600000318
其中,Ws和bs分别表示可训练的权重矩阵和偏置项,σ表示激活函数,
Figure BDA00040649777600000319
表示患者的初始特征表示;
所述共病邻居聚合表示
Figure BDA00040649777600000320
通过聚合癌症患者的一阶邻居得到,不同节点的计算过程共享同一组参数,具体计算方式如下式:
Figure BDA00040649777600000321
其中,N(p)表示癌症患者节点p的一阶邻居集合,p′是集合N(p)中的元素,hp′是节点p′的特征表示,AGGREGATE函数旨在聚合节点p的邻居的嵌入表示,可选用均值计算函数,
Figure BDA0004064977760000041
则是由聚合函数AGGREGATE产生的协同表示;
所述癌症患者邻居聚合表示
Figure BDA0004064977760000042
通过聚合癌症患者的二阶癌症患者邻居节点而得;对于一个癌症患者节点p,首先对通过同一种元路径与癌症患者节点p关联的癌症患者邻居节点进行单独聚合,得到在每种元路径下的癌症患者邻居节点聚合结果
Figure BDA0004064977760000043
Figure BDA0004064977760000044
其中,Φr表示第r种疾病章节元路径,r=1,2,...,M,M为元路径种类数;
Figure BDA0004064977760000045
表示节点p通过元路径Φr所关联的癌症患者邻居节点的集合;j则是集合
Figure BDA0004064977760000046
中的节点,hj是节点j的特征表示;
Figure BDA0004064977760000047
为可训练的权重矩阵;
Figure BDA0004064977760000048
即集合
Figure BDA0004064977760000049
的节点个数;
然后,考虑到不同疾病章节的疾病对癌症生存预测任务的影响不同,进一步计算各个疾病章节的权重
Figure BDA00040649777600000410
并用该权重对各个疾病章节下的特征表示进行加权,具体的,
Figure BDA00040649777600000411
的计算方式如下式:
Figure BDA00040649777600000412
其中,Vp表示癌症患者节点集,|Vp|表示Vp中的节点个数;q是一个列向量,其参数通过训练得到;tanh为一种激活函数;Wα和bα分别是可训练的参数矩阵和偏置项;
Figure BDA00040649777600000413
是节点p以元路径Φr所关联的邻居节点的聚合表示;M是元路径种类数;
最后计算各个疾病章节特征表示的加权和
Figure BDA00040649777600000414
Figure BDA00040649777600000415
其中,
Figure BDA00040649777600000416
表示各疾病章节的权重;
Figure BDA00040649777600000417
是节点p以元路径vr所关联的癌症患者节点的聚合表示;M是元路径种类数。
优选的,所述S5中构建分类损失具体为:
将癌症患者的最终特征表示hp通过全连接层和Sigmoid函数,得到癌症患者的生存预测概率
Figure BDA00040649777600000418
分类损失函数Lclf可采用交叉熵损失函数,公式如下式:
Figure BDA0004064977760000051
其中,
Figure BDA0004064977760000052
表示对癌症患者p的预测概率;yp表示癌症患者p的真实生存状态;N是癌症患者总数。
优选的,所述S6中模型训练、优化损失函数并对癌症患者的生存情况进行分类预测具体为:
获取癌症患者的历史疾病数据和人口统计学、治疗、病理学临床数据,将获取的癌症患者的数据按照7:1:2的比例划分为训练集、验证集和测试集,并对历史疾病和临床数据进行预处理;基于患者的历史疾病信息,构建包含所有癌症患者的患者疾病关系图,并分别初始化癌症患者和疾病节点的特征表示;基于图卷积网络可获取疾病节点的特征表示
Figure BDA0004064977760000053
一方面,将
Figure BDA0004064977760000054
输入投影器得到疾病节点的对比表征
Figure BDA0004064977760000055
基于对比表征
Figure BDA0004064977760000056
计算对比损失LmarginNCE;另一方面,分别聚合癌症患者节点的临床特征、共病邻居节点的特征表示和基于元路径的癌症患者邻居节点的特征表示,并将聚合的结果拼接后得到癌症患者节点的最终特征表示hp;之后将hp输入到生存情况预测分类器,得到生存预测概率
Figure BDA0004064977760000057
基于训练集中癌症患者的预测概率
Figure BDA0004064977760000058
和真实生存状态yp计算分类损失函数Lclf;最终,总损失函数L如下式:
L=λLclf+(1-λ)LmarginNCE
其中,λ为超参数。通过Adam算法优化损失函数L,直到L的值不再下降时,停止训练,得到训练好的预测模型;
当对测试集中癌症患者5年内的生存概率进行预测时,基于构建好的患者疾病关系图,利用训练好的预测模型,获得疾病节点的特征表示,生成测试集中癌症患者的临床特征表示、共病邻居聚合表示和基于元路径的癌症患者邻居聚合表示,将三种不同维度的特征表示拼接后通过生存情况预测分类器即可获得癌症患者的生存情况预测结果。
综上所述,本发明具有如下有益效果:
(1)本发明考虑了患者的历史共病特征对癌症的生存状态的影响,有利于获得更准确的预测效果;
(2)本发明可获取更具有表征力的疾病特征表示,并利用对比损失作为正则化因子,辅助癌症生存预测任务。基于疾病ICD-10分类标准固有的层次信息定义疾病之间的相似性,并且构建MarginNCE对比损失函数,有利于降低模型对噪声的敏感性;
(3)癌症患者的特征表示由患者节点的临床特征、疾病邻居的特征表示和基于元路径的癌症患者邻居的特征表示共同构成;同时考虑患者的自身的临床特征和患者疾病关系图的结构特征,使得患者表征更充分。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明的流程示意框图;
图2为本发明的癌症生存预测模型框架示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合图1、图2对本发明作详细说明。
一种基于图对比学习的癌症生存预测模型构建方法,包括如下步骤:
S1:获取癌症患者的临床数据和历史共病数据,并对临床数据和历史共病数据进行预处理;所述获取癌症患者的临床数据包括人口统计学信息、治疗信息和病理学信息,对临床数据进行数据分级和标准化预处理;获取癌症患者的历史共病数据包括癌症患者在癌症确诊前患有的所有慢性疾病,疾病采用ICD-10疾病分类标准进行编码预处理;
S2:构建患者疾病关系图,并用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示;
S3:基于S2,以ICD-10疾病分类标准为依据,构建正负疾病样本对;
S4:基于S2、S3和图卷积网络生成疾病节点的特征表示,通过投影生成疾病节点的对比表征,并构建对比损失;
S5:基于患者疾病关系图结构和图神经网络生成癌症患者的特征表示,并构建分类损失;
S6:模型训练、优化损失函数并对癌症患者的生存情况进行分类预测。
S2中构建患者疾病关系图具体为:
构建患者疾病关系图G=(V,E),V为点集,E为边集;所述患者疾病关系图中,V可划分为两个互不相交的节点子集Vp和Vd,其中Vp中每个节点表示一个癌症患者,Vd中的每个节点表示一个癌症群体的慢性共病;若患者p患有疾病d,则将表示患者p的节点与表示疾病d的节点相连,最终由所有的患者-疾病连边构成边集E。需要说明的是,疾病统一采用国际疾病分类第十版(ICD-10)编码,ICD-10根据疾病的特征将疾病划分为22个疾病章节,261个疾病组,共2045个类目编码,图G中的一个疾病节点即对应于一个类目编码。
S2中用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示具体为:
癌症患者的临床特征包括人口统计学信息、治疗信息和病理学信息,选用对应特征作为癌症患者节点的初始特征表示
Figure BDA0004064977760000071
其中pi表示第i位癌症患者;用独热编码初始化疾病节点的特征表示,具体的,第i个疾病节点di的初始特征表示
Figure BDA0004064977760000072
S3中以ICD-10疾病分类标准为依据,构建正负疾病样本对具体为:
以ICD-10分类标准为基础,对于一个疾病A,从它所在的疾病组中随机选取另一个疾病B,构成正样本对(A,B);同时通过采样获得k个负样本对,负样本对具体采样方法为:首先随机选取k1个与疾病A不在同一疾病章节的疾病作为第一负样本;再从疾病A处于相同疾病章节但不同疾病组的疾病中随机选取k-k1个疾病,作为第二负样本,第二负样本的占比通过调节(k-k1)与k的比值决定;所述k个负样本分别和第一负样本、第二负样本构成k对负样本对。
S4中基于图卷积网络生成疾病节点的特征表示,通过投影器生成疾病节点的对比表征具体为:
在患者疾病关系图G中,疾病节点的一阶邻居均为患者节点,患者节点的一阶邻居均为疾病节点;首先,基于患者疾病关系图G,以图卷积网络为特征提取编码器,获取每个疾病节点的特征表示
Figure BDA0004064977760000073
特别的,当图卷积网络的层数定义为1层时,疾病节点的特征表示是对患有该疾病的所有癌症患者的特征聚合表示,然后将每个疾病的特征表示
Figure BDA0004064977760000074
输入到投影器得到对比表征
Figure BDA0004064977760000075
所述的投影器结构为两层的全连接网络。
S4中构建对比损失具体为:
依据ICD-10分类标准,相同疾病组内的疾病应该具有更相似的表征,而不同疾病组或不同疾病章节的疾病表征间应该具有更低的相似性,基于此,在经过S4中定义的图卷积网络编码器和投影器得到每个疾病节点的对比表征后,构建对比损失函数LmarginNCE,具体的,LmarginNCE的计算方法如下:
Figure BDA0004064977760000076
其中,N为疾病节点总数;
Figure BDA0004064977760000081
表示一对正样本对;
Figure BDA0004064977760000082
表示一对负样本对;V-表示由di的k个负样本构成的集合;τ为超参数;sim(di,dj)是度量疾病di和dj相似性的函数,具体的,
Figure BDA0004064977760000083
其中,
Figure BDA0004064977760000084
Figure BDA0004064977760000085
为通过S4中定义的图卷积网络编码器和投影器得到的疾病节点di和dj的对比表征,
Figure BDA0004064977760000086
Figure BDA0004064977760000087
表示
Figure BDA0004064977760000088
Figure BDA0004064977760000089
的模长;m为决策边界且m<0,通过添加决策边界m降低正负样本分别与节点di之间相似性度量的差异边界,从而更适应S3中所述的正负样本对构建方法。
S5中生成患者特征表示具体为:
癌症患者p的特征表示是基于患者疾病关系图的结构,结合临床特征和历史共病信息共同生成的;具体的,由临床特征表示
Figure BDA00040649777600000810
共病邻居聚合表示
Figure BDA00040649777600000811
和癌症患者邻居聚合表示
Figure BDA00040649777600000812
构成;癌症患者的最终特征表示hp
Figure BDA00040649777600000813
Figure BDA00040649777600000814
拼接后得到,计算公式如下:
Figure BDA00040649777600000815
其中,||表示向量的拼接。
癌症患者临床特征表示
Figure BDA00040649777600000816
是对患者人口统计学特征、治疗信息和病理学信息的表征,构建方式如下式:
Figure BDA00040649777600000817
其中,Ws和bs分别表示可训练的权重矩阵和偏置项,σ表示激活函数,
Figure BDA00040649777600000818
表示患者的初始特征表示;
所述疾病邻居聚合表示
Figure BDA00040649777600000819
通过聚合癌症患者的一阶邻居,不同节点的计算过程共享同一组参数,具体计算方式如下式:
Figure BDA00040649777600000820
其中,N(p)表示癌症患者节点p的一阶邻居集合,p'是集合N(p)中的元素,hp′是节点p′的特征表示,AGGREGATE函数旨在聚合节点p的邻居的嵌入表示,可选用均值计算函数,
Figure BDA00040649777600000821
则是由聚合函数AGGREGATE产生的协同表示;
依据疾病节点所属的疾病章节(如循环系统、肿瘤、呼吸系统等),可以在患者疾病关系图中找到“患者-疾病章节-患者”这样的元路径,如“患者-循环系统疾病-患者”、“患者-肿瘤-患者”和“患者-呼吸系统疾病-患者”等。每条元路径可以连接两个癌症患者,而所述元路径连接的两个癌症患者患有相同疾病章节的疾病,所以更可能有着更相似的身体状况或临床表现。基于此,可根据所述的元路径进一步挖掘患者之间的潜在关系。癌症患者邻居聚合表示
Figure BDA0004064977760000091
就是通过聚合以所述元路径相连的邻居患者节点特征表示而得到;
所述癌症患者邻居聚合表示
Figure BDA0004064977760000092
通过聚合癌症患者的二阶癌症患者邻居节点而得;对于一个癌症患者节点p,首先对通过同一种元路径与癌症患者节点p关联的癌症患者邻居节点进行单独聚合,得到在每种元路径下的癌症患者邻居节点聚合结果
Figure BDA0004064977760000093
Figure BDA0004064977760000094
其中,Φr表示第r种疾病章节元路径,r=1,2,...,M,M为元路径种类数;
Figure BDA0004064977760000095
表示节点p通过元路径Φr所关联的邻居患者节点的集合;j则是集合
Figure BDA0004064977760000096
中的节点,hj是节点j的特征表示;
Figure BDA0004064977760000097
为可训练的权重矩阵;
Figure BDA0004064977760000098
即集合
Figure BDA0004064977760000099
的节点个数;
然后,考虑到不同疾病章节的疾病对癌症生存预测任务的影响不同,进一步计算各个疾病章节的权重
Figure BDA00040649777600000910
并用该权重对各个疾病章节下的特征表示进行加权,具体的,
Figure BDA00040649777600000911
的计算方式如下式:
Figure BDA00040649777600000912
其中,Vp表示癌症患者节点集,|Vp|表示Vp中的节点个数;q是一个列向量,其参数通过训练得到;tanh为一种激活函数;Wα和bα分别是可训练的参数矩阵和偏置项;
Figure BDA00040649777600000913
是节点p以元路径Φr所关联的邻居节点的聚合表示;M是元路径种类数;
最后计算各个疾病章节特征表示的加权和
Figure BDA00040649777600000914
Figure BDA00040649777600000915
其中,
Figure BDA00040649777600000916
表示各疾病章节的权重;
Figure BDA00040649777600000917
是节点p以元路径Φr所关联的癌症患者邻居节点的聚合表示;M是元路径种类数。
S5中构建分类损失具体为:
将癌症患者的最终特征表示hp通过全连接层和Sigmoid函数,得到癌症患者的生存预测概率
Figure BDA00040649777600000918
分类损失函数Lclf可采用交叉熵损失函数,公式如下式:
Figure BDA0004064977760000101
其中,
Figure BDA0004064977760000102
表示对癌症患者p的预测概率;yp表示癌症患者p的真实生存状态;N是癌症患者总数。
S6中模型训练、优化损失函数并对癌症患者的生存情况进行分类预测具体为:
获取癌症患者的历史疾病数据和人口统计学、治疗、病理学临床数据,将获取的癌症患者的数据按照7:1:2的比例划分为训练集、验证集和测试集,并对历史疾病和临床数据进行预处理;基于患者的历史疾病信息,构建包含所有癌症患者的患者疾病关系图,并分别初始化癌症患者和疾病节点的特征表示;基于图卷积网络可获取疾病节点的特征表示
Figure BDA0004064977760000103
一方面,将
Figure BDA0004064977760000104
输入投影器得到疾病节点的对比表征
Figure BDA0004064977760000105
基于对比表征
Figure BDA0004064977760000106
计算对比损失LmarginNCE;另一方面,分别聚合癌症患者节点的临床特征、共病邻居节点的特征表示和基于元路径的癌症患者邻居节点的特征表示,并将聚合的结果拼接后得到癌症患者节点的最终特征表示hp;之后将hp输入到生存情况预测分类器,得到生存预测概率
Figure BDA0004064977760000107
基于训练集中癌症患者的预测概率
Figure BDA0004064977760000108
和真实生存状态yp计算分类损失函数Lclf;最终,总损失函数L如下式:
L=λLclf+(1-λ)LmarfinNCE
其中,λ为超参数。通过Adam算法优化损失函数L,直到L的值不再下降时,停止训练,得到训练好的预测模型;
当对测试集中癌症患者5年内的生存概率进行预测时,基于构建好的患者疾病关系图,利用训练好的预测模型,获得疾病节点的特征表示,生成测试集中癌症患者的临床特征表示、共病邻居聚合表示和基于元路径的癌症患者邻居聚合表示,将三种不同维度的特征表示拼接后通过生存情况预测分类器即可获得癌症患者的生存情况预测结果。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (10)

1.一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,包括如下步骤:
S1:获取癌症患者的临床数据和历史共病数据,并对临床数据和历史共病数据进行预处理;
S2:构建患者疾病关系图,并用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示;
S3:基于S2,以ICD-10疾病分类标准为依据,构建正负疾病样本对;
S4:基于S2、S3和图卷积网络生成疾病节点的特征表示,通过投影生成疾病节点的对比表征,并构建对比损失;
S5:基于患者疾病关系图结构和图神经网络生成癌症患者的特征表示,并构建分类损失;
S6:模型训练、优化损失函数并对癌症患者的生存情况进行分类预测。
2.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S2中构建患者疾病关系图具体为:
构建患者疾病关系图G=(V,E),V为点集,E为边集;所述患者疾病关系图中,V可划分为两个互不相交的节点子集Vp和Vd,其中Vp中每个节点表示一个癌症患者,Vd中的每个节点表示一个癌症群体的慢性共病;若患者p患有疾病d,则将表示患者p的节点与表示疾病d的节点相连,最终由所有的患者-疾病连边构成边集E。
3.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S2中用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示具体为:
癌症患者的临床特征包括人口统计学信息、治疗信息和病理学信息,选用对应特征作为癌症患者节点的初始特征表示
Figure FDA0004064977750000011
其中pi表示第i位癌症患者;用独热编码初始化疾病节点的特征表示,具体的,第i个疾病节点di的初始特征表示
Figure FDA0004064977750000012
4.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S3中以ICD-10疾病分类标准为依据,构建正负疾病样本对具体为:
以ICD-10分类标准为基础,对于一个疾病A,从它所在的疾病组中随机选取另一个疾病B,构成正样本对(A,B);同时通过采样获得k个负样本对,负样本对具体采样方法为:首先随机选取k1个与疾病A不在同一疾病章节的疾病作为第一负样本;再从疾病A处于相同疾病章节但不同疾病组的疾病中随机选取k-k1个疾病,作为第二负样本,第二负样本的占比通过调节(k-k1)与k的比值决定;所述k个负样本分别和第一负样本、第二负样本构成k对负样本对。
5.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S4中基于图卷积网络生成疾病节点的特征表示,通过投影器生成疾病节点的对比表征具体为:
在患者疾病关系图G中,疾病节点的一阶邻居均为患者节点,患者节点的一阶邻居均为疾病节点;首先,基于患者疾病关系图G,以图卷积网络为特征提取编码器,获取每个疾病节点的特征表示
Figure FDA0004064977750000021
特别的,当图卷积网络的层数定义为1层时,疾病节点的特征表示是对患有该疾病的所有癌症患者的特征聚合表示,然后将每个疾病的特征表示
Figure FDA0004064977750000022
输入到投影器得到对比表征
Figure FDA0004064977750000023
所述的投影器结构为两层的全连接网络。
6.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S4中构建对比损失具体为:
依据ICD-10分类标准,相同疾病组内的疾病应该具有更相似的表征,而不同疾病组或不同疾病章节的疾病表征间应该具有更低的相似性,基于此,在经过S4中定义的图卷积网络编码器和投影器得到每个疾病节点的对比表征后,构建对比损失函数LmarginNCE,具体的,LmarginNCE的计算方法如下:
Figure FDA0004064977750000024
其中,N为疾病节点总数;
Figure FDA0004064977750000025
表示一对正样本对;
Figure FDA0004064977750000026
表示一对负样本对;V-表示由di的k个负样本构成的集合;τ为超参数;sim(di,dj)是度量疾病di和dj相似性的函数,具体的,
Figure FDA0004064977750000027
其中,
Figure FDA0004064977750000028
Figure FDA0004064977750000029
为通过S4中定义的图卷积网络编码器和投影器得到的疾病节点di和dj的对比表征,
Figure FDA00040649777500000210
Figure FDA00040649777500000211
表示
Figure FDA00040649777500000212
Figure FDA00040649777500000213
的模长;m为决策边界且m<0。
7.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S5中生成癌症患者特征表示具体为:
癌症患者p的特征表示是基于患者疾病关系图的结构,结合临床特征和历史共病信息共同生成的;具体的,由临床特征表示
Figure FDA00040649777500000214
共病邻居聚合表示
Figure FDA00040649777500000215
和癌症患者邻居聚合表示
Figure FDA00040649777500000216
构成;癌症患者的最终特征表示hp
Figure FDA00040649777500000217
Figure FDA00040649777500000218
拼接后得到,计算公式如下:
Figure FDA00040649777500000219
其中,||表示向量的拼接。
8.根据权利要求7所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述癌症患者临床特征表示
Figure FDA0004064977750000031
是对患者人口统计学特征、治疗信息和病理学信息的表征,构建方式如下式:
Figure FDA0004064977750000032
其中,Ws和bs分别表示可训练的权重矩阵和偏置项,σ表示激活函数,
Figure FDA0004064977750000033
表示患者的初始特征表示;
所述共病邻居聚合表示
Figure FDA0004064977750000034
通过聚合癌症患者的一阶邻居得到,不同节点的计算过程共享同一组参数,具体计算方式如下式:
Figure FDA0004064977750000035
其中,N(p)表示癌症患者节点p的一阶邻居集合,p′是集合N(p)中的元素,hp′是节点p′的特征表示,AGGREGATE函数旨在聚合节点p的邻居的嵌入表示,可选用均值计算函数,
Figure FDA0004064977750000036
则是由聚合函数AGGREGATE产生的协同表示;
所述癌症患者邻居聚合表示
Figure FDA0004064977750000037
通过聚合癌症患者的二阶癌症患者邻居节点而得;对于一个癌症患者节点p,首先对通过同一种元路径与癌症患者节点p关联的癌症患者邻居节点进行单独聚合,得到在每种元路径下的癌症患者邻居节点聚合结果
Figure FDA0004064977750000038
Figure FDA0004064977750000039
其中,Φr表示第r种疾病章节元路径,r=1,2,...,M,M为元路径种类数;
Figure FDA00040649777500000310
表示节点p通过元路径Φr所关联的癌症患者邻居节点的集合;j则是集合
Figure FDA00040649777500000311
中的节点,hj是节点j的特征表示;
Figure FDA00040649777500000312
为可训练的权重矩阵;
Figure FDA00040649777500000313
即集合
Figure FDA00040649777500000314
的节点个数;
然后,考虑到不同疾病章节的疾病对癌症生存预测任务的影响不同,进一步计算各个疾病章节的权重
Figure FDA00040649777500000315
并用该权重对各个疾病章节下的特征表示进行加权,具体的,
Figure FDA00040649777500000316
的计算方式如下式:
Figure FDA00040649777500000317
其中,Vp表示癌症患者节点集,|Vp|表示Vp中的节点个数;q是一个列向量,其参数通过训练得到;tanh为一种激活函数;Wα和bα分别是可训练的参数矩阵和偏置项;
Figure FDA0004064977750000041
是节点p以元路径Φr所关联的邻居节点的聚合表示;M是元路径种类数;
最后计算各个疾病章节特征表示的加权和
Figure FDA0004064977750000042
Figure FDA0004064977750000043
其中,
Figure FDA0004064977750000044
表示各疾病章节的权重;
Figure FDA0004064977750000045
是节点p以元路径Φr所关联的癌症患者节点的聚合表示;M是元路径种类数。
9.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S5中构建分类损失具体为:
将癌症患者的最终特征表示hp通过全连接层和Sigmoid函数,得到癌症患者的生存预测概率
Figure FDA0004064977750000046
分类损失函数Lclf可采用交叉熵损失函数,公式如下式:
Figure FDA0004064977750000047
其中,
Figure FDA0004064977750000048
表示对癌症患者p的预测概率;yp表示癌症患者p的真实生存状态;N是癌症患者总数。
10.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S6中模型训练、优化损失函数并对癌症患者的生存情况进行分类预测具体为:
获取癌症患者的历史疾病数据和人口统计学、治疗、病理学临床数据,将获取的癌症患者的数据划分为训练集、验证集和测试集,并对历史疾病和临床数据进行预处理;基于患者的历史疾病信息,构建包含所有癌症患者的患者疾病关系图,并分别初始化癌症患者和疾病节点的特征表示;基于图卷积网络可获取疾病节点的特征表示
Figure FDA0004064977750000049
一方面,将
Figure FDA00040649777500000410
输入投影器得到疾病节点的对比表征
Figure FDA00040649777500000411
基于对比表征
Figure FDA00040649777500000412
计算对比损失LmarginNCE;另一方面,分别聚合癌症患者节点的临床特征、共病邻居节点的特征表示和基于元路径的癌症患者邻居节点的特征表示,并将聚合的结果拼接后得到癌症患者节点的最终特征表示hp;之后将hp输入到生存情况预测分类器,得到生存预测概率
Figure FDA00040649777500000413
基于训练集中癌症患者的预测概率
Figure FDA00040649777500000414
和真实生存状态yp计算分类损失函数Lclf;最终,总损失函数L如下式:
L=λLclf+(1-λ)LmarginNCE
其中,λ为超参数。通过Adam算法优化损失函数L,直到L的值不再下降时,停止训练,得到训练好的预测模型;
当对测试集中癌症患者的生存概率进行预测时,基于构建好的患者疾病关系图,利用训练好的预测模型,获得疾病节点的特征表示,生成测试集中癌症患者的临床特征表示、共病邻居聚合表示和基于元路径的癌症患者邻居聚合表示,将三种不同维度的特征表示拼接后通过生存情况预测分类器即可获得癌症患者的生存情况预测结果。
CN202310071845.9A 2023-02-07 2023-02-07 一种基于图对比学习的癌症生存预测模型构建方法 Pending CN115985442A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310071845.9A CN115985442A (zh) 2023-02-07 2023-02-07 一种基于图对比学习的癌症生存预测模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310071845.9A CN115985442A (zh) 2023-02-07 2023-02-07 一种基于图对比学习的癌症生存预测模型构建方法

Publications (1)

Publication Number Publication Date
CN115985442A true CN115985442A (zh) 2023-04-18

Family

ID=85976051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310071845.9A Pending CN115985442A (zh) 2023-02-07 2023-02-07 一种基于图对比学习的癌症生存预测模型构建方法

Country Status (1)

Country Link
CN (1) CN115985442A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682565A (zh) * 2023-07-28 2023-09-01 济南蓝博电子技术有限公司 一种数字化医疗信息在线监测方法、终端及介质
CN118116600A (zh) * 2024-04-30 2024-05-31 数据空间研究院 一种基于多组学和临床检验数据的结直肠癌预后方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682565A (zh) * 2023-07-28 2023-09-01 济南蓝博电子技术有限公司 一种数字化医疗信息在线监测方法、终端及介质
CN118116600A (zh) * 2024-04-30 2024-05-31 数据空间研究院 一种基于多组学和临床检验数据的结直肠癌预后方法

Similar Documents

Publication Publication Date Title
CN115985442A (zh) 一种基于图对比学习的癌症生存预测模型构建方法
CN113782089B (zh) 基于多组学数据融合的药物敏感性预测方法和装置
CN112966114B (zh) 基于对称图卷积神经网络的文献分类方法和装置
CN112784913B (zh) 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置
US20230222311A1 (en) Generating machine learning models using genetic data
CN111898689A (zh) 一种基于神经网络架构搜索的图像分类方法
CN113157957A (zh) 一种基于图卷积神经网络的属性图文献聚类方法
CN112233798B (zh) 基于病理模式与注意力机制的可解释疾病风险分析系统
Vidhya et al. Deep learning based big medical data analytic model for diabetes complication prediction
Guedes et al. Long short term memory on chronic laryngitis classification
CN115064266B (zh) 基于不完整多组学数据的癌症诊断系统、设备及介质
CN114743037A (zh) 一种基于多尺度结构学习的深度医学图像聚类方法
Shirazi et al. Deep learning in the healthcare industry: theory and applications
CN117153268A (zh) 一种细胞类别确定方法及系统
CN114999635A (zh) 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法
CN114898879A (zh) 一种基于图表示学习的慢病风险预测方法
Swarna et al. Detection of colon cancer using inception v3 and ensembled cnn model
CN114420201A (zh) 一种多源数据高效融合的药物靶标相互作用的预测方法
Mukherji et al. Recent landscape of deep learning intervention and consecutive clustering on biomedical diagnosis
CN117591953A (zh) 基于多组学数据的癌症分类方法、系统及电子设备
CN113362900A (zh) 一种预测n4-乙酰胞苷的混合模型
CN117316268A (zh) 基于跨模态和图卷积的miRNA和疾病预测方法
Li et al. Neural architecture search via proxy validation
CN116978464A (zh) 数据处理方法、装置、设备以及介质
CN115691817A (zh) 一种基于融合神经网络的LncRNA-疾病关联预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination