CN115985442A

CN115985442A - 一种基于图对比学习的癌症生存预测模型构建方法

Info

Publication number: CN115985442A
Application number: CN202310071845.9A
Authority: CN
Inventors: 邱航; 杨萍; 阳旭菻; 王利亚
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-04-18

Abstract

本发明公开了一种基于图对比学习的癌症生存预测模型构建方法，属于信息技术领域，解决了癌症生存预测模型的效果受限问题。包括步骤S1：获取癌症患者的临床数据和历史共病数据，进行数据预处理；S2：构建患者疾病关系图，并用相关临床特征初始化癌症患者特征表示，用独热编码初始化疾病特征表示；S3：基于S2，构建正负疾病样本对；S4：基于S2、S3和图卷积网络生成疾病节点的特征表示，并构建对比损失；S5：基于患者疾病关系图结构和图神经网络生成癌症患者的特征表示，并构建分类损失；S6：模型训练、优化损失函数并对癌症患者的生存情况进行分类预测。本发明考虑患者的共病特征对癌症的生存状态的影响，获得更准确的预测效果。

Description

一种基于图对比学习的癌症生存预测模型构建方法

技术领域

本发明涉及信息技术领域，具体涉及一种基于图对比学习的癌症生存预测模型构建方法。

背景技术

癌症是全球疾病负担的主要原因，具有较高的发病率和死亡率。癌症生存预测是指对癌症患者的生存风险进行预测，得到癌症患者的生存结果，这对辅助医生优化治疗措施有重要意义，能够改善癌症患者的长期预后情况，有效避免过度治疗及医疗资源的浪费。

癌症生存预测研究主要分为风险因素识别和生存预测两类。风险因素识别主要采用传统统计方法研究影响癌症生存预后的风险因素，如突变基因和临床特征等，此类研究常常受限于样本来源，研究样本数量较少。随着医疗信息化的发展，电子医疗数据的积累为基于机器学习的癌症生存预测研究奠定了基石，现有的预测方法主要基于COX、Lasso回归分析和神经网络等模型实现，而用于预测使用的变量通常包括组学、临床和医学影像类数据。

近年来研究人员发现癌症患者的共病情况，即癌症患者确诊前患有的一种或多种其他疾病，与癌症预后之间存在着一定关联。尽管共病可能影响着癌症的生存预后，但目前的癌症生存预测方法却往往忽略了共病与生存状况的关系，并未对患者共病这一重要特征进行建模，因而限制了生存预测模型的效果。

发明内容

针对现有技术中存在的问题，本发明提供一种基于图对比学习的癌症生存预测模型构建方法，其目的在于：考虑癌症患者的历史共病记录对癌症的生存状态的影响，获得更准确的预测效果。

本发明采用的技术方案如下：

一种基于图对比学习的癌症生存预测模型构建方法，包括如下步骤：

S1：获取癌症患者的临床数据和历史共病数据，并对临床数据和历史共病数据进行预处理；所述获取癌症患者的临床数据包括人口统计学信息、治疗信息和病理学信息,对临床数据进行数据分级和标准化预处理；获取癌症患者的历史共病数据，包括癌症患者在癌症确诊前患有的所有慢性疾病，疾病采用ICD-10疾病分类标准进行编码预处理；

S2：构建患者疾病关系图，并用相关临床特征初始化癌症患者特征表示，用独热编码初始化疾病特征表示；

S3：基于S2，以ICD-10疾病分类标准为依据，构建正负疾病样本对；

S4：基于S2、S3和图卷积网络生成疾病节点的特征表示，通过投影生成疾病节点的对比表征，并构建对比损失；

S5：基于患者疾病关系图结构和图神经网络生成癌症患者的特征表示，并构建分类损失；

S6：模型训练、优化损失函数并进行生存预测。

优选的，所述S2中构建患者疾病关系图具体为：

构建患者疾病关系图G＝(V,E)，V为点集，E为边集；所述患者疾病关系图中，V可划分为两个互不相交的节点子集V_p和V_d，其中V_p中每个节点表示一个癌症患者，V_d中的每个节点表示一个癌症群体的慢性共病；若患者p患有疾病d，则将表示患者p的节点与表示疾病d的节点相连，最终由所有的患者-疾病连边构成边集E。

优选的，所述S2中用相关临床特征初始化癌症患者特征表示，用独热编码初始化疾病特征表示具体为：

癌症患者的临床特征包括人口统计学信息、治疗信息和病理学信息，选用对应特征作为癌症患者节点的初始特征表示

其中p_i表示第i位癌症患者；用独热编码初始化疾病节点的特征表示，具体的，第i个疾病节点d_i的初始特征表示

优选的，所述S3中以ICD-10疾病分类标准为依据，构建正负疾病样本对具体为：

以ICD-10分类标准为基础，对于一个疾病A，从它所在的疾病组中随机选取另一个疾病B，构成正样本对(A,B)；同时通过采样获得k个负样本对，负样本对具体采样方法为：首先随机选取k₁个与疾病A不在同一疾病章节的疾病作为第一负样本；再从疾病A处于相同疾病章节但不同疾病组的疾病中随机选取k-k₁个疾病，作为第二负样本，第二负样本的占比通过调节(k-k₁)与k的比值决定；所述k个负样本分别和第一负样本、第二负样本构成k对负样本对。

优选的，所述S4中基于图卷积网络生成疾病节点的特征表示，通过投影器生成疾病节点的对比表征具体为：

在患者疾病关系图G中，疾病节点的一阶邻居均为患者节点，患者节点的一阶邻居均为疾病节点；首先，基于患者疾病关系图G，以图卷积网络为特征提取编码器，获取每个疾病节点的特征表示

特别的，当图卷积网络的层数定义为1层时，疾病节点的特征表示是对患有该疾病的所有癌症患者的特征聚合表示，然后将每个疾病的特征表示

输入到投影器得到对比表征

所述的投影器结构为两层的全连接网络。

优选的，所述S4中构建对比损失具体为：

依据ICD-10分类标准，相同疾病组内的疾病应该具有更相似的表征，而不同疾病组或不同疾病章节的疾病表征间应该具有更低的相似性，基于此，在经过S4中定义的图卷积网络编码器和投影器得到每个疾病节点的对比表征后，构建对比损失函数L_marginNCE，具体的，L_marginNCE的计算方法如下：

其中，N为疾病节点总数；

表示一对正样本对；

表示一对负样本对；V^-表示由d_i的k个负样本构成的集合；τ为超参数；sim(d_i,d_j)是度量疾病d_i和d_j相似性的函数，具体的，

其中，

和

为通过S4中定义的图卷积网络编码器和投影器得到的疾病节点d_i和d_j的对比表征，

和

表示

和

的模长；m为决策边界且m<0。

优选的，所述S5中生成癌症患者特征表示具体为：

癌症患者p的特征表示是基于患者疾病关系图的结构，结合临床特征和历史共病信息共同生成的；具体的，由临床特征表示

共病邻居聚合表示

和癌症患者邻居聚合表示

构成；癌症患者的最终特征表示h_p由

和

拼接后得到，计算公式如下：

其中，||表示向量的拼接。

进一步地，所述癌症患者临床特征表示

是对患者人口统计学特征、治疗信息和病理学信息的表征，构建方式如下式：

其中，W_s和b_s分别表示可训练的权重矩阵和偏置项，σ表示激活函数，

表示患者的初始特征表示；

所述共病邻居聚合表示

通过聚合癌症患者的一阶邻居得到，不同节点的计算过程共享同一组参数，具体计算方式如下式：

其中，N(p)表示癌症患者节点p的一阶邻居集合，p′是集合N(p)中的元素，h_p′是节点p′的特征表示，AGGREGATE函数旨在聚合节点p的邻居的嵌入表示，可选用均值计算函数，

则是由聚合函数AGGREGATE产生的协同表示；

所述癌症患者邻居聚合表示

通过聚合癌症患者的二阶癌症患者邻居节点而得；对于一个癌症患者节点p，首先对通过同一种元路径与癌症患者节点p关联的癌症患者邻居节点进行单独聚合，得到在每种元路径下的癌症患者邻居节点聚合结果

其中，Φ_r表示第r种疾病章节元路径，r＝1,2,...,M，M为元路径种类数；

表示节点p通过元路径Φ_r所关联的癌症患者邻居节点的集合；j则是集合

中的节点，h_j是节点j的特征表示；

为可训练的权重矩阵；

即集合

的节点个数；

然后，考虑到不同疾病章节的疾病对癌症生存预测任务的影响不同，进一步计算各个疾病章节的权重

并用该权重对各个疾病章节下的特征表示进行加权，具体的，

的计算方式如下式：

其中，V_p表示癌症患者节点集，|V_p|表示V_p中的节点个数；q是一个列向量，其参数通过训练得到；tanh为一种激活函数；W_α和b_α分别是可训练的参数矩阵和偏置项；

是节点p以元路径Φ_r所关联的邻居节点的聚合表示；M是元路径种类数；

最后计算各个疾病章节特征表示的加权和

其中，

表示各疾病章节的权重；

是节点p以元路径v_r所关联的癌症患者节点的聚合表示；M是元路径种类数。

优选的，所述S5中构建分类损失具体为：

将癌症患者的最终特征表示h_p通过全连接层和Sigmoid函数，得到癌症患者的生存预测概率

分类损失函数L_clf可采用交叉熵损失函数，公式如下式：

其中，

表示对癌症患者p的预测概率；y_p表示癌症患者p的真实生存状态；N是癌症患者总数。

优选的，所述S6中模型训练、优化损失函数并对癌症患者的生存情况进行分类预测具体为：

获取癌症患者的历史疾病数据和人口统计学、治疗、病理学临床数据，将获取的癌症患者的数据按照7:1:2的比例划分为训练集、验证集和测试集，并对历史疾病和临床数据进行预处理；基于患者的历史疾病信息，构建包含所有癌症患者的患者疾病关系图，并分别初始化癌症患者和疾病节点的特征表示；基于图卷积网络可获取疾病节点的特征表示

一方面，将

输入投影器得到疾病节点的对比表征

基于对比表征

计算对比损失L_marginNCE；另一方面，分别聚合癌症患者节点的临床特征、共病邻居节点的特征表示和基于元路径的癌症患者邻居节点的特征表示，并将聚合的结果拼接后得到癌症患者节点的最终特征表示h_p；之后将h_p输入到生存情况预测分类器，得到生存预测概率

基于训练集中癌症患者的预测概率

和真实生存状态y_p计算分类损失函数L_clf；最终，总损失函数L如下式：

L＝λL_clf+(1-λ)L_marginNCE

其中，λ为超参数。通过Adam算法优化损失函数L，直到L的值不再下降时，停止训练，得到训练好的预测模型；

当对测试集中癌症患者5年内的生存概率进行预测时，基于构建好的患者疾病关系图，利用训练好的预测模型，获得疾病节点的特征表示，生成测试集中癌症患者的临床特征表示、共病邻居聚合表示和基于元路径的癌症患者邻居聚合表示，将三种不同维度的特征表示拼接后通过生存情况预测分类器即可获得癌症患者的生存情况预测结果。

综上所述，本发明具有如下有益效果：

(1)本发明考虑了患者的历史共病特征对癌症的生存状态的影响，有利于获得更准确的预测效果；

(2)本发明可获取更具有表征力的疾病特征表示，并利用对比损失作为正则化因子，辅助癌症生存预测任务。基于疾病ICD-10分类标准固有的层次信息定义疾病之间的相似性，并且构建MarginNCE对比损失函数，有利于降低模型对噪声的敏感性；

(3)癌症患者的特征表示由患者节点的临床特征、疾病邻居的特征表示和基于元路径的癌症患者邻居的特征表示共同构成；同时考虑患者的自身的临床特征和患者疾病关系图的结构特征，使得患者表征更充分。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为本发明的流程示意框图；

图2为本发明的癌症生存预测模型框架示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合图1、图2对本发明作详细说明。

S1：获取癌症患者的临床数据和历史共病数据，并对临床数据和历史共病数据进行预处理；所述获取癌症患者的临床数据包括人口统计学信息、治疗信息和病理学信息,对临床数据进行数据分级和标准化预处理；获取癌症患者的历史共病数据包括癌症患者在癌症确诊前患有的所有慢性疾病，疾病采用ICD-10疾病分类标准进行编码预处理；

S6：模型训练、优化损失函数并对癌症患者的生存情况进行分类预测。

S2中构建患者疾病关系图具体为：

构建患者疾病关系图G＝(V,E)，V为点集，E为边集；所述患者疾病关系图中，V可划分为两个互不相交的节点子集V_p和V_d，其中V_p中每个节点表示一个癌症患者，V_d中的每个节点表示一个癌症群体的慢性共病；若患者p患有疾病d，则将表示患者p的节点与表示疾病d的节点相连，最终由所有的患者-疾病连边构成边集E。需要说明的是，疾病统一采用国际疾病分类第十版(ICD-10)编码，ICD-10根据疾病的特征将疾病划分为22个疾病章节，261个疾病组，共2045个类目编码，图G中的一个疾病节点即对应于一个类目编码。

S2中用相关临床特征初始化癌症患者特征表示，用独热编码初始化疾病特征表示具体为：

S3中以ICD-10疾病分类标准为依据，构建正负疾病样本对具体为：

S4中基于图卷积网络生成疾病节点的特征表示，通过投影器生成疾病节点的对比表征具体为：

输入到投影器得到对比表征

所述的投影器结构为两层的全连接网络。

S4中构建对比损失具体为：

其中，N为疾病节点总数；

表示一对正样本对；

其中，

和

和

表示

和

的模长；m为决策边界且m<0，通过添加决策边界m降低正负样本分别与节点d_i之间相似性度量的差异边界，从而更适应S3中所述的正负样本对构建方法。

S5中生成患者特征表示具体为：

共病邻居聚合表示

和癌症患者邻居聚合表示

构成；癌症患者的最终特征表示h_p由

和

拼接后得到，计算公式如下：

其中，||表示向量的拼接。

癌症患者临床特征表示

表示患者的初始特征表示；

所述疾病邻居聚合表示

通过聚合癌症患者的一阶邻居，不同节点的计算过程共享同一组参数，具体计算方式如下式：

其中，N(p)表示癌症患者节点p的一阶邻居集合，p'是集合N(p)中的元素，h_p′是节点p′的特征表示，AGGREGATE函数旨在聚合节点p的邻居的嵌入表示，可选用均值计算函数，

则是由聚合函数AGGREGATE产生的协同表示；

依据疾病节点所属的疾病章节(如循环系统、肿瘤、呼吸系统等)，可以在患者疾病关系图中找到“患者-疾病章节-患者”这样的元路径，如“患者-循环系统疾病-患者”、“患者-肿瘤-患者”和“患者-呼吸系统疾病-患者”等。每条元路径可以连接两个癌症患者，而所述元路径连接的两个癌症患者患有相同疾病章节的疾病，所以更可能有着更相似的身体状况或临床表现。基于此，可根据所述的元路径进一步挖掘患者之间的潜在关系。癌症患者邻居聚合表示

就是通过聚合以所述元路径相连的邻居患者节点特征表示而得到；

所述癌症患者邻居聚合表示

表示节点p通过元路径Φ_r所关联的邻居患者节点的集合；j则是集合

中的节点，h_j是节点j的特征表示；

为可训练的权重矩阵；

即集合

的节点个数；

的计算方式如下式：

最后计算各个疾病章节特征表示的加权和

其中，

表示各疾病章节的权重；

是节点p以元路径Φ_r所关联的癌症患者邻居节点的聚合表示；M是元路径种类数。

S5中构建分类损失具体为：

分类损失函数L_clf可采用交叉熵损失函数，公式如下式：

其中，

S6中模型训练、优化损失函数并对癌症患者的生存情况进行分类预测具体为：

一方面，将

输入投影器得到疾病节点的对比表征

基于对比表征

基于训练集中癌症患者的预测概率

L＝λL_clf+(1-λ)L_marfinNCE

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。