CN115938592B

CN115938592B - 一种基于局部增强图卷积网络的癌症预后预测方法

Info

Publication number: CN115938592B
Application number: CN202310220890.6A
Authority: CN
Inventors: 张永清; 邹权; 熊术文; 牛颢; 丁春利; 吴锡; 王紫轩; 刘宇航; 罗洪; 王茂丞
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-05-05
Anticipated expiration: 2043-03-09
Also published as: CN115938592A

Abstract

本发明公开了一种基于局部增强图卷积网络的癌症预后预测方法，属于医学技术领域，包括以下步骤：S1：获取多组学数据和通路原始数据，并利用多组学数据路和通路原始数据构建无向图；S2：对无向图进行局部增强；S3：利用图卷积网络对局部增强后的无向图进行特征提取和特征融合，得到整体特征映射组合；S4：根据整体特征映射组合，构建比例风险模型，将整体特征映射组合输入至比例风险模型中，确定患者生存风险。本发明通过对癌症相关组学数据构建图神经网络学习，对患者进行预后预测及分析，可以为生物实验提供一定指导，从而有效减少实验时间与节省实验成本。

Description

一种基于局部增强图卷积网络的癌症预后预测方法

技术领域

本发明属于医学技术领域，具体涉及一种基于局部增强图卷积网络的癌症预后预测方法。

背景技术

癌症是一种异质性疾病，涉及基因和环境之间复杂的相互作用，导致同一型癌症患者的癌症预后存在显著差异。因此，有必要开发基于分子特征的准确、稳健的计算方法来预测和分析癌症预后，这可以帮助患者了解预期寿命，也可以帮助临床医生提供正确的治疗指导。随着高通量测序技术的发展，多组学信息得以获得，包括mRNA [2]、miRNA和拷贝数变异（CNV）。与基于单组学数据的研究相比，多组学数据有助于捕获癌症预后中潜在的分子相关性。

在过去的几年里，提出了许多统计学方法基于多组学数据来预测癌症患者的生存风险。例如，Simon等人提出了一个带有弹性净惩罚的Cox比例风险模型，名为Cox-EN，用于有效和稳定的生存风险估计。Tong等人提出了一种基于Harrell一致性指数的聚类Cox比例风险模型Cox-HC，以整合高维多组学数据，以提高结肠癌预后预测性能。Lu等人设计了一个基于遗传算法的在线梯度增强模型，用于增量乳腺癌预后。这些统计方法已经被精心设计，以结合多组学数据对癌症进行预后预测和分析。然而，这些方法在准确地从高维和异构的多组学数据中学习其代表性特征方面存在局限性。

近年来，许多深度学习方法已成功应用于多组学癌症预后预测和分析。例如，Chelela等人将Cox比例风险模型与深度学习模型相结合，提出名为Cox-DL的模型用于泛癌症（20种不同癌症类型）预后预测。Lee等人将Cox比例风险模型与深度自编码器结合，提出Cox-AE模型用于肺癌预后。Tong等人开发了一种连接自动编码器ConcatAE，以保存来自每个单组学数据的模态唯一信息。然后他们使用一个跨模态自动编码器，以实现乳腺癌生存分析的模态不变表示。然而，传统自编码器容易受数据噪声的影响，针对该问题Chai等人使用了降噪自编码器。他们提出一个名为DCAP的框架用于准确进行癌症预后预测。它首先通过降噪自编码器捕获多组学数据的鲁棒表示，然后基于学习到的代表性特征预测生存风险。然而，多组学特征是分子相互作用的结果，它们属于以生物网络为代表的非欧几里得流形，如蛋白质-蛋白质相互作用网络和京都基因和基因组百科全书网络。基于欧几里得流形的深度学习方法无法学习非欧几里得特征，导致在癌症预后预测和分析方面的性能不理想。

幸运的是，图神经网络是处理非欧几里得流形的一种有效方法，并且已经被广泛应用于生物信息领域。然而只有少量研究工作将其应用于癌症预后预测任务。Wang等人通过将图卷积网络与Cox比例风险模型结合起来，开发了一个图生存网络GraphSurv用于泛癌预后分析。GraphSurv的关键是将生物网络中基因间的关联关系作为先验信息引入到模型中，从而构造非欧几里得流形。然后利用图卷积网络和Cox比例风险模型来预测癌症预后。然而，由于一些基因的邻居节点数量有限，局部邻居的多组学特征仍需增强，以代表不同基因之间的分子相互作用。因此，有限的邻居基因限制了对癌症生存风险的准确预测和预后生物标志物的发现。

发明内容

本发明为了解决上述问题，提出了一种基于局部增强图卷积网络的癌症预后预测方法。

本发明的技术方案是：一种基于局部增强图卷积网络的癌症预后预测方法包括以下步骤：

S1：获取多组学数据和通路原始数据，并利用多组学数据路和通路原始数据构建无向图；

S2：对无向图进行局部增强；

S3：利用图卷积网络对局部增强后的无向图进行特征提取和特征融合，得到整体特征映射组合；

S4：根据整体特征映射组合，构建比例风险模型，将整体特征映射组合输入至比例风险模型中，确定患者生存风险。

进一步地，步骤S1中，对多组学数据进行缺失值处理和归一化处理，得到预处理后的多组学数据，并利用通路原始数据构建无向图。

进一步地，步骤S2包括以下子步骤：

S21：在无向图中，设定中心节点，并根据中心节点和邻居节点生成潜在变量；

S22：根据中心节点、邻居节点以及潜在变量，生成证据下限模型；

S23：利用条件变分自编码器对证据下限模型依次进行训练和增强，完成对无向图的局部增强。

进一步地，步骤S22中，证据下限模型的表达式为：

式中， X _g表示中心节点的特征矩阵， X _u表示邻居节点的特征矩阵，θ表示生成参数，φ表示变分参数， M表示中心节点的邻居节点数， z表示潜在变量， q _φ(•)表示后验分布函数， KL(•)表示 KL散度函数， p _θ(•)表示先验分布函数。

进一步地，步骤S23中，利用相邻对( X _g, X _u)对证据下限模型进行最大化，将潜在变量作为条件变分自编码器中解码器的输入，生成中心节点的增强特征矩阵，完成对无向图的局部增强，其中， X _g表示中心节点的特征矩阵， X _u表示邻居节点的特征矩阵。

进一步地，步骤S3中，将多组学数据的特征矩阵和多组学数据的增强特征矩阵作为图卷积网络的输入，进行特征提取和特征融合；其中，图卷积网络包括第一图卷积层和第二图卷积层，其计算公式分别为：

式中， H ⁽¹⁾表示第一图卷积层的输出， H ⁽²⁾表示第二图卷积层的输出， X表示多组学数据的特征矩阵，表示多组学数据的增强特征矩阵， W ⁽⁰⁾表示第一图卷积层的参数矩阵， W ⁽¹⁾表示第二图卷积层的参数矩阵，RELU(•)表示RELU函数，SELU(•)表示SELU函数，表示正则化项。

进一步地，步骤S4中，比例风险模型 F的表达式为：

式中， N _E=1表示未删失的患者的数量， β表示多层感知器的参数向量， t _i表示患者 i的生存时间， t _j表示患者 j的生存时间，表示患者 i的特征嵌入， E _i表示第 i个患者是否死亡，患者 j的特征嵌入， E _i=1表示患者死亡， E _i=0表示患者存活。

本发明的有益效果是：

（1）本发明应用条件变分自编码器进行局部增强，通过更好地学习基因之间的相互作用来提高图卷积网络的预测能力；在癌症预后预测方面取得了最新进展，解决了现有研究存在的不能很好地利用来自局部邻居节点的多组学特征代表不同基因之间的分子相互作用的技术问题，从而准确地实现癌症预后预测及分析；

（2）本发明所提出的方法具备泛化性，除了可以挖掘乳腺癌预后标志物，同样可以应用于其他癌症的预后标志物挖掘。通过分析这些癌症预后标志物可以为癌症诊断和治疗提供新的方向和思路；

（3）本发明通过对癌症相关组学数据构建图神经网络学习，对患者进行预后预测及分析，可以为生物实验提供一定指导，从而有效减少实验时间与节省实验成本。

附图说明

图1为基于局部增强图卷积网络的癌症预后预测方法的流程图。

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。

如图1所示，本发明提供了一种基于局部增强图卷积网络的癌症预后预测方法，包括以下步骤：

S2：对无向图进行局部增强；

在本发明实施例中，步骤S1中，对多组学数据进行缺失值处理和归一化处理，得到预处理后的多组学数据，并利用通路原始数据构建无向图。

在本发明实施例中，首先从TCGA数据库获得15种人类癌症的mRNA、CNV和DNA甲基化原始数据；从KEGG数据库获得人类通路原始数据。然后对多组学数据进行缺失值处理和归一化处理，得到预处理后的原始数据，并利用通路数据构建图。最后筛选了每种癌症中mRNA、CNV和DNA甲基化都存在的基因，并连接多组学数据和网络特征从而建立了一个无向图。其中每个节点对应于KEGG通路中的一个基因，每条边对应于KEGG通路中每对基因之间的相互作用关系。为每个基因分配三种组学数据特征，即mRNA、CNV和DNA甲基化数据。

mRNA：为了量化每个样本中每个基因的表达水平，本发明使用了来自TCGA的数据集。对于每个基因，mRNA表达量通过对数函数进行转化。如果一个基因的表达量缺失，则将缺失值设为零。

CNV：基因相关的拷贝数变异从TCGA下载。拷贝数变异值已经通过以底数为2的对数函数进行转换。基因坐标标识了原始拷贝数变异值。然后，本发明使用基因坐标计算每个样本中每个基因的平均拷贝数，并输出基因水平的拷贝数变异数据。

DNA甲基化：本发明从TCGA中收集了DNA甲基化数据。原始的甲基化值由一个beta（ β）值表示，并由一个CpG位点进行标识。对于每个基因，本发明定义了一个窗口，定义为在转录起始位点之前的±1,500个碱基对区域。然后，本发明将所定义的窗口内的所有CpG位点的beta（ β）值取平均值，以计算每个基因的平均启动子甲基化程度。

KEGG通路：KEGG通路图是一个用KEGG同源群表示的分子相互作用网络图。本发明从KEGG数据库下载了KEGG通路，并通过R包“parseKGML2Graph”生成了该通路中基因产物的相互作用网络。去除冗余交互后，网络包含6336个节点和71455个交互。

在本发明实施例中，步骤S2包括以下子步骤：

步骤S2中，利用条件变分自编码器对构建好的无向图进行局部增强。给定一个基因和相应的多组学特征（mRNA、CNV和DNA甲基化），条件变分自编码器根据给定的基因学习相邻基因的多组学特征的条件分布。随后，条件变分自编码器根据学习到的分布生成与给定基因相关的特征作为附加输入。具体原理如下：

假设基因的数量是 N。条件变分自编码器的输入是来自KEGG通路的基因产物的相互作用网络，该网络定义为具有 N个节点，以mRNA、CNV、DNA甲基化数据为节点特征的无向图。因此，可以将输入图的特征矩阵定义为 X∈ R ^N×3。

给定一个中心节点 g，利用条件变分自编码器来学习邻居 u( u∈ N _g)的基因多组学特征的条件分布。符号 N _g表示给定的中心节点 g的邻居节点的集合。

设 X _g∈ R ^1×3和 X _u∈ R ^Dg×3分别表示节点 g及其邻居的特征矩阵。其中， Dg为节点 g的度。

具体来说，条件变分自编码器首先从先验高斯分布 p _θ( z| X _u, X _g)中生成潜在变量z。潜在变量z表示 g及其邻居节点特征的分布。然后，条件变分自编码器通过以z和 X _g为条件根据条件分布 p _θ( X _u| X _g, z)生成数据 X _u。设φ和θ分别表示变分参数和生成参数，生成证据下限（Evidence LowerBound, ELBO）。

在训练阶段，条件变分自编码器的目标是利用相邻对( X _g, X _u)来最大化ELBO。在生成阶段，条件变分自编码器使用特征 X _g作为条件，并采样一个隐藏的变量z作为解码器的输入，生成与节点 g相关的特征矩阵。

在本发明实施例中，步骤S22中，证据下限模型的表达式为：

在本发明实施例中，步骤S23中，利用相邻对( X _g, X _u)对证据下限模型进行最大化，将潜在变量作为条件变分自编码器中解码器的输入，生成中心节点的增强特征矩阵，完成对无向图的局部增强，其中， X _g表示中心节点的特征矩阵， X _u表示邻居节点的特征矩阵。

在本发明实施例中，步骤S3中，将多组学数据的特征矩阵和多组学数据的增强特征矩阵作为图卷积网络的输入，进行特征提取和特征融合；其中，图卷积网络包括第一图卷积层和第二图卷积层，其计算公式分别为：

式中， H ⁽¹⁾表示第一图卷积层的输出， H ⁽²⁾表示第二图卷积层的输出， X表示多组学数据的特征矩阵，表示多组学数据的增强特征矩阵， W ⁽⁰⁾表示第一图卷积层的参数矩阵， W ⁽¹⁾表示第二图卷积层的参数矩阵，RELU(•)表示RELU函数，SELU(•)表示SELU函数，表示正则化项。中心节点的增强特征矩阵即为多组学数据的增强特征矩阵。

图卷积神经网络以原始的多组学特征矩阵 X和生成的增强特征矩阵作为输入。本发明对卷积神经网络的第一个图卷积层做了一个小的变化。它直接将 X和相加作为输入。

在本发明实施例中，步骤S4中，比例风险模型 F的表达式为：

本发明提出了一种基于局部增强图卷积网络的癌症预后预测和分析方法，以能够有效解决有限的局部邻居节点的多组学特征不能有效代表不同基因之间的分子相互作用的问题。概括来说，给定任何患者的多组学数据和生物网络，利用条件变分自编码器生成对应的增强特征。然后，将生成的增强特征和原始特征输入癌症预后预测模型，完成癌症预后预测任务。

利用本发明所提出的方法所得到的结果进行下游分析，挖掘出预后标志物。具体原理如下：

为了挖掘癌症的预后生物标志物，本发明首先根据所提出方法预测的中位生存风险将患者分组为高风险患者组和低风险患者组。然后，本发明应用差异表达分析，根据划分的高、低风险组来识别表达差异最显著的基因。这些表达差异最显著的基因被认为是可能影响癌症患者预后的生物标志物。

为了验证本发明的有效性，下面进行一些列实证实验。

实验一：本发明可以通过多组学数据来估计生存风险。

如表1所示，LAGProg在10折交叉验证和独立检验中获得了基本相同的C-index值，15个癌症数据集在验证集和测试集上的平均C-index值分别为0.718和0.715。结果表明，LAGProg具有泛化能力。

表1

癌症	验证集	测试集	测试集(95% 置信度)	癌症	验证集	测试集	测试集(95% 置信度)
								BLCA	0.703	0.674	0.621-0.728	LUAD	0.701	0.667	0.583-0.751
BRCA	0.684	0.704	0.660-0.748	LUSC	0.714	0.625	0.567-0.683
								CESC	0.727	0.740	0.675-0.805	MESO	0.767	0.809	0.752-0.867
COAD	0.757	0.774	0.732-0.861	PAAD	0.766	0.736	0.650-0.821
								ESCA	0.724	0.729	0.666-0.792	SARC	0.693	0.720	0.655-0.785
HNSC	0.655	0.654	0.585-0.723	SKCM	0.623	0.619	0.590-0.649
								L.GG	0.785	0.815	0.771-0.858	STAD	0.706	0.710	0.604-0.818
LIHC	0.762	0.756	0.724-0.788	Average	0.718	0.715	0.647-0.787

实验二：本发明在预后预测方面可以显著优于对比方法。

表2总结了在15个TCGA数据集上本发明与对比方法关于C-index评价指标的比较结果。从表2中得到的3主要观察结果如下：

（1）深度学习方法（Cox-AE、ConcatAE和DCAP）的性能始终优于统计学方法（Cox-PCA、Cox-EN和Cox-HC）。这表明深度学习方法比统计方法可以更准确地从高维和异构多组数据中捕获代表性特征。

（2）GrapSurv（一种图神经网络方法）可以显著优于深度学习方法（Cox-AE、ConcatAE和DCAP）。这表明图神经网络方法可以学习由KEGG网络所代表的分子相互作用。然而GrapSurv在BLCA、LIHC、LUSC和SARC数据集上的性能表现不如深度学习方法。这是因为这些数据集中的基因在KEGG网络中具有有限的邻居节点，这限制了中心基因节点的多组学特征的表示。

（3）在大多数数据集上（除了LGG和SKCM）中，本发明可以达到最高的C-index值，在0.619（SKCM）和0.815（LGG）之间，平均为0.715。与GraphSruv相比，本发明可以将C-index值平均提高8.5%。这表明，将生成的特征与原始的多组学特征相结合，可以增强图神经网络学习基因表示的能力。

表2

癌症	Cox-PCA	Cox-EN	Cox-HC	Cox-AE	ConcatAE	DCAP	GraphSurv	LAGProg
									BLCA	0.582	0.605	0.611	0.626	0.634	0.646	0.624	0.674
BRCA	0.603	0.611	0.616	0.653	0.658	0.662	0.696	0.704
									CESC	0.595	0.633	0.647	0.661	0.672	0.685	-	0.740
COAD	0.568	0.580	0.591	0.628	0.622	0.622	-	0.774
									ESCA	0.557	0.564	0.572	0.571	0.584	0.594	-	0.729
HNSC	0.553	0.573	0.580	0.602	0.608	0.628	0.637	0.654
									LGG	0.691	0.719	0.731	0.805	0.797	0.823	0.837	0.815
LIHC	0.593	0.615	0.629	0.703	0.701	0.710	0.684	0.756
									LUAD	0.559	0.573	0.583	0.612	0.621	0.629	0.646	0.667
LUSC	0.541	0.554	0.559	0.582	0.580	0.597	0.529	0.625
									MESO	0.660	0.675	0.708	0.752	0.747	0.765	-	0.809
PAAD	0.562	0.591	0.606	0.645	0.636	0.665	-	0.736
									SARC	0.585	0.597	0.631	0.706	0.694	0.719	0.695	0.720
SKCM	0.554	0.568	0.595	0.631	0.638	0.644	0.646	0.619
									STAD	0.559	0.568	0.571	0.577	0.589	0.591	0.592	0.710
Average	0.584	0.602	0.615	0.650	0.652	0.665	0.659	0.715
									P-value	1.7E-9	1.3E-8	8.2E-8	7.4E-5	6.8E-5	9.3E-4	4.6E-3	-

实验三：本发明可以挖掘新的癌症预后生物标志物。

本发明对乳腺癌进行了差异表达分析，以验证本发明对癌症预后生物标志物挖掘的有效性。如表3所示，经文献调研验证，有10个（76%）基因已被证实与乳腺癌预后相关（VGLL1、FABP7、STAC2、AGR3、TFF1、TFF3、AGR2、KCNJ3、GFRA1和NAT1）。在这13个基因中，GP2与特定的乳腺癌患者亚组相关，并改善了disease-free的临床结果。因此，研究者可以进一步研究GP2在疫苗接种策略中的潜在应用。

表3

基因	logFC	AveExp	P-value	参考文献
					VGLL1	2.251	-0.685	3.90E-14	[24]
FABP7	2.111	-0.795	4.05E-10	[25]
					STAC2	2.057	2.454	3.35E-10	[26]
AGR3	-2.998	4.544	7.60E-19	[27]
					TFF1	-2.989	4.222	8.16E-15	[28]
CYP2B7P1	-2.737	3.410	1.52E-14	-
					TFF3	-2.364	5.686	2.07E-16	[29]
GP2	-2.244	1.699	5.18E-12	[30]
					AGR2	-2.119	7.142	4.83E-14	[31]
KCNJ3	-2.092	-0.281	3.95E-09	[32]
					F7	-2.091	1.183	2.21E-21	-
GFRA1	-2.081	6.489	1.12E-14	[33]
					NAT1	-2.033	5.207	2.16E-20	[34]

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于局部增强图卷积网络的癌症预后预测方法，其特征在于，包括以下步骤：

S2：对无向图进行局部增强；

S4：根据整体特征映射组合，构建比例风险模型，将整体特征映射组合输入至比例风险模型中，确定患者生存风险；

比例风险模型F的表达式为：

式中，N _E=1表示未删失的患者的数量，β表示多层感知器的参数向量，t _i表示患者i的生存时间，t _j表示患者j的生存时间，表示患者i的特征嵌入，E _i表示第i个患者是否死亡，患者j的特征嵌入，E _i=1表示患者死亡，E _i=0表示患者存活。

2.根据权利要求1所述的基于局部增强图卷积网络的癌症预后预测方法，其特征在于，所述步骤S1中，对多组学数据进行缺失值处理和归一化处理，得到预处理后的多组学数据，并利用通路原始数据构建无向图。

3.根据权利要求1所述的基于局部增强图卷积网络的癌症预后预测方法，其特征在于，所述步骤S2包括以下子步骤：

4.根据权利要求3所述的基于局部增强图卷积网络的癌症预后预测方法，其特征在于，所述步骤S22中，证据下限模型的表达式为：

式中，X _g表示中心节点的特征矩阵，X _u表示邻居节点的特征矩阵，θ表示生成参数，φ表示变分参数，M表示中心节点的邻居节点数，z表示潜在变量，q _φ(•)表示后验分布函数，KL(•)表示KL散度函数，p _θ(•)表示先验分布函数。

5.根据权利要求3所述的基于局部增强图卷积网络的癌症预后预测方法，其特征在于，所述步骤S23中，利用相邻对(X _g, X _u)对证据下限模型进行最大化，将潜在变量作为条件变分自编码器中解码器的输入，生成中心节点的增强特征矩阵，完成对无向图的局部增强，其中，X _g表示中心节点的特征矩阵，X _u表示邻居节点的特征矩阵。

6.根据权利要求1所述的基于局部增强图卷积网络的癌症预后预测方法，其特征在于，所述步骤S3中，将多组学数据的特征矩阵和多组学数据的增强特征矩阵作为图卷积网络的输入，进行特征提取和特征融合；其中，所述图卷积网络包括第一图卷积层和第二图卷积层，其计算公式分别为：

式中，H ⁽¹⁾表示第一图卷积层的输出，H ⁽²⁾表示第二图卷积层的输出，X表示多组学数据的特征矩阵，表示多组学数据的增强特征矩阵，W ⁽⁰⁾表示第一图卷积层的参数矩阵，W ⁽¹⁾表示第二图卷积层的参数矩阵，RELU(•)表示RELU函数，SELU(•)表示SELU函数，表示正则化项。