CN112687327A - 一种基于多任务和多模态的癌症生存分析系统 - Google Patents

一种基于多任务和多模态的癌症生存分析系统 Download PDF

Info

Publication number
CN112687327A
CN112687327A CN202011576778.9A CN202011576778A CN112687327A CN 112687327 A CN112687327 A CN 112687327A CN 202011576778 A CN202011576778 A CN 202011576778A CN 112687327 A CN112687327 A CN 112687327A
Authority
CN
China
Prior art keywords
data
module
pathological
cancer
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011576778.9A
Other languages
English (en)
Other versions
CN112687327B (zh
Inventor
董守斌
谭凯文
胡金龙
黄薇娴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongshan Yishu Technology Co ltd
Original Assignee
Zhongshan Yishu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongshan Yishu Technology Co ltd filed Critical Zhongshan Yishu Technology Co ltd
Priority to CN202011576778.9A priority Critical patent/CN112687327B/zh
Publication of CN112687327A publication Critical patent/CN112687327A/zh
Application granted granted Critical
Publication of CN112687327B publication Critical patent/CN112687327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于多任务和多模态的癌症生存分析系统,包括:数据导入模块,包括数据加载模块和数据预处理模块;系统训练模块,包括表示学习模块、多组学与病理图融合模块、多任务预测模块和损失函数模块;系统预测模块,依据癌症病人的多组学数据和病理图进行生存分析和分级。本发明将深度学习技术、多任务学习技术与多组学、病理图数据结合,即能捕获多模态数据间的互补特性,又能捕获多任务间的共享关联性,从而形成一种基于多任务和多模态的癌症生存分析系统,并提供自动化的生存分析和癌症分级结果。

Description

一种基于多任务和多模态的癌症生存分析系统
技术领域
本发明涉及癌症生存分析和分级的技术领域,尤其是指一种基于多任务和多模态的癌症生存分析系统。
背景技术
随着下一代测序技术的发展,病人组学数据的获取越来越方便,例如基因组学、转录组学、蛋白组学、表观组学等多组学数据。不同组学是对病人不同分子层次的描述,多组学的融合能够更好地了解病人的疾病发展状态,从而提供更精准和高效的诊断和预后结果。影像数据一直以来被广泛用于分析癌症病人的病情。随着这几十年影像技术和计算机技术的发展,病理学图片通过各种工具、技术被保存在电子设备中,使得随时读取病人病理图成为可能,但这些病理图分辨率非常高,通过病理学家进行分析耗时耗力。而近年,欧洲放射和肿瘤治疗学会提出放射基因组学的概念,旨在通过计算机的方式将基因组学和医学影像联系起来,从而更好地为癌症病人进行诊断、治疗、预后。现在放射基因组学已经从癌症范畴扩大到精神疾病例如阿尔兹海默症和神经分裂等多种疾病领域,但针对多组学数据和病理图这样高度异构数据的融合依然面临着困难;
多任务学习是目前机器学习中一个热门的研究领域,目的是基于共享表示,通过利用不同任务之间的关联信息,提升不同任务各自的学习器的准确率。从多任务的定义可以将要求分为两点,一点是任务之间应该具备一定的关联信息,从而可以促进两个任务相互利用其中的信息,提高预测准确率。另一点是定义任务,明确要完成的任务是监督学习任务还是非监督学习任务。癌症病人的生存分析和分级符合多任务学习的关联要求的有监督学习任务,理论上能够分别提升这两个任务的预测效果;
综上所述,我们考虑将多任务与多模态融合应用到癌症病人的生存分析和分级中,目的是提高这两个任务的预测准确率。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于多任务和多模态的癌症生存分析系统,突破传统单组学/单影像系统信息源单一的局限性,充分捕获多组学与影像等多模态间的异构与互补特性,挖掘多任务间的关联性,从而增强癌症的生存分析与分级能力。
为实现上述目的,本发明所提供的技术方案为:一种基于多任务和多模态的癌症生存分析系统,包括:
数据导入模块,用于加载多组学数据、病理图和临床数据,并对多组学数据、病理图和临床数据进行预处理,从而为后续系统训练模块和系统预测模块提供标准的输入;
系统训练模块,利用ResNet网络模型对病理图进行表示学习,得到病理图的表征,利用稀疏图卷积神经网络对多组学数据进行表示学习,得到多组学数据的表征,利用全连接神经网络对病理图和多组学数据的表征进行融合,利用全连接神经网络对融合后的表征进行多任务预测,通过反向传播进行模型参数学习,并最终得到最优预测模型,该模型用于同时进行癌症生存分析和癌症分级;
系统预测模块,基于系统训练模块训练出的最优预测模型,依据新的癌症病人的多组学数据和病理数据进行生存分析和癌症分级。
进一步,所述数据导入模块包括数据加载模块和数据预处理模块,其中:
所述数据加载模块从存储设备中读取多组学数据、病理图和临床数据;所述多组学数据包括基因组学数据、转录组学数据、蛋白质组学数据和表观基因组学数据,所述病理图是指经过伊红染色法染色的组织病理图,所述临床数据包括性别、年龄、生存时间、删失和癌症等级;
所述数据预处理模块用于对多组学数据与病理图进行预处理;针对训练样本中多组学数据中的每个组学数据,即需要输入到系统训练模块中的数据,去除空缺样本数超过阈值的特征,使用特征均值填补空缺值,去除均值低于阈值的特征和方差低于阈值的特征;针对待预测样本中多组学据中的每个组学数据,即需要输入到系统预测模块中的数据,则分别保留与训练样本中对应组学的特征相同的特征,并用特征均值填补空缺值;针对每个病人的病理图,先使用OpenSlide工具将其裁剪为z个r1×r2像素大小的病理图小块,z大于或等于1,r1和r2分别表示病理图的长和宽所对应的像素大小,每个小块为一个样本,最终每个病人由z个样本构成,每个样本中对应一个r1×r2像素大小的病理图和该病人经预处理后的多组学数据。
进一步,所述系统训练模块包括表示学习模块、多组学与病理图融合模块、多任务预测模块和损失函数模块,其中:
所述表示学习模块用于对每个样本的多组学数据和病理图进行表示学习,以提取多组学数据和病理图中的关键特征,降低多组学数据和病理图的维度,从而便于后续的融合,包括以下步骤:
a、基于ResNet对r1×r2像素大小的病理图进行表示学习:
Figure BDA0002863439280000031
其中,ResNet(·)为ResNet152网络模型,所采用的ResNet152网络模型已在ImageNet数据集上进行预训练,XI为经过数据导入模块处理后的病理图,XI的每一行表示一个r1×r2像素大小的病理图,
Figure BDA0002863439280000032
为病理图的表征,
Figure BDA0002863439280000033
的特征维度都为p;
b、基于稀疏图卷积神经网络对多组学数据进行表示学习:
Figure BDA0002863439280000041
Figure BDA0002863439280000042
其中,σ(·)为激活函数ReLU(·)=max(0,·),max(0,·)表示取0和·中的较大值,
Figure BDA0002863439280000043
为经过数据导入模块处理后的组学i的数据,i=1,2,...,N,N为组学的数量,A为基因-基因相互作用网络的邻接矩阵,
Figure BDA0002863439280000044
Figure BDA0002863439280000045
为组学i表征中所需学习的参数,⊙为阿达玛乘积,
Figure BDA0002863439280000046
为组学i的隐含表征,
Figure BDA0002863439280000047
的特征维度与
Figure BDA0002863439280000048
相同,
Figure BDA0002863439280000049
为组学i的表征,
Figure BDA00028634392800000410
的特征维度为p,基于稀疏图卷积神经网络对多组学数据进行表示学习时能够引入外部知识库,即基因-基因相互作用网络,从而增强系统的表示学习的能力;
所述多组学与病理图融合模块用于对多组学和病理图表征进行融合,包括以下步骤:
a、多组学表征与病理图表征的拼接:
Figure BDA00028634392800000411
其中,F(0)为拼接后的融合表征,F(0)的特征维度为(N+1)×p,N为组学的数量,p为每个组学和病理图的表征的特征维度,
Figure BDA00028634392800000412
为表示学习模块输出的病理图的表征,
Figure BDA00028634392800000413
为表示学习模块输出的组学i的表征,i=1,2,...,N,cat(·)为拼接函数,按行对每个矩阵进行拼接;
b、对拼接后的特征利用四层的全连接神经网络进行的深层的融合表征:
Figure BDA00028634392800000414
Figure BDA00028634392800000415
Figure BDA00028634392800000416
Figure BDA0002863439280000051
其中,
Figure BDA0002863439280000052
Figure BDA0002863439280000053
为所需学习的权重参数,
Figure BDA0002863439280000054
Figure BDA0002863439280000055
为所需要学习的偏置参数,F(1)、F(2)和F(3)为隐含表征,F(1)、F(2)和F(3)的特征维度分别为1024、512和256,F(4)为最终的融合表征,F(4)的特征维度为32,四层的全连接神经网络除能进行深层的融合表征外,也是多任务学习模型的共享结构,用于提取多任务相关联的共享信息;
所述多任务预测模块用于对多组学和病理图的融合表征进行多任务预测,包括以下步骤:
a、使用两层的前馈神经网络进行生存分析任务预测:
Figure BDA0002863439280000056
Figure BDA0002863439280000057
其中,
Figure BDA0002863439280000058
为所需学习的权重参数,
Figure BDA0002863439280000059
Figure BDA00028634392800000510
为所需学习的偏置参数,Sigmoid(·)表示Sigmoid函数,S(0)为隐含表征,S(0)的特征维度为16,S(1)为所预测的生存风险值;
b、使用两层的全连接神经网络进行癌症分级任务预测,癌症分级的标签取决于细胞在显微镜下的外观,低等级表示癌症的生长慢,高等级表示癌症的生长快:
Figure BDA00028634392800000511
Figure BDA00028634392800000512
其中,
Figure BDA00028634392800000513
Figure BDA00028634392800000514
为所需学习的权重参数,
Figure BDA00028634392800000515
Figure BDA00028634392800000516
为所需学习的偏置参数,LogSoftmax(·)为对数归一化指数函数,G(0)为隐含表征,G(0)的特征维度为16,G(1)为所预测的癌症等级;
所述损失函数模块用于对表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数进行训练,包括以下步骤:
a、设定多任务损失函数,生存分析的损失函数为Cox局部对数似然:
Figure BDA0002863439280000061
其中,lS为生存分析任务的损失函数,m是样本数量,ti是第i个样本的生存时间,R(ti)是时间ti前生存的样本的集合,δi表示样本是否发生删失,删失时为0,不删失时为1,
Figure BDA0002863439280000062
为第i个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值,
Figure BDA0002863439280000063
为第j个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值;
分级任务的损失函数为负对数似然:
lG=-log(G(1));
其中,lG为分级任务的损失函数,G(1)为样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的分级结果,最终的损失函数为最小化损失函数l=lS+lG
b、通过最小化损失函数l和优化器Adam训练表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数,经过d次迭代后获得最优预测模型。
进一步,所述模型预测模块依据多组学数据和病理图进行癌症病人的生存分析和分级,包含以下步骤:
a、使用数据导入模块中的数据加载模块加载多组学数据和病理图,再使用数据导入模块中的数据预处理模块处理多组学数据和病理图;
b、经过步骤a处理后的多组学数据和病理图输入由系统训练模块训练出的最优诊断模型中,对癌症病人的样本进行生存分析和分级;
c、每个病人由多个样本构成,针对生存分析任务,每个病人的风险值由其样本的均值计算而来,而针对分级任务,每个病人的分级结果由其样本结果投票所得,若出现同票情况则同时输出多种结果。
本发明与现有技术相比,具有如下优点与有益效果:
1、充分利用现有的病理图表征技术,即经过ImageNet预训练的ResNet152网络模型,提取病理图的深度特征,从而提升后续多模态融合和多任务学习的能力。
2、通过引入外部知识库,即基因-基因相互作用网络,增强系统对多组学数据的表征能力,从而提升后续多模态融合和多任务学习的能力。
3、通过深度学习方法充分挖掘多组学与病理图之间的互补特性,增强癌症生存分析和分级能力,同时这种将分子水平的多种基因数据与病理图相结合的方法,有利于进一步揭示癌症的致病机理。
4、通过多任务学习的方式捕获多任务间的共享关联性,同时增强各任务的性能。
附图说明
图1为本发明系统各个模块的关系示意图。
图2为本发明系统训练和预测的流程图。
图3为本发明系统所使用稀疏图卷积神经网络的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本实施例公开了一种基于多任务和多模态的癌症生存分析系统,是使用Python语言开发的可在Windows,Linux和Mac设备上运行,系统各模块间关系如图1所示,系统训练和预测的流程如图2所示。它包括有:
数据导入模块,用于加载多组学数据,即mRNA表达量数据和DNA甲基化数据、病理图和临床数据,并对mRNA表达量数据和DNA甲基化数据、病理图和临床数据进行预处理,从而为后续系统训练模块和系统预测模块提供标准的输入;
系统训练模块,利用ResNet网络模型对病理图进行表示学习,得到病理图的表征,利用稀疏图卷积神经网络对分别对mRNA表达量数据和DNA甲基化数据进行表示学习,得到mRNA表达量数据和DNA甲基化数据的表征,利用全连接神经网络对病理图,mRNA表达量数据和DNA甲基化数据的表征进行融合,利用全连接神经网络对融合后的表征进行多任务预测,即生存分析任务和癌症分级任务,通过反向传播进行模型参数学习,并最终得到最优的模型,该模型可用于同时进行癌症生存分析和癌症分级;
系统预测模块,基于系统训练模块训练出的最优模型,依据新的癌症病人的mRNA表达量数据,DNA甲基化数据和病理数据进行生存分析和癌症分级。
所述数据导入模块包括数据加载模块、数据预处理模块,其中:
所述数据加载模块从存储设备中读取癌症病人(例如,胶质瘤)的CSV格式的mRNA表达量数据和DNA甲基化数据,读取病人的SVS格式的病理图数据,读取病人的CSV格式的临床数据,包括生存时间、删失和癌症等级;
所述数据预处理模块用于对mRNA表达量数据,DNA甲基化数据和病理图的数据进行预处理,针对训练样本的mRNA表达量数据和DNA甲基化数据,分别去除空缺样本数超20%的特征、使用特征均值填补空缺值、去均值最低的5%的特征和方差最低的5%的特征,针对待预测样本中的mRNA表达量数据和DNA甲基化数据,则分别保留与其对应组学的特征相同的特征,并用特征均值填补空缺值,针对每个病人的病理图数据先使用OpenSlide工具将其裁剪为z个1024×1024像素大小的病理图小块,每个小块为一个样本,最终每个病人由z个样本构成,z大于或等于1,每个样本中对应一个1024×1024像素大小的病理图和该病人经预处理后的mRNA表达量数据和DNA甲基化数据。
所述系统训练模块包括表示学习模块、多组学与病理图融合模块、多任务预测模块、损失函数模块,其中:
所述表示学习模块用于对每个样本的多组学数据和病理图进行表示学习,以提取多组学数据和病理图数据中的关键特征,降低多组学数据和病理图数据的维度,从而便于后续的融合,包括以下步骤:
a、基于ResNet对1024×1024像素大小病理图进行表示学习:
Figure BDA0002863439280000091
其中,ResNet(·)为ResNet152网络模型,本系统所采用的ResNet152网络模型已在ImageNet数据集上进行预训练,XI为经过数据导入模块处理后的病理图,XI的每一行表示一个1024×1024像素大小的病理图,
Figure BDA0002863439280000097
为病理图的表征,
Figure BDA0002863439280000098
的特征维度都为1000;
b、基于稀疏图卷积神经网络对mRNA表达量和DNA甲基化数据进行表示学习:
Figure BDA0002863439280000092
Figure BDA0002863439280000093
Figure BDA0002863439280000094
Figure BDA0002863439280000095
其中,
Figure BDA0002863439280000096
的结构如图3所示,σ(·)为激活函数ReLU(·)=max(0,·),max(0,·)表示取0和·中的较大值,
Figure BDA0002863439280000101
Figure BDA0002863439280000102
为经过数据导入模块处理后的mRNA表达量和DNA甲基化数据,A为基因-基因相互作用网络的邻接矩阵,通过HINT蛋白质相互作用数据库构建,
Figure BDA0002863439280000103
Figure BDA0002863439280000104
为mRNA表达量表征中所需学习的参数,
Figure BDA0002863439280000105
Figure BDA0002863439280000106
为DNA甲基化表征中所需学习的参数,⊙为阿达玛乘积,
Figure BDA0002863439280000107
为mRNA表达量的隐含表征,
Figure BDA0002863439280000108
的维度与
Figure BDA0002863439280000109
相同,
Figure BDA00028634392800001010
为DNA甲基化的隐含表征,
Figure BDA00028634392800001011
的特征维度与
Figure BDA00028634392800001012
相同,
Figure BDA00028634392800001013
为mRNA表达量的表征,
Figure BDA00028634392800001014
的特征维度为1000,
Figure BDA00028634392800001015
为DNA甲基化的表征,
Figure BDA00028634392800001016
的特征维度为1000;
所述多组学与病理图融合模块用于对mRNA表达量,DNA甲基化数据和病理图表征进行融合,包括以下步骤:
a、mRNA表达量表征,DNA甲基化表征和病理图表征的拼接:
Figure BDA00028634392800001017
其中,F(0)为拼接后的融合表征,F(0)的特征维度为3000,
Figure BDA00028634392800001018
为表示学习模块所学的病理图表征,
Figure BDA00028634392800001019
为mRNA表达量的表征,
Figure BDA00028634392800001020
为DNA甲基化的表征,cat(·)为拼接函数,按行对
Figure BDA00028634392800001021
Figure BDA00028634392800001022
进行拼接;
b、对拼接后的特征利用四层的全连接神经网络进行的深层的融合表征:
Figure BDA00028634392800001023
Figure BDA00028634392800001024
Figure BDA00028634392800001025
Figure BDA00028634392800001026
其中,
Figure BDA00028634392800001027
Figure BDA00028634392800001028
为所需学习的权重参数,
Figure BDA00028634392800001029
Figure BDA00028634392800001030
为所需要学习的偏置参数,σ(·)为激活函数ReLU(·)=max(0,·),F(1),F(2)和F(3)为隐含表征,F(1)、F(2)和F(3)的特征维度分别为1024,512和256,F(4)为最终的融合表征,其特征维度为32,四层的全连接神经网络除能进行深层的融合表征外,也是多任务学习模型的共享结构,用于提取多任务相关联的共享信息;
所述多任务预测模块用于对mRNA表达量,DNA甲基化和病理图的融合表征进行生存分析任务和分级任务的预测,包括以下步骤:
a、使用两层的前馈神经网络进行生存分析任务预测:
Figure BDA0002863439280000111
Figure BDA0002863439280000112
其中,
Figure BDA0002863439280000113
Figure BDA0002863439280000114
为所需学习的权重参数,
Figure BDA0002863439280000115
Figure BDA0002863439280000116
为所需学习的偏置参数,σ(·)为激活函数ReLU(·)=max(0,·),max(0,·)表示取0和·中的较大值,Sigmoid(·)表示Sigmoid函数,S(0)为隐含表征,S(0)的特征维度为16,S(1)为所预测的生存风险值;
b、使用两层的前馈神经网络进行癌症分级任务预测,癌症分级的标签一般取决于细胞在显微镜下的外观,通常较低的等级表示癌症的生长较慢,较高的等级表示癌症的生长较快:
Figure BDA0002863439280000117
Figure BDA0002863439280000118
其中,
Figure BDA0002863439280000119
Figure BDA00028634392800001110
为所需学习的权重参数,
Figure BDA00028634392800001111
Figure BDA00028634392800001112
为所需学习的偏置参数,σ(·)为激活函数ReLU(·)=max(0,·),max(0,·)表示取0和·中的较大值,LogSoftmax(·)为对数归一化指数函数,log(·)为以2为底的对数函数,G(0)为隐含表征,G(0)的特征维度为16,G(1)为所预测的癌症等级,常见等级有:Grade I表示癌症细胞与正常细胞类似且未快速生长,Grade II表示癌症细胞与正常细胞不像且比正常细胞生长的更快,Grade III表示癌症细胞看起来不正常且更加积极的生长和扩散;
所述损失函数模块用于对表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数进行训练,包括以下步骤:
a、设定多任务损失函数,生存分析的损失函数为Cox局部对数似然:
Figure BDA0002863439280000121
其中,lS为生存分析任务的损失函数,m是样本数量,ti是第i个样本的生存时间,exp(·)为自然常数e为底的指数函数,log(·)为以2为底的对数函数,R(ti)是时间ti前生存的样本的集合,δi表示样本是否发生删失,删失时为0,不删失时为1,
Figure BDA0002863439280000122
为第i个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值,
Figure BDA0002863439280000123
为第j个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值;
分级任务的损失函数为负对数似然:
lG=-log(G(1));
其中,lG为分级任务的损失函数,log(·)为以2为底的对数函数,G(1)为样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的分级结果,最终的损失函数为最小化损失函数l=lS+lG
b、通过最小化损失函数l和优化器Adam训练表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数,经过d次迭代后获得最优预测模型。
所述模型预测模块依据mRNA表达量,DNA甲基化数据和病理图进行癌症病人的生存分析和分级,包含以下步骤:
a、使用数据加载模块加载mRNA表达量、DNA甲基化数据和病理图,使用数据预处理模块处理mRNA表达量、DNA甲基化数据和病理图;
b、经过步骤a处理后的mRNA表达量、DNA甲基化数据和病理图输入由系统训练模块训练出的最优预测模型中对病人的样本进行的生存分析和分级;
c、每个病人由多个样本构成,针对生存分析任务,每个病人的风险值由其样本的均值计算而来,而针对分级任务,每个病人的分级结果由其样本结果投票所得,若出现同票情况则同时输出多种结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种基于多任务和多模态的癌症生存分析系统,其特征在于,包括:
数据导入模块,用于加载多组学数据、病理图和临床数据,并对多组学数据、病理图和临床数据进行预处理,从而为后续系统训练模块和系统预测模块提供标准的输入;
系统训练模块,利用ResNet网络模型对病理图进行表示学习,得到病理图的表征,利用稀疏图卷积神经网络对多组学数据进行表示学习,得到多组学数据的表征,利用全连接神经网络对病理图和多组学数据的表征进行融合,利用全连接神经网络对融合后的表征进行多任务预测,通过反向传播进行模型参数学习,并最终得到最优预测模型,该模型用于同时进行癌症生存分析和癌症分级;
系统预测模块,基于系统训练模块训练出的最优预测模型,依据新的癌症病人的多组学数据和病理数据进行生存分析和癌症分级。
2.根据权利要求1所述的一种基于多任务和多模态的癌症生存分析系统,其特征在于:所述数据导入模块包括数据加载模块和数据预处理模块,其中:
所述数据加载模块从存储设备中读取多组学数据、病理图和临床数据;所述多组学数据包括基因组学数据、转录组学数据、蛋白质组学数据和表观基因组学数据,所述病理图是指经过伊红染色法染色的组织病理图,所述临床数据包括性别、年龄、生存时间、删失和癌症等级;
所述数据预处理模块用于对多组学数据与病理图进行预处理;针对训练样本中多组学数据中的每个组学数据,即需要输入到系统训练模块中的数据,去除空缺样本数超过阈值的特征,使用特征均值填补空缺值,去除均值低于阈值的特征和方差低于阈值的特征;针对待预测样本中多组学据中的每个组学数据,即需要输入到系统预测模块中的数据,则分别保留与训练样本中对应组学的特征相同的特征,并用特征均值填补空缺值;针对每个病人的病理图,先使用OpenSlide工具将其裁剪为z个r1×r2像素大小的病理图小块,z大于或等于1,r1和r2分别表示病理图的长和宽所对应的像素大小,每个小块为一个样本,最终每个病人由z个样本构成,每个样本中对应一个r1×r2像素大小的病理图和该病人经预处理后的多组学数据。
3.根据权利要求1所述的一种基于多任务和多模态的癌症生存分析系统,其特征在于:所述系统训练模块包括表示学习模块、多组学与病理图融合模块、多任务预测模块和损失函数模块,其中:
所述表示学习模块用于对每个样本的多组学数据和病理图进行表示学习,以提取多组学数据和病理图中的关键特征,降低多组学数据和病理图的维度,从而便于后续的融合,包括以下步骤:
a、基于ResNet对r1×r2像素大小的病理图进行表示学习:
Figure FDA0002863439270000021
其中,ResNet(·)为ResNet152网络模型,所采用的ResNet152网络模型已在ImageNet数据集上进行预训练,XI为经过数据导入模块处理后的病理图,XI的每一行表示一个r1×r2像素大小的病理图,
Figure FDA0002863439270000022
为病理图的表征,
Figure FDA0002863439270000023
的特征维度都为p;
b、基于稀疏图卷积神经网络对多组学数据进行表示学习:
Figure FDA0002863439270000024
Figure FDA0002863439270000025
其中,σ(·)为激活函数ReLU(·)=max(0,·),max(0,·)表示取0和·中的较大值,
Figure FDA0002863439270000031
为经过数据导入模块处理后的组学i的数据,i=1,2,...,N,N为组学的数量,A为基因-基因相互作用网络的邻接矩阵,
Figure FDA0002863439270000032
Figure FDA0002863439270000033
为组学i表征中所需学习的参数,⊙为阿达玛乘积,
Figure FDA0002863439270000034
为组学i的隐含表征,
Figure FDA0002863439270000035
的特征维度与
Figure FDA0002863439270000036
相同,
Figure FDA0002863439270000037
为组学i的表征,
Figure FDA0002863439270000038
的特征维度为p,基于稀疏图卷积神经网络对多组学数据进行表示学习时能够引入外部知识库,即基因-基因相互作用网络,从而增强系统的表示学习的能力;
所述多组学与病理图融合模块用于对多组学和病理图表征进行融合,包括以下步骤:
a、多组学表征与病理图表征的拼接:
Figure FDA0002863439270000039
其中,F(0)为拼接后的融合表征,F(0)的特征维度为(N+1)×p,N为组学的数量,p为每个组学和病理图的表征的特征维度,
Figure FDA00028634392700000310
为表示学习模块输出的病理图的表征,
Figure FDA00028634392700000311
为表示学习模块输出的组学i的表征,i=1,2,...,N,cat(·)为拼接函数,按行对每个矩阵进行拼接;
b、对拼接后的特征利用四层的全连接神经网络进行的深层的融合表征:
Figure FDA00028634392700000312
Figure FDA00028634392700000313
Figure FDA00028634392700000314
Figure FDA00028634392700000315
其中,
Figure FDA00028634392700000316
Figure FDA00028634392700000317
为所需学习的权重参数,
Figure FDA00028634392700000318
Figure FDA00028634392700000319
为所需要学习的偏置参数,F(1)、F(2)和F(3)为隐含表征,F(1)、F(2)和F(3)的特征维度分别为1024、512和256,F(4)为最终的融合表征,F(4)的特征维度为32,四层的全连接神经网络除能进行深层的融合表征外,也是多任务学习模型的共享结构,用于提取多任务相关联的共享信息;
所述多任务预测模块用于对多组学和病理图的融合表征进行多任务预测,包括以下步骤:
a、使用两层的前馈神经网络进行生存分析任务预测:
Figure FDA0002863439270000041
Figure FDA0002863439270000042
其中,
Figure FDA0002863439270000043
为所需学习的权重参数,
Figure FDA0002863439270000044
Figure FDA0002863439270000045
为所需学习的偏置参数,Sigmoid(·)表示Sigmoid函数,S(0)为隐含表征,S(0)的特征维度为16,S(1)为所预测的生存风险值;
b、使用两层的全连接神经网络进行癌症分级任务预测,癌症分级的标签取决于细胞在显微镜下的外观,低等级表示癌症的生长慢,高等级表示癌症的生长快:
Figure FDA0002863439270000046
Figure FDA0002863439270000047
其中,
Figure FDA0002863439270000048
Figure FDA0002863439270000049
为所需学习的权重参数,
Figure FDA00028634392700000410
Figure FDA00028634392700000411
为所需学习的偏置参数,LogSoftmax(·)为对数归一化指数函数,G(0)为隐含表征,G(0)的特征维度为16,G(1)为所预测的癌症等级;
所述损失函数模块用于对表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数进行训练,包括以下步骤:
a、设定多任务损失函数,生存分析的损失函数为Cox局部对数似然:
Figure FDA0002863439270000051
其中,lS为生存分析任务的损失函数,m是样本数量,ti是第i个样本的生存时间,R(ti)是时间ti前生存的样本的集合,δi表示样本是否发生删失,删失时为0,不删失时为1,
Figure FDA0002863439270000052
为第i个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值,
Figure FDA0002863439270000053
为第j个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值;
分级任务的损失函数为负对数似然:
lG=-log(G(1));
其中,lG为分级任务的损失函数,G(1)为样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的分级结果,最终的损失函数为最小化损失函数l=lS+lG
b、通过最小化损失函数l和优化器Adam训练表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数,经过d次迭代后获得最优预测模型。
4.根据权利要求1所述的一种基于多任务和多模态的癌症生存分析系统,其特征在于:所述模型预测模块依据多组学数据和病理图进行癌症病人的生存分析和分级,包含以下步骤:
a、使用数据导入模块中的数据加载模块加载多组学数据和病理图,再使用数据导入模块中的数据预处理模块处理多组学数据和病理图;
b、经过步骤a处理后的多组学数据和病理图输入由系统训练模块训练出的最优诊断模型中,对癌症病人的样本进行生存分析和分级;
c、每个病人由多个样本构成,针对生存分析任务,每个病人的风险值由其样本的均值计算而来,而针对分级任务,每个病人的分级结果由其样本结果投票所得,若出现同票情况则同时输出多种结果。
CN202011576778.9A 2020-12-28 2020-12-28 一种基于多任务和多模态的癌症生存分析系统 Active CN112687327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011576778.9A CN112687327B (zh) 2020-12-28 2020-12-28 一种基于多任务和多模态的癌症生存分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011576778.9A CN112687327B (zh) 2020-12-28 2020-12-28 一种基于多任务和多模态的癌症生存分析系统

Publications (2)

Publication Number Publication Date
CN112687327A true CN112687327A (zh) 2021-04-20
CN112687327B CN112687327B (zh) 2024-04-12

Family

ID=75452259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011576778.9A Active CN112687327B (zh) 2020-12-28 2020-12-28 一种基于多任务和多模态的癌症生存分析系统

Country Status (1)

Country Link
CN (1) CN112687327B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205150A (zh) * 2021-05-21 2021-08-03 东北大学 一种基于多时相融合的多任务分类系统及方法
CN113539493A (zh) * 2021-06-23 2021-10-22 吾征智能技术(北京)有限公司 一种利用多模态风险因素推断癌症风险概率的系统
CN113723415A (zh) * 2021-08-26 2021-11-30 泰康保险集团股份有限公司 一种生存时长预测方法、装置、设备及介质
CN113838570A (zh) * 2021-08-31 2021-12-24 华中科技大学 一种基于深度学习的宫颈癌自洽分型方法和系统
CN114530222A (zh) * 2022-01-13 2022-05-24 华南理工大学 一种基于多组学和影像数据融合的癌症患者分类系统
CN115188470A (zh) * 2022-06-29 2022-10-14 山东大学 一种基于多任务Cox学习模型的多慢性病预测系统
WO2022268102A1 (zh) * 2021-06-22 2022-12-29 安翰科技(武汉)股份有限公司 基于深度学习的癌症预后生存预测方法、设备及存储介质
CN115565669A (zh) * 2022-10-11 2023-01-03 电子科技大学 一种基于gan和多任务学习的癌症生存分析方法
CN118016298A (zh) * 2024-02-06 2024-05-10 海南大学 一种用于癌症生存预测的多模态预训练方法、装置及设备
CN118136191A (zh) * 2024-02-06 2024-06-04 海南大学 一种癌症生存预测方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109994200A (zh) * 2019-03-08 2019-07-09 华南理工大学 一种基于相似度融合的多组学癌症数据整合分析方法
CN110298383A (zh) * 2019-05-28 2019-10-01 中国科学院计算技术研究所 基于多模态深度学习的病理分类方法及系统
CN111028939A (zh) * 2019-11-15 2020-04-17 华南理工大学 一种基于深度学习的多组学智能诊断系统
US10650520B1 (en) * 2017-06-06 2020-05-12 PathAI, Inc. Systems and methods for training a statistical model to predict tissue characteristics for a pathology image
WO2020113673A1 (zh) * 2018-12-07 2020-06-11 深圳先进技术研究院 一种基于多组学集成的癌症亚型分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10650520B1 (en) * 2017-06-06 2020-05-12 PathAI, Inc. Systems and methods for training a statistical model to predict tissue characteristics for a pathology image
WO2020113673A1 (zh) * 2018-12-07 2020-06-11 深圳先进技术研究院 一种基于多组学集成的癌症亚型分类方法
CN109994200A (zh) * 2019-03-08 2019-07-09 华南理工大学 一种基于相似度融合的多组学癌症数据整合分析方法
CN110298383A (zh) * 2019-05-28 2019-10-01 中国科学院计算技术研究所 基于多模态深度学习的病理分类方法及系统
CN111028939A (zh) * 2019-11-15 2020-04-17 华南理工大学 一种基于深度学习的多组学智能诊断系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张泽中;高敬阳;吕纲;赵地;: "基于深度学习的胃癌病理图像分类方法", 计算机科学, no. 2, 15 November 2018 (2018-11-15) *
李叙潼, 等: "人工智能算法在药物细胞敏感性预测中的应用", 中国科学, vol. 65, no. 32, 17 June 2020 (2020-06-17) *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205150A (zh) * 2021-05-21 2021-08-03 东北大学 一种基于多时相融合的多任务分类系统及方法
CN113205150B (zh) * 2021-05-21 2024-03-01 东北大学 一种基于多时相融合的多任务分类系统及方法
WO2022268102A1 (zh) * 2021-06-22 2022-12-29 安翰科技(武汉)股份有限公司 基于深度学习的癌症预后生存预测方法、设备及存储介质
CN113539493A (zh) * 2021-06-23 2021-10-22 吾征智能技术(北京)有限公司 一种利用多模态风险因素推断癌症风险概率的系统
CN113723415A (zh) * 2021-08-26 2021-11-30 泰康保险集团股份有限公司 一种生存时长预测方法、装置、设备及介质
CN113723415B (zh) * 2021-08-26 2023-07-18 泰康保险集团股份有限公司 一种生存时长预测方法、装置、设备及介质
CN113838570A (zh) * 2021-08-31 2021-12-24 华中科技大学 一种基于深度学习的宫颈癌自洽分型方法和系统
CN113838570B (zh) * 2021-08-31 2024-04-26 华中科技大学 一种基于深度学习的宫颈癌自洽分型方法和系统
CN114530222A (zh) * 2022-01-13 2022-05-24 华南理工大学 一种基于多组学和影像数据融合的癌症患者分类系统
CN114530222B (zh) * 2022-01-13 2024-08-06 华南理工大学 一种基于多组学和影像数据融合的癌症患者分类系统
CN115188470A (zh) * 2022-06-29 2022-10-14 山东大学 一种基于多任务Cox学习模型的多慢性病预测系统
CN115565669A (zh) * 2022-10-11 2023-01-03 电子科技大学 一种基于gan和多任务学习的癌症生存分析方法
CN118016298A (zh) * 2024-02-06 2024-05-10 海南大学 一种用于癌症生存预测的多模态预训练方法、装置及设备
CN118136191A (zh) * 2024-02-06 2024-06-04 海南大学 一种癌症生存预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112687327B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN112687327B (zh) 一种基于多任务和多模态的癌症生存分析系统
CN111488921B (zh) 一种全景数字病理图像智能分析系统及方法
CN109272048B (zh) 一种基于深度卷积神经网络的模式识别方法
CN110866893B (zh) 基于病理图像的tmb分类方法、系统及tmb分析装置
CN110245657B (zh) 病理图像相似性检测方法及检测装置
CN110021425B (zh) 一种比较检测器及其构建方法与宫颈癌细胞检测方法
CN109492706B (zh) 一种基于循环神经网络的染色体分类预测装置
CN114530222B (zh) 一种基于多组学和影像数据融合的癌症患者分类系统
CN113947607A (zh) 一种基于深度学习的癌症病理图像生存预后模型构建方法
WO2024060416A1 (zh) 一种病理图像的端到端弱监督语义分割标注方法
CN110599459A (zh) 基于深度学习的地下管网风险评估云系统
EP4138091A1 (en) Cancer prognosis
CN114496099A (zh) 细胞功能注释方法、装置、设备及介质
CN114445356A (zh) 基于多分辨率的全视野病理切片图像肿瘤快速定位方法
CN116884597A (zh) 基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法及系统
CN115471701A (zh) 基于深度学习和迁移学习的肺腺癌组织学亚型分类方法
CN114037699B (zh) 一种病理图像分类方法、设备、系统及存储介质
Tyagi et al. LCSCNet: A multi-level approach for lung cancer stage classification using 3D dense convolutional neural networks with concurrent squeeze-and-excitation module
CN117496512B (zh) 宫颈tct切片的多类型细胞核标注及多任务处理方法
CN115147640A (zh) 一种基于改进胶囊网络的脑肿瘤图像分类方法
CN114580501A (zh) 骨髓细胞分类方法、系统、计算机设备及存储介质
CN118471527A (zh) 乳腺癌症患者预后预测方法和装置、电子设备及存储介质
CN114863149A (zh) 预测乳腺癌相对生存风险的方法、系统、设备及存储介质
CN113222903A (zh) 一种全切片组织病理图像分析方法及系统
CN116863464A (zh) 基于分层图卷积和注意力的病理图像生存分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant