CN112687327A - 一种基于多任务和多模态的癌症生存分析系统 - Google Patents
一种基于多任务和多模态的癌症生存分析系统 Download PDFInfo
- Publication number
- CN112687327A CN112687327A CN202011576778.9A CN202011576778A CN112687327A CN 112687327 A CN112687327 A CN 112687327A CN 202011576778 A CN202011576778 A CN 202011576778A CN 112687327 A CN112687327 A CN 112687327A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- pathological
- cancer
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 60
- 201000011510 cancer Diseases 0.000 title claims abstract description 59
- 230000004083 survival effect Effects 0.000 title claims abstract description 57
- 238000004458 analytical method Methods 0.000 title claims abstract description 46
- 230000001575 pathological effect Effects 0.000 claims abstract description 96
- 230000006870 function Effects 0.000 claims abstract description 50
- 230000004927 fusion Effects 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000008676 import Effects 0.000 claims abstract description 16
- 238000012512 characterization method Methods 0.000 claims description 49
- 238000010586 diagram Methods 0.000 claims description 31
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 230000007170 pathology Effects 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000005907 cancer growth Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 241000282326 Felis catus Species 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- YQGOJNYOYNNSMM-UHFFFAOYSA-N eosin Chemical compound [Na+].OC(=O)C1=CC=CC=C1C1=C2C=C(Br)C(=O)C(Br)=C2OC2=C(Br)C(O)=C(Br)C=C21 YQGOJNYOYNNSMM-UHFFFAOYSA-N 0.000 claims description 2
- 238000007447 staining method Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000000295 complement effect Effects 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 108020004999 messenger RNA Proteins 0.000 description 22
- 230000007067 DNA methylation Effects 0.000 description 21
- 239000000523 sample Substances 0.000 description 21
- 238000011161 development Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 208000032612 Glial tumor Diseases 0.000 description 1
- 206010018338 Glioma Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 230000003950 pathogenic mechanism Effects 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 201000000980 schizophrenia Diseases 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于多任务和多模态的癌症生存分析系统,包括:数据导入模块,包括数据加载模块和数据预处理模块;系统训练模块,包括表示学习模块、多组学与病理图融合模块、多任务预测模块和损失函数模块;系统预测模块,依据癌症病人的多组学数据和病理图进行生存分析和分级。本发明将深度学习技术、多任务学习技术与多组学、病理图数据结合,即能捕获多模态数据间的互补特性,又能捕获多任务间的共享关联性,从而形成一种基于多任务和多模态的癌症生存分析系统,并提供自动化的生存分析和癌症分级结果。
Description
技术领域
本发明涉及癌症生存分析和分级的技术领域,尤其是指一种基于多任务和多模态的癌症生存分析系统。
背景技术
随着下一代测序技术的发展,病人组学数据的获取越来越方便,例如基因组学、转录组学、蛋白组学、表观组学等多组学数据。不同组学是对病人不同分子层次的描述,多组学的融合能够更好地了解病人的疾病发展状态,从而提供更精准和高效的诊断和预后结果。影像数据一直以来被广泛用于分析癌症病人的病情。随着这几十年影像技术和计算机技术的发展,病理学图片通过各种工具、技术被保存在电子设备中,使得随时读取病人病理图成为可能,但这些病理图分辨率非常高,通过病理学家进行分析耗时耗力。而近年,欧洲放射和肿瘤治疗学会提出放射基因组学的概念,旨在通过计算机的方式将基因组学和医学影像联系起来,从而更好地为癌症病人进行诊断、治疗、预后。现在放射基因组学已经从癌症范畴扩大到精神疾病例如阿尔兹海默症和神经分裂等多种疾病领域,但针对多组学数据和病理图这样高度异构数据的融合依然面临着困难;
多任务学习是目前机器学习中一个热门的研究领域,目的是基于共享表示,通过利用不同任务之间的关联信息,提升不同任务各自的学习器的准确率。从多任务的定义可以将要求分为两点,一点是任务之间应该具备一定的关联信息,从而可以促进两个任务相互利用其中的信息,提高预测准确率。另一点是定义任务,明确要完成的任务是监督学习任务还是非监督学习任务。癌症病人的生存分析和分级符合多任务学习的关联要求的有监督学习任务,理论上能够分别提升这两个任务的预测效果;
综上所述,我们考虑将多任务与多模态融合应用到癌症病人的生存分析和分级中,目的是提高这两个任务的预测准确率。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于多任务和多模态的癌症生存分析系统,突破传统单组学/单影像系统信息源单一的局限性,充分捕获多组学与影像等多模态间的异构与互补特性,挖掘多任务间的关联性,从而增强癌症的生存分析与分级能力。
为实现上述目的,本发明所提供的技术方案为:一种基于多任务和多模态的癌症生存分析系统,包括:
数据导入模块,用于加载多组学数据、病理图和临床数据,并对多组学数据、病理图和临床数据进行预处理,从而为后续系统训练模块和系统预测模块提供标准的输入;
系统训练模块,利用ResNet网络模型对病理图进行表示学习,得到病理图的表征,利用稀疏图卷积神经网络对多组学数据进行表示学习,得到多组学数据的表征,利用全连接神经网络对病理图和多组学数据的表征进行融合,利用全连接神经网络对融合后的表征进行多任务预测,通过反向传播进行模型参数学习,并最终得到最优预测模型,该模型用于同时进行癌症生存分析和癌症分级;
系统预测模块,基于系统训练模块训练出的最优预测模型,依据新的癌症病人的多组学数据和病理数据进行生存分析和癌症分级。
进一步,所述数据导入模块包括数据加载模块和数据预处理模块,其中:
所述数据加载模块从存储设备中读取多组学数据、病理图和临床数据;所述多组学数据包括基因组学数据、转录组学数据、蛋白质组学数据和表观基因组学数据,所述病理图是指经过伊红染色法染色的组织病理图,所述临床数据包括性别、年龄、生存时间、删失和癌症等级;
所述数据预处理模块用于对多组学数据与病理图进行预处理;针对训练样本中多组学数据中的每个组学数据,即需要输入到系统训练模块中的数据,去除空缺样本数超过阈值的特征,使用特征均值填补空缺值,去除均值低于阈值的特征和方差低于阈值的特征;针对待预测样本中多组学据中的每个组学数据,即需要输入到系统预测模块中的数据,则分别保留与训练样本中对应组学的特征相同的特征,并用特征均值填补空缺值;针对每个病人的病理图,先使用OpenSlide工具将其裁剪为z个r1×r2像素大小的病理图小块,z大于或等于1,r1和r2分别表示病理图的长和宽所对应的像素大小,每个小块为一个样本,最终每个病人由z个样本构成,每个样本中对应一个r1×r2像素大小的病理图和该病人经预处理后的多组学数据。
进一步,所述系统训练模块包括表示学习模块、多组学与病理图融合模块、多任务预测模块和损失函数模块,其中:
所述表示学习模块用于对每个样本的多组学数据和病理图进行表示学习,以提取多组学数据和病理图中的关键特征,降低多组学数据和病理图的维度,从而便于后续的融合,包括以下步骤:
a、基于ResNet对r1×r2像素大小的病理图进行表示学习:
其中,ResNet(·)为ResNet152网络模型,所采用的ResNet152网络模型已在ImageNet数据集上进行预训练,XI为经过数据导入模块处理后的病理图,XI的每一行表示一个r1×r2像素大小的病理图,为病理图的表征,的特征维度都为p;
b、基于稀疏图卷积神经网络对多组学数据进行表示学习:
其中,σ(·)为激活函数ReLU(·)=max(0,·),max(0,·)表示取0和·中的较大值,为经过数据导入模块处理后的组学i的数据,i=1,2,...,N,N为组学的数量,A为基因-基因相互作用网络的邻接矩阵,和为组学i表征中所需学习的参数,⊙为阿达玛乘积,为组学i的隐含表征,的特征维度与相同,为组学i的表征,的特征维度为p,基于稀疏图卷积神经网络对多组学数据进行表示学习时能够引入外部知识库,即基因-基因相互作用网络,从而增强系统的表示学习的能力;
所述多组学与病理图融合模块用于对多组学和病理图表征进行融合,包括以下步骤:
a、多组学表征与病理图表征的拼接:
其中,F(0)为拼接后的融合表征,F(0)的特征维度为(N+1)×p,N为组学的数量,p为每个组学和病理图的表征的特征维度,为表示学习模块输出的病理图的表征,为表示学习模块输出的组学i的表征,i=1,2,...,N,cat(·)为拼接函数,按行对每个矩阵进行拼接;
b、对拼接后的特征利用四层的全连接神经网络进行的深层的融合表征:
其中,和为所需学习的权重参数,和为所需要学习的偏置参数,F(1)、F(2)和F(3)为隐含表征,F(1)、F(2)和F(3)的特征维度分别为1024、512和256,F(4)为最终的融合表征,F(4)的特征维度为32,四层的全连接神经网络除能进行深层的融合表征外,也是多任务学习模型的共享结构,用于提取多任务相关联的共享信息;
所述多任务预测模块用于对多组学和病理图的融合表征进行多任务预测,包括以下步骤:
a、使用两层的前馈神经网络进行生存分析任务预测:
b、使用两层的全连接神经网络进行癌症分级任务预测,癌症分级的标签取决于细胞在显微镜下的外观,低等级表示癌症的生长慢,高等级表示癌症的生长快:
所述损失函数模块用于对表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数进行训练,包括以下步骤:
a、设定多任务损失函数,生存分析的损失函数为Cox局部对数似然:
其中,lS为生存分析任务的损失函数,m是样本数量,ti是第i个样本的生存时间,R(ti)是时间ti前生存的样本的集合,δi表示样本是否发生删失,删失时为0,不删失时为1,为第i个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值,为第j个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值;
分级任务的损失函数为负对数似然:
lG=-log(G(1));
其中,lG为分级任务的损失函数,G(1)为样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的分级结果,最终的损失函数为最小化损失函数l=lS+lG;
b、通过最小化损失函数l和优化器Adam训练表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数,经过d次迭代后获得最优预测模型。
进一步,所述模型预测模块依据多组学数据和病理图进行癌症病人的生存分析和分级,包含以下步骤:
a、使用数据导入模块中的数据加载模块加载多组学数据和病理图,再使用数据导入模块中的数据预处理模块处理多组学数据和病理图;
b、经过步骤a处理后的多组学数据和病理图输入由系统训练模块训练出的最优诊断模型中,对癌症病人的样本进行生存分析和分级;
c、每个病人由多个样本构成,针对生存分析任务,每个病人的风险值由其样本的均值计算而来,而针对分级任务,每个病人的分级结果由其样本结果投票所得,若出现同票情况则同时输出多种结果。
本发明与现有技术相比,具有如下优点与有益效果:
1、充分利用现有的病理图表征技术,即经过ImageNet预训练的ResNet152网络模型,提取病理图的深度特征,从而提升后续多模态融合和多任务学习的能力。
2、通过引入外部知识库,即基因-基因相互作用网络,增强系统对多组学数据的表征能力,从而提升后续多模态融合和多任务学习的能力。
3、通过深度学习方法充分挖掘多组学与病理图之间的互补特性,增强癌症生存分析和分级能力,同时这种将分子水平的多种基因数据与病理图相结合的方法,有利于进一步揭示癌症的致病机理。
4、通过多任务学习的方式捕获多任务间的共享关联性,同时增强各任务的性能。
附图说明
图1为本发明系统各个模块的关系示意图。
图2为本发明系统训练和预测的流程图。
图3为本发明系统所使用稀疏图卷积神经网络的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本实施例公开了一种基于多任务和多模态的癌症生存分析系统,是使用Python语言开发的可在Windows,Linux和Mac设备上运行,系统各模块间关系如图1所示,系统训练和预测的流程如图2所示。它包括有:
数据导入模块,用于加载多组学数据,即mRNA表达量数据和DNA甲基化数据、病理图和临床数据,并对mRNA表达量数据和DNA甲基化数据、病理图和临床数据进行预处理,从而为后续系统训练模块和系统预测模块提供标准的输入;
系统训练模块,利用ResNet网络模型对病理图进行表示学习,得到病理图的表征,利用稀疏图卷积神经网络对分别对mRNA表达量数据和DNA甲基化数据进行表示学习,得到mRNA表达量数据和DNA甲基化数据的表征,利用全连接神经网络对病理图,mRNA表达量数据和DNA甲基化数据的表征进行融合,利用全连接神经网络对融合后的表征进行多任务预测,即生存分析任务和癌症分级任务,通过反向传播进行模型参数学习,并最终得到最优的模型,该模型可用于同时进行癌症生存分析和癌症分级;
系统预测模块,基于系统训练模块训练出的最优模型,依据新的癌症病人的mRNA表达量数据,DNA甲基化数据和病理数据进行生存分析和癌症分级。
所述数据导入模块包括数据加载模块、数据预处理模块,其中:
所述数据加载模块从存储设备中读取癌症病人(例如,胶质瘤)的CSV格式的mRNA表达量数据和DNA甲基化数据,读取病人的SVS格式的病理图数据,读取病人的CSV格式的临床数据,包括生存时间、删失和癌症等级;
所述数据预处理模块用于对mRNA表达量数据,DNA甲基化数据和病理图的数据进行预处理,针对训练样本的mRNA表达量数据和DNA甲基化数据,分别去除空缺样本数超20%的特征、使用特征均值填补空缺值、去均值最低的5%的特征和方差最低的5%的特征,针对待预测样本中的mRNA表达量数据和DNA甲基化数据,则分别保留与其对应组学的特征相同的特征,并用特征均值填补空缺值,针对每个病人的病理图数据先使用OpenSlide工具将其裁剪为z个1024×1024像素大小的病理图小块,每个小块为一个样本,最终每个病人由z个样本构成,z大于或等于1,每个样本中对应一个1024×1024像素大小的病理图和该病人经预处理后的mRNA表达量数据和DNA甲基化数据。
所述系统训练模块包括表示学习模块、多组学与病理图融合模块、多任务预测模块、损失函数模块,其中:
所述表示学习模块用于对每个样本的多组学数据和病理图进行表示学习,以提取多组学数据和病理图数据中的关键特征,降低多组学数据和病理图数据的维度,从而便于后续的融合,包括以下步骤:
a、基于ResNet对1024×1024像素大小病理图进行表示学习:
其中,ResNet(·)为ResNet152网络模型,本系统所采用的ResNet152网络模型已在ImageNet数据集上进行预训练,XI为经过数据导入模块处理后的病理图,XI的每一行表示一个1024×1024像素大小的病理图,为病理图的表征,的特征维度都为1000;
b、基于稀疏图卷积神经网络对mRNA表达量和DNA甲基化数据进行表示学习:
其中,的结构如图3所示,σ(·)为激活函数ReLU(·)=max(0,·),max(0,·)表示取0和·中的较大值,和为经过数据导入模块处理后的mRNA表达量和DNA甲基化数据,A为基因-基因相互作用网络的邻接矩阵,通过HINT蛋白质相互作用数据库构建,和为mRNA表达量表征中所需学习的参数,和为DNA甲基化表征中所需学习的参数,⊙为阿达玛乘积,为mRNA表达量的隐含表征,的维度与相同,为DNA甲基化的隐含表征,的特征维度与相同,为mRNA表达量的表征,的特征维度为1000,为DNA甲基化的表征,的特征维度为1000;
所述多组学与病理图融合模块用于对mRNA表达量,DNA甲基化数据和病理图表征进行融合,包括以下步骤:
a、mRNA表达量表征,DNA甲基化表征和病理图表征的拼接:
b、对拼接后的特征利用四层的全连接神经网络进行的深层的融合表征:
其中,和为所需学习的权重参数,和为所需要学习的偏置参数,σ(·)为激活函数ReLU(·)=max(0,·),F(1),F(2)和F(3)为隐含表征,F(1)、F(2)和F(3)的特征维度分别为1024,512和256,F(4)为最终的融合表征,其特征维度为32,四层的全连接神经网络除能进行深层的融合表征外,也是多任务学习模型的共享结构,用于提取多任务相关联的共享信息;
所述多任务预测模块用于对mRNA表达量,DNA甲基化和病理图的融合表征进行生存分析任务和分级任务的预测,包括以下步骤:
a、使用两层的前馈神经网络进行生存分析任务预测:
其中,和为所需学习的权重参数,和为所需学习的偏置参数,σ(·)为激活函数ReLU(·)=max(0,·),max(0,·)表示取0和·中的较大值,Sigmoid(·)表示Sigmoid函数,S(0)为隐含表征,S(0)的特征维度为16,S(1)为所预测的生存风险值;
b、使用两层的前馈神经网络进行癌症分级任务预测,癌症分级的标签一般取决于细胞在显微镜下的外观,通常较低的等级表示癌症的生长较慢,较高的等级表示癌症的生长较快:
其中,和为所需学习的权重参数,和为所需学习的偏置参数,σ(·)为激活函数ReLU(·)=max(0,·),max(0,·)表示取0和·中的较大值,LogSoftmax(·)为对数归一化指数函数,log(·)为以2为底的对数函数,G(0)为隐含表征,G(0)的特征维度为16,G(1)为所预测的癌症等级,常见等级有:Grade I表示癌症细胞与正常细胞类似且未快速生长,Grade II表示癌症细胞与正常细胞不像且比正常细胞生长的更快,Grade III表示癌症细胞看起来不正常且更加积极的生长和扩散;
所述损失函数模块用于对表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数进行训练,包括以下步骤:
a、设定多任务损失函数,生存分析的损失函数为Cox局部对数似然:
其中,lS为生存分析任务的损失函数,m是样本数量,ti是第i个样本的生存时间,exp(·)为自然常数e为底的指数函数,log(·)为以2为底的对数函数,R(ti)是时间ti前生存的样本的集合,δi表示样本是否发生删失,删失时为0,不删失时为1,为第i个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值,为第j个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值;
分级任务的损失函数为负对数似然:
lG=-log(G(1));
其中,lG为分级任务的损失函数,log(·)为以2为底的对数函数,G(1)为样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的分级结果,最终的损失函数为最小化损失函数l=lS+lG;
b、通过最小化损失函数l和优化器Adam训练表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数,经过d次迭代后获得最优预测模型。
所述模型预测模块依据mRNA表达量,DNA甲基化数据和病理图进行癌症病人的生存分析和分级,包含以下步骤:
a、使用数据加载模块加载mRNA表达量、DNA甲基化数据和病理图,使用数据预处理模块处理mRNA表达量、DNA甲基化数据和病理图;
b、经过步骤a处理后的mRNA表达量、DNA甲基化数据和病理图输入由系统训练模块训练出的最优预测模型中对病人的样本进行的生存分析和分级;
c、每个病人由多个样本构成,针对生存分析任务,每个病人的风险值由其样本的均值计算而来,而针对分级任务,每个病人的分级结果由其样本结果投票所得,若出现同票情况则同时输出多种结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.一种基于多任务和多模态的癌症生存分析系统,其特征在于,包括:
数据导入模块,用于加载多组学数据、病理图和临床数据,并对多组学数据、病理图和临床数据进行预处理,从而为后续系统训练模块和系统预测模块提供标准的输入;
系统训练模块,利用ResNet网络模型对病理图进行表示学习,得到病理图的表征,利用稀疏图卷积神经网络对多组学数据进行表示学习,得到多组学数据的表征,利用全连接神经网络对病理图和多组学数据的表征进行融合,利用全连接神经网络对融合后的表征进行多任务预测,通过反向传播进行模型参数学习,并最终得到最优预测模型,该模型用于同时进行癌症生存分析和癌症分级;
系统预测模块,基于系统训练模块训练出的最优预测模型,依据新的癌症病人的多组学数据和病理数据进行生存分析和癌症分级。
2.根据权利要求1所述的一种基于多任务和多模态的癌症生存分析系统,其特征在于:所述数据导入模块包括数据加载模块和数据预处理模块,其中:
所述数据加载模块从存储设备中读取多组学数据、病理图和临床数据;所述多组学数据包括基因组学数据、转录组学数据、蛋白质组学数据和表观基因组学数据,所述病理图是指经过伊红染色法染色的组织病理图,所述临床数据包括性别、年龄、生存时间、删失和癌症等级;
所述数据预处理模块用于对多组学数据与病理图进行预处理;针对训练样本中多组学数据中的每个组学数据,即需要输入到系统训练模块中的数据,去除空缺样本数超过阈值的特征,使用特征均值填补空缺值,去除均值低于阈值的特征和方差低于阈值的特征;针对待预测样本中多组学据中的每个组学数据,即需要输入到系统预测模块中的数据,则分别保留与训练样本中对应组学的特征相同的特征,并用特征均值填补空缺值;针对每个病人的病理图,先使用OpenSlide工具将其裁剪为z个r1×r2像素大小的病理图小块,z大于或等于1,r1和r2分别表示病理图的长和宽所对应的像素大小,每个小块为一个样本,最终每个病人由z个样本构成,每个样本中对应一个r1×r2像素大小的病理图和该病人经预处理后的多组学数据。
3.根据权利要求1所述的一种基于多任务和多模态的癌症生存分析系统,其特征在于:所述系统训练模块包括表示学习模块、多组学与病理图融合模块、多任务预测模块和损失函数模块,其中:
所述表示学习模块用于对每个样本的多组学数据和病理图进行表示学习,以提取多组学数据和病理图中的关键特征,降低多组学数据和病理图的维度,从而便于后续的融合,包括以下步骤:
a、基于ResNet对r1×r2像素大小的病理图进行表示学习:
其中,ResNet(·)为ResNet152网络模型,所采用的ResNet152网络模型已在ImageNet数据集上进行预训练,XI为经过数据导入模块处理后的病理图,XI的每一行表示一个r1×r2像素大小的病理图,为病理图的表征,的特征维度都为p;
b、基于稀疏图卷积神经网络对多组学数据进行表示学习:
其中,σ(·)为激活函数ReLU(·)=max(0,·),max(0,·)表示取0和·中的较大值,为经过数据导入模块处理后的组学i的数据,i=1,2,...,N,N为组学的数量,A为基因-基因相互作用网络的邻接矩阵,和为组学i表征中所需学习的参数,⊙为阿达玛乘积,为组学i的隐含表征,的特征维度与相同,为组学i的表征,的特征维度为p,基于稀疏图卷积神经网络对多组学数据进行表示学习时能够引入外部知识库,即基因-基因相互作用网络,从而增强系统的表示学习的能力;
所述多组学与病理图融合模块用于对多组学和病理图表征进行融合,包括以下步骤:
a、多组学表征与病理图表征的拼接:
其中,F(0)为拼接后的融合表征,F(0)的特征维度为(N+1)×p,N为组学的数量,p为每个组学和病理图的表征的特征维度,为表示学习模块输出的病理图的表征,为表示学习模块输出的组学i的表征,i=1,2,...,N,cat(·)为拼接函数,按行对每个矩阵进行拼接;
b、对拼接后的特征利用四层的全连接神经网络进行的深层的融合表征:
其中,和为所需学习的权重参数,和为所需要学习的偏置参数,F(1)、F(2)和F(3)为隐含表征,F(1)、F(2)和F(3)的特征维度分别为1024、512和256,F(4)为最终的融合表征,F(4)的特征维度为32,四层的全连接神经网络除能进行深层的融合表征外,也是多任务学习模型的共享结构,用于提取多任务相关联的共享信息;
所述多任务预测模块用于对多组学和病理图的融合表征进行多任务预测,包括以下步骤:
a、使用两层的前馈神经网络进行生存分析任务预测:
b、使用两层的全连接神经网络进行癌症分级任务预测,癌症分级的标签取决于细胞在显微镜下的外观,低等级表示癌症的生长慢,高等级表示癌症的生长快:
所述损失函数模块用于对表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数进行训练,包括以下步骤:
a、设定多任务损失函数,生存分析的损失函数为Cox局部对数似然:
其中,lS为生存分析任务的损失函数,m是样本数量,ti是第i个样本的生存时间,R(ti)是时间ti前生存的样本的集合,δi表示样本是否发生删失,删失时为0,不删失时为1,为第i个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值,为第j个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值;
分级任务的损失函数为负对数似然:
lG=-log(G(1));
其中,lG为分级任务的损失函数,G(1)为样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的分级结果,最终的损失函数为最小化损失函数l=lS+lG;
b、通过最小化损失函数l和优化器Adam训练表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数,经过d次迭代后获得最优预测模型。
4.根据权利要求1所述的一种基于多任务和多模态的癌症生存分析系统,其特征在于:所述模型预测模块依据多组学数据和病理图进行癌症病人的生存分析和分级,包含以下步骤:
a、使用数据导入模块中的数据加载模块加载多组学数据和病理图,再使用数据导入模块中的数据预处理模块处理多组学数据和病理图;
b、经过步骤a处理后的多组学数据和病理图输入由系统训练模块训练出的最优诊断模型中,对癌症病人的样本进行生存分析和分级;
c、每个病人由多个样本构成,针对生存分析任务,每个病人的风险值由其样本的均值计算而来,而针对分级任务,每个病人的分级结果由其样本结果投票所得,若出现同票情况则同时输出多种结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011576778.9A CN112687327B (zh) | 2020-12-28 | 2020-12-28 | 一种基于多任务和多模态的癌症生存分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011576778.9A CN112687327B (zh) | 2020-12-28 | 2020-12-28 | 一种基于多任务和多模态的癌症生存分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112687327A true CN112687327A (zh) | 2021-04-20 |
CN112687327B CN112687327B (zh) | 2024-04-12 |
Family
ID=75452259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011576778.9A Active CN112687327B (zh) | 2020-12-28 | 2020-12-28 | 一种基于多任务和多模态的癌症生存分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112687327B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205150A (zh) * | 2021-05-21 | 2021-08-03 | 东北大学 | 一种基于多时相融合的多任务分类系统及方法 |
CN113539493A (zh) * | 2021-06-23 | 2021-10-22 | 吾征智能技术(北京)有限公司 | 一种利用多模态风险因素推断癌症风险概率的系统 |
CN113723415A (zh) * | 2021-08-26 | 2021-11-30 | 泰康保险集团股份有限公司 | 一种生存时长预测方法、装置、设备及介质 |
CN113838570A (zh) * | 2021-08-31 | 2021-12-24 | 华中科技大学 | 一种基于深度学习的宫颈癌自洽分型方法和系统 |
CN114530222A (zh) * | 2022-01-13 | 2022-05-24 | 华南理工大学 | 一种基于多组学和影像数据融合的癌症患者分类系统 |
CN115188470A (zh) * | 2022-06-29 | 2022-10-14 | 山东大学 | 一种基于多任务Cox学习模型的多慢性病预测系统 |
WO2022268102A1 (zh) * | 2021-06-22 | 2022-12-29 | 安翰科技(武汉)股份有限公司 | 基于深度学习的癌症预后生存预测方法、设备及存储介质 |
CN115565669A (zh) * | 2022-10-11 | 2023-01-03 | 电子科技大学 | 一种基于gan和多任务学习的癌症生存分析方法 |
CN118016298A (zh) * | 2024-02-06 | 2024-05-10 | 海南大学 | 一种用于癌症生存预测的多模态预训练方法、装置及设备 |
CN118136191A (zh) * | 2024-02-06 | 2024-06-04 | 海南大学 | 一种癌症生存预测方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109994200A (zh) * | 2019-03-08 | 2019-07-09 | 华南理工大学 | 一种基于相似度融合的多组学癌症数据整合分析方法 |
CN110298383A (zh) * | 2019-05-28 | 2019-10-01 | 中国科学院计算技术研究所 | 基于多模态深度学习的病理分类方法及系统 |
CN111028939A (zh) * | 2019-11-15 | 2020-04-17 | 华南理工大学 | 一种基于深度学习的多组学智能诊断系统 |
US10650520B1 (en) * | 2017-06-06 | 2020-05-12 | PathAI, Inc. | Systems and methods for training a statistical model to predict tissue characteristics for a pathology image |
WO2020113673A1 (zh) * | 2018-12-07 | 2020-06-11 | 深圳先进技术研究院 | 一种基于多组学集成的癌症亚型分类方法 |
-
2020
- 2020-12-28 CN CN202011576778.9A patent/CN112687327B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10650520B1 (en) * | 2017-06-06 | 2020-05-12 | PathAI, Inc. | Systems and methods for training a statistical model to predict tissue characteristics for a pathology image |
WO2020113673A1 (zh) * | 2018-12-07 | 2020-06-11 | 深圳先进技术研究院 | 一种基于多组学集成的癌症亚型分类方法 |
CN109994200A (zh) * | 2019-03-08 | 2019-07-09 | 华南理工大学 | 一种基于相似度融合的多组学癌症数据整合分析方法 |
CN110298383A (zh) * | 2019-05-28 | 2019-10-01 | 中国科学院计算技术研究所 | 基于多模态深度学习的病理分类方法及系统 |
CN111028939A (zh) * | 2019-11-15 | 2020-04-17 | 华南理工大学 | 一种基于深度学习的多组学智能诊断系统 |
Non-Patent Citations (2)
Title |
---|
张泽中;高敬阳;吕纲;赵地;: "基于深度学习的胃癌病理图像分类方法", 计算机科学, no. 2, 15 November 2018 (2018-11-15) * |
李叙潼, 等: "人工智能算法在药物细胞敏感性预测中的应用", 中国科学, vol. 65, no. 32, 17 June 2020 (2020-06-17) * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205150A (zh) * | 2021-05-21 | 2021-08-03 | 东北大学 | 一种基于多时相融合的多任务分类系统及方法 |
CN113205150B (zh) * | 2021-05-21 | 2024-03-01 | 东北大学 | 一种基于多时相融合的多任务分类系统及方法 |
WO2022268102A1 (zh) * | 2021-06-22 | 2022-12-29 | 安翰科技(武汉)股份有限公司 | 基于深度学习的癌症预后生存预测方法、设备及存储介质 |
CN113539493A (zh) * | 2021-06-23 | 2021-10-22 | 吾征智能技术(北京)有限公司 | 一种利用多模态风险因素推断癌症风险概率的系统 |
CN113723415A (zh) * | 2021-08-26 | 2021-11-30 | 泰康保险集团股份有限公司 | 一种生存时长预测方法、装置、设备及介质 |
CN113723415B (zh) * | 2021-08-26 | 2023-07-18 | 泰康保险集团股份有限公司 | 一种生存时长预测方法、装置、设备及介质 |
CN113838570A (zh) * | 2021-08-31 | 2021-12-24 | 华中科技大学 | 一种基于深度学习的宫颈癌自洽分型方法和系统 |
CN113838570B (zh) * | 2021-08-31 | 2024-04-26 | 华中科技大学 | 一种基于深度学习的宫颈癌自洽分型方法和系统 |
CN114530222A (zh) * | 2022-01-13 | 2022-05-24 | 华南理工大学 | 一种基于多组学和影像数据融合的癌症患者分类系统 |
CN114530222B (zh) * | 2022-01-13 | 2024-08-06 | 华南理工大学 | 一种基于多组学和影像数据融合的癌症患者分类系统 |
CN115188470A (zh) * | 2022-06-29 | 2022-10-14 | 山东大学 | 一种基于多任务Cox学习模型的多慢性病预测系统 |
CN115565669A (zh) * | 2022-10-11 | 2023-01-03 | 电子科技大学 | 一种基于gan和多任务学习的癌症生存分析方法 |
CN118016298A (zh) * | 2024-02-06 | 2024-05-10 | 海南大学 | 一种用于癌症生存预测的多模态预训练方法、装置及设备 |
CN118136191A (zh) * | 2024-02-06 | 2024-06-04 | 海南大学 | 一种癌症生存预测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112687327B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112687327B (zh) | 一种基于多任务和多模态的癌症生存分析系统 | |
CN111488921B (zh) | 一种全景数字病理图像智能分析系统及方法 | |
CN109272048B (zh) | 一种基于深度卷积神经网络的模式识别方法 | |
CN110866893B (zh) | 基于病理图像的tmb分类方法、系统及tmb分析装置 | |
CN110245657B (zh) | 病理图像相似性检测方法及检测装置 | |
CN110021425B (zh) | 一种比较检测器及其构建方法与宫颈癌细胞检测方法 | |
CN109492706B (zh) | 一种基于循环神经网络的染色体分类预测装置 | |
CN114530222B (zh) | 一种基于多组学和影像数据融合的癌症患者分类系统 | |
CN113947607A (zh) | 一种基于深度学习的癌症病理图像生存预后模型构建方法 | |
WO2024060416A1 (zh) | 一种病理图像的端到端弱监督语义分割标注方法 | |
CN110599459A (zh) | 基于深度学习的地下管网风险评估云系统 | |
EP4138091A1 (en) | Cancer prognosis | |
CN114496099A (zh) | 细胞功能注释方法、装置、设备及介质 | |
CN114445356A (zh) | 基于多分辨率的全视野病理切片图像肿瘤快速定位方法 | |
CN116884597A (zh) | 基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法及系统 | |
CN115471701A (zh) | 基于深度学习和迁移学习的肺腺癌组织学亚型分类方法 | |
CN114037699B (zh) | 一种病理图像分类方法、设备、系统及存储介质 | |
Tyagi et al. | LCSCNet: A multi-level approach for lung cancer stage classification using 3D dense convolutional neural networks with concurrent squeeze-and-excitation module | |
CN117496512B (zh) | 宫颈tct切片的多类型细胞核标注及多任务处理方法 | |
CN115147640A (zh) | 一种基于改进胶囊网络的脑肿瘤图像分类方法 | |
CN114580501A (zh) | 骨髓细胞分类方法、系统、计算机设备及存储介质 | |
CN118471527A (zh) | 乳腺癌症患者预后预测方法和装置、电子设备及存储介质 | |
CN114863149A (zh) | 预测乳腺癌相对生存风险的方法、系统、设备及存储介质 | |
CN113222903A (zh) | 一种全切片组织病理图像分析方法及系统 | |
CN116863464A (zh) | 基于分层图卷积和注意力的病理图像生存分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |