CN112687327B

CN112687327B - 一种基于多任务和多模态的癌症生存分析系统

Info

Publication number: CN112687327B
Application number: CN202011576778.9A
Authority: CN
Inventors: 董守斌; 谭凯文; 胡金龙; 黄薇娴
Original assignee: Zhongshan Yishu Technology Co ltd
Current assignee: Zhongshan Yishu Technology Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2024-04-12
Anticipated expiration: 2040-12-28
Also published as: CN112687327A

Abstract

本发明公开了一种基于多任务和多模态的癌症生存分析系统，包括：数据导入模块，包括数据加载模块和数据预处理模块；系统训练模块，包括表示学习模块、多组学与病理图融合模块、多任务预测模块和损失函数模块；系统预测模块，依据癌症病人的多组学数据和病理图进行生存分析和分级。本发明将深度学习技术、多任务学习技术与多组学、病理图数据结合，即能捕获多模态数据间的互补特性，又能捕获多任务间的共享关联性，从而形成一种基于多任务和多模态的癌症生存分析系统，并提供自动化的生存分析和癌症分级结果。

Description

一种基于多任务和多模态的癌症生存分析系统

技术领域

本发明涉及癌症生存分析和分级的技术领域，尤其是指一种基于多任务和多模态的癌症生存分析系统。

背景技术

随着下一代测序技术的发展，病人组学数据的获取越来越方便，例如基因组学、转录组学、蛋白组学、表观组学等多组学数据。不同组学是对病人不同分子层次的描述，多组学的融合能够更好地了解病人的疾病发展状态，从而提供更精准和高效的诊断和预后结果。影像数据一直以来被广泛用于分析癌症病人的病情。随着这几十年影像技术和计算机技术的发展，病理学图片通过各种工具、技术被保存在电子设备中，使得随时读取病人病理图成为可能，但这些病理图分辨率非常高，通过病理学家进行分析耗时耗力。而近年，欧洲放射和肿瘤治疗学会提出放射基因组学的概念，旨在通过计算机的方式将基因组学和医学影像联系起来，从而更好地为癌症病人进行诊断、治疗、预后。现在放射基因组学已经从癌症范畴扩大到精神疾病例如阿尔兹海默症和神经分裂等多种疾病领域，但针对多组学数据和病理图这样高度异构数据的融合依然面临着困难；

多任务学习是目前机器学习中一个热门的研究领域，目的是基于共享表示，通过利用不同任务之间的关联信息，提升不同任务各自的学习器的准确率。从多任务的定义可以将要求分为两点，一点是任务之间应该具备一定的关联信息，从而可以促进两个任务相互利用其中的信息，提高预测准确率。另一点是定义任务，明确要完成的任务是监督学习任务还是非监督学习任务。癌症病人的生存分析和分级符合多任务学习的关联要求的有监督学习任务，理论上能够分别提升这两个任务的预测效果；

综上所述，我们考虑将多任务与多模态融合应用到癌症病人的生存分析和分级中，目的是提高这两个任务的预测准确率。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于多任务和多模态的癌症生存分析系统，突破传统单组学/单影像系统信息源单一的局限性，充分捕获多组学与影像等多模态间的异构与互补特性，挖掘多任务间的关联性，从而增强癌症的生存分析与分级能力。

为实现上述目的，本发明所提供的技术方案为：一种基于多任务和多模态的癌症生存分析系统，包括：

数据导入模块，用于加载多组学数据、病理图和临床数据，并对多组学数据、病理图和临床数据进行预处理，从而为后续系统训练模块和系统预测模块提供标准的输入；

系统训练模块，利用ResNet网络模型对病理图进行表示学习，得到病理图的表征，利用稀疏图卷积神经网络对多组学数据进行表示学习，得到多组学数据的表征，利用全连接神经网络对病理图和多组学数据的表征进行融合，利用全连接神经网络对融合后的表征进行多任务预测，通过反向传播进行模型参数学习，并最终得到最优预测模型，该模型用于同时进行癌症生存分析和癌症分级；

系统预测模块，基于系统训练模块训练出的最优预测模型，依据新的癌症病人的多组学数据和病理数据进行生存分析和癌症分级。

进一步，所述数据导入模块包括数据加载模块和数据预处理模块，其中：

所述数据加载模块从存储设备中读取多组学数据、病理图和临床数据；所述多组学数据包括基因组学数据、转录组学数据、蛋白质组学数据和表观基因组学数据，所述病理图是指经过伊红染色法染色的组织病理图，所述临床数据包括性别、年龄、生存时间、删失和癌症等级；

所述数据预处理模块用于对多组学数据与病理图进行预处理；针对训练样本中多组学数据中的每个组学数据，即需要输入到系统训练模块中的数据，去除空缺样本数超过阈值的特征，使用特征均值填补空缺值，去除均值低于阈值的特征和方差低于阈值的特征；针对待预测样本中多组学据中的每个组学数据，即需要输入到系统预测模块中的数据，则分别保留与训练样本中对应组学的特征相同的特征，并用特征均值填补空缺值；针对每个病人的病理图，先使用OpenSlide工具将其裁剪为z个r₁×r₂像素大小的病理图小块，z大于或等于1，r₁和r₂分别表示病理图的长和宽所对应的像素大小，每个小块为一个样本，最终每个病人由z个样本构成，每个样本中对应一个r₁×r₂像素大小的病理图和该病人经预处理后的多组学数据。

进一步，所述系统训练模块包括表示学习模块、多组学与病理图融合模块、多任务预测模块和损失函数模块，其中：

所述表示学习模块用于对每个样本的多组学数据和病理图进行表示学习，以提取多组学数据和病理图中的关键特征，降低多组学数据和病理图的维度，从而便于后续的融合，包括以下步骤：

a、基于ResNet对r₁×r₂像素大小的病理图进行表示学习：

其中，ResNet(·)为ResNet152网络模型，所采用的ResNet152网络模型已在ImageNet数据集上进行预训练，X_I为经过数据导入模块处理后的病理图，X_I的每一行表示一个r₁×r₂像素大小的病理图，为病理图的表征，/>的特征维度都为p；

b、基于稀疏图卷积神经网络对多组学数据进行表示学习：

其中，σ(·)为激活函数ReLU(·)＝max(0,·)，max(0,·)表示取0和·中的较大值，为经过数据导入模块处理后的组学i的数据，i＝1,2,...,N，N为组学的数量，A为基因-基因相互作用网络的邻接矩阵，/>和/>为组学i表征中所需学习的参数，⊙为阿达玛乘积，/>为组学i的隐含表征，/>的特征维度与/>相同，/>为组学i的表征，的特征维度为p，基于稀疏图卷积神经网络对多组学数据进行表示学习时能够引入外部知识库，即基因-基因相互作用网络，从而增强系统的表示学习的能力；

所述多组学与病理图融合模块用于对多组学和病理图表征进行融合，包括以下步骤：

a、多组学表征与病理图表征的拼接：

其中，F⁽⁰⁾为拼接后的融合表征，F⁽⁰⁾的特征维度为(N+1)×p，N为组学的数量，p为每个组学和病理图的表征的特征维度，为表示学习模块输出的病理图的表征，/>为表示学习模块输出的组学i的表征，i＝1,2,...,N，cat(·)为拼接函数，按行对每个矩阵进行拼接；

b、对拼接后的特征利用四层的全连接神经网络进行的深层的融合表征：

其中，和/>为所需学习的权重参数，/>和/>为所需要学习的偏置参数，F⁽¹⁾、F⁽²⁾和F⁽³⁾为隐含表征，F⁽¹⁾、F⁽²⁾和F⁽³⁾的特征维度分别为1024、512和256，F⁽⁴⁾为最终的融合表征，F⁽⁴⁾的特征维度为32，四层的全连接神经网络除能进行深层的融合表征外，也是多任务学习模型的共享结构，用于提取多任务相关联的共享信息；

所述多任务预测模块用于对多组学和病理图的融合表征进行多任务预测，包括以下步骤：

a、使用两层的前馈神经网络进行生存分析任务预测：

其中，为所需学习的权重参数，/>和/>为所需学习的偏置参数，Sigmoid(·)表示Sigmoid函数，S⁽⁰⁾为隐含表征，S⁽⁰⁾的特征维度为16，S⁽¹⁾为所预测的生存风险值；

b、使用两层的全连接神经网络进行癌症分级任务预测，癌症分级的标签取决于细胞在显微镜下的外观，低等级表示癌症的生长慢，高等级表示癌症的生长快：

其中，和/>为所需学习的权重参数，/>和/>为所需学习的偏置参数，LogSoftmax(·)为对数归一化指数函数，G⁽⁰⁾为隐含表征，G⁽⁰⁾的特征维度为16，G⁽¹⁾为所预测的癌症等级；

所述损失函数模块用于对表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数进行训练，包括以下步骤：

a、设定多任务损失函数，生存分析的损失函数为Cox局部对数似然：

其中，l_S为生存分析任务的损失函数，m是样本数量，t_i是第i个样本的生存时间，R(t_i)是时间t_i前生存的样本的集合，δ_i表示样本是否发生删失，删失时为0，不删失时为1，为第i个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值，/>为第j个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值；

分级任务的损失函数为负对数似然：

l_G＝-log(G⁽¹⁾)；

其中，l_G为分级任务的损失函数，G⁽¹⁾为样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的分级结果，最终的损失函数为最小化损失函数l＝l_S+l_G；

b、通过最小化损失函数l和优化器Adam训练表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数，经过d次迭代后获得最优预测模型。

进一步，所述模型预测模块依据多组学数据和病理图进行癌症病人的生存分析和分级，包含以下步骤：

a、使用数据导入模块中的数据加载模块加载多组学数据和病理图，再使用数据导入模块中的数据预处理模块处理多组学数据和病理图；

b、经过步骤a处理后的多组学数据和病理图输入由系统训练模块训练出的最优诊断模型中，对癌症病人的样本进行生存分析和分级；

c、每个病人由多个样本构成，针对生存分析任务，每个病人的风险值由其样本的均值计算而来，而针对分级任务，每个病人的分级结果由其样本结果投票所得，若出现同票情况则同时输出多种结果。

本发明与现有技术相比，具有如下优点与有益效果：

1、充分利用现有的病理图表征技术，即经过ImageNet预训练的ResNet152网络模型，提取病理图的深度特征，从而提升后续多模态融合和多任务学习的能力。

2、通过引入外部知识库，即基因-基因相互作用网络，增强系统对多组学数据的表征能力，从而提升后续多模态融合和多任务学习的能力。

3、通过深度学习方法充分挖掘多组学与病理图之间的互补特性，增强癌症生存分析和分级能力，同时这种将分子水平的多种基因数据与病理图相结合的方法，有利于进一步揭示癌症的致病机理。

4、通过多任务学习的方式捕获多任务间的共享关联性，同时增强各任务的性能。

附图说明

图1为本发明系统各个模块的关系示意图。

图2为本发明系统训练和预测的流程图。

图3为本发明系统所使用稀疏图卷积神经网络的结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本实施例公开了一种基于多任务和多模态的癌症生存分析系统，是使用Python语言开发的可在Windows，Linux和Mac设备上运行，系统各模块间关系如图1所示，系统训练和预测的流程如图2所示。它包括有：

数据导入模块，用于加载多组学数据，即mRNA表达量数据和DNA甲基化数据、病理图和临床数据，并对mRNA表达量数据和DNA甲基化数据、病理图和临床数据进行预处理，从而为后续系统训练模块和系统预测模块提供标准的输入；

系统训练模块，利用ResNet网络模型对病理图进行表示学习，得到病理图的表征，利用稀疏图卷积神经网络对分别对mRNA表达量数据和DNA甲基化数据进行表示学习，得到mRNA表达量数据和DNA甲基化数据的表征，利用全连接神经网络对病理图，mRNA表达量数据和DNA甲基化数据的表征进行融合，利用全连接神经网络对融合后的表征进行多任务预测，即生存分析任务和癌症分级任务，通过反向传播进行模型参数学习，并最终得到最优的模型，该模型可用于同时进行癌症生存分析和癌症分级；

系统预测模块，基于系统训练模块训练出的最优模型，依据新的癌症病人的mRNA表达量数据，DNA甲基化数据和病理数据进行生存分析和癌症分级。

所述数据导入模块包括数据加载模块、数据预处理模块，其中：

所述数据加载模块从存储设备中读取癌症病人(例如，胶质瘤)的CSV格式的mRNA表达量数据和DNA甲基化数据，读取病人的SVS格式的病理图数据，读取病人的CSV格式的临床数据，包括生存时间、删失和癌症等级；

所述数据预处理模块用于对mRNA表达量数据，DNA甲基化数据和病理图的数据进行预处理，针对训练样本的mRNA表达量数据和DNA甲基化数据，分别去除空缺样本数超20％的特征、使用特征均值填补空缺值、去均值最低的5％的特征和方差最低的5％的特征，针对待预测样本中的mRNA表达量数据和DNA甲基化数据，则分别保留与其对应组学的特征相同的特征，并用特征均值填补空缺值，针对每个病人的病理图数据先使用OpenSlide工具将其裁剪为z个1024×1024像素大小的病理图小块，每个小块为一个样本，最终每个病人由z个样本构成，z大于或等于1，每个样本中对应一个1024×1024像素大小的病理图和该病人经预处理后的mRNA表达量数据和DNA甲基化数据。

所述系统训练模块包括表示学习模块、多组学与病理图融合模块、多任务预测模块、损失函数模块，其中：

所述表示学习模块用于对每个样本的多组学数据和病理图进行表示学习，以提取多组学数据和病理图数据中的关键特征，降低多组学数据和病理图数据的维度，从而便于后续的融合，包括以下步骤：

a、基于ResNet对1024×1024像素大小病理图进行表示学习：

其中，ResNet(·)为ResNet152网络模型，本系统所采用的ResNet152网络模型已在ImageNet数据集上进行预训练，X_I为经过数据导入模块处理后的病理图，X_I的每一行表示一个1024×1024像素大小的病理图，为病理图的表征，/>的特征维度都为1000；

b、基于稀疏图卷积神经网络对mRNA表达量和DNA甲基化数据进行表示学习：

其中，的结构如图3所示，σ(·)为激活函数ReLU(·)＝max(0,·)，max(0,·)表示取0和·中的较大值，/>和/>为经过数据导入模块处理后的mRNA表达量和DNA甲基化数据，A为基因-基因相互作用网络的邻接矩阵，通过HINT蛋白质相互作用数据库构建，/>和/>为mRNA表达量表征中所需学习的参数，/>和/>为DNA甲基化表征中所需学习的参数，⊙为阿达玛乘积，/>为mRNA表达量的隐含表征，的维度与/>相同，/>为DNA甲基化的隐含表征，/>的特征维度与/>相同，/>为mRNA表达量的表征，/>的特征维度为1000，/>为DNA甲基化的表征，/>的特征维度为1000；

所述多组学与病理图融合模块用于对mRNA表达量，DNA甲基化数据和病理图表征进行融合，包括以下步骤：

a、mRNA表达量表征，DNA甲基化表征和病理图表征的拼接：

其中，F⁽⁰⁾为拼接后的融合表征，F⁽⁰⁾的特征维度为3000，为表示学习模块所学的病理图表征，/>为mRNA表达量的表征，/>为DNA甲基化的表征，cat(·)为拼接函数，按行对/>和/>进行拼接；

其中，和/>为所需学习的权重参数，/>和/>为所需要学习的偏置参数，σ(·)为激活函数ReLU(·)＝max(0,·)，F⁽¹⁾，F⁽²⁾和F⁽³⁾为隐含表征，F⁽¹⁾、F⁽²⁾和F⁽³⁾的特征维度分别为1024，512和256，F⁽⁴⁾为最终的融合表征，其特征维度为32，四层的全连接神经网络除能进行深层的融合表征外，也是多任务学习模型的共享结构，用于提取多任务相关联的共享信息；

所述多任务预测模块用于对mRNA表达量，DNA甲基化和病理图的融合表征进行生存分析任务和分级任务的预测，包括以下步骤：

a、使用两层的前馈神经网络进行生存分析任务预测：

其中，和/>为所需学习的权重参数，/>和/>为所需学习的偏置参数，σ(·)为激活函数ReLU(·)＝max(0,·)，max(0,·)表示取0和·中的较大值，Sigmoid(·)表示Sigmoid函数，S⁽⁰⁾为隐含表征，S⁽⁰⁾的特征维度为16，S⁽¹⁾为所预测的生存风险值；

b、使用两层的前馈神经网络进行癌症分级任务预测，癌症分级的标签一般取决于细胞在显微镜下的外观，通常较低的等级表示癌症的生长较慢，较高的等级表示癌症的生长较快：

其中，和/>为所需学习的权重参数，/>和/>为所需学习的偏置参数，σ(·)为激活函数ReLU(·)＝max(0,·)，max(0,·)表示取0和·中的较大值，LogSoftmax(·)为对数归一化指数函数，log(·)为以2为底的对数函数，G⁽⁰⁾为隐含表征，G⁽⁰⁾的特征维度为16，G⁽¹⁾为所预测的癌症等级，常见等级有：Grade I表示癌症细胞与正常细胞类似且未快速生长，Grade II表示癌症细胞与正常细胞不像且比正常细胞生长的更快，Grade III表示癌症细胞看起来不正常且更加积极的生长和扩散；

其中，l_S为生存分析任务的损失函数，m是样本数量，t_i是第i个样本的生存时间，exp(·)为自然常数e为底的指数函数，log(·)为以2为底的对数函数，R(t_i)是时间t_i前生存的样本的集合，δ_i表示样本是否发生删失，删失时为0，不删失时为1，为第i个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值，/>为第j个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值；

分级任务的损失函数为负对数似然：

l_G＝-log(G⁽¹⁾)；

其中，l_G为分级任务的损失函数，log(·)为以2为底的对数函数，G⁽¹⁾为样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的分级结果，最终的损失函数为最小化损失函数l＝l_S+l_G；

所述模型预测模块依据mRNA表达量，DNA甲基化数据和病理图进行癌症病人的生存分析和分级，包含以下步骤：

a、使用数据加载模块加载mRNA表达量、DNA甲基化数据和病理图，使用数据预处理模块处理mRNA表达量、DNA甲基化数据和病理图；

b、经过步骤a处理后的mRNA表达量、DNA甲基化数据和病理图输入由系统训练模块训练出的最优预测模型中对病人的样本进行的生存分析和分级；

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多任务和多模态的癌症生存分析系统，其特征在于，包括：

系统预测模块，基于系统训练模块训练出的最优预测模型，依据新的癌症病人的多组学数据和病理数据进行生存分析和癌症分级；

所述系统训练模块包括表示学习模块、多组学与病理图融合模块、多任务预测模块和损失函数模块，其中：

a、基于ResNet对r₁×r₂像素大小的病理图进行表示学习：

b、基于稀疏图卷积神经网络对多组学数据进行表示学习：

其中，σ(·)为激活函数ReLU(·)＝max(0,·)，max(0,·)表示取0和·中的较大值，X_Oi为经过数据导入模块处理后的组学i的数据，i＝1,2,...,N，N为组学的数量，A为基因-基因相互作用网络的邻接矩阵，和/>为组学i表征中所需学习的参数，⊙为阿达玛乘积，/>为组学i的隐含表征，/>的特征维度与X_Oi相同，/>为组学i的表征，/>的特征维度为p，基于稀疏图卷积神经网络对多组学数据进行表示学习时能够引入外部知识库，即基因-基因相互作用网络，从而增强系统的表示学习的能力；

a、多组学表征与病理图表征的拼接：

a、使用两层的前馈神经网络进行生存分析任务预测：

分级任务的损失函数为负对数似然：

l_G＝-log(G⁽¹⁾)；

2.根据权利要求1所述的一种基于多任务和多模态的癌症生存分析系统，其特征在于：所述数据导入模块包括数据加载模块和数据预处理模块，其中：

3.根据权利要求1所述的一种基于多任务和多模态的癌症生存分析系统，其特征在于：所述模型预测模块依据多组学数据和病理图进行癌症病人的生存分析和分级，包含以下步骤：