CN113257413B

CN113257413B - 基于深度学习的癌症预后生存预测方法、设备及存储介质

Info

Publication number: CN113257413B
Application number: CN202110688757.4A
Authority: CN
Inventors: 张楚康; 黄志威; 张皓; 明繁华
Original assignee: Ankon Technologies Co Ltd
Current assignee: Ankon Technologies Co Ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-10-19
Anticipated expiration: 2041-06-22
Also published as: WO2022268102A1; CN113257413A

Abstract

本发明揭示了一种基于深度学习的癌症预后生存预测方法、设备及存储介质，所述方法包括：数据获取：获取样本数据，所述样本数据包括样本的病理影像数据和临床数据；数据预处理；训练预测模型：对预测模型进行训练和评估，得到最佳预测模型；风险预测：基于最优分类器模型和所述最佳预测模型，对新样本进行风险预测。与现有技术相比，本发明的基于深度学习的癌症预后生存预测方法，通过对病理影像数据和临床数据的数据特征进行统一，并基于统一数据特征后的病理影像数据和临床数据对预测模型进行训练和评估，得到最优预测模型，对新的样本数据进行预后风险评估，提高该临床领域的诊疗效率和风险评估结果的准确率。

Description

基于深度学习的癌症预后生存预测方法、设备及存储介质

技术领域

本发明属于计算机技术、图像分析处理和临床诊断领域，具体涉及到以机器学习、深度学习为代表的人工智能算法以及临床统计学相关技术，特别涉及一种基于深度学习的癌症预后生存预测方法、设备及存储介质。

背景技术

生存分析指一系列用来探究感兴趣事件的发生的统计方法；与传统的回归问题不同，生存分析的研究目标为事件在特定时间点发生的概率，然后估计对象随时间变化的生存情况，而不仅仅是预测一个目标变量。常规的生存分析技术有Kaplan-Meier（KM方法）和Cox回归等，KM方法是一种无参数方法(non-parametric)来从观察的生存时间来估计生存概率的方法，是单变量分析(univariable analysis)；而Cox回归（比例风险回归模型，proportional hazards model）是一种半参数回归模型，该模型以生存结局和生存时间为因变量同时分析众多因素对生存期的影响。生存分析在临床和生物统计领域有广泛的应用，而癌症的预后情况预测是比较典型的应用场景。

目前对癌症的预后情况预测，一般仅仅是对医学影像类数据（例如病理切片图片）进行诊断分析，而实际上临床数据也是临床诊断的重要依据，这种对单方面数据进行诊断和预测的方法，准确率不高。

因此，如何将医学影像类数据与临床数据进行有效结合，然后对其进行诊断分析和预测，是目前亟待解决的问题。

发明内容

本发明的目的在于提供一种基于深度学习的癌症预后生存预测方法、设备及存储介质。

为实现上述发明目的之一，本发明一实施方式提供一种基于深度学习的癌症预后生存预测方法，所述方法包括：

数据获取：获取样本数据，所述样本数据包括样本的病理影像数据和临床数据；

数据预处理：基于所述样本数据对深度学习分类器模型进行训练和评估，得到最优分类器模型；使用所述最优分类器模型对所述样本数据进行预处理，提取所述病理影像数据中患癌部位的数据特征，每个样本得到一个第一预处理数据，将所述临床数据进行转换以便计算机语言识别，每个样本得到一个第二预处理数据；

训练预测模型：使用所有所述第一预处理数据和第二预处理数据对预测模型进行训练和评估，得到最佳预测模型；

风险预测：基于所述最优分类器模型和所述最佳预测模型，对新样本进行风险预测；

其中，“基于所述样本数据对深度学习分类器模型进行训练和评估，得到最优分类器模型”包括：

以所述样本的病理影像数据为输入数据，通过弱监督深度学习训练和评估分类器模型，得到最优分类器模型，其中所述病理影像数据包括按预设比例收集的患癌病理切片和非患癌病理切片；

“提取所述病理影像数据中患癌部位的数据特征，每个样本得到一个第一预处理数据”包括：

将所述患癌病理切片输入到所述最优分类器模型，选取每个患癌病理切片的前K个患癌概率最高的图片区域，得到所述第一预处理数据；

所述预测模型包括两层，使用所述第一预处理数据和第二预处理数据对所述预测模型进行训练和评估的过程包括：

在所述预测模型的第一层，以所述最优分类器模型去除全连接层作为特征提取器，从所述第一预处理数据的每个图片区域中抽取特征向量，每个图片区域抽取的特征向量为第一特征向量；使用两个隐层的MLP深度学习算法压缩所述第一特征向量，每个第一特征向量得到一个长度为1的单一特征数值；将每个所述单一特征数值与所述第二预处理数据进行横向拼接，得到第二特征向量；

在所述预测模型的第二层，基于负对数似然损失函数的优化训练及一致性指数作为所述预测模型的性能衡量指标，对每个所述第二特征向量进行压缩后经激活函数输出概率值，所有概率值的平均即为每个样本的预后风险指标。

作为本发明一实施方式的进一步改进，使用一个样本的所述第一预处理数据和第二预处理数据对预测模型进行训练的过程包括：

将所述第一预处理数据进行压缩，得到与所述第二预处理数据具有相同数据类型的第三预处理数据，将所述第二预处理数据和第三预处理数据拼接成特征向量，再对所述特征向量进行压缩后通过激活函数，得到最终的预测结果。

作为本发明一实施方式的进一步改进，“以所述样本的病理影像数据为输入数据，通过弱监督深度学习训练和评估分类器模型，得到最优分类器模型”包括：

选用固定尺寸的滑窗、用指定步长水平和垂直遍历每个病理影像数据，生成与对应病理影像数据具有相同标签的多个滑窗区域图像；

基于所有所述滑窗区域图像，训练并评估基于交叉熵损失函数的分类器模型，得到最优分类器模型。

作为本发明一实施方式的进一步改进，每个样本的所述病理影像数据是通过统一的染色方法制备、并统一放大倍数而得到；

每个样本的所述临床数据为针对癌症进行治疗和判断的指标，包括性别、年龄、病灶大小、病理分期、T/N/M分期和组织学分期。

作为本发明一实施方式的进一步改进，所述临床数据包括离散型变量和连续型变量，将所述临床数据进行转换以便计算机语言识别，包括：

对于具有缺失值的离散型变量，通过独立的条目进行填补；

对于具有缺失值的连续型变量，通过整体均值进行填补；

对于离散型变量，通过数字化进行编码。

为实现上述发明目的之一，本发明一实施方式提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一项所述基于深度学习的癌症预后生存预测方法中的步骤。

为实现上述发明目的之一，本发明一实施方式提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述基于深度学习的癌症预后生存预测方法中的步骤。

与现有技术相比，本发明的基于深度学习的癌症预后生存预测方法，通过对病理影像数据和临床数据的数据特征进行统一，并基于统一数据特征后的病理影像数据和临床数据对预测模型进行训练和评估，得到最优预测模型，对新的样本数据进行预后风险评估，提高该临床领域的诊疗效率和风险评估结果的准确率。

附图说明

图1是本发明基于深度学习的癌症预后生存预测方法的流程示意图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

如图1所示，本发明提供一种基于深度学习的癌症预后生存预测方法，所述方法包括如下步骤。

步骤S100：数据获取：获取样本数据，所述样本数据包括样本的病理影像数据和临床数据。

所述步骤S100主要用于收集癌症患者预后相关信息，每个癌症患者的预后相关信息即为一个患癌样本数据，所述样本数据包括样本的病理影像数据和临床数据。

不过为了对后续的模型进行训练，所述步骤S100还会收集与癌症患者相对应的非癌症患者的相关信息，每个非患癌患者的相关信息即为一个非患癌样本数据。所述患癌样本数据和非患癌样本数据通过预设的比例，共同构成了所有样本数据，即样本数据集。优选所述预设的比例为1:1。

进一步的，每个样本的所述病理影像数据是通过统一的染色方法制备、并统一放大倍数而得到。具体的，病理影像数据对应的组织切片通过统一的苏木素-伊红染色法（H&EStaining）进行制备，并具备同样的成像放大倍率（如X5或X10）。

每个样本的所述临床数据为针对癌症进行治疗和判断的指标，包括但不限于性别、年龄、病灶大小、病理分期、T/N/M分期和组织学分期。并且，对于某项特征的数据采集需要遵循统一的标准和单位。

每个样本都具有标签信息，所述标签信息包括截止观测时间的生存状态和存活时间，其中，所述生存状态包括存活0和死亡1，所述存活时间的单位为年。

步骤S200：数据预处理：基于所述样本数据对深度学习分类器模型进行训练和评估，得到最优分类器模型（所述最优分类器模型为最优深度学习分类器模型）；使用所述最优分类器模型对所述样本数据进行预处理，提取所述病理影像数据中患癌部位的数据特征，每个样本得到一个第一预处理数据，将所述临床数据进行转换以便计算机语言识别，每个样本得到一个第二预处理数据。

所述数据预处理主要包括分别对样本数据中的病理影像数据和临床数据进行预处理，其中，对于病理影像数据的预处理，需要先基于病理影像数据训练和评估分类器模型，得到最优分类器模型，然后使用最优分类器模型对患癌样本的病理影像数据中患癌部位的数据特征进行提取。

优选的，“基于所述样本数据对深度学习分类器模型进行训练和评估，得到最优分类器模型”包括：

以所述样本的病理影像数据为输入数据，通过弱监督学习训练和评估分类器模型，得到最优分类器模型，其中所述病理影像数据包括按预设比例收集的患癌病理切片和非患癌病理切片。

进一步的，“以所述样本的病理影像数据为输入数据，通过弱监督学习训练和评估分类器模型，得到最优分类器模型”包括：

在一个具体的实施方式中，所述步骤S200包括如下步骤。

步骤S210：用固定大小的正方形滑窗（如224*224像素）按照预设步长（如滑窗边长的10%或15%）水平和垂直遍历每个样本的病理影像数据，每个病理影像数据得到一系列小的滑窗图片，这些滑窗图片的标签与其对应的完整病理影像数据的标签一致（良性或恶性）。

步骤S220：以完整样本为单位将所有样本的病理影像数据划分为训练集和验证集，建立基于卷积神经网络（Convolutional Neural Network, CNN）的深度学习分类器进行二分类预测训练。

分类器可以从多种现有深度学习模型（如基于卷进神经网络的ResNet或VGG等）中选取，模型优化选用交叉熵（Cross Entropy）损失函数，公式为：

，其中N为样本数，

为第i个样本的真实标签（0或1），

为第i个样本通过Sigmoid或Softmax激活函数输出的阳性概率值。模型的评价指标为样本的分类准确率。每个样本的最终分类概率结果为其对应的阳性概率最高的s个滑窗图像（s可取32、64或128等，优选为128）的输出均值。

步骤S230：待模型训练收敛稳定达到最优效果后（即得到最优分类器模型），输出每个癌症样本的病理影像数据对应的滑窗图片的预测概率结果，保存概率值最高的k个滑窗的左上角坐标(xi, yi)，得到每个样本的第一预处理数据。这里k的取值可为32、64或128等，优选为128。

步骤S240：对临床数据进行预处理，得到每个样本数据的第二预处理数据。

所述临床数据包括离散型变量和连续型变量，一般以表格型信息进行收集，然后将表格型信息转化为计算机语言可以识别的形式，包括：

（1）对于具有缺失值的离散型变量（例如病理分期），通过独立的条目进行填补。例如将具有缺失值的离散型变量，填补为“N/A”；

（2）对于具有缺失值的连续型变量，通过整体均值进行填补。这里，连续型变量可以是年龄或者病灶直径等；

（3）对于离散型变量，通过数字化进行编码。例如，将性别进行编码：0表示男，1表示女，或对组织学分期进行编码：0表示G1期，1表示G2期，2表示G3期，3表示N/A。

步骤S300：训练预测模型：使用所有所述第一预处理数据和第二预处理数据对预测模型进行训练和评估，得到最佳预测模型。

本步骤主要是通过对病理影像数据和临床数据的数据特征进行统一，并基于统一数据特征后的病理影像数据和临床数据对预测模型进行训练和评估，得到最优预测模型。

在一优选的实施方式中，使用一个样本的所述第一预处理数据和第二预处理数据对预测模型进行训练的过程包括：

基于步骤S200的一个具体实施方式，在另一优选的实施方式中，所述预测模型包括两层，使用所述第一预处理数据和第二预处理数据对所述预测模型进行训练和评估的过程包括如下步骤。

步骤S310：在所述预测模型的第一层，以所述最优分类器模型去除全连接层（Fully Connected Layer）作为特征提取器，从所述第一预处理数据的每个图片区域中抽取特征向量，每个图片区域抽取的特征向量为第一特征向量；使用两个隐层的MLP（多层感知机）深度学习算法压缩所述第一特征向量，每个第一特征向量得到一个长度为1的单一特征数值；将每个所述单一特征数值与所述第二预处理数据进行横向拼接，得到第二特征向量。

具体的，基于步骤S230得到的每个癌症样本的病理影像数据对应的k个滑窗图片，使用前述训练好的最优分类器模型（例如RegNet模型）去除全连接层（Fully ConnectedLayer）作为特征提取器，提取每个样本的s个滑窗图片的特征向量（一个滑窗图片对应一个特征向量）。基于RegNet的网络架构设计，这些向量的长度为608。接下来设计一个包含两个隐层的MLP深度学习算法来压缩上这些滑窗区域特征向量，此处选用SELU（缩放指数型线性单元，scaled exponential linear unit）为激活函数，公式为：

，其中λ∈[1,1.5]，α∈[1.5,2]。输入的特征向量经第一个隐层后长度由608被压缩到64，经第二个隐层后继续被压缩到32，最后输出为一个长度为1的单一特征数值。将MLP输出的结果与步骤S240处理好的M个临床特征横向拼接，得到长度为M+1的新特征向量。也就是说，每个样本将会有k=128个新特征向量，每个新特征向量中临床数据相关的信息取值相同。

步骤S320：在所述预测模型的第二层，基于负对数似然损失函数的优化训练及一致性指数作为所述预测模型的性能衡量指标，对每个所述第二特征向量进行压缩后经激活函数输出概率值，所有概率值的平均即为每个样本的预后风险指标。

针对上一步骤生成的新特征向量，选用带有SELU激活函数的MLP作为预后风险预测算法。模型的输入为长度M+1的向量，经由一层隐层压缩后输出为长度为1的单一数值，最后通过额外的Sigmoid层输出一个概率值；每个样本的所有k=128条记录输出的概率值的均值为所述样本的预后风险评分指标。对于模型的训练，选用负对数似然（negative loglikelihood）为模型训练的损失函数，并使用数据集的C-Index（一致性指数ConcordanceIndex）作为模型的性能衡量指标。

步骤S400：风险预测：基于所述最优分类器模型和所述最佳预测模型，对新样本进行风险预测。

具体的，所述步骤S400包括如下步骤。

步骤S410：收集待预测的癌症患者数据，作为新样本，包括：

（1）与模型训练所用的染色方式和放大倍数一致（H&E Staining，X10）的病理影响数据（病理切片）；

（2）临床数据（M项），需要与模型训练所用的相应临床特征采用同样的采集标准和单位。

步骤S420：对新样本的数据进行预处理，得到：

（1）病理切片恶性概率最高的128个224*224区块的坐标；

（2）完成缺失值填补和数字化编码的临床数据。

步骤S430：加载最优预测模型的结构参数，以预处理好的新样本数据为输入，得到对应的预后风险评分值。此评分值将作为癌症患者预后情况的辅助判断信息提供给医疗专业人士参考（其中，低分值代表预后良好，高分值代表预后不佳）。

在一个基于深度学习的癌症预后生存预测方法的具体实施方式中，所述癌症是指胃癌，所述方法包括如下步骤。

步骤1：胃癌患者数据集采集。每个样本的数据包括病理切片（病理影像数据）和临床数据。病理切片需要包含明显可辨识的肿瘤病灶区域，并且通过统一的染色方法制备（本实施方式选用苏木素-伊红染色法H&E Staining）；另外需要说明的是为保证模型精确性，所有病理图片文件需要统一放大倍数（本实施方式选取X10）。临床数据是一系列针对胃癌治疗判断的指标，这些指标包括离散变量（例如性别、病理分期、T/N/M分期和组织学分期共6个），还包括连续变量（例如年龄和病灶大小共2个）。每个样本应有完整的标签信息，即截止观测时间的生存状态（存活0死亡1）和存活时间（单位需要统一，这里为年）。

步骤2：数据的预处理。病理切片和临床数据均需要经过预处理。具体流程方式如下：

步骤2.1：病理切片：需要提取恶性概率最高的区域坐标信息。可用的方案是联合正常患者的同类病理切片通过弱监督深度学习训练分类器模型，输出阳性概率较高的区域，具体实施流程为：

步骤2.11：采集正常样本的病理切片，样本数量级需要与步骤1采集的胃癌样本数基本持平。所述胃癌样本和正常样本的病理切片构成整个样本数据集，将所述样本数据集作为胃癌/非胃癌分类器模型的训练数据，并将按照70%:30%随机划分为训练集和验证集；

步骤2.12：选用固定尺寸的正方形滑窗（这里选取224*224像素），用指定步长（这里选取滑窗边长的10%约22像素）水平和垂直遍历每个样本的原始病理图片，生成一系列小的滑窗区域，这些滑窗区域的标签与对应的病理图片一致（正常0或胃癌1）；

步骤2.13：用CNN卷积神经网络模型（这里选用Facebook开发的RegNet）对所有生成的滑窗区域图像用交叉熵损失函数进行分类器模型训练，评价指标为样本分类准确率。每个样本输出概率最高的s个滑窗区域的预测均值为其预测结果（s可取32、64或128等，优选s=128）。训练算法直至收敛稳定，达到最优效果（准确率、敏感度和特异度均超过90%），保存模型结构权重供下一步使用（即得到最优分类器模型）；

步骤2.14：加载上一步骤保存的模型权重，输出每个胃癌样本病理切片所有滑窗区域的预测结果并排序，选取概率最高的k个区域，保留其坐标信息（k这里选取128）。

步骤2.2：临床特征数据：主要需要进行缺失值填充和离散型变量的数字化编码以供计算机语言识别。具体方式如下：

步骤2.21缺失值填充：对于离散型变量（如病理分期），缺失记录可以用独立的条目填补（这里为“N/A”）；对于连续型变量（如年龄或病灶直径），缺失记录可以用整体均值或中位数填补，这里选用平均值；

步骤2.22数字化编码：离散型变量需要通过数字化编码来让计算机语言识别，比如性别（男：0，女：1）或组织学分期（G1期：0，G2期：1，G3期：2，N/A：3）。

步骤2.3：胃癌样本数据预处理完成后，通过随机划分按照70%:30%的比例将数据集切分为训练集和验证集，其中训练集用于发明所述的模型的训练，验证集用于验证模型的效能。

步骤3：模型的训练。具体流程是设计一个包含2层的机器学习算法，模型的输入同时包括病理切片和临床数据。方法如下：

步骤3.1：模型第一层：基于步骤2.14中的每个样本病理图像阳性概率最高的k个滑窗区域坐标，得到对应的k个224*224大小的高度疑似区域图片，将步骤2.13中保存的训练好的最优分类器模型（RegNet模型）去除全连接层（Fully Connected Layer）作为特征提取器，从每个区域图片中抽取其特征向量。基于RegNet的网络架构设计，这些向量的长度为608。接下来设计一个包含两个隐层的MLP深度学习算法来压缩上这些滑窗区域特征向量，此处选用SELU（缩放指数型线性单元，scaled exponential linear unit）为激活函数，公式为：

，其中λ∈[1,1.5]，α∈[1.5,2]。输入的特征向量经第一个隐层后长度由608被压缩到64，经第二个隐层后继续被压缩到32，最后输出为一个长度为1的单一特征数值。将MLP输出的结果与步骤2.2处理好的8个临床特征横向拼接，得到长度为9的新特征向量。即每个样本得到k个长度为9的新特征向量。

步骤3.2：模型第二层：针对上一步骤生成的新特征向量，选用带有SELU激活函数的MLP作为预后风险预测算法。模型的输入为长度9的向量，经由一层隐层压缩后输出为长度为1的单一数值，最后通过额外的Sigmoid层输出一个概率值；所有k=128条记录的输出均值为其对应样本的预后风险评分指标。对于模型的训练，我们这里选用负对数似然（negative log likelihood）为模型训练的损失函数，并使用数据集的C-Index（一致性指数Concordance Index）作为模型的性能衡量指标。

本实施方式数据训练至收敛后训练集C-Index超过0.7，验证集C-Index稳定在0.65左右。保存最优预测模型的结构和参数以供新样本数据的测试。

步骤4：数据预测：上一步骤保存的最优预测模型结构和参数即可用来对新的无标签样本（病理切片+临床数据）进行预测，以输出的风险评分值对患者预后质量作出评估。此评分值将作为胃癌患者预后情况的辅助判断信息提供给医疗专业人士参考。

本发明的基于深度学习的癌症预后生存预测方法，通过对病理影像数据和临床数据的数据特征进行统一，并基于统一数据特征后的病理影像数据和临床数据对预测模型进行训练和评估，得到最优预测模型，对新的样本数据进行预后风险评估，提高该临床领域的诊疗效率和风险评估结果的准确率。

本发明还提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于深度学习的癌症预后生存预测方法中的任意一个步骤，也就是说，实现上述基于深度学习的癌症预后生存预测方法中任意一个技术方案中的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于深度学习的癌症预后生存预测方法中的任意一个步骤，也就是说，实现上述基于深度学习的癌症预后生存预测方法中的任意一个技术方案中的步骤。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的癌症预后生存预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述基于深度学习的癌症预后生存预测方法，其特征在于，使用一个样本的所述第一预处理数据和第二预处理数据对预测模型进行训练的过程包括：

3.根据权利要求1所述基于深度学习的癌症预后生存预测方法，其特征在于，“以所述样本的病理影像数据为输入数据，通过弱监督深度学习训练和评估分类器模型，得到最优分类器模型”包括：

4.根据权利要求1所述基于深度学习的癌症预后生存预测方法，其特征在于：

每个样本的所述病理影像数据是通过统一的染色方法制备、并统一放大倍数而得到；

5.根据权利要求1所述基于深度学习的癌症预后生存预测方法，其特征在于，所述临床数据包括离散型变量和连续型变量，将所述临床数据进行转换以便计算机语言识别，包括：

对于具有缺失值的离散型变量，通过独立的条目进行填补；

对于具有缺失值的连续型变量，通过整体均值进行填补；

对于离散型变量，通过数字化进行编码。

6.一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-5任意一项所述基于深度学习的癌症预后生存预测方法中的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任意一项所述基于深度学习的癌症预后生存预测方法中的步骤。