CN113257413B - 基于深度学习的癌症预后生存预测方法、设备及存储介质 - Google Patents

基于深度学习的癌症预后生存预测方法、设备及存储介质 Download PDF

Info

Publication number
CN113257413B
CN113257413B CN202110688757.4A CN202110688757A CN113257413B CN 113257413 B CN113257413 B CN 113257413B CN 202110688757 A CN202110688757 A CN 202110688757A CN 113257413 B CN113257413 B CN 113257413B
Authority
CN
China
Prior art keywords
data
sample
cancer
prediction
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110688757.4A
Other languages
English (en)
Other versions
CN113257413A (zh
Inventor
张楚康
黄志威
张皓
明繁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ankon Technologies Co Ltd
Original Assignee
Ankon Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ankon Technologies Co Ltd filed Critical Ankon Technologies Co Ltd
Priority to CN202110688757.4A priority Critical patent/CN113257413B/zh
Publication of CN113257413A publication Critical patent/CN113257413A/zh
Application granted granted Critical
Publication of CN113257413B publication Critical patent/CN113257413B/zh
Priority to PCT/CN2022/100334 priority patent/WO2022268102A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

本发明揭示了一种基于深度学习的癌症预后生存预测方法、设备及存储介质,所述方法包括:数据获取:获取样本数据,所述样本数据包括样本的病理影像数据和临床数据;数据预处理;训练预测模型:对预测模型进行训练和评估,得到最佳预测模型;风险预测:基于最优分类器模型和所述最佳预测模型,对新样本进行风险预测。与现有技术相比,本发明的基于深度学习的癌症预后生存预测方法,通过对病理影像数据和临床数据的数据特征进行统一,并基于统一数据特征后的病理影像数据和临床数据对预测模型进行训练和评估,得到最优预测模型,对新的样本数据进行预后风险评估,提高该临床领域的诊疗效率和风险评估结果的准确率。

Description

基于深度学习的癌症预后生存预测方法、设备及存储介质
技术领域
本发明属于计算机技术、图像分析处理和临床诊断领域,具体涉及到以机器学习、深度学习为代表的人工智能算法以及临床统计学相关技术,特别涉及一种基于深度学习的癌症预后生存预测方法、设备及存储介质。
背景技术
生存分析指一系列用来探究感兴趣事件的发生的统计方法;与传统的回归问题不同,生存分析的研究目标为事件在特定时间点发生的概率,然后估计对象随时间变化的生存情况,而不仅仅是预测一个目标变量。常规的生存分析技术有Kaplan-Meier(KM方法)和Cox回归等,KM方法是一种无参数方法(non-parametric)来从观察的生存时间来估计生存概率的方法,是单变量分析(univariable analysis);而Cox回归(比例风险回归模型,proportional hazards model)是一种半参数回归模型,该模型以生存结局和生存时间为因变量同时分析众多因素对生存期的影响。生存分析在临床和生物统计领域有广泛的应用,而癌症的预后情况预测是比较典型的应用场景。
目前对癌症的预后情况预测,一般仅仅是对医学影像类数据(例如病理切片图片)进行诊断分析,而实际上临床数据也是临床诊断的重要依据,这种对单方面数据进行诊断和预测的方法,准确率不高。
因此,如何将医学影像类数据与临床数据进行有效结合,然后对其进行诊断分析和预测,是目前亟待解决的问题。
发明内容
本发明的目的在于提供一种基于深度学习的癌症预后生存预测方法、设备及存储介质。
为实现上述发明目的之一,本发明一实施方式提供一种基于深度学习的癌症预后生存预测方法,所述方法包括:
数据获取:获取样本数据,所述样本数据包括样本的病理影像数据和临床数据;
数据预处理:基于所述样本数据对深度学习分类器模型进行训练和评估,得到最优分类器模型;使用所述最优分类器模型对所述样本数据进行预处理,提取所述病理影像数据中患癌部位的数据特征,每个样本得到一个第一预处理数据,将所述临床数据进行转换以便计算机语言识别,每个样本得到一个第二预处理数据;
训练预测模型:使用所有所述第一预处理数据和第二预处理数据对预测模型进行训练和评估,得到最佳预测模型;
风险预测:基于所述最优分类器模型和所述最佳预测模型,对新样本进行风险预测;
其中,“基于所述样本数据对深度学习分类器模型进行训练和评估,得到最优分类器模型”包括:
以所述样本的病理影像数据为输入数据,通过弱监督深度学习训练和评估分类器模型,得到最优分类器模型,其中所述病理影像数据包括按预设比例收集的患癌病理切片和非患癌病理切片;
“提取所述病理影像数据中患癌部位的数据特征,每个样本得到一个第一预处理数据”包括:
将所述患癌病理切片输入到所述最优分类器模型,选取每个患癌病理切片的前K个患癌概率最高的图片区域,得到所述第一预处理数据;
所述预测模型包括两层,使用所述第一预处理数据和第二预处理数据对所述预测模型进行训练和评估的过程包括:
在所述预测模型的第一层,以所述最优分类器模型去除全连接层作为特征提取器,从所述第一预处理数据的每个图片区域中抽取特征向量,每个图片区域抽取的特征向量为第一特征向量;使用两个隐层的MLP深度学习算法压缩所述第一特征向量,每个第一特征向量得到一个长度为1的单一特征数值;将每个所述单一特征数值与所述第二预处理数据进行横向拼接,得到第二特征向量;
在所述预测模型的第二层,基于负对数似然损失函数的优化训练及一致性指数作为所述预测模型的性能衡量指标,对每个所述第二特征向量进行压缩后经激活函数输出概率值,所有概率值的平均即为每个样本的预后风险指标。
作为本发明一实施方式的进一步改进,使用一个样本的所述第一预处理数据和第二预处理数据对预测模型进行训练的过程包括:
将所述第一预处理数据进行压缩,得到与所述第二预处理数据具有相同数据类型的第三预处理数据,将所述第二预处理数据和第三预处理数据拼接成特征向量,再对所述特征向量进行压缩后通过激活函数,得到最终的预测结果。
作为本发明一实施方式的进一步改进,“以所述样本的病理影像数据为输入数据,通过弱监督深度学习训练和评估分类器模型,得到最优分类器模型”包括:
选用固定尺寸的滑窗、用指定步长水平和垂直遍历每个病理影像数据,生成与对应病理影像数据具有相同标签的多个滑窗区域图像;
基于所有所述滑窗区域图像,训练并评估基于交叉熵损失函数的分类器模型,得到最优分类器模型。
作为本发明一实施方式的进一步改进,每个样本的所述病理影像数据是通过统一的染色方法制备、并统一放大倍数而得到;
每个样本的所述临床数据为针对癌症进行治疗和判断的指标,包括性别、年龄、病灶大小、病理分期、T/N/M分期和组织学分期。
作为本发明一实施方式的进一步改进,所述临床数据包括离散型变量和连续型变量,将所述临床数据进行转换以便计算机语言识别,包括:
对于具有缺失值的离散型变量,通过独立的条目进行填补;
对于具有缺失值的连续型变量,通过整体均值进行填补;
对于离散型变量,通过数字化进行编码。
为实现上述发明目的之一,本发明一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一项所述基于深度学习的癌症预后生存预测方法中的步骤。
为实现上述发明目的之一,本发明一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述基于深度学习的癌症预后生存预测方法中的步骤。
与现有技术相比,本发明的基于深度学习的癌症预后生存预测方法,通过对病理影像数据和临床数据的数据特征进行统一,并基于统一数据特征后的病理影像数据和临床数据对预测模型进行训练和评估,得到最优预测模型,对新的样本数据进行预后风险评估,提高该临床领域的诊疗效率和风险评估结果的准确率。
附图说明
图1是本发明基于深度学习的癌症预后生存预测方法的流程示意图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
如图1所示,本发明提供一种基于深度学习的癌症预后生存预测方法,所述方法包括如下步骤。
步骤S100:数据获取:获取样本数据,所述样本数据包括样本的病理影像数据和临床数据。
所述步骤S100主要用于收集癌症患者预后相关信息,每个癌症患者的预后相关信息即为一个患癌样本数据,所述样本数据包括样本的病理影像数据和临床数据。
不过为了对后续的模型进行训练,所述步骤S100还会收集与癌症患者相对应的非癌症患者的相关信息,每个非患癌患者的相关信息即为一个非患癌样本数据。所述患癌样本数据和非患癌样本数据通过预设的比例,共同构成了所有样本数据,即样本数据集。优选所述预设的比例为1:1。
进一步的,每个样本的所述病理影像数据是通过统一的染色方法制备、并统一放大倍数而得到。具体的,病理影像数据对应的组织切片通过统一的苏木素-伊红染色法(H&EStaining)进行制备,并具备同样的成像放大倍率(如X5或X10)。
每个样本的所述临床数据为针对癌症进行治疗和判断的指标,包括但不限于性别、年龄、病灶大小、病理分期、T/N/M分期和组织学分期。并且,对于某项特征的数据采集需要遵循统一的标准和单位。
每个样本都具有标签信息,所述标签信息包括截止观测时间的生存状态和存活时间,其中,所述生存状态包括存活0和死亡1,所述存活时间的单位为年。
步骤S200:数据预处理:基于所述样本数据对深度学习分类器模型进行训练和评估,得到最优分类器模型(所述最优分类器模型为最优深度学习分类器模型);使用所述最优分类器模型对所述样本数据进行预处理,提取所述病理影像数据中患癌部位的数据特征,每个样本得到一个第一预处理数据,将所述临床数据进行转换以便计算机语言识别,每个样本得到一个第二预处理数据。
所述数据预处理主要包括分别对样本数据中的病理影像数据和临床数据进行预处理,其中,对于病理影像数据的预处理,需要先基于病理影像数据训练和评估分类器模型,得到最优分类器模型,然后使用最优分类器模型对患癌样本的病理影像数据中患癌部位的数据特征进行提取。
优选的,“基于所述样本数据对深度学习分类器模型进行训练和评估,得到最优分类器模型”包括:
以所述样本的病理影像数据为输入数据,通过弱监督学习训练和评估分类器模型,得到最优分类器模型,其中所述病理影像数据包括按预设比例收集的患癌病理切片和非患癌病理切片。
进一步的,“以所述样本的病理影像数据为输入数据,通过弱监督学习训练和评估分类器模型,得到最优分类器模型”包括:
选用固定尺寸的滑窗、用指定步长水平和垂直遍历每个病理影像数据,生成与对应病理影像数据具有相同标签的多个滑窗区域图像;
基于所有所述滑窗区域图像,训练并评估基于交叉熵损失函数的分类器模型,得到最优分类器模型。
在一个具体的实施方式中,所述步骤S200包括如下步骤。
步骤S210:用固定大小的正方形滑窗(如224*224像素)按照预设步长(如滑窗边长的10%或15%)水平和垂直遍历每个样本的病理影像数据,每个病理影像数据得到一系列小的滑窗图片,这些滑窗图片的标签与其对应的完整病理影像数据的标签一致(良性或恶性)。
步骤S220:以完整样本为单位将所有样本的病理影像数据划分为训练集和验证集,建立基于卷积神经网络(Convolutional Neural Network, CNN)的深度学习分类器进行二分类预测训练。
分类器可以从多种现有深度学习模型(如基于卷进神经网络的ResNet或VGG等)中选取,模型优化选用交叉熵(Cross Entropy)损失函数,公式为:
Figure 992483DEST_PATH_IMAGE001
,其中N为样本数,
Figure 587412DEST_PATH_IMAGE002
为第i个样本的真实标签(0或1),
Figure 989575DEST_PATH_IMAGE003
为第i个样本通过Sigmoid或Softmax激活函数输出的阳性概率值。模型的评价指标为样本的分类准确率。每个样本的最终分类概率结果为其对应的阳性概率最高的s个滑窗图像(s可取32、64或128等,优选为128)的输出均值。
步骤S230:待模型训练收敛稳定达到最优效果后(即得到最优分类器模型),输出每个癌症样本的病理影像数据对应的滑窗图片的预测概率结果,保存概率值最高的k个滑窗的左上角坐标(xi, yi),得到每个样本的第一预处理数据。这里k的取值可为32、64或128等,优选为128。
步骤S240:对临床数据进行预处理,得到每个样本数据的第二预处理数据。
所述临床数据包括离散型变量和连续型变量,一般以表格型信息进行收集,然后将表格型信息转化为计算机语言可以识别的形式,包括:
(1)对于具有缺失值的离散型变量(例如病理分期),通过独立的条目进行填补。例如将具有缺失值的离散型变量,填补为“N/A”;
(2)对于具有缺失值的连续型变量,通过整体均值进行填补。这里,连续型变量可以是年龄或者病灶直径等;
(3)对于离散型变量,通过数字化进行编码。例如,将性别进行编码:0表示男,1表示女,或对组织学分期进行编码:0表示G1期,1表示G2期,2表示G3期,3表示N/A。
步骤S300:训练预测模型:使用所有所述第一预处理数据和第二预处理数据对预测模型进行训练和评估,得到最佳预测模型。
本步骤主要是通过对病理影像数据和临床数据的数据特征进行统一,并基于统一数据特征后的病理影像数据和临床数据对预测模型进行训练和评估,得到最优预测模型。
在一优选的实施方式中,使用一个样本的所述第一预处理数据和第二预处理数据对预测模型进行训练的过程包括:
将所述第一预处理数据进行压缩,得到与所述第二预处理数据具有相同数据类型的第三预处理数据,将所述第二预处理数据和第三预处理数据拼接成特征向量,再对所述特征向量进行压缩后通过激活函数,得到最终的预测结果。
基于步骤S200的一个具体实施方式,在另一优选的实施方式中,所述预测模型包括两层,使用所述第一预处理数据和第二预处理数据对所述预测模型进行训练和评估的过程包括如下步骤。
步骤S310:在所述预测模型的第一层,以所述最优分类器模型去除全连接层(Fully Connected Layer)作为特征提取器,从所述第一预处理数据的每个图片区域中抽取特征向量,每个图片区域抽取的特征向量为第一特征向量;使用两个隐层的MLP(多层感知机)深度学习算法压缩所述第一特征向量,每个第一特征向量得到一个长度为1的单一特征数值;将每个所述单一特征数值与所述第二预处理数据进行横向拼接,得到第二特征向量。
具体的,基于步骤S230得到的每个癌症样本的病理影像数据对应的k个滑窗图片,使用前述训练好的最优分类器模型(例如RegNet模型)去除全连接层(Fully ConnectedLayer)作为特征提取器,提取每个样本的s个滑窗图片的特征向量(一个滑窗图片对应一个特征向量)。基于RegNet的网络架构设计,这些向量的长度为608。接下来设计一个包含两个隐层的MLP深度学习算法来压缩上这些滑窗区域特征向量,此处选用SELU(缩放指数型线性单元,scaled exponential linear unit)为激活函数,公式为:
Figure 734152DEST_PATH_IMAGE004
,其中λ∈[1,1.5],α∈[1.5,2]。输入的特征向量经第一个隐层后长度由608被压缩到64,经第二个隐层后继续被压缩到32,最后输出为一个长度为1的单一特征数值。将MLP输出的结果与步骤S240处理好的M个临床特征横向拼接,得到长度为M+1的新特征向量。也就是说,每个样本将会有k=128个新特征向量,每个新特征向量中临床数据相关的信息取值相同。
步骤S320:在所述预测模型的第二层,基于负对数似然损失函数的优化训练及一致性指数作为所述预测模型的性能衡量指标,对每个所述第二特征向量进行压缩后经激活函数输出概率值,所有概率值的平均即为每个样本的预后风险指标。
针对上一步骤生成的新特征向量,选用带有SELU激活函数的MLP作为预后风险预测算法。模型的输入为长度M+1的向量,经由一层隐层压缩后输出为长度为1的单一数值,最后通过额外的Sigmoid层输出一个概率值;每个样本的所有k=128条记录输出的概率值的均值为所述样本的预后风险评分指标。对于模型的训练,选用负对数似然(negative loglikelihood)为模型训练的损失函数,并使用数据集的C-Index(一致性指数ConcordanceIndex)作为模型的性能衡量指标。
步骤S400:风险预测:基于所述最优分类器模型和所述最佳预测模型,对新样本进行风险预测。
具体的,所述步骤S400包括如下步骤。
步骤S410:收集待预测的癌症患者数据,作为新样本,包括:
(1)与模型训练所用的染色方式和放大倍数一致(H&E Staining,X10)的病理影响数据(病理切片);
(2)临床数据(M项),需要与模型训练所用的相应临床特征采用同样的采集标准和单位。
步骤S420:对新样本的数据进行预处理,得到:
(1)病理切片恶性概率最高的128个224*224区块的坐标;
(2)完成缺失值填补和数字化编码的临床数据。
步骤S430:加载最优预测模型的结构参数,以预处理好的新样本数据为输入,得到对应的预后风险评分值。此评分值将作为癌症患者预后情况的辅助判断信息提供给医疗专业人士参考(其中,低分值代表预后良好,高分值代表预后不佳)。
在一个基于深度学习的癌症预后生存预测方法的具体实施方式中,所述癌症是指胃癌,所述方法包括如下步骤。
步骤1:胃癌患者数据集采集。每个样本的数据包括病理切片(病理影像数据)和临床数据。病理切片需要包含明显可辨识的肿瘤病灶区域,并且通过统一的染色方法制备(本实施方式选用苏木素-伊红染色法H&E Staining);另外需要说明的是为保证模型精确性,所有病理图片文件需要统一放大倍数(本实施方式选取X10)。临床数据是一系列针对胃癌治疗判断的指标,这些指标包括离散变量(例如性别、病理分期、T/N/M分期和组织学分期共6个),还包括连续变量(例如年龄和病灶大小共2个)。每个样本应有完整的标签信息,即截止观测时间的生存状态(存活0死亡1)和存活时间(单位需要统一,这里为年)。
步骤2:数据的预处理。病理切片和临床数据均需要经过预处理。具体流程方式如下:
步骤2.1:病理切片:需要提取恶性概率最高的区域坐标信息。可用的方案是联合正常患者的同类病理切片通过弱监督深度学习训练分类器模型,输出阳性概率较高的区域,具体实施流程为:
步骤2.11:采集正常样本的病理切片,样本数量级需要与步骤1采集的胃癌样本数基本持平。所述胃癌样本和正常样本的病理切片构成整个样本数据集,将所述样本数据集作为胃癌/非胃癌分类器模型的训练数据,并将按照70%:30%随机划分为训练集和验证集;
步骤2.12:选用固定尺寸的正方形滑窗(这里选取224*224像素),用指定步长(这里选取滑窗边长的10%约22像素)水平和垂直遍历每个样本的原始病理图片,生成一系列小的滑窗区域,这些滑窗区域的标签与对应的病理图片一致(正常0或胃癌1);
步骤2.13:用CNN卷积神经网络模型(这里选用Facebook开发的RegNet)对所有生成的滑窗区域图像用交叉熵损失函数进行分类器模型训练,评价指标为样本分类准确率。每个样本输出概率最高的s个滑窗区域的预测均值为其预测结果(s可取32、64或128等,优选s=128)。训练算法直至收敛稳定,达到最优效果(准确率、敏感度和特异度均超过90%),保存模型结构权重供下一步使用(即得到最优分类器模型);
步骤2.14:加载上一步骤保存的模型权重,输出每个胃癌样本病理切片所有滑窗区域的预测结果并排序,选取概率最高的k个区域,保留其坐标信息(k这里选取128)。
步骤2.2:临床特征数据:主要需要进行缺失值填充和离散型变量的数字化编码以供计算机语言识别。具体方式如下:
步骤2.21缺失值填充:对于离散型变量(如病理分期),缺失记录可以用独立的条目填补(这里为“N/A”);对于连续型变量(如年龄或病灶直径),缺失记录可以用整体均值或中位数填补,这里选用平均值;
步骤2.22数字化编码:离散型变量需要通过数字化编码来让计算机语言识别,比如性别(男:0,女:1)或组织学分期(G1期:0,G2期:1,G3期:2,N/A:3)。
步骤2.3:胃癌样本数据预处理完成后,通过随机划分按照70%:30%的比例将数据集切分为训练集和验证集,其中训练集用于发明所述的模型的训练,验证集用于验证模型的效能。
步骤3:模型的训练。具体流程是设计一个包含2层的机器学习算法,模型的输入同时包括病理切片和临床数据。方法如下:
步骤3.1:模型第一层:基于步骤2.14中的每个样本病理图像阳性概率最高的k个滑窗区域坐标,得到对应的k个224*224大小的高度疑似区域图片,将步骤2.13中保存的训练好的最优分类器模型(RegNet模型)去除全连接层(Fully Connected Layer)作为特征提取器,从每个区域图片中抽取其特征向量。基于RegNet的网络架构设计,这些向量的长度为608。接下来设计一个包含两个隐层的MLP深度学习算法来压缩上这些滑窗区域特征向量,此处选用SELU(缩放指数型线性单元,scaled exponential linear unit)为激活函数,公式为:
Figure 55412DEST_PATH_IMAGE005
,其中λ∈[1,1.5],α∈[1.5,2]。输入的特征向量经第一个隐层后长度由608被压缩到64,经第二个隐层后继续被压缩到32,最后输出为一个长度为1的单一特征数值。将MLP输出的结果与步骤2.2处理好的8个临床特征横向拼接,得到长度为9的新特征向量。即每个样本得到k个长度为9的新特征向量。
步骤3.2:模型第二层:针对上一步骤生成的新特征向量,选用带有SELU激活函数的MLP作为预后风险预测算法。模型的输入为长度9的向量,经由一层隐层压缩后输出为长度为1的单一数值,最后通过额外的Sigmoid层输出一个概率值;所有k=128条记录的输出均值为其对应样本的预后风险评分指标。对于模型的训练,我们这里选用负对数似然(negative log likelihood)为模型训练的损失函数,并使用数据集的C-Index(一致性指数Concordance Index)作为模型的性能衡量指标。
本实施方式数据训练至收敛后训练集C-Index超过0.7,验证集C-Index稳定在0.65左右。保存最优预测模型的结构和参数以供新样本数据的测试。
步骤4:数据预测:上一步骤保存的最优预测模型结构和参数即可用来对新的无标签样本(病理切片+临床数据)进行预测,以输出的风险评分值对患者预后质量作出评估。此评分值将作为胃癌患者预后情况的辅助判断信息提供给医疗专业人士参考。
本发明的基于深度学习的癌症预后生存预测方法,通过对病理影像数据和临床数据的数据特征进行统一,并基于统一数据特征后的病理影像数据和临床数据对预测模型进行训练和评估,得到最优预测模型,对新的样本数据进行预后风险评估,提高该临床领域的诊疗效率和风险评估结果的准确率。
本发明还提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于深度学习的癌症预后生存预测方法中的任意一个步骤,也就是说,实现上述基于深度学习的癌症预后生存预测方法中任意一个技术方案中的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于深度学习的癌症预后生存预测方法中的任意一个步骤,也就是说,实现上述基于深度学习的癌症预后生存预测方法中的任意一个技术方案中的步骤。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于深度学习的癌症预后生存预测方法,其特征在于,所述方法包括:
数据获取:获取样本数据,所述样本数据包括样本的病理影像数据和临床数据;
数据预处理:基于所述样本数据对深度学习分类器模型进行训练和评估,得到最优分类器模型;使用所述最优分类器模型对所述样本数据进行预处理,提取所述病理影像数据中患癌部位的数据特征,每个样本得到一个第一预处理数据,将所述临床数据进行转换以便计算机语言识别,每个样本得到一个第二预处理数据;
训练预测模型:使用所有所述第一预处理数据和第二预处理数据对预测模型进行训练和评估,得到最佳预测模型;
风险预测:基于所述最优分类器模型和所述最佳预测模型,对新样本进行风险预测;
其中,“基于所述样本数据对深度学习分类器模型进行训练和评估,得到最优分类器模型”包括:
以所述样本的病理影像数据为输入数据,通过弱监督深度学习训练和评估分类器模型,得到最优分类器模型,其中所述病理影像数据包括按预设比例收集的患癌病理切片和非患癌病理切片;
“提取所述病理影像数据中患癌部位的数据特征,每个样本得到一个第一预处理数据”包括:
将所述患癌病理切片输入到所述最优分类器模型,选取每个患癌病理切片的前K个患癌概率最高的图片区域,得到所述第一预处理数据;
所述预测模型包括两层,使用所述第一预处理数据和第二预处理数据对所述预测模型进行训练和评估的过程包括:
在所述预测模型的第一层,以所述最优分类器模型去除全连接层作为特征提取器,从所述第一预处理数据的每个图片区域中抽取特征向量,每个图片区域抽取的特征向量为第一特征向量;使用两个隐层的MLP深度学习算法压缩所述第一特征向量,每个第一特征向量得到一个长度为1的单一特征数值;将每个所述单一特征数值与所述第二预处理数据进行横向拼接,得到第二特征向量;
在所述预测模型的第二层,基于负对数似然损失函数的优化训练及一致性指数作为所述预测模型的性能衡量指标,对每个所述第二特征向量进行压缩后经激活函数输出概率值,所有概率值的平均即为每个样本的预后风险指标。
2.根据权利要求1所述基于深度学习的癌症预后生存预测方法,其特征在于,使用一个样本的所述第一预处理数据和第二预处理数据对预测模型进行训练的过程包括:
将所述第一预处理数据进行压缩,得到与所述第二预处理数据具有相同数据类型的第三预处理数据,将所述第二预处理数据和第三预处理数据拼接成特征向量,再对所述特征向量进行压缩后通过激活函数,得到最终的预测结果。
3.根据权利要求1所述基于深度学习的癌症预后生存预测方法,其特征在于,“以所述样本的病理影像数据为输入数据,通过弱监督深度学习训练和评估分类器模型,得到最优分类器模型”包括:
选用固定尺寸的滑窗、用指定步长水平和垂直遍历每个病理影像数据,生成与对应病理影像数据具有相同标签的多个滑窗区域图像;
基于所有所述滑窗区域图像,训练并评估基于交叉熵损失函数的分类器模型,得到最优分类器模型。
4.根据权利要求1所述基于深度学习的癌症预后生存预测方法,其特征在于:
每个样本的所述病理影像数据是通过统一的染色方法制备、并统一放大倍数而得到;
每个样本的所述临床数据为针对癌症进行治疗和判断的指标,包括性别、年龄、病灶大小、病理分期、T/N/M分期和组织学分期。
5.根据权利要求1所述基于深度学习的癌症预后生存预测方法,其特征在于,所述临床数据包括离散型变量和连续型变量,将所述临床数据进行转换以便计算机语言识别,包括:
对于具有缺失值的离散型变量,通过独立的条目进行填补;
对于具有缺失值的连续型变量,通过整体均值进行填补;
对于离散型变量,通过数字化进行编码。
6.一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5任意一项所述基于深度学习的癌症预后生存预测方法中的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任意一项所述基于深度学习的癌症预后生存预测方法中的步骤。
CN202110688757.4A 2021-06-22 2021-06-22 基于深度学习的癌症预后生存预测方法、设备及存储介质 Active CN113257413B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110688757.4A CN113257413B (zh) 2021-06-22 2021-06-22 基于深度学习的癌症预后生存预测方法、设备及存储介质
PCT/CN2022/100334 WO2022268102A1 (zh) 2021-06-22 2022-06-22 基于深度学习的癌症预后生存预测方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110688757.4A CN113257413B (zh) 2021-06-22 2021-06-22 基于深度学习的癌症预后生存预测方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113257413A CN113257413A (zh) 2021-08-13
CN113257413B true CN113257413B (zh) 2021-10-19

Family

ID=77188904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110688757.4A Active CN113257413B (zh) 2021-06-22 2021-06-22 基于深度学习的癌症预后生存预测方法、设备及存储介质

Country Status (2)

Country Link
CN (1) CN113257413B (zh)
WO (1) WO2022268102A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257413B (zh) * 2021-06-22 2021-10-19 安翰科技(武汉)股份有限公司 基于深度学习的癌症预后生存预测方法、设备及存储介质
CN113838570B (zh) * 2021-08-31 2024-04-26 华中科技大学 一种基于深度学习的宫颈癌自洽分型方法和系统
WO2023108526A1 (zh) * 2021-12-16 2023-06-22 中国科学院深圳先进技术研究院 一种医学图像分割方法、系统、终端以及存储介质
CN114420291B (zh) * 2022-01-14 2023-04-07 安徽省肿瘤医院 基于机器学习的胃癌淋巴结转移风险评估系统、设备及存储介质
CN115148365B (zh) * 2022-05-31 2023-06-02 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 用于预测中枢神经系统生殖细胞肿瘤预后的方法及系统
CN116189909B (zh) * 2023-03-06 2024-02-20 佳木斯大学 基于推举算法的临床医学判别方法及系统
CN116344070B (zh) * 2023-03-16 2024-02-13 北京透彻未来科技有限公司 一种病理特征与临床信息融合方法及系统
CN116452851A (zh) * 2023-03-17 2023-07-18 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 病症分类模型的训练方法、装置、终端及可读存储介质
CN115985503B (zh) * 2023-03-20 2023-07-21 西南石油大学 基于集成学习的癌症预测系统
CN116189912A (zh) * 2023-04-25 2023-05-30 青岛市妇女儿童医院(青岛市妇幼保健院、青岛市残疾儿童医疗康复中心、青岛市新生儿疾病筛查中心) 一种具有学习功能的妇科患者生理信息反馈系统
CN116705325B (zh) * 2023-06-26 2024-01-19 国家康复辅具研究中心 一种伤口感染风险评估方法及其系统
CN116525116B (zh) * 2023-06-29 2023-09-26 中国人民解放军总医院 一种心源性休克实时风险预警监测系统、设备及可存储介质
CN116580846B (zh) * 2023-07-05 2023-09-15 四川大学华西医院 基于相关性分析的结直肠癌预后风险模型构建方法及系统
CN116798646B (zh) * 2023-08-17 2023-11-24 四川互慧软件有限公司 基于聚类算法的蛇伤预后预测方法、装置及电子设备
CN116936106B (zh) * 2023-09-18 2023-12-22 天津医科大学第二医院 一种透析中危险事件风险的评估方法和系统
CN117174298A (zh) * 2023-11-01 2023-12-05 中国人民解放军总医院 基于多模态预训练大模型的急危重症临床决策系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103493054A (zh) * 2010-10-12 2014-01-01 美国西门子医疗解决公司 用于预测心血管病发展的医疗信息技术系统
CN110111892A (zh) * 2019-04-29 2019-08-09 杭州电子科技大学 一种nsclc患者术后短期复发转移风险评估系统
CN112508884A (zh) * 2020-11-24 2021-03-16 江苏大学 一种癌变区域综合检测装置及方法
CN112768072A (zh) * 2021-01-12 2021-05-07 哈尔滨医科大学 基于影像组学定性算法构建癌症临床指标评估系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016514869A (ja) * 2013-03-19 2016-05-23 シレカ セラノスティクス エルエルシー スペクトル画像による生物試料の分析方法およびシステム
EP3573072A1 (en) * 2018-05-22 2019-11-27 Koninklijke Philips N.V. Performing a prognostic evaluation
CN109117864B (zh) * 2018-07-13 2020-02-28 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及系统
CN109635835A (zh) * 2018-11-08 2019-04-16 深圳蓝韵医学影像有限公司 一种基于深度学习与迁移学习的乳腺病变区域检测方法
CN111128328A (zh) * 2019-10-25 2020-05-08 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 鼻咽癌结构化影像报告及数据处理系统和方法
CN111370128A (zh) * 2020-03-05 2020-07-03 上海市肺科医院(上海市职业病防治院) 一种肺癌患者预后预测系统及方法
WO2022011616A1 (zh) * 2020-07-15 2022-01-20 北京肿瘤医院(北京大学肿瘤医院) 一种通过影像组学特征判断癌症治疗反应的方法及系统
CN112309576A (zh) * 2020-09-22 2021-02-02 江南大学 基于深度学习ct影像组学的结直肠癌生存期预测方法
CN112184658B (zh) * 2020-09-24 2023-11-24 上海健康医学院 用于非小细胞肺癌预后生存预测的方法、介质及电子设备
CN112687327B (zh) * 2020-12-28 2024-04-12 中山依数科技有限公司 一种基于多任务和多模态的癌症生存分析系统
CN113257413B (zh) * 2021-06-22 2021-10-19 安翰科技(武汉)股份有限公司 基于深度学习的癌症预后生存预测方法、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103493054A (zh) * 2010-10-12 2014-01-01 美国西门子医疗解决公司 用于预测心血管病发展的医疗信息技术系统
CN110111892A (zh) * 2019-04-29 2019-08-09 杭州电子科技大学 一种nsclc患者术后短期复发转移风险评估系统
CN112508884A (zh) * 2020-11-24 2021-03-16 江苏大学 一种癌变区域综合检测装置及方法
CN112768072A (zh) * 2021-01-12 2021-05-07 哈尔滨医科大学 基于影像组学定性算法构建癌症临床指标评估系统

Also Published As

Publication number Publication date
WO2022268102A1 (zh) 2022-12-29
CN113257413A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113257413B (zh) 基于深度学习的癌症预后生存预测方法、设备及存储介质
Sajja et al. Lung cancer detection based on CT scan images by using deep transfer learning
US20170249739A1 (en) Computer analysis of mammograms
CN112309576A (zh) 基于深度学习ct影像组学的结直肠癌生存期预测方法
CN109948671B (zh) 图像分类方法、装置、存储介质以及内窥镜成像设备
CN110516759B (zh) 一种基于机器学习的软组织肉瘤转移风险预测系统
Prusty et al. A novel transfer learning technique for detecting breast cancer mammograms using VGG16 bottleneck feature
CN112950614A (zh) 一种基于多尺度空洞卷积的乳腺癌检测方法
CN113269799A (zh) 一种基于深度学习的宫颈细胞分割方法
Mei et al. YOLO-lung: A practical detector based on imporved YOLOv4 for Pulmonary Nodule Detection
CN115221926A (zh) 基于cnn-gru网络模型的心拍信号分类方法
Tyagi et al. Identification and classification of prostate cancer identification and classification based on improved convolution neural network
CN113420793A (zh) 一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法
Vander Putten et al. Deep residual neural networks for automated Basal Cell Carcinoma detection
CN116543429A (zh) 基于深度可分离卷积的舌象识别系统及方法
CN114224354B (zh) 心律失常分类方法、装置及可读存储介质
NARİN et al. The effect of hyper parameters on the classification of lung cancer images using deep learning methods
Guo et al. Thyroid nodule ultrasonic imaging segmentation based on a deep learning model and data augmentation
Hu et al. Classification of fissured tongue images using deep neural networks
CN113171105A (zh) 基于集成cnn的心肌缺血的识别分类方法
Alnowami Very Deep Convolutional Networks for Skin Lesion Classification
Raju et al. Classification of Colon and Lung Cancer Through Analysis of Histopathology Images Using Deep Learning Models.
CN117058467B (zh) 一种胃肠道病变类型识别方法及系统
Charfi et al. Ulcer and red lesion detection in wireless capsule endoscopy images using CNN
Zhao et al. Fusion of selected deep CNN and handcrafted features for gastritis detection from wireless capsule endoscopy images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant