CN115083574A - 癌症预后生存预测方法、系统、计算机设备及存储介质 - Google Patents
癌症预后生存预测方法、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115083574A CN115083574A CN202211003012.0A CN202211003012A CN115083574A CN 115083574 A CN115083574 A CN 115083574A CN 202211003012 A CN202211003012 A CN 202211003012A CN 115083574 A CN115083574 A CN 115083574A
- Authority
- CN
- China
- Prior art keywords
- survival
- grained
- fine
- coarse
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004083 survival effect Effects 0.000 title claims abstract description 204
- 238000000034 method Methods 0.000 title claims abstract description 47
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 23
- 238000004393 prognosis Methods 0.000 title claims abstract description 23
- 201000011510 cancer Diseases 0.000 title claims abstract description 20
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 230000001575 pathological effect Effects 0.000 claims abstract description 131
- 238000004458 analytical method Methods 0.000 claims abstract description 121
- 238000013145 classification model Methods 0.000 claims abstract description 42
- 230000007170 pathology Effects 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000004913 activation Effects 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 41
- 230000003902 lesion Effects 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000011835 investigation Methods 0.000 claims description 4
- 238000012886 linear function Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 206010009944 Colon cancer Diseases 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 241000566145 Otus Species 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000010186 staining Methods 0.000 description 2
- 238000007447 staining method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Radiology & Medical Imaging (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种癌症预后生存预测方法、系统、计算机设备及存储介质,涉及到人工智能算法以及临床统计学相关技术,目的在于解决现有生存分析技术中存在的生存分析结果与真实结果的一致性并不高、分析结果存在较大误差以及分析结果可解释性较差的问题。其分别构建并训练了病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,然后数字病理片经切片后输入识别、分类模型,得到切片特征,再将切片的特征及位置构建粗粒度图并经生存分析后确定关键切片,再将关键切片的特征及位置构建细粒度图并经生存分析后最后输出的生存风险值即为预后生存预测结果。该方案能够对病理切片进行生存期分析,并结果具有可解释性。
Description
技术领域
本发明属于计算机技术、图像分析处理和临床诊断领域,具体涉及到人工智能算法以及临床统计学相关技术,特别涉及一种癌症预后生存预测方法、系统、计算机设备及存储介质。
背景技术
生存分析指一系列用来探究感兴趣事件的发生的统计方法,与传统的回归问题不同,生存分析的研究目标为事件在特定时间点发生的概率,然后估计对象随时间变化的生存情况,而不仅仅是预测一个目标变量。
在当前高分辨率数字病理切片的生存分析领域,大多数都采用了“分割切片、逐个分析”的策略,该种策略主要包含三个步骤:第一步,从高分辨率的数字病理片中获取大量的小切片;第二步,从上一步中的小切片中提取病理级别的特征;第三步,根据提取出的病理特征进行生存期分析和预测。WSISA就是一种典型的基于数字病理片的生存期分析模型,该模型在获取小切片的过程中,采用了固定采样比例的方法,它在进行特征提取的过程中采用了K均值聚类的算法来对病理片的各个特征进行聚类;该模型在第三步生存期预测的过程中,其采用了经典的Cox比例风险模型(CPH)。同样还有其他采用了球状的K均值聚类的算法对特征进行提取。
同样,也有基于深度图神经网络的生存期分析模型(DeepGrahSurv),它是一种端到端的方法,它利用图神经网络对特征进行了提取,也对生存风险进行了预测,几乎同时完成了第二步与第三步。基于端到端的设计思想方法还有DeepMIL和BDOCOX等。
与上述现有技术一样,现有的生存分析技术很难直接应用于数字病理片,只有少量的基于深度神经网络的生存分析技术可以应用于数字病理片。但在实际应用中,基于深度神经网络的生存分析技术的生存分析结果与真实结果的一致性并不高,分析结果存在较大误差;同时这些技术无法构建肿瘤区域与预后结果的关系,即无法解释哪些肿瘤区域会导致不好的预后结果,不具备可解释性。
发明内容
本发明的目的是为了解决现有生存分析技术中存在的生存分析结果与真实结果的一致性并不高、分析结果存在较大误差以及分析结果可解释性较差的问题,而提出的一种癌症预后生存预测方法及系统,能够有效地分割病灶区域,对病灶区域进行分类,获取病理切片特征,同时对病理切片进行生存期分析,并且生存期分析结果具有一定的可解释性。
为了实现上述目的,本发明采用了如下技术方案:
一种癌症预后生存预测方法,包括以下步骤:
步骤S1,数据获取
获取数字病理样本数据、数据集NCT-CRC-HE-100K以及数字病理样本数据对应的病灶标签和生存标签,生存标签包括截止观测时间的生存状态和存活时间;
步骤S2,模型构建及训练
分别构建病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,利用步骤S1中获取的数字病理样本数据、病灶标签训练病灶区域识别模型,利用步骤S1中获取的数据集NCT-CRC-HE-100K训练病灶组织分类模型,利用步骤S1中获取的数字病理样本数据、生存标签训练粗粒度生存分析模型、细粒度生存分析模型;
步骤S3,预后生存预测,具体包括如下步骤:
步骤S31,获取10倍分辨下的数字病理片,将数字病理片进行切片分割得到若干数字病理切片,记录每个数字病理切片的位置信息;
步骤S32,将数字病理切片输入病灶区域识别模型,得到各数字病理切片的病灶组织图;将各数字病理切片的病灶组织图输入病灶组织分类模型,用病灶组织分类模型的倒数第二层的输出作为对应数字病理切片的特征进行输出;
步骤S33,利用各数字病理切片的位置信息及特征构建粗粒度图,并将粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为输出;并对输出的卷积激活值采用梯度加权类激活映射函数,根据输出的分数值确定关键切片;
步骤S34,根据确定的关键切片的位置信息及特征构建细粒度图,并将细粒度图输入细粒度生存分析模型,细粒度生存分析模型最后输出生存风险值,输出的生存风险值即为预后生存预测结果。
优选地,步骤S2中,病灶区域识别模型、病灶组织分类模型均采用ResnetXt-50进行特征提取,粗粒度生存分析模型、细粒度生存分析模型均采用图卷积神经网络。
优选地,粗粒度生存分析模型、细粒度生存分析模型在进行训练时,损失函数均为:
优选地,步骤S33中,在构建粗粒度图时,将各数字病理切片作为粗粒度图的节点,以步骤S32输出的特征的特征值作为该节点的信息值、节点与节点之间的邻接矩阵进行构建;邻接矩阵的计算方式为:
优选地,确定关键切片的具体方法为:
步骤S331、先采用梯度加权类激活映射函数来衡量节点的重要性,该函数的具体计算公式为:
激活函数LeakyRelu()为:
步骤S332、再根据各节点的分数值,选取得分前5%的节点作为构建精细图的重要节点,选取出来的重要节点对应的数字病理切片即为关键切片。
优选地,步骤S34中,构建细粒度图的方法与构建粗粒度图的方法一致;
在构建好细粒度图后并输入细粒度生存分析模型,得到生存风险值时;生存风险值的计算公式为:
一种癌症预后生存预测系统,包括:
数据获取模块,获取数字病理样本数据、数据集NCT-CRC-HE-100K以及数字病理样本数据对应的病灶标签和生存标签,生存标签包括截止观测时间的生存状态和存活时间;
模型构建及训练模块,用于分别构建病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,利用数据获取模块获取的数字病理样本数据、病灶标签训练病灶区域识别模型,利用数据获取模块获取的数据集NCT-CRC-HE-100K训练病灶组织分类模型,利用数据获取模块获取的数字病理样本数据、生存标签训练粗粒度生存分析模型、细粒度生存分析模型;
预后生存预测模块,其包括病理切片模块、病理特征生成模块、关键切片生成模块以及生存结果预测模块;
病理切片模块,用于获取10倍分辨下的数字病理片,将数字病理片进行切片分割得到若干数字病理切片,记录每个数字病理切片的位置信息;
病理特征生成模块,用于将数字病理切片输入病灶区域识别模型,得到各数字病理切片的病灶组织图;将各数字病理切片的病灶组织图输入病灶组织分类模型,用病灶组织分类模型的倒数第二层的输出作为对应数字病理切片的特征进行输出;
关键切片生成模块,用于利用各数字病理切片的位置信息及特征构建粗粒度图,并将粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为输出;并对输出的卷积激活值采用梯度加权类激活映射函数,根据输出的分数值确定关键切片;
生存结果预测模块,用于根据确定的关键切片的位置信息及特征构建细粒度图,并将细粒度图输入细粒度生存分析模型,细粒度生存分析模型最后输出生存风险值,输出的生存风险值即为预后生存预测结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的步骤。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述方法的步骤。
与现有技术相比,本发明的有益效果是;
1、本发明中,相比于其他现有技术的生产分析方法,通过梯度加权类激活映射函数对重要节点的判定方法,构建出了细粒度图,通过对细粒度图的处理能够提升预测的准确率;采用由粗到细的癌症生存期分析模型有效减少了计算量,提高了计算效率,一定程度上节省计算资源。
2、本发明中,经实验分析,本申请的技术方案在结果表现上也很出众,其在精细图基础上的结果表现要优于众多分析模型。
3、本发明中,所提出的模型具有可解释性,这在当前癌症病理领域中是难能可贵的,能解释哪些肿瘤区域会导致不好的预后结果。
4、本发明中,各模型在不同的数据集上也都展现出不俗的的表现,这也证实我们的模型相比于其他模型具有强大的普适、泛化性。
5、本发明中,所采用的生存事件采样法,有效解决了对数部分真数为0的困境,使得模型优化能够顺利推进。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图;
图2为本发明中切片组织的示意图;
其中,图a为原数字病理片图,图b为组织掩码图;
图3为本发明在不同分辨率下的示意图;
其中,图a为不同分辨率下的数字病理图,图b为不同分辨率下病理切片图;
图4为本发明的病灶区域概率分布图;
其中,图a为原概率分布图,图b为处理后的概率分布图,图c为病灶组织图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例提供一种癌症预后生存预测方法,用于根据癌症患者的病理图片进行生存分析预测,如图1所示,其具体包括以下步骤:
步骤S1,数据获取
获取数字病理样本数据、数据集NCT-CRC-HE-100K以及数字病理样本数据对应的病灶标签和生存标签,生存标签包括截止观测时间的生存状态和存活时间。
数字病理样本数据可直接来自于华西医院的病理科所采集的结直肠癌的数字病理片,病灶标签由医生直接进行标注,生存标签由系统文件中进行获取,获取的数据包括截止观测时间的生存状态和存活时间。而数据集NCT-CRC-HE-100K则为现有的数据集。
步骤S2,模型构建及训练
分别构建病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,病灶区域识别模型、病灶组织分类模型均采用ResnetXt-50进行特征提取,粗粒度生存分析模型、细粒度生存分析模型均采用图卷积神经网络。
训练时,利用步骤S1中获取的数字病理样本数据、病灶标签训练病灶区域识别模型,利用步骤S1中获取的数据集NCT-CRC-HE-100K训练病灶组织分类模型,利用步骤S1中获取的数字病理样本数据、生存标签训练粗粒度生存分析模型、细粒度生存分析模型。
在对粗粒度生存分析模型、细粒度生存分析模型在进行训练时,两个生存分析模型都采用同一损失函数,该损失函数为:
步骤S3,预后生存预测,即获取待预测患者的病理片并进行生存分析预测,其具体包括如下步骤:
步骤S31,获取10倍分辨下的数字病理片,将数字病理片进行切片分割得到若干数字病理切片,记录每个数字病理切片的位置信息;
先对1.25倍的数字病理片进行前景和背景分割,将原本的RGB图转换为HSV图,并使用其中的S通道的数值,利用大津算法(Otus)来实现前景和背景的分割,分割完成后便得到了组织区域的掩码图,如图2所示。
之后在10倍分辨率下的数字病理片进行切片分割,如图3所示。在分割完成后,计算数字病理切片得有效组织的占比;通过预设的占比的阈值,筛除掉有效组织占比低于阈值的数字病理切片;在获取到筛选后的数字病理切片后,对这些切片进行H&E染色,该染色法能够有效减少不同样本来源的影响。
步骤S32,将数字病理切片输入病灶区域识别模型,得到各数字病理切片的病灶组织图;将各数字病理切片的病灶组织图输入病灶组织分类模型,用病灶组织分类模型的倒数第二层的输出作为对应数字病理切片的特征进行输出。
由于是将若干的数字病理切片分别输入病灶区域识别模型,得到每个切片的概率分布图,从而可组合成一个大的病理片,然后采用高斯滤波器来处理该病理片,使得病理片的像素过渡更加自然、平滑,然后再经过二值化,最终得到处理后的概率分布图,结合该概率分布图及原组织图,得到最终的病灶组织图,如图4所示。
病灶组织分类模型在进行处理时,并非将病灶组织分类模型最后得出的分类结果作为输出,而是将病灶组织分类模型的倒数第二层的输出作为病灶组织分类模型的输出,即将病灶组织分类模型的倒数第二层输出的数字病理切片的特征作为模型的最终输出。
步骤S33,利用各数字病理切片的位置信息及特征构建粗粒度图,并将粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为输出;并对输出的卷积激活值采用梯度加权类激活映射函数,根据输出的分数值确定关键切片。
利用数字病理切片对整个病理图进行表示时,采用图来进行表示,即需要构建粗粒度图。在构建粗粒度图时,将各数字病理切片作为粗粒度图的各节点,以步骤S32输出的数字病理切片的特征的特征值作为该节点的信息值,以节点的信息值、节点与节点之间的邻接矩阵共同构建粗粒度图。其中,该邻接矩阵的计算方式为:
将构建好的粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为粗粒度生存分析模型的输出。
粗粒度生存分析模型输出卷积激活值后,再根据卷积激活值来确定关键切片,确定关键切片的具体方法为:
步骤S331、先采用梯度加权类激活映射函数来衡量节点的重要性,该函数的具体计算公式为:
激活函数LeakyRelu()为:
步骤S332、再根据各节点的分数值,选取得分前5%的节点作为构建精细图的重要节点,选取出来的重要节点对应的数字病理切片即为关键切片。
步骤S34,根据确定的关键切片的位置信息及特征构建细粒度图,并将细粒度图输入细粒度生存分析模型,细粒度生存分析模型最后输出生存风险值,输出的生存风险值即为预后生存预测结果。
同样,在利用数字病理切片对整个病理图进行表示时,还是采用图来进行表示,但这个时候是构建细粒度图。在构建细粒度图时,在40倍分辨率的病理切片上完成,将各关键切片作为粗粒度图的各节点,以步骤S32输出的关键切片的特征的特征值作为该节点的信息值,以节点的信息值、节点与节点之间的邻接矩阵共同构建细粒度图。其中,该邻接矩阵的计算方式为:
将构建好的细粒度图输入细粒度生存分析模型,与粗粒度生存分析模型的输出不同,细粒度生存分析模型将其最后的输出作为输出,得到生存风险值;生存风险值的计算公式为:
实施例2
本实施例还提供一种癌症预后生存预测系统,用于根据癌症患者的病理图片进行生存分析预测,其具体包括以下步骤:
数据获取模块,用于获取数字病理样本数据、数据集NCT-CRC-HE-100K以及数字病理样本数据对应的病灶标签和生存标签,生存标签包括截止观测时间的生存状态和存活时间。
数字病理样本数据可直接来自于华西医院的病理科所采集的结直肠癌的数字病理片,病灶标签由医生直接进行标注,生存标签由系统文件中进行获取,获取的数据包括截止观测时间的生存状态和存活时间。而数据集NCT-CRC-HE-100K则为现有的数据集。
模型构建及训练模块,用于分别构建病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,利用数据获取模块获取的数字病理样本数据、病灶标签训练病灶区域识别模型,利用数据获取模块获取的数据集NCT-CRC-HE-100K训练病灶组织分类模型,利用数据获取模块获取的数字病理样本数据、生存标签训练粗粒度生存分析模型、细粒度生存分析模型。
分别构建病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,病灶区域识别模型、病灶组织分类模型均采用ResnetXt-50进行特征提取,粗粒度生存分析模型、细粒度生存分析模型均采用图卷积神经网络。
训练时,利用步骤S1中获取的数字病理样本数据、病灶标签训练病灶区域识别模型,利用步骤S1中获取的数据集NCT-CRC-HE-100K训练病灶组织分类模型,利用步骤S1中获取的数字病理样本数据、生存标签训练粗粒度生存分析模型、细粒度生存分析模型。
在对粗粒度生存分析模型、细粒度生存分析模型在进行训练时,两个生存分析模型都采用同一损失函数,该损失函数为:
预后生存预测模块,用于获取待预测患者的病理片并进行生存分析预测,其包括病理切片模块、病理特征生成模块、关键切片生成模块以及生存结果预测模块;
病理切片模块,用于获取10倍分辨下的数字病理片,将数字病理片进行切片分割得到若干数字病理切片,记录每个数字病理切片的位置信息;
先对1.25倍的数字病理片进行前景和背景分割,将原本的RGB图转换为HSV图,并使用其中的S通道的数值,利用大津算法(Otus)来实现前景和背景的分割,分割完成后便得到了组织区域的掩码图,如图2所示。
之后在10倍分辨率下的数字病理片进行切片分割,如图3所示。在分割完成后,计算数字病理切片得有效组织的占比;通过预设的占比的阈值,筛除掉有效组织占比低于阈值的数字病理切片;在获取到筛选后的数字病理切片后,对这些切片进行H&E染色,该染色法能够有效减少不同样本来源的影响。
病理特征生成模块,用于将数字病理切片输入病灶区域识别模型,得到各数字病理切片的病灶组织图;将各数字病理切片的病灶组织图输入病灶组织分类模型,用病灶组织分类模型的倒数第二层的输出作为对应数字病理切片的特征进行输出。
由于是将若干的数字病理切片分别输入病灶区域识别模型,得到每个切片的概率分布图,从而可组合成一个大的病理片,然后采用高斯滤波器来处理该病理片,使得病理片的像素过渡更加自然、平滑,然后再经过二值化,最终得到处理后的概率分布图,结合该概率分布图及原组织图,得到最终的病灶组织图,如图4所示。
病灶组织分类模型在进行处理时,并非将病灶组织分类模型最后得出的分类结果作为输出,而是将病灶组织分类模型的倒数第二层的输出作为病灶组织分类模型的输出,即将病灶组织分类模型的倒数第二层输出的数字病理切片的特征作为模型的最终输出。
关键切片生成模块,用于利用各数字病理切片的位置信息及特征构建粗粒度图,并将粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为输出;并对输出的卷积激活值采用梯度加权类激活映射函数,根据输出的分数值确定关键切片。
利用数字病理切片对整个病理图进行表示时,采用图来进行表示,即需要构建粗粒度图。在构建粗粒度图时,将各数字病理切片作为粗粒度图的各节点,以病理特征生成模块输出的数字病理切片的特征的特征值作为该节点的信息值,以节点的信息值、节点与节点之间的邻接矩阵共同构建粗粒度图。其中,该邻接矩阵的计算方式为:
将构建好的粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为粗粒度生存分析模型的输出。
粗粒度生存分析模型输出卷积激活值后,再根据卷积激活值来确定关键切片,确定关键切片的具体方法为:
步骤S331、先采用梯度加权类激活映射函数来衡量节点的重要性,该函数的具体计算公式为:
激活函数LeakyRelu()为:
步骤S332、再根据各节点的分数值,选取得分前5%的节点作为构建精细图的重要节点,选取出来的重要节点对应的数字病理切片即为关键切片。
生存结果预测模块,用于根据确定的关键切片的位置信息及特征构建细粒度图,并将细粒度图输入细粒度生存分析模型,细粒度生存分析模型最后输出生存风险值,输出的生存风险值即为预后生存预测结果。
同样,在利用数字病理切片对整个病理图进行表示时,还是采用图来进行表示,但这个时候是构建细粒度图。在构建细粒度图时,在40倍分辨率的病理切片上完成,将各关键切片作为粗粒度图的各节点,以步骤S32输出的关键切片的特征的特征值作为该节点的信息值,以节点的信息值、节点与节点之间的邻接矩阵共同构建细粒度图。其中,该邻接矩阵的计算方式为:
将构建好的细粒度图输入细粒度生存分析模型,与粗粒度生存分析模型的输出不同,细粒度生存分析模型将其最后的输出作为输出,得到生存风险值;生存风险值的计算公式为:
实施例3
本实施例还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的一种癌症预后生存预测方法的步骤。
其中,所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器可以是所述计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,所述存储器也可以是所述计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中,所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件,例如运行所述的一种癌症预后生存预测方法的程序代码等。此外,所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中,所述处理器用于运行所述存储器中存储的程序代码或者处理数据,例如运行所述的一种癌症预后生存预测方法的程序代码。
实施例4
本实施例还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的一种癌症预后生存预测方法的步骤。
其中,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行上述的一种癌症预后生存预测方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。
Claims (9)
1.一种癌症预后生存预测方法,其特征在于,包括以下步骤:
步骤S1,数据获取
获取数字病理样本数据、数据集NCT-CRC-HE-100K以及数字病理样本数据对应的病灶标签和生存标签,生存标签包括截止观测时间的生存状态和存活时间;
步骤S2,模型构建及训练
分别构建病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,利用步骤S1中获取的数字病理样本数据、病灶标签训练病灶区域识别模型,利用步骤S1中获取的数据集NCT-CRC-HE-100K训练病灶组织分类模型,利用步骤S1中获取的数字病理样本数据、生存标签训练粗粒度生存分析模型、细粒度生存分析模型;
步骤S3,预后生存预测,具体包括如下步骤:
步骤S31,获取10倍分辨下的数字病理片,将数字病理片进行切片分割得到若干数字病理切片,记录每个数字病理切片的位置信息;
步骤S32,将数字病理切片输入病灶区域识别模型,得到各数字病理切片的病灶组织图;将各数字病理切片的病灶组织图输入病灶组织分类模型,用病灶组织分类模型的倒数第二层的输出作为对应数字病理切片的特征进行输出;
步骤S33,利用各数字病理切片的位置信息及特征构建粗粒度图,并将粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为输出;并对输出的卷积激活值采用梯度加权类激活映射函数,根据输出的分数值确定关键切片;
步骤S34,根据确定的关键切片的位置信息及特征构建细粒度图,并将细粒度图输入细粒度生存分析模型,细粒度生存分析模型最后输出生存风险值,输出的生存风险值即为预后生存预测结果。
2.如权利要求1所述的一种癌症预后生存预测方法,其特征在于,步骤S2中,病灶区域识别模型、病灶组织分类模型均采用ResnetXt-50进行特征提取,粗粒度生存分析模型、细粒度生存分析模型均采用图卷积神经网络。
7.一种癌症预后生存预测系统,其特征在于,包括:
数据获取模块,获取数字病理样本数据、数据集NCT-CRC-HE-100K以及数字病理样本数据对应的病灶标签和生存标签,生存标签包括截止观测时间的生存状态和存活时间;
模型构建及训练模块,用于分别构建病灶区域识别模型、病灶组织分类模型、粗粒度生存分析模型以及细粒度生存分析模型,利用数据获取模块获取的数字病理样本数据、病灶标签训练病灶区域识别模型,利用数据获取模块获取的数据集NCT-CRC-HE-100K训练病灶组织分类模型,利用数据获取模块获取的数字病理样本数据、生存标签训练粗粒度生存分析模型、细粒度生存分析模型;
预后生存预测模块,其包括病理切片模块、病理特征生成模块、关键切片生成模块以及生存结果预测模块;
病理切片模块,用于获取10倍分辨下的数字病理片,将数字病理片进行切片分割得到若干数字病理切片,记录每个数字病理切片的位置信息;
病理特征生成模块,用于将数字病理切片输入病灶区域识别模型,得到各数字病理切片的病灶组织图;将各数字病理切片的病灶组织图输入病灶组织分类模型,用病灶组织分类模型的倒数第二层的输出作为对应数字病理切片的特征进行输出;
关键切片生成模块,用于利用各数字病理切片的位置信息及特征构建粗粒度图,并将粗粒度图输入粗粒度生存分析模型,将粗粒度生存分析模型的倒数第二层输出的卷积激活值作为输出;并对输出的卷积激活值采用梯度加权类激活映射函数,根据输出的分数值确定关键切片;
生存结果预测模块,用于根据确定的关键切片的位置信息及特征构建细粒度图,并将细粒度图输入细粒度生存分析模型,细粒度生存分析模型最后输出生存风险值,输出的生存风险值即为预后生存预测结果。
8.一种计算机设备,其特征在于:包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其特征在于:存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211003012.0A CN115083574B (zh) | 2022-08-22 | 2022-08-22 | 癌症预后生存预测方法、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211003012.0A CN115083574B (zh) | 2022-08-22 | 2022-08-22 | 癌症预后生存预测方法、系统、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115083574A true CN115083574A (zh) | 2022-09-20 |
CN115083574B CN115083574B (zh) | 2022-12-06 |
Family
ID=83244772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211003012.0A Active CN115083574B (zh) | 2022-08-22 | 2022-08-22 | 癌症预后生存预测方法、系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115083574B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462042A (zh) * | 2020-03-03 | 2020-07-28 | 西北工业大学 | 癌症预后分析方法及系统 |
US20200272864A1 (en) * | 2017-11-06 | 2020-08-27 | University Health Network | Platform, device and process for annotation and classification of tissue specimens using convolutional neural network |
CN111784637A (zh) * | 2020-06-04 | 2020-10-16 | 复旦大学附属中山医院 | 一种预后特征可视化方法,系统、设备和存储介质 |
CN111798464A (zh) * | 2020-06-30 | 2020-10-20 | 天津深析智能科技有限公司 | 基于深度学习的淋巴瘤病理图像智能识别方法 |
CN112084930A (zh) * | 2020-09-04 | 2020-12-15 | 厦门大学 | 一种全视野数字病理切片的病灶区域分类方法及其系统 |
CN112184658A (zh) * | 2020-09-24 | 2021-01-05 | 上海健康医学院 | 用于非小细胞肺癌预后生存预测的方法、介质及电子设备 |
CN112819768A (zh) * | 2021-01-26 | 2021-05-18 | 复旦大学 | 基于dcnn的癌症全视野数字病理切片生存分析方法 |
CN114580501A (zh) * | 2022-02-11 | 2022-06-03 | 华南理工大学 | 骨髓细胞分类方法、系统、计算机设备及存储介质 |
-
2022
- 2022-08-22 CN CN202211003012.0A patent/CN115083574B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200272864A1 (en) * | 2017-11-06 | 2020-08-27 | University Health Network | Platform, device and process for annotation and classification of tissue specimens using convolutional neural network |
CN111462042A (zh) * | 2020-03-03 | 2020-07-28 | 西北工业大学 | 癌症预后分析方法及系统 |
CN111784637A (zh) * | 2020-06-04 | 2020-10-16 | 复旦大学附属中山医院 | 一种预后特征可视化方法,系统、设备和存储介质 |
CN111798464A (zh) * | 2020-06-30 | 2020-10-20 | 天津深析智能科技有限公司 | 基于深度学习的淋巴瘤病理图像智能识别方法 |
CN112084930A (zh) * | 2020-09-04 | 2020-12-15 | 厦门大学 | 一种全视野数字病理切片的病灶区域分类方法及其系统 |
CN112184658A (zh) * | 2020-09-24 | 2021-01-05 | 上海健康医学院 | 用于非小细胞肺癌预后生存预测的方法、介质及电子设备 |
WO2022063200A1 (zh) * | 2020-09-24 | 2022-03-31 | 上海健康医学院 | 用于非小细胞肺癌预后生存预测的方法、介质及电子设备 |
CN112819768A (zh) * | 2021-01-26 | 2021-05-18 | 复旦大学 | 基于dcnn的癌症全视野数字病理切片生存分析方法 |
CN114580501A (zh) * | 2022-02-11 | 2022-06-03 | 华南理工大学 | 骨髓细胞分类方法、系统、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
SAMUEL H. HAWKINS,ETAL: "Predicting Outcomes of Nonsmall Cell Lung Cancer Using CT Image Features", 《IEEE ACCESS》 * |
王旭 等: "基于CT影像组学的非小细胞肺癌预后分析方法", 《电子学报》 * |
许嗣滔: "机器学习和Cox模型在骨肉瘤生存预测中的应用", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115083574B (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110120040B (zh) | 切片图像处理方法、装置、计算机设备和存储介质 | |
JP7026826B2 (ja) | 画像処理方法、電子機器および記憶媒体 | |
CN111524137B (zh) | 基于图像识别的细胞识别计数方法、装置和计算机设备 | |
Huang et al. | Time-efficient sparse analysis of histopathological whole slide images | |
US20170249739A1 (en) | Computer analysis of mammograms | |
Pan et al. | Cell detection in pathology and microscopy images with multi-scale fully convolutional neural networks | |
CN110415250B (zh) | 一种基于深度学习的重叠染色体分割方法及装置 | |
US11475562B2 (en) | Fissurenet: a deep learning approach for pulmonary fissure detection in CT images | |
CN111462042A (zh) | 癌症预后分析方法及系统 | |
CN115601602A (zh) | 癌症组织病理图像分类方法、系统、介质、设备及终端 | |
CN115908363B (zh) | 肿瘤细胞统计方法、装置、设备和存储介质 | |
CN113628197A (zh) | 一种基于对比学习的弱监督全切片组织病理图像分类方法 | |
CN114022718A (zh) | 消化系统病理图像识别方法、系统及计算机存储介质 | |
CN115439493A (zh) | 一种乳腺组织切片癌变区域分割方法及装置 | |
CN112488996A (zh) | 非齐次三维食管癌能谱ct弱监督自动标注方法与系统 | |
CN118471527A (zh) | 乳腺癌症患者预后预测方法和装置、电子设备及存储介质 | |
CN112990339B (zh) | 胃病理切片图像分类方法、装置及存储介质 | |
CN117218129B (zh) | 食道癌图像识别分类方法、系统、设备及介质 | |
CN117953571A (zh) | 一种智能数字化冰箱人脸检测方法及系统 | |
CN116503932B (zh) | 重点区域加权的眼周特征提取方法、系统及存储介质 | |
CN113435469A (zh) | 一种基于深度学习的肾肿瘤增强ct图像自动识别系统及其训练方法 | |
CN115083574B (zh) | 癌症预后生存预测方法、系统、计算机设备及存储介质 | |
Liu et al. | Novel superpixel‐based algorithm for segmenting lung images via convolutional neural network and random forest | |
Tang et al. | Salient object detection via two-stage absorbing Markov chain based on background and foreground | |
Peng et al. | Fully convolutional neural networks for tissue histopathology image classification and segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |