CN113222933A

CN113222933A - 一种应用于肾细胞癌全链条诊断的图像识别系统

Info

Publication number: CN113222933A
Application number: CN202110520521.XA
Authority: CN
Inventors: 李辰; 吴佳伦; 高泽宇; 张若楠; 林思源
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-08-06
Anticipated expiration: 2041-05-13
Also published as: CN113222933B

Abstract

一种应用于肾细胞癌的全链条诊断的图像识别系统，包括图像切分模块，图像切分模块将经过癌症区域、癌症亚型以及癌症等级的标注后，对包含癌症基因组图谱TCGA和当地医院所提供的LH数据集的原病理图像进行切分，然后输入图像癌症区域检测模块对图像进行训练及预测，图像癌症区域检测模块处理后的图像由准确性提升模块进行准确度提升后，得到更为准确的癌症区域预测热力图，将预测为癌症的区域进行标记送至癌症区域分型模块进一步分型，得到癌症的细分亚型，分型后由报告输出模块输出图像识别结果报告；本发明能够利用深度学习的方法，快速准确对肾细胞癌病理图像进行分型分级识别，减轻对医生个人经验的依赖，降低诊断误差，实用高效。

Description

一种应用于肾细胞癌全链条诊断的图像识别系统

技术领域

本发明属于数字化病理图像处理与辅助诊断决策技术领域，具体涉及一种应用于肾细胞癌全链条诊断的图像识别系统。

背景技术

病理幻灯片诊断识别是一项复杂的任务，需要多年的病理学培训和积累。而经验丰富的病理医生面对幻灯片难免也会出现诊断失误。随着癌症患者的飞速增长，以及对病理医生的技术性要求高、培养周期长等因素，造成我国病理诊断面临着医疗资源分布不均、医生数量严重缺乏、水平参差不齐等难题。

人工智能作为病理学领域的一种新工具，使用智能病理辅助诊断技术进行病理信息的采集、管理和分析，可帮助病理医生减少很多工作负担，有效提高病理诊断的效率和准确性，提供更好的患者护理，而且在病理学的临床教学中能提供很好的支持。但目前的医学图像分析辅助诊断系统中使用的预测模型仍然过度依赖于基于病理学家经验的手动特征提取，它们的性能通常不足以应对临床实践中的医疗资源匮乏问题。

发明内容

为了克服上述现有技术的缺陷，本发明的目的在于提供一种应用于肾细胞癌的全链条诊断的图像识别系统，应用于数字化辅助病理诊断中肾癌的自动化辅助诊断以及自动化生成病理报告，能够利用深度学习的方法，快速准确对肾细胞癌病理图像进行分型分级识别，减轻对医生个人经验的依赖，降低诊断误差，具有客观快速、误差率低，实用高效的优点。

为了实现上述目的，本发明采取的技术方案为：

一种应用于肾细胞癌全链条诊断的图像识别系统，包括图像切分模块1，所述图像切分模块1对图像进行切分；切分后的图像在进行归一化染色后输入图像癌症区域检测模块2，并由图像癌症区域检测模块2对图像进行训练及预测，图像癌症区域检测模块2处理后的图像由准确性提升模块3进行准确度提升，得到更为准确的癌症区域预测热力图，将预测为癌症的区域进行标记送至癌症区域分型模块4进一步分型，得到癌症的细分亚型，分型后由报告输出模块5输出图像识别结果报告。

所述图像切分模块1采用数字病理学的开源平台OpenHI系统，将经过癌症区域、癌症亚型以及癌症等级三种不同粒度标注的包含癌症基因组图谱TCGA的原始病理图像，通过OpenHI系统中的图像切分功能，调用Python的OpenSlide函数接口对原始病理图像和带标注的病理图像进行图像切分操作。

所述图像切分操作具体为：将原病理图像按照边长为2000、步长为500进行分割，得到若干便于计算机处理的2000*2000的区域块，且两两区域块有重合部分，对于切分之后的病理图像，采用OpenHI系统中的染色归一化功能，根据病理图像的光密度及染色密度，将切分后的图像，进行染色归一化，所述染色归一化适用于苏木精—伊红染色法的病理图像。

所述图像癌症区域检测模块2采用数字病理学的开源平台OpenHI系统，将图像切分模块1处理后得到的若干带有癌症及非癌症标签的病理区域块输入到卷积神经网络模型中进行训练，训练中卷积神经网络会学习到癌症、非癌症区域块的特征，并将特征数据储存；将待诊断病理通过图像切分模块1切分并染色归一化后，得到若干未知标签的区域块输入到卷积神经网络中，与前面储存的特征数据对比得到该未知标签的区域块属于癌症的概率值，此过程即为“预测”；根据属于癌症的概率值大小对其区分染色，属于癌症的概率值越大，红色越深，随后使用OpenSlide函数库将所有未知标签的区域块重新拼接到一起，得到待诊断病理图像的癌症诊断概率图，即热图Heat-Map，从热图中直观地看出待诊断病理图像中各区域属于癌症的概率大小。

所述准确性提升模块3通过数字病理学的开源平台OpenHI系统对图像癌症区域检测模块2预测的概率值在0.2-0.8之间的未知标签的区域块，通过卷积神经网络模型方法进行准确性提升。

所述准确性提升方法为：

1)分别用以下三种方法对未知标签的区域块进行预测

对于概率值在0.2-0.8之间的未知标签的区域块，进行三次90度的顺时针旋转以及水平翻转、垂直翻转以及对角线翻转操作，得到七张经过数据增强的区域块，然后使用卷积神经网络对这七张区域块进行预测，得到的七个概率值取中位数，并将所得中位数与0.5的自定义阈值进行比较，所得中位数大于0.5视为癌症区域，反之则视为非癌症区域；

对于概率值在0.2-0.8之间的当前未知标签的区域块，进行放大20倍-40倍数的修改，并采用图像癌症区域检测模块2训练好的卷积神经网络对放大后的未知标签的区域块进行预测，得到其属于癌症的概率值，并与0.5的阈值进行比较，大于0.5视为癌症区域，反之则视为非癌症区域；

以概率值在0.2-0.8之间的未知标签的区域块为中心，选取其周围四个同样大小的区域块输入到卷积神经网络进行预测，得到四个概率值并取中位数，同时也将中位数与0.5的阈值进行比较，大于0.5视为癌症区域，反之则视为非癌症区域；

2)多数投票：以上三种方法结果中视为癌症区域占多数的，将其视为癌症。

所述癌症区域分型模块4包括癌症亚型分类模块6及癌症分级及分型模块7。

所述癌症亚型分类模块6通过数字病理学的开源平台OpenHI系统对准确性提升模块3处理后视为癌症的区域块进行肾细胞癌中透明细胞癌、乳头状细胞癌和嫌色细胞癌三种亚型的分类：首先将经过病理学家标注的带有三种不同亚型标签的病理区域块作为训练集，输入到卷积神经网络中进行训练，卷积神经网络学习到三种不同亚型的不同特征，然后将视为癌症的区域块输入到卷积神经网络中得到每个视为癌症的区域块属于各个亚型的概率值。

所述癌症分级及分型模块7通过数字病理学的开源平台OpenHI系统对准确性提升模块3处理后视为癌症的区域块进行准确性提升，再对视为癌症的区域块进行癌症的分级及分型。

所述癌症的分级及分型包括肾透明细胞癌分级和乳头状肾细胞癌分型，具体为：

1)所述肾透明细胞癌分级：将经过标注的含有等级标签的癌症区域块作为训练集输入到卷积神经网络中进行包含ISUP I、II、III、IV四种不同等级标签的癌症区域块的训练，具体做法如下：首先将带有IV级细胞标签和非四级细胞标签的癌症区域块输入到卷积神经网络中进行训练，训练完成之后，卷积神经网络学习到IV级细胞的特征，即可筛选出属于IV级癌症细胞的区域；之后再分别将带有I、II、III级细胞标签的癌症区域块输入到卷积神经网络中训练，卷积神经网络分别学习到这三种等级细胞的特征后，即可对非IV级癌症细胞进行三分类的预测，判断其属于哪种等级；卷积神经网络在对区域块进行预测时，输出的是该区域块属于某一种等级癌症的概率，当在视为癌症的区域块中，同时出现两种或者两种以上的癌症等级的情况，则按照如下的算法进行计算：

设第m张视为癌症区域的区域块中属于四种不同癌症等级的概率分别为G1_m、G2_m、G3_m、G4_m，那么该区域块分别属于四种不同等级的概率值为：

％G1＝∑G1_m/∑G1_m+∑G2_m+∑G3_m+∑G4_m

％G2＝∑G2_m/∑G1_m+∑G2_m+∑G3_m+∑G4_m

％G3＝∑G3_m/∑G1_m+∑G2_m+∑G3_m+∑G4_m

％G4＝∑G4_m/∑G1_m+∑G2_m+∑G3_m+∑G4_m

通过计算得到癌症等级概率，并在癌症区域位置生成属于癌症等级的概率图，通过叠加将癌症区域中分别属于不同等级以不同颜色进行表示；

2)所述乳头状肾细胞癌分型：分别采用传统机器学习的方法以及基于深度学习的方法来对不同亚型的乳头状肾细胞癌进行划分，具体流程如下：

a.传统机器学习的方法：对于带有I型和II型标签的乳头状肾细胞癌区域块，首先使用Python中的Pyradiomics函数库来提取区域块的特征，包括形态学特征、纹理特征，组成训练集，随后将组成训练集训练DT、GBDT两种传统机器学习模型，然后，使用训练好的传统机器学习模型来对未知标签的区域块进行分类；

b.深度学习的方法：将带有I型和II型标签的乳头状肾细胞癌区域块输入到VIT模型进行训练，让VIT模型学习两种亚型的特征，随后该模型即可对未知标签的区域块进行分类，即输出该区域块分别属于两种类型的概率。

所述报告输出模块5采用数字病理学的开源平台OpenHI系统，对经上述模块处理后的图像识别结果进行输出。

本发明与现有技术相比，具有以下技术优势：

本发明为深度学习算法在肾细胞癌病理学中新的应用，对于组织学数字切片中的肿瘤组织的识别与分类。我们的研究表明，卷积神经网络(例如Google的Inception v3网络)可用于组织病理学幻灯片对肾细胞癌的诊断：它正确地区分了正常组织与肿瘤组织，以高准确度区分了肾癌的亚型与分级，达到了与病理学家相当的敏感性和特异性。本发明中采用了三种不同的策略来提高肿瘤检测的准确性。这些策略需要为满足条件的区域块增加额外的计算量，但它们提升了分类准确度，这样的计算量增长是可以接受的。此外，对基于深度学习的模型进行新数据的后训练可大大提高模型的准确性，这对于模型的持续开发很重要。本发明展示了，深度学习中卷积神经网络可以帮助病理学家对肾细胞癌的全幻灯片图像进行分类并生成全病例报告。病理医生利用这些信息可以更有针对性的对病人进行治疗。

综上，本发明通过对临床得到的病理图像进行处理，利用深度学习法对处理切分后的病理图像进行训练、预测，快速准确对肾细胞癌病理图像进行分型分级结果输出，减轻对医生个人经验的依赖，降低诊断误差，具有客观快速、误差率低，实用高效的优点。

附图说明

图1为本发明癌症基因组图谱TCGA中不同等级和不同子类型的统计柱状图。

图2为本发明由病理学家标注的将癌症区域与正常区进行区分、并提供细粒度的亚型和分级标注原始数字病理全片图像，其中图2(a)为原始病理图像，图2(b)为病理学家标注区分癌症区域的病理图像。

图3为本发明三种不同亚型和四种不同癌症等级的癌症区域块的示例图。

图4为本发明肿瘤区域检测任务的网络结构框架的可视化实例。

图5为本发明对应图四的示例图。

图6为本发明癌症亚型和分级子任务的网络结构图。

图7为本发明病理诊断报告在整张幻灯片图像中包含患者的详细信息。

图8为本发明总模块信息。

图中：1、图像切分模块；2、图像癌症区域检测模块；3、准确性提升模块；4、癌症区域分型模块；5、诊断报告输出模块；6、癌症亚型分类模块；7、癌症分级及分型模块。

具体实施方式

下面参照附图对本发明做详细说明。

所述图像切分操作具体为：将原病理图像按照边长为2000、步长为500进行分割，得到若干便于计算机处理的2000*2000的区域块，且两两区域块有重合部分，便于之后的模块可以进行更好的预测；对于切分之后的病理图像，采用OpenHI系统中的染色归一化功能，根据病理图像的光密度及染色密度，将切分后的图像，进行染色归一化。

所述图像癌症区域检测模块2采用数字病理学的开源平台OpenHI系统，将图像切分模块1处理后得到的若干带有癌症及非癌症标签的病理区域块输入到卷积神经网络模型中进行训练，训练中卷积神经网络会学习到癌症、非癌症区域块的特征，并将特征数据储存；将待诊断病理通过图像切分模块1切分并染色归一化后，得到若干未知标签的区域块输入到卷积神经网络中，与前面储存的特征数据对比得到该未知标签的区域块属于癌症的概率值，此过程即为“预测”；根据属于癌症的概率值大小对其区分染色，属于癌症的概率值越大，红色越深，随后使用OpenSlide函数库将所有未知标签的区域块重新拼接到一起，得到待诊断病理图像的癌症诊断概率图，即热图(Heat-Map)，从热图中直观地看出待诊断病理图像中各区域属于癌症的概率大小。

所述准确性提升模块3通过数字病理学的开源平台OpenHI系统对图像癌症区域检测模块2预测的概率值在0.2-0.8之间的未知标签的区域块，通过三种卷积神经网络模型方法进行准确性提升。

所述准确性提升方法为：

1)分别用以下三种方法对未知标签的区域块进行预测

对于概率值在0.2-0.8之间的未知标签的区域块，进行三次90度的顺时针旋转以及不同的翻转操作(水平翻转、垂直翻转以及对角线翻转)，得到七张经过数据增强的区域块，然后使用卷积神经网络对这七张区域块进行预测，得到的七个概率值取中位数，并将所得中位数与0.5的自定义阈值进行比较，所得中位数大于0.5视为癌症区域，反之则视为非癌症区域；

所述癌症分级及分型模块7通过数字病理学的开源平台OpenHI系统对准确性提升模块3处理后视为癌症的区域块进行准确性提升后，对视为癌症的区域块进行癌症的分级及分型。

所述癌症的分级及分型包括肾透明细胞癌分级和乳头状肾细胞癌分型：

％G1＝∑G1_m/∑G1_m+∑G2_m+∑G3_m+∑G4_m

％G2＝∑G2_m/∑G1_m+∑G2_m+∑G3_m+∑G4_m

％G3＝∑G3_m/∑G1_m+∑G2_m+∑G3_m+∑G4_m

％G4＝∑G4_m/∑G1_m+∑G2_m+∑G3_m+∑G4_m

所述染色归一化适用于苏木精—伊红染色法的病理图像。

所述染色归一化为本领域熟知技术方法，不做赘述。

嫌色细胞癌临床不做分级。

Claims

1.一种应用于肾细胞癌全链条诊断的图像识别系统，包括图像切分模块(1)，其特征在于：所述图像切分模块(1)对图像进行切分，切分后的图像在进行归一化染色后输入图像癌症区域检测模块(2)，并由图像癌症区域检测模块(2)对图像进行训练及预测，图像癌症区域检测模块(2)处理后的图像由准确性提升模块(3)进行准确度提升，得到更为准确的癌症区域预测热力图，将预测为癌症的区域进行标记并送至癌症区域分型模块(4)进一步分型，得到癌症的细分亚型，分型后由报告输出模块(5)输出图像识别结果报告。

2.根据权利要求1所述的一种应用于肾细胞癌全链条诊断的图像识别系统，其特征在于：所述图像切分模块(1)采用数字病理学的开源平台OpenHI系统，将经过癌症区域、癌症亚型以及癌症等级三种不同粒度标注的包含癌症基因组图谱TCGA的原始病理图像，通过OpenHI系统中的图像切分功能，调用Python的OpenSlide函数接口对原始病理图像和带标注的病理图像进行图像切分操作。

3.根据权利要求2所述的一种应用于肾细胞癌全链条诊断的图像识别系统，其特征在于：所述图像切分操作具体为：将原病理图像按照边长为2000、步长为500进行分割，得到若干便于计算机处理的2000*2000的区域块，且两两区域块有重合部分，对于切分之后的病理图像，采用OpenHI系统中的染色归一化功能，根据病理图像的光密度及染色密度，将切分后的图像，进行染色归一化，所述染色归一化适用于苏木精—伊红染色法的病理图像。

4.根据权利要求1所述的一种应用于肾细胞癌全链条诊断的图像识别系统，其特征在于：所述图像癌症区域检测模块(2)采用数字病理学的开源平台OpenHI系统，将图像切分模块(1)处理后得到的若干带有癌症及非癌症标签的病理区域块输入到卷积神经网络模型中进行训练，训练中卷积神经网络会学习到癌症、非癌症区域块的特征，并将特征数据储存；将待诊断病理通过图像切分模块(1)切分并染色归一化后，得到若干未知标签的区域块输入到卷积神经网络中，与前面储存的特征数据对比得到该未知标签的区域块属于癌症的概率值，此过程即为“预测”；根据属于癌症的概率值大小对其区分染色，属于癌症的概率值越大，红色越深，随后使用OpenSlide函数库将所有未知标签的区域块重新拼接到一起，就会得到待诊断病理图像的癌症诊断概率图，即热图Heat-Map，从热图中直观地看出待诊断病理图像中各区域属于癌症的概率大小。

5.根据权利要求1所述的一种应用于肾细胞癌全链条诊断的图像识别系统，其特征在于：所述准确性提升模块(3)通过数字病理学的开源平台OpenHI系统对图像癌症区域检测模块(2)预测的概率值在0.2-0.8之间的未知标签的区域块，通过卷积神经网络模型方法进行准确性提升。

6.根据权利要求5所述的一种应用于肾细胞癌全链条诊断的图像识别系统，其特征在于：所述准确性提升方法为：

1)分别用以下三种方法对未知标签的区域块进行预测

对于概率值在0.2-0.8之间的当前未知标签的区域块，进行放大20倍-40倍数的修改，并采用图像癌症区域检测模块(2)训练好的卷积神经网络对放大后的未知标签的区域块进行预测，得到其属于癌症的概率值，并与0.5的阈值进行比较，大于0.5视为癌症区域，反之则视为非癌症区域；

7.根据权利要求1所述的一种应用于肾细胞癌全链条诊断的图像识别系统，其特征在于：所述癌症区域分型模块(4)包括癌症亚型分类模块(6)及癌症分级及分型模块(7)。

8.根据权利要求7所述的一种应用于肾细胞癌全链条诊断的图像识别系统，其特征在于：所述癌症亚型分类模块(6)通过数字病理学的开源平台OpenHI系统对准确性提升模块(3)处理后视为癌症的区域块进行肾细胞癌中透明细胞癌、乳头状细胞癌和嫌色细胞癌三种亚型的分类：首先将经过标注的带有三种不同亚型标签的病理区域块作为训练集，输入到卷积神经网络中进行训练，卷积神经网络学习到三种不同亚型的不同特征，然后将视为癌症的区域块输入到卷积神经网络中得到每个视为癌症的区域块属于各个亚型的概率值；

所述癌症分级及分型模块(7)通过数字病理学的开源平台OpenHI系统对准确性提升模块(3)处理后视为癌症的区域块进行准确性提升后，对视为癌症的区域块进行癌症的分级及分型。

9.根据权利要求1所述的一种应用于肾细胞癌全链条诊断的图像识别系统，其特征在于：所述癌症的分级及分型包括肾透明细胞癌分级和乳头状肾细胞癌分型，具体为：

1)所述肾透明细胞癌分级：将经过标注的含有等级标签的癌症区域块作为训练集输入到卷积神经网络中进行包含ISUPI、II、III、IV四种不同等级标签的癌症区域块的训练，具体做法如下：首先将带有IV级细胞标签和非四级细胞标签的癌症区域块输入到卷积神经网络中进行训练，训练完成之后，卷积神经网络学习到IV级细胞的特征，即可筛选出属于IV级癌症细胞的区域；之后再分别将带有I、II、III级细胞标签的癌症区域块输入到卷积神经网络中训练，卷积神经网络分别学习到这三种等级细胞的特征后，即可对非IV级癌症细胞进行三分类的预测，判断其属于哪种等级；卷积神经网络在对区域块进行预测时，输出的是该区域块属于某一种等级癌症的概率，当在视为癌症的区域块中，同时出现两种或者两种以上的癌症等级的情况，则按照如下的算法进行计算：

％G1＝∑G1_m/ΣG1_m+∑G2_m+∑G3_m+∑G4_m

％G2＝∑G2_m/ΣG1_m+∑G2_m+∑G3_m+∑G4_m

％G3＝∑G3_m/ΣG1_m+∑G2_m+∑G3_m+∑G4_m

％G4＝∑G4_m/∑G1_m+∑G2_m+∑G3_m+∑G4_m

10.根据权利要求1所述的一种应用于肾细胞癌全链条诊断的图像识别系统，其特征在于：所述报告输出模块(5)采用数字病理学的开源平台OpenHI系统，对经上述模块处理后的图像识别结果进行输出。