CN113420793A

CN113420793A - 一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法

Info

Publication number: CN113420793A
Application number: CN202110622393.XA
Authority: CN
Inventors: 蓝如师; 焦志勇; 罗笑南; 刘振丙; 汪华登; 潘细朋
Original assignee: Guilin Xiaowei Hotel Management Co ltd; Guilin University of Electronic Technology
Current assignee: Guilin Xiaowei Hotel Management Co ltd; Guilin University of Electronic Technology
Priority date: 2021-06-05
Filing date: 2021-06-05
Publication date: 2021-09-21

Abstract

本发明涉及了一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌图像分类方法，包括：首先从医院获取原始数据；再进行数据预处理和数据增强；预训练ResNeSt50模型并改进其结构；将改进的模型与其他state‑of‑the‑art模型进行公平的比较；制作概率热力图，训练随机森林分类器。最后进行病理图像级别的分类，得出分类结果。本发明提出的方法不仅在切片级别的分类上取得了很好的效果，同时在病理图像级别的分类上取得了不错的结果，病变区域可视化效果也优于现有的方法。

Description

一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法

技术领域

本发明属于医学图像处理技术领域，具体涉及一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法

背景技术

胃印戒细胞癌是一种比较罕见的胃癌，仅占胃癌的9.9％。这种肿瘤比较罕见，医生很少遇到它。不熟悉这种情况极有可能会导致误诊，因此需要进行专家的组织病理学检查。胃印戒细胞癌致病的主要原因是胃部粘膜组织中的细胞恶化。然而在医学研究中，胃印戒细胞癌的发病机制仍然不是很清楚，更不用说针对其提出有效的治疗方法。

胃印戒细胞癌虽然比较罕见，但其一旦确诊，致死率高。关于胃印戒细胞癌患者预后因素的报道不一，但大多研究指出影响其预后的因素包括：肿瘤大小、淋巴结转移、脉管癌栓、吸烟、饮食以及治疗方式等。如果胃印戒细胞癌能够在早期及时被发现,并且采取果断,有效的治疗手段,能在很大程度的改善患者的健康，甚至能够痊愈。

当前对胃印戒细胞癌的检测主要是依靠专业的病理医生对病理切片进行识别,然而这个过程很依赖于医生的经验。目前中国病理医生严重短缺，况且胃印戒细胞癌作为一种比较罕见的胃癌,更加缺少对其熟悉的病理科医生。最近的研究表明，深度学习在医学图像识别方面就有很大的潜力。因此，本文采用深度学习技术来解决胃印戒细胞癌病理图像分类问题。

发明内容

本发明提供一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法。首先从医院获取原始数据；再进行数据预处理和数据增强；预训练ResNeSt50模型并改进其结构；将改进的模型与其他state-of-the-art模型进行公平的比较；制作概率热力图，训练随机森林分类器。最后进行病理图像级别的分类，得出分类结果。

本发明的技术方案是这样实现的：

一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法,该方法包含以下技术步骤：

步骤1.从医院获取原始数据；

步骤2.对数据进行预处理和数据增强；

步骤3.预训练ResNeSt50模型并改进其结构；

步骤4.将改进的模型与其他state-of-the-art模型进行公平的比较；

步骤5.制作概率热力图，训练随机森林分类器；

步骤6.进行病理图像级别的分类，得出分类结果。

进一步地，步骤2中所述的对数据进行预处理和数据增强，具体为：

步骤2.1.从搜集的原始病理图像中筛选出有效图片，丢弃掉无效的图片；

步骤2.2.请专业的胃部病理医生人工标注病变区域；

步骤2.3.采用Otsu阈值法提取感兴趣区域(ROI),即病变区域；

步骤2.4.分别对感兴趣区域和背景区域进行切片处理，从感兴趣区域获取肿瘤切片，从背景区域获取正常组织切片；将含85％以上病变区域的切片定义为肿瘤切片，标签为1；否则为正常组织切片，标签为0；

步骤2.5.对切片进行颜色归一化操作,颜色归一化的目的是使图像的颜色分布趋于统一，使检测分类更加准确，检测算法的鲁棒性更好。本发明采用Macenko等人提出的染色矢量标准化和强度标准化的归一化方法；

步骤2.6.数据增强处理,主要包括对切片进行仿射处理，随机选择90°/180°/270°,按0.7比例进行缩放，水平和竖直方向镜像等.

步骤2.7.将处理好的数据集分为三个部分：训练集，验证集，测试集。训练集用于模型的训练，获取图像精细特征，有78张WSI图片，共240,747张切片；验证集用于矫正训练效果，有10张WSI图片，共32,411张切片；测试集用于最后对模型的效果进行测试，有16张WSI图片，共48,245张切片。

进一步地，步骤3中所述的预训练ResNeSt50模型并改进其结构，具体为:

步骤3.1.首先在ImageNet数据集上对ResNeSt50卷积神经网络进行预训练,保存预训练后的网络模型结构；

步骤3.2.对预训练后的ResNeSt50网络全连接层进行替换，替换为如下顺序的卷积层叠加：一层Adaptive average pool，一层Batch Norm和Dropout(Prob＝0.5),一层全连接层(输入为2048，输出为1000),一层ReLu,一层Batch Norm和Dropout(Prob＝0.5),一层全连接层(输入为1000，输出为2),一层Softmax层。其中Adaptive average pool对于任意大小的输入，都可以输出指定尺寸的特征图，并且输入和输出特征的数目相同。利用此特性，可以最大限度的保留精细的特征。后面再加一层Batch Norm和Dropout(Prob＝0.5),已经有研究表明将Batch Norm和Dropout结合在一起，可以有效弱化任何神经元间信息交互的强度，同时能够降低相关系数，从而达到加快收敛，防止过拟合的目的。加一层全连接层的目的是将二维特征向量转化为一维特征向量，同时减少分类的个数，加入一层ReLu激活函数的目的在于：它可以克服梯度消失和减少模型的训练时间。后面再加一层Batch Norm和Dropout,全连接层的目的在于继续强化以上的功能，最后再加一层Softmax激活函数，用于输出0到1之间二分类的概率值。然后保存模型；

进一步地，步骤4中所述的将改进的模型与其他state-of-the-art模型进行公平的比较，具体为:

步骤4.1.在公平的环境下，将改进的ResNeSt50与VGG19，Inception-v3和DenseNet169,进行比较，采用训练集和验证集分别对以上四种模型进行训练和验证；

步骤4.2.分别载入测试集，进行切片级别的分类，得到各分类指标(包括AUC,Accuracy,Sensitivity,Specificity,F1-score)，从而选出最佳模型。

进一步地，步骤5中所述的制作概率热力图，训练随机森林分类器，具体为：

步骤5.1.通过最佳模型预测78张WSI图像各自的切片属于癌症或者正常组织的概率,利用每个切片的分类结果制作78张概率热力图，通过seaborn可视化技术展示概率热力图；

步骤5.2.提取概率热力图的28个相关特征，针对胃印戒细胞癌病理组织图像非常复杂的特点，通过独立的重要性分析选择其中的前7个最重要的特征作为随机森林分类器的输入，这些特征包括(肿瘤区域的平均面积,肿瘤区域占组织区域百分比,最大肿瘤区域面积,最大肿瘤区域最长轴,偏心距,区域中像素与在总界框中的像素比值，肿瘤区域的数量等)，用于训练随机森林分类器。

进一步地，步骤6中所述的最后进行病理图像级别的分类，得出分类结果，具体为：

步骤6.1.将验证集的10张WSI图像和测试集的16张WSI图像进行混合，作为随机森林分类器的测试集；

步骤6.2.载入混合的测试集，进行图片级别的分类，得出各分类指标(包括AUC,Accuracy,Sensitivity,Specificity,F1-score)。

与现有技术相比，本发明的有益效果是：

1)本发明的分类方法先经过了ImageNet数据集的预训练，能有效的提高模型分类的准确率。

2)本发明收集的数据经过了预处理，特别是颜色归一化处理，排除了一些会对模型分类造成干扰的因素，提高了分类的准确度。

3)本发明对经ImageNet预训练的ResNeSt50模型结构进行了一些改动，添加了Adaptive average pool,Batch Norm,Dropout等操作，有效的提高了其分类的准确度。

4)本发明基于独立的重要性分析，针对胃印戒细胞癌病变特点，特地选取了前7个对胃印戒细胞癌分类影响最大，最重要的特征作为随机森林分类器的输入，有助于提高图像级别的分类效果。

附图说明

图1为本发明一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法的基本流程图。

图2为本发明系统结构的详细说明图。

图3为本发明所采用的ResNeSt50结构示意图。

图4为本发明的切片级别的分类结果。

图5为本发明的图像级别的分类结果。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

用于实施的硬件环境是：CPU Intel(R)Core(TM)i5-4200H CPU@2.80GHz,GPU是NVIDIA Tesla P100,运行环境是python3.8和Pytorch.

如图1,图2所示，一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法。首先是获取数据，然后对数据进行预处理和数据增强，进行数据集的划分，搭建深度学习训练平台，采用ImageNet对ResNeSt50网络模型进行预训练，修改预训练后ResNeSt50的网络结构，采用迁移学习和fine-tuning同其他三个state-of-the-art模型在收集的数据集上进行公平的训练，选出最佳模型，并生成概率热力图，通过卷积操作提取特征用于训练随机森林分类器，最后进行图像级别的分类，得出各分类评价指标。

所述的改进流程具体为：

改进的主要是数据预处理，模型结构的改变和特征的选取。

数据预处理阶段：

步骤2.2.请专业的胃部病理医生人工标注病变区域；

步骤2.3.采用Otsu阈值法提取感兴趣区域(ROI),即病变区域；

模型结构的改变：

对预训练后的ResNeSt50网络全连接层进行替换，替换为如下顺序的卷积层叠加：一层Adaptive average pool，一层Batch Norm和Dropout(Prob＝0.5),一层全连接层(输入为2048，输出为1000),一层ReLu,一层Batch Norm和Dropout(Prob＝0.5),一层全连接层(输入为1000，输出为2),一层Softmax层。其中Adaptive average pool对于任意大小的输入，都可以输出指定尺寸的特征图，并且输入和输出特征的数目相同。利用此特性，可以最大限度的保留精细的特征。后面再加一层Batch Norm和Dropout(Prob＝0.5),已经有研究表明将Batch Norm和Dropout结合在一起，可以有效弱化任何神经元间信息交互的强度，同时能够降低相关系数，从而达到加快收敛，防止过拟合的目的。加一层全连接层的目的是将二维特征向量转化为一维特征向量，同时减少分类的个数，加入一层ReLu激活函数的目的在于：它可以克服梯度消失和减少模型的训练时间。后面再加一层Batch Norm和Dropout,全连接层的目的在于继续强化以上的功能，最后再加一层Softmax激活函数，用于输出0到1之间二分类的概率值。

特征的选取：

提取概率热力图的28个相关特征，针对胃印戒细胞癌病理组织图像非常复杂的特点，通过独立的重要性分析选择其中的前7个最重要的特征作为随机森林分类器的输入，这些特征包括(肿瘤区域的平均面积,肿瘤区域占组织区域百分比,最大肿瘤区域面积,最大肿瘤区域最长轴,偏心距,区域中像素与在总界框中的像素比值，肿瘤区域的数量等)，用于训练随机森林分类器。

另外，本发明使用AUC，Accuracy,Sensitivity,Specificity,F1-score作为分类的评价指标，各分类指标具体的计算方法如下：

其中TP,FP,TN和FN分别代表：真阳性，假阳性，真阴性和假阴性，M_P和M_R分别代表加权的精准度和加权的召回率。AUC的值可以有程序自动计算生成。

以上对本发明提出的基于深度学习的胃印戒细胞癌及非恶性肿瘤组织分类方法进行了详细的介绍,但是具体实施方式的描述仅用于解释本发明的方法及其核心思想,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法,其特征在于，包括如下步骤：

步骤1.从医院获取原始数据；

步骤2.对数据进行预处理和数据增强；

步骤3.预训练ResNeSt50模型并改进其结构；

步骤5.制作概率热力图，训练随机森林分类器；

步骤6.进行病理图像级别的分类，得出分类结果。

2.根据权利要求1所述的一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法，其特征在于，步骤2中所述的对数据进行预处理和数据增强，具体为：

步骤2.2.请专业的胃部病理医生人工标注病变区域；

步骤2.3.采用Otsu阈值法提取感兴趣区域(ROI),即病变区域；

3.根据权利要求1所述的一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法，其特征在于，步骤3中所述的预训练ResNeSt50模型并改进其结构，具体为:

步骤3.2.对预训练后的ResNeSt50网络全连接层进行替换，替换为如下顺序的卷积层叠加：一层Adaptive average pool，一层Batch Norm和Dropout(Prob＝0.5),一层全连接层(输入为2048，输出为1000),一层ReLu,一层Batch Norm和Dropout(Prob＝0.5),一层全连接层(输入为1000，输出为2),一层Softmax层。其中Adaptive average pool对于任意大小的输入，都可以输出指定尺寸的特征图，并且输入和输出特征的数目相同。利用此特性，可以最大限度的保留精细的特征。后面再加一层Batch Norm和Dropout(Prob＝0.5),已经有研究表明将Batch Norm和Dropout结合在一起，可以有效弱化任何神经元间信息交互的强度，同时能够降低相关系数，从而达到加快收敛，防止过拟合的目的。加一层全连接层的目的是将二维特征向量转化为一维特征向量，同时减少分类的个数，加入一层ReLu激活函数的目的在于：它可以克服梯度消失和减少模型的训练时间。后面再加一层Batch Norm和Dropout,全连接层的目的在于继续强化以上的功能，最后再加一层Softmax激活函数，用于输出0到1之间二分类的概率值。然后保存模型。

4.根据权利要求1所述的一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法，其特征在于，步骤4中所述的将改进的模型与其他state-of-the-art模型进行公平的比较，具体为:

5.根据权利要求1所述的一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法，其特征在于，步骤5中所述的制作概率热力图，训练随机森林分类器，具体为：

6.根据权利要求1所述的一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法，其特征在于，步骤5中所述的最后进行病理图像级别的分类，得出分类结果，具体为：

步骤6.2.载入混合的测试集，进行图片级别的分类，得出各分类指标(包括AUC,Accuracy, Sensitivity,Specificity,F1-score)。