CN114973244B

CN114973244B - 一种乳腺癌h&e染色病理图像有丝分裂自动识别系统和方法

Info

Publication number: CN114973244B
Application number: CN202210659966.0A
Authority: CN
Inventors: 潘细朋; 卢英华; 刘振丙; 秦祖军; 蓝如师; 杨辉华; 汪华登; 李灵巧; 王子民; 程纪钧; 王志臻; 冯拯云; 宋世龙
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2022-06-12
Filing date: 2022-06-12
Publication date: 2023-04-11
Anticipated expiration: 2042-06-12
Also published as: CN114973244A; US20230401707A1

Abstract

本发明公开了一种乳腺癌H&E染色病理图像有丝分裂自动识别系统和方法，属于数字图像处理技术技术领域，包括：输入图像预处理模块：对原始图片进行按照预定的patch尺寸切割，并通过图片翻转、旋转等方式进行数据增强；分割模块：通过在训练集中裁剪patches训练一个分割网络，将测试集数据按相应尺寸切割并送入分割网络，得到patch级的分割结果，然后将分割后结果按照其在预处理阶段截取的patch坐标信息来重建出属于原始尺寸的图像。该乳腺癌H&E染色病理图像有丝分裂自动识别系统和方法，对于准确地分割和分类乳腺癌有丝分裂的细胞，特别是样本细胞数量稀少，特征复杂的，具有重要意义。

Description

一种乳腺癌H＆E染色病理图像有丝分裂自动识别系统和方法

技术领域

本发明属于数字图像处理技术技术领域，尤其是一种乳腺癌H&E染色病理图像有丝分裂自动识别系统，还涉及一种乳腺癌H&E染色病理图像有丝分裂自动识别系统的方法。

背景技术

2020年世界卫生组织国际癌症研究机构发布的最新癌症数据显示，乳腺癌新增人数达226万，发病率全球第一，已经成为一个重大的社会公众卫生问题。尤其近年来，我国女性乳腺癌患者数量持续增长，且日益趋于年轻化，这对女性健康构成了极大的威胁。乳腺癌在早期进行诊断并予以治疗，可以极大地改善患者预后情况。

因此，尽早对乳腺癌完成准确诊断非常重要。目前，判断是否患有乳腺癌有很多种方法，但是病理诊断被一致认为是肿瘤诊断的“金标准”。用于病理诊断的切片最常用的染色方法是H&E染色，染色后的组织病理图像能直观展示细胞成分及其组织结构。世界卫生组织规定诺丁汉评分系统为乳腺癌分级的评判标准，将乳腺癌按照严重程度划分等级。即病理医生综合考虑切片中细胞核的异型性、腺管的形成以及有丝分裂的个数三个指标，在三个指标上分别给出评分，最后综合评价肿瘤的严重程度。一般来说，评分越低，肿瘤危险性越低。其中，有丝分裂个数是一个极其重要的指标，它可以对肿瘤细胞的侵袭性给出评估，是一项必不可少的评价指标。同时根据有丝分裂个数可以确定肿瘤细胞的增殖速度，进而有助于病理学家确定治疗和预后方案。

但现有的算法无法准确地对样本细胞数量稀少、特征复杂的乳腺癌有丝分裂细胞进行分割和分类。

发明内容

本发明的目的在于提供乳腺癌H&E染色病理图像有丝分裂自动识别系统和方法，以解决背景技术中提出的问题。

技术方案：一种乳腺癌H&E染色病理图像有丝分裂自动识别系统，包括：

输入图像预处理模块：对原始图片进行按照预定的patch尺寸切割，并通过图片翻转、旋转等方式进行数据增强；

分割模块：通过在训练集中裁剪patches训练一个分割网络，将测试集数据按相应尺寸切割并送入分割网络，得到patch级的分割结果，然后将分割后结果按照其在预处理阶段截取的patch坐标信息来重建出属于原始尺寸的图像；

分类模块：分别训练三个分类网络用于分类并对三个网络的结果进行决策层面融合，使用投票法得出最后输出结果，再将最终的结果进行还原、标记，就可以得到最终检测结果。

在进一步的实施例中，所述分割模块包括：

注意力分割网络模块：用于通过在训练集中裁剪patches训练一个分割网络，将测试集数据按相应尺寸切割并送入分割网络，得到patch级的分割结果；

候选细胞选取方法模块：用于将分割后结果按照其在预处理阶段截取的patch坐标信息来重建出属于原始尺寸的图像。

在进一步的实施例中，所述分类模块包括：

三分支分类网络模块：用于分别训练三个分类网络用于分类；

决策融合算法模块：用于对三个网络的结果进行决策层面融合，使用投票法得出最后输出结果；

分类结果标记模块：用于将最终的结果进行还原、标记，就可以得到最终检测结果。

一种乳腺癌H&E染色病理图像有丝分裂自动识别系统的方法，具体步骤如下：

S1：数据预处理：对数据进行裁剪操作，裁剪后的边长为64，由于原HPF的尺寸并不能保证无重叠完整切割，我们采取了先填补后裁剪的方式，在HPF边缘外圈根据需要进行填补相应的尺寸，在切割之前，根据原HPF边长a和切割后patch的边长b计算得到需要填补的尺寸大小c，在边缘区域将长×宽为a×c的长条块复制并填补到边缘区域，右下角的小正方形区域的填补块，选择在原HPF右下角c×c同样大小区域进行复制，经过上述操作就可以得到一个可不重叠完全切割的HPF图像，之后，将所有测试集从左上角按照顺序切割，就能得到所有的用于测试的patch。

S2：分割阶段：构建一个基于Attention U-Net的分割网络，结合注意力机制实现对空间和通道中不同特征的加权提取，针对研究目标有丝分裂细胞的形态学特征，对SE模块中的squeeze操作进行改进，同时兼顾纹理信息和背景信息。综合以上特点，分割网络SEAttUnet能够实现对不同的通道及特征图的空间位置中的注意力重新分布，提升模型的分割效果；

通过分割网络得到分割后以patch为单位的二值mask分割结果。将所有分割结果patch级图片，根据之前记录的坐标信息还原到HPF级别，再经过连通域筛选、腐蚀膨胀的操作，过滤掉一些噪声，得到了HPF级别的分割二值图；

上一步骤中得到的HPF图中，可以获取到所有有丝分裂候选细胞的轮廓、位置等信息，根据以上信息计算出候选细胞所在的patch的中心坐标，并在原始图像中截取相应patch，作为候选细胞进行分类；

S3：分类阶段：在分类阶段，训练分类网络，分别训练三个分类网络用于分类，使用VGG11、VGG19以及ResNet-50分别训练，在测试时，各个网络会各自输出一个测试结果，不同的分类器对于相同的数据集中的预测结果并不完全相同，同一个待分类patch，在网络1的判定下类别为0类，在经过网络2的判定时，结果可能为1类，所以在第二阶段的分类时，采用了3个不同的分类网络，综合所有结果后进行输出，通过对每个网络的预测结果分配不同的权值，不同的分类器能够学习到的特征不同，同时在反复训练、测试的过程中，可以看到不同分类器对于同一个细胞的判断是不同的，根据不同网络的分类精度，分配不同的权值来调整各个网络在输出最终分类结果时所做的贡献；

针对分类结果进行融合，即上一步已经输出分类的类别，在结果的层面，进行综合考虑，分类模块中对三个网络的结果进行决策层面融合，使用投票法得出最后输出结果；

通过分类网络之后，能够筛选去大部分的错误检测的patches，剩下的patches就是最终的结果。将最终的结果进行还原、标记，就可以得到最终检测结果。

本发明的技术效果和优点：该乳腺癌H&E染色病理图像有丝分裂自动识别系统和方法，提出一种分割和分类级联的两阶段检测算法，在两阶段的方法中，第一阶段分割为第二阶段分类提供了有效的细胞候选范围，在分类阶段通过融合多个分类器实现对候选细胞的有效筛选，不断提升检测结果的评价指标，逐步达到最佳效果；

该乳腺癌H&E染色病理图像有丝分裂自动识别系统和方法，对于准确地分割和分类乳腺癌有丝分裂的细胞，特别是样本细胞数量稀少，特征复杂的，具有重要意义。

附图说明

图1为本发明的两阶段检测方法流程图，它由输入patches、分割网络、注意力机制、分类器、后处理和输出结果等以下几个部分组成；

图2为本发明的分割算法流程图，输入的是原始patches，输出的是HPF级分割结果。

图3为本发明的分类流程图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

为了解决提出的问题，本发明提供了如图1至图3所示的一种乳腺癌H&E染色病理图像有丝分裂自动识别系统，包括：

输入图像预处理模块：对原始图片进行按照预定的patch尺寸切割，并通过图片翻转、旋转等方式进行数据增强，通过数据增强操作可以有效改善数据中存在的正负样本不均衡或样本过少问题；

分割模块：所述分割模块包括：

候选细胞选取方法模块：用于将分割后结果按照其在预处理阶段截取的patch坐标信息来重建出属于原始尺寸的图像；

分类模块：所述分割模块包括：

所述分类模块包括：

一种乳腺癌H&E染色病理图像有丝分裂自动识别系统的方法，其特征在于：具体步骤如下：

S1：数据预处理：首先训练数据处理获得分割网络的训练数据，我们使用的是像素级别标注的数据集，通过像素点位置标注获得与其相对应的mask二值图，并根据mask切割对应的RGB图像，获得对应有丝分裂的patches和非有丝分裂patches作为训练数据，主要通过以下方式实现：

1)获得分割网络的训练数据：我们使用的是像素级别标注的数据集，通过像素点位置标注获得与其相对应的mask二值图，并根据mask切割对应的RGB图像，获得对应有丝分裂的patches和非有丝分裂patches作为训练数据；

2)测试数据处理：我们将用于测试的数据同样进行裁剪操作，将其裁剪成与训练数据相同的大小，由于原HPF的尺寸并不能保证无重叠完整切割，我们采取了先填补后裁剪的方式，在HPF边缘外圈根据需要进行填补相应的尺寸，在切割之前，根据原HPF边长a和切割后patch的边长b计算得到需要填补的尺寸大小c，在边缘区域将长×宽为a×c的长条块复制并填补到边缘区域，右下角的小正方形区域的填补块，选择在原HPF右下角c×c同样大小区域进行复制，经过上述操作就可以得到一个可不重叠完全切割的HPF图像，之后，将所有测试集从左上角按照顺序切割，就能得到所有的用于测试的patch；

S2：分割阶段：构建一个基于Attention U-Net的分割网络，结合注意力机制实现对空间和通道中不同特征的加权提取，针对研究目标有丝分裂细胞的形态学特征，对SE模块中的squeeze操作进行改进，同时兼顾纹理信息和背景信息，综合以上特点，分割网络SEAttUnet能够实现对不同的通道及特征图的空间位置中的注意力重新分布，提升模型的分割效果；

通过分割网络得到分割后以patch为单位的二值mask分割结果，主要通过以下方式实现：

注意力机制：SE模块是注意力机制的一种实现方式，是将Squeeze和Excitation两部分操作结合的一个block。在训练过程中，通过网络提取的特征会分布在不同的通道中，SE模块是针对通道层面设置的注意力机制，实现对不同通道的特征图来分配不同权重的过程。Excitation操作后得到的矩阵即为通道特征权重矩阵，将该矩阵中的值与原来的特征图U进行乘法操作，即完成了通道层面的注意力分布，操作如以下公式：

式中，X'——经过SE模块后的特征图

——通道相乘

实验中SE模块插入U-Net网络中的卷积操作中，在编码和解码的过程中重新分配对各个特征通道之间的联系；

使用的是结合了注意力机制的U-Net分割网络，通过引入SE模块来增加对通道，整体的网络框架以U-Net为基础框架，在跳跃连接部分加入了注意力机制的思想，该注意力模块是通过一个attention gate实现的，所使用的分割网络实现了对U-Net分割过程中对于特征中位置信息注意力的重新分布，在此基础上，我们引入SE模块，实现对不同通道中的权重进行重新调整，引入模块后，结合Attention_Unet中attention gate的功能，能够实现对不同的通道及特征图的空间位置中的注意力重新分布，提升模型的分割效果；

所述候选细胞选取方法模块用于将分割后结果按照其在预处理阶段截取的patch坐标信息来重建出属于原始图像的mask图像，主要通过以下方式实现：

1)后处理：经过分割网络之后我们会得到分割后以patch为单位的二值mask分割结果，首先要将所有分割结果patch级图片，根据之前记录的坐标信息还原到HPF级别，再经过连通域筛选、腐蚀膨胀的操作，过滤掉一些噪声，得到最终HPF级别的分割结果图，

2)输出分割结果：通过裁剪、预测、还原操作，得到了HPF级别的分割二值图，从图中可以获取到所有有丝分裂候选细胞的轮廓、位置等信息，为进一步分类做好了准备；

S3：分类阶段：在分类阶段，训练分类网络，分别训练三个分类网络用于分类，使用VGG11、VGG19以及ResNet-50分别训练，在测试时，各个网络会各自输出一个测试结果。不同的分类器对于相同的数据集中的预测结果并不完全相同。同一个待分类patch，在网络1的判定下类别为0类，在经过网络2的判定时，结果可能为1类，所以在第二阶段的分类时，采用了3个不同的分类网络，综合所有结果后进行输出，通过对每个网络的预测结果分配不同的权值，不同的分类器能够学习到的特征不同，同时在反复训练、测试的过程中，可以看到不同分类器对于同一个细胞的判断是不同的，根据不同网络的分类精度，分配不同的权值来调整各个网络在输出最终分类结果时所做的贡献；

通过分类网络之后，能够筛选去大部分的错误检测的patches，剩下的patches就是最终的结果。将最终的结果进行还原、标记，就可以得到最终检测结果；

进一步地，我们最终得到乳腺癌的有丝分裂细胞病理学图像核分割和分类结果。

需要说明的是，在本文中，诸如一和二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。由语句“包括一个......限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素”。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种乳腺癌H&E染色病理图像有丝分裂自动识别系统，其特征在于：包括：

输入图像预处理模块：对原始图片进行按照预定的patch尺寸切割，并通过图片翻转、旋转方式进行数据增强；

所述原始图片通过像素点位置标注获得mask二值图；

获得分割网络的训练数据：使用像素级别标注的数据集，通过所述像素点位置标注获得与其相对应的所述mask二值图，并根据mask切割对应的RGB图像，获得对应有丝分裂的patches和非有丝分裂patches作为训练数据；

分类模块：分别训练三个分类网络用于分类并对三个网络的结果进行决策层面融合，使用投票法得出最后输出结果，再将最终的结果进行还原、标记，就可以得到最终检测结果；

所述分割模块包括注意力分割网络模块和候选细胞选取方法模块；

所述分类模块包括三分支分类网络模块、决策融合算法模块和分类结果标记模块；

所述注意力分割网络模块引入了SE模块：

构建一个基于Attention U-Net的分割网络，结合注意力机制实现对空间和通道中不同特征的加权提取，针对研究目标有丝分裂细胞的形态学特征，对SE模块中的squeeze操作进行改进，同时兼顾纹理信息和背景信息；综合以上特点，分割网络SEAttUnet能够实现对不同的通道及特征图的空间位置中的注意力重新分布。

2.根据权利要求1所述的一种乳腺癌H&E染色病理图像有丝分裂自动识别系统的方法，其特征在于：具体步骤如下：

S1：数据预处理：对数据进行裁剪操作，裁剪后的边长为64，由于原HPF的尺寸并不能保证无重叠完整切割，采取了先填补后裁剪的方式，在HPF边缘外圈根据需要进行填补相应的尺寸，在切割之前，根据原HPF边长a和切割后patch的边长b计算得到需要填补的尺寸大小c，在边缘区域将长×宽为a×c的长条块复制并填补到边缘区域，右下角的小正方形区域的填补块，选择在原HPF右下角c×c同样大小区域进行复制，经过上述操作就可以得到一个可不重叠完全切割的HPF图像，之后，将所有测试集从左上角按照顺序切割，就能得到所有的用于测试的patch；

S2：分割阶段：

通过分割网络得到分割后以patch为单位的二值mask分割结果；将所有分割结果patch级图片，根据之前记录的坐标信息还原到HPF级别，再经过连通域筛选、腐蚀膨胀的操作，过滤掉一些噪声，得到了HPF级别的分割二值图；

上一步骤中得到的HPF图中，可以获取到所有有丝分裂候选细胞的轮廓、位置信息，根据以上信息计算出候选细胞所在的patch的中心坐标，并在原始图像中截取相应patch，作为候选细胞进行分类；

通过分类网络之后，能够筛选去大部分的错误检测的patches，剩下的patches就是最终的结果；将最终的结果进行还原、标记，就可以得到最终检测结果。