CN112102250A

CN112102250A - 训练数据为缺失标注的病理图像检测模型建立、检测方法

Info

Publication number: CN112102250A
Application number: CN202010842857.3A
Authority: CN
Inventors: 冯筠; 韩鑫; 李涵生
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-12-18
Anticipated expiration: 2040-08-20
Also published as: CN112102250B

Abstract

本发明公开了训练数据为缺失标注的病理图像的检测模型建立、检测方法，首先将病例图像进行预处理，然后构建检测网络，最后训练检测网络，得到检测模型；在检测待处理的病例图像时，将待处理的病理图像输入检测模型中，得到建议框类别，以此判断该建议框是否包含待检测物体。本发明通过在现有的基于区域的目标检测网络中引入分割模型和建议框标签更新模块，通过该分割模型的输出对建议框的标签进行校正，挖掘出潜在的阳性建议框。解决了缺失标注而导致建议框的标签发生错误分配的问题。本发明采用这种协同监督的训练方法，提升了模型的精度和检测准确率。

Description

训练数据为缺失标注的病理图像检测模型建立、检测方法

技术领域

本发明属于医学图像分析技术领域，涉及一种训练数据为缺失标注病理图像的检测模型建立、检测方法。

背景技术

随着卷积神经网络的发展，近年来，目标检测网络的准确率和效率不断得到提高,其中基于区域的全监督目标检测方法一直表现出最佳的性能，与此同时，这些方法也被广泛应用于病理图像分析中，比如异常细胞检测或者红细胞检测等。另一方面，基于区域的全监督检测方法的快速发展得益于可用的具有精确实例级标注框的大型数据，但是，收集这样的数据需要花费大量的时间和劳动力，尤其是病理数据，需要经验丰富的病理科医生来完成数据标注的任务。更重要的是，目标检测网络的性能高度依赖训练集的标注质量。比如，训练集中存在的缺失标注(没有被标注框标注出的待检测目标)会对全监督目标检测网络的性能造成极大的影响，而且这种问题会随着数据集的增大变得更加严重。

挖掘伪标签通常作为解决缺失标注问题的方法，人们通常使用检测器生成的高得分预测边界回归框作为伪标签。通过挖掘数据中的伪标签，可以有效的提升检测器的性能。Diba和Tang通过级联网络的方式挖掘伪标签并用于训练Faster-RCNN，取得了不错的性能。为了挖掘到更准确的伪标签，Xu提出一种混合监督的方式，在训练过程中结合了图像级标注和实例级标注共同监督训练伪标签的生成器。但是，病理图像中往往包含更多的细粒度特征，结合图像级的标注并不是最优的。并且伪标签挖掘方法往往需要采用多阶段的训练方式或者利用额外标注的一批精确数据训练伪标注生成器，整个训练过程无法实现端到端的方式，导致整个训练过程中引入了太多不可控因素。

此外，虽然通过伪标签方法在训练过程中添加额外的精确的实例级标注可以提升网络的性能，但是之前的研究没有讨论过在训练基于区域的目标检测网络时，训练数据中未使用边界框标注出的对象是否会对训练过程产生影响。在基于区域的目标检测网络的训练过程中，首先会通过区域建议方法生成建议区域来对目标位置进行假设，可能有对象存在的区域会被大量的建议框所包围，然后给生成的建议区域分配标签，与标注高度重合的建议会被分配阳性标签，与标注重合度低的或者不与任何一个标注重合的建议区域会被分配阴性标签。在这样的标签分配机制下，如果训练数据中存在未被标注出得对象，会产生一种矛盾，围绕在未被标注出的对象周围的建议框中的特征属于待检测目标，但这部分建议框会被分配阴性的标签，导致模型的训练过程发生混乱，影响模型的性能，使得病理图像检测结果不准确。

发明内容

为解决现有技术中存在的不足，本发明提供了一种训练数据为缺失标注的病理图像的检测模型建立、检测方法，解决现有的检测方法中存在建议框标签错误分配而使得检测结果不准确的问题。

为了解决上述技术问题，本发明采用如下技术方案予以实现：

训练数据为缺失标注病理图像的检测模型建立方法，包括以下步骤：

步骤1，图像预处理

步骤1.1，对图像数据进行扩充，得到扩充后的图像；

步骤1.2，对扩充后的图像中的实例级标注框进行填充生成掩模图像，并对掩模图像进行重编码，得到重编码后的掩模图像；

步骤2，构建检测网络；所述的检测网络包括特征图提取模块、建议框生成模块、建议框标签分配模块、分割模块、建议框标签更新模块和建议框分类模块，其中，

特征图提取模块用于提取步骤1.1中扩充后的图像的特征图；

建议框生成模块用于生成特征图提取模块得到的特征图上的建议框；

建议框标签分配模块用于计算建议框生成模块得到的每个建议框与步骤1.2中所有实例级标注框的第一交并比，将第一交并比最大值大于第一阈值的建议框标记阳性标签，将第一交并比最大值小于第二阈值的建议框标记阴性标签；

其中，第一阈值大于第二阈值；第一交并比＝S_交/(S_建+S_实-S_交)，S_建为建议框的面积，S_实为实例级标注框的面积，S_交为建议框与实例级标注框相交的面积；

分割模块用于对特征提取模块的特征图进行解码，得到分割结果；

建议框标签更新模块用于计算建议框标签分配模块中每个标记阴性标签的建议框与分割模块中所有分割结果的第二交并比，将第二交并比的最大值大于第一阈值的标记阴性标签的建议框更新为标记阳性标签的建议框，得到最终的建议框标签；

其中，第二交并比＝S′_交/(S_建+S_分-S′_交)，S_分为分割结果的面积，S′_交为阴性建议框与分割结果相交的面积；

建议框分类模块用于对最终的建议框标签进行分类，得到建议框的类别；

步骤3，将步骤1.1的扩充后的图像和步骤1.2重编码后的掩模图像作为输入，训练步骤2的检测网络，得到检测模型。

优选的，所述的特征图提取模块为FPN网络结构；所述的分割模块包括两个3×3的卷积层。

优选的，所述的建议框生成模块为RPN网络结构；所述的建议框分类模块网络结构包括一个3×3的卷积和两个全连接层。

具体的，所述的第一阈值为0.7～0.9；所述的第二阈值为0.1～0.3。

本发明还公开了一种训练数据为缺失标注病理图像的检测模型建立系统，包括：

图像预处理模块，包括图像扩充模块和重编码模块，其中，图像扩充模块用于对图像数据进行扩充，得到扩充后的图像；重编码模块用于对扩充后的图像中的实例级标注框进行填充生成掩模图像，并对掩模图像进行重编码，得到重编码后的掩模图像；

检测网络构建模块，用于构建检测网络；所述的检测网络包括特征图提取模块、建议框生成模块、建议框标签分配模块、分割模块、建议框标签更新模块和建议框分类模块，其中，

特征图提取模块用于提取图像预处理模块中扩充后的图像的特征图；

建议框标签分配模块计算建议框生成模块的每个建议框与重编码模块中所有实例级标注框的第一交并比；将第一交并比最大值大于第一阈值的建议框标记阳性标签，将第一交并比最大值小于第二阈值的建议框标记阴性标签；

建议框标签更新模块用于计算建议框标签分配模块中每个标记阴性标签的建议框与分割模块的所有分割结果的第二交并比，将第二交并比的最大值大于第一阈值的标记阴性标签的建议框更新为标记阳性标签的建议框，得到最终的建议框标签；

检测模型训练模块，用于将图像预处理模块得到的扩充后的图像和掩模图像作为输入，训练检测网络构建模块中的检测网络，得到检测模型。

优选的，所述的建议框生成模块为RPN网络结构；所述的建议框分类模块网络结构为包括一个3×3的卷积和两个全连接层。

本发明还公开了一种病理图像的检测方法，包括以下步骤：

步骤1，对待处理的病理图像，进行本发明上述步骤1.1的预处理，得到扩充后的图像；

步骤2，将步骤1得到的图像输入到本发明得到的检测模型中，得到建议框类别。

本发明还公开了一种病理图像的检测系统，包括：

图像预处理模块，对待处理的病理图像，进行本发明上述步骤1.1的预处理，得到扩充后的图像；

检测模块，将图像预处理模块得到的图像输入到本发明得到的检测模型中，得到建议框类别。

与现有技术相比，本发明的有益效果是：

本发明方法不需要挖掘实例级的伪标注，而是挖掘阴性建议框中潜在的阳性建议框，来缓解缺失标注导致的标签错误分配问题对模型性能的影响。具体来说，是通过在现有的基于区域的目标检测网络(FPN+Faster RCNN)中引入分割模型和建议框标签更新模块，通过该分割模型的输出对建议框的标签进行校正，挖掘出潜在的阳性建议框。解决了缺失标注而导致建议框的标签发生错误分配的问题。本发明采用这种协同监督的训练方法，提升了模型的精度和检测准确率。

附图说明

图1是本发明的检测模型训练方法流程图。

图2是本发明的检测模型训练系统结构。

图3是本发明实施例中的原始病理图像及掩模图像，其中(a)图为原始图像，(b)图为掩模图像。

图4是本发明方法在原始数据集和缺失标注的数据集上训练时的输出结果，其中(a)列图为原始图像，(b)列图为原始图像对应的输出结果，(c)列图为缺失标注图像对应的输出结果。

图5是本发明检测方法与传统的检测方法得到的检测结果，其中，(a)为待检测的原始图像，(b)为本发明检测方法的结果，(c)为FPN+fasterRCNN模型的检测结果。

具体实施方式

本发明中的“实例级标注框”表示训练检测模型时的标注，以矩形框的坐标表示的形式给出待检测目标在对应图像中的位置。

本发明中的“建议框”是指一种用于假设待检测目标所在位置的用坐标表示的矩形框。生成建议框后，检测模型会对建议框中的内容进行分类，判断该建议框是否包含待检测物体。

以下给出本发明的具体实施例，需要说明的是，本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

实施例1

本实施例公开了一种训练数据为缺失标注的病理图像的检测模型建立方法，流程如图1所示。具体包括以下步骤：

步骤1，图像的预处理

步骤1.1，对病理图像数据进行扩充，得到扩充后的图像；

病理图像在制作过程中会受到各种因素的影响，比如制作载玻片时所用的染色剂浓度，以及数字扫描的亮度差异，都会造成病理图像中的不同切片甚至相同切片中相同语义类别的区域像素差异极大。为了使模型在训练过程中可以适应数据中像素值不一致的问题，本发明通过随机的色彩变化对数据进行了扩充，使得训练数据中图像的颜色信息更加丰富。

在本实施例中，对输入图像中的每个通道中的像素值进行0到15范围内的随机加减操作，获得数据扩充后的图像。

步骤1.2，在下面检测网络构建中，需要对分割模块进行训练，分割模块的作用主要在于在训练过程中定位对象所在的位置，不需要完美得分割出对象的边界。因此，本发明直接对扩充后的图像中的实例级标注框进行填充生成掩模图像，并对掩模图像进行重编码，得到重编码后的掩模图像。将重编码后的掩膜图像作为训练分割模块的标注信息。

在本实施例中，图像中的背景区域用0进行填充，而图像中的前景区域用1进行填充。然后对填充后的图像进行重编码，掩模图像的像素值为0的点编码为01，像素值为1的点编码为10；这样不仅能够使网络同时学习到目标的特征，同时也能学习到背景区域的特征。

图3中(a)图所示为原始的图像，其中矩形框标注的部分为实例级标注，(b)图所示为(a)图的掩模图像。

步骤2，构建检测网络；具体的检测网络包括特征图提取模块、建议框生成模块、建议框标签分配模块、分割模块、建议框标签更新模块和建议框分类模块，其中，

(2.1)特征图提取模块，用于提取步骤1.1中扩充后的图像的特征图。本实施例中特征图提取模块使用FPN网络结构，采用resnet101算法实现，并取网络的五个中间输出的特征层用于构建特征金字塔。通过该网络中的卷积层和池化层提取特征。

(2.2)建议框生成模块，用于生成特征图上的建议框，其中，建议框以坐标信息形式呈现。本实施例中建议框生成模块为RPN网络结构，特征图提取模块中的五个中间输出层的特征分别输入到RPN后生成建议框。

(2.3)建议框标签分配模块，用于计算每个建议框与步骤2中所有实例级标注框的第一交并比。其中，第一交并比＝S_交/(S_建+S_实-S_交)，S_建为建议框的面积，S_实为实例级标注框的面积，S_交为建议框与实例级标注框相交的面积。

本发明中，一个原始图像中有多个实例级标注框以及多个建议框，两者的数量不一定对应，每个建议框均与多个实例级标注框计算第一交并比，一个建议框对应一组第一交并比值，在一组第一交并比值中，将第一交并比最大值大于第一阈值的建议框标记阳性标签，称为阳性建议框；将第一交并比最大值小于第二阈值的建议框标记阴性标签，称为阴性建议框；若第一交并比的值不属于第一阈值和第二阈值的范围内，该建议框不作任何处理。

第一交并比越高，说明该建议框与实例级标注框的重叠度越高，建议框所包围的区域的特征也就更接近待检测目标的特征。最后，建议框被标注为阴性和阳性不同的标签。

其中，第一阈值大于第二阈值，本发明优选的，第一阈值为0.7～0.9；所述的第二阈值为0.1～0.3。本实施例中，第一阈值为0.7，第二阈值为0.3。

(2.4)分割模块，用于对特征提取模块的特征图进行解码，得到分割结果，即分割区域。本实施例采用两个3×3的卷积层对特征图进行解码。

(2.5)建议框标签更新模块，用于计算(2.2)建议框生成模块中每个标记阴性标签的建议框与(2.4)分割模块的所有分割结果的第二交并比。其中，第二交并比＝S′_交/(S_建+S_分-S′_交)，S_分为分割结果的面积，S′_交为阴性建议框与分割结果(即分割区域)相交的面积。

当某个阴性建议框与分割结果的交并比值高于第一阈值(本实施例为0.7)时，则认为这个阴性建议框中包含的特征更加接近待检测目标，否则不做处理。因此，将第二交并比的最大值大于第一阈值的标记阴性标签的建议框更新为标记阳性标签的建议框。最后得到最终的建议框标签。

(2.6)建议框分类模块，用于对最终的建议框标签进行分类，得到建议框的类别。本实施例的建议框分类模块网络结构包括一个3×3的卷积和两个全连接层。

步骤3，将步骤1的扩充后的图像和掩模图像作为输入，训练步骤2的检测网络，具体为：当训练次数达到预先设定的训练次数或者当检测网络的输出与实例级标注框的差异小到一定程度时停止训练，得到检测模型。

本实施例中，采用的数据集为从医院获取的癌栓病理图像以及公开数据集MITOS-ATYPIA-14。在MITOS-ATYPIA-14数据集上，该检测网络训练步数为3000步，初始学习律为0.001，然后在2000步和2500步时分别除以10。在癌栓数据集上，该检测网络训练了14000步，学习率在7000步和11000步时分别除以10。最终得到检测模型。

进一步的，本发明还构建损失函数来优化检测模型的参数；具体的，本发明所采用的损失函数由四部分组成，包括分类损失函数、边界框回归损失函数、建议框生成模块损失函数L_RPN以及分割模块损失函数。

Loss_Total＝L_mcls(p,q)+L_loc+L_RPN+L_segment(u,v) (1)

L_mcls为交叉熵损失函数，用于计算检测网络中分类模块的损失，其中p为softmax函数输出的概率分布，q为one-hot格式的融合标签；L_loc为目标检测任务中常用的回归损失；L_segment为交叉熵损失函数。

实施例2

本实施例公开了一种训练数据为缺失标注的病理图像的检测模型建立系统，该系统包括图像预处理模块、检测网络构建模块与检测模型训练模块。其结构组成如图2所示。

(1)图像预处理模块，包括图像扩充模块和重编码模块，其中，

(1.1)图像扩充模块，用于对图像数据进行扩充，得到扩充后的图像；

(1.2)重编码模块，用于对扩充后的图像中的实例级标注框进行填充生成掩模图像，并对掩模图像进行重编码，得到重编码后的掩模图像。

本实施例的重编码和图像扩充方法同实施例1。

(2)检测网络构建模块，用于构建检测网络。具体的，本实施例的检测网络包括特征图提取模块、建议框生成模块、建议框标签分配模块、分割模块、建议框标签更新模块和建议框分类模块，其中，

(2.1)特征图提取模块，用于提取图像预处理模块中扩充后的图像的特征图。

本实施例中特征图提取模块采用resnet101网络结构，并取网络的五个中间输出的特征层用于构建特征金字塔。通过该网络中的卷积层和池化层提取特征。

(2.2)建议框生成模块，用于生成特征图上的建议框。其中，建议框以坐标信息形式呈现。本实施例中建议框生成模块为RPN网络结构，特征图提取模块中的五个中间输出层的特征分别输入到RPN后生成建议框。

(2.3)建议框标签分配模块，用于计算每个建议框与重编码模块中所有实例级标注框的第一交并比。

其中，第一交并比＝S_交/(S_建+S_实-S_交)，S_建为建议框的面积，S_实为实例级标注框的面积，S_交为建议框与实例级标注框相交的面积。

将第一交并比最大值大于第一阈值的建议框标记阳性标签，称为阳性建议框，将交并比最大值小于第二阈值的建议框标记阴性标签，称为阴性建议框。本发明优选的，第一阈值为0.7～0.9；所述的第二阈值为0.1～0.3。本实施例中，第一阈值为0.7，第二阈值为0.3。

(2.5)建议框标签更新模块，用于计算(2.2)建议框生成模块中每个标记阴性标签的建议框与(2.2)分割模块的所有分割结果的第二交并比。

其中，第二交并比＝S′_交/(S_建+S_分-S′_交)，S_分为分割结果的面积，S′_交为阴性建议框与分割结果(即分割区域)相交的面积。

将第二交并比的最大值大于第一阈值(本实施例为0.7)的标记阴性标签的建议框更新为标记阳性标签的建议框。最后得到最终的建议框标签。

(3)检测模型训练模块，用于将图像预处理模块得到的扩充后的图像和掩模图像作为输入，训练检测网络构建模块中的检测网络，具体为：当训练次数达到预先设定的训练次数或者当检测网络的输出与实例级标注框的差异小到一定程度时停止训练，得到检测模型。

本发明在癌栓数据集和MITOS-ATYPIA-14数据集上，采用四折交叉验证方法，将本发明的检测方法与现有的FPN+Faster RCNN方法的检测效果进行了对比。首先对数据集进行介绍：

癌栓数据集：数据集由专业的组织病理学家进行标注，全片组织学图像(WSIs)为用D2-40染料染色。然后从WSIs中取样包含癌栓区域的尺寸为1024*1024像素的小图，这样的小图有共1737个小块。此外，为了评估本发明方法在数据集中包括缺失标注下的表现，随机删除数据集中的标注，每张图片中只包含了一个实例级标注，用于模拟包含缺失标注数据集。只是在训练集上会进行这样的处理，测试集上的标注是完整的，这样的数据作为缺失标注的数据。

图4所示为本发明方法在原始数据集和缺失标注的数据集上的检测结果，其中，图4中(a)列图片为原始的图像，其中虚线矩形框为原始数据中被随机删除的标注，实线矩形框为保留的标注。(b)列图片为本发明方法在原始作为输入时的输出结果，(c)列图片为本发明方法在缺失标注后的图片作为输入时的输出结果。

可以看出，本发明方法在原始数据上训练时，分割出的阳性建议框能与实例级标注框的位置高度重合，这样的结果可以证明本发明方法在不包含缺失标注的数据或包含少量缺失标注的数据上不会产生负面影响。在缺失标注数据集上训练时，输出的阳性建议框中不仅包含了与实例级标注框高度重合的区域，在未被标注出的对象所在的区域，同样会输出阳性区域，说明了本发明方法具备挖掘出潜在的阳性区域的能力。

表1所示为本发明的检测方法与现有的FPN+Faster RCNN方法在癌栓数据上的检测准确率结果。

MITOS-ATYPIA-14数据集：在MITOS-ATYPIA-14数据集中，包含了393个分辨率为1663*1485像素的小图，三名病理学家用关键点对其中的有丝分裂进行了标注和核对，尽可能的保证了标注的正确性。为了利用该数据进行目标检测的任务，本发明以每一个关键点为中心生成了32*32个边界框，作为实例级标注。同样，也在实验中对训练数据进行了随机删除实例级标注的处理。表2所示为本发明的检测方法与现有的FPN+Faster RCNN方法在MITOS-ATYPIA-14数据集上的检测准确率结果。

从表1和表2可以看出，本发明方法具有更高的检测准确率。

表1癌栓数据上的效果对比

表2 MITOS-ATYPIA-14数据集上的效果对比

以下给出本发明的检测模型用于检测病例图像的实施例。

实施例3

本实施例公开了一种病理图像的检测方法，该检测方法包括以下步骤：

步骤1，对待处理的病理图像，如图5中(a)图所示，进行实施例1的步骤1的预处理，得到扩充后的图像；

步骤2，将步骤1得到的图像输入到实施例1得到的检测模型中，得到建议框类别。如图5中(b)图所示。

可根据建议框的类别，判断建议框中是否包含待检测目标。如建议框标注阳性标签，说明建议框所包围的区域的特征更接近待检测目标的特征。通过该结果，可以在人工判断病理图像时给出一定的辅助作用。

另外，本发明还使用传统的FPN+faster RCNN检测模型对图5中(a)图进行检测，结果如图5中(c)图所示。可以看出，本发明检测方法的检测结果更加准确，检出率更高。

实施例4

本实施例公开了一种病理图像的检测方法系统，该系统包括：

图像预处理模块，对待处理的病理图像，进行实施例1的步骤1的预处理，得到扩充后的图像；

检测模块，将图像预处理模块得到的图像输入到实施例1得到的检测模型中，得到建议框类别。

Claims

1.训练数据为缺失标注病理图像的检测模型建立方法，其特征在于，包括以下步骤：

步骤1，图像预处理

步骤1.1，对图像数据进行扩充，得到扩充后的图像；

特征图提取模块用于提取步骤1.1中扩充后的图像的特征图；

步骤3，步骤1.1的扩充后的图像和步骤1.2重编码后的掩模图像作为输入，训练步骤2的检测网络，得到检测模型。

2.如权利要求1所述的训练数据为缺失标注病理图像的检测模型建立方法，其特征在于，所述的特征图提取模块为FPN网络结构；所述的分割模块包括两个3×3的卷积层。

3.如权利要求1所述的训练数据为缺失标注病理图像的检测模型建立方法，其特征在于，所述的建议框生成模块为RPN网络结构；所述的建议框分类模块网络结构包括一个3×3的卷积和两个全连接层。

4.如权利要求1所述的训练数据为缺失标注病理图像的检测模型建立方法，其特征在于，所述的第一阈值为0.7～0.9；所述的第二阈值为0.1～0.3。

5.训练数据为缺失标注病理图像的检测模型建立系统，其特征在于，包括：

6.如权利要求5所述的训练数据为缺失标注病理图像的检测模型建立系统，其特征在于，所述的特征图提取模块为FPN网络结构；所述的分割模块包括两个3×3的卷积层。

7.如权利要求1所述的训练数据为缺失标注病理图像的检测模型建立系统，其特征在于，所述的建议框生成模块为RPN网络结构；所述的建议框分类模块网络结构为包括一个3×3的卷积和两个全连接层。

8.如权利要求1所述的训练数据为缺失标注病理图像的检测模型建立系统，其特征在于，所述的第一阈值为0.7～0.9；所述的第二阈值为0.1～0.3。

9.一种病理图像的检测方法，其特征在于，包括以下步骤：

步骤1，对待处理的病理图像，进行权利要求1中步骤1.1的预处理，得到扩充后的图像；

步骤2，将步骤1得到的图像输入到权利要求1得到的检测模型中，得到建议框类别。

10.一种病理图像的检测系统，其特征在于，包括：

图像预处理模块，对待处理的病理图像，进行权利要求1中步骤1.1的预处理，得到扩充后的图像；

检测模块，将图像预处理模块得到的图像输入到权利要求1得到的检测模型中，得到建议框类别。