CN113379773A

CN113379773A - 基于双重注意力机制的分割模型建立、分割方法及装置

Info

Publication number: CN113379773A
Application number: CN202110590827.2A
Authority: CN
Inventors: 谢飞; 郜刚; 章盼盼
Original assignee: Shaanxi Great Wisdom Medical Care Technology Co ltd
Current assignee: Shaanxi Great Wisdom Medical Care Technology Co ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-09-10
Anticipated expiration: 2041-05-28
Also published as: CN113379773B

Abstract

本发明属于医疗影像分割领域，公开了一种基于双重注意力机制的分割模型建立、分割方法及装置，分割方法用于获取原始医学图像数据集，对每张原始医学图像标注类别和目标区域获得带标签的医学图像数据集；建立Mask R‑CNN分割网络，Mask R‑CNN分割网络包括特征金字塔网络和双重注意力模块，的双重注意力模块设置在特征金字塔网络的残差块中，的双重注意力模块包括串联的通道关注模块和空间关注模块且的双重注意力模块设置在特征金字塔网络中的卷积残差块和恒等残差块之中；利用带标签的医学图像数据集训练Mask R‑CNN分割网络，训练结束后获得基于双重注意力机制的分割模型。本发明引入了双重注意力机制，优化了分割的边界，而且能减少漏分割、误分割的现象。

Description

基于双重注意力机制的分割模型建立、分割方法及装置

技术领域

本发明属于医疗影像分割领域，具体涉及一种基于双重注意力机制的分割模型建立、分割方法及装置。

背景技术

随着计算机视觉的发展，特别是卷积神经网络表示能力的提升，图像分割领域已经取得了极大地发展，这为医疗影像的分割应用奠定了坚实的基础。生物医疗影像分割作为计算机辅助诊断的一项重要而又困难的工作，是进一步获取诊断信息的关键。在传统的诊疗系统中，医学图像分割需要专业的医生手动进行，不仅费时费力，还容易受主观因素的影响。然而基于深度学习进行的分割以其人类不可比拟的速度和越来越高的准确率正成为医生诊断的重要参考依据。但是，相较于普通图像的分割结果，临床诊断对医疗影像的分割结果的准确性提出了更高的要求，除此之外，医学图像的高变异性，形态结构的复杂性和模糊性以及稀缺的标注标签都对医学图像分割提出了极大地挑战。

随着深度卷积神经网络表示能力的不断提升，尤其是全卷积神经网络 (FCNs)的应用，医学图像的分割不断取得突破。例如，U-Net通过设计了一种‘U’形的网络和增加了一个对称的扩张路径去增强网络的定位表示能力，无论是需要的数据量，效率还是准确率，都明显优于先前的方法。U-net及其变体在CT和MRI等医学影像上表现良好，一方面原因是CT和MRI等的影像语义较为简单，结构较为固定，U-net的skip connection发挥了重要的作用，另一方面，U-net网络参数少，面对相对较少的医学数据集不容易过拟合。

由于影像中病灶的纹理、颜色、形态、大小变化各异，边界模糊不清楚，数量有限，因此，卷积神经网络能否提取有效特征信息成为准确分割的关键，此外，影像拍摄时的伪影，光照(例如光照的强度大小、反光等)，气泡，毛发遮挡，背景板，标尺等都给分割任务带来了重重困难。对于口腔白斑数据集来说，白斑分割任务难点在于形态表现出多样性，有颗粒状、皱纸状、疣状等，斑块的大小不一，界限与周围组织不明显，发生部位多变等。更具有挑战的是，白斑分割任务只能依靠二维图像提供的信息，难以综合利用诸如质感、触感等其他维度更抽象的信息。

发明内容

本发明的目的在于提供一种基于双重注意力机制的分割模型建立、分割方法及装置，用以解决现有技术中的病灶区域的特征提取能力较弱，分割结果不精确的问题。

为了实现上述任务，本发明采用以下技术方案：

一种基于双重注意力机制的分割模型建立方法，包括如下步骤：

步骤1：获取原始医学图像数据集，对每张原始医学图像标注类别和目标区域获得带标签的医学图像数据集；

步骤2：建立Mask R-CNN分割网络，所述Mask R-CNN分割网络包括特征金字塔网络和双重注意力模块，所述的双重注意力模块设置在特征金字塔网络的残差块中，所述的双重注意力模块包括串联的通道关注模块和空间关注模块且所述的双重注意力模块设置在特征金字塔网络中的卷积残差块和恒等残差块之中；

步骤3：利用带标签的医学图像数据集训练Mask R-CNN分割网络，训练结束后获得基于双重注意力机制的分割模型。

进一步的，对每张原始医学图像标注目标区域包括两种情况，情况一为对原始医学图像标注目标形状获得像素级标注医学图像数据集作为带标签的医学图像数据，情况二为对每张原始医学图像利用box标注目标所在矩形框获得目标框级标注医学图像数据集作为带标签的医学图像数据。

一种基于双重注意力机制的分割方法，包括如下步骤：

步骤一：获取待分割原始医学图像；

步骤二：采用如基于双重注意力机制的分割模型建立方法获得基于双重注意力机制的分割模型；

步骤三：若训练步骤二中模型的标签集为像素级标注医学图像数据集，则将待分割原始医学图像输入基于双重注意力机制的分割模型中，获得待分割原始医学图像的目标形状和类别；

若训练步骤二中模型的标签集为目标框级标注医学图像数据集，则将待分割原始医学图像输入基于双重注意力机制的分割模型中，获得待分割原始医学图像的目标框和类别，将待分割原始医学图像的目标框依次进行GrabCut和 ConvCRF，获得待分割原始医学图像的目标形状。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如基于双重注意力机制的分割方法。

一种基于双重注意力机制的分割装置，该装置包括处理器和用于存储能够在处理器上运行的多个功能模块的存储器，所述功能模块包括基于双重注意力机制的分割模型和分割模块；

所述的基于双重注意力机制的分割模型采用如权利要求2的基于双重注意力机制的分割模型建立方法获得；

所述的分割模块用于获取待分割原始医学图像，若训练基于双重注意力机制的分割模型的标签集为像素级标注医学图像数据集，则将待分割原始医学图像输入基于双重注意力机制的分割模型中，获得待分割原始医学图像的目标形状和类别；若训练基于双重注意力机制的分割模型的标签集为目标框级标注医学图像数据集，则将待分割原始医学图像输入基于双重注意力机制的分割模型中，获得待分割原始医学图像的目标框和类别，将待分割原始医学图像的目标框依次进行GrabCut和ConvCRF，获得待分割原始医学图像的目标形状。

本发明与现有技术相比具有以下技术特点：

(1)本发明在Mask RCNN中引入了双重注意力机制，提出了Att-Mask RCNN网络，增强对病灶区域的特征提取能力。通过注意力机制，使网络专注于重要的特性，抑制了不必要的特性，这种方式增加了卷积网络的表示能力。通过调整特征图，网络不仅表现更好，而且对噪声输入有更强的鲁棒性。实验证明，注意力机制不仅可以优化分割的边界，而且能减少漏分割、误分割的现象。

(2)针对医学图像的分割难点，常规分割网络难以有效提取感兴趣的区域特征，分割表现受限的挑战，本发明引入了双重注意力机制，提出了Att-Mask RCNN网络。该网络将弱监督分割采用框级别的标注作为输入标签，充分利用分割性能优秀同时具备目标检测能力，舍弃了强监督分割分支，增加了一个弱监督分割分支来实现最终的弱监督分割目标。框级别标注最大的优点是可以训练出较好的定位能力，锚定目标的位置。

(3)本发明构建了一个端到端的医学图像分割框架，可以进行准确的病灶分割，实现了计算机辅助诊断，为医生的诊断提供重要的参考信息；

(4)针对医学影像强监督分割标注效率低下，成本昂贵的问题，我们提出了一种基于框级别标注的弱监督分割网络，实现了媲美强监督分割效果。

附图说明

图1为基于双重关注机制的医学影像分割框架；

图2为双重关注整体结构；

图3为恒等残差块和卷积残差块示意图；

图4为全监督分割方法和弱监督方法在ISIC 2018数据集中的分割结果展示；

图5为全监督分割方法和弱监督分割方法在口腔白斑数据集中的分割结果展示；

图6为对比例中加入双重注意力机制的医学影像分割框架。

具体实施方式

ResNets：由何凯明等人在2015年发表的论文《Deep Residual Learning forImage Recognition》中提出，中文名字叫作深度残差网络，主要作用是图像分类。现在在图像分割、目标检测等领域都有很广泛的运用，成为基础的骨干网络，根据网络层数的划分，分为ResNet18,ResNet34,ResNet50,ResNet101和 ResNet152等。

Mask R-CNN：由何凯明等人在2017年发表的论文《Mask R-CNN》中提出，是一个双阶段的通用实例分割(实例分割不仅需要找到图像中的目标，还需要对其进行分割。)模型。该模型在原有的Faster R-CNN的基础上，通过为在每个感兴趣区域上添加预测分割遮罩分支实现分割功能，因其具有良好的性能和结构设计可以泛化到其他的任务，如实例分割、物体边缘检测、人体关键点检测等。

FPN：中文名叫特征金字塔网络，该网络通过引入了下采样、上采样和横向连接的过程能够在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图，解决小目标检测能力不足问题。

box-level：是弱监督分割任务中输入标签的级别，所谓弱监督分割，就是用更容易获得的真值标注替代逐像素的真值标注，常见的输入有图像级别 (image-level)和边界框级别(box-level)。图像级别标注中一张图片的目标分类代表一个标签，box-level用一个紧贴图像中目标的矩形框给出目标位置信息和分类标签。

GrabCut：GrabCut是在论文《"GrabCut"-Interactive Foreground Extractionusing Iterated Graph Cuts》中提出的一种前景和后景分割算法。该算法利用了图像中的纹理(颜色)信息和边界(反差)信息，只要少量的用户交互操作即可得到比较好的分割结果。

ConvCRF：在《Convolutional CRFs for Semantic Segmentation》论文中被提出，是一种结合随机条件场与卷积神经网络的高效分割优化方法，该方法能以卷积运算的方式解决CRF训练速度慢和训练难的问题，可以用在图像分割的后处理优化阶段上。

Keras框架：Keras框架是一个用Python编写的高级神经网络API，它能够以TensorFlow,CNTK,或者Theano作为后端运行。Keras封装了很多高层的神经网络模块，例如全连接层(Dense)，卷积层(Conv2D)，长短时记忆模型(LSTM)等等，让实现神经网络的过程更加简单有效。

在本实施例中公开了一种基于双重注意力机制的分割模型建立方法，包括如下步骤：

实施例1

在本实施例中公开了一种基于双重注意力机制的分割模型建立方法，在本实施例中，对每张原始医学图像标注目标区域包括两种情况，情况一为对原始医学图像标注目标形状获得像素级标注医学图像数据集作为带标签的医学图像数据，情况二为对每张原始医学图像利用box标注目标所在矩形框获得目标框级标注医学图像数据集作为带标签的医学图像数据。

具体的，目标一般为病灶，在本实施例中为口腔白斑，类别一般为病灶类型，常见病灶类型包括颗粒状、皱纸状、疣状等。

具体的，步骤3中，若采用像素级标注医学图像数据集训练，则获得全监督分割模型，训练过程和原始的Mask R-CNN相同，训练时候更新检测分支和分割分支参数分支，推理阶段会在分割分支生成最终分割结果。若采用目标框级标注医学图像数据集训练，则获得弱监督分割模型。弱监督分割模型的训练过程区别于强监督过程，它使用框级别的弱监督标签数据集进行，只会训练更新检测分支的参数，实质上是训练一个目标检测网络的过程。在推理阶段，检测分支将会提供目标的矩形检测边界框。

具体的，所述的双重注意力模块用于给定输入特征，通过通道关注模块在通道轴上计算出一维的通道关注图，通过空间关注模块在空间轴上计算出二维的空间关注图，串联通道关注图和空间关注图计算出最终的特征图。

具体的，所述的特征金字塔网络(FPN)中包含三个过程，分别是：

1.自底向上的过程。自底向上的过程以ResNets为例，使用每个阶段的最后一层residual block输出的特征激活为输出，将conv2，conv3，conv4和conv5 这些最后residual block的输出表示为C2，C3，C4，C5。

2.横向连接。采用1×1的卷积核进行连接。

3.自上而下的过程是将更抽象、语义信息更强的高层特征进行上采样，通过横向连接将上采样的输出结果和自底向上生成的feature map进行融合。

具体的，所述的双重注意力模块设置在特征金字塔网络(FPN)自底向上的过程中，具体是设置在ResNets中的如图3所示的卷积残差块和恒等残差块之中。

在本实施例中还公开了一种基于双重注意力机制的分割方法，包括如下步骤：

步骤一：获取待分割原始医学图像；

步骤二：采用本实施例中所述的基于双重注意力机制的分割模型建立方法获得基于双重注意力机制的分割模型；

在本实施例中还公开了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求2的基于双重注意力机制的分割方法。

在本实施例中还公开了一种基于双重注意力机制的分割装置，该装置包括处理器和用于存储能够在处理器上运行的多个功能模块的存储器，所述功能模块包括基于双重注意力机制的分割模型和分割模块；

所述的基于双重注意力机制的分割模型采用本实施例中基于双重注意力机制的分割模型建立方法获得；

实施例2

在本实施例中公开了一种基于双重注意力机制的分割装置如图1所示，在该实施例中，使用Keras框架，选用了ResNet-50作为骨干网络，采用了COCO 作为预训练模型，batch size,learning rate,weight decay,momentum,和Epoch分别为4，0.01，10^-4，0.9，60，优化器为ADAM，进行了旋转，仿射变换和随机裁剪等的数据增强。实验机器为单卡GeForce RTX 24G GPUs。选用了标准的F1-Score，Sensitivity Specificity，Accuracy，Jaccard similarity来评价模型。

本实施例中的数据集采用ISIC 2018挑战赛数据集，该数据集是由InternationalSkin Imaging Collaboration(ISIC)在2018公布，选用了挑战赛任务 1的皮肤镜图像病变边界分割数据集，包含了2594张原始图片和对应的二值掩码真值标注。为了能和其他的方法对比，本发明和其他的方法进行了相同的设置，划分训练集1815张，验证集259张，测试集520。将图片输入大小设置768x 768。在全监督分割中，标签是原始数据集的二值掩码值，在弱监督分割中，标签是原始数据集病变区域的紧贴外界矩形框。

图4展示了一些本发明提出的全监督分割方法和弱监督分割方法的分割结果，在表1中，本发明和其他的一些未采用双重注意力机制的方法进行了对比，可以看出，本发明提出的全监督分割方法，不仅相较于原始的Mask RCNN 的分割方法有较大的提升，而且相较于其他的全监督方法也取得了具有竞争了的结果；本发明的弱监督分割方法也取得了媲美全监督分割方法的表现，甚至超过了一些全监督的分割方法。

表1.本发明提出的分割网络与其他方法在ISIC 2018数据集的分割表现比较

实施例3

在本实施例中公开了一种基于双重注意力机制的分割装置如图1所示，在实施例1的基础上，本实施例采用从医院获取到的口腔白斑医学图像数据集作为原始数据集。口腔白斑是一种口腔黏膜的损伤，是一种癌前病变。

口腔白斑医学图像数据集包含了90张原始图像和对应的由专业医生标注的掩码标注图像。我们划分了训练集为77张，验证集为13张。相比于ISIC 2018 数据集，口腔白斑数据集的分割任务更具有挑战性，不仅数量稀少，数量仅为 ISIC 2018数据集的3％，而且，病损区域的边界更加模糊不清，形态不规则和多变。在全监督分割实验中，输入的真值标签是原始数据集的二值掩码值，在弱监督分割实验中，输入的真值标签是原始数据集病变区域的紧贴外界矩形框。

图5展示了一些本发明提出的全监督分割方法和弱监督分割方法在口腔白斑数据集上分割结果。在表2中本发明的方法同样也和其他的一些先进方法进行了对比，不难发现，其中一些在皮肤病数据集表现优异的分割方法在口腔白斑数据集上效果严重下降，与此同时，本发明所提出的全监督分割方法取得了最好的效果，弱监督的方法也达到了全监督的90％。由此可见本发明提出的方法的有效性和先进性。

表2.提出的分割网络与其他方法在口腔白斑数据集的分割表现比较

上述实施例中，提出了一个端到端的医学图像的分割框架(图2)，在这个框架里，如果需要分割的对象有像素级的分割标签，可以利用全监督分支得到精细的分割结果，但是如果只有box-level的标签，依然可以利用弱监督分割分支得到媲美全监督的分割结果。在整个框架里，通过在多层FPN网络中加入了双重注意力机制来提高网络的分割性能。图4和图5展示的分割结果对比中可以看出，加入关注机制后，本发明提出的全监督分割方法相比原始的 Mask R-CNN网络不仅能减少误分割、漏分割的现象，而且边界细节分割更加精确。关注机制能帮助网络从输入图像中提取更加有用、更加丰富的特征。特别实在口腔白斑数据集中，由于口腔白斑数据集数量少，图像尺寸极大，达到了7630x4512的高清级别，病灶区域的尺度变化极大，常规的网络多次卷积后虽然提取到了更加高层次的特征，但是也会丢失大量的细节，如果病灶区域较小的话，就会被忽略掉，导致出现漏分割的现象，相反，本发明的基于双重关注的特征金字塔网络能对语义信息更加丰富的高层次特征和分辨率更高的低层次特征进行融合，有效减少漏分割的现象。在弱监督分割方法中，得益于融合了关注机制的检测分支，对病损区域的定位能力大为提升，为GrabCut 的分割提供了准确的box坐标。

本发明的端到端医学分割框架，它同时集成了全监督和弱监督分割分支。实验证明，通过在Mask RCNN中加入双重注意力机制，网络能关注重要区域的特征，抑制不重要的特征，提高了对病灶的定位能力，不仅提高了全监督分割的效果，还为弱监督分支提供了更加准确的边界框。在弱监督分割中，相比其他一般的方法使用伪标签来进行训练，该方法能大幅减少真值标签和伪标签的差距，实现媲美全监督分割的效果。在ISIC 2018数据集和口腔数据集上的实验结果证明了方法的先进性。

对比例1

本对比例公开了一种基于双重注意力机制的分割模型建立方法，如图6 所示，该方法在Mask RCNN中也加入了双重注意力机制，但其加入位置与上述实施例不同，本实施例在ResNets网络的{C2，C3，C4，C5}每个阶段后加入双重注意力机制，增强ResNets骨干网络的特征提取能力。

相较于上述实施例中图1所示的分割模型，该模型在ISIC2018数据集上的表现如表3所示：

表3 ISIC2018数据集上两种全监督分割方法效果对比

相较于实施例1和实施例2中图1所示的分割模型，该模型在口腔白斑数据集上的表现如表4所示：

表4口腔白斑数据集上两种全监督分割方法效果对比

从上述表格可以看出，将双重注意力模块设置在特征金字塔网络中的卷积残差块和恒等残差块之中将会获得比其他位置更好的分割效果。

Claims

1.基于双重注意力机制的分割模型建立方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于双重注意力机制的分割模型建立方法，其特征在于，对每张原始医学图像标注目标区域包括两种情况，情况一为对原始医学图像标注目标形状获得像素级标注医学图像数据集作为带标签的医学图像数据，情况二为对每张原始医学图像利用box标注目标所在矩形框获得目标框级标注医学图像数据集作为带标签的医学图像数据。

3.基于双重注意力机制的分割方法，其特征在于，包括如下步骤：

步骤一：获取待分割原始医学图像；

步骤二：采用如权利要求2所述的基于双重注意力机制的分割模型建立方法获得基于双重注意力机制的分割模型；

若训练步骤二中模型的标签集为目标框级标注医学图像数据集，则将待分割原始医学图像输入基于双重注意力机制的分割模型中，获得待分割原始医学图像的目标框和类别，将待分割原始医学图像的目标框依次进行GrabCut和ConvCRF，获得待分割原始医学图像的目标形状。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求2的基于双重注意力机制的分割方法。

5.基于双重注意力机制的分割装置，其特征在于，该装置包括处理器和用于存储能够在处理器上运行的多个功能模块的存储器，所述功能模块包括基于双重注意力机制的分割模型和分割模块；