CN114119638A

CN114119638A - 一种融合多尺度特征和注意力机制的医学图像分割方法

Info

Publication number: CN114119638A
Application number: CN202111458212.0A
Authority: CN
Inventors: 彭敦陆; 王萌萌
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-01

Abstract

本发明提供一种融合多尺度特征和注意力机制的医学图像分割方法，首先基于U‑Net构建了包含编码器‑解码器、多尺度特征提取模块以及注意力模块的医学图像分割模型，该模型以待分割图像作为输入；然后将基于编码器得到的高级特征图和基于多尺度特征提取模块融合了多尺度信息的低级特征图输入至注意力模块得到整合了局部信息与全局信息关系的特征图；最后将特征图输入至解码器进行上采样处理以恢复图像分辨率，得到与对应的分割结果；该医学图像分割方法利用多尺度特征提取模块融合了图像的多尺度信息，同时采用注意力机制让医学图像分割模型关注相关性最强的一些信息，提高了该模型对长距离依赖关系的建模能力，从而提升医学图像的分割精度。

Description

一种融合多尺度特征和注意力机制的医学图像分割方法

技术领域

本发明属于计算机视觉领域，具体涉及一种用于场景解析中对医学图像基于深度学习进行医学图像分割的方法。

背景技术

医学图像分割是计算机辅助诊断和制定治疗计划中的一项非常重要的工作，任务是对医学图像上的感兴趣区域实现像素级分割。早期的医学图像分割系统主要基于传统图像分割算法改进，如基于边缘检测的分割算法、基于阈值的分割算法和基于区域的分割算法。但是这类方法极大地依赖于医生的专业知识，而且泛化能力差，无法迁移到新的任务场景中。随着深度学习技术的发展，凭借着强大的建模能力，它已经逐渐成为医学图像分割的主流方法。相比传统的算法，基于卷积神经网络的深度学习算法在很多视觉识别任务中都取得了突破性进展，如图像分类、语义分割等，因此也被引入到医学图像分割中。

随着深度学习技术的发展，自然图像的分割算法逐渐被应用于医学领域。其中最具代表性的研究工作是全卷积神经网络。全卷积神经网络中，使用卷积层替换了全连接层，提高了网络对图像特征的提取能力。此外，为了提高分割的精确性，引入了跳跃连接，可以融合不同层次的特征。在不改变图像尺寸的情况下，对图像实现了像素级的分割，与传统方法相比实现了显著性提升。随着FCN的成功，研究人员开始关注如何针对医学图像的特点对分割模型进行改进，考虑到医学图像具有丰富的空间信息，而网络下采样过程容易损失空间信息，基于编码器-解码器的网络结构开始崭露头角。

在编码器-解码器网络中，编码器用一系列卷积层组成，高层特征提取到图像的语义信息，低层特征提取图像的细节信息，再使用解码器对特征图进行上采样，恢复图像分辨率，输出分割后的结果。尽管这类模型已经具有很强的特征提取能力，但是仍然存在一些不足：1)由于下采样操作的存在，必然会造成细节信息的损失，这对于目标边界处的分割或者是小目标的捕获将会是很大的挑战。尽管在解码器部分会通过上采样来恢复图像分辨率，但是下采样过程中损失的有价值的信息无法恢复；2)低层的特征图往往具有更多的细节信息，但并没有得到充分的利用。模型大多是对具有更多语义信息的高层特征图进行操作，对低层特征图关注不够。因此，需要有一种更加精确的分割方法来解决上述问题。

发明内容

为解决上述问题，提供一种融合多尺度特征提取和注意力机制的医学图像智能分割方法，本发明采用了如下技术方案：

本发明提供了一种融合多尺度特征和注意力机制的医学图像分割方法，其特征在于，包括以下步骤：步骤S1，将U-Net作为骨干网络，基于编码器-解码器结构构建医学图像分割模型，医学图像分割模型具有编码器、解码器、多尺度特征提取模块以及注意力模块；步骤S2，将待分割图像输入至医学图像分割模型，基于编码器对待分割图像进行编码得到特征图E；步骤S3，基于多尺度特征提取模块对待分割图像进行特征提取获取多种尺度信息的低级特征图M；步骤S4，将低级特征图M以及特征图E分别作为低级特征以及高级特征输入至注意力模块得到整合了局部信息与全局信息关系的特征图A；步骤S5，将特征图A输入至解码器进行上采样处理，获取与待分割图像对应的分割结果。

本发明提供的一种融合多尺度特征和注意力机制的医学图像分割方法，还可以具有这样的技术特征，其中，编码器-解码器结构包括4层编码层以及4层解码层，编码层由卷积层、池化层以及激活函数组成，编码层对待分割图像进行编码的过程表示为：

Ei＝Sigmoid(Pooling(Conv(Input)))

式中，Conv、Pooling、Sigmoid分别表示卷积操作、池化操作和激活函数的处理，Input表示该层编码层的输入，Ei表示每一层编码层的输出特征图，其中，i＝1,2,3,4。

本发明提供的一种融合多尺度特征和注意力机制的医学图像分割方法，还可以具有这样的技术特征，其中，步骤S3包括以下子步骤：步骤S3-1，将待分割图像输入至多尺度特征提取模块进行下采样得到4个尺寸不同的特征图；步骤S3-2，通过卷积层缩减4个尺寸不同的特征图的特征维度并进行上采样，获取恢复至待分割图像的尺寸的特征图P：

P＝Upsample(Conv(Pooling(Input)))

式中，Upsample表示上采样操作；步骤S3-3，将特征图P与待分割图像进行融合拼接获取特征图C：

C＝Concat(P,Input)

式中，Concat表示拼接操作；步骤S3-4，将特征图C进行一次卷积得到低级特征图M：

M＝Conv(C)。

本发明提供的一种融合多尺度特征和注意力机制的医学图像分割方法，还可以具有这样的技术特征，其中，将低级特征记为Xl，高级特征记为Xh，步骤S4包括以下子步骤：步骤S4-1，将高级特征Xh进行一次卷积得到特征Xh′：

Xh′＝Conv(Xh)；

步骤S4-2，将低级特征Xl与特征Xh′做矩阵乘并进行归一化操作，得到注意力权重图X_am：

X_am＝softmax(Xl(Xh′)T)

式中，softmax表示归一化操作；步骤S4-3，基于注意力权重图X_am对特征Xh′进行特征提取的指导，获取特征图Xh″：

Xh″＝X_amXh′；

步骤S4-4，将特征图Xh″与特征Xh′拼接并进行一次卷积得到特征图A：

A＝Conv(Concat(Xh″,Xh′))。

本发明提供的一种融合多尺度特征和注意力机制的医学图像分割方法，还可以具有这样的技术特征，其中，步骤S5为：每层解码层的输入由上一解码层的输出和对应编码层的输出进行跳跃连接而构成，其中每层解码层包括对输入进行Dropout操作、卷积操作以及上采样操作：

Di＝Upsample(Conv(Dropout(Concat(Input,Ei))))

式中，表示Di表示每层解码层的输出特征图，其中，i＝1,2,3,4。

发明作用与效果

根据本发明的一种融合多尺度特征和注意力机制的医学图像分割方法，基于编码器-解码器构建了具有多尺度特征提取模块和注意力模块的医学图像分割模型，该模型用于对多种医学图像进行智能分割。其中，由于采用了多尺度特征提取模块，利用多种尺度的池化层融合了来自底层特征的待分割图像的多尺度信息，并将输出聚合了更多细节的多尺度特征作为注意力模块的低级特征的输入，以此用来对高级特征图的特征提取进行指导，从而使得医学图像分割模型能够更关注细节信息丰富的空间位置，有效地弥补了高级特征图具有比较丰富的语义信息而缺乏细节信息的不足。

本发明的一种融合多尺度特征和注意力机制的医学图像分割方法能够利用多种尺度的池化层融合图像的多尺度信息，同时采用注意力机制让模型关注相关性最强的一些信息，提高模型对长距离依赖关系的建模能力，从而提升医学图像的分割精度，该方法具有较好的通用性，适用于多种医学图像分割。

附图说明

图1是本发明实施例中的一种融合多尺度特征和注意力机制的医学图像分割方法的流程图；

图2是本发明实施例中的医学图像分割模型的结构示意图；

图3是本发明实施例中的多尺度特征提取模块的结构示意图；

图4是本发明实施例中的注意力模块的结构示意图；

图5是本发明实施例中在DRIVE视网膜血管数据集上与其它主流分割算法的分割效果对比示意图；

图6是本发明实施例中在DRIVE视网膜血管数据集上与其它主流分割算法的实验对比结果示意图；

图7是本发明实施例中在CHASE_DB1视网膜血管数据集上与其它主流分割算法的实验对比结果示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的一种融合多尺度特征和注意力机制的医学图像分割方法作具体阐述。

<实施例>

图1是本发明实施例中的一种融合多尺度特征和注意力机制的医学图像分割方法的流程图，图2是本发明实施例中的医学图像分割模型的结构示意图。

如图1及图2所示，融合多尺度特征和注意力机制的医学图像分割方法包括以下步骤：

步骤S1，将U-Net作为骨干网络，基于编码器-解码器结构构建医学图像分割模型，医学图像分割模型具有编码器、解码器、多尺度特征提取模块以及注意力模块。

步骤S2，将待分割图像输入至医学图像分割模型，基于编码器对待分割图像进行编码得到特征图E。

本实施例中，编码器用于提取图像特征，解码器用于恢复图像分辨率，实现像素级分割。该编码器-解码器结构包括4层编码层以及4层解码层，每层编码层由卷积层、池化层以及激活函数组成。每层编码层对待分割图像进行编码的过程表示为：

Ei＝Sigmoid(Pooling(Conv(Input)))

其中，每一层编码层的输出特征图E1、E2、E3以及E4的尺寸大小分别为待分割图像尺寸的1/2、1/4、1/8以及1/16。

步骤S3，基于多尺度特征提取模块对待分割图像进行特征提取获取多种尺度信息的低级特征图M。

图3是本发明实施例中的多尺度特征提取模块的结构示意图。

由于池化层对待分割图像进行下采样操作会使特征图损失一些细节信息，因此为了得到更丰富的空间信息，本实施例中，将原始的待分割图像输入到多尺度特征提取模块，输出聚合了低层输入的多尺度特征信息(如图3所示)。具体地：

步骤S3-1，将待分割图像输入至多尺度特征提取模块进行下采样得到4个尺寸不同的特征图。

由于采用了4个池化核不同的池化层并行对待分割图像做下采样，因此得到了4个尺寸分别为1×1、2×2、3×3、6×6的特征图。

步骤S3-2，通过1×1的卷积层缩减4个尺寸不同的特征图的特征维度至原来的1/4，并在金字塔池化结构上进行上采样，获取恢复至待分割图像的尺寸的特征图P：

P＝Upsample(Conv(Pooling(Input)))

式中，Upsample表示上采样操作。

在语义分割任务中，如果分割目标是一种物体并且物体的大小变化范围不大时，使用传统卷积就能提取到较多的特征信息，利用传统卷积组成编码器的模型也都能取得很好的分割结果。但是当一张图片上要分割的目标是多类物体、物体的大小也各不相同的情况下，再使用传统卷积做编码器的模型将很难实现对各类物体的精确分割，因为在训练过程中传统卷积的卷积核大小、步长、padding值都是固定的，这样只能有效地提取到一种尺寸的物体的特征信息，而对其他尺寸的物体就不能表现地一样好，可能会出现很多误分割、误分类的结果。

本实施例中，为了更好地获取多种尺度的特征信息，用金字塔池化结构构成多尺度特征提取模块的主体部分，对目标的细节特征和全局特征加以融合，以获取多种尺度的特征信息。

步骤S3-3，将特征图P与待分割图像进行融合拼接获取特征图C：

C＝Concat(P,Input)

式中，Concat表示拼接操作。

由于待分割图像可以作为全局特征，具有丰富的特征信息，因此实施例种将特征图P与该待分割图像进行拼接就是融合了目标的细节特征和全局特征。

步骤S3-4，将特征图C进行一次卷积保证最后的输出结果的通道数和待分割图像的相同，得到低级特征图M：

M＝Conv(C)。

步骤S4，将低级特征图M以及特征图E分别作为低级特征以及高级特征输入至注意力模块得到整合了局部信息与全局信息关系的特征图A。

低级特征图M是由多尺度特征提取模块直接对原始的待分割图像进行并行池化得到，包含了多种尺度的特征，且细节信息丰富；特征图E来自编码器的最后一层输出，由于经过了较多层次的编码，此时的特征图带有丰富的语义信息。

图4是本发明实施例中的注意力模块的结构示意图。

本实施例中，将低级特征以及高级特征进行局部和全局信息关系的整合。如图4所示，注意力模块包含两个输入，分别是低级特征图M的低级特征Xl以及由编码器得到的特征图E的高级特征Xh。具体地：

步骤S4-1，将高级特征Xh进行一次卷积得到特征Xh′：

Xh′＝Conv(Xh)；

X_am＝softmax(Xl(Xh′)T)

式中，softmax表示归一化操作；

步骤S4-3，为了更关注高级特征图E上细节信息比较丰富的位置，因此使用注意力权重图X_am对特征Xh′进行特征提取的指导，获取特征图Xh″：

Xh″＝X_amXh′；

步骤S4-4，将特征图Xh″与特征Xh′拼接以进一步增强特征并进行一次卷积得到特征图A：

A＝Conv(Concat(Xh″,Xh′))。

深度神经网络中，捕获长距离依赖至关重要，在序列数据处理中通常使用循环操作来实现，在图像数据处理中通常用卷积操作的堆叠来增大感受野。而注意力机制通过计算注意力权重，对特征进行重加权，以达到强化有效特征、抑制无效特征的目的。跟多尺度特征融合不一样的是，多尺度特征只是被融合成了一个静态的表示，注意力机制可以让模型关注相关性最强的一些信息，有效地整合局部信息和全局信息的关系，提高模型对长距离依赖关系的建模能力。

因此，本实施例中，设计了一个利用具有更丰富的细节信息的低层特征来指导高层编码层提取特征的模块(即步骤S4-3)，使医学图像分割模型能够更关注细节信息丰富的空间位置，有效弥补高级特征图具有比较丰富的语义信息而缺乏细节信息的不足。

步骤S5，将特征图A输入至解码器进行上采样处理以恢复图像分辨率，获取与待分割图像对应的分割结果。

本实施例中，由于编码器对原始待分割图像下采样了4次，得到的特征图大小是原图像的1/16，在经过注意力模块之后的输出特征图A的大小没有改变，仍为原图的1/16，因此使用解码器进行4次上采样以将特征图大小恢复到原图相同的尺寸。具体地：

将4层编码层的输出分别记为D1、D2、D3以及D4，每层所述解码层的输入由上一解码层的输出和对应编码层的输出进行跳跃连接而构成，从而改善上采样过程中的信息丢失情况。

其中，每层所述解码层包括对输入进行Dropout操作、卷积操作以及上采样操作：

Di＝Upsample(Conv(Dropout(Concat(Input,Ei))))

式中，表示Di表示每层所述解码层的输出特征图，其中，i＝1,2,3,4。

经过4层解码层，最终的输出即为待分割图像的分割结果。

图5是本发明实施例中在DRIVE视网膜血管数据集上与其它主流分割算法的分割效果对比示意图。

本实施例中，在DRIVE视网膜血管数据集上分别采用本实施例的融合多尺度特征和注意力机制的医学图像分割方法与其他现有的分割方法进行了对比实验。

如图5所示，从左至右每一列分别为原始图像、金标准图像、U-Net分割结果、LCP-Net分割结果以及本发明的分割结果。前三行中，矩形框里是对细节的分割效果，可以看出，与U-Net分割方法和LCP-Net分割方法的分割结果相比，本发明在细节处的分割要更明显，这表明了提出的注意力模块充分利用了低级特征丰富的细节信息，才能够在细节处分割出更满意的效果。其中，第四行，矩形框标注出了误分割的情形。对比金标准图像，可以明显地看出U-Net分割方法和LCP-Net分割方法是错误的分割，而本实施例的医学图像分割模型则表现的很好，正确地分割了图像。

图6是本发明实施例中在DRIVE视网膜血管数据集上与其它主流分割算法的实验对比结果示意图，图7是本发明实施例中在CHASE_DB1视网膜血管数据集上与其它主流分割算法的实验对比结果示意图。

本实施例中，采用准确率(Acc)、灵敏度(Sen)、特异性(Spe)和area under thecurve(AUC)四个指标对不同的分割方法进行评价。具体地：

式中，TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性的数目。

AUC指标用于评价分类器对于正、负样本的分辨能力。AUC越接近1，检测方法真实性越高。

AUC是ROC曲线与坐标轴围成的面积，ROC曲线是以Sen为横轴，Spe为纵轴绘制的曲线，ROC曲线越靠近左上角，表明模型的性能越好。

如图6及图7所示，本发明的融合多尺度特征和注意力机制的医学图像分割方法在三个指标上均表现为最好，这说明本发明在医学图像分割任务上是有效的。

实施例作用与效果

根据本实施例提供的一种融合多尺度特征和注意力机制的医学图像分割方法，基于编码器-解码器构建了具有多尺度特征提取模块和注意力模块的医学图像分割模型，该模型用于对多种医学图像进行智能分割。其中，由于采用了多尺度特征提取模块，利用多种尺度的池化层融合了来自底层特征的待分割图像的多尺度信息，并将输出聚合了更多细节的多尺度特征作为注意力模块的低级特征的输入，以此用来对高级特征图的特征提取进行指导，从而使得医学图像分割模型能够更关注细节信息丰富的空间位置，有效地弥补了高级特征图具有比较丰富的语义信息而缺乏细节信息的不足。

本实施例的一种融合多尺度特征和注意力机制的医学图像分割方法能够利用多种尺度的池化层融合图像的多尺度信息，同时采用注意力机制让模型关注相关性最强的一些信息，提高模型对长距离依赖关系的建模能力，从而提升医学图像的分割精度，该方法具有较好的通用性，适用于多种医学图像分割。

实施例中，用金字塔赤化结构构成多尺度特征提取模块的主体部分，对目标的细节特征和全局特征加以融合，提升了模型分割的精度，避免了误分割、误分类的问题。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种融合多尺度特征和注意力机制的医学图像分割方法，其特征在于，包括以下步骤：

步骤S1，将U-Net作为骨干网络，基于编码器-解码器结构构建医学图像分割模型，所述医学图像分割模型具有编码器、解码器、多尺度特征提取模块以及注意力模块；

步骤S2，将待分割图像输入至所述医学图像分割模型，基于所述编码器对所述待分割图像进行编码得到特征图E；

步骤S3，基于所述多尺度特征提取模块对所述待分割图像进行特征提取获取多种尺度信息的低级特征图M；

步骤S4，将所述低级特征图M以及所述特征图E分别作为低级特征以及高级特征输入至所述注意力模块得到整合了局部信息与全局信息关系的特征图A；

步骤S5，将所述特征图A输入至所述解码器进行上采样处理，获取与所述待分割图像对应的分割结果。

2.根据权利要求1所述的一种融合多尺度特征和注意力机制的医学图像分割方法，其特征在于：

其中，所述编码器-解码器结构包括4层编码层以及4层解码层，

所述编码层由卷积层、池化层以及激活函数组成，

所述编码层对所述待分割图像进行编码的过程表示为：

Ei＝Sigmoid(Pooling(Conv(Input)))

式中，Conv、Pooling、Sigmoid分别表示卷积操作、池化操作和激活函数的处理，Input表示该层编码层的输入，Ei表示每一层所述编码层的输出特征图，其中，i＝1,2,3,4。

3.根据权利要求2所述的一种融合多尺度特征和注意力机制的医学图像分割方法，其特征在于：

其中，所述步骤S3包括以下子步骤：

步骤S3-1，将所述待分割图像输入至所述多尺度特征提取模块进行下采样得到4个尺寸不同的特征图；

步骤S3-2，通过卷积层缩减所述4个尺寸不同的特征图的特征维度并进行上采样，获取恢复至所述待分割图像的尺寸的特征图P：

P＝Upsample(Conv(Pooling(Input)))

式中，Upsample表示上采样操作；

步骤S3-3，将所述特征图P与所述待分割图像进行融合拼接获取特征图C：

C＝Concat(P,Input)

式中，Concat表示拼接操作；

步骤S3-4，将所述特征图C进行一次卷积得到所述低级特征图M：

M＝Conv(C)。

4.根据权利要求3所述的一种融合多尺度特征和注意力机制的医学图像分割方法，其特征在于：

其中，将所述低级特征记为Xl，所述高级特征记为Xh，

所述步骤S4包括以下子步骤：

步骤S4-1，将高级特征Xh进行一次卷积得到特征Xh′：

Xh′＝Conv(Xh)；

步骤S4-2，将低级特征Xl与所述特征Xh′做矩阵乘并进行归一化操作，得到注意力权重图X_am：

X_am＝softmax(Xl(Xh′)^T)

式中，softmax表示归一化操作；

步骤S4-3，基于所述注意力权重图X_am对所述特征Xh′进行特征提取的指导，获取特征图Xh″：

Xh″＝X_amXh′；

步骤S4-4，将所述特征图Xh″与所述特征Xh′拼接并进行一次卷积得到所述特征图A：

A＝Conv(Concat(Xh″，Xh′))。

5.根据权利要求4所述的一种融合多尺度特征和注意力机制的医学图像分割方法，其特征在于：

其中，所述步骤S5为：

每层所述解码层的输入由上一解码层的输出和对应编码层的输出进行跳跃连接而构成，其中每层所述解码层包括对输入进行Dropout操作、卷积操作以及上采样操作：

Di＝Upsample(Conv(Dropout(Concat(Input，Ei))))