CN117078930A

CN117078930A - 基于边界感知和注意力机制的医学图像分割方法

Info

Publication number: CN117078930A
Application number: CN202311011424.3A
Authority: CN
Inventors: 李军伟; 孙胜烽; 李世杰; 夏瑞雪; 夏苗苗
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-11-17

Abstract

本发明公开了一种基于边界感知和注意力机制的医学图像分割方法，包括如下步骤：将医学图像数据集进行划分；然后对医学图像进行数据增强，以提升模型鲁棒性；然后将数据增强后的医学图像输入到医学图像分割网络中进行编码操作，提取多尺度特征图；然后进行边界感知操作，提取边界信息；然后进行解码操作，增强边界特征，增加重要通道的特征表示；待训练结束后，将模型的所有参数信息保存下来；最后将待测样本输入至医学图像分割模型中，经计算输出分割结果图。本发明方案利用PVT v2‑b2编码器、边界感知模块、特征融合和特征增强模块实现医学图像分割方法，分割出的图像整体更加完整，细节更加完善，边缘更加平滑。

Description

基于边界感知和注意力机制的医学图像分割方法

技术领域

本发明涉及医学图像分割技术领域，尤其涉及一种基于边界感知和注意力机制的医学图像分割方法。

背景技术

医学图像分割可以从特定组织图像中提取关键特征信息，是各种疾病治疗前诊断、治疗计划和治疗后评估的关键步骤之一。分割后的图像被提供给临床医生用于疾病诊断、病理改变组织的定位、治疗计划等不同任务，对治疗策略的规划、疾病进展的监测和患者预后的预测都很重要，特别是疾病诊断和治疗计划的必要前提。近年来，随着机器学习技术的迅速发展，卷积神经网络(Convolutional Neural Network，CNN)已被广泛应用于医学图像分割任务[1]。具体而言，UNet[1]利用跳跃连接生成高分辨率分割图，聚合了多阶段特征，使得它在医学图像分割中表现出色。由于UNet复杂的编码器-解码器架构，UNet的一些变体在医学图像分割中表现出较好的性能。虽然基于CNN的方法具有令人满意的性能，但由于卷积操作的空间背景，使得在学习像素之间的远程依赖关系方面存在局限性[2]。为了克服这一限制，在其架构中加入了注意力模块[3]，以增强特征映射，从而更好地对医学图像进行像素级分类。虽然基于注意力的方法实现了改进的性能(由于捕获了显著的特性)，但仍然存在捕获远程依赖关系不足的问题。

Transformer的最新进展克服了上述在捕获远程依赖关系方面的限制，特别是在医学图像分割方面[4]。Transformer依赖于基于注意力的网络架构；首先被引入到自然语言处理(Natural Language Processing，NLP)中的序列到序列预测中[5]。随着NLP中Transformer的成功，视觉Transformer(Vision Transformer，ViT)[4]将图像划分为不重叠的小块，这些小块通过位置嵌入馈送到Transformer模块中。为了降低计算成本，部分学者引入了分层视觉Transformer，如基于窗口注意力的Swin Transformer[6]和具有空间缩减注意力的金字塔视觉Transformer(Pyramid Vision Transformer，PVT)[7]。这些分层视觉Transformer可以有效的完成医学图像分割任务[8]。然而，Transformer中使用的自注意力限制了它们学习像素之间局部(上下文)关系的能力[7]。最近，PVT v2[9]等网络模型试图通过在Transformer中嵌入卷积层来克服这一限制。虽然这些架构可以部分学习像素之间的局部(上下文)关系，但它们由于在前馈网络的完全连接层之间直接嵌入卷积层，因此，它们的识别能力有限，并且不能正确聚合分层编码器生成的多阶段特征。

发明内容

本发明的目的是提供一种基于边界感知和注意力机制的医学图像分割方法，能够准确有效的实现医学图像分割，进而为医疗诊断提供更为精准的图像依据。

本发明采用的技术方案为：

基于边界感知和注意力机制的医学图像分割方法，包括以下几个步骤：

A、准备医学图像数据集，并对医学图像数据集进行划分；

B、对医学图像数据集中的医学图像进行数据增强；具体包括依次进行随机旋转、随机垂直翻转、随机水平翻转以及调整图像大小；

C、创建一种基于边界感知和注意力机制的医学图像分割网络模型，所述的医学图像分割网络模型为编码器解码器架构，具体包括边界感知模块，特征融合模块和特征增强模块；所述的解码器均为四层，编码器和解码器的对应层之间有跳跃连接，编码器为金字塔视觉Transformer的PVT v2-b2预训练模型；

所述的边界感知模块用于提取编码器模块输出的四层特征的边界信息并融合输出一个最终边界特征；

所述的特征融合模块用于将解码器跳跃连接的特征、经过边界增强的特征以及上采样的特征进行融合，特征增强模块将进一步增强通过特征融合模块操作后生成的特征；

D、将步骤B中数据增强后的医学图像输入到步骤C中创建的医学图像分割网络模型中；

E、将步骤D中输入网络模型的医学图像首先经过PVT v2-b2预训练模型进行编码，提取的E1，E2，E3，E4；

F、将步骤E中得到的多尺寸特征图E1，E2，E3，E4输入到边界感知模块中；首先多尺寸特征图E1，E2，E3，E4分别通过边界检测模块，分别输出四个经过边界检测后的特征图，这些特征图边缘区域得到增强，非边缘区域保持不变；

然后将四个经过边界检测后的特征图按通道维度拼接在一起，得到融合后的特征图；

通过计算注意力权重，用于学习特征图之间的权重关系；将注意力权重与融合后的特征图相乘，得到加权融合后的特征图；

然后，通过卷积层生成输出边界特征图；

最后再下采样以匹配不同层级的特征大小得到四个不同尺度的边界特征图B1，B2，B3，B4；

G、对步骤E中提取的多尺度特征图E1，E2，E3，E4进行解码操作；特征融合模块将解码器跳跃连接的特征与经过边界增强和上采样的特征进行融合，增加重要通道的特征表示，并通过步骤F中边界特征图B1，B2，B3，B4进行增强边界特征，特征增强模块将进一步增强通过特征融合模块操作后生成的特征，四个层级得到四个输出特征图O1、O2、O3、O4，最后将四个输出特征图O1、O2、O3、O4相加在一起得到最终的分割图；

H、训练结束后，将训练好的模型的所有参数信息都保存下来；

I、将待测样本输入得到的医学图像分割模型中，计算输出分割结果图。

所述步骤F中，将步骤E中得到的多尺寸特征图E1，E2，E3，E4输入到边界感知模块中，得到四个特征图为通道数为1，大小分别为1/4宽高、1/8宽高、1/16宽高和1/32宽高的边界特征图B1，B2，B3，B4，具体过程如下：

首先将四个层级的特征图E1，E2，E3，E4分别对输入特征图进行水平和垂直方向上的边缘检测，

然后通过对水平方向梯度和垂直方向梯度分别平方、相加，再开平方得到梯度幅值；

将输入图像和梯度幅值在通道维度上进行拼接，再通过一个卷积层对拼接后的特征图进行卷积操作，将通道数减少；

再通过Sigmoid激活函数将输出特征图进行非线性映射，将特征值限制在0到1之间；将经过映射的特征图与输入特征图x相乘，得到增强后的特征图，其中只有边缘区域得到了增强，非边缘区域保持不变，分别得到四个边缘增强后的特征图；

然后，对上述得到的四个特征通道数的降维操作，对各个特征图进行处理；通过插值操作将降维后的特征图x4、x3、x2调整为与x1相同的大小；

g_x＝conv_x(x)

g_y＝conv_y(x)

pooled＝sigmoid(conv(concatenate(x,g)))

enhanced＝pooled*x

其中，x表示要进行边界感知操作的输入特征图，conv_x和conv_y分别表示水平和垂直方向上的3x3卷积操作，sqrt表示开平方运算，concatenate表示在通道维度上进行拼接，conv表示用作变换通道数的1x1卷积操作，sigmoid表示Sigmoid激活函数，g_x表示水平方向梯度，g_y表示垂直方向梯度，g表示梯度幅值，pooled表示经过映射的特征图，enhanced表示增强后的图像。

所述步骤G中，对步骤E中的多尺度特征图E1，E2，E3，E4进行解码，得到四个输出特征图O1、O2、O3、O4，具体包括如下步骤：

首先将E4进行1x1的卷积层，接着将与B4进行相乘操作，再经过特征增强模块后，分别经过两个分支，一个分支经过1x1的卷积层和32倍上采样为原始输入特征大小作为输出O4；

一个分支上采样为E3特征大小的特征D3，然后将上述D3与E3进行交叉通道注意力融合，接着将融合特征与B3进行相乘操作强化边界信息，再将强化后的边界信息与D3进行交叉通道注意力融合，然后经过特征增强模块；特征增强后，分别经过两个分支，一个分支经过1x1的卷积层和16倍上采样为原始输入特征大小作为输出O3；

一个分支上采样为E2特征大小的特征D2，然后将上述D2与E2进行交叉通道注意力融合，接着将融合特征与B2进行相乘操作强化边界信息，再将强化后的边界信息与D2进行交叉通道注意力融合，然后经过特征增强模块；特征增强后，分别经过两个分支，一个分支经过1x1的卷积层和8倍上采样为原始输入特征大小作为输出O2；

一个分支上采样为E1特征大小的特征D1，然后将上述D1与E1进行交叉通道注意力融合，接着将融合特征与B2进行相乘操作强化边界信息，再将强化后的边界信息与D1进行交叉通道注意力融合，然后经过特征增强模块，特征增强后，最后经过1x1的卷积层和4倍上采样为原始输入特征大小作为输出O1；

最后将O1，O2，O3，O4相加在一起得到最终的分割图。

所述的交叉通道注意力融合过程具体包括以下步骤：

基于全局平均池化和用一维卷积来计算通道注意力权重，并将它们进行加权融合，得到综合的通道注意力权重；

基于综合的通道注意力权重，通过Sigmoid激活函数将通道注意力权重映射到0到1的范围，得到缩放因子；将两个初始输入特征图分别与缩放因子以及(1-缩放因子)相乘，得到加权后的特征图；突出了重要通道的特征表示，同时保留了原始特征的一部分；

avg_pool_p＝avg_pool(p)

channel_att_p＝conv(avg_pool_p)

avg_pool_q＝avg_pool(q)

channel_att_q＝conv(avg_pool_q)

scale＝sigmoid(channel_att_p+channel_att_q)

out＝p*scale+q*(1-scale)

其中，p、q分别表示要进行交叉通道注意力融合的两个输入特征，avg_pool表示全局平均池化，conv表示一维卷积操作，max_pool表示自适应最大池化，sigmoid表示Sigmoid激活函数，avg_pool_p，avg_pool_q分别表示p，q经过全局平均池化后的特征，channel_att_p，channel_att_q分别表示p，q的通道注意力权重，scale表示缩放因子，out表示输出特征图。

所述的特征融合模块进行融合的过程具体包括以下步骤：

基于上采样模块，在解码器中，将特征经过包含上采样、卷积、批归一化和激活函数的上采样模块，通过上采样操作增加特征图的分辨率，以便与低层特征进行融合；

基于经过上采样模块的特征和跳跃连接的特征，使用交叉通道注意力模块进行融合后，将突出了重要通道的特征表示，然后与边界特征逐像素相乘突出边界信息；

基于交叉通道注意力和突出边界信息的特征，再次与上采样后的特征融合，再次将增强边界信息的特征突出重要通道特征；

d＝relu(bn(conv(upsample(u))))

f＝CECA(d,e)*b

out＝CECA(d,f)

其中，u与e分别表示需要上采样的特征和跳跃连接特征，b表示步骤F中得到的通道数为1的边界特征图，conv表示用作变换通道数的3x3卷积操作，upsample表示上采样，bn表示批量归一化，relu表示ReLU激活函数，CECA表示交叉通道注意力，d表示经过上采用模块后的特征，f表示经过交叉通道注意力模块进行融合后并突出边界信息的特征，out表示输出的特征图。

所述的特征增强过程包括以下步骤：

给定输入，使用核大小为11x11的深度卷积和Hadamard积计算输出；使得每个空间位置(h，w)与以(h，w)为中心的11×11方形区域内的所有像素相关，通道间的信息交互可以通过线性层来实现；每个空间位置的输出是正方形区域内所有像素的加权和；

基于多层感知机模块，通过非线性变换对通过卷积特征调制模块的特征进行进一步的处理，以提取更高级的语义特征；

基于将这两个模块的输出与输入特征进行加权相加，可以融合局部和全局关系的特征表示，并保留输入特征的部分信息；

a＝Dconv(linear(ln(h)))

v＝linear(ln(h))

z＝linear(a*v)

attn＝h+z

out＝attn+mlp(attn)

其中，h表示要进行特征增强的输入特征图，ln表示层归一化，linear表示1x1卷积，Dconv表示11x11深度卷积，mlp表示MLP模块，a表示经过层归一化、1x1卷积、深度卷积后的特征，v表示经过层归一化、1x1卷积后的特征，z表示经过逐元素乘积、1x1卷积后的特征，attn表示经过Conv-Mod模块的输出特征图，out表示最终输出特征图。

本发明以医学图像分割为应用背景，本专利发明中为了解决现有的医学图像分割方法训练出来的模型分割区域不完整以及分割目标边缘不平滑这一问题，提出了一种基于边界感知和注意力机制的医学图像分割方法，具备更精准的图像分割能力。具体的，本发明通过基于PVT v2-b2构建的编码器获取四个层级的特征图，依次通过边界感知模块提取并增强边界特征，特征融合模块提取医学图像重要的通道信息，特征增强模块提取更高级的语义特征，融合局部和全局关系并增强特征，使得最后的医学图像分割结果保留高层次的语义信息的同时包含低层次的细节信息以及边界信息，从而更加准确、有效的对目标以及边界细节信息的分割。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图；

图2为本发明的主干网络图；

图3为本发明的特征融合模块的网络图；

图4为本发明的边界感知模块的网络图；

图5为本发明的交叉通道注意力模块的网络图；

图6为本发明的特征增强模块的网络图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明包括以下几个步骤：

A、准备医学图像数据集，并进行数据集划分，具体的，本实例所用息肉的数据集收集了五个不同的公共数据集。其中，CVC-ClinicDB[10]共包含612张图像。Kvasir[11]包括1000张息肉图像。分别取CVC-ClinicDB和Kvasir数据集中相同的900张和548张图像作为训练集，剩下的64张和100张图像分别作为测试集。为了评估泛化性能，另外三个数据集，即EndoScene[12]、ColonDB[13]和ETIS-LaribDB[14]只作为测试集；

B、将医学图像依次进行随机旋转、随机垂直翻转、随机水平翻转以及调整图像大小，从而进行数据增强；

C、创建网络模型，创建一种基于边界感知和注意力机制的医学图像分割网络模型(如图2)，为编码器解码器架构，包括边界感知模块，特征融合模块，特征增强模块。其中编码器，解码器均为四层，编码器和解码器的对应层之间有跳跃连接，编码器为金字塔视觉Transformer的PVT v2-b2预训练模型。边界感知模块提取编码器模块输出的四层特征的边界信息并融合输出一个最终边界特征(如图4)；包含交叉通道注意力(如图5)的特征融合模块将解码器跳跃连接的特征与经过边界增强和上采样的特征进行融合(如图3)，特征增强模块将进一步增强通过特征融合模块操作后生成的特征(如图6)；

D、将步骤B中数据增强后的医学图像输入到步骤C中创建的网络模型中；

E、将步骤D中输入网络模型的医学图像首先经过PVT v2-b2预训练模型进行编码，使用金字塔视觉transformer作为骨干网络可以提取更鲁棒和强大的特征用于医学图像分割。本专利采用了PVT v2-b2，它是PVT的改进版本，具有更小的资源消耗和更强大的特征提取能力。具体的，其包括4个stage；每个stage中分别包括多层重复的transformer模块，具体是第一个stage包括3个重复的transformer模块，第二个stage包括4个重复的transformer模块，第三个stage包括6个重复的transformer模块，第四个stage包括3个重复的transformer模块，每个transformer模块中都包括核心的多头注意力模块；并且每个stage均可缩小所输入的特征图的大小；更具体的，经过4个stage输出的特征图大小分别为原始图像大小的1/4宽高、1/8宽高、1/16宽高和1/32宽高，通道数分别为64，128，320和512的多尺度特征图E1，E2，E3，E4；

F、将步骤E中得到的多尺寸特征图E1，E2，E3，E4进行边界感知操作，如图4所示。首先将四个层级的特征图E1，E2，E3，E4分别通过边界检测模块，分别对输入特征图进行水平和垂直方向上的边缘检测，然后通过对水平方向梯度和垂直方向梯度分别平方、相加，再开平方得到梯度幅值。将输入图像和梯度幅值在通道维度上进行拼接，再通过卷积层对拼接后的特征图进行卷积操作，将通道数减少。再通过Sigmoid激活函数将输出特征图进行非线性映射，将特征值限制在0到1之间。将经过映射的特征图与输入特征图x相乘，得到增强后的特征图，其中只有边缘区域得到了增强，非边缘区域保持不变。分别得到四个边缘增强后的特征图：

g_x＝conv_x(x)

g_y＝conv_y(x)

pooled＝sigmoid(conv(concatenate(x,g)))

enhanced＝pooled*x

然后，对上述得到的四个特征图的通道数分别进行降维操作。然后通过up模块进行插值操作将降维后的特征图x4、x3、x2调整为与x1相同的大小(如图4)。将四个调整后的特征图按通道维度拼接在一起，得到融合后的特征图。通过计算注意力权重，用于学习特征图之间的权重关系。将注意力权重与融合后的特征图相乘，得到加权融合后的特征图。

fused＝concatenate(x1,x2,x3,x4)

attention_weights＝sigmoid(conv_f(fused))

out＝conv(attention_weights*fused)

其中，x1、x2、x3、x4分别表示输入的通过插值操作将降维后的特征图，concatenate表示在通道维度上进行拼接，conv_f表示连续包含3x3卷积、批量归一化和ReLU激活函数的两层卷积块，conv表示用作变换通道数的1x1卷积操作，sigmoid表示Sigmoid激活函数，fused表示融合后的特征图，attention_weights表示注意力权重，out表示输出边界特征图。

然后，通过卷积层生成输出边界特征图，最后再插值操作实现的down模块实现下采样得到通道数为1，大小分别为1/4宽高、1/8宽高、1/16宽高和1/32宽高的边界特征图B1，B2，B3，B4。

G、然后将步骤E中的E1，E2，E3，E4进行解码操作。首先将E4进行1x1的卷积层，接着将与B4进行相乘操作，再经过特征增强模块后，分别经过两个分支，一个分支经过1x1的卷积层和32倍上采样为原始输入特征大小作为输出O4，一个分支上采样为E3特征大小的特征D3；然后将上述D3与E3进行交叉通道注意力融合，接着将融合特征与B3进行相乘操作强化边界信息，再将强化后的边界信息与D3进行交叉通道注意力融合，然后经过特征增强模块，特征增强后，分别经过两个分支，一个分支经过1x1的卷积层和16倍上采样为原始输入特征大小作为输出O3，一个分支上采样为E2特征大小的特征D2；然后将上述D2与E2进行交叉通道注意力融合，接着将融合特征与B2进行相乘操作强化边界信息，再将强化后的边界信息与D2进行交叉通道注意力融合，然后经过特征增强模块，特征增强后，分别经过两个分支，一个分支经过1x1的卷积层和8倍上采样为原始输入特征大小作为输出O2，一个分支上采样为E1特征大小的特征D1；然后将上述D1与E1进行交叉通道注意力融合，接着将融合特征与B2进行相乘操作强化边界信息，再将强化后的边界信息与D1进行交叉通道注意力融合，然后经过特征增强模块，特征增强后，最后经过1x1的卷积层和4倍上采样为原始输入特征大小作为输出O1。最后将O1，O2，O3，O4相加在一起得到最终的分割图。

可选地，交叉通道注意力融合过程(如图5)包括以下步骤：

基于全局平均池化(Global Average Pooling，GAP)和用一维卷积实现的linear模块来计算通道注意力权重，并将它们进行加权融合，得到综合的通道注意力权重。

基于综合的通道注意力权重，通过Sigmoid激活函数将通道注意力权重映射到0到1的范围，得到缩放因子。将两个初始输入特征图分别与缩放因子以及(1-缩放因子)相乘，得到加权后的特征图。突出了重要通道的特征表示，同时保留了原始特征的一部分。

avg_pool_p＝avg_pool(p)

channel_att_p＝conv(avg_pool_p)

avg_pool_q＝avg_pool(q)

channel_att_q＝conv(avg_pool_q)

scale＝sigmoid(channel_att_p+channel_att_q)

out＝p*scale+q*(1-scale)

可选地，特征融合模块(如图3)包括以下步骤：

基于上采样模块，在解码器中，将特征经过包含上采样、卷积、批归一化和激活函数的上采样模块，通过上采样操作增加特征图的分辨率，以便与低层特征进行融合。

基于经过上采样模块的特征和跳跃连接的特征，使用交叉通道注意力模块进行融合后，将突出了重要通道的特征表示，然后与边界特征逐像素相乘突出边界信息。

基于交叉通道注意力和突出边界信息的特征，再次与上采样后的特征融合，再次将增强边界信息的特征突出重要通道特征。

d＝relu(bn(conv(upsample(u))))

f＝CECA(d,e)*b

out＝CECA(d,f)

可选的，特征增强过程(如图6)包括以下步骤：

具体来说，给定输入，使用核大小为11x11的深度卷积和Hadamard积(逐元素乘积)计算输出。使得每个空间位置(h，w)与以(h，w)为中心的11×11方形区域内的所有像素相关，通道间的信息交互可以通过线性层来实现。每个空间位置的输出是正方形区域内所有像素的加权和[15]。

基于多层感知机模块，通过非线性变换对通过卷积特征调制模块的特征进行进一步的处理，以提取更高级的语义特征。

基于将这两个模块的输出与输入特征进行加权相加，可以融合局部和全局关系的特征表示，并保留输入特征的部分信息。

a＝Dconv(linear(ln(h)))

v＝linear(ln(h))

z＝linear(a*v)

attn＝h+z

out＝attn+mlp(attn)

本发明为了解决现有医学图像分割方法训练出来的模型分割区域不完整以及分割目标边缘不平滑这一问题，提出了一种基于边界感知和注意力机制的医学图像分割方法，具备更精准的图像分割能力。通过编码器和解码器之间以及解码器和解码器之间的特征传输，增强了整体特征的提取。边界感知模块提取编码器模块提取并增强边界信息，特征融合模块将解码器跳跃连接的特征、经过边界增强的特征以及上采样的特征进行融合，融合深层和浅层特征，增强边界信息，使最后的分割结果保留卷积的高层次的语义信息的同时包含低层次的细节信息，特征增强模块增强通过特征融合模块操作后生成的特征。最后的分割结果保留卷积的高层次的语义信息的同时包含低层次的细节信息和边界信息，从而更加准确、有效的对目标以及边界细节信息的分割。

本发明设计了一组实验：实验是在息肉数据集上进行的；更具体的，息肉的数据集收集了五个不同的公共数据集。CVC-ClinicDB共包含612张图像。Kvasir包括1000张息肉图像。分别取CVC-ClinicDB和Kvasir数据集中相同的900张和548张图像作为训练集，剩下的64张和100张图像分别作为测试集。为了评估泛化性能，另外三个数据集，即EndoScene、ColonDB和ETIS-LaribDB。收集这三个测试集来自不同的医疗中心，换句话说，这三个来源的数据不用于训练模型。EndoScene包含60张图片，ColonDB包含380张图片，ETIS-LaribDB包含196张图片。为了验证提出的医学图像分割方法的有效性，在息肉数据集上，选择了以下6种先进的息肉医学图像分割方法与本发明方法进行比较，并对它们作了简要介绍。

UNet[1]：UNet能够提取多尺度特征，保留空间信息，并通过跳跃连接传递低级别特征，从而提高分割准确性。UNet++[16]：UNet++是基于UNet的改进版本，结合了多尺度特征融合和密集跳跃连接的特点，具有更高的准确性和语义一致性，实现了更强大的特征提取和更准确的分割结果。PraNet[17]：PraNet结合了渐进式的注意力机制和多尺度特征融合，能够更好地处理多尺度和不均匀的目标通过学习像素级别的注意力权重，实现了精细的边界和细节分割。UACANet-L[18]：UACANet-L是一种轻量级的图像分割网络，通过注意力机制引导网络关注重要区域，并通过特征聚合模块融合多尺度特征，能够高效准确地进行图像分割。SSFormerPVT[19]：SSFormerPVT是一种基于Transformer的图像分割模型，它结合了PVT(Pyramid Vision Transformer)和SSFormer(Spatial-Shifted Transformer)的特点和优势，用于实现高效准确的图像分割。PolypPVT[8]：PolypPVT运用PVT特征金字塔作为特征提取器，对较深层语义进行融合和预测、对浅层特征添加通道和空间注意力并把浅层和深层特征进行融合，最终实现高效准确的图像分割。

表Ⅰ是在息肉数据集进行的对比实验。Dice系数(Dice coefficient，Dice)、联合交叉度(Intersection over Union，IoU)、平均联合交叉度(Mean Intersection overUnion，mIoU)用于定量评估所涉及方法的性能，这些指标的计算如下：

其中，A和B分别表示分割结果和真实标签，IoU_1，IoU_2，...，IoU_n分别是各个样本的IoU值，n是样本的总数。Dice系数是通过计算分割结果和真实标签的交集与它们的平均面积的比值来衡量它们的相似程度。IoU是预测的分割结果和真实标签之间的重叠区域除以它们之间的并集区域。mIoU是指对所有类别的IoU值取平均，用于评估整体分割的性能。

由表Ⅰ的数据可以看出，本发明方案与其他已有的医学图像分割方法相比，在息肉数据集上，具体的，在CVC-ClinicDB、Kvasir、ColonDB、ETIS-LaribDB上分别提高1.31％Dice和1.72％mIoU、1.16％Dice和1.35％mIoU、1.13％Dice和1.84％mIoU以及1.17％Dice和0.67％mIoU。本发明方案在上述公开的数据集上取得了最好的性能，能够更完整地分割出待分割区域。本专利提出的基于边界感知和注意力机制的医学图像分割方法，编码器利用PVT v2-b2的特性进行全局建模，边界感知提取并增强边界特征，特征融合模块进行融合特征，特征增强模块进一步增强特征，从而更加准确、有效的增强对待分割目标及其边缘细节信息的分割。

表Ⅰ在息肉数据集上进行的对比实验结果

本发明构建了一种端到端的网络架构，提出了一种基于边界感知和注意力机制的医学图像分割方法。它使用了编码器解码器架构，编码器和解码器的对应层之间有跳跃连接，编码器为金字塔视觉Transformer的PVT v2-b2预训练模型，利用视觉Transformer的分层表示，并使用边界感知模块(Edge Attention Module，EAM)提取并增强边界信息，包含交叉通道注意力(Cross Efficient Channel Attention Module，CECA)的特征融合模块(fusion)进行特征融合，并使用特征增强模块(conv2f)进行特征增强。由于使用分层Transformer作为骨干网络，并使用基于注意力的融合模块聚合多阶段特征，可以有效的捕获像素之间的全局和局部(上下文)关系。

本发明专利中的参考文献如下：

[1]Ronneberger O,Fischer P,Brox T.U-net:Convolutional networks forbiomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015:18th International Conference,Munich,Germany,October 5-9,2015,Proceedings,Part III 18.Springer InternationalPublishing,2015:234-241.

[2]Cao H,Wang Y,Chen J,et al.Swin-unet:Unet-like pure transformer formedical image segmentation[C]//European conference on computer vision.Cham:Springer Nature Switzerland,2022:205-218.

[3]Chen S,Tan X,Wang B,et al.Reverse attention for salient objectdetection[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:234-250.

[4]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16x16words:Transformers for image recognition at scale[J].arXiv preprint arXiv:2010.11929,2020.

[5]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C].Annual Conference on Neural Information Processing Systems,2017,30.

[6]Liu Z,Lin Y,Cao Y,et al.Swin transformer:Hierarchical visiontransformer using shifted windows[C]//Proceedings of the IEEE/CVFInternational Conference on Computer Vision.2021:10012-10022.

[7]Wang W,Xie E,Li X,et al.Pyramid vision transformer:Aversatilebackbone for dense prediction without convolutions[C]//Proceedings of theIEEE/CVF International Conference on Computer Vision.2021:568-578.

[8]Dong B,Wang W,Fan D P,et al.Polyp-pvt:Polyp segmentation withpyramid vision transformers[J].arXiv preprint arXiv:2108.06932,2021.

[9]Wang W,Xie E,Li X,et al.Pvt v2:Improved baselines with pyramidvision transformer[J].Computational Visual Media,2022,8(3):415-424.

[10]Bernal J,Sánchez F J,Fernández-Esparrach G,et al.WM-DOVAmaps foraccurate polyp highlighting in colonoscopy:Validation vs.saliency maps fromphysicians[J].Computerized Medical Imaging and Graphics,2015,43:99-111.

[11]Jha D,Smedsrud P H,Riegler M A,et al.Kvasir-seg:A segmented polypdataset[C]//MultiMedia Modeling:26th International Conference,MMM 2020,Daejeon,South Korea,2020,Proceedings,Part II 26.Springer InternationalPublishing,2020:451-462.[12]Vázquez D,Bernal J,Sánchez F J,et al.A benchmarkfor endoluminal scene segmentation of colonoscopy images[J].Journal ofHealthcare Engineering,2017.

[13]Tajbakhsh N,Gurudu S R,Liang J.Automated polyp detection incolonoscopy videos using shape and context information[J].IEEE Transactionson Medical Imaging,2015,35(2):630-644.

[14]Silva J,Histace A,Romain O,et al.Toward embedded detection ofpolyps in WCE images for early diagnosis of colorectal cancer[J].International Journal of Computer Assisted Radiology and Surgery,2014,9:283-293.

[15]Hou Q,Lu C Z,Cheng M M,et al.Conv2former:A simple transformer-style convnet for visual recognition[J].arXiv preprint arXiv:2211.11943,2022.

[16]Zhou Z,Siddiquee M M R,Tajbakhsh N,et al.A nested U-Netarchitecture for medical image segmentation[J].arXiv preprint arXiv:1807.10165,2018.

[17]Fan D P,Ji G P,Zhou T,et al.Pranet:Parallel reverse attentionnetwork for polyp segmentation[C]//International conference on medical imagecomputing and computer-assisted intervention.Cham:Springer InternationalPublishing,2020:263-273.

[18]Kim T,Lee H,Kim D.Uacanet:Uncertainty augmented context attentionfor polyp segmentation[C]//Proceedings of the 29th ACM InternationalConference on Multimedia.2021:2167-2175.

[19]Wang J,Huang Q,Tang F,et al.Stepwise feature fusion:Local guidesglobal[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham:Springer Nature Switzerland,2022:110-120.

在本发明的描述中，需要说明的是，对于方位词，如有术语“中心”，“横向”、“纵向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示方位和位置关系为基于附图所示的方位或位置关系，仅是为了便于叙述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定方位构造和操作，不能理解为限制本发明的具体保护范围。

需要说明的是，本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

注意，上述仅为本发明的较佳实施例及运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行较详细的说明，但本发明不限于这里所述的特定实施例，在不脱离本发明构思的情况下，还可以包括更多其他等有效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.基于边界感知和注意力机制的医学图像分割方法，其特征在于：包括以下几个步骤：

A、准备医学图像数据集，并对医学图像数据集进行划分；

C、创建一种基于边界感知和注意力机制的医学图像分割网络模型，所述的医学图像分割网络模型为编码器解码器架构，具体包括边界感知模块，特征融合模块和特征增强模块；

所述的解码器均为四层，编码器和解码器的对应层之间有跳跃连接，编码器为金字塔视觉Transformer的PVT v2-b2预训练模型；

然后，通过卷积层生成输出边界特征图；

2.根据权利要求1所述的基于边界感知和注意力机制的医学图像分割方法，其特征在于：所述步骤F中，将步骤E中得到的多尺寸特征图E1，E2，E3，E4输入到边界感知模块中，得到四个特征图为通道数为1，大小分别为1/4宽高、1/8宽高、1/16宽高和1/32宽高的边界特征图B1，B2，B3，B4，具体过程如下：

g_x＝conv_x(x)

g_y＝conv_y(x)

pooled＝sigmoid(conv(concatenate(x,g)))

enhanced＝pooled*x

3.根据权利要求1所述的基于边界感知和注意力机制的医学图像分割方法，其特征在于：所述步骤G中，对步骤E中的多尺度特征图E1，E2，E3，E4进行解码，得到四个输出特征图O1、O2、O3、O4，具体包括如下步骤：

最后将O1，O2，O3，O4相加在一起得到最终的分割图。

4.根据权利要求1所述的基于边界感知和注意力机制的医学图像分割方法，其特征在于：

所述的交叉通道注意力融合过程具体包括以下步骤：

avg_pool_p＝avg_pool(p)

channel_att_p＝conv(avg_pool_p)

avg_pool_q＝avg_pool(q)

channel_att_q＝conv(avg_pool_q)

scale＝sigmoid(channel_att_p+channel_att_q)

out＝p*scale+q*(1-scale)

5.根据权利要求1所述的基于边界感知和注意力机制的医学图像分割方法，其特征在于：所述的特征融合模块进行融合的过程具体包括以下步骤：

d＝relu(bn(conv(upsample(u))))

f＝CECA(d,e)*b

out＝CECA(d,f)

6.根据权利要求1所述的基于边界感知和注意力机制的医学图像分割方法，其特征在于：所述的特征增强过程包括以下步骤：

a＝Dconv(linear(ln(h)))

v＝linear(ln(h))

z＝linear(a*v)

attn＝h+z

out＝attn+mlp(attn)