CN115908805A

CN115908805A - 基于卷积增强交叉自注意力变形器的u型图像分割网络

Info

Publication number: CN115908805A
Application number: CN202211440813.3A
Authority: CN
Inventors: 张麒; 严逸飞
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-04-04

Abstract

一种基于卷积增强交叉自注意力变形器的U型图像分割网络，包括：作为编码器的卷积嵌入模块、卷积合并模块和卷积增强交叉自注意力变形模块以及作为解码器的卷积上采样模块和卷积解码模块，本发明通过卷积增强交叉自注意力变形模块将图像块划分为横纵条带，并在通道维度上进行特征合并，大大增强了自注意力的感知范围的同时，将局部编码模块融合进入变形中增强了模型的局部信息处理能力，能够提供对象整体风格和轮廓的特征表示，对于局部变化剧烈的对象比基于卷积神经网络(CNN)的模型具有更稳定的识别性能和更为精确的分割效果。

Description

基于卷积增强交叉自注意力变形器的U型图像分割网络

技术领域

本发明涉及的是一种图像处理领域的技术，具体是一种基于卷积增强交叉自注意力变形器的U型图像分割网络。

背景技术

基于变形器的模型由于能够获得长期的上下文信息而被广泛应用于图像分析中。变形器能够提供对象整体风格和轮廓的特征表示，对于局部变化剧烈的对象比基于卷积神经网络(CNN)的模型具有更稳定的识别性能。但现有的基于变形器架构的分割网络容易出现以下问题：1)CNN的提取特征方式与变形器模型有较大区别，特征编码器与解码器的融合会出现特征不匹配的问题。2)当网络的输入是如医学图像一样的高分辨率图像时，由于自注意力的计算复杂度较高，很难在保持性能的情况下，建立一种参数较少的模型。3)变形器在小规模数据集上的表现往往很差，因为它缺乏转换不变性，导致对识别对象的位置和大小不敏感。

发明内容

本发明针对现有变形器架构特征编码器无法获取详尽的局部信息的缺陷以及全局感知效果有限的不足，提出一种基于卷积增强交叉自注意力变形器的U型图像分割网络，通过卷积增强交叉自注意力变形器将图像划分为横纵条带，并在通道维度上进行特征合并，大大增强了自注意力的感知范围的同时，将局部编码模块融合进入变形器中增强了模型的局部信息处理能力，能够提供对象整体风格和轮廓的特征表示，对于局部变化剧烈的对象比基于卷积神经网络(CNN)的模型具有更稳定的识别性能和更为精确的分割效果。

本发明是通过以下技术方案实现的：

本发明涉及一种基于卷积增强交叉自注意力变形器的U型图像分割网络，包括：作为编码器的卷积嵌入模块、卷积合并模块和卷积增强交叉自注意力变形器以及作为解码器的卷积上采样模块和卷积解码模块，其中：编码器由五个依次连接的子编码块组成，解码器由四个依次连接的子解码块组成，第一子编码块与第四子解码块直接跳跃连接，第二子编码块与第三子解码块之间、第三子编码块与第二子解码块之间、第四子编码块与第一子解码块之间分别通过用于消除语义鸿沟的特征转换单元进行跳跃连接，第五子编码块与第一子解码块直接连接，第四子解码块输出端设有卷积上采样模块和用于拼接编码的维度映射模块，维度映射模块将融合特征图通过卷积上采样的维度映射生成分割掩码，实现图像分割。

所述的第一子编码块包括卷积嵌入模块和对应的卷积合并模块，其中：卷积嵌入模块将输入图像嵌入为特征图并进行局部编码提取细节信息，卷积合并模块对特征图进行卷积降采样。

所述的第二至第四子编码块均包括卷积增强交叉自注意力变形器和对应的卷积合并模块，其中：卷积增强交叉自注意力变形器在同一级别的特征图上进行局部和全局特征学习，卷积合并模块对特征图进行卷积降采样。

所述的第五子编码块仅包括卷积增强交叉自注意力变形器。

所述的第一至第四子解码块均包括卷积上采样模块和对应的卷积解码模块，其中：卷积上采样模块对编码器输出的特征图进行上采样，卷积解码模块对特征图通过跳跃连接特征转换单元进行融合并进行降维和特征提取生成融合特征图。

附图说明

图1为本发明系统示意图；

图2为卷积增强交叉自注意力变形器示意图；

图3为特征转换单元示意图；

图4为实施例流程图；

图5为本发明实施例效果示意图。

具体实施方式

如图1所示，为本实施例涉及一种基于卷积增强交叉自注意力变形器的U型图像分割网络，包括：位于编码器端的卷积嵌入模块及其卷积合并模块和四个卷积增强交叉自注意力变形器及其卷积合并模块以及位于解码器端的五个卷积上采样模块、四个卷积解码模块、用于消除卷积增强交叉自注意力变形器和卷积解码模块之间语义鸿沟的三个特征转换单元和维度映射模块，其中：卷积嵌入模块将输入图像嵌入为输入1/2大小的特征图并进行局部编码提取细节信息；卷积合并模块对卷积嵌入模块或卷积增强交叉自注意力变形器输出的特征图进行2x的卷积降采样；卷积增强交叉自注意力变形器在同一级别的特征图上先后学习局部和全局特征；卷积上采样模块对第四卷积增强交叉自注意力变形器和卷积解码模块输出的特征图进行上采样；卷积解码模块对经过卷积上采样模块的特征图与三个卷积增强交叉自注意力变形器和一个卷积嵌入模块编码后的特征图通过跳跃连接进行融合并进行降维和特征提取；维度映射模块将卷积解码后的特征经上采样后得到的包含上下文信息的融合特征图通过投影生成分割掩码。

所述的卷积嵌入模块包括：用于高维度嵌入和降采样的第一卷积编码块和用于对嵌入后的特征图进行局部表示的第二卷积编码块。

所述的卷积编码块由卷积层、批归一化层和激活函数Gelu组成。

所述的卷积合并模块通过内置的步长为2填充为1的3×3卷积层对输入的特征图进行局部信息融合后，进行下采样和层归一化LN，以加速后续编码的收敛速度。

如图2a所示，所述的卷积增强交叉自注意力变形器包括：局部编码模块和与其残差连接的交叉自注意力模块、多层感知机MLP与两个层归一化单元LN，其中：局部编码模块对输入的特征图进行局部特征提取，交叉自注意力模块对局部编码模块输出的特征图进行全局建模，从特征图中划分多个窗口并计算窗口内的自我注意和窗口之间的注意力得到蕴含全局信息的特征，多层感知机MLP和层归一化单元LN对同时包含局部和全局信息的特征图进行语义信息整合并加速收敛，具体为：由第l-1个卷积合并模块得到的局部收缩特征X_I-1输入局部编码模块得到编码后的输出

将

输入LN进行归一化得到规整后的特征输出

将

输入交叉自注意力模块得到蕴含全局信息的特征

最后将

运算后的残差连接即

即得到第l个卷积增强交叉自注意力变形器的局部收缩特征X_l。

所述的局部编码模块包括：步长1填充为1卷积核大小为3×3的深度可分离卷积层DWconv、批归一化层BN和步长1填充为1的1×1卷积层Conv，其中：第l-1个卷积合并模块得到的局部收缩特征X_l-1通过深度可分离卷积操作DWconv(BN(Conv(X_l-1)))，得到第l层卷积增强交叉自注意力变形器中局部编码部分的输出

如图2b所示，所述的交叉自注意力模块，通过以下方式计算得到：对第l层卷积增强交叉自注意力变形器中局部编码模块归一化得到规整后的维度为

的特征输出

在特征维度分为水平和垂直组，其中：C为特征维度，H和W分别为特征的长和宽，垂直组注意力

和水平组注意力

然后分别进行交叉自注意力的计算，具体如下：

以交叉自注意力模块中垂直组注意力

为例，将

均匀地划分为宽度为d的非重叠垂直带{Vi₁，V_i2，…，V_iM}，其中M＝W/d，d根据不同阶段特征图的大小经验性的进行设置后，通过对每个非重叠垂直带V_ij进行线性投影，即linear(V_i1)，获得相应的查询(Q_ij)、键(K_ij)和值(V_ij)，其中：linear指输出维度为输入3倍的全连接层，j＝1，2，...，M；对应每个非重叠垂直带V_ij对应的自我注意的计算方法为

其中：Softmax为概率映射函数将数值映射到0-1之间的概率分布中，k为放缩因子，Dwconv是指用于学习特征图的位置信息的步长为1，填充为1，核为3×3深度可分离卷积，。垂直组注意力

经过自我注意后的特征输出即为每个垂直带自我注意后矩阵的拼接

对应地，水平组注意力

的计算即通过划分为非重叠水平带后进行同样流程，最后将垂直组与水平组经过自我注意后的特征输出在C维度进行矩阵合并，即为通过交叉自注意力模块后得到的蕴含全局信息的特征

所述的卷积上采样模块包括：2倍的双线性插值层、步长为1，填充为1，核为3×3的卷积层、批归一化层BN和激活函数Gelu。

所述的卷积解码模块用于融合上下尺度信息的特征模块，包括：一个步长为1，填充为1，核为3×3且输出维度为输入维度1/2的卷积层、一个步长为1，填充为1，核为3×3且默认输出维度与输入维度相同的卷积层、两组批归一化层BN和激活函数Gelu。

所述的特征转换单元如图3所示，包括：步幅为1的1×1卷积层、BN层和LeakyReLU，其中：1×1卷积层用于调整通道数量，以保持CNN和Transformer分支的通道一致性；BN层用于规范化Transformer分支的输出，使其与CNN分支保持一致。LeakyReLU提供非线性映射能力，加快分支融合。

所述的跳跃连接对编码阶段的输出经过特征转换单元后和对应解码阶段的输出在特征维度上进行拼接，该跳跃连接包括了1次通道维度上的求和操作。

所述的维度映射模块将包含上下文信息的特征图通过卷积上采样进行2倍的上采样，然后使用步长为1，填充为1，核为3×3且输出维度为对应分割类别的投影，得到分割掩码。

如图4所示，为本实施例涉及一种基于上述卷积增强交叉自注意力变形器的U型网络的图像分割方法，包括以下步骤：

步骤1)数据集制作：本实施例选用前列腺MRI横断面T2W的成像数据。将两个中心的数据对应的T2W图像由两位专业临床医生进行标签的勾画，并进行打包与配对，标签中勾画了前列腺的移行区(TZ)和外周带(PZ)，标签的尺寸与T2W的原图一一对应。

步骤2)划分数据集：对于MRI数据集按照8：2的比例划分训练集和验证集，均对训练集的数据使用了图像增强的方法来扩增数据量，包括：随机旋转5°、随机水平翻转、随机高斯模糊以及随机弹性变换。

步骤3)网络模型搭建：如图2所示，输入的图像为灰度图，图像使用中心裁剪的方法剔除图像无关区域，并重采样为1×224×224的尺寸。同时设置网络输入的批大小为24，因此，网络输入的维度为24×1×224×224，最终通过如表1所示的网络模型获取维度为24×3×224×224的输出，其中3为通道维度，分别为背景、PZ和TZ的分割掩码。

表1本实施例中各个模块的输入输出与结构参数。

经过具体实际实验，在Ubuntu 18.04系统的服务器上进行，该服务器具有CPU(Intel Core i7-9700K 32GB)和两个GPU(NVIDIA GeForce RTX 2080 8GB)，Pytorch 1.10用于实现算法。在本次图像分割任务中，初始学习率为0.01，使用Adamw优化器，Weightdecay设为0.0001。联合使用Dice损失函数L_D和交叉熵损失函数L_CE控制反向传播的方向，具体为：

其中：y_i ^j为像素，i为通道，j为图像中像素，H和W分别为输入图像的宽和长。

表2本实施例在MRI数据集上的实验结果。

与现有技术相比，本方法中的卷积嵌入模块以1/2的输入分辨率对上层获得的特征图重新编码，而不是直接发送到变形器中，解决了在SwinU-Net等纯变形器结构的网络中对线性嵌入的输入直接处理时，局部信息丢失和边缘锯齿的问题。卷积增强交叉自注意力变形器通过跳连接将上一级未处理的特征映射与提出的局部编码模块的特征映射融合，实现局部信息的残差学习，既完全保留了前馈层的输出，又加快了局部编码模块的收敛速度，防止梯度消失。通过引入基于十字形窗口的交叉自注意力模块，利用局部编码模块编码后的特征图结合残差连接提取全局特征，防止自注意力计算过程中局部信息被削弱。

本实施例使用MRI数据集通过网络输出预测结果。并进一步使用Dice系数(DC)和Jaccard相似性(JS)来评估分割结果。表2的结果表明，本实施例与现有技术相比，在MRI数据集上本方法取得最好的性能，PZ上的DC和JS分别为79.97％和74.30％，TZ上分别为87.39％和83.24％。PZ上的DC比排名第二的SwinU-Net高3.3％，JS比排名第二的SwinU-Net高3.9％，而在TZ上的分割精度在所有情况下也优于其他所有方法。

上述具体实施可由本领域技术人员在不背离本实施例原理和宗旨的前提下以不同的方式对其进行局部调整，本实施例的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本实施例之约束。

Claims

1.一种基于卷积增强交叉自注意力变形器的U型图像分割网络，包括：作为编码器的卷积嵌入模块、卷积合并模块和卷积增强交叉自注意力变形模块以及作为解码器的卷积上采样模块和卷积解码模块，其中：编码器由五个依次连接的子编码块组成，解码器由四个依次连接的子解码块组成，第一子编码块与第四子解码块直接跳跃连接，第二子编码块与第三子解码块之间、第三子编码块与第二子解码块之间、第四子编码块与第一子解码块之间分别通过用于消除语义鸿沟的特征转换单元进行跳跃连接，第五子编码块与第一子解码块直接连接，第四子解码块输出端设有卷积上采样模块和用于拼接编码的维度映射模块，维度映射模块将融合特征图通过卷积上采样的维度映射生成分割掩码，实现图像分割。

2.根据权利要求1所述的基于卷积增强交叉自注意力变形器的U型图像分割网络，其特征是，所述的第一子编码块包括卷积嵌入模块和对应的卷积合并模块，其中：卷积嵌入模块将输入图像嵌入为特征图并进行局部编码提取细节信息，卷积合并模块对特征图进行卷积降采样；

所述的第二至第四子编码块均包括卷积增强交叉自注意力变形模块和对应的卷积合并模块，其中：卷积增强交叉自注意力变形模块在同一级别的特征图上进行局部和全局特征学习，卷积合并模块对特征图进行卷积降采样；

所述的第五子编码块仅包括卷积增强交叉自注意力变形模块。

3.根据权利要求1所述的基于卷积增强交叉自注意力变形器的U型图像分割网络，其特征是，所述的第一至第四子解码块均包括卷积上采样模块和对应的卷积解码模块，其中：卷积上采样模块对编码器输出的特征图进行上采样，卷积解码模块对特征图通过跳跃连接和特征转换单元进行融合并进行降维和特征提取生成融合的特征图。

4.根据权利要求1或2所述的基于卷积增强交叉自注意力变形器的U型图像分割网络，其特征是，所述的卷积嵌入模块包括：用于高维度嵌入和降采样的第一卷积编码块和用于对嵌入后的特征图进行局部表示的第二卷积编码块；

5.根据权利要求1或2所述的基于卷积增强交叉自注意力变形器的U型图像分割网络，其特征是，所述的卷积合并模块通过内置的步长为2填充为1的3×3卷积层对输入的特征图进行局部信息融合后，进行下采样和层归一化LN，以加速后续编码的收敛速度。

6.根据权利要求1或2所述的基于卷积增强交叉自注意力变形器的U型图像分割网络，其特征是，所述的卷积增强交叉自注意力变形模块包括：局部编码模块和与其残差连接的交叉自注意力变形器、多层感知机MLP与两个层归一化单元LN，其中：局部编码模块对输入的特征图进行局部特征提取，交叉自注意力变形器对局部编码模块输出的特征图进行全局建模，从特征图中划分多个窗口并计算窗口内的自我注意和窗口之间的注意力得到蕴含全局信息的特征，多层感知机MLP和层归一化单元LN对同时包含局部和全局信息的特征图进行语义信息整合并加速收敛。

7.根据权利要求6所述的基于卷积增强交叉自注意力变形器的U型图像分割网络，其特征是，所述的窗口内的自我注意和窗口之间的注意力，通过以下方式计算得到：第l层的交叉自注意力变形器将局部编码模块归一化得到规整后的维度为

的特征输出

和水平组注意力hor-

然后分别进行交叉自注意力的计算。

8.根据权利要求6所述的基于卷积增强交叉自注意力变形器的U型图像分割网络，其特征是，所述的特征转换单元包括：步幅为1的1×1卷积层、BN层和LeakyReLU，其中：1×1卷积层用于调整通道数量，以保持CNN和Transformer分支的通道一致性；BN层用于规范化Transformer分支的输出，使其与CNN分支保持一致。

9.根据权利要求1所述的基于卷积增强交叉自注意力变形器的U型图像分割网络，其特征是，所述的维度映射模块将包含上下文信息的特征图通过卷积上采样进行2倍的上采样，然后使用步长为1，填充为1，核为3×3且输出维度为对应分割类别的投影，得到分割掩码。