CN116051945A

CN116051945A - 一种基于CNN-Transformer并行融合方法

Info

Publication number: CN116051945A
Application number: CN202310041351.6A
Authority: CN
Inventors: 袁宝华; 陈佳璐; 李宁; 肖德豪; 汤瑞
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2023-01-13
Filing date: 2023-01-13
Publication date: 2023-05-02

Abstract

本发明涉及图像处理技术领域，尤其涉及一种基于CNN‑Transformer并行融合方法，包括：通过PCTNet网络的编码器提取待分割的医学图像特征，PaFusion‑encoder由两个分支组成；CNN分支感受野逐渐增大，特征编码从局部到全局；Transformer分支，采用全局自注意力与CNN分支中同等分辨率大小的特征图组成的并行融合模块，最大限度地保留了局部特征和全局特征。本发明通过充分挖掘CNN和Transformer各自的优点，提出基于医学图像分割的CNN和Transformer并行融合网络，进而整合图像中粗粒度和细粒度信息。

Description

一种基于CNN-Transformer并行融合方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于CNN-Transformer并行融合方法。

背景技术

医学图像分割的目的是使图像中解剖或病理结构的变化更加清晰，在各种计算机辅助诊断任务中发挥着关键作用；例如：病变轮廓，手术计划和三维重建等。医学图像分割有助于检测和定位图像中病变的边界，从而有助于快速识别肿瘤和癌变区域的潜在存在，这将有可能帮助临床医生节省诊断时间，提高发现肿瘤的可能性。

传统上，医学图像分割算法通常被构建为对称的自顶向下编码器-解码器结构，U-Net已经成为不同的变体中的选择基准，并取得了巨大的成功。U-Net由卷积组成，而卷积的优点是具有局部连接、权值共享两种特性的卷积算子，从而使得模型具有等变性。虽然这些特性有助于开发高效和通用的医学成像解决方案，但它们仍然需要额外的改进，以便真正帮助临床医生进行早期疾病诊断。

目前已经提出了各种在CNN中添加全局上下文的改进方法，比较有影响的方法有引入注意机制以及扩展卷积核以增加核的感受域。然而，卷积层中感受野的局部性仍然将它们的学习能力限制在相对较小的区域，阻止了网络利用来自输入图像的长距离语义依赖性，无法充分探索对象级信息，尤其是对于在器官的纹理、形状和大小方面通常产生较弱的性能，表现出较大的患者间差异。

ViT在自然图像的成功激起了医学界的极大兴趣，研究者们探讨了在医学图像分割背景下Transformer的潜力，减轻CNN固有的感受野偏差，使其适用于医学成像应用。然而，基于Transformer的模型的性能在很大程度上取决于预训练，它们的实验也验证了这一观点，同样预训练也会帮助医学图像分割。但基于Transformer的模型的预训练过程带来了两个问题；首先，预训练过程通常会在时间或计算消耗方面产生高计算复杂性；其次，对于医学图像，用于预训练的完整且公认的大型数据集很少(相比之下，ImageNet可用于自然场景图像)，因为医学图像并不总是可用的，需要专业人士花费大量时间进行注释。并且自然图像和医学图像之间的领域鸿沟使得医学图像分割模型很难直接使用现有的大型自然图像数据集，此外在不同类型的医学图像也存在一些开放的挑战，例如，由于CT和MRI图像之间存在较大的区域差距，在CT数据集上预先训练的Swin UNETR在直接应用于其他医学成像模式(如MRI)时表现不佳。

充分挖掘CNN和Transformer各自的优点，有效地整合图像中粗粒度和细粒度信息的深度学习模型能够达到更好的分割精度，成为研究者们热衷的研究方向。例如，TransUNet在由CNN组成的编码器和解码器之间引入了Transformer；UCTransNet通过Transformer桥接从编码器到解码器的所有阶段，而不只是相邻阶段，捕获了多尺度的全局依赖性；MT-Unet交织Transformer和CNN块到一个混合模型，其中卷积可以编码精确的空间信息和自我注意可以捕获全局上下文。这些架构从宏观上实现了Transformer和CNN的串行组合；然而，在串行组合中，若只是采用堆叠的方式融合粗粒度和细粒度特征，会导致这两类网络的融合效果降低，不能充分发挥其互补的潜力。

发明内容

针对现有算法的不足，本发明通过充分挖掘CNN和Transformer各自的优点，提出基于医学图像分割的CNN和Transformer并行融合网络(简称为PCTNet)，进而整合图像中粗粒度和细粒度信息。

本发明所采用的技术方案是：一种基于CNN-Transformer并行融合方法，包括以下步骤：

步骤一、通过PCTNet网络的编码器提取待分割的医学图像特征；

进一步的，PCTNet网络的编码器由CNN-encoder和PaFusion-encoder组成，将待分割医学图像输入CNN-encoder和PaFusion-encoder；PaFusion-encoder由两个分支组成；CNN分支感受野逐渐增大，特征编码从局部到全局；Transformer分支，则通过全局自注意力和CNN分支中同等分辨率大小的特征图组成的并行融合模块，最大限度地保留了局部特征和全局特征。

进一步的，CNN-encoder包含一个Stem块和两个Local layer层；给定高度为H、宽度为W的输入图像，由CNN-encoder F^CNN(·)生成的特征图表示为：

其中，L表示特征层数，Θ表示CNN-encoder的参数，C表示通道的数量，F_l ^CNN为CNN-encoder生成第l层特征图函数。

进一步的，Stem块由两个3×3卷积组成，每个卷积块后面是BN模块和GELU激活函数，用于提取初始局部特征。

进一步的，Local layer层由三层卷积块和一层SE模块组成，两个Local layer层中SEConv block的个数分别是2和6。

进一步的，PaFusion-encoder由Parallel fusion Layer和Patch Embedding组成，Patch Embedding通过卷积将输入图像均匀划分为

块；Parallel fusionLayer包括CNN分支和Transform分支，给定高度为H、宽度为W的输入图像，由PaFusion-encoder的F^PaFusiom(·)生成的特征图表示为：

其中，L表示特征层数，Θ表示CNN-encoder的参数，C表示通道数量，

为PaFusion-encoder生成第l层特征图函数；

Parallel fusion Layer存在两个输入F_t、F_c，F_t是Transformer分支上的输入，F_c是与F_t相同分辨率的CNN分支上的输入。

进一步的，并行融合模块对图像提取图像特征的过程包括：

(1)、F_c′是与F_t分辨率和通道数一致CNN分支上提取特征后形成的特征图，F_c′的公式为：

F_c'＝gelu(Normal(Conv(F_c)))，

(2)、F_t和F_c′相加得到特征图F与F_t一同作为输入进行卷积映射，F_t通过3×3的卷积映射生成V_t，F通过3×3的卷积映射生成Q_f、K_f；

F＝F'_c+F_t，

Q_f/K_f＝Flatten(Conv2d(F),s)，

V_t＝Flatten(Conv2d(F_t),s)，

(3)、将得到的Q_f、K_f、V_t进行多头自注意力，表示为：

MHSA(Q_f,K_f,V_t)，

MHSA中每个头部的自我注意力计算如下：

其中，Q、K、V∈R^L×d为query、key和value矩阵，经过卷积投影得到，d为query/key维，B∈R^L×L为相对位置偏差；

(4)、将经过多头自注意力的特征图进行一次CMLP，CMLP由两层1×1卷积层组成，经过CMLP后得到的输出F_t′作为下一个融合模块中Transformer分支的输入，并与CNN分支上同等分辨率大小的特征图进行融合；

(5)、当Transformer分支融合到CNN分支时，采用Spatial Attention得到特征的空间注意力权重图，计算如下：

其中，σ表示sigmoid函数，

和

分别表示average-pooling特征和max-pooling特征；

(6)、将注意力图乘以CNN分支上的特征图，与Transformer分支上特征图F_t′进行拼接，并使用1×1卷积进一步融合特征，最后的输出作为下一个融合模块中CNN分支的输入；

(7)、Parallel fusion Layer的最后一层并行融合模块，CNN分支上的输出会与Transformer分支上的输出进行Element-wise addition后再经过Upsample作为编码层的输入。

步骤二、对步骤一生成图像特征输入解码器中进行还原并输出分割特征图；

本发明的有益效果：

1、高分辨率特征提取细粒度的局部信息，并进行深度卷积；考虑到低分辨率特征本身包含更多的全局信息，特征预测能够融合长距离的全局信息，自我注意机制更容易捕获深层信息。

2、低分辨率特征通过并行融合模块的操作将CNN和Transformer并行融合处理，从而利用自注意机制的强大远程依赖能力产生精确的医学图像分割；考虑到两种网络特征的互补性，CNN和Transformer的并行融合模块连续地从Transformer分支获取的全局上下文提供给特性映射，以增强CNN分支机构的全局感知能力；

3、CNN分支的局部特征被逐步反馈到Transformer中，以丰富Transformer分支的局部细节，构成了交互融合特征；最终能实现局部-全局特征互补，提升分割网络的编码能力；

4、相较于串行的组合，采用CNN与Transformer并行的操作使得模型能够连续地同时对局部和全局特征进行建模；此外因为在进行CNN和Transformer的融合的同时获取局部和全局特征，所以并行组合的信息交互会更加紧密、特征融合的更加彻底；在保持底层特性的细节和建模长期依赖性方面达到了平衡，能够结合卷积运算和自注意力机制两者的优点来增强表示学习；

5、本发明的PCTNet与U-Net、TransUNet、UCTransNet、MT-UNet和Swin Unet进行对比，PCTNet的平均Dice相似系数指标和平均豪斯多夫距离指标明显优于现有算法。

附图说明

图1是本发明的基于CNN-Transformer并行融合方法原理框图；

图2是本发明的并行融合模块图；

图3是本发明方法与U-Net、TransUNet、UCTransNet、MT-UNet和Swin UNet可视化的比较效果图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明，此图为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示，一种基于CNN-Transformer并行融合方法，包括以下步骤：

将医学图像分割数据集(例如Synapse多器官分割数据集)剪裁为224×224大小的图片，并划分为训练和验证以及测试三部分；

步骤一、搭建PCTNet网络，编码部分提取医学图像特征，解码部分对图像进行还原并输出最终分割特征图；

搭建PCTNet网络具体方案：

(1)本发明采用U型分层的编码器和解码器架构，编码器主要是由CNN-encoder和PaFusion-encoder(Parallel Fusion，PaFusion)组成，编码器通过跳过连接与解码器连接；PaFusion-encoder由两个分支组成，以不同的方式处理信息：1)CNN分支，接收野逐渐增大，特征编码从局部到全局；2)Transformer分支，进行全局自注意力和CNN分支中同等分辨率大小的特征图组成的并行融合模块，最大限度地保留了局部特征和全局特征。

从两个分支提取的具有相同分辨率的特征被输入到并行融合模块中，在并行融合模块中依次进行CNN分支到Transformer分支和Transformer分支到CNN分支的特征融合，构成了相互融合特征，最终能实现两者特征互补；并行分支方法有三个优点：首先，CNN分支逐步提取低层次的高分辨率特征以获得精细的空间信息，不仅能帮助Transformer获取丰富的特征而且有利于其加速收敛。其次，在不构建非常深的网络的情况下Transformer分支可以捕获全局信息，同时保持对低级上下文的敏感性；最后，并行融合模块可以在特征提取期间同时利用CNN和Transformer的不同特性，从全局和局部特征不断聚合层次化表示(Hierarchical Representation)，充分发挥两者的优越性。

(2)CNN-encoder采用特征金字塔结构，特征图的分辨率随着网络深度的增加而降低，感受野逐渐增大，通道数也逐渐增加，特征编码从局部到全局；CNN-encoder包含一个Stem块和2个Local layer；给定高度为H、宽度为W的输入图像x，由CNN-encoder的F^CNN(·)生成的特征图表示为：

如图1所示，Stem块由两个3×3卷积组成，其步长分别为1和2，每个卷积块后面是Batch-Normalization(BN)和GELU激活函数，用于提取初始局部特征(例如，边缘和纹理信息)；Local layer由三层卷积块和一层Squeeze-and-Excitation Networks中提出的Squeeze-and-Excitation(SE)模块组成的SEConv block堆叠组成，2个Local layer中SEConv block的个数分别是2和6；高效轻量级的SE模块可以无缝集成到CNN架构中，能帮助PCTNet网络增强局部细节，抑制无关区域，通过建模通道之间的关系来矫正通道特征，提升神经网络的表征能力。

(3)在CNN-encoder中，通过卷积运算以层级方式收集局部特征，并将局部线索保留为特征图；而PaFusion-encoder通过级联的自注意力模块以一种并行方式融合CNN的特征表示，最大限度地保留了局部特征和全局特征。PaFusion-encoder由Parallel fusionLayer和Patch Embedding组成，Parallel fusion Layer由6层并行融合模块叠加组成；Parallel fusion Layer存在两条分支，分别是CNN分支和Transform分支，它们对信息的处理方式不同；CNN分支通过卷积运算在有限的感受野下获取丰富的局部特征；Transformer分支则通过Attention机制在进行全局自注意力。

给定高度为H、宽度为W的输入图像x经过Patch Embedding的输出作为Transformer分支上输入；Patch Embedding是将输入图像x均匀划分为

块，以保持其与卷积层的局部连续性；其中S(卷积步长)设置为16；将得到的Transformer分支特征图F_t同CNN-encoder输出的特征图F_l ^CNN(x；Θ)一起输入到并行融合模块，在计算复杂度有限的情况下学习远程依赖和局部上下文；由PaFusion-encoder F^PaFusiom(·)生成的特征图表示为：

其中，L表示特征层数，Θ表示CNN-encoder的参数，C表示通道数量，F_l ^PaFusion为PaFusion-encoder生成第l层特征图函数。

Transformer分支中通过Patch Embedding将图像块投影到向量中，会导致局部细节丢失；而在CNN中，卷积核在重叠的特征图上滑动，这提供了保留精细局部特征的可能性；因此，CNN分支能够连续地为Transformer分支提供局部特征细节。

(4)局部特征和全局特征是一个图像完全不同的两种表征；前者专注于细粒度细节，有利于微小物体检测和像素级定位，而后者旨在建模远程部件之间的对象级关系；为了有效地结合CNN和Transformer的编码特征，提出了一种并行融合模块，能以交互方式将卷积的局部特征与基于Transformer的全局特征融合。

并行融合模块存在两个输入F_t和F_c，F_t是Transformer分支上的输入，F_c是与F_t相同分辨率的CNN分支上的输入，F_c′是与F_t分辨率和通道数一致CNN分支上提取特征后形成的特征图；F_c′的公式为：

F_c'＝gelu(Normal(Conv(F_c)))，

Transformer是在全局的token之间聚合信息，然而CNN仅在卷积核有限的局部视野中进行聚合信息，这就导致Transformer与CNN之间存在一定的特征语义差异；因此，通过叠加CNN与Transformer的特征图，自适应融合具有二者共同信息的自注意力权重，从而达到计算local和global token之间的相互关系。

F_t和F_c′相加得到特征图F与F_t一同作为输入进行卷积映射；F_t通过3×3的卷积映射生成V_t，F通过3×3的卷积映射生成Q_f、K_f；

F＝F'_c+F_t，

Q_f/K_f＝Flatten(Conv2d(F),s)，

V_t＝Flatten(Conv2d(F_t),s)，

将得到的Q_f、K_f、V_t进行多头自注意力，可以表示为：

MHSA(Q_f,K_f,V_t)，

Multi-Head Self-Attention(MHSA)中每个头部的自我注意力计算如下：

其中，Q、K、V∈R^L×d为query、key和value矩阵，经过卷积投影得到，d为query/key维，B∈R^L×L为相对位置偏差；先参数化一个更小的偏差矩阵

B的值取自

之后进行一次CMLP(Convolution Multi-layer Perceptron)，CMLP由两层1×1卷积层组成；如图2所示，经过CMLP后得到的输出Ft′会作为下一个融合模块中Transformer分支的输入，同时与CNN分支上同等分辨率大小的特征图进行融合。

考虑到CNN和Transformer具有不同的感受野，因此CNN和Transformer提取的特征存在不对称性；同时，这些特征所反映的信息在空间上有很大的差距；当Transformer分支融合到CNN分支时，对其采用Spatial Attention得到特征的空间注意力权重图，计算如下：

其中，σ表示sigmoid函数，

和

分别表示average-pooling特征和max-pooling特征。

将该注意力图乘以CNN分支上的特征图，以实现空间信息特征增强；Transformer分支上特征图F_t′进行拼接，并使用1×1卷积进一步融合特征；最后的输出作为下一个融合模块中CNN分支的输入；Parallel fusion Layer的最后一层并行融合模块，CNN分支上的输出会与Transformer分支上的输出进行Element-wise addition后再经过Upsample作为编码层的输入。

PCTNet中与编码器相应的解码器以纯卷积模块构建，它由4个上采样步骤组成，解码隐藏特征，输出最终的分割掩码；解码器为现有技术的解码器，具体参照文献：J.Chen,Y.Lu,Q.Yu,X.Luo,E.Adeli,Y.Wang,L.Lu,A.L.Yuille,Y.Zhou,Transunet:Transformersmake strong encoders for medical image segmentation,arXiv preprint arXiv:2102.04306.或O.Ronneberger,P.Fischer,T.Brox,U-net:Convolutional networks forbiomedical image segmentation,in:N.Navab,J.Hornegger,W.M.Wells,A.F.Frangi(Eds.),International Conference on Medical Image Computing and Computer-Assisted Intervention(MICCAI),Springer International Publishing,Cham,2015,pp.234–241。

在解码器的入口，首先对转换后的特征映射应用双线性插值，将其分辨率提高2倍；然后，将调整过大小的特征映射与前一层的特征映射拼接起来，并将它们输入到连续的3×3卷积层；这个过程对所有其他后续层重复，直到特征图恢复原始输入分辨率的一半，对其最终输出应用双线性插值提高分辨率2倍，最后送入一个1×1的卷积层，生成像素级语义预测。

编码器和解码器通过跳接和拼接运算融合编码器的语义信息，以获得更多的上下文信息；CNN-encoder的三层输出依次跳转连接到解码器的三层中恢复局部空间信息来增强更精细的细节；PaFusion-encoder为CNN和Transformer的并行融合层，输出到解码层的是融合二者特征后的特征输出。

使用PCTNet网络对医学图像分割数据集进行检测，判断医学图像像素区域，输出医学图像分割结果，实验结果如下：

使用相同的图片尺寸和预处理在Synapse多器官分割数据集上进行实验，并将本发明的PCTNet与U-Net、TransUNet、UCTransNet、MT-UNet和Swin UNet各种基于Transformer或者CNN的主要方法进行比较，结果如表1所示。

表1：不同方法在Synapse数据集上的分割性能(平均Dice相似系数(DSC)，单位为％；平均豪斯多夫距离(HD)，单位mm)。

Method	DSC(％)↑	HD(mm)↓
			U-Net	76.85	39.70
TransUnet	77.48	31.69
			UCTransNet	78.23	26.75
MT-UNet	78.59	26.59
			SwinUnet	79.13	21.55
PCTNet	81.59	14.47

同时为了直观地展示PCTNet模型的性能，将Synapse数据集上PCTNet模型的一些定性结果与U-Net、TransUNet、UCTransNet、MT-UNet和Swin UNet进行了可视化的比较；如图3所示，使用方框突出显示区域；其中PCTNet的性能优于其他方法；具体来看：PCTNet能够在平均HD和DSC上分别超过SwinUNet超过7.08mm和2.46％。对于一些难以分割的特定器官，PCTNet具有更好的捕捉远程依赖性的能力，如图3第一行中，对比其他模型PCTNet可以更好地分割出形状又长又窄的胰腺。在大器官的识别上，PCTNet在识别和勾画胃轮廓方面具有更好的准确性，如第二行所示，PCTNet分割的结果与真实标签基本一致。在小器官的识别上，PCTNet存在一定的优势，如第三行所示，在胆囊的识别上，个别模型会出现不能完全识别的情况。PCTNet能够在器官交界处更加精准的识别，如第四行所示，在肝脏和胃的交界处，而其他三个模型会出现一些错误，表明PCTNet的方法是有效的。可视化直观地展示了PCTNet的高分割精度，尤其是在一些难以分割的切片上。优异的性能归功于PCTNet中的并行融合模块，该模块在关注大器官的同时也能够兼顾局部的小器官，显示出PCTNet在学习高级语义特征和底层细节方面的强大表征能力，在医学图像分割中是至关重要的。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于CNN-Transformer并行融合方法，其特征在于，包括以下步骤：

步骤二、对编码器生成图像特征输入解码器中进行还原并输出分割特征图。

2.根据权利要求1所述的基于CNN-Transformer并行融合方法，其特征在于：PCTNet网络的编码器由CNN-encoder和PaFusion-encoder组成，将待分割医学图像输入CNN-encoder和PaFusion-encoder；PaFusion-encoder由两个分支组成；CNN分支感受野逐渐增大，特征编码从局部到全局；Transformer分支，则通过全局自注意力和CNN分支中同等分辨率大小的特征图组成的并行融合模块，最大限度地保留了局部特征和全局特征。

3.根据权利要求2所述的基于CNN-Transformer并行融合方法，其特征在于，CNN-encoder包含一个Stem块和两个Local layer层；给定高度为H、宽度为W的输入图像，由CNN-encoder F^CNN(·)生成的特征图表示为：

4.根据权利要求3所述的基于CNN-Transformer并行融合方法，其特征在于：Stem块由两个3×3卷积组成，每个卷积块后面是BN模块和GELU激活函数，用于提取初始局部特征。

5.根据权利要求3所述的基于CNN-Transformer并行融合方法，其特征在于：Locallayer层由三层卷积块和一层SE模块组成，两个Local layer层中SEConv block的个数分别是2和6。

6.根据权利要求2所述的基于CNN-Transformer并行融合方法，其特征在于：PaFusion-encoder由Parallel fusion Layer和Patch Embedding组成，Patch Embedding通过卷积将输入图像均匀划分为

块；Parallel fusion Layer包括CNN分支和Transform分支，给定高度为H、宽度为W的输入图像，由PaFusion-encoder的F^PaFusiom(·)生成的特征图表示为：

其中，L表示特征层数，Θ表示CNN-encoder的参数，C表示通道数量，F_l ^PaFusion为PaFusion-encoder生成第l层特征图函数；

7.根据权利要求2所述的基于CNN-Transformer并行融合方法，其特征在于，并行融合模块对图像提取图像特征的过程包括：

F_c'＝gelu(Normal(Conv(F_c)))，

F＝F′_c+F_t，

Q_f/K_f＝Flatten(Conv2d(F),s)，

V_t＝Flatten(Conv2d(F_t),s)，

(3)、将得到的Q_f、K_f、V_t进行多头自注意力，表示为：

MHSA(Q_f,K_f,V_t)，

MHSA中每个头部的自我注意力计算如下：

其中，σ表示sigmoid函数，

和

分别表示average-pooling特征和max-pooling特征；