CN115082293A

CN115082293A - 一种基于Swin Transformer和CNN双分支耦合的图像配准方法

Info

Publication number: CN115082293A
Application number: CN202210650873.1A
Authority: CN
Inventors: 李敏; 范盼; 王梦文
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-09-20

Abstract

本发明公开了一种基于Swin Transformer和CNN双分支耦合的图像配准方法。该方法包括以下步骤：1、对原始数据中所有图像进行执行灰度值归一化、中心裁剪和重采样等标准的预处理步骤；2、将浮动图像和固定图像拼接后送入配准网络，并行经过Swin Transformer和CNN两个编码器分支；3、在Swin Transformer的每一个阶段，通过双分支特征耦合模块将Swin Transformer特征映射与对应分辨率的CNN特征映射进行特征交互与融合；4、解码器自适应调整来自编码器的深层特征与来自上层的特征，最后输出浮动图像和固定图像之间的形变场；5、将浮动图像和形变场输入空间变换网络，得到配准图像。6、计算配准图像与固定图像之间的相似性损失以及形变场的正则化损失，经反向传播训练网络。本发明使用Swin Transformer与CNN双分支进行特征提取，充分利用两种分支的优点，实现了特征互补。

Description

一种基于Swin Transformer和CNN双分支耦合的图像配准方法

技术领域

本发明属于图像配准技术领域，具体地说，是一种有效提升图像配准性能的优化方法。

技术背景

可形变图像配准(Deformable image registration，DIR)是图像处理中的一项基本任务，具有重要的临床应用价值，近年来受到许多学者的关注。许多传统的配准方法通过迭代的方式来最小化代价函数。然而，这些方法涉及大量运算，配准一对图像需要大量时间。近年来，随着深度学习(Deep Learning，DL)的快速发展，基于深度学习的图像配准研究以其耗时短、精度高的优势吸引了研究者的广泛关注。一般来说，基于深度学习的方法可以分为有监督的方法和无监督的方法。在图像配准中，真实的形变场非常难以获取，而且人工标记的真实形变场可能会引入不必要的误差。因此，基于监督学习的方法一般通过传统算法或模拟形变获得的形变场标签。然而，这些方法的配准精度非常依赖生成的形变场的质量。基于无监督学习的方法因为不需要真实形变场，网络可以在配准图像与固定图像之间的相似性进行指导训练，所以在此方向上的研究在逐渐增加。近年来，大量基于卷积神经网络(Convolutional Neural Networks，CNN)的无监督图像配准方法相继被提出，且都具有良好的效果。然而，受制于卷积核的约束，CNN不能有效地捕捉运动和固定图像中的远距离映射关系，从而被限制了性能。

最近，基于Transformer的网络结构由于其强大的性能已被引入各种计算机视觉任务。与卷积运算不同，Transformer中的自注意机制具有无限大小的有效感受野，这使得Transformer能够捕获远程空间信息。尽管一般的Transformer具有很强的长程建模能力，能有效的捕捉长远的位置对应关系，但图像配准任务中的体素太多，网络很难寻找到真正的对应体素对。同时，由于卷积核的特性，CNN对局部细节信息的捕捉能力远胜于Transformer。此外，Transformer将原始图像划分为多个窗口，窗口与窗口间缺少交互。在图像配准任务中，由于固定图像和浮动图像对应体素对的位置不同，其很有可能分别存在两个不同的窗口中，从而其很难相互匹配。为增强局部关系的捕捉效率，Swin Transformer局部窗口自注意力，在提高性能的同时大大提高了效率。Swin Transformer在每个窗口下计算自注意力的，为了更好的和其他窗口进行信息交互，引入了移位窗口操作。移位窗口在一般的视觉任务中表现非常亮眼，在实际中，其是通过对特征图移位来间接实现的。在图像配准任务中，这样的操作的意义可能不大，不同窗口内对应点的位置关系仍然不能有效捕捉。CNN的卷积核在具有重叠的特征图上滑动，能有效的避免Transformer中不同窗口内对应点无法捕捉的情况。

发明内容

本发明公开了一种基于Swin Transformer和CNN双分支耦合的图像配准方法。该方法设计了一种新型双分支耦合的网络结构，网络结构为经典的编码器与解码器组成的U型网络。编码器由Swin Transformer分支和CNN分支组成，可有效利用基于Transformer的自注意力特征和基于CNN的卷积特征。采用特征耦合模块，通过交互的方式将SwinTransformer的特征映射与CNN的特征映射互补融合，充分促进两个编码器分支的特征表达能力，从而进一步提升配准性能。

实现本发明的技术解决方案为：一种基于Swin Transformer和CNN双分支耦合的图像配准方法，包括以下步骤：

第一步：对原始数据中所有图像进行执行灰度值归一化、中心裁剪、重采样和仿射变换这些标准的预处理；

第二步：将浮动图像和固定图像拼接后送入配准网络，并行经过SwinTransformer和CNN两个编码器分支；

第三步：在Swin Transformer的每一个阶段，通过双分支特征耦合模块将SwinTransformer特征映射与对应分辨率的CNN特征映射进行特征交互与融合；

第四步：解码器自适应调整来自编码器的深层特征与来自上层的特征，最后输出浮动图像和固定图像之间的形变场；

第五步：将浮动图像和形变场输入空间变换网络，得到配准图像；

第六步：计算配准图像与固定图像之间的相似性损失以及形变场的正则化损失，经反向传播训练网络。

本发明与现有技术相比，其显著特点在于：(1)并行设计Swin Transformer编码器和CNN编码器，同时融合了基于Swin Transformer的自注意力特征和基于CNN的卷积特征，增强模型的泛化能力。(2)采用双向交互机制，促进Swin Transformer与CNN的特征提取能力，同时对两者特征映射进行互补。(3)网络为无监督的端到端模型，各模块统一训练和推理，无需额外的标签进行训练(4)本发明方法配准速度块，配准精度高。

附图说明

图1是本发明的流程图。

图2是本发明的网络结构图。

图3是Swin Transformer Block示意图。

图4是双分支特征耦合模块结构图。

图5是固定图像和浮动图像及不同方法在LBPA40数据集中的配准图像示意图。

图6是不同方法在LBPA40数据集中配准图像与固定图像的差分示意图。

具体实施方式

本发明设计了一种基于Swin Transformer与CNN双分支耦合的配准网络，该方法采用并行设计，通过双向交互的方式使基于Swin Transformer的自注意力特征与基于CNN的卷积特征相互促进，增强各自特征表示，从而捕获输入运动和固定图像之间精准的空间对应关系。本发明的网络结构图参见图2。

下面结合说明书附图对本发明作进一步描述。

参见图1，对本发明的步骤进行详细的说明。

第一步，对原始数据中所有图像进行执行灰度值归一化、中心裁剪、重采样和仿射变换这些标准的预处理步骤。灰度值归一化步骤将图像灰度值收缩至[0,1]区间，其计算公式如下：

其中，I_min和I_max分别表示图像中灰度值最小值和最大值。

第二步，将浮动图像和固定图像拼接后送入配准网络，并行经过SwinTransformer和CNN两个编码器分支。将浮动图像和固定图像分别设为M和F。

在Swin Transformer分支中，首先将输入的图像分割成不重叠的3D图像块(Patch)，每个图像块的大小为2×P×P×P；以

表示第i个图像块，其中i∈{1，...，N}，

为图像块总数；每个图像块被展平并视为一个Token，然后使用线性映射层将每个Token投影到维度为C的特征表示：

其中，

表示线性映射，输出z₀的维度为N×C；

在线性映射层之后，该分支拥有4个连续的阶段。第1个阶段由一个线性映射层和多个Swin Transformer块组成；而其余3个阶段的每个阶段都由一个Patch Merging层和多个Swin Transformer块组成；Swin Transformer块输出与输入相同数量的Token，而PatchMerging层将每组2×2×2相邻Token的特征连接起来，从而产生8C维特征嵌入；随后使用线性层将表示的特征大小减小到2C；在该分支中，两个连续的Swin Transformer块的输出计算如下：

其中W-MSA和SW-MSA分别是常规和窗口分块的多头自注意力模块；

和z^l表示W-MSA和SW-MSA的输出；MLP和LN分别表示多层感知机和正则化层；计算移位窗口机制，采用3D循环移位计算自注意力，其计算公式为：

其中Q、K、V分别表示Query，Key，Value矩阵，d表示Query和Key的维度；

CNN分支采用特征金字塔结构，其中特征映射的分辨率随着网络深度而降低，但通道数逐层增加；统一采用3D卷积，卷积核大小为3×3×3，在每一个卷积后都跟随一个LeakyReLU层，并通过最大池化层进行下采样操作。

双分支的结构参见图2。

第三步，在Swin Transformer的每一个阶段，通过双分支特征耦合模块将SwinTransformer特征映射与对应分辨率的CNN特征映射进行特征交互与融合；CNN分支首先使用3×3×3卷积提取上层经下采样后的特征映射，然后通过1×1×1卷积自适应将该特征映射与Swin Transformer特征映射进行对齐，同时，使用LayerNorm模块对其实施正则化，并将其添加到Swin Transformer特征映射中；随后，Swin Transformer分支将融合后的特征送入Swin Transformer Blocks，得到新的特征表示；通过1×1×1卷积与BatchNorm模块对齐CNN特征映射后将其添加至CNN特征映射中；最后，使用一个3×3×3卷积自适应调整聚合特征，进一步提高配准精度。双分支特征耦合模块详情如图4所示。

第四步，第四步解码器自适应调整来自编码器的深层特征与来自上层的特征，最后输出浮动图像和固定图像之间的形变场

编码器特征映射通过跳跃连接与来自解码路径的上层特征映射连接，然后经过两个连续的3×3×3卷积层，并使用上采样层将特征映射的分辨率提高2倍；除了最后一个卷积层，每个卷积层之后都有一个LeakyReLU单元激活；最终，通过一个3×3×3的卷积得到输入图像对之间的形变场

具体过程可以参见图2。

第五步，将浮动图像和形变场输入空间变换网络，得到配准图像

空间变换网络用得到的形变场

对浮动图像M进行非线性扭曲。输出图像中，对于每个体素p，对八个相邻体素的值进行线性插值：

其中

是p′的相邻体素集合，q为该相邻体素集合中某一个体素，d为x，y，z三个方向的空间。

第六步，计算配准图像与固定图像之间的相似性损失以及形变场的正则化损失，经反向传播训练网络。网络的损失函数L的由图像相似项和形变场正则项组成，其计算公式为：

其中

表示图像相似度损失，

表示形变场正则化损失，λ表示正则化参数。采用图像配准领域中常用的局部归一化互相关(local normalized cross-correlation，LNCC)作为图像相似性损失，其计算公式为：

其中，Ω表述输入图像的空间域，p表示空间域内的体素，

和

表示以体素p为中心的大小为n³的局部窗口内的平均体素值。采用形变场梯度的L2范数作为正则化损失，其计算公式为：

其中

为Ω中相邻体素之间的差异场，在此作为梯度场。

本发明的效果可通过以下仿真实验进一步说明：

仿真条件

本发明仿真使用Mindbogle101和LBPA40两个三维大脑数据集。

Mindboggle101和LPBA40分别包含101个T1加权MR图像和40个T1加权MR图像。Mindboggle101每幅图像都有一个带有25个解剖标记的分割掩模，LPBA40每幅图像都有一个带有56个解剖标记的分割掩模。对于Mindbogle101数据集，选取NKIRS-22和NKI-TRT-20子集中42幅1722对图像用于训练，OASIS-TRT-20子集的20幅380对图像用于测试。在LPBA40数据集上，采用前30幅870对图像作为训练集，其余10幅90对图像作为测试集。以Dice系数和95％的豪斯多夫距离(HD95)对配准结果进行评价。Dice系数的数值越大，证明两个区域的重叠的部分越大，配准效果越好。HD95数值越小，证明两个区域中点集的距离越小，配准效果越好。

实验在Ubuntu18.04操作系统下进行，使用的硬件设施为两个显存11G的NVIDIAGeForce RTX 2080Ti GPU，软件环境为python3.7，模型基于Pytorch框架实现，采用Adam作为优化器，批量大小设置为1，学习率为1e-4，正则化参数λ在Mindbogle101数据集上设为1，在LBPA40数据集上设为5。

仿真内容

为测试本发明算法的性能，将提出的基于Swin Transformer和CNN双分支耦合的图像配准方法(Proposed)与目前国际上先进的其他配准算法对比。对比方法包括：VoxelMorph(VM)、Vit-V-Net(V-V-N)和TransMorph(TM)等。同时，为了证明本发明方法中Swin Transformer与CNN双编码器分支融合的有效性，对VoxelMorph-Huge(VM-H，增加卷积层通道数量)与TransMorph-Large(TM-L，增加嵌入维度C、Swin Transformer Blocks数量和Head数量)也进行了比较。所有对比实验的超参数保持一致。

仿真实验结果分析

表1显示了两个评价指标在两个数据集中的初始值、各种对比方法的结果与本发明方法的结果，同时还给出了各方法的推理时间。可以看出，与其他方法相比，本发明方法在Mindbogle101和LBPA40数据集的测试集上的配准精度最好。与VoxelMorph-Huge和Transmorph-Large相比，本发明方法在推理时间更少的情况下配准精度更高，证明了本发明方法中Swin Transformer与CNN双分支互补融合的有效性。本发明方法与对比方法的效果图参见图5-6。以上两组真实数据集的仿真实验结果表明了本发明方法的有效性。

表1

Claims

1.一种基于Swin Transformer和CNN双分支耦合的图像配准方法，其特征在于，包括以下步骤：

第二步：将浮动图像和固定图像拼接后送入配准网络，并行经过Swin Transformer和CNN两个编码器分支；

2.根据权利要求1所述的基于Swin Transformer和CNN双分支耦合的图像配准方法，其特征在于，第一步对原始数据中所有图像进行执行灰度值归一化、中心裁剪、重采样和仿射变换这些标准的预处理；

灰度值归一化步骤将图像灰度值收缩至[0,1]区间，其计算公式如下：

其中，I_min和I_max分别表示图像中灰度值最小值和最大值。

3.根据权利要求1所述的基于Swin Transformer和CNN双分支耦合的图像配准方法，其特征在于：第二步将浮动图像和固定图像拼接后送入配准网络，并行经过SwinTransformer和CNN两个编码器分支的实现方法为：在处理后的数据中，随机挑选浮动图像和固定图像，并将两者拼接后送入配准网络，并行经过Swin Transformer和CNN两个编码器分支；其中浮动图像和固定图像分别设为M和F；

表示第i个图像块，其中i∈{1，...，N}，

其中，

表示线性映射，输出z₀的维度为N×C；

在线性映射层之后，该分支拥有4个连续的阶段；第1个阶段由一个线性映射层和多个Swin Transformer块组成；而其余3个阶段的每个阶段都由一个Patch Merging层和多个Swin Transformer块组成；Swin Transformer块输出与输入相同数量的Token，而PatchMerging层将每组2×2×2相邻Token的特征连接起来，从而产生8C维特征嵌入；随后使用线性层将表示的特征大小减小到2C；在该分支中，两个连续的Swin Transformer块的输出计算如下：

4.根据权利要求1所述的基于Swin Transformer和CNN双分支耦合的图像配准方法，其特征在于：第三步在Swin Transformer的每一个阶段，通过双分支特征耦合模块将SwinTransformer特征映射与对应分辨率的CNN特征映射进行特征交互与融合；CNN分支首先使用3×3×3卷积提取上层经下采样后的特征映射，然后通过1×1×1卷积自适应将该特征映射与Swin Transformer特征映射进行对齐，同时，使用LayerNorm模块对其实施正则化，并将其添加到Swin Transformer特征映射中；随后，Swin Transformer分支将融合后的特征送入Swin Transformer Blocks，得到新的特征表示；通过1×1×1卷积与BatchNorm模块对齐CNN特征映射后将其添加至CNN特征映射中；最后，使用一个3×3×3卷积自适应调整聚合特征。

5.根据权利要求1所述的基于Swin Transformer和CNN双分支耦合的图像配准方法，其特征在于：第四步解码器自适应调整来自编码器的深层特征与来自上层的特征，最后输出浮动图像和固定图像之间的形变场