CN116805318A

CN116805318A - 一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法

Info

Publication number: CN116805318A
Application number: CN202310699196.7A
Authority: CN
Inventors: 雷涛; 孙瑞; 杜晓刚; 杨子瑶; 薛明园; 闵重丹
Original assignee: Shaanxi University of Science and Technology
Current assignee: Shaanxi University of Science and Technology
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-09-26

Abstract

本发明公开了一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法，提高对医学图像中微小病灶与形变较大的目标感知以及对分割目标与背景之间的判别能力。动态可变形卷积通过任务自适应学习，可以灵活改变权重系数和形变偏置，增强对图像局部特征的表达能力，实现对空间特征的自适应提取。滑窗自适应互补注意力机制通过权重系数自适应学习的自注意力分支实现对医学图像跨维度的全局建模，滑窗自适应互补注意力机制弥补了常规对空间与通道之间跨维度关系建模不足的缺陷，能够捕获图像中跨维度的长距离关联特征。且并行交互的方式结合不同分辨率下的局部与全局特征来增强表征学习，最大限度的保留医学图像中的局部特征与全局特征。

Description

一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法

技术领域

本发明属于图像处理技术领域以及模式识别领域，具体涉及一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法。

背景技术

医学图像分割在医学图像处理领域扮演着十分重要的角色，同时也是计算机辅助诊断和治疗系统的核心技术之一。传统方法依靠专业且经验丰富的医生对大量的医学图像数据进行手工标注与分割，不仅费时费力，而且容易受到主观因素的影响。近年来，随着人工智能，计算机技术的快速发展，研究人员在大量实验的基础上，开发出了许多新的医学图像自动分割算法。现有的医学图像分割方法主要是基于深度学习的方法，这些方法大致可以分为基于CNNs和基于Transformer网络两大类。

基于深度学习的算法能够通过多层网络结构学习医学图像的高维特征信息。在各种与医学图像分割相关的深度学习网络中，卷积神经网络(Convolutional NeuralNetworks，CNNs)的表现极具出色。CNNs能够有效的从大规模医学数据集中学习到区分特征和提取先验知识的能力，使其成为了现代智能医学影像分析系统的重要组成部分。2015年，Ronnebreger等人受到FCN网络的启发，在ISBI cell tracking challenge中设计出了第一个用于医学图像分割的端到端网络U-Net。U-Net网络是一种对称的编解码结构，其独特的设计结构可以充分利用医学图像的局部细节信息，降低网络对训练数据集的依赖。因此，在数据集较小的情况下，U-Net网络仍然能够取得好的医学图像分割效果。Alom等人通过将U-Net、ResNet和循环神经网络(RCNN)相结合的方式，设计出了R2U-Net，该网络在血管、视网膜等多个医学图像分割数据集中都获得了很好的表现。紧接着Gu等人将动态卷积引入到U-Net中，提出了CA-Net。经过在医学数据集中的实验证明，CA-Net不仅能够提升医学图像的分割精度，而且能够减小模型的训练时间。在U-Net的基础上，Yang等人借鉴了残差连接和可变形卷积的思想，在U-Net中增加了一个残差可变形卷积(residual deformableconvolution)，提出了DCU-Net。DCU-Net在DRIVE医学数据集上表现出了比U-Net更加先进的分割效果。Lei等人在U-Net基础上设计出了SGU-Net，提出的超轻卷积模块和additionaladversarial shape-constraint可以通过自监督训练显著提高腹部医学图像的分割精度。CNNs虽然在网络结构上取得了很大的进步，但是其成功的主要因素归功于处理不同尺度时的不变性和局部建模时的归纳偏置。这种固定的感受野虽然提高了CNNs的计算效率，但是限制了其捕获医学图像中远距离像素点之间关系的能力，缺乏对医学图像的长程建模能力。

2017年，Vaswani等人提出了首个Transformer网络，因为其独特的设计结构，使Transformer具有不定长输入、建立长程依赖建模和捕获全局信息的能力。Transformer的成功主要归功于自注意力机制(self-attention mechanism，SA)，因为其能够捕捉长距离依赖关系。随着Transformer在NLP任务中取得了优异的表现，ViT将Transformer首次应用于图像处理领域，通过多个级联的Transformer层来捕获输入图像的全局上下文信息，使得Transformer在图像分类任务中取得了巨大成功。紧接着Chen等人提出了TransUNet，该网络的出现迎来了Transformer用于医学图像分割领域的全新局面。由于TransUNet直接将NLP中的Transformer模型用于图像分割领域，所以导致输入的图像块大小固定且计算量大。Valanarasu等人针对TransUNet存在的缺陷，结合门控机制提出了MedT，该网络加入门控机制后使得模型在训练不同大小的医学数据集时可以自动调节门控参数，获得适合当前数据集的位置嵌入权重。由于图像比文本更多样，且分辨率高。Cao等人结合SwinTransformer中的滑窗多头自注意力(shifted window multi-head self attention,SW-MSA)提出了用于医学图像分割的纯Transformer网络Swin-Unet。Swin-Unet在Synapse和ACDC多器官分割数据集中都取得了当时最先进的分割性能。为了更好的将Transformer用于处理皮肤病变图像数据，Wang等人融合边缘检测思想设计出了BAT网络。所提出的boundary-wise attention gate(BAG)能够充分利用图像边界的先验知识捕获医学图像更多的细节信息。使得BAT在皮肤病变数据集上取得了惊人的分割效果，超过了许多最新的医学图像分割网络。

尽管上述网络在医学图像分割领域获得了巨大成功，但是这些网络仍然存在以下两个问题：首先，这些网络在对图像的局部特征建模时忽略了器官的形变和病灶的不规则问题，导致对形变较大的器官和病灶的局部特征表达能力较弱。其次，这些网络在对图像进行全局特征建模时忽略了特征图空间与通道之间的相关性，导致自注意力表达不充分。

发明内容

为了解决现有技术中的问题，本发明提供了一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法，通过基于CNNs和Transformer融合架构的动态可变形卷积和滑窗自适应互补注意力机制，从有限的人体医学标注数据中探索目标器官的几何形状特征、局部细节特征和全局语义特征，并通过CNNs和Transformer并行交互的方式紧密结合不同分辨率下的局部与全局特征，来增强表征学习，最大限度的保留医学图像中的局部特征和全局特征。

为了实现以上目的，本发明所采用的技术方案包括：

1)加载医学图像数据集并进行预处理；

2)构建CNNs与Transformer融合网络并进行训练，CNNs与Transformer融合网络由双支路网络并行交互组成，动态可变形卷积操作在CNNs分支内，滑窗自适应互补注意力机制在Transformer分支内；动态可变形卷积能够根据特定的医学图像分割任务和数据分布，自适应地学习卷积核形变偏移量和卷积核权重系数，同时通过网络的反向传播实现端到端的训练，从而实现卷积核形状与权重的双重变化；滑窗自适应互补注意力机制具有四个可学习参数的Transformer自注意力分支，能够提取空间内的图像全局信息，并捕获空间与通道之间跨维度的长距离相关特征；

3)输出CNNs分支和Transformer分支各自的分割预测结果；对分割预测结果进行融合判别，输出最终优化的分割结果。

进一步地，所述预处理包括：将数据集原始图像尺寸统一调整为224×224；对原始数据集中的图像进行随机缩放操作，缩放比例在0.9到1.5之间；按0.5的比例对原始数据集中的图像进行随机垂直翻转、水平翻转、90°旋转或270°旋转。

进一步地，所述动态可变形卷积中卷积核的形状变化是基于网络对形变偏移量的学习，网络首先利用方形卷积核S对输入特征图X进行采样，接着与权重矩阵M进行加权求和；形变偏移量的学习中3×3的卷积核表示为：

S＝{(0,0),(0,1),(0,2),…,(2,1),(2,2)}

此时输出特征图Y中的每个位置坐标表示为：

当在权重矩阵M中引入形变偏移量后，N为S的总长度，则：

通过网络学习，最终得到一个与输入特征图相同尺寸的偏移量矩阵，矩阵维度是输入特征图的2倍。

进一步地，所述动态可变形卷积中卷积核权重变化是通过引入权重系数来决定，对于权重系数的学习，常规卷积的特征图输出结果表示为：

y＝σ(W×x)

其中σ为激活函数，W为卷积核权重矩阵，引入权重系数之后，特征图经过动态可变形卷积后的输出结果为：

y＝σ*(α₁×W₁+…+α_n×W_n)×x)

n为权重系数的个数，α_n是具有可学习参数的权重系数。

进一步地，所述滑窗自适应互补注意力机制采用滑窗计算方式只计算局部窗口内的自注意力，同时设置了紧致卷积投影，包括：首先通过滑窗操作降低医学图像的局部尺寸，然后通过紧致卷积投影对医学图像的通道维度进行压缩，最后计算自注意力。

进一步地，所述四个Transformer自注意力分支中，其中两个分支分别捕获通道和空间的相关性，另外两个分支分别捕获通道维度C与空间维度H以及通道维度C与空间维度W之间的相关性。

更进一步地，所述滑窗自适应互补注意力机制中采用移位窗口分区方法后，连续Transformer块的计算过程为：

其中和T^l分别表示滑窗自适应互补注意力和紧致卷积投影的输出特征，W-ACAM代表窗口自适应互补注意力，SW-ACAM代表滑窗自适应互补注意力，LPM代表紧致卷积投影。

更进一步地，所述每个Transformer自注意力分支的注意力计算过程如下：

其中相对位置偏置分别是query、key和value矩阵；C/8代表query和key的维度；M²代表块的数量；

经过四个平行的Transformer自注意力分支Out₁、Out₂、Out₃和Out₄计算后，最终特征融合输出的结果为：

Out＝λ₁×Out₁+λ₂×Out₂+λ₃×Out₃+λ₄×Out₄

λ₁、λ₂、λ₃和λ₄分别是可学习的参数，用来自适应控制每个注意力分支对于特定分割任务中空间和通道信息的重要程度。

进一步地，所述CNNs与Transformer融合网络中设置三个损失函数，分别为整体损失L_CiT、CNNs分支的损失L_CNNs和Transformer分支的损失L_Trans：

其中，L_MSE(·)代表均方误差损失，L_Dice(·)代表Dice损失，和/>分别代表与输入图像x_i相对应的方法最终输出的预测图、CNNs分支输出的预测图、Transformer分支输出的预测图和标签图。

更进一步地，所述CNNs与Transformer融合网络的最终损失函数表示为：

L_Total＝λ×L_CiT+((1-λ)/2)L_CNNs+((1-λ)/2)L_Trans

其中，λ＝δe^-5(1-k)2，λ是高斯上升曲线，k代表训练总轮数的数量。

与现有技术相比，本发明提出了一种新的动态可变形卷积，动态可变形卷积通过任务自适应学习，可以灵活改变卷积自身的权重系数和形变偏置。动态可变形卷积也能够克服标准卷积及其变体卷积(例如：空洞卷积、内卷卷积等)感受野固定、卷积核参数共享的问题，同时增强了对医学图像局部特征的表达能力，实现了对空间特征的自适应提取，提高了对医学图像中微小病灶与形变较大的目标的感知能力。

本发明提出了一种新的滑窗自适应互补注意力机制，其通过权重系数自适应学习的四个Transformer自注意力分支，实现了对医学图像跨维度的全局建模。相比于目前流行的注意力机制方法(例如：CBAM，Non-Local)，滑窗自适应互补注意力机制充分弥补了常规注意力机制中对空间与通道之间跨维度关系建模不足的缺陷，其能够捕获医学图像中跨维度的长距离关联特征，增强了对医学图像中分割目标与背景之间的可分性。滑窗自适应互补注意力机制通过将滑窗操作和紧致卷积投影相结合，相比于CNNs和原始Transformer方法显著降低了整体的参数量和计算量，同时能够实现对医学图像全局特征的捕获。

本发明将基于动态自适应CNNs与跨维度特征融合Transformer的并行新方法用于医学图像分割。相比于目前流行的医学图像分割方法，本发明提出的方法通过利用CNNs和Transformer并行交互的方式紧密结合不同分辨率下的局部与全局特征来增强表征学习，最大限度的保留了医学图像中的局部特征和全局特征。值得注意的是，本方法不但舍弃了预训练，而且拥有着更少的参数量和计算量，分别是11.58M和4.53GFLOPs。显然，本发明提出的基于CNNs+Transformer双分支架构的动态可变形卷积和滑窗自适应互补注意力机制方法，为人体肝脏器官和心脏器官的图像分割任务提供了一种高效且准确的解决方案，具有很大的应用价值和广阔的临床应用前景。

附图说明

图1是本发明的方法流程图；

图2是本发明的框架结构图；

图3是本发明的动态可变形卷积结构示意图；

图4是本发明的滑窗自适应互补注意力机制示意图；

图5是本发明实施例在肝脏公开数据集LiTS上的分割效果图；

图6是本发明提出的方法与目前流行的方法在肝脏公开数据集LiTS上的分割效果与性能比较；代表该模型预先使用ImageNet21K数据集预训练此网络权重参数；

图7是本发明提出的方法与目前流行的方法在心脏公开数据集ACDC上的分割效果与性能比较。

具体实施方式

下面结合说明书附图和具体的实施例对本发明作进一步地解释说明，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明涉及深度学习技术、卷积神经网络技术、Transformer网络技术和网络自适应学习技术等理论知识。本发明能够较好的应用于人体肝脏与心脏器官等医学图像的自动分割任务，同时适用于CT(Computed Tomography,CT)和MRI(Magnetic ResonanceImaging,MRI)两种类型的图像数据，更好地解决了现有分割网络对医学图像中微小病灶与形变较大的目标感知能力差，对分割目标与背景的判别能力差等问题，为人体肝脏与心脏等医学图像的自动分割提供了新的研究思路与技术手段。

在真实的人体医学图像分割任务中，人体内部肝脏、心脏、肾脏以及脾脏等器官内部具有较高的复杂性，而器官之间又具有很大的形状差异，同时器官之间相邻紧密、边界难以区分。目前已有的器官分割方法首先忽略了对医学图像中微小病灶与形变较大的目标的感知能力。其次，由于医学图像通常对比度低、边缘模糊且标注数据少，现有方法通常在训练过程中缺乏对分割目标与背景之间可分性的学习。本发明首先针对微小病灶与尺度变化大的目标，如何更高效、准确的分割此类样本将是提高方法整体分割精度与效果的关键，对于方法的整体应用价值至关重要。因为微小的病灶通常包含了更多的病情信息，能够让患者早发现、早治疗，大大缩短患者的恢复周期。同时尺度变化大的目标代表了该器官在人体内部的重要程度，因此更应该关注其形态与状况的变化过程，这将与人体身体健康程度密切相关。其次，针对分割目标与背景之间可分性，如果能够显著提高分割目标与背景之间的差异性，这将显著提高对人体器官的分割效率与准确率。而医学数据通常标注数量少，那么如何利用少量的数据去学习器官形态与位置的准确信息将显著提高疾病的诊断效率与质量。

本发明提出了基于CNNs+Transformer双分支架构的动态可变形卷积和滑窗自适应互补注意力机制方法，旨在更加快速、准确、自动、通用的对人体内部肝脏、心脏两大重要器官进行特定分割。与现有方法相比，本发明首先提出了一种新的动态可变形卷积，动态可变形卷积通过任务自适应学习，可以灵活改变卷积自身的权重系数和形变偏置。增强了对医学图像局部特征的表达能力，实现了对空间特征的自适应提取，提高了对医学图像中微小病灶与形变较大的目标的感知能力。其次，提出了一种新的滑窗自适应互补注意力机制，其通过权重系数自适应学习的四个Transformer自注意力分支，实现了对医学图像跨维度的全局建模。其能够捕获医学图像中跨维度的长距离关联特征，增强了对医学图像中分割目标与背景之间的可分性。滑窗自适应互补注意力机制通过将滑窗操作和紧致卷积投影相结合，显著降低了网络的参数量和计算量，同时能够实现对医学图像全局特征的捕获。最后，本发明通过利用CNNs和Transformer并行交互的方式紧密结合不同分辨率下的局部与全局特征来增强表征学习，最大限度的保留医学图像中的局部特征和全局特征。本发明拥有着更少的参数量和计算量。显然，本发明为人体肝脏器官和心脏器官的图像分割任务提供了一种高效且准确的解决方案，具有很大的应用价值和广阔的临床应用前景。

具体参见图1，本发明的方法流程包括：

1)加载医学图像数据集并进行预处理；

2)构建CNNs与Transformer融合网络并进行训练；

参见图2，本发明的CNNs与Transformer融合网络架构由双支路网络并行交互组成，动态可变形卷积操作在CNNs分支内，滑窗自适应互补注意力机制在Transformer分支内；动态可变形卷积能够根据特定的医学图像分割任务和数据分布，自适应地学习卷积核形变偏移量和卷积核权重系数，同时通过网络的反向传播实现端到端的训练，从而实现卷积核形状与权重的双重变化；滑窗自适应互补注意力机制具有四个可学习参数的Transformer自注意力分支，能够提取空间内的图像全局信息，并捕获空间与通道之间跨维度的长距离相关特征；本发明基于CNNs+Transformer双分支架构的动态可变形卷积和滑窗自适应互补注意力机制方法，由动态自适应卷积神经网络和跨维度特征融合Transformer双分支交互组成。CNNs分支中的动态可变形卷积可以自适应地改变卷积本身的权重系数和形变偏移，从而提高医学图像中不规则目标的分割精度。Transformer分支中的滑窗自适应互补注意力可以捕捉医学图像中的跨维度长程依赖性，提高医学图像中分割对象和背景的可分性。紧致卷积投影通过使用Ghost策略有效降低了原始Transformer网络的参数和计算量。

下面本发明以肝脏与心脏数据集为例进行示例性说明。解决了现有的人体肝脏与心脏器官分割方法忽略了对微小病灶与尺度变化大的目标的感知能力，同时在训练过程中缺乏对分割目标与背景之间可分性的学习的问题。具体包括：

(1)肝脏与心脏数据集来源与预处理操作：肝脏数据集来自医学图像计算和计算机辅助诊断学会的肝脏及肿瘤分割数据集(LiTS)，其包含了131例3D的CT肝脏扫描数据，其中100例扫描数据用于本发明的训练过程，其余31例扫描数据用于本发明的测试过程。心脏数据集来自第戎大学医院(法国)的自动化心脏诊断数据集(ACDC)，其包含来自100名患者的心脏短轴MRI数据。该数据集包括健康患者、既往有心肌梗死、扩张型心肌病、肥厚型心肌病和右心室异常的患者，每组20次扫描。这些数据是使用两个磁强度(1.5T和3.0T)的MRI扫描仪在6年内获得的。为了提高本发明提出网络的计算效率、泛化性与鲁棒性，对数据集做了如下处理操作：①将数据集原始图像尺寸统一调整为224×224，②对原始数据集中的图像进行随机缩放操作，缩放比例在0.9到1.5之间；③按0.5的比例对原始数据集中的图像进行随机垂直翻转、水平翻转、90°旋转、270°旋转。以上操作仅针对于训练数据集中的图像随模型的训练过程进行实时随机性地扩充来增强模型的泛化性能，而对测试数据集中的图像不进行任何数据扩充操作。

(2)本发明提出的动态可变形卷积方法的训练过程：动态可变形卷积可以根据特定的医学图像分割任务和数据分布，自适应地学习卷积核形变偏移量和卷积核权重系数，同时通过网络的反向传播实现端到端的训练，从而实现卷积核形状与权重的双重变化，因此可以有效应对医学图像分割任务中不同目标之间数据分布差异大、目标形变大的问题。同时，动态可变形卷积是即插即用模块，可以嵌入于任何网络结构中。参见图3，与目前流行的卷积策略相比，动态可变形卷积可以随着网络的训练过程动态调整卷积本身的权重系数和形变偏置，有利于医学图像中不规则目标的特征捕获和提取。α、β表示动态可变形卷积在不同状态下的不同权重系数。

(a)动态可变形卷积中卷积核的形状变化是基于网络对形变偏移量的学习。分割网络首先利用方形卷积核S对输入特征图X进行采样，接着与权重矩阵M进行加权求和。方形卷积核S决定了感受野的范围，例如3×3的卷积核可表示为：

S＝{(0,0),(0,1),(0,2),…,(2,1),(2,2)}

(b)此时输出特征图Y中的每个位置坐标可表示为：

(c)当在权重矩阵M中引入形变偏移量后，N为S的总长度，上述公式变为：

(d)通过网络学习，最终可以得到一个与输入特征图相同尺寸的偏移量矩阵，矩阵维度是输入特征图的2倍。

(e)动态可变形卷积中卷积核权重变化是通过引入权重系数来决定的。常规卷积的特征图输出结果可表示为：

y＝σ(W×x)

其中σ为激活函数，W为卷积核权重矩阵。

(f)通过引入权重系数之后，特征图经过动态可变形卷积后的输出结果为：

y＝σ((α₁×W₁+…+α_n×W_n)×x)

n为权重系数的个数，α_n是具有可学习参数的权重系数。本方法通过在进入卷积运算之前，将不同的权重矩阵按照对应的权重系数进行线性组合，实现了对卷积核权重的动态调整。

(3)本发明提出的滑窗自适应互补注意力机制方法的训练过程：滑窗自适应互补注意力机制具有四个可学习参数的Transformer自注意力分支，其不仅能够充分提取空间内的图像全局信息，而且能够充分捕获空间与通道之间跨维度的长距离相关特征。四个Transformer自注意力分支相互补充，最大限度的保留了分割目标的信息完整性，增强了医学图像前景与背景之间的可分性，提高了目标的分割精度。参见图4，与传统的自注意力机制不同，滑窗自适应互补注意力机制不仅具有空间和通道注意力机制的优势，而且还可以捕捉空间和通道跨维度之间的长距离相关特征。通过滑动窗口操作，图像的空间尺寸显著减小，通过紧致卷积投影操作，图像通道维度显著减小，从而降低了方法的整体计算量和复杂度。λ₁、λ₂、λ₃和λ₄是可学习的权重参数。

(a)标准的Transformer架构采用全局自注意力的计算方式，计算其中一个块与其他所有块之间的关系。这种计算方式是复杂的，计算量通常呈指数增长。为了提高计算效率，本方法采用滑窗计算方式，只计算局部窗口内的自注意力。同时本方法又设计出了紧致卷积投影，首先通过滑窗操作显著降低医学图像的局部尺寸，接着通过紧致卷积投影对医学图像的通道维度进行压缩，最后计算自注意力。值得一提的是，采用这样的方式，不但能更好的捕获医学图像的全局高维信息，而且显著降低了模块的计算量。假设一幅图像包含h×w个窗口，每个窗口包含M×M个patches，那么滑窗自适应互补注意力机制、原始Transformer中全局MSA和Swin Transformer中(S)W-MSA的复杂度对比如下：

Ω(MSA)＝4hwC²+2(hw)²C

Ω((S)WMSA)＝4hwC²+2M²hwC

如果前一项是patch数量hw的二次函数，后一项在M固定时(通常为7)是线性的。那么滑窗自适应互补注意力机制相比于MSA和(S)W-MSA的计算量是可以忽略不计的。

(b)在滑窗自适应互补注意力机制的四个平行的Transformer自注意力分支中，有两个分支分别捕获通道和空间的相关性，其余两个分支捕获通道维度C与空间维度H以及通道维度C与空间维度W之间的相关性。采用移位窗口分区方法之后，连续Transformer块的计算过程为：

(c)具体每个分支的注意力计算过程如下：

其中相对位置偏置分别是query，key，value矩阵。C/8代表query和key的维度，M²代表块的数量。

(d)经过四个平行的Transformer自注意力分支Out₁，Out₂，Out₃，Out₄计算后，最终特征融合输出的结果为：

Out＝λ₁×Out₁+λ₂×Out₂+λ₃×Out₃+λ₄×Out₄

λ₁，λ₂，λ₃，λ₄是可学习的参数，用来自适应控制每个注意力分支对于特定分割任务中空间和通道信息的重要程度。

(4)本发明中损失函数的设置：本发明中一共设置了三个损失函数，分别为整体损失L_CiT，CNNs分支的损失L_CnN和Transformer分支的损失L_Trans。

其中，L_MSE(·)代表均方误差损失，L_Dice(·)代表Dice损失。和/>分别代表与输入图像x_i相对应的方法最终输出的预测图、CNNs分支输出的预测图、Transformer分支输出的预测图和标签图。本方法最终的损失函数可表示为：

L_Total＝λ×L_CiT+((1-λ)/2)L_CNNs+((1-λ)/2)L_Trans

最终得到如图5所示的本发明在肝脏公开数据集LiTS上的分割效果图。其中(a)CNN分支输出的预测图、(b)Transformer分支输出的预测图、(c)本发明最终输出的预测图、(d)标签图和(e)数据集的原图。

本发明的效果可以通过以下实验进一步说明。

为了验证本发明提出的方法对于人体肝脏、心脏分割的准确性与优越性，硬件实验平台：CPU为Intel Core i9-9900X 3.5GHz，GPU为NVIDIA GeForce RTX 3090Ti，显存为24GB；软件实验平台：PyTorch、Python、OpenCV、NumPy等开源软件和框架。本发明采用简单的随机梯度下降SGD(Stochastic Gradient Descent，SGD)最优化算法来训练模型，其中动量设置为0.9，weight_decay设置为0.001，初始学习率为0.0001，并按照每2500次迭代进行一次指数衰减来调整学习率，衰减率设置为0.1。本发明通过计算以下几个指标参数来评估算法性能，分别是：

其中，DI表示集合相似度，TP、FP、FN分别表示真正例、假正例、假反例，ASD表示平均对称表面距离，HD表示两组点集之间的相似程度。A和B分别表示标签图和预测结果。S(A)和S(B)分别表示对应于A和B的一组表面体素。

为了证明本发明对于肝脏和心脏器官分割的准确度与计算效率，本发明与当前主流的11种方法进行了公平与全面的实验对比。这些对比方法包括U-Net、R2UNet、AttentionUnet、CENet、3D Unet、V-Net、Swin-Unet、TransUNet、CvT、PVT、CrossForm。同时在实验过程中使用相同的实验环境与实验设置。表1为本发明方法与目前流行的方法在肝脏公开数据集LiTS上的分割效果与性能比较，展示了本发明方法与目前的主流方法在LiTS肝脏数据集中的结果定量对比分析。实验结果表明，本发明方法在肝脏图像分割方面具有巨大优势，进一步验证了本发明提出的方法对医学图像中的局部特征和全局特征保留的完整性。值得注意的是，本发明方法在拥有最少的模型参数量与计算量的前提下，比带有预训练的Swin-Unet、TransUNet和CvT网络在DI指标上分别高1.20％、1.03％和1.01％。

在其他评估指标方面，本方法也明显优于其他对比方法。表2展示了本方法与目前的主流方法在心脏数据集中的结果定量分析。通过实验结果可以看出本方法在MRI类型的心脏分割数据集中依然表现出了显著的优势。本发明提出的方法对于器官left ventricle(LV),right ventricle(RV)and left ventricular myocardium(MYO)都表现出了最先进的分割效果。其中对于LV的分割效果最好，MYO的分割效果较差。与目前最新的CvT、PVT和CrossForm相比，本方法的平均分割性能分别提高了0.98％，1.45％和1.38％，同时95HD平均分别降低了0.72％，0.78％和0.74％。也证明了本方法在不同数据集上的泛化性能很强，可以灵活应用于不同模态和采集环境的肝脏和心脏图像分割任务中。通过以上两个类型数据集的大量实验，充分证明了本发明提出的两个模块的实用性和有效性。

本发明提出的基于CNNs和Transformer融合架构的动态可变形卷积和滑窗自适应互补注意力机制新方法用于人体肝脏和心脏图像分割任务，该方法整合了CNNs和Transformer中各自独特的优势，通过局部关系建模和长程依赖建模，对医学图像中的局部细节特征和全局语义特征得到了最大限度的保留。提出的动态可变形卷积策略克服了常规卷积感受野固定、泛化能力差的问题，增强了对医学影像局部特征的表达能力，实现了对空间特征的自适应提取。提出的滑窗自适应互补注意力机制能够充分捕获医学图像通道与空间之间跨维度的相关性，能自适应地学习空间与通道之间的相关信息。此外，本方法通过引入紧致卷积投影轻量化策略代替了传统Transformer中的MLP，显著降低了传统CNNs和Transformer网络中的参数量，摆脱了网络对预训练的依赖，解决了医学图像中标注数据少、网络容易过拟合的问题。相比于目前主流的CNNs和Transformer医学图像分割网络，本发明方法在运行效率和分割效果方面都展现出了显著的优势。为人体肝脏和心脏图像分割提供了一种通用且高效的解决方案，在智慧医疗系统和实际临床分析中具有广泛的应用前景。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法，其特征在于，包括：

1)加载医学图像数据集并进行预处理；

2.根据权利要求1所述的一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法，其特征在于，所述预处理包括：将数据集原始图像尺寸统一调整为224×224；对原始数据集中的图像进行随机缩放操作，缩放比例在0.9到1.5之间；按0.5的比例对原始数据集中的图像进行随机垂直翻转、水平翻转、90°旋转或270°旋转。

3.根据权利要求1所述的一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法，其特征在于，所述动态可变形卷积中卷积核的形状变化是基于网络对形变偏移量的学习，网络首先利用方形卷积核S对输入特征图X进行采样，接着与权重矩阵M进行加权求和；形变偏移量的学习中3×3的卷积核表示为：

S＝{(0，0)，(0，1)，(0，2)，...，(2，1)，(2，2)}

此时输出特征图Y中的每个位置坐标表示为：

当在权重矩阵M中引入形变偏移量后，N为S的总长度，则：

4.根据权利要求1或3所述的一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法，其特征在于，所述动态可变形卷积中卷积核权重变化是通过引入权重系数来决定，对于权重系数的学习，常规卷积的特征图输出结果表示为：

y＝σ(W×x)

y＝σ((α₁×W₁+…+α_n×W_n)×x)

n为权重系数的个数，α_n是具有可学习参数的权重系数。

5.根据权利要求1所述的一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法，其特征在于，所述滑窗自适应互补注意力机制采用滑窗计算方式只计算局部窗口内的自注意力，同时设置了紧致卷积投影，包括：首先通过滑窗操作降低医学图像的局部尺寸，然后通过紧致卷积投影对医学图像的通道维度进行压缩，最后计算自注意力。

6.根据权利要求1或5所述的一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法，其特征在于，所述四个Transformer自注意力分支中，其中两个分支分别捕获通道和空间的相关性，另外两个分支分别捕获通道维度C与空间维度H以及通道维度C与空间维度W之间的相关性。

7.根据权利要求6所述的一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法，其特征在于，所述滑窗自适应互补注意力机制中采用移位窗口分区方法后，连续Transformer块的计算过程为：

8.根据权利要求7所述的一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法，其特征在于，所述每个Transformer自注意力分支的注意力计算过程如下：

Out＝λ₁×Out₁+λ₂×Out₂+λ₃×Out₃+λ₄×Out₄

9.根据权利要求1所述的一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法，其特征在于，所述CNNs与Transformer融合网络中设置三个损失函数，分别为整体损失L_CiT、CNNs分支的损失L_CNNs和Transformer分支的损失L_Trans：

其中，L_MSE(·)代表均方误差损失，L_Dice(·)代表Dice损失，和分别代表与输入图像x_i相对应的方法最终输出的预测图、CNNs分支输出的预测图、Transformer分支输出的预测图和标签图。

10.根据权利要求9所述的一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法，其特征在于，所述CNNs与Transformer融合网络的最终损失函数表示为：

L_Total＝λ×L_CiT+((1-λ)/2)L_CNNs+((1-λ)/2)L_Trans

其中，λ是高斯上升曲线，k代表训练总轮数的数量。