CN116433686A

CN116433686A - 基于Transformer上下文信息融合的医学图像分割方法及相关设备

Info

Publication number: CN116433686A
Application number: CN202310232612.2A
Authority: CN
Inventors: 黄小红; 谭石; 付颖; 叶依桐; 李丹丹; 袁学光; 邓智方
Original assignee: Beijing University of Posts and Telecommunications; Peking University Third Hospital
Current assignee: Beijing University of Posts and Telecommunications; Peking University Third Hospital
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-07-14

Abstract

本申请提供一种基于Transformer上下文信息融合的医学图像分割方法及相关设备，Transformer包括多个编码层和对称的解码层；该方法包括：通过多个编码层对各组医学图像构成收缩路径，在编码层预设多水平分支局部上下文提取模型，通过空间分离和空洞卷积以及残差连接得到局部上下文关系；通过多个解码层构成扩张路径，在解码层预设多尺度上下文信息融合模块，利用自注意力计算和交叉注意力计算，分别得到当前尺度和多尺度的医学图像的全局上下文关系，结合两者信息作提取与融合，得到多尺度上下文关系；基于上述两种上下文关系对医学图像进行分割，得到分割结果。通过多尺度上下文关系和局部上下文关系，能够有效进行医学图像分割，从而有效识别医学图像中的解剖结构。

Description

基于Transformer上下文信息融合的医学图像分割方法及相关设备

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种基于Transformer上下文信息融合的医学图像分割方法及相关设备。

背景技术

随着人工智能与计算机视觉技术的快速发展，图像分割算法日趋成熟，且在医学知识与医疗器械的发展下，越来越多的医疗成像方式成为了诊疗的辅助工具，医疗影像的尺寸和数量急剧增加，传统的手动分割和人工标注方式逐渐难以满足日益增长的需求。

在此背景下，适用于医疗图像的分割方法应运而生，相关技术中对高性能的基于神经网络的分割方法展开了研究，一部分研究提出了Transformer结构在图像领域的弥补了CNN在长距离依赖方面的不足，然而实验结果证明，仅使用Transformer不足以提取图像中细粒度的局部上下文信息。针对此问题，另一部分研究提出了一些将卷积神经网络与Transformer融合的方法，但仍存在卷积层和Transformer上下文信息融合不够灵活的问题、全连接层中特征的连续性与传递性被破坏、不能很好地利用多尺度上下文信息的问题。

发明内容

有鉴于此，本申请的目的在于提出一种克服上述问题或者至少部分地解决上述问题的。

基于上述目的，本申请第一方面提供了一种基于Transformer上下文信息融合的医学图像分割方法，所述Transformer包括多个编码层和对称的解码层；

所述方法，包括：

获取医学图像，并对所述医学图像的像素进行分组；

通过所述多个编码层对各组所述医学图像进行收缩路径下采样，得到不同尺度的医学图像，通过空间分离、空洞卷积以及残差连接对所述不同尺度的医学图像进行局部感受野内像素与周边像素关系提取，得到局部上下文关系；

确定最小尺度医学图像，通过每个所述解码层对所述最小尺度医学图像进行扩张路径上采样，并将当前所述解码层与对称的编码层进行拼接，得到拼接结果；并对所述拼接结果进行自注意力计算，得到当前尺度下的医学图像的全局上下文关系；

将每个所述编码层与每个所述解码层进行拼接，利用交叉注意力计算，将所述不同尺度的医学图像和所述当前尺度下的医学图像的全局图像的全局图像进行融合，得到当前尺度医学图像与不同尺度医学图像的全局上下文关系；

拼接所述当前尺度下的医学图像的全局上下文关系和所述多尺度医学图像的全局上下文关系，得到多尺度上下文关系；

基于所述多尺度上下文关系和所述局部上下文关系，对所述医学图像进行分割，得到分割结果。

可选的，所述每个编码层均预设多水平分支局部上下文提取模型，作为编码层中的前馈神经网络作特征提取；

所述多水平分支局部上下文提取模型包括，主分支、第一分支、第二分支、第三分支和第四分支；

通过空间分离、空洞卷积以及残差连接对所述不同尺度的医学图像进行局部感受野内像素与周边像素关系提取，得到局部上下文关系，包括：

使用1×1卷积对输入所述主分支的医学图像的通道数进行压缩，得到第一特征图，将所述第一特征图分别输入所述第一分支、所述第二分支和所述第三分支和所述第四分支；

使用空间分离卷积对输入所述第一分支的第一特征图进行垂直和水平边界信息提取，得到第二特征图；

对所述第一分支、所述第二分支和所述第三分支和所述第四分支进行拼接，以使所述第一分支、所述第二分支和所述第三分支和所述第四分支依次进行串联；

利用不同扩张率的3×3卷积核的空洞卷积，分别对所述第二分支、第三分支和第四分支进行特征提取，分别得到第三特征图、第四特征图和第五特征图；其中从第二分支到第四分支的扩张率依次增大；

合并所述第二特征图、所述第三特征图、所述第四特征图和第五特征图，得到融合后的局部信息，再与输入所述主分支的医学图像进行残差计算，得到所述局部上下文关系。

可选的，所述编码层包括第一层Transformer块、第二层Transformer块、第三层Transformer块和第四层Transformer块；

所述第一层Transformer块、第二层Transformer块、第三层Transformer块和第四层Transformer块依次串联，且从所述第一层Transformer块至第四层Transformer块的收缩路径下采样分辨率依次减小。

可选的，所述不同尺度医学图像包括第一尺度医学图像，第二尺度医学图像，第三尺度医学图像和最小尺度医学图像；

所述对医学图像的像素进行分组，包括：

通过二维卷积核划分所述医学图像的像素为7×7的二维分组，将分组结果输入所述第一层Transformer块；

通过二维卷积核划分所述第一层Transformer块输出的所述第一尺度医学图像的像素为3×3的二维分组，将分组结果输入所述第二层Transformer块；

通过二维卷积核划分所述第二层Transformer块输出的所述第二尺度医学图像的像素为3×3的二维分组，将分组结果输入所述第三层Transformer块；

通过二维卷积核划分所述第三层Transformer块输出的所述第三尺度医学图像的像素为3×3的二维分组，将分组结果输入所述第四层Transformer块。

可选的，所述解码层包括第一层Decoder块、第二层Decoder块、第三层Decoder块和第四层Decoder块；所述第四层Decoder块、第三层Decoder块、第二层Decoder块和第一层Decoder块依次串联，且从所述第四层Decoder块至第一层Decoder块的扩张路径上采样分辨率依次增大；

所述拼接结果包括：第一拼接结果、第二拼接结果和第三拼接结果；

所述确定最小尺度医学图像，通过每个所述解码层对所述最小尺度医学图像进行扩张路径上采样，并将当前所述解码层与对称的编码层进行拼接，得到拼接结果；并对所述全局图像进行自注意力计算，得到当前尺度下的医学图像的全局上下文关系，包括：

在所述第四层Decoder块中对所述第四层Transformer块输出的最小尺度医学图像并进行自注意力计算，获取所述最小尺度医学图像的全局上下文关系；

在所述第三层Decoder块中对所述第四层Decoder块输出的所述第三尺度医学图像与所述第三层Transformer块输出的第三尺度医学图像进行拼接得到第三拼接结果，并对所述第三拼接结果进行自注意力计算，获取所述第三尺度医学图像的全局上下文关系；

在所述第二层Decoder块中对所述第三层Decoder块输出的所述第二尺度医学图像与所述第二层Transformer块输出的第二尺度医学图像进行拼接得到第二拼接结果，并对所述第二拼接结果进行自注意力计算，获取所述第二尺度医学图像的全局上下文关系；

在所述第一层Decoder块中对所述第二层Decoder块输出的所述第一尺度医学图像与所述第一层Transformer块输出的第一尺度医学图像进行拼接得到第一拼接结果，并对所述第一拼接结果进行自注意力计算，获取所述第一尺度医学图像的全局上下文关系。

可选的，将每个所述编码层与每个所述解码层进行拼接，利用交叉注意力计算，将所述不同尺度的医学图像和所述当前尺度下的医学图像的全局图像的全局图像进行融合，得到多尺度医学图像的全局上下文关系，包括：

在所述第四层Decoder块中，将所述第一尺度医学图像、所述第二尺度医学图像和所述第三尺度医学图像分别与所述最小尺度医学图像的全局图像进行交叉注意力计算，得到所述最小尺度医学图像与所述第一尺度医学图像、所述第二尺度医学图像和所述第三尺度医学图像的全局上下文关系；

在所述第三层Decoder块中，将所述第一尺度医学图像、所述第二尺度医学图像、所述第三尺度医学图像和所述最小尺度医学图像分别与所述第三尺度医学图像的全局图像进行交叉注意力计算，得到所述第三尺度医学图像与所述第一尺度医学图像、所述第二尺度医学图像、所述第三尺度医学图像和所述最小尺度医学图像的全局上下文关系；

在所述第二层Decoder块中，将所述第一尺度医学图像、所述第二尺度医学图像、所述第三尺度医学图像和所述最小尺度医学图像分别与所述第二尺度医学图像的全局图像进行交叉注意力计算，得到所述第二尺度医学图像与所述第一尺度医学图像、所述第二尺度医学图像、所述第三尺度医学图像和所述最小尺度医学图像的全局上下文关系；

在所述第一层Decoder块中，将所述第一尺度医学图像、所述第二尺度医学图像，所述第三尺度医学图像和所述最小尺度医学图像分别与所述第一尺度医学图像的全局图像进行交叉注意力计算，得到所述第一尺度医学图像与所述第一尺度医学图像、所述第二尺度医学图像，所述第三尺度医学图像和所述最小尺度医学图像。

可选的，拼接所述当前尺度下的医学图像的全局上下文关系和所述多尺度医学图像的全局上下文关系，得到多尺度上下文关系，包括:

拼接所述最小尺度医学图像的全局上下文关系和所述最小尺度医学图像与所述第一尺度医学图像、所述第二尺度医学图像和所述第三尺度医学图像的全局上下文关系，得到所述最小尺度医学图像的多尺度上下文关系；

拼接所述第三尺度医学图像的全局上下文关系和所述第三尺度医学图像与所述第一尺度医学图像、所述第二尺度医学图像、所述第三尺度医学图像和所述最小尺度医学图像的全局上下文关系，得到所述第三尺度医学图像的多尺度上下文关系；

拼接所述第二尺度医学图像的全局上下文关系和所述第二尺度医学图像与所述第一尺度医学图像、所述第二尺度医学图像、所述第三尺度医学图像和所述最小尺度医学图像的全局上下文关系，得到所述第二尺度医学图像的多尺度上下文关系；

拼接所述第一尺度医学图像的全局上下文关系和所述第一尺度医学图像与所述第一尺度医学图像、所述第二尺度医学图像，所述第三尺度医学图像和所述最小尺度医学图像的全局上下文关系，得到所述第一尺度医学图像的多尺度上下文关系。

可选的，使用空间分离卷积对输入所述第一分支的第一特征图进行垂直和水平边界信息提取，得到第二特征图，包括：

使用先垂直后水平的第一路径对所述第一特征图进行卷积，得到第一结果；

使用先水平和垂直的第二路径对所述第一特征图进行卷积，得到第二结果；

拼接所述第一结果和所述第二结果得到第二特征图；

所述第二特征图表示为：

F₁＝concat[χ(conv_h(conv_v(F₀))),χ(conv_v(conv_h(F₀)))]，

其中，conv_v和conv_h分别是3×1和1×3的垂直卷积和水平卷积，F₀为第一特征图，χ为进行Batch Normalization和ReLU激活函数。

本申请的第二方面，提供一种基于Transformer上下文信息融合的医学图像分割装置，包括：

分组模块，用于对医学图像的像素进行分组；

编码模块，用于对医学图像进行收缩路径下采样，得到不同尺度的医学图像；

局部上下文提取模块，用于通过空间分离、空洞卷积以及残差连接对所述不同尺度的医学图像进行局部感受野内像素与周边像素关系提取，得到局部上下文关系；

解码模块，用于依次对最小尺度医学图像进行扩张路径上采样，并将当前所述解码层与对称的编码层进行拼接，并将当前所述解码层与对称的编码层进行拼接，得到拼接结果；对所述全局图像进行自注意力计算，得到当前尺度下的医学图像全局上下文关系；

多尺度上下文提取模块，用于将每个所述编码层和每个解码层进行连接，利用交叉注意力计算，将不同尺度的医学图像和所述当前尺度下的医学图像的全局图像的全局图像，结合所述全局上下文关系，得到多尺度上下文关系；以及拼接所述当前尺度下的医学图像的全局上下文关系和所述多尺度医学图像的全局上下文关系，得到多尺度上下文关系；

分割模块，用于基于所述多尺度上下文关系和所述局部上下文关系，对所述医学图像进行分割，得到分割结果。

本申请的第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述所述的方法。

从上面所述可以看出，本申请提供的一种基于Transformer上下文信息融合的医学图像分割方法及相关设备，通过多个编码层对各组医学图像构成收缩路径进行减小分辨率下采样，获取不同尺度医学图像，在编码层预设多水平分支局部上下文提取模型，通过分离和空洞卷积以及残差连接可以有效获取到不同尺度医学图像的局部上下文关系，同时通过多尺度上下文提取模型连接每层Transformer块和Decoder块，利用自注意力计算和交叉注意力计算，分别得到当前尺度和多尺度的医学图像的全局上下文关系，结合两者信息作提取与融合，得到多尺度上下文关系，能够有效对医学图像分割进行参考，从而有效识别医学图像中的解剖结构。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的流程图；

图2为本申请实施例的技术方案示意图；

图3为本申请实施例的多水平分支局部上下文提取示意图；

图4为本申请实施例的多尺度上下文信息融合示意图；

图5为本申请实施例的主分支空间分离卷积示意图；

图6为本申请实施例的一种基于Transformer的医学图像分割装置示意图；

图7为本申请实施例的一种电子设备硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

相关技术中基于注意力机制的Transformer擅长建模长距离依赖，但全局的矩阵运算使得其忽略细节的局部上下文信息，没有考虑到分组内部的局部关系和结构信息，而这些信息对于医学图像十分重要。

同时相关技术中普通的卷积网络和Transformer结构都是在相同尺度上进行上下文信息提取的，通过特征金字塔网络层数的堆叠学习到一个层次结构，逐步扩大通道信息容量的同时降低空间分辨率，来得到多尺度的特征。它们遵循的顺序网络拓扑结构缺乏足够的跨尺度相互作用，因此生成的多尺度上下文信息往往没有被充分利用，不能生成高质量的高分辨率表示。

也就是说，上述提到的医学图像的分割方法的研究，相关技术中，对于医学图像分割的研究，并不能够充分提取局部上下文信息，且当前Transformer结合卷积的方法不能很好地利用多尺度上下文信息的问题。

针对此问题，参考图1，本申请的第一方面提供了一种基于Transformer上下文信息融合的医学图像分割方法，所述Transformer包括多个编码层和对称的解码层，所述方法包括：

S101、获取医学图像，并对医学图像的像素分组。

再本步骤中，在医学图像进入相应的编码层，即Transformer块之前，为了减小计算范围和计算复杂度，也就是说减小运算量，能够使每层Transformer块能更快得到相应收缩路径对应的分辨率所对应的尺度的医学图像，对输入Transformer块的医学图像的像素进行分组，通过分组方案以控制注意力计算范围和复杂度：

多头自注意力机制计算方法如公式(1)所示

其中Q、K、V分别为查询矩阵、索引矩阵和内容矩阵。

当不分组以全图加入注意力计算时，也就是说不分组以获取到的医学图像整体加入注意力计算时，计算全图中每个像素点与其他像素点之间的关联性，其计算复杂度如公式(2)所示

FLOPs₁＝4HWC²+2H²W²C² (2)

其中，H、W、C分别指二维医学图像的长、宽、通道数。

当划分图像为N×N的二位分组时，计算分组之间的关系型的复杂度如公式(3)所示

通过上述计算可知，在进行分组之后在进行感受野内像素与周边像素关系，复杂度更低，计算更高效。

进一步地，对医学图像的像素进行分组，包括：

具体地，通过边长为7，步长为4，填充为3的二维卷积核划分所述医学图像为7×7的二维分组，并通过重叠分组建立不同分组之间的关系，将分组结果输入所述第一层Transformer块；

通过边长为3，步长为2，填充为1的二维卷积核划分所述第一层Transformer块输出的所述第一尺度医学图像为3×3的二维分组，且通过重叠分组来引入不同分组之间的关系，将分组结果输入所述第二层Transformer块；

通过边长为3，步长为2，填充为1的二维卷积核划分所述第二层Transformer块输出的所述第二尺度医学图像为3×3的二维分组，且通过重叠分组来引入不同分组之间的关系，将分组结果输入所述第三层Transformer块；

通过边长为3，步长为2，填充为1的二维卷积核划分所述第三层Transformer块输出的所述第三尺度医学图像为3×3的二维分组，且通过重叠分组来引入不同分组之间的关系，将分组结果输入所述第四层Transformer块。

也就是说，先获取到医学图像，通过边长为7，步长为4，填充为3的二维卷积核划分所述医学图像为7×7的二维分组，并通过重叠分组建立不同分组之间的关系，将分组结果输入到第一层Transformer块中，得到第一尺度医学图像，可以理解的时，同样得到了第一尺度医学图像的局部上下文关系，以此类推，得到第四层Transformer块输出的最小尺度医学图像和最小尺度医学图像的局部上下文关系。

通过重叠分组引来不同分组之间的关系可以理解为在对医学图像的某一像素进行分组的时候，通过重叠上述的某一像素在每一组中，从而通过某一像素与每一个分组中的医学图像的关系引入不同分组之间的关系。

S102、通过多个编码层对各组医学图像进行收缩路径下采样，得到不同尺度的医学图像，通过空间分离、空洞卷积以及残差连接对不同尺度的医学图像进行局部感受野内像素与周边像素关系提取，得到局部上下文关系。

在一些实施例中，参考图2，编码层包括第一层Transformer块、第二层Transformer块、第三层Transformer块和第四层Transformer块；

第一层Transformer块、第二层Transformer块、第三层Transformer块和第四层Transformer块依次串联，且从所述第一层Transformer块至第四层Transformer块的收缩路径下采样分辨率依次减小。可以理解的是，在第一层Transformer块到第四层Transformer块收缩路径下采样的过程中，其实就是对医学图像的分辨率减小采样的过程，从而在每一层Transformer块中提取到不同尺度的医学图像，也就是说，医学图像的尺度是由下采样的时候每个Transformer块采样路径上对医学图像的采样分辨率来决定的，从第一层Transformer块到第四层Transformer块逐渐对医学图像的浅层图层到深层图层进行局部感受野内像素与周边像素的关系提取，每一层Transformer块对应相应分辨率下的医学图像的局部感受野内像素与周边像素的关系提取，得到相应分辨率下的局部上下文关系。

可以理解的是，本申请中，为了方便描述，本申请中的编码层包括第一层Transformer块、第二层Transformer块、第三层Transformer块和第四层Transformer块总共四层Transformer块，但是在实际的应用中，文中的第一、第二等不作为数量的先后顺序的限制，也就是说，可以根据实际的应用，有数量更多或更少的Transformer块。

进一步地，参考图2，在一些实施例中，不同尺度医学图像包括第一尺度医学图像，第二尺度医学图像，第三尺度医学图像和最小尺度医学图像。可以理解的是，在第一层Transformer块到第四层Transformer块中对应地对医学图像进行收缩路径下减小分辨率的采样进行得到局部上下文关系，也就是得到第一尺度医学图像、第二尺度医学图像、第三尺度医学图像和最小尺度医学图像的局部上下文关系。

其中，获取到的医学图像输入第一层Transformer块得到第一尺度医学图像，第一尺度医学图像输入第二层Transformer块得到第二尺度医学图像，第二尺度医学图像输入第三层Transformer块得到第三尺度医学图像，第三尺度医学图像输入第四层Transformer块得到最小尺度医学图像。

进一步地，参考图3，每个编码层均预设多水平分支局部上下文提取模型作为编码层中的前馈神经网络作特征提取；

多水平分支局部上下文提取模型包括，主分支、第一分支、第二分支、第三分支和第四分支；

通过空间分离、空洞卷积以及残差连接对不同尺度的医学图像进行局部感受野内像素与周边像素关系提取，得到局部上下文关系，具体包括：

以第一层Transformer块为例，参考图3、图5，使用1×1卷积对输入主分支的医学图像的通道数进行压缩，得到第一特征图，如图3中的F₀，将第一特征图分别输入第一分支、第二分支和第三分支和第四分支；

需要说明的是，在第二层Transformer块、第三层Transformer块、第四层Transformer块中，分别使用1×1卷积对输入主分支的第一尺度医学图像、第二尺度医学图像和第三尺度医学图像的通道书进行压缩，得到第一特征图。

使用空间分离卷积对输入第一分支的第一特征图进行垂直和水平边界信息提取，得到第二特征图；

进一步地，对F₀使用先垂直后水平的第一路径进行卷积，得到第一结果；

对F₀使用先水平和垂直的第二路径进行卷积，得到第二结果；

拼接两个并行路径的第一结果和第二结果得到第二特征图；

所述第二特征图表示为：

F₁＝concat[χ(conv_h(conv_v(F₀))),χ(conv_v(conv_h(F₀)))]，

之后，对第一分支、第二分支和第三分支和第四分支进行拼接，以使第一分支、第二分支和第三分支和第四分支依次进行串联；也就是说，第二分支除了得到第一特征图F₀为输入，同样得到第一分支输出的第二特征图F₁为输入，有利于获取小尺度的局部信息，同时得到不同尺度之间的关联性。

利用不同扩张率的3×3卷积核的空洞卷积，分别对第二分支、第三分支和第四分支进行特征提取，分别得到第三特征图、第四特征图和第五特征图；其中从第二分支到第四分支的扩张率依次增大。可以理解的是，在有限的计算资源里，不提高卷积核数量或大小，空洞卷积能加大感受野且不丢失分辨率，让每个卷积都包含较大范围的信息，也就是说，每个卷积尽可能大地包含了感受野内的医学图像信息。第三特征图、第四特征图和第五特征图表示为：

F_i＝χ(conv_i(concat[F₀,F_i-1]))

合并第二特征图、第三特征图、第四特征图和第五特征图，得到融合后的局部信息，再与输入主分支的医学图像进行残差计算，得到局部上下文关系。融合后的局部信息表示为：

F＝concat[F₀,...,F_i-1]，

局部上下文关系表示为：

F_out＝F_in⊕F

其中，F_in为输入当前Transformer块的分组后的当前尺度医学图像。

S103、确定最小尺度医学图像，通过每个解码层对最小尺度医学图像进行扩张路径上采样，并将当前解码层与对称的编码层进行拼接，得到拼接结果；并对拼接结果进行自注意力计算，得到当前尺度下的医学图像的全局上下文关系。拼接结果包括：第一拼接结果、第二拼接结果和第三拼接结果。

具体地，参考图2、图3，解码层包括第一层Decoder块、第二层Decoder块、第三层Decoder块和第四层Decoder块；所述第四层Decoder块、第三层Decoder块、第二层Decoder块和第一层Decoder块依次串联，且从所述第四层Decoder块至第一层Decoder块的扩张路径上采样分辨率依次增大。

可以理解的是，与编码层对应设置相对称的解码层，解码层在扩张路径上采样的过程中同样是与编码层收缩路径下采样的过程对称，也就是说，解码层上采样的过程就是对下采样分辨率减小的逐层恢复。

具体地，参考图4，在第四层Decoder块中对第四层Transformer块输出的最小尺度医学图像并进行自注意力计算，获取最小尺度医学图像的全局上下文关系；

在第三层Decoder块中对第四层Decoder块输出的第三尺度医学图像与第三层Transformer块输出的第三尺度医学图像进行拼接得到第三拼接结果，并对第三拼接结果进行自注意力计算，获取第三尺度医学图像的全局上下文关系；

在第二层Decoder块中对第三层Decoder块输出的第二尺度医学图像与第二层Transformer块输出的第二尺度医学图像进行拼接得到第二拼接结果，并对第二拼接结果进行自注意力计算，获取第二尺度医学图像的全局上下文关系；

在第一层Decoder块中对第二层Decoder块输出的第一尺度医学图像与第一层Transformer块输出的第一尺度医学图像进行拼接得到第一拼接结果，并对第一拼接结果进行自注意力计算，获取第一尺度医学图像的全局上下文关系。

在此，而第四层Decoder块直接获取第四层Transformer块输出的最小尺度医学图像，即x₃，并对最小尺度医学图像进行自注意力计算，得到最小尺度医学图像的全局上下文关系。而第三层Decoder块除了得到第四层Decoder扩张路径上采样后输出的第三尺度医学图像，同时拼接第三层Transformer块输出的第三尺度医学图像，拼接后得到第三拼接结果，即为

对第三拼接结果进行自注意力计算，得到第三尺度医学图像的全局上下文关系。可以理解的是，同样地，第二层Decoder块得到第三层Decoder扩张路径上采样后输出的第二尺度医学图像，同时拼接第二层Transformer块输出的第二尺度医学图像，拼接后得到第二拼接结果，即为/>

对第二拼接结果进行自注意力计算，得到第二尺度医学图像的全局上下文关系，同理，第一层Decoder块也是相同道理，得到第一尺度医学图像的全局上下文关系。可以理解的是，在第三层Decoder块到第一层Decoder块分别获取的是前一层的拼接结果通过扩张路径恢复到当前尺度医学图像，也就是说，在第三层Decoder块获取第四层Decoder块输出的结果与第三层Transformer块拼接得到第三拼接结果，在第二层Decoder块获取第三层Decoder块输出的第三拼接结果再与第二层Transformer块拼接得到第二拼接结果，第一层Decoder块获取第二层Decoder块输出的第二拼接结果再与第一层Transformer块拼接得到第一拼接结果，也就是说，后面的Decoder块分别获取前一层Decoder块的输出/>

其中/>

的计算公式表示为：

其中x_i为与当前解码层(Decoder块)对称的编码层(Transformer块)输出的当前尺度医学图像。

S104、将每个编码层与每个解码层进行拼接，利用交叉注意力计算，将不同尺度的医学图像和当前尺度下的医学图像的全局图像的全局图像进行融合，得到当前尺度医学图像与不同尺度医学图像的全局上下文关系。

具体地，参考图2、图3，在第四层Decoder块中，将第一尺度医学图像x₀、第二尺度医学图像x₁和第三尺度医学图像x₂分别与最小尺度医学图像x₃的全局图像进行交叉注意力计算，得到最小尺度医学图像x₃与第一尺度医学图像x₀、第二尺度医学图像x₁和第三尺度医学图像x₂的全局上下文关系；

在第三层Decoder块中，将第一尺度医学图像x₀、第二尺度医学图像x₁、第三尺度医学图像x₂和最小尺度医学图像x₃分别与第三拼接结果

进行交叉注意力计算，得到第三尺度医学图像x₂与第一尺度医学图像x₀、第二尺度医学图像x₁、第三尺度医学图像x₂和最小尺度医学图像x₃的全局上下文关系；

在第二层Decoder块中，将第一尺度医学图像x₀、第二尺度医学图像x₁、第三尺度医学图像x₂和最小尺度医学图像x₃分别与第二拼接结果

进行交叉注意力计算，得到第二尺度医学图像x₁与第一尺度医学图像x₀、第二尺度医学图像x₁、第三尺度医学图像x₂和最小尺度医学图像x₃的全局上下文关系；

在第一层Decoder块中，将第一尺度医学图像x₀、第二尺度医学图像x₁，第三尺度医学图像x₂和最小尺度医学图像x₃分别与第一尺度医学图像x₀的全局图像进行交叉注意力计算，得到第一尺度医学图像x₀与第一尺度医学图像x₀、第二尺度医学图像x₁，第三尺度医学图像x₂和最小尺度医学图像x₃的全局上下文关系。

参考图2、图4，利用交叉注意力计算，在第一层Decoder块中，对自注意力计算后的最小尺度医学图像x₃作为Q(查询矩阵)，x₀、x₁、x₂经过矩阵运算后作为K(索引矩阵)和V(内容矩阵)分别与Q进行交叉注意力计算；在其他Decoder中，将自注意力运算后的

作为Q，x₀、x₁、x₂、x₃经过矩阵运算后作为K和V分别与Q进行交叉注意力计算。通过交叉注意力计算，得到当前尺度的医学图像与编码层中不同尺度特征图的关联性，从而增强多尺度上下文信息的关系。

S105、拼接所述当前尺度下的医学图像的全局上下文关系和所述多尺度医学图像的全局上下文关系，得到多尺度上下文关系。

具体地，拼接第三尺度医学图像的全局上下文关系和第三尺度医学图像与第一尺度医学图像、第二尺度医学图像、第三尺度医学图像和最小尺度医学图像的全局上下文关系，得到第三尺度医学图像的多尺度上下文关系；

拼接第二尺度医学图像的全局上下文关系和第二尺度医学图像与第一尺度医学图像、第二尺度医学图像、第三尺度医学图像和最小尺度医学图像的全局上下文关系，得到第二尺度医学图像的多尺度上下文关系；

拼接第一尺度医学图像的全局上下文关系和第一尺度医学图像与第一尺度医学图像、第二尺度医学图像，第三尺度医学图像和最小尺度医学图像的全局上下文关系，得到第一尺度医学图像的多尺度上下文关系。

其中，需要说明的是，在编码层中同样预设有水平分支局部上下文提取模型，作为前馈神经网络进行进一步融合计算，以得到当前尺度医学图像的多尺度上下文关系。

S106、基于多尺度上下文关系和局部上下文关系，对医学图像进行分割，得到分割结果。

通过上述说明，可以理解的是，在第一层Transformer块中预设的多水平分支局部上下文提取模型对医学图像进行通过边长为7，步长为4，填充为3的二维卷积核划分所述医学图像为7×7的二维分组后进行局部关系提取，得到第一尺度医学图像，对第一尺度医学图像通过边长为3，步长为2，填充为1的二维卷积核划分为为3×3的二维分组，进入第二层Transformer块中预设的多水平分支局部上下文提取模型对分组后的第一尺度医学图像进行局部关系提取，依次类推。

通过上述所述的一种基于Transformer上下文信息融合的医学图像分割方法，可以有效获取到不同尺度的感受野内的局部上下文关系，同时通过多尺度上下文提取模型连接每层Transformer块和Decoder块，得到多尺度上下文关系，能够有效对医学图像进行分割，从而有效识别医学图像中的解剖结构。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一技术构思，与上述任意实施例方法相对应的，本申请还提供了一种基于Transformer上下文信息融合的医学图像分割装置。

参考图6，所述基于Transformer上下文信息融合的医学图像分割装置，包括：

分组模块601，用于对医学图像的像素进行分组；

编码模块602，用于对医学图像进行收缩路径下采样，得到不同尺度的医学图像；

局部上下文模块603，用于通过空间分离、空洞卷积以及残差连接对所述不同尺度的医学图像进行局部感受野内像素与周边像素关系提取，得到局部上下文关系；

解码模块604，用于依次对最小尺度医学图像进行扩张路径上采样，并将当前所述解码层与对称的编码层进行拼接，并将当前所述解码层与对称的编码层进行拼接，得到拼接结果；对所述全局图像进行自注意力计算，得到当前尺度下的医学图像全局上下文关系；

多尺度上下文提取模块605，用于将每个所述编码层和每个解码层进行连接，利用交叉注意力计算，将不同尺度的医学图像和所述当前尺度下的医学图像的全局图像的全局图像，结合所述全局上下文关系，得到多尺度上下文关系；以及拼接所述当前尺度下的医学图像的全局上下文关系和所述多尺度医学图像的全局上下文关系，得到多尺度上下文关系；

分割模块606，用于基于多尺度上下文关系和局部上下文关系，对所述医学图像进行分割，得到分割结果。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的基于Transformer上下文信息融合的医学图像分割方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一技术构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的基于Transformer上下文信息融合的医学图像分割方法。

图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于Transformer上下文信息融合的医学图像分割方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一技术构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的基于Transformer上下文信息融合的医学图像分割方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于Transformer上下文信息融合的医学图像分割方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例所述的基于Transformer上下文信息融合的医学图像分割方法相对应的，本公开还提供了一种计算机程序产品，其包括计算机程序指令。在一些实施例中，所述计算机程序指令可以由计算机的一个或多个处理器执行以使得所述计算机和/或所述处理器执行所述的基于Transformer上下文信息融合的医学图像分割方法。对应于所述的基于Transformer上下文信息融合的医学图像分割方法各实施例中各步骤对应的执行主体，执行相应步骤的处理器可以是属于相应执行主体的。

上述实施例的计算机程序产品用于使所述计算机和/或所述处理器执行如上任一实施例所述的基于Transformer上下文信息融合的医学图像分割方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于Transformer上下文信息融合的医学图像分割方法，其特征在于，所述Transformer包括多个编码层和对称的解码层；

所述方法，包括：

获取医学图像，并对所述医学图像的像素进行分组；

确定最小尺度医学图像，通过每个所述解码层对所述最小尺度医学图像进行扩张路径上采样，并将当前所述解码层与对称的编码层进行拼接，得到拼接结果；对所述拼接结果进行自注意力计算，得到当前尺度下的医学图像的全局上下文关系；

2.根据权利要求1所述的方法，其特征在于，所述每个编码层均预设多水平分支局部上下文提取模型作为所述编码层中的前馈神经网络作特征提取；

3.根据权利要求1所述的方法，其特征在于，所述编码层包括第一层Transformer块、第二层Transformer块、第三层Transformer块和第四层Transformer块；

4.根据权利要求3所述的方法，其特征在于，所述不同尺度医学图像包括第一尺度医学图像，第二尺度医学图像，第三尺度医学图像和最小尺度医学图像；

所述对医学图像的像素进行分组，包括：

通过二维卷积核划分所述医学图像的像素为7×7的二维分组，并通过重叠分组建立不同分组之间的关系，将分组结果输入所述第一层Transformer块；

通过二维卷积核划分所述第一层Transformer块输出的所述第一尺度医学图像的像素为3×3的二维分组，且通过重叠分组来引入不同分组之间的关系，将分组结果输入所述第二层Transformer块；

通过二维卷积核划分所述第二层Transformer块输出的所述第二尺度医学图像的像素为3×3的二维分组，且通过重叠分组来引入不同分组之间的关系，将分组结果输入所述第三层Transformer块；

通过二维卷积核划分所述第三层Transformer块输出的所述第三尺度医学图像的像素为3×3的二维分组，且通过重叠分组来引入不同分组之间的关系，将分组结果输入所述第四层Transformer块。

5.根据权利要求3所述的方法，其特征在于，所述解码层包括第一层Decoder块、第二层Decoder块、第三层Decoder块和第四层Decoder块；所述第四层Decoder块、第三层Decoder块、第二层Decoder块和第一层Decoder块依次串联，且从所述第四层Decoder块至第一层Decoder块的扩张路径上采样分辨率依次增大；

6.根据权利要求5所述的方法，其特征在于，将每个所述编码层与每个所述解码层进行拼接，利用交叉注意力计算，将所述不同尺度的医学图像和所述当前尺度下的医学图像的全局图像的全局图像进行融合，得到多尺度医学图像的全局上下文关系，包括：

7.根据权利要求6所述的方法，其特征在于，拼接所述当前尺度下的医学图像的全局上下文关系和所述多尺度医学图像的全局上下文关系，得到多尺度上下文关系，包括:

8.根据权利要求2所述的方法，其特征在于，使用空间分离卷积对输入所述第一分支的第一特征图进行垂直和水平边界信息提取，得到第二特征图，包括：

拼接所述第一结果和所述第二结果得到第二特征图；

所述第二特征图表示为：

F₁＝concat[χ(conv_h(conv_v(F₀))),χ(conv_v(conv_h(F₀)))]，

9.一种基于Transformer的医学图像分割装置，其特征在于，包括：

分组模块，用于对医学图像的像素进行分组；

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。