CN115861762A

CN115861762A - 一种即插即用无限形变融合特征提取的方法及其应用

Info

Publication number: CN115861762A
Application number: CN202310165384.1A
Authority: CN
Inventors: 年睿; 张国耀; 钱玉琪; 赵明章; 李建辉
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-03-28
Anticipated expiration: 2043-02-27
Also published as: CN115861762B

Abstract

本发明涉及智能图像处理技术领域，具体的涉及一种即插即用无限形变融合特征提取的方法及其应用，与现有技术相比，本发明针对传统卷积操作的固有局限性、很难学习明确的全局和长期语义信息交互，仅从邻域像素收集信息、缺乏明确捕获远程依赖性的能力问题，采用了基于Transformer融合特征提取的编码结构以建立三维图像序列标记之间的全局连接，构建像素点间的远程依赖关系，提取多尺度上下文信息，针对Transformer中多头注意力机制之间的注意力信息相互独立并行运算，对三维图像层间结构化信息的特征提取不完全的问题，采用了融合头部注意力机制，实现对三维图像层间结构化信息的精准提取。

Description

一种即插即用无限形变融合特征提取的方法及其应用

技术领域

本发明涉及智能图像处理和实例分割技术领域，具体的涉及一种即插即用无限形变融合特征提取的方法及其应用。

背景技术

目前，三维图像分割在实际生活中起到了十分重要的作用，特别应用于医学诊断方面，传统的手工描绘的分割方法是低效的，而且由于精确注释的模糊性，手工描绘也具有主观性。而随着深度学习的发展，传统手工描绘的分割方法逐渐被取代，基于深度学习的三维图像分割方法不仅可以提高诊断效率，而且在准确性方面也有很大的提高。

在深度学习的发展过程中，卷积神经网络在一系列三维图像分割任务中占据主导地位。Ronneberger等人开发了一个完全卷积网络(FCN)，即UNet，对整个图像进行密集预测。随后，3D UNet和VNet被提出作为UNet在三维体积分割的扩展。虽然卷积神经网络在三维图像分割领域取得了巨大的成功，但很难取得进一步的突破。由于卷积操作的固有局域性，基于卷积的方法很难学习明确的全局和长期语义信息交互。卷积仅从邻域像素收集信息，缺乏明确捕获远程依赖性的能力。另外，卷积核的大小和形状通常是固定的，不能适应输入内容。基于以上原因导致传统卷积在进行特征提取时，造成多尺度上下文信息方面的缺失，从而导致了对不同形状和尺度的结构的次优分割。

而Transformer由于其多头自注意机制可以有效地建立序列标记之间的全局连接，构建像素点间的远程依赖关系，提取多尺度上下文信息，同时也很大程度上改善了传统卷积感受野受限的问题。但是由于Transformer要求序列化输入的限制，这在一定程度上阻碍了其在三维图像处理上的发展，另外由于Transformer中多头注意力机制之间各个头部的注意力信息相互独立并行运算，这对三维图像层间结构化信息的特征提取不完全。

因此，本领域技术人员亟需一种能够解决现有的三维图像分割技术中存在的多尺度上下文信息方面的缺失，从而导致了对不同形状和尺度的结构的次优分割、以及使用Transformer时多头注意力机制之间各个头部的注意力信息相互独立并行运算，对三维图像层间结构化信息的特征提取不完全等问题的三维图像分割方法。

发明内容

针对现有技术中存在的问题，本发明的目的在于：提供一种能够实现对三维图像层间结构化信息的精准提取的即插即用无限形变融合特征提取方法，用以解决现有技术中存在的对三维图像层间结构化信息的特征提取不完全的问题。

为实现上述目的，本发明采取的技术方案是：一种即插即用无限形变融合特征提取的方法，包括以下步骤：

S1：收集三维立体图像数据集，将数据集分为训练样本集和测试样本集；

S2：构建即插即用无限形变融合特征提取模块；

S3：建立步骤S2中即插即用无限形变融合特征提取模块的特征输入与位置输入，以提取无限形变全局注意力融合特征；

S4：构建由步骤S3中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习网络结构；

S5：将步骤S1所述的训练样本集，输入至步骤S4中所述的深度学习网络，得到训练后的深度学习网络模型；

S6：将步骤S1所述的测试样本集，输入至步骤S5中得到的训练后的深度学习网络模型，获取深度学习网络测试输出。

上述的即插即用无限形变融合特征提取的方法，所述步骤S3中包括以下步骤：

a：构建包含三维立体图像特征信息的注意力权重矩阵，提取三维立体特征图像的注意力信息，作为融合头部自注意力特征的注意力信息输入；

b:构建包含三维立体图像空间信息的位置权重矩阵，对不同维度进行位置编码，存储三维立体图像的三维空间特征信息，作为融合头部自注意力特征的位置信息输入；

c：计算融合头部自注意力特征公式中的注意力强度矩阵，通过注意力权重矩阵和位置权重矩阵计算三维立体图像的注意力强度信息，用于提取三维立体特征图的全局注意力信息；

d：构建融合头部自注意力特征公式中的融合头部自注意力机制，通过对多个并行运算的注意力头部中的逻辑和权重信息进行交叉融合，实现对三维立体特征图的层间结构化特征信息进行精准提取。

上述的即插即用无限形变融合特征提取的方法，所述步骤a中包括以下步骤：

1）：定义输入三维立体图像初始化信息：将待特征提取的三维立体图像块定义为

，其中/>

为高度，/>

为宽度，/>

为深度，/>

为输入特征提取模块的通道数；

2）：构建包含三维立体图像特征信息的注意力权重矩阵，提取三维立体图像块

的注意力信息，作为融合头部自注意力特征公式中的注意力信息输入；

3）：定义三个初始化相同的三维立体卷积块，分别表示要查询的信息权重

、被查询的向量权重/>

、查询得到的值权重/>

，再经过尺寸变换函数/>

分别得到注意力机制中要查询的信息/>

、被查询的向量/>

和查询得到的值/>

，用于提取三维立体图像块/>

的注意力信息，并作为后续融合头部自注意力特征公式中的注意力信息输入：

，

其中

， />

为注意力信息的输入系数，且/>

，/>

个

分别组成集合/>

，/>

，

。

上述的即插即用无限形变融合特征提取的方法，所述步骤b中包括以下步骤：

4）：定义三个可迭代的用于学习三维立体图像宽度

、高度/>

和深度/>

位置信息的权重参数分别为/>

，/>

，/>

，用来对/>

进行位置编码存储其三维空间特征信息，并作为后续融合头部自注意力特征公式中的位置信息输入；/>

，/>

表示即插即用无限形变融合特征提取模块注意力头部的个数，权重参数的维度分别为/>

，/>

，/>

，

表示即插即用无限形变融合特征提取模块的比例因子；

5）：将

、/>

、/>

通过三维空间融合得到对应头部的空间信息权重矩阵/>

：

，

其中

，/>

个/>

组成空间信息权重矩阵集合

；

6）：将空间信息权重矩阵

通过尺度变换函数/>

得到空间信息权重序列/>

，用于存储三维立体图像/>

的三维空间特征信息，并作为后续融合头部自注意力特征公式中的位置信息输入：

，

其中

，/>

，/>

个/>

组成空间信息权重序列集合

，/>

会在后续计算融合头部自注意力公式的过程中对/>

的空间信息进行迭代更新。

上述的即插即用无限形变融合特征提取的方法，所述步骤c中包括以下步骤：

7）：通过步骤a中得到的注意力权重矩阵和步骤b中得到的位置权重矩阵，计算三维立体图像的注意力强度信息，提取三维立体特征图的全局注意力信息，计算融合头部自注意力特征公式中的注意力强度矩阵；

8）：将

的转置/>

与/>

进行矩阵相乘，/>

的转置/>

与/>

进行矩阵相乘后的结果进行特征融合，得到三维立体图像块/>

的注意力强度/>

：

，

其中

。

上述的即插即用无限形变融合特征提取的方法，所述步骤d中包括以下步骤：

9）：引入可训练的注意力逻辑映射

，用于将/>

个并行运算的注意力头部中的逻辑信息进行特征融合，以获取融合后各个注意力头部之间的逻辑关联信息，然后通过

层得到融合头部注意力逻辑信息/>

：

，

其中

；

10）：引入可训练的注意力权重映射

，将/>

个并行运算的注意力头部中的权重信息/>

进行特征融合，以获取融合后各个注意力头部之间的权重关联信息/>

：/>

，

其中

；

11）：与

个并行运算的注意力头部中的/>

组成的矩阵

进行矩阵相乘得到融合头部自注意力特征公式的输出结果

：

，

其中

；

12）：通过尺度变换函数

将融合头部自注意力特征公式的输出结果/>

重新投影回/>

，得到即插即用无限形变融合特征提取模块的输出结果/>

：

。

一种如上述任一项所述的即插即用无限形变融合特征提取的方法的用途，所述即插即用无限形变融合特征提取用于图像分割方法、图像识别方法、时间序列预测方法、目标检测方法、超分辨重建方法、图像模拟生成方法、聚类方法。

一种基于即插即用无限形变融合特征提取的Transformer图像分割方法，所述Transformer图像分割方法中包括如上述任一项所述的即插即用无限形变融合特征提取的方法，在所述步骤S4中，包括以下步骤：

e：定义输入三维立体图像初始化信息：设输入的三维立体图像为

，其中/>

为高度，/>

为宽度，/>

为深度，/>

为输入网络中图像块的通道数；

f：对三维立体图像

进行序列化处理，将输入的三维立体图像/>

分割成一系列的非重叠三维立体子图像块集合/>

，其中/>

表示子图像块的数目，每个三维立体子图像块的大小为/>

，则/>

；

g：将三维立体子图像块进行嵌入投影：经过一个线性投影

将三维立体子图像块/>

映射到融合Transformer序列维数/>

中，/>

表示三维立体子图像块/>

经过线性投影后输入到网络的特定维数，得到/>

维序列/>

：

，

其中

；

h：对

维序列/>

添加一个一维位置编码/>

，对每个向量的空间信息进行编码，获得序列化处理后的输出结果：

，

其中

；

i：构建由融合头部自注意力机制和多层感知机组成的编码器，所述编码器有

层，每层由一个包含融合头部自注意力机制和多层感知机的融合Transformer模块组成，在融合头部自注意力机制和多层感知机模块之前分别应用层归一化和残差连接，其中融合头部自注意力机制在计算自注意力矩阵时，会对每个注意力头部信息进行了交叉融合，以构建三维立体图像空间信息的远程依赖关系；

j：将三维立体图像序列化处理后的输出序列

，输入到融合Transformer模块，经过/>

层融合Transformer模块后得到/>

，其中/>

，将/>

通过融合Transformer模块后得到/>

，步骤如下，

13）：

经过层归一化操作和融合头部自注意力机制，然后通过残差连接后得到

：

，

其中

表示融合头部自注意力机制，/>

表示序列/>

经过层归一化后的输出结果，/>

表示层归一化操作；

14）：

经过层归一化和多层感知机模块，然后通过残差连接后得到/>

：

，

其中

表示多层感知机MLP模块；

15）：将总共含有

个编码层的融合Transfomer编码器分成/>

个串联的子编码器结构，每个子编码器由/>

个融合头部自注意力机制和多层感知机级联而成的编码层组成，不同阶段的子编码器编码特征的输出结果/>

都将用于后续的多尺度特征融合及特征提取；

k：构建融合头部自注意力机制，设输入到融合头部自注意力模块之前的图像序列为

，融合头部自注意力机制将执行操作将/>

映射到/>

；

l：构建多尺度特征融合模块；

m：构建由即插即用Transformer无限形变融合特征提取模块和三维残差卷积块组成的解码器，将经过多尺度特征融合后第b层的三维立体融合特征图像块

作为步骤S2所述的即插即用Transformer无限形变融合特征提取模块的输入，用于进行特征提取得到/>

，

通过级联的三维残差卷积模块得到特征提取器的输出结果/>

：

，

其中

，/>

表示三维残差卷积模块。

上述的基于即插即用无限形变融合特征提取的Transformer图像分割方法，所述步骤k中执行

映射到/>

的操作包括以下步骤：

16）：获得融合头部自注意力机制中要查询的信息

、被查询的向量/>

和查询得到的值/>

，用于计算图像序列/>

的注意力信息：融合头部自注意力机制中有/>

个注意力头，其中/>

，/>

，/>

，其中

，/>

表示融合头部自注意力机制中注意力头部的个数，将图像序列/>

输入到融合头部自注意力模块，经过三个可训练的权值映射/>

、/>

、/>

，分别得到融合头部自注意力机制中的/>

、/>

、/>

：

，

其中

，/>

表示融合头部自注意力机制的比例因子；

17）：构造融合头部自注意力机制的特征公式，包括以下步骤：

①：将

的转置/>

与/>

进行矩阵相乘，为了防止/>

和/>

进行矩阵相乘后每一行向量的内积过大，将内积结果除以融合头部自注意力机制的比例因子/>

的平方根，得到图像序列中的注意力强度/>

：

，

其中

；

②：引入可训练的注意力逻辑映射

，将/>

个并行运算的注意力头部中的逻辑信息进行特征融合，以获取融合后各个注意力头部之间的逻辑关联信息，通过/>

层得到融合头部注意力逻辑信息/>

：

，

其中

；

③：引入可训练的注意力权重映射

，将/>

个并行运算的注意力头部中的权重信息进行特征融合，以获取融合后各个注意力头部之间的权重关联信息/>

：

，

其中

；

④：与

个并行运算的注意力头部的/>

组成的矩阵

进行矩阵相乘得到融合头部自注意力机制的输出结果/>

：

，

其中

；

⑤：通过映射

将融合头部自注意力特征公式的输出结果/>

重新投影回/>

，得到融合头部自注意力机制的输出结果/>

：/>

。

上述的基于即插即用无限形变融合特征提取的Transformer图像分割方法，所述步骤l中包括以下步骤：

18）：对来自编码器的多个分辨率的特征图像块与解码器得到的对应分辨率的结果进行特征融合：将

每经过/>

个融合Transformer模块输出一个隐藏特征序列，共输出/>

个隐藏层序列/>

，将这/>

个维度为/>

隐藏层序列重塑为/>

个同等大小维度为/>

，通道数为/>

维的三维立体特征图像块/>

；

19）：将

通过转置卷积进行上采样得到/>

个维度为/>

的三维立体特征图像块/>

；

20）：将维度为

的三维立体特征图像块/>

通过转置卷积进行上采样得到维度为/>

的三维立体特征图像块/>

，然后将/>

与/>

进行多尺度特征融合得到维度为/>

的三维立体融合特征图像块/>

：

，

其中

的通道数为/>

和/>

的和；

21）：按上述过程逐层进行多尺度特征融合，将三维立体特征图图像块的空间分辨率从

恢复到/>

，其中/>

由深到浅依次减少，最终得到基于即插即用Transformer无限形变融合特征提取的三维立体图像分割网络的分割结果/>

。

本发明一种即插即用无限形变融合特征提取的方法的有益效果是：与现有技术相比，本申请针对传统网络模型序列化输入的限制，提出了一种全新的即插即用无限形变融合特征提取模块，可以在网络的任意地方即插即用，结合三维残差卷积块，在获取多尺度空间上下文信息的同时对图像的细节信息进行精确提取。

本发明一种基于即插即用无限形变融合特征提取的Transformer图像分割方法的有益效果是：与现有技术相比，本发明针对传统卷积操作的固有局限性、以及很难学习明确的全局和长期语义信息交互，卷积仅从邻域像素收集信息、缺乏明确捕获远程依赖性的能力等问题，采用了基于Transformer融合特征提取的编码结构以建立三维图像序列标记之间的全局连接，构建像素点间的远程依赖关系，提取多尺度上下文信息。同时，针对Transformer中多头注意力机制之间各个头部的注意力信息相互独立并行运算，对三维图像层间结构化信息的特征提取不完全的问题，采用了融合头部注意力机制，在融合各个头部注意力信息的同时，实现对三维图像层间结构化信息的精准提取。

本发明打破了三维深度学习网络难以充分利用自注意力机制作为特征提取模块的弊端，可以更好的针对三维图像实现精准分割。

附图说明

图1为本发明的整体流程图；

图2为本发明即插即用无限形变融合特征提取方法的内部运算逻辑示意图；

图3为胶质瘤图像分割结果，其中：

图3中的(a)和(e)均为真实标签；

图3中的(b)和(f)均为3D UNet分割结果；

图3中的(c)和(g)均为VNet分割结果；

图3中的(d)和(h)均为本发明分割结果；

图4为本发明实施例2的整体流程图；

图5为本发明实施例3的整体流程图；

图6为本发明实施例4的整体流程图；

图7为本发明实施例5的整体流程图；

图8为本发明实施例6的整体流程图；

图9为本发明实施例7的整体流程图；

图10为本发明实施例8的整体流程图。

具体实施方式

本技术方案中的基础网络模型包括：UNe网络模型、Transformer网络模型，InfoGAIL网络模型、DCCM网络模型、BigGAN网络模型、3D-EDSR或HAT网络模型、EfficientNet系列网络模型、MIM或 FourCastNet网络模型、YOLO系列网络模型等现有网络模型，在本申请的记载方案中，主要是提供基于上述网络模型，能够在现有的网络模型的基础上即插即用的无限形变融合特征提取的方法，以及该无限形变融合特征提取的方法在具体网络模型中的应用。

为使本领域技术人员更好的理解本发明的技术方案，下面结合具体实施方式及附图对本发明的技术方案进行说明。

实施例1：

一种基于即插即用无限形变融合特征提取的图像分割方法，该方法包括以下步骤(如图1所示)：

步骤一：收集三维立体待分割图像数据集，可以采用公开或自行采集并标注的数据集，如脑部胶质瘤3D MRI扫描图像BraTS挑战赛数据集，将数据集分为训练样本集和测试样本集。

步骤二：构建即插即用无限形变融合特征提取模块，具体步骤如下：

如图2所示的即插即用无限形变融合特征提取方法的内部运算逻辑示意图，首先通过注意力信息权重矩阵

与位置信息权重矩阵/>

计算注意力强度矩阵/>

，然后经过注意力权重映射/>

和注意力逻辑映射/>

得到融合了各个注意力头部之间的权重关联信息

，最后与注意力信息权重矩阵/>

进行计算并转换后得到特征提出模块的输出结果。具体步骤如下：

1. 构建包含三维立体图像特征信息的注意力权重矩阵。

1) 定义输入三维立体图像初始化信息：将待特征提取的三维立体图像块定义为

，其中/>

为高度，/>

为宽度，/>

为深度，/>

为输入特征提取模块的通道数。

2) 构建包含三维立体图像特征信息的注意力权重矩阵，提取三维立体图像块

的注意力信息，作为融合头部自注意力特征公式中的注意力信息输入：定义三个初始化相同的三维立体卷积块，分别表示要查询的信息权重/>

、被查询的向量权重/>

、查询得到的值权重/>

，再经过尺寸变换函数/>

分别得到Transformer注意力机制中要查询的信息/>

、被查询的向量/>

和查询得到的值/>

，用于提取三维立体图像块/>

(1)，

其中

，为了后续注意力强度矩阵的计算，需要将注意力信息输入的后面三维空间通过/>

映射到一维空间，所以/>

为注意力信息的输入系数，且

，/>

个/>

分别组成集合/>

，

，/>

。

该设计通过注意力权重矩阵

、/>

、/>

先提取三维立体图像块/>

的特征信息，然后通过尺寸变换函数/>

直接对包含了三维立体图像块信息的注意力权重矩阵/>

、/>

、/>

进行序列化操作，得到包含了三维立体特征图像信息的序列化权重矩阵/>

用于后续注意力特征公式的计算。避免了传统Transformer机制中需要直接对输入进行序列化操作的弊端，以此打破传统的基于Transformer网络结构序列化输入的限制，从而达到即插即用的效果。

2. 构建包含三维立体图像空间信息的位置权重矩阵。

构建包含三维立体图像空间信息的位置权重矩阵，对不同维度进行位置编码，存储三维立体图像块

的三维空间特征信息，作为融合头部自注意力特征公式中的位置信息输入：

定义三个可迭代的用于学习三维立体图像宽度

、高度/>

和深度/>

位置信息的权重参数分别为/>

，/>

，

，用来对/>

进行位置编码存储其三维空间特征信息，并作为后续融合头部自注意力特征公式中的位置信息输入，通过使用上述步骤，能够以此打破Transformer机制中需要序列化位置编码的限制。其中/>

，/>

，/>

，/>

，/>

表示即插即用无限形变融合特征提取模块的比例因子。

然后将

、/>

、/>

通过三维空间融合得到对应头部的空间信息权重矩阵/>

：

(2)，

其中

，/>

个/>

组成空间信息权重矩阵集合

。

将空间信息权重矩阵

通过尺度变换函数/>

得到空间信息权重序列/>

，用于存储三维立体图像/>

(3)，

其中

，/>

，/>

个/>

组成空间信息权重序列集合

，/>

会在后续计算融合头部自注意力公式的过程中对/>

的空间信息进行迭代更新。

3. 计算融合头部自注意力特征公式中的注意力强度矩阵。

计算融合头部自注意力特征公式中的注意力强度矩阵，通过在构建包含三维立体图像特征信息的注意力权重矩阵中得到的注意力权重矩阵

和在构建包含三维立体图像空间信息的位置权重矩阵中得到的位置权重矩阵/>

计算三维立体图像的注意力强度信息，用于提取三维立体特征图的全局注意力信息：首先将/>

的转置/>

与/>

进行矩阵相乘，然后/>

的转置/>

与/>

的注意力强度/>

：

(4)，

其中

。

4. 构建融合头部自注意力特征公式中的融合头部自注意力机制。

构建融合头部自注意力特征公式中的融合头部自注意力机制，通过对多个并行运算的注意力头部中的逻辑和权重信息进行交叉融合，实现对三维立体特征图的层间结构化特征信息进行精准提取：

引入可训练的注意力逻辑映射

，用于将/>

层得到融合头部注意力逻辑信息/>

：

(5)，

其中

。

1) 之后引入可训练的注意力权重映射

，将/>

个并行运算的注意力头部中的权重信息/>

：

(6)，

其中

。

该设计打破了多头自注意力机制中由于多个注意力头部并行独立运算，难以构建三维子图块间远程依赖关系的弊端，通过可训练的注意力逻辑映射

和注意力权重映射

，使多个并行头部在计算自注意力矩阵时，能够对每个注意力头部的逻辑和权重信息进行交叉融合，以对三维立体特征图的层间结构化特征信息进行精准提取。

2) 之后与

个并行运算的注意力头部中的/>

组成的矩阵

进行矩阵相乘得到融合头部自注意力特征公式的输出结果

：

(7)，

其中

。

3) 最终通过尺度变换函数

将融合头部自注意力特征公式的输出结果/>

重新投影回/>

，得到即插即用无限形变融合特征提取模块的输出结果/>

：

(8)。

步骤三：以三维立体图像分割为例，建立基于即插即用无限形变融合特征提取的分割网络模型：

1. 构建三维立体图像序列化模块。

1) 定义输入三维立体图像初始化信息：设输入的三维立体图像为

，其中/>

为高度，/>

为宽度，/>

为深度，/>

为输入网络中图像块的通道数。

2) 对三维立体图像

进行序列化处理：首先，为了将三维立体图像/>

输入到基于Fuison Transformer的编码器中，需要进行序列化输入的设计。将输入/>

分割成一系列的非重叠三维立体子图像块集合/>

，其中/>

表示子图像块的数目，每个三维立体子图像块的大小为/>

，则/>

。与之前相比，此处/>

是输入图像，/>

是网络内部输入到特征提取模块之前的图像。

3) 将三维立体子图像块进行嵌入投影：经过一个线性投影

将三维立体子图像块/>

映射到融合Transformer序列维数/>

中，/>

表示三维立体子图像块/>

经过线性投影后输入到网络的特定维数，得到/>

维序列/>

：

(9)，

其中

。

4) 对

维序列/>

添加一个一维位置编码/>

，对每个向量的空间信息进行编码，获得序列化处理后的输出结果：/>

(10)，

其中

。

2. 构建由融合头部自注意力机制和多层感知机组成的编码器。

1) 编码器有

层，每层由一个包含融合头部自注意力机制和多层感知机的融合Transformer模块组成。在融合头部自注意力机制和多层感知机模块之前分别应用层归一化和残差连接。其中融合头部自注意力机制在计算自注意力矩阵时，会对每个注意力头部信息进行了交叉融合，以构建三维立体图像空间信息的远程依赖关系。

2) 将三维立体图像序列化处理后的输出序列

，输入到融合Transformer模块，经过/>

层融合Transformer模块后得到/>

，其中/>

，将/>

通过融合Transformer模块后得到/>

的过程如下：

首先，

：

(11)，

其中

表示融合头部自注意力机制，/>

表示序列/>

经过层归一化后的输出结果，/>

表示层归一化操作。

然后，

：

(12)，

其中

表示多层感知机MLP模块。

最终，将总共含有

个编码层的融合Transfomer编码器分成/>

个串联的子编码器结构，每个子编码器由/>

都将用于后续的多尺度特征融合及特征提取。

3. 构建融合头部自注意力机制。

设输入到融合头部自注意力模块之前的图像序列为

，融合头部自注意力机制将执行操作将/>

映射到/>

：

1) 获得融合头部自注意力机制中要查询的信息

、被查询的向量/>

和查询得到的值/>

，用于计算图像序列/>

的注意力信息：融合头部自注意力机制中有/>

个注意力头，其中/>

，/>

，/>

，其中

，/>

、/>

、/>

，分别得到融合头部自注意力机制中的/>

、/>

、/>

：/>

(13)，

其中

，/>

表示融合头部自注意力机制的比例因子。

2) 构造融合头部自注意力机制的特征公式：首先

的转置/>

与/>

进行矩阵相乘，为了防止/>

和/>

的平方根，得到图像序列中的注意力强度/>

：

(14)，

其中

。

3) 之后引入可训练的注意力逻辑映射

，将/>

层得到融合头部注意力逻辑信息/>

：

(15)，

其中

。

4) 之后引入可训练的注意力权重映射

，将/>

：

(16)，

其中

。

5) 之后与

个并行运算的注意力头部的/>

组成的矩阵

进行矩阵相乘得到融合头部自注意力机制的输出结果/>

：

(17)，

其中

。

6) 最终通过映射

将融合头部自注意力特征公式的输出结果/>

重新投影回

，得到融合头部自注意力机制的输出结果/>

：

(18)。

4. 构建多尺度特征融合模块。

1)对来自编码器的多个分辨率的特征图像块与解码器得到的对应分辨率的结果进行特征融合：将

每经过/>

个融合Transformer模块输出一个隐藏特征序列，共输出/>

个隐藏层序列/>

，将这/>

个维度为/>

隐藏层序列重塑为/>

个同等大小维度为/>

，通道数为/>

维的三维立体特征图像块/>

。

2)将

通过转置卷积进行上采样得到/>

个维度为/>

的三维立体特征图像块/>

。

3)将维度为

的三维立体特征图像块/>

通过转置卷积进行上采样得到维度为/>

的三维立体特征图像块/>

，然后将/>

与/>

进行多尺度特征融合得到维度为/>

的三维立体融合特征图像块/>

：

(19)，

其中

的通道数为/>

和/>

的和。

按上述过程逐层进行多尺度特征融合，将三维立体特征图图像块的空间分辨率从

恢复到/>

，其中/>

。

5. 构建由即插即用无限形变融合特征提取模块和三维残差卷积块组成的解码器。

将经过多尺度特征融合后第b层的三维立体融合特征图像块

作为步骤S2所述的即插即用无限形变融合特征提取模块的输入，用于进行特征提取得到/>

，之后再经过三维残差卷积特征提取模块得到/>

：

1) 将

通过步骤二中构建的即插即用无限形变融合特征提取模块得到/>

。

2) 之后

通过级联的三维残差卷积模块得到特征提取器的输出结果/>

：

(20)，

其中

，/>

表示三维残差卷积模块。

步骤四：将步骤一获取的训练样本集，送入步骤三获取的基于即插即用无限形变融合特征提取的分割网络进行训练，得到训练后的网络模型。

步骤五：将步骤一获取的测试样本集，送入步骤四获取的训练好的基于即插即用无限形变融合特征提取的分割网络模型，输出三维立体图像的分割结果。

经过以上步骤，可以实现三维胶质瘤磁共振图像的精准分割提取，从而解决现有技术中传统卷积在进行特征提取时，造成多尺度上下文信息方面的缺失，导致对不同形状和尺度的结构的次优分割，以及由于Transformer要求序列化输入的限制，阻碍了其在三维图像处理上的发展的问题，以及由于Transformer中多头注意力机制之间各个头部的注意力信息相互独立并行运算，能够有效的解决三维图像层间结构化信息的特征提取不完全的问题所导致的的信息缺失。

如图3所示，图3中的(a)、图3中的(e)为数据采集真实标签，与之对比，本文提出的模型比其他方法更加接近ground truth标注，如图3中的(b)和图3中的(c)所示，3D UNet和VNet都对肿瘤水肿区域做出了明显的错误分割，这些错误分割的区域会严重影响对胶质瘤分割效果的评估。而本文提出的融合头部自注意力机制，因为融合了胶质瘤的各个头部的注意力信息，并且能够更加细致的关注到胶质瘤的层间结构化差异，因此获得了十分优异的分割结果。同时本文的模型与其他两种种模型相比，对肿瘤水肿区域的错误分割明显减少，证明了本文模型构建了优异的胶质瘤特征信息的空间依赖模型，分割效果取得了显著提升。

如图3中的(f)和图3中的(g)所示,3D UNet和VNet对胶质瘤内部核心细节的特征提取存在明显错误，而图3中的(d)和图3中的(h)中本发明的分割结果更加接近真实值。这得益于本文提出的即插即用无限形变融合特征提取方法，可以打破传统Transformer序列化输入的限制，实现自注意力机制与卷积操作的有效结合。能够在关注到三维胶质瘤磁共振成像层间结构化信息的同时，实现对胶质瘤内部核心细节信息进行精准提取。

实施例2：

本实施例中与实施例1中相同的解决方法不再进行赘述，主要对不同方面进行描述。

一种基于即插即用无限形变融合特征提取的图像识别方法，该方法包括以下步骤：

步骤一：收集三维立体待识别图像数据集，可以采用公开或自行采集并标注的数据集，如由欧空局提供的GlobColour Project叶绿素产品数据集，将数据集分为训练样本集和测试样本集；

步骤二：构建即插即用无限形变融合特征提取模块，同实施例1中步骤二；

步骤三：建立步骤二中即插即用无限形变融合特征提取模块的特征输入与位置输入，以提取无限形变全局注意力融合特征，同实施例1中步骤二，并将实施例1中记载的Transformer网络模型换为EfficientNet系列网络模型；

步骤四：以识别问题为例，构建由步骤三中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习识别网络结构（例如图4所示），具体实施例如EfficientNet系列网络中的特征提取模块可以替换为步骤三所述Transformer网络模型；

步骤五：将步骤一所述的训练样本集，输入至步骤四所述的深度学习识别网络结构，得到训练后的深度学习识别网络模型；

步骤六：将步骤一所述的测试样本集，输入至步骤五已训练的深度学习识别网络模型，获取深度学习识别网络测试输出。

实施例3：

本实施例中与上述实施例中相同的解决方法不再进行赘述，主要对不同方面进行描述。

一种基于即插即用无限形变融合特征提取的时间序列预测方法，该方法包括以下步骤：

步骤一：收集待预测数据集，可以采用公开或自行采集并标注的数据集，如由AVISO提供的海平面异常（SLA）、绝对地转流速（AGV）、绝对动态地形（ADT）数据，由欧空局气候变化倡议组织提供的海平面温度（SST）数据、海平面盐度（SSS）数据，由RSS CCMP提供的风场数据，将数据集分为训练样本集和测试样本集；

步骤二：构建即插即用无限形变融合特征提取模块；

步骤三：建立步骤二中即插即用无限形变融合特征提取模块的特征输入与位置输入，以提取无限形变全局注意力融合特征，并将实施例1中记载的Transformer网络模型换为MIM或 FourCastNet网络模型；

步骤四：以预测问题为例，构建由步骤三中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习预测网络结构（例如图5所示），具体实施例如MIM（Memory In Memory）、FourCastNet（Fourier ForeCasting Neural Network）网络中的特征提取模块可以替换为MIM或 FourCastNet网络模型；

步骤五：将步骤一所述的训练样本集，输入至步骤四所述的深度学习预测网络，得到训练后的深度学习预测网络模型；

步骤六：将步骤一所述的测试样本集，输入至步骤五已训练的深度学习预测网络模型，获取深度学习预测网络测试输出。

实施例4：

一种基于即插即用无限形变融合特征提取的目标检测方法，该方法包括以下步骤：

步骤一：收集待检测数据集，可以采用公开或自行采集并标注的数据集，如由NOAA提供的Ocean Exploration and Research (OER) 数据集以及Fathom、MBARI提供的海底底栖生物数据集，将数据集分为训练样本集和测试样本集；

步骤二：构建即插即用无限形变融合特征提取模块；

步骤三：建立步骤二中即插即用无限形变融合特征提取模块的特征输入与位置输入，以提取无限形变全局注意力融合特征，并将实施例1中记载的Transformer网络模型换为YOLO系列网络模型；

步骤四：以检测问题为例，构建由步骤三中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习检测网络结构（例如图6所示），具体实施例如YOLO系列网络中的特征提取模块可以替换实施例1中Transformer网络模型；

步骤五：将步骤一所述的训练样本集，输入至步骤四所述的深度学习检测网络，得到训练后的深度学习检测网络模型；

步骤六：将步骤一所述的测试样本集，输入至步骤五已训练的深度学习检测网络模型，获取深度学习检测网络测试输出。

实施例5：

一种基于即插即用无限形变融合特征提取的超分辨率重建方法，该方法包括以下步骤：

步骤一：收集待超分辨率重建数据集，可以采用公开或自行采集并标注的数据集，如由美国国家脑科学研究院（National Institutes of Health）资助的HCP数据集，将数据集分为训练样本集和测试样本集；

步骤二：构建即插即用无限形变融合特征提取模块；

步骤三：建立步骤二中即插即用无限形变融合特征提取模块的特征输入与位置输入，以提取无限形变全局注意力融合特征，并将实施例1中记载的Transformer网络模型换为3D-EDSR或HAT网络模型；

步骤四：以超分辨率重建问题为例，构建由步骤三中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习超分辨率重建网络结构（例如图7所示），具体实施例如3D-EDSR (3D Self-Enhanced Version Of Deep Residual Network)、HAT（Hybrid Attention Transformer）网络中的特征提取模块可以替换为步骤二所述即插即用无限形变融合特征提取模块；

步骤五：将步骤一所述的训练样本集，输入至步骤四所述的深度学习超分辨率重建网络，得到训练后的深度学习超分辨率重建网络模型；

步骤六：将步骤一所述的测试样本集，输入至步骤五已训练的深度学习超分辨率重建网络模型，获取深度学习超分辨率重建网络测试输出。

实施例6：

一种基于即插即用无限形变融合特征提取的图像模拟生成方法，该方法包括以下步骤：

步骤一：收集待模拟生成图像数据集，可以采用公开或自行采集并标注的数据集，如由英国伦敦的国家卫生研究院（NHRIC）收集的IXI多模态MRI数据集，将数据集分为训练样本集和测试样本集；

步骤二：构建即插即用无限形变融合特征提取模块；

步骤三：建立步骤二中即插即用无限形变融合特征提取模块的特征输入与位置输入，以提取无限形变全局注意力融合特征，并将实施例1中记载的Transformer网络模型换为BigGAN网络模型；

步骤四：以图像模拟生成问题为例，构建由步骤三中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习生成对抗网络结构（例如图8所示），具体实施例如BigGAN网络中的特征提取模块可以替换为步骤二所述即插即用无限形变融合特征提取模块；

步骤五：将步骤一所述的训练样本集，输入至步骤四所述的深度学习生成对抗网络，得到训练后的深度学习生成对抗网络模型；

步骤六：将步骤一所述的测试样本集，输入至步骤五已训练的深度学习生成对抗网络模型，获取深度学习生成对抗网络测试输出。

实施例7：

一种基于即插即用无限形变融合特征提取的聚类方法，该方法包括以下步骤：

步骤一：收集待聚类图像数据集，可以采用公开或自行采集并标注的数据集，如由AVISO提供的海平面异常（SLA）、绝对地转流速（AGV）、绝对动态地形（ADT）数据，由欧空局气候变化倡议组织提供的海平面温度（SST）数据、海平面盐度（SSS）数据，由RSS CCMP提供的风场数据，将数据集分为训练样本集和测试样本集；

步骤二：构建即插即用无限形变融合特征提取模块；

步骤三：建立步骤二中即插即用无限形变融合特征提取模块的特征输入与位置输入，以提取无限形变全局注意力融合特征，并将实施例1中记载的Transformer网络模型换为DCCM网络模型；

步骤四：以聚类问题为例，构建由步骤三中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习聚类网络结构（例如图9所示），具体实施例如DCCM（Deep Comprehensive Correlation Mining）网络中的特征提取模块可以替换为步骤三所述即插即用无限形变融合特征提取模块；

步骤五：将步骤一所述的训练样本集，输入至步骤四所述的深度学习聚类网络，得到训练后的深度学习聚类网络模型；

步骤六：将步骤一所述的测试样本集，输入至步骤五已训练的深度学习聚类网络模型，获取深度学习聚类网络测试输出。

实施例8：

一种基于即插即用无限形变融合特征提取的强化学习方法，该方法包括以下步骤：

步骤一：收集待强化学习数据集，可以采用公开或自行采集并标注的数据集，如由AVISO提供的海平面异常（SLA）提取的特征数据集，将数据集分为训练样本集和测试样本集；

步骤二：构建即插即用无限形变融合特征提取模块；

步骤三：建立步骤二中即插即用无限形变融合特征提取模块的特征输入与位置输入，以提取无限形变全局注意力融合特征，并将实施例1中记载的Transformer网络模型换为InfoGAIL网络模型；

步骤四：以强化学习问题为例，构建由步骤三中即插即用无限形变融合特征提取模块任意位置即插即用所组成的强化学习网络结构（例如图10所示），具体实施例如InfoGAIL（Interpretable Imitation Learning from Visual Demonstrations）网络中的特征提取模块可以替换为步骤三所述即插即用无限形变融合特征提取模块；

步骤五：将步骤一所述的训练样本集，输入至步骤四所述的强化学习网络，得到训练后的强化学习网络模型；

步骤六：将步骤一所述的测试样本集，输入至步骤五已训练的强化学习网络模型，获取强化学习网络测试输出。

上述实施例只是为了说明本发明的发明构思和特点，其目的在于让本领域内的普通技术人员能够了解本发明的内容并据以实施，并不能以此限定本发明的保护范围。凡是根据本发明内容的实质所做出的等效变化或修饰，都应该涵盖在本发明的保护范围之内。

Claims

1.一种即插即用无限形变融合特征提取的方法，其特征在于，包括以下步骤：

S2：构建即插即用无限形变融合特征提取模块；

2.根据权利要求1所述的即插即用无限形变融合特征提取的方法，其特征是，所述步骤S3中包括以下步骤：

3.根据权利要求2所述的即插即用无限形变融合特征提取的方法，其特征是，所述步骤a中包括以下步骤：

，其中/>

为高度，/>

为宽度，/>

为深度，/>

为输入特征提取模块的通道数；

、被查询的向量权重/>

、查询得到的值权重/>

，再经过尺寸变换函数/>

分别得到注意力机制中要查询的信息/>

、被查询的向量/>

和查询得到的值/>

，用于提取三维立体图像块/>

，/>

其中

，/>

为注意力信息的输入系数，且/>

，/>

个

分别组成集合/>

，/>

，

。

4.根据权利要求3所述的即插即用无限形变融合特征提取的方法，其特征是，所述步骤b中包括以下步骤：

4）：定义三个可迭代的用于学习三维立体图像宽度

、高度/>

和深度/>

位置信息的权重参数分别为/>

，/>

，/>

，用来对/>

，/>

，/>

，/>

，

表示即插即用无限形变融合特征提取模块的比例因子；

5）：将

、/>

、/>

通过三维空间融合得到对应头部的空间信息权重矩阵/>

：

，

其中

，/>

个/>

组成空间信息权重矩阵集合/>

；

6）：将空间信息权重矩阵

通过尺度变换函数/>

得到空间信息权重序列/>

，用于存储三维立体图像/>

，

其中

，/>

，/>

个/>

组成空间信息权重序列集合

，/>

会在后续计算融合头部自注意力公式的过程中对/>

的空间信息进行迭代更新。

5.根据权利要求4所述的即插即用无限形变融合特征提取的方法，其特征是，所述步骤c中包括以下步骤：

8）：将

的转置/>

与/>

进行矩阵相乘，/>

的转置/>

与/>

的注意力强度/>

：

，

其中

。

6.根据权利要求4所述的即插即用无限形变融合特征提取的方法，其特征是，所述步骤d中包括以下步骤：

9）：引入可训练的注意力逻辑映射

，用于将/>

个并行运算的注意力头部中的逻辑信息进行特征融合，以获取融合后各个注意力头部之间的逻辑关联信息，然后通过/>

层得到融合头部注意力逻辑信息/>

：

，

其中

；

10）：引入可训练的注意力权重映射

，将/>

个并行运算的注意力头部中的权重信息

：

，

其中

；

11）：与

个并行运算的注意力头部中的/>

组成的矩阵/>

进行矩阵相乘得到融合头部自注意力特征公式的输出结果/>

：

，

其中

；

12）：通过尺度变换函数

将融合头部自注意力特征公式的输出结果/>

重新投影回

，得到即插即用无限形变融合特征提取模块的输出结果/>

：

。

7.一种如权利要求 1-6任一项所述的即插即用无限形变融合特征提取的方法的用途，其特征在于，所述即插即用无限形变融合特征提取用于图像分割方法、图像识别方法、时间序列预测方法、目标检测方法、超分辨重建方法、生成对抗方法、无监督学习方法、强化学习。

8.一种基于即插即用无限形变融合特征提取的Transformer图像分割方法，其特征在于，所述Transformer图像分割方法中包括如权利要求1-6任一项所述的即插即用无限形变融合特征提取的方法，在所述步骤S4中，包括以下步骤：

，其中

为高度，/>

为宽度，/>

为深度，/>

为输入网络中图像块的通道数；

f：对三维立体图像

进行序列化处理，将输入的三维立体图像/>

分割成一系列的非重叠三维立体子图像块集合/>

，其中/>

表示子图像块的数目，每个三维立体子图像块的大小为/>

，则/>

；

g：将三维立体子图像块进行嵌入投影：经过一个线性投影

将三维立体子图像块/>

映射到融合Transformer序列维数/>

中，/>

表示三维立体子图像块/>

经过线性投影后输入到网络的特定维数，得到/>

维序列/>

：

，/>

其中

；

h：对

维序列/>

添加一个一维位置编码/>

，

其中

；

j：将三维立体图像序列化处理后的输出序列

，输入到融合Transformer模块，经过/>

层融合Transformer模块后得到/>

，其中/>

，将/>

通过融合Transformer模块后得到

，步骤如下，

13）：

经过层归一化操作和融合头部自注意力机制，然后通过残差连接后得到/>

：

，

其中

表示融合头部自注意力机制，/>

表示序列/>

经过层归一化后的输出结果，

表示层归一化操作；

14）：

：

，

其中

表示多层感知机MLP模块；

15）：将总共含有

个编码层的融合Transfomer编码器分成/>

个串联的子编码器结构，每个子编码器由/>

都将用于后续的多尺度特征融合及特征提取；

，融合头部自注意力机制将执行操作将/>

映射到/>

；

l：构建多尺度特征融合模块；

，/>

通过级联的三维残差卷积模块得到特征提取器的输出结果/>

：/>

，

其中

，/>

表示三维残差卷积模块。

9.根据权利要求8所述的基于即插即用无限形变融合特征提取的Transformer图像分割方法，其特征是，所述步骤k中执行

映射到/>

的操作包括以下步骤：

16）：获得融合头部自注意力机制中要查询的信息

、被查询的向量/>

和查询得到的值/>

，用于计算图像序列/>

的注意力信息：融合头部自注意力机制中有/>

个注意力头，其中/>

，/>

，/>

，其中

，/>

、/>

、/>

，分别得到融合头部自注意力机制中的/>

、/>

、/>

：

，

其中

，/>

表示融合头部自注意力机制的比例因子；

①：将

的转置/>

与/>

进行矩阵相乘，为了防止/>

和/>

的平方根，得到图像序列中的注意力强度/>

：

，

其中

；

②：引入可训练的注意力逻辑映射

，将/>

层得到融合头部注意力逻辑信息/>

：

，

其中

；

③：引入可训练的注意力权重映射

，将/>

：

，/>

其中

；

④：与

个并行运算的注意力头部的/>

组成的矩阵/>

进行矩阵相乘得到融合头部自注意力机制的输出结果/>

：

，

其中

；

⑤：通过映射

将融合头部自注意力特征公式的输出结果/>

重新投影回/>

，得到融合头部自注意力机制的输出结果/>

：

。

10.根据权利要求7所述的基于即插即用无限形变融合特征提取的Transformer图像分割方法，其特征是，所述步骤l中包括以下步骤：

每经过/>

个融合Transformer模块输出一个隐藏特征序列，共输出/>

个隐藏层序列/>

，将这/>

个维度为/>

隐藏层序列重塑为/>

个同等大小维度为/>

，通道数为/>

维的三维立体特征图像块/>

；

19）：将

通过转置卷积进行上采样得到/>

个维度为/>

的三维立体特征图像块/>

；

20）：将维度为

的三维立体特征图像块/>

通过转置卷积进行上采样得到维度为/>

的三维立体特征图像块/>

，然后将/>

与/>

进行多尺度特征融合得到维度为/>

的三维立体融合特征图像块/>

：

，

其中

的通道数为/>

和/>

的和；

恢复到/>

，其中/>

。/>