CN115861762A - 一种即插即用无限形变融合特征提取的方法及其应用 - Google Patents
一种即插即用无限形变融合特征提取的方法及其应用 Download PDFInfo
- Publication number
- CN115861762A CN115861762A CN202310165384.1A CN202310165384A CN115861762A CN 115861762 A CN115861762 A CN 115861762A CN 202310165384 A CN202310165384 A CN 202310165384A CN 115861762 A CN115861762 A CN 115861762A
- Authority
- CN
- China
- Prior art keywords
- attention
- fusion
- information
- dimensional
- plug
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及智能图像处理技术领域,具体的涉及一种即插即用无限形变融合特征提取的方法及其应用,与现有技术相比,本发明针对传统卷积操作的固有局限性、很难学习明确的全局和长期语义信息交互,仅从邻域像素收集信息、缺乏明确捕获远程依赖性的能力问题,采用了基于Transformer融合特征提取的编码结构以建立三维图像序列标记之间的全局连接,构建像素点间的远程依赖关系,提取多尺度上下文信息,针对Transformer中多头注意力机制之间的注意力信息相互独立并行运算,对三维图像层间结构化信息的特征提取不完全的问题,采用了融合头部注意力机制,实现对三维图像层间结构化信息的精准提取。
Description
技术领域
本发明涉及智能图像处理和实例分割技术领域,具体的涉及一种即插即用无限形变融合特征提取的方法及其应用。
背景技术
目前,三维图像分割在实际生活中起到了十分重要的作用,特别应用于医学诊断方面,传统的手工描绘的分割方法是低效的,而且由于精确注释的模糊性,手工描绘也具有主观性。而随着深度学习的发展,传统手工描绘的分割方法逐渐被取代,基于深度学习的三维图像分割方法不仅可以提高诊断效率,而且在准确性方面也有很大的提高。
在深度学习的发展过程中,卷积神经网络在一系列三维图像分割任务中占据主导地位。Ronneberger等人开发了一个完全卷积网络(FCN),即UNet,对整个图像进行密集预测。随后,3D UNet和VNet被提出作为UNet在三维体积分割的扩展。虽然卷积神经网络在三维图像分割领域取得了巨大的成功,但很难取得进一步的突破。由于卷积操作的固有局域性,基于卷积的方法很难学习明确的全局和长期语义信息交互。卷积仅从邻域像素收集信息,缺乏明确捕获远程依赖性的能力。另外,卷积核的大小和形状通常是固定的,不能适应输入内容。基于以上原因导致传统卷积在进行特征提取时,造成多尺度上下文信息方面的缺失,从而导致了对不同形状和尺度的结构的次优分割。
而Transformer由于其多头自注意机制可以有效地建立序列标记之间的全局连接,构建像素点间的远程依赖关系,提取多尺度上下文信息,同时也很大程度上改善了传统卷积感受野受限的问题。但是由于Transformer要求序列化输入的限制,这在一定程度上阻碍了其在三维图像处理上的发展,另外由于Transformer中多头注意力机制之间各个头部的注意力信息相互独立并行运算,这对三维图像层间结构化信息的特征提取不完全。
因此,本领域技术人员亟需一种能够解决现有的三维图像分割技术中存在的多尺度上下文信息方面的缺失,从而导致了对不同形状和尺度的结构的次优分割、以及使用Transformer时多头注意力机制之间各个头部的注意力信息相互独立并行运算,对三维图像层间结构化信息的特征提取不完全等问题的三维图像分割方法。
发明内容
针对现有技术中存在的问题,本发明的目的在于:提供一种能够实现对三维图像层间结构化信息的精准提取的即插即用无限形变融合特征提取方法,用以解决现有技术中存在的对三维图像层间结构化信息的特征提取不完全的问题。
为实现上述目的,本发明采取的技术方案是:一种即插即用无限形变融合特征提取的方法,包括以下步骤:
S1:收集三维立体图像数据集,将数据集分为训练样本集和测试样本集;
S2:构建即插即用无限形变融合特征提取模块;
S3:建立步骤S2中即插即用无限形变融合特征提取模块的特征输入与位置输入,以提取无限形变全局注意力融合特征;
S4:构建由步骤S3中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习网络结构;
S5:将步骤S1所述的训练样本集,输入至步骤S4中所述的深度学习网络,得到训练后的深度学习网络模型;
S6:将步骤S1所述的测试样本集,输入至步骤S5中得到的训练后的深度学习网络模型,获取深度学习网络测试输出。
上述的即插即用无限形变融合特征提取的方法,所述步骤S3中包括以下步骤:
a:构建包含三维立体图像特征信息的注意力权重矩阵,提取三维立体特征图像的注意力信息,作为融合头部自注意力特征的注意力信息输入;
b:构建包含三维立体图像空间信息的位置权重矩阵,对不同维度进行位置编码,存储三维立体图像的三维空间特征信息,作为融合头部自注意力特征的位置信息输入;
c:计算融合头部自注意力特征公式中的注意力强度矩阵,通过注意力权重矩阵和位置权重矩阵计算三维立体图像的注意力强度信息,用于提取三维立体特征图的全局注意力信息;
d:构建融合头部自注意力特征公式中的融合头部自注意力机制,通过对多个并行运算的注意力头部中的逻辑和权重信息进行交叉融合,实现对三维立体特征图的层间结构化特征信息进行精准提取。
上述的即插即用无限形变融合特征提取的方法,所述步骤a中包括以下步骤:
3):定义三个初始化相同的三维立体卷积块,分别表示要查询的信息权重、被查询的向量权重/>、查询得到的值权重/>,再经过尺寸变换函数/>分别得到注意力机制中要查询的信息/>、被查询的向量/>和查询得到的值/>,用于提取三维立体图像块/>的注意力信息,并作为后续融合头部自注意力特征公式中的注意力信息输入:
上述的即插即用无限形变融合特征提取的方法,所述步骤b中包括以下步骤:
4):定义三个可迭代的用于学习三维立体图像宽度、高度/>和深度/>位置信息的权重参数分别为/>,/>,/>,用来对/>进行位置编码存储其三维空间特征信息,并作为后续融合头部自注意力特征公式中的位置信息输入;/>,/>表示即插即用无限形变融合特征提取模块注意力头部的个数,权重参数的维度分别为/>,/>,/>,表示即插即用无限形变融合特征提取模块的比例因子;
上述的即插即用无限形变融合特征提取的方法,所述步骤c中包括以下步骤:
7):通过步骤a中得到的注意力权重矩阵和步骤b中得到的位置权重矩阵,计算三维立体图像的注意力强度信息,提取三维立体特征图的全局注意力信息,计算融合头部自注意力特征公式中的注意力强度矩阵;
上述的即插即用无限形变融合特征提取的方法,所述步骤d中包括以下步骤:
一种如上述任一项所述的即插即用无限形变融合特征提取的方法的用途,所述即插即用无限形变融合特征提取用于图像分割方法、图像识别方法、时间序列预测方法、目标检测方法、超分辨重建方法、图像模拟生成方法、聚类方法。
一种基于即插即用无限形变融合特征提取的Transformer图像分割方法,所述Transformer图像分割方法中包括如上述任一项所述的即插即用无限形变融合特征提取的方法,在所述步骤S4中,包括以下步骤:
g:将三维立体子图像块进行嵌入投影:经过一个线性投影将三维立体子图像块/>映射到融合Transformer序列维数/>中,/>表示三维立体子图像块/>经过线性投影后输入到网络的特定维数,得到/>维序列/>:
i:构建由融合头部自注意力机制和多层感知机组成的编码器,所述编码器有层,每层由一个包含融合头部自注意力机制和多层感知机的融合Transformer模块组成,在融合头部自注意力机制和多层感知机模块之前分别应用层归一化和残差连接,其中融合头部自注意力机制在计算自注意力矩阵时,会对每个注意力头部信息进行了交叉融合,以构建三维立体图像空间信息的远程依赖关系;
j:将三维立体图像序列化处理后的输出序列,输入到融合Transformer模块,经过/>层融合Transformer模块后得到/>,其中/>,将/>通过融合Transformer模块后得到/>,步骤如下,
15):将总共含有个编码层的融合Transfomer编码器分成/>个串联的子编码器结构,每个子编码器由/>个融合头部自注意力机制和多层感知机级联而成的编码层组成,不同阶段的子编码器编码特征的输出结果/>都将用于后续的多尺度特征融合及特征提取;
l:构建多尺度特征融合模块;
m:构建由即插即用Transformer无限形变融合特征提取模块和三维残差卷积块组成的解码器,将经过多尺度特征融合后第b层的三维立体融合特征图像块作为步骤S2所述的即插即用Transformer无限形变融合特征提取模块的输入,用于进行特征提取得到/>,通过级联的三维残差卷积模块得到特征提取器的输出结果/>:
16):获得融合头部自注意力机制中要查询的信息、被查询的向量/>和查询得到的值/>,用于计算图像序列/>的注意力信息:融合头部自注意力机制中有/>个注意力头,其中/>,/>,/>,其中,/>表示融合头部自注意力机制中注意力头部的个数,将图像序列/>输入到融合头部自注意力模块,经过三个可训练的权值映射/>、/>、/>,分别得到融合头部自注意力机制中的/>、/>、/>:
17):构造融合头部自注意力机制的特征公式,包括以下步骤:
上述的基于即插即用无限形变融合特征提取的Transformer图像分割方法,所述步骤l中包括以下步骤:
18):对来自编码器的多个分辨率的特征图像块与解码器得到的对应分辨率的结果进行特征融合:将每经过/>个融合Transformer模块输出一个隐藏特征序列,共输出/>个隐藏层序列/>,将这/>个维度为/>隐藏层序列重塑为/>个同等大小维度为/>,通道数为/>维的三维立体特征图像块/>;
21):按上述过程逐层进行多尺度特征融合,将三维立体特征图图像块的空间分辨率从恢复到/>,其中/>由深到浅依次减少,最终得到基于即插即用Transformer无限形变融合特征提取的三维立体图像分割网络的分割结果/>。
本发明一种即插即用无限形变融合特征提取的方法的有益效果是:与现有技术相比,本申请针对传统网络模型序列化输入的限制,提出了一种全新的即插即用无限形变融合特征提取模块,可以在网络的任意地方即插即用,结合三维残差卷积块,在获取多尺度空间上下文信息的同时对图像的细节信息进行精确提取。
本发明一种基于即插即用无限形变融合特征提取的Transformer图像分割方法的有益效果是:与现有技术相比,本发明针对传统卷积操作的固有局限性、以及很难学习明确的全局和长期语义信息交互,卷积仅从邻域像素收集信息、缺乏明确捕获远程依赖性的能力等问题,采用了基于Transformer融合特征提取的编码结构以建立三维图像序列标记之间的全局连接,构建像素点间的远程依赖关系,提取多尺度上下文信息。同时,针对Transformer中多头注意力机制之间各个头部的注意力信息相互独立并行运算,对三维图像层间结构化信息的特征提取不完全的问题,采用了融合头部注意力机制,在融合各个头部注意力信息的同时,实现对三维图像层间结构化信息的精准提取。
本发明打破了三维深度学习网络难以充分利用自注意力机制作为特征提取模块的弊端,可以更好的针对三维图像实现精准分割。
附图说明
图1为本发明的整体流程图;
图2为本发明即插即用无限形变融合特征提取方法的内部运算逻辑示意图;
图3为胶质瘤图像分割结果,其中:
图3中的(a)和(e)均为真实标签;
图3中的(b)和(f)均为3D UNet分割结果;
图3中的(c)和(g)均为VNet分割结果;
图3中的(d)和(h)均为本发明分割结果;
图4为本发明实施例2的整体流程图;
图5为本发明实施例3的整体流程图;
图6为本发明实施例4的整体流程图;
图7为本发明实施例5的整体流程图;
图8为本发明实施例6的整体流程图;
图9为本发明实施例7的整体流程图;
图10为本发明实施例8的整体流程图。
具体实施方式
本技术方案中的基础网络模型包括:UNe网络模型、Transformer网络模型,InfoGAIL网络模型、DCCM网络模型、BigGAN网络模型、3D-EDSR或HAT网络模型、EfficientNet系列网络模型、MIM或 FourCastNet网络模型、YOLO系列网络模型等现有网络模型,在本申请的记载方案中,主要是提供基于上述网络模型,能够在现有的网络模型的基础上即插即用的无限形变融合特征提取的方法,以及该无限形变融合特征提取的方法在具体网络模型中的应用。
为使本领域技术人员更好的理解本发明的技术方案,下面结合具体实施方式及附图对本发明的技术方案进行说明。
实施例1:
一种基于即插即用无限形变融合特征提取的图像分割方法,该方法包括以下步骤(如图1所示):
步骤一:收集三维立体待分割图像数据集,可以采用公开或自行采集并标注的数据集,如脑部胶质瘤3D MRI扫描图像BraTS挑战赛数据集,将数据集分为训练样本集和测试样本集。
步骤二:构建即插即用无限形变融合特征提取模块,具体步骤如下:
如图2所示的即插即用无限形变融合特征提取方法的内部运算逻辑示意图,首先通过注意力信息权重矩阵与位置信息权重矩阵/>计算注意力强度矩阵/>,然后经过注意力权重映射/>和注意力逻辑映射/>得到融合了各个注意力头部之间的权重关联信息,最后与注意力信息权重矩阵/>进行计算并转换后得到特征提出模块的输出结果。具体步骤如下:
1. 构建包含三维立体图像特征信息的注意力权重矩阵。
2) 构建包含三维立体图像特征信息的注意力权重矩阵,提取三维立体图像块的注意力信息,作为融合头部自注意力特征公式中的注意力信息输入:定义三个初始化相同的三维立体卷积块,分别表示要查询的信息权重/>、被查询的向量权重/>、查询得到的值权重/>,再经过尺寸变换函数/>分别得到Transformer注意力机制中要查询的信息/>、被查询的向量/>和查询得到的值/>,用于提取三维立体图像块/>的注意力信息,并作为后续融合头部自注意力特征公式中的注意力信息输入:
该设计通过注意力权重矩阵、/>、/>先提取三维立体图像块/>的特征信息,然后通过尺寸变换函数/>直接对包含了三维立体图像块信息的注意力权重矩阵/>、/>、/>进行序列化操作,得到包含了三维立体特征图像信息的序列化权重矩阵/>用于后续注意力特征公式的计算。避免了传统Transformer机制中需要直接对输入进行序列化操作的弊端,以此打破传统的基于Transformer网络结构序列化输入的限制,从而达到即插即用的效果。
2. 构建包含三维立体图像空间信息的位置权重矩阵。
定义三个可迭代的用于学习三维立体图像宽度、高度/>和深度/>位置信息的权重参数分别为/>,/>,,用来对/>进行位置编码存储其三维空间特征信息,并作为后续融合头部自注意力特征公式中的位置信息输入,通过使用上述步骤,能够以此打破Transformer机制中需要序列化位置编码的限制。其中/>,/>表示即插即用无限形变融合特征提取模块注意力头部的个数,权重参数的维度分别为/>,/>,/>,/>表示即插即用无限形变融合特征提取模块的比例因子。
3. 计算融合头部自注意力特征公式中的注意力强度矩阵。
计算融合头部自注意力特征公式中的注意力强度矩阵,通过在构建包含三维立体图像特征信息的注意力权重矩阵中得到的注意力权重矩阵和在构建包含三维立体图像空间信息的位置权重矩阵中得到的位置权重矩阵/>计算三维立体图像的注意力强度信息,用于提取三维立体特征图的全局注意力信息:首先将/>的转置/>与/>进行矩阵相乘,然后/>的转置/>与/>进行矩阵相乘后的结果进行特征融合,得到三维立体图像块/>的注意力强度/>:
4. 构建融合头部自注意力特征公式中的融合头部自注意力机制。
构建融合头部自注意力特征公式中的融合头部自注意力机制,通过对多个并行运算的注意力头部中的逻辑和权重信息进行交叉融合,实现对三维立体特征图的层间结构化特征信息进行精准提取:
该设计打破了多头自注意力机制中由于多个注意力头部并行独立运算,难以构建三维子图块间远程依赖关系的弊端,通过可训练的注意力逻辑映射和注意力权重映射,使多个并行头部在计算自注意力矩阵时,能够对每个注意力头部的逻辑和权重信息进行交叉融合,以对三维立体特征图的层间结构化特征信息进行精准提取。
步骤三:以三维立体图像分割为例,建立基于即插即用无限形变融合特征提取的分割网络模型:
1. 构建三维立体图像序列化模块。
2) 对三维立体图像进行序列化处理:首先,为了将三维立体图像/>输入到基于Fuison Transformer的编码器中,需要进行序列化输入的设计。将输入/>分割成一系列的非重叠三维立体子图像块集合/>,其中/>表示子图像块的数目,每个三维立体子图像块的大小为/>,则/>。与之前相比,此处/>是输入图像,/>是网络内部输入到特征提取模块之前的图像。
3) 将三维立体子图像块进行嵌入投影:经过一个线性投影将三维立体子图像块/>映射到融合Transformer序列维数/>中,/>表示三维立体子图像块/>经过线性投影后输入到网络的特定维数,得到/>维序列/>:
2. 构建由融合头部自注意力机制和多层感知机组成的编码器。
1) 编码器有层,每层由一个包含融合头部自注意力机制和多层感知机的融合Transformer模块组成。在融合头部自注意力机制和多层感知机模块之前分别应用层归一化和残差连接。其中融合头部自注意力机制在计算自注意力矩阵时,会对每个注意力头部信息进行了交叉融合,以构建三维立体图像空间信息的远程依赖关系。
2) 将三维立体图像序列化处理后的输出序列,输入到融合Transformer模块,经过/>层融合Transformer模块后得到/>,其中/>,将/>通过融合Transformer模块后得到/>的过程如下:
最终,将总共含有个编码层的融合Transfomer编码器分成/>个串联的子编码器结构,每个子编码器由/>个融合头部自注意力机制和多层感知机级联而成的编码层组成,不同阶段的子编码器编码特征的输出结果/>都将用于后续的多尺度特征融合及特征提取。
3. 构建融合头部自注意力机制。
1) 获得融合头部自注意力机制中要查询的信息、被查询的向量/>和查询得到的值/>,用于计算图像序列/>的注意力信息:融合头部自注意力机制中有/>个注意力头,其中/>,/>,/>,其中,/>表示融合头部自注意力机制中注意力头部的个数,将图像序列/>输入到融合头部自注意力模块,经过三个可训练的权值映射/>、/>、/>,分别得到融合头部自注意力机制中的/>、/>、/>:/>
2) 构造融合头部自注意力机制的特征公式:首先的转置/>与/>进行矩阵相乘,为了防止/>和/>进行矩阵相乘后每一行向量的内积过大,将内积结果除以融合头部自注意力机制的比例因子/>的平方根,得到图像序列中的注意力强度/>:
4. 构建多尺度特征融合模块。
1)对来自编码器的多个分辨率的特征图像块与解码器得到的对应分辨率的结果进行特征融合:将每经过/>个融合Transformer模块输出一个隐藏特征序列,共输出/>个隐藏层序列/>,将这/>个维度为/>隐藏层序列重塑为/>个同等大小维度为/>,通道数为/>维的三维立体特征图像块/>。
按上述过程逐层进行多尺度特征融合,将三维立体特征图图像块的空间分辨率从恢复到/>,其中/>由深到浅依次减少,最终得到基于即插即用Transformer无限形变融合特征提取的三维立体图像分割网络的分割结果/>。
5. 构建由即插即用无限形变融合特征提取模块和三维残差卷积块组成的解码器。
步骤四:将步骤一获取的训练样本集,送入步骤三获取的基于即插即用无限形变融合特征提取的分割网络进行训练,得到训练后的网络模型。
步骤五:将步骤一获取的测试样本集,送入步骤四获取的训练好的基于即插即用无限形变融合特征提取的分割网络模型,输出三维立体图像的分割结果。
经过以上步骤,可以实现三维胶质瘤磁共振图像的精准分割提取,从而解决现有技术中传统卷积在进行特征提取时,造成多尺度上下文信息方面的缺失,导致对不同形状和尺度的结构的次优分割,以及由于Transformer要求序列化输入的限制,阻碍了其在三维图像处理上的发展的问题,以及由于Transformer中多头注意力机制之间各个头部的注意力信息相互独立并行运算,能够有效的解决三维图像层间结构化信息的特征提取不完全的问题所导致的的信息缺失。
如图3所示,图3中的(a)、图3中的(e)为数据采集真实标签,与之对比,本文提出的模型比其他方法更加接近ground truth标注,如图3中的(b)和图3中的(c)所示,3D UNet和VNet都对肿瘤水肿区域做出了明显的错误分割,这些错误分割的区域会严重影响对胶质瘤分割效果的评估。而本文提出的融合头部自注意力机制,因为融合了胶质瘤的各个头部的注意力信息,并且能够更加细致的关注到胶质瘤的层间结构化差异,因此获得了十分优异的分割结果。同时本文的模型与其他两种种模型相比,对肿瘤水肿区域的错误分割明显减少,证明了本文模型构建了优异的胶质瘤特征信息的空间依赖模型,分割效果取得了显著提升。
如图3中的(f)和图3中的(g)所示,3D UNet和VNet对胶质瘤内部核心细节的特征提取存在明显错误,而图3中的(d)和图3中的(h)中本发明的分割结果更加接近真实值。这得益于本文提出的即插即用无限形变融合特征提取方法,可以打破传统Transformer序列化输入的限制,实现自注意力机制与卷积操作的有效结合。能够在关注到三维胶质瘤磁共振成像层间结构化信息的同时,实现对胶质瘤内部核心细节信息进行精准提取。
实施例2:
本实施例中与实施例1中相同的解决方法不再进行赘述,主要对不同方面进行描述。
一种基于即插即用无限形变融合特征提取的图像识别方法,该方法包括以下步骤:
步骤一:收集三维立体待识别图像数据集,可以采用公开或自行采集并标注的数据集,如由欧空局提供的GlobColour Project叶绿素产品数据集,将数据集分为训练样本集和测试样本集;
步骤二:构建即插即用无限形变融合特征提取模块,同实施例1中步骤二;
步骤三:建立步骤二中即插即用无限形变融合特征提取模块的特征输入与位置输入,以提取无限形变全局注意力融合特征,同实施例1中步骤二,并将实施例1中记载的Transformer网络模型换为EfficientNet系列网络模型;
步骤四:以识别问题为例,构建由步骤三中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习识别网络结构(例如图4所示),具体实施例如EfficientNet系列网络中的特征提取模块可以替换为步骤三所述Transformer网络模型;
步骤五:将步骤一所述的训练样本集,输入至步骤四所述的深度学习识别网络结构,得到训练后的深度学习识别网络模型;
步骤六:将步骤一所述的测试样本集,输入至步骤五已训练的深度学习识别网络模型,获取深度学习识别网络测试输出。
实施例3:
本实施例中与上述实施例中相同的解决方法不再进行赘述,主要对不同方面进行描述。
一种基于即插即用无限形变融合特征提取的时间序列预测方法,该方法包括以下步骤:
步骤一:收集待预测数据集,可以采用公开或自行采集并标注的数据集,如由AVISO提供的海平面异常(SLA)、绝对地转流速(AGV)、绝对动态地形(ADT)数据,由欧空局气候变化倡议组织提供的海平面温度(SST)数据、海平面盐度(SSS)数据,由RSS CCMP提供的风场数据,将数据集分为训练样本集和测试样本集;
步骤二:构建即插即用无限形变融合特征提取模块;
步骤三:建立步骤二中即插即用无限形变融合特征提取模块的特征输入与位置输入,以提取无限形变全局注意力融合特征,并将实施例1中记载的Transformer网络模型换为MIM或 FourCastNet网络模型;
步骤四:以预测问题为例,构建由步骤三中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习预测网络结构(例如图5所示),具体实施例如MIM(Memory In Memory)、FourCastNet(Fourier ForeCasting Neural Network)网络中的特征提取模块可以替换为MIM或 FourCastNet网络模型;
步骤五:将步骤一所述的训练样本集,输入至步骤四所述的深度学习预测网络,得到训练后的深度学习预测网络模型;
步骤六:将步骤一所述的测试样本集,输入至步骤五已训练的深度学习预测网络模型,获取深度学习预测网络测试输出。
实施例4:
本实施例中与上述实施例中相同的解决方法不再进行赘述,主要对不同方面进行描述。
一种基于即插即用无限形变融合特征提取的目标检测方法,该方法包括以下步骤:
步骤一:收集待检测数据集,可以采用公开或自行采集并标注的数据集,如由NOAA提供的Ocean Exploration and Research (OER) 数据集以及Fathom、MBARI提供的海底底栖生物数据集,将数据集分为训练样本集和测试样本集;
步骤二:构建即插即用无限形变融合特征提取模块;
步骤三:建立步骤二中即插即用无限形变融合特征提取模块的特征输入与位置输入,以提取无限形变全局注意力融合特征,并将实施例1中记载的Transformer网络模型换为YOLO系列网络模型;
步骤四:以检测问题为例,构建由步骤三中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习检测网络结构(例如图6所示),具体实施例如YOLO系列网络中的特征提取模块可以替换实施例1中Transformer网络模型;
步骤五:将步骤一所述的训练样本集,输入至步骤四所述的深度学习检测网络,得到训练后的深度学习检测网络模型;
步骤六:将步骤一所述的测试样本集,输入至步骤五已训练的深度学习检测网络模型,获取深度学习检测网络测试输出。
实施例5:
本实施例中与上述实施例中相同的解决方法不再进行赘述,主要对不同方面进行描述。
一种基于即插即用无限形变融合特征提取的超分辨率重建方法,该方法包括以下步骤:
步骤一:收集待超分辨率重建数据集,可以采用公开或自行采集并标注的数据集,如由美国国家脑科学研究院(National Institutes of Health)资助的HCP数据集,将数据集分为训练样本集和测试样本集;
步骤二:构建即插即用无限形变融合特征提取模块;
步骤三:建立步骤二中即插即用无限形变融合特征提取模块的特征输入与位置输入,以提取无限形变全局注意力融合特征,并将实施例1中记载的Transformer网络模型换为3D-EDSR或HAT网络模型;
步骤四:以超分辨率重建问题为例,构建由步骤三中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习超分辨率重建网络结构(例如图7所示),具体实施例如3D-EDSR (3D Self-Enhanced Version Of Deep Residual Network)、HAT(Hybrid Attention Transformer)网络中的特征提取模块可以替换为步骤二所述即插即用无限形变融合特征提取模块;
步骤五:将步骤一所述的训练样本集,输入至步骤四所述的深度学习超分辨率重建网络,得到训练后的深度学习超分辨率重建网络模型;
步骤六:将步骤一所述的测试样本集,输入至步骤五已训练的深度学习超分辨率重建网络模型,获取深度学习超分辨率重建网络测试输出。
实施例6:
本实施例中与上述实施例中相同的解决方法不再进行赘述,主要对不同方面进行描述。
一种基于即插即用无限形变融合特征提取的图像模拟生成方法,该方法包括以下步骤:
步骤一:收集待模拟生成图像数据集,可以采用公开或自行采集并标注的数据集,如由英国伦敦的国家卫生研究院(NHRIC)收集的IXI多模态MRI数据集,将数据集分为训练样本集和测试样本集;
步骤二:构建即插即用无限形变融合特征提取模块;
步骤三:建立步骤二中即插即用无限形变融合特征提取模块的特征输入与位置输入,以提取无限形变全局注意力融合特征,并将实施例1中记载的Transformer网络模型换为BigGAN网络模型;
步骤四:以图像模拟生成问题为例,构建由步骤三中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习生成对抗网络结构(例如图8所示),具体实施例如BigGAN网络中的特征提取模块可以替换为步骤二所述即插即用无限形变融合特征提取模块;
步骤五:将步骤一所述的训练样本集,输入至步骤四所述的深度学习生成对抗网络,得到训练后的深度学习生成对抗网络模型;
步骤六:将步骤一所述的测试样本集,输入至步骤五已训练的深度学习生成对抗网络模型,获取深度学习生成对抗网络测试输出。
实施例7:
本实施例中与上述实施例中相同的解决方法不再进行赘述,主要对不同方面进行描述。
一种基于即插即用无限形变融合特征提取的聚类方法,该方法包括以下步骤:
步骤一:收集待聚类图像数据集,可以采用公开或自行采集并标注的数据集,如由AVISO提供的海平面异常(SLA)、绝对地转流速(AGV)、绝对动态地形(ADT)数据,由欧空局气候变化倡议组织提供的海平面温度(SST)数据、海平面盐度(SSS)数据,由RSS CCMP提供的风场数据,将数据集分为训练样本集和测试样本集;
步骤二:构建即插即用无限形变融合特征提取模块;
步骤三:建立步骤二中即插即用无限形变融合特征提取模块的特征输入与位置输入,以提取无限形变全局注意力融合特征,并将实施例1中记载的Transformer网络模型换为DCCM网络模型;
步骤四:以聚类问题为例,构建由步骤三中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习聚类网络结构(例如图9所示),具体实施例如DCCM(Deep Comprehensive Correlation Mining)网络中的特征提取模块可以替换为步骤三所述即插即用无限形变融合特征提取模块;
步骤五:将步骤一所述的训练样本集,输入至步骤四所述的深度学习聚类网络,得到训练后的深度学习聚类网络模型;
步骤六:将步骤一所述的测试样本集,输入至步骤五已训练的深度学习聚类网络模型,获取深度学习聚类网络测试输出。
实施例8:
本实施例中与上述实施例中相同的解决方法不再进行赘述,主要对不同方面进行描述。
一种基于即插即用无限形变融合特征提取的强化学习方法,该方法包括以下步骤:
步骤一:收集待强化学习数据集,可以采用公开或自行采集并标注的数据集,如由AVISO提供的海平面异常(SLA)提取的特征数据集,将数据集分为训练样本集和测试样本集;
步骤二:构建即插即用无限形变融合特征提取模块;
步骤三:建立步骤二中即插即用无限形变融合特征提取模块的特征输入与位置输入,以提取无限形变全局注意力融合特征,并将实施例1中记载的Transformer网络模型换为InfoGAIL网络模型;
步骤四:以强化学习问题为例,构建由步骤三中即插即用无限形变融合特征提取模块任意位置即插即用所组成的强化学习网络结构(例如图10所示),具体实施例如InfoGAIL(Interpretable Imitation Learning from Visual Demonstrations)网络中的特征提取模块可以替换为步骤三所述即插即用无限形变融合特征提取模块;
步骤五:将步骤一所述的训练样本集,输入至步骤四所述的强化学习网络,得到训练后的强化学习网络模型;
步骤六:将步骤一所述的测试样本集,输入至步骤五已训练的强化学习网络模型,获取强化学习网络测试输出。
上述实施例只是为了说明本发明的发明构思和特点,其目的在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限定本发明的保护范围。凡是根据本发明内容的实质所做出的等效变化或修饰,都应该涵盖在本发明的保护范围之内。
Claims (10)
1.一种即插即用无限形变融合特征提取的方法,其特征在于,包括以下步骤:
S1:收集三维立体图像数据集,将数据集分为训练样本集和测试样本集;
S2:构建即插即用无限形变融合特征提取模块;
S3:建立步骤S2中即插即用无限形变融合特征提取模块的特征输入与位置输入,以提取无限形变全局注意力融合特征;
S4:构建由步骤S3中即插即用无限形变融合特征提取模块任意位置即插即用所组成的深度学习网络结构;
S5:将步骤S1所述的训练样本集,输入至步骤S4中所述的深度学习网络,得到训练后的深度学习网络模型;
S6:将步骤S1所述的测试样本集,输入至步骤S5中得到的训练后的深度学习网络模型,获取深度学习网络测试输出。
2.根据权利要求1所述的即插即用无限形变融合特征提取的方法,其特征是,所述步骤S3中包括以下步骤:
a:构建包含三维立体图像特征信息的注意力权重矩阵,提取三维立体特征图像的注意力信息,作为融合头部自注意力特征的注意力信息输入;
b:构建包含三维立体图像空间信息的位置权重矩阵,对不同维度进行位置编码,存储三维立体图像的三维空间特征信息,作为融合头部自注意力特征的位置信息输入;
c:计算融合头部自注意力特征公式中的注意力强度矩阵,通过注意力权重矩阵和位置权重矩阵计算三维立体图像的注意力强度信息,用于提取三维立体特征图的全局注意力信息;
d:构建融合头部自注意力特征公式中的融合头部自注意力机制,通过对多个并行运算的注意力头部中的逻辑和权重信息进行交叉融合,实现对三维立体特征图的层间结构化特征信息进行精准提取。
3.根据权利要求2所述的即插即用无限形变融合特征提取的方法,其特征是,所述步骤a中包括以下步骤:
3):定义三个初始化相同的三维立体卷积块,分别表示要查询的信息权重、被查询的向量权重/>、查询得到的值权重/>,再经过尺寸变换函数/>分别得到注意力机制中要查询的信息/>、被查询的向量/>和查询得到的值/>,用于提取三维立体图像块/>的注意力信息,并作为后续融合头部自注意力特征公式中的注意力信息输入:
4.根据权利要求3所述的即插即用无限形变融合特征提取的方法,其特征是,所述步骤b中包括以下步骤:
4):定义三个可迭代的用于学习三维立体图像宽度、高度/>和深度/>位置信息的权重参数分别为/>,/>,/>,用来对/>进行位置编码存储其三维空间特征信息,并作为后续融合头部自注意力特征公式中的位置信息输入;/>,/>表示即插即用无限形变融合特征提取模块注意力头部的个数,权重参数的维度分别为/>,/>,/>,表示即插即用无限形变融合特征提取模块的比例因子;
6.根据权利要求4所述的即插即用无限形变融合特征提取的方法,其特征是,所述步骤d中包括以下步骤:
7.一种如权利要求 1-6任一项所述的即插即用无限形变融合特征提取的方法的用途,其特征在于,所述即插即用无限形变融合特征提取用于图像分割方法、图像识别方法、时间序列预测方法、目标检测方法、超分辨重建方法、生成对抗方法、无监督学习方法、强化学习。
8.一种基于即插即用无限形变融合特征提取的Transformer图像分割方法,其特征在于,所述Transformer图像分割方法中包括如权利要求1-6任一项所述的即插即用无限形变融合特征提取的方法,在所述步骤S4中,包括以下步骤:
g:将三维立体子图像块进行嵌入投影:经过一个线性投影将三维立体子图像块/>映射到融合Transformer序列维数/>中,/>表示三维立体子图像块/>经过线性投影后输入到网络的特定维数,得到/>维序列/>:
i:构建由融合头部自注意力机制和多层感知机组成的编码器,所述编码器有层,每层由一个包含融合头部自注意力机制和多层感知机的融合Transformer模块组成,在融合头部自注意力机制和多层感知机模块之前分别应用层归一化和残差连接,其中融合头部自注意力机制在计算自注意力矩阵时,会对每个注意力头部信息进行了交叉融合,以构建三维立体图像空间信息的远程依赖关系;
j:将三维立体图像序列化处理后的输出序列,输入到融合Transformer模块,经过/>层融合Transformer模块后得到/>,其中/>,将/>通过融合Transformer模块后得到,步骤如下,
15):将总共含有个编码层的融合Transfomer编码器分成/>个串联的子编码器结构,每个子编码器由/>个融合头部自注意力机制和多层感知机级联而成的编码层组成,不同阶段的子编码器编码特征的输出结果/>都将用于后续的多尺度特征融合及特征提取;
l:构建多尺度特征融合模块;
m:构建由即插即用Transformer无限形变融合特征提取模块和三维残差卷积块组成的解码器,将经过多尺度特征融合后第b层的三维立体融合特征图像块作为步骤S2所述的即插即用Transformer无限形变融合特征提取模块的输入,用于进行特征提取得到/>,/>通过级联的三维残差卷积模块得到特征提取器的输出结果/>:/>
16):获得融合头部自注意力机制中要查询的信息、被查询的向量/>和查询得到的值/>,用于计算图像序列/>的注意力信息:融合头部自注意力机制中有/>个注意力头,其中/>,/>,/>,其中,/>表示融合头部自注意力机制中注意力头部的个数,将图像序列/>输入到融合头部自注意力模块,经过三个可训练的权值映射/>、/>、/>,分别得到融合头部自注意力机制中的/>、/>、/>:
17):构造融合头部自注意力机制的特征公式,包括以下步骤:
10.根据权利要求7所述的基于即插即用无限形变融合特征提取的Transformer图像分割方法,其特征是,所述步骤l中包括以下步骤:
18):对来自编码器的多个分辨率的特征图像块与解码器得到的对应分辨率的结果进行特征融合:将每经过/>个融合Transformer模块输出一个隐藏特征序列,共输出/>个隐藏层序列/>,将这/>个维度为/>隐藏层序列重塑为/>个同等大小维度为/>,通道数为/>维的三维立体特征图像块/>;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310165384.1A CN115861762B (zh) | 2023-02-27 | 2023-02-27 | 一种即插即用无限形变融合特征提取的方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310165384.1A CN115861762B (zh) | 2023-02-27 | 2023-02-27 | 一种即插即用无限形变融合特征提取的方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115861762A true CN115861762A (zh) | 2023-03-28 |
CN115861762B CN115861762B (zh) | 2023-05-09 |
Family
ID=85658905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310165384.1A Active CN115861762B (zh) | 2023-02-27 | 2023-02-27 | 一种即插即用无限形变融合特征提取的方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115861762B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815859A (zh) * | 2017-01-13 | 2017-06-09 | 大连理工大学 | 基于尺度自适应相关滤波和特征点匹配的目标跟踪算法 |
WO2021163103A1 (en) * | 2020-02-13 | 2021-08-19 | Northeastern University | Light-weight pose estimation network with multi-scale heatmap fusion |
US11222217B1 (en) * | 2020-08-14 | 2022-01-11 | Tsinghua University | Detection method using fusion network based on attention mechanism, and terminal device |
CN114841342A (zh) * | 2022-05-19 | 2022-08-02 | 湖北楚天高速数字科技有限公司 | 一种基于张量的高效Transformer的架构方法 |
CN114863111A (zh) * | 2022-05-27 | 2022-08-05 | 深圳大学 | 交互融合Transformer的超声图像量化方法 |
CN114881871A (zh) * | 2022-04-12 | 2022-08-09 | 华南农业大学 | 一种融合注意力单幅图像去雨方法 |
CN115690002A (zh) * | 2022-10-11 | 2023-02-03 | 河海大学 | 一种基于Transformer和密集特征融合的遥感图像变化检测方法及系统 |
-
2023
- 2023-02-27 CN CN202310165384.1A patent/CN115861762B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815859A (zh) * | 2017-01-13 | 2017-06-09 | 大连理工大学 | 基于尺度自适应相关滤波和特征点匹配的目标跟踪算法 |
WO2021163103A1 (en) * | 2020-02-13 | 2021-08-19 | Northeastern University | Light-weight pose estimation network with multi-scale heatmap fusion |
US11222217B1 (en) * | 2020-08-14 | 2022-01-11 | Tsinghua University | Detection method using fusion network based on attention mechanism, and terminal device |
CN114881871A (zh) * | 2022-04-12 | 2022-08-09 | 华南农业大学 | 一种融合注意力单幅图像去雨方法 |
CN114841342A (zh) * | 2022-05-19 | 2022-08-02 | 湖北楚天高速数字科技有限公司 | 一种基于张量的高效Transformer的架构方法 |
CN114863111A (zh) * | 2022-05-27 | 2022-08-05 | 深圳大学 | 交互融合Transformer的超声图像量化方法 |
CN115690002A (zh) * | 2022-10-11 | 2023-02-03 | 河海大学 | 一种基于Transformer和密集特征融合的遥感图像变化检测方法及系统 |
Non-Patent Citations (3)
Title |
---|
HONGJUN WU ET AL.: "Transtl: Spatial-Temporal Localization Transformer for Multi-Label Video Classification", 《ICASSP 2022 - 2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
YING CHEN ET AL.: "Underwater obstacle detection via relative total variation and joint guided filtering for autonomous underwater vehicles", 《OCEANS 2017 - ANCHORAGE》 * |
韩慧慧等: "编码―解码结构的语义分割", 《中国图象图形学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115861762B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110648331B (zh) | 用于医学图像分割的检测方法、医学图像分割方法及装置 | |
Ghosh et al. | Effective deep learning for semantic segmentation based bleeding zone detection in capsule endoscopy images | |
CN112651978A (zh) | 舌下微循环图像分割方法和装置、电子设备、存储介质 | |
CN110136122B (zh) | 一种基于注意力深度特征重建的脑mr图像分割方法 | |
CN109993072A (zh) | 基于超分辨图像生成的低分辨率行人重识别系统和方法 | |
CN110175986A (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
Vu et al. | Perception-enhanced image super-resolution via relativistic generative adversarial networks | |
CN113592769B (zh) | 异常图像的检测、模型的训练方法、装置、设备及介质 | |
CN113988147B (zh) | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 | |
CN114693719A (zh) | 基于3D-SE-Vnet的脊柱图像分割方法及系统 | |
CN104036242B (zh) | 基于Centering Trick卷积限制玻尔兹曼机的物体识别方法 | |
Li et al. | Infrared and visible fusion imaging via double-layer fusion denoising neural network | |
CN115457061A (zh) | 一种基于选择性多分支空洞卷积的腺体细胞图像分割方法 | |
CN115496720A (zh) | 基于ViT机制模型的胃肠癌病理图像分割方法及相关设备 | |
CN114022742B (zh) | 红外与可见光图像融合方法、装置及计算机存储介质 | |
CN115331024A (zh) | 一种基于深度监督和逐步学习的肠道息肉检测方法 | |
CN116091492A (zh) | 一种图像变化像素级检测方法与系统 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN114943646A (zh) | 基于纹理导向的梯度权重损失和注意力机制超分辨方法 | |
CN117710389A (zh) | 两阶段全3d动脉瘤分割方法及系统 | |
Ding et al. | Land-use classification with remote sensing image based on stacked autoencoder | |
Huang et al. | Exploiting Memory-based Cross-Image Contexts for Salient Object Detection in Optical Remote Sensing Images | |
CN116597503A (zh) | 一种基于时空特征的课堂行为检测方法 | |
CN115861762A (zh) | 一种即插即用无限形变融合特征提取的方法及其应用 | |
Ma et al. | Frequency Decomposition-Driven Unsupervised Domain Adaptation for Remote Sensing Image Semantic Segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |