CN117522896A - 基于自注意力的图像分割方法及计算机设备 - Google Patents

基于自注意力的图像分割方法及计算机设备 Download PDF

Info

Publication number
CN117522896A
CN117522896A CN202311579713.3A CN202311579713A CN117522896A CN 117522896 A CN117522896 A CN 117522896A CN 202311579713 A CN202311579713 A CN 202311579713A CN 117522896 A CN117522896 A CN 117522896A
Authority
CN
China
Prior art keywords
image
attention
feature map
feature
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311579713.3A
Other languages
English (en)
Inventor
李正国
施连焘
王勇
张海洋
田忠霖
贡恩忠
单彤
王泓清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vocational And Technical University
Original Assignee
Shenzhen Vocational And Technical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vocational And Technical University filed Critical Shenzhen Vocational And Technical University
Priority to CN202311579713.3A priority Critical patent/CN117522896A/zh
Publication of CN117522896A publication Critical patent/CN117522896A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种基于自注意力的图像分割方法、计算机可读存储介质及计算机设备,包括:将待分割的息肉图像输入自适应多尺度模型,得到语义信息图像,再将语义信息图像经过下采样得到下采样后的语义信息图像,重新将下采样后的语义信息图像输入到自适应多尺度模型后再进行下采样,重复三次,获得高维的语义信息图像;将高维的语义信息图像输入自注意力机制,输出特征图,再将特征图输入到自注意力机制,重复三次,得到最终的特征图;将最终的特征图输入并行注意力融合模型,输出融合后的特征图;将融合后的特征图进行上采样后再进行卷积运算,重复四次,获得与待分割的息肉图像大小一致的输出图像。本申请提高了对息肉图像边界信息的敏感度。

Description

基于自注意力的图像分割方法及计算机设备
技术领域
本申请属于图像分割领域,尤其涉及一种基于自注意力的图像分割方法、计算机可读存储介质及计算机设备。
背景技术
结直肠癌是在最早期主要表现形式是肠道内所形成的息肉(肠胃通道内隆起的肿块)经过长时间以及诸多原因发展导致结直肠癌,如果能够在早期进行干预发现和切除息肉,直肠癌是可以被预防的,那么最为有效的筛查和诊断结直肠癌的方法是结直肠内窥镜检查也是目前最为主流诊断准确率最高的方法。
然而,当前的诊断方式已经提出了具有编码器-解码器U形结构的UNet,以及UNet架构的两种变体,包括ResUNet++和UNet,用于息肉图像分割,然而,UNet架构生成冗余信息和增加传统卷积的计算量,而ResUNet++和UNet往往侧重于分割息肉的整个区域,而忽略了一些有价值的边界信息。
发明内容
本申请的目的在于提供一种基于自注意力的图像分割方法、计算机可读存储介质及计算机设备,旨在解决现有技术侧重于分割息肉图像的整个区域,忽略边界信息的问题。
第一方面,本申请提供了一种基于自注意力的图像分割方法,包括:
获取待分割的息肉图像;
将待分割的息肉图像输入自适应多尺度模型,得到语义信息图像,再将语义信息图像经过下采样后重新输入到自适应多尺度模型后再进行下采样,重复三次,获得高维的语义信息图像;所述自适应多尺度模型是将输入的待分割的息肉图像通过特征提取得到与待分割的息肉图像尺寸相同的初始特征图,将初始特征图分成3个通道数量相等的特征图,将3个特征图分别经由卷积和批量正则化算法后得到的特征图依次以通道维度进行拼接,得到与带分割的息肉图像通道数量一致的拼接后的特征图,将拼接后的特征图进行特征提取后,通过残差连接将特征提取后的特征图与待分割的息肉图像进行融合,得到语义信息图像;
将高维的语义信息图像输入自注意力机制,输出特征图,再将特征图输入到自注意力机制,重复三次,得到最终的特征图;所述自注意力机制是将高维的语义信息图像划分为平面二维序列的矢量化的图像块,通过线性投影将图像块映射到一维嵌入空间,对空间信息进行编码;
将最终的特征图输入并行注意力融合模型,输出融合后的特征图;所述并行注意力融合模型是将最终的特征图采用卷积进行通道维度的降维,再利用Sigmoid激活函数得到注意力权重图,将注意力权重图进行注意力矩阵乘法运算,重塑最终的特征图的权值,得到基于空间注意力机制的特征图;将最终的特征图进行特征提取后输入到通道注意力机制中,得到通道权重,得到基于通道注意力机制的特征图;将基于空间注意力机制的特征图与基于通道注意力机制的特征图进行融合,得到融合后的特征图;
将融合后的特征图进行上采样后再进行卷积运算,重复四次,获得与待分割的息肉图像大小一致的输出图像。
进一步地,所述自适应多尺度模型具体为:
将输入的待分割的息肉图像定义为:Sin∈RCβHβW,将待分割的息肉图像通过W1(·)进行特征提取,得到一个与待分割的息肉图像尺寸相同的初始特征图:S′∈RC×H×W
所述W1(·)包括1×1的卷积、批量正则化算法和ReLU非线性激活函数;
将初始特征图分成3个通道数量相等的特征图,即:
将3个特征图S0,S1和S2经由W2(·)进行转变,将转变后的特征图按通道维度进行拼接,得到与待分割的息肉图像通道数量一致的拼接后的特征图SCat,即:
Scat=CONCAT(W2(S0),W2(S1),W2(S2));
所述W2(·)包括3×3卷积和批量正则化算法;
将拼接后的特征图进行特征提取,得到特征提取后的特征图,再通过残差连接将特征提取后的特征图与待分割的息肉图像进行融合,输出语义信息图像Sout,即:
其中,R代表三维数组图像,C,H和W分别表示图像的通道数,长度和宽度;表示像素级别的加法求和运算,CONCAT表示通道维度上的拼接;W3(·)包括1×1的卷积、批量正则化算法和ReLU非线性激活函数。
进一步地,所述将高维的语义信息图像划分为平面二维序列的矢量化的图像块,通过线性投影将图像块映射到一维嵌入空间,对空间信息进行编码,具体为:
将高维的语义信息图像划分为平面二维序列的矢量化的图像块 图像块大小为P×P,图像块的数量为/>
通过线性投影将图像块映射到一维嵌入空间,并对图像块进行特定位置嵌入,保存位置信息,得到:
其中,表示图像块,i表示正整数,H和W分别表示图像块的长度和宽度,P为图像块的边长,E是图像块的投影,且/>Epos表示嵌入位置,且Epos∈RN×D
通过多头自注意力和多层感知器,得到编码层输出的特征图分别为:
I′L=MSA(LN(IL-1))+IL-1
IL=MLP(LN(I′L))+I′L
其中,LN(·)表示层之间的正则化操作,I′L和IL分别表示通过多头自注意力和多层感知器得到的L层编码层输出的特征图,L表示编码层的层数,MSA表示多头自注意力机制,MLP表示多层感知器,IL-1表示通过多层感知器得到的L-1层编码层输出的特征图。
进一步地,所述并行注意力融合模型是以最终的特征图Icat作为输入,将最终的特征图采用卷积缩小通道,再经过Sigmoid激活函数得到注意力权重图,将注意力权重图进行注意力矩阵乘法运算,重建最终的特征图的权值,建模空间注意力机制,得到基于空间注意力机制的特征图Ispatial,即:
其中,表示注意力矩阵的乘法运算,σ(·)是Sigmiod激活函数,S0代表1×1卷积操作,α是与S0相关的系数;
将最终的特征图进行特征提取得到提取后的特征图,将提取后的特征图输入到通道注意力机制中,得到通道权重,和基于通道注意力机制的特征图,即:
其中,FAdaptive(·)表示本地信道之间的信息交互,G(·)表示全局平均池化,Ichannel代表通道维度注意力机制,θ是G(·)的相关系数;
将基于空间注意力机制的特征图与基于通道注意力机制的特征图进行融合,得到融合后的特征图Iout,即:
第二方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于自注意力的图像分割方法的步骤。
第三方面,本申请提供了一种计算机设备,包括:一个或多个处理器、存储器以及一个或多个计算机程序,所述处理器和所述存储器通过总线连接,其中所述一个或多个计算机程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述处理器执行所述计算机程序时实现所述的基于自注意力的图像分割方法的步骤。
在本申请中,采用自适应多尺度模型,适应息肉图像复杂多变的环境和尺度变化,使网络保存更多的空间细节信息;通过自注意力机制实现与神经网络浅层的信息交互,有效抑制背景噪音;利用并行注意力融合模型联合上采样,提高对边界信息的敏感度,提高分割精度;将自适应多尺度模型和并行注意力融合模型结合,得到CNN与Transformer融合框架,降低计算量,为网络提供更多可供参考的语义信息,提高分割精度。
附图说明
图1是本申请一实施例提供的基于自注意力的图像分割方法的流程图。
图2是本申请一实施例提供的自适应多尺度模型的流程图。
图3是本申请一实施例提供的并行注意力融合模型的流程图。
图4是本申请一实施例提供的基于自注意力的图像分割方法的流程图。
图5是本申请一实施例提供的计算机设备的具体结构框图。
具体实施方式
为了使本申请的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
请参阅图1,本申请一实施例提供的基于自注意力的图像分割方法包括以下步骤:需注意的是,若有实质上相同的结果,本申请的基于自注意力的图像分割方法并不以图1所示的流程顺序为限。
S101、获取待分割的息肉图像;
S102、将待分割的息肉图像输入自适应多尺度模型(Adaptive multi-scalemodule,AMM),得到语义信息图像,再将语义信息图像经过下采样后重新输入到自适应多尺度模型后再进行下采样,重复三次,获得高维的语义信息图像;所述自适应多尺度模型是将输入的待分割的息肉图像通过特征提取得到与待分割的息肉图像尺寸相同的初始特征图,将初始特征图分成3个通道数量相等的特征图,将3个特征图分别经由卷积和批量正则化算法后得到的特征图依次以通道维度进行拼接,得到与带分割的息肉图像通道数量一致的拼接后的特征图,将拼接后的特征图进行特征提取后,通过残差连接将特征提取后的特征图与待分割的息肉图像进行融合,得到语义信息图像;
S103、将高维的语义信息图像输入自注意力机制,输出特征图,再将特征图输入到自注意力机制,重复三次,得到最终的特征图;所述自注意力机制是将高维的语义信息图像划分为平面二维序列的矢量化的图像块,通过线性投影将图像块映射到一维嵌入空间,对空间信息进行编码;
S104、将最终的特征图输入并行注意力融合模型(PAMM,Parallel attentionmechanism module),输出融合后的特征图;所述并行注意力融合模型是将最终的特征图采用卷积进行通道维度的降维,再利用Sigmoid激活函数得到注意力权重图,将注意力权重图进行注意力矩阵乘法运算,重塑最终的特征图的权值,得到基于空间注意力机制的特征图;将最终的特征图进行特征提取后输入到通道注意力机制中,得到通道权重,得到基于通道注意力机制的特征图;将基于空间注意力机制的特征图与基于通道注意力机制的特征图进行融合,得到融合后的特征图;
S105、将融合后的特征图进行上采样后再进行卷积运算,重复四次,获得与待分割的息肉图像大小一致的输出图像。
图2为自适应多尺度模型的流程图,在本申请以一实施例中,所述自适应多尺度模型具体为:
将输入的待分割的息肉图像定义为:Sin∈RC×H×W,将待分割的息肉图像通过W1(·)进行特征提取,得到一个与待分割的息肉图像尺寸相同的初始特征图:S′∈RC×H×W
所述W1(·)包括1×1的卷积、批量正则化算法和ReLU非线性激活函数;
将初始特征图分成3个通道数量相等的特征图,即:
将3个特征图S0,S1和S2经由W2(·)进行转变,将转变后的特征图按通道维度进行拼接,得到与待分割的息肉图像通道数量一致的拼接后的特征图Scat,即:
Scat=CONCAT(W2(S0),W2(S1),W2(S2));
所述W2(·)包括3×3卷积和批量正则化算法;
将拼接后的特征图进行特征提取,得到特征提取后的特征图,再通过残差连接将特征提取后的特征图与待分割的息肉图像进行融合,输出语义信息图像Sout,即:
其中,R代表三维数组图像,C,H和W分别表示图像的通道数,长度和宽度;表示像素级别的加法求和运算,CONCAT表示通道维度上的拼接;W3(·)包括1×1的卷积、批量正则化算法和ReLU非线性激活函数。
请参阅图4,在本申请以一实施例中,所述将高维的语义信息图像划分为平面二维序列的矢量化的图像块,通过线性投影将图像块映射到一维嵌入空间,对空间信息进行编码,具体为:
将高维的语义信息图像划分为平面二维序列的矢量化的图像块 图像块大小为P×P,图像块的数量为/>
通过线性投影将图像块映射到一维嵌入空间,并对图像块进行特定位置嵌入,保存位置信息,得到:
其中,表示图像块,i表示正整数,H和W分别表示图像块的长度和宽度,P为图像块的边长,E是图像块的投影,且/>Epos表示嵌入位置,且Epos∈RN×D
通过多头自注意力和多层感知器,得到编码层输出的特征图分别为:
I′L=MSA(LN(IL-1))+IL-1
IL=MLP(LN(I′L))+I′L
其中,LN(·)表示层之间的正则化操作,I′L和IL分别表示通过多头自注意力和多层感知器得到的L层编码层输出的特征图,MSA表示多头自注意力机制,MLP表示多层感知器,IL-1表示通过多层感知器得到的L-1层编码层输出的特征图。
图3为并行注意力融合模型的流程图,在本申请以一实施例中,所述并行注意力融合模型是以最终的特征图Icat作为输入,将最终的特征图采用卷积缩小通道,再经过Sigmoid激活函数得到注意力权重图,将注意力权重图进行注意力矩阵乘法运算,重建最终的特征图的权值,建模空间注意力机制,得到基于空间注意力机制的特征图Ispatial,即:
其中,表示注意力矩阵的乘法运算,σ(·)是Sigmiod激活函数,S0代表1×1卷积操作,α是与S0相关的系数;
将最终的特征图进行特征提取得到提取后的特征图,将提取后的特征图输入到通道注意力机制中,得到通道权重,和基于通道注意力机制的特征图,即:
其中,FAdaptive(·)表示本地信道之间的信息交互,G(·)表示全局平均池化,Ichannel代表通道维度注意力机制,θ是G(·)的相关系数;
将基于空间注意力机制的特征图与基于通道注意力机制的特征图进行融合,得到融合后的特征图Iout,即:
本申请一实施例通过多种方法实验采集Recall召回率,Precision精确度,Jaccard相似度,Dice系数,FPS和AUC等多种指标数据与本申请的方法进行比较;表1是使用Kvasir-SEG数据集进行验证,表2是使用CVC-ClinicDB数据集进行验证,表3是使用ETIS-LaribPolypD数据集进行交叉验证;数据表明在息肉图像分割技术上本申请实施例要领先UNet,UNet++,PraNet,PraNet等方法。
表1
表2
表3
本申请一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本申请一实施例提供的基于自注意力的图像分割方法的步骤。
图5示出了本申请一实施例提供的计算机设备的具体结构框图,一种计算机设备100包括:一个或多个处理器101、存储器102、以及一个或多个计算机程序,其中所述处理器101和所述存储器102通过总线连接,所述一个或多个计算机程序被存储在所述存储器102中,并且被配置成由所述一个或多个处理器101执行,所述处理器101执行所述计算机程序时实现如本申请一实施例提供的基于自注意力的图像分割方法的步骤。
计算机设备包括服务器和终端等。该计算机设备可以是台式计算机、移动终端或车载设备,移动终端包括手机、平板电脑、个人数字助理或可穿戴设备等中的至少一种。
在本申请实施例中,采用自适应多尺度模型,适应息肉图像复杂多变的环境和尺度变化,使网络保存更多的空间细节信息;通过自注意力机制实现与神经网络浅层的信息交互,有效抑制背景噪音;利用并行注意力融合模型联合上采样,提高对边界信息的敏感度,提高分割精度;将自适应多尺度模型和并行注意力融合模型结合,得到CNN与Transformer融合框架,降低计算量,为网络提供更多可供参考的语义信息,提高分割精度。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁盘或光盘等。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本申请的保护范围之内。

Claims (6)

1.一种基于自注意力的图像分割方法,其特征在于,包括:
获取待分割的息肉图像;
将待分割的息肉图像输入自适应多尺度模型,得到语义信息图像,再将语义信息图像经过下采样后重新输入到自适应多尺度模型后再进行下采样,重复三次,获得高维的语义信息图像;所述自适应多尺度模型是将输入的待分割的息肉图像通过特征提取得到与待分割的息肉图像尺寸相同的初始特征图,将初始特征图分成3个通道数量相等的特征图,将3个特征图分别经由卷积和批量正则化算法后得到的特征图依次以通道维度进行拼接,得到与带分割的息肉图像通道数量一致的拼接后的特征图,将拼接后的特征图进行特征提取后,通过残差连接将特征提取后的特征图与待分割的息肉图像进行融合,得到语义信息图像;
将高维的语义信息图像输入自注意力机制,输出特征图,再将特征图输入到自注意力机制,重复三次,得到最终的特征图;所述自注意力机制是将高维的语义信息图像划分为平面二维序列的矢量化的图像块,通过线性投影将图像块映射到一维嵌入空间,对空间信息进行编码;
将最终的特征图输入并行注意力融合模型,输出融合后的特征图;所述并行注意力融合模型是将最终的特征图采用卷积进行通道维度的降维,再利用Sigmoid激活函数得到注意力权重图,将注意力权重图进行注意力矩阵乘法运算,重塑最终的特征图的权值,得到基于空间注意力机制的特征图;将最终的特征图进行特征提取后输入到通道注意力机制中,得到通道权重,得到基于通道注意力机制的特征图;将基于空间注意力机制的特征图与基于通道注意力机制的特征图进行融合,得到融合后的特征图;
将融合后的特征图进行上采样后再进行卷积运算,重复四次,获得与待分割的息肉图像大小一致的输出图像。
2.如权利要求1所述的图像分割方法,其特征在于,所述自适应多尺度模型具体为:
将输入的待分割的息肉图像定义为:Sin∈RC×H×W,将待分割的息肉图像通过W1(·)进行特征提取,得到一个与待分割的息肉图像尺寸相同的初始特征图:S′∈RC×H×W
所述W1(·)包括1×1的卷积、批量正则化算法和ReLU非线性激活函数;
将初始特征图分成3个通道数量相等的特征图,即:
将3个特征图S0,S1和S2经由W2(·)进行转变,将转变后的特征图按通道维度进行拼接,得到与待分割的息肉图像通道数量一致的拼接后的特征图Scat,即:
Scat=CONCAT(W2(S0),W2(S1),W2(S2));
所述W2(·)包括3×3卷积和批量正则化算法;
将拼接后的特征图进行特征提取,得到特征提取后的特征图,再通过残差连接将特征提取后的特征图与待分割的息肉图像进行融合,输出语义信息图像Sout,即:
其中,R代表三维数组图像,C,H和W分别表示图像的通道数,长度和宽度;表示像素级别的加法求和运算,CONCAT表示通道维度上的拼接;W3(·)包括1×1的卷积、批量正则化算法和ReLU非线性激活函数。
3.如权利要求1所述的图像分割方法,其特征在于,所述将高维的语义信息图像划分为平面二维序列的矢量化的图像块,通过线性投影将图像块映射到一维嵌入空间,对空间信息进行编码,具体为:
将高维的语义信息图像划分为平面二维序列的矢量化的图像块图像块大小为P×P,图像块的数量为/>
通过线性投影将图像块映射到一维嵌入空间,并对图像块进行特定位置嵌入,保存位置信息,得到:
其中,表示图像块,i表示正整数,H和W分别表示图像块的长度和宽度,P为图像块的边长,E是图像块的投影,且/>Epos表示嵌入位置,且Epos∈RN×D
通过多头自注意力和多层感知器,得到编码层输出的特征图分别为:
I′L=MSA(LN(IL-1))+IL-1
lL=MLP(LN(I′L)))+I′L
其中,LN(·)表示层之间的正则化操作,I′L和IL分别表示通过多头自注意力和多层感知器得到的L层编码层输出的特征图,L表示编码层的层数,MSA表示多头自注意力机制,MLP表示多层感知器,IL-1表示通过多层感知器得到的L-1层编码层输出的特征图。
4.如权利要求1所述的图像分割方法,其特征在于,所述并行注意力融合模型是以最终的特征图Icat作为输入,将最终的特征图采用卷积缩小通道,再经过Sigmoid激活函数得到注意力权重图,将注意力权重图进行注意力矩阵乘法运算,重建最终的特征图的权值,建模空间注意力机制,得到基于空间注意力机制的特征图Ispatial,即:
其中,表示注意力矩阵的乘法运算,σ(·)是Sigmiod激活函数,S0代表1×1卷积操作,α是与S0相关的系数;
将最终的特征图进行特征提取得到提取后的特征图,将提取后的特征图输入到通道注意力机制中,得到通道权重,和基于通道注意力机制的特征图,即:
其中,FAdaptive(·)表示本地信道之间的信息交互,G(·)表示全局平均池化,Ichannel代表通道维度注意力机制,θ是G(·)的相关系数;
将基于空间注意力机制的特征图与基于通道注意力机制的特征图进行融合,得到融合后的特征图Iout,即:
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的基于自注意力的图像分割方法的步骤。
6.一种计算机设备,包括:
一个或多个处理器;
存储器;以及
一个或多个计算机程序,所述处理器和所述存储器通过总线连接,其中所述一个或多个计算机程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的基于自注意力的图像分割方法的步骤。
CN202311579713.3A 2023-11-22 2023-11-22 基于自注意力的图像分割方法及计算机设备 Pending CN117522896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311579713.3A CN117522896A (zh) 2023-11-22 2023-11-22 基于自注意力的图像分割方法及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311579713.3A CN117522896A (zh) 2023-11-22 2023-11-22 基于自注意力的图像分割方法及计算机设备

Publications (1)

Publication Number Publication Date
CN117522896A true CN117522896A (zh) 2024-02-06

Family

ID=89760524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311579713.3A Pending CN117522896A (zh) 2023-11-22 2023-11-22 基于自注意力的图像分割方法及计算机设备

Country Status (1)

Country Link
CN (1) CN117522896A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117889867A (zh) * 2024-03-18 2024-04-16 南京师范大学 一种基于局部自注意力移动窗口算法的路径规划方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117889867A (zh) * 2024-03-18 2024-04-16 南京师范大学 一种基于局部自注意力移动窗口算法的路径规划方法
CN117889867B (zh) * 2024-03-18 2024-05-24 南京师范大学 一种基于局部自注意力移动窗口算法的路径规划方法

Similar Documents

Publication Publication Date Title
CN111311629B (zh) 图像处理方法、图像处理装置及设备
WO2020177651A1 (zh) 图像分割方法和图像处理装置
CN111627019B (zh) 一种基于卷积神经网络的肝脏肿瘤分割方法及系统
CN112330729B (zh) 图像深度预测方法、装置、终端设备及可读存储介质
CN110246084B (zh) 一种超分辨率图像重构方法及其系统、装置、存储介质
WO2023070447A1 (zh) 模型训练方法、图像处理方法、计算处理设备及非瞬态计算机可读介质
CN115439470B (zh) 息肉图像分割方法、计算机可读存储介质及计算机设备
CN114170167B (zh) 基于注意力引导上下文校正的息肉分割方法和计算机设备
CN117522896A (zh) 基于自注意力的图像分割方法及计算机设备
CN114187296B (zh) 胶囊内窥镜图像病灶分割方法、服务器及系统
JP2024018938A (ja) 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置
CN115223193B (zh) 一种基于病灶特征重要性的胶囊内窥镜图像病灶识别方法
CN113838067A (zh) 肺结节的分割方法和装置、计算设备、可存储介质
CN115761258A (zh) 一种基于多尺度融合与注意力机制的图像方向预测方法
Shi et al. Exploiting multi-scale parallel self-attention and local variation via dual-branch transformer-cnn structure for face super-resolution
CN116485815A (zh) 基于双尺度编码器网络的医学图像分割方法、设备和介质
CN112633260B (zh) 视频动作分类方法、装置、可读存储介质及设备
Kim et al. Infrared and visible image fusion using a guiding network to leverage perceptual similarity
CN114240809A (zh) 图像处理方法、装置、计算机设备及存储介质
CN116935044B (zh) 一种多尺度引导和多层次监督的内镜息肉分割方法
CN116563285B (zh) 一种基于全神经网络的病灶特征识别与分割方法及系统
CN116664952A (zh) 一种融合卷积与ViT的图像方向识别方法
CN116681888A (zh) 一种智能图像分割方法及系统
CN115457261A (zh) 医学图像小病灶分割方法、存储介质和电子设备
Patel et al. Deep Learning in Medical Image Super-Resolution: A Survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination