CN113344146B - 基于双重注意力机制的图像分类方法、系统及电子设备 - Google Patents

基于双重注意力机制的图像分类方法、系统及电子设备 Download PDF

Info

Publication number
CN113344146B
CN113344146B CN202110886325.4A CN202110886325A CN113344146B CN 113344146 B CN113344146 B CN 113344146B CN 202110886325 A CN202110886325 A CN 202110886325A CN 113344146 B CN113344146 B CN 113344146B
Authority
CN
China
Prior art keywords
feature map
layer
dimension
image
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110886325.4A
Other languages
English (en)
Other versions
CN113344146A (zh
Inventor
何政
叶刚
傅佑铭
王中元
邹勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110886325.4A priority Critical patent/CN113344146B/zh
Publication of CN113344146A publication Critical patent/CN113344146A/zh
Application granted granted Critical
Publication of CN113344146B publication Critical patent/CN113344146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双重注意力机制的图像分类方法、系统及电子设备,利用改进的自注意力模型,同时计算特征图空间维度和特征图通道维度的注意力权重,然后将两种注意力机制生成的特征图相加,完成端对端的图像分类网络构建,提升网络对显著区域的自适应感知能力,实现更加精准鲁棒的图像特征表达,进而提升图像分类性能。

Description

基于双重注意力机制的图像分类方法、系统及电子设备
技术领域
本发明属于图像处理技术领域,涉及一种图像分类方法、系统及电子设备,具体涉及一种基于双重注意力机制的图像分类方法、系统及电子设备。
背景技术
自深度学习诞生至今,相关技术,特别是深度卷积网络相关的技术为计算机视觉领域带来了巨大的变革与影响,基于深度卷积网络的图像分类方法已经成为了当前研究的主流方法。但此类方法也存在以下不足:
(1)过度依赖训练数据。图像的特征表达是基于深度卷积网络的图像分类方法的核心内容,而准确鲁棒的特征获取很大程度上取决于网络对海量数据的学习,数据的数量和质量将直接影响到特征空间的构建。
(2)卷积模式的局限性。卷积操作的实质是利用单一采样模式对特定区域进行滤波,尽管深度卷积网络能够通过多层和多模态卷积操作实现大尺度感受野内的特征表达,但其采样模式的单一性和邻接性限制了卷积网络对不同尺度特征的准确表达,同时也导致了最终生成的特征的局部表达在整体图像层面关联性较弱,无法较好地保证具有相似图像语义内容的局部特征具有相近的特征表达。
(3)特征图通道间的分类辨识度不同。深度卷积网络生成的特征图具有多个channel维度,不同维度的数据对图像的分类的贡献权重不尽相同,如何利用合理的模型计算贡献权重,也是改进基于深度卷积网络图像分类方法的重要途径。
发明内容
针对上述问题,本发明提出了一种基于双重注意力机制的图像分类方法、系统及电子设备。
本发明的方法所采用的技术方案是:一种基于双重注意力机制的图像分类方法,包括以下步骤:
步骤1:构建基于Transformer的空间维度自注意力网络和基于Transformer的特征图channel维度自注意力网络;
所述基于Transformer的空间维度自注意力网络,第一层是3个平行的卷积核是1×1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出空间维度特征图;
所述基于Transformer的channel维度自注意力网络,第一层是2个平行的卷积核是1×1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出通道维度特征图;
步骤2:将输入图像Fm预处理后输入基于Transformer的空间维度自注意力网络,生成基于图像空间维度的注意力特征图;
对输入图像Fm进行预处理,获得浅层特征图Fm1;采用自底向上和自顶向下相结合的方式,对浅层特征图Fm1进行处理,生成中层特征图FA;将中层特征图FA输入至空间维度自注意力网络,生成基于图像空间维度的注意力特征图FEP
步骤3:将中层特征图FA输入基于Transformer的特征图channel维度自注意力网络,生成基于特征图通道维度的注意力特征图FEc
步骤4:将步骤2得到的特征图FEP和步骤3得到的特征图FEc进行对应维度上的元素相加,得到最后的输出特征图FMap;将特征图FMap放入全连接层进行线性映射,生成维度为nmu×1的向量,其中nmu为图像类别的个数,选取向量维度中数值最大的维度对应的类别作为该图像的最终分类结果。
本发明的系统所采用的技术方案是:一种基于双重注意力机制的图像分类系统,包括以下模块:
模块1,用于构建基于Transformer的空间维度自注意力网络和基于Transformer的特征图channel维度自注意力网络;
所述基于Transformer的空间维度自注意力网络,第一层是3个平行的卷积核是1×1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出空间维度特征图;
所述基于Transformer的channel维度自注意力网络,第一层是2个平行的卷积核是1×1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出通道维度特征图;
模块2,用于将输入图像Fm预处理后输入基于Transformer的空间维度自注意力网络,生成基于图像空间维度的注意力特征图;
对输入图像Fm进行预处理,获得浅层特征图Fm1;采用自底向上和自顶向下相结合的方式,对浅层特征图Fm1进行处理,生成中层特征图FA;将中层特征图FA输入至空间维度自注意力网络,生成基于图像空间维度的注意力特征图FEP
模块3,用于将中层特征图FA输入基于Transformer的特征图channel维度自注意力网络,生成基于特征图通道维度的注意力特征图FEc
模块4,用于将模块2得到的特征图FEP和模块3得到的特征图FEc进行对应维度上的元素相加,得到最后的输出特征图FMap;将特征图FMap放入全连接层进行线性映射,生成维度为nmu×1的向量,其中nmu为图像类别的个数,选取向量维度中数值最大的维度对应的类别作为该图像的最终分类结果。
本发明的电子设备所采用的技术方案是:一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现基于双重注意力机制的图像分类方法。
相对于现有技术,本发明的有益效果包括:
(1)本发明利用改进的自注意力模型,同时计算特征图空间维度和特征图channel维度的注意力权重,然后将两种注意力机制生成的特征图相加,完成端对端的图像分类网络构建,提升网络对显著区域的自适应感知能力。
(2)相比与传统基于深度卷积的图像分类方法,本发明能够高效地实现图像空间维度和通道维度上高辨识度信息的权重自适应分配,综合考虑不同区域内的图像信息的冗余度,不同通道内的信息对图像分类的不同贡献,进而实现更加精准鲁棒的图像特征表达,进而提升图像分类性能。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例的基于Transformer的空间维度自注意力网络结构示意图。
图3为本发明实施例的基于Transformer的channel维度自注意力网络结构示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种一种基于双重注意力机制的图像分类方法,包括以下步骤:
步骤1:构建基于Transformer的空间维度自注意力网络和基于Transformer的特征图channel维度自注意力网络;
请见图2,本实施例的基于Transformer的空间维度自注意力网络,第一层是3个平行的卷积核是1×1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出空间维度特征图;
请见图3,本实施例的基于Transformer的channel维度自注意力网络,第一层是2个平行的卷积核是1×1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出通道维度特征图;
步骤2:将输入图像Fm预处理后输入基于Transformer的空间维度自注意力网络,生成基于图像空间维度的注意力特征图;
对输入图像Fm进行预处理,获得浅层特征图Fm1;采用自底向上(bottom-up)和自顶向下(top-down)相结合的方式,对浅层特征图Fm1进行处理,生成中层特征图FA;将中层特征图FA输入至空间维度自注意力网络,生成基于图像空间维度的注意力特征图FEP
本实施例对输入图像Fm进行预处理,获得浅层特征图Fm1;其具体实现包括以下子步骤:
步骤2.1:对于任意输入图像Fm,定义并进行残差块操作res();
res(Fm)=Fm+conv(Fm) (1);
其中conv(Fm)是步长为1,卷积核是3×3,维持输出特征图维度不变的卷积操作,res(Fm)即是残差块的输出;
步骤2.2:针对已知的训练样本集Train={Si}Nt i=1,Si=(imgi,li),其中Si表示第i个训练样本,imgi是该样本的图像,li是该样本的分类标签,Nt是样本总数目;将{imgi}输入至步骤1中残差块,将输出的特征图再次输入至残差块,输出浅层特征图Fm1
本实施例采用自底向上(bottom-up)和自顶向下(top-down)相结合的方式,对浅层特征图Fm1进行处理,生成中层特征图FA;其具体实现包括以下子步骤:
步骤2.3:对Fm1进行卷积核是3×3,步长为2的最大池化操作,记为max_pooling(Fm1),将输出的特征图输入至残差块res(max_pooling(Fm1)),对输出的特征图再次进行上述操作,得到特征图Fm2
步骤2.4:利用双线性插值的方法,在空间维度将特征图Fm2上采样至维度为(C0,2H0,2W0)的张量UFm2,其中(C0,H0,W0)是Fm2的维度;再将UFm2输入至残差块中,输出特征图Fm3;对Fm3重复上述操作,即先将Fm3上采样至(C0,4H0,4W0),再输入至残差块,最后输出特征图Fm4;其中Fm4的维度与Fm1的维度相同;
步骤2.5:将特征图Fm4输入任意深度卷积网络(本实施例采用Resnet50网络)中,输出中层特征图FA∈RC×H×W其中C是特征图的通道维度,H和W分别是特征图的高和宽。
本实施例将中层特征图FA输入至空间维度自注意力网络,生成图像空间维度的注意力特征图FEP;其具体实现包括以下子步骤:
步骤2.6:将中层特征图FA∈RC×H×W分别送入两个步长为1,卷积核是1×1的卷积层,且输出的特征图通道维度是C,生成两个特征图{FB,FC}∈RC×H×W
步骤2.7:将{FB,FC}进行维度上的变换,得到特征向量{VB,VC}∈RC×N,其中N=H×W,N是单个通道上像素的个数总数,利用公式(2)计算空间注意力权值:
Figure GDA0003259700860000051
其中,VBi表示VB的第i行行向量,VCj T表示VC的第j行行向量的转置;mji表示FA中第i个位置上的像素对第j个位置上像素的影响系数,mji越大就说明这两个位置上的像素的相似度越高,mji组成的矩阵用M表示;
步骤2.8:将中层特征图FA∈RC×H×W输入至另外一个步长为1,卷积核是1×1,输出特征图通道维度为C的卷积层,生成新的特征图FD∈RC×H×W,同时将其进行维度变换,生成特征向量VD∈RC×N;将VD与M的转置MT相乘获得张量FE,并将得到的张量进行维度的转换,生成张量FEs∈RC×H×W
步骤2.9:将张量FEs按照公式(3)与原中层特征图FA加权相加,得到最终空间维度的输出特征图;
FEp=αFEs+FA (3);
其中,α∈(0,1)是可训练的参数,在训练时α的初始值设置为0,FEp∈RC×H×W是空间位置维度中,经过甚于Transformer的空间维度自注意力网络后输出的特征图。
步骤3:将中层特征图FA输入基于Transformer的特征图channel维度自注意力网络,生成基于特征图通道维度的注意力特征图FE;
本实施例步骤3的具体实现包括以下子步骤:
步骤3.1:将中层特征图FA∈RC×H×W变换维度为RC×N的张量VA,利用公式(4)计算VA通道向量间的相似度;
Figure GDA0003259700860000061
其中,Ai表示A的第i行行向量,Aj T表示A的第j行行向量的转置,hji表示第i个通道的张量与第j个通道的张量的影响系数;hji构成的矩阵记为Hs,Hs的转置Hs T与FA相乘,得到张量FEh∈RC×H×W
步骤3.2:将张量FEh按照公式(5)与原中层特征图FA加权相加,得到最终位置维度的输出特征图;
FEc=βFEh+FA (5):
其中,β∈(0,1)是可训练的参数,在训练时β的初始值设置为0,FEc∈RC×H×W是空间位置维度中,经过基于Transformer的channel维度自注意力网络后输出的特征图。
步骤4:将步骤2得到的特征图FEP和步骤3得到的特征图FEc进行对应维度上的元素相加,得到最后的输出特征图FMap;将特征图FMap放入全连接层进行线性映射,生成维度为nmu×1的向量,其中nmu为图像类别的个数,选取向量维度中数值最大的维度对应的类别作为该图像的最终分类结果。
本实施例中,还包括对基于Transformer的空间维度自注意力网络和基于Transformer的channel维度自注意力网络进行训练,是将FMap放入全连接层进行线性映射,生成维度为nmu×1的向量,随后利用softmax函数对映射结果向量进行归一化处理,将最终结果与原始图像的标签向量进行比对,进而进行反向传播,完成有监督式的训练,得到训练好的基于Transformer的空间维度自注意力网络和基于Transformer的channel维度自注意力网络。
基于深度学习的图像分类问题是当下研究与应用最为广泛的分类问题之一,图像的特征表示一直是该领域的研究重点和难点,如何高效准确的实现图像特征的表达,直接影响到最终图像分类效率与结果。本发明提出了一种基于双重注意力机制的图像分类网络,利用改进的自注意力模型,同时考虑特征图位置维度和特征图通道维度的注意力权重。相比与传统基于深度卷积的图像分类方法,该方法能够高效地实现图像空间维度和通道维度上高辨识度信息的权重自适应分配,综合考虑不同区域内的图像信息的冗余度,不同通道内的信息对图像分类的不同贡献,进而实现图像特征的准确高效表达,提升图像分类性能。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (8)

1.一种基于双重注意力机制的图像分类方法,其特征在于,包括以下步骤:
步骤1:构建基于Transformer的空间维度自注意力网络和基于Transformer的特征图channel维度自注意力网络;
所述基于Transformer的空间维度自注意力网络,第一层是3个平行的卷积核是1×1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出空间维度特征图;
所述基于Transformer的特征图channel维度自注意力网络,第一层是2个平行的卷积核是1×1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出通道维度特征图;
步骤2:将输入图像Fm预处理后输入基于Transformer的空间维度自注意力网络,生成基于图像空间维度的注意力特征图;
对输入图像Fm进行预处理,获得浅层特征图Fm1;采用自底向上和自顶向下相结合的方式,对浅层特征图Fm1进行处理,生成中层特征图FA;将中层特征图FA输入至空间维度自注意力网络,生成基于图像空间维度的注意力特征图FEP
步骤3:将中层特征图FA输入基于Transformer的特征图channel维度自注意力网络,生成基于特征图通道维度的注意力特征图FEc
步骤4:将步骤2得到的特征图FEP和步骤3得到的特征图FEc进行对应维度上的元素相加,得到最后的输出特征图FMap;将特征图FMap放入全连接层进行线性映射,生成维度为nmu×1的向量,其中nmu为图像类别的个数,选取向量维度中数值最大的维度对应的类别作为该图像的最终分类结果。
2.根据权利要求1所述的基于双重注意力机制的图像分类方法,其特征在于,步骤2中所述对输入图像Fm进行预处理,获得浅层特征图Fm1;其具体实现包括以下子步骤:
步骤2.1:对于任意输入图像Fm,定义并进行残差块操作res();
res(Fm)=Fm+conv(Fm) (1);
其中conv(Fm)是步长为1,卷积核是3×3,维持输出特征图维度不变的卷积操作,res(Fm)即是残差块的输出;
步骤2.2:针对已知的训练样本集Train={Si}Nt i=1,Si=(imgi,li),其中Si表示第i个训练样本,imgi是该样本的图像,li是该样本的分类标签,Nt是样本总数目;将{imgi}输入至步骤1中残差块,将输出的特征图再次输入至残差块,输出浅层特征图Fm1
3.根据权利要求2所述的基于双重注意力机制的图像分类方法,其特征在于,步骤2中所述采用自底向上和自顶向下相结合的方式,对浅层特征图Fm1进行处理,生成中层特征图FA;其具体实现包括以下子步骤:
步骤2.3:对Fm1进行卷积核是3×3,步长为2的最大池化操作,记为max_pooling(Fm1),将输出的特征图输入至残差块res(max_pooling(Fm1)),对输出的特征图再次进行上述操作,得到特征图Fm2
步骤2.4:利用双线性插值的方法,在空间维度将特征图Fm2上采样至维度为(C0,2H0,2W0)的张量UFm2,其中(C0,H0,W0)是Fm2的维度;再将UFm2输入至残差块中,输出特征图Fm3;对Fm3重复上述操作,即先将Fm3上采样至(C0,4H0,4W0),再输入至残差块,最后输出特征图Fm4;其中Fm4的维度与Fm1的维度相同;
步骤2.5:将特征图Fm4输入至任意深度卷积网络,输出中层特征图FA∈RC×H×W,其中C是特征图的通道维度,H和W分别是特征图的高和宽。
4.根据权利要求2所述的基于双重注意力机制的图像分类方法,其特征在于,步骤2中所述将中层特征图FA输入至空间维度自注意力网络,生成图像空间维度的注意力特征图FEP;其具体实现包括以下子步骤:
步骤2.6:将中层特征图FA∈RC×H×W分别送入两个步长为1,卷积核是1×1的卷积层,且输出的特征图通道维度是C,生成两个特征图{FB,FC}∈RC×H×W
步骤2.7:将{FB,FC}进行维度上的变换,得到特征向量{VB,VC}∈RC×N,其中N=H×W,N是单个通道上像素的个数总数,利用公式(2)计算空间注意力权值:
Figure FDA0003272868770000031
其中,VBi表示VB的第i行行向量,VCj T表示VC的第j行行向量的转置;mji表示FA中第i个位置上的像素对第j个位置上像素的影响系数,mji越大就说明这两个位置上的像素的相似度越高,mji组成的矩阵用M表示;
步骤2.8:将中层特征图FA∈RC×H×W输入至另外一个步长为1,卷积核是1×1,输出特征图通道维度为C的卷积层,生成新的特征图FD∈RC×H×W,同时将其进行维度变换,生成特征向量VD∈RC×N;将VD与M的转置MT相乘获得张量FE,并将得到的张量进行维度的转换,生成张量FEs∈RC×H×W
步骤2.9:将张量FEs按照公式(3)与原中层特征图FA加权相加,得到最终空间维度的输出特征图;
FEp=αFEs+FA (3);
其中,α∈(0,1)是可训练的参数,在训练时α的初始值设置为0,FEp∈RC×H×W是空间位置维度中,经过基于Transformer的空间维度自注意力网络后输出的特征图。
5.根据权利要求2所述的基于双重注意力机制的图像分类方法,其特征在于,步骤3的具体实现包括以下子步骤:
步骤3.1:将中层特征图FA∈RC×H×W变换维度为RC×N的张量VA,利用公式(4)计算VA通道向量间的相似度;
Figure FDA0003272868770000041
其中,Ai表示A的第i行行向量,Aj T表示A的第j行行向量的转置,hji表示第i个通道的张量与第j个通道的张量的影响系数;hji构成的矩阵记为Hs,Hs的转置Hs T与FA相乘,得到张量FEh∈RC×H×W
步骤3.2:将张量FEh按照公式(5)与原中层特征图FA加权相加,得到最终位置维度的输出特征图;
FEc=βFEh+FA (5);
其中,β∈(0,1)是可训练的参数,在训练时β的初始值设置为0,FEc∈RC×H×W是空间位置维度中,经过基于Transformer的channel维度自注意力网络后输出的特征图。
6.根据权利要求1-5任意一项所述的基于双重注意力机制的图像分类方法,其特征在于:还包括对基于Transformer的空间维度自注意力网络和基于Transformer的channel维度自注意力网络进行训练,将FMap放入全连接层进行线性映射,生成维度为nmu×1的向量,随后利用softmax函数对映射结果向量进行归一化处理,将最终结果与原始图像的标签向量进行比对,进而进行反向传播,完成有监督式的训练,得到训练好的基于Transformer的空间维度自注意力网络和基于Transformer的channel维度自注意力网络。
7.一种基于双重注意力机制的图像分类系统,其特征在于,包括以下模块:
模块1,用于构建基于Transformer的空间维度自注意力网络和基于Transformer的特征图channel维度自注意力网络;
所述基于Transformer的空间维度自注意力网络,第一层是3个平行的卷积核是1×1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出空间维度特征图;
所述基于Transformer的channel维度自注意力网络,第一层是2个平行的卷积核是1×1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出通道维度特征图;
模块2,用于将输入图像Fm预处理后输入基于Transformer的空间维度自注意力网络,生成基于图像空间维度的注意力特征图;
对输入图像Fm进行预处理,获得浅层特征图Fm1;采用自底向上和自顶向下相结合的方式,对浅层特征图Fm1进行处理,生成中层特征图FA;将中层特征图FA输入至空间维度自注意力网络,生成基于图像空间维度的注意力特征图FEP
模块3,用于将中层特征图FA输入基于Transformer的特征图channel维度自注意力网络,生成基于特征图通道维度的注意力特征图FEc
模块4,用于将模块2得到的特征图FEP和模块3得到的特征图FEc进行对应维度上的元素相加,得到最后的输出特征图FMap;将特征图FMap放入全连接层进行线性映射,生成维度为nmu×1的向量,其中nmu为图像类别的个数,选取向量维度中数值最大的维度对应的类别作为该图像的最终分类结果。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的基于双重注意力机制的图像分类方法。
CN202110886325.4A 2021-08-03 2021-08-03 基于双重注意力机制的图像分类方法、系统及电子设备 Active CN113344146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110886325.4A CN113344146B (zh) 2021-08-03 2021-08-03 基于双重注意力机制的图像分类方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110886325.4A CN113344146B (zh) 2021-08-03 2021-08-03 基于双重注意力机制的图像分类方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN113344146A CN113344146A (zh) 2021-09-03
CN113344146B true CN113344146B (zh) 2021-11-02

Family

ID=77480575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110886325.4A Active CN113344146B (zh) 2021-08-03 2021-08-03 基于双重注意力机制的图像分类方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN113344146B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676777A (zh) * 2022-03-25 2022-06-28 中国科学院软件研究所 一种基于孪生网络的自监督学习细粒度图像分类方法
CN115222998B (zh) * 2022-09-15 2023-01-03 杭州电子科技大学 一种图像分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126488A (zh) * 2019-12-24 2020-05-08 威创集团股份有限公司 一种基于双重注意力的图像识别方法
CN111369543A (zh) * 2020-03-07 2020-07-03 北京工业大学 一种基于双重自注意力模块的快速花粉颗粒检测算法
CN112131943A (zh) * 2020-08-20 2020-12-25 深圳大学 一种基于双重注意力模型的视频行为识别方法及系统
CN112580782A (zh) * 2020-12-14 2021-03-30 华东理工大学 基于通道增强的双注意力生成对抗网络及图像生成方法
CN113011499A (zh) * 2021-03-22 2021-06-22 安徽大学 一种基于双注意力机制的高光谱遥感图像分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111356997B (zh) * 2017-08-03 2024-04-09 皇家飞利浦有限公司 具有颗粒化注意力的层次神经网络
US10776671B2 (en) * 2018-05-25 2020-09-15 Adobe Inc. Joint blur map estimation and blur desirability classification from an image
CN111680176B (zh) * 2020-04-20 2023-10-10 武汉大学 基于注意力与双向特征融合的遥感图像检索方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126488A (zh) * 2019-12-24 2020-05-08 威创集团股份有限公司 一种基于双重注意力的图像识别方法
CN111369543A (zh) * 2020-03-07 2020-07-03 北京工业大学 一种基于双重自注意力模块的快速花粉颗粒检测算法
CN112131943A (zh) * 2020-08-20 2020-12-25 深圳大学 一种基于双重注意力模型的视频行为识别方法及系统
CN112580782A (zh) * 2020-12-14 2021-03-30 华东理工大学 基于通道增强的双注意力生成对抗网络及图像生成方法
CN113011499A (zh) * 2021-03-22 2021-06-22 安徽大学 一种基于双注意力机制的高光谱遥感图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
3DCANN: A Spatio-Temporal Convolution Attention Neural Network for EEG Emotion Recognition;Shuaiqi Liu 等;《IEEE Journal of Biomedical and Health Informatics》;20210525;全文 *
基于双重注意力机制的遥感图像场景分类特征表示方法;徐从安 等;《电子与信息学报》;20210331;第43卷(第3期);全文 *

Also Published As

Publication number Publication date
CN113344146A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN109753992B (zh) 基于条件生成对抗网络的无监督域适应图像分类方法
CN113191215B (zh) 融合注意力机制与孪生网络结构的滚动轴承故障诊断方法
US11069047B2 (en) Image processing method, image processing apparatus, computing device and computer-readable storage medium
CN110706302B (zh) 一种文本合成图像的系统及方法
CN113344146B (zh) 基于双重注意力机制的图像分类方法、系统及电子设备
CN112766386B (zh) 一种基于多输入多输出融合网络的广义零样本学习方法
CN111191514A (zh) 一种基于深度学习的高光谱图像波段选择方法
CN112328767A (zh) 基于bert模型和比较聚合框架的问答匹配方法
CN114724012B (zh) 基于时空跨尺度注意力融合热带不稳定波预警方法及装置
Li et al. Example-based image super-resolution with class-specific predictors
CN115546032B (zh) 一种基于特征融合与注意力机制的单帧图像超分辨率方法
CN112766340B (zh) 基于自适应空间模式的深度胶囊网络图像分类方法及系统
CN113096239B (zh) 一种基于深度学习的三维点云重建方法
CN114004847A (zh) 一种基于图可逆神经网络的医学图像分割方法
CN114332482A (zh) 一种基于特征融合的轻量化目标检测方法
Du et al. Blind image denoising via dynamic dual learning
CN113111906A (zh) 一种基于单对图像训练的条件生成对抗网络模型的方法
CN113743353A (zh) 空间、通道和尺度注意力融合学习的宫颈细胞分类方法
CN114037770A (zh) 一种基于离散傅里叶变换的注意力机制的图像生成方法
CN114187506A (zh) 视点意识的动态路由胶囊网络的遥感图像场景分类方法
CN116740069B (zh) 基于多尺度显著信息和双向特征融合的表面缺陷检测方法
CN116030257B (zh) 一种基于NesT模型的语义分割方法
CN111339734A (zh) 一种基于文本生成图像的方法
CN115985345A (zh) 基于空洞深度可分离群卷积轻量级网络的语音情绪识别方法
CN114972851A (zh) 一种基于遥感影像的船只目标智能检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant