CN114067107A - 基于多粒度注意力的多尺度细粒度图像识别方法及系统 - Google Patents

基于多粒度注意力的多尺度细粒度图像识别方法及系统 Download PDF

Info

Publication number
CN114067107A
CN114067107A CN202210034322.2A CN202210034322A CN114067107A CN 114067107 A CN114067107 A CN 114067107A CN 202210034322 A CN202210034322 A CN 202210034322A CN 114067107 A CN114067107 A CN 114067107A
Authority
CN
China
Prior art keywords
attention
feature
different
grained
feature maps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210034322.2A
Other languages
English (en)
Other versions
CN114067107B (zh
Inventor
黄磊
安辰
魏志强
张科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202210034322.2A priority Critical patent/CN114067107B/zh
Publication of CN114067107A publication Critical patent/CN114067107A/zh
Application granted granted Critical
Publication of CN114067107B publication Critical patent/CN114067107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理技术领域,公开了基于多粒度注意力的多尺度细粒度图像识别方法及系统,该方法构建基于注意力的多粒度结构,将特征提取网络划分为若干个阶段,向特征提取网络的不同阶段输入不同粒度大小的图像,并对其进行特征提取,得到原始特征图;通过多粒度注意力模块对每个阶段的特征图分别从通道域和空间域获得注意力权重并融合,然后与特征图进行加权融合,获得不同阶段不同粒度的关键区域;构建并行多尺度卷积模块,给特征图分组,对每组特征图独立地应用不同类型的卷积核,对不同阶段不同尺度和粒度的特征图进行特征提取;最后对所得到的特征图进行特征融合。本发明能充分挖掘不同区域之间的关系,融合低维空间信息和高维语义信息。

Description

基于多粒度注意力的多尺度细粒度图像识别方法及系统
技术领域
本发明属于图像处理技术领域,涉及深度学习、细粒度图像识别技术,特别涉及基于多粒度注意力的多尺度细粒度图像识别方法及系统。
背景技术
细粒度图像识别目的是对粗粒度类别中更详细的子类进行分类。然而,由于细粒度图像存在类内方差高、类间方差低等特点,使得细粒度图像识别仍然是一项具有挑战性的任务。
早期的细粒度图像识别方法通过人类注释的边界框/部位注释进行基于部位的特征表示来解决这个问题。然而,在标记过程中需要专业的知识和大量的注释时间。因此,对于实际的细粒度图像识别任务,需要花费大量时间和资源进行注释的强监督方法并非最优。为了解决这个问题,研究重点转移到仅提供类别标签的弱监督方法,通过定位不同部位来学习区分性特征。目前,细粒度图像识别的研究方法集中在放大、裁剪局部可区分性区域。具体来说,这种方法利用注意力机制捕获关键区域,然后放大、裁剪关键特征,提高细粒度图像识别精度。
虽然上述方法已经取得了良好的效果,但仍有几个主要的问题。具体而言,1)忽视了注意力机制在不同粒度中的作用。2)没有考虑到如何将不同放大部位的特征以协同的方式融合在一起。3)这些方法主要学习高维特征捕获语义信息,却忽略了低维特征中包含的空间信息。
发明内容
针对上述现有技术存在的不足,本发明提供基于多粒度注意力的多尺度细粒度图像识别方法及系统,(1)首先为了解决如何将注意力机制在不同图像粒度中定位关键区域的问题,提出了基于注意力的多粒度结构,该结构将特征提取网络划分为若干个阶段,通过多粒度注意力模块,每个阶段侧重于捕获特征提取网络对应层中具有特定粒度的最具辨别力的区域;(2)然后提出了利用并行多尺度卷积模块提取不同阶段中不同尺度不同粒度的特征图,该模块分为若干层级,每个层级包含不同大小和深度的卷积核,并行多尺度卷积模块可以使用不同大小的卷积核并行处理输入特征映射,以捕获不同尺度不同粒度粒度特征图的细节;(3)最后针对将不同区域的特征以协同的方式融合在一起的问题,本发明设计了特征融合模块,将不同阶段的特征图通过最大池化层压缩成特征向量并融合,既充分挖掘了不同区域之间的关系,而且有效地融合了低维空间信息和高维语义信息,进而提高分类精度。
为了解决上述技术问题,本发明采用的技术方案是:
首先,本发明提供一种基于多粒度注意力的多尺度细粒度图像识别方法,包括以下步骤:
步骤1、多粒度特征提取:构建基于注意力的多粒度结构,将特征提取网络划分为若干个阶段,向特征提取网络的不同阶段输入不同粒度大小的图像,并对不同阶段不同粒度的图像进行特征提取,得到不同阶段不同粒度的原始特征图;
步骤2、通过多粒度注意力模块捕获每个阶段不同粒度特征图中最具鉴别性的区域:
首先,步骤1得到的不同阶段不同粒度的原始特征图经过卷积块得到感受野增大的特征图并将两者进行融合;融合后的特征图经多粒度注意力模块分别从通道和空间两个域上为不同阶段生成通道注意力权重和空间注意力权重;
然后,将注意力权重与其对应的不同阶段不同粒度的特征图进行加权融合:将获得的通道注意力权重和通道注意力权重进行融合,得到混合注意力权重,将混合注意力权重与原始特征图和感受野增大的特征图进行加权融合,模型为更适合当前粒度的感受野自适应分配权重并捕获不同粒度特征图的关键区域;
步骤3、提取多粒度多尺度特征图:构建并行多尺度卷积模块,给每个阶段不同粒度不同尺度特征图分组,对每组特征图独立地应用不同大小和深度的卷积核,提取不同阶段中不同尺度不同粒度的特征图;
步骤4、特征图融合:对从步骤3所得到的不同尺度不同粒度的特征图进行特征融合,分别对不同阶段的特征图以及融合后的特征图完成细粒度类别识别,通过类别损失函数优化网络参数;
重复训练步骤2-步骤3。
进一步的,在获取注意力权重时,多粒度注意力模块包括两个分支,一个分支取融合特征图自适应最大池化结果和自适应平均池化结果得到两个特征通道,经过共享卷积层为每个通道生成权重,将两个特征通道融合在一起,获取特征图中通道域的注意力权重;另一个分支将融合后的特征图进行降维,分别获取全局最大池化和全局平均池化结果并进行融合,使用卷积层获取特征图空间域的注意力权重。
进一步的,基于注意力的多粒度结构第k阶段输出的原始特征图为F k
Figure 692250DEST_PATH_IMAGE001
H k W k C k 分别是第k阶段特征图的高度、宽度和通道数,S是阶段数,C是所有通道的数量;步骤2中,由多粒度注意力模块捕获第k阶段最具鉴别性的区域的具体步骤如下:
(1)F k 经过卷积块得到
Figure 295270DEST_PATH_IMAGE002
,将
Figure 938741DEST_PATH_IMAGE003
Figure 336224DEST_PATH_IMAGE002
进行融合得到
Figure 65146DEST_PATH_IMAGE004
;对于融合特征图
Figure 143960DEST_PATH_IMAGE005
,首先计算融合特征图
Figure 724762DEST_PATH_IMAGE006
的自适应最大池化结果和自适应平均池化结果,形成两个特征通道,然后将上述两个特征通道经过共享卷积层并融合得到通道注意力权重
Figure 230830DEST_PATH_IMAGE007
(2)对于融合特征图
Figure 509365DEST_PATH_IMAGE008
进行全局最大池化和全局平均池化,并将全局最大池化和全局平均池化结果进行拼接,经过卷积层得到通道注意力权重
Figure 391870DEST_PATH_IMAGE009
进一步的,获取通道注意力权重公式为:
Figure 806671DEST_PATH_IMAGE010
Figure 749219DEST_PATH_IMAGE011
Figure 187154DEST_PATH_IMAGE012
获取空间注意力权重公式为:
Figure 670088DEST_PATH_IMAGE013
其中,shardConv表示共享卷积层,AdaptiveMaxPool2d表示自适应最大池化,AdaptiveAvgPool2d 表示自适应平均池化,GlobalMaxPool表示全局最大池化,GlobalAvgPool表示全局平均池化,conv表示卷积核,
Figure 142657DEST_PATH_IMAGE014
表示最大值特征通道的注意力向量,
Figure 990528DEST_PATH_IMAGE015
表示平均值特征通道的注意力向量。
进一步的,将步骤2中的通道注意力权重
Figure 978075DEST_PATH_IMAGE016
和空间注意力
Figure 202383DEST_PATH_IMAGE017
进行融合得到混合注意力权重λ,将混合注意力权重λ与特征图
Figure 529459DEST_PATH_IMAGE018
Figure 876127DEST_PATH_IMAGE019
进行加权融合,得到包含混合注意力的特征图
Figure 288654DEST_PATH_IMAGE020
获取混合注意力权重公式为:
Figure 113390DEST_PATH_IMAGE021
获取包含混合注意力的特征图公式为:
Figure 294973DEST_PATH_IMAGE022
其中
Figure 812542DEST_PATH_IMAGE023
表示Sigmoid激活函数,
Figure 712365DEST_PATH_IMAGE024
代表广播机制,
Figure 278475DEST_PATH_IMAGE025
代表逐元素相乘。
进一步的,步骤3中,并行多尺度卷积模块包括若干层级,分别对应基于注意力的多粒度结构中的不同阶段,每个层级包含不同尺度和不同深度的卷积核,具体公式如下:
Figure 580144DEST_PATH_IMAGE026
其中
Figure 206297DEST_PATH_IMAGE027
表示第k阶段经过并行多尺度卷积模块得到的特征图,mconv表示多尺度卷积,包含不同尺度和不同深度的卷积核,pconv表示1×1大小的卷积核,β表示批归一化,γ表示修正线性单元。
进一步的,步骤4,首先将不同阶段的特征图采用最大池化层将每个阶段的特征图压缩为特征向量,并将不同阶段的特征向量融合在一起;然后将不同阶段的特征向量以及融合后的特征向量与真实标签计算损失,公式如下:
Figure 593416DEST_PATH_IMAGE028
Figure 559623DEST_PATH_IMAGE029
其中,z s 表示第S阶段的预测标签向量,z表示真实标签向量,z fuse 表示各个阶段融合后的预测标签向量;
Figure 715797DEST_PATH_IMAGE030
表示第S阶段在第i个类别的预测标签向量,
Figure 575169DEST_PATH_IMAGE031
表示各个阶段融合后在第i个类别的预测标签向量,i表示当前是第i个类别,m表示类别的总数;
Figure 184005DEST_PATH_IMAGE032
表示第S阶段的损失,
Figure 419814DEST_PATH_IMAGE033
表示各个阶段融合后的损失。
本发明还提供基于多粒度注意力的多尺度细粒度图像识别系统,包括基于注意力的多粒度结构、多粒度注意力模块、并行多尺度卷积模块、特征融合模块、分类器,所述的基于注意力的多粒度结构,将特征提取网络分为若干个阶段,提取不同阶段中不同粒度图像的原始特征图;所述的多粒度注意力模块用于将每个阶段不同粒度的原始特征图及其经过卷积块得到感受野增大的特征图进行融合,然后分别从通道和空间两个域上生成注意力权重,并将空间注意力权重和通道注意力权重融合成混合注意力权重,将混合注意力权重与原始特征图和感受野增大的特征图进行加权融合,捕获不同阶段不同粒度的关键区域;所述的并行多尺度卷积模块,该模块分为若干层级,分别对应基于注意力的多粒度结构的各个阶段,每个层级包含不同大小和不同深度的卷积核,使用不同大小和不同深度的卷积核并行处理输入特征映射,提取多尺度多粒度特征;所述的特征融合模块,将并行多尺度卷积模块输出的不同阶段的特征图进行特征融合,保证了不同阶段捕获的特征图以协同的方式融合在一起;所述的分类器,用于输出分类结果。
与现有技术相比,本发明优点在于:
(1)为了解决如何将注意力机制在不同图像粒度中定位关键区域的问题,本专利提出了基于注意力的多粒度结构,引导网络从小粒度学习到粗粒度。具体的,首先基于注意力的多粒度结构将特征提取网络分为若干个阶段,对每个阶段的特征图分别从通道和空间两个域上生成注意力权重;其次,将空间注意力权重和通道注意力权重融合成混合注意力权重,捕获不同阶段不同粒度的关键区域。当前阶段训练完成后,下一阶段根据前一阶段的关键区域捕获更大粒度的关键区域,这防止了在大区域内出现较大的类内变化所造成的混淆。通过这种设计形式,可以有效利用注意力网络捕获不同阶段不同粒度的关键区域。
(2)为了有效提取不同阶段不同粒度不同尺度特征图的问题,本发明提出了利用并行多尺度卷积模块提取多尺度和多粒度特征,能够有效地提取不同阶段中不同尺度不同粒度的特征图。
具体的,并行多尺度卷积模块分为不同层级,每个层级包含不同尺度和不同深度的卷积核,为了在每一层级都能使用多尺度卷积核,将基于注意力的多粒度结构不同阶段的特征图进行分组,对不同的特征图组使用不同尺度和不同深度的卷积核,并行处理输入特征映射,以捕获不同尺度和粒度特征图的细节;网络能够有效捕获多粒度多尺度特征,使细粒度分类结果更加准确。
(3)针对将不同区域的特征以协同的方式融合在一起的问题,本发明设计了特征融合模块,将不同阶段的特征图通过最大池化层压缩成特征向量并融合,保证了不同阶段捕获的特征图以协同的方式融合在一起,既充分挖掘了不同区域之间的关系,而且有效地融合了低维空间信息和高维语义信息,提升整个网络模型的性能,进而提高分类精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图;
图2为本发明多粒度注意力模块生成注意力特征步骤图;
图3为本发明分组卷积结构示意图(分组数=1);
图4为本发明分组卷积结构示意图(分组数=2);
图5为本发明的网络结构图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
实施例1
结合图1-图5所示,本实施例基于多粒度注意力的多尺度神经网络,提供一种细粒度图像识别方法,包括以下步骤:
步骤1、多粒度特征提取:
本实施例采用ScaleNet作为特征提取网络,一共包含N个阶段。
本实施例通过基于注意力的多粒度结构,将特征提取网络划分为S个阶段,向特征提取网络的不同阶段输入不同粒度大小的图像,并对不同阶段不同粒度的图像进行特征提取,得到不同粒度的原始特征图。
设基于注意力的多粒度结构第k阶段的输入图像为
Figure 430495DEST_PATH_IMAGE034
,其中
Figure 398451DEST_PATH_IMAGE035
。这里第k阶段的输出的原始特征图为F k 为:
Figure 556900DEST_PATH_IMAGE036
QUOTE
Figure 2925DEST_PATH_IMAGE037
Figure 133692DEST_PATH_IMAGE037
表示ScaleNet中第k阶段的卷积块。
经过步骤1,得到的原始特征图
Figure 538129DEST_PATH_IMAGE038
H k W k C k 分别是第k阶段特征图的高度、宽度和通道数,S是阶段数,C是所有通道的数量。然后本实施例通过设计多粒度注意力模块,有效获得对应于原始特征图的关键特征信息。
步骤2、通过多粒度注意力模块捕获每个阶段不同粒度特征图中最具鉴别性的区域,具体如下:
1、步骤1得到的不同阶段不同粒度的原始特征图经过卷积块得到感受野增大的特征图并将两者进行融合;融合后的特征图经多粒度注意力模块分别从通道和空间两个域上为不同阶段生成通道注意力权重和空间注意力权重。
具体地,原始特征图经过卷积块得到感受野增大的特征图并将两者进行融合;融合后的特征图经多粒度注意力模块的两个分支,一方面取自适应最大池化结果和自适应平均池化结果得到两个特征通道,经过共享卷积层为每个通道生成权重,将两个特征通道融合在一起,获取特征图中通道域的注意力权重;另一方面将融合后的特征图进行降维,分别获取全局最大池化和全局平均池化结果并进行融合,使用卷积层获取特征图空间域的注意力权重。
由多粒度注意力模块捕获第k阶段最具鉴别性区域的具体步骤如下:
(1)F k 经过卷积块得到
Figure 121557DEST_PATH_IMAGE039
,将
Figure 371273DEST_PATH_IMAGE040
Figure 215601DEST_PATH_IMAGE041
进行融合得到
Figure 525359DEST_PATH_IMAGE042
Figure 658400DEST_PATH_IMAGE043
Figure 711807DEST_PATH_IMAGE044
Figure 551587DEST_PATH_IMAGE045
Figure 297826DEST_PATH_IMAGE046
Figure 590267DEST_PATH_IMAGE047
分别是融合特征图
Figure 447365DEST_PATH_IMAGE048
在第k阶段的高度、宽度和通道数。
对于融合特征图
Figure 997776DEST_PATH_IMAGE004
,首先计算融合特征图
Figure 649337DEST_PATH_IMAGE049
的自适应最大池化结果和自适应平均池化结果,形成两个特征通道,然后将上述两个特征通道经过共享卷积层并融合得到通道注意力权重
Figure 960233DEST_PATH_IMAGE050
,具体操作如图2所示。
(2)对于融合特征图
Figure 355442DEST_PATH_IMAGE051
进行全局最大池化和全局平均池化,并将全局最大池化和全局平均池化结果进行拼接,经过卷积层得到空间注意力权重
Figure 904235DEST_PATH_IMAGE052
。具体操作如图2所示。
需要说明的是,在上述步骤中,获取通道注意力权重公式为:
Figure 851332DEST_PATH_IMAGE010
Figure 118365DEST_PATH_IMAGE011
Figure 51686DEST_PATH_IMAGE012
获取空间注意力权重公式为:
Figure 782881DEST_PATH_IMAGE053
其中,shardConv表示共享卷积层,由两个1×1卷积层和修正线性单元组成,为上述两个通道(最大值特征通道和平均值特征通道)生成注意力,AdaptiveMaxPool2d表示自适应最大池化,AdaptiveAvgPool2d 表示自适应平均池化,GlobalMaxPool表示全局最大池化,GlobalAvgPool表示全局平均池化,conv表示卷积核,本实施例采用大小为3×3卷积核,
Figure 41824DEST_PATH_IMAGE054
表示最大值特征通道的注意力向量,
Figure 796154DEST_PATH_IMAGE055
表示平均值特征通道的注意力向量。
经过上述步骤,初步得到了特征图中空间注意力权重和通道注意力权重,由于空间注意力和通道注意力的聚焦不同,空间注意力更适用于特征图空间维度中的特征信息的聚焦和激活;通道注意力更适用于特征图通道中的聚焦和激活特征信息。这两种信息都属于通过卷积运算提取的图像中的深度特征信息。因此,仅仅考虑某种关注并不足以表达一个全面和有效的特征。现需要将空间注意力权重和通道注意力权重进行融合得到可以关注更细粒度特性的混合注意力权重。
2、将注意力权重与其对应的不同阶段不同粒度的特征图进行加权融合:
将步骤2中获得的通道注意力权重
Figure 798745DEST_PATH_IMAGE056
和空间注意力
Figure 322130DEST_PATH_IMAGE057
进行融合得到混合注意力权重λ,将混合注意力权重λ与特征图
Figure 345450DEST_PATH_IMAGE058
Figure 587075DEST_PATH_IMAGE059
进行加权融合,模型为更适合当前粒度的感受野自适应分配权重并捕获不同粒度特征图的关键区域;得到包含混合注意力的特征图
Figure 127778DEST_PATH_IMAGE060
获取混合注意力权重公式为:
Figure 771249DEST_PATH_IMAGE061
获取包含混合注意力的特征图公式为:
Figure 371995DEST_PATH_IMAGE062
其中
Figure 897654DEST_PATH_IMAGE023
表示Sigmoid激活函数,
Figure 242048DEST_PATH_IMAGE024
代表广播机制,
Figure 740025DEST_PATH_IMAGE025
代表逐元素相乘。
此处需要说明的是,通过基于注意力的多粒度结构,网络从低阶段的稳定粒度开始训练,在低阶段训练具有局部细节的鉴别特征,逐渐向深层阶段的粗粒度过渡;通过基于注意力的多粒度结构,网络可以在早期阶段定位有用的信息,并且可以更加关注更微妙的区域,模型可以有效地捕获不同粒度特征图的关键区域。
经过步骤3,各个阶段中不同尺度不同粒度的特征图都能够捕获当前尺度和粒度中最具鉴别性的区域。为了有效地提取不同尺度和不同粒度的特征图,本实施例构建并行多尺度卷积模块。
步骤3、提取多粒度多尺度特征图:
构建并行多尺度卷积模块,给每个阶段不同粒度不同尺度特征图分组,对每个特征图组独立地应用不同大小和深度的卷积核,提取不同阶段不同粒度不同尺度的特征图。
由于基于注意力的多粒度结构中不同阶段包含不同尺度不同粒度的特征图,使用单一类型的卷积核和单一空间大小可能不是解决这一复杂性的最佳解决方案。因此,本实施例利用并行多尺度卷积模块提取不同尺度不同粒度的特征图,具体的,并行多尺度卷积模块包括不同层级,并行多尺度卷积模块的每个层级分别对应基于注意力的多粒度结构中的不同阶段。每个层级包含不同大小和不同深度的卷积核,每个层级的卷积核包含不同空间大小。为了能够在并行多尺度卷积模块的每个层级使用不同深度和大小的卷积核,输入特征图被分成不同的组进行独立卷积计算,如图3、图4所示。
将基于注意力的多粒度结构中不同阶段输出的不同尺度不同粒度的特征图经过并行多尺度卷积模块进行特征提取,具体公式如下:
Figure 108077DEST_PATH_IMAGE063
其中
Figure 324295DEST_PATH_IMAGE064
表示第k阶段经过并行多尺度卷积模块得到的特征图,mconv表示多尺度卷积,包含不同尺度和不同深度的卷积核,pconv表示1×1大小的卷积核,β表示批归一化,γ表示修正线性单元。
经过步骤3,基于注意力的多粒度结构中各个阶段的特征图经过并行多尺度卷积模块提取后,为了探索不同阶段不同粒度不同尺度特征图中最具鉴别性区域之间的联系,需要将不同阶段的特征图能够以协同的方式融合在一起。
步骤4、特征图融合:
对不同阶段从步骤3所得到的不同尺度不同粒度的特征图进行特征融合,分别对不同阶段的特征图以及融合后的特征图完成细粒度类别识别,通过类别损失函数优化网络参数。
具体如下:
首先将不同阶段的特征图采用最大池化层将每个阶段的特征图压缩为特征向量,并将不同阶段的特征向量融合在一起;然后将不同阶段的特征向量以及融合后的特征向量与真实标签计算损失,公式如下:
Figure 206800DEST_PATH_IMAGE065
Figure 824863DEST_PATH_IMAGE066
其中,z s 表示第S阶段的预测标签向量,z表示真实标签向量,z fuse 表示各个阶段融合后的预测标签向量;
Figure 501832DEST_PATH_IMAGE067
表示第S阶段在第i个类别的预测标签向量,
Figure 798821DEST_PATH_IMAGE068
表示各个阶段融合后在第i个类别的预测标签向量,i表示当前是第i个类别,m表示类别的总数;
Figure 485018DEST_PATH_IMAGE069
表示第S阶段的损失,
Figure 692008DEST_PATH_IMAGE070
表示各个阶段融合后的损失。
重复训练步骤2-步骤3。
结合图1,使用本发明的方法处理图像时,将不同粒度的图像输入训练好的网络中,经特征提取网络分阶段提取特征,其中低阶段捕获稳定粒度的空间信息,深层阶段捕获较粗粒度的语义信息;通过多粒度注意力模块对不同阶段的特征图处理获得注意力图,基于本发明多粒度注意力机制,各个阶段中不同尺度和不同粒度的特征图都能够捕获当前尺度和粒度中最具鉴别性的区域;然后利用并行多尺度卷积模块,有效地提取不同阶段中不同尺度不同粒度的特征图;随后再经特征融合模块,将不同阶段的特征图融合,最后输出分类结果。通过本发明的方法能够有效捕获多粒度多尺度特征,使细粒度分类结果更加准确。
实施例2
本实施例提供一种基于多粒度注意力的多尺度细粒度图像识别系统,结合图5所示的本发明所使用的模型的网络架构图,本细粒度图像识别系统包括基于注意力的多粒度结构、多粒度注意力模块、并行多尺度卷积模块、特征融合模块、分类器。所述的基于注意力的多粒度结构,将特征提取网络分为若干个阶段,提取不同阶段中不同粒度图像的原始特征图;所述的多粒度注意力模块将每个阶段不同粒度的原始特征图及其经过卷积块得到感受野增大的特征图进行融合,然后对于融合后的特征图分别从通道和空间两个域上生成注意力权重,并将空间注意力权重和通道注意力权重融合成混合注意力权重,将混合注意力权重与原始特征图和感受野较大的特征图进行加权融合,捕获不同阶段不同粒度的关键区域。网络从低阶段的稳定粒度开始训练,逐渐向深层阶段的粗粒度过渡;当前阶段训练完成后,网络通过反向传播更新参数,更新后的参数作为下一阶段的初始化参数,下一阶段能够根据前一阶段捕获的关键区域定位粒度较大的关键区域。
所述的并行多尺度卷积模块,该模块分为若干层级,分别对应基于注意力的多粒度结构的各个阶段,每个层级包含不同大小和深度的卷积核,使用不同大小和不同深度的卷积核并行处理输入特征映射,提取多尺度多粒度特征。
所述的特征融合模块,将并行多尺度卷积模块输出的不同阶段的特征图进行特征融合,保证了不同阶段捕获的特征图以协同的方式融合在一起;将不同阶段的特征图通过最大池化操作压缩成特征向量并融合,既充分挖掘了不同区域之间的关系,而且有效地融合了低维空间信息和高维语义信息。所述的分类器,用于输出分类结果。
需要说明的是,使用本实施例的基于多粒度注意力的多尺度细粒度图像识别系统,可实现细粒度图像识别,如实施例1记载的图像识别方法,具体图像识别方法此处不再赘述。
综上所述,本发明提出了一种基于注意力的多粒度结构,基于注意力的多粒度结构将特征提取网络划分为若干个阶段,通过本发明设计的多粒度注意力模块,每个阶段能够捕获特征提取网络对应层中特定尺度和粒度特征图的最具辨别力的区域。同时,为了有效地提取不同尺度和不同粒度的特征图,本发明提出了利用并行多尺度卷积模块,通过给特征图进行分组,并行多尺度卷积模块对每组特征图独立地应用不同大小和深度的卷积核,以捕获不同粒度不同尺度特征图的细节。本发明将不同阶段中不同粒度不同尺度的特征图以协同的方式融合在一起,解决了注意力机制在不同图像粒度中定位关键区域的问题,充分挖掘了不同区域之间的关系,而且有效地融合了低维空间信息和高维语义信息。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。

Claims (8)

1.基于多粒度注意力的多尺度细粒度图像识别方法,其特征在于,包括以下步骤:
步骤1、多粒度特征提取:构建基于注意力的多粒度结构,将特征提取网络划分为若干个阶段,向特征提取网络的不同阶段输入不同粒度大小的图像,并对不同阶段不同粒度的图像进行特征提取,得到不同阶段不同粒度的原始特征图;
步骤2、设计多粒度注意力模块,捕获每个阶段不同粒度特征图中最具鉴别性的区域:
首先,步骤1得到的不同阶段不同粒度的原始特征图经过卷积块得到感受野增大的特征图并将两者进行融合;融合后的特征图经多粒度注意力模块分别从通道和空间两个域上为不同阶段生成通道注意力权重和空间注意力权重;
然后,将注意力权重与其对应的不同阶段不同粒度的特征图进行加权融合:将获得的通道注意力权重和空间注意力权重进行融合,得到混合注意力权重,将混合注意力权重与原始特征图和感受野增大的特征图进行加权融合,模型为更适合当前粒度的感受野自适应分配权重,并捕获不同粒度特征图的关键区域;
步骤3、提取多粒度多尺度特征图:构建并行多尺度卷积模块,给每个阶段不同粒度不同尺度特征图分组,对每组特征图独立地应用不同大小和深度的卷积核,提取不同阶段中不同尺度不同粒度的特征图;
步骤4、特征图融合:对从步骤3所得到的不同尺度不同粒度的特征图进行特征融合,分别对不同阶段的特征图以及融合后的特征图完成细粒度类别识别,通过类别损失函数优化网络参数;
重复训练步骤2-步骤3。
2.根据权利要求1所述的基于多粒度注意力的多尺度细粒度图像识别方法,其特征在于,步骤2中,在获取注意力权重时,多粒度注意力模块包括两个分支,一个分支取融合特征图自适应最大池化结果和自适应平均池化结果得到两个特征通道,经过共享卷积层为每个通道生成权重,将两个特征通道融合在一起,获取特征图中通道域的注意力权重;另一个分支将融合后的特征图进行降维,分别获取全局最大池化和全局平均池化结果并进行融合,使用卷积层获取特征图空间域的注意力权重。
3.根据权利要求1所述的基于多粒度注意力的多尺度细粒度图像识别方法,其特征在于,基于注意力的多粒度结构第k阶段输出的原始特征图为F k
Figure 809124DEST_PATH_IMAGE001
H k W k C k 分别是第k阶段特征图的高度、宽度和通道数,S是阶段数,C是所有通道的数量;步骤2中,由多粒度注意力模块捕获第k阶段最具鉴别性的区域的具体步骤如下:
(1)F k 经过卷积块得到
Figure 726265DEST_PATH_IMAGE002
,将
Figure 506002DEST_PATH_IMAGE003
Figure 760266DEST_PATH_IMAGE002
进行融合得到
Figure 574638DEST_PATH_IMAGE004
;对于融合特征图
Figure 459417DEST_PATH_IMAGE005
,首先计算融合特征图
Figure 726451DEST_PATH_IMAGE006
的自适应最大池化结果和自适应平均池化结果,形成两个特征通道,然后将上述两个特征通道经过共享卷积层并融合得到通道注意力权重
Figure 925351DEST_PATH_IMAGE007
(2)对于融合特征图
Figure 677054DEST_PATH_IMAGE008
进行全局最大池化和全局平均池化,并将全局最大池化和全局平均池化结果进行拼接,经过卷积层得到空间注意力权重
Figure 670418DEST_PATH_IMAGE009
4.根据权利要求3所述的基于多粒度注意力的多尺度细粒度图像识别方法,其特征在于,获取通道注意力权重公式为:
Figure 487064DEST_PATH_IMAGE010
Figure 224076DEST_PATH_IMAGE011
Figure 809778DEST_PATH_IMAGE012
获取空间注意力权重公式为:
Figure 239622DEST_PATH_IMAGE013
其中,shardConv表示共享卷积层,AdaptiveMaxPool2d表示自适应最大池化,AdaptiveAvgPool2d 表示自适应平均池化,GlobalMaxPool表示全局最大池化,GlobalAvgPool表示全局平均池化,conv表示卷积核,
Figure 543565DEST_PATH_IMAGE014
表示最大值特征通道的注意力向量,
Figure 818688DEST_PATH_IMAGE015
表示平均值特征通道的注意力向量。
5.根据权利要求3所述的基于多粒度注意力的多尺度细粒度图像识别方法,其特征在于,将步骤2中的通道注意力权重
Figure 462159DEST_PATH_IMAGE016
和空间注意力
Figure 859643DEST_PATH_IMAGE017
进行融合得到混合注意力权重λ,将混合注意力权重λ与特征图
Figure 588564DEST_PATH_IMAGE018
Figure 667379DEST_PATH_IMAGE019
进行加权融合,得到包含混合注意力的特征图
Figure 227673DEST_PATH_IMAGE020
获取混合注意力权重公式为:
Figure 999320DEST_PATH_IMAGE021
获取包含混合注意力的特征图公式为:
Figure 949958DEST_PATH_IMAGE022
其中
Figure 894781DEST_PATH_IMAGE023
表示Sigmoid激活函数,
Figure 247265DEST_PATH_IMAGE024
代表广播机制,
Figure 252130DEST_PATH_IMAGE025
代表逐元素相乘。
6.根据权利要求1所述的基于多粒度注意力的多尺度细粒度图像识别方法,其特征在于,步骤3中,并行多尺度卷积模块包括若干层级,分别对应基于注意力的多粒度结构中的不同阶段,每个层级包含不同尺度和不同深度的卷积核,具体公式如下:
Figure 690064DEST_PATH_IMAGE026
其中
Figure 175928DEST_PATH_IMAGE027
表示第k阶段经过并行多尺度卷积模块得到的特征图,mconv表示多尺度卷积,包含不同尺度和不同深度的卷积核,pconv表示1×1大小的卷积核,β表示批归一化,γ表示修正线性单元。
7.根据权利要求1所述的基于多粒度注意力的多尺度细粒度图像识别方法,其特征在于,步骤4,首先将不同阶段的特征图采用最大池化层将每个阶段的特征图压缩为特征向量,并将不同阶段的特征向量融合在一起;然后将不同阶段的特征向量以及融合后的特征向量与真实标签计算损失,公式如下:
Figure 648498DEST_PATH_IMAGE028
Figure 761947DEST_PATH_IMAGE029
其中,z s 表示第S阶段的预测标签向量,z表示真实标签向量,z fuse 表示各个阶段融合后的预测标签向量;
Figure 749495DEST_PATH_IMAGE030
表示第S阶段在第i个类别的预测标签向量,
Figure 973803DEST_PATH_IMAGE031
表示各个阶段融合后在第i个类别的预测标签向量,i表示当前是第i个类别,m表示类别的总数;
Figure 35299DEST_PATH_IMAGE032
表示第S阶段的损失,
Figure 381967DEST_PATH_IMAGE033
表示各个阶段融合后的损失。
8.基于多粒度注意力的多尺度细粒度图像识别系统,其特征在于,包括基于注意力的多粒度结构、多粒度注意力模块、并行多尺度卷积模块、特征融合模块、分类器,所述的基于注意力的多粒度结构,将特征提取网络分为若干个阶段,提取不同阶段中不同粒度图像的原始特征图;所述的多粒度注意力模块用于将每个阶段不同粒度的原始特征图及其经过卷积块得到感受野增大的特征图进行融合,然后分别从通道和空间两个域上生成注意力权重,并将空间注意力权重和通道注意力权重融合成混合注意力权重,将混合注意力权重与原始特征图和感受野增大的特征图进行加权融合,捕获不同阶段不同粒度的关键区域;所述的并行多尺度卷积模块,该模块分为若干层级,分别对应基于注意力的多粒度结构的各个阶段,每个层级包含不同大小和不同深度的卷积核,使用不同大小和不同深度的卷积核并行处理输入特征映射,提取多尺度多粒度特征;所述的特征融合模块,将并行多尺度卷积模块输出的不同阶段的特征图进行特征融合,保证了不同阶段捕获的特征图以协同的方式融合在一起;所述的分类器,用于输出分类结果。
CN202210034322.2A 2022-01-13 2022-01-13 基于多粒度注意力的多尺度细粒度图像识别方法及系统 Active CN114067107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210034322.2A CN114067107B (zh) 2022-01-13 2022-01-13 基于多粒度注意力的多尺度细粒度图像识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210034322.2A CN114067107B (zh) 2022-01-13 2022-01-13 基于多粒度注意力的多尺度细粒度图像识别方法及系统

Publications (2)

Publication Number Publication Date
CN114067107A true CN114067107A (zh) 2022-02-18
CN114067107B CN114067107B (zh) 2022-04-29

Family

ID=80230838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210034322.2A Active CN114067107B (zh) 2022-01-13 2022-01-13 基于多粒度注意力的多尺度细粒度图像识别方法及系统

Country Status (1)

Country Link
CN (1) CN114067107B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115205614A (zh) * 2022-05-20 2022-10-18 钟家兴 一种用于智能制造的矿石x光图像识别方法
CN115222998A (zh) * 2022-09-15 2022-10-21 杭州电子科技大学 一种图像分类方法
CN115272776A (zh) * 2022-09-26 2022-11-01 山东锋士信息技术有限公司 基于双路卷积与双注意的高光谱图像分类方法及存储介质
CN115393779A (zh) * 2022-10-31 2022-11-25 济宁九德半导体科技有限公司 用于激光熔覆金属球制造的控制系统及其控制方法
CN115457308A (zh) * 2022-08-18 2022-12-09 苏州浪潮智能科技有限公司 细粒度图像识别方法、装置和计算机设备
CN115511968A (zh) * 2022-11-21 2022-12-23 珠海亿智电子科技有限公司 一种二维手部姿态估计方法、装置、设备及存储介质
CN116563615A (zh) * 2023-04-21 2023-08-08 南京讯思雅信息科技有限公司 基于改进多尺度注意力机制的不良图片分类方法
CN117095694A (zh) * 2023-10-18 2023-11-21 中国科学技术大学 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN117173422A (zh) * 2023-08-07 2023-12-05 广东第二师范学院 基于图融合多尺度特征学习的细粒度图像识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529878A (zh) * 2020-12-15 2021-03-19 西安交通大学 一种基于多视图半监督的淋巴结的分类方法、系统及设备
CN112733912A (zh) * 2020-12-31 2021-04-30 华侨大学 基于多粒度对抗损失的细粒度图像识别方法
CN112927209A (zh) * 2021-03-05 2021-06-08 重庆邮电大学 一种基于cnn的显著性检测系统和方法
US20210232813A1 (en) * 2020-01-23 2021-07-29 Tongji University Person re-identification method combining reverse attention and multi-scale deep supervision
CN113688894A (zh) * 2021-08-19 2021-11-23 匀熵科技(无锡)有限公司 一种融合多粒度特征的细粒度图像分类方法
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210232813A1 (en) * 2020-01-23 2021-07-29 Tongji University Person re-identification method combining reverse attention and multi-scale deep supervision
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN112529878A (zh) * 2020-12-15 2021-03-19 西安交通大学 一种基于多视图半监督的淋巴结的分类方法、系统及设备
CN112733912A (zh) * 2020-12-31 2021-04-30 华侨大学 基于多粒度对抗损失的细粒度图像识别方法
CN112927209A (zh) * 2021-03-05 2021-06-08 重庆邮电大学 一种基于cnn的显著性检测系统和方法
CN113688894A (zh) * 2021-08-19 2021-11-23 匀熵科技(无锡)有限公司 一种融合多粒度特征的细粒度图像分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CUIPING SHI 等: "A Lightweight Convolutional Neural Network Based on Group-Wise Hybrid Attention for Remote Sensing Scene Classification", 《REMOTE SENSING》 *
WENFENG ZHANG 等: "Adaptive Attention-Aware Network for unsupervised person re-identification", 《ELSEVIER》 *
袁韶祖等: "基于多粒度视频信息和注意力机制的视频场景识别", 《计算机系统应用》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115205614A (zh) * 2022-05-20 2022-10-18 钟家兴 一种用于智能制造的矿石x光图像识别方法
CN115205614B (zh) * 2022-05-20 2023-12-22 深圳市沃锐图像技术有限公司 一种用于智能制造的矿石x光图像识别方法
CN115457308A (zh) * 2022-08-18 2022-12-09 苏州浪潮智能科技有限公司 细粒度图像识别方法、装置和计算机设备
CN115457308B (zh) * 2022-08-18 2024-03-12 苏州浪潮智能科技有限公司 细粒度图像识别方法、装置和计算机设备
CN115222998A (zh) * 2022-09-15 2022-10-21 杭州电子科技大学 一种图像分类方法
CN115222998B (zh) * 2022-09-15 2023-01-03 杭州电子科技大学 一种图像分类方法
CN115272776B (zh) * 2022-09-26 2023-01-20 山东锋士信息技术有限公司 基于双路卷积与双注意的高光谱图像分类方法及存储介质
CN115272776A (zh) * 2022-09-26 2022-11-01 山东锋士信息技术有限公司 基于双路卷积与双注意的高光谱图像分类方法及存储介质
CN115393779A (zh) * 2022-10-31 2022-11-25 济宁九德半导体科技有限公司 用于激光熔覆金属球制造的控制系统及其控制方法
CN115511968A (zh) * 2022-11-21 2022-12-23 珠海亿智电子科技有限公司 一种二维手部姿态估计方法、装置、设备及存储介质
CN116563615A (zh) * 2023-04-21 2023-08-08 南京讯思雅信息科技有限公司 基于改进多尺度注意力机制的不良图片分类方法
CN116563615B (zh) * 2023-04-21 2023-11-07 南京讯思雅信息科技有限公司 基于改进多尺度注意力机制的不良图片分类方法
CN117173422A (zh) * 2023-08-07 2023-12-05 广东第二师范学院 基于图融合多尺度特征学习的细粒度图像识别方法
CN117173422B (zh) * 2023-08-07 2024-02-13 广东第二师范学院 基于图融合多尺度特征学习的细粒度图像识别方法
CN117095694A (zh) * 2023-10-18 2023-11-21 中国科学技术大学 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN117095694B (zh) * 2023-10-18 2024-02-23 中国科学技术大学 一种基于标签层级结构属性关系的鸟类鸣声识别方法

Also Published As

Publication number Publication date
CN114067107B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN114067107B (zh) 基于多粒度注意力的多尺度细粒度图像识别方法及系统
CN112163634B (zh) 实例分割模型样本筛选方法、装置、计算机设备及介质
CN109086722B (zh) 混合车牌识别方法、装置、电子设备
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN109740686A (zh) 一种基于区域池化和特征融合的深度学习图像多标记分类方法
CN114067119B (zh) 全景分割模型的训练方法、全景分割方法及装置
CN113096096B (zh) 一种融合形态特征的显微图像骨髓细胞计数方法与系统
CN110728295B (zh) 半监督式的地貌分类模型训练和地貌图构建方法
CN112418351B (zh) 基于全局与局部上下文感知的零样本学习图像分类方法
CN111274981B (zh) 目标检测网络构建方法及装置、目标检测方法
CN113516116B (zh) 一种适用于复杂自然场景的文本检测方法、系统和介质
Sharma et al. A survey on object instance segmentation
Xiong et al. Diagnose like a pathologist: Transformer-enabled hierarchical attention-guided multiple instance learning for whole slide image classification
CN112561926A (zh) 三维图像分割方法、系统、存储介质及电子设备
Lu et al. Multi-scale feature progressive fusion network for remote sensing image change detection
Guo et al. Multi-view feature learning for VHR remote sensing image classification
Ouf Leguminous seeds detection based on convolutional neural networks: Comparison of faster R-CNN and YOLOv4 on a small custom dataset
Ao et al. Few-shot semantic segmentation via mask aggregation
Lima et al. Automatic design of deep neural networks applied to image segmentation problems
CN109308493B (zh) 一种基于堆叠神经网络的递进式图像解析方法
CN114299342B (zh) 一种基于深度学习的多标记图片分类中未知标记分类方法
CN115422695A (zh) 一种交叉口转向控制标注方法、电子设备及存储介质
CN114913382A (zh) 一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法
CN115357220A (zh) 一种面向工业app开发的群智化需求获取方法
Yu et al. Bag of Tricks and a Strong Baseline for FGVC.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant