CN113642571A - 一种基于显著性注意力机制的细粒度图像识别方法 - Google Patents

一种基于显著性注意力机制的细粒度图像识别方法 Download PDF

Info

Publication number
CN113642571A
CN113642571A CN202110786521.4A CN202110786521A CN113642571A CN 113642571 A CN113642571 A CN 113642571A CN 202110786521 A CN202110786521 A CN 202110786521A CN 113642571 A CN113642571 A CN 113642571A
Authority
CN
China
Prior art keywords
feature
attention
saliency
fine
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110786521.4A
Other languages
English (en)
Other versions
CN113642571B (zh
Inventor
黄磊
刘超
魏志强
李晓静
秦琦冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202110786521.4A priority Critical patent/CN113642571B/zh
Publication of CN113642571A publication Critical patent/CN113642571A/zh
Application granted granted Critical
Publication of CN113642571B publication Critical patent/CN113642571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于显著性注意力机制的细粒度图像识别方法,包括:首先提取特征,通过显著性注意力机制模块对所有通道中的每张特征图处理获得显著性图;获得的显著性信息生成并学习注意力权重,并将注意力权重融合进原始特征图中,得到融合注意力权重的特征图,进行显著性注意力特征加强;然后将加强了显著性信息的特征图组通过自顶向下的方式构建不同尺度的包含丰富语义和显著性信息的特征图组;并利用该特征图组完成细粒度类别映射,通过类别损失和排序损失两种损失函数约束网络参数优化过程。通过本发明解决细粒度图像中关键区域的定位和相应特征难提取问题。

Description

一种基于显著性注意力机制的细粒度图像识别方法
技术领域
本发明属于计算机视觉技术领域,涉及深度学习、细粒度图像识别技术,具 体涉及一种基于显著性注意力机制的细粒度图像识别方法。
背景技术
细粒度图像识别又被称作子类别图像识别,其与传统图像识别不同的是旨在 区分同属一个类的不同子类。而不同子类之间往往过于相似,同时由于存在着姿 态、光照、遮挡、背景等干扰因素,可能具有相似的外观和形状,细粒度图像间 呈类间差异小、类内差异大的特点。鉴于现实中对图像识别精度的高要求,细粒 度图像识别成为计算机视觉的重要研究方向。
细粒度图像识别方法需要重点关注两个问题:(1)定位细粒度图像中具有 区分性的关键区域,上文中提到细粒度图像间往往具有相似的几何形状和外观, 研究发现:这些具有区分性的区域大多存在于目标物体特定的局部区域且尺寸较 小,并且这些具有区分性的局部区域不易因目标物体的姿势、摄像机视角的变化 而发生较大变化,所以定位到区分性区域可以较为容易的区分目标物体类别。(2) 从关键区域中进行有效的特征提取与表示,将具有区分性的关键区域从图像中检 测出来后,还要进行有效的细粒度特征提取,将相同类别的特征表示映射的同一 个语义空间中,使得相同类别通过细粒度图像识别方法可以得到相同的类别输 出。
目前,细粒度识别的研究方法在网络结构设计上主要由三大类组成:基于网 络的集成方法,基于部位检测的方法,基于注意力机制(attention mechanism) 的方法。基于注意力机制的细粒度图像识别此类方法与一般方法的不同是:在特 征提取网络中,有一个注意力机制分支网络用于学习注意力权重,以此来加强对 于识别任务更有利的细粒度特征,如图1所示,对输入图像进行常规的特征提取 后,将原始特征图输入到注意力模块中,经过注意力模块学习特征图注意力特征, 后将注意力特征融合进原始特征图中进行关键特征加强。目前计算机视觉任务上 大多使用基于深度学习的软性注意力(soft attention)机制,此注意力机制的形 式采用卷积神经网络为基础进行设计,并利用随机梯度下降更新、优化注意力权 重。
基于注意力机制的细粒度图像识别方法,在获取注意力权重时,其形式上大 多都是简单的将特征图(feature map)直接输入到注意力模块中,通过大规模的 常规卷积操作根据具体任务要求自适应学习图像特征,没有对原始特征图 (original feature map)进行预处理。这种常见的注意力机制应用在部位定位网络 模块的方法虽然取得了一些效果,但仍有几个关键问题。具体而言,1)注意模 块的输入是未经过预处理的原始特征图,原始特征图中包含许多视觉信息,如纹 理、颜色得显著性信息,复杂的注意图只能通过大规模卷积或全连接运算来学习; 只使用标签来约束网络参数,没有对某些视觉特征进行定向采集,浪费了传统的 视觉显著性特征;2)对于图像部位级(part-level)的区域,所包含关键特征信 息的区域通常会呈现为聚集状态,对于按点对点学习的注意力权重,难以体现注意力有区分性的关注不同区域的优势。
发明内容
针对现有技术存在的不足,本发明提供一种基于显著性注意力机制的细粒度 图像识别方法,从以下两个方面进行改进,(1)针对细粒度图像中关键区域难 以定位的问题:先获取不同尺寸原始特征图中的显著性信息,并利用该显著性信 息生成注意力权重,将该包含显著性信息的注意力权重融合进不同尺寸的原始特 征图中,构建一组包含高语义、多尺度、显著性信息的特征图组。(2)针对细 粒度图像关键区域特征难以提取与表示的问题:本发明提出了利用多个不同尺寸 的特征图共同参与网络参数计算的多特征图损失;还利用的排序损失,保证了下 层特征图较上层特征图对识别任务更加有利,保证了自顶向下构建特征图像金字 塔的过程是一个特征逐渐求优的过程,提升整个网络模型的性能。
为了解决上述技术问题,本发明采用的技术方案是:
一种基于显著性注意力机制的细粒度图像识别方法,包括:
步骤一:特征提取,得到三维原始特征图;
步骤二:通过显著性注意力机制模块对所有通道中的每张特征图处理获得显 著性图:每个通道内按照横纵两个方向取像素元素最大值得到两个一维的最大值 矩阵列,获取特征图中水平方向的显著性特征信息和竖直方向的显著性特征信 息,确定每个通道内的显著性信息,进而确定各通道特征图中具有区分性的区域;
步骤三:将步骤二获得的显著性信息生成并学习注意力权重,并将注意力权 重融合进原始特征图中,得到融合注意力权重的特征图,进行显著性注意力特征 加强;
步骤四:将加强了显著性信息的特征图组通过自顶向下的方式构建不同尺度 的包含丰富语义和显著性信息的特征图组;
步骤五:利用前面步骤所得到的特征图组完成细粒度类别映射,通过类别损 失和排序损失两种损失函数约束网络参数优化过程;
步骤六:训练模型渐渐收敛,保存实验准确率最高的网络模型。
进一步的,通过步骤一得到的三维特征图X,X∈C×W×H,用符号M表 示,步骤二中,注意力机制模块获得显著性图的具体步骤如下:
1)对于所有通道中的每张特征图,按行取其像素元素水平方向最大值,使最大 值拼接成一维矩阵,即每张特征图Mi中得到维数是1×H的一维矩阵,所有通道 累计得到了C×1个维数是1×H的矩阵,获得最大值矩阵列
Figure BDA0003159059830000031
2)对于所有通道中的每张特征图,按列取其像素元素竖直方向最大值,使最大 值拼接成一维矩阵,即每张特征图Mi中可以得到了维数是W×1的一维矩阵,所 有通道累计得到了C×1个维数是W×1的矩阵,获得最大值矩阵列
Figure BDA0003159059830000032
具体获取每张特征图的两种一维矩阵公式为:
Figure BDA0003159059830000033
Figure BDA0003159059830000034
其中用x′表示进行了特征提取后的像素值,x″表示最大值筛选后的一维矩 阵;具体得到两组最大值矩阵列公式为:
Figure BDA0003159059830000035
Figure BDA0003159059830000036
其中
Figure BDA0003159059830000037
表示纵向取值的最大值矩阵列,
Figure BDA0003159059830000038
表示横向取值的最大值矩阵 列。
进一步的,步骤三中,学习注意力权重前,首先进行维度变换使得注意力权 重和原始特征图维度一致,具体是:将步骤二获得的两组最大值矩阵列中的对应 维度的一维矩阵使用矩阵乘法相乘,得到一个与原始特征图相同空间维度的矩阵 组,
矩阵乘法具体公式:
Figure BDA0003159059830000041
其中A为初始注意力图并在维数上与原始特征图保持一致,在每个瓶颈块的 最后输出特征上计算特征图的显著性信息,因此共有N个注意力图;FAC(·)表 示非对称卷积。
更进一步的,将非对称卷积引入到注意力机制中,利用非对称卷积加强显著 性注意力权重,具体的:使用3×3、1×3、3×1这三种不同的卷积核在同一 个卷积滑动窗口下对初始的注意力图进行卷积操作,1)先对特征图进行3×3的 卷积操作,2)对同一个滑动窗口,使用1×3卷积只对滑动窗口中的横向骨架进 行卷积操作,3)对同一个滑动窗口使用3×1卷积只对滑动窗口中的纵向骨架进 行卷积操作。
进一步的,步骤四中,将步骤三得到的注意力图和不同尺度的特征图进行特 征融合构建一组包含高语义、多尺度、显著性信息的特征图组,具体的,利用点 乘将Aa和Xa对应元素相乘,激活原始特征图Xa的显著性信息,具体公式如下:
Ca=Aa·Xa,a=2,3,...,N.
其中,Ca表示特征图像金字塔网络自下而上前馈得到的不同尺度的特征图。
进一步的,由于将显著性信息融合进不同尺度的特征图后,其表现出的对特 征图中关键的区分性区域是不同的,因此步骤五中,为了增加每张图像中关键区 域的样本数量,同时考虑不同尺度的特征图对网络分类的影响,通过类别损失损 失函数优化网络与真值类的映射关系,建立以不同尺度区域为输入的分类网络; 通过将不同尺度的特征图分别进行空间维度进行压缩,得到一维的特征向量,最 后将特征向量输入到全连接层,映射到数据集包含的类别中,得到与真值类的交 叉熵损失,公式如下:
Figure BDA0003159059830000042
Wc表示全连接操作,θ(·)表示一个全局池化的操作达到空间压缩特征图的 作用,Pa表示特征图中最具有区分性的判别区域部位。
进一步的,在自顶向下构建金字塔网络过程中,通过排序损失约束下层特征 图,使得相较上层特征图包含更多的语义信息和精细的细粒度特征信息,排序损 失公式如下:
Figure BDA0003159059830000051
其中,Pa表示Pa特征图通过softmax函数预测的类别概率,constant是大于 零、可调节的超参数,通过排序损失的约束,使得当下层特征的分类概率大于上 层特征分类概率时,网络才不会更新参数,否则整个网络会向着下层特征图更有 利于识别类别的方向更新参数;
总损失函数为:
Ltotal=αLP+βLrank,
其中α和β作为超参数。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算 机程序被处理器执行时实现如前所述的基于显著性注意力机制的细粒度图像识 别方法。
与现有技术相比,本发明优点在于:
(1)针对细粒度图像中关键区域难以定位的问题:细粒度图像识别过程中 需要定位关键区分性区域来有效区分所属类别;并且由于关键区分性区域的尺寸 通常较小,从而导致了这种具有区分性的关键区域难以定位。本专利方法利用原 始特征图的显著性信息生成注意力,为了实现定向学习图像中显著性特征,在对 图像进行特征提取后,本方法预先获取特征图中显著性信息,并利用非对称卷积 加强显著信息,将包含显著性信息的注意力权重与特征图像金字塔网络(Feature Pyramid Networks,FPN)相结合,构建一组具有高语义、多尺度、显著性信息 的特征图组。
具体的,首先利用特征图横、纵两个方向上的显著性信息生成显著性注意力 权重;其次,将显著性注意力权重融合到特征图像金字塔网络中不同尺度的特征 图中,针对不同尺度特征图中的关键区域进行显著性特征加强。通过这种设计形 式可以有效利用注意力网络进行特征图显著性信息定向学习。
(2)针对细粒度图像关键区域特征难以提取与表示的问题:本发明提出了 利用多个尺寸的特征图共同参与网络参数计算的多特征图损失。
首先,在该显著性注意力特征图上通过卷积操作增强显著性注意力特征,其 次,将该特征图组中多个不同尺寸的特征图压缩成一维特征向量,并与类别标签 通过交叉熵损失函数计算损失值,最后,通过梯度下降更新网络参数。
同时,本专利还利用的排序损失,保证了下层特征图较上层特征图对识别任 务更加有利,保证了自顶向下构建特征图像金字塔的过程是一个特征逐渐求优的 过程,提升整个网络模型的性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要 使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些 实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。
图1为现有技术的注意力网络流程图;
图2为本发明的特征图显著性信息获取步骤图;
图3为本发明显著性信息生成初始注意力特征步骤图;
图4本发明非对称卷积结构示意图;
图5为本发明显著性注意力网络结构图.
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
一种基于显著性注意力机制的细粒度图像识别方法,包括:
步骤一:特征提取
设输入图像为x,首先把图像x输入到特征提取网络,获取到三维的原始特 征图X,获取特征的网络可以是VGGNet、ResNet等,这里拟采用下采样效果 更明显的ResNet作为主干网络进行特征提取。用F(·)代表一系列的卷积操作。 设整个特征提取网络共有N个瓶颈块(Bottleneck block),每个Bottleneck block 中包含不同尺寸、数量、步长的卷积核,通过堆叠这些Bottleneck block构建整 个特征提取网络,这里设第a个Bottleneck block的输出的特征为:
Xa=Fa(x),a=1,2,3,...,N.
步骤二:设计显著性注意力机制模块
本发明通过显著性注意力机制模块对所有通道中的每张特征图处理获得显 著性图:每个通道内按照横纵两个方向取像素元素最大值得到两个一维的最大值 矩阵列,获取特征图中水平方向的显著性特征信息和竖直方向的显著性特征信 息,确定每个通道内的显著性信息,进而确定每张特征图中具有区分性的区域。
通过步骤一得到的三维特征图X(X∈C×W×H),用符号M表示,通过 设计注意力机制模块,有效获得对应于特征图的显著性。由注意力机制模块获得 显著性图的具体步骤如下:
1)对于所有通道中的每张特征图,按行取其像素元素水平(W)方向最大 值,使这些最大值拼接成一维矩阵,即每张特征图Mi(1≤i≤C)中得到维数是 1×H的一维矩阵,所有通道累计得到了C×1个维数是1×H的矩阵,获得最大值 矩阵列
Figure BDA0003159059830000071
具体操作如图2所示。这一步的作用是为了获取特征图中水平方 向的显著性特征信息。
2)对于所有通道中的每张特征图,按列取其像素元素竖直(H)方向最 大值,使这些最大值拼接成一维矩阵,每张特征图中可以得到了一个一维矩阵, 即每张特征图Mi(1≤i≤C)中可以得到了维数是W×1的一维矩阵,所有通道 累计得到了C×1个维数是W×1的矩阵,获得最大值矩阵列
Figure BDA0003159059830000072
具体操作如图 2所示。这一步的作用是为了获取特征图中竖直方向的显著性特征信息确定特征 图中具有区分性的区域。
每一个通道内,按照其横纵两个方向取值得到的两个矩阵维数分别是1×H、 W×1,因为每个通道内所关注的图像内的区域是不完全相同的,通过本步骤可 以同时获取多个通道中的更多的显著性信息。
具体获取每张特征图的两种一维矩阵公式为:
Figure BDA0003159059830000073
Figure BDA0003159059830000081
其中用x′表示进行了特征提取后的像素值,x″表示最大值筛选后的一维矩 阵;具体得到两组最大值矩阵列公式为:
Figure BDA0003159059830000082
Figure BDA0003159059830000083
其中
Figure BDA0003159059830000084
表示纵向取值的最大值矩阵列,
Figure BDA0003159059830000085
表示横向取值的最大值矩阵 列。
步骤三:融合注意力权重
经过步骤二,初步得到了原始特征图中的显著性信息,现需要利用该显著性 信息生成并学习注意力权重,并将该包含显著性信息的注意力权重融合进不同尺 寸的原始特征图中,得到融合注意力权重的特征图,进行显著性注意力特征加强。 其中,筛选出的显著性信息相当于一种注意力模块的初始化,为下一步注意力权 重的学习提供依据,以一种定向加强的方式对不同尺寸特征图中的显著性特征进 行加强。
但是现有的包含显著性信息的最大值矩阵列与原始特征图维度不同,因此学 习注意力权重前,需要进行维度变换使得注意力权重和原始特征图维度一致,具 体是:将步骤二获得的两组最大值矩阵列中的对应维度的一维矩阵使用矩阵乘法 相乘,得到一个与原始特征图相同空间维度的矩阵组,如图3所示,两个包含了 原始特征图显著性信息的一维最大值特征矩阵进行矩阵乘法,图3中H为:特 征图高度,W;特征图宽度,C:特征图通道数。
矩阵乘法具体公式:
Figure BDA0003159059830000086
其中A为初始注意力图(attention map)并在维数上与原始特征图保持一致, 在每个瓶颈块的最后输出特征上计算特征图的显著性信息,因此共有N个注意 力图;FAC(·)表示非对称卷积。
需要说明的是,本发明将非对称卷积引入到注意力机制中,利用非对称卷积 加强显著性注意力权重,具体的:使用3×3、1×3、3×1这三种不同的卷积 核在同一个卷积滑动窗口(sliding windows)下对初始的注意力图进行卷积操作, 如图4所示,1)先对特征图进行3×3的卷积操作,2)对同一个滑动窗口,使 用1×3卷积只对滑动窗口中的横向骨架进行卷积操作,3)对同一个滑动窗口使 用3×1卷积只对滑动窗口中的纵向骨架进行卷积操作。
以3×1、1×3卷积核为卷积骨干,有效的加强骨架上的权重,抑制角落上 的权重。使用上述卷积核配置,可以稳固并加强得到的矩阵A中显著性特征信 息,最终得到的注意力权重。此时得到的注意力图是将要输入到注意力模块中的 注意力图,在取原始特征图横、纵两个方向最大值相当于获取了原始特征图中的 一些显著性信息,在进行矩阵乘法后,对于获取到的显著性信息,二次加强了这 种显著性特征信息在全局特征中的作用,由原来一维链状信息扩展到了二维的空 间信息,其信息量更加丰富。该注意力图中最大值所在区域不发生变换,并会把 原最大值所在的位置与其横纵两个方向的元素值进行加强,由于特征图中局部最 大值不易受目标物体姿势、光照等因素的影响,增强了网络定位关键区域的能力。
步骤四:构建特征图像金字塔网络
将加强了显著性信息的特征图组通过自顶向下的方式构建不同尺度的包含 丰富语义和显著性信息的特征图组;并利用自顶向下和横向连接操作完成特征图 像金字塔网络的搭建。
本实施例以三个不同尺度(X2,X3,X4)的特征图为例构建特征图像金字塔 网络,将步骤三得到的注意力图和不同尺度的特征图进行特征融合构建一组包含 高语义、多尺度、显著性信息的特征图组。具体的,利用点乘将Aa和Xa对应 元素相乘,激活原始特征图Xa的显著性信息,具体公式如下:
Ca=Aa·Xa,a=2,3,4.
其中,Ca表示特征图像金字塔网络自下而上前馈得到的不同尺度的特征图。
步骤五:细粒度类别映射
通过上述步骤的操作获得包含特征图显著性特征信息的注意力权重,将该注 意力权重融合进原始特征图中,得到融合注意力权重的特征图,加强原始特征图 的细粒度特征信息,并利用该特征图建立了特征图像金字塔网络,如图5所示。 接下来是通过利用所得到的特征图组完成细粒度类别映射。
接下来是利用前面步骤所得到的特征图组完成细粒度类别映射,通过类别损 失和排序损失两种损失函数约束网络参数优化过程。具体的:
关于类别损失:
由于将显著性信息融合进不同尺度的特征图后,其表现出的对特征图中关键 的区分性区域是不同的,因此步骤五中,为了增加每张图像中关键区域的样本数 量,同时考虑不同尺度(P2,P3,P4)的特征图对网络分类的影响,通过类别损 失损失函数优化网络与真值类的映射关系,建立以不同尺度区域为输入的分类网 络。通过将P2,P3,P4分别进行空间维度进行压缩,得到一维的特征向量。最后 将特征向量输入到全连接层,映射到数据集包含的类别中,得到与真值类的交叉 熵损失,类别损失公式如下:
Figure BDA0003159059830000101
Wc表示全连接操作,θ(·)表示一个全局池化的操作达到空间压缩特征图的 作用,Pa表示特征图中最具有区分性的判别区域部位。
关于排序损失:
在自顶向下、横向连接的构建高语义、多尺度、显著性特征图组时,借助特 征图像金字塔网络的优势和显著性注意力模块的作用,一些高纬度语义信息和特 征图显著性信息以及一些高分辨率的特征信息被融合进更大尺寸的特征图中,即 在自顶向下构建金字塔网络过程中,将高层语义信息和显著性特融入到最后的P2中,为了真实的达到对分类有效的结构,本发明设计了排序损失约束下层特征图 P2,使得P2相较上层特征图包含更多的语义信息和精细的细粒度特征信息。排 序损失公式如下:
Figure BDA0003159059830000102
其中,Pa表示Pa特征图通过softmax函数预测的类别概率,constant是大于 零、可调节的超参数,通过排序损失的约束,使得当下层特征的分类概率大于上 层特征分类概率时,网络才不会更新参数,否则整个网络会向着下层特征图更有 利于识别类别的方向更新参数。
总损失函数为:
Ltotal=αLP+βLrank,
其中α和β作为超参数。
步骤六:训练模型渐渐收敛,保存实验准确率最高的网络模型。
作为本发明的另一实施例,提供一种计算机可读存储介质,其上存储有计算 机程序,所述计算机程序被处理器执行时实现如前所述的基于显著性注意力机制 的细粒度图像识别方法。具体实现方式如前所述,此处不再赘述。
综上所述,本发明先获取不同尺寸原始特征图中的显著性信息,并利用该显 著性信息生成注意力权重,将该包含显著性信息的注意力权重融合进不同尺寸的 原始特征图中,构建一组包含高语义、多尺度、显著性信息的特征图组。其中, 筛选出的显著性信息相当于一种注意力模块的初始化,为下一步注意力权重的学 习提供依据,以一种定向加强的方式对不同尺寸特征图中的显著性特征进行加 强。通过这种设计形式可以有效利用注意力网络进行特征图的显著性信息定向学 习。
本专利的方法同时考虑多个尺寸的特征图对识别任务的影响,将多个尺寸特 征图映射成类别并与真值类别标签相比计算损失,通过累加不同尺寸特征图对应 的损失值得到总的类别损失值。这样一张图片生成多个尺寸特征图共同参数计算 损失的过程达到了数据扩充的效果,使得网络模型更加健壮。同时,本专利的方 法利用排序损失,保证了下层特征图较上层特征图对识别任务更加有利,保证了 自顶向下构建特征图像金字塔的过程是一个特征逐渐求优的过程,提升整个网络 模型的性能。通过本发明解决细粒度图像中关键区域的定位和相应特征难提取问 题。
本发明的各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算 装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置 来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或 步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的 结合。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技 术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替 换,都应属于本发明的保护范围。

Claims (8)

1.一种基于显著性注意力机制的细粒度图像识别方法,其特征在于,包括:
步骤一:特征提取,得到三维原始特征图;
步骤二:通过显著性注意力机制模块对所有通道中的每张特征图处理获得显著性图:每个通道内按照横纵两个方向取像素元素最大值得到两个一维的最大值矩阵列,获取特征图中水平方向的显著性特征信息和竖直方向的显著性特征信息,确定每个通道内的显著性信息,进而确定各通道特征图中具有区分性的区域;
步骤三:将步骤二获得的显著性信息生成并学习注意力权重,并将注意力权重融合进不同尺寸的原始特征图中,得到融合注意力权重的特征图,进行显著性注意力特征加强;
步骤四:将加强了显著性信息的特征图组通过自顶向下的方式构建不同尺度的包含丰富语义和显著性信息的特征图组;
步骤五:利用前面步骤所得到的特征图组完成细粒度类别映射,通过类别损失和排序损失两种损失函数约束网络参数优化过程;
步骤六:训练模型渐渐收敛,保存实验准确率最高的网络模型。
2.根据权利要求1所述的基于显著性注意力机制的细粒度图像识别方法,其特征在于,通过步骤一得到的三维特征图X,X∈C×W×H,用符号M表示,步骤二中,注意力机制模块获得显著性图的具体步骤如下:
1)对于所有通道中的每张特征图,按行取其像素元素水平方向最大值,使最大值拼接成一维矩阵,即每张特征图Mi中得到维数是1×H的一维矩阵,所有通道累计得到了C×1个维数是1×H的矩阵,获得最大值矩阵列
Figure FDA0003159059820000011
2)对于所有通道中的每张特征图,按列取其像素元素竖直方向最大值,使最大值拼接成一维矩阵,即每张特征图Mi中可以得到了维数是W×1的一维矩阵,所有通道累计得到了C×1个维数是W×1的矩阵,获得最大值矩阵列
Figure FDA0003159059820000012
具体获取每张特征图的两种一维矩阵公式为:
Figure FDA0003159059820000013
Figure FDA0003159059820000014
其中用x′表示进行了特征提取后的像素值,x″表示最大值筛选后的一维矩阵;具体得到两组最大值矩阵列公式为:
Figure FDA0003159059820000021
Figure FDA0003159059820000022
其中
Figure FDA0003159059820000023
表示纵向取值的最大值矩阵列,
Figure FDA0003159059820000024
表示横向取值的最大值矩阵列。
3.根据权利要求1所述的基于显著性注意力机制的细粒度图像识别方法,其特征在于,步骤三中,学习注意力权重前,首先进行维度变换使得注意力权重和原始特征图维度一致,具体是:将步骤二获得的两组最大值矩阵列中的对应维度的一维矩阵使用矩阵乘法相乘,得到一个与原始特征图相同空间维度的矩阵组,
矩阵乘法具体公式:
Figure FDA0003159059820000025
其中A为初始注意力图并在维数上与原始特征图保持一致,在每个瓶颈块的最后输出特征上计算特征图的显著性信息,因此共有N个注意力图;FAC(·)表示非对称卷积。
4.根据权利要求3所述的基于显著性注意力机制的细粒度图像识别方法,其特征在于,将非对称卷积引入到注意力机制中,利用非对称卷积加强显著性注意力权重,具体的:使用3×3、1×3、3×1这三种不同的卷积核在同一个卷积滑动窗口下对初始的注意力图进行卷积操作,1)先对特征图进行3×3的卷积操作,2)对同一个滑动窗口,使用1×3卷积只对滑动窗口中的横向骨架进行卷积操作,3)对同一个滑动窗口使用3×1卷积只对滑动窗口中的纵向骨架进行卷积操作。
5.根据权利要求3所述的基于显著性注意力机制的细粒度图像识别方法,其特征在于,步骤四中,将步骤三得到的注意力图和不同尺度的特征图进行特征融合构建一组包含高语义、多尺度、显著性信息的特征图组,具体的,利用点乘将Aa和Xa对应元素相乘,激活原始特征图Xa的显著性信息,具体公式如下:
Ca=Aa·Xa,a=2,3,...,N.
其中,Ca表示特征图像金字塔网络自下而上前馈得到的不同尺度的特征图。
6.根据权利要求5所述的基于显著性注意力机制的细粒度图像识别方法,其特征在于,由于将显著性信息融合进不同尺度的特征图后,其表现出的对特征图中关键的区分性区域是不同的,因此步骤五中,为了增加每张图像中关键区域的样本数量,同时考虑不同尺度的特征图对网络分类的影响,通过类别损失损失函数优化网络与真值类的映射关系,建立以不同尺度区域为输入的分类网络;通过将不同尺度的特征图分别进行空间维度进行压缩,得到一维的特征向量,最后将特征向量输入到全连接层,映射到数据集包含的类别中,得到与真值类的交叉熵损失,公式如下:
Figure FDA0003159059820000031
Wc表示全连接操作,θ(·)表示一个全局池化的操作达到空间压缩特征图的作用,Pa表示特征图中最具有区分性的判别区域部位。
7.根据权利要求6所述的基于显著性注意力机制的细粒度图像识别方法,其特征在于,在自顶向下构建金字塔网络过程中,通过排序损失约束下层特征图,使得相较上层特征图包含更多的语义信息和精细的细粒度特征信息,排序损失公式如下:
Figure FDA0003159059820000032
其中,Pa表示Pa特征图通过softmax函数预测的类别概率,constant是大于零、可调节的超参数,通过排序损失的约束,使得当下层特征的分类概率大于上层特征分类概率时,网络才不会更新参数,否则整个网络会向着下层特征图更有利于识别类别的方向更新参数;
总损失函数为:
Ltotal=αLP+βLrank
其中α和β作为超参数。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一权利要求所述的基于显著性注意力机制的细粒度图像识别方法。
CN202110786521.4A 2021-07-12 2021-07-12 一种基于显著性注意力机制的细粒度图像识别方法 Active CN113642571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110786521.4A CN113642571B (zh) 2021-07-12 2021-07-12 一种基于显著性注意力机制的细粒度图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110786521.4A CN113642571B (zh) 2021-07-12 2021-07-12 一种基于显著性注意力机制的细粒度图像识别方法

Publications (2)

Publication Number Publication Date
CN113642571A true CN113642571A (zh) 2021-11-12
CN113642571B CN113642571B (zh) 2023-10-10

Family

ID=78417110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110786521.4A Active CN113642571B (zh) 2021-07-12 2021-07-12 一种基于显著性注意力机制的细粒度图像识别方法

Country Status (1)

Country Link
CN (1) CN113642571B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114005078A (zh) * 2021-12-31 2022-02-01 山东交通学院 一种基于双关系注意力机制的车辆重识别方法
CN115457308A (zh) * 2022-08-18 2022-12-09 苏州浪潮智能科技有限公司 细粒度图像识别方法、装置和计算机设备
CN116051948A (zh) * 2023-03-08 2023-05-02 中国海洋大学 基于注意力交互及反事实注意力的细粒度图像识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059582A (zh) * 2019-03-28 2019-07-26 东南大学 基于多尺度注意力卷积神经网络的驾驶员行为识别方法
CN111625675A (zh) * 2020-04-12 2020-09-04 南京理工大学 基于注意力机制下特征金字塔的深度哈希图像检索方法
CN111680698A (zh) * 2020-04-21 2020-09-18 北京三快在线科技有限公司 图像识别方法、装置及图像识别模型的训练方法、装置
CN112132004A (zh) * 2020-09-21 2020-12-25 南水北调中线信息科技有限公司 一种基于多视角特征融合的细粒度图像识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059582A (zh) * 2019-03-28 2019-07-26 东南大学 基于多尺度注意力卷积神经网络的驾驶员行为识别方法
CN111625675A (zh) * 2020-04-12 2020-09-04 南京理工大学 基于注意力机制下特征金字塔的深度哈希图像检索方法
CN111680698A (zh) * 2020-04-21 2020-09-18 北京三快在线科技有限公司 图像识别方法、装置及图像识别模型的训练方法、装置
CN112132004A (zh) * 2020-09-21 2020-12-25 南水北调中线信息科技有限公司 一种基于多视角特征融合的细粒度图像识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114005078A (zh) * 2021-12-31 2022-02-01 山东交通学院 一种基于双关系注意力机制的车辆重识别方法
CN115457308A (zh) * 2022-08-18 2022-12-09 苏州浪潮智能科技有限公司 细粒度图像识别方法、装置和计算机设备
CN115457308B (zh) * 2022-08-18 2024-03-12 苏州浪潮智能科技有限公司 细粒度图像识别方法、装置和计算机设备
CN116051948A (zh) * 2023-03-08 2023-05-02 中国海洋大学 基于注意力交互及反事实注意力的细粒度图像识别方法

Also Published As

Publication number Publication date
CN113642571B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN111191736B (zh) 基于深度特征交叉融合的高光谱图像分类方法
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
Yi et al. ASSD: Attentive single shot multibox detector
CN113642571A (zh) 一种基于显著性注意力机制的细粒度图像识别方法
RU2767162C2 (ru) Сверточная нейронная сеть на основе октодерева
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN109101981B (zh) 一种街景场景下基于全局图像条纹码的回环检测方法
CN111126459A (zh) 一种车辆细粒度识别的方法及装置
CN112347970A (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN113095152B (zh) 一种基于回归的车道线检测方法及系统
JP6656988B2 (ja) 画像処理装置、半導体装置、画像認識装置、移動体装置、及び画像処理方法
CN109919112B (zh) 一种复杂场景中流动人群的分布与计数检测的方法
CN112801183A (zh) 一种基于YOLO v3的多尺度目标检测方法
CN111401380A (zh) 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法
CN114049572A (zh) 识别小目标的检测方法
Jiang et al. Local and global structure for urban ALS point cloud semantic segmentation with ground-aware attention
Chen et al. Object detection of optical remote sensing image based on improved faster RCNN
CN115100652A (zh) 基于高分遥感图像的电子地图自动化生成方法
CN115496971A (zh) 一种红外目标检测方法、装置、电子设备及存储介质
CN111680183A (zh) 对象检索方法及装置、存储介质及电子设备
CN117011655A (zh) 基于自适应区域选择特征融合方法、目标跟踪方法及系统
CN116258953A (zh) 一种遥感影像目标检测方法
CN115424012A (zh) 一种基于上下文信息的轻量图像语义分割方法
CN116740721B (zh) 手指查句方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant