CN111985572A - 基于特征比较的通道注意力机制的细粒度图像识别方法 - Google Patents
基于特征比较的通道注意力机制的细粒度图像识别方法 Download PDFInfo
- Publication number
- CN111985572A CN111985572A CN202010877341.2A CN202010877341A CN111985572A CN 111985572 A CN111985572 A CN 111985572A CN 202010877341 A CN202010877341 A CN 202010877341A CN 111985572 A CN111985572 A CN 111985572A
- Authority
- CN
- China
- Prior art keywords
- feature
- basic
- feature vector
- module
- fine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000007246 mechanism Effects 0.000 title claims abstract description 57
- 239000013598 vector Substances 0.000 claims abstract description 147
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000013507 mapping Methods 0.000 claims abstract description 28
- 238000011176 pooling Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 59
- 238000000605 extraction Methods 0.000 claims description 46
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000013145 classification model Methods 0.000 abstract description 7
- 238000002372 labelling Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 description 33
- 230000004044 response Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 241000271566 Aves Species 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000003746 feather Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于深度学习、计算机视觉及细粒度图像分类领域,具体涉及了一种基于特征比较的通道注意力机制的细粒度图像识别方法、系统及装置,旨在解决在细粒度图像标注数据较少的情况下,常规模型的识别正确率较低、细粒度分类模型结构复杂的问题。本发明包括:提取样本的特征图并经过非线性映射和平均池化后得到基本特征向量;计算并更新类别平均特征向量,与样本基本特征向量比较;对比较结果进行编码;根据样本基本特征向量学习特征通道的基础注意力权重;融合编码结果和基础注意力权重并进行映射,得到最终注意力权重引导模型训练;将训练后的模型应用到细粒度图像识别中。本发明以简单有效的方式提升了常规分类器在细粒度任务中的分类准确性。
Description
技术领域
本发明属于深度学习、计算机视觉及细粒度图像分类领域,具体涉及了一种基于特征比较的通道注意力机制的细粒度图像识别方法、系统及装置。
背景技术
图像分类是计算机视觉中一个经典而重要的任务。近年来随着深度学习在计算机视觉中取得极大成功,图像分类任务取得了很大进展。在此基础上,越来越多的具体应用场景需要被特别研究。在一些场景下,相似物体之间的图像识别具有非常重要的应用价值。比如,在鸟类研究中,识别出鸟的种类往往是研究的第一步。如果能够准确且自动识别出具有相似外表但不同种类的鸟,则能够减少学者在鸟类识别上的精力投入,进而极大地方便后续研究。类似的细粒度图像识别还包括车辆识别、飞行器识别、花的识别和狗的识别等。
细粒度图像识别对象的特点决定了该任务具有很大的挑战。由于其识别对象原则上属于同一大类下的不同子类,因此它们之间的差别非常细微,即具有较小的类间差;又由于物体形态本身的多样性,如鸟类的飞行、站立、划水等,以及拍摄场景的多样性,如拍摄天气、光照、角度、焦距等,即便属于同一子类的样本之间也具有很大的差别,即具有较大的类内差。较大的类内差和较小的类间差构成细粒度图像识别的基本挑战。在此基础上,由于细粒度图像的研究范围通常为一个大类下的许多子类,其标注往往需要借助专业人员的专业知识,这无形中增加了图像数据的标注成本,也导致细粒度图像分类任务中每个类别的图片数量都非常有限。因此,如何充分利用有限的标注信息,使模型高效地学习到不同子类的根本特征,是我们克服该领域挑战的一个重要思路。与此同时,常规分类模型在细粒度识别上正确率较低,而很多细粒度分类方法或模型普遍而言较为复杂,导致其计算量大、需要大量调参、可解释性较差,增加了它们在实际应用中的约束,继而增加了落地难度。
总的来说,在数据层面,细粒度图像样本具有较大的类内差和较小的类间差,这一特点使得这个任务需要大量的标注样本。然而在较为高昂的标注成本下通常只能获得较少的标注样本,这就对细粒度图像分类任务提出了巨大的挑战。在模型方法层面,常规分类模型的识别正确率较低,而已有的细粒度分类方案普遍较为复杂,增加了它们的实施难度、约束了它们的应用范围。
发明内容
为了解决现有技术中的上述问题,即在细粒度图像标注数据较少的情况下,常规模型的识别正确率较低、细粒度分类模型结构复杂的问题,本发明提供了一种基于特征比较的通道注意力机制的细粒度图像识别方法,该细粒度图像识别方法包括:
步骤S10,通过训练好的特征提取网络提取待识别细粒度图像的特征图;所述特征提取网络基于深度卷积神经网络构建;
步骤S20,对所述特征图进行非线性映射,并对每个特征通道的特征进行平均池化,获得基本特征向量xi;其中,i=1,2,…,d为特征通道的标记,d为特征向量的维度;
步骤S30,将所述基本特征向量xi输入训练好的分类器,获取待识别细粒度图像的分类结果。
在一些优选的实施例中,所述特征提取网络和所述分类器,其训练中引入基于特征比较的通道注意力机制(FCCA,Feature Comparison based Channel Attention),其训练方法为:
步骤A10,通过特征提取网络提取设定数量的一批训练样本的特征图,并进行非线性映射以及平均池化,获得基本特征向量集;获取所述一批训练样本的样本标签集;
步骤A20,将每一个基本特征向量按照对应的标签划入相应的类别,并分别计算每个类别的平均特征向量;
步骤A30,通过所述基于特征比较的通道注意力机制的特征比较模块进行每一个训练样本的基本特征向量与其所在类别的平均特征向量的比较,并采用符号函数进行编码,获得编码结果集合;通过所述基于特征比较的通道注意力机制的基础注意力权重生成模块计算每一个训练样本对应的基本特征向量的基础注意力权重;所述基础注意力权重生成模块包括两层全连接神经网络;
步骤A40,通过所述基于特征比较的通道注意力机制的权重融合模块将每一个基本特征向量对应的编码结果和基础注意力权重进行融合,并通过设定的单调函数对融合结果进行映射,获得最终的注意力权重;
步骤A50,将所述最终的注意力权重按位赋予其对应的基本特征向量的每个通道,获得加权特征向量集;
步骤A60,将所述加权特征向量集输入分类器,并计算分类器输出结果与对应的样本标签的损失函数值;
步骤A70,通过反向传播方法向所述损失函数值变小的方向更新所述特征提取网络、分类器以及基础注意力权重生成模块的参数,并跳转步骤A10进行迭代训练,直至在验证集上的正确率达到设定阈值或达到设定的训练迭代次数,获得训练好的特征提取网络和分类器。
在一些优选的实施例中,步骤A20中“分别计算每个类别的平均特征向量”,其方法为:
在一些优选的实施例中,步骤A30中“进行每一个训练样本的基本特征向量与其所在类别的平均特征向量的比较,并采用符号函数进行编码”,其方法为:
si=sign(xi-Xi)
其中,xi和Xi分别为训练样本对应的基本特征向量和平均特征向量,si为通过符号函数对xi和Xi的比较结果进行编码的结果,sign(·)为符号函数,若xi≥Xi,则si=1,若xi<Xi,则si=-1,i表示第i个通道。
在一些优选的实施例中,步骤A30中“通过所述基于特征比较的通道注意力机制的基础注意力权重生成模块计算每一个训练样本对应的基本特征向量的基础注意力权重”,其方法为:
α=sigmoid(w2*tanh(w1*x+b1)+b2)
其中,α为待求的基础注意力权重,w1和b1分别为基础注意力权重生成模块第一层神经网络的权重和偏移量,w2和b2分别为基础注意力权重生成模块第二层神经网络的权重和偏移量,tanh(·)和sigmoid(·)分别为基础注意力权重生成模块第一层神经网络和第二层神经网络的非线性激活函数。
在一些优选的实施例中,所述设定的单调函数为指数函数;所述指数函数具有单调性和恒正性;
通过指数函数对融合结果进行映射,获得最终的注意力权重,其方法为:
其中,ωi为最终的注意力权重,αi为基础注意力权重,si为通过符号函数对xi和Xi的比较结果进行编码的结果,xi和Xi分别为训练样本对应的基本特征向量和平均特征向量,e为自然常数。
在一些优选的实施例中,所述加权特征向量,其获取方法为:
本发明的另一方面,提出了一种基于特征比较的通道注意力机制的细粒度图像识别系统,基于上述的基于特征比较的通道注意力机制的细粒度图像识别方法,该细粒度图像识别方法包括特征提取模块、特征映射及池化模块和分类模块;
所述特征提取模块,配置为通过训练好的特征提取网络提取待识别细粒度图像的特征图;所述特征提取网络基于深度卷积神经网络构建;
所述特征映射及池化模块,配置为对所述特征图进行非线性映射,并对每个特征通道的特征进行平均池化,获得基本特征向量xi;其中,i=1,2,…,d为特征通道的标记,d为特征向量的维度;
所述分类模块,配置为将所述基本特征向量xi输入训练好的分类器,获取待识别细粒度图像的分类结果并输出。
在一些优选的实施例中,所述特征提取模块中的特征提取网络和所述分类模块中的分类器,其训练过程引入缓存模块、特征比较模块、基础注意力权重生成模块、权重融合模块、特征加权模块、参数更新模块和迭代训练模块;
所述缓存模块,配置为用于为将训练样本对应的基本特征向量按照对应的标签划入相应的类别,并分别计算每个类别的平均特征向量;
所述特征比较模块,配置为进行每一个训练样本的基本特征向量与其所在类别的平均特征向量的比较,并采用符号函数进行编码,获得编码结果集合;
所述基础注意力权重生成模块,配置为通过两层全连接神经网络计算每一个训练样本对应的基本特征向量的基础注意力权重;
所述权重融合模块,配置为将每一个基本特征向量对应的编码结果和基础注意力权重进行融合,并通过设定的单调函数对融合结果进行映射,获得最终的注意力权重;
所述特征加权模块,配置为将所述最终的注意力权重按位赋予其对应的基本特征向量的每个通道,获得加权特征向量集;
所述参数更新模块,配置为通过反向传播方法向损失函数值变小的方向更新所述特征提取网络、分类器以及基础注意力权重生成模块的参数;所述损失函数值为将加权特征向量输入分类器后,分类器输出结果与对应的样本标签的损失函数值;
所述迭代训练模块,配置为迭代进行各模块训练直至在验证集上的正确率达到设定阈值或达到设定的训练迭代次数,获得训练好的特征提取网络和分类器。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于特征比较的通道注意力机制的细粒度图像识别方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于特征比较的通道注意力机制的细粒度图像识别方法。
本发明的有益效果:
(1)本发明基于特征比较的通道注意力机制的细粒度图像识别方法,通过特征比较的方式去识别样本是否包含具有类内相对辨识度的视觉特征,并显式地令具有类内相对辨识度的视觉特征对应的通道具有较大注意力权重,该过程使得本发明具有很好的可解释性。
(2)本发明基于特征比较的通道注意力机制的细粒度图像识别方法,训练中引入的基于特征比较的通道注意力机制是一个轻量级模块,简单易用,并且只需要很少的额外运算开销。这个模块可以简单直接地和用于图像分类的深度卷积神经网络相结合,如ResNet、DLA等基本网络模型,也可以和一些现有的细粒度方法相结合,如DCL,而无需复杂地改动原有模型结构,且结合后可端到端进行训练。同时这个模块只应用在深度卷积神经网络的训练过程中,帮助原有分类器学习到更好的特征表达,而在应用过程中不需要使用,进而不会在应用时增加额外的运算开销。
(3)本发明基于特征比较的通道注意力机制的细粒度图像识别方法,在基于特征比较的通道注意力机制直接插入到原模型后,如Resnet、DLA、DCL等,在原有模型的最优超参数、训练设置下,经过端到端训练即可取得性能的提升。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于特征比较的通道注意力机制的细粒度图像识别方法在应用过程中的流程示意图;
图2是本发明基于特征比较的通道注意力机制的细粒度图像识别方法在训练过程中的流程示意图;
图3是本发明基于特征比较的通道注意力机制的细粒度图像识别方法一种实施例的模型结构框架及通道注意力模块细节图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于特征比较的通道注意力机制的细粒度图像识别方法,提出了面向细粒度图像分类的基于特征比较的通道注意力机制,可以有效地捕获和利用同一类样本中本质上共有的具有识别度的视觉特征,即具有类内相对辨识度的视觉特征,通过巧妙的注意力权重生成模式,引导既有的一些深度卷积神经网络(如Resnet50)在训练过程中学到更好的特征表达,进而实现更精确的细粒度图像识别。
本发明的方法要点包括:(1)基于视觉特征与特征通道的响应相关联的机理,通过特征比较的方式对样本中具有类内相对辨识度的视觉特征进行识别。视觉特征具备类内相对辨识度,在视觉上,体现在这些视觉特征普遍存在于某一类样本中,且相较于其它视觉特征具备更加明显的视觉识别度;在模型中,是指样本中的一些视觉特征在最后的特征通道产生的响应强度大于其所在类别的平均响应强度;(2)利用符号函数以及指数函数的单调性,进行类内相对辨识度视觉特征的识别结果的数值化编码和映射,可以显式地令具有相对辨识度的视觉特征对应的特征通道分配较大的注意力权重,对其余特征通道分配较小的注意力权重;(3)考虑到不同特征通道本身具有不同的重要性,本发明利用两层全连接神经网络构建基础注意力权重生成模块,学习并产生每个特征通道的基础注意力权重;(4)本发明在生成最终的融合注意力权重时,同时将类内相对辨识度视觉特征的识别结果和基础注意力权重考虑在内。
本发明的一种基于特征比较的通道注意力机制的细粒度图像识别方法,该细粒度图像识别方法包括:
步骤S10,通过训练好的特征提取网络提取待识别细粒度图像的特征图;所述特征提取网络基于深度卷积神经网络构建;
步骤S20,对所述特征图进行非线性映射,并对每个特征通道的特征进行平均池化,获得基本特征向量xi;其中,i=1,2,…,d为特征通道的标记,d为特征向量的维度;
步骤S30,将所述基本特征向量xi输入训练好的分类器,获取待识别细粒度图像的分类结果。
为了更清晰地对本发明基于特征比较的通道注意力机制的细粒度图像识别方法进行说明,下面结合图1对本发明实施例中各步骤展开详述。
本发明第一实施例的基于特征比较的通道注意力机制的细粒度图像识别方法,在应用阶段,将获取的基本特征向量xi输入分类器,则可输出待识别细粒度图像的分类结果,包括步骤S10-步骤S30,各步骤详细描述如下:
步骤S10,通过训练好的特征提取网络提取待识别细粒度图像的特征图;所述特征提取网络基于深度卷积神经网络构建。
以深度卷积神经网络为基础进行图像的特征提取,经过对图像进行一系列的卷积、下采样和非线性映射等操作,得到最后一个卷积层的输出特征图。
步骤S20,对所述特征图进行非线性映射,并对每个特征通道的特征进行平均池化,获得基本特征向量xi;其中,i=1,2,…,d为特征通道的标记,d为特征向量的维度。
在经过ReLU非线性映射后,在输入分类器之前,对每个特征通道的特征进行平均池化操作,作为后续操作的基本特征向量xi,向量中的每个特征通道用i标记,i=1,2,…,d,d为特征向量的维度。
步骤S30,将所述基本特征向量xi输入训练好的分类器,获取待识别细粒度图像的分类结果。
在训练阶段,特征提取网络和分类器,其训练中引入基于特征比较的通道注意力机制,训练过程如图2所示:
步骤A10,通过特征提取网络提取设定数量的一批训练样本的特征图,并进行非线性映射以及平均池化,获得基本特征向量集;获取所述一批训练样本的样本标签集。
步骤A20,将每一个基本特征向量按照对应的标签划入相应的类别,并分别计算每个类别的平均特征向量。
相关研究已经发现,视觉特征和特征通道具有关联性。即视觉特征,如鸟类翅膀上的一撮红色羽毛,经过卷积神经网络提取后,在对应的特征通道上具有较强的响应。具体地,样本携带的某视觉特征越明显,其对应的特征通道响应强度越大,反之则越小。因此对于某个类别,某个特征通道响应的平均强度可以表示该类别中相应的视觉特征在其所有样本中出现的“平均强度”。更进一步,当某个样本在某个特征通道上的响应强度大于该类别在该特征通道的平均响应强度,则该样本携带的对应视觉特征相对于该类别的所有样本而言较为明显,反之则较为微弱。具体地,对于样本的基本特征向量xi和其所在类别平均特征向量Xi,若xi>Xi,则对于特征通道i对应的视觉特征,该样本的呈现强度相对于同类别下的其它样本比较明显;反之,则该样本的呈现强度相对于该类别的其它样本比较微弱。
每个类别的平均特征向量Xi的计算方法如式(1)所示:
对于每一个训练样本对应的基本特征向量xi,按照其所属标签,划入相应类别中,计算每个类别的平均特征向量Xi。由于数据的处理方式为批量处理,Xi可以在每个epoch内、iteration之间进行滑动更新,也可以在每个epoch之后进行更新。在本发明后续描述中默认为第二种更新方式。
步骤A30,通过所述基于特征比较的通道注意力机制的特征比较模块进行每一个训练样本的基本特征向量与其所在类别的平均特征向量的比较,并采用符号函数进行编码,获得编码结果集合;通过所述基于特征比较的通道注意力机制的基础注意力权重生成模块计算每一个训练样本对应的基本特征向量的基础注意力权重;所述基础注意力权重生成模块包括两层全连接神经网络。
为了将上述的通过特征比较的方式对类内相对辨识度视觉特征进行识别的识别结果融合到后续操作中,用以下数学化描述对识别结果进行编码,如式(2)所示:
引入符号表示函数sign(·),将式(2)转换为式(3):
si=sign(xi-Xi) (3)
其中,xi和Xi分别为训练样本对应的基本特征向量和平均特征向量,si为通过符号函数对xi和Xi的比较结果进行编码的结果,i表示第i个通道。
此时,若si=1,则表示特征通道i对应的视觉特征在样本中呈现地较为明显;若si=-1,则表示特征通道i对应的视觉特征在样本中呈现地较为微弱。更进一步地,为了显式地令类内相对辨识度的视觉特征对应的特征通道赋予较大的注意力权重,而令不具有类内相对辨识度的视觉特征对应的特征通道赋予较小的注意力权重,将si作为指数函数中自变量的符号去引导最终注意力权重的生成。
步骤A40,通过所述基于特征比较的通道注意力机制的权重融合模块将每一个基本特征向量对应的编码结果和基础注意力权重进行融合,并通过设定的单调函数对融合结果进行映射,获得最终的注意力权重。
由于不同的特征通道在分类中本身具有不同的重要性,因此需要学习特征通道的基础注意力权重,通过式(4)进行基础注意力权重的获取,即由一个两层全连接神经网络构成的基础注意力权重生成模块获取:
α=sigmoid(w2*tanh(w1*x+b1)+b2) (4)
其中,α为待求的基础注意力权重,w1和b1分别为基础注意力权重生成模块第一层神经网络的权重和偏移量,w2和b2分别为基础注意力权重生成模块第二层神经网络的权重和偏移量,tanh(·)和sigmoid(·)分别为基础注意力权重生成模块第一层神经网络和第二层神经网络的非线性激活函数。
对于自身在分类器中占重要地位的特征通道,且当其对应的视觉特征具有类内相对辨识度时,对其施加较大的注意力权重,引导网络加强对相应视觉特征的学习和依赖;对于自身在分类器中没有重要作用的特征通道,且当其对应的视觉特征不具备类内相对辨识度时,对其施加较小的注意力权重,引导网络减少对相应视觉特征的学习和依赖。
为了保证注意力权重为正值,本发明利用指数函数的单调性和恒正性对融合结果进行映射,获得最终的注意力权重,如式(5)所示:
其中,ωi为最终的注意力权重,αi为基础注意力权重,si为通过符号函数对xi和Xi的比较结果进行编码的结果,xi和Xi分别为训练样本对应的基本特征向量和平均特征向量,e为自然常数。
步骤A50,将所述最终的注意力权重按位赋予其对应的基本特征向量的每个通道,获得加权特征向量集。
将最终的注意力权重按位赋予基本特征向量的每个通道,得到加权特征向量,如式(6)所示:
步骤A60,将所述加权特征向量集输入分类器,并计算分类器输出结果与对应的样本标签的损失函数值。
步骤A70,通过反向传播方法向所述损失函数值变小的方向更新所述特征提取网络、分类器以及基础注意力权重生成模块的参数,并跳转步骤A10进行迭代训练,直至在验证集上的正确率达到设定阈值或达到设定的训练迭代次数,获得训练好的特征提取网络和分类器。
如图3所示,为本发明基于特征比较的通道注意力机制的细粒度图像识别方法一种实施例的模型结构框架及通道注意力模块细节图,Resnet50*为选用的进行特征提取的深度卷积神经网络(Resnet50*为在Resnet50网络基础上去掉最后的映射层、池化层和全连接层之后剩余的用于特征提取的深度卷积神经网络),avgpool代表对ReLU非线性映射后的特征图进行平均池化操作,获得基本特征向量x,将每一个基本特征向量按照对应的标签划入相应的类别,并分别计算每个类别的平均特征向量X,比较基本特征向量与其所在类别的平均特征向量,并采用符号函数进行编码,以保证具有类内相对辨识度的视觉特征对应的特征通道具有较大的注意力权重,而其它特征通道具有较小的注意力权重,通过FCCA(Feature Comparison based Channel Attention,基于特征比较的通道注意力机制)中的基础注意力权重生成模块,根据样本的基本特征向量学习特征通道的基础注意力权重,表征每个特征通道在常规分类器下本身的重要程度,将类内相对辨识度特征的识别结果和基础注意力权重相融合,将融合结果通过指数函数进行映射,得到最终注意力权重ω,用于引导网络学到更好的特征表达(即加权特征向量),最终通过分类器获取识别结果,FC1和FC2分别为分类器和基础注意力权重生成模块。
本发明第二实施例的基于特征比较的通道注意力机制的细粒度图像识别系统,基于上述的基于特征比较的通道注意力机制的细粒度图像识别方法,该细粒度图像识别方法包括特征提取模块、特征映射及池化模块和分类模块;
所述特征提取模块,配置为通过训练好的特征提取网络提取待识别细粒度图像的特征图;所述特征提取网络基于深度卷积神经网络构建;
所述特征映射及池化模块,配置为对所述特征图进行非线性映射,并对每个特征通道的特征进行平均池化,获得基本特征向量xi;其中,i=1,2,…,d为特征通道的标记,d为特征向量的维度;
所述分类模块,配置为将所述基本特征向量xi输入训练好的分类器,获取待识别细粒度图像的分类结果并输出。
其中,特征提取模块中的特征提取网络和分类模块中的分类器,其训练过程引入缓存模块、特征比较模块、基础注意力权重生成模块、权重融合模块、特征加权模块、参数更新模块和迭代训练模块;
所述缓存模块,配置为用于为将训练样本对应的基本特征向量按照对应的标签划入相应的类别,并分别计算每个类别的平均特征向量;缓存模块还用于缓存平均特征向量,在获取了新的平均特征向量之后进行更新。
所述特征比较模块,配置为进行每一个训练样本的基本特征向量与其所在类别的平均特征向量的比较,并采用符号函数进行编码,获得编码结果集合。特征比较可以保证具有类内相对辨识度的视觉特征对应的特征通道具有较大的注意力权重,而其它特征通道具有较小的注意力权重。
所述基础注意力权重生成模块,配置为通过两层全连接神经网络计算每一个训练样本对应的基本特征向量的基础注意力权重;基础注意力权重表征每个特征通道在常规分类模型下本身的重要程度。
所述权重融合模块,配置为将每一个基本特征向量对应的编码结果和基础注意力权重进行融合,并通过设定的单调函数对融合结果进行映射,获得最终的注意力权重;将类内相对辨识度特征的识别结果和基础注意力权重相结合,得到最终注意力权重,用于引导网络学到更好的特征表达。
所述特征加权模块,配置为将所述最终的注意力权重按位赋予其对应的基本特征向量的每个通道,获得加权特征向量集。
所述参数更新模块,配置为通过反向传播方法向损失函数值变小的方向更新所述特征提取网络、分类器以及基础注意力权重生成模块的参数;所述损失函数值为将加权特征向量输入分类器后,分类器输出结果与对应的样本标签的损失函数值。本发明一个实施例中,选用的损失函数为交叉熵损失函数。
所述迭代训练模块,配置为迭代进行各模块训练直至在验证集上的正确率达到设定阈值或达到设定的训练迭代次数,获得训练好的特征提取网络和分类器。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于特征比较的通道注意力机制的细粒度图像识别方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于特征比较的通道注意力机制的细粒度图像识别系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于特征比较的通道注意力机制的细粒度图像识别方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于特征比较的通道注意力机制的细粒度图像识别方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (11)
1.一种基于特征比较的通道注意力机制的细粒度图像识别方法,其特征在于,该细粒度图像识别方法包括:
步骤S10,通过训练好的特征提取网络提取待识别细粒度图像的特征图;所述特征提取网络基于深度卷积神经网络构建;
步骤S20,对所述特征图进行非线性映射,并对每个特征通道的特征进行平均池化,获得基本特征向量xi;其中,i=1,2,…,d为特征通道的标记,d为特征向量的维度;
步骤S30,将所述基本特征向量xi输入训练好的分类器,获取待识别细粒度图像的分类结果。
2.根据权利要求1所述的基于特征比较的通道注意力机制的细粒度图像识别方法,其特征在于,所述特征提取网络和所述分类器,其训练中引入基于特征比较的通道注意力机制,其训练方法为:
步骤A10,通过特征提取网络提取设定数量的一批训练样本的特征图,并进行非线性映射以及平均池化,获得基本特征向量集;获取所述一批训练样本的样本标签集;
步骤A20,将每一个基本特征向量按照对应的标签划入相应的类别,并分别计算每个类别的平均特征向量;
步骤A30,通过所述基于特征比较的通道注意力机制的特征比较模块进行每一个训练样本的基本特征向量与其所在类别的平均特征向量的比较,并采用符号函数进行编码,获得编码结果集合;通过所述基于特征比较的通道注意力机制的基础注意力权重生成模块计算每一个训练样本对应的基本特征向量的基础注意力权重;所述基础注意力权重生成模块包括两层全连接神经网络;
步骤A40,通过所述基于特征比较的通道注意力机制的权重融合模块将每一个基本特征向量对应的编码结果和基础注意力权重进行融合,并通过设定的单调函数对融合结果进行映射,获得最终的注意力权重;
步骤A50,将所述最终的注意力权重按位赋予其对应的基本特征向量的每个通道,获得加权特征向量集;
步骤A60,将所述加权特征向量集输入分类器,并计算分类器输出结果与对应的样本标签的损失函数值;
步骤A70,通过反向传播方法向所述损失函数值变小的方向更新所述特征提取网络、分类器以及基础注意力权重生成模块的参数,并跳转步骤A10进行迭代训练,直至在验证集上的正确率达到设定阈值或达到设定的训练迭代次数,获得训练好的特征提取网络和分类器。
4.根据权利要求2所述的基于特征比较的通道注意力机制的细粒度图像识别方法,其特征在于,步骤A30中“进行每一个训练样本的基本特征向量与其所在类别的平均特征向量的比较,并采用符号函数进行编码”,其方法为:
Si=Sign(xi-Xi)
其中,xi和Xi分别为训练样本对应的基本特征向量和平均特征向量,si为通过符号函数对xi和Xi的比较结果进行编码的结果,sign(·)为符号函数,若xi≥Xi,则si=1,若xi<Xi,则si=-1,i表示第i个通道。
5.根据权利要求2所述的基于特征比较的通道注意力机制的细粒度图像识别方法,其特征在于,步骤A30中“通过所述基于特征比较的通道注意力机制的基础注意力权重生成模块计算每一个训练样本对应的基本特征向量的基础注意力权重”,其方法为:
α=sigmoid(w2*tanh(w1*x+b1)+b2)
其中,α为待求的基础注意力权重,w1和b1分别为基础注意力权重生成模块第一层神经网络的权重和偏移量,w2和b2分别为基础注意力权重生成模块第二层神经网络的权重和偏移量,tanh(·)和sigmoid(·)分别为基础注意力权重生成模块第一层神经网络和第二层神经网络的非线性激活函数。
8.一种基于特征比较的通道注意力机制的细粒度图像识别系统,其特征在于,基于权利要求1-7任一项所述的基于特征比较的通道注意力机制的细粒度图像识别方法,该细粒度图像识别方法包括特征提取模块、特征映射及池化模块和分类模块;
所述特征提取模块,配置为通过训练好的特征提取网络提取待识别细粒度图像的特征图;所述特征提取网络基于深度卷积神经网络构建;
所述特征映射及池化模块,配置为对所述特征图进行非线性映射,并对每个特征通道的特征进行平均池化,获得基本特征向量xi;其中,i=1,2,…,d为特征通道的标记,d为特征向量的维度;
所述分类模块,配置为将所述基本特征向量xi输入训练好的分类器,获取待识别细粒度图像的分类结果并输出。
9.根据权利要求8所述的基于特征比较的通道注意力机制的细粒度图像识别系统,其特征在于,所述特征提取模块中的特征提取网络和所述分类模块中的分类器,其训练过程引入缓存模块、特征比较模块、基础注意力权重生成模块、权重融合模块、特征加权模块、参数更新模块和迭代训练模块;
所述缓存模块,配置为用于为将训练样本对应的基本特征向量按照对应的标签划入相应的类别,并分别计算每个类别的平均特征向量;
所述特征比较模块,配置为进行每一个训练样本的基本特征向量与其所在类别的平均特征向量的比较,并采用符号函数进行编码,获得编码结果集合;
所述基础注意力权重生成模块,配置为通过两层全连接神经网络计算每一个训练样本对应的基本特征向量的基础注意力权重;
所述权重融合模块,配置为将每一个基本特征向量对应的编码结果和基础注意力权重进行融合,并通过设定的单调函数对融合结果进行映射,获得最终的注意力权重;
所述特征加权模块,配置为将所述最终的注意力权重按位赋予其对应的基本特征向量的每个通道,获得加权特征向量集;
所述参数更新模块,配置为通过反向传播方法向损失函数值变小的方向更新所述特征提取网络、分类器以及基础注意力权重生成模块的参数;所述损失函数值为将加权特征向量输入分类器后,分类器输出结果与对应的样本标签的损失函数值;
所述迭代训练模块,配置为迭代进行各模块训练直至在验证集上的正确率达到设定阈值或达到设定的训练迭代次数,获得训练好的特征提取网络和分类器。
10.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于特征比较的通道注意力机制的细粒度图像识别方法。
11.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-7任一项所述的基于特征比较的通道注意力机制的细粒度图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010877341.2A CN111985572B (zh) | 2020-08-27 | 2020-08-27 | 基于特征比较的通道注意力机制的细粒度图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010877341.2A CN111985572B (zh) | 2020-08-27 | 2020-08-27 | 基于特征比较的通道注意力机制的细粒度图像识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111985572A true CN111985572A (zh) | 2020-11-24 |
CN111985572B CN111985572B (zh) | 2022-03-25 |
Family
ID=73439943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010877341.2A Active CN111985572B (zh) | 2020-08-27 | 2020-08-27 | 基于特征比较的通道注意力机制的细粒度图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985572B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096080A (zh) * | 2021-03-30 | 2021-07-09 | 四川大学华西第二医院 | 图像分析方法及系统 |
CN113689411A (zh) * | 2021-08-26 | 2021-11-23 | 五邑大学 | 一种基于视觉识别的计件方法、装置及存储介质 |
CN113744292A (zh) * | 2021-09-16 | 2021-12-03 | 安徽世绿环保科技有限公司 | 一种垃圾分类站垃圾投放扫描系统 |
CN113963352A (zh) * | 2021-09-22 | 2022-01-21 | 支付宝(杭州)信息技术有限公司 | 识别图片和训练神经网络的方法和装置 |
CN114495027A (zh) * | 2022-01-11 | 2022-05-13 | 北京科技大学 | 一种基于网络数据的车型细粒度识别方法及装置 |
CN115035389A (zh) * | 2022-08-10 | 2022-09-09 | 华东交通大学 | 基于可靠性评估和迭代学习的细粒度图像识别方法和装置 |
WO2022199214A1 (zh) * | 2021-03-26 | 2022-09-29 | 北京沃东天骏信息技术有限公司 | 样本扩展方法、训练方法和系统、及样本学习系统 |
CN115457308A (zh) * | 2022-08-18 | 2022-12-09 | 苏州浪潮智能科技有限公司 | 细粒度图像识别方法、装置和计算机设备 |
CN117853875A (zh) * | 2024-03-04 | 2024-04-09 | 华东交通大学 | 一种细粒度图像识别方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619369A (zh) * | 2019-09-23 | 2019-12-27 | 常熟理工学院 | 基于特征金字塔与全局平均池化的细粒度图像分类方法 |
CN110751212A (zh) * | 2019-10-21 | 2020-02-04 | 南京大学 | 一种移动设备上高效的细粒度图像识别方法 |
-
2020
- 2020-08-27 CN CN202010877341.2A patent/CN111985572B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619369A (zh) * | 2019-09-23 | 2019-12-27 | 常熟理工学院 | 基于特征金字塔与全局平均池化的细粒度图像分类方法 |
CN110751212A (zh) * | 2019-10-21 | 2020-02-04 | 南京大学 | 一种移动设备上高效的细粒度图像识别方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022199214A1 (zh) * | 2021-03-26 | 2022-09-29 | 北京沃东天骏信息技术有限公司 | 样本扩展方法、训练方法和系统、及样本学习系统 |
CN113096080B (zh) * | 2021-03-30 | 2024-01-16 | 四川大学华西第二医院 | 图像分析方法及系统 |
CN113096080A (zh) * | 2021-03-30 | 2021-07-09 | 四川大学华西第二医院 | 图像分析方法及系统 |
CN113689411B (zh) * | 2021-08-26 | 2023-11-28 | 五邑大学 | 一种基于视觉识别的计件方法、装置及存储介质 |
CN113689411A (zh) * | 2021-08-26 | 2021-11-23 | 五邑大学 | 一种基于视觉识别的计件方法、装置及存储介质 |
CN113744292A (zh) * | 2021-09-16 | 2021-12-03 | 安徽世绿环保科技有限公司 | 一种垃圾分类站垃圾投放扫描系统 |
CN113963352A (zh) * | 2021-09-22 | 2022-01-21 | 支付宝(杭州)信息技术有限公司 | 识别图片和训练神经网络的方法和装置 |
CN114495027A (zh) * | 2022-01-11 | 2022-05-13 | 北京科技大学 | 一种基于网络数据的车型细粒度识别方法及装置 |
CN115035389A (zh) * | 2022-08-10 | 2022-09-09 | 华东交通大学 | 基于可靠性评估和迭代学习的细粒度图像识别方法和装置 |
CN115035389B (zh) * | 2022-08-10 | 2022-10-25 | 华东交通大学 | 基于可靠性评估和迭代学习的细粒度图像识别方法和装置 |
CN115457308A (zh) * | 2022-08-18 | 2022-12-09 | 苏州浪潮智能科技有限公司 | 细粒度图像识别方法、装置和计算机设备 |
CN115457308B (zh) * | 2022-08-18 | 2024-03-12 | 苏州浪潮智能科技有限公司 | 细粒度图像识别方法、装置和计算机设备 |
CN117853875A (zh) * | 2024-03-04 | 2024-04-09 | 华东交通大学 | 一种细粒度图像识别方法及系统 |
CN117853875B (zh) * | 2024-03-04 | 2024-05-14 | 华东交通大学 | 一种细粒度图像识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111985572B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985572B (zh) | 基于特征比较的通道注意力机制的细粒度图像识别方法 | |
CN109754015B (zh) | 用于画作多标签识别的神经网络及相关方法、介质和设备 | |
CN114241282B (zh) | 一种基于知识蒸馏的边缘设备场景识别方法及装置 | |
CN110069994B (zh) | 基于人脸多区域的人脸属性识别系统、方法 | |
CN107330074B (zh) | 基于深度学习和哈希编码的图像检索方法 | |
CN106682696B (zh) | 基于在线示例分类器精化的多示例检测网络及其训练方法 | |
CN110619059B (zh) | 一种基于迁移学习的建筑物标定方法 | |
CN111127364B (zh) | 图像数据增强策略选择方法及人脸识别图像数据增强方法 | |
CN106845430A (zh) | 基于加速区域卷积神经网络的行人检测与跟踪方法 | |
CN111079847B (zh) | 一种基于深度学习的遥感影像自动标注方法 | |
US10303981B1 (en) | Learning method and testing method for R-CNN based object detector, and learning device and testing device using the same | |
CN108229522B (zh) | 神经网络的训练方法、属性检测方法、装置及电子设备 | |
US11100369B2 (en) | Training method for tag identification network, tag identification apparatus/method and device | |
CN111738172A (zh) | 基于特征对抗学习和自相似性聚类的跨域目标重识别方法 | |
JP2020126613A (ja) | イメージを分析するために、ディープラーニングネットワークに利用するためのトレーニングイメージに対するラベルリング信頼度を自動的に評価するための方法、及びこれを利用した信頼度評価装置 | |
CN111598182A (zh) | 训练神经网络及图像识别的方法、装置、设备及介质 | |
CN113128478B (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
CN112529020A (zh) | 基于神经网络的动物识别方法、系统、设备及存储介质 | |
CN111428448A (zh) | 文本生成方法、装置、计算机设备及可读存储介质 | |
CN117011616B (zh) | 一种图像内容审核方法、装置、存储介质和电子设备 | |
CN112966685A (zh) | 用于场景文本识别的攻击网络训练方法、装置及相关设备 | |
US11526807B2 (en) | Machine learning systems and methods with source-target adaptation | |
CN116910571A (zh) | 一种基于原型对比学习的开集域适应方法及系统 | |
CN116977633A (zh) | 地物要素分割模型训练方法、地物要素分割方法及装置 | |
CN112101114A (zh) | 一种视频目标检测方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhang Jing Inventor after: Jia Shukun Inventor after: Zhao Xin Inventor after: Bai Yan Inventor before: Zhao Xin Inventor before: Jia Shukun Inventor before: Zhang Jing Inventor before: Bai Yan |
|
GR01 | Patent grant | ||
GR01 | Patent grant |