CN112686242B - 一种基于多层聚焦注意力网络的细粒度图像分类方法 - Google Patents

一种基于多层聚焦注意力网络的细粒度图像分类方法 Download PDF

Info

Publication number
CN112686242B
CN112686242B CN202011588241.4A CN202011588241A CN112686242B CN 112686242 B CN112686242 B CN 112686242B CN 202011588241 A CN202011588241 A CN 202011588241A CN 112686242 B CN112686242 B CN 112686242B
Authority
CN
China
Prior art keywords
attention
image
network
layer
focusing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011588241.4A
Other languages
English (en)
Other versions
CN112686242A (zh
Inventor
乔伟晨
黄青松
王波
单文琦
刘利军
黄冕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202011588241.4A priority Critical patent/CN112686242B/zh
Publication of CN112686242A publication Critical patent/CN112686242A/zh
Application granted granted Critical
Publication of CN112686242B publication Critical patent/CN112686242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种基于多层聚焦注意力网络的细粒度图像分类方法,属于计算机视觉技术领域。本发明包括步骤:首先通过首层聚焦网络能够准确有效聚焦于识别局域并生成定位区域;再根据定位区域对原图像分别进行裁剪和遮挡后输入下一层的聚焦网络进行训练分类,其中单层聚焦网络以Inception‑V3网络为基础,通过卷积注意力特征模块和定位区域选择机制来聚焦有效的定位区域;然后使用双线性注意力最大池化提取各个局部的特征;最后进行分类预测;实验结果表明,本方法的分类准确率高于目前主流方法。

Description

一种基于多层聚焦注意力网络的细粒度图像分类方法
技术领域
本发明涉及一种基于多层聚焦注意力网络的细粒度图像分类方法,属于计算机视觉技术领域。
背景技术
随着深度学习、卷积网络技术的不断发展,深度学习网络在计算机视觉领域得到广泛的应用,如图像检索,场景解析,目标跟踪等。在细粒度图像识别领域,深度卷积网络也得到广泛地研究与应用。由于在细粒度图像识别中,类内差异容易受姿态,视角与位置等因素影响。其次类间具有相似性。最后手工标注位置不稳定且耗费人力。因此细粒度识别任务更具有挑战性。Zhang等人提出强监督细粒度图像分类模型(Part-basedRegionConvolutional Neural Network,R-CNN)借助边界框和部分批注标签进行对象部件定位等操作得到对象与部件的图像块,最后将对象部件等特征级联之后进行分类。强监督细粒度图像分类模型(Part-based R-CNN)分类准确率取得不错的效果,但存在算法速度慢,过于依赖标签,定位检测不稳定等问题。因此Wei等人提出掩膜卷积神经网络模型(Mask-CNN)在训练时仅需要部分批注和图像等级标签。同时借助全卷积网络(FullyConvolutional Networks,FCN)学习部分掩膜来进行对象部件定位等操作得到对象与部件的图像块,最后将对象部件等特征级联之后进行分类。掩膜卷积神经网络模型(Mask-CNN)取得很好的定位效果以及分类准确率,并且大大降低对标记依赖性,但是任避免不了强监督标记分类。Lin等人提出高阶特征编码双线性卷积网络(Bilinear-CNN,B-CNN)和改进的双线性卷积网络,通过对特征图进行外积操作建立了特征图中通道之间的线性相关,并进行端到端的联合优化学习,在细粒度分类任务上取得了优异的性能。但是存在无法捕捉特征图中通道之间的非线性关系,于是Ge等人提出一种核化的双线性卷积网络,通过使用核函数的方式有效地建模特征图中通道之间的非线性关系,改进了高阶特征编码方法,提升特征的表达能力。但是该方法存在外积导致特征的维度增大为原来的平方等缺点。Zheng等人提出多注意力卷积神经网络(Multi-attention Convolutional Neural Network,MA-CNN)模型抛弃手工标记对象部件的方法,采用弱监督学习方法。同时定位多个对象部件,提出信道分组损耗,通过聚类产生多个部分。将这些部分分别与特征进行点乘得到局部精细化的特征分别进行分类,取得很好的分类准确率。但是该方法中对象的部件数量有限(2个或4个),因此会限制分类的准确。先前工作通常采用定位或者分割来解决类内的差异性,但是类间相似性依然影响特征的学习;
面向数据的年代,特征选择这个任务越来越不适合人工来做。模式识别的问题就是用计算的方法根据样本的特征将样本划分到一定的类别中去。模式识别就是通过计算机用数学技术方法来研究模式的自动处理和判读,把环境与客体统称为模式。随着计算机技术的发展,人类有可能研究复杂的信息处理过程,其过程的一个重要形式是生命体对环境及客体的识别。模式识别以图像处理与计算机视觉、语音语言信息处理等为主要研究方向,研究人类模式识别的机理以及有效的计算方法。
计算机要解释一张图片的内容是很难的,因为计算机看到的图片是一个大的数字矩阵,它对图像传递的思想、知识和意义一无所知。为了理解图像的内容,我们必须应用图像分类,这是使用计算机视觉和机器学习算法从图像中抽取意义的任务。
细粒度图像分类是近年来计算机视觉、模式识别等领域一个热门的研究课题。其目的是对粗粒度的大类别进行更加细致的子类划分。细粒度图像的类别精度更加细致,类间差异更加细微,往往只能借助于微小的局部差异才能区分出不同的类别。而与人脸识别等对象级分类任务相比,细粒度图像的类内差异更加巨大,存在着姿态、光照、遮挡、背景干扰等诸多不确定因素。因此,细粒度图像分类是一项极有意义的研究任务。
细粒度图像分类无论在工业界还是学术界都有着广泛的研究需求与应用场景。与之相关的研究课题主要包括识别不同种类的鸟、狗、花、车、飞机等。在实际生活中,识别不同的子类别又存在着巨大的应用需求。例如,在生态保护中,有效识别不同种类的生物,是进行生态研究的重要前提。如果能够借助于计算机视觉的技术,实现低成本的细粒度图像识别,那么无论对于学术界,还是工业界而言,都有着非常重要的意义。
发明内容
本发明提供了一种基于多层聚焦注意力网络的细粒度图像分类方法,多层聚焦网络模型能有效定位识别对象位置;卷积特征注意力模块能在增强目标对象有效特征的提取,同时相比同类模块降低计算复杂度;定位区域选择机制增强模型泛化能力;双线性注意力最大池化增强特征的表达,降低维度和减少卷积层参数误差造成估计均值的偏移的误差,提高模型的鲁棒性。
本发明的技术方案是:一种基于多层聚焦注意力网络的细粒度图像分类方法,所述方法的具体步骤如下:
Step1、首层聚焦网络是结合了卷积块注意力特征模块的单层聚焦卷积网络,其生成特征与注意力积矩阵,同时输出定位区域;
Step2、裁剪及遮挡操作:经Step1操作之后得到了定位区域,裁剪操作根据该定位区域对原图像进行裁剪得到裁剪图像;遮挡操作根据Step1操作之后得到的定位区域对原图相应位置进行遮挡,得到遮挡图像;
Step3、把得到的裁剪图像及遮挡图像分别输入到第二、三层聚焦网络,生成特征与注意力矩阵积矩阵;
Step4、分类预测方法:把特征与注意力矩阵积矩阵输入到全连接层得到分类预测结果,分类预测结果采用注意力中心损失进行优化。
作为本发明的进一步方案,所述步骤Step1的具体步骤如下:
Step1.1、图像输入的首层聚焦网络采用Inception-V3作为基础网络,用于提取图像的基础特征;
Step1.2、由Step1.1得到Inception-V3网络提取图像的特征图F∈RC×H×W输入卷积块特征注意力模块中得到特征图Fa∈RC×H×W和注意力图A∈RM×H×W,如计算公式所示:
Figure BDA0002867802940000031
Figure BDA0002867802940000032
Fa=f1*1(M(F)),
Figure BDA0002867802940000033
其中C、H、W分别表示特征图的通道数、高度、宽度,
Figure BDA0002867802940000034
分别代表经过全局平均池化层和全局最大池化层计算后的特征值,W0和W1代表的是多层感知机模型中的两层参数,σ表示的是sigmoid激活函数,f7*7表示卷积层使用7x7的卷积核,f1*1表示卷积层使用1x1的卷积核,M是注意力图的数量;
Figure BDA0002867802940000035
表示从1至M的并集;
Step1.3、双线性注意力最大池化:将Step1.2得到的特征图Fa∈RC×H×W与每个注意力图A∈RM×H×W相乘,生成M个部分的特征与注意力矩阵积矩阵Fk∈RC×H×W,加入非线性激活函数,最大池化层,如计算公式所示:
Figure BDA0002867802940000036
其中Fk为两个张量的元素乘;通过全局最大池层得到第k个特征与注意力矩阵积矩阵fk∈R1×C;如计算公式所示:fk=MaxPool(Fk);Pk∈RM×C表示对象不同部分特征矩阵将作为模型输出进行预测,Pk由特征fk叠加而成;Ai表示注意力图A中的第i个子集,i∈[1,M];
Step1.4、定位区域选择机制:在注意力图A∈RM×H×W中有M个特征矩阵表示图像中的不同对象部件,使用softmax函数处理注意力图A得到
Figure BDA0002867802940000041
将注意力图中的值映射成为(0,1)的值,这些值的累和为1;softmax函数加入幂函数使这些值两极化:正样本的结果将趋近于1,而负样本的结果趋近于0;根据softmax函数的性质将进一步的去除噪音;计算M个特征矩阵被选中的概率pM
Figure BDA0002867802940000042
在参考概率pM的同时采用随机的方式从M个特征矩阵中选出一个特征矩阵Ak∈R1×H×W,其中概率大的特征矩阵优先选中,根据pM采用概率和随机方式得到定位区域注意力矩阵Ak∈R1×H×W进行标准化处理得到定位区域
Figure BDA00028678029400000412
Figure BDA0002867802940000044
作为本发明的进一步方案,所述步骤Step2的具体步骤如下:
Step2.1、根据Step1.4得到的定位区域
Figure BDA0002867802940000045
对原图像进行裁剪,裁剪后的图像能更大面积的覆盖识别对象,去除无关背景,起到非常好的分类效果;通过设置
Figure BDA0002867802940000046
大于阈值θc∈[0.4,0.6]时等于1,其他为0得到裁剪边框Ck,采取上采样的方式从原图像中放大这个区域得到裁剪图像作为第二层聚焦网络的输入;由于对象部分的规模增加,因此能更好地对对象提取更细粒度的特性,如计算公式所示:
Figure BDA0002867802940000047
Ck(i,j)表示裁剪边框的第i行第j个元素;
Step2.2、根据定位区域
Figure BDA0002867802940000048
对原图像进行局部遮挡;促进模型找出更多具有代表性的多个有判别性对象部分的定位区域
Figure BDA0002867802940000049
以此对抗由于裁剪操作产生局部最优过拟合的负面效果,提高分类的稳健性和定位的准确性;通过设置
Figure BDA00028678029400000410
小于或等于阈值θd∈[0.4,0.6]时为1,其他为0得到遮挡框Dk,将遮挡框与原图像相乘得到遮挡图像作为第三层聚焦网络的输入;计算公式所示:
Figure BDA00028678029400000411
Dk(i,j)遮挡框的第i行第j个元素。
作为本发明的进一步方案,所述步骤Step3的具体步骤如下:
Step3.1、将定位区域输入裁剪和遮挡模块对原图像进行裁剪和遮挡得到裁剪图像和遮挡图像分别作为第二、三层聚焦网络的输入;
Step3.2、第二、三层聚焦网络按照Step1.1、Step1.2、Step1.3的步骤对裁剪或遮挡后的图像进行操作,生成特征与注意力矩阵积矩阵。
作为本发明的进一步方案,所述步骤Step4中,分类预测结果采用注意力中心损失进行优化包括:
在首层聚焦网络和使用裁剪图像作为输入的第二层聚焦网络中使用注意力中心损失,通过惩罚每个种类的样本和该种类样本中心的偏移,使得同一种类的样本尽量聚合在一起;对属于同一对象部件的特征的方差进行惩罚,即部件特征Pk∈RM×C将趋近于全局特征中心Ek∈RM×C,在同一对象部件kth中反馈注意力图A;其中损失函数LC计算公式如:
Figure BDA0002867802940000051
Ek初始化为(0,0)计算公式如:Ek←Ek+β(Pk-Ek),β为控制更新速度的参数。
本发明的有益效果是:本发明多层聚焦网络模型能有效定位识别对象位置;卷积特征注意力模块能在增强目标对象有效特征的提取,同时相比同类模块降低计算复杂度;定位区域选择机制增强模型泛化能力;双线性注意力最大池化增强特征的表达,降低维度和减少卷积层参数误差造成估计均值的偏移的误差,提高模型的鲁棒性。
附图说明
图1为本发明中多层聚焦网络总体架构图;
图2为本发明中单层聚焦网络具体流程图;
图3为本发明所采用公共数据集的示例图。
具体实施方式
实施例1:如图1-3所示,一种基于多层聚焦注意力网络的细粒度图像分类方法,所述方法的具体步骤如下:
Step1、公共数据集CUB-200-2011共包含来自200个鸟类物种的11788张图像,其中5994张训练与验证图像,5794张测试图像。将训练图像输入首层聚焦网络,首层聚焦网络是结合了卷积块注意力特征模块的单层聚焦卷积网络,其生成特征与注意力积矩阵,同时输出定位区域;
Step2、裁剪及遮挡操作:经Step1操作之后得到了定位区域,裁剪操作根据该定位区域对原图像进行裁剪得到裁剪图像;遮挡操作根据Step1操作之后得到的定位区域对原图相应位置进行遮挡,得到遮挡图像;
Step3、把得到的裁剪图像及遮挡图像分别输入到第二、三层聚焦网络,生成特征与注意力矩阵积矩阵;
Step4、分类预测方法:把特征与注意力矩阵积矩阵输入到全连接层得到分类预测结果,分类预测结果采用注意力中心损失进行优化。
作为本发明的进一步方案,所述步骤Step1的具体步骤如下:
Step1.1、图像输入的首层聚焦网络采用Inception-V3作为基础网络,用于提取图像的基础特征;
Step1.2、由Step1.1得到Inception-V3网络提取图像的特征图F∈RC×H×W输入卷积块特征注意力模块中得到特征图Fa∈RC×H×W和注意力图A∈RM×H×W,如计算公式所示:
Figure BDA0002867802940000061
Figure BDA0002867802940000062
Fa=f1*1(M(F)),
Figure BDA0002867802940000063
其中C、H、W分别表示特征图的通道数、高度、宽度,
Figure BDA0002867802940000064
分别代表经过全局平均池化层和全局最大池化层计算后的特征值,W0和W1代表的是多层感知机模型中的两层参数,σ表示的是sigmoid激活函数,f7*7表示卷积层使用7x7的卷积核,f1*1表示卷积层使用1x1的卷积核,M是注意力图的数量;
Figure BDA0002867802940000065
表示从1至M的并集;
Step1.3、双线性注意力最大池化:将Step1.2得到的特征图Fa∈RC×H×W与每个注意力图A∈RM×H×W相乘,生成M个部分的特征与注意力矩阵积矩阵Fk∈RC×H×W,加入非线性激活函数,最大池化层,如计算公式所示:
Figure BDA0002867802940000066
其中Fk为两个张量的元素乘;通过全局最大池层得到第k个特征与注意力矩阵积矩阵fk∈R1×C;如计算公式所示:fk=MaxPool(Fk);Pk∈RM×C表示对象不同部分特征矩阵将作为模型输出进行预测,Pk由特征fk叠加而成;Ai表示注意力图A中的第i个子集,i∈[1,M];
Step1.4、定位区域选择机制:在注意力图A∈RM×H×W中有M个特征矩阵表示图像中的不同对象部件,使用softmax函数处理注意力图A得到
Figure BDA0002867802940000067
将注意力图中的值映射成为(0,1)的值,这些值的累和为1;softmax函数加入幂函数使这些值两极化:正样本的结果将趋近于1,而负样本的结果趋近于0;根据softmax函数的性质将进一步的去除噪音;计算M个特征矩阵被选中的概率pM
Figure BDA0002867802940000071
在参考概率pM的同时采用随机的方式从M个特征矩阵中选出一个特征矩阵Ak∈R1×H×W,其中概率大的特征矩阵优先选中,根据pM采用概率和随机方式得到定位区域注意力矩阵Ak∈R1×H×W进行标准化处理得到定位区域
Figure BDA00028678029400000711
Figure BDA0002867802940000073
作为本发明的进一步方案,所述步骤Step2的具体步骤如下:
Step2.1、根据Step1.4得到的定位区域
Figure BDA0002867802940000074
对原图像进行裁剪,裁剪后的图像能更大面积的覆盖识别对象,去除无关背景,起到非常好的分类效果;通过设置
Figure BDA0002867802940000075
大于阈值θc∈[0.4,0.6]时等于1,其他为0得到裁剪边框Ck,采取上采样的方式从原图像中放大这个区域得到裁剪图像作为第二层聚焦网络的输入;由于对象部分的规模增加,因此能更好地对对象提取更细粒度的特性,如计算公式所示:
Figure BDA0002867802940000076
Ck(i,j)表示裁剪边框的第i行第j个元素;
Step2.2、根据定位区域
Figure BDA0002867802940000077
对原图像进行局部遮挡;促进模型找出更多具有代表性的多个有判别性对象部分的定位区域
Figure BDA0002867802940000078
以此对抗由于裁剪操作产生局部最优过拟合的负面效果,提高分类的稳健性和定位的准确性;通过设置
Figure BDA0002867802940000079
小于或等于阈值θd∈[0.4,0.6]时为1,其他为0得到遮挡框Dk,将遮挡框与原图像相乘得到遮挡图像作为第三层聚焦网络的输入;计算公式所示:
Figure BDA00028678029400000710
Dk(i,j)遮挡框的第i行第j个元素。
作为本发明的进一步方案,所述步骤Step3的具体步骤如下:
Step3.1、将定位区域输入裁剪和遮挡模块对原图像进行裁剪和遮挡得到裁剪图像和遮挡图像分别作为第二、三层聚焦网络的输入;
Step3.2、第二、三层聚焦网络按照Step1.1、Step1.2、Step1.3的步骤对裁剪或遮挡后的图像进行操作,生成特征与注意力矩阵积矩阵。
作为本发明的进一步方案,所述步骤Step4中,分类预测结果采用注意力中心损失进行优化包括:
在首层聚焦网络和使用裁剪图像作为输入的第二层聚焦网络中使用注意力中心损失,通过惩罚每个种类的样本和该种类样本中心的偏移,使得同一种类的样本尽量聚合在一起;对属于同一对象部件的特征的方差进行惩罚,即部件特征Pk∈RM×C将趋近于全局特征中心Ek∈RM×C,在同一对象部件kth中反馈注意力图A;其中损失函数LC计算公式如:
Figure BDA0002867802940000081
Ek初始化为(0,0)计算公式如:Ek←Ek+β(Pk-Ek),β为控制更新速度的参数。
把特征与注意力矩阵积矩阵输入到全连接层训练好的模型输入公共数据集CUB-200-2011的5794张测试图像,分类结果与真实标签对比得到分类准确率及各模块组合结果如表1所示。
表1组成部分及其组合的贡献
Figure BDA0002867802940000082
实施例2,如图1-3所示,一种基于多层聚焦注意力网络的细粒度图像分类方法,本实施例与实施例1相同,不同之处在于,本实施例中公共数据集CUB-200-2011(200类11788张鸟类图像)、FGVC-Aircraft(100类10000张飞机图像)以及Stanford Cars(196类16185张汽车图像)上分别对本文方法进行评估,分别获得89.7%、93.6%、95.1%的Top-1准确率;在三个细粒度公共数据集上得到的结果与当前主流细粒度图像分类方法(VGG-19、ResNet-101等)比较结果如表2所示,实验结果表明,本方法的分类准确率高于目前主流方法。
表2与当前方法准确率对比
Figure BDA0002867802940000083
Figure BDA0002867802940000091
本发明提出一种基于多层聚焦注意力卷积网络的细粒度图像分类方法,整体结构如图1所示,具体单层聚焦网络内部流程图如图2所示,能够提取更多有效的局部特征,聚焦于对象的识别位置。得到更具有判别力的图像表达。同时多层聚焦卷积网络之间相互对抗、相互合作、相互受益、共同进步,进一步提高网络的性能。实验表明本文所提出的多层聚焦网络在图3所示的三个细粒度图像数据集上均取得优异的性能。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.一种基于多层聚焦注意力网络的细粒度图像分类方法,其特征在于:所述方法的具体步骤如下:
Step1、首层聚焦网络是结合了卷积块注意力特征模块的单层聚焦卷积网络,其生成特征与注意力积矩阵,同时输出定位区域;
Step2、裁剪及遮挡操作:经Step1操作之后得到了定位区域,裁剪操作根据该定位区域对原图像进行裁剪得到裁剪图像;遮挡操作根据Step1操作之后得到的定位区域对原图相应位置进行遮挡,得到遮挡图像;
Step3、把得到的裁剪图像及遮挡图像分别输入到第二、三层聚焦网络,生成特征与注意力矩阵积矩阵;
Step4、分类预测方法:把特征与注意力矩阵积矩阵输入到全连接层得到分类预测结果,分类预测结果采用注意力中心损失进行优化;
所述步骤Step1的具体步骤如下:
Step1.1、图像输入的首层聚焦网络采用Inception-V3作为基础网络,用于提取图像的基础特征;
Step1.2、由Step1.1得到Inception-V3网络提取图像的特征图F∈RC×H×W输入卷积块特征注意力模块中得到特征图Fa∈RC×H×W和注意力图A∈RM×H×W,如计算公式所示:
Figure FDA0003893265950000011
Figure FDA0003893265950000012
Fa=f1*1(M(F)),
Figure FDA0003893265950000013
其中C、H、W分别表示特征图的通道数、高度、宽度,
Figure FDA0003893265950000014
分别代表经过全局平均池化层和全局最大池化层计算后的特征值,W0和W1代表的是多层感知机模型中的两层参数,σ表示的是sigmoid激活函数,f7*7表示卷积层使用7x7的卷积核,f1*1表示卷积层使用1x1的卷积核,M是注意力图的数量;
Figure FDA0003893265950000015
表示从1至M的并集;
Step1.3、双线性注意力最大池化:将Step1.2得到的特征图Fa∈RC×H×W与每个注意力图A∈RM×H×W相乘,生成M个部分的特征与注意力矩阵积矩阵Fk∈RC×H×W,加入非线性激活函数,最大池化层,如计算公式所示:
Figure FDA0003893265950000021
其中Fk为两个张量的元素乘;通过全局最大池层得到第k个特征与注意力矩阵积矩阵fk∈R1×C;如计算公式所示:fk=MaxPool(Fk);Pk∈RM ×C表示对象不同部分特征矩阵将作为模型输出进行预测,Pk由特征fk叠加而成;Ai表示注意力图A中的第i个子集,i∈[1,M];
Step1.4、定位区域选择机制:在注意力图A∈RM×H×W中有M个特征矩阵表示图像中的不同对象部件,使用softmax函数处理注意力图A得到
Figure FDA0003893265950000022
将注意力图中的值映射成为(0,1)的值,这些值的累和为1;softmax函数加入幂函数使这些值两极化:正样本的结果将趋近于1,而负样本的结果趋近于0;根据softmax函数的性质将进一步的去除噪音;计算M个特征矩阵被选中的概率pM
Figure FDA0003893265950000023
在参考概率pM的同时采用随机的方式从M个特征矩阵中选出一个特征矩阵Ak∈R1×H×W,其中概率大的特征矩阵优先选中,根据pM采用概率和随机方式得到定位区域注意力矩阵Ak∈R1×H×W进行标准化处理得到定位区域
Figure FDA0003893265950000024
Figure FDA0003893265950000025
所述步骤Step4中,分类预测结果采用注意力中心损失进行优化包括:
在首层聚焦网络和使用裁剪图像作为输入的第二层聚焦网络中使用注意力中心损失,通过惩罚每个种类的样本和该种类样本中心的偏移,使得同一种类的样本尽量聚合在一起;对属于同一对象部件的特征的方差进行惩罚,即部件特征Pk∈RM×C将趋近于全局特征中心Ek∈RM×C,在同一对象部件kth中反馈注意力图A;其中损失函数LC计算公式如:
Figure FDA0003893265950000026
Ek初始化为(0,0)计算公式如:Ek←Ek+β(Pk-Ek),β为控制更新速度的参数。
2.根据权利要求1所述的基于多层聚焦注意力网络的细粒度图像分类方法,其特征在于:所述步骤Step2的具体步骤如下:
Step2.1、根据Step1.4得到的定位区域
Figure FDA0003893265950000027
对原图像进行裁剪,裁剪后的图像能更大面积的覆盖识别对象,去除无关背景,起到非常好的分类效果;通过设置
Figure FDA0003893265950000028
大于阈值θc∈[0.4,0.6]时等于1,其他为0得到裁剪边框Ck,采取上采样的方式从原图像中放大这个区域得到裁剪图像作为第二层聚焦网络的输入;由于对象部分的规模增加,因此能更好地对对象提取更细粒度的特性,如计算公式所示:
Figure FDA0003893265950000031
Ck(i,j)表示裁剪边框的第i行第j个元素;
Step2.2、根据定位区域
Figure FDA0003893265950000032
对原图像进行局部遮挡;促进模型找出更多具有代表性的多个有判别性对象部分的定位区域
Figure FDA0003893265950000033
以此对抗由于裁剪操作产生局部最优过拟合的负面效果,提高分类的稳健性和定位的准确性;通过设置
Figure FDA0003893265950000034
小于或等于阈值θd∈[0.4,0.6]时为1,其他为0得到遮挡框Dk,将遮挡框与原图像相乘得到遮挡图像作为第三层聚焦网络的输入;计算公式所示:
Figure FDA0003893265950000035
Figure FDA0003893265950000036
Dk(i,j)遮挡框的第i行第j个元素。
3.根据权利要求1所述的基于多层聚焦注意力网络的细粒度图像分类方法,其特征在于:所述步骤Step3的具体步骤如下:
Step3.1、将定位区域输入裁剪和遮挡模块对原图像进行裁剪和遮挡得到裁剪图像和遮挡图像分别作为第二、三层聚焦网络的输入;
Step3.2、第二、三层聚焦网络按照Step1.1、Step1.2、Step1.3的步骤对裁剪或遮挡后的图像进行操作,生成特征与注意力矩阵积矩阵。
CN202011588241.4A 2020-12-29 2020-12-29 一种基于多层聚焦注意力网络的细粒度图像分类方法 Active CN112686242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011588241.4A CN112686242B (zh) 2020-12-29 2020-12-29 一种基于多层聚焦注意力网络的细粒度图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011588241.4A CN112686242B (zh) 2020-12-29 2020-12-29 一种基于多层聚焦注意力网络的细粒度图像分类方法

Publications (2)

Publication Number Publication Date
CN112686242A CN112686242A (zh) 2021-04-20
CN112686242B true CN112686242B (zh) 2023-04-18

Family

ID=75454562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011588241.4A Active CN112686242B (zh) 2020-12-29 2020-12-29 一种基于多层聚焦注意力网络的细粒度图像分类方法

Country Status (1)

Country Link
CN (1) CN112686242B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998964B (zh) * 2022-06-02 2023-04-18 天津道简智创信息科技有限公司 一种新型证照质量检测方法
CN114708466B (zh) * 2022-06-08 2022-09-09 南京智莲森信息技术有限公司 零部件异常细粒度分类方法、系统、存储介质及计算设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569905A (zh) * 2019-09-10 2019-12-13 江苏鸿信系统集成有限公司 基于生成对抗网络和注意力网络的细粒度图像分类方法
CN110619369A (zh) * 2019-09-23 2019-12-27 常熟理工学院 基于特征金字塔与全局平均池化的细粒度图像分类方法
CN111191737A (zh) * 2020-01-05 2020-05-22 天津大学 基于多尺度反复注意力机制的细粒度图像分类方法
CN112132058A (zh) * 2020-09-25 2020-12-25 山东大学 一种基于多层级图像特征精炼学习的头部姿态估计方法及其实现系统、存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706914B2 (en) * 2007-04-23 2014-04-22 David D. Duchesneau Computing infrastructure
US10223611B1 (en) * 2018-03-08 2019-03-05 Capital One Services, Llc Object detection using image classification models
CN110084285A (zh) * 2019-04-08 2019-08-02 安徽艾睿思智能科技有限公司 基于深度学习的鱼类细粒度分类方法
CN110197202A (zh) * 2019-04-30 2019-09-03 杰创智能科技股份有限公司 一种局部特征细粒度目标检测算法
CN110083705B (zh) * 2019-05-06 2021-11-02 电子科技大学 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
US10461421B1 (en) * 2019-05-07 2019-10-29 Bao Tran Cellular system
CN110533024B (zh) * 2019-07-10 2021-11-23 杭州电子科技大学 基于多尺度roi特征的双二次池化细粒度图像分类方法
CN110598029B (zh) * 2019-09-06 2022-03-22 西安电子科技大学 基于注意力转移机制的细粒度图像分类方法
CN110674874B (zh) * 2019-09-24 2022-11-29 武汉理工大学 基于目标精细组件检测的细粒度图像识别方法
CN111178432B (zh) * 2019-12-30 2023-06-06 武汉科技大学 多分支神经网络模型的弱监督细粒度图像分类方法
CN111160356A (zh) * 2020-01-02 2020-05-15 博奥生物集团有限公司 一种图像分割分类方法和装置
CN111539469B (zh) * 2020-04-20 2022-04-08 东南大学 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
CN111652236B (zh) * 2020-04-21 2022-04-29 东南大学 弱监督场景下跨层特征交互的轻量级细粒度图像识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569905A (zh) * 2019-09-10 2019-12-13 江苏鸿信系统集成有限公司 基于生成对抗网络和注意力网络的细粒度图像分类方法
CN110619369A (zh) * 2019-09-23 2019-12-27 常熟理工学院 基于特征金字塔与全局平均池化的细粒度图像分类方法
CN111191737A (zh) * 2020-01-05 2020-05-22 天津大学 基于多尺度反复注意力机制的细粒度图像分类方法
CN112132058A (zh) * 2020-09-25 2020-12-25 山东大学 一种基于多层级图像特征精炼学习的头部姿态估计方法及其实现系统、存储介质

Also Published As

Publication number Publication date
CN112686242A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
Jalal et al. Scene Semantic recognition based on modified Fuzzy c-mean and maximum entropy using object-to-object relations
CN108830188B (zh) 基于深度学习的车辆检测方法
Li et al. Deep neural network for structural prediction and lane detection in traffic scene
Lee et al. Simultaneous traffic sign detection and boundary estimation using convolutional neural network
Bouti et al. A robust system for road sign detection and classification using LeNet architecture based on convolutional neural network
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
Alani et al. Hand gesture recognition using an adapted convolutional neural network with data augmentation
Mathur et al. Crosspooled FishNet: transfer learning based fish species classification model
Qiu Global weighted average pooling bridges pixel-level localization and image-level classification
Akilan et al. sEnDec: an improved image to image CNN for foreground localization
Ye et al. A two-stage real-time YOLOv2-based road marking detector with lightweight spatial transformation-invariant classification
CN112686242B (zh) 一种基于多层聚焦注意力网络的细粒度图像分类方法
Nguyen et al. Hybrid deep learning-Gaussian process network for pedestrian lane detection in unstructured scenes
CN112990282B (zh) 一种细粒度小样本图像的分类方法及装置
Zhang et al. Deep classification of vehicle makers and models: The effectiveness of pre-training and data enhancement
CN109472733A (zh) 基于卷积神经网络的图像隐写分析方法
CN114821014A (zh) 基于多模态与对抗学习的多任务目标检测识别方法及装置
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
Khellal et al. Pedestrian classification and detection in far infrared images
Rosales et al. Faster r-cnn based fish detector for smart aquaculture system
Makwana et al. PCBSegClassNet—A light-weight network for segmentation and classification of PCB component
CN114743126A (zh) 一种基于图注意力机制网络的车道线标志分割方法
Ji et al. DBENet: Dual-Branch Ensemble Network for Sea-Land Segmentation of Remote Sensing Images
CN112149612A (zh) 一种基于深度神经网络的海洋生物识别系统及识别方法
Prasenan et al. Fish species classification using a collaborative technique of firefly algorithm and neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant