CN111539469A - 一种基于视觉自注意力机制的弱监督细粒度图像识别方法 - Google Patents

一种基于视觉自注意力机制的弱监督细粒度图像识别方法 Download PDF

Info

Publication number
CN111539469A
CN111539469A CN202010311761.4A CN202010311761A CN111539469A CN 111539469 A CN111539469 A CN 111539469A CN 202010311761 A CN202010311761 A CN 202010311761A CN 111539469 A CN111539469 A CN 111539469A
Authority
CN
China
Prior art keywords
model
student
teacher
image
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010311761.4A
Other languages
English (en)
Other versions
CN111539469B (zh
Inventor
李春国
刘杨
杨哲
杨绿溪
徐琴珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010311761.4A priority Critical patent/CN111539469B/zh
Publication of CN111539469A publication Critical patent/CN111539469A/zh
Application granted granted Critical
Publication of CN111539469B publication Critical patent/CN111539469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视觉自注意力机制的弱监督细粒度图像识别方法,包含student‑model、teacher‑model以及classification‑model模块;student‑model和teacher‑model经基于Pairwise Approach排序学习的Teacher‑Student循环反馈机制联合,构成自注意力区域推荐网络,从而增强判别性区域定位与细粒度特征学习之间的联系,在缺少目标边界框和部位标注点的情况下依然能够较为准确地检测细粒度图像中判别性区域,促使识别准确率显著提高;同时,student‑model、teacher‑model和classification‑model三个模块共享卷积层,有效压缩模型存储空间并降低计算成本,使得该方法满足实时性识别任务要求,适用于大规模真实场景;此外,多任务联合学习中采用动态权重分配机制减少人为设定超参数量,增强模型鲁棒性,最终整体模型通过端到端的单阶段方式进行训练与学习,降低网络优化难度。

Description

一种基于视觉自注意力机制的弱监督细粒度图像识别方法
技术领域
本发明涉及计算机视觉技术领域,尤其是一种基于视觉自注意力机制的弱监督细粒度图像识别方法。
背景技术
细粒度图像识别是计算机视觉领域一项颇具挑战性的研究课题,目的是区分同一大类下各个不同的子类。与跨物种的粗粒度图像识别任务相比,细粒度图像数据集中不同种类的目标外观相似度较高,而同一种类的目标由于光照、姿势和视角等因素导致视觉差异显著,因此使用一般的深度学习图像识别技术难以准确地判别细粒度目标类别。以往研究表明,细粒度图像识别任务的难点在于判别性区域定位和细粒度特征学习,现有的研究工作也基本上是围绕这两个方向开展。强监督细粒度识别模型利用目标边界框或部位标注点等额外的监督信息,使得网络具有自主检测细粒度图像判别性区域的能力。然而由于手工标注的监督信息获取代价高昂,致使这项技术无法应用于大规模实际问题。与此同时,弱监督细粒度识别模型多依赖于深度神经网络强大的特征提取与表达能力来提升识别准确率。例如,ResNet系列网络(详见K.He,X.Zhang,S.Ren.Deep Residual Learning forImage Recognition.CVPR,2015.)优化残差函数使得网络层级扩展至152,有效学习深层语义信息;Bilinear CNN(详见T.Lin.Bilinear CNN Models for Fine-Grained VisualRecognition.ICCV,2015.)通过双线性池化捕捉特征通道间的相关关系,进而挖掘潜藏信息。尽管上述两类方法已取得初步的成果,但是由于割裂判别性区域定位与细粒度特征学习之间的联系,因而后续发展受限。
针对这一问题,注意力机制(Attention Mechanism)通过相互增强、彼此促进的方式加深区域定位和特征学习之间的联系,从而自主检测图像显著性区域,受到学术界和工业界的广泛关注。注意力机制源于对人类视觉的研究,在认知学科中,人类为了合理利用有限的视觉信息处理资源,在图像观察过程中会选择性地关注其中某些重点区域,而忽略其他可见信息,这一机制通常称为注意力机制。然而,利用图像级标签弱监督信息构建注意力机制实现细粒度图像识别存在一个关键性问题,即如何借助图像级标签信息来确定目标或判别性区域的空间位置。早期的注意力检测方案基于颜色、纹理等底层特征搜索图像中颜色对比度高或纹理突出的区域,这种方法在一定程度上符合人类认知和思维方式,因此具有较强的解释性。但是由于底层特征多采用手工方式进行提取,缺少来自高层语义信息的指导与反馈,导致此类方法在复杂场景中失效。
RA-CNN(详见J.Fu,H.Zheng,T.Mei.Look Closer to See Better:RecurrentAttention Convolutional Neural Network for Fine-Grained ImageRecognition.CVPR,2017.)基于深度卷积神经网络提取的高级语义特征创建注意力区域,其整体框架由三重相互独立的基础网络构成,每重网络又可进一步分解为分类模块与注意力推荐模块。在注意力推荐模块中,RA-CNN设定推荐区域的形状为正方形,原始图像经过卷积层和全连接层输出通道数为3的特征张量,分别对应于推荐区域的中心点横纵坐标及边长,然后使用boxcar函数作为注意力掩模结合全连接层特征信息对原始图像进行裁剪,并且将裁剪所得区域进行双线性插值放大输入至下一重神经网络,重复上述步骤使得模型逐渐聚焦至细粒度图像中判别性区域,最终联合分类模块确定目标类别。由此可见,RA-CNN本质是将三重网络串行联接,然而这种结构一方面会导致模型参数量和计算量过高,另一方面如果第一重网络推荐的注意力区域偏离实际判别性区域,在前向传播过程中误差会不断积累,影响模型整体识别效果。除此之外,通常情况下细粒度图像中存在多个关键部位,综合所有部位的特征信息才能保证预测类别的正确性,而RA-CNN仅针对单一注意力区域进行多尺度特征提取,这可能模型导致无法充分地掌握细粒度特征信息。MA-CNN(详见H.Zheng,J.Fu.Learning Multi-attention Convolutional Neural Network for Fine-GrainedImage Recognition.ICCV,2017.)则是基于单流卷积神经网络生成注意力区域,从而压缩模型存储空间,降低计算成本。MA-CNN整体结构由卷积模块、通道分组模块以及局部区域分类模块组成,其中注意力推荐在通道分组模块内完成。MA-CNN认为每一通道的卷积特征对应某种类型的视觉模式,通过聚类算法可以将多个空间相关的特征通道进行融合,以无监督方式生成一组特定模式,原始图像某一局部位置在该模式下产生强烈响应。基于这一思想,MA-CNN通道分组模块依据卷积特征响应分布对通道进行分组与合并,并将这些分组特征输入sigmoid函数获得注意力掩模,该掩模与神经网络输出特征相乘即可得到对应区域的特征信息,经分类模块进行目标识别。然而,MA-CNN整体模型采用交替训练方式,即在误差反向传播阶段,首先更新卷积模块权重参数,之后对特征通道分组模块进行优化,最后结合softmax分类函数再次更新卷积模块,直至损失函数不再改变。这种训练方式较为复杂,且容易陷入局部最优解。
综上所述,针对仅使用图像级标签信息的弱监督细粒度图像识别任务,现有的方法难以简单、准确且稳定的检测图像判别性区域并学习细粒度特征,因此需要一种自适应性和鲁棒性较高的基于视觉自注意力机制的细粒度图像识别方法。
发明内容
本发明所要解决的技术问题在于,提供一种基于视觉自注意力机制的弱监督细粒度图像识别方法,能够仅借助图像级标签信息自主检测细粒度中图像判别性区域,减少图像背景干扰,提高识别准确率,增强模型鲁棒性。
为解决上述技术问题,本发明提供一种基于视觉自注意力机制的弱监督细粒度图像识别方法,包括如下步骤:
(1)在预处理阶段,将任意尺寸的原始图像缩放至600×600像素,在此基础上以图像中心为原点裁剪出448×448像素区域,按照均值[0.485,0.456,0.406]和标准差[0.229,0.224,0.225]对裁剪区域进行规范化处理,而后将归一化图像输入基于视觉自注意力机制的细粒度识别模型;
(2)输入图像经共享卷积神经网络输出14×14×2048维特征张量,student-model借助目标检测领域常用的区域建议网络RPN的锚框思想,将步长为1、2、2,输出通道数为128的三个3×3卷积层序贯连接至共享基础网络,对特征进行降维,此时三个卷积层输出降维特征图分辨率依次是14×14、7×7和4×4;针对单个降维特征图中每一像素点,student-model将其映射至448×448像素的输入图像产生不同尺度和比例的k种规格的锚框(anchor),将锚框对应的共享卷积特征信息输入分类全连接层获得k个得分,该数值表示锚框内物体属于前景的概率,由于细粒度数据集中每幅图像仅包含单个目标,因此这一概率值能够反映此区域内语义信息量;
(3)非极大值抑制算法Hard-NMS将student-model创建的锚框{R′1,R′2,…,R′P}按照分类全连接层输出的得分{s′1,s′2,…,s′P},即信息量降序排列,保留其中分值最高的锚框,并且将与该锚框交并比(Intersection over Union,IOU)大于设定阈值的所有锚框分值强制归零,即
Figure BDA0002458109010000031
式中,R′i表示第i个锚框,s′i表示锚框R′i的信息量,M表示当前信息量最高的锚框,Nt表示非极大值抑制算法Hard-NMS的阈值,重复步骤(3)直至剩余锚框数量为N,N表示用户定义的候选区域数目;
(4)经过非极大值抑制算法初步筛选后,student-model剩余N个候选区域{R1,R2,…,RN},此时s1≥s2≥…sN,其中si表示候选区域Ri对应的信息量;
(5)teacher-model将候选区域{R1,R2,…,RN}的卷积特征并行输入多个独立的全连接层,结合softmax函数计算对应区域属于真实目标类别的概率,获得置信度{c1,c2,…,cN};与此同时,设定细粒度图像中候选区域类别标签与所在图像级标签相同,利用交叉熵损失函数计算目标真实类别与teacher-model预测结果之间的误差,即
Figure BDA0002458109010000041
式中,Ltch表示teacher-model的损失函数,i∈{1,2,…,N}表示候选区域索引,ci表示候选区域Ri属于真实目标类别的概率,cI表示输入图像I属于真实目标类别的概率,公式中第二项-log(cI)表示完整输入图像的交叉熵,能够帮助teacher-model从全局角度把握预测方向;
(6)student-model与teacher-model经Teacher-Student循环反馈机制构成自注意力区域推荐网络,Teacher-Student循环反馈机制利用Pairwise Approach排序学习算法将候选区域Ri和Rj在student-model中的信息量与teacher-model中的置信度构建文档对{(si,sj),(ci,cj)};如果置信度ci>cj,信息量满足si>sj,则认为该文档对构成正确的偏序关系;反之,如果ci>cj,而si<sj,则认为偏序关系错误;Pairwise Approach排序学习算法通过最大边界损失(Hinge Loss)函数对偏序关系错误的文档对进行惩罚,即
Figure BDA0002458109010000042
式中,Lrank表示Teacher-Student循环反馈机制的损失函数,margin表示边界阈值;
(7)student-model根据Teacher-Student循环反馈机制的损失函数优化卷积层和分类全连接层参数,重复步骤(2)~(6)直至候选区域{R1,R2,…,RN}的信息量{s1,s2,…,sN}和置信度{c1,c2,…,cN}排列顺序一致,此时从候选区域中选取信息量最高的K个区域进行推荐,这K个推荐区域{R1,R2,…,RK}即为注意力区域;
(8)将注意力区域{R1,R2,…,RK}和输入图像I经共享卷积神经网络输出的特征信息通过特征级联方式融合,输入classification-model判断图像类别,利用交叉熵损失函数衡量预测类别与真实目标类别之间的差异,即
Lcls=-logc(I,R1,…,RK)
式中,Lcls表示classification-model的损失函数,c(I,R1,R2,…,RK)表示联合输入图像和注意力区域的特征信息计算出的图像属于真实目标类别的概率;
(9)在teacher-model、Teacher-Student循环反馈机制和classification-model多任务学习过程中,为提升每个子任务的学习效率和预测速度,并增强模型泛化能力,联合全部子任务的损失函数进行优化,则总体损失函数Ltotal
Ltotal=w1Ltch+w2Lrank+w3Lcls
式中,w1、w2和w3为权重超参数,分别表示teacher-model损失函数Ltch、Teacher-Student循环反馈机制排序损失函数Lrank和classification-model分类损失函数Lcls在总体损失函数Ltotal中所占比例;
(10)动态权重分配机制根据每个子任务自身损失变化率自适应地调整对应的权重系数,即
Figure BDA0002458109010000051
式中,γk(·)∈(0,1)表示第k个子任务损失函数的相对变化率,初始化γk(0)=γk(1)=1,Lk表示第k个子任务的损失函数,t表示训练迭代次数epoch,结合softmax函数计算相对权重系数
Figure BDA0002458109010000052
式中,wk表示第k个子任务的相对权重,B=3表示总体任务数目,T为超参数,用于设置各权重系数的相似程度,T值越大表明各子任务的权重系数差距越小;
(11)根据总体损失函数利用动量随机梯度下降算法对整体模型进行端到端的训练。
优选的,步骤(2)中,student-model依据目标检测领域中区域建议网络RPN的锚框思想并在此基础上有所改进,从而在缺少目标位置信息的情况下产生大量可能包含目标的锚框,并通过非极大值抑制算法进行初步筛选,获得候选区域及对应信息量,网络结构具体为:假设原始图像经过预处理操作后尺寸统一为448×448像素,输入共享卷积层获得14×14×2048维特征张量,该特征张量首先通过卷积核大小为3×3,步长为1,输入通道数为2048,输出通道数为128的卷积层生成14×14×128维特征,对特征进行降维;其次,将降维特征输入步长为2,输入和输出通道数均为128的3×3卷积层获得7×7×128维特征张量;之后,使用步长为2,输入和输出通道数均为128的3×3卷积层再次缩小特征图谱分辨率,产生4×4×128维特征张量;最后,将分辨率为14×14特征图谱中每一像素点映射回448×448像素的输入图像创建尺度为48×48,比例为{2:3,1:1,3:2}的3种规格的锚框,将分辨率为7×7特征图谱中每一像素点映射回448×448像素的输入图像创建尺度为96×96,比例为{2:3,1:1,3:2}的3种规格的锚框,将分辨率为4×4特征图谱中每一像素点映射回448×448像素的输入图像创建尺度为192×192,比例为{2:3,1:1,3:2}的3种规格的锚框;此时,将所有锚框{R′1,R′2,…,R′P}经共享卷积层输出的特征信息独立地输入分类全连接层计算对应得分{s′1,s′2,…,s′P};由于student-model需对三个降维特征14×14×128、7×7×128和4×4×128每128维特征向量采取相同的操作,这一操作与使用三个独立的1×1卷积层等价,并且通过1×1卷积层代替分类全连接层能够有效降低计算复杂度;student-model得到锚框及对应得分后使用非极大值抑制算法Hard-NMS对其进行初步筛选,滤除冗余锚框,获得候选区域{R1,R2,…,RN}和对应信息量{s1,s2,…,sN}。
优选的,步骤(6)中,Teacher-Student循环反馈机制通过检索与推荐领域的PairwiseApproach排序学习算法对student-model参数进行优化,使其能够自主检测细粒度图像的判别性区域,Teacher-Student循环反馈机制具体为:student-model借助区域建议网络RPN的锚框思想,利用3×3卷积层和1×1分类全连接层产生大量可能包含目标的锚框{R′1,R′2,…,R′P},并且通过非极大值抑制算法Hard-NMS对锚框进行初步筛选,获得候选区域集合{R1,R2,…,RN}以及对应信息量{s1,s2,…,sN};teacher-model首先将候选区域{R1,R2,…,RN}输入共享卷积层获得特征信息,之后将特征信息并行输入多个独立的全连接层,结合softmax计算候选区域的置信度{c1,c2,…,cN};Pairwise Approach排序学习算法根据teacher-model的反馈结果,基于候选区域Ri和Rj的信息量(si,sj)和置信度(ci,cj)构建信息量-置信度文档对{(si,sj),(ci,cj)},当置信度ci>cj时,如果si>sj,那么文档对{(si,sj),(ci,cj)}的偏序关系正确,记作
Figure BDA0002458109010000071
反之,如果si<sj,则认为偏序关系错误,记作
Figure BDA0002458109010000072
Pairwise Approach通过最大边界损失函数对错误偏序关系的文档对进行惩罚,获得代价函数
Figure BDA0002458109010000073
等式中,margin表示边界阈值;在误差反向传播过程中,利用梯度下降算法对student-model中3×3卷积层和1×1分类全连接层的参数进行更新;student-model在此基础上再次借助锚框思想创建大量可能包含目标的锚框,并经非极大值抑制算法初步筛选,从而产生候选区域集合,teacher-model根据候选区域卷积特征预测类别置信度,Pairwise Approach排序学习算法构建新的信息量-置信度文档对,计算代价函数,并结合梯度下降算法优化student-model网络参数;循环往复,直至候选区域{R1,R2,…,RN}在student-model的信息量{s1,s2,…,sN}与teacher-model的置信度{c1,c2,…,cN}顺序一致,此时代价函数J=0,Teacher-Student循环反馈停止。
优选的,步骤(7)中,候选区域{R1,R2,…,RN}的信息量{s1,s2,…,sN}和置信度{c1,c2,…,cN}排列顺序相同是指,任意候选区域Ri对应信息量si在信息量集合{s1,s2,…,sN}中的相对位置与置信度ci在其集合{c1,c2,…,cN}中的相对位置一致。
本发明的有益效果为:利用student-model、teacher-model及Teacher-Student循环反馈机制构建的自注意力区域推荐网络增强判别性区域定位和细粒度特征学习之间的联系,在缺少目标边界框和部位标注点的情况下依然能够较为准确地检测细粒度图像中判别性区域,降低图像背景干扰,显著提升识别准确率;同时,student-model、teacher-model和classification-model三个模块共享卷积层,能够有效压缩模型存储空间,降低计算成本,使得该方法满足实时性识别任务要求,适用于大规模真实场景;此外,动态权重分配机制帮助减少人为设定的超参数量,增强模型鲁棒性,最终整体模型通过端到端的单阶段方式进行训练与学习,减轻设计负担,降低模型优化难度。
附图说明
图1为本发明的结构框架示意图。
图2为本发明student-model结构框架示意图。
图3为本发明Teacher-Student循环反馈机制示意图。
图4为本发明多任务损失函数联合优化示意图。
图5为本发明采用动态权重分配机制各子任务权重系数变化趋势示意图。
图6为本发明采用不同权重分配机制细粒度识别模型准确率对比示意图。
图7为本发明自注意力区域推荐网络针对CUB-200-2011数据集部分样例的判别性区域定位可视化结果示意图。
具体实施方式
一种基于视觉自注意力机制的弱监督细粒度图像识别方法,包括如下步骤:
步骤1:在预处理阶段,将任意尺寸的原始图像缩放至600×600像素,在此基础上以图像中心为原点裁剪出448×448像素区域,按照均值[0.485,0.456,0.406]和标准差[0.229,0.224,0.225]对裁剪区域进行规范化处理,而后将归一化图像输入基于视觉自注意力机制的细粒度识别模型;
步骤2:输入图像经共享卷积神经网络输出14×14×2048维特征张量,student-model借助目标检测领域常用的区域建议网络RPN的锚框思想,将步长为1、2、2,输出通道数为128的三个3×3卷积层序贯连接至共享基础网络,对特征进行降维。此时三个卷积层输出降维特征图分辨率依次是14×14、7×7和4×4。针对单个降维特征图中每一像素点,student-model将其映射至448×448像素的输入图像产生不同尺度和比例的k种规格的锚框(anchor),将锚框对应的共享卷积特征信息输入分类全连接层获得k个得分,该数值表示锚框内物体属于前景的概率。由于细粒度数据集中每幅图像仅包含单个目标,因此这一概率值能够反映此区域内语义信息量;
步骤3:非极大值抑制算法Hard-NMS将student-model创建的锚框{R′1,R′2,…,R′P}按照分类全连接层输出的得分{s′1,s′2,…,s′P},即信息量降序排列,保留其中分值最高的锚框,并且将与该锚框交并比(Intersection over Union,IOU)大于设定阈值的所有锚框分值强制归零,即
Figure BDA0002458109010000091
式中,R′i表示第i个锚框,s′i表示锚框R′i的信息量,M表示当前信息量最高的锚框,Nt为非极大值抑制算法Hard-NMS的阈值。重复步骤3直至剩余锚框数量为N,N表示用户定义的候选区域数目;
步骤4:经过非极大值抑制算法初步筛选后,student-model剩余N个候选区域{R1,R2,…,RN},此时s1≥s2≥…sN,其中si表示候选区域Ri对应的信息量;
步骤5:teacher-model将候选区域{R1,R2,…,RN}的卷积特征并行输入多个独立的全连接层,结合softmax函数计算对应区域属于真实目标类别的概率,获得置信度{c1,c2,…,cN}。与此同时,设定细粒度图像中候选区域类别标签与所在图像级标签相同,利用交叉熵损失函数计算目标真实类别与teacher-model预测结果之间的误差,即
Figure BDA0002458109010000092
式中,Ltch表示teacher-model的损失函数,i∈{1,2,…,N}表示候选区域索引,ci表示候选区域Ri属于真实目标类别的概率,cI表示输入图像I属于真实目标类别的概率。公式中第二项-log(cI)表示完整输入图像的交叉熵,能够帮助teacher-model从全局角度把握预测方向;
步骤6:student-model与teacher-model经Teacher-Student循环反馈机制构成自注意力区域推荐网络,Teacher-Student循环反馈机制利用Pairwise Approach排序学习算法将候选区域Ri和Rj在student-model中的信息量与teacher-model中的置信度构建文档对{(si,sj),(ci,cj)}。如果置信度ci>cj,信息量满足si>sj,则认为该文档对构成正确的偏序关系;反之,如果ci>cj,而si<sj,则认为偏序关系错误。Pairwise Approach排序学习算法通过最大边界损失(Hinge Loss)函数对偏序关系错误的文档对进行惩罚,即
Figure BDA0002458109010000093
式中,Lrank表示Teacher-Student循环反馈机制的损失函数,margin表示边界阈值;
步骤7:student-model根据Teacher-Student循环反馈机制的损失函数优化卷积层和分类全连接层参数,重复步骤2~6直至候选区域{R1,R2,…,RN}的信息量{s1,s2,…,sN}和置信度{c1,c2,…,cN}排列顺序一致,此时从候选区域中选取信息量最高的K个区域进行推荐,这K个推荐区域{R1,R2,…,RK}即为注意力区域;
步骤8:将注意力区域{R1,R2,…,RK}和输入图像I经共享卷积神经网络输出的特征信息通过特征级联方式融合,输入classification-model判断图像类别,利用交叉熵损失函数衡量预测类别与真实目标类别之间的差异,即
Lcls=-logc(I,R1,…,RK)
式中,Lcls表示classification-model的损失函数,c(I,R1,R2,…,RK)表示联合输入图像和注意力区域的特征信息计算出的图像属于真实目标类别的概率;
步骤9:在teacher-model、Teacher-Student循环反馈机制和classification-model多任务学习过程中,为提升每个子任务的学习效率和预测速度,并增强模型泛化能力,联合全部子任务的损失函数进行优化,则总体损失函数Ltotal
Ltotal=w1Ltch+w2Lrank+w3Lcls
式中,w1、w2和w3为权重超参数,分别表示teacher-model损失函数Ltch、Teacher-Student循环反馈机制排序损失函数Lrank和classification-model分类损失函数Lcls在总体损失函数Ltotal中所占比例;
步骤10:动态权重分配机制根据每个子任务自身损失变化率自适应地调整对应的权重系数,即
Figure BDA0002458109010000101
式中,γk(·)∈(0,1)表示第k个子任务损失函数的相对变化率,初始化γk(0)=γk(1)=1,Lk表示第k个子任务的损失函数,t表示训练迭代次数epoch。结合softmax函数计算相对权重系数
Figure BDA0002458109010000111
式中,wk表示第k个子任务的相对权重,B=3表示总体任务数目,T为超参数,用于设置各权重系数的相似程度,T值越大表明各子任务的权重系数差距越小;
步骤11:根据总体损失函数利用动量随机梯度下降算法对整体模型进行端到端的训练。
图1给出本发明的实现流程框图。首先,原始图像经过预处理后输入共享卷积神经网络提取特征信息,student-model根据这一特征信息生成大量可能包含目标及其关键部位的锚框并且计算对应的信息量,使用非极大值抑制算法对锚框进行初步筛选,进而获得候选区域。其次,设定候选区域类别标签与所在图像级标签相同,teacher-model评估候选区域属于目标真实类别的置信度并将其反馈至student-model,student-model依据反馈结果结合Pairwise Approach排序学习算法优化网络参数,产生新的候选区域,teacher-model在此基础上再次评估区域置信度,循环往复直至候选区域在student-model中信息量与teacher-model中置信度顺序一致,从中选取信息量Top-K区域进行推荐,即注意力区域。之后,将注意力区域与完整图像的特征信息通过特征级联方式融合,输入classification-model判断图像类别。最后,在student-model、teacher-model和classification-model三个模块联合学习过程中,采用动态权重分配机制根据每一学习任务的自身损失函数变化情况自适应地调整对应的权重系数,使用赋权相加的方式计算总体损失函数,并结合动量随机梯度下降算法更新模型参数。
图2为student-model结构框架示意图。原始图像经预处理操作后输入共享卷积神经网络输出14×14×2048维特征张量,student-model将步长为1、2、2,输出通道数为128的三个3×3卷积层序贯连接至共享基础网络,实现特征降维。此时三个卷积层输出降维特征图分辨率依次是14×14、7×7和4×4。这一过程等同于进行三次不同步长的3×3滑动窗口操作。针对单个降维特征图中每一像素点,student-model将其映射至448×448像素的输入图像产生不同尺度和比例的k种规格的锚框(anchor),将锚框对应的共享卷积特征信息输入分类全连接层获得k个得分,该数值表示锚框内物体属于前景的概率。由于student-model需要对三个降维特征中每128维向量采取相同的操作,这一过程与使用3个独立的1×1卷积层等价,并且与全连接层相比,1×1卷积层计算复杂度较低,因此使用1×1卷积层代替全连接层。非极大值抑制算法Hard-NMS根据分类全连接层得分对student-model创建的锚框进行初步筛选,保留其中分值较高的N个锚框用作候选区域。
图3为Teacher-Student循环反馈机制示意图。经过非极大值抑制算法初步筛选后,student-model剩余N个候选区域{R1,R2,…,RN},且s1≥s2≥…sN,其中si表示候选区域Ri对应的信息量。设定候选区域标签与所在图像标签相同,teacher-model将候选区域{R1,R2,…,RN}的卷积特征并行输入多个独立的全连接层,结合softmax函数计算对应区域属于真实目标类别的概率,获得置信度{c1,c2,…,cN},并将这一结果反馈至student-model。student-model根据反馈结果计算损失函数并以此优化3×3卷积层和分类全连接层的参数。之后,student-model基于新的网络参数再次创建候选区域并计算对应的信息量,同时将候选区域的卷积特征输入teacher-model评估置信度,teacher-model将结果反馈至student-model。循环往复,直至候选区域{R1,R2,…,RN}在student-model中的信息量{s1,s2,…,sN}与teacher-model的置信度{c1,c2,…,cN}排序一致,此时从候选区域中选取信息量最高的K个区域进行推荐,这K个推荐区域{R1,R2,…,RK}即为注意力区域。
图4为teacher-model、Teacher-Student循环反馈机制和classification-model多任务损失函数联合优化示意图。由于每一子任务的优化目标均不相同,为了提升每个子任务的学习效率与预测精度,并增强整体模型的泛化能力,基于视觉自注意力机制的弱监督细粒度识别方法联合全部子任务的损失函数对模型参数进行训练和更新,总体损失函数为Ltotal=w1Ltch+w2Lrank+w3Lcls,其中w1、w2和w3为权重超参数,分别表示teacher-model交叉熵损失函数Ltch、Teacher-Student循环反馈机制排序损失函数Lrank以及classification-model分类损失函数Lcls在总体损失函数中所占比例。
图5为采用动态权重分配机制下各子任务权重系数变化趋势图,可见动态权重分配机制根据每个子任务自身损失变化率自适应地调整对应的权重系数,这一机制一方面使得每一子任务的权重分配更加合理,另一方面能够在一定程度上减少人为设定的超参数量。此时,识别模型仅需设置参数T即可确定每一子任务的权重系数,从而避免了暴力穷举或网格搜索带来的巨大计算成本,并且增强了整体识别模型的鲁棒性。同时,从图中可以看出每一子任务的相对权重w1、w2和w3围绕数值1上下振荡。从理论上讲,如果依据子任务对整体任务的相对贡献程度来分配权重,由于每个子任务在多任务学习过程中具有同等重要性,因此应该为其赋予相同的权重系数,即w1:w2:w3=1:1:1。然而,考虑到每个子任务的收敛速度、网络优化难度以及损失函数量级存在差异,因此动态权重分配机制根据每一子任务自身情况对权重进行细微调整,避免总体损失被某个子任务主导,其余子任务对共享层学习的影响因子降低,使得不同子任务之间的表现差距拉大,进而降低整体任务性能。除此之外,当设置不同超参数T时,各子任务相对权重变化速率和相似程度存在差异。与采用T=16的动态权重分配机制的细粒度识别模型相比,当超参数T=8时,每一子任务的权重系数随着训练迭代次数剧烈变化,并且不同子任务对应的权重数值相差较大。这是因为在动态权重分配机制中,超参数T用于设置各权重系数的相似程度,T值越大,则不同子任务之间相对权重差距越小,特别地,当T→∞时,w1:w2:w3≈1:1:1,即等比例简单相加。
图6为采用不同权重分配机制下细粒度识别模型在CUB-200-2011数据集上准确率对比图。考虑到基于视觉自注意力机制的弱监督细粒度识别方法的性能很大程度上取决于teacher-model、Teacher-Student循环反馈机制和classification-model对应子任务的相对权重,因此采用动态权重分配机制对子任务权重赋值,并且研究不同超参数T对识别准确率的影响。设定student-model锚框尺度为{48,96,192},比例为{2:3,1:1,3:2},候选区域数量N=6,推荐区域数量K=4,Hard-NMS阈值Nt=0.25。从图中可以看出,动态权重分配机制根据每个子任务自身损失变化率自适应地调整对应的权重系数使得识别准确率有所上升。特别地,当T=8时模型的总体分类精度分别达到88.2%,比采用简单相加法的识别模型高出0.3%。因此,动态权重分配机制合理分配每一子任务的权重系数,促使多任务联合学习细粒度识别模型性能提升。除此之外,当设定动态权重分配机制的超参数T=8和T=16时,模型的识别准确率类似,约为88.2%,但是超参数T=8对应的模型收敛速率较快。这是因为如果超参数T数值较小,则子任务相对权重差距较大,总体损失变化剧烈,因此在误差反向传播阶段梯度更新幅值较大,进而加速网络收敛。
图7为本发明中自注意力区域推荐网络针对CUB-200-2011数据集部分样例的判别性区域定位可视化结果。从图中可以看出,自注意力区域推荐网络在缺少目标边界框和部位标注点等监督信息情况下,仅使用图像级标签依然能够较为准确地检测细粒度图像中判别性区域。第一行对应注意力区域数量K=2和非极大值抑制算法Hard-NMS阈值Nt=0.25,可见注意力区域几乎能够覆盖细粒度图像中全部判别性区域。第二行对应超参数K=4和Nt=0.25,根据可视化结果,注意力区域主要分布在鸟类的头部、躯干、尾部和羽毛共四处位置,符合人类的认知和思维方式。第三行对应超参数K=2和Nt=0.5,从图中可以看出注意力区域的重合程度较高,目标的部分关键部位未被推荐区域覆盖。第四行对应超参数K=2和Nt=0.25,但未使用Teacher-Student循环反馈机制,可以发现注意力推荐区域严重偏离图像中真实判别性区域。
表1列出本发明涉及的细粒度识别模型与其他现有的细粒度识别方法在CUB-200-2011、FGVC Aircraft和Stanford Cars数据集上的总体分类精度。其中,“标注信息”用于指明模型在训练阶段是否借助目标边界框或部位标注点等额外的人工监督信息。本发明设定student-model锚框尺度为{48,96,192},比例为{2:3,1:1,3:2},候选区域数量N=6,推荐区域数量K=4,Hard-NMS阈值Nt=0.25。由表格中的数据可知,FCAN、PN-CNN以及Mask CNN借助强监督信息构建注意力区域回归模型,进而检测细粒度图像中判别性区域,在CUB-200-2011数据集上分别获得84.3%、85.4%和87.3%的识别准确率,而采用超参数T=8的本发明方法在训练过程中仅利用图像级标签这种弱监督信息,结合Teacher-Student循环反馈机制搭建自注意力区域推荐网络,在CUB-200-2011数据集上分类精度达到88.2%,与FCAN、PN-CNN和Mask CNN相比,分别高出3.9%、2.8%和0.9%。由此可见,自注意力区域推荐网络在缺少目标边界框和部位标注点的情况下仍然能够较为准确地定位图像中判别性区域,并提取相应的特征信息,通过相互增强的方式促进判别性区域定位和细粒度特征学习之间的联系,从而提高细粒度识别模型的性能。弱监督细粒度识别模型B-CNN利用双线性池化捕捉特征通道间的相关关系,在CUB-200-2011、FGVC Aircraft和Stanford Cars数据集的总体分类精度达到84.0%、86.9%和90.6%,与本发明方法相比降低4.2%、5.5%和4.0%。而Boost-CNN通过集成多个基学习器以增强整体模型的识别性能,在三个数据集上分别获得85.6%、88.5%和92.1%的准确率,比本发明方法减少2.6%、3.9%和2.5%。可见,本发明涉及的细粒度识别方法通过自注意力区域推荐网络检测图像中判别性区域,促使模型专注于此类区域的特征信息,从而降低图像背景干扰,能够显著提升模型的识别准确率。RA-CNN、DT-RAM、MA-CNN以及WS-LAN也是通过图像级标签信息构建视觉注意力机制,从而自主定位细粒度图像中判别性区域。其中,RA-CNN通过三重相互独立的神经网络逐渐聚焦于细粒度图像判别性区域,并针对单一注意力区域提取多尺度特征信息,在CUB-200-2011、FGVC Aircraft和Stanford Cars数据集上分别获得85.3%、88.2%和92.5%的分类精度,比本发明方法减少2.9%、4.2%和2.1%。MA-CNN利用聚类算法依据卷积特征响应分布对通道进行分组与合并,而后将这些分组特征输入sigmoid函数获得注意力掩模,在三个数据集上识别准确率达到86.5%、89.9%和92.8%。WS-LAN则是首先利用基础网络获得细粒度图像的特征图和注意力图(attention maps),为防止注意力图集中于目标的某一关键部位,在训练阶段使用attention dropout策略随机丢弃注意力图,在一定程度上避免了过拟合现象的发生。与此同时,为保证每个注意力图仅关注目标的单一部位,WS-LAN添加中心约束损失(center loss)函数,从而确保每个部位的特征信息均接近全局部位中心,在CUB-200-2011、FGVC Aircraft和Stanford Cars数据集上达到此前最优分类精度,分别为87.9%、91.2%和93.0%,与本发明方法相比降低0.3%、1.2%和1.6%。与RA-CNN、MA-CNN以及WS-LAN不同,DT-RAM本质是一种以序列数据作为输入,在序列演进方向进行递归,并且网络节点依据链式规则连接的循环神经网络(Recurrent Neural Network,RNN)。DT-RAM按照时间顺序对细粒度图像的判别性区域进行序列化,即每一时间点仅处理单个注意力区域,而后将所有区域的特征信息联合起来以构建特征动态间隔表示,在CUB-200-2011和Stanford Cars数据集上获得86.0%和93.1%的识别准确率,低于本发明方法。因此,本发明涉及的弱监督细粒度识别方法利用student-model、teacher-model以及Teacher-Student循环反馈机制构建的自注意力区域推荐网络能够在缺少目标边界框和部位标注点的情况的准确、完整且稳定地自主检测细粒度图像中判别性区域。与此同时,整体模型采用端到端方式进行训练,避免在完成目标关键部位定位后搭建多重网络提取局部特征信息,加速网络收敛速度,降低计算资源消耗。
表1本发明方法与经典细粒度图像识别方法总体分类精度对比
Figure BDA0002458109010000161

Claims (4)

1.一种基于视觉自注意力机制的弱监督细粒度图像识别方法,其特征在于,包括如下步骤:
(1)在预处理阶段,将任意尺寸的原始图像缩放至600×600像素,在此基础上以图像中心为原点裁剪出448×448像素区域,按照均值[0.485,0.456,0.406]和标准差[0.229,0.224,0.225]对裁剪区域进行规范化处理,而后将归一化图像输入基于视觉自注意力机制的细粒度识别模型;
(2)输入图像经共享卷积神经网络输出14×14×2048维特征张量,student-model借助目标检测领域常用的区域建议网络RPN的锚框思想,将步长为1、2、2,输出通道数为128的三个3×3卷积层序贯连接至共享基础网络,对特征进行降维,此时三个卷积层输出降维特征图分辨率依次是14×14、7×7和4×4;针对单个降维特征图中每一像素点,student-model将其映射至448×448像素的输入图像产生不同尺度和比例的k种规格的锚框,将锚框对应的共享卷积特征信息输入分类全连接层获得k个得分,该数值表示锚框内物体属于前景的概率,由于细粒度数据集中每幅图像仅包含单个目标,因此这一概率值能够反映此区域内语义信息量;
(3)非极大值抑制算法Hard-NMS将student-model创建的锚框{R′1,R′2,…,R′P}按照分类全连接层输出的得分{s′1,s′2,…,s′P},即信息量降序排列,保留其中分值最高的锚框,并且将与该锚框交并比(Intersection over Union,IOU)大于设定阈值的所有锚框分值强制归零,即
Figure FDA0002458107000000011
式中,R′i表示第i个锚框,s′i表示锚框R′i的信息量,M表示当前信息量最高的锚框,Nt表示非极大值抑制算法Hard-NMS的阈值,重复步骤(3)直至剩余锚框数量为N,N表示用户定义的候选区域数目;
(4)经过非极大值抑制算法初步筛选后,student-model剩余N个候选区域{R1,R2,…,RN},此时s1≥s2≥…sN,其中si表示候选区域Ri对应的信息量;
(5)teacher-model将候选区域{R1,R2,…,RN}的卷积特征并行输入多个独立的全连接层,结合softmax函数计算对应区域属于真实目标类别的概率,获得置信度{c1,c2,…,cN};与此同时,设定细粒度图像中候选区域类别标签与所在图像级标签相同,利用交叉熵损失函数计算目标真实类别与teacher-model预测结果之间的误差,即
Figure FDA0002458107000000021
式中,Ltch表示teacher-model的损失函数,i∈{1,2,…,N}表示候选区域索引,ci表示候选区域Ri属于真实目标类别的概率,cI表示输入图像I属于真实目标类别的概率,公式中第二项-log(cI)表示完整输入图像的交叉熵,能够帮助teacher-model从全局角度把握预测方向;
(6)student-model与teacher-model经Teacher-Student循环反馈机制构成自注意力区域推荐网络,Teacher-Student循环反馈机制利用Pairwise Approach排序学习算法将候选区域Ri和Rj在student-model中的信息量与teacher-model中的置信度构建文档对{(si,sj),(ci,cj)};如果置信度ci>cj,信息量满足si>sj,则认为该文档对构成正确的偏序关系;反之,如果ci>cj,而si<sj,则认为偏序关系错误;Pairwise Approach排序学习算法通过最大边界损失(Hinge Loss)函数对偏序关系错误的文档对进行惩罚,即
Figure FDA0002458107000000022
式中,Lrank表示Teacher-Student循环反馈机制的损失函数,margin表示边界阈值;
(7)student-model根据Teacher-Student循环反馈机制的损失函数优化卷积层和分类全连接层参数,重复步骤(2)~(6)直至候选区域{R1,R2,…,RN}的信息量{s1,s2,…,sN}和置信度{c1,c2,…,cN}排列顺序一致,此时从候选区域中选取信息量最高的K个区域进行推荐,这K个推荐区域{R1,R2,…,RK}即为注意力区域;
(8)将注意力区域{R1,R2,…,RK}和输入图像I经共享卷积神经网络输出的特征信息通过特征级联方式融合,输入classification-model判断图像类别,利用交叉熵损失函数衡量预测类别与真实目标类别之间的差异,即
Lcls=-log c(I,R1,…,RK)
式中,Lcls表示classification-model的损失函数,c(I,R1,R2,…,RK)表示联合输入图像和注意力区域的特征信息计算出的图像属于真实目标类别的概率;
(9)在teacher-model、Teacher-Student循环反馈机制和classification-model多任务学习过程中,为提升每个子任务的学习效率和预测速度,并增强模型泛化能力,联合全部子任务的损失函数进行优化,则总体损失函数Ltotal
Ltotal=w1Ltch+w2Lrank+w3Lcls
式中,w1、w2和w3为权重超参数,分别表示teacher-model损失函数Ltch、Teacher-Student循环反馈机制排序损失函数Lrank和classification-model分类损失函数Lcls在总体损失函数Ltotal中所占比例;
(10)动态权重分配机制根据每个子任务自身损失变化率自适应地调整对应的权重系数,即
Figure FDA0002458107000000031
式中,γk(·)∈(0,1)表示第k个子任务损失函数的相对变化率,初始化γk(0)=γk(1)=1,Lk表示第k个子任务的损失函数,t表示训练迭代次数epoch,结合softmax函数计算相对权重系数
Figure FDA0002458107000000032
式中,wk表示第k个子任务的相对权重,B=3表示总体任务数目,T为超参数,用于设置各权重系数的相似程度,T值越大表明各子任务的权重系数差距越小;
(11)根据总体损失函数利用动量随机梯度下降算法对整体模型进行端到端的训练。
2.如权利要求1所述的基于视觉自注意力机制的弱监督细粒度图像识别方法,其特征在于,步骤(2)中,student-model依据目标检测领域中区域建议网络RPN的锚框思想并在此基础上有所改进,从而在缺少目标位置信息的情况下产生大量可能包含目标的锚框,并通过非极大值抑制算法进行初步筛选,获得候选区域及对应信息量,网络结构具体为:假设原始图像经过预处理操作后尺寸统一为448×448像素,输入共享卷积层获得14×14×2048维特征张量,该特征张量首先通过卷积核大小为3×3,步长为1,输入通道数为2048,输出通道数为128的卷积层生成14×14×128维特征,对特征进行降维;其次,将降维特征输入步长为2,输入和输出通道数均为128的3×3卷积层获得7×7×128维特征张量;之后,使用步长为2,输入和输出通道数均为128的3×3卷积层再次缩小特征图谱分辨率,产生4×4×128维特征张量;最后,将分辨率为14×14特征图谱中每一像素点映射回448×448像素的输入图像创建尺度为48×48,比例为{2:3,1:1,3:2}的3种规格的锚框,将分辨率为7×7特征图谱中每一像素点映射回448×448像素的输入图像创建尺度为96×96,比例为{2:3,1:1,3:2}的3种规格的锚框,将分辨率为4×4特征图谱中每一像素点映射回448×448像素的输入图像创建尺度为192×192,比例为{2:3,1:1,3:2}的3种规格的锚框;此时,将所有锚框{R′1,R′2,…,R′P}经共享卷积层输出的特征信息独立地输入分类全连接层计算对应得分{s′1,s′2,…,s′P};由于student-model需对三个降维特征14×14×128、7×7×128和4×4×128每128维特征向量采取相同的操作,这一操作与使用三个独立的1×1卷积层等价,并且通过1×1卷积层代替分类全连接层能够有效降低计算复杂度;student-model得到锚框及对应得分后使用非极大值抑制算法Hard-NMS对其进行初步筛选,滤除冗余锚框,获得候选区域{R1,R2,…,RN}和对应信息量{s1,s2,…,sN}。
3.如权利要求1所述的基于视觉自注意力机制的弱监督细粒度图像识别方法,其特征在于,步骤(6)中,Teacher-Student循环反馈机制通过检索与推荐领域的PairwiseApproach排序学习算法对student-model参数进行优化,使其能够自主检测细粒度图像的判别性区域,Teacher-Student循环反馈机制具体为:student-model借助区域建议网络RPN的锚框思想,利用3×3卷积层和1×1分类全连接层产生大量可能包含目标的锚框{R′1,R′2,…,R′P},并且通过非极大值抑制算法Hard-NMS对锚框进行初步筛选,获得候选区域集合{R1,R2,…,RN}以及对应信息量{s1,s2,…,sN};teacher-model首先将候选区域{R1,R2,…,RN}输入共享卷积层获得特征信息,之后将特征信息并行输入多个独立的全连接层,结合softmax计算候选区域的置信度{c1,c2,…,cN};Pairwise Approach排序学习算法根据teacher-model的反馈结果,基于候选区域Ri和Rj的信息量(si,sj)和置信度(ci,cj)构建信息量-置信度文档对{(si,sj),(ci,cj)},当置信度ci>cj时,如果si>sj,那么文档对{(si,sj),(ci,cj)}的偏序关系正确,记作
Figure FDA0002458107000000052
反之,如果si<sj,则认为偏序关系错误,记作
Figure FDA0002458107000000053
Pairwise Approach通过最大边界损失函数对错误偏序关系的文档对进行惩罚,获得代价函数
Figure FDA0002458107000000051
等式中,margin表示边界阈值;在误差反向传播过程中,利用梯度下降算法对student-model中3×3卷积层和1×1分类全连接层的参数进行更新;student-model在此基础上再次借助锚框思想创建大量可能包含目标的锚框,并经非极大值抑制算法初步筛选,从而产生候选区域集合,teacher-model根据候选区域卷积特征预测类别置信度,Pairwise Approach排序学习算法构建新的信息量-置信度文档对,计算代价函数,并结合梯度下降算法优化student-model网络参数;循环往复,直至候选区域{R1,R2,…,RN}在student-model的信息量{s1,s2,…,sN}与teacher-model的置信度{c1,c2,…,cN}顺序一致,此时代价函数J=0,Teacher-Student循环反馈停止。
4.如权利要求1所述的基于视觉自注意力机制的弱监督细粒度图像识别方法,其特征在于,步骤(7)中,候选区域{R1,R2,…,RN}的信息量{s1,s2,…,sN}和置信度{c1,c2,…,cN}排列顺序相同是指,任意候选区域Ri对应信息量si在信息量集合{s1,s2,…,sN}中的相对位置与置信度ci在其集合{c1,c2,…,cN}中的相对位置一致。
CN202010311761.4A 2020-04-20 2020-04-20 一种基于视觉自注意力机制的弱监督细粒度图像识别方法 Active CN111539469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010311761.4A CN111539469B (zh) 2020-04-20 2020-04-20 一种基于视觉自注意力机制的弱监督细粒度图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010311761.4A CN111539469B (zh) 2020-04-20 2020-04-20 一种基于视觉自注意力机制的弱监督细粒度图像识别方法

Publications (2)

Publication Number Publication Date
CN111539469A true CN111539469A (zh) 2020-08-14
CN111539469B CN111539469B (zh) 2022-04-08

Family

ID=71976867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010311761.4A Active CN111539469B (zh) 2020-04-20 2020-04-20 一种基于视觉自注意力机制的弱监督细粒度图像识别方法

Country Status (1)

Country Link
CN (1) CN111539469B (zh)

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100429A (zh) * 2020-09-27 2020-12-18 安徽大学 一种足迹压力图像检索方法
CN112149729A (zh) * 2020-09-22 2020-12-29 福州大学 一种基于通道剪裁和定位分类子网络的细粒度图像分类方法及系统
CN112164224A (zh) * 2020-09-29 2021-01-01 杭州锘崴信息科技有限公司 信息安全的交通信息处理系统、方法、设备及存储介质
CN112163465A (zh) * 2020-09-11 2021-01-01 华南理工大学 细粒度图像分类方法、系统、计算机设备及存储介质
CN112257601A (zh) * 2020-10-22 2021-01-22 福州大学 基于弱监督学习的数据增强网络的细粒度车辆识别方法
CN112288658A (zh) * 2020-11-23 2021-01-29 杭州师范大学 一种基于多残差联合学习的水下图像增强方法
CN112308081A (zh) * 2020-11-05 2021-02-02 南强智视(厦门)科技有限公司 一种基于注意力机制的图像目标预测方法
CN112446372A (zh) * 2020-12-08 2021-03-05 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112528058A (zh) * 2020-11-23 2021-03-19 西北工业大学 基于图像属性主动学习的细粒度图像分类方法
CN112668584A (zh) * 2020-12-24 2021-04-16 山东大学 一种基于视觉注意力和多尺度卷积神经网络的空调外机画像智能检测方法
CN112686242A (zh) * 2020-12-29 2021-04-20 昆明理工大学 一种基于多层聚焦注意力网络的细粒度图像分类方法
CN112699902A (zh) * 2021-01-11 2021-04-23 福州大学 基于双线性注意力池化机制的细粒度敏感图像检测方法
CN112801029A (zh) * 2021-02-09 2021-05-14 北京工业大学 基于注意力机制的多任务学习方法
CN112862089A (zh) * 2021-01-20 2021-05-28 清华大学深圳国际研究生院 一种具有可解释性的医学图像深度学习方法
CN112906810A (zh) * 2021-03-08 2021-06-04 共达地创新技术(深圳)有限公司 目标检测方法、电子设备和存储介质
CN112949774A (zh) * 2021-04-13 2021-06-11 Oppo广东移动通信有限公司 神经网络模型的训练方法、装置、计算机设备及存储介质
CN113177129A (zh) * 2021-05-20 2021-07-27 广州云从人工智能技术有限公司 目标识别方法、装置、计算机设备和存储介质
CN113177518A (zh) * 2021-05-24 2021-07-27 西安建筑科技大学 一种利用弱监督区域推荐的车辆重识别方法
CN113191386A (zh) * 2021-03-26 2021-07-30 中国矿业大学 基于网格重构学习的染色体分类模型
CN113239924A (zh) * 2021-05-21 2021-08-10 上海交通大学 一种基于迁移学习的弱监督目标检测方法及系统
CN113255759A (zh) * 2021-05-20 2021-08-13 广州广电运通金融电子股份有限公司 基于注意力机制的目标内特征检测系统、方法和存储介质
CN113360777A (zh) * 2021-08-06 2021-09-07 北京达佳互联信息技术有限公司 内容推荐模型训练方法、内容推荐方法及相关设备
CN113378780A (zh) * 2021-06-30 2021-09-10 山东建筑大学 一种基于集成视觉的建筑物损伤智能检测系统与方法
CN113392775A (zh) * 2021-06-17 2021-09-14 广西大学 一种基于深度神经网络的甘蔗幼苗自动识别与计数方法
CN113486879A (zh) * 2021-07-27 2021-10-08 平安科技(深圳)有限公司 图像区域建议框检测方法、装置、设备及存储介质
CN113642554A (zh) * 2021-07-26 2021-11-12 华侨大学 一种图像识别的网络构建方法、装置及设备
CN113849088A (zh) * 2020-11-16 2021-12-28 阿里巴巴集团控股有限公司 目标图片确定方法及装置
CN114119979A (zh) * 2021-12-06 2022-03-01 西安电子科技大学 基于分割掩码和自注意神经网络的细粒度图像分类方法
CN114708569A (zh) * 2022-02-22 2022-07-05 广州文远知行科技有限公司 道路曲线检测方法、装置、设备及存储介质
WO2022252565A1 (zh) * 2021-06-04 2022-12-08 浙江智慧视频安防创新中心有限公司 一种目标检测系统、方法、装置、设备及介质
WO2023015610A1 (zh) * 2021-08-10 2023-02-16 万维数码智能有限公司 基于人工智能的古代及近现代艺术品鉴定方法和系统
CN116306322A (zh) * 2023-05-18 2023-06-23 天津中科谱光信息技术有限公司 一种基于高光谱数据的水体总磷浓度反演方法和装置
CN116310425A (zh) * 2023-05-24 2023-06-23 山东大学 一种细粒度图像检索方法、系统、设备及存储介质
CN116310293A (zh) * 2023-02-13 2023-06-23 中国矿业大学(北京) 一种基于弱监督学习的生成高质量候选框目标检测方法
CN117969553A (zh) * 2024-03-28 2024-05-03 杭州映图智能科技有限公司 一种tpv针织复合管外观在线视觉检测系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135502A (zh) * 2019-05-17 2019-08-16 东南大学 一种基于强化学习策略的图像细粒度识别方法
CN110378269A (zh) * 2019-07-10 2019-10-25 浙江大学 通过影像查询定位视频中未预习的活动的方法
CN110490055A (zh) * 2019-07-08 2019-11-22 中国科学院信息工程研究所 一种基于三重编码的弱监督行为识别定位方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135502A (zh) * 2019-05-17 2019-08-16 东南大学 一种基于强化学习策略的图像细粒度识别方法
CN110490055A (zh) * 2019-07-08 2019-11-22 中国科学院信息工程研究所 一种基于三重编码的弱监督行为识别定位方法和装置
CN110378269A (zh) * 2019-07-10 2019-10-25 浙江大学 通过影像查询定位视频中未预习的活动的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
边小勇等: "基于多分支神经网络模型的弱监督细粒度图像分类方法", 《计算机应用》 *

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163465B (zh) * 2020-09-11 2022-04-22 华南理工大学 细粒度图像分类方法、系统、计算机设备及存储介质
CN112163465A (zh) * 2020-09-11 2021-01-01 华南理工大学 细粒度图像分类方法、系统、计算机设备及存储介质
CN112149729A (zh) * 2020-09-22 2020-12-29 福州大学 一种基于通道剪裁和定位分类子网络的细粒度图像分类方法及系统
CN112100429B (zh) * 2020-09-27 2022-09-13 安徽大学 一种足迹压力图像检索方法
CN112100429A (zh) * 2020-09-27 2020-12-18 安徽大学 一种足迹压力图像检索方法
CN112164224A (zh) * 2020-09-29 2021-01-01 杭州锘崴信息科技有限公司 信息安全的交通信息处理系统、方法、设备及存储介质
CN112257601A (zh) * 2020-10-22 2021-01-22 福州大学 基于弱监督学习的数据增强网络的细粒度车辆识别方法
CN112257601B (zh) * 2020-10-22 2023-02-21 福州大学 基于弱监督学习的数据增强网络的细粒度车辆识别方法
CN112308081A (zh) * 2020-11-05 2021-02-02 南强智视(厦门)科技有限公司 一种基于注意力机制的图像目标预测方法
CN112308081B (zh) * 2020-11-05 2023-05-30 南强智视(厦门)科技有限公司 一种基于注意力机制的图像目标预测方法
CN113849088A (zh) * 2020-11-16 2021-12-28 阿里巴巴集团控股有限公司 目标图片确定方法及装置
CN112288658A (zh) * 2020-11-23 2021-01-29 杭州师范大学 一种基于多残差联合学习的水下图像增强方法
CN112528058B (zh) * 2020-11-23 2022-09-02 西北工业大学 基于图像属性主动学习的细粒度图像分类方法
CN112288658B (zh) * 2020-11-23 2023-11-28 杭州师范大学 一种基于多残差联合学习的水下图像增强方法
CN112528058A (zh) * 2020-11-23 2021-03-19 西北工业大学 基于图像属性主动学习的细粒度图像分类方法
CN112446372A (zh) * 2020-12-08 2021-03-05 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112446372B (zh) * 2020-12-08 2022-11-08 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112668584A (zh) * 2020-12-24 2021-04-16 山东大学 一种基于视觉注意力和多尺度卷积神经网络的空调外机画像智能检测方法
CN112686242A (zh) * 2020-12-29 2021-04-20 昆明理工大学 一种基于多层聚焦注意力网络的细粒度图像分类方法
CN112699902A (zh) * 2021-01-11 2021-04-23 福州大学 基于双线性注意力池化机制的细粒度敏感图像检测方法
CN112862089B (zh) * 2021-01-20 2023-05-23 清华大学深圳国际研究生院 一种具有可解释性的医学图像深度学习方法
CN112862089A (zh) * 2021-01-20 2021-05-28 清华大学深圳国际研究生院 一种具有可解释性的医学图像深度学习方法
CN112801029B (zh) * 2021-02-09 2024-05-28 北京工业大学 基于注意力机制的多任务学习方法
CN112801029A (zh) * 2021-02-09 2021-05-14 北京工业大学 基于注意力机制的多任务学习方法
CN112906810A (zh) * 2021-03-08 2021-06-04 共达地创新技术(深圳)有限公司 目标检测方法、电子设备和存储介质
CN112906810B (zh) * 2021-03-08 2024-04-16 共达地创新技术(深圳)有限公司 目标检测方法、电子设备和存储介质
CN113191386A (zh) * 2021-03-26 2021-07-30 中国矿业大学 基于网格重构学习的染色体分类模型
CN113191386B (zh) * 2021-03-26 2023-11-03 中国矿业大学 基于网格重构学习的染色体分类模型
CN112949774A (zh) * 2021-04-13 2021-06-11 Oppo广东移动通信有限公司 神经网络模型的训练方法、装置、计算机设备及存储介质
CN113255759A (zh) * 2021-05-20 2021-08-13 广州广电运通金融电子股份有限公司 基于注意力机制的目标内特征检测系统、方法和存储介质
CN113177129A (zh) * 2021-05-20 2021-07-27 广州云从人工智能技术有限公司 目标识别方法、装置、计算机设备和存储介质
CN113255759B (zh) * 2021-05-20 2023-08-22 广州广电运通金融电子股份有限公司 基于注意力机制的目标内特征检测系统、方法和存储介质
CN113239924A (zh) * 2021-05-21 2021-08-10 上海交通大学 一种基于迁移学习的弱监督目标检测方法及系统
CN113239924B (zh) * 2021-05-21 2022-04-26 上海交通大学 一种基于迁移学习的弱监督目标检测方法及系统
CN113177518A (zh) * 2021-05-24 2021-07-27 西安建筑科技大学 一种利用弱监督区域推荐的车辆重识别方法
CN113177518B (zh) * 2021-05-24 2023-04-28 西安建筑科技大学 一种利用弱监督区域推荐的车辆重识别方法
WO2022252565A1 (zh) * 2021-06-04 2022-12-08 浙江智慧视频安防创新中心有限公司 一种目标检测系统、方法、装置、设备及介质
CN113392775B (zh) * 2021-06-17 2022-04-29 广西大学 一种基于深度神经网络的甘蔗幼苗自动识别与计数方法
CN113392775A (zh) * 2021-06-17 2021-09-14 广西大学 一种基于深度神经网络的甘蔗幼苗自动识别与计数方法
CN113378780A (zh) * 2021-06-30 2021-09-10 山东建筑大学 一种基于集成视觉的建筑物损伤智能检测系统与方法
CN113642554B (zh) * 2021-07-26 2023-07-11 华侨大学 一种图像识别的网络构建方法、装置及设备
CN113642554A (zh) * 2021-07-26 2021-11-12 华侨大学 一种图像识别的网络构建方法、装置及设备
CN113486879A (zh) * 2021-07-27 2021-10-08 平安科技(深圳)有限公司 图像区域建议框检测方法、装置、设备及存储介质
CN113486879B (zh) * 2021-07-27 2024-03-05 平安科技(深圳)有限公司 图像区域建议框检测方法、装置、设备及存储介质
CN113360777A (zh) * 2021-08-06 2021-09-07 北京达佳互联信息技术有限公司 内容推荐模型训练方法、内容推荐方法及相关设备
CN113360777B (zh) * 2021-08-06 2021-12-07 北京达佳互联信息技术有限公司 内容推荐模型训练方法、内容推荐方法及相关设备
WO2023015610A1 (zh) * 2021-08-10 2023-02-16 万维数码智能有限公司 基于人工智能的古代及近现代艺术品鉴定方法和系统
CN114119979A (zh) * 2021-12-06 2022-03-01 西安电子科技大学 基于分割掩码和自注意神经网络的细粒度图像分类方法
CN114708569A (zh) * 2022-02-22 2022-07-05 广州文远知行科技有限公司 道路曲线检测方法、装置、设备及存储介质
CN116310293A (zh) * 2023-02-13 2023-06-23 中国矿业大学(北京) 一种基于弱监督学习的生成高质量候选框目标检测方法
CN116310293B (zh) * 2023-02-13 2023-09-12 中国矿业大学(北京) 一种基于弱监督学习的生成高质量候选框目标检测方法
CN116306322B (zh) * 2023-05-18 2023-08-25 天津中科谱光信息技术有限公司 一种基于高光谱数据的水体总磷浓度反演方法和装置
CN116306322A (zh) * 2023-05-18 2023-06-23 天津中科谱光信息技术有限公司 一种基于高光谱数据的水体总磷浓度反演方法和装置
CN116310425B (zh) * 2023-05-24 2023-09-26 山东大学 一种细粒度图像检索方法、系统、设备及存储介质
CN116310425A (zh) * 2023-05-24 2023-06-23 山东大学 一种细粒度图像检索方法、系统、设备及存储介质
CN117969553A (zh) * 2024-03-28 2024-05-03 杭州映图智能科技有限公司 一种tpv针织复合管外观在线视觉检测系统
CN117969553B (zh) * 2024-03-28 2024-08-02 杭州映图智能科技有限公司 一种tpv针织复合管外观在线视觉检测系统

Also Published As

Publication number Publication date
CN111539469B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN111539469B (zh) 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
Zhang et al. Mask SSD: An effective single-stage approach to object instance segmentation
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
Krawiec et al. Visual learning by coevolutionary feature synthesis
CN106845499A (zh) 一种基于自然语言语义的图像目标检测方法
CN109684912A (zh) 一种基于信息损失函数的视频描述方法和系统
Li et al. Paralleleye pipeline: An effective method to synthesize images for improving the visual intelligence of intelligent vehicles
Kim et al. Few-shot object detection via knowledge transfer
Jin et al. Multi-path feedback recurrent neural networks for scene parsing
Cheng et al. Cascaded non-local neural network for point cloud semantic segmentation
Tang et al. Pest-YOLO: Deep image mining and multi-feature fusion for real-time agriculture pest detection
CN114821640A (zh) 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
Behera et al. Superpixel-based multiscale CNN approach toward multiclass object segmentation from UAV-captured aerial images
Ahmed et al. Robust Object Recognition with Genetic Algorithm and Composite Saliency Map
Tan et al. Deep adaptive fuzzy clustering for evolutionary unsupervised representation learning
Xu et al. Representative feature alignment for adaptive object detection
Wu et al. How many annotations do we need for generalizing new-coming shadow images?
Gong et al. An accurate, robust visual odometry and detail-preserving reconstruction system
Jia et al. OccupancyDETR: Making semantic scene completion as straightforward as object detection
Khalil et al. A Comprehensive Study of Vision Transformers in Image Classification Tasks
Athanesious et al. Deep learning based automated attendance system
Sreetha et al. Enhancing Food Image Classification with Particle Swarm Optimization on NutriFoodNet and Data Augmentation Parameters
Kumar et al. Light-Weight Deep Learning Model for Human Action Recognition in Videos
CN115393400A (zh) 一种单样本学习的视频目标跟踪方法
Guo et al. 3D object detection and tracking based on streaming data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant