CN112784869A - 一种基于注意力感知与对抗学习的细粒度图像识别方法 - Google Patents

一种基于注意力感知与对抗学习的细粒度图像识别方法 Download PDF

Info

Publication number
CN112784869A
CN112784869A CN202011270684.9A CN202011270684A CN112784869A CN 112784869 A CN112784869 A CN 112784869A CN 202011270684 A CN202011270684 A CN 202011270684A CN 112784869 A CN112784869 A CN 112784869A
Authority
CN
China
Prior art keywords
feature
target object
image
map
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011270684.9A
Other languages
English (en)
Other versions
CN112784869B (zh
Inventor
冷彪
付志斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guoxin Hongsi Technology Co.,Ltd.
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202011270684.9A priority Critical patent/CN112784869B/zh
Publication of CN112784869A publication Critical patent/CN112784869A/zh
Application granted granted Critical
Publication of CN112784869B publication Critical patent/CN112784869B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于注意力感知与对抗学习的细粒度图像识别方法,利用神经网络的注意力机制,只使用图像类别标签,定位出输入图像中目标物体的大概位置。同时为了针对细粒度图像任务中由于训练数据量较少,且类间方差小,类内方差大的而引起的显著过拟合现象,提出基于对抗学习的难样本挖掘算法,模型训练过程中神经网络自主选择网络难以判断的带掩码的难样本作为新的训练样本,一方面提升网络对难样本的识别鲁棒性,另一方面有助于网络关注其他具有判别意义的局部区域;在不增加额外参数的前提条件下,仅使用图像的类比标签,显著提升细粒度图像识别的准确度和对难样本的鲁棒性。

Description

一种基于注意力感知与对抗学习的细粒度图像识别方法
技术领域
本发明涉及一种基于注意力感知与对抗学习的细粒度图像识别方法,属于计算机视觉中的细粒度图像识别研究领域。
背景技术
细粒度图像识别任务是近年来随着深度神经网络的高速发展而兴起的计算机视觉、模式识别的研究领域之一,细粒度图像识别旨在解决同一大类别的更细致的子类别划分的问题。该任务相对于传统的图像识别问题主要难点在于细粒度图像任务中由于其本身的数据量较少且数据中同一类别的目标物体由于姿态、光照、背景等存在较大的类内方差,而不同类别的目标物体存在较小的类间方差,因此细粒度图像识别成了图像识别领域的新挑战。
随着深度卷积神经网络的发展,传统的图像识别任务使用深度卷积特征来表征物体的类别,然而在细粒度图像识别任务中,不同目标物体的差距大都存在于一些细微的局部区域,直接使用深度卷积特征来表征物体的类别有很大的局限性,深度神经网络无法有效定位到图像中具有判别意义的局部区域,导致分类效果不理想。由于该任务的困难性,科研人员首先对训练样本进行标注,包括对样本中目标物体的最大外接框的标注和目标物体中具有判别意义的局部区域的标注,例如鸟类的额头、嘴巴、尾部羽毛、脚等等。使用这些带标注的数据首先很好的去除了背景信息对分类的干扰,也手动定位了具有判别意义的局部区域,大大提升了细粒度图像识别的准确度。然而,在实际应用场景中,带人工标注最大外接框和局部区域的训练数据获取的成本高,导致了强监督的细粒度图像识别算法不具有一般性和普适性,严重制约了算法在实际场景中的实用。因此如何设计不需要人工标注的弱监督细粒度图像识别算法成了该领域的主要研究问题。
发明内容
本发明技术解决问题:针对细粒度图像识别任务中,目前强监督细粒度图像识别算法中需要最大外接框的额外标注信息的缺陷,以及弱监督细粒度图像识别算法中使用弱监督检测算法带来的巨大计算量的特点,提供一种基于注意力感知与对抗学习的细粒度图像识别方法,在不增加额外参数的前提条件下,仅使用图像的类比标签,显著提升细粒度图像识别的准确度和对难样本的鲁棒性。
本发明利用神经网络的注意力机制,只使用图像类别标签,定位出输入图像中目标物体的大概位置。同时为了针对细粒度图像任务中由于训练数据量较少,且类间方差小,类内方差大的而引起的显著过拟合现象,提出基于对抗学习的难样本挖掘算法,模型训练过程中神经网络自主选择网络难以判断的带掩码的难样本作为新的训练样本,一方面提升网络对难样本的识别鲁棒性,另一方面有助于网络关注其他具有判别意义的局部区域。
本发明技术解决方案:一种基于注意力感知与对抗学习的细粒度图像识别方法,包括有下列步骤:
训练阶段:
步骤一:数据预处理
每个轮次按批次读取训练数据集,对于每个输入样例,将图像缩放至固定尺度并实现数据增广,最后对输入进行归一化处理,得到预处理数据;
步骤二:网络构建
使用通用的图像识别网络为特征提取网络,修改通用图像识别网络的全连接层,输入结点数目保持不变,输出结点数修改为训练集中的类别数。使用ImageNet预训练权重初始化特征提取网络参数;
步骤三:特征提取
使用步骤一得到的预处理数据作为输入,步骤二构建的特征提取网络作为特征提取器,对于一张输入图像,由特征提取网络提取最后两层卷积层conv5b和conv5c的特征图,特征图的尺度为C×H×W,其中C为特征图的通道数,W为特征图的宽度,H为特征图的高度;
步骤四:基于注意力机制的物体定位
首先由特征提取网络得到的特征图根据公式(1)在通道维度计算神经网络的通道响应和,得到二维激活图A。公式(1)中fi表示第i通道的特征图,C表示特征图的通道数。通过公式(2)计算整个特征图的平均激活值
Figure BDA0002777608440000021
将该激活均值作为定位输入图像中目标物体位置的关键,其中A(x,y)表示特征图中坐标(x,y)处的激活值。通过逐像素地比较特征图的激活值和激活均值
Figure BDA0002777608440000022
对于特征图中大于激活均值的位置的卷积特征保留,掩码图中对应位置的值置为1,而特征图中小于激活均值的位置,掩码图中对应位置的值置为0,将通道响应大于均值的像素选择出来,如公式(3)
Figure BDA0002777608440000031
表示坐标(x,y)处的掩码值,从而得到相应的掩码图
Figure BDA0002777608440000032
掩码图中1的位置表述了目标物体出现的区域。为了使最后的掩码图更加准确的表述输入图像中目标物体的位置信息,使用最后两个卷积层conv5b和conv5c的掩码图
Figure BDA0002777608440000033
的交集得到输入图像更准确的掩码图M,如公式(4)。然后根据掩码图中值为1的最大连通区域的最小外接框作为输入图像中定位到的目标物体在特征图层面的位置信息,最后将该最小外接框按尺度缩放得到原始输入图像中目标物体的位置信息,位置信息包括目标框的左上角坐标和右下角坐标;
Figure BDA0002777608440000034
Figure BDA0002777608440000035
Figure BDA0002777608440000036
Figure BDA0002777608440000037
步骤五:目标物体图像缩放与再训练
使用步骤四中获得的目标物体的位置信息将目标物体从原始图像中裁剪出来并缩放到固定尺度,再次使用特征提取网络提取目标物体图像最后一个卷积层conv5c的特征图。该特征图与原始图像得到的特征图尺度相同,但是减少了背景信息的干扰,更具有表征意义;
步骤六:基于对抗学习的难样本挖掘算法
对于步骤四中卷积层conv5c的特征图,将特征图划分为若干个网格,分别将每个网格的响应值置为0,对应得到若干个具有遮挡特性的子样本,通过分类损失函数计算每个子样本的损失,损失越大表示神经网络对该样本的判断越不准确,即该样本对于当前网络参数为一个难以识别成功的样本,具有遮挡特性的且计算出的损失值最大的样本为挖掘出的难样本,将该难样本作为新的训练样本;
步骤七:多级损失函数计算与反向传播
除了使用分类损失对类别进行约束,还使用ArcFace损失进行特征空间的约束。计算原始输入图像的分类损失、目标物体图像的分类损失、难样本的ArcFace损失,计算三个损失之和,并进行反向传播更新网络参数;
测试阶段:
步骤一:数据预处理
每个轮次按批次读取训练数据集,对于每个输入样例,将图像缩放至固定尺度,然后对输入进行训练阶段相同的归一化处理,得到预处理数据;
步骤二:特征提取
使用步骤一得到的预处理数据作为输入,步骤二构建的特征提取网络作为特征提取器,对于一张输入图像,由特征提取网络提取最后两层卷积层conv5b和conv5c的特征图,特征图的尺度为C×H×W,其中C为特征图的通道数,W为特征图的宽度,H为特征图的高度;
步骤三:基于注意力机制的物体定位
首先由训练阶段构建的特征提取网络得到的特征图根据公式(1)在通道维度计算神经网络的通道响应和,得到二维激活图A。公式(1)中fi表示第i通道的特征图,C表示特征图的通道数。通过公式(2)计算整个特征图的平均激活值
Figure BDA0002777608440000041
将该激活均值作为定位输入图像中目标物体位置的关键,其中A(x,y)表示特征图中坐标(x,y)处的激活值。通过逐像素地比较特征图的激活值和激活均值
Figure BDA0002777608440000042
对于特征图中大于激活均值的位置的卷积特征保留,掩码图中对应位置的值置为1,而特征图中小于激活均值的位置,掩码图中对应位置的值置为0,将通道响应大于均值的像素选择出来,如公式(3)
Figure BDA0002777608440000043
表示坐标(x,y)处的掩码值,从而得到相应的掩码图
Figure BDA0002777608440000044
掩码图中1的位置表述了目标物体出现的区域。为了使最后的掩码图更加准确的表述输入图像中目标物体的位置信息,使用最后两个卷积层conv5b和conv5c的掩码图
Figure BDA0002777608440000045
的交集得到输入图像更准确的掩码图M,如公式(4)。然后根据掩码图中值为1的最大连通区域的最小外接框作为输入图像中定位到的目标物体在特征图层面的位置信息,最后将该最小外接框按尺度缩放得到原始输入图像中目标物体的位置信息,位置信息包括目标框的左上角坐标和右下角坐标;
步骤四:目标物体图像缩放与特征提取
使用步骤三中获得的目标物体的位置信息将目标物体从原始图像中裁剪出来并缩放到固定尺度,再次使用特征提取网络提取目标物体图像最后一个卷积层conv5c的特征图。该特征图与原始图像得到的特征图尺度相同,但是减少了背景信息的干扰,更具有表征意义;
步骤五:细粒度图像分类
使用步骤四中得到的目标物体图像最后一个卷积层conv5c的特征图,通过全局平均池化得到二维的特征图,再将二维的特征图拉成一维的特征向量,通过全连接层和软最大SoftMax计算输入图像被判定为每一类的概率,概率最大项即为输入图像的类别。
本发明与现有技术相比的优点在于:
(1)本发明在不使用任何额外神经网络参数的前提下,完成了细粒度图像中目标物体的定位,利用通道聚合的方法计算得到神经网络的通道响应均值,本发明通过逐像素比较特征图与通道均值响应均值的策略选择出具有表征输入图像中物体特征的卷积描述符,从而定位出输入图像中目标物体的位置,很好地解决了细粒度图像识别任务中背景信息的干扰的难题。
(2)本发明利用对抗学习的方法,以分类损失越大、样本越难被网络识别正确为先验知识,利用掩码的策略遮挡物体的不同局部区域,对于生成的多个具有遮挡特性样本,让神经网络在训练过程中自主选择难样本作为新的训练样本,解决细粒度图像识别任务中由于数据量较少带来的严重过拟合问题。另一方面,加入了新的具有遮挡意义的难样本能够提升网络对遮挡的鲁棒性,迫使网络更多地关注次重要的局部区域,从而达到提升识别准确率的效果。
附图说明
图1为本发明的基于注意力感知与对抗学习的细粒度图像识别方法流程图。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
如图1所示,本发明的基于注意力机制和对抗学习的细粒度图像识别方法,具体实施步骤如下:
训练阶段:
步骤一:数据预处理
使用加州理工学院提供的细粒度图像识别领域公开数据集CUB-200-2011为训练数据集,该数据集中共包含200类不同的鸟类。按批次读取训练集,每批次读取16张图,对于每个输入样例,将图像缩放至448x448的尺寸,以0.5的概率做水平翻转达到数据增广的目的,最后对输入数据做归一化处理,归一化的均值和标准差分别为[0.485,0.456,0.406],[0.229,0.224,0.225],得到预处理数据;
步骤二:网络构建
使用ResNet50构建特征提取网络,使用ImageNet预训练权重初始化特征提取网络,定义新的全连接层,全连接层的输入结点数为2048,输出结点数为CUB-200-2011数据集中的类别数200;
步骤三:特征提取
使用步骤一预处理后的数据作为输入,步骤二构建的特征提取网络作为特征提取器。对于一张输入图像,由特征提取网络提取最后两层卷积层conv5b和convt5c的特征图,其中C为特征图的通道数,W为特征图的宽度,H为特征图的高度;
步骤四:基于注意力机制的物体定位
首先由训练阶段构建的特征提取网络得到的特征图根据公式(1)在通道维度计算神经网络的通道响应和,得到二维激活图A。公式(1)中fi表示第i通道的特征图,C表示特征图的通道数。通过公式(2)计算整个特征图的平均激活值
Figure BDA0002777608440000061
将该激活均值作为定位输入图像中目标物体位置的关键,其中A(x,y)表示特征图中坐标(x,y)处的激活值。通过逐像素地比较特征图的激活值和激活均值
Figure BDA0002777608440000062
对于特征图中大于激活均值的位置的卷积特征保留,掩码图中对应位置的值置为1,而特征图中小于激活均值的位置,掩码图中对应位置的值置为0,如公式(3)
Figure BDA0002777608440000063
表示坐标(x,y)处的掩码值,将通道响应大于均值的像素选择出来,从而得到相应的掩码图
Figure BDA0002777608440000064
掩码图中1的位置表述了目标物体出现的区域。为了使最后的掩码图更加准确的表述输入图像中目标物体的位置信息,使用最后两个卷积层conv5b和conv5c的掩码图
Figure BDA0002777608440000065
的交集得到输入图像更准确的掩码图M,如公式(4)。然后根据掩码图中值为1的最大连通区域的最小外接框作为输入图像中定位到的目标物体在特征图层面的位置信息,最后将该最小外接框按尺度缩放得到原始输入图像中目标物体的位置信息,位置信息包括目标框的左上角坐标和右下角坐标;
步骤五:目标物体图像缩放与再训练
使用步骤四中获得的目标物体的位置信息将目标物体从原始图像中裁剪出来并缩放到448x448,再次使用特征提取网络提取目标物体图像最后一个卷积层conv5c的特征图。该特征图与原始图像得到的特征图尺度相同,但是减少了背景信息的干扰,更具有表征意义;
步骤六:基于对抗学习的难样本挖掘算法
对于步骤四中卷积层conv5c的特征图,将特征图划分为3x3的若干个网格,分别将每个网格的响应值置为0,对应得到9个具有遮挡特性的子样本,通过分类损失函数计算每个子样本的损失,损失越大表示神经网络对该样本的判断越不准确,即该样本对于当前网络参数为一个难以识别成功的样本,具有遮挡特性的且计算出的损失值最大的样本为挖掘出的难样本,将该难样本作为新的训练样本;
步骤七:多级损失函数计算与反向传播
除了使用分类损失对类别进行约束,还使用ArcFace损失进行特征空间的约束。计算原始输入图像的分类损失、目标物体图像的分类损失、难样本的ArcFace损失,计算三个损失之和,并进行反向传播更新网络参数;
测试阶段:
步骤一:数据预处理
使用CUB-200-2011为测试数据集,按批次读取训练集,每批次读取16张图,对于每个输入样例,将图像缩放至448x448的尺寸,最后对输入数据做归一化处理,归一化的均值和标准差分别为[0.485,0.456,0.406],[0.229,0.224,0.225],得到预处理数据;
步骤二:特征提取
使用步骤一得到的预处理数据作为输入,步骤二构建的特征提取网络作为特征提取器,对于一张输入图像,由特征提取网络提取最后两层卷积层conv5b和conv5c的特征图,特征图的尺度为C×H×W,其中C为特征图的通道数,W为特征图的宽度,H为特征图的高度;
步骤三:基于注意力机制的物体定位
首先由训练阶段构建的特征提取网络得到的特征图根据公式(1)在通道维度计算神经网络的通道响应和,得到二维激活图A。公式(1)中fi表示第i通道的特征图,C表示特征图的通道数。通过公式(2)计算整个特征图的平均激活值
Figure BDA0002777608440000071
将该激活均值作为定位输入图像中目标物体位置的关键,其中A(x,y)表示特征图中坐标(x,y)处的激活值。通过逐像素地比较特征图的激活值和激活均值
Figure BDA0002777608440000072
对于特征图中大于激活均值的位置的卷积特征保留,掩码图中对应位置的值置为1,而特征图中小于激活均值的位置,掩码图中对应位置的值置为0,如公式(3)
Figure BDA0002777608440000073
表示坐标(x,y)处的掩码值,将通道响应大于均值的像素选择出来,从而得到相应的掩码图
Figure BDA0002777608440000074
掩码图中1的位置表述了目标物体出现的区域。为了使最后的掩码图更加准确的表述输入图像中目标物体的位置信息,使用最后两个卷积层conv5b和conv5c的掩码图
Figure BDA0002777608440000075
的交集得到输入图像更准确的掩码图M,如公式(4)。然后根据掩码图中值为1的最大连通区域的最小外接框作为输入图像中定位到的目标物体在特征图层面的位置信息,最后将该最小外接框按尺度缩放得到原始输入图像中目标物体的位置信息,位置信息包括目标框的左上角坐标和右下角坐标;
步骤四:目标物体图像缩放与特征提取
使用步骤三中获得的目标物体的位置信息将目标物体从原始图像中裁剪出来并缩放到448x448,再次使用特征提取网络提取目标物体图像最后一个卷积层conv5c的特征图。该特征图与原始图像得到的特征图尺度相同,但是减少了背景信息的干扰,更具有表征意义;
步骤五:细粒度图像分类
使用步骤四中得到的目标物体图像最后一个卷积层conv5c的特征图,通过全局平均池化得到二维的特征图,再将二维的特征图拉成一维的特征向量,通过全连接层和软最大SoftMax计算输入图像被判定为每一类的概率,概率最大项即为输入图像的类别。
本发明应用于只需要类别标签的细粒度图像识别任务,解决了强监督细粒度图像识别算法需要最大外接框标注信息或者局部区域标注信息而不具有普适性的缺陷,在不增加额外参数的前提下,利用注意力机制定位输入图像中目标物体的位置。另外利用了对抗学习的方法提升模型鲁棒性的同时使网络能过关注到多个具有判别意义的局部区域。最终构建参数量少、识别率高的细粒度图像识别系统。
总之,本发明克服现有针对细粒度图像识别技术的不足,提供一种基于注意力机制和对抗学习的细粒度图像识别算法,结合全局特征和局部特征来提升识别的准确率,通过引入难样本提升模型的鲁棒性,进而具备更好的分类和学习能力。
本发明未详细描述的部分属于本领域公知技术。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (1)

1.一种基于注意力感知和对抗学习的细粒度图像识别方法,其特征在于,分为训练阶段和测试阶段;
所述训练阶段实现:
步骤一:数据预处理
每个轮次按批次读取训练数据集,对于每个输入样例,将图像缩放至固定尺度并实现数据增广,最后对输入进行归一化处理,得到预处理数据;
步骤二:网络构建
使用通用的图像识别网络为特征提取网络,修改通用图像识别网络的全连接层,输入结点数目保持不变,输出结点数修改为训练集中的类别数,使用ImageNet预训练权重初始化特征提取网络参数;
步骤三:特征提取
使用步骤一得到的预处理数据作为输入,步骤二构建的特征提取网络作为特征提取器,对于一张输入图像,由特征提取网络提取最后两层卷积层conv5b和conv5c的特征图,特征图的尺度为C×H×W,其中C为特征图的通道数,W为特征图的宽度,H为特征图的高度;
步骤四:基于注意力机制的物体定位
首先由特征提取网络得到的特征图,根据公式(1)在通道维度计算神经网络的通道响应和,得到二维激活图A,公式(1)中fi表示第i通道的特征图,通过公式(2)计算整个特征图的平均激活值
Figure FDA0002777608430000011
将该激活均值作为定位输入图像中目标物体位置的关键,其中A(x,y)表示特征图中坐标(x,y)处的激活值,通过逐像素地比较特征图的激活值和激活均值
Figure FDA0002777608430000012
对于特征图中大于激活均值的位置的卷积特征保留,掩码图中对应位置的值置为1,而特征图中小于激活均值的位置,掩码图中对应位置的值置为0,将通道响应大于均值的像素选择出来,如公式(3)
Figure FDA0002777608430000013
表示坐标(x,y)处的掩码值,得到相应的掩码图
Figure FDA0002777608430000014
掩码图中1的位置表述了目标物体出现的区域;为了使最后的掩码图更加准确的表述输入图像中目标物体的位置信息,使用最后两个卷积层conv5b和conv5c的掩码图
Figure FDA0002777608430000015
的交集得到输入图像更准确的掩码图M,如公式(4),然后根据掩码图中值为1的最大连通区域的最小外接框作为输入图像中定位到的目标物体在特征图层面的位置信息,最后将该最小外接框按尺度缩放得到原始输入图像中目标物体的位置信息,位置信息包括目标框的左上角坐标和右下角坐标;
Figure FDA0002777608430000021
Figure FDA0002777608430000022
Figure FDA0002777608430000023
Figure FDA0002777608430000024
步骤五:目标物体图像缩放与再训练
使用步骤四中获得的目标物体的位置信息将目标物体从原始图像中裁剪出来并缩放到固定尺度,再次使用特征提取网络提取目标物体图像最后一个卷积层conv5c的特征图;
步骤六:基于对抗学习的难样本挖掘算法
对于步骤四中卷积层conv5c的特征图,将特征图划分为若干个网格,分别将每个网格的响应值置为0,对应得到若干个具有遮挡特性的子样本,通过分类损失函数计算每个子样本的损失,损失越大表示神经网络对该样本的判断越不准确,即该样本对于当前网络参数为一个难以识别成功的样本,具有遮挡特性的且计算出的损失值最大的样本为挖掘出的难样本,将该难样本作为新的训练样本;
步骤七:多级损失函数计算与反向传播
除了使用分类损失对类别进行约束,还使用ArcFace损失进行特征空间的约束,计算原始输入图像的分类损失、目标物体图像的分类损失、难样本的损失,计算三个损失之和,并进行反向传播更新网络参数;
所述测试阶段实现如下:
步骤一:数据预处理
每个轮次按批次读取训练数据集,对于每个输入样例,将图像缩放至固定尺度,然后对输入进行训练阶段相同的归一化处理,得到预处理数据;
步骤二:特征提取
使用步骤一得到的预处理数据作为输入,步骤二构建的特征提取网络作为特征提取器,对于一张输入图像,由特征提取网络提取最后两层卷积层conv5b和conv5c的特征图,特征图的尺度为C×H×W,其中C为特征图的通道数,W为特征图的宽度,H为特征图的高度;
步骤三:基于注意力机制的物体定位
首先由特征提取网络得到的特征图根据公式(1)在通道维度计算神经网络的通道响应和,得到二维激活图A,公式(1)中fi表示第i通道的特征图,C表示特征图的通道数。通过公式(2)计算整个特征图的平均激活值
Figure FDA0002777608430000031
将该激活均值作为定位输入图像中目标物体位置的关键,其中A(x,y)表示特征图中坐标(x,y)处的激活值,通过逐像素地比较特征图的激活值和激活均值
Figure FDA0002777608430000032
对于特征图中大于激活均值的位置的卷积特征保留,掩码图中对应位置的值置为1,而特征图中小于激活均值的位置,掩码图中对应位置的值置为0,将通道响应大于均值的像素选择出来,如公式(3)
Figure FDA0002777608430000033
表示坐标(x,y)处的掩码值,从而得到相应的掩码图
Figure FDA0002777608430000034
掩码图中1的位置表述了目标物体出现的区域;为了使最后的掩码图更加准确的表述输入图像中目标物体的位置信息,使用最后两个卷积层conv5b和conv5c的掩码图
Figure FDA0002777608430000035
的交集得到输入图像更准确的掩码图M,如公式(4),然后根据掩码图中值为1的最大连通区域的最小外接框作为输入图像中定位到的目标物体在特征图层面的位置信息,最后将该最小外接框按尺度缩放得到原始输入图像中目标物体的位置信息,位置信息包括目标框的左上角坐标和右下角坐标;
步骤四:目标物体图像缩放与特征提取
使用步骤三中获得的目标物体的位置信息将目标物体从原始图像中裁剪出来并缩放到固定尺度,再次使用特征提取网络提取目标物体图像最后一个卷积层conv5c的特征图;该特征图与原始图像得到的特征图尺度相同,但是减少了背景信息的干扰,更具有表征意义;
步骤五:细粒度图像分类
使用步骤四中得到目标物体图像最后一个卷积层conv5c的特征图,通过全局平均池化得到二维的特征图,再将二维的特征图拉成一维的特征向量,通过全连接层和软最大SoftMax计算输入图像被判定为每一类的概率,概率最大项即为输入图像的类别。
CN202011270684.9A 2020-11-13 2020-11-13 一种基于注意力感知与对抗学习的细粒度图像识别方法 Active CN112784869B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011270684.9A CN112784869B (zh) 2020-11-13 2020-11-13 一种基于注意力感知与对抗学习的细粒度图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011270684.9A CN112784869B (zh) 2020-11-13 2020-11-13 一种基于注意力感知与对抗学习的细粒度图像识别方法

Publications (2)

Publication Number Publication Date
CN112784869A true CN112784869A (zh) 2021-05-11
CN112784869B CN112784869B (zh) 2022-08-12

Family

ID=75750492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011270684.9A Active CN112784869B (zh) 2020-11-13 2020-11-13 一种基于注意力感知与对抗学习的细粒度图像识别方法

Country Status (1)

Country Link
CN (1) CN112784869B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115775226A (zh) * 2022-10-08 2023-03-10 广州锟元方青医疗科技有限公司 基于Transformer的医学图像分类方法
CN117011718A (zh) * 2023-10-08 2023-11-07 之江实验室 一种基于多元损失融合的植物叶片细粒度识别方法和系统
CN117726958A (zh) * 2024-02-07 2024-03-19 国网湖北省电力有限公司 配电线路无人机巡检图像目标检测及隐患智能识别方法
CN117853875A (zh) * 2024-03-04 2024-04-09 华东交通大学 一种细粒度图像识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569905A (zh) * 2019-09-10 2019-12-13 江苏鸿信系统集成有限公司 基于生成对抗网络和注意力网络的细粒度图像分类方法
CN110598029A (zh) * 2019-09-06 2019-12-20 西安电子科技大学 基于注意力转移机制的细粒度图像分类方法
US20200320748A1 (en) * 2017-10-24 2020-10-08 L'oreal System and method for image processing using deep neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200320748A1 (en) * 2017-10-24 2020-10-08 L'oreal System and method for image processing using deep neural networks
CN110598029A (zh) * 2019-09-06 2019-12-20 西安电子科技大学 基于注意力转移机制的细粒度图像分类方法
CN110569905A (zh) * 2019-09-10 2019-12-13 江苏鸿信系统集成有限公司 基于生成对抗网络和注意力网络的细粒度图像分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PENG CHEN ET AL.: "Semi-Supervised Fine-Grained Image Categorization Using Transfer Learning With Hierarchical Multi-Scale Adversarial Networks", 《IEEE ACCESS》 *
XIANGTENG HE ET AL.: "Fine-Grained Visual-Textual Representation Learning", 《 IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *
兰红 等: "图注意力网络的场景图到图像生成模型", 《中国图象图形学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115775226A (zh) * 2022-10-08 2023-03-10 广州锟元方青医疗科技有限公司 基于Transformer的医学图像分类方法
CN115775226B (zh) * 2022-10-08 2023-09-26 广州锟元方青医疗科技有限公司 基于Transformer的医学图像分类方法
CN117011718A (zh) * 2023-10-08 2023-11-07 之江实验室 一种基于多元损失融合的植物叶片细粒度识别方法和系统
CN117011718B (zh) * 2023-10-08 2024-02-02 之江实验室 一种基于多元损失融合的植物叶片细粒度识别方法和系统
CN117726958A (zh) * 2024-02-07 2024-03-19 国网湖北省电力有限公司 配电线路无人机巡检图像目标检测及隐患智能识别方法
CN117726958B (zh) * 2024-02-07 2024-05-10 国网湖北省电力有限公司 配电线路无人机巡检图像目标检测及隐患智能识别方法
CN117853875A (zh) * 2024-03-04 2024-04-09 华东交通大学 一种细粒度图像识别方法及系统
CN117853875B (zh) * 2024-03-04 2024-05-14 华东交通大学 一种细粒度图像识别方法及系统

Also Published As

Publication number Publication date
CN112784869B (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
CN112784869B (zh) 一种基于注意力感知与对抗学习的细粒度图像识别方法
CN111563442B (zh) 基于激光雷达的点云和相机图像数据融合的slam方法及系统
CN109934121B (zh) 一种基于YOLOv3算法的果园行人检测方法
Lee et al. Simultaneous traffic sign detection and boundary estimation using convolutional neural network
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN109241913B (zh) 结合显著性检测和深度学习的船只检测方法及系统
CN109146889B (zh) 一种基于高分辨率遥感图像的农田边界提取方法
US9805293B2 (en) Method and apparatus for object recognition in image processing
CN112907602B (zh) 一种基于改进k-近邻算法的三维场景点云分割方法
CN112364931B (zh) 一种基于元特征和权重调整的少样本目标检测方法及网络系统
CN111783772A (zh) 一种基于RP-ResNet网络的抓取检测方法
Wang et al. SSRNet: In-field counting wheat ears using multi-stage convolutional neural network
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和系统
Shahab et al. How salient is scene text?
CN108428220A (zh) 静止轨道卫星序列遥感影像海岛礁区域自动几何校正方法
CN108133471B (zh) 一种基于人工蜂群算法的机器人导航路径提取方法及装置
CN110287798B (zh) 基于特征模块化和上下文融合的矢量网络行人检测方法
CN112949338A (zh) 深度学习与Hough变换结合的二维条码精确定位方法
CN111709317B (zh) 一种基于显著性模型下多尺度特征的行人重识别方法
CN108090913B (zh) 一种基于对象级Gauss-Markov随机场的图像语义分割方法
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN111274964A (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN113205023B (zh) 一种基于先验矢量引导的高分影像建筑物提取精处理方法
CN111666953B (zh) 一种基于语义分割的潮汐带测绘方法及设备
CN111160372B (zh) 一种基于高速卷积神经网络的大目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230821

Address after: Room 231, 2nd Floor, Zone C, No. 8 College, No.18 Xueqing Road, Haidian District, Beijing, 100083

Patentee after: Beijing Guoxin Hongsi Technology Co.,Ltd.

Address before: 100191 No. 37, Haidian District, Beijing, Xueyuan Road

Patentee before: BEIHANG University