CN112733912B - 基于多粒度对抗损失的细粒度图像识别方法 - Google Patents

基于多粒度对抗损失的细粒度图像识别方法 Download PDF

Info

Publication number
CN112733912B
CN112733912B CN202011634407.1A CN202011634407A CN112733912B CN 112733912 B CN112733912 B CN 112733912B CN 202011634407 A CN202011634407 A CN 202011634407A CN 112733912 B CN112733912 B CN 112733912B
Authority
CN
China
Prior art keywords
image
granularity
network
feature
fine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011634407.1A
Other languages
English (en)
Other versions
CN112733912A (zh
Inventor
杜吉祥
王莹莹
张洪博
翟传敏
黄政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202011634407.1A priority Critical patent/CN112733912B/zh
Publication of CN112733912A publication Critical patent/CN112733912A/zh
Application granted granted Critical
Publication of CN112733912B publication Critical patent/CN112733912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于多粒度对抗损失的细粒度图像识别方法,包括以下步骤:使用区域混淆机制破坏图像全局信息,并进行图像增强,迫使网络更加关注图像区域信息;使用渐进式学习策略在深度神经网络的不同层提取特征,联合不同粒度的图像特征,对每一个特征和原图特征联合进行分类;获取多粒度对抗损失函数,来降低因破坏图像的全局结构而引起的噪声。本发明将数据的不同粒度区域混淆,实现了数据增强,迫使网络关注到不同粒度图像的局部信息,采用渐进式学习策略,对每个阶段的特征进行学习且连接最后S个阶段的特征从而实现多粒度信息互补,构建多粒度对抗损失降低因破坏图像的全局结构而引入的噪声,因此可以更准确和高效的识别子类图像。

Description

基于多粒度对抗损失的细粒度图像识别方法
技术领域
本发明涉及图像识别领域,具体涉及一种基于多粒度对抗损失的细粒度图像识别方法。细粒度图像识别技术现应用于新零售商品识别、植物的虫害识别、果蔬图像识别和智能交通等多个领域,快速准确的识别是以上应用的关键技术。
背景技术
在互联网的高速发展时代,图像具有直观生动的特点,用户更容易接受和认知,成为信息的主要载体。图像进行精细划分推送给不同需求人群,从而定向满足人民日益增长的物质文化需求和美好生活的需要。单标签的图像识别问题,可分为跨物种语义级别的图像识别、子类细粒度图像识别和实例级图像识别三大类别。前者的每个类别属于不同的大类或物种,具有较大的类间差异,较小的类内误差。后者识别是区分不同的个体进行分类,如人脸识别。细粒度图像识别,区分不同的子类别,即来源同一个物种或者类别的子类,具有类间差异小,类内差异大的特点。
细粒度图像识别旨在区分细微差异的子类对象的类别。数据集里不同类别之间的差异细微,其部位标注是通过专家在不同区域判别出差异信息。除了由姿势,光照、角度、遮挡、背景诸多不确定因素而导致的较大的类内变化之外,较小的类间变化也是细粒度视觉识别中的另一个挑战。例如鸟类翅膀显示出较小的类间差异,其中这些类别的差异仅是斑点数量和细微的外观差异。由于此类数据集中标记细粒度类的专业领域知识要求,因此通常缺少足够的标记数据。细粒度识别问题仅通过典型的分类网络卷积神经网络很难获得准确识别子类的结果。
发明内容
本发明所要解决的技术问题是一般卷积神经网络关注全局信息,对细微差异性区域难以提取获取的问题。
为了解决以上技术问题,本发明提出一种基于多粒度对抗损失的细粒度图像识别方法,包括以下步骤:
S1,使用区域混淆机制破坏图像全局信息,并进行图像增强,迫使网络更加关注图像区域信息;
S2,使用渐进式学习策略在深度神经网络的不同层提取特征,联合不同粒度的图像特征,对每一个特征和原图特征联合进行分类;
S3,获取多粒度对抗损失函数,来降低因破坏图像的全局结构而引起的噪声。
本发明针对获取细微判别性区域的问题,提出区域混淆机制将原图数据集进行数据增强,迫使图像更加关注其细节信息,解决了图像增强的问题。本发明提出多粒度对抗损失函数以应对破坏全局信息所产生的噪声。采用渐进式方法学习细粒度图像里具有判别性的局部区域,解决了空间相似图像(细粒度图像)难以区分的问题。
作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进,步骤S1具体包括:
将图像均匀的划分为N*N个子区域,Ri,j(1≤i,j<N)表示某个子区域的位置,在定义的领域内移动子区域,使子区域的顺序混淆;
对于Ri,j子区域,每一行的元素位置移动前设置一个随机数qi,获取到新的区域位置qj,i=i+r,(r~U(-k,k),1≤k<N),qj,i为第j行的第i个元素移动后的位置;每一列的元素位置移动前设置一个随机数qj,获取到新的区域位置qi,j=j+r,(r~U(-k,k),1≤k<N),qi,j为第i列的第j个元素移动后的位置;因此,新的区域的位置表示如下:
Figure GDA0004197658620000021
σ(i,j)=(σj row(i),σi col(j)) (2)
条件(1)约束Ri,j在其领域内移动,以破坏原图Image全局结构,生成新图像Image_N来增强数据图像,以加强图像区域特征信息。
作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进,步骤S2包括:
以深度卷积网络Resnet50作为基础网络,将深度卷积网络Resnet50分层,在浅层网络,图像学习其大致轮廓,然后通过向网络中添加层次来逐步提高分辨率,采用多粒度分割图像,迫使网络注意力转移到越来越小的尺度细节上;
将网络分为L个阶段的主干网络提取器,在不同的阶段提取特征,进而分类实现目标区域的识别,同时考虑最后S个阶段(L,L-1,……,L-S+1),将最后的S个阶段特征联合为:
Vconcat=concat[VL-S+1,……,VL-1,VL] (3)
学习每个阶段的特征和最后S个阶段的特征,将获取的特征联合起来实现分类网络。
作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进,所述将深度卷积网络Resnet50分层,具体为将深度卷积网络Resnet50分层为5部分conv1,conv2_x,conv3_x,conv4_x,conv5_x。
作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进,取L=4,将网络分为4个阶段的主干网络提取器。
作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进,S=3。
作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进,步骤S2包括以下4个阶段:
第一阶段获取Image_N,其中N=2(L-1),和原图连接得到增强数据Image_Double_8,在网络中先输入区域图像Image_Double_8,经过conv1,conv2_x,conv3_x,输出特征FLl,将FLl输入到卷积块
Figure GDA0004197658620000031
卷积块/>
Figure GDA0004197658620000032
将特征FLl生成/>
Figure GDA0004197658620000033
模块并送入池化层,进入分类,分类模块/>
Figure GDA0004197658620000034
由Batchnorm和ELU组成,得到/>
Figure GDA0004197658620000035
预测概率矩阵;
第二阶段在网络先输入区域图像Image_Double_4,经过conv1,conv2_x,conv3_x,conv4_x,获取特征图,卷积、池化、分类得到预测概率矩阵;
第三阶段在网络先输入区域图像Image_Double_2,经过conv1,conv2_x,conv3_x,conv4_x,conv5_x,获取特征图,卷积、池化、分类得到预测概率矩阵;
第四阶段获取Image_Double,在神经网络经过conv1,conv2_x,conv3_x,获取Fl-2特征,Fl-2特征输入卷积块
Figure GDA0004197658620000036
得到Vl-2,Fl-2特征输入conv4_x得到Fl-1,Fl-1特征输入卷积块
Figure GDA0004197658620000037
得到Vl-1,Fl-1特征输入conv5_x得到Fl,Fl特征输入卷积块/>
Figure GDA0004197658620000038
得到Vl,将最后的3个阶段特征联合为
Vconcat=concat[Vl,Vl-1,Vl-2],
卷积、池化、分类得到预测概率矩阵。
作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进,步骤S3包括:
在每一个阶段真实标签y和预测概率yLl,采用交叉熵进行损失计算,获得多粒度对抗损失函数:
Figure GDA0004197658620000041
多粒度对抗损失函数防止Image_N过度破坏空间结构引起的噪声进入特征空间,对是否为破坏图像进行二分类,使判别器无法分辨出特征是来自原始图还是被破坏图(当无法分辨时,就意味着来自原始图和被破坏图的特征向量是非常接近的,也就意味着网络学习时排除了噪声的干扰),通过对抗学习的方式,降低噪声带来的影响。
作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进,本方法还包括步骤S4:
原始图像输入经过训练的模型中,获取Vconcat实现yconcat进行预测,图像在网络输出的特征进行分类的准确度表示为:
C=arg max(yconcat)。
作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进,将图像在每一阶段网络输出的特征按权重拼接后实现多分类结果的准确度为
Figure GDA0004197658620000042
本发明与现有技术相比具有诸多优点和有益效果,具体体现在以下方面:
1.将数据的不同粒度区域混淆,实现了数据增强,迫使网络关注到不同粒度图像的局部信息;
2.采用渐进式学习策略,对每个阶段的特征进行学习且连接最后S个阶段的特征从而实现多粒度信息互补;
3.构建多粒度对抗损失降低因破坏图像的全局结构而引入的噪声。
因此本发明的方法可以更准确和高效的识别子类图像。本发明的基于多粒度对抗损失的细粒度图像识别方法在FGVC基准数据集CUB200-2011上获得了高效准确的性能,图像识别准确度89.109%,优于现有方法。
附图说明
图1为本发明的基于多粒度对抗损失的渐进式学习算法流程演示图。
图2为本发明的渐进式学习模式示意图。
图3为本发明的多粒度对抗损失的基础模块示意图。
具体实施方式
下面结合附图对本发明的实施方式进行详细介绍。
本发明提出一种基于多粒度对抗损失的细粒度图像识别方法,包括以下步骤:
S1,使用区域混淆机制破坏图像全局信息,并进行图像增强,迫使网络更加关注图像区域信息;
S2,使用渐进式学习策略在深度神经网络的不同层提取特征,联合不同粒度的图像特征,对每一个特征和原图特征联合进行分类;
S3,获取多粒度对抗损失函数,来降低因破坏图像的全局结构而引起的噪声。
目前,PMG(Progressive Multi-Granularity)方法与本发明较为相似:其首先采用拼图(Jigsaw)的方式进行图像增强。多粒度拼图的增强图像输入网络,渐进式训练策略在网络中逐步添加网络层,不同粒度的图像在逐层获取的特征补充利用。每个粒度图像获取的特征进行分类获取其结果。
本发明与PMG方法的主要区别:
1.图像增强的方式不同。PMG采用拼图模块的方式进行图像增强,本发明使用区域混淆机制,给定图像均匀的划分N*N子区域,混淆其顺序,达到破坏全局信息的目的。
2.图像破坏全局信息,导致图像增强也引入噪声,多粒度对抗损失降低噪声对细粒度图像识别的影响。
本发明使用细粒度图像进行识别子类别。本发明提出的方法沿袭经典的细粒度识别方法流程:图像预处理,特征提取,分类。具体分为4个步骤:区域混淆机制得到图像增强,使用渐进式训练策略在深度神经网络中特征提取,分类并获取损失函数(1.引导分类,2消除数据增强的噪声)。如图1所示,下面详细介绍每一个步骤。
步骤一,区域混淆机制的图像增强(如图1的Part 1部分所示):
如果混淆了图像中局部区域的相对位置,神经网络将被迫从图像判别区域的细节中学习特征。故本发明先将图像均匀的划分为N*N个子区域,Ri,j(1≤i,j<N)表示某个子区域的位置,其次在定义的领域内进移动。
对于Ri,j子区域,每一行的元素位置移动前设置一个随机数qi,获取到新的区域位置qj,i=i+r,(r~U(-k,k),1≤k<N),qj,i为第j行的第i个元素移动后的位置;每一列的元素位置移动前设置一个随机数qj,获取到新的区域位置qi,j=j+r,(r~U(-k,k),1≤k<N),qi,j为第i列的第j个元素移动后的位置;因此,新的区域的位置表示如下:
Figure GDA0004197658620000061
σ(i,j)=(σj row(i),σi col(j)) (2)
条件(1)约束在其领域内移动。本步骤破坏原图(Image)全局结构,生成新图像(Image_N,N表示切分的粒度)来增强数据图像(Image_N,每个图像N*N个子区域),从而加强其部位特征信息。
步骤二,深度卷积网络使用渐进式训练策略(如图1中Part 2/3所示):
经典的深度卷积网络Resnet50作为基础网络,将网络进行分层为渐进式训练做准备。首先在浅层网络,图像学习其大致轮廓;然后通过向网络中添加层次来逐步提高分辨率。采用多粒度分割图像,迫使网络注意力转移到越来越小的尺度细节上。
将网络分为L个阶段的主干网络提取器,在不同的阶段提取特征,进而分类实现目标区域的识别。同时考虑最后S个阶段(L,L-1,……,L-S+1),将最后的S个阶段特征联合为:
Vconcat=concat[VL-S+1,……,VL-1,VL] (3)
每个阶段和最后S个阶段将获取的特征,连接起来实现分类网络,具体步骤如下:
网络Resnet50分层为5部分conv1,conv2_x,conv3_x,conv4_x,conv5_x。将网络分为具有L个阶段(设置参数:L=4)的主干网络提取器,在不同的阶段提取特征图实现目标区域的识别,也考虑最后S个阶段(L,L-1,……,L-S+1),将最后的S个阶段联合为Vconcat,获取的联合特征进行分类。
第一阶段获取Image_N(N=2(L-1)),和原图连接得到增强数据Image_Double_8。在网络中先输入区域图像Image_Double_8,经过conv1,conv2_x,conv3_x,输出特征FLl。将FLl输入到卷积块
Figure GDA0004197658620000063
该卷积块将特征FLl生成/>
Figure GDA0004197658620000064
模块。该模块送入池化层后,进入分类。分类模块/>
Figure GDA0004197658620000065
由Batchnorm和ELU组成,得到/>
Figure GDA0004197658620000066
预测概率矩阵。
第二阶段在网络先输入区域图像Image_Double_4,经过conv1,conv2_x,conv3_x,conv4_x,获取特征图。同理得到预测概率矩阵。
第三阶段在网络先输入区域图像Image_Double_2,经过conv1,conv2_x,conv3_x,conv4_x,conv5_x,获取特征图。同理得到预测概率矩阵。
第四阶段获取Image_Double。在神经网络经过conv1,conv2_x,conv3_x,获取Fl-2特征。Fl-2特征分别输入卷积块
Figure GDA0004197658620000067
得到Vl-2和输入conv4_x得到Fl-1。Fl-1特征分别输入卷积块/>
Figure GDA0004197658620000068
同理得到Vl-1和输入conv5_x得到Fl。Fl特征输入卷积块/>
Figure GDA0004197658620000069
同理得到Vl,如图2所示:
Vconcat=concat[Vl,Vl-1,Vl-2]
同理得到预测概率矩阵。
步骤三,损失函数(如图1中Part 4/5,):
在每一个阶段真实标签y和预测概率yLl,采用交叉熵进行损失计算:
Figure GDA0004197658620000071
以防止Image_N过度破坏空间结构引起的噪声进入特征空间。对是否为破坏图像进行二分类,使判别器无法分辨出特征是来自原始图还是被破坏图(当无法分辨时,就意味着来自原始图和被破坏图的特征向量是非常接近的,也就意味着网络学习时排除了噪声的干扰)。从而通过对抗学习的方式,降低噪声带来的影响。
选取图1中的第一阶段为例,图像Image_Double_N中标签d是(0)否(1)被破坏,即Image标签为1,其图像的交叉熵损失为D(I),Image_N标签为0,其图像的交叉熵损失为D(φ(I)),实现二分类D,如图3所示:
Figure GDA0004197658620000072
Loss=LossCE+αLossnoise (6)
在每个阶段分别对权重(α,β,γ)值进行讨论。
步骤四,验证:
原始图像输入经过训练的模型中,只需要获取Vconcat实现yconcat进行预测,删除其他三个阶段,从而减少了计算预算。最终结果C可以表示为:
C=arg max(yconcat) (7)
特定粒度的单个阶段(第四阶段)预测是唯一且互补,将所有输出以按权重组合在一起时,这会带来更好的性能:
Figure GDA0004197658620000074
本发明的实验结果如下:
表1:在Cub200-2011数据集的结果
Figure GDA0004197658620000081
α,β,γ分别是N=8,4,2破坏图像的多粒度对抗损失的权重。Acc为图像在网络输出的特征进行分类的准确度;Com_acc为图像在每一阶段网络输出的特征和拼接后实现多分类结果的准确度。
由表1所示,当图像破坏程度越严重,多粒度对抗损失对消除噪声效果越明显;每一阶段的对抗损失降低噪声的影响程度;最后展示获取高效准确的识别结果。
表2细粒度图像分类实验结果
Figure GDA0004197658620000082
本发明在FGVC基准数据集CUB200-2011上获得了高效准确的性能,其中所提出的方法优于现有方法,提供具有竞争力的结果。
本发明与现有技术相比具有以下特点:
1.将数据的不同粒度区域混淆,实现了数据增强,迫使网络关注到不同粒度图像的局部信息;
2.采用渐进式学习策略,对每个阶段的特征进行学习且连接最后S个阶段的特征从而实现多粒度信息互补;
3.构建多粒度对抗损失降低因破坏图像的全局结构而引入的噪声。
因此本发明的方法可以更准确和高效的识别子类图像。

Claims (7)

1.一种基于多粒度对抗损失的细粒度图像识别方法,其特征在于,包括以下步骤:
S1,使用区域混淆机制破坏图像全局信息,并进行图像增强,迫使网络更加关注图像区域信息,具体包括:
将图像均匀地划分为N*N个子区域,Ri,j,其中,1≤i,j<N,表示某个子区域的位置,在定义的领域内移动子区域,使子区域的顺序混淆;
对于Ri,j子区域,每一行的元素位置移动前设置一个随机数qi,获取到新的区域位置qj,i=i+r,其中,r~U(-k,k),l≤k<N,qj,i为第j行的第i个元素移动后的位置;每一列的元素位置移动前设置一个随机数qj,获取到新的区域位置qi,j=j+r,其中,r~U(-k,k),l≤k<N,qi,j为第i列的第j个元素移动后的位置;新的区域的位置表示如下:
Figure FDA0004197658610000011
σ(i,j)=(σj row(i),σi col(j)) (2)
条件(1)约束Ri,j在其领域内移动,以破坏原图Image全局结构,生成新图像Image_N来增强数据图像,以加强图像区域特征信息;
S2,使用渐进式学习策略在深度神经网络的不同层提取特征,联合不同粒度的图像特征,对每一个特征和原图特征联合进行分类,包括:
以深度卷积网络Resnet50作为基础网络,将深度卷积网络Resnet50分层,在浅层网络,图像学习其大致轮廓,然后通过向网络中添加层次来逐步提高分辨率,采用多粒度分割图像,迫使网络注意力转移到越来越小的尺度细节上;
将网络分为L个阶段的主干网络提取器,在不同的阶段提取特征,进而分类实现目标区域的识别,同时考虑最后S个阶段,其中,L,L-1,......,L-S+1,将最后的S个阶段特征联合为:
Vconcat=concat[VL-S+1,……,VL-1,VL] (3)
渐进式学习每个阶段的特征和最后S个阶段的特征,将获取的特征联合起来实现分类网络;
S3,获取多粒度对抗损失函数,来降低因破坏图像的全局结构而引起的噪声;
将图像在每一阶段网络输出的特征按权重拼接后实现多分类结果的准确度为
Figure FDA0004197658610000021
2.根据权利要求1所述的基于多粒度对抗损失的细粒度图像识别方法,其特征在于,所述将深度卷积网络Resnet50分层,具体为将深度卷积网络Resnet50分层为5部分conv1,conv2_x,conv3_x,conv4_x,conv5_x。
3.根据权利要求2所述的基于多粒度对抗损失的细粒度图像识别方法,其特征在于,L=4,将网络分为4个阶段的主干网络提取器。
4.根据权利要求3所述的基于多粒度对抗损失的细粒度图像识别方法,其特征在于,S=3。
5.根据权利要求4所述的基于多粒度对抗损失的细粒度图像识别方法,其特征在于,步骤S2包括以下4个阶段:
第一阶段获取Image_N,其中N=2(L-1),和原图连接得到增强数据Image_Double_8,在网络中先输入区域图像Image_Double_8,经过conv1,conv2_x,conv3_x,输出特征FLl,将FLl输入到卷积块
Figure FDA0004197658610000022
卷积块/>
Figure FDA0004197658610000023
将特征FLl生成/>
Figure FDA0004197658610000024
模块并送入池化层,进入分类,分类模块/>
Figure FDA0004197658610000025
由Batchnorm和ELU组成,得到/>
Figure FDA0004197658610000026
预测概率矩阵;
第二阶段在网络先输入区域图像Image_Double_4,经过conv1,conv2_x,conv3_x,conv4_x,获取特征图,通过卷积、池化、分类得到预测概率矩阵;
第三阶段在网络先输入区域图像Image_Double_2,经过conv1,conv2_x,conv3_x,conv4_x,conv5_x,获取特征图,通过卷积、池化、分类得到预测概率矩阵;
第四阶段获取Image_Double,在神经网络经过conv1,conv2_x,conv3_x,获取Fl-2特征,Fl-2特征输入卷积块
Figure FDA0004197658610000027
得到Vl-2,Fl-2特征输入conv4_x得到Fl-1,Fl-1特征输入卷积块/>
Figure FDA0004197658610000028
得到Vl-1,Fl-1特征输入conv5_x得到Fl,Fl特征输入卷积块/>
Figure FDA0004197658610000029
得到Vl,将最后的3个阶段特征联合为
Vconcat=concat[Vl,Vl-1,Vl-2],
通过卷积、池化、分类得到预测概率矩阵。
6.根据权利要求1所述的基于多粒度对抗损失的细粒度图像识别方法,其特征在于,步骤S3包括:
在每一个阶段真实标签y和预测概率yLl,采用交叉熵进行损失计算,获得多粒度对抗损失函数:
Figure FDA0004197658610000031
多粒度对抗损失函数防止Image_N过度破坏空间结构引起的噪声进入特征空间,对是否为破坏图像进行二分类,使判别器无法分辨出特征是来自原始图还是被破坏图,通过对抗学习的方式,降低噪声带来的影响。
7.根据权利要求1所述的基于多粒度对抗损失的细粒度图像识别方法,其特征在于,还包括步骤S4:
原始图像输入经过训练的模型中,获取Vconcat实现yconcat进行预测,图像在网络输出的特征进行分类的准确度表示为:
C=arg max(yconcat)。
CN202011634407.1A 2020-12-31 2020-12-31 基于多粒度对抗损失的细粒度图像识别方法 Active CN112733912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011634407.1A CN112733912B (zh) 2020-12-31 2020-12-31 基于多粒度对抗损失的细粒度图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011634407.1A CN112733912B (zh) 2020-12-31 2020-12-31 基于多粒度对抗损失的细粒度图像识别方法

Publications (2)

Publication Number Publication Date
CN112733912A CN112733912A (zh) 2021-04-30
CN112733912B true CN112733912B (zh) 2023-06-09

Family

ID=75608657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011634407.1A Active CN112733912B (zh) 2020-12-31 2020-12-31 基于多粒度对抗损失的细粒度图像识别方法

Country Status (1)

Country Link
CN (1) CN112733912B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688894B (zh) * 2021-08-19 2023-08-01 匀熵科技(无锡)有限公司 一种融合多粒度特征的细粒度图像分类方法
CN114067107B (zh) * 2022-01-13 2022-04-29 中国海洋大学 基于多粒度注意力的多尺度细粒度图像识别方法及系统
CN115861740B (zh) * 2023-02-27 2023-05-30 常州微亿智造科技有限公司 工业检测中的样本生成方法、样本生成装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178432A (zh) * 2019-12-30 2020-05-19 武汉科技大学 多分支神经网络模型的弱监督细粒度图像分类方法
CN111860406A (zh) * 2020-07-29 2020-10-30 福州大学 基于区域混淆机制神经网络的血细胞显微图像分类方法
WO2020239015A1 (zh) * 2019-05-31 2020-12-03 北京金山云网络技术有限公司 一种图像识别、分类方法、装置、电子设备及存储介质
CN112132004A (zh) * 2020-09-21 2020-12-25 南水北调中线信息科技有限公司 一种基于多视角特征融合的细粒度图像识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020239015A1 (zh) * 2019-05-31 2020-12-03 北京金山云网络技术有限公司 一种图像识别、分类方法、装置、电子设备及存储介质
CN111178432A (zh) * 2019-12-30 2020-05-19 武汉科技大学 多分支神经网络模型的弱监督细粒度图像分类方法
CN111860406A (zh) * 2020-07-29 2020-10-30 福州大学 基于区域混淆机制神经网络的血细胞显微图像分类方法
CN112132004A (zh) * 2020-09-21 2020-12-25 南水北调中线信息科技有限公司 一种基于多视角特征融合的细粒度图像识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Gabor纹理特征的植物图像识别方法;杜吉祥;《第十四届全国图象图形学学术会议论文集》;全文 *
深度细粒度图像识别研究综述;邓旭冉;闵少波;徐静远;李攀登;谢洪涛;张勇东;;南京信息工程大学学报(自然科学版)(06);全文 *

Also Published As

Publication number Publication date
CN112733912A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN112733912B (zh) 基于多粒度对抗损失的细粒度图像识别方法
Younis et al. Real-time object detection using pre-trained deep learning models MobileNet-SSD
Endres et al. Category-independent object proposals with diverse ranking
Bart et al. Cross-generalization: Learning novel classes from a single example by feature replacement
CN110826638B (zh) 基于重复注意力网络的零样本图像分类模型及其方法
Lasserre et al. Principled hybrids of generative and discriminative models
Torralba Contextual priming for object detection
Tieu et al. Boosting image retrieval
He et al. Learning and incorporating top-down cues in image segmentation
CN100380396C (zh) 目标检测装置、学习装置、目标检测系统及目标检测方法
US8503792B2 (en) Patch description and modeling for image subscene recognition
CN106874952B (zh) 基于栈式自编码器的特征融合方法
Lorsakul et al. Traffic sign recognition for intelligent vehicle/driver assistance system using neural network on opencv
Nguyen et al. Hybrid deep learning-Gaussian process network for pedestrian lane detection in unstructured scenes
CN111126401A (zh) 一种基于上下文信息的车牌字符识别方法
Boutell et al. Multi-label Semantic Scene Classfication
CN114332544A (zh) 一种基于图像块评分的细粒度图像分类方法和装置
Kumar et al. An observation-constrained generative approach for probabilistic classification of image regions
Forcén et al. Combination of features through weighted ensembles for image classification
JP2000090113A (ja) マルチメディア・クラスタリング装置、マルチメディア・クラスタリング方法および記録媒体
Lehuger et al. A robust method for automatic player detection in sport videos
Luo et al. Natural object detection in outdoor scenes based on probabilistic spatial context models
Epshtein et al. Satellite features for the classification of visually similar classes
Groefsema Uncertainty Quantification in DETR for Pedestrian Detection
Agahi et al. Handwritten digits recognition using an ensemble technique based on the firefly algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant