CN110363233B - 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统 - Google Patents

一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统 Download PDF

Info

Publication number
CN110363233B
CN110363233B CN201910575043.5A CN201910575043A CN110363233B CN 110363233 B CN110363233 B CN 110363233B CN 201910575043 A CN201910575043 A CN 201910575043A CN 110363233 B CN110363233 B CN 110363233B
Authority
CN
China
Prior art keywords
local
global
features
filtering
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910575043.5A
Other languages
English (en)
Other versions
CN110363233A (zh
Inventor
王乐
丁日智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910575043.5A priority Critical patent/CN110363233B/zh
Publication of CN110363233A publication Critical patent/CN110363233A/zh
Application granted granted Critical
Publication of CN110363233B publication Critical patent/CN110363233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统,包括以下步骤:首先获取局部特征和全局特征;对全局特征可直接分类得到loss1;然后对局部特征和全局特征分别用一个块检测器进行过滤,得到局部过滤特征以及全局过滤特征;对得到的局部过滤特征进行全局最大池化,获取局部辨别性特征块,该局部辨别性特征块可直接分类得到loss2;此外构建一个特征融合流对局部过滤特征和全局过滤特征进行融合,获得一个层级多层表征,可直接分类得到loss3;引入了一个注意力跨层池化方法对网络进行滤波监督,得到loss4;最后对上述4个loss加权求和得到总loss,能够有效实现细粒度图像识别。

Description

一种基于块检测器及特征融合的卷积神经网络的细粒度图像 识别方法及系统
技术领域
本发明属于计算机视觉与模式识别技术领域,特别涉及一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统。
背景技术
与日剧增的图像数据,使得图像处理技术在现代生活中越发至关重要。其中细粒度图像识别问题具有越来越大的理论研究价值与实际应用价值。
目前现有的细粒度识别问题主要有以下几个问题:(1)一部分方法利用局部定位网络来学习具有辨别性的局部特征块,但此类方法依赖大量额外的人工部位标注信息,这耗费了大量的时间和资源,并且人工标注并不具有较好的客观性;(2)另一部分方法在主网络结构中嵌入不同子网络,以此获取不同细粒度特征表示,从而辅助主网络学习到更好的细粒度特征,虽然这些方法取得了不错的成绩,但需要轮流优化子网络,网络的优化调整较为复杂;(3)目前细粒度识别任务中的卷积神经网络几乎只采用了低级特征,这不足以细粒度图像分类的特征表示,因此挖掘更高级的特征还有很多提升空间。
综上,亟需一种新的细粒度图像识别方法及系统。
发明内容
本发明的目的在于提供一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统,以解决上述存在的一个或多个技术问题。本发明利用局部块检测器模块让网络自主挖掘出不同类中最具有辨别性的局部特征块;并结合特征融合模块完成特征块之间的交互,获得层级特征表征,这促进了网络的分类性能,可有效实现细粒度图像识别。
为达到上述目的,本发明采用以下技术方案:
本发明的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,包括以下步骤:
步骤1,提取待识别细粒度图像的局部特征和全局特征;对全局特征进行分类,获得包含全局信息的分类损失loss1;
步骤2,通过局部块检测器对步骤1获得的局部特征进行卷积过滤,获得局部过滤特征;根据获得的局部过滤特征获得局部向量VL;根据局部向量VL对局部过滤特征进行分类,获得包含局部块级别信息的分类损失loss2;其中,所述局部块检测器为卷积滤波器,用于寻找最具有辨别性的局部特征块;
步骤3,通过全局块检测器对步骤1获得的全局特征进行卷积过滤,获得全局过滤特征;对步骤2获得的局部过滤特征进行平均池化,获得与全局过滤特征大小一致的局部过滤特征;其中,所述全局块检测器为卷积滤波器,用于获取全局过滤特征;
步骤4,将步骤3获得的局部过滤特征和全局过滤特征进行融合,获得融合交互特征;对所述融合交互特征进行分类,获得包含层级特征表征的分类损失loss3;
步骤6,对分类损失loss1、分类损失loss2和分类损失loss3进行加权求和,获得最终的分类结果和总损失,完成细粒度图像识别。
本发明的进一步改进在于,在步骤4和步骤6之间还包括步骤5;
步骤5,根据步骤3获得的全局过滤特征获得一个全局向量VG;将所述全局向量VG和步骤2中获得的局部向量VL进行池化,实现对网络的辅助监督,获得包含滤波监督损失loss4;
步骤6具体为:对分类损失loss1、分类损失loss2、分类损失loss3和分类损失loss4进行加权求和,获得最终的分类结果和总损失,完成细粒度图像识别。
本发明的进一步改进在于,步骤1具体步骤包括:将待识别细粒度图像输入卷积神经骨架网络,从卷积神经骨架网络中提取不同层的特征,获得局部特征和全局特征;用一个全连接层对所述全局特征进行分类,获得包含全局信息的分类损失loss1。
本发明的进一步改进在于,步骤2中具体包括:将得到的局部过滤特征经过一个全局最大池化层,获得局部向量VL;局部向量VL经过一个全连接层进行分类,获得包含局部块级别信息的分类损失loss2。
本发明的进一步改进在于,步骤2具体包括以下步骤:
步骤2.1,局部块检测器标记为一个1×1×(k·n)的卷积滤波器;其中,1×1是卷积核大小,k·n是通道数;n是类别数,k是每一类别中最具辨别力的局部块数;
步骤2.2,利用局部块检测器对提取得到的局部特征进行卷积,用于检测具有辨别性的局部特征块;获得一个局部过滤特征
Figure BDA0002111866430000031
其中,
Figure BDA0002111866430000032
是获取局部过滤特征L的映射函数,
Figure BDA0002111866430000033
CL、HL和WL分别是局部过滤特征L的通道数、高和宽,并且CL=k·n;
步骤2.3,局部过滤特征L经过一个全局最大池化层,获得局部向量VL
Figure BDA0002111866430000034
VL经过一个全连接层进行分类,获得包含局部块级别信息的分类损失loss2。
本发明的进一步改进在于,步骤3和步骤4中,获得包含层级特征表征的分类损失loss3的具体步骤包括:
利用全局块检测器对提取得到的全局特征进行卷积,获得全局过滤特征
Figure BDA0002111866430000035
其中全局块检测器的形状大小与步骤2.1中的局部块检测器一致,标记为1×1×(k·n)的卷积滤波器;
Figure BDA0002111866430000036
是获取全局过滤特征G的映射函数,
Figure BDA0002111866430000037
CG、HG和WG分别是全局过滤特征G的通道数、高和宽,并且CG=k·n;
对局部过滤特征L进行平均池化,获得
Figure BDA0002111866430000038
使得
Figure BDA0002111866430000039
的大小和全局过滤特征G一致,
Figure BDA00021118664300000310
利用元素间的乘法执行特征融合,获得融合交叉特征
Figure BDA0002111866430000041
对融合交叉特征F的每个通道上取平均值,得到
Figure BDA0002111866430000042
为:
Figure BDA0002111866430000043
式中,
Figure BDA0002111866430000044
其中c=1,…,CG;i=1,…,HG;j=1,…,WG;随后对
Figure BDA0002111866430000045
进行l2归一化处理,获得
Figure BDA0002111866430000046
Figure BDA0002111866430000047
送入一个全连接层进行分类,获得包含多层表征的分类损失loss3。
本发明的进一步改进在于,步骤5中,获得包含滤波监督损失loss4的具体步骤包括:
对全局过滤特征G进行全局平均池化,获得全局向量VG
Figure BDA0002111866430000048
对局部向量VL和全局向量VG进行元素间的相加,获得V=VL+VG
Figure BDA0002111866430000049
对V进行形变,得到
Figure BDA00021118664300000410
其中
Figure BDA00021118664300000411
i=1,…,n;
引入一个注意力机制,对每一类自动学习不同的权值;将学习的权值分配给该类不同局部特征块并进行加权求和,使得每一类的不同局部特征块表现出不同权重的影响;
权值标记为
Figure BDA00021118664300000412
其中
Figure BDA00021118664300000413
i=1,…,n;所有权值被初始化为1/k;W会在训练过程中通过反向传播不断被更新,收敛至最佳值;
将V和W进行加权求和得到a,计算表示式为:
a=(V⊙W)1k×1
式中,
Figure BDA00021118664300000414
⊙是元素间相乘,1k×1表示每k×1的向量间进行操作;
将a直接作为分类结果,获得包含滤波监督损失loss4。
本发明的进一步改进在于,步骤6中,获得总loss的具体步骤包括:
总loss的计算式为:loss=loss1+loss2+loss3+0.1×loss4;
根据获得的总loss,迭代训练网络,直至收敛。
本发明的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别系统,包括:
卷积神经骨架网络,用于提取局部特征和全局特征;其中,全局特征直接用于分类并获取loss1;
局部块检测器模块,用于获取局部过滤特征,并挖掘最具辨别性的局部特征块;局部特征块组成局部特征向量直接用于分类并获取loss2;
全局块检测器模块,用于获取全局过滤特征;
融合模块,用于将获取的局部过滤特征和全局过滤特征进行特征融合,得到一个层级特征表征,所述层级特征表征直接用于分类并获取loss3;
总loss求和模块,用于将得到的loss1、loss2和loss3进行加权求和,得到总loss;总loss用于最终的细粒度图像分类。
进一步地,还包括:
滤波监督模块,用于辅助挖掘局部特征块,并获取到loss4;
总loss求和模块,用于将得到的loss1、loss2、loss3和loss4进行加权求和,得到总loss;总loss用于最终的细粒度图像分类。
与现有技术相比,本发明具有以下有益效果:
本发明的基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,首先获取局部特征和全局特征;对全局特征可直接分类得到loss1;然后对局部特征和全局特征分别用一个块检测器进行过滤,得到局部过滤特征以及全局过滤特征;对得到的局部过滤特征进行全局最大池化,获取局部辨别性特征块,该局部辨别性特征块可直接分类得到loss2;此外构建一个特征融合流对局部过滤特征和全局过滤特征进行融合,获得一个层级多层表征,可直接分类得到loss3;加权求和得到总loss,有效实现细粒度图像识别。本发明是一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,针对大量额外的部位标注信息问题,引入块检测器模块让系统自主挖掘不同类中最具有辨别性的局部特征块,只需图像级别的标注;针对子网络带来的训练复杂、网络臃肿问题,本发明的网络结构简易高效,可以进行端到端的训练,便于网络参数的优化调整。针对于低级特征表征不足问题,本发明引入特征融合模块获得层级特征表征,使得特征信息更加丰富,促进了网络的分类性能,可有效实现细粒度图像识别。
进一步地,本发明同时引入注意力跨层池化方法对网络进行辅助监督,让网络更好地去挖掘局部特征块。
本发明的系统,可用于细粒度图像识别,无需额外的人工部位标注信息,网络优化相对简单。具体的,包括块检测器模块,系统可自主挖掘不同类中最具有辨别性的局部特征块,只需图像级别的标注;网络结构简易高效,可以进行端到端的训练,便于网络参数的优化调整,可有效实现细粒度图像识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法流程示意图;
图2是本发明实施例的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别系统的整体框架示意图;
图3是本发明的iPanda-30数据集实例;图3(a)是iPanda-30数据集统计示例图;图3(b)是大熊猫图片显著变化示例图;图3(c)是不同大熊猫个体的外观细微差别示例图;
图4为注意力跨层池化方法示意图;
图5为学习到辨别性的局部特征块示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
请参阅图1,本发明实施例的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,包括以下步骤:
步骤1:从卷积神经网络中提取不同层的特征,如resnet50网络结构中的layer3和layer4;从layer3提取出来的特征称为局部特征,从layer4提取出来的特征称为全局特征;用一个全连接层对该全局特征进行分类,获得包含全局信息的分类损失loss1;
步骤2:利用一个局部块检测器,寻找最具有辨别性的局部特征块;该块检测器对步骤1提取出来的局部特征进行卷积过滤,得到一个局部过滤特征;将得到的局部过滤特征经过一个全局最大池化层,获得一个局部向量VL;该向量随后经过一个全连接层进行分类,获得包含局部块级别信息的分类损失loss2;
步骤3:利用一个全局块检测器,对步骤1中提取出来的全局特征进行卷积过滤,得到一个全局过滤特征;利用一个平均池化层对步骤2中的局部过滤特征进行平均池化,获得一个和全局过滤特征大小一致的局部过滤特征;将获取的局部过滤特征和全局过滤特征进行融合,获得一个融合交互特征;该融合交互特征随后经过一个全连接层进行分类,获得包含层级特征表征的分类损失loss3;
步骤4:将步骤3中的全局过滤特征经过一个全局最大池化层,获得一个全局向量VG;利用一个注意力跨层池化方法,对该全局向量VG和步骤2中的局部向量VL进行池化,实现对网络的辅助监督,并获得包含滤波监督损失loss4;
步骤5:结合步骤1、步骤2、步骤3和步骤4中的分类结果和损失,获得最终的分类结果和总损失。
优选的,
步骤1:获得包含全局信息的分类损失loss1,具体包括以下步骤:
(1)将一张输入图像/视频帧标记为X;
(2)该输入X经过一个骨架网络(例如,resnet50);从网络的最后一层提取出一个全局特征,该特征随后经过一个全连接层进行分类,获得包含全局信息的分类损失loss1。
步骤2,获得包含局部块级别信息的分类损失loss2,具体包括以下步骤:
(1)一个局部块检测器标记为一个1×1×(k·n)的卷积滤波器,其中1×1是卷积核大小,k·n是通道数;n是熊猫个体类别数,k是每一类熊猫个体最具辨别力的局部块数;
(2)从卷积神经骨架网络的中间层(如resnet50的layer3)提取出一个局部特征;
(3)利用局部块检测器对提取得到的局部特征进行卷积,以检测具有辨别性的局部特征块;获得一个局部过滤特征
Figure BDA0002111866430000081
其中
Figure BDA0002111866430000082
是获取局部过滤特征L的映射函数,
Figure BDA0002111866430000083
CL、HL和WL分别是局部过滤特征L的通道数、高和宽,并且CL=k·n;
(4)局部过滤特征L经过一个全局最大池化,获得一个局部向量VL
Figure BDA0002111866430000084
VL经过一个全连接层进行分类,获得包含局部块信息的分类损失loss2。
步骤3,获得包含层级特征表征的分类损失loss3,具体包括以下步骤:
(1)从卷积神经骨架网络的最后一层(如resnet50的layer4)提取出一个全局特征;
(2)利用全局块检测器对提取得到的全局特征进行卷积,获得一个全局过滤特征
Figure BDA0002111866430000085
其中全局块检测器的形状大小与步骤2中的局部块检测器一致,标记为1×1×(k·n)的卷积滤波器;
Figure BDA0002111866430000086
是获取全局过滤特征G的映射函数,
Figure BDA0002111866430000087
CG、HG和WG分别是全局过滤特征G的通道数、高和宽,并且CG=k·n;
(3)对局部过滤特征L进行平均池化,获得
Figure BDA0002111866430000091
使得
Figure BDA0002111866430000092
的大小和全局过滤特征G一致,
Figure BDA0002111866430000093
利用元素间的乘法执行特征融合,获得融合交叉特征
Figure BDA0002111866430000094
Figure BDA0002111866430000095
对融合交叉特征F的每个通道上取平均值,得到
Figure BDA0002111866430000096
为:
Figure BDA0002111866430000097
Figure BDA0002111866430000098
其中c=1,…,CG;i=1,…,HG;j=1,…,WG;随后对
Figure BDA0002111866430000099
进行l2归一化处理,获得
Figure BDA00021118664300000910
(4)将
Figure BDA00021118664300000911
送入一个全连接层进行分类,获得包含层级特征表征的分类损失loss3。
请参阅图4,步骤4,获得包含滤波监督损失loss4,具体包括以下步骤:
(1)对全局过滤特征G进行全局平均池化,获得一个全局向量VG
Figure BDA00021118664300000912
(2),对局部向量VL和全局向量VG进行元素间的相加,获得V=VL+VG
Figure BDA00021118664300000913
对V进行形变,得到
Figure BDA00021118664300000914
其中
Figure BDA00021118664300000915
i=1,…,n;
(3)引入一个注意力机制,对每一类熊猫可以自动学习不同的权值;将这些权值分配给该类不同局部特征块并进行加权求和,使得每一类熊猫的不同局部特征块表现出不同权重的影响;权值标记为
Figure BDA00021118664300000916
其中
Figure BDA00021118664300000917
i=1,…,n;所有权值被初始化为1/k;W会在训练过程中通过反向传播不断被更新,收敛至最佳值;
(4)将V和W进行加权求和,得到a:
a=(V⊙W)1k×1
Figure BDA00021118664300000918
其中⊙是元素间相乘,1k×1表示每k×1的向量间进行操作;
(5),将a直接作为分类结果,获得包含滤波监督损失loss4;
步骤5,获得总loss,具体包括以下步骤:
(1)对loss1,loss2,loss3和loss4进行加权求和,获得总loss为:
loss=loss1+loss2+loss3+0.1×loss4
(2)根据总loss,不断迭代训练网络,直至收敛。
请参阅图2,本发明实施例的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别系统,包括:
卷积神经骨架网络,用于提取局部特征和全局特征;其中,全局特征直接用于分类并获取loss1;
局部块检测器模块,用于获取局部过滤特征,并挖掘最具辨别性的局部特征块;局部特征块组成局部特征向量直接用于分类并获取loss2;
全局块检测器模块,用于获取全局过滤特征;
融合模块,用于将获取的局部过滤特征和全局过滤特征进行特征融合,得到一个层级特征表征,所述层级特征表征直接用于分类并获取loss3;
滤波监督模块,用于辅助挖掘局部特征块,并获取到loss4;
总loss求和模块,用于将得到的loss1、loss2、loss3和loss4进行加权求和,得到总loss;总loss用于最终的细粒度图像分类。
综上所述,本发明是一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,针对大量额外的人工部位标注信息问题,引入块检测器模块让系统自主挖掘不同类中最具有辨别性的局部特征块,只需图像级别的标注;针对子网络带来的训练复杂、网络臃肿问题,本发明的网络结构简易高效,可以进行端到端的训练,便于网络参数的优化调整;针对于低级特征表征不足问题,本发明引入特征融合模块获得层级特征表征,使得特征信息更加丰富,促进了网络的分类性能。
本发明为细粒度图像识别方法提供了一种可行的解决方案。本发明的基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统,主要思路是首先从卷积神经骨架网络中提取不同层的特征,分别局部特征和全局特征;对全局特征可直接分类得到loss1;然后对局部特征和全局特征分别用一个块检测器进行过滤,得到局部过滤特征以及全局过滤特征;对得到的局部过滤特征进行全局最大池化,获取局部辨别性特征块,该局部辨别性特征块可直接分类得到loss2;此外构建一个特征融合流对局部过滤特征和全局过滤特征进行融合,获得一个层级多层表征,可直接分类得到loss3;引入了一个注意力跨层池化方法对网络进行滤波监督,得到loss4;最后对上述4个loss加权求和得到总loss,有效实现细粒度图像识别。
请参阅图3,图3为本发明的iPanda-30数据集实例:图3(a)是iPanda-30数据集统计示例图,其中每一个框内的示例图代表一类熊猫,框下方为该类熊猫统计信息,以熊猫“sa”为例,220(132/88)表示该类熊猫在iPanda-30数据集中共有220张图片,其中训练集有132张,测试集有88张;图3(b)是大熊猫图片显著变化示例图,由图3(b)可以发现iPanda-30数据集存在差异性较大的熊猫图片,例如存在光照变化、视角转变、姿势变化以及存在遮挡;图3(c)是不同大熊猫个体的外观细微差别示例图,图3(c)中显示的是不同熊猫个体的同一正面,可以发现它们之间的差别很小,非专业人员单凭肉眼通常难以区分它们。
表1a在iPanda-30数据集下该方法的实验结果
Figure BDA0002111866430000111
表1b在CUB-200-2011数据集下该方法的实验结果
Figure BDA0002111866430000112
Figure BDA0002111866430000121
数据分析,表1a、1b分别是识别方法的实验结果,表1a为在iPanda-30数据集下该方法的实验结果,表1b为在CUB-200-2011数据集下该方法的实验结果。从表1a和表1b中可以看出,分别与五种细粒度识别方法在iPanda-30数据集上进行对比,与十种细粒度识别方法在CUB-200-2011数据集上进行对比,本发明基于块检测器及特征融合卷积神经网络的细粒度大熊猫个体识别方法均取得了最好的准确率。本发明的方法在iPanda-30大熊猫数据集上得到了大熊猫个体识别较好的准确率;此外和现有的细粒度识别方法分别在iPanda-30数据集和细粒度识别中常用的CUB-200-2011鸟类数据集进行对比实验,验证了该方法的准确性和有效性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (10)

1.一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,包括以下步骤:
步骤1,提取待识别细粒度图像的局部特征和全局特征;对全局特征进行分类,获得包含全局信息的分类损失loss1;
步骤2,通过局部块检测器对步骤1获得的局部特征进行卷积过滤,获得局部过滤特征;根据获得的局部过滤特征获得局部向量VL;根据局部向量VL对局部过滤特征进行分类,获得包含局部块级别信息的分类损失loss2;其中,所述局部块检测器为卷积滤波器,用于寻找最具有辨别性的局部特征块;
步骤3,通过全局块检测器对步骤1获得的全局特征进行卷积过滤,获得全局过滤特征;对步骤2获得的局部过滤特征进行平均池化,获得与全局过滤特征大小一致的局部过滤特征;其中,所述全局块检测器为卷积滤波器,用于获取全局过滤特征;
步骤4,将步骤3获得的局部过滤特征和全局过滤特征进行融合,获得融合交互特征;对所述融合交互特征进行分类,获得包含层级特征表征的分类损失loss3;
步骤5,对分类损失loss1、分类损失loss2和分类损失loss3进行加权求和,获得最终的分类结果和总损失,完成细粒度图像识别。
2.根据权利要求1所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,在步骤4和步骤5之间还包括:
步骤4-1,根据步骤3获得的全局过滤特征获得一个全局向量VG;将所述全局向量VG和步骤2中获得的局部向量VL进行池化,实现对网络的辅助监督,获得包含滤波监督损失loss4;
步骤5具体为:对分类损失loss1、分类损失loss2、分类损失loss3和分类损失loss4进行加权求和,获得最终的分类结果和总损失,完成细粒度图像识别。
3.根据权利要求1所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,步骤1具体步骤包括:将待识别细粒度图像输入卷积神经骨架网络,从卷积神经骨架网络中提取不同层的特征,获得局部特征和全局特征;用一个全连接层对所述全局特征进行分类,获得包含全局信息的分类损失loss1。
4.根据权利要求1所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,步骤2中具体包括:将得到的局部过滤特征经过一个全局最大池化层,获得局部向量VL;局部向量VL经过一个全连接层进行分类,获得包含局部块级别信息的分类损失loss2。
5.根据权利要求2所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,步骤2具体包括以下步骤:
步骤2.1,局部块检测器标记为一个1×1×(k·n)的卷积滤波器;其中,1×1是卷积核大小,k·n是通道数;n是类别数,k是每一类别中最具辨别力的局部块数;
步骤2.2,利用局部块检测器对提取得到的局部特征进行卷积,用于检测具有辨别性的局部特征块;获得一个局部过滤特征
Figure FDA0002938345900000021
其中,
Figure FDA0002938345900000022
是获取局部过滤特征L的映射函数,
Figure FDA0002938345900000023
CL、HL和WL分别是局部过滤特征L的通道数、高和宽,并且CL=k·n;
步骤2.3,局部过滤特征L经过一个全局最大池化层,获得局部向量VL
Figure FDA0002938345900000024
VL经过一个全连接层进行分类,获得包含局部块级别信息的分类损失loss2。
6.根据权利要求5所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,步骤3和步骤4中,获得包含层级特征表征的分类损失loss3的具体步骤包括:
利用全局块检测器对提取得到的全局特征进行卷积,获得全局过滤特征
Figure FDA0002938345900000025
其中全局块检测器的形状大小与步骤2.1中的局部块检测器一致,标记为1×1×(k·n)的卷积滤波器;
Figure FDA0002938345900000031
是获取全局过滤特征G的映射函数,
Figure FDA0002938345900000032
CG、HG和WG分别是全局过滤特征G的通道数、高和宽,并且CG=k·n;
对局部过滤特征L进行平均池化,获得
Figure FDA0002938345900000033
使得
Figure FDA0002938345900000034
的大小和全局过滤特征G一致,
Figure FDA0002938345900000035
利用元素间的乘法执行特征融合,获得融合交叉特征
Figure FDA0002938345900000036
对融合交叉特征F的每个通道上取平均值,得到
Figure FDA0002938345900000037
为:
Figure FDA0002938345900000038
式中,
Figure FDA0002938345900000039
其中c=1,...,CG;i=1,...,HG;j=1,...,WG;随后对
Figure FDA00029383459000000310
进行l2归一化处理,获得
Figure FDA00029383459000000311
Figure FDA00029383459000000312
送入一个全连接层进行分类,获得包含多层表征的分类损失loss3。
7.根据权利要求6所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,步骤4-1中,获得包含滤波监督损失loss4的具体步骤包括:
对全局过滤特征G进行全局平均池化,获得全局向量VG
Figure FDA00029383459000000313
对局部向量VL和全局向量VG进行元素间的相加,获得V=VL+VG
Figure FDA00029383459000000314
对V进行形变,得至
Figure FDA00029383459000000315
其中
Figure FDA00029383459000000316
引入一个注意力机制,对每一类自动学习不同的权值;将学习的权值分配给该类不同局部特征块并进行加权求和,使得每一类的不同局部特征块表现出不同权重的影响;
权值标记为
Figure FDA00029383459000000317
其中
Figure FDA00029383459000000318
所有权值被初始化为1/k;W会在训练过程中通过反向传播不断被更新,收敛至最佳值;
将V和W进行加权求和得到a,计算表示式为:
a=(V⊙W)1k×1
式中,
Figure FDA00029383459000000319
⊙是元素间相乘,1k×1表示每k×1的向量间进行操作;
将a直接作为分类结果,获得包含滤波监督损失loss4。
8.根据权利要求7所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,步骤5中,获得总loss的具体步骤包括:
总loss的计算式为:loss=loss1+loss2+loss3+0.1×loss4;
根据获得的总loss,迭代训练网络,直至收敛。
9.一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别系统,其特征在于,包括:
卷积神经骨架网络,用于提取局部特征和全局特征;其中,全局特征直接用于分类并获取loss1;
局部块检测器模块,用于获取局部过滤特征,并挖掘最具辨别性的局部特征块;局部特征块组成局部特征向量直接用于分类并获取loss2;
全局块检测器模块,用于获取全局过滤特征;
融合模块,用于将获取的局部过滤特征和全局过滤特征进行特征融合,得到一个层级特征表征,所述层级特征表征直接用于分类并获取loss3;
总loss求和模块,用于将得到的loss1、loss2和loss3进行加权求和,得到总loss;总loss用于最终的细粒度图像分类。
10.根据权利要求9所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别系统,其特征在于,还包括:
滤波监督模块,用于辅助挖掘局部特征块,并获取到loss4;
总loss求和模块,用于将得到的loss1、loss2、loss3和loss4进行加权求和,得到总loss;总loss用于最终的细粒度图像分类。
CN201910575043.5A 2019-06-28 2019-06-28 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统 Active CN110363233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910575043.5A CN110363233B (zh) 2019-06-28 2019-06-28 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910575043.5A CN110363233B (zh) 2019-06-28 2019-06-28 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统

Publications (2)

Publication Number Publication Date
CN110363233A CN110363233A (zh) 2019-10-22
CN110363233B true CN110363233B (zh) 2021-05-28

Family

ID=68216572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910575043.5A Active CN110363233B (zh) 2019-06-28 2019-06-28 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统

Country Status (1)

Country Link
CN (1) CN110363233B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259837B (zh) * 2020-01-20 2022-10-04 福州大学 一种基于部位注意力的行人重识别方法及系统
CN112052949B (zh) * 2020-08-21 2023-09-08 北京市商汤科技开发有限公司 基于迁移学习的图像处理方法、装置、设备和存储介质
CN112308119B (zh) * 2020-10-15 2021-11-05 中国医学科学院北京协和医院 一种肾小球肾炎的免疫荧光分类方法及装置
CN112905832B (zh) * 2021-05-07 2021-08-03 广东众聚人工智能科技有限公司 复杂背景细粒度图像检索系统及方法
CN113239219B (zh) * 2021-05-12 2022-05-20 山东大学 一种基于多模态查询的图像检索方法、系统、介质及设备
CN115187844A (zh) * 2022-06-30 2022-10-14 深圳云天励飞技术股份有限公司 基于神经网络模型的图像识别方法、装置及终端设备
CN115984948B (zh) * 2023-03-20 2023-05-26 广东广新信息产业股份有限公司 应用于温度感测的人脸识别方法及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766890A (zh) * 2017-10-31 2018-03-06 天津大学 一种细粒度识别中判别性图块学习的改进方法
CN109002845A (zh) * 2018-06-29 2018-12-14 西安交通大学 基于深度卷积神经网络的细粒度图像分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766890A (zh) * 2017-10-31 2018-03-06 天津大学 一种细粒度识别中判别性图块学习的改进方法
CN109002845A (zh) * 2018-06-29 2018-12-14 西安交通大学 基于深度卷积神经网络的细粒度图像分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition;Yaming Wang et al.;《CVPR》;20180612;第4148-4157页 *
Learning Discriminative Features with Multiple Granularities for Person Re-Identification;Guanshuo Wang et al.;《arXiv》;20180814;第1-9页 *
基于部位特征和全局特征的物体细粒度识别;陈淑娴 等;《计算机与现代化》;20171231(第10期);第1-4、9页 *

Also Published As

Publication number Publication date
CN110363233A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110363233B (zh) 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统
Khan et al. Automatic shadow detection and removal from a single image
CN109325952B (zh) 基于深度学习的时尚服装图像分割方法
CN102651128B (zh) 一种基于采样的图像集分割方法
CN105678284B (zh) 一种固定位人体行为分析方法
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
WO2021227366A1 (zh) 一种多个小目标的自动准确检测方法
CN108460356A (zh) 一种基于监控系统的人脸图像自动处理系统
CN106372648A (zh) 基于多特征融合卷积神经网络的浮游生物图像分类方法
CN111310668B (zh) 一种基于骨架信息的步态识别方法
CN112131908A (zh) 基于双流网络的动作识别方法、装置、存储介质及设备
CN106815576B (zh) 基于连续时空置信图和半监督极限学习机的目标追踪方法
CN108229503A (zh) 一种针对服装照片的特征提取方法
CN111241963B (zh) 基于交互建模的第一人称视角视频交互行为识别方法
CN112861752B (zh) 一种基于dcgan与rdn的作物病害识别方法及系统
CN111462191A (zh) 一种基于深度学习的非局部滤波器无监督光流估计方法
CN108875456A (zh) 目标检测方法、目标检测装置和计算机可读存储介质
Zhang et al. Saliency detection via extreme learning machine
CN110222636A (zh) 基于背景抑制的行人属性识别方法
CN115018999A (zh) 一种多机器人协作的稠密点云地图构建方法及装置
CN108154513A (zh) 基于双光子成像数据的细胞自动探测和分割方法
AU2020102476A4 (en) A method of Clothing Attribute Prediction with Auto-Encoding Transformations
CN108596121A (zh) 一种基于上下文和结构建模的人脸关键点检测方法
Zhang et al. Deep learning based human body segmentation for clothing fashion classification
CN113159199B (zh) 一种基于结构特征增强和类中心匹配的跨域图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant