CN110363233A - 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统 - Google Patents
一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统 Download PDFInfo
- Publication number
- CN110363233A CN110363233A CN201910575043.5A CN201910575043A CN110363233A CN 110363233 A CN110363233 A CN 110363233A CN 201910575043 A CN201910575043 A CN 201910575043A CN 110363233 A CN110363233 A CN 110363233A
- Authority
- CN
- China
- Prior art keywords
- local
- global
- feature
- features
- filtering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000004927 fusion Effects 0.000 title claims abstract description 43
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 28
- 238000001914 filtration Methods 0.000 claims abstract description 99
- 238000012512 characterization method Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 37
- 238000011176 pooling Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 12
- 230000001537 neural effect Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000005065 mining Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 208000025174 PANDAS Diseases 0.000 description 16
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 16
- 240000004718 Panda Species 0.000 description 16
- 235000016496 Panda oleosa Nutrition 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统,包括以下步骤:首先获取局部特征和全局特征;对全局特征可直接分类得到loss1;然后对局部特征和全局特征分别用一个块检测器进行过滤,得到局部过滤特征以及全局过滤特征;对得到的局部过滤特征进行全局最大池化,获取局部辨别性特征块,该局部辨别性特征块可直接分类得到loss2;此外构建一个特征融合流对局部过滤特征和全局过滤特征进行融合,获得一个层级多层表征,可直接分类得到loss3;引入了一个注意力跨层池化方法对网络进行滤波监督,得到loss4;最后对上述4个loss加权求和得到总loss,能够有效实现细粒度图像识别。
Description
技术领域
本发明属于计算机视觉与模式识别技术领域,特别涉及一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统。
背景技术
与日剧增的图像数据,使得图像处理技术在现代生活中越发至关重要。其中细粒度图像识别问题具有越来越大的理论研究价值与实际应用价值。
目前现有的细粒度识别问题主要有以下几个问题:(1)一部分方法利用局部定位网络来学习具有辨别性的局部特征块,但此类方法依赖大量额外的人工部位标注信息,这耗费了大量的时间和资源,并且人工标注并不具有较好的客观性;(2)另一部分方法在主网络结构中嵌入不同子网络,以此获取不同细粒度特征表示,从而辅助主网络学习到更好的细粒度特征,虽然这些方法取得了不错的成绩,但需要轮流优化子网络,网络的优化调整较为复杂;(3)目前细粒度识别任务中的卷积神经网络几乎只采用了低级特征,这不足以细粒度图像分类的特征表示,因此挖掘更高级的特征还有很多提升空间。
综上,亟需一种新的细粒度图像识别方法及系统。
发明内容
本发明的目的在于提供一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统,以解决上述存在的一个或多个技术问题。本发明利用局部块检测器模块让网络自主挖掘出不同类中最具有辨别性的局部特征块;并结合特征融合模块完成特征块之间的交互,获得层级特征表征,这促进了网络的分类性能,可有效实现细粒度图像识别。
为达到上述目的,本发明采用以下技术方案:
本发明的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,包括以下步骤:
步骤1,提取待识别细粒度图像的局部特征和全局特征;对全局特征进行分类,获得包含全局信息的分类损失loss1;
步骤2,通过局部块检测器对步骤1获得的局部特征进行卷积过滤,获得局部过滤特征;根据获得的局部过滤特征获得局部向量VL;根据局部向量VL对局部过滤特征进行分类,获得包含局部块级别信息的分类损失loss2;其中,所述局部块检测器为卷积滤波器,用于寻找最具有辨别性的局部特征块;
步骤3,通过全局块检测器对步骤1获得的全局特征进行卷积过滤,获得全局过滤特征;对步骤2获得的局部过滤特征进行平均池化,获得与全局过滤特征大小一致的局部过滤特征;其中,所述全局块检测器为卷积滤波器,用于获取全局过滤特征;
步骤4,将步骤3获得的局部过滤特征和全局过滤特征进行融合,获得融合交互特征;对所述融合交互特征进行分类,获得包含层级特征表征的分类损失loss3;
步骤6,对分类损失loss1、分类损失loss2和分类损失loss3进行加权求和,获得最终的分类结果和总损失,完成细粒度图像识别。
本发明的进一步改进在于,在步骤4和步骤6之间还包括步骤5;
步骤5,根据步骤3获得的全局过滤特征获得一个全局向量VG;将所述全局向量VG和步骤2中获得的局部向量VL进行池化,实现对网络的辅助监督,获得包含滤波监督损失loss4;
步骤6具体为:对分类损失loss1、分类损失loss2、分类损失loss3和分类损失loss4进行加权求和,获得最终的分类结果和总损失,完成细粒度图像识别。
本发明的进一步改进在于,步骤1具体步骤包括:将待识别细粒度图像输入卷积神经骨架网络,从卷积神经骨架网络中提取不同层的特征,获得局部特征和全局特征;用一个全连接层对所述全局特征进行分类,获得包含全局信息的分类损失loss1。
本发明的进一步改进在于,步骤2中具体包括:将得到的局部过滤特征经过一个全局最大池化层,获得局部向量VL;局部向量VL经过一个全连接层进行分类,获得包含局部块级别信息的分类损失loss2。
本发明的进一步改进在于,步骤2具体包括以下步骤:
步骤2.1,局部块检测器标记为一个1×1×(k·n)的卷积滤波器;其中,1×1是卷积核大小,k·n是通道数;n是类别数,k是每一类别中最具辨别力的局部块数;
步骤2.2,利用局部块检测器对提取得到的局部特征进行卷积,用于检测具有辨别性的局部特征块;获得一个局部过滤特征其中,是获取局部过滤特征L的映射函数,CL、HL和WL分别是局部过滤特征L的通道数、高和宽,并且CL=k·n;
步骤2.3,局部过滤特征L经过一个全局最大池化层,获得局部向量VL,VL经过一个全连接层进行分类,获得包含局部块级别信息的分类损失loss2。
本发明的进一步改进在于,步骤3和步骤4中,获得包含层级特征表征的分类损失loss3的具体步骤包括:
利用全局块检测器对提取得到的全局特征进行卷积,获得全局过滤特征其中全局块检测器的形状大小与步骤2.1中的局部块检测器一致,标记为1×1×(k·n)的卷积滤波器;是获取全局过滤特征G的映射函数,CG、HG和WG分别是全局过滤特征G的通道数、高和宽,并且CG=k·n;
对局部过滤特征L进行平均池化,获得使得的大小和全局过滤特征G一致,
利用元素间的乘法执行特征融合,获得融合交叉特征对融合交叉特征F的每个通道上取平均值,得到为:
式中,其中c=1,…,CG;i=1,…,HG;j=1,…,WG;随后对进行l2归一化处理,获得
将送入一个全连接层进行分类,获得包含多层表征的分类损失loss3。
本发明的进一步改进在于,步骤5中,获得包含滤波监督损失loss4的具体步骤包括:
对全局过滤特征G进行全局平均池化,获得全局向量VG,
对局部向量VL和全局向量VG进行元素间的相加,获得V=VL+VG,对V进行形变,得到其中i=1,…,n;
引入一个注意力机制,对每一类自动学习不同的权值;将学习的权值分配给该类不同局部特征块并进行加权求和,使得每一类的不同局部特征块表现出不同权重的影响;
权值标记为其中i=1,…,n;所有权值被初始化为1/k;W会在训练过程中通过反向传播不断被更新,收敛至最佳值;
将V和W进行加权求和得到a,计算表示式为:
a=(V⊙W)1k×1
式中,⊙是元素间相乘,1k×1表示每k×1的向量间进行操作;
将a直接作为分类结果,获得包含滤波监督损失loss4。
本发明的进一步改进在于,步骤6中,获得总loss的具体步骤包括:
总loss的计算式为:loss=loss1+loss2+loss3+0.1×loss4;
根据获得的总loss,迭代训练网络,直至收敛。
本发明的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别系统,包括:
卷积神经骨架网络,用于提取局部特征和全局特征;其中,全局特征直接用于分类并获取loss1;
局部块检测器模块,用于获取局部过滤特征,并挖掘最具辨别性的局部特征块;局部特征块组成局部特征向量直接用于分类并获取loss2;
全局块检测器模块,用于获取全局过滤特征;
融合模块,用于将获取的局部过滤特征和全局过滤特征进行特征融合,得到一个层级特征表征,所述层级特征表征直接用于分类并获取loss3;
总loss求和模块,用于将得到的loss1、loss2和loss3进行加权求和,得到总loss;总loss用于最终的细粒度图像分类。
进一步地,还包括:
滤波监督模块,用于辅助挖掘局部特征块,并获取到loss4;
总loss求和模块,用于将得到的loss1、loss2、loss3和loss4进行加权求和,得到总loss;总loss用于最终的细粒度图像分类。
与现有技术相比,本发明具有以下有益效果:
本发明的基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,首先获取局部特征和全局特征;对全局特征可直接分类得到loss1;然后对局部特征和全局特征分别用一个块检测器进行过滤,得到局部过滤特征以及全局过滤特征;对得到的局部过滤特征进行全局最大池化,获取局部辨别性特征块,该局部辨别性特征块可直接分类得到loss2;此外构建一个特征融合流对局部过滤特征和全局过滤特征进行融合,获得一个层级多层表征,可直接分类得到loss3;加权求和得到总loss,有效实现细粒度图像识别。本发明是一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,针对大量额外的部位标注信息问题,引入块检测器模块让系统自主挖掘不同类中最具有辨别性的局部特征块,只需图像级别的标注;针对子网络带来的训练复杂、网络臃肿问题,本发明的网络结构简易高效,可以进行端到端的训练,便于网络参数的优化调整。针对于低级特征表征不足问题,本发明引入特征融合模块获得层级特征表征,使得特征信息更加丰富,促进了网络的分类性能,可有效实现细粒度图像识别。
进一步地,本发明同时引入注意力跨层池化方法对网络进行辅助监督,让网络更好地去挖掘局部特征块。
本发明的系统,可用于细粒度图像识别,无需额外的人工部位标注信息,网络优化相对简单。具体的,包括块检测器模块,系统可自主挖掘不同类中最具有辨别性的局部特征块,只需图像级别的标注;网络结构简易高效,可以进行端到端的训练,便于网络参数的优化调整,可有效实现细粒度图像识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法流程示意图;
图2是本发明实施例的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别系统的整体框架示意图;
图3是本发明的iPanda-30数据集实例;图3(a)是iPanda-30数据集统计示例图;图3(b)是大熊猫图片显著变化示例图;图3(c)是不同大熊猫个体的外观细微差别示例图;
图4为注意力跨层池化方法示意图;
图5为学习到辨别性的局部特征块示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
请参阅图1,本发明实施例的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,包括以下步骤:
步骤1:从卷积神经网络中提取不同层的特征,如resnet50网络结构中的layer3和layer4;从layer3提取出来的特征称为局部特征,从layer4提取出来的特征称为全局特征;用一个全连接层对该全局特征进行分类,获得包含全局信息的分类损失loss1;
步骤2:利用一个局部块检测器,寻找最具有辨别性的局部特征块;该块检测器对步骤1提取出来的局部特征进行卷积过滤,得到一个局部过滤特征;将得到的局部过滤特征经过一个全局最大池化层,获得一个局部向量VL;该向量随后经过一个全连接层进行分类,获得包含局部块级别信息的分类损失loss2;
步骤3:利用一个全局块检测器,对步骤1中提取出来的全局特征进行卷积过滤,得到一个全局过滤特征;利用一个平均池化层对步骤2中的局部过滤特征进行平均池化,获得一个和全局过滤特征大小一致的局部过滤特征;将获取的局部过滤特征和全局过滤特征进行融合,获得一个融合交互特征;该融合交互特征随后经过一个全连接层进行分类,获得包含层级特征表征的分类损失loss3;
步骤4:将步骤3中的全局过滤特征经过一个全局最大池化层,获得一个全局向量VG;利用一个注意力跨层池化方法,对该全局向量VG和步骤2中的局部向量VL进行池化,实现对网络的辅助监督,并获得包含滤波监督损失loss4;
步骤5:结合步骤1、步骤2、步骤3和步骤4中的分类结果和损失,获得最终的分类结果和总损失。
优选的,
步骤1:获得包含全局信息的分类损失loss1,具体包括以下步骤:
(1)将一张输入图像/视频帧标记为X;
(2)该输入X经过一个骨架网络(例如,resnet50);从网络的最后一层提取出一个全局特征,该特征随后经过一个全连接层进行分类,获得包含全局信息的分类损失loss1。
步骤2,获得包含局部块级别信息的分类损失loss2,具体包括以下步骤:
(1)一个局部块检测器标记为一个1×1×(k·n)的卷积滤波器,其中1×1是卷积核大小,k·n是通道数;n是熊猫个体类别数,k是每一类熊猫个体最具辨别力的局部块数;
(2)从卷积神经骨架网络的中间层(如resnet50的layer3)提取出一个局部特征;
(3)利用局部块检测器对提取得到的局部特征进行卷积,以检测具有辨别性的局部特征块;获得一个局部过滤特征其中是获取局部过滤特征L的映射函数,CL、HL和WL分别是局部过滤特征L的通道数、高和宽,并且CL=k·n;
(4)局部过滤特征L经过一个全局最大池化,获得一个局部向量VL,VL经过一个全连接层进行分类,获得包含局部块信息的分类损失loss2。
步骤3,获得包含层级特征表征的分类损失loss3,具体包括以下步骤:
(1)从卷积神经骨架网络的最后一层(如resnet50的layer4)提取出一个全局特征;
(2)利用全局块检测器对提取得到的全局特征进行卷积,获得一个全局过滤特征其中全局块检测器的形状大小与步骤2中的局部块检测器一致,标记为1×1×(k·n)的卷积滤波器;是获取全局过滤特征G的映射函数,CG、HG和WG分别是全局过滤特征G的通道数、高和宽,并且CG=k·n;
(3)对局部过滤特征L进行平均池化,获得使得的大小和全局过滤特征G一致,利用元素间的乘法执行特征融合,获得融合交叉特征 对融合交叉特征F的每个通道上取平均值,得到为:
其中c=1,…,CG;i=1,…,HG;j=1,…,WG;随后对进行l2归一化处理,获得
(4)将送入一个全连接层进行分类,获得包含层级特征表征的分类损失loss3。
请参阅图4,步骤4,获得包含滤波监督损失loss4,具体包括以下步骤:
(1)对全局过滤特征G进行全局平均池化,获得一个全局向量VG,
(2),对局部向量VL和全局向量VG进行元素间的相加,获得V=VL+VG,对V进行形变,得到其中i=1,…,n;
(3)引入一个注意力机制,对每一类熊猫可以自动学习不同的权值;将这些权值分配给该类不同局部特征块并进行加权求和,使得每一类熊猫的不同局部特征块表现出不同权重的影响;权值标记为其中i=1,…,n;所有权值被初始化为1/k;W会在训练过程中通过反向传播不断被更新,收敛至最佳值;
(4)将V和W进行加权求和,得到a:
a=(V⊙W)1k×1
其中⊙是元素间相乘,1k×1表示每k×1的向量间进行操作;
(5),将a直接作为分类结果,获得包含滤波监督损失loss4;
步骤5,获得总loss,具体包括以下步骤:
(1)对loss1,loss2,loss3和loss4进行加权求和,获得总loss为:
loss=loss1+loss2+loss3+0.1×loss4
(2)根据总loss,不断迭代训练网络,直至收敛。
请参阅图2,本发明实施例的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别系统,包括:
卷积神经骨架网络,用于提取局部特征和全局特征;其中,全局特征直接用于分类并获取loss1;
局部块检测器模块,用于获取局部过滤特征,并挖掘最具辨别性的局部特征块;局部特征块组成局部特征向量直接用于分类并获取loss2;
全局块检测器模块,用于获取全局过滤特征;
融合模块,用于将获取的局部过滤特征和全局过滤特征进行特征融合,得到一个层级特征表征,所述层级特征表征直接用于分类并获取loss3;
滤波监督模块,用于辅助挖掘局部特征块,并获取到loss4;
总loss求和模块,用于将得到的loss1、loss2、loss3和loss4进行加权求和,得到总loss;总loss用于最终的细粒度图像分类。
综上所述,本发明是一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,针对大量额外的人工部位标注信息问题,引入块检测器模块让系统自主挖掘不同类中最具有辨别性的局部特征块,只需图像级别的标注;针对子网络带来的训练复杂、网络臃肿问题,本发明的网络结构简易高效,可以进行端到端的训练,便于网络参数的优化调整;针对于低级特征表征不足问题,本发明引入特征融合模块获得层级特征表征,使得特征信息更加丰富,促进了网络的分类性能。
本发明为细粒度图像识别方法提供了一种可行的解决方案。本发明的基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统,主要思路是首先从卷积神经骨架网络中提取不同层的特征,分别局部特征和全局特征;对全局特征可直接分类得到loss1;然后对局部特征和全局特征分别用一个块检测器进行过滤,得到局部过滤特征以及全局过滤特征;对得到的局部过滤特征进行全局最大池化,获取局部辨别性特征块,该局部辨别性特征块可直接分类得到loss2;此外构建一个特征融合流对局部过滤特征和全局过滤特征进行融合,获得一个层级多层表征,可直接分类得到loss3;引入了一个注意力跨层池化方法对网络进行滤波监督,得到loss4;最后对上述4个loss加权求和得到总loss,有效实现细粒度图像识别。
请参阅图3,图3为本发明的iPanda-30数据集实例:图3(a)是iPanda-30数据集统计示例图,其中每一个框内的示例图代表一类熊猫,框下方为该类熊猫统计信息,以熊猫“sa”为例,220(132/88)表示该类熊猫在iPanda-30数据集中共有220张图片,其中训练集有132张,测试集有88张;图3(b)是大熊猫图片显著变化示例图,由图3(b)可以发现iPanda-30数据集存在差异性较大的熊猫图片,例如存在光照变化、视角转变、姿势变化以及存在遮挡;图3(c)是不同大熊猫个体的外观细微差别示例图,图3(c)中显示的是不同熊猫个体的同一正面,可以发现它们之间的差别很小,非专业人员单凭肉眼通常难以区分它们。
表1a在iPanda-30数据集下该方法的实验结果
表1b在CUB-200-2011数据集下该方法的实验结果
数据分析,表1a、1b分别是识别方法的实验结果,表1a为在iPanda-30数据集下该方法的实验结果,表1b为在CUB-200-2011数据集下该方法的实验结果。从表1a和表1b中可以看出,分别与五种细粒度识别方法在iPanda-30数据集上进行对比,与十种细粒度识别方法在CUB-200-2011数据集上进行对比,本发明基于块检测器及特征融合卷积神经网络的细粒度大熊猫个体识别方法均取得了最好的准确率。本发明的方法在iPanda-30大熊猫数据集上得到了大熊猫个体识别较好的准确率;此外和现有的细粒度识别方法分别在iPanda-30数据集和细粒度识别中常用的CUB-200-2011鸟类数据集进行对比实验,验证了该方法的准确性和有效性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。
Claims (10)
1.一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,包括以下步骤:
步骤1,提取待识别细粒度图像的局部特征和全局特征;对全局特征进行分类,获得包含全局信息的分类损失loss1;
步骤2,通过局部块检测器对步骤1获得的局部特征进行卷积过滤,获得局部过滤特征;根据获得的局部过滤特征获得局部向量VL;根据局部向量VL对局部过滤特征进行分类,获得包含局部块级别信息的分类损失loss2;其中,所述局部块检测器为卷积滤波器,用于寻找最具有辨别性的局部特征块;
步骤3,通过全局块检测器对步骤1获得的全局特征进行卷积过滤,获得全局过滤特征;对步骤2获得的局部过滤特征进行平均池化,获得与全局过滤特征大小一致的局部过滤特征;其中,所述全局块检测器为卷积滤波器,用于获取全局过滤特征;
步骤4,将步骤3获得的局部过滤特征和全局过滤特征进行融合,获得融合交互特征;对所述融合交互特征进行分类,获得包含层级特征表征的分类损失loss3;
步骤6,对分类损失loss1、分类损失loss2和分类损失loss3进行加权求和,获得最终的分类结果和总损失,完成细粒度图像识别。
2.根据权利要求1所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,在步骤4和步骤6之间还包括步骤5;
步骤5,根据步骤3获得的全局过滤特征获得一个全局向量VG;将所述全局向量VG和步骤2中获得的局部向量VL进行池化,实现对网络的辅助监督,获得包含滤波监督损失loss4;
步骤6具体为:对分类损失loss1、分类损失loss2、分类损失loss3和分类损失loss4进行加权求和,获得最终的分类结果和总损失,完成细粒度图像识别。
3.根据权利要求1所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,步骤1具体步骤包括:将待识别细粒度图像输入卷积神经骨架网络,从卷积神经骨架网络中提取不同层的特征,获得局部特征和全局特征;用一个全连接层对所述全局特征进行分类,获得包含全局信息的分类损失loss1。
4.根据权利要求1所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,步骤2中具体包括:将得到的局部过滤特征经过一个全局最大池化层,获得局部向量VL;局部向量VL经过一个全连接层进行分类,获得包含局部块级别信息的分类损失loss2。
5.根据权利要求2所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,步骤2具体包括以下步骤:
步骤2.1,局部块检测器标记为一个1×1×(k·n)的卷积滤波器;其中,1×1是卷积核大小,k·n是通道数;n是类别数,k是每一类别中最具辨别力的局部块数;
步骤2.2,利用局部块检测器对提取得到的局部特征进行卷积,用于检测具有辨别性的局部特征块;获得一个局部过滤特征其中,是获取局部过滤特征L的映射函数,CL、HL和WL分别是局部过滤特征L的通道数、高和宽,并且CL=k·n;
步骤2.3,局部过滤特征L经过一个全局最大池化层,获得局部向量VL,VL经过一个全连接层进行分类,获得包含局部块级别信息的分类损失loss2。
6.根据权利要求5所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,步骤3和步骤4中,获得包含层级特征表征的分类损失loss3的具体步骤包括:
利用全局块检测器对提取得到的全局特征进行卷积,获得全局过滤特征其中全局块检测器的形状大小与步骤2.1中的局部块检测器一致,标记为1×1×(k·n)的卷积滤波器;是获取全局过滤特征G的映射函数,CG、HG和WG分别是全局过滤特征G的通道数、高和宽,并且CG=k·n;
对局部过滤特征L进行平均池化,获得使得的大小和全局过滤特征G一致,
利用元素间的乘法执行特征融合,获得融合交叉特征 对融合交叉特征F的每个通道上取平均值,得到为:
式中,其中c=1,…,CG;i=1,…,HG;j=1,…,WG;随后对进行l2归一化处理,获得
将送入一个全连接层进行分类,获得包含多层表征的分类损失loss3。
7.根据权利要求6所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,步骤5中,获得包含滤波监督损失loss4的具体步骤包括:
对全局过滤特征G进行全局平均池化,获得全局向量VG,
对局部向量VL和全局向量VG进行元素间的相加,获得V=VL+VG,对V进行形变,得到其中
引入一个注意力机制,对每一类自动学习不同的权值;将学习的权值分配给该类不同局部特征块并进行加权求和,使得每一类的不同局部特征块表现出不同权重的影响;
权值标记为其中所有权值被初始化为1/k;W会在训练过程中通过反向传播不断被更新,收敛至最佳值;
将V和W进行加权求和得到a,计算表示式为:
a=(V⊙W)1k×1
式中,⊙是元素间相乘,1k×1表示每k×1的向量间进行操作;
将a直接作为分类结果,获得包含滤波监督损失loss4。
8.根据权利要求7所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法,其特征在于,步骤6中,获得总loss的具体步骤包括:
总loss的计算式为:loss=loss1+loss2+loss3+0.1×loss4;
根据获得的总loss,迭代训练网络,直至收敛。
9.一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别系统,其特征在于,包括:
卷积神经骨架网络,用于提取局部特征和全局特征;其中,全局特征直接用于分类并获取loss1;
局部块检测器模块,用于获取局部过滤特征,并挖掘最具辨别性的局部特征块;局部特征块组成局部特征向量直接用于分类并获取loss2;
全局块检测器模块,用于获取全局过滤特征;
融合模块,用于将获取的局部过滤特征和全局过滤特征进行特征融合,得到一个层级特征表征,所述层级特征表征直接用于分类并获取loss3;
总loss求和模块,用于将得到的loss1、loss2和loss3进行加权求和,得到总loss;总loss用于最终的细粒度图像分类。
10.根据权利要求9所述的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别系统,其特征在于,还包括:
滤波监督模块,用于辅助挖掘局部特征块,并获取到loss4;
总loss求和模块,用于将得到的loss1、loss2、loss3和loss4进行加权求和,得到总loss;总loss用于最终的细粒度图像分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910575043.5A CN110363233B (zh) | 2019-06-28 | 2019-06-28 | 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910575043.5A CN110363233B (zh) | 2019-06-28 | 2019-06-28 | 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110363233A true CN110363233A (zh) | 2019-10-22 |
CN110363233B CN110363233B (zh) | 2021-05-28 |
Family
ID=68216572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910575043.5A Active CN110363233B (zh) | 2019-06-28 | 2019-06-28 | 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110363233B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259837A (zh) * | 2020-01-20 | 2020-06-09 | 福州大学 | 一种基于部位注意力的行人重识别方法及系统 |
CN112308119A (zh) * | 2020-10-15 | 2021-02-02 | 中国医学科学院北京协和医院 | 一种肾小球肾炎的免疫荧光分类方法及装置 |
CN112905832A (zh) * | 2021-05-07 | 2021-06-04 | 广东众聚人工智能科技有限公司 | 复杂背景细粒度图像检索系统及方法 |
CN113239219A (zh) * | 2021-05-12 | 2021-08-10 | 山东大学 | 一种基于多模态查询的图像检索方法、系统、介质及设备 |
CN113688823A (zh) * | 2021-09-09 | 2021-11-23 | 平安医疗健康管理股份有限公司 | 基于特征融合的文本识别方法、装置、设备及存储介质 |
WO2022036921A1 (zh) * | 2020-08-21 | 2022-02-24 | 北京市商汤科技开发有限公司 | 目标模型的获取 |
CN115984948A (zh) * | 2023-03-20 | 2023-04-18 | 广东广新信息产业股份有限公司 | 应用于温度感测的人脸识别方法及电子设备 |
WO2024001123A1 (zh) * | 2022-06-30 | 2024-01-04 | 深圳云天励飞技术股份有限公司 | 基于神经网络模型的图像识别方法、装置及终端设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766890A (zh) * | 2017-10-31 | 2018-03-06 | 天津大学 | 一种细粒度识别中判别性图块学习的改进方法 |
CN109002845A (zh) * | 2018-06-29 | 2018-12-14 | 西安交通大学 | 基于深度卷积神经网络的细粒度图像分类方法 |
-
2019
- 2019-06-28 CN CN201910575043.5A patent/CN110363233B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766890A (zh) * | 2017-10-31 | 2018-03-06 | 天津大学 | 一种细粒度识别中判别性图块学习的改进方法 |
CN109002845A (zh) * | 2018-06-29 | 2018-12-14 | 西安交通大学 | 基于深度卷积神经网络的细粒度图像分类方法 |
Non-Patent Citations (3)
Title |
---|
GUANSHUO WANG ET AL.: "Learning Discriminative Features with Multiple Granularities for Person Re-Identification", 《ARXIV》 * |
YAMING WANG ET AL.: "Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition", 《CVPR》 * |
陈淑娴 等: "基于部位特征和全局特征的物体细粒度识别", 《计算机与现代化》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259837A (zh) * | 2020-01-20 | 2020-06-09 | 福州大学 | 一种基于部位注意力的行人重识别方法及系统 |
WO2022036921A1 (zh) * | 2020-08-21 | 2022-02-24 | 北京市商汤科技开发有限公司 | 目标模型的获取 |
JP2022548341A (ja) * | 2020-08-21 | 2022-11-18 | ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド | 目標モデルの取得 |
CN112308119A (zh) * | 2020-10-15 | 2021-02-02 | 中国医学科学院北京协和医院 | 一种肾小球肾炎的免疫荧光分类方法及装置 |
CN112308119B (zh) * | 2020-10-15 | 2021-11-05 | 中国医学科学院北京协和医院 | 一种肾小球肾炎的免疫荧光分类方法及装置 |
CN112905832A (zh) * | 2021-05-07 | 2021-06-04 | 广东众聚人工智能科技有限公司 | 复杂背景细粒度图像检索系统及方法 |
CN113239219A (zh) * | 2021-05-12 | 2021-08-10 | 山东大学 | 一种基于多模态查询的图像检索方法、系统、介质及设备 |
CN113239219B (zh) * | 2021-05-12 | 2022-05-20 | 山东大学 | 一种基于多模态查询的图像检索方法、系统、介质及设备 |
CN113688823A (zh) * | 2021-09-09 | 2021-11-23 | 平安医疗健康管理股份有限公司 | 基于特征融合的文本识别方法、装置、设备及存储介质 |
WO2024001123A1 (zh) * | 2022-06-30 | 2024-01-04 | 深圳云天励飞技术股份有限公司 | 基于神经网络模型的图像识别方法、装置及终端设备 |
CN115984948A (zh) * | 2023-03-20 | 2023-04-18 | 广东广新信息产业股份有限公司 | 应用于温度感测的人脸识别方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110363233B (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363233B (zh) | 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统 | |
Liu et al. | Salient object detection for RGB-D image by single stream recurrent convolution neural network | |
Khan et al. | Automatic shadow detection and removal from a single image | |
Li et al. | Visual saliency based on multiscale deep features | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN108460356A (zh) | 一种基于监控系统的人脸图像自动处理系统 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN111462191B (zh) | 一种基于深度学习的非局部滤波器无监督光流估计方法 | |
CN108416314B (zh) | 图片重要人脸检测方法 | |
CN102903122A (zh) | 基于特征光流与在线集成学习的视频目标跟踪方法 | |
CN107133651A (zh) | 基于超网络判别子图的功能磁共振影像数据分类方法 | |
CN108960043A (zh) | 一种用于电子相册管理的人物家庭关系构建方法 | |
CN106815576B (zh) | 基于连续时空置信图和半监督极限学习机的目标追踪方法 | |
CN108229503A (zh) | 一种针对服装照片的特征提取方法 | |
CN107622280B (zh) | 基于场景分类的模块化处方式图像显著性检测方法 | |
CN108875456A (zh) | 目标检测方法、目标检测装置和计算机可读存储介质 | |
CN112669343A (zh) | 一种基于深度学习的壮族少数民族服饰分割方法 | |
CN110348395B (zh) | 一种基于时空关系的骨架行为识别方法 | |
Zhang et al. | A tea bud segmentation, detection and picking point localization based on the MDY7-3PTB model | |
AU2020102476A4 (en) | A method of Clothing Attribute Prediction with Auto-Encoding Transformations | |
Murtaza et al. | A novel approach of boundary preservative apparel detection and classification of fashion images using deep learning | |
Zhang et al. | Deep learning based human body segmentation for clothing fashion classification | |
CN108596121A (zh) | 一种基于上下文和结构建模的人脸关键点检测方法 | |
CN109583406B (zh) | 基于特征关注机制的人脸表情识别方法 | |
Lin et al. | A coarse-to-fine pattern parser for mitigating the issue of drastic imbalance in pixel distribution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |