CN110363233B

CN110363233B - 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统

Info

Publication number: CN110363233B
Application number: CN201910575043.5A
Authority: CN
Inventors: 王乐; 丁日智
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-05-28
Anticipated expiration: 2039-06-28
Also published as: CN110363233A

Abstract

本发明公开了一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统，包括以下步骤：首先获取局部特征和全局特征；对全局特征可直接分类得到loss1；然后对局部特征和全局特征分别用一个块检测器进行过滤，得到局部过滤特征以及全局过滤特征；对得到的局部过滤特征进行全局最大池化，获取局部辨别性特征块，该局部辨别性特征块可直接分类得到loss2；此外构建一个特征融合流对局部过滤特征和全局过滤特征进行融合，获得一个层级多层表征，可直接分类得到loss3；引入了一个注意力跨层池化方法对网络进行滤波监督，得到loss4；最后对上述4个loss加权求和得到总loss，能够有效实现细粒度图像识别。

Description

一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统

技术领域

本发明属于计算机视觉与模式识别技术领域，特别涉及一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统。

背景技术

与日剧增的图像数据，使得图像处理技术在现代生活中越发至关重要。其中细粒度图像识别问题具有越来越大的理论研究价值与实际应用价值。

目前现有的细粒度识别问题主要有以下几个问题：(1)一部分方法利用局部定位网络来学习具有辨别性的局部特征块，但此类方法依赖大量额外的人工部位标注信息，这耗费了大量的时间和资源，并且人工标注并不具有较好的客观性；(2)另一部分方法在主网络结构中嵌入不同子网络，以此获取不同细粒度特征表示，从而辅助主网络学习到更好的细粒度特征，虽然这些方法取得了不错的成绩，但需要轮流优化子网络，网络的优化调整较为复杂；(3)目前细粒度识别任务中的卷积神经网络几乎只采用了低级特征，这不足以细粒度图像分类的特征表示，因此挖掘更高级的特征还有很多提升空间。

综上，亟需一种新的细粒度图像识别方法及系统。

发明内容

本发明的目的在于提供一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统，以解决上述存在的一个或多个技术问题。本发明利用局部块检测器模块让网络自主挖掘出不同类中最具有辨别性的局部特征块；并结合特征融合模块完成特征块之间的交互，获得层级特征表征，这促进了网络的分类性能，可有效实现细粒度图像识别。

为达到上述目的，本发明采用以下技术方案：

本发明的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法，包括以下步骤：

步骤1，提取待识别细粒度图像的局部特征和全局特征；对全局特征进行分类，获得包含全局信息的分类损失loss1；

步骤2，通过局部块检测器对步骤1获得的局部特征进行卷积过滤，获得局部过滤特征；根据获得的局部过滤特征获得局部向量V_L；根据局部向量V_L对局部过滤特征进行分类，获得包含局部块级别信息的分类损失loss2；其中，所述局部块检测器为卷积滤波器，用于寻找最具有辨别性的局部特征块；

步骤3，通过全局块检测器对步骤1获得的全局特征进行卷积过滤，获得全局过滤特征；对步骤2获得的局部过滤特征进行平均池化，获得与全局过滤特征大小一致的局部过滤特征；其中，所述全局块检测器为卷积滤波器，用于获取全局过滤特征；

步骤4，将步骤3获得的局部过滤特征和全局过滤特征进行融合，获得融合交互特征；对所述融合交互特征进行分类，获得包含层级特征表征的分类损失loss3；

步骤6，对分类损失loss1、分类损失loss2和分类损失loss3进行加权求和，获得最终的分类结果和总损失，完成细粒度图像识别。

本发明的进一步改进在于，在步骤4和步骤6之间还包括步骤5；

步骤5，根据步骤3获得的全局过滤特征获得一个全局向量V_G；将所述全局向量V_G和步骤2中获得的局部向量V_L进行池化，实现对网络的辅助监督，获得包含滤波监督损失loss4；

步骤6具体为：对分类损失loss1、分类损失loss2、分类损失loss3和分类损失loss4进行加权求和，获得最终的分类结果和总损失，完成细粒度图像识别。

本发明的进一步改进在于，步骤1具体步骤包括：将待识别细粒度图像输入卷积神经骨架网络，从卷积神经骨架网络中提取不同层的特征，获得局部特征和全局特征；用一个全连接层对所述全局特征进行分类，获得包含全局信息的分类损失loss1。

本发明的进一步改进在于，步骤2中具体包括：将得到的局部过滤特征经过一个全局最大池化层，获得局部向量V_L；局部向量V_L经过一个全连接层进行分类，获得包含局部块级别信息的分类损失loss2。

本发明的进一步改进在于，步骤2具体包括以下步骤：

步骤2.1，局部块检测器标记为一个1×1×(k·n)的卷积滤波器；其中，1×1是卷积核大小，k·n是通道数；n是类别数，k是每一类别中最具辨别力的局部块数；

步骤2.2，利用局部块检测器对提取得到的局部特征进行卷积，用于检测具有辨别性的局部特征块；获得一个局部过滤特征

其中，

是获取局部过滤特征L的映射函数，

C_L、H_L和W_L分别是局部过滤特征L的通道数、高和宽，并且C_L＝k·n；

步骤2.3，局部过滤特征L经过一个全局最大池化层，获得局部向量V_L，

V_L经过一个全连接层进行分类，获得包含局部块级别信息的分类损失loss2。

本发明的进一步改进在于，步骤3和步骤4中，获得包含层级特征表征的分类损失loss3的具体步骤包括：

利用全局块检测器对提取得到的全局特征进行卷积，获得全局过滤特征

其中全局块检测器的形状大小与步骤2.1中的局部块检测器一致，标记为1×1×(k·n)的卷积滤波器；

是获取全局过滤特征G的映射函数，

C_G、H_G和W_G分别是全局过滤特征G的通道数、高和宽，并且C_G＝k·n；

对局部过滤特征L进行平均池化，获得

使得

的大小和全局过滤特征G一致，

利用元素间的乘法执行特征融合，获得融合交叉特征

对融合交叉特征F的每个通道上取平均值，得到

为：

式中，

其中c＝1,…,C_G；i＝1,…,H_G；j＝1,…,W_G；随后对

进行l₂归一化处理，获得

将

送入一个全连接层进行分类，获得包含多层表征的分类损失loss3。

本发明的进一步改进在于，步骤5中，获得包含滤波监督损失loss4的具体步骤包括：

对全局过滤特征G进行全局平均池化，获得全局向量V_G，

对局部向量V_L和全局向量V_G进行元素间的相加，获得V＝V_L+V_G，

对V进行形变，得到

其中

i＝1,…,n；

引入一个注意力机制，对每一类自动学习不同的权值；将学习的权值分配给该类不同局部特征块并进行加权求和，使得每一类的不同局部特征块表现出不同权重的影响；

权值标记为

其中

i＝1,…,n；所有权值被初始化为1/k；W会在训练过程中通过反向传播不断被更新，收敛至最佳值；

将V和W进行加权求和得到a，计算表示式为：

a＝(V⊙W)1_k×1

式中，

⊙是元素间相乘，1_k×1表示每k×1的向量间进行操作；

将a直接作为分类结果，获得包含滤波监督损失loss4。

本发明的进一步改进在于，步骤6中，获得总loss的具体步骤包括：

总loss的计算式为：loss＝loss1+loss2+loss3+0.1×loss4；

根据获得的总loss，迭代训练网络，直至收敛。

本发明的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别系统，包括：

卷积神经骨架网络，用于提取局部特征和全局特征；其中，全局特征直接用于分类并获取loss1；

局部块检测器模块，用于获取局部过滤特征，并挖掘最具辨别性的局部特征块；局部特征块组成局部特征向量直接用于分类并获取loss2；

全局块检测器模块，用于获取全局过滤特征；

融合模块，用于将获取的局部过滤特征和全局过滤特征进行特征融合，得到一个层级特征表征，所述层级特征表征直接用于分类并获取loss3；

总loss求和模块，用于将得到的loss1、loss2和loss3进行加权求和，得到总loss；总loss用于最终的细粒度图像分类。

进一步地，还包括：

滤波监督模块，用于辅助挖掘局部特征块，并获取到loss4；

总loss求和模块，用于将得到的loss1、loss2、loss3和loss4进行加权求和，得到总loss；总loss用于最终的细粒度图像分类。

与现有技术相比，本发明具有以下有益效果：

本发明的基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法，首先获取局部特征和全局特征；对全局特征可直接分类得到loss1；然后对局部特征和全局特征分别用一个块检测器进行过滤，得到局部过滤特征以及全局过滤特征；对得到的局部过滤特征进行全局最大池化，获取局部辨别性特征块，该局部辨别性特征块可直接分类得到loss2；此外构建一个特征融合流对局部过滤特征和全局过滤特征进行融合，获得一个层级多层表征，可直接分类得到loss3；加权求和得到总loss，有效实现细粒度图像识别。本发明是一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法，针对大量额外的部位标注信息问题，引入块检测器模块让系统自主挖掘不同类中最具有辨别性的局部特征块，只需图像级别的标注；针对子网络带来的训练复杂、网络臃肿问题，本发明的网络结构简易高效，可以进行端到端的训练，便于网络参数的优化调整。针对于低级特征表征不足问题，本发明引入特征融合模块获得层级特征表征，使得特征信息更加丰富，促进了网络的分类性能，可有效实现细粒度图像识别。

进一步地，本发明同时引入注意力跨层池化方法对网络进行辅助监督，让网络更好地去挖掘局部特征块。

本发明的系统，可用于细粒度图像识别，无需额外的人工部位标注信息，网络优化相对简单。具体的，包括块检测器模块，系统可自主挖掘不同类中最具有辨别性的局部特征块，只需图像级别的标注；网络结构简易高效，可以进行端到端的训练，便于网络参数的优化调整，可有效实现细粒度图像识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法流程示意图；

图2是本发明实施例的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别系统的整体框架示意图；

图3是本发明的iPanda-30数据集实例；图3(a)是iPanda-30数据集统计示例图；图3(b)是大熊猫图片显著变化示例图；图3(c)是不同大熊猫个体的外观细微差别示例图；

图4为注意力跨层池化方法示意图；

图5为学习到辨别性的局部特征块示意图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

请参阅图1，本发明实施例的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法，包括以下步骤：

步骤1：从卷积神经网络中提取不同层的特征，如resnet50网络结构中的layer3和layer4；从layer3提取出来的特征称为局部特征，从layer4提取出来的特征称为全局特征；用一个全连接层对该全局特征进行分类，获得包含全局信息的分类损失loss1；

步骤2：利用一个局部块检测器，寻找最具有辨别性的局部特征块；该块检测器对步骤1提取出来的局部特征进行卷积过滤，得到一个局部过滤特征；将得到的局部过滤特征经过一个全局最大池化层，获得一个局部向量V_L；该向量随后经过一个全连接层进行分类，获得包含局部块级别信息的分类损失loss2；

步骤3：利用一个全局块检测器，对步骤1中提取出来的全局特征进行卷积过滤，得到一个全局过滤特征；利用一个平均池化层对步骤2中的局部过滤特征进行平均池化，获得一个和全局过滤特征大小一致的局部过滤特征；将获取的局部过滤特征和全局过滤特征进行融合，获得一个融合交互特征；该融合交互特征随后经过一个全连接层进行分类，获得包含层级特征表征的分类损失loss3；

步骤4：将步骤3中的全局过滤特征经过一个全局最大池化层，获得一个全局向量V_G；利用一个注意力跨层池化方法，对该全局向量V_G和步骤2中的局部向量V_L进行池化，实现对网络的辅助监督，并获得包含滤波监督损失loss4；

步骤5：结合步骤1、步骤2、步骤3和步骤4中的分类结果和损失，获得最终的分类结果和总损失。

优选的，

步骤1：获得包含全局信息的分类损失loss1，具体包括以下步骤：

(1)将一张输入图像/视频帧标记为X；

(2)该输入X经过一个骨架网络(例如，resnet50)；从网络的最后一层提取出一个全局特征，该特征随后经过一个全连接层进行分类，获得包含全局信息的分类损失loss1。

步骤2，获得包含局部块级别信息的分类损失loss2，具体包括以下步骤：

(1)一个局部块检测器标记为一个1×1×(k·n)的卷积滤波器，其中1×1是卷积核大小，k·n是通道数；n是熊猫个体类别数，k是每一类熊猫个体最具辨别力的局部块数；

(2)从卷积神经骨架网络的中间层(如resnet50的layer3)提取出一个局部特征；

(3)利用局部块检测器对提取得到的局部特征进行卷积，以检测具有辨别性的局部特征块；获得一个局部过滤特征

其中

是获取局部过滤特征L的映射函数，

(4)局部过滤特征L经过一个全局最大池化，获得一个局部向量V_L，

V_L经过一个全连接层进行分类，获得包含局部块信息的分类损失loss2。

步骤3，获得包含层级特征表征的分类损失loss3，具体包括以下步骤：

(1)从卷积神经骨架网络的最后一层(如resnet50的layer4)提取出一个全局特征；

(2)利用全局块检测器对提取得到的全局特征进行卷积，获得一个全局过滤特征

其中全局块检测器的形状大小与步骤2中的局部块检测器一致，标记为1×1×(k·n)的卷积滤波器；

是获取全局过滤特征G的映射函数，

(3)对局部过滤特征L进行平均池化，获得

使得

的大小和全局过滤特征G一致，

利用元素间的乘法执行特征融合，获得融合交叉特征

对融合交叉特征F的每个通道上取平均值，得到

为：

其中c＝1,…,C_G；i＝1,…,H_G；j＝1,…,W_G；随后对

进行l₂归一化处理，获得

(4)将

送入一个全连接层进行分类，获得包含层级特征表征的分类损失loss3。

请参阅图4，步骤4，获得包含滤波监督损失loss4，具体包括以下步骤：

(1)对全局过滤特征G进行全局平均池化，获得一个全局向量V_G，

(2)，对局部向量V_L和全局向量V_G进行元素间的相加，获得V＝V_L+V_G，

对V进行形变，得到

其中

i＝1,…,n；

(3)引入一个注意力机制，对每一类熊猫可以自动学习不同的权值；将这些权值分配给该类不同局部特征块并进行加权求和，使得每一类熊猫的不同局部特征块表现出不同权重的影响；权值标记为

其中

(4)将V和W进行加权求和，得到a：

a＝(V⊙W)1_k×1

其中⊙是元素间相乘，1_k×1表示每k×1的向量间进行操作；

(5)，将a直接作为分类结果，获得包含滤波监督损失loss4；

步骤5，获得总loss，具体包括以下步骤：

(1)对loss1，loss2，loss3和loss4进行加权求和，获得总loss为：

loss＝loss1+loss2+loss3+0.1×loss4

(2)根据总loss，不断迭代训练网络，直至收敛。

请参阅图2，本发明实施例的一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别系统，包括：

全局块检测器模块，用于获取全局过滤特征；

滤波监督模块，用于辅助挖掘局部特征块，并获取到loss4；

综上所述，本发明是一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法，针对大量额外的人工部位标注信息问题，引入块检测器模块让系统自主挖掘不同类中最具有辨别性的局部特征块，只需图像级别的标注；针对子网络带来的训练复杂、网络臃肿问题，本发明的网络结构简易高效，可以进行端到端的训练，便于网络参数的优化调整；针对于低级特征表征不足问题，本发明引入特征融合模块获得层级特征表征，使得特征信息更加丰富，促进了网络的分类性能。

本发明为细粒度图像识别方法提供了一种可行的解决方案。本发明的基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统，主要思路是首先从卷积神经骨架网络中提取不同层的特征，分别局部特征和全局特征；对全局特征可直接分类得到loss1；然后对局部特征和全局特征分别用一个块检测器进行过滤，得到局部过滤特征以及全局过滤特征；对得到的局部过滤特征进行全局最大池化，获取局部辨别性特征块，该局部辨别性特征块可直接分类得到loss2；此外构建一个特征融合流对局部过滤特征和全局过滤特征进行融合，获得一个层级多层表征，可直接分类得到loss3；引入了一个注意力跨层池化方法对网络进行滤波监督，得到loss4；最后对上述4个loss加权求和得到总loss，有效实现细粒度图像识别。

请参阅图3，图3为本发明的iPanda-30数据集实例：图3(a)是iPanda-30数据集统计示例图，其中每一个框内的示例图代表一类熊猫，框下方为该类熊猫统计信息，以熊猫“sa”为例，220(132/88)表示该类熊猫在iPanda-30数据集中共有220张图片，其中训练集有132张，测试集有88张；图3(b)是大熊猫图片显著变化示例图，由图3(b)可以发现iPanda-30数据集存在差异性较大的熊猫图片，例如存在光照变化、视角转变、姿势变化以及存在遮挡；图3(c)是不同大熊猫个体的外观细微差别示例图，图3(c)中显示的是不同熊猫个体的同一正面，可以发现它们之间的差别很小，非专业人员单凭肉眼通常难以区分它们。

表1a在iPanda-30数据集下该方法的实验结果

表1b在CUB-200-2011数据集下该方法的实验结果

数据分析，表1a、1b分别是识别方法的实验结果，表1a为在iPanda-30数据集下该方法的实验结果，表1b为在CUB-200-2011数据集下该方法的实验结果。从表1a和表1b中可以看出，分别与五种细粒度识别方法在iPanda-30数据集上进行对比，与十种细粒度识别方法在CUB-200-2011数据集上进行对比，本发明基于块检测器及特征融合卷积神经网络的细粒度大熊猫个体识别方法均取得了最好的准确率。本发明的方法在iPanda-30大熊猫数据集上得到了大熊猫个体识别较好的准确率；此外和现有的细粒度识别方法分别在iPanda-30数据集和细粒度识别中常用的CUB-200-2011鸟类数据集进行对比实验，验证了该方法的准确性和有效性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。