CN109685115B

CN109685115B - 一种双线性特征融合的细粒度概念模型及学习方法

Info

Publication number: CN109685115B
Application number: CN201811451741.6A
Authority: CN
Inventors: 彭进业; 侯勇; 张翔; 元莉伟; 李红颖; 罗迒哉; 王珺; 王琳; 赵万青; 李展
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2022-10-14
Anticipated expiration: 2038-11-30
Also published as: CN109685115A

Abstract

本发明公开了一种双线性特征融合的细粒度概念模型及学习方法，该方法将经由深度卷积网络模型vgg16提取的细粒度图像中的多层特征进行外积，池化等方法得到具有鉴别局部特征的bilinear双线性特征描述子进行融合以及VGG‑16conv5_1路、conv5_2路、conv5_3路融合的特征图提取的多视窗特征与VGG‑16conv5_2、conv5_3路分别提取的双线性特征进行融合再分别送入于全连接层后接softmax多类别分类器得到分类结果。在数据预处理阶段，对输入的图像数据进行预处理，减去图像均值消除噪声，有效利用图像随机裁剪、图像水平翻转等数据增强手段。在只需要提供图像级别的类别信息的条件下，本发明联合细粒度图像多层特征融合提高了分类的精度。

Description

一种双线性特征融合的细粒度概念模型及学习方法

技术领域

本发明属于信息技术领域，涉及模式识别、图像处理技术，具体是一种双线性特征融合的细粒度概念模型及学习方法。

背景技术

细粒度图像分类(Fine-Grained Categorization)，又被称作子类别图像分类(Sub-Category Recognition)，是近年来计算机视觉、模式识别等领域一个非常热门的研究课题。其目的是对粗粒度的大类别进行更加细致的子类划分。细粒度图像的类别精度更加细致，类间差异更加细微，往往只能借助于微小的局部差异才能区分出不同的类别。而与人脸识别等对象级分类任务相比，细粒度图像的类内差异更加巨大，存在着姿态、光照、遮挡、背景干扰等诸多不确定因素。因此，细粒度图像分类是一项极具挑战的研究任务。细粒度图像分类无论在工业界还是学术界都有着广泛的研究需求与应用场景。与之相关的研究课题主要包括识别不同种类的鸟、狗、花、车、飞机等。在实际生活中，识别不同的子类别又存在着巨大的应用需求。例如，在生态保护中，有效识别不同种类的生物，是进行生态研究的重要前提。如果能够借助于计算机视觉的技术，实现低成本的细粒度图像识别，那么无论对于学术界，还是工业界而言，都有着非常重要的意义。

传统的分类算法不得不依赖于大量的人工标注信息。近年来，随着深度学习的发展，深度卷积神经网络为细粒度图像分类带来了新的机遇。大量基于深度卷积特征算法的提出，促进了该领域的快速发展。卷积神经网络常被人用来提取特征，一般而言，网络越深，特征越好，随着层数的加深，然而当网络到达一定深度后，通过增加深度提高准确率变得越来越难。因此研究者们提出了很多种方法用来解决这个问题，例如基于部件的摸型，但它的缺点是效率低，需要提供细粒度图像中的大量局部区域位置信息，人工标记任务繁重。Bilinear CNNS双线性模型的提出同时解决了这两个问题，它只需要训练集样本的标签，不需要目标的边界框及部件的标注，同时又有较高的准确率。但是该模型只利用了单路VGG-16模型Conv5_3输出的特征进行外积，池化得到Bilinear特征送入最终的softmax分类器。丢失了网络中其他层的feature信息，并且是对两个很高维度(512维)的向量进行外积操作，过程中的算法复杂度较高。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于，提供一种双线性特征融合的细粒度概念模型及学习方法，有效地利用网络结构提取到的多层信息融合和使用1x1卷积滤波器对原来的卷积层的输出进行降维操作，以更好地解决细粒度图像的分类问题。

为了实现上述任务，本发明采用以下技术方案：

一种双线性特征融合的细粒度概念模型及学习方法，包括以下步骤：

步骤1，对数据集进行预处理和数据增强处理；

步骤2，建立双线性细粒度概念模型

双线性细粒度概念模型包括VGG-16网络的conv5_1层、conv5_2层、conv5_3层这三个网络层，以及全连接层和分类器；

其中，对所述三个网络层输出的特征图进行分别进行双线性操作，得到双线性特征，然后对双线性特征进行池化处理，得到一维特征向量；

步骤3，对所述的一维特征向量进行平方根操作后，进行L2正则化操作；

步骤4，采用以下任意一种融合方案进行特征的融合：

第一种融合方案：

将三个网络层输出的特征图分别经过双线性操作、池化处理和步骤3的处理后得到的特征z1、z2、z3进行concat融合操作，得到多路融合的双线性特征V即为最终的特征向量：

V＝concat(z1,z2,z3)

其中，concat(·)表示对(·)内的向量按照水平维度进行堆叠；

第二种融合方案：

对三个网络层输出的特征图分别进行降维处理后得到的特征图，经过双线性操作、池化处理和步骤3的处理后得到的特征进行concat融合操作，得到最终的特征向量；

第三种融合方案：

首先，将conv5_1层、conv5_2层、conv5_3层输出的特征图进行融合，融合方法为采用将特征图各个像素点的像素值元素相加的形式进行特征图融合，融合后的特征图经过一个2x2窗口，步长为1x1的最大池化层，进而再拉长为一维向量，送入另外一个全连接层，得到多视窗特征；

其次，将conv5_2层、conv5_3层提取的特征图，按照步骤2、3的双线性操作、池化处理和步骤3的处理后，进行concat融合操作，得到两路融合的双线性特征；

最后，将所述的多视窗特征、两路融合的双线性特征进行concat融合操作进行特征融合，得到最终的特征向量；

将上述任意一种融合方案得到的最终的特征向量送入步骤2所述的全连接层、分类器得到最终的分类结果；

步骤5，网络模型训练

通过随机梯度下降算法利用数据集训练网络模型，保存训练得到的网络模型进行图像分类。

进一步地，对所述三个网络层输出的特征图进行分别进行双线性操作，得到双线性特征，然后对双线性特征进行池化处理，得到一维特征向量，包括：

针对所述三个网络层中的任意一个网络层，一个双线性操作β由四元组构成：

β＝(f_A,f_B,P,C)

其中，P表示池化操作，C表示分类器，f_A,f_B表示特征函数，用于通过卷积核提取图像的特征；

网络模型的双线性特征bilinear(l,I,f_A,f_B)是由下面双线性操作公式得到：

bilinear(l,I,f_A,f_B)＝f_A(l,I)^Tf_B(l,I)

其中，特征函数f_A、f_B设置为相同的维度，f_A(l,I)^T、f_B(l,I)表示通过卷积核L对输入图像I卷积操作后得到的特征图M中每个像素点l处的特征向量进行外积运算；

之后为了得到特征图M的池化特征，采用下面的池化处理操作：

记f_A,f_B对输入图像I提取到的特征尺寸大小分别为C×M、C×N，经过上述外积和池化操作，

最终得到的特征尺寸大小C×C×M×N，先将

进行拉长处理为C×C×M×N×1的一维向量，再做一个平均化操作，将

除以特征图的尺寸C×C从而得到MN×1大小的一维特征向量x。

本发明与现有技术相比具有以下技术特点：

1.本发明在对细粒度图像进行分类时，只需要提供图像级别的标签信息，不需要对图像中物体局部区域的人工边界框或者像素点标注，是一个端到端的网络，不需要先进行局部区域的提取操作，效率更高；

2.本发明在双线性模型的基础上充分结合了网络输出的多层特征信息(包括不同卷积层处理得到的多视窗特征和不同层提取的双线性特征)，有效融合不同层次的特征组合，来提高分类精度。

3.本发明针对传统双线性模型利用高维(512)特征进行外积，池化等双线性特征提取时间复杂度的问题，有效利用1x1的卷积滤波器对原有特征进行降维后再进行双线性操作。并结合多层双线性特征融合的思想组合降维后的特征，来提高分类精度。

附图说明

图1为本发明构建的基于双线性模型多层特征融合网络结构图

图2为网络两步训练流程图；

图3为降维前，经由VGG-16的conv5_1层，conv5_2层，conv5_3层的输出分别提取的双线性特征融合在FGVA-aircraft数据集的分类结果；

图4、图5分别为VGG-16的conv5_1层，conv5_2层，conv5_3层的输出用1x1x256，1x1x256+1x1x128的卷积核降维后，再进行一路，两路，三路输出提取双线性特征融合在FGVA-aircraft数据集的分类结果；

图6为VGG-16的conv5_2、conv5_3层提取的特征进行双线性特征提取和VGG-16的conv5_1、conv5_2、conv5_3层融合得到的多视窗特征向量进行特征再次融合得到FGVA-aircraft数据集的分类结果；

图7为目前已存在的其他方法在FGVA-aircraft数据集上的识别精度；

图8为目前已存在的其他方法在CUB-200-2011数据集上的识别精度。

具体实施方式

本发明公开了一种双线性特征融合的细粒度概念模型及学习方法，包括以下步骤：

步骤1，数据集预处理与数据增强

对数据集进行预处理和数据增强处理；具体地：

将数据集分为训练集、测试集和验证集，之后对训练集、测试集和验证集中的图像进行预处理；对预处理后的数据集进行水平翻转以对数据集进行扩充。

本实施例中，对细粒度数据集，以FGVC Aircraft数据集为例，分为训练集6001个样本，验证集666个样本，测试集3333个样本。预处理过程为：将训练集数据变形处理成488x488的尺寸，验证集和测试集变形处理成448x448的尺寸，之后对验证集进行随机裁剪出448x448的尺寸大小。数据增强处理为：对整个数据集进行水平翻转对数据集进行扩充。

由于细粒度图像数据集一般偏小，在一万左右的数据量，而训练整个模型所用到的VGG-16网络的初始化参数实在imagenet ILSVRC2012 1000类数据集上微调而来，进行数据集预处理和数据增强这个过程能够有效避免整个双线性模型在细粒度小数据集上的过拟合。

步骤2，建立双线性细粒度概念模型

本方案中采用VGG-16网络作为基础网络，来构建对称的双线性细粒度概念模型；所述的模型包括VGG-16网络的conv5_1层、conv5_2层、conv5_3层这三个网络层，以及全连接层和分类器；其中，对所述三个网络层输出的特征进行双线性操作，得到双线性特征；具体如下：

针对所述三个网络层中的任意一个网络层，一个双线性操作(bilinear操作)β由四元组构成：

β＝(f_A,f_B,P,C)

其中，P表示池化操作，C表示分类器，f_A,f_B表示特征函数，用于通过卷积核提取图像的特征；对于一张输入图像I和一个卷积核L，经过特征函数，会输出一个尺寸大小为C×D的特征，特征函数的映射过程如下：

f_A/B:L×I→R^C×D

bilinear(l,I,f_A,f_B)＝f_A(l,I)^Tf_B(l,I)

最终得到的特征尺寸大小C×C×M×N，先将

除以特征图的尺寸C×C从而得到MN×1大小的一维特征向量x.。

步骤3，将步骤2得到的MN×1大小的一维特征向量x进行平方根操作：

其中，sign(x)表示符号函数：

为了有效避免过拟合，对特征向量y再进行L2正则化操作：

z＝y/||y||₂

将三个网络层分别得到的特征z经过特征融合后，送入全连接层后接softmax或者线性SVM分类器进行分类。

步骤4，特征融合及分类

采用以下任意一种融合方案进行特征的融合：

第一种融合方案：

在细粒度分类中，影响模型精度最关键的因素在于是否能够在分类器之前提取到具有鉴别类别性质的特征，比如鸟类图像中的鸟喙，羽毛颜色等。

神经网络之所以能够在计算机基本任务分类中精度甚至达到人类认知的水平，很大一个程度上就是因为能够通过深层的模型去提取到从边缘、纹理、到形状，区域等低级到高级特征。所以要将不同网络层提取到的双线性特征经过平方根，L2正则化操作后进行融合，如下：

V＝concat(z1,z2,z3)

其中，concat(·)表示对(·)内的向量按照水平维度进行堆叠，例如：z1＝[a1,a2,...am],z2＝[b1,b2,....bm],z3＝[c1,c2,.....cm]，那么此时的V就是[a1,a2,...am,b1,b2,....bm,c1,c2,...cm]。

z1、z2、z3分别表示conv5_1层、conv5_2层、conv5_3层提取的特征图经过步骤2、3经过双线性操作、池化、平方根、L2正则化操作后得到的特征(即步骤3最后得到的z)，且它们的尺寸都是[-1,512x512](对于输入图像448x448x3而言)，-1是指一次输入网络的图像的个数，也就是batchsize；这样就可以直接将它们组合成一个512x512x3的特征向量，即为最终的特征向量。

第二种融合方案：

采用1x1x256或1x1x128的卷积核对conv5_1层、conv5_2层、conv5_3层输出的特征图进行降维，这里采用1x1的卷积核能够有效对一层输出的多个特征图进行线性组合，可以实现特征图在通道个数上的变化，从而达到降维(通道数)的目的；经过降维处理，conv5_1层、conv5_2层、conv5_3层输出的特征图降维成256维、128维，再将降维后的特征图经过步骤2、3的双线性操作、池化、平方根、L2正则化处理后，作为第一种融合方案的输入，得到多路融合的双线性特征(即进行concat(·)操作)，即为最终的特征向量。

第三种融合方案：

将conv5_2层、conv5_3层提取的特征图进行双线性特征提取，然后和conv5_1层、conv5_2层、conv5_3层融合得到的多视窗特征再次进行特征融合，之后通过全连接层后，接softmax分类器得到最终的分类精度，作为与原始bilinear CNN模型(VGG-16)的对比，具体如下：

首先，卷积神经网络不同层提取特征存在差异，只利用conv5_1层、conv5_2层、conv5_3层提取的特征图进行双线性操作后融合会忽略原始VGG-16网络各层的特征对分类精度的影响。因此，在该融合方案中，将conv5_1层、conv5_2层、conv5_3层输出的特征图进行融合，融合方法为采用特征图各个像素点的像素值元素相加的形式进行特征图融合。例如conv5_1层、conv5_2层、conv5_3层的输出都是28x28x512大小的特征图，经过融合后将融合得到的特征图经过一个2x2窗口，步长为1x1的最大池化层，进而再拉长为一维向量，送入另外一个全连接层得到100维的多视窗特征。

其次，将conv5_2层、conv5_3层提取的特征图，按照步骤2、3的双线性操作、池化、平方根、L2正则化操作后，进行concat(·)操作，得到两路融合的双线性特征。

最后，将前面两个步骤得到的多视窗特征、两路融合的双线性特征再次进行concat(·)操作进行特征融合，得到最终的特征向量。

第三种融合方案中，在步骤2建立的网络模型的基础上，需添加一个最大池化层，以及另外一个全连接层(不同于步骤2所述的全连接层，如图1所示)。

将上述任意一种融合方案得到的最终的特征向量送入全连接层后接softmax分类器得到最终的分类结果。

步骤5，网络模型训练

本方案中，利用数据集对网络模型训练和测试、验证；其中代价函数为：

其中y是指输入图像样本的标签，y’是指输入样本x经过网络的前向传播得到分类类别的预测值，n是样本个数，整个网络在训练过程中使用随机梯度下降去不断优化整个代价函数，直至收敛，保存模型用于图像分类。

实验验证：

实验数据用到两个细粒度识别通用数据集：FGVC-aircraft飞机数据集和CUB-200-2011鸟类数据集。FGVC-aircraft数据集包括100个飞机变体的10,000个图像，是FGComp 2013挑战赛的一部分。在这个数据集中，飞机的类间变化非常微小，图像中飞机填充了区域较大，具有更清晰的背景。本发明使用数据集开发人员提供固定的训练/测试划分以进行方法评估。Birds200-2011是一个具有挑战性的数据集，由200个鸟类物种的11,788个图像组成。其提供了固定的训练集和测试集来评估不同的方法。在这个数据集中，额外的监督信息部件标注(Parts)和边界框(BBox)通常被考虑用在训练或测试中去设计识别方法。本发明方法既没有使用Parts也没有使用BBox，而是在其提供的固定的数据集划分上进行实验。

1.FGVC-aircraft飞机数据集实验结果

方法设置的参数为：数据集的划分，将该数据集分为训练集6001个样本，验证集666个样本，测试集3333个样本。

对于未做1x1卷积核降维的网络结构，训练过程分为两部，第一次训练加载imagenet ILSVRC2012数据集上预训练的VGG-16前五个卷积层得到的参数，然后冻结，只训练多层特征融合之后所连接的全连接层。将训练集和验证集输入网络，训练100个epoch,取验证集精度最高的全连接层参数保存，第二次做一个完整的训练，与第一步做法相同，先加载imagenet ILSVRC2012数据集上预训练的VGG-16前五个卷积层的参数，此时可以加载上一步保存的全连接层的参数，然后完全训练所有层的参数。将训练集和验证集输入网络，训练100个epoch.取验证集精度最高的模型进行测试，得到最终的分类精度。

对于使用1x1卷积核降维的网络结构，VGG-16conv5_1层，conv5_2层，conv5_3层输出的特征图分别通过1x1x256，1x1x256+1x1x128的卷积核得到256维，128维的特征再进行双线性特征多层融合的操作，训练过程和未使用1x1卷积核降维的训练过程类似，不过第一次训练除了要保存最后一层的全连接层，还需要保存降维使用的1x1x256,1x1x256+1x1x128的卷积核参数，之后全部送入整个双线性网络作为初始化参数，进行完整的训练。我们的实验结果如图3、4、5所示)：

从实验结果可以看出，本发明提出的方法相较于原始模型精度方面有很大的提升，其中VGG-16的conv5_1层，conv5_2层，conv5_3层三路双线性特征的融合后能达到88.72％的精度，相较于原始Bilinear CNN模型84.1％的精度，精度提升了4.72％，尤其在融合VGG-16conv5_1层，conv5_2层，conv5_3层三路的多视窗特征后精度达到了89％，这对于细粒度图像识别任务来说是非常具有贡献意义的，另外实验结果也证实了经过1x1卷积后的特征融合的分类精度也远远优于原始Bilinear CNN的方法。并且与其他方法(图6)相比，有很大的识别精度提升，验证了本发明特征融合的有效性和可行性。

2.CUB-200-2011数据集实验结果

方法设置的参数为：数据集的划分，将该数据集分为训练集5334个样本，验证集600个样本，测试集5794个样本。

我们对比原始模型，进行了VGG-16的conv5_2，conv5_3两路bilinear特征融合以及VGG-16conv5_1，conv5_2，conv5_3三路双线性特征融合的实验，具体实验过程和FGVC-aircraft飞机数据集未使用1x1降维的过程相同，也是分两步训练，第一步加载预训练的vgg16前五个卷积层的参数。然后冻结只保存最后一个用于分类的全连接层参数。第二步训练加载vgg16预训练模型前五层卷积的参数和第一步得到的全连接层的参数。进行完整的微调训练，取验证集精度最高的模型进行测试，得到最终的精度。实验结果如表1所示，实验结果表明本发明提供的方法相比于原始模型有更高的的分类精度。并且与其他方法(图7)相比，在只使用图像级别的标签，不适用图像中物体边界框人工标注的情况下有很大的识别精度提升，验证了本发明对于双线性特征融合的有效性和可行性。

表1：CUB-200-2011数据库分类结果(％)

原始bilinear CNN	两路双线性特征融合	三路双线性特征融合
			84.0	84.4	84.6