CN105574215B

CN105574215B - 一种基于多层特征表示的实例级图像搜索方法

Info

Publication number: CN105574215B
Application number: CN201610127023.8A
Authority: CN
Inventors: 徐勇; 顾一凡
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2016-03-04
Filing date: 2016-03-04
Publication date: 2019-11-12
Anticipated expiration: 2036-03-04
Also published as: CN105574215A

Abstract

本发明涉及计算机视觉技术领域，尤其涉及一种基于多层特征表示的实例级图像搜索方法。本发明提出了一个通过深度卷积神经网络模型学习图像不同层次的特征表示，进行实例级的图像搜索的方法，使之能有效的找到相同物品的不同图像；本发明在传统网络模型基础上引入了一种编码学习过程，通过对来自于多个卷积层的特征进行自动编码，使得提取的特征更具有鲁棒性，降低背景和噪声数据对特征的影响，同时兼具局部信息和类别信息；本发明还提出了一种基于多任务的损失函数，并通过优化该函数，使学习到的特征拥有很好的泛化性能，也使学习到的特征很好的用于区分类间图像以及类内不同事物的图像。

Description

一种基于多层特征表示的实例级图像搜索方法

技术领域

本发明涉及图像处理技术邻域，尤其涉及一种基于多层特征表示的实例级图像搜索方法。

背景技术

最近十年内，实例级别的图像搜索引起了很大的关注，可以把该问题简单描述为给出一张实物图像，让你从数据集中找到相同实物的不同图像或接近物体的图像。该问题的兴起主要由于网购时消费者的一种需求，消费者希望上传一张物体图像，便能在网站上显示出同种图像的销售信息，如阿里的拍立淘便是基于此需求而开发的，但实际上到目前为止，用户体验效果依然不好，主要由于以下几个原因：

网站上的图像多是含有背景或者水印的图像，干扰因素较大，同时用户上传的图像也是各种姿势，有时上传的图像中物体较小，甚至不在图像的中央，或者大部分被其他事物所覆盖，只显示出一部分，如发圈这类饰品，图像中很可能包含了人的头发等事物，加大了搜索难度。

实例级别的图像搜索注重局部特征，例如图像上的商标等特征，这些是人类判断事物的一个重要标准，但是在类别级图像搜索的时候，提取出来的特征更多的是注重类别特征而非局部特征，这就要求修改算法，使得提取出来的特征中类别特征为主，局部特征为辅，两者兼具。

实例级别的图像搜索，在搜索时最好的结果是同一类的同一件商品的不同图像，其次是同一件商品的不同颜色的图像或者有细微的差别，再其次才是同一类商品的不同图像，因此不仅要对类间图像进行区分，同时也要求对于类内的物品也进行区分。

传统的图像搜索算法采用的大多是手选识别特征的方式，例如SIFT算法，词袋(Bow)算法，局部特征聚合描述符(VLAD)算法，或者Fisher向量(FV)算法和它们的变形。还有一些相关算法用于改进图像搜索的效果，例如利用Root-SIFT提高SIFT算法的判别能力，用PCA，白化，signed square root(SSR)算法提高特征提取的泛化能力。图像搜索的效果被单个特征表示所限制，Multi-VLAD构造的单个图像的多个表示明显取得了更好的效果。

近几年，由于深度神经网络的广泛应用，尤其是卷积神经网络(CNN)的应用，在图像视觉领域的多个任务中都取得了突破性的进展，例如图像分类，目标检测等。通过训练多层卷积神经网络，人发现卷积神经网络对于学习非线性特征具有较好的鲁棒性，它不仅能发现人们可以手动区分的特征，更能够从图像中发现一些不了解的但又非常重要的高层特征，卷积神经网络也已经被人们应用于图像搜索当中，并取得优异的成绩。

常用的分类特征通常是取的深度卷积神经网络的最后一个全相连层的特征，但该层的特征对于实例级别的图像搜索来说过于泛化，以至于缺少判别力，它更多的是拥有类别特征，用于判别物体的不同类别，而对于类内的差别则很难判断出来。最近的一些研究指出，中间层的特征对于类内区别有更好的区分效果，但是选择中间层更像是在局部特征和类别特征中的一种权衡，能表示出两者的部分信息，但都不完全，因此最好的方式还是找到一种方法综合这两者。在本文中，会提出一种新的基于卷积神经网络的特征融合的方法来解决这个问题。

而且在卷积神经网络中包含了一种重要的结构——池化。对于类内信息的区分，背景的影响变得更加的重要，在提取特征的同时，利用不同池化方式对图像的不同影响，即混合池化的方法，以降低背景对图像的影响。

同时，由于不同损失函数会产生不同效果的训练特征，结合softmax和triplet损失函数的优点，提出一个了多任务学习结构，以帮助更好的学习一个实例级别的特征表示。在研究中，发现triplet损失函数对于物体之间的区分拥有很好的效果，这是softmax损失函数所不能提供，但triplet损失函数对于特征的泛化能力表现发面又不如softmax，因此两者缺一不可。

在阿里巴巴举办的图像搜索大赛中测试了提出的方法，该比赛主要比较的是每张查询图像前20的查询结果，最终在比赛的数据集上的MAP值为41.9％，并取得了第三名的成绩。

发明内容

针对现有技术中存在的缺陷或不足，本发明所要解决的技术问题是：提供一种基于多层特征表示的实例级图像搜索方法，利用深度神经网络训练，进行多任务基于实例的图像搜索，使之有效的找到相同物品的不同图像。

为了实现上述目的，本发明采取的技术方案为提供一种基于多层特征表示的实例级图像搜索方法，包括以下步骤：

(1)抽取多层特征：运用多层特征融合的方法，从输入图像中的inception模块提取出单层特征；

(2)进行编码学习(以GoogLeNet网络为例)，包括以下步骤：

(21)对数据进行降维：在每个inception层的后面进行平均池化和1x1的卷积，并添加监督信号进单层特征编码训练；

(22)选择混合池化的输出特征作为输入图像的部分特征，混合池化包括最大池化和平均池化，其连接得到的特征表示单层图像特征，最后得到特征长度为256的单层特征；

(23)选择输入图像中的inception模块的中间七层进行特征提取，产生7个256维单层图像特征，并连接在一起产生最终的多层图像特征表；

(3)使用多损失函数进行训练：对于用于特征提取的每个inception模块，先通过softmax来训练特征提取，降低数据维数；而后结合triplet损失函数训练，使之在类间分类上能取得更好的效果；

作为本发明的进一步改进，所述Triplet损失函数的基本公式表示为：

Loss(x_i,x_i ⁺,x_i ^-)＝max(0,m+dist(x_i,x_i ⁺,x_i ^-)-dist(x_i,x_i ^-))

其中，x_i是给定的测试图像，x_i ⁺是给定图像的正样例，选定的是当前事物的所有相同物品的不同图像；x_i ^-是给定图像的负样例，负样例选定的是与当前物品不同的其他物品图像；dist(.,.)表示的是两张图像特征之间的距离，计算特征之间的距离使用的是cosine函数，参数m的值设为0.2。

作为本发明的进一步改进，所述步骤(1)中获得的的多个单层特征经过编码学习得到的特征表示用于之后triplet损失函数的单个图像的参数输入。

作为本发明的进一步改进，所述步骤(2)中的特征提取包括预训练和微调，预训练阶段只进行图像特征提取并进行类类别程度的分类，在微调阶段才加上triplet损失函数，强化类内不同物体的区分能力。

作为本发明的进一步改进，所述预训练阶段的损失函数是基本的softmax损失函数，而在微调阶段，损失函数改为softmax损失函数和triplet损失函数的权重之和，如下列公式所示：

其中λ＝0.5，损失函数中的softmax的值是softmax-1的输出结果。作为本发明的进一步改进，所述步骤(3)后还有步骤(4)：进行测试，寻找图像的最优解，计算测试图像与训练图像特征之间的距离，即cosine值，距离越小的，则被认为与测试图形越接近。

本发明的有益效果是：

1.利用深度神经网络训练，进行多任务基于实例的图像搜索，使之有效的找到相同物品的不同图像。

2.提出一种编码学习的方法，使得提取的特征更具有鲁棒性，使之同时兼具局部特征和类别特征。

3.提出一种多任务的联合利用softmax和triplet的损失函数提取特征，既能使特征拥有很好的泛化性能，也能使特征很好的用于区分类间图像以及类内不同事物的图像。

4.在使用triplet损失函数之前先使用混合池化，降低背景和噪声数据对特征的影响，增强分类效果。

附图说明

图1是本发明特征抽取过程图；

图2是本发明混合池化示意图；

图3是本发明的对数据进行降维表；

图4是本发明预训练与微调所需要的网络架构图。

具体实施方式

下面结合附图说明及具体实施方式对本发明进一步说明。

如图1所示，本发明的一种基于多层特征表示的实例级图像搜索，具备包括：

一、多层基本特征

网络架构是建立在现有的分类神经网络的基础之上的，例如VGG-16，GoogLeNet，相比于GoogLeNet,VGG-16拥有更多的参数，训练网络的时间需要更长，因此在本文中主要以GoogLeNet为例，说明多层特征融合的方法。

GoogLeNet输入图像的大小为224x224，输入层连接了多个卷积层，和9个inception模块，inception模块由1x1,3x3,5x5这些小的卷积组成，最后是全相连层，softmax层，主要融合的就是部分inception模块提取出来的中间特征。

现有的神经网络主要是为了分类而设计的，常用网络最后一层全相连层作为图像抽取得到的特征，该层特征包含了大量的类别特征，以及用于区分类别的信息，但在图像搜索中，不仅需要类别特征，还需要图像的局部特征，用以区分同一个类别里的不同物品。作者也发现神经网络中前几层特征中包含了更多的局部特征，因此希望通过输入不同尺寸的图像和利用VLAD算法使得最后一层包含更多的局部特征，但最终获得的特征表示的维度很高，在本文中将通过另外一种方式融合不同层的特征，并且维度相比于要小很多。

二、特征提取

在抽取了多层特征之后，接下来进行特征抽取。过程图1所示。由于inception的特征维数较高，首先对数据进行降维，如图3所示，在每个inception层的后面进行平均池化和1x1的卷积，并添加监督信号进单层特征提取训练，最后得到特征长度为256的单层特征。

GoogLeNet的inception包含9层，但是第一层仅对图像轮廓进行提取，分类信息较少，添加该层不利于数据收敛，而最后一层包含的特征信息在前几层中均已经包含了，去掉这一层，有利于加快速度的收敛，因此最后只选择了中间的7层进行特征提取。连接7个256维特征，加上监督信号进行特征融合的训练。

最后选择全相连层的输出特征作为图像的部分特征，并且在进行triplet损失函数训练的时候选择的混合池化的结果作为输入特征，而不是选择全相连层的输出作为特征。作者将混合池化特征应用于场景分类中，有效地降低了复杂背景的影响。相比于全相连层，这样提取出来的特征更具有鲁棒性。

三、多任务损失函数训练

常用的损失函数有Softmax和triplet损失函数，这两者各有优缺，各有偏向，softmax损失函数简单，训练时间短，学习到的特征更具有泛化能力，但分类类间特征效果较差；而triplet损失函数训练时间长，训练出来的特征稀疏性大，泛化能力弱，并且每次输入需要三个样例，一个测试样例，一个正样例，一个负样例，但通过这样的训练，使得负样例与测试样例之间的区别加大，而正样例与测试样例之间的区别减小，因此不仅可以帮助区分类与类之间的差异，相同类的不同物体之间的差异也可以有效地区分开来。

在本专利中，结合以上两种方式进行特征提取。先通过softmax来训练特征提取。对于用于特征提取的每个inception模块，都用softmax提取特征，降低数据维数，如图1中显示的，并且googLeNet中的softmax损失函数可以看做是inception模块的总的损失函数。每个inception模块的参数设为0.3，总的softmax的参数设为1.0。而后又结合triplet损失函数训练，使之在类间分类上能取得更好的效果。Triplet损失函数的基本公式可以表示为：

Loss(x_i,x_i ⁺,x_i ^-)＝max(0,m+dist(x_i,x_i ⁺,x_i ^-)-dist(x_i,x_i ^-))

其中，x_i是给定的测试图像，x_i ⁺是给定图像的正样例，选定的是当前事物的所有相同物品的不同图像；x_i ^-是给定图像的负样例，负样例选定的是与当前物品不同的其他物品图像；dist(.,.)表示的是两张图像特征之间的距离，计算特征之间的距离使用的是cosine函数，参数m的值设为0.2.输入数据实际每次只准备了两个样本，测试样例和正样例，负样例一部分直接从当前批次图像中随机找一个不同类的图像，也会找一个当前与样例距离最大的样例作为负样例，这样拼成triplet损失函数的三个输入参数进行训练。

四、混合池化

直接利用上述训练出来的特征，虽然对于图像来说，具有很好的表现力，但同时特征中也包含了图像的背景特征，而真正需要关注的只是图像中物体部分的特征，降低背景特征的影响可以帮助更好的进行图像搜索。对特征进行平均池化可以降低特征对噪声数据的敏感性，也就是降低背景特征的影响，但是平均池化受尺度变化的影响较大，不同尺度的相同图像特征差距会变大，如图2中(b)的结果所示，包的响应区域在图片中发生了位置移动；而对特征进行最大池化，特征受平移或尺度变化有不变性，但会被不相关激励所干扰，如图2中(c)中用红色圈出的部分，就是被原图背景的不相关元素影响的结果。最好的方法便是结合两种方法，所以最后的特征由最大池化和平均池化连接得到的特征表示，如图2中(a)所示的混合效果图。

五、实现细节

提取特征主要分为两个部分：预训练与微调。图4中显示了这两部分所有需要的网络架构，预训练阶段只进行图像特征提取并进行类类别程度的分类，在微调阶段才加上triplet损失函数，强化类内不同物体的区分能力。预训练阶段损失函数是基本的softmax损失函数，而在微调阶段，损失函数改为softmax损失函数和triplet损失函数的权重之和，如下列公式所示

其中λ＝0.5，损失函数中的softmax的值是图4中softmax-1的输出结果。

在测试阶段，寻找图像的最优解，只需要计算测试图像与训练图像特征之间的距离，即上述所讲的cosine值，距离越小的，则被认为与测试图形越接近。该方法简单有效，也使得每次图像搜索的时间较短，适合实际应用。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于多层特征表示的实例级图像搜索方法，其特征在于：包括以下步骤：

(1)在网络中选择合适的表示能力强的7个Inception层作为后续特征提取的基础层；

(2)对选中的基础层进行特征提取：

(21)对数据进行降维：在每个选中的基础inception层的后面进行平均池化和1x1的卷积，对不同Inception层的输出进行降维；

(22)对不同Inception层降维后的输出使用混合池化进行进一步的处理，将结果进行融合得到不同Inception层的最终输出256维度的特征向量；

(23)选择输入图像中的inception模块的中间七层进行特征提取，产生7个256维单层图像特征，并将7个256维单层图像特征连接在一起产生最终的多层图像特征表；

(3)对整个模型进行训练，包括以下几个步骤：

(31)使用softmax对网络进行预训练，对不同的选中的Inception层数据降维后的结果添加softmax层进行训练；

(32)使用多任务损失函数对模型进行微调训练，对不同层数据降维后的结果添加softmax层进行训练，同时对图像的多层表示结果添加triplet损失函数进行训练。

2.根据权利要求1所述的基于多层特征表示的实例级图像搜索方法，其特征在于：所述Triplet损失函数的基本公式表示为：

Loss(x_i,x_i ⁺,x_i ^-)＝max(0,m+dist(x_i,x_i ⁺,x_i ^-)-dist(x_i,x_i ^-))

其中，x_i是给定的测试图像，x_i ⁺是给定图像的正样例，选定的是当前事物的所有相同物品的不同图像；x_i ^-是给定图像的负样例，负样例选定的是与当前物品不同的其他物品图像；dist(·,·)表示的是两张图像特征之间的距离，计算特征之间的距离使用的是cosine函数，参数m的值设为0.2。

3.根据权利要求1所述的基于多层特征表示的实例级图像搜索方法，其特征在于：所述步骤(2)中获得的多个单层特征经过编码学习之后的特征表示用于之后triplet损失函数的单个图像的参数输入。

4.根据权利要求3所述的基于多层特征表示的实例级图像搜索方法，其特征在于：所述预训练阶段的损失函数是基本的softmax损失函数，而在微调阶段，损失函数改为softmax损失函数和triplet损失函数的权重之和，如下列公式所示：

其中λ＝0.5，损失函数中的softmax的值是softmax-1的输出结果。

5.根据权利要求1-4任一项所述的基于多层特征表示的实例级图像搜索方法，其特征在于：所述步骤(3)后还有步骤(4)：进行测试，寻找图像的最优解，计算测试图像与训练图像特征之间的距离，即cosine值，距离越小的，则被认为与测试图形越接近。