CN109086437A

CN109086437A - 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法

Info

Publication number: CN109086437A
Application number: CN201810926656.4A
Authority: CN
Inventors: 冯永; 张逸扬; 尚家兴; 强保华; 邱媛媛
Original assignee: Chongqing University; Guilin University of Electronic Technology
Current assignee: Chongqing University; Guilin University of Electronic Technology
Priority date: 2018-08-15
Filing date: 2018-08-15
Publication date: 2018-12-25
Anticipated expiration: 2038-08-15
Also published as: CN109086437B

Abstract

本发明公开一种融合Faster‑RCNN(Faster‑Regions with Convolutional Neural Network,快速区域卷积神经网络)和Wasserstein自编码器的图像检索方法。本发明搭建深度学习框架，采用Faster‑RCNN模型提取图像特征；对Faster‑RCNN模型进行训练，微调网络权重；提取图像的全局特征，构建图像的全局特征图库；构建Wasserstein自编码器，并对Wasserstein自编码器进行训练；采用Wasserstein自编码器对全局特征进行降维，计算欧几里得距离得出第一相似度，并进行第一次排序，完成图像的粗粒度检索；提取图像中候选区域的特征作为局部特征，构建图像的局部特征图库；采用Wasserstein自编码器对局部特征进行降维，计算第二相似度并进行第二次排序，完成图像的细粒度检索。该方法能加快图像的检索速度以及提高图像检索的准确率。

Description

一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法

技术领域

本发明涉及图像检索技术领域，特别涉及一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法。

背景技术

随着互联网中图像资源的爆炸式增长，人们对于图像的检索次数已经超过网页文本检索次数，意味着人们进入读图时代。面对海量的图像数据，如何快速、准确地检索出内容相关的图像，成为大数据图像检索亟待解决的关键问题。传统的图像检索方法主要是基于图像内容的检索，即通过对图像的颜色分布、形状轮廓、纹理结构等底层视觉信息进行统计，比较图像之间视觉特征的相似度，从图像数据库中检索出与目标图像匹配相似的图像。由于图像底层视觉信息以及统计方法表征能力的局限性，对于大规模复杂图像检索的结果难以令人满意。

相比于传统的特征统计学习方法，深度学习通过构建多层神经网络模型，使用大规模图像数据训练并拟合网络中成千上万的参数，使得模型具有强大的表征能力，从而提取到图像更具有语义信息的高层特征。

通常，检索系统是根据提取到图像的全局特征，在图像库中匹配并检索相似图像。但是，用户观察图像时，往往只对图像中的部分区域或某个目标物体感兴趣，比如图像中某地标建筑物等；特征图中存在冗余信息，同时，考虑到检索系统的时效性以及减低特征的存储空间，需要对特征图降维处理。传统的主成分分析等降维方法，没有考虑到特征图中特征之间的内在联系，降维处理后存在部分特征丢失，从而影响图像检索的准确性。

中国发明专利申请公布号CN105912611A公开了一种基于CNN的快速图像检索方法，该方法包括一下步骤：1)利用CNN网络对要检索的图像进行特征提取，得到代表图像的矢量特征；利用Google Net网络架构，通过Inception结构实现了在小幅度增加计算量的情况下，让网络走向更深层次；2)在特征数据库中对此矢量特征进行k近邻检索。该发明方法能完成对图像的检索，但当图像中有多个目标时，就不能准确地提取出图像的局部特征，并且检索速度较慢。

发明内容

针对已有图像检索技术方法中图像检索速度慢、检索准确率偏低、特征降维过程中部分特征丢失的问题，本发明提供一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法，提取图像的全局特征和局部特征，并且进行特征降维，计算出图像特征的相似度，根据相似度完成图像的准确检索。

为了实现上述目的，本发明提供以下技术方案：

一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法，包括以下步骤：

S1:搭建深度学习框架，部署Faster-RCNN模型；

S2：对Faster-RCNN模型进行训练，微调网络权重；

S3：提取图像的全局特征，构建图像的全局特征图库；

S4：构建Wasserstein自编码器，并对Wasserstein自编码器进行训练；

S5：采用Wasserstein自编码器对全局特征图进行降维，计算全局特征之间欧几里得距离得出第一相似度，并进行第一次排序，完成图像的粗粒度检索；

S6：提取图像中候选区域的特征作为局部特征，构建图像的局部特征图库；

S7：采用Wasserstein自编码器对局部特征图进行降维，计算第二相似度并进行第二次排序，完成图像的细粒度检索。

优选的，所述S1中，本发明搭建Caffe深度学习框架。

优选的，所述S1中，本发明采用VGG网络结构作为所述Faster-RCNN模型中的特征提取模型。

优选的，所述S2中，本发明采用Oxford5k数据集中的训练集对所述Faster-RCNN模型进行训练。

优选的，所述S2中，本发明采用以下方法对所述Faster-RCNN模型进行训练：

从Oxford5k数据集的11个类别中分别选取5张图像从而得到55张图像，将此55张图像进行水平翻转并保留原始图像，进而得到110张图像，将此110张图像作为训练集；

将Faster-RCNN模型的输出类别调整为12，其中包含11类物体和1类背景；

设置迭代次数为5000，训练方式为端到端训练。

优选的，所述S3中，本发明选择卷积层Conv5_3中的全局特征图，用于构建全局特征图库。

优选的，所述S4中，本发明构建的Wasserstein自编码器包括1层卷积层、3层全连接层和1层反卷积层。

优选的，所述S4中，本发明采用以下方法对Wasserstein自编码器进行训练：

设定Wasserstein自编码器的卷积层卷积核大小为5×5，步长为2；

输入第一特征图，卷积第一特征图可得第二特征图；

将第二特征图重塑到第一全连接层，得到第一特征向量；

第一特征向量映射到第二全连接层，降维输出第二特征向量；

第二特征向量映射到第三全连接层，得到第三特征向量；

对第三特征向量进行重塑，得到第三特征图；

设定Wasserstein自编码器的反卷积层卷积核大小为5×5，步长为2，反卷积第三特征图可得第四特征图；

计算第一特征图和第四特征图的Wasserstein距离作为损失值，多次迭代训练直至收敛，完成Wasserstein自编码器参数的优化。

优选的，所述Wasserstein距离的计算函数为以下公式：

式中，p_X表示输入特征的概率分布；p_G表示输出特征的概率分布；表示在y服从p_G概率分布下求y的期望；min表示最小值；表示在x服从p_X概率分布下求x的期望；λ表示梯度惩罚项权重；表示求偏倒，f_w(x)表示x的权重输出函数；c表示梯度，其值可设置为1。

优选的，所述S6中，本发明采用以下方法提取图像的局部特征：

使用区域提案网络在卷积层的特征图中提取候选区域，得到得分矩阵和坐标矩阵；

选择得分矩阵中每行得分最高的类别作为候选区域的类别，得到特征图；

根据特征图和原始图像的长宽比例，提取图像的局部特征。综上所述，由于采用了上述技术方案，与现有技术相比，本发明至少具有以下有益效果：

1.本发明通过对特征提取模型的优化，加快了图像的检索速度；

2.采用Wasserstein自编码器对图像降维，能减少图像特征的缺失，相比于主成分分析等降维方法，提高了2％的图像检索准确率；

3.本发明采用两次图像检索，相比于原有检索方法，提高了2％的图像检索准确率。

附图说明：

图1为根据本发明示例性实施例的一种图像检索方法流程示意图。

图2为根据本发明示例性实施例的Wasserstein自编码器的训练流程示意图。

具体实施方式

下面结合实施例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

图1为根据本发明示例性实施例的一种图像检索方法流程示意图。具体包括以下步骤：

步骤S1：搭建深度学习框架，采用Faster-RCNN模型提取图像特征，所述图像特征包括全局特征和局部特征。

具体的，步骤S1中，本发明搭建的是Caffe(Convolutional Architecture forFast Feature Embedding，快速特征嵌入的卷积体系结构)深度学习框架。本实施例采用VGG(Visual Geometry Group，视觉几何组)网络结构(例如可采用VGG16)作为Faster-RCNN(Faster-Regions with Convolutional Neural Network,快速区域卷积神经网络)模型中的特征提取模型，并且本实施例中采用Pascal VOC2007数据集对VGG网络结构进行预训练。

步骤S2：对Faster-RCNN模型进行训练，微调网络权重。

本实施例步骤S2中，本发明采用Oxford5k数据集中的训练集对Faster-RCNN模型进行训练。具体的，在Oxford5k数据集中，从11个类别中分别选取5张图像从而得到55张图像，将此55张图像进行水平翻转并保留原始图像，进而得到110张图像，本发明将此110张图像作为训练集；修改Faster-RCNN模型中的文件，将输出类别调整为12，其中包含11类物体和1类背景；设置迭代次数为5000，训练方式为端到端训练，实现网络权重的微调，输出caffemodel文件。

步骤S3：提取图像的全局特征，构建图像的全局特征图库。

本实施例步骤S3中，Faster-RCNN模型加载caffemodel文件，用于构建特征提取网络模型；上述网络模型提取出图像的全局特征，选择卷积层Conv5_3中的特征矩阵代表图像的全局特征，从而构建图像的全局特征图库。例如，特征图的维度为W×H×K，W表示图像的宽，H表示图形的高，K表示图像的个数。

步骤S4：构建Wasserstein自编码器，并对Wasserstein自编码器进行训练。

本实施例步骤S4中，本发明构建基于卷积层、全连接层以及反卷积层的Wasserstein自编码器模型，该Wasserstein自编码器包括1层卷积层、3层全连接层和1层反卷积层。

本实施例对Wasserstein自编码器进行训练，优化Wasserstein自编码器中的参数，用于减少特征图降维过程中缺失的特征数量，从而提高图像的检索准确率。

Wasserstein自编码器训练步骤如下：

S4-1：设定Wasserstein自编码器的卷积层卷积核大小为5×5，步长为2；

S4-2：输入第一特征图，卷积第一特征图可得第二特征图；

S4-3：对第二特征图进行重塑，第一全连接层上得到第一特征向量；

S4-4：第一特征向量映射到第二全连接层，输出第二特征向量；

S4-5：第二特征向量映射到第三全连接层，可得第三特征向量；

S4-6：对第三特征向量进行重塑，可得第三特征图；

S4-7：设定Wasserstein自编码器的反卷积层卷积核大小为5×5，步长为2，反卷积第三特征图可得第四特征图；

S4-8：计算第一特征图和第四特征图的Wasserstein距离作为损失值，多次迭代训练直至收敛，完成对Wasserstein自编码器参数的优化。

当损失值足够小，输出的第二特征向量保留足够的特征，可用于重建第一特征图，从而保障特征降维的有效性，提高图像的检索准确率。

Wasserstein距离的计算函数如下：

公式(1)中，p_X表示输入特征的概率分布；p_G表示输出特征的概率分布；表示在y服从p_G概率分布下求y的期望；表示在x服从p_X概率分布下求x的期望；λ表示梯度惩罚项权重；表示求偏倒，f_w(x)表示x的权重输出函数；c表示梯度，其值可设置为1。

具体的，请参考图2。设定Wasserstein自编码器卷积层和反卷积层卷积核大小均为5×5，步长为2；输入第一特征图(例如其维度为7×7×512)，卷积第一特征图得到第二特征图(例如其维度为2×2×1024)；对所述第二特征图进行重塑(reshape)操作，第一全连接层上可得到第一特征向量(例如其维度为4096)；所述第一特征向量映射到第二全连接层，输出第二特征向量(例如其维度为40)；所述第二特征向量映射到第三全连接层，得到第三特征向量(例如其维度为4096)；对所述第三特征向量进行重塑(reshape)操作，得到第三特征图(例如其维度为2×2×1024)；反卷积第三特征图得到第四特征图(例如其维度为7×7×512)。

步骤S5：采用Wasserstein自编码器对全局特征图进行降维，计算第一相似度并进行第一次排序，完成图像的粗粒度检索。

原始图像的全局特征图中含有冗余信息及噪音信息，会造成图像检索的误差，降低检索准确率，因此需对图像特征图降维。

本实施例采用步骤S4中训练完成的Wasserstein自编码器对步骤S3中构建的图像全局特征图库中的特征图降维，减少计算的复杂度，且保留特征图的有效特征，提高图像检索的准确率。例如，输入的第一特征图维度为7×7×512，Wasserstein自编码器对第一特征图降维处理，输出第二特征向量，所述第二特征向量的维度为40。

计算图像全局特征与特征图库中的特征之间的欧几里得距离d(x,y)，d(x,y)值越小，表明相似度越高，根据d(x,y)值可得出第一相似度；根据第一相似度进行排序(例如由高到低)，得到第一次排序列表(即图像排序列表)，完成图像的粗粒度检索。

欧几里得距离d(x,y)的计算公式如下：

公式(2)中x_i表示特征x中的第i维特征，y_i表示特征y中的第i维特征，n表示维数。

步骤S6：提取图像中感兴趣部分的特征作为局部特征，构建图像的局部特征图库。

本实施例步骤S6中，本发明采用步骤S3中构建的特征提取网络模型提取图像的局部特征。

具体的，选择步骤S5的第一次排序列表中前Top-K张图像作为步骤S6中的原始图像。本发明使用Faster-RCNN模型中的区域提案网络(RPN，Region Proposal Network)，并选择在区分度较好的卷积层(例如第5层)的特征矩阵上提取候选区域，得到原始图像对应的得分矩阵M_score＝[S_i，j]_r×k(r表示候选区域个数，k表示类别个数，S_i，j表示第i个区域属于类别k的分数)和坐标矩阵M_boxes＝[b_i，j]_r×(4k)(b_i，j表示第i个区域属于类别k对应的坐标)；选择得分矩阵中每行得分最高的类别作为候选区域的类别(如果该类别是背景，则丢弃对应候选区域)，从而得到特征图；计算特征图与原始图像的长宽比例，根据比例将原始图像坐标映射到特征图中，从而得到图像的局部特征。

步骤S7：采用Wasserstein自编码器对局部特征进行降维，计算出第二相似度并进行第二次排序，完成图像的细粒度检索。

本实施例步骤S7中，本发明采用Wasserstein自编码器对图像的局部特征降维；计算图像局部特征之间第二相似度S(r₁，r₂)，根据第二相似度进行排序(例如由高到低)，得到第二次排序列表，完成图像的细粒度检索。

得分计算函数score(r₁，r₂)为以下公式：

score(r₁，r₂)＝score(r₁)+score(r₂) (3)

公式(3)中score(r₁)表示候选区域1的得分；score(r₂)表示候选区域2的得分。

类别计算函数cls(k₁，k₂)为以下公式：

公式(4)中cls(k₁，k₂)表示类别得分；k₁表示候选区域1的类别；k₂表示候选区域2的类别。

图像局部特征之间的第二相似度S(r₁，r₂)的计算公式如下：

S(r₁，r₂)＝dis(f₁，f₂)+cls(k₁，k₂)×score(r₁，r₂) (5)

公式(5)中dis(f₁，f₂)用于计算候选区域1、2分别对应的局部特征之间的欧几里得距离；cls(k_1，k₂)为类别计算函数；score(r_1，r₂)为得分计算函数。

Claims

1.一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法，其特征在于，包括以下步骤：

S1:搭建深度学习框架，部署Faster-RCNN模型；

S2：对Faster-RCNN模型进行训练，微调网络权重；

S3：提取图像的全局特征，构建图像的全局特征图库；

2.如权利要求1所述的融合Faster-RCNN和Wasserstein自编码器的图像检索方法，其特征在于，所述S1中，搭建Caffe深度学习框架。

3.如权利要求1所述的融合Faster-RCNN和Wasserstein自编码器的图像检索方法，其特征在于，所述S1中，采用VGG网络结构作为所述Faster-RCNN模型中的特征提取模型。

4.如权利要求1所述的融合Faster-RCNN和Wasserstein自编码器的图像检索方法，其特征在于，所述S2中，采用Oxford5k数据集中的训练集对所述Faster-RCNN模型进行训练。

5.如权利要求1或4所述的融合Faster-RCNN和Wasserstein自编码器的图像检索方法，其特征在于，所述S2中，采用以下方法对所述Faster-RCNN模型进行训练：

设置迭代次数为5000，训练方式为端到端训练。

6.如权利要求1所述的融合Faster-RCNN和Wasserstein自编码器的图像检索方法，其特征在于，所述S3中，选择卷积层Conv5_3中的全局特征图，用于构建全局特征图库。

7.如权利要求1所述的融合Faster-RCNN和Wasserstein自编码器的图像检索方法，其特征在于，所述S4中，Wasserstein自编码器包括1层卷积层、3层全连接层和1层反卷积层。

8.如权利要求1所述的融合Faster-RCNN和Wasserstein自编码器的图像检索方法，其特征在于，所述S4中，采用以下方法对Wasserstein自编码器进行训练：

设定Wasserstein自编码器的卷积层卷积核大小为5×5，步长为2；

输入第一特征图，卷积第一特征图可得第二特征图；

将第二特征图重塑到第一全连接层，得到第一特征向量；

第二特征向量映射到第三全连接层，得到第三特征向量；

对第三特征向量进行重塑，得到第三特征图；

9.如权利要求8所述的融合Faster-RCNN和Wasserstein自编码器的图像检索方法，其特征在于，所述Wasserstein距离的计算函数为以下公式：

10.如权利要求1所述的融合Faster-RCNN和Wasserstein自编码器的图像检索方法，其特征在于，所述S6中，采用以下方法提取图像的局部特征：

根据特征图和原始图像的长宽比例，提取图像的局部特征。