CN107239565B

CN107239565B - 一种基于显著性区域的图像检索方法

Info

Publication number: CN107239565B
Application number: CN201710446142.4A
Authority: CN
Inventors: 徐杰; 卞颖; 盛纾纬; 唐淳; 田野
Original assignee: University of Electronic Science and Technology of China
Current assignee: Chengdu Xingyinian Intelligent Technology Co ltd
Priority date: 2017-06-14
Filing date: 2017-06-14
Publication date: 2020-03-24
Anticipated expiration: 2037-06-14
Also published as: CN107239565A

Abstract

本发明公开了一种基于显著性区域的图像检索方法，通过提取待检索图像的显著性区域，并对显著性区域进行描述和池化编码等处理，提取出待检索图像的局部CNN特征和全局CNN特征，再通过待检索图像的全局CNN特征和局部CNN特征在检索图片库中进行相同类别和相同物体的检索，提高了图像检索的准确性。

Description

一种基于显著性区域的图像检索方法

技术领域

本发明属于图像检索技术领域，更为具体地讲，涉及一种基于显著性区域的图像检索方法。

背景技术

基于内容的图像检索技术(CBIR，content-based image retrieval)指的是用于搜索的对象本身就是一幅图像，或者是对于图像内容的特征描述。现存的大多数方法采用的是图像的底层视觉特征，如sift描述子，以及使用bag-of-words(BoW)、Fisher vectors(FV)或者vector locally aggregated descriptors(VLAD)对sift描述子进行编码。但大多数的传统图像检索算法性能还不能满足人们的要求。究其原因，主要是底层特征和高层特征语义理解之间的差异，即语义鸿沟。

随后，CNN在图像识别领域取得了巨大的成功，全局CNN特征作为一种高层的语义表示，开始用于其它的识别任务并表现优异。Razavian研究了全局CNN特征的特点，将其用于不同的图像识别任务，包括图像检索。Yandex提出了使用目标数据集微调CNN并提取fc6层特征用于图像检索，并取得了最优的效果。Kevin Lin利用哈希编码将fc6层特征处理成二进制序列，大大提高了检索效率。但是，训练CNN的目的是面向分类任务的，全局CNN特征包含太多的与分类任务相关的高层语义信息，往往会忽略图片中的细节。

近来，一些研究开始关注于图片的细粒度特征，用以改善全局CNN特征。JiangWang提出使用Triplet来增加类内相似度和类间的区分性，并使用一个多尺度的网络，来增加图片中的局部细节信息。Qiang Chen提出了一种自适应的区域检测方法来消除街拍服装图片和商店服装图片的的差异，并利用属性数据集来挖掘服装的细粒度属性。Julien提出了CKN网络来提取图片的局部变性特征。Mattis将无监督训练的CKN网络提取图片的局部卷积特征用于图像检索任务中。

然而这些方法都是从识别图像的角度来挖掘图像当中的属性，而不是理解图像的角度来挖掘图像当中的属性，检索准确率仍有待提高。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于显著性区域的图像检索方法，通过全局CNN特征和局部CNN特征来进行相同类别和相同物体的检索，提高了图像检索的准确性。

为实现上述发明目的，本发明一种基于显著性区域的图像检索方法，其特征在于，包括以下步骤：

(1)、提取输入图像的显著性区域

(1.1)、将图像库中任意一幅图像作为输入图像，输入图像为RGB图像，且宽为W、高为H；

(1.2)、利用CNN+RPN+LSTM模型提取输入图像的显著性区域；

(1.2.1)、将输入图像输入至CNN网络，CNN网络将其变成C×W'×H'的特征图集合，其中，C表示特征图集合图像个数，W'×H'表示特征图集合中图像的宽和高；

(1.2.2)、将特征图集合中的图像输入至RPN定位层，得到包含显著性区域的中心点信息(x,y)、显著性区域的宽和高(w,h)，以及区域评分和区域特征的显著性区域；

(1.3)、按照步骤(1.2)所述方法，提取出图像库中其余输入图像的显著性区域；

(2)、构建检索特征库

(2.1)、提取输入图像的局部CNN特征；

(2.1.1)、利用显著性区域的区域特征生成特征矩阵；

识别网络将输入图像的显著性区域的区域特征形成一个B×D维的特征矩阵，其中，B表示显著性区域的个数，D表示维数；

(2.1.2)、基于和采样的池化编码，得到局部CNN特征；

1)、计算特征矩阵中每一维特征在所有显著性区域的和F′_k

其中，

表示第i个显著性区域的第k维特征；

2)、计算显著性区域的局部CNN特征F_k；

(2.2)、提取输入图像的全局CNN特征

将输入图像输入至CNN网络，CNN网络对输入图像依次进行预训练、微调和特征提取，得到输入图像的全局CNN特征；

(2.3)、利用PCA和L2规则化对局部CNN特征和全局CNN特征进行降维和融合，生成用于检索的特征向量；

(2.4)、按照步骤(2.1)-(2.3)所述方法，利用剩余输入图像生成检索的特征向量，再利用生成的特征向量构建出检索特征库；

(3)、根据待检索图像进行相同类别检索

按照步骤(1)-(2)所述方法，利用待检索图像生成用于检索的特征向量，再用该特征向量在检索特征库中进行相似性搜索，并返回检索结果；

(4)、根据待检索图像进行相同物体检索

(4.1)、利用相同物体检索算法提取待检索图像的特征，再利用该特征在检索特征库中进行相似度初步检索，得到初步检索结果；

(4.2)、按照步骤(2.2)所述方法，提取待检索图像的全局CNN特征；

(4.3)、提取初步检索结果中相似度排名最高的n张图像，再按照步骤(1)所述方法，提取n张图的显著性区域；

(4.4)、按照步骤(2.2)所述方法，分别提取n张图像的显著性区域的全局CNN特征；

(4.5)、利用步骤(4.2)得到的全局CNN特征和步骤(4.4)得到的全局CNN特征计算相似性得分，再按照相似性得分大小进行降序排名，返回检索结果。

本发明的发明目的是这样实现的：

本发明一种基于显著性区域的图像检索方法，通过提取待检索图像的显著性区域，并对显著性区域进行描述和池化编码等处理，提取出待检索图像的局部CNN特征和全局CNN特征，再通过待检索图像的全局CNN特征和局部CNN特征在检索图片库中进行相同类别和相同物体的检索，提高了图像检索的准确性。

同时，本发明一种基于显著性区域的图像检索方法还具有以下有益效果：

(1)、本发明结合了传统局部特征通过提取待检索图像关键点来生成局部特征的策略，借鉴了图像描述的思想来实现；

(2)、本发明融合了全局CNN特征和局部CNN特征来进行相同类别检索，以及利用显著性区域进行重排序的方法进行相同物体检索，能够进一步提高图像检索的准确性。

附图说明

图1是基于显著性区域的图像检索方法流程图；

图2是CNN+RPN+LSTM模型示意图；

图3是全局CNN特征提取过程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

为了方便描述，先对具体实施方式中出现的相关专业术语进行说明：

CNN(Convolutional Neural Network)：卷积神经网络；

RPN(Region Proposal Network):区域定位网络；

LSTM(Long Short Time Memory)：长短时记忆网络；

ROI(Region of Interest):感兴趣区域；

FC(Fully Connect):全连接；MPoC(Max Pooling of Convolutional features)：最大值池化卷积特征；

SPoC(Sum Pooling of Convolutional features):和池化卷积特征。

图1是本发明基于显著性区域的图像检索方法流程图。

在本实施例中，如图1所示，本发明一种基于显著性区域的图像检索方法，包括以下步骤：

S1、提取输入图像的显著性区域

S1.1、将图像库中任意一幅图像作为输入图像，输入图像为RGB图像，且宽为W、高为H；在本实施例中，将图像库中所有的图像均处理成W＝H＝256，并一次作为CNN+RPN+LSTM模型的输入图像；

S1.2、利用CNN+RPN+LSTM模型提取输入图像的显著性区域；

S1.2.1、如图2所示，将输入图像输入至CNN网络，CNN网络将其变成C×W'×H'的特征图集合，其中，C表示特征图集合图像个数，W'×H'表示特征图集合中图像的宽和高；

在本是实施例中，C＝512，

S1.2.2、将特征图集合中的图像输入至RPN定位层，得到包含显著性区域的中心点信息(x,y)、显著性区域的宽和高(w,h)，以及区域评分和区域特征的显著性区域；

RPN定位层输入为CNN网络生成的C×W'×H'，根据这些特征图定位出感兴趣的区域，并从每一个区域中提取一个合适长度的表示。定位层的结构基于Faster R-CNN的思想，但是我们将Faster R-CNN中的ROI机制代替为双边插值法，这样就使得候选的感兴趣区域的边界可以后向传播，在训练过程中进行调整，RPN定位层输出三种信息：

①候选区域：一个B×4的矩阵包含着感兴趣区域的边界信息，即中心点信息(x,y)，(x,y)表示中心点坐标，候选区域的宽和高(w,h)；

②区域评分：一个B维的向量，对应着B个区域的可信度得分，拥有越高的可信度得分的区域，越有可能被选为显著性区域；

③区域特征：本层的输出为B×C×X×Y的特征流，每个区域被表示为C×X×Y的特征；

RPN层主要完成候选区域的定位，并根据区域得分对候选区域进行筛选，剩下的区域便是提取的显著性区域；

S1.3、同理，按照步骤S1.2所述方法，可以提取出图像库中其余输入图像的显著性区域；

S2、构建检索特征库

S2.1、提取输入图像的局部CNN特征；

在传统的图像检索任务里，局部特征比全局特征表现出更大的优势，更能描绘图片细节信息以及尺度不变、旋转不变、亮度不变等特性。Sift特征是一种非常常见的局部描述子，它通过关键点检测和关键点描述等几个步骤，将图像信息凝聚成128维的特征向量。鉴于sift的优秀特性，本实施例通过利用深度学习关于图像理解的相关理论和模型，提取图像的显著性区域并对其描述和池化编码，生成类似于sift的局部特征。

S2.1.1、利用显著性区域的区域特征生成特征矩阵；

在本实施例中，识别网络实际是一个全连接神经网络，用来处理来自定位层的区域特征。每个C×X×Y的区域特征首先被展开成一个向量，然后通过两层全连接层，其中，全连接层中包含ReLU(rectified linear units)激活函数和Dropout规则化。最终每个区域特征被编码成D＝4096维的特征向量，所挑选出的显著性区域的特征向量形成一个B×D维的矩阵。

S2.1.2、基于和采样的池化编码，得到局部CNN特征；

识别网络是一个全连接网络，它可以对特征进行初步编码，得到B×4096维的特征，要将其应用到图像检索任务中，还需要对其进行编码。接下来，我们使用和采样算法对其进行进一步编码。

1)、计算特征矩阵中每一维特征在所有显著性区域的和F′_k

其中，

表示第i个显著性区域的第k维特征；

2)、计算显著性区域的局部CNN特征F_k；

S2.2、提取输入图像的全局CNN特征

下面结合图3，我们对输入图像依次进行预训练、微调和特征提取的具体过程进行描述，具体为：

1)预训练：利用ILSVRC2012图像分类任务中的训练数据集ImageNet(120万张图像，1000个类别)对CNN模型进行预训练。本文采用的VGG模型是现在最常用的CNN模型，它采用了和Alexnet基本相同的网络框架，只是通过深度替换宽度策略将每一层变得更深。它包含5个group的卷积(每个group包含不同数量的3*3卷积层、1个ReLU激活层和1个2*2的最大值池化层)、2层全连接层、一层分类层。它可以看做和Alexnet一样总共8个部分，只是每个卷积部分变得更深。

2)微调：通常情况下图像检索任务所使用的图像集与ImageNet数据集还是存在比较大的差异的，无论是类别数量还是图像内容。如果直接使用预训练好的CNN模型对目标任务的效果会有一定的影响。在目标图像集的检索任务中，采用预训练好的CNN模型的目的仅仅是使模型的实际训练阶段更好的收敛。所以，为了使CNN模型更好地适用于目标任务，还需要使用目标图像集对预训练好的CNN模型参数进行微调。微调的基本过程为：假设目标图像集的类别数目为c，由于ImageNet是包含1000个类别的图像数据集，此时CNN模型的softmax分类层的神经元数量为1000，我们需要将它改为c，并对全连接的网络参数进行具有高斯分布的随机初始化。对于全连接层之前的隐藏层，则直接使用同预训练之后相同的参数。最后适当增大学习率，减小迭代次数，使用目标数据集对网络进行训练。

3)特征提取：CNN模型中主要有两种类型的网络层，分别为卷积层和池化层。卷积层通过多个卷积核对输入信息进行卷积从而提取不同的图像信息，池化层对输入信息进行池化采样，最后通过激活函数对输入的特征进行非线性抽象。原始图像进入CNN模型中，依次经过多层的卷积、池化和非线性变换向前传播，图像信息也不断地抽象。最终的输出特征也由局部的细节特征逐渐抽象成高层语义信息。因此，CNN模型越靠近全连接层的特征包含越多的高层语义信息，越靠近输入的卷积层特征则包含越多的低层细节信息。我们可以提取VGG网络的全连接层(FC6层)信息作为图像的全局CNN特征。

S2.3、利用PCA和L2规则化对局部CNN特征和全局CNN特征进行降维和融合，生成用于检索的特征向量；

S2.4、按照步骤S2.1-S2.3所述方法，利用剩余输入图像生成检索的特征向量，再利用生成的特征向量构建出检索特征库；

S3、根据待检索图像进行相同类别检索

按照步骤S1-S2所述方法，利用待检索图像生成用于检索的特征向量，再用该特征向量在检索特征库中进行相似性搜索，并返回检索结果；

在本实施例中，采用融合全局CNN特征和局部CNN特征的算法用于相同类别检索，在这部分中，我们提出的基于显著性区域的局部CNN特征是为了改进CNN全局特征不能考虑图片中的局部细节的缺点。

S4、根据待检索图像进行相同物体检索

S4.1、利用相同物体检索算法提取待检索图像的特征，再利用该特征在检索特征库中进行相似度初步检索，得到初步检索结果；

在本实施例中，相同物体检索算法选用Crow算法，来自于论文《Cross-Dimensional Weighting for Aggregated Deep Convolutional Features》，此算法可以通过对特征图进行空间加权和通道加权生成特征向量，用于相同物体检索任务中；

S4.2、按照步骤S2.2所述方法，提取待检索图像的全局CNN特征；

S4.3、提取初步检索结果中相似度排名最高的n张图像，再按照步骤S1所述方法，提取n张图的显著性区域；

S4.4、按照步骤S2.2所述方法，分别提取n张图像的显著性区域的全局CNN特征；

S4.5、利用步骤S4.2得到的全局CNN特征和步骤S4.4得到的全局CNN特征计算相似性得分，再按照相似性得分大小进行降序排名，返回检索结果。

仿真验证

本实施例中，使用Caltech 101和Caltech 256数据集对相同类别检索进行实验验证，并计算平均检索准确率：

1、Caltech 101：包含102类共9145张图片，所有的图片都带有一个类别标签。每一类大约有40到800张图片，每幅图片的尺寸300x 200。

2、Caltech 256：包含257类共30607张图片，所有的图片都带有一个类别标签，每一类至少有80张图片，每幅图片的尺寸不等，在本次试验中，先将其先进行尺寸调整，全部变为256x 256的图片。

然后，本文使用Oxford Buildings和Paris Buildings数据集对相同物体检索任务进行实验验证：

1、Oxford Buildings数据集：为牛津大学的VGG小组公布的数据集，并被大多数从事相同物体图像检索的研究人员所采用，此数据集包含5062张图片，是对牛津大学中的建筑物的图片采集。这五千张图片主要涵盖了11个不同的建筑物，该数据集还提供了55张查询图片，查询图片中只包含了具体的需要查询的建筑物。

2、Paris Buildings数据集：这也是被广泛应用的一个实体检索的数据集，该数据集包含了6412张图片，涵盖了巴黎一些标志性的建筑物图片。与oxfordbuilding数据及类似，此数据集同样提供了12张查询图片以及相应的查询标准来供研究者直接使用。

相同类别检索结果分析

按照本发明所提供方法，使用图像检索任务中常用的分级评价标准来计算平均检索准确率。对于任意一张查询图片，假设其返回10张检索结果，对第k个返回结果，它的准确率的计算方式为：

其中，Rel(i)∈{0,1}，当返回图片与查询图片属于同一类别时表示返回结果正确，其值为1；否则其值为0，对所有正确的结果求平均，就可以得到每张查询图像的检索准确率，再对所有的查询图片的检索准确率求取平均值，可以得到平均检索准确率。对于每个数据集，随机抽取了总图片的5％作为检索图片，计算当返回10张查询结果时，对于每个数据集的平均检索准确率(％)。如表1所示。

表1是平均检索准确率对比结果；

	Caltech 101	Caltech 256
			传统的BoW模型	22.56	26.80
全局CNN特征	79.14	64.91
			本发明	80.67	67.37
本发明+查询扩展	80.07	70.05

表1

从表1可以看出，对于相同类别的图像检索来说，传统的图像检索算法如BoW检索准确率较低，而利用全局CNN特征进行检索具有较高的检索准确率，表现出了巨大的优势。利用本发明对相同类别图像检索的检索准确率有了进一步的提升，其中，在Caltech 101上，相比于全局CNN特征，本章算法的平均检索准确率提升了1.53％；在Caltech 256数据集上，检索准确率提升了2.46％，在添加查询扩展之后，准确率得到了进一步的提升，充分证明了本发明的精确性和有效性。

相同物体检索实验分析

按照本发明所提供的方法，使用Oxford和Paris数据集对相同物体检索任务进行实验验证。并与目前一些优秀的算法MPOC、SPoC和Crow进行比较，实验结果如表2所示。从表中可以看出本文的算法在一些优秀的算法上仍得到了提升。

相比于Crow，本发明在Oxford数据集上准确率提升了2.5％，在Paris数据集上准确率提升了0.23％。充分证明了本发明的有效性，并且，在添加查询扩展之后，准确率得到了进一步的提升。

表2是平均检索准确率对比结果；

	Oxford	Paris
			MPoC	0.524	0.701
SPoC	0.589	0.712
			Crow	0.6574	0.7347
本发明	0.6820	0.7370
			本发明+查询扩展	0.7034	0.7491

表2

实验表明，本发明提出的算法在相同类别检索和相同物体检索任务中都取得了较好的效果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于显著性区域的图像检索方法，其特征在于，包括以下步骤：

(1)、提取输入图像的显著性区域

(1.2)、利用CNN+RPN+LSTM模型提取输入图像的显著性区域；

(1.2.2)、将特征图集合中的图像输入至RPN定位层，得到包含显著性区域的中心点信息(x,y)、显著性区域的宽和高(w,h)，以及区域评分和显著性区域的区域特征；

(2)、构建检索特征库

(2.1)、提取输入图像的局部CNN特征；

(2.1.1)、利用显著性区域的区域特征生成特征矩阵；

(2.1.2)、基于和采样的池化编码，得到局部CNN特征；

1)、计算特征矩阵中每一维特征在所有显著性区域的和F_k'

其中，

表示第i个显著性区域的第k维特征；

2)、计算显著性区域的局部CNN特征F_k；

(2.2)、提取输入图像的全局CNN特征

(3)、根据待检索图像进行相同类别检索

(4)、根据待检索图像进行相同物体检索

2.根据权利要求1所述的基于显著性区域的图像检索方法，其特征在于，相同物体检索算法选用Crow算法。