CN110347854B

CN110347854B - 基于目标定位的图像检索方法

Info

Publication number: CN110347854B
Application number: CN201910511807.4A
Authority: CN
Inventors: 廖开阳; 袁晖; 郑元林; 曹从军; 章明珠; 邓轩
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2022-02-22
Anticipated expiration: 2039-06-13
Also published as: CN110347854A

Abstract

本发明公开的一种基于目标定位的图像检索方法，首先选择与图像检索数据库类似的训练图库进行手工标注，记录下数据库需要的目标区域的位置与尺寸信息，用标注好的训练图库对SSD目标检测模型进行训练，得到能够检测出目标区域的SSD模型，然后，根据得到的SSD目标检测模型提取查询图和测试图的特征向量，最后，计算得到的测试图像的特征向量与查询图像的特征向量的余弦距离衡量查询图像与测试图像的相似度，取最小的相似性得分作为该测试图的最终得分，将测试图库中所有图像得分进行排名得到检索结果。本发明公开的方法通过计算查询图和测试图特征向量的余弦相似性，提高图像检索的鲁棒性，检索精度高于明显高于现有方法。

Description

基于目标定位的图像检索方法

技术领域

本发明属于图像分析及检索方法技术领域，具体涉及一种基于目标定位的图像检索方法。

背景技术

随着智能手机及照相机的普及，图片数量在爆炸式增长的同时,其内容也愈发的丰富多彩，导致图片的干扰因素越来越多，这无疑增大了图像检索的难度。显然，若能针对性的提取出图像中的目标区域再进行图像检索必然能取得更好的效果。许多图像检索数据库，如Oxford数据库、Paris数据库的查询图像只包含简单的建筑物，而测试图像却是包含各种物体的复杂图像，我们希望能去除数据库图片中的车、树、人等干扰物，单独提取图片中的目标区域(建筑物)与查询图进行相似度比对，得出相似度排名。现在已经有许多是基于显著性区域的图像检索方法，但这些方法的区域定位精确度不够，因此对图像检索的性能提高不明显。

发明内容

本发明的目的是提供一种基于目标定位的图像检索方法，解决了现有技术由于图像的底层特征与高层语义之间存在语义鸿沟，不能准确反映出用户的检索意图，检索精度低的问题。

本发明所采用的技术方案是，一种基于目标定位的图像检索方法，具体操作过程包括如下步骤：

步骤1，训练SSD目标检测模型

选择与图像检索数据库类似的训练图库进行手工标注，记录下数据库需要的目标区域的位置与尺寸信息，用标注好的训练图库对SSD目标检测模型进行训练，得到能够检测出目标区域的SSD模型；

步骤2，根据步骤1得到的SSD目标检测模型提取查询图和测试图的特征向量；

步骤3，计算测试图相对于查询图的相似性排名

计算将步骤2得到的测试图像的特征向量与查询图像的特征向量的余弦距离衡量查询图像与测试图像的相似度，取最小的相似性得分作为该测试图的最终得分，将测试图库中所有图像得分进行排名得到检索结果。

本发明的其他特点还在于，

优选的，步骤1中训练SSD目标检测模型的具体过程如下：

步骤1.1，选择与检索目标相似的数据库，手动标注数据库图像的目标位置信息得到训练数据库；

步骤1.2，用制作好的训练数据库重新训练SSD目标检测模型，训练代码采用基于TensorFlow的开元python代码，调整代码中的各项参数使其与训练数据库相匹配，然后输入训练数据库进行训练，当损失函数趋于平稳则终止训练，保存该状态的SSD模型，得到训练好的SSD目标检测模型，该模型能够检测出需要的目标区域。

优选的，步骤2的过程如下：

查询图的特征向量提取：将查询图输入到卷积神经网络中得到卷积特征，对卷积特征进行sum-pooling和PCA-Whitening处理得到查询图的特征向量；

测试图的特征向量的提取包括两部分：一是测试图的全局特征向量，查询图的特征向量提取过程相同；二是测试图的区域特征向量，将测试图输入到训练好的SSD目标检测模型中得到需要的目标区域位置信息，将目标区域位置信息映射到卷积特征中，针对目标区域进行特征处理得到测试图的区域特征向量。

优选的，步骤2中的具体过程如下：

步骤2.1，使用AlexNet或VGG16卷积神经网络模型，将模型中的全连接层去除，使其最后输出层变为卷积层，将查询图和测试图分别输入到卷积神经网络模型中，输出询图和测试图对应的卷积特征；

步骤2.2，根据测试图目标位置信息提取测试图的区域卷积特征

将测试图输入到训练好的SSD目标检测模型中得到测试图的目标区域位置信息，将目标区域位置信息映射到卷积特征中，提取卷积特征，每个目标区域的区域卷积特征通过式(1)得到：

式中，X表示测试图的卷积特征，本质上是个三维矩阵；w和h分别表示卷积特征的长和宽；用a_i,b_i,c_i,d_i表示目标区域位置信息，一张测试图图输入到SSD目标检测模型后，输出多个目标区域；下标i表示第i个目标区域；X_i为第i个目标的区域卷积特征；由于特征图尺寸远小于原图尺寸，区域位置信息是对应于原图位置关系，因此，w×a_i向下取整，式中

表示对w×a_i向下取整；

步骤2.3，将步骤2.1和步骤2.2得到的卷积特征压缩成特征向量，由于卷积特征是三维特征，其数据量比较大，采用Sum-pooling和PCA-Whitening结合的方法将卷积特征转化为一维特征向量，特征向量x的计算公式如式(2)所示：

x＝Sum-pooling(X) (2)

式中，X表示三维的卷积特征，x表示池化后的特征向量；

步骤2.4，采用PAC-Whitening方法去掉特征向量之间的相关性得到查询图的特征向量、测试图的全局特征向量和测试图的区域特征向量，具体过程如下：

首先采用PCA法计算降维之后各个特征向量的方向，并计算原先的特征向量在新方向上投影的值，然后采用Whitening将PCA法处理后的每一维向量的方差变为1，具体如式(3)所示：

式中，x表示多个向量组合成的矩阵；U表示x的协方差矩阵，PCA法的关键之处在于计算协方差矩阵U；x_PCA表示用PCA处理x后得到的矩阵，i表示x_PCA中的第i个特征向量，

表示第i个特征向量的2范数。

优选的，步骤3的具体过程如下：

逐一测试图的全局特征向量和每个区域特征向量与查询图的特征向量余弦值，取最小值作为最终相似性得分，即就是选取与查询图的特征向量最为相似的测试图的特征向量作为测试图的表征向量，相似性得分的计算如式(4)所示：

sim(T,Q)＝min[cos(x₀,y),cos(x₁,y),...,cos(x_n,y)] (4)

式中，T和Q分别表示测试图像与查询图像；x_i表示测试图像的全局特征向量；x₁，x₂，…，x_n表示测试图区域特征向量；y表示查询图像的特征向量；

按照得到的相似性得分进行排序实现图像精确检索。

本发明的有益效果是，一种基于目标定位的图像检索方法，实现了目标定位和图像检索方法的融合，通过训练好的目标检测模型检测图像中的目标区域，再针对这些区域提取局部特征向量，选取与查询图最相近的局部特征作为原图的表征特征向量；通过余弦相似性进行排序检索，明显提高图像检索的鲁棒性；适合于视频检索领域，能大幅提高视频检索的精度；经过在多个数据库中评估了本发明的方法的性能，表明本发明的图像检索精度远高于近几年同类方法，将Paris6k和Oxford数据库的图像检索mAP分别提升到了90.3％和80.1％。

附图说明

图1本发明的一种基于目标定位的图像检索方法的框架图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明的一种基于目标定位的图像检索方法主要包括三个步骤，训练SSD目标检测模型、提取查询图和测试图的特征向量，计算测试图库相对于查询图的相似性排名。

训练SSD目标检测模型：首先选择与图像检索数据库类似的训练图库进行手工标注，记录下数据库需要的目标区域的位置与尺寸信息，例如Paris和Oxford图像检索数据库的查询图都是地标建筑物，因此在标注训练数据库时可以将图像中的建筑物作为目标区域，用标注好的训练图库对SSD目标检测模型进行训练，最终得到能够检测出目标区域的SSD模型。

提取查询图和测试图的特征向量：对于查询图，将查询图输入到卷积神经网络中得到卷积特征，再对卷积特征进行sum-pooling和PCA-Whitening处理得到查询图特征向量；测试图特征向量的提取分为两部分：一是测试图全局特征向量，其提取步骤和查询图特征向量一样；二是测试图区域特征向量，首先将测试图输入到训练好的目标检测模型中得到图中我们需要的目标位置信息，然后将目标区域位置信息映射到卷积特征中，针对目标区域进行特征处理得到测试图的区域特征向量。计算测试图库相对于查询图的相似性排名。选用余弦距离衡量查询图与测试图的相似度。由于测试图具有多个特征向量，因此相对于查询图，一张测试图能得到多个相似性得分。取最小的相似性得分作为该测试图的最终得分。将测试图库中所有图像得分进行排名得到检索结果。

从本发明的方法的输入输出来，本发明的输入包括三个图像库(训练图库、查询图库、测试图库)，输出测试图库相对于查询图库的检索mAP(平均精度均值)。

本发明的一种基于目标定位的图像检索方法，如图1所示，具体操作过程包括如下步骤：

步骤1，训练SSD目标检测模型

选择与图像检索数据库类似的训练图库进行手工标注，记录下数据库需要的目标区域的位置与尺寸信息，用标注好的训练图库对SSD目标检测模型进行训练，最终得到能够检测出目标区域的SSD模型；

步骤1中训练SSD目标检测模型的具体过程如下：

步骤1.1，选择与检索目标相似的数据库，手动标注数据库图像的目标位置信息得到训练数据库；例如，对于Oxford数据库这种建筑物数据库进行图像检索，可以选择包含建筑物图像较多的Paris数据库进行制作，标注出Paris数据库中所有建筑物在原图中的位置信息得到可用来训练目标检测模型的训练数据库。

步骤1.2，用制作好的训练数据库重新训练SSD目标检测模型，训练代码采用基于TensorFlow的开元python代码，调整代码中的各项参数使其与训练数据库相匹配，然后输入训练数据库进行训练，当损失函数趋于平稳则终止训练，保存该状态的SSD模型，得到训练好的SSD目标检测模型，该模型能够检测出需要的目标区域；

步骤2的过程如下：

步骤2的具体过程如下：

步骤2.1，使用AlexNet或VGG16卷积神经网络模型，下载开元的卷积神经网络模型代码，选择基于MatConvNet或Tensorflow工具包的代码，将模型中的全连接层去除，使其最后输出层变为卷积层，将查询图和测试图分别输入到卷积神经网络模型中，输出询图和测试图对应的卷积特征；

将测试图输入到训练好的SSD目标检测模型中得到测试图的目标区域位置信息，图1中3×4的矩阵表示图像通过目标检测模型获得的区域位置信息；将目标区域位置信息映射到卷积特征的特征图上，得到多个卷积特征子块，这些子块即为区域卷积特征；

得到目标区域的位置信息后，如何利用这些位置信息得到区域卷积特征是本发明的关键。有两种方式：一是将目标区域的位置信息直接映射到原图中，把原图裁剪成多个子图，分别提取每个子图的卷积特征作为区域卷积特征；二是将目标区域位置信息映射到卷积特征的特征图上，得到多个卷积特征子块，这些子块即为区域卷积特征。若采用第一种方式，对于一张测试图，需要多次提取卷积特征，这样大大增长了检索时间，因此方式一不能满足快速检索的要求。卷积特征在一定程度上保留了原图的空间信息，而且在提取卷积特征步骤阶段，输入图像时并没有调整图像尺寸，输出的特征图长宽比和原图近乎一样，因此可以认为目标区域信息映射到卷积特征上和映射到原图上效果是一样的，因此采用方式二提取区域卷积特征。

将目标区域位置信息映射到卷积特征中，提取区域卷积特征，每个目标区域的区域卷积特征可以用公式如式(1)计算：

表示对w×a_i向下取整；

步骤2.3，将步骤2.1和步骤2.2得到的卷积特征压缩成特征向量，由于卷积特征是三维特征，其数据量比较大，为了方便比较各个特征之间的相似性，需要将所有的卷积特征转换为一维的特征向量，采用Sum-pooling和PCA-Whitening结合的方法将卷积特征转化为一维特征向量，先使用Sum-pooling方法处理卷积特征，特征向量x的计算公式如式(2)所示：

x＝Sum-pooling(X) (2)

式中，X表示三维的卷积特征，x表示池化后的特征向量；简单来说，就是将卷积特征的特征图中所有元素相加，使每个通道只得到一个元素来表示该通道的性质。最后的结果是特征向量x的长度等于卷积特征X的通道数；

获得的特征向量具有简约性和不相关性，因此，需要采用PAC-Whitening方法使得特征向量变得简约且去掉特征向量之间的相关性。PCA-Whitening计算分为PCA(主成分分析)和Whitening(白化)两部分。PCA的计算过程主要分为两步，一是计算降维之后各个向量的方向，二是计算原先的向量在新方向上投影的值；首先采用PCA法计算降维之后各个特征向量的方向，并计算原先的特征向量在新方向上投影的值，然后采用Whitening将PCA法处理后的每一维向量的方差变为1，具体如式(3)所示：

表示第i个特征向量的2范数。

步骤3，计算测试图相对于查询图的相似性排名

余弦距离，也称为余弦相似度，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异大小的度量。余弦距离更多的是从方向上区分差异，而对绝对的数值不敏感，更多的用于使用户对内容评分来区分兴趣的相似度和差异，同时修正了用户间可能存在的度量标准不统一的问题(因为余弦距离对绝对数值不敏感)。将全局特征向量看成是多维空间中有方向的线段，如果两个向量的方向一致，即夹角接近零，那么可以认为这两个向量相近；而要确定两个向量方向是否一致，这就要用到余弦定理计算向量的夹角。因此，可以使用余弦距离来判别两个特征向量之间的相似性。

在步骤2.4之后会一张查询图会产生1个特征向量，而一张测试图会产生多个特征向量(一个全局特征向量和一个区域特征向量)，因此，需要逐一求多个测试图特征向量与查询特征向量的余弦值，选取最小值作为最终相似性得分，换言之就是选取与查询图特征向量最为相似的测试图特征向量作为测试图的表征向量；

计算将步骤2得到的测试图像的特征向量与查询图像的特征向量的余弦距离衡量查询图像与测试图像的相似度，取最小的相似性得分作为该测试图的最终得分，将测试图库中所有图像得分进行排名得到检索结果；

步骤3的具体过程如下：

sim(T,Q)＝min[cos(x₀,y),cos(x₁,y),...,cos(x_n,y)] (4)

按照得到的相似性得分进行排序实现图像精确检索。

实施例

进行仿真实验，分别在四个标准图像检索数据库(Paris6k，Oxford5k，Paris106k，Oxford105k)上评估了本发明的性能。Paris6k为建筑物数据库，该数据库包含了各种游客拍摄的巴黎地标建筑的图片，总共5062张，其中，查询图像为55张，分为11类建筑物，每类建筑物图像5张。Oxford5k为建筑物数据库包含了在牛津大学拍摄的各种图像，总共6412张，其中查询图像55张，也分为11类，每类图像5张。这两个数据库的查询图都标注了其对应的感兴趣区域。为了扩大评估场景的范围，本发明分别在Paris6k和Oxford5k数据库中加入100k张不相关图，形成扩展数据库Paris106k和Oxford105k，并在这两个数据库中评估方法的性能。扩张数据库的查询图和其原数据库的查询图像一致。

神经网络模型方面，目标检测模型选用SSD模型，并使用手工标注的建筑物数据库对其重新训练，使其能准确检测出图像中的建筑物位置与尺寸。选择在ImageNet数据库上训练用于图像分类的VGG16(卷积神经网络模型)进行卷积特征的提取。在VGG16上提取的卷积特征有512个通道，处理后的表征向量为512维。

表1与同类方法的比较

评估方法方面，使用mAP(平均精度均值)进行性能评估。根据标准做法，在Paris6k，Paris106k，Oxford5k，Oxford105k数据库上进行评估时，我们输入查询图的感兴趣区域进行图像检索，而且查询图包含该在测试图库中，所有数据库输入CNN的图像分辨率限制在1024×1024。

表1为本发明的方法与现有方法的图像检索结果的对比，从表中可以看出，本发明的检索精度上要远远领先于现有的其他方法。

Claims

1.一种基于目标定位的图像检索方法，其特征在于，具体操作过程包括如下步骤：

步骤1，训练SSD目标检测模型

选择与图像检索数据库类似的训练数据库进行手工标注，记录下训练数据库需要的目标区域的位置与尺寸信息，用标注好的训练数据库对SSD目标检测模型进行训练，得到能够检测出目标区域的SSD模型；

所述步骤2的过程如下：

测试图的特征向量的提取包括两部分：一是测试图的全局特征向量，与查询图的特征向量提取过程相同；二是测试图的区域特征向量，将测试图输入到训练好的SSD目标检测模型中得到需要的目标区域位置信息，将目标区域位置信息映射到卷积特征中，针对目标区域进行特征处理得到测试图的区域特征向量；

所述步骤2中的具体过程如下：

步骤2.1，使用AlexNet或VGG16卷积神经网络模型，将模型中的全连接层去除，使其最后输出层变为卷积层，将查询图和测试图分别输入到卷积神经网络模型中，输出查询图和测试图对应的卷积特征；

式中，X表示测试图的卷积特征，本质上是个三维矩阵；w和h分别表示卷积特征的长和宽；用a_i,b_i,c_i,d_i表示目标区域位置信息，一张测试图输入到SSD目标检测模型后，输出多个目标区域；下标i表示第i个目标区域；X_i为第i个目标的区域卷积特征；由于特征图尺寸远小于原图尺寸，区域位置信息是对应于原图位置关系，因此，w×a_i向下取整，式中

表示对w×a_i向下取整；

步骤2.3，将步骤2.1和步骤2.2得到的卷积特征压缩成特征向量，由于卷积特征是三维特征，其数据量比较大，采用Sum-pooling方法将卷积特征转化为一维特征向量，特征向量x的计算公式如式(2)所示：

x＝Sum-pooling(X) (2)

式中，X表示三维的卷积特征，x表示池化后的特征向量；

式中，x′表示多个池化后的特征向量组合成的矩阵；U表示x′的协方差矩阵；PCA法的关键之处在于计算协方差矩阵U；x_PCA表示用PCA处理x′后得到的矩阵，x_PCA,i表示x_PCA中的第i个特征向量，

表示第i个特征向量的2范数；x_PCAwhite,i表示将x_PCA中的第i个特征向量进行Whitening处理得到的结果；

步骤3，计算测试图相对于查询图的相似性排名；

计算将步骤2得到的测试图像的特征向量与查询图像的特征向量的余弦距离，衡量对比查询图像与测试图像的相似度，取最小的相似性得分作为该测试图的最终得分，将测试图库中所有图像得分进行排名得到检索结果。

2.如权利要求1所述的一种基于目标定位的图像检索方法，其特征在于，所述步骤1中训练SSD目标检测模型的具体过程如下：

步骤1.1，选择与检索目标相似的训练数据库，手动标注训练数据库图像的目标位置信息得到训练数据库；

步骤1.2，用制作好的训练数据库重新训练SSD目标检测模型，训练代码采用基于TensorFlow的开源python代码，调整代码中的各项参数使其与训练数据库相匹配，然后输入训练数据库进行训练，当损失函数趋于平稳则终止训练，保存该状态的SSD模型，得到训练好的SSD目标检测模型，该模型能够检测出需要的目标区域。

3.如权利要求1所述的一种基于目标定位的图像检索方法，其特征在于，所述步骤3的具体过程如下：

逐一对比测试图的全局特征向量和每个区域特征向量与查询图的特征向量余弦值，取最小值作为最终相似性得分，即就是选取与查询图的特征向量最为相似的测试图的特征向量作为测试图的表征向量，相似性得分的计算如式(4)所示：

sim(T,Q)＝min[cos(x₀,y),cos(x₁,y),...,cos(x_n,y)] (4)

式中，T和Q分别表示测试图像与查询图像；x₁，x₂，…，x_n表示测试图区域特征向量；y表示查询图像的特征向量；x₀表示测试图像的全局特征向量；

按照得到的相似性得分进行排序实现图像精确检索。