CN109857889B

CN109857889B - 一种图像检索方法、装置、设备及可读存储介质

Info

Publication number: CN109857889B
Application number: CN201811559328.1A
Authority: CN
Inventors: 沈文超; 邹文艺; 晋兆龙
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2021-04-09
Anticipated expiration: 2038-12-19
Also published as: CN109857889A

Abstract

本发明公开了一种图像检索方法，该方法包括以下步骤：获取待检索的目标图像，将目标图像输入目标深度学习模型；利用目标深度学习模型对目标图像进行特征提取，获得目标图像的图像特征；图像特征包括全局特征、局部特征和多尺度全局特征，多尺度全局特征为将全局特征提取过程中产生的多个中间阶段特征进行加权计算后获得的特征；利用图像特征，按照距离计算规则，分别计算目标图像与图像库中各个图像的相似距离；利用相似距离，确定并输出目标图像的相似图像。该方法，可以提高图像检索的准确率。本发明还公开了一种图像检索装置、设备及可读存储介质，具有相应的技术效果。

Description

一种图像检索方法、装置、设备及可读存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像检索方法、装置、设备及可读存储介质。

背景技术

图像检索被广泛应用于行人重识别、车辆识别和网站的图像搜索和电子商务的商品检索。

目前，对于图像检索，有两大问题，一是如何提取更具区分性的特征描述子来描述图像，二是如何有效的度量特征与特征间的相似性。例如，车辆图像检索属于车辆再识别问题，该问题建立在目标检测之上，检测器把目标物体在图像中的位置和大小用包围框界定并提取出来，以此作为再识别技术的数据源，通过输入待识别的图像，系统在图像库中检索出与该图像同一身份的图像。由于不同的车辆具有大致相同的外观，这便减少了车辆与车辆之间的区别性，此外摄像头捕获到的图像还会受到光线、视角、杂乱的背景、低分辨率以及视线遮挡等影响，使得同一辆车具有多种状态，因此难以准确地提取出车辆图像的特征描述子。基于不准确的特征描述子进行车辆图像检索，其检索准确率难以满足检索需求。

综上所述，如何有效地解决图像检索的准确率等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种图像检索方法、装置、设备及可读存储介质，以提高图像检索的准确率。

为解决上述技术问题，本发明提供如下技术方案：

一种图像检索方法，包括：

获取待检索的目标图像，将所述目标图像输入目标深度学习模型；

利用所述目标深度学习模型对所述目标图像进行特征提取，获得所述目标图像的图像特征；所述图像特征包括全局特征、局部特征和多尺度全局特征，所述多尺度全局特征为将全局特征提取过程中产生的多个中间阶段特征进行加权计算后获得的特征；

利用所述图像特征，按照距离计算规则，分别计算所述目标图像与图像库中各个图像的相似距离；

利用所述相似距离，确定并输出所述目标图像的相似图像。

优选地，所述局部特征提取过程，包括：

对所述目标图像进行全局特征提取时，对目标池化层输出的特征图进行分支，获得原始局部特征图；

对所述原始局部特征图进行池化和全连接处理，获得所述局部特征。

优选地，所述对目标池化层输出的特征图进行分支，获得原始局部特征图，包括：

对所述特征图分别进行横向分割和纵向分割，获得原始局部特征图；所述原始局部特征图包括原始上部特征图、原始下部特征图、原始左部特征图和原始右部特征图。

优选地，在所述距离计算规则为余弦距离计算规则时，利用所述图像特征，按照距离计算规则，分别计算所述目标图像与图像库中各个图像的相似距离，包括：

利用所述图像特征，分别计算所述目标图像与图像库中各个图像的余弦距离；

将所述余弦距离作为所述相似距离。

优选地，利用所述相似距离，确定并输出所述目标图像的相似图像，包括：

对所述相似距离进行降序排列，选择所述相似距离在指定序号前的图像作为所述相似图像。

优选地，在所述距离计算规则为欧式距离计算规则时，利用所述图像特征，按照距离计算规则，分别计算所述目标图像与图像库中各个图像的相似距离，包括：

利用所述图像特征，分别计算所述目标图像与图像库中各个图像的欧式距离；

将所述欧式距离作为所述相似距离。

对所述相似距离进行升序排列，选择所述相似距离在指定序号前的图像作为所述相似图像。

一种图像检索装置，包括：

目标图像获取模块，用于获取待检索的目标图像，将所述目标图像输入目标深度学习模型；

图像特征提取模块，用于利用所述目标深度学习模型对所述目标图像进行特征提取，获得所述目标图像的图像特征；所述图像特征包括全局特征、局部特征和多尺度全局特征，所述多尺度全局特征为将全局特征提取过程中产生的多个中间阶段特征进行加权计算后获得的特征；

相似距离计算模块，用于利用所述图像特征，按照距离计算规则，分别计算所述目标图像与图像库中各个图像的相似距离；

相似图像确定模块，用于利用所述相似距离，确定并输出所述目标图像的相似图像。

一种图像检索设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述图像检索方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述图像检索方法的步骤。

应用本发明实施例所提供的方法，获取待检索的目标图像，将目标图像输入目标深度学习模型；利用目标深度学习模型对目标图像进行特征提取，获得目标图像的图像特征；图像特征包括全局特征、局部特征和多尺度全局特征，多尺度全局特征为将全局特征提取过程中产生的多个中间阶段特征进行加权计算后获得的特征；利用图像特征，按照距离计算规则，分别计算目标图像与图像库中各个图像的相似距离；利用相似距离，确定并输出目标图像的相似图像。

在获取到待检索的目标图像之后，可将目标图像输入至目标深度学习模型中。然后，利用目标深度学习模型对目标图像进行特征提取，如此，便可获得目标图像的图像特征，特别地，该图像特征包括全局特征、局部特征和多尺度全局特征。其中，全局特征即为目标图像的整体特征，局部特征即为目标图像的区域特征，而中间结果特征，为将全局特征提取过程中产生的多个阶段特征进行加权计算后获得的特征。具体的，中间结果特征即为融合多尺度的特征图来提取全局特征，充分利用全局特征提取过程中各阶段特征输出信息。多尺度全局特征是对全局特征和局部特征的一种有效补充。将全局特征、局部特征和多尺度全局特征来表征目标图像，可提高表征能力。得到更为准确的表征目标图像的图像特征之后，便可利用图像特征，按照距离计算规则，分别计算目标图像与图像库中各个图像的相似距离。然后，利用相似距离，确定并输出目标图像的相似图像。由于用于计算相似距离的图像特征能更好地表征目标图像，因此，基于该图像特征计算出的相似结果所确定出相似图像的方式进行图像检索，则可提高图像检索的准确率。

相应地，本发明实施例还提供了与上述图像检索方法相对应的图像检索装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种图像检索方法的实施流程图；

图2为本发明实施例中一种目标深度学习模型的网络结构示意图；

图3为本发明实施例中一种图像检索方法的具体实施例流程图；

图4为本发明实施例中一种车辆图像检索结果示意图；

图5为本发明实施例中一种图像检索装置的结构示意图；

图6为本发明实施例中一种图像检索设备的结构示意图；

图7为本发明实施例中一种图像检索设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参考图1，图1为本发明实施例中一种图像检索方法的流程图，该方法包括以下步骤：

S101、获取待检索的目标图像，将目标图像输入目标深度学习模型。

在本发明实施例中，可以预先设置一个目标深度学习模型，该模型具体为可对图像进行特征提取的模型，特征是指可提取图像的全局特征和局部特征的模型。如，目标深度学习模型可为基于深度神经网络(如VGG-16)的模型，深度神经网络具备自动学习图像的特征，避免了人工干预以及特征选取依赖人员水平和经验的问题，同时基于深度学习，能够提取图像更多特征信息，包括全局特征和局部特征。另外，在本发明实施例中，对于该深度神经网络，还可再进行训练，使之能够在全局特征上使用多尺度的特征输出训练网络，来获取全局更细粒度的信息；而在局部特征上，针对输入图像的特征区域，分为若干个局部特征区域。通过训练网络便可以得到目标深度学习模型。

由于，深度神经网络，可以充分得到图像鲁棒性较强的特征信息；在以上思想基础上，可采用本发明实施例中新提出的网络结构MSRR-Net(Multi-scale and RegionRepresentation Net)。请参考图2，图2为本发明实施例中一种目标深度学习模型的网络结构示意图。该目标深度学习模型共有两个模块，分别用于多尺度全局特征学习和局部特征的学习。

具体的，可通过接收检索请求的方式，获得待检索的目标图像，也可以通过从存储介质中读取预先存储的图像的方式，获得待检索的目标图像。该目标图像可以为任意一个图像，如物品图像，行人图像或风景图像等常见图像均可。得到目标图像之后，便可将目标图像输入至目标深度学习网络中。

S102、利用目标深度学习模型对目标图像进行特征提取，获得目标图像的图像特征。

图像特征包括全局特征、局部特征和多尺度全局特征，多尺度全局特征为将全局特征提取过程中产生的多个中间阶段特征进行加权计算后获得的特征。

利用目标深度学习模型对目标图像进行特征提取，可获得包括全局特征、局部特征和多尺度全局特征的图像特征。请参考图2所示目标深度学习模型的结构，下面结合图2所示的目标深度学习模型，对图像特征的提取进行详细说明：

全局特征提取过程，包括：

即目标深度学习模型利用各个处理层，对目标图像依次进行特征提取或进行特征处理，最终通过全连接层得到全局特征。

多尺度全局特征提取过程，包括：

将全局特征提取过程中产生的多个中间阶段特征进行收集，中间阶段特征可具体为第4层的卷积结果，第5层的池化结果，第7层的卷积结果。当然，还可选用其他中间层的输出结果，需要注意的是，在选择中间的输出结果时，优选靠后的中间层输出结果。得到若干个中间阶段特征之后，便可按照预先设置的加权值，对多个中间阶段特征进行加权计算。例如，经过四次卷积后即conv4_3输出得到stage-1阶段的特征图，然后再次卷积，池化即pool5后得到stage-2特征输出，再经两次卷积后即conv7(fc7)得到stage-3的特征输出，由于使用了不同尺度的特征，因此融合的时候需要把多个尺寸的特征统一到同一大小，此外考虑到不同阶段的贡献，引入权重系数，即λ₁，λ₂，λ₃且

分别对应于stage-1(第4层的卷积结果)，stage-2(第5层池化结果)，stage-3(第7层卷积结果)，最后融合各阶段特征经全局平均池化和全连接后便可获得多尺度全局特征(如图2所示的Softmax-pt、Softmax-pb、Softmax-pl和Softmax-pr)。

局部特征提取过程，包括：

步骤一、对目标图像进行全局特征提取时，对目标池化层输出的特征图进行分支，获得原始局部特征图；

步骤二、对原始局部特征图进行池化和全连接处理，获得局部特征。

为了便于描述，下面将上述两个步骤结合起来进行说明。

提取局部特征时，可对目标图像进行全局特征提取时，将目标池化层(图示第五层)的输出结果，即池化层输出的特征图进行分支，即对特征图进行分割，如此，便可得到原始局部特征图。优选地，在对特征图进行分支时，还可根据检索的目标图像类别不同，设置不同的分割方式。具体的，若目标图像区别于其他图像的特征在图像四周，则可切割出特征图的四周，并将四周的部分作为原始局部特征图；若目标图像区别于其他图像的特征在图像中央，则可切割出特征图的中央部分，并将中央部分作为原始局部特征图；若目标图像区别于其他图像的特征在图像的多个区域，则可将图像切割为多个区域，并分别将多个区域作为原始局部特征图。以车辆图像为例，局部特征作为全局的一种补充，能够显著提高车辆图像检索的准确率，局部区域主要是对车辆的局部特征区域划分，相比行人图像检索，道路卡口拍摄的车辆图像拥有良好的对齐性，因此根据车辆语义信息将车辆图像划分为四个部件，分为上下左右四个区域：R_t，R_b，R_l，R_r，R_t对应车辆顶部特征，如天窗；R_b对应车头部分的特征，如车灯；R_l、R_r分别对应车的左右两侧部分，涵盖车门以及后视镜区域。具体的，即在对目标池化层的特征图进行分支时，可对特征图分别进行横向分割和纵向分割，获得原始局部特征图；原始局部特征图包括原始上部特征图、原始下部特征图、原始左部特征图和原始右部特征图。即，将特征图划分为上、下、左、右四个局部区域，每个区域部分经过池化和全连接后单独训练分类任务，最终得到车辆局部特征信息。

S103、利用图像特征，按照距离计算规则，分别计算目标图像与图像库中各个图像的相似距离。

得到图像特征之后，便可利用该图像特征，按照距离计算规则，分别计算目标图像与图像库中各个图像的相似距离。

具体的，该距离计算规则可与相似距离的定义匹配。具体的，若采用诸如余弦距离来表示相似距离，则该距离计算规则即为余弦距离的计算规则；若采用诸如欧式距离来表示相似距离，则该距离计算规则即为欧式距离的计算规则。

下面分别以余弦距离和欧式距离来表示相似距离为例，详细说明相似距离的计算过程。

首先，若将多尺度全局特征表示为f_concat，全局特征表示为f_g以及局部区域特征表示为f_p，其中局部特征f_p包括[f_l；f_r；f_t；f_b]，联合各个特征得到最终的图像特征表示[f_concat；f_g；f_p]。假设目标图像的特征为V₁＝(x₁，x₂，x₃，…，x_n)，图像库中的一个待选图像的图像特征为V₂＝(y₁，y₂，y₃，…，y_n)。相似距离的计算方式包括：

相似距离计算方式一：

在距离计算规则为余弦距离计算规则时，利用图像特征，分别计算目标图像与图像库中各个图像的余弦距离；将余弦距离作为相似距离。具体的，基于余弦距离计算目标图像和待选图像的相似距离为

值越大代表两图像越相似。

相似距离计算方式二：

在距离计算规则为欧式距离计算规则时，利用图像特征，分别计算目标图像与图像库中各个图像的欧式距离；将欧式距离作为相似距离。具体的，使用欧式距离计算目标图像和待选图像的相似距离为：

值越小代表两图像越相似。

需要说明的是，在本发明的其他实施例中，还可采用上述两种相似距离计算方式不同的过程，即在计算过程中将考虑目标图像的三个特征即可。一次计算出目标图像与图像库中每一个图像之间的相似距离之后，即若图像库中有n个图像，则计算出n个相似距离，便可执行步骤S104的操作。当然，在计算相似距离时，若图像库数据量较大，可以预先将图像库中的待选图像进行分类，例如，将其分为人物图、风景图、结构图等，在检索目标图像时，仅计算与目标图像同类别的待选图像之间的相似距离。

S104、利用相似距离，确定并输出目标图像的相似图像。

图像检索时，其目的是挑选出与目标图像最为相似的图像。基于此思想，在利用相似距离确定目标图像的相似图像时，则按照相似距离的计算方式不同，将相似距离进行升序或降序排列之后，选择相似度最大的图像。

具体的，若该相似距离为类似余弦距离的表征形式时，则可对相似距离进行降序排列，选择相似距离在指定序号前的图像作为相似图像。由于余弦距离的值越大，则相似度越高，则选择相似距离排序靠前的待选图像即可。当然，若是以升序排列，则选择序号尾端的待选图像即可。另外，相似图像的数量可预先确定，也可根据实际情况进行确定和调整。例如，可设置数量为10，也可在检索目标图像时，指定输出相似图像的数量，仅需在筛选时，选择该数量的图像即可。

若该相似距离为类似欧式距离的表述形式时，则可对相似距离进行升序排列，选择相似距离在指定序号前的图像作为相似图像。欧式距离越大，则表明相似度越低，因此，若诸如欧式距离的方式表征相似距离，则在选取相似图像时，与余弦距离形式表征的相似距离相反即可，在此不再赘述具体实现过程。

实施例二：

为了便于本领域技术人员更好地理解本发明实施例所提供的图像检索方法，下面以训练如图2所示的目标深度学习模型，以及基于训练后的目标深度学习模型对车辆图像进行检索的过程中，实施本发明实施例所提供的图像检索方法为例，进行详细说明。

车辆检索的基本流程为：训练网络、查询图像和库图像特征提取、相似性度量、返回检索结果，具体介绍如下：

其中，用于训练和测试的数据集采用VehicleID，该训练集包含13164辆车的113346幅图像，且训练时图像大小为224x224x3，测试集包括800辆车辆的6493幅图像，并随机抽取每辆车一幅图像作为查询图像，余下的为库图像。

目标深度学习模型的网络结构如图2所示，网络的基础架构采用VGG-16，主要分两块，一是全局多尺度特征学习和全局部分的学习，多尺度用于提取各个阶段的较全局更细粒度的特征表示，全局部分是在最后的全连接层提取全局的特征表示；二是局部特征信息的学习，涵盖四个局部区域：part_T，part_B，part_L和part_R，通过每个局部区域的单独训练学习来表征局部区域信息；同时在网络结构设计方面，上半部分包括全局多尺度和全局特征学习，下半部分是局部特征学习。该网络结构相比以往需要对特征的输出进行诸如聚类，特征二值化等操作，该结构没有过于复杂的中间处理步骤，方便实现，易于训练。

训练网络时可分两个阶段进行：

第一阶段，训练多尺度全局和全局阶段，对VGG-16的修改主要有：

(1)fc6和fc7修改为1x1的卷积；

(2)fc7之后添加NormalizationL2层对fc7的输出归一化处理；

(3)fc8输出修改为对应数据集车辆ID号数目；

(4)对多尺度学习部分，特征融合后添加pool/gap和一个全连接层fconcat。

训练全局特征的改变不大，主要使用fc8的输出，训练分类即可，对于多尺度的全局学习，则是联合conv4-3，pool5，conv7(fc7)的特征输出，然后经过全局平均池化和一个全连接层后输出训练，训练开始时使用VGG在ImageNet上预训练模型训练一个多分类任务，并记损失函数Softmax loss为

其中，e为自然常数(如约为2.71828，类似于π＝3.1415926)，y_i表示第i个样本标签的取值，W表示对应的样本输入下学习到的参数矩阵，T为矩阵的转置，b_k为对应样本k输入下学习到的偏置项参数，f_i为对应批次i下的训练样本，N为训练的批量大小(batch size)，C表示分类的类别数，也即车辆ID数目，训练完成该网络得到第一阶段的模型。

第二个阶段，局部区域特征的训练，在第一个阶段的基础上为网络添加局部区域的学习，即在pool5之后分成4个分支，part_T，part_B，part_L和part_R分别是对pool5输出结果划分子区域，即上、下、左、右四个特征区域。然后，对每个区域单独训练并基于第一阶段训练得到的模型微调整个网络，最终整体网络的目标函数表示为：L_MSRR＝l_{multi_scale}+l_global+α(l_pl+l_pr)+βl_pt+γl_pb，其中l_{multi_scale}表示多尺度的损失，l_global表示全局的损失，l_pl，l_pr分别表示局部区域的左右两侧部分的训练损失，并分配相同的权重系数α，而l_pt，l_pr表示局部区域的上下部分的损失，由于局部特征差异较大，分别分配不同的权重α和β，然后训练该网络结构，得到模型。

特征提取与相似性度量：得到训练好的模型后，基于此，利用网络前向运算，提取查询图像和库图像的特征，每一幅图像的提取到特征描述包括全局特征、局部特征和多维全局特征，即：[f_concat；f_g；f_p]，分别对应fconcat层、fc8层以及局部区域的每个全连接层的特征集合，然后计算特征和特征之间的相似度，这里使用余弦距离来度量，值越大越相似，然后根据相似度排序，进一步根据相似度判断查询的图像与库中的图像是不是同一辆车。整个过程如图3所示，图4显示了在VehicleID测试数据集上的部分检索结果示例。其中，图3为本发明实施例中一种图像检索方法的具体实施例流程图，图4为本发明实施例中一种车辆图像检索结果示意图，其中，最左端的车辆图像为目标图像，其余图像为检索结果，水印标注和车辆图像下方标注为“Y”表示该图中的车辆与目标图像中的车辆为同一车辆，水印标注和车辆图像下方标注为“N”表示该图中的车辆与目标图像中的车辆非同一车辆。

相较于现有技术中，在提取特征数据时仅仅使用的是最后的全连接层的输出作为全局的特征输出，但是却忽略了许多细节部分。本发明实施例使用了多尺度的特征图输出作为全局特征的一种有效补充，充分了利用图像特征信息。此外，为了学习车辆局部特征表示，在车辆图像在经过一些列卷积池化后(pool5)对特征图分块，分为上、下、左、右四个区域，对应于车辆不同特征区域，这些区域往往能够帮助我们更好的描述车辆信息，有效减少类内差距增大类间距离，提高不同车辆间的区分性和差异性，可进一步提升车辆图像检索准确率。

实施例三：

相应于上面的方法实施例，本发明实施例还提供了一种图像检索装置，下文描述的图像检索装置与上文描述的图像检索方法可相互对应参照。

参见图5所示，该装置包括以下模块：

目标图像获取模块101，用于获取待检索的目标图像，将目标图像输入目标深度学习模型；

图像特征提取模块102，用于利用目标深度学习模型对目标图像进行特征提取，获得目标图像的图像特征；图像特征包括全局特征、局部特征和多尺度全局特征，多尺度全局特征为将全局特征提取过程中产生的多个中间阶段特征进行加权计算后获得的特征；

相似距离计算模块103，用于利用图像特征，按照距离计算规则，分别计算目标图像与图像库中各个图像的相似距离；

相似图像确定模块104，用于利用相似距离，确定并输出目标图像的相似图像。

应用本发明实施例所提供的装置，获取待检索的目标图像，将目标图像输入目标深度学习模型；利用目标深度学习模型对目标图像进行特征提取，获得目标图像的图像特征；图像特征包括全局特征、局部特征和多尺度全局特征，多尺度全局特征为将全局特征提取过程中产生的多个中间阶段特征进行加权计算后获得的特征；利用图像特征，按照距离计算规则，分别计算目标图像与图像库中各个图像的相似距离；利用相似距离，确定并输出目标图像的相似图像。

在本发明的一种具体实施方式中，图像特征提取模块102，具体用于对目标图像进行全局特征提取时，对目标池化层输出的特征图进行分支，获得原始局部特征图；对原始局部特征图进行池化和全连接处理，获得局部特征。

在本发明的一种具体实施方式中，图像特征提取模块102，具体用于对特征图分别进行横向分割和纵向分割，获得原始局部特征图；原始局部特征图包括原始上部特征图、原始下部特征图、原始左部特征图和原始右部特征图。

在本发明的一种具体实施方式中，相似距离计算模块103，具体用于在距离计算规则为余弦距离计算规则时，利用图像特征，分别计算目标图像与图像库中各个图像的余弦距离；将余弦距离作为相似距离。相应地，相似图像确定模块104，具体用于对相似距离进行降序排列，选择相似距离在指定序号前的图像作为相似图像。

在本发明的一种具体实施方式中，相似距离计算模块103，具体用于在距离计算规则为欧式距离计算规则时，利用图像特征，分别计算目标图像与图像库中各个图像的欧式距离；将欧式距离作为相似距离。相应地，相似图像确定模块104，具体用于对相似距离进行升序排列，选择相似距离在指定序号前的图像作为相似图像。

实施例四：

相应于上面的方法实施例，本发明实施例还提供了一种图像检索设备，下文描述的一种图像检索设备与上文描述的一种图像检索方法可相互对应参照。

参见图6所示，该图像检索设备包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例的图像检索方法的步骤。

具体的，请参考图7，图7为本实施例提供的一种图像检索设备的具体结构示意图，该图像检索设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在图像检索设备301上执行存储介质330中的一系列指令操作。

图像检索设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

上文所描述的图像检索方法中的步骤可以由图像检索设备的结构实现。

实施例五：

相应于上面的方法实施例，本发明实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种图像检索方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的图像检索方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种图像检索方法，其特征在于，包括：

获取待检索的目标图像，将所述目标图像输入目标深度学习模型；所述目标深度学习模型为基于深度神经网络，且通过网络训练使之能够在全局特征上使用多尺度的特征输出训练网络，来获取全局更细粒度的信息，而在局部特征上，针对输入图像的特征区域，分为若干个局部特征区域的模型，或所述目标深度学习模型为对应特定网络结构MSRR-Net的模型；

利用所述相似距离，确定并输出所述目标图像的相似图像。

2.根据权利要求1所述的图像检索方法，其特征在于，所述局部特征提取过程，包括：

3.根据权利要求2所述的图像检索方法，其特征在于，所述对目标池化层输出的特征图进行分支，获得原始局部特征图，包括：

4.根据权利要求1至3任一项所述的图像检索方法，其特征在于，在所述距离计算规则为余弦距离计算规则时，利用所述图像特征，按照距离计算规则，分别计算所述目标图像与图像库中各个图像的相似距离，包括：

将所述余弦距离作为所述相似距离。

5.根据权利要求4所述的图像检索方法，其特征在于，利用所述相似距离，确定并输出所述目标图像的相似图像，包括：

6.根据权利要求1至3任一项所述的图像检索方法，其特征在于，在所述距离计算规则为欧式距离计算规则时，利用所述图像特征，按照距离计算规则，分别计算所述目标图像与图像库中各个图像的相似距离，包括：

将所述欧式距离作为所述相似距离。

7.根据权利要求6所述的图像检索方法，其特征在于，利用所述相似距离，确定并输出所述目标图像的相似图像，包括：

8.一种图像检索装置，其特征在于，包括：

目标图像获取模块，用于获取待检索的目标图像，将所述目标图像输入目标深度学习模型；所述目标深度学习模型为基于深度神经网络，且通过网络训练使之能够在全局特征上使用多尺度的特征输出训练网络，来获取全局更细粒度的信息，而在局部特征上，针对输入图像的特征区域，分为若干个局部特征区域的模型，或所述目标深度学习模型为对应特定网络结构MSRR-Net的模型；

9.一种图像检索设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述图像检索方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像检索方法的步骤。