CN111930983A

CN111930983A - 一种图像检索方法、装置、电子设备及存储介质

Info

Publication number: CN111930983A
Application number: CN202010834510.4A
Authority: CN
Inventors: 张发恩; 纪双西
Original assignee: Innovation Qizhi Chengdu Technology Co ltd
Current assignee: Innovation Qizhi Chengdu Technology Co ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-11-13
Anticipated expiration: 2040-08-18
Also published as: CN111930983B

Abstract

本申请提供一种图像检索方法、装置、电子设备及存储介质，该方法包括：获得查询数据集，查询数据集包括至少一个查询图像；使用预先训练的特征提取器提取至少一个查询图像的图像特征，获得多个特征图；根据多个特征图对预先存储的多个存储图像进行检索，获得目标检索图像。在上述的实现过程中，即通过对包含目标对象的查询数据集进行处理，提取出查询数据集中的目标对象的不同尺度的多个特征，从而有效地提升了包含不确定位置的局部目标特征的图片检索的准确性，同时也有效地提高了获取目标图片数据的效率。

Description

一种图像检索方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能、机器学习和图像识别的技术领域，具体而言，涉及一种图像检索方法、装置、电子设备及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)，是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

机器学习(Machine Learning，ML)，是指人工智能领域中研究人类学习行为的一个分支。借鉴认知科学、生物学、哲学、统计学、信息论、控制论、计算复杂性等学科或理论的观点，通过归纳、一般化、特殊化、类比等基本方法探索人类的认识规律和学习过程，建立各种能通过经验自动改进的算法，使计算机系统能够具有自动学习特定知识和技能的能力。

图像识别，是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标对象的技术；其中，常见的图像识别任务例如：字符识别、目标检测和语义分割图像等等。

在应用上述的图像识别技术来辅助商业超市的场景中，商业超市的场景复杂性导致难以准确地获取目标图片数据，这里的场景复杂性具体例如：产品特征变化速率快、目标产品陈列密集、待识别目标特征维度高变化大和目标特征存在模糊等等情况；因此，目前的图像识别技术仍然难以准确地从海量数据中查找到大量包含无法检测和识别的特定产品或物料的图像数据，所以仍然依靠人工查验来获取目标图片数据，从而对商品或相关物料进行核查；然而依靠人工查验的方式来获取目标图片数据的效率十分低下。

发明内容

本申请实施例的目的在于提供一种图像检索方法、装置、电子设备及存储介质，用于改善获取目标图片数据的效率十分低下的问题。

本申请实施例提供了一种图像检索方法，包括：获得查询数据集，查询数据集包括至少一个查询图像，至少一个查询图像中的任一图像包含目标对象；使用预先训练的特征提取器提取至少一个查询图像的图像特征，获得多个特征图，多个特征图表征查询图像中目标对象的不同尺度特征；根据多个特征图对预先存储的多个存储图像进行检索，获得目标检索图像，目标检索图像是包含目标对象的图像。在上述的实现过程中，通过获得查询数据集，查询数据集包括至少一个查询图像；使用预先训练的特征提取器提取至少一个查询图像的图像特征，获得多个特征图；根据多个特征图对预先存储的多个存储图像进行检索，获得目标检索图像；即通过对包含目标对象的查询数据集进行处理，提取出查询数据集中的目标对象的不同尺度的多个特征，从而有效地提升了包含不确定位置的局部目标特征的图片检索的准确性，同时也有效地提高了获取目标图片数据的效率。

可选地，在本申请实施例中，多个特征图包括：全局特征图、局部特征图和分片特征图；使用预先训练的特征提取器提取至少一个查询图像的图像特征，获得多个特征图，包括：使用特征提取器提取至少一个查询图像的平均特征图；对平均特征图进行降维对齐，获得全局特征图；对平均特征图进行子块划分和特征值平均，获得局部特征图；对平均特征图进行裁剪、池化和拼接操作，获得分片特征图。在上述的实现过程中，通过使用特征提取器提取至少一个查询图像的平均特征图；对平均特征图进行降维对齐，获得全局特征图；对平均特征图进行子块划分和特征值平均，获得局部特征图；对平均特征图进行裁剪、池化和拼接操作，获得分片特征图；通过对包含目标对象的查询数据集进行处理，提取出查询数据集中的目标对象的不同尺度的多个特征，从而有效地提升了包含不确定位置的局部目标特征的图片检索的准确性。

可选地，在本申请实施例中，根据多个特征图对预先存储的多个存储图像进行检索，包括：使用特征提取器提取存储图像的图像特征，获得检索特征图；将检索特征图与全局特征图进行卷积操作，获得注意力特征图；根据注意力特征图在检索特征图中裁剪出多个特征子图；判断在多个特征子图中是否存在与多个特征图匹配的特征子图；若是，则将存储图像确定为目标检索图像。在上述的实现过程中，通过使用特征提取器提取存储图像的图像特征，获得检索特征图；将检索特征图与全局特征图进行卷积操作，获得注意力特征图；根据注意力特征图在检索特征图中裁剪出多个特征子图；判断在多个特征子图中是否存在与多个特征图匹配的特征子图；若是，则将存储图像确定为目标检索图像；根据提取出查询数据集中的目标对象的不同尺度的多个特征进行检索，从而有效地提升了获得目标检索图像的准确性。

可选地，在本申请实施例中，根据注意力特征图在检索特征图中裁剪出多个特征子图，包括：将注意力特征图的通道维度取平均值，获得通道特征图；使用阶跃函数计算通道特征图的候选区域蒙版；根据预先设置的尺寸参数在候选区域蒙版内选取多个目标候选框组；根据多个目标候选框的尺寸参数在检索特征图中裁剪出多个特征子图。

可选地，在本申请实施例中，判断在多个特征子图中是否存在与多个特征图匹配的特征子图，包括：对特征子图进行降维对齐，获得全局特征子图；对特征子图进行子块划分和特征值平均，获得局部特征子图；对特征子图进行裁剪、池化和拼接操作，获得分片特征子图；根据全局特征子图、局部特征子图和分片特征子图判断在多个特征子图中是否存在与多个特征图匹配的特征子图。

可选地，在本申请实施例中，根据全局特征子图、局部特征子图和分片特征子图判断在多个特征子图中是否存在与多个特征图匹配的特征子图，包括：判断全局特征子图、局部特征子图和分片特征子图是否满足预设关系，预设关系为：全局特征子图与全局特征图的相似度大于第一预设阈值，且局部特征子图与局部特征图的相似度大于第二预设阈值，且分片特征子图与分片特征图的相似度大于第三预设阈值；若是，则确定在多个特征子图中存在与多个特征图匹配的特征子图；若否，则确定在多个特征子图中不存在与多个特征图匹配的特征子图。在上述的实现过程中，通过判断全局特征子图、局部特征子图和分片特征子图是否满足预设关系；若是，则确定在多个特征子图中存在与多个特征图匹配的特征子图；若否，则确定在多个特征子图中不存在与多个特征图匹配的特征子图；根据全局特征子图、局部特征子图和分片特征子图均匹配时进行检索，即通过多模式特征匹配来进行检索，从而有效地提升了获得目标检索图像的准确性。

可选地，在本申请实施例中，获得查询数据集，包括：接收终端设备发送的查询数据集；在获得目标检索图像之后，还包括：向终端设备发送目标检索图像。在上述的实现过程中，通过接收终端设备发送的查询数据集；向终端设备发送目标检索图像；从而有效地提高了终端设备根据查询数据集获得目标检索图像的速度。

本申请实施例还提供了一种图像检索装置，包括：查询数据获得模块，用于获得查询数据集，查询数据集包括至少一个查询图像，至少一个查询图像中的任一图像包含目标对象；图像特征获得模块，用于使用预先训练的特征提取器提取至少一个查询图像的图像特征，获得多个特征图，多个特征图表征查询图像中目标对象的不同尺度特征；目标图像获得模块，用于根据多个特征图对预先存储的多个存储图像进行检索，获得目标检索图像，目标检索图像是包含目标对象的图像。

可选地，在本申请实施例中，多个特征图包括：全局特征图、局部特征图和分片特征图；图像特征获得模块，包括：平均特征提取模块，用于使用特征提取器提取至少一个查询图像的平均特征图；全局特征获得模块，用于对平均特征图进行降维对齐，获得全局特征图；局部特征获得模块，用于对平均特征图进行子块划分和特征值平均，获得局部特征图；分片特征获得模块，用于对平均特征图进行裁剪、池化和拼接操作，获得分片特征图。

可选地，在本申请实施例中，目标图像获得模块，包括：检索特征获得模块，用于使用特征提取器提取存储图像的图像特征，获得检索特征图；注意力图获得模块，用于将检索特征图与全局特征图进行卷积操作，获得注意力特征图；特征子图获得模块，用于根据注意力特征图在检索特征图中裁剪出多个特征子图；第一子图判断模块，用于判断在多个特征子图中是否存在与多个特征图匹配的特征子图；目标图像确定模块，用于若在多个特征子图中存在与多个特征图匹配的特征子图，则将存储图像确定为目标检索图像。

可选地，在本申请实施例中，特征子图获得模块，包括：通道特征获得模块，用于将注意力特征图的通道维度取平均值，获得通道特征图；区域蒙版计算模块，用于使用阶跃函数计算通道特征图的候选区域蒙版；候选框组选取模块，用于根据预先设置的尺寸参数在候选区域蒙版内选取多个目标候选框组；特征子图裁剪模块，用于根据多个目标候选框的尺寸参数在检索特征图中裁剪出多个特征子图。

可选地，在本申请实施例中，第一子图判断模块，包括；全局子图获得模块，用于对特征子图进行降维对齐，获得全局特征子图；局部子图获得模块，用于对特征子图进行子块划分和特征值平均，获得局部特征子图；分片子图获得模块，用于对特征子图进行裁剪、池化和拼接操作，获得分片特征子图；第二子图判断模块，用于根据全局特征子图、局部特征子图和分片特征子图判断在多个特征子图中是否存在与多个特征图匹配的特征子图。

可选地，在本申请实施例中，第二子图判断模块，包括：预设关系判断模块，用于判断全局特征子图、局部特征子图和分片特征子图是否满足预设关系，预设关系为：全局特征子图与全局特征图的相似度大于第一预设阈值，且局部特征子图与局部特征图的相似度大于第二预设阈值，且分片特征子图与分片特征图的相似度大于第三预设阈值；确定存在匹配模块，用于若全局特征子图、局部特征子图和分片特征子图满足预设关系，则确定在多个特征子图中存在与多个特征图匹配的特征子图；否定存在匹配模块，用于若全局特征子图、局部特征子图和分片特征子图不满足预设关系，则确定在多个特征子图中不存在与多个特征图匹配的特征子图。

可选地，在本申请实施例中，图像检索装置，还包括：查询数据接收模块，用于接收终端设备发送的查询数据集；目标图像发送模块，用于向终端设备发送目标检索图像。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的图像检索方法的流程示意图；

图2示出的本申请实施例提供的特征提取器的训练和检索过程的示意图；

图3示出的本申请实施例提供的电子设备与终端设备进行交互的流程示意图；

图4示出的本申请实施例提供的图像检索装置的结构示意图；

图5示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的图像检索方法之前，先介绍本申请实施例所涉及的一些概念：

特征图，又称特征矩阵图，是指经过某网络模型对图像进行特征提取后，获得一个用于表征该图像中的某些特征的矩阵，这里的某些特征可能是表示位置边框信息的具体特征，也可能是表示语义信息的抽象特征。

归一化指数(Softmax)函数，又被称为softmax分类器、softmax层或Softmax函数，实际上是有限项离散概率分布的梯度对数归一化；在数学中，尤其是概率论和相关领域中，归一化指数函数，或称Softmax函数，是逻辑函数的一种推广；归一化指数函数能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。

残差网络(Residual Network，ResNet)，又被称为残差神经网络，是指微软研究院的学者提出的卷积神经网络，ResNet的特点是容易优化，并且能够通过增加相当的深度来提高准确率；ResNet内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题；常用的残差网络具体例如：ResNet22、ResNet38、ResNet50、ResNet101和ResNet152等等。

特征提取器(Feature Extractor)，是指用于提取图像中的图像特征的神经网络；这里的特征提取器可以是深度神经网络，常用的深度神经网络包括：VGG网络、Resnet网络、Wide Resnet网络和Inception网络等；其中，VGG网络具体例如：VGG16或者VGG19；Resnet网络具体例如：Resnet12、Resnet50或者Resnet101；Wide Resnet网络具体例如Wide Resnet-28-10网络，这里的Wide Resnet-28-10网络有时又被缩写为WRN-28-10；Inception网络具体例如：Inception v1、Inception v2或者Inception v3。

主成分分析(Principal Component Analysis，PCA)，又被称为主元分析法或主元分析，是在多元统计分析中的一种统计分析和简化数据集的方法；PCA利用正交变换来对一系列可能相关的变量的观测值进行线性变换，从而投影为一系列线性不相关变量的值，这些不相关变量称为主成分(Principal Components)；具体地，主成分可以看做一个线性方程，其包含一系列线性系数来指示投影方向；PCA对原始数据的正则化或预处理敏感。

服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。当然在具体的实施过程中，上述的服务器可以具体选择大型机或者小型机，这里的小型机是指采用精简指令集计算(ReducedInstruction Set Computing，RISC)、单字长定点指令平均执行速度(MillionInstructions Per Second，MIPS)等专用处理器，主要支持UNIX操作系统的封闭且专用的提供计算服务的设备；这里的大型机，又名大型主机，是指使用专用的处理器指令集、操作系统和应用软件来提供计算服务的设备。

需要说明的是，本申请实施例提供的图像检索方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器，设备终端例如：智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digitalassistant，PDA)、移动上网设备(mobile Internet device，MID)、网络交换机或网络路由器等。

在介绍本申请实施例提供的图像检索方法之前，先介绍该图像检索方法适用的应用场景，这里的应用场景包括但不限于：在商业超市的场景中使用该图像检索方法来辅助人工核查物料，具体例如：根据产品经理反馈的几个有问题产品的图像查找到大量相关图像或者近似图像，这里的相关图像或者近似图像可以用于对特定问题进行统计分析等；在搜索领域的场景中，使用该图像检索方法提供以图搜图的产品或者服务；在快递物流仓库管理或者供应链库存管理的场景中，使用该图像检索方法来辅助仓库管理员查找货品或者包裹在仓库中的具体位置，以及核查相似货品或相关货品在仓库中的具体位置，以便于对货品或者包裹进行统计分析等。

请参见图1示出的本申请实施例提供的图像检索方法的流程示意图；该图像检索方法通过对包含目标对象的查询数据集进行处理，提取出查询数据集中的目标对象的不同尺度的多个特征，从而有效地提升了包含不确定位置的局部目标特征的图片检索的准确性，同时也有效地提高了获取目标图片数据的效率；上述的图像检索方法包括：

步骤S110：获得查询数据集，查询数据集可以包括至少一个查询图像。

查询数据集，是指需要查询的图像数据集合；查询数据集可以包括至少一个查询图像，若查询数据集包括多张查询图像，那么这里的多张查询图像可以是从多个角度对同一个目标对象进行采集的图像，这里的多张查询图像均是同一个目标类别；当然上述的查询数据集也可以包含多个目标类别的图像。上述的至少一个查询图像中的任一图像包含目标对象，这里的目标对象是指查询图像中的查询目标，查询目标可以位于查询图像的中心位置，并且查询目标的最大外界点与图片的边界点对齐；查询数据集具体例如：查询目标为猫，那么查询数据集则是包含猫的图像，可以只是一张猫的图像，也可以是多张猫的图像，猫尽量在查询图像的中心位置，并且查询图像中可以包含的完整的猫。

上述步骤S110中的查询数据集的获得方式包括：第一种方式，使用摄像机、录像机或彩色照相机等终端设备对目标对象进行拍摄，获得需要查询的目标对象的多个图像，即查询数据集；第二种方式，获取预先存储的查询数据集，具体例如：从文件系统中获取查询数据集，或者从数据库中获取查询数据集，或者从移动存储设备中获取查询数据集；第三种方式，使用浏览器等软件获取互联网上的查询数据集，或者使用其它应用程序访问互联网获得查询数据集；第四种方式，接收其它终端设备发送的查询数据集，将查询数据集存储至文件系统、数据库或移动存储设备中。

在步骤S110之后，执行步骤S120：使用预先训练的特征提取器提取至少一个查询图像的图像特征，获得多个特征图。

多个特征图，是指表征查询图像中目标对象的不同尺度特征；这里的多个特征例如可以包括：全局特征图、局部特征图和分片特征图等；全局特征图表征从图像的全局上所体现的特征，局部特征图表征从图像的局部区域上体现的特征，分片特征图表征从图像的多通道维度上体现的特征。

请参见图2示出的本申请实施例提供的特征提取器的训练和检索过程的示意图；可以理解的是，在使用特征提取器之前，需要使用训练数据集对特征提取器进行训练，训练过程具体例如：将深度度量学习模型作为特征提取器，使用已有的商超渠道场景下的分类小图数据集作为训练数据集，对特征提取器进行训练，获得一个稳定的图片特征提取器；其中，这里的分类小图数据是指用来预训练通用特征提取器的自定义商超零售产品分类数据集。上述步骤S120中的使用预先训练的特征提取器提取至少一个查询图像的图像特征的实施方式可以包括如下步骤：

步骤S121：使用特征提取器提取至少一个查询图像的平均特征图。

上述步骤S121的实施方式包括：将至少一个查询图像输入特征提取器，即使用特征提取器提取至少一个查询图像的图像特征，这里图像特征可以是以fq表示，该图像特征fq的尺寸例如使用w*h*C表示，其中，w表示该图像特征的宽度，h表示该图像特征的高度，C表示该图像特征的通道数；下面的尺寸表示方法也是类似的，因此，在下面使用这种方式表示特征图的尺寸时就不再赘述。若至少一个查询图像是一张图像的情况下，将该查询图像的图像特征确定为平均特征图；若至少一个查询图像是同一类别的多张图像，那么将同一类别的多张图像的平均图像特征确定为平均特征图。

步骤S122：对平均特征图进行降维对齐，获得全局特征图。

上述步骤S122的实施方式包括：对尺寸为w*h*C的平均特征图进行降维对齐，获得全局特征图，这里的全局特征图可以使用fq_global来表示；具体的降维对齐操作包括：平均池化、最大池化或者主成分分析(Principal Component Analysis，PCA)等，为了便于理解和说明，这里以平均池化为例进行说明，对尺寸为w*h*C的平均特征图进行平均池化，获得尺寸为1*1*C的特征向量fq_global，将尺寸为1*1*C的特征向量fq_global作为上述的全局特征图；其中，这里的PCA是基于多元统计过程控制的故障诊断技术的核心，是基于原始数据空间，通过构造一组新的潜隐变量来降低原始数据空间的维数，再从新的映射空间抽取主要变化信息，提取统计特征。

步骤S123：对平均特征图进行子块划分和特征值平均，获得局部特征图。

上述步骤S123的实施方式包括：按照预设尺寸对平均特征图进行子块划分，获得多个局部特征子图，并将多个局部特征子图进行特征值平均，获得上述的局部特征图，这里的局部特征图可以使用fq_local来表示，其中，这里的预设尺寸可以根据具体情况进行设置，具体例如：将预设尺寸设置为7*7*C时，那么按照7*7*C对尺寸为w*h*C的特征图进行子块划分，获得的多个局部特征子图中的每个局部特征子图的尺寸均为7*7*C，也就是说，原始长宽大于7的特征图可通过平均划分为7*7的子块并在子块中进行特征值平均获得7*7*C的特征图。当然在具体的实践过程中，平均特征图在经过子块划分后，获得尺寸小于7*7*C的局部特征子图，那么可以将这里的尺寸小于7*7*C的局部特征子图在长宽维度进行插值，即可获得尺寸均为7*7*C的多个局部特征子图，并对尺寸均为7*7*C的多个局部特征子图进行特征值平均，获得尺寸为7*7*C的特征向量，将这里的尺寸为7*7*C的特征向量确定为上述的局部特征图。

步骤S124：对平均特征图进行裁剪、池化和拼接操作，获得分片特征图。

上述步骤S124的实施方式例如：按照预设面积对平均特征图进行剪裁，获得多个分片子块，然后将多个分片子块进行池化降维，获得多个特征向量，最后将多个特征向量进行拼接获得一维特征向量，将这里的一维特征向量确定为上述的分片特征图，这里的分片特征图可以使用fq_patch来表示，其中，这里的预设面积可以根据具体情况进行设置，具体例如：将预设面积设置为2*2时，那么按照2*2的面积对平均特征图进行剪裁，获得多个分片子块，然后将多个分片子块进行池化降维，这里的池化降维操作也可以根据具体实际情况进行设置，池化降维包括：平均池化、最小池化和最大池化等操作，这里以平均池化为例进行说明，将这多个分片子块进行平均池化获得4个尺寸为1*1*C的特征向量，然后将这4个尺寸为1*1*C的特征向量进行拼接，获得尺寸为1*1*4C的特征向量，将这里的1*1*4C的特征向量作为上述的分片特征图。

在上述的实现过程中，通过使用特征提取器提取至少一个查询图像的平均特征图；对平均特征图进行降维对齐，获得全局特征图；对平均特征图进行子块划分和特征值平均，获得局部特征图；对平均特征图进行裁剪、池化和拼接操作，获得分片特征图；通过对包含目标对象的查询数据集进行处理，提取出查询数据集中的目标对象的不同尺度的多个特征，从而有效地提升了包含不确定位置的局部目标特征的图片检索的准确性。

在步骤S120之后，执行步骤S130：根据多个特征图对预先存储的多个存储图像进行检索，获得目标检索图像。

多个存储图像，是指需要从多个存储图像中检索的图像数据集，这里的多个存储图像可以是存储在数据库中的尺寸较大的高分辨率图像，这里的存储图像在被检索之前，存储图像需要经过预先处理，具体的处理过程见下面的描述。

目标检索图像，是指包含目标对象的图像；这里的目标检索图像具体例如：若查询数据集为至少一张包含猫的查询图像，那么这里的目标检索图像可以是大量与猫类似或者相关的尺寸较大的图像。

上述步骤S130中的根据多个特征图对预先存储的多个存储图像进行检索的实施方式可以包括如下步骤：

步骤S131：使用特征提取器提取存储图像的图像特征，获得检索特征图。

上述步骤S131的实施方式例如：使用预先训练的特征提取器提取存储图像的图像特征，获得检索特征图，这里的检索特征图可以使用fg表示，这里的检索特征图的尺寸大于上述的查询图像的平均特征图，检索特征图fg的尺寸例如可以为W*H*C；其中，W表示检索特征图的宽，H表示检索特征图的高，C表示检索特征图的通道数。

步骤S132：将检索特征图与全局特征图进行卷积操作，获得注意力特征图。

上述步骤S132的实施方式例如：将检索特征图fg与全局特征图fq_global进行卷积操作，获得注意力(attention)特征图，这里的注意力特征图可以使用fg_attention来表示，可以理解的是，这里的注意力特征图fg_attention的尺寸也是W*H*C。

步骤S133：根据注意力特征图在检索特征图中裁剪出多个特征子图。

上述步骤S133中的根据注意力特征图在检索特征图中裁剪出多个特征子图的实施方式可以包括如下步骤：

步骤S1331：将注意力特征图的通道维度取平均值，获得通道特征图。

上述步骤S1331的实施方式例如：将注意力特征图fg_attention的通道维度取平均值，获得尺寸为W*H的通道特征图，这里的通道特征图可以使用fg_attention_c来表示，具体的实施过程例如：按照通道维度对注意力特征图fg_attention取平均值，获得尺寸为W*H的特征图，将这的尺寸为W*H的特征图确定为通道特征图。

步骤S1332：使用阶跃函数计算通道特征图的候选区域蒙版。

上述步骤S1332的实施方式例如：选取阈值thA，然后根据阈值thA利用阶跃函数和通道特征图Fg_attention_c来计算目标候选区域蒙版，这里的候选区域蒙版可以使用mask表示，具体计算过程例如：首先，将通道特征图Fg_attention_c经过归一化指数(Softmax)函数进行归一化，然后判断点(I,j)的取值大于thA时，则mask(I,j)＝1，否则mask(I,j)＝0。在具体的实践过程中，在选择目标候选区域蒙版mask时，也可以根据fg_attention有多种模式，而不仅限于通道维进行平均后得到fg_attention_c进行阈值截断，还可以通过其他复杂的组合方式提取可能目标区域，比如选取某一特定通道或各层通道数据加权平均后组合选取可能候选区域。

步骤S1333：根据预先设置的尺寸参数在候选区域蒙版内选取多个目标候选框组。

上述步骤S1333的实施方式例如：根据预先设置的尺寸参数在候选区域蒙版内选取多个目标候选框组，其中，这里的预先设置的尺寸参数可以根据具体情况进行设置，这里的尺寸参数可以包括：预设的目标候选框边长和长宽比；根据预设的目标候选框边长和长宽比在候选区域蒙版(mask)内获取选定的目标候选框组。

步骤S1334：根据多个目标候选框的尺寸参数在检索特征图中裁剪出多个特征子图。

上述步骤S1334的实施方式例如：根据多个目标候选框的尺寸参数在检索特征图中裁剪出多个特征子图；具体例如：通过多个目标候选框的中心点位置和尺寸参数，在上述的检索特征图上裁剪出对应于该大图的一组特征子图fg_i(i＝1,…,N)；其中，这里的尺寸参数可以包括：边长和长宽比。

步骤S134：判断在多个特征子图中是否存在与多个特征图匹配的特征子图。

可以理解的是，这里的多个特征子图可以使用fg_i(i＝1,…,N)来表示，那么使用fg_global_i表示全局特征子图，使用fg_local_i表示局部特征子图，使用fg_patch_i表示分片特征子图。

上述步骤S134中的判断在多个特征子图中是否存在与多个特征图匹配的特征子图的实施方式可以包括如下步骤：

步骤S1341：对特征子图进行降维对齐，获得全局特征子图。

步骤S1342：对特征子图进行子块划分和特征值平均，获得局部特征子图。

步骤S1343：对特征子图进行裁剪、池化和拼接操作，获得分片特征子图。

上述步骤S1341至步骤S1343的实施方式的实施原理和实施方式与步骤S122至步骤S124的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S122至步骤S124的描述。

步骤S1344：根据全局特征子图、局部特征子图和分片特征子图判断在多个特征子图中是否存在与多个特征图匹配的特征子图。

上述步骤S1344的实施方式可以包括：根据全局特征子图、局部特征子图和分片特征子图共同判断匹配的过程可以理解为多模式特征匹配的过程；判断全局特征子图、局部特征子图和分片特征子图是否满足预设关系，这里的预设关系表征全局匹配、局部匹配和/或分片匹配；这里的预设关系可以为：全局特征子图与全局特征图的相似度大于第一预设阈值，且局部特征子图与局部特征图的相似度大于第二预设阈值，且分片特征子图与分片特征图的相似度大于第三预设阈值，这里的第一预设阈值、第二预设阈值和第三预设阈值可以相互相同，也可以不相互相同，也可以其中两个相同。可以理解的是，上述的相似度又被称为相似程度，是指表征两个目标对象或者两个样本数据之间相似性的程度，有很多量化相似程度的具体指标，这些具体指标例如：余弦距离、余弦相似度、汉明距离或欧氏距离等等；当然，在实践过程中，也可以选择多种组合加权参数等复杂模式来计算相似度。

在具体的实践过程中，上述的局部特征子图与局部特征图的相似度大于第二预设阈值的判断方式，也可以不采用相似度来度量，具体例如可以采用相关性阈值来度量，采用相关性阈值来度量的具体方式例如：分别计算各全局特征子图fg_local_i和全局特征图fq_local的相关性指标，这里的相关性指标可以是以Theta来表示，这里的Theta的具体计算公式例如：Theta＝norm(fg_local_i*fq_local^(-T))/norm(fg_local_i)/norm(fq_local)；其中，如果Theta大于预设的相关性阈值，则认为局部匹配。

在上述的判断全局特征子图、局部特征子图和分片特征子图是否满足预设关系之后，还包括：若全局特征子图、局部特征子图和分片特征子图满足预设关系，则确定在多个特征子图中存在与多个特征图匹配的特征子图。在上述的判断全局特征子图、局部特征子图和分片特征子图是否满足预设关系之后，还包括：若全局特征子图、局部特征子图和分片特征子图不满足预设关系，则确定在多个特征子图中不存在与多个特征图匹配的特征子图。在上述的实现过程中，通过判断全局特征子图、局部特征子图和分片特征子图是否满足预设关系；若是，则确定在多个特征子图中存在与多个特征图匹配的特征子图；若否，则确定在多个特征子图中不存在与多个特征图匹配的特征子图；根据全局特征子图、局部特征子图和分片特征子图均匹配时进行检索，即通过多模式特征匹配来进行检索，从而有效地提升了获得目标检索图像的准确性。

步骤S135：若在多个特征子图中存在与多个特征图匹配的特征子图，则将存储图像确定为目标检索图像。

上述步骤S135的实施方式例如：若在多个特征子图中存在与多个特征图匹配的特征子图，则将存储图像确定为目标检索图像；具体的过程例如：若全局匹配、局部匹配和分片匹配均满足，则认为该特征子图fg_i与目标检索图像匹配，进而获取该特征子图fg_i对应的目标候选框在特征图上fg中心位置x，以及相应的目标检索图像，这里的目标检索图像的可以包括大图数据和该大图数据的唯一标识(identification，ID)。在上述的实现过程中，通过使用特征提取器提取存储图像的图像特征，获得检索特征图；将检索特征图与全局特征图进行卷积操作，获得注意力特征图；根据注意力特征图在检索特征图中裁剪出多个特征子图；判断在多个特征子图中是否存在与多个特征图匹配的特征子图；若是，则将存储图像确定为目标检索图像；根据提取出查询数据集中的目标对象的不同尺度的多个特征进行检索，从而有效地提升了获得目标检索图像的准确性。

在具体的实施过程中，还可以在目标检索图像中指出该查询数据集中的目标对象具体的区域位置，即恢复出查询数据集中的目标对象在目标检索图像中的具体区域位置，具体实施过程例如：根据特征提取器对原始图片的采样属性可以得到特征图与原始大图的缩放比例，进而可以通过查询数据集中的查询图像恢复出检索到的目标样本在原图中的近似位置，并且结合大图数据的唯一标识给出完整的检索结果。在无监督信息训练和无法获取较为准确的检测框的前提下，通过组合检索图片和数据库图片的特征信息，获取高概率检索目标特征区域，降低了传统遍历操作的计算量和不稳定性；与此同时，采用全局特征、局部特征和分片特征的组合特征匹配模式，增强了特征多尺度融合属性，提升了在复杂场景下目标特征提取的稳定性，最终使得检索结果相较于已有方法更为高效、准确和稳定。

在上述的实现过程中，通过获得查询数据集，查询数据集包括至少一个查询图像；使用预先训练的特征提取器提取至少一个查询图像的图像特征，获得多个特征图；根据多个特征图对预先存储的多个存储图像进行检索，获得目标检索图像；即通过对包含目标对象的查询数据集进行处理，提取出查询数据集中的目标对象的不同尺度的多个特征，从而有效地提升了包含不确定位置的局部目标特征的图片检索的准确性，同时也有效地提高了获取目标图片数据的效率。

请参见图3示出的本申请实施例提供的电子设备与终端设备进行交互的流程示意图；可选地，在本申请实施例中，执行上述图像检索方法的电子设备还可以与终端设备进行交互，那么电子设备与终端设备进行交互的过程可以包括：

步骤S210：电子设备接收终端设备发送的查询数据集。

上述的步骤S210的实施方式包括：电子设备通过传输控制协议(TransmissionControl Protocol，TCP)或者用户数据报协议(User Datagram Protocol，UDP)接收终端设备发送的查询数据集；其中，这里的TCP协议又名网络通讯协议，是一种面向连接的、可靠的、基于字节流的传输层通信协议；在因特网协议族中，TCP层是位于IP层之上，应用层之下的中间层；不同主机的应用层之间经常需要可靠的、像管道一样的连接，但是IP层不提供这样的流机制，而是提供不可靠的包交换；这里的UDP是User Datagram Protocol的简称，中文名是用户数据报协议，UDP协议是开放式系统互联(Open System Interconnection，OSI)参考模型中一种无连接的传输层协议。

步骤S220：电子设备使用预先训练的特征提取器提取至少一个查询图像的图像特征，获得多个特征图。

步骤S230：电子设备根据多个特征图对预先存储的多个存储图像进行检索，获得目标检索图像。

其中，该步骤S220至步骤S230的实施原理和实施方式与步骤S120至步骤S130的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S120至步骤S130的描述。

步骤S240：电子设备向终端设备发送目标检索图像。

上述步骤S240的实施方式例如：电子设备通过超文本传输协议(Hyper TextTransfer Protocol，HTTP)和超文本传输安全协议(Hyper Text Transfer ProtocolSecure，HTTPS)向终端设备发送目标检索图像；其中，这里的HTTP是一个简单的请求响应协议，HTTP协议通常运行在传输控制协议(Transmission Control Protocol，TCP)之上的协议；这里的HTTPS又被称为HTTP Secure，是一种通过计算机网络进行安全通信的传输协议；HTTPS开发的主要目的，是提供对网站服务器的身份认证，保护交换数据的隐私与完整性。在上述的实现过程中，通过接收终端设备发送的查询数据集；向终端设备发送目标检索图像；从而有效地提高了终端设备根据查询数据集获得目标检索图像的速度。

请参见图4示出的本申请实施例提供的图像检索装置的结构示意图；本申请实施例提供了一种图像检索装置300，包括：

查询数据获得模块310，用于获得查询数据集，查询数据集包括至少一个查询图像，至少一个查询图像中的任一图像包含目标对象。

图像特征获得模块320，用于使用预先训练的特征提取器提取至少一个查询图像的图像特征，获得多个特征图，多个特征图表征查询图像中目标对象的不同尺度特征。

目标图像获得模块330，用于根据多个特征图对预先存储的多个存储图像进行检索，获得目标检索图像，目标检索图像是包含目标对象的图像。

可选地，在本申请实施例中，多个特征图包括：全局特征图、局部特征图和分片特征图；图像特征获得模块，包括：

平均特征提取模块，用于使用特征提取器提取至少一个查询图像的平均特征图。

全局特征获得模块，用于对平均特征图进行降维对齐，获得全局特征图。

局部特征获得模块，用于对平均特征图进行子块划分和特征值平均，获得局部特征图。

分片特征获得模块，用于对平均特征图进行裁剪、池化和拼接操作，获得分片特征图。

可选地，在本申请实施例中，目标图像获得模块，包括：

检索特征获得模块，用于使用特征提取器提取存储图像的图像特征，获得检索特征图。

注意力图获得模块，用于将检索特征图与全局特征图进行卷积操作，获得注意力特征图。

特征子图获得模块，用于根据注意力特征图在检索特征图中裁剪出多个特征子图。

第一子图判断模块，用于判断在多个特征子图中是否存在与多个特征图匹配的特征子图。

目标图像确定模块，用于若在多个特征子图中存在与多个特征图匹配的特征子图，则将存储图像确定为目标检索图像。

可选地，在本申请实施例中，特征子图获得模块，包括：

通道特征获得模块，用于将注意力特征图的通道维度取平均值，获得通道特征图。

区域蒙版计算模块，用于使用阶跃函数计算通道特征图的候选区域蒙版。

候选框组选取模块，用于根据预先设置的尺寸参数在候选区域蒙版内选取多个目标候选框组。

特征子图裁剪模块，用于根据多个目标候选框的尺寸参数在检索特征图中裁剪出多个特征子图。

可选地，在本申请实施例中，第一子图判断模块，包括。

全局子图获得模块，用于对特征子图进行降维对齐，获得全局特征子图。

局部子图获得模块，用于对特征子图进行子块划分和特征值平均，获得局部特征子图。

分片子图获得模块，用于对特征子图进行裁剪、池化和拼接操作，获得分片特征子图。

第二子图判断模块，用于根据全局特征子图、局部特征子图和分片特征子图判断在多个特征子图中是否存在与多个特征图匹配的特征子图。

可选地，在本申请实施例中，第二子图判断模块，包括：

预设关系判断模块，用于判断全局特征子图、局部特征子图和分片特征子图是否满足预设关系，预设关系为：全局特征子图与全局特征图的相似度大于第一预设阈值，且局部特征子图与局部特征图的相似度大于第二预设阈值，且分片特征子图与分片特征图的相似度大于第三预设阈值。

确定存在匹配模块，用于若全局特征子图、局部特征子图和分片特征子图满足预设关系，则确定在多个特征子图中存在与多个特征图匹配的特征子图。

否定存在匹配模块，用于若全局特征子图、局部特征子图和分片特征子图不满足预设关系，则确定在多个特征子图中不存在与多个特征图匹配的特征子图。

可选地，在本申请实施例中，图像检索装置，还包括：

查询数据接收模块，用于接收终端设备发送的查询数据集。

目标图像发送模块，用于向终端设备发送目标检索图像。

应理解的是，该装置与上述的图像检索方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图5示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400，包括：处理器410和存储器420，存储器420存储有处理器410可执行的机器可读指令，机器可读指令被处理器410执行时执行如上的方法。

本申请实施例还提供了一种存储介质430，该存储介质430上存储有计算机程序，该计算机程序被处理器410运行时执行如上的方法。

其中，存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种图像检索方法，其特征在于，包括：

获得查询数据集，所述查询数据集包括至少一个查询图像，所述至少一个查询图像中的任一图像包含目标对象；

使用预先训练的特征提取器提取所述至少一个查询图像的图像特征，获得多个特征图，所述多个特征图表征所述查询图像中目标对象的不同尺度特征；

根据所述多个特征图对预先存储的多个存储图像进行检索，获得目标检索图像，所述目标检索图像是包含所述目标对象的图像。

2.根据权利要求1所述的方法，其特征在于，所述多个特征图包括：全局特征图、局部特征图和分片特征图；所述使用预先训练的特征提取器提取所述至少一个查询图像的图像特征，获得多个特征图，包括：

使用所述特征提取器提取所述至少一个查询图像的平均特征图；

对所述平均特征图进行降维对齐，获得所述全局特征图；

对所述平均特征图进行子块划分和特征值平均，获得所述局部特征图；

对所述平均特征图进行裁剪、池化和拼接操作，获得分片特征图。

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个特征图对预先存储的多个存储图像进行检索，包括：

使用所述特征提取器提取所述存储图像的图像特征，获得检索特征图；

将所述检索特征图与所述全局特征图进行卷积操作，获得注意力特征图；

根据所述注意力特征图在所述检索特征图中裁剪出多个特征子图；

判断在所述多个特征子图中是否存在与所述多个特征图匹配的特征子图；

若是，则将所述存储图像确定为所述目标检索图像。

4.根据权利要求3所述的方法，其特征在于，所述根据所述注意力特征图在所述检索特征图中裁剪出多个特征子图，包括：

将所述注意力特征图的通道维度取平均值，获得通道特征图；

使用阶跃函数计算所述通道特征图的候选区域蒙版；

根据预先设置的尺寸参数在所述候选区域蒙版内选取多个目标候选框组；

根据所述多个目标候选框的尺寸参数在所述检索特征图中裁剪出多个特征子图。

5.根据权利要求3所述的方法，其特征在于，所述判断在所述多个特征子图中是否存在与所述多个特征图匹配的特征子图，包括：

对所述特征子图进行降维对齐，获得全局特征子图；

对所述特征子图进行子块划分和特征值平均，获得局部特征子图；

对所述特征子图进行裁剪、池化和拼接操作，获得分片特征子图；

根据所述全局特征子图、所述局部特征子图和所述分片特征子图判断在所述多个特征子图中是否存在与所述多个特征图匹配的特征子图。

6.根据权利要求5所述的方法，其特征在于，所述根据所述全局特征子图、所述局部特征子图和所述分片特征子图判断在所述多个特征子图中是否存在与所述多个特征图匹配的特征子图，包括：

判断所述全局特征子图、所述局部特征子图和所述分片特征子图是否满足预设关系，所述预设关系为：所述全局特征子图与所述全局特征图的相似度大于第一预设阈值，且所述局部特征子图与所述局部特征图的相似度大于第二预设阈值，且所述分片特征子图与所述分片特征图的相似度大于第三预设阈值；

若是，则确定在所述多个特征子图中存在与所述多个特征图匹配的特征子图；

若否，则确定在所述多个特征子图中不存在与所述多个特征图匹配的特征子图。

7.根据权利要求1-6任一所述的方法，其特征在于，所述获得查询数据集，包括：

接收终端设备发送的查询数据集；

在所述获得目标检索图像之后，还包括：

向所述终端设备发送所述目标检索图像。

8.一种图像检索装置，其特征在于，包括：

查询数据获得模块，用于获得查询数据集，所述查询数据集包括至少一个查询图像，所述至少一个查询图像中的任一图像包含目标对象；

图像特征获得模块，用于使用预先训练的特征提取器提取所述至少一个查询图像的图像特征，获得多个特征图，所述多个特征图表征所述查询图像中目标对象的不同尺度特征；

目标图像获得模块，用于根据所述多个特征图对预先存储的多个存储图像进行检索，获得目标检索图像，所述目标检索图像是包含所述目标对象的图像。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。

10.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。