CN113343015A

CN113343015A - 图像查询方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113343015A
Application number: CN202110603743.8A
Authority: CN
Inventors: 张胜卓
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-03

Abstract

本公开关于一种图像查询方法、装置、电子设备及计算机可读存储介质，其中方法包括：获得待查询图像；至少获得待查询图像的深度语义特征和基础视觉特征；查询深度语义特征与所述待查询图像的深度语义特征相似的图像，查询基础视觉特征与所述待查询图像的基础视觉特征相似的图像，根据查询到的图像与待查询图像的深度语义特征相似度及基础视觉特征相似度，确定查询到的图像与待查询图像的图像相似度，根据图像相似度将查询到的至少一个图像确定为所述待查询图像的相似图像。本公开可以根据多个不同的查询目的下关注的图像特征进行图像查询，使得查询到的图像满足用户查询目的概率大大增加，有效提高了查询到的图像的准确度。

Description

图像查询方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及图像处理领域，尤其涉及图像查询方法、装置、电子设备及计算机可读存储介质。

背景技术

在以图搜图这种应用场景下，需要从图像中提取图像特征进行相似图像的查询。但是许多时候，用户的查询目的是多种多样的，例如：有的用户希望查询的是包括待查询图像中的某个物品的其他图像，有的用户希望查询的是与待查询图像看起来相似的其他图像。

由于用户的查询目的是多种多样的，因此当前的图像查询方法常无法查询到满足用户查询目的的图像，导致图像查询的准确度比较低。

发明内容

本公开提供一种图像查询方法、装置、电子设备及计算机可读存储介质，以从图像中提取更为全面和准确的图像特征。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种图像查询方法，包括：

获得待查询图像；

至少获得待查询图像的深度语义特征和基础视觉特征；

查询深度语义特征与所述待查询图像的深度语义特征相似的图像，查询基础视觉特征与所述待查询图像的基础视觉特征相似的图像，根据查询到的图像与所述待查询图像的深度语义特征相似度及基础视觉特征相似度，确定查询到的图像与所述待查询图像的图像相似度，根据所述图像相似度将查询到的至少一个图像确定为所述待查询图像的相似图像。

在第一方面的一种可能的实现方式中，所述待查询图像的深度语义特征的获得过程包括：提取所述待查询图像的整体语义特征和/或对象特征，根据所述整体语义特征和/或对象特征确定所述待查询图像的深度语义特征；

和/或，

所述待查询图像的基础视觉特征的获得过程包括：提取所述待查询图像的颜色特征、纹理特征和编码特征中的至少一种，所述编码特征为通过自编码器获得的图像特征；根据所述编码特征、所述颜色特征和所述纹理特征中的至少一种确定所述待查询图像的基础视觉特征。

在第一方面的一种可能的实现方式中，还包括：

将各历史图像的深度语义特征划分为目标数量的第一分桶，其中，所述目标数量为执行图像查询处理的GPU数量，所述历史图像为被查询图像；

分别在每个所述GPU上创建深度语义索引；

将各所述第一分桶分别添加到各所述GPU上的所述深度语义索引中，使得每个所述GPU上的所述深度语义索引中包括一个所述第一分桶且各所述GPU上的所述深度语义索引中包括的第一分桶均不相同。

在第一方面的一种可能的实现方式中，还包括：

将各历史图像的基础视觉特征划分为目标数量的第二分桶，其中，所述目标数量为执行图像查询处理的GPU数量，所述历史图像为被查询图像；

分别在每个所述GPU上创建基础视觉索引；

将各所述第二分桶分别添加到各所述GPU上的所述基础视觉索引中，使得每个所述GPU上的所述基础视觉索引中包括一个第二分桶且各所述GPU上的所述基础视觉索引中包括的第二分桶均不相同。

在第一方面的一种可能的实现方式中，所述查询深度语义特征与所述待查询图像的深度语义特征相似的图像，具体包括：

在各所述GPU上的所述深度语义索引中，查询深度语义特征与所述待查询图像的深度语义特征相似的所述历史图像。

在第一方面的一种可能的实现方式中，所述查询基础视觉特征与所述待查询图像的基础视觉特征相似的图像，具体包括：

在各所述GPU上的所述基础视觉索引中，查询基础视觉特征与所述待查询图像的基础视觉特征相似的所述历史图像。

在第一方面的一种可能的实现方式中，所述查询深度语义特征与所述待查询图像的深度语义特征相似的图像，查询基础视觉特征与所述待查询图像的基础视觉特征相似的图像，包括：

根据所述待查询图像的深度语义特征与历史图像的深度语义特征的第一距离，查询深度语义特征与所述待查询图像的深度语义特征相似的所述历史图像，所述历史图像为被查询图像；

根据所述待查询图像的基础视觉特征与所述历史图像的基础视觉特征的第二距离，查询基础视觉特征与所述待查询图像的基础视觉特征相似的所述历史图像。

在第一方面的一种可能的实现方式中，所述根据查询到的图像与所述待查询图像的深度语义特征相似度及基础视觉特征相似度，确定查询到的图像与所述待查询图像的图像相似度，根据所述图像相似度将查询到的至少一个图像确定为所述待查询图像的相似图像，包括：

对查询到的所述历史图像的所述第一距离和所述第二距离进行加权求和，确定查询到的各所述历史图像分别与所述待查询图像的第三距离，根据所述第三距离将查询到的至少一个历史图像确定为所述待查询图像的相似图像。

在第一方面的一种可能的实现方式中，所述方法还包括：

从视频中抽取多个视频帧；

从所述多个视频帧中获得图像质量满足预设质量要求的至少一个视频帧；

所述获得待查询图像包括：将所述至少一个视频帧确定为待查询图像。

在第一方面的一种可能的实现方式中，所述从视频中抽取多个视频帧，具体包括：按照预设抽取间隔从视频中抽取多个视频帧；

和/或，

所述从所述多个视频帧中获得图像质量满足预设质量要求的至少一个视频帧，包括：

将抽取的所述视频帧输入图像质量预测模型中，获得所述图像质量预测模型输出的所述视频帧的图像质量得分；

将所述图像质量得分超过预设阈值的所述视频帧确定为满足预设质量要求的视频帧。

根据本公开实施例的第二方面，提供一种图像查询装置，包括：

图像获得模块，被配置为执行获得待查询图像；

特征获得模块，被配置为执行至少获得待查询图像的深度语义特征和基础视觉特征；

图像查询模块，被配置为执行查询深度语义特征与所述待查询图像的深度语义特征相似的图像，查询基础视觉特征与所述待查询图像的基础视觉特征相似的图像，根据查询到的图像与所述待查询图像的深度语义特征相似度及基础视觉特征相似度，确定查询到的图像与所述待查询图像的图像相似度，根据所述图像相似度将查询到的至少一个图像确定为所述待查询图像的相似图像。

在第二方面的一种可能的实现方式中，所述特征获得模块获得待查询图像的深度语义特征，被具体配置为执行提取所述待查询图像的整体语义特征和/或对象特征，根据所述整体语义特征和/或对象特征确定所述待查询图像的深度语义特征；

和/或，

所述特征获得模块获得待查询图像的基础视觉特征，被具体配置为执行提取所述待查询图像的颜色特征、纹理特征和编码特征中的至少一种，所述编码特征为通过自编码器获得的图像特征；根据所述编码特征、所述颜色特征和所述纹理特征中的至少一种确定所述待查询图像的基础视觉特征。

在第二方面的一种可能的实现方式中，还包括：

第一特征划分模块，被配置为执行将各历史图像的深度语义特征划分为目标数量的第一分桶，其中，所述目标数量为执行图像查询处理的GPU数量，所述历史图像为被查询图像；

第一索引创建模块，被配置为执行分别在每个所述GPU上创建深度语义索引；

第一分桶添加模块，被配置为执行将各所述第一分桶分别添加到各所述GPU上的所述深度语义索引中，使得每个所述GPU上的所述深度语义索引中包括一个所述第一分桶且各所述GPU上的所述深度语义索引中包括的第一分桶均不相同。

在第二方面的一种可能的实现方式中，还包括：

第二特征划分模块，被配置为执行将各历史图像的基础视觉特征划分为目标数量的第二分桶，其中，所述目标数量为执行图像查询处理的GPU数量，所述历史图像为被查询图像；

第二索引创建模块，被配置为执行分别在每个所述GPU上创建基础视觉索引；

第二分桶添加模块，被配置为执行将各所述第二分桶分别添加到各所述GPU上的所述基础视觉索引中，使得每个所述GPU上的所述基础视觉索引中包括一个第二分桶且各所述GPU上的所述基础视觉索引中包括的第二分桶均不相同。

在第二方面的一种可能的实现方式中，所述图像查询模块查询深度语义特征与所述待查询图像的深度语义特征相似的图像，被具体配置为执行：

所述图像查询模块在各所述GPU上的所述深度语义索引中，查询深度语义特征与所述待查询图像的深度语义特征相似的所述历史图像。

在第二方面的一种可能的实现方式中，所述图像查询模块查询基础视觉特征与所述待查询图像的基础视觉特征相似的图像，被具体配置为执行：

所述图像查询模块在各所述GPU上的所述基础视觉索引中，查询基础视觉特征与所述待查询图像的基础视觉特征相似的所述历史图像。

在第二方面的一种可能的实现方式中，所述图像查询模块查询深度语义特征与所述待查询图像的深度语义特征相似的图像，查询基础视觉特征与所述待查询图像的基础视觉特征相似的图像，被具体配置为执行：

在第二方面的一种可能的实现方式中，所述图像查询模块根据查询到的图像与所述待查询图像的深度语义特征相似度及基础视觉特征相似度，确定查询到的图像与所述待查询图像的图像相似度，根据所述图像相似度将查询到的至少一个图像确定为所述待查询图像的相似图像，被具体配置为执行：

在第二方面的一种可能的实现方式中，所述装置还包括：抽取模块和视频帧获得模块，

所述抽取模块，被配置为执行从视频中抽取多个视频帧；

所述视频帧获得模块，被配置为执行从所述多个视频帧中获得图像质量满足预设质量要求的至少一个视频帧；

所述图像获得模块，被具体配置为执行将所述至少一个视频帧确定为待查询图像。

在第二方面的一种可能的实现方式中，所述抽取模块被具体配置为执行：按照预设抽取间隔从视频中抽取多个视频帧；

和/或，

所述视频帧获得模块，被具体配置为执行：将抽取的所述视频帧输入图像质量预测模型中，获得所述图像质量预测模型输出的所述视频帧的图像质量得分；将所述图像质量得分超过预设阈值的所述视频帧确定为满足预设质量要求的视频帧。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面提供的任一种图像查询方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面提供的任一种图像查询方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当在电子设备上执行时，适于执行初始化有如第一方面提供的任一种图像查询方法的步骤的程序。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开可以至少获得待查询图像的深度语义特征和基础视觉特征，通过深度语义特征和基础视觉特征，查询待查询图像的相似图像。深度语义特征和基础视觉特征分别为不同的查询目的下关注的图像特征，本公开通过至少获得待查询图像的深度语义特征和基础视觉特征，可以根据多个不同的查询目的下关注的图像特征进行图像查询，使得查询到的图像满足用户查询目的概率大大增加，有效提高了查询到的图像的准确度。由于最终确定的相似图像综合衡量了深度语义特征相似度及基础视觉特征相似度，因此最终确定的相似图像的准确率比较高。

当待查询图像的图像质量比较低(如图像模糊或清晰度不足)时，本公开通过获得待查询图像的深度语义特征和基础视觉特征，可以从待查询图像中获得更多不同的图像特征。本公开还可以分别查询深度语义特征相似的图像以及基础视觉特征相似的图像，使得每种特征相似的图像都能查询到。同时，本公开可以查询到的图像与待查询图像的深度语义特征相似度及基础视觉特征相似度，确定查询到的图像与待查询图像的图像相似度并最终确定相似图像。由于最终确定的相似图像综合衡量了深度语义特征相似度及基础视觉特征相似度，因此最终确定的相似图像的准确率比较高。本公开避免了由于待查询图像的图像质量比较低带来的查询准确率低的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种图像查询方法的流程图；

图2是根据另一示例性实施例示出的一种图像查询方法的流程图；

图3是根据另一示例性实施例示出的一种图像查询装置的框图；

图4是根据另一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种图像查询方法的流程图，如图1所示，该图像查询方法，包括以下步骤。

在步骤S11中，获得待查询图像。

其中，步骤S11可以从查询请求中获得待查询图像。

可选的，该查询请求可以为终端设备上传到服务端设备的。可选的，待查询图像可以是用户通过终端设备拍摄得到的。

在一可选实施例中，本公开可以根据视频进行图像查询。例如：用户通过手机拍摄了一段视频，希望查询该视频相关的图像。此时，本公开可以从视频中抽取视频帧并作为待查询图像。

可选的，待查询图像可以为视频帧。具体的，待查询图像可以为从短视频(如电商物品视频)中抽取的视频帧。

图1所示方法还可以包括：

从视频中抽取多个视频帧；

从多个视频帧中获得图像质量满足预设质量要求的至少一个视频帧。

步骤S11可以具体包括：将至少一个视频帧确定为待查询图像。

图像查询结果的准确性受待查询图像的图像质量影响，若待查询图像的图像质量比较低(如图像模糊或清晰度不足)，则可能无法查询到相似图像或查询到的结果不准确。因此，为了提高查询结果的准确性，本公开可以将视频中图像质量较高的视频帧确定为待查询图像。

可选的，上述从视频中抽取多个视频帧，可以具体包括：按照预设抽取间隔从视频中抽取多个视频帧。

由于视频中包含的视频帧非常多，因此本公开可以首先从视频中抽取一些视频帧，然后再从抽取的视频帧中得到质量较高的视频帧。通过视频帧抽取，本公开无需确定每一个视频帧的图像质量，减少了需处理的视频帧的数量，提高了图像查询速度。按照一定的抽取间隔进行视频帧抽取一方面可以减少抽取的视频帧的数量，另一方面也尽可能的获得不同时刻的视频帧。由于视频拍摄的图像一般会随时间而变化，因此不同时刻的视频帧可以在一定程度上代表视频的拍摄内容，这样，本公开对抽取的多个视频帧进行查询后即可得到和拍摄的视频具有关联的图像。

上述预设抽取间隔可以根据实际需要进行设定和修改，如抽取间隔为10秒，本公开在此不做限定。

可选的，上述从多个视频帧中获得图像质量满足预设质量要求的至少一个视频帧，可以包括：

将抽取的视频帧输入图像质量预测模型中，获得图像质量预测模型输出的视频帧的图像质量得分；

将图像质量得分超过预设阈值的视频帧确定为满足预设质量要求的视频帧。

上述图像质量预测模型可以为卷积神经网络模型，上述预设阈值可以为0.5。

在实际应用中，图像质量得分未超过预设阈值的视频帧为低质量图片，可以不对其进行图像特征的提取。

步骤S11获得的待查询图像可以为N个，待查询图像可以为RGB图像，本公开可以根据该N个待查询图像构建一个图像数据集(N，W，H，3)，其中，N为待查询图像的数量，W为图像的宽度，单位为像素，H为图像的高度，单位为像素，数字3代表RGB图像的通道数。

在步骤S12中，至少获得待查询图像的深度语义特征和基础视觉特征。

其中，基础视觉特征可以为图像的颜色、明暗等视觉性特征。

其中，深度语义特征可以为具有高度抽象的语义特征。

在一可选实施例中，待查询图像的基础视觉特征的获得过程可以包括：

提取待查询图像的颜色特征、纹理特征和编码特征中的至少一种，编码特征为通过自编码器获得的图像特征；根据编码特征、颜色特征和纹理特征中的至少一种确定待查询图像的基础视觉特征。

上述根据编码特征、颜色特征和纹理特征中的至少一种确定待查询图像的基础视觉特征，可以具体包括：

将编码特征、颜色特征和纹理特征进行拼接，获得待查询图像的基础视觉特征。

通过特征拼接，本公开有效减少了图像特征的种类，利于图像特征的使用。

可选的，上述提取待查询图像的颜色特征的过程，可以具体包括：

将待查询图像由RGB颜色空间转换到Lab颜色空间；

对转换到Lab颜色空间的待查询图像的各像素的坐标和L值、a值、b值组合为初始图像特征；

确定初始图像特征的颜色聚类直方图，从颜色聚类直方图中获取待查询图像的颜色特征。

其中，Lab颜色的分布更均匀，更符合人类对颜色的视觉感知，因此将待查询图像由RGB颜色空间转换到Lab颜色空间，可以有效提取到符合人类的视觉感知的图像特征。

上述各像素的坐标可以用(x，y)表示，上述初始图像特征可以为一个5维的V[L，a，b，x，y]。本公开可以使用聚类算法计算颜色聚类直方图，具体的，本公开使用的聚类算法可以为Kmeans++等算法。同时，本公开可以使用EMD(EarthMover Distance，推土机距离)作为距离度量。本公开在聚类后可以得到d4个颜色簇。可以理解的是，由于图像中包括的颜色很多，如果对每一种颜色均提取特征，则运算量较大，本公开可以通过聚类算法把图像的颜色聚类为d4个颜色簇，使得颜色的种类变少，有效减小了运算量。

可选的，上述提取待查询图像的纹理特征的过程，可以具体包括：

将待查询图像进行灰度化处理；

提取灰度化处理后的待查询图像中各像素的Gabor滤波器特征；

对待查询图像中各像素的Gabor滤波器特征进行聚类，根据聚类结果获得待查询图像的纹理特征。

由于纹理特征与色彩无关，因此将待查询图像进行灰度化处理可以有效减少图像中包含的与纹理特征无关的特征，有效减小了运送量。

本公开可以通过Gabor滤波器组提取灰度化处理后的待查询图像中各像素的Gabor滤波器特征。其中，Gabor滤波器组类似于人类的生物视觉系统，本公开可以根据待查询图像的图像规模，自定义Gabor滤波器组的频率和方向，实现多频率和多方向的纹理特征抽取。在实际应用中，本公开可以定义Gabor滤波器组的频率为6种频率和8个方向，从而获得48种同尺寸的纹理特征图，该纹理特征图中每个像素对应48维的纹理特征。

其中，上述待查询图像的图像规模包括：待查询图像的图像数量，可选的，上述待查询图像的图像规模还可以包括：待查询图像的图像尺寸。

本公开提取的Gabor滤波器特征可以体现复杂的纹理特征，但运算量较大，因此在实际应用中，可以对待查询图像中各像素的Gabor滤波器特征进行聚类，从而减少运算量。

可以理解的是，在实际应用中，也可以不进行聚类，直接将各像素的Gabor滤波器特征确定为待查询图像的纹理特征即可。

在一可选实施例中，待查询图像的深度语义特征的获得过程可以包括：

提取待查询图像的整体语义特征和/或对象特征，根据整体语义特征和/或对象特征确定待查询图像的深度语义特征。

其中，整体语义特征可以包括：基础图形特征、图像压缩后的特征、语义特征等特征中的至少一种。

可选的，上述根据整体语义特征和/或对象特征确定待查询图像的深度语义特征，可以具体包括：将整体语义特征和对象特征进行拼接，获得待查询图像的深度语义特征。

可选的，上述提取待查询图像的整体语义特征的过程，可以具体包括：

根据待查询图像的图像规模，选择EfficientNet模型的尺寸；

基于第一图像数据集对EfficientNet模型进行训练；

将待查询图像的尺寸缩放为与选择的尺寸对应的第一预设尺寸；

将第一预设尺寸的待查询图像输入训练结束的EfficientNet模型，提取EfficientNet模型中输入归一化指数函数的第一特征，将第一特征进行全局平均池化操作获得第二特征，将第二特征确定为待查询图像的整体语义特征。

其中，上述待查询图像的图像规模包括：待查询图像的图像数量，可选的，上述待查询图像的图像规模还可以包括：待查询图像的图像尺寸。其中，EfficientNet模型的尺寸可以为B0至B7中的一个。具体的，待查询图像的图像规模越大，本公开选择的EfficientNet模型的尺寸可以越小；待查询图像的图像规模越小，本公开选择的EfficientNet模型的尺寸可以越大。其中，第一图像数据集可以为现有的用于训练模型的图像数据集，如：imagenet等。

具体的，EfficientNet模型与第一预设尺寸的对应关系可以如表1所示。可以理解的是，通过表1还可以确定待查询图像的整体语义特征的维度。

表1、尺寸、维度对照表

模型的尺寸	第一预设尺寸	整体语义特征的维度
			B0	宽为224像素，高为224像素	1280
B1	宽为240像素，高为240像素	1280
			B2	宽为260像素，高为260像素	1408
B3	宽为300像素，高为300像素	1536
			B4	宽为380像素，高为380像素	1792
B5	宽为456像素，高为456像素	2048
			B6	宽为528像素，高为528像素	2304
B7	宽为600像素，高为600像素	2560

其中，归一化指数函数(Softmax函数)实际上是有限项离散概率分布的梯度对数归一化。因此，Softmax函数在包括多项逻辑回归、多项线性判别分析、朴素贝叶斯分类器和人工神经网络等的多种基于概率的多分类问题方法中都有着广泛应用。输入归一化指数函数的第一特征是未进行归一化处理的特征，涵盖了多种图像的特征，因此本公开可以提取第一特征，并基于第一特征得到待查询图像的整体语义特征。

可选的，上述提取待查询图像的对象特征的过程，可以包括：

根据待查询图像的图像规模，选择YoloV5模型的尺寸和版本；

基于第二图像数据集，对选择尺寸和版本后的YoloV5模型进行训练；

将待查询图像的尺寸缩放为与版本对应的第二预设尺寸；

将第二预设尺寸的待查询图像输入训练后的YoloV5模型，将YoloV5模型的骨干网络(backbone)模块输出的特征确定为待查询图像的对象特征。

其中，YoloV5模型的尺寸可以有s、m、l、x四种。YoloV5模型的版本可以有v1、v2、v3等。可选的，YoloV5模型的版本与第二预设尺寸的对应关系可以如表2所示。

表2、版本、尺寸、维度对照表

模型的版本	第二预设尺寸	对象特征的维度
			v1	宽为736像素，高为736像素	1024
v2	宽为672像素，高为672像素	1024
			v3	宽为640像素，高为640像素	1024

可以理解的是，通过表2还可以确定待查询图像的对象特征的维度。

第二图像数据集可以为MSCoCo数据集。本公开可以通过YoloV5模型提取待查询图像的对象特征。其中，待查询图像的对象特征为待查询图像中所包含的某对象的特征，如：对象为某商品，则对象特征为该商品的特征。

可选的，上述提取待查询图像的编码特征的过程，可以包括：

根据待查询图像的图像规模，构建一个卷积神经网络的自编码器；

基于第三图像数据集，对自编码器进行训练，其中，自编码器的损失函数为交叉熵损失函数，自编码器进行训练时，通过ADAM优化器进行参数优化；

将训练后的自编码器输出的特征确定为待查询图像的编码特征。

其中，本公开构建的自编码器可以为2K层的自编码器。其中，第三图像数据集可以为由步骤S11获得的各待查询图像构成的数据集。

本公开可以提取待查询图像的颜色特征、纹理特征、整体语义特征、对象特征和编码特征，这五种特征分别携带了图像的多种类型的图像特征，可见本公开提取的图像特征较为全面。同时，本公开将整体语义特征和对象特征拼接为深度语义特征，将编码特征、颜色特征和纹理特征拼接为基础视觉特征，使得本公开可以从深度语义和基础视觉两个维度衡量图像的特征。

在步骤S13中，查询深度语义特征与待查询图像的深度语义特征相似的图像，查询基础视觉特征与待查询图像的基础视觉特征相似的图像，根据查询到的图像与所述待查询图像的深度语义特征相似度及基础视觉特征相似度，确定查询到的图像与所述待查询图像的图像相似度，根据所述图像相似度将查询到的至少一个图像确定为待查询图像的相似图像。

本公开步骤S13可以分别通过深度语义特征和基础视觉特征查询相似的图像，实现了从深度语义和基础视觉两个角度查询相似图像。

可选的，步骤S13首先分别查询深度语义特征与待查询图像的深度语义特征相似的图像，以及查询基础视觉特征与待查询图像的基础视觉特征相似的图像。例如：查询深度语义特征与待查询图像的深度语义特征最相似的N个图像，以及查询基础视觉特征与待查询图像的基础视觉特征最相似的M图像，其中，N、M均为正整数，N和M可以相等也可以不相等。通过上述查询，可以将与待查询图像的深度语义特征不相似的图像排除在检索结果外，同样的，也可以将与待查询图像的基础视觉特征不相似的图像排除在检索结果外。这样，当一个图像的基础视觉特征、深度语义特征中的至少一个与待查询图像不相似时，即可被排除在检索结果外，有效降低了噪声。本公开还可以根据查询到的图像与所述待查询图像的深度语义特征相似度及基础视觉特征相似度，确定查询到的图像与所述待查询图像的图像相似度。由于图像相似度同时衡量了深度语义特征相似度及基础视觉特征相似度，因此可以从查询到的图像中进一步挑选出图像相似度高的图像并作为待查询图像的相似图像。这样，本公开就通过深度语义特征相似度及基础视觉特征相似度从查询到的图像中进一步确定了相似图像，准确率较高。

可选的，步骤S13可以从历史图像中查询上述相似的图像。在执行步骤S13之前，本公开可以首先获得历史图像的深度语义特征和基础视觉特征。其中，本公开获得历史图像的深度语义特征和基础视觉特征的过程，和获得带查询图像的深度语义特征和基础视觉特征的过程一致，不再赘述。

可选的，历史图像可以从历史视频帧中提取得到。该历史视频帧可以为一个或多个视频中的视频帧。上述历史视频可以为包含商品图像或商品信息的视频。

在实际应用中，本发明可以通过图1所示步骤S12获得多个历史图像的图像特征，也可以通过图1所示步骤S12获得待查询图像的图像特征。然后，根据待查询图像的图像特征与历史图像的图像特征，从历史图像中查询待查询图像的相似图像。

可选的，步骤S13查询深度语义特征与所述待查询图像的深度语义特征相似的图像，查询基础视觉特征与所述待查询图像的基础视觉特征相似的图像，可以包括：

根据待查询图像的深度语义特征与历史图像的深度语义特征的第一距离，查询深度语义特征与待查询图像的深度语义特征相似的历史图像，历史图像为被查询图像；

根据待查询图像的基础视觉特征与历史图像的基础视觉特征的第二距离，查询基础视觉特征与待查询图像的基础视觉特征相似的历史图像。

可选的，步骤S13根据查询到的图像与所述待查询图像的深度语义特征相似度及基础视觉特征相似度，确定查询到的图像与所述待查询图像的图像相似度，根据所述图像相似度将查询到的至少一个图像确定为所述待查询图像的相似图像，可以包括：

可选的，图1步骤S13中的深度语义特征相似度可以为第一距离或根据第一距离确定的相似百分比。图1步骤S13中的基础视觉特征相似度可以为第二距离或根据第二距离确定的相似百分比。

可以理解的是，本公开可以通过图像特征之间的距离来查询相似图像。两个图像的图像特征之间的距离越小，则两个图像越相似；两个图像的图像特征之间的距离越大，则两个图像越不相似。

可选的，本公开可以通过如下公式计算第三距离：

L_i3＝L_i2×W₂+L_i1×W₁

其中，L_i3为编号为i的历史图像与待查询图像的第三距离，L_i2为编号为i的历史图像与待查询图像的第二距离，L_i1为编号为i的历史图像与待查询图像的第一距离，W₂为基础视觉特征的权重，W₁为深度语义特征的权重。

图2是根据另一示例性实施例示出的一种图像查询方法的流程图，如图2所示，该图像查询方法，包括以下步骤。

在步骤S21中，将各历史图像的深度语义特征划分为目标数量的第一分桶，将各历史图像的基础视觉特征划分为目标数量的第二分桶，其中，目标数量为执行图像查询处理的GPU数量。其中，历史图像为被查询图像。

在其他实施例中，本公开可以仅将各历史图像的深度语义特征划分为目标数量的第一分桶，对于基础视觉特征则不进行分桶。或者，本公开可以仅将各历史图像的基础视觉特征划分为目标数量的第一分桶，对于深度语义特征则不进行分桶。

其中，历史图像的深度语义特征和基础视觉特征的获取过程已在图1所示实施例说明，不再赘述。

在步骤S22中，分别在每个GPU上创建深度语义索引和基础视觉索引。

在其他实施例中，本公开可以仅在每个GPU上创建深度语义索引，而不创建基础视觉索引。或者，本公开可以仅在每个GPU上创建基础视觉索引，而不创建深度语义索引。

在步骤S23中，将各所述第一分桶分别添加到各所述GPU上的所述深度语义索引中，使得每个所述GPU上的所述深度语义索引中包括一个所述第一分桶且各所述GPU上的所述深度语义索引中包括的第一分桶均不相同。

在步骤S24中，将各所述第二分桶分别添加到各所述GPU上的所述基础视觉索引中，使得每个所述GPU上的所述基础视觉索引中包括一个第二分桶且各所述GPU上的所述基础视觉索引中包括的第二分桶均不相同。

通过将分桶添加到各索引，本公开可以使得每个GPU中均保存有拆分后的一份深度语义特征和/或拆分后的一份基础视觉特征。可见，每个GPU存储的特征的数据量较小，当历史图像的数量比较多时，本发明可以将历史图像的图像特征拆分为多份并分布到各GPU，从而使得每个GPU能够存下图像特征。

可选的，每个GPU可以根据自己保存的索引查询相似的历史图像，由于每个GPU仅保存了少了的图像特征，因此在进行查询时所需处理的数据量比较小，能够有效加快查询速度。

在其他实施例中，本公开可以仅执行步骤S23、步骤S24中的一个。

在步骤S25中，获得待查询图像。

步骤S25与图1所示步骤S11一致，不再赘述。

在步骤S26中，至少获得待查询图像的深度语义特征和基础视觉特征。

步骤S26与图1所示步骤S12一致，不再赘述。

在步骤S27中，在各GPU上的深度语义索引中，查询深度语义特征与待查询图像的深度语义特征相似的历史图像；

在步骤S28中，在各GPU上的基础视觉索引中，查询基础视觉特征与待查询图像的基础视觉特征相似的历史图像。

在其他实施例中，本公开可以仅执行步骤S27、步骤S28中的一个。

在一可选实施例中，本公开可以将各历史图像的深度语义特征划分为目标数量的第一分桶，分别在每个GPU上创建深度语义索引，将各所述第一分桶分别添加到各所述GPU上的所述深度语义索引中，在各GPU上的深度语义索引中，查询深度语义特征与待查询图像的深度语义特征相似的历史图像。

在另一可选实施例中，本公开可以将各历史图像的基础视觉特征划分为目标数量的第二分桶，分别在每个GPU上创建基础视觉索引，将各所述第二分桶分别添加到各所述GPU上的基础视觉索引中，在各GPU上的基础视觉索引中，查询基础视觉特征与待查询图像的基础视觉特征相似的历史图像。

在步骤S29中，根据查询到的历史图像与所述待查询图像的深度语义特征相似度及基础视觉特征相似度，确定查询到的历史图像与所述待查询图像的图像相似度，根据所述图像相似度将查询到的至少一个历史图像确定为所述待查询图像的相似图像。

步骤S27至步骤S29为图1所示步骤S13的一种具体执行方式。

通过分桶，本公开可以将深度语义特征、基础视觉特征拆分为多份。

其中，执行本公开的图像查询方法的设备可以为一个或多个设备，这一个或多个设备中可以包括多个GPU(图形处理器，Graphics Processing Unit)。本公开图2所示实施例可以充分利用设备包含的多个GPU来并行进行图像查询处理，有效提高了查询效率。

上述深度语义索引为用于对深度语义特征进行检索的索引，上述基础视觉索引为用于对基础视觉特征进行检索的索引。通过深度语义索引和基础视觉索引，本公开可以分别对深度语义特征和基础视觉特征进行检索。

图3是根据一示例性实施例示出的一种图像查询装置框图。参照图3，该装置包括图像获得模块121，特征获得模块122和图像查询模块123。

图像获得模块121，被配置为执行获得待查询图像；

特征获得模块122，被配置为执行至少获得待查询图像的深度语义特征和基础视觉特征；

图像查询模块123，被配置为执行查询深度语义特征与所述待查询图像的深度语义特征相似的图像，查询基础视觉特征与所述待查询图像的基础视觉特征相似的图像，根据查询到的图像与所述待查询图像的深度语义特征相似度及基础视觉特征相似度，确定查询到的图像与所述待查询图像的图像相似度，根据所述图像相似度将查询到的至少一个图像确定为所述待查询图像的相似图像。

可选的，所述特征获得模块获得待查询图像的深度语义特征，被具体配置为执行提取所述待查询图像的整体语义特征和/或对象特征，根据所述整体语义特征和/或对象特征确定所述待查询图像的深度语义特征；

和/或，

可选的，图3所示装置还包括：

第二特征划分模块，被配置为执行将各所述历史图像的基础视觉特征划分为目标数量的第二分桶，其中，所述目标数量为执行图像查询处理的GPU数量，所述历史图像为被查询图像；

可选的，所述图像查询模块查询深度语义特征与所述待查询图像的深度语义特征相似的图像，被具体配置为执行：

可选的，所述图像查询模块查询基础视觉特征与所述待查询图像的基础视觉特征相似的图像，被具体配置为执行：

可选的，所述图像查询模块查询深度语义特征与所述待查询图像的深度语义特征相似的图像，查询基础视觉特征与所述待查询图像的基础视觉特征相似的图像，被具体配置为执行：

可选的，所述图像查询模块根据查询到的图像与所述待查询图像的深度语义特征相似度及基础视觉特征相似度，确定查询到的图像与所述待查询图像的图像相似度，根据所述图像相似度将查询到的至少一个图像确定为所述待查询图像的相似图像，被具体配置为执行：

可选的，图3所示装置还包括：抽取模块和视频帧获得模块，

所述抽取模块，被配置为执行从视频中抽取多个视频帧；

可选的，所述抽取模块被具体配置为执行：按照预设抽取间隔从视频中抽取多个视频帧；

和/或，

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种电子设备700的框图，如图4所示，电子设备700可以包括：

处理器701；

用于存储所述处理器701可执行指令的存储器702；

其中，所述处理器701被配置为执行所述指令，以实现本公开实施例提供的任一种图像查询方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器702，当所述计算机可读存储介质中的指令由电子设备700的处理器701执行时，使得电子设备700能够执行本公开实施例提供的任一种图像查询方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，当在电子设备上执行时，适于执行初始化有本公开任一实施例提供的图像查询方法的步骤的程序。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像查询方法，其特征在于，包括：

获得待查询图像；

至少获得待查询图像的深度语义特征和基础视觉特征；

2.根据权利要求1所述的方法，其特征在于，所述待查询图像的深度语义特征的获得过程包括：提取所述待查询图像的整体语义特征和/或对象特征，根据所述整体语义特征和/或对象特征确定所述待查询图像的深度语义特征；

和/或，

3.根据权利要求1所述的方法，其特征在于，还包括：

分别在每个所述GPU上创建深度语义索引；

4.根据权利要求1或3所述的方法，其特征在于，还包括：

分别在每个所述GPU上创建基础视觉索引；

5.根据权利要求1所述的方法，其特征在于，所述查询深度语义特征与所述待查询图像的深度语义特征相似的图像，查询基础视觉特征与所述待查询图像的基础视觉特征相似的图像，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据查询到的图像与所述待查询图像的深度语义特征相似度及基础视觉特征相似度，确定查询到的图像与所述待查询图像的图像相似度，根据所述图像相似度将查询到的至少一个图像确定为所述待查询图像的相似图像，包括：

7.一种图像查询装置，其特征在于，包括：

图像获得模块，被配置为执行获得待查询图像；

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的图像查询方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6中任一项所述的图像查询方法。

10.一种计算机程序产品，其特征在于，当在电子设备上执行时，适于执行初始化有如权利要求1至6中任一项所述的图像查询方法的步骤的程序。