CN114741550B

CN114741550B - 图像搜索方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN114741550B
Application number: CN202210648456.3A
Authority: CN
Inventors: 丁志敏; 林伟兵; 林立; 彭浩崇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2023-02-10
Anticipated expiration: 2042-06-09
Also published as: CN114741550A

Abstract

本发明公开了一种图像搜索方法、装置、电子设备和计算机可读存储介质，相关实施例可应用于云技术、云安全、人工智能、智慧交通、辅助驾驶等各种场景。本发明实施例在当接收到图像搜索请求时，对图像搜索请求中携带的搜索内容进行文本切词处理，得到搜索内容的关键词文本；然后，分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到关键词文本的关键词特征和实体的实体特征。将关键词特征与实体特征进行语义匹配处理，得到关键词文本匹配的至少一个目标图像标签。然后，基于目标图像标签，在候选图像集合中搜索出至少一个目标图像；该方案可以提升图像搜索的准确性。

Description

图像搜索方法、装置、电子设备和计算机可读存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种图像搜索方法、装置、电子设备和计算机可读存储介质。

背景技术

近年来，随着互联网技术的飞速发展，出现了越来越多的内容搜索方式。为了在海量的图像资源中高效的搜索出目标图像，现有的图像搜索方法往往通过多标签分类模型或者人工构建标签同义词库的方式进行图像搜索。

在对现有技术的研究和实践过程中，本发明的发明人发现通过多标签分类模型生成多个图像标签的匹配方式较为单一，而通过人工构建同义词库仅仅考虑了搜索近义词场景，在搜索场景上存在局限性，因此，导致图像搜索的准确性不足。

发明内容

本发明实施例提供一种图像搜索方法、装置、电子设备和计算机可读存储介质，可以提高图像搜索的搜索准确性。

一种图像搜索方法，包括：

当接收到图像搜索请求时，对所述图像搜索请求中携带的搜索内容进行文本切词处理，得到所述搜索内容的关键词文本；

分别对所述关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到所述关键词文本的关键词特征和所述实体的实体特征，所述图像标签分级图谱为基于图像标签之间的文本关系构建的分级图谱；

将所述关键词特征与所述实体特征进行语义匹配处理，得到所述关键词文本匹配的至少一个目标图像标签；

基于所述目标图像标签，在候选图像集合中搜索出至少一个目标图像。

相应的，本发明实施例提供一种图像搜索装置，包括：

切词单元，用于当接收到图像搜索请求时，对所述图像搜索请求中携带的搜索内容进行文本切词处理，得到所述搜索内容的关键词文本；

提取单元，用于分别对所述关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到所述关键词文本的关键词特征和所述实体的实体特征，所述图像标签分级图谱为基于图像标签之间的文本关系构建的分级图谱；

匹配单元，用于将所述关键词特征与所述实体特征进行语义匹配处理，得到所述关键词文本匹配的至少一个目标图像标签；

搜索单元，用于基于所述目标图像标签，在候选图像集合中搜索出至少一个目标图像。

可选的，在一些实施例中，所述提取单元，具体可以用于分别对所述关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，得到所述关键词文本的关键词特征和所述实体的基础实体特征；根据所述实体对应的图像标签之间的文本关系，确定所述实体的文本权重；基于所述文本权重，对所述基础实体特征进行加权，得到所述实体的实体特征。

可选的，在一些实施例中，所述图像搜索装置还可以包括构建单元，所述构建单元，具体可以用于获取图像标签集合，并在所述图像标签集合中识别出图像标签之间的文本关系；基于所述文本关系，将所述图像标签作为实体构建图像标签分级图谱。

可选的，在一些实施例中，所述构建单元，具体可以用于基于所述从属关系，将所述图像标签作为实体构建知识图谱，得到基础图像标签图谱；根据所述语义关系，对所述基础图像标签图谱进行分级处理，得到图像标签分级图谱。

可选的，在一些实施例中，所述构建单元，具体可以用于在所述图像标签集合中筛选出存在从属关系的图像标签，得到从属图像标签集合；根据所述从属关系的关系类型，对所述从属图像标签集合中的图像标签进行分类；基于分类结果，将所述从属图像标签集合中的图像标签作为实体构建知识图谱，得到基础图像标签图谱。

可选的，在一些实施例中，所述构建单元，具体可以用于在所述基础标签图谱中筛选出存在语义关系的图像标签对应的实体，得到至少一个实体对；基于所述实体对的语义关系，对所述基础图像标签图谱进行调整，得到调整后图像标签图谱；在所述图像标签集合中筛选出与所述调整后图像标签图谱上的实体对应的图像标签存在语义关系的图像标签，以得到图像标签分级图谱。

可选的，在一些实施例中，所述构建单元，具体可以用于在所述图像标签集合中筛选出与所述调整后图像标签图谱上的实体对应的图像标签存在语义关系的图像标签，得到语义图像标签集合；根据所述语义图像标签集合中每一图像标签对应的语义关系，确定所述图像标签的分级信息；基于所述分级信息，将所述语义图像标签集合中的图像标签作为分级实体添加至所述调整后图像标签图谱，得到图像标签分级图谱。

可选的，在一些实施例中，所述构建单元，具体可以用于在所述图像标签集合中识别出每一所述图像标签中的文本词，得到文本词集合；根据预设文本词典，确定所述文本词集合中的文本词之间的词关系，并将所述词关系作为所述图像标签之间的文本关系。

可选的，在一些实施例中，所述构建单元，具体可以用于在所述预设文本词典中识别出所述文本词集合中每一所述文本词对应的词网络信息；在所述词网络信息中提取出所述文本词对应的至少一个关系词集合；基于所述关系词集合，确定所述文本词集合中文本词之间的词关系。

可选的，在一些实施例中，所述构建单元，具体可以用于在所述文本词集合中确定出目标文本词，在所述目标文本词对应的关系词集合查询与所述目标文本词以外的文本词匹配的目标关系词；当存在所述目标关系词时，获取所述目标关系词与所述目标文本词之间的当前词关系；将所述当前词关系作为所述目标文本词与所述目标关系词对应的文本词之间的词关系，以得到所述文本词集合中文本词之间的词关系。

可选的，在一些实施例中，所述构建单元，具体可以用于获取候选图像集合，并对所述候选图像集合中每一候选图像进行图像识别，得到所述候选图像的当前图像标签；在预设图像标签集合中筛选出与所述当前图像标签存在关联关系的图像标签，得到关联图像标签；将所述关联图像标签和当前图像标签进行融合，得到所述候选图像集合对应的图像标签集合。

可选的，在一些实施例中，所述构建单元，具体可以用于采用至少一个图像识别模型对所述候选图像集合中的候选图像进行特征提取，得到所述图像识别模型对应的图像维度下的所述候选图像的图像特征；根据所述图像特征，确定所述候选图像在所述图像维度下的候选图像标签和所述候选图像标签的置信度；基于所述置信度，在所述候选图像标签中筛选出所述候选图像的当前图像标签。

可选的，在一些实施例中，所述构建单元，具体可以用于对所述候选图像进行哈希处理，得到所述候选图像的哈希值；根据所述哈希值和所述候选图像的图像属性信息，生成所述候选图像的图像元信息；基于所述当前图像标签，对所述候选图像进行分类，并基于分类结果和所述候选图像的哈希值，构建所述哈希值与当前图像标签的索引信息。

可选的，在一些实施例中，所述搜索单元，具体可以用于根据所述索引信息，在所述哈希值中识别出所述目标图像标签对应的目标哈希值；在所述图像元信息中筛选出所述目标哈希值对应的目标图像元信息；基于所述目标图像元信息，在所述图像标签集合对应的候选图像集合中搜索出至少一个目标图像。

可选的，在一些实施例中，所述匹配单元，具体可以用于计算所述关键词特征和所述实体特征之间的特征相似度，并对所述特征相似度进行归一化处理，得到所述关键词文本和实体之间的语义相似度；基于所述语义相似度，在所述图像标签集合中筛选出至少一个目标图像标签。可选的，在一些实施例中，所述图像搜索装置还可以包括展示单元，所述展示单元，具体可以用于将所述目标图像的当前图像标签对应的置信度和语义相似度进行融合，得到所述目标图像与所述搜索内容之间的内容相似度；基于所述内容相似度，对所述目标图像进行排序，得到所述目标图像的排序结果；将所述目标图像和所述目标图像的排序结果发送至终端，以便所述终端基于所述排序结果展示所述目标图像。

此外，本发明实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的图像搜索方法。

此外，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种图像搜索方法中的步骤。

本发明实施例在当接收到图像搜索请求时，对图像搜索请求中携带的搜索内容进行文本切词处理，得到搜索内容的关键词文本，然后，分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到关键词文本的关键词特征和实体的实体特征，将关键词特征与实体特征进行语义匹配处理，得到关键词文本匹配的至少一个目标图像标签然后，基于目标图像标签，在候选图像集合中搜索出至少一个目标图像；由于该方案可以在对接收到的搜索内容中切分出关键词文本后，将关键词文本与基于图像标签的文本关系构建的图像标签分级图谱中的实体进行语义匹配，从而匹配出关键词文本对应的目标图像标签，通过图像标签分级图谱不仅极大的扩充了标签库，也通过标签分级的方式，使得标签搜索结果更加贴近搜索意图，从而提升标签搜索的召回率，因此，可以提升图像搜索的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的图像搜索方法的场景示意图；

图2是本发明实施例提供的图像搜索方法的流程示意图；

图3是本发明实施例提供的基础图像标签图谱的示意图；

图4是本发明实施例提供的调整后图像标签图谱的示意图；

图5是本发明实施例提供的图像标签分级图谱的示意图；

图6是本发明实施例提供的内容搜索页面的页面示意图；

图7是本发明实施例提供的图像搜索的整体搜索流程示意图；

图8是本发明实施例提供的图像搜索框架的示意图；

图9是本发明实施例提供的搜索效果的对比示意图；

图10是本发明实施例提供的图像搜索的另一流程示意图；

图11是本发明实施例提供的图像搜索装置的结构示意图；

图12是本发明实施例提供的图像搜索装置的另一结构示意图；

图13是本发明实施例提供的图像搜索装置的另一结构示意图；

图14是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种图像搜索方法、装置、电子设备和计算机可读存储介质。其中，该图像搜索装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本发明实施例可应用于各种场景，包括但不限于云技术、云安全、人工智能、智慧交通、辅助驾驶等。

例如，参见图1，以图像搜索装置集成在电子设备中为例，电子设备当接收到图像搜索请求时，对图像搜索请求中携带的搜索内容进行文本切词处理，得到搜索内容的关键词文本，然后，分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到关键词文本的关键词特征和实体的实体特征，将关键词特征与实体特征进行语义匹配处理，得到关键词文本匹配的至少一个目标图像标签然后，基于目标图像标签，在候选图像集合中搜索出至少一个目标图像，进而提升图像搜索的准确性。

其中，可以理解的是，在本申请的具体实施方式中，涉及到搜索内容和候选图像集合中的候选图像等相关数据，当本申请以下实施例运用到具体产品或技术中时，需要获得许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从图像搜索装置的角度进行描述，该图像搜索装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备；其中，该终端可以包括平板电脑、笔记本电脑、以及个人计算机（PC，Personal Computer）、可穿戴设备、虚拟现实设备或其他可以进行图像搜索的智能设备等设备。

一种图像搜索方法，包括：

当接收到图像搜索请求时，对图像搜索请求中携带的搜索内容进行文本切词处理，得到搜索内容的关键词文本，分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到关键词文本的关键词特征和实体的实体特征，该图像标签分级图谱为基于图像标签之间的文本关系构建的分级图谱，将关键词特征与实体特征进行语义匹配，得到关键词匹配的至少一个目标图像标签，基于目标图像标签，在图像标签集合对应的候选图像集合中搜索出至少一个目标图像。

如图2所示，该图像搜索方法的具体流程如下：

101、当接收到图像搜索请求时，对图像搜索请求中携带的搜索内容进行文本切词处理，得到搜索内容的关键词文本。

其中，文本切词可以理解为在搜索内容切分出文本词，并在切分出的文本词中筛选出关键，从而得到关键词文本。所谓关键词文本用于指示搜索内容中的搜索关键词。

其中，当接收到图像搜索请求时，对图像搜索请求中携带的搜索内容进行文本切词处理的方式可以有多种，具体可以如下：

例如，当接收到图像搜索请求时，在图像搜索请求中提取出搜索内容，并根据搜索内容的内容类型，在搜索内容中提取出搜索文本，对搜索文本进行文本切词处理，从而得到至少一个文本词，在文本词中筛选出至少一个关键词，从而得到关键词文本。

其中，根据搜索内容的内容类型，在搜索内容中提取出搜索文本的方式可以有多种，比如，当搜索内容为文本内容时，就可以直接将文本内容作为搜索文本，当搜索内容为图像、音频和文本等其他非文本内容时，就可以搜索内容转换为文本内容，然后，将文本内容作为搜索文本。

其中，在文本词中筛选出至少一个关键词的方式可以有多种，比如，可以采用关键词识别模型对文本词进行文本特征提取，并根据提取出的文本词特征，确定该文本词的关键词信息，基于关键词信息，在文本词中筛选出至少一个文本词作为关键词，譬如，当搜索内容为“宠物照片”时，在搜索内容中提取出的文本词为“宠物”和“照片”，在这两个文本词中就筛选出“宠物”为关键词，从而得到关键词文本。

102、分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到关键词文本的关键词特征和实体的实体特征。

其中，图像标签分级图谱为基于图像标签之间的文本关系构建的分级图谱，还可以理解为为将图像标签进行分级处理后的知识图谱，与传统的知识图谱不一样的是实体之间存在分级关系，该分级关系可以包括上下位的分级和语义分级，从而可以更加准确的使得标签搜索结果更加贴近用户搜索意图。

其中，分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取的方式可以有多种，具体可以如下：

例如，可以分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，得到关键词文本的关键词特征和实体的基础实体特征，根据实体对应的图像标签之间的文本关系，确定实体的文本权重，基于文本权重，基于文本权重，对基础实体特征进行加权，得到实体的实体特征。

其中，分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取的方式可以有多种，比如，可以将关键词文本和图像标签分级图谱中的每一实体转换为多维词向量，从而得到关键词文本的关键词特征和实体的基础实体特征。转换成多维词向量的方式可以有多种，比如，可以采用ailab的中文词向量库将关键词文本和实体转换为200维的词向量，从而得到关键词文本的关键词特征和实体的基础实体特征。

在提取出实体的基础实体特征之后，还可以根据实体对应的图像标签之间的文本关系，确定实体的文本权重，文本权重用于指示图像标签分级图谱中实体之间的关联关系。确定实体的文本权重的方式可以有多种，比如，可以获取文本权重集合，并在文本权重集合中筛选出文本关系对应的文本权重，从而得到对应的实体的文本权重。

其中，在对图像标签分级图谱进行文本特征提取之前，还可以基于图像标签的文本关系构建图像标签分级图谱，构建图像标签分级图谱的方式可以有多种，比如，可以获取图像标签集合，并在图像标签集合中识别出图像标签之间的文本关系，基于文本关系，将图像标签作为实体构建图像标签分级图谱，具体可以如下：

S1、获取图像标签集合，并在图像标签集合中识别出图像标签之间的文本关系。

其中，图像标签可以为指示图像内容的标签信息，图像标签可以有多种类型，比如，可以为动物、人、风景照、夜晚或天气等等。

其中，文本关系可以为图像标签中的文本之间的关系，该文本关系可以包括语义关系和从属关系，所谓语义关系可以为文本词的语义之间的关系，比如，可以为同义词、近义词和反义词等等，所谓从属关系可以为文本词之间的包含关系，该从属关系可以有多种，比如，可以为上位关系和下位关系，以A包含A1和A2为例，则A1的上位词就可以为A，A1就可以为A的下位词，譬如，生物包含人和动物，则人的上位词就可以为生物，生物的下位词就可以为人和动物，等等。

其中，获取图像标签集合的方式可以有多种，具体可以如下：

例如，可以获取候选图像集合，并对候选图像集合中每一候选图像进行图像识别，得到候选图像的当前图像标签，在预设图像标签集合中筛选出与当前图像标签存在关联关系的图像标签，得到关联图像标签，将关联图像标签和当前图像标签进行融合，得到候选图像集合对应的图像标签集合。

其中，获取候选图像集合的方式可以有多种，比如，可以直接获取终端上传的至少一张图像，得到候选图像集合，或者，可以在图像数据库或者内容数据库中提取出至少一个候选图像，从而得到候选图像集合，或者，可以获取原始视频，对原始视频进行分帧，并在视频帧中筛选出至少一张候选图像，从得到候选图像集合，或者，还可以接收图像存储请求，该图像存储请求中携带至少一张候选图像的存储地址，基于该存储地址，获取候选图像，从而得到候选图像集合。

在获取候选图像集合之后，便可以对候选图像集合中每一候选图像进行图像识别，图像识别的方式可以有多种，比如，可以采用至少一个图像识别模型对候选图像集合中的候选图像进行特征提取，得到图像识别模型对应的图像维度下的候选图像的图像特征，根据图像特征，确定候选图像在图像维度下的候选图像标签和候选图像标签的置信度，基于置信度，在候选图像标签中筛选出候选图像的当前图像标签。

其中，对候选图像进行图像识别主要是通过部署多模型，用于识别出候选图像中的各种类型的标签，比如，候选图像所在的场景、图像中的物品名称、图像任务等等。另外，在对候选图像进行图像识别时，还可以通过上传事件进行触发，当终端上传候选图像时，将候选图像的上传时间保存到异步任务队列中，在异步线程中采用至少一个图像识别模型分析出图像标签。

其中，置信度可以理解为候选图像的图像标签为当前图像标签的概率信息，基于置信度，在候选图像标签中筛选出候选图像的当前图像标签的方式可以有多种，比如，可以基于置信度，将候选图像的候选图像标签进行排序，基于排序结果，在候选图像标签中筛选出一个或多个图像标签作为候选图像的当前图像标签。

可选的，在基于置信度，在候选图像标签中筛选出候选图像的图像标签之后，还可以对候选图像进行处理，处理的方式可以有多种，比如，可以对候选图像进行哈希处理，得到候选图像的哈希值，根据哈希值和候选图像的图像属性信息，生成候选图像的图像元信息，基于当前图像标签，对候选图像进行分类，并基于分类结果和候选图像的哈希值，构建哈希值与当前图像标签的索引信息。

其中，图像元信息用于指示候选图像的图像信息，图像元信息可以包括候选图像的图像名称、哈希值、图像存储地址、图像尺寸信息等等。

其中，索引信息可以为候选图像的哈希值与当前图像标签之间的索引关系的信息。通过es的倒排索引，就可以方便的根据图像标签索引到该图像标签的所有图像的哈希值，从而搜索到该目标图像。

在获取图像标签集合之后，便可以在图像标签集合中识别出图像标签之间的文本关系，识别文本关系的方式可以有多种，比如，可以在图像标签集合中识别出每一图像标签中的文本词，得到文本词集合，根据预设文本词典，确定文本词集合中的文本词之间的词关系，并将词关系作为图像标签之间的文本关系。

其中，词关系可以理解为文本词之间词性的关系，比如，可以包括同义词、近义词、反义词、上位词和下位词等等。预设文本词典可以理解为预先设定的包含各种词以及词关系的词典或者词图谱。根据预设文本词典，确定文本词集合中的文本词之间的词关系的方式可以有多种，比如，可以在预设文本词典中识别出文本词集合中每一文本词对应的词网络信息，在词网络信息中提取出文本词对应的至少一个关系词集合，基于关系词集合，确定文本词集合中文本词之间的词关系。

其中，词网络信息可以理解为与该文本词存在词关系的文本词组成的关系网络的信息。词网络信息中可以包括每一类词关系对应的关系词集合。基于关系词集合，确定文本词集合中文本词之间的词关系的方式可以有多种，比如，在文本词集合中确定出目标文本词，在目标文本词对应的关系词集合中查询与目标文本词以外的文本词匹配的目标关系词，当存在目标关系词时，获取目标关系词与目标文本词之间的当前词关系，将当前词关系作为目标文本词与目标关系词对应的文本词之间的词关系，以得到文本词集合中文本词之间的词关系。

其中，目标文本词可以为文本词集合中的任意一个文本词，获取目标关系词与目标文本词之间的当前词关系的方式可以有多种，比如，可以根据目标关系词所在的关系词集合的集合类型，确定目标关系词与目标文本词之间的当前词关系，譬如，以集合类型为同义词集合为例，则目标关系词与目标文本词之间的当前词关为同义词关系，或者，还可以直接获取目标关系词的关系类型，将该关系类型作为目标文本词与目标关系词之间的当前词关系，以关系类型为上位关系为例，则目标文本词与目标关系词之间的当前词关系就可以为上位词关系。

在获取当前词关系之后，便可以将当前词关系作为目标文本词与目标关系词对应的文本词之间的关系，从而得到文本词集合中文本词之间的词关系，比如，将当前词关系作为目标文本词与目标关系词对应的文本词之间的词关系，返回执行在文本词集合中确定出目标文本词的步骤，直至文本词集合中所有文本词均作为目标文本词时为止，从而得到文本词集合中文本词之间的词关系。

S2、基于文本关系，将图像标签作为实体构建图像标签分级图谱。

其中，图像标签分级图谱可以为将图像标签进行分级处理后的知识图谱，与传统的知识图谱不一样的是实体之间存在分级关系，该分级关系可以包括上下位的分级和语义分级，从而可以更加准确的使得标签搜索结果更加贴近用户搜索意图。

其中，文本关系包括从属关系和语义关系，基于文本关系，将图像标签作为实体构建图像标签分级图谱的方式可以有多种，具体可以如下：

例如，基于从属关系，将图像标签作为实体构建知识图谱，得到基础图像标签图谱，根据语义关系，对基础图像标签图谱进行分级处理，得到图像标签分级图谱。

其中，基于从属关系，将图像标签作为实体构建知识图谱的方式可以有多种，比如，可以在图像标签集合中筛选出存在从属关系的图像标签，得到从属图像标签集合，根据从属关系的关系类型，对从属图像标签集合中的图像标签进行分类，基于分类结果，将从属图像标签集合中的图像标签作为实体构建知识图谱，得到基础图像标签图谱。

其中，从属关系的关系类型可以有多种，比如，可以包括上位关系和下位关系，因此，根据从属关系的关系类型，对从属图像标签集合中的图像标签进行分类的方式可以有多种，比如，可以将从属图像标签集合中的图像标签分为上位图像标签和下位图像标签。

在对从属图像标签集合中的图像标签进行分类之后，便可以基于分类结果，将从属图像标签集合中的图像标签作为实体构建知识图谱，构建知识图谱的方式可以有多种，比如，可以采用wordnet图谱按照从属图像标签集合中的图像标签之间的上/下位关系构建知识图谱，从而得到基础图像标签图谱，基础图像标签图谱可以如图3所示。

在构建出基础图像标签图谱之后，便可以根据语义关系，对基础图像标签图谱进行分级处理的方式可以有多种，比如，可以在基础标签图谱中筛选出存在语义关系的图像标签对应的实体，得到至少一个实体对，基于实体对的语义关系，对基础图像标签图谱进行调整，得到调整后图像标签图谱，在图像标签集合中筛选出与调整后图像标签图谱上的实体对应的图像标签存在语义关系的图像标签，以得到图像标签分级图谱。

其中，基于实体对的语义关系，对基础图像标签图谱进行调整，调整的方式可以有多种，比如，以实体对的语义关系为反义词时，就可以在基础图像标签图谱中对该实体对添加该语义关系，从而得到调整后图像标签图谱，以基础图像标签图谱为图3为例，对该基础图像标签图谱进行调整后得到的调整后图像标签图谱可以如图4所示。

在对基础图像标签图谱进行调整之后，便可以在图像标签集合中筛选出与调整后图像标签图谱上的实体对应的图像标签存在语义关系的图像标签，从而得到图像标签分级图谱，筛选的方式可以有多种，比如，可以在图像标签集合中筛选出与调整后图像标签图谱上的实体对应的图像标签存在语义关系的图像标签，得到语义图像标签集合，根据语义图像标签集合中每一图像标签对应的语义关系，确定图像标签的分级信息，基于分级信息，将语义图像标签集合中的图像标签作为分级实体添加至调整后图像标签图谱，得到图像标签分级图谱。

其中，分级信息可以理解为语义图像标签集合中的图像标签在调整后图像标签图谱中的分级位置信息，该分级位置信息用于指示语义图像标签集合中的图像标签在调整图像标签图谱中的分级位置。根据语义图像标签集合中每一图像标签对应的语义关系，确定图像标签的分级信息的方式可以有多种，比如，在调整后图像标签图谱中识别出与语义图像标签集合中每一图像标签存在语义关系的目标实体，获取目标实体在调整后图像标签图谱的实体位置信息，根据实体位置信息和图像标签与目标实体之间的语义关系，确定该图像标签的分级信息。

在确定分级信息之后，便可以将语义标签集合中的图像标签作为分级实体添加至调整后图像标签图谱，从而得到图像标签分级图谱，将分级实体添加至调整后图像标签图谱的方式可以有多种，比如，根据分级信息，在调整后标签图谱中识别出分级信息对应的图像标签的添加位置，根据添加位置，将语义图像标签集合中的语义标签作为分级实体添加至调整后图像标签图谱中，从而得到图像标签分级图谱，以调整后图像标签图谱如图4为例，将分级实体添加至调整后图像标签图谱之后，从而就可以得到图像标签分级图谱，图像标签分级图谱就可以如图5所示。

可选的，对于构建图像标签分级图谱来说，还可以将图像标签作为实体，基于图像标签的文本关系，从而确定实体之间的实体关系，基于该实体关系，构建实体之间的知识图谱，从而直接得到图像标签分级图谱。

103、将关键词特征和实体特征进行语义匹配处理，得到与关键词文本匹配的至少一个目标图像标签。

其中，语义匹配处理可以理解为将关键词文本与图像标签进行语义匹配，从而筛选出与关键词文本匹配的目标图像标签。

其中，将关键词特征和实体特征进行语义匹配的方式可以有多种，具体可以如下：

例如，可以计算关键词特征与实体特征之间的特征相似度，并对特征相似度进行归一化处理，得到关键词文本和实体之间的语义相似度，基于语义相似度，在图像标签集合中筛选出至少一个目标图像标签。

其中，计算相似度的方式可以有多种，比如，以关键词特征和实体特征为词向量为例，就可以计算词向量之间的余弦相似度，将余弦相似度作为实体特征和关键词特征之间的相似度，具体可以如公式（1）和（2）所示：

其中，A为关键词特征的多维词向量，B为实体特征的多维词向量，cos(θ)为关键词特征的多维词向量与实体特征的多维词向量之间的余弦夹角， simillarity为关键词特征和实体特征之间的余弦相似度。

在计算出特征相似度之后，便可以对特征相似度进行归一化处理，得到关键词文本和实体之间的语义相似度，归一化处理的方式可以有多种，比如，可以将每一维度的词向量之间的余弦相似度进行归一化，得到归一化后的特征相似度，并将归一化后的特征相似度进行融合，从而得到关键词文本和实体之间的语义相似度，以关键词文本为宠物，实体对应的图像标签为动物，关键词特征和实体特征为200维的词向量为例，关键词文本和实体之间的语义相似度可以如表1所示：

表1

在得到关键词文本和实体之间的语义相似度之后，便可以基于语义相似度，在图像标签集合中筛选出至少一个目标图像标签，筛选出目标图像标签的方式可以有多种，比如，可以在图像标签集合中筛选出语义相似度超过预设相似度阈值的图像标签，得到候选图像标签集合，并基于候选图像标签集合中的图像标签对应的语义相似度，对候选图像标签集合中的图像标签进行排序，基于排序结果，在候选图像标签集合中筛选出至少一个目标图像标签，或者，还可以基于图像标签分级图谱中实体对应的图像标签之前的文本关系，确定实体对应的关联权重，并基于关联权重对实体对应的语义相似度进行加权，得到加权后语义相似度，根据加权后语义相似度在图像标签集合中筛选出至少一个目标图像标签。

104、基于目标图像标签，在候选图像集合中搜索出至少一个目标图像。

例如，可以根据索引信息，在哈希值中识别出目标图像标签对应的目标哈希值，在图像元信息中筛选出目标哈希值对应的目标图像元信息，基于目标图像元信息，在图像标签集合对应的候选图像集合中搜索出至少一个目标图像。

其中，在哈希值中识别出目标图像标签对应的目标哈希值的方式可以有多种，比如，可以基于索引信息，通过es的倒排索引，在哈希值中识别出与目标图像标签关联的哈希值，从而得到目标图像标签对应的目标哈希值。

在识别出目标哈希值之后，便可以在图像元信息中筛选出目标哈希值对应的目标图像元信息，筛选出目标图像元信息的方式可以有多种，比如，由于图像元信息中包含候选图像的哈希值，因此，只需要在图像元信息中筛选出包含目标哈希值的图像元信息，从而就可以得到目标哈希值对应的目标图像元信息。

在筛选出目标图像元信息之后，便可以基于目标图像元信息，在图像标签集合对应的候选图像集合中搜索出至少一个目标图像，搜索目标图像的方式可以有多种，比如，获取图像标签集合对应的候选图像集合，在图像元信息中识别出目标图像在候选图像集合中的存储地址，基于该存储地址，在候选图像集合中搜索出目标图像。

在搜索出至少一个目标图像之后，还可以对目标图像进行展示，展示的方式可以有多种，比如，可以将目标图像的当前图像标签对应的置信度和语义相似度进行融合，得到目标图像与搜索内容之间的内容相似度，基于内容相似度，对目标图像进行排序，得到目标图像的排序结果，将目标图像和目标图像的排序结果发送至终端，以便终端基于排序结果展示目标图像。

其中，内容相似度可以理解为搜索内容与目标图像之间的相似度，将目标图像的当前图像标签对应的置信度和语义相似度进行融合的方式可以有多种，比如，可以直接将目标图像的当前图像标签对应的置信度和语义相似度相乘，从而得到目标图像与搜索内容之间的内容相似度，或者，还可以获取置信度和语义相似度分别对应的加权参数，基于该加权参数，分别对置信度和语义相似度进行加权，并将加权后置信度和加权后语义相似度进行融合，从而得到目标图像和搜索内容之间的内容相似度。

在计算出内容相似度之后，便可以基于内容相似度，对目标图像进行排序，排序的方式可以有多种，比如，可以直接将目标图像和目标图像对应的内容相似度发送至终端，以便终端基于内容相似度，对目标图像进行排序，从而得到目标图像的排序结果，或者，还可以直接按照内容相似度的大小，对目标图像进行排序，从而得到目标图像的排序结果。

在对目标图像进行排序之后，便可以将目标图像和目标图像的排序结果发送至终端，以便终端基于排序结果展示目标图像，终端展示目标图像的方式可以有多种，比如，可以按照排序结果，在内容搜索页面直接展示目标图像，以搜索内容为植物为例，展示与植物相关的目标图像的内容搜索页面可以如图6所示。

其中，需要说明的是，图像搜索的整体搜索流程可以如图7所示，主要包括图像理解、保存图像标签、文本切词、语义召回、按照图像标签索引图像和排序等，具体可以如下：

（1）图像理解：采用至少一个图像识别模型对终端上传的候选图像进行特征提取，得到每一图像识别模型对应的图像维度下的候选图像的图像特征，并根据图像特征，确定候选图像在该图像维度下的候选图像标签和该候选图像标签的置信度，然后，基于该置信度，在候选图像标签中筛选出候选图像的当前图像标签。图像标签的类型可以有多种，比如，可以包括动物、人、风景照、夜晚，等等；

（2）保存图像标签：根据步骤一的图像识别模型分类出来的图像标签，将候选图像及其识别到的候选图像的当前图像标签和匹配度（置信度）进行存储。以图7为例，图像1的哈希值为sha1，识别到动物标签，该标签的置信度为0.81。则在图像库中记录sha1:动物（0.81）；

（3）文本切词：当用户在终端的搜索框输入搜索词进行图像搜索时，对搜索词进行文本切词处理，得到至少一个文本词，并在文本词中筛选出至少一个关键词，比如，以图中用户输入：宠物照片为例，通过文本切词流程，便可提取出关键词“宠物”到下个步骤；

（4）语义召回：将AI模型库中的所有的图像识别模型支持输出的所有图像标签保存到一起，对候选图像的当前图像标识进行语义扩充，得到图像标签集合，比如，可以在将图像标签按近义词等方式进行扩充，从而生成图像标签集合。再将上一步骤提取的关键词和图像标签集合中的所有图像标签的标签词进行语义匹配，从而得到搜索词对应的至少一个目标图像标签，比如，如用户搜索词“宠物”和图像标签集合中的“动物”标签相似度为0.9，超过阈值，则成功匹配到动物标签。通过语义召回，搜索词已经成功匹配到了“动物”标签；

（5）按标签索引图像：根据索引信息，在哈希值中识别出目标图像标签对应的目标哈希值，在图像元信息中筛选出目标哈希值对应的目标图像元信息，基于目标图像元信息，在图像标签集合对应的候选图像集合中搜索出至少一个目标图像。如搜索词匹配到了“动物”标签，本逻辑则是去候选图像集合中查找所有图像标签为“动物”的图像的哈希值，进而索引出该哈希值的图像元数据，从而得到至少一张目标图像；

（6）排序：将目标图像的当前图像标签对应的置信度和语义相似度进行融合，得到目标图像与搜索内容之间的内容相似度，基于内容相似度，对目标图像进行排序，得到目标图像的排序结果，将目标图像和目标图像的排序结果发送至终端，以便终端基于排序结果展示目标图像。

其中，在对图像进行搜索时，采用的图像搜索框架可以如图8所示，整个图像搜索框架分为三层，分别为接入层、逻辑层和存储层，接入层可以为一个网关，负载将终端或客户端的请求发送到服务端，逻辑层主要分为4个模块，具体可以如下：

（1）图像理解模块：该模块决定何时对上传的图像进行理解分析，生成图像标签。图像理解主要是根据上传事件触发，当接收到图像上传时，则将图像上传时间保存到异步任务队列中，在异步处理线程中将图像使用模型库中的图像识别模型分析出图像标签。

（2）多模型部署模块：该模块中需要搭建一个统一的多模型部署框架，统一部署多个AI模型（图像识别模型），用于识别出图像中的各种类型的标签，比如，可以为图像所在场景，图像中物品名称、图像人物等。

（3）标签召回模块：该模块主要是包括分词、语义理解、知识图谱、相似度计算等逻辑。将输入词通过一系列子模块最终匹配到图像标签。分词可以采用结巴中文分词软件，分析出名词。语义理解模型用于在语义层面理解用户搜索词和标签库标签词之间的关系。知识图谱用于扩充标签库，提高覆盖率。相似度计算则用户提供一种评估方法，评估两个中文词之间的距离。

（4）图像召回模块：该模块根据识别到的图像标签去候选图像集合中进行索引图像，并排序召回目标图像。

存储层主要用于候选图像（上传的图像）、图像标签和图像识别模型等数据的存储，主要包括括k-v存储（redis），非关系存储（es）和消息队列（kafka），k-v存储用于存储图像元数据，如图像名称，哈希值，图像url（地址），图像宽、高等信息。非关系存储主要用于存储图像的哈希值和图像标签的索引关系。通过es的倒排索引，可以方便的根据图像标签索引到该图像标签的所有图像的哈希值，从而找到目标图像。消息队列主要用于保存异步任务。

其中，本方案中通过语义理解的方式，将用户搜索词和标签词向量化，通过计算向量相似度极大的提升了标签的匹配能力，另外，通过自动化生成的标签分级图谱，不仅极大的扩充了标签库，也通过标签分级的方式，使得标签搜索结果更加贴近用户搜索意图。采用本方案的搜索效果对比可以如图9所示，图像标签搜索的召回率从之前的33.8%提升到了63%。总共提升了86%。

由以上可知，本申请实施例当接收到图像搜索请求时，对图像搜索请求中携带的搜索内容进行文本切词处理，得到搜索内容的关键词文本，然后，分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到关键词文本的关键词特征和实体的实体特征，将关键词特征与实体特征进行语义匹配处理，得到关键词文本匹配的至少一个目标图像标签，然后，基于目标图像标签，在候选图像集合中搜索出至少一个目标图像；由于该方案可以在对接收到的搜索内容中切分出关键词文本后，将关键词文本与基于图像标签的文本关系构建的图像标签分级图谱中的实体进行语义匹配，从而匹配出关键词文本对应的目标图像标签，通过图像标签分级图谱不仅极大的扩充了标签库，也通过标签分级的方式，使得标签搜索结果更加贴近搜索意图，从而提升标签搜索的召回率，因此，可以提升图像搜索的准确性。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该图像搜索装置具体集成在电子设备，电子设备为服务器为例进行说明。

如图10所示，一种图像搜索方法，具体流程如下：

201、服务器获取图像标签集合。

例如，服务器可以直接获取终端上传的至少一张图像，得到候选图像集合，或者，可以在图像数据库或者内容数据库中提取出至少一个候选图像，从而得到候选图像集合，或者，可以获取原始视频，对原始视频进行分帧，并在视频帧中筛选出至少一张候选图像，从得到候选图像集合，或者，还可以接收图像存储请求，该图像存储请求中携带至少一张候选图像的存储地址，基于该存储地址，获取候选图像，从而得到候选图像集合。

服务器可以采用至少一个图像识别模型对候选图像集合中的候选图像进行特征提取，得到图像识别模型对应的图像维度下的候选图像的图像特征，根据图像特征，确定候选图像在图像维度下的候选图像标签和候选图像标签的置信度，基于置信度，将候选图像的候选图像标签进行排序，基于排序结果，在候选图像标签中筛选出一个或多个图像标签作为候选图像的当前图像标签。

可选的，服务器在基于置信度，在候选图像标签中筛选出候选图像的图像标签之后，还可以对候选图像进行处理，比如，服务器可以对候选图像进行哈希处理，得到候选图像的哈希值，根据哈希值和候选图像的图像属性信息，生成候选图像的图像元信息，基于当前图像标签，对候选图像进行分类，并基于分类结果和候选图像的哈希值，构建哈希值与当前图像标签的索引信息。

202、服务器在图像标签集合中识别出图像标签之间的文本关系。

例如，服务器可以在图像标签集合中识别出每一图像标签中的文本词，得到文本词集合。在预设文本词典中识别出文本词集合中每一文本词对应的词网络信息，在词网络信息中提取出文本词对应的至少一个关系词集合，在文本词集合中确定出目标文本词，在目标文本词对应的关系词集合中查询与目标文本词以外的文本词匹配的目标关系词，当存在目标关系词时，根据目标关系词所在的关系词集合的集合类型，确定目标关系词与目标文本词之间的当前词关系，譬如，以集合类型为同义词集合为例，则目标关系词与目标文本词之间的当前词关为同义词关系，或者，还可以直接获取目标关系词的关系类型，将该关系类型作为目标文本词与目标关系词之间的当前词关系，以关系类型为上位关系为例，则目标文本词与目标关系词之间的当前词关系就可以为上位词关系。将当前词关系作为目标文本词与目标关系词对应的文本词之间的词关系，返回执行在文本词集合中确定出目标文本词的步骤，直至文本词集合中所有文本词均作为目标文本词时为止，从而得到文本词集合中文本词之间的词关系。

203、服务器基于文本关系，将图像标签作为实体构建图像标签分级图谱。

例如，服务器可以在图像标签集合中筛选出存在从属关系的图像标签，得到从属图像标签集合，将从属图像标签集合中的图像标签分为上位图像标签和下位图像标签。采用wordnet图谱按照从属图像标签集合中的图像标签之间的上/下位关系构建知识图谱，从而得到基础图像标签图谱。

服务器在基础标签图谱中筛选出存在语义关系的图像标签对应的实体，得到至少一个实体对，基于实体对的语义关系，在基础标签图谱中的实体对中添加该语义关系，得到调整后图像标签图谱，在图像标签集合中筛选出与调整后图像标签图谱上的实体对应的图像标签存在语义关系的图像标签，以得到图像标签分级图谱。

服务器可以在图像标签集合中筛选出与调整后图像标签图谱上的实体对应的图像标签存在语义关系的图像标签，得到语义图像标签集合，在调整后图像标签图谱中识别出与语义图像标签集合中每一图像标签存在语义关系的目标实体，获取目标实体在调整后图像标签图谱的实体位置信息，根据实体位置信息和图像标签与目标实体之间的语义关系，确定该图像标签的分级信息。根据分级信息，在调整后标签图谱中识别出分级信息对应的图像标签的添加位置，根据添加位置，将语义图像标签集合中的语义标签作为分级实体添加至调整后图像标签图谱中，从而得到图像标签分级图谱。

可选的，服务器还可以将图像标签作为实体，基于图像标签的文本关系，从而确定实体之间的实体关系，基于该实体关系，构建实体之间的知识图谱，从而直接得到图像标签分级图谱。

204、当接收到图像搜索请求时，服务器对图像搜索请求中携带的搜索内容进行文本切词处理，得到搜索内容的关键词文本。

例如，当服务器接收到的搜索内容为文本内容时，就可以直接将文本内容作为搜索文本，当接收到的搜索内容为图像、音频和文本等其他非文本内容时，就可以搜索内容转换为文本内容，然后，将文本内容作为搜索文本。采用结巴中文分词工具对文本词进行文本特征提取，并根据提取出的文本词特征，确定该文本词的关键词信息，基于关键词信息，在文本词中筛选出至少一个文本词作为关键词。

205、服务器分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到关键词文本的关键词特征和实体的实体特征。

例如，服务器采用ailab的中文词向量库将关键词文本和实体转换为200维的词向量，从而得到关键词文本的关键词特征和实体的基础实体特征。获取文本权重集合，并在文本权重集合中筛选出文本关系对应的文本权重，从而得到对应的实体的文本权重。基于文本权重，基于文本权重，对基础实体特征进行加权，得到实体的实体特征。

206、服务器将关键词特征和实体特征进行语义匹配处理，得到与关键词文本匹配的至少一个目标图像标签。

例如，以关键词特征和实体特征为词向量为例，服务器就可以计算词向量之间的余弦相似度，将余弦相似度作为实体特征和关键词特征之间的相似度，具体可以如公式（1）和（2）所示。将每一维度的词向量之间的余弦相似度进行归一化，得到归一化后的特征相似度，并将归一化后的特征相似度进行融合，从而得到关键词文本和实体之间的语义相似度。

服务器在图像标签集合中筛选出语义相似度超过预设相似度阈值的图像标签，得到候选图像标签集合，并基于候选图像标签集合中的图像标签对应的语义相似度，对候选图像标签集合中的图像标签进行排序，基于排序结果，在候选图像标签集合中筛选出至少一个目标图像标签，或者，还可以基于图像标签分级图谱中实体对应的图像标签之前的文本关系，确定实体对应的关联权重，并基于关联权重对实体对应的语义相似度进行加权，得到加权后语义相似度，根据加权后语义相似度在图像标签集合中筛选出至少一个目标图像标签。

207、服务器基于目标图像标签，在候选图像集合中搜索出至少一个目标图像。

例如，服务器可以基于索引信息，通过es的倒排索引，在哈希值中识别出与目标图像标签关联的哈希值，从而得到目标图像标签对应的目标哈希值。在图像元信息中筛选出包含目标哈希值的图像元信息，从而就可以得到目标哈希值对应的目标图像元信息。获取图像标签集合对应的候选图像集合，在图像元信息中识别出目标图像在候选图像集合中的存储地址，基于该存储地址，在候选图像集合中搜索出目标图像。

208、服务器对目标图像进行排序，并将目标图像和目标图像的排序结果发送至终端。

例如，服务器可以直接将目标图像的当前图像标签对应的置信度和语义相似度相乘，从而得到目标图像与搜索内容之间的内容相似度，或者，还可以获取置信度和语义相似度分别对应的加权参数，基于该加权参数，分别对置信度和语义相似度进行加权，并将加权后置信度和加权后语义相似度进行融合，从而得到目标图像和搜索内容之间的内容相似度。

服务器可以直接将目标图像和目标图像对应的内容相似度发送至终端，以便终端基于内容相似度，对目标图像进行排序，从而得到目标图像的排序结果，或者，还可以直接按照内容相似度的大小，对目标图像进行排序，从而得到目标图像的排序结果。

209、终端基于目标图像的排序结果展示该目标图像。

例如，终端按照排序结果，在内容搜索页面直接展示目标图像，或者，还可以按照排序结果将目标图像添加至内容展示区域，从而得到内容搜索页面，并展示该内容搜索页面。

由以上可知，本实施例服务器当接收到图像搜索请求时，对图像搜索请求中携带的搜索内容进行文本切词处理，得到搜索内容的关键词文本，然后，分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到关键词文本的关键词特征和实体的实体特征，将关键词特征与实体特征进行语义匹配处理，得到关键词文本匹配的至少一个目标图像标签，然后，基于目标图像标签，在候选图像集合中搜索出至少一个目标图像；由于该方案可以在对接收到的搜索内容中切分出关键词文本后，将关键词文本与基于图像标签的文本关系构建的图像标签分级图谱中的实体进行语义匹配，从而匹配出关键词文本对应的目标图像标签，通过图像标签分级图谱不仅极大的扩充了标签库，也通过标签分级的方式，使得标签搜索结果更加贴近搜索意图，从而提升标签搜索的召回率，因此，可以提升图像搜索的准确性。

为了更好地实施以上方法，本发明实施例还提供一种图像搜索装置，该图像搜索装置可以集成在电子设备，比如服务器或终端等设备中，该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。

例如，如图11所示，该图像搜索装置可以包括切词单元301、提取单元302、匹配单元303和搜索单元304，如下：

（1）切词单元301；

切词单元301，用于当接收到图像搜索请求时，对图像搜索请求中携带的搜索内容进行文本切词处理，得到搜索内容的关键词文本。

例如，切词单元301，具体可以用于当接收到图像搜索请求时，根据图像搜索请求中携带的搜索内容的内容类型，在搜索内容中提取出搜索文本，对搜索文本进行文本切词处理，从而得到至少一个文本词，在文本词中筛选出至少一个关键词，从而得到关键词文本。

（2）提取单元302；

提取单元302，具体可以用于分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到关键词文本的关键词特征和实体的实体特征，该图像标签分级图谱为基于图像标签之间的文本关系构建的分级图谱。

例如，提取单元302，具体可以用于分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，得到关键词文本的关键词特征和实体的基础实体特征，根据实体对应的图像标签之间的文本关系，确定实体的文本权重，基于文本权重，基于文本权重，对基础实体特征进行加权，得到实体的实体特征。

（3）匹配单元303；

匹配单元303，用于将关键词文本与图像标签分级图谱中的每一实体进行语义匹配处理，得到与所述关键词文本匹配的至少一个目标图像标签。

例如，匹配单元303，具体可以用于计算关键词特征与实体特征之间的特征相似度，并对特征相似度进行归一化处理，得到关键词文本和实体之间的语义相似度，基于语义相似度，在图像标签集合中筛选出至少一个目标图像标签。

（4）搜索单元304；

搜索单元304，用于基于目标图像标签，在图像标签集合对应的候选图像集合中搜索出至少一个目标图像。

例如，搜索单元304，具体可以用于根据索引信息，在哈希值中识别出目标图像标签对应的目标哈希值，在图像元信息中筛选出目标哈希值对应的目标图像元信息，基于目标图像元信息，在图像标签集合对应的候选图像集合中搜索出至少一个目标图像。

可选的，图像搜索装置还可以包括构建单元305，如图12所示，具体可以如下：

构建单元305，用于基于图像标签之间的文本关系，构建图像标签分级图谱。

例如，构建单元305，具体可以用于获取图像标签集合，并在图像标签集合中识别出图像标签之间的文本关系，在图像标签集合中筛选出存在从属关系的图像标签，得到从属图像标签集合，根据从属关系的关系类型，对从属图像标签集合中的图像标签进行分类，基于分类结果，将从属图像标签集合中的图像标签作为实体构建知识图谱，得到基础图像标签图谱。在基础标签图谱中筛选出存在语义关系的图像标签对应的实体，得到至少一个实体对，基于实体对的语义关系，对基础图像标签图谱进行调整，得到调整后图像标签图谱，在图像标签集合中筛选出与调整后图像标签图谱上的实体对应的图像标签存在语义关系的图像标签，以得到图像标签分级图谱。可选的，图像搜索装置还可以包括展示单元306，如图13所示，具体可以如下：

展示单元306，用于目标图像进行排序，并将目标图像和目标图像的排序结果发送至终端，以便终端展示目标图像。

例如，展示单元306，具体可以用于将目标图像的当前图像标签对应的置信度和语义相似度进行融合，得到目标图像与搜索内容之间的内容相似度，基于内容相似度，对目标图像进行排序，得到目标图像的排序结果，将目标图像和目标图像的排序结果发送至终端，以便终端基于排序结果展示目标图像。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由以上可知，本实施例在切词单元301当接收到图像搜索请求时，对图像搜索请求中携带的搜索内容进行文本切词处理，得到搜索内容的关键词文本，然后，提取单元302分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到关键词文本的关键词特征和实体的实体特征，匹配单元303将所述关键词特征与所述实体特征进行语义匹配处理，得到所述关键词文本匹配的至少一个目标图像标签，然后，搜索单元304基于目标图像标签，在候选图像集合中搜索出至少一个目标图像；由于该方案可以在对接收到的搜索内容中切分出关键词文本后，将关键词文本与基于图像标签的文本关系构建的图像标签分级图谱中的实体进行语义匹配，从而匹配出关键词文本对应的目标图像标签，通过图像标签分级图谱不仅极大的扩充了标签库，也通过标签分级的方式，使得标签搜索结果更加贴近搜索意图，从而提升标签搜索的召回率，因此，可以提升图像搜索的准确性。

本发明实施例还提供一种电子设备，如图14所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图14中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

例如，电子设备获取候选图像集合，并对候选图像集合中每一候选图像进行图像识别，得到候选图像的当前图像标签，在预设图像标签集合中筛选出与当前图像标签存在关联关系的图像标签，得到关联图像标签，将关联图像标签和当前图像标签进行融合，得到候选图像集合对应的图像标签集合。在图像标签集合中识别出每一图像标签中的文本词，得到文本词集合，根据预设文本词典，确定文本词集合中的文本词之间的词关系，并将词关系作为图像标签之间的文本关系。在图像标签集合中筛选出存在从属关系的图像标签，得到从属图像标签集合，根据从属关系的关系类型，对从属图像标签集合中的图像标签进行分类，基于分类结果，将从属图像标签集合中的图像标签作为实体构建知识图谱，得到基础图像标签图谱。在基础标签图谱中筛选出存在语义关系的图像标签对应的实体，得到至少一个实体对，基于实体对的语义关系，对基础图像标签图谱进行调整，得到调整后图像标签图谱，在图像标签集合中筛选出与调整后图像标签图谱上的实体对应的图像标签存在语义关系的图像标签，以得到图像标签分级图谱。当接收到搜索内容时，根据搜索内容的内容类型，在搜索内容中提取出搜索文本，对搜索文本进行文本切词处理，从而得到至少一个文本词，在文本词中筛选出至少一个关键词，从而得到关键词文本。分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到关键词文本的关键词特征和实体的实体特征，计算关键词特征与实体特征之间的特征相似度，并对特征相似度进行归一化处理，得到关键词文本和实体之间的语义相似度，基于语义相似度，在图像标签集合中筛选出至少一个目标图像标签。根据索引信息，在哈希值中识别出目标图像标签对应的目标哈希值，在图像元信息中筛选出目标哈希值对应的目标图像元信息，基于目标图像元信息，在图像标签集合对应的候选图像集合中搜索出至少一个目标图像。将目标图像的当前图像标签对应的置信度和语义相似度进行融合，得到目标图像与搜索内容之间的内容相似度，基于内容相似度，对目标图像进行排序，得到目标图像的排序结果，将目标图像和目标图像的排序结果发送至终端，以便终端基于排序结果展示目标图像。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

由以上可知，本发明实施例在当接收到图像搜索请求时，对图像搜索请求中携带的搜索内容进行文本切词处理，得到搜索内容的关键词文本，然后，分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到关键词文本的关键词特征和实体的实体特征，该图像标签分级图谱为基于图像标签之间的文本关系构建的分级图谱，将关键词特征与实体特征进行语义匹配，得到关键词匹配的至少一个目标图像标签，然后，基于目标图像标签，在图像标签集合对应的候选图像集合中搜索出至少一个目标图像；由于该方案可以在对接收到的搜索内容中切分出关键词文本后，将关键词文本与基于图像标签的文本关系构建的图像标签分级图谱中的实体进行语义匹配，从而匹配出关键词文本对应的目标图像标签，通过图像标签分级图谱不仅极大的扩充了标签库，也通过标签分级的方式，使得标签搜索结果更加贴近搜索意图，从而提升标签搜索的召回率，因此，可以提升图像搜索的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种图像搜索方法中的步骤。例如，该指令可以执行如下步骤：

例如，获取候选图像集合，并对候选图像集合中每一候选图像进行图像识别，得到候选图像的当前图像标签，在预设图像标签集合中筛选出与当前图像标签存在关联关系的图像标签，得到关联图像标签，将关联图像标签和当前图像标签进行融合，得到候选图像集合对应的图像标签集合。在图像标签集合中识别出每一图像标签中的文本词，得到文本词集合，根据预设文本词典，确定文本词集合中的文本词之间的词关系，并将词关系作为图像标签之间的文本关系。在图像标签集合中筛选出存在从属关系的图像标签，得到从属图像标签集合，根据从属关系的关系类型，对从属图像标签集合中的图像标签进行分类，基于分类结果，将从属图像标签集合中的图像标签作为实体构建知识图谱，得到基础图像标签图谱。在基础标签图谱中筛选出存在语义关系的图像标签对应的实体，得到至少一个实体对，基于实体对的语义关系，对基础图像标签图谱进行调整，得到调整后图像标签图谱，在图像标签集合中筛选出与调整后图像标签图谱上的实体对应的图像标签存在语义关系的图像标签，以得到图像标签分级图谱。当接收到搜索内容时，根据搜索内容的内容类型，在搜索内容中提取出搜索文本，对搜索文本进行文本切词处理，从而得到至少一个文本词，在文本词中筛选出至少一个关键词，从而得到关键词文本。分别对关键词文本和图像标签分级图谱中的每一实体进行文本特征提取，以得到关键词文本的关键词特征和实体的实体特征，计算关键词特征与实体特征之间的特征相似度，并对特征相似度进行归一化处理，得到关键词文本和实体之间的语义相似度，基于语义相似度，在图像标签集合中筛选出至少一个目标图像标签。根据索引信息，在哈希值中识别出目标图像标签对应的目标哈希值，在图像元信息中筛选出目标哈希值对应的目标图像元信息，基于目标图像元信息，在图像标签集合对应的候选图像集合中搜索出至少一个目标图像。将目标图像的当前图像标签对应的置信度和语义相似度进行融合，得到目标图像与搜索内容之间的内容相似度，基于内容相似度，对目标图像进行排序，得到目标图像的排序结果，将目标图像和目标图像的排序结果发送至终端，以便终端基于排序结果展示目标图像。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本发明实施例所提供的任一种图像搜索方法中的步骤，因此，可以实现本发明实施例所提供的任一种图像搜索方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像搜索方面或者图像召回方面的各种可选实现方式中提供的方法。

以上对本发明实施例所提供的一种图像搜索方法、装置、电子设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像搜索方法，其特征在于，包括：

获取候选图像集合，并基于至少一个图像识别模型从不同图像维度对所述候选图像集合中的候选图像进行图像识别，得到每一候选图像的多个候选图像标签以及每个候选图像标签对应的标签置信度；

基于所述候选图像标签对应的标签置信度，从所述多个候选图像标签中筛选出所述候选图像的当前图像标签；

在预设图像标签集合中筛选出与所述当前图像标签存在关联关系的图像标签，得到关联图像标签；

将所述关联图像标签和所述当前图像标签进行融合，得到所述候选图像集合对应的图像标签集合；

在所述图像标签集合中识别出图像标签之间的文本关系，所述文本关系包括语义关系和从属关系；

基于所述从属关系，将所述图像标签作为实体构建知识图谱，得到基础图像标签图谱；

根据所述语义关系，对所述基础图像标签图谱进行分级处理，得到图像标签分级图谱；

分别对所述关键词文本和所述图像标签分级图谱中的每一实体进行文本特征提取，得到所述关键词文本的关键词特征和所述实体的基础实体特征；

根据所述实体对应的图像标签之间的文本关系，确定所述实体的文本权重；

基于所述文本权重，对所述基础实体特征进行加权，得到所述实体的实体特征；

计算所述关键词特征和所述实体特征之间的特征相似度，并对所述特征相似度进行归一化处理，得到所述关键词文本和实体之间的语义相似度；

基于所述语义相似度，在所述图像标签集合中筛选出至少一个目标图像标签；

根据所述目标图像标签的索引信息，在所述候选图像集合中搜索出至少一个目标图像，并计算所述目标图像的标签置信度与所述语义相似度之间的乘积，得到所述目标图像与所述搜索内容之间的内容相似度，其中，所述索引信息用于指示图像的哈希值与图像标签之间的索引关系；

基于所述内容相似度，对所述目标图像进行排序，得到所述目标图像的排序结果；

将所述目标图像和所述目标图像的排序结果发送至终端，以便所述终端基于所述排序结果展示所述目标图像。

2.根据权利要求1所述的图像搜索方法，其特征在于，所述基于所述从属关系，将所述图像标签作为实体构建知识图谱，得到基础图像标签图谱，包括：

在所述图像标签集合中筛选出存在从属关系的图像标签，得到从属图像标签集合；

根据所述从属关系的关系类型，对所述从属图像标签集合中的图像标签进行分类；

基于分类结果，将所述从属图像标签集合中的图像标签作为实体构建知识图谱，得到基础图像标签图谱。

3.根据权利要求1所述的图像搜索方法，其特征在于，所述根据所述语义关系，对所述基础图像标签图谱进行分级处理，得到图像标签分级图谱，包括：

在所述基础图像标签图谱中筛选出存在语义关系的图像标签对应的实体，得到至少一个实体对；

基于所述实体对的语义关系，对所述基础图像标签图谱进行调整，得到调整后图像标签图谱；

在所述图像标签集合中筛选出与所述调整后图像标签图谱上的实体对应的图像标签存在语义关系的图像标签，以得到图像标签分级图谱。

4.根据权利要求3所述的图像搜索方法，其特征在于，所述在所述图像标签集合中筛选出与所述调整后图像标签图谱上的实体对应的图像标签存在语义关系的图像标签，以得到图像标签分级图谱，包括：

在所述图像标签集合中筛选出与所述调整后图像标签图谱上的实体对应的图像标签存在语义关系的图像标签，得到语义图像标签集合；

根据所述语义图像标签集合中每一图像标签对应的语义关系，确定所述图像标签的分级信息；

基于所述分级信息，将所述语义图像标签集合中的图像标签作为分级实体添加至所述调整后图像标签图谱，得到图像标签分级图谱。

5.根据权利要求1所述的图像搜索方法，其特征在于，所述在所述图像标签集合中识别出图像标签之间的文本关系，包括：

在所述图像标签集合中识别出每一所述图像标签中的文本词，得到文本词集合；

根据预设文本词典，确定所述文本词集合中的文本词之间的词关系，并将所述词关系作为所述图像标签之间的文本关系。

6.根据权利要求5所述的图像搜索方法，其特征在于，所述根据预设文本词典，确定所述文本词集合中的文本词之间的词关系，包括：

在所述预设文本词典中识别出所述文本词集合中每一所述文本词对应的词网络信息；

在所述词网络信息中提取出所述文本词对应的至少一个关系词集合；

基于所述关系词集合，确定所述文本词集合中文本词之间的词关系。

7.根据权利要求6所述的图像搜索方法，其特征在于，所述基于所述关系词集合，确定所述文本词集合中文本词之间的词关系，包括：

在所述文本词集合中确定出目标文本词，在所述目标文本词对应的关系词集合查询与所述目标文本词以外的文本词匹配的目标关系词；

当存在所述目标关系词时，获取所述目标关系词与所述目标文本词之间的当前词关系；

将所述当前词关系作为所述目标文本词与所述目标关系词对应的文本词之间的词关系，以得到所述文本词集合中文本词之间的词关系。

8.根据权利要求1所述的图像搜索方法，其特征在于，所述基于至少一个图像识别模型从不同图像维度对所述候选图像集合中的候选图像进行图像识别，得到每一候选图像的多个候选图像标签以及每个候选图像标签对应的标签置信度，包括：

采用至少一个图像识别模型对所述候选图像集合中的候选图像进行特征提取，得到所述图像识别模型对应的图像维度下的所述候选图像的图像特征；

根据所述图像特征，确定所述候选图像在所述图像维度下的候选图像标签和所述候选图像标签的置信度。

9.根据权利要求1所述的图像搜索方法，其特征在于，所述基于所述候选图像标签对应的标签置信度，从所述多个候选图像标签中筛选出所述候选图像的当前图像标签之后，还包括：

对所述候选图像进行哈希处理，得到所述候选图像的哈希值；

根据所述哈希值和所述候选图像的图像属性信息，生成所述候选图像的图像元信息；

基于所述当前图像标签，对所述候选图像进行分类，并基于分类结果和所述候选图像的哈希值，构建所述哈希值与当前图像标签的索引信息。

10.根据权利要求1所述的图像搜索方法，其特征在于，所述根据所述目标图像标签的索引信息，在所述候选图像集合中搜索出至少一个目标图像，包括：

根据所述索引信息，在所述哈希值中识别出所述目标图像标签对应的目标哈希值；

在所述图像元信息中筛选出所述目标哈希值对应的目标图像元信息；

基于所述目标图像元信息，在所述图像标签集合对应的候选图像集合中搜索出至少一个目标图像。

11.一种图像搜索装置，其特征在于，包括：

图像标签分级图谱构建单元，用于获取候选图像集合，并基于至少一个图像识别模型从不同图像维度对所述候选图像集合中的候选图像进行图像识别，得到每一候选图像的多个候选图像标签以及每个候选图像标签对应的标签置信度；基于所述候选图像标签对应的标签置信度，从所述多个候选图像标签中筛选出所述候选图像的当前图像标签；在预设图像标签集合中筛选出与所述当前图像标签存在关联关系的图像标签，得到关联图像标签；将所述关联图像标签和所述当前图像标签进行融合，得到所述候选图像集合对应的图像标签集合；在所述图像标签集合中识别出图像标签之间的文本关系，所述文本关系包括语义关系和从属关系；基于所述从属关系，将所述图像标签作为实体构建知识图谱，得到基础图像标签图谱；根据所述语义关系，对所述基础图像标签图谱进行分级处理，得到图像标签分级图谱；

提取单元，用于分别对所述关键词文本和所述图像标签分级图谱中的每一实体进行文本特征提取，得到所述关键词文本的关键词特征和所述实体的基础实体特征，根据所述实体对应的图像标签之间的文本关系，确定所述实体的文本权重，基于所述文本权重，对所述基础实体特征进行加权，得到所述实体的实体特征；

匹配单元，用于计算所述关键词特征和所述实体特征之间的特征相似度，并对所述特征相似度进行归一化处理，得到所述关键词文本和实体之间的语义相似度，基于所述语义相似度，在所述图像标签集合中筛选出至少一个目标图像标签；

搜索单元，用于根据所述目标图像标签的索引信息，在所述候选图像集合中搜索出至少一个目标图像，并计算所述目标图像的标签置信度与所述语义相似度之间的乘积，得到所述目标图像与所述搜索内容之间的内容相似度，其中，所述索引信息用于指示图像的哈希值与图像标签之间的索引关系；基于所述内容相似度，对所述目标图像进行排序，得到所述目标图像的排序结果；将所述目标图像和所述目标图像的排序结果发送至终端，以便所述终端基于所述排序结果展示所述目标图像。

12.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至10任一项所述的图像搜索方法中的步骤。

13.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至10任一项所述的图像搜索方法中的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至10任一项所述的图像搜索方法中的步骤。