CN115357739A

CN115357739A - 图像的检索方法、装置、电子设备及存储介质

Info

Publication number: CN115357739A
Application number: CN202210983196.5A
Authority: CN
Inventors: 邓星; 周颖婕
Original assignee: Zhugao Intelligent Technology Shenzhen Co ltd
Current assignee: Zhugao Intelligent Technology Shenzhen Co ltd
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-18

Abstract

本发明实施例提供了一种图像的检索方法、装置、电子设备及存储介质，所述方法包括：获取多模态数据集合；将所述多模态数据集合发送至数据处理端，并接收所述数据处理端返回的与所述多模态数据集合对应的第一检索图像集合；显示所述第一检索图像集合；其中，所述多模态数据集合至少包括文本、原始图像、视频、标注图像中的一种。

Description

图像的检索方法、装置、电子设备及存储介质

技术领域

本发明涉及机器学习技术领域，特别是涉及一种图像的检索方法、一种图像的检索装置、一种电子设备以及一种计算机可读存储介质。

背景技术

随着信息时代的发展，网络上每时每刻都在以各种形式产生海量的图片、视频等数据。对此，衍生了通过图像进行内容检索的方式，用户可以通过输入某一张图像搜索其想要的内容。其中，对于海量产生的图片，若仅以简单的以图搜图的方式进行内容检索，则由于图片中所包含的内容过于宽泛，导致无法保证检索结果的准确性以及丰富性。

发明内容

本发明实施例是提供一种图像的检索方法、装置、电子设备及存储介质，以解决或部分解决内容搜索过程中存在搜索准确性不高的问题。

本发明实施例公开了一种图像的检索方法，应用于数据交互端，所述方法包括：

获取多模态数据集合；

将所述多模态数据集合发送至数据处理端，并接收所述数据处理端返回的与所述多模态数据集合对应的第一检索图像集合；

显示所述第一检索图像集合；

其中，所述多模态数据集合至少包括文本、原始图像、视频、标注图像中的一种。

可选地，所述将所述多模态数据集合发送至数据处理端，并接收所述数据处理端返回的与所述多模态数据集合对应的第一检索图像集合，包括：

响应于针对所述多模态数据集合的标注层级选择操作，确定与所述标注层级选择操作对应的标注层级；

响应于针对所述多模态数据集合的至少一种标注操作，根据至少一种所述标注操作对所述多模态数据集合进行标注，获得与所述标注层级对应的第一标注图像集合；

将所述第一标注图像集合发送至所述数据处理端，并接收所述数据处理端返回的与所述第一标注图像集合对应的第一检索图像集合。

可选地，所述响应于针对所述多模态数据集合的至少一种标注操作，根据至少一种所述标注操作对所述多模态数据集合进行标注，获得与所述标注层级对应的第一标注图像集合，包括：

若所述多模态数据集合为文本，则从所述文本中提取第一关键词，并将所述第一关键词发送至所述数据处理端，接收所述数据处理端返回的与所述第一关键词对应的至少一张第一检索图像；

若所述多模态数据集合为视频，则从所述视频中提取目标图像；

响应于针对所述第一检索图像和/或所述目标图像的至少一种标注操作，根据至少一种所述标注操作对所述第一检索图像和/或所述目标图像进行标注，获得与所述标注层级对应的第一标注图像集合。

可选地，所述标注层级包括对象层级，所述第一检索图像与所述目标图像至少包括第一目标对象，所述响应于针对所述第一检索图像和/或所述目标图像的至少一种标注操作，根据至少一种所述标注操作对所述检索图像和/或所述目标图像进行标注，获得与所述标注层级对应的第一标注图像集合，包括：

响应于针对第一目标对象的框选操作，在所述第一检索图像和/或所述目标图像中生成针对所述第一目标对象的标注框，获得第一标注图像集合；

和/或，响应于针对第一目标对象的划线操作，在所述第一检索图像和/或所述目标图像中生成针对所述第一目标对象的标注线，获得第一标注图像集合；

和/或，响应于针对第一目标对象的点选操作，在所述第一检索图像和/或所述目标图像中生成针对所述第一目标对象的标注点，获得第一标注图像集合。

可选地，所述标注层级包括像素层级，所述响应于针对所述第一检索图像和/或所述目标图像的至少一种标注操作，根据至少一种所述标注操作对所述检索图像和/或所述目标图像进行标注，获得与所述标注层级对应的第一标注图像集合，包括：

响应于针对第一检索图像和/或所述目标对象的框选操作，在所述第一检索图像和/或所述目标图像中生成针对所述第一检索图像和/或所述目标对象的标注框，将所述标注框所标注的内容作为第一目标对象，获得与所述第一目标对象对应的第一标注图像集合；

和/或，响应于针对第一检索图像和/或所述目标对象的划线操作，在所述第一检索图像和/或所述目标图像中生成针对所述第一检索图像和/或所述目标对象的标注线，将所述标注线所标注的内容作为第一目标对象，获得与所述第一目标对象对应的第一标注图像集合；

和/或，响应于针对第一检索图像和/或所述目标对象的点选操作，在所述第一检索图像和/或所述目标图像中生成针对所述第一检索图像和/或所述目标对象的标注点，将所述标注点所标注的内容作为第一目标对象，获得与所述第一目标对象对应的第一标注图像集合。

可选地，还包括：

根据所述标注操作和/或所述第一目标对象将所述第一标注图像集合存储至所述数据提供端。

可选地，所述第一检索图像集合中的第二检索图像至少包括第二目标对象以及针对所述第二目标对象的第二标签，所述显示所述第一检索图像集合之后，所述方法包括：

输出针对所述第一检索图像集合的确认信息，所述确认信息为提示确认所述第二标签所标注的第二目标对象是否满足预设条件的信息；

基于所述确认信息确认用户意图，若所述用户意图为所述第二检索图像均满足所述预设条件，则将所述第一检索图像集合发送至所述数据处理端；

若所述用户意图为所述第一检索图像集合至少一次均不满足所述预设条件，则输出针对所述第一检索图像集合的提示信息，所述提示信息至少包括图像数据补充提示信息、关键词补充提示信息、返回数量调节补充信息中至少一种。

可选地，还包括：

若所述用户意图为所述第一检索图像集合中存在至少一个第二检索图像中的至少一个第二标签不满足所述预设条件，则响应于针对未满足所述预设条件的第二检索图像中第二标签的调整操作，将调整后的第一检索图像集合发送至所述数据处理端。

可选地，还包括：

响应于数据添加指令，获取与所述数据添加指令对应的补充图像；

或，响应于关键词输入指令，获取与所述关键词输入指令对应的第二关键词，并将所述第二关键词发送至所述数据处理端，并接收所述数据处理端返回的与所述第二关键词对应的至少一张第三检索图像；

或，响应于数量调节指令，获取与所述数量调节指令对应的目标数量，并按照所述目标数量接收所述数据处理端返回的与所述多模态数据集合对应的第四检索图像。

本发明实施例还公开了一种图像的检索方法，应用于数据处理端，所述方法包括：

接收数据交互端发送的多模态数据集合；

从数据提供端中进行目标检索，获得与所述多模态数据集合对应的第一检索图像集合；

将所述第一检索图像集合返回所述数据交互端，以在所述数据交互端显示所述第一检索图像集合；

可选地，所述从数据提供端中进行目标检索，获得与所述多模态数据集合对应的第一检索图像集合，包括：

若所述多模态数据集合为第一关键词，则从所述数据提供端中获取与所述第一关键词对应的至少一张第一检索图像，并将所述第一检索图像返回至所述数据交互端；

接收所述数据交互端发送的与所述第一检索图像对应的第一标注图像集合；

从所述数据提供端中进行目标检索，获得与所述第一标注图像集合对应的第一检索图像集合。

可选地，所述第一标注图像集合中的第一标注图像包括第一目标对象，所述第一标注图像至少包括框选标注图像、划线标注图像、点选标注图像以及混标标注图像，所述混标标注图像为根据框选操作、划线操作、点选操作中的至少两种进行标注的图像，所述从所述数据提供端中进行目标检索，获得与所述第一标注图像集合对应的第一检索图像集合，包括：

采用所述框选标注图像、所述划线标注图像、所述点选标注图像以及所述混标标注图像中的至少一种在所述数据提供端中进行第一数据量检索，获得与所述第一目标对象匹配的第一检索图像集合。

可选地，所述将所述第一检索图像集合返回所述数据交互端之后，所述方法还包括：

接收所述数据交互端发送的第二关键词；

根据所述第二关键词从所述数据提供端中进行目标检索，获得与所述第二关键词对应的至少一张第三检索图像；

将所述第三检索图像发送至所述数据交互端。

可选地，还包括：

根据所述第一检索图像集合的图像数量，在所述数据提供端中进行目标检索，获得与所述第一检索图像集合对应的第二检索图像集合。

可选地，所述第一检索图像集合中的第二检索图像包括第二目标对象，所述根据所述第一检索图像集合的图像数量，在所述数据提供端中进行目标检索，获得与所述第一检索图像集合对应的第二检索图像集合，包括：

若所述图像数量大于或等于预设数量阈值，则在所述数据提供端中进行第一数据量检索，获得与所述第二目标对象匹配的第二检索图像集合；

若所述图像数量小于所述预设数量阈值，则在所述数据提供端中进行第二数据量检索，获得与所述第一检索图像集合对应的至少一张第五检索图像，并将所述第五检索图像返回所述数据交互端；

其中，所述第一数据量检索的图像数量大于所述第二数据量检索的图像数量。

可选地，还包括：

从所述数据提供端中获取抽象标签集合；

对所述第二检索图像集合进行解析，获取所述第六检索图像对应的标注层级，并按照所述标注层级识别出所述第二检索图像集合中第六检索图像包含的第三目标对象以及所述第三目标对象对应的待链接标签；

响应于针对所述第二检索图像集合的标签链接指令，将所述第六检索图像的待链接标签与所述抽象标签集合进行标签链接，获得链接成功的第二标注图像集合以及所述待链接标签对应的抽象标签。

可选地，所述按照所述标注层级识别出所述第二检索图像集合中第六检索图像包含的第三目标对象以及所述第三目标对象对应的待链接标签，包括：

若所述标注层级为图像层级，则识别出所述第二检索图像集合中第六检索图像对应的待链接标签；

若所述标注层级为对象层级，则识别出所述第二检索图像集合中第六检索图像所包含的第三目标对象以及所述第三目标对象对应的待链接标签；

若所述标注层级为像素层级，则识别出所述第二检索图像集合中第六检索图像所包含的第三目标对象以及所述第三目标对象对应的待链接标签。

可选地，还包括：

获取业务图像集合，所述业务图像集合中的业务图像至少包括第四目标对象以及与所述第四目标对象对应的业务标签；

若所述标注层级为图像层级，则将所述第六检索图像与所述业务图像进行图像标签链接，获得所述第六检索图像对应的真实标签；

若所述标注层级为对象层级，则将所述第三目标对象与所述第四目标对象进行对象标签链接，获得所述第三目标对象对应的真实标签；

若所述标注层级为像素层级，则将所述第三目标对象与所述第四目标对象进行像素标签链接，获得所述第三目标对象对应的真实标签。

可选地，还包括：

根据所述标注层级、所述标签类别中的至少一种将所述第二检索图像集合以及所述第六检索图像所对应的标签类别存储至所述数据提供端。

本发明实施例还公开了一种图像的检索系统，所述检索系统至少包括数据交互端、数据处理端以及数据提供端；其中，

所述数据交互端，用于获取多模态数据集合；将所述多模态数据集合发送至数据处理端；

所述数据处理端，用于从数据提供端中进行目标检索，获得与所述多模态数据集合对应的第一检索图像集合；将所述第一检索图像集合返回所述数据交互端。

可选地，所述数据交互端，用于：响应于针对所述多模态数据集合的标注层级选择操作，确定与所述标注层级选择操作对应的标注层级；响应于针对所述多模态数据集合的至少一种标注操作，根据至少一种所述标注操作对所述多模态数据集合进行标注，获得与所述标注层级对应的第一标注图像集合将所述第一标注图像集合发送至所述数据处理端；

所述数据处理端，用于从所述数据提供端中检索与所述第一标注图像集合对应的第一检索图像集合，并将所述第一检索图像集合发送至所述数据交互端。

可选地，所述数据交互端，用于若所述多模态数据集合为文本，则从所述文本中提取第一关键词，并将所述第一关键词发送至所述数据处理端，接收所述数据处理端返回的与所述第一关键词对应的至少一张第一检索图像；若所述多模态数据集合为视频，则从所述视频中提取目标图像；响应于针对所述第一检索图像和/或所述目标图像的至少一种标注操作，根据至少一种所述标注操作对所述第一检索图像和/或所述目标图像进行标注，获得与所述标注层级对应的第一标注图像集合。

可选地，所述标注层级包括对象层级；其中，

所述数据交互端，用于响应于针对第一目标对象的框选操作，在所述第一检索图像和/或所述目标图像中生成针对所述第一目标对象的标注框，获得第一标注图像集合；和/或，响应于针对第一目标对象的划线操作，在所述第一检索图像和/或所述目标图像中生成针对所述第一目标对象的标注线，获得第一标注图像集合；和/或，响应于针对第一目标对象的点选操作，在所述第一检索图像和/或所述目标图像中生成针对所述第一目标对象的标注点，获得第一标注图像集合；

可选地，所述标注层级包括像素层级；其中，

所述数据交互端，用于响应于针对第一检索图像和/或所述目标对象的框选操作，在所述第一检索图像和/或所述目标图像中生成针对所述第一检索图像和/或所述目标对象的标注框，将所述标注框所标注的内容作为第一目标对象，获得与所述第一目标对象对应的第一标注图像集合；

所述数据处理端，用于从所述数据提供端中检索与所述第一标注图像集合对应的第一检索图像集合，并将所述第一检索图像集合返回所述数据交互端。

可选地，所述第一标注图像集合中的第一标注图像包括第一目标对象，所述第一标注图像至少包括框选标注图像、划线标注图像、点选标注图像以及混标标注图像，所述混标标注图像为根据框选操作、划线操作、点选操作中的至少两种进行标注的图像；

所述数据处理端，用于采用所述框选标注图像、所述划线标注图像、所述点选标注图像以及所述混标标注图像中的至少一种在所述数据提供端中进行第一数据量检索，获得与所述第一目标对象匹配的第一检索图像集合。

可选地，所述数据交互端，用于输出针对所述第一检索图像集合的确认信息，所述确认信息为提示确认所述第二标签所标注的第二目标对象是否满足预设条件的信息；基于所述确认信息确认用户意图，若所述用户意图为所述第二检索图像均满足所述预设条件，则将所述第一检索图像集合发送至所述数据处理端；若所述用户意图为所述第一检索图像集合至少一次均不满足所述预设条件，则输出针对所述第一检索图像集合的提示信息，所述提示信息至少包括图像数据补充提示信息、关键词补充提示信息、返回数量调节补充信息中至少一种。

可选地，所述数据交互端，用于根据所述标注操作和/或所述第一目标对象将所述第一标注图像集合存储至所述数据提供端。

可选地，所述数据交互端，用于若所述用户意图为所述第一检索图像集合中至少一个第二检索图像的至少一个第二标签不满足所述预设条件，则响应于针对未满足所述预设条件的第二检索图像中第二标签的调整操作，将调整后的第一检索图像集合发送至所述数据处理端。

可选地，所述数据交互端，用于响应于关键词输入指令，获取与所述关键词输入指令对应的第二关键词，并将所述第二关键词发送至所述数据处理端；

所述数据处理端，用于接收所述数据交互端发送的第二关键词；根据所述第二关键词从所述数据提供端中进行目标检索，获得与所述第二关键词对应的至少一张第三检索图像；将所述第三检索图像发送至所述数据交互端。

可选地，所述数据交互端，用于响应于数据添加指令，获取与所述数据添加指令对应的补充图像；或，响应于数量调节指令，获取与所述数量调节指令对应的目标数量，并按照所述目标数量接收所述数据处理端返回的与所述多模态数据集合对应的第四检索图像。

可选地，所述数据处理端，用于接收所述数据交互端发送的所述第一检索图像集合，并根据所述第一检索图像集合的图像数量，在所述数据提供端中进行目标检索，获得与所述第一检索图像集合对应的第二检索图像集合。

可选地，所述第一检索图像集合中的第二检索图像包括第二目标对象；

所述数据处理端，用于若所述图像数量大于或等于预设数量阈值，则在所述数据提供端中进行第一数据量检索，获得与所述第二目标对象匹配的第二检索图像集合；若所述图像数量小于所述预设数量阈值，则在所述数据提供端中进行第二数据量检索，获得与所述第一检索图像集合对应的至少一张第五检索图像，并将所述第五检索图像返回所述数据交互端；

可选地，所述数据处理端，用于从所述数据提供端中获取抽象标签集合；对所述第二检索图像集合进行解析，获取所述第六检索图像对应的标注层级，并按照所述标注层级识别出所述第二检索图像集合中第六检索图像包含的第三目标对象以及所述第三目标对象对应的待链接标签；响应于针对所述第二检索图像集合的标签链接指令，将所述第六检索图像的待链接标签与所述抽象标签集合进行标签链接，获得链接成功的第二标注图像集合以及所述待链接标签对应的抽象标签。

可选地，所述数据处理端，用于若所述标注层级为图像层级，则识别出所述第二检索图像集合中第六检索图像对应的待链接标签；若所述标注层级为对象层级，则识别出所述第二检索图像集合中第六检索图像所包含的第三目标对象以及所述第三目标对象对应的待链接标签；若所述标注层级为像素层级，则识别出所述第二检索图像集合中第六检索图像所包含的第三目标对象以及所述第三目标对象对应的待链接标签。

可选地，所述数据处理端，用于获取业务图像集合，所述业务图像集合中的业务图像至少包括第四目标对象以及与所述第四目标对象对应的业务标签；若所述标注层级为图像层级，则将所述第六检索图像与所述业务图像进行图像标签链接，获得所述第六检索图像对应的真实标签；若所述标注层级为对象层级，则将所述第三目标对象与所述第四目标对象进行对象标签链接，获得所述第三目标对象对应的真实标签；若所述标注层级为像素层级，则将所述第三目标对象与所述第四目标对象进行像素标签链接，获得所述第三目标对象对应的真实标签。

可选地，所述数据处理端，用于根据所述标注层级、所述标签类别中的至少一种将所述第二检索图像集合以及所述第六检索图像所对应的标签类别存储至所述数据提供端。

本发明实施例还公开了一种图像的检索装置，应用于数据交互端，所述装置包括：

数据获取模块，用于获取多模态数据集合；

数据发送模块，用于将所述多模态数据集合发送至数据处理端，并接收所述数据处理端返回的与所述多模态数据集合对应的第一检索图像集合；

图像显示模块，用于显示所述第一检索图像集合；

可选地，所述数据发送模块具体用于：

可选地，所述标注层级包括对象层级，所述第一检索图像与所述目标图像至少包括第一目标对象，所述数据发送模块具体用于：

可选地，所述标注层级包括像素层级，所述数据发送模块具体用于：

可选地，所述装置还包括：

数据存储模块，用于根据所述标注操作和/或所述第一目标对象将所述第一标注图像集合存储至所述数据提供端。

可选地，所述装置包括：

确认信息输出模块，用于输出针对所述第一检索图像集合的确认信息，所述确认信息为提示确认所述第二标签所标注的第二目标对象是否满足预设条件的信息；

第一发送模块，用于基于所述确认信息确认用户意图，若所述用户意图为所述第二检索图像均满足所述预设条件，则将所述第一检索图像集合发送至所述数据处理端；

提示信息输出模块，用于若所述用户意图为所述第一检索图像集合至少一次均不满足所述预设条件，则输出针对所述第一检索图像集合的提示信息，所述提示信息至少包括图像数据补充提示信息、关键词补充提示信息、返回数量调节补充信息中至少一种。

可选地，图像调整模块，用于若所述用户意图为所述第一检索图像集合中存在至少一个第二检索图像中的至少一个第二标签不满足所述预设条件，则响应于针对未满足所述预设条件的第二检索图像中第二标签的调整操作，将调整后的第一检索图像集合发送至所述数据处理端。

可选地，还包括：

图像补充模块，用于响应于数据添加指令，获取与所述数据添加指令对应的补充图像；

关键词发送模块，用于响应于关键词输入指令，获取与所述关键词输入指令对应的第二关键词，并将所述第二关键词发送至所述数据处理端，并接收所述数据处理端返回的与所述第二关键词对应的至少一张第三检索图像；

数量调节模块，用于响应于数量调节指令，获取与所述数量调节指令对应的目标数量，并按照所述目标数量接收所述数据处理端返回的与所述多模态数据集合对应的第四检索图像。

本发明实施例还公开了一种图像的检索装置，应用于数据处理端，所述装置包括：

数据接收模块，用于接收数据交互端发送的多模态数据集合；

图像检索模块，用于从数据提供端中进行图像检索，获得与所述多模态数据集合对应的第一检索图像集合；

图像发送模块，用于将所述第一检索图像集合返回所述数据交互端，以在所述数据交互端显示所述第一检索图像集合；

可选地，所述图像检索模块具体用于：

从所述数据提供端中进行图像检索，获得与所述第一标注图像集合对应的第一检索图像集合。

可选地，所述第一标注图像集合中的第一标注图像包括第一目标对象，所述第一标注图像至少包括框选标注图像、划线标注图像、点选标注图像以及混标标注图像，所述混标标注图像为根据框选操作、划线操作、点选操作中的至少两种进行标注的图像，所述图像检索模块具体用于：

可选地，所述装置还包括：

关键词接收模块，用于接收所述数据交互端发送的第二关键词；

第一检索模块，用于根据所述第二关键词从所述数据提供端中进行图像检索，获得与所述第二关键词对应的至少一张第三检索图像；

数据发送模块，用于将所述第三检索图像发送至所述数据交互端。

可选地，还包括：

第二检索模块，用于根据所述第一检索图像集合的图像数量，在所述数据提供端中进行图像检索，获得与所述第一检索图像集合对应的第二检索图像集合。

可选地，所述第一检索图像集合中的第二检索图像包括第二目标对象，所述第二检索模块具体用于：

可选地，还包括：

标签集合获取模块，用于从所述数据提供端中获取抽象标签集合；

图像解析模块，用于对所述第二检索图像集合进行解析，获取所述第六检索图像对应的标注层级，并按照所述标注层级识别出所述第二检索图像集合中第六检索图像包含的第三目标对象以及所述第三目标对象对应的待链接标签；

标签链接模块，用于响应于针对所述第二检索图像集合的标签链接指令，将所述第六检索图像的待链接标签与所述抽象标签集合进行标签链接，获得链接成功的第二标注图像集合以及所述待链接标签对应的抽象标签。

可选地，所述图像解析模块具体用于：

可选地，所述标签链接模块具体用于：

业务图像获取模块，用于获取业务图像集合，所述业务图像集合中的业务图像至少包括第四目标对象以及与所述第四目标对象对应的业务标签；

第一标签链接模块，用于若所述标注层级为图像层级，则将所述第六检索图像与所述业务图像进行图像标签链接，获得所述第六检索图像对应的真实标签；

第二标签链接模块，用于若所述标注层级为对象层级，则将所述第三目标对象与所述第四目标对象进行对象标签链接，获得所述第三目标对象对应的真实标签；

第三标签链接模块，用于若所述标注层级为像素层级，则将所述第三目标对象与所述第四目标对象进行像素标签链接，获得所述第三目标对象对应的真实标签。

可选地，还包括：

数据存储模块，用于根据所述标注层级、所述标签类别中的至少一种将所述第二检索图像集合以及所述第六检索图像所对应的标签类别存储至所述数据提供端。

本发明实施例还公开了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现如本发明实施例所述的方法。

本发明实施例还公开了一种计算机可读存储介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如本发明实施例所述的方法。

本发明实施例包括以下优点：

在本发明实施例中，对于图像检索，可以涉及数据交互端、数据处理端以及数据提供端，则在进行图像检索的过程中，数据交互端可以通过获取多模态数据集合，接着将多模态数据集合发送至数据处理端，并接收数据处理端在数据提供端进行图像检索并返回的与多模态数据集合对应的第一检索图像集合，然后数据交互端可以显示第一检索图像集合，从而在图像检索的过程中，基于多模态数据集合，并通过多端交互的方式实现图像检索，实现了通过文本、原始图像、视频、标注图像等不同数据进行图像检索，丰富了图像检索的方式，同时通过多种数据方式进行图像检索，提高了图像检索的准确性。

附图说明

图1是本发明实施例中提供的一种图像的检索方法的步骤流程图；

图2是本发明实施例中提供的一种图像检索的架构示意图；

图3是本发明实施例中提供的标注图像的示意图；

图4是本发明实施例中提供的标注图像的示意图；

图5是本发明实施例中提供的一种图像的检索方法的步骤流程图；

图6是本发明实施例中提供的一种数据处理的流程示意图；

图7是本发明实施例中提供的一种图像的检索系统的结构框图；

图8是本发明实施例中提供的一种图像的检索装置的结构框图；

图9是本发明实施例中提供的一种图像的检索装置的结构框图；

图10是本发明实施例中提供的一种电子设备的框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

作为一种示例，随着信息时代的发展，网络上每天都在以各种形式产生海量的图片、视频等数据，且随着数据量的增多，通过人工对数据进行打标分类存储，使得打标成本快速提高。对于这些没有进行打标的数据，仅仅以无序的状态在数据库中进行存储，一方面需要消耗大量的数据存储空间，另一方面由于没有进行打标，使得这些数据十分难以被利用。此外，对于数据筛选技术，其主要集中在图像层面，如以图搜图等，通过单张图像进行相似图片的检索，然而通过简单的以图搜图方式，无法进行准确度更高的内容检索。

对此，本发明的核心发明点之一在于优化数据标注过程，得到标注数据后，基于标注数据对图像检索模型进行训练，使得图像检索模型可以在不同图像检索层级(图像、对象、像素等)进行图像检索，从而通过优化数据标注过程，使得标注后的图像更具有特点，进而通过标注后的图像进行图像检索模型的训练，使得在进行图像检索时，基于图像检索模型可以实现不同检索层级的图像检索，不仅提供了图像检索的精度，也可以丰富了数据检索的方式。

为了使本领域技术人员更好地理解本发明实施例的技术方案，下面对本发明实施例中涉及的部分技术特征进行解释、说明：

数据交互端，其可以为用户对数据进行标注的交互端；数据处理端，其可以为根据用户标注的图像进行数据处理的后台数据处理端；数据提供端，其可以为存储有相应数据的数据库。其中，对于数据交互端、数据处理端以及数据提供端，其可以分别位于不同的电子设备，也可以位于同一电子设备，本发明对此不作限制。

多模态数据集合，其可以为用于进行图像检索的数据，其可以包括文本、图像、视频等不同类型的数据。其中，对于多模态数据集合，其可以为不同传感器采集的数据，如红外线传感器采集的红外图像、可见光传感器采集的可见光图像、点云传感器采集的点云图像等等；也可以为通过网络爬虫爬取的数据，本发明对此不作限制。

标注图像集合，其可以为基于数据集合进行至少一种标注操作后得到的图像，在该图像上可以包括所标注的目标对象以及与该目标对象对应的标签。其中，第一标注图像集合可以为人工对图像进行标注所得的标注图像组成的数据集合；第二标注图像集合可以为对图像进行自动标注连接所得的标注图像组成的数据集合。

检索图像集合，其可以为根据数据处理端根据数据交互端所发送的数据进行图像检索所得到的图像，且该检索图像上同样可以包括所标注的目标对象以及与该目标对象对应的标签，例如，假设标注图像为一针对“苹果”的图像，在标注图像上包括“苹果”以及用于标注该“苹果”的标注框，则基于标注图像，可以检索到与标注图像相同的其他“苹果”图像(即检索图像)。其中，第一检索图像集合，其可以为根据多模态数据集合进行图像检索得到的图像集合；第二检索图像集合，其可以为基于第一检索图像集合进行图像检索得到的图像集合。

目标对象，其可以为图像中的内容，如一张图像中包括人、单车、公交站等，则图像所包含的目标对象包括“人”、“单车”、“公交站”等不同的目标对象。

标签，其可以为对图像中的目标对象进行标注的标注信息，可以包括标注框、标注线以及标注点等，例如，在图像中包括一个行人、一辆车等，则针对该目标图像的标注框可以包括对行人进行标注的图像框以及针对车的图像框等。

具体的，参照图1，示出了本发明实施例中提供的一种图像的检索方法的步骤流程图，应用于数据交互端，具体可以包括如下步骤：

步骤101，获取多模态数据集合；

在一种示例中，参照图2，示出了本发明实施例中提供的一种图像检索的架构示意图，数据交互端可以与数据处理端通信连接，数据提供端可以与数据处理端通信连接，也可以与数据交互端和数据处理端分别通信连接，以便持续为数据交互端或数据处理端提供对应的数据。

对于多模态数据集合，其可以包括文本、原始图像、视频、标注图像中的至少一种，其中，原始图像可以为未进行标注的图像，标注图像可以为进行标注的图像，即在图像中包括对目标对象进行标注的标签等。用户可以通过数据交互端将多模态数据集合发送至数据处理端，以进行相应的图像检索。

步骤102，将所述多模态数据集合发送至数据处理端，并接收所述数据处理端返回的与所述多模态数据集合对应的第一检索图像集合；

在本发明实施例中，用户可以通过数据交互端将需要进行图像检索的多模态数据集合直接发送至数据处理端，数据处理端接收到多模态数据集合后，可以在数据提供端中进行图像检索，并将所检索到的与多模态数据集合对应的第一检索图像集合返回至数据交互端，以便数据交互端对其进行显示等。

在一种可选实施例中，用户除了可以直接将多模态数据集合发送至数据处理端进行图像检索外，还可以对其进行标注以得到对应的标注图像集合，然后基于标注后的标注图像集合进行图像检索。具体的，数据交互端可以先响应于针对多模态数据集合的标注层级选择操作，确定与标注层级选择操作对应的标注层级，在确定以什么标注层级进行标注之后，可以进一步响应于针对多模态数据集合的至少一种标注操作，根据至少一种标注操作对多模态数据集合进行标注，获得与标注层级对应的第一标注图像集合，接着将第一标注图像集合发送至数据处理端，并接收数据处理端返回的与第一标注图像集合对应的第一检索图像集合。

其中，标注层级可以为对图像进行标注的等级，标注层级可以包括图像层级、对象层级以及像素层级等，图像层级可以为以整个图像为标注对象；对象层级可以为从图像中选定至少一个目标对象进行标注；像素层级可以为从图像中选定至少一个像素进行标注等，则当用户在数据交互端中选择了相应的标注层级之后，数据交互端可以基于该标注层级对用户输入的标注操作进行处理，以便根据用户输入的标注操作，从图像中确定用户感兴趣的区域，并生成对应的标签进行标注，进而方便后续通过用户所标注的内容进行图像检索。

具体的，由于多模态数据集合可以包括不同类型的数据，若多模态数据集合为文本，则从文本中提取第一关键词，并将第一关键词发送至数据处理端，接收数据处理端返回的与第一关键词对应的至少一张第一检索图像；若多模态数据集合为视频，则从视频中提取目标图像，然后数据交互端可以响应于针对第一检索图像和/或目标图像的至少一种标注操作，根据至少一种标注操作对第一检索图像和/或目标图像进行标注，获得与标注层级对应的第一标注图像集合。可选地，当多模态数据集合仅有文本时，则可以执行上述对通过文本得到第一检索图像，然后对第一检索图像进行标注的过程；当多模态数据集合仅为视频时，则可以执行从视频中提取图像，再对图像进行标注的过程；当多模态数据集合包括多种数据时，则可以执行上述标注的组合处理过程，本发明对此不作限制。

对于数据标注过程，可以对存储至数据提供端中的未标注数据进行标注，以便基于标注后的数据进行模型训练。其中，对于标注操作，其可以包括框选操作、划线操作以及点选操作等，框选操作可以为框选中图像中的相应目标对象；划线操作可以为对图像中的目标对象进行划线；点选操作可以为点选中图像中的目标对象。

假设标注层级为对象层级，若第一检索图像与目标图像中包括第一目标对象，则在对第一检索图像与目标图像进行标注的过程中，数据交互端通过响应针对第一目标对象的框选操作，在第一检索图像和/或目标图像中生成针对第一目标对象的标注框，获得第一标注图像集合；和/或，为第一目标对象响应划线操作，在第一检索图像和/或目标图像中生成针对第一目标对象的标注线，获得第一标注图像集合；和/或，为第一目标对象响应点选操作，在第一检索图像和/或目标图像中生成针对第一目标对象的标注点，获得第一标注图像集合，从而通过对图像进行标注，且通过不同维度的图像标注，使得每一张图像均对应有相应的标签，实现对图像数据的分类，以便提高后续根据标注图像进行图像检索的精度。

假设标注层级为像素层级，则数据处理端可以响应于针对第一检索图像和/或目标对象的框选操作，在第一检索图像和/或目标图像中生成针对第一检索图像和/或目标对象的标注框，将标注框所标注的内容作为第一目标对象，获得与第一目标对象对应的第一标注图像集合；和/或，响应于针对第一检索图像和/或目标对象的划线操作，在第一检索图像和/或目标图像中生成针对第一检索图像和/或目标对象的标注线，将标注线所标注的内容作为第一目标对象，获得与第一目标对象对应的第一标注图像集合；和/或，响应于针对第一检索图像和/或目标对象的点选操作，在第一检索图像和/或目标图像中生成针对第一检索图像和/或目标对象的标注点，将标注点所标注的内容作为第一目标对象，获得与第一目标对象对应的第一标注图像集合，从而通过对图像进行标注，且通过不同维度的图像标注，使得每一张图像均对应有相应的标签，实现对图像数据的分类，以便提高后续根据标注图像进行图像检索的精度。

需要说明的是，对于对象层级的标注，其所涉及的第一目标对象可以为用户在图像中所选中的感兴趣的区域中所包含的目标对象；对于像素层级的标注，其所涉及的第一目标对象可以为用户在图像中所选中的感兴趣的区域所对应的像素中所包含的目标对象，本发明对此不作限制。

在一种示例中，以在图像中对目标对象进行框选为例，参照图3至4，示出了本发明实施例中提供的标注图像的示意图，图3示出了对图像中的目标对象进行框选的标注方式；图4示出了对图像中的目标对象框选后添加对应的标签，具体的，在图像可以包括高压架，则用户可以在数据交互端中通过框选中图像中对应的高压架，接着输入与该标注框对应的内容(如“高压架”)以完成对图像的标注，此外，对于划线标注、电线标注以及混合标注等过程，可以参考图示过程，从而通过对图像进行标注，且通过不同维度的图像标注，使得每一张图像均对应有相应的标签，实现对图像数据的分类，以便提高后续根据标注图像进行图像检索的精度。

此外，对于用户所标注的第一标注图像集合，用户可以在数据交互端中根据标注操作和/或第一标注图像集合中的图像所包含的目标对象进行分类，并发送至数据提供端进行存储，以便后续根据实际需求提取已经标注好的图像进行相应的数据处理，例如，用户可以按照框选操作、划线操作、点选操作等，将同一类标注操作的标注图像存储至数据提供端，也可以将同一类目标对象的标注图像存储至数据提供端(如将标注的对象为“苹果”的同一类标注图像进行存储等)，还可以是两者的结合，本发明对此不作限制。

步骤103，显示所述第一检索图像集合。

当数据处理端根据所有的多模态数据集合进行图像检索后，可以将检索的图像返回给数据交互端，以便数据交互端对检索结果进行显示，包括显示各检索图像、检索时间、标签等等，方便用户检查检索结果是否满足要求，从而在图像检索的过程中，基于多模态数据集合，并通过多端交互的方式实现图像检索，实现了通过文本、原始图像、视频、标注图像等不同数据进行图像检索，丰富了图像检索的方式，同时通过多种数据方式进行图像检索，提高了图像检索的准确性。

对于第一检索图像集合，数据交互端在对其进行显示的同时，可以输出第一检索图像集合的确认信息，确认信息为提示确认第二标签所标注的第二目标对象是否满足预设条件的信息，并基于确认信息确认用户意图，若用户意图为第二检索图像均满足预设条件，则将第一检索图像集合发送至数据处理端；若用户意图为第一检索图像集合至少一次不满足预设条件，则输出第一检索图像集合的提示信息，提示信息至少包括图像数据补充提示信息(用于提示用户补充新的数据，如补充图像、视频等)、关键词补充提示信息(用于提示用户补充新的关键词)、返回数量调节补充信息(用于提示用户对图像返回数量进行调节，以获取更多的返回图像)中至少一种；若用户意图为第一检索图像集合中至少一个第二检索图像的至少一个第二标签不满足预设条件，则数据交互端响应未满足预设条件的第二检索图像中第二标签的调整操作，将调整后的第一检索图像集合发送至数据处理端，从而在通过多模态数据集合进行图像检索的过程中，当所检索得到的第一检索图像集合不满足条件的情况下，一方面通过输出提示信息提示用户补充数据，可以有效地提高图像检索的准确性，另一方面通过提示信息提示用户增加返回数量，可以提高根据标注图像进行检索的图像返回的数量，方便进行图像筛选。

其中，调整第一检索图像集合的图像，其可以为对第一检索图像集合中不满足预设条件的第二检索图像进行标签的调整，而针对第二检索图像的标签调整，其可以为对第二检索图像中所涉及的所有标签进行调整，也可以是对部分标签进行调整，本发明对此不作限制。

可选地，对于检索条件的调整，数据交互端可以响应于数据添加指令，获取与数据添加指令对应的补充图像，将补充图像发送至数据处理端，并接收数据处理端在数据提供端中进行检索的与补充图像对应的检索图像，然后显示新的检索图像以及确认信息，以便用户继续对新返回的检索图像进行确认；或，响应于关键词输入指令，获取与关键词输入指令对应的第二关键词，并将第二关键词发送至数据处理端，并接收数据处理端返回的与第二关键词对应的至少一张第三检索图像；或，响应于数量调节指令，获取与数量调节指令对应的目标数量，并按照目标数量接收数据处理端返回的与多模态数据集合对应的第四检索图像，基于前述过程对检索条件进行调整后，数据交互端可以继续输出对应的确认信息，以便执行上述用户对图像的确认过程，直至数据处理端所返回的检索图像满足预设条件。

其中，对于第二关键词，其可以为与第一关键词相似(或相关)的词汇，也可以为用户根据新的检索需求新输入的词汇；对于目标数量，在检索的过程中，数据处理端返回的第一检索图像集合中的图像数量可以为默认值，则当所返回的检索图像不满足预设条件的情况下，用户可以通过调节图像返回数量，使得数据处理端可以返回更多的检索图像，以便通过提高图像返回数量，优化图像检索的过程，例如，默认值为返回5张，则用户可以将返回图像调节为返回10张等。

对于上述预设条件，其可以为检索图像中所包含的目标对象是否与多模态数据集合匹配，例如，假设多模态数据集合所涉及的原始图像包括“苹果”，则对于检索图像而言，其在包含“苹果”的情况下才算满足预设条件，否则判定为不满足预设条件，此外对于文本、视频、标注图像等，其原理相似，在此不再赘述。预设条件为用户需求，即检索出来的目标是否为用户所需要的目标。

此外，对于第一检索图像集合，当用户确认第一检索图像集合中存在多张第二检索图像，且所有的第二检索图像都满足预设条件时，则可以将第一检索图像集合发送至数据处理端，以便数据处理端对第一检索图像集合进行相应的处理，如将第一检索图像集合以及对应的标签存储至数据提供端中，或基于第一检索图像集合对数据提供端中存储的数据进行自动标签链接等，或基于第一检索图像集合进行模型训练等。

参照图5，示出了本发明实施例中提供的一种图像的检索方法的步骤流程图，应用于数据处理端，具体可以包括如下步骤：

步骤501，接收数据交互端发送的多模态数据集合，所述多模态数据集合至少包括文本、原始图像、视频、标注图像中的一种；

在具体实现中，用户可以通过数据交互端将需要进行目标检索的多模态数据集合直接发送至数据处理端，数据处理端接收到多模态数据集合后，可以在数据提供端中进行目标检索，并将所检索到的与多模态数据集合对应的第一检索图像集合返回至数据交互端，以便数据交互端对其进行显示等。

步骤502，从数据提供端中进行目标检索，获得与所述多模态数据集合对应的第一检索图像集合；

在数据提供端中，其可以存储对应的图像数据，图像数据可以为通过不同传感器进行采集的图像，则数据处理端可以从数据提供端中进行目标检索，以获得与多模态数据集合对应的第一检索图像集合。

其中，当多模态数据集合为文本时，则数据处理端可以基于文本从数据提供端中检索对应的检索图像；当多模态数据集合为原始图像时，则数据处理端可以基于原始图像在数据提供端中以图搜图检索对应的检索图像；当多模态数据集合为视频时，则数据处理端可以基于视频中的内容在数据提供端中检索对应的检索图像；当多模态数据集合为标注图像时，则数据处理端可以基于标注图像中所标注的目标对象，在数据提供端中检索与目标对象对应的检索图像，从而通过不同数据形式进行目标检索，丰富了目标检索的方式，同时通过多种数据方式进行目标检索，提高了目标检索的准确性。

在一种示例中，假设多模态数据集合为第一关键词，则从数据提供端中获取与第一关键词对应的至少一张第一检索图像，并将第一检索图像返回至数据交互端，接着接收数据交互端发送的与第一检索图像对应的第一标注图像集合，然后从数据提供端中进行目标检索，获得与第一标注图像集合对应的第一检索图像集合。具体的，用户可以先在数据交互端中输入对应的关键词，数据交互端将关键词发送至数据处理端，则数据处理端基于关键词在数据提供端中获取对应的第一检索图像，并将第一检索图像返回至数据交互端，接着用户可以在数据交互端上对第一检索图像进行标注，获得对应的第一标注图像集合，以通过人工标注的方式对图像进行标注，对图像的检索范围进行收敛，提高目标检索的准确性。

可选地，假设用户在数据交互端对多模态数据集合进行标注得到对应的第一标注图像集合，并将第一标注图像集合发送至数据处理端，则数据处理端可以基于第一标注图像集合进行目标检索。具体的，第一标注图像集合中的第一标注图像包括第一目标对象，第一标注图像至少包括框选标注图像、划线标注图像、点选标注图像以及混标标注图像，混标标注图像为根据框选操作、划线操作、点选操作中的至少两种进行标注的图像，则数据处理端可以采用框选标注图像、划线标注图像、点选标注图像以及混标标注图像中的至少一种在数据提供端中进行第一数据量检索，获得与第一目标对象匹配的第一检索图像集合，从而基于标注后的图像进行目标检索，能够实现对图像的检索范围进行收敛，提高目标检索的准确性。

步骤503，将所述第一检索图像集合返回所述数据交互端，以在所述数据交互端显示所述第一检索图像集合。

当数据处理端根据所有的多模态数据集合进行目标检索后，可以将检索的图像返回给数据交互端，以便数据交互端对检索结果进行显示，包括显示各检索图像、检索时间、标签等等，方便用户检查检索结果是否满足要求，从而在目标检索的过程中，基于多模态数据集合，并通过多端交互的方式实现目标检索，实现了通过文本、原始图像、视频、标注图像等不同数据进行目标检索，丰富了目标检索的方式，同时通过多种数据方式进行目标检索，提高了目标检索的准确性。

对于数据交互端，其在显示第一检索图像集合的同时，可以输出针对第一检索图像集合的确认信息，以便基于确认信息确定用户意图，然后基于用户意图判断第一检索图像集合是否满足预设条件(对于该预设条件，可以参考前述实施例中数据交互端对检索图像的处理过程中的相关描述，在此不再赘述)，若不满足预设条件，则用户可以对检索条件进行调节，包括补充新的数据(如图像、文本等)、调节返回数量等。其中，当用户在数据交互端中输入对应的第二关键词时，数据交互端可以将第二关键词发送至数据处理端，则数据处理端接收数据交互端发送的第二关键词，并根据第二关键词从数据提供端中进行目标检索，获得与第二关键词对应的至少一张第三检索图像，然后将第三检索图像发送至数据交互端，数据交互端可以对第三检索图像进行显示并输出对应的确认信息，以进一步根据确认信息确定用户意图判断所返回的新的检索图像是否满足预设条件。

在一种可选实施例中，当用户在数据交互端对第一检索图像集合进行确认完毕，即确定第一检索图像集合所涉及的检索图像均满足预设条件时，可以将第一检索图像集合发送至数据处理端，以便数据处理端根据第一检索图像集合的图像数量，在数据提供端中进行目标检索，获得与第一检索图像集合对应的第二检索图像集合。

在具体实现中，当用户在数据交互端上完成对第一检索图像集合的确认后，可以将第一检索图像集合发送至数据处理端进行目标检索。数据处理端在接收到第一检索图像集合后，可以先判断第一检索图像集合的图像数量是否满足预设数量阈值，若不满足预设数量阈值，则基于第一检索图像集合进行少量数据检索，并将检索的图像返回至数据交互端，以做进一步的图像确认；若满足预设数量阈值，则可以基于第一检索图像集合进行海量数据检索。

可选地，对于预设数量阈值，其可以为针对第一检索图像集合的图像数量进行设置的条件，当图像数量满足条件的情况下基于第一检索图像集合进行海量目标检索，否则继续进行少量数据检索。

在具体实现中，第一检索图像集合中的第二检索图像包括第二目标对象(对于第二目标对象，其可以为与第一目标对象相同目标对象，数据处理端在根据多模态数据集合或第一标注图像集合进行目标检索时，即根据第一目标对象在数据提供端中检索得到第一检索图像集合)，则数据处理端可以对第一检索图像集合中所包含的第二检索图像的图像数量进行判断，若图像数量大于或等于预设数量阈值，则在数据提供端中进行第一数据量检索，获得与第二目标对象匹配的第二检索图像集合；若图像数量小于预设数量阈值，则在数据提供端中进行第二数据量检索，获得与第一检索图像集合对应的至少一张第五检索图像，并将第五检索图像返回数据交互端。其中，第一数据量检索的图像数量大于第二数据量检索的图像数量。

其中，对于第一数据量检索，其可以为海量数据检索，通过标注图像可以对数据提供端中未标注的图像进行检索，检索出与标注图像相似的图像，同时对所检索出的图像同样进行自动标注，即所检索出的检索图像，可以包括与标注图像相同的目标对象，且在图像中还可以包括针对目标对象的标签(标注框、标注线以及标注点等)。

对于数据处理端，当数据交互端所发送的第一检索图像集合的数量大于或等于预设数量阈值时，则数据处理端可以采用所有的第一检索图像集合中的第二检索图像进行海量数据检索，以从数据提供端中筛选出与第二检索图像相似的图像，在第一检索图像集合为对图像进行标注后所得的标注图像进行检索得到的图像时，基于第一检索图像集合所进行的目标检索，能够通过不同标注维度的标注图像进行检索，在保证检索精度的同时，可以丰富数据检索的范围，获得数据量更大的相似图像，扩大了标注图像的数量，以便根据标注图像进行相关的数据处理，如模型训练等，进而通过对图像进行标注并以标注后的图像进行检索，不仅可以保证目标检索的准确性，还可以通过标注后的图像获取相似的数据，提高标注数据的数据量。

此外，在上述过程中，可以基于人工标注的第一标注图像集合进行目标检索，得到对应的第一检索图像集合后，再将第一检索图像集合发送至数据处理端进行海量数据检索，获得数据量更大的相似图像，扩大了标注图像的数量，以便根据标注图像进行相关的数据处理，如模型训练等，进而通过对图像进行标注并以标注后的图像进行检索，不仅可以保证目标检索的准确性，还可以通过标注后的图像获取相似的数据，提高标注数据的数据量。

通过上述过程基于第一检索图像集合进行海量数据检索得到第二检索图像集合后，由于第二检索图像集合所包含的第六检索图像中所涉及的第三目标对象，并没有对应的标签，则可以对第三目标对象进行自动标注，以得到第二标注图像集合。具体的，数据处理端可以从数据提供端中获取抽象标签集合，接着对第二检索图像集合进行解析，获取第六检索图像对应的标注层级，并按照标注层级识别出第二检索图像集合中第六检索图像包含的第三目标对象以及第三目标对象对应的待链接标签，然后响应于针对第二检索图像集合的标签链接指令，将第六检索图像的待链接标签与抽象标签集合进行标签链接，获得链接成功的第二标注图像集合以及待链接标签对应的抽象标签，以便在检索得到第二检索图像集合后，可以对所检索的图像进行自动标注链接，以便通过标签类别可以用于表征图像包含什么内容。

其中，抽象标签集合可以为预先对目标对象进行标注所得到的抽象标签，其可以不具有明确的标签，而是通过相关的抽象标签进行标记，例如，假设图像中包括“苹果”这一目标对象，则可以将其所对应的标签标记为“x类”；假设图像中包括“桃子”这一目标对象，则可以将其所对应的标签标记为“y类”等，x、y可以为正整数、字母、阿拉伯数字等用于进行抽象标记的字符，从而通过抽象标签集合可以先对第二检索图像集合中所涉及的待链接标签映射为对应类别的抽象标签，以便后续根据相关的业务标签做进一步的标签链接，得到真实标签。

在对待标注图像进行标注链接之前，需要先识别出待标注图像中包含哪些目标对象，具体的，对于单张图像，可以通过直接对图像中的目标对象的解析；对于视频，则可以通过连续视频抽帧得到视频帧后，对视频帧进行目标对象的解析；对于关键词，则可以检索出关键词对应的图像后，再对图像进行目标对象的解析。

其中，对于图像的解析，一方面可以基于图像的类型(可见光图像、红外光图像、点云图像等)进行解析，另一方面可以基于不同的标注层级进行解析，在一种图像类型的解析中，还可以基于不同的解析等级进行图像解析，以确定每张图像所包含的目标对象。具体的，当数据处理端可以按照标注层级进行解析，若标注层级为图像层级，则识别出第二检索图像集合中第六检索图像对应的待链接标签；若标注层级为对象层级，则识别出第二检索图像集合中第六检索图像所包含的第三目标对象以及第三目标对象对应的待链接标签；若标注层级为像素层级，则识别出第二检索图像集合中第六检索图像所包含的第三目标对象以及第三目标对象对应的待链接标签。

对于对象识别解析过程，通过识别出图像中所包含的所有目标对象，并在图像中针对每一个目标对象添加相应的待链接标签，并为每个待链接标签进行标号，得到每个目标对象所对应的待链接标签，例如，假设图像中包含人、单车、公交站等目标对象，则通过对象识别解析，可以得到“人”、“单车”以及“公交站”所对应的待链接标签，此时仅是解析出目标图像包含了几个目标对象，并不清楚目标对象具体是什么，对此，需要进行自动标注链接，如可以将“人”所对应的待链接标签记录为标签①，将“单车”所对应的待链接标签记录为标签②，将“公交站”所对应的待链接标签记录为标签③以标记为不同的标签；同理，对于像素识别解析过程，其可以同样可以识别出图像中包含多少个目标对象，以及每个目标对象所对应的像素，以便后续进行自动标注链接。

通过上述过程解析出第二检索图像集合中第六检索图像所包含的第三目标对象以及第三目标对象所对应的待链接标签之后，可以获取业务图像集合，所述业务图像集合中的业务图像至少包括第四目标对象以及与所述第四目标对象对应的业务标签。具体的，若标注层级为图像层级，则将第六检索图像与业务图像进行图像标签链接，获得第六检索图像对应的真实标签；若标注层级为对象层级，则将第三目标对象与第四目标对象进行对象标签链接，获得第三目标对象对应的真实标签；若标注层级为像素层级，则将第三目标对象与第四目标对象进行像素标签链接，获得第三目标对象对应的真实标签。其中，真实标签可以为具有明确含义的标签。

可选地，对于业务图像，其所对应的标签可以为针对目标对象进行人工划分的类别，例如，针对同一张图像，假设该图像中包含“苹果”，则对于业务图像中所包含的目标对象，可以通过人工标注的方式将其标注为“苹果”这一具有明确含义的标签，并将该标签存储至数据提供端，以便在自动标注过程中可以基于此进行自动标注，从而在进行图像的标签链接过程中，数据处理端可以通过已有明确标签的业务图像进行标签的自动链接标注，大大提高了图像标注的效率以及准确性。

在上述过程中，在通过已经标注好的图像进行标签链接保证图像标注准确性的情况下，通过图像、对象、像素等不同的层级对图像进行不同维度的标注，得到不同维度的标注图像，大大丰富了标注图像的范围，使得后续训练得到的目标检索模型可以适用于不同维度的目标检索，在保证目标检索精度的同时，有效地提高了目标检索的范围。

可选地，对于上述标签链接过程，可以基于相似度计算的方式进行标签链接，例如可以通过L2距离算法、余弦相似度算法、结构相似度算法等进行图像相似度的匹配，从而通过已经标注完成的检索图像对待标注图像进行自动标注，使得后续训练得到的目标检索模型可以适用于不同维度的目标检索，在保证目标检索精度的同时，有效地提高了目标检索的范围。

在完成了标签链接后，对于第二标注图像而言，其所包含的各个目标对象所对应的标注信息，不再只有序号，而是具有对应的标签类别，则可以将这些具有明确标签类别的第二标注图像作为训练数据，并根据训练数据对目标检索模型进行训练，从而得到能够根据用户输入的图像进行相似目标检索的目标检索模型，由于目标检索模型为根据不同标注维度的标注数据、不同图像识别层级进行训练得到的模型，则其可以对不同数据类型的图像、不同解析层级的图像进行检索，在保证目标检索精度的同时，有效地提高了目标检索的范围。需要说明的是，还可以通过其他相似度算法完成上述过程，本发明对此不作限制。

此外，在自动标注完成之后，可以根据标注层级、标签类别中的至少一种将第二检索图像集合中的第六检索图像以及第六检索图像所对应的标签类别存储至数据提供端中，以便后续直接调用具有明确标签的图像进行图像检索、图像标注以及模型训练等，提高数据处理的效率。

在一种示例中，假设第二检索图像集合中获取了待标注图像A，在对待标注图像A进行自动标签链接的过程中，数据处理端可以先通过相应的图像解析算法从不同的维度对其进行解析，包括对象识别解析以及像素识别解析等，对于对象识别解析，数据处理端可以从待标注图像A中解析出对应的目标对象X以及与目标对象X对应的标签N(如标注框等)，此时并不清楚标签N所对应的标签类别；对于像素识别解析，数据处理端可以从待标注图像A中解析出对应的目标对象X以及目标对象X对应的像素标签，此时并不清楚像素标签所对应的标签类别。

数据处理端可以获取业务图像集合，并通过图像相似算法将业务图像集合与待标注业务图像进行标注链接，包括：当按照图像等级进行标签链接时，可以将业务图像与待标注业务图像进行图像相似度比较，判断目标对象X是否为“苹果”，若是，则将目标对象X的标签N标记为“苹果”；当按照对象等级进行标签链接时，可以将业务图像的“苹果”与待标注业务图像中的目标对象X进行相似度比较，判断目标对象X是否为“苹果”，若是，则将目标对象X的标签N标记为“苹果”；当按照像素等级进行标签链接时，可以将业务图像的“苹果”与待标注业务图像中的目标对象X进行相似度比较，判断目标对象X是否为“苹果”，若是，则将目标对象X的标签N标记为“苹果”等，从而在通过已经标注好的图像进行标签链接保证图像标注准确性的情况下，通过图像、对象、像素等不同的层级对图像进行不同维度的标注，得到不同维度的标注图像，大大丰富了标注图像的范围，使得后续训练得到的目标检索模型可以适用于不同维度的目标检索，在保证目标检索精度的同时，有效地提高了目标检索的范围。此外，对于将待标注图像与预设业务图像进行标签链接的过程，与上述示例中的标签链接过程相似，在此不再赘述。

需要说明的是，本发明实施例包括但不限于上述示例，可以理解的是，本领域技术人员在本发明实施例的思想指导下，还可以根据实际需求进行设置，本发明对此不作限制。

在本发明实施例中，对于目标检索，可以涉及数据交互端、数据处理端以及数据提供端，则在进行目标检索的过程中，数据交互端可以通过获取多模态数据集合，接着将多模态数据集合发送至数据处理端，并接收数据处理端在数据提供端进行目标检索并返回的与多模态数据集合对应的第一检索图像集合，然后数据交互端可以显示第一检索图像集合，从而在目标检索的过程中，基于多模态数据集合，并通过多端交互的方式实现目标检索，实现了通过文本、原始图像、视频、标注图像等不同数据进行目标检索，丰富了目标检索的方式，同时通过多种数据方式进行目标检索，提高了目标检索的准确性。

为了使本领域技术人员更好地理解本发明实施例的技术方案，下面通过一个例子进行解释、说明：

参照图6，示出了本发明实施例中提供的一种数据处理的流程示意图，其中，对于“少量示例数据-人工标注-抽象数据标签链接模块-业务标签-前端展示”，其可以对应于图像的检索过程，即对应于前述实施例中对数据集合进行标注并进行图像检索得到检索图像的过程；对于“线上数据流-自动标注模块-抽象数据标签-抽象数据标签链接模块-抽象标签数据库-业务标签数据库”、“大量离线数据-自动标注模块-抽象数据标签-抽象标签数据库-业务标签数据库”以及“大量离线数据-抽象标签数据库-业务标签数据库”，其可以对应于训练数据的构建过程；对于“抽象标签数据库-业务标签数据库-智能模型生产”，其可以对应与模型训练过程等，本发明对此不作限制。

其中，业务标签数据库，当用户对相关图像进行标注后，可以将标注后的图像存储至业务标签数据库，以便后续对业务标签数据库中已经标注完成的图像数据进行复用，如用于模型训练等。具体的，对于图像、标签等的存储，可以通过不同的方式实现多维度的存储，例如，可以按照图像标注层级进行存储，也可以按照标签的类别进行分类存储等，以便在后续数据应用过程中可以基于分类后的数据进行“点对点”的数据提取，提高数据处理的效率。

具体的，用户可以在数据交互端上对少量的图像进行人工标注，标注方式可以包括直接以图像本身作为图像检索的原始图像以及在图像中框选对应的目标对象、在图像中划线选中对应的目标对象以及在图像中点选中对应的目标对象等得到对应的标注图像，将原始图像和/或标注图像作为多模态数据集合。当多模态数据集合处理完毕后，可以将多模态数据集合发送至数据处理端，由输出处理端基于多模态数据集合进行图像检索，并返回对应的检索图像集合，数据交互端在接收到检索图像集合后，可以显示检索图像集合，并输出对应的确认信息，以便判断数据处理端返回的检索图像是否为与原始图像包含相同内容或包含用户所框选的目标对象等。

当检索图像集合中的检索图像均满足条件的情况下，用户可以通过数据交互端将检索图像集合发送至数据处理端，数据处理端接收到检索图像集合后，可以先判断检索图像集合中的图像数量是否满足数量要求，如大于或等于100张等，若满足，则数据处理端基于检索图像集合进行海量数据检索(即图8中的抽象数据标签链接模块)，然后输出对应的检索结果，包括检索图像、检索图像中的目标对象以及针对目标对象的标签等；若检索图像集合的图像数量不满足数量要求，则数据处理端可以先基于检索图像集合进行少量的数据检索，并根据用户在数据交互端上对检索结果的确认情况，不断进行迭代，直至检索图像集合的数量满足数量要求，再进行海量数据检索。

其中，在迭代的过程中，当连续出现至少一次(如三次等)返回结果均不与检索图像集合中的图像不是相似的图像(不包含相同的目标对象等)，则可以输出对应的提示信息，提示用户进行数据补充或调整返回数据量等，从而在增加检索图像集合的过程中，当所返回的图像不满足条件的情况下，一方面通过输出提示信息提示用户补充数据，可以有效地提高图像检索的准确性，另一方面通过提示信息提示用户增加返回数量，可以提高根据第一标注图像进行检索的图像返回的数量，方便进行图像筛选。

当完成了数据标注后，数据处理端可以将标注完成的数据存储至抽象标签数据库，接着可以通过获取线上数据或离线数据，然后基于前述标注完成的图像数据对线上数据流或离线数据进行抽象数据标签的链接，得到线上数据或离线数据所对应的标签类别，然后可以进一步存储在抽象标签数据库中，同样的，可以将所得到的标签类别存储至业务标签数据库中，以便根据抽象标签数据库与业务标签数据库进行图像检索模型的训练，得到训练后的图像检索模型，从而在通过已经标注好的图像进行标签链接保证图像标注准确性的情况下，通过图像、对象、像素等不同的层级对图像进行不同维度的标注，得到不同维度的标注图像，大大丰富了标注图像的范围，使得后续训练得到的图像检索模型可以适用于不同维度的图像检索，在保证图像检索精度的同时，有效地提高了图像检索的范围。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图7，示出了本发明实施例中提供的一种图像的检索系统的结构框图，所述检索系统至少包括数据交互端、数据处理端以及数据提供端；其中，

在一种可选实施例中，所述数据交互端，用于：响应于针对所述多模态数据集合的标注层级选择操作，确定与所述标注层级选择操作对应的标注层级；响应于针对所述多模态数据集合的至少一种标注操作，根据至少一种所述标注操作对所述多模态数据集合进行标注，获得与所述标注层级对应的第一标注图像集合将所述第一标注图像集合发送至所述数据处理端；

在一种可选实施例中，所述数据交互端，用于若所述多模态数据集合为文本，则从所述文本中提取第一关键词，并将所述第一关键词发送至所述数据处理端，接收所述数据处理端返回的与所述第一关键词对应的至少一张第一检索图像；若所述多模态数据集合为视频，则从所述视频中提取目标图像；响应于针对所述第一检索图像和/或所述目标图像的至少一种标注操作，根据至少一种所述标注操作对所述第一检索图像和/或所述目标图像进行标注，获得与所述标注层级对应的第一标注图像集合。

在一种可选实施例中，所述标注层级包括对象层级；其中，

在一种可选实施例中，所述标注层级包括像素层级；其中，

在一种可选实施例中，所述第一标注图像集合中的第一标注图像包括第一目标对象，所述第一标注图像至少包括框选标注图像、划线标注图像、点选标注图像以及混标标注图像，所述混标标注图像为根据框选操作、划线操作、点选操作中的至少两种进行标注的图像；

在一种可选实施例中，所述数据交互端，用于输出针对所述第一检索图像集合的确认信息，所述确认信息为提示确认所述第二标签所标注的第二目标对象是否满足预设条件的信息；基于所述确认信息确认用户意图，若所述用户意图为所述第二检索图像均满足所述预设条件，则将所述第一检索图像集合发送至所述数据处理端；若所述用户意图为所述第一检索图像集合至少一次均不满足所述预设条件，则输出针对所述第一检索图像集合的提示信息，所述提示信息至少包括图像数据补充提示信息、关键词补充提示信息、返回数量调节补充信息中至少一种。

在一种可选实施例中，所述数据交互端，用于根据所述标注操作和/或所述第一目标对象将所述第一标注图像集合存储至所述数据提供端。

在一种可选实施例中，所述数据交互端，用于若所述用户意图为所述第一检索图像集合中至少一个第二检索图像的至少一个第二标签不满足所述预设条件，则响应于针对未满足所述预设条件的第二检索图像中第二标签的调整操作，将调整后的第一检索图像集合发送至所述数据处理端。

在一种可选实施例中，所述数据交互端，用于响应于关键词输入指令，获取与所述关键词输入指令对应的第二关键词，并将所述第二关键词发送至所述数据处理端；

在一种可选实施例中，所述数据交互端，用于响应于数据添加指令，获取与所述数据添加指令对应的补充图像；或，响应于数量调节指令，获取与所述数量调节指令对应的目标数量，并按照所述目标数量接收所述数据处理端返回的与所述多模态数据集合对应的第四检索图像。

在一种可选实施例中，所述数据处理端，用于接收所述数据交互端发送的所述第一检索图像集合，并根据所述第一检索图像集合的图像数量，在所述数据提供端中进行目标检索，获得与所述第一检索图像集合对应的第二检索图像集合。

在一种可选实施例中，所述第一检索图像集合中的第二检索图像包括第二目标对象；

在一种可选实施例中，所述数据处理端，用于从所述数据提供端中获取抽象标签集合；对所述第二检索图像集合进行解析，获取所述第六检索图像对应的标注层级，并按照所述标注层级识别出所述第二检索图像集合中第六检索图像包含的第三目标对象以及所述第三目标对象对应的待链接标签；响应于针对所述第二检索图像集合的标签链接指令，将所述第六检索图像的待链接标签与所述抽象标签集合进行标签链接，获得链接成功的第二标注图像集合以及所述待链接标签对应的抽象标签。

在一种可选实施例中，所述数据处理端，用于若所述标注层级为图像层级，则识别出所述第二检索图像集合中第六检索图像对应的待链接标签；若所述标注层级为对象层级，则识别出所述第二检索图像集合中第六检索图像所包含的第三目标对象以及所述第三目标对象对应的待链接标签；若所述标注层级为像素层级，则识别出所述第二检索图像集合中第六检索图像所包含的第三目标对象以及所述第三目标对象对应的待链接标签。

在一种可选实施例中，所述数据处理端，用于获取业务图像集合，所述业务图像集合中的业务图像至少包括第四目标对象以及与所述第四目标对象对应的业务标签；若所述标注层级为图像层级，则将所述第六检索图像与所述业务图像进行图像标签链接，获得所述第六检索图像对应的真实标签；若所述标注层级为对象层级，则将所述第三目标对象与所述第四目标对象进行对象标签链接，获得所述第三目标对象对应的真实标签；若所述标注层级为像素层级，则将所述第三目标对象与所述第四目标对象进行像素标签链接，获得所述第三目标对象对应的真实标签。

在一种可选实施例中，所述数据处理端，用于根据所述标注层级、所述标签类别中的至少一种将所述第二检索图像集合以及所述第六检索图像所对应的标签类别存储至所述数据提供端。

参照图8，示出了本发明实施例中提供的一种图像的检索装置的结构框图，应用于数据交互端，所述装置具体可以包括：

数据获取模块801，用于获取多模态数据集合；

数据发送模块802，用于将所述多模态数据集合发送至数据处理端，并接收所述数据处理端返回的与所述多模态数据集合对应的第一检索图像集合；

图像显示模块803，用于显示所述第一检索图像集合；

在一种可选实施例中，所述数据发送模块802具体用于：

在一种可选实施例中，所述标注层级包括对象层级，所述第一检索图像与所述目标图像至少包括第一目标对象，所述数据发送模块802具体用于：

在一种可选实施例中，所述标注层级包括像素层级，所述数据发送模块802具体用于：

在一种可选实施例中，所述装置还包括：

在一种可选实施例中，所述装置包括：

在一种可选实施例中，图像调整模块，用于若所述用户意图为所述第一检索图像集合中存在至少一个第二检索图像中的至少一个第二标签不满足所述预设条件，则响应于针对未满足所述预设条件的第二检索图像中第二标签的调整操作，将调整后的第一检索图像集合发送至所述数据处理端。

在一种可选实施例中，还包括：

参照图9，示出了本发明实施例中提供的一种图像的检索装置的结构框图，应用于数据处理端，所述装置具体可以包括：

数据接收模块901，用于接收数据交互端发送的多模态数据集合；

图像检索模块902，用于从数据提供端中进行图像检索，获得与所述多模态数据集合对应的第一检索图像集合；

图像发送模块903，用于将所述第一检索图像集合返回所述数据交互端，以在所述数据交互端显示所述第一检索图像集合；

在一种可选实施例中，所述图像检索模块902具体用于：

在一种可选实施例中，所述第一标注图像集合中的第一标注图像包括第一目标对象，所述第一标注图像至少包括框选标注图像、划线标注图像、点选标注图像以及混标标注图像，所述混标标注图像为根据框选操作、划线操作、点选操作中的至少两种进行标注的图像，所述图像检索模块902具体用于：

在一种可选实施例中，所述装置还包括：

在一种可选实施例中，还包括：

在一种可选实施例中，所述第一检索图像集合中的第二检索图像包括第二目标对象，所述第二检索模块具体用于：

在一种可选实施例中，还包括：

在一种可选实施例中，所述图像解析模块具体用于：

在一种可选实施例中，所述标签链接模块具体用于：

在一种可选实施例中，还包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

另外，本发明实施例还提供了一种电子设备，包括：处理器，存储器，存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述图像的检索方法、图像检索模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述XX方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

图10为实现本发明各个实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、处理器1010、以及电源1011等部件。本领域技术人员可以理解，本发明实施例中所涉及的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

应理解的是，本发明实施例中，射频单元1001可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器1010处理；另外，将上行的数据发送给基站。通常，射频单元1001包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元1001还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块1002为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元1003可以将射频单元1001或网络模块1002接收的或者在存储器1009中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元1003还可以提供与电子设备1000执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元1003包括扬声器、蜂鸣器以及受话器等。

输入单元1004用于接收音频或视频信号。输入单元1004可以包括图形处理器(Graphics Processing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元1006上。经图形处理器10041处理后的图像帧可以存储在存储器1009(或其它存储介质)中或者经由射频单元1001或网络模块1002进行发送。麦克风10042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元1001发送到移动通信基站的格式输出。

电子设备1000还包括至少一种传感器1005，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板10061的亮度，接近传感器可在电子设备1000移动到耳边时，关闭显示面板10061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器1005还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元1006用于显示由用户输入的信息或提供给用户的信息。显示单元1006可包括显示面板10061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板10061。

用户输入单元1007可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板10071上或在触控面板10071附近的操作)。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1010，接收处理器1010发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板10071。除了触控面板10071，用户输入单元1007还可以包括其他输入设备10072。具体地，其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板10071可覆盖在显示面板10061上，当触控面板10071检测到在其上或附近的触摸操作后，传送给处理器1100以确定触摸事件的类型，随后处理器1010根据触摸事件的类型在显示面板10061上提供相应的视觉输出。可以理解的是，在一种实施例中，触控面板10071与显示面板10061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板10071与显示面板10061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元1008为外部装置与电子设备1000连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元1008可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备1000内的一个或多个元件或者可以用于在电子设备1000和外部装置之间传输数据。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1009可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1010是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器1009内的软件程序和/或模块，以及调用存储在存储器1009内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器1010可包括一个或多个处理单元；优选的，处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

电子设备1000还可以包括给各个部件供电的电源1011(比如电池)，优选的，电源1011可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备1000包括一些未示出的功能模块，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像的检索方法，其特征在于，应用于数据交互端，所述方法包括：

获取多模态数据集合；

显示所述第一检索图像集合；

2.根据权利要求1所述的方法，其特征在于，所述将所述多模态数据集合发送至数据处理端，并接收所述数据处理端返回的与所述多模态数据集合对应的第一检索图像集合，包括：

3.根据权利要求2所述的方法，其特征在于，所述响应于针对所述多模态数据集合的至少一种标注操作，根据至少一种所述标注操作对所述多模态数据集合进行标注，获得与所述标注层级对应的第一标注图像集合，包括：

4.根据权利要求3所述的方法，其特征在于，所述标注层级包括对象层级，所述第一检索图像与所述目标图像至少包括第一目标对象，所述响应于针对所述第一检索图像和/或所述目标图像的至少一种标注操作，根据至少一种所述标注操作对所述检索图像和/或所述目标图像进行标注，获得与所述标注层级对应的第一标注图像集合，包括：

5.根据权利要求3所述的方法，其特征在于，所述标注层级包括像素层级，所述响应于针对所述第一检索图像和/或所述目标图像的至少一种标注操作，根据至少一种所述标注操作对所述检索图像和/或所述目标图像进行标注，获得与所述标注层级对应的第一标注图像集合，包括：

6.根据权利要求2或3或4或5所述的方法，其特征在于，还包括：

7.根据权利要求1或2或3或4或5所述的方法，其特征在于，所述第一检索图像集合中的第二检索图像至少包括第二目标对象以及针对所述第二目标对象的第二标签，所述显示所述第一检索图像集合之后，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，还包括：

若所述用户意图为所述第一检索图像集合中存在一个第二检索图像中的至少一个第二标签不满足所述预设条件，则响应于针对未满足所述预设条件的第二检索图像中第二标签的调整操作，将调整后的第一检索图像集合发送至所述数据处理端。

9.根据权利要求7或8所述的方法，其特征在于，还包括：

10.一种图像的检索方法，其特征在于，应用于数据处理端，所述方法包括：

接收数据交互端发送的多模态数据集合；

11.根据权利要求10所述的方法，其特征在于，所述从数据提供端中进行目标检索，获得与所述多模态数据集合对应的第一检索图像集合，包括：

12.根据权利要求11所述的方法，其特征在于，所述第一标注图像集合中的第一标注图像包括第一目标对象，所述第一标注图像至少包括框选标注图像、划线标注图像、点选标注图像以及混标标注图像，所述混标标注图像为根据框选操作、划线操作、点选操作中的至少两种进行标注的图像，所述从所述数据提供端中进行目标检索，获得与所述第一标注图像集合对应的第一检索图像集合，包括：

13.根据权利要求11所述的方法，其特征在于，所述将所述第一检索图像集合返回所述数据交互端之后，所述方法还包括：

接收所述数据交互端发送的第二关键词；

将所述第三检索图像发送至所述数据交互端。

14.根据权利要求11所述的方法，其特征在于，还包括：

15.根据权利要求14所述的方法，其特征在于，所述第一检索图像集合中的第二检索图像包括第二目标对象，所述根据所述第一检索图像集合的图像数量，在所述数据提供端中进行目标检索，获得与所述第一检索图像集合对应的第二检索图像集合，包括：

16.根据权利要求14所述的方法，其特征在于，还包括：

从所述数据提供端中获取抽象标签集合；

17.根据权利要求16所述的方法，其特征在于，所述按照所述标注层级识别出所述第二检索图像集合中第六检索图像包含的第三目标对象以及所述第三目标对象对应的待链接标签，包括：

18.根据权利要求16或17所述的方法，其特征在于，还包括：

19.根据权利要求18所述的方法，其特征在于，还包括：

20.一种图像的检索系统，其特征在于，所述检索系统至少包括数据交互端、数据处理端以及数据提供端；其中，

21.一种图像的检索装置，其特征在于，应用于数据交互端，所述装置包括：

数据获取模块，用于获取多模态数据集合；

图像显示模块，用于显示所述第一检索图像集合；

22.一种图像的检索装置，其特征在于，应用于数据处理端，所述装置包括：

目标检索模块，用于从数据提供端中进行目标检索，获得与所述多模态数据集合对应的第一检索图像集合；

23.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现如权利要求1-19任一项所述的方法。

24.一种计算机可读存储介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如权利要求1-19任一项所述的方法。