CN112765387A

CN112765387A - 图像检索方法、图像检索装置和电子设备

Info

Publication number: CN112765387A
Application number: CN202011637740.8A
Authority: CN
Inventors: 郭志军; 罗涛; 施佳子; 于海燕
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-07

Abstract

本公开提供了一种图像检索方法、图像检索装置和电子设备，可用于人工智能领域、金融领域或其他领域，该方法包括：获取图像检索指令，图像检索指令包括关键词；响应于图像检索指令，基于关键词遍历用户标签集合，得到与关键词相匹配的图像标识的标识集合，用户标签集合包括标签以及标签和图像标识之间的映射关系；以及从图像集合中确定与标识集合相匹配的图像，并且输出至少部分相匹配的图像。

Description

图像检索方法、图像检索装置和电子设备

技术领域

本公开涉及人工智能技术领域、金融领域，更具体地，涉及一种图像检索方法、图像检索装置和电子设备。

背景技术

相关技术中图像相册主要以时间、拍照地点、拍照类型等维度对用户存储的图像进行分类存储，以便于用户快速地查找到所需的图像。

在实现本公开构思的过程中，申请人发现相关技术中至少存在如下问题，随着用户存储的图像不断增长，时间跨度越来越大，图像涉及的分类越来越多，导致用户无法便捷地从图像相册中找到所需的图像。

发明内容

有鉴于此，本公开提供一种图像检索方法、图像检索装置和电子设备，至少部分地解决用户无法便捷地从图像相册中找到所需图像的问题，以提升用户体验。

本公开的一个方面提供了一种图像检索方法、图像检索装置和电子设备，以至少部分解决图像融合任务中，因无标注的融合图像造成的网络训练困难，并且降低对人为设计融合规则的依赖，以提高网络的融合性能。

本公开的一个方面提供了一种图像检索方法，包括：获取图像检索指令，图像检索指令包括关键词；响应于图像检索指令，基于关键词遍历用户标签集合，得到与关键词相匹配的图像标识的标识集合，用户标签集合包括标签以及标签和图像标识之间的映射关系；以及从图像集合中确定与标识集合相匹配的图像，并且输出至少部分相匹配的图像。

本公开的一个方面提供了一种图像检索装置，包括：检索指令获取模块、标识集合确定模块和图像确定模块。其中，检索指令获取模块用于获取图像检索指令，图像检索指令包括关键词；标识集合确定模块用于响应于图像检索指令，基于关键词遍历用户标签集合，得到与关键词相匹配的图像标识的标识集合，用户标签集合包括标签以及标签和图像标识之间的映射关系；以及图像确定模块用于从图像集合中确定与标识集合相匹配的图像，并且输出至少部分相匹配的图像。

本公开的另一方面提供了一种电子设备，包括一个或多个处理器以及存储装置，其中，存储装置用于存储可执行指令，可执行指令在被处理器执行时，实现如上的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，指令在被执行时用于实现如上的训练图像检索模型训练的方法和/或图像检索方法。

本公开的另一方面提供了一种计算机程序，计算机程序包括计算机可执行指令，指令在被执行时用于实现如上的训练图像检索模型训练的方法和/或图像检索方法。

本公开实施例提供的图像检索方法、图像检索装置和电子设备，在进行图像检索时，可通过描述所需图像的关键信息，如关键词，利用关键词在用户标签集合中与已有标签进行匹配，基于映射关系得到与相匹配的标签对应的图像标识，进而可以输出相匹配的图像标识所标识的图像，提升用户查找所需图像的便捷度。

本公开实施例提供的图像检索方法、图像检索装置和电子设备，通过描述性文本获取模型自动生成输入图像的描述性文本，然后基于从描述性文本提取的关键词和图像的属性信息生成该输入图像的标签，进而生成包括图像标识和标签的映射关系的用户标签集合。无需用户手动对各输入图像进行打标签，提升了用户使用相册的便捷度。

本公开实施例提供的图像检索方法、图像检索装置和电子设备，结合数字人技术，拓展数字人关于图像检索的应用场景。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的图像检索方法、图像检索装置和电子设备的应用场景；

图2示意性示出了根据本公开实施例的可以应用图像检索方法、图像检索装置的示例性系统架构；

图3示意性示出了根据本公开实施例的图像检索方法的流程图；

图4示意性示出了根据本公开实施例的用户标签集合的示意图；

图5示意性示出了根据本公开另一实施例的图像检索方法的流程图；

图6示意性示出了根据本公开实施例的卷积神经网络的结构示意图；

图7示意性示出了根据本公开实施例的神经网络的结构示意图；

图8示意性示出了根据本公开另一实施例的神经网络的结构示意图；

图9示意性示出了根据本公开实施例的自注意力机制网络的结构示意图；

图10示意性示出了根据本公开实施例的图像检索装置的方框图；以及

图11示意性示出了根据本公开实施例的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。

相关技术中图像相册软件主要以时间、拍照地点、拍照类型等维度对用户存储图像进行划分。例如：根据用户拍照时间或上传照片时间维度划分图像。按照用户拍摄照片时地点信息备注地点信息，例如北京市、江苏市等。依据深度学习识别图像中内容分类划分图像，例如人物、天空、建筑、花等。

同时，辅助人脸识别等方法对照片中人脸聚类，用户也可根据照片中的身份信息搜索图像。此外，有些软件也给用户提供手工标注照片标签，以便于根据标签搜索图像。

随着用户存储图像数据的不断增长，时间跨度越来越大，长居住地拍摄照片越来越多，用户偏好导致某个拍照类型或某人的照片居多。现有技术条件下，用户手工搜索时间随着照片数量大量延长。此外，用户一般批量大量上传照片到相册或备份到云空间，无偿条件下让用户手工标签难以维持和实现。

本公开的实施例提供了一种图像检索方法、图像检索装置和电子设备。该图像检索方法包括标识集合确定过程和图像确定过程，首先获取图像检索指令，图像检索指令包括关键词，然后，响应于图像检索指令，基于关键词遍历用户标签集合，得到与关键词相匹配的图像标识的标识集合，用户标签集合包括标签以及标签和图像标识之间的映射关系。在完成标识集合确定过程之后进入图像确定过程，从图像集合中确定与标识集合相匹配的图像，并且输出至少部分相匹配的图像。

图1示意性示出了根据本公开实施例的图像检索方法、图像检索装置和电子设备的应用场景。

如图1所示，图像集合中各图像可以具有相应的文字描述信息，如图1中的描述可以为：一个穿体恤的男人在使用电视机玩体感游戏。此外，该图像还可以具有图像属性，如图像上传于XX年YY月XX日，图像拍摄于XX年YY月XX日，图像拍摄于北京，图像拍摄位置是科技馆等。为了便于后期进行图像检索，可以基于上述描述和图像属性等生成与该图像对应的标签，如标签1、T恤，标签2、电视机，标签3、游戏，标签4、体感游戏，标签5、XX年YY月XX日等。各标签可以存储在用户标签库中，然后通过建立映射关系的方式确定各图像标识具有的标签。这样便于通过标签匹配的方式来检索所需的图像。

图2示意性示出了根据本公开实施例的可以应用图像检索方法、图像检索装置的示例性系统架构。需要注意的是，图2所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。需要说明的是，本公开实施例提供的图像检索方法、图像检索装置和电子设备可用于人工智能领域在图像检索相关方面，也可用于除人工智能领域之外的多种领域，如金融领域等，本公开实施例提供的图像检索方法、图像检索装置和电子设备的应用领域不做限定。

如图2所示，根据该实施例的系统架构200可以包括终端设备201、202、203，网络204和服务器205。网络204可以包括多个网关、路由器、集线器、网线等，用以在终端设备201、202、203和服务器205之间提供通信链路的介质。网络204可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备201、202、203通过网络204与其他终端设备和服务器205进行交互，以接收或发送信息等，如上传图像、发送图像检索指令、接收图像等。终端设备201、202、203可以安装有各种通讯客户端应用，例如，相册类应用、银行类应用、电商类应用、网页浏览器应用、搜索类应用、办公类应用、即时通信工具、邮箱客户端、社交平台软件等应用(仅为示例)。

终端设备201、202、203包括但不限于智能手机、台式电脑、增强现实设备、平板电脑、膝上型便携计算机等等可以支持上网、语音采集等功能的电子设备。终端设备上可以下载有描述性文本获取模型，以便生成图像的描述性文本和标签。

服务器205可以接收模型训练请求、图像检索请求、模型下载请求等，并对请求进行处理。例如，服务器205可以为后台管理服务器、服务器集群等。后台管理服务器可以对接收到的服务请求、信息请求等进行分析处理，并将处理结果(如检索到的图像、训练模型得到的模型参数等)反馈给终端设备。

需要说明的是，本公开实施例所提供的图像检索方法可以由终端设备201、202、203或服务器205执行。相应地，本公开实施例所提供的图像检索装置可以设置于终端设备201、202、203或服务器205中。应该理解，终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图3示意性示出了根据本公开实施例的图像检索方法的流程图。如图3所示，该图像检索方法可以包括操作S302～操作S306。

在操作S302中，获取图像检索指令，图像检索指令包括关键词。

在本实施例中，图像检索指令可以是文本类型的指令，也可以是语音类型的指令。例如，用户可以输入文本信息“XX年上半年拍摄的图像，图像中的我正在玩体感游戏，位置是科技馆”。又例如，用户可以向数字人发出语音指令“帮我找下XX年上半年在科技馆拍摄的玩体感游戏的照片，我当时穿的是T恤”。如上所示的图像检索指令中可以包括：XX年上半年、游戏、体感游戏、科技馆等关键信息。

对于文本类型的指令，可以通过多种自然语言处理的方式从文本信息中提取关键词，此外，还可以提取关键词或文本信息的语义信息以提升检索成功的概率。

在一个实施例中，获取图像检索指令可以包括如下操作。

首先，响应于获取的用户语音信息，对用户语音信息进行语音识别，得到文本信息。然后，对文本信息进行自然语言处理，得到关键词和关键词的语义信息。接着，基于关键词和关键词的语义信息生成图像检索指令。

例如，对用户语音信息进行语音识别包括对由数字人输入的用户语音信息进行语音识别。

近些年随着智能音箱等技术的兴起，语音驱动的问答、搜索等功能应用领域逐渐扩宽。其中，语音搜索为用户提供了更加便捷的检索方式。而现有图像搜索仍多以文字描述为主，因为语音搜索图像本质也是将语音内容截取为文字再进行搜索。因此，在传统应用场景中，语音搜索图像很少有具体应用。但数字人技术，为该领域带来了新的变革。

数字人是基于人工智能技术，在多种媒介上实现与用户可视化交互的数字拟态形象。数字人技术，采用建模技术构造虚拟形象，并通过深度学习神经网络、计算机图形学等多学科融合，通过语音驱动虚拟形象，让拟态生命能够理解语音内容并生成对话，精细驱动虚拟形象做出符合语境的表情及动作，最终赋予拟态生命智能化、拟人化的交互能力。因此，数字人作为新一代输入接口，以语音搜索图像也必然占有一席之地。

对于语音类型的指令，具体地，可以首先通过诸如数字人等人机接口来获取用户的语音信息，然后，由数字人将语音信息发送给处理器或上传语音识别平台进行语音识别，以获得与语音信息对应的文本信息。这样就可以对文本信息进行自然语言处理，以确定关键词和语义信息等。

在操作S304中，响应于图像检索指令，基于关键词遍历用户标签集合，得到与关键词相匹配的图像标识的标识集合，用户标签集合包括标签以及标签和图像标识之间的映射关系。

图4示意性示出了根据本公开实施例的用户标签集合的示意图。

如图4所示，图4的左边虚线框表示标签集合，图4的右边虚线框表示图像集合(可以有对应的标签集合)。标签集合中各标签可以与图像标识集合中各图像标识之间存在映射关系。标签集合中各标签可以是共用的，如图4中标签1分别作为图像标识1的图像、图像标识2的图像、图像标识3的图像各自的标签。例如，图像标识1的图像、图像标识2的图像的描述中都包括关键词：T恤，此时，无需分别为图像标识1的图像、图像标识2的图像设置针对“T恤”的标签，只需要映射至标签1即可。这样有助于减少占用的存储空间，并且无需修改各图像的图像数据，如无需为图像设置批注信息。

在操作S306中，从图像集合中确定与标识集合相匹配的图像，并且输出至少部分相匹配的图像。

在确定相匹配的图像标识后，就可以输出至少部分相匹配的图像，如给客户端发送至少部分相匹配的图像，或者终端设备显示至少部分相匹配的图像以供用户挑选。

图5示意性示出了根据本公开另一实施例的图像检索方法的流程图。

如图5所示，该方法在获取图像检索指令之后，还可以包括操作S508。

在操作S508，获取关键词的语义信息。

其中，语义信息可以适当地扩大关键词的范围以降低丢失正确结果的可能性。例如，关键词是今年上半年，则通过语义理解，可以分析出其表征的检索范围是：XX年1月1日0点0分0秒～XX年6月30日23点59分59秒。这样便于进行匹配。此外，语义信息可以适当地缩小检索范围，如用户是男性，“我穿的运动鞋”，结合上下文可以得知该运动鞋是“男士运动鞋”，有助于减小检索范围。

相应地，基于关键词遍历用户标签集合，得到与关键词相匹配的图像标识的标识集合包括：基于关键词和关键词的语义信息遍历用户标签集合，得到与关键词和关键词的语义信息相匹配的图像标识的标识集合。

在一个实施例中，当存在多个检索结果时，为了便于用户更快地从检索结果中找到所需的图像，在从图像集合中确定与标识集合相匹配的图像之后，上述方法还可以包括如下操作：按照匹配度从高到低的顺序对相匹配的图像进行排序，得到具有排序的待输出图像集合，匹配度是基于与图像的标签相匹配的关键词和/或关键词的语义信息的个数和相似度来确定的。

例如，图像的标签与关键词相匹配的个数越多，则其是用户所需的图像的概率越大。此外，标签与关键词的相似度越高，则其是用户所需的图像的概率越大。具体可以将相似度作为权重，完全相同关键词的权重为1，近义词的权重为0.6等，基于加权求和的结果确定排序。

相应地，输出至少部分相匹配的图像包括：按照排序从高到低的顺序输出具有排序的待输出图像集合中至少部分图像。

本公开实施例可通过语音或文本输入方式，快速检索存储内容方法，可减少手工检索查找的复杂程度。用户在检索时，可通过语音或文本描述背景情况传递给数字人，数字人通过语音识别、自然语言处理获取描述中的关键字。利用关键字与已有标签匹配相似度，将一定阈值以上的图像反馈给用户挑选。

以下对确定图像的标签的过程进行示例性说明。

图像的标签可以是自动生成的，也可以根据用户的需求手动设置标签。以下对自动生成标签的过程进行示例性说明。

在一个实施例中，上述方法还可以包括如下操作。

首先，获取输入图像，输入图像具有属性信息。其中，属性信息包括但不限于：拍摄时间、拍摄地点、图像占用存储空间的大小、图像的分辨率等有助于提升检索准确度的信息。可以是由用户输入的，也可以是设备自动获取的。

然后，获取针对输入图像的描述性文本。可以是由用户输入的语音信息转换成的文本信息，也可以是由用户输入的文本信息。此外，也可以是自动生成的图像的描述性文本。

例如，用户上传图像后，服务器端利用经训练的描述性文本获取模型对图像内容进行处理，得到描述性文本，生成UUID(作为图像的唯一标示码)和上传时间，例如根据照片内容生成“在草坪上，一个穿着蓝色外衣的男人正在打羽毛球”。具体可以采用自适应关注方法训练模型，实现输入一张图片，返回相关图像的内容描述。

接着，从描述性文本中提取关键词。提取关键词的方法可以同现有技术，如基于词性、查关键词词典等方式确定关键词，在此不做限定。

然后，将属性信息和关键词作为输入图像的标签。如将关键词和时间属性、地理位置属性等分别作为输入图像的标签。

接着，基于输入图像的图像标识和标签构建用户标签集合，或者更新用户标签集合。具体参考图4所示。

然后，从描述性文本中抽取核心字段，例如，基于命名实体识别方法(如Bidirectional Encoder Representation from Transformers，简称Bert)-条件随机场(Conditional Random Fields，简称CRF)来实现。作为照片标签，如：“一个”，“草坪”，“蓝色”，“外衣”，“男人”，“羽毛球”。之后，将照片标签，对应的图像标识(UUID)和图像属性(如上传时间)存储到用户个人标签库，照片和对应的UUID存储到用户个人照片库。

在一个实施例中，获取针对输入图像的描述性文本可以包括：利用经训练的描述性文本获取模型处理输入图像，得到输入图像的描述性文本，描述性文本获取模型包括神经网络。

在基于图像生成描述性文本的过程中，需要提取图像特征。图6示意性示出了根据本公开实施例的卷积神经网络的结构示意图，例如，可以使用如图6所示的卷积神经网络(CNN)进行特征提取。

在一个实施例中，神经网络包括多层感知器(MLP)、自注意力机制(Atten)网络和长短时记忆(LSTM)网络。

其中，多层感知器、自注意力机制网络和长短时记忆网络的可以具有多种连接方式。

图7示意性示出了根据本公开实施例的神经网络的结构示意图。

如图7所示，LSTM网络的输出分别与Atten网络的输入和MLP的输入相连，Atten网络的输出与MLP的输入相连。图7中x_t是全局图像特征和词向量的拼接，全局图像特征是从输入图像提取的。c_t表示上下文(context)向量。V表示局部图像特征，可以表示为V＝[v₁,v₂,v₃,……,v_L]，L是局部图像特征的个数。h_t是已生成文本的历史信息。y_t是针对输入图像的描述性文本。Atten网络可以基于自注意力机制确定多个局部图像特征各自的权重。

非视觉词比如“the”、“of”等词的挖掘，并不需要视觉信息，它们的梯度反而会影响到视觉信息的有效性，因此需要控制Atten网络中视觉信息和历史信息的比重，h_t来表示已生成文本的历史信息。相当于从时间的维度来决定什么时候看，看多少。由h_t来决定看的信息，这可以降低隐含层对于下一个词预测的不确定性。

图8示意性示出了根据本公开另一实施例的神经网络的结构示意图。

长短时记忆网络用于将已生成文本的第一历史信息和第二历史信息传输给自注意力机制网络，并且将已生成文本的第二历史信息传输给多层感知器。

自注意力机制网络用于基于第一历史信息的第一权重、输入的至少两个局部图像特征各自的第二权重，对第一历史信息和至少两个局部图像特征进行加权融合，得到上下文向量，并且输出给多层感知器，第一权重和第二权重是自注意力机制网络使用已生成文本的第二历史信息作为监督信息，基于自注意力机制来确定的，至少两个局部图像特征表征视觉信息。

多层感知器用于基于上下文向量和已生成文本的第二历史信息生成输入图像的描述性文本。

对于非视觉词，它们的生成应该取决于历史信息而不是视觉信息，因此在这种情况下应该对视觉信息加以控制。与图7不同的是，图8中多了一个S_t信息，而它的生成结构和h_t是一致的，所以它所蕴含的就是已经生成的文本信息。

图9示意性示出了根据本公开实施例的自注意力机制网络的结构示意图。

如图9所示，自注意力机制网络包括针对至少两个局部图像特征各自的分支网络和针对已生成文本的第一历史信息的分支网络。

具体地，将S_t信息引入到Atten网络以后，Atten网络生成新context向量

如式(1)所示。

其中，

如可以通过归一化操作确定α_ti和β_i。

具体地，引入一个新的参数β_t，将原有的context向量C_t与S_t进行加权。当β_t为1时，则当前文本的生成只取决于之前已生成的文本信息，β_t为0则只取决于视觉信息，则其输出结果

与图7中输出结果C_t一样。由此，便可以决定在t时刻是否看视觉信息，以及看多少。

当模型认为视觉信息没有用时，β_i的系数很大，可以抑制了视觉特征v_i参与单词的预测；但当预测有物体含义的单词时，模型需要视觉特征v_i参与，此时β_i的系数会很小,会注意到物体区域内的视觉特征。

例如，通过激活函数得到针对分支网络各自的权重。如使用Sigmoid函数得到相应的分支的权重。针对α的权重归一化可以通过诸如α/(α+β)来实现。

通过以上方法即可自动生成针对输入图像的描述性文本，然后将针对从上述描述性文本中提取的关键词和获取的图像的属性生成输入图像的标签，进而构建或更新上述用户标签集合，以便基于用户标签集合进行图像检索。

在一个具体实施例中，当用户语音查找相关图片时，通过语音识别将语音转换文本内容。使用分词方法将语音内容划分，例如：“去年10月打羽毛球的照片”语音内容命名实体识别为“去年10月”，“羽毛球”，而“的”，“照片”因为自动识别为屏蔽词汇自动去除。通过自然语言处理对“去年10月”等文字识别转为具体时间，假定“去年10月”转换为“[2019-10-01,2019-10-31]”。然后，根据“[2019-10-01,2019-10-31]”和“羽毛球”遍历用户标签集合(如个人用户标签库)的上传时间和标签列，过滤出符合时间段和标签的UUID列表。最后，使用过滤出的UUID列表到用户个人照片库，检索出符合用户需要的所有照片。

本公开实施例提供的图像检索方法，可以有效提高检索速度，大幅减少用户检索图片所需时间。此外，结合数字人技术，可以拓展数字人应用场景。

图10示意性示出了根据本公开实施例的图像检索装置的方框图。

如图10所示，该图像检索装置1000可以包括：检索指令获取模块1010、标识集合确定模块1020和图像确定模块1030。

其中，检索指令获取模块1010用于获取图像检索指令，图像检索指令包括关键词。

标识集合确定模块1020用于响应于图像检索指令，基于关键词遍历用户标签集合，得到与关键词相匹配的图像标识的标识集合，用户标签集合包括标签以及标签和图像标识之间的映射关系。

图像确定模块1030用于从图像集合中确定与标识集合相匹配的图像，并且输出至少部分相匹配的图像。

需要说明的是，装置部分实施例中各模块/单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再一一赘述。

根据本公开的实施例的模块、单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，检索指令获取模块1010、标识集合确定模块1020和图像确定模块1030中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，检索指令获取模块1010、标识集合确定模块1020和图像确定模块1030中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，检索指令获取模块1010、标识集合确定模块1020和图像确定模块1030中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图11示意性示出了根据本公开实施例的电子设备的方框图。图11示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，根据本公开实施例的电子设备1100包括处理器1101，其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。处理器1101例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1101还可以包括用于缓存用途的板载存储器。处理器1101可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1103中，存储有电子设备1100操作所需的各种程序和数据。处理器1101、ROM 1102以及RAM 1103通过总线1104彼此通讯连接。处理器1101通过执行ROM 1102和/或RAM 1103中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM 1102和RAM 1103以外的一个或多个存储器中。处理器1101也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1100还可以包括输入/输出(I/O)接口1105，输入/输出(I/O)接口1105也连接至总线1104。电子设备1100还可以包括连接至I/O接口1105的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被处理器1101执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1102和/或RAM 1103和/或ROM 1102和RAM 1103以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行本公开实施例所提供的方法的程序代码，当计算机程序产品在电子设备上运行时，该程序代码用于使电子设备实现本公开实施例所提供的图像模型训练方法或图像检索方法。

在该计算机程序被处理器1101执行时，执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1109被下载和安装，和/或从可拆卸介质1111被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种图像检索方法，包括：

获取图像检索指令，所述图像检索指令包括关键词；

响应于所述图像检索指令，基于所述关键词遍历用户标签集合，得到与所述关键词相匹配的图像标识的标识集合，所述用户标签集合包括标签以及标签和图像标识之间的映射关系；以及

从图像集合中确定与所述标识集合相匹配的图像，并且输出至少部分所述相匹配的图像。

2.根据权利要求1所述的方法，还包括：

获取输入图像，所述输入图像具有属性信息；

获取针对所述输入图像的描述性文本；

从所述描述性文本中提取关键词；

将所述属性信息和所述关键词作为所述输入图像的标签；以及

基于所述输入图像的图像标识和标签构建所述用户标签集合，或者更新所述用户标签集合。

3.根据权利要求2所述的方法，其中，所述获取针对所述输入图像的描述性文本包括：

利用经训练的描述性文本获取模型处理所述输入图像，得到所述输入图像的描述性文本，所述描述性文本获取模型包括神经网络。

4.根据权利要求3所述的方法，其中，所述神经网络包括多层感知器、自注意力机制网络和长短时记忆网络，其中，

所述长短时记忆网络用于将已生成文本的第一历史信息和第二历史信息传输给所述自注意力机制网络，并且将所述已生成文本的第二历史信息传输给所述多层感知器；

所述自注意力机制网络用于基于所述第一历史信息的第一权重、输入的至少两个局部图像特征各自的第二权重，对所述第一历史信息和所述至少两个局部图像特征进行加权融合，得到上下文向量，并且输出给所述多层感知器，所述第一权重和所述第二权重是所述自注意力机制网络使用所述已生成文本的第二历史信息作为监督信息，基于自注意力机制来确定的，所述至少两个局部图像特征表征视觉信息；以及

所述多层感知器用于基于所述上下文向量和所述已生成文本的第二历史信息生成所述输入图像的描述性文本。

5.根据权利要求4所述的方法，其中，所述自注意力机制网络包括针对至少两个局部图像特征各自的分支网络和针对所述已生成文本的第一历史信息的分支网络。

6.根据权利要求1所述的方法，还包括：在所述获取图像检索指令之后，

获取所述关键词的语义信息；

所述基于所述关键词遍历用户标签集合，得到与所述关键词相匹配的图像标识的标识集合包括：

基于所述关键词和所述关键词的语义信息遍历所述用户标签集合，得到与所述关键词和所述关键词的语义信息相匹配的图像标识的标识集合。

7.根据权利要求6所述的方法，还包括：在所述从图像集合中确定与所述标识集合相匹配的图像之后，

按照匹配度从高到低的顺序对所述相匹配的图像进行排序，得到具有排序的待输出图像集合，所述匹配度是基于与图像的标签相匹配的关键词和/或关键词的语义信息的个数和相似度来确定的；以及

所述输出至少部分所述相匹配的图像包括：按照排序从高到低的顺序输出所述具有排序的待输出图像集合中至少部分图像。

8.根据权利要求1～7任一项所述的方法，其中，所述获取图像检索指令包括：

响应于获取的用户语音信息，对所述用户语音信息进行语音识别，得到文本信息；

对所述文本信息进行自然语言处理，得到所述关键词和所述关键词的语义信息；以及

基于所述关键词和所述关键词的语义信息生成图像检索指令。

9.根据权利要求8所述的方法，其中，所述对所述用户语音信息进行语音识别包括对由数字人输入的用户语音信息进行语音识别。

10.一种图像检索装置，包括：

检索指令获取模块，用于获取图像检索指令，所述图像检索指令包括关键词；

标识集合确定模块，用于响应于所述图像检索指令，基于所述关键词遍历用户标签集合，得到与所述关键词相匹配的图像标识的标识集合，所述用户标签集合包括标签以及标签和图像标识之间的映射关系；以及

图像确定模块，用于从图像集合中确定与所述标识集合相匹配的图像，并且输出至少部分所述相匹配的图像。

11.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储可执行指令，所述可执行指令在被所述处理器执行时，实现根据权利要求1～9任一项所述的图像检索方法。

12.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时，实现根据权利要求1～9任一项所述的图像检索方法。