CN113076433A

CN113076433A - 具有多模态信息的检索对象的检索方法和装置

Info

Publication number: CN113076433A
Application number: CN202110454387.8A
Authority: CN
Inventors: 洪炜翔; 暨凯祥; 刘家佳; 王剑; 陈景东; 褚崴
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-07-06
Anticipated expiration: 2041-04-26
Also published as: CN113076433B

Abstract

本说明书实施例提供一种具有多模态信息的检索对象的检索方法和装置，方法包括：获取单模态的查询信息，单模态的查询信息为第一文本或第一图片；当查询信息为第一文本时，将第一文本输入生成模型，生成与第一文本包含的主体对应的图像特征；将第一文本对应的文本特征和图像特征输入图文转换器，对文本特征和图像特征进行基于自注意力的融合，输出查询信息的第一查询特征向量；根据第一查询特征向量与各检索特征向量之间的相似度，确定与查询信息相匹配的检索对象；各检索特征向量分别对应于数据库中的各检索对象，任一检索特征向量为将其对应的检索对象的多模态信息输入图文转换器得到的。能够提高检索精度。

Description

具有多模态信息的检索对象的检索方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及具有多模态信息的检索对象的检索方法和装置。

背景技术

数据库包含大量的检索对象，并且存储着每个检索对象的描述信息，检索(information retrieval)常用于根据查询信息与描述信息的匹配度，从数据库的大量的检索对象中确定与该查询信息相匹配的检索对象。其中，上述检索对象可以代表商品、公众号或小程序等，上述描述信息通常为多模态信息，例如，包括文本信息和图片信息，而查询信息通常为单模态信息，例如，仅包括文本信息。

现有技术中，在面对具有多模态信息的检索对象的检索时，若查询信息为文本信息，而检索对象具有文本信息和图片信息，这种情况下不能综合考虑图文信息，导致检索精度低。

因此，希望能有改进的方案，能够提高检索精度。

发明内容

本说明书一个或多个实施例描述了一种具有多模态信息的检索对象的检索方法和装置，能够提高检索精度。

第一方面，提供了一种具有多模态信息的检索对象的检索方法，所述多模态信息包括文本信息和图片信息，方法包括：

获取单模态的查询信息，所述单模态的查询信息为第一文本或第一图片；

当所述查询信息为第一文本时，将所述第一文本输入生成模型，所述生成模型生成与所述第一文本包含的主体对应的图像特征；

将所述第一文本对应的文本特征和所述图像特征输入图文转换器，所述图文转换器对所述文本特征和所述图像特征进行基于自注意力的融合，从而输出所述查询信息的第一查询特征向量；

根据所述第一查询特征向量与各检索特征向量之间的相似度，确定与所述查询信息相匹配的检索对象；所述各检索特征向量分别对应于数据库中的各检索对象，任一检索特征向量为将其对应的检索对象的所述多模态信息输入所述图文转换器得到的。

在一种可能的实施方式中，所述生成模型包括目标框生成器和特征生成器；所述生成模型生成与所述第一文本包含的主体对应的图像特征，具体包括：

所述目标框生成器基于所述第一文本生成目标框，所述目标框用于指示所述第一文本包含的主体的类别和区域；

所述特征生成器基于所述目标框，生成所述主体对应的图像特征。

进一步地，所述生成模型通过如下方式训练：

将第二文本输入所述生成模型，生成所述第二文本中包含的主体对应的主体图像特征；

将主体图像特征输入判别器，通过所述判别器输出所述主体图像特征为真实的图像特征的第一概率；

以增大所述第一概率为目标，对所述生成模型进行训练。

进一步地，所述生成所述第二文本中包含的主体对应的主体图像特征，包括：

生成所述第二文本中包含的多个主体对应的多个主体图像特征；

所述判别器基于全连接结构的多层感知机实现，以使所述判别器的处理过程与多个主体图像特征的输入顺序无关；或者，所述判别器针对多个主体图像特征逐个主体图像特征进行判别，该主体图像特征为真实的图像特征的第一概率。

在一种可能的实施方式中，所述方法还包括：

当所述查询信息为第一图片时，将所述第一图片输入图像特征检测器，得到所述第一图片包括的目标图像特征；

将目标图像特征输入图片注解模型，通过所述图片注解模型生成所述目标图像特征对应的文本注解；

将所述文本注解对应的注解文本特征和所述目标图像特征输入所述图文转换器，所述图文转换器对所述注解文本特征和所述目标图像特征进行基于自注意力的融合，从而输出所述查询信息的第二查询特征向量；

根据所述第二查询特征向量与所述各检索特征向量之间的相似度，确定与所述查询信息相匹配的检索对象。

进一步地，所述图片注解模型通过如下方式训练：

将第三图片输入所述图像特征检测器，得到所述第三图片包括的样本图像特征；

将样本图像特征输入所述图片注解模型，通过所述图片注解模型生成所述样本图像特征对应的样本文本注解；

确定所述样本文本注解与所述第三图片对应的第三文本之间的文本差异损失；

通过最小化所述文本差异损失，训练所述图片注解模型。

进一步地，所述图片注解模型包括循环神经网络；所述循环神经网络逐个字的生成所述文本注解。

在一种可能的实施方式中，所述图文转换器至少基于第一预训练任务进行训练；

所述第一预训练任务包括：

将第四文本对应的第四图片输入图像特征检测器，得到所述第四图片包括的目标图像特征；

将所述第四文本包括的任一分词或所述目标图像特征作为一个输入单位，遮蔽预定比例的输入单位后输入所述图文转换器，通过所述图文转换器的输出预测遮蔽的输入单位。

在一种可能的实施方式中，所述图文转换器至少基于第二预训练任务进行训练；

所述第二预训练任务包括：

将第五图片输入图像特征检测器，得到所述第五图片包括的目标图像特征；

将第五文本和第五图片包括的目标图像特征输入所述图文转换器，通过所述图文转换器的输出预测所述第五文本和所述第五图片是否匹配。

第二方面，提供了一种具有多模态信息的检索对象的检索装置，所述多模态信息包括文本信息和图片信息，装置包括：

获取单元，用于获取单模态的查询信息，所述单模态的查询信息为第一文本或第一图片；

生成单元，用于当所述获取单元获取的查询信息为第一文本时，将所述第一文本输入生成模型，所述生成模型生成与所述第一文本包含的主体对应的图像特征；

融合单元，用于将所述第一文本对应的文本特征和所述生成单元得到的图像特征输入图文转换器，所述图文转换器对所述文本特征和所述图像特征进行基于自注意力的融合，从而输出所述查询信息的第一查询特征向量；

确定单元，用于根据所述融合单元得到的第一查询特征向量与各检索特征向量之间的相似度，确定与所述获取单元获取的查询信息相匹配的检索对象；所述各检索特征向量分别对应于数据库中的各检索对象，任一检索特征向量为将其对应的检索对象的所述多模态信息输入所述图文转换器得到的。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，首先获取单模态的查询信息，所述单模态的查询信息为第一文本或第一图片；然后当所述查询信息为第一文本时，将所述第一文本输入生成模型，所述生成模型生成与所述第一文本包含的主体对应的图像特征；接着将所述第一文本对应的文本特征和所述图像特征输入图文转换器，所述图文转换器对所述文本特征和所述图像特征进行基于自注意力的融合，从而输出所述查询信息的第一查询特征向量；最后根据所述第一查询特征向量与各检索特征向量之间的相似度，确定与所述查询信息相匹配的检索对象；所述各检索特征向量分别对应于数据库中的各检索对象，任一检索特征向量为将其对应的检索对象的所述多模态信息输入所述图文转换器得到的。由上可见，本说明书实施例，针对单模态的查询信息进行了模态补全，将仅具有文本信息的查询信息，通过生成模型得到相应的图像特征，与数据库中的查询对象具有的多模态信息成为同一种形式，可以方便且快速的计算匹配度。并且，本方案是一个基于图文转换器的方案，可以有效利用多模态预训练，通过挖掘海量图文数据中的知识，综合图文信息，检索精度高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的具有多模态信息的检索对象的检索方法流程图；

图3示出根据一个实施例的生成图像特征的示意图；

图4示出根据一个实施例的生成文本注解的示意图；

图5示出根据一个实施例的具有多模态信息的检索对象的检索装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及具有多模态信息的检索对象的检索，所述多模态信息包括文本信息和图片信息。参照图1，以检索对象为商品为例，对于电商平台，商品检索是它们赖以售卖商品的基本功能，在商品检索中，用户输入的查询信息通常是文本，而数据库中的商品信息则多为图片和文字并存。这是一个不对称的场景，查询信息是单模态信息，数据库中的商品信息是多模态信息。在这个例子中，用户输入的查询信息为“黑色篮球鞋”，但是商品11、商品12和商品13的文字描述都不涉及颜色信息。在这种情况下，综合商品信息包括的文字信息和图片信息是很必要的，这样可以确定深色的商品与查询信息的匹配度更高，把深色的商品优先返回，当返回多个商品时，可以将深色的商品排序在前、浅色的商品排序到后面。

需要说明的是，本说明书实施例中的检索对象可以但不限于为商品，还可以是公众号、小程序等。

模态(modal)：是信息的不同表现形式。例如：图片、文本、声音等等。

本说明书实施例，用户输入的查询信息为单模态信息包括两种场景，一种场景是该单模态信息是文本，上述文本可以是用户输入的关键词，或者，用户输入的一整句话；另一种场景是该单模态信息是图片，上述图片可以是用户在某些以图搜图的功能中输入的图片。

其中，比较常见的场景为单模态信息是文本的场景。本说明书实施例，针对查询信息为单模态信息，且检索对象为多模态信息的应用场景，提供检索方案，以期提高检索精度。

图2示出根据一个实施例的具有多模态信息的检索对象的检索方法流程图，所述多模态信息包括文本信息和图片信息，该实施例可以基于图1所示的实施场景。如图2所示，该实施例中具有多模态信息的检索对象的检索方法包括以下步骤：步骤21，获取单模态的查询信息，所述单模态的查询信息为第一文本或第一图片；步骤22，当所述查询信息为第一文本时，将所述第一文本输入生成模型，所述生成模型生成与所述第一文本包含的主体对应的图像特征；步骤23，将所述第一文本对应的文本特征和所述图像特征输入图文转换器，所述图文转换器对所述文本特征和所述图像特征进行基于自注意力的融合，从而输出所述查询信息的第一查询特征向量；步骤24，根据所述第一查询特征向量与各检索特征向量之间的相似度，确定与所述查询信息相匹配的检索对象；所述各检索特征向量分别对应于数据库中的各检索对象，任一检索特征向量为将其对应的检索对象的所述多模态信息输入所述图文转换器得到的。下面描述以上各个步骤的具体执行方式。

首先在步骤21，获取单模态的查询信息，所述单模态的查询信息为第一文本或第一图片。可以理解的是，该查询信息可以为用户输入的，或者，在满足某种触发条件时，获取的预先设定的查询信息。

本说明书实施例中，上述第一文本可以为若干个词或句子。当上述第一文本为用户输入时，可以是用户通过键盘输入的，也可以是用户通过语音输入后，将语音转换为文本得到的。

上述第一图片可以为通过摄像头临时拍摄的，也可以是从终端的图片库中选取的之前拍摄的图片。

然后在步骤22，当所述查询信息为第一文本时，将所述第一文本输入生成模型，所述生成模型生成与所述第一文本包含的主体对应的图像特征。可以理解的是，主体与图像特征是一一对应的关系，第一文本可以包含一个主体或多个主体，当第一文本包含多个主体时，每个主体对应一个图像特征。

在一个示例中，所述生成模型包括目标框生成器和特征生成器；所述生成模型生成与所述第一文本包含的主体对应的图像特征，具体包括：

可以理解的是，当第一文本包含多个主体时，所述目标框生成器基于所述第一文本生成多个目标框，所述多个目标框用于指示所述第一文本包含的多个主体的类别和区域；所述特征生成器基于所述多个目标框，生成所述多个主体各自对应的图像特征。

图3示出根据一个实施例的生成图像特征的示意图。参照图3，生成模型包括目标框生成器和特征生成器，第一文本为“一个男子拿着冲浪板走在沙滩上”，所述目标框生成器基于所述第一文本生成两个目标框，用于指示所述第一文本包含的一个主体的类别为男子，另一个主体的类别为冲浪板，并指示出这两个主体各自的区域；所述特征生成器基于前述两个目标框，生成男子和冲浪板各自对应的图像特征，作为生成的图像特征。

在一个示例中，所述生成模型通过如下方式训练：

以增大所述第一概率为目标，对所述生成模型进行训练。

可以理解的是，生成模型生成的图像特征越接近于真实的图像特征，越有助于提高后续利用生成的图像特征进行检索的精度。

进一步地，所述生成所述第二文本中包含的主体对应的主体图像特征，包括：生成所述第二文本中包含的多个主体对应的多个主体图像特征；

可以理解的是，判别器的上述两种实现方式，均可以使得判别器的处理过程与多个主体图像特征的排序无关，相应地，判别器的输出结果与多个主体图像特征的排序无关。

接着在步骤23，将所述第一文本对应的文本特征和所述图像特征输入图文转换器，所述图文转换器对所述文本特征和所述图像特征进行基于自注意力的融合，从而输出所述查询信息的第一查询特征向量。可以理解的是，其中的所述图像特征为根据第一文本生成的图像特征，从而对查询信息为文本这种单模态信息，进行了模态补全，便于综合图文信息进行检索。

在一个示例中，所述图文转换器至少基于第一预训练任务进行训练；

所述第一预训练任务包括：

在一个示例中，所述图文转换器至少基于第二预训练任务进行训练；

所述第二预训练任务包括：

本说明书实施例，通过上述第一预训练任务和/或第二预训练任务，可以利用大量的现有的图文数据，不需要人工标注，有利于提高检索精度。

最后在步骤24，根据所述第一查询特征向量与各检索特征向量之间的相似度，确定与所述查询信息相匹配的检索对象；所述各检索特征向量分别对应于数据库中的各检索对象，任一检索特征向量为将其对应的检索对象的所述多模态信息输入所述图文转换器得到的。可以理解的是，第一查询特征向量是基于构造的多模态信息得到的，从而可以方便快速的计算上述相似度，有利于提高检索速度。

在一个示例中，所述方法还包括：

该示例中，针对单模态的查询信息进行了模态补全，将仅具有图片信息的查询信息，通过图像特征检测器和图片注解模型得到相应的文本注解，与数据库中的查询对象具有的多模态信息成为同一种形式，可以方便且快速的计算匹配度。并且，本方案是一个基于图文转换器的方案，可以有效利用多模态预训练，通过挖掘海量图文数据中的知识，综合图文信息，检索精度高。

图4示出根据一个实施例的生成文本注解的示意图。参照图4，当所述查询信息为第一图片时，将所述第一图片输入图像特征检测器，得到所述第一图片包括的两个目标图像特征，分别对应于男子和冲浪板，这两个目标图像特征来源于图片，为真实的图像特征；将真实的图像特征输入图片注解模型，通过所述图片注解模型生成对应的文本注解，例如，图4中示出的“一个黑发男子用右手抱着冲浪板”。

进一步地，所述图片注解模型通过如下方式训练：

通过最小化所述文本差异损失，训练所述图片注解模型。

可以理解的是，所述文本差异损失具体可以采用交叉熵损失。

可以理解的是，本说明书实施例中提到的各种神经网络模型可以联合训练，上述各种神经网络模型可以但不限于包括前述生成模型、图像特征检测器、判别器、图片注解模型、图文转换器。

通过本说明书实施例提供的方法，首先获取单模态的查询信息，所述单模态的查询信息为第一文本或第一图片；然后当所述查询信息为第一文本时，将所述第一文本输入生成模型，所述生成模型生成与所述第一文本包含的主体对应的图像特征；接着将所述第一文本对应的文本特征和所述图像特征输入图文转换器，所述图文转换器对所述文本特征和所述图像特征进行基于自注意力的融合，从而输出所述查询信息的第一查询特征向量；最后根据所述第一查询特征向量与各检索特征向量之间的相似度，确定与所述查询信息相匹配的检索对象；所述各检索特征向量分别对应于数据库中的各检索对象，任一检索特征向量为将其对应的检索对象的所述多模态信息输入所述图文转换器得到的。由上可见，本说明书实施例，针对单模态的查询信息进行了模态补全，将仅具有文本信息的查询信息，通过生成模型得到相应的图像特征，与数据库中的查询对象具有的多模态信息成为同一种形式，可以方便且快速的计算匹配度。并且，本方案是一个基于图文转换器的方案，可以有效利用多模态预训练，通过挖掘海量图文数据中的知识，综合图文信息，检索精度高。

根据另一方面的实施例，还提供一种具有多模态信息的检索对象的检索装置，所述多模态信息包括文本信息和图片信息，该装置用于执行本说明书实施例提供的具有多模态信息的检索对象的检索方法。图5示出根据一个实施例的具有多模态信息的检索对象的检索装置的示意性框图。如图5所示，该装置500包括：

获取单元51，用于获取单模态的查询信息，所述单模态的查询信息为第一文本或第一图片；

生成单元52，用于当所述获取单元51获取的查询信息为第一文本时，将所述第一文本输入生成模型，所述生成模型生成与所述第一文本包含的主体对应的图像特征；

融合单元53，用于将所述第一文本对应的文本特征和所述生成单元52得到的图像特征输入图文转换器，所述图文转换器对所述文本特征和所述图像特征进行基于自注意力的融合，从而输出所述查询信息的第一查询特征向量；

确定单元54，用于根据所述融合单元53得到的第一查询特征向量与各检索特征向量之间的相似度，确定与所述获取单元51获取的查询信息相匹配的检索对象；所述各检索特征向量分别对应于数据库中的各检索对象，任一检索特征向量为将其对应的检索对象的所述多模态信息输入所述图文转换器得到的。

可选地，作为一个实施例，所述生成模型包括目标框生成器和特征生成器；所述生成单元52具体包括：

第一生成子单元，用于利用所述目标框生成器基于所述第一文本生成目标框，所述目标框用于指示所述第一文本包含的主体的类别和区域；

第二生成子单元，用于利用所述特征生成器基于所述第一生成子单元得到的目标框，生成所述主体对应的图像特征。

可选地，作为一个实施例，所述生成模型通过如下方式训练：

以增大所述第一概率为目标，对所述生成模型进行训练。

可选地，作为一个实施例，所述装置还包括：

检测单元，用于当所述获取单元51获取的查询信息为第一图片时，将所述第一图片输入图像特征检测器，得到所述第一图片包括的目标图像特征；

注解单元，用于将所述检测单元得到的目标图像特征输入图片注解模型，通过所述图片注解模型生成所述目标图像特征对应的文本注解；

所述融合单元53，还用于将所述注解单元得到的文本注解对应的注解文本特征和所述检测单元得到的目标图像特征输入所述图文转换器，所述图文转换器对所述注解文本特征和所述目标图像特征进行基于自注意力的融合，从而输出所述查询信息的第二查询特征向量；

所述确定单元54，还用于根据所述融合单元53得到的第二查询特征向量与所述各检索特征向量之间的相似度，确定与所述查询信息相匹配的检索对象。

进一步地，所述图片注解模型通过如下方式训练：

通过最小化所述文本差异损失，训练所述图片注解模型。

可选地，作为一个实施例，所述图文转换器至少基于第一预训练任务进行训练；

所述第一预训练任务包括：

可选地，作为一个实施例，所述图文转换器至少基于第二预训练任务进行训练；

所述第二预训练任务包括：

通过本说明书实施例提供的装置，首先获取单元51获取单模态的查询信息，所述单模态的查询信息为第一文本或第一图片；然后生成单元52当所述查询信息为第一文本时，将所述第一文本输入生成模型，所述生成模型生成与所述第一文本包含的主体对应的图像特征；接着融合单元53将所述第一文本对应的文本特征和所述图像特征输入图文转换器，所述图文转换器对所述文本特征和所述图像特征进行基于自注意力的融合，从而输出所述查询信息的第一查询特征向量；最后确定单元54根据所述第一查询特征向量与各检索特征向量之间的相似度，确定与所述查询信息相匹配的检索对象；所述各检索特征向量分别对应于数据库中的各检索对象，任一检索特征向量为将其对应的检索对象的所述多模态信息输入所述图文转换器得到的。由上可见，本说明书实施例，针对单模态的查询信息进行了模态补全，将仅具有文本信息的查询信息，通过生成模型得到相应的图像特征，与数据库中的查询对象具有的多模态信息成为同一种形式，可以方便且快速的计算匹配度。并且，本方案是一个基于图文转换器的方案，可以有效利用多模态预训练，通过挖掘海量图文数据中的知识，综合图文信息，检索精度高。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种具有多模态信息的检索对象的检索方法，所述多模态信息包括文本信息和图片信息，所述方法包括：

2.如权利要求1所述的方法，其中，所述生成模型包括目标框生成器和特征生成器；所述生成模型生成与所述第一文本包含的主体对应的图像特征，具体包括：

3.如权利要求1或2所述的方法，其中，所述生成模型通过如下方式训练：

将所述主体图像特征输入判别器，通过所述判别器输出所述主体图像特征为真实的图像特征的第一概率；

以增大所述第一概率为目标，对所述生成模型进行训练。

4.如权利要求3所述的方法，其中，所述生成所述第二文本中包含的主体对应的主体图像特征，包括：

5.如权利要求1所述的方法，其中，所述方法还包括：

将所述目标图像特征输入图片注解模型，通过所述图片注解模型生成所述目标图像特征对应的文本注解；

6.如权利要求5所述的方法，其中，所述图片注解模型通过如下方式训练：

将所述样本图像特征输入所述图片注解模型，通过所述图片注解模型生成所述样本图像特征对应的样本文本注解；

通过最小化所述文本差异损失，训练所述图片注解模型。

7.如权利要求5所述的方法，其中，所述图片注解模型包括循环神经网络；所述循环神经网络逐个字的生成所述文本注解。

8.如权利要求1所述的方法，其中，所述图文转换器至少基于第一预训练任务进行训练；

所述第一预训练任务包括：

9.如权利要求1所述的方法，其中，所述图文转换器至少基于第二预训练任务进行训练；

所述第二预训练任务包括：

10.一种具有多模态信息的检索对象的检索装置，所述多模态信息包括文本信息和图片信息，所述装置包括：

11.如权利要求10所述的装置，其中，所述生成模型包括目标框生成器和特征生成器；所述生成单元具体包括：

12.如权利要求10或11所述的装置，其中，所述生成模型通过如下方式训练：

以增大所述第一概率为目标，对所述生成模型进行训练。

13.如权利要求12所述的装置，其中，所述生成所述第二文本中包含的主体对应的主体图像特征，包括：

14.如权利要求10所述的装置，其中，所述装置还包括：

检测单元，用于当所述获取单元获取的查询信息为第一图片时，将所述第一图片输入图像特征检测器，得到所述第一图片包括的目标图像特征；

所述融合单元，还用于将所述注解单元得到的文本注解对应的注解文本特征和所述检测单元得到的目标图像特征输入所述图文转换器，所述图文转换器对所述注解文本特征和所述目标图像特征进行基于自注意力的融合，从而输出所述查询信息的第二查询特征向量；

所述确定单元，还用于根据所述融合单元得到的第二查询特征向量与所述各检索特征向量之间的相似度，确定与所述查询信息相匹配的检索对象。

15.如权利要求14所述的装置，其中，所述图片注解模型通过如下方式训练：

通过最小化所述文本差异损失，训练所述图片注解模型。

16.如权利要求14所述的装置，其中，所述图片注解模型包括循环神经网络；所述循环神经网络逐个字的生成所述文本注解。

17.如权利要求10所述的装置，其中，所述图文转换器至少基于第一预训练任务进行训练；

所述第一预训练任务包括：

18.如权利要求10所述的装置，其中，所述图文转换器至少基于第二预训练任务进行训练；

所述第二预训练任务包括：

19.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9中任一项的所述的方法。

20.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项的所述的方法。