CN112528048B

CN112528048B - 一种跨模态检索方法、装置、设备及介质

Info

Publication number: CN112528048B
Application number: CN202110187051.XA
Authority: CN
Inventors: 蔡冠羽; 蒋忻洋; 张均; 彭湃; 孙星; 郭晓威; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2021-05-14
Anticipated expiration: 2041-02-18
Also published as: CN112528048A

Abstract

本申请实施例公开了一种跨模态检索方法、装置、设备及介质，其中的方法包括：获取待检索的查询文本；根据查询文本在多媒体数据库中进行检索，得到候选多媒体集合；根据N个候选多媒体数据中的对象信息生成查询文本的缺失内容，并获取针对缺失内容的确认反馈；根据确认反馈对候选多媒体集合进行优化，得到检索结果。本申请实施例可适用于查询文本不完整的情况，且能够有效提升检索性能，提高检索结果的准确性。

Description

一种跨模态检索方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，具体涉及人工智能领域，尤其涉及一种跨模态检索方法、一种跨模态检索装置、一种跨模态检索设备及一种计算机可读存储介质。

背景技术

跨模态检索是一种待检索的检索内容和检索得到的检索结果属于不同模态的检索方式；所谓模态可以是指文件形态，包括但不限于文本、图像、音视频等等；例如，待检索的检索内容的模态为文本，检索结果的模态为图像。

目前的跨模态检索方法大致可分为两类，单次检索方法或交互式检索方法。以文本-图像的跨模态检索为例，单次检索方法是只允许用户输入一次查询文本，依据该查询文本输出检索到的图像。这种方法完全取决于检索性能的优劣性，通常情况下得到的检索结果不够准确。交互式检索方法一般是根据查询文本检索到图像后，输出检索图像的同时要求用户对该检索图像进行打分，根据用户的打分来改进检索性能。这种方法属于后置依赖，即完全依赖于用户对前一次检索结果的反馈来改进下一次检索结果，如果用户拒绝反馈或者提供不准确反馈，会影响检索性能的改进，造成检索结果的准确性较低。实践发现，目前的跨模态检索方法均是完全依赖查询文本进行检索，且普遍存在准确性较低的问题，如果存在查询文本不完整的情况，还会极大的给检索结果带来负面影响，进一步降低检索性能和检索准确性。

发明内容

本申请实施例提供一种跨模态检索方法、装置、设备及介质，可适用于查询文本不完整的情况，且能够有效提升检索性能，提高检索结果的准确性。

一方面，本申请实施例提供一种跨模态检索方法，该方法包括：

获取待检索的查询文本；

根据查询文本在多媒体数据库中进行检索，得到候选多媒体集合，候选多媒体集合中包含与查询文本相匹配的N个候选多媒体数据，N为正整数；

根据N个候选多媒体数据中的对象信息生成查询文本的缺失内容，并获取针对缺失内容的确认反馈；

根据确认反馈对候选多媒体集合进行优化，得到检索结果。

另一方面，本申请实施例提供一种跨模态检索装置，该装置包括：

获取单元，用于获取待检索的查询文本；

处理单元，用于根据查询文本在多媒体数据库中进行检索，得到候选多媒体集合，候选多媒体集合中包含与查询文本相匹配的N个候选多媒体数据，N为正整数；

处理单元，还用于根据N个候选多媒体数据中的对象信息生成查询文本的缺失内容，并获取针对缺失内容的确认反馈；

处理单元，还用于根据确认反馈对候选多媒体集合进行优化，得到检索结果。

在一种实现方式中，多媒体数据库中的多媒体数据中共包含M个对象，M为整数；对象信息包括M个对象在N个候选多媒体数据中的分布信息；

处理单元用于根据N个候选多媒体数据中的对象信息生成查询文本的缺失内容时，具体用于：

检测并统计M个对象在N个候选多媒体数据中的分布信息；

对分布信息进行策略分析处理，得到M个对象的采样概率；

根据采样概率从M个对象中选取目标对象，并根据目标对象生成查询文本的缺失内容。

在一种实现方式中，处理单元用于根据目标对象生成查询文本的缺失内容时，具体用于：

生成目标对象的描述内容，描述内容包括描述文本、描述音频或描述图像；

将描述内容确定为查询文本的缺失内容。

在一种实现方式中，处理单元用于获取针对缺失内容的确认反馈时，具体用于：

输出交互提示，交互提示中包含缺失内容，交互提示用于询问缺失内容的正确性；

接收针对缺失内容的确认反馈，确认反馈用于确认或否认缺失内容的正确性。

在一种实现方式中，处理单元用于根据确认反馈对候选多媒体集合进行优化，得到检索结果时，具体用于：

若确认反馈用于确认缺失内容的正确性，则从候选多媒体集合中选取第一多媒体数据，第一多媒体数据是指包含目标对象的候选多媒体数据；

调高第一多媒体数据与查询文本之间的匹配度；

若调高后的第一多媒体数据与查询文本之间的匹配度大于匹配阈值，则将第一多媒体数据作为检索结果。

若确认反馈用于否认缺失内容的正确性，则从候选多媒体集合中选取第二多媒体数据，第二多媒体数据是指包含目标对象的候选多媒体数据；

调低第二多媒体数据与查询文本之间的匹配度；

若调低后的第二多媒体数据与查询文本之间的匹配度小于匹配阈值，则将第二多媒体数据移除候选多媒体集合；

将移除后的候选多媒体集合作为检索结果。

根据确认反馈对候选多媒体集合中的各个候选多媒体数据与查询文本之间的匹配度进行调整；

按照调整后的匹配度由高至低的顺序对候选多媒体集合中的N个候选多媒体数据进行排序；

选取排序靠前的数量阈值个候选多媒体数据作为检索结果。

在一种实现方式中，处理单元用于根据查询文本在多媒体数据库中进行检索，得到候选多媒体集合时，具体用于：

提取查询文本的文本特征，以及获取多媒体数据库中的各个多媒体数据的数据特征；

分别将文本特征与各个数据特征进行匹配，获得文本特征与各个数据特征之间的匹配度；

按照匹配度由高至低的顺序从多媒体数据库中选取N个多媒体数据构成候选多媒体集合。

在一种实现方式中，跨模态检索方法通过调用跨模态检索模型来执行，跨模态检索模型包括文本特征网络、多媒体特征网络、目标检测网络和策略网络；

文本特征网络和多媒体特征网络用于根据查询文本在多媒体数据库中进行检索，得到候选多媒体集合；

目标检测网络用于获得N个候选多媒体数据中的对象信息；

策略网络用于根据N个候选多媒体数据中的对象信息生成查询文本的缺失内容，并获取针对缺失内容的确认反馈；以及根据确认反馈对候选多媒体集合进行优化，得到检索结果。

在一种实现方式中，跨模态检索模型的训练过程包括：

获取样本数据，样本数据包含多组样本对，每组样本对包含一个样本文本和一个样本多媒体数据；

选择任一组样本对，并调用文本特征网络提取任一组样本对中的样本文本的文本特征，以及调用多媒体特征网络提取多媒体数据库中的各个多媒体数据的数据特征；多媒体数据库中的多媒体数据中共包含M个对象，M为整数；

分别将样本文本的文本特征与各个数据特征进行匹配，获得样本文本的文本特征与各个数据特征之间的匹配度；

按照匹配度由高至低的顺序从多媒体数据库中选取第三多媒体数据；

根据任一组样本对中的样本多媒体数据与第三多媒体数据之间的差异，联合训练文本特征网络和多媒体特征网络。

在一种实现方式中，跨模态检索模型的训练过程还包括：

调用目标检测网络检测并统计M个对象在第三多媒体数据中的分布信息；

调用策略网络对分布信息进行策略分析处理，得到M个对象的采样概率，并根据采样概率从M个对象中选取待确认对象，并确认待确认对象是否位于任一组样本对中的样本多媒体数据中；

根据确认结果调整任一组样本对中的样本文本和第三多媒体数据之间的匹配度，并更新目标检测网络和策略网络的参数；

重新选择另一组样本对对跨模态检索模型进行迭代训练，直至跨模态检索模型趋于稳定为止。

在一种实现方式中，多媒体数据包括以下任一种：图像、音频和视频。

另一方面，本申请实施例提供一种跨模态检索设备，该设备包括：

处理器，适于实现一条或多条指令；

计算机可读存储介质，存储有一条或多条指令，一条或多条指令适于由处理器加载并执行如上述的跨模态检索方法。

另一方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有一条或多条指令，一条或多条指令适于由处理器加载并执行上述的跨模态检索方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。跨模态检索设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该跨模态检索设备执行上述的跨模态检索方法。

本申请实施例中，根据查询文本检索到候选多媒体集合中的N（N为正整数）个候选多媒体数据之后，并不直接将其作为检索结果输出，而是基于这N个候选多媒体数据中的对象信息自动产生查询文本的候补的缺失内容；并基于针对缺失内容的确认反馈来对候选多媒体集合进行优化，得到检索结果。由于本申请实施例基于候选多媒体数据自动产生查询文本可能的缺失内容，这使得跨模态检索过程中充分考虑了查询文本输入不完整的情况，有效提升了跨模态检索过程的智能性；另外，可通过模拟方式或与用户对话方式来获取针对缺失内容的确认反馈，这既简化了收集反馈的流程，同时一定程度的降低了对用户反馈信息的依赖度，能够更有效地提升检索性能，从而提高检索结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的一种跨模态检索的场景示意图；

图2示出了本申请一个示例性实施例提供的一种跨模态检索方法的流程示意图；

图3示出了本申请一个示例性实施例提供的一种图像数据库的示意图；

图4示出了本申请一个示例性实施例提供的一种跨模态检索的场景示意图；

图5示出了本申请一个示例性实施例提供的另一种跨模态检索的场景示意图；

图6示出了本申请一个示例性实施例提供的一种对候选多媒体集合进行优化的示意图；

图7示出了本申请一个示例性实施例提供的一种跨模态检索模型的结构示意图；

图8示出了本申请一个示例性实施例提供的另一种跨模态检索方法的流程示意图；

图9示出了本申请一个示例性实施例提供的一种样本数据的示意图；

图10示出了本申请一个示例性实施例提供的一种联合训练文本特征网络和多媒体特征网络的示意图；

图11示出了本申请一个示例性实施例提供的一种跨模态检索装置的结构示意图；

图12示出了本申请一个示例性实施例提供的一种跨模态检索设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面对本申请实施例涉及的一些技术术语进行说明如下：

（1）区块链。

区块链（Block Chain）是分布式数据存储、P2P（Peer to Peer，点对点）传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链以密码学方式保证数据不可篡改和不可伪造。

（2）人工智能。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。机器学习可以被看成一项任务，这个任务的目标就是让机器（广义上的计算机）通过学习来获得类似人类的智能。例如人类会下围棋，计算机程序（AlphaGo或AlphaGoZero）被设计成掌握了围棋知识、会下围棋的程序。其中，多种方法可用来实现机器学习的任务，比如，神经网络、线性回归、决策树、支持向量机、贝叶斯分类器、强化学习、概率图模型、聚类等多种方法。

其中，强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的一个子领域，强化学习强调基于环境而行动，以取得最大化的预期利益。即强化学习解决的问题是：针对一个具体问题得到一个最优的策略（policy），使得在该策略下获得的奖励（reward）最大。采用强化学习方法进行训练时，主要包括四个部分，分别为：状态、动作、策略（即是一个函数，指示智能体（如本申请的跨模态检索智能体）在某一个状态做出一个动作）以及奖励（即通过来自环境的奖励判断自己行为的好坏，从而通过更大可能的选择收益高的行为使自己趋于目标状态），通过这四个部分使得强化学习可以用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

（3）跨模态检索。

跨模态检索是根据数据（或称为多媒体数据）的一种模态检索（或称为搜索）该数据的另一种模态的检索方法；所谓模态是数据的一种存在形式，包括但不限于：文本、音频、图像、视频等。应当理解的是：同一数据的存在形式（即模态）不同，但不同存在形式的同一数据均描述了同一事物（包括生命物体或非生命物体）或事件。举例来说，假设待检索的数据的模态为文本，检索得到的检索结果的模态为图像，这一跨模态检索的过程可参见图1；如图1所示，当打开并使用计算机设备中运行的搜索应用（如各种搜索引擎、任一应用程序中部署的搜索类小程序等等）时，显示检索框1011；假设在检索框1011中输入的待检索的文本为：“滑滑板的男孩”，那么通过搜索引擎检索得到的检索结果可以为：一张图像，该图像中显示有一个正在滑滑板的男孩，该图像可参见图1所示的图像1012。基于此，“滑滑板”在图1中分别以文本和图像进行显示，但其实质均描述了同一事物-滑滑板；同理，“滑滑板的男孩”在图1中分别以文本和图像进行显示，但其实质均描述了同一事件-一个男孩在滑滑板。需要说明的是，图1中对文本-图像的跨模态检索过程进行了介绍，本申请实施例还支持其他模态之间的跨模态检索，如文本-视频的跨模态检索、文本-音频的跨模态检索等等，这些跨模态检索过程可参考图1所示示例类似分析，在此不赘述。除特别说明外，本申请后续实施例中均以文本-图像的跨模态检索为例进行说明。

本申请实施例提出一种跨模态检索方法，在该方法中：根据查询文本检索到候选多媒体集合中的N（N为正整数）个候选多媒体数据（例如候选图像）之后，并不直接将其作为检索结果输出，而是基于这N个候选多媒体数据中的对象信息自动产生查询文本的候补的缺失内容；并基于针对缺失内容的确认反馈来对候选多媒体集合进行优化，得到检索结果。由于本申请实施例基于候选多媒体数据自动产生查询文本可能的缺失内容，这使得跨模态检索过程中充分考虑了查询文本输入不完整的情况，有效提升了跨模态检索过程的智能性；另外，可通过模拟方式或与用户对话方式来获取针对缺失内容的确认反馈，这既简化了收集反馈的流程，同时一定程度的降低了对用户反馈信息的依赖度，能够更有效地提升检索性能，从而提高检索结果的准确性。

本申请实施例提出的跨模态检索方法可以由计算机设备来执行，在一种实施方式中，如图1所示，计算机设备包括终端设备101，该终端设备101可包括但不限于：诸如智能手机、平板电脑、台式电脑、膝上计算机等。本申请的跨模态检索方法可以在终端设备101中执行，具体地：终端设备101提供检索界面，检索界面中包含检索框1011，用户可在该检索框1011中输入查询文本；终端设备101根据用户输入的查询文本在本地执行跨模态检索，得到检索结果，该检索结果可以是多媒体数据（如检索图像1012），然后由终端设备101将检索结果输出。

在另一种实施方式中，如图1所示，计算机设备还可包括服务器设备102，该服务器设备102可包括但不限于：数据处理服务器、Web服务器、应用服务器等等。本申请的跨模态检索方法可以在服务器设备102中执行，具体地：终端设备101提供检索界面，检索界面中包含检索框1011，用户可在该检索框1011中输入查询文本；终端设备101将用户输入的查询文本发送至服务器设备102，由服务器设备102根据该查询文本执行跨模态检索，得到检索结果，该检索结果可以是多媒体数据（如检索图像1012）；然后服务器设备102将检索结果返回给终端设备101，由终端设备101向用户输出该检索结果，至此完成跨模态检索。

本申请实施例的跨模态检索方法还可以与区块链技术相结合，具体地：执行跨模态检索方法的计算机设备可以是区块链网络中的一个节点设备；该计算机设备可以将用户输入的查询文本发布至区块链网络中，并且将根据该查询文本所执行的跨模态检索流程及检索结果均记录在区块链上，这样既可以保证跨模态检索过程的防篡改及案例性，同时也可以使得每次跨模态检索过程能够被有效追溯，并且以区块的形式存储多媒体数据，可实现多媒体数据的分布式存储。

为了更好地理解本申请实施例提出的跨模态检索方法，下面结合附图来对本申请实施例涉及的跨模态检索方法进行介绍。

请参见图2，图2示出了本申请一个示例性实施例提供的一种跨模态检索方法的流程示意图；该跨模态检索方法可以由前述的计算机设备来执行。该方法包括步骤S201-S204：

S201，获取待检索的查询文本。

查询文本可包括一个或多个字符，该字符可包括以下至少一种：中文字符（即汉字）、英文字符（即字母）、数字和标点符号（如逗号“，”、句号“。”、方括号“【】”），等等。例如，查询文本为“喝奶茶的man”，该查询文本中包含中文字符“喝”、“奶”、“茶”、“的”，以及英文字符“m”“a”“n”。在一种实现方式中，查询文本可以是某个界面中被选中的文本，例如，用户正在阅读某个网页中的文章，选择该文章中的文本并点击搜索控件，则被选择的文本即为查询文本；再如：用户在社交应用程序的会话界面中选择会话消息中的某个文本并点击搜索控件，则会话消息中被选择的文本即为查询文本。

在另一种实现方式中，查询文本可以是指检索框中输入的文本；例如，计算机设备提供检索界面（可以是搜索引擎的服务页面，或者搜索应用的服务页面、搜索小程序的页面等等），该检索界面中包含检索框，用户在检索框中输入的文本即为查询文本，如图1所示的查询文本1011。在又一种实现方式中，查询文本可以是在专属的跨模态检索智能体（agent，即一种专门用于跨模态检索的系统）中输入的文本。可以理解的是，计算机设备可以在检测到存在检索需求时，获取待检索的查询文本，该检索需求例如可以是点击搜索控件发出的需求，或者是在检索框或跨模态检索智能体中进行输入时发出的需求。

S202，根据查询文本在多媒体数据库中进行检索，得到候选多媒体集合。

根据检索结果的模态不同，多媒体数据库的类型可以不同。例如，想要检索模态为图像的检索结果，则多媒体数据库可以为图像数据库，多媒体数据库所存储的多媒体数据为图像；又如，想要检索模态为视频的检索结果，则多媒体数据库可以为视频数据库，多媒体数据库所存储的多媒体数据为视频；等等。当然，多媒体数据库中还可以存储多种模态的多媒体数据，此实现方式下，支持根据同一查询文本检索出多种模态的检索结果，本申请实施例对多媒体数据库中存储的多媒体数据的种类和数量不作限定。

计算机设备可以通过分析查询文本的文本特征和多媒体数据中的各个多媒体数据的数据特征，依据文本特征与数据特征之间的匹配度，从多媒体数据库中检索得到候选多媒体集合。候选多媒体集合中包含N个候选多媒体数据，该N个候选多媒体数据是多媒体数据库中与查询文本相匹配的N个多媒体数据；这表示该N个候选多媒体数据中包含查询文本所指示的对象。例如：查询文本为“滑滑板的男孩”，对该查询文本进行特征提取，得到查询文本的文本特征包括：词组“滑滑板”、词组“男孩”等；与该查询文本相匹配的某候选图像中的对象可包含“滑板”、“男孩”，或者同时包含“滑板”和“男孩”。当然，候选多媒体数据中的对象除包含“滑滑板”和“男孩”外，还可以包含其他对象如“帽子”等。

具体实现中，从多媒体数据库中检索得到候选多媒体集合的方法可包括：提取查询文本的文本特征，以及获取多媒体数据库中的各个多媒体数据的数据特征；分别将文本特征与各个多媒体数据的数据特征进行匹配，获得文本特征与各个数据特征之间的匹配度，进而得到查询文本与各个多媒体数据之间的匹配度；再按照匹配度由高至低的顺序从多媒体数据库中选取前N个多媒体数据作为候选多媒体数据，从而构成候选多媒体集合。

其中，从多媒体数据库中选取N个多媒体数据的方式可包括：按照匹配度由高至低的顺序对多媒体数据库中的多媒体数据进行排序，并从排序中选取排序位置靠前的N个多媒体数据。查询文本与候选多媒体数据之间的匹配度可以指示：该候选多媒体数据为查询文本对应的检索结果的可能性；查询文本与某一多媒体数据之间的匹配度越高，表示该多媒体数据越可能是查询文本所对应的检索结果，即是用户想要检索的多媒体数据。例如，候选多媒体数据1与查询文本之间的匹配度为80%，候选多媒体数据2与查询文本之间的匹配度为50%，则可以确定候选多媒体数据1相比于候选多媒体数据2更大可能是查询文本对应的检索结果。

S203，根据N个候选多媒体数据中的对象信息生成查询文本的缺失内容，并获取针对缺失内容的确认反馈。

多媒体数据库所包含的多媒体数据中共包含M个对象，M为整数；所谓对象是指多媒体数据中所包含的事物，M个对象是指多媒体数据中包含M种类型的事物。例如，M=1601，表示多媒体数据库中的多媒体数据总共包含1601种类型的事物。以多媒体数据库为图像数据库为例，假设图像数据库中包含三张图像，这三张图像可如图3所示；其中，图像1中包含对象1、对象2以及对象3，图像2中包含对象1、对象2，图像3中包含对象1、对象3及对象4；那么确定图像数据库所包含的三张图像共包含4个对象，即图像数据库包含4种类型的对象。

N个候选多媒体数据中的对象信息包括：M个对象在N个候选多媒体数据中的分布信息。承接上述例子，图像1、图像2及图像3均包含对象1，则对象1的分布信息可以包括：对象1存在于图像1、图像2及图像3；对象2的分布信息可以包括：对象2存在于图像1、图像2；对象3的分布信息可以包括：对象3存在于图像1和图像3；对象4的分布信息可以包括：对象4存在于图像3。其中，某一对象在N个候选多媒体数据中的分布信息可以用向量来表示。例如：N=3，分别为候选多媒体数据1、候选多媒体数据2、候选多媒体数据3，且对象1存在于候选多媒体数据1，对象1有50%的可能性存在于候选多媒体数据2中，对象1未存在于候选多媒体数据3中，则对象1的分布信息可表示为向量(1, 0.5 , 0)；该向量包括3维，每一维表示某一候选多媒体数据中是否存在对象1，每一维的数值表示对象1存在于该维对应的候选多媒体数据中的概率。同理，对于一个候选多媒体数据而言，M个对象在该候选多媒体数据中的分布信息同样可以用向量来表示。例如：M=3，分别为对象1、对象2及对象3，候选多媒体数据1中包含对象1，不包含对象2，50%的可能性包含对象3，则三个对象在候选多媒体数据1中的分布信息可以表示为向量(1,0,0.5)；该向量包括3维，每一维代表一个对象，每一维的数值表示候选多媒体数据1中存在该维对应的对象的概率。

基于上述相关概念的介绍，下面给出根据N个候选多媒体数据中的对象信息生成查询文本的缺失内容的实现方式，该实现方式可包括步骤（1）-（4），其中：

（1）检测并统计M个对象在N个候选多媒体数据中的分布信息。

（2）对分布信息进行策略分析处理，得到M个对象的采样概率。任一对象的采样概率可以用于表示该任一对象为查询文本所包含的事物的概率，换句话说，某一对象的采样概率越高，表示该对象更大可能是用户想要查询的内容。例如，对象1的采样概率为80%、对象2的采样概率为40%，则可以确定的是，对象1相比于对象2更有可能是查询文本所包含的事物（即用户想要查询的内容）。

（3）根据采样概率从M个对象中选取目标对象。其中，目标对象的数量可以是一个或多个。一种实现方式中，可以采用随机采样的方式从M个对象中选取目标对象；所谓随机采样是指从采样概率大于概率阈值的所有对象中随机选取目标对象。例如：M等于5，待选取的目标对象的数量为2，概率阈值为40%；现5个对象以及各对象的采样概率为：对象1（其采样概率为20%）、对象2（其采样概率为60%）、对象3（其采样概率为50%）、对象4（其采样概率为55%）、对象3（其采样概率为45%）；那么采样概率大于概率阈值的对象包括：对象2、对象3、对象4及对象5，进而采用随机采样方式从这四个对象中随机选择2个目标对象的可能结果包括：对象2和对象3、对象2和对象4、对象2和对象5、……等等。在另一种实现方式中，可以采用贪婪采样的方式从M个对象中选取目标对象；所谓贪婪采样是指按照采样概率由高至低的顺序从M个对象中选取目标对象。例如，M等于4，待选取的目标对象的数量为3，且对象1的采样概率为80%、对象2的采样概率为40%，对象3的采样概率为60%、对象4的采样概率为70%，则按照采样概率由高至低的顺序从4个对象中选取的目标对象包括：对象1、对象4、对象3。

（4）根据目标对象生成查询文本的缺失内容。具体地，生成目标对象的描述内容，将描述内容确定为查询文本的缺失内容。换句话说，缺失内容是一种用于描述目标对象的描述内容；该描述内容可包括但不限于：描述文本、描述音频或描述图像。例如，目标对象为事物“滑滑板”，那么该目标对象的描述内容（即缺失内容）可包括：汉字形式的“滑滑板”，或者，包含“滑滑板”的图像，或者，一段包含“滑滑板”的语音音频，等等。

基于上述（1）-（4）可得到查询文本的缺失内容，该缺失内容是查询文本中未包含但用户可能想要查询的内容，该缺失内容可能需要作为查询文本的补充来对候选多媒体集合进行优化的内容。为了明确各个缺失内容到底是不是用户想要查询的内容，本申请实施例还支持将缺失内容发送给用户去进行确认反馈，例如：通过文字、语音或图片等方式输出交互提示，让用户确认想要查询的图像中是否包含缺失内容；并获取用户针对缺失内容的确认反馈，以便于根据确认反馈执行步骤S204，以实现对候选多媒体集进行优化，这使得优化后的候选多媒体集中的多媒体数据中均包含用户想要查询的内容，进而得到更为准确的检索结果。

其中，将缺失内容发送给用户进行确认反馈；并获取用户针对缺失内容的确认反馈的具体实现过程可参见步骤s11-s12的相关描述：

s11，输出交互提示，交互提示中包含缺失内容，交互提示用于询问用户该缺失内容的正确性，即用于询问用户该缺失内容是否为想要查询的内容。

s12，接收针对该缺失内容的确认反馈，确认反馈用于确认或否认缺失内容的正确性。

值得注意的是，基于步骤（3）可知，若选取的目标对象的数量大于1，则查询文本对应的缺失内容的数量也是大于1，换句话说，需要和用户确认的缺失内容的数量大于1。基于此，本申请实施例支持与用户进行多轮交互，每一轮交互输出的交互提示中可以包含一个或多个缺失内容。或者，支持与用户进行一轮交互，在一轮交互中输出的交互提示中包含所有的缺失内容。

下面分别结合图4、图5来对步骤s11-s12的几种可能的实现过程进行阐述，其中：

一种实现方式中，通过与用户进行多轮交互输出缺失内容。例如，缺失内容的数量为4，则可以分为4轮交互，每轮交互可以输出一个缺失内容给用户进行确认。这种交互场景可参见图4，图4示出了本申请一个示例性实施例提供的一种交互场景的示意图；如图4所示，假设缺失内容的数量为4，且各个缺失内容对应的目标对象的采样概率分别为：目标对象1的采样概率为80%、目标对象2的采样概率为75%、目标对象3的采样概率为50%、目标对象4的采样概率为77%；则可按照缺失内容对应的目标对象的采样概率由高至低的顺序依次输出缺失内容，给用户确认。由于目标对象1的采样概率80%>目标对象4的采样概率77%>目标对象2的采样概率75%>目标对象3的采样概率50%，则交互流程可包括：

①用户在检索框中输入待检索的查询文本，计算机设备根据查询文本得到候选多媒体集合，以及各个目标对象的缺失内容。②在第一轮交互中，输出目标对象1的缺失内容1；并接收用户针对缺失内容1输入的确认反馈1；根据确认反馈1对候选多媒体集合进行优化，得到第一次优化后的候选多媒体集合。③在第二轮交互中，输出目标对象4的缺失内容4；并接收用户针对缺失内容4输入的确认反馈2；根据确认反馈2对第一次优化后的候选多媒体集合进行优化，得到第二次优化后的候选多媒体集合。④在第三轮交互中，输出目标对象2的缺失内容2；并接收用户针对缺失内容2输入的确认反馈3；根据确认反馈3对第二次优化后的候选多媒体集合进行优化，得到第三次优化后的候选多媒体集合。⑤在第四轮交互中，输出目标对象3的缺失内容3；并接收用户针对缺失内容3输入的确认反馈4；根据确认反馈4对第三次优化后的候选多媒体集合进行优化，得到第四次优化后的候选多媒体集合；至此基于第四次优化后的候选多媒体集合，得到检索结果。

另一种实现方式中，通过与用户进行一轮交互输出缺失内容。例如，缺失内容的数量为4，则在一轮交互中输出4个缺失内容给用户进去确认。这种交互场景可参见图5，图5示出了本申请一个示例性实施例提供的另一种交互场景的示意图；如图5所示，假设缺失内容的数量为4，且各个缺失内容对应的目标对象的采样概率分别为：目标对象1的采样概率为80%、目标对象2的采样概率为75%、目标对象3的采样概率为50%、目标对象4的采样概率为77%；则输出的交互提示中包含目标对象1的缺失内容1、目标对象2的缺失内容2、目标对象3的缺失内容3、目标对象4的缺失内容4；并基于用户针对缺失内容1、缺失内容2、缺失内容3及缺失内容4的确认反馈对候选多媒体集合进行优化，基于优化后的候选多媒体集合，得到检索结果。

其中，用户针对缺失内容1、缺失内容2、缺失内容3及缺失内容4的确认反馈的数量可以包括一个或多个。例如，当确认反馈的数量为1个时，该一个确认反馈可以用于确认或否认部分或全部缺失内容，如该确认反馈只用于确认缺失内容1的正确性，此时默认否认缺失内容2、缺失内容3及缺失内容4的正确性。又如，当确认反馈的数量为多个时，每一个确认反馈用于确认或否认所有缺失内容中的一个缺失内容；等等。本申请实施例对这种实现方式下确认反馈的数量和内容不做限定。

需要说明的是，（1）图4所示的4个缺失内容也可以以3轮交互、2轮交互的形式进行输出，例如，在第一轮交互中输出两个缺失内容，在第二轮交互中输出一个缺失内容，在第三轮交互中输出一个缺失内容。具体实现方式的相关描述可参见上述相关描述，在此不作赘述。（2）图4所示的缺失内容均以描述文本的形式进行展现，但实际上缺失内容还可以描述图像等形式进行展示，本申请实施例以描述文本进行展示，并不会对本申请实施例产生限定，在此说明。（3）交互提示中包含缺失内容，并不意味着交互提示中只包含缺失内容，应当理解的是，交互提示是能够表达完整语义的一段文本或其他描述内容。例如，缺失内容为“帽子”，则交互提示可以显示为“XXX戴有帽子吗”，其中，字符“帽子”在交互提示中可以以区别于其他字符的形式进行显示，如字体颜色的亮度高于其他字体等，以提醒用户待确认的缺失内容为“帽子”。

值得一提的是，在实际应用场景中具体采用哪种交互方式，本申请实施例对此不作限定。

S204，根据确认反馈对候选多媒体集合进行优化，得到检索结果。

正如步骤S203所示的相关描述，在任一轮交互过程中，可得到用户针对该轮交互的缺失内容的确认反馈，进而可以根据针对该缺失内容的确认反馈对候选多媒体集合进行优化；重复上述交互过程，不断对候选多媒体集合进行优化，得到检索结果。其中，检索结果可以包括：检索得到与查询文本相匹配的多媒体数据，或者，未检索到与查询文本相匹配的多媒体数据。

下面以跨模态检索场景下的任一次交互为例，对根据确认反馈对候选多媒体集合进行优化，得到检索结果的几种具体实现方式进行阐述。

（1）在全部缺失内容均输出之后，从候选多媒体集合中检索出检索结果。具体实现中，接收当前交互产生的确认反馈，并根据该确认反馈对候选多媒体集合（即上一轮交互时优化的候选多媒体集合）中的各个候选多媒体数据与查询文本之间的匹配度进行调整，并按照调整后的匹配度由高至低的顺序对候选多媒体集合中的N个候选多媒体数据进行排序，得到本次交互优化后的候选多媒体集合；重复上述操作，得到最后一次交互时优化的候选多媒体集合；并从最后一次交互时优化的候选多媒体集合中，选取排序靠前的数量阈值个候选多媒体数据作为检索结果。

其中，根据确认反馈对候选多媒体集合进行优化的方式可包括：若某一轮交互接收到的确认反馈指示用户确认某一缺失内容的正确性，即用户确认该缺失内容为想要检索的内容，则从候选多媒体集合中选取第一多媒体数据；第一多媒体数据的数量可以为多个，第一多媒体数据是指包含该缺失内容对应的目标对象的候选多媒体数据；并调高第一多媒体数据与查询文本之间的匹配度；调整匹配度之后的候选多媒体集合中，第一多媒体数据的排名上升，即第一多媒体数据的位置相比于调整前往上（或往前）调整。若某一轮交互接收到的确认反馈指示用户否认某一缺失内容的正确性，即用户确认该缺失内容不是想要检索的内容，则从候选多媒体集合中选取第二多媒体数据；第二多媒体数据的数量可以为多个，第二多媒体数据是指包含该缺失内容对应的目标对象的候选多媒体数据；并调低第二多媒体数据与查询文本之间的匹配度；调整匹配度之后的候选多媒体集合中，第二多媒体数据的排名下降，即第二多媒体数据的位置相比于调整前往下（或往后）调整。需要说明的是，本申请实施例对匹配度的调整幅度不作限定。

举例来说，请参见图6，图6示出了本申请一个示例性实施例提供的一种对候选多媒体集合进行优化的示意图；如图6所示，以多媒体数据库为图像数据库为例，假设用户输入的待检索的查询文本为“滑滑板的男孩”，根据该查询文本在图像数据库中检索，得到第一候选图像集合，在第一候选图像集合中包含三张候选图像，分别为候选图像1、候选图像2及候选图像3，三张候选图像与查询文本的匹配度分别为50%、45%及40%；执行上述步骤，得到缺失内容“帽子”和“书包”。那么执行多轮交互，并根据每轮交互的确认反馈对候选多媒体集合进行优化的过程可包括：

①在第一次输出交互提示时，交互提示中包含缺失内容“帽子”，交互提示可以展现为“男孩头上是否有帽子”；相应的，用户可针对该交互提示“男孩头上是否有帽子”给出确认反馈。若针对交互提示“男孩头上是否有帽子”的确认反馈指示用户确认缺失内容“帽子”的正确性，则在第一候选图像集合中调高包含“帽子”的候选图像与查询文本之间的匹配度；如图6所示，候选图像1和候选图像3中包含缺失内容“帽子”，则调高候选图像1与查询文本之间的匹配度，以及调高候选图像3与查询图像之间的匹配度，得到优化后的第二候选图像集合。若针对交互提示“男孩头上是否有帽子”的确认反馈指示用户否认缺失内容“帽子”的正确性，则在第一候选图像集合中调低包含“帽子”的候选图像与查询文本之间的匹配度，得到优化后的第二候选图像集合。

②第二次输出交互提示，该交互提示中包含缺失内容“书包”，交互提示可以展现为“是否有书包”；相应的，用户可针对该交互提示“是否有书包”给出确认反馈。若针对交互提示“是否有书包”的确认反馈指示用户确认缺失内容“书包”的正确性，则在第二候选图像集合中调高包含“书包”的候选图像与查询文本之间的匹配度，即调高候选图像3与查询文本之间的匹配度，得到优化后的第三候选图像集合。若针对交互提示“是否有书包”的确认反馈指示用户否认缺失内容“书包”的正确性，则在第二候选图像集合中调低包含“书包”的候选图像与查询文本之间的匹配度，即调低候选图像3与查询文本之间的匹配度，得到优化后的第三候选图像集合。

通过步骤①-②，可得到第三候选图像集合，按照匹配度由高至低的顺序对第三候选图像集合中各个候选图像进行排序，得到序列为：候选图像3->候选图像1->候选图像2。若数量阈值为1，则将候选图像3作为检索结果；若数量阈值为2，则将候选图像3和候选图像1均作为检索结果；并输出检索结果。

综上所述，通过与用户交互，不断补充查询内容，可避免由于输入的不完整的查询内容对检索结果产生的负面影响；并且，通过每一轮均对上一轮对应的候选多媒体集合进行优化，使得最终优化得到的候选多媒体集合中每一个候选多媒体数据中均包含，用户确认的每一个内容，进而基于最终优化得到的候选多媒体集合可得到正确性较高的检索结果，提高检索结果的准确度。

（2）在依次输出缺失内容的过程中，若某一次接收到的确认反馈满足结束条件，则根据该确认反馈对上一次的候选多媒体集合进行优化，并基于优化后的候选多媒体集合检索出检索结果。其中，结束条件可包括：根据该确认反馈调高后的第一多媒体数据与查询文本之间的匹配度大于匹配度阈值；或者，根据该确认反馈调低后的第二多媒体数据与查询文本之间的匹配度小于或等于匹配度阈值；或者，接收到结束指令，如用户请求中断检索或检测到剩余交互次数为0；等等。

下面分别给出上述几种结束条件下，确定检索结果的方式，其中：

1）结束条件为：确认反馈指示确认缺失内容的正确性，且根据该确认反馈调高后的第一多媒体数据与查询文本之间的匹配度大于匹配度阈值。在这种实现方式中，可以直接将第一多媒体数据作为检索结果，换句话说，在调高第一多媒体数据与查询文本之间的匹配度之后，若该匹配度大于匹配度阈值，表示该第一多媒体数据已经满足用户的检索需求，则可以将该第一多媒体数据作为检索结果输出。当然，若在确认反馈指示确认缺失内容的正确性，且调高后的第一多媒体数据与查询文本之间的匹配度小于或等于匹配阈值，表示第一多媒体数据未满足用户的检索需求，此时可以继续输出交互提示（即输出下一个缺失内容）给用户确认，或者，直接输出用于指示不存在检索结果的提示信息，通过该提示信息提醒用户未检索到查询文本相应的多媒体数据。

2）结束条件为：确认反馈指示否认缺失内容的正确性，且根据该确认反馈调低后的第二多媒体数据与查询文本之间的匹配度小于或等于匹配度阈值。在这种实现方式中，可以在候选多媒体集合中移除第二多媒体数据，并将移除第二多媒体数据之后的候选多媒体集合中所剩余的多媒体数据作为检索结果。当然，确认反馈指示否认缺失内容的正确性，且根据该确认反馈调低后的第二多媒体数据与查询文本之间的匹配度大于或等于匹配度阈值，此时可以继续输出交互提示（即输出下一个缺失内容）给用户确认，或者，直接输出用于指示不存在检索结果的提示信息，通过该提示信息提醒用户未检索到查询文本相应的多媒体数据。

3）结束条件为：接收到结束指令。例如，在输出交互提示的过程中，接收到用户发送的终止指令，则可以基于当前的候选多媒体集合输出检索结果。其中，基于当前的候选多媒体集合确定检索结果的方式，可以参见上述多种实现方式，在此不作赘述。

本申请实施例，根据查询文本检索到候选多媒体集合中的N（N为正整数）个候选多媒体数据之后，并不直接将其作为检索结果输出，而是基于这N个候选多媒体数据中的对象信息自动产生查询文本的候补的缺失内容；并基于针对缺失内容的确认反馈来对候选多媒体集合进行优化，得到检索结果。由于本申请实施例基于候选多媒体数据自动产生查询文本可能的缺失内容，这使得跨模态检索过程中充分考虑了查询文本输入不完整的情况，有效提升了跨模态检索过程的智能性；另外，可通过与用户对话方式来获取针对缺失内容的确认反馈，这既简化了收集反馈的流程，同时一定程度的降低了对用户反馈信息的依赖度，能够更有效地提升检索性能，从而提高检索结果的准确性。

本申请实施例提供的跨模态检索方法是调用跨模态检索模型来执行的。本申请实施例主要采用强化学习的方法来训练跨模态检索模型。其中，跨模态检索模型的结构示意图可参见图7，如图7所示，跨模态检索模型包括文本特征网络701、多媒体特征网络702、目标检测网络703和策略网络704；其中，文本特征网络701用于将文本转化为文本特征，即提取文本的文本特征；文本特征网络701可以包括但不限于：GRU模型、LSTM模型、以及BERT模型等等。多媒体特征网络702用于将多媒体数据转换为数据特征，需要说明的是，本申请实施例以多媒体特征网络702为图像特征网络，图像特征网络用于将图像转换为图像特征为例进行介绍，并不对本申请实施例产生限定，在此说明；其中，图像特征网络可包括但不限于：Faster RCNN模型、Mask RCNN模型、R-CNN模型以及Fast R-CNN模型，等等。目标检测网络703用于在多媒体数据中检测对象，目标检测网络703可以为多媒体特征网络702。策略网络π是一个全连接网络，包含多层感知器MLP，用于输出M维的向量，M维对应M个对象，每一维的数值代表该维对应的对象的采样概率。

在调用跨模态检索模型执行跨模态检索的场景中，图2所示实施例描述的跨模态检索方法的大致流程，可参见图7所示的数据流向，包括步骤s21-s26：

s21，跨模态检索模型接收用户输入的待检索的查询文本。

s22，文本特征网络701接收到待检索的查询文本，并将查询文本转化为文本特征X_t ^T，其中，X^T表示查询文本的文本特征序列（包括一个或多个文本特征），X_t ^T表示第t次转化得到的文本特征序列。以及多媒体特征网络702对多媒体数据库中的多媒体数据提取数据特征X_n ^l，其中，X^l表示某一多媒体数据的数据特征序列（包括一个或多个数据特征，如图像特征），X_n ^l表示多媒体数据中n个多媒体数据的数据特征，多媒体数据库中所有的多媒体数据中共包含M个对象。将查询文本的文本特征X_t ^T和多媒体数据的数据特征X_n ^l进行匹配，得到查询文本的文本特征X_t ^T和多媒体数据的数据特征X_n ^l之间的匹配度，再按照匹配度由高至低的顺序从多媒体数据库中选取N个多媒体数据构成候选多媒体集合。基于此，跨模态检索模型中的文本特征网络和多媒体特征网络用于根据查询文本在多媒体数据库中进行检索，得到候选多媒体集合。其中，强化学习所包含的“奖励”为此处的查询文本的文本特征X_t ^T和多媒体数据的数据特征X_n ^l之间的匹配度，本申请实施例以r来代表奖励，即本申请实施例中奖励r为查询文本的文本特征X_t ^T和多媒体数据的数据特征X_n ^l之间的匹配度。

s23，目标检测网络703接收文本特征网络701发送的文本特征X_t ^T、多媒体特征网络702发送的数据特征X_n ^l和M个对象，并统计M个对象的分布信息P(a)，其中，a是指M个对象中的某一对象。基于此，目标检测网络用于获得N个候选多媒体数据中的对象信息。并且，目标检测网络703还将文本特征X_t ^T和分布信息P(a)发送给策略网络π。其中，强化学习所包含的“策略”为此处的策略网络π，强化学习所包含的“状态”为此处的文本特征X_t ^T和分布信息P(a)，在本申请实施例中，状态s包含文本特征X_t ^T和分布信息P(a)。

s24，策略网络704计算每个对象的采样概率，并确定目标对象以及目标对象对应的缺失内容。策略网络704还输出目标对象的缺失内容A_t给用户进行确认。其中，强化学习所包含的“动作”为经过策略网络π采样得到的缺失内容A_t。

s25，用户确认的缺失内容A_t ^P可以作为补充的文本查询加入待检索的查询文本，而用户否认的缺失内容A_t ^Q可以发送至目标检测网络703，以便于目标检测网络703根据缺失内容A_t ^Q调低包含缺失内容A_t ^Q的候选多媒体数据与查询文本之间的匹配度。

s26，正如图2所示实施例的相关描述，如果存在针对查询内容的多轮交互时，可重复执行上述步骤s24-s25的部分内容，如输出缺失内容，以及对候选多媒体数据的匹配度的调整等，最终得到检索结果。基于步骤s24-s26可知，策略网络用于根据N个候选多媒体数据中的对象信息生成查询文本的缺失内容，并获取针对缺失内容的确认反馈；以及根据确认反馈对候选多媒体集合进行优化，得到检索结果。

不难理解的是，由于跨模态检索模型充分了解多媒体数据库的完整信息（如包含的所有多媒体数据的数据特征等），因此跨模态检索模型可对待检索的查询文本和多媒体数据库进行分析，自动产生候补的缺失内容；通过基于多媒体数据库产生的缺失内容向用户确认，相比于让用户自己反馈信息而言，可以引导用户反馈对检索更有利的信息，进而迅速检索到满意的检索结果，提升检索性能，提高检索结果的准确性。

基于图7给出的跨模态检索模型和图2给出的跨模态检索方法，下面给出调用跨模态检索模型执行跨模态检索方法的另一种流程示意图，该流程示意图可参见图8；图8所示的跨模态检索方法主要涉及构建跨模态检索模型以及调用构建好的跨模态检索模型来执行跨模态检索方法，该方法可包括步骤S801-S809：

S801，获取样本数据。

样本数据包含多组样本对，每组样本对包含一个样本文本和一个样本多媒体数据。以多媒体数据为图像为例，一组样本对包含一个样本文本和一个样本图像，并且，一组样本对中的样本文本和样本图像均描述的是同一事物和事件。参见图9，图9示出了本申请实施例提供的一种样本数据的示意图，如图9所示，样本数据所包含的任一组样本对均包含一个样本文本和一个样本图像，例如：样本文本1为“滑滑板的男孩”，对应的样本图像1所描述的画面为“一个正在滑滑板的男孩”，又如：样本文本2为“一个孩子，带有一个书包”，对应的样本图像2所描述的画面为“一个背着书包的男孩”。基于此，虽然任一样本文本和该任一样本文本对应的样本图像的模态并不相同，但均表达了同一事件或事物。

S802，根据样本数据联合训练文本特征网络和多媒体特征网络。

联合训练文本特征网络和多媒体特征网络的流程示意图可参见图10，图10以多媒体特征网络为图像特征网络为例进行介绍，具体训练过程可包括步骤s31-s34：

s31，从样本数据中选取任一组样本对，并调用文本特征网络提取该任一组样本对中的样本文本的文本特征；例如，样本文本1为“滑滑板的男孩”，对该样本文本提取样本特征时，可提取到“男孩”、“滑板”等文本特征。以及调用图像特征网络提取图像数据库中的各个图像的数据特征（即图像特征）；其中，图像特征网络提取图像的数据特征的方式可包括：对该图像进行分区，即按照某种规则（如从上至下、从左至右等）将该图像划分为多个板块，对各个板块进行图像特征的提取。如图10所示，调用图像特征网络对图像1进行图像特征提取时，可将图像1划分为4个板块，即获取到图像1的4个数据特征。

s32，将步骤s31中提取的样本文本的文本特征，分别和各个图像的数据特征进行匹配，获得样本文本的文本特征与各个图像的数据特征之间的匹配度，进而得到样本文本与各个图像之间的匹配度。

s33，按照匹配度由高至低的顺序对图像数据库中的各个图像进行排序，得到图像序列；并从图像序列中选取第三多媒体数据，第三多媒体数据的数量可以为一个或多个。其中，从图像序列中选取第三多媒体数据的方式可包括：将图像序列中靠前的预设数量（如100）的图像作为第三多媒体数据。举例来说，图像数据库中包含图像1、图像2、图像3、图像4，且图像1与样本文本之间的匹配度为30%、图像2与样本文本之间的匹配度为60%、图像3与样本文本之间的匹配度为72%、图像4与样本文本之间的匹配度为80%，则按照匹配度由高至低的顺序，得到图像序列为：图像4->图像3->图像2->图像1；假设预设数量为2，则从图像序列中选取的第三多媒体数据包括：图像4、图像3。

s34，根据样本文本多对应的样本多媒体数据（即样本图像），与第三多媒体数据之间的差异，对跨模态检索模型的损失函数进行优化，从而实现联合训练文本特征网络和图像特征网络（即多媒体特征网络）。

S803，调用目标检测网络检测并统计M个对象在第三多媒体数据中的分布信息。

调用目标检测网络检测第三多媒体数据中存在的对象，并统计M个对象在第三多媒体数据中的分布信息。举例来说，假设M=3，分别为对象1、对象2、对象3，第三多媒体数据包括图像1和图像2，经目标检测网络检测发现：图像1中100%的可能性包含对象1、图像1中100%的可能性包含对象2、图像1中50%的可能性包含对象3，图像2中100%的可能性包含对象1、图像2中不包含对象2，图像2中80%的可能性包含对象3；那么对象1的分布信息P（对象1）=（1,1），对象2的分布信息P（对象2）=（1,0），对象3的分布信息P（对象1）=（0.5,0.8）。

S804，调用策略网络对分布信息进行策略分析处理，并更新目标检测网络和策略网络的参数。

基于M个对象的分布信息和样本文本的文本特征，可得到状态s，状态s是策略网络π的输入。其中，状态s包含的样本文本的文本特征同样可以采样向量的形式来表示，如样本特征表示为一个256维的向量。

其中，调用策略网络π对分布信息进行策略分析的过程可包括：

①调用策略网络对状态s进行策略分析处理，得到M个对象的采样概率。

②按照采样概率由高至低的顺序对M个对象进行排序，得到M个对象的对象序列。

③根据采样概率从M个对象中选取待确认对象，这里的选取方式可参见前述选取目标对象的具体实施过程的相关描述。需要说明的是，如果步骤③采用随机采样方式从M个对象中选取待确认对象，那么步骤②可以省略，在此说明。

④确认待确认对象是否位于任一组样本对（即前述样本文本所在的一组样本对）中的样本多媒体数据中，得到待确认对象的确认结果；其中，确认结果可包括：1、待确认对象位于该任一组样本对中的样本多媒体数据中，此时确定待确认对象既存在于该任一组样本对中的样本多媒体数据中，也存在于第三多媒体数据中；2、待确认对象不位于该任一组样本对中的样本多媒体数据中，此时确定待确认对象不存在于该任一组样本对中的样本多媒体数据中，只存在于第三多媒体数据中。

⑤根据确认结果调整任一组样本对中的样本文本和第三多媒体数据之间的匹配度。这里的调整匹配度，可以理解为对样本文本-第三多媒体数据进行奖励，若确认结果确认待确认对象既存在于该任一组样本对中的样本多媒体数据中，也存在于第三多媒体数据中，表示检索得到与样本文本相匹配的多媒体数据，则对样本文本-第三多媒体数据的奖励包括：调高任一组样本对中的样本文本和第三多媒体数据之间的匹配度；反之，若确认结果确认待确认对象未存在于该任一组样本对中的样本多媒体数据中，只存在于第三多媒体数据中，表示未检索得到与样本文本相匹配的多媒体数据，则对样本文本-第三多媒体数据的奖励包括：调低任一组样本对中的样本文本和第三多媒体数据之间的匹配度。

⑥基于步骤⑤中调整匹配度后的第三多媒体数据，对损失函数进行优化，并基于优化后的损失函数更新目标检测网络和策略网络的参数。

值得注意的是，上述交互过程中，是通过检测待确认对象是否位于样本多媒体数中，来模拟将待确认对象发送给用户进行确认的过程。因此，在训练跨模态检索模型的过程中，无需收集对象数据，就可以收集到大量的（s，a，r）三元组（这些三元组用于后续设计损失函数），进而减小用户的工作量，提高训练效率。

综上，对样本数据中的任一组样本对执行上述步骤S801-S804的操作，可完成对跨模态检索模型的一次训练；若此时跨模态检索模型趋于稳定，则将当前训练得到跨模态检索模型作为训练好的跨模态检索模型；若此时跨模态检索模型未趋于稳定，则采用优化器反向传播，以更新各个网络模型（如文本特征网络、多媒体特征网络、目标检测网络及策略网络）的参数，并执行步骤S805。其中，常见的优化器可以包括但不限于：Adam、MomentumSGD、Nesterov、AdaGrad、RMSProp、SGD等等。

S805，重新选择另一组样本对跨模态检索模型进行迭代训练，直至跨模态检索模型趋于稳定为止。

其中，判断某一次训练后的跨模态检索模型是否趋于稳定，是通过判断该次训练后的损失函数是否趋于稳定（如损失函数的数值不再发生变化，或者，损失函数的数值发生很小的变化）来确定的。本申请实施例提出的跨模态检索模型的损失函数，是在PPO（Proximal Policy Optimizataion）算法的损失函数基础之上提出的，并且，本申请实施例还提出统计样本文本的文本特征和某一对象同时出现于多媒体数据中的概率，并将该概率作为策略网络需要拟合的概率分布。基于上述原理设计跨模态检索模型的损失函数。

其中，PPO算法提出的损失函数如下：

K为一组样本对所经历的交互次数，t为K轮交互中的任一轮交互，r_t为第t轮交互的奖励r，π(s_t)为第t轮的策略，s_t为第t轮交互的状态s，s_t由第t轮的样本文本的文本特征X_t ^T和M个对象的分布信息P(a)组成。

其中，以样本数据中任一组样本对为例，统计样本文本的文本特征和某一对象同时出现于多媒体数据中的概率，并将该概率作为策略网络需要拟合的概率分布，的具体实现方式进行介绍：

1）解析任一组样本对中的样本文本，得到该样本文本所包含的所有字符（即文本特征），以及，检测该样本文本对应的第三多媒体数据，得到该第三多媒体数据所包含的所有对象，第三多媒体数据的数量可以不为1。其中，可以采用分词处理方法来解析样本文本，常见的分词处理方法可包括但不限于：基于词典的分词方法，是按照一定的策略将待关联的字符串和一个已建立好的“充分大的”词典库中的词进行关联，若找到某个词，则说明关联成功，识别了该词。基于统计的分词方法，是对文本所包含的各个字进行标注训练，不仅考虑词语出现的频率，还考虑上下文。基于理解的分词方法，是通过让计算机模拟人对文本的理解，达到识别文本中的词的效果。本申请实施例对具体采用哪一种或多种分词方法不作限定。通过对样本文本进行分词处理，可将较长的文本（或字段）分为较短的字段（即词或词语），方便后续统计。举例来说，假设样本文本为“滑滑板的男孩”，采用上述任一分词方法对该样本文本进行分词处理，可得到该样本文本对应的字符“滑板”、“男孩”。当然，当样本文本为英文时，可解析得到英文样本文本的所有单词（如“boy”、“man”等），在这里不作赘述。

2）统计样本文本中每个字符（如单词）和该字符对应的对象同时出现于多媒体数据的频率；例如：样本文本中包含字符“男孩”，第三多媒体数据包括第三多媒体数据1、第三多媒体数据2，其中，第三多媒体数据1中包含对象1、对象2-“男孩”，第三多媒体数据2中包含对象1和对象3；那么可以确定字符“男孩”和对象2-“男孩”同时出现在第三多媒体数据1中，则字符“男孩”和对象2-“男孩”同时出现的频率为1/2。在实际应用场景中，第三多媒体数据的数量，以及样本文本所包含的字符的数量往往是丰富的，为了便于计算，这里可以采用如下公式，来进行统计：

其中，w表示一个字符（如“男孩”）；o表示一个物体；i_k为图像数据库中的第k张图像（即第k个多媒体数据）；w∈i_k表示字符w出现于图像i_k的文字描述中，即图像i_k中包含字符w所表达的对象（如物体）；o∈i_k表示对象o出现于图像i_k中；l(w∈i_k||o∈i_k)为指示函数，可简写为l(e)，即e= w∈i_k||o∈i_k，当e为真时，指示函数的值为1，当e为假时，指示函数的值为0，e为真是指：字符w出现于图像i_k的文字描述中、且对象o出现于图像i_k中，其他情况均表示e为假。

3）基于步骤2）得到某一对象的频率，可定义得到该对象对于样本文本的条件概率：

其中，O为所有对象o的集合，w∈Q表示所有出现于样本文本中的字符。

4）通过策略网络π，拟合3）中的条件概率，得到损失函数：

因此，基于任一组样本对，执行K轮交互，可得到损失函数较为稳定的函数值，进而得到趋于稳定的跨模态检索模型。需要说明的是，在训练过程中的“交互”，可通过目标检测的标签信息进行模拟，即通过任一组样本对所包含的样本多媒体数据进行模拟，而不需要像检索场景下与用户进行交互，这种不需要利用人工标注的交互数据来进行训练，减少了数据收集成本，也扩展了这类模型训练方法的使用范围。

S806，获取待检索的查询文本。

S807，调用文本特征网络和多媒体特征网络从多媒体数据库中检索，得到候选多媒体集合。

S808，调用目标检测网络获取N个候选多媒体数据中的对象信息。

S809，调用策略网络根据N个候选多媒体数据中的对象信息生成查询文本的缺失内容，并获取针对缺失内容的确认反馈，以及根据确认反馈对候选多媒体集合进行优化，得到检索结果。

需要说明的是，步骤S806- S809的具体实施过程可参见图2所示实施例，或图7所示实施例的具体实施过程的相关描述，在此不作赘述。综上所述，本申请实施例采用样本数据对跨模态检索模型进行训练，可得到性能较好、较为稳定的跨模态检索模型；并且采用模拟方式或与用户对话方式来获取针对缺失内容的确认反馈，这既简化了收集反馈的流程，同时一定程度的降低了对用户反馈信息的依赖度，能够更有效地提升检索性能，从而提高检索结果的准确性。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。

图11示出了本申请一个示例性实施例提供的一种跨模态检索装置的结构示意图；该跨模态检索装置可以用于是运行于终端设备中的一个计算机程序（包括程序代码），例如该跨模态检索装置可以是终端中的剧本类的目标应用；该跨模态检索装置可以用于执行图2及图8所示的方法实施例中的部分或全部步骤。请参见图11，该跨模态检索装置包括如下单元：

获取单元1101，用于待检索的查询文本；

处理单元1102，用于根据查询文本在多媒体数据库中进行检索，得到候选多媒体集合，候选多媒体集合中包含与查询文本相匹配的N个候选多媒体数据，N为正整数；

处理单元1102，还用于根据N个候选多媒体数据中的对象信息生成查询文本的缺失内容，并获取针对缺失内容的确认反馈；

处理单元1102，还用于根据确认反馈对候选多媒体集合进行优化，得到检索结果。

处理单元1102用于根据N个候选多媒体数据中的对象信息生成查询文本的缺失内容时，具体用于：

检测并统计M个对象在N个候选多媒体数据中的分布信息；

对分布信息进行策略分析处理，得到M个对象的采样概率；

在一种实现方式中，处理单元1102用于根据目标对象生成查询文本的缺失内容时，具体用于：

将描述内容确定为查询文本的缺失内容。

在一种实现方式中，处理单元1102用于获取针对缺失内容的确认反馈时，具体用于：

在一种实现方式中，处理单元1102用于根据确认反馈对候选多媒体集合进行优化，得到检索结果时，具体用于：

调高第一多媒体数据与查询文本之间的匹配度；

调低第二多媒体数据与查询文本之间的匹配度；

将移除后的候选多媒体集合作为检索结果。

选取排序靠前的数量阈值个候选多媒体数据作为检索结果。

在一种实现方式中，处理单元1102用于根据查询文本在多媒体数据库中进行检索，得到候选多媒体集合时，具体用于：

目标检测网络用于获得N个候选多媒体数据中的对象信息；

在一种实现方式中，跨模态检索模型的训练过程包括：

在一种实现方式中，跨模态检索模型的训练过程还包括：

根据本申请的一个实施例，图11所示的跨模态检索装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该跨模态检索装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2及图8所示的相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造如图11中所示的跨模态检索装置，以及来实现本申请实施例的跨模态检索方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

本申请实施例中，处理单元1102在根据查询文本检索到候选多媒体集合中的N（N为正整数）个候选多媒体数据之后，并不直接将其作为检索结果输出，而是基于这N个候选多媒体数据中的对象信息自动产生查询文本的候补的缺失内容；并基于针对缺失内容的确认反馈来对候选多媒体集合进行优化，得到检索结果。由于本申请实施例基于候选多媒体数据自动产生查询文本可能的缺失内容，这使得跨模态检索过程中充分考虑了查询文本输入不完整的情况，有效提升了跨模态检索过程的智能性；另外，可通过模拟方式或与用户对话方式来获取针对缺失内容的确认反馈，这既简化了收集反馈的流程，同时一定程度的降低了对用户反馈信息的依赖度，能够更有效地提升检索性能，从而提高检索结果的准确性。

图12示出了本申请一个示例性实施例提供的一种跨模态检索设备的结构示意图。请参见图12，该跨模态检索设备，包括处理器1201、通信接口1202以及计算机可读存储介质1203。其中，处理器1201、通信接口1202以及计算机可读存储介质1203可通过总线或者其它方式连接。其中，通信接口1202用于接收和发送数据。计算机可读存储介质1203可以存储在跨模态检索设备的存储器中，计算机可读存储介质1203用于存储计算机程序，计算机程序包括程序指令，处理器1201用于执行计算机可读存储介质1203存储的程序指令。处理器1201（或称CPU（Central Processing Unit，中央处理器））是跨模态检索设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质（Memory），计算机可读存储介质是跨模态检索设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括跨模态检索设备中的内置存储介质，当然也可以包括跨模态检索设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了文档编辑设备的处理系统。并且，在该存储空间中还存放了适于被处理器1201加载并执行的一条或多条的指令，这些指令可以是一个或多个的计算机程序（包括程序代码）。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机可读存储介质。

在一个实施例中，该跨模态检索设备可以是前述实施例提到的计算机设备；该计算机可读存储介质中存储有一条或多条指令；由处理器1201加载并执行计算机可读存储介质中存放的一条或多条指令，以实现上述跨模态检索方法实施例中的相应步骤；具体实现中，计算机可读存储介质中的一条或多条指令由处理器1201加载并执行如下步骤：

待检索的查询文本；

根据确认反馈对候选多媒体集合进行优化，得到检索结果。

计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行根据N个候选多媒体数据中的对象信息生成查询文本的缺失内容时，具体执行如下步骤：

检测并统计M个对象在N个候选多媒体数据中的分布信息；

对分布信息进行策略分析处理，得到M个对象的采样概率；

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行根据目标对象生成查询文本的缺失内容时，具体执行如下步骤：

将描述内容确定为查询文本的缺失内容。

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行获取针对缺失内容的确认反馈时，具体执行如下步骤：

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行根据确认反馈对候选多媒体集合进行优化，得到检索结果时，具体执行如下步骤：

调高第一多媒体数据与查询文本之间的匹配度；

调低第二多媒体数据与查询文本之间的匹配度；

将移除后的候选多媒体集合作为检索结果。

选取排序靠前的数量阈值个候选多媒体数据作为检索结果。

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行根据查询文本在多媒体数据库中进行检索，得到候选多媒体集合时，具体执行如下步骤：

目标检测网络用于获得N个候选多媒体数据中的对象信息；

在一种实现方式中，跨模态检索模型的训练过程包括：

在一种实现方式中，跨模态检索模型的训练过程还包括：

本申请实施例中，处理器1201在根据查询文本检索到候选多媒体集合中的N（N为正整数）个候选多媒体数据之后，并不直接将其作为检索结果输出，而是基于这N个候选多媒体数据中的对象信息自动产生查询文本的候补的缺失内容；并基于针对缺失内容的确认反馈来对候选多媒体集合进行优化，得到检索结果。由于本申请实施例基于候选多媒体数据自动产生查询文本可能的缺失内容，这使得跨模态检索过程中充分考虑了查询文本输入不完整的情况，有效提升了跨模态检索过程的智能性；另外，可通过模拟方式或与用户对话方式来获取针对缺失内容的确认反馈，这既简化了收集反馈的流程，同时一定程度的降低了对用户反馈信息的依赖度，能够更有效地提升检索性能，从而提高检索结果的准确性。

本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述跨模态检索方法。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如，同轴电缆、光纤、数字用户线（DSL））或无线（例如，红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如，固态硬盘(Solid State Disk，SSD)）等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种跨模态检索方法，其特征在于，所述方法包括：

获取待检索的查询文本；

根据所述查询文本在多媒体数据库中进行检索，得到候选多媒体集合，所述多媒体数据库中的多媒体数据中共包含M个对象，M为整数；所述候选多媒体集合中包含与所述查询文本相匹配的N个候选多媒体数据，N为正整数；

检测并统计所述M个对象在所述N个候选多媒体数据中的分布信息；

对所述分布信息进行策略分析处理，得到所述M个对象的采样概率；

根据采样概率从所述M个对象中选取目标对象，并根据所述目标对象生成所述查询文本的缺失内容，并获取针对所述缺失内容的确认反馈；

根据所述确认反馈对所述候选多媒体集合进行优化，得到检索结果。

2.如权利要求1所述的方法，其特征在于，所述根据所述目标对象生成所述查询文本的缺失内容，包括：

生成所述目标对象的描述内容，所述描述内容包括描述文本、描述音频或描述图像；

将所述描述内容确定为所述查询文本的缺失内容。

3.如权利要求2所述的方法，其特征在于，所述获取针对所述缺失内容的确认反馈，包括：

输出交互提示，所述交互提示中包含所述缺失内容，所述交互提示用于询问所述缺失内容的正确性；

接收针对所述缺失内容的确认反馈，所述确认反馈用于确认或否认所述缺失内容的正确性。

4.如权利要求3所述的方法，其特征在于，所述根据所述确认反馈对所述候选多媒体集合进行优化，得到检索结果，包括：

若所述确认反馈用于确认所述缺失内容的正确性，则从所述候选多媒体集合中选取第一多媒体数据，所述第一多媒体数据是指包含所述目标对象的候选多媒体数据；

调高所述第一多媒体数据与所述查询文本之间的匹配度；

若调高后的所述第一多媒体数据与所述查询文本之间的匹配度大于匹配阈值，则将所述第一多媒体数据作为所述检索结果。

5.如权利要求3所述的方法，其特征在于，所述根据所述确认反馈对所述候选多媒体集合进行优化，得到检索结果，包括：

若所述确认反馈用于否认所述缺失内容的正确性，则从所述候选多媒体集合中选取第二多媒体数据，所述第二多媒体数据是指包含所述目标对象的候选多媒体数据；

调低所述第二多媒体数据与所述查询文本之间的匹配度；

若调低后的所述第二多媒体数据与所述查询文本之间的匹配度小于匹配阈值，则将所述第二多媒体数据移除所述候选多媒体集合；

将移除后的所述候选多媒体集合作为所述检索结果。

6.如权利要求3所述的方法，其特征在于，所述根据所述确认反馈对所述候选多媒体集合进行优化，得到检索结果，包括：

根据所述确认反馈对所述候选多媒体集合中的各个候选多媒体数据与所述查询文本之间的匹配度进行调整；

按照调整后的匹配度由高至低的顺序对所述候选多媒体集合中的N个候选多媒体数据进行排序；

选取排序靠前的数量阈值个候选多媒体数据作为所述检索结果。

7.如权利要求1所述的方法，其特征在于，所述根据所述查询文本在多媒体数据库中进行检索，得到候选多媒体集合，包括：

提取所述查询文本的文本特征，以及获取所述多媒体数据库中的各个多媒体数据的数据特征；

分别将所述文本特征与各个所述数据特征进行匹配，获得所述文本特征与各个所述数据特征之间的匹配度；

按照匹配度由高至低的顺序从所述多媒体数据库中选取N个多媒体数据构成所述候选多媒体集合。

8.如权利要求1所述的方法，其特征在于，所述方法通过调用跨模态检索模型来执行，所述跨模态检索模型包括文本特征网络、多媒体特征网络、目标检测网络和策略网络；

所述文本特征网络和所述多媒体特征网络用于根据所述查询文本在所述多媒体数据库中进行检索，得到所述候选多媒体集合；

所述目标检测网络用于获得所述N个候选多媒体数据中的对象信息；

所述策略网络用于根据所述N个候选多媒体数据中的对象信息生成所述查询文本的缺失内容，并获取针对所述缺失内容的确认反馈；以及根据所述确认反馈对所述候选多媒体集合进行优化，得到检索结果。

9.如权利要求8所述的方法，其特征在于，所述跨模态检索模型的训练过程包括：

获取样本数据，所述样本数据包含多组样本对，每组样本对包含一个样本文本和一个样本多媒体数据；

选择任一组样本对，并调用所述文本特征网络提取所述任一组样本对中的样本文本的文本特征，以及调用所述多媒体特征网络提取所述多媒体数据库中的各个多媒体数据的数据特征；所述多媒体数据库中的多媒体数据中共包含M个对象，M为整数；

分别将所述样本文本的文本特征与各个所述数据特征进行匹配，获得所述样本文本的文本特征与各个所述数据特征之间的匹配度；

按照匹配度由高至低的顺序从所述多媒体数据库中选取第三多媒体数据；

根据所述任一组样本对中的样本多媒体数据与所述第三多媒体数据之间的差异，联合训练所述文本特征网络和所述多媒体特征网络。

10.如权利要求9所述的方法，其特征在于，所述跨模态检索模型的训练过程还包括：

调用所述目标检测网络检测并统计所述M个对象在所述第三多媒体数据中的分布信息；

调用所述策略网络对所述分布信息进行策略分析处理，得到所述M个对象的采样概率，并根据采样概率从所述M个对象中选取待确认对象，并确认所述待确认对象是否位于所述任一组样本对中的样本多媒体数据中；

根据确认结果调整所述任一组样本对中的样本文本和所述第三多媒体数据之间的匹配度，并更新所述目标检测网络和所述策略网络的参数；

重新选择另一组样本对对所述跨模态检索模型进行迭代训练，直至所述跨模态检索模型趋于稳定为止。

11.一种跨模态检索装置，其特征在于，包括：

获取单元，用于获取待检索的查询文本；

处理单元，用于根据所述查询文本在多媒体数据库中进行检索，得到候选多媒体集合，所述多媒体数据库中的多媒体数据中共包含M个对象，M为整数；所述候选多媒体集合中包含与所述查询文本相匹配的N个候选多媒体数据，N为正整数；

所述处理单元，还用于检测并统计所述M个对象在所述N个候选多媒体数据中的分布信息；对所述分布信息进行策略分析处理，得到所述M个对象的采样概率；根据采样概率从所述M个对象中选取目标对象，并根据所述目标对象生成所述查询文本的缺失内容，并获取针对所述缺失内容的确认反馈；

所述处理单元，还用于根据所述确认反馈对所述候选多媒体集合进行优化，得到检索结果。

12.一种跨模态检索设备，其特征在于，包括：

处理器，适于实现一条或多条指令；

计算机可读存储介质，所述计算机可读存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-10任一项所述的跨模态检索方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-10任一项所述的跨模态检索方法。