CN116303975B

CN116303975B - 召回模型的训练方法、召回方法及相关设备

Info

Publication number: CN116303975B
Application number: CN202310525095.8A
Authority: CN
Inventors: 马晋; 常亚宁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-07-21
Anticipated expiration: 2043-05-11
Also published as: CN116303975A

Abstract

本申请涉及人工智能技术领域，公开了一种召回模型的训练方法、召回方法及相关设备，该训练方法包括：获取多个第一文本对，第一文本对包括第一提问文本和第一回答文本；根据多个第一文本对中的第一提问文本和第一回答文本对召回模型进行预训练；获取多个第二文本对，第二文本对包括第二提问文本和第二回答文本，第二提问文本是以多媒体对应的相关多媒体的资源标识为提问目标的文本，第二回答文本是第二提问文本提问针对的相关多媒体的资源标识；根据多个第二文本对中的第二提问文本和第二回答文本对预训练后的召回模型进行微调训练。通过训练后的召回模型可以准确召回多媒体对应的相关多媒体，提升多媒体召回的准确性。

Description

召回模型的训练方法、召回方法及相关设备

技术领域

本申请涉及人工智能技术领域，更具体地，涉及一种召回模型的训练方法、召回方法及相关设备。

背景技术

随着多媒体技术的发展，音频、视频等多媒体的数量也在急剧增长，从海量的多媒体中准确召回多媒体，能够有效缩短用户查询多媒体的时间，如果召回的多媒体与用户实际想要的多媒体相关性不高，即多媒体召回的准确度不高，需要用户进行多次查询和搜索，造成用户所在终端与多媒体服务器之间进行多次交互。因此，如何提升多媒体的召回准确度是相关技术中亟待解决的技术问题。

发明内容

鉴于上述问题，本申请实施例提出了召回模型的训练方法、召回方法及相关设备，以提升多媒体的召回准确度。

根据本申请实施例的一个方面，提供了一种召回模型的训练方法，包括：获取多个第一文本对，所述第一文本对包括第一提问文本和第一回答文本，所述第一提问文本是根据多媒体的描述信息生成的，且以多媒体的资源标识为提问目标的文本，所述第一回答文本是所述第一提问文本提问所针对的资源标识；根据多个第一文本对中的第一提问文本和第一回答文本对召回模型进行预训练；获取多个第二文本对，所述第二文本对包括第二提问文本和第二回答文本，所述第二提问文本是以多媒体对应的相关多媒体的资源标识为提问目标的文本，所述第二回答文本是所述第二提问文本提问针对的相关多媒体的资源标识；根据多个第二文本对中的第二提问文本和第二回答文本对预训练后的召回模型进行微调训练。

根据本申请实施例的一个方面，提供了一种召回方法，包括：获取目标多媒体的资源标识；根据所述目标多媒体的资源标识生成以相关资源标识为提问目标的目标提问文本，所述相关资源标识是指所述目标多媒体对应的相关多媒体的资源标识；由召回模型根据所述目标提问文本，生成所述目标提问文本对应的目标回答文本，所述目标回答文本包括所述目标多媒体对应的相关多媒体的资源标识；所述召回模型是按照如上的召回模型的训练方法进行训练得到的；根据所述目标回答文本中的资源标识确定所述目标多媒体的召回结果。

根据本申请实施例的一个方面，提供了一种召回模型的训练装置，包括：第一获取模块，用于获取多个第一文本对，所述第一文本对包括第一提问文本和第一回答文本，所述第一提问文本是根据多媒体的描述信息生成的，且以多媒体的资源标识为提问目标的文本，所述第一回答文本是所述第一提问文本提问所针对的资源标识；预训练模块，用于根据多个第一文本对中的第一提问文本和第一回答文本对召回模型进行预训练；第二获取模块，用于获取多个第二文本对，所述第二文本对包括第二提问文本和第二回答文本，所述第二提问文本是以多媒体对应的相关多媒体的资源标识为提问目标的文本，所述第二回答文本是所述第二提问文本提问针对的相关多媒体的资源标识；微调训练模块，用于根据多个第二文本对中的第二提问文本和第二回答文本对预训练后的召回模型进行微调训练。

根据本申请实施例的一个方面，提供了一种召回装置，包括：第三获取模块，用于获取目标多媒体的资源标识；目标提问文本生成模块，用于根据所述目标多媒体的资源标识生成以相关资源标识为提问目标的目标提问文本，所述相关资源标识是指所述目标多媒体对应的相关多媒体的资源标识；目标回答文本确定模块，用于由召回模型根据所述目标提问文本，生成所述目标提问文本对应的目标回答文本，所述目标回答文本包括所述目标多媒体对应的相关多媒体的资源标识；所述召回模型是按照如上的召回模型的训练方法进行训练得到的；召回结果确定模块，用于根据所述目标回答文本中的资源标识确定所述目标多媒体的召回结果。

根据本申请实施例的一个方面，提供了一种电子设备，包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上所述的召回模型的训练方法，或者实现如上的召回方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被处理器执行时，实现如上所述的召回模型的训练方法，或者实现如上的召回方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如上所述的召回模型的训练方法，或者实现如上的召回方法。

在本申请中，先通过多个第一文本对，对召回模型进行预训练，由于第一文本对中的第一提问文本是根据多媒体的描述信息生成的，且第一提问文本以多媒体的资源标识为提问目标，第一回答文本为多媒体的资源标识，通过预训练，可以使召回模型学习到多媒体的资源标识与多媒体的描述信息之间的关联关系，以通过多媒体的描述信息的特征确定多媒体的资源标识的特征表征。预训练结束后，再利用以多媒体对应的相关多媒体的资源标识为提问目标的第二提问文本，和，包括多媒体对应的相关多媒体的资源标识的第二回答文本对预训练后的召回模型进行微调训练，这样，可以使召回模型利用在预训练阶段学习到的多媒体的资源标识与多媒体的描述信息之间的关联关系，在微调训练阶段以多媒体的资源标识和多媒体对应的相关多媒体的资源标识为基础，学习作为参考的多媒体与多媒体对应的相关多媒体之间的特征共性，从而，在后续应用过程中，可以使召回模型根据作为参考的多媒体的资源标识，准确预测多媒体对应的相关多媒体的资源标识，进而准确召回多媒体对应的相关多媒体，有效保证了所召回的相关多媒体与作为参考的多媒体之间的相关性。而且，本申请的方案，实现了将多媒体召回任务转换为文本生成任务。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请一实施例示出的本申请应用场景的示意图。

图2是根据本申请的一个实施例示出的召回模型的训练方法的流程图。

图3是根据本申请一实施例示出的对召回模型进行训练的示意图。

图4是根据本申请一实施例示出的召回模型的结构示意图。

图5示例性示出了BART模型进行编码和解码处理的示意图。

图6示例性示出了变换器模型的示意图。

图7是根据本申请一实施例示出的步骤220在一实施例中的流程图。

图8是根据本申请一实施例示出的步骤240在一实施例中的流程图。

图9是根据本申请一实施例示出的召回方法的流程图。

图10是根据本申请另一实施例示出的召回方法的流程图。

图11是根据本申请一实施例示出的召回模型的训练装置的框图。

图12是根据本申请一实施例示出的召回装置的框图。

图13示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在对本申请的方案进行具体说明之前，对本申请涉及的术语进行如下解释：

序列到序列（Sequence to sequence，Seq2Seq）模型：是将序列映射到序列的神经网络模型。序列到序列模型最初用于改进机器翻译技术，用于将一种语言的语句（词语序列）映射到另一种语言的对应语句上。

文本生成：是指从非语言的表示生成可以理解的文本。根据非语言表示的不同划分，文本生成包括“文本→文本”、“数据→文本”、“图像→文本”。

预训练：其是使用尽可能多的训练数据，从中提取出尽可能多的共性特征，从而让模型对特定任务的学习负担变轻。

微调训练（Fine tune）：其原理就是利用已知的模型的结构和已知的模型的参数，修改output（输出）层的参数以作为当前任务的输出层，以及微调最后一层（即输出层）前的若干网络层的参数，这样可以有效利用深度神经网络强大的泛化能力，又免去了设计复杂的模型以及减少训练耗时。

提示学习（Prompt Learning）：提示学习的核心就是通过某个模板将要解决的问题转换到与预训练任务类似的形式来进行处理。例如对于文本“I missed the bustoday.”，可以通过构建模板“I missed the bus today. I felt so [MASK][MASK]”并使用遮盖语言模型 (Masked Language Model， MLM) 预测情绪词来识别它的情感极性，也可以通过构建前缀“English: I missed the bus today. Chinese: [MASK][MASK]” 然后使用生成模型来获取它对应的中文翻译。

变换器（Transformer）模型: 是一种采用自注意力机制的深度学习模型，采用注意力机制可以按输入数据各部分重要性的不同而分配不同的权重。该模型主要用于自然语言处理（Nature Language processing，NLP）与计算机视觉（Computer Vision，CV）领域。

注意力（Attention）机制：是模仿人类注意力而提出的一种解决问题的办法，简单地说就是从大量信息中快速筛选出高价值信息。主要用于解决长短期记忆（Long ShortTerm Memory，LSTM）模型/递归神经网络（Recursive Neural Network，RNN）模型的输入序列较长的时候，很难获得最终合理的向量表示问题，主要做法是保留LSTM的中间结果，用新的模型对其进行学习，并将中间结果与输出进行关联，从而达到信息筛选的目的。

双向编码的变换器(Bidirectional Encoder Representations fromTransformers，BERT)模型：是一个预训练的语言表征模型，它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的带掩码机制的语言模型，以生成深度的双向语言表征。

生成式预训练变换器（Generative Pre-trained Transformer，GPT）：是一个自回归语言模型，目的是为了使用深度学习生成人类可以理解的自然语言。

知识图谱（Knowledge Graph）：本质上是一种叫做语义网络（semantic network）的知识库，即具有有向图结构的一个知识库。知识图谱是由实体、关系和属性组成的一种数据结构。

过拟合（Over Fitting）：是指训练误差和测试误差之间的差距太大。换句换说，就是模型复杂度高于实际问题，模型在训练集上表现很好，但在测试集上却表现很差。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请的方案，利用自然语言处理技术，将多媒体召回的任务转化为文本生成任务，以提升多媒体的召回准确性。

图1是根据本申请一实施例示出的本申请应用场景的示意图，如图1所示，该应用场景包括服务器120，服务器120可以是物理服务器，也可以是云服务器，在此不进行具体限定。

该服务器120可以按照本申请提供的召回模型的训练方法对召回模型进行训练，训练过程包括：步骤S1，通过多个第一文本对，对召回模型进行预训练；步骤S2，通过多个第二文本对，对预训练后的召回模型进行微调训练。基于微调训练完成的召回模型，可以执行步骤S3，调用召回模型，以对多媒体库中的各多媒体进行召回处理，即通过召回模型根据多媒体对应的资源标识确定多媒体对应的召回结果，并将多媒体的资源标识与多媒体对应的召回结果关联存储于召回数据集中。多媒体对应的召回结果指示了与多媒体相关的相关多媒体。在具体实施例中，步骤S3可以离线执行。

基于召回数据集，服务器120可以面向终端提供搜索召回服务。在此种情况下，该应用场景还包括终端110，终端110可以是智能手机、平板电脑、笔记本电脑、台式电脑、车载终端、智能电视等，在此不进行具体限定。

终端110通过有线或者无线网络与服务器120通信连接，服务器120按照如下的过程进行搜索召回：步骤S41，接收多媒体搜索请求；步骤S42，匹配第二多媒体；具体的，终端110发送的多媒体搜索请求中包括搜索关键词，通过搜索关键词与多媒体库中各多媒体的描述信息进行匹配，确定与搜索关键词相匹配的第二多媒体；步骤S43，确定第二多媒体对应的召回结果；具体从召回数据集中获取第二多媒体对应的召回结果；步骤S44，发送第二多媒体和第二多媒体对应的召回结果。

在一些实施例中，召回模型的训练、调用召回模型确定各多媒体的召回结果，以及面向终端提供搜索召回服务可以是由同一电子设备执行，例如均由服务器120执行，也可以由不同的电子设备执行，在此不进行具体限定。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2是根据本申请的一个实施例示出的召回模型的训练方法的流程图，该方法可以由具备处理能力的电子设备执行，电子设备例如服务器，在此不进行具体限定。参照图2所示，该方法至少包括步骤210至步骤240，详细介绍如下：

步骤210，获取多个第一文本对，第一文本对包括第一提问文本和第一回答文本，第一提问文本是根据多媒体的描述信息生成的，且以多媒体的资源标识为提问目标的文本，第一回答文本是第一提问文本提问所针对的资源标识。

第一文本对是指用于对召回模型进行预训练的文本对。将第一文本对中表示问题的提问文本称为第一提问文本，将第一文本对中表示对问题进行回答的回答文本称为第一回答文本。

多媒体可以是视频（例如长视频、中长视频等）、音频、音视频等，例如可以是电视剧、记录片、电影、综艺、动漫、动画片等视频。多媒体的描述信息用于指示多媒体的基本属性，多媒体的基本属性可以是多媒体名称（例如电视剧名称、纪录片名称、电影名称、动漫名称等）、上映时间、语言、编剧、导演、简介、主演、类型等。

在一些实施例中，多媒体的描述信息可以以知识图谱（Knowledge Graph）的形式存储，即通过有向图结构来呈现多媒体的描述信息，以陈X令电影为例，该多媒体的描述信息的架构（schema）可以如下所示：

{

"channel": "movie",

"alias": [

"陈X令番外电影"

],

"year": "2019",

"area": [

"A区"

],

"language": [

"普通话"

],

"summary": "靠近岐山，有一座曾被称作“小不夜天城”的扶风城.....二人最终解开谜团，擒住了幕后黑手，还百姓一个太平世间。",

"produce": [

"贵州XX传媒有限公司",

"广州YY传媒有限公司"

],

"series_name": "陈X令",

"kgid": "kg_41753519",

"serial_version": "0",

"kgid_name": "陈X令之生魂",

"english_title": "The Living Dead",

"publish_time_in_source": "2020-06-27 00:00:00",

"season_num": "",

"entity_type": "movie",

"actors": [

{

"id": "151110",

"name": "于XX",

"type": "leading"

},

{

"id": "8253725",

"name": "郑XX",

"type": "leading"

},

{

"id": "1541022",

"name": "王XX",

"type": "leading"

}。

由上可以看出，在该陈X令电影这一多媒体对应的schema中，通过描述字段（一个描述字段用于表示一个基本属性）、描述字段的值的方式来表示不同类型的描述信息，描述字段例如表示上映时间的描述字段“year”、表示简介的描述字段“summary”、表示演员的描述字段“actors”等。在其他实施例中，多媒体的描述信息中还可以包括比上述列举的更多或者更少的描述字段，在此不进行具体限定。

资源标识是指用于唯一标识多媒体的文本字符串，资源标识可以是多媒体的内容标识符（ContentIdentification，CID）。多媒体的内容标识符是通过将多媒体的内容进行加密处理（例如加密哈希处理）得到的，内容标识符相当于是多媒体的“内容指纹”。

第一提问文本以多媒体的资源标识为提问目标，即第一提问文本是为了问出多媒体的资源标识。例如第一提问文本可以是：XX的CID是？该第一提问文本中的“XX”可以是用于限定多媒体的至少一个限定词，例如，“XX”可以是多媒体名称、主演、上映时间、编剧、导演、类型等基本属性。

在一些实施例中，可以按照如下的步骤A1~步骤A3确定各第一文本对中的第一提问文本和第一回答文本：

步骤A1，获取多媒体的描述信息和多媒体对应的资源标识。

步骤A2，根据描述信息中至少一个描述字段的值，生成以多媒体的资源标识为提问目标的第一提问文本。

如上所描述，多媒体的描述信息中的一个描述字段用于表示一种基本属性，描述信息中一个描述字段的值即表示多媒体在对应属性下的属性内容，在步骤A2中，通过描述信息中至少一个描述字段的值来限定多媒体，并以此为基础生成以多媒体的资源标识为提问目标的第一提问文本，例如第一提问文本可以是：陈X令番外电影对应的CID是？在该第一提问文本中，“陈X令番外电影”即为表示电影名称的描述字段的值。

在一些实施例中，步骤A2，包括如下的步骤B1至步骤B3，详细介绍如下：

步骤B1，获取第一提问模板，第一提问模板以资源标识为提问目标，第一提问模板指示了至少一个描述字段。

在本申请中，将用于生成第一提问文本的提问模板称为第一提问模板，该第一提问模板可以是预先设定的，第一提问模板的数量不限，为保证所生成第一提问文本的丰富性，第一提问模板可以是多个。

第一提问模板指示了第一提问文本中的公共提问内容，公共提问内容例如“对应的CID是”，进一步的，第一提问模板还指示了用于限定多媒体的至少一个描述字段，例如，第一提问模板所指示用于限定多媒体的描述字段可以是表示多媒体名称的描述字段、表示多媒体对应的主演的描述字段、表示多媒体对应的导演的描述字段等。不同的第一提问模板中的公共提问内容可以是相同的，而所指示的描述字段不同，这样，基于同一多媒体的描述信息，利用不同的第一提问模板可以生成多个第一提问文本。

步骤B2，从多媒体的描述信息中获取第一提问模板所指示的各描述字段的值。

基于第一提问模板，可以从多媒体库中各多媒体的描述信息中获取第一提问模板所指示各描述字段的值，例如，若第一提问模板指示的描述字段包括表示主演的描述字段，则对应从多媒体的描述信息中获取表示主演的描述字段的值，该值即表示了多媒体对应的主演。

步骤B3，将所获取的描述字段的值与第一提问模板进行组合，获得第一提问文本。

在步骤B3中，将所获取的描述字段的值填充到第一提问模板中的描述字段所在的位置，对应得到第一提问文本。

举例来说，第一提问模板可以是：[描述字段I]主演的[描述字段II]对应的CID是？其中，描述字段I是指表示主演的描述字段，描述字段II是指表示多媒体名称的描述字段。基于该第一提问模板，可以生成如下的第一提问文本：刘XX主演的YY地久对应的CID是？

又例如第一提问模板可以是：[描述字段III]导演的[描述字段II]对应的CID是？其中，描述字段III是指表示导演的描述字段。基于该第一提问模板，可以生成如下的第一提问文本：张XX导演的ZZZ对应的CID是？

值得一提的是，以上所列举的第一提问模板仅仅是示例性举例，不能认为是对本申请使用范围的限定，在具体实施例中，为了丰富第一提问文本的形式，还可以设定更多的第一提问模板。

步骤A3，将多媒体的资源标识作为第一提问文本对应的第一回答文本。

例如，针对第一提问文本：张XX导演的ZZZ对应的CID是？该第一提问文本对应的第一回答文本即为张XX导演的ZZZ这一多媒体对应的资源标识，例如为：klv6811ljzbhs8k。

又例如，第一提问文本：刘XX主演的YYYY对应的CID是？对应的第一回答文本为：mzc0020035l5vcf；“mzc0020035l5vcf”即为刘XX主演的YYYY这一多媒体的资源标识。

在一些实施例中，针对第一提问文本提问目标的数量不同，将第一提问模板可以分为主需场景模板和意图场景模板，其中，主需场景模板针对的提问目标为一个，即其是以某一个多媒体的资源标识作为提问目标的，意图场景模板是以至少两个多媒体的资源标识作为提问目标的，也可以理解为，主需场景模板中的描述字段所限定的多媒体是一个，意图场景模板中的描述字段所限定的多媒体为至少两个。

举例来说，上文中，“刘XX主演的YYYY对应的CID是？”、“张XX导演的ZZZ对应的CID是？”这两个第一提问文本对应的第一提问模板可以视为主需场景模板。

意图场景模板例如：[描述字段IV]电影系列对应的CID是？描述字段IV是指表示多媒体所属系列的系列名称的描述字段，基于该意图场景模板，可以生成如下的第一提问文本：陈X令电影系列对应的CID是？该第一提问文本对应的第一回答文本对应为：mzc00200lpxf8uq。

针对多媒体库中的每一多媒体，可以对应利用多媒体的描述信息按照如上的过程针对每一多媒体生成多个第一文本对。

步骤220，根据多个第一文本对中的第一提问文本和第一回答文本对召回模型进行预训练。

召回模型是通过神经网络构建的序列到序列的模型，即召回模型可以将输入序列映射到输出序列，在本申请中，在预训练过程中，召回模型的输入序列为第一提问文本，输出序列为表示多媒体的资源标识的回答文本。

在预训练过程中，将第一提问文本输入到召回模型中，由召回模型对第一提问文本进行语义编码，之后根据语义编码结果进行解码输出预测的多媒体的资源标识；其后，根据预测输出的多媒体的资源标识和第一提问文本对应的第一回答文本中的资源标识计算第一损失，进而根据第一损失反向调整召回模型的权重参数。

在一些实施例中，可以预先设定预训练结束条件，预训练结束条件可以是预训练的迭代次数达到第一次数阈值，或者是预训练阶段的损失函数收敛等，在此不进行具体限定。在预训练过程中，若确定达到预训练结束条件，则停止预训练。

由于第一提问文本是根据多媒体的描述信息生成的，第一回答文本为多媒体的资源标识，通过第一提问文本和第一回答文本对召回模型进行预训练，可以使召回模型学习到多媒体的资源标识的特征表征，即学习到多媒体的资源标识与多媒体的描述信息之间的关联关系，使召回模型对不同资源标识的多媒体对应的描述信息进行感知和记忆，进而，可以通过该多媒体的描述信息来描述多媒体的资源标识。

步骤230，获取多个第二文本对，第二文本对包括第二提问文本和第二回答文本，第二提问文本是以多媒体对应的相关多媒体的资源标识为提问目标的文本，第二回答文本是第二提问文本提问针对的相关多媒体的资源标识。

第二文本对是指用于对召回模型进行微调训练的文本对，将第二文本对中表示提问的提问文本称为第二提问文本，将第二文本对中表示回答的回答文本称为第二回答文本。

一多媒体对应的相关多媒体是指与该多媒体相似度较高（例如内容相似度较高、类型相同等）的多媒体，或者与该多媒体的内容具有关联性的多媒体，或者与多媒体A均是用户感兴趣程度较高的多媒体，或者是指与多媒体A均是用户关注可能性较高的多媒体。

第二提问文本以多媒体对应的相关多媒体的资源标识为提问目标，即第二提问文本是为了问出多媒体所对应相关多媒体的资源标识。在一些实施例中，第二提问文本指示了作为参考的多媒体；例如，若第二提问文本是以多媒体A对应的相关多媒体的资源标识为提问目标，则作为参考的多媒体为多媒体A。在一些实施例中，第二提问文本中可以通过作为参考的多媒体的资源标识来指示作为参考的多媒体。举例来说，第二提问文本可以是：搜索CID为:mzc002000mqs1cp的用户也倾向于点击的CID是？该第二提问文本中“mzc002000mqs1cp”这一资源标识即用于限定作为参考的多媒体，该第二提问文本是为了问出资源标识为“mzc002000mqs1cp”这一多媒体对应的相关多媒体的资源标识。

在一些实施例中，可以按照如下的步骤C1~步骤C3确定第二文本对中的第二提问文本和第二回答文本，详细介绍如下：

步骤C1，获取多媒体反馈数据，多媒体反馈数据指示了在设定时长内被触发反馈操作的至少两个多媒体。

反馈操作可以是点击操作、点赞操作、收藏操作、转发操作等，在此不进行具体限定。在一些实施例中，可以在用户界面呈现多媒体的封面后，采集客户端的针对多媒体的封面的操作日志，该操作日志指示了用户对于多媒体的封面触发的反馈操作，之后，根据在一段时间内的操作日志来确定在设定时长内被触发反馈操作的至少两个多媒体。值得一提的是，在需要采集客户端针对多媒体的封面的操作日志的情况下，需要先获得用户许可或者同意，并且，针对操作日志的采集、使用和处理需要遵循相关国家和地区的相关法律法规和标准。

在一些实施例中，可以是在用户搜索的多媒体的场景下，基于匹配搜索到的多媒体（为便于区分，将搜索到的多媒体称为第三多媒体），进一步从多媒体库匹配与第三多媒体相似度较高的至少一个第四多媒体，并将第三多媒体和至少一个第四多媒体推流到搜索的发起方，以在搜索结果显示页面中显示第三多媒体和至少一个第四多媒体。其后，可以通过从客户端采集的操作日志确定用户在点击第三多媒体后设定时长内点击的其他多媒体。在搜索的场景下，对于用户来说，其最关注和感兴趣的是与搜索词相匹配的第三多媒体，若用户还点击了搜索结果显示页面中显示的第四多媒体，表明用户也关注被触发点击行为的第四多媒体。在此种情况下，多媒体反馈数据即为在搜索结果显示页面的多项点击操作日志，多媒体反馈数据对应反映了在设定时长内被触发点击操作的至少两个多媒体。

步骤C2，根据至少两个多媒体中的第一多媒体对应的资源标识，生成以第一多媒体对应的相关多媒体的资源标识为提问目标的第二提问文本；第一多媒体对应的相关多媒体包括至少两个多媒体中除第一多媒体外的至少一个多媒体。

换言之，在步骤C2中，将多媒体反馈数据所指示在设定时长内被触发反馈操作的至少两个多媒体中的一个多媒体视为第一多媒体，该至少两个多媒体中除第一多媒体外的其他多媒体被视为第一多媒体对应的相关多媒体。

在第二提问文本中，以第一多媒体对应的资源标识来表征或者限定第一多媒体，并以此为基础，以第一多媒体对应的相关多媒体的资源标识作为提问目标。例如，第二提问文本可以是：对CID为XX感兴趣的用户也感兴趣的多媒体的CID是？该第二提问文本中的“XX”是指第一多媒体的CID。

在搜索的场景下，即多媒体反馈数据为在搜索结果显示页面的多项点击操作日志的情况下，可以将匹配搜索到的第三多媒体作为第一多媒体，对应的，将点击操作日志所指示被点击的第四多媒体作为第三多媒体的相关多媒体。

在一些实施例中，步骤C1，包括如下的步骤D1和步骤D2，详细介绍如下：步骤D1，获取第二提问模板，第二提问模板以相关多媒体的资源标识为提问目标。

第二提问模板是指为第二提问文本设定的提问模板。该第二提问模板可以是预先设定的，可以是一个也可以是多个。同理，该第二提问模板指示了第二提问文本中的公共提问内容，即若多个第二提问文本是按照同一第二提问模板生成的，则该多个第二提问文本中的公共提问内容是相同的。第二提问模板还指示了作为参考的多媒体的资源标识在第二提问文本中的位置，若一第二提示文本是以多媒体A对应的相关多媒体的资源标识为提问目标，则作为参考的是多媒体A的资源标识。

第二提问模板可以是：对CID为XX感兴趣的用户也感兴趣的多媒体的CID是？又例如，第二提问模板可以是：搜索CID：XX的用户也倾向于点击的CID是？又例如，第二提问模板可以是：关注CID：XX的用户也关注的CID是？以上所示的第二提问模板中“XX”所在的位置即为作为参考的多媒体的资源标识的位置。当然，以上仅仅是对第二提问模板的示例性举例，不能认为是对本申请使用范围的限制。

步骤D2，将至少两个多媒体中的第一多媒体对应的资源标识与第二提问模板进行组合，得到第二提问文本。

如上所描述，第二提问模板指示了作为参考的多媒体的资源标识在第二提问文本中的位置，因此，对应将第一多媒体对应的资源标识作为参考，填充进第二提问模板中对应的位置，即得到第二提问文本。

步骤C3，将第一多媒体对应的相关多媒体的资源标识作为第二提问文本对应的第二回答文本。

根据多媒体反馈数据可以对应确定第一多媒体，以及将多媒体反馈数据所指示被触发反馈操作的至少两个多媒体中除第一多媒体外的至少一个其他多媒体作为第一多媒体的相关多媒体，基于存储的各多媒体的资源标识，可以对应确定第一多媒体对应的相关多媒体的资源标识，由此第二提问文本对应的第二回答文本对应确定。

按照如上的步骤C1~步骤C3，可以确定如下的第二问答对，其中的第二提问文本为：搜索cid:mzc002000mqs1cp的用户也倾向于点击的CID是?第二回答文本为：mzc0020028aguo0。第二提问文本中“mzc002000mqs1cp”即为作为参考的多媒体的资源标识（即第一多媒体的资源标识）；第二回答文本中“mzc0020028aguo0”即为第一多媒体对应的相关多媒体的资源标识。

在一些实施例中，为了保证第二文本对的数量，可以利用在多个时间段（例如在过去30天中的多个时间段）的多媒体反馈数据来确定第二文本对，以保证在微调训练阶段有足够的训练样本。

步骤240，根据多个第二文本对中的第二提问文本和第二回答文本对预训练后的召回模型进行微调训练。

在微调训练过程中，预训练后的召回模型的输入序列为第二提问文本，输出序列为表示多媒体对应的相关多媒体的资源标识的回答文本。在微调训练过程中，将第二提问文本输入到预训练后的召回模型中，由预训练后的召回模型对第二提问文本进行语义编码，之后根据语义编码结果进行解码输出预测的相关多媒体的资源标识；其后，根据预测输出的相关多媒体的资源标识和第二提问文本对应的第二回答文本中的资源标识计算第二损失，进而根据第二损失反向调整召回模型的权重参数。

在预训练后，召回模型学习到多媒体的资源标识与多媒体的描述信息之间的关联关系，并利用多媒体的描述信息对应的特征来构建多媒体的资源标识的特征表征。在此基础上，利用以多媒体对应的相关多媒体的资源标识为提问目标的第二提问文本和包括多媒体对应的相关多媒体的资源标识的第二回答文本对预训练后的召回模型进行微调训练，这样，可以使召回模型利用在预训练阶段学习到的多媒体的资源标识与多媒体的描述信息之间的关联关系，在微调训练阶段以多媒体的资源标识和多媒体对应的相关多媒体的资源标识为基础，学习作为参考的多媒体与多媒体对应的相关多媒体之间的特征共性，从而，在后续应用过程中，可以使召回模型根据作为参考的多媒体的资源标识，准确召回多媒体对应的相关多媒体，即准确预测多媒体对应的相关多媒体的资源标识。

在一些实施例中，在对召回模型进行预训练的基础上，为缩短训练时间，提升训练效率，在微调训练过程中，可以根据第二损失反向调整召回模型中部分网络层的权重参数，具体的，由于召回模型距离输出最近的多个网络层的参数直接与召回模型的召回任务相关，因此，可以在微调训练阶段根据第二损失反向调整召回模型中最后一层网络层（即输出层）、以及最后一层网络层之前的多个网络层的权重参数，这样，相较于调整召回模型全部网络层的权重参数，调整召回模型中部分网络层的权重参数花费的时间减少，对应可以减少微调训练的时长。通过该反向调整召回模型中最后一层网络层（即输出层）、以及最后一层网络层之前的多个网络层的权重参数，这样，不仅利用了深度神经网络强大的泛化能力，又免去了设计复杂的模型以及耗时良久的训练。

在一些实施例中，可以预先设定微调训练结束条件，微调训练训练结束条件可以是微调训练的迭代次数达到第二次数阈值，或者是微调训练阶段的损失函数收敛等，在此不进行具体限定。在微调训练过程中，若确定达到微调训练结束条件，则停止进行微调训练。

图3是根据本申请一实施例示出的对召回模型进行训练的示意图，图3中示例性示出了两个第一文本对和两个第二文本对，其中，一第一文本对中，左侧的文本为第一提问文本，右侧的文本为第一回答文本，位于同一虚线框（或者位于同一排）的左右两个文本属于同一文本对（即属于第一文本对或者属于第二文本对）。利用第一文本对对召回模型进行预训练以及利用第二文本对对预训练后的召回模型进行微调训练的过程参见上文描述，在此不再赘述。

在本申请中，先通过多个第一文本对，对召回模型进行预训练，由于第一文本对中的第一提问文本是根据多媒体的描述信息生成的，且第一提问文本以多媒体的资源标识为提问目标，第一回答文本为多媒体的资源标识，相当于通过多媒体的图谱先验知识来对召回模型进行预训练，使得召回模型对多媒体的描述信息有所感知和记忆；通过预训练，可以使召回模型学习到多媒体的资源标识与多媒体的描述信息之间的关联关系，以通过多媒体的描述信息的特征确定多媒体的资源标识的特征表征。预训练结束后，再利用以多媒体对应的相关多媒体的资源标识为提问目标的第二提问文本，和，包括多媒体对应的相关多媒体的资源标识的第二回答文本对预训练后的召回模型进行微调训练，这样，可以使召回模型利用在预训练阶段学习到的多媒体的资源标识与多媒体的描述信息之间的关联关系，在微调训练阶段以多媒体的资源标识和多媒体对应的相关多媒体的资源标识为基础，学习作为参考的多媒体与多媒体对应的相关多媒体之间的特征共性。在后续应用过程中，可以使召回模型根据作为参考的多媒体的资源标识，准确召回多媒体对应的相关多媒体，即准确预测多媒体对应的相关多媒体的资源标识。而且，通过本申请的方案，实现了将多媒体召回任务转换为文本生成任务，这样，可以不需要对多媒体中的视频帧或者音频帧进行处理，简化了多媒体召回任务，提升召回效率。

在一些实施例中，为便于构建第一文本对和第二文本对，可以对多媒体数据表进行调整，原始的多媒体数据表中包括多媒体在各个描述字段下的值，但是其中并不包括多媒体的资源标识，因此，可以在预训练之前将多媒体的资源标识添加到多媒体数据表中，并根据多媒体库中多媒体的情况下对多媒体数据表中的信息进行周期性全量更新，例如在多媒体库中新增多媒体或者减少媒体的情况下对应对多媒体数据表中的数据进行更新。之后，可以基于多媒体数据表中的数据来构建第一文本对和第二文本对。通过第一文本对对召回模型进行预训练后，可以是召回模型学习到多媒体数据表中每个资源标识的特征表征，资源标识的特征表征是通过资源标识所对应多媒体的描述信息的特征来体现的。值得一提的是，如果多媒体库中的多媒体数量较多，那么，多媒体数据表中的资源标识的数量也较多，这样，可能存在训练和线上推断速度慢，而且冷启动困难的情况，实际中发现，如果将资源标识的数量维持在百万量级，学习资源标识的特征表征是可以满足训练的时长和线上推理的速度要求的。

图4是根据本申请一实施例示出的召回模型的结构示意图，如图4所示，该召回模型包括编码器网络410和解码器网络420；其中，编码器网络410用于对输入序列进行语义编码，输出语义编码序列，解码器网络用于对编码器网络输出的语义编码序列进行解码处理，获得输出序列。具体在本申请中，在预训练阶段，输入序列为第一提问文本，输出序列为预测得到的多媒体的资源标识；在微调训练阶段，输入序列为第二提问文本，输出序列为预测得到的多媒体对应的相关多媒体的资源标识。

在一些实施例中，召回模型可以是BART（Bidirectional and Auto-RegressiveTransformers，双向自回归变换器）模型，BART模型吸收了BERT模型的双向编码和GPT模型的从左至右解码的特点，并建立在标准的序列到序列的变换器模型的基础之上，这使得BART模型比BERT模型更适合文本生成的场景；而且相较于GPT模型，也多了双向的上下文语境信息。图5示例性示出了BART模型进行编码和解码处理的示意图，如图5所示，将输入序列输入编码器网络410后，由编码器网络410对输入序列进行双向编码，输出语义编码序列，之后，由解码器网络420进行自回归解码（即从左至右单向解码），得到输出序列。在BART模型中，编码器网络的输入序列不需要与解码器网络的输出序列对齐，允许对编码器网络的输入序列进行预处理，预处理例如对输入序列中部分位置的字符替换为掩码符号，例如，图5中的输入序列中“A”之后的字符、以及“B”之后的字符均被替换为掩码符号。

BART模型采用Attention机制（注意力机制）与Transformer（变换器）模型结构。在本申请的应用场景下，考虑到多媒体库的数据量规模在百万量级以及资源消耗，召回模型中的编码器网络包括3层变换器模型中的编码器，召回模型中的解码器网络包括3层变换器模型中的解码器。图6示例性示出了变换器模型的示意图，如图6所示，变换器模型中的编码器包括多头注意力层、第一求和与归一化层、前馈神经网络层和第二求和与归一化层，并且多头注意力层与第一求和与归一化层之间建立了残差连接，以及前馈神经网络层的输入与第二求和与归一化层之间建立了残差连接。变换器模型中的解码器包括掩码多头注意力层、第三求和与归一化层、多头注意力层、第四求和与归一化层、前馈神经网络层、以及第五求和与归一化层，其中，掩码多头注意力层的输入与第三求和与归一化层建立了残差连接，多头注意力层的输入与第四求和与归一化层之间建立了残差连接，前馈神经网络层的输入与第五求和与归一化层之间建立了残差连接。

在一些实施例中，如图7所示，步骤220包括如下的步骤710~步骤740，详细介绍如下：

步骤710，由编码器网络对第一提问文本进行语义编码处理，得到第一提问文本对应的第一语义编码序列。

具体的，编码器网络可以基于注意力机制（例如多头注意机制）对第一提问文本进行语义编码，以此充分利用第一提问文本中的上下文信息，保证所得到的第一语义编码序列的准确性。

步骤720，由解码器网络对第一语义编码序列进行解码处理，得到第一提问文本对应的预测回答文本。

解码器网络解码输出的预测回答文本包括预测获得的第一提问文本提问针对的多媒体的资源标识。

步骤730，根据第一提问文本对应的预测回答文本和对应的第一回答文本，计算第一损失。

可以预先设定召回模型在预训练阶段的损失函数，为便于区分，将为召回模型在预训练阶段设定的损失函数称为第一损失函数。第一损失函数可以是交叉熵损失函数，绝对值损失函数、均方差损失函数等，在此不进行具体限定。在此基础上，可以将第一提问文本对应的预测回答文本和对应的第一回答文本代入第一损失函数，可以计算得到第一损失，该第一损失反映了第一提问文本对应的预测回答文本与第一提问文本对应的第一回答文本之间的差异。

在一具体实施例中，第一损失函数可以是交叉熵损失函数，交叉熵损失函数的表达式如下的公式1所示：

；（公式1）

其中K表示所有分类的数量。表示样本的真实标签，/>表示属于类别i的预测概率，若类别i是指表示预测的回答文本与实际的回答文本相同的类别，则/>表示针对第一提问文本所预测到的预测回答文本与该第一提问文本对应的第一回答文本相同的概率。其中，/>可通过softmax函数按照如下的公式2来确定：

；（公式2）

其中，表示预测回答文本对应于类别j的置信度分数。

步骤740，根据第一损失反向调整编码器网络和解码器网络的权重参数。

在具体实施例中，可以按照梯度下降法根据第一损失调整编码器网络和解码器网络的权重参数，以最小化第一损失函数。

针对每一第一样本对，均按照步骤710-步骤740所示的过程对召回模型迭代进行预训练，直至达到预训练结束条件。

在一些实施例中，如图8所示，步骤240如下的步骤810~步骤840，详细介绍如下：

步骤810，由预训练后的编码器网络对第二提问文本进行语义编码处理，得到第二提问文本对应的第二语义编码序列。

步骤820，由预训练后的解码器网络对第二语义编码序列进行解码处理，得到第二提问文本对应的预测回答文本。

第二提问文本对应的预测回答文本包括预测到的第二提问文本所针对的相关多媒体的资源标识。

步骤830，根据第二提问文本对应的预测回答文本和对应的第二回答文本，计算第二损失。

同理，可以预先设定召回模型在微调训练阶段的第二损失函数，第二损失函数可根据实际需要设定，在此不进行具体限定。之后，将第二提问文本对应的预测回答文本和对应的第二回答文本代入第二损失函数，计算得到第二损失。该第二损失反映了第二提问文本对应的预测回答文本和对应的第二回答文本之间的差异。

在一些实施例中，为缓解过拟合的问题，第二损失函数可以是带有标签平滑的交叉熵损失函数，带有标签平滑的交叉熵损失函数与公式1相同，但是，带有标签平滑的交叉熵损失函数中的按照如下的公式3确定：

；（公式3）

其中，K表示多分类的类别总数，是一个较小的超参数，/>可预先设定；y表示正样本，即若以第一文本对中的第一回答文本是第一提问文本的答案，则该样本对应的。基于带有标签平滑的交叉熵损失函数，可以通过抑制正负样本输出差值，使得召回模型有更强的泛化能力。

标签平滑(label smoothing)是一种正则化技术，用来缓解过拟合。在标签平滑的交叉熵损失函数中，将真实标签的概率分布进行平滑处理，使得模型在训练时不会过于自信地预测某个类别，从而减少过拟合的风险。具体来说，标签平滑的交叉熵损失函数可以看作是将真实标签的概率分布从一个one-hot向量变成了一个平滑的概率分布。这个平滑的概率分布会使得召回模型在训练时更加关注数据的分布情况，而不是过于关注某个具体的类别。这样可以使得模型更加鲁棒，减少过拟合的风险。此外，标签平滑的交叉熵损失函数还可以起到一定的正则化作用。在标签平滑的交叉熵损失函数中，平滑的概率分布会使得模型在训练时更加平滑，从而减少模型的复杂度，进而减少过拟合的风险。

步骤840，根据第二损失反向调整预训练后召回模型中部分网络层的权重参数。

在一些实施例中，可以按照梯度下降法根据第二损失调整召回模型中部分网络层的权重参数，以最小化第二损失函数。在一些实施例中，在步骤840中可以仅调整召回模型中解码器网络的权重参数，或者调整解码器网络中输出层以及输出层之前设定数量个网络层的权重参数，这样，可以减少参数调整量，缩短召回模型的训练时长。

针对每一第二样本对，均按照步骤810-步骤840所示的过程对召回模型迭代进行微调训练，直至达到微调训练结束条件。在结束微调训练后，该召回模型可以用于进行线上应用，以基于多媒体的资源标识准确地为多媒体召回对应的相关多媒体。

图9是根据本申请一实施例示出的召回方法的流程图，该召回方法可以由服务器等电子设备执行，如图9所示，包括如下的步骤910至步骤940，详细介绍如下：

步骤910，获取目标多媒体的资源标识。

目标多媒体是指待确定召回结果的多媒体。在一些实施例中，可以将多媒体库中的每一多媒体分别作为目标多媒体，以按照本申请的方法确定多媒体库中每一多媒体对应的召回结果。

步骤920，根据目标多媒体的资源标识生成以相关资源标识为提问目标的目标提问文本，相关资源标识是指目标多媒体对应的相关多媒体的资源标识。

在一些实施例中，可以根据第二提问模板和目标多媒体的资源标识生成目标提问文本。具体的，将目标多媒体的资源标识填充到第二提问模板中表示作为参考的多媒体的资源标识的位置，即得到目标提问文本。第二提问模板的形式可以如上文描述，在此不再赘述。

步骤930，由召回模型根据目标提问文本，生成目标提问文本对应的目标回答文本，目标回答文本包括目标多媒体对应的相关多媒体的资源标识；召回模型是按照如上任一实施例中的召回模型的训练方法训练得到的。

在步骤930中，将目标提问文本输入召回模型的编码器网络，由编码器网络对目标提问文本进行语义编码处理，获得目标提问文本对应的语义编码序列，之后，由召回模型中的解码器网络对目标提问文本对应的语义编码序列进行解码处理，获得目标回答文本。

步骤940，根据目标回答文本中的资源标识确定目标多媒体的召回结果。

基于多媒体与资源标识之间的对应关系，可以对应确定目标回答文本中的资源标识对应的多媒体，目标回答文本中的资源标识所对应的多媒体即为目标多媒体对应的相关多媒体，在步骤940中，对应将基于目标回答文本中的资源标识确定的目标多媒体对应的相关多媒体作为目标多媒体的召回结果。

在本申请中，将针对多媒体的召回任务转化为文本生成任务，即针对待召回的目标多媒体，根据目标多媒体的资源标识，生成以相关资源标识为提问目标的目标提问文本，之后，调用训练后的召回模型来根据目标提问文本生成针对目标提问文本的目标回答文本，由于目标提问文本是以相关资源标识为提问目标，训练后的召回模型生成的目标回答文本包括目标多媒体对应的相关多媒体对应的资源标识，这样，可以对应根据目标多媒体对应的相关多媒体对应的资源标识确定目标多媒体对应的相关多媒体，实现召回目标多媒体对应的相关多媒体。

由于召回模型是通过多个第一文本对进行预训练和通过多个第二文本对进行微调训练得到的，该召回模型准确学习到资源标识与多媒体的描述信息之间的关联关系，实现通过多媒体的描述信息的特征作为资源标识的特征表征，这样，在将召回模型用于多媒体召回的情况下，可以基于学习到资源标识与多媒体的描述信息之间的关联关系，来召回与资源标识的特征表征（即与多媒体的描述信息的特征）相关性高的多媒体，由此，可以保证所召回的多媒体与作为参考的目标多媒体之间的相关性，提升多媒体的召回准确性。

在一些实施例中，步骤940之后，该方法还包括：将目标多媒体的资源标识与目标多媒体的召回结果关联存储于召回数据集中。

在一些实施例中，如图10所示，该方法包括：

步骤1010，获取多媒体搜索请求；多媒体搜索请求包括搜索关键词。

搜索关键词可以是用于限定待搜索多媒体的词，例如限定主演、多媒体名称、导演、编剧、类型等词。

步骤1020，根据搜索关键词进行多媒体匹配，确定与搜索关键词相匹配的第二多媒体。

在一些实施例中，可以基于维护的多媒体数据表来进行多媒体匹配，该多媒体数据表至少包括多媒体在各描述字段下的值，即多媒体数据表包括各多媒体的描述信息。在此基础上，可以将搜索关键词与多媒体数据表中多媒体的描述信息进行匹配，确定与搜索关键词相匹配的多媒体，即第二多媒体。值得一提的是，针对一多媒体搜索请求中的搜索关键词所匹配确定的第二多媒体可以是一个也可以是多个。

步骤1030，从召回数据集中获取第二多媒体对应的召回结果。

召回数据集中存储了多个多媒体对应的召回结果，因此，在确定第一媒体的基础上，可以根据第一多媒体的资源标识，从召回数据集中获取第一多媒体对应的召回结果。

在一些实施例中，如上的步骤910-步骤940、以及将多媒体的召回结果存储到召回数据集的过程可以在离线状态下进行，这样，在在线提供搜索召回服务的过程中，不需要在确定第二多媒体的情况下才调用召回模型以确定第二多媒体的召回结果，而是在离线状态下预先调用召回模型确定各多媒体的召回结果，并存储，这样，在在线提供搜索召回服务的过程中可以直接从召回数据集中读取多媒体的召回结果，由此，可以提升搜索召回服务的在线服务效率和缩短响应时长。

在另一些实施例中，如果服务器的算力足够能够满足响应时长要求，也可以在匹配确定第二多媒体的情况下，将第二多媒体作为目标多媒体，然后按照步骤920-步骤940的过程确定第二多媒体的召回结果。

步骤1040，向多媒体搜索请求的发起方发送第二多媒体和第二多媒体对应的召回结果。

基于图10对应的实施例，通过发起一次多媒体搜索请求，不仅向多媒体搜素请求的发起方返回基于搜索关键词匹配到的第二多媒体，而且，返回第二多媒体对应的相关多媒体，这样，可以避免在用户需要搜索与第二多媒体相似、或者与第二多媒体同类型的多媒体的情况下，再次发起多媒体搜素请求，由此，减少终端与服务器之间的交互次数，可以提升用户体验。

在一些实施例中，可以预先提示用户是否需要在多媒体搜索的场景下，在搜索结果中加入待搜索的第二多媒体对应的相关多媒体，在获得用户的许可或同意的情况下，按照图10对应的实施例，在搜索多媒体的情况下，向多媒体搜索请求的发起方发送第二多媒体和第二多媒体对应的召回结果；如果用户不同意在搜索结果中加入待搜索的第二多媒体对应的相关多媒体，则向多媒体搜索请求的发起方发送匹配确定的第二多媒体，而不需要发送第二多媒体的召回结果。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的方法。对于本申请装置实施例中未披露的细节，请参照本申请上述方法实施例。

图11是根据本申请一实施例示出的召回模型的训练装置的框图，该召回模型的训练装置可以配置于电子设备，用于实现本申请提供的召回模型的训练方法。如图11所示，该召回模型的训练装置包括：第一获取模块1110，用于获取多个第一文本对，第一文本对包括第一提问文本和第一回答文本，第一提问文本是根据多媒体的描述信息生成的，且以多媒体的资源标识为提问目标的文本，第一回答文本是第一提问文本提问所针对的资源标识；预训练模块1120，用于根据多个第一文本对中的第一提问文本和第一回答文本对召回模型进行预训练；第二获取模块1130，用于获取多个第二文本对，第二文本对包括第二提问文本和第二回答文本，第二提问文本是以多媒体对应的相关多媒体的资源标识为提问目标的文本，第二回答文本是第二提问文本提问针对的相关多媒体的资源标识；微调训练模块1140，用于根据多个第二文本对中的第二提问文本和第二回答文本对预训练后的召回模型进行微调训练。

在一些实施例中，召回模型包括编码器网络和解码器网络；预训练模块1120，包括：第一语义编码单元，用于由编码器网络对第一提问文本进行语义编码处理，得到第一提问文本对应的第一语义编码序列；第一解码单元，用于由解码器网络对第一语义编码序列进行解码处理，得到第一提问文本对应的预测回答文本；第一损失确定单元，用于根据第一提问文本对应的预测回答文本和对应的第一回答文本，计算第一损失；第一调整单元，用于根据第一损失反向调整编码器网络和解码器网络的权重参数。

在一些实施例中，微调训练模块1140，包括：第二语义编码单元，用于由预训练后的编码器网络对第二提问文本进行语义编码处理，得到第二提问文本对应的第二语义编码序列；第二解码单元，用于由预训练后的解码器网络对第二语义编码序列进行解码处理，得到第二提问文本对应的预测回答文本；第二损失确定单元，用于根据第二提问文本对应的预测回答文本和对应的第二回答文本，计算第二损失；第二调整单元，用于根据第二损失反向调整预训练后召回模型中部分网络层的权重参数。

在一些实施例中，召回模型的训练装置，还包括：第四获取模块，获取多媒体的描述信息和多媒体对应的资源标识；第一提问文本确定模块，用于根据描述信息中至少一个描述字段的值，生成以多媒体的资源标识为提问目标的第一提问文本；第一回答文本确定模块，用于将多媒体的资源标识作为第一提问文本对应的第一回答文本。

在一些实施例中，第一提问文本确定模块，包括：第一提问模板获取单元，用于获取第一提问模板，第一提问模板以资源标识为提问目标，第一提问模板指示了至少一个描述字段；第一获取单元，用于从多媒体的描述信息中获取第一提问模板所指示的各描述字段的值；第一组合单元，用于将所获取的描述字段的值与第一提问模板进行组合，获得第一提问文本。

在一些实施例中，召回模型的训练装置，还包括：第二获取单元，用于获取多媒体反馈数据，多媒体反馈数据指示了在设定时长内被触发反馈操作的至少两个多媒体；第二提问文本确定单元，用于根据至少两个多媒体中的第一多媒体对应的资源标识，生成以第一多媒体对应的相关多媒体的资源标识为提问目标的第二提问文本；第一多媒体对应的相关多媒体包括至少两个多媒体中除第一多媒体外的至少一个多媒体；第二回答文本确定单元，用于将第一多媒体对应的相关多媒体的资源标识作为第二提问文本对应的第二回答文本。

在一些实施例中，第二提问文本确定单元，包括：第二提问模板获取单元，用于获取第二提问模板，第二提问模板以相关多媒体的资源标识为提问目标；第二组合单元，用于将至少两个多媒体中的第一多媒体对应的资源标识与第二提问模板进行组合，得到第二提问文本。

图12是根据本申请一实施例示出的召回装置的框图，该召回装置可以配置于电子设备，用于实现本申请提供的召回方法。如图12所示，该召回装置，包括：第三获取模块1210，用于获取目标多媒体的资源标识。目标提问文本生成模块1220，用于根据目标多媒体的资源标识生成以相关资源标识为提问目标的目标提问文本，相关资源标识是指目标多媒体对应的相关多媒体的资源标识。目标回答文本确定模块1230，用于由召回模型根据目标提问文本，生成目标提问文本对应的目标回答文本，目标回答文本包括目标多媒体对应的相关多媒体的资源标识；召回模型是按照上任一实施例中的召回模型的训练方法训练得到的。召回结果确定模块1240，用于根据目标回答文本中的资源标识确定目标多媒体的召回结果。

在一些实施例中，召回装置还包括：关联存储模块，用于将目标多媒体的资源标识与目标多媒体的召回结果关联存储于召回数据集中。

在一些实施例中，召回装置还包括：第五获取模块，用于获取多媒体搜索请求；多媒体搜索请求包括搜索关键词；匹配模块，用于根据搜索关键词进行多媒体匹配，确定与搜索关键词相匹配的第二多媒体；召回结果获取模块，用于从召回数据集中获取第二多媒体对应的召回结果；发送模块，用于向多媒体搜索请求的发起方发送第二多媒体和第二多媒体对应的召回结果。

图13示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是，图13示出的电子设备的计算机系统1300仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。该电子设备可以用于执行本申请提供的召回模型的训练方法，也可以用于执行本申请提供的召回方法。

如图13所示，计算机系统1300包括中央处理单元（Central Processing Unit，CPU）1301，其可以根据存储在只读存储器（Read-Only Memory，ROM）1302中的程序或者从存储部分1308加载到随机访问存储器（Random Access Memory，RAM）1303中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM 1303中，还存储有系统操作所需的各种程序和数据。CPU1301、ROM1302以及RAM 1303通过总线1304彼此相连。输入/输出（Input/Output，I/O）接口1305也连接至总线1304。

以下部件连接至I/O接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分1307；包括硬盘等的存储部分1308；以及包括诸如LAN（Local AreaNetwork，局域网）卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入存储部分1308。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1309从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元（CPU）1301执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令，当该计算机可读存储指令被处理器执行时，实现上述任一实施例中的召回模型的训练方法，或者召回方法。

根据本申请实施例的一个方面，提供了计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一实施例中的召回模型的训练方法，或者召回方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种召回模型的训练方法，其特征在于，包括：

获取多个第一文本对，所述第一文本对包括第一提问文本和第一回答文本，所述第一提问文本是根据多媒体的描述信息生成的，且以多媒体的资源标识为提问目标的文本，所述第一回答文本是所述第一提问文本提问所针对的资源标识；

根据多个第一文本对中的第一提问文本和第一回答文本对召回模型进行预训练；

获取多个第二文本对，所述第二文本对包括第二提问文本和第二回答文本，所述第二提问文本是以多媒体对应的相关多媒体的资源标识为提问目标的文本，所述第二回答文本是所述第二提问文本提问针对的相关多媒体的资源标识；

根据多个第二文本对中的第二提问文本和第二回答文本对预训练后的召回模型进行微调训练。

2.根据权利要求1所述的方法，其特征在于，所述召回模型包括编码器网络和解码器网络；

所述根据多个第一文本对中的第一提问文本和第一回答文本对召回模型进行预训练，包括：

由所述编码器网络对所述第一提问文本进行语义编码处理，得到所述第一提问文本对应的第一语义编码序列；

由所述解码器网络对所述第一语义编码序列进行解码处理，得到所述第一提问文本对应的预测回答文本；

根据所述第一提问文本对应的预测回答文本和对应的第一回答文本，计算第一损失；

根据所述第一损失反向调整所述编码器网络和所述解码器网络的权重参数。

3.根据权利要求2所述的方法，其特征在于，所述根据多个第二文本对中的第二提问文本和第二回答文本对预训练后的召回模型进行微调训练，包括：

由预训练后的编码器网络对所述第二提问文本进行语义编码处理，得到所述第二提问文本对应的第二语义编码序列；

由预训练后的解码器网络对所述第二语义编码序列进行解码处理，得到所述第二提问文本对应的预测回答文本；

根据所述第二提问文本对应的预测回答文本和对应的第二回答文本，计算第二损失；

根据所述第二损失反向调整预训练后所述召回模型中部分网络层的权重参数。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述获取多个第一文本对之前，所述方法还包括：

获取多媒体的描述信息和所述多媒体对应的资源标识；

根据所述描述信息中至少一个描述字段的值，生成以所述多媒体的资源标识为提问目标的所述第一提问文本；

将所述多媒体的资源标识作为所述第一提问文本对应的第一回答文本。

5.根据权利要求4所述的方法，其特征在于，所述根据所述描述信息中至少一个描述字段的值，生成以所述多媒体的资源标识为提问目标的所述第一提问文本，包括：

获取第一提问模板，所述第一提问模板以资源标识为提问目标，所述第一提问模板指示了至少一个描述字段；

从多媒体的描述信息中获取所述第一提问模板所指示的各描述字段的值；

将所获取的描述字段的值与所述第一提问模板进行组合，获得所述第一提问文本。

6.根据权利要求1至3中任一项所述的方法，其特征在于，所述获取多个第二文本对之前，所述方法还包括：

获取多媒体反馈数据，所述多媒体反馈数据指示了在设定时长内被触发反馈操作的至少两个多媒体；

根据所述至少两个多媒体中的第一多媒体对应的资源标识，生成以所述第一多媒体对应的相关多媒体的资源标识为提问目标的第二提问文本；所述第一多媒体对应的相关多媒体包括所述至少两个多媒体中除所述第一多媒体外的至少一个多媒体；

将所述第一多媒体对应的相关多媒体的资源标识作为所述第二提问文本对应的第二回答文本。

7.根据权利要求6所述的方法，其特征在于，所述根据所述至少两个多媒体中的第一多媒体对应的资源标识，生成以所述第一多媒体对应的相关多媒体的资源标识为提问目标的第二提问文本，包括：

获取第二提问模板，所述第二提问模板以相关多媒体的资源标识为提问目标；

将所述至少两个多媒体中的第一多媒体对应的资源标识与所述第二提问模板进行组合，得到所述第二提问文本。

8.一种召回方法，其特征在于，包括：

获取目标多媒体的资源标识；

根据所述目标多媒体的资源标识生成以相关资源标识为提问目标的目标提问文本，所述相关资源标识是指所述目标多媒体对应的相关多媒体的资源标识；

由召回模型根据所述目标提问文本，生成所述目标提问文本对应的目标回答文本，所述目标回答文本包括所述目标多媒体对应的相关多媒体的资源标识；所述召回模型是按照如权利要求1至7中任一项所述的方法训练得到的；

根据所述目标回答文本中的资源标识确定所述目标多媒体的召回结果。

9.根据权利要求8所述的方法，其特征在于，所述根据所述目标回答文本中的资源标识确定所述目标多媒体的召回结果之后，所述方法还包括：

将所述目标多媒体的资源标识与所述目标多媒体的召回结果关联存储于召回数据集中。

10.根据权利要求9所述的方法，其特征在于，所述方法包括：

获取多媒体搜索请求；所述多媒体搜索请求包括搜索关键词；

根据所述搜索关键词进行多媒体匹配，确定与所述搜索关键词相匹配的第二多媒体；

从所述召回数据集中获取所述第二多媒体对应的召回结果；

向所述多媒体搜索请求的发起方发送所述第二多媒体和所述第二多媒体对应的召回结果。

11.一种召回模型的训练装置，其特征在于，包括：

第一获取模块，用于获取多个第一文本对，所述第一文本对包括第一提问文本和第一回答文本，所述第一提问文本是根据多媒体的描述信息生成的，且以多媒体的资源标识为提问目标的文本，所述第一回答文本是所述第一提问文本提问所针对的资源标识；

预训练模块，用于根据多个第一文本对中的第一提问文本和第一回答文本对召回模型进行预训练；

第二获取模块，用于获取多个第二文本对，所述第二文本对包括第二提问文本和第二回答文本，所述第二提问文本是以多媒体对应的相关多媒体的资源标识为提问目标的文本，所述第二回答文本是所述第二提问文本提问针对的相关多媒体的资源标识；

微调训练模块，用于根据多个第二文本对中的第二提问文本和第二回答文本对预训练后的召回模型进行微调训练。

12.一种召回装置，其特征在于，包括：

第三获取模块，用于获取目标多媒体的资源标识；

目标提问文本生成模块，用于根据所述目标多媒体的资源标识生成以相关资源标识为提问目标的目标提问文本，所述相关资源标识是指所述目标多媒体对应的相关多媒体的资源标识；

目标回答文本确定模块，用于由召回模型根据所述目标提问文本，生成所述目标提问文本对应的目标回答文本，所述目标回答文本包括所述目标多媒体对应的相关多媒体的资源标识；所述召回模型是按照如权利要求1至7中任一项所述的方法训练得到的；

召回结果确定模块，用于根据所述目标回答文本中的资源标识确定所述目标多媒体的召回结果。

13.一种电子设备，其特征在于，包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1-7中任一项所述的方法，或者实现如权利要求8-10中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机可读指令，其特征在于，当所述计算机可读指令被处理器执行时，实现如权利要求1-7中任一项所述的方法，或者实现如权利要求8-10中任一项所述的方法。