CN113934870B

CN113934870B - 多媒体推荐模型的训练方法、装置及服务器

Info

Publication number: CN113934870B
Application number: CN202010676022.5A
Authority: CN
Inventors: 贺文强; 高珩; 李森栋; 温明星; 黄柏翔
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2024-05-28
Anticipated expiration: 2040-07-14
Also published as: CN113934870A

Abstract

本公开关于一种多媒体推荐模型的训练方法、装置及服务器，属于深度学习技术领域。该方法包括：获取多条反馈行为记录，任一反馈行为记录用于记录账户在接收到推荐的多媒体文件后所执行的反馈行为；基于模型训练的多个训练目标，从多条反馈行为记录中提取反馈行为的多个行为特征；基于提取到的行为特征，生成对应各训练目标的训练样本，其中，对应不同训练目标的训练样本部分相同，部分相同的训练样本通过公共特征输入层输入，其余的训练样本通过单独特征输入层输入；基于公共特征输入层输入的训练样本和单独特征输入层输入的训练样本，对多媒体推荐模型进行训练。通过多个训练目标的联合训练，节省了训练所消耗的机器资源，降低了成本。

Description

多媒体推荐模型的训练方法、装置及服务器

技术领域

本公开涉及深度学习技术领域，尤其涉及一种多媒体推荐模型的训练方法、装置及服务器。

背景技术

深度学习技术经过近几年的快速发展，在各个领域都取得了突破性的进展，被广泛应用在推荐、搜索、广告和人机交互等各类业务场景中。例如，深度学习技术应用在短视频推荐的业务场景中，为用户推荐其可能感兴趣的短视频。

在短视频推荐的业务场景中，可以基于用户对已推荐的短视频所执行的反馈行为来进行模型训练，以通过训练得到的模型向用户推荐可能使其执行该反馈行为的短视频。例如，用户可以通过转发的方式来对已推荐的短视频做出反馈，服务器可以基于用户对已推荐的短视频所执行的转发行为来进行模型训练，进而通过训练得到的模型向用户推荐其可能会转发的短视频。

在短视频推荐的业务场景中，用户可以通过点击播放、转发或下载等多种方式来对已推荐的短视频做出反馈，为保证推荐效果，通常会分别基于多种反馈行为训练得到多个模型，而多个模型分别训练需要消耗大量的机器资源，模型训练的成本较高。

发明内容

本公开实施例提供了一种多媒体推荐模型的训练方法、装置及服务器，能够降低多媒体推荐模型的训练成本。本公开的技术方案如下：

一方面，提供了一种多媒体推荐模型的训练方法，所述方法包括：

获取多条反馈行为记录，任一反馈行为记录用于记录账户在接收到推荐的多媒体文件后所执行的反馈行为；

基于模型训练的多个训练目标，从所述多条反馈行为记录中，提取反馈行为的多个行为特征；

基于提取到的行为特征，生成对应各训练目标的训练样本，其中，对应不同训练目标的训练样本部分相同，所述部分相同的训练样本通过公共特征输入层输入，其余的训练样本通过单独特征输入层输入；

基于公共特征输入层输入的训练样本和单独特征输入层输入的训练样本，对多媒体推荐模型进行训练。

在一种可能的实现方式中，所述基于公共特征输入层输入的训练样本和单独特征输入层输入的训练样本，对多媒体推荐模型进行训练，包括：

基于所述公共特征输入层的参数和各训练目标对应的网络层的参数，将所述公共特征输入层输入的训练样本以及各训练目标对应的单独特征输入层输入的训练样本进行前向传播，得到各训练目标的预测目标；

基于所述各训练目标的预测目标，进行反向传播，更新所述公共特征输入层的参数和各训练目标对应的网络层的参数。

在另一种可能的实现方式中，所述多个训练目标至少包括点击播放目标和有效播放目标；所述基于所述各训练目标的预测目标，进行反向传播，更新所述公共特征输入层的参数和各训练目标对应的网络层的参数，包括：

基于所述点击播放目标的预测目标和所述有效播放目标的预测目标，进行反向传播，共同更新所述公共特征输入层的参数，以及，分别更新所述点击播放目标对应的网络层的参数和所述有效播放目标对应的网络层的参数；

对于所述点击播放目标和所述有效播放目标之外的其他训练目标，基于各个其他训练目标的预测目标，进行反向传播，分别更新各个其他训练目标对应的网络层的参数。

在另一种可能的实现方式中，所述基于提取到的行为特征，生成对应各训练目标的训练样本，包括：

对于各训练目标，基于提取到的行为特征，将所述多个行为特征中用于表示所述训练目标所预测的反馈行为的发生概率的行为特征，作为所述训练目标的单独行为特征，所述单独行为特征用于通过所述单独特征输入层输入；

基于提取到的行为特征，将所述多个行为特征中用于表示所述账户的多媒体文件偏好的行为特征，作为所述训练目标的公共行为特征，所述公共行为特征用于通过所述公共特征输入层输入；

将所述训练目标的单独行为特征和所述训练目标的公共行为特征组成所述训练目标的训练样本。

确定产生所述多条反馈行为记录所在的多媒体播放场景；

基于所述多媒体播放场景，从所述提取到的行为特征中确定各训练目标的正训练样本和负训练样本；

其中，所述正训练样本为满足所述多媒体播放场景对应的第一目标条件的特征，所述负训练样本为满足所述多媒体播放场景对应的第二目标条件的特征。

在另一种可能的实现方式中，所述多个行为特征包括正向反馈特征；

所述基于模型训练的多个训练目标，从所述多条反馈行为记录中，提取反馈行为的多个行为特征，包括：

对于各训练目标，从所述多条反馈行为记录中，确定所述训练目标所预测的反馈行为的发生状态为已发生的第一多媒体文件；

确定所述第一多媒体文件的第一多媒体特征；

基于所述多个训练目标所预测的反馈行为对应的第一多媒体特征，确定所述正向反馈特征。

在另一种可能的实现方式中，所述多个行为特征包括负向反馈特征；

对于各训练目标，从所述多条反馈行为记录中，确定所述训练目标所预测的反馈行为的发生状态为未发生的第二多媒体文件；

确定所述第二多媒体文件的第二多媒体特征；

基于所述多个训练目标所预测的反馈行为对应的第二多媒体特征，确定所述负向反馈特征。

在另一种可能的实现方式中，所述多个行为特征包括实时反馈特征；

对于各训练目标，从所述多条反馈行为记录中，确定所述训练目标所预测的反馈行为的发生状态为已发生的第三多媒体文件，统计所述第三多媒体文件的数量；

基于所述多个训练目标所预测的反馈行为对应的多媒体文件数量，确定所述实时反馈特征。

在另一种可能的实现方式中，所述多个行为特征包括文件匹配特征；

对于各训练目标，从所述多条反馈行为记录中，确定所述训练目标所预测的反馈行为的发生状态为已发生的第一多媒体文件，所述训练目标用于预测账户对第四多媒体文件的反馈行为；

确定所述第一多媒体文件的第一多媒体特征，以及，获取所述第四多媒体文件的第三多媒体特征；

根据所述第三多媒体特征和所述多个训练目标所预测的反馈行为对应的第一多媒体特征，确定所述文件匹配特征。

在另一种可能的实现方式中，所述多个行为特征包括时间匹配特征；

对于各训练目标，基于所述多条反馈行为记录，确定第五多媒体文件被执行所述训练目标所预测的反馈行为的行为发生时间，所述训练目标用于预测账户对第四多媒体文件的反馈行为；

根据所述行为发生时间和当前时间，确定所述第五多媒体文件的时间差向量；

获取所述第四多媒体文件的第三多媒体特征；

根据所述时间差向量和所述第三多媒体特征，确定所述时间匹配特征。

在另一种可能的实现方式中，所述多个行为特征包括转换序列特征；

基于所述多条反馈行为记录，确定反馈特征序列，所述反馈特征序列用于表示各训练目标所预测的反馈行为的发生状态，所述训练目标用于预测账户对第四多媒体文件的反馈行为；

获取所述第四多媒体文件的第三多媒体特征；

根据所述反馈特征序列和所述第三多媒体特征，确定所述转换序列特征。

在另一种可能的实现方式中，所述多个行为特征包括单独行为特征；

对于各训练目标，基于所述多条反馈行为记录，确定所述训练目标所预测的反馈行为的发生概率，所述发生概率用于表示所述反馈行为在所述多条反馈行为记录中的发生状态为已发生的概率；

基于所述多条反馈行为记录，确定所述反馈行为的后验概率，所述后验概率用于表示任一账户在接收到推荐的多媒体文件后执行所述反馈行为的概率；

根据所述发生概率和所述后验概率，确定所述反馈行为的单独行为特征。

另一方面，提供了一种多媒体推荐模型的训练装置，所述装置包括：

获取单元，被配置为执行获取多条反馈行为记录，任一反馈行为记录用于记录账户在接收到推荐的多媒体文件后所执行的反馈行为；

特征提取单元，被配置为执行基于模型训练的多个训练目标，从所述多条反馈行为记录中，提取反馈行为的多个行为特征；

样本生成单元，被配置为执行基于提取到的行为特征，生成对应各训练目标的训练样本，其中，对应不同训练目标的训练样本部分相同，所述部分相同的训练样本通过公共特征输入层输入，其余的训练样本通过单独特征输入层输入；

模型训练单元，被配置为执行基于公共特征输入层输入的训练样本和单独特征输入层输入的训练样本，对多媒体推荐模型进行训练。

在一种可能的实现方式中，所述模型训练单元，包括：

前向传播子单元，被配置为执行基于所述公共特征输入层的参数和各训练目标对应的网络层的参数，将所述公共特征输入层输入的训练样本以及各训练目标对应的单独特征输入层输入的训练样本进行前向传播，得到各训练目标的预测目标；

反向传播子单元，被配置为执行基于所述各训练目标的预测目标，进行反向传播，更新所述公共特征输入层的参数和各训练目标对应的网络层的参数。

在另一种可能的实现方式中，所述多个训练目标至少包括点击播放目标和有效播放目标；所述反向传播子单元，被配置为执行：

在另一种可能的实现方式中，所述样本生成单元，被配置为执行：

确定产生所述多条反馈行为记录所在的多媒体播放场景；

在另一种可能的实现方式中，所述多个行为特征包括正向反馈特征；所述特征提取单元，被配置为执行：

确定所述第一多媒体文件的第一多媒体特征；

在另一种可能的实现方式中，所述多个行为特征包括负向反馈特征；所述特征提取单元，被配置为执行：

确定所述第二多媒体文件的第二多媒体特征；

在另一种可能的实现方式中，所述多个行为特征包括实时反馈特征；所述特征提取单元，被配置为执行：

在另一种可能的实现方式中，所述多个行为特征包括文件匹配特征；所述特征提取单元，被配置为执行：

在另一种可能的实现方式中，所述多个行为特征包括时间匹配特征；所述特征提取单元，被配置为执行：

获取所述第四多媒体文件的第三多媒体特征；

在另一种可能的实现方式中，所述多个行为特征包括转换序列特征；所述特征提取单元，被配置为执行：

获取所述第四多媒体文件的第三多媒体特征；

在另一种可能的实现方式中，所述多个行为特征包括单独行为特征；所述特征提取单元，被配置为执行：

另一方面，提供了一种服务器，所述服务器包括：一个或多个处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现上述任一可能实现方式中所述的多媒体推荐模型的训练方法。

另一方面，提供了一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述任一可能实现方式所述的多媒体推荐模型的训练方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品中的指令由服务器的处理器执行时，使得服务器能够执行上述任一可能实现方式所述的多媒体推荐模型的训练方法。

本公开实施例提供的技术方案，从历史的反馈行为记录中，提取反馈行为的行为特征；基于提取到的行为特征，分别为各个训练目标生成对应的训练样本；将多个训练目标对应的训练样本中的相同部分作为公共特征输入层的输入，将各个训练目标对应的训练样本中的不同部分作为单独特征输入层的输入，来进行多媒体推荐模型的训练，从而在统一的模型训练框架之下，基于多个训练目标的公共行为特征以及各个训练目标的单独行为特征，同时对多个训练目标进行联合训练，相较于分别针对各个训练目标单独进行模型训练的方式，大大节省了模型训练所消耗的机器资源，降低了模型训练的成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种实施环境的示意图；

图2是根据一示例性实施例示出的一种多媒体推荐模型的训练方法的流程图；

图3是根据一示例性实施例示出的一种多媒体推荐模型的训练方法的流程图；

图4是根据一示例性实施例示出的一种多媒体推荐模型的训练方法的流程图；

图5是根据一示例性实施例示出的一种多媒体推荐模型的网络结构的示意图；

图6是根据一示例性实施例示出的一种多媒体推荐模型的训练装置的框图；

图7是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是本公开实施例提供的一种实施环境的示意图。参见图1，该实施环境中包括终端101和服务器102；终端101和服务器102之间通过无线或者有线网络连接。并且，终端101上可以安装有服务器102提供服务的客户端，终端101对应的用户可以通过该客户端实现例如数据传输、消息交互等功能。

可选地，终端101为手机、平板电脑、电脑、可穿戴设备或者其他电子设备。客户端为终端101上安装的任一客户端，终端101通过客户端为用户推荐多媒体文件，可选地，客户端为视频播放应用或者音频播放应用等，视频播放应用为短视频应用、在线视频应用或者直播应用等；多媒体文件为视频文件、音频文件、图像文件、文本文件或者图文结合的文件等。在本公开实施例中，以客户端为短视频应用，多媒体文件为视频时长小于目标时长的短视频文件为例进行说明。

服务器102为终端101提供多媒体文件的推荐服务，终端101为应用服务器102的推荐服务的任一终端。终端101响应于多媒体文件推荐操作，向服务器102发送推荐请求；服务器基于终端101的推荐请求，向终端101返回至少一个多媒体文件；终端101向用户展示服务器102返回的至少一个多媒体文件；用户对至少一个多媒体文件进行浏览，对浏览的多媒体文件执行反馈行为；终端101基于用户对多媒体文件执行的反馈行为，生成反馈行为日志，将反馈行为日志上传至服务器102，以使服务器102基于该反馈行为日志，进行后续的多媒体文件推荐。

图2是根据一示例性实施例示出的一种多媒体推荐模型的训练方法的流程图。参见图2，该多媒体推荐模型的训练方法应用于服务器，该多媒体推荐模型的训练方法包括以下步骤：

在步骤S201中，获取多条反馈行为记录，任一反馈行为记录用于记录账户在接收到推荐的多媒体文件后所执行的反馈行为；

在步骤S202中，基于模型训练的多个训练目标，从多条反馈行为记录中，提取反馈行为的多个行为特征；

在步骤S203中，基于提取到的行为特征，生成对应各训练目标的训练样本，其中，对应不同训练目标的训练样本部分相同，部分相同的训练样本通过公共特征输入层输入，其余的训练样本通过单独特征输入层输入；

在步骤S204中，基于公共特征输入层输入的训练样本和单独特征输入层输入的训练样本，对多媒体推荐模型进行训练。

图3是根据一示例性实施例示出的一种多媒体推荐模型的训练方法的流程图。参见图3，该多媒体推荐模型的训练方法包括以下步骤：

在步骤S301中，服务器获取多条反馈行为记录，任一反馈行为记录用于记录账户在接收到推荐的多媒体文件后所执行的反馈行为。

其中，任一条反馈行为记录用于记录一个账户对已推荐的一个多媒体文件所执行的反馈行为。可选地，任一条反馈行为记录由记录标识来进行唯一标识。上述多条反馈行为记录分别用于记录多个账户分别对已推荐的多个多媒体文件所执行的反馈行为。

反馈行为包括点击播放行为和播放后验行为。播放后验行为是在多媒体文件播放后所执行的反馈行为。播放后验行为包括转发行为、下载行为、完整播放行为和有效播放行为中的至少一个。例如，反馈行为记录用于记录账户在接收到推荐的多媒体文件后是否执行有点击播放行为、转发行为、下载行为、完整播放行为和有效播放行为。

完整播放行为是指将多媒体文件从开始到结束全部完整播放的行为。有效播放行为是指多媒体文件的播放时长符合有效播放条件的行为。可选地，有效播放条件为目标播放时长，例如，多媒体文件的总时长为11秒，目标播放时长为7秒，使多媒体文件的播放时长大于7秒的行为可以确定为有效播放行为。可选地，有效播放条件为目标播放完成度，例如，目标播放完成度为60％、70％或80％等，假设目标播放完成度为60％，多媒体文件的总时长为15秒，使多媒体文件的播放时长大于9秒的行为可以确定为有效播放行为。

可选地，反馈行为还包括曝光行为，反馈行为记录还用于记录账户在接收到推荐的多媒体文件后是否执行有曝光行为。曝光行为是指将多媒体文件展示于推荐界面中的行为。

在一种可能的实现方式中，服务器基于终端上传的反馈行为日志，获取多条反馈行为记录，上述步骤301为：服务器获取多个账户的反馈行为日志；从各账户的反馈行为日志中，确定各账户对已推荐的任一多媒体文件执行的至少一个反馈行为；根据各账户对已推荐的任一多媒体文件执行的至少一个反馈行为，生成多个账户对应的多条反馈行为记录。

需要说明的一点是，可选地，服务器获取在第一时间段内产生的反馈行为日志，基于第一时间段内的反馈行为日志，获取多条反馈行为记录。第一时间段为任一时长的任一时间段，例如，第一时间段为距离当前时间最近的第一时长的时间段，第一时间段可以为距离当前时间最近的5天。

本公开实施例提供的技术方案，基于第一时间段内有限数量的反馈行为日志，获取多条反馈行为记录，进而基于多条反馈行为记录，进行模型训练，能够提高模型训练的效率。并且，第一时间段为距离当前时间最近的第一时长的时间段，基于距离当前时间最近的反馈行为记录，进行模型训练，得到的多媒体推荐模型更加适应于当前时间的多媒体文件推荐，通过多媒体推荐模型，能够提高多媒体文件推荐的准确性。

需要说明的另一点是，服务器存储有终端上传的反馈行为日志，能够基于已存储的反馈行为日志，生成反馈行为记录。服务器基于已存储的反馈行为日志，生成反馈行为记录之前，还接收终端上传的反馈行为日志，对终端上传的反馈行为日志进行存储。可选地，服务器将终端上传的反馈行为日志存储于分布式文件系统中。例如，服务器通过Kafka(一种高吞吐量的分布式发布订阅消息系统)将终端上传的反馈行为日志存储在HDFS(HadoopDistributed File System，一种分布式文件系统)中。

本公开实施例提供的技术方案，由于分布式文件系统支持超大规模数据的存储，基于分布式文件系统存储反馈行为日志，来对大规模多媒体文件推荐的场景进行支持，扩展了多媒体推荐模型的应用范围。

在另一种可能的实现方式中，服务器先判断反馈行为日志是否异常，基于未发生异常的反馈行为日志，获取多条反馈行为记录。可选地，服务器判断账户对已推荐的任一多媒体文件执行的至少一个反馈行为的发生顺序是否异常，基于发生顺序未发生异常的至少一个反馈行为，生成反馈行为记录。相应的，服务器获取多条反馈行为记录的步骤为：服务器获取多个账户的反馈行为日志；从各账户的反馈行为日志中，确定各账户对已推荐的任一多媒体文件执行的至少一个反馈行为；根据上述至少一个反馈行为的发生时间，确定上述至少一个反馈行为的发生顺序；根据发生顺序符合预设的顺序规则的至少一个反馈行为，生成反馈行为记录。

例如，预设的顺序规则包括转发行为发生在播放行为之后，若在反馈行为日志中，账户a对多媒体文件A的转发行为发生在2020年4月22日16时22分12秒，而对多媒体文件A的播放行为发生在2020年4月22日16时22分25秒，则账户a对多媒体文件A执行的反馈行为的发生顺序不符合预设的顺序规则，不执行根据账户a对多媒体文件A的至少一个反馈行为，生成反馈行为记录的步骤。

本公开实施例提供的技术方案，基于未发生异常的反馈行为日志，获取多条反馈行为记录，提高了所获取的反馈行为记录的合理性，进而基于合理性更高的反馈行为记录，进行多媒体推荐模型的训练，通过训练得到的多媒体推荐模型进行多媒体文件的推荐，能够提高多媒体文件推荐的准确性。

在步骤S302中，服务器基于模型训练的多个训练目标，从多条反馈行为记录中，提取反馈行为的多个行为特征。

多媒体推荐系统被期望达到的推荐效果是使用户对所推荐的多媒体文件执行反馈行为。例如，使用户对所推荐的多媒体文件执行点击播放行为；或者，使用户对所推荐的多媒体文件执行转发行为。因此，在确定向用户推荐的多媒体文件时，需要预测该用户对该多媒体文件执行的反馈行为，以基于预测结果，进行多媒体文件的推荐。

本公开实施例的多媒体推荐模型即用于预测用户会对多媒体文件执行的反馈行为，该多媒体推荐模型对应有多个训练目标，针对多个训练目标，进行多媒体推荐模型的训练，以使训练得到的多媒体推荐模型能够预测用户对多媒体文件执行的多个反馈行为。可选地，多个训练目标包括点击播放目标、转发目标、下载目标、完整播放目标和有效播放目标，分别对应点击播放行为的预测、转发行为的预测、下载行为的预测、完整播放行为的预测和有效播放行为的预测。

行为特征是基于账户对多媒体文件执行的反馈行为进行特征提取得到的。行为特征包括公共行为特征和单独行为特征，其中，多个训练目标均基于公共行为特征进行训练，各训练目标基于各自的单独行为特征进行训练。

可选地，公共行为特征包括行为反馈特征和推荐匹配特征，行为反馈特征用于表示账户对多媒体文件的偏好和账户执行反馈行为的偏好，行为反馈特征基于账户的反馈行为统计得到。推荐匹配特征用于表示所预测的多媒体文件与账户的推荐匹配程度，推荐匹配特征基于所预测的多媒体文件以及账户的反馈行为得到。

可选地，行为反馈特征包括正向反馈特征、负向反馈特征和实时反馈特征中的至少一个。正向反馈特征用于表示账户通过反馈行为表达出喜好的多媒体文件的特征。负向反馈特征用于表示账户未执行反馈行为表达喜好的多媒体文件的特征；实时反馈特征用于表示账户执行反馈行为的实时偏好。

在一种可能的实现方式中，多个行为特征包括正向反馈特征，服务器基于被执行反馈行为的多媒体文件，进行特征提取，得到正向反馈特征。相应的，服务器基于模型训练的多个训练目标，从多条反馈行为记录中，提取反馈行为的多个行为特征的步骤为：对于各训练目标，服务器从多条反馈行为记录中，确定训练目标所预测的反馈行为的发生状态为已发生的第一多媒体文件；确定第一多媒体文件的第一多媒体特征；基于多个训练目标所预测的反馈行为对应的第一多媒体特征，确定正向反馈特征。

其中，各训练目标所预测的反馈行为的发生状态为已发生的反馈行为记录对应有一个第一多媒体文件，各训练目标基于多条反馈行为记录对应有至少一个第一多媒体文件，服务器对各训练目标对应的至少一个第一多媒体文件进行特征提取，得到各训练目标对应的第一多媒体特征；将各训练目标对应的第一多媒体特征进行拼接，得到正向反馈特征。

例如，多个训练目标包括点击播放目标、转发目标、下载目标、完整播放目标和有效播放目标；上述各训练目标对应的至少一个第一多媒体文件分别组成点击的多媒体文件列表、转发的多媒体文件列表、下载的多媒体文件列表、完整播放的多媒体文件列表和有效播放的多媒体文件列表；服务器基于上述各训练目标对应的多媒体文件列表，生成各训练目标对应的第一多媒体特征，对各训练目标对应的第一多媒体特征进行拼接，得到正向反馈特征。

需要说明的一点是，可选地，服务器从多条距离当前时间最近的反馈行为记录中，提取正向反馈特征。在一个示例中，多条距离当前时间最近的反馈行为记录包括第二时间段内的反馈行为记录，第二时间段为距离当前时间最近的第二时长的时间段。其中，第二时长可以为任一时长，例如，第二时长可以为1天、3天或1周等，假设第二时长为1天，当前时间为2020年4月22日19时59分，第二时间段可以为2020年4月21日19时59分至2020年4月22日19时59分。在另一个示例中，多条距离当前时间最近的反馈行为记录包括距离当前时间最近的预设数量的反馈行为记录，预设数量可以为任一整数数值，例如，预设数量可以为20、30或50等。

本公开实施例提供的技术方案，从多条距离当前时间最近的反馈行为记录中，提取正向反馈特征，使得正向反馈特征能够表示账户距离当前时间最近的多媒体文件偏好，增强正向反馈特征的代表性，进而基于正向反馈特征进行多媒体文件的推荐，能够提高多媒体文件推荐的准确性。

在另一种可能的实现方式中，多个行为特征包括负向反馈特征，负向反馈特征用于表示账户未执行反馈行为表达喜好的多媒体文件的特征。服务器基于未被执行反馈行为的多媒体文件，进行特征提取，得到负向反馈特征，相应的，服务器基于模型训练的多个训练目标，从多条反馈行为记录中，提取反馈行为的多个行为特征的步骤为：对于各训练目标，服务器从多条反馈行为记录中，确定训练目标所预测的反馈行为的发生状态为未发生的第二多媒体文件；确定第二多媒体文件的第二多媒体特征；基于多个训练目标所预测的反馈行为对应的第二多媒体特征，确定负向反馈特征。

上述服务器基于模型训练的多个训练目标，从多条反馈行为记录中，提取负向反馈行为特征的过程与服务器基于模型训练的多个训练目标，从多条反馈行为记录中，提取正向反馈行为特征的过程同理。

例如，多个训练目标包括点击播放目标、转发目标、下载目标、完整播放目标和有效播放目标；上述各训练目标对应的至少一个第二多媒体文件分别组成曝光单位点击的多媒体文件列表、点击但未转发的多媒体文件列表、点击但未下载的多媒体文件列表、点击但未完整播放的多媒体文件列表和点击但未有效播放的多媒体文件列表；服务器基于上述各训练目标对应的多媒体文件列表，生成各训练目标对应的第二多媒体特征，对各训练目标对应的第二多媒体特征进行拼接，得到负向反馈特征。

本公开实施例提供的技术方案，将负向反馈特征作为多个行为特征中的一个，提高了多个行为特征的特征表达的丰富性，进而基于该多个行为特征进行多媒体文件的推荐，能够提高多媒体文件推荐的准确性。

在另一种可能的实现方式中，多个行为特征包括实时反馈特征，实时反馈特征用于表示账户执行反馈行为的实时偏好。服务器可以根据每个反馈行为对应的正向反馈记录，确定账户的实时反馈特征，相应的，服务器基于模型训练的多个训练目标，从多条反馈行为记录中，提取反馈行为的多个行为特征的步骤为：对于各训练目标，服务器从多条反馈行为记录中，确定训练目标所预测的反馈行为的发生状态为已发生的第三多媒体文件，统计第三多媒体文件的数量；基于多个训练目标所预测的反馈行为对应的多媒体文件数量，确定实时反馈特征。

可选地，服务器从多条距离当前时间最近的反馈行为记录中，提取实时反馈特征。例如，多条距离当前时间最近的反馈行为记录包括第三时间段内的反馈行为记录，第三时间段为距离当前时间最近的第三时长的时间段。其中，第三时长可以为任一时长，例如，第三时长可以为10分钟、15分钟或者30分钟等。

例如，多个训练目标包括点击播放目标、转发目标、下载目标、完整播放目标和有效播放目标，第三时间段为10分钟；上述各训练目标对应的第三多媒体文件的数量分别为最近10分钟显示但未点击播放的多媒体文件的数量、最近10分钟点击播放的多媒体文件的数量、最近10分钟转发的多媒体文件的数量、最近10分钟完整播放的多媒体文件的数量、最近10分钟有效播放的多媒体文件的数量；服务器基于上述各训练目标对应的多媒体文件数量，生成各训练目标对应的实时数量反馈特征，对各训练目标对应的实时数量反馈特征进行拼接，得到实时反馈特征。

本公开实施例提供的技术方案，基于账户最近对多媒体文件执行的反馈行为的数量，提取得到实时反馈特征，基于该实时反馈特征进行多媒体推荐模型的训练和多媒体文件的推荐，能够提升多媒体推荐模型的训练效果，使多媒体文件的推荐顺应账户执行反馈行为的偏好，从而尽可能的推荐能够使账户执行反馈行为的多媒体文件，提高多媒体文件推荐的准确性。

可选地，推荐匹配特征包括文件匹配特征、时间匹配特征和转换序列特征中的至少一个。文件匹配特征用于表示所预测的多媒体文件与账户所偏好的多媒体文件的匹配程度。时间匹配特征用于表示所预测的多媒体文件与账户执行反馈行为的时间的匹配程度。转换序列特征用于表示所预测的多媒体文件与账户的反馈行为偏好的匹配程度。

在另一种可能的实现方式中，多个行为特征包括文件匹配特征，服务器基于模型训练的多个训练目标，从多条反馈行为记录中，提取反馈行为的多个行为特征的步骤可以为：对于各训练目标，服务器从多条反馈行为记录中，确定训练目标所预测的反馈行为的发生状态为已发生的第一多媒体文件，该训练目标用于预测账户对第四多媒体文件的反馈行为；确定第一多媒体文件的第一多媒体特征，以及，获取第四多媒体文件的第三多媒体特征；根据第三多媒体特征和多个训练目标所预测的反馈行为对应的第一多媒体特征，确定文件匹配特征。

可选地，多个训练目标所预测的反馈行为对应的第一多媒体特征由第一特征向量表示，第三多媒体特征由第二特征向量表示，第一特征向量的向量维数与第二特征向量的向量维数相同。服务器将第一特征向量和第二特征向量进行按位相乘，得到文件匹配特征。例如，第一特征向量为0101，第二特征向量为0011，则第一特征向量和第二特征向量按位相乘得到的文件匹配特征为0001。

本公开实施例提供的技术方案，基于账户所偏好的多媒体文件的特征与所预测的多媒体文件的匹配程度，进行多媒体推荐模型的训练和多媒体文件的推荐，能够提升多媒体推荐模型的训练效果，使多媒体文件的推荐符合账户对多媒体文件的喜好，提高多媒体文件推荐的准确性。

在另一种可能的实现方式中，多个行为特征包括时间匹配特征，时间匹配特征用于表示所预测的多媒体文件与账户执行反馈行为的时间的匹配程度。服务器根据多媒体文件被执行反馈行为的时间与当前时间的时间差，确定与所预测的多媒体文件的时间匹配特征。相应的，服务器基于模型训练的多个训练目标，从多条反馈行为记录中，提取反馈行为的多个行为特征可以通过以下步骤(1)至步骤(3)实现：

在步骤(1)中，对于各训练目标，服务器基于多条反馈行为记录，确定第五多媒体文件被执行训练目标所预测的反馈行为的行为发生时间，该训练目标用于预测账户对第四多媒体文件的反馈行为。

其中，行为发生时间用于表示账户播放多媒体文件的时间偏好。例如，行为发生时间可以为11时、17时或者19时等任一时间。

在步骤(2)中，服务器根据行为发生时间和当前时间，确定第五多媒体文件的时间差向量。

在一种可能的实现方式中，服务器确定行为发生时间和当前时间的时间差，将该时间差转换为时间差向量。

在另一种可能的实现方式中，服务器根据行为发生时间，确定账户的播放偏好时间，基于该播放偏好时间与当前时间的时间差，得到时间差向量。相应的，上述步骤(2)为：服务器将账户对应的多个行为发生时间所集中的时间段确定为该账户的播放偏好时间段；将该播放偏好时间段中的任一时间确定为播放偏好时间；确定该播放偏好时间与当前时间的时间差；将该时间差转换为时间差向量。例如，账户对应的行为发生时间集中在19时至20时之间，则19时至20时的时间段为该账户的播放偏好时间段，可选地，服务器将19时30分确定为播放偏好时间。

在步骤(3)中，服务器获取第四多媒体文件的第三多媒体特征根据时间差向量和第三多媒体特征，确定时间匹配特征。

可选地，第三多媒体特征由第二特征向量表示，时间差向量的向量维数与第二特征向量的向量维数相同。服务器将时间差向量和第二特征向量进行按位相乘，得到时间匹配特征。

本公开实施例提供的技术方案，基于账户播放多媒体文件的时间偏好与所预测的多媒体文件的匹配程度，进行多媒体推荐模型的训练和多媒体文件的推荐，能够提升多媒体推荐模型的训练效果，使多媒体文件的推荐与账户播放多媒体文件的时间偏好相符，提高多媒体文件推荐的准确性。

在另一种可能的实现方式中，多个行为特征包括转换序列特征，转换序列特征用于表示所预测的多媒体文件与账户的反馈行为偏好的匹配程度，服务器基于模型训练的多个训练目标，从多条反馈行为记录中，提取反馈行为的多个行为特征的步骤为：服务器基于多条反馈行为记录，确定反馈特征序列，其中，反馈特征序列用于表示各训练目标所预测的反馈行为的发生状态，训练目标用于预测账户对第四多媒体文件的反馈行为；获取第四多媒体文件的第三多媒体特征；根据反馈特征序列和第三多媒体特征，确定转换序列特征。

例如，多个训练目标包括点击播放目标、转发目标、下载目标、完整播放目标和有效播放目标；反馈特征序列用于表示点击播放行为发生之后，转发行为是否发生、下载行为是否发生、完整播放行为是否发生以及有效播放行为是否发生。

可选地，反馈特征序列由第三特征向量表示，例如，反馈特征序列为10011，则表示点击播放行为、完整播放行为以及有效播放行为的发生状态为已发生。第三特征向量的向量维数与表示第三多媒体特征的第二特征向量的向量维数相同。服务器将第三特征向量和第二特征向量进行按位相乘，得到转换序列特征。

本公开实施例提供的技术方案，基于所预测的多媒体文件与账户的反馈行为偏好的匹配程度，进行多媒体推荐模型的训练和多媒体文件的推荐，能够提升多媒体推荐模型的训练效果，使多媒体文件的推荐顺应账户的反馈行为偏好，尽可能的推荐能够使用户执行反馈行为的多媒体文件，提高多媒体文件推荐的准确性。

可选地，多个行为特征包括单独行为特征，各训练目标对应的单独行为特征用于表示该训练目标所预测的反馈行为的发生概率。服务器基于模型训练的多个训练目标，从多条反馈行为记录中，提取反馈行为的多个行为特征通过以下步骤1至步骤3实现：

在步骤1中，对于各训练目标，服务器基于多条反馈行为记录，确定训练目标所预测的反馈行为的发生概率，该发生概率用于表示该反馈行为在多条反馈行为记录中的发生状态为已发生的概率。

可选地，服务器确定多条反馈行为记录所记录的多媒体文件的第一数量；从多条反馈行为记录中，确定各训练目标所预测的反馈行为的发生状态为已发生的第二数量；将第二数量与第一数量的比值，确定为各训练目标对应的发生概率。

例如，多条反馈行为记录所记录的多媒体文件的第一数量为1000，若上述1000条反馈行为记录中有800个多媒体文件被执行了转发行为，则转发目标对应的发生概率为0.8；若上述1000条反馈行为记录中有200个多媒体文件被执行了下载行为，则下载目标对应的发生概率为0.2。

在步骤2中，服务器基于多条反馈行为记录，确定反馈行为的后验概率，后验概率用于表示任一账户在接收到推荐的多媒体文件后执行反馈行为的概率。

可选地，服务器从多条反馈行为记录中，确定任一账户对应的反馈行为记录的第三数量；从该第三数量的反馈行为记录中，确定各训练目标所预测的反馈行为的发生状态为已发生的第四数量；将第四数量与第三数量的比值，确定为各训练目标对应的后验概率。

例如，多条反馈行为记录中账户A对应的反馈行为记录的第三数量为100，若上述100条反馈行为记录中有30个多媒体文件被执行了转发行为，则转发目标对应的后验概率为0.3；若上述100条反馈行为记录中有2个多媒体文件被执行了下载行为，则下载目标对应的发生概率为0.02。

在步骤3中，服务器根据发生概率和后验概率，确定反馈行为的单独行为特征。

在一种可能的实现方式中，单独行为特征为发生概率和后验概率的向量表示。可选地，服务器将发生概率转化为第一向量，将后验概率转化为第二向量，将第一向量和第二向量拼接成单独行为特征。

本公开实施例提供的技术方案，服务器根据发生概率和后验概率，确定反馈行为的单独行为特征，使得单独行为特征既能够表征账户对多媒体文件产生反馈行为的后验概率，也能够表征多个多媒体文件整体的反馈行为发生概率，从而基于该单独行为特征进行多媒体推荐模型的训练和多媒体文件的推荐，能够提升多媒体推荐模型的训练效果，提高多媒体文件推荐的准确性。

在另一种可能的实现方式中，服务器分别对后验概率和发生概率进行修正，生成该反馈行为的单独行为特征。相应的，服务器根据发生概率和后验概率，确定反馈行为的单独行为特征的步骤为：服务器将后验概率通过威尔逊置信区间进行修正，得到修正后验概率；将发生概率通过威尔逊置信区间进行修正，得到修正发生概率；根据修正后验概率和修正发生概率，生成该反馈行为的单独行为特征。

威尔逊置信区间用于确定目标置信度下的概率的置信区间。例如，服务器将后验概率通过z统计量为1.96的威尔逊置信区间进行修正，可以得到95％置信度下该后验概率的置信区间；服务器将置信区间中的最小值确定为修正后验概率。

本公开实施例提供的技术方案，通过威尔逊置信区间的修正，使得修正后的后验概率和发生概率在样本数量较少的情况下，也能够真实的反映反馈行为的后验概率和发生概率，进而基于由修正后的后验概率和发生概率生成的单独行为特征进行多媒体推荐模型的训练和多媒体文件的推荐，能够提升多媒体推荐模型的训练效果，提高多媒体文件推荐的准确性。

需要说明的一点是，可选地，服务器根据后验概率和发生概率中的一个，生成该反馈行为的单独行为特征。

在步骤S303中，服务器基于提取到的行为特征，生成对应各训练目标的训练样本。

其中，对应不同训练目标的训练样本部分相同，该部分相同的训练样本通过公共特征输入层输入，其余的训练样本通过单独特征输入层输入。服务器基于提取到的行为特征，确定通过公共特征输入层输入的训练样本，以及，分别为各训练目标确定通过单独特征输入层输入的训练样本。相应的，上述步骤S303为：对于各训练目标，服务器基于提取到的行为特征，将多个行为特征中用于表示该训练目标所预测的反馈行为的发生概率的行为特征，作为该训练目标的单独行为特征，单独行为特征用于通过单独特征输入层输入；基于提取到的行为特征，将多个行为特征中用于表示账户的多媒体文件偏好的行为特征，作为该训练目标的公共行为特征，公共行为特征用于通过公共特征输入层输入；将该训练目标的单独行为特征和该训练目标的公共行为特征组成该训练目标的训练样本。

例如，多个行为特征包括正向反馈特征、负向反馈特征、实时反馈特征、文件匹配特征、时间匹配特征、转换序列特征和单独行为特征，点击播放目标对应的训练样本包括正向反馈特征、负向反馈特征、实时反馈特征、文件匹配特征、时间匹配特征和转换序列特征等公共行为特征以及该点击播放目标的单独行为特征；转发目标对应的训练样本包括正向反馈特征、负向反馈特征、实时反馈特征、文件匹配特征、时间匹配特征和转换序列特征等公共行为特征以及该转发目标的单独行为特征。

需要说明的一点是，各训练目标对应的训练样本由正训练样本和负训练样本组成，在不同的多媒体播放场景下，正训练样本和负训练样本的划分不同。服务器基于不同的多媒体播放场景，进行正负训练样本的划分，相应的，上述步骤S303可以通过以下步骤一至步骤二实现：

在步骤一中，服务器确定产生多条反馈行为记录所在的多媒体播放场景。

其中，多媒体播放场景为反馈行为记录产生时所在的场景。多媒体播放场景包括点击播放场景和自动播放场景。在点击播放场景中，终端响应于接收到用于指示播放多媒体文件的操作，多媒体文件才开始播放。例如，终端的推荐界面中显示有多个多媒体文件的封面信息，终端响应于接收到对任一多媒体文件的封面信息的点击操作，获取该多媒体文件，播放该多媒体文件。

在自动播放场景中，终端无需接收到用于指示播放多媒体文件的操作，多媒体文件即可自动播放。例如，终端的推荐界面用于依次展示向账户推荐的多媒体文件，终端响应于接收到用于指示展示下一个多媒体文件的操作，获取向账户推荐的下一个多媒体文件，自动播放该多媒体文件。

可选地，服务器从反馈行为日志中，获取推荐的多媒体文件所在的多媒体播放场景；将该多媒体播放场景确定为对应该多媒体文件的反馈行为记录所在的多媒体播放场景。

在步骤二中，服务器基于多媒体播放场景，从提取到的行为特征中确定各训练目标的正训练样本和负训练样本；其中，正训练样本为满足多媒体播放场景对应的第一目标条件的特征，负训练样本为满足多媒体播放场景对应的第二目标条件的特征。

在一种可能的实现方式中，多媒体播放场景为点击播放场景，对于各训练目标，第一目标条件为基于第一反馈行为记录所确定的特征，第一反馈行为记录中该训练目标所预测的反馈行为的发生状态为已发生。对于点击播放目标，第二目标条件为基于第二反馈行为记录所确定的特征，第二反馈行为记录中多媒体文件已曝光，且点击播放行为的发生状态为未发生。对于点击播放目标之外的其他训练目标，第二目标条件为基于第三反馈行为记录所确定的特征，第三反馈行为记录中该训练目标所预测的反馈行为的发生状态为未发生，且点击播放行为的发生状态为已发生。

在另一种可能的实现方式中，多媒体播放场景为自动播放场景，在自动播放场景下，对于点击播放目标，无需进行正负训练样本的划分。对于点击播放目标之外的其他训练目标，第一目标条件为基于第四反馈行为记录所确定的特征，第四反馈行为记录中该训练目标所预测的反馈行为的发生状态为已发生。对于点击播放目标之外的其他训练目标，第二目标条件为基于第五反馈行为记录所确定的特征，第五反馈行为记录中该训练样本所预测的反馈行为的发生状态为未发生，且该第五反馈行为记录所记录的多媒体文件已自动播放。

本公开实施例提供的技术方案，结合不同多媒体播放场景的播放特点，进行正训练样本和负训练样本的划分，从未实现多场景下的联合训练，提高多媒体推荐模型的训练效率，降低多媒体推荐模型的训练成本。

在步骤S304中，服务器基于公共特征输入层输入的训练样本和单独特征输入层的训练样本，对多媒体推荐模型进行训练。

可选地，服务器通过深度神经网络(DNN，Deep Neural Networks)对多媒体推荐模型进行训练。参见图4，步骤S304通过以下步骤S3041至步骤S3042实现：

在步骤S3041中，服务器基于公共特征输入层的参数和各训练目标对应的网络层的参数，将公共特征输入层输入的训练样本以及各训练目标对应的单独特征输入层输入的训练样本进行前向传播，得到各训练目标的预测目标。

各训练目标的预测目标用于预测账户对多媒体文件发生的反馈行为。在一个示例中，各训练目标的预测目标用于预测账户对多媒体文件发生反馈行为的概率。例如，转发目标的预测目标用于预测账户对多媒体文件发生转发行为的概率。在另一个示例中，各训练目标的预测目标用于预测账户是否会对多媒体文件发生反馈行为。例如，下载目标的预测目标用于预测账户是否会对多媒体文件执行下载行为。

服务器通过深度神经网络的输入层，将训练样本中的行为特征转换为目标维数的嵌入向量。其中，目标维数可以为任一整数数值，例如，目标维数可以为32维，服务器将正向反馈特征、负向反馈特征、实时反馈特征、文件匹配特征、时间匹配特征和转换序列特征分别转换为32维嵌入向量；将点击播放目标的单独行为特征、转发目标的单独行为特征、下载目标的单独行为特征、完整播放目标的单独行为特征和有效播放目标的单独行为特征分别转换为32维嵌入向量。

在深度神经网络模型的网络结构中，各训练目标分别对应有各自的网络层，各训练目标的网络层包括各训练目标的输入层和隐藏层；各训练目标分别对应有各自独立的目标层数的隐藏层。例如，各训练目标分别对应有各自独立的3层隐藏层。

参见图5，对于点击播放目标，该点击播放目标的预测目标至少包括点击率目标，点击率目标用于表示账户对所预测的多媒体文件的点击率。服务器基于公共特征输入层输入的训练样本和点击播放目标对应的单独特征输入层输入的训练样本，基于公共特征输入层的参数和点击播放目标对应的单独特征输入层的参数以及该点击播放目标的点击率目标对应的隐藏层参数，进行前向传播，得到该点击播放目标的点击率目标。

对于转发目标，该转发目标的预测目标用于表示账户对所预测的多媒体文件的转发率。服务器基于公共特征输入层输入的训练样本和转发目标对应的单独特征输入层输入的训练样本，基于公共特征输入层的参数和转发目标对应的单独特征输入层的参数以及该转发目标对应的隐藏层参数，进行前向传播，得到该转发目标的预测目标。

对于下载目标，该下载目标的预测目标用于表示账户对所预测的多媒体文件的下载率。服务器基于公共特征输入层输入的训练样本和下载目标对应的单独特征输入层输入的训练样本，基于公共特征输入层的参数和下载目标对应的单独特征输入层的参数以及该下载目标对应的隐藏层参数，进行前向传播，得到该下载目标的预测目标。

对于完整播放目标，该完整播放目标的预测目标用于表示账户对所预测的多媒体文件的完整播放率。服务器基于公共特征输入层输入的训练样本和完整播放目标对应的单独特征输入层输入的训练样本，基于公共特征输入层的参数和完整播放目标对应的单独特征输入层的参数以及该完整播放目标对应的隐藏层参数，进行前向传播，得到该完整播放目标的预测目标。

对于点击播放目标，该点击播放目标的预测目标还包括点击率辅助目标，点击率辅助目标用于表示账户对所预测的多媒体文件是否执行点击播放行为。服务器基于公共特征输入层输入的训练样本和点击播放目标对应的单独特征输入层输入的训练样本，基于公共特征输入层的参数和点击播放目标对应的单独特征输入层的参数以及该点击率辅助目标对应的隐藏层参数，进行前向传播，得到点击播放目标的点击率辅助目标。

对于有效播放目标，该有效播放目标的预测目标用于表示账户对所预测的多媒体文件的有效播放率。服务器基于公共特征输入层输入的训练样本和有效播放目标对应的单独特征输入层输入的训练样本，基于公共特征输入层的参数和有效播放目标对应的单独特征输入层的参数以及该有效播放目标对应的隐藏层参数，进行前向传播，得到该有效播放目标的预测目标。

在步骤S3042中，服务器基于各训练目标的预测目标，进行反向传播，更新公共特征输入层的参数和各训练目标对应的网络层的参数。

服务器基于部分训练目标的预测目标，更新公共特征输入层的参数，分别基于各训练目标的预测目标，更新各训练目标对应的网络层的参数，相应的，上述步骤S3042为：服务器基于点击播放目标的预测目标和有效播放目标的预测目标，进行反向传播，共同更新公共特征输入层的参数，以及，分别更新点击播放目标对应的网络层的参数和有效播放目标对应的网络层的参数；对于点击播放目标和有效播放目标之外的其他训练目标，基于各个其他训练目标的预测目标，进行反向传播，分别更新各个其他训练目标对应的网络层的参数。

可选地，点击播放目标的预测目标包括点击率辅助目标，服务器基于点击率辅助目标和有效播放目标的预测目标，共同更新公共特征输入层的参数。

服务器根据账户对所预测的多媒体文件真实产生的反馈行为和各训练目标的预测目标，确定各训练目标的预测目标的误差；根据各训练目标的预测目标的误差，更新各训练目标对应的网络层的参数；以及，根据点击播放目标的预测目标的误差和有效播放目标的预测目标的误差，共同更新公共特征输入层的参数。

本公开实施例提供的技术方案，在统一的模型训练框架之下，同时对多个训练目标进行联合训练，相较于分别针对各个训练目标单独进行模型训练的方式，大大减少了模型训练所消耗的时间，提高了模型训练的效率。

需要说明的一点是，在训练得到多媒体推荐模型之后，能够基于该多媒体推荐模型，进行多媒体文件的推荐。相应的，服务器基于该多媒体推荐模型，进行多媒体文件的推荐的步骤可以为：服务器获取待推荐账户的反馈行为记录；从上述反馈行为记录中，提取该待推荐账户对应的多个行为特征；将该待推荐账户对应的多个行为特征和待推荐的多媒体文件输入到多媒体推荐模型中，得到该待推荐账户对于待推荐的多媒体文件的多个预测目标；响应于根据多个预测目标，确定待推荐的多媒体文件符合推荐条件，向待推荐账户推荐该待推荐的多媒体文件。

在一个示例中，预测目标用于预测账户对多媒体文件发生反馈行为的概率，可选地，推荐条件为预测目标大于目标阈值，例如，推荐条件为点击播放目标的预测目标大于0.9，有效播放目标的预测目标大于0.8。在另一个示例中，预测目标用于预测账户是否会对多媒体文件发生反馈行为，可选地，推荐条件为账户会对多媒体文件执行预测目标对应的反馈行为，例如，推荐条件为账户对多媒体文件执行点击播放行为和有效播放行为。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图6是根据一示例性实施例示出的一种多媒体推荐模型的训练装置的框图。

参见图6，该装置包括：

获取单元601，被配置为执行获取多条反馈行为记录，任一反馈行为记录用于记录账户在接收到推荐的多媒体文件后所执行的反馈行为；

特征提取单元602，被配置为执行基于模型训练的多个训练目标，从多条反馈行为记录中，提取反馈行为的多个行为特征；

样本生成单元603，被配置为执行基于提取到的行为特征，生成对应各训练目标的训练样本，其中，对应不同训练目标的训练样本部分相同，部分相同的训练样本通过公共特征输入层输入，其余的训练样本通过单独特征输入层输入；

模型训练单元604，被配置为执行基于公共特征输入层输入的训练样本和单独特征输入层输入的训练样本，对多媒体推荐模型进行训练。

在一种可能的实现方式中，模型训练单元604，包括：

前向传播子单元，被配置为执行基于公共特征输入层的参数和各训练目标对应的网络层的参数，将公共特征输入层输入的训练样本以及各训练目标对应的单独特征输入层输入的训练样本进行前向传播，得到各训练目标的预测目标；

反向传播子单元，被配置为执行基于各训练目标的预测目标，进行反向传播，更新公共特征输入层的参数和各训练目标对应的网络层的参数。

在另一种可能的实现方式中，多个训练目标至少包括点击播放目标和有效播放目标；反向传播子单元，被配置为执行：

基于点击播放目标的预测目标和有效播放目标的预测目标，进行反向传播，共同更新公共特征输入层的参数，以及，分别更新点击播放目标对应的网络层的参数和有效播放目标对应的网络层的参数；

对于点击播放目标和有效播放目标之外的其他训练目标，基于各个其他训练目标的预测目标，进行反向传播，分别更新各个其他训练目标对应的网络层的参数。

在另一种可能的实现方式中，样本生成单元603，被配置为执行：

对于各训练目标，基于提取到的行为特征，将多个行为特征中用于表示训练目标所预测的反馈行为的发生概率的行为特征，作为训练目标的单独行为特征，单独行为特征用于通过单独特征输入层输入；

基于提取到的行为特征，将多个行为特征中用于表示账户的多媒体文件偏好的行为特征，作为训练目标的公共行为特征，公共行为特征用于通过公共特征输入层输入；

将训练目标的单独行为特征和训练目标的公共行为特征组成训练目标的训练样本。

确定产生多条反馈行为记录所在的多媒体播放场景；

基于多媒体播放场景，从提取到的行为特征中确定各训练目标的正训练样本和负训练样本；

其中，正训练样本为满足多媒体播放场景对应的第一目标条件的特征，负训练样本为满足多媒体播放场景对应的第二目标条件的特征。

在另一种可能的实现方式中，多个行为特征包括正向反馈特征；特征提取单元602，被配置为执行：

对于各训练目标，从多条反馈行为记录中，确定训练目标所预测的反馈行为的发生状态为已发生的第一多媒体文件；

确定第一多媒体文件的第一多媒体特征；

基于多个训练目标所预测的反馈行为对应的第一多媒体特征，确定正向反馈特征。

在另一种可能的实现方式中，多个行为特征包括负向反馈特征；特征提取单元602，被配置为执行：

对于各训练目标，从多条反馈行为记录中，确定训练目标所预测的反馈行为的发生状态为未发生的第二多媒体文件；

确定第二多媒体文件的第二多媒体特征；

基于多个训练目标所预测的反馈行为对应的第二多媒体特征，确定负向反馈特征。

在另一种可能的实现方式中，多个行为特征包括实时反馈特征；特征提取单元602，被配置为执行：

对于各训练目标，从多条反馈行为记录中，确定训练目标所预测的反馈行为的发生状态为已发生的第三多媒体文件，统计第三多媒体文件的数量；

基于多个训练目标所预测的反馈行为对应的多媒体文件数量，确定实时反馈特征。

在另一种可能的实现方式中，多个行为特征包括文件匹配特征；特征提取单元602，被配置为执行：

对于各训练目标，从多条反馈行为记录中，确定训练目标所预测的反馈行为的发生状态为已发生的第一多媒体文件，训练目标用于预测账户对第四多媒体文件的反馈行为；

确定第一多媒体文件的第一多媒体特征，以及，获取第四多媒体文件的第三多媒体特征；

根据第三多媒体特征和多个训练目标所预测的反馈行为对应的第一多媒体特征，确定文件匹配特征。

在另一种可能的实现方式中，多个行为特征包括时间匹配特征；特征提取单元602，被配置为执行：

对于各训练目标，基于多条反馈行为记录，确定第五多媒体文件被执行训练目标所预测的反馈行为的行为发生时间，训练目标用于预测账户对第四多媒体文件的反馈行为；

根据行为发生时间和当前时间，确定第五多媒体文件的时间差向量；

获取第四多媒体文件的第三多媒体特征；

根据时间差向量和第三多媒体特征，确定时间匹配特征。

在另一种可能的实现方式中，多个行为特征包括转换序列特征；特征提取单元602，被配置为执行：

基于多条反馈行为记录，确定反馈特征序列，反馈特征序列用于表示各训练目标所预测的反馈行为的发生状态，训练目标用于预测账户对第四多媒体文件的反馈行为；

获取第四多媒体文件的第三多媒体特征；

根据反馈特征序列和第三多媒体特征，确定转换序列特征。

在另一种可能的实现方式中，多个行为特征包括单独行为特征；特征提取单元602，被配置为执行：

对于各训练目标，基于多条反馈行为记录，确定训练目标所预测的反馈行为的发生概率，发生概率用于表示反馈行为在多条反馈行为记录中的发生状态为已发生的概率；

基于多条反馈行为记录，确定反馈行为的后验概率，后验概率用于表示任一账户在接收到推荐的多媒体文件后执行反馈行为的概率；

根据发生概率和后验概率，确定反馈行为的单独行为特征。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是：上述实施例提供的多媒体推荐模型的训练装置在进行多媒体推荐模型的训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多媒体推荐模型的训练装置与多媒体推荐模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本公开实施例提供的一种服务器的框图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)701和一个或一个以上的存储器702，其中，存储器702用于存储可执行指令，处理器701被配置为执行上述可执行指令，以实现上述各个方法实施例提供的多媒体推荐模型的训练方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器702，上述指令可由服务器700的处理器701执行以完成上述各个方法实施例提供的多媒体推荐模型的训练方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(RandomAccess Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当计算机程序产品中的指令由服务器的处理器执行时，使得服务器能够执行上述各个方法实施例中的多媒体推荐模型的训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种多媒体推荐模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的多媒体推荐模型的训练方法，其特征在于，所述基于公共特征输入层输入的训练样本和单独特征输入层输入的训练样本，对多媒体推荐模型进行训练，包括：

3.根据权利要求2所述的多媒体推荐模型的训练方法，其特征在于，所述多个训练目标至少包括点击播放目标和有效播放目标；所述基于所述各训练目标的预测目标，进行反向传播，更新所述公共特征输入层的参数和各训练目标对应的网络层的参数，包括：

4.根据权利要求1所述的多媒体推荐模型的训练方法，其特征在于，所述基于提取到的行为特征，生成对应各训练目标的训练样本，包括：

5.根据权利要求1所述的多媒体推荐模型的训练方法，其特征在于，所述基于提取到的行为特征，生成对应各训练目标的训练样本，包括：

确定产生所述多条反馈行为记录所在的多媒体播放场景；

6.根据权利要求1所述的多媒体推荐模型的训练方法，其特征在于，所述多个行为特征包括正向反馈特征；

确定所述第一多媒体文件的第一多媒体特征；

7.根据权利要求1所述的多媒体推荐模型的训练方法，其特征在于，所述多个行为特征包括负向反馈特征；

确定所述第二多媒体文件的第二多媒体特征；

8.根据权利要求1所述的多媒体推荐模型的训练方法，其特征在于，所述多个行为特征包括实时反馈特征；

9.根据权利要求1所述的多媒体推荐模型的训练方法，其特征在于，所述多个行为特征包括文件匹配特征；

10.根据权利要求1所述的多媒体推荐模型的训练方法，其特征在于，所述多个行为特征包括时间匹配特征；

获取所述第四多媒体文件的第三多媒体特征；

11.根据权利要求1所述的多媒体推荐模型的训练方法，其特征在于，所述多个行为特征包括转换序列特征；

获取所述第四多媒体文件的第三多媒体特征；

12.根据权利要求1所述的多媒体推荐模型的训练方法，其特征在于，所述多个行为特征包括单独行为特征；

13.一种多媒体推荐模型的训练装置，其特征在于，所述装置包括：

14.根据权利要求13所述的多媒体推荐模型的训练装置，其特征在于，所述模型训练单元，包括：

15.根据权利要求14所述的多媒体推荐模型的训练装置，其特征在于，所述多个训练目标至少包括点击播放目标和有效播放目标；所述反向传播子单元，被配置为执行：

16.根据权利要求13所述的多媒体推荐模型的训练装置，其特征在于，所述样本生成单元，被配置为执行：

17.根据权利要求13所述的多媒体推荐模型的训练装置，其特征在于，所述样本生成单元，被配置为执行：

确定产生所述多条反馈行为记录所在的多媒体播放场景；

18.根据权利要求13所述的多媒体推荐模型的训练装置，其特征在于，所述多个行为特征包括正向反馈特征；所述特征提取单元，被配置为执行：

确定所述第一多媒体文件的第一多媒体特征；

19.根据权利要求13所述的多媒体推荐模型的训练装置，其特征在于，所述多个行为特征包括负向反馈特征；所述特征提取单元，被配置为执行：

确定所述第二多媒体文件的第二多媒体特征；

20.根据权利要求13所述的多媒体推荐模型的训练装置，其特征在于，所述多个行为特征包括实时反馈特征；所述特征提取单元，被配置为执行：

21.根据权利要求13所述的多媒体推荐模型的训练装置，其特征在于，所述多个行为特征包括文件匹配特征；所述特征提取单元，被配置为执行：

22.根据权利要求13所述的多媒体推荐模型的训练装置，其特征在于，所述多个行为特征包括时间匹配特征；所述特征提取单元，被配置为执行：

获取所述第四多媒体文件的第三多媒体特征；

23.根据权利要求13所述的多媒体推荐模型的训练装置，其特征在于，所述多个行为特征包括转换序列特征；所述特征提取单元，被配置为执行：

获取所述第四多媒体文件的第三多媒体特征；

24.根据权利要求13所述的多媒体推荐模型的训练装置，其特征在于，所述多个行为特征包括单独行为特征；所述特征提取单元，被配置为执行：

25.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至12中任一项所述的多媒体推荐模型的训练方法。

26.一种存储介质，其特征在于，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如权利要求1至12中任一项所述的多媒体推荐模型的训练方法。

27.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由服务器的处理器执行时，使得服务器能够执行如权利要求1至12中任一项所述的多媒体推荐模型的训练方法。