CN112948704B

CN112948704B - 用于信息推荐的模型训练方法、装置、电子设备以及介质

Info

Publication number: CN112948704B
Application number: CN201911173202.5A
Authority: CN
Inventors: 陆海涛; 田晓宇; 白明
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2024-06-04
Anticipated expiration: 2039-11-26
Also published as: EP4068119A1; EP4068119A4; WO2021103994A1; CN112948704A; US20220277204A1

Abstract

本公开实施例提供了一种用于信息推荐的模型训练方法、装置、电子设备以及介质，涉及计算机技术领域，所述方法包括：将预先确定的训练样本集输入第一推荐模型，获取第一推荐模型对作品信息的预估推荐结果，基于预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集，以对第二推荐模型进行训练，得到在线推荐模型。采用本公开，电子设备可以使得推荐模型可以更准确的向用户推荐多媒体作品。

Description

用于信息推荐的模型训练方法、装置、电子设备以及介质

技术领域

本公开涉及网络信息交互技术领域，特别是涉及一种用于信息推荐的模型训练方法、装置、电子设备以及介质。

背景技术

目前，很多网络应用都会向用户推荐一些多媒体作品。例如：视频应用网站会根据用户对视频的点击的操作历史信息，向用户推荐与其看过的视频同一类或相关类的多媒体作品。例如：用户经常观看汽车类相关视频，则电子设备可以向用户推荐汽车类的相关视频或广告信息等等。

目前，电子设备可以根据用户的操作信息，对推荐模型进行训练，然后根据用户的操作信息和训练后的推荐模型，向用户推荐多媒体作品，例如视频、广告或者商品等等。

可见，相关技术中训练出的网络模型，仅通过用户的操作信息判断是否推荐某类多媒体作品，在训练网络模型时，也仅通过用户以往点击该类多媒体作品的操作信息进行训练。电子设备获取的操作信息包括操作的地点、时间和页面类型，这些信息不足以体现用户的喜好，因此，利用这些信息训练后的推荐模型的推荐结果不够准确。

发明内容

本公开实施例的目的在于提供一种用于信息推荐的模型训练方法、装置、电子设备以及介质，以使得推荐模型可以更准确的向用户推荐多媒体作品。具体技术方案如下：

根据本公开实施例的第一方面，提供了一种用于信息推荐的模型训练方法，所述方法应用于电子设备，所述方法包括：

将预先确定的训练样本集输入第一推荐模型，获取所述第一推荐模型对作品信息的预估推荐结果，其中，所述训练样本集中至少包括多媒体样本作品的邻近信息，所述多媒体样本作品的邻近信息至少包含当前推荐多媒体样本作品在当前推荐页面中的位置信息；

基于所述预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集，以对第二推荐模型进行训练，得到在线推荐模型，其中，所述在线推荐模型用于在接收到用户的推荐请求后，响应所述推荐请求，生成对应所述用户的、对多媒体作品库中作品的推荐参数。

可选的，所述基于所述预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集步骤，包括：

根据所述预估推荐结果和预设推荐结果，计算基准推荐结果，根据所述基准推荐结果和所述第一推荐模型的训练样本集，生成第二推荐模型的训练样本集。

可选的，所述根据所述预估推荐结果和预设推荐结果，计算基准推荐结果步骤，包括：

采用如下公式计算基准推荐结果：

L＝a*yl+(1-a)*yt，所述L为所述基准推荐结果，所述yl为所述预设推荐结果，所述yt为所述预估推荐结果，所述a为预设的调整常数，0<a<1。

可选的，

所述第一推荐模型，包含：第一特征提取层和第一特征计算层；

所述第二推荐模型，包含：第二特征提取层和第二特征计算层；

所述预先确定的训练样本集，还包含：用户对所述当前多媒体样本作品的操作数据；

将预先确定的训练样本集输入第一推荐模型，获取所述第一推荐模型对作品信息的预估推荐结果步骤，包括：

将所述邻近信息输入所述第一推荐模型中的第一特征提取层，获得第一特征数据；

将所述多媒体样本作品的操作数据和所述多媒体样本作品的作品信息输入所述第二推荐模型中的第二特征提取层，获得第二特征数据；

将所述第一特征数据和所述第二特征数据输入所述第一推荐模型的第一特征计算层，获得所述第一特征计算层基于所述第一特征数据和所述第二特征数据，计算并输出的预估推荐结果。

可选的，所述基于所述预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集，以对第二推荐模型进行训练，得到在线推荐模型步骤，包括：

基于所述基准推荐结果和所述第二特征数据，根据预设的与第二推荐模型对应的第二损失函数，对所述第二推荐模型中的第二特征提取层和/或第二特征计算层的网络参数进行调整，将调整参数后的第二推荐模型作为在线推荐模型。

可选的，在所述将预先确定的训练样本集输入第一推荐模型，获取所述第一推荐模型对作品信息的预估推荐结果之后，所述方法还包括：

基于所述预估推荐结果和预设推荐结果，根据预设的与第一推荐模型对应的第一损失函数，对所述第一推荐模型的模型参数进行调整，将调整参数后的第一推荐模型作为本次训练后的第一推荐模型。

可选的，所述基于所述预估推荐结果和预设推荐结果，根据预设的与第一推荐模型对应的第一损失函数，对所述第一推荐模型的模型参数进行调整，将调整参数后的第一推荐模型作为本次训练后的第一推荐模型步骤，包括：

基于所述预估推荐结果和预设推荐结果，根据预设的与第一推荐模型对应的第一损失函数，对所述第一推荐模型的中的第一特征提取层和/或第一特征计算层的网络参数进行调整，将调整参数后的第一推荐模型作为本次训练后的第一推荐模型。

可选的，将预先确定的训练样本集输入第一推荐模型之前，所述方法还包括：

获取用户的操作日志，所述操作日志包括当前推荐多媒体样本作品在当前推荐页面中的位置信息，以及所述当前推荐多媒体样本作品在上述操作日志中，之前和之后的多媒体样本作品在当前推荐页面中的位置信息；

基于所述操作日志，生成所述预先确定的训练样本集。

根据本公开实施例的第二方面，提供了一种用于信息推荐的模型训练装置，所述装置应用于电子设备，所述装置包括：

输入单元，被配置为执行将预先确定的训练样本集输入第一推荐模型，获取所述第一推荐模型对作品信息的预估推荐结果，其中，所述训练样本集中至少包括多媒体样本作品的邻近信息，所述多媒体样本作品的邻近信息至少包含当前推荐多媒体样本作品在当前推荐页面中的位置信息；

训练单元，被配置为执行基于所述预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集，以对第二推荐模型进行训练，得到在线推荐模型，其中，所述在线推荐模型用于在接收到用户的推荐请求后，响应所述推荐请求，生成对应所述用户的、对多媒体作品库中作品的推荐参数。

可选的，所述训练单元，具体被配置为执行：

采用如下公式计算基准推荐结果：

可选的，

所述输入单元，具体被配置为执行：

可选的，所述训练单元，具体被配置为执行：

可选的，所述装置还包括：调整单元；

所述调整单元，被配置为执行基于所述预估推荐结果和预设推荐结果，根据预设的与第一推荐模型对应的第一损失函数，对所述第一推荐模型的模型参数进行调整，将调整参数后的第一推荐模型作为本次训练后的第一推荐模型。

可选的，所述调整单元，具体被配置为执行：

可选的，所述装置还包括：获取单元和生成单元；

所述获取单元，被配置为执行获取用户的操作日志，所述操作日志包括当前推荐多媒体样本作品在当前推荐页面中的位置信息，以及所述当前推荐多媒体样本作品在上述操作日志中，之前和之后的多媒体样本作品在当前推荐页面中的位置信息；

所述生成单元，被配置为执行基于所述操作日志，生成所述预先确定的训练样本集。

根据本公开实施例的第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面所述的方法步骤。

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法步骤。

根据本公开实施例的第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本公开实施例提供的一种用于信息推荐的模型训练的方法及装置，电子设备可以将预先确定的训练样本集输入第一推荐模型，获取第一推荐模型对作品信息的预估推荐结果，并基于预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集，以对第二推荐模型进行训练，得到在线推荐模型。通过本公开实施例，电子设备可以在训练第二推荐模型时通过带有邻近信息的预估推荐结果影响第二推荐模型，以使得训练后的第二推荐模型可以更准确的向用户推荐多媒体作品。

当然，实施本公开的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种用于信息推荐的模型训练的方法流程图；

图2为本公开实施例提供的另一种用于信息推荐的模型训练的方法流程图；

图3为本公开实施例提供的另一种用于信息推荐的模型训练的方法流程图；

图4为本公开实施例提供的另一种用于信息推荐的模型训练的方法流程图；

图5为本公开实施例提供的另一种用于信息推荐的模型训练的方法流程图；

图6为本公开实施例提供的另一种用于信息推荐的模型训练的方法流程图；

图7为本公开实施例提供的另一种用于信息推荐的模型训练的方法流程图；

图8为本公开实施例提供的一种用于信息推荐的模型训练的方法流程示意图；

图9为本公开实施例提供的一种用于信息推荐的模型训练的装置的结构示意图；

图10为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例公开了一种用于信息推荐的模型训练方法，该方法应用于电子设备，其中，电子设备中可以包括移动终端、个人计算机(Personal Computer，PC)终端或者服务器等。电子设备可以根据用户输入的指令，打开该指令对应的应用程序。其中，应用程序中可以包含第一推荐模型和第二推荐模型。

第一推荐模型和第二推荐模型为算法模型，第二推荐模型用于在线预估是否推荐各多媒体作品，第一推荐模型用于在离线状态下基于训练集进行训练，第一推荐模型的输出结果可用于第二推荐模型的离线训练过程。当电子设备向第一推荐模型或者第二推荐模型输入用户行为相关的数据时，第一推荐模型或者第二推荐模型可以输出该用户行为相关的数据对应的推荐结果。

多媒体作品为电子设备中某一应用程序中的对象。例如，多媒体可以为视频软件中的视频、社交软件中的图片、阅读软件中的文章或者购物软件中的商品等。

下面将结合具体实施方式，对本公开实施例提供的一种用于信息推荐的模型训练方法进行详细的说明，如图1所示，具体步骤如下：

步骤101、将预先确定的训练样本集输入第一推荐模型，获取第一推荐模型对作品信息的预估推荐结果。

其中，训练样本集中至少包括多媒体样本作品的邻近信息，多媒体样本作品的邻近信息至少包含当前推荐多媒体样本作品在当前推荐页面中的位置信息。

预估推荐结果用于表示多媒体作品是否被推荐的概率，一般用0到1的数值表示，其中，1可以表示推荐概率最大，0可以表示推荐概率最小，例如，若多媒体作品的预估推荐概率为0.9，则电子设备可以向用户推荐该多媒体作品，若多媒体作品的预估推荐概率为0.1，则电子设备可以不向用户推荐该多媒体作品。

步骤102、基于预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集，以对第二推荐模型进行训练，得到在线推荐模型。

其中，在线推荐模型用于在接收到用户的推荐请求后，响应推荐请求，生成对应用户的、对多媒体作品库中作品的推荐参数。

本公开实施例提供一种用于信息推荐的模型训练方法，电子设备可以将预先确定的训练样本集输入第一推荐模型，获取第一推荐模型对作品信息的预估推荐结果，并基于预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集，以对第二推荐模型进行训练，得到在线推荐模型。通过本公开实施例，电子设备可以在训练第二推荐模型时通过带有邻近信息的预估推荐结果影响第二推荐模型，以使得训练后的第二推荐模型可以更准确的向用户推荐多媒体作品。

可选地，本申请实施例中，邻近信息可以是指，当前被推荐视频在页面上的序号，例如，推荐给用户20个视频，邻近信息指的是该推荐给用户的20个视频的序号；进一步地，临近信息还可以包括：当前被推荐视频的前三个视频id，后两个视频id。

可选的，如图2所示，针对上述步骤102中，基于预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集步骤，电子设备具体可以执行为：

步骤1021、根据预估推荐结果和预设推荐结果，计算基准推荐结果，根据基准推荐结果和第一推荐模型的训练样本集，生成第二推荐模型的训练样本集。

其中，基准推荐结果可以作为第二推荐模型的训练样本集中的标注，由于基准推荐结果是根据预估推荐结果和预设推荐结果计算得到的，而预估推荐结果是第一推荐模型至少基于多媒体样本作品的邻近信息输出的推荐结果。

因此，电子设备在基于第二推荐模型的训练样本集对第二推荐模型进行训练时，可以使得第二推荐模型的网络参数被邻近信息所影响，进而使得训练后的第二推荐模型的推荐结果更准确。

可选的，针对上述步骤1021中，根据预估推荐结果和预设推荐结果，计算基准推荐结果步骤，电子设备具体可以执行为：

采用如下公式计算基准推荐结果：

L＝a*yl+(1-a)*yt

其中，L为基准推荐结果，yl为预设推荐结果，yt为预估推荐结果，a为预设的调整常数，0<a<1。

例如，对于某一作品X，其预估推荐结果yt为0.3，预设推荐结果yl为0，调整常数a为0.25，则选品X的基准推荐结果L为0.225，可以理解为，用户对于作品X的喜好程度为0.225(1代表喜好程度最高，0代表喜好程度最低)。

在实际应用中，电子设备可以根据推荐结果的大小以及预设的阈值，判断是否向用户推荐推荐结果对应的选品。

例如，第二推荐模型在线上使用时，若针对作品A输出的推荐结果为0.75，预设阈值为0.5，则电子设备可以推荐该推荐结果对应的作品A。

本公开实施例中，电子设备可以基于本公开实施例提供的公式将预设推荐结果和预估推荐结果合并为基准推荐结果，由于预设推荐结果为一准确的推荐结果，且预估推荐结果是至少基于邻近信息得到的推荐结果，因此，基准推荐结果可以作为第二推荐模型更准确的训练标注。

可选的，如图3所示，针对上述步骤101、将预先确定的训练样本集输入第一推荐模型，获取第一推荐模型对作品信息的预估推荐结果，电子设备具体可以执行以下步骤：

步骤1011、将邻近信息输入第一推荐模型中的第一特征提取层，获得第一特征数据。

其中，第一推荐模型中包含第一特征提取层和第一特征计算层。

第一特征提取层用于提取邻近信息的特征向量，第一特征计算层用于计算特征向量对应的特征数据。

步骤1012、将多媒体样本作品的操作数据和多媒体样本作品的作品信息输入第二推荐模型中的第二特征提取层，获得第二特征数据。

其中，第二推荐模型中包含第二特征提取层和第二特征计算层，预先确定的训练样本集还包含用户对当前多媒体样本作品的操作数据。

第二特征提取层用于提取多媒体样本作品的操作数据和多媒体样本作品的作品信息的特征向量，第二特征计算层用于计算特征向量对应的特征数据。

步骤1013、将第一特征数据和第二特征数据输入第一推荐模型的第一特征计算层，获得第一特征计算层基于第一特征数据和第二特征数据，计算并输出的预估推荐结果。

本公开实施例中，预估推荐结果是第一特征计算层同时基于用户对多媒体样本作品的操作数据，和多媒体样本作品的邻近信息计算得到的推荐结果，该预估推荐结果受到邻近信息的影响，因此，该预估推荐结果可以更准确的反映用户对应的推荐结果。

可选的，如图4所示，结合图3所述内容，上述步骤102、基于预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集，以对第二推荐模型进行训练，得到在线推荐模型，电子设备具体还可以执行为：

1022、基于基准推荐结果和第二特征数据，根据预设的与第二推荐模型对应的第二损失函数，对第二推荐模型中的第二特征提取层和/或第二特征计算层的网络参数进行调整，将调整参数后的第二推荐模型作为在线推荐模型。

电子设备对第二特征提取层的网络参数进行调整后，可以使得第二特征提取层的网络参数受到邻近信息的影响，进而使得多媒体作品对应的特征向量更加准确。

电子设备对第二特征计算层的网络参数进行调整后，可以使得第二特征计算层的网络参数受到邻近信息的影响，进而使得多媒体作品对应的推荐结果更加准确。

因此，在实际应用中，电子设备得到基准推荐结果和第二特征数据后，可以基于第二损失函数，单独对第二推荐模型中的第二特征提取层的网络参数进行调整，也可以单独对第二推荐模型中的第二特征计算层的网络参数进行调整，还可以同时对第二特征提取层和第二特征计算层的网络参数进行调整。

在电子设备训练第二推荐模型后，可以将训练后的第二推荐模型部署至线上，并用于向用户推荐多媒体作品。

在实际应用中，电子设备可以根据训练后的第二推荐模型输出推荐结果的大小以及预设推荐阈值，判断是否向用户推荐推荐结果对应的多媒体作品。

例如，当第二推荐模型在线上使用时，若针对多媒体作品A输出的推荐结果为0.75，预设推荐阈值为0.5，则电子设备可以向用户推荐该多媒体作品A。

可选的，如图5所示，结合图3或者图4所述内容，在上述步骤101、将预先确定的训练样本集输入第一推荐模型，获取第一推荐模型对作品信息的预估推荐结果之后，电子设备还可以执行：

步骤501、基于预估推荐结果和预设推荐结果，根据预设的与第一推荐模型对应的第一损失函数，对第一推荐模型的模型参数进行调整，将调整参数后的第一推荐模型作为本次训练后的第一推荐模型。

在一种可实现方式中，电子设备可以基于交叉熵函数(第一损失函数)，对第一推荐模型的模型参数进行调整。

电子设备也可以基于相关技术中其他可用的函数作为第一损失函数，本公开实施例不做过多赘述。

由于第一推荐模型用于输出预估推荐结果，而预估推荐结果用于训练第二推荐模型，因此，电子设备在对第一推荐模型的模型参数进行调整后，可以使得预估推荐结果更加准确，进而使得训练后的第二推荐模型可以更准确的输出推荐结果。

可选的，针对上述步骤501、基于预估推荐结果和预设推荐结果，根据预设的与第一推荐模型对应的第一损失函数，对第一推荐模型的模型参数进行调整，将调整参数后的第一推荐模型作为本次训练后的第一推荐模型，电子设备具体可以执行为：

基于预估推荐结果和预设推荐结果，根据预设的与第一推荐模型对应的第一损失函数，对第一推荐模型的中的第一特征提取层和/或第一特征计算层的网络参数进行调整，将调整参数后的第一推荐模型作为本次训练后的第一推荐模型。

可选的，如图6所示，在上述步骤101，将预先确定的训练样本集输入第一推荐模型步骤之前，电子设备还可以生成训练样本集，具体步骤如下：

步骤601、获取用户的操作日志。

其中，操作日志包括当前推荐多媒体样本作品在当前推荐页面中的位置信息，以及当前推荐多媒体样本作品在上述操作日志中，之前和之后的多媒体样本作品在当前推荐页面中的位置信息。

例如，对于某视频应用软件，用户在观看视频A之前观看了视频B，并对视频B进行评论，用户在观看视频A之后观看了视频C，并观看了视频C三秒，则该用户的邻近信息为：在观看视频A之前观看视频B，并对视频B进行评论以及在观看视频A之后观看视频C，并观看了视频C三秒。

步骤602、基于操作日志，生成预先确定的训练样本集。

本公开实施例中，由于预先确定的训练样本集中包括了邻近信息，所以电子设备基于该确定的训练样本集，可以使得第二推荐模型的模型参数更加准确。

如图7所示，图7为本公开实施例公开的一种用于信息推荐的模型训练方法在实际应用中可实施的示例，该示例包括以下步骤：

步骤701、当确定对当前线上信息推荐模型进行训练时，获取用于本次训练的目标用户的至少一个样本数据。

其中，邻近信息具体指的是，当前被推荐视频在页面上的序号，例如，推荐给用户20个视频，邻近信息指的是该推荐给用户的20个视频的序号；进一步地，临近信息还可以包括：当前被推荐视频的前三个视频id，后两个视频id。

其中，每个样本数据包括：目标用户对目标多媒体作品的一次操作数据，以及目标用户对目标多媒体作品进行操作的上下文数据(邻近信息)。上下文数据包括：目标用户在进行该次操作的前后所操作的多媒体作品及操作顺序数据。

步骤702、获得预设的与当前线上信息推荐模型对应的第一推荐模型。

步骤703、由第一推荐模型，基于第一特征数据和第二特征数据，计算并输出目标用户对目标多媒体作品第一推荐概率。

其中，第一特征数据为：从样本数据的上下文数据中提取的，表征该次操作的前后所操作的多媒体作品的操作顺序特征。

第二特征数据为：从样本数据中的一次操作数据中提取的，表征该次操作行为的操作行为特征。

步骤704、由第二推荐模型，基于第二特征数据，计算并输出目标用户对目标多媒体作品的第二推荐概率。

其中，第二推荐模型为当前线上信息推荐模型的副本。

步骤705、基于第一推荐概率、第二推荐概率和预设推荐概率，根据预设的与第二推荐模型对应的第二损失函数对第二推荐模型的模型参数进行调整，将调整参数后的第二推荐模型作为本次训练后的信息推荐模型。

本公开实施例中，电子设备根据第一推荐模型输出的第一推荐概率对第二推荐模型进行训练。这样，电子设备可以在训练第二推荐模型时通过带有邻近信息的推荐结果影响第二推荐模型，以使得训练后的第二推荐模型部署至线上后，可以更准确的向用户推荐选品。

如图8所示，图8为本公开实施例结合图7所述内容，提供的一种用于信息推荐的模型训练方法的流程示意图。

其中，第一特征数据以及第二特征数据在第一推荐模型的网络以及第二推荐模型的网络之间共享，即同一多媒体作品在第一推荐模型中的特征向量与该多媒体作品在第二推荐模型中的特征向量相同。

而且，电子设备还可以将第一推荐模型的输出作为第二推荐模型的一部分训练标注，使得第二推荐模型的模型网络参数被邻近信息所影响，进而使得训练后的第二推荐模型部署至线上后，可以更准确的向用户推荐选品。

基于相同的技术构思，本公开实施例还提供了一种用于信息推荐的模型训练的装置，如图9所示，该装置包括：输入单元901和训练单元902；

输入单元901，被配置为执行将预先确定的训练样本集输入第一推荐模型，获取第一推荐模型对作品信息的预估推荐结果，其中，训练样本集中至少包括多媒体样本作品的邻近信息，多媒体样本作品的邻近信息至少包含当前推荐多媒体样本作品在当前推荐页面中的位置信息；

训练单元902，被配置为执行基于预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集，以对第二推荐模型进行训练，得到在线推荐模型，其中，在线推荐模型用于在接收到用户的推荐请求后，响应推荐请求，生成对应用户的、对多媒体作品库中作品的推荐参数。

可选的，训练单元902，具体被配置为执行：

根据预估推荐结果和预设推荐结果，计算基准推荐结果，根据基准推荐结果和第一推荐模型的训练样本集，生成第二推荐模型的训练样本集。

可选的，训练单元902，具体被配置为执行：

采用如下公式计算基准推荐结果：

L＝a*yl+(1-a)*yt，L为基准推荐结果，yl为预设推荐结果，yt为预估推荐结果，a为预设的调整常数，0<a<1。

可选的，

第一推荐模型，包含：第一特征提取层和第一特征计算层；

第二推荐模型，包含：第二特征提取层和第二特征计算层；

预先确定的训练样本集，还包含：用户对当前多媒体样本作品的操作数据；

输入单元901，具体被配置为执行：

将邻近信息输入第一推荐模型中的第一特征提取层，获得第一特征数据；

将多媒体样本作品的操作数据和多媒体样本作品的作品信息输入第二推荐模型中的第二特征提取层，获得第二特征数据；

将第一特征数据和第二特征数据输入第一推荐模型的第一特征计算层，获得第一特征计算层基于第一特征数据和第二特征数据，计算并输出的预估推荐结果。

可选的，训练单元902，具体被配置为执行：

基于基准推荐结果和第二特征数据，根据预设的与第二推荐模型对应的第二损失函数，对第二推荐模型中的第二特征提取层和/或第二特征计算层的网络参数进行调整，将调整参数后的第二推荐模型作为在线推荐模型。

可选的，该装置还包括：调整单元；

调整单元，被配置为执行基于预估推荐结果和预设推荐结果，根据预设的与第一推荐模型对应的第一损失函数，对第一推荐模型的模型参数进行调整，将调整参数后的第一推荐模型作为本次训练后的第一推荐模型。

可选的，调整单元，具体被配置为执行：

可选的，该装置还包括：获取单元和生成单元；

获取单元，被配置为执行获取用户的操作日志，操作日志包括当前推荐多媒体样本作品在当前推荐页面中的位置信息，以及当前推荐多媒体样本作品在上述操作日志中，之前和之后的多媒体样本作品在当前推荐页面中的位置信息；

生成单元，被配置为执行基于操作日志，生成预先确定的训练样本集。

本公开实施例提供一种用于信息推荐的模型训练的装置，电子设备可以将预先确定的训练样本集输入第一推荐模型，获取第一推荐模型对作品信息的预估推荐结果，并基于预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集，以对第二推荐模型进行训练，得到在线推荐模型。通过本公开实施例，电子设备可以在训练第二推荐模型时通过带有邻近信息的预估推荐结果影响第二推荐模型，以使得训练后的第二推荐模型可以更准确的向用户推荐多媒体作品。

图10是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图10，电子设备可以包括以下一个或多个组件：处理组件1002，存储器1004，电源组件1006，多媒体组件1008，音频组件1010，输入/输出(I/O)接口1012，传感器组件1014，以及通信组件1016。

处理组件1002通常控制电子设备的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1002可以包括一个或多个模块，便于处理组件1002和其他组件之间的交互。例如，处理组件1002可以包括多媒体模块，以方便多媒体组件1008和处理组件1002之间的交互。

存储器1004被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1006为电子设备的各种组件提供电力。电源组件1006可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

多媒体组件1008包括在所述装置和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1008包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1010被配置为输出和/或输入音频信号。例如，音频组件1010包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中，音频组件1010还包括一个扬声器，用于输出音频信号。

I/O接口1012为处理组件1002和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1014包括一个或多个传感器，用于为电子设备提供各个方面的状态评估。例如，传感器组件1014可以检测到电子设备的打开/关闭状态，组件的相对定位，例如所述组件为电子设备的显示器和小键盘，传感器组件1014还可以检测电子设备或电子设备一个组件的位置改变，用户与电子设备接触的存在或不存在，电子设备方位或加速/减速和电子设备的温度变化。传感器组件1014可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1014还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1016被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1016还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器1004，上述指令可由电子设备的处理器1020执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

需要说明的是，本申请涉及的用户的操作信息等，均是经用户授权而采集并进行后续处理分析的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种用于信息推荐的模型训练方法，其特征在于，所述方法包括：

将预先确定的训练样本集输入第一推荐模型，获取所述第一推荐模型对作品信息的预估推荐结果，其中，所述训练样本集中至少包括多媒体样本作品的邻近信息和用户对所述多媒体样本作品的操作数据，所述多媒体样本作品的邻近信息至少包含当前推荐多媒体样本作品在当前推荐页面中的位置信息，所述第一推荐模型，包含：第一特征提取层和第一特征计算层；

基于所述预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集，以对第二推荐模型进行训练，得到在线推荐模型，其中，所述在线推荐模型用于在接收到用户的推荐请求后，响应所述推荐请求，生成对应所述用户的、对多媒体作品库中作品的推荐参数，所述第二推荐模型，包含：第二特征提取层和第二特征计算层；

其中，所述将预先确定的训练样本集输入第一推荐模型，获取所述第一推荐模型对作品信息的预估推荐结果的步骤，包括：

将所述邻近信息输入所述第一推荐模型中的第一特征提取层，获得第一特征数据；将所述多媒体样本作品的操作数据和所述多媒体样本作品的作品信息输入所述第二推荐模型中的第二特征提取层，获得第二特征数据；将所述第一特征数据和所述第二特征数据输入所述第一推荐模型的第一特征计算层，获得所述第一特征计算层基于所述第一特征数据和所述第二特征数据，计算并输出的预估推荐结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述预估推荐结果和预设推荐结果，计算基准推荐结果步骤，包括：

采用如下公式计算基准推荐结果：

4.根据权利要求1所述的方法，其特征在于，所述基于所述预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集，以对第二推荐模型进行训练，得到在线推荐模型步骤，包括：

基于基准推荐结果和所述第二特征数据，根据预设的与第二推荐模型对应的第二损失函数，对所述第二推荐模型中的第二特征提取层和/或第二特征计算层的网络参数进行调整，将调整参数后的第二推荐模型作为在线推荐模型，其中，所述基准推荐结果是根据所述预估推荐结果和预设推荐结果计算得到的。

5.根据权利要求1或4所述的方法，其特征在于，在所述将预先确定的训练样本集输入第一推荐模型，获取所述第一推荐模型对作品信息的预估推荐结果之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述预估推荐结果和预设推荐结果，根据预设的与第一推荐模型对应的第一损失函数，对所述第一推荐模型的模型参数进行调整，将调整参数后的第一推荐模型作为本次训练后的第一推荐模型步骤，包括：

7.根据权利要求1所述的方法，其特征在于，将预先确定的训练样本集输入第一推荐模型之前，所述方法还包括：

基于所述操作日志，生成所述预先确定的训练样本集。

8.一种用于信息推荐的模型训练装置，其特征在于，所述装置包括：

输入单元，被配置为执行将预先确定的训练样本集输入第一推荐模型，获取所述第一推荐模型对作品信息的预估推荐结果，其中，所述训练样本集中至少包括多媒体样本作品的邻近信息和用户对所述多媒体样本作品的操作数据，所述多媒体样本作品的邻近信息至少包含当前推荐多媒体样本作品在当前推荐页面中的位置信息，所述第一推荐模型，包含：第一特征提取层和第一特征计算层；

训练单元，被配置为执行基于所述预估推荐结果和预先确定的训练样本集，生成第二推荐模型的训练样本集，以对第二推荐模型进行训练，得到在线推荐模型，其中，所述在线推荐模型用于在接收到用户的推荐请求后，响应所述推荐请求，生成对应所述用户的、对多媒体作品库中作品的推荐参数，所述第二推荐模型，包含：第二特征提取层和第二特征计算层；

其中，所述输入单元，具体被配置为执行：

9.根据权利要求8所述的装置，其特征在于，所述训练单元，具体被配置为执行：

10.根据权利要求9所述的装置，其特征在于，所述训练单元，具体被配置为执行：

采用如下公式计算基准推荐结果：

11.根据权利要求8所述的装置，其特征在于，所述训练单元，具体被配置为执行：

12.根据权利要求8或11所述的装置，其特征在于，所述装置还包括：调整单元；

13.根据权利要求12所述的装置，其特征在于，所述调整单元，具体被配置为执行：

14.根据权利要求8所述的装置，其特征在于，所述装置还包括：获取单元和生成单元；

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。