CN114461871B

CN114461871B - 推荐模型训练方法、对象推荐方法、装置及存储介质

Info

Publication number: CN114461871B
Application number: CN202111571317.7A
Authority: CN
Inventors: 王龙甫; 方美玲
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2023-03-28
Anticipated expiration: 2041-12-21
Also published as: CN114461871A

Abstract

本公开关于一种推荐模型训练方法、对象推荐方法、装置及存储介质。该方法包括：获取多个第一样本训练数据、多个第二样本训练数据以及对应的标签信息，多个第二样本训练数据是基于多个第一样本训练数据与样本交互信息得到的；将多个第一样本训练数据输入第一模型，得到第一预测结果；将多个第二样本训练数据输入第二模型，得到第二预测结果；第二模型为预先训练的、满足预设收敛条件的预设机器学习模型；基于第一预测结果、第二预测结果和标签信息，训练第一模型和第二模型，直至第一模型满足预设条件，将满足预设条件的第一模型作为目标推荐模型。本公开提供的技术方案可以提升目标推荐模型的精度。

Description

推荐模型训练方法、对象推荐方法、装置及存储介质

技术领域

本公开涉及互联网应用技术领域，尤其涉及一种推荐模型训练方法、对象推荐方法、装置及存储介质。

背景技术

近年来，深度学习技术在众多领域得到了广泛应用。同时，深度学习模型结构也变得越来越复杂，网络越来越深，模型参数数量越来越多，对系统性能挑战也越来越大。在推荐场景中，一般粗排模型的模型结构比精排模型的结构简单，但推荐精准度不如精排模型。为了均衡模型复杂度和推荐精度，一般使用蒸馏的方法，让粗排模型(学生模型)去学习精排模型(教师模型)的知识。

相关技术中，一般选择离线蒸馏，整个训练过程有两个阶段。首先，离线训练教师模型；然后利用教师模型指导学生模型学习。或者选择在线蒸馏，即教师模型和学生模型同时从零开始训练更新，整个学习过程是端到端的框架。前者导致学生模型只学习到教师模型最后一层输出信息，教师模型得到的知识有限，效果更差。后者由于教师模型还没训练充分，使得教师模型可能被学生模型带偏，且这样的教师模型用于指导学生模型也不准确。

发明内容

本公开提供一种推荐模型训练方法、对象推荐方法、装置及存储介质，本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种推荐模型训练方法，包括：

获取多个第一样本训练数据、多个第二样本训练数据以及对应的标签信息，所述多个第一样本训练数据是基于多个样本用户账号的样本用户关联信息和多个样本对象各自的样本对象关联信息得到的，所述多个第二样本训练数据是基于所述多个第一样本训练数据与样本交互信息得到的，所述样本交互信息为所述多个样本用户账号与所述多个样本对象的样本交互信息；

将所述多个第一样本训练数据输入第一模型，得到第一预测结果；

将所述多个第二样本训练数据输入第二模型，得到第二预测结果；所述第二模型为预先训练的、满足预设收敛条件的预设机器学习模型；

基于所述第一预测结果、所述第二预测结果和所述标签信息，训练所述第一模型和所述第二模型，直至第一模型满足预设条件，将满足预设条件的第一模型作为目标推荐模型。

在一种可能的实现方式中，所述获取多个第一样本训练数据、多个第二样本训练数据，包括：

获取多个样本用户账号各自的样本用户关联信息、多个样本对象各自的样本对象关联信息、以及所述多个样本用户账号与所述多个样本对象的样本交互信息；所述样本用户关联信息是基于所述样本用户账号的样本用户属性信息和样本历史行为信息得到的；

将多个样本用户关联信息与多个样本对象关联信息进行组合处理，得到所述多个第一样本训练数据；

基于所述多个第一样本训练数据以及对应的样本交互信息，得到第二样本训练数据。

在一种可能的实现方式中，所述基于所述第一预测结果、所述第二预测结果和所述标签信息，训练所述第一模型和所述第二模型，直至第一模型满足预设条件，将满足预设条件的第一模型作为目标推荐模型，包括：

根据所述第一预测结果和所述标签信息，确定第一损失信息；

根据所述第一预测结果和所述第二预测结果，确定第二损失信息；

根据所述第二预测结果和所述标签信息，确定第三损失信息；

利用所述第一损失信息和所述第二损失信息训练所述第一模型，并利用所述第三损失信息训练所述第二模型以更新第二模型，直至第一模型满足预设条件，将满足所述预设条件的第一模型作为目标推荐模型。

在一种可能的实现方式中，所述获取多个样本用户账号各自的样本用户关联信息，包括：

获取所述样本用户账号的样本用户基础属性信息、关联设备信息、关联网络环境信息、所述样本用户账号关联的第一样本账号信息、所述样本用户账号与历史交互对象的历史操作信息；其中，所述历史交互对象为所述样本用户账号执行过预设操作的对象；

根据所述样本用户基础属性信息、所述关联设备信息和所述关联网络环境信息中的至少一种，获取所述样本用户账号的样本用户属性信息；

基于所述第一样本账号信息和所述历史操作信息，获取所述多个样本用户账号各自的样本历史行为信息；

基于所述样本属性信息和所述样本历史行为信息，获取所述多个样本用户账号各自的样本用户关联信息。

在一种可能的实现方式中，所述获取多个样本对象各自的样本对象关联信息，包括：

获取所述样本对象对应的第二样本账号信息以及所述样本对象的样本对象信息；

基于所述第二样本账号信息和所述样本对象信息，获取所述多个样本对象各自的样本对象关联信息。

在一种可能的实现方式中，在所述多个样本对象为多个样本直播间、所述历史交互对象为历史直播间的情况下，所述获取样本用户账号关联的第一样本账号信息、所述样本用户账号与历史交互对象的历史操作信息，包括：

获取所述样本用户账号关联的第一主播账号信息和所述样本用户账号在历史直播间中的所述历史操作信息。

在一种可能的实现方式中，所述第二样本账号信息为第二主播账号信息，所述获取所述样本对象对应的第二样本账号信息以及所述样本对象的样本对象信息，包括：

获取所述多个样本直播间对应的第二主播账号信息、所述多个样本直播间的样本展示信息以及所述多个样本直播间的样本等级信息；

基于所述样本展示信息和所述样本等级信息，获取所述样本对象信息。

在一种可能的实现方式中，所述获取所述多个样本用户账号与所述多个样本对象的样本交互信息，包括：

获取所述样本用户账号在所述多个样本直播间的样本时长信息和所述样本用户账号在所述多个样本直播间的操作类别信息；

基于所述样本时长信息和/或所述操作类别信息，获取所述多个样本用户账号与所述多个样本对象的样本交互信息。

根据本公开实施例的第二方面，提供一种对象推荐方法，包括：

接收目标用户账号的推荐请求，获取所述目标用户账号的目标用户关联信息、以及待推荐的多个对象；

确定所述多个对象各自的目标对象关联信息；

将所述目标用户关联信息和所述目标对象关联信息输入目标推荐模型，进行推荐预测处理，得到推荐预测结果；其中，所述目标推荐模型是基于上述第一方面中任一项所述的方法得到的；

基于所述推荐预测结果，从所述多个对象中确定向所述目标用户账号推荐的目标对象。

根据本公开实施例的第三方面，提供一种推荐模型训练装置，包括：

第一获取模块，被配置为执行获取多个第一样本训练数据、多个第二样本训练数据以及对应的标签信息，所述多个第一样本训练数据是基于多个样本用户账号的样本用户关联信息和多个样本对象各自的样本对象关联信息得到的，所述多个第二样本训练数据是基于所述多个第一样本训练数据与样本交互信息得到的，所述样本交互信息为所述多个样本用户账号与所述多个样本对象的样本交互信息；

第一预测模块，被配置为执行将所述多个第一样本训练数据输入第一模型，得到第一预测结果；

第二预测模块，被配置为执行将所述多个第二样本训练数据输入第二模型，得到第二预测结果；所述第二模型为预先训练的、满足预设收敛条件的预设机器学习模型；

训练模块，被配置为执行基于所述第一预测结果、所述第二预测结果和所述标签信息，训练所述第一模型和所述第二模型，直至第一模型满足预设条件，将满足预设条件的第一模型作为目标推荐模型。

在一种可能的实现方式中，所述第一获取模块包括：

第一获取单元，被配置为执行获取多个样本用户账号各自的样本用户关联信息、多个样本对象各自的样本对象关联信息、以及所述多个样本用户账号与所述多个样本对象的样本交互信息；所述样本用户关联信息是基于所述样本用户账号的样本用户属性信息和样本历史行为信息得到的；

第一样本训练数据获取单元，被配置为执行将多个样本用户关联信息与多个样本对象关联信息进行组合处理，得到所述多个第一样本训练数据；

第二样本训练数据获取单元，被配置为执行基于所述多个第一样本训练数据以及对应的样本交互信息，得到第二样本训练数据。

在一种可能的实现方式中，所述训练模块包括：

第一损失确定单元，被配置为执行根据所述第一预测结果和所述标签信息，确定第一损失信息；

第二损失确定单元，被配置为执行根据所述第一预测结果和所述第二预测结果，确定第二损失信息；

第三损失确定单元，被配置为执行根据所述第二预测结果和所述标签信息，确定第三损失信息；

训练单元，被配置为执行利用所述第一损失信息和所述第二损失信息训练所述第一模型，并利用所述第三损失信息训练所述第二模型以更新第二模型，直至第一模型满足预设条件，将满足所述预设条件的第一模型作为目标推荐模型。

在一种可能的实现方式中，所述第一获取单元包括：

第一获取子单元，被配置为执行获取所述样本用户账号的样本用户基础属性信息、关联设备信息、关联网络环境信息、所述样本用户账号关联的第一样本账号信息、所述样本用户账号与历史交互对象的历史操作信息；其中，所述历史交互对象为所述样本用户账号执行过预设操作的对象；

第二获取子单元，被配置为执行根据所述样本用户基础属性信息、所述关联设备信息和所述关联网络环境信息中的至少一种，获取所述样本用户账号的样本用户属性信息；

第三获取子单元，被配置为执行基于所述第一样本账号信息和所述历史操作信息，获取所述多个样本用户账号各自的样本历史行为信息；

第四获取子单元，被配置为执行基于所述样本属性信息和所述样本历史行为信息，获取所述多个样本用户账号各自的样本用户关联信息。

在一种可能的实现方式中，所述第一获取单元包括：

第五获取子单元，被配置为执行获取所述样本对象对应的第二样本账号信息以及所述样本对象的样本对象信息；

第六获取子单元，被配置为执行基于所述第二样本账号信息和所述样本对象信息，获取所述多个样本对象各自的样本对象关联信息。

在一种可能的实现方式中，在所述多个样本对象为多个样本直播间、所述历史交互对象为历史直播间的情况下，所述第一获取子单元，还被配置为执行获取所述样本用户账号关联的第一主播账号信息和所述样本用户账号在历史直播间中的所述历史操作信息。

在一种可能的实现方式中，所述第二样本账号信息为第二主播账号信息，所述第五获取子单元包括：

信息获取子单元，被配置为执行获取所述多个样本直播间对应的第二主播账号信息、所述多个样本直播间的样本展示信息以及所述多个样本直播间的样本等级信息；

样本对象信息获取子单元，被配置为执行基于所述样本展示信息和所述样本等级信息，获取所述样本对象信息。

在一种可能的实现方式中，所述第一获取单元包括：

第七获取子单元，被配置为执行获取所述样本用户账号在所述多个样本直播间的样本时长信息和所述样本用户账号在所述多个样本直播间的操作类别信息；

第八获取子单元，被配置为执行基于所述样本时长信息和/或所述操作类别信息，获取所述多个样本用户账号与所述多个样本对象的样本交互信息。

根据本公开实施例的第四方面，提供一种对象推荐装置，包括：

第二获取模块，被配置为执行接收目标用户账号的推荐请求，获取所述目标用户账号的目标用户关联信息、以及待推荐的多个对象；

目标对象关联信息确定模块，被配置为执行确定所述多个对象各自的目标对象关联信息；

推荐预测模块，被配置为执行将所述目标用户关联信息和所述目标对象关联信息输入目标推荐模型，进行推荐预测处理，得到推荐预测结果；其中，所述目标推荐模型为上述第三方面中任一项所述的目标推荐模型；

推荐模块，被配置为执行基于所述推荐预测结果，从所述多个对象中确定向所述目标用户账号推荐的目标对象。

根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的方法或实现上述第二方面所述的方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一方面中任一所述的方法或实现上述第二方面所述的方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时，使得计算机执行本公开实施例的第一方面中任一项所述的方法或实现上述第二方面所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过设置第二模型为预先训练的、满足预设收敛条件的预设机器学习模型，可以保证第二模型为热启动状态，避免训练中被第一模型带偏，可以提升知识蒸馏的精准性；并且由于第二模型参与第一模型的同步训练，使得第一模型不仅可以学习到第二模型的输出知识，还可以学习到第二模型的端到端知识，进一步提升了知识蒸馏的精准性，从而可以提升目标推荐模型在对象推荐中的推荐精准度；另外，第二模型的输入中还包括了样本交互信息，线上应用时，用户账号与待推荐对象的交互信息是没有的，这里通过第二模型的学习，不仅可以把交互信息的知识蒸馏给第一模型，还可以保证第一模型训练和应用中输入的一致性，即提升了目标推荐模型的知识丰富性，又可以保证训练和应用的输入一致性，从而可以保证目标推荐模型的推荐效果，使得推荐应用时可以不需要使用精排模型，在保证推荐精准度的情况下，提高推荐效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用环境的示意图。

图2是根据一示例性实施例示出的一种推荐模型训练方法的流程图。

图3是根据一示例性实施例示出的一种训练架构示意图。

图4是根据一示例性实施例示出的一种获取多个第一样本训练数据、多个第二样本训练数据的方法流程图。

图5是根据一示例性实施例示出的一种获取多个样本用户账号各自的样本用户关联信息的方法流程图。

图6是根据一示例性实施例示出的一种对象推荐方法的流程图。

图7是根据一示例性实施例示出的一种推荐模型训练装置框图。

图8是根据一示例性实施例示出的一种对象推荐装置框图。

图9是根据一示例性实施例示出的一种用于对象推荐的电子设备的框图。

图10是根据一示例性实施例示出的一种用于推荐模型训练的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

近年来，随着人工智能技术研究和进步，人工智能技术在多个领域得到广泛应用，本申请实施例提供的方案涉及机器学习/深度学习等技术，具体通过如下实施例进行说明：

请参阅图1，图1是根据一示例性实施例示出的一种应用环境的示意图，如图1所示，该应用环境可以包括服务器01和终端02。

在一个可选的实施例中，服务器01可以用于目标推荐模型的训练处理。具体的，服务器01可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个可选的实施例中，终端02可以用于发送推荐请求并展示目标目标对象。具体的，终端02可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备等类型的电子设备。可选的，电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

此外，需要说明的是，图1所示的仅仅是本公开提供的推荐模型训练以及对象推荐方法的一种应用环境。

本说明书实施例中，上述服务器01以及终端02可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

需要说明的是，以下图中示出的是一种可能的步骤顺序，实际上并不限定必须严格按照此顺序。有些步骤可以在互不依赖的情况下并行执行。本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户行为信息等)和数据(包括但不限于用于展示的数据、训练的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

图2是根据一示例性实施例示出的一种推荐模型训练方法的流程图。如图2所示，可以包括以下步骤。

在步骤S201中，获取多个第一样本训练数据、多个第二样本训练数据以及对应的标签信息。

其中，多个第一样本训练数据是基于多个样本用户账号的样本用户关联信息和多个样本对象各自的样本对象关联信息得到的；多个第二样本训练数据是基于多个第一样本训练数据与样本交互信息得到的，该样本交互信息可以为多个样本用户账号与多个样本对象的样本交互信息。例如，一个第一样本训练数据H中的样本用户账号为U1、样本对象为M1，该第一样本训练数据H对应的样本交互信息可以是U1与M1的交互信息，在M1为多媒体的情况下，样本交互信息可以是U1观看M1的时长信息；在M1为样本直播间的情况下，样本交互信息可以是U1在M1中的时长信息。从而可以将第一样本训练数据H和对应的样本时长信息作为一个第二样本训练数据Q，该第一样本训练数据H的标签信息和第二样本训练数据Q的标签信息可以相同。

本说明书实施例中，标签信息可以是指一个样本训练数据(第一样本训练数据或第二样本训练数据)中样本用户账号与样本对象的交互行为信息，例如交互行为的二分类信息。比如是否进入样本直播间、是否关注样本直播间、是否在样本直播间下单、是否点赞样本多媒体资源等，可以根据推荐目标进行标签信息的设置，其中，二分类信息可以利用0和1表示，本公开对这些均不作限定。其中，样本对象可以是能够用于推荐的对象，例如样本对象可以是样本直播间、样本多媒体、样本广告等，本公开对此不作限定。

作为一个示例，样本用户关联信息可以是指与样本用户关联的信息，样本对象关联信息可以是指与样本对象关联的信息。例如可以获取多个样本用户账号的样本用户属性信息作为样本用户关联信息，例如样本用户属性信息可以包括样本用户账号的标识信息、年龄信息、偏好信息等。在样本对象为样本多媒体时，可以获取样本多媒体的发布者信息和样本多媒体的内容信息作为样本对象关联信息；在样本对象为样本直播间时，可以获取样本直播间对应的主播账号、样本直播间的观众累计数量、展示物品的品类、展示物品的交互量(比如订单量)等，作为样本对象信息。本公开对这些均不作限定。

在步骤S203中，将多个第一样本训练数据输入第一模型，得到第一预测结果。

本说明书实施例中，如图3所示，可以将多个第一样本训练数据输入第一模型(学生模型)，进行预设交互行为的预测处理(推荐预测处理)，得到第一预测结果。这里进行的推荐预测处理可以是进行样本用户账号对样本对象执行预设交互行为的预测，即预设任务的预测，比如是否对样本对象进行点击，是否关注样本对象等。相应地，这里的第一预测结果可以是0或1，其中0代表不会执行预设交互行为，1可以代表会执行预设交互行为。本公开对预设交互行为不作限定，只要能有效表征样本对象向样本用户账号的推荐概率即可。

在步骤S205中，将多个第二样本训练数据输入第二模型，得到第二预测结果；该第二模型(教师模型)为预先训练的、满足预设收敛条件的预设机器学习模型，第二模型的网络结构比第一模型的网络结构复杂。

本说明书实施例中，预设收敛条件可以是预先训练中达到训练迭代次数或者在线上使用时长达到预设时长等。即第二模型不是从零开始参与推荐模型训练的，是热启动状态的第二模型。作为一个示例，可以从满足预设收敛条件的预设机器学习模型(如图3所示的精排模型)的checkpoint文件中导出模型参数，得到第二模型，保证第二模型的热启动。从而可以将多个第二样本训练数据输入第二模型，进行预设交互行为的处理，得到第二预测结果。该第二预测结果与上述第一预测结果相同，在此不再赘述。其中，精排模型可以是对象推荐场景中、在粗排模型之后的精排模型。

需要说明的是，第一样本训练数据和第二样本训练数据可以是特征向量的形式。

在步骤S207中，基于第一预测结果、第二预测结果和标签信息，训练第一模型和第二模型，直至第一模型满足预设条件，将满足预设条件的第一模型作为目标推荐模型。

在一种可能的实现方式中，可以通过以下步骤实现该步骤S207：

根据第一预测结果和标签信息，确定第一损失信息；

根据第一预测结果和第二预测结果，确定第二损失信息；

根据第二预测结果和标签信息，确定第三损失信息；

利用第一损失信息和第二损失信息训练第一模型，并利用第三损失信息训练第二模型以更新第二模型，直至第一模型满足预设条件，将满足该预设条件的第一模型作为目标推荐模型。其中，可以获取第一损失信息与第二损失信息的加权损失信息，从而利用加权损失信息训练第一模型。每一次训练迭代周期中，更新第一模型和第二模型的模型参数后，可以判断学习模型是否满足预设条件，例如第一模型对应的第一预测结果与标签信息的第一损失信息是否小于损失阈值，如果是，可以将满足预设条件的第一模型作为目标推荐模型。如果不是，可以进入下一训练迭代周期，重复上述S203～S207，直至第一模型满足预设条件为止。其中，每个训练迭代周期使用的第一模型和第二模型均是上一训练迭代周期更新的第一模型和更新的第二模型。

本说明书实施例中，可以基于预设损失函数确定上述第一损失信息、第二损失信息和第三损失信息，本公开对预设损失函数不作限定，例如交叉熵损失函数等。进一步地，可以基于这些损失信息，训练第一模型和第二模型，使得训练中第二模型是迭代更新的，第一模型不仅可以学习到第二模型的最后一层知识，还可以学习到第二模型端到端训练的知识，这使得第二模型至第一模型的知识蒸馏更加精准。

通过设置第二模型为预先训练的、满足预设收敛条件的预设机器学习模型，可以保证第二模型为热启动状态，避免训练中被第一模型带偏，可以提升知识蒸馏的精准性；并且由于第二模型参与第一模型的同步训练，使得第一模型不仅可以学习到第二模型的输出知识，可以学习到第二模型的端到端知识，进一步提升了知识蒸馏的精准性，从而可以提升目标推荐模型在对象推荐中的推荐精准度；另外，第二模型的输入中还包括了样本交互信息，线上应用时，用户账号与待推荐对象的交互信息是没有的，这里通过第二模型的学习，不仅可以把交互信息的知识蒸馏给第一模型，还可以保证第一模型训练和应用中输入的一致性，即提升了目标推荐模型的知识丰富性，又可以保证训练和应用的输入一致性，从而可以保证目标推荐模型的推荐效果，使得推荐应用时可以不需要使用精排模型，在保证推荐精准度的情况下，提高推荐效率。

图4是根据一示例性实施例示出的一种获取多个第一样本训练数据、多个第二样本训练数据的方法流程图。如图4所示，在一种可能的实现方式中，上述步骤S201可以包括：

在步骤S401中，获取多个样本用户账号各自的样本用户关联信息、多个样本对象各自的样本对象关联信息、以及多个样本用户账号与多个样本对象的样本交互信息；样本用户关联信息是基于样本用户账号的样本用户属性信息和样本历史行为信息得到的。

在一种可能的实现方式中，如图5所示，该步骤S401中的获取多个样本用户账号各自的样本用户关联信息，可以通过以下步骤实现：

在步骤S501中，获取样本用户账号的样本用户基础属性信息、关联设备信息、关联网络环境信息、样本用户账号关联的第一样本账号信息、样本用户账号与历史交互对象的历史操作信息；其中，该历史交互对象为样本用户账号执行过预设操作的对象。这里的预设操作可以包括点击、点赞、转发、观看等操作，本公开对此不作限定。其中，样本用户基础属性信息可以包括样本用户账号的标识信息、年龄信息、性别信息等。关联设备信息可以是指样本用户账号对应的终端设备的信息，例如手机品牌信息、手机系统信息等。关联网络环境信息可以是指样本用户账号所处的网络环境信息，例如是否在WiFi网络下。

在一个示例中，多个样本对象可以为多个样本直播间、历史交互对象可以为历史直播间，在这种情况下，上述获取样本用户账号关联的第一样本账号信息、样本用户账号与历史交互对象的历史操作信息，可以包括：获取样本用户账号关联的第一主播账号信息和样本用户账号在历史直播间中的历史操作信息。其中，样本用户账号关联的第一样本账号信息可以是样本用户账号执行过预设交互操作的账号信息，例如样本用户账号关注的主播账号列表信息、用户购买过的主播账号列表信息、这些主播账号列表信息中的主播直播观众累计数量等。这里的历史操作信息可以包括样本用户账号浏览过的物品类别信息、购买过的物品类别信息等。

在步骤S503中，根据样本用户基础属性信息、关联设备信息和关联网络环境信息中的至少一种，获取所述样本用户账号的样本用户属性信息；即可以将样本用户基础属性信息、关联设备信息和关联网络环境信息中的至少一种作为样本用户属性信息。

在步骤S505中，基于第一样本账号信息和历史操作信息，获取多个样本用户账号各自的样本历史行为信息；

在步骤S507中，基于样本属性信息和样本历史行为信息，获取多个样本用户账号各自的样本用户关联信息。

实际应用中，可以将每个样本用户账号对应的第一样本账号信息和历史操作信息作为每个样本用户账号的样本历史行为信息，从而可以将每个样本用户账号对应的样本属性信息和样本历史行为信息，作为每个样本用户账号对应的样本用户关联信息。通过样本用户账号关联的丰富信息的使用，使得样本用户关联信息更能表征样本用户的偏好信息，使得训练和应用中，可以提升目标推荐模型的预测精度。

在一种可能的实现方式中，上述S401中的获取多个样本对象各自的样本对象关联信息，包括：

获取样本对象对应的第二样本账号信息以及样本对象的样本对象信息；

基于第二样本账号信息和样本对象信息，获取多个样本对象各自的样本对象关联信息。

本说明书实施例中，样本对象对应的第二样本账号信息可以是发布样本对象的账号信息或者样本对象(样本直播间)的主播账号信息。作为一个示例，可以将第二样本账号信息和样本对象信息作为样本对象关联信息。

在一个示例中，第二样本账号信息可以为第二主播账号信息，基于此，获取样本对象对应的第二样本账号信息、样本对象的样本对象信息，可以包括：获取多个样本直播间对应的第二主播账号信息、多个样本直播间的样本展示信息以及多个样本直播间的样本等级信息；其中，第二主播账号信息可以是第二主播账号标识信息；样本展示信息可以包括展示物品的类别信息等。样本等级信息可以包括样本直播间的观众累计数量、物品订单数量等。进一步地，可以基于样本展示信息和样本等级信息，获取样本对象信息。例如可以将样本展示信息和样本等级信息，作为样本对象信息。通过设置丰富的样本对象关联信息，能充分有效的表达样本对象，为第一模型的训练精度提供保障。

在一种可能的实现方式中，上述S401中的获取多个样本用户账号与多个样本对象的样本交互信息，可以通过以下步骤实现：

获取样本用户账号在多个样本直播间的样本时长信息和样本用户账号在多个样本直播间的操作类别信息；该操作类别信息包括但不限于：购物、点赞、转发直播间等。

基于样本时长信息和/或操作类别信息，获取多个样本用户账号与多个样本对象的样本交互信息。

本说明书实施例中，可以获取样本用户账号在每个样本直播间的累计时长信息，例如停留时长信息，作为样本时长信息。从而可以样本时长信息和/或操作类别信息，作为样本交互信息。通过在样本交互信息中包括样本时长信息和操作类别信息，使得样本交互信息可以有效表征样本用户账号对样本直播间的兴趣信息，从而可以使得第二模型可以重复学习到该兴趣信息，以便于将该知识蒸馏给第一模型，从而可以使得目标推荐模型为用户推荐更加感兴趣的对象，提升推荐精准度。

在步骤S403中，将多个样本用户关联信息与多个样本对象关联信息进行组合处理，得到多个第一样本训练数据；

在步骤S405中，基于多个第一样本训练数据以及对应的样本交互信息，得到第二样本训练数据。

实际应用中，为了得到大量的训练数据，可以将多个样本用户关联信息与多个样本对象关联信息进行组合处理，得到多个第一样本训练数据。一个第一样本训练数据，例如第一样本训练数据A可以如下：

[样本用户账号1的标识，女，WiFi，关注主播账号列表；样本直播间5的主播标识，样本直播间5展示的物品类别为书籍，样本直播间5的累计观众数量为200]；

其中，“样本用户账号1的标识，女，WiFi，关注主播账号列表”为样本用户账号1的样本用户关联信息，样本用户账号1为多个样本用户账号中的一个。“样本直播间5的主播标识，样本直播间5展示的物品类别为书籍，样本直播间5的累计观众数量为200”为样本直播间5的样本对象关联信息，该样本直播间5为多个样本直播间中的一个。

进一步地，可以获取每个第一样本训练数据中样本用户账号与样本对象的交互信息，作为每个第一样本训练数据对应的样本交互信息。这里的交互信息可以是预设历史时段内的，本公开对此不作限定。从而可以将每个第一样本训练数据以及对应的样本交互信息，作为第二样本训练数据。还以上述第一样本训练数据A为例，第二样本训练数据如下：

[样本用户账号1的标识，女，WiFi，关注主播账号列表；样本直播间5的主播标识，样本直播间5展示的物品类别为书籍，样本直播间5的累计观众数量为200；样本用户账号1在样本直播间5中的样本时长信息为20分钟]。其中，“样本用户账号1在样本直播间5中的样本时长信息为20分钟”为第一样本训练数据A对应的样本交互信息。

通过第二样本训练数据是在第一样本训练数据的基础上结合样本交互信息得到的，可以使得第二模型的学习知识更加全面，从而可以通过知识蒸馏使得第一模型也能学习到这些知识，并且不用改变第一模型的输入。

图6是根据一示例性实施例示出的一种对象推荐方法的流程图。如图6所示，可以包括：

在步骤S601中，接收目标用户账号的推荐请求，获取目标用户账号的目标用户关联信息、以及待推荐的多个对象。

其中，待推荐的多个对象可以是待推荐的多个多媒体资源，或者是多个直播间。这里的目标用户关联信息的获取方式可以参见上述样本用户关联信息的获取方式，在此不再赘述。

在步骤S603中，确定多个对象各自的目标对象关联信息；这里的目标对象关联信息的获取方式可以参见上述样本对象关联信息的获取方式，在此不再赘述。

在步骤S605中，将目标用户关联信息和目标对象关联信息输入目标推荐模型，进行推荐预测处理，得到推荐预测结果；其中，目标推荐模型可以是基于上述推荐模型训练方法得到的；该步骤可以参见上述S203，在此不再赘述。

在步骤S607中，基于推荐预测结果，从多个对象中确定向目标用户账号推荐的目标对象。

本说明书实施例中，可以基于推荐预测结果，从多个对象中确定向目标用户账号推荐的目标对象。以上述标签信息为是否进入直播间为例，可以将推荐预测结果中为进入直播间的对象作为目标对象，例如目标直播间。从而可以将目标直播间的标识发送至目标用户账号的终端。

通过使用上述训练方法得到的目标推荐模型进行对象推荐处理，在保证目标推荐模型训练时输入和应用时输入一致性的基础上，可以提升目标对象的精准性；并且由于目标推荐模型学习到了第二模型的丰富知识，在推荐应用场景中，可以仅用结构简单的目标推荐模型，不需要在目标推荐模型之后使用精排模型，就可以保证推荐精准度，从而可以提升推荐效率，节约处理资源。

图7是根据一示例性实施例示出的一种推荐模型训练装置框图。参照图7，该装置可以包括：

第一获取模块701，被配置为执行获取多个第一样本训练数据、多个第二样本训练数据以及对应的标签信息，所述多个第一样本训练数据是基于多个样本用户账号的样本用户关联信息和多个样本对象各自的样本对象关联信息得到的，所述多个第二样本训练数据是基于所述多个第一样本训练数据与样本交互信息得到的，所述样本交互信息为所述多个样本用户账号与所述多个样本对象的样本交互信息；

第一预测模块703，被配置为执行将所述多个第一样本训练数据输入第一模型，得到第一预测结果；

第二预测模块705，被配置为执行将所述多个第二样本训练数据输入第二模型，得到第二预测结果；所述第二模型为预先训练的、满足预设收敛条件的预设机器学习模型；

训练模块707，被配置为执行基于所述第一预测结果、所述第二预测结果和所述标签信息，训练所述第一模型和所述第二模型，直至第一模型满足预设条件，将满足预设条件的第一模型作为目标推荐模型。

在一种可能的实现方式中，所述第一获取模块701包括：

在一种可能的实现方式中，所述训练模块707包括：

在一种可能的实现方式中，所述第一获取单元包括：

在一种可能的实现方式中，所述第二样本账号信息为第二主播账号信息，所述第五获取子单元，还被配置为执行获取所述多个样本直播间对应的第二主播账号信息、所述多个样本直播间的样本展示信息以及所述多个样本直播间的样本等级信息；

在一种可能的实现方式中，所述第一获取单元包括：

图8是根据一示例性实施例示出的一种对象推荐装置框图。参照图8，该装置可以包括：

第二获取模块801，被配置为执行接收目标用户账号的推荐请求，获取所述目标用户账号的目标用户关联信息、以及待推荐的多个对象；

目标对象关联信息确定模块803，被配置为执行确定所述多个对象各自的目标对象关联信息；

推荐预测模块805，被配置为执行将所述目标用户关联信息和所述目标对象关联信息输入目标推荐模型，进行推荐预测处理，得到推荐预测结果；其中，所述目标推荐模型为上述推荐模型训练装置中的目标推荐模型；

推荐模块807，被配置为执行基于所述推荐预测结果，从所述多个对象中确定向所述目标用户账号推荐的目标对象。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种用于对象推荐的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图9所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象推荐的方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图10是根据一示例性实施例示出的一种用于推荐模型训练的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图10所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种推荐模型训练的方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的推荐模型训练方法或对象推荐方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的推荐模型训练方法或对象推荐方法。计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的推荐模型训练方法或对象推荐方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种推荐模型训练方法，其特征在于，包括：

基于所述第一预测结果、所述第二预测结果和所述标签信息，训练所述第一模型和所述第二模型，以更新第一模型和第二模型的模型参数，直至第一模型满足预设条件，将满足预设条件的第一模型作为目标推荐模型。

2.根据权利要求1所述的方法，其特征在于，所述获取多个第一样本训练数据、多个第二样本训练数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一预测结果、所述第二预测结果和所述标签信息，训练所述第一模型和所述第二模型，直至第一模型满足预设条件，将满足预设条件的第一模型作为目标推荐模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述获取多个样本用户账号各自的样本用户关联信息，包括：

基于所述样本用户属性信息和所述样本历史行为信息，获取所述多个样本用户账号各自的样本用户关联信息。

5.根据权利要求4所述的方法，其特征在于，所述获取多个样本对象各自的样本对象关联信息，包括：

6.根据权利要求5所述的方法，其特征在于，在所述多个样本对象为多个样本直播间、所述历史交互对象为历史直播间的情况下，所述获取样本用户账号关联的第一样本账号信息、所述样本用户账号与历史交互对象的历史操作信息，包括：

7.根据权利要求6所述的方法，其特征在于，所述第二样本账号信息为第二主播账号信息，所述获取所述样本对象对应的第二样本账号信息以及所述样本对象的样本对象信息，包括：

8.根据权利要求6所述的方法，其特征在于，所述获取所述多个样本用户账号与所述多个样本对象的样本交互信息，包括：

9.一种对象推荐方法，其特征在于，包括：

确定所述多个对象各自的目标对象关联信息；

将所述目标用户关联信息和所述目标对象关联信息输入目标推荐模型，进行推荐预测处理，得到推荐预测结果；其中，所述目标推荐模型是基于权利要求1至8中任一项所述的推荐模型训练方法得到的；

10.一种推荐模型训练装置，其特征在于，包括：

训练模块，被配置为执行基于所述第一预测结果、所述第二预测结果和所述标签信息，训练所述第一模型和所述第二模型，以更新第一模型和第二模型的模型参数，直至第一模型满足预设条件，将满足预设条件的第一模型作为目标推荐模型。

11.根据权利要求10所述的装置，其特征在于，所述第一获取模块包括：

12.根据权利要求10所述的装置，其特征在于，所述训练模块包括：

13.根据权利要求11所述的装置，其特征在于，所述第一获取单元包括：

第四获取子单元，被配置为执行基于所述样本用户属性信息和所述样本历史行为信息，获取所述多个样本用户账号各自的样本用户关联信息。

14.根据权利要求13所述的装置，其特征在于，所述第一获取单元包括：

15.根据权利要求14所述的装置，其特征在于，在所述多个样本对象为多个样本直播间、所述历史交互对象为历史直播间的情况下，所述第一获取子单元，还被配置为执行获取所述样本用户账号关联的第一主播账号信息和所述样本用户账号在历史直播间中的所述历史操作信息。

16.根据权利要求15所述的装置，其特征在于，所述第二样本账号信息为第二主播账号信息，所述第五获取子单元包括：

17.根据权利要求15所述的装置，其特征在于，所述第一获取单元包括：

18.一种对象推荐装置，其特征在于，包括：

推荐预测模块，被配置为执行将所述目标用户关联信息和所述目标对象关联信息输入目标推荐模型，进行推荐预测处理，得到推荐预测结果；其中，所述目标推荐模型为权利要求10至17中任一项所述的目标推荐模型；

19.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的推荐模型训练方法或实现如权利要求9所述的对象推荐方法。

20.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至8中任一项所述的推荐模型训练方法或实现如权利要求9所述的对象推荐方法。