CN113360777A

CN113360777A - 内容推荐模型训练方法、内容推荐方法及相关设备

Info

Publication number: CN113360777A
Application number: CN202110899222.1A
Authority: CN
Inventors: 廖一桥; 骆明楠
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-09-07
Anticipated expiration: 2041-08-06
Also published as: CN113360777B

Abstract

本公开关于内容推荐模型训练方法、内容推荐方法及相关设备，该方法包括：获取样本集合中的各样本数据以及样本数据对应的推荐指标标签数据；样本数据包括样本推荐内容对应的展示位置特征和画像特征；将样本数据输入教师模型进行推荐指标的预测，得到第一预测推荐指标数据；将样本数据中的画像特征输入学生模型进行推荐指标的预测，得到第二预测推荐指标数据；根据各样本数据对应的第一预测推荐指标数据、第二预测推荐指标数据和推荐指标标签数据确定目标损失函数；根据目标损失函数更新教师模型和学生模型的模型参数直至满足训练结束条件；该满足训练结束条件时的学生模型作为推荐指标预估模型。本公开提高了内容推荐的准确性。

Description

内容推荐模型训练方法、内容推荐方法及相关设备

技术领域

本公开涉及计算机技术领域，尤其涉及一种内容推荐模型训练方法、内容推荐方法及相关设备。

背景技术

目前，推荐系统通常会利用训练好的推荐指标预估模型向用户进行在线内容推荐。相关技术中，为了提高在线内容推荐的响应速度，在训练该推荐指标预估模型时通常会采用两个模型，其中一个为教师模型，另一个为学生模型，利用训练好的教师模型的输出来指导学生模型的训练，并将训练后的学生模型作为在线预估推荐指标数据的推荐指标预估模型。

然而，相关技术中训练后的学生模型在进行在线的推荐指标数据预估时仍然存在预估的推荐指标数据不够精准，从而导致内容推荐的准确性差。

发明内容

本公开提供一种内容推荐模型训练方法、内容推荐方法及相关设备，以至少解决相关技术中在训练后的学生模型进行在线的推荐指标预估时存在的准确性差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种内容推荐模型训练方法，包括：

获取样本集合中的各样本数据以及所述样本数据对应的推荐指标标签数据；所述样本数据包括样本推荐内容对应的展示位置特征和画像特征，所述展示位置特征指示所述样本推荐内容在历史推荐中的展示位置；

将所述样本数据输入教师模型进行推荐指标的预测，得到所述样本数据对应的第一预测推荐指标数据；

将所述样本数据中的画像特征输入学生模型进行所述推荐指标的预测，得到所述样本数据对应的第二预测推荐指标数据；

根据各所述样本数据对应的所述第一预测推荐指标数据、所述第二预测推荐指标数据和所述推荐指标标签数据，确定目标损失函数；

根据所述目标损失函数更新所述教师模型的模型参数以及所述学生模型的模型参数，直至满足训练结束条件；其中，满足所述训练结束条件时的所述学生模型作为推荐指标预估模型，所述推荐指标预估模型用于内容推荐。

在一个示例性的实施方式中，所述学生模型的部分模型参数与所述教师模型相同；其中，所述部分模型参数包括稀疏特征参数和/或稠密特征参数。

在一个示例性的实施方式中，所述根据各所述样本数据对应的所述第一预测推荐指标数据、所述第二预测推荐指标数据和所述推荐指标标签数据，确定目标损失函数包括：

根据各所述样本数据对应的所述第一预测推荐指标数据和所述第二预测推荐指标数据，确定第一损失函数；

根据各所述样本数据对应的所述第一预测推荐指标数据和所述推荐指标标签数据，确定第二损失函数；

根据各所述样本数据对应的所述第二预测推荐指标数据和所述推荐指标标签数据，确定第三损失函数；

融合所述第一损失函数、所述第二损失函数和所述第三损失函数，得到所述目标损失函数。

在一个示例性的实施方式中，所述根据所述目标损失函数更新所述教师模型的模型参数以及所述学生模型的模型参数，包括：

根据所述目标损失函数确定梯度信息；所述梯度信息包括对应所述第一损失函数的第一梯度信息、对应所述第二损失函数的第二梯度信息和对应所述第三损失函数的第三梯度信息；

根据所述第一梯度信息和所述第三梯度信息，对所述学生模型的模型参数进行更新；

根据所述第二梯度信息对所述教师模型的模型参数进行更新。

在一个示例性的实施方式中，所述根据各所述样本数据对应的所述第一预测推荐指标数据和所述第二预测推荐指标数据，确定第一损失函数包括：

确定各所述样本数据对应的所述第一预测推荐指标数据和所述第二预测推荐指标数据之间的均方误差，得到所述第一损失函数。

确定各所述样本数据对应的所述第一预测推荐指标数据与预设软化参数的第一比值，得到各所述样本数据对应的第一软化预测数据；

确定各所述样本数据对应的所述第二预测推荐指标数据与所述预设软化参数的第二比值，得到各所述样本数据对应的第二软化预测数据；

根据各所述样本数据对应的所述第一软化预测数据和所述第二软化预测数据，确定所述第一损失函数。

在一个示例性的实施方式中，所述融合所述第一损失函数、所述第二损失函数和所述第三损失函数，得到所述目标损失函数包括：

分别确定所述第一损失函数、所述第二损失函数和所述第三损失函数对应的权重系数；

根据所述权重系数对所述第一损失函数、所述第二损失函数和所述第三损失函数进行加权求和，得到所述目标损失函数。

根据本公开实施例的第二方面，提供一种内容推荐方法，包括：

接收目标用户账户的内容获取请求；

响应于所述内容获取请求，利用推荐指标预估模型确定各待推荐内容对应的推荐指标数据；

根据所述各待推荐内容对应的推荐指标数据，确定目标推荐内容以及所述目标推荐内容的展示位置；

根据所述展示位置向所述目标用户账户推荐所述目标推荐内容；其中，所述推荐指标预估模型根据上述第一方面的内容推荐模型训练方法训练得到。

在一个示例性的实施方式中，所述方法还包括：

根据所述目标推荐内容的展示位置，确定所述目标推荐内容对应的展示位置特征；

确定所述目标推荐内容的画像特征；其中，所述画像特征包括所述目标用户账户的用户账户特征、所述目标推荐内容的内容特征和上下文特征；

将所述目标推荐内容作为样本推荐内容，根据所述目标推荐内容对应的展示位置特征和画像特征生成目标样本数据；

根据所述目标样本数据更新所述样本集合，所述样本集合中的样本数据用于训练所述推荐指标预估模型。

根据本公开实施例的第三方面，提供一种内容推荐模型训练装置，包括：

样本数据获取单元，被配置为执行获取样本集合中的各样本数据以及所述样本数据对应的推荐指标标签数据；所述样本数据包括样本推荐内容对应的展示位置特征和画像特征，所述展示位置特征指示所述样本推荐内容在历史推荐中的展示位置；

教师模型预测单元，被配置为执行将所述样本数据输入教师模型进行推荐指标的预测，得到所述样本数据对应的第一预测推荐指标数据；

学生模型预测单元，被配置为执行将所述样本数据中的画像特征输入学生模型进行所述推荐指标的预测，得到所述样本数据对应的第二预测推荐指标数据；

损失函数确定单元，被配置为执行根据各所述样本数据对应的所述第一预测推荐指标数据、所述第二预测推荐指标数据和所述推荐指标标签数据，确定目标损失函数；

参数更新单元，被配置为执行根据所述目标损失函数更新所述教师模型的模型参数以及所述学生模型的模型参数，直至满足训练结束条件；其中，满足所述训练结束条件时的所述学生模型作为推荐指标预估模型，所述推荐指标预估模型用于内容推荐。

在一个示例性的实施方式中，所述损失函数确定单元包括：

第一损失函数确定单元，被配置为执行根据各所述样本数据对应的所述第一预测推荐指标数据和所述第二预测推荐指标数据，确定第一损失函数；

第二损失函数确定单元，被配置为执行根据各所述样本数据对应的所述第一预测推荐指标数据和所述推荐指标标签数据，确定第二损失函数；

第三损失函数确定单元，被配置为执行根据各所述样本数据对应的所述第二预测推荐指标数据和所述推荐指标标签数据，确定第三损失函数；

损失函数融合单元，被配置为执行融合所述第一损失函数、所述第二损失函数和所述第三损失函数，得到所述目标损失函数。

在一个示例性的实施方式中，所述参数更新单元包括：

梯度信息确定单元，被配置为执行根据所述目标损失函数确定梯度信息；所述梯度信息包括对应所述第一损失函数的第一梯度信息、对应所述第二损失函数的第二梯度信息和对应所述第三损失函数的第三梯度信息；

第一参数更新单元，被配置为执行根据所述第一梯度信息和所述第三梯度信息，对所述学生模型的模型参数进行更新；

第二参数更新单元，被配置为执行根据所述第二梯度信息对所述教师模型的模型参数进行更新。

在一个示例性的实施方式中，所述第一损失函数确定单元包括：

均方误差单元，被配置为执行确定各所述样本数据对应的所述第一预测推荐指标数据和所述第二预测推荐指标数据之间的均方误差，得到所述第一损失函数。

第一软化单元，被配置为执行确定各所述样本数据对应的所述第一预测推荐指标数据与预设软化参数的第一比值，得到各所述样本数据对应的第一软化预测数据；

第二软化单元，被配置为执行确定各所述样本数据对应的所述第二预测推荐指标数据与所述预设软化参数的第二比值，得到各所述样本数据对应的第二软化预测数据；

函数确定子单元，被配置为执行根据各所述样本数据对应的所述第一软化预测数据和所述第二软化预测数据，确定所述第一损失函数。

在一个示例性的实施方式中，所述损失函数融合单元包括：

权重确定单元，被配置为执行分别确定所述第一损失函数、所述第二损失函数和所述第三损失函数对应的权重系数；

加权单元，被配置为执行根据所述权重系数对所述第一损失函数、所述第二损失函数和所述第三损失函数进行加权求和，得到所述目标损失函数。

根据本公开实施例的第四方面，提供一种内容推荐装置，包括：

请求接收单元，被配置为执行接收目标用户账户的内容获取请求；

预估单元，被配置为执行响应于所述内容获取请求，利用推荐指标预估模型确定各待推荐内容对应的推荐指标数据；

目标推荐内容确定单元，被配置为执行根据所述各待推荐内容对应的推荐指标数据，确定目标推荐内容以及所述目标推荐内容的展示位置；

推荐单元，被配置为执行根据所述展示位置向所述目标用户账户推荐所述目标推荐内容；

其中，所述推荐指标预估模型根据上述第一方面的内容推荐模型训练方法训练得到。

在一个示例性的实施方式中，所述装置还包括：

展示位置特征确定单元，被配置为执行根据所述目标推荐内容的展示位置，确定所述目标推荐内容对应的展示位置特征；

画像特征确定单元，被配置为执行确定所述目标推荐内容的画像特征；其中，所述画像特征包括所述目标用户账户的用户账户特征、所述目标推荐内容的内容特征和上下文特征；

目标样本数据生成单元，被配置为执行将所述目标推荐内容作为样本推荐内容，根据所述目标推荐内容对应的展示位置特征和画像特征生成目标样本数据；

样本集合更新单元，被配置为执行根据所述目标样本数据更新样本集合，所述样本集合中的样本数据用于训练所述推荐指标预估模型。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面的内容推荐模型训练方法，或者上述第二方面的内容推荐方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面的内容推荐模型训练方法，或者上述第二方面的内容推荐方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述第一方面的内容推荐模型训练方法，或者上述第二方面的内容推荐方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过对教师模型和学生模型进行联合训练，训练时教师模型的输入包括样本推荐内容的展示位置特征，而学生模型不包括该展示位置特征，并且用于更新教师模型和学生模型的模型参数的目标损失函数是基于教师模型的预测推荐指标数据、学生模型的预测推荐指标数据和推荐指标标签数据确定的，从而将教师模型学习到的展示位置信息迁移到学生模型中，在利用训练后的学生模型进行线上的推荐指标预估时可以在不输入内容的展示位置信息的情况下，预估更精准的推荐指标数据，提高了推荐指标数据的预估准确性，进而有利于提高内容推荐的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种内容推荐模型训练方法的应用环境示意图；

图2是根据一示例性实施例示出的一种内容推荐模型训练方法的流程图；

图3是根据一示例性实施例示出的教师模型和学生模型的训练过程示意图；

图4是根据一示例性实施例示出的确定目标损失函数的流程图；

图5是根据一示例性实施例示出的一种内容推荐方法的流程图；

图6是根据一示例性实施例示出的另一种内容推荐方法的流程图；

图7是根据一示例性实施例示出的一种内容推荐模型训练装置的框图；

图8是根据一示例性实施例示出的一种内容推荐装置的框图；

图9是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在内容推荐场景中，被推荐内容的展示位置对最终用户的行为有重要影响，以内容是短视频为例，对于相同的短视频来说，展示位置越靠前，则用户点击的概率越大，从而展示位置越靠前的短视频其点击率越高。当使用历史推荐内容的相关数据作为训练样本进行推荐模型的训练时，这些训练样本中就会存在位置偏置，即用户点击某个短视频并非出于兴趣，而是和展示位置有关，从而使得在训练时输入到推荐指标预估模型的数据中包含了展示位置信息，但是在该推荐指标预估模型进行线上的推荐指标数据预估时，各待推荐内容的展示位置是在下游确定的，也即进行线上的推荐指标数据预估时是没有展示位置信息的，从而使得推荐指标预估模型在线下训练和线上预估时存在较大差异，导致推荐指标预估模型在线上预估的推荐指标数据不够精准、准确性差，进而导致内容推荐的准确性差。

鉴于此，本公开实施例提供了一种内容推荐模型训练方法，该方法对教师模型和学生模型进行联合训练，并将训练后的学生模型作为推荐指标预估模型进行线上推荐指标的预估，为了消除展示位置对推荐指标预估模型的影响，训练时教师模型的输入包括样本推荐内容的展示位置特征，而学生模型不包括该展示位置特征，并且用于更新教师模型和学生模型的模型参数的目标损失函数是基于教师模型的预测推荐指标数据、学生模型的预测推荐指标数据和推荐指标标签数据确定的，从而在不直接向学生模型输入展示位置特征的同时可以将教师模型学习到的展示位置信息迁移到学生模型中，消除了位置偏置对训练后学生模型的影响，在利用训练后的学生模型进行线上的推荐指标预估时可以在不输入内容的展示位置的情况下，预估更精准的推荐指标数据，提高了推荐指标数据的预估准确性，进而有利于提高内容推荐的准确性。

请参阅图1，其所示为根据一示例性实施例示出的一种内容推荐模型训练方法的应用环境示意图，该应用环境可以包括终端110和服务器120，该终端110和服务器120之间可以通过有线网络或者无线网络连接。

终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端110中可以安装有提供人机交互功能的客户端软件如应用程序（Application，简称为App），该应用程序可以是独立的应用程序，也可以是应用程序中的子程序。示例性的，该应用程序可以是新闻类应用程序、直播类应用程序或者视频类应用程序等。终端110的用户可以通过预先注册的用户信息登录应用程序，该用户信息可以包括账号和密码。

服务器120可以是为终端110中的应用程序提供后台服务的服务器，具体的，服务器120提供的服务可以是内容推荐服务，该内容可以根据具体的应用场景确定，例如可以包括但不限于短视频、新闻资讯、广告等等。服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本公开实施例的内容推荐模型训练方法可以由内容推荐模型训练装置执行，例如内容推荐模型训练方法可以由终端或服务器或其他电子设备执行。在一个示例性的实施方式中，该内容推荐模型训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

图2是根据一示例性实施例示出的一种内容推荐模型训练方法的流程图，如图2所示，以内容推荐模型训练方法用于图1的服务器中为了，包括以下步骤。

在步骤S201中，获取样本集合中的各样本数据以及所述样本数据对应的推荐指标标签数据。

其中，所述样本数据包括样本推荐内容对应的展示位置特征和画像特征，所述展示位置特征指示所述样本推荐内容在历史推荐中的展示位置。

本公开实施例中，推荐内容可以是与实际应用场景相匹配的内容。示例性的，在短视频的应用场景中，该推荐内容可以短视频；在新闻资讯的应用场景中，该推荐内容可以新闻资讯。

样本推荐内容对应的画像特征用于在数据层面从多个维度勾画该样本推荐内容，其中的多个维度可以根据实际应用中的需要进行设定。在一个示例性的实施方式中，样本推荐内容对应的画像特征可以包括三个维度的特征，分别为用户账户维度、内容维度和环境维度，其中，用户账户维度的特征为用户账户特征，可以包括用户账户标识、用户账户对应的年龄信息、性别信息、所在城市信息等等；内容维度的特征为内容特征，可以包括内容标识、内容描述、内容所属的类别等等；环境维度的特征为上下文特征，可以包括推荐时间、推荐地点等，比如早上和晚上给用户账户推荐的内容可以是不同的，夏天和冬天给用户账户推荐的内容也可以是不同的。

在步骤S203中，将所述样本数据输入教师模型进行推荐指标的预测，得到所述样本数据对应的第一预测推荐指标数据。

在步骤S205中，将所述样本数据中的画像特征输入学生模型进行所述推荐指标的预测，得到所述样本数据对应的第二预测推荐指标数据。

需要说明的是，步骤S203与步骤S205的执行顺序并不限于上述顺序，二者可以同时执行，也可以先执行步骤S205再执行步骤S203，本公开对此不作具体限定。

本公开实施例中，推荐指标是进行内容推荐时的依据，该推荐指标可以为一个或者多个。以内容是短视频为例，推荐指标可以包括点击概率、有效观看、长时间观看、完播率中的一个或者多个。推荐指标数据是指示推荐指标对应的具体数值的数据。

推荐指标标签数据是根据用户账户对样本推荐内容的历史行为信息确定的，可以理解的，该推荐指标标签数据与推荐指标相关联。以推荐指标是点击概率为例，可以将点击的推荐指标标签数据设置为1，将未点击的推荐指标标签数据设置为0。

本公开实施例中，训练后的学生模型作为推荐指标预估模型，为了消除展示位置对训练得到的推荐指标预估模型的影响，教师模型的输入是样本数据，也即教师模型的输入包含了样本推荐内容的展示位置特征，而学生模型的输入为样本数据中的画像特征，也即学生模型的输入不包含样本推荐内容的展示位置特征。

本公开实施例中，在进行内容推荐模型训练之前可以先构建模型教师模型和学生模型，其中教师模型和学生模型均可以是神经网络模型。在一个示例性的实施方式中，学生模型的部分模型参数与教师模型相同，该部分模型参数可以包括稀疏特征参数和/或稠密特征参数。

具体的，稀疏特征参数可以是嵌入（Embedding）网络的参数，稠密特征参数可以是实现最终输出的一层或者几层多层感知网络层的参数。通过让学生模型的部分模型参数与教师模型相同，从而学生模型可以使用教师模型的稀疏特征表示和/稠密特征表示。

如图3是根据一示例性实施例示出的教师模型和学生模型的训练过程示意图，其中学生模型共享了教师模型的部分网络以使学生模型的部分模型参数与该教师模型相同，在图3所示的示例中，学生模型共享了教师模型的嵌入（Embedding）网络，从而该学生模型可以使用教师模型的嵌入网络输出的特征表示。

在一个可选的实施方式中，学生模型可以共享教师模型的全部稀疏特征表示网络和/或全部稠密特征表示网络，从而学生模型可以使用教师模型的全部稀疏特征表示和/或全部稠密特征表示。当学生模型使用教师模型的全部稀疏特征表示和/或全部稠密特征表示时，为了减少了存储资源的消耗，可以将教师模型的全部稀疏特征参数、全部稠密特征参数存储到一个参数服务器上，以供教师模型和学生模型同时调用。

可以理解的是，学生模型也可以共享教师模型的部分稀疏特征表示网络和/或部分稠密特征表示网络，从而学生模型可以使用教师模型的部分稀疏特征表示和/或部分稠密特征表示，具体的可以根据实际应用中的需要进行设定。

本公开实施例中，学生模型的部分模型参数与教师模型相同，使得学生模型可以使用到教师模型的稀疏特征表示和/或稠密特征表示，由于教师模型具有更强的特征表示能力，从而在训练中可以将教师模型中的知识迁移到学生模型中，帮助学生模型获得更好的特征表示能力。

在步骤S207中，根据各所述样本数据对应的所述第一预测推荐指标数据、所述第二预测推荐指标数据和所述推荐指标标签数据，确定目标损失函数。

在一个具体的实施方式中，所述根据各所述样本数据对应的所述第一预测推荐指标数据、所述第二预测推荐指标数据和所述推荐指标标签数据，确定目标损失函数可以包括如图4中的以下步骤：

在步骤S401中，根据各所述样本数据对应的所述第一预测推荐指标数据和所述第二预测推荐指标数据，确定第一损失函数。

在步骤S403中，根据各所述样本数据对应的所述第一预测推荐指标数据和所述推荐指标标签数据，确定第二损失函数。

在步骤S405中，根据各所述样本数据对应的所述第二预测推荐指标数据和所述推荐指标标签数据，确定第三损失函数。

在步骤S407中，融合所述第一损失函数、所述第二损失函数和所述第三损失函数，得到所述目标损失函数。

本公开实施例中目标损失函数由第一损失函数、第二损失函数和第三损失函数融合得到，其中第一损失函数根据各样本数据对应的第一预测推荐指标数据和第二预测推荐指标数据确定，从而在训练中可以使用该第一损失函数来约束教师模型和学生模型之间的差异进而实现将教师模型的知识迁移至学生模型，再结合第二损失函数和第三损失函数实现对教师模型和学生模型的联合训练。

在一个示例性的实施方式中，所述融合所述第一损失函数、所述第二损失函数和所述第三损失函数，得到所述目标损失函数可以包括：

具体的实施中，本公开实施例的目标损失函数可以表示为以下的公式（1）:

（1）

其中，Loss ()为目标损失函数；L _mimic()为第一损失函数，该第一损失函数以W _S为自变量；L _S()为第三损失函数，该第三损失函数以W _S为自变量；L _T()第二损失函数，该第二损失函数以W _T和W _share为自变量；W _T表示教师网络中的模型参数；W _share表示共享的教师网络中的模型参数；W _S表示学生网络中的模型参数；a、b和c为相应损失函数对应的权重系数，实际应用中，该权重系数可以是根据需要设定的超参数。

本公开实施例通过基于权重系数对第一损失函数、第二损失函数和第三损失函数进行加权求和得到目标损失函数，从而可以基于该目标损失函数实现对教师模型和学生模型的联合训练，提高训练效率以及对于学生模型的训练效果。

本公开实施例中，第一损失函数用于将教师模型和学生模型的输出尽可能的接近，也即用第一损失函数来约束教师模型和学生模型之间的差异来实现将教师模型的知识迁移至学生模型。其中，第一损失函数可以包括基于最大均方误差来约束教师模型和学生模型的预估值的差异、最后隐层输出的差异、模型中间输出的差异；该第一损失函数还可以包括基于知识蒸馏实现的损失函数。

基于此，在一个示例性的实施方式中，所述根据各所述样本数据对应的所述第一预测推荐指标数据和所述第二预测推荐指标数据，确定第一损失函数可以包括：

确定各所述样本数据对应的所述第一预测推荐指标数据和所述第二预测推荐指标数据之间的均方误差，得到所述第一损失函数；

在一个可选的实施方式中，其中的第一预测推荐指标数据和第二预测推荐指标数据可以是归一化处理之后的输出数据，如图3中所示的q(x _n)和p(x ^’ _n)，其中，x _n表示样本数据，x ^’ _n表示样本数据x _n中的画像特征，n表示样本集合中样本数据的总数量，则第一损失函数L _mimic(W _S)可以通过以下公式（2）表示：

（2）

在另一个可选的实施方式中，其中的第一预测推荐指标数据和第二预测推荐指标数据可以是归一化处理之前的输出数据，如图3中所示的z(x _n)和l(x ^’ _n)，其中，x _n表示样本数据，x ^’ _n表示样本数据x _n中的画像特征，n表示样本集合中样本数据的总数量，则第一损失函数L _mimic(W _S)可以通过以下公式（3）表示：

（3）

通过基于最大均方误差来约束教师模型和学生模型的预估值的差异、最后隐层输出的差异、模型中间输出的差异，可以将教师模型的知识迁移到学生模型，从而使得学生模型得到更多的指导信息，有利于提升学生模型的训练效果。

在另一个示例性的实施方式中，所述根据各所述样本数据对应的所述第一预测推荐指标数据和所述第二预测推荐指标数据，确定第一损失函数可以包括：

在该实施方式中，通过将模型的预测输出（即第一预测推荐指标数据、第二预测推荐指标数据）除以预设软化参数之后再做softmax变换，可以获得软化的概率分布（即相应的软化预测数据），也即预设软化参数用于使得模型最终输出的概率分布变得平缓。具体的实施中，第一预测推荐指标数据和第二预测推荐指标数据可以是归一化处理之后的输出数据，如图3中所示的q(x _n)和p(x ^’ _n)，其中，x _n表示样本数据，x ^’ _n表示样本数据x _n中的画像特征，则第一损失函数L _mimic(W _S)可以通过以下公式（4）表示：

（4）

其中，H ()表示二分类交叉熵（Binary Cross Entropy，BEC）；T为预设软化参数，可以根据实际应用中对概率分布的缓和程度来设定，T数值越大，分布越缓和，而T数值减小，容易放大错误分类的概率，引入不必要的噪声。

通过知识蒸馏的方式将教师模型的知识迁移到学生模型，从而使得学生模型得到更多的指导信息，有利于提升学生模型的训练效果。

本公开实施例中，第二损失函数L _T(W _T ,W _share)和第三损失函数L _S(W _S)可以均为二分类交叉熵损失函数，也即L _T(W _T ,W _share)=H(y, q(x _n))，L _S(W _S)=H(y,p(x ^’ _n))，其中，y表示样本数据x _n对应的推荐指标标签数据。

在步骤S209中，根据所述目标损失函数更新所述教师模型的模型参数以及所述学生模型的模型参数，直至满足训练结束条件。

其中，满足所述训练结束条件时的所述学生模型作为推荐指标预估模型。

具体的实施中，可以按照最小化目标损失函数的方向通过梯度下降方法改变教师模型和学生模型的模型参数。

其中，训练结束条件可以是目标损失函数取得最小值，也可以是迭代次数达到预设迭代次数阈值，该预设迭代次数阈值可以根据实际应用中的需要进行设定。

需要说明的是，本公共实施例中对于推荐指标预估模型的训练可以离线训练也可以在线训练。

本公开实施例中，教师模型与学生模型联合训练，通过目标损失函数使得教师模型将知识迁移至学生模型，全程监督并指导学生模型的学习，从而训练后的学生模型能够通过迁移的知识学习到教师模型中的展示位置信息，消除了训练样本中位置偏置的影响，那么在将训练后的学生模型作为推荐指标预估模型进行在线的推荐指标预估时可以提升对于推荐指标预估的准确性，进而提高内容推荐的准确性。

考虑到教师模型与学生模型同时训练，而学生模型又共享了教师模型的部分模型参数，且教师模型与学生模型的输入存在展示位置特征的差异即教师模型的输入包含展示位置特征，而学生模型的输入不包含展示位置特征，为了避免这种输入上的差异影响教师模型对展示位置特征的充分学习，在一个示例性的实施方式中，在根据所述目标损失函数更新所述教师模型的模型参数以及所述学生模型的模型参数包括：

根据所述第一梯度信息和所述第三梯度信息，对所述学习模型的模型参数进行更新；

本公开实施例中，教师模型的模型参数仅根据回传的第二梯度信息进行更新，从而使得学生模型不参与其共享的教师模型的那部分模型参数的更新，可以避免联合训练中学生模型对应教师模型的训练的影响，确保了教师模型对展示位置特征的充分学习，进而使得学生模型也能够通过知识迁移获取充分的展示位置信息，有利于提高学生模型的训练效果。

在一个示例性的实施方式中，在得到训练后的学生模型之后，还可以基于该训练后的学生模型进行在线推荐指标数据的预估，并基于该预估结果进行内容推荐，基于此，如图5提供的一种内容推荐方法的流程图，该方法还可以包括：

在步骤S501中，接收目标用户账户的内容获取请求。

在步骤S503中，响应于所述内容获取请求，利用推荐指标预估模型确定各待推荐内容对应的推荐指标数据。

具体的实施中，可以响应于内容获取请求获取该目标用户账户的用户账户特征、上下文特征以及各待推内容的内容特征等特征数据，并将这些特征数据输入至基于本公开实施例的内容推荐模型训练方法训练得到的推荐指标预估模型中，从而得到各待推荐内容对应的推荐指标数据。

在步骤S505中，根据所述各待推荐内容对应的推荐指标数据，确定目标推荐内容以及所述目标推荐内容的展示位置。

在一个可选的实施方式，可以基于推荐指标数据对各待推荐内容进行排序，并将排序在前的预设数量个待推荐内容作为目标推荐内容，该预设数量可以根据实际应用中的需要进行设定，再结合展示列表确定各目标推荐内容的展示位置。

在步骤S507中，根据所述展示位置向所述目标用户账户推荐所述目标推荐内容。

具体的，展示位置指示了目标推荐内容在展示列表中的位置信息，目标用户账户在接收到推荐的目标推荐内容后，可以根据该目标推荐内容的展示位置将该目标推荐内容展示在展示列表中。

本公开实施例中，由于在训练过程中将教师模型学习到的展示位置信息迁移到了学生模型，从而将训练后的学生模型作为推荐指标预估模型进行线上推荐指标预估时，可提高推荐指标数据预估的准确性，进而提高了内容推荐的准确性。

在一个示例性的实施方式中，如图6提供的另一种内容推荐方法，该方法还可以包括：

在步骤S601中，根据所述目标推荐内容的展示位置，确定所述目标推荐内容对应的展示位置特征。

在步骤S603中，确定所述目标推荐内容的画像特征；其中，所述画像特征包括所述目标用户账户的用户账户特征、所述目标推荐内容的内容特征和上下文特征。

在步骤S605中，将所述目标推荐内容作为样本推荐内容，根据所述目标推荐内容对应的展示位置特征和画像特征生成目标样本数据。

在步骤S607中，根据所述目标样本数据更新样本集合，该样本集合中的样本数据可以用于训练所述推荐指标预估模型。

本公开实施例根据目标推荐内容对应的展示位置特征和画像特征生成目标样本数据，并基于该目标样本数据更新样本集合，从而可以基于更新后的样本集合对教师模型和学生模型进行更新训练，进而实现推荐指标预估模型的更新，有利于提高推荐指标预估模型预估结果的准确性。

图7是根据一示例性实施例示出的一种内容推荐模型训练装置的框图。参照图7，该内容推荐模型训练装置700包括样本数据获取单元710、教师模型预测单元720、学生模型预测单元730、损失函数确定单元740和参数更新单元750，其中：

样本数据获取单元710，被配置为执行获取样本集合中的各样本数据以及所述样本数据对应的推荐指标标签数据；所述样本数据包括样本推荐内容对应的展示位置特征和画像特征，所述展示位置特征指示所述样本推荐内容在历史推荐中的展示位置；

教师模型预测单元720，被配置为执行将所述样本数据输入教师模型进行推荐指标的预测，得到所述样本数据对应的第一预测推荐指标数据；

学生模型预测单元730，被配置为执行将所述样本数据中的画像特征输入学生模型进行所述推荐指标的预测，得到所述样本数据对应的第二预测推荐指标数据；

损失函数确定单元740，被配置为执行根据各所述样本数据对应的所述第一预测推荐指标数据、所述第二预测推荐指标数据和所述推荐指标标签数据，确定目标损失函数；

参数更新单元750，被配置为执行根据所述目标损失函数更新所述教师模型的模型参数以及所述学生模型的模型参数，直至满足训练结束条件；其中，满足所述训练结束条件时的所述学生模型作为推荐指标预估模型，所述推荐指标预估模型用于内容推荐。

在一个示例性的实施方式中，所述损失函数确定单元740包括：

在一个示例性的实施方式中，所述参数更新单元750包括：

在另一个示例性的实施方式中，所述第一损失函数确定单元包括：

在一个示例性的实施方式中，所述损失函数融合单元包括：

图8是根据一示例性实施例示出的一种内容推荐装置的框图。参照图8，该内容推荐装置800包括：

请求接收单元810，被配置为执行接收目标用户账户的内容获取请求；

预估单元820，被配置为执行响应于所述内容获取请求，利用所述推荐指标预估模型确定各待推荐内容对应的推荐指标数据；

目标推荐内容确定单元830，被配置为执行根据所述各待推荐内容对应的推荐指标数据，确定目标推荐内容以及所述目标推荐内容的展示位置；

推荐单元840，被配置为执行根据所述展示位置向所述目标用户账户推荐所述目标推荐内容；其中，所述推荐指标预估模型根据本公开实施例提供的任意一种内容推荐模型训练方法训练得到。

在一个示例性的实施方式中，该装置800还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个示例性的实施方式中，还提供了一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现本公开实施例中提供的任意一种内容推荐模型训练方法，或者内容推荐方法。

该电子设备可以是终端、服务器或者类似的运算装置，以该电子设备是服务器为例，图9是根据一示例性实施例示出的一种用于内容推荐模型训练或者内容推荐的电子设备的框图，如图9所示，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（Central Processing Units，CPU）910（处理器910可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器930，一个或一个以上存储应用程序923或数据922的存储介质920（例如一个或一个以上海量存储设备）。其中，存储器930和存储介质920可以是短暂存储或持久存储。存储在存储介质920的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器910可以设置为与存储介质920通信，在服务器900上执行存储介质920中的一系列指令操作。服务器900还可以包括一个或一个以上电源960，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口940，和/或，一个或一个以上操作系统921，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。

输入输出接口940可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器900的通信供应商提供的无线网络。在一个实例中，输入输出接口940包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口940可以为射频（RadioFrequency，RF）模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器900还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。

在一个示例性的实施方式中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器930，上述指令可由装置900的处理器910执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

在一个示例性的实施方式中，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本公开实施例中提供的任意一种内容推荐模型训练方法，或者内容推荐方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种内容推荐模型训练方法，其特征在于，包括：

2.根据权利要求1所述的内容推荐模型训练方法，其特征在于，所述学生模型的部分模型参数与所述教师模型相同；其中，所述部分模型参数包括稀疏特征参数和/或稠密特征参数。

3.根据权利要求1所述的内容推荐模型训练方法，其特征在于，所述根据各所述样本数据对应的所述第一预测推荐指标数据、所述第二预测推荐指标数据和所述推荐指标标签数据，确定目标损失函数包括：

4.根据权利要求3所述的内容推荐模型训练方法，其特征在于，所述根据所述目标损失函数更新所述教师模型的模型参数以及所述学生模型的模型参数，包括：

5.根据权利要求3所述的内容推荐模型训练方法，其特征在于，所述根据各所述样本数据对应的所述第一预测推荐指标数据和所述第二预测推荐指标数据，确定第一损失函数包括：

6.根据权利要求3所述的内容推荐模型训练方法，其特征在于，所述根据各所述样本数据对应的所述第一预测推荐指标数据和所述第二预测推荐指标数据，确定第一损失函数包括：

7.根据权利要求3~6中任一项所述的内容推荐模型训练方法，其特征在于，所述融合所述第一损失函数、所述第二损失函数和所述第三损失函数，得到所述目标损失函数包括：

8.一种内容推荐方法，其特征在于，包括：

接收目标用户账户的内容获取请求；

根据所述展示位置向所述目标用户账户推荐所述目标推荐内容；

其中，所述推荐指标预估模型根据权利要求1至7中任一项所述的内容推荐模型训练方法训练得到。

9.根据权利要求8中所述的内容推荐方法，其特征在于，所述方法还包括：

根据所述目标样本数据更新样本集合，所述样本集合中的样本数据用于训练所述推荐指标预估模型。

10.一种内容推荐模型训练装置，其特征在于，包括：

11.根据权利要求10所述的内容推荐模型训练装置，其特征在于，所述学生模型的部分模型参数与所述教师模型相同；其中，所述部分模型参数包括稀疏特征参数和/或稠密特征参数。

12.根据权利要求10所述的内容推荐模型训练装置，其特征在于，所述损失函数确定单元包括：

13.根据权利要求12所述的内容推荐模型训练装置，其特征在于，所述参数更新单元包括：

14.根据权利要求12所述的内容推荐模型训练装置，其特征在于，所述第一损失函数确定单元包括：

15.根据权利要求12所述的内容推荐模型训练装置，其特征在于，所述第一损失函数确定单元包括：

16.根据权利要求12~15中任一项所述的内容推荐模型训练装置，其特征在于，所述损失函数融合单元包括：

17.一种内容推荐装置，其特征在于，包括：

18.根据权利要求17所述的内容推荐装置，其特征在于，所述装置还包括：

19.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的内容推荐模型训练方法，或者权利要求8或9所述的内容推荐方法。

20.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的内容推荐模型训练方法，或者权利要求8或9所述的内容推荐方法。

21.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的内容推荐模型训练方法，或者权利要求8或9所述的内容推荐方法。