CN114840761A

CN114840761A - 推送模型的训练方法、装置、设备、存储介质及程序产品

Info

Publication number: CN114840761A
Application number: CN202210521823.3A
Authority: CN
Inventors: 谢淼; 解浪
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-08-02
Anticipated expiration: 2042-05-13
Also published as: CN114840761B

Abstract

本公开关于一种推送模型的训练方法、装置、设备、存储介质及程序产品。推送模型包括离线降维模块和在线推送模块，离线降维模块对特征进行降维处理，在线推送模块根据降维处理后的特征，确定目标推送信息的预测反馈结果；根据目标推送信息的预测反馈结果和真实反馈结果更新在线推送模块的参数；根据推送模块的学习目标参数，设置离线降维模块的最后一层的参数；在固定离线降维模块的最后一层的参数的情况下，更新离线降维模块的除最后一层的参数外的其它参数。本公开在线推送模块的输入为低维度特征，可以加快在线推送模块学习时的收敛速度；根据在线推送模块的学习目标参数设置离线降维模块的最后一层参数，可以使两个模块的学习方向一致。

Description

推送模型的训练方法、装置、设备、存储介质及程序产品

技术领域

本公开涉及计算机技术领域，尤其涉及一种推送模型的训练方法、装置、设备、存储介质及程序产品。

背景技术

为了快速、准确地对用户进行信息推送，相关技术采用推送模型从多个信息中确定要推送给用户的信息。然而，推送模型在实际应用中，使用的信息的特征的维度非常有限，因此只适用于对具有的特征维度较少的信息进行预测，应用场景限制较大。

在信息的特征的维度较高的情况下，推送模型进行计算的时间长、效率低，而且准确性也较低。如何提高推送模型对各种应用场景的适用性，是一个急需解决的技术问题。

发明内容

为克服相关技术中存在的问题，本公开提供一种推送模型的训练方法、装置、设备、存储介质及程序产品。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种推送模型的训练方法，所述推送模型包括离线降维模块和在线推送模块，所述离线降维模块用于对特征进行降维处理，所述在线推送模块用于确定信息的预测反馈结果；所述方法包括：

将多个候选推送信息的高维度特征输入所述离线降维模块，得到所述多个候选推送信息的低维度特征，所述离线降维模块的最后一层为全连接层，所述全连接层的参数为根据所述在线推送模块的学习目标参数设置的；

将所述多个候选推送信息的低维度特征输入所述在线推送模块，得到所述多个候选推送信息各自的预测反馈结果；

根据所述多个候选推送信息各自的反馈预测结果，确定所述多个候选推送信息中要推送给待推送用户账户的目标推送信息；

获取所述待推送用户账户对推送的所述目标推送信息的真实反馈结果；

根据所述目标推送信息的预测反馈结果和真实反馈结果，更新所述在线推送模块的参数；

获取参数更新后的所述在线推送模块的学习目标参数；

根据参数更新后的所述在线推送模块的学习目标参数，设置所述离线降维模块的最后一层的参数；

在固定所述离线降维模块的最后一层的参数的情况下，更新所述离线降维模块的除最后一层的参数外的其它参数。

可选地，所述在固定所述离线降维模块的最后一层的参数的情况下，更新所述离线降维模块的除最后一层的参数外的其它参数，包括：

获取多个样本历史推送信息，以及所述多个样本历史推送信息的历史真实反馈结果，所述样本历史推送信息包括所述目标推送信息；

将所述多个样本历史推送信息输入最后一层参数固定的所述离线降维模块，得到所述多个样本历史推送信息的低维度特征；

将所述多个样本历史推送信息的低维度特征输入参数更新后的所述在线推送模块，得到所述多个样本历史推送信息各自的预测反馈结果；

将所述多个样本历史推送信息的预测反馈结果和历史真实反馈结果输入所述全连接层，以最小化所述多个样本历史推送信息的预测反馈结果和历史真实反馈结果之间的差异为目标，构建损失函数；

基于所述损失函数，更新最后一层参数固定的所述离线降维模块的除最后一层的参数外的其它参数。

可选地，所述根据所述目标推送信息的预测反馈结果和真实反馈结果，更新所述在线推送模块的参数，包括：

计算所述目标推送信息的预测反馈结果和真实反馈结果之间的距离；

在所述距离大于距离阈值的情况下，调整所述在线推送模块的参数；

基于参数调整后的所述在线推送模块，重新计算所述目标推送信息的预测反馈结果和真实反馈结果之间的距离，直至所述距离不大于所述距离阈值。

可选地，所述方法还包括：

将所述多个候选推送信息的高维度特征输入所述在线推送模块，得到所述多个候选推送信息各自的预测反馈结果，并确定所述多个候选推送信息中要推送的所述目标推送信息；

执行步骤：获取所述待推送用户账户对推送的所述目标推送信息的真实反馈结果。

可选地，在所述更新所述离线降维模块的除最后一层的参数外的其它参数之后，还包括：

获取多个推送信息的高维度特征；

预先将多个推送信息的高维度特征输入其它参数更新后的所述离线降维模块，获取所述多个推送信息的低维度特征；

响应于目标用户账户的信息推送请求，获取所述目标用户账户的用户特征、所述信息推送请求的上下文特征；

将所述目标用户账户的用户特征、所述信息推送请求的上下文特征，以及所述多个推送信息的低维度特征，输入参数更新后的所述在线推送模块，得到所述目标用户账户的推送信息。

响应于目标用户账户的信息推送请求，获取多个高维度特征，所述高维度特征包括多个推送信息的高维度特征、所述目标用户账户的用户特征以及所述信息推送请求的上下文特征；

将所述多个高维度特征输入其它参数更新后的所述离线降维模块，获取多个低维度特征；

将所述低维度特征输入参数更新后的所述在线推送模块，得到所述目标用户账户的推送信息。

根据本公开实施例的第二方面，提供一种推送模型的训练装置，所述推送模型包括离线降维模块和在线推送模块，所述离线降维模块用于对特征进行降维处理，所述在线推送模块用于确定信息的预测反馈结果；所述装置包括：

低维度特征获取模块，被配置为将多个候选推送信息的高维度特征输入所述离线降维模块，得到所述多个候选推送信息的低维度特征，所述离线降维模块的最后一层为全连接层，所述全连接层的参数为根据所述在线推送模块的学习目标参数设置的；

预测反馈结果获取模块，被配置为将所述多个候选推送信息的低维度特征输入所述在线推送模块，得到所述多个候选推送信息各自的预测反馈结果；

目标推送信息确定模块，被配置为根据所述多个候选推送信息各自的反馈预测结果，确定所述多个候选推送信息中要推送给待推送用户账户的目标推送信息；

真实反馈结果获取模块，被配置为获取所述待推送用户账户对推送的所述目标推送信息的真实反馈结果；

在线模块参数更新模块，被配置为根据所述目标推送信息的预测反馈结果和真实反馈结果，更新所述在线推送模块的参数；

参数获取模块，被配置为获取参数更新后的所述在线推送模块的学习目标参数；

参数设置模块，被配置为根据参数更新后的所述在线推送模块的学习目标参数，设置所述离线降维模块的最后一层的参数；

离线模块参数更新模块，被配置为在固定所述离线降维模块的最后一层的参数的情况下，更新所述离线降维模块的除最后一层的参数外的其它参数。

可选地，所述离线模块参数更新模块包括：

样本信息获取单元，被配置为获取多个样本历史推送信息，以及所述多个样本历史推送信息的历史真实反馈结果，所述样本历史推送信息包括所述目标推送信息；

低维度特征获取单元，被配置为将所述多个样本历史推送信息输入最后一层参数固定的所述离线降维模块，得到所述多个样本历史推送信息的低维度特征；

预测反馈结果获取单元，被配置为将所述多个样本历史推送信息的低维度特征输入参数更新后的所述在线推送模块，得到所述多个样本历史推送信息各自的预测反馈结果；

损失函数构建单元，被配置为将所述多个样本历史推送信息的预测反馈结果和历史真实反馈结果输入所述全连接层，以最小化所述多个样本历史推送信息的预测反馈结果和历史真实反馈结果之间的差异为目标，构建损失函数；

离线模块参数更新单元，被配置为基于所述损失函数，更新最后一层参数固定的所述离线降维模块的除最后一层的参数外的其它参数。

可选地，所述在线模块参数更新模块包括：

距离计算单元，被配置为计算所述目标推送信息的预测反馈结果和真实反馈结果之间的距离；

参数调整单元，被配置为在所述距离大于距离阈值的情况下，调整所述在线推送模块的参数；

重新计算单元，被配置为基于参数调整后的所述在线推送模块，重新计算所述目标推送信息的预测反馈结果和真实反馈结果之间的距离，直至所述距离不大于所述距离阈值。

可选地，所述装置还包括：

预测反馈结果得到模块，被配置为将所述多个候选推送信息的高维度特征输入所述在线推送模块，得到所述多个候选推送信息各自的预测反馈结果，并确定所述多个候选推送信息中要推送的所述目标推送信息；

步骤执行模块，被配置为执行步骤：获取所述待推送用户账户对推送的所述目标推送信息的真实反馈结果。

可选地，在所述更新所述离线降维模块的除最后一层的参数外的其它参数之后，所述装置还包括：

第一高维度特征获取模块，被配置为获取多个推送信息的高维度特征；

特征降维模块，被配置为预先将多个推送信息的高维度特征输入其它参数更新后的所述离线降维模块，获取所述多个推送信息的低维度特征；

请求响应模块，被配置为响应于目标用户账户的信息推送请求，获取所述目标用户账户的用户特征、所述信息推送请求的上下文特征；

第一推送信息确定模块，被配置为将所述目标用户账户的用户特征、所述信息推送请求的上下文特征，以及所述多个推送信息的低维度特征，输入参数更新后的所述在线推送模块，得到所述目标用户账户的推送信息。

第二高维度特征获取模块，被配置为响应于目标用户账户的信息推送请求，获取多个高维度特征，所述高维度特征包括多个推送信息的高维度特征、所述目标用户账户的用户特征以及所述信息推送请求的上下文特征；

特征输入模块，被配置为将所述多个高维度特征输入其它参数更新后的所述离线降维模块，获取多个低维度特征；

第二推送信息确定模块，被配置为将所述低维度特征输入参数更新后的所述在线推送模块，得到所述目标用户账户的推送信息。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的推送模型的训练方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的推送模型的训练方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的推送模型的训练方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开中，输入在线推送模块的候选推送信息的特征，是离线降维模块进行降维处理得到的低维度特征，在线推送模块依据低维度特征预测候选推送信息的预测反馈结果，具有效率高、时间短、准确性高的优点。根据目标推送信息的真实反馈结果和预测反馈结果，更新在线推送模块的参数，可以保证在线推送模块保持较高的准确性。离线降维模块的全连接层的参数是根据在线推送模块的学习目标参数设置的，可以保证在线推送模块和离线降维模块的学习目标是朝着相同方向的，因此离线降维模块得到的候选推送信息的低维度特征有益于在线推送模块确定候选推送信息的预测结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种推送模型的训练方法的步骤流程图；

图2是根据一示例性实施例示出的更新离线降维模块的除最后一层的参数外的其它参数的步骤流程图；

图3是根据一示例性实施例示出的推送模型的训练方法的原理示意图；

图4是根据一示例性实施例示出的一种推送模型的训练装置的框图；

图5是根据一示例性实施例示出的一种用于推送模型的训练的装置的框图；

图6是根据一示例性实施例示出的一种用于推送模型的训练的装置的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种推送模型的训练方法的步骤流程图，该推送模型包括离线降维模块和在线推送模块，该离线降维模块用于对特征进行降维处理，该在线推送模块用于确定信息的预测反馈结果，如图1所示，包括以下步骤：

步骤S11：将多个候选推送信息的高维度特征输入所述离线降维模块，得到所述多个候选推送信息的低维度特征，所述离线降维模块的最后一层为全连接层，所述全连接层的参数为根据所述在线推送模块的学习目标参数设置的。

最后一层全连接层的维度可以是20维、15维的有限数，该维度需要低于高维度特征的维度，从而达到削剪高维度特征的维度的效果。离线降维模块的训练过程是在推送模型使用前进行离线训练，且可以定期更新训练样本后进行优化训练后再次发布，保证离线降维模块的准确性。

信息可以为商品信息、广告、视频等。候选推送信息为针对待推送用户账户触发的信息推送请求，确定的可能推送给待推送用户账户的多个信息，从多个候选推送信息中，可以得到要推送给待推送用户账户的目标推送信息。其中，确定推送用户账户触发的信息推送请求对应的多个候选推送信息的方法可以参照相关技术，本发明对此不作限制。

在接收到待推送用户账户触发的信息推送请求时，将多个候选推送信息的特征输入在线推送模块，在线推送模块从多个候选推送信息中确定要推送给该待推送用户账户的信息。

因为信息具有各种各样的特征，因此直接对各信息进行特征提取，得到的是各信息的高维度特征。信息的高维度特征中，有些特征对于在线推送模块的工作是没有意义的，而在线推送模块如果直接根据高维度特征确定要推送的信息，效率低、耗费的时间长，且准确性也不高。

因此，可以在推送模型中增加一个离线降维模块，离线降维模块可以对候选推送信息的高维度特征进行降维处理，得到低维度特征。离线降维模块可以包含神经网络，神经网络的网络结构可以任意选择，但其最后一层必须为全连接层，最后一层全连接层可以用于建立损失函数，引导离线降维模块进行学习。离线降维模块的最后一层全连接层的参数是根据在线推送模块的学习目标参数设置的，可以保证离线降维模块的学习目标和在线推送模块的学习目标是朝着相同方向的，从而避免离线降维模块和在线推送模块的学习方向不同，导致在线推送模块在根据离线降维模块输出的低维度特征进行学习时，难以收敛的情况。如此，增加了一个离线降维模块，可以提高在线推送模块在线推送的效率、缩短时间以及提高准确性。

此外，部分推送模型(例如：采用多臂优化算法的模型)只适用于反馈结果与候选推送信息的上下文信息之间存在线性关系的场景，离线降维模块在对高维度特征进行降维处理时，可以是通过非线性高维映射，把高维度特征转化为低维隐式特征。如此，原本只适用于反馈结果与候选推送信息的上下文信息之间存在线性关系的场景的推送模型，在增加了离线降维模块后，也可以适用于反馈结果与候选推送信息的上下文信息之间不存在线性关系的场景。

步骤S12：将所述多个候选推送信息的低维度特征输入所述在线推送模块，得到所述多个候选推送信息各自的预测反馈结果。

候选推送信息的预测反馈结果是在线推送模块预测候选推送信息被推送给待推送用户账户后，被执行多种用户操作的结果。候选推送信息的预测反馈结果可以是根据预测候选推送信息被执行多种用户操作的概率生成的反馈结果。当候选推送信息为商品时，多种用户操作可以为点击、分享、收藏、下单等；当候选推送信息为广告时，多种用户操作可以为长时间浏览、点击等；当候选推送信息为视频时，多种用户操作可以为点赞、评论、转发等。

可选地，在预测反馈结果中每种用户操作可以具有不同的权重。例如，当信息为商品时，希望用户账户可以对商品进行下单，因此下单这一操作可以具有较高的权重。

可选地，预测反馈结果可以具有不同的表现形式，例如可以为多个概率，可以为一个分数等。例如，候选推送信息为视频，在线推送模块的预测该候选推送信息被待推送用户账户点赞的概率为0.8，被待推送用户账户评论的概率为0.5，被待推送用户账户转发的概率为0.3，则反馈结果可以表现为(0.8,0.5,0.3)，也可以表现为分数1.6，在每种用户操作具有不同权重的情况下，还可以表现为其它分数。

在线推送模块可以采用不同的算法确定多个候选推送信息的预测反馈结果，例如，可以采用非平稳多臂优化算法、上下文多臂优化算法、线性多臂优化算法等任一种算法。

因为在线推送模块是针对待推送用户账户触发的信息推送请求的，所以在线推送模块在确定要推送给待推送用户账户的目标推送信息时，应该综合待推送用户账户的用户特征(例如：年龄、性别、职业、偏好等)、该信息推送请求的上下文特征，以及多个候选推送信息的特征共同确定目标推送信息。其中，待推送用户账户的用户特征和该信息推送请求的上下文特征也可以是经过离线降维模块进行降维处理后的特征。在线推送模块可以基于输入的特征，基于线性置信区间上界来完成在线预测任务，从多个候选推送信息中筛选出更符合预期要求的目标推送信息。

步骤S13：根据所述多个候选推送信息各自的反馈预测结果，确定所述多个候选推送信息中要推送给待推送用户账户的目标推送信息。

在得到多个候选推送信息各自的预测反馈结果后，可以将预测反馈结果最好的至少一个候选推送信息，或者将预测反馈结果超过反馈结果阈值的至少一个候选推送信息，确定为要推送给待推送用户账户的目标推送信息。

步骤S14：获取所述待推送用户账户对推送的所述目标推送信息的真实反馈结果。

将目标推送信息推送给待推送用户账户，获取待推送用户账户对目标推送信息的真实反馈结果。目标推送信息的真实反馈结果是目标推送信息在被推送给待推送用户账户后，实际被执行该待推送用户账户执行多种用户操作的结果。类似于预测反馈结果，真实反馈结果也可以具有不同的表现形式，不过真实反馈结果中每种用户操作只存在被执行和没被执行两种情况，因此每种用户操作被执行的概率只能为0或1。

步骤S15：根据所述目标推送信息的预测反馈结果和真实反馈结果，更新所述在线推送模块的参数。

在线推送模块的更新为在线流式更新，其训练过程和使用过程是同时进行的，用于更新在线推送模块的参数的目标推送信息，同时也是实际使用中真实推送给待推送用户账户的信息。利用在线推送模块预测的多个候选推送信息的预测反馈结果，向待推送用户账户推送目标推送信息，并在获取到目标推送信息的真实反馈结果时，利用该目标推送信息的真实反馈结果，实时更新在线推送模块的参数。具体地，根据目标推送信息的预测反馈结果和真实反馈结果之间的距离，更新在线推送模块的参数。

步骤S16：获取参数更新后的所述在线推送模块的学习目标参数。

每获取到一个目标推送信息的真实反馈结果之后，计算该目标推送信息的真实反馈结果和预测反馈结果之间的距离，在距离大于距离阈值的情况下，以缩小该距离为目标，对在线推送模块的参数进行调整。距离阈值可以根据实际需求进行设置。可选地，可以通过计算目标推送信息的真实反馈结果和预测反馈结果之间的方差，实现计算目标推送信息的真实反馈结果和预测反馈结果之间的距离。

将目标推送信息的低维度特征重新输入参数调整后的在线推送模块，得到目标推送信息的最新预测反馈结果。计算目标推送信息的真实反馈结果和最新预测反馈结果之间的距离，若该距离仍然大于距离阈值，则继续对在线推送模块的参数进行调整，直到参数调整后的在线推送模块确定的目标推送信息的预测反馈结果和真实反馈结果之间的距离不大于距离阈值，完成对在线推送模块的一次调整。

如此，可以利用每一个距离大于距离阈值的目标推送消息，使在线推送模块不断进行学习，避免在线推送模块的累计误差，使在线推送模块保持较高的准确性。

在线推送模块的更新是在线流式更新，而离线降维模型的更新是离线更新。因此不会在每调整在线推送模块的参数之后，就利用在线推送模块的学习目标参数设置一次离线降维模型的参数。而是在在线推送模块的参数完成了多次调整后，才利用在线推送模块的学习目标参数设置一次离线降维模型的参数。

可选地，在对在线推送模块进行调整的次数达到固定次数时，或者，在用于对在线推送模块进行调整的目标推送信息的数量达到固定数量时，认为在线推送模块完成了一次更新。获取完成了一次更新的在线推送模块的学习目标参数，在线推送模块的学习目标参数为在线推送模块内部的一个参数，表征在线推送模块的学习目标。

若在线推送模块采用的算法为多臂优化算法的情况下，在线推送模块的学习目标参数为多臂优化算法中的上下文参数。

步骤S17：根据参数更新后的所述在线推送模块的学习目标参数，设置所述离线降维模块的最后一层的参数。

将参数完成一个阶段的更新后的在线推送模块的学习目标参数，传递给离线降维模块。离线降维模块根据该学习目标参数，设置自身的最后一层全连接层的参数。

可以理解的是，该全连接层是离线降维模块的最后一层，但最后一层之后根据实际需求还可以设置激活函数等。

步骤S18：在固定所述离线降维模块的最后一层的参数的情况下，更新所述离线降维模块的除最后一层的参数外的其它参数。

在固定离线降维模块的最后一层的参数的情况下，对离线降维模块进行训练，更新离线降维模块的除最后一层的参数外的其它参数。

离线降维模块和在线推送模块的训练过程是交互进行的，二者彼此依赖，相互切换进行。

离线降维模块依赖于在线推送模块传递的参数，利用在线推送模块推送过的信息进行离线更新。在线推送模块依赖于离线降维模块进行降维处理后的低维度特征，确定要推送的信息，并根据推送的信息的真实反馈结果和预测反馈结果更新自身参数，在完成多次更新后，将自身的学习目标参数传递给离线降维模块。

采用本申请实施例的技术方案，输入在线推送模块的候选推送信息的特征，是离线降维模块进行降维处理得到的低维度特征，在线推送模块依据低维度特征预测候选推送信息的预测反馈结果，具有效率高、时间短、准确性高的优点。根据目标推送信息的真实反馈结果和预测反馈结果，更新在线推送模块的参数，可以保证在线推送模块保持较高的准确性。离线降维模块的全连接层的参数是根据在线推送模块的学习目标参数设置的，可以保证在线推送模块和离线降维模块的学习目标是朝着相同方向的，因此离线降维模块得到的候选推送信息的低维度特征有益于在线推送模块确定候选推送信息的预测结果。

离线降维模块和在线推送模块的训练是轮流进行的；在训练好离线降维模块的基础上，根据训练好的离线降维模块输出的低维度特征对在线推送模块进行训练；完成对在线推送模块的一个阶段的训练后，基于训练好的在线推送模块的学习目标参数，设置离线降维模块的最后一层全连接层的参数，然后对固定了最后一层全连接层的参数的离线降维模块进行训练。

这种相互链接彼此依赖的训练过程具有以下两个优点：第一，基于在线推送模块来迭代训练离线降维模块，是非常有效的方式，因为刚开始时样本历史推送信息的数据可能非常稀疏，导致离线降维模块的训练效果较差，随着在线推送模块不断进行信息推送，可以扩大样本历史推送信息的数据量，使离线降维模块的训练效果越来越准确；第二，将更新离线降维模块的最后一层全连接层的巨大工作量，下移到离线，则可以极大地缓解在线处理过程，使得推送模型计算效率提升，又不过多地影响精度。

在离线降维模块和在线推送模块都未开始进行最初的训练的情况下，若存在历史推送信息，则可以直接以历史推送信息作为训练样本，先对离线降维模块进行训练；此时无法根据在线推送模块的学习目标参数设置离线降维模块的最后一层全连接层的参数，因此在离线降维模块的最后一层全连接层的参数可以随其他其他一起进行更新。

在离线降维模块和在线推送模块都未开始进行最初的训练的情况下，若不存在历史推送信息，则可以首先对在线推送模块进行训练，此时在线推送模块采用的特征是高维度特征。

若在线推送模块已经推送过信息的情况下，则可以根据在线推送模块推送过的信息作为训练样本，对离线降维模块进行训练，此时离线降维模块的最后一层全连接层的参数是根据在线推送模块的学习目标参数设置的，在训练离线降维模块时，离线降维模块的最后一层全连接层的参数是固定不变的。

在已经完成对离线降维模块的训练之后，再对在线推送模块进行训练时，采用的特征是离线降维模块进行降维处理后的低维度特征。

图2是根据一示例性实施例示出的更新离线降维模块的除最后一层的参数外的其它参数的步骤流程图，包括：

步骤S21：获取多个样本历史推送信息，以及所述多个样本历史推送信息的历史真实反馈结果，所述样本历史推送信息包括所述目标推送信息。

此时离线降维模块的最后一层全连接层的参数，是根据在线推送模块的学习目标参数设置的，在线推送模块已经经过了至少一轮训练，因此在线推送模块产生了多个目标推送信息，可以利用多个目标推送信息对离线降维模块进行训练。可选地，还可以获取历史推送信息，利用历史推送信息对离线降维模块进行训练。

因此，可以获取多个样本历史推送信息，样本历史推送信息包括历史推送信息和目标推送信息。为了对离线降维模块进行训练，还应该获取每个样本历史信息的历史真实反馈结果。

步骤S22：将所述多个样本历史推送信息输入最后一层参数固定的所述离线降维模块，得到所述多个样本历史推送信息的低维度特征。

步骤S23：将所述多个样本历史推送信息的低维度特征输入参数更新后的所述在线推送模块，得到所述多个样本历史推送信息各自的预测反馈结果。

离线降维模块仅仅依靠自身，难以判断生成的样本历史推送信息的低维度特征是否为在线推送模块需要的特征，因此需要在线推送模块辅助离线降维模块进行更新。

将最后一层参数固定的离线降维模块得到的多个样本历史推送信息的低维度特征，输入参数更新后的在线推送模块，得到多个样本历史推送信息各自的预测反馈结果。可选地，还可以利用其它模块辅助离线降维模块进行训练。

步骤S24：将所述多个样本历史推送信息的预测反馈结果和历史真实反馈结果输入所述全连接层，以最小化所述多个样本历史推送信息的预测反馈结果和历史真实反馈结果之间的差异为目标，构建损失函数。

离线降维模块的最后一层全连接层用于构建损失函数，基于构建的损失函数引导离线降维模块进行学习，以使离线降维模块的学习目标和在线推送模块的学习目标方向一致。

将多个样本历史推送信息的预测反馈结果和历史真实反馈结果输入离线降维模块的最后一层全连接层，以最小化多个样本历史推送信息的预测反馈结果和历史真实反馈结果之间的差异为目标，构建损失函数。

本公开对训练离线降维模块的参数的方法不作限制，可任意选取例如SGD(Stochastic Gradient Descent，一种随机梯度下降算法)、Ftrl(follow theregularized leader，一种在线优化算法)等算法，但其损失函数应为均方误差损失函数。

步骤S25：基于所述损失函数，更新最后一层参数固定的所述离线降维模块的除最后一层的参数外的其它参数。

在基于损失函数更新离线降维模块的参数时，若离线降维模块的最后一层全连接层的参数为根据在线推送模块的学习目标参数设置的，则不对离线降维模块的最后一层全连接层的参数进行更新，而只对除最后一层的参数外的其它参数进行更新。

采用本申请实施例的技术方案，基于在线推送模块确定的样本历史推送信息建立离线降维模块的损失函数，可以使离线降维模块输出的低维度特征满足在线推送模块的需求。离线降维模块的最后一层全连接层的参数为根据在线推送模块的学习目标参数设置的，可以保证离线降维模块的学习目标和在线推送模块的学习目标方向一致。

图3是根据一示例性实施例示出的推送模型的训练方法的原理示意图，其中竖线隔断左侧的Offine(离线)区域表示离线对离线降维模块进行训练场景，而竖线隔断右侧的Online(在线)区域表示在线在在线推送模块进行训练场景，其中，n代表模块更新的轮数，θn代表第n轮的在线推送模块的学习目标参数或离线降维模块的最后一层全连接层参数θ，fn代表第n轮的离线降维模块的参数f的值，Dn代表第n轮的离线训练离线降维模块的样本数据。f所在区域为离线降维模块，f(x)所在区域为离线降维模块的全连接层，MSE Loss(均方误差损失函数)表示均方误差损失函数，UCB(Upper Confidence Bound，多臂赌博机问题中置信区间上界算法)表示在线推送模块采用的多臂赌博机问题中置信区间上界算法。

其中，从Dn中可以获取训练离线降维模块所需要的样本历史推送信息的高维度特征、每个样本历史推送信息对应的用户账户的用户特征、每个样本历史推送信息对应的信息推送请求的上下文特征。这些特征可以为任何格式类型的特征，比如离散特征或连续特征。样本数据中还可以获取到样本历史推送信息的真实反馈结果，真实反馈结果可以为转化或非转化的0，1，布尔值。用户账户的用户特征可以包括：年龄，性别，地域，设备类型等。样本历史推送信息的高维度特征可以包括：信息对应的行业、信息的类型等。信息推送请求的上下文特征可以包括：是否购买过，喜欢的视频类别，观看及点击行为历史数据特征等，具体可以根据实际需求设置，此处不做限定。

为了训练推送模型，首先需要基于实际问题进行建模来得到初始的离线降维模块和在线推送模块，构建在线选择类问题和候选元素集合，在线选择类问题是指例如用哪个或者哪几个候选元素进行推送的决策问题，而候选元素集合则是推送信息的可选项组成的结合。

在未对离线降维模块进行训练的情况下，若要对在线推送模块进行训练，此时因为没有离线降维模块对要输入在线推送模块的特征进行降维处理，所以在线推送模块只能依据候选推送信息的高维度特征，确定多个候选推送信息的预测反馈结果，并根据多个候选推送信息的预测反馈结果，确定多个候选推送信息中要推送的目标推送信息。

获取多个候选推送信息的高维度特征，将多个候选推送信息的高维度特征输入在线推送模块，在线推送模块确定每个候选推送信息被执行多种用户操作的预测反馈结果。

根据每个候选推送信息被执行多种用户操作的预测反馈结果，确定多个候选推送信息中要推送的目标推送信息。将目标推送信息推送给待推送用户，获取待推送用户对目标推送信息的真实反馈结果。根据目标推送信息的预测反馈结果和真实反馈结果，更新在线推送模块的参数；获取参数更新后的在线推送模块的学习目标参数，根据参数更新后的所述在线推送模块的学习目标参数，设置离线降维模块的最后一层的参数；在固定离线降维模块的最后一层的参数的情况下，更新离线降维模块的除最后一层的参数外的其它参数。

如此，在不存在历史推送信息的情况下，可以先对在线推送模块进行训练，然后对离线降维模块进行训练，适用于冷启动场景。

响应于目标用户账户触发的信息推送请求，利用推送模型确定要推送给目标用户账户的推送信息。推送模型可以并非针对每个信息推送请求，都调用离线降维模块对多个推送信息的高维度特征进行降维处理，而可以预先对各信息(包括候选推送信息、推送信息等)的高维度特征都进行降维处理。

获取多个信息的高维度特征，多个信息是有可能推送给任意用户账户的信息。预先离线调用离线降维模块对多个信息的高维度特征进行降维处理。将多个信息的高维度特征输入经过最新训练得到的离线降维模块，获取并存储多个信息的低维度特征。

在接收到目标用户账户的信息推送请求时，确定可能推送给目标用户账户的多个推送信息，并从存储的多个信息的低维度特征中获取多个推送信息的低维度特征。同时获取目标用户账户的用户特征以及该信息推送请求的上下文特征，其中，该信息推送请求的上下文特征表征目标用户账户是否对以往推送的信息执行多种用户操作。

将目标用户账户的用户特征、信息推送请求的上下文特征，以及多个推送信息的低维度特征，输入经过最新训练得到的在线推送模块，得到多个推送信息各自的预测反馈结果。基于多个推送信息各自的预测反馈结果，确定多个推送信息中要推送给目标用户账户的推送信息。

如此，推送模型在根据信息推送请求进行信息推送时，无需在线调用体量较大的离线降维模块，而是预先离线利用离线降维模块对多个信息的高维度特征进行降维处理。因此，在线使用推送模型时，比较轻便。

可选地，在上述技术方案的基础上，因为目标用户账户的用户特征以及信息推送请求的上下文特征实际上都为维度较高的特征，直接将目标用户账户的用户特征以及所述信息推送请求的上下文特征输入在线推送模块，在线推送模块在预测推送信息的预测反馈结果时，依然会耗费较长的时间。因此，可以响应于目标用户账户触发的信息推送请求，在线调用离线降维模块。

响应于目标用户账户的信息推送请求，获取多个高维度特征，高维度特征包括多个推送信息的高维度特征、目标用户账户的用户特征以及信息推送请求的上下文特征。在线调用离线降维模块，将多个高维度特征输入其它参数更新后的离线降维模块，获取多个低维度特征，此处的低维度特征包括多个推送信息的低维度特征、经过降维处理后的目标用户账户的用户特征，以及经过降维处理后的信息推送请求的上下文特征。将低维度特征输入参数更新后的所述在线推送模块，得到多个推送信息各自的预测反馈结果。基于多个推送信息各自的预测反馈结果，确定多个推送信息中要推送给目标用户账户的推送信息。

如此，离线降维模块可以对输入在线推送模块的各个特征都进行降维处理，进一步提高推送模块的工作效率、缩短工作时间，并且提升准确性。

可选地，在上述技术方案的基础上，若在线推送模块采用的是上下文探索算法，则在每一轮计算的过程中，获取多个推送信息的低维度特征，基于多个推送信息的低维度特征，应用例如LinUCB(Linear Upper Confidence Bound，线性上下文相关的置信区间上界算法)算法中的UCB算法来预测多个推送信息的预测反馈结果，需要获取到推送信息的低维度特征的置信区间。统计每个推送信息的所述置信区间在每个时间区间的置信区间上界；可以利用将反馈预测器计算得到的反馈预测参数来计算置信区间在每个时间区间的置信区间上界。将所述置信区间上界最高的推送信息作为要推送给目标用户账户的推送信息。

可选地，作为一个实施例，当信息为视频时，在没有训练离线降维模块的情况下，对在线推送模块进行训练可以为：响应于样本用户账户的信息推送请求，获取针对样本用户账户的信息推送请求的多个候选视频；获取多个候选视频的高维度特征，将多个候选视频的高维度特征输入在线推送模块，在线推送模块预测每个候选视频在推送给样本用户账号后，会被样本用户账号点赞的概率，会被样本用户账号评论的概率，以及会被样本用户账号转发的概率，根据上述三种概率生成候选视频的预测反馈结果；将多个候选视频中预测反馈结果最好的候选视频作为目标视频，推送给样本用户账户；获取样本用户账户是否对目标视频进行点赞、评论、转发的真实反馈结果；根据目标视频的真实反馈结果和预测反馈结果之间的距离，更新在线推送模块的参数。

获取参数更新后的在线推送模块的学习目标参数，根据该学习目标参数，设置离线降维模块的最后一层全连接层的参数。在保持离线降维模块的最后一层的参数不变的情况下，更新离线降维模块的除最后一层的参数外的其它参数，以完成对离线降维模块的训练。

在实际应用中，可以获取视频库中的各视频的高维度特征，预先用离线降维模块对各视频的高维度特征进行降维处理，得到各视频的低维度特征并进行存储。响应于目标用户账户的视频推送请求，确定目标用户账户的视频推送请求对应的多个候选视频。从存储的各视频的低维度特征中获取多个候选视频的低维度特征。同时获取目标用户账户的用户特征、视频推送请求的上下文特征。

实际应用过程中在线推送模块和训练过程中在线推送模块的工作类似，都是根据输入的多个候选视频的低维度特征、目标用户账户的用户特征、视频推送请求的上下文特征输入在线推送模块，预测多个候选视频的预测反馈结果，进而确定多个候选视频中要推送给目标用户账户的目标视频。

图4是根据一示例性实施例示出的一种推送模型的训练装置的框图，所述推送模型包括离线降维模块和在线推送模块，所述离线降维模块用于对特征进行降维处理，所述在线推送模块用于确定信息的预测反馈结果；参照图4，该装置包括低维度特征获取模块41、预测反馈结果获取模块42、目标推送信息确定模块43、真实反馈结果获取模块44、在线模块参数更新模块45、参数获取模块46、参数设置模块47和离线模块参数更新模块48。

该低维度特征获取模块41，被配置为将多个候选推送信息的高维度特征输入所述离线降维模块，得到所述多个候选推送信息的低维度特征，所述离线降维模块的最后一层为全连接层，所述全连接层的参数为根据所述在线推送模块的学习目标参数设置的；

该预测反馈结果获取模块42，被配置为将所述多个候选推送信息的低维度特征输入所述在线推送模块，得到所述多个候选推送信息各自的预测反馈结果；

该目标推送信息确定模块43，被配置为根据所述多个候选推送信息各自的反馈预测结果，确定所述多个候选推送信息中要推送给待推送用户账户的目标推送信息；

该真实反馈结果获取模块44，被配置为获取所述待推送用户账户对推送的所述目标推送信息的真实反馈结果；

该在线模块参数更新模块45，被配置为根据所述目标推送信息的预测反馈结果和真实反馈结果，更新所述在线推送模块的参数；

该参数获取模块46，被配置为获取参数更新后的所述在线推送模块的学习目标参数；

该参数设置模块47，被配置为根据参数更新后的所述在线推送模块的学习目标参数，设置所述离线降维模块的最后一层的参数；

该离线模块参数更新模块48，被配置为在固定所述离线降维模块的最后一层的参数的情况下，更新所述离线降维模块的除最后一层的参数外的其它参数。

可选地，所述离线模块参数更新模块48包括：

可选地，所述在线模块参数更新模块45包括：

可选地，所述装置还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于推送模型的训练的装置的框图。其中，装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置500可以包括以下一个或多个组件：处理组件502，存储器504，电力组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件514可以检测到装置500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是根据一示例性实施例示出的一种用于推送模型的训练的装置的框图。例如，装置600可以被提供为一服务器。参照图6，装置600包括处理组件622，其进一步包括一个或多个处理器，以及由存储器632所代表的存储器资源，用于存储可由处理组件622的执行的指令，例如计算机程序产品。存储器632中存储的计算机程序产品可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件622被配置为执行指令，以执行上述推送模型的训练方法。

装置600还可以包括一个电源组件626被配置为执行装置600的电源管理，一个有线或无线网络接口650被配置为将装置600连接到网络，和一个输入输出(I/O)接口658。装置600可以操作基于存储在存储器632的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种推送模型的训练方法，其特征在于，所述推送模型包括离线降维模块和在线推送模块，所述离线降维模块用于对特征进行降维处理，所述在线推送模块用于确定信息的预测反馈结果；所述方法包括：

获取参数更新后的所述在线推送模块的学习目标参数；

2.根据权利要求1所述的方法，其特征在于，所述在固定所述离线降维模块的最后一层的参数的情况下，更新所述离线降维模块的除最后一层的参数外的其它参数，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标推送信息的预测反馈结果和真实反馈结果，更新所述在线推送模块的参数，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-4任一所述的方法，其特征在于，在所述更新所述离线降维模块的除最后一层的参数外的其它参数之后，所述方法还包括：

获取多个推送信息的高维度特征；

6.根据权利要求1-4任一所述的方法，其特征在于，在所述更新所述离线降维模块的除最后一层的参数外的其它参数之后，所述方法还包括：

7.一种推送模型的训练装置，其特征在于，所述推送模型包括离线降维模块和在线推送模块，所述离线降维模块用于对特征进行降维处理，所述在线推送模块用于确定信息的预测反馈结果；所述装置包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的推送模型的训练方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的推送模型的训练方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的推送模型的训练方法。