CN110413893A

CN110413893A - 对象推送方法、装置、计算机设备及存储介质

Info

Publication number: CN110413893A
Application number: CN201910698531.5A
Authority: CN
Inventors: 袁一方
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-05

Abstract

本申请涉及一种对象推送方法、装置、计算机设备及存储介质，该方法包括：获取与目标用户标识对应的候选对象标识和历史对象标识；获取各候选对象标识对应的基本信息；将所述候选对象标识和历史对象标识作为环境状态信息、以及将所述基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值；根据所述推送分值，从所述候选对象标识中，选取向所述目标用户标识所对应的终端推送的目标对象标识；其中，所述评分模型，是通过对包括样本奖励值的样本数据进行迭代地强化学习训练得到；所述样本奖励值，用于表征样本用户对样本对象的兴趣度、以及表征向样本用户推送样本对象时的推送类别多样性。本申请的方案，能够提高推送的目标对象的准确性。

Description

对象推送方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种对象推送方法、装置、计算机设备及存储介质。

背景技术

随着科学技术的飞速发展，大量先进技术不断涌现。对象推送是目前比较重要的一项技术，在日常生活和工作中的应用越来越广泛。比如，新闻推送在如今的信息时代，起着非常重要的作用。

传统方法中，是用待推送的对象的特征，与用户的特征进行一一匹配，根据匹配结果选择最终要推送的对象。显然，传统方法这种根据用户特征进行匹配的推送策略，会导致用户收到的对象形式过于局限，导致推送不够准确。

发明对象

基于此，有必要针对传统方法推送不够准确的问题，提供一种对象推送方法、装置、计算机设备及存储介质。

一种对象推送方法，所述方法包括：

获取与目标用户标识对应的候选对象标识和历史对象标识；

获取各候选对象标识对应的基本信息；

将所述候选对象标识和历史对象标识作为环境状态信息、以及将所述基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值；

根据所述推送分值，从所述候选对象标识中，选取向所述目标用户标识所对应的终端推送的目标对象标识；

其中，所述评分模型，是通过对包括样本奖励值的样本数据进行迭代地强化学习训练得到；所述样本奖励值，用于表征样本用户对样本对象的兴趣度、以及表征向样本用户推送样本对象时的推送类别多样性。

在其中一个实施例中，所述根据所述推送分值，从所述候选对象标识中，选取向所述目标用户标识所对应的终端推送的目标对象标识包括：

选取推送分值最高的候选对象标识，作为目标对象标识；

所述方法还包括：

根据与所述目标对象标识对应的基本信息，生成推送信息；

按照所述目标用户标识，下发所述推送信息。

在其中一个实施例中，所述方法还包括：

获取目标用户标识对应的用户信息；

所述将所述候选对象标识和历史对象标识作为环境状态信息、以及将所述基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值包括：

将所述候选对象标识、历史对象标识和所述用户信息作为环境状态信息、以及将所述基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值。

在其中一个实施例中，所述评分模型的训练步骤包括：

获取样本数据；同一组样本数据中包括对应于同一样本用户的样本对象标识的集合、各样本对象标识的基本信息和样本奖励值；所述样本对象标识包括样本历史对象标识和样本候选对象标识；

在每轮强化学习迭代训练中，将集合作为当前环境状态信息及将各样本对象标识的基本信息作为动作信息，输入主网络，预测各样本对象标识的推送分值；

选择推送分值最高的样本对象标识，并将从所述集合中推送所选择的所述样本对象标识后的环境状态信息，作为下一环境状态信息，将所选择的样本对象标识的基本信息作为所述下一环境状态信息的动作信息、且与所述下一环境状态信息一并输入目标网络，输出所选择的样本对象标识的推送分值；

根据所述样本奖励值和所述目标网络输出的推送分值，得到真实值；

将所述主网络输出的推送分值作为预测值，并根据所述真实值与预测值之间的差距，调整主网络的模型系数，并进行下一轮迭代训练，直至模型系数稳定，得到最终的评分模型。

在其中一个实施例中，所述样本奖励值，为同组的集合作为当前环境状态信息时，从所述同组的集合中对推送分值最高的样本对象标识进行下发后得到的奖励值；

所述方法还包括：

当下发的推送分值最高的样本对象标识为被所述样本用户点击过的样本历史对象标识时，根据所述样本用户对所述推送分值最高的样本对象标识的点击信息，确定样本奖励值；

当下发的推送分值最高的样本对象标识为未被样本用户点击的样本候选对象标识时，根据向所述样本用户下发推送分值最高的样本对象标识时的推送类别多样性的值，确定样本奖励值。

在其中一个实施例中，所述将所述候选对象标识和历史对象标识作为环境状态信息、以及将所述基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值包括：

将所述候选对象标识和历史对象标识作为环境状态信息作为环境状态信息、以及将所述基本信息作为动作信息，输入评分模型中，通过评分模型预测所述目标用户对各候选对象标识的兴趣度、以及向目标用户标识所对应的终端推送每个候选对象标识时的推送类别多样性的值；

通过所述评分模型根据所述兴趣度和所述推送类别多样性的值，对各候选对象标识进行推送评分，输出各候选对象标识对应的推送分值。

在其中一个实施例中，所述环境状态信息还包括目标用户标识对应的用户信息；

所述通过评分模型预测所述目标用户对各候选对象标识的兴趣度、以及向目标用户标识所对应的终端推送每个候选对象标识时的推送类别多样性的值包括：

通过评分模型，获取每个所述候选对象标识携带的第一类别标签、以及历史对象标识携带的第二类别标签；

根据各第二类别标签和所述用户信息，预测目标用户感兴趣的对象类别；

将所述候选对象标识的第一类别标签和预测的对象类别进行匹配，得到所述目标用户对各候选对象标识的兴趣度；

根据所述第一类别标签和第二类别标签，预测向所述目标用户标识所对应的终端分别推送各所述候选对象标识时，所述目标用户标识所对应的终端已被推送的对象的类别分布，并根据所述类别分布，确定推送类别多样性的值。

一种对象推送装置，其特征在于，所述装置包括：

获取模块，用于获取与目标用户标识对应的候选对象标识和历史对象标识；获取各候选对象标识对应的基本信息；

评分模块，用于将所述候选对象标识和历史对象标识作为环境状态信息、以及将所述基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值；其中，所述评分模型，是通过对包括样本奖励值的样本数据进行迭代地强化学习训练得到；所述样本奖励值，用于表征样本用户对样本对象的兴趣度、以及表征向样本用户推送样本对象时的推送类别多样性

推送模块，用于根据所述推送分值，从所述候选对象标识中，选取向所述目标用户标识所对应的终端推送的目标对象标识。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

获取与目标用户标识对应的候选对象标识和历史对象标识；

获取各候选对象标识对应的基本信息；

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取与目标用户标识对应的候选对象标识和历史对象标识；

获取各候选对象标识对应的基本信息；

上述对象推送方法、装置、计算机设备及存储介质，将与目标用户标识对应的候选对象标识和历史对象标识作为环境状态信息、以及将所述基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值。由于所述评分模型，是通过对包括样本奖励值的样本数据进行迭代地强化学习训练得到；所述样本奖励值，用于表征样本用户对样本对象的兴趣度、以及表征向样本用户推送样本对象时的推送类别多样性，因此，通过评分模型预测各候选对象标识对应的推送分值时，也就既考虑到了目标用户对各候选对象的兴趣度、又考虑到了向目标用户推送候选对象时的推送类别多样性，这样一来，能够提高推送分值的准确性，进而根据推送分值确定目标对象标识，相较于传统方法仅根据对象的特征和用户特征的之间的匹配度确定目标对象而言，能够使得所要推送的目标对象更为准确。

附图说明

图1为一个实施例中对象推送方法的应用场景图；

图2为一个实施例中对象推送方法的流程示意图；

图3A至3B为一个实施例中对象推送的界面示意图；

图4为一个实施例中评分模型的设计图；

图5为一个实施例中评分模型的训练示意图；

图6为一个实施例中的网络结构框图；

图7为一个实施例中基于强化学习的对象推送方法的系统架构图；

图8为一个实施例中对象推送装置的框图；

图9为另一个实施例中对象推送装置的框图；

图10为一个实施例中计算机设备的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中对象推送方法的应用场景图。参照图1，该应用场景中包括通过网络连接的终端110和服务器120。终端110可以是智能电视机、智能音箱、台式计算机或移动终端，移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器120可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。

服务器120可以获取与目标用户标识对应的候选对象标识和历史对象标识；获取各候选对象标识对应的基本信息；将候选对象标识和历史对象标识作为环境状态信息、以及将基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值；根据推送分值，从候选对象标识中，选取向目标用户标识所对应的终端推送的目标对象标识；其中，评分模型，是通过对包括样本奖励值的样本数据进行迭代地强化学习训练得到；样本奖励值，用于表征样本用户对样本对象的兴趣度、以及表征向样本用户推送样本对象时的推送类别多样性。进一步地，服务器120可以生成针对目标对象标识的推送信息，并将推送信息向目标用户标识所对应的终端110推送。

图2为一个实施例中对象推送方法的流程示意图。本实施例中的该对象推送方法可以应用于计算机设备，现以计算机设备为图1中的服务器120进行举例说明。参照图2，该方法具体包括如下步骤：

S202，获取与目标用户标识对应的候选对象标识和历史对象标识。

其中，目标用户标识，是对象将要被推送至的用户的标识。候选对象，是候选的、能够被向目标用户标识所对应的终端推送的对象。可以理解，本申请各实施例的方法，主要用于从候选对象中，确定最终需要被推送的目标对象。历史对象，是已经被向目标用户标识所对应的终端推送过的对象。候选对象标识，用于唯一标识候选对象。历史对象标识，用于唯一标识历史对象。

在一个实施例中，对象可以包括媒体内容。媒体内容，是指能够传播信息的内容。在一个实施例中，媒体内容可以包括文章、视频、短视频和音频等至少一种。在其他实施例中，对象还可以包括虚拟对象和推广信息等中的至少一种。虚拟对象可以包括虚拟人物、虚拟动物和虚拟资源等至少一种。推广信息，即为广告。

S204，获取各候选对象标识对应的基本信息。

其中，基本信息，是对候选对象标识所对应的候选对象进行基本描述的信息。

在一个实施例中，基本信息可以包括对象的简介和摘要信息等至少一种。

S206，将候选对象标识和历史对象标识作为环境状态信息、以及将基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值。

其中，环境状态和动作，是强化学习训练中的要素。强化学习训练的原理是，在当前选择一个合适的动作后，环境状态就会发生变化，同时能够得到采取该动作的奖励值，然后可以继续选择下一个合适的动作，环境状态又会发生改变，又有新的奖励值，以此类推，直至强化学习训练结束。

可以理解，本申请实施例中就是预先用强化学习训练的方式，来训练出评分模型。其中，评分模型，是通过对包括样本奖励值的样本数据进行迭代地强化学习训练得到。即，样本数据中包括样本奖励值。样本奖励值，用于表征样本用户对样本对象的兴趣度、以及表征向样本用户推送样本对象时的推送类别多样性。

需要说明的是，样本奖励值，也是强化学习训练中的要素。样本奖励值，是在执行样本动作后获取的执行该样本动作的奖励值。样本奖励值，用于表征样本用户对样本对象的兴趣度、以及表征向样本用户推送样本对象时的推送类别多样性。兴趣度，是指感兴趣程度。推送类别多样性，是指样本用户所接收的对象的类别分布均衡程度。类别分布越均衡，表明推送类别越多样，而不是集中推送某一个或多个类别，而是针对每种类别都均衡推送。

其中，样本奖励值的大小，与样本用户对样本对象的兴趣度的高低、以及向样本用户推送样本对象时的推送类别多样性的值的大小正相关。可以理解，如果样本用户对样本对象的兴趣度越高，说明推送的样本对象(即，执行的动作)越合适，那么，赋予的样本奖励值就越大，反之，如果样本用户对样本对象的兴趣度越低，说明推送的样本对象(即，执行的动作)越不合适，那么，赋予的样本奖励值就越小。同样地，如果向样本用户推送样本对象时的推送类别多样性的值越大，说明推送该样本对象后，该样本用户接收的对象的类别分布越均衡，则赋予的样本奖励值就越大。反之，如果向样本用户推送样本对象时的推送类别多样性的值越小，说明推送该样本对象后，该样本用户接收的对象的类别分布越不均衡，则赋予的样本奖励值就越小。

可以理解，样本数据中除了包括样本奖励值以外，还可以包括应于同一样本用户的样本对象标识的集合、各样本对象标识的基本信息；其中，所述样本对象标识包括样本历史对象标识和样本候选对象标识。通过使用样本数据迭代地进行强化学习训练，得到评分模型。

具体地，在使用评分模型时，计算机设备可以将候选对象标识和历史对象标识作为环境状态信息、以及将基本信息作为动作信息，输入通过强化学习训练得到的评分模型中，输出各候选对象标识对应的推送分值。可以理解，计算机设备在将候选对象标识和历史对象标识作为环境状态信息、以及将基本信息作为动作信息，输入评分模型中后，评分模型可以根据输入的候选对象标识和历史对象标识、以及基本信息，分析目标用户对各候选对象的兴趣度、以及分析向目标用户推送各候选对象时的推送类别多样性的值，从而根据兴趣度和推送类别多样性的值，来对各候选对象进行推送评分，得到各候选对象标识对应的推送分值。

S208，根据推送分值，从候选对象标识中，选取向目标用户标识所对应的终端推送的目标对象标识。

其中，目标对象，是最终向目标用户标识所对应的终端所要推送的对象。目标对象标识，用于唯一标识目标对象。

在一个实施例中，步骤S208包括：选取推送分值最高的候选对象标识，作为目标对象标识。具体地，计算机设备被可以将各候选对象的标识所对应的推送分值进行比对，选取推送分值最高的候选对象标识，得到目标对象标识。

在另一个实施例中，步骤S208也可以包括：按照推送分值由高到低的顺序对候选对象标识进行排序，选取排名在前预设位次的候选对象标识，作为目标对象标识。

在一个实施例中，该方法还包括：根据与所述目标对象标识对应的基本信息，生成推送信息；按照所述目标用户标识，下发所述推送信息。

具体地，计算机设备可以获取目标对象标识对应的目标对象的基本信息，根据该基本信息生成推送信息。计算机设备可以按照目标用户标识，向目标用户标识所对应的终端，推送下发该生成的推送信息。

图3A至3B为一个实施例中对象推送的界面示意图。参照图3A和3B，是以对象为新闻文章为例进行举例说明。本实施例中，可以将该对象推送方法应用于新闻客户端中。参照图3A，为新闻客户端的界面示意图。图3B为新闻推送的界面示意图。可以理解，按照本申请各实施例中的对象推送方法，向图3A所示的新闻客户端推送新闻文章，推送信息在终端的通知栏位。可以理解，可以根据不同型号的终端将推送信息以不同的样式进行呈现。参照图3B，推送信息仅是关于新闻文章的基本信息，当接收到对呈现基本信息的推送信息的触发操作后，新闻客户端则可以向文章服务器请求获取新闻的具体内容。

上述对象推送方法，将与目标用户标识对应的候选对象标识和历史对象标识作为环境状态信息、以及将所述基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值。由于所述评分模型，是通过对包括样本奖励值的样本数据进行迭代地强化学习训练得到；所述样本奖励值，用于表征样本用户对样本对象的兴趣度、以及表征向样本用户推送样本对象时的推送类别多样性，因此，通过评分模型预测各候选对象标识对应的推送分值时，也就既考虑到了目标用户对各候选对象的兴趣度，又兼顾了向目标用户推送候选对象时的推送类别多样性，这样一来，能够提高推送分值的准确性。进而根据推送分值确定目标对象标识，相较于传统方法仅根据对象的特征和用户特征的之间的匹配度确定目标对象而言，能够使得所确定出的目标对象更为准确。

在一个实施例中，该方法还包括：获取目标用户标识对应的用户信息。步骤S206包括：将候选对象标识、历史对象标识和用户信息作为环境状态信息、以及将基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值。

其中，用户信息是用于体现用户个人特征的信息。在一个实施例中，用户信息可以包括用户的兴趣爱好信息和用户画像等中的至少一种。

可以理解，本实施例中，在训练评分模型时，样本数据中包括的样本环境状态信息中也包括了用户信息，所以，在使用评分模型时，可以将目标用户的用户信息和候选对象标识、历史对象标识一并作为环境状态信息，并将各候选内容标识对应的候选内容的基本信息作为动作信息，输入评分模型中，输出各候选对象标识对应的推送分值。

图4为一个实施例中评分模型的设计图。结合图4，该评分模型主要包括环境状态信息特征层(State Feature)和可执行的动作信息特征层(Feasible Action Feature)、以及两层激活函数层(Relu)。环境状态信息特征层和可执行的动作信息特征层，皆可以包括嵌入的特征(Embedding Features)和连续的特征(Continuous Feature)这两种形式的特征。为了便于理解，现以对象为文章为例，结合图4对本申请的方案进行举例说明。即，可以获取用户队列信息，用户队列信息中包括针对目标用户已推送过的历史文章列表和当前可以向目标用户下发的候选文章列表，以及目标用户的个人信息。然后将用户队列信息和目标用户的个人信息作为当前的环境状态信息输入环境状态信息特征层，将当前可以下发的候选文章的基本信息作为动作信息输入动作信息特征层进行处理，然后将处理结果依次输入两层激活函数层，最终输出各候选文章对应的推送分值，即执行动作的分值(ActionScore)。可以理解，候选文章一般可以有至少一个，因此，可以根据每一个候选文章，计算推送分值。进一步地，可以最后取最高分数的文章作为最终用于下发的目标文章。

上述实施例中，由于用户信息能够表征用户特征，一定程度上能够反映用户个人兴趣需求，因此，将用户信息，与候选对象和历史对象信息一并作为环境状态信息，来计算各候选对象标识对应的推送分值，相当于增加了表征用户个人兴趣需求的信息量，提供了所确定的推送分值的准确性。

在一个实施例中，评分模型的训练步骤包括：获取样本数据；样本数据中包括对应于同一样本用户的样本对象标识的集合、各样本对象标识的基本信息和样本奖励值；样本对象标识包括样本历史对象标识和样本候选对象标识；在每轮强化学习迭代训练中，将集合作为当前环境状态信息及将各样本对象标识的基本信息作为动作信息，输入主网络，预测各样本对象标识的推送分值；选择推送分值最高的样本对象标识，并将从所述集合中推送所选择的所述样本对象标识后的环境状态信息，作为下一环境状态信息，将所选择的样本对象标识的基本信息作为所述下一环境状态信息的动作信息、且与所述下一环境状态信息一并输入目标网络，输出所选择的样本对象标识的推送分值；根据所述样本奖励值和所述目标网络输出的推送分值，得到真实值；将所述主网络输出的推送分值作为预测值，并根据所述真实值与预测值之间的差距，调整主网络的模型系数，并进行下一轮迭代训练，直至模型系数稳定，得到最终的评分模型。

具体地，计算机设备可以获取样本数据。其中，样本数据中包括对应于同一样本用户的样本对象标识的集合、各样本对象标识的基本信息和样本奖励值；样本对象标识包括样本历史对象标识和样本候选对象标识。计算机设备可以根据样本数据进行迭代地强化学习训练，直至满足迭代停止条件，得到最终的评分模型。

计算机设备可以采用DDQN(Double Deep Q-Learning)的方式进行迭代地强化学习训练。可以理解，DDQN的模型框架中包括主网络和目标网络。其中，主网络，是负责选择动作的网络模型。目标网络，是负责计算主网络所选择动作所对应分值的网络模型。

在每轮强化学习迭代训练中，计算机设备可以将集合作为当前环境状态信息及将各样本对象标识的基本信息作为动作信息，输入主网络，通过主网络预测当前环境状态下各样本对象标识的推送分值。计算机设备可以从所述集合中选择推送分值最高的样本对象标识，并从集合中推送所选择的所述样本对象标识，得到下一环境状态信息。

计算机设备可以将所选择的推送分值最高的样本对象标识的基本信息作为所述下一环境状态信息的动作信息、且与所述下一环境状态信息一并输入目标网络，通过目标网络输出所选择的样本对象标识的推送分值，即执行下发该推送分值最高的样本对象标识所对应的基本信息这一动作能够得到的分值。

计算机设备可以根据所述样本奖励值和所述目标网络输出的推送分值，得到真实值。计算机设备可以将所述主网络输出的推送分值作为预测值，并确定所述真实值与预测值之间的差距，即，确定用于表征真实值和预测值之间差异的损失函数，通过最小化损失函数，即最小化真实值和预测值之间的差异，调整主网络的模型系数，并进行下一轮迭代训练，直至模型系数稳定，得到最终的评分模型。

在一个实施例中，计算机设备可以将作为当前环境状态信息的样本对象标识的集合、作为动作信息的各样本对象标识的基本信息、样本奖励值以及从所述集合中下发推送分值最高的样本对象标识后得到的下一环境状态信息作为组合，存储至经验回放集合中。计算机设备可以从经验回放集合中，获取该组合数据，并据此来训练评分模型。可以理解，通过经验回放，能够提高样本数据之间的关联性，加快模型训练的收敛速度。

图5为一个实施例中评分模型的训练示意图。参照图5，可以从经验回放集合D(Replay memory D)中获取一组样本数据(s,a_i,r，s＇)。其中，s表示当前环境状态信息，a_i表示各动作信息(即，各样本对象标识的基本相关信息)，r即为样本奖励值，s＇为下一环境状态信息。该模型训练框架中包括主网络(MainNet)和目标网络(TargetNet)。在每轮强化学习迭代训练中，将集合作为当前环境状态信息s及将各样本对象标识的基本信息作为动作信息a_i，输入主网络(MainNet)中，主网络会预测各个动作信息a_i的得分分值Q(ai)(即预测各样本对象标识的推送分值)，进而，预测最高分值的动作信息maxQ(a’)，即，推送分值最高的样本对象标识。然后，可以将下一环境状态信息s＇和将最高分值的动作信息a’作为下一环境状态信息的动作信息输入目标网络，输出动作信息a’对应的推送分值。计算机设备可以根据所述样本奖励值和所述目标网络输出的推送分值，得到真实值，将主网络输出的推送分值作为预测值，并建立用于表征真实值和预测值之间差异的损失函数，通过迭代训练来最小化拟合损失函数。即，在每轮迭代训练中，不断调整主网络的模型系数，直至模型系数稳定，得到最终的评分模型。可以理解，对于DDQN的模型来说，主网络模型系数稳定后，会复制主网络的模型系数至目标网络，进而更新后的目标网络得到最终的评分模型。

上述实施例中，通过主网络和目标网络两个独立的网络，结合样本奖励值迭代地进行强化学习训练，能够避免使用单一网络进行迭代训练造成的过拟合的问题，提高了模型训练的准确性。此外，由于在迭代训练过程中，考虑了样本奖励值，而样本奖励值能够用于表征样本用户对样本对象的兴趣度、以及表征向样本用户推送样本对象时的推送类别多样性，所以，通过该训练过程训练得到的评分模型，能够在对候选对象进行评分时，既考虑目标用户对候选对象的兴趣度，又能兼顾推送类别多样性，从而自动地确定最准确地目标对象。

在一个实施例中，所述样本奖励值，为同组的集合作为当前环境状态信息时，从所述同组的集合中对推送分值最高的样本对象标识进行下发后得到的奖励值。该方法还包括：当下发的推送分值最高的样本对象标识为被所述样本用户点击过的样本历史对象标识时，根据所述样本用户对所述推送分值最高的样本对象标识的点击信息，确定样本奖励值；当下发的推送分值最高的样本对象标识为未被样本用户点击的样本候选对象标识时，根据向所述样本用户推送推送分值最高的样本对象标识时的推送类别多样性的值，确定样本奖励值。

即，计算机设备可以先获取不包括样本奖励值的初始样本数据，在迭代训练过程中，根据初始样本数据计算出样本奖励值，然后将样本奖励值及其余的样本数据作为同组样本数据，放入经验回放集合中，并从经验回放集合中获取该新得到的同组样本数据，进行迭代地机器学习训练。

可以理解，当在当前环境状态下下发的推送分值最高的样本对象标识为被所述样本用户点击过的样本历史对象标识时，计算机设备可以根据所述样本用户对所述推送分值最高的样本对象标识的点击信息，确定样本奖励值。可以理解，根据点击信息确定的样本奖励值可以为预设值，也可以与点击率大小正相关。

当下发的推送分值最高的样本对象标识为未被样本用户点击的样本候选对象标识时，根据向所述样本用户下发推送分值最高的样本对象标识时的推送类别多样性的值，确定样本奖励值。可以理解，样本奖励值与推送类别多样性的值的大小正相关。其中，推送类别多样性的值越大，样本奖励值越大，反之，推送类别多样性的值越小，样本奖励值越小。

在一个实施例中，推送类型多样性的值，可以根据熵值来确定。

在一个实施例中，样本奖励值的生成满足以下条件：

其中，R为样本奖励值，如果下发的样本对象标识为被样本用户点击过的样本历史对象标识时，则样本奖励值根据点击得分确定。如果下发的样本对象标识为未被样本用户点击过的样本候选对象标识时，则样本奖励值可以根据熵值来确定。其中，熵值可以用于表征推送类别分布的均衡性，因而可以用于表征推送类别多样性。

上述实施例中，在生成样本奖励值时，兼顾用户点击信息和用户收到对象的类别多样性，通过这样的样本奖励值进行强化学习训练的评分模型，在对对象进行推送分值计算时，既保证了点击率的考量，又能够达到多样性下发的目的。

在一个实施例中，将候选对象标识和历史对象标识作为环境状态信息、以及将基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值包括：将候选对象标识和历史对象标识作为环境状态信息、以及将基本信息作为动作信息，输入评分模型中，通过评分模型预测目标用户对各候选对象标识的兴趣度、以及向目标用户标识所对应的终端推送每个候选对象标识时的推送类别多样性的值；通过评分模型根据兴趣度和推送类别多样性的值，对各候选对象标识进行推送评分，输出各候选对象标识对应的推送分值。

具体地，在将候选对象标识和历史对象标识作为环境状态信息、以及将基本信息作为动作信息，输入评分模型后，评分模型可以根据作为环境状态信息的候选对象标识和历史对象标识、以及作为动作信息的各候选对象标识的基本信息，预测目标用户对各候选对象标识的兴趣度、以及向目标用户标识所对应的终端推送每个候选对象标识时的推送类别多样性的值；通过评分模型根据兴趣度和推送类别多样性的值，对各候选对象标识进行推送评分，输出各候选对象标识对应的推送分值。

上述实施例中，评分模型会预测目标用户对各候选对象标识的兴趣度、以及向目标用户标识所对应的终端推送每个候选对象标识时的推送类别多样性的值，通过综合考量兴趣度和推送类别多样性的值，对各候选对象标识进行推送评分，能够提高推送分值的准确性。

在一个实施例中，环境状态信息还包括目标用户标识对应的用户信息。本实施例中，通过评分模型预测目标用户对各候选对象标识的兴趣度、以及向目标用户标识所对应的终端推送每个候选对象标识时的推送类别多样性的值包括：通过评分模型，获取每个候选对象标识携带的第一类别标签、以及历史对象标识携带的第二类别标签；根据各第二类别标签和用户信息，预测目标用户感兴趣的对象类别；将候选对象标识的第一类别标签和预测的对象类别进行匹配，得到目标用户对各候选对象标识的兴趣度；根据第一类别标签和第二类别标签，预测向目标用户标识所对应的终端分别推送各候选对象标识时，目标用户标识所对应的终端已被推送的对象的类别分布，并根据类别分布，确定推送类别多样性的值。

其中，类别标签，用于标记出类别。

可以理解，用户信息能够表征用户的特征。历史对象的第二类别标签，能够表征历史向目标用户推送的对象的类别。故，用户信息和第二类别标签，包含了用于表征目标用户感兴趣的对象类别的信息量。所以，计算机设备可以对用户信息和第二类别标签进行信息提取，以预测目标用户感兴趣的对象类别。

进一步地，计算机设备可以根据第一类别标签和第二类别标签，预测向目标用户标识所对应的终端分别推送各候选对象标识时，目标用户标识所对应的终端已被推送的对象的类别分布。计算机设备可以按照类别分布均衡原则，根据预测的类别分布，确定推送类别多样性的值。

比如，目标用户标识所对应的终端已被推送的对象的类别分布中包括2种类别，即，A类和B类，分布情况是A类9个，B类3个。候选对象1是A类，候选对象2是B类。显然，类别分布中，A类偏多。那么，本着类别分布均衡原则，如果再推送候选对象1，那么，就会使得A类更偏多，导致多样性较差，所以推送候选对象2的推送类别多样性的值，比推送候选对象1的推送类别多样性的值要高。

上述实施例中，根据用户信息和第二类别标签预测目标用户对各候选对象标识的兴趣度，能够提高所预测的兴趣度的准确性。通过历史对象和候选对象的类别标签，预测向目标用户标识所对应的终端分别推送各候选对象标识时，目标用户标识所对应的终端已被推送的对象的类别分布，并根据类别分布，能够确定准确的推送类别多样性的值。

图6为一个实施例中的网络结构框图。参照图6，是以对象为文章为例进行举例说明。该网络结构框图中包括下发服务器、模型服务器、集群服务器、手机以及文章服务器。其中，下发服务器，用于获取候选文章并请求模型服务器针对待推送下发的候选文章利用强化学习训练的评分模型进行打分，得到各候选文章的推送分值。下发服务器根据推送分值，选取需要推送的目标文章，并将目标文章的基本信息推送下发的用户使用的手机。此外，下发服务器会将推送目标文章后的环境状态信息和选择目标文章的基本信息进行推送这一动作信息上报到集群服务器。用户可以通过手机点击目标文章的基本信息，以从文章服务器中请求获取目标文章的具体内容。文章服务器目标文章的具体内容发送到手机，并将点击数据上报至集群服务器。集群服务器可以根据上报的点击数据以及环境状态信息和动作信息等数据，制作训练样本，并根据制作的训练样本更新评分模型，然后将训练更新的新模型，更新到模型服务器中。

图7为一个实施例中基于强化学习的对象推送方法的系统架构图。结合图7的系统架构图，以对象为新闻文章为例，简化描述本申请各实施例中对象推送方法的流程如下：

a.新闻文章经过召回排序处理到达下发系统后，下发系统将用户当前队列里面可以下发的候选新闻文章以及之前记录的已下发的历史新闻文章通过远程调用方式(比如，gRPC，是由谷歌公司开发的一款语言中立、平台中立、开源的远程过程调用系统)，请求评分模型对各候选新闻文章计算推送分值。

b.评分模型针对各候选新闻文章进行打分，并将各候选文章新闻的推送分值发送给下发系统。

c.下发系统根据打分结果选择推送分值最高的新闻文章进行推送下发，并记录下发后的队列环境状态信息(简称队列状态)，以及上报下发后的队列环境状态信息到分布式日志收集系统。

d.客户端会收集客户端的点击信息，并将点击信息上报。样本生成系统根据下发系统上报的信息以及客户端的点击信息，自动计算样本奖励值，生成训练样本(即训练数据)，将训练样本发送给强化学习训练机器。可以理解，可以通过数据处理引擎自动计算样本奖励值。数据处理引擎可以是Spark(一个快速、通用的大规模数据处理引擎)。

e.强化学习训练机器根据训练样本进行训练，将最新训练好的模型发送给线上的评分模型。

上述实施例中，能够根据点击信息和上报的状态信息更新地训练模型，相当于根据下发状态对模型进行调整训练，即实现了下发状态动态调整下发的文章。

如图8所示，在一个实施例中，提供了一种对象推送装置800，该装置800包括：获取模块802、评分模块804以及推送模块806，其中：

获取模块802，用于获取与目标用户标识对应的候选对象标识和历史对象标识；获取各候选对象标识对应的基本信息。

评分模块804，用于将所述候选对象标识和历史对象标识作为环境状态信息、以及将所述基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值；其中，所述评分模型，是通过对包括样本奖励值的样本数据进行迭代地强化学习训练得到；所述样本奖励值，用于表征样本用户对样本对象的兴趣度、以及表征向样本用户推送样本对象时的推送类别多样性。

推送模块806，用于根据所述推送分值，从所述候选对象标识中，选取向所述目标用户标识所对应的终端推送的目标对象标识。

在一个实施例中，推送模块806还用于选取推送分值最高的候选对象标识，作为目标对象标识；根据与所述目标对象标识对应的基本信息，生成推送信息；按照所述目标用户标识，下发所述推送信息。

在一个实施例中，获取模块802还用于获取目标用户标识对应的用户信息；评分模块804还用于将所述候选对象标识、历史对象标识和所述用户信息作为环境状态信息、以及将所述基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值。

在一个实施例中，所述评分模块804还用于获取样本数据；同一组样本数据中包括对应于同一样本用户的样本对象标识的集合、各样本对象标识的基本信息和样本奖励值；所述样本对象标识包括样本历史对象标识和样本候选对象标识；在每轮强化学习迭代训练中，将集合作为当前环境状态信息及将各样本对象标识的基本信息作为动作信息，输入主网络，预测各样本对象标识的推送分值；选择推送分值最高的样本对象标识，并将从所述集合中推送所选择的所述样本对象标识后的环境状态信息，作为下一环境状态信息，将所选择的样本对象标识的基本信息作为所述下一环境状态信息的动作信息、且与所述下一环境状态信息一并输入目标网络，输出所选择的样本对象标识的推送分值；根据所述样本奖励值和所述目标网络输出的推送分值，得到真实值；将所述主网络输出的推送分值作为预测值，并根据所述真实值与预测值之间的差距，调整主网络的模型系数，并进行下一轮迭代训练，直至模型系数稳定，得到最终的评分模型。

如图9所示，在一个实施例中，所述样本奖励值，为同组的集合作为当前环境状态信息时，从所述同组的集合中对推送分值最高的样本对象标识进行下发后得到的奖励值。本实施例中，该装置800还包括：

奖励值确定模块803，用于当下发的推送分值最高的样本对象标识为被所述样本用户点击过的样本历史对象标识时，根据所述样本用户对所述推送分值最高的样本对象标识的点击信息，确定样本奖励值；当下发的推送分值最高的样本对象标识为未被样本用户点击的样本候选对象标识时，根据向所述样本用户下发推送分值最高的样本对象标识时的推送类别多样性的值，确定样本奖励值。

在一个实施例中，所述评分模块804还用于将所述候选对象标识和历史对象标识作为环境状态信息作为环境状态信息、以及将所述基本信息作为动作信息，输入评分模型中，通过评分模型预测所述目标用户对各候选对象标识的兴趣度、以及向目标用户标识所对应的终端推送每个候选对象标识时的推送类别多样性的值；通过所述评分模型根据所述兴趣度和所述推送类别多样性的值，对各候选对象标识进行推送评分，输出各候选对象标识对应的推送分值。

在一个实施例中，所述环境状态信息还包括目标用户标识对应的用户信息；所述评分模块804还用于通过评分模型，获取每个所述候选对象标识携带的第一类别标签、以及历史对象标识携带的第二类别标签；根据各第二类别标签和所述用户信息，预测目标用户感兴趣的对象类别；将所述候选对象标识的第一类别标签和预测的对象类别进行匹配，得到所述目标用户对各候选对象标识的兴趣度；根据所述第一类别标签和第二类别标签，预测向所述目标用户标识所对应的终端分别推送各所述候选对象标识时，所述目标用户标识所对应的终端已被推送的对象的类别分布，并根据所述类别分布，确定推送类别多样性的值。

图10为一个实施例中计算机设备的内部结构示意图。参照图10，该计算机设备可以是图1中的服务器120。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时，可使得处理器执行一种对象推送方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行一种对象推送方法。计算机设备的网络接口用于进行网络通信。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的对象推送装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行，计算机设备的非易失性存储介质可存储组成该对象推送装置的各个程序模块，比如，图8所示的获取模块802、评分模块804以及推送模块806。各个程序模块所组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施例的对象推送方法中的步骤，例如，计算机设备可以通过如图8所示的对象推送装置800中的获取模块802获取与目标用户标识对应的候选对象标识和历史对象标识；获取各候选对象标识对应的基本信息。计算机设备可以通过评分模块804将所述候选对象标识和历史对象标识作为环境状态信息、以及将所述基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值；其中，所述评分模型，是通过对包括样本奖励值的样本数据进行迭代地强化学习训练得到；所述样本奖励值，用于表征样本用户对样本对象的兴趣度、以及表征向样本用户推送样本对象时的推送类别多样性。计算机设备可以通过推送模块806根据所述推送分值，从所述候选对象标识中，选取向所述目标用户标识所对应的终端推送的目标对象标识。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述对象推送方法的步骤。此处对象推送方法的步骤可以是上述各个实施例的对象推送方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述对象推送方法的步骤。此处对象推送方法的步骤可以是上述各个实施例的对象推送方法中的步骤。

应该理解的是，虽然本申请各实施例中的各个步骤并不是必然按照步骤标号指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种对象推送方法，所述方法包括：

获取与目标用户标识对应的候选对象标识和历史对象标识；

获取各候选对象标识对应的基本信息；

2.根据权利要求1所述的方法，其特征在于，所述根据所述推送分值，从所述候选对象标识中，选取向所述目标用户标识所对应的终端推送的目标对象标识包括：

选取推送分值最高的候选对象标识，作为目标对象标识；

所述方法还包括：

根据与所述目标对象标识对应的基本信息，生成推送信息；

按照所述目标用户标识，下发所述推送信息。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标用户标识对应的用户信息；

4.根据权利要求1所述的方法，其特征在于，所述评分模型的训练步骤包括：

5.根据权利要求4所述的方法，其特征在于，所述样本奖励值，为同组的集合作为当前环境状态信息时，从所述同组的集合中对推送分值最高的样本对象标识进行下发后得到的奖励值；

所述方法还包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述将所述候选对象标识和历史对象标识作为环境状态信息、以及将所述基本信息作为动作信息，输入评分模型，输出各候选对象标识对应的推送分值包括：

7.根据权利要求6所述的方法，其特征在于，所述环境状态信息还包括目标用户标识对应的用户信息；

8.一种对象推送装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至7中任一项所述方法的步骤。