CN109451038A

CN109451038A - 一种信息推送方法、装置、服务器及计算机可读存储介质

Info

Publication number: CN109451038A
Application number: CN201811486104.2A
Authority: CN
Inventors: 王天驹; 卞俊杰; 姜飞; 叶璨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2019-03-08

Abstract

本申请是关于一种信息推送方法、装置、服务器及计算机可读存储介质。该方法包括：当到达信息推送时间时，获得待推送信息及待推送的目标用户的状态信息；将状态信息和预设动作标识输入至预先训练得到的深度强化学习模型，得到每个预设动作标识对应的Q值；预设动作标识包括：推送动作的标识和放弃推送动作的标识；预设动作标识对应的Q值为：执行该预设动作标识对应的动作后所获得的长期反馈的估计值；根据深度强化学习模型输出的最大Q值所对应的动作，确定是否给目标用户推送待推送消息。这样，可以通过深度强化学习模型来捕捉用户对推送时间和推送内容的偏好，从而实现信息的个性化推送。

Description

一种信息推送方法、装置、服务器及计算机可读存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种信息推送方法、装置、服务器及计算机可读存储介质。

背景技术

推送服务是指服务器定向将信息实时送达用户终端的服务。目前，推送服务的推送方式为：定时给各个用户终端推送信息，并且，给各个用户终端所推送的信息相同。

发明人发现，该种推送方式会给不需要推送服务的用户造成打扰，而且给用户推送的信息很可能是用户不感兴趣的。也就是说，该种推送方式无法实现个性化推送。

发明内容

为克服相关技术中存在的问题，本申请提供一种信息推送方法、装置、服务器及计算机可读存储介质，以可以通过深度强化学习模型来捕捉用户对推送时间和推送内容的偏好，从而实现信息的个性化推送。

根据本申请实施例的第一方面，提供一种信息推送方法，该方法包括：

当到达信息推送时间时，获得待推送信息及待推送的目标用户的状态信息；状态信息包括：目标用户在历史上接收到的历史推送信息、历史推送信息的推送时间和目标用户对历史推送信息的处理方式；

将状态信息和预设动作标识输入至预先训练得到的深度强化学习模型，得到每个预设动作标识对应的Q值；其中，预设动作标识包括：推送动作的标识和放弃推送动作的标识；预设动作标识对应的Q值为：执行该预设动作标识对应的动作后所获得的长期反馈的估计值；

根据深度强化学习模型输出的最大Q值所对应的动作，确定是否给目标用户推送待推送消息。

可选地，在本申请实施例中，深度强化学习模型包括深度Q网络模型。

可选地，在本申请实施例中，在将状态信息和预设动作标识输入至预先训练得到的深度强化学习模型的步骤之前，该方法还包括：

构建马尔可夫决策过程模型；其中，马尔可夫决策过程模型为：{S，A，R，T}；S表示用户的状态信息、A表示预设动作标识、R表示奖励函数，T表示状态转移函数；

基于马尔可夫决策过程模型，获得多个训练样本；其中，每个训练样本中包括：用户的状态信息、所执行的目标动作的标识、执行目标动作后所获得的即时奖励值、执行目标动作后状态信息对应的下一状态信息；目标动作为：推送动作或放弃推送动作；

利用训练样本对初始Q函数的参数进行优化，得到训练后的深度Q网络模型；参数包括：学习速率、折扣因子和Q值。

可选地，在本申请实施例中，当目标动作为放弃推送动作时，奖励函数输出的即时奖励值为0；当目标动作为推送动作时，奖励函数输出的即时奖励值＝1.0*正向处理方式对应的取值+(-0.006)*负向处理方式对应的取值。

可选地，在本申请实施例中，正向处理方式对应的取值＝1-负向处理方式对应的取值。

可选地，在本申请实施例中，用户对推荐信息的正向处理方式包括：点击、标注为喜欢、评论和查看时长大于预设阈值中的至少一种；用户对推荐信息的负向处理方式包括：放弃处理和关闭推送中的至少一种。

可选地，在本申请实施例中，目标用户的状态信息还包括：目标用户对待推送信息所对应的作者的关注度、目标用户的用户属性信息、目标用户所使用的电子设备的设备信息、电子设备的网络信息、目标用户所发布的信息和目标用户的粉丝数量信息中一种或多种。

根据本申请实施例的第二方面，提供一种信息推送装置，该装置包括：

第一获得模块，被配置为当到达信息推送时间时，获得待推送信息及待推送的目标用户的状态信息；状态信息包括：目标用户在历史上接收到的历史推送信息、历史推送信息的推送时间和目标用户对历史推送信息的处理方式；

输入模块，被配置为将状态信息和预设动作标识输入至预先训练得到的深度强化学习模型，得到每个预设动作标识对应的Q值；其中，预设动作标识包括：推送动作的标识和放弃推送动作的标识；预设动作标识对应的Q值为：执行该预设动作标识对应的动作后所获得的长期反馈的估计值；

确定模块，被配置为根据深度强化学习模型输出的最大Q值所对应的动作，确定是否给目标用户推送待推送消息。

可选地，在本申请实施例中，该装置还包括：

构建模块，被配置为在将状态信息和预设动作标识输入至预先训练得到的深度强化学习模型之前，构建马尔可夫决策过程模型；其中，马尔可夫决策过程模型为：{S，A，R，T}；S表示用户的状态信息、A表示预设动作标识、R表示奖励函数，T表示状态转移函数；

第二获得模块，被配置为基于马尔可夫决策过程模型，获得多个训练样本；其中，每个训练样本中包括：用户的状态信息、所执行的目标动作的标识、执行目标动作后所获得的即时奖励值、执行目标动作后状态信息对应的下一状态信息；目标动作为：推送动作或放弃推送动作；

优化模块，被配置为利用训练样本对初始Q函数的参数进行优化，得到训练后的深度Q网络模型；参数包括：学习速率、折扣因子和Q值。

根据本申请实施例的第三方面，提供一种服务器，包括：

处理器，用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行上述第一方面中任一项信息推送方法的方法步骤。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，当存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述第一方面中任一项信息推送方法的方法步骤。

根据本申请实施例的第五方面，提供一种计算机程序产品，当其在服务器上运行时，使得服务器执行：上述第一方面中任一项信息推送方法的方法步骤。

在本申请实施例中，当到达信息推送时间时，可以获得待推送消息和待推送的目标用户的状态信息。其中，状态信息包括：该目标用户在历史上接收到的历史推送信息、历史推送信息的推送时间和该目标用户对历史推送信息的处理方式。然后，可以将该状态信息和预设动作标识输入至预先训练得到的深度强化学习模型中，从而得到深度强化学习模型输出的每个预设动作标识对应的Q值。其中，预设动作标识包括：推送动作的标识和放弃推送动作的标识。另外，一个预设动作标识对应的Q值为：执行该预设动作标识对应的动作后所获得的长期反馈的估计值。之后，可以根据深度强化学习模型输出的最大Q值所对应的动作，确定是否给目标用户推送该待推送消息。

其中，由于深度强化学习模型可以建立状态和行为的最优映射关系，因而当到达信息推送时间时，可以通过深度强化学习模型来确定目标用户的状态信息所对应的最佳动作，即，可以通过深度强化学习模型来确定：满足目标用户的推送时间偏好和推送内容偏好的最佳动作。进而，可以根据该动作来确定是否给目标用户推送待推送信息。这样，可以根据用户对推送时间和推送内容的偏好来给用户推送信息，实现信息的个性化推送。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种信息推送方法的流程图。

图2是根据一示例性实施例示出的一种信息推送装置的框图。

图3是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

为了解决现有技术中无法实现个性化推送信息的技术问题，本申请实施例提供了一种信息推送方法、装置、服务器及计算机可读存储介质。

下面首先对本申请实施例提供的信息推送方法进行说明。

其中，本申请实施例提供的信息推送方法可以应用于服务器中，但是并不局限于此。

图1是根据一示例性实施例示出的一种信息推送方法的流程图。如图1所示，该信息推送方法可以包括以下步骤：

S101：当到达信息推送时间时，获得待推送信息及待推送的目标用户的状态信息；状态信息包括：目标用户在历史上接收到的历史推送信息、历史推送信息的推送时间和目标用户对历史推送信息的处理方式；

可以理解的是，在一种实现方式中，目标用户的状态信息可以包括：目标用户在历史上接收到的历史推送信息、历史推送信息的推送时间和目标用户对历史推送信息的处理方式。这样，可以通过该目标用户的状态信息获知：该目标用户在历史上对历史推送信息的推送时间和推送内容的偏好。

其中，当给用户推送信息的时间符合用户偏好时，用户点击该信息的可能性更高。同理，当给用户推送的信息的内容符合用户偏好时，用户点击该信息的可能性更高。

在另一种实现方式中，目标用户的状态信息还可以包括：目标用户对待推送信息所对应的作者的关注度、目标用户的用户属性信息、目标用户所使用的电子设备的设备信息、电子设备的网络信息、目标用户所发布的信息和目标用户的粉丝数量信息中一种或多种。

当然，该状态信息还可以包括：当前的时间信息、目标用户对推送信息的点击率、目标用户发布的作品的类型信息、目标用户不喜欢的内容类型和目标用户不喜欢的标题类型中一种或多种，这都是合理的。

其中，可以通过目标用户对待推送信息所对应的作者的关注度获知：目标用户对待推送消息所对应的作者的关注度。其中，当给用户推送的信息的作者符合用户偏好时，用户点击该信息的可能性也更高。

可以理解的是，可以通过目标用户在历史上观看该作者所发布作品的次数和给该作者送礼的送礼情况，来量化该目标用户对该作者的关注度。

用户的属性信息包括但并不局限于：年龄、性别和所在城市。电子设备的设备信息包括但并不局限于设备型号。目标用户所发布的信息包括但并不局限于：图片、文字和视频。当前的时间信息包括但并不局限于：当前所处的年、月、日信息。

另外，待推送信息包括但并不局限于：图片、文字和视频。而且，目标用户在历史上接收到的历史推送信息可以是指：在历史上接收到的全部推送信息，也可以是预设的历史时间段内所接收到的推送信息。其中，该预设的历史时间段可以为过去7天，当然并不局限于此。

此外，目标用户在历史上对历史推送信息的处理方式可以为：点击、标注为喜欢、评论、长时间查看(例如查看时长大于1分钟)、放弃处理和关闭推送中的至少一种。

S102：将状态信息和预设动作标识输入至预先训练得到的深度强化学习模型，得到每个预设动作标识对应的Q值；其中，预设动作标识包括：推送动作的标识和放弃推送动作的标识；预设动作标识对应的Q值为：执行该预设动作标识对应的动作后所获得的长期反馈的估计值；

其中，该深度强化学习模型可以包括深度Q网络模型，当然并不局限于此。

可以理解的是，当深度强化学习模型为深度Q网络模型时，在执行步骤S102之前，服务器可以构建马尔可夫决策过程模型。然后，可以基于马尔可夫决策过程模型，获得多个训练样本。

当所构建的马尔可夫决策过程模型为：{S，A，R，T}时，每个训练样本中包括：用户的状态信息、所执行的目标动作的标识、执行目标动作后所获得的即时奖励值、执行目标动作后状态信息对应的下一状态信息。其中，S表示用户的状态信息、A表示预设动作标识、R表示奖励函数，T表示状态转移函数。另外，目标动作为：推送动作或放弃推送动作。为了清晰布局，后续再对用户的状态信息进行说明。

其中，R＝R(s,a,s')，R表示在状态信息s对应的状态下执行动作a，并转移到状态信息s'对应的状态时所获得的即时奖励值。其中，该即时奖励值也可以称作即时反馈值。T＝T(s,a,s')，T表示在状态s上执行动作a，并转移到状态s'的概率。另外，根据DQN相关技术可知，状态信息s对应的状态转移由在该状态信息下所采取的动作而决定，并且，从预设时间段内的初始状态到所述预设时间段最终状态为一个事件episode。在本申请实施例中，可以将24小时定义为一个episode，并定义DQN模型每10分钟做一次是否推送信息的决策，使得每次决策都会从episode角度优化长期反馈的估计值。

另外，在本申请一个示例中，可以设置：当目标动作为放弃推送动作时，奖励函数输出的即时奖励值为0。当目标动作为推送动作时，奖励函数输出的即时奖励值＝1.0*正向处理方式对应的取值+(-0.006)*负向处理方式对应的取值。其中，用户对推荐信息的正向处理方式包括：点击、标注为喜欢、评论和查看时长大于预设阈值中的至少一种。用户对推荐信息的负向处理方式包括：放弃处理和关闭推送中的至少一种。

其中，该预设阈值可以由本领域技术人员根据具体情况进行设定，在此不做具体限定。

可以理解的是，当目标动作为放弃推送动作时，表明不给用户推送信息。并且，由于并不给用户推送信息，因而对于提高用户对推送消息的点击率这一即时奖励为0。

当目标动作为推送动作时，表明给用户推送信息。在该种情况下，用户可能执行以下处理方式中的一种或多种：点击、标注为喜欢、评论、长时间查看、放弃处理和关闭推送。并且，当用户对推送的信息执行点击、标注为喜欢、评论和查看时长大于预设阈值中任意一种或多种正向处理方式时，正向处理方式对应的取值可以为1。相应地，负向处理方式对应的取值＝1-正向处理方式对应的取值＝0。在该种情况下，对于提高用户对推送消息的点击率这一即时奖励为1。

当用户对推送的信息执行放弃处理和关闭推送中的至少一种负向处理方式时，负向处理方式对应的取值可以为1。相应地，正向处理方式对应的取值＝1-负向处理方式对应的取值＝0。在该种情况下，对于提高用户对推送消息的点击率这一即时奖励为-0.006。也就是说，本次所推送的信息可能对用户产生打扰或所推送的信息是用户不喜欢的信息。

在本申请另一个示例中，可以设置：当目标动作为放弃推送动作时，奖励函数输出的即时奖励值为0。当目标动作为推送动作时，奖励函数输出的即时奖励值＝1.0*正向处理方式对应的取值+(-0.006)*放弃处理方式对应的取值+(-10)*关闭推送方式对应的取值，这也是合理的。

在该示例中，当目标动作为关闭推送方式时，关闭推送方式对应的取值为1、放弃处理方式对应的取值为0，正向处理方式对应的取值为0。这样，可以对于用户执行的关闭推送方式给与-10的即时奖励值，以使模型减少对于用户的打扰。

下面对用户的状态信息进行说明：

用户的状态信息可以包括：目标用户在历史上接收到的历史推送信息、历史推送信息的推送时间和目标用户对历史推送信息的处理方式。

当然，该用户的状态信息还可以包括：目标用户对待推送消息所对应的作者的关注度、目标用户的用户属性信息、目标用户所使用的电子设备的设备信息、电子设备的网络信息、目标用户所发布的信息、目标用户的粉丝数量信息、当前的时间信息、目标用户对推送信息的点击率、目标用户发布的作品的类型信息、目标用户不喜欢的内容类型和目标用户不喜欢的标题类型中一种或多种，这是合理的。

在获得训练样本之后，可以利用训练样本对初始Q函数的参数进行优化，从而得到训练后的DQN(Deep Q-Network，深度Q网络)模型。其中，参数包括：学习速率、折扣因子和Q值。其中，训练得到的DQN模型存储了学习到的知识，该DQN模型可以作为状态信息和最佳动作的映射关系。

其中，初始Q函数为DQN相关技术中的函数，学习速率、折扣因子和Q值也为DQN相关技术中的参数，在此不做详细说明。

另外，在得到训练后的DQN模型后，还可以利用新的训练样本对该DQN模型进行参数微调，从而实现DQN模型更新。其中，可以根据具体需求来调整DQN模型的更新周期(例如1小时)，以使DQN模型拥有更好的扩展性和鲁棒性，从而使得DQN模型能够更加精准地实现个性化推荐。

S103：根据深度强化学习模型输出的最大Q值所对应的动作，确定是否给目标用户推送待推送消息。

其中，当深度强化学习模型输出的最大Q值所对应的动作为推送动作时，则可以确定给目标用户推送待推送消息，以使所获得的长期反馈的估计值最大。当深度强化学习模型输出的最大Q值所对应的动作为放弃推送动作时，则可以确定不给目标用户推送待推送消息。

由于预设动作标识对应的Q值为：执行该预设动作标识对应的动作后所获得的长期反馈的估计值，因而当该Q值越大时则表明该动作所对应的长期反馈的估计值越大，即越符合所要达到的期望：提高用户对推荐信息的点击率。

而且，由于深度强化学习模型不仅针对短期的点击收益(即即时奖励值)做优化，还能捕捉到长期的收益指标(即长期反馈的估计值)。因而，应用本申请实施例提供的信息推送方法，可以使推送行为能够带来长期收益指标的提升，避免了只根据短期点击行为做优化而产生的短视现象。

在本申请实施例中，当到达信息推送时间时，服务器可以获得待推送消息和待推送的目标用户的状态信息。其中，状态信息包括：该目标用户在历史上接收到的历史推送信息、历史推送信息的推送时间和该目标用户对历史推送信息的处理方式。然后，服务器可以将该状态信息和预设动作标识输入至预先训练得到的深度强化学习模型中，从而得到深度强化学习模型输出的每个预设动作标识对应的Q值。其中，预设动作标识包括：推送动作的标识和放弃推送动作的标识。另外，一个预设动作标识对应的Q值为：执行该预设动作标识对应的动作后所获得的长期反馈的估计值。之后，服务器可以根据深度强化学习模型输出的最大Q值所对应的动作，确定是否给目标用户推送待推送消息。

其中，由于深度强化学习模型可以建立状态和行为的最优映射关系，因而当到达信息推送时间时，服务器可以通过深度强化学习模型来确定目标用户的状态信息所对应的最佳动作，即，可以通过深度强化学习模型来确定：满足目标用户的推送时间偏好和推送内容偏好的最佳动作。进而，可以根据该动作来确定是否给目标用户推送待推送信息。这样，可以根据用户对推送时间和推送内容的偏好来给用户推送信息，实现信息的个性化推送。

综上，应用本申请实施例提供的信息推送方法，可以通过深度强化学习模型来捕捉用户对推送时间和推送内容的偏好，从而实现信息的个性化推送。

相应于上述方法实施例，本申请实施例还提供了一种信息推送装置，参见图2，应用于服务器，该装置可以包括：

第一获得模块201，被配置为当到达信息推送时间时，获得待推送信息及待推送的目标用户的状态信息；状态信息包括：目标用户在历史上接收到的历史推送信息、历史推送信息的推送时间和目标用户对历史推送信息的处理方式；

输入模块202，被配置为将状态信息和预设动作标识输入至预先训练得到的深度Q网络深度强化学习模型，得到每个预设动作标识对应的Q值；其中，预设动作标识包括：推送动作的标识和放弃推送动作的标识；预设动作标识对应的Q值为：执行该预设动作标识对应的动作后所获得的长期反馈的估计值；

确定模块203，被配置为根据深度强化学习模型输出的最大Q值所对应的动作，确定是否给目标用户推送待推送消息。

应用本申请实施例提供的装置，当到达信息推送时间时，可以获得待推送消息和待推送的目标用户的状态信息。其中，状态信息包括：该目标用户在历史上接收到的历史推送信息、历史推送信息的推送时间和该目标用户对历史推送信息的处理方式。然后，可以将该状态信息和预设动作标识输入至预先训练得到的深度强化学习模型中，从而得到深度强化学习模型输出的每个预设动作标识对应的Q值。其中，预设动作标识包括：推送动作的标识和放弃推送动作的标识。另外，一个预设动作标识对应的Q值为：执行该预设动作标识对应的动作后所获得的长期反馈的估计值。之后，可以根据深度强化学习模型输出的最大Q值所对应的动作，确定是否给目标用户推送该待推送消息。

可选地，在本申请实施例中，该装置还可以包括：

图3是根据一示例性实施例示出的一种用于实现信息推送的装置1900的框图。例如，装置1900可以被提供为一服务器。参照图3，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述任一项信息推送方法的方法步骤。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在本申请实施例中，当到达信息推送时间时，服务器可以获得待推送消息和待推送的目标用户的状态信息。其中，状态信息包括：该目标用户在历史上接收到的历史推送信息、历史推送信息的推送时间和该目标用户对历史推送信息的处理方式。然后，服务器可以将该状态信息和预设动作标识输入至预先训练得到的深度强化学习模型中，从而得到深度强化学习模型输出的每个预设动作标识对应的Q值。其中，预设动作标识包括：推送动作的标识和放弃推送动作的标识。另外，一个预设动作标识对应的Q值为：执行该预设动作标识对应的动作后所获得的长期反馈的估计值。之后，服务器可以根据深度强化学习模型输出的最大Q值所对应的动作，确定是否给目标用户推送该待推送消息。

相应于上述方法实施例，本申请实施例还提供了一种计算机可读存储介质，当存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述任一项信息推送方法的方法步骤。

本申请实施例提供的可读存储介质中存储的计算机程序被服务器的处理器执行后，当到达信息推送时间时，服务器可以获得待推送消息和待推送的目标用户的状态信息。其中，状态信息包括：该目标用户在历史上接收到的历史推送信息、历史推送信息的推送时间和该目标用户对历史推送信息的处理方式。然后，服务器可以将该状态信息和预设动作标识输入至预先训练得到的深度强化学习模型中，从而得到深度强化学习模型输出的每个预设动作标识对应的Q值。其中，预设动作标识包括：推送动作的标识和放弃推送动作的标识。另外，一个预设动作标识对应的Q值为：执行该预设动作标识对应的动作后所获得的长期反馈的估计值。之后，服务器可以根据深度强化学习模型输出的最大Q值所对应的动作，确定是否给目标用户推送该待推送消息。

相应于上述方法实施例，本申请实施例还提供了一种计算机程序产品，当其在服务器上运行时，使得服务器执行：上述任一项信息推送方法的方法步骤。

本申请实施例提供的计算机程序产品被服务器的处理器执行后，当到达信息推送时间时，服务器可以获得待推送消息和待推送的目标用户的状态信息。其中，状态信息包括：该目标用户在历史上接收到的历史推送信息、历史推送信息的推送时间和该目标用户对历史推送信息的处理方式。然后，服务器可以将该状态信息和预设动作标识输入至预先训练得到的深度强化学习模型中，从而得到深度强化学习模型输出的每个预设动作标识对应的Q值。其中，预设动作标识包括：推送动作的标识和放弃推送动作的标识。另外，一个预设动作标识对应的Q值为：执行该预设动作标识对应的动作后所获得的长期反馈的估计值。之后，服务器可以根据深度强化学习模型输出的最大Q值所对应的动作，确定是否给目标用户推送该待推送消息。

本领域技术人员在考虑说明书及实践这里申请的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由本申请的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、服务器、计算机可读存储介质和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种信息推送方法，其特征在于，所述方法包括：

当到达信息推送时间时，获得待推送信息及待推送的目标用户的状态信息；所述状态信息包括：所述目标用户在历史上接收到的历史推送信息、所述历史推送信息的推送时间和所述目标用户对历史推送信息的处理方式；

将所述状态信息和预设动作标识输入至预先训练得到的深度强化学习模型，得到每个预设动作标识对应的Q值；其中，所述预设动作标识包括：推送动作的标识和放弃推送动作的标识；预设动作标识对应的Q值为：执行该预设动作标识对应的动作后所获得的长期反馈的估计值；

根据所述深度强化学习模型输出的最大Q值所对应的动作，确定是否给所述目标用户推送所述待推送消息。

2.根据权利要求1所述的方法，其特征在于，所述深度强化学习模型包括深度Q网络模型。

3.根据权利要求2所述的方法，其特征在于，在所述将所述状态信息和预设动作标识输入至预先训练得到的深度强化学习模型的步骤之前，所述方法还包括：

构建马尔可夫决策过程模型；其中，所述马尔可夫决策过程模型为：{S，A，R，T}；所述S表示用户的状态信息、所述A表示预设动作标识、所述R表示奖励函数，所述T表示状态转移函数；

基于所述马尔可夫决策过程模型，获得多个训练样本；其中，每个训练样本中包括：用户的状态信息、所执行的目标动作的标识、执行所述目标动作后所获得的即时奖励值、执行所述目标动作后所述状态信息对应的下一状态信息；所述目标动作为：推送动作或放弃推送动作；

利用所述训练样本对初始Q函数的参数进行优化，得到训练后的深度Q网络模型；所述参数包括：学习速率、折扣因子和Q值。

4.根据权利要求3所述的方法，其特征在于，当所述目标动作为放弃推送动作时，所述奖励函数输出的即时奖励值为0；当所述目标动作为推送动作时，所述奖励函数输出的即时奖励值＝1.0*正向处理方式对应的取值+(-0.006)*负向处理方式对应的取值。

5.根据权利要求4所述的方法，其特征在于，正向处理方式对应的取值＝1-负向处理方式对应的取值。

6.根据权利要求4所述的方法，其特征在于，所述用户对推荐信息的正向处理方式包括：点击、标注为喜欢、评论和查看时长大于预设阈值中的至少一种；所述用户对推荐信息的负向处理方式包括：放弃处理和关闭推送中的至少一种。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述目标用户的状态信息还包括：所述目标用户对所述待推送信息所对应的作者的关注度、所述目标用户的用户属性信息、所述目标用户所使用的电子设备的设备信息、所述电子设备的网络信息、所述目标用户所发布的信息和所述目标用户的粉丝数量信息中一种或多种。

8.一种信息推送装置，其特征在于，所述装置包括：

第一获得模块，被配置为当到达信息推送时间时，获得待推送信息及待推送的目标用户的状态信息；所述状态信息包括：所述目标用户在历史上接收到的历史推送信息、所述历史推送信息的推送时间和所述目标用户对历史推送信息的处理方式；

输入模块，被配置为将所述状态信息和预设动作标识输入至预先训练得到的深度强化学习模型，得到每个预设动作标识对应的Q值；其中，所述预设动作标识包括：推送动作的标识和放弃推送动作的标识；预设动作标识对应的Q值为：执行该预设动作标识对应的动作后所获得的长期反馈的估计值；

确定模块，被配置为根据所述深度强化学习模型输出的最大Q值所对应的动作，确定是否给所述目标用户推送所述待推送消息。

9.一种服务器，其特征在于，包括：

处理器，用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述1-7中任一项信息推送方法的方法步骤。

10.一种计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述1-7中任一项信息推送方法的方法步骤。