CN110838024A

CN110838024A - 基于深度强化学习的信息推送方法及装置、设备

Info

Publication number: CN110838024A
Application number: CN201910983946.7A
Authority: CN
Inventors: 张超; 朱通; 孙传亮; 赵华
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2020-02-25

Abstract

本发明公开了一种基于深度强化学习的信息推送方法，包括：采集第一方信息、第一方状态数据和第二方行为数据；根据所述第一方信息，计算第二方反馈数据；利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，生成推送信息；输出所述推送信息。本发明还公开了一种基于深度强化学习的信息推送方法装置、电子设备和存储介质。

Description

基于深度强化学习的信息推送方法及装置、设备

技术领域

本发明涉及数据处理技术领域，特别是指一种基于深度强化学习的信息推送方法及装置、设备。

背景技术

用户增长的目的是为了提升产品在一段时间内的有效用户数，进而提升当下和未来的成交总额(Gross Merchandise Volume，简称GMV)和利润，进而实现产品/商业成功。常见的用户增长运营方案主要有运营活动、商户活动、渠道拉新等。

在针对用户运营拉新方向，渠道拉新会大大帮助运营人员在拉新时进行潜在用户的精准筛选，提高拉新效率，缩短所需时间。常见的渠道有独立软件开发商(IndependentSoftware Vendors，简称ISV)代理服务商、搜索引擎广告、线上媒体广告、自媒体等渠道。为了激励渠道拉新，平台会与各拉新渠道进行结算，如每个新用户奖励10-50元不等。

但是，现有的渠道拉新奖励并未系统地测算新用户质量，不管新用户质量高低，其单个新用户奖励都是一样的，难以推动用户拉新手段的更新，也难以有效提升新用户质量。

发明内容

有鉴于此，本发明实施例的目的之一在于，提出一种基于深度强化学习的信息推送方法及装置、设备，能够在一定程度上解决上述技术问题。

基于上述目的，本发明实施例的第一个方面，提供了基于深度强化学习的信息推送方法，包括：

采集第一方信息、第一方状态数据和第二方行为数据；

根据所述第一方信息，计算第二方反馈数据；

利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，生成推送信息；

输出所述推送信息。

可选地，所述第一方信息包括第一方数量、第一方认证率、第一方绑卡率、第一方活跃占比、第一方风险账户比例中的至少一种。

可选地，所述第一方状态数据包括第一方认证状态数据、第一方绑卡状态数据、第一方消费数据、第一方资产数据、第一方转账数据中的至少一种。

可选地，所述第二方行为数据包括第二方针对渠道的行为数据和第二方针对用户的行为数据中的至少一种。

可选地，根据所述第一方信息，计算第二方反馈数据，包括：

采用以下公式计算第二方反馈数据：

总反馈值＝单个第一方反馈值×第一方数量×第一方认证率×第一方绑卡率×第一方活跃占比×(1-第一方风险账户比例)×固定系数；

其中，单个第一方反馈值是指一个第一方完成注册的反馈数值，第一方数量是指第一方完成注册的数量，第一方认证率是指第一方中进行了身份认证的比例，第一方绑卡率是指第一方中绑定了银行卡的比例，第一方活跃占比是指第一方中进行了预设互动操作的比例，第一方风险账户比例是指第一方中存在风险账户的比例，固定系数是指根据不同行业分别预设的系数。

可选地，所述基于深度强化学习的信息推送方法，还包括：

建立初始深度强化学习模型；

获取历史第一方状态数据、历史第二方行为数据和历史第二方反馈数据；

利用所述历史第一方状态数据、历史第二方行为数据和历史第二方反馈数据，训练所述初始深度强化学习模型；

经过训练得到所述深度强化学习模型。

可选地，所述推送信息至少包括以下其中一项：

所述第二方反馈数据、所述反馈数据与预期反馈值的差异、第二方行为数据的优化方案。

可选地，利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，生成推送信息，包括：

利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，对下一步实施各行为的优先级进行排序；

根据排名处于排名阈值范围内的行为，生成所述第二方行为数据的优化方案。

可选地，输出所述推送信息之后，还包括：

根据所述第一方状态数据、第二方行为数据和第二方反馈数据，优化所述深度强化学习模型。

可选地，所述深度强化学习模型，采用以下任意一种方法建立：

基于值函数的深度强化学习方法、基于策略梯度的深度强化学习方法、基于演员-评论家模型的深度强化学习方法、基于搜索与监督的深度强化学习方法。

本发明实施例的第二个方面，提供了一种基于深度强化学习的信息推送装置，包括：

采集模块，用于采集第一方信息、第一方状态数据和第二方行为数据；

反馈生成模块，用于根据所述第一方信息，计算第二方反馈数据；

推送信息生成模块，用于利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，生成推送信息；

推送信息输出模块，用于输出所述推送信息。

可选地，所述反馈生成模块，用于：

采用以下公式计算第二方反馈数据：

可选地，所述推送信息生成模块，用于：

建立初始深度强化学习模型；

经过训练得到所述深度强化学习模型。

可选地，所述推送信息至少包括以下其中一项：

可选地，所述推送信息生成模块，用于：

可选地，所述推送信息生成模块，用于采用以下任意一种方法建立所述深度强化学习模型：

本发明实施例的第三个方面，提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述基于深度强化学习的信息推送方法。

本发明实施例的第四个方面，提供了一种存储有计算机程序的计算机可读存储介质，其中，所述计算机程序在由处理器执行时实现所述基于深度强化学习的信息推送方法的步骤。

从上面所述可以看出，本发明实施例提供的基于深度强化学习的信息推送方法及装置、设备，通过将第二方映射为强化学习的智能体，将第一方状态数据作为强化学习状态，将第二方行为数据映射为强化学习的行为，第二方反馈数据映射为强化学习的奖赏，通过与推送装置进行交互获得奖赏作为第二方的指导行为，在推送信息的进而获得更高的反馈值，同时提高第一方的质量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本发明的一些实施例，而非对本发明的限制。

图1为本发明实施例的基于深度强化学习的信息推送系统的架构示意图；

图2为强化学习的一般原理示意图；

图3为本发明实施例提供的基于深度强化学习的信息推送方法的流程示意图；

图4为本发明实施例的强化学习示意图；

图5为本发明实施例中建立所述深度强化学习模型的流程示意图；

图6为本发明实施例中生成推送信息的流程示意图；

图7为本发明实施例的基于深度强化学习的信息推送装置的框图示意图；

图8为本发明实施例提供的执行所述基于深度强化学习的信息推送方法的装置的一个实施例的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

用户增长拉新促活业务，旨在拉动产品(例如支付宝)的新增用户、提升各业务(例如，到店付款、余额宝、花呗，等)的活跃用户数，达到拉新促活的业务效果。

例如，支付宝会定期发布业务标准、价格政策及规范，引导具有业务推广能力的服务商入驻支付宝开放平台，服务商可利用但不局限于软件、网站、广告平台、手机终端系统、粉丝圈、社群，通过二维码、H5(HTML5，一种营销工具)发奖互动传播、安卓安装包(AndroidPackage，简称APK)下载等形式完成推广任务，获取支付宝新增用户、业务活跃用户(到店付款、余额宝使用、花呗开通等)。

在一种方案中，例如，支付宝会定期与渠道拉新服务商进行拉新返奖激励结算，根据拉新用户个数和新用户认证率进行结算。比如一个拉新服务商一天拉新了1000个新用户，新用户的认证率为80％，单个新用户的结算价格为20元，结算公式为“用户数×认证率×单个新用户奖励金额”，则该服务商一天的结算金额即为——1000×80％×20，共16000元。

然而，不同行业的服务商拉新的难度不一样，当下的结算政策无法对不同行业的拉新服务商进行很好的区分，导致有些服务商会对政策不满意；同时，现有新用户质量衡量标准很难完全体现新用户质量，存在服务商作弊骗取结算金额的风险。

因此，风控人员和用户运营同学需要制定合理的拉新返奖运营方案，在保障拉新用户质量的同时，更客观的衡量服务商拉新效能。

在另一种方案中，可根据有效拉新用户数阶梯价格进行结算。例如，认证或者绑卡用户作为有效拉新用户衡量标准，每日有效拉新的新用户个数为0-500，单个新用户奖励金额为20元/人；每日有效拉新的新用户个数为501-1000，单个新用户奖励金额为25元/人；每日有效拉新的新用户个数为1001-2000，单个新用户奖励金额为30元/人；依次类推。

然而，以上给出的两种方案的缺点主要有两点：

其一，不同服务商所处行业、地域、位置不同，拉新的难度不一样，当下的结算政策无法对不同行业的拉新服务商进行很好的区分，比如线下ISV就很难和搜索引擎渠道等的有效拉新数相匹敌，导致部分服务商会对有效拉新用户数阶梯价格政策不满。

其二，现有新用户质量衡量标准很难完全体现新用户质量，存在服务商违规操作骗取结算金额的作弊风险，比如服务商在城镇和农村利用信息不对称骗取老年人刷脸认证，或者利用部分银行漏斗批量开通虚拟银行卡进而完成绑卡。

基于上述问题，本发明实施例提供了一种基于深度强化学习的信息推送系统，能够在一定程度上改善用户拉新手段，进而提升新用户质量。

图1示出了本发明实施例的基于深度强化学习的信息推送系统的架构示意图。如图1所示，该系统可以包括推送装置、第一方(例如新用户)和第二方(例如服务商)。其中，第一方和第二方可通过一些具有数据处理功能的设备与所述推送装置进行数据交换。所述具有数据处理功能的设备可以是，例如，手机、平板电脑、个人电脑、笔记本电脑、掌上电脑(PDA)、可穿戴设备(如智能眼镜、智能手表)等等。所述推送装置在实现时可以是服务器端的形式。所述第一方和第二方的设备可以通过网络与所述推送装置实现数据交换。所述网络可以是有线网络，也可以是无线网络。

在一些场景下，所述第一方和第二方的设备中可以是安装有用于与所述推送装置进行数据交互的软件的。这样，第二方的设备才能接受来自推送装置的推送信息，并且第二方可将行为数据上传至所述推送装置。第一方的设备则可以向推送装置上传相关的第一方状态数据和第一方信息，用于所述推送装置进行第二方反馈数据计算和生成推送信息。

参考图1，例如，在本发明实施例的基于深度强化学习的信息推送系统中，第二方通过进行用户拉新行为为产品引入第一方，第一方注册后能够将第一方信息和第一方状态数据上传到所述推送装置，第二方可上传第二方行为数据(例如，用户拉新所采用的手段)到所述推送装置，第二方根据采集的数据，利用深度强化学习模型，能够生成推送信息，用于指导第二方的下一步拉新行为。

所述信息推送系统是基于深度强化学习的。深度强化学习是以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并能够通过端对端的学习方式实现从原始输入到输出的直接控制的算法。

图2示出了强化学习的一般原理示意图。强化学习(RL)就是能够使得训练模型完全通过自学来掌握一门本领，能在一个特定场景下做出最优决策的一种算法模型。就好比是一个小孩在慢慢成长，当他做错事时家长给予惩罚，当他做对事时家长给他奖励。这样，随着小孩子慢慢长大，他自己也就学会了怎样去做正确的事情。那么强化学习就好比小孩，我们需要根据它做出的决策给予奖励或者惩罚，直到它完全学会了某种本领(在算法层面上，就是算法已经收敛)。

RL是一种从环境状态映射到行为的学习，目标是使智能体(agent)在与环境的交互过程中获得最大的累积奖赏。马尔可夫决策过程(MDP)可以用来对RL问题进行建模，主要包含四个要素：状态、行为、奖赏函数以及转移概率。通常将MDP定义为一个四元组(S,A,ρ,f)，其中：

S为所有环境状态(state)的集合。s_t∈S，表示agent在t时刻所处的状态；

A为agent可执行行为(action)的集合。a_t∈A，表示agent在t时刻所采取的行为；

ρ：S×A→R为奖赏(reward)函数。r_t～ρ(s_t,a_t)表示agent在状态s_t执行行为a_t获得的立即奖赏值；

f：S×A×S→[0,1]为状态转移概率分布函数。s_t+1～f(s_t,a_t)表示agent在状态s_t执行行为a_t转移到下一状态s_t+1的概率。

在RL中，策略π：S→A是状态空间到行为空间的一个映射。表示为agent在状态s_t选择行为a_t，执行该行为并以概率f(s_t,a_t)转移到下一状态s_t+1，同时接受来自环境反馈的奖赏r_t。假设未来每个时间步所获的立即奖赏都必须乘以一个折扣因子γ，则从t时刻开始到T时刻情节结束时，奖赏之和定义为：

其中，γ∈[0,1]，用来权衡未来奖赏对累积奖赏的影响。

如图2所示，智能体(agent)在进行某个任务时，首先与环境(environment)进行交互，产生新的状态(state)，同时环境给出奖赏(reward)，如此循环下去，agent和environment不断交互产生更多新的数据。强化学习算法就是通过一系列行为(action)策略与环境交互，产生新的数据，再利用新的数据去修改自身的行为策略，经过数次迭代后，agent就会学习到完成任务所需要的行为策略。

所述基于深度强化学习的信息推送系统的目的之一是让第二方在用户拉新的过程中，不断与信息推送装置进行交互，及时得到反馈，从而能够及时熟悉当前用户状态，迅速调整会员运营方案，达到结算金额最大化的最优目标，同时也能引导第二方通过改善行为而引入高质量的第一方。

基于深度强化学习的思路，本发明实施例提供了一种基于深度强化学习的信息推送方法。图3示出了本发明实施例提供的基于深度强化学习的信息推送方法的流程示意图。

如图3所示，基于深度强化学习的信息推送方法，包括以下步骤：

步骤11：采集第一方信息、第一方状态数据和第二方行为数据。

这里，采集的数据可以是一天内的数据，也可以是一周内的数据，例如，若需每天生成一次反馈数据，则采集数据为最近一天内的数据，若每周生成一次反馈数据，则采集数据为最近一周内的数据，亦即，采集频率可以根据生成反馈数据的期间长短来设定，在此不做限制。

参考图4所示，本实施例中将第二方映射为强化学习的智能体(agent)，通过与信息推送装置进行交互获得奖赏作为指导行为，目的是利用获得更高的总反馈值的激励来促使第二方改进自己的行为。可选地，所述第二方可以是特指渠道服务商，所述总反馈值可以是指拉新结算返利金额。

可选地，所述第一方状态可以是当前第一方的特征，所述第一方状态作为强化学习的状态(State)。可选地，所述第一方状态数据包括第一方认证状态数据、第一方绑卡状态数据、第一方线上或线下消费数据、第一方资产数据、第一方转账数据中的至少一种。

可选地，所述第二方行为可以包括第二方针对渠道的行为数据和第二方针对用户的行为数据；其中，第二方针对渠道的行为数据可以是第二方自行实施的推广行为数据，第二方针对用户的行为数据可以是信息推送系统联合第二方对第一方进行深度运营推广行为数据。例如，为了调高拉新效率、保障拉新质量、促进用户活跃度，可以将第二方针对渠道的行为数据和第二方针对用户的行为数据均映射为强化学习的行为(action)。例如，第二方针对渠道的行为数据可包括进行运营活动的数据、引导用户完成绑卡的数据、引导用户完成认证的数据、引导用户使用产品功能的数据、进行杜绝拉新违规行为的员工培训的数据、进行定期用户回访的数据、了解用户需求的数据中的至少一种；第二方针对用户的行为数据包括提供优惠红包的数据、提供满减优惠的数据、提供商家活动卡券的数据、对用户进行推广活动引导的数据中的至少一种。可选地，对用户进行推广活动引导可以是通过产品本身进行，例如在支付宝APP中通过提示信息进行引导，又或者，对用户进行推广活动引导也可以是在线下通过搞活动等方式进行引导。

步骤12：根据所述第一方信息，计算第二方反馈数据。

可选地，将第二方所关心的指标——反馈数据映射为强化学习的奖赏(reward)，该指标主要参考数据包括所述第一方信息中的数据，例如，第一方数量、第一方认证率、第一方绑卡率、第一方活跃占比、第一方风险账户比例，等等。当然，第二方反馈数据也可选用其他参考指标，如第一方的账户质量等级、第一方的账户登录活跃占比、第一方的账户支付能力等级等。

在一个实施例中，可采用以下公式计算第二方反馈数据：

其中，单个第一方反馈值是指一个第一方完成注册的反馈数值(例如一个新用户完成注册的奖励金额)，第一方数量是指第一方完成注册的数量，第一方认证率是指第一方中进行了身份认证的比例，第一方绑卡率是指第一方中绑定了银行卡的比例，第一方活跃占比是指第一方中进行了预设互动操作(例如进行了线上或线下的消费操作)的比例，第一方风险账户比例是指第一方中存在风险账户的比例，固定系数是指根据不同行业分别预设的系数。所述固定系数可能大于1，也可能小于1。例如，若运营行业为拉新难度较大的行业，所述固定系数可设置为大于1，相反，若运营行业为拉新难度较小的行业，所述固定系数可设置为小于1。

可选地，所述风险账户可以通过预设的风险算法来判断，该风险算法可以通过利用一些与风险有关的参量来构建算法，与风险有关的参量可以是，例如，安装恶意软件、浏览非法网页，等等，具体参量可根据实际需要设定。

此外，基于行业和地区的不同，还可以对第二方设定定制化的考核指标，让同行业和同地区的第二方进行对照。

通过上述实施例，在计算第二方反馈数据时参考了较为丰富的指标，从而使得第二方反馈数据更加合理，进而能够良性推动第二方优化行为数据。

步骤13：利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，生成推送信息。

作为一个实施例，如图5所示，所述基于深度强化学习的信息推送方法，还包括建立所述深度强化学习模型的步骤，具体包括：

步骤21：建立初始深度强化学习模型。

可选地，所述初始深度强化学习模型可以按照以下任一种深度强化学习方法来建立：

其中，基于值函数的深度强化学习方法是将卷积神经网络与传统RL中的Q值学习算法相结合的深度Q网络(Deep Q-Network，DQN)模型算法。

基于策略梯度的深度强化学习方法是是一种使用逼近器来近似表示和优化策略，最终得到最优策略的方法。

基于演员-评论家模型的深度强化学习方法是一种将策略搜索与值函数相互结合的强化学习方法。

基于搜索与监督的深度强化学习方法，则是除了基于值函数的DRL和基于策略梯度的DRL之外，通过增加额外的人工监督来促进策略搜索过程的深度强化学习方法。

以上各方法均可用于本发明实施例中以建立深度强化学习模型，在此不对具体采用的算法进行限制。

步骤22：获取历史第一方状态数据、历史第二方行为数据和历史第二方反馈数据。

可选地，所述历史第二方行为数据为第二方历史上采用过的推广行为的数据，可包括进行运营活动、引导用户完成绑卡、引导用户完成认证、引导用户使用产品功能、进行杜绝拉新违规行为的员工培训、进行定期用户回访、了解用户需求、提供优惠红包、提供满减优惠、提供商家活动卡券、对用户进行推广活动引导中的至少一种。所述历史第一方状态数据为已有的第一方的历史状态数据，该数据与第二方历史上采用过的推广行为而拉到的第一方相关，与所述历史第二方行为数据相关联。所述历史第二方反馈数据为第二方已经获得的反馈数据，该数据为第二方历史上采用过的推广行为而获得的反馈数据，与所述历史第二方行为数据相关联。

可选地，前述数据可以通过第二方和第一方上传数据而采集得到。可选地，可以在实施用户拉新的过程中促使第二方主动上传数据，而第一方数据则可通过第一方使用相关产品时由服务器端从第一方设备中采集得到。

步骤23：利用所述历史第一方状态数据、历史第二方行为数据和历史第二方反馈数据，训练所述初始深度强化学习模型。

步骤24：经过训练得到所述深度强化学习模型。

这样，当将第一方状态数据、第二方行为数据和第二方反馈数据代入训练得到所述深度强化学习模型后，即可得到推送信息。

可选地，所述推送信息至少包括以下其中一项：

其中，可选地，所述预期反馈值可以根据前述总反馈值的计算公式计算得到，例如，将第一方认证率、第一方绑卡率和第一方活跃占比设为100％，将第一方风险账户比例设定为0，这样，仅利用单个第一方奖励金额、第一方数量和固定系数计算得到的金额即为所述预期反馈值。

可选地，所述第二方行为数据的优化方案可以是指导第二方下一步可以实施什么行为或加大某些行为的力度的方案，从而推动第二方根据该优化方案改善自己下一步的推广行为。

作为一个实施例，如图6所示，利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，生成推送信息，包括：

步骤31：利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，对下一步实施各行为的优先级进行排序；

步骤32：根据排名处于排名阈值范围内的行为，生成所述第二方行为数据的优化方案。

根据前述所述，马尔可夫决策过程(MDP)包含四个要素：状态、行为、奖赏函数以及转移概率。其中，状态转移概率分布函数s_t+1～f(s_t,a_t)表示agent在状态s_t执行行为a_t转移到下一状态s_t+1的概率。基于此，可以利用所述深度强化学习模型计算出，下一步实施各行为的概率，并基于概率大小完成优先级进行排序。

这样，优先级高的行为则为优先推荐给第二方的行为数据，从而引导第二方按照能够提高反馈值的行为去实施，同时也能使拉第一方的质量更高。

步骤14：输出所述推送信息。

例如，通过将推送信息推送给第二方，使第二方根据推送信息改善自己下一步的推广行为，进而通过改善推广行为获得更高质量的第一方。

可选地，输出所述推送信息之后，还包括：

这样，利用新的数据来优化所述深度强化学习模型，使得所述深度强化学习模型对于第二方下一步行为的预测能够更加精准，从而实现良性循环。

从上述实施例可以看出，本发明实施例提供的基于深度强化学习的信息推送方法，通过将第二方映射为强化学习的智能体，将第一方状态数据作为强化学习状态，将第二方行为数据映射为强化学习的行为，第二方反馈数据映射为强化学习的奖赏，通过与推送装置进行交互获得奖赏作为第二方的指导行为，在推送信息的进而获得更高的反馈值，同时提高第一方的质量。

本发明实施例提供的基于深度强化学习的信息推送方法，通过深度强化学习系统及时有效引导第二方运营第一方增长，促使第二方在保障第一方质量的同时更多吸引第一方，从而达到第二方反馈值最大化的目的。考虑到行业、地域、位置的不同，信息推送系统可以对不同的第二方进行不同的目标奖赏，从而更公平的对第二方的效能进行考核。同时，奖赏标准参考维度较多，第二方违规操作作弊的难度大幅提高，可以从一定程度上杜绝第二方的违规行为，提高拉新返奖的投入产出比。

图7示出了本发明实施例的基于深度强化学习的信息推送装置的框图示意图。如图7所示，基于深度强化学习的信息推送装置，包括：

采集模块41，用于采集第一方信息、第一方状态数据和第二方行为数据；

反馈生成模块42，用于根据所述第一方信息，计算第二方反馈数据；

推送信息生成模块43，用于利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，生成推送信息；

推送信息输出模块44，用于输出所述推送信息。

从上述实施例可以看出，本发明实施例提供的基于深度强化学习的信息推送装置，通过将第二方映射为强化学习的智能体，将第一方状态数据作为强化学习状态，将第二方行为数据映射为强化学习的行为，第二方反馈数据映射为强化学习的奖赏，通过与推送装置进行交互获得奖赏作为第二方的指导行为，在推送信息的进而获得更高的反馈值，同时提高第一方的质量。

作为一个实施例，所述第一方状态数据包括第一方认证状态数据、第一方绑卡状态数据、第一方线上或线下消费数据、第一方资产数据、第一方转账数据中的至少一种。

作为一个实施例，所述第二方行为数据包括第二方针对渠道的行为数据和第二方针对用户的行为数据。例如，所述第二方针对渠道的行为数据包括进行运营活动的数据、引导用户完成绑卡的数据、引导用户完成认证的数据、引导用户使用产品功能的数据、进行杜绝拉新违规行为的员工培训的数据、进行定期用户回访的数据、了解用户需求的数据中的至少一种；所述第二方针对用户的行为数据包括提供优惠红包的数据、提供满减优惠的数据、提供商家活动卡券的数据、对用户进行推广活动引导的数据中的至少一种。

作为一个实施例，所述第一方信息包括第一方数量、第一方认证率、第一方绑卡率、第一方活跃占比、第一方风险账户比例中的至少一种。

作为一个实施例，所述反馈生成模块42，用于：

采用以下公式计算第二方反馈数据：

作为一个实施例，所述推送信息生成模块43，用于：

建立初始深度强化学习模型；

经过训练得到所述深度强化学习模型。

作为一个实施例，所述推送信息至少包括以下其中一项：

作为一个实施例，所述推送信息生成模块43，用于：

作为一个实施例，所述推送信息生成模块43，用于采用以下任意一种方法建立所述深度强化学习模型：

图8示出了本发明实施例提供的执行所述基于深度强化学习的信息推送方法的装置的一个实施例的硬件结构示意图。

如图8所示，所述装置包括：

一个或多个处理器51以及存储器52，图8中以一个处理器51为例。

所述执行所述基于深度强化学习的信息推送方法的装置还可以包括：输入装置53和输出装置54。

处理器51、存储器52、输入装置53和输出装置54可以通过总线或者其他方式连接，图8中以通过总线连接为例。

存储器52作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的所述基于深度强化学习的信息推送方法对应的程序指令/模块(例如，附图7所示的采集模块41、反馈生成模块42、推送信息生成模块43和推送信息输出模块44)。处理器51通过运行存储在存储器52中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的基于深度强化学习的信息推送方法。

存储器52可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据基于深度强化学习的信息推送装置的使用所创建的数据等。此外，存储器52可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器52可选包括相对于处理器51远程设置的存储器，这些远程存储器可以通过网络连接至会员用户行为监控装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置53可接收输入的数字或字符信息，以及产生与基于深度强化学习的信息推送装置的用户设置以及功能控制有关的键信号输入。输出装置54可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器52中，当被所述一个或者多个处理器51执行时，执行上述任意方法实施例中的基于深度强化学习的信息推送方法。所述执行所述基于深度强化学习的信息推送方法的装置的实施例，其技术效果与前述任意方法实施例相同或者类似。

本申请实施例提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的列表项操作的处理方法。所述非暂态计算机存储介质的实施例，其技术效果与前述任意方法实施例相同或者类似。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。所述计算机程序的实施例，其技术效果与前述任意方法实施例相同或者类似。

此外，典型地，本公开所述的装置、设备等可为各种电子终端设备，例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等，也可以是大型终端设备，如服务器等，因此本公开的保护范围不应限定为某种特定类型的装置、设备。本公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。

此外，根据本公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本公开的方法中限定的上述功能。

此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

此外，应该明白的是，本文所述的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM)，该RAM可以充当外部高速缓存存储器。作为例子而非限制性的，RAM可以以多种形式获得，比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接RambusRAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能，但是这种实现决定不应被解释为导致脱离本公开的范围。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行：通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。

结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器，使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中，所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中，处理器和存储介质可以作为分立组件驻留在用户终端中。

在一个或多个示例性设计中，所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外先、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

公开的示例性实施例，但是应当注公开的示例性实施例，但是应当注意，在不背离权利要求限定的本公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或行为不需以任何特定顺序执行。此外，尽管本公开的元素可以以个体形式描述或要求，但是也可以设想多个，除非明确限制为单数。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”(“a”、“an”、“the”)旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种基于深度强化学习的信息推送方法，其特征在于，包括：

采集第一方信息、第一方状态数据和第二方行为数据；

根据所述第一方信息，计算第二方反馈数据；

输出所述推送信息。

2.根据权利要求1所述的方法，其特征在于，所述第一方信息包括第一方数量、第一方认证率、第一方绑卡率、第一方活跃占比、第一方风险账户比例中的至少一种；

所述第一方状态数据包括第一方认证状态数据、第一方绑卡状态数据、第一方消费数据、第一方资产数据、第一方转账数据中的至少一种；

所述第二方行为数据包括第二方针对渠道的行为数据和第二方针对用户的行为数据中的至少一种。

3.根据权利要求2所述的方法，其特征在于，根据所述第一方信息，计算第二方反馈数据，包括：

采用以下公式计算第二方反馈数据：

4.根据权利要求1所述的方法，其特征在于，还包括：

建立初始深度强化学习模型；

经过训练得到所述深度强化学习模型。

5.根据权利要求1所述的方法，其特征在于，所述推送信息至少包括以下其中一项：

6.根据权利要求5所述的方法，其特征在于，利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，生成推送信息，包括：

7.根据权利要求1所述的方法，其特征在于，输出所述推送信息之后，还包括：

8.根据权利要求1所述的方法，其特征在于，所述深度强化学习模型，采用以下任意一种方法建立：

9.一种基于深度强化学习的信息推送装置，其特征在于，包括：

推送信息输出模块，用于输出所述推送信息。

10.根据权利要求9所述的装置，其特征在于，所述第一方信息包括第一方数量、第一方认证率、第一方绑卡率、第一方活跃占比、第一方风险账户比例中的至少一种；

11.根据权利要求10所述的装置，其特征在于，所述反馈生成模块，用于：

采用以下公式计算第二方反馈数据：

12.根据权利要求9所述的装置，其特征在于，所述推送信息生成模块，用于：

建立初始深度强化学习模型；

经过训练得到所述深度强化学习模型。

13.根据权利要求9所述的装置，其特征在于，所述推送信息至少包括以下其中一项：

14.根据权利要求13所述的装置，其特征在于，所述推送信息生成模块，用于：

15.根据权利要求9所述的装置，其特征在于，所述推送信息生成模块，用于：

16.根据权利要求9所述的装置，其特征在于，所述推送信息生成模块，用于采用以下任意一种方法建立所述深度强化学习模型：

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-8任一项所述的方法。

18.一种存储有计算机程序的计算机可读存储介质，其中，所述计算机程序在由处理器执行时实现权利要求1-8中任一项所述的方法的步骤。