CN109003143A - 利用深度强化学习进行推荐营销的方法及装置 - Google Patents

利用深度强化学习进行推荐营销的方法及装置 Download PDF

Info

Publication number
CN109003143A
CN109003143A CN201810879896.3A CN201810879896A CN109003143A CN 109003143 A CN109003143 A CN 109003143A CN 201810879896 A CN201810879896 A CN 201810879896A CN 109003143 A CN109003143 A CN 109003143A
Authority
CN
China
Prior art keywords
marketing
user
information
behavior
bonus points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810879896.3A
Other languages
English (en)
Inventor
何建杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810879896.3A priority Critical patent/CN109003143A/zh
Publication of CN109003143A publication Critical patent/CN109003143A/zh
Priority to TW108119506A priority patent/TW202025043A/zh
Priority to SG11202010701TA priority patent/SG11202010701TA/en
Priority to PCT/CN2019/091649 priority patent/WO2020024715A1/zh
Priority to US17/085,443 priority patent/US11210690B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0211Determining the effectiveness of discounts or incentives
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0224Discounts or incentives, e.g. coupons or rebates based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供一种利用深度强化学习进行推荐营销的方法和装置,方法包括,全面获取执行环境的状态信息,其至少包括当前用户的用户信息,还可以包括用户所处场景的场景信息。然后根据营销策略,针对上述状态信息确定相应的营销行为,营销行为包括营销渠道、营销内容和营销时段的组合。接着,获取执行环境针对营销行为的当前奖励分数,并根据当前奖励分数更新营销策略,从而全面学习营销业务过程。

Description

利用深度强化学习进行推荐营销的方法及装置
技术领域
本说明书一个或多个实施例涉及机器学习领域,尤其涉及利用深度强化学习进行推荐营销的方法及装置。
背景技术
机器学习的迅猛发展使得各种机器学习的模型已经应用在各种各样的业务场景中,例如用于评估用户的信用风险,用于向用户推荐合适的内容,或向用户推送合适的营销信息,用于预测广告的投放效果等。
实际上,一项业务场景的完整业务流程经常包含多个阶段或多个环节,其中涉及诸多因素。例如,在推荐营销的业务场景中,业务至少可以包括以下环节:营销信息的选择和推送,推送之后用户的反馈和追踪。在这些环节中,又涉及诸多因素和参数,例如营销的渠道,推送方式,触达率,转化率等等。因此,在试图将机器学习应用到业务场景中时,面对复杂的业务场景中的诸多环节和诸多因素,如何设计和选择适用的模型,引入何种因素衡量业务的执行状况,都是需要考虑的问题。
因此,希望能有改进的方案,更加高效地用机器学习提高业务执行效果。
发明内容
本说明书一个或多个实施例描述了一种利用深度强化学习进行推荐营销的方法和装置,可以综合全面地对推荐营销业务中的多个环节多个因素进行学习,以综合全面地促进业务效果。
根据第一方面,提供了一种利用深度强化学习进行推荐营销的方法,所述方法包括:
获取执行环境的状态信息,所述状态信息至少包括当前用户的用户信息;
根据营销策略,针对所述状态信息确定相应的营销行为,所述营销行为包括营销渠道、营销内容和营销时段的组合;
获取执行环境针对所述营销行为的当前奖励分数;
至少根据所述当前奖励分数更新所述营销策略。
根据一种实施方式,所述用户信息包括,用户基本属性信息,以及用户历史行为信息。
进一步地,在一个实施例中,用户历史行为信息包括以下中的至少一项:历史操作序列、最近浏览页面列表、最近接受的营销信息列表、消费记录、交易记录、贷款记录、出行记录、保险记录。
在一种可能的设计中,用户信息包括用户画像信息,所述用户画像信息基于用户基本属性信息和/或用户历史行为信息预先确定。
在一个实施例中,所述状态信息还包括,所述当前用户所处场景的场景信息。
进一步地,在一个例子中,场景信息包括,位置服务场景信息,支付场景信息,钱包操作事件信息。
在一种可能的设计中,营销内容包括营销消息和利益包,所述利益包包括以下中的一种或多种:红包、优惠券、权益。
根据一种实施方式,营销渠道包括以下中的一种或多种:消息推送,卡片展示,角标提醒,红点提醒。
在一个实施例中,方法还包括,至少基于所述当前奖励分数确定回报价值,所述回报价值包括所述当前奖励分数和至少一项未来奖励分数的加权求和;并且更新营销策略的步骤包括,确定后续营销策略,使得所述回报价值最大化。
根据第二方面,提供一种利用深度强化学习进行推荐营销的装置,所述装置包括:
状态获取单元,配置为获取执行环境的状态信息,所述状态信息至少包括当前用户的用户信息;
行为确定单元,配置为根据营销策略,针对所述状态信息确定相应的营销行为,所述营销行为包括营销渠道、营销内容和营销时段的组合;
分数获取单元,配置为获取执行环境针对所述营销行为的当前奖励分数;
更新单元,配置为至少根据所述当前奖励分数更新所述营销策略。
根据第三方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,全面获取营销环境的当前状态,不仅观察当前用户的用户信息,可选地还观察用户所处的场景,基于全面的营销环境状态,确定营销行为。营销行为的确定也综合考虑多种因素,包括营销渠道的选择,营销内容的选择,营销时段的确定,至少基于渠道、营销内容、营销时段这三者的组合,确定营销行为。如此使得,智能体确定的营销行为同时考虑到营销过程中的多个因素,也就是深度强化学习系统同时对营销过程中多个环节多个因素进行学习,从而综合全面地学习推荐营销的整个业务流程和业务目标,更好地促进业务执行效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1本说明书披露的一个实施例的推荐营销的执行示意图;
图2示出深度强化学习系统的示意图;
图3示出根据一个实施例利用深度强化学习进行推荐营销的方法;
图4示出多种营销渠道的例子;
图5示出根据一个实施例的深度强化学习推荐营销的总体示意图;
图6示出根据一个实施例的推荐营销系统架构示意图;
图7示出根据一个实施例的装置的示意性框图。
具体实施方式
根据本说明书的一个或多个实施例,采用深度强化学习的方式,来促进推荐营销的业务效果。下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的推荐营销的执行示意图。在推荐营销的场景中,营销最终目标的实现可能需要通过多次营销,变换各种营销方式来完成。例如,对于某个用户A,首先,为其推送一条营销消息,但是用户没有响应。接着,通过渠道1为其发送一种利益包,例如优惠券,用户仍然没有响应。然后,通过另一种渠道,例如渠道2,为其发送另一种利益包,例如红包,用户对营销内容进行了点击,但是没有签约转化。接下来,在特定场景下,用特定渠道发出类似的红包,用户进行了签约转化。
通过以上过程可以看到,推荐营销是一个复杂的过程,其完整业务流程包含多个环节多次交互,例如,至少包括以下环节:营销信息的选择和推送,推送之后用户的反馈和追踪。在这些环节中,又涉及诸多因素和参数,例如营销的渠道,推送方式,推送内容,推送场景,推送时间等等。
在一种实施方案中,考虑到交互过程中多个环节多个因素对最终营销目标的影响,针对各个环节的各个因素分别进行建模学习。例如,为了考虑渠道差异化对用户转化的影响,建立并训练渠道选择模型,来发掘用户对不同渠道的感知度。为了考虑营销内容(又称为offer,即各种提供给用户的营销信息)对用户转化的影响,建立并训练offer差异选择模型,来发掘不同用户对不同offer种类的兴趣度。考虑到不同用户使用app的习惯不同,建立并训练时段选择模型,以进行时段差异化营销。考虑到营销目标往往通过多个环节多次交互来达成,建立时序化的系列营销模型(例如通过长短期记忆LSTM网络),以追踪多次营销对用户的系列影响。利用这样的方案,可以针对各个环节、各个因素都进行有针对性的学习。
然而,在这样的方案中,需要对各个模型分别进行设计、训练、评估,成本很高。如果要估计测算业务的总体执行效果,就需要利用多个模型逐一预测,再对预测结果进行融合,预测过程的复杂度和运算代价也会比较高。如果更换业务内容,通常需要对各个模型都重新进行训练。
另一方面,在这样的方案中,任何一个模型出现问题都可能会影响最终营销效果。而实际上,多个单模型中常常会有一部分模型的预测效果并不尽如人意。例如,在一个例子中,利用深度神经网络DNN建立的offer差异选择模型,将offer划分为27类,进行多分类学习。从针对该模型测得的宏平均和混淆矩阵来看,预测准确度有待进一步提高。
在此基础上,本说明书实施例还提出一种方案,利用深度强化学习系统来进行推荐营销,以进一步提升业务效果。
图2示出深度强化学习系统的示意图。一般地,深度强化学习系统包括智能体和执行环境,智能体通过与执行环境的交互和反馈,不断进行学习,优化其策略。具体而言,智能体观察并获得执行环境的状态(state),根据一定策略,针对当前执行环境的状态确定要采取的行为或动作(action)。这样的行为作用于执行环境,会改变执行环境的状态,同时产生一个反馈给智能体,该反馈又称为奖励分数(reward)。智能体根据获得的奖励分数来判断,之前的行为是否正确,策略是否需要调整,进而更新其策略。通过反复不断地观察状态、确定行为、收到反馈,使得智能体可以不断更新策略,最终目标是能够学习到一个策略,使得获得的奖励分数累积最大化。这就是典型的强化学习过程。在学习和调整策略过程中,如果智能体采取的是包括神经网络在内的一些深度学习的算法,那么这样的系统则称为深度强化学习系统。
根据本说明书的实施例,将深度强化学习应用到推荐营销系统中。在推荐营销的场景下,执行环境即为推荐营销环境,相应地,智能体观察营销环境的状态,基于一些营销策略,针对营销环境的当前状态确定适合的营销行为。该营销行为进而改变营销环境的状态,并产生一个奖励分数反馈到智能体。智能体进而可以根据奖励分数调整、更新其营销策略。根据本说明书一个或多个实施例,全面获取营销环境的当前状态,不仅观察当前用户的用户信息,可选地还观察用户所处的场景,基于全面的营销环境状态,确定营销行为。营销行为的确定也综合考虑多种因素,包括营销渠道的选择,营销内容的选择,营销时段的确定,至少基于渠道、营销内容、营销时段这三者的组合,确定营销行为。如此使得,智能体确定的营销行为同时考虑到营销过程中的多个因素,也就是深度强化学习系统同时对营销过程中多个环节多个因素进行学习,从而综合全面地学习推荐营销的整个业务流程和业务目标,更好地促进业务执行效果。下面描述以上构思的实现方式。
图3示出根据一个实施例利用深度强化学习进行推荐营销的方法。可以理解,该方法可以通过如图2所示的深度强化学习推荐营销系统来实现,该系统包括智能体和执行环境,所述智能体用于根据营销策略,针对执行环境的状态确定营销行为,并根据针对该营销行为反馈得到的奖励分数更新营销策略。更具体地,该方法可以由深度强化学习系统中的智能体来执行。从物理实体的角度来说,上述智能体可以由任何具有数据计算、处理能力的装置、设备、平台、设备集群等来实现或执行。
如图3所示,该方法至少包括:步骤31,获取执行环境的状态信息,所述状态信息至少包括当前用户的用户信息;步骤33,根据营销策略,针对所述状态信息确定相应的营销行为,所述营销行为包括营销渠道、营销内容和营销时段的组合;步骤35,获取执行环境针对所述营销行为的当前奖励分数;以及步骤37,至少根据所述当前奖励分数更新所述营销策略。下面描述以上各个步骤的具体执行方式。
首先,在步骤31,获取执行环境的状态信息。如前所述,在利用深度强化学习的推荐营销系统中,智能体不断观察和获取推荐营销环境的当前状态,用以确定应该采取的营销行为。在一种实施方式下,智能体获取的营销环境的状态信息可以包括,当前用户的用户信息。在一个实施例中,用户信息可以包括用户基本属性特征,例如注册时长、年龄、性别、收入、资产等等。在一个实施例中,用户信息还包括用户历史行为信息,例如历史操作序列、最近浏览页面列表、最近接受的营销信息列表、最近的消费记录、最近的交易记录、最近的贷款记录、最近的出行记录、最近的保险记录等等。
在一个实施例中,用户信息还可以包括用户画像信息。可以理解,在一些实施方式中,已经根据一些算法,基于用户的基本属性信息和/或历史行为信息,为用户赋予了对应的用户画像。用户画像信息例如可以包括,基于基本属性信息将用户划分到一定人群的人群标签,对用户进行聚类的类簇标签,基于用户历史行为构建的用户行为习惯标签,等等。上述各种用户信息可以构成当前用户的用户特征。
在一个实施例中,上述深度强化学习系统实时或在线地进行训练和决策。在这样的情况下,步骤31获取的执行环境的状态信息还可以包括,当前用户所处场景的场景信息。在一个例子中,场景信息包括以下中的至少一种,位置服务场景信息,支付场景信息,钱包操作事件信息等。
具体地,位置服务场景信息例如是基于位置的服务LBS(location basedservice)所提供的场景信息。LBS服务是通过无线电通讯网络或外部定位方式,获取移动终端用户的位置信息的服务。基于位置信息可以进一步确定用户所处的场景。例如,在基于LBS确定用户位于电影院的情况下,位置服务场景信息可以是电影场景的信息,在基于LBS确定用户位于商场的情况下,位置服务场景信息可以是购物场景的信息,在基于LBS确定用户位于美食街的情况下,位置服务场景信息可以是美食场景的信息。
支付场景是另一种用户常用的场景。支付场景信息可以进一步包括,支付所涉及的交易双方的信息,交易对象(例如商品)的信息等。
钱包操作事件可以包括用户在电子钱包中进行的各种操作,例如查看余额,绑定银行卡,转账,购买理财等等。
以上这些场景信息都可以作为推荐营销环境的状态信息被提取,提供给智能体。
接着,在步骤33,智能体根据营销策略,针对以上获取的状态信息确定相应的营销行为,所述营销行为包括营销渠道、营销内容和营销时段的组合。
可以理解,对于强化学习系统来说,智能体根据策略将环境的状态映射为接下来的行为。在图2所示的深度强化学习推荐营销系统中,智能体是进行决策的实体,根据营销策略,将当前营销环境状态映射为接下来采取的营销行为。其中的营销策略通过复杂的深度学习算法来实现,例如Q-learning,DQN等,这些算法中通常包括一些深度神经网络的结构。如上所述,营销环境的当前状态包括了当前用户的用户特征,可选的,还包括用户所处的场景信息,一旦获取到这样的当前状态信息,智能体就通过深度学习算法确定应该针对当前用户采取怎样的营销行为。营销行为的确定至少包括选择和确定营销渠道、营销内容和营销时段,至少基于这三个因素的组合形成营销行为。换而言之,智能体在获取到用户信息(以及可选的场景信息)的情况下,根据营销策略确定,针对(该场景下的)当前用户,应该在什么样时机,用什么渠道,向用户推荐什么内容的营销信息。
在一个实施例中,确定营销行为包括,确定营销渠道。可以理解,存在多种向用户传达营销信息的方式,这些方式都可以称为营销渠道。典型地,营销渠道可以包括消息推送,卡片展示,角标提醒,红点提醒等等。
图4示出多种营销渠道的例子。在图4的示例中,在进入app之后,页面中101部分以一整个区块作为卡片的样式进行营销展示,即为卡片展示,又可以称为广告banner,或者腰封广告;102指示出在图标的右上角添加角标作为营销提醒;103指示出在图标的右上角添加红点作为营销提醒。图4仅仅示例了几种常见的营销渠道,营销渠道并不限于此,例如还包括消息推送,消息推送可以是通过手机短信给用户发送营销内容的短消息,也可以包括由app给安装app的终端推送提醒消息。
智能体通过深度学习的算法,从例如以上所示的各种营销渠道中,选择当前环境状态所适用的营销渠道。
在一个实施例中,确定营销行为还包括,确定营销内容。可以理解,营销信息可以表现为多种营销内容,例如包括营销消息和利益包。营销消息可以是不含有利益成本的消息,例如一些通知消息,比如“蚂蚁森林新增好友交互种树功能”,“支付宝推出老用户专享服务”,等等。利益包则是含有一些利益成本的营销形式,例如包括红包、优惠券、权益等等。这其中,红包可以包括各种场景下可以使用或者抵扣的资金金额;优惠券又包括,例如立减劵,折扣券,一定场景下才能使用的场景卡券(如电影券,美食券),免息券,等等;而权益可以包括其他利益相关的优惠,例如保险权益,理财增值权益等等。
智能体通过深度学习的算法,从例如以上所示的各种营销内容中,选择当前环境状态所适用的营销内容。
在一个实施例中,确定营销行为还包括,确定营销时段。可以理解,不同用户具有不同的app使用习惯,这些使用习惯可以体现为,在不同时段使用app的频次、保持注意力的时长等有所不同。同一用户在不同时段对于营销信息的敏感度和关注度也不同。因此,根据一种实施方式,从多个维度对营销时段进行划分。例如,在一个例子中,从每周每天的时间尺度,根据工作时间将营销时段划分为工作日(例如周一到周五)和非工作日(例如周六和周日)。在一个例子中,在一天之内小时的尺度上,根据工作时间将一天的营销时段划分为工作时间(例如早9点到晚6点)和非工作时间。在另一例子中,根据平均的就餐时间,将一天划分为就餐时段和其他时段;进一步地,还可以将其他时段划分为早上(早餐前)、上午(早餐到午餐之间)、下午(午餐和晚餐之间)和晚上(晚餐之后的时段)。可以理解,营销时段还可以采用其他方式进行划分。一般地,营销时段的划分可以基于用户与营销操作有关的行为在时间上的分布或关联统计而进行。
智能体通过深度学习的算法,从通过各种方式、在各种维度上划分的多个营销时段中,选择当前环境状态所适用的营销时段。
如此,智能体根据所学习和训练的营销策略,确定当前环境状态适用的营销渠道、营销内容和营销时段,基于这三者的组合,确定出接下来采取的营销行为。
在这样的营销行为作用于营销环境之后,在步骤35,可以获取执行环境针对所述营销行为的当前奖励分数。
在一个实施例中,当前奖励分数根据用户对营销行为的响应结果而确定,例如,用户是否接收到该营销信息(即是否触达用户),用户是否点击,是否转化,是否将营销信息中推荐的内容设为首页或设为首要选项,等等。如此,通过奖励分数反映要优化的多个效果目标。
然后在步骤37,至少根据当前奖励分数更新营销策略。如此,在各个环节综合考虑多个因素,来学习、训练和优化营销策略。
图5示出根据一个实施例的深度强化学习推荐营销的总体示意图。如图5所示,根据本说明书的实施例,深度强化学习系统综合观察和获取执行环境的状态信息,获取更加全面的状态特征,这些特征包括用户的全面用户特征,以及用户所处场景的场景特征。
接着,利用深度学习和训练的营销策略,将以上的全面状态特征映射为营销行为,营销行为涉及各种待决策的营销因素的叉乘组合,例如是营销渠道、营销内容和营销时段这三者的组合。营销渠道可以选自消息推送,卡片展示,角标提醒,红点提醒等等,营销内容可以选自营销消息、红包、优惠券、权益等等,营销时段可以选自工作时间、非工作时间、就餐时间等等。通过营销渠道、营销内容和营销时段的选择和组合,得出针对环境状态信息的营销行为。
这样的营销行为作用于执行环境之后,产生奖励分数。奖励分数可以基于用户对营销行为的多个要优化目标的响应结果而确定。
如此,在利用深度强化学习进行推荐营销的过程中,考虑营销环境的全面特征,在进行决策时综合考虑营销涉及的多个因素,从而全面地学习、训练和优化营销策略,更加全面有效地促进营销业务的业务效果。
在一个实施例中,在获取到当前奖励分数的基础上,即在步骤35之后,在步骤37之前,基于所获取的当前奖励分数确定回报价值;从而在步骤37,基于回报价值优化营销策略。可以理解,在深度强化学习系统中,智能体不断对策略进行更新和优化,其目的是使得,奖励分数的累积达到最大。也就是说,在序列学习的情况下,不仅要考虑当前奖励分数,还要考虑多次交互中奖励分数的累积值。为此,可以定义回报价值,来评估奖励分数的预期累积。
在以上实施例的深度强化学习推荐营销的场景下,可以将回报价值定义为,包括当前奖励分数和至少一项未来奖励分数的加权求和,其中各项奖励分数是执行环境针对当前营销行为的反馈。
在一个具体例子中,回报价值定义为:
其中Gt为回报价值,Rt+k+1是在t时刻执行一组行为action后,在t+k+1时刻的奖励分数,γ为折扣系数,可以起到权重的作用。如此,Rt+1表示即时奖励,也就是前述的当前奖励分数,后续的Rt+k+1(k不为0时)则表示预期未来奖励分数。当γ为0时,表示只考虑当前奖励分数,而不考虑长期奖励;γ不为0时,表示将长期奖励分数纳入考虑范围。一般地,0<γ<1,γ值越大,表示对未来奖励分数越看中,另一方面,由于的指数作用,越是远期的奖励分数,对回报价值的影响越小。
对于推荐营销的场景来说,仍然可以采用以上的回报价值的定义,来确定一项营销行为对未来的影响。如前所述,所确定的营销行为至少包括营销渠道、营销内容和营销时段的组合,其中每个因素都会影响到当前奖励分数和未来奖励分数。
对于以上的回报价值定义,通过求解贝尔曼bellman方程,来优化营销策略,优化目标是使得回报价值最大化。求解bellman方程的过程可以包括,例如值迭代、策略迭代、Q-learning、Sarsa等。
由于营销策略的每一步更新优化是基于回报价值,而回报价值中考虑了长期未来奖励分数,因此,如此训练得到的营销策略实际上考虑了营销的时序,从而实现了系列营销。例如,对于图1所示的多次营销,通过回报价值的学习和营销策略的优化,可以利用营销策略更快预测出用户可能接受签约的场景、渠道、营销内容,从而更快实现用户转化,促进业务效果的提升。
图6示出根据一个实施例的推荐营销系统架构示意图。如图6所示,该系统框架至少包括,环境数据库601,流式计算模块602,决策引擎603,深度强化学习营销模型604,投放平台605。根据该架构,通过流式计算模块602从记录营销环境的数据库601读取营销环境的状态信息。记录营销环境的数据库601可以采用各种常见的数据库形式,例如ODPS,OSS,Hbase等,流式计算模块602可以对接上述各种形式的数据库,实时读取营销环境状态数据。在离线训练和预测的情况下,流式计算模块602可以扫描数据库中各个用户的用户信息作为上述环境状态数据。在在线或实时训练和预测的情况下,流式计算模块602还可以获取用户所处场景的场景特征作为上述环境状态数据。
流式计算模块602将读取的环境状态数据发送到决策引擎603。决策引擎603利用这样的环境状态数据,调用深度强化学习营销模型604,也就是前述的深度强化学习系统中智能体所训练的营销策略模型。于是,营销策略模型针对环境状态数据,确定出应当采取的营销行为,该营销形式至少包括营销渠道、营销内容和营销时段的组合。决策引擎603接收到模型返回的营销行为,就将该营销行为数据发送到投放平台605进行投放。
一般地,投放平台605预先设置有一些投放规则和策略,例如投放密度、疲劳度控制,营销竞争规则等等。在满足投放规则和策略的基础上,投放平台605根据营销行为中的营销渠道、营销内容和营销时段的具体设定,来投放相应营销内容。例如,如果营销行为中的营销渠道被选择为消息推送,且时段不限,那么投放平台可以立即进行相应营销内容的消息推送;如果营销渠道为卡片展示,则可以将卡片内容关联到相应用户,使得该用户下次打开app时就可以看到该卡片展示。
这样的营销行为作用于用户之后,产生营销效果。这一方面使得环境状态进一步更新,也就是用于更新环境数据库601;另一方面,营销效果可以作为奖励分数或回报价值的评估基础,返回给深度强化学习营销模型604,使得营销策略模型进一步优化和更新。
如上所述,在本说明书的一个或多个实施例中,利用深度强化学习系统进行推荐营销。在此过程中,智能体获取营销环境的全面特征,在进行决策时综合考虑营销涉及的多个因素,从而全面地学习、训练和优化营销策略,更加全面有效地促进营销业务的业务效果。
另一方面,本说明书实施例还提供一种装置,该装置应用于通过深度强化学习进行推荐营销的系统,其中深度强化学习系统如图2所示包括智能体和执行环境,所述智能体用于根据营销策略,针对所述执行环境的状态信息确定营销行为。上述装置可以由任何具有计算、处理能力的软件、硬件或其组合来实现。在一个实施例中,上述装置集成到深度强化学习系统中用于实现智能体的实体装置中。
图7示出根据一个实施例的装置的示意性框图。如图7所示,该装置700包括:状态获取单元71,配置为获取执行环境的状态信息,所述状态信息至少包括当前用户的用户信息;行为确定单元73,配置为根据营销策略,针对所述状态信息确定相应的营销行为,所述营销行为包括营销渠道、营销内容和营销时段的组合;分数获取单元75,配置为获取执行环境针对所述营销行为的当前奖励分数;更新单元77,配置为至少根据所述当前奖励分数更新所述营销策略。
根据一个实施例,用户信息可以包括,用户基本属性信息,以及用户历史行为信息。
在一个例子中,用户历史行为信息包括以下中的至少一项:历史操作序列、最近浏览页面列表、最近接受的营销信息列表、消费记录、交易记录、贷款记录、出行记录、保险记录。
在一个例子中,用户信息还可以包括,基于用户基本属性信息和/或用户历史行为信息确定的用户画像信息。
根据一个实施例,执行环境的状态信息还包括,当前用户所处场景的场景信息。
进一步地,场景信息可以包括,位置服务场景信息,支付场景信息,钱包操作事件信息。
在一个实施例中,上述营销内容包括营销消息和利益包,所述利益包包括以下中的一种或多种:红包、优惠券、权益。
在一个实施例中,上述营销渠道包括以下中的一种或多种:消息推送,卡片展示,角标提醒,红点提醒。
根据一种实施方式,所述装置还包括,回报价值确定单元(未示出),该单元至少基于当前奖励分数确定回报价值,其中回报价值包括所述当前奖励分数和至少一项未来奖励分数的加权求和。相应地,更新单元77配置为,确定后续营销策略,使得所述回报价值最大化。
根据又一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (19)

1.一种利用深度强化学习进行推荐营销的方法,所述方法包括:
获取执行环境的状态信息,所述状态信息至少包括当前用户的用户信息;
根据营销策略,针对所述状态信息确定相应的营销行为,所述营销行为包括营销渠道、营销内容和营销时段的组合;
获取执行环境针对所述营销行为的当前奖励分数;
至少根据所述当前奖励分数更新所述营销策略。
2.根据权利要求1所述的方法,其中所述用户信息包括,用户基本属性信息,以及用户历史行为信息。
3.根据权利要求2所述的方法,其中所述用户历史行为信息包括以下中的至少一项:历史操作序列、最近浏览页面列表、最近接受的营销信息列表、消费记录、交易记录、贷款记录、出行记录、保险记录。
4.根据权利要求1所述的方法,其中所述用户信息包括用户画像信息,所述用户画像信息基于用户基本属性信息和/或用户历史行为信息预先确定。
5.根据权利要求1所述的方法,其中所述状态信息还包括,所述当前用户所处场景的场景信息。
6.根据权利要求5所述的方法,其中所述场景信息包括,位置服务场景信息,支付场景信息,钱包操作事件信息。
7.根据权利要求1所述的方法,其中所述营销内容包括营销消息和利益包,所述利益包包括以下中的一种或多种:红包、优惠券、权益。
8.根据权利要求1所述的方法,其中所述营销渠道包括以下中的一种或多种:消息推送,卡片展示,角标提醒,红点提醒。
9.根据权利要求1所述的方法,还包括,至少基于所述当前奖励分数确定回报价值,所述回报价值包括所述当前奖励分数和至少一项未来奖励分数的加权求和;
所述至少根据所述当前奖励分数更新所述营销策略包括,确定后续营销策略,使得所述回报价值最大化。
10.一种利用深度强化学习进行推荐营销的装置,所述装置包括:
状态获取单元,配置为获取执行环境的状态信息,所述状态信息至少包括当前用户的用户信息;
行为确定单元,配置为根据营销策略,针对所述状态信息确定相应的营销行为,所述营销行为包括营销渠道、营销内容和营销时段的组合;
分数获取单元,配置为获取执行环境针对所述营销行为的当前奖励分数;
更新单元,配置为至少根据所述当前奖励分数更新所述营销策略。
11.根据权利要求10所述的装置,其中所述用户信息包括,用户基本属性信息,以及用户历史行为信息。
12.根据权利要求11所述的装置,其中所述用户历史行为信息包括以下中的至少一项:历史操作序列、最近浏览页面列表、最近接受的营销信息列表、消费记录、交易记录、贷款记录、出行记录、保险记录。
13.根据权利要求10所述的装置,其中所述用户信息包括用户画像信息,所述用户画像信息基于用户基本属性信息和/或用户历史行为信息预先确定。
14.根据权利要求10所述的装置,其中所述状态信息还包括,所述当前用户所处场景的场景信息。
15.根据权利要求14所述的装置,其中所述场景信息包括,位置服务场景信息,支付场景信息,钱包操作事件信息。
16.根据权利要求10所述的装置,其中所述营销内容包括营销消息和利益包,所述利益包包括以下中的一种或多种:红包、优惠券、权益。
17.根据权利要求10所述的装置,其中所述营销渠道包括以下中的一种或多种:消息推送,卡片展示,角标提醒,红点提醒。
18.根据权利要求10所述的装置,还包括回报价值确定单元,配置为至少基于所述当前奖励分数确定回报价值,所述回报价值包括所述当前奖励分数和至少一项未来奖励分数的加权求和;
所述更新单元配置为,确定后续营销策略,使得所述回报价值最大化。
19.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法。
CN201810879896.3A 2018-08-03 2018-08-03 利用深度强化学习进行推荐营销的方法及装置 Pending CN109003143A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201810879896.3A CN109003143A (zh) 2018-08-03 2018-08-03 利用深度强化学习进行推荐营销的方法及装置
TW108119506A TW202025043A (zh) 2018-08-03 2019-06-05 利用深度強化學習進行推薦行銷的方法及裝置
SG11202010701TA SG11202010701TA (en) 2018-08-03 2019-06-18 Deep reinforcement learning methods and apparatuses for referral marketing
PCT/CN2019/091649 WO2020024715A1 (zh) 2018-08-03 2019-06-18 利用深度强化学习进行推荐营销的方法及装置
US17/085,443 US11210690B2 (en) 2018-08-03 2020-10-30 Deep reinforcement learning methods and apparatuses for referral marketing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810879896.3A CN109003143A (zh) 2018-08-03 2018-08-03 利用深度强化学习进行推荐营销的方法及装置

Publications (1)

Publication Number Publication Date
CN109003143A true CN109003143A (zh) 2018-12-14

Family

ID=64595253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810879896.3A Pending CN109003143A (zh) 2018-08-03 2018-08-03 利用深度强化学习进行推荐营销的方法及装置

Country Status (5)

Country Link
US (1) US11210690B2 (zh)
CN (1) CN109003143A (zh)
SG (1) SG11202010701TA (zh)
TW (1) TW202025043A (zh)
WO (1) WO2020024715A1 (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493059A (zh) * 2018-12-24 2019-03-19 深圳市元智汇科技有限公司 一种基于区块链的营销策略确定方法及系统
CN109508426A (zh) * 2018-12-21 2019-03-22 深圳市智搜信息技术有限公司 一种基于物理环境的智能推荐方法及其系统与存储介质
CN109741117A (zh) * 2019-02-19 2019-05-10 贵州大学 一种基于强化学习的优惠券发放方法
CN109872226A (zh) * 2019-02-25 2019-06-11 重庆锐云科技有限公司 一种基于微信公众号的房地产营销管理方法及装置
CN110018869A (zh) * 2019-02-20 2019-07-16 阿里巴巴集团控股有限公司 通过强化学习向用户展示页面的方法及装置
CN110162703A (zh) * 2019-05-13 2019-08-23 腾讯科技(深圳)有限公司 内容推荐方法、训练方法、装置、设备及存储介质
CN110188695A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 购物动作决策方法及装置
CN110263136A (zh) * 2019-05-30 2019-09-20 阿里巴巴集团控股有限公司 基于强化学习模型向用户推送对象的方法和装置
CN110348897A (zh) * 2019-06-29 2019-10-18 上海淇馥信息技术有限公司 金融服务产品营销方法、装置及电子设备
CN110363566A (zh) * 2019-05-31 2019-10-22 口碑(上海)信息技术有限公司 资源对象分配方法、装置、存储介质及计算机设备
CN110443633A (zh) * 2019-07-05 2019-11-12 深圳壹账通智能科技有限公司 激励数据的匹配方法、装置、计算机设备和存储介质
CN110543947A (zh) * 2019-08-06 2019-12-06 阿里巴巴集团控股有限公司 一种基于强化学习模型的奖励资源发放方法和装置
CN110599241A (zh) * 2019-08-22 2019-12-20 深圳市元征科技股份有限公司 一种营销方案推荐方法及装置
CN110751524A (zh) * 2019-10-22 2020-02-04 电子科技大学 一种基于强化学习的优惠券智能派送方法
WO2020024715A1 (zh) * 2018-08-03 2020-02-06 阿里巴巴集团控股有限公司 利用深度强化学习进行推荐营销的方法及装置
CN111382359A (zh) * 2020-03-09 2020-07-07 北京京东振世信息技术有限公司 基于强化学习的服务策略推荐方法、装置、电子设备
WO2020140911A1 (zh) * 2019-01-02 2020-07-09 中国移动通信有限公司研究院 数据处理方法及装置、数据节点及存储介质
CN111611515A (zh) * 2020-04-11 2020-09-01 上海淇玥信息技术有限公司 一种页面展示方法、装置和电子设备
CN111651679A (zh) * 2020-07-09 2020-09-11 支付宝(杭州)信息技术有限公司 基于强化学习的推荐方法及装置
CN111898019A (zh) * 2019-05-06 2020-11-06 北京达佳互联信息技术有限公司 信息推送方法及装置
CN112037018A (zh) * 2020-09-01 2020-12-04 中国银行股份有限公司 基于代发薪客户交易行为的营销方法和装置
CN112241894A (zh) * 2019-07-16 2021-01-19 百度时代网络技术(北京)有限公司 内容投放方法、装置以及终端
CN112749987A (zh) * 2021-01-15 2021-05-04 大河(深圳)信息有限公司 基于gps定位的信息推广平台
CN113435935A (zh) * 2021-07-02 2021-09-24 支付宝(杭州)信息技术有限公司 权益推送的方法及装置
CN114005014A (zh) * 2021-12-23 2022-02-01 杭州华鲤智能科技有限公司 一种模型训练、社交互动策略优化方法
US11429869B2 (en) 2019-11-21 2022-08-30 International Business Machines Corporation Artificially intelligent interaction agent

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087142A (zh) * 2018-08-07 2018-12-25 阿里巴巴集团控股有限公司 通过深度强化学习进行营销成本控制的方法及装置
CN113408641B (zh) * 2021-06-30 2024-04-26 北京百度网讯科技有限公司 资源生成模型的训练与服务资源的生成方法、装置
US11710180B2 (en) * 2021-08-27 2023-07-25 International Business Machines Corporation Reinforcement learning for credit limit optimizer
CN114692955A (zh) * 2022-03-10 2022-07-01 东南大学 一种基于马尔可夫决策和排队论的出租车路径规划方法
TWI831287B (zh) * 2022-07-12 2024-02-01 財團法人商業發展研究院 目標客群消費偏好行為觀察系統及方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071223A1 (en) * 2003-09-30 2005-03-31 Vivek Jain Method, system and computer program product for dynamic marketing strategy development
CN102033883A (zh) * 2009-09-29 2011-04-27 阿里巴巴集团控股有限公司 一种提高网站数据传输速度的方法、装置及系统
US20120197709A1 (en) * 2011-02-01 2012-08-02 Timothy Kendall Mobile Advertisement with Social Component for Geo-Social Networking System
US20150019307A1 (en) * 2013-05-14 2015-01-15 Aquto Corporation Mobile advertising
US20160140603A1 (en) * 2013-06-21 2016-05-19 Sony Corporation Information processing device, communication system, and information processing method
CN106529996A (zh) * 2016-10-24 2017-03-22 北京百度网讯科技有限公司 基于深度学习的广告展示方法和装置
CN106845817A (zh) * 2017-01-11 2017-06-13 清华大学 在线强化学习交易系统及方法
CN106971321A (zh) * 2017-04-06 2017-07-21 百度在线网络技术(北京)有限公司 营销信息推送方法、装置、设备以及存储介质
CN107274201A (zh) * 2016-04-07 2017-10-20 滴滴(中国)科技有限公司 基于用户画像的营销方法、装置及系统
CN107844988A (zh) * 2017-09-15 2018-03-27 南京安讯科技有限责任公司 一种基于大数据挖掘和地理位置匹配的智能营销系统
CN108230057A (zh) * 2016-12-09 2018-06-29 阿里巴巴集团控股有限公司 一种智能推荐方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7895076B2 (en) * 1995-06-30 2011-02-22 Sony Computer Entertainment Inc. Advertisement insertion, profiling, impression, and feedback
US8150662B2 (en) * 2006-11-29 2012-04-03 American Express Travel Related Services Company, Inc. Method and computer readable medium for visualizing dependencies of simulation models
US9898767B2 (en) * 2007-11-14 2018-02-20 Panjiva, Inc. Transaction facilitating marketplace platform
US20090132365A1 (en) * 2007-11-15 2009-05-21 Microsoft Corporation Search, advertising and social networking applications and services
US20150379497A1 (en) * 2014-06-27 2015-12-31 Miguel Florez System, device, and method for self-checkout shopping
EP3281167A4 (en) * 2015-04-08 2018-10-31 Adi Analytics Ltd. Qualitatively planning, measuring, making effecient and capitalizing on marketing strategy
US20180060901A1 (en) * 2016-08-15 2018-03-01 Perry Lyndon-James Networked System and Method for Increasing Brand Awareness and Data Collection Using Gamification
CN108228579A (zh) * 2016-12-09 2018-06-29 阿里巴巴集团控股有限公司 网络交互系统
CN109003143A (zh) * 2018-08-03 2018-12-14 阿里巴巴集团控股有限公司 利用深度强化学习进行推荐营销的方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071223A1 (en) * 2003-09-30 2005-03-31 Vivek Jain Method, system and computer program product for dynamic marketing strategy development
CN102033883A (zh) * 2009-09-29 2011-04-27 阿里巴巴集团控股有限公司 一种提高网站数据传输速度的方法、装置及系统
US20120197709A1 (en) * 2011-02-01 2012-08-02 Timothy Kendall Mobile Advertisement with Social Component for Geo-Social Networking System
US20150019307A1 (en) * 2013-05-14 2015-01-15 Aquto Corporation Mobile advertising
US20160140603A1 (en) * 2013-06-21 2016-05-19 Sony Corporation Information processing device, communication system, and information processing method
CN107274201A (zh) * 2016-04-07 2017-10-20 滴滴(中国)科技有限公司 基于用户画像的营销方法、装置及系统
CN106529996A (zh) * 2016-10-24 2017-03-22 北京百度网讯科技有限公司 基于深度学习的广告展示方法和装置
CN108230057A (zh) * 2016-12-09 2018-06-29 阿里巴巴集团控股有限公司 一种智能推荐方法及系统
CN106845817A (zh) * 2017-01-11 2017-06-13 清华大学 在线强化学习交易系统及方法
CN106971321A (zh) * 2017-04-06 2017-07-21 百度在线网络技术(北京)有限公司 营销信息推送方法、装置、设备以及存储介质
CN107844988A (zh) * 2017-09-15 2018-03-27 南京安讯科技有限责任公司 一种基于大数据挖掘和地理位置匹配的智能营销系统

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020024715A1 (zh) * 2018-08-03 2020-02-06 阿里巴巴集团控股有限公司 利用深度强化学习进行推荐营销的方法及装置
US11210690B2 (en) 2018-08-03 2021-12-28 Advanced New Technologies Co., Ltd. Deep reinforcement learning methods and apparatuses for referral marketing
CN109508426A (zh) * 2018-12-21 2019-03-22 深圳市智搜信息技术有限公司 一种基于物理环境的智能推荐方法及其系统与存储介质
CN109493059A (zh) * 2018-12-24 2019-03-19 深圳市元智汇科技有限公司 一种基于区块链的营销策略确定方法及系统
WO2020140911A1 (zh) * 2019-01-02 2020-07-09 中国移动通信有限公司研究院 数据处理方法及装置、数据节点及存储介质
CN109741117A (zh) * 2019-02-19 2019-05-10 贵州大学 一种基于强化学习的优惠券发放方法
CN110018869A (zh) * 2019-02-20 2019-07-16 阿里巴巴集团控股有限公司 通过强化学习向用户展示页面的方法及装置
US10956532B2 (en) 2019-02-20 2021-03-23 Advanced New Technologies Co., Ltd. Method and apparatus for displaying page to user through reinforcement learning
CN109872226A (zh) * 2019-02-25 2019-06-11 重庆锐云科技有限公司 一种基于微信公众号的房地产营销管理方法及装置
CN111898019B (zh) * 2019-05-06 2024-04-16 北京达佳互联信息技术有限公司 信息推送方法及装置
CN111898019A (zh) * 2019-05-06 2020-11-06 北京达佳互联信息技术有限公司 信息推送方法及装置
CN110162703A (zh) * 2019-05-13 2019-08-23 腾讯科技(深圳)有限公司 内容推荐方法、训练方法、装置、设备及存储介质
CN110263136A (zh) * 2019-05-30 2019-09-20 阿里巴巴集团控股有限公司 基于强化学习模型向用户推送对象的方法和装置
CN110188695A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 购物动作决策方法及装置
CN110263136B (zh) * 2019-05-30 2023-10-20 阿里巴巴集团控股有限公司 基于强化学习模型向用户推送对象的方法和装置
CN110188695B (zh) * 2019-05-30 2021-09-07 北京百度网讯科技有限公司 购物动作决策方法及装置
CN110363566A (zh) * 2019-05-31 2019-10-22 口碑(上海)信息技术有限公司 资源对象分配方法、装置、存储介质及计算机设备
CN110348897A (zh) * 2019-06-29 2019-10-18 上海淇馥信息技术有限公司 金融服务产品营销方法、装置及电子设备
CN110443633A (zh) * 2019-07-05 2019-11-12 深圳壹账通智能科技有限公司 激励数据的匹配方法、装置、计算机设备和存储介质
CN112241894A (zh) * 2019-07-16 2021-01-19 百度时代网络技术(北京)有限公司 内容投放方法、装置以及终端
CN110543947A (zh) * 2019-08-06 2019-12-06 阿里巴巴集团控股有限公司 一种基于强化学习模型的奖励资源发放方法和装置
CN110543947B (zh) * 2019-08-06 2023-06-30 创新先进技术有限公司 一种基于强化学习模型的奖励资源发放方法和装置
CN110599241A (zh) * 2019-08-22 2019-12-20 深圳市元征科技股份有限公司 一种营销方案推荐方法及装置
CN110751524A (zh) * 2019-10-22 2020-02-04 电子科技大学 一种基于强化学习的优惠券智能派送方法
US11429869B2 (en) 2019-11-21 2022-08-30 International Business Machines Corporation Artificially intelligent interaction agent
CN111382359B (zh) * 2020-03-09 2024-01-12 北京京东振世信息技术有限公司 基于强化学习的服务策略推荐方法、装置、电子设备
CN111382359A (zh) * 2020-03-09 2020-07-07 北京京东振世信息技术有限公司 基于强化学习的服务策略推荐方法、装置、电子设备
CN111611515A (zh) * 2020-04-11 2020-09-01 上海淇玥信息技术有限公司 一种页面展示方法、装置和电子设备
CN111611515B (zh) * 2020-04-11 2023-03-21 上海淇玥信息技术有限公司 一种页面展示方法、装置和电子设备
CN111651679A (zh) * 2020-07-09 2020-09-11 支付宝(杭州)信息技术有限公司 基于强化学习的推荐方法及装置
CN111651679B (zh) * 2020-07-09 2023-07-11 支付宝(杭州)信息技术有限公司 基于强化学习的推荐方法及装置
CN112037018A (zh) * 2020-09-01 2020-12-04 中国银行股份有限公司 基于代发薪客户交易行为的营销方法和装置
CN112749987A (zh) * 2021-01-15 2021-05-04 大河(深圳)信息有限公司 基于gps定位的信息推广平台
CN113435935B (zh) * 2021-07-02 2022-06-28 支付宝(杭州)信息技术有限公司 权益推送的方法及装置
CN113435935A (zh) * 2021-07-02 2021-09-24 支付宝(杭州)信息技术有限公司 权益推送的方法及装置
CN114005014A (zh) * 2021-12-23 2022-02-01 杭州华鲤智能科技有限公司 一种模型训练、社交互动策略优化方法

Also Published As

Publication number Publication date
WO2020024715A1 (zh) 2020-02-06
SG11202010701TA (en) 2020-11-27
US11210690B2 (en) 2021-12-28
TW202025043A (zh) 2020-07-01
US20210049632A1 (en) 2021-02-18

Similar Documents

Publication Publication Date Title
CN109003143A (zh) 利用深度强化学习进行推荐营销的方法及装置
US20200065906A1 (en) System and method for calculating future value
Kalish A new product adoption model with price, advertising, and uncertainty
US11556877B2 (en) Generation of engagement and support recommendations for content creators
US11276120B2 (en) Dashboard interface, platform, and environment for matching subscribers with subscription providers and presenting enhanced subscription provider performance metrics
TW202008264A (zh) 透過深度強化學習進行推薦行銷的方法及裝置
US20160210659A1 (en) Managing digital media spend allocation using calibrated user-level response data
Yu et al. Cloud computing and its impact on service level: a multi-agent simulation model
Klepac Developing churn models using data mining techniques and social network analysis
CN102576436A (zh) 用于将竞争估价模型用于实时广告报价的学习系统
Schwaiger et al. SimMarket: Multiagent-based customer simulation and decision support for category management
KR20150140689A (ko) 소비자 별명 및 식별자를 사용하기 위한 방법 및 장치
Adebiyi et al. Improved customer churn and retention decision management using operations research approach
JP2019144978A (ja) 情報処理装置、情報処理方法、およびプログラム
Al-Shanfari Analyzing a Cross-Functional Information Technology Project: A Real Application of the Multistage One-Shot Decision-Making Approach
Beck The role of artificial intelligence in robo-advisory
Bostedt et al. Planning on a wider scale–Swedish forest owners' preferences for landscape policy attributes
CN111882339A (zh) 预测模型训练及响应率预测方法、装置、设备及存储介质
Hadden A customer profiling methodology for churn prediction
KR102663853B1 (ko) 기업 정보에 기반하여 인큐베이팅 대상 기업을 선정하는 기업 인큐베이팅 시스템
Gao et al. Upgrade strategies in the two-sided market: Updated strategy vs. derived strategy
John et al. Navigating the complexities of marketing decision-making in uncertain supply chains: A quantitative exploration
US11838170B1 (en) Messaging segmentation based on data flow informatics
Surnin et al. Adaptive analysis of merchant Big Data
EP3992897A1 (en) Method to calculate biodiversity asset value

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201009

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201009

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right