CN108230057A

CN108230057A - 一种智能推荐方法及系统

Info

Publication number: CN108230057A
Application number: CN201611130481.3A
Authority: CN
Inventors: 朱亚东
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2018-06-29
Also published as: WO2018107091A1; US20180165745A1; TW201822104A

Abstract

本申请实施例公开了一种智能推荐方法及系统。所述系统包括：客户端，用于存储用户的操作行为；推荐服务器，用于获取所述用户在预设时间区间内的多个操作行为；还用于针对所述多个产品类别中的特定产品类别，从所述多个操作行为中，选择与所述特定产品类别、所述多个关键操作页面相关联的基于时间顺序排列的多个关键操作行为；数据分析服务器，用于采用强化学习方法对所述关键操作行为进行学习处理，得到针对所述用户的产品推荐策略。利用本申请方法或装置实施例，可以提高提高产品推荐的准确性和推荐效率。

Description

一种智能推荐方法及系统

技术领域

本申请涉及信息处理技术领域，特别涉及一种智能推荐方法及系统。

背景技术

近几年，产品推荐技术在各类购物应用(Application，APP)中得到广泛的使用，产品推荐技术可以根据向用户推荐更有价值的产品，从而实现对用户的引导作用，增强用户选购的目的性。在页面中推荐产品已经成为很多购物APP的重要组成部分，目前，最常用的推荐产品的方法是获取用户在最近一段时间区间内最常浏览的产品或者最常搜索的关键词，根据所述产品或者所述关键词，从产品库中获取与所述产品或者所述关键词相匹配的产品，进而将匹配的产品推荐给用户。

然而，在很多时候，用户购买产品的目的性并不是很明确。例如，用户从浏览产品A到购买产品A的交易过程可能会跨越多天，经历较长的决策周期。同时，在所述决策周期中，用户还有可能建立其他产品的决策周期。那么，由于用户决策行为的多样性和不确定性，现有技术中的推荐方法并不能对用户购买产品A产生引导作用，也不能增强用户做出选择决策的目的性。

发明内容

本申请实施例的目的在于提供一种智能推荐方法及系统，可以提高提高产品推荐的准确性和推荐效率。

本申请实施例提供的一种智能推荐方法及系统具体是这样实现的：

一种智能推荐系统，包括：

客户端，用于存储用户的操作行为；

推荐服务器，用于获取所述用户在预设时间区间内的多个操作行为，其中，所述多个操作行为关联于多个产品类别，并且所述多个操作行为关联于多个页面，所述多个页面包括多个关键操作页面和多个信息页面；还用于针对所述多个产品类别中的特定产品类别，从所述多个操作行为中，选择与所述特定产品类别、所述多个关键操作页面相关联的基于时间顺序排列的多个关键操作行为；

数据分析服务器，用于采用强化学习方法对所述关键操作行为进行学习处理，得到针对所述用户的产品推荐策略。

一种智能推荐方法，包括：

获取用户在预设时间区间内的多个操作行为，其中，所述多个操作行为关联于多个产品类别，并且所述多个操作行为关联于多个页面，所述多个页面包括多个关键操作页面和多个信息页面；

针对所述多个产品类别中的特定产品类别，从所述多个操作行为中，选择与所述特定产品类别、所述多个关键操作页面相关联的基于时间顺序排列的多个关键操作行为；

采用强化学习方法对所述关键操作行为进行学习处理，得到针对所述用户的产品推荐策略。

本申请提供的智能推荐方法及系统，将用户在预设时间区间内的多个操作行为按照产品类别、页面特征等参照标准进行筛选、去噪，生成基于时间顺序的关键操作行为序列。由于所述关键操作行为序列基于特定的产品类别和关键操作页面，因此，所述关键操作行为序列能够更加明确地表达用户在预设时间区间内对特定产品类别的偏好和意图。因此，对所述关键操作行为序列进行强化学习，可以学习到更加准确的用户的偏好、意图等信息，从而提高产品推荐的准确性。另外，将多个操作行为进行提取、降维，还可以进一步提高强化学习的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的用户在交易产品前后的行为链路示意图；

图2是本申请提供的用于智能推荐的示例系统200；

图3是本申请提供的MDP的模型示意图；

图4是本申请提供的智能推荐方法的一种实施例的方法流程图；

图5是本申请提供的获取多个操作行为方法的一种实施例的方法流程图；

图6是本申请提供的获取多个操作行为方法的另一种实施例的方法流程图；

图7是本申请提供的用户在预设时间区间内的操作行为链路示意图；

图8是本申请提供的筛选关键操作行为方法的一种实施例的方法流程图；

图9是本申请提供的筛选关键操作行为方法的另一种实施例的方法流程图；

图10是本申请提供的筛选关键操作行为方法的另一种实施例的方法流程图；

图11是本申请提供的用户的关键操作行为链路图；

图12是本申请提供的强化学习方法的一种实施例的方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为了方便本领域技术人员理解本申请实施例提供的技术方案，下面先对技术方案实现的技术环境进行说明。

产品推荐技术的意义在于向用户推荐的产品能够对用户产生引导作用，帮助用户做出产品购买的决策。图1是本申请提供的用户在交易产品前后的行为链路示意图，如图1所示，在实际情况中，当用户对产品A产生兴趣时，可能会多次浏览产品A的产品详情页面，此后，用户或收藏产品A，或加购产品A。后续地，用户还可能多次通过收藏目录页面、购物清单页面访问产品A的产品详情页面。经过多次的行为循环之后，用户决定购买产品A，并完成支付。在完成产品A的支付之后，用户还可能为了确认商家是否发货，多次浏览产品A的订单详情页面，或者多次通过订单列表页面查询产品A的订单详情以确认是否有物流信息。在确认已经产生成产品A的物流信息之后，用户还可能在产品还未送到之前，多次访问查看物流页面以了解产品A的物流动态。直至产品A被送达用户手中，用户在确认产品A没有质量问题时，再确认收货。图1中的a,b,c,d,e,f分别为用户访问图中所示产品详情页面、收藏目录页面、购物清单页面等操作页面的次数。

基于图1所示的用户行为链路示意图，本申请的目的在于在购前链路中，能够通过产品推荐方法向用户推荐更具价值、更符合用户意图的产品，从而加快用户的购前决策进展；在购后链路中，能够通过合理、智能的推荐进一步地培养用户做出更多的策略。

基于上述技术环境，本申请提供了一种智能推荐系统，图2是本申请提供的用于智能推荐的示例系统200。本实施例中的产品包括但不限于任何类型的可以提供到市场、供人们消费或者使用的产品。在一些实施例中，所述产品可以包括实体的产品，如衣服、咖啡、汽车等，在其他实施例中，所述产品可以包括无形的产品，如服务、教育、游戏、虚拟资源等。所述系统200可以用于根据用户的历史操作行为数据，向用户推荐更加符合用户偏好、意图的产品。

例如，如图2所示，本申请提供的产品推荐系统200可以包括推荐服务器210和客户端220，所述推荐服务器210与客户端220相耦合。所述产品推荐系统200可以包括一个或者多个客户端220。所述推荐服务器210可以为一个或多个服务器，也可以集成于一个服务器中。

在另一些实施例中，所述系统200还可以用于对用户的历史操作行为数据进行强化学习，实现更为智能的用户行为链路优化建模。相应地，如图2所示，所述系统200还可以包括数据分析服务器230。所述数据分析服务器230可以分别与推荐服务器210、所述客户端220耦合。同样地，所述数据分析服务器230可以分别为一个或多个服务器，也可以集成在一个服务器中。

在一些实施例中，所述客户端220可以为移动智能电话、计算机(包括笔记本电脑，台式电脑)、平板电子设备、个人数字助理(PDA)或者智能可穿戴设备等。在另外一些实施例中，所述客户端220还可以为运行于任一上述所列设备上的软件，例如支付宝客户端、手机淘宝客户端、天猫客户端等，当然，所述客户端220还可以为具有产品推荐功能的网站等。

用户可以利用不同的客户端220获取推荐服务器210提供的推荐产品，以完成本方案以下所述的一个或多个方法步骤。

为了能更加清楚地表达强化学习在产品推荐技术中的使用方法，首先介绍强化学习的基本理论模型，马尔可夫决策过程(Markov Decision Process，英文缩写为MDP)。

图3是本申请提供的MDP的模型示意图，如图3所示，MDP中涉及到智能体(Agent)和环境两个交互的主体，其中，Agent为做出决策的主体，环境作为信息反馈的主体。例如在产品推荐技术的应用场景中，Agent可以被设置为作出产品推荐决策的主体对象，环境可以被设置将用户的的点击浏览产品、购买产品等行为反馈至Agent。MDP可以用一个四元组<S,A,R,T>表示，其中，

(1)S为状态空间(State Space)，可以包含Agent可能感知到的环境状态集合；

(2)A为动作空间(Action Space)，可以包含Agent在每个环境状态上可以采取的动作集合；

(3)R为奖赏函数(Rewarding Function)，R(s,a,s’)可以表示在状态s上执行动作a，并转移到状态s’时，Agent从环境中获得的奖赏；

(4)T为环境状态转移函数(State Transition Function)，T(s,a,s’)可以表示在状态s上执行动作a，并转移到状态s’的概率。

如图3所示的MDP中Agent和环境之间的交互过程，Agent感知到t时刻的环境状态为s_t，基于所述环境状态s_t，Agent可以从动作空间A中选择动作a_t执行；环境在接收Agent所选择的动作之后，给以Agent相应的奖赏信号反馈r_t+1，并转移到新的环境状态s_t+1，并等待Agent做出新的决策。在与环境的交互过程中，Agent的目标是找到一个最优策略π^*，使得π^*在任意状态s和任意时间步骤t下，都能够获得最大的长期累积奖赏，其中π^*可以被定义为公式(1)：

其中，π表示Agent的某个策略(即状态到动作的概率分布)，E_π表示策略π下的期望值，γ为折扣率(Discount Rate)，k为未来时间步骤，r_t+k表示Agent在时间步骤(t+k)上获得的即时奖赏。

基于上述MDP模型，本申请提供的智能推荐方法可以提取出用户每一个当前的链路状态，推荐服务器210可以依据一定的推荐策略，输出相应的推荐行为。然后，所述推荐服务器210或者所述数据分析服务器230能够根据用户的反馈交互数据，利用强化学习方法对所述推荐策略进行迭代更新，从而最终逐步学习到最优的推荐策略。

下面结合附图对本申请所述的智能推荐方法进行详细的说明。图4是本申请提供的智能推荐方法的一种实施例的方法流程示意图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际中的智能推荐过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

所述推荐服务器210具体按照图4所示的智能推荐流程方法，如图4所述，该方法可以包括以下步骤：

S41：获取用户在预设时间区间内的多个操作行为，其中，所述多个操作行为关联于多个产品类别，并且所述多个操作行为关联于多个页面，所述多个页面包括多个关键操作页面和多个信息页面。

结合上述MDP模型，所述推荐服务器210对应于Agent，用户当前的链路状态对应于状态s。由于Agent可以感知当前的状态s，并根据一定的策略，输出相应的动作a。相应地，推荐服务器210可以根据用户当前的链路状态，根据一定的推荐策略，给出推荐行为。在本实施例中，所述链路状态可以包括在预设时间区间内用户的基于时间顺序排列的多个关键操作行为。

一般地，购物APP中往往包括多个页面，每个页面对应于具体的场景，所述页面诸如产品详情页面、收藏目录页面、购物清单页面、付款页面、信息公告页面、订单详情页面、订单列表页面等。在一个实施例中，所述多个页面可以包括多个关键操作页面和多个信息页面，其中，所述关键操作页面可以包括在产品交易周期过程中对用户预设决策行为具有较大影响的页面，所述信息页面可以包括购物APP中展示公告、规则等信息的页面。例如所述关键操作页面可以包括产品详情页面、收藏目录页面、购物清单页面、付款页面、订单详情页面、订单列表页面等，所述信息页面可以包括交易规则介绍页面、公告页面等。

在一个实施例中，所述关键操作页面可以包括对预设用户行为的影响因子大于预设阈值的页面。其中，所述影响因子可以包括对预设用户行为的影响程度值，所述预设用户行为可以包括用户交易决策等。

既然页面对应于场景，由于用户可以在场景执行多种动作，因此用户也可以在页面中进行多种操作，例如，在产品详情页中，所述用户可以收藏、加购、购买、分享对应的产品，在产品列表页面中，所述用户能够收藏、点击浏览列表中的任何产品。所述客户端220能够对用户在所述多个页面中的操作行为进行跟踪、存储，如图2所示，推荐服务器210和客户端220相耦合，主要是为了获取客户端220中存储的用户对所述多个页面的操作行为记录。

在本申请的一个实施例中，如图5所示，所述获取用户在预设时间区间内的多个操作行为可以包括：

S51：获取用户在预设时间区间内的用户行为日志；

S52：从所述用户行为日志中获取所述用户的多个操作行为；

S53：从所述用户日志中获取与所述操作行为所关联的产品类别标识和页面标识。

本实施例中，可以获取用户在预设时间区间内的用户行为日志，所述用户行为日志可以记录用户在预设时间区间内的操作行为记录。在用户行为日志中，操作行为记录与操作时间、产品的类别标识、页面标识等信息相关联。

在另外一个实施例中，如图6所示，所述获取用户在预设时间区间内的多个操作行为还可以包括：

S61：监听用户在预设时间区间内于多个页面上的多个操作行为，所述多个操作行为关联于多个产品类别，所述页面包括多个关键操作页面和多个信息页面；

S62：存储所述多个操作行为。

本实施例中，还可以通过另一种方式获取所述多个操作行为，具体地，可以监听所述多个页面上的多个操作行为，同时，存储所述多个操作行为。

下面通过一个具体的场景示例对该方法步骤进行说明，图7是本申请中从用户行为日志中获取的用户在距离基准时刻15分钟内按照时间顺序排列的13个操作行为，所述13个操作行为分别为浏览毛衣A，收藏毛衣A、浏览毛衣A、阅读信息B、浏览手机D等。可以发现，上述13个操作行为关联到多个产品类别，如果仅从一级产品类目进行分析，具体可以关联到服装(毛衣A、毛衣E、外套G)、手机(手机D)、化妆品(面霜F)等三个类目。并且，上述13个操作行为关联到多个页面，其中，关键操作页面包括操作行为1-3、5-13所关联的页面。操作行为4“阅读信息B”一般不会在用户交易决策过程中具有重要作用，因此，操作行为4所关联的页面为信息页面。

需要说明的是，本实施例中的预设时间区间可以根据用户操作行为的实施频率进行设置，具体可以包括任何数值的时间区间，本申请在此不作限制。本实施例中的产品类目可以为一级类目，也可以为一级以下的任何类目，本申请在此不作限制。所述关键操作页面的设置也不限于上述举例，可以包括任何对预设用户行为的影响因子大于预设阈值的页面，本申请在此不作限制。

S42：针对所述多个产品类别中的特定产品类别，从所述多个操作行为中，选择与所述特定产品类别、所述多个关键操作页面相关联的基于时间顺序排列的多个关键操作行为。

在本申请的一个实施例中，可以通过产品类别标识、关键操作页面标识选取出所述多个关键操作页面，所述产品类别标识例如可以包括产品类别ID、所述关键操作页面标识例如可以包括关键操作页面ID等。如图8所示，所述S42可以包括：

S81：从所述产品类别标识中选取特定产品类别所对应的特定产品类别标识，从所述页面标识中选取关键操作页面所对应的关键操作页面标识；

S82：从所述多个操作行为中提取同时与所述特定产品类别标识、所述关键操作页面标识相关联的多个关键操作行为。

在本申请的另一个实施例中，可以先从所述多个操作行为中筛选出与特定产品类别关联的多个初选操作行为，再从所述多个初选操作行为中筛选出与所述关键操作页面相关联的多个关键操作行为。如图9所示，所述S42可以包括：

S91：针对所述多个产品类别中的特定产品类别，从所述多个操作行为中筛选出与所述特定产品相关联的多个初选操作行为；

S92：从所述初选操作行为中筛选出与所述关键操作页面相关联的多个关键操作行为；

S93：将所述多个关键操作行为按照时间顺序排列。

在本申请的另一个实施例中，可以先从所述多个操作行为中筛选出与所述关键操作页面相关联的多个初选操作行为，再从所述多个初选操作行为中筛选出与所述特定产品类别相关联的多个关键操作行为。如图10所示，所述S42可以包括：

S101：针对所述关键操作页面，从所述多个操作行为中筛选出与所述关键操作页面相关联的多个初选操作行为；

S102：针对所述多个产品类别中的特定产品类别，从所述初选操作行为中筛选出与所述特定产品类别相关联的多个关键操作行为；

S103：将所述多个关键操作行为按照时间顺序排列。

本实施例中，所述特定产品类别可以包括与所述多个操作行为相关联的任何一个产品类别。例如，在图7所示的用户的操作行为链路中，共涉及到3个产品类目，分别为服装、手机、化妆品。其中，与服装类别相关联的操作行为包括操作行为1-3、6-9、11-13，与手机类别相关联的操作行为包括操作行为5，与化妆品类别相关联的操作行为包括操作行为10，与关键操作页面相关联的操作行为包括操作行为1-3、5-13，与信息页面相关联的操作行为包括操作行为4。本实施例中，可以选取与服装类别、关键操作页面相关的基于时间顺序排列的关键操作行为。因此，可以排除与手机类别关联的操作行为5、与化妆品类别关联的操作行为10、与信息页面相关联的操作行为4，将剩余的操作行为1-3、6-9、11-13按照时间顺序排列，生成如图11所示的操作行为链路。

在本实施例中，将用户在预设时间区间内的多个操作行为按照产品类别、页面特征等参照标准进行筛选、去噪，生成基于时间顺序的关键操作行为序列。由于所述关键操作行为序列基于特定的产品类别和关键操作页面，因此，所述关键操作行为序列能够更加明确地表达用户在预设时间区间内对特定产品类别的偏好和意图。

S43：采用强化学习方法对所述关键操作行为进行学习处理，得到针对所述用户的产品推荐策略。

在将用户在预设时间区间内无序复杂的操作行为处理成清晰、明确的多个关键操作行为之后，可以采用强化学习方法对所述关键操作行为进行学习处理，得到针对所述用户的产品推荐策略。

本实施例中的产品推荐策略可以包括从有限的产品集合中选择预设个数的推荐产品。如上所述，MDP中包括状态空间S和动作空间D，其中，所述多个关键操作行为对应于所述状态空间S，所述有限的产品集合对应于所述动作空间D。可以发现，在本申请提供的智能推荐方法中，所述状态空间S与所述动作空间D均为有限的大规模空间。

如上所述，在强化学习中，在与环境的交互过程中，Agent(即推荐服务器210)的目标是找到一个最优策略π^*，使得π^*在任意状态s和任意时间步骤t下，都能够获得最大的长期累积奖赏。在一些实施例中，可以采用值函数逼近算法实现上述目标。在其他实施例中，还可以采用策略逼近算法等其他强化学习算法实现上述目标，本申请在此不作限制。

另外，所述学习优化的过程可以由推荐服务器210实施。更优地，该过程可以由所述数据分析服务器230单独处理，所述数据分析服务器230可以在后台与所述推荐服务器210同步或者异步地进行强化学习。

在本申请的一个实施例中，如图12所示，所述采用强化学习方法对所述关键操作行为进行学习处理，得到针对所述用户的产品推荐策略可以包括：

S121：基于马尔可夫决策过程(MDP)，将所述关键操作行为之前的一个或者多个关键操作行为所对应的页面特征信息和/或产品特征信息作为状态；

S122：将预设数量的候选产品作为动作；

S123：计算当所述状态及所述动作形成的状态动作对的奖赏值，将奖赏值满足预设条件时所对应的候选产品作为产品推荐策略。

由于本申请中的状态空间(多个关键操作行为)和动作空间(有限的产品集合)均是有限的大规模空间，本实施例中可以采用Q函数逼近算法得到最优的推荐策略。

下面通过一个具体的场景说明本申请如何结合S121-S123并使用Q函数逼近算法得到在任意状态下都能计算得到最优的动作策略的方法。

首先，对强化学习中的状态进行定义。

S43中可以获取由多个关键操作行为所构成的行为序列，在所述行为序列中，其中的每一个关键操作行为可以对应于一个状态s。可以发现，状态s可以中包含的信息具有多样性和高复杂度，如何从多样、复杂的信息中提取出关键信息用于合理地表达状态s，是本申请所要解决的问题之一。

在本实施例中，可以将所述关键操作行为之前的一个或者多个关键操作行为所关联的页面特征信息和/或产品特征信息作为所述状态s。例如，所述页面特征信息可以包括页面标识，所述页面标识可以包括该页面是购前场景还是购后场景的布尔标识信息。所述产品特征信息可以包括产品的价格、销量、上架时间、所属级别、好评率、加购率、转化率，以及所述产品对应店铺维度的相关特征信息等。例如，在图11所示的操作行为链路中，包含服装类别中的10个关键操作行为，那么可以分别对应于10个状态s。若要表达关键操作行为5“浏览毛衣E”所对应的状态s，根据上述状态s的定义，可以发现，关键操作5的上一个关键操作行为4“加购毛衣A”所对应的页面为购物清单页面，根据图1所示的购前、购后链路的示意图，所述购物清单页面处于购前链路，可以获取购前链路所对应的布尔标识信息。关键操作行为4所对应的产品为毛衣A，获取毛衣A所对应的价格、销量、上架时间、是否包邮、所属级别、好评率、加购率、转化率，以及所述毛衣A所在店铺维度的相关特征信息等。至此，可以获取关键操作行为5所对应的状态s。

进一步地，由于用户的年龄段、购买能力、性别等个性产品与用户的偏好、意图紧密联系，因此，可以在状态s中体现出用户个人属性。具体地，可以在所述状态s中添加用户的个性特征数据，例如，所述个性特征数据可以包括用户稳定的长期特征。例如所述个性特征数据可以包括用户的性别、年龄、购买力，产品偏好、店铺偏好等特征数据。例如，用户A所对应的特征数据为{男，26，购买力强，爱好骑行装备，…}。

其次，对强化学习中的动作进行定义。

在MDP中，Agent可以在状态s下，根据一定的策略，执行动作a。由于产品推荐与产品搜索不同，产品搜索需要将匹配出的海量的产品展示给用户，而产品推荐只需要向用户展示数量较少的产品，如12个、9个、16个等等。本实施例中，所述动作a即为需要展示的预设数量的产品信息。

需要说明的是，所述动作a所对应的动作空间A并不是购物平台中的所有产品，为了进一步地降低动作空间的维度，提高处理效率，可以设置动作a所对应的动作空间为有限的候选产品空间，所述候选产品空间可以采用行为协同召回方法、用户偏好匹配等方法获取，本申请在此不做限制。在本申请的一个实施例中，所述候选产品包括关键操作行为所对应的关键操作页面的产品集，所述产品集中的产品与所述关键操作页面相关联。例如，假设每个页面对应于一个产品池(即所述产品池)，所述产品池中可以包括多个同类别的产品，那么，所述候选产品空间可以包括所述关键操作行为所对应的页面的产品池。此时，所述动作a可以包括通过最优策略从所述产品池中选取预设数量的产品推荐给用户。

在对强化学习中的状态、动作定义之后，构建对于任意状态s下所能获得的累计奖赏值的计算方式。在一个实施例中，所述累计奖赏值计算方式可以用下述状态值函数公式(1)表示：

V^π(s)＝E_π[r(s′|s,a)+γV^π(s′)|s₀＝s] (1)

其中，V^π(s)表示关于状态s的状态值函数，E_π表示Agent在策略π下获取的累积奖赏的期望值，s’表示在状态s下执行动作a之后到达的下一步状态，r(s’|s,a)表示在状态s下执行动作a获得的立即奖赏，γ∈[0,1]表示奖赏折扣率。

由于本申请中的状态空间和动作空间均为有限的空间，因此，可以基于上述状态值函数表达式(1)，构建基于状态-动作对的Q函数，作为状态-动作对所能获得的累计奖赏。具体的，在一个实施例中，任意状态-动作对所能获取的累计奖赏可以包括：

Q^π(s,a)＝E_π[r(s′|s,a)+γV^π(s′)|s₀＝s,a₀＝a] (2)

其中，Q^π(s,a)表示在策略π下状态-动作对s-a获得的长期累计奖赏，即Agent在状态s中执行动作a时，在之后的学习优化过程中产生奖赏的累积值。

假设最优策略π*对应的状态值函数为V*(s)，所述最优策略π*对应的状态-动作值函数为Q*(s,a)，则V*(s)和Q*(s,a)之间显然具有如下关系：

V^*(s)＝max_aQ^*(s,a) (3)

本实施例中，可以利用强化学习方法通过寻找最优的状态值函数或动作值函数，学习最优策略π*。本实施例中，可以基于上述公式(2)，构建关于状态s和动作a的Q函数：

Q(s,a；w)＝f_w(φ(s),ψ(a))≈Q^*(s,a) (4)

其中，f表示回归模型，可以包括线性回归、树回归、神经网络等方式；

φ(s)为状态s的特征向量，如上所述，状态s的特征向量φ(s)可以包含两个维度的特征信息<u,context>，其中：

u表示用户的个性特征数据，可以包括用户的性别、年龄、购买力、类目偏好、店铺偏好、品牌偏好等特征信息；

context表示当前关键操作行为的上一个关键操作行为所关联的页面特征信息和/或产品特征信息，所述页面特征信息可以包括页面标识，所述页面标识可以包括该页面是购前场景还是购后场景的布尔标识信息。所述产品特征信息可以包括产品的价格、销量、存在时间、所属级别、好评率、加购率、转化率，以及所述产品对应店铺维度的相关特征信息等；

ψ(a)为动作空间中产品维度的特征向量，包括产品价格、销量、上架时间、是否包邮、所属级别、好评率、加购率、转化率，以及商品对应店铺的特征信息(如店铺综合打分、退货率等)；

参数w表示特征向量φ(s)和ψ(a)的权重向量，可以用来表示特征向量中特征参数对应的权重值。

本实施例中，可以通过更新参数w来使得Q函数(4)逼近最优的Q值。Q函数的更新公式可以包括：

Q(S_t,A_t)←Q(S_t,A_t)+α(R_t+1+γmax_aQ(S_t+1,a)-Q(S_t,A_t)) (5)

其中，Q(S_t,A_t)表示在状态S_t下执行动作A_t获得的累积奖赏估值；R_t+1表示在状态S_t下执行动作A_t后到达下一个状态S_t+1下所获得的立即奖赏值；max_aQ(S_t+1,a)表示在状态S_t+1下能获得的最优估值；α∈(0,1]表示估计误差造成的影响，类似随机梯度下降，最后可以收敛到最优的Q值。当S_t+1为终态(final state)时，算法停止估值迭代。在本实施例中，终态可以定义为最终希望达到的状态，比如产品的成交(如图1中的确认收货行为步骤)，而对于所有终态的估值则直接设为其获得的立即奖赏值r，比如最终的成交金额。例如，所述立即奖赏函数可以包括：

其中，若用户点击浏览产品，则得到的立即奖赏为常数c，若用户产生交易，则得到的立即奖赏为产品的成交额。

下面根据公式(5)和(6)的定义，利用图11所示的关键操作行为序列作为样本数据进行Q-Learning的估值迭代。具体地，可以对图11中每一个关键操作行为的Q值进行更新。例如，将图11中所示的10个关键操作行为所对应的状态定义表示为S₁-S₁₀，每个状态所对应的更新后的Q值为Q₁-Q₁₀。将关键操作行为10“付款毛衣A”所对应的状态S₁₀作为终态，那么，在状态S₁₀中所获取的立即奖赏为毛衣A的成交额，例如成交额为100。则对于关键操作行为9“浏览外套G”，根据公式5(假设α为1，折扣率γ为0.9，c为1)，则Q₉为R₁₀+0.9max_aQ(S₁₀,a)。由于在S₁₀下获得的最优估值为100，在状态S₉中执行某个动作后转移到状态S₁₀的立即奖赏为R₁₀＝c＝1，计算得到更新后的Q₉为91。依次类推，可以计算得到状态S₁-S₁₀对应的更新后的Q值Q₁-Q₁₀。

在计算得到状态S₁-S₁₀对应的更新后的Q值Q₁-Q₁₀时，可以利用公式(4)中的回归模型f对Q值Q₁-Q₁₀进行回归、拟合，得到更新后的w参数值。至此，完成对公式(4)中Q函数的一次优化。由于参数w表示特征向量φ(s)和ψ(a)的权重向量，而特征向量φ(s)和ψ(a)分别表示状态s的特征和动作a的特征。根据上述对状态s、动作a的定义，状态s可以包括页面特征信息和/或产品特征信息、用户个性特征信息等，动作a可以包括动作空间(候选产品空间)中产品维度的特征向量。那么根据对参数w的优化，可以使得状态s、动作a中各个特征参数所对应的权重值更加符合用户的偏好、意图。在一个具体的场景中，根据用户A的关键操作行为所关联产品的特征信息，可以发现，相对于其它产品特征参数，用户A更加偏好好评率较高的产品，那么，在经过一次对w参数的优化之后，好评率所对应的权重值将有所提高。但是，有时候用户的意图并不明确，在上一个场景中，用户A可能偏好好评率高的产品，那么，在下一个场景中，用户A又可能偏好销量高、价格高的产品，那么，通过本实施例方法，可以对w参数进行优化，提高产品销量、价格所对应的权重值。可以发现，不管用户的购买目的是否明确，通过本实施例中的优化方式，w参数的参数值始终与用户的意图、偏好紧密联系。

在对所述Q函数优化之后，可以将状态s(如页面特征信息和/或产品特征信息)输入至优化后的Q函数，可以得到最优的产品推荐策略a。在确定w参数的参数值后，根据公式(4)可以计算得到动作空间(如候选产品空间)中每个动作所对应的Q值，将动作空间中Q值满足预设条件的动作作为最优的产品推荐策略a。所述预设条件可以包括Q值大于预设阈值的动作，或者Q值最大的预设个数动作等。例如，所述动作空间为所述关键操作行为所对应页面的产品池，所述产品池中包括500个候选产品，通过Q函数逼近方法，计算得到产品池中每个候选产品的Q函数估值，将Q函数估值按照从大到小的顺序排列，并按照S124所示的方法步骤，将Q函数估值最大的9个候选产品作为推荐产品，展示给用户。

利用Q函数优化方法，可以将有限的大规模状态动作空间转化为参数空间，在降维的同时增加Q函数本身的泛化能力。在本实施例方法值，可以将用户在任意时刻所处的状态s，以及状态s下可执行的动作a，分别用高维向量φ(s)和ψ(a)进行表示。然后，只需要选择一种函数映射的方式，将高维向量φ(s)和ψ(a)映射到标量上，就可以对目标函数Q*(s,a)进行拟合学习。通过上述这种方式，可以将超大规模的状态-动作空间转换到高维的向量空间，并得到基于高维向量空间的统一参数表达，对将来后续任意未知的状态和动作，也可以对其进行值函数的估值，从而达到了泛化的目的。

那么，在产品推荐中，可以利用关键操作行为序列对Q函数进行拟合学习，将Q函数中的参数w逐步优化，使得参数w值随着用户的偏好、意图等信息的改变而逐步优化，直至收敛稳定。利用优化后的Q函数计算候选产品空间中每个产品的Q函数估计值，Q函数估计值越大，产品的推荐价值越高。Q函数优化方法可以对用户大规模的离散操作行为进行逐步学习，具体反映在Q函数的w参数逐步收敛，当w参数收敛时，可以实现将用户的离散行为转换成用户的偏好、意图等一般性特征，基于用户的一般性特征，可以向用户推荐更加准确的产品信息。

需要说明的是，本申请利用的强化学习方法不限于值函数逼近算法(如上述Q函数逼近算法)，还可以包括任何可以得到在任意状态下都能计算得到最优的动作策略的强化学习方法，如策略逼近算法，本申请在此不做限制。

对应地，本申请另外还提供一种智能推荐系统，所述系统可以包括：

客户端，用于存储用户的操作行为；

可选的，在本申请的一个实施例中，所述采用强化学习方法对所述关键操作行为进行学习处理，得到针对所述用户的产品推荐策略可以包括：

基于马尔可夫决策过程(MDP)，将所述关键操作行为之前的一个或者多个关键操作行为所对应的页面特征信息和/或产品特征信息作为状态；

将预设数量的候选产品作为动作；

计算当所述状态及所述动作形成的状态动作对的奖赏值，将奖赏值满足预设条件时所对应的候选产品作为产品推荐策略。

可选的，在本申请的一个实施例中，所述候选产品可以包括关键操作行为所对应的关键操作页面的产品集，所述产品集中的产品与所述关键操作页面相关联。

可选的，在本申请的一个实施例中，所述关键操作页面可以包括对预设用户行为的影响因子大于预设阈值的页面。

可选的，在本申请的一个实施例中，所述获取所述用户在预设时间区间内的多个操作行为可以包括：

获取用户在预设时间区间内的用户行为日志；

从所述用户行为日志中获取所述用户的多个操作行为；

从所述用户日志中获取与所述操作行为所关联的产品类别标识和页面标识。

监听用户在预设时间区间内于多个页面上的多个操作行为，所述多个操作行为关联于多个产品类别，所述页面包括多个关键操作页面和多个信息页面；

存储所述多个操作行为。

可选的，在本申请的一个实施例中，所述针对所述多个产品类别中的特定产品类别，从所述多个操作行为中，选择与所述特定产品类别、所述多个关键操作页面相关联的基于时间顺序排列的多个关键操作行为可以包括：

从所述产品类别标识中选取特定产品类别所对应的特定产品类别标识，从所述页面标识中选取关键操作页面所对应的关键操作页面标识；

从所述多个操作行为中提取同时与所述特定产品类别标识、所述关键操作页面标识相关联的多个关键操作行为。

针对所述多个产品类别中的特定产品类别，从所述多个操作行为中筛选出与所述特定产品相关联的多个初选操作行为；

从所述初选操作行为中筛选出与所述关键操作页面相关联的多个关键操作行为；

将所述多个关键操作行为按照时间顺序排列。

针对所述关键操作页面，从所述多个操作行为中筛选出与所述关键操作页面相关联的多个初选操作行为；

针对所述多个产品类别中的特定产品类别，从所述初选操作行为中筛选出与所述特定产品类别相关联的多个关键操作行为；

将所述多个关键操作行为按照时间顺序排列。

可选的，在本申请的一个实施例中，所述状态还可以包括用户的个人属性信息。

可选的，在本申请的一个实施例中，所述客户端还可以用于展示所述奖赏值满足预设条件时所对应的候选产品。

可选的，在本申请的一个实施例中，所述强化学习方法可以包括Q函数逼近算法。

尽管本申请内容中提到实施例中的强化学习方法、学习处理、数据排序等之类的数据学习、处理描述，但是，本申请并不局限于必须是完全符合行业编程语言设计标准或实施例所描述的数据展示、处理的情况。某些页面设计语言或实施例描述的基础上略加修改后的实施方案也可以实行上述实施例相同、等同或相近、或变形后可预料的实施效果。当然，即使不采用上数据处理、判断的方式，只要符合本申请上述各实施例的数据学习、处理描述，仍然可以实现相同的申请，在此不再赘述。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种智能推荐系统，其特征在于，包括：

客户端，用于存储用户的操作行为；

2.根据权利要求1所述的系统，其特征在于，所述采用强化学习方法对所述关键操作行为进行学习处理，得到针对所述用户的产品推荐策略包括：

将预设数量的候选产品作为动作；

3.根据权利要求2所述的系统，其特征在于，所述候选产品包括关键操作行为所对应的关键操作页面的产品集，所述产品集中的产品与所述关键操作页面相关联。

4.根据权利要求1所述的系统，其特征在于，所述关键操作页面包括对预设用户行为的影响因子大于预设阈值的页面。

5.根据权利要求1所述的系统，其特征在于，所述获取所述用户在预设时间区间内的多个操作行为包括：

获取用户在预设时间区间内的用户行为日志；

从所述用户行为日志中获取所述用户的多个操作行为；

6.根据权利要求1所述的系统，其特征在于，所述获取所述用户在预设时间区间内的多个操作行为包括：

存储所述多个操作行为。

7.根据权利要求5所述的系统，其特征在于，所述针对所述多个产品类别中的特定产品类别，从所述多个操作行为中，选择与所述特定产品类别、所述多个关键操作页面相关联的基于时间顺序排列的多个关键操作行为包括：

8.根据权利要求1所述的系统，其特征在于，所述针对所述多个产品类别中的特定产品类别，从所述多个操作行为中，选择与所述特定产品类别、所述多个关键操作页面相关联的基于时间顺序排列的多个关键操作行为包括：

将所述多个关键操作行为按照时间顺序排列。

9.根据权利要求1所述的系统，其特征在于，所述针对所述多个产品类别中的特定产品类别，从所述多个操作行为中，选择与所述特定产品类别、所述多个关键操作页面相关联的基于时间顺序排列的多个关键操作行为包括：

将所述多个关键操作行为按照时间顺序排列。

10.根据权利要求2所述的系统，其特征在于，所述状态还包括用户的个人属性信息。

11.根据权利要求2所述的系统，其特征在于，所述客户端还用于展示所述奖赏值满足预设条件时所对应的候选产品。

12.根据权利要求1或2所述的系统，其特征在于，所述强化学习方法包括Q函数逼近算法。

13.一种智能推荐方法，其特征在于，包括：

14.根据权利要求13所述的方法，其特征在于，所述采用强化学习方法对所述关键操作行为进行学习处理，得到针对所述用户的产品推荐策略包括：

将预设数量的候选产品作为动作；

15.根据权利要求14所述的方法，其特征在于，所述候选产品包括关键操作行为所对应的关键操作页面的产品集，所述产品集中的产品与所述关键操作页面相关联。

16.根据权利要求13所述的方法，其特征在于，所述关键操作页面包括对预设用户行为的影响因子大于预设阈值的页面。

17.根据权利要求13所述的方法，其特征在于，所述获取用户在预设时间区间内的多个操作行为包括：

获取用户在预设时间区间内的用户行为日志；

从所述用户行为日志中获取所述用户的多个操作行为；

18.根据权利要求13所述的方法，其特征在于，所述获取用户在预设时间区间内的多个操作行为包括：

存储所述多个操作行为。

19.根据权利要求17所述的方法，其特征在于，所述针对所述多个产品类别中的特定产品类别，从所述多个操作行为中，选择与所述特定产品类别、所述多个关键操作页面相关联的基于时间顺序排列的多个关键操作行为包括：

20.根据权利要求13所述的方法，其特征在于，所述针对所述多个产品类别中的特定产品类别，从所述多个操作行为中，选择与所述特定产品类别、所述多个关键操作页面相关联的基于时间顺序排列的多个关键操作行为包括：

将所述多个关键操作行为按照时间顺序排列。

21.根据权利要求13所述的方法，其特征在于，所述针对所述多个产品类别中的特定产品类别，从所述多个操作行为中，选择与所述特定产品类别、所述多个关键操作页面相关联的基于时间顺序排列的多个关键操作行为包括：

将所述多个关键操作行为按照时间顺序排列。

22.根据权利要求14所述的方法，其特征在于，所述状态还包括用户的个人属性信息。

23.根据权利要求14所述的方法，其特征在于，在将奖赏值满足预设条件时所对应的候选产品作为产品推荐策略之后，所述方法还包括：

展示所述奖赏值满足预设条件时所对应的候选产品。

24.根据权利要求13或14所述的方法，其特征在于，所述强化学习方法包括Q函数逼近算法。