CN108230058A

CN108230058A - 产品推荐方法及系统

Info

Publication number: CN108230058A
Application number: CN201611130486.6A
Authority: CN
Inventors: 胡裕靖; 曾安祥; 笪庆; 俞凌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2018-06-29
Anticipated expiration: 2036-12-09
Also published as: CN108230058B

Abstract

本申请实施例公开了产品推荐方法及系统。所述方法包括：接收并响应于产品推荐请求，获取用户在历史产品推荐策略中的行为反馈数据；基于所述行为反馈数据，利用策略逼近算法计算得到对应于所述产品推荐请求的产品推荐策略。利用本申请方法及系统实施例，可以提高产品推荐的准确性和推荐效率。

Description

产品推荐方法及系统

技术领域

本申请涉及信息处理技术领域，特别涉及一种产品推荐方法及系统。

背景技术

近几年，产品推荐技术在各类购物应用(Application，APP)中得到广泛的应用，产品推荐技术可以根据用户的行为特征、产品本身的属性等，向用户推荐更有价值的产品，实现对用户的引导作用，增强用户选购的目的性。如今，很多购物应用的用户数量、产品数量均已达到上亿数量级，用户的行为特征以及对产品的偏好也具有丰富性与多样性。因此，要从海量产品中根据复杂的用户行为特征选取出对用户最有价值的产品，对产品推荐技术来说是一个极具挑战的技术问题。

产品推荐技术往往体现在产品的排序上，例如将产品推荐价值越高的产品放置于产品排序越靠前的位置，产品的推荐价值在于产品更加符合用户的偏好与意图。目前，针对上述技术问题，通常的产品推荐方法是在每次进行产品排序时，可以基于产品本身的维度进行学习，并回归计算得到产品的推荐价值。例如在网络购物应用中，在接收用户的产品搜索词之后，可以根据产品的点击记录、成交记录等数据构造学习样本，根据所述学习样本回归计算出向该用户推荐产品的排序。此类产品推荐方法典型的如学习排序(LTR)方法、基于上下文的学习排序(Contextual LTR)方法等。发明人经过研究发现，此类产品推荐方法存在下列技术问题：

1、相对于用户的行为特征，现有技术中的产品推荐技术比较侧重于从产品本身的维度(如上述的产品数据)学习回归得到产品的推荐价值，一定程度上忽略了用户的行为特征对产品推荐的重要作用；

2、即使有些方法(如Contextual LTR方法)能够根据用户的历史行为，给不同的用户提供不同的产品排序结果。但是，上述方法的实现过程是离散的，每进行一次产品排序，用一次用户的历史行为。因此，上述方法没有考虑到用户搜索产品的连续性，用户最终选择是否购买产品，不是由某一次的产品排序所决定，而是由连续的产品搜索、连续的用户反馈所决定。

发明内容

本申请实施例的目的在于提供一种产品推荐方法及系统，可以提高产品推荐的准确性和推荐效率。

本申请实施例提供的产品推荐方法及系统具体是这样实现的：

一种产品推荐系统，所述系统包括客户端和搜索服务器，所述客户端与所述搜索服务器相耦合，其中，

客户端，用于发送产品推荐请求；

搜索服务器，用于接收并响应于产品推荐请求，获取用户在历史产品推荐策略中的行为反馈数据；以及，用于基于所述行为反馈数据，利用策略逼近算法计算得到对应于所述产品推荐请求的产品推荐策略。

一种产品推荐方法，所述方法包括：

接收并响应于产品推荐请求，获取用户在历史产品推荐策略中的行为反馈数据；

基于所述行为反馈数据，利用策略逼近算法计算得到对应于所述产品推荐请求的产品推荐策略。

本申请提供的产品推荐方法及系统，可以根据用户在历史产品推荐策略中的行为反馈数据，利用策略逼近算法计算得到最优的产品推荐策略。相对于现有技术方法，本申请可以利用强化学习方法中的策略逼近算法解决现有技术中连续的大规模状态/动作空间的产品推荐问题。诸如但不限于：

(1)本申请利用策略逼近算法计算产品的推荐价值，更加侧重于利用用户的历史行为特征，相对于现有技术中LTR、Contextual LTR等更加侧重于从产品本身角度考虑的方法，本申请方法能够从用户的历史行为特征中学习到更加准确的用户的偏好、意图等信息，从而提高产品推荐的准确性；

(2)现有技术中的强化学习方法(如值函数估计方法)只能用于离散的动作空间中，因此，现有技术中的强化学习方法不能解决连续的大规模状态/动作空间的产品推荐问题。本申请中，利用策略逼近算法生成产品推荐策略，从策略角度对产品推荐策略进行逐步优化逼近。同时，将关于状态s的策略函数作为产品推荐策略，由于策略函数在空间中具有连续的数值空间，因此，基于策略逼近算法的产品推荐方法能够解决连续的大规模状态/动作空间的产品推荐问题，从而避免了大量的运算问题，提高产品推荐的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的用于产品推荐的示例系统100；

图2是本申请提供的MDP模型示意图；

图3是本申请提供的产品推荐方法的一种实施例的方法示意图；

图4是本申请提供的策略参数优化方法的一种实施例的方法示意图；

图5是本申请提供的策略参数优化方法的另一种实施例的方法示意图；

图6是本申请提供的神经网络结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为了方便本领域技术人员理解本申请实施例提供的技术方案，下面先对技术方案实现的技术环境进行说明。

产品推荐技术的意义在于，向用户推荐的产品，不管是通过调整产品排列顺序的方式表达，还是以筛选出目标产品的方式表达，都能够向用户推荐最有价值的产品。对于用户来说，产品的价值体现在该产品能够符合用户的偏好、意向等需求。例如，在产品推荐的应用场景中，若假设用户偏好某种产品，可以表现在用户点击浏览产品或者购买产品的行为。那么，通过产品推荐技术对产品调整排列顺序之后，用户的点击浏览产品、购买产品等行为的产生或者增多，可以反映该产品推荐技术可以满足用户的偏好、意向等需求，向用户推荐有价值的产品。因此，从用户角度来说，产品推荐技术的目标在于最大化地向用户推荐有价值的产品；从实现技术的角度，产品推荐技术的目标在于进一步地提高产品推荐的准确性。

基于上述技术环境，本申请提供了一种产品推荐系统，图1是本申请提供的用于产品推荐的示例系统100。本实施例中的产品包括但不限于任何类型的可以提供到市场，供人们消费或者使用的产品。在一些实施例中，所述产品可以包括实体的产品，如衣服、咖啡、汽车等，在其他实施例中，所述产品可以包括无形的产品，如服务、教育、游戏、虚拟资源等。所述系统100可以用于根据用户的历史行为数据，向用户推荐更加符合用户搜索目的的产品。

例如，如图1所示，本申请提供的产品推荐系统100可以包括搜索服务器110和客户端120，所述搜索服务器110与客户端120相耦合。所述产品推荐系统100可以包括一个或者多个客户端102。所述搜索服务器110可以为一个或多个服务器，也可以集成于一个服务器中。

在另一些实施例中，所述系统100还可以用于存储用户响应于推荐产品的历史行为数据，并对所述历史行为数据进行分析处理。相应地，如图1所示，所述系统100还可以包括数据分析服务器130。所述数据分析服务器130可以分别与搜索服务器110、所述客户端120耦合。同样地，所述数据分析服务器130可以分别为一个或多个服务器，也可以集成在一个服务器中。

在一些实施例中，所述客户端120可以为移动智能电话、计算机(包括笔记本电脑，台式电脑)、平板电子设备、个人数字助理(PDA)或者智能可穿戴设备等。在另外一些实施例中，所述客户端120还可以为运行于任一上述所列设备上的软件，例如支付宝客户端、手机淘宝客户端、天猫客户端等，当然，所述客户端120还可以为具有产品推荐功能的网站等。

用户可以利用不同的客户端120获取搜索服务器110提供的推荐产品，以完成本方案以下所述的一个或多个方法步骤。

下面以一个商品推荐的应用场景举例说明。当用户需要购买产品时，可以在客户端120的搜索输入框中输入一个或者多个搜索词，例如，“雪地靴”、“羽绒服”、“毛衣羊绒半高领”等。基于用户输入的搜索词，客户端120可以向搜索服务器110发送搜索请求，搜索服务器110在接收到所述搜索词后，可以根据所述搜索词从后台数据中保存的海量产品中匹配出相应的产品。搜索出来的产品一般在经过排序处理之后，才通过客户端120向用户展示。对于产品推荐的应用场景中，对产品进行排序的最终目的在于处于排序靠前的产品能够最大化地满足用户的需求，而如上所述，满足用户需求的具体表现在于用户发生点击浏览产品、购买产品等行为。

本场景中，用户的点击浏览产品、购买产品等行为可以理解为用户对排序后的产品的一种反馈，并且，用户对所推荐产品的反馈是连续的过程。若能够利用用户对推荐产品连续的反馈，对后续的产品排序产生指导作用，则在很大程度上可以提高搜索服务器110的产品推荐的准确性。不同于上述LTR方法、Contextual LTR方法，强化学习方法能够很好地利用用户对推荐产品连续的反馈，为了能更加清楚地表达强化学习在产品推荐技术中的使用方法，首先介绍强化学习的基本理论模型，马尔可夫决策过程(Markov DecisionProcess，英文缩写为MDP)。

图2是本申请提供的MDP的模型示意图，如图2所示，MDP中涉及到智能体(Agent)和环境两个交互的主体，其中，Agent为做出决策的主体，环境作为信息反馈的主体。例如在产品推荐技术的应用场景中，Agent可以被设置为作出产品推荐决策的主体对象，环境可以被设置将用户的的点击浏览产品、购买产品等行为反馈至Agent。MDP可以用一个四元组<S,A,R,T>表示，其中，

(1)S为状态空间(State Space)，可以包含Agent可能感知到的环境状态集合；

(2)A为动作空间(Action Space)，可以包含Agent在每个环境状态上可以采取的动作集合；

(3)R为奖赏函数(Rewarding Function)，R(s,a,s’)可以表示在状态s上执行动作a，并转移到状态s’时，Agent从环境中获得的奖赏；

(4)T为环境状态转移函数(State Transition Function)，T(s,a,s’)可以表示在状态s上执行动作a，并转移到状态s’的概率。

如图2所示的MDP中Agent和环境之间的交互过程，Agent感知到t时刻的环境状态为s_t，基于所述环境状态s_t，Agent可以从动作空间A中选择动作a_t执行；环境在接收Agent所选择的动作之后，给以Agent相应的奖赏信号反馈r_t+1，并转移到新的环境状态s_t+1，并等待Agent做出新的决策。在与环境的交互过程中，Agent的目标是找到一个最优策略π^*，使得π^*在任意状态s和任意时间步骤t下，都能够获得最大的长期累积奖赏，其中π^*可以被定义为公式(1)：

其中，π表示Agent的某个策略(即状态到动作的概率分布)，E_π表示策略π下的期望值，γ为折扣率(Discount Rate)，k为未来时间步骤，r_t+k表示Agent在时间步骤(t+k)上获得的即时奖赏。

基于上述MDP模型，强化学习方法在产品推荐技术中的应用可以理解为Agent为向用户提供最有价值的产品而连续作出决策控制的过程。在此过程中，Agent可以通过与环境的交互，也就是从用户对已推荐产品的反馈来获取知识，自主地生成动作决策，进行动作的选择。最终，可以找到一个适合当前状态下最优的动作选择策略，获得整个决策过程的最大累计奖赏。

毋庸置疑，现实生活中通常面临的是连续的、动态的状态空间，就如同下棋，棋手最终是否赢得胜利，是由之前的每一步走棋策略连续地决定，而不是由其中的某一步走棋策略来决定。又如在产品推荐的应用场景中，用户最终是否购买搜索到的产品，不是由某一次的产品排序所决定，而是由连续的产品搜索、连续的用户反馈所决定。

现有技术中，有些强化学习方法可以很好地解决连续状态空间的问题，例如值函数逼近方法。值函数逼近方法可以在每一个时间步骤内计算得到状态对应的每一个动作策略的值函数值，并从中选出值函数值最大的动作策略，执行相应的动作。但是，和状态空间一样，现实生活中面临的动作空间通常也是具有连续的、动态的，绝不像游戏中“上、下、左、右”如此简单的离散动作。如在产品推荐的应用场景中，智能体从数据库中搜索出上亿个与用户搜索词相匹配的产品，如果需要在毫秒级的时间内计算每一种产品排序策略对应的值函数值，并从中选出值函数值最大的排序策略，几乎是难以实现的事情。

综上，现有技术中的强化学习方法在产品推荐技术中的应用，虽然可以解决连续状态空间的问题，但是目前还没有一种强化学习方法可以解决大规模的、连续的、复杂的动作空间问题。相对于现有技术中的强化学习方法，本申请的强化学习方法可以很好地解决产品推荐技术中大规模的、连续的、复杂的动作空间问题。

下面结合附图对本申请所述的产品推荐方法进行详细的说明。图3是本申请提供的产品推荐方法的一种实施例的方法流程示意图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际中的产品推荐过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

所述搜索服务器110具体按照图3所示的产品推荐流程方法，如图3所述，该方法可以包括以下步骤：

S31：接收并响应于产品推荐请求，获取用户在历史产品推荐策略中的行为反馈数据。

如图1所示，搜索服务器110和客户端120相耦合，主要是为了获取客户端120发送的产品推荐请求。所述客户端120可以响应于预设事件，生成所述产品推荐请求。在一些实施例中，客户端120可以在用户输入搜索词并触发搜索的时刻生成所述产品推荐请求。在另外一些实施例中，客户端120可以在产品展示页面的切换、跳转的时刻生成所述产品推荐请求，本申请在此不做限制。

所述搜索服务器110可以在接收到所述产品推荐请求后，响应于所述产品推荐请求，获取用户在历史产品推荐策略中的行为反馈数据。

所述产品推荐策略可以包括产品推荐的方式，对应于MDP中的Agent所实施的动作。在一些实施例中，所述产品推荐策略可以包括产品排序策略，即将产品按照推荐价值降低的顺序排列。在另一些实施例中，所述产品推荐策略可以包括产品筛选策略，即只推荐推荐价值大于预设阈值的产品。当然，还有其他多种产品推荐的方式，本申请在此不做限制。

例如，在产品推荐技术中，所述产品推荐策略可以唯一地对应于一种产品排序。在一些实施例中，所述产品推荐策略可以包括排序参考值。所述排序参考值可以作为产品排序的参考依据，通过所述排序参考值可以计算得到产品的推荐价值。在一个典型的示例中，所述排序参考值可以包括产品属性权重向量μ＝(μ₁,μ₂,…,μ_m)，其中，μ₁,μ₂,…,μ_m分别对应着一个产品属性的权重值。所述产品属性权重值可以用于确定推荐产品在排列顺序中的次序，表示该产品属性在产品推荐中的重要性，例如，所述产品属性权重值可以包括产品人气权重值、产品点击率权重值、产品成交额权重值、店铺推荐权重值、产品促销权重值、产品品牌权重值等，由于产品属性的数量很多，因此，本申请在此对产品属性权重值也不做限制。例如，用户A经常点击浏览促销产品，那么，在理想情况下，产品促销权重值要高于其他产品属性权重值，并且，在向用户推荐的产品列表中，促销类的产品可以被展示于排序靠前的位置，这样，比较符合用户的偏好与意图。

利用所述排序参考值可以计算得到产品的推荐价值，所述推荐价值可以包括产品的排序分。例如，若产品属性权重向量为μ＝(μ₁,μ₂,…,μ₆₎，其中，μ₁-μ₆分别为产品人气权重值、产品点击率权重值、产品成交额权重值、店铺推荐权重值、产品促销权重值、产品品牌权重值。对于任意的产品i，可以用x_i＝(x_i ¹,x_i ²,…,x_i ⁶)表示产品特征分向量，其中，x_i ¹,x_i ²,…,x_i ⁶分别为产品i的产品人气特征分、产品点击率预估分、产品成交额分、店铺推荐分、产品促销分、产品品牌分。那么，产品i的排序分可以用其特征分向量x_i与产品属性权重向量μ的内积x_i ^Tμ计算得到，产品的排序分可以用于确定产品i在展示产品中的次序，排序分越高，产品的排序越靠前。

所述行为反馈数据可以包括用户在所述产品推荐策略中所实施的行为数据，可以对应于MDP中环境从Agent所执行的动作中获取的反馈。所述行为数据诸如浏览、收藏、分享、评论、交易所推荐的产品等等。在其他实施例中，所述行为数据可以包括用户对所推荐产品能够实施的任何行为数据，本申请在此不做限制。

所述行为反馈数据可以包括用户在所述产品推荐请求之前的历史产品推荐策略中的行为数据。在一些实施例中，所述历史产品推荐策略可以包括接收所述产品推荐请求之前最近一次的产品推荐策略。在另一些实施例中，所述历史产品推荐策略可以包括距离接收所述产品推荐请求时刻的预设时间段内的产品推荐策略。当然，在其他实施例中，所述历史产品推荐策略还可以包括接收所述产品推荐请求之前任意次数或者任意时间段内的产品推荐策略，本申请在此不做限制。

S32：基于所述行为反馈数据，利用策略逼近算法计算得到对应于所述产品推荐请求的产品推荐策略。

本实施例中，可以利用策略逼近算法计算得到响应于所述产品推荐请求的产品推荐策略。所述策略逼近算法可以包括策略生成部分，所述策略生成部分中包括至少一个策略优化参数。将所述行为反馈数据作为所述策略生成部分的输入数据，可以输出得到响应于所述产品推荐请求的产品推荐策略。在所述策略逼近算法中，可以不断地优化所述策略优化参数以完成对历史产品推荐策略的学习，使得输出的产品推荐策略更加准确，更加符合用户的偏好与意向。

在本申请的一个实施例中，所述利用策略逼近算法计算得到对应于所述产品推荐请求的产品推荐策略包括：

SS1：构建所述策略逼近算法的策略生成部分，所述策略生成部分包括至少一个策略优化参数；

SS2：将所述行为反馈数据作为所述策略生成部分的输入数据，计算得到对应于所述产品推荐请求的产品推荐策略。

所述策略优化参数的优化可以通过学习数据样本的方式实现，具体地，在一个实施例中，如图4所示，所述学习优化方法可以包括：

S41：构建所述策略逼近算法的参数优化部分，所述参数优化部分包括所述策略优化参数；

S42：设置所述参数优化部分的优化目标；

S43：根据所述优化目标对所述策略优化参数进行优化。

在本申请的一个实施例中，如图5所示，所述根据所述优化目标对所述策略优化参数进行优化可以包括：

S51：根据所述行为反馈数据构建数据样本；

S52：根据所述数据样本，确定所述参数优化部分在达到所述优化目标时所述策略参优化数的值；

S53：将所述策略优化参数的值更新至所述策略生成部分。

本实施例中，可以构建所述策略逼近算法的参数优化部分，并设置所述参数优化部分的优化目标，所述参数优化部分包括所述策略优化参数。以具体示例说明，所述参数优化部分可以包括奖赏函数，所述奖赏函数的计算可以依据用户对历史产品推荐策略的行为反馈数据。若所述参数优化部分为奖赏函数时，所述优化目标可以包括策略部分每一次计算得到的产品推荐策略都能够使得所述奖赏函数获得最大值。此时，确定所述奖赏函数为最大值时所对应的策略优化参数的值，将所述策略优化参数的值更新至所述策略生成部分。至此，可以完成一次对策略优化参数的优化。

在确定所述奖赏函数为最大值时所对应的策略优化参数的值的过程中，可以利用用户的所述行为反馈数据。利用所述行为反馈数据构建数据样本，具体地，可以将所述数据样本输入至所述奖赏函数，以通过所述行为反馈数据对历史产品推荐策略进行训练学习。

需要说明的是，本申请的所述参数优化部分绝不限于上述奖赏函数，对应地，所述参数优化部分的构建、所述优化目标的设置、所述数据样本的构建可以包括任何能够优化所述策略优化参数的方式，本申请在此不做限制。

另外，所述学习优化的过程可以由搜索服务器110实施。更优地，该过程可以由所述数据分析服务器130单独处理，所述数据分析服务器130可以在后台与所述搜索服务器110同步或者异步地执行上述S31-S34的实施步骤。

下面还是以产品推荐的应用场景具体说明上述实施例方法。

用户在客户端120中浏览的产品是以曝光页面(Page View，PV)以单位，一个曝光页面中可以展示预设数量的产品，在网页终端上，通常是到“下一页”指示符为止为一个曝光页面，在其他移动客户端，通常是滑动触摸屏浏览预设数量的产品为以一个曝光页面。本实施例中，从一个曝光页面跳转至下一个曝光页面的时刻，所述客户端120可以向所述搜索服务器110发送产品推荐请求。

如上所述，将所述行为反馈数据作为所述策略生成部分的输入数据，可以输出得到响应于所述产品推荐请求的产品推荐策略。例如，在本场景中，假设用户在搜索产品的过程中，倾向于点击感兴趣的产品，而较少点击不感兴趣的产品。基于该假设，可以将用户的历史产品浏览行为作为行为反馈数据的来源。在本申请的一个实施例中，所述行为反馈数据可以包括预设数量产品的特征数据，所述预设数量产品包括距离基准时刻最近被执行预设操作的产品。所述预设操作可以包括点击操作行为等。例如，可以将用户在所述产品推荐请求之前最近一次的产品推荐策略中，也就是在上一个曝光页面内所点击的产品的特征数据作为行为反馈数据，或者，将用户在距离所述产品推荐请求的预设时间段内所点击产品的特征数据作为所述用户状态数据，本申请在此不作限制。在此场景中，所述行为反馈数据的公式可以包括：

其中，n为用户历史点击产品的个数，k为产品的特征数，对于任意产品i，为产品i的第j个特征。

在一个典型的示例中，可以将用户在距离发送产品推荐请求最近点击的6个产品的特征数据作为行为反馈数据，例如，所述产品的特征数据可以包括产品价格、产品转化率、产品销量、产品收藏数等。因此，可以给出一个行为反馈数据的示例为s＝(产品1的价格，产品1的销量，产品1的转化率，产品2的价格，…，产品5的转化率，产品6的价格，产品6的销量，产品6的转化率)。需要说明的是，本实施例中选取的产品的个数、产品的特征数据绝不限于上述举例。

进一步地，由于用户的年龄段、购买能力、性别等个性产品与用户的偏好、意图紧密联系，因此，可以在行为反馈数据中体现出用户个人属性。具体地，可以在所述行为反馈数据中添加用户的个性特征数据，例如，所述个性特征数据可以包括用户稳定的长期特征。此时，所述行为反馈数据的公式可以包括：

其中，u₁,u₂,……,u_l可以表示用户的个性特征数据，例如用户的性别、年龄、购买力，产品偏好、店铺偏好等特征数据。可以给出行为反馈数据的另一个示例为s＝(产品1的价格，产品1的销量，产品1的转化率，产品2的价格，…，产品5的转化率，产品6的价格，产品6的销量，产品6的转化率，男，26，购买力强，爱好骑行装备)。需要说明的是，由于上述各个特征之间的尺度不相同，在进行计算的时候，可以将具体的计算维度进行归一化处理之后，再做后续处理。

如上所述，将所述行为反馈数据(如产品的特征数据)作为策略逼近算法的输入数据，那么，所述产品推荐策略(如排序参考值)即为所述策略逼近算法的输出数据。通过所述策略逼近算法，可以在所述行为反馈数据和所述产品推荐策略之间形成一一映射的对应关系。

在将策略逼近算法应用在产品推荐技术的过程中，首先构建所述策略逼近算法的策略生成部分。例如，若将任意的行为反馈数据s(如产品的特征数据)输入至参数化的策略生成部分，输出的产品推荐策略(如排序参考值)可以为：

其中，μ_θ(s)为关于参数θ、s的策略函数，θ＝(θ₁,θ₂,……,θ_m)为所述策略函数的策略优化参数向量，m为排序参考值中参数(如产品属性)的个数，对于任意i(1≤i≤m)，μ_θ ⁱ(s)为排序参考值中第i个参数的值(如产品属性权重值)，具体地有：

其中，φ(s)为行为反馈数据s(如产品的特征数据)的特征向量，θ₁,θ₂,……,θ_m均为长度与φ(s)相等的向量，C_i为排序参考值中第i个参考值(如产品属性权重值)的常数系数，用来对排序参考值量级进行控制(不同维度的排序权重分会有不同的量级，例如，产品的人气权重分一般是10⁶数量级，那么其对应的C_i＝10⁶)。

上述公式(1)和(2)构成了策略逼近算法的策略部分，将行为反馈数据(如产品的特征数据)作为输入数据，可以根据公式(2)计算得到相应的产品推荐策略(如排序参考值)的表达式(1)。根据公式(1)和(2)的特征，可以发现，在计算产品推荐策略的过程中，计算次数与排序参考值中参数的个数相匹配。排序参考值中参数的个数一般是有限数量，那么产品推荐策略的计算量也是相当有限的，相对于现有技术中值函数逼近算法，本申请的策略逼近算法计算次数有限，处理效率高。

在构建所述策略逼近算法的策略生成部分之后，接着可以构建所述策略逼近算法的参数优化部分，所述参数优化部分主要是为了优化策略优化参数向量θ＝(θ₁,θ₂,……,θ_m)。如上所述，本实施例中，可以将所述参数优化部分设置为奖赏函数，所述奖赏函数的公式可以为：

其中，ρ^μ为带折扣的状态分布函数，例如，如果状态(如行为反馈数据)s＝(产品1的价格，产品1的销量，产品1的转化率，产品2的价格，…，产品5的转化率，产品6的价格，产品6的销量，产品6的转化率，男，26，购买力强，爱好骑行装备)，那么ρ^μ(s)表示状态s在参数优化学习过程中被访问的概率；p₀为初始时刻状态概率分布函数，p₀(s)表示参数优化学习开始时刻状态s出现的概率；T为环境的状态转移函数，T(s,a,s’)表示在状态s下执行产品推荐策略a，环境转移到状态s’的概率。

显然，为了能够最大化J(μ_θ)，可以计算J(μ_θ)关于策略优化参数向量θ的梯度，让θ在梯度方向将J(μ_θ)最大化方向上优化、更新。根据策略梯度定理，J(μ_θ)关于θ的梯度公式可以为：

其中，为策略函数μ_θ(s)关于θ的梯度；Q^μ(s,a)为状态-动作对(s,a)的长期累积奖赏，即在状态s(如行为反馈数据)中执行动作a(如产品推荐策略)时，在之后的学习优化过程中产生奖赏的累积值；为Q^μ(s,a)关于μ_θ(s)的梯度；符号E代表求期望值。

因此，参数θ的更新公式可以表达为：

公式(5)为更新策略优化参数向量θ的方法，其中，θ_t和θ_t+1分别表示更新前和更新后的θ值，α_θ为更新θ的步长。在公式(5)中，▽_θμ_θ(s)雅克比矩阵，能够比较容易地计算出来，但是对于Q^μ(s,a)及其梯度的计算，由于状态s和动作a都是连续的数值，因此无法精确计算Q^μ(s,a)。

在一个实施例中，可以通过值函数估计方法对Q^μ(s,a)进行近似计算，例如可以采用深度神经网络作为估计器对Q^μ(s,a)进行学习，如图6所示的神经网络结构图，可以采用的神经网络以用户的搜索词、性别、年龄、购买力等特征作为输入，中间依次经过全联接层0、正切激活函数层、全联接层1和修正线性激活函数层进行运算(前一层的输出作为后面一层的输入)，将最后一层的输出作为整个神经网络的输出，也即μ_θ(s)。

利用参数化的函数Q^w(s,a)代表Q^μ(s,a)的估计值，w为神经网络的权重参数。利用深度Q学习算法，对于样本(s_t,a_t,r_t,s_t+1)，w的更新方式如下：

δ_t+1＝r_t+γQ^w(s_t+1,μ_θ(s_t+1))-Q^w(s_t,a_t) (6)

其中，δ_t+1为差分误差值，α_ω为w的更新步长，s_t、a_t、r_t、s_t+1为t时刻的状态(行为反馈数据)、t时刻的动作(如产品推荐策略)、奖赏反馈和在(t+1)时刻的状态(行为反馈数据)；μ_θ(s_t+1)为状态s_t+1下根据策略函数μ_θ得到的产品推荐策略(并非需要实际执行)；w_t和w_t+1分别是更新前和更新后的w值；为Q^w(s,a)关于w的梯度。

通过公式(6)和(7)可以不断地更新迭代求出w，直至差分误差值δ_t+1逐步收敛。可以将δ_t+1收敛时对应的Q^w(s,a)代替Q^μ(s,a)，从而根据公式(5)计算得到优化后的策略优化参数向量θ_t+1。

至此，从公式(3)-(7)可以完成对策略优化参数向量的优化。在对策略优化参数向量进行优化之后，可以利用公式(1)、(2)计算得到产品推荐策略(如产品属性权重向量)。例如，可以利用计算得到的产品属性权重向量μ以及产品i的特征分向量x_i的内积x_i ^Tμ计算得到任意产品i的排序分。在一个场景中，根据用户输入的搜索词“羽绒服”可以从后台产品库中匹配得到2万件产品，利用x_i ^Tμ分别计算2万件产品中每个产品的排序分之后，可以将所述2万件产品按照排序分从大到小的顺序排列，并将排序后的2万件产品展示给用户。

在产品推荐中，可以利用用户行为反馈数据对公式(3)所示的奖赏函数进行优化学习，将奖赏函数中的参数向量θ逐步优化，使得参数向量θ的数值随着用户的偏好、意图等信息的改变而逐步优化，直至收敛稳定。利用优化后的参数向量θ代入至公式(1)所示的策略函数中，即可计算得到优化后的产品属性权重向量。根据优化后的产品属性权重向量，可以向用户推荐与搜索词匹配的更加符合用户偏好、意图的产品。根据公式(2)可以发现，策略函数中每个参数的值在数值空间中都是连续的，相应地，计算得到的每个产品的排序分在数值空间中也是连续的。利用策略逼近算法代替值函数逼近方法，可以避免连续状态动作空间中每个状态动作对的Q值的海量计算，快速获取每个产品的排序分，提高推荐效率。

公式(3)中所采用的奖赏函数仅基于用户在每一个曝光页面中的点击、成交行为反馈来构建。然而，在很多购物APP中大规模应用的场景中，很难在短时间内观察到不同的排序策略在点击和成交这样的宏观指标上的差别。因此，长期累积奖赏关于不同策略优化参数的梯度并无明显区别，导致学习算法收敛缓慢。因此，有必要在奖赏函数中引入更多的信息，增大不同动作的区分度。

在进行强化学习的同时，经过利用Pointwise LTR进行了一些的对比实验，可以发现Pointwise LTR这种直接在商品特征上进行学习的方式在求取策略梯度的时候，能够将不同排序策略更为显著地区分开。因此，本实施例中，可以将商品的一些属性特征加入到奖赏函数的定义中，通过奖赏塑形的方法丰富其包含的信息量。

奖赏塑形主要是在原有的奖赏函数中引入一些先验的知识，加速强化学习算法的收敛。本实施例中，可以将“在状态s上选择动作a，并转移到状态s’”的奖赏值定义为

R(s,a,s')＝R₀(s,a,s')+Φ(s) (8)

其中，R₀(s,a,s’)为原始定义的奖赏函数，Φ(s)为包含先验知识的函数，也被称为势函数。在此，可以把势函数Φ(s)理解为学习过程中的Φ(s)子目标。

本实施例中，可以将每个状态所对应曝光页面的产品信息添加至奖赏函数的定义中，将势函数Φ(s)定义为：

其中，K为状态s对应曝光页面中商品的个数，i表示的第i个商品，μ_θ(s)为Agent在状态s执行的动作策略，L(i|μ_θ(s))表示排序策略为μ_θ时商品的点击(或成交)的似然值。因此，Φ(s)也就表示在状态s上执行动作μ_θ(s)时，PV中所有商品能够被点击(或购买)的似然概率之和。

本实施例中，可以将用户反馈行为所关联的产品信息添加至奖赏函数中，对奖赏函数进行修正、优化，可以增大不同动作的区分度，加快学习算法的收敛速度。

本申请另外还提供一种产品推荐系统，所述系统可以包括客户端和搜索服务器，所述客户端与所述搜索服务器相耦合，其中，

客户端，用于发送产品推荐请求；

可选的，在本申请的一个实施例中，所述利用策略逼近算法计算得到对应于所述产品推荐请求的产品推荐策略可以包括：

构建所述策略逼近算法的策略生成部分，所述策略生成部分包括至少一个策略优化参数；

将所述行为反馈数据作为所述策略生成部分的输入数据，计算得到对应于所述产品推荐请求的产品推荐策略。

可选的，在本申请的一个实施例中，所述系统还可以包括：

数据分析服务器，用于构建所述策略逼近算法的参数优化部分，所述参数优化部分包括所述策略优化参数；以及，用于设置所述参数优化部分的优化目标；以及，用于根据所述优化目标对所述策略优化参数进行优化。

可选的，在本申请的一个实施例中，所述根据所述优化目标对所述策略优化参数进行优化可以包括：

根据所述行为反馈数据构建数据样本；

根据所述数据样本，确定所述参数优化部分在达到所述优化目标时所述策略参优化数的值；

将所述策略优化参数的值更新至所述策略生成部分。

可选的，在本申请的一个实施例中，所述行为反馈数据可以包括预设数量产品的特征数据，所述预设数量产品包括距离基准时刻最近被执行预设操作的产品。

可选的，在本申请的一个实施例中，所述行为反馈数据还可以包括用户的个人属性信息。

可选的，在本申请的一个实施例中，所述产品推荐策略可以包括产品属性权重向量，所述产品属性权重向量用于确定推荐产品在排列顺序中的次序。

可选的，在本申请的一个实施例中，所述客户端还可以用于按照所述次序展示所述推荐产品。

尽管本申请内容中提到实施例中的产品推荐请求、行为反馈数据、策略逼近算法、产品推荐策略等之类的数据反馈、处理描述，但是，本申请并不局限于必须是完全符合行业编程语言设计标准或实施例所描述的数据反馈、处理的情况。在某些实施例描述的基础上略加修改后的实施方案也可以实行上述实施例相同、等同或相近、或变形后可预料的实施效果。当然，即使不采用上数据处理、判断的方式，只要符合本申请上述各实施例的数据统计、产品交互和产品判断反馈方式，仍然可以实现相同的申请，在此不再赘述。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种产品推荐系统，其特征在于，所述系统包括客户端和搜索服务器，所述客户端与所述搜索服务器相耦合，其中，

客户端，用于发送产品推荐请求；

2.根据权利要求1所述的系统，其特征在于，所述利用策略逼近算法计算得到对应于所述产品推荐请求的产品推荐策略包括：

3.根据权利要求2所述的系统，其特征在于，所述系统还包括：

4.根据权利要求3所述的系统，其特征在于，所述根据所述优化目标对所述策略优化参数进行优化包括：

根据所述行为反馈数据构建数据样本；

将所述策略优化参数的值更新至所述策略生成部分。

5.根据权利要求1所述的系统，其特征在于，所述行为反馈数据包括预设数量产品的特征数据，所述预设数量产品包括距离基准时刻最近被执行预设操作的产品。

6.根据权利要求5所述的系统，其特征在于，所述行为反馈数据还包括用户的个人属性信息。

7.根据权利要求1所述的系统，其特征在于，所述产品推荐策略包括产品属性权重向量，所述产品属性权重向量用于确定推荐产品在排列顺序中的次序。

8.根据权利要求7所述的系统，其特征在于，所述客户端还用于按照所述次序展示所述推荐产品。

9.一种产品推荐方法，其特征在于，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述利用策略逼近算法计算得到对应于所述产品推荐请求的产品推荐策略包括：

11.根据权利要求10所述的方法，其特征在于，在计算得到响应于所述产品推荐请求的产品推荐策略之后，所述方法还包括：

构建所述策略逼近算法的参数优化部分，所述参数优化部分包括所述策略优化参数；

设置所述参数优化部分的优化目标；

根据所述优化目标对所述策略优化参数进行优化。

12.根据权利要求11所述的方法，其特征在于，所述根据所述优化目标对所述策略优化参数进行优化包括：

根据所述行为反馈数据构建数据样本；

将所述策略优化参数的值更新至所述策略生成部分。

13.根据权利要求9所述的方法，其特征在于，所述行为反馈数据包括预设数量产品的特征数据，所述预设数量产品包括距离基准时刻最近被执行预设操作的产品。

14.根据权利要求13所述的方法，其特征在于，所述行为反馈数据还包括用户的个人属性信息。

15.根据权利要求9所述的方法，其特征在于，所述产品推荐策略包括产品属性权重向量，所述产品属性权重向量用于确定推荐产品在排列顺序中的次序。

16.根据权利要求15所述的方法，其特征在于，在所述利用策略逼近算法计算得到对应于所述产品推荐请求的产品推荐策略之后，所述方法还包括：

按照所述次序展示所述推荐产品。