CN111651679A

CN111651679A - 基于强化学习的推荐方法及装置

Info

Publication number: CN111651679A
Application number: CN202010655207.8A
Authority: CN
Inventors: 张祺深
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-09-11
Anticipated expiration: 2040-07-09
Also published as: CN111651679B

Abstract

本说明书实施例提供了一种基于强化学习的推荐方法及装置。在该推荐方法中，响应于用户针对连续推荐场景的推荐请求，按照以下方式为用户进行连续推荐，直至结束推荐：获取用户的当前状态信息；使用推荐模型和当前状态信息并根据强化学习算法来确定下一批推荐内容；以及向用户推送所述下一批推荐内容，其中，下一批推荐内容作为连续推荐中的下一推荐过程的当前推荐内容，其中，强化学习算法的动作序列包括基于用户反馈行为的推荐内容序列，强化学习算法的环境状态包括用户的状态信息，强化学习算法的回报包括基于用户反馈行为的业务反馈信息。

Description

基于强化学习的推荐方法及装置

技术领域

本说明书实施例涉及机器学习技术领域，具体地，涉及一种基于强化学习的推荐方法及装置。

背景技术

网络的普及给用户带来了大量的信息，满足了用户对信息的需求，但随着网络上信息的大幅增长，对于用户来说，这些信息中可能仅有小部分是需要的信息，很难从大量的信息中获取到所需的信息，这样就导致了信息超载的问题。为了解决信息超载的问题，推荐系统应运而生，推荐系统可以根据用户的需求给用户推荐感兴趣的信息、商品等。

推荐系统已应用于电子商务、影视推荐、音乐电台推荐、社交网络、个性化阅读、个性化广告等领域中。推荐系统可以分为一次性推荐和连续推荐，在一次性推荐中，用户每请求一次推荐系统仅推荐一次，比如，当用户点击喜欢的电影时，推荐系统会为该用户推荐一组(比如10部)类似的电影。在连续推荐中，推荐系统自动地为用户进行连续推荐，比如用户阅览下滑页面时，用户连续地下滑的同时推荐系统连续地在下滑页面中展示推荐内容。

发明内容

鉴于上述，本说明书实施例提供了一种基于强化学习的推荐方法及装置。该推荐方法用于连续推荐场景，在连续推荐的每个推荐过程中，首先获取用户的当前状态信息，然后使用推荐模型和当前状态信息并根据强化学习算法来确定下一批推荐内容，所确定的下一批推荐内容即为下一推荐过程的当前推荐内容。上述基于强化学习的推荐方法所确定的下一批推荐内容除了用户的当前状态信息的因素以外，还考虑了连续推荐过程中动作序列的影响因素，使得所确定的下一推荐内容的累积回报最大，进而达到更佳的推荐效果。

根据本说明书实施例的一个方面，提供了一种基于强化学习的推荐方法，包括：响应于用户针对连续推荐场景的推荐请求，按照以下方式为所述用户进行连续推荐，直至结束推荐：获取所述用户的当前状态信息；使用推荐模型和所述当前状态信息并根据强化学习算法来确定下一批推荐内容；以及向所述用户推送所述下一批推荐内容，其中，所述下一批推荐内容作为所述连续推荐中的下一推荐过程的当前推荐内容，其中，所述强化学习算法的动作序列包括基于用户反馈行为的推荐内容序列，所述强化学习算法的环境状态包括所述用户的状态信息，所述强化学习算法的回报包括基于用户反馈行为的业务反馈信息。

可选地，在上述方面的一个示例中，获取所述用户的当前状态信息包括：在所述连续推荐中的首次推荐时，获取所述用户的用户特征信息和/或历史行为状态信息。

可选地，在上述方面的一个示例中，获取所述用户的当前状态信息包括：在所述连续推荐中的非首次推荐时，获取当前推荐内容；以及基于所述当前推荐内容，获取所述用户的当前状态信息，其中，所述当前状态信息包括行为状态信息，所述行为状态信息表征的用户行为状态是针对所述当前推荐内容的用户反馈行为导致的。

可选地，在上述方面的一个示例中，所述当前状态信息还包括所述用户的用户特征信息和/或历史行为状态信息。

可选地，在上述方面的一个示例中，所述行为状态信息包括点击查看行为状态信息、购买行为状态信息、浏览行为状态信息和收藏行为状态信息中的至少一种。

可选地，在上述方面的一个示例中，所述业务反馈信息包括针对推荐内容的点击量信息、购买金额信息和浏览时长信息中的至少一种。

可选地，在上述方面的一个示例中，还包括：利用所述当前状态信息和当前推荐内容对所述推荐模型进行更新，以使得更新后的推荐模型应用于所述连续推荐中的下一推荐过程。

可选地，在上述方面的一个示例中，使用推荐模型和所述当前状态信息并根据强化学习算法来确定下一批推荐内容包括：使用所述推荐模型预测以所述当前状态信息表示的状态作为起始状态的推荐内容序列；确定所预测的推荐内容序列中的每一批推荐内容对应的业务反馈信息；以及利用值函数基于所预测的推荐内容序列以及所确定的业务反馈信息来确定所述下一批推荐内容，其中，所述值函数用于计算推荐内容序列对应的累积回报。

可选地，在上述方面的一个示例中，使用推荐模型和所述当前状态信息并根据强化学习算法来确定下一批推荐内容包括：使用行为预测模型、推荐模型以及所述当前状态信息并根据强化学习算法来确定下一批推荐内容，其中，所述行为预测模型用于预测针对所述当前推荐内容的用户反馈行为的概率。

可选地，在上述方面的一个示例中，所述行为预测模型预测的用户反馈行为包括点击查看行为和/或购买行为。

根据本说明书实施例的另一方面，还提供一种基于强化学习的推荐装置，包括：状态信息获取单元，响应于用户针对连续推荐场景的推荐请求，获取所述用户的当前状态信息；推荐内容确定单元，使用推荐模型和所述当前状态信息并根据强化学习算法来确定下一批推荐内容；以及推荐内容推送单元，向所述用户推送所述下一批推荐内容，其中，所述下一批推荐内容作为所述连续推荐中的下一推荐过程的当前推荐内容，其中，所述强化学习算法的动作序列包括基于用户反馈行为的推荐内容序列，所述强化学习算法的环境状态包括所述用户的状态信息，所述强化学习算法的回报包括基于用户反馈行为的业务反馈信息。

可选地，在上述方面的一个示例中，所述状态信息获取单元：在所述连续推荐中的首次推荐时，获取所述用户的用户特征信息和/或历史行为状态信息。

可选地，在上述方面的一个示例中，所述状态信息获取单元：在所述连续推荐中的非首次推荐时，获取当前推荐内容；以及基于所述当前推荐内容，获取所述用户的当前状态信息，其中，所述当前状态信息包括行为状态信息，所述行为状态信息表征的用户行为状态是针对所述当前推荐内容的用户反馈行为导致的。

可选地，在上述方面的一个示例中，还包括：推荐模型更新单元，利用所述当前状态信息和当前推荐内容对所述推荐模型进行更新，以使得更新后的推荐模型应用于所述连续推荐中的下一推荐过程。

可选地，在上述方面的一个示例中，所述推荐内容确定单元：使用所述推荐模型预测以所述当前状态信息表示的状态作为起始状态的推荐内容序列；确定所预测的推荐内容序列中的每一批推荐内容对应的业务反馈信息；以及利用值函数基于所预测的推荐内容序列以及所确定的业务反馈信息来确定所述下一批推荐内容，其中，所述值函数用于计算推荐内容序列对应的累积回报。

可选地，在上述方面的一个示例中，所述推荐内容确定单元：使用行为预测模型、推荐模型以及所述当前状态信息并根据强化学习算法来确定下一批推荐内容，其中，所述行为预测模型用于预测针对所述当前推荐内容的用户反馈行为的概率。

根据本说明书实施例的另一方面，还提供一种电子设备，包括：至少一个处理器；以及存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的基于强化学习的推荐方法。

根据本说明书实施例的另一方面，还提供一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的基于强化学习的推荐方法。

附图说明

通过参照下面的附图，可以实现对于本说明书内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了本说明书实施例提供的连续推荐的一个示例的示意图。

图2示出了本说明书实施例的上下滑动形式的连续推荐场景的一个示例的示意图。

图3示出了本说明书实施例的连续翻页形式的连续推荐场景的一个示例的示意图。

图4示出了本说明书实施例的按键切换形式的连续推荐场景的一个示例的示意图。

图5示出了本说明书实施例提供的强化学习模型的一个示例的示意图。

图6示出了本说明书实施例提供的基于强化学习的推荐方法的一个示例的示意图。

图7示出了本说明书实施例提供的基于强化学习的连续推荐过程的一个示例的示意图。

图8示出了本说明书实施例提供的使用推荐模型来预测推荐内容序列的一个示例的示意图。

图9示出了本说明书实施例的基于强化学习的推荐装置的一个示例的示意图。

图10示出了本说明书的实施例的基于强化学习的推荐方法的电子设备的方框图。

具体实施方式

以下将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

在本说明书中，连续推荐场景是推荐系统自动地连续地多次为用户推荐商品、视频等内容的场景。不同的场景中的推荐内容不同，例如，电子商务场景中的推荐内容可以是商品，新闻媒体场景中的推荐内容可以是新闻，影音娱乐场景中的推荐内容可以包括电影、短视频、音乐等。

连续推荐是由连续的多个单次推荐过程构成，一个单次推荐过程完成后紧接着下一个单次推荐过程，直至连续推荐结束。每个单次推荐过程仅进行一次推荐，输出一批推荐内容。一批推荐内容可以是一个或多个推荐内容。

图1示出了本说明书实施例提供的连续推荐的一个示例100的示意图。如图1所示的一次连续推荐过程，该连续推荐包括三个单次的推荐过程，分别为：第一次推荐、第二次推荐和第三次推荐。在连续推荐开始后，推荐系统首先为用户进行第一次推荐，输出第一批推荐内容；然后进行第二次推荐，输出第二批推荐内容；接着进行第三次推荐，输出第三批推荐内容。在推荐系统输出第三批推荐内容后，用户结束推荐，则此次的连续推荐结束。

连续推荐的推荐内容的数据形式包括多种，例如，feeds流形式，feeds流是持续更新并呈现给用户的信息流，feeds流形式的连续推荐是feeds流推荐。本说明书实施例以feeds流推荐为例进行说明。

连续推荐的操作形式可以包括连续上滑或下滑页面的连续推荐、连续翻页的连续推荐、按键切换形式的连续推荐等。

图2示出了本说明书实施例的上下滑动形式的连续推荐场景的一个示例200的示意图。如图2所示，购物平台的推荐系统为用户进行连续推荐，在连续推荐过程中，推荐页面显示为用户推荐的商品。图2中左图所示的商品是用户滑动页面之前为用户推荐的一批商品，当用户向上滑动页面时，推荐页面的下方显示为用户连续推荐的另一批商品，如图2中的右图所示，页面下方显示的“商品5-户外长裤”和“商品6-跑步鞋”是为用户连续推荐的另一批商品。当用户持续地向上滑动页面时，购物平台的推荐系统会持续地为用户推荐商品，并将所推荐的商品一批一批地依次显示在页面上。

图3示出了本说明书实施例的连续翻页形式的连续推荐场景的一个示例300的示意图。如图3所示，旅游平台的推荐系统为用户连续推荐旅游地点。图3中的左图是翻页操作之前页面显示的为用户推荐的旅游地点：贵阳、丽江和昆明，用户在左图所示的页面上向左滑动以执行翻页的操作，翻页操作的过程如图3中的中间图所示，在翻页操作的过程中下一批推荐内容(即，旅游地点)会逐渐地呈现出来。当翻页操作完成时，即图3中的右图所示，下一批推荐的旅游地点(内蒙古、新加坡和西班牙)会在页面上完整的呈现出来。由此，执行了一次连续推荐过程。

图4示出了本说明书实施例的按键切换形式的连续推荐场景的一个示例400的示意图。如图4所示，旅游推荐页面上的“周边热门推荐”区块部分用于为用户推荐周边热门旅游项目，在“周边热门推荐”区域有一个“换一换”的按键，按一下“换一换”，推荐系统会推荐下一批周边热门旅游项目，页面上“周边热门推荐”区域也会显示所推荐的下一批周边热门旅游项目。用户继续按该“换一换”按键，推荐系统会继续地为用户推荐周边热门旅游项目。如图4中的左图所示，在按“换一换”按键之前，“周边热门推荐”区域显示的一批周边热门旅游项目包括：石家庄的《红楼梦》拍摄地、承德的自然风光、保定的山水风光、大同的北魏辽金风情以及张北的风光美照。在按“换一换”按键之后，如图4中的右图所示，“周边热门推荐”区域显示下一批周边热门旅游项目，包括：承德的自然风光、大同的历史古建筑、保定的北方小桂林、北戴河的森林小火车以及石家庄的赵州桥。

强化学习用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。在强化学习中，智能体通过与环境进行交互获得的回报来指导动作，目标是使得智能体获得的累积回报最大，智能体的每次动作都可以从环境得到相应的回报，多个连续动作的回报之和是智能体获得的累积回报。强化学习可以用马尔可夫决策过程(Markov Decision Process，MDP)来描述。

图5示出了本说明书实施例提供的强化学习模型500的一个示例的示意图。如图5所示，智能体选择一个动作作用于环境，环境接受该动作后环境的状态发生变化，同时产生一个回报反馈给智能体，智能体根据回报和环境当前状态再选择下一个动作，选择的原则可以是使接收到的回报的概率增大。选择的动作不仅影响当前的立即回报，而且影响环境下一时刻的状态以及最终的累积回报。

在本说明书中，强化学习的智能体可以包括推荐模型，环境可以包括用户，动作行为可以包括推荐内容，环境的状态可以包括用户的状态信息，智能体从环境接收到的回报可以包括用户反馈行为的业务反馈信息，比如，点击量、购买金额等。

下面结合图6-8对本说明书实施例提供的基于强化学习的推荐方法进行说明。图6示出了本说明书实施例提供的基于强化学习的推荐方法600的一个示例的示意图。

如图6所示，在块610，获取用户针对连续推荐场景的推荐请求。

针对连续推荐场景的推荐请求可以包括多种请求形式，可以是当用户进入连续推荐场景的页面时即生成对应的推荐请求，比如，当用户进入淘宝页面时，触发生成推荐请求，淘宝的推荐系统开始为用户进行推荐。还可以是预设的针对连续推荐场景的按键，当用户点击该按键时生成对应的推荐请求。比如，当用户进入连续推荐场景的页面时，不会生成推荐请求，页面也不会显示推荐内容。当用户点击页面上的开始推荐按键时，生成推荐请求，推荐系统开始进行连续推荐，此时页面也开始显示连续推荐的推荐内容。

然后，在块620，响应于推荐请求，可以获取用户的当前状态信息。

在一个示例中，响应于推荐请求，开始进行连续推荐，第一次进行的单次推荐过程是连续推荐的首次推荐，在首次推荐之前，针对该推荐请求的连续推荐还未推送推荐内容。

在首次推荐时，可以获取用户的用户特征信息和/或历史行为状态信息。其中，用户特征信息可以包括用户年龄、性别、职业、居住地等信息，历史行为状态信息可以包括用户的喜好、历史浏览的商品信息、历史购买的商品信息、针对商品的收藏信息等。

在该示例中，首次推荐的推荐内容可以是根据用户特征信息和/或历史行为状态信息来确定的。例如，当获取的用户特征信息包括：男性、23岁、职业是健身教练、居住地在北京，则针对该用户的连续推荐中，首次推荐的推荐内容可以包括健身器材、体育用品、健身营养品等，并且所推荐商品的发货地/购买地会优先推荐北京地区。

又例如，当获取的用户的历史行为状态信息包括：购买过侦探推理类书籍、收藏了密室逃脱营业场所地址、浏览过密室逃脱攻略文章等，则针对该用户的连续推荐中，首次推荐的推荐内容可以包括侦探推理类书籍、悬疑类书籍、益智冒险类游戏、密室逃脱营业商户等。

在另一个示例中，在连续推荐中除首次推荐以外的其他单次推荐过程都属于非首次推荐，比如，首次推荐之后的第二次推荐、第三次推荐等都属于非首次推荐，在非首次推荐中，推荐系统已向用户推送过推荐内容，因此存在当前推荐内容，此时，响应于推荐请求时可以获取当前推荐内容。当前推荐内容是推荐系统已输出的并当前显示给用户的推荐内容。以图3的左图为例，左图中的当前推荐内容是舟山和北海。

然后，可以基于所获取的当前推荐内容来获取用户的当前状态信息，该当前状态信息可以包括用户的行为状态信息，行为状态信息可以表征用户行为状态，行为状态信息所表征的用户行为状态是针对当前推荐内容的用户反馈行为导致的。

用户反馈行为可以包括购买行为、点击查看行为、浏览行为、收藏行为等。相应地，用户行为状态可以包括针对推荐内容的购买行为状态、点击查看行为状态、浏览行为状态、收藏行为状态等。

例如，当前推荐内容包括杠铃、跑步机、服装和书籍，用户购买了该杠铃，还点击查看了跑步机，则针对当前推荐内容的用户行为状态包括购买杠铃和点击查看跑步机。

行为状态信息可以包括点击查看行为状态信息、购买行为状态信息、浏览行为状态信息和收藏行为状态信息等中的至少一种。每一种行为状态信息可以表征对应的用户行为状态，还可以量化对应的用户行为状态。

例如，用于表征购买行为状态的购买行为状态信息可以包括购买的商品信息、购买金额信息和购买次数信息等。用于表征点击查看行为状态的点击查看行为状态信息可以包括商品点击的次数、点击查看的时间信息等，用于表征浏览行为状态的浏览行为状态信息可以包括浏览的商品信息、浏览时长等，用于表征收藏行为状态的收藏行为状态信息可以包括收藏的商品信息、收藏的时间、收藏的优先级别等。

通过利用行为状态信息来量化针对当前推荐内容的用户行为状态，从而可以反映出用户对各个推荐内容的感兴趣程度。

例如，针对同一商品的购买次数越多，表示用户对该商品或同一类型商品的兴趣越大。又例如，针对户外露营商品点击查看的次数较多，且大部分集中在周末时间，则表示该用户在周末时间段对户外露营商品更感兴趣。又例如，商品收藏的时间越新，表示用户当前对该商品的兴趣越大。

当前状态信息除了包括上述的行为状态信息以外，还可以包括用户的用户特征信息和/或历史行为状态信息。此时，可以基于行为状态信息以及用户特征信息和/或历史行为状态信息共同来确定下一批推荐内容。例如，在当前状态信息包括行为状态信息、用户特征信息以及历史行为状态信息时，行为状态信息、用户特征信息以及历史行为状态信息都会对下一批推荐内容的确定产生影响。

若当前状态信息包括有多种信息时，可以为每种信息设置对应的影响力权重，每种信息的影响力权重用于表示该信息对于确定下一批推荐内容的影响程度，影响程度越高，相应地影响力权重会越大。

例如，当前状态信息包括行为状态信息、用户特征信息和历史行为状态信息，其中，行为状态信息在确定推荐内容时的影响最大，历史行为状态次之，用户特征信息最小，则相应地在当前状态信息行为中，行为状态信息的影响力权重最大，历史行为状态的影响力权重次之，用户特征信息的影响力权重最小。

在一个示例中，若获取当前状态信息时是连续推荐中的非首次推荐，即存在当前推荐内容，用户基于当前推荐内容作出的用户反馈行为还可以包括退出操作，所获取的当前状态信息表示退出当前推荐。此时，结束针对该用户的连续推荐。

接着，在块630，可以使用推荐模型和所获取的当前状态信息并根据强化学习算法来确定下一批推荐内容。其中，推荐模型可以是经过训练的模型，这样在基于强化学习的连续推荐过程中可以提高推荐效率以及推荐效果。

在本说明书中，强化学习算法的动作可以包括推荐内容，动作序列可以包括基于用户反馈行为的推荐内容序列。多个连续地动作可以构成动作序列，连续的多批推荐内容可以构成一个推荐内容序列，一个推荐内容序列可以是连续推荐中的一种推荐策略。

图7示出了本说明书实施例提供的基于强化学习的连续推荐过程700的一个示例的示意图。如图7所示，推荐内容1、推荐内容2、…等构成了一个推荐内容序列，即图7所示的为一种推荐策略。

强化学习算法的环境状态可以包括用户的状态信息，这里的状态信息是上述的用户的当前状态信息。也就是说，在每个单次推荐过程中，可以将所获取的用户的当前状态信息作为强化学习算法中的环境状态。

强化学习中的每一个动作可以影响连续推荐中后续的环境状态和回报，环境状态的变化也可以影响下一个动作。在本说明书中，在单次推荐过程中，每一批推荐内容是基于用户的当前状态信息确定的，在非首次推荐的单次推荐过程中，用户的行为状态信息是基于当前推荐内容得到的。

强化学习算法的回报可以包括基于用户反馈行为的业务反馈信息，业务反馈信息可以包括针对推荐内容的点击量信息、购买金额信息和浏览时长信息等中的至少一种。在每个单次推荐过程中都可以产生相应的回报，在同一连续推荐中，不同的单次推荐过程产生的回报可以不同。

例如，业务反馈信息是点击量，针对当前推荐内容，用户对当前推荐内容中的商品a点击了3次，对商品b点击了2次，则针对当前推荐内容的回报包括：商品a对应的3次点击量，以及商品b对应的2次点击量。

强化学习算法可以用于优化设定的长期业务目标，长期业务目标可以用于寻找连续推荐中的最佳推荐策略，最佳推荐策略是能够使得累积回报最大化的动作序列。

以图7为例，图7所示的一组动作序列为：推荐内容1、推荐内容2、…，该组动作序列对应的累积回报包括回报1、回报2……等所有的回报，相对于其他动作序列对应的累积回报，该组动作序列的累积回报最大，则可以确定图7所示的动作序列是当前最佳推荐策略。

不同的连续推荐所设定的长期业务目标可以不同，例如，淘宝的推荐系统所设定的长期业务目标可以是购买金额最大化，大众点评的推荐系统所设定的长期业务目标可以是点击量最大化。

强化学习算法的长期业务目标可以是指定期间内的累积回报最大，指定期间可以是一次连续推荐的完整过程，一次连续推荐的完整过程是从推荐开始到结束，比如图1所示的连续推荐为一次完整的过程。指定期间还可以是指定时长，比如，一个月，此时的长期业务目标是一个月内的累积回报最大。

业务反馈信息可以是根据强化学习中设定的长期业务目标来确定的。当长期业务目标是针对点击量时，业务反馈信息包括点击量信息；当长期业务目标是购买金额时，业务反馈信息包括购买金额信息；当长期业务目标是浏览时长时，业务反馈信息包括浏览时长信息。

在一个示例中，针对连续推荐中的单次推荐过程，可以将当前状态信息输入至推荐模型，使用推荐模型来预测以当前状态信息所表征的状态作为起始状态的推荐内容序列。

对于所获取的当前状态信息，使用推荐模型可以预测出针对该当前状态信息的推荐内容，然后，可以根据该推荐内容来确定用户反馈行为。其中，可以通过模型预测的方式来确定用户反馈行为，预测的模型可以是推荐模型，还可以是其他经过训练的行为预测模型，该行为预测模型用于根据推荐内容来预测用户反馈行为。此时，所确定的针对该推荐内容的用户反馈行为可以包括多种行为，然后以此类推，直至满足结束条件。结束条件可以是指定的迭代次数，还可以是用户执行的退出操作等。

在使用推荐模型的预测过程中，可以预测出多个推荐内容序列，不同的推荐内容序列对应的累积回报可以不同。再将累积回报最大的一个推荐内容序列确定为最佳推荐策略。

图8示出了本说明书实施例提供的使用推荐模型来预测推荐内容序列的一个示例800的示意图。如图8所示，使用推荐模型可以预测出针对当前状态信息的推荐内容1，针对该推荐内容1可以预测出两种用户反馈行为：购买和点击查看。针对点击查看行为，当用户针对推荐内容1实施点击查看行为时，用户的行为状态发生变化，基于变化后的行为状态推荐模型预测出推荐内容2，然后结束。

针对购买行为，推荐模型可以预测出购买行为状态的推荐内容3，然后，针对推荐内容3可以确定两种用户反馈行为：点击查看和浏览。针对点击查看行为，可以继续预测出推荐内容4，然后继续确定出针对推荐内容4的用户反馈行为是购买行为，再针对购买行为预测出推荐内容6，然后结束。针对浏览行为，可以继续预测出推荐内容5，然后结束。图8中的结束可以是达到长期业务目标的指定期间，还可以是基于推荐内容预测的退出操作。例如，当基于推荐内容预测的退出操作的概率大于指定概率阈值时，则可以确定当前连续推荐结束。

在上述图8示出的推荐过程中，可以得到三组推荐内容序列，第一组推荐内容序列包括推荐内容1和推荐内容2，第二组推荐内容序列包括推荐内容1、推荐内容3、推荐内容4和推荐内容6，第三组推荐内容序列包括推荐内容1、推荐内容3和推荐内容5。

针对推荐模型输出的每一批推荐内容，用户执行的用户反馈行为可以相应地产生该批推荐内容对应的业务反馈信息，即回报。

以图8为例，若用户反馈信息是点击量，点击查看行为得到的点击量是1，购买行为的点击量是3，浏览行为的点击量是0，则第一组推荐内容序列得到的点击量是1。第二组推荐内容序列中每一批推荐内容对应的点击量分别是：3、1和3，则第二组推荐内容序列对应的总点击量是7。第三组推荐内容序列中仅推荐内容1对应的点击量是3，推荐内容3对应的点击量是0，则第三组推荐内容序列对应的总点击量是3。

在预测出推荐内容序列以及确定出业务反馈信息后，可以将推荐内容序列中的各个推荐内容以及对应的业务反馈信息代入值函数中，值函数可以用于计算推荐内容序列对应的累积回报。由此，可以利用值函数来确定下一批推荐内容。

值函数至少包括两种形式的函数：指定迭代次数的值函数和折扣率值函数。指定迭代次数的值函数如下所示：

其中，T表示指定迭代次数，x表示当前状态信息所表示的当前环境状态，V_T(x)表示推荐内容序列从状态x出发在指定迭代次数内的平均累积回报，r_t表示第t次迭代过程中得到的回报。

折扣率值函数如下所示：

其中，γ表示折扣率，V_γ(x)表示基于折扣率得到的推荐内容序列从状态x出发对应的累积回报，γ^tr_t+1表示第(t+1)次迭代过程中得到的回报。其中，折扣率是大于0小于1的值，折扣率可以是指定的，比如，设定折扣率γ为0.9。

利用一种值函数来计算每组推荐内容序列对应的累积回报，将其中累积回报最大的推荐内容序列作为最佳推荐策略，并将该推荐内容序列中的第一批推荐内容确定为推送给用户的下一批推荐内容。

对于指定迭代次数的值函数和折扣率值函数来说，可以从值函数的初始值V₀出发，通过一次迭代能计算出每个状态的单步回报V₁，进而从单步回报出发，通过一次迭代计算出两步累积回报V₂，……依此类推。

其中，指定迭代次数的值函数迭代T次就能计算出V_T。对于折扣率值函数来说，随着t越大，折扣率γ^t越小。因此，可以设置一个结束阈值，在一个示例中，当执行一次迭代后值函数的改变小于该结束阈值，则结束。在另一个示例中，当单步回报γ^tr_t+1小于结束阈值时，则结束。

以图8为例，利用折扣率值函数来计算各个推荐内容序列对应的累积回报，第一组推荐内容序列对应的累积回报为：

第二组推荐内容序列对应的累积回报为：

第三组推荐内容序列对应的累积回报为：

由此可以确定出第二组推荐内容序列的累积回报最大，则可以将第二组推荐内容序列作为以状态x出发的最佳推荐策略，第二组推荐内容序列中的推荐内容1作为下一批推荐内容。

在一个示例中，在确定下一批推荐内容的过程中可以使用经过训练的行为预测模型，行为预测模型可以用于预测针对当前推荐内容的用户反馈行为的概率。行为预测模型预测的用户反馈行为可以是指定反馈行为，该指定反馈行为可以包括与强化学习的长期业务目标相关的反馈行为，例如，指定反馈行为可以包括点击查看行为和/或购买行为。当长期业务目标是点击量时，指定反馈行为可以包括点击查看行为，当长期业务目标是购买金额时，指定反馈行为可以包括购买行为。

在确定下一批推荐内容的过程中，对于每一次迭代，使用行为预测模型来预测针对当前推荐内容的用户反馈行为的概率，然后在值函数的计算时将用户反馈行为的概率值作为一个计算因子。

具体地，基于用户反馈行为的概率值的指定迭代次数的值函数如下所示：

其中，a表示指定反馈行为，P_a表示用户反馈行为的概率。

基于用户反馈行为的概率值的折扣率值函数如下所示：

以图8为例，用户反馈行为是购买行为，使用行为预测模型来预测出的针对推荐内容1的购买行为的概率P₁是0.7，针对推荐内容4的购买行为的概率P₂是0.6，则第二组推荐内容序列对应的累积回报为：

在一个示例中，在每个单次推荐过程中，在获取到用户的当前状态信息以及当前推荐内容后，可以利用当前推荐内容和用户的当前状态信息对推荐模型进行更新，更新后的推荐模型可以应用于连续推荐中的下一推荐过程。

通过该示例，可以实现对推荐模型的实时更新，从而提高推荐模型输出的推荐内容的效率和质量。

在确定出下一批推荐内容后，在块640，可以向用户推送下一批推荐内容。在块640后，进入连续推荐中的下一推荐过程，并将下一批推荐内容作为下一推荐过程的当前推荐内容。按照这种方式进行连续推荐，直至结束推荐。

通过上述基于强化学习的推荐方法所确定的下一批推荐内容除了用户的当前状态信息的因素以外，还考虑了连续推荐过程中动作序列的影响因素，使得所确定的下一推荐内容的累积回报最大，进而达到更佳的推荐效果。

图9示出了本说明书实施例的基于强化学习的推荐装置900的一个示例的示意图。如图9所示，推荐装置900可以包括推荐请求获取单元910、状态信息获取单元920、推荐内容确定单元930和推荐内容推送单元940。

推荐请求获取单元910可以获取用户针对连续推荐场景的推荐请求。推荐请求获取单元910的操作可以参考上面参照图6描述的块610的操作。

状态信息获取单元920响应于用户针对连续推荐场景的推荐请求，获取用户的当前状态信息。状态信息获取单元920的操作可以参考上面参照图6描述的块620的操作。

在一个示例中，状态信息获取单元920可以在连续推荐中的首次推荐时，获取用户的用户特征信息和/或历史行为状态信息。

在另一个示例中，状态信息获取单元920可以在连续推荐中的非首次推荐时，获取当前推荐内容；以及基于当前推荐内容，获取用户的当前状态信息，其中，当前状态信息包括行为状态信息，行为状态信息表征的用户行为状态是针对当前推荐内容的用户反馈行为导致的。其中，当前状态信息还可以包括用户的用户特征信息和/或历史行为状态信息。行为状态信息可以包括点击查看行为状态信息、购买行为状态信息、浏览行为状态信息和收藏行为状态信息中的至少一种。

推荐内容确定单元930使用推荐模型和当前状态信息并根据强化学习算法来确定下一批推荐内容。推荐内容确定单元930的操作可以参考上面参照图6描述的块630的操作。

在一个示例中，推荐内容确定单元930可以使用推荐模型预测以当前状态信息表示的状态作为起始状态的推荐内容序列；确定所预测的推荐内容序列中的每一批推荐内容对应的业务反馈信息；以及利用值函数基于所预测的推荐内容序列以及所确定的业务反馈信息来确定下一批推荐内容，其中，值函数可以用于计算推荐内容序列对应的累积回报。

在另一个示例中，推荐内容确定单元930可以使用行为预测模型、推荐模型以及当前状态信息并根据强化学习算法来确定下一批推荐内容，其中，行为预测模型用于预测针对当前推荐内容的用户反馈行为的概率。

推荐内容推送单元940向用户推送所述下一批推荐内容，其中，下一批推荐内容作为连续推荐中的下一推荐过程的当前推荐内容，其中，强化学习算法的动作序列包括基于用户反馈行为的推荐内容序列，强化学习算法的环境状态包括用户的状态信息，强化学习算法的回报包括基于用户反馈行为的业务反馈信息。推荐内容推送单元940的操作可以参考上面参照图6描述的块640的操作。在结束推荐之前，推荐内容推送单元940可以触发状态信息获取单元920执行获取所述用户的当前状态信息的操作。

其中，业务反馈信息可以包括针对推荐内容的点击量信息、购买金额信息和浏览时长信息中的至少一种。

在一个示例中，推荐装置900还可以包括推荐模型更新单元，推荐模型更新单元可以利用当前状态信息和当前推荐内容对推荐模型进行更新，以使得更新后的推荐模型应用于连续推荐中的下一推荐过程。

以上参照图1到图9，对根据本说明书实施例的基于强化学习的推荐方法及装置的实施例进行了描述。

本说明书实施例的基于强化学习的推荐装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本说明书实施例中，基于强化学习的推荐装置例如可以利用电子设备实现。

图10示出了本说明书的实施例的基于强化学习的推荐方法的电子设备1000的方框图。

如图10所示，电子设备1000可以包括至少一个处理器1010、存储器(例如，非易失性存储器)1020、内存1030和通信接口1040，并且至少一个处理器1010、存储器1020、内存1030和通信接口1040经由总线1050连接在一起。至少一个处理器1010执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器1010：响应于用户针对连续推荐场景的推荐请求，按照以下方式为用户进行连续推荐，直至结束推荐：获取用户的当前状态信息；使用推荐模型和当前状态信息并根据强化学习算法来确定下一批推荐内容；以及向用户推送所述下一批推荐内容，其中，下一批推荐内容作为连续推荐中的下一推荐过程的当前推荐内容，其中，强化学习算法的动作序列包括基于用户反馈行为的推荐内容序列，强化学习算法的环境状态包括用户的状态信息，强化学习算法的回报包括基于用户反馈行为的业务反馈信息。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1010进行本说明书的各个实施例中以上结合图1-9描述的各种操作和功能。

根据一个实施例，提供了一种例如机器可读介质的程序产品。机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本说明书的各个实施例中以上结合图1-9描述的各种操作和功能。

具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书实施例的一部分。

本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写，包括面向对象编程语言，如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB、NET以及Python等，常规程序化编程语言如C语言、Visual Basic 2003、Perl、COBOL 2002、PHP以及ABAP，动态编程语言如Python、Ruby和Groovy，或者其他编程语言等。该程序编码可以在用户计算机上运行，或者作为独立的软件包在用户计算机上运行，或者部分在用户计算机上运行另一部分在远程计算机运行，或者全部在远程计算机或服务器上运行。在后一种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或者在云计算环境中，或者作为服务使用，比如软件即服务(SaaS)。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

以上结合附图详细描述了本说明书的实施例的可选实施方式，但是，本说明书的实施例并不限于上述实施方式中的具体细节，在本说明书的实施例的技术构思范围内，可以对本说明书的实施例的技术方案进行多种简单变型，这些简单变型均属于本说明书的实施例的保护范围。

本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说，对本说明书内容进行的各种修改是显而易见的，并且，也可以在不脱离本说明书内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本说明书内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种基于强化学习的推荐方法，包括：

响应于用户针对连续推荐场景的推荐请求，按照以下方式为所述用户进行连续推荐，直至结束推荐：

获取所述用户的当前状态信息；

使用推荐模型和所述当前状态信息并根据强化学习算法来确定下一批推荐内容；以及

向所述用户推送所述下一批推荐内容，其中，所述下一批推荐内容作为所述连续推荐中的下一推荐过程的当前推荐内容，

其中，所述强化学习算法的动作序列包括基于用户反馈行为的推荐内容序列，所述强化学习算法的环境状态包括所述用户的状态信息，所述强化学习算法的回报包括基于用户反馈行为的业务反馈信息。

2.如权利要求1所述的推荐方法，其中，获取所述用户的当前状态信息包括：

在所述连续推荐中的首次推荐时，获取所述用户的用户特征信息和/或历史行为状态信息。

3.如权利要求1所述的推荐方法，其中，获取所述用户的当前状态信息包括：

在所述连续推荐中的非首次推荐时，获取当前推荐内容；以及

基于所述当前推荐内容，获取所述用户的当前状态信息，其中，所述当前状态信息包括行为状态信息，所述行为状态信息表征的用户行为状态是针对所述当前推荐内容的用户反馈行为导致的。

4.如权利要求3所述的推荐方法，其中，所述当前状态信息还包括所述用户的用户特征信息和/或历史行为状态信息。

5.如权利要求3所述的推荐方法，其中，所述行为状态信息包括点击查看行为状态信息、购买行为状态信息、浏览行为状态信息和收藏行为状态信息中的至少一种。

6.如权利要求1所述的推荐方法，其中，所述业务反馈信息包括针对推荐内容的点击量信息、购买金额信息和浏览时长信息中的至少一种。

7.如权利要求3所述的推荐方法，还包括：

利用所述当前状态信息和当前推荐内容对所述推荐模型进行更新，以使得更新后的推荐模型应用于所述连续推荐中的下一推荐过程。

8.如权利要求1所述的推荐方法，其中，使用推荐模型和所述当前状态信息并根据强化学习算法来确定下一批推荐内容包括：

使用所述推荐模型预测以所述当前状态信息表示的状态作为起始状态的推荐内容序列；

确定所预测的推荐内容序列中的每一批推荐内容对应的业务反馈信息；以及

利用值函数基于所预测的推荐内容序列以及所确定的业务反馈信息来确定所述下一批推荐内容，其中，所述值函数用于计算推荐内容序列对应的累积回报。

9.如权利要求8所述的推荐方法，其中，使用推荐模型和所述当前状态信息并根据强化学习算法来确定下一批推荐内容包括：

使用行为预测模型、推荐模型以及所述当前状态信息并根据强化学习算法来确定下一批推荐内容，

其中，所述行为预测模型用于预测针对所述当前推荐内容的用户反馈行为的概率。

10.如权利要求9所述的推荐方法，其中，所述行为预测模型预测的用户反馈行为包括点击查看行为和/或购买行为。

11.一种基于强化学习的推荐装置，包括：

状态信息获取单元，响应于用户针对连续推荐场景的推荐请求，获取所述用户的当前状态信息；

推荐内容确定单元，使用推荐模型和所述当前状态信息并根据强化学习算法来确定下一批推荐内容；以及

推荐内容推送单元，向所述用户推送所述下一批推荐内容，其中，所述下一批推荐内容作为所述连续推荐中的下一推荐过程的当前推荐内容，

12.如权利要求11所述的推荐装置，其中，所述状态信息获取单元：

13.如权利要求11所述的推荐装置，其中，所述状态信息获取单元：

14.如权利要求13所述的推荐装置，其中，所述当前状态信息还包括所述用户的用户特征信息和/或历史行为状态信息。

15.如权利要求13所述的推荐装置，其中，所述行为状态信息包括点击查看行为状态信息、购买行为状态信息、浏览行为状态信息和收藏行为状态信息中的至少一种。

16.如权利要求11所述的推荐装置，其中，所述业务反馈信息包括针对推荐内容的点击量信息、购买金额信息和浏览时长信息中的至少一种。

17.如权利要求13所述的推荐装置，还包括：

推荐模型更新单元，利用所述当前状态信息和当前推荐内容对所述推荐模型进行更新，以使得更新后的推荐模型应用于所述连续推荐中的下一推荐过程。

18.如权利要求11所述的推荐装置，其中，所述推荐内容确定单元：

19.如权利要求18所述的推荐装置，其中，所述推荐内容确定单元：

20.一种电子设备，包括：

至少一个处理器，以及

与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求1到10中任一所述的方法。

21.一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求1到10中任一所述的方法。