CN113987343A

CN113987343A - 基于强化学习的多样化推荐方法、系统及存储介质

Info

Publication number: CN113987343A
Application number: CN202111249154.0A
Authority: CN
Inventors: 高扬华; 楼卫东; 陆海良; 郁钢
Original assignee: China Tobacco Zhejiang Industrial Co Ltd
Current assignee: China Tobacco Zhejiang Industrial Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-28

Abstract

本发明提供一种基于强化学习的多样化推荐方法，其特征在于，包括如下步骤：S1：获取训练样本，确定并初始化网络参数；S2：执行策略生成行动；S3：评估所述策略并优化；S4：通过评论网络监督损失；S5：更新探索概率。所述方法能够在较长阶段的运行过程中，通过奖赏来驱动最优推荐序列的获取，通过试错，从好的推荐动作中得到较高奖赏，最终学习出各种状态下最优的推荐列表来最大化长期收益。

Description

基于强化学习的多样化推荐方法、系统及存储介质

技术领域

本发明涉及电子商务物品推荐领域，具体涉及一种基于强化学习的多样化推荐方法、系统及存储介质。

背景技术

当今的电子商务平台广泛应用了推荐系统，它通过分析用户的历史行为信息，预测用户对某些物品的喜好程度，向其推荐一组物品，达到在海量物品中进行信息过滤的目的。推荐系统早期的方法主要是基于内容的推荐或协同过滤推荐，具体的实施方式有许多，有的利用了用户之间的相似性，有的利用了物品之间的相似性，还有的是进行用户特征与产品特征的匹配。早期方法具有较大局限性，后续也有大量的改进算法被提出来，同时也提出了对推荐效果的评价。如果单纯自救满足物品本身与用户兴趣的匹配度，会导致一个严重的问题，即推荐的多个物品可能具有较高的同质性，是一种单调的、冗余的推荐，不能满足用户多方面的兴趣。为此已有人提出推荐方法多样性的评判标准，它指是是推荐物品间要有一定的差异性，推荐结果集要覆盖尽可能多的产品类别，满足用户多方面的潜在兴趣。

实现多样化的关键是对候选物品推荐排序时不仅考虑候选物品本身与用户兴趣的匹配度，同时还要考虑与其他推荐物品之间的区分度。传统使用启发式方法来达到多样化，需要预定义一个打分公式，综合评估物品的用户兴趣匹配程度和物品间的差异程度。这种方法虽然简单，但定义一个通用的打分公式十分困难，常常需要根据使用环境手工调整参数，并且难以达到全局最优。也有使用监督学习方法开展多样化推荐，但获取充足的训练样本十分困难，就算得到了，它们可能与实际运行样本之间可能存在较大差异，另外多样化评估指标并不能直接用于指导训练过程。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于强化学习的多样化推荐方法，所述方法能够在较长阶段的运行过程中，通过奖赏来驱动最优推荐序列的获取，通过试错，从好的推荐动作中得到较高奖赏，最终学习出各种状态下最优的推荐列表来最大化长期收益。

基于上述目的，本发明的一个方面，提供一种基于强化学习的多样化推荐方法，该方法包括如下步骤：

S1：获取训练样本，确定并初始化网络参数；

S2：执行策略生成行动；

S3：评估所述策略并优化；

S4：通过评论网络监督损失；

S5：更新探索概率。

作为优选，步骤S1具体包括：

输入带标签的训练样本集合，其中包含监督样本；确定并初始化算法参数，包括确定推荐列表长度T，探索概率衰减系数ξ，监督损失函数系数λ与τ，并对各参数进行初始化。

作为优选，步骤S1中，训练样本的获取方法包括：

基于LSTM的生成推荐列表，过程如下：

a)输入某用户的兴趣特征向量、候选物品集合，初始化LSTM隐状态及决策序列；

b)向LSTM输入用户兴趣向量作为状态；

c)逐个处理候选物品，计算各物品的选择概率，当最大选择概率小于探索概率时，采用随机采集方法进行采样；当最大选择概率大于等于探索概率时，采用贪心方法取最大动作概率对应物品；

d)根据LSTM网络获取输出，形成动作，计算奖赏；

e)构造新的推荐物品列表，直到达到预定数量。

作为优选，步骤S3具体包括：

a)执行LSTM网络评估行动策略；

b)基于所有的候选动作计算对应状态下的梯度期望，优化行动策略；

c)使用时间差分学习方法优化状态值；

d)根据前向一步的贝尔曼期望计算评价目标，优化评价网络参数；

e)使用多样性指标计算奖赏。

作为优选，步骤S4具体包括：

基于输入数据中的监督学习样本，确定最优的推荐序列，在优化Critic网络时增加pair-wise的排序损失，以促进在某个排序位置监督样本提供的动作值优于其它候选动作值，从而为学习提供了一个良好的方向。

作为优选，步骤S5中，采用逐步衰减的∈-贪心探索方法来更新探索概率。

作为优选，所述多样化推荐方法还包括步骤S6：判断算法是否收敛；

若是，则输出策略网络和值网络；

若否，则返回至步骤S3。

本发明的另一个方面，还提供一种基于强化学习的多样化推荐系统，其包括：

初始化单元，用于获取训练样本，确定并初始化网络参数；

行动单元，用于执行策略生成行动；

评价单元，评估所述策略并优化；

监督单元，用于增加Critic网络监督损失以提升学习效率；

结果生成单元，用于更新探索概率。

作为优选，该系统还包括输出单元，该输出单元用于判断算法是否收敛；若是，则输出策略网络和值网络；若否，则控制评价单元重新评估策略并优化。

本发明的再一个方面，提供一种存储介质，该存储介质中存储有计算机程序，所述计算机程序被处理执行时，实现如上所述的基于强化学习的多样化推荐方法。

与现有技术相比，本发明的有益效果为：

本发明所述方法能够在较长阶段的运行过程中，通过奖赏来驱动最优推荐序列的获取，通过试错，从好的推荐动作中得到较高奖赏，最终学习出各种状态下最优的推荐列表来最大化长期收益。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的限定。

图1是本发明实施例中所述算法的流程示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本实施例提供一种基于强化学习的多样化推荐方法，使用行动者-评论家(Actor-Critic)强化学习算法，行动者通过长短期记忆网络(LSTM)循环地建模的状态随推荐序列变化，由用户兴趣逐步选择推荐物品，生成推荐列表；评论家估计各个推荐列表或列表-物品的累积未来期望收益，用于指导物品选择策略的更新。在计算评论家的更新目标时，前向一步的贝尔曼完全期望公式，提高样本效率并减少样本方差；在行动策略更新时，基于每个状态时的完整动作空间优化行动者更新方向；另外基于监督学习样本用于辅助强化学习，提高了训练效率。该方法包括如下步骤：

S1：获取训练样本，确定并初始化网络参数；

S2：执行策略生成行动；

S3：评估所述策略并优化；

S4：通过评论网络监督损失；

S5：更新探索概率。

作为一种较优的实施方式，步骤S1具体包括：

作为一种较优的实施方式，步骤S1中，训练样本的获取方法包括：

基于LSTM的生成推荐列表，过程如下：

b)向LSTM输入用户兴趣向量作为状态；

d)根据LSTM网络获取输出，形成动作，计算奖赏；

e)构造新的推荐物品列表，直到达到预定数量。

作为一种较优的实施方式，步骤S3具体包括：

a)执行LSTM网络评估行动策略；

c)使用时间差分学习方法优化状态值；

e)使用多样性指标计算奖赏。

作为一种较优的实施方式，步骤S4具体包括：

作为一种较优的实施方式，步骤S5中，采用逐步衰减的∈-贪心探索方法来更新探索概率。

作为一种较优的实施方式，所述多样化推荐方法还包括步骤S6：判断算法是否收敛；

若是，则输出策略网络和值网络；

若否，则返回至步骤S3。

如图1所示，上述方法可具体实施为：

S1：获取训练样本，确定并初始化网络参数；具体的：

a)获取训练样本集合并确定算法初始参数；

输入训练样品集合

其中u⁽ⁿ⁾表示某用户，X⁽ⁿ⁾表示用户的候选物品集合，Y⁽ⁿ⁾表示该用户的监督样本集合。

b)初始化策略网络参数和值函数网络参数；

取初始探索概率为∈＝1，随机初始化策略网络参数θ和值函数网络参数

φ，策略网络参数用于后续Actor阶段更新，值函数网络参数用于后续Critic阶段更新。需要说明，∈值取[0，1]。在步骤S2的c)中使用，在S5步骤中更新。采用最优动作即利用，采用随机动作即探索。初始探索概率为1，表示一定采用随机动作。在S5中该值逐步缩小，但其前期还是比较大的，表示更有可能随机选择所生成的动作，从而探索更多的可能动作。随着算法进展，动作中确定性信息越来越强，于是在算法每一轮中采用最优动作的机会越来越多，进而增加算法收敛速度；另，在下述提到的步骤S2中b)利用了LSTM网络来生成推荐列表，这就是策略网络，其中的神经网络参数统一用θ来表示，其实就是其中的W_xx权重参数和b_xx偏置参数。步骤S3中a)利用了LSTM网络用于评估，这就是值网络，参数φ内容是相近的，但属于不同的两个网络。

S2：执行策略生成行动；具体地：

在本发明中LSTM递归神经网络被用于学习用户状态随已生成的推荐列表的演变，行动者策略就保存在LSTM网络中。每个时间步选择的推荐物品的表示向量构成了LSTM的输入序列；LSTM的隐状态记录了用户状态，伴随每个推荐动作的变化，用户个人兴趣也表示成向量的形式，并作为LSTM的初始输入激活信号。

记V_u为用户u的个人兴趣偏好，初始化为用户的基本兴趣的表示向量，可以通过评分矩阵分解等预训练的方式赋值，或者随机初始化，随后在推荐任务训练中以端到端的方式学习赋值。sigmoid函数记为

基于LSTM产生下个时刻状态的转换机制过程可以形式化为公式(1)所示：

i＝σ(W_iix+b_ii+W_hix+b_hi)

f＝σ(W_ifx+b_if+W_hfx+b_hf)

o＝σ(W_iox+b_io+W_hox+b_ho)

g＝tanh(W_igx+b_ig+W_hcx+b_hg)

c′＝f*c+i*g

h′＝tanh(c′)*o

公式(1)

其中x为当前时刻的输入，即此刻所选择的物品的表示向量。i，f，o表示LSTM转换中对应的输入(input)门、遗忘(forget)门和输出(output)门。c，h为前一时刻的细胞(cell)状态和隐(hidden)状态，而c′和h′表示当前时刻通过遗忘一些旧的信息并合并一些输入的新信息后更新后的细胞状态和隐状态。在这里遗忘可以表示减少前面已经推荐物品覆盖的类别的影响，合并则是考虑当前新推荐的物品的作用。W_xx和

b_xx，如W_ii、h_ii，是不同层的权重和偏置，它们是在训练中需要学习优化的参数。LSTM的隐状态表示用户状态，即s_t＝h_t。

基于LSTM的生成推荐列表，过程如下：

a)输入某用户u，候选物品集合X，初始化LSTM隐状态及决策序列

h₀＝0，c₀＝0，Y＝[]；

b)向LSTM输入用户状态兴趣向量V_u，作为LSTM的隐状态，即h_t＝V_u；

c)逐个处理候选物品，本发明采用用户状态向量和物品向量的内积来计算每个候选物品的选择概率，计算方式如公式(2)所示：

其中，x_i为候选物品集X中的任意一个物品的编码向量，h_t表示待学习的DNN非线性转换，将用户状态转换为与x_i相同维度的向量，每个维度对应用户当前的兴趣权重。随后softmax用以将各个候选物品的选择概率进行标准化，得到各个动作概率，即π_i，从中选择最大动作概率p。当p＜∈时，根据各个动作概率随机采集物品，这是一种均匀随机选择的探索策略；当p≥∈时，选择最大动作概率p对应的物品，这是一种贪心的利用策略。最终确定一个推荐物品，形成动作i。

d)根据公式(1)更新h_t，c_t，得到h_t+1，c_t+1；

e)根据动作i形成的指标提升计算奖赏r_i＝r(i)。

f)补充物品(i，r_i)到推荐列表Y′；

g)从候选物品集合移除已推荐物品X＝X\i。

h)如果推荐物品数量还未达到T，并且还有候选物品，则转步骤c。

S3：评估所述策略并优化；具体地：

本步骤利用Critic网络评估状态值V(s)和状态-动作值Q(s，a)。

a)执行LSTM网络评估策略。

在MDP环境下，根据贝尔曼期望等式，

其中s′表示下个时刻的状态，P_{(s，a)→s′}为在状态s下执行动作a后，环境迁移到s′的概率，r_s，a为在状态s下执行动作a后获得的即时奖赏，

V(s′)表示下个时刻的状态值。

上一步行动者执行报获取到新的推荐列表，每一步当输入用户兴趣即环境状态时，环境在确定的状态、动作下有确定的状态转移，即有下一时刻状态s_t+1：

s_t+1＝f(s_t，a_t)

f为基于LSTM的状态转换过程。此时有，

这里Critic计算状态值，将输入状态映射为标量，即一维的状态值。Critic使用与Actor网络除了输出层，其他均相同的LSTM网络结构，将Critic参数记为φ。整体的输入-输出结构如图1所示。

b)Actor策略的优化

策略的优化目标为最大化整体收益期望J(θ)。考虑到在推荐问题中明确的动作空间(候选物品集)，本发明重写策略梯度如下，

对比现有方法在状态s使用采样的一个动作a，即采样状态s和动作a计算策略梯度，本发明在采样状态下基于所有的候选动作计算对应状态下的梯度期望。每个动作带来的策略梯度根据其动作概率进行累计。这种计算方式是对采样状态下策略梯度的无偏估计，策略更新的方差可以大大降低，同时在一个状态下利用多个候选动作大大提高了样本利用率。

c)优化状态值

对于状态值V(s)的优化，本发明仍然使用时间差分(TD)学习方法。在传统的Critic更新中，给定一步采样<s_t，a_t，r_t，s_t+1＞，当前状态s_t的更新目标值则为

r_t+γV(s_t+1)。这里基于采样的一个前向一步状态V(s_t+1)近似估计当前状态

V(s_t)同样可能带来较大的偏差。与之不同，本发明根据前向一步的贝尔曼期望计算Critic目标。对V(s_t)的更新目标记为V′(s_t)，其计算公式如，

采样序列随着某一个采样状态深入，而对某个采样状态扩展了所有前向一步的候选动作及其后续状态。这种方法对比传统的TD更新方法降低了样本偏差，提高了样本利用率。

d)优化Critic网络参数

根据式(4)计算了Critic的更新目标，优化Critic网络参数时的目标则为最小化

V(s_t)和目标值V(s_t)之间的均方差，即使用平方差损失函数。Critic网络参数φ在学习率α下的更新方程如下，

e)计算奖赏

进一步地，在状态s下，对于候选动作A(s)需要知道每个动作的即时奖赏

r(s，a)及其带来的下一个值状态V(s′)。这里本发明使用多样性指标αNDCG，由此步动作带来的指标提升作为该动作的即时奖赏，如此步推荐动作之后αNDCG对比之前αNDCG的提高。对于每个候选动作计算得到对应的奖赏，这里结合指标的计算方式和各个动作之间的共用部分，基于空间换时间的思想可以大大提高计算效率。

S4：通过评论网络监督损失；具体地：

强化学习方法从零开始探索各种动作的收益，由于候选动作数量众多，因此会尝试大量的无效动作而没有得到任何提升信息，往往效率较低。本发明在输入数据中要求有监督学习样本，用它们进行(近似)最优的推荐序列，从而为学习提供了一个良好的方向。在传统Actor-Critic算法基础上，本发明增加一种新的损失用于训练Critic网络，这种损失基于监督样本这一近似最优的训练样本，来辅助学习。详细来讲，在优化Critic网络时增加一种pair-wise的排序损失，以促进在某个排序位置监督样本提供的动作值优于其它候选动作值，这种监督辅助损失可以稳定地提高性能。使用λ代表监督损失的权重，则Critic的整体损失函数为，

Loss_critic＝Loss_RL+λ*Loss_SUP

其中Loss_RL表示步骤3值网络的平方差损失，Loss_UP表示辅助的pair-wise监督学习损失。

其中φ为Critic网络参数，V_t为公式(5)计算的当前时刻目标网络状态值V(s)。

考虑到监督学习样本可能是次优的，如果策略预测的监督样本提高的动作概率高于其他某个候选动作，则增加二者的排序损失，否则忽略。Loss_UP计算公式如下，

其中I_x为指示函数，当x为真时取值为1，反之取值0。a^*和a用于表示监督样本的动作和任意一个候选动作。这里使用的状态-动作值Q_s，a根据公式(3)进行计算。τ为一个小的非负数，用于限制动作之间的区分度。

S5：更新探索概率，具体地：

本发明采用逐步衰减的∈-贪心探索方法。即在训练的早期阶段，由于经验不足，∈值较高使得以较高的概率尝试各种动作，随着参数的优化，策略可信度增强，∈降低，提高采取策略提供的最优动作的概率。这里将∈初始化为1，随每个训练周期，∈衰减到ξ_∈，其中0＜ξ＜1。

S6：判断算法是否收敛，如果否，转步骤S3；如果是，输出Actor的策略网络和Cirtic的值网络。

本实施例还提供一种基于强化学习的多样化推荐系统，其包括：

初始化单元，用于获取训练样本，确定并初始化网络参数；

行动单元，用于执行策略生成行动；

评价单元，评估所述策略并优化；

监督单元，用于增加Critic网络监督损失以提升学习效率；

结果生成单元，用于更新探索概率。

作为一种较优的实施方式，该系统还包括输出单元，该输出单元用于判断算法是否收敛；若是，则输出策略网络和值网络；若否，则控制评价单元重新评估策略并优化。

本实施例一种存储介质，该存储介质中存储有计算机程序，所述计算机程序被处理执行时，实现如上所述的基于强化学习的多样化推荐方法。

本发明所述方法将用户兴趣特征(点击、浏览时间、购买等)作为输入，对候选物品进行排序，每步选出一个最优的物品加入推荐序列，多样化评估指标可视转换为强化学习的奖赏。这种方法能够在较长阶段的运行过程中，通过奖赏来驱动最优推荐序列的获取，通过试错，从好的推荐动作中得到较高奖赏，最终学习出各种状态下最优的推荐列表来最大化长期收益。这种方法能够在较长阶段的运行过程中，通过奖赏来驱动最优推荐序列的获取，通过试错，从好的推荐动作中得到较高奖赏，最终学习出各种状态下最优的推荐列表来最大化长期收益。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于强化学习的多样化推荐方法，其特征在于，包括如下步骤：

S1：获取训练样本，确定并初始化网络参数；

S2：执行策略生成行动；

S3：评估所述策略并优化；

S4：通过评论网络监督损失；

S5：更新探索概率。

2.根据权利要求1所述的一种基于强化学习的多样化推荐方法，其特征在于，步骤S1具体包括：

3.根据权利要求1所述的一种基于强化学习的多样化推荐方法，其特征在于，步骤S1中，训练样本的获取方法包括：

基于LSTM的生成推荐列表，过程如下：

b)向LSTM输入用户兴趣向量作为状态；

d)根据LSTM网络获取输出，形成动作，计算奖赏；

e)构造新的推荐物品列表，直到达到预定数量。

4.根据权利要求1所述的一种基于强化学习的多样化推荐方法，其特征在于，步骤S3具体包括：

a)执行LSTM网络评估行动策略；

c)使用时间差分学习方法优化状态值；

e)使用多样性指标计算奖赏。

5.根据权利要求1所述的一种基于强化学习的多样化推荐方法，其特征在于，步骤S4具体包括：

基于输入数据中的监督学习样本，确定最优的推荐序列，在优化Critic网络时增加pair-wise的排序损失。

6.根据权利要求1所述的一种基于强化学习的多样化推荐方法，其特征在于，步骤S5中，采用逐步衰减的∈-贪心探索方法来更新探索概率。

7.根据权利要求1所述的一种基于强化学习的多样化推荐方法，其特征在于，所述多样化推荐方法还包括步骤S6：判断算法是否收敛；

若是，则输出策略网络和值网络；

若否，则返回至步骤S3。

8.一种基于强化学习的多样化推荐系统，其特征在于，包括：

初始化单元，用于获取训练样本，确定并初始化网络参数；

行动单元，用于执行策略生成行动；

评价单元，评估所述策略并优化；

监督单元，用于增加Critic网络监督损失以提升学习效率；

结果生成单元，用于更新探索概率。

9.根据权利要求8所述的一种强化学习的多样化推荐系统，其特征在于，还包括输出单元，该输出单元用于判断算法是否收敛；若是，则输出策略网络和值网络；若否，则控制评价单元重新评估策略并优化。

10.一种存储介质，该存储介质中存储有计算机程序，其特征在于，所述计算机程序被处理执行时，实现如权利要求1-7中任一项所述的基于强化学习的多样化推荐方法。