CN112597391B

CN112597391B - 一种基于动态递归机制的分层强化学习的推荐系统

Info

Publication number: CN112597391B
Application number: CN202011564657.2A
Authority: CN
Inventors: 林元国; 林凡; 曾文华; 夏侯建兵; 张志宏
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-08-12
Anticipated expiration: 2040-12-25
Also published as: CN112597391A

Abstract

本发明公开了一种基于动态递归机制的分层强化学习的推荐系统，包括用户画像矫正器：采用一种动态递归机制的策略梯度方法，及引入参数动态稀疏权重以删除噪声数据来修改用户画像，其中，所述动态递归机制的策略梯度方法包括：动态基线和基于时序上下文的递归强化学习，所述动态基线为采用动态稀疏权重对总收益进行学习策略的改进；注意力机制：用于自动调整用户偏好的变化；推荐模型：用于通过注意力机制向用户推荐最相关物品。本发明的推荐系统，通过在策略梯度方法中引入一个参数动态稀疏权重，使智能体在全局最优策略下选择最优行为；其次，结合时间上下文的分层强化学习，该方法能够更可靠地收敛，从而提高模型预测的稳定性。

Description

一种基于动态递归机制的分层强化学习的推荐系统

技术领域

本发明涉及基于分层强化学习的智能推荐技术领域，尤其涉及一种基于动态递归机制的分层强化学习的推荐系统。

背景技术

虽然分层强化学习模型(Hierarchical Reinforcement Learning,HRL)在推荐系统的应用取得了显著的进展，但其预测的不稳定性是一个关键的缺陷，主要是由强化学习的性能造成的。一方面，由于策略的随机性，每种状态下都存在若干可能的随机行为。例如，在该策略下选择的动作是随机的，导致不能一直很好地修改用户画像。另一方面，状态转移概率也是随机的(即每个当前状态都有多个可能的下一个状态)，这使得来自环境的预期收益不确定。因此，这两种随机性都会影响推荐系统的性能。

发明内容

有鉴于现有技术的缺陷(不足)，本发明提出一种基于动态递归机制的分层强化学习(Hierarchical Reinforcement Learning with Dynamic Recurrent mechanism,HRL/DR)的推荐系统，通过一种新的策略梯度方法对策略迭代进行改进，在用户画像矫正器中的分层任务中促使智能体有效地删除噪声数据，然后对用户画像矫正器和推荐系统进行联合训练，最终将最相关的物品推荐给用户。

本发明的技术方案如下：

一种基于动态递归机制的分层强化学习的推荐系统，包括用户画像矫正器、注意力机制和推荐模型；所述用户画像矫正器采用一种动态递归机制的策略梯度方法删除噪声数据来修改用户画像，其中，所述动态递归机制的策略梯度方法包括：动态基线和基于时序上下文的递归强化学习；所述动态基线为采用动态稀疏权重对总收益进行学习策略的改进；所述注意力机制用于自动调整用户偏好的变化；所述推荐模型用于通过注意力机制向用户推荐最相关的物品。

进一步的，所述用户画像矫正器采用分层的马尔可夫决策过程建模，其中：高层动作a^h∈{0,1}决定是否修改整个用户画像ε^u，而低层动作a^l∈{0,1}决定哪些交互过的物品

可被删除；当高层动作根据高层策略决定修改原始用户画像时，它将根据低层策略调用低层动作迭代地删除噪声物品，智能体在执行最后一个低层动作后将得到高层延迟奖励

和低层延迟奖励

进一步的，所述用户画像矫正器的建模方法包括：

步骤1：当高层任务决定按照高层策略修改原始用户画像，根据低层策略调用低层任务删除噪声数据，在执行最后一个低层动作后，智能体将得到高层延迟奖励

和低层延迟奖励

步骤2：通过动态递归机制的策略梯度方法分别更新基于高层总奖励

和低层总奖励

的分层策略后，推荐模型基于修正后的用户画像的嵌入向量q^u进行训练，然后生成向用户推荐目标物品的概率，并将这作为下一个分幕中用户画像矫正器的附加状态；其中所述嵌入向量q^u是通过attention聚合交互过的物品的嵌入向量

而成；

步骤3：执行步骤1和步骤2，进行推荐模型和用户画像矫正器联合训练，直到最后一个分幕结束，最后向用户推荐最精确的物品。

进一步的，在所述基于时序上下文的分层强化学习中，每分幕k的总奖励定义为：

其中，τ代表一系列转换的状态和动作，ξ表示先前各分幕中奖励的权重，R^k-x(τ)指的是在第k-x分幕中每个采样序列τ的奖励，R^k(τ)是在第k分幕中每个采样序列τ的奖励，β∈(0,1]表示折扣因子。

进一步的，所述总收益具体定义为：

其中，q^k-1(S,A)是前一分幕的动作值，

表示状态s_t在遵循策略π执行动作a的动作值函数，

表示状态s_t在参数w下的期望值，ω∈(0,1)是期望值

的动态稀疏权重，r_i表示采样序列中t+1时刻的即时奖励，γ∈(0,1]表示折扣因子。

进一步的，在第一分幕中，动作值q⁰(S,A)＝0；然后在接下来的每一分幕中，前一分幕中的动作值q^k-1(S,A)被加到每个状态的总收益

中。

进一步的，所述用户画像矫正器的目标是获得期望收益最大化的最优策略参数，如下所示：

其中θ表示策略的参数，τ表示采样的序列，P_θ(τ)是对应的抽样概率，q_π(τ)为采样序列中遵循策略π的动作值函数。

进一步的，所述用户画像矫正器的目标函数包括高层策略函数和低层策略函数；

所述高层策略函数的参数梯度定义为：

其中

是采样序列τⁿ中的一对动作-状态，

指在高层任务中前一分幕生成的动作值，

是高层任务中当前分幕中每个采样序列τⁿ的动作值，它是一个延迟奖励，

是指在抽样序列中修改用户画像后的预期回报，它近似于

此处省略了a，s和θ的上标h；

所述低层策略函数的参数梯度定义为：

其中，t_u表示用户在采样序列中交互过的物品数量，

指在低层任务中前一分幕生成的动作值，

是低层任务中当前分幕中每个采样序列τⁿ的动作值，它也是一个延迟奖励，

是指在抽样序列中所有物品都更新后的预期回报，它近似于

此处省略了a，s和θ的上标l。

进一步的，所述所述用户画像矫正器包括基于attention权重矩阵的目标函数和基于attention系数的目标函数；

所述attention权重矩阵用于提高所述策略梯度法对所述推荐系统的预测能力；

所述attention系数用于获取用户的偏好。

进一步的，所述基于attention权重矩阵的目标函数定义为：

其中W_t表示attention权重矩阵，lable_u,i代表用户u选择了物品i的标签，ρ_u,i表示将物品i推荐给用户u的概率，L(lable_u,i,ρ_u,i)是衡量推荐系统预测性能的损失函数，λ表示最小平方损失函数的系数。

进一步的，所述基于attention系数目标函数中，具体如下：

其中A_t表示相应物品的attention系数，lable_u,i代表用户u选择了物品i的标签，ρ_u,i表示将物品i推荐给用户u的概率，L(lable_u,i,ρ_u,i)是衡量推荐系统预测性能的损失函数，λ表示最小平方损失函数的系数。

本发明的推荐系统具备如下特点：

(1)通过一种新的策略梯度方法对策略迭代进行改进，在用户画像矫正器中的分层任务中促使智能体有效地删除噪声数据，然后对用户画像矫正器和推荐系统进行联合训练，最终将最相关的物品推荐给用户。

(2)该改进具体为：在HRL模型中引入了动态基线和递归强化学习(RecurrentReinforcement Learning,RRL)的Monte-Carlo策略梯度方法。首先，在Monte-Carlo策略梯度方法中引入一个动态增量因子，使智能体在全局最优策略下选择最优行为。其次，结合时间上下文的RRL，该方法能够更可靠地收敛，从而提高模型预测的稳定性。

(3)本发明的推荐系统，采用的动态递归机制的分层强化学习模型具有较优的预测稳定性，能够有效跟踪用户偏好的变化，最终将最相关的物品推荐给用户。

附图说明

图1是本发明的基于HRL/DR的推荐系统框图；

图2是本发明实验案例的用交叉熵误差函数logloss测量模型预测的稳定性的测试图(针对不同Top-K)；

图3是本发明实验案例的用交叉熵误差函数logloss测量模型预测的稳定性的测试图(针对不同的attention网络隐藏层数量)。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本发明进一步说明。

如图1所示，本发明提出了一种动态基线和递归强化学习(简称HRL/DR)的推荐系统。通过一种新的策略梯度方法对策略迭代进行改进，在用户画像矫正器中的分层任务中促使智能体有效地删除噪声数据，然后对用户画像矫正器和推荐系统进行联合训练，最终将最相关的物品推荐给用户。具体的，我们在HRL模型中引入了动态基线和递归强化学习(Recurrent Reinforcement Learning,RRL)的Monte-Carlo策略梯度方法，并进行策略优化：首先，在Monte-Carlo策略梯度方法中引入一个动态增量因子，使智能体在全局最优策略下选择最优行为；其次，结合时间上下文的RRL，该方法能够更可靠地收敛，从而提高模型预测的稳定性。

以下是对推荐系统及推荐方法的详细说明。

1、结合动态基线和递归强化学习的Monte-Carlo策略梯度方法

对于分幕任务，基于以下设定，即当智能体同时获得前一分幕的奖励和当前分幕的奖励时，它将比仅获得当前奖励的情况下采取更合理的动作，因为它有效地利用了上下文信息。在此基础上，我们提出了一种基于时序上下文的RRL来不断改进策略。从形式上讲，在使用时序上下文的RRL的基础上，每分幕k的总奖励定义为

其中τ代表一系列转换的状态和动作，ξ表示先前各分幕中奖励的权重，R^k-x(τ)指的是在第k-x分幕中每个采样序列τ的奖励，R^k(τ)是在第k分幕中每个采样序列τ的奖励，β∈(0,1]表示折扣因子。为了简单起见，这里我们只将前一分幕的奖励添加到当前分幕的总奖励中(即R^k-1(τ)+β*R^k(τ))。

此外，为了鼓励智能体在现有策略下探索新的策略以获得更好的动作，我们引入动态稀疏权重对总收益进行学习策略改进。动态稀疏权值可以是一个随机数，其值为(0,1)或当前时间步长的倒数，它在每次梯度上升过程中自动变化。采用动态稀疏权重的另一个优点是可以自动平滑增量因子对策略梯度的影响，使策略不过度依赖于基线，从而使策略梯度更好地收敛。从这个角度来看，我们提出的方法可以看作是一个动态的策略梯度。形式上，结合动态基线和RRL的Monte-Carlo策略梯度方法中的总收益

被定义为：

其中，q^k-1(S,A)是前一分幕的动作值(即奖励)，

表示状态s_t在遵循策略π执行动作a的动作值函数，

表示状态s_t在参数w下的期望值，它近似于

而ω∈(0,1)是

通过引入动态递归机制，策略梯度方法能够学习上下文和全局信息，从而进一步提高策略的稳定性。结合动态基线和RRL的Monte-Carlo策略梯度方法如算法1所示。

在第一分幕中，q⁰(S,A)＝0。然后在接下来的每一分幕中，前一分幕中的动作值被加到每个状态的总收益

中。因此，每个策略梯度在梯度上升的每个过程中连续共享全局信息(对应于算法1的第6行和第7行)。这种创新机制能很好地适用于分幕任务中，因为动作值的更新是在当前分幕结束后进行的，并在下一分幕中作为前一个分幕的奖励来处理。这样，策略在连续的分幕中迭代更新。

算法1具有很可靠的收敛性，因为θ的更新与每个分幕中返回的总收益

成正比，而q^k-1(S,A)可以保证相邻分幕之间策略的连续性，从而使策略梯度法更稳定地逼近梯度上升。

得益于可靠的收敛性，算法1很好地解决了基于HRL模型预测的不稳定性问题。因此，我们可以在HRL模型中引入动态递归机制，以提高推荐系统预测的稳定性和推荐的准确性。

2、HRL/DR模型在推荐系统中的应用

图1展示了基于HRL/DR的推荐系统框架，包括用户画像矫正器、注意力机制和推荐模型；所述用户画像矫正器采用一种动态递归机制的策略梯度方法删除噪声数据来修改用户画像；所述注意力机制用于自动调整用户偏好的变化；所述推荐模型用于通过注意力机制向用户推荐相关物品。

与HRL模型类似，用户画像矫正器也由一个分层的马尔可夫决策过程(Markovdecision processes,MDP)建模，其中高层动作a^h∈{0,1}决定是否修改整个用户画像ε^u，而低层动作a^l∈{0,1}决定哪些交互过的物品

可被删除。

具体地说，本发明的基于HRL/DR的推荐方法，包括：

步骤1：通过用户画像矫正器修改用户画像：如果高层任务决定按照高层策略修改原始用户画像，则它将调用低层任务以根据低层策略删除噪声数据(例如图中的

等等)，在执行最后一个低层动作后，智能体将得到高层延迟奖励

和低层延迟奖励

步骤2:通过动态递归机制的策略梯度方法分别更新基于高层总收益

和低层总收益

的分层策略后，推荐模型基于修正后的用户画像的嵌入向量q^u(通过注意力机制聚合交互过的物品的嵌入向量

而成)进行训练，然后生成向用户推荐目标物品的概率，并将这作为下一个分幕中用户画像矫正器的附加状态。

步骤3：执行步骤1和步骤2，推荐模型和用户画像矫正器联合训练，直到最后一个分幕结束，最后向用户推荐最精确的TOP-K物品。

特别地，动态基线

和前一分幕的奖励q^k-1在分层策略的策略改进中起着重要的作用，因为智能体可以通过它们来稳定地改进策略，进而获得最大的动作值函数。因此，HRL/DR模型可以在所有分幕中不断选择最优的动作来修改用户画像，最终提供稳定的预测和准确的推荐结果。

对于HRL/DR的目标函数，我们的目标是获得期望收益最大化的最优策略参数，如下所示：

HRL/DR模型采用算法1对状态轨迹进行采样，由此高层策略函数的参数梯度可以计算如下：

其中

是采样序列τⁿ中的一对动作-状态，

指在高层任务中前一分幕生成的动作值，

是指在抽样序列中修改用户画像后的预期回报，它近似于

为了简单起见，这里我们省略了a，s和θ的上标h。

类似地，HRL/DR模型中低层策略函数的参数梯度可计算如下：

其中，t_u表示用户在采样序列中交互过的物品数量，

指在低层任务中前一分幕生成的动作值，

是指在抽样序列中所有物品都更新后的预期回报，它近似于

为了简单起见，这里我们也省略了a，s和θ的上标l。

为了提高HRL/DR模型的泛化能力和新策略梯度方法的适应性，我们在推荐系统的目标函数中引入了attention权重矩阵和相应物品的attention系数(即学习用户特征的参数)，分别命名为“HRL/DR-W”和“HRL/DR-A”。

首先，为了进一步提高我们提出的策略梯度法对推荐系统的预测能力，HRL/DR-W模型的目标函数可以定义为：

其中W_t表示attention权重矩阵，lable_u,i代表用户u选择了物品i的标签，ρ_u,i表示将物品i推荐给用户u的概率，L(lable_u,i,ρ_u,i)是衡量推荐系统预测性能的损失函数，λ表示最小平方损失函数(L2范式)的系数。

为了获取用户的偏好，我们将相应物品的attention系数纳入HRL/DR-A模型的目标函数中，具体如下：

其中A_t表示相应物品的attention系数。HRL/DR-A可以通过对相应物品的attention系数在不同推荐阶段的转换来跟踪用户偏好的变化，从而选择有利因素向用户推荐相关的目标物品。

为了优化上述推荐系统的目标函数，我们使用了自适应梯度优化器(AdaptiveGradient Optimizer)，它是随机梯度下降的一种变体，能够自适应地为每个参数分配不同的学习速率。

3、实验案例

我们以课程推荐为实验案例，证明HRL/DR模型的优越性。

实验是在两个真实的数据集上进行的：MOOCCourse和MOOCCube分别来自学堂在线幕课平台(http://www.xuetangx.com)两个不同阶段的学生选课记录。其中，MOOCCourse包含1302门真实在线课程、82535名幕课用户的458453个选课记录，而MOOCCube包含706门真实在线课程、55203名幕课用户的354541个选课记录。

我们提出的创新模型跟当前国内外最先进的课程推荐模型(备注：HRL/D_A和HRL/D_W是我们所提出的HRL/DR模型的精简版，即在创新的策略梯度方法中省去了RRL因素)进行对比，并采用公认的流行评价指标，其中推荐性能的评价指标主要有HR(召回率)、NDCG(精确度)，模型预测的评价指标有交叉熵误差函数logloss。

从表1可以看出，HRL/DR模型在HR(召回率)和NDCG(精确度)两个评价指标都高于其它推荐模型，证明了我们创新模型的有效性，它能够明显提高推荐的准确性。

表1用评价指标HR(召回率)和NDCG(精确度)衡量推荐性能(％)

图2给出了用交叉熵误差函数logloss测量模型预测的稳定性的结果(针对不同top-k)。其中(a)为在数据集MOOCCourse上测试的logloss。(b)为在数据集MOOCCube上测试的logloss。

图3给出了用交叉熵误差函数logloss测量模型预测的稳定性的结果(针对不同的attention网络隐藏层数量)。其中(a)为在数据集MOOCCourse上测试的logloss。(b)为在数据集MOOCCube上测试的logloss。

从图2和图3可以看出，HRL/DR的模型预测的稳定性明显优于其它模型(特别是HRL模型和HRL/R模型)，而且HRL/DR模型的预测准确度也在绝大数情况下高于其它模型。从而可以看出，基于HRL/DR的推荐系统，具有较优的预测稳定性，能够有效跟踪用户偏好的变化，最终将最相关的物品推荐给用户。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。