CN112597392A

CN112597392A - 一种基于动态注意力和分层强化学习的推荐系统

Info

Publication number: CN112597392A
Application number: CN202011564661.9A
Authority: CN
Inventors: 林元国; 林凡; 曾文华; 夏侯建兵; 冯世博
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-02
Anticipated expiration: 2040-12-25
Also published as: CN112597392B

Abstract

本发明公开了一种动态注意力和分层强化学习的推荐系统，包括用户画像矫正器：通过删除噪声数据来修改用户画像；(2)动态注意力机制：自动调整用户偏好的变化；(3)推荐模型：向相关用户推荐目标物品。所述推荐系统具有以下特点：动态注意力机制通过一个多层感知器自动调整每个交互过程中相应物品的attention权重，并将基于分层强化学习的用户画像矫正器合并到一个统一的框架中；其次，为了增强推荐系统的自适应性，以提高推荐的准确性，推荐系统针对不同时段物品交互的信息，在attention权重上增加了一个自适应系数，以便在每个推荐阶段自动更新相应物品的attention权重；最后，与HRL模型相比，本推荐系统可以提高策略评估的收敛速度，每个推荐阶段的开销时间更少。

Description

一种基于动态注意力和分层强化学习的推荐系统

技术领域

本发明涉及基于注意力的智能推荐技术领域，尤其涉及一种基于动态注意力和分层强化学习的推荐系统。

背景技术

虽然目前基于注意力(attention)的模型在推荐系统中具有一定的竞争力，但仍存在一些明显的缺陷。首先，它们忽略了用户对时序行为的动态兴趣。换言之，这些模型在每次交互过程中无法更好地选择用户画像来推荐目标物品，尤其是当用户对不同物品的兴趣随着时间的推移而动态变化的场景下。例如在NAIS注意力模型中，attention网络中的权重矩阵严重依赖于相应物品的嵌入(embedding)向量，而没有考虑其他因素来获取上下文信息，这就降低物品推荐的准确性。其次，这些模型没有考虑推荐系统的自适应性。例如，在推荐目标物品中有贡献作用的物品的效应通常随着用户与物品之间的交互而变化，导致在不同的推荐阶段中这些有贡献作用的物品的attention权重很可能会发生变化，在这种情况下，这些模型无法向相关用户推荐准确的目标物品，从而影响推荐的有效性。

发明内容

有鉴于现有技术的缺陷(不足)，我们提出一种基于动态注意力和分层强化学习(DARL)的推荐系统，包括以下技术方案：

一种基于动态注意力和分层强化学习的推荐系统，包括：用户画像矫正器、动态注意力机制和推荐模型；所述用户画像矫正器用于通过删除噪声数据来修改用户画像；所述动态注意力机制用于自动调整用户偏好的变化；所述推荐模型用于向相关用户推荐目标物品。

进一步的，所述用户画像矫正器的任务为层次化的马尔可夫决策过程，其中高层动作a^h∈{0，1}决定是否修改整个用户画像ε^u，低层动作

决定删除哪个物品

当高层动作根据高层策略决定修改整个用户画像时,它将根据低层策略调用低层动作来消除噪声物品后,智能体在执行最后一个低层动作后将收到延迟奖励。

进一步的，所述用户画像矫正器基于分层强化学习，所述分层强化学习的目标是获得期望收益最大化的最优策略参数，如下所示：

其中，θ表示策略的参数，τ表示采样的序列，P_θ(τ)是对应的抽样概率，R^*(τ)为采样序列中遵循策略π的动作值函数。

进一步的，所述分层强化学习包括高层策略和低层策略；

所述高层策略的策略函数的参数梯度定义为：

其中，

是采样序列τⁿ中的一对动作-状态，t_u表示用户在采样序列中交互过的物品数量，

是高层任务中每个采样序列τⁿ的动作值，它是一个延迟奖励；此处省略了a，s和θ的上标h；

所述低层策略的策略函数的参数梯度定义为：

其中

是低层任务中每个采样序列τⁿ的动作值，它也是一个延迟奖励，

是一个低层任务中的内部奖励，定义为在修改用户画像前后目标物品与交互过的物品的平均余弦相似度之差；此处省略了a，s和θ的上标l。

进一步的，所述动态注意力机制的结构包括：嵌入向量的输入层、基于ACF方法的交互层和具有动态权重的注意力层。

进一步的，所述输入层的任务为：首先，将原始数据分解为两个矩阵：用户-物品矩阵和物品标签矩阵，在用户-物品矩阵中，每个元素表示一个用户和一个物品之间的交互，即用户u在时间t时交互过的物品

ε^u定义为一个用户画像

其中t_u表示用户在采样序列中交互过的物品数量，用户-物品向量

是通过one-hot二进制值的格式获得；在物品标签矩阵中，让C＝{c₁，…，|C|}表示为一组物品，其中目标物品向量c_i是通过one-hot二进制值的格式获得的；然后，将每个用户-物品向量

表示为嵌入向量

并且将目标物品向量c_i表示为嵌入向量p_i；最后，将嵌入向量

与p_i传递给交互层。

进一步的，所述交互层的任务为：采用元素智能乘积计算交互过的物品的嵌入向量和交互层中的目标物品嵌入向量之间的相似度，所述相似度的计算公式为：

其中，⊙表示元素智能乘积，相似度

被参数化为嵌入向量

和p_i的内积。

进一步的，所述注意力层的任务为：在每次用户画像矫正器与推荐模型交互过程中自动调整相应物品的attention权重，并根据其动态系数自适应地更新attention权重，得到用户画像的嵌入向量；具体为：采用联合嵌入向量

和p_i的用户画像矫正器来参数化attention函数

根据推荐阶段的物品数量，自动更新attention权重；在相应物品的attention权重的基础上，通过聚合所有交互过的物品的嵌入向量

得到用户画像的嵌入向量q_u。

进一步的，所述attention函数

的公式为：

其中，h^T表示将多层感知器的一个隐藏层投射到一个attention权重的向量，W表示权重矩阵，b表示偏差向量，权重矩阵

和偏差向量

是多层感知器用于参数学习，d₁作为隐藏层的尺寸，d₂作为物品的嵌入尺寸，δ∈(0，1)表示随机数；D为权重尺寸，和隐藏层的尺寸d₁相关；ReLU表示线性整流函数，为隐藏层的激活函数。

进一步的，所述attention权重的公式为：

其中，

为每个推荐阶段的物品数量。

进一步的，用户画像的嵌入向量q_u被定义为：

进一步的，所述推荐模型的任务为：在分层策略更新后,利用基于修改后的用户画像q_u进行推荐模型训练，然后当y＝1时，生成目标物品c_i被推荐给一个用户u的概率

将所述概率

作为一个额外的状态特征在下一分幕中提供给用户画像矫正器；所述推荐模型和所述用户画像矫正器通过所述动态注意力机制共同训练，直到最后一分幕结束，从而为用户推荐出一组最精确的目标物品。

进一步的，所述推荐模型的目标函数定义为:

其中，

为损失函数；λ为防止过拟合的最小平方损失正则化的超参数；q_u表示用户画像的嵌入向量；p_i表示物品的嵌入向量；w_t表示多层感知器中隐藏层的权重矩阵。

进一步的，所述损失函数

定义为:

其中，n是总训练实例的数量，σ表示一个sigmoid函数，将预测值

转换成一个概率值，即目标物品c_i与一个用户u的交互的似然值，

指的是正实例即观测交互组，和

指的是负实例即未观测交互组。

进一步的，所述推荐模型的推荐概率定义为：

其中，y＝1表示目标物品c_i被推荐给一个用户u，

为当y＝1时推荐物品c_i给用户u的概率，σ表示将输入转换为推荐概率的激活函数。

本发明的基于动态注意力和分层强化学习的推荐系统，包括以下特点：

(1)本推荐系统的动态注意力机制通过一个多层感知器(MLP)自动调整每个交互过程中相应物品的attention权重，并将基于分层强化学习(HRL)的用户画像矫正器合并到一个统一的框架中。

(2)为了增强推荐系统的自适应性，以提高推荐的准确性，本推荐系统针对了不同时段物品交互的信息，在attention权重上增加了一个自适应系数，以便在每个推荐阶段自动更新相应物品的attention权重。

(3)与HRL模型相比，本系统的DARL模型在计算动态attention权重时只需要花费少许时间，且由于DARL可以更精确地修改用户画像，从而提高了策略评估的收敛速度，因此每个推荐阶段的开销时间更少。

附图说明

图1是本发明的DARL(动态注意力和分层强化学习)的总体框架；

图2是本发明所采用的动态注意力机制的整体框架；

图3是本发明实验案例的用交叉熵误差函数logloss测量模型预测性能的测试图；

图4是本发明实验案例的用交叉熵误差函数logloss测量模型预测性能的测试图(针对不同的attention网络隐藏层数量)；

图5是本发明的实验案例的当所有学习率都设置为0.007时，用评价指标衡量推荐性能(％)的结果。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本发明进一步说明。

如图1所示，本发明提出了一种基于动态注意力和分层强化学习(简称DARL)的推荐系统，本推荐系统的DARL的总体框架，包括：(1)用户画像矫正器：通过删除噪声数据来修改用户画像；(2)动态注意力机制：自动调整用户偏好的变化；(3)推荐模型：向相关用户推荐目标物品。

该推荐系统执行一种推荐方法，包括：

首先，我们的动态注意力机制通过一个多层感知器(MLP)自动调整每个交互过程中相应物品的attention权重，并将基于分层强化学习(HRL)的用户画像矫正器合并到一个统一的框架中。其次，为了增强推荐系统的自适应性，以提高推荐的准确性，我们在推荐系统中考虑了不同时段物品交互的信息，在attention权重上增加了一个自适应系数，以便在每个推荐阶段自动更新相应物品的attention权重。

详细方法

1、动态注意力机制

如图2所示，在本发明中，设计了一种三层的动态注意力机制，以下到上依次为：输入层，交互层，注意力层。在输入层中，将所有原始数据输入投影到嵌入向量中。在交互层中，通过注意力协同过滤(ACF)方法计算这些嵌入向量之间的相似度。注意力层旨在通过相应物品的动态注意力来自适应地捕获用户偏好。

输入层：首先，我们将原始数据分解为两个矩阵：用户-物品矩阵和物品标签矩阵。在用户物品矩阵中，每个元素表示一个用户和一个物品之间的交互，即用户u在时间t时交互过的物品

ε^u可以定义为一个用户画像

是通过one-hot二进制值的格式获得。在物品标签矩阵中，让C＝{c₁，...，|C|}表示为一组物品，其中目标物品向量c_i是通过one-hot二进制值的格式获得的。然后，我们将每个用户-物品向量

表示为嵌入向量

并且将目标物品向量c_i表示为嵌入向量p_i。最后，将

与p_i传递给交互层。

交互层：为了获得一个用户和目标物品之间的关系，我们需要了解交互过的物品的嵌入向量和交互层中的目标物品嵌入向量之间的相似度。由于元素智能乘积(element-wise product)(点乘)能增强嵌入向量的表现力，这里的相似度可以通过元素智能乘积来计算如下：

其中⊙表示元素智能乘积，相似度

被参数化为MLP的嵌入向量

和p_i的内积，这样可以学习两者相互作用的潜在因子。

注意力层：该层是DARL的核心，为了捕捉交互过的物品的attention来自动跟踪用户的偏好。我们采用一个联合

和p_i的MLP来参数化attention函数

其中h^T表示将MLP的一个隐藏层投射到一个attention权重的向量，权重矩阵

和偏差向量

是MLP用于学习一些参数，d₁作为隐藏层的尺寸，d₂作为物品的嵌入尺寸，δ∈(0，1)是随机数。它是权重矩阵的动态因子，可以自动调整每个相互作用中相应物品的attention权重。同时，因为δ是一个平滑因子，可以削弱对应物品的attention权重在每个推荐阶段上的影响，从而间接地防止了策略函数的梯度陷入局部优化。因此推荐模型不提供当前的最好奖励(reward)给智能体，从而使智能体可能选择一个新的策略来最大限度地提高最终总收益。这里d₁也被定义为隐藏层中的权重尺寸D。为了解决欠拟合的问题，我们将1/D添加到attention函数中作为其系数之一。我们采用经常用于神经网络的线性整流函数(ReLU)作为隐藏层的激活函数。

我们还发现，物品数量与attention权重大致成比例，因为它可以模拟交互过的物品在不同推荐阶段中的影响，其attention权重随着物品数的变化而调整。因此，我们提出了一种动态的注意力系数以提高注意力机制的性能。attention权重的公式可以定义如下：

在该公式中，

为每个推荐阶段的物品数量。用户画像矫正器中的智能体在每个分幕删除一些噪声物品后，

也会随之改变。这样就可以根据其动态系数在连续的推荐阶段中自适应地更新相应物品的attention权重，进而学习到有用的信息，提高推荐的准确性。

在相应物品的attention权重的基础上，可以通过聚合所有交互过的物品的嵌入向量

得到用户画像的嵌入向量q_u。用户画像q_u可以被定义为下面的公式:

动态注意力机制以其自动性和自适应性的优势，提高了基于注意力模型的预测性能。因此，我们可将它应用于推荐系统中，特别当在用户对各种物品产生动态兴趣时。

2、DARL模型在推荐系统中的应用

如图2所示，本发明的DARL的总体框架，包括：(1)用户画像矫正器：通过删除噪声数据来修改用户画像；(2)动态注意力机制：自动调整用户偏好的变化；(3)推荐模型：向相关用户推荐目标物品。

用户画像矫正器的任务被设计为层次化的马尔可夫决策过程(Markov decisionprocesses,MDP)，其中高层动作a^h∈{0，1}决定是否修改整个用户画像ε^u，低层动作

决定删除哪个物品

基于DARL的推荐方法，具体包括：

步骤1：采用用户画像矫正器进行决策是否修改用户画像。当高层动作根据高层策略决定修改整个用户画像时,它将调用低层动作(根据低层策略)来消除噪声物品(例如

等等)，智能体在执行最后一个低层动作后将收到延迟奖励(例如,高层任务的rewardR和低级任务的内部奖励rewardG)。

步骤2：这里面临主要的挑战是，当一个用户在不同的推荐阶段对不同的物品有动态的兴趣时，如何修改用户画像。我们可以采用动态注意力机制来应对这一挑战。该机制能在每次用户画像矫正器与推荐模型交互过程中自动调整相应物品的attention权重，并根据其动态系数自适应地更新attention权重。

步骤3：分层策略更新后,利用基于修改后的用户画像q_u进行推荐模型训练,q_u通过动态注意力机制从交互过的物品的嵌入向量p_t聚合而得,然后当y＝1时(即

)，生成目标物品c_i被推荐给一个用户u的概率，将其作为一个额外的状态特征在下一分幕中提供给用户画像矫正器。

步骤4：通过步骤1到步骤3，推荐模型和用户画像矫正器通过动态注意力机制共同训练，直到最后一分幕(即推荐模型中的最后一节)结束。

步骤5：最后为用户推荐出一组最精确的目标物品。

我们的DARL框架可以通过相应物品的attention权重来自适应地跟踪用户的偏好。因为相应物品的attention权重的变化过程是连续的,DARL可以通过自适应地更新在不同推荐阶段的相应物品的attention权重来学习上下文信息,并最终选择有利因素将最相关的目标物品推荐给用户,从而提高推荐的准确性。

对于DARL中分层强化学习的目标函数，我们的目标是获得期望收益最大化的最优策略参数，如下所示：

其中θ表示策略的参数，τ表示采样的序列，P_θ(τ)是对应的抽样概率，R*(τ)为采样序列中遵循策略π的动作值函数。

这里采用蒙特卡洛策略梯度算法对状态轨迹进行采样，由此高层策略函数的参数梯度可以计算如下：

其中

是高层任务中每个采样序列τⁿ的动作值，它是一个延迟奖励。为了简单起见，这里我们省略了a，s和θ的上标h。

类似地，HRL/DR模型中低层策略函数的参数梯度可计算如下：

其中

是一个低层任务中的内部奖励，定义为在修改用户画像前后目标物品与交互过的物品的平均余弦相似度之差。为了简单起见，这里我们也省略了a，s和θ的上标l。

为了将DARL应用于推荐系统，我们还需要优化推荐模型的目标函数。

3、推荐模型优化

推荐模型根据用户动态偏好的特征，生成为用户推荐合适目标物品的概率。推荐概率输出如下：

y＝1表示目标物品c_i被推荐给一个用户u，

为了度量DARL的预测能力，这里我们采用了交叉熵误差函数(log loss)。我们将损失函数

定义为:

其中n是总训练实例的数量,σ表示一个sigmoid函数,将预测值

转换成一个概率值,即目标物品c_i与一个用户u的交互的似然值,

指的是正实例即观测交互组,和

指的是负实例即未观测交互组。

由此，推荐模型的目标函数可以定义为:

其中，防止过拟合的最小平方损失(L2)正则化的超参数为λ，w_t表示MLP中隐藏层的权重矩阵。

4.实验案例

我们以课程推荐为实验案例，证明DARL的优越性。

实验是在两个真实的数据集上进行的：MOOCCourse和MOOCCube分别来自学堂在线幕课平台(http://www.xuetangx.com)两个不同阶段的学生选课记录。其中，MOOCCourse包含1302门真实在线物品、82535名幕课用户的458453个选课记录，而MOOCCube包含706门真实在线物品、55203名幕课用户的354541个选课记录。

DARL与当前国内外最先进的物品推荐模型进行对比，并采用公认的流行评价指标，其中推荐性能的评价指标主要有HR(召回率)、NDCG(精确度)，模型预测的评价指标有交叉熵误差函数logloss(值越小表示预测更准确)。

从表1可以看出，DARL在HR和NDCG两个评价指标都高于其它推荐模型，证明了DARL的有效性，它能够明显提高推荐的准确性。

表2验证了DARL比HRL在每个推荐阶段的开销时间更少。

表1用评价指标HR(召回率)和NDCG(精确度)衡量推荐性能(％)

表2每分幕平均运行时间(秒)

如图3所示，给出了用交叉熵误差函数logloss测量模型预测性能的结果(针对不同的attention权重的平滑指数β)。其中，(a)为在数据集MOOCCourse上测试的logloss；(b)为在数据集MOOCCube上测试的logloss。

如图4所示，给出了用交叉熵误差函数logloss测量模型预测性能的结果(针对不同的attention网络隐藏层数量)。其中，(a)为在数据集MOOCCourse上测试的logloss；(b)为在数据集MOOCCube上测试的logloss。

表3用评价指标HR@10(召回率)和NDCG@10(精确度)衡量推荐性能(％)(针对不同的物品embedding大小)

如图5所示，给出了当所有学习率都设置为0.007时，用评价指标衡量推荐性能(％)的结果。其中，(a)为在数据集MOOCCourse上测试的HR。(b)为在数据集MOOCCourse上测试的NDCG。(c)为在数据集MOOCCube上测试的HR。(d)为在数据集MOOCCube上测试的NDCG。

从图3-5和表3可以证明，本发明的DARL具备较强的鲁棒性(各项评价指标针对不同的参数都是最好的)。

另外，与HRL模型相比，本系统的DARL模型在计算动态attention权重时只需要花费少许时间，且由于DARL可以更精确地修改用户画像，从而提高了策略评估的收敛速度，因此每个推荐阶段的开销时间更少。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种基于动态注意力和分层强化学习的推荐系统，其特征在于，包括：用户画像矫正器、动态注意力机制和推荐模型；

所述用户画像矫正器用于通过删除噪声数据来修改用户画像；

所述动态注意力机制用于自动调整用户偏好的变化；

所述推荐模型用于向相关用户推荐目标物品。

2.如权利要求1所述的推荐系统，其特征在于，所述用户画像矫正器的任务为层次化的马尔可夫决策过程，其中高层动作a^h∈{0，1}决定是否修改整个用户画像ε^u，低层动作

决定删除哪个物品

3.如权利要求2所述的推荐系统，其特征在于，所述用户画像矫正器基于分层强化学习，所述分层强化学习的目标是获得期望收益最大化的最优策略参数，如下所示：

4.如权利要求2所述的推荐系统，其特征在于，所述分层强化学习包括高层策略和低层策略；

所述高层策略的策略函数的参数梯度定义为：

其中，

所述低层策略的策略函数的参数梯度定义为：

其中

5.如权利要求1所述的推荐系统，其特征在于，所述动态注意力机制的结构包括：嵌入向量的输入层、基于ACF方法的交互层和具有动态权重的注意力层。

6.如权利要求5所述的推荐系统，其特征在于，所述输入层的任务为：

首先，将原始数据分解为两个矩阵：用户-物品矩阵和物品标签矩阵，在用户-物品矩阵中，每个元素表示一个用户和一个物品之间的交互，即用户u在时间t时交互过的物品

ε^u定义为一个用户画像

是通过one-hot二进制值的格式获得；在物品标签矩阵中，让C＝{c₁，…，|C|}表示为一组物品，其中目标物品向量c_i是通过one-hot二进制值的格式获得的；

然后，将每个用户-物品向量

表示为嵌入向量

并且将目标物品向量c_i表示为嵌入向量p_i；

最后，将嵌入向量

与p_i传递给交互层；

所述交互层的任务为：采用元素智能乘积计算交互过的物品的嵌入向量和交互层中的目标物品嵌入向量之间的相似度，所述相似度的计算公式为：

其中，⊙表示元素智能乘积，相似度

被参数化为嵌入向量

和p_i的内积。

7.如权利要求6所述的推荐系统，其特征在于，所述注意力层的任务为：在每次用户画像矫正器与推荐模型交互过程中自动调整相应物品的attention权重，并根据其动态系数自适应地更新attention权重，得到用户画像的嵌入向量；具体为：

采用联合嵌入向量

和p_i的用户画像矫正器来参数化attention函数

根据推荐阶段的物品数量，自动更新attention权重；

在相应物品的attention权重的基础上，通过聚合所有交互过的物品的嵌入向量

得到用户画像的嵌入向量q_u。

8.如权利要求7所述的推荐系统，其特征在于，

所述attention函数

的公式为：

和偏差向量

是多层感知器用于参数学习，d₁作为隐藏层的尺寸，d₂作为物品的嵌入尺寸，δ∈(0，1)表示随机数；D为权重尺寸，和隐藏层的尺寸d₁相关；ReLU表示线性整流函数，为隐藏层的激活函数；

所述attention权重的公式为：

其中，

为每个推荐阶段的物品数量；

所述用户画像的嵌入向量q_u被定义为：

9.如权利要求1所述的推荐系统，其特征在于，所述推荐模型的任务为：在分层策略更新后,利用基于修改后的用户画像q_u进行推荐模型训练，然后当y＝1时，生成目标物品c_i被推荐给一个用户u的概率

将所述概率

10.如权利要求9所述的推荐系统，其特征在于，所述推荐模型的目标函数定义为：

其中，

为损失函数；λ为防止过拟合的最小平方损失正则化的超参数；q_u表示用户画像的嵌入向量；p_i表示物品的嵌入向量；w_t表示多层感知器中隐藏层的权重矩阵；

所述损失函数

定义为：

指的是正实例即观测交互组，和

指的是负实例即未观测交互组；

所述推荐模型的推荐概率定义为：

其中，y＝1表示目标物品c_i被推荐给一个用户u，