CN115905691A

CN115905691A - 一种基于深度强化学习的偏好感知推荐方法

Info

Publication number: CN115905691A
Application number: CN202211415777.5A
Authority: CN
Inventors: 唐明靖; 吴迪; 高艳秀; 陈建兵
Original assignee: Yunnan Normal University
Current assignee: Yunnan Normal University
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-04-04
Anticipated expiration: 2042-11-11
Also published as: CN115905691B

Abstract

本发明提出一种基于深度强化学习的偏好感知推荐方法，在知识图谱中学习细粒度的用户‑实体‑关系的偏好信息，构建用户的异构权重图用于辅助推荐。首先，使用深度强化学习模型在知识图谱中构建用户历史项目之间的路径网络。然后，迭代地将知识图谱中历史项目节点扩散表示成簇的形式，构建簇与簇之间的路径，挖掘不同簇中节点间的潜在联系。强化学习根据分层传播路径制定相应的反馈奖励，基于对每个用户‑实体‑关系的预期回报值学习边的权重，从而生成带有细粒度用户偏好的权重知识图谱。最后，基于注意力图卷积网络聚合候选项目和用户的高阶表示，并应用于推荐系统中。本发明能增强用户的偏好特征表示，提升推荐结果的准确性与可解释性。

Description

一种基于深度强化学习的偏好感知推荐方法

技术领域

本发明涉及一种基于深度强化学习的偏好感知推荐方法，属于知识图谱、推荐系统等相关领域。

背景技术

知识图谱是一种图结构的知识库，由节点和边组成，节点表示现实世界的实体，边表示节点间的关系。由于可以提供结构化信息和语义信息，进而缓解推荐算法存在的数据稀疏和冷启动问题，知识图谱常作为外部信息辅助推荐系统。

在基于知识图谱的推荐方法中，识别用户对各种关系的偏好可以帮助推荐系统更好地了解用户的兴趣特征。以电影推荐为例，用户与某部电影产生交互(观看并标记为喜欢)时，其产生交互的原因是多种多样的，例如，用户喜欢该电影的某位主演、导演、剧本等。这些电影的属性对于用户的行为具有不同权重的影响，而这在知识图谱中就体现为用户对于实体-关系的偏好选择。

从理论上说，用户偏好的学习可以提升推荐系统的性能，增强推荐结果的可解释性。然而，用户的偏好信息具有高度的个性化特征，现有基于知识图谱的用户偏好学习往往是粗粒度的，而不是基于用户-实体-关系三元组进行计算，无法准确刻画用户的偏好特征，从而影响推荐系统的性能。

发明内容

针对现有的推荐方法没有很好地建模知识图谱中用户细粒度的偏好特征，本发明提供一种基于深度强化学习的偏好感知推荐方法，用于提升推荐系统的性能和推荐结果的可解释性。本发明利用深度强化学习和用户历史交互项获取用户的细粒度偏好特征，在知识图谱上通过游走的方法预估知识图谱中每个实体可选游走方向的潜在收益值，然后在归一化函数下将其转化为边的权重值，生成用户高阶偏好权重知识图谱。

本发明通过下列技术方案实现：一种基于深度强化学习的偏好感知推荐方法，利用图嵌入方法获取知识图谱和用户历史交互项目的拓扑结构表示，然后利用深度强化学习模型生成用户的高阶偏好权重图，最后利用注意力图卷积网络聚合候选项目和用户的嵌入表示，并基于用户嵌入表示和项目嵌入表示预测用户与项目的交互概率，完成推荐任务。

具体步骤如下：

Step1、给定知识图谱为G＝(E,R)，其中G表示知识图谱，E表示知识图谱中的实体集(顶点集)，R表示关系集(边集)，其三元组形式表示为G＝{e,r,e′|e,e′∈E,r∈R}，其中，e表示三元组中的头实体，e′表示三元组中的尾实体，r表示实体间的关系；

再进行特征提取：

Step1.1、利用图嵌入方法获取知识图谱中实体的拓扑结构表示；

Step1.2、提取用户的历史交互项目，获得项目的拓扑结构表示；

Step2、深度强化学习智能体的详细设计，包括状态、动作和奖励的具体设计，和Q网络的设计、输入与输出：

Step2.1、状态：由当前路径中所有实体在知识图谱中的拓扑信息组成，t表示强化学习智能体执行的步骤数，使用知识图谱中实体包含拓扑信息的特征表示对路径进行描述，以实体e_t表示在t步骤时强化学习智能体在路径中添加的实体，其嵌入表示为f_t，则对于路径p＝(e₁,e₂,…,e_t)的状态s_t表示为如下形式：

s_t＝[f₁；f₂；…；f_t] (1)

其中，p表示强化学习智能体构建的路径，s_t表示在步骤t时对当前路径序列的一般描述，“；”表示特征向量的拼接；

Step2.1.1、使用池化思想来简化状态s_t的表示，由于路径中的最后一个结点决定了深度强化学习模型的动作范围，对输入状态s_t进行池化，对于每个s_t＝[f₁；f₂；…；f_t]，执行以下操作：

s_m＝pooling{f₁；f₂；…；f_t-1} (2)

其中，s_m表示除路径最后一个结点的池化表示；

Step2.1.2、将它与最后一个顶点的特征拓扑向量拼接得到s_t的池化表示s_p的：

s_p＝[s_m；f_t] (3)

Step2.2、动作：指将下一个候选顶点添加到当前路径序列中，定义a_t为t时刻时执行的动作，用知识图谱中实体嵌入的向量表示；

Step2.2.1、动作的选择范围是路径序列最后一个顶点的邻居节点且未在路径序列中；

Step2.2.2、强化学习智能体根据Q(s_t,a_t)计算动作的期望奖励值选择动作，并更新状态执行下一步状态，其中，Q(s_t,a_t)是通过Q网络获得的动作的奖励值；

Step2.3、奖励：奖励反馈，以指导深度强化学习模块生成加权图，它由即时奖励和延迟反馈奖励两部分组成；

Step2.3.1、即时奖励：当路径序列中添加了其它用户的历史交互项目顶点，给予正反馈奖励，否则给予负反馈奖励，如下所示：

其中，|d|表示奖励的数值，E_u表示用户的历史交互项目集，γ是平衡超参数；

沿着知识图谱中的链接将用户历史交互项扩散到其邻居形成簇，当找到簇与簇之间路径时，模型将反向传播到起始集群中的相关节点，基于扩散迭代的层数找到所有起始簇内的潜在路径，并链接簇与簇之间的路径，在目标簇中，这些路径围绕用户交互项目中心向外扩展，分层传播路径的即时奖励设计如下：

其中，h表示簇迭代扩散的次数，r_i ^h表示迭代h次后的即时奖励；

Step2.3.2、延时反馈奖励：强化学习模型分为多个批次，基于当前批次下生成加权图，按比例采样用户的训练数据进行预测任务，进行模型估计制定延时反馈奖励。延时反馈奖励将用于平衡即时奖励的大小，其表示如下：

r_feedback＝c*Z(scores(G_u))r_iβ (6)

其中，G_u表示当前模型生成的用户权重图，scores(·)是对用户权重图的模型估计，通过将模型训练的损失值、奖励值和预期回报值进行复合计算得出，Z(·)是一个归一化函数，c是一个常数，β是一个平衡超参数；

Step2.4、Q网络的设计具体表示为：在两个ReLU层的应用后，当前路径的状态s和下一个动作a映射为神经网络的输入，输出Q(s,a)表示s状态下动作a的预期值，如下所示：

Q(s_t,a_t)＝f_θ([s_p；a_t]) (7)

其中，f_θ是强化学习的预期回报评估函数；

Step2.5、训练深度强化学习框架，在Q网络中，首先找到最大Q值对应的动作，然后使用该动作计算目标网络中的目标Q值：

其中，

表示对j步骤时Q网络下预期回报的估计，Q(·)是Q网络对当前动作的价值评估，s_j+1表示j+1步骤时的状态，a表示j+1步骤时强化学习智能体选择的动作，θ更新前Q网络的参数，θ′是更新后Q网络的参数，argmax_a′是更新后Q网络的最大价值动作，γ是平衡超参数；

Step2.6、使用均方损失函数，反向传播更新Q网络中的参数：

其中，D表示强化学习中的经验回放池(储存了训练过程中状态s、动作a、奖励r和更新后状态s′的记录)，L_RL(θ)表示θ参数下的损失；

Step3、利用深度强化学习构建用户历史交互项目间的路径网络和以项目为中心的簇与簇间的路径网络，并生成用户的高阶偏好权重图；

Step3.1、构建用户的历史交互实体项目集E_u，任何用户标记过的项目e_u∈E_u，它们共同反映了用户的喜好特征，基于|E_u|与知识图谱的规模计算扩散次数；

Step3.2、强化学习智能体随机选择一个交互实体e_u作为游走的起始顶点，将其添加进路径序列中，并以s_t＝0作为起始状态；

Step3.3、强化学习智能体以路径序列中最后一个顶点的相邻顶点作为动作范围选择下一个执行的动作，选择动作执行后将表示动作的顶点添加进路径序列p中；

Step3.4、当路径序列添加了用户交互的另一个顶点添加到路径时，将返回正奖励，并开始新的行走过程；否则，返回负奖励并继续游走；

对于每条路径，其表示为：

其中，S是路径序列和奖励的集合，e是知识图中的实体，e_u和e_u′是用户不同的历史交互项目；在构建路径时屏蔽路径中已经存在的顶点，因此路径p中不会出现闭环；

Step3.5、记录游走的动作、当前的状态和对应的奖励，并存放到强化学习的经验池当中；

Step3.6、依据训练批次判定项目是否继续向外扩散；

Step3.6.1、继续扩散，沿着知识图谱中的链接将用户历史交互项扩散到其邻居形成簇，并以簇的形式表征项目节点，再返回至Step3.2进行模型训练，并记录扩散次数；

Step3.7、当强化学习模型得到充分训练时，基于本地路径，模型可以预估出知识图谱每一个顶点到其邻居顶点的预期回报价值，从而全局生成用户的高阶兴趣偏好加权图G_u；

Step4、利用Step3步骤得到的用户偏好权重图，传播用户的偏好信息以聚合带有用户偏好特征的项目表示：

Step4.1、从顶点的局部邻域中采样聚合顶点的多跳邻居，基于加权知识图谱的注意力图卷积定义为：

其中，N(i)表示顶点i的邻居集合，σ(·)是一个激活函数，e_ji是从顶点j到顶点i的标量权重，W和b表示神经网络中的偏置矩阵和偏置参数，c_ji是顶点度的平方根积，计算如下：

Step5、预测用户与项目的交互概率；

Step5.1、从Step4得到项目的表征v，与用户的表征u计算交互概率，如下所示：

其中，F(·)是用户和项目交互的预测函数；

Step5.2、使用负采样策略迭代所有可能的用户项目对，损失函数如下所示：

其中，J是交叉熵损失函数，λ是平衡超参数，Θ是正则项系数；

Step5.3、模型性能评价：

Step5.3.1、评价指标：对应点击率预测场景，采用准确率AUC(Area UnderCurve)、ACC(Accuracy)和F1值对模型性能进行评价；对应Top-K推荐场景，采用Precision@K和Recall@K对模型性能进行评价。

本发明首先为了解决强化学习在知识图谱中存在的悬垂实体表征和长路径探索问题，设计了一种基于分层传播的路径构建方法。该方法以项目为中心向外扩展形成簇，并利用簇表征强化学习中的起始和目标状态。随着簇的迭代，可以更好地学习悬垂实体的表征和探索更远的路径。然后，在加权知识图上，设计了一种注意力图卷积网络，关注更有影响力的实体-关系对，并聚合含有细粒度偏好特征的用户和项目的高阶表示。最后，基于用户嵌入表示和项目嵌入表示进行推荐。

本发明的有益效果是：

本发明提出的推荐方法采用深度强化学习对用户历史交互项目进行学习，生成用户高阶偏好权重图，可以细粒度刻画用户的偏好特征，提升推荐系统的性能和推荐结果的可解释性，该方法可以忽略知识图谱可能存在的一些噪声，进而提升推荐系统的鲁棒性。

附图说明

图1为本发明提出的推荐方法的流程图。

具体实施方式

下面结合实施例对本发明做进一步说明。

实施例1

本方法框架由两部分组成。前半部是用户知识权重图的生成，强化学习智能体根据用户交互项获取用户的高级偏好特征。通过在知识图谱上游走的方法预估知识图谱中每个实体可选游走方向的潜在收益值，然后在归一化函数下将其转化为边的权重值，最后生成带有用户偏好的加权知识图谱。后半部分是用户加权图上的特征学习，通过多层图卷积网络聚合候选项目的表示，在聚合的过程中使用具有用户偏好的信息，并考虑到方法的效率通过抽取候选项目子图的方式局部地聚合项目的表示。最后，基于用户嵌入表示和项目嵌入表示进行推荐。

再进行特征提取：

s_t＝[f₁；f₂；…；f_t] (1)

s_m＝pooling{f₁；f₂；…；f_t-1} (2)

其中，s_m表示除路径最后一个结点的池化表示；

s_p＝[s_m；f_t] (3)

r_feedback＝c*Z(scores(G_u))r_iβ (6)

Q(s_t,a_t)＝f_θ([s_p；a_t]) (7)

其中，f_θ是强化学习的预期回报评估函数；

其中，

Step2.6、使用均方损失函数，反向传播更新Q网络中的参数：

对于每条路径，其表示为：

其中，S是路径序列和奖励的集合，e是知识图中的实体，e_u和e_y′是用户不同的历史交互项目；在构建路径时屏蔽路径中已经存在的顶点，因此路径p中不会出现闭环；

Step3.6、依据训练批次判定项目是否继续向外扩散；

Step3.7、当强化学习模型得到充分训练时，基于本地路径，模型可以预估出知识图谱每一个顶点到其邻居顶点的预期回报价值，从而全局生成用户的高阶兴趣偏好加权图G_y；

Step5、预测用户与项目的交互概率；

其中，F(·)是用户和项目交互的预测函数；

Step5.3、模型性能评价：

Step5.3.1、评价指标：对应点击率预测场景，采用准确率AUC(Area UnderCurve)、ACC(Accuracy)和F1值对模型性能进行评价；对应Top-K推荐场景，采用Precision@K和Recall@K对模型性能进行评价；

Step5.3.2、实验数据集：采用Movielens-1M和Last.FM等推荐系统领域常用公开数据集进行实验；详细信息如表1所示：

表1.数据集的详细信息

Step5.3.3、实验结果：每个数据集的训练、评估和测试集比率为8:1:1，每个实验重复10次，并报告平均性能；击率预测场景，准确率AUC、ACC和F1值的实验结果如表2所示；Top-K推荐场景，Precision@K和Recall@K的实验结果如表3所示：

表2.CTR点击预测结果

表3.Top-K推荐结果

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。