CN115905691A - 一种基于深度强化学习的偏好感知推荐方法 - Google Patents

一种基于深度强化学习的偏好感知推荐方法 Download PDF

Info

Publication number
CN115905691A
CN115905691A CN202211415777.5A CN202211415777A CN115905691A CN 115905691 A CN115905691 A CN 115905691A CN 202211415777 A CN202211415777 A CN 202211415777A CN 115905691 A CN115905691 A CN 115905691A
Authority
CN
China
Prior art keywords
user
reinforcement learning
path
action
vertex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211415777.5A
Other languages
English (en)
Other versions
CN115905691B (zh
Inventor
唐明靖
吴迪
高艳秀
陈建兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Normal University
Original Assignee
Yunnan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Normal University filed Critical Yunnan Normal University
Priority to CN202211415777.5A priority Critical patent/CN115905691B/zh
Publication of CN115905691A publication Critical patent/CN115905691A/zh
Application granted granted Critical
Publication of CN115905691B publication Critical patent/CN115905691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于深度强化学习的偏好感知推荐方法,在知识图谱中学习细粒度的用户‑实体‑关系的偏好信息,构建用户的异构权重图用于辅助推荐。首先,使用深度强化学习模型在知识图谱中构建用户历史项目之间的路径网络。然后,迭代地将知识图谱中历史项目节点扩散表示成簇的形式,构建簇与簇之间的路径,挖掘不同簇中节点间的潜在联系。强化学习根据分层传播路径制定相应的反馈奖励,基于对每个用户‑实体‑关系的预期回报值学习边的权重,从而生成带有细粒度用户偏好的权重知识图谱。最后,基于注意力图卷积网络聚合候选项目和用户的高阶表示,并应用于推荐系统中。本发明能增强用户的偏好特征表示,提升推荐结果的准确性与可解释性。

Description

一种基于深度强化学习的偏好感知推荐方法
技术领域
本发明涉及一种基于深度强化学习的偏好感知推荐方法,属于知识图谱、推荐系统等相关领域。
背景技术
知识图谱是一种图结构的知识库,由节点和边组成,节点表示现实世界的实体,边表示节点间的关系。由于可以提供结构化信息和语义信息,进而缓解推荐算法存在的数据稀疏和冷启动问题,知识图谱常作为外部信息辅助推荐系统。
在基于知识图谱的推荐方法中,识别用户对各种关系的偏好可以帮助推荐系统更好地了解用户的兴趣特征。以电影推荐为例,用户与某部电影产生交互(观看并标记为喜欢)时,其产生交互的原因是多种多样的,例如,用户喜欢该电影的某位主演、导演、剧本等。这些电影的属性对于用户的行为具有不同权重的影响,而这在知识图谱中就体现为用户对于实体-关系的偏好选择。
从理论上说,用户偏好的学习可以提升推荐系统的性能,增强推荐结果的可解释性。然而,用户的偏好信息具有高度的个性化特征,现有基于知识图谱的用户偏好学习往往是粗粒度的,而不是基于用户-实体-关系三元组进行计算,无法准确刻画用户的偏好特征,从而影响推荐系统的性能。
发明内容
针对现有的推荐方法没有很好地建模知识图谱中用户细粒度的偏好特征,本发明提供一种基于深度强化学习的偏好感知推荐方法,用于提升推荐系统的性能和推荐结果的可解释性。本发明利用深度强化学习和用户历史交互项获取用户的细粒度偏好特征,在知识图谱上通过游走的方法预估知识图谱中每个实体可选游走方向的潜在收益值,然后在归一化函数下将其转化为边的权重值,生成用户高阶偏好权重知识图谱。
本发明通过下列技术方案实现:一种基于深度强化学习的偏好感知推荐方法,利用图嵌入方法获取知识图谱和用户历史交互项目的拓扑结构表示,然后利用深度强化学习模型生成用户的高阶偏好权重图,最后利用注意力图卷积网络聚合候选项目和用户的嵌入表示,并基于用户嵌入表示和项目嵌入表示预测用户与项目的交互概率,完成推荐任务。
具体步骤如下:
Step1、给定知识图谱为G=(E,R),其中G表示知识图谱,E表示知识图谱中的实体集(顶点集),R表示关系集(边集),其三元组形式表示为G={e,r,e′|e,e′∈E,r∈R},其中,e表示三元组中的头实体,e′表示三元组中的尾实体,r表示实体间的关系;
再进行特征提取:
Step1.1、利用图嵌入方法获取知识图谱中实体的拓扑结构表示;
Step1.2、提取用户的历史交互项目,获得项目的拓扑结构表示;
Step2、深度强化学习智能体的详细设计,包括状态、动作和奖励的具体设计,和Q网络的设计、输入与输出:
Step2.1、状态:由当前路径中所有实体在知识图谱中的拓扑信息组成,t表示强化学习智能体执行的步骤数,使用知识图谱中实体包含拓扑信息的特征表示对路径进行描述,以实体et表示在t步骤时强化学习智能体在路径中添加的实体,其嵌入表示为ft,则对于路径p=(e1,e2,…,et)的状态st表示为如下形式:
st=[f1;f2;…;ft] (1)
其中,p表示强化学习智能体构建的路径,st表示在步骤t时对当前路径序列的一般描述,“;”表示特征向量的拼接;
Step2.1.1、使用池化思想来简化状态st的表示,由于路径中的最后一个结点决定了深度强化学习模型的动作范围,对输入状态st进行池化,对于每个st=[f1;f2;…;ft],执行以下操作:
sm=pooling{f1;f2;…;ft-1} (2)
其中,sm表示除路径最后一个结点的池化表示;
Step2.1.2、将它与最后一个顶点的特征拓扑向量拼接得到st的池化表示sp的:
sp=[sm;ft] (3)
Step2.2、动作:指将下一个候选顶点添加到当前路径序列中,定义at为t时刻时执行的动作,用知识图谱中实体嵌入的向量表示;
Step2.2.1、动作的选择范围是路径序列最后一个顶点的邻居节点且未在路径序列中;
Step2.2.2、强化学习智能体根据Q(st,at)计算动作的期望奖励值选择动作,并更新状态执行下一步状态,其中,Q(st,at)是通过Q网络获得的动作的奖励值;
Step2.3、奖励:奖励反馈,以指导深度强化学习模块生成加权图,它由即时奖励和延迟反馈奖励两部分组成;
Step2.3.1、即时奖励:当路径序列中添加了其它用户的历史交互项目顶点,给予正反馈奖励,否则给予负反馈奖励,如下所示:
Figure BDA0003939877390000031
其中,|d|表示奖励的数值,Eu表示用户的历史交互项目集,γ是平衡超参数;
沿着知识图谱中的链接将用户历史交互项扩散到其邻居形成簇,当找到簇与簇之间路径时,模型将反向传播到起始集群中的相关节点,基于扩散迭代的层数找到所有起始簇内的潜在路径,并链接簇与簇之间的路径,在目标簇中,这些路径围绕用户交互项目中心向外扩展,分层传播路径的即时奖励设计如下:
Figure BDA0003939877390000032
其中,h表示簇迭代扩散的次数,ri h表示迭代h次后的即时奖励;
Step2.3.2、延时反馈奖励:强化学习模型分为多个批次,基于当前批次下生成加权图,按比例采样用户的训练数据进行预测任务,进行模型估计制定延时反馈奖励。延时反馈奖励将用于平衡即时奖励的大小,其表示如下:
rfeedback=c*Z(scores(Gu))riβ (6)
其中,Gu表示当前模型生成的用户权重图,scores(·)是对用户权重图的模型估计,通过将模型训练的损失值、奖励值和预期回报值进行复合计算得出,Z(·)是一个归一化函数,c是一个常数,β是一个平衡超参数;
Step2.4、Q网络的设计具体表示为:在两个ReLU层的应用后,当前路径的状态s和下一个动作a映射为神经网络的输入,输出Q(s,a)表示s状态下动作a的预期值,如下所示:
Q(st,at)=fθ([sp;at]) (7)
其中,fθ是强化学习的预期回报评估函数;
Step2.5、训练深度强化学习框架,在Q网络中,首先找到最大Q值对应的动作,然后使用该动作计算目标网络中的目标Q值:
Figure BDA0003939877390000041
其中,
Figure BDA0003939877390000042
表示对j步骤时Q网络下预期回报的估计,Q(·)是Q网络对当前动作的价值评估,sj+1表示j+1步骤时的状态,a表示j+1步骤时强化学习智能体选择的动作,θ更新前Q网络的参数,θ′是更新后Q网络的参数,argmaxa′是更新后Q网络的最大价值动作,γ是平衡超参数;
Step2.6、使用均方损失函数,反向传播更新Q网络中的参数:
Figure BDA0003939877390000043
其中,D表示强化学习中的经验回放池(储存了训练过程中状态s、动作a、奖励r和更新后状态s′的记录),LRL(θ)表示θ参数下的损失;
Step3、利用深度强化学习构建用户历史交互项目间的路径网络和以项目为中心的簇与簇间的路径网络,并生成用户的高阶偏好权重图;
Step3.1、构建用户的历史交互实体项目集Eu,任何用户标记过的项目eu∈Eu,它们共同反映了用户的喜好特征,基于|Eu|与知识图谱的规模计算扩散次数;
Step3.2、强化学习智能体随机选择一个交互实体eu作为游走的起始顶点,将其添加进路径序列中,并以st=0作为起始状态;
Step3.3、强化学习智能体以路径序列中最后一个顶点的相邻顶点作为动作范围选择下一个执行的动作,选择动作执行后将表示动作的顶点添加进路径序列p中;
Step3.4、当路径序列添加了用户交互的另一个顶点添加到路径时,将返回正奖励,并开始新的行走过程;否则,返回负奖励并继续游走;
对于每条路径,其表示为:
Figure BDA0003939877390000044
其中,S是路径序列和奖励的集合,e是知识图中的实体,eu和eu′是用户不同的历史交互项目;在构建路径时屏蔽路径中已经存在的顶点,因此路径p中不会出现闭环;
Step3.5、记录游走的动作、当前的状态和对应的奖励,并存放到强化学习的经验池当中;
Step3.6、依据训练批次判定项目是否继续向外扩散;
Step3.6.1、继续扩散,沿着知识图谱中的链接将用户历史交互项扩散到其邻居形成簇,并以簇的形式表征项目节点,再返回至Step3.2进行模型训练,并记录扩散次数;
Step3.7、当强化学习模型得到充分训练时,基于本地路径,模型可以预估出知识图谱每一个顶点到其邻居顶点的预期回报价值,从而全局生成用户的高阶兴趣偏好加权图Gu
Step4、利用Step3步骤得到的用户偏好权重图,传播用户的偏好信息以聚合带有用户偏好特征的项目表示:
Step4.1、从顶点的局部邻域中采样聚合顶点的多跳邻居,基于加权知识图谱的注意力图卷积定义为:
Figure BDA0003939877390000051
其中,N(i)表示顶点i的邻居集合,σ(·)是一个激活函数,eji是从顶点j到顶点i的标量权重,W和b表示神经网络中的偏置矩阵和偏置参数,cji是顶点度的平方根积,计算如下:
Figure BDA0003939877390000052
Step5、预测用户与项目的交互概率;
Step5.1、从Step4得到项目的表征v,与用户的表征u计算交互概率,如下所示:
Figure BDA0003939877390000053
其中,F(·)是用户和项目交互的预测函数;
Step5.2、使用负采样策略迭代所有可能的用户项目对,损失函数如下所示:
Figure BDA0003939877390000054
其中,J是交叉熵损失函数,λ是平衡超参数,Θ是正则项系数;
Step5.3、模型性能评价:
Step5.3.1、评价指标:对应点击率预测场景,采用准确率AUC(Area UnderCurve)、ACC(Accuracy)和F1值对模型性能进行评价;对应Top-K推荐场景,采用Precision@K和Recall@K对模型性能进行评价。
本发明首先为了解决强化学习在知识图谱中存在的悬垂实体表征和长路径探索问题,设计了一种基于分层传播的路径构建方法。该方法以项目为中心向外扩展形成簇,并利用簇表征强化学习中的起始和目标状态。随着簇的迭代,可以更好地学习悬垂实体的表征和探索更远的路径。然后,在加权知识图上,设计了一种注意力图卷积网络,关注更有影响力的实体-关系对,并聚合含有细粒度偏好特征的用户和项目的高阶表示。最后,基于用户嵌入表示和项目嵌入表示进行推荐。
本发明的有益效果是:
本发明提出的推荐方法采用深度强化学习对用户历史交互项目进行学习,生成用户高阶偏好权重图,可以细粒度刻画用户的偏好特征,提升推荐系统的性能和推荐结果的可解释性,该方法可以忽略知识图谱可能存在的一些噪声,进而提升推荐系统的鲁棒性。
附图说明
图1为本发明提出的推荐方法的流程图。
具体实施方式
下面结合实施例对本发明做进一步说明。
实施例1
本方法框架由两部分组成。前半部是用户知识权重图的生成,强化学习智能体根据用户交互项获取用户的高级偏好特征。通过在知识图谱上游走的方法预估知识图谱中每个实体可选游走方向的潜在收益值,然后在归一化函数下将其转化为边的权重值,最后生成带有用户偏好的加权知识图谱。后半部分是用户加权图上的特征学习,通过多层图卷积网络聚合候选项目的表示,在聚合的过程中使用具有用户偏好的信息,并考虑到方法的效率通过抽取候选项目子图的方式局部地聚合项目的表示。最后,基于用户嵌入表示和项目嵌入表示进行推荐。
Step1、给定知识图谱为G=(E,R),其中G表示知识图谱,E表示知识图谱中的实体集(顶点集),R表示关系集(边集),其三元组形式表示为G={e,r,e′|e,e′∈E,r∈R},其中,e表示三元组中的头实体,e′表示三元组中的尾实体,r表示实体间的关系;
再进行特征提取:
Step1.1、利用图嵌入方法获取知识图谱中实体的拓扑结构表示;
Step1.2、提取用户的历史交互项目,获得项目的拓扑结构表示;
Step2、深度强化学习智能体的详细设计,包括状态、动作和奖励的具体设计,和Q网络的设计、输入与输出:
Step2.1、状态:由当前路径中所有实体在知识图谱中的拓扑信息组成,t表示强化学习智能体执行的步骤数,使用知识图谱中实体包含拓扑信息的特征表示对路径进行描述,以实体et表示在t步骤时强化学习智能体在路径中添加的实体,其嵌入表示为ft,则对于路径p=(e1,e2,…,et)的状态st表示为如下形式:
st=[f1;f2;…;ft] (1)
其中,p表示强化学习智能体构建的路径,st表示在步骤t时对当前路径序列的一般描述,“;”表示特征向量的拼接;
Step2.1.1、使用池化思想来简化状态st的表示,由于路径中的最后一个结点决定了深度强化学习模型的动作范围,对输入状态st进行池化,对于每个st=[f1;f2;…;ft],执行以下操作:
sm=pooling{f1;f2;…;ft-1} (2)
其中,sm表示除路径最后一个结点的池化表示;
Step2.1.2、将它与最后一个顶点的特征拓扑向量拼接得到st的池化表示sp的:
sp=[sm;ft] (3)
Step2.2、动作:指将下一个候选顶点添加到当前路径序列中,定义at为t时刻时执行的动作,用知识图谱中实体嵌入的向量表示;
Step2.2.1、动作的选择范围是路径序列最后一个顶点的邻居节点且未在路径序列中;
Step2.2.2、强化学习智能体根据Q(st,at)计算动作的期望奖励值选择动作,并更新状态执行下一步状态,其中,Q(st,at)是通过Q网络获得的动作的奖励值;
Step2.3、奖励:奖励反馈,以指导深度强化学习模块生成加权图,它由即时奖励和延迟反馈奖励两部分组成;
Step2.3.1、即时奖励:当路径序列中添加了其它用户的历史交互项目顶点,给予正反馈奖励,否则给予负反馈奖励,如下所示:
Figure BDA0003939877390000071
其中,|d|表示奖励的数值,Eu表示用户的历史交互项目集,γ是平衡超参数;
沿着知识图谱中的链接将用户历史交互项扩散到其邻居形成簇,当找到簇与簇之间路径时,模型将反向传播到起始集群中的相关节点,基于扩散迭代的层数找到所有起始簇内的潜在路径,并链接簇与簇之间的路径,在目标簇中,这些路径围绕用户交互项目中心向外扩展,分层传播路径的即时奖励设计如下:
Figure BDA0003939877390000081
其中,h表示簇迭代扩散的次数,ri h表示迭代h次后的即时奖励;
Step2.3.2、延时反馈奖励:强化学习模型分为多个批次,基于当前批次下生成加权图,按比例采样用户的训练数据进行预测任务,进行模型估计制定延时反馈奖励。延时反馈奖励将用于平衡即时奖励的大小,其表示如下:
rfeedback=c*Z(scores(Gu))riβ (6)
其中,Gu表示当前模型生成的用户权重图,scores(·)是对用户权重图的模型估计,通过将模型训练的损失值、奖励值和预期回报值进行复合计算得出,Z(·)是一个归一化函数,c是一个常数,β是一个平衡超参数;
Step2.4、Q网络的设计具体表示为:在两个ReLU层的应用后,当前路径的状态s和下一个动作a映射为神经网络的输入,输出Q(s,a)表示s状态下动作a的预期值,如下所示:
Q(st,at)=fθ([sp;at]) (7)
其中,fθ是强化学习的预期回报评估函数;
Step2.5、训练深度强化学习框架,在Q网络中,首先找到最大Q值对应的动作,然后使用该动作计算目标网络中的目标Q值:
Figure BDA0003939877390000082
其中,
Figure BDA0003939877390000083
表示对j步骤时Q网络下预期回报的估计,Q(·)是Q网络对当前动作的价值评估,sj+1表示j+1步骤时的状态,a表示j+1步骤时强化学习智能体选择的动作,θ更新前Q网络的参数,θ′是更新后Q网络的参数,argmaxa′是更新后Q网络的最大价值动作,γ是平衡超参数;
Step2.6、使用均方损失函数,反向传播更新Q网络中的参数:
Figure BDA0003939877390000091
其中,D表示强化学习中的经验回放池(储存了训练过程中状态s、动作a、奖励r和更新后状态s′的记录),LRL(θ)表示θ参数下的损失;
Step3、利用深度强化学习构建用户历史交互项目间的路径网络和以项目为中心的簇与簇间的路径网络,并生成用户的高阶偏好权重图;
Step3.1、构建用户的历史交互实体项目集Eu,任何用户标记过的项目eu∈Eu,它们共同反映了用户的喜好特征,基于|Eu|与知识图谱的规模计算扩散次数;
Step3.2、强化学习智能体随机选择一个交互实体eu作为游走的起始顶点,将其添加进路径序列中,并以st=0作为起始状态;
Step3.3、强化学习智能体以路径序列中最后一个顶点的相邻顶点作为动作范围选择下一个执行的动作,选择动作执行后将表示动作的顶点添加进路径序列p中;
Step3.4、当路径序列添加了用户交互的另一个顶点添加到路径时,将返回正奖励,并开始新的行走过程;否则,返回负奖励并继续游走;
对于每条路径,其表示为:
Figure BDA0003939877390000092
其中,S是路径序列和奖励的集合,e是知识图中的实体,eu和ey′是用户不同的历史交互项目;在构建路径时屏蔽路径中已经存在的顶点,因此路径p中不会出现闭环;
Step3.5、记录游走的动作、当前的状态和对应的奖励,并存放到强化学习的经验池当中;
Step3.6、依据训练批次判定项目是否继续向外扩散;
Step3.6.1、继续扩散,沿着知识图谱中的链接将用户历史交互项扩散到其邻居形成簇,并以簇的形式表征项目节点,再返回至Step3.2进行模型训练,并记录扩散次数;
Step3.7、当强化学习模型得到充分训练时,基于本地路径,模型可以预估出知识图谱每一个顶点到其邻居顶点的预期回报价值,从而全局生成用户的高阶兴趣偏好加权图Gy
Step4、利用Step3步骤得到的用户偏好权重图,传播用户的偏好信息以聚合带有用户偏好特征的项目表示:
Step4.1、从顶点的局部邻域中采样聚合顶点的多跳邻居,基于加权知识图谱的注意力图卷积定义为:
Figure BDA0003939877390000101
其中,N(i)表示顶点i的邻居集合,σ(·)是一个激活函数,eji是从顶点j到顶点i的标量权重,W和b表示神经网络中的偏置矩阵和偏置参数,cji是顶点度的平方根积,计算如下:
Figure BDA0003939877390000102
Step5、预测用户与项目的交互概率;
Step5.1、从Step4得到项目的表征v,与用户的表征u计算交互概率,如下所示:
Figure BDA0003939877390000103
其中,F(·)是用户和项目交互的预测函数;
Step5.2、使用负采样策略迭代所有可能的用户项目对,损失函数如下所示:
Figure BDA0003939877390000104
其中,J是交叉熵损失函数,λ是平衡超参数,Θ是正则项系数;
Step5.3、模型性能评价:
Step5.3.1、评价指标:对应点击率预测场景,采用准确率AUC(Area UnderCurve)、ACC(Accuracy)和F1值对模型性能进行评价;对应Top-K推荐场景,采用Precision@K和Recall@K对模型性能进行评价;
Step5.3.2、实验数据集:采用Movielens-1M和Last.FM等推荐系统领域常用公开数据集进行实验;详细信息如表1所示:
表1.数据集的详细信息
Figure BDA0003939877390000105
Figure BDA0003939877390000111
Step5.3.3、实验结果:每个数据集的训练、评估和测试集比率为8:1:1,每个实验重复10次,并报告平均性能;击率预测场景,准确率AUC、ACC和F1值的实验结果如表2所示;Top-K推荐场景,Precision@K和Recall@K的实验结果如表3所示:
表2.CTR点击预测结果
Figure BDA0003939877390000112
表3.Top-K推荐结果
Figure BDA0003939877390000113
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.一种基于深度强化学习的偏好感知推荐方法,其特征在于:利用图嵌入方法获取知识图谱和用户历史交互项目的拓扑结构表示,然后利用深度强化学习模型生成用户的高阶偏好权重图,最后利用注意力图卷积网络聚合候选项目和用户的嵌入表示,并基于用户嵌入表示和项目嵌入表示预测用户与项目的交互概率,完成推荐任务。
2.根据权利要求1所述的基于深度强化学习的偏好感知推荐方法,其特征在于:具体步骤如下:
Step1、给定知识图谱为G=(E,R),其中G表示知识图谱,E表示知识图谱中的实体集,R表示关系集,其三元组形式表示为G={e,r,e′|e,e′∈E,r∈R},其中,e表示三元组中的头实体,e′表示三元组中的尾实体,r表示实体间的关系;
再进行特征提取:
Step1.1、利用图嵌入方法获取知识图谱中实体的拓扑结构表示;
Step1.2、提取用户的历史交互项目,获得项目的拓扑结构表示;
Step2、深度强化学习智能体的详细设计,包括状态、动作和奖励的具体设计,和Q网络的设计、输入与输出:
Step2.1、状态:由当前路径中所有实体在知识图谱中的拓扑信息组成,t表示强化学习智能体执行的步骤数,使用知识图谱中实体包含拓扑信息的特征表示对路径进行描述,以实体et表示在t步骤时强化学习智能体在路径中添加的实体,其嵌入表示为ft,则对于路径p=(e1,e2,…,et)的状态st表示为如下形式:
st=[f1;f2;...;ft] (1)
其中,p表示强化学习智能体构建的路径,st表示在步骤t时对当前路径序列的一般描述,“;”表示特征向量的拼接;
Step2.1.1、由于路径中的最后一个结点决定了深度强化学习模型的动作范围,对输入状态st进行池化,对于每个st=[f1;f2;…;ft],执行以下操作:
sm=pooling{f1;f2;...;ft-1} (2)
其中,sm表示除路径最后一个结点的池化表示;
Step2.1.2、将它与最后一个顶点的特征拓扑向量拼接得到st的池化表示sp的:
sp=[sm;ft] (3)
Step2.2、动作:指将下一个候选顶点添加到当前路径序列中,定义at为t时刻时执行的动作,用知识图谱中实体嵌入的向量表示;
Step2.2.1、动作的选择范围是路径序列最后一个顶点的邻居节点且未在路径序列中;
Step2.2.2、强化学习智能体根据Q(st,at)计算动作的期望奖励值选择动作,并更新状态执行下一步状态,其中,Q(st,at)是通过Q网络获得的动作的奖励值;
Step2.3、奖励:奖励反馈,以指导深度强化学习模块生成加权图,它由即时奖励和延迟反馈奖励两部分组成;
Step2.3.1、即时奖励:当路径序列中添加了其它用户的历史交互项目顶点,给予正反馈奖励,否则给予负反馈奖励,如下所示:
Figure FDA0003939877380000021
其中,|d|表示奖励的数值,Eu表示用户的历史交互项目集,γ是平衡超参数;
沿着知识图谱中的链接将用户历史交互项扩散到其邻居形成簇,当找到簇与簇之间路径时,模型将反向传播到起始集群中的相关节点,基于扩散迭代的层数找到所有起始簇内的潜在路径,并链接簇与簇之间的路径,在目标簇中,这些路径围绕用户交互项目中心向外扩展,分层传播路径的即时奖励设计如下:
Figure FDA0003939877380000022
其中,h表示簇迭代扩散的次数,
Figure FDA0003939877380000023
表示迭代h次后的即时奖励;
Step2.3.2、延时反馈奖励:强化学习模型分为多个批次,基于当前批次下生成加权图,按比例采样用户的训练数据进行预测任务,进行模型估计制定延时反馈奖励。延时反馈奖励将用于平衡即时奖励的大小,其表示如下:
rfeedback=c*Z(scores(Gu))riβ (6)
其中,Gu表示当前模型生成的用户权重图,scores(·)是对用户权重图的模型估计,通过将模型训练的损失值、奖励值和预期回报值进行复合计算得出,Z(·)是一个归一化函数,c是一个常数,β是一个平衡超参数;
Step2.4、Q网络的设计具体表示为:在两个ReLU层的应用后,当前路径的状态s和下一个动作a映射为神经网络的输入,输出Q(s,a)表示s状态下动作a的预期值,如下所示:
Q(st,at)=fθ([sp;at]) (7)
其中,fθ是强化学习的预期回报评估函数;
Step2.5、训练深度强化学习框架,在Q网络中,首先找到最大Q值对应的动作,然后使用该动作计算目标网络中的目标Q值:
Figure FDA0003939877380000031
其中,
Figure FDA0003939877380000032
表示对j步骤时Q网络下预期回报的估计,Q(·)是Q网络对当前动作的价值评估,sj+1表示j+1步骤时的状态,a表示j+1步骤时强化学习智能体选择的动作,θ更新前Q网络的参数,θ′是更新后Q网络的参数,argmaxa′是更新后Q网络的最大价值动作,γ是平衡超参数;
Step2.6、使用均方损失函数,反向传播更新Q网络中的参数:
Figure FDA0003939877380000033
其中,D表示强化学习中的经验回放池(储存了训练过程中状态s、动作a、奖励r和更新后状态s′的记录),LRL(θ)表示θ参数下的损失;
Step3、利用深度强化学习构建用户历史交互项目间的路径网络和以项目为中心的簇与簇间的路径网络,并生成用户的高阶偏好权重图;
Step3.1、构建用户的历史交互实体项目集Eu,任何用户标记过的项目eu∈Eu,它们共同反映了用户的喜好特征,基于|Eu|与知识图谱的规模计算扩散次数;
Step3.2、强化学习智能体随机选择一个交互实体eu作为游走的起始顶点,将其添加进路径序列中,并以st=0作为起始状态;
Step3.3、强化学习智能体以路径序列中最后一个顶点的相邻顶点作为动作范围选择下一个执行的动作,选择动作执行后将表示动作的顶点添加进路径序列p中;
Step3.4、当路径序列添加了用户交互的另一个顶点添加到路径时,将返回正奖励,并开始新的行走过程;否则,返回负奖励并继续游走;
对于每条路径,其表示为:
Figure FDA0003939877380000041
其中,S是路径序列和奖励的集合,e是知识图中的实体,eu和eu′是用户不同的历史交互项目;
Step3.5、记录游走的动作、当前的状态和对应的奖励,并存放到强化学习的经验池当中;
Step3.6、依据训练批次判定项目是否继续向外扩散;
Step3.6.1、继续扩散,沿着知识图谱中的链接将用户历史交互项扩散到其邻居形成簇,并以簇的形式表征项目节点,再返回至Step3.2进行模型训练,并记录扩散次数;
Step3.7、当强化学习模型得到充分训练时,基于本地路径,模型预估出知识图谱每一个顶点到其邻居顶点的预期回报价值,从而全局生成用户的高阶兴趣偏好加权图Gu
Step4、利用Step3步骤得到的用户偏好权重图,传播用户的偏好信息以聚合带有用户偏好特征的项目表示:
Step4.1、从顶点的局部邻域中采样聚合顶点的多跳邻居,基于加权知识图谱的注意力图卷积定义为:
Figure FDA0003939877380000042
其中,N(i)表示顶点i的邻居集合,σ(·)是一个激活函数,eji是从顶点j到顶点i的标量权重,W和b表示神经网络中的偏置矩阵和偏置参数,cji是顶点度的平方根积,计算如下:
Figure FDA0003939877380000043
Step5、预测用户与项目的交互概率;
Step5.1、从Step4得到项目的表征v,与用户的表征u计算交互概率,如下所示:
Figure FDA0003939877380000044
其中,F(·)是用户和项目交互的预测函数;
Step5.2、使用负采样策略迭代所有可能的用户项目对,损失函数如下所示:
Figure FDA0003939877380000051
其中,J是交叉熵损失函数,λ是平衡超参数,Θ是正则项系数;
Step5.3、模型性能评价:
Step5.3.1、评价指标:对应点击率预测场景,采用准确率AUC、ACC和F1值对模型性能进行评价;对应Top-K推荐场景,采用Precision@K和Recall@K对模型性能进行评价。
CN202211415777.5A 2022-11-11 2022-11-11 一种基于深度强化学习的偏好感知推荐方法 Active CN115905691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211415777.5A CN115905691B (zh) 2022-11-11 2022-11-11 一种基于深度强化学习的偏好感知推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211415777.5A CN115905691B (zh) 2022-11-11 2022-11-11 一种基于深度强化学习的偏好感知推荐方法

Publications (2)

Publication Number Publication Date
CN115905691A true CN115905691A (zh) 2023-04-04
CN115905691B CN115905691B (zh) 2024-06-18

Family

ID=86477188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211415777.5A Active CN115905691B (zh) 2022-11-11 2022-11-11 一种基于深度强化学习的偏好感知推荐方法

Country Status (1)

Country Link
CN (1) CN115905691B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932926A (zh) * 2023-09-14 2023-10-24 深圳酷宅科技有限公司 应用于智能家居控制的数据分析方法及系统
CN117952185A (zh) * 2024-03-15 2024-04-30 中国科学技术大学 基于多维度数据评估的金融领域大模型训练方法及系统
CN117972231A (zh) * 2024-04-01 2024-05-03 安徽思高智能科技有限公司 一种rpa项目推荐方法及存储介质、电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190179858A1 (en) * 2017-12-11 2019-06-13 Facebook, Inc. Fast Indexing with Graphs and Compact Regression Codes on Online Social Networks
CN110275964A (zh) * 2019-06-26 2019-09-24 程淑玉 基于知识图谱与循环神经网络的推荐模型
CN110462612A (zh) * 2017-02-17 2019-11-15 凯恩迪股份有限公司 使用在网络节点处具有软件代理的网络进行机器学习并然后对网络节点进行排名的方法和装置
US20190392321A1 (en) * 2018-02-01 2019-12-26 Juyang Weng Developmental Network Two, Its Optimality, and Emergent Turing Machines
US20200104726A1 (en) * 2018-09-29 2020-04-02 VII Philip Alvelda Machine learning data representations, architectures, and systems that intrinsically encode and represent benefit, harm, and emotion to optimize learning
CN111523010A (zh) * 2019-02-03 2020-08-11 阿里巴巴集团控股有限公司 推荐方法、装置、终端设备及计算机存储介质
CN112989024A (zh) * 2021-03-29 2021-06-18 腾讯科技(深圳)有限公司 文本内容的关系提取方法、装置、设备及存储介质
CN114117220A (zh) * 2021-11-26 2022-03-01 东北大学 基于知识增强的深度强化学习交互式推荐系统及方法
CN114637857A (zh) * 2022-03-17 2022-06-17 广西师范大学 一种基于去噪的知识感知图卷积网络推荐方法
CN115168744A (zh) * 2022-08-09 2022-10-11 舟山广播电视总台 基于用户画像和知识图谱的广电技术知识推荐方法
CN115270004A (zh) * 2022-09-28 2022-11-01 云南师范大学 一种基于场因子分解的教育资源推荐方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110462612A (zh) * 2017-02-17 2019-11-15 凯恩迪股份有限公司 使用在网络节点处具有软件代理的网络进行机器学习并然后对网络节点进行排名的方法和装置
US20190179858A1 (en) * 2017-12-11 2019-06-13 Facebook, Inc. Fast Indexing with Graphs and Compact Regression Codes on Online Social Networks
US20190392321A1 (en) * 2018-02-01 2019-12-26 Juyang Weng Developmental Network Two, Its Optimality, and Emergent Turing Machines
US20200104726A1 (en) * 2018-09-29 2020-04-02 VII Philip Alvelda Machine learning data representations, architectures, and systems that intrinsically encode and represent benefit, harm, and emotion to optimize learning
CN111523010A (zh) * 2019-02-03 2020-08-11 阿里巴巴集团控股有限公司 推荐方法、装置、终端设备及计算机存储介质
CN110275964A (zh) * 2019-06-26 2019-09-24 程淑玉 基于知识图谱与循环神经网络的推荐模型
CN112989024A (zh) * 2021-03-29 2021-06-18 腾讯科技(深圳)有限公司 文本内容的关系提取方法、装置、设备及存储介质
CN114117220A (zh) * 2021-11-26 2022-03-01 东北大学 基于知识增强的深度强化学习交互式推荐系统及方法
CN114637857A (zh) * 2022-03-17 2022-06-17 广西师范大学 一种基于去噪的知识感知图卷积网络推荐方法
CN115168744A (zh) * 2022-08-09 2022-10-11 舟山广播电视总台 基于用户画像和知识图谱的广电技术知识推荐方法
CN115270004A (zh) * 2022-09-28 2022-11-01 云南师范大学 一种基于场因子分解的教育资源推荐方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MARTEL, F等: "Taxonomy Extraction Using Knowledge Graph Embeddings and Hierarchical Clustering", 《6TH ANNUAL ACM SYMPOSIUM ON APPLIED COMPUTING (SAC)》, 1 January 2021 (2021-01-01), pages 836 - 844 *
ZHANG L等: "KCRec: Knowledge-aware representation graph convolutional network for recommendation", 《KNOWLEDGE-BASED SYSTEMS》, vol. 230, 31 August 2021 (2021-08-31), pages 1 - 13, XP086770385, DOI: 10.1016/j.knosys.2021.107399 *
刘勤等: "基于知识图谱用户偏好传播的实体推荐模型", 《计算机应用研究》, vol. 37, no. 10, 5 October 2020 (2020-10-05), pages 2926 - 2931 *
吴博等: "图神经网络前沿进展与应用", 《图神经网络前沿进展与应用》, vol. 45, no. 01, 15 January 2022 (2022-01-15), pages 35 - 68 *
吴迪: "基于多元用户表示优化与细粒度偏好感知的推荐系统", 《中国优秀硕士学位论文全文数据库·信息科技辑》, 31 May 2023 (2023-05-31), pages 1 - 66 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932926A (zh) * 2023-09-14 2023-10-24 深圳酷宅科技有限公司 应用于智能家居控制的数据分析方法及系统
CN116932926B (zh) * 2023-09-14 2023-11-17 深圳酷宅科技有限公司 应用于智能家居控制的数据分析方法及系统
CN117952185A (zh) * 2024-03-15 2024-04-30 中国科学技术大学 基于多维度数据评估的金融领域大模型训练方法及系统
CN117972231A (zh) * 2024-04-01 2024-05-03 安徽思高智能科技有限公司 一种rpa项目推荐方法及存储介质、电子设备
CN117972231B (zh) * 2024-04-01 2024-06-11 安徽思高智能科技有限公司 一种rpa项目推荐方法及存储介质、电子设备

Also Published As

Publication number Publication date
CN115905691B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN110928993B (zh) 基于深度循环神经网络的用户位置预测方法及系统
CN115905691A (zh) 一种基于深度强化学习的偏好感知推荐方法
JP5789204B2 (ja) マルチリレーショナル環境において項目を推薦するためのシステム及び方法
CN116569189A (zh) 被配置为在机器学习模型中实现动态离群值偏倚减少的基于计算机的系统、计算组件和计算对象
Huang et al. Pattern trees induction: A new machine learning method
CN111104595A (zh) 一种基于文本信息的深度强化学习交互式推荐方法及系统
Rahman et al. Discretization of continuous attributes through low frequency numerical values and attribute interdependency
US20220366257A1 (en) Small and Fast Video Processing Networks via Neural Architecture Search
Konstantakopoulos et al. Design, benchmarking and explainability analysis of a game-theoretic framework towards energy efficiency in smart infrastructure
WO2022166125A1 (en) Recommendation system with adaptive weighted baysian personalized ranking loss
Ahmadian et al. Integration of deep sparse autoencoder and particle swarm optimization to develop a recommender system
CN115186097A (zh) 一种基于知识图谱和强化学习的交互式推荐方法
WO2023279674A1 (en) Memory-augmented graph convolutional neural networks
US20220198260A1 (en) Multi-level multi-objective automated machine learning
CN115599990A (zh) 一种知识感知结合深度强化学习的跨域推荐方法及系统
Veran et al. Interpretable hierarchical symbolic regression for safety-critical systems with an application to highway crash prediction
CN117033793A (zh) 一种基于强化学习和路径推理的可解释推荐方法
CN116962983A (zh) 基于深度逆向强化学习的出行路径决策分析方法及设备
Taylor et al. Interactive multiobjective optimisation: Preference changes and algorithm responsiveness
US20210248458A1 (en) Active learning for attribute graphs
Luo et al. RLMob: Deep reinforcement learning for successive mobility prediction
CN111125541B (zh) 面向多用户的可持续多云服务组合的获取方法
Saha et al. How Does User Behavior Evolve During Exploratory Visual Analysis?
Khurana et al. Autonomous predictive modeling via reinforcement learning
Marco et al. Improving Conditional Variational Autoencoder with Resampling Strategies for Regression Synthetic Project Generation.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant