CN114996584A - 基于深度强化学习的多样性感知交互推荐方法 - Google Patents

基于深度强化学习的多样性感知交互推荐方法 Download PDF

Info

Publication number
CN114996584A
CN114996584A CN202210726897.0A CN202210726897A CN114996584A CN 114996584 A CN114996584 A CN 114996584A CN 202210726897 A CN202210726897 A CN 202210726897A CN 114996584 A CN114996584 A CN 114996584A
Authority
CN
China
Prior art keywords
user
behavior
action
time
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210726897.0A
Other languages
English (en)
Other versions
CN114996584B (zh
Inventor
史晓雨
尚明生
刘泉亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Institute of Green and Intelligent Technology of CAS
Original Assignee
Chongqing Institute of Green and Intelligent Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Institute of Green and Intelligent Technology of CAS filed Critical Chongqing Institute of Green and Intelligent Technology of CAS
Priority to CN202210726897.0A priority Critical patent/CN114996584B/zh
Publication of CN114996584A publication Critical patent/CN114996584A/zh
Application granted granted Critical
Publication of CN114996584B publication Critical patent/CN114996584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为基于深度强化学习的多样性感知交互推荐方法,属于大数据深度学习领域。该方法包含以下步骤:S1:录入用户与项目的历史交互行为数据,对数据进行预处理;S2:利用建立用户的长短期偏好模型,得到用户的行为表征;S3:建立异质图网络,得到上下文知识表征;S4:分建立对应的知识级别奖励函数和行为级别奖励函数,并合成为带有容错策略的复合奖励函数;S5:对动作空间进行动作过滤;S6:按照一定的概率随机选取项目,构成压缩后的动作空间;S7:搭建基于强化学习网络的推荐系统,并进行训练;S8:利用训练好的推荐系统对用户进行项目推荐。本发明方法能够增强用户偏好不确定的表征能力,提升了推荐系统的多样性、鲁棒性和用户体验感。

Description

基于深度强化学习的多样性感知交互推荐方法
技术领域
本发明涉及基于深度强化学习的多样性感知交互推荐方法,属于大数据人工智能领域,尤其适用于基于深度强化学习的多样性感知交互推荐。
背景技术
随着互联网和自动技术的飞速发展,现在越来越多的人都拥有智能手机,平板电脑和其他智能终端,这使得生产、生活的数据信息呈爆炸式增长,这就导致了信息超载问题。当用户在搜索其感兴趣的信息时,会花费大量的时间和精力去过滤掉无用的信息,然而结果往往无法让用户的满意,于是,个性化推荐技术应时而生。个性化推荐技术是指利用用户某种兴趣点和购买特点,向用户推荐感兴趣的内容,是解决信息超载问题的有效途径。
虽然通过融合深度学习技术,序列推荐系统的性能得到了大幅的提升。但现有方法更侧重于拟合用户历史交互行为。它们有着类似的搭建方式,即在充分获取用户历史数据的前提下,设计并训练特定的监督模型,从而得到用户对于不同物品的喜好程度。在此,人们往往假设用户数据已充分获取,且其行为会在较长时间之内保持稳定,使得上述过程中所建立的推荐模型得难以应付实际中的需求。对于诸多现实的推荐场景,用户偏好存在不确定性。在推荐系统与用户持续交互的过程中,用户的偏好通常会显著地随着推荐结果的不同而发生动态漂移。因此,这就需要推荐算法充分考虑用户偏好不确定性所带来的短期和长期效应。短期效应主要体现在推荐多样性的下降,而长期效应则是指随着时间的推移,由用户偏好不确定产生的推荐偏差会被逐渐放大,从而导致推荐系统最终失效。但相应解决此问题的研究仍然不多,比较常见的做法是引入其它的指标来评估推荐性能,比如通过引入多样性,使得在保证精度的同时确保推荐列表包含更多不同类别的项目。但同时追求多个指标的推荐算法虽然可以用于部分解决用户偏好不确定性带来的短期影响问题,但其设计之初并不是为了解决面向用户偏好不确定的序列推荐问题,因此在类似序列推荐这种持续长期运行的系统中仍然可能存在问题。
发明内容
有鉴于此,本发明提供基于深度强化学习的多样性感知交互推荐方法,一方面,最大熵强化学习由于在目标函数中加入了信息熵来表示行动的不确定性程度,使其可以以不同的组合方式来探索各种最优的可能性,也更有利智能体在面对干扰的时候能够更容易做出调整;另一方面,针对性的序列奖励函数建模方法又对推荐策略学习算法有更强的指导作用;两者的巧妙结合,从而为解决基于用户偏好不确定性的长效序列推荐问题提供了有力的解决方案。
为达到上述目的,本发明提供如下技术方案:
基于深度强化学习的多样性感知交互推荐方法,由强化学习网络构成的推荐系统实现,所述的基于强化学习网络的推荐系统由一个包含五个元素(S,A,R,p,γ)的元组组成,其中,R为回报函数,p为状态转移概率,γ为折扣因子;所述的用户在当前时刻的状态被抽象表征成为状态空间S;所述的所有可进行推荐的项目集合I被当作动作空间A;其特征在于,结合图2,该方法包含以下步骤:
S1:录入用户与项目的历史交互行为数据,对数据进行预处理;
S2:针对动作空间A中的用户行为,利用建立用户的长短期偏好模型,得到用户的行为表征;
S3:针对动作空间A,建立异质图网络,建立用户、项目、时间三者之间的上下文知识表征;
S4:分别对上下文知识表征和用户行为表征建立对应的知识级别奖励函数和行为级别奖励函数,并合成为带有容错策略的复合奖励函数;
S5:根据历史交互数据中上一时刻的用户选择的项目,对动作空间A进行动作过滤,得到两个候选项目集合:相似项目集合和多样性项目集合;
S6:按照一定的概率ρ从相似项目集合中随机选取项目,并按照概率1-ρ从多样性项目集合中随机选取项目,构成压缩后的动作空间
Figure BSA0000276120050000021
S7:搭建基于强化学习网络的推荐系统,将Concat连接的用户行为表征和上下文知识表征作为强化学习推荐系统的状态空间S,复合奖励函数作为回报函数R,压缩后的动作空间
Figure BSA0000276120050000022
作为新的动作空间,并利用历史交互数据对网络参数进行训练;
S8:利用训练好的推荐系统对用户进行项目推荐;
所述的用户为u∈U=[u1,u2,...,um];所述的项目的集合为I=[i1,i2,…,in];所述的用户行为P是统计用户和项目之间交互行为,P需要按照自定义的时间窗口T=[T1,T2,…,Tk]分割为k个单元,即
Figure BSA0000276120050000023
是m×n×k维的向量,0≤ρ≤1。
进一步,步骤S1所述的对数据进行预处理包括:(1)删除重复数据和缺失、错误数据;(2)统计汇总用户、项目和用户与项目的交互行为;(3)剔除交互行为太少用户数据,避免冷启动。
进一步,所述的步骤S2具体为:
S201:利用自动编码器对用户的时间窗口T分别进行编码,得到时间编号
Figure BSA0000276120050000024
S202:将用户u对应的动作空间A的用户行为
Figure BSA0000276120050000025
和时间编号
Figure BSA0000276120050000026
的元素分别输入到双向长短时记忆循环网络抽取得到每个时间窗口的用户u的行为信息;
S203:利用多头注意力机制,将每个时间窗口的用户u的行为信息融合得到用户行为表征
Figure BSA0000276120050000027
可优选的,自定义的时间通常选取一天、一周或一个月,要保证每个时间分组内都有历史交互相关数据,且尽可能的兼顾单元数量k足够多和单元内历史交互相关数据足够多。
进一步,所述的步骤S3具体为:
S301:利用自动编码器对动作空间A中的项目ij进行编码,得到项目编号
Figure BSA0000276120050000031
其中,1≤j≤n;
S302:利用自动编码器对用户和时间窗口T分别进行编码,得到用户编号eu和时间编号
Figure BSA0000276120050000032
S303:利用多层感知机将动作空间A中的用户历史行为对应的项目集合编号进行感知压缩,得到项目的聚合特征;
S304:利用图卷积神经网络将用户编号eu、项目聚合特征和时间编号
Figure BSA0000276120050000033
进行串联操作,得到用户、项目、时间三者之间的上下文知识表征
Figure BSA0000276120050000034
进一步,步骤S4所述的行为级别奖励函数为
Figure BSA0000276120050000035
其中,
Figure BSA0000276120050000036
iT是用户在时间窗口T时的历史交互行为对应的项目序列;
Figure BSA0000276120050000037
是用户在时间窗口T时推荐系统推荐的项目序列;sl是iT中的子序列,L为iT中所有子序列的数量;#(sl,iT)为子序列sl在序列iT中出现的次数,
Figure BSA0000276120050000038
为子序列sl在序列
Figure BSA0000276120050000039
中出现的次数;
所述的知识级别奖励函数为
Figure BSA00002761200500000310
其中,dT为序列iT的知识表示,
Figure BSA00002761200500000311
为序列
Figure BSA00002761200500000312
的知识表示的转置,
Figure BSA00002761200500000313
为序列iT的知识表示的模,
Figure BSA00002761200500000314
为序列
Figure BSA00002761200500000315
的知识表示的模,R2的取值范围在[0,l]之间。
进一步,步骤S5所述的动作过滤具体为:按照与用户上一时刻选择项目的相似度对动作空间A的项目进行排序,前x项构成相似项目集合,后n-x项构成多样性项目集合。
进一步,步骤S7所述的训练方法为SAC(soft actor-critic)方法,该方法以Concat连接的用户行为表征和上下文知识表征作为强化学习推荐系统的状态空间S,复合奖励函数作为回报函数R,压缩后的动作空间
Figure BSA0000276120050000041
作为动作空间A;具体为:
S701:以用户当前的状态为st为Actor网络的输入,得到A中动作的Q值分布Q(st,A),对Q值分布进行SoftMax操作得到Q值的概率分布P(A|st),进而根据熵值的计算公式得到当前状态为st时动作A的熵值H(π(st));
所述熵值的计算公式为:
Figure BSA0000276120050000042
其中,π(st)为状态st时选择动作at的策略,在这里为依Q值的概率分布选取;
S702:依概率P(A|st)任意选取一动作at,得到下一时刻状态st+1为Critic网络的输入,得到动作at在状态st+1时的Q值Q(st+1,at),同时根据考虑熵值评判动作价值的公式计算考虑熵值H(π(st))评判动作的价值;
所述考虑熵值评判动作价值的公式为:
Figure BSA0000276120050000043
其中,Q(st,at)为状态为st时动作at的Q值,-logπ(at|st)为状态为st时策略π的熵值。
本发明的有益效果在于:本发明提供了基于深度强化学习的多样性感知交互推荐方法,提出了融合用户行为表征和上下文知识表征的复合奖励函数,并利用最大熵强化学习,增强用户偏好不确定的表征能力,提升了推荐系统的多样性、鲁棒性和用户体验感。
附图说明
为了使本发明的目的、技术方案,本发明提供如下附图进行说明:
图1为基于强化学习网络的推荐系统迭代示意图;
图2为本发明的流程框架图;
图3为本发明实施例1中用户长短期偏好模型图;
图4为本发明实施例1的异质图的上下文知识表征方法流程图。
具体实施方式
为使本发明的目的和技术方案更加清晰明白,下面结合附图及实施例对本发明进行详细的描述。
实施例:Movie-Lens是一个基于评分的电影推荐系统,由美国明尼苏达州大学Group-Lens研究小组创建,其中包括100KB、1MB、10MB三个规模的数据集,专门用于研究推荐技术。针对Movie-Lens 1MB的用户电影数据集——其中包括6040名用户对3900部电影的1000209个评分记录,且每个用户至少对20部电影进行评分,评分范围是1-5分,用户对某电影的评分值越高则说明用户越喜欢这部电影,该数据集构建的用户项目评分矩阵稀疏度为95.83%——本实施例提供了“基于深度强化学习的多样性感知交互推荐方法”。为更好的展示和验证本发明方法的性能,在此将把该用户电影数据集按8∶2的比例分割以便进行交叉验证,即将80%的用户电影数据作为训练集,20%作为测试集。
其中,用户u∈U=[u1,u2,…,u6040],所述的项目的集合为I=[i1,i2,…,i3900],所述的用户行为是统计用户和项目之间交互行为的6040×3900×30维的矩阵,将时间窗口等分为30个单元,T=[T1,T2,…,T30]为时间维度。
进一步,所述的强化学习网络的推荐系统由一个包含五个元素(S,A,R,p,γ)的元组组成,其中,R为回报函数,p为状态转移概率,γ为折扣因子;所述的用户在当前时刻的状态被抽象表征成为状态空间S;所述的所有可进行推荐的项目集合I被当作动作空间A;强化学习网络构架如图1所示。
结合图2,该方法包含以下步骤:
步骤一:对数据进行预处理包括:(1)删除重复数据和缺失、错误数据;(2)统计汇总用户、项目和用户与项目的交互行为;(3)剔除交互行为太少用户数据,避免冷启动。
步骤二:结合图3,针对动作空间A中的用户行为,利用建立用户的长短期偏好模型,得到用户的行为表征。具体为:
(1)利用One-Hot编码器将用户u发生历史用户行为的时间分别进行编码,得到用户uj的时间编号
Figure BSA0000276120050000051
(2)将对应的动作空间A的用户历史行为
Figure BSA0000276120050000052
和用户u的时间编号
Figure BSA0000276120050000053
的元素分别输入到双向长短时记忆循环网络(Bi-directional LSTM RNN)抽取得到30个时间段的用户u的行为信息;
(3)利用多头注意力机制,将每个时间窗口的用户u的行为信息融合得到用户行为表征
Figure BSA0000276120050000054
步骤三:结合图4,针对动作空间A,建立异质图网络,建立用户、项目、时间之间的上下文知识表征。具体为:
(1)利用One-Hot编码器对动作空间A中的项目ij进行编码,得到项目编号
Figure BSA0000276120050000055
其中,1≤j≤3900;
(2)利用One-Hot编码器对用户和时间窗口T分别进行编码,得到用户编号eu和时间编号
Figure BSA0000276120050000056
(3)利用多层感知机将压缩后的动作空间
Figure BSA0000276120050000057
中的用户历史行为对应的项目集合编号进行感知压缩,得到项目的聚合特征;
(4)利用图卷积神经网络将用户编号eu、项目聚合特征和时间编号
Figure BSA0000276120050000061
进行串联操作,得到用户、项目、时间三者之间的上下文知识表征
Figure BSA0000276120050000062
步骤四:分别对上下文知识表征和用户行为表征建立对应的知识级别奖励函数和行为级别奖励函数,并合成为带有容错策略的复合奖励函数。
所述的行为级别奖励函数为
Figure BSA0000276120050000063
其中,
Figure BSA0000276120050000064
iT是用户在时间窗口T时的历史交互行为对应的项目序列;
Figure BSA0000276120050000065
是用户在时间窗口T时推荐系统推荐的项目序列;sl是iT中的子序列,L为iT中所有子序列的数量;#(sl,iT)为子序列sl在序列iT中出现的次数,
Figure BSA0000276120050000066
为子序列sl在序列
Figure BSA0000276120050000067
中出现的次数;
所述的知识级别奖励函数为
Figure BSA0000276120050000068
其中,dT为序列iT的知识表示,
Figure BSA0000276120050000069
为序列
Figure BSA00002761200500000610
的知识表示的转置,
Figure BSA00002761200500000611
为序列iT的知识表示的模,
Figure BSA00002761200500000612
为序列
Figure BSA00002761200500000613
的知识表示的模,R2的取值范围在[0,1]之间。
步骤五:根据历史交互数据中上一时刻的用户选择的项目,对动作空间A进行按照与用户上一时刻选择项目的相似度对动作空间A的项目进行排序,前x项构成相似项目集合,后n-x项构成多样性项目集合。
步骤六:按照一定的概率ρ=0.8从相似项目集合中随机选取项目,并按照概率1-ρ从多样性项目集合中随机选取项目,构成压缩后的动作空间
Figure BSA00002761200500000614
步骤七:搭建基于强化学习网络的推荐系统,将Concat连接的用户行为表征和上下文知识表征作为强化学习推荐系统的状态空间S,复合奖励函数作为回报函数R,并利用历史交互数据对网络参数进行训练。
所述的训练方法为SAC(soft actor-critic)方法,该方法以Concat连接的用户行为表征和上下文知识表征作为强化学习推荐系统的状态空间S,复合奖励函数作为回报函数R,压缩后的动作空间
Figure BSA00002761200500000615
作为动作空间A;具体为:
(1)以用户当前的状态为st为Actor网络的输入,得到A中动作的Q值分布Q(st,A),对Q值分布进行SoftMax操作得到Q值的概率分布P(A|st),进而根据熵值的计算公式得到当前状态为st时动作A的熵值H(π(st));
所述熵值的计算公式为:
Figure BSA0000276120050000071
其中,π(st)为状态st时选择动作at的策略,在这里为依Q值的概率分布选取;
(2)依概率P(A|st)任意选取一动作at,得到下一时刻状态st+1为Critic网络的输入,得到动作at在状态st+1时的Q值Q(st+1,at),同时根据考虑熵值评判动作价值的公式计算考虑熵值H(π(st))评判动作的价值;
所述考虑熵值评判动作价值的公式为:
Figure BSA0000276120050000072
其中,Q(st,at)为状态为st时动作at的Q值,-logπ(at|st)为状态为st时策略π的熵值。
步骤八:利用训练好的推荐系统对用户进行项目推荐,按电影的状态转移概率大小排序对在对应的时间窗口给用户进行Top-N推荐。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其做出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (7)

1.基于深度强化学习的多样性感知交互推荐方法,由强化学习网络构成的推荐系统实现,所述的基于强化学习网络的推荐系统由一个包含五个元素(S,A,R,p,γ)的元组组成,其中,R为回报函数,p为状态转移概率,γ为折扣因子;所述的用户在当前时刻的状态被抽象表征成为状态空间S;所述的所有可进行推荐的项目集合I被当作动作空间A;其特征在于,该方法包含以下步骤:
S1:录入用户与项目的历史交互行为数据,对数据进行预处理;
S2:针对动作空间A中的用户行为,利用建立用户的长短期偏好模型,得到用户的行为表征;
S3:针对动作空间A,建立异质图网络,建立用户、项目、时间三者之间的上下文知识表征;
S4:分别对上下文知识表征和用户行为表征建立对应的知识级别奖励函数和行为级别奖励函数,并合成为带有容错策略的复合奖励函数;
S5:根据历史交互数据中上一时刻的用户选择的项目,对动作空间A进行动作过滤,得到两个候选项目集合:相似项目集合和多样性项目集合;
S6:按照一定的概率ρ从相似项目集合中随机选取项目,并按照概率1-ρ从多样性项目集合中随机选取项目,构成压缩后的动作空间
Figure FSA0000276120040000011
S7:搭建基于强化学习网络的推荐系统,将Concat连接的用户行为表征和上下文知识表征作为强化学习推荐系统的状态空间S,复合奖励函数作为回报函数R,压缩后的动作空间
Figure FSA0000276120040000012
作为新的动作空间,并利用历史交互数据对网络参数进行训练;
S8:利用训练好的推荐系统对用户进行项目推荐;
所述的用户为u∈U=[u1,u2,...,um];所述的项目的集合为I=[i1,i2,…,in];所述的用户行为P是统计用户和项目之间交互行为,P需要按照自定义的时间窗口T=[T1,T2,…,Tk]分割为k个单元,即
Figure FSA0000276120040000013
是m×n×k维的向量,0≤ρ≤1。
2.根据权利要求1所述的基于深度强化学习的多样性感知交互推荐方法,其特征在于,步骤S1所述的对数据进行预处理包括:(1)删除重复数据和缺失、错误数据;(2)统计汇总用户、项目和用户与项目的交互行为;(3)剔除交互行为太少用户数据,避免冷启动。
3.根据权利要求1所述的基于深度强化学习的多样性感知交互推荐方法,其特征在于,所述的步骤S2具体为:
S201:利用自动编码器对用户的时间窗口T分别进行编码,得到时间编号
Figure FSA0000276120040000014
S202:将用户u对应的动作空间A的用户行为
Figure FSA0000276120040000015
和时间编号
Figure FSA0000276120040000016
的元素分别输入到双向长短时记忆循环网络抽取得到每个时间窗口的用户u的行为信息;
S203:利用多头注意力机制,将每个时间窗口的用户u的行为信息融合得到用户行为表征
Figure FSA0000276120040000021
4.根据权利要求1所述的基于深度强化学习的多样性感知交互推荐方法,其特征在于,所述的步骤S3具体为:
S301:利用自动编码器对动作空间A中的项目ij进行编码,得到项目编号
Figure FSA00002761200400000216
其中,1≤j≤n;
S302:利用自动编码器对用户和时间窗口T分别进行编码,得到用户编号eu和时间编号
Figure FSA0000276120040000022
S303:利用多层感知机将动作空间A中的用户历史行为对应的项目集合编号进行感知压缩,得到项目的聚合特征;
S304:利用图卷积神经网络将用户编号eu、项目聚合特征和时间编号
Figure FSA0000276120040000023
进行串联操作,得到用户、项目、时间三者之间的上下文知识表征
Figure FSA0000276120040000024
5.根据权利要求1所述的基于深度强化学习的多样性感知交互推荐方法,其特征在于,步骤S4所述的行为级别奖励函数为
Figure FSA0000276120040000025
其中,
Figure FSA0000276120040000026
iT是用户在时间窗口T时的历史交互行为对应的项目序列;
Figure FSA0000276120040000027
是用户在时间窗口T时推荐系统推荐的项目序列;sl是iT中的子序列,L为iT中所有子序列的数量;#(sl,iT)为子序列sl在序列iT中出现的次数,
Figure FSA0000276120040000028
为子序列sl在序列
Figure FSA0000276120040000029
中出现的次数;
所述的知识级别奖励函数为
Figure FSA00002761200400000210
其中,dr为序列iT的知识表示,
Figure FSA00002761200400000211
为序列
Figure FSA00002761200400000212
的知识表示的转置,
Figure FSA00002761200400000213
为序列iT的知识表示的模,
Figure FSA00002761200400000214
为序列
Figure FSA00002761200400000215
的知识表示的模,R2的取值范围在[0,1]之间。
6.根据权利要求1所述的基于深度强化学习的多样性感知交互推荐方法,其特征在于,步骤S5所述的动作过滤具体为:按照与用户上一时刻选择项目的相似度对动作空间A的项目进行排序,前x项构成相似项目集合,后n-x项构成多样性项目集合。
7.根据权利要求1所述的基于深度强化学习的多样性感知交互推荐方法,其特征在于,步骤S7所述的训练方法为SAC(soft actor-critic)方法,该方法以Concat连接的用户行为表征和上下文知识表征作为强化学习推荐系统的状态空间S,复合奖励函数作为回报函数R,压缩后的动作空间
Figure FSA0000276120040000031
作为新的动作空间A;具体为:
S701:以用户当前的状态为st为Actor网络的输入,得到A中动作的Q值分布Q(st,A),对Q值分布进行SoftMax操作得到Q值的概率分布P(A|st),进而根据熵值的计算公式得到当前状态为st时动作A的熵值H(π(st));
所述熵值的计算公式为:
Figure FSA0000276120040000032
其中,π(st)为状态st时选择动作at的策略,在这里为依Q值的概率分布选取;
S702:依概率P(A|st)任意选取一动作at,得到下一时刻状态st+1为Critic网络的输入,得到动作at在状态st+1时的Q值Q(st+1,at),同时根据考虑熵值评判动作价值的公式计算考虑熵值H(π(st))评判动作的价值;
所述考虑熵值评判动作价值的公式为:
Figure FSA0000276120040000033
其中,Q(st,at)为状态为st时动作at的Q值,-logπ(at|st)为状态为st时策略π的熵值。
CN202210726897.0A 2022-06-05 2022-06-05 基于深度强化学习的多样性感知交互推荐方法 Active CN114996584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210726897.0A CN114996584B (zh) 2022-06-05 2022-06-05 基于深度强化学习的多样性感知交互推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210726897.0A CN114996584B (zh) 2022-06-05 2022-06-05 基于深度强化学习的多样性感知交互推荐方法

Publications (2)

Publication Number Publication Date
CN114996584A true CN114996584A (zh) 2022-09-02
CN114996584B CN114996584B (zh) 2024-04-16

Family

ID=83036232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210726897.0A Active CN114996584B (zh) 2022-06-05 2022-06-05 基于深度强化学习的多样性感知交互推荐方法

Country Status (1)

Country Link
CN (1) CN114996584B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115792849A (zh) * 2022-11-23 2023-03-14 哈尔滨工程大学 一种基于sac算法的一维非均匀阵列设计方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374138A1 (en) * 2017-06-23 2018-12-27 Vufind Inc. Leveraging delayed and partial reward in deep reinforcement learning artificial intelligence systems to provide purchase recommendations
CN112861012A (zh) * 2021-03-09 2021-05-28 河南工业大学 基于上下文和用户长短期偏好自适应学习的推荐方法及装置
CN112948707A (zh) * 2021-02-02 2021-06-11 辽宁工程技术大学 一种强化学习优化lfm的协同过滤推荐算法
CN114021024A (zh) * 2021-12-09 2022-02-08 中国科学院重庆绿色智能技术研究院 一种融合用户偏好预测的深度强化学习推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374138A1 (en) * 2017-06-23 2018-12-27 Vufind Inc. Leveraging delayed and partial reward in deep reinforcement learning artificial intelligence systems to provide purchase recommendations
CN112948707A (zh) * 2021-02-02 2021-06-11 辽宁工程技术大学 一种强化学习优化lfm的协同过滤推荐算法
CN112861012A (zh) * 2021-03-09 2021-05-28 河南工业大学 基于上下文和用户长短期偏好自适应学习的推荐方法及装置
CN114021024A (zh) * 2021-12-09 2022-02-08 中国科学院重庆绿色智能技术研究院 一种融合用户偏好预测的深度强化学习推荐方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115792849A (zh) * 2022-11-23 2023-03-14 哈尔滨工程大学 一种基于sac算法的一维非均匀阵列设计方法及系统

Also Published As

Publication number Publication date
CN114996584B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN112765486B (zh) 一种融合知识图谱的注意力机制的电影推荐方法
CN111241311B (zh) 媒体信息推荐方法、装置、电子设备及存储介质
WO2020211566A1 (zh) 一种用户推荐方法和装置以及计算设备和存储介质
CN111310063B (zh) 基于神经网络的记忆感知门控因子分解机物品推荐方法
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN112016002A (zh) 融合评论文本层级注意力和时间因素的混合推荐方法
CN114021024A (zh) 一种融合用户偏好预测的深度强化学习推荐方法
CN112699310A (zh) 基于深度神经网络的冷启动跨域混合推荐的方法及系统
CN115618101A (zh) 基于负反馈的流媒体内容推荐方法、装置及电子设备
CN114996584A (zh) 基于深度强化学习的多样性感知交互推荐方法
CN115203550A (zh) 一种增强邻居关系的社交推荐方法及系统
CN116308685A (zh) 一种基于方面情感预测和协同过滤的产品推荐方法及系统
Gong et al. Deep exercise recommendation model
CN117251622A (zh) 对象推荐的方法、装置、计算机设备和存储介质
CN116561443A (zh) 基于属性扩展的双消息传播图的项目推荐方法、装置
CN109918564A (zh) 一种面向完全冷启动的上下文自动编码推荐方法及系统
CN115391555A (zh) 一种用户感知的知识图谱推荐系统及方法
CN115481236A (zh) 一种基于用户兴趣建模的新闻推荐方法
CN113704318A (zh) 基于频繁模式图嵌入的循环神经网络fpgnn预测行为轨迹方法
CN112801076A (zh) 基于自注意力机制的电子商务视频高光检测方法及系统
Liu et al. Aspect-aware Asymmetric Representation Learning Network for Review-based Recommendation
CN114943588B (zh) 一种基于图神经网络的噪声数据下的商品推荐方法
CN117216417B (zh) 融合知识信息和协同信息的推荐方法、装置、设备及介质
CN116155755B (zh) 一种基于线性优化封闭子图编码的链路符号预测方法
CN117474637B (zh) 基于时序图卷积网络的个性化商品推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant