CN112597391B - 一种基于动态递归机制的分层强化学习的推荐系统 - Google Patents

一种基于动态递归机制的分层强化学习的推荐系统 Download PDF

Info

Publication number
CN112597391B
CN112597391B CN202011564657.2A CN202011564657A CN112597391B CN 112597391 B CN112597391 B CN 112597391B CN 202011564657 A CN202011564657 A CN 202011564657A CN 112597391 B CN112597391 B CN 112597391B
Authority
CN
China
Prior art keywords
user
level
dynamic
strategy
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011564657.2A
Other languages
English (en)
Other versions
CN112597391A (zh
Inventor
林元国
林凡
曾文华
夏侯建兵
张志宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202011564657.2A priority Critical patent/CN112597391B/zh
Publication of CN112597391A publication Critical patent/CN112597391A/zh
Application granted granted Critical
Publication of CN112597391B publication Critical patent/CN112597391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于动态递归机制的分层强化学习的推荐系统,包括用户画像矫正器:采用一种动态递归机制的策略梯度方法,及引入参数动态稀疏权重以删除噪声数据来修改用户画像,其中,所述动态递归机制的策略梯度方法包括:动态基线和基于时序上下文的递归强化学习,所述动态基线为采用动态稀疏权重对总收益进行学习策略的改进;注意力机制:用于自动调整用户偏好的变化;推荐模型:用于通过注意力机制向用户推荐最相关物品。本发明的推荐系统,通过在策略梯度方法中引入一个参数动态稀疏权重,使智能体在全局最优策略下选择最优行为;其次,结合时间上下文的分层强化学习,该方法能够更可靠地收敛,从而提高模型预测的稳定性。

Description

一种基于动态递归机制的分层强化学习的推荐系统
技术领域
本发明涉及基于分层强化学习的智能推荐技术领域,尤其涉及一种基于动态递归机制的分层强化学习的推荐系统。
背景技术
虽然分层强化学习模型(Hierarchical Reinforcement Learning,HRL)在推荐系统的应用取得了显著的进展,但其预测的不稳定性是一个关键的缺陷,主要是由强化学习的性能造成的。一方面,由于策略的随机性,每种状态下都存在若干可能的随机行为。例如,在该策略下选择的动作是随机的,导致不能一直很好地修改用户画像。另一方面,状态转移概率也是随机的(即每个当前状态都有多个可能的下一个状态),这使得来自环境的预期收益不确定。因此,这两种随机性都会影响推荐系统的性能。
发明内容
有鉴于现有技术的缺陷(不足),本发明提出一种基于动态递归机制的分层强化学习(Hierarchical Reinforcement Learning with Dynamic Recurrent mechanism,HRL/DR)的推荐系统,通过一种新的策略梯度方法对策略迭代进行改进,在用户画像矫正器中的分层任务中促使智能体有效地删除噪声数据,然后对用户画像矫正器和推荐系统进行联合训练,最终将最相关的物品推荐给用户。
本发明的技术方案如下:
一种基于动态递归机制的分层强化学习的推荐系统,包括用户画像矫正器、注意力机制和推荐模型;所述用户画像矫正器采用一种动态递归机制的策略梯度方法删除噪声数据来修改用户画像,其中,所述动态递归机制的策略梯度方法包括:动态基线和基于时序上下文的递归强化学习;所述动态基线为采用动态稀疏权重对总收益进行学习策略的改进;所述注意力机制用于自动调整用户偏好的变化;所述推荐模型用于通过注意力机制向用户推荐最相关的物品。
进一步的,所述用户画像矫正器采用分层的马尔可夫决策过程建模,其中:高层动作ah∈{0,1}决定是否修改整个用户画像εu,而低层动作al∈{0,1}决定哪些交互过的物品
Figure GDA0003657485510000011
可被删除;当高层动作根据高层策略决定修改原始用户画像时,它将根据低层策略调用低层动作迭代地删除噪声物品,智能体在执行最后一个低层动作后将得到高层延迟奖励
Figure GDA0003657485510000021
和低层延迟奖励
Figure GDA0003657485510000022
进一步的,所述用户画像矫正器的建模方法包括:
步骤1:当高层任务决定按照高层策略修改原始用户画像,根据低层策略调用低层任务删除噪声数据,在执行最后一个低层动作后,智能体将得到高层延迟奖励
Figure GDA0003657485510000023
和低层延迟奖励
Figure GDA0003657485510000024
步骤2:通过动态递归机制的策略梯度方法分别更新基于高层总奖励
Figure GDA0003657485510000025
和低层总奖励
Figure GDA0003657485510000026
的分层策略后,推荐模型基于修正后的用户画像的嵌入向量qu进行训练,然后生成向用户推荐目标物品的概率,并将这作为下一个分幕中用户画像矫正器的附加状态;其中所述嵌入向量qu是通过attention聚合交互过的物品的嵌入向量
Figure GDA0003657485510000027
而成;
步骤3:执行步骤1和步骤2,进行推荐模型和用户画像矫正器联合训练,直到最后一个分幕结束,最后向用户推荐最精确的物品。
进一步的,在所述基于时序上下文的分层强化学习中,每分幕k的总奖励定义为:
Figure GDA0003657485510000028
其中,τ代表一系列转换的状态和动作,ξ表示先前各分幕中奖励的权重,Rk-x(τ)指的是在第k-x分幕中每个采样序列τ的奖励,Rk(τ)是在第k分幕中每个采样序列τ的奖励,β∈(0,1]表示折扣因子。
进一步的,所述总收益具体定义为:
Figure GDA0003657485510000029
其中,qk-1(S,A)是前一分幕的动作值,
Figure GDA00036574855100000210
表示状态st在遵循策略π执行动作a的动作值函数,
Figure GDA00036574855100000211
表示状态st在参数w下的期望值,ω∈(0,1)是期望值
Figure GDA00036574855100000212
的动态稀疏权重,ri表示采样序列中t+1时刻的即时奖励,γ∈(0,1]表示折扣因子。
进一步的,在第一分幕中,动作值q0(S,A)=0;然后在接下来的每一分幕中,前一分幕中的动作值qk-1(S,A)被加到每个状态的总收益
Figure GDA0003657485510000031
中。
进一步的,所述用户画像矫正器的目标是获得期望收益最大化的最优策略参数,如下所示:
Figure GDA0003657485510000032
其中θ表示策略的参数,τ表示采样的序列,Pθ(τ)是对应的抽样概率,qπ(τ)为采样序列中遵循策略π的动作值函数。
进一步的,所述用户画像矫正器的目标函数包括高层策略函数和低层策略函数;
所述高层策略函数的参数梯度定义为:
Figure GDA0003657485510000033
其中
Figure GDA0003657485510000034
是采样序列τn中的一对动作-状态,
Figure GDA0003657485510000035
指在高层任务中前一分幕生成的动作值,
Figure GDA0003657485510000036
是高层任务中当前分幕中每个采样序列τn的动作值,它是一个延迟奖励,
Figure GDA0003657485510000037
是指在抽样序列中修改用户画像后的预期回报,它近似于
Figure GDA0003657485510000038
此处省略了a,s和θ的上标h;
所述低层策略函数的参数梯度定义为:
Figure GDA0003657485510000039
其中,tu表示用户在采样序列中交互过的物品数量,
Figure GDA00036574855100000310
指在低层任务中前一分幕生成的动作值,
Figure GDA00036574855100000311
是低层任务中当前分幕中每个采样序列τn的动作值,它也是一个延迟奖励,
Figure GDA00036574855100000312
是指在抽样序列中所有物品都更新后的预期回报,它近似于
Figure GDA00036574855100000313
此处省略了a,s和θ的上标l。
进一步的,所述所述用户画像矫正器包括基于attention权重矩阵的目标函数和基于attention系数的目标函数;
所述attention权重矩阵用于提高所述策略梯度法对所述推荐系统的预测能力;
所述attention系数用于获取用户的偏好。
进一步的,所述基于attention权重矩阵的目标函数定义为:
Figure GDA0003657485510000041
其中Wt表示attention权重矩阵,lableu,i代表用户u选择了物品i的标签,ρu,i表示将物品i推荐给用户u的概率,L(lableu,iu,i)是衡量推荐系统预测性能的损失函数,λ表示最小平方损失函数的系数。
进一步的,所述基于attention系数目标函数中,具体如下:
Figure GDA0003657485510000042
其中At表示相应物品的attention系数,lableu,i代表用户u选择了物品i的标签,ρu,i表示将物品i推荐给用户u的概率,L(lableu,iu,i)是衡量推荐系统预测性能的损失函数,λ表示最小平方损失函数的系数。
本发明的推荐系统具备如下特点:
(1)通过一种新的策略梯度方法对策略迭代进行改进,在用户画像矫正器中的分层任务中促使智能体有效地删除噪声数据,然后对用户画像矫正器和推荐系统进行联合训练,最终将最相关的物品推荐给用户。
(2)该改进具体为:在HRL模型中引入了动态基线和递归强化学习(RecurrentReinforcement Learning,RRL)的Monte-Carlo策略梯度方法。首先,在Monte-Carlo策略梯度方法中引入一个动态增量因子,使智能体在全局最优策略下选择最优行为。其次,结合时间上下文的RRL,该方法能够更可靠地收敛,从而提高模型预测的稳定性。
(3)本发明的推荐系统,采用的动态递归机制的分层强化学习模型具有较优的预测稳定性,能够有效跟踪用户偏好的变化,最终将最相关的物品推荐给用户。
附图说明
图1是本发明的基于HRL/DR的推荐系统框图;
图2是本发明实验案例的用交叉熵误差函数logloss测量模型预测的稳定性的测试图(针对不同Top-K);
图3是本发明实验案例的用交叉熵误差函数logloss测量模型预测的稳定性的测试图(针对不同的attention网络隐藏层数量)。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
现结合附图和具体实施方式对本发明进一步说明。
如图1所示,本发明提出了一种动态基线和递归强化学习(简称HRL/DR)的推荐系统。通过一种新的策略梯度方法对策略迭代进行改进,在用户画像矫正器中的分层任务中促使智能体有效地删除噪声数据,然后对用户画像矫正器和推荐系统进行联合训练,最终将最相关的物品推荐给用户。具体的,我们在HRL模型中引入了动态基线和递归强化学习(Recurrent Reinforcement Learning,RRL)的Monte-Carlo策略梯度方法,并进行策略优化:首先,在Monte-Carlo策略梯度方法中引入一个动态增量因子,使智能体在全局最优策略下选择最优行为;其次,结合时间上下文的RRL,该方法能够更可靠地收敛,从而提高模型预测的稳定性。
以下是对推荐系统及推荐方法的详细说明。
1、结合动态基线和递归强化学习的Monte-Carlo策略梯度方法
对于分幕任务,基于以下设定,即当智能体同时获得前一分幕的奖励和当前分幕的奖励时,它将比仅获得当前奖励的情况下采取更合理的动作,因为它有效地利用了上下文信息。在此基础上,我们提出了一种基于时序上下文的RRL来不断改进策略。从形式上讲,在使用时序上下文的RRL的基础上,每分幕k的总奖励定义为
Figure GDA0003657485510000051
其中τ代表一系列转换的状态和动作,ξ表示先前各分幕中奖励的权重,Rk-x(τ)指的是在第k-x分幕中每个采样序列τ的奖励,Rk(τ)是在第k分幕中每个采样序列τ的奖励,β∈(0,1]表示折扣因子。为了简单起见,这里我们只将前一分幕的奖励添加到当前分幕的总奖励中(即Rk-1(τ)+β*Rk(τ))。
此外,为了鼓励智能体在现有策略下探索新的策略以获得更好的动作,我们引入动态稀疏权重对总收益进行学习策略改进。动态稀疏权值可以是一个随机数,其值为(0,1)或当前时间步长的倒数,它在每次梯度上升过程中自动变化。采用动态稀疏权重的另一个优点是可以自动平滑增量因子对策略梯度的影响,使策略不过度依赖于基线,从而使策略梯度更好地收敛。从这个角度来看,我们提出的方法可以看作是一个动态的策略梯度。形式上,结合动态基线和RRL的Monte-Carlo策略梯度方法中的总收益
Figure GDA0003657485510000061
被定义为:
Figure GDA0003657485510000062
其中,qk-1(S,A)是前一分幕的动作值(即奖励),
Figure GDA0003657485510000063
表示状态st在遵循策略π执行动作a的动作值函数,
Figure GDA0003657485510000064
表示状态st在参数w下的期望值,它近似于
Figure GDA0003657485510000065
而ω∈(0,1)是
Figure GDA0003657485510000066
的动态稀疏权重,ri表示采样序列中t+1时刻的即时奖励,γ∈(0,1]表示折扣因子。
通过引入动态递归机制,策略梯度方法能够学习上下文和全局信息,从而进一步提高策略的稳定性。结合动态基线和RRL的Monte-Carlo策略梯度方法如算法1所示。
在第一分幕中,q0(S,A)=0。然后在接下来的每一分幕中,前一分幕中的动作值被加到每个状态的总收益
Figure GDA0003657485510000067
中。因此,每个策略梯度在梯度上升的每个过程中连续共享全局信息(对应于算法1的第6行和第7行)。这种创新机制能很好地适用于分幕任务中,因为动作值的更新是在当前分幕结束后进行的,并在下一分幕中作为前一个分幕的奖励来处理。这样,策略在连续的分幕中迭代更新。
Figure GDA0003657485510000071
算法1具有很可靠的收敛性,因为θ的更新与每个分幕中返回的总收益
Figure GDA0003657485510000072
成正比,而qk-1(S,A)可以保证相邻分幕之间策略的连续性,从而使策略梯度法更稳定地逼近梯度上升。
得益于可靠的收敛性,算法1很好地解决了基于HRL模型预测的不稳定性问题。因此,我们可以在HRL模型中引入动态递归机制,以提高推荐系统预测的稳定性和推荐的准确性。
2、HRL/DR模型在推荐系统中的应用
图1展示了基于HRL/DR的推荐系统框架,包括用户画像矫正器、注意力机制和推荐模型;所述用户画像矫正器采用一种动态递归机制的策略梯度方法删除噪声数据来修改用户画像;所述注意力机制用于自动调整用户偏好的变化;所述推荐模型用于通过注意力机制向用户推荐相关物品。
与HRL模型类似,用户画像矫正器也由一个分层的马尔可夫决策过程(Markovdecision processes,MDP)建模,其中高层动作ah∈{0,1}决定是否修改整个用户画像εu,而低层动作al∈{0,1}决定哪些交互过的物品
Figure GDA0003657485510000073
可被删除。
具体地说,本发明的基于HRL/DR的推荐方法,包括:
步骤1:通过用户画像矫正器修改用户画像:如果高层任务决定按照高层策略修改原始用户画像,则它将调用低层任务以根据低层策略删除噪声数据(例如图中的
Figure GDA0003657485510000081
等等),在执行最后一个低层动作后,智能体将得到高层延迟奖励
Figure GDA0003657485510000082
和低层延迟奖励
Figure GDA0003657485510000083
步骤2:通过动态递归机制的策略梯度方法分别更新基于高层总收益
Figure GDA0003657485510000084
和低层总收益
Figure GDA0003657485510000085
的分层策略后,推荐模型基于修正后的用户画像的嵌入向量qu(通过注意力机制聚合交互过的物品的嵌入向量
Figure GDA0003657485510000086
而成)进行训练,然后生成向用户推荐目标物品的概率,并将这作为下一个分幕中用户画像矫正器的附加状态。
步骤3:执行步骤1和步骤2,推荐模型和用户画像矫正器联合训练,直到最后一个分幕结束,最后向用户推荐最精确的TOP-K物品。
特别地,动态基线
Figure GDA0003657485510000087
和前一分幕的奖励qk-1在分层策略的策略改进中起着重要的作用,因为智能体可以通过它们来稳定地改进策略,进而获得最大的动作值函数。因此,HRL/DR模型可以在所有分幕中不断选择最优的动作来修改用户画像,最终提供稳定的预测和准确的推荐结果。
对于HRL/DR的目标函数,我们的目标是获得期望收益最大化的最优策略参数,如下所示:
Figure GDA0003657485510000088
其中θ表示策略的参数,τ表示采样的序列,Pθ(τ)是对应的抽样概率,qπ(τ)为采样序列中遵循策略π的动作值函数。
HRL/DR模型采用算法1对状态轨迹进行采样,由此高层策略函数的参数梯度可以计算如下:
Figure GDA0003657485510000089
其中
Figure GDA00036574855100000810
是采样序列τn中的一对动作-状态,
Figure GDA00036574855100000811
指在高层任务中前一分幕生成的动作值,
Figure GDA00036574855100000812
是高层任务中当前分幕中每个采样序列τn的动作值,它是一个延迟奖励,
Figure GDA00036574855100000813
是指在抽样序列中修改用户画像后的预期回报,它近似于
Figure GDA00036574855100000814
为了简单起见,这里我们省略了a,s和θ的上标h。
类似地,HRL/DR模型中低层策略函数的参数梯度可计算如下:
Figure GDA0003657485510000091
其中,tu表示用户在采样序列中交互过的物品数量,
Figure GDA0003657485510000092
指在低层任务中前一分幕生成的动作值,
Figure GDA0003657485510000093
是低层任务中当前分幕中每个采样序列τn的动作值,它也是一个延迟奖励,
Figure GDA0003657485510000094
是指在抽样序列中所有物品都更新后的预期回报,它近似于
Figure GDA0003657485510000095
为了简单起见,这里我们也省略了a,s和θ的上标l。
为了提高HRL/DR模型的泛化能力和新策略梯度方法的适应性,我们在推荐系统的目标函数中引入了attention权重矩阵和相应物品的attention系数(即学习用户特征的参数),分别命名为“HRL/DR-W”和“HRL/DR-A”。
首先,为了进一步提高我们提出的策略梯度法对推荐系统的预测能力,HRL/DR-W模型的目标函数可以定义为:
Figure GDA0003657485510000096
其中Wt表示attention权重矩阵,lableu,i代表用户u选择了物品i的标签,ρu,i表示将物品i推荐给用户u的概率,L(lableu,iu,i)是衡量推荐系统预测性能的损失函数,λ表示最小平方损失函数(L2范式)的系数。
为了获取用户的偏好,我们将相应物品的attention系数纳入HRL/DR-A模型的目标函数中,具体如下:
Figure GDA0003657485510000097
其中At表示相应物品的attention系数。HRL/DR-A可以通过对相应物品的attention系数在不同推荐阶段的转换来跟踪用户偏好的变化,从而选择有利因素向用户推荐相关的目标物品。
为了优化上述推荐系统的目标函数,我们使用了自适应梯度优化器(AdaptiveGradient Optimizer),它是随机梯度下降的一种变体,能够自适应地为每个参数分配不同的学习速率。
3、实验案例
我们以课程推荐为实验案例,证明HRL/DR模型的优越性。
实验是在两个真实的数据集上进行的:MOOCCourse和MOOCCube分别来自学堂在线幕课平台(http://www.xuetangx.com)两个不同阶段的学生选课记录。其中,MOOCCourse包含1302门真实在线课程、82535名幕课用户的458453个选课记录,而MOOCCube包含706门真实在线课程、55203名幕课用户的354541个选课记录。
我们提出的创新模型跟当前国内外最先进的课程推荐模型(备注:HRL/D_A和HRL/D_W是我们所提出的HRL/DR模型的精简版,即在创新的策略梯度方法中省去了RRL因素)进行对比,并采用公认的流行评价指标,其中推荐性能的评价指标主要有HR(召回率)、NDCG(精确度),模型预测的评价指标有交叉熵误差函数logloss。
从表1可以看出,HRL/DR模型在HR(召回率)和NDCG(精确度)两个评价指标都高于其它推荐模型,证明了我们创新模型的有效性,它能够明显提高推荐的准确性。
表1用评价指标HR(召回率)和NDCG(精确度)衡量推荐性能(%)
Figure GDA0003657485510000101
图2给出了用交叉熵误差函数logloss测量模型预测的稳定性的结果(针对不同top-k)。其中(a)为在数据集MOOCCourse上测试的logloss。(b)为在数据集MOOCCube上测试的logloss。
图3给出了用交叉熵误差函数logloss测量模型预测的稳定性的结果(针对不同的attention网络隐藏层数量)。其中(a)为在数据集MOOCCourse上测试的logloss。(b)为在数据集MOOCCube上测试的logloss。
从图2和图3可以看出,HRL/DR的模型预测的稳定性明显优于其它模型(特别是HRL模型和HRL/R模型),而且HRL/DR模型的预测准确度也在绝大数情况下高于其它模型。从而可以看出,基于HRL/DR的推荐系统,具有较优的预测稳定性,能够有效跟踪用户偏好的变化,最终将最相关的物品推荐给用户。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (7)

1.一种基于动态递归机制的分层强化学习的推荐系统,其特征在于:包括用户画像矫正器、注意力机制和推荐模型;
所述用户画像矫正器采用一种动态递归机制的策略梯度方法删除噪声数据来修改用户画像;其中,所述动态递归机制的策略梯度方法包括:动态基线和基于时序上下文的递归强化学习,所述动态基线为采用动态稀疏权重对总收益进行学习策略的改进;
所述注意力机制用于自动调整用户偏好的变化;
所述推荐模型用于通过注意力机制向用户推荐最相关物品;
在所述基于时序上下文的递归强化学习中,每分幕k的总奖励定义为:
Figure FDA0003656055770000011
其中,τ代表一系列转换的状态和动作,ξ表示先前各分幕中奖励的权重,Rk-x(τ)指的是在第k-x分幕中每个采样序列τ的奖励,Rk(τ)是在第k分幕中每个采样序列τ的奖励,β∈(0,1]表示折扣因子;
所述总收益具体定义为:
Figure FDA0003656055770000012
其中,qk-1(S,A)是前一分幕的动作值,
Figure FDA0003656055770000013
表示状态st在遵循策略π执行动作a的动作值函数,
Figure FDA0003656055770000014
表示状态st在参数w下的期望值,ω∈(0,1)是期望值
Figure FDA0003656055770000015
的动态稀疏权重,ri表示采样序列中t+1时刻的即时奖励,γ∈(0,1]表示折扣因子;
在第一分幕中,动作值q0(S,A)=0;然后在接下来的每一分幕中,前一分幕中的动作值qk-1(S,A)被加到每个状态的总收益
Figure FDA0003656055770000016
中。
2.如权利要求1所述的推荐系统,其特征在于:所述用户画像矫正器采用分层的马尔可夫决策过程建模,其中:高层动作ah∈{0,1}决定是否修改整个用户画像εu,而低层动作al∈{0,1}决定哪些交互过的物品
Figure FDA0003656055770000017
可被删除;当高层动作根据高层策略决定修改原始用户画像时,它将根据低层策略调用低层动作迭代地删除噪声物品,智能体在执行最后一个低层动作后将得到高层延迟奖励
Figure FDA0003656055770000018
和低层延迟奖励
Figure FDA0003656055770000019
3.如权利要求2所述的推荐系统,其特征在于:所述推荐系统执行一种推荐方法,包括:
步骤1:通过用户画像矫正器修改用户画像:当高层任务决定按照高层策略修改原始用户画像,根据低层策略调用低层任务删除噪声数据,在执行最后一个低层动作后,智能体将得到高层延迟奖励
Figure FDA0003656055770000021
和低层延迟奖励
Figure FDA0003656055770000022
步骤2:通过动态递归机制的策略梯度方法分别更新基于高层总奖励
Figure FDA0003656055770000023
和低层总奖励
Figure FDA0003656055770000024
的分层策略后,推荐模型基于修正后的用户画像的嵌入向量qu进行训练,然后生成向用户推荐目标物品的概率,并将这作为下一个分幕中用户画像矫正器的附加状态;其中所述嵌入向量qu是通过attention聚合交互过的物品的嵌入向量
Figure FDA0003656055770000025
而成;
步骤3:执行步骤1和步骤2,进行推荐模型和用户画像矫正器联合训练,直到最后一个分幕结束,最后向用户推荐最精确的物品。
4.如权利要求1所述的推荐系统,其特征在于:所述用户画像矫正器的目标是获得期望收益最大化的最优策略参数,如下所示:
Figure FDA0003656055770000026
其中θ表示策略的参数,τ表示采样的序列,Pθ(τ)是对应的抽样概率,qπ(τ)为采样序列中遵循策略π的动作值函数。
5.如权利要求4所述的推荐系统,其特征在于:
所述用户画像矫正器的目标函数包括高层策略函数和低层策略函数;
所述高层策略函数的参数梯度定义为:
Figure FDA0003656055770000027
其中
Figure FDA0003656055770000028
是采样序列τn中的一对动作-状态,
Figure FDA0003656055770000029
指在高层任务中前一分幕生成的动作值,
Figure FDA00036560557700000210
是高层任务中当前分幕中每个采样序列τn的动作值,它是一个延迟奖励,
Figure FDA00036560557700000211
是指在抽样序列中修改用户画像后的预期回报,它近似于
Figure FDA00036560557700000212
此处省略了a,s和θ的上标h;
所述低层策略函数的参数梯度定义为:
Figure FDA0003656055770000031
其中,tu表示用户在采样序列中交互过的物品数量,
Figure FDA0003656055770000032
指在低层任务中前一分幕生成的动作值,
Figure FDA0003656055770000033
是低层任务中当前分幕中每个采样序列τn的动作值,它也是一个延迟奖励,
Figure FDA0003656055770000034
是指在抽样序列中所有物品都更新后的预期回报,它近似于
Figure FDA0003656055770000035
此处省略了a,s和θ的上标l。
6.如 权利要求1所述的推荐系统,其特征在于,所述用户画像矫正器包括基于attention权重矩阵的目标函数和基于attention系数的目标函数;
所述attention权重矩阵用于提高所述策略梯度法对所述推荐系统的预测能力;
所述attention系数用于获取用户的偏好。
7.如 权利要求6所述的推荐系统,其特征在于,
所述基于attention权重矩阵的目标函数定义为:
Figure FDA0003656055770000036
其中Wt表示attention权重矩阵,lableu,i代表用户u选择了物品i的标签,ρu,i表示将物品i推荐给用户u的概率,L(lableu,iu,i)是衡量推荐系统预测性能的损失函数,λ表示最小平方损失函数的系数;
所述基于attention系数目标函数中,具体如下:
Figure FDA0003656055770000037
其中At表示相应物品的attention系数,lableu,i代表用户u选择了物品i的标签,ρu,i表示将物品i推荐给用户u的概率,L(lableu,iu,i)是衡量推荐系统预测性能的损失函数,λ表示最小平方损失函数的系数。
CN202011564657.2A 2020-12-25 2020-12-25 一种基于动态递归机制的分层强化学习的推荐系统 Active CN112597391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011564657.2A CN112597391B (zh) 2020-12-25 2020-12-25 一种基于动态递归机制的分层强化学习的推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011564657.2A CN112597391B (zh) 2020-12-25 2020-12-25 一种基于动态递归机制的分层强化学习的推荐系统

Publications (2)

Publication Number Publication Date
CN112597391A CN112597391A (zh) 2021-04-02
CN112597391B true CN112597391B (zh) 2022-08-12

Family

ID=75202164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011564657.2A Active CN112597391B (zh) 2020-12-25 2020-12-25 一种基于动态递归机制的分层强化学习的推荐系统

Country Status (1)

Country Link
CN (1) CN112597391B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608230A (zh) * 2016-02-03 2016-05-25 南京云创大数据科技股份有限公司 一种基于图像检索的商家信息推荐系统及方法
CN111199458A (zh) * 2019-12-30 2020-05-26 北京航空航天大学 一种基于元学习与强化学习的推荐系统
CN111241407A (zh) * 2020-01-21 2020-06-05 中国人民大学 一种基于强化学习的个性化搜索方法
CN111815415A (zh) * 2020-07-14 2020-10-23 北京邮电大学 一种商品推荐方法、系统及设备
CN111859114A (zh) * 2020-06-18 2020-10-30 北京百度网讯科技有限公司 推荐系统的优化方法、装置、设备和计算机存储介质
CN111860649A (zh) * 2020-07-21 2020-10-30 赵佳 基于多智能体强化学习的动作集合输出方法及系统
CN112052947A (zh) * 2020-08-17 2020-12-08 清华大学 基于策略选项的分层强化学习方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230057A (zh) * 2016-12-09 2018-06-29 阿里巴巴集团控股有限公司 一种智能推荐方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608230A (zh) * 2016-02-03 2016-05-25 南京云创大数据科技股份有限公司 一种基于图像检索的商家信息推荐系统及方法
CN111199458A (zh) * 2019-12-30 2020-05-26 北京航空航天大学 一种基于元学习与强化学习的推荐系统
CN111241407A (zh) * 2020-01-21 2020-06-05 中国人民大学 一种基于强化学习的个性化搜索方法
CN111859114A (zh) * 2020-06-18 2020-10-30 北京百度网讯科技有限公司 推荐系统的优化方法、装置、设备和计算机存储介质
CN111815415A (zh) * 2020-07-14 2020-10-23 北京邮电大学 一种商品推荐方法、系统及设备
CN111860649A (zh) * 2020-07-21 2020-10-30 赵佳 基于多智能体强化学习的动作集合输出方法及系统
CN112052947A (zh) * 2020-08-17 2020-12-08 清华大学 基于策略选项的分层强化学习方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hierarchical Reinforcement Learning for Course Recommendation in MOOCs;Zhang, J 等;《THIRTY-THIRD AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE / THIRTY-FIRST INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE CONFERENCE / NINTH AAAI SYMPOSIUM ON EDUCATIONAL ADVANCES IN ARTIFICIAL INTELLIGENCE》;20190930;435-442 *
个性化推荐系统技术进展;刘君良,李晓光;《计算机科学》;20200731;47-55 *

Also Published As

Publication number Publication date
CN112597391A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN113361777B (zh) 基于vmd分解和ihho优化lstm的径流预测方法及系统
Klemenc et al. Estimating S–N curves and their scatter using a differential ant-stigmergy algorithm
CN110633859B (zh) 一种两阶段分解集成的水文序列预测方法
CN112884236B (zh) 一种基于vdm分解与lstm改进的短期负荷预测方法及系统
CN113411216B (zh) 基于离散小波变换和fa-elm的网络流量预测方法
CN110390561A (zh) 基于动量加速随机梯度下降的用户-金融产品选用倾向高速预测方法和装置
CN111859264A (zh) 一种基于贝叶斯优化及小波分解的时序预测方法及装置
CN109754122A (zh) 一种基于随机森林特征提取的bp神经网络的数值预测方法
Lee et al. Dynamic BIM component recommendation method based on probabilistic matrix factorization and grey model
Czajkowski et al. Steering the interpretability of decision trees using lasso regression-an evolutionary perspective
CN110059251B (zh) 基于多关系隐式反馈置信度的协同过滤推荐方法
CN117474077A (zh) 一种基于oar模型与强化学习的辅助决策方法和装置
CN115269861A (zh) 基于生成式对抗模仿学习的强化学习知识图谱推理方法
CN118364176A (zh) 一种基于双对比学习的下一个兴趣点推荐方法
CN114694379A (zh) 一种基于自适应动态图卷积的交通流预测方法及系统
CN112597391B (zh) 一种基于动态递归机制的分层强化学习的推荐系统
Lei et al. A novel time-delay neural grey model and its applications
CN113449182A (zh) 一种知识信息个性化推荐方法及系统
Bova et al. Hybrid method for prediction of users’ information behavior in the Internet based on bioinspired search
CN117573961A (zh) 信息推荐方法、装置、电子设备、存储介质及程序产品
Gustafson et al. A simple approach to fitting Bayesian survival models
CN116701875A (zh) 一种特高压交流输电线路可听噪声概率预测方法及系统
CN116757323A (zh) 一种基于IVMD-IAO-BiLSTM的滑坡位移预测方法
CN115510753A (zh) 群智网络中基于矩阵补全与强化学习的数据收集方法
CN113961818B (zh) 一种基于长短期兴趣与社会影响力的群体需求预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant