CN113449183A - 基于离线用户环境和动态奖励的交互式推荐方法和系统 - Google Patents

基于离线用户环境和动态奖励的交互式推荐方法和系统 Download PDF

Info

Publication number
CN113449183A
CN113449183A CN202110680280.5A CN202110680280A CN113449183A CN 113449183 A CN113449183 A CN 113449183A CN 202110680280 A CN202110680280 A CN 202110680280A CN 113449183 A CN113449183 A CN 113449183A
Authority
CN
China
Prior art keywords
user
network
recommendation
item
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110680280.5A
Other languages
English (en)
Other versions
CN113449183B (zh
Inventor
李玉华
饶超
李瑞轩
辜希武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202110680280.5A priority Critical patent/CN113449183B/zh
Publication of CN113449183A publication Critical patent/CN113449183A/zh
Application granted granted Critical
Publication of CN113449183B publication Critical patent/CN113449183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于离线用户环境和动态奖励的交互式推荐方法和系统,属于交互式推荐技术领域。包括:构建离线用户环境,将其作为强化学习的环境,构建演员‑评论家架构的推荐智能体,将其作为强化学习的智能体;推荐智能体与离线用户环境不断进行交互自主学习,以期望在不断学习过程中获得最大化的累积奖励,得到学习好的推荐智能体,将待推荐用户的状态输入至学习好的推荐智能体,得到推荐项目列表。本发明通过构建并训练一个离线用户环境,捕获用户的兴趣偏好,模拟用户的行为(选择奖励最大的项目),完成环境的状态转移。本发明通过构建离线用户环境学习用户的奖励函数,根据用户的动态兴趣偏好动态调整奖励反馈,从而提高智能体学习效果。

Description

基于离线用户环境和动态奖励的交互式推荐方法和系统
技术领域
本发明属于交互式推荐技术领域,更具体地,涉及基于离线用户环境和动态奖励的交互式推荐方法和系统。
背景技术
推荐系统是一种解决信息过载问题的技术,使用户在海量信息中找到符合自己兴趣的信息,使商家能根据用户的兴趣给用户提供个性化服务,获得一个双赢的结果。传统的推荐系统采用协同过滤和基于内容的推荐方法,广泛运用在各个实际的商业应用中。随着深度学习的发展,深度神经网络强大的特征提取与表示能力被结合到推荐系统中,使得推荐系统得到进一步发展。然而,随着移动互联网的发展,抖音、Pandora广播和InstagramFeed等移动应用程序广泛占据市场,交互式推荐系统也受到越来越多的关注。传统的推荐算法具有静态特点,仅关注用户的即时反馈,比如希望用户尽快下单;而交互式推荐系统注重长期收益,希望用户在系统中停留的时间尽可能长,即应用的使用时间尽可能长,因此,传统推荐算法不适用于交互式推荐场景。
强化学习是一种依靠智能体不断与环境进行交互,依靠环境的奖励反馈进行策略调整,训练出完成特定任务的智能体的机器学习技术。推荐问题可以看作是强化学习问题的特殊实例,由此用户是智能体在其上行动的环境,推荐系统在该环境上作用以接收奖励,例如用户的点击或参与。传统的推荐系统通常关注于预测用户在特定时间点的兴趣,通常是下一个时刻,而基于强化学习的推荐系统的目标是在长期内最大限度地提高用户的参与度和满意度,即增加用户与系统的交互时间,这与交互式推荐系统希望增加用户与系统的交互次数,延长用户的使用时间的目标不谋而合。因此,强化学习技术十分适用于交互式推荐系统。
基于强化学习的推荐系统面临如下挑战:环境对应于登录的在线用户,驱动用户行为的用户兴趣(奖励函数)通常是未知的,但这对于强化学习算法的使用相当重要;在现有的强化学习推荐系统中,奖励函数被手动设计(例如点击奖励为1,不点击奖励为-1),不能反映用户对不同项目的偏好;无模型的强化学习算法通常需要与环境进行大量交互以学习一个好的策略,这在推荐系统中是不切实际的,如果推荐项目看起来是随机而不符合兴趣的,在线用户会很快放弃使用服务;强化学习推荐系统面临“灾难性遗忘”和Q值高估等问题,从而影响推荐的有效性。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了基于离线用户环境和动态奖励的交互式推荐方法和系统,其目的在于提高强化学习推荐系统的推荐效果
为实现上述目的,按照本发明的第一方面,提供了一种基于离线用户环境和动态奖励的交互式推荐方法,该方法包括:
准备阶段:
一、构建离线用户环境,将其作为强化学习的环境
S1.构建用户模型,所述用户模型包括:GRU和前馈神经网络,所述GRU用于从用户t时刻之前的历史项目记录中提取到用户t时刻的状态ht-1;所述前馈神经网络,用于根据用户t时刻的状态ht-1和用户t时刻被推荐的项目列表at,计算出用户t时刻被推荐的项目列表中各项目的奖励;
S2.利用生成对抗网络的思想构建损失函数,使得用户真实项目记录的奖励尽可能大,虚假项目记录的奖励尽可能小;
S3.使用用户历史项目记录数据集训练用户模型,使得损失函数值尽可能小,得到训练好的用户模型,将其作为离线用户环境;
二、构建演员-评论家架构的推荐智能体,将其作为强化学习的智能体;
三、推荐智能体与离线用户环境不断进行交互自主学习,以期望在不断学习过程中获得最大化的累积奖励,得到学习好的推荐智能体;所述交互自主学习包含:推荐智能体观察离线用户环境的状态,并根据状态生成动作用于离线用户环境,所述动作为生成推荐项目列表;离线用户环境在推荐智能体生成的推荐项目列表作用下产生状态转变,同时给出动态奖励作为反馈;推荐智能体根据反馈的奖励调整推荐策略;
应用阶段:
将待推荐用户的状态输入至学习好的推荐智能体,得到推荐项目列表。
优选地,步骤S1中,获取待推荐领域的各用户的历史项目数据,得到项目空间;对于每个用户的历史项目数据,首先按照时间进行升序排序,以步长a、窗口N滑动方式截取该用户历史项目数据,N个项目数据作为用户状态;对于该用户的每个用户状态,将下一个项目作为对应真实目标,从项目空间和该用户的历史项目的差集中,随机选取K-1个项目作为对应虚假目标,K表示推荐列表的长度,真实目标和K-1个虚假目标构成该用户该状态的推荐列表;最终得到该用户的状态集和推荐列表集,所述状态和推荐列表一一对应。
优选地,步骤S2中,给定一个用户行为轨迹
Figure BDA0003122564980000031
其对应的用户点击项目的特征为
Figure BDA0003122564980000032
推荐给用户但未被选择的项目记为
Figure BDA0003122564980000033
离线用户环境的损失函数L(θ)可用公式表示:
Figure BDA0003122564980000034
其中,rθ表示奖励函数,θ表示奖励函数中所有参数,st表示用户的历史项目记录,
Figure BDA0003122564980000041
表示用户真实项目记录,
Figure BDA0003122564980000042
表示用户虚假项目记录。
有益效果:本发明运用了生成对抗网络的思想构建损失函数,对于用户真实选择的项目,其奖励
Figure BDA0003122564980000043
应尽可能大,则
Figure BDA0003122564980000044
会尽可能小;用户未选择的项目,其奖励
Figure BDA0003122564980000045
应尽可能小,则
Figure BDA0003122564980000046
会尽可能小。通过最小化损失函数L(θ),可以满足上述要求,从而解得奖励函数。
优选地,所述构建演员-评论家架构的推荐智能体,具体如下:
推荐智能体包括:推荐策略网络和孪生价值网络;
所述推荐策略网络,用于观察离线用户环境状态并生成推荐列表动作,传递给孪生价值网络;
所述孪生价值网络包含:两个结构相同但参数独立初始化和训练的价值网络,用于根据环境状态和推荐动作计算Q值,基于较小的Q值计算时间差分目标,进而分别更新推荐策略网络和孪生价值网络。
有益效果:本发明改进智能体的价值网络,孪生价值网络使用两个结构相同的价值网络,在更新网络时使用其中的较小值作为Q值计算时间差分目标,防止差的动作通过贝尔曼方程传播增强,解决了高估值偏差,提高推荐性能。
优选地,推荐策略网络与离线用户环境不断进行交互从而探索策略,并将交互记录{<si,ai,ri,si+1>}顺序存储在经验池中,si表示i时刻的环境状态,ai表示根据状态si采取的动作,ri表示动作ai的奖励,si+1表示由于动作ai的执行环境从si转移到的下一个状态,然后在网络更新时从经验池随机均匀采样,得到采样结果<s,a,r,s′>,输入到推荐策略网络和孪生价值网络中。
有益效果:本发明在网络更新时从经验池采样进行经验重放,具有以下优点:当实际经验获取十分昂贵时,在许多更新中重用每个状态转换可以有效地利用以前的经验,提高数据使用效率;采集的连续数据之间存在着关联性,顺序使用它们进行训练会使网络表现不稳定,经验重放机制可以打破这种相关性,在批处理中使用不相关的状态转换来提高稳定性。
优选地,s作为策略网络和两个价值网络的输入,更新后的策略网络根据s计算出新的动作a作为两个价值网络的输入,价值网络根据输入s和a分别计算出值q1和q2,策略网络根据q1利用反向传播进行优化更新;
s′作为目标策略网络和两个目标价值网络的输入,更新后的目标策略网络根据s′计算出新的动作a′,并利用目标策略平滑正则化加上噪声,作为两个目标价值网络的输入,目标价值网络根据输入s′和a′分别计算出值q1′和q2′,取q1′和q2′的较小值作为q′,将q′与奖励r计算得到目标值qtarget=r+γ*q′,γ表示折扣系数;
qtarget与q1和q2分别进行均方误差计算得到优化目标,分别对它们进行反向传播以更新价值两个价值网络,目标价值网络和目标策略网络的参数使用原网络的参数软更新实现。
有益效果:目标网络是将稳定性引入智能体训练的一个很好的工具,但是在演员-评论家架构下,该技术存在一些问题。这是策略网络和价值网络相互作用的结果。当一项糟糕的策略被高估时,对智能体的训练就会发散。智能体的策略将继续变得更糟,因为它正在更新有很多错误的状态。为了解决这个问题,需要让策略网络的更新频率低于价值网络的更新频率。这样可以使价值网络在用于更新策略网络之前变得更加稳定,减少误差。
确定性策略方法在更新价值网络时倾向于产生具有高方差的目标值。这是由于对值估计中的峰值过拟合造成的。为了减少这种差异,本发明使用目标策略平滑正则化技术。
优选地,推荐策略网络将每个项目作为节点,边表示两个节点是否同属某一分类,得到项目图;利用GCN提取项目图中节点的特征,将用户状态中项目特征与对应项目图中节点特征连接形成新状态,输入至推荐策略网络,利用循环神经网络提取特征后经深度神经网络计算评分函数的权重,权重与项目特征空间相乘得到评分,将得分最高的k个项目作为推荐动作。
有益效果:本发明利用GCN从项目图中提取状态对应节点的特征,与原状态连接形成新状态,根据新状态学习用户兴趣分布,生成符合用户偏好的项目,同时构建一个经验池,采用经验重放机制,提高数据的利用效率并消除数据间的相关性。
为实现上述目的,按照本发明的第二方面,提供了一种基于离线用户环境和动态奖励的交互式推荐系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行第一方面所述的基于离线用户环境和动态奖励的交互式推荐方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
本发明通过构建并训练一个离线用户环境,捕获用户的兴趣偏好,模拟用户的行为(选择奖励最大的项目),完成环境的状态转移。本发明通过构建离线用户环境学习用户的奖励函数,根据用户的动态兴趣偏好动态调整奖励反馈,从而提高智能体学习效果。
附图说明
图1为本发明提供的一种基于离线用户环境和动态奖励的交互式推荐系统的总体框架;
图2为本发明提供的一种离线用户环境构建示意图;
图3为本发明提供的一种推荐策略网络构建示意图;
图4为本发明提供的推荐列表生成伪代码示意图;
图5为本发明提供的一种孪生价值网络构建示意图;
图6为本发明提供的推荐智能体的训练过程;
图7为本发明提供的一种经验池构建示意图;
图8为本发明提供的推荐智能体参数训练伪代码示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明提出了一种基于离线用户环境和动态奖励的交互式推荐系统,该推荐系统的整体流程包括:模型训练阶段、项目推荐阶段;
模型训练阶段包括:
(S1)数据收集与预处理
通过对比各公开推荐系统数据集,本实施选择使用MovieLens 100k数据集,并利用词嵌入技术将项目用向量表示。然后对数据集按用户进行处理,将用户真实历史记录按时间排序得到记录序列
Figure BDA0003122564980000071
对每一个真实项目
Figure BDA0003122564980000072
从项目集合与用户记录的差集中随机选择若干个项目与之组成一个列表
Figure BDA0003122564980000073
并将列表洗牌,所有列表按
Figure BDA0003122564980000074
的时间顺序排列组成用户历史记录,由所有用户的历史记录构成可用数据集,并将所述数据集划分为训练集、验证集和测试集
(S2)离线用户环境构建
离线用户环境基于以下假设:1)用户在推荐交互中是积极的,每次都会选择最符合自己兴趣的项目,即使用户未做选择,也可看做用户选择了一个特殊的项目,该项目代表不选择任何项目最符合自身兴趣。2)奖励不仅与用户选择的项目有关,还与用户的历史记录有关。例如,用户可能一开始对周杰伦的歌不感兴趣,但一旦他碰巧听了这首歌,他可能会喜欢这首歌,然后对他的其他歌曲感兴趣。此外,用户在反复听周杰伦的歌后可能会感到无聊。换句话说,用户对项目的评价根据其个人经历而有所不同。
离线用户环境构建示意图如图2所示,其输入为用户在时刻t的状态st以及用户在时刻t的行为
Figure BDA0003122564980000081
Figure BDA0003122564980000082
表示为用户在时刻t之前点击的m个项目历史序列的嵌入特征,即fi *
Figure BDA0003122564980000083
的特征,
Figure BDA0003122564980000084
是用户在时刻t点击的项目,其嵌入特征为fi t。通过GRU提取用户状态st的特征ht-1,并将其与用户在时刻t点击的项目特征fi t连接作为前馈神经网络的输入,输出为用户对该推荐项目的奖励反馈
Figure BDA0003122564980000085
该过程可参数化为公式(1)所示的奖励函数:
Figure BDA0003122564980000086
其中
Figure BDA0003122564980000087
是权重矩阵,
Figure BDA0003122564980000088
是偏差向量,
Figure BDA0003122564980000089
是最终回归参数,f是提取的用户状态特征向量的维数,d是项目的嵌入特征向量的维数,l是回归参数的维数。
基于用户会选择最符合自己兴趣的项目的假设,在t时刻,用户会在at中选择使奖励
Figure BDA00031225649800000810
最大的项目
Figure BDA00031225649800000811
用户行为模型可参数化为公式(2):
Figure BDA00031225649800000812
给定一个用户行为轨迹
Figure BDA00031225649800000813
其对应的用户点击项目的特征为
Figure BDA00031225649800000814
推荐给用户但未被选择的项目记为
Figure BDA00031225649800000815
离线用户环境的损失函数L(θ)可表示为公式(3):
Figure BDA00031225649800000816
该损失函数运用了生成对抗网络的思想,对于用户真实选择的项目,其奖励
Figure BDA00031225649800000817
应尽可能大,则
Figure BDA00031225649800000818
会尽可能小;用户未选择的项目,其奖励
Figure BDA00031225649800000819
应尽可能小,则
Figure BDA00031225649800000820
会尽可能小。通过最小化损失函数L(θ),可以满足上述要求,从而解得奖励函数和行为函数。
(S3)推荐策略网络构建
推荐策略网络构建示意图如图3所示,策略网络构建了一个项目图,将所有项目作为节点,边代表两个项目是否同属某一分类,利用GCN从项目图中提取节点特征,如公式(4)所示:
Figure BDA0003122564980000091
其中X是节点特征矩阵,A是节点邻接矩阵;
Figure BDA0003122564980000092
I是单位矩阵;
Figure BDA0003122564980000093
Figure BDA0003122564980000094
的度矩阵,公式为
Figure BDA0003122564980000095
W是权重。
同时,推荐策略网络将
Figure BDA0003122564980000096
Figure BDA0003122564980000097
连接得到新状态
Figure BDA0003122564980000098
其中st为t时刻之前被点击或订购的n个项目的特征,zt为这n个项目对应的节点特征。推荐策略网络使用一个特定于状态的评分函数,它根据新状态对项目进行评分,将新状态
Figure BDA0003122564980000099
映射成一个权重向量
Figure BDA00031225649800000910
Figure BDA00031225649800000911
如公式(5)所示:
Figure BDA00031225649800000912
其中
Figure BDA00031225649800000913
是参数为θπ的函数,将状态空间映射到权重表示空间。本发明使用深度神经网络作为参数生成函数。在不丧失一般性的前提下,本发明假设评分函数参数wt与项目空间I中第i个项目的嵌入ei是线性相关的,如公式(6)所示:
Figure BDA00031225649800000914
在计算所有项目的得分后,推荐智能体选择得分最高的k个项目作为推荐动作
Figure BDA00031225649800000915
整个过程如图4所示。
(S4)孪生价值网络构建
孪生价值网络构建示意图如图5所示,它的目的是利用一个近似器学习动作-价值函数Q(st,at),进而判断策略网络产生的动作at是否匹配当前的状态st。在真实的推荐系统中,状态和动作空间都是巨大的,因此为每一个状态-动作对建立动作-价值函数Q(s,a)是不可行的。此外,许多状态-动作对可能不会出现在真实的轨迹中,因此很难更新它们的值。因此,使用近似函数
Figure BDA0003122564980000101
来估计动作-价值函数更为灵活和实用。在实践中,动作-价值函数通常是高度非线性的。而深度神经网络被认为是优秀的非线性函数近似器。本发明将参数为θμ的神经网络函数近似器称为深度Q网络(DQN)。一个深度Q网络可以通过公式(7)所示的最小化损失函数序列L(θμ)训练出来:
Figure BDA0003122564980000102
其中
Figure BDA0003122564980000103
是当前迭代的目标。在优化损失函数L(θμ)时,前一次迭代的参数θμ′是固定的。
使用单个价值网络存在Q值高估问题,对较差的动作给出较高的Q值,使得该动作通过贝尔曼方程强化,影响模型效果。本发明使用孪生价值网络,即使用两个完全相同的价值网络,它们的参数相互独立,各自初始化和更新,取其中较小值作为损失函数中的Q值,从而损失函数变为公式(8)所示的
Figure BDA0003122564980000104
Figure BDA0003122564980000105
时间差分目标相应变为
Figure BDA0003122564980000106
损失函数
Figure BDA0003122564980000107
计算中,贝尔曼方程通过Q(st+1,at+1)提供Q(st,at)的值,然而st+1与st只相差一步,当更新神经网络的参数使Q(st,at)更接近预期结果时,会间接地改变Q(st+1,at+1)和附近其他状态产生的值,这会使训练十分不稳定。本发明使用目标网络机制,保留一份神经网络的副本,用它来计算贝尔曼方程中的Q(st+1,at+1),利用目标网络的Q值来训练主网络,提高训练的稳定性。若目标网络参数为θ′,主网络参数为θ,目标网络参数更新方式为θ′←τθ+(1-τ)θ′。
确定性策略方法在更新价值网络时倾向于产生具有高方差的目标值,这是由于对值估计中的峰值过拟合造成的。为了减少这种差异,本发明使用目标策略平滑正则化技术。理想情况下,目标值之间不存在差异,类似的操作接收类似的值。本发明通过向目标添加少量的随机噪声并对小批量进行平均来减少这种差异,如公式(9)所示:
Figure BDA0003122564980000111
(S5)模型训练
本发明中推荐智能体训练示意图如图6所示,训练过程可分为策略探索阶段和网络更新阶段。
策略探索阶段中,将离线用户环境作为训练环境,策略网络观察用户环境t时刻的状态st并作为输入,输出推荐动作at,用户环境从at中选择符合自己兴趣的项目
Figure BDA0003122564980000112
状态由st转变为st+1,并给出奖励反馈rt。策略网络根据新的状态st+1产生新的推荐动作,如此循环往复进行策略探索。
策略探索的交互记录作为经验存储在经验池中,经验池示意图如图7所示,其容量为n,基本单元是一个四元组,以t时刻的四元组<st,at,rt,st+1>为例,st是t时刻的环境状态,at为根据状态st采取的动作,rt是对动作at的奖励,st+1是由于动作at的执行环境从st转移到的下一个状态。经验池中的记录按顺序存储,当记录数量达到经验池的容量n时,新的记录又从头开始存储,形成一个循环。
网络更新阶段中,不再需要策略网络与用户环境交互,而是从经验池中均匀随机采样进行经验重放。对于经验池中的记录<s,a,r,s′>,s作为策略网络和两个价值网络的输入,更新后的策略网络根据s计算出新的动作a作为两个价值网络的输入,价值网络根据输入s和a分别计算出值q1和q2。策略网络根据q1利用反向传播进行优化更新。s′作为目标策略网络和两个目标价值网络的输入,更新后的目标策略网络根据s′计算出新的动作a′,并利用目标策略平滑正则化加上噪声,作为两个目标价值网络的输入,目标价值网络根据输入s′和a′分别计算出值q′1和q′2。取q′1和q′2的较小值作为q′,即q′=min(q′1,q′2),将q′与奖励r计算得到目标值qtarget=r+γ*q′,qtarget与q1和q2分别进行均方误差计算得到优化目标TD-error1和TD-error2,分别对它们进行反向传播以更新价值网络1和价值网络2。三个目标网络的参数则使用原网络的参数软更新实现。完整的训练过程如图8所示。
项目推荐阶段包括:
构建项目图并提取节点特征,获取用户的历史记录,将用户历史记录的特征以及对应项目图中节点的特征作为推荐策略网络的输入,生成推荐列表,根据用户的选择和奖励反馈,利用孪生价值网络调整策略,再次进行推荐,直至用户结束服务。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于离线用户环境和动态奖励的交互式推荐方法,其特征在于,该方法包括:
准备阶段:
一、构建离线用户环境,将其作为强化学习的环境
S1.构建用户模型,所述用户模型包括:GRU和前馈神经网络,所述GRU用于从用户t时刻之前的历史项目记录中提取到用户t时刻的状态ht-1;所述前馈神经网络,用于根据用户t时刻的状态ht-1和用户t时刻被推荐的项目列表at,计算出用户t时刻被推荐的项目列表中各项目的奖励;
S2.利用生成对抗网络的思想构建损失函数,使得用户真实项目记录的奖励尽可能大,虚假项目记录的奖励尽可能小;
S3.使用用户历史项目记录数据集训练用户模型,使得损失函数值尽可能小,得到训练好的用户模型,将其作为离线用户环境;
二、构建演员-评论家架构的推荐智能体,将其作为强化学习的智能体;
三、推荐智能体与离线用户环境不断进行交互自主学习,以期望在不断学习过程中获得最大化的累积奖励,得到学习好的推荐智能体;所述交互自主学习包含:推荐智能体观察离线用户环境的状态,并根据状态生成动作用于离线用户环境,所述动作为生成推荐项目列表;离线用户环境在推荐智能体生成的推荐项目列表作用下产生状态转变,同时给出动态奖励作为反馈;推荐智能体根据反馈的奖励调整推荐策略;
应用阶段:
将待推荐用户的状态输入至学习好的推荐智能体,得到推荐项目列表。
2.如权利要求1所述的方法,其特征在于,步骤S1中,获取待推荐领域的各用户的历史项目数据,得到项目空间;对于每个用户的历史项目数据,首先按照时间进行升序排序,以步长a、窗口N滑动方式截取该用户历史项目数据,N个项目数据作为用户状态;对于该用户的每个用户状态,将下一个项目作为对应真实目标,从项目空间和该用户的历史项目的差集中,随机选取K-1个项目作为对应虚假目标,K表示推荐列表的长度,真实目标和K-1个虚假目标构成该用户该状态的推荐列表;最终得到该用户的状态集和推荐列表集,所述状态和推荐列表一一对应。
3.如权利要求1所述的方法,其特征在于,步骤S2中,给定一个用户行为轨迹
Figure FDA0003122564970000021
其对应的用户点击项目的特征为
Figure FDA0003122564970000022
推荐给用户但未被选择的项目记为
Figure FDA0003122564970000023
离线用户环境的损失函数L(θ)可用公式表示:
Figure FDA0003122564970000024
其中,rθ表示奖励函数,θ表示奖励函数中所有参数,st表示用户的历史项目记录,
Figure FDA0003122564970000025
表示用户真实项目记录,
Figure FDA0003122564970000026
表示用户虚假项目记录。
4.如权利要求1所述的方法,其特征在于,所述构建演员-评论家架构的推荐智能体,具体如下:
推荐智能体包括:推荐策略网络和孪生价值网络;
所述推荐策略网络,用于观察离线用户环境状态并生成推荐列表动作,传递给孪生价值网络;
所述孪生价值网络包含:两个结构相同但参数独立初始化和训练的价值网络,用于根据环境状态和推荐动作计算Q值,基于较小的Q值计算时间差分目标,进而分别更新推荐策略网络和孪生价值网络。
5.如权利要求4所述的方法,其特征在于,推荐策略网络与离线用户环境不断进行交互从而探索策略,并将交互记录{<si,ai,ri,si+1>}顺序存储在经验池中,si表示i时刻的环境状态,ai表示根据状态si采取的动作,ri表示动作ai的奖励,si+1表示由于动作ai的执行环境从si转移到的下一个状态,然后在网络更新时从经验池随机均匀采样,得到采样结果<s,a,r,s′>,输入到推荐策略网络和孪生价值网络中。
6.如权利要求5所述的方法,其特征在于,s作为策略网络和两个价值网络的输入,更新后的策略网络根据s计算出新的动作a作为两个价值网络的输入,价值网络根据输入s和a分别计算出值q1和q2,策略网络根据q1利用反向传播进行优化更新;
s′作为目标策略网络和两个目标价值网络的输入,更新后的目标策略网络根据s′计算出新的动作a′,并利用目标策略平滑正则化加上噪声,作为两个目标价值网络的输入,目标价值网络根据输入s′和a′分别计算出值q1′和q2′,取q1′和q2′的较小值作为q′,将q′与奖励r计算得到目标值qtarget=r+γ*q′,γ表示折扣系数;
qtarget与q1和q2分别进行均方误差计算得到优化目标,分别对它们进行反向传播以更新价值两个价值网络,目标价值网络和目标策略网络的参数使用原网络的参数软更新实现。
7.如权利要求4至6任一项所述的方法,其特征在于,推荐策略网络将每个项目作为节点,边表示两个节点是否同属某一分类,得到项目图;利用GCN提取项目图中节点的特征,将用户状态中项目特征与对应项目图中节点特征连接形成新状态,输入至推荐策略网络,利用循环神经网络提取特征后经深度神经网络计算评分函数的权重,权重与项目特征空间相乘得到评分,将得分最高的k个项目作为推荐动作。
8.一种基于离线用户环境和动态奖励的交互式推荐系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至7任一项所述的基于离线用户环境和动态奖励的交互式推荐方法。
CN202110680280.5A 2021-06-18 2021-06-18 基于离线用户环境和动态奖励的交互式推荐方法和系统 Active CN113449183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110680280.5A CN113449183B (zh) 2021-06-18 2021-06-18 基于离线用户环境和动态奖励的交互式推荐方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110680280.5A CN113449183B (zh) 2021-06-18 2021-06-18 基于离线用户环境和动态奖励的交互式推荐方法和系统

Publications (2)

Publication Number Publication Date
CN113449183A true CN113449183A (zh) 2021-09-28
CN113449183B CN113449183B (zh) 2022-07-12

Family

ID=77811824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110680280.5A Active CN113449183B (zh) 2021-06-18 2021-06-18 基于离线用户环境和动态奖励的交互式推荐方法和系统

Country Status (1)

Country Link
CN (1) CN113449183B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987343A (zh) * 2021-10-26 2022-01-28 浙江中烟工业有限责任公司 基于强化学习的多样化推荐方法、系统及存储介质
CN114417124A (zh) * 2021-11-30 2022-04-29 哈尔滨工程大学 一种多任务强化学习推荐方法
CN114444698A (zh) * 2022-01-28 2022-05-06 腾讯科技(深圳)有限公司 信息推荐模型训练方法、装置、计算机设备和存储介质
CN114547466A (zh) * 2022-02-28 2022-05-27 东北大学 一种基于深度强化学习的信息多样性推荐方法
CN115017418A (zh) * 2022-08-10 2022-09-06 北京数慧时空信息技术有限公司 基于强化学习的遥感影像推荐系统及方法
CN116562982A (zh) * 2023-05-17 2023-08-08 清华大学深圳国际研究生院 离线物品推荐方法、装置、设备和存储介质
CN117035914A (zh) * 2023-07-25 2023-11-10 五矿证券有限公司 产品的推荐方法、装置、计算机设备及存储介质
CN117114937A (zh) * 2023-09-07 2023-11-24 深圳市真实智元科技有限公司 基于人工智能的练习曲目的生成方法及生成装置
CN117708421A (zh) * 2023-12-16 2024-03-15 辽宁工业大学 基于模块化神经网络的动态推荐方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060149717A1 (en) * 2004-12-30 2006-07-06 Bird Colin L Method and apparatus for managing recommendations in a group resource environment
CN110838024A (zh) * 2019-10-16 2020-02-25 支付宝(杭州)信息技术有限公司 基于深度强化学习的信息推送方法及装置、设备
CN111104595A (zh) * 2019-12-16 2020-05-05 华中科技大学 一种基于文本信息的深度强化学习交互式推荐方法及系统
CN111241407A (zh) * 2020-01-21 2020-06-05 中国人民大学 一种基于强化学习的个性化搜索方法
CN112612948A (zh) * 2020-12-14 2021-04-06 浙大城市学院 一种基于深度强化学习的推荐系统构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060149717A1 (en) * 2004-12-30 2006-07-06 Bird Colin L Method and apparatus for managing recommendations in a group resource environment
CN110838024A (zh) * 2019-10-16 2020-02-25 支付宝(杭州)信息技术有限公司 基于深度强化学习的信息推送方法及装置、设备
CN111104595A (zh) * 2019-12-16 2020-05-05 华中科技大学 一种基于文本信息的深度强化学习交互式推荐方法及系统
CN111241407A (zh) * 2020-01-21 2020-06-05 中国人民大学 一种基于强化学习的个性化搜索方法
CN112612948A (zh) * 2020-12-14 2021-04-06 浙大城市学院 一种基于深度强化学习的推荐系统构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
伍鑫等: "序列生成对抗网络在推荐系统中的应用", 《计算机工程与应用》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987343A (zh) * 2021-10-26 2022-01-28 浙江中烟工业有限责任公司 基于强化学习的多样化推荐方法、系统及存储介质
CN114417124A (zh) * 2021-11-30 2022-04-29 哈尔滨工程大学 一种多任务强化学习推荐方法
CN114444698A (zh) * 2022-01-28 2022-05-06 腾讯科技(深圳)有限公司 信息推荐模型训练方法、装置、计算机设备和存储介质
CN114547466A (zh) * 2022-02-28 2022-05-27 东北大学 一种基于深度强化学习的信息多样性推荐方法
CN115017418A (zh) * 2022-08-10 2022-09-06 北京数慧时空信息技术有限公司 基于强化学习的遥感影像推荐系统及方法
CN115017418B (zh) * 2022-08-10 2022-11-01 北京数慧时空信息技术有限公司 基于强化学习的遥感影像推荐系统及方法
CN116562982A (zh) * 2023-05-17 2023-08-08 清华大学深圳国际研究生院 离线物品推荐方法、装置、设备和存储介质
CN117035914A (zh) * 2023-07-25 2023-11-10 五矿证券有限公司 产品的推荐方法、装置、计算机设备及存储介质
CN117035914B (zh) * 2023-07-25 2024-08-27 五矿证券有限公司 产品的推荐方法、装置、计算机设备及存储介质
CN117114937A (zh) * 2023-09-07 2023-11-24 深圳市真实智元科技有限公司 基于人工智能的练习曲目的生成方法及生成装置
CN117708421A (zh) * 2023-12-16 2024-03-15 辽宁工业大学 基于模块化神经网络的动态推荐方法及系统

Also Published As

Publication number Publication date
CN113449183B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN113449183B (zh) 基于离线用户环境和动态奖励的交互式推荐方法和系统
Zhao et al. Deep reinforcement learning for list-wise recommendations
Yu et al. A survey of multi-agent trust management systems
Sahoo et al. A hidden Markov model for collaborative filtering
Hassan et al. Genetic algorithm approaches for improving prediction accuracy of multi-criteria recommender systems
CN114595396B (zh) 一种基于联邦学习的序列推荐方法和系统
CN114896899B (zh) 一种基于信息交互的多智能体分散式决策方法及系统
CN111445291B (zh) 一种为社交网络影响力最大化问题提供动态决策的方法
Yu et al. F-MOGP: A novel many-objective evolutionary approach to QoS-aware data intensive web service composition
He et al. Multistage Competitive Opinion Maximization With Q-Learning-Based Method in Social Networks
Han et al. Optimizing ranking algorithm in recommender system via deep reinforcement learning
CN115599990A (zh) 一种知识感知结合深度强化学习的跨域推荐方法及系统
Yang et al. Hierarchical reinforcement learning for conversational recommendation with knowledge graph reasoning and heterogeneous questions
Liu et al. REDRL: A review-enhanced Deep Reinforcement Learning model for interactive recommendation
Baker et al. Machine learning: factorization machines and normalized discounted cumulative gain for tourism recommender system optimisation
Chen et al. Generative adversarial reward learning for generalized behavior tendency inference
Wang et al. Robustness estimation and optimisation for semantic web service composition with stochastic service failures
Sadeghiram et al. A distance-based genetic algorithm for robust data-intensive web service composition in dynamic bandwidth environment
Jia et al. Enhancing reliability of failure modes and effects analysis dealing with linguistic distribution assessments: A consistency based approach
CN115146455A (zh) 一种计算实验支持的复杂供应链多目标决策方法
Yinggang et al. Social Recommendation System Based on Multi-agent Deep Reinforcement Learning
Li et al. A data-driven method for recognizing automated negotiation strategies
CN109918576B (zh) 一种基于联合概率矩阵分解的微博关注推荐方法
Yao et al. Correlated wasserstein autoencoder for implicit data recommendation
dos Santos et al. A distance-based mutation operator for learning bayesian network structures using evolutionary algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant