CN113987343A - 基于强化学习的多样化推荐方法、系统及存储介质 - Google Patents

基于强化学习的多样化推荐方法、系统及存储介质 Download PDF

Info

Publication number
CN113987343A
CN113987343A CN202111249154.0A CN202111249154A CN113987343A CN 113987343 A CN113987343 A CN 113987343A CN 202111249154 A CN202111249154 A CN 202111249154A CN 113987343 A CN113987343 A CN 113987343A
Authority
CN
China
Prior art keywords
network
recommendation
action
probability
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111249154.0A
Other languages
English (en)
Inventor
高扬华
楼卫东
陆海良
郁钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Tobacco Zhejiang Industrial Co Ltd
Original Assignee
China Tobacco Zhejiang Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Tobacco Zhejiang Industrial Co Ltd filed Critical China Tobacco Zhejiang Industrial Co Ltd
Priority to CN202111249154.0A priority Critical patent/CN113987343A/zh
Publication of CN113987343A publication Critical patent/CN113987343A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于强化学习的多样化推荐方法,其特征在于,包括如下步骤:S1:获取训练样本,确定并初始化网络参数;S2:执行策略生成行动;S3:评估所述策略并优化;S4:通过评论网络监督损失;S5:更新探索概率。所述方法能够在较长阶段的运行过程中,通过奖赏来驱动最优推荐序列的获取,通过试错,从好的推荐动作中得到较高奖赏,最终学习出各种状态下最优的推荐列表来最大化长期收益。

Description

基于强化学习的多样化推荐方法、系统及存储介质
技术领域
本发明涉及电子商务物品推荐领域,具体涉及一种基于强化学习的多样化推荐方法、系统及存储介质。
背景技术
当今的电子商务平台广泛应用了推荐系统,它通过分析用户的历史行为信息,预测用户对某些物品的喜好程度,向其推荐一组物品,达到在海量物品中进行信息过滤的目的。推荐系统早期的方法主要是基于内容的推荐或协同过滤推荐,具体的实施方式有许多,有的利用了用户之间的相似性,有的利用了物品之间的相似性,还有的是进行用户特征与产品特征的匹配。早期方法具有较大局限性,后续也有大量的改进算法被提出来,同时也提出了对推荐效果的评价。如果单纯自救满足物品本身与用户兴趣的匹配度,会导致一个严重的问题,即推荐的多个物品可能具有较高的同质性,是一种单调的、冗余的推荐,不能满足用户多方面的兴趣。为此已有人提出推荐方法多样性的评判标准,它指是是推荐物品间要有一定的差异性,推荐结果集要覆盖尽可能多的产品类别,满足用户多方面的潜在兴趣。
实现多样化的关键是对候选物品推荐排序时不仅考虑候选物品本身与用户兴趣的匹配度,同时还要考虑与其他推荐物品之间的区分度。传统使用启发式方法来达到多样化,需要预定义一个打分公式,综合评估物品的用户兴趣匹配程度和物品间的差异程度。这种方法虽然简单,但定义一个通用的打分公式十分困难,常常需要根据使用环境手工调整参数,并且难以达到全局最优。也有使用监督学习方法开展多样化推荐,但获取充足的训练样本十分困难,就算得到了,它们可能与实际运行样本之间可能存在较大差异,另外多样化评估指标并不能直接用于指导训练过程。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于强化学习的多样化推荐方法,所述方法能够在较长阶段的运行过程中,通过奖赏来驱动最优推荐序列的获取,通过试错,从好的推荐动作中得到较高奖赏,最终学习出各种状态下最优的推荐列表来最大化长期收益。
基于上述目的,本发明的一个方面,提供一种基于强化学习的多样化推荐方法,该方法包括如下步骤:
S1:获取训练样本,确定并初始化网络参数;
S2:执行策略生成行动;
S3:评估所述策略并优化;
S4:通过评论网络监督损失;
S5:更新探索概率。
作为优选,步骤S1具体包括:
输入带标签的训练样本集合,其中包含监督样本;确定并初始化算法参数,包括确定推荐列表长度T,探索概率衰减系数ξ,监督损失函数系数λ与τ,并对各参数进行初始化。
作为优选,步骤S1中,训练样本的获取方法包括:
基于LSTM的生成推荐列表,过程如下:
a)输入某用户的兴趣特征向量、候选物品集合,初始化LSTM隐状态及决策序列;
b)向LSTM输入用户兴趣向量作为状态;
c)逐个处理候选物品,计算各物品的选择概率,当最大选择概率小于探索概率时,采用随机采集方法进行采样;当最大选择概率大于等于探索概率时,采用贪心方法取最大动作概率对应物品;
d)根据LSTM网络获取输出,形成动作,计算奖赏;
e)构造新的推荐物品列表,直到达到预定数量。
作为优选,步骤S3具体包括:
a)执行LSTM网络评估行动策略;
b)基于所有的候选动作计算对应状态下的梯度期望,优化行动策略;
c)使用时间差分学习方法优化状态值;
d)根据前向一步的贝尔曼期望计算评价目标,优化评价网络参数;
e)使用多样性指标计算奖赏。
作为优选,步骤S4具体包括:
基于输入数据中的监督学习样本,确定最优的推荐序列,在优化Critic网络时增加pair-wise的排序损失,以促进在某个排序位置监督样本提供的动作值优于其它候选动作值,从而为学习提供了一个良好的方向。
作为优选,步骤S5中,采用逐步衰减的∈-贪心探索方法来更新探索概率。
作为优选,所述多样化推荐方法还包括步骤S6:判断算法是否收敛;
若是,则输出策略网络和值网络;
若否,则返回至步骤S3。
本发明的另一个方面,还提供一种基于强化学习的多样化推荐系统,其包括:
初始化单元,用于获取训练样本,确定并初始化网络参数;
行动单元,用于执行策略生成行动;
评价单元,评估所述策略并优化;
监督单元,用于增加Critic网络监督损失以提升学习效率;
结果生成单元,用于更新探索概率。
作为优选,该系统还包括输出单元,该输出单元用于判断算法是否收敛;若是,则输出策略网络和值网络;若否,则控制评价单元重新评估策略并优化。
本发明的再一个方面,提供一种存储介质,该存储介质中存储有计算机程序,所述计算机程序被处理执行时,实现如上所述的基于强化学习的多样化推荐方法。
与现有技术相比,本发明的有益效果为:
本发明所述方法能够在较长阶段的运行过程中,通过奖赏来驱动最优推荐序列的获取,通过试错,从好的推荐动作中得到较高奖赏,最终学习出各种状态下最优的推荐列表来最大化长期收益。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的限定。
图1是本发明实施例中所述算法的流程示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本实施例提供一种基于强化学习的多样化推荐方法,使用行动者-评论家(Actor-Critic)强化学习算法,行动者通过长短期记忆网络(LSTM)循环地建模的状态随推荐序列变化,由用户兴趣逐步选择推荐物品,生成推荐列表;评论家估计各个推荐列表或列表-物品的累积未来期望收益,用于指导物品选择策略的更新。在计算评论家的更新目标时,前向一步的贝尔曼完全期望公式,提高样本效率并减少样本方差;在行动策略更新时,基于每个状态时的完整动作空间优化行动者更新方向;另外基于监督学习样本用于辅助强化学习,提高了训练效率。该方法包括如下步骤:
S1:获取训练样本,确定并初始化网络参数;
S2:执行策略生成行动;
S3:评估所述策略并优化;
S4:通过评论网络监督损失;
S5:更新探索概率。
作为一种较优的实施方式,步骤S1具体包括:
输入带标签的训练样本集合,其中包含监督样本;确定并初始化算法参数,包括确定推荐列表长度T,探索概率衰减系数ξ,监督损失函数系数λ与τ,并对各参数进行初始化。
作为一种较优的实施方式,步骤S1中,训练样本的获取方法包括:
基于LSTM的生成推荐列表,过程如下:
a)输入某用户的兴趣特征向量、候选物品集合,初始化LSTM隐状态及决策序列;
b)向LSTM输入用户兴趣向量作为状态;
c)逐个处理候选物品,计算各物品的选择概率,当最大选择概率小于探索概率时,采用随机采集方法进行采样;当最大选择概率大于等于探索概率时,采用贪心方法取最大动作概率对应物品;
d)根据LSTM网络获取输出,形成动作,计算奖赏;
e)构造新的推荐物品列表,直到达到预定数量。
作为一种较优的实施方式,步骤S3具体包括:
a)执行LSTM网络评估行动策略;
b)基于所有的候选动作计算对应状态下的梯度期望,优化行动策略;
c)使用时间差分学习方法优化状态值;
d)根据前向一步的贝尔曼期望计算评价目标,优化评价网络参数;
e)使用多样性指标计算奖赏。
作为一种较优的实施方式,步骤S4具体包括:
基于输入数据中的监督学习样本,确定最优的推荐序列,在优化Critic网络时增加pair-wise的排序损失,以促进在某个排序位置监督样本提供的动作值优于其它候选动作值,从而为学习提供了一个良好的方向。
作为一种较优的实施方式,步骤S5中,采用逐步衰减的∈-贪心探索方法来更新探索概率。
作为一种较优的实施方式,所述多样化推荐方法还包括步骤S6:判断算法是否收敛;
若是,则输出策略网络和值网络;
若否,则返回至步骤S3。
如图1所示,上述方法可具体实施为:
S1:获取训练样本,确定并初始化网络参数;具体的:
a)获取训练样本集合并确定算法初始参数;
输入训练样品集合
Figure BDA0003321894440000051
其中u(n)表示某用户,X(n)表示用户的候选物品集合,Y(n)表示该用户的监督样本集合。
b)初始化策略网络参数和值函数网络参数;
取初始探索概率为∈=1,随机初始化策略网络参数θ和值函数网络参数
φ,策略网络参数用于后续Actor阶段更新,值函数网络参数用于后续Critic阶段更新。需要说明,∈值取[0,1]。在步骤S2的c)中使用,在S5步骤中更新。采用最优动作即利用,采用随机动作即探索。初始探索概率为1,表示一定采用随机动作。在S5中该值逐步缩小,但其前期还是比较大的,表示更有可能随机选择所生成的动作,从而探索更多的可能动作。随着算法进展,动作中确定性信息越来越强,于是在算法每一轮中采用最优动作的机会越来越多,进而增加算法收敛速度;另,在下述提到的步骤S2中b)利用了LSTM网络来生成推荐列表,这就是策略网络,其中的神经网络参数统一用θ来表示,其实就是其中的W_xx权重参数和b_xx偏置参数。步骤S3中a)利用了LSTM网络用于评估,这就是值网络,参数φ内容是相近的,但属于不同的两个网络。
S2:执行策略生成行动;具体地:
在本发明中LSTM递归神经网络被用于学习用户状态随已生成的推荐列表的演变,行动者策略就保存在LSTM网络中。每个时间步选择的推荐物品的表示向量构成了LSTM的输入序列;LSTM的隐状态记录了用户状态,伴随每个推荐动作的变化,用户个人兴趣也表示成向量的形式,并作为LSTM的初始输入激活信号。
记Vu为用户u的个人兴趣偏好,初始化为用户的基本兴趣的表示向量,可以通过评分矩阵分解等预训练的方式赋值,或者随机初始化,随后在推荐任务训练中以端到端的方式学习赋值。sigmoid函数记为
Figure BDA0003321894440000061
基于LSTM产生下个时刻状态的转换机制过程可以形式化为公式(1)所示:
i=σ(Wiix+bii+Whix+bhi)
f=σ(Wifx+bif+Whfx+bhf)
o=σ(Wiox+bio+Whox+bho)
g=tanh(Wigx+big+Whcx+bhg)
c′=f*c+i*g
h′=tanh(c′)*o
公式(1)
其中x为当前时刻的输入,即此刻所选择的物品的表示向量。i,f,o表示LSTM转换中对应的输入(input)门、遗忘(forget)门和输出(output)门。c,h为前一时刻的细胞(cell)状态和隐(hidden)状态,而c′和h′表示当前时刻通过遗忘一些旧的信息并合并一些输入的新信息后更新后的细胞状态和隐状态。在这里遗忘可以表示减少前面已经推荐物品覆盖的类别的影响,合并则是考虑当前新推荐的物品的作用。Wxx
bxx,如Wii、hii,是不同层的权重和偏置,它们是在训练中需要学习优化的参数。LSTM的隐状态表示用户状态,即st=ht
基于LSTM的生成推荐列表,过程如下:
a)输入某用户u,候选物品集合X,初始化LSTM隐状态及决策序列
h0=0,c0=0,Y=[];
b)向LSTM输入用户状态兴趣向量Vu,作为LSTM的隐状态,即ht=Vu
c)逐个处理候选物品,本发明采用用户状态向量和物品向量的内积来计算每个候选物品的选择概率,计算方式如公式(2)所示:
Figure BDA0003321894440000071
其中,xi为候选物品集X中的任意一个物品的编码向量,ht表示待学习的DNN非线性转换,将用户状态转换为与xi相同维度的向量,每个维度对应用户当前的兴趣权重。随后softmax用以将各个候选物品的选择概率进行标准化,得到各个动作概率,即πi,从中选择最大动作概率p。当p<∈时,根据各个动作概率随机采集物品,这是一种均匀随机选择的探索策略;当p≥∈时,选择最大动作概率p对应的物品,这是一种贪心的利用策略。最终确定一个推荐物品,形成动作i。
d)根据公式(1)更新ht,ct,得到ht+1,ct+1
e)根据动作i形成的指标提升计算奖赏ri=r(i)。
f)补充物品(i,ri)到推荐列表Y′;
g)从候选物品集合移除已推荐物品X=X\i。
h)如果推荐物品数量还未达到T,并且还有候选物品,则转步骤c。
S3:评估所述策略并优化;具体地:
本步骤利用Critic网络评估状态值V(s)和状态-动作值Q(s,a)。
a)执行LSTM网络评估策略。
在MDP环境下,根据贝尔曼期望等式,
Figure BDA0003321894440000081
其中s′表示下个时刻的状态,P(s,a)→s′为在状态s下执行动作a后,环境迁移到s′的概率,rs,a为在状态s下执行动作a后获得的即时奖赏,
V(s′)表示下个时刻的状态值。
上一步行动者执行报获取到新的推荐列表,每一步当输入用户兴趣即环境状态时,环境在确定的状态、动作下有确定的状态转移,即有下一时刻状态st+1
st+1=f(st,at)
f为基于LSTM的状态转换过程。此时有,
Figure BDA0003321894440000082
这里Critic计算状态值,将输入状态映射为标量,即一维的状态值。Critic使用与Actor网络除了输出层,其他均相同的LSTM网络结构,将Critic参数记为φ。整体的输入-输出结构如图1所示。
b)Actor策略的优化
策略的优化目标为最大化整体收益期望J(θ)。考虑到在推荐问题中明确的动作空间(候选物品集),本发明重写策略梯度如下,
Figure BDA0003321894440000091
对比现有方法在状态s使用采样的一个动作a,即采样状态s和动作a计算策略梯度,本发明在采样状态下基于所有的候选动作计算对应状态下的梯度期望。每个动作带来的策略梯度根据其动作概率进行累计。这种计算方式是对采样状态下策略梯度的无偏估计,策略更新的方差可以大大降低,同时在一个状态下利用多个候选动作大大提高了样本利用率。
c)优化状态值
对于状态值V(s)的优化,本发明仍然使用时间差分(TD)学习方法。在传统的Critic更新中,给定一步采样<st,at,rt,st+1>,当前状态st的更新目标值则为
rt+γV(st+1)。这里基于采样的一个前向一步状态V(st+1)近似估计当前状态
V(st)同样可能带来较大的偏差。与之不同,本发明根据前向一步的贝尔曼期望计算Critic目标。对V(st)的更新目标记为V′(st),其计算公式如,
Figure BDA0003321894440000092
采样序列随着某一个采样状态深入,而对某个采样状态扩展了所有前向一步的候选动作及其后续状态。这种方法对比传统的TD更新方法降低了样本偏差,提高了样本利用率。
d)优化Critic网络参数
根据式(4)计算了Critic的更新目标,优化Critic网络参数时的目标则为最小化
V(st)和目标值V(st)之间的均方差,即使用平方差损失函数。Critic网络参数φ在学习率α下的更新方程如下,
Figure BDA0003321894440000101
e)计算奖赏
进一步地,在状态s下,对于候选动作A(s)需要知道每个动作的即时奖赏
r(s,a)及其带来的下一个值状态V(s′)。这里本发明使用多样性指标αNDCG,由此步动作带来的指标提升作为该动作的即时奖赏,如此步推荐动作之后αNDCG对比之前αNDCG的提高。对于每个候选动作计算得到对应的奖赏,这里结合指标的计算方式和各个动作之间的共用部分,基于空间换时间的思想可以大大提高计算效率。
S4:通过评论网络监督损失;具体地:
强化学习方法从零开始探索各种动作的收益,由于候选动作数量众多,因此会尝试大量的无效动作而没有得到任何提升信息,往往效率较低。本发明在输入数据中要求有监督学习样本,用它们进行(近似)最优的推荐序列,从而为学习提供了一个良好的方向。在传统Actor-Critic算法基础上,本发明增加一种新的损失用于训练Critic网络,这种损失基于监督样本这一近似最优的训练样本,来辅助学习。详细来讲,在优化Critic网络时增加一种pair-wise的排序损失,以促进在某个排序位置监督样本提供的动作值优于其它候选动作值,这种监督辅助损失可以稳定地提高性能。使用λ代表监督损失的权重,则Critic的整体损失函数为,
Losscritic=LossRL+λ*LossSUP
其中LossRL表示步骤3值网络的平方差损失,LossUP表示辅助的pair-wise监督学习损失。
Figure BDA0003321894440000102
其中φ为Critic网络参数,Vt为公式(5)计算的当前时刻目标网络状态值V(s)。
考虑到监督学习样本可能是次优的,如果策略预测的监督样本提高的动作概率高于其他某个候选动作,则增加二者的排序损失,否则忽略。LossUP计算公式如下,
Figure BDA0003321894440000111
其中Ix为指示函数,当x为真时取值为1,反之取值0。a*和a用于表示监督样本的动作和任意一个候选动作。这里使用的状态-动作值Qs,a根据公式(3)进行计算。τ为一个小的非负数,用于限制动作之间的区分度。
S5:更新探索概率,具体地:
本发明采用逐步衰减的∈-贪心探索方法。即在训练的早期阶段,由于经验不足,∈值较高使得以较高的概率尝试各种动作,随着参数的优化,策略可信度增强,∈降低,提高采取策略提供的最优动作的概率。这里将∈初始化为1,随每个训练周期,∈衰减到ξ,其中0<ξ<1。
S6:判断算法是否收敛,如果否,转步骤S3;如果是,输出Actor的策略网络和Cirtic的值网络。
本实施例还提供一种基于强化学习的多样化推荐系统,其包括:
初始化单元,用于获取训练样本,确定并初始化网络参数;
行动单元,用于执行策略生成行动;
评价单元,评估所述策略并优化;
监督单元,用于增加Critic网络监督损失以提升学习效率;
结果生成单元,用于更新探索概率。
作为一种较优的实施方式,该系统还包括输出单元,该输出单元用于判断算法是否收敛;若是,则输出策略网络和值网络;若否,则控制评价单元重新评估策略并优化。
本实施例一种存储介质,该存储介质中存储有计算机程序,所述计算机程序被处理执行时,实现如上所述的基于强化学习的多样化推荐方法。
本发明所述方法将用户兴趣特征(点击、浏览时间、购买等)作为输入,对候选物品进行排序,每步选出一个最优的物品加入推荐序列,多样化评估指标可视转换为强化学习的奖赏。这种方法能够在较长阶段的运行过程中,通过奖赏来驱动最优推荐序列的获取,通过试错,从好的推荐动作中得到较高奖赏,最终学习出各种状态下最优的推荐列表来最大化长期收益。这种方法能够在较长阶段的运行过程中,通过奖赏来驱动最优推荐序列的获取,通过试错,从好的推荐动作中得到较高奖赏,最终学习出各种状态下最优的推荐列表来最大化长期收益。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种基于强化学习的多样化推荐方法,其特征在于,包括如下步骤:
S1:获取训练样本,确定并初始化网络参数;
S2:执行策略生成行动;
S3:评估所述策略并优化;
S4:通过评论网络监督损失;
S5:更新探索概率。
2.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S1具体包括:
输入带标签的训练样本集合,其中包含监督样本;确定并初始化算法参数,包括确定推荐列表长度T,探索概率衰减系数ξ,监督损失函数系数λ与τ,并对各参数进行初始化。
3.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S1中,训练样本的获取方法包括:
基于LSTM的生成推荐列表,过程如下:
a)输入某用户的兴趣特征向量、候选物品集合,初始化LSTM隐状态及决策序列;
b)向LSTM输入用户兴趣向量作为状态;
c)逐个处理候选物品,计算各物品的选择概率,当最大选择概率小于探索概率时,采用随机采集方法进行采样;当最大选择概率大于等于探索概率时,采用贪心方法取最大动作概率对应物品;
d)根据LSTM网络获取输出,形成动作,计算奖赏;
e)构造新的推荐物品列表,直到达到预定数量。
4.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S3具体包括:
a)执行LSTM网络评估行动策略;
b)基于所有的候选动作计算对应状态下的梯度期望,优化行动策略;
c)使用时间差分学习方法优化状态值;
d)根据前向一步的贝尔曼期望计算评价目标,优化评价网络参数;
e)使用多样性指标计算奖赏。
5.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S4具体包括:
基于输入数据中的监督学习样本,确定最优的推荐序列,在优化Critic网络时增加pair-wise的排序损失。
6.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S5中,采用逐步衰减的∈-贪心探索方法来更新探索概率。
7.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,所述多样化推荐方法还包括步骤S6:判断算法是否收敛;
若是,则输出策略网络和值网络;
若否,则返回至步骤S3。
8.一种基于强化学习的多样化推荐系统,其特征在于,包括:
初始化单元,用于获取训练样本,确定并初始化网络参数;
行动单元,用于执行策略生成行动;
评价单元,评估所述策略并优化;
监督单元,用于增加Critic网络监督损失以提升学习效率;
结果生成单元,用于更新探索概率。
9.根据权利要求8所述的一种强化学习的多样化推荐系统,其特征在于,还包括输出单元,该输出单元用于判断算法是否收敛;若是,则输出策略网络和值网络;若否,则控制评价单元重新评估策略并优化。
10.一种存储介质,该存储介质中存储有计算机程序,其特征在于,所述计算机程序被处理执行时,实现如权利要求1-7中任一项所述的基于强化学习的多样化推荐方法。
CN202111249154.0A 2021-10-26 2021-10-26 基于强化学习的多样化推荐方法、系统及存储介质 Pending CN113987343A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111249154.0A CN113987343A (zh) 2021-10-26 2021-10-26 基于强化学习的多样化推荐方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111249154.0A CN113987343A (zh) 2021-10-26 2021-10-26 基于强化学习的多样化推荐方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN113987343A true CN113987343A (zh) 2022-01-28

Family

ID=79741804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111249154.0A Pending CN113987343A (zh) 2021-10-26 2021-10-26 基于强化学习的多样化推荐方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN113987343A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114855416A (zh) * 2022-04-25 2022-08-05 青岛海尔科技有限公司 洗涤程序的推荐方法及装置、存储介质及电子装置
CN115439479A (zh) * 2022-11-09 2022-12-06 北京航空航天大学 一种基于强化学习的学术图像复用检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414549A (zh) * 2019-05-14 2020-07-14 北京大学 一种针对推荐系统脆弱性的智能通用评估方法和系统
CN113449183A (zh) * 2021-06-18 2021-09-28 华中科技大学 基于离线用户环境和动态奖励的交互式推荐方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414549A (zh) * 2019-05-14 2020-07-14 北京大学 一种针对推荐系统脆弱性的智能通用评估方法和系统
CN113449183A (zh) * 2021-06-18 2021-09-28 华中科技大学 基于离线用户环境和动态奖励的交互式推荐方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李爽: "面向准确性和多样性的个性化推荐算法研究", 信息科技辑, 15 June 2020 (2020-06-15), pages 1 - 109 *
祁文凯;桑国明;: "基于延迟策略的最大熵优势演员评论家算法", 小型微型计算机系统, no. 08, 15 August 2020 (2020-08-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114855416A (zh) * 2022-04-25 2022-08-05 青岛海尔科技有限公司 洗涤程序的推荐方法及装置、存储介质及电子装置
CN114855416B (zh) * 2022-04-25 2024-03-22 青岛海尔科技有限公司 洗涤程序的推荐方法及装置、存储介质及电子装置
CN115439479A (zh) * 2022-11-09 2022-12-06 北京航空航天大学 一种基于强化学习的学术图像复用检测方法

Similar Documents

Publication Publication Date Title
Wu et al. Hyperparameter optimization for machine learning models based on Bayesian optimization
CN111523047B (zh) 基于图神经网络的多关系协同过滤算法
Angelov et al. A new type of simplified fuzzy rule-based system
CN112150210A (zh) 一种基于ggnn网络的改进型神经网络推荐方法及系统
CN110955826B (zh) 基于改进型循环神经网络单元的推荐系统
CN111079931A (zh) 一种基于图神经网络的状态空间概率性多时间序列预测方法
CN110781409B (zh) 一种基于协同过滤的物品推荐方法
Salama et al. Learning neural network structures with ant colony algorithms
CN113987343A (zh) 基于强化学习的多样化推荐方法、系统及存储介质
CN111199458B (zh) 一种基于元学习与强化学习的推荐系统
Pizzileo et al. Improved structure optimization for fuzzy-neural networks
CN110910218A (zh) 一种基于深度学习的多行为迁移推荐方法
Navgaran et al. Evolutionary based matrix factorization method for collaborative filtering systems
CN113918833A (zh) 通过社交网络关系的图卷积协同过滤实现的产品推荐方法
CN111178986B (zh) 用户-商品偏好的预测方法及系统
CN106600347B (zh) 一种基于多视角数据和循环网络构建序列预测模型的方法
Baghi et al. Improving ranking function and diversification in interactive recommendation systems based on deep reinforcement learning
CN113449182A (zh) 一种知识信息个性化推荐方法及系统
Zap et al. Deep ordinal reinforcement learning
CN115953215A (zh) 一种基于时间和图结构的搜索式推荐方法
CN115600009A (zh) 一种考虑用户未来偏好的基于深度强化学习的推荐方法
CN112949599B (zh) 基于大数据的候选内容推送方法
Wang et al. An online deep reinforcement learning-based order recommendation framework for rider-centered food delivery system
CN110956528B (zh) 一种电商平台的推荐方法及系统
Ghosh et al. DiPS: Differentiable Policy for Sketching in Recommender Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination