CN112597392A - 一种基于动态注意力和分层强化学习的推荐系统 - Google Patents

一种基于动态注意力和分层强化学习的推荐系统 Download PDF

Info

Publication number
CN112597392A
CN112597392A CN202011564661.9A CN202011564661A CN112597392A CN 112597392 A CN112597392 A CN 112597392A CN 202011564661 A CN202011564661 A CN 202011564661A CN 112597392 A CN112597392 A CN 112597392A
Authority
CN
China
Prior art keywords
user
recommendation
item
vector
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011564661.9A
Other languages
English (en)
Other versions
CN112597392B (zh
Inventor
林元国
林凡
曾文华
夏侯建兵
冯世博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202011564661.9A priority Critical patent/CN112597392B/zh
Publication of CN112597392A publication Critical patent/CN112597392A/zh
Application granted granted Critical
Publication of CN112597392B publication Critical patent/CN112597392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种动态注意力和分层强化学习的推荐系统,包括用户画像矫正器:通过删除噪声数据来修改用户画像;(2)动态注意力机制:自动调整用户偏好的变化;(3)推荐模型:向相关用户推荐目标物品。所述推荐系统具有以下特点:动态注意力机制通过一个多层感知器自动调整每个交互过程中相应物品的attention权重,并将基于分层强化学习的用户画像矫正器合并到一个统一的框架中;其次,为了增强推荐系统的自适应性,以提高推荐的准确性,推荐系统针对不同时段物品交互的信息,在attention权重上增加了一个自适应系数,以便在每个推荐阶段自动更新相应物品的attention权重;最后,与HRL模型相比,本推荐系统可以提高策略评估的收敛速度,每个推荐阶段的开销时间更少。

Description

一种基于动态注意力和分层强化学习的推荐系统
技术领域
本发明涉及基于注意力的智能推荐技术领域,尤其涉及一种基于动态注意力和分层强化学习的推荐系统。
背景技术
虽然目前基于注意力(attention)的模型在推荐系统中具有一定的竞争力,但仍存在一些明显的缺陷。首先,它们忽略了用户对时序行为的动态兴趣。换言之,这些模型在每次交互过程中无法更好地选择用户画像来推荐目标物品,尤其是当用户对不同物品的兴趣随着时间的推移而动态变化的场景下。例如在NAIS注意力模型中,attention网络中的权重矩阵严重依赖于相应物品的嵌入(embedding)向量,而没有考虑其他因素来获取上下文信息,这就降低物品推荐的准确性。其次,这些模型没有考虑推荐系统的自适应性。例如,在推荐目标物品中有贡献作用的物品的效应通常随着用户与物品之间的交互而变化,导致在不同的推荐阶段中这些有贡献作用的物品的attention权重很可能会发生变化,在这种情况下,这些模型无法向相关用户推荐准确的目标物品,从而影响推荐的有效性。
发明内容
有鉴于现有技术的缺陷(不足),我们提出一种基于动态注意力和分层强化学习(DARL)的推荐系统,包括以下技术方案:
一种基于动态注意力和分层强化学习的推荐系统,包括:用户画像矫正器、动态注意力机制和推荐模型;所述用户画像矫正器用于通过删除噪声数据来修改用户画像;所述动态注意力机制用于自动调整用户偏好的变化;所述推荐模型用于向相关用户推荐目标物品。
进一步的,所述用户画像矫正器的任务为层次化的马尔可夫决策过程,其中高层动作ah∈{0,1}决定是否修改整个用户画像εu,低层动作
Figure BDA0002860391220000011
决定删除哪个物品
Figure BDA0002860391220000012
当高层动作根据高层策略决定修改整个用户画像时,它将根据低层策略调用低层动作来消除噪声物品后,智能体在执行最后一个低层动作后将收到延迟奖励。
进一步的,所述用户画像矫正器基于分层强化学习,所述分层强化学习的目标是获得期望收益最大化的最优策略参数,如下所示:
Figure BDA0002860391220000013
其中,θ表示策略的参数,τ表示采样的序列,Pθ(τ)是对应的抽样概率,R*(τ)为采样序列中遵循策略π的动作值函数。
进一步的,所述分层强化学习包括高层策略和低层策略;
所述高层策略的策略函数的参数梯度定义为:
Figure BDA0002860391220000021
其中,
Figure BDA0002860391220000022
是采样序列τn中的一对动作-状态,tu表示用户在采样序列中交互过的物品数量,
Figure BDA0002860391220000023
是高层任务中每个采样序列τn的动作值,它是一个延迟奖励;此处省略了a,s和θ的上标h;
所述低层策略的策略函数的参数梯度定义为:
Figure BDA0002860391220000024
其中
Figure BDA0002860391220000025
是低层任务中每个采样序列τn的动作值,它也是一个延迟奖励,
Figure BDA0002860391220000026
是一个低层任务中的内部奖励,定义为在修改用户画像前后目标物品与交互过的物品的平均余弦相似度之差;此处省略了a,s和θ的上标l。
进一步的,所述动态注意力机制的结构包括:嵌入向量的输入层、基于ACF方法的交互层和具有动态权重的注意力层。
进一步的,所述输入层的任务为:首先,将原始数据分解为两个矩阵:用户-物品矩阵和物品标签矩阵,在用户-物品矩阵中,每个元素表示一个用户和一个物品之间的交互,即用户u在时间t时交互过的物品
Figure BDA0002860391220000027
εu定义为一个用户画像
Figure BDA0002860391220000028
其中tu表示用户在采样序列中交互过的物品数量,用户-物品向量
Figure BDA0002860391220000029
是通过one-hot二进制值的格式获得;在物品标签矩阵中,让C={c1,…,|C|}表示为一组物品,其中目标物品向量ci是通过one-hot二进制值的格式获得的;然后,将每个用户-物品向量
Figure BDA00028603912200000210
表示为嵌入向量
Figure BDA00028603912200000211
并且将目标物品向量ci表示为嵌入向量pi;最后,将嵌入向量
Figure BDA00028603912200000212
与pi传递给交互层。
进一步的,所述交互层的任务为:采用元素智能乘积计算交互过的物品的嵌入向量和交互层中的目标物品嵌入向量之间的相似度,所述相似度的计算公式为:
Figure BDA00028603912200000213
其中,⊙表示元素智能乘积,相似度
Figure BDA00028603912200000214
被参数化为嵌入向量
Figure BDA00028603912200000215
和pi的内积。
进一步的,所述注意力层的任务为:在每次用户画像矫正器与推荐模型交互过程中自动调整相应物品的attention权重,并根据其动态系数自适应地更新attention权重,得到用户画像的嵌入向量;具体为:采用联合嵌入向量
Figure BDA0002860391220000031
和pi的用户画像矫正器来参数化attention函数
Figure BDA0002860391220000032
根据推荐阶段的物品数量,自动更新attention权重;在相应物品的attention权重的基础上,通过聚合所有交互过的物品的嵌入向量
Figure BDA0002860391220000033
得到用户画像的嵌入向量qu
进一步的,所述attention函数
Figure BDA0002860391220000034
的公式为:
Figure BDA0002860391220000035
其中,hT表示将多层感知器的一个隐藏层投射到一个attention权重的向量,W表示权重矩阵,b表示偏差向量,权重矩阵
Figure BDA0002860391220000036
和偏差向量
Figure BDA0002860391220000037
是多层感知器用于参数学习,d1作为隐藏层的尺寸,d2作为物品的嵌入尺寸,δ∈(0,1)表示随机数;D为权重尺寸,和隐藏层的尺寸d1相关;ReLU表示线性整流函数,为隐藏层的激活函数。
进一步的,所述attention权重的公式为:
Figure BDA0002860391220000038
其中,
Figure BDA0002860391220000039
为每个推荐阶段的物品数量。
进一步的,用户画像的嵌入向量qu被定义为:
Figure BDA00028603912200000310
进一步的,所述推荐模型的任务为:在分层策略更新后,利用基于修改后的用户画像qu进行推荐模型训练,然后当y=1时,生成目标物品ci被推荐给一个用户u的概率
Figure BDA00028603912200000311
Figure BDA00028603912200000312
将所述概率
Figure BDA00028603912200000313
作为一个额外的状态特征在下一分幕中提供给用户画像矫正器;所述推荐模型和所述用户画像矫正器通过所述动态注意力机制共同训练,直到最后一分幕结束,从而为用户推荐出一组最精确的目标物品。
进一步的,所述推荐模型的目标函数定义为:
Figure BDA00028603912200000314
其中,
Figure BDA00028603912200000315
为损失函数;λ为防止过拟合的最小平方损失正则化的超参数;qu表示用户画像的嵌入向量;pi表示物品的嵌入向量;wt表示多层感知器中隐藏层的权重矩阵。
进一步的,所述损失函数
Figure BDA0002860391220000041
定义为:
Figure BDA0002860391220000042
其中,n是总训练实例的数量,σ表示一个sigmoid函数,将预测值
Figure BDA0002860391220000043
转换成一个概率值,即目标物品ci与一个用户u的交互的似然值,
Figure BDA0002860391220000044
指的是正实例即观测交互组,和
Figure BDA0002860391220000045
Figure BDA0002860391220000046
指的是负实例即未观测交互组。
进一步的,所述推荐模型的推荐概率定义为:
Figure BDA0002860391220000047
其中,y=1表示目标物品ci被推荐给一个用户u,
Figure BDA0002860391220000048
为当y=1时推荐物品ci给用户u的概率,σ表示将输入转换为推荐概率的激活函数。
本发明的基于动态注意力和分层强化学习的推荐系统,包括以下特点:
(1)本推荐系统的动态注意力机制通过一个多层感知器(MLP)自动调整每个交互过程中相应物品的attention权重,并将基于分层强化学习(HRL)的用户画像矫正器合并到一个统一的框架中。
(2)为了增强推荐系统的自适应性,以提高推荐的准确性,本推荐系统针对了不同时段物品交互的信息,在attention权重上增加了一个自适应系数,以便在每个推荐阶段自动更新相应物品的attention权重。
(3)与HRL模型相比,本系统的DARL模型在计算动态attention权重时只需要花费少许时间,且由于DARL可以更精确地修改用户画像,从而提高了策略评估的收敛速度,因此每个推荐阶段的开销时间更少。
附图说明
图1是本发明的DARL(动态注意力和分层强化学习)的总体框架;
图2是本发明所采用的动态注意力机制的整体框架;
图3是本发明实验案例的用交叉熵误差函数logloss测量模型预测性能的测试图;
图4是本发明实验案例的用交叉熵误差函数logloss测量模型预测性能的测试图(针对不同的attention网络隐藏层数量);
图5是本发明的实验案例的当所有学习率都设置为0.007时,用评价指标衡量推荐性能(%)的结果。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
现结合附图和具体实施方式对本发明进一步说明。
如图1所示,本发明提出了一种基于动态注意力和分层强化学习(简称DARL)的推荐系统,本推荐系统的DARL的总体框架,包括:(1)用户画像矫正器:通过删除噪声数据来修改用户画像;(2)动态注意力机制:自动调整用户偏好的变化;(3)推荐模型:向相关用户推荐目标物品。
该推荐系统执行一种推荐方法,包括:
首先,我们的动态注意力机制通过一个多层感知器(MLP)自动调整每个交互过程中相应物品的attention权重,并将基于分层强化学习(HRL)的用户画像矫正器合并到一个统一的框架中。其次,为了增强推荐系统的自适应性,以提高推荐的准确性,我们在推荐系统中考虑了不同时段物品交互的信息,在attention权重上增加了一个自适应系数,以便在每个推荐阶段自动更新相应物品的attention权重。
详细方法
1、动态注意力机制
如图2所示,在本发明中,设计了一种三层的动态注意力机制,以下到上依次为:输入层,交互层,注意力层。在输入层中,将所有原始数据输入投影到嵌入向量中。在交互层中,通过注意力协同过滤(ACF)方法计算这些嵌入向量之间的相似度。注意力层旨在通过相应物品的动态注意力来自适应地捕获用户偏好。
输入层:首先,我们将原始数据分解为两个矩阵:用户-物品矩阵和物品标签矩阵。在用户物品矩阵中,每个元素表示一个用户和一个物品之间的交互,即用户u在时间t时交互过的物品
Figure BDA0002860391220000051
εu可以定义为一个用户画像
Figure BDA0002860391220000052
其中tu表示用户在采样序列中交互过的物品数量,用户-物品向量
Figure BDA0002860391220000053
是通过one-hot二进制值的格式获得。在物品标签矩阵中,让C={c1,...,|C|}表示为一组物品,其中目标物品向量ci是通过one-hot二进制值的格式获得的。然后,我们将每个用户-物品向量
Figure BDA0002860391220000054
表示为嵌入向量
Figure BDA0002860391220000055
并且将目标物品向量ci表示为嵌入向量pi。最后,将
Figure BDA0002860391220000056
与pi传递给交互层。
交互层:为了获得一个用户和目标物品之间的关系,我们需要了解交互过的物品的嵌入向量和交互层中的目标物品嵌入向量之间的相似度。由于元素智能乘积(element-wise product)(点乘)能增强嵌入向量的表现力,这里的相似度可以通过元素智能乘积来计算如下:
Figure BDA0002860391220000061
其中⊙表示元素智能乘积,相似度
Figure BDA0002860391220000062
被参数化为MLP的嵌入向量
Figure BDA0002860391220000063
和pi的内积,这样可以学习两者相互作用的潜在因子。
注意力层:该层是DARL的核心,为了捕捉交互过的物品的attention来自动跟踪用户的偏好。我们采用一个联合
Figure BDA0002860391220000064
和pi的MLP来参数化attention函数
Figure BDA0002860391220000065
Figure BDA0002860391220000066
其中hT表示将MLP的一个隐藏层投射到一个attention权重的向量,权重矩阵
Figure BDA0002860391220000067
和偏差向量
Figure BDA0002860391220000068
是MLP用于学习一些参数,d1作为隐藏层的尺寸,d2作为物品的嵌入尺寸,δ∈(0,1)是随机数。它是权重矩阵的动态因子,可以自动调整每个相互作用中相应物品的attention权重。同时,因为δ是一个平滑因子,可以削弱对应物品的attention权重在每个推荐阶段上的影响,从而间接地防止了策略函数的梯度陷入局部优化。因此推荐模型不提供当前的最好奖励(reward)给智能体,从而使智能体可能选择一个新的策略来最大限度地提高最终总收益。这里d1也被定义为隐藏层中的权重尺寸D。为了解决欠拟合的问题,我们将1/D添加到attention函数中作为其系数之一。我们采用经常用于神经网络的线性整流函数(ReLU)作为隐藏层的激活函数。
我们还发现,物品数量与attention权重大致成比例,因为它可以模拟交互过的物品在不同推荐阶段中的影响,其attention权重随着物品数的变化而调整。因此,我们提出了一种动态的注意力系数以提高注意力机制的性能。attention权重的公式可以定义如下:
Figure BDA0002860391220000069
在该公式中,
Figure BDA00028603912200000610
为每个推荐阶段的物品数量。用户画像矫正器中的智能体在每个分幕删除一些噪声物品后,
Figure BDA00028603912200000611
也会随之改变。这样就可以根据其动态系数在连续的推荐阶段中自适应地更新相应物品的attention权重,进而学习到有用的信息,提高推荐的准确性。
在相应物品的attention权重的基础上,可以通过聚合所有交互过的物品的嵌入向量
Figure BDA00028603912200000612
得到用户画像的嵌入向量qu。用户画像qu可以被定义为下面的公式:
Figure BDA0002860391220000071
动态注意力机制以其自动性和自适应性的优势,提高了基于注意力模型的预测性能。因此,我们可将它应用于推荐系统中,特别当在用户对各种物品产生动态兴趣时。
2、DARL模型在推荐系统中的应用
如图2所示,本发明的DARL的总体框架,包括:(1)用户画像矫正器:通过删除噪声数据来修改用户画像;(2)动态注意力机制:自动调整用户偏好的变化;(3)推荐模型:向相关用户推荐目标物品。
用户画像矫正器的任务被设计为层次化的马尔可夫决策过程(Markov decisionprocesses,MDP),其中高层动作ah∈{0,1}决定是否修改整个用户画像εu,低层动作
Figure BDA0002860391220000072
决定删除哪个物品
Figure BDA0002860391220000073
基于DARL的推荐方法,具体包括:
步骤1:采用用户画像矫正器进行决策是否修改用户画像。当高层动作根据高层策略决定修改整个用户画像时,它将调用低层动作(根据低层策略)来消除噪声物品(例如
Figure BDA0002860391220000074
等等),智能体在执行最后一个低层动作后将收到延迟奖励(例如,高层任务的rewardR和低级任务的内部奖励rewardG)。
步骤2:这里面临主要的挑战是,当一个用户在不同的推荐阶段对不同的物品有动态的兴趣时,如何修改用户画像。我们可以采用动态注意力机制来应对这一挑战。该机制能在每次用户画像矫正器与推荐模型交互过程中自动调整相应物品的attention权重,并根据其动态系数自适应地更新attention权重。
步骤3:分层策略更新后,利用基于修改后的用户画像qu进行推荐模型训练,qu通过动态注意力机制从交互过的物品的嵌入向量pt聚合而得,然后当y=1时(即
Figure BDA0002860391220000075
),生成目标物品ci被推荐给一个用户u的概率,将其作为一个额外的状态特征在下一分幕中提供给用户画像矫正器。
步骤4:通过步骤1到步骤3,推荐模型和用户画像矫正器通过动态注意力机制共同训练,直到最后一分幕(即推荐模型中的最后一节)结束。
步骤5:最后为用户推荐出一组最精确的目标物品。
我们的DARL框架可以通过相应物品的attention权重来自适应地跟踪用户的偏好。因为相应物品的attention权重的变化过程是连续的,DARL可以通过自适应地更新在不同推荐阶段的相应物品的attention权重来学习上下文信息,并最终选择有利因素将最相关的目标物品推荐给用户,从而提高推荐的准确性。
对于DARL中分层强化学习的目标函数,我们的目标是获得期望收益最大化的最优策略参数,如下所示:
Figure BDA0002860391220000081
其中θ表示策略的参数,τ表示采样的序列,Pθ(τ)是对应的抽样概率,R*(τ)为采样序列中遵循策略π的动作值函数。
这里采用蒙特卡洛策略梯度算法对状态轨迹进行采样,由此高层策略函数的参数梯度可以计算如下:
Figure BDA0002860391220000082
其中
Figure BDA0002860391220000083
是采样序列τn中的一对动作-状态,tu表示用户在采样序列中交互过的物品数量,
Figure BDA0002860391220000084
是高层任务中每个采样序列τn的动作值,它是一个延迟奖励。为了简单起见,这里我们省略了a,s和θ的上标h。
类似地,HRL/DR模型中低层策略函数的参数梯度可计算如下:
Figure BDA0002860391220000085
其中
Figure BDA0002860391220000086
是低层任务中每个采样序列τn的动作值,它也是一个延迟奖励,
Figure BDA0002860391220000087
是一个低层任务中的内部奖励,定义为在修改用户画像前后目标物品与交互过的物品的平均余弦相似度之差。为了简单起见,这里我们也省略了a,s和θ的上标l。
为了将DARL应用于推荐系统,我们还需要优化推荐模型的目标函数。
3、推荐模型优化
推荐模型根据用户动态偏好的特征,生成为用户推荐合适目标物品的概率。推荐概率输出如下:
Figure BDA0002860391220000088
y=1表示目标物品ci被推荐给一个用户u,
Figure BDA0002860391220000089
为当y=1时推荐物品ci给用户u的概率,σ表示将输入转换为推荐概率的激活函数。
为了度量DARL的预测能力,这里我们采用了交叉熵误差函数(log loss)。我们将损失函数
Figure BDA00028603912200000810
定义为:
Figure BDA0002860391220000091
其中n是总训练实例的数量,σ表示一个sigmoid函数,将预测值
Figure BDA0002860391220000092
转换成一个概率值,即目标物品ci与一个用户u的交互的似然值,
Figure BDA0002860391220000093
指的是正实例即观测交互组,和
Figure BDA0002860391220000094
指的是负实例即未观测交互组。
由此,推荐模型的目标函数可以定义为:
Figure BDA0002860391220000095
其中,防止过拟合的最小平方损失(L2)正则化的超参数为λ,wt表示MLP中隐藏层的权重矩阵。
4.实验案例
我们以课程推荐为实验案例,证明DARL的优越性。
实验是在两个真实的数据集上进行的:MOOCCourse和MOOCCube分别来自学堂在线幕课平台(http://www.xuetangx.com)两个不同阶段的学生选课记录。其中,MOOCCourse包含1302门真实在线物品、82535名幕课用户的458453个选课记录,而MOOCCube包含706门真实在线物品、55203名幕课用户的354541个选课记录。
DARL与当前国内外最先进的物品推荐模型进行对比,并采用公认的流行评价指标,其中推荐性能的评价指标主要有HR(召回率)、NDCG(精确度),模型预测的评价指标有交叉熵误差函数logloss(值越小表示预测更准确)。
从表1可以看出,DARL在HR和NDCG两个评价指标都高于其它推荐模型,证明了DARL的有效性,它能够明显提高推荐的准确性。
表2验证了DARL比HRL在每个推荐阶段的开销时间更少。
表1用评价指标HR(召回率)和NDCG(精确度)衡量推荐性能(%)
Figure BDA0002860391220000096
表2每分幕平均运行时间(秒)
Figure BDA0002860391220000101
如图3所示,给出了用交叉熵误差函数logloss测量模型预测性能的结果(针对不同的attention权重的平滑指数β)。其中,(a)为在数据集MOOCCourse上测试的logloss;(b)为在数据集MOOCCube上测试的logloss。
如图4所示,给出了用交叉熵误差函数logloss测量模型预测性能的结果(针对不同的attention网络隐藏层数量)。其中,(a)为在数据集MOOCCourse上测试的logloss;(b)为在数据集MOOCCube上测试的logloss。
表3用评价指标HR@10(召回率)和NDCG@10(精确度)衡量推荐性能(%)(针对不同的物品embedding大小)
Figure BDA0002860391220000102
如图5所示,给出了当所有学习率都设置为0.007时,用评价指标衡量推荐性能(%)的结果。其中,(a)为在数据集MOOCCourse上测试的HR。(b)为在数据集MOOCCourse上测试的NDCG。(c)为在数据集MOOCCube上测试的HR。(d)为在数据集MOOCCube上测试的NDCG。
从图3-5和表3可以证明,本发明的DARL具备较强的鲁棒性(各项评价指标针对不同的参数都是最好的)。
另外,与HRL模型相比,本系统的DARL模型在计算动态attention权重时只需要花费少许时间,且由于DARL可以更精确地修改用户画像,从而提高了策略评估的收敛速度,因此每个推荐阶段的开销时间更少。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (10)

1.一种基于动态注意力和分层强化学习的推荐系统,其特征在于,包括:用户画像矫正器、动态注意力机制和推荐模型;
所述用户画像矫正器用于通过删除噪声数据来修改用户画像;
所述动态注意力机制用于自动调整用户偏好的变化;
所述推荐模型用于向相关用户推荐目标物品。
2.如权利要求1所述的推荐系统,其特征在于,所述用户画像矫正器的任务为层次化的马尔可夫决策过程,其中高层动作ah∈{0,1}决定是否修改整个用户画像εu,低层动作
Figure FDA0002860391210000011
Figure FDA0002860391210000012
决定删除哪个物品
Figure FDA0002860391210000013
当高层动作根据高层策略决定修改整个用户画像时,它将根据低层策略调用低层动作来消除噪声物品后,智能体在执行最后一个低层动作后将收到延迟奖励。
3.如权利要求2所述的推荐系统,其特征在于,所述用户画像矫正器基于分层强化学习,所述分层强化学习的目标是获得期望收益最大化的最优策略参数,如下所示:
Figure FDA0002860391210000014
其中,θ表示策略的参数,τ表示采样的序列,Pθ(τ)是对应的抽样概率,R*(τ)为采样序列中遵循策略π的动作值函数。
4.如权利要求2所述的推荐系统,其特征在于,所述分层强化学习包括高层策略和低层策略;
所述高层策略的策略函数的参数梯度定义为:
Figure FDA0002860391210000015
其中,
Figure FDA0002860391210000016
是采样序列τn中的一对动作-状态,tu表示用户在采样序列中交互过的物品数量,
Figure FDA0002860391210000017
是高层任务中每个采样序列τn的动作值,它是一个延迟奖励;此处省略了a,s和θ的上标h;
所述低层策略的策略函数的参数梯度定义为:
Figure FDA0002860391210000018
其中
Figure FDA0002860391210000019
是低层任务中每个采样序列τn的动作值,它也是一个延迟奖励,
Figure FDA00028603912100000110
是一个低层任务中的内部奖励,定义为在修改用户画像前后目标物品与交互过的物品的平均余弦相似度之差;此处省略了a,s和θ的上标l。
5.如权利要求1所述的推荐系统,其特征在于,所述动态注意力机制的结构包括:嵌入向量的输入层、基于ACF方法的交互层和具有动态权重的注意力层。
6.如权利要求5所述的推荐系统,其特征在于,所述输入层的任务为:
首先,将原始数据分解为两个矩阵:用户-物品矩阵和物品标签矩阵,在用户-物品矩阵中,每个元素表示一个用户和一个物品之间的交互,即用户u在时间t时交互过的物品
Figure FDA0002860391210000021
εu定义为一个用户画像
Figure FDA0002860391210000022
其中tu表示用户在采样序列中交互过的物品数量,用户-物品向量
Figure FDA0002860391210000023
是通过one-hot二进制值的格式获得;在物品标签矩阵中,让C={c1,…,|C|}表示为一组物品,其中目标物品向量ci是通过one-hot二进制值的格式获得的;
然后,将每个用户-物品向量
Figure FDA0002860391210000024
表示为嵌入向量
Figure FDA0002860391210000025
并且将目标物品向量ci表示为嵌入向量pi
最后,将嵌入向量
Figure FDA0002860391210000026
与pi传递给交互层;
所述交互层的任务为:采用元素智能乘积计算交互过的物品的嵌入向量和交互层中的目标物品嵌入向量之间的相似度,所述相似度的计算公式为:
Figure FDA0002860391210000027
其中,⊙表示元素智能乘积,相似度
Figure FDA0002860391210000028
被参数化为嵌入向量
Figure FDA0002860391210000029
和pi的内积。
7.如权利要求6所述的推荐系统,其特征在于,所述注意力层的任务为:在每次用户画像矫正器与推荐模型交互过程中自动调整相应物品的attention权重,并根据其动态系数自适应地更新attention权重,得到用户画像的嵌入向量;具体为:
采用联合嵌入向量
Figure FDA00028603912100000210
和pi的用户画像矫正器来参数化attention函数
Figure FDA00028603912100000211
根据推荐阶段的物品数量,自动更新attention权重;
在相应物品的attention权重的基础上,通过聚合所有交互过的物品的嵌入向量
Figure FDA00028603912100000212
得到用户画像的嵌入向量qu
8.如权利要求7所述的推荐系统,其特征在于,
所述attention函数
Figure FDA00028603912100000213
的公式为:
Figure FDA00028603912100000214
其中,hT表示将多层感知器的一个隐藏层投射到一个attention权重的向量,W表示权重矩阵,b表示偏差向量,权重矩阵
Figure FDA0002860391210000031
和偏差向量
Figure FDA0002860391210000032
是多层感知器用于参数学习,d1作为隐藏层的尺寸,d2作为物品的嵌入尺寸,δ∈(0,1)表示随机数;D为权重尺寸,和隐藏层的尺寸d1相关;ReLU表示线性整流函数,为隐藏层的激活函数;
所述attention权重的公式为:
Figure FDA0002860391210000033
其中,
Figure FDA0002860391210000034
为每个推荐阶段的物品数量;
所述用户画像的嵌入向量qu被定义为:
Figure FDA0002860391210000035
9.如权利要求1所述的推荐系统,其特征在于,所述推荐模型的任务为:在分层策略更新后,利用基于修改后的用户画像qu进行推荐模型训练,然后当y=1时,生成目标物品ci被推荐给一个用户u的概率
Figure FDA0002860391210000036
将所述概率
Figure FDA0002860391210000037
作为一个额外的状态特征在下一分幕中提供给用户画像矫正器;所述推荐模型和所述用户画像矫正器通过所述动态注意力机制共同训练,直到最后一分幕结束,从而为用户推荐出一组最精确的目标物品。
10.如权利要求9所述的推荐系统,其特征在于,所述推荐模型的目标函数定义为:
Figure FDA0002860391210000038
其中,
Figure FDA0002860391210000039
为损失函数;λ为防止过拟合的最小平方损失正则化的超参数;qu表示用户画像的嵌入向量;pi表示物品的嵌入向量;wt表示多层感知器中隐藏层的权重矩阵;
所述损失函数
Figure FDA00028603912100000310
定义为:
Figure FDA00028603912100000311
其中,n是总训练实例的数量,σ表示一个sigmoid函数,将预测值
Figure FDA00028603912100000312
转换成一个概率值,即目标物品ci与一个用户u的交互的似然值,
Figure FDA00028603912100000313
指的是正实例即观测交互组,和
Figure FDA00028603912100000314
Figure FDA00028603912100000315
指的是负实例即未观测交互组;
所述推荐模型的推荐概率定义为:
Figure FDA0002860391210000041
其中,y=1表示目标物品ci被推荐给一个用户u,
Figure FDA0002860391210000042
为当y=1时推荐物品ci给用户u的概率,σ表示将输入转换为推荐概率的激活函数。
CN202011564661.9A 2020-12-25 2020-12-25 一种基于动态注意力和分层强化学习的推荐系统 Active CN112597392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011564661.9A CN112597392B (zh) 2020-12-25 2020-12-25 一种基于动态注意力和分层强化学习的推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011564661.9A CN112597392B (zh) 2020-12-25 2020-12-25 一种基于动态注意力和分层强化学习的推荐系统

Publications (2)

Publication Number Publication Date
CN112597392A true CN112597392A (zh) 2021-04-02
CN112597392B CN112597392B (zh) 2022-09-30

Family

ID=75202202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011564661.9A Active CN112597392B (zh) 2020-12-25 2020-12-25 一种基于动态注意力和分层强化学习的推荐系统

Country Status (1)

Country Link
CN (1) CN112597392B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139135A (zh) * 2021-05-13 2021-07-20 南京工程学院 一种改进型协同过滤的网络课程推荐算法
CN113468434A (zh) * 2021-09-06 2021-10-01 北京搜狐新动力信息技术有限公司 资源推荐方法、装置、可读介质以及设备
CN113688306A (zh) * 2021-06-29 2021-11-23 中国电信集团系统集成有限责任公司 一种基于强化学习的推荐策略生成方法及装置
CN113903442A (zh) * 2021-10-19 2022-01-07 北京富通东方科技有限公司 一种专科医生推荐方法及装置
CN114245185A (zh) * 2021-11-30 2022-03-25 北京达佳互联信息技术有限公司 视频推荐方法、模型训练方法、装置、电子设备及介质
CN116701884A (zh) * 2023-08-03 2023-09-05 太行城乡建设集团有限公司 基于蚁群-神经网络算法的公路工程污水水质预测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903138A (zh) * 2019-02-28 2019-06-18 华中科技大学 一种个性化商品推荐方法
CN110162700A (zh) * 2019-04-23 2019-08-23 腾讯科技(深圳)有限公司 信息推荐及模型的训练方法、装置、设备以及存储介质
CN110287412A (zh) * 2019-06-10 2019-09-27 腾讯科技(深圳)有限公司 内容推荐方法、推荐模型生成方法、设备、和存储介质
US20200033144A1 (en) * 2018-07-27 2020-01-30 Adobe Inc. Generating digital event sequences utilizing a dynamic user preference interface to modify recommendation model reward functions
CN111061951A (zh) * 2019-12-11 2020-04-24 华东师范大学 一种基于双层自注意力评论建模的推荐模型
US20200143291A1 (en) * 2018-11-02 2020-05-07 Accenture Global Solutions Limited Hierarchical Clustered Reinforcement Machine Learning
CN111127142A (zh) * 2019-12-16 2020-05-08 东北大学秦皇岛分校 一种基于广义神经注意力的物品推荐方法
CN111177575A (zh) * 2020-04-07 2020-05-19 腾讯科技(深圳)有限公司 一种内容推荐方法、装置、电子设备和存储介质
CN111563802A (zh) * 2020-05-09 2020-08-21 腾讯科技(深圳)有限公司 虚拟物品推荐方法、装置、电子设备及存储介质
CN111680217A (zh) * 2020-05-27 2020-09-18 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及存储介质
CN111813921A (zh) * 2020-08-20 2020-10-23 浙江学海教育科技有限公司 题目推荐方法、电子设备及计算机可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200033144A1 (en) * 2018-07-27 2020-01-30 Adobe Inc. Generating digital event sequences utilizing a dynamic user preference interface to modify recommendation model reward functions
US20200143291A1 (en) * 2018-11-02 2020-05-07 Accenture Global Solutions Limited Hierarchical Clustered Reinforcement Machine Learning
CN109903138A (zh) * 2019-02-28 2019-06-18 华中科技大学 一种个性化商品推荐方法
CN110162700A (zh) * 2019-04-23 2019-08-23 腾讯科技(深圳)有限公司 信息推荐及模型的训练方法、装置、设备以及存储介质
CN110287412A (zh) * 2019-06-10 2019-09-27 腾讯科技(深圳)有限公司 内容推荐方法、推荐模型生成方法、设备、和存储介质
CN111061951A (zh) * 2019-12-11 2020-04-24 华东师范大学 一种基于双层自注意力评论建模的推荐模型
CN111127142A (zh) * 2019-12-16 2020-05-08 东北大学秦皇岛分校 一种基于广义神经注意力的物品推荐方法
CN111177575A (zh) * 2020-04-07 2020-05-19 腾讯科技(深圳)有限公司 一种内容推荐方法、装置、电子设备和存储介质
CN111563802A (zh) * 2020-05-09 2020-08-21 腾讯科技(深圳)有限公司 虚拟物品推荐方法、装置、电子设备及存储介质
CN111680217A (zh) * 2020-05-27 2020-09-18 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及存储介质
CN111813921A (zh) * 2020-08-20 2020-10-23 浙江学海教育科技有限公司 题目推荐方法、电子设备及计算机可读存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DONGYANG ZHAO 等: "MaHRL: Multi-goals Abstraction Based Deep Hierarchical Reinforcement Learning for Recommendations", 《SIGIR "20: PROCEEDINGS OF THE 43RD INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *
ZHANG, J 等: "Hierarchical Reinforcement Learning for Course Recommendation in MOOCs", 《THIRTY-THIRD AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE / THIRTY-FIRST INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE CONFERENCE / NINTH AAAI SYMPOSIUM ON EDUCATIONAL ADVANCES IN ARTIFICIAL INTELLIGENCE》 *
柴超群: "一种融合社交信息的注意力推荐模型", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
符明晟: "基于深度学习的智能推荐技术研究", 《中国博士学位论文全文数据库 (信息科技辑)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139135A (zh) * 2021-05-13 2021-07-20 南京工程学院 一种改进型协同过滤的网络课程推荐算法
CN113139135B (zh) * 2021-05-13 2023-09-19 南京工程学院 一种改进型协同过滤的网络课程推荐算法
CN113688306A (zh) * 2021-06-29 2021-11-23 中国电信集团系统集成有限责任公司 一种基于强化学习的推荐策略生成方法及装置
CN113468434A (zh) * 2021-09-06 2021-10-01 北京搜狐新动力信息技术有限公司 资源推荐方法、装置、可读介质以及设备
CN113468434B (zh) * 2021-09-06 2021-12-24 北京搜狐新动力信息技术有限公司 资源推荐方法、装置、可读介质以及设备
CN113903442A (zh) * 2021-10-19 2022-01-07 北京富通东方科技有限公司 一种专科医生推荐方法及装置
CN114245185A (zh) * 2021-11-30 2022-03-25 北京达佳互联信息技术有限公司 视频推荐方法、模型训练方法、装置、电子设备及介质
CN114245185B (zh) * 2021-11-30 2024-02-09 北京达佳互联信息技术有限公司 视频推荐方法、模型训练方法、装置、电子设备及介质
CN116701884A (zh) * 2023-08-03 2023-09-05 太行城乡建设集团有限公司 基于蚁群-神经网络算法的公路工程污水水质预测方法
CN116701884B (zh) * 2023-08-03 2023-10-27 太行城乡建设集团有限公司 基于蚁群-神经网络算法的公路工程污水水质预测方法

Also Published As

Publication number Publication date
CN112597392B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN112597392B (zh) 一种基于动态注意力和分层强化学习的推荐系统
CN111127142B (zh) 一种基于广义神经注意力的物品推荐方法
CN109670121A (zh) 基于注意力机制的项目级和特征级深度协同过滤推荐算法
CN110084670B (zh) 一种基于lda-mlp的货架商品组合推荐方法
CN110781409B (zh) 一种基于协同过滤的物品推荐方法
CN111797321A (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN108509573A (zh) 基于矩阵分解协同过滤算法的图书推荐方法及系统
CN108876044B (zh) 一种基于知识增强神经网络的线上内容流行度预测方法
CN110209946B (zh) 基于社交和社群的产品推荐方法、系统和存储介质
KR102203253B1 (ko) 생성적 적대 신경망에 기반한 평점 증강 및 아이템 추천 방법 및 시스템
CN115186097A (zh) 一种基于知识图谱和强化学习的交互式推荐方法
CN113190751B (zh) 一种融合关键词生成的推荐方法
CN114386513A (zh) 一种集成评论与评分的交互式评分预测方法及系统
CN116542720A (zh) 一种基于图卷积网络的时间增强信息序列推荐方法及系统
CN110059251B (zh) 基于多关系隐式反馈置信度的协同过滤推荐方法
CN115168721A (zh) 融合协同变换与时态感知的用户兴趣推荐方法及系统
CN113449182A (zh) 一种知识信息个性化推荐方法及系统
CN113590964B (zh) 一种基于异构建模的深层神经网络Top-N推荐方法
CN115600009A (zh) 一种考虑用户未来偏好的基于深度强化学习的推荐方法
CN115599972A (zh) 一种序列推荐中的对偶增强倾向性得分估计方法
CN115310004A (zh) 融合项目时序关系的图神经协同过滤推荐方法
CN112559905B (zh) 一种基于双模式注意力机制和社交相似度的会话推荐方法
KR20200142871A (ko) 명시적 및 내연적 평가 정보를 이용한 아이템 추천 방법 및 장치
CN117633371B (zh) 基于多注意力机制的推荐方法、设备和可读存储介质
CN113935804B (zh) 一种基于强化学习和加权元路径的语义推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant