CN111552881A - 基于分层变分注意力的序列推荐方法 - Google Patents

基于分层变分注意力的序列推荐方法 Download PDF

Info

Publication number
CN111552881A
CN111552881A CN202010385644.2A CN202010385644A CN111552881A CN 111552881 A CN111552881 A CN 111552881A CN 202010385644 A CN202010385644 A CN 202010385644A CN 111552881 A CN111552881 A CN 111552881A
Authority
CN
China
Prior art keywords
attention
user
term
vector
variation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010385644.2A
Other languages
English (en)
Other versions
CN111552881B (zh
Inventor
鲜学丰
杨元峰
赵朋朋
孙逊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Vocational University
Original Assignee
Suzhou Vocational University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Vocational University filed Critical Suzhou Vocational University
Priority to CN202010385644.2A priority Critical patent/CN111552881B/zh
Publication of CN111552881A publication Critical patent/CN111552881A/zh
Application granted granted Critical
Publication of CN111552881B publication Critical patent/CN111552881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是基于分层变分注意力的序列推荐方法,首先将用户和项目的稀疏向量转换为低维空间的密集向量;然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量,获得用户的长期偏好表示;最后再通过另一层变分注意力网络对用户的短期偏好进行建模,以获得最终的混合用户表示。与传统的确定性方法相比,本发明方法包含的随机单元可以实现多模式注意力分布,不仅可以同时捕获用户的长期和短期偏好,而且还具有足够的能力来对用户偏好的不确定性进行建模。

Description

基于分层变分注意力的序列推荐方法
技术领域
本发明涉及数据推荐系统技术领域,具体涉及一种基于分层变分注意力的序列推荐方法。
背景技术
推荐系统在我们的日常生活中,尤其是在社交媒体网站和电子商务中,起着越来越重要的作用。由于用户偏好和喜好的内在动态性和不确定性,序列推荐已成为推荐系统中的一个有吸引力的话题。同时,许多研究者已经进行了很多努力来根据用户过去的交互序列来推荐用户可能喜欢的下一个项目。
早期的方法通常使用单独的模型来分别捕获用户的长期和短期偏好,并最终将它们集成。例如,Rendel等人提出了一种既包含Markov链又包含矩阵分解模型的方法,然后将它们线性组合以用于序列推荐。然而,仅仅为每个用户学习静态向量以捕获他/她的长期偏好是不够的。此外,由于作者使用线性方法固定不同组件的权重,因此这些方法捕获高阶交互的能力有限。
最近,注意力机制已被广泛用于在推荐系统中获得用户偏好和项目特征。例如,Chen等人使用注意力网络来合并其组件(框架或区域)以获得多媒体对象(视频,文本或图像)的表示,同时采用类似的注意力机制来合并交互项以捕获用于推荐的用户表示。Ying等人提出了一个两层的分层注意力网络来对用户的长期和短期偏好进行建模。
尽管取得了成功,但上述模型仍使用确定性的注意力网络,该网络缺乏对用户偏好的不确定性进行建模的能力。在推荐系统中,用户偏好可能会产生很大的不确定性,原因如下:(1)用户可能天生具有丰富多样的兴趣。(2)用户可能会受到周围环境的影响。例如,用户u一开始并不喜欢科幻电影,但是她的男朋友影响了她,然后她慢慢爱上了科幻电影。(3)用户数据的稀疏性使得用户偏好的表示充满了不确定性。Ying等人将注意力向量建模为低维特征空间中的一个点来表示用户的偏好。但是这种方法表示的注意力向量不足以表达用户偏好的不确定性。因为注意力向量(即用户表示)被限制在低维空间中的某个点,其没有误差项的约束,这可能导致不正确的推荐结果。
为了解决上述问题,本发明提出一种新颖的分层变分注意力模型(HVAM)来进行序列推荐。在模型中,本发明首先将用户和项目的稀疏向量转换为低维空间的密集向量。然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量,获得用户的长期偏好表示。通过应用高斯分布表示注意力向量,均值和方差需要保留不同的属性,以使此类表示具有很高的价值。具体而言,均值向量应反映注意力向量在低维特征空间中的位置,方差项应包含其不确定性。最后再通过另一层变分注意力网络来对用户的短期偏好进行建模,以获得最终的混合用户表示。与传统的确定性方法相比,该模型包含的随机单元可以实现多模式注意力分布。总的来说,本发明的模型不仅可以同时捕获用户的长期和短期偏好,而且还具有足够的能力来对用户偏好的不确定性进行建模。
发明内容
本发明的目的在于克服现有技术存在的问题,提供一种基于分层变分注意力的序列推荐方法。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种基于分层变分注意力的序列推荐方法,首先将用户和项目的稀疏向量转换为低维空间的密集向量;然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量,获得用户的长期偏好表示;最后再通过另一层变分注意力网络对用户的短期偏好进行建模,以获得最终的混合用户表示。
进一步的,所述变分推断为给定观察变量,近似潜在变量的条件密度,假设一组数据点
Figure 47272DEST_PATH_IMAGE001
Figure 816645DEST_PATH_IMAGE002
表示数据点
Figure 321576DEST_PATH_IMAGE003
的真实分布,依据贝叶斯属性获得下列公式:
Figure 619833DEST_PATH_IMAGE004
,其中其中
Figure 679056DEST_PATH_IMAGE005
是潜在变量,
Figure 720961DEST_PATH_IMAGE006
为后验分布,以简单分布
Figure 808960DEST_PATH_IMAGE007
来近似后验分布
Figure 809277DEST_PATH_IMAGE006
,取上述公式两侧的对数,并在等式右边引入
Figure 355796DEST_PATH_IMAGE007
,得到:
Figure 201392DEST_PATH_IMAGE008
Figure 415336DEST_PATH_IMAGE009
,然后,在
Figure 320975DEST_PATH_IMAGE007
下求解上式的期望值,如下式所示:
Figure 354790DEST_PATH_IMAGE010
,上述等式左侧的
Figure 269656DEST_PATH_IMAGE002
独立于
Figure 338107DEST_PATH_IMAGE005
,并且
Figure 414647DEST_PATH_IMAGE007
对于
Figure 201337DEST_PATH_IMAGE005
的积分为1,扩展等式右端可以生成:
Figure 919895DEST_PATH_IMAGE011
,由上述公式得到
Figure 577272DEST_PATH_IMAGE012
被转换为ELBO和KL散度之和,其中,
Figure 355872DEST_PATH_IMAGE002
Figure 364280DEST_PATH_IMAGE012
为未知的常数,等式右侧的前两项称为ELBO,等式右边的最后一个KL散度是非负的,因此ELBO的上限是
Figure 620949DEST_PATH_IMAGE012
,由于等式中的KL散度和ELBO呈此起彼伏的关系,因此,使KL散度最小化等同于最大化ELBO,通过变分推断将推理问题变成优化问题。
进一步的,采用分层变分注意力模型HVAM获得最终的混合用户表示,其中,分层变分注意力模型HVAM由输入嵌入层、长期变分注意力层和混合变分注意力层组成,所述输入嵌入层将用户稀疏向量和项目稀疏向量分别从用户集合
Figure 398412DEST_PATH_IMAGE013
和项目集合
Figure 82334DEST_PATH_IMAGE014
转换为低维密集向量,然后将用户嵌入和来自用户的长期项目集合
Figure 572178DEST_PATH_IMAGE015
的项目嵌入注入第一层变分注意力网络,以获取注意力向量的均值和方差,为了进一步整合短期偏好,最终的混合用户表示将长期用户表示与短期项目集合
Figure 366959DEST_PATH_IMAGE016
中的项目嵌入相结合,其中均值和方差是通过另一层变分注意力网络来学习。
进一步的,所述输入嵌入层包括用户稀疏向量、长期项目集合
Figure 264507DEST_PATH_IMAGE015
和短期项目集合
Figure 119331DEST_PATH_IMAGE016
,首先使用两个单独的全连接权重矩阵层
Figure 102331DEST_PATH_IMAGE017
Figure 435223DEST_PATH_IMAGE018
来构造用户和项目的连续的低维嵌入,其中
Figure 452857DEST_PATH_IMAGE019
Figure 213003DEST_PATH_IMAGE020
分别代表用户和项目数,
Figure 683299DEST_PATH_IMAGE021
是嵌入维度,并且仅向完全连接层网络提供用户或项目的单热编码表示,然后,网络为用户
Figure 819882DEST_PATH_IMAGE022
或项目
Figure 692023DEST_PATH_IMAGE023
输出相应的嵌入表示,用
Figure 888649DEST_PATH_IMAGE024
Figure 580662DEST_PATH_IMAGE025
表示,即用户集合
Figure 724198DEST_PATH_IMAGE013
的第
Figure 450846DEST_PATH_IMAGE022
行或项目集合
Figure 818373DEST_PATH_IMAGE014
的第
Figure 997682DEST_PATH_IMAGE023
行。
进一步的,所述长期变分注意力层中引入注意力机制;首先需要获取确定性注意力向量,然后基于该向量获得变分注意力向量;具体的,注意力机制通过以下等式计算概率分布:
Figure 476068DEST_PATH_IMAGE026
Figure 74800DEST_PATH_IMAGE027
,其中
Figure 613228DEST_PATH_IMAGE028
表示项目
Figure 279833DEST_PATH_IMAGE029
的密集嵌入向量,
Figure 296331DEST_PATH_IMAGE030
Figure 997570DEST_PATH_IMAGE031
分别表示模型的权重和偏置项,
Figure 706900DEST_PATH_IMAGE032
是sigmoid函数,利用其来增强非线性能力;首先将每个项目的密集低维嵌入向量
Figure 595222DEST_PATH_IMAGE028
通过多层感知器MLP,以获得预先归一化的分数
Figure 680990DEST_PATH_IMAGE033
;然后,使用用户嵌入
Figure 971157DEST_PATH_IMAGE034
作为上下文向量来实现个性化目标,即将相同项目的不同权重分配给不同用户,并应用softmax函数来计算
Figure 851388DEST_PATH_IMAGE034
Figure 227006DEST_PATH_IMAGE033
之间的归一化相似度得分
Figure 850885DEST_PATH_IMAGE035
;最后,将来自
Figure 261138DEST_PATH_IMAGE015
的项目嵌入依据注意力得分相加,以获得确定性注意力向量:
Figure 577850DEST_PATH_IMAGE036
进一步的,因确定性注意力向量依然不足以表征用户偏好的不确定性,因此引入变分注意力向量
Figure 706343DEST_PATH_IMAGE037
,并为变分注意力向量
Figure 868334DEST_PATH_IMAGE037
提出两个先验分布;首先,最简单的先验为标准正态分布:
Figure 867514DEST_PATH_IMAGE038
,标准正态分布用于生成复杂的依赖关系;其次,注意力向量必须在原始输入的潜在表示的凸包中,因此施加一个先验,其均值是用户长期项目集中项目嵌入的平均值,即
Figure 83688DEST_PATH_IMAGE039
,从而使该先验无信息性:
Figure 699477DEST_PATH_IMAGE040
,通过变分推断,将
Figure 665159DEST_PATH_IMAGE041
的后验建模为正态分布
Figure 784425DEST_PATH_IMAGE042
,其中参数
Figure 911781DEST_PATH_IMAGE043
Figure 14866DEST_PATH_IMAGE044
通过神经网络获得,
Figure 518660DEST_PATH_IMAGE045
表示给定用户的嵌入向量,
Figure 758012DEST_PATH_IMAGE015
表示用户的长期项目集合,对于平均值
Figure 321848DEST_PATH_IMAGE043
,应用恒等转换,即
Figure 646650DEST_PATH_IMAGE046
,对于
Figure 219714DEST_PATH_IMAGE044
,首先通过具有tanh激活的神经层转换
Figure 47993DEST_PATH_IMAGE047
,然后将所得向量线性转换;最后,为了确保该值为正数执行exp激活函数,通过采样
Figure 782730DEST_PATH_IMAGE048
,来获得ELBO的无偏估计,并通过随机梯度下降对其进行优化。
进一步的,由于依据于参数
Figure 329249DEST_PATH_IMAGE043
Figure 971583DEST_PATH_IMAGE044
,其采样是不确定的函数,并且不可微分,因此采用重新参数化方式将采样移至输入层,具体是将是将
Figure 919948DEST_PATH_IMAGE037
重新参数化为一个关于
Figure 825587DEST_PATH_IMAGE043
Figure 124981DEST_PATH_IMAGE049
的函数,如下式所示:
Figure 768409DEST_PATH_IMAGE050
,其中
Figure 571280DEST_PATH_IMAGE051
是标准高斯变量,其能够引进噪音,进而平稳地获取和优化代表用户长期偏好表示的
Figure 913400DEST_PATH_IMAGE037
进一步的,所述混合变分注意力层首先计算给定用户的短期项目集合
Figure 434511DEST_PATH_IMAGE016
中每个项目的重要性,然后汇总这些项目的嵌入和长期用户偏好表示
Figure 887489DEST_PATH_IMAGE037
形成高阶用户偏好表示,具体如下:
Figure 810445DEST_PATH_IMAGE052
Figure 57887DEST_PATH_IMAGE053
,其中,当
Figure 66294DEST_PATH_IMAGE054
时,
Figure 322963DEST_PATH_IMAGE055
表示项目
Figure 100427DEST_PATH_IMAGE056
的密集嵌入向量,当
Figure 784349DEST_PATH_IMAGE057
时,
Figure 14473DEST_PATH_IMAGE058
Figure 74833DEST_PATH_IMAGE059
Figure 706803DEST_PATH_IMAGE060
分别代表模型的权重和偏置项;类似地,在获得注意力得分
Figure 296047DEST_PATH_IMAGE061
之后,通过注意力得分将来自短期项目集合
Figure 544626DEST_PATH_IMAGE016
的项目嵌入和长期用户偏好表示
Figure 877518DEST_PATH_IMAGE037
相加以获得混合的确定性注意力向量:
Figure 363994DEST_PATH_IMAGE062
,其中
Figure 383860DEST_PATH_IMAGE063
是长期用户偏好表示
Figure 854155DEST_PATH_IMAGE037
的权重;以相同的方式,也为用户混合偏好表示
Figure 256318DEST_PATH_IMAGE064
提出两个合理的先验分布,即
Figure 331721DEST_PATH_IMAGE065
Figure 793926DEST_PATH_IMAGE066
,其中
Figure 751518DEST_PATH_IMAGE067
表示用户短期项目集的项目嵌入和长期用户偏好表示
Figure 426213DEST_PATH_IMAGE037
的平均值;将
Figure 887281DEST_PATH_IMAGE068
的后验建模为一个正态分布
Figure 254809DEST_PATH_IMAGE069
,其中
Figure 434117DEST_PATH_IMAGE070
表示给定用户的嵌入向量,而
Figure 912503DEST_PATH_IMAGE016
表示用户的短期项目集;然后,通过神经网络获取参数
Figure 493657DEST_PATH_IMAGE071
Figure 32086DEST_PATH_IMAGE072
;最后,对高斯噪声
Figure 698691DEST_PATH_IMAGE073
进行采样,并将用户混合偏好表示
Figure 980767DEST_PATH_IMAGE064
重新参数化为
Figure 416428DEST_PATH_IMAGE071
Figure 860179DEST_PATH_IMAGE072
的函数如下:
Figure 297237DEST_PATH_IMAGE074
,式中,用户混合偏好表示
Figure 117425DEST_PATH_IMAGE064
不仅考虑了长期和短期偏好中的动态特征,而且还区分了用于预测下一个项目的项目贡献。
进一步的,给定用户的混合偏好表示
Figure 407592DEST_PATH_IMAGE064
,采用传统的潜在因子模型来获取用户对候选项目集的偏好:
Figure 287824DEST_PATH_IMAGE075
,其中
Figure 663441DEST_PATH_IMAGE076
表示候选项目集的密集嵌入,
Figure 287321DEST_PATH_IMAGE077
,
Figure 697574DEST_PATH_IMAGE078
是一个关于
Figure 748706DEST_PATH_IMAGE045
Figure 877199DEST_PATH_IMAGE015
Figure 39190DEST_PATH_IMAGE016
的函数,其遵循变分推断过程,根据长期变分注意力向量
Figure 569529DEST_PATH_IMAGE037
和混合变分注意力向量
Figure 791563DEST_PATH_IMAGE064
,分层变分注意力模型HVAM的总体训练目标是最小化下论述证据变分下界ELBO:
Figure 141773DEST_PATH_IMAGE079
,其中
Figure 107455DEST_PATH_IMAGE080
表示模型参数集,
Figure 226720DEST_PATH_IMAGE081
表示用于归一化KL散度的退火因子,具体的,KL散度的计算如下:
Figure 619655DEST_PATH_IMAGE082
Figure 457161DEST_PATH_IMAGE083
,其中
Figure 226534DEST_PATH_IMAGE084
表示均值和方差的维数,在优化ELBO的第一项时,根据BPR优化准则使用成对排名损失目标函数。
本发明的有益效果是:
本发明方法包含的随机单元可以实现多模式注意力分布,不仅可以同时捕获用户的长期和短期偏好,而且还具有足够的能力来对用户偏好的不确定性进行建模。
附图说明
图1为本发明的分层变分注意力模型HVAM的总体架构图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
一种基于分层变分注意力的序列推荐方法,首先将用户和项目的稀疏向量转换为低维空间的密集向量;然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量,获得用户的长期偏好表示;最后再通过另一层变分注意力网络对用户的短期偏好进行建模,以获得最终的混合用户表示。与传统的确定性方法相比,该模型包含的随机单元可以实现多模式注意力分布,总的来说,该模型不仅可以同时捕获用户的长期和短期偏好,而且还具有足够的能力来对用户偏好的不确定性进行建模。
在建模前,首先进行问题定义:用
Figure 194447DEST_PATH_IMAGE085
Figure 23863DEST_PATH_IMAGE086
分别表示用户集合和项目集合,其中M和N分别表示用户和项目的个数,对隐式和序列的用户项反馈数据进行建模,对于每个用户
Figure 348665DEST_PATH_IMAGE087
,用户
Figure 656150DEST_PATH_IMAGE088
的交互(或事务)序列表示为
Figure 750008DEST_PATH_IMAGE089
,其中T表示总时间步长,
Figure 484745DEST_PATH_IMAGE090
是根据时间顺序设置的第
Figure 31264DEST_PATH_IMAGE091
个项目集合,对于固定时间
Figure 408019DEST_PATH_IMAGE091
,项目集合
Figure 621963DEST_PATH_IMAGE092
可以表示用户
Figure 527602DEST_PATH_IMAGE088
的短期偏好,而时间
Figure 826996DEST_PATH_IMAGE091
之前的项目集合表示为
Figure 210704DEST_PATH_IMAGE093
,这可以反映用户
Figure 544733DEST_PATH_IMAGE088
的长期偏好,正式地,给定用户及其交互序列
Figure 886853DEST_PATH_IMAGE094
,本实施例的主要目的是通过挖掘
Figure 407964DEST_PATH_IMAGE094
来推荐用户可能喜欢的下一个项目。
所述变分推断为给定观察变量,近似潜在变量的条件密度,假设一组数据点
Figure 860942DEST_PATH_IMAGE001
Figure 49478DEST_PATH_IMAGE002
表示数据点
Figure 296920DEST_PATH_IMAGE003
的真实分布,依据贝叶斯属性获得下列公式:
Figure 299468DEST_PATH_IMAGE004
,其中其中
Figure 556137DEST_PATH_IMAGE005
是潜在变量,
Figure 333600DEST_PATH_IMAGE006
为后验分布,但是后验分布
Figure 751943DEST_PATH_IMAGE006
通常很复杂且难以求解,因此考虑以相对简单的分布
Figure 982067DEST_PATH_IMAGE007
来近似后验分布
Figure 42427DEST_PATH_IMAGE006
,取上述公式两侧的对数,并在等式右边引入
Figure 939976DEST_PATH_IMAGE007
,得到:
Figure 529220DEST_PATH_IMAGE008
Figure 777799DEST_PATH_IMAGE009
,然后,在
Figure 845112DEST_PATH_IMAGE007
下求解上式的期望值,如下式所示:
Figure 597167DEST_PATH_IMAGE010
,上述等式左侧的
Figure 622892DEST_PATH_IMAGE002
独立于
Figure 827609DEST_PATH_IMAGE005
,并且
Figure 698613DEST_PATH_IMAGE007
对于
Figure 305175DEST_PATH_IMAGE005
的积分为1,扩展等式右端可以生成:
Figure 501801DEST_PATH_IMAGE011
,由上述公式得到
Figure 928234DEST_PATH_IMAGE012
被转换为ELBO和KL散度(Kullback-Leibler散度)之和,由于不知道样本
Figure 128228DEST_PATH_IMAGE095
的真实分布,但是客观事实是不变的,换句话说,
Figure 589296DEST_PATH_IMAGE002
Figure 425665DEST_PATH_IMAGE012
都是未知的常数,等式右侧的前两项称为ELBO,等式右边的最后一个KL散度是非负的,因此ELBO的上限是
Figure 339395DEST_PATH_IMAGE012
,最小化KL散度是本实施例的主要目的,但是要想求得
Figure 817780DEST_PATH_IMAGE096
是很困难的,幸运的是,由于等式中的KL散度和ELBO呈此起彼伏的关系,因此,使KL散度最小化等同于最大化ELBO,通过变分推断将推理问题变成优化问题。
如图1所示,采用分层变分注意力模型HVAM获得最终的混合用户表示,其中,分层变分注意力模型HVAM由输入嵌入层、长期变分注意力层和混合变分注意力层组成,所述输入嵌入层将用户稀疏向量和项目稀疏向量分别从用户集合
Figure 133355DEST_PATH_IMAGE013
和项目集合
Figure 937363DEST_PATH_IMAGE014
转换为低维密集向量,然后将用户嵌入和来自用户的长期项目集合
Figure 603968DEST_PATH_IMAGE015
的项目嵌入注入第一层变分注意力网络,以获取注意力向量的均值和方差,为了进一步整合短期偏好,最终的混合用户表示将长期用户表示与短期项目集合
Figure 886045DEST_PATH_IMAGE016
中的项目嵌入相结合,其中均值和方差是通过另一层变分注意力网络来学习。
所述输入嵌入层包括用户稀疏向量、长期项目集合
Figure 321705DEST_PATH_IMAGE015
和短期项目集合
Figure 765456DEST_PATH_IMAGE016
,但是,类似于自然语言处理中的离散单词符号,单热编码向量(即稀疏向量)总是高维且稀疏的,同时,它们具有最小的表示能力,这种方法在大数据集中计算效率不高,因此,首先使用两个单独的全连接权重矩阵层
Figure 919357DEST_PATH_IMAGE017
Figure 5125DEST_PATH_IMAGE018
来构造用户和项目的连续的低维嵌入,其中
Figure 560871DEST_PATH_IMAGE019
Figure 175523DEST_PATH_IMAGE020
分别代表用户和项目数,
Figure 816720DEST_PATH_IMAGE021
是嵌入维度,并且仅向完全连接层网络提供用户或项目的单热编码表示,然后,网络为用户
Figure 440599DEST_PATH_IMAGE022
或项目
Figure 71692DEST_PATH_IMAGE023
输出相应的嵌入表示,用
Figure 857246DEST_PATH_IMAGE024
Figure 985739DEST_PATH_IMAGE025
表示,即用户集合
Figure 147730DEST_PATH_IMAGE013
的第
Figure 678068DEST_PATH_IMAGE022
行或项目集合
Figure 900102DEST_PATH_IMAGE014
的第
Figure 250312DEST_PATH_IMAGE023
行。
理想情况下,在本领域中认为一个好的推荐方法应该能够理解用户的长期偏好(例如,用户通常喜欢的物品),并能够探索短期偏好(例如,购买一件物品导致想要另一件物品),本发明的模型可以很好地捕获用户的一般喜好和序列行为,而对于每个用户,学习静态表示不能很好地反映长期用户偏好的进化,此外,不同的项目对同一用户有不同的影响,并且同一项目可能会对不同的用户产生不同的影响,这句话的前半部分是容易理解的,后半部分可以举例解释为用户
Figure 215994DEST_PATH_IMAGE097
由于自己的喜好为自己购买了iphone11,而用户
Figure 600839DEST_PATH_IMAGE098
购买iphone11作为给男/女友或父母的礼物。注意力机制已经被成功应用在许多领域中,例如机器翻译、文档分类等,它们的直觉是人们只关注目标的重要部分,为了满足上述讨论内容,需在长期变分注意力层中引入注意力机制;首先需要获取确定性注意力向量,然后基于该向量获得变分注意力向量;具体的,注意力机制通过以下等式计算概率分布:
Figure 259354DEST_PATH_IMAGE026
Figure 362439DEST_PATH_IMAGE027
,其中
Figure 866232DEST_PATH_IMAGE028
表示项目
Figure 840005DEST_PATH_IMAGE029
的密集嵌入向量,
Figure 669420DEST_PATH_IMAGE030
Figure 728643DEST_PATH_IMAGE031
分别表示模型的权重和偏置项,
Figure 36128DEST_PATH_IMAGE032
是sigmoid函数,利用其来增强非线性能力;首先将每个项目的密集低维嵌入向量
Figure 395565DEST_PATH_IMAGE028
通过多层感知器MLP,以获得预先归一化的分数
Figure 124443DEST_PATH_IMAGE033
;然后,使用用户嵌入
Figure 936542DEST_PATH_IMAGE034
作为上下文向量来实现个性化目标,即将相同项目的不同权重分配给不同用户,并应用softmax函数来计算
Figure 782138DEST_PATH_IMAGE034
Figure 730502DEST_PATH_IMAGE033
之间的归一化相似度得分
Figure 636141DEST_PATH_IMAGE035
;最后,将来自
Figure 669957DEST_PATH_IMAGE015
的项目嵌入依据注意力得分相加,以获得确定性注意力向量:
Figure 584823DEST_PATH_IMAGE036
因确定性注意力向量依然不足以表征用户偏好的不确定性,因此引入变分注意力向量
Figure 653273DEST_PATH_IMAGE037
,并为变分注意力向量
Figure 995393DEST_PATH_IMAGE037
提出两个合理的先验分布;首先,最简单的先验为标准正态分布:
Figure 250925DEST_PATH_IMAGE038
,标准正态分布用于生成复杂的依赖关系;其次,注意力向量必须在原始输入的潜在表示的凸包中,因此施加一个先验,其均值是用户长期项目集中项目嵌入的平均值,即
Figure 969482DEST_PATH_IMAGE039
,从而使该先验无信息性:
Figure 892439DEST_PATH_IMAGE040
,通过变分推断,将
Figure 405460DEST_PATH_IMAGE041
的后验建模为正态分布
Figure 882708DEST_PATH_IMAGE042
,其中参数
Figure 139377DEST_PATH_IMAGE043
Figure 916840DEST_PATH_IMAGE044
通过神经网络获得,
Figure 335184DEST_PATH_IMAGE045
表示给定用户的嵌入向量,
Figure 96466DEST_PATH_IMAGE015
表示用户的长期项目集合,对于平均值
Figure 619808DEST_PATH_IMAGE043
,应用恒等转换,即
Figure 517357DEST_PATH_IMAGE046
,恒等转换保留了“注意力”的精神,对于
Figure 372181DEST_PATH_IMAGE044
,首先通过具有tanh激活的神经层转换
Figure 89601DEST_PATH_IMAGE047
,然后将所得向量线性转换;最后,为了确保该值为正数执行exp激活函数,通过采样
Figure 688072DEST_PATH_IMAGE048
,来获得ELBO的无偏估计,并通过随机梯度下降对其进行优化。
由于依据于参数
Figure 440128DEST_PATH_IMAGE043
Figure 465853DEST_PATH_IMAGE044
,其采样是不确定的函数,并且不可微分,因此采用重新参数化方式将采样移至输入层,具体是将是将
Figure 670569DEST_PATH_IMAGE037
重新参数化为一个关于
Figure 807152DEST_PATH_IMAGE043
Figure 679293DEST_PATH_IMAGE049
的函数,如下式所示:
Figure 610340DEST_PATH_IMAGE050
,其中
Figure 302353DEST_PATH_IMAGE051
是标准高斯变量,其能够引进噪音,进而平稳地获取和优化代表用户长期偏好表示的
Figure 508206DEST_PATH_IMAGE037
在讨论用户的长期偏好时,同样不能忽略用户的序列行为,即短期偏好,短期偏好对于预测下一个项目至关重要,但是,许多先前的方法没有很好的处理项目属性对下一个项目预测的影响,这极大的限制了模型的性能,类似于对用户长期偏好进行建模,本实施例中同样依靠注意力机制以获取特定的注意力向量,然后获取相应的变分注意力向量。所述混合变分注意力层首先计算给定用户的短期项目集合
Figure 234854DEST_PATH_IMAGE016
中每个项目的重要性,然后汇总这些项目的嵌入和长期用户偏好表示
Figure 336802DEST_PATH_IMAGE037
形成高阶用户偏好表示,具体如下:
Figure 516110DEST_PATH_IMAGE052
Figure 260076DEST_PATH_IMAGE053
,其中,当
Figure 575650DEST_PATH_IMAGE054
时,
Figure 108220DEST_PATH_IMAGE055
表示项目
Figure 509245DEST_PATH_IMAGE056
的密集嵌入向量,当
Figure 791322DEST_PATH_IMAGE057
时,
Figure 226983DEST_PATH_IMAGE058
Figure 936313DEST_PATH_IMAGE059
Figure 559055DEST_PATH_IMAGE060
分别代表模型的权重和偏置项;类似地,在获得注意力得分
Figure 644823DEST_PATH_IMAGE061
之后,通过注意力得分将来自短期项目集合
Figure 934990DEST_PATH_IMAGE016
的项目嵌入和长期用户偏好表示
Figure 815221DEST_PATH_IMAGE037
相加以获得混合的确定性注意力向量:
Figure 456418DEST_PATH_IMAGE062
,其中
Figure 80297DEST_PATH_IMAGE063
是长期用户偏好表示
Figure 224971DEST_PATH_IMAGE037
的权重;以相同的方式,也为用户混合偏好表示
Figure 276103DEST_PATH_IMAGE064
提出两个合理的先验分布,即
Figure 404596DEST_PATH_IMAGE065
Figure 566587DEST_PATH_IMAGE066
,其中
Figure 96926DEST_PATH_IMAGE067
表示用户短期项目集的项目嵌入和长期用户偏好表示
Figure 53381DEST_PATH_IMAGE037
的平均值;将
Figure 890010DEST_PATH_IMAGE068
的后验建模为一个正态分布
Figure 855692DEST_PATH_IMAGE069
,其中
Figure 974958DEST_PATH_IMAGE070
表示给定用户的嵌入向量,而
Figure 633472DEST_PATH_IMAGE016
表示用户的短期项目集;然后,与前述获得参数
Figure 205399DEST_PATH_IMAGE043
Figure 709193DEST_PATH_IMAGE044
相类似的方法,通过神经网络获取参数
Figure 214123DEST_PATH_IMAGE071
Figure 777960DEST_PATH_IMAGE072
;最后,对高斯噪声
Figure 837183DEST_PATH_IMAGE073
进行采样,并将用户混合偏好表示
Figure 410247DEST_PATH_IMAGE064
重新参数化为
Figure 504105DEST_PATH_IMAGE071
Figure 504422DEST_PATH_IMAGE072
的函数如下:
Figure 50941DEST_PATH_IMAGE074
,式中,用户混合偏好表示
Figure 630958DEST_PATH_IMAGE064
不仅考虑了长期和短期偏好中的动态特征,而且还区分了用于预测下一个项目的项目贡献。此外,通过使用变分注意力网络将注意力向量建模为随机变量,可以将注意力向量表示为潜在特征空间中的密度而不是固定点。因此,注意力向量的高斯分布的方差可以测量与用户的偏好表示相关的不确定性。
给定用户的混合偏好表示
Figure 844901DEST_PATH_IMAGE064
,采用传统的潜在因子模型来获取用户对候选项目集的偏好:
Figure 16120DEST_PATH_IMAGE075
,其中
Figure 44075DEST_PATH_IMAGE076
表示候选项目集的密集嵌入,
Figure 958942DEST_PATH_IMAGE077
,
Figure 230654DEST_PATH_IMAGE078
是一个关于
Figure 572774DEST_PATH_IMAGE045
Figure 93885DEST_PATH_IMAGE015
Figure 546863DEST_PATH_IMAGE016
的函数,其遵循变分推断过程,根据长期变分注意力向量
Figure 204241DEST_PATH_IMAGE037
和混合变分注意力向量
Figure 451682DEST_PATH_IMAGE064
,分层变分注意力模型HVAM的总体训练目标是最小化下论述证据变分下界ELBO:
Figure 725669DEST_PATH_IMAGE079
,其中
Figure 716758DEST_PATH_IMAGE080
表示模型参数集,
Figure 494222DEST_PATH_IMAGE081
表示用于归一化KL散度的退火因子,具体的,KL散度的计算如下:
Figure 646985DEST_PATH_IMAGE082
Figure 142689DEST_PATH_IMAGE083
,其中
Figure 937469DEST_PATH_IMAGE084
表示均值和方差的维数,本发明提出的分层变分注意力模型HVAM的主要目的是获得用户的偏好表示并为用户提供候选项目的排序列表,而不是重构输入,因此,在优化ELBO的第一项时,根据BPR优化准则使用成对排名损失目标函数。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于分层变分注意力的序列推荐方法,其特征在于,首先将用户和项目的稀疏向量转换为低维空间的密集向量;然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量,获得用户的长期偏好表示;最后再通过另一层变分注意力网络对用户的短期偏好进行建模,以获得最终的混合用户表示。
2.根据权利要求1所述的基于分层变分注意力的序列推荐方法,其特征在于,所述变分推断为给定观察变量,近似潜在变量的条件密度,假设一组数据点
Figure 922268DEST_PATH_IMAGE001
Figure 777092DEST_PATH_IMAGE002
表示数据点
Figure 760091DEST_PATH_IMAGE003
的真实分布,依据贝叶斯属性获得下列公式:
Figure 92983DEST_PATH_IMAGE004
,其中其中
Figure 845039DEST_PATH_IMAGE005
是潜在变量,
Figure 870764DEST_PATH_IMAGE006
为后验分布,以简单分布
Figure 75480DEST_PATH_IMAGE007
来近似后验分布
Figure 229641DEST_PATH_IMAGE006
,取上述公式两侧的对数,并在等式右边引入
Figure 101783DEST_PATH_IMAGE007
,得到:
Figure 298409DEST_PATH_IMAGE008
Figure 990421DEST_PATH_IMAGE009
,然后,在
Figure 930695DEST_PATH_IMAGE007
下求解上式的期望值,如下式所示:
Figure 391764DEST_PATH_IMAGE010
,上述等式左侧的
Figure 759291DEST_PATH_IMAGE002
独立于
Figure 204179DEST_PATH_IMAGE005
,并且
Figure 416986DEST_PATH_IMAGE007
对于
Figure 263719DEST_PATH_IMAGE005
的积分为1,扩展等式右端可以生成:
Figure 536568DEST_PATH_IMAGE011
,由上述公式得到
Figure 468752DEST_PATH_IMAGE012
被转换为ELBO和KL散度之和,其中,
Figure 219671DEST_PATH_IMAGE002
Figure 920910DEST_PATH_IMAGE012
为未知的常数,等式右侧的前两项称为ELBO,等式右边的最后一个KL散度是非负的,因此ELBO的上限是
Figure 630240DEST_PATH_IMAGE012
,由于等式中的KL散度和ELBO呈此起彼伏的关系,因此,使KL散度最小化等同于最大化ELBO,通过变分推断将推理问题变成优化问题。
3.根据权利要求2所述的基于分层变分注意力的序列推荐方法,其特征在于,采用分层变分注意力模型HVAM获得最终的混合用户表示,其中,分层变分注意力模型HVAM由输入嵌入层、长期变分注意力层和混合变分注意力层组成,所述输入嵌入层将用户稀疏向量和项目稀疏向量分别从用户集合
Figure 784141DEST_PATH_IMAGE013
和项目集合
Figure 604330DEST_PATH_IMAGE014
转换为低维密集向量,然后将用户嵌入和来自用户的长期项目集合
Figure 160076DEST_PATH_IMAGE015
的项目嵌入注入第一层变分注意力网络,以获取注意力向量的均值和方差,为了进一步整合短期偏好,最终的混合用户表示将长期用户表示与短期项目集合
Figure 34448DEST_PATH_IMAGE016
中的项目嵌入相结合,其中均值和方差是通过另一层变分注意力网络来学习。
4.根据权利要求3所述的基于分层变分注意力的序列推荐方法,其特征在于,所述输入嵌入层包括用户稀疏向量、长期项目集合
Figure 410065DEST_PATH_IMAGE015
和短期项目集合
Figure 768366DEST_PATH_IMAGE016
,首先使用两个单独的全连接权重矩阵层
Figure 178618DEST_PATH_IMAGE017
Figure 495330DEST_PATH_IMAGE018
来构造用户和项目的连续的低维嵌入,其中
Figure 92665DEST_PATH_IMAGE019
Figure 520235DEST_PATH_IMAGE020
分别代表用户和项目数,
Figure 784994DEST_PATH_IMAGE021
是嵌入维度,并且仅向完全连接层网络提供用户或项目的单热编码表示,然后,网络为用户
Figure 741449DEST_PATH_IMAGE022
或项目
Figure 91659DEST_PATH_IMAGE023
输出相应的嵌入表示,用
Figure 322920DEST_PATH_IMAGE024
Figure 442186DEST_PATH_IMAGE025
表示,即用户集合
Figure 569542DEST_PATH_IMAGE013
的第
Figure 672627DEST_PATH_IMAGE022
行或项目集合
Figure 176421DEST_PATH_IMAGE014
的第
Figure 681351DEST_PATH_IMAGE023
行。
5.根据权利要求3所述的基于分层变分注意力的序列推荐方法,其特征在于,所述长期变分注意力层中引入注意力机制;首先需要获取确定性注意力向量,然后基于该向量获得变分注意力向量;具体的,注意力机制通过以下等式计算概率分布:
Figure 714029DEST_PATH_IMAGE026
Figure 32972DEST_PATH_IMAGE027
,其中
Figure 340457DEST_PATH_IMAGE028
表示项目
Figure 434315DEST_PATH_IMAGE029
的密集嵌入向量,
Figure 169052DEST_PATH_IMAGE030
Figure 715571DEST_PATH_IMAGE031
分别表示模型的权重和偏置项,
Figure 92326DEST_PATH_IMAGE032
是sigmoid函数,利用其来增强非线性能力;首先将每个项目的密集低维嵌入向量
Figure 40691DEST_PATH_IMAGE028
通过多层感知器MLP,以获得预先归一化的分数
Figure 211909DEST_PATH_IMAGE033
;然后,使用用户嵌入
Figure 245724DEST_PATH_IMAGE034
作为上下文向量来实现个性化目标,即将相同项目的不同权重分配给不同用户,并应用softmax函数来计算
Figure 895011DEST_PATH_IMAGE034
Figure 963461DEST_PATH_IMAGE033
之间的归一化相似度得分
Figure 40002DEST_PATH_IMAGE035
;最后,将来自
Figure 826692DEST_PATH_IMAGE015
的项目嵌入依据注意力得分相加,以获得确定性注意力向量:
Figure 14091DEST_PATH_IMAGE036
6.根据权利要求5所述的基于分层变分注意力的序列推荐方法,其特征在于,因确定性注意力向量依然不足以表征用户偏好的不确定性,因此引入变分注意力向量
Figure 671468DEST_PATH_IMAGE037
,并为变分注意力向量
Figure 450069DEST_PATH_IMAGE037
提出两个先验分布;首先,最简单的先验为标准正态分布:
Figure 724055DEST_PATH_IMAGE038
,标准正态分布用于生成复杂的依赖关系;其次,注意力向量必须在原始输入的潜在表示的凸包中,因此施加一个先验,其均值是用户长期项目集中项目嵌入的平均值,即
Figure 980724DEST_PATH_IMAGE039
,从而使该先验无信息性:
Figure 752328DEST_PATH_IMAGE040
,通过变分推断,将
Figure 170671DEST_PATH_IMAGE041
的后验建模为正态分布
Figure 666374DEST_PATH_IMAGE042
,其中参数
Figure 461155DEST_PATH_IMAGE043
Figure 93125DEST_PATH_IMAGE044
通过神经网络获得,
Figure 947948DEST_PATH_IMAGE045
表示给定用户的嵌入向量,
Figure 196527DEST_PATH_IMAGE015
表示用户的长期项目集合,对于平均值
Figure 794998DEST_PATH_IMAGE043
,应用恒等转换,即
Figure 547054DEST_PATH_IMAGE046
,对于
Figure 572779DEST_PATH_IMAGE044
,首先通过具有tanh激活的神经层转换
Figure 43074DEST_PATH_IMAGE047
,然后将所得向量线性转换;最后,为了确保该值为正数执行exp激活函数,通过采样
Figure 914078DEST_PATH_IMAGE048
,来获得ELBO的无偏估计,并通过随机梯度下降对其进行优化。
7.根据权利要求6所述的基于分层变分注意力的序列推荐方法,其特征在于,由于依据于参数
Figure 520640DEST_PATH_IMAGE043
Figure 717266DEST_PATH_IMAGE044
,其采样是不确定的函数,并且不可微分,因此采用重新参数化方式将采样移至输入层,具体是将是将
Figure 674858DEST_PATH_IMAGE037
重新参数化为一个关于
Figure 349553DEST_PATH_IMAGE043
Figure 76200DEST_PATH_IMAGE049
的函数,如下式所示:
Figure 709307DEST_PATH_IMAGE050
,其中
Figure 906194DEST_PATH_IMAGE051
是标准高斯变量,其能够引进噪音,进而平稳地获取和优化代表用户长期偏好表示的
Figure 650159DEST_PATH_IMAGE037
8.根据权利要求3所述的基于分层变分注意力的序列推荐方法,其特征在于,所述混合变分注意力层首先计算给定用户的短期项目集合
Figure 496892DEST_PATH_IMAGE016
中每个项目的重要性,然后汇总这些项目的嵌入和长期用户偏好表示
Figure 504162DEST_PATH_IMAGE037
形成高阶用户偏好表示,具体如下:
Figure 436346DEST_PATH_IMAGE052
Figure 718423DEST_PATH_IMAGE053
,其中,当
Figure 419663DEST_PATH_IMAGE054
时,
Figure 128993DEST_PATH_IMAGE055
表示项目
Figure 548473DEST_PATH_IMAGE056
的密集嵌入向量,当
Figure 368661DEST_PATH_IMAGE057
时,
Figure 924408DEST_PATH_IMAGE058
Figure 804639DEST_PATH_IMAGE059
Figure 445836DEST_PATH_IMAGE060
分别代表模型的权重和偏置项;类似地,在获得注意力得分
Figure 804136DEST_PATH_IMAGE061
之后,通过注意力得分将来自短期项目集合
Figure 479968DEST_PATH_IMAGE016
的项目嵌入和长期用户偏好表示
Figure 531101DEST_PATH_IMAGE037
相加以获得混合的确定性注意力向量:
Figure 394014DEST_PATH_IMAGE062
,其中
Figure 556005DEST_PATH_IMAGE063
是长期用户偏好表示
Figure 820765DEST_PATH_IMAGE037
的权重;以相同的方式,也为用户混合偏好表示
Figure 302518DEST_PATH_IMAGE064
提出两个合理的先验分布,即
Figure 918308DEST_PATH_IMAGE065
Figure 618410DEST_PATH_IMAGE066
,其中
Figure 3255DEST_PATH_IMAGE067
表示用户短期项目集的项目嵌入和长期用户偏好表示
Figure 396191DEST_PATH_IMAGE037
的平均值;将
Figure 499276DEST_PATH_IMAGE068
的后验建模为一个正态分布
Figure 3069DEST_PATH_IMAGE069
,其中
Figure 242421DEST_PATH_IMAGE070
表示给定用户的嵌入向量,而
Figure 806257DEST_PATH_IMAGE016
表示用户的短期项目集;然后,通过神经网络获取参数
Figure 396639DEST_PATH_IMAGE071
Figure 438544DEST_PATH_IMAGE072
;最后,对高斯噪声
Figure 797981DEST_PATH_IMAGE073
进行采样,并将用户混合偏好表示
Figure 532719DEST_PATH_IMAGE064
重新参数化为
Figure 344817DEST_PATH_IMAGE071
Figure 721572DEST_PATH_IMAGE072
的函数如下:
Figure 935516DEST_PATH_IMAGE074
,式中,用户混合偏好表示
Figure 841155DEST_PATH_IMAGE064
不仅考虑了长期和短期偏好中的动态特征,而且还区分了用于预测下一个项目的项目贡献。
9.根据权利要求8所述的基于分层变分注意力的序列推荐方法,其特征在于,给定用户的混合偏好表示
Figure 140549DEST_PATH_IMAGE064
,采用传统的潜在因子模型来获取用户对候选项目集的偏好:
Figure 518398DEST_PATH_IMAGE075
,其中
Figure 852427DEST_PATH_IMAGE076
表示候选项目集的密集嵌入,
Figure 194547DEST_PATH_IMAGE077
,
Figure 981237DEST_PATH_IMAGE078
是一个关于
Figure 434215DEST_PATH_IMAGE045
Figure 622751DEST_PATH_IMAGE015
Figure 870193DEST_PATH_IMAGE016
的函数,其遵循变分推断过程,根据长期变分注意力向量
Figure 878600DEST_PATH_IMAGE037
和混合变分注意力向量
Figure 135269DEST_PATH_IMAGE064
,分层变分注意力模型HVAM的总体训练目标是最小化下论述证据变分下界ELBO:
Figure 178311DEST_PATH_IMAGE079
,其中
Figure 596654DEST_PATH_IMAGE080
表示模型参数集,
Figure 92358DEST_PATH_IMAGE081
表示用于归一化KL散度的退火因子,具体的,KL散度的计算如下:
Figure 152718DEST_PATH_IMAGE082
Figure 50266DEST_PATH_IMAGE083
,其中
Figure 905090DEST_PATH_IMAGE084
表示均值和方差的维数,在优化ELBO的第一项时,根据BPR优化准则使用成对排名损失目标函数。
CN202010385644.2A 2020-05-09 2020-05-09 基于分层变分注意力的序列推荐方法 Active CN111552881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010385644.2A CN111552881B (zh) 2020-05-09 2020-05-09 基于分层变分注意力的序列推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010385644.2A CN111552881B (zh) 2020-05-09 2020-05-09 基于分层变分注意力的序列推荐方法

Publications (2)

Publication Number Publication Date
CN111552881A true CN111552881A (zh) 2020-08-18
CN111552881B CN111552881B (zh) 2024-01-30

Family

ID=72003461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010385644.2A Active CN111552881B (zh) 2020-05-09 2020-05-09 基于分层变分注意力的序列推荐方法

Country Status (1)

Country Link
CN (1) CN111552881B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996487A (zh) * 2022-05-24 2022-09-02 北京达佳互联信息技术有限公司 媒体资源推荐方法、装置、电子设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060097A (zh) * 2019-04-01 2019-07-26 苏州市职业大学 基于注意力机制和卷积神经网络的用户行为序列推荐方法
CN110147892A (zh) * 2019-02-20 2019-08-20 电子科技大学 基于变分轨迹上下文感知的人类移动模式推测模型、训练方法及推测方法
CN110196946A (zh) * 2019-05-29 2019-09-03 华南理工大学 一种基于深度学习的个性化推荐方法
CN110232480A (zh) * 2019-03-01 2019-09-13 电子科技大学 利用变分的正则化流实现的项目推荐方法及模型训练方法
CN110781401A (zh) * 2019-11-07 2020-02-11 电子科技大学 一种基于协同自回归流实现的Top-n项目推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147892A (zh) * 2019-02-20 2019-08-20 电子科技大学 基于变分轨迹上下文感知的人类移动模式推测模型、训练方法及推测方法
CN110232480A (zh) * 2019-03-01 2019-09-13 电子科技大学 利用变分的正则化流实现的项目推荐方法及模型训练方法
CN110060097A (zh) * 2019-04-01 2019-07-26 苏州市职业大学 基于注意力机制和卷积神经网络的用户行为序列推荐方法
CN110196946A (zh) * 2019-05-29 2019-09-03 华南理工大学 一种基于深度学习的个性化推荐方法
CN110781401A (zh) * 2019-11-07 2020-02-11 电子科技大学 一种基于协同自回归流实现的Top-n项目推荐方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996487A (zh) * 2022-05-24 2022-09-02 北京达佳互联信息技术有限公司 媒体资源推荐方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN111552881B (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
CN111246256B (zh) 基于多模态视频内容和多任务学习的视频推荐方法
Bansal et al. Ask the gru: Multi-task learning for deep text recommendations
Li et al. Visual to text: Survey of image and video captioning
CN109753566A (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
Yi et al. Cross-modal variational auto-encoder for content-based micro-video background music recommendation
CN112016002A (zh) 融合评论文本层级注意力和时间因素的混合推荐方法
Garbacea et al. Judge the judges: A large-scale evaluation study of neural language models for online review generation
Zhang et al. Integrating an attention mechanism and convolution collaborative filtering for document context-aware rating prediction
Ibrahim et al. An intelligent hybrid neural collaborative filtering approach for true recommendations
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
Wang et al. Attention-based deep neural network for internet platform group users’ dynamic identification and recommendation
Park et al. An effective 3D text recurrent voting generator for metaverse
Guo et al. Matching visual features to hierarchical semantic topics for image paragraph captioning
Karras et al. Integrating user and item reviews in deep cooperative neural networks for movie recommendation
Cao et al. Injecting user identity into pretrained language models for document-level sentiment classification
CN116628345B (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN111552881A (zh) 基于分层变分注意力的序列推荐方法
Pandi et al. Emotion and gender classification using convolution neural networks
CN116955599A (zh) 一种类目确定的方法、相关装置、设备以及存储介质
Chauhan et al. Mhadig: A multilingual humor-aided multiparty dialogue generation in multimodal conversational setting
Kumar et al. A Recommendation System & Their Performance Metrics using several ML Algorithms
Zhao et al. Language style transfer from non-parallel text with arbitrary styles
Hu et al. Modeling and leveraging prerequisite context in recommendation
Bang et al. Collective matrix factorization using tag embedding for effective recommender system
Habbat et al. Analyzing Booking's Comments Using Stacking Ensemble Deep Learning Model and Neural Topic Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant