CN111552881B - 基于分层变分注意力的序列推荐方法 - Google Patents
基于分层变分注意力的序列推荐方法 Download PDFInfo
- Publication number
- CN111552881B CN111552881B CN202010385644.2A CN202010385644A CN111552881B CN 111552881 B CN111552881 B CN 111552881B CN 202010385644 A CN202010385644 A CN 202010385644A CN 111552881 B CN111552881 B CN 111552881B
- Authority
- CN
- China
- Prior art keywords
- user
- attention
- term
- vector
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 94
- 230000007774 longterm Effects 0.000 claims abstract description 55
- 238000009826 distribution Methods 0.000 claims abstract description 36
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000000137 annealing Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 101000802091 Homo sapiens Thyroid hormone-inducible hepatic protein Proteins 0.000 claims 2
- 102100034700 Thyroid hormone-inducible hepatic protein Human genes 0.000 claims 2
- 210000005036 nerve Anatomy 0.000 claims 1
- 230000006870 function Effects 0.000 description 12
- 238000013459 approach Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是基于分层变分注意力的序列推荐方法,首先将用户和项目的稀疏向量转换为低维空间的密集向量;然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量,获得用户的长期偏好表示;最后再通过另一层变分注意力网络对用户的短期偏好进行建模,以获得最终的混合用户表示。与传统的确定性方法相比,本发明方法包含的随机单元可以实现多模式注意力分布,不仅可以同时捕获用户的长期和短期偏好,而且还具有足够的能力来对用户偏好的不确定性进行建模。
Description
技术领域
本发明涉及数据推荐系统技术领域,具体涉及一种基于分层变分注意力的序列推荐方法。
背景技术
推荐系统在我们的日常生活中,尤其是在社交媒体网站和电子商务中,起着越来越重要的作用。由于用户偏好和喜好的内在动态性和不确定性,序列推荐已成为推荐系统中的一个有吸引力的话题。同时,许多研究者已经进行了很多努力来根据用户过去的交互序列来推荐用户可能喜欢的下一个项目。
早期的方法通常使用单独的模型来分别捕获用户的长期和短期偏好,并最终将它们集成。例如,Rendel等人提出了一种既包含Markov链又包含矩阵分解模型的方法,然后将它们线性组合以用于序列推荐。然而,仅仅为每个用户学习静态向量以捕获他/她的长期偏好是不够的。此外,由于作者使用线性方法固定不同组件的权重,因此这些方法捕获高阶交互的能力有限。
最近,注意力机制已被广泛用于在推荐系统中获得用户偏好和项目特征。例如,Chen等人使用注意力网络来合并其组件(框架或区域)以获得多媒体对象(视频,文本或图像)的表示,同时采用类似的注意力机制来合并交互项以捕获用于推荐的用户表示。Ying等人提出了一个两层的分层注意力网络来对用户的长期和短期偏好进行建模。
尽管取得了成功,但上述模型仍使用确定性的注意力网络,该网络缺乏对用户偏好的不确定性进行建模的能力。在推荐系统中,用户偏好可能会产生很大的不确定性,原因如下:(1)用户可能天生具有丰富多样的兴趣。(2)用户可能会受到周围环境的影响。例如,用户u一开始并不喜欢科幻电影,但是她的男朋友影响了她,然后她慢慢爱上了科幻电影。(3)用户数据的稀疏性使得用户偏好的表示充满了不确定性。Ying等人将注意力向量建模为低维特征空间中的一个点来表示用户的偏好。但是这种方法表示的注意力向量不足以表达用户偏好的不确定性。因为注意力向量(即用户表示)被限制在低维空间中的某个点,其没有误差项的约束,这可能导致不正确的推荐结果。
为了解决上述问题,本发明提出一种新颖的分层变分注意力模型(HVAM)来进行序列推荐。在模型中,本发明首先将用户和项目的稀疏向量转换为低维空间的密集向量。然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量,获得用户的长期偏好表示。通过应用高斯分布表示注意力向量,均值和方差需要保留不同的属性,以使此类表示具有很高的价值。具体而言,均值向量应反映注意力向量在低维特征空间中的位置,方差项应包含其不确定性。最后再通过另一层变分注意力网络来对用户的短期偏好进行建模,以获得最终的混合用户表示。与传统的确定性方法相比,该模型包含的随机单元可以实现多模式注意力分布。总的来说,本发明的模型不仅可以同时捕获用户的长期和短期偏好,而且还具有足够的能力来对用户偏好的不确定性进行建模。
发明内容
本发明的目的在于克服现有技术存在的问题,提供一种基于分层变分注意力的序列推荐方法。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种基于分层变分注意力的序列推荐方法,首先将用户和项目的稀疏向量转换为低维空间的密集向量;然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量,获得用户的长期偏好表示;最后再通过另一层变分注意力网络对用户的短期偏好进行建模,以获得最终的混合用户表示。
进一步的,所述变分推断为给定观察变量,近似潜在变量的条件密度,假设一组数据点,/>表示数据点/>的真实分布,依据贝叶斯属性获得下列公式:,其中其中/>是潜在变量,/>为后验分布,以简单分布/>来近似后验分布/>,取上述公式两侧的对数,并在等式右边引入/>,得到:
,/>,然后,在/>下求解上式的期望值,如下式所示:
,上述等式左侧的/>独立于/>,并且/>对于/>的积分为1,扩展等式右端可以生成:
,由上述公式得到/>被转换为ELBO和KL散度之和,其中,/>和/>为未知的常数,等式右侧的前两项称为ELBO,等式右边的最后一个KL散度是非负的,因此ELBO的上限是/>,由于等式中的KL散度和ELBO呈此起彼伏的关系,因此,使KL散度最小化等同于最大化ELBO,通过变分推断将推理问题变成优化问题。
进一步的,采用分层变分注意力模型HVAM获得最终的混合用户表示,其中,分层变分注意力模型HVAM由输入嵌入层、长期变分注意力层和混合变分注意力层组成,所述输入嵌入层将用户稀疏向量和项目稀疏向量分别从用户集合和项目集合/>转换为低维密集向量,然后将用户嵌入和来自用户的长期项目集合/>的项目嵌入注入第一层变分注意力网络,以获取注意力向量的均值和方差,为了进一步整合短期偏好,最终的混合用户表示将长期用户表示与短期项目集合/>中的项目嵌入相结合,其中均值和方差是通过另一层变分注意力网络来学习。
进一步的,所述输入嵌入层包括用户稀疏向量、长期项目集合和短期项目集合/>,首先使用两个单独的全连接权重矩阵层/>和/>来构造用户和项目的连续的低维嵌入,其中/>和/>分别代表用户和项目数,/>是嵌入维度,并且仅向完全连接层网络提供用户或项目的单热编码表示,然后,网络为用户/>或项目/>输出相应的嵌入表示,用/>或/>表示,即用户集合/>的第/>行或项目集合/>的第/>行。
进一步的,所述长期变分注意力层中引入注意力机制;首先需要获取确定性注意力向量,然后基于该向量获得变分注意力向量;具体的,注意力机制通过以下等式计算概率分布:,/>,其中/>表示项目/>的密集嵌入向量,/>和/>分别表示模型的权重和偏置项,/>是sigmoid函数,利用其来增强非线性能力;首先将每个项目的密集低维嵌入向量/>通过多层感知器MLP,以获得预先归一化的分数/>;然后,使用用户嵌入/>作为上下文向量来实现个性化目标,即将相同项目的不同权重分配给不同用户,并应用softmax函数来计算/>和/>之间的归一化相似度得分/>;最后,将来自/>的项目嵌入依据注意力得分相加,以获得确定性注意力向量:/>。
进一步的,因确定性注意力向量依然不足以表征用户偏好的不确定性,因此引入变分注意力向量,并为变分注意力向量/>提出两个先验分布;首先,最简单的先验为标准正态分布:/>,标准正态分布用于生成复杂的依赖关系;其次,注意力向量必须在原始输入的潜在表示的凸包中,因此施加一个先验,其均值是用户长期项目集中项目嵌入的平均值,即/>,从而使该先验无信息性:/>,通过变分推断,将/>的后验建模为正态分布/>,其中参数/>和/>通过神经网络获得,/>表示给定用户的嵌入向量,/>表示用户的长期项目集合,对于平均值/>,应用恒等转换,即/>,对于/>,首先通过具有tanh激活的神经层转换/>,然后将所得向量线性转换;最后,为了确保该值为正数执行exp激活函数,通过采样,来获得ELBO的无偏估计,并通过随机梯度下降对其进行优化。
进一步的,由于依据于参数和/>,其采样是不确定的函数,并且不可微分,因此采用重新参数化方式将采样移至输入层,具体是将是将/>重新参数化为一个关于/>和的函数,如下式所示:/>,其中/>是标准高斯变量,其能够引进噪音,进而平稳地获取和优化代表用户长期偏好表示的/>。
进一步的,所述混合变分注意力层首先计算给定用户的短期项目集合中每个项目的重要性,然后汇总这些项目的嵌入和长期用户偏好表示/>形成高阶用户偏好表示,具体如下:/>,/>,其中,当/>时,/>表示项目/>的密集嵌入向量,当/>时,/>,/>和分别代表模型的权重和偏置项;类似地,在获得注意力得分/>之后,通过注意力得分将来自短期项目集合/>的项目嵌入和长期用户偏好表示/>相加以获得混合的确定性注意力向量:/>,其中/>是长期用户偏好表示/>的权重;以相同的方式,也为用户混合偏好表示/>提出两个合理的先验分布,即/>和/>,其中/>表示用户短期项目集的项目嵌入和长期用户偏好表示/>的平均值;将/>的后验建模为一个正态分布/>,其中/>表示给定用户的嵌入向量,而/>表示用户的短期项目集;然后,通过神经网络获取参数/>和/>;最后,对高斯噪声/>进行采样,并将用户混合偏好表示/>重新参数化为/>和/>的函数如下:,式中,用户混合偏好表示/>不仅考虑了长期和短期偏好中的动态特征,而且还区分了用于预测下一个项目的项目贡献。
进一步的,给定用户的混合偏好表示,采用传统的潜在因子模型来获取用户对候选项目集的偏好:/>,其中/>表示候选项目集的密集嵌入,, />是一个关于/>,/>和/>的函数,其遵循变分推断过程,根据长期变分注意力向量/>和混合变分注意力向量/>,分层变分注意力模型HVAM的总体训练目标是最小化下论述证据变分下界ELBO:
,其中/>表示模型参数集,/>表示用于归一化KL散度的退火因子,具体的,KL散度的计算如下:
,
,其中/>表示均值和方差的维数,在优化ELBO的第一项时,根据BPR优化准则使用成对排名损失目标函数。
本发明的有益效果是:
本发明方法包含的随机单元可以实现多模式注意力分布,不仅可以同时捕获用户的长期和短期偏好,而且还具有足够的能力来对用户偏好的不确定性进行建模。
附图说明
图1为本发明的分层变分注意力模型HVAM的总体架构图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
一种基于分层变分注意力的序列推荐方法,首先将用户和项目的稀疏向量转换为低维空间的密集向量;然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量,获得用户的长期偏好表示;最后再通过另一层变分注意力网络对用户的短期偏好进行建模,以获得最终的混合用户表示。与传统的确定性方法相比,该模型包含的随机单元可以实现多模式注意力分布,总的来说,该模型不仅可以同时捕获用户的长期和短期偏好,而且还具有足够的能力来对用户偏好的不确定性进行建模。
在建模前,首先进行问题定义:用和/>分别表示用户集合和项目集合,其中M和N分别表示用户和项目的个数,对隐式和序列的用户项反馈数据进行建模,对于每个用户/>,用户/>的交互(或事务)序列表示为/>,其中T表示总时间步长,/>是根据时间顺序设置的第/>个项目集合,对于固定时间/>,项目集合/>可以表示用户/>的短期偏好,而时间/>之前的项目集合表示为,这可以反映用户/>的长期偏好,正式地,给定用户及其交互序列/>,本实施例的主要目的是通过挖掘/>来推荐用户可能喜欢的下一个项目。
所述变分推断为给定观察变量,近似潜在变量的条件密度,假设一组数据点,/>表示数据点/>的真实分布,依据贝叶斯属性获得下列公式:,其中其中/>是潜在变量,/>为后验分布,但是后验分布/>通常很复杂且难以求解,因此考虑以相对简单的分布/>来近似后验分布/>,取上述公式两侧的对数,并在等式右边引入/>,得到:/>,,然后,在/>下求解上式的期望值,如下式所示:/>,上述等式左侧的/>独立于/>,并且/>对于/>的积分为1,扩展等式右端可以生成:
,由上述公式得到/>被转换为ELBO和KL散度(Kullback-Leibler散度)之和,由于不知道样本/>的真实分布,但是客观事实是不变的,换句话说,/>和/>都是未知的常数,等式右侧的前两项称为ELBO,等式右边的最后一个KL散度是非负的,因此ELBO的上限是/>,最小化KL散度是本实施例的主要目的,但是要想求得/>是很困难的,幸运的是,由于等式中的KL散度和ELBO呈此起彼伏的关系,因此,使KL散度最小化等同于最大化ELBO,通过变分推断将推理问题变成优化问题。
如图1所示,采用分层变分注意力模型HVAM获得最终的混合用户表示,其中,分层变分注意力模型HVAM由输入嵌入层、长期变分注意力层和混合变分注意力层组成,所述输入嵌入层将用户稀疏向量和项目稀疏向量分别从用户集合和项目集合/>转换为低维密集向量,然后将用户嵌入和来自用户的长期项目集合/>的项目嵌入注入第一层变分注意力网络,以获取注意力向量的均值和方差,为了进一步整合短期偏好,最终的混合用户表示将长期用户表示与短期项目集合/>中的项目嵌入相结合,其中均值和方差是通过另一层变分注意力网络来学习。
所述输入嵌入层包括用户稀疏向量、长期项目集合和短期项目集合/>,但是,类似于自然语言处理中的离散单词符号,单热编码向量(即稀疏向量)总是高维且稀疏的,同时,它们具有最小的表示能力,这种方法在大数据集中计算效率不高,因此,首先使用两个单独的全连接权重矩阵层/>和/>来构造用户和项目的连续的低维嵌入,其中/>和/>分别代表用户和项目数,/>是嵌入维度,并且仅向完全连接层网络提供用户或项目的单热编码表示,然后,网络为用户/>或项目/>输出相应的嵌入表示,用或/>表示,即用户集合/>的第/>行或项目集合/>的第/>行。
理想情况下,在本领域中认为一个好的推荐方法应该能够理解用户的长期偏好(例如,用户通常喜欢的物品),并能够探索短期偏好(例如,购买一件物品导致想要另一件物品),本发明的模型可以很好地捕获用户的一般喜好和序列行为,而对于每个用户,学习静态表示不能很好地反映长期用户偏好的进化,此外,不同的项目对同一用户有不同的影响,并且同一项目可能会对不同的用户产生不同的影响,这句话的前半部分是容易理解的,后半部分可以举例解释为用户由于自己的喜好为自己购买了iphone11,而用户/>购买iphone11作为给男/女友或父母的礼物。注意力机制已经被成功应用在许多领域中,例如机器翻译、文档分类等,它们的直觉是人们只关注目标的重要部分,为了满足上述讨论内容,需在长期变分注意力层中引入注意力机制;首先需要获取确定性注意力向量,然后基于该向量获得变分注意力向量;具体的,注意力机制通过以下等式计算概率分布:/>,,其中/>表示项目/>的密集嵌入向量,/>和/>分别表示模型的权重和偏置项,/>是sigmoid函数,利用其来增强非线性能力;首先将每个项目的密集低维嵌入向量/>通过多层感知器MLP,以获得预先归一化的分数/>;然后,使用用户嵌入/>作为上下文向量来实现个性化目标,即将相同项目的不同权重分配给不同用户,并应用softmax函数来计算/>和/>之间的归一化相似度得分/>;最后,将来自/>的项目嵌入依据注意力得分相加,以获得确定性注意力向量:
。
因确定性注意力向量依然不足以表征用户偏好的不确定性,因此引入变分注意力向量,并为变分注意力向量/>提出两个合理的先验分布;首先,最简单的先验为标准正态分布:/>,标准正态分布用于生成复杂的依赖关系;其次,注意力向量必须在原始输入的潜在表示的凸包中,因此施加一个先验,其均值是用户长期项目集中项目嵌入的平均值,即/>,从而使该先验无信息性:/>,通过变分推断,将/>的后验建模为正态分布/>,其中参数/>和/>通过神经网络获得,/>表示给定用户的嵌入向量,/>表示用户的长期项目集合,对于平均值/>,应用恒等转换,即/>,恒等转换保留了“注意力”的精神,对于/>,首先通过具有tanh激活的神经层转换/>,然后将所得向量线性转换;最后,为了确保该值为正数执行exp激活函数,通过采样/>,来获得ELBO的无偏估计,并通过随机梯度下降对其进行优化。
由于依据于参数和/>,其采样是不确定的函数,并且不可微分,因此采用重新参数化方式将采样移至输入层,具体是将是将/>重新参数化为一个关于/>和/>的函数,如下式所示:/>,其中/>是标准高斯变量,其能够引进噪音,进而平稳地获取和优化代表用户长期偏好表示的/>。
在讨论用户的长期偏好时,同样不能忽略用户的序列行为,即短期偏好,短期偏好对于预测下一个项目至关重要,但是,许多先前的方法没有很好的处理项目属性对下一个项目预测的影响,这极大的限制了模型的性能,类似于对用户长期偏好进行建模,本实施例中同样依靠注意力机制以获取特定的注意力向量,然后获取相应的变分注意力向量。所述混合变分注意力层首先计算给定用户的短期项目集合中每个项目的重要性,然后汇总这些项目的嵌入和长期用户偏好表示/>形成高阶用户偏好表示,具体如下:,/>,其中,当/>时,/>表示项目/>的密集嵌入向量,当/>时,/>,/>和/>分别代表模型的权重和偏置项;类似地,在获得注意力得分/>之后,通过注意力得分将来自短期项目集合/>的项目嵌入和长期用户偏好表示/>相加以获得混合的确定性注意力向量:/>,其中/>是长期用户偏好表示/>的权重;以相同的方式,也为用户混合偏好表示/>提出两个合理的先验分布,即和/>,其中/>表示用户短期项目集的项目嵌入和长期用户偏好表示/>的平均值;将/>的后验建模为一个正态分布/>,其中/>表示给定用户的嵌入向量,而/>表示用户的短期项目集;然后,与前述获得参数/>和/>相类似的方法,通过神经网络获取参数/>和/>;最后,对高斯噪声/>进行采样,并将用户混合偏好表示/>重新参数化为/>和/>的函数如下:/>,式中,用户混合偏好表示/>不仅考虑了长期和短期偏好中的动态特征,而且还区分了用于预测下一个项目的项目贡献。此外,通过使用变分注意力网络将注意力向量建模为随机变量,可以将注意力向量表示为潜在特征空间中的密度而不是固定点。因此,注意力向量的高斯分布的方差可以测量与用户的偏好表示相关的不确定性。
给定用户的混合偏好表示,采用传统的潜在因子模型来获取用户对候选项目集的偏好:/>,其中/>表示候选项目集的密集嵌入,/>,是一个关于/>,/>和/>的函数,其遵循变分推断过程,根据长期变分注意力向量和混合变分注意力向量/>,分层变分注意力模型HVAM的总体训练目标是最小化下论述证据变分下界ELBO:/>,其中/>表示模型参数集,/>表示用于归一化KL散度的退火因子,具体的,KL散度的计算如下:/>,,其中/>表示均值和方差的维数,本发明提出的分层变分注意力模型HVAM的主要目的是获得用户的偏好表示并为用户提供候选项目的排序列表,而不是重构输入,因此,在优化ELBO的第一项时,根据BPR优化准则使用成对排名损失目标函数。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于分层变分注意力的序列推荐方法,其特征在于,首先将用户和项目的稀疏向量转换为低维空间的密集向量;然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量,获得用户的长期偏好表示;最后再通过另一层变分注意力网络对用户的短期偏好进行建模,以获得最终的混合用户表示;
所述变分推断为给定观察变量,近似潜在变量的条件密度,假设一组数据点Y={y1,y2,...yd},P(Y)表示数据点Y的真实分布,依据贝叶斯属性获得下列公式:其中其中Z是潜在变量,P(Z|Y)为后验分布,以简单分布Q(Z|Y)来近似后验分布P(Z|Y),取上述公式两侧的对数,并在等式右边引入Q(Z|Y),得到:logP(Y)=logP(Y,Z)-logP(Z|Y),然后,在Q(Z|Y)下求解上式的期望值,如下式所示:/>上述等式左侧的P(Y)独立于Z,并且Q(Z|Y)对于Z的积分为1,扩展等式右端可以生成:由上述公式得到logP(Y)被转换为ELBO和KL散度之和,其中,P(Y)和lpgP(Y)为未知的常数,等式右侧的前两项称为ELBO,等式右边的最后一个KL散度是非负的,因此ELBO的上限是lpgP(Y),由于等式中的KL散度和ELBO呈此起彼伏的关系,因此,使KL散度最小化等同于最大化ELBO,通过变分推断将推理问题变成优化问题;
采用分层变分注意力模型HVAM获得最终的混合用户表示,其中,分层变分注意力模型HVAM由输入嵌入层、长期变分注意力层和混合变分注意力层组成,所述输入嵌入层将用户稀疏向量和项目稀疏向量分别从用户集合U和项目集合X转换为低维密集向量,然后将用户嵌入和来自用户的长期项目集合的项目嵌入注入第一层变分注意力网络,以获取注意力向量的均值和方差,为了进一步整合短期偏好,最终的混合用户表示将长期用户表示与短期项目集合/>中的项目嵌入相结合,其中均值和方差是通过另一层变分注意力网络来学习。
2.根据权利要求1所述的基于分层变分注意力的序列推荐方法,其特征在于,所述输入嵌入层包括用户稀疏向量、长期项目集合和短期项目集合/>首先使用两个单独的全连接权重矩阵层/>和/>来构造用户和项目的连续的低维嵌入,其中M和N分别代表用户和项目数,K是嵌入维度,并且仅向完全连接层网络提供用户或项目的单热编码表示,然后,网络为用户i或项目j输出相应的嵌入表示,用/>或/>表示,即用户集合U的第i行或项目集合X的第j行。
3.根据权利要求1所述的基于分层变分注意力的序列推荐方法,其特征在于,所述长期变分注意力层中引入注意力机制;首先需要获取确定性注意力向量,然后基于该向量获得变分注意力向量;具体的,注意力机制通过以下等式计算概率分布:v1i=δ(W1xi+b1),其中xi表示项目/>的密集嵌入向量,/>和/>分别表示模型的权重和偏置项,δ( )是sigmoid函数,利用其来增强非线性能力;首先将每个项目的密集低维嵌入向量xi通过多层感知器MLP,以获得预先归一化的分数v1i;然后,使用用户嵌入u作为上下文向量来实现个性化目标,即将相同项目的不同权重分配给不同用户,并应用softmax函数来计算u和v1i之间的归一化相似度得分αi;最后,将来自的项目嵌入依据注意力得分相加,以获得确定性注意力向量:/>
4.根据权利要求3所述的基于分层变分注意力的序列推荐方法,其特征在于,因确定性注意力向量依然不足以表征用户偏好的不确定性,因此引入变分注意力向量并为变分注意力向量/>提出两个先验分布;首先,最简单的先验为标准正态分布:标准正态分布用于生成复杂的依赖关系;其次,注意力向量必须在原始输入的潜在表示的凸包中,因此施加一个先验,其均值是用户长期项目集中项目嵌入的平均值,即/>从而使该先验无信息性:/>通过变分推断,将的后验建模为正态分布/>其中参数μ1和/>通过神经网络获得,u表示给定用户的嵌入向量,/>表示用户的长期项目集合,对于平均值μ1,应用恒等转换,即μ1=Zdet1,对于/>首先通过具有tanh激活的神经层转换Zdet1,然后将所得向量线性转换;最后,为了确保该值为正数执行exp激活函数,通过采样/>来获得ELBO的无偏估计,并通过随机梯度下降对其进行优化。
5.根据权利要求4所述的基于分层变分注意力的序列推荐方法,其特征在于,由于依据于参数μ1和其采样是不确定的函数,并且不可微分,因此采用重新参数化方式将采样移至输入层,具体是将是将/>重新参数化为一个关于μ1和σ1的函数,如下式所示:其中ε1是标准高斯变量,其能够引进噪音,进而平稳地获取和优化代表用户长期偏好表示的/>
6.据权利要求1所述的基于分层变分注意力的序列推荐方法,其特征在于,所述混合变分注意力层首先计算给定用户的短期项目集合中每个项目的重要性,然后汇总这些项目的嵌入和长期用户偏好表示/>形成高阶用户偏好表示,具体如下:v2j=δ(W2xj+b2),/>其中,当j>0时,xj表示项目/>的密集嵌入向量,当j=0时,/> 和/>分别代表模型的权重和偏置项;类似地,在获得注意力得分βj之后,通过注意力得分将来自短期项目集合/>的项目嵌入和长期用户偏好表示/>相加以获得混合的确定性注意力向量:其中β0是长期用户偏好表示/>的权重;以相同的方式,也为用户混合偏好表示/>提出两个合理的先验分布,即/>和/>其中/>表示用户短期项目集的项目嵌入和长期用户偏好表示/>的平均值;将/>的后验建模为一个正态分布/>其中u表示给定用户的嵌入向量,而/>表示用户的短期项目集;然后,通过神经网络获取参数μ2和/>最后,对高斯噪声ε2~N(0;I)进行采样,并将用户混合偏好表示/>重新参数化为μ2和/>的函数如下:/>式中,用户混合偏好表示/>不仅考虑了长期和短期偏好中的动态特征,而且还区分了用于预测下一个项目的项目贡献。
7.根根据权利要求6所述的基于分层变分注意力的序列推荐方法,其特征在于,给定用户的混合偏好表示采用传统的潜在因子模型来获取用户对候选项目集的偏好:其中X表示候选项目集的密集嵌入,/>Yu是一个关于u,/>和/>的函数,其遵循变分推断过程,根据长期变分注意力向量/>和混合变分注意力向量/>分层变分注意力模型HVAM的总体训练目标是最小化下论述证据变分下界ELBO:/>其中Θ表示模型参数集,λKL表示用于归一化KL散度的退火因子,具体的,KL散度的计算如下:
其中k表示均值和方差的维数,在优化ELBO的第一项时,根据BPR优化准则使用成对排名损失目标函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010385644.2A CN111552881B (zh) | 2020-05-09 | 2020-05-09 | 基于分层变分注意力的序列推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010385644.2A CN111552881B (zh) | 2020-05-09 | 2020-05-09 | 基于分层变分注意力的序列推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111552881A CN111552881A (zh) | 2020-08-18 |
CN111552881B true CN111552881B (zh) | 2024-01-30 |
Family
ID=72003461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010385644.2A Active CN111552881B (zh) | 2020-05-09 | 2020-05-09 | 基于分层变分注意力的序列推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111552881B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114996487B (zh) * | 2022-05-24 | 2023-04-07 | 北京达佳互联信息技术有限公司 | 媒体资源推荐方法、装置、电子设备以及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110060097A (zh) * | 2019-04-01 | 2019-07-26 | 苏州市职业大学 | 基于注意力机制和卷积神经网络的用户行为序列推荐方法 |
CN110147892A (zh) * | 2019-02-20 | 2019-08-20 | 电子科技大学 | 基于变分轨迹上下文感知的人类移动模式推测模型、训练方法及推测方法 |
CN110196946A (zh) * | 2019-05-29 | 2019-09-03 | 华南理工大学 | 一种基于深度学习的个性化推荐方法 |
CN110232480A (zh) * | 2019-03-01 | 2019-09-13 | 电子科技大学 | 利用变分的正则化流实现的项目推荐方法及模型训练方法 |
CN110781401A (zh) * | 2019-11-07 | 2020-02-11 | 电子科技大学 | 一种基于协同自回归流实现的Top-n项目推荐方法 |
-
2020
- 2020-05-09 CN CN202010385644.2A patent/CN111552881B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147892A (zh) * | 2019-02-20 | 2019-08-20 | 电子科技大学 | 基于变分轨迹上下文感知的人类移动模式推测模型、训练方法及推测方法 |
CN110232480A (zh) * | 2019-03-01 | 2019-09-13 | 电子科技大学 | 利用变分的正则化流实现的项目推荐方法及模型训练方法 |
CN110060097A (zh) * | 2019-04-01 | 2019-07-26 | 苏州市职业大学 | 基于注意力机制和卷积神经网络的用户行为序列推荐方法 |
CN110196946A (zh) * | 2019-05-29 | 2019-09-03 | 华南理工大学 | 一种基于深度学习的个性化推荐方法 |
CN110781401A (zh) * | 2019-11-07 | 2020-02-11 | 电子科技大学 | 一种基于协同自回归流实现的Top-n项目推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111552881A (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bansal et al. | Ask the gru: Multi-task learning for deep text recommendations | |
Xi et al. | Towards open-world recommendation with knowledge augmentation from large language models | |
Zhao et al. | User personality prediction based on topic preference and sentiment analysis using LSTM model | |
Yang et al. | Multitask learning and reinforcement learning for personalized dialog generation: An empirical study | |
CN114969316B (zh) | 一种文本数据处理方法、装置、设备以及介质 | |
Sarkar et al. | Zero-shot multilingual sentiment analysis using hierarchical attentive network and BERT | |
Chen et al. | A survey on heterogeneous one-class collaborative filtering | |
Garbacea et al. | Judge the judges: A large-scale evaluation study of neural language models for online review generation | |
Rao et al. | A knowledge enhanced ensemble learning model for mental disorder detection on social media | |
Zhang et al. | Integrating an attention mechanism and convolution collaborative filtering for document context-aware rating prediction | |
Meddeb et al. | Personalized smart learning recommendation system for arabic users in smart campus | |
Liang et al. | Profiling users for question answering communities via flow-based constrained co-embedding model | |
CN116127175A (zh) | 一种基于多模态特征融合的移动应用分类与推荐方法 | |
Park et al. | An effective 3D text recurrent voting generator for metaverse | |
Li et al. | Learning latent multi-criteria ratings from user reviews for recommendations | |
CN111552881B (zh) | 基于分层变分注意力的序列推荐方法 | |
Wang et al. | M‐DA: A Multifeature Text Data‐Augmentation Model for Improving Accuracy of Chinese Sentiment Analysis | |
Cao et al. | Injecting user identity into pretrained language models for document-level sentiment classification | |
Cheruku et al. | Sentiment classification with modified RoBERTa and recurrent neural networks | |
Zheng et al. | Hierarchical collaborative embedding for context-aware recommendations | |
CN117235264A (zh) | 文本处理方法、装置、设备和计算机可读存储介质 | |
Cao et al. | Fuzzy emotional semantic analysis and automated annotation of scene images | |
Tanuma et al. | Variational Autoencoder-Based Hybrid Recommendation With Poisson Factorization for Modeling Implicit Feedback | |
Zhu et al. | A Winner‐Take‐All Autoencoder Based Pieceswise Linear Model for Nonlinear Regression with Missing Data | |
Chauhan et al. | Mhadig: A multilingual humor-aided multiparty dialogue generation in multimodal conversational setting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |