CN111552881A

CN111552881A - 基于分层变分注意力的序列推荐方法

Info

Publication number: CN111552881A
Application number: CN202010385644.2A
Authority: CN
Inventors: 鲜学丰; 杨元峰; 赵朋朋; 孙逊
Original assignee: Suzhou Vocational University
Current assignee: Suzhou Vocational University
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2020-08-18
Anticipated expiration: 2040-05-09
Also published as: CN111552881B

Abstract

本发明是基于分层变分注意力的序列推荐方法，首先将用户和项目的稀疏向量转换为低维空间的密集向量；然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量，获得用户的长期偏好表示；最后再通过另一层变分注意力网络对用户的短期偏好进行建模，以获得最终的混合用户表示。与传统的确定性方法相比，本发明方法包含的随机单元可以实现多模式注意力分布，不仅可以同时捕获用户的长期和短期偏好，而且还具有足够的能力来对用户偏好的不确定性进行建模。

Description

基于分层变分注意力的序列推荐方法

技术领域

本发明涉及数据推荐系统技术领域，具体涉及一种基于分层变分注意力的序列推荐方法。

背景技术

推荐系统在我们的日常生活中，尤其是在社交媒体网站和电子商务中，起着越来越重要的作用。由于用户偏好和喜好的内在动态性和不确定性，序列推荐已成为推荐系统中的一个有吸引力的话题。同时，许多研究者已经进行了很多努力来根据用户过去的交互序列来推荐用户可能喜欢的下一个项目。

早期的方法通常使用单独的模型来分别捕获用户的长期和短期偏好，并最终将它们集成。例如，Rendel等人提出了一种既包含Markov链又包含矩阵分解模型的方法，然后将它们线性组合以用于序列推荐。然而，仅仅为每个用户学习静态向量以捕获他/她的长期偏好是不够的。此外，由于作者使用线性方法固定不同组件的权重，因此这些方法捕获高阶交互的能力有限。

最近，注意力机制已被广泛用于在推荐系统中获得用户偏好和项目特征。例如，Chen等人使用注意力网络来合并其组件（框架或区域）以获得多媒体对象（视频，文本或图像）的表示，同时采用类似的注意力机制来合并交互项以捕获用于推荐的用户表示。Ying等人提出了一个两层的分层注意力网络来对用户的长期和短期偏好进行建模。

尽管取得了成功，但上述模型仍使用确定性的注意力网络，该网络缺乏对用户偏好的不确定性进行建模的能力。在推荐系统中，用户偏好可能会产生很大的不确定性，原因如下：（1）用户可能天生具有丰富多样的兴趣。（2）用户可能会受到周围环境的影响。例如，用户u一开始并不喜欢科幻电影，但是她的男朋友影响了她，然后她慢慢爱上了科幻电影。（3）用户数据的稀疏性使得用户偏好的表示充满了不确定性。Ying等人将注意力向量建模为低维特征空间中的一个点来表示用户的偏好。但是这种方法表示的注意力向量不足以表达用户偏好的不确定性。因为注意力向量（即用户表示）被限制在低维空间中的某个点，其没有误差项的约束，这可能导致不正确的推荐结果。

为了解决上述问题，本发明提出一种新颖的分层变分注意力模型（HVAM）来进行序列推荐。在模型中，本发明首先将用户和项目的稀疏向量转换为低维空间的密集向量。然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量，获得用户的长期偏好表示。通过应用高斯分布表示注意力向量，均值和方差需要保留不同的属性，以使此类表示具有很高的价值。具体而言，均值向量应反映注意力向量在低维特征空间中的位置，方差项应包含其不确定性。最后再通过另一层变分注意力网络来对用户的短期偏好进行建模，以获得最终的混合用户表示。与传统的确定性方法相比，该模型包含的随机单元可以实现多模式注意力分布。总的来说，本发明的模型不仅可以同时捕获用户的长期和短期偏好，而且还具有足够的能力来对用户偏好的不确定性进行建模。

发明内容

本发明的目的在于克服现有技术存在的问题，提供一种基于分层变分注意力的序列推荐方法。

为实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

一种基于分层变分注意力的序列推荐方法，首先将用户和项目的稀疏向量转换为低维空间的密集向量；然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量，获得用户的长期偏好表示；最后再通过另一层变分注意力网络对用户的短期偏好进行建模，以获得最终的混合用户表示。

进一步的，所述变分推断为给定观察变量，近似潜在变量的条件密度，假设一组数据点

，

表示数据点

的真实分布，依据贝叶斯属性获得下列公式：

，其中其中

是潜在变量，

为后验分布，以简单分布

来近似后验分布

，取上述公式两侧的对数，并在等式右边引入

，得到：

，

，然后，在

下求解上式的期望值，如下式所示：

，上述等式左侧的

独立于

，并且

对于

的积分为1，扩展等式右端可以生成：

，由上述公式得到

被转换为ELBO和KL散度之和，其中，

和

为未知的常数，等式右侧的前两项称为ELBO，等式右边的最后一个KL散度是非负的，因此ELBO的上限是

，由于等式中的KL散度和ELBO呈此起彼伏的关系，因此，使KL散度最小化等同于最大化ELBO，通过变分推断将推理问题变成优化问题。

进一步的，采用分层变分注意力模型HVAM获得最终的混合用户表示，其中，分层变分注意力模型HVAM由输入嵌入层、长期变分注意力层和混合变分注意力层组成，所述输入嵌入层将用户稀疏向量和项目稀疏向量分别从用户集合

和项目集合

转换为低维密集向量，然后将用户嵌入和来自用户的长期项目集合

的项目嵌入注入第一层变分注意力网络，以获取注意力向量的均值和方差，为了进一步整合短期偏好，最终的混合用户表示将长期用户表示与短期项目集合

中的项目嵌入相结合，其中均值和方差是通过另一层变分注意力网络来学习。

进一步的，所述输入嵌入层包括用户稀疏向量、长期项目集合

和短期项目集合

，首先使用两个单独的全连接权重矩阵层

和

来构造用户和项目的连续的低维嵌入，其中

和

分别代表用户和项目数，

是嵌入维度，并且仅向完全连接层网络提供用户或项目的单热编码表示，然后，网络为用户

或项目

输出相应的嵌入表示，用

或

表示，即用户集合

的第

行或项目集合

的第

行。

进一步的，所述长期变分注意力层中引入注意力机制；首先需要获取确定性注意力向量，然后基于该向量获得变分注意力向量；具体的，注意力机制通过以下等式计算概率分布：

，

，其中

表示项目

的密集嵌入向量，

和

分别表示模型的权重和偏置项，

是sigmoid函数，利用其来增强非线性能力；首先将每个项目的密集低维嵌入向量

通过多层感知器MLP，以获得预先归一化的分数

；然后，使用用户嵌入

作为上下文向量来实现个性化目标，即将相同项目的不同权重分配给不同用户，并应用softmax函数来计算

和

之间的归一化相似度得分

；最后，将来自

的项目嵌入依据注意力得分相加，以获得确定性注意力向量：

。

进一步的，因确定性注意力向量依然不足以表征用户偏好的不确定性，因此引入变分注意力向量

，并为变分注意力向量

提出两个先验分布；首先，最简单的先验为标准正态分布：

，标准正态分布用于生成复杂的依赖关系；其次，注意力向量必须在原始输入的潜在表示的凸包中，因此施加一个先验，其均值是用户长期项目集中项目嵌入的平均值，即

，从而使该先验无信息性：

，通过变分推断，将

的后验建模为正态分布

，其中参数

和

通过神经网络获得，

表示给定用户的嵌入向量，

表示用户的长期项目集合，对于平均值

，应用恒等转换，即

，对于

，首先通过具有tanh激活的神经层转换

，然后将所得向量线性转换；最后，为了确保该值为正数执行exp激活函数，通过采样

，来获得ELBO的无偏估计，并通过随机梯度下降对其进行优化。

进一步的，由于依据于参数

和

，其采样是不确定的函数，并且不可微分，因此采用重新参数化方式将采样移至输入层，具体是将是将

重新参数化为一个关于

和

的函数，如下式所示：

，其中

是标准高斯变量，其能够引进噪音，进而平稳地获取和优化代表用户长期偏好表示的

。

进一步的，所述混合变分注意力层首先计算给定用户的短期项目集合

中每个项目的重要性，然后汇总这些项目的嵌入和长期用户偏好表示

形成高阶用户偏好表示，具体如下：

，

，其中，当

时,

表示项目

的密集嵌入向量，当

时，

，

和

分别代表模型的权重和偏置项；类似地，在获得注意力得分

之后，通过注意力得分将来自短期项目集合

的项目嵌入和长期用户偏好表示

相加以获得混合的确定性注意力向量：

，其中

是长期用户偏好表示

的权重；以相同的方式，也为用户混合偏好表示

提出两个合理的先验分布，即

和

，其中

表示用户短期项目集的项目嵌入和长期用户偏好表示

的平均值；将

的后验建模为一个正态分布

，其中

表示给定用户的嵌入向量，而

表示用户的短期项目集；然后，通过神经网络获取参数

和

；最后，对高斯噪声

进行采样，并将用户混合偏好表示

重新参数化为

和

的函数如下：

，式中，用户混合偏好表示

不仅考虑了长期和短期偏好中的动态特征，而且还区分了用于预测下一个项目的项目贡献。

进一步的，给定用户的混合偏好表示

，采用传统的潜在因子模型来获取用户对候选项目集的偏好：

，其中

表示候选项目集的密集嵌入，

,

是一个关于

，

和

的函数，其遵循变分推断过程，根据长期变分注意力向量

和混合变分注意力向量

，分层变分注意力模型HVAM的总体训练目标是最小化下论述证据变分下界ELBO：

，其中

表示模型参数集，

表示用于归一化KL散度的退火因子，具体的，KL散度的计算如下：

，

，其中

表示均值和方差的维数，在优化ELBO的第一项时，根据BPR优化准则使用成对排名损失目标函数。

本发明的有益效果是:

本发明方法包含的随机单元可以实现多模式注意力分布，不仅可以同时捕获用户的长期和短期偏好，而且还具有足够的能力来对用户偏好的不确定性进行建模。

附图说明

图1为本发明的分层变分注意力模型HVAM的总体架构图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

一种基于分层变分注意力的序列推荐方法，首先将用户和项目的稀疏向量转换为低维空间的密集向量；然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量，获得用户的长期偏好表示；最后再通过另一层变分注意力网络对用户的短期偏好进行建模，以获得最终的混合用户表示。与传统的确定性方法相比，该模型包含的随机单元可以实现多模式注意力分布，总的来说，该模型不仅可以同时捕获用户的长期和短期偏好，而且还具有足够的能力来对用户偏好的不确定性进行建模。

在建模前，首先进行问题定义：用

和

分别表示用户集合和项目集合，其中M和N分别表示用户和项目的个数，对隐式和序列的用户项反馈数据进行建模，对于每个用户

，用户

的交互（或事务）序列表示为

，其中T表示总时间步长，

是根据时间顺序设置的第

个项目集合，对于固定时间

，项目集合

可以表示用户

的短期偏好，而时间

之前的项目集合表示为

，这可以反映用户

的长期偏好，正式地，给定用户及其交互序列

，本实施例的主要目的是通过挖掘

来推荐用户可能喜欢的下一个项目。

所述变分推断为给定观察变量，近似潜在变量的条件密度，假设一组数据点

，

表示数据点

的真实分布，依据贝叶斯属性获得下列公式：

，其中其中

是潜在变量，

为后验分布，但是后验分布

通常很复杂且难以求解，因此考虑以相对简单的分布

来近似后验分布

，取上述公式两侧的对数，并在等式右边引入

，得到：

，

，然后，在

下求解上式的期望值，如下式所示：

，上述等式左侧的

独立于

，并且

对于

的积分为1，扩展等式右端可以生成：

，由上述公式得到

被转换为ELBO和KL散度（Kullback-Leibler散度）之和，由于不知道样本

的真实分布，但是客观事实是不变的，换句话说，

和

都是未知的常数，等式右侧的前两项称为ELBO，等式右边的最后一个KL散度是非负的，因此ELBO的上限是

，最小化KL散度是本实施例的主要目的，但是要想求得

是很困难的，幸运的是，由于等式中的KL散度和ELBO呈此起彼伏的关系，因此，使KL散度最小化等同于最大化ELBO，通过变分推断将推理问题变成优化问题。

如图1所示，采用分层变分注意力模型HVAM获得最终的混合用户表示，其中，分层变分注意力模型HVAM由输入嵌入层、长期变分注意力层和混合变分注意力层组成，所述输入嵌入层将用户稀疏向量和项目稀疏向量分别从用户集合

和项目集合

所述输入嵌入层包括用户稀疏向量、长期项目集合

和短期项目集合

，但是，类似于自然语言处理中的离散单词符号，单热编码向量（即稀疏向量）总是高维且稀疏的，同时，它们具有最小的表示能力，这种方法在大数据集中计算效率不高，因此，首先使用两个单独的全连接权重矩阵层

和

来构造用户和项目的连续的低维嵌入，其中

和

分别代表用户和项目数，

或项目

输出相应的嵌入表示，用

或

表示，即用户集合

的第

行或项目集合

的第

行。

理想情况下，在本领域中认为一个好的推荐方法应该能够理解用户的长期偏好（例如，用户通常喜欢的物品），并能够探索短期偏好（例如，购买一件物品导致想要另一件物品），本发明的模型可以很好地捕获用户的一般喜好和序列行为，而对于每个用户，学习静态表示不能很好地反映长期用户偏好的进化，此外，不同的项目对同一用户有不同的影响，并且同一项目可能会对不同的用户产生不同的影响，这句话的前半部分是容易理解的，后半部分可以举例解释为用户

由于自己的喜好为自己购买了iphone11，而用户

购买iphone11作为给男/女友或父母的礼物。注意力机制已经被成功应用在许多领域中，例如机器翻译、文档分类等，它们的直觉是人们只关注目标的重要部分，为了满足上述讨论内容，需在长期变分注意力层中引入注意力机制；首先需要获取确定性注意力向量，然后基于该向量获得变分注意力向量；具体的，注意力机制通过以下等式计算概率分布：

，

，其中

表示项目

的密集嵌入向量，

和

分别表示模型的权重和偏置项，

通过多层感知器MLP，以获得预先归一化的分数

；然后，使用用户嵌入

和

之间的归一化相似度得分

；最后，将来自

。

因确定性注意力向量依然不足以表征用户偏好的不确定性，因此引入变分注意力向量

，并为变分注意力向量

提出两个合理的先验分布；首先，最简单的先验为标准正态分布：

，从而使该先验无信息性：

，通过变分推断，将

的后验建模为正态分布

，其中参数

和

通过神经网络获得，

表示给定用户的嵌入向量，

表示用户的长期项目集合，对于平均值

，应用恒等转换，即

，恒等转换保留了“注意力”的精神，对于

，首先通过具有tanh激活的神经层转换

由于依据于参数

和

重新参数化为一个关于

和

的函数，如下式所示：

，其中

。

在讨论用户的长期偏好时，同样不能忽略用户的序列行为，即短期偏好，短期偏好对于预测下一个项目至关重要，但是，许多先前的方法没有很好的处理项目属性对下一个项目预测的影响，这极大的限制了模型的性能，类似于对用户长期偏好进行建模，本实施例中同样依靠注意力机制以获取特定的注意力向量，然后获取相应的变分注意力向量。所述混合变分注意力层首先计算给定用户的短期项目集合

形成高阶用户偏好表示，具体如下：

，

，其中，当

时,

表示项目

的密集嵌入向量，当

时，

，

和

分别代表模型的权重和偏置项；类似地，在获得注意力得分

之后，通过注意力得分将来自短期项目集合

的项目嵌入和长期用户偏好表示

相加以获得混合的确定性注意力向量：

，其中

是长期用户偏好表示

的权重；以相同的方式，也为用户混合偏好表示

提出两个合理的先验分布，即

和

，其中

表示用户短期项目集的项目嵌入和长期用户偏好表示

的平均值；将

的后验建模为一个正态分布

，其中

表示给定用户的嵌入向量，而

表示用户的短期项目集；然后，与前述获得参数

和

相类似的方法，通过神经网络获取参数

和

；最后，对高斯噪声

进行采样，并将用户混合偏好表示

重新参数化为

和

的函数如下：

，式中，用户混合偏好表示

不仅考虑了长期和短期偏好中的动态特征，而且还区分了用于预测下一个项目的项目贡献。此外，通过使用变分注意力网络将注意力向量建模为随机变量，可以将注意力向量表示为潜在特征空间中的密度而不是固定点。因此，注意力向量的高斯分布的方差可以测量与用户的偏好表示相关的不确定性。

给定用户的混合偏好表示

，其中

表示候选项目集的密集嵌入，

,

是一个关于

，

和

的函数，其遵循变分推断过程，根据长期变分注意力向量

和混合变分注意力向量

，其中

表示模型参数集，

，

，其中

表示均值和方差的维数，本发明提出的分层变分注意力模型HVAM的主要目的是获得用户的偏好表示并为用户提供候选项目的排序列表,而不是重构输入，因此，在优化ELBO的第一项时，根据BPR优化准则使用成对排名损失目标函数。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分层变分注意力的序列推荐方法，其特征在于，首先将用户和项目的稀疏向量转换为低维空间的密集向量；然后通过一层变分注意力网络使用变分推断将注意力向量建模为随机变量，获得用户的长期偏好表示；最后再通过另一层变分注意力网络对用户的短期偏好进行建模，以获得最终的混合用户表示。

2.根据权利要求1所述的基于分层变分注意力的序列推荐方法，其特征在于，所述变分推断为给定观察变量，近似潜在变量的条件密度，假设一组数据点

，

表示数据点

的真实分布，依据贝叶斯属性获得下列公式：

，其中其中

是潜在变量，

为后验分布，以简单分布

来近似后验分布

，取上述公式两侧的对数，并在等式右边引入

，得到：

，

，然后，在

下求解上式的期望值，如下式所示：

，上述等式左侧的

独立于

，并且

对于

的积分为1，扩展等式右端可以生成：

，由上述公式得到

被转换为ELBO和KL散度之和，其中，

和

3.根据权利要求2所述的基于分层变分注意力的序列推荐方法，其特征在于，采用分层变分注意力模型HVAM获得最终的混合用户表示，其中，分层变分注意力模型HVAM由输入嵌入层、长期变分注意力层和混合变分注意力层组成，所述输入嵌入层将用户稀疏向量和项目稀疏向量分别从用户集合

和项目集合

4.根据权利要求3所述的基于分层变分注意力的序列推荐方法，其特征在于，所述输入嵌入层包括用户稀疏向量、长期项目集合

和短期项目集合

，首先使用两个单独的全连接权重矩阵层

和

来构造用户和项目的连续的低维嵌入，其中

和

分别代表用户和项目数，

或项目

输出相应的嵌入表示，用

或

表示，即用户集合

的第

行或项目集合

的第

行。

5.根据权利要求3所述的基于分层变分注意力的序列推荐方法，其特征在于，所述长期变分注意力层中引入注意力机制；首先需要获取确定性注意力向量，然后基于该向量获得变分注意力向量；具体的，注意力机制通过以下等式计算概率分布：

，

，其中

表示项目

的密集嵌入向量，

和

分别表示模型的权重和偏置项，

通过多层感知器MLP，以获得预先归一化的分数

；然后，使用用户嵌入

和

之间的归一化相似度得分

；最后，将来自

。

6.根据权利要求5所述的基于分层变分注意力的序列推荐方法，其特征在于，因确定性注意力向量依然不足以表征用户偏好的不确定性，因此引入变分注意力向量

，并为变分注意力向量

提出两个先验分布；首先，最简单的先验为标准正态分布：

，从而使该先验无信息性：

，通过变分推断，将

的后验建模为正态分布

，其中参数

和

通过神经网络获得，

表示给定用户的嵌入向量，

表示用户的长期项目集合，对于平均值

，应用恒等转换，即

，对于

，首先通过具有tanh激活的神经层转换

7.根据权利要求6所述的基于分层变分注意力的序列推荐方法，其特征在于，由于依据于参数

和

重新参数化为一个关于

和

的函数，如下式所示：

，其中

。

8.根据权利要求3所述的基于分层变分注意力的序列推荐方法，其特征在于，所述混合变分注意力层首先计算给定用户的短期项目集合

形成高阶用户偏好表示，具体如下：

，

，其中，当

时,

表示项目

的密集嵌入向量，当

时，

，

和

分别代表模型的权重和偏置项；类似地，在获得注意力得分

之后，通过注意力得分将来自短期项目集合

的项目嵌入和长期用户偏好表示

相加以获得混合的确定性注意力向量：

，其中

是长期用户偏好表示

的权重；以相同的方式，也为用户混合偏好表示

提出两个合理的先验分布，即

和

，其中

表示用户短期项目集的项目嵌入和长期用户偏好表示

的平均值；将

的后验建模为一个正态分布

，其中

表示给定用户的嵌入向量，而

表示用户的短期项目集；然后，通过神经网络获取参数

和

；最后，对高斯噪声

进行采样，并将用户混合偏好表示

重新参数化为

和

的函数如下：

，式中，用户混合偏好表示

9.根据权利要求8所述的基于分层变分注意力的序列推荐方法，其特征在于，给定用户的混合偏好表示

，其中

表示候选项目集的密集嵌入，

,

是一个关于

，

和

的函数，其遵循变分推断过程，根据长期变分注意力向量

和混合变分注意力向量

，其中

表示模型参数集，

，

，其中