CN110348469A

CN110348469A - 一种基于DeepWalk网络嵌入模型的用户相似度度量方法

Info

Publication number: CN110348469A
Application number: CN201910424481.1A
Authority: CN
Inventors: 刘靖凯; 何昭水; 谢胜利; 何俊延; 林志洁; 苏渝校
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-10-18

Abstract

本发明公开了一种基于DeepWalk网络嵌入模型的用户相似度度量方法，包括下述步骤：步骤一，对用户‑物品交互矩阵使用DeepWalk模型获取表示向量；DeepWalk模型首先利用随机游走产生用户序列；步骤二，将每一个用户映射到一个向量当中；步骤三，使用SkipGram算法更新每一个用户的映射向量；步骤四，通过计算用户映射向量之间的余弦距离，得到用户之间的相似度；本发明使用可并行运算的方法，且利用哈夫曼编码对相邻用户节点之间的邻域关系进行编码，因此在加快计算速度的同时减少计算量，计算复杂度从O(|V|)下降为O(log|V|)。

Description

一种基于DeepWalk网络嵌入模型的用户相似度度量方法

技术领域

本发明涉及计算机网络技术领域，具体涉及一种基于DeepWalk网络嵌入模型的用户相似度度量方法。

背景技术

通过计算用户相关性来构造用户画像是搭建推荐系统的关键步骤。在购物网站、视频网站等网站的推荐系统的搭建和更新过程中，经常使用用户相关性信息来对用户群体进行分类，进而为用户推荐其感兴趣的商品或视频。

利用用户相关性信息设计的推荐算法有协同过滤算法、随机游走算法和隐因子分解算法等。虽然以上传统的算法在数据集上的表现稳定，但是由于其计算复杂度较高，且在推荐系统的应用场景中数据集的规模越来越巨大，所以这类算法在实际应用中需要耗费大量的时间。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于DeepWalk网络嵌入模型的用户相似度度量方法，该方法使用并行运算，且对用户邻域信息进行哈夫曼编码，加快了计算速度，同时减少了计算量。

本发明的目的通过下述技术方案实现：

一种基于DeepWalk网络嵌入模型的用户相似度度量方法，包括下述步骤：

步骤一，对用户-物品交互矩阵使用DeepWalk模型获取表示向量；DeepWalk模型首先利用随机游走产生用户序列；

步骤二，将每一个用户映射到一个向量当中；

步骤三，使用SkipGram算法更新每一个用户的映射向量；

步骤四，通过计算用户映射向量之间的余弦距离，得到用户之间的相似度。

优选地，所述步骤一具体为：

DeepWalk模型使用截断式随机游走算法生成用户序列其中，V表示用户节点的总数，i表示每一个用户的序号；每一个用户节点生成γ个用户序列，每一个用户序列长度为t，每一组用户序列包含有序的用户节点v₁,v₂,v₃……v_t。

优选地，所述步骤二具体为：

使用映射函数Φ将每一个用户节点映射为一个维度为d的向量；

使用哈夫曼编码对相邻用户节点之间的邻域关系进行编码，哈夫曼编码为将每一个用户节点两两合并，对合并后的节点再进行合并，循环直至合并成一个节点。

优选地，所述步骤三具体为：

使用SkipGram模型计算编码后的用户节点之间的概率值：

其中：

其中b_l是哈夫曼编码中树节点，l表示树节点的序号，Ψ(b_l)是树节点b_l的父亲节点的隐表示，j是用户节点的序号，k是用户节点j邻域的用户节点；

设置SkipGram模型的损失函数为：J(Φ)＝-log P(u_k|Φ(ν_j))，使用梯度下降法迭代更新映射函数Φ(ν_j)，使得其中α为学习率；直至损失函数收敛最终得到映射函数Φ。

优选地，所述步骤四具体为：

使用映射函数将用户节点映射成d维的向量，并对任意两个用户向量求余弦距离：

其中A和B分别为任意两个用户向量，S_AB即A、B之间的余弦距离；

所求得的余弦距离即任意两个用户的相似度。

本发明与现有技术相比具有以下的有益效果：

(1)本发明使用可并行运算的方法，且利用哈夫曼编码对相邻用户节点之间的邻域关系进行编码，因此在加快计算速度的同时减少计算量，计算复杂度从O(|V|)下降为O(log|V|)；

(2)使用了SkipGram模型对用户序列进行建模，可以挖掘更多用户之间的隐含关系；

(3)利用余弦距离度量模型映射得到用户向量，充分保留用户节点之间的邻域信息，使得用户相似度的度量更加精准。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明为一种基于DeepWalk网络嵌入模型的用户相似度度量方法，它涉及一种DeepWalk网络嵌入模型的方法，以解决现有推荐算法中对用户相似度度量准确性不高等问题。基于DeepWalk网络嵌入模型的用户相似度度量方法先使用DeepWalk网络嵌入模型获取用户的表示向量，然后利用用户向量之间的余弦距离来度量用户的相似度。本发明使用并行计算来挖掘用户的潜在特征，因此在度量用户相似度的任务上取得了较高的计算速度和准确性。

具体来说，如图1所示，一种基于DeepWalk网络嵌入模型的用户相似度度量方法，包括下述步骤：

步骤二，将每一个用户映射到一个向量当中；

步骤三，使用SkipGram算法更新每一个用户的映射向量；

使用SkipGram模型计算编码后的用户节点之间的概率值：

其中：

所求得的余弦距离即任意两个用户的相似度。

DeepWalk网络嵌入模型在一个连续向量空间中对节点的社会关系进行编码，将一种用于语言模型的无监督学习方法应用到对用户邻域信息矩阵进行降维之中。DeepWalk网络嵌入模型使用截断式随机游走算法生成用户序列，并用SkipGram模型对序列进行学习。这种方法将深度学习应用到用户邻域关系图的分析当中，构建了鲁棒性的向量表示。同时，由于截断式随机游走能够将计算并行化，所以可以使用分布式计算，用多个设备同时计算用户序列，显著地加快了计算的速度。

通过DeepWalk网络嵌入模型生成的用户向量能够在低维空间中体现出用户之间的相关性。也就是具有相似兴趣点、具有相似特征的用户在低维空间中的余弦距离比较小，所以使用余弦距离来度量用户相似度的准确性较高。

本发明的特点是利用一种可并行的算法将用户-物品交互矩阵转换成能够表征用户邻域关系的用户序列，具体来说，先将具有较高稀疏度的用户-物品交互矩阵转换为一个用户无向图，相当于对用户信息的储存进行压缩，再利用截断式随机游走的方法遍历整个用户无向图，计算用户序列；然后，使用SkipGram模型对用户序列进行建模，学习用户在低维空间的邻域关系；进而得到用户在低维空间的向量表示；最后再计算用户向量之间的余弦距离。因为用户的向量能够在低维空间中通过余弦距离度量用户之间的相关性，所以有效地提高了用户相关性的度量精度。

本发明使用可并行运算的方法，且利用哈夫曼编码对相邻用户节点之间的邻域关系进行编码，因此在加快计算速度的同时减少计算量，计算复杂度从O(|V|)下降为O(log|V|)；使用了SkipGram模型对用户序列进行建模，可以挖掘更多用户之间的隐含关系；利用余弦距离度量模型映射得到用户向量，充分保留用户节点之间的邻域信息，使得用户相似度的度量更加精准。

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于DeepWalk网络嵌入模型的用户相似度度量方法，其特征在于，包括下述步骤：

步骤二，将每一个用户映射到一个向量当中；

步骤三，使用SkipGram算法更新每一个用户的映射向量；

2.根据权利要求1所述的基于DeepWalk网络嵌入模型的用户相似度度量方法，其特征在于，所述步骤一具体为：

DeepWalk模型使用截断式随机游走算法生成用户序列其中，V表示用户节点的总数，i表示每一个用户的序号；每一个用户节点生成γ个用户序列，每一个用户序列长度为t，每一组用户序列包含有序的用户节点v₁，v₂，v₃……v_t。

3.根据权利要求1所述的基于DeepWalk网络嵌入模型的用户相似度度量方法，其特征在于，所述步骤二具体为：

4.根据权利要求1所述的基于DeepWalk网络嵌入模型的用户相似度度量方法，其特征在于，所述步骤三具体为：

使用SkipGram模型计算编码后的用户节点之间的概率值：

其中：

设置SkipGram模型的损失函数为：J(中)＝-log P(u_k|Φ(v_j))，使用梯度下降法迭代更新映射函数中(v_j)，使得其中α为学习率；直至损失函数收敛最终得到映射函数中。

5.根据权利要求1所述的基于DeepWalk网络嵌入模型的用户相似度度量方法，其特征在于，所述步骤四具体为：

所求得的余弦距离即任意两个用户的相似度。