CN110348469A - 一种基于DeepWalk网络嵌入模型的用户相似度度量方法 - Google Patents
一种基于DeepWalk网络嵌入模型的用户相似度度量方法 Download PDFInfo
- Publication number
- CN110348469A CN110348469A CN201910424481.1A CN201910424481A CN110348469A CN 110348469 A CN110348469 A CN 110348469A CN 201910424481 A CN201910424481 A CN 201910424481A CN 110348469 A CN110348469 A CN 110348469A
- Authority
- CN
- China
- Prior art keywords
- user
- node
- deepwalk
- vector
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 238000005295 random walk Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims abstract description 7
- 230000002452 interceptive effect Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 12
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000012821 model calculation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000005259 measurement Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于DeepWalk网络嵌入模型的用户相似度度量方法,包括下述步骤:步骤一,对用户‑物品交互矩阵使用DeepWalk模型获取表示向量;DeepWalk模型首先利用随机游走产生用户序列;步骤二,将每一个用户映射到一个向量当中;步骤三,使用SkipGram算法更新每一个用户的映射向量;步骤四,通过计算用户映射向量之间的余弦距离,得到用户之间的相似度;本发明使用可并行运算的方法,且利用哈夫曼编码对相邻用户节点之间的邻域关系进行编码,因此在加快计算速度的同时减少计算量,计算复杂度从O(|V|)下降为O(log|V|)。
Description
技术领域
本发明涉及计算机网络技术领域,具体涉及一种基于DeepWalk网络嵌入模型的用户相似度度量方法。
背景技术
通过计算用户相关性来构造用户画像是搭建推荐系统的关键步骤。在购物网站、视频网站等网站的推荐系统的搭建和更新过程中,经常使用用户相关性信息来对用户群体进行分类,进而为用户推荐其感兴趣的商品或视频。
利用用户相关性信息设计的推荐算法有协同过滤算法、随机游走算法和隐因子分解算法等。虽然以上传统的算法在数据集上的表现稳定,但是由于其计算复杂度较高,且在推荐系统的应用场景中数据集的规模越来越巨大,所以这类算法在实际应用中需要耗费大量的时间。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于DeepWalk网络嵌入模型的用户相似度度量方法,该方法使用并行运算,且对用户邻域信息进行哈夫曼编码,加快了计算速度,同时减少了计算量。
本发明的目的通过下述技术方案实现:
一种基于DeepWalk网络嵌入模型的用户相似度度量方法,包括下述步骤:
步骤一,对用户-物品交互矩阵使用DeepWalk模型获取表示向量;DeepWalk模型首先利用随机游走产生用户序列;
步骤二,将每一个用户映射到一个向量当中;
步骤三,使用SkipGram算法更新每一个用户的映射向量;
步骤四,通过计算用户映射向量之间的余弦距离,得到用户之间的相似度。
优选地,所述步骤一具体为:
DeepWalk模型使用截断式随机游走算法生成用户序列其中,V表示用户节点的总数,i表示每一个用户的序号;每一个用户节点生成γ个用户序列,每一个用户序列长度为t,每一组用户序列包含有序的用户节点v1,v2,v3……vt。
优选地,所述步骤二具体为:
使用映射函数Φ将每一个用户节点映射为一个维度为d的向量;
使用哈夫曼编码对相邻用户节点之间的邻域关系进行编码,哈夫曼编码为将每一个用户节点两两合并,对合并后的节点再进行合并,循环直至合并成一个节点。
优选地,所述步骤三具体为:
使用SkipGram模型计算编码后的用户节点之间的概率值:
其中:
其中bl是哈夫曼编码中树节点,l表示树节点的序号,Ψ(bl)是树节点bl的父亲节点的隐表示,j是用户节点的序号,k是用户节点j邻域的用户节点;
设置SkipGram模型的损失函数为:J(Φ)=-log P(uk|Φ(νj)),使用梯度下降法迭代更新映射函数Φ(νj),使得其中α为学习率;直至损失函数收敛最终得到映射函数Φ。
优选地,所述步骤四具体为:
使用映射函数将用户节点映射成d维的向量,并对任意两个用户向量求余弦距离:
其中A和B分别为任意两个用户向量,SAB即A、B之间的余弦距离;
所求得的余弦距离即任意两个用户的相似度。
本发明与现有技术相比具有以下的有益效果:
(1)本发明使用可并行运算的方法,且利用哈夫曼编码对相邻用户节点之间的邻域关系进行编码,因此在加快计算速度的同时减少计算量,计算复杂度从O(|V|)下降为O(log|V|);
(2)使用了SkipGram模型对用户序列进行建模,可以挖掘更多用户之间的隐含关系;
(3)利用余弦距离度量模型映射得到用户向量,充分保留用户节点之间的邻域信息,使得用户相似度的度量更加精准。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明为一种基于DeepWalk网络嵌入模型的用户相似度度量方法,它涉及一种DeepWalk网络嵌入模型的方法,以解决现有推荐算法中对用户相似度度量准确性不高等问题。基于DeepWalk网络嵌入模型的用户相似度度量方法先使用DeepWalk网络嵌入模型获取用户的表示向量,然后利用用户向量之间的余弦距离来度量用户的相似度。本发明使用并行计算来挖掘用户的潜在特征,因此在度量用户相似度的任务上取得了较高的计算速度和准确性。
具体来说,如图1所示,一种基于DeepWalk网络嵌入模型的用户相似度度量方法,包括下述步骤:
步骤一,对用户-物品交互矩阵使用DeepWalk模型获取表示向量;DeepWalk模型首先利用随机游走产生用户序列;
DeepWalk模型使用截断式随机游走算法生成用户序列其中,V表示用户节点的总数,i表示每一个用户的序号;每一个用户节点生成γ个用户序列,每一个用户序列长度为t,每一组用户序列包含有序的用户节点v1,v2,v3……vt。
步骤二,将每一个用户映射到一个向量当中;
使用映射函数Φ将每一个用户节点映射为一个维度为d的向量;
使用哈夫曼编码对相邻用户节点之间的邻域关系进行编码,哈夫曼编码为将每一个用户节点两两合并,对合并后的节点再进行合并,循环直至合并成一个节点。
步骤三,使用SkipGram算法更新每一个用户的映射向量;
使用SkipGram模型计算编码后的用户节点之间的概率值:
其中:
其中bl是哈夫曼编码中树节点,l表示树节点的序号,Ψ(bl)是树节点bl的父亲节点的隐表示,j是用户节点的序号,k是用户节点j邻域的用户节点;
设置SkipGram模型的损失函数为:J(Φ)=-log P(uk|Φ(νj)),使用梯度下降法迭代更新映射函数Φ(νj),使得其中α为学习率;直至损失函数收敛最终得到映射函数Φ。
步骤四,通过计算用户映射向量之间的余弦距离,得到用户之间的相似度。
使用映射函数将用户节点映射成d维的向量,并对任意两个用户向量求余弦距离:
其中A和B分别为任意两个用户向量,SAB即A、B之间的余弦距离;
所求得的余弦距离即任意两个用户的相似度。
DeepWalk网络嵌入模型在一个连续向量空间中对节点的社会关系进行编码,将一种用于语言模型的无监督学习方法应用到对用户邻域信息矩阵进行降维之中。DeepWalk网络嵌入模型使用截断式随机游走算法生成用户序列,并用SkipGram模型对序列进行学习。这种方法将深度学习应用到用户邻域关系图的分析当中,构建了鲁棒性的向量表示。同时,由于截断式随机游走能够将计算并行化,所以可以使用分布式计算,用多个设备同时计算用户序列,显著地加快了计算的速度。
通过DeepWalk网络嵌入模型生成的用户向量能够在低维空间中体现出用户之间的相关性。也就是具有相似兴趣点、具有相似特征的用户在低维空间中的余弦距离比较小,所以使用余弦距离来度量用户相似度的准确性较高。
本发明的特点是利用一种可并行的算法将用户-物品交互矩阵转换成能够表征用户邻域关系的用户序列,具体来说,先将具有较高稀疏度的用户-物品交互矩阵转换为一个用户无向图,相当于对用户信息的储存进行压缩,再利用截断式随机游走的方法遍历整个用户无向图,计算用户序列;然后,使用SkipGram模型对用户序列进行建模,学习用户在低维空间的邻域关系;进而得到用户在低维空间的向量表示;最后再计算用户向量之间的余弦距离。因为用户的向量能够在低维空间中通过余弦距离度量用户之间的相关性,所以有效地提高了用户相关性的度量精度。
本发明使用可并行运算的方法,且利用哈夫曼编码对相邻用户节点之间的邻域关系进行编码,因此在加快计算速度的同时减少计算量,计算复杂度从O(|V|)下降为O(log|V|);使用了SkipGram模型对用户序列进行建模,可以挖掘更多用户之间的隐含关系;利用余弦距离度量模型映射得到用户向量,充分保留用户节点之间的邻域信息,使得用户相似度的度量更加精准。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种基于DeepWalk网络嵌入模型的用户相似度度量方法,其特征在于,包括下述步骤:
步骤一,对用户-物品交互矩阵使用DeepWalk模型获取表示向量;DeepWalk模型首先利用随机游走产生用户序列;
步骤二,将每一个用户映射到一个向量当中;
步骤三,使用SkipGram算法更新每一个用户的映射向量;
步骤四,通过计算用户映射向量之间的余弦距离,得到用户之间的相似度。
2.根据权利要求1所述的基于DeepWalk网络嵌入模型的用户相似度度量方法,其特征在于,所述步骤一具体为:
DeepWalk模型使用截断式随机游走算法生成用户序列其中,V表示用户节点的总数,i表示每一个用户的序号;每一个用户节点生成γ个用户序列,每一个用户序列长度为t,每一组用户序列包含有序的用户节点v1,v2,v3……vt。
3.根据权利要求1所述的基于DeepWalk网络嵌入模型的用户相似度度量方法,其特征在于,所述步骤二具体为:
使用映射函数Φ将每一个用户节点映射为一个维度为d的向量;
使用哈夫曼编码对相邻用户节点之间的邻域关系进行编码,哈夫曼编码为将每一个用户节点两两合并,对合并后的节点再进行合并,循环直至合并成一个节点。
4.根据权利要求1所述的基于DeepWalk网络嵌入模型的用户相似度度量方法,其特征在于,所述步骤三具体为:
使用SkipGram模型计算编码后的用户节点之间的概率值:
其中:
其中bl是哈夫曼编码中树节点,l表示树节点的序号,ψ(bl)是树节点bl的父亲节点的隐表示,j是用户节点的序号,k是用户节点j邻域的用户节点;
设置SkipGram模型的损失函数为:J(中)=-log P(uk|Φ(vj)),使用梯度下降法迭代更新映射函数中(vj),使得其中α为学习率;直至损失函数收敛最终得到映射函数中。
5.根据权利要求1所述的基于DeepWalk网络嵌入模型的用户相似度度量方法,其特征在于,所述步骤四具体为:
使用映射函数将用户节点映射成d维的向量,并对任意两个用户向量求余弦距离:
其中A和B分别为任意两个用户向量,SAB即A、B之间的余弦距离;
所求得的余弦距离即任意两个用户的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910424481.1A CN110348469A (zh) | 2019-05-21 | 2019-05-21 | 一种基于DeepWalk网络嵌入模型的用户相似度度量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910424481.1A CN110348469A (zh) | 2019-05-21 | 2019-05-21 | 一种基于DeepWalk网络嵌入模型的用户相似度度量方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110348469A true CN110348469A (zh) | 2019-10-18 |
Family
ID=68173949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910424481.1A Pending CN110348469A (zh) | 2019-05-21 | 2019-05-21 | 一种基于DeepWalk网络嵌入模型的用户相似度度量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348469A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079058A (zh) * | 2019-12-16 | 2020-04-28 | 武汉大学 | 一种基于节点重要性的网络节点表示方法及装置 |
CN115757984A (zh) * | 2022-11-18 | 2023-03-07 | 青海师范大学 | 基于深度游走和物品协同过滤的融合推荐方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930318A (zh) * | 2016-04-11 | 2016-09-07 | 深圳大学 | 一种词向量训练方法及系统 |
CN106897254A (zh) * | 2015-12-18 | 2017-06-27 | 清华大学 | 一种网络表示学习方法 |
CN109447261A (zh) * | 2018-10-09 | 2019-03-08 | 北京邮电大学 | 一种基于多阶邻近相似度的网络表示学习的方法 |
US20190130264A1 (en) * | 2017-11-02 | 2019-05-02 | Palo Alto Research Center Incorporated | Deep graph representation learning |
CN109710921A (zh) * | 2018-12-06 | 2019-05-03 | 深圳市中农易讯信息技术有限公司 | 词语相似度的计算方法、装置、计算机设备及存储介质 |
-
2019
- 2019-05-21 CN CN201910424481.1A patent/CN110348469A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897254A (zh) * | 2015-12-18 | 2017-06-27 | 清华大学 | 一种网络表示学习方法 |
CN105930318A (zh) * | 2016-04-11 | 2016-09-07 | 深圳大学 | 一种词向量训练方法及系统 |
US20190130264A1 (en) * | 2017-11-02 | 2019-05-02 | Palo Alto Research Center Incorporated | Deep graph representation learning |
CN109447261A (zh) * | 2018-10-09 | 2019-03-08 | 北京邮电大学 | 一种基于多阶邻近相似度的网络表示学习的方法 |
CN109710921A (zh) * | 2018-12-06 | 2019-05-03 | 深圳市中农易讯信息技术有限公司 | 词语相似度的计算方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
ZHIPENG JIN ET AL.: ""Predicting User’s Multi-Interests With Network Embedding in Health-Related Topics"", 《2016 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 * |
赵超等: ""基于SkipGram 模型的链路预测方法"", 《计算机应用与软件》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079058A (zh) * | 2019-12-16 | 2020-04-28 | 武汉大学 | 一种基于节点重要性的网络节点表示方法及装置 |
CN115757984A (zh) * | 2022-11-18 | 2023-03-07 | 青海师范大学 | 基于深度游走和物品协同过滤的融合推荐方法 |
CN115757984B (zh) * | 2022-11-18 | 2023-06-20 | 青海师范大学 | 基于深度游走和物品协同过滤的融合推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107145977B (zh) | 一种对在线社交网络用户进行结构化属性推断的方法 | |
Xu et al. | Quality assessment of building footprint data using a deep autoencoder network | |
CN107480694B (zh) | 基于Spark平台采用两次评价的加权选择集成三支聚类方法 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
Lin et al. | Heterogeneous knowledge-based attentive neural networks for short-term music recommendations | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN111191002B (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN114048350A (zh) | 一种基于细粒度跨模态对齐模型的文本-视频检索方法 | |
CN109598586A (zh) | 一种基于注意力模型的推荐方法 | |
CN113822776B (zh) | 课程推荐方法、装置、设备及存储介质 | |
CN105760649A (zh) | 一种面向大数据的可信度量方法 | |
CN109740106A (zh) | 基于图卷积神经网络的大规模网络介数逼近方法、存储装置及存储介质 | |
CN112417289A (zh) | 一种基于深度聚类的资讯信息智能推荐方法 | |
CN114020999A (zh) | 一种电影社交网络的社区结构检测方法及系统 | |
CN110348469A (zh) | 一种基于DeepWalk网络嵌入模型的用户相似度度量方法 | |
CN106649731A (zh) | 一种基于大规模属性网络的节点相似性搜索方法 | |
CN111862260A (zh) | 基于跨域对偶生成式对抗网络的偏见消除方法与装置 | |
CN108363685A (zh) | 基于递归变分自编码模型的自媒体数据文本表示方法 | |
CN112685452B (zh) | 企业案例检索方法、装置、设备和存储介质 | |
CN117312680A (zh) | 一种基于用户-实体子图对比学习的资源推荐方法 | |
An et al. | Strp-dbscan: A parallel dbscan algorithm based on spatial-temporal random partitioning for clustering trajectory data | |
CN110399382A (zh) | 基于云模型及粗糙集的民航主数据识别方法及系统 | |
Zhang et al. | Small files storing and computing optimization in Hadoop parallel rendering | |
Esuli et al. | Traj2user: exploiting embeddings for computing similarity of users mobile behavior | |
CN113420680A (zh) | 一种基于gru注意力的遥感影像区域关注与文本生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191018 |