CN110348469A - 一种基于DeepWalk网络嵌入模型的用户相似度度量方法 - Google Patents

一种基于DeepWalk网络嵌入模型的用户相似度度量方法 Download PDF

Info

Publication number
CN110348469A
CN110348469A CN201910424481.1A CN201910424481A CN110348469A CN 110348469 A CN110348469 A CN 110348469A CN 201910424481 A CN201910424481 A CN 201910424481A CN 110348469 A CN110348469 A CN 110348469A
Authority
CN
China
Prior art keywords
user
node
deepwalk
vector
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910424481.1A
Other languages
English (en)
Inventor
刘靖凯
何昭水
谢胜利
何俊延
林志洁
苏渝校
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910424481.1A priority Critical patent/CN110348469A/zh
Publication of CN110348469A publication Critical patent/CN110348469A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于DeepWalk网络嵌入模型的用户相似度度量方法,包括下述步骤:步骤一,对用户‑物品交互矩阵使用DeepWalk模型获取表示向量;DeepWalk模型首先利用随机游走产生用户序列;步骤二,将每一个用户映射到一个向量当中;步骤三,使用SkipGram算法更新每一个用户的映射向量;步骤四,通过计算用户映射向量之间的余弦距离,得到用户之间的相似度;本发明使用可并行运算的方法,且利用哈夫曼编码对相邻用户节点之间的邻域关系进行编码,因此在加快计算速度的同时减少计算量,计算复杂度从O(|V|)下降为O(log|V|)。

Description

一种基于DeepWalk网络嵌入模型的用户相似度度量方法
技术领域
本发明涉及计算机网络技术领域,具体涉及一种基于DeepWalk网络嵌入模型的用户相似度度量方法。
背景技术
通过计算用户相关性来构造用户画像是搭建推荐系统的关键步骤。在购物网站、视频网站等网站的推荐系统的搭建和更新过程中,经常使用用户相关性信息来对用户群体进行分类,进而为用户推荐其感兴趣的商品或视频。
利用用户相关性信息设计的推荐算法有协同过滤算法、随机游走算法和隐因子分解算法等。虽然以上传统的算法在数据集上的表现稳定,但是由于其计算复杂度较高,且在推荐系统的应用场景中数据集的规模越来越巨大,所以这类算法在实际应用中需要耗费大量的时间。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于DeepWalk网络嵌入模型的用户相似度度量方法,该方法使用并行运算,且对用户邻域信息进行哈夫曼编码,加快了计算速度,同时减少了计算量。
本发明的目的通过下述技术方案实现:
一种基于DeepWalk网络嵌入模型的用户相似度度量方法,包括下述步骤:
步骤一,对用户-物品交互矩阵使用DeepWalk模型获取表示向量;DeepWalk模型首先利用随机游走产生用户序列;
步骤二,将每一个用户映射到一个向量当中;
步骤三,使用SkipGram算法更新每一个用户的映射向量;
步骤四,通过计算用户映射向量之间的余弦距离,得到用户之间的相似度。
优选地,所述步骤一具体为:
DeepWalk模型使用截断式随机游走算法生成用户序列其中,V表示用户节点的总数,i表示每一个用户的序号;每一个用户节点生成γ个用户序列,每一个用户序列长度为t,每一组用户序列包含有序的用户节点v1,v2,v3……vt
优选地,所述步骤二具体为:
使用映射函数Φ将每一个用户节点映射为一个维度为d的向量;
使用哈夫曼编码对相邻用户节点之间的邻域关系进行编码,哈夫曼编码为将每一个用户节点两两合并,对合并后的节点再进行合并,循环直至合并成一个节点。
优选地,所述步骤三具体为:
使用SkipGram模型计算编码后的用户节点之间的概率值:
其中:
其中bl是哈夫曼编码中树节点,l表示树节点的序号,Ψ(bl)是树节点bl的父亲节点的隐表示,j是用户节点的序号,k是用户节点j邻域的用户节点;
设置SkipGram模型的损失函数为:J(Φ)=-log P(uk|Φ(νj)),使用梯度下降法迭代更新映射函数Φ(νj),使得其中α为学习率;直至损失函数收敛最终得到映射函数Φ。
优选地,所述步骤四具体为:
使用映射函数将用户节点映射成d维的向量,并对任意两个用户向量求余弦距离:
其中A和B分别为任意两个用户向量,SAB即A、B之间的余弦距离;
所求得的余弦距离即任意两个用户的相似度。
本发明与现有技术相比具有以下的有益效果:
(1)本发明使用可并行运算的方法,且利用哈夫曼编码对相邻用户节点之间的邻域关系进行编码,因此在加快计算速度的同时减少计算量,计算复杂度从O(|V|)下降为O(log|V|);
(2)使用了SkipGram模型对用户序列进行建模,可以挖掘更多用户之间的隐含关系;
(3)利用余弦距离度量模型映射得到用户向量,充分保留用户节点之间的邻域信息,使得用户相似度的度量更加精准。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明为一种基于DeepWalk网络嵌入模型的用户相似度度量方法,它涉及一种DeepWalk网络嵌入模型的方法,以解决现有推荐算法中对用户相似度度量准确性不高等问题。基于DeepWalk网络嵌入模型的用户相似度度量方法先使用DeepWalk网络嵌入模型获取用户的表示向量,然后利用用户向量之间的余弦距离来度量用户的相似度。本发明使用并行计算来挖掘用户的潜在特征,因此在度量用户相似度的任务上取得了较高的计算速度和准确性。
具体来说,如图1所示,一种基于DeepWalk网络嵌入模型的用户相似度度量方法,包括下述步骤:
步骤一,对用户-物品交互矩阵使用DeepWalk模型获取表示向量;DeepWalk模型首先利用随机游走产生用户序列;
DeepWalk模型使用截断式随机游走算法生成用户序列其中,V表示用户节点的总数,i表示每一个用户的序号;每一个用户节点生成γ个用户序列,每一个用户序列长度为t,每一组用户序列包含有序的用户节点v1,v2,v3……vt
步骤二,将每一个用户映射到一个向量当中;
使用映射函数Φ将每一个用户节点映射为一个维度为d的向量;
使用哈夫曼编码对相邻用户节点之间的邻域关系进行编码,哈夫曼编码为将每一个用户节点两两合并,对合并后的节点再进行合并,循环直至合并成一个节点。
步骤三,使用SkipGram算法更新每一个用户的映射向量;
使用SkipGram模型计算编码后的用户节点之间的概率值:
其中:
其中bl是哈夫曼编码中树节点,l表示树节点的序号,Ψ(bl)是树节点bl的父亲节点的隐表示,j是用户节点的序号,k是用户节点j邻域的用户节点;
设置SkipGram模型的损失函数为:J(Φ)=-log P(uk|Φ(νj)),使用梯度下降法迭代更新映射函数Φ(νj),使得其中α为学习率;直至损失函数收敛最终得到映射函数Φ。
步骤四,通过计算用户映射向量之间的余弦距离,得到用户之间的相似度。
使用映射函数将用户节点映射成d维的向量,并对任意两个用户向量求余弦距离:
其中A和B分别为任意两个用户向量,SAB即A、B之间的余弦距离;
所求得的余弦距离即任意两个用户的相似度。
DeepWalk网络嵌入模型在一个连续向量空间中对节点的社会关系进行编码,将一种用于语言模型的无监督学习方法应用到对用户邻域信息矩阵进行降维之中。DeepWalk网络嵌入模型使用截断式随机游走算法生成用户序列,并用SkipGram模型对序列进行学习。这种方法将深度学习应用到用户邻域关系图的分析当中,构建了鲁棒性的向量表示。同时,由于截断式随机游走能够将计算并行化,所以可以使用分布式计算,用多个设备同时计算用户序列,显著地加快了计算的速度。
通过DeepWalk网络嵌入模型生成的用户向量能够在低维空间中体现出用户之间的相关性。也就是具有相似兴趣点、具有相似特征的用户在低维空间中的余弦距离比较小,所以使用余弦距离来度量用户相似度的准确性较高。
本发明的特点是利用一种可并行的算法将用户-物品交互矩阵转换成能够表征用户邻域关系的用户序列,具体来说,先将具有较高稀疏度的用户-物品交互矩阵转换为一个用户无向图,相当于对用户信息的储存进行压缩,再利用截断式随机游走的方法遍历整个用户无向图,计算用户序列;然后,使用SkipGram模型对用户序列进行建模,学习用户在低维空间的邻域关系;进而得到用户在低维空间的向量表示;最后再计算用户向量之间的余弦距离。因为用户的向量能够在低维空间中通过余弦距离度量用户之间的相关性,所以有效地提高了用户相关性的度量精度。
本发明使用可并行运算的方法,且利用哈夫曼编码对相邻用户节点之间的邻域关系进行编码,因此在加快计算速度的同时减少计算量,计算复杂度从O(|V|)下降为O(log|V|);使用了SkipGram模型对用户序列进行建模,可以挖掘更多用户之间的隐含关系;利用余弦距离度量模型映射得到用户向量,充分保留用户节点之间的邻域信息,使得用户相似度的度量更加精准。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于DeepWalk网络嵌入模型的用户相似度度量方法,其特征在于,包括下述步骤:
步骤一,对用户-物品交互矩阵使用DeepWalk模型获取表示向量;DeepWalk模型首先利用随机游走产生用户序列;
步骤二,将每一个用户映射到一个向量当中;
步骤三,使用SkipGram算法更新每一个用户的映射向量;
步骤四,通过计算用户映射向量之间的余弦距离,得到用户之间的相似度。
2.根据权利要求1所述的基于DeepWalk网络嵌入模型的用户相似度度量方法,其特征在于,所述步骤一具体为:
DeepWalk模型使用截断式随机游走算法生成用户序列其中,V表示用户节点的总数,i表示每一个用户的序号;每一个用户节点生成γ个用户序列,每一个用户序列长度为t,每一组用户序列包含有序的用户节点v1,v2,v3……vt
3.根据权利要求1所述的基于DeepWalk网络嵌入模型的用户相似度度量方法,其特征在于,所述步骤二具体为:
使用映射函数Φ将每一个用户节点映射为一个维度为d的向量;
使用哈夫曼编码对相邻用户节点之间的邻域关系进行编码,哈夫曼编码为将每一个用户节点两两合并,对合并后的节点再进行合并,循环直至合并成一个节点。
4.根据权利要求1所述的基于DeepWalk网络嵌入模型的用户相似度度量方法,其特征在于,所述步骤三具体为:
使用SkipGram模型计算编码后的用户节点之间的概率值:
其中:
其中bl是哈夫曼编码中树节点,l表示树节点的序号,ψ(bl)是树节点bl的父亲节点的隐表示,j是用户节点的序号,k是用户节点j邻域的用户节点;
设置SkipGram模型的损失函数为:J(中)=-log P(uk|Φ(vj)),使用梯度下降法迭代更新映射函数中(vj),使得其中α为学习率;直至损失函数收敛最终得到映射函数中。
5.根据权利要求1所述的基于DeepWalk网络嵌入模型的用户相似度度量方法,其特征在于,所述步骤四具体为:
使用映射函数将用户节点映射成d维的向量,并对任意两个用户向量求余弦距离:
其中A和B分别为任意两个用户向量,SAB即A、B之间的余弦距离;
所求得的余弦距离即任意两个用户的相似度。
CN201910424481.1A 2019-05-21 2019-05-21 一种基于DeepWalk网络嵌入模型的用户相似度度量方法 Pending CN110348469A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910424481.1A CN110348469A (zh) 2019-05-21 2019-05-21 一种基于DeepWalk网络嵌入模型的用户相似度度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910424481.1A CN110348469A (zh) 2019-05-21 2019-05-21 一种基于DeepWalk网络嵌入模型的用户相似度度量方法

Publications (1)

Publication Number Publication Date
CN110348469A true CN110348469A (zh) 2019-10-18

Family

ID=68173949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910424481.1A Pending CN110348469A (zh) 2019-05-21 2019-05-21 一种基于DeepWalk网络嵌入模型的用户相似度度量方法

Country Status (1)

Country Link
CN (1) CN110348469A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079058A (zh) * 2019-12-16 2020-04-28 武汉大学 一种基于节点重要性的网络节点表示方法及装置
CN115757984A (zh) * 2022-11-18 2023-03-07 青海师范大学 基于深度游走和物品协同过滤的融合推荐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930318A (zh) * 2016-04-11 2016-09-07 深圳大学 一种词向量训练方法及系统
CN106897254A (zh) * 2015-12-18 2017-06-27 清华大学 一种网络表示学习方法
CN109447261A (zh) * 2018-10-09 2019-03-08 北京邮电大学 一种基于多阶邻近相似度的网络表示学习的方法
US20190130264A1 (en) * 2017-11-02 2019-05-02 Palo Alto Research Center Incorporated Deep graph representation learning
CN109710921A (zh) * 2018-12-06 2019-05-03 深圳市中农易讯信息技术有限公司 词语相似度的计算方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897254A (zh) * 2015-12-18 2017-06-27 清华大学 一种网络表示学习方法
CN105930318A (zh) * 2016-04-11 2016-09-07 深圳大学 一种词向量训练方法及系统
US20190130264A1 (en) * 2017-11-02 2019-05-02 Palo Alto Research Center Incorporated Deep graph representation learning
CN109447261A (zh) * 2018-10-09 2019-03-08 北京邮电大学 一种基于多阶邻近相似度的网络表示学习的方法
CN109710921A (zh) * 2018-12-06 2019-05-03 深圳市中农易讯信息技术有限公司 词语相似度的计算方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHIPENG JIN ET AL.: ""Predicting User’s Multi-Interests With Network Embedding in Health-Related Topics"", 《2016 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 *
赵超等: ""基于SkipGram 模型的链路预测方法"", 《计算机应用与软件》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079058A (zh) * 2019-12-16 2020-04-28 武汉大学 一种基于节点重要性的网络节点表示方法及装置
CN115757984A (zh) * 2022-11-18 2023-03-07 青海师范大学 基于深度游走和物品协同过滤的融合推荐方法
CN115757984B (zh) * 2022-11-18 2023-06-20 青海师范大学 基于深度游走和物品协同过滤的融合推荐方法

Similar Documents

Publication Publication Date Title
CN107145977B (zh) 一种对在线社交网络用户进行结构化属性推断的方法
Xu et al. Quality assessment of building footprint data using a deep autoencoder network
CN107480694B (zh) 基于Spark平台采用两次评价的加权选择集成三支聚类方法
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
Lin et al. Heterogeneous knowledge-based attentive neural networks for short-term music recommendations
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN111191002B (zh) 一种基于分层嵌入的神经代码搜索方法及装置
CN114048350A (zh) 一种基于细粒度跨模态对齐模型的文本-视频检索方法
CN109598586A (zh) 一种基于注意力模型的推荐方法
CN113822776B (zh) 课程推荐方法、装置、设备及存储介质
CN105760649A (zh) 一种面向大数据的可信度量方法
CN109740106A (zh) 基于图卷积神经网络的大规模网络介数逼近方法、存储装置及存储介质
CN112417289A (zh) 一种基于深度聚类的资讯信息智能推荐方法
CN114020999A (zh) 一种电影社交网络的社区结构检测方法及系统
CN110348469A (zh) 一种基于DeepWalk网络嵌入模型的用户相似度度量方法
CN106649731A (zh) 一种基于大规模属性网络的节点相似性搜索方法
CN111862260A (zh) 基于跨域对偶生成式对抗网络的偏见消除方法与装置
CN108363685A (zh) 基于递归变分自编码模型的自媒体数据文本表示方法
CN112685452B (zh) 企业案例检索方法、装置、设备和存储介质
CN117312680A (zh) 一种基于用户-实体子图对比学习的资源推荐方法
An et al. Strp-dbscan: A parallel dbscan algorithm based on spatial-temporal random partitioning for clustering trajectory data
CN110399382A (zh) 基于云模型及粗糙集的民航主数据识别方法及系统
Zhang et al. Small files storing and computing optimization in Hadoop parallel rendering
Esuli et al. Traj2user: exploiting embeddings for computing similarity of users mobile behavior
CN113420680A (zh) 一种基于gru注意力的遥感影像区域关注与文本生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191018