CN111126443A - 基于随机游走的网络表示学习方法 - Google Patents

基于随机游走的网络表示学习方法 Download PDF

Info

Publication number
CN111126443A
CN111126443A CN201911178785.0A CN201911178785A CN111126443A CN 111126443 A CN111126443 A CN 111126443A CN 201911178785 A CN201911178785 A CN 201911178785A CN 111126443 A CN111126443 A CN 111126443A
Authority
CN
China
Prior art keywords
node
network
nodes
similarity
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911178785.0A
Other languages
English (en)
Inventor
吴蓉晖
陈湘涛
朱宁波
孙颖
刘桃亿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201911178785.0A priority Critical patent/CN111126443A/zh
Publication of CN111126443A publication Critical patent/CN111126443A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于随机游走的网络表示学习方法,包括如下步骤:建立NSRW模型,所述NSRW模型表示为函数G=(V,E),其中V={v1,v2,…vn}代表节点,用于表示网络中的实体;E={e1,e2,…en}代表边,用于表示网络中实体之间的关系;计算网络中相邻两个节点的相似度,相邻两个节点的相似度计算公式为:
Figure DDA0002290719610000011
其中nab表示节点va和节点vb之间共同邻居的数量,ka和kb分别代表节点va和节点vb的节点度;根据所述相似度计算相邻节点之间的游走概率;根据所述游走概率进行随机游走生成节点序列;根据所述节点序列,进行节点的表示学习,得到节点的低维表示。本发明提供的网络表示学习方法分类更加精确。

Description

基于随机游走的网络表示学习方法
【技术领域】
本发明涉及网络表示学习领域,尤其涉及一种基于随机游走的网络表示学习方法。
【背景技术】
网络节点分类是网络分析领域的一项主要任务,并且已经有很多研究成果,例如支持向量机(Support Vector Machine,SVM)与基于规则的分类器(Rule-basedclassifier,RBC)的结合、决策树和CRFs联合优化模型以及基于随机图的半监督网络分类方法等。但是,其中大多数方法着重于使用近似推断改善分类结果,难以处理网络稀疏性问题。
网络表示学习(Network representation learning,NRL)提供了解决上述问题的有效方法。NRL将网络节点转换为低维实值向量并最大程度地保留网络拓扑结构,在得到低维向量后,应用现有的机器学习方法简单高效的执行网络分类任务。
相关技术中,DeepWalk算法是NRL算法中较为常用的算法,其使用随机游走生成节点序列并通过Skip-Gram模型得到网络中每个顶点的向量表示;但是,该种算法忽略了不同节点链接的相似度,在采样过程中,任何节点的游走概率相同,使得分类的精确性不高。
因此,有必要提供一种新的基于随机游走的网络表示学习方法来解决上述问题。
【发明内容】
为解决上述技术问题,本发明提供了一种依据节点相似度进行采样,提高分类精确度的基于随机游走的网络表示学习方法。
本发明的技术方案在于:一种基于随机游走的网络表示学习方法,包括如下步骤:
建立NSRW模型,所述NSRW模型表示为函数G=(V,E),其中V={v1,v2,…vn}代表节点,用于表示网络中的实体;E={e1,e2,…en}代表边,用于表示网络中实体之间的关系;
计算网络中相邻两个节点的相似度,相邻两个节点的相似度计算公式为:
Figure BDA0002290719590000021
其中nab表示节点va和节点vb之间共同邻居的数量,ka和kb分别代表节点va和节点vb的节点度;
根据所述相似度计算相邻节点之间的游走概率;
根据所述游走概率进行随机游走生成节点序列;
根据所述节点序列,进行节点的表示学习,得到节点的低维表示。
优选的,根据所述节点序列,进行节点的表示学习,得到节点的低维表示步骤具体为:所述节点序列代入到Skip-Gram模型中获得节点的向量表示。
优选的,相邻节点之间的游走概率为:
Figure BDA0002290719590000022
其中simkj表示任意节点vk与其邻居节点之间的相似度。
与相关技术相比,本发明提供的网络表示学习方法具有如下有益效果:
一、学习到的潜在的空间表示,不仅很好地保留了拓扑结构,且实现了网络分类任务获得更好的结果;
二、NSRW算法改进了经典RW方法,通过节点相似度来进行采样,提高了分类精确性,避免了采样数据的冗杂。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本发明提供的网络学习方法的流程图;
图2为Cora中的多标签分类结果;
图3为CiteSeer中的多标签分类结果;
图4为BlogCatalog中的多标签分类结果;
图5(a)-(d)表示游走参数与NSRW模型性能曲线图;
图6(a)-(b)表示维度与NSRW模型性能曲线图;
图6(c)-(d)表示窗口大小与NSRW模型性能曲线图。
【具体实施方式】
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供了一种网络表示学习方法,所述方法包括如下步骤:
S1:建立NSRW模型,所述NSRW模型表示为函数G=(V,E),其中V={v1,v2,…vn}代表节点集合,用于表示网络中的实体;E={e1,e2,…en}代表边集合,用于表示网络中实体之间的关系。
所述NSRW(Node-Similarity based Random Walk,基于节点相似度的随机游动)模型应用于无方向性和非加权网络,其将网络中的节点类比为自然语言中的一个词,而将网络上的一次随机游走过程中产生的节点访问序列类比成自然语言中的句子,再在此基础上集合Word2vec模型将网络上进行随机游走产生的节点访问序列当作Skip-Gram模型的输入,采用随机梯度下降和反向传播算法对节点表示向量进行优化,最后训练成每个节点最优的向量表示。
其中,所述NSRW模型的算法的描述框架如下所示:
输入网络G(V,E),滑动窗口大小w,向量空间维数d,随机游走遍历次数γ,每次随机游走遍历步长l;输出节点表示向量矩阵θ∈R|V|×d
具体的,建立所述NSRW模型的相应代码为:
Figure BDA0002290719590000041
S2:计算网络中相邻两个节点的相似度,相邻两个节点的相似度计算公式为:
Figure BDA0002290719590000042
其中nab表示节点va和节点vb之间共同邻居的数量,ka和kb分别代表节点va和节点vb的节点度。
网络稀疏一直是网络的瓶颈分析任务。传统分类方法很难从稀疏和大数据中获取有价值的功能,NRL的出现解决了这个问题,其目标是自动从原始数据中识别出有价值的信息数据进行存储并将其编码为低维、密集、和连续的潜在向量空间,DeepWalk算法是NRL算法中较为常用的算法,其使用随机游走生成节点序列并通过Skip-Gram模型得到网络中每个顶点的向量表示;但是,该种算法忽略了不同节点链接的相似度,在采样过程中,任何节点的游走概率相同,使得分类的精确性不高,容易获取大量冗杂并且无意义的样本数据。
具体的,在游走过程中,当游走到任一节点va时,选择任一邻居节点vb作为下一步游走节点的概率为:
Figure BDA0002290719590000051
其中ka表示节点va的节点度。该种选择方式具有较强的随机性,没有考虑不同节点间的相似性。
但是,在随机游走过程中,相似度更高的两个节点之间应该有更高的游走概率。
在本发明的技术方案中,以节点va和其相邻节点节点vb为例,相似度的计算公式为:
Figure BDA0002290719590000052
其中nab表示节点a和节点b之间共同邻居的数量,ka和kb分别代表节点va和节点vb的节点度。需要说明的是,所述节点度是指和该节点相关联的边的条数。
计算节点相似度是对节点进行分类的基础,通过节点之间的链接关系来计算节点的相似度。两个节点之间共同的邻居越多,他们之间的关系就越紧密,应当被分到同一类。
S3:根据所述相似度计算相邻节点之间的游走概率。
网络中的节点序列
Figure BDA0002290719590000053
其中
Figure BDA0002290719590000054
表示起始节点vi
Figure BDA0002290719590000055
表示节点vi随机选择的一个相邻节点。进一步的,让
Figure BDA0002290719590000056
表示节点vk的邻居;
Figure BDA0002290719590000057
表示节点vk和其邻居节点之间相应的相似度,则相邻两个节点
Figure BDA0002290719590000058
之间游走的概率为:
Figure BDA0002290719590000059
S4:采用所述NSRW模型,根据所述游走概率进行随机游走生成节点序列。
在游走的每一步中,我们首先得到当前节点的所有邻居,然后根据游走概率对其进行采样,最后,我们从每个节点开始获得固定长度为l的随机游走序列。与其他RW算法不同,NSRW更可能会选择具有高相关强度的邻居作为下一个游走目标。因此,节点向量表示通过将生成的序列放入Skip-Gram对于网络更具区分性分类。
在语言模型中,Skip-Gram最大化了句子窗口中单词之间的共现概率w。在我们的模型中,用Φ(vi)表示在节点序列中的每个节点Vi,我们选择随机窗口目标节点vi与其前后关系节点Ci共同出现的最大概率。
损失函数定义如下:
J(φ)=-logPr(ci|φ(vi))
我们利用SGD来更新参数。在训练开始时,学习率α最初是设置为0.025,并随步长线性减小。通过此过程,我们获取所有节点的向量表示下一个将用于网络节点分类部分。
图中的节点以低维表示向量表示,标签矩阵表示为,其中y是标签集。我们旨在学习一种假设将节点表示映射到标签集y。我们考虑多标签网络分类问题。对于不同的标签,我们使用一对多对数逻辑回归训练不同的分类器。每个分类器cli对待标签yi(yi=1)为有效的样本,其他(yi=0)的样本为无效样本。
分类器cli将以下内容最大化成本函数:
Figure BDA0002290719590000061
其中,Pr(vk)由以下公式计算:
Figure BDA0002290719590000062
β是参数向量,在预测阶段,每个分类器输出属于当前类别指示顶点的概率,然后选择前n个概率作为最终预测结果。
Skip-Gram模型在借鉴自然语言处理模型的基础上进行了简化以便于计算。
S5:根据所述节点序列,进行节点的表示学习,得到节点的低维表示。
对于所述函数G=(V,E),将每个顶点v∈V表示为低维的空间Rd,换言之,学习映射函数fG:V→Rd,其中d<<|V|。
将生成的节点序列代入到Skip-Gram模型中获得节点的向量表示。在外循环中,将所有的节点迭代γ次数,每次都对所有节点进行混洗以加速随机梯度下降的收敛;在内循环中,对每个节点进行节点相似度随机游走,通过算法生成节点序列,并使用Skip-Gram模型学习节点的向量表示。
相应的算法代码如下:
Figure BDA0002290719590000071
进一步的,本实施方式中,对所述NSRW模型进行评估,其评估步骤如下:对于多标签分类任务,我们随机抽样顶点百分比作为训练集,其余部分保留作为测试集。我们处理低维向量表示作为顶点特征并将其提供给一对多剩余逻辑回归分类器。我们重复此过程10次,并报告Macro-F1和Micro-F1的平均得分。其计算公式如下
Figure BDA0002290719590000072
Figure BDA0002290719590000073
Figure BDA0002290719590000081
其中,k表示类别数,TPi表示在类别i上正确预测的正类的数量;FNi表示对类别i错误预测的负类的数量;FPi表示对类别i错误预测的正类的数量。
粗体数字代表我们算法的结果。在Cora数据集中,我们改变了标记数据的百分比从10%到90%。从图2可以看出,随着标记数据的百分比增加,NSRW的Macro-F1和Micro-F1值始终高于所有基线方法。事实上,当仅使用标记了50%节点的节点进行训练时,NSRW比这些方法在给定90%标记数据时的效果更好。为了验证仅使用少量标记节点对算法表现的影响,对于Citeseer和BlogCatalog数据集,我们提供的标签百分比为1%,5%,9%和15%。从图3和图4可以看出NSRW在这两个数据集上的Macro-F1和Micro-F1值仍明显优于对比方法。即使对于较大且稀疏的网络像BlogCatalog数据集,当标记数据所占的比例很小时,我们算法的分类精度仍高于其他基准方法,且其准确性提高了至少2%。总的来说,我们可以看到每种方法的表现在预测节点的类别时都是相对稳定的。与其他三种方法相比,SC表现最差。这可能是因为很难通过直接分解拉普拉斯矩阵来获取网络的深层拓扑信息。Node2Vec的性能优于DeepWalk和MHRW,因为它通过两个参数来控制游走过程中的采样深度和宽度,以捕捉网络结构的多样性。在所有算法中,NSRW取得了最佳结果,反映了在游走过程中考虑节点相似性的优势。
进一步的,本发明测试了NSRW模型对几个重要参数的敏感度。我们通过改变参数值来测量算法的稳定性。对于RW阶段,我们测试每个顶点的路径数γ和游走长度l的影响;对于Skip-Gram模型,我们测试节点向量维度d和上下文窗口大小w的影响。除了当前测试的参数外,所有其他参数都保持默认值。测试任务使用cora数据集进行多标签分类任务来验证模型的表现,我们选择50%的输入网络作为训练集。
(1)游走参数的影响
如图5所示,游走参数(路径数γ和游走长度l)对模型NSRW的影响,参数的模型的性能首先快速上升,然后进入振荡区间。对于参数l,模型的性能不断提高,但结果趋于稳定。这两个参数可以改善NSRW模型的性能,因为它们允许游走阶段遍历图中更多可能的路径,以便为模型提供更多有用的信息,但是持续增加,提供的信息开始变得冗余。
(2)维度的影响
如图4(a)和图4(b)所示,维度变化对模型的影响,维度的增加,模型的表现稍有提高,因为更大的维度可以存储更多信息。
(3)窗口大小的影响
如图4(c)所示和图4(d)。参数w的值从5增加到15,模型的表现波动小于1%。因为随着窗口大小的增加,可以提供的有用信息和噪声数据的节点都被包括进来。Skip-Gram模型不考虑上下文节点和中心节点之间的距离,导致了这种波动。
与相关技术相比,本发明提供的网络表示学习方法具有如下有益效果:
一、学习到的潜在的空间表示,不仅很好地保留了拓扑结构,且实现了网络分类任务获得更好的结果;
二、NSRW算法改进了经典RW方法,通过节点相似度来进行采样,提高了分类精确性,避免了采样数据的冗杂。
以上所述的仅是本发明的实施方式,在此应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。

Claims (3)

1.一种基于随机游走的网络表示学习方法,其特征在于,包括如下步骤:
建立NSRW模型,所述NSRW模型表示为函数G=(V,E),其中V={v1,v2,…vn}代表节点,用于表示网络中的实体;E={e1,e2,…en}代表边,用于表示网络中实体之间的关系;
计算网络中相邻两个节点的相似度,相邻两个节点的相似度计算公式为:
Figure FDA0002290719580000011
其中nab表示节点va和节点vb之间共同邻居的数量,ka和kb分别代表节点va和节点vb的节点度;
根据所述相似度计算相邻节点之间的游走概率;
根据所述游走概率进行随机游走生成节点序列;
根据所述节点序列,进行节点的表示学习,得到节点的低维表示。
2.根据权利要求1所述的网络表示学习方法,其特征在于,根据所述节点序列,进行节点的表示学习,得到节点的低维表示步骤具体为:所述节点序列代入到Skip-Gram模型中获得节点的向量表示。
3.根据权利要求1所述的网络表示学习方法,其特征在于,相邻节点之间的游走概率为:
Figure FDA0002290719580000012
其中simkj表示任意节点vk与其邻居节点之间的相似度。
CN201911178785.0A 2019-11-27 2019-11-27 基于随机游走的网络表示学习方法 Pending CN111126443A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911178785.0A CN111126443A (zh) 2019-11-27 2019-11-27 基于随机游走的网络表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911178785.0A CN111126443A (zh) 2019-11-27 2019-11-27 基于随机游走的网络表示学习方法

Publications (1)

Publication Number Publication Date
CN111126443A true CN111126443A (zh) 2020-05-08

Family

ID=70496726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911178785.0A Pending CN111126443A (zh) 2019-11-27 2019-11-27 基于随机游走的网络表示学习方法

Country Status (1)

Country Link
CN (1) CN111126443A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505459A (zh) * 2021-07-29 2021-10-15 东方红卫星移动通信有限公司 一种基于动态随机游走的多粒度路由网络表达方法
CN115357716A (zh) * 2022-08-30 2022-11-18 中南民族大学 一种融合词袋模型和图嵌入的时序数据表示学习方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505459A (zh) * 2021-07-29 2021-10-15 东方红卫星移动通信有限公司 一种基于动态随机游走的多粒度路由网络表达方法
CN115357716A (zh) * 2022-08-30 2022-11-18 中南民族大学 一种融合词袋模型和图嵌入的时序数据表示学习方法
CN115357716B (zh) * 2022-08-30 2023-07-04 中南民族大学 融合词袋模型和图嵌入的学习时间序列数据分类方法

Similar Documents

Publication Publication Date Title
He et al. AutoML: A survey of the state-of-the-art
CN110263227B (zh) 基于图神经网络的团伙发现方法和系统
Wang et al. Machine learning in big data
Li et al. Restricted Boltzmann machine-based approaches for link prediction in dynamic networks
Daumé III et al. Logarithmic time one-against-some
Arsov et al. Network embedding: An overview
Zhang et al. PS-Tree: A piecewise symbolic regression tree
US20220383127A1 (en) Methods and systems for training a graph neural network using supervised contrastive learning
CN113177132A (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN110264372B (zh) 一种基于节点表示的主题社团发现方法
Yu et al. Toward naive Bayes with attribute value weighting
CN115577283A (zh) 一种实体分类方法、装置、电子设备及存储介质
CN111126443A (zh) 基于随机游走的网络表示学习方法
Hasanpour et al. Improving rule-based classification using Harmony Search
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
Li et al. ipath: Forecasting the pathway to impact
CN113722439B (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
Pimentel et al. Efficient estimation of node representations in large graphs using linear contexts
Moon et al. Active learning with partially featured data
Cepero-Pérez et al. Proactive forest for supervised classification
JP6993250B2 (ja) コンテンツ特徴量抽出装置、方法、及びプログラム
Medina et al. Classification of legal documents in portuguese language based on summarization
Jabbari et al. Obtaining accurate probabilistic causal inference by post-processing calibration
CN110826812A (zh) 一种基于图的布尔可满足性问题的目标算法预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200508