CN111126443A

CN111126443A - 基于随机游走的网络表示学习方法

Info

Publication number: CN111126443A
Application number: CN201911178785.0A
Authority: CN
Inventors: 吴蓉晖; 陈湘涛; 朱宁波; 孙颖; 刘桃亿
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-05-08

Abstract

本发明提供了一种基于随机游走的网络表示学习方法，包括如下步骤：建立NSRW模型，所述NSRW模型表示为函数G＝(V,E)，其中V＝{v₁,v₂,…v_n}代表节点，用于表示网络中的实体；E＝{e₁,e₂,…e_n}代表边，用于表示网络中实体之间的关系；计算网络中相邻两个节点的相似度，相邻两个节点的相似度计算公式为：

其中n_ab表示节点v_a和节点v_b之间共同邻居的数量，k_a和k_b分别代表节点v_a和节点v_b的节点度；根据所述相似度计算相邻节点之间的游走概率；根据所述游走概率进行随机游走生成节点序列；根据所述节点序列，进行节点的表示学习，得到节点的低维表示。本发明提供的网络表示学习方法分类更加精确。

Description

基于随机游走的网络表示学习方法

【技术领域】

本发明涉及网络表示学习领域，尤其涉及一种基于随机游走的网络表示学习方法。

【背景技术】

网络节点分类是网络分析领域的一项主要任务，并且已经有很多研究成果，例如支持向量机(Support Vector Machine，SVM)与基于规则的分类器(Rule-basedclassifier，RBC)的结合、决策树和CRFs联合优化模型以及基于随机图的半监督网络分类方法等。但是，其中大多数方法着重于使用近似推断改善分类结果，难以处理网络稀疏性问题。

网络表示学习(Network representation learning，NRL)提供了解决上述问题的有效方法。NRL将网络节点转换为低维实值向量并最大程度地保留网络拓扑结构，在得到低维向量后，应用现有的机器学习方法简单高效的执行网络分类任务。

相关技术中，DeepWalk算法是NRL算法中较为常用的算法，其使用随机游走生成节点序列并通过Skip-Gram模型得到网络中每个顶点的向量表示；但是，该种算法忽略了不同节点链接的相似度，在采样过程中，任何节点的游走概率相同，使得分类的精确性不高。

因此，有必要提供一种新的基于随机游走的网络表示学习方法来解决上述问题。

【发明内容】

为解决上述技术问题，本发明提供了一种依据节点相似度进行采样，提高分类精确度的基于随机游走的网络表示学习方法。

本发明的技术方案在于：一种基于随机游走的网络表示学习方法，包括如下步骤：

建立NSRW模型，所述NSRW模型表示为函数G＝(V,E)，其中V＝{v₁,v₂,…v_n}代表节点，用于表示网络中的实体；E＝{e₁,e₂,…e_n}代表边，用于表示网络中实体之间的关系；

计算网络中相邻两个节点的相似度，相邻两个节点的相似度计算公式为：

其中n_ab表示节点v_a和节点v_b之间共同邻居的数量，k_a和k_b分别代表节点v_a和节点v_b的节点度；

根据所述相似度计算相邻节点之间的游走概率；

根据所述游走概率进行随机游走生成节点序列；

根据所述节点序列，进行节点的表示学习，得到节点的低维表示。

优选的，根据所述节点序列，进行节点的表示学习，得到节点的低维表示步骤具体为：所述节点序列代入到Skip-Gram模型中获得节点的向量表示。

优选的，相邻节点之间的游走概率为：

其中simk_j表示任意节点v_k与其邻居节点之间的相似度。

与相关技术相比，本发明提供的网络表示学习方法具有如下有益效果：

一、学习到的潜在的空间表示，不仅很好地保留了拓扑结构，且实现了网络分类任务获得更好的结果；

二、NSRW算法改进了经典RW方法，通过节点相似度来进行采样，提高了分类精确性，避免了采样数据的冗杂。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明提供的网络学习方法的流程图；

图2为Cora中的多标签分类结果；

图3为CiteSeer中的多标签分类结果；

图4为BlogCatalog中的多标签分类结果；

图5(a)-(d)表示游走参数与NSRW模型性能曲线图；

图6(a)-(b)表示维度与NSRW模型性能曲线图；

图6(c)-(d)表示窗口大小与NSRW模型性能曲线图。

【具体实施方式】

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供了一种网络表示学习方法，所述方法包括如下步骤：

S1：建立NSRW模型，所述NSRW模型表示为函数G＝(V,E)，其中V＝{v₁,v₂,…v_n}代表节点集合，用于表示网络中的实体；E＝{e₁,e₂,…e_n}代表边集合，用于表示网络中实体之间的关系。

所述NSRW(Node-Similarity based Random Walk，基于节点相似度的随机游动)模型应用于无方向性和非加权网络，其将网络中的节点类比为自然语言中的一个词，而将网络上的一次随机游走过程中产生的节点访问序列类比成自然语言中的句子，再在此基础上集合Word2vec模型将网络上进行随机游走产生的节点访问序列当作Skip-Gram模型的输入，采用随机梯度下降和反向传播算法对节点表示向量进行优化，最后训练成每个节点最优的向量表示。

其中，所述NSRW模型的算法的描述框架如下所示：

输入网络G(V,E)，滑动窗口大小w，向量空间维数d，随机游走遍历次数γ，每次随机游走遍历步长l；输出节点表示向量矩阵θ∈R^|V|×d。

具体的，建立所述NSRW模型的相应代码为：

S2：计算网络中相邻两个节点的相似度，相邻两个节点的相似度计算公式为：

其中n_ab表示节点v_a和节点v_b之间共同邻居的数量，k_a和k_b分别代表节点v_a和节点v_b的节点度。

网络稀疏一直是网络的瓶颈分析任务。传统分类方法很难从稀疏和大数据中获取有价值的功能，NRL的出现解决了这个问题，其目标是自动从原始数据中识别出有价值的信息数据进行存储并将其编码为低维、密集、和连续的潜在向量空间，DeepWalk算法是NRL算法中较为常用的算法，其使用随机游走生成节点序列并通过Skip-Gram模型得到网络中每个顶点的向量表示；但是，该种算法忽略了不同节点链接的相似度，在采样过程中，任何节点的游走概率相同，使得分类的精确性不高，容易获取大量冗杂并且无意义的样本数据。

具体的，在游走过程中，当游走到任一节点v_a时，选择任一邻居节点v_b作为下一步游走节点的概率为：

其中k_a表示节点v_a的节点度。该种选择方式具有较强的随机性，没有考虑不同节点间的相似性。

但是，在随机游走过程中，相似度更高的两个节点之间应该有更高的游走概率。

在本发明的技术方案中，以节点v_a和其相邻节点节点v_b为例，相似度的计算公式为：

其中n_ab表示节点a和节点b之间共同邻居的数量，k_a和k_b分别代表节点v_a和节点v_b的节点度。需要说明的是，所述节点度是指和该节点相关联的边的条数。

计算节点相似度是对节点进行分类的基础，通过节点之间的链接关系来计算节点的相似度。两个节点之间共同的邻居越多，他们之间的关系就越紧密，应当被分到同一类。

S3：根据所述相似度计算相邻节点之间的游走概率。

网络中的节点序列

其中

表示起始节点v_i，

表示节点v_i随机选择的一个相邻节点。进一步的，让

表示节点v_k的邻居；

表示节点v_k和其邻居节点之间相应的相似度，则相邻两个节点

之间游走的概率为：

S4：采用所述NSRW模型，根据所述游走概率进行随机游走生成节点序列。

在游走的每一步中，我们首先得到当前节点的所有邻居，然后根据游走概率对其进行采样，最后，我们从每个节点开始获得固定长度为l的随机游走序列。与其他RW算法不同，NSRW更可能会选择具有高相关强度的邻居作为下一个游走目标。因此，节点向量表示通过将生成的序列放入Skip-Gram对于网络更具区分性分类。

在语言模型中，Skip-Gram最大化了句子窗口中单词之间的共现概率w。在我们的模型中，用Φ(vi)表示在节点序列中的每个节点Vi，我们选择随机窗口目标节点vi与其前后关系节点Ci共同出现的最大概率。

损失函数定义如下：

J(φ)＝-logP_r(c_i|φ(v_i))

我们利用SGD来更新参数。在训练开始时，学习率α最初是设置为0.025，并随步长线性减小。通过此过程，我们获取所有节点的向量表示下一个将用于网络节点分类部分。

图中的节点以低维表示向量表示，标签矩阵表示为，其中y是标签集。我们旨在学习一种假设将节点表示映射到标签集y。我们考虑多标签网络分类问题。对于不同的标签，我们使用一对多对数逻辑回归训练不同的分类器。每个分类器cli对待标签yi(yi＝1)为有效的样本，其他(yi＝0)的样本为无效样本。

分类器cli将以下内容最大化成本函数：

其中，P_r(v_k)由以下公式计算：

β是参数向量，在预测阶段，每个分类器输出属于当前类别指示顶点的概率，然后选择前n个概率作为最终预测结果。

Skip-Gram模型在借鉴自然语言处理模型的基础上进行了简化以便于计算。

S5：根据所述节点序列，进行节点的表示学习，得到节点的低维表示。

对于所述函数G＝(V,E)，将每个顶点v∈V表示为低维的空间R^d，换言之，学习映射函数f_G:V→R^d，其中d<<|V|。

将生成的节点序列代入到Skip-Gram模型中获得节点的向量表示。在外循环中，将所有的节点迭代γ次数，每次都对所有节点进行混洗以加速随机梯度下降的收敛；在内循环中，对每个节点进行节点相似度随机游走，通过算法生成节点序列，并使用Skip-Gram模型学习节点的向量表示。

相应的算法代码如下：

进一步的，本实施方式中，对所述NSRW模型进行评估，其评估步骤如下：对于多标签分类任务，我们随机抽样顶点百分比作为训练集，其余部分保留作为测试集。我们处理低维向量表示作为顶点特征并将其提供给一对多剩余逻辑回归分类器。我们重复此过程10次，并报告Macro-F1和Micro-F1的平均得分。其计算公式如下

其中，k表示类别数，TP_i表示在类别i上正确预测的正类的数量；FNi表示对类别i错误预测的负类的数量；FPi表示对类别i错误预测的正类的数量。

粗体数字代表我们算法的结果。在Cora数据集中，我们改变了标记数据的百分比从10％到90％。从图2可以看出，随着标记数据的百分比增加，NSRW的Macro-F1和Micro-F1值始终高于所有基线方法。事实上，当仅使用标记了50％节点的节点进行训练时，NSRW比这些方法在给定90％标记数据时的效果更好。为了验证仅使用少量标记节点对算法表现的影响，对于Citeseer和BlogCatalog数据集，我们提供的标签百分比为1％，5％，9％和15％。从图3和图4可以看出NSRW在这两个数据集上的Macro-F1和Micro-F1值仍明显优于对比方法。即使对于较大且稀疏的网络像BlogCatalog数据集，当标记数据所占的比例很小时，我们算法的分类精度仍高于其他基准方法，且其准确性提高了至少2％。总的来说，我们可以看到每种方法的表现在预测节点的类别时都是相对稳定的。与其他三种方法相比，SC表现最差。这可能是因为很难通过直接分解拉普拉斯矩阵来获取网络的深层拓扑信息。Node2Vec的性能优于DeepWalk和MHRW，因为它通过两个参数来控制游走过程中的采样深度和宽度，以捕捉网络结构的多样性。在所有算法中，NSRW取得了最佳结果，反映了在游走过程中考虑节点相似性的优势。

进一步的，本发明测试了NSRW模型对几个重要参数的敏感度。我们通过改变参数值来测量算法的稳定性。对于RW阶段，我们测试每个顶点的路径数γ和游走长度l的影响；对于Skip-Gram模型，我们测试节点向量维度d和上下文窗口大小w的影响。除了当前测试的参数外，所有其他参数都保持默认值。测试任务使用cora数据集进行多标签分类任务来验证模型的表现，我们选择50％的输入网络作为训练集。

(1)游走参数的影响

如图5所示，游走参数(路径数γ和游走长度l)对模型NSRW的影响，参数的模型的性能首先快速上升，然后进入振荡区间。对于参数l，模型的性能不断提高，但结果趋于稳定。这两个参数可以改善NSRW模型的性能，因为它们允许游走阶段遍历图中更多可能的路径，以便为模型提供更多有用的信息，但是持续增加，提供的信息开始变得冗余。

(2)维度的影响

如图4(a)和图4(b)所示，维度变化对模型的影响，维度的增加，模型的表现稍有提高，因为更大的维度可以存储更多信息。

(3)窗口大小的影响

如图4(c)所示和图4(d)。参数w的值从5增加到15，模型的表现波动小于1％。因为随着窗口大小的增加，可以提供的有用信息和噪声数据的节点都被包括进来。Skip-Gram模型不考虑上下文节点和中心节点之间的距离，导致了这种波动。

以上所述的仅是本发明的实施方式，在此应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

Claims

1.一种基于随机游走的网络表示学习方法，其特征在于，包括如下步骤：

根据所述相似度计算相邻节点之间的游走概率；

根据所述游走概率进行随机游走生成节点序列；

2.根据权利要求1所述的网络表示学习方法，其特征在于，根据所述节点序列，进行节点的表示学习，得到节点的低维表示步骤具体为：所述节点序列代入到Skip-Gram模型中获得节点的向量表示。

3.根据权利要求1所述的网络表示学习方法，其特征在于，相邻节点之间的游走概率为：

其中simk_j表示任意节点v_k与其邻居节点之间的相似度。