CN110196995B

CN110196995B - 一种基于带偏置随机游走的复杂网络特征提取方法

Info

Publication number: CN110196995B
Application number: CN201910359959.7A
Authority: CN
Inventors: 公茂果; 魏甜甜; 王善峰; 刘文枫; 王麒翔; 张明阳; 李豪
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2022-12-06
Anticipated expiration: 2039-04-30
Also published as: CN110196995A

Abstract

本发明提供了一种基于带偏置随机游走的复杂网络特征提取方法，包括构建复杂网络；对复杂网络中的所有节点的文本数据进行处理，得到所有节点的段落向量；将复杂网络中的任一节点作为初始节点；将初始节点作为当前节点，计算当前节点与当前节点的每个连接节点之间转移概率，采样并选取得到采样的转移概率所对应的连接节点，重复上述操作得到n个采样的转移概率所对应的连接节点，由初始节点和n个采样的转移概率所对应的连接节点构成复杂网络中任一节点的带偏置的随机游走序列，总共得到复杂网络中任一节点的r个带偏置的随机游走序列，最终得到所有节点的特征向量；本发明能够有效提高复杂网络特征提取的效率，提高了网络分析任务的精度。

Description

一种基于带偏置随机游走的复杂网络特征提取方法

技术领域

本发明属于复杂网络技术领域，具体涉及一种基于带偏置随机游走的复杂网络特征提取方法。

背景技术

随着信息技术的广泛使用，社交网络、引用网络等复杂网络的分析任务变得异常重要。网络中的个体及其相互之间的关系可以抽象为复杂网络，其中节点可以代表复杂网络中的个体，边可以代表个体间的连接关系。复杂网络具有复杂的网络结构与丰富的节点信息。大规模网络中的节点数达数百万级别，但具有稀疏性，通常只有小部分节点相互连接；

复杂网络的特征提取方法吸引了越来越多学者的关注，受Skip-Gram模型的启发，Perozzi等人提出了一种名为DeepWalk的方法，将复杂网络中采样得到的随机游走序列作为词序列来学习节点的向量表示。但是该方法中随机游走序列的产生是完全随机的，没有考虑到节点的社区属性以及节点的文本信息对随机游走序列的影响，导致该方法在处理网络分析任务时精度较低。Tang等人提出LINE方法，利用复杂网络的一阶相似度和二阶相似度来抓住复杂网络的局部和全局结构特征；Cao等人提出了GraRep方法，此方法引入了结构矩阵，并且使用奇异值分解算法获得复杂网络中节点的基于全局结构的特征向量；但是LINE方法与GraRep方法仅考虑了复杂网络的结构信息，而忽略了伴随节点的丰富的文本信息，导致这些方法在处理网络分析任务时精度较低。Tu等人提出了CANE方法，根据节点不同的邻居，学习节点多样的特征向量；Yang等人提出了TADW方法，设计一个文本矩阵，采用矩阵分解方法分解这个矩阵得到节点的特征向量；CANE方法和TADW方法在利用复杂网络结构信息与节点的文本信息时，没有考虑到它们的共同作用，只是分别将两种信息得到的特征向量连接起来，导致这些方法在处理网络分析任务时精度较低。

发明内容

针对现有技术在处理网络分析任务时精度低的缺点，本申请的目的在于，提供了一种基于带偏置随机游走的复杂网络特征提取方法。

为了实现上述目的，本发明采取以下技术方案予以实现：

一种基于带偏置随机游走的复杂网络特征提取方法，具体包括以下步骤：

步骤1、构建复杂网络；

还包括以下步骤：

步骤2、对复杂网络中所有节点的文本数据进行训练，得到所有节点的段落向量；

步骤3、将复杂网络中的任一节点作为初始节点，将初始节点作为当前节点；

步骤4、以当前节点为处理对象，获取处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置；

通过所有节点的段落向量，计算得到处理对象与处理对象的每个连接节点之间的文本权重偏置；

通过处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置及处理对象与处理对象的每个连接节点之间的文本权重偏置，计算得到处理对象与处理对象的每个连接节点之间的转移概率；

采用别名采样方法对处理对象与处理对象的每个连接节点之间的转移概率进行采样，得到采样的转移概率；选取得到所述采样的转移概率所对应的连接节点；将采样的转移概率所对应的连接节点作为当前节点；

步骤5、重复执行步骤4n-1(n>1)次，直至选取得到n-1个采样的转移概率所对应的连接节点，此时共得到n个采样的转移概率所对应的连接节点；由初始节点和n个采样的转移概率所对应的连接节点构成所述复杂网络中任一节点的带偏置的随机游走序列；将初始节点作为当前节点；

步骤6，重复执行步骤4-5r-1(r>1)次，直至得到所述复杂网络中任一节点的r-1个带偏置的随机游走序列，此时共得到所述复杂网络中任一节点的r个带偏置的随机游走序列，从而得到所述复杂网络中所有节点的r个带偏置的随机游走序列；

步骤7、将所述复杂网络中所有节点的r个带偏置的随机游走序列输入到Skip-Gram模型，采用优化算法对Skip-Gram模型进行优化，得到所有节点的特征向量。

进一步的，所述步骤2中，采用Doc2vec模型对复杂网络中所有节点的文本数据进行训练，得到每个节点的段落向量。

进一步的，所述步骤4中获取处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置，具体包括：

当处理对象为初始节点时，将处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置均定义为1；

当处理对象不是初始节点时，采用公式(1)获取处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置；

其中，d_lx(i)表示处理对象的前驱节点l与处理对象的第i个连接节点x之间的最短距离，d_lx(i)∈{0,1,2}，i为大于0的自然数；a(l,x(i))表示处理对象的前驱节点l与处理对象的第i个连接节点x之间的结构搜索偏置，a(l,x(i))∈[0,1]；p表示概率参数，q表示程度参数，且p和q均为实数。

进一步的，所述步骤4中通过所有节点的段落向量，计算得到处理对象与处理对象的每个连接节点之间的文本权重偏置，具体采用公式(2)进行计算：

其中，t(v,x(i))表示处理对象v与处理对象的第i个连接节点x之间的文本权重偏置值，t(v,x(i))∈[0,1]，i为大于0的自然数，

表示处理对象v的段落向量，

表示处理对象v的第i个连接节点x的段落向量，

表示段落向量

的模值，

为实数；

表示段落向量

的模值，

为实数。

进一步的，所述步骤4中通过处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置及处理对象与处理对象的每个连接节点之间的文本权重偏置，计算得到处理对象与处理对象的每个连接节点之间的转移概率，具体采用公式(3)进行计算：

π(v,x(i))＝a(l,x(i))·t(v,x(i))·w_vx(i) (3)

其中，π(v,x(i))表示处理对象v与处理对象的第i个连接节点x之间的转移概率，π(v,x(i))∈[0,1]，i为大于0的自然数；w_vx(i)表示处理对象v与处理对象的第i个连接节点x之间的权重值，w_vx(i)为实数；a(l,x(i))表示处理对象v的前驱节点l与处理对象的第i个连接节点x之间的结构搜索偏置；t(v,x(i))表示处理对象v与处理对象的第i个连接节点x之间的文本权重偏置。

进一步的，所述步骤7中，采用的优化算法为随机梯度下降算法。

与现有的技术相比，本发明的有益效果如下：

1、本发明通过能够探索复杂网络节点多样邻居的结构搜索偏置、能够表达节点的文本数据之间相似程度的文本权重偏置，共同指导获取更有效的带偏置的随机游走序列，最终得到节点的特征向量；相比于现有方法，本发明具有更好的鲁棒性和灵活性，能够有效提高复杂网络特征提取的效率，得到的节点的特征向量在处理网络分析任务时，具有很高的准确度，提高了网络分析任务的精度。

2、本发明中结构搜索偏置利用概率参数和程度参数共同探索复杂网络中节点多样的邻居，充分利用网络结构的同质性与结构等价性，使得提取的属于相似的社区结构、具有相似结构属性的节点的特征向量在所映射的低维向量空间中的距离更加紧密；采用Doc2vec模型训练复杂网络中所有节点的文本数据，来得到文本权重偏置，Doc2vec模型能够挖掘到文本数据的深层语义信息，使最终得到的节点的特征向量质量更好，在处理网络分析任务时具有更高的准确度。

附图说明

图1是本发明的流程图；

图2为本发明与现有方法在Cora网络上的节点聚类实验的NMI对比图；

图3为本发明与现有方法在CiteSeer-M6网络上的节点聚类实验的NMI对比图。

具体实施方式

以下结合附图和实施例对本发明的技术方案进行详细说明。

实施例

如图1所示，本发明提供了一种基于带偏置随机游走的复杂网络特征提取方法，具体包括以下步骤：

步骤1、构建复杂网络；

具体的，由多个节点、节点之间连接的边及节点的文本数据构成复杂网络，所述节点为现实世界中存在的复杂系统的实体或元素；所述节点之间连接的边为节点之间的相互关系；在所述复杂网络中节点之间的边没有方向；

本实施例中所述复杂网络直接采用现有的复杂网络Cora或CiteSeer-M6；

步骤3、将复杂网络中的任一节点作为初始节点，将初始节点作为当前节点v；

所述当前节点的连接节点是指复杂网络中，与当前节点有连接关系的节点；所述当前节点的前驱节点是指当前节点的前一个当前节点；

步骤5、重复执行步骤4n-1(n>1)次，直至选取得到n-1个采样的转移概率所对应的连接节点，此时共得到n个采样的转移概率所对应的连接节点；由初始节点和n个采样的转移概率所对应的连接节点构成所述复杂网络中任一节点的带偏置的随机游走序列；将初始节点作为当前节点；所述n个采样的转移概率所对应的连接节点包括选取得到的采样的转移概率所对应的连接节点和n-1个采样的转移概率所对应的连接节点；

步骤6、重复执行步骤4至步骤5r-1(r>1)次，直至得到所述复杂网络中任一节点的r-1个带偏置的随机游走序列，此时共得到所述复杂网络中任一节点的r个带偏置的随机游走序列，从而得到所述复杂网络中的所有节点的r个带偏置的随机游走序列；

所述复杂网络中任一节点的r个带偏置的带偏置的随机游走序列包括构成的所述复杂网络中任一节点的带偏置的随机游走序列和得到的所述复杂网络中任一节点的r-1个带偏置的随机游走序列；

步骤7、将所述复杂网络中的所有节点的r个带偏置的随机游走序列输入到Skip-Gram模型，采用优化算法对Skip-Gram模型进行优化，得到所有节点的特征向量。

本发明中采用别名采样方法，在时间复杂度仅为O(1)的情况下，对处理对象与其每个连接节点之间的转移概率进行采样，转移概率越大，被采样的可能性越大。由于别名采样方法进行采样具有一定的随机性，采样值可以为转移概率中的任意值，使得得到复杂网络中任一节点的r个带偏置的随机游走序列不相同。

本发明提出的基于带偏置随机游走的复杂网络特征提取方法，通过能够探索复杂网络节点多样邻居的结构搜索偏置、能够表达节点的文本数据之间相似程度的文本权重偏置，共同指导获取更有效的带偏置的随机游走序列，最终得到节点的特征向量；相比于现有方法，本发明具有更好的鲁棒性和灵活性，能够有效提高复杂网络特征提取的效率，得到的节点的特征向量在处理网络分析任务时，具有很高的准确度，提高了网络分析任务的精度。

具体的，所述步骤2中，采用Doc2vec模型对复杂网络中所有节点的文本数据进行训练，得到所有节点的段落向量

具体的，所述步骤4中获取处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置，具体包括：

当处理对象为初始节点时，由于当前节点没有前驱节点，处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置均定义为1；

当概率参数p取值小于1且小于程度参数q时，控制游走返回前驱节点，保持游走的步伐靠近起始节点；当概率参数p取值大于1且大于程度参数q时，则尽量避免在接下来的几步中，游走还徘徊在已经遍历过的节点，鼓励适度的探索，避免了采样中的两跳冗余；当概率参数q大于1，则游走的步伐偏向于靠近前驱节点。这样的遍历获得起始节点的局部结构和近似广度优先搜索行为；相反，当概率参数q小于1，则游走更倾向于访问更远离前驱节点的节点，反映了深度优先搜索，鼓励外向探索。

具体的，所述步骤4中通过所有节点的段落向量，计算得到处理对象与处理对象的每个连接节点之间的文本权重偏置，具体采用公式(2)进行计算：

表示处理对象v的段落向量，

表示处理对象v的第i个连接节点x的段落向量，

表示段落向量

的模值，

为实数；

表示段落向量

的模值，

为实数。

考虑到Doc2vec模型能够提取文本深层语义信息，本实施例采用Doc2vec模型中的PV-DBOW算法对复杂网络中所有节点的文本数据进行训练；将复杂网络中每个节点的文本数据映射为固定长度的真实值向量，称此向量为段落向量

节点附属的文本信息体现出节点在内容上的属性，若两个节点文本的内容相似，那么这两个节点的相关性较强，映射到低维空间时，其向量表示距离应该相近，因此采用余弦距离度量向量表示之间的相似度。

具体的，所述步骤4中通过处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置及处理对象与处理对象的连接节点之间的文本权重偏置，具体采用公式(3)计算得到处理对象与处理对象的每个连接节点之间的转移概率，

π(v,x(i))＝a(l,x(i))·t(v,x(i))·w_vx(i) (3)

π(v,x(i))的值越大，代表处理对象的前驱节点l与处理对象的第i个连接节点x之间的结构搜索偏置值和处理对象与处理对象的第i个连接节点x之间的文本权重偏置值越高。

本方式中，所述的结构搜索偏置利用概率参数和程度参数共同探索复杂网络中节点多样的邻居，充分利用网络结构的同质性与结构等价性，使得提取的属于相似的社区结构、具有相似结构角色的节点的特征向量在所映射的低维特征空间中的距离更加紧密；采用Doc2vec模型训练复杂网络中所有节点的文本数据，得到文本权重偏置，Doc2vec模型能够挖掘到文本数据的深层语义信息，使最终得到的节点的特征向量质量更好，在处理网络分析任务时具有更高的准确度。

具体的，所述步骤7中，采用的优化算法为随机梯度下降算法；

所述Skip-Gram模型的目标函数为：

其中，V表示复杂网络中的节点集合，u表示节点集合中的任意一节点，f表示从节点到低维向量表示的映射函数；Z_u表示节点u的配分函数；N_s(u)表示节点u的所有邻居节点构成的集合，邻居节点包括与节点u相连接的节点，以及与节点u属性相同的节点；n_i表示集合N_s(u)中的第i个节点；N_t(u)表示节点u与复杂网络中其他节点之间的文本权重偏置值中较高值的k个节点的集合，k>0；n_j表示集合N_t(u)中的第j个节点。

为了说明本发明的有效性和适应性，将本发明与现有方法(DeepWalk、LINE、GraRep、TADW、CANE)在真实世界中两个不同规模大小的复杂网络Cora和CiteSeer-M6上获得的所有节点的特征向量进行对比实验，网络规模如表1所示：

表1.复杂网络结构参数

网络名称	节点数	边数	标签类别
				Cora	2,277	5,214	7
CiteSeer-M6	4,398	5,636	6

第一部分：本发明与现有方法在Cora和CiteSeer-M6网络上获得的所有节点的特征向量进行节点分类实验；随机采样30％、50％、70％和90％的节点的特征向量作为训练数据，使用逻辑回归算法对训练数据进行处理，得到4个分类器；分别将剩余的70％、50％、30％、10％的节点的特征向量输入到4个分类器中进行测试，得到节点的预测标签类别；将所得到的节点的预测标签类别与真实的标签类别进行对比，计算得到如表2和3所示的Micro-F1(微观F1)值，当Micro-F1值越高，代表提取到的特征向量的效果越好。从表2和3可以看出，本发明提出的基于带偏置随机游走的复杂网络特征提取算法所得到节点的特征向量，分别采用不同比例的特征向量在处理分类器时，本发明的Micro-F1值均高于现有方法，在输入比例为90％时，本发明在Cora网络上得到的特征向量达到了85.83％的准确率，在CiteSeer-M6网络上达到85.61％的准确率；因此，本发明在Cora和CiteSeer-M6网络上得到的特征向量有效提高了在处理网络任务时的精度。

表2.在Cora网络上节点分类实验的Micro-F1值

表3.在CiteSeer-M6网络上节点分类实验的Micro-F1值

第二部分：本发明与现有方法在Cora、CiteSeer-M6网络上获得的所有节点的特征向量进行节点聚类实验。分别将本发明与现有方法在Cora、CiteSeer-M6网络上得到的所有节点的特征向量作为训练数据，输入到k-means算法中获得节点的预测标签，以节点的标签类别作为真实值，将所得到的节点的预测标签与真实的标签类别进行对比，计算NMI(标准化互信息指标)值来评价聚类效果，NMI值越高，代表提取到的特征向量的效果越好；

为了避免测试结果的偶然性，分别将本发明与现有方法进行十次节点聚类实验，得到如图2所示的本发明与现有方法在Cora网络上的节点聚类实验的NMI对比图，及如图3所示的本发明与现有方法在CiteSeer-M6网络上的节点聚类实验的NMI对比图；从图2和3可以看出，本发明在Cora和CiteSeer-M6网络上提取的节点的特征向量的聚类效果均优于现有方法，达到令人满意的聚类效果，特别是本发明相比于DeepWalk方法，本发明得到节点的特征向量的聚类准确率提升了35％，表明本发明提取的特征向量在处理网络任务时具有较高的精度。