CN110866838A

CN110866838A - 基于转移概率预处理的网络表示学习算法

Info

Publication number: CN110866838A
Application number: CN201911073399.5A
Authority: CN
Inventors: 吕少卿; 卢光跃; 包志强; 王洪刚
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-03-06

Abstract

本发明提供了一种基于转移概率预处理的网络表示学习算法，对网络中每个节点计算其前t步转移概率之和，然后利用转移概率之和通过相关系数计算两个节点的行为相似度，根据两个节点的行为相似度更新原始网络结构中边的权值；该步骤重复I次，从而得到处理后的网络结构；利用矩阵分解算法对处理后的网络结构进行网络表示学习。本发明能够有效提高学习效率，有效保留节点之间低阶和高阶信息，从而提高网络表示学习在复杂网络中社区发现任务的准确率。

Description

基于转移概率预处理的网络表示学习算法

技术领域

本发明属于社会网络计算及表示学习技术领域，特别涉及一种网络表示学习方法，可用于复杂网络中社区发现任务。

背景技术

网络表示学习是将网络中每个节点嵌入到低维向量空间，从而得到网络低维向量表示的一种技术。由于传统的网络表示方法，比如邻接矩阵等，具有稀疏性、维度较高且无法反映节点间潜在关系的缺点，在针对真实网络结构时表现较差，所以网络表示学习技术日益受到相关专家学者们的关注。网络表示学习将网络结构信息嵌入到低维稠密的向量空间，能够保留节点之间的连接关系，并且得到的结果能够应用于基于向量输入的各种复杂聚类模型，从而能够用来进一步完成复杂网络中社区发现任务。

现有网络表示学习模型的一般思想是保持网络结构低阶信息，Perozzi等人提出了一种基于随机游走和Skip-Gram模型的网络表示学习方法DeepWalk。DeepWalk通过随机游走算法来得到节点序列，以此当作词序列，然后利用Skip-Gram模型来学得节点的向量表示。Grover等人进一步扩展了DeepWalk获取节点序列的方式，通过引入两个参数使得随机游走方式具有广度优先和深度优先的特性。但是这些技术得到网络表示向量只保留了节点之间的低阶信息，没有保留网络结构中的社区信息。为了保留网络结构中的社区信息，Wang等人提出了M-NMF，利用非负矩阵分解来对网络表示学习模型和基于模块度的社区发现进行联合优化，从而使得最终的网络表示学习结果既包含有微观的连接信息又包含有社区信息。之后Cavallari等人提出了ComE模型，将社区发现、社区嵌入和节点嵌入作为一个闭环，把社区嵌入定义为多变量高斯分布，进而提高节点嵌入的效果。Tu等人参考了自然语言处理中的话题和社区的模型，提出了CNRL。

然而这些技术在将节点嵌入到低维向量时会损失一些距离信息，特别是对于一些统计重要节点(节点度大的节点等)，再做进一步的社区发现任务时会导致误差较大，因此Jin等人提出了结合马尔科夫随机场和网络嵌入的方法来检测社区结构，通过马尔科夫随机场结合节点之间的直接距离信息，但是这种方式是在网络嵌入的基础之上通过直接距离信息来修正社区发现结果，并没有从根本上改变网络表示学习的结果向量。

因此，研究一种能够综合保留网络结构中低阶和高阶信息，使得网络表示更加具有区分性的无监督网络表示学习方法是本技术领域科技人员的当务之急。

发明内容

为了克服现有技术的不足，本发明提供一种基于转移概率预处理的网络表示学习方法，以保留网络结构的社区信息，增强网络表示向量的区分性，进一步扩展网络表示学习算法在社区发现中的应用效果。

本发明解决其技术问题所采用的技术方案包括以下步骤：

S1，对网络中每个节点计算其前t步转移概率之和，然后利用转移概率之和通过相关系数计算两个节点的行为相似度，根据两个节点的行为相似度更新原始网络结构中边的权值；该步骤重复I次，从而得到处理后的网络结构；

S2，利用矩阵分解算法对处理后的网络结构进行网络表示学习。

所述的步骤S1包括以下步骤：

S11，输入描述网络节点之间连接信息的加权邻接矩阵W、节点度矩阵D、转移步长t，首次计算时矩阵W中每个元素w_ij为节点i和节点j之间边的权值，矩阵D中每个元素

计算每一个节点i的前t步转移概率之和

其中P＝D^-1W，P^k＝(D^-1W)^k；

S12，对于网络结构中每一条边(i,j)，计算节点i和节点j之间的行为相似度

并将w′_ij设置为节点i和节点j之间边(i,j)的新权值，其中ReLU为修正线性单元，Cor为相关系数计算；

S13，迭代执行步骤S11和S12 I轮。

所述的步骤S2包括以下步骤：

S21，输入迭代执行后新网络结构的加权邻接矩阵W′、节点度矩阵D′，计算节点转移概率P′＝D′^-1W′，其中矩阵W′中每个元素w′_ij为步骤S13的结果，矩阵D′中每个元素

S22，构造矩阵M，其中

λ为负采样个数参数；

S23，构造矩阵M′＝max(M，0)；

S24，对矩阵M′进行奇异值分解，M′＝U∑V^T；

S25，选取∑的前d个奇异值∑_d以及对应的向量U_d，最终的网络表示向量即为

d为最终要表示的数据维度。

所述的t取值为3～5。

所述的I取值为4～6。

所述的λ取值为32～64。

所述的d优选为64、128、256。

本发明的有益效果是：通过多轮转移概率之和相似度的数据处理之后，能够将在原始网络结构中有直接连接关系但属于不同社区的两个节点之间的权值降低；然后再对处理后的网络结构利用矩阵分解进行网络表示学习，能够有效提高学习效率。结合以上步骤能够有效保留节点之间低阶和高阶信息从而提高网络表示学习在复杂网络中社区发现任务的准确率。

附图说明

图1是基于转移概率预处理的网络表示学习流程框图；

图2是转移概率预处理的算法流程图；

图3是网络表示学习的算法流程图；

图4是示例网络示意图；

图5是基于转移概率预处理的网络表示学习结果示意图；

图6是DeepWalk网络表示学习结果示意图。

具体实施方式

本发明提供一种基于转移概率预处理的网络表示学习方法，如图1所示，具体包括以下步骤：

步骤S1：利用节点转移概率对原始网络结构进行处理。对网络中每个节点计算其前t步(t优选取值为3到5)转移概率之和，然后利用转移概率之和通过相关系数计算两个节点的行为相似度，根据两个节点的行为相似度更新原始网络结构中边的权值；该步骤重复I次(I的优选取值范围为4到6)，从而得到处理后的网络结构。

步骤S2：利用矩阵分解算法对处理后的网络结构进行网络表示学习。

进一步地，所述步骤S1包括以下步骤：

步骤S11：输入描述网络节点之间连接信息的加权邻接矩阵W、节点度矩阵D、转移步长t，其中首次计算时矩阵W中每个元素w_ij为节点i和节点j之间边的权值，矩阵D中每个元素

计算每一个节点i的前t步转移概率之和

其中P＝D^-1W，P^k＝(D^-1W)^k。

步骤S12，对于网络结构中每一条边(i,j)，计算节点i和节点j之间的行为相似度，

并将w′_ij设置为节点i和节点j之间边(i,j)的新权值。其中ReLU为修正线性单元(Rectified Linear Unit)，Cor为相关系数计算。

步骤S13，迭代执行步骤S11和步骤S12 I轮。

进一步地，所述步骤S2包括以下步骤：

步骤S21，输入迭代执行后新网络结构的加权邻接矩阵W′，节点度矩阵D′，计算节点转移概率P′＝D′^-1W′。其中矩阵W′中每个元素w′_ij为步骤S13的结果，矩阵D′中每个元素

步骤S22，构造矩阵M，其中M_ij＝ln(P′_ij)-ln(λD′_iiD′_jj)，其中λ为负采样个数参数(其中λ的优选取值范围为32到64。)。

步骤S23，构造矩阵M′＝max(M，0)。

步骤S24，对矩阵M′进行奇异值分解(Singular Value Decomposition,SVD)，M′＝U∑V^T

步骤S25，选取∑的前d个(d为最终要表示的数据维度，优选为64、128、256)奇异值∑_d，以及对应的向量U_d，最终的网络表示向量即为

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

本发明提供的方法包括以下步骤：

步骤S1：利用节点转移概率对原始网络结构进行处理。对网络中每个节点计算其前t步转移概率之和(t优选取值为3到5)，然后利用转移概率之和通过相关系数计算两个节点的行为相似度，根据两个节点的行为相似度更新原始网络结构中边的权值；该步骤重复I次(I的优选取值范围为4到6)，从而得到处理后的网络结构。

步骤S11：计算网络结构中节点前t步转移概率之和

在网络结构G中前t步转移概率之和计算如公式(1)

公式(1)中：

t表示总的转移步长；

W表示网络结构G的加权邻接矩阵，W中每个元素w_ij为节点i和节点j之间边的权值；

D表示网络结构G的节点度矩阵，D中每个元素

步骤S12，计算节点的行为相似度

对于网络结构G中的每一条边(i,j)，计算节点i和节点j之间的行为相似度，并将行为相似度设置为节点i和节点j之间边(i,j)的新权值。行为相似度计算如公式(2)

公式(2)中：

分别为节点i和节点j的前t步转移概率之和向量；

Cor为相关系数计算公式；

ReLU为修正线性单元(Rectified Linear Unit)，ReLU(x)＝max(0,x)。

步骤S13，迭代执行步骤S11和步骤S12 I次。

S2：基于矩阵分解得到网络表示学习结果向量

步骤S21，根据迭代执行后的新权值网络结构的加权邻接矩阵W′，计算节点度矩阵D′，节点转移概率P′。其中节点度矩阵D′中每个元素d′_ij的计算如公式(3)，节点转移矩阵P′计算如公式(4)。

P′＝D′^-1W′ (4)

步骤S22，构造新矩阵M，基于负采样的Skip-Gram网络表示学习能够表示为对矩阵M的矩阵分解，矩阵M中每个元素m_ij的计算如公式(5)

m_ij＝ln(P′_ij)-ln(λD′_iiD′_jj) (5)

其中m_ij为矩阵M中第i行，j列的元素；

P′_ij为节点i和节点j之间的转移概率；

D′_ii和D′_jj分别为节点i和节点j的权值之和；

λ为负采样个数参数,优选取值范围为32到64；

ln为以e为底的对数。

步骤S23，构造矩阵M′＝max(M，0)

步骤S24，对矩阵M′进行奇异值分解(Singular Value Decomposition,SVD)，其中分解公式如公式(6)

M′＝U∑V^T (6)

公式(6)中：

U和V^T都是酉矩阵；

∑是对角矩阵，对角线上每个元素都是奇异值。

步骤S25，选取∑的前d个奇异值∑_d，以及对应的向量U_d，计算最终的网络表示学习向量，计算如公式(7)所示：

其中d为最终要表示的数据维度，优选值为64、128、256。

总体算法流程框图如图1所示。

为了进一步说明本发明在复杂网络中社区发现任务的效果，采用被广泛使用的标准化信息NMI作为评估方法，将本发明方法与DeepWalk算法相比较，具体仿真如下：

1.仿真条件与评价指标：

在Intel(R)Core(TM)i7-6500U CPU 2.5GHz Windows 10系统下，在Python3.6运行平台上进行。

2.仿真实验内容与结果

仿真一，图4为示例网络示意图，其中不同形状代表该网络中不同节点真实的社区归属，同一形状的节点属于同一个社区。用本发明方法对图4所示的网络进行表示学习并对得到的网络表示经过t-SNE进行二维平面可视化，结果如图5示。图5中相同形状节点属于相同的真实社区。同样用DeepWalk方法进行网络表示学习，并将得到的表示结果利用t-SNE进行二维平面可视化，结果为图6。通过对比图5与图6可知，本发明对图4示例网络学到的表示结果使得属于同一社区的节点更加紧密，不同社区的节点之间距离更远，通过图5可以明显看出该网络具有四个社区结构。

仿真二，利用本方法学到的网络表示结果采用K均值算法对该网络进行社区发现任务，并采用归一化互信息值判断与真实值的差异，本方法得到的NMI1＝0.9233，即本发明所学到的网络表示用于社区发现任务具有很高的准确性。

采用DeepWalk方法对图4所示的网络进行表示学习，并利用学到的网络表示结果采用K均值算法进行社区发现任务，可以得到归一化互信息值NMI2＝0.7638。

将DeepWalk方法得到的归一化互信息值NMI2＝0.7638与本发明得到的归一化互信息值NMI1＝0.9233作对比，结果发现本发明学到的网络表示在社区发现任务上具有更高的准确性。