CN113065974B

CN113065974B - 一种基于动态网络表示学习的链路预测方法

Info

Publication number: CN113065974B
Application number: CN202110280461.9A
Authority: CN
Inventors: 李向华; 朱俊优; 高超; 王震; 朱培灿; 李学龙
Original assignee: Northwestern Polytechnical University
Current assignee: Xi'an Sanhang Shijie Technology Co.,Ltd.
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2023-08-18
Anticipated expiration: 2041-03-16
Also published as: CN113065974A

Abstract

本发明公开了一种基于动态网络表示学习的链路预测方法，包括：获取动态网络的邻接矩阵；通过计算动态网络节点间的相似度值，构建快照网络的相似度矩阵；将图卷积神经网络应用到单个快照网络中进行特征聚合，并利用邻接矩阵和相似度矩阵指导特征聚合过程，确定节点的低维特征表示；将节点的低维特征表示输入到逻辑回归分类器中，获得动态网络的链路预测结果。本发明通过基于相似性的聚合策略，能够确保当前时刻网络上的节点低维表示质量。通过利用在卷积神经网络中使用的互信息最大化策略，得到蕴涵网络全局结构信息的节点低维向量表示，基于这些节点的低维向量表示输入逻辑回归分类器，可以输出链路预测结果。

Description

一种基于动态网络表示学习的链路预测方法

技术领域

本发明涉及人工智能与复杂网络技术领域，更具体的涉及一种基于动态网络表示学习的链路预测方法。

背景技术

现实世界中的一些复杂关系可以由网络来描述，对于网络中的实体可以用抽象网络中的节点来表示，而对于实体间的联系则可以用边来描述。利用复杂网络对现实世界建模是一种非常有效的方法。复杂网络利用科学的研究手段将现实世界中的数据以一种易于理解和应用的方式来呈现，也正因如此，目前对复杂网络的研究受到广泛的关注。其中，复杂网络中的链路预测研究，对分析诸如社交网络中用户间的信息交流与传播具有重要意义。

复杂网络中的社交信息传播预测是研究热点之一，其目的是预测网络中节点(用户)间可能存在的连边(用户间的关系)。随着信息技术的进步，社交网络的规模急剧增加，庞大的社交即时通信网络(如微信，邮件等)极大促进了信息的传播与交流，却也使得相关部门对网民的行为监测和信息传播管控变得更为棘手和复杂。面对如今网络信息的爆发式、碎片化传播等问题，如果不进行有效的干预和调控，将可能引发网络舆情的大幅度扩散从而影响社会的稳定，因此，研究出大规模社交网络的信息扩散和结构的变化，为维持网络的稳定发展提供科学数据，具有重要的社会应用价值。

此外，在日常生活中，社交网络往往随着时间的延续而不断的发展，也即网络中的用户和用户间的交互是随时间的变化而变化的。从社交网络的发展来说，会有新的用户因注册社交账号而加入网络，也会有用户因注销社交账号而退出网络；没有联系的两个社交用户间也有可能在未来建立联系；经常联系的两个用户可能逐渐淡化联系以至不存在信息交流。面对网络的动态变化，对诸如舆情信息传播控制提出了新的要求和挑战。针对以上这些问题，可以采用基于网络表示学习的分析方式，利用动态网络链路预测的方法，预测出社交通讯网络中可能存在的用户间的通讯交互，不仅可以帮助分析网络信息的传播规律，而且还可以预测出网络信息的传播可能和动向，进而为诸如舆情控制部门制定舆情抑制方案提供科学的参考。

通过表征学习网络的低维向量表示来预测网络中可能存在的链路，目前已经提出了一些方案。根据类别可以大致分成三类：1.基于非负矩阵分解方法。该方法通过将网络的邻居矩阵或者其他信息矩阵分解成基矩阵和系数矩阵。尽管通过矩阵分解操作可以将网络中的多种属性信息投影到低维表示空间中，但是由于非负矩阵分解涉及大规模的矩阵运算，当输入网络规模较大时将造成大量的时间开销，导致其难以运用于大规模网络。2.基于随机游走的方法。该方法采用自然语言处理的技术，把在网络随机游走得到的节点序列当成句子，节点当成单词，并运用word2cec来生成节点的低维表示。基于随机游走的方法相对于非负矩阵方法在时间开销上提高了效率，减小了计算代价，但是该算法只能捕捉到网络的拓扑结构信息，而不能考虑到网络的属性信息，这限制了该方法在属性网络上的运用。3.基于深度学习的方法。该方法的一种实现方式是利用图卷积神经网络来学习节点的低维表示。通过运用图卷积操作可以将邻居节点属性信息聚合给目标节点并相应更新其特征，并输出最后的特征为低维表示。这类方法基于局部策略能够很好的运用于大规模网络，并捕捉到网络的属性特征信息。

然而，目前大部分基于图卷积神经网络的网络表示学习方法都采用一种平均聚合邻域节点特征的策略，忽视了不同邻域节点对目标节点的重要性。此外，大部分网络表示学习方法主要关注静态网络，尽管有些方法考虑到了网络的动态性，但是这些方法在面对网络中边的改变，如增加、减少、改变属性时不能够捕捉到网络的全局特征。

发明内容

本发明实施例提供一种基于动态网络表示学习的链路预测方法，用以解决上述背景技术中提出的问题。

本发明实施例提供一种基于动态网络表示学习的链路预测方法，包括：

获取动态网络的邻接矩阵；

通过计算动态网络节点间的相似度值，构建快照网络的相似度矩阵；

将图卷积神经网络应用到单个快照网络中进行特征聚合，并利用邻接矩阵和相似度矩阵指导特征聚合过程，确定节点的低维特征表示；

将节点的低维特征表示输入到逻辑回归分类器中，获得动态网络的链路预测结果。

进一步地，所述构建快照网络的相似度矩阵，包括：

其中，v_i表示节点i，v_j表示节点j，S_{Dice_new}(v_i,v_j)对应于相似度矩阵S_{Dice_new}中的第i行第j列元素，即节点v_i和节点v_j的相似度值；N(v_i)表示节点v_i的邻居节点集合，N(v_i)∪{v_i}表示将节点v_i本身也添加到自己的邻居节点集合；N(v_i)表示节点v_j的邻居节点集合，N(v_j)∪{v_j}表示将节点v_j本身也添加到自己的邻居节点集合；|Ν(v_j)∪Ν{v_j}|表示集合N(v_j)∪{v_j}中元素的数量。

进一步地，所述确定节点的低维特征表示，包括：

其中，H^t为单个快照网络t上的正样本低维表示；为编码器；S_{Dice_new}为快照网络的相似度矩阵；/>并且/>表示矩阵/>的第i行i列对应的元素，ReLU为ReLU函数；A^t为快照网络t的邻接矩阵，I_N为单位矩阵；/>为调控参数且/>X^t为快照网络t的特征矩阵；/>为时间步t上的卷积神经网络的权重矩阵。

进一步地，本发明实施例提供的基于动态网络表示学习的链路预测方法，还包括：采用长短记忆网络LSTM更新时间步t上的卷积神经网络的权重矩阵；其具体为：

F_t＝σ(M_FW^t-1+U_FW^t-1+Q_F)

I_t＝σ(M_IW^t-1+U_IW^t-1+Q_I)

O_t＝σ(M_OW^t-1+U_OW^t-1+Q_O)

W^t＝O_ttanh(C_t)

其中，和/>为循环神经网络的权重矩阵，Q_ξ为偏置向量，并且有ξ∈{F,I,O,C}；W^t-1为上一时刻的卷积神经网络的权重矩阵。

进一步地，本发明实施例提供的基于动态网络表示学习的链路预测方法，还包括：通过引入鉴别器D最大化节点的局部表示向量簇和g^t的互信息，使低维表示矩阵H^t能够捕捉到网络的全局结构特征；其具体为：

其中，为H^t的第i行行向量；g^t为单个快照网络t上的全局低维表示；/>为/>的第i行向量，/>为单个快照网络t上的负样本低维表示，/>表示由鉴别器对/>和g^t打分得到的分数。

进一步地，所述单个快照网络t上的负样本低维表示包括：

随机将快照网络t的特征矩阵X^t的每一行打乱顺序，形成矩阵

将X^t替换为得到/>

进一步地，所述单个快照网络t上的全局低维表示g^t为：

其中，为读出函数；σ为Sigmoid函数。

进一步地，所述鉴别器D由双线性评分函数构成：

其中，B^t为可训练的打分矩阵。

进一步地，所述动态网络的链路预测结果为：

E＝{E¹,E²,...,E^t}

其中，E^t＝{e^t _i,j},e^t _i,j表示在t时刻，节点v_i和节点v_j存在连边，即邻接矩阵A^t的第i行第j列的值为1。

本发明实施例提供一种基于动态网络表示学习的链路预测方法，与现有技术相比，其有益效果如下：

本发明开发了一种能够捕捉网络动态特征的网络表示学习方法，并且同时考虑网络的拓扑特征和属性特征，在解决一些基于网络的分析任务，如链路预测问题显得很有必要。具体地，通过设计一种新的Dice相似度矩阵来度量网络节点间的重要性，能够根据不同领域节点对目标节点重要性指导节点特征的聚合过程，以生成高质量的节点表示，即通过基于相似性的聚合策略，能够确保当前时刻网络上的节点低维表示质量。通过利用在卷积神经网络中使用的互信息最大化策略，能够得到蕴涵网络全局结构信息的节点低维向量表示，基于这些节点的低维向量表示输入逻辑回归分类器，可以输出链路预测结果。通过利用长短记忆网络(LSTM)的基于时间序列的建模能力，挖掘出动态网络中潜在特征，能够捕捉到动态网络的时序特征信息，即利用长短记忆网络(LSTM)对图卷积神经网络的权重进行建模。LSTM可以很好记忆网络的时间序列特征，并将网络的时序特征嵌入到节点的低维表示当中，这在捕获网络中的时序特征信息以提高诸如链路预测等下游任务的准确度问题上都有很强的优势，从而通过利用LSTM来更新图卷积网络的权重参数，减小了模型的参数量，保证了在时间步数量多的情况下的效率，从而提高大规模网络表示学习的效率。本发明适用于无向属性动态网络。将本发明的方案与其他方法在真实世界网络上测试链路预测任务比较，结果表明本方案优于其他的对比方法，具有较高准确性。

附图说明

图1为本发明实施例提供的一种基于动态网络表示学习的链路预测方法的流程图；

图2为本发明实施例提供的一种基于动态网络表示学习的链路预测方法的详细图解；

图3为本发明实施例提供的新Dice相似度矩阵指导特征聚合的计算图解；

图4为本发明实施例提供的LSTM更新图卷积网络的权重矩阵图解；

图5为本发明实施例提供的在人工网络下的网络低维表示可视化效果；

图6为本发明实施例提供的在社交网络中的链路预测效果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种基于动态网络表示学习的链路预测方法，该方法具体包括：

S1：输入动态网络G＝{G₁,G₂,…,G_Ti}的邻接矩阵。表1展示了所测试的真实网络数据集的规模：

表1真实网络数据集规模

数据集	节点数	边数	时间步
				Email	2029	39264	29
Facebook	60730	607487	20
				Askubuntu	159316	964437	22

其中，Email是邮件转发网络，节点代表用户个体，连边表示两个用户之间存在消息转发关系。Facebook为脸书上帖子转发网络，节点代表具体用户，连边代表两个用户存在转发帖子的关系。Askubuntu是一个问答网络，节点代表用户，两个用户之间的连边代表相互有评论关系。

S2：判断当前时间步t是否小于总的时间步长Ti，若小于则执行S3,否则执行S12。

S3：构造t时刻快照网络的相似度矩阵，计算方式为：

其中，v_i表示节点i，v_j表示节点j，S_{Dice_new}(v_i,v_j)对应于相似度矩阵S_{Dice_new}中的第i行第j列元素，即节点v_i和节点v_j的相似度值；N(v_i)表示节点v_i的邻居节点集合，N(v_i)∪{v_i}表示将节点v_i本身也添加到自己的邻居节点集合；N(v_i)表示节点v_j的邻居节点集合，N(v_j)∪{v_j}表示将节点v_j本身也添加到自己的邻居节点集合；|N(v_i)∪{v_i}|表示集合N(v_i)∪{v_i}中元素的数量；|Ν(v_j)∪Ν{v_j}|表示集合N(v_j)∪{v_j}中元素的数量。

S4：若当前时间步t＝1(即为第一个快照网络)，则执行S5,否则执行S6。

S5：随机初始化当前时间步的卷积神经网络的权重矩阵

S6：使用LSTM来更新时间步t上的权重W^t，计算方式包括以下六个子步骤：

F_t＝σ(M_FW^t-1+U_FW^t-1+Q_F)

I_t＝σ(M_IW^t-1+U_IW^t-1+Q_I)

O_t＝σ(M_OW^t-1+U_OW^t-1+Q_O)

W^t＝O_ttanh(C_t)

S7：计算单个快照网络t上的低维表示(正样本)H^t，其计算方法通过所设计的节点表示编码器来实现，具体实现为：

其中,S_{Dice_new}为快照网络基于步骤S3建立的相似度矩阵。并且/>表示矩阵/>的第i行i列对应的元素，ReLU为ReLU函数。A^t为快照网络t的邻接矩阵，I_N为单位矩阵。/>为可认为调控的参数且在本发明中设置/>X^t为快照网络t的特征矩阵。

S8：计算单个快照网络t上的低维表示(负样本)首先随机为原始特征矩阵X^t的每一行打乱顺序，形成/>接着将得到的/>替换X^t并执行步骤S7得到低维表示矩阵/>即

S9：计算单个快照网络t上的全局低维表示g^t，其计算方法通过读出函数来实现。具体实现为：

其中，为H^t的第i行行向量，σ为Sigmoid函数。

S10：计算交叉损失熵，即需要最大化与g^t之间的互信息。具体计算为：

其中，为/>的第i行向量，/>为节点v_i的低维向量表示，g^t为网络的全局图表示。表示是由鉴别器/>对/>和g^t打分得到的分数。具体地，鉴别器D由简单的双线性评分函数构成，其计算方式为：

其中，B^t为可训练的打分矩阵。

S11：将得到的低维表示H^t输入到逻辑回归分类器中，得到下一个快照网络中的存在的链路信息E^t＝{e^t _i,j},e^t _i,j表示在t时刻，节点v_i和节点v_j存在连边，即邻接矩阵A^t的第i行第j列的值为1。

S12：输出动态网络的链路预测结果E＝{E¹,E²,…,E^t}。

对上述步骤S1～S12的相关说明和分析如下：

图2所示的是本发明的详细图解。具体来说，本发明的执行过程可以分为两个模块：(I)单个时间序列上的卷积表示学习模块，(II)捕捉网络的时序特征模块。其中，单个时间序列上的卷积表示学习模块由四个部分组成：A)重组策略，对网络的属性矩阵进行随机打乱生成新的网络属性矩阵，从而达到对网络的重组；B)聚合策略，对网络构建新的Dice相似度矩阵，并利用得到的相似度矩阵来指导特征聚合过程；C)GCN层，实现图卷积操作，通过图卷积过程生成节点的低维表示矩阵H^t和权重矩阵W^t；D)互信息最大化，首先通过读出函数得到网络的全局向量表示g^t，接着通过引入鉴别器D来最大化节点的局部表示向量簇和g^t间的互信息，从而使得低维表示矩阵H^t能够捕捉到网络的全局结构特征。对于捕捉网络的时序特征模块，长短记忆网络(LSTM)被利用来更新卷积网络的权重参数，使得前面时间序列中的快照网络信息能够记忆并传递给下一个快照网络的卷积过程，从而捕捉到网络的时序特征信息。

图3展示了的本发明关于构建新Dice相似度矩阵来指导特征聚合的计算图解。图例为一个拥有6个节点的图，节点v₁和v₂间的相似度值为(对应于矩阵的第一行第二列的元素)。同理，节点v₂和v₅间的相似度值为(对应于矩阵的第二行第五列的元素)。由于网络是无向的，因此生成的S_{Dice_new}为对称矩阵。之后将网络的邻接矩阵A和S_{Dice_new}矩阵相加，并将相加的数值作为对应节点间的聚合权重。如节点v₁和v₂在邻接矩阵中有连边故数值为1，在与计算得到的S_{Dice_new}(v₁,v₂)≈0.7相加后为1.7，则该两个节点之间的聚合权重为1.7。

图4展示了本发明关于LSTM更新图卷积网络的权重矩阵的图解。具体来说，通过将上一时刻的图卷积神经网络(GCN)的权重W^t输入到LSTM并输出下一个时间步中GCN的权重W^t。即W^t＝LSTM(W^t-1)。

图5展示了本发明在人工网络下的网络低维表示可视化效果。该人工网络使用SYN-Event基准测试集生成器生成，生成所用到的参数为μ＝0.15，μ为控制生成网络的社团结构清晰度，μ越大社团结构越不清晰。从图中可以看出来，本发明的方法(DGCN)可以较好的将相似的节点投影到相邻的二维空间中。而其他方法不能很清晰的将相似的节点投影到相似的二维空间中，其投影界限也不清晰。

图6展示了本发明在三个真实社交网络中的链路预测效果。其中横坐标代表逻辑回归器中用于训练的边比例。纵坐标中的“Average”，“Hadmard”代表在将低维表示输入逻辑回归分类器时对链路(节点间的连边)的两种估计操作。对于链路预测结果采用ROC曲线下的面积(AUC)作为衡量标准，AUC值越高代表预测出链路的准确率越高。从图6中可以看出本发明所提出的方法(DGCN)在所有网络上均优于其他方法。

综上所述，本发明涉及的网络表示学习算法是一种基于图神经网络的无监督学习方法，能够通过聚合网络中邻居节点间的特征来更新目标节点的特征表示，从而捕捉到网络的结构特征和属性特征。但缺点是在特征聚合过程中难以区分不同邻域节点对目标节点的重要性。因此，本发明提出一种新的Dice相似度矩阵来度量节点间的重要性，并通过该重要性来指导节点特征的聚合过程，这使得节点在特征表示的生成过程中能够基于邻域节点对自己的重要程度来进行偏好聚合。此外，为了能够捕捉到网络的动态特征，本发明提出的网络表示学习方法利用LSTM来记忆并更新卷积神经网络的权重信息。最后，将本发明的方法应用到社交网络的消息传播预测中，成功预测出社交用户间可能存在的消息传播事件，这为网络舆情管理人员制定舆情传播抑制方案提供了科学依据。

以上公开的仅为本发明的几个具体实施例，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围内。

Claims

1.一种基于动态网络表示学习的链路预测方法，其特征在于，包括：

获取动态网络的邻接矩阵；其中，所述动态网络包括：Email邮件转发网络，节点代表用户个体，连边表示两个用户之间存在消息转发关系；所述动态网络还包括：Facebook脸书上帖子转发网络，节点代表具体用户，连边代表两个用户存在转发帖子的关系；所述动态网络还包括：Askubuntu问答网络，节点代表用户，两个用户之间的连边代表相互有评论关系；

通过计算动态网络节点间的相似度值，构建动态网络的相似度矩阵；所述相似度矩阵为：

其中，v_i表示节点i，v_j表示节点j，S_{Dice_new}(v_i，v_j)对应于相似度矩阵S_{Dice_new}中的第i行第j列元素，即节点v_i和节点v_j的相似度值；N(v_i)表示节点v_i的邻居节点集合，N(v_i)∪{v_i}表示将节点v_i本身也添加到自己的邻居节点集合；N(v_i)表示节点v_j的邻居节点集合，N(v_j)∪{v_j}表示将节点v_j本身也添加到自己的邻居节点集合；|N(v_i)∪{v_i}|表示集合N(v_i)∪{v_i}中元素的数量；|N(v_j)∪N{v_j}|表示集合N(v_j)∪{v_j}中元素的数量；

将图卷积神经网络应用到单个动态网络中进行特征聚合，并利用邻接矩阵和相似度矩阵指导特征聚合过程，确定节点的低维特征表示；所述节点的低维特征表示为：

其中，H^t为单个动态网络t上的正样本低维表示；p_(t)：为编码器；S_{Dice_new}为动态网络的相似度矩阵；/>并且/>表示矩阵/>的第i行i列对应的元素，ReLU为ReLU函数；A^t为动态网络t的邻接矩阵，I_N为单位矩阵；/>为调控参数且/>X^t为动态网络t的特征矩阵；/>为时间步t上的卷积神经网络的权重矩阵；

将节点的低维特征表示输入到逻辑回归分类器中，获得动态网络的链路预测结果；所述动态网络的链路预测结果E为：

E＝{E¹，E²，...，E^t}

其中，E^t＝{e^t _i，j}，e^t _id表示在t时刻，节点v_i和节点v_j存在连边，即邻接矩阵A^t的第i行第j列的值为1。

2.如权利要求1所述的基于动态网络表示学习的链路预测方法，其特征在于，还包括：采用长短记忆网络LSTM更新时间步t上的卷积神经网络的权重矩阵W^t；具体为：

F_t＝σ(M_FW^t-1+U_FW^t-1+Q_F)

I_t＝σ(M_IW^t-1+U_IW^t-1+Q_I)

O_t＝σ(M_OW^t-1+U_OW^t-1+Q_O)

W^t＝O_ttanh(C_t)

其中，和/>为循环神经网络的权重矩阵，Q_ξ为偏置向量，并且有ξ∈{F，I，O，C}；W^t-1为上一时刻的卷积神经网络的权重矩阵。

3.如权利要求2所述的基于动态网络表示学习的链路预测方法，其特征在于，还包括：通过引入鉴别器最大化节点的局部表示向量簇/>和g^t间的互信息，使低维表示矩阵H^t能够捕捉到网络的全局结构特征；其具体为：

其中，为交叉损失熵；/>为H^t的第i行行向量；g^t为单个动态网络t上的全局低维表示；/>为/>的第i行向量，/>为单个动态网络t上的负样本低维表示，/>表示由鉴别器对/>和g^t打分得到的分数。

4.如权利要求3所述的基于动态网络表示学习的链路预测方法，其特征在于，所述单个动态网络t上的负样本低维表示包括：

随机将动态网络t的特征矩阵X^t的每一行打乱顺序，形成矩阵

将X^t替换为得到/>

5.如权利要求3所述的基于动态网络表示学习的链路预测方法，其特征在于，所述单个动态网络t上的全局低维表示g^t为：

其中，为读出函数；σ为Sigmoid函数。

6.如权利要求3所述的基于动态网络表示学习的链路预测方法，其特征在于，所述鉴别器由双线性评分函数构成：

其中，B^t为可训练的打分矩阵。