CN110413844A

CN110413844A - 基于时空注意力深度模型的动态链路预测方法

Info

Publication number: CN110413844A
Application number: CN201910440098.5A
Authority: CN
Inventors: 陈晋音; 李玉玮; 徐轩桁; 陈一贤
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-11-05
Anticipated expiration: 2039-05-24
Also published as: CN110413844B

Abstract

本发明公开了一种时空注意力深度模型的动态链路预测方法，包括以下步骤：以动态网络对应的邻接矩阵A作为输入，其中，所述动态网络包括社交网络、通信网络、科学合作网络或社交安全网络；采用LSTM‑attention模型从邻接矩阵{h_t‑T,...,h_t‑1}中提取隐含层向量{h_t‑T,...,h_t‑1}，并根据T个时刻的隐含层向量{h_t‑T,...,h_t‑1}计算上下文向量a_t，该上下文向量a_t作为时空特征向量输入至解码器中；采用解码器对输入的时间特征向量a_t进行解码，输出解码获得的表示节点与节点之间是否具有链路的概率矩阵，即实现了动态链路的预测。该动态链路预测方法通过提取动态网络的时空特征，实现了端到端的动态网络的链路预测。

Description

基于时空注意力深度模型的动态链路预测方法

技术领域

本发明属于网络科学领域，具体涉及一种基于时空注意力深度模型的动态链路预测方法。

背景技术

复杂网络的动态链路预测广泛应用于各个领域，包括社交网络、经济学、生物学，及工业系统等。绝大多数实际网络的结构随时间推移而演变(节点或连边随着时间的推移而添加和删除)，这类网络的链路预测称为动态网络链路预测。动态网络链路预测已经广泛应用于各种现实世界的网络，包括社交网络中预测朋友关系、通信网络中预测未来通信关系、科学合作网络中预测未来的同事关系、社交安全网络中定位犯罪分子并预测犯罪时间、疾病传染、蛋白质相互作用，及其他许多领域的演化模式。

基于机器学习的动态链路预测方法已被提出，通过计算网络的最佳相似性来提高链路预测的性能。Catherine A等(参照文献1：Bliss C A,Frank M R,Danforth C M,etal.An evolutionary algorithm approach to link prediction in dynamic socialnetworks[J].Journal of Computational Science,2014,5(5):750-764.；即一种预测动态社会网络链路的进化算法)提出协方差矩阵自适应演化策略(CMA-ES)进行优化权重，从而实现了16个邻域和节点相似性指标的线性组合，提高链路预测的精度。Chen等(参照文献2：Chen K J,Chen Y,Li Y,et al.Asupervised link prediction method for dynamicnetworks[J].Journal of Intelligent&Fuzzy Systems,2016,31(1):291-299.；即一种有监督的动态网络链路预测方法)提出了一种监督的动态网络链路预测方法，为每个属性训练一个分类器，并集成所有分类器的结果进行链路预测。通常优化方法的计算复杂度较高，易受到现有相似性指数的限制。

为了更深层次地考虑网络的结构相似性以及同质性，提出了许多用于动态网络链路预测的网络嵌入方法。受word2vec的启发而提出了DeepWalk(参照文献3：Perozzi B,Al-Rfou R,Skiena S.DeepWalk:online learning of social representations[C]//ACMSIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2014:701-710.；即DeepWalk：社会表征的在线学习)和node2vec(参照文献4：Grover A,Leskovec J.node2vec:Scalable Feature Learning for Networks[C]//ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining.ACM,2016:855-864.；即node2vec：网络可扩展的特征学习)，通过抽样节点生成游走序列并利用skip-gram模型获得节点和连边的向量。其他基于随机游走的方法，比如大规模信息网络嵌入(LINE)(参照文献5：Zhang M,Tang J,Qu M,et al.LINE:Large-scale Information NetworkEmbedding[J].2015,2(2):1067-1077.；即LINE：大规模的信息网络嵌入)，以类似的方式学习节点表征，但具有不同的游走策略。这样的方法将网络映射到低维向量空间以获得每个连边的特征向量，训练分类器来预测连边(二分类：存在或不存在)。

上述动态链路预测方法都基于网络，即根据给定时间内网络的结构信息来预测未来时刻的链路关系。然而，这些方法仅考虑先前时刻的网络拓扑信息作为一个整体，而忽略先前时刻网络的动态演变过程。

除了学习动态网络空间特征之外，也有方法通过学习动态网络的时间信息来提高动态链路预测性能。人们开始利用先前的网络序列来预测未来的链路，通过将结构信息和时间信息集成在一起以模拟动态演化过程(参照文献6：Ibrahim N M A,Chen L.Linkprediction in dynamic social networks by integrating different types ofinformation[J].Applied Intelligence,2015,42(4):738-750.；即基于各种类型信息的动态社交网络链路预测方法)。Sina Sajadmanesh等(参照文献7：Sajadmanesh S,Zhang J,Rabiee H R.NPGLM:A Non-Parametric Method for Temporal Link Prediction[J].2017.；即NPGLM：一种五参数的时间链路预测方法)引入了非参数广义线性模型(NP-GLM)，根据链路出现时间的特征推断出时间的潜在概率分布。由于网络的动态特性，最近的对于未来的链路预测更可靠，Xiaoyi Li等(参照文献8：Li X,Du N,Li H,et al.A deeplearning approach to link prediction in dynamic networks[C]//Proceedings ofthe 2014SIAM International Conference on Data Mining.Society for Industrialand Applied Mathematics,2014:289-297.；即一种用于动态网络链路预测的深度学习方法)提出了一种基于条件时间受限玻尔兹曼机(ctRBM)的深度模型框架，以学习大规模进化网络的动态特性。

由于现有的网络嵌入方法直接应用于动态图的每个网络，很大程度上忽略了网络的时间动态信息，因此不少研究开始将时间信息集成到网络嵌入中，使其能够捕获动态演化的动态演变。Giang Hoang Nguyen等(参照文献9：Nguyen G H,Lee J B,Rossi R A,etal.Continuous-Time Dynamic Network Embeddings[C]//Companion of the the WebConference.2018:969-976.；即连续时间动态网络嵌入)提出了从连续时间动态网络学习时间约束的嵌入方法。Lekui Zhou等(参照文献10：Zhou L,Yang Y,Ren X,et al.DynamicNetwork Embedding by Modeling Triadic Closure Process[C]//AAAI.2018.；即基于三元组建模的动态网络嵌入)提出了一种新的表征学习方法，即动态三元组学习法(DynamicTriad)，保存给定网络的结构信息和演化模式，从而使模型能够捕捉网络动态，并学习每个节点在不同的时间步骤中的表征向量。这些方法通常只关注未来新添加的连边，而忽略其他消失或者不变的连边。

长短时记忆网络(LSTM)(参照文献11：Hochreiter S,Schmidhuber J.Longshort-term memory.[J].Neural Computation,1997,9(8):1735-1780.；即长短时记忆)最初由Sepp Hochreiter和Jrgen Schmidhuber于1997年提出，是RNN的一种特殊变种，可以处理长期依赖的时序数据。LSTM已成功应用于各个领域，比如图像领域、视频处理领域、语言模型、语音识别和机器翻译等。最近，在动态网络中，LSTM模块用于自适应地捕获每个时间下表征的多维交互之间的依赖性(参照文献12：Wu X,Shi B,Dong Y,et al.Neural TensorFactorization[J].arXiv preprint arXiv:1802.04416,2018.；即神经张量分解)。

大多数现实世界的网络数据不具有规则的空间结构，导致在图像领域中广泛使用的卷积神经网络不能处理这些网络数据。因此，Joan Bruna(参照文献13：Defferrard M,Bresson X,Vandergheynst P.Convolutional Neural Networks on Graphs with FastLocalized Spectral Filtering[J].2017.；即快速局部光谱滤波的图卷积神经网络)最早于2014年提出了图形卷积网络(GCN)来处理网络数据。最近，一些工作采用GCN来学习网络数据的结构特征，从而实现各种任务，比如网络表示学习和节点分类(参照文献14：Kipf TN,Welling M.Semi-Supervised Classification with Graph Convolutional Networks[J].2016.；即图卷积网络的半监督分类)。

在许多基于序列的任务中，注意力机制(attention)已经得到了广泛的研究。注意机制的优势是帮助深度模型集中关注输入中与任务最相关的部分，做出更好的决策。Mnih等(参照文献15：Mnih V,Heess N,Graves A.Recurrent models of visual attention[C]//Advances in neural information processing systems.2014:2204-2212.；即图卷积网络的半监督分类)使用注意力更加关注输入图像对应于图像分类任务的相关部分。Xu等(参照文献16：Xu K,Ba J,Kiros R,et al.Show,attend and tell:Neural imagecaption generation with visual attention[C]//International conference onmachine learning.2015:2048-2057.；即通过视觉注意生成图像标题)使用注意力集中于图像描述任务的关键图像信息。Bahdanau D等(参照文献17：Bahdanau D,Cho K,BengioY.Neural machine translation by jointly learning to align and translate[J].arXiv preprint arXiv:1409.0473,2014.；即结合学习对齐的机器翻译)通过在输出句子中生成相应单词时分配权重来反映机器翻译任务的注意力，该权重反映了输入句子中不同单词的重要性。Ma等(参照文献18：Ma F,Chitta R,Zhou J,et al.Dipole:Diagnosisprediction in healthcare via attention-based bidirectional recurrent neuralnetworks[C]//Proceedings of the 23rd ACM SIGKDD International Conference onKnowledge Discovery and Data Mining.ACM,2017:1903-1911.；即偶极子：基于注意力的双向递归神经网络在医疗保健中的诊断预测)提出了单个注意力模型在医疗诊断预测中的应用，并提出了多种通用的注意力分数的计算公式。Wang等(参照文献19：Wang X,Yu L,RenK,et al.Dynamic attention deep model for article recommendation by learninghuman editors'demonstration[C]//Proceedings of the 23rd ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining.ACM,2017:2051-2059.；即基于编辑演示的文章推荐深度模型)把注意力模型应用于新闻推荐/筛选领域，根据新闻的文本和种类信息，同时考虑新闻的时效性和时间特征来完成新闻筛选。此外，注意力模型还广泛应用于问答系统，根据问题发现哪一部分输入和这个问题相关，从而能生成更加相关的答案。总之，基于注意力机制的深度模型已在计算机视觉和自然语言处理领域中实现重要应用。

注意力机制的深度模型在网络领域也有成功应用。Choi等(参照文献20：Choi E,Bahadori M T,Song L,et al.GRAM:graph-based attention model for healthcarerepresentation learning[C]//Proceedings of the 23rd ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining.ACM,2017:787-795.；即GRAM：基于医学本体图的注意力模型)提出了基于注意力模型的医学本体图分析，他们的模型仅针对有向无环图(DAG)，而不是有向(无向)有权(无权)网络。Velickovic等(参照文献21：Velickovic P,Cucurull G,Casanova A,et al.Graph attention networks[J].arXivpreprint arXiv:1710.10903,2017.；即图注意网络)提出了一种新的图注意网络(GAT)来执行图结构数据的节点分类任务，其思想是计算图中每个节点的隐藏表示，通过遵循自我注意力策略来关注邻居节点。Lee(参照文献22：Lee J B,Rossi R,Kong X.GraphClassification using Structural Attention[C]//Proceedings of the 24th ACMSIGKDD International Conference on Knowledge Discovery&Data Mining.ACM,2018:1666-1674.；即基于注意力的图分类)研究了基于注意力的图分类问题，提出了一种新的RNN模型，即图注意模型(GAM)，通过自适应地选择信息节点序列处理子图。使用注意力机制帮助模型专注于图中较小但信息丰富的部分，提高了模型的处理效率。

发明内容

为了预测动态网络的链路随时间动态变化，本发明提供了一种时空注意力深度模型的动态链路预测方法，该动态链路预测方法通过提取动态网络的时空特征，实现了端到端的动态网络的链路预测。

本发明的技术方案为：

一种时空注意力深度模型的动态链路预测方法，包括以下步骤：

以动态网络对应的邻接矩阵A作为输入，其中，所述动态网络包括社交网络、通信网络、科学合作网络或社交安全网络；

采用LSTM-attention模型从邻接矩阵{h_t-T,...,h_t-1}中提取隐含层向量{h_t-T,...,h_t-1}，并根据T个时刻的隐含层向量{h_t-T,...,h_t-1}计算上下文向量a_t，该上下文向量a_t作为时空特征向量输入至解码器中；

采用解码器对输入的时空特征向量a_t进行解码，输出解码获得的表示节点与节点之间是否具有链路的概率矩阵，即实现了动态链路的预测。

优选地，所述LSTM-attention模型中，根据T个时刻的隐含层向量{h_t-T,...,h_t-1}计算上下文向量a_t包括：

(a)根据每个时刻的隐含层向量计算各个时刻对应的注意力系数，计算如下：

e_ti＝W_tah_i+b_ta (1)

其中，W_ta∈R^N×d和b_ta∈R^N分别表示时间注意机制的权重和偏置矩阵，e_ti∈R^N表示i时刻每个节点隐藏层向量对应的注意力系数；

(b)对每个时刻的注意力系数e_ti进行标准化，计算如下：

其中，softmax(·)表示softmax函数；

(c)根据标准化后的注意力系数作为权重，与T个时刻的隐藏层向量计算上下文向量a_t：

具体地，采用GCN-attention模型更新每个时刻的隐藏层向量，具体过程包括：

将每个时刻的隐含层向量作为当前时刻所有节点向量的结合，以此构成GCN-attention模型，在GCN-attention模型中采用空间注意力机制关注邻居节点以更新每个节点的隐藏层向量。

其中，所述采用空间注意力机制关注邻居节点以更新每个节点的隐藏层向量包括：

(a)隐藏层向量与滤波器相乘，输出新隐藏层向量：

其中，g_θ表示滤波器，表示每个时刻在隐藏层状态上的图卷积操作，T_k(·)表示切比雪夫多项式，θ_hk定义为切比雪夫多项式的系数，K表示图卷积的阶数，重新调整的拉普拉斯矩阵原拉普拉斯矩阵A_t表示t时刻网络的连边矩阵，D_t是A_t的度值矩阵，I_N是一个单位矩阵，λ_max定义为L_t的最大特征值；

(b)将图注意层作为空间注意力机制应用于每时刻的网络上，即在节点上执行自我注意，根据共享的注意力机制a:R^d×R^d→R来计算注意力系数：

e_ij＝LeakyReLU(W_ga1h_i+W_ga2h_j) (5)

其中，W_ga1，W_ga2∈R^d是h_i与h_j的权重矩阵，LeakyReLU(·)表示非线性激活函数，且负值非零斜率＝0.2，e_ij表明节点j的特征对于节点i的相似度作为注意力系数；

(c)对每个时刻的注意力系数e_ij进行标准化，计算如下：

(d)根据标准化的注意力系数e_ij作为权重，与新隐藏层向量计算最终的隐藏层向量：

本发明提供的动态链路预测方法利用由LSTM-attention模型和GCN-attention模型形成的时空注意力深度模型来提取动态网络的时空特征向量，再对时空特征向量进行解码，以获得动态链路预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的动态链路预测方法的流程框图；

图2是实施例提供的图卷积阶数K取值为1,2,3时对应动态网络的示意图；

图3是图注意力层的示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

如图1，本实施例提供的一种时空注意力深度模型的动态链路预测方法，包括以下步骤：

步骤1，以动态网络对应的邻接矩阵A作为输入，其中，所述动态网络包括社交网络、通信网络、科学合作网络或社交安全网络。

其中，社交网络可以是预测朋友关系的社交网络，动态链路预测中即预测社交网络中个体与个体之间的朋友关系。通信网络可以是预测未来通信关系的网络，科学合作网络可以是预测未来的同事关系的网络。

动态网络中，每个时刻均会有一个邻接矩阵，形成邻接矩阵序列{A_t-T,...,A_t-1}，t表示当前时刻。

步骤2，采用LSTM-attention模型作为编码器从邻接矩阵{h_t-T,...,h_t-1}中提取隐含层向量{h_t-T,...,h_t-1}，并根据T个时刻的隐含层向量{h_t-T,...,h_t-1}计算上下文向量a_t，该上下文向量a_t作为时空特征向量输入至解码器中。

在LSTM中，确定先前细胞层状态的信息丢失量，这个决定通过遗忘门f_t∈[0,1]^d来完成，其中0表示完全遗忘，1表示完全保留，定义如下：

f_t＝σ(W_fA_t+U_fh_t-1+b_f)

其中，A_t∈R^N×N定义为t时刻的输入数据，h_t-1∈R^N×d定义为t-1时刻的隐藏层状态，W_f∈R^N×d、U_f∈R^d×d和b_f∈R^d分别对应遗忘门的权重和偏置矩阵，σ(·)表示sigmoid函数，N表示输入维度，d表示模型隐藏层维度。

更新细胞层状态。利用一个tanh层创建一个新的细胞层候选值向量然后，一个sigmoid层决定多少新的候选细胞层状态增加到细胞层状态中，即输入门i_t∈[0,1]^d。最后就可以通过遗忘门和输入门一起更新LSTM的细胞层状态了。

i_t＝σ(W_iA_t+U_ih_t-1+b_i)

其中，W_i,c∈R^N×d、U_i,c∈R^d×d和b_i,c∈R^d分别对应输入门的权重和偏置矩阵。

输出更新后的细胞层信息，该任务由输出门来完成。

o_t＝σ(W_oA_t+U_oh_t-1+b_o)

其中，W_o∈R^N×d、U_o∈R^d×d以及b_o∈R^d分别对应输出门的权重和偏置矩阵。

在动态网络链路预测任务中，最终目标是根据T个时刻的连边矩阵的信息来预测下个时刻可能出现的链路状态。而{h_t-T,...,h_t-1}∈R^N×d是经过模型提取的每个时刻的网络所有节点的特征矩阵，对于每个时刻的特征矩阵来说，它都可能包含预测需要的部分信息。因此，利用一个时间注意力机制来计算一个上下文向量c_t，来捕获时间下的相关信息，关注各个时间的特征向量来帮助实施预测任务。

具体地，LSTM-attention模型中，根据T个时刻的隐含层向量{h_t-T,...,h_t-1}计算上下文向量a_t包括：

e_ti＝W_tah_i+b_ta

(b)为了使注意力系数在不同时间之间易于比较，对每个时刻的注意力系数e_ti进行标准化，计算如下：

其中，softmax(·)表示softmax函数；

该上下文向量a_t作为LSTM-attention模块输出的最后时空特征向量。

本实施例中，采用GCN-attention模型更新每个时刻的隐藏层向量，具体过程包括：

将每个时刻的隐含层向量作为当前时刻所有节点向量的结合，以此构成GCN-attention模型，在GCN-attention模型中采用空间注意力机制关注邻居节点以更新每个节点的隐藏层向量，具体包括以下步骤：

(a)隐藏层向量与滤波器相乘，输出新隐藏层向量：

其中，g_θ表示滤波器，表示每个时刻在隐藏层状态上的图卷积操作，T_k(·)表示切比雪夫多项式，θ_hk定义为切比雪夫多项式的系数，K表示图卷积的阶数，重新调整的拉普拉斯矩阵原拉普拉斯矩阵A_t表示t时刻网络的连边矩阵，D_t是A_t的度值矩阵，I_N是一个单位矩阵，λ_max定义为L_t的最大特征值。

切比雪夫多项式可以被递归的定义为：

T_k(x)＝2xT_k-1(x)-T_k-2(x)

其中T₀(x)＝1，T₁(x)＝x，以K阶的切比雪夫多项式来近似滤波器g_θ可以利用距离中心节点最大K阶的节点信息，因此K是一个非常重要的超参数。如图2所示，当K＝1，只考虑节点6本身的信息；当K＝2，会考虑到1阶节点(1，5，7)信息对节点6的影响；当K＝3，会额外考虑到1阶节点(1，5，7)以及2阶节点(2，4，8，12)的信息。当K越大，可以考虑更大更广的领域节点与中心节点的关系，但是会大大增加计算量。一般情况下，图卷积的阶数K取值为3。

e_ij＝LeakyReLU(W_ga1h_i+W_ga2h_j)

(c)为了使注意力系数在不同节点之间易于比较，对每个时刻的注意力系数e_ij进行标准化，计算如下：

更新后的新隐藏层向量作为下一个时刻LSTM-attention模型的输入。这样LSTM-attention模型与GCN-attention模型构成了时空注意力深度模型的整个时间序列下的前向过程。最后获得的上下文向量作为编码器的最后输出的时空特征向量。

步骤3，采用解码器对输入的时空特征向量a_t进行解码，输出解码获得的表示节点与节点之间是否具有链路的概率矩阵，即实现了动态链路的预测。

本实施例中，采用全连接层网络作为解码器，将编码器最后输出的时空特征向量转换为最终的概率矩阵：

其中，W_d∈R^d×N和b_d∈R^N分别表示解码器的权重和偏置矩阵，L表示全连接层的层数，并且每个隐藏层中的单元数量可以根据输入数据的变化而变化，以获得更好的性能。P_t∈R^N×N表示最后的输出链路概率矩阵，每一个P_t(i,j)＝[0,1]表示节点i到节点j存在链路的概率，P_t(i,j)的值越大，链路存在的概率越大。

本实施例提供的时空注意力深度模型主要利用GCN-attention模型学习隐藏状态和单元节点的网络结构，并通过LSTM-attention模型学习网络的时间特征，将注意力集中在所学习的时空特征中与任务最相关的部分，从而提高动态链路预测性能。最后利用全连接层网络作为解码器来将提取的时空特征转换回原始空间，输出预测的网络数据，从而实现动态网络链路预测。时空注意力深度模型不仅能捕捉连续网络间的时间依赖性，还考虑到了网络结构的影响。因此，它可以更好地捕获网络演化的模式。最后，进行了大量实验，与其他链路预测方法在各种动态网络数据集上进行比较，验证了时空注意力深度模型不仅在AUC、GMAUC以及错误率这几个整体指标上明显优于其他模型，而且在重要链路预测任务上体现了优异的性能。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种时空注意力深度模型的动态链路预测方法，包括以下步骤：，

2.如权利要求1所述的时空注意力深度模型的动态链路预测方法，其特征在于，所述LSTM-attention模型中，根据T个时刻的隐含层向量{h_t-T,...,h_t-1}计算上下文向量a_t包括：

e_ti＝W_tah_i+b_ta (1)

(b)对每个时刻的注意力系数e_ti进行标准化，计算如下：

其中，softmax(·)表示softmax函数；

3.如权利要求2所述的时空注意力深度模型的动态链路预测方法，其特征在于，采用GCN-attention模型更新每个时刻的隐藏层向量，具体过程包括：

4.如权利要求3所述的时空注意力深度模型的动态链路预测方法，其特征在于，所述采用空间注意力机制关注邻居节点以更新每个节点的隐藏层向量包括：

(a)隐藏层向量与滤波器相乘，输出新隐藏层向量：

e_ij＝LeakyReLU(W_ga1h_i+W_ga2h_j) (5)

(c)对每个时刻的注意力系数e_ij进行标准化，计算如下：

5.如权利要求4所述的时空注意力深度模型的动态链路预测方法，其特征在于，所述图卷积的阶数K取值为3。

6.如权利要求1～5任一项所述的时空注意力深度模型的动态链路预测方法，其特征在于，采用全连接层网络作为解码器。