CN114118375A

CN114118375A - 一种基于时序图Transformer的连续动态网络表征学习方法

Info

Publication number: CN114118375A
Application number: CN202111434187.2A
Authority: CN
Inventors: 王英; 李莹姬; 吴越
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-01
Anticipated expiration: 2041-11-29

Abstract

本发明公开了一种基于时序图Transformer的连续动态网络表征学习方法，属于网络表征学习领域，包括：由基于连续动态系统的时序编码模块对动态网络的时序信息进行建模，将时间戳信息编码为向量，和节点的特征向量进行结合；基于节点在动态图中的影响力进行中心度编码，将节点的度作为其中心度信息编码到节点特征中，由基于中心度编码的注意力模块捕获动态网络的结构信息；设计基于注意力机制的空间事件系数描述动态网络中事件依赖的全局范围。本发明应用神经常微分方程编码连续时序信息，并通过中心度编码和堆叠多层Transformer实现对动态网络中时序信息和拓扑结构信息的提取，以学习包含全局依赖关系的连续动态网络表征。

Description

一种基于时序图Transformer的连续动态网络表征学习方法

技术领域

本发明属于网络表征学习领域，更确切的说，本发明涉及一种基于时序图Transformer的连续动态网络表征学习方法。

背景技术

动态网络是指网络中除了包含节点和边之外，还包含网络历史状态信息、网络在某一时刻的快照以及时间戳等相关信息，由此，将动态网络分为两种类型：基于快照的离散型动态网络和时间连续的连续型动态网络。离散型动态网络可以看作是多个静态图在固定时间间隔内的组合，而连续型动态网络是一系列时间相关事件的集合，对应着网络中节点和边的增加或减少，也更符合真实的复杂网络变化过程。

现有的动态网络表征学习(Dynamic Network Representation Learning，DNRL)方法大多集中在离散网络上。离散DNRL方法通常采用一个图神经网络(Graph NeuralNetwork，GNN)对每个图的快照进行编码，然后结合循环神经网络(Recurrent neuralnetwork，RNN)模型来揭示不同时间戳下的节点和边之间的交互以及不同时间下的关联关系。它们通过记录不同时刻的图结构，可以在一定程度上描述网络的动态。然而,离散网络意味着事件(例如,添加和删除节点或边)被认为同时发生在同一快照,从而导致大量的信息损失和事件在时间线上的不均匀分布。

连续DNRL方法可以提供更细粒度的时间信息，其在动态网络建模方面具有更高的潜力。这些方法要么使用RNN模型对每个节点保持隐表示，要么使用RNN模型对建模连续事件的时间点过程参数化。这些方法由于使用RNN对时间信息进行建模而受到限制，且只关注局部邻域信息的聚合。然而，现实网络中发生的事件不仅涉及到新出现的边，而且由于整体结构的变化，还会对更大的区域产生影响。以往的连续DNRL方法忽略了全局信息的重要性，导致网络演化过程中未聚合的结构信息和语义信息丢失。

发明内容

本发明所要解决的技术问题是基于离散方法的动态网络表征学习时间粒度较粗，无法捕获连续完整的动态信息，而基于连续方法的动态网络表征学习受限于仅利用RNN编码时间序列，并且它们只聚合局部邻域信息，导致学习到的表征不足以反映全局的拓扑和语义信息。为了克服这些问题，本发明提出一种基于时序图Transformer的连续动态网络表征学习方法，在由事件和事件发生时间组成的连续时间网络中聚合全局事件驱动信息。

为达到上述目标，本发明提出的一种基于时序图Transformer的连续动态网络表征学习方法的技术方案包括如下步骤：

步骤一：由基于连续动态系统的时序编码模块对动态网络的时序信息进行建模，将时间戳信息编码为向量，作为传播过程中时间信息的唯一来源，并和节点的特征向量进行结合，为每个节点引入一定的时序信息。

(1)构造连续映射函数，其接受任意时刻作为输入，将离散时间从时域空间投影到d维的向量空间。

(2)指定多层感知机，其描述从前一时刻转换至后一时刻的动态时间轨迹变化过程。

(3)将连续映射函数和多层感知机的关系公式转换为常微分方程

其中p(t)是定义在正实数域上的连续函数，g(τ,p_τ；w_h)是多层感知机，(τ,p_τ)为前一时刻的状态，w_h是该神经网络的参数，该方程保证有唯一解。

(4)把常微分方程的求解过程看作是一个黑盒ODESolve，得到待优化的损失函数和微分方程求解器的关系如下：

其中，损失函数的输入是常微分方程的求解结果。

(5)使用NODE中的方法逼近神经常微分方程的解，以将内存成本降低到近似常数级别，并且确保在误差容忍度的范围内降低计算成本。计算出损失函数L对p(t)的梯度作为梯度入口adjoint a(t)＝-dL/p(t)，其中，a(t)相当于是时间编码的梯度，求得动态网络中不同时刻a(t)的变化率

时间t是连续的，通过已经得到的a(t)和p(t)，对参数w_h求导并积分得到损失对参数的导数：

(6)计算给定的源节点和目标节点之间的时间间隔，表明二者的相对时间位置。通过对数据集的观测得到动态网络中节点的最大时间戳，自定义时间间隔，将离散的时间集合作为输入，得到自然数域上的时间编码：

其中，g是一个非时变函数，对于任意给定时刻的p(t)，整个动态网络中的潜在时间轨迹是唯一定义的，通过推断该潜在轨迹，可以在时间上任意向前或向后进行预测得到下一时刻的时间向量。

(7)将时间编码融入到节点特征中，以通过端到端的方式进行训练，由此可计算出时间编码产生的针对特定任务的损失L＝L(p₁,…,p_N)。

步骤二：基于节点在动态网络中的影响力进行中心度编码，将节点的度作为其中心度信息编码到节点特征当中，由基于中心度编码的注意力模块捕获动态网络的结构信息。

(1)设计消息函数计算源节点与目标节点间的交互信息。在GNN中，节点(或边)表示的学习过程主要依赖于节点特征作为消息在网络中的传递。具体而言，当节点从其邻域聚合特征时，其周围的图结构信息不断被聚合到更新后的节点特征当中，即通过堆叠多个GNN，在网络中实现消息的传递，通过GNN层更新目标节点的表示。

(2)上述的消息传递函数是一个具备尺寸不变性的函数如均值/最大值函数等，为了获得目标节点t更情境化的表示，基于注意力机制计算邻域特征的加权和替换原有的聚合过程，即通过节点的重要性进行加权，再增加正则化和前馈MLP，得到应用于网络的Transformer模型。

(3)对于有向的动态网络而言，其中心度的范围由节点的度来判断，计算出每个节点的入度和出度，并通过向量化的方式由节点的入度和出度指定出两个可训练的实值向量。将中心度编码作为该节点的影响力属性添加到节点特征当中，在随后的模型训练过程当中，网络中的枢纽节点会获得更好的影响力属性，节点表示的计算公式为：

其中，t_i为节点v_i出现的时刻，

和

分别代表节点的入度和出度。

(4)对上述的Transformer进行扩展，将Transformer层划分为注意力权重计算模块和节点表示更新模块。Transformer在第l层的输入是

表示源节点和目标节点在上一层的表示。若

则输入为节点的原始特征，从而得到节点在

层的时间感知的表示。

(5)将目标节点映射为Query向量，源节点为Key向量，计算二者之间的点积作为注意力权重，该权重可看作是源节点在考虑了自身与目标节点之间的交互之后，如何参与定义目标节点在t时刻的特征。Key向量和Value修正为：

其中，

代表t时刻目标节点i的所有邻居，z_i表示当前时刻i的中心度编码，W_K和W_V是可学习的线性权重矩阵，用于捕获时间编码p(t)和节点特征之间的关系。这里的Key向量和Value向量一一对应，表示源节点中不同的结构特性和时序信息。

步骤三：在注意力机制的基础上，提出空间事件系数∈，以描述动态网络中全局范围内的事件依赖关系，使Transformer架构在动态网络中具有全局的感受野。

(1)指定动态网络中全局范围内的交互事件以捕获节点之间的关系，构造t时刻的带权邻接矩阵A^t，若节点v_i和v_j在t时刻是联通的，则权重

为二者之间的最短路径：

其中，SPA为最短路径算法。

(2)获得t时刻所有节点的最短路径，学习全局映射φ(.)，将A^t中每个实值映射为一个可学习的标量，记为空间事件系数∈_ij：

其中，∈_ij相当于事件的权重参数，以衡量在全局范围内该事件的发生对最终表示的影响程度。

(3)在Transformer架构当中，Query向量表示目标节点对特定源节点的查询：

(4)对于每个目标节点i，通过衡量Query和Key的相似性得到其相对于源节点的注意力系数：

基于注意力分数进行SoftMax的数值转换一方面完成归一化，另一方面通过SoftMax的内在机制使目标节点有选择地筛选出少量重要信息并聚焦到这些重要信息上。引入空间事件系数使得节点能聚合全局范围的节点信息。

(5)通过求Query向量和Key向量的Cosine相似度或者引入MLP等方式计算相似度。α_j作为权重系数代表节点的重要程度，通过与对应的Value向量进行加权求和，聚合目标节点周围的时序信息和结构特征，当前层的表示如下：

(6)设置独立的可训练权重，执行并行的多头计算，以解决注意力计算的随机初始化过程给模型带来的不稳定性。将(1)中SPA算法通过注意力更新节点特征的过程重复h次，并对h个注意力头获得的表示进行拼接，在融合上一层网络中的时序信息和拓扑结构信息后，输出动态网络在当前时刻的表示：

其中，

是向下的投影矩阵，以放大或缩小不同层之间的节点表示维度。引入多头注意力保证模型的平稳训练，使得Transformer层学习任意目标节点的一阶邻居信息聚合。

(7)通过堆叠多个Transformer层聚合高阶邻居信息，得到随时间变化的网络表示。

通过本发明所构思的以上技术方案，能够取得以下有益效果：

本发明针对以往的离散动态网络表征学习方法无法捕获细时间粒度的连续动态信息，并且连续动态网络表征学习方法难以聚合全局范围的拓扑信息和语义信息的问题，提出一种基于时序图Transformer的连续动态网络表征学习方法，该方法在由事件和事件发生时间组成的连续时间网络中聚合全局事件驱动的信息。具体来说，受动力系统的启发，本发明首先采用神经常微分方程编码时序信息描述动态网络中的连续时间变化。然后，使用Transformer机制聚合时间和结构信息。为了更好地利用Transformer来聚集更大范围的变化影响，本发明引入了一个基于注意力机制的空间事件系数描述动态网络中事件依赖的全局范围。

综上所述，本发明将时间编码过程建模为动力系统，并利用连续动力系统的最新发展神经常微分方程模拟动态网络中的时间轨迹变化过程。并在Transformer层中设计了基于中心度编码的注意力模块和基于全局事件驱动的信息聚合模块，通过叠加多层Transformer提取全局拓扑信息。

附图说明

图1是本发明实施例提供的一种基于时序图Transformer的连续动态网络表征学习方法的流程框图。

图2是本发明实施例提供的一种基于时序图Transformer的连续动态网络表征学习方法的详细图解。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明实施例提供基于时序图Transformer的连续动态网络表征学习方法，该方法具体包括：

S1：输入由一系列事件组成的动态网络G＝{(u_i,v_i,t_i)；i＝1,2,…}，其中(u_i,v_i,t_i)表示节点u_i和节点v_i在t_i时刻构建了一个链接。输入网络的度矩阵D和节点特征X^(l)。

S2：构造连续函数映射p(t):

其接受任意时刻作为输入，将离散时间从时域空间投影到d维的向量空间。并指定多层感知机g(τ,p_τ；w_h)描述从前一时刻转换至后一时刻的动态时间轨迹变化过程，其中(τ,p_τ)为前一时刻的状态，w_h是该神经网络的参数。则p(t)和g(τ,p_τ；w_h)的关系可以描述为：

S3：将S2中的公式转换为常微分方程

p(t)是定义在正实数域上的连续函数，该方程保证有唯一解。把常微分方程的求解过程看作是一个黑盒ODESolve，得到待优化的损失函数和微分方程求解器的关系如下：

其中，损失函数的输入是常微分方程的求解结果。计算损失函数L对p(t)的梯度作为梯度入口adjoint a(t)＝-dL/p(t)，其中，a(t)相当于是时间编码的梯度，求得动态网络中不同时刻a(t)的变化率

通过反向传播梯度，将权值和偏差初始化为随机值。

S4：对于给定的源节点s和目标节点t，其对应的时间戳T(s)和T(t)，ΔT(t,s)＝T(t)-T(s)是两个节点的时间间隔，表明了二者的相对时间位置。通过对数据集的观测得到动态网络中节点的最大时间戳t_max，自定义时间间隔Δ，将离散的时间集合{t_i:0≤t₁＜…≤t_max}作为输入，得到自然数域上的时间编码：

其中，g是一个非时变函数，对于任意给定时刻的p(t)，整个动态网络中的潜在时间轨迹是唯一定义的，通过推断该潜在轨迹，可以在时间上任意向前或向后进行预测得到下一时刻的时间向量。将时间编码融入到节点特征中，以通过端到端的方式进行训练，由此可计算出时间编码产生的针对特定任务的损失L＝L(p₁,…,p_N)。

S5：设计消息函数计算源节点与目标节点间的交互信息，通过堆叠多个GNN，在网络中实现消息的传递，其过程为：

其中σ(.)是非线性激活函数，U^l是可训练的参数矩阵，msg(.)作为消息聚合函数也可通过学习得到。目标节点i与源节点

通过边e相连，邻域间的消息通过e传递，通过GNN层更新目标节点的表示。

基于注意力机制计算邻域特征的加权和替换原有的聚合过程，通过节点的重要性进行加权，再增加正则化和前馈MLP，得到应用于网络的Transformer模型。即计算出每个节点的入度和出度，并通过向量化的方式由节点的入度和出度指定出两个可训练的实值向量。将中心度编码作为该节点的影响力属性添加到节点特征当中，节点表征的计算公式为：

其中，t_i为节点v_i出现的时刻，

和

分别代表节点的入度和出度。

将Transformer层划分为注意力权重计算模块和节点表示更新模块。Transformer在第l层的输入是

表示源节点和目标节点在上一层的表示。若

则输入为节点的原始特征，从而得到节点在

层的时间感知的表示。

S6：将目标节点映射为Query向量，表示目标节点对特定源节点的查询：

将源节点作为Key向量，计算二者之间的点积作为注意力权重，该权重可看作是源节点在考虑了自身与目标节点之间的交互之后，如何参与定义目标节点在t时刻的特征。Key向量和Value修正为：

其中，

S7：指定动态网络中全局范围内的交互事件以捕获节点之间的关系，构造t时刻的带权邻接矩阵A^t，若节点v_i和v_j在t时刻是联通的，则权重

为二者之间的最短路径：

其中，SPA为最短路径算法。获得t时刻所有节点的最短路径，学习全局映射φ(.)，将A^t中每个实值映射为一个可学习的标量，记为空间事件系数∈_ij：

S8：衡量Query和Key的相似性得到其相对于源节点的注意力系数：

基于注意力分数进行SoftMax的数值转换，引入空间事件系数使得节点能聚合全局范围的节点信息。通过求Query向量和Key向量的Cosine相似度或者引入MLP等方式计算相似度。α_j作为权重系数代表节点的重要程度，通过与对应的Value向量进行加权求和，聚合目标节点周围的时序信息和结构特征，当前层的表示如下：

设置独立的可训练权重，执行并行的多头计算，将SPA算法通过注意力更新节点特征的过程重复h次，并对h个注意力头获得的表示进行拼接，在融合上一层网络中的时序信息和拓扑结构信息后，输出动态网络在当前时刻的表示：

其中，

S9：求得损耗对参数的梯度，对网络进行更新。

S10：判断当前迭代次数是否小于总迭代次数，若小于则执行S2，否则执行S11。

S11：通过堆叠多个Transformer层聚合高阶邻居信息，输出最后得到的动态网络表征H(t)。

图2所示的是本发明的详细图解。具体来说，为了保持动态网络中的节点在不同时刻之间的结构依赖性，首先，基于连续动态系统对网络中的时序信息进行建模，将时间戳信息编码为向量作为传播过程中时间信息的唯一来源，并和节点的特征向量进行结合。由于每个时间戳对应一个单独向量，通过结合时间戳向量和节点特征向量，就为每个节点都引入了一定的时序信息。其次，设计基于节点度的中心度编码，以及全局事件驱动的信息聚合，通过注入到Transformer框架进行节点信息的传递与聚合，这一部分包括三个基本的操作：通过注意力机制度量每一个源节点的重要性；设计消息函数计算源节点与目标节点间的交互信息；最后通过聚合函数对源节点周围传递过来的信息进行聚合。其输入为临时的邻居节点表示和时间戳，输出为目标节点在任意时刻融合时序信息的表示。

以上公开的仅为本发明的几个具体实施例，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围内。

Claims

1.一种基于时序图Transformer的连续动态网络表征学习方法，其特征在于，主要包括以下步骤：

步骤一：由基于连续动态系统的时序编码模块对动态网络的时序信息进行建模，将时间戳信息编码为向量，作为传播过程中时间信息的唯一来源，并和节点的特征向量进行结合，为每个节点引入一定的时序信息；

步骤二：基于节点在动态网络中的影响力进行中心度编码，将节点的度作为其中心度信息编码到节点特征当中，由基于中心度编码的注意力模块捕获动态网络的结构信息；

步骤三：在注意力机制的基础上，提出空间事件系数，以描述动态网络中全局范围内的事件依赖关系，使Transformer架构在动态网络中具有全局的感受野。

2.根据权利要求1所述的基于时序图Transformer的连续动态网络表征学习方法，其特征在于，所述步骤一，包括：

(1)构造连续映射函数，其接受任意时刻作为输入，将离散时间从时域空间投影到d维的向量空间；

(2)指定多层感知机，其描述从前一时刻转换至后一时刻的动态时间轨迹变化过程；

其中p(t)是定义在正实数域上的连续函数，g(τ,p_τ；w_h)是多层感知机，(τ,p_τ)为前一时刻的状态，w_h是该神经网络的参数，该方程保证有唯一解；

其中，损失函数的输入是常微分方程的求解结果；

(5)使用NODE中的方法逼近神经常微分方程的解，以将内存成本降低到近似常数级别，并且确保在误差容忍度的范围内降低计算成本；计算出损失函数L对p(t)的梯度作为梯度入口adjoint a(t)＝-dL/p(t)，其中，a(t)相当于是时间编码的梯度，求得动态网络中不同时刻a(t)的变化率

(6)计算给定的源节点和目标节点之间的时间间隔，表明二者的相对时间位置，通过对数据集的观测得到动态网络中节点的最大时间戳，自定义时间间隔，将离散的时间集合作为输入，得到自然数域上的时间编码：

其中，g是一个非时变函数，对于任意给定时刻的p(t)，整个动态网络中的潜在时间轨迹是唯一定义的，通过推断该潜在轨迹，可以在时间上任意向前或向后进行预测得到下一时刻的时间向量；

3.根据权利要求1所述的基于时序图Transformer的连续动态网络表征学习方法，其特征在于，所述步骤二，包括：

(1)设计消息函数计算源节点与目标节点间的交互信息，在GNN中，节点(或边)表示的学习过程主要依赖于节点特征作为消息在网络中的传递，当节点从其邻域聚合特征时，其周围的图结构信息不断被聚合到更新后的节点特征当中，即通过堆叠多个GNN，在网络中实现消息的传递，通过GNN层更新目标节点的表示；

(2)上述的消息传递函数是一个具备尺寸不变性的函数如均值/最大值函数等，为了获得目标节点t更情境化的表示，基于注意力机制计算邻域特征的加权和替换原有的聚合过程，即通过节点的重要性进行加权，再增加正则化和前馈MLP，得到应用于网络的Transformer模型；

(3)对于有向的动态网络而言，其中心度的范围由节点的度来判断，计算出每个节点的入度和出度，并通过向量化的方式由节点的入度和出度指定出两个可训练的实值向量，将中心度编码作为该节点的影响力属性添加到节点特征当中，在随后的模型训练过程当中，网络中的枢纽节点会获得更好的影响力属性，节点表示的计算公式为：

其中，t_i为节点v_i出现的时刻，

和

分别代表节点的入度和出度；

(4)对上述的Transformer进行扩展，将Transformer层划分为注意力权重计算模块和节点表示更新模块，Transformer在第l层的输入是

表示源节点和目标节点在上一层的表示，若

则输入为节点的原始特征，从而得到节点在

层的时间感知的表示；

(5)将目标节点映射为Query向量，源节点为Key向量，计算二者之间的点积作为注意力权重，该权重可看作是源节点在考虑了自身与目标节点之间的交互之后，如何参与定义目标节点在t时刻的特征，Key向量和Value修正为：

其中，

代表t时刻目标节点i的所有邻居，z_i表示当前时刻i的中心度编码，W_K和W_V是可学习的线性权重矩阵，用于捕获时间编码p(t)和节点特征之间的关系，这里的Key向量和Value向量一一对应，表示源节点中不同的结构特性和时序信息。

4.根据权利要求1所述的基于时序图Transformer的连续动态网络表征学习方法，其特征在于，所述步骤三，包括：

为二者之间的最短路径：

其中，SPA为最短路径算法；

其中∈_ij相当于事件的权重参数，以衡量在全局范围内该事件的发生对最终表示的影响程度；

基于注意力分数进行SoftMax的数值转换一方面完成归一化，另一方面通过SoftMax的内在机制使目标节点有选择地筛选出少量重要信息并聚焦到这些重要信息上，引入空间事件系数使得节点能聚合全局范围的节点信息；

(5)通过求Query向量和Key向量的Cosine相似度或者引入MLP等方式计算相似度，α_j作为权重系数代表节点的重要程度，通过与对应的Value向量进行加权求和，聚合目标节点周围的时序信息和结构特征，当前层的表示如下：

(6)设置独立的可训练权重，执行并行的多头计算，以解决注意力计算的随机初始化过程给模型带来的不稳定性，将(1)中SPA算法通过注意力更新节点特征的过程重复h次，并对h个注意力头获得的表示进行拼接，在融合上一层网络中的时序信息和拓扑结构信息后，输出动态网络在当前时刻的表示：

其中，

是向下的投影矩阵，以放大或缩小不同层之间的节点表示维度，引入多头注意力保证模型的平稳训练，使得Transformer层学习任意目标节点的一阶邻居信息聚合；