CN114118375A - 一种基于时序图Transformer的连续动态网络表征学习方法 - Google Patents

一种基于时序图Transformer的连续动态网络表征学习方法 Download PDF

Info

Publication number
CN114118375A
CN114118375A CN202111434187.2A CN202111434187A CN114118375A CN 114118375 A CN114118375 A CN 114118375A CN 202111434187 A CN202111434187 A CN 202111434187A CN 114118375 A CN114118375 A CN 114118375A
Authority
CN
China
Prior art keywords
node
time
information
dynamic network
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111434187.2A
Other languages
English (en)
Other versions
CN114118375B (zh
Inventor
王英
李莹姬
吴越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202111434187.2A priority Critical patent/CN114118375B/zh
Priority claimed from CN202111434187.2A external-priority patent/CN114118375B/zh
Publication of CN114118375A publication Critical patent/CN114118375A/zh
Application granted granted Critical
Publication of CN114118375B publication Critical patent/CN114118375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • G06F17/13Differential equations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于时序图Transformer的连续动态网络表征学习方法,属于网络表征学习领域,包括:由基于连续动态系统的时序编码模块对动态网络的时序信息进行建模,将时间戳信息编码为向量,和节点的特征向量进行结合;基于节点在动态图中的影响力进行中心度编码,将节点的度作为其中心度信息编码到节点特征中,由基于中心度编码的注意力模块捕获动态网络的结构信息;设计基于注意力机制的空间事件系数描述动态网络中事件依赖的全局范围。本发明应用神经常微分方程编码连续时序信息,并通过中心度编码和堆叠多层Transformer实现对动态网络中时序信息和拓扑结构信息的提取,以学习包含全局依赖关系的连续动态网络表征。

Description

一种基于时序图Transformer的连续动态网络表征学习方法
技术领域
本发明属于网络表征学习领域,更确切的说,本发明涉及一种基于时序图Transformer的连续动态网络表征学习方法。
背景技术
动态网络是指网络中除了包含节点和边之外,还包含网络历史状态信息、网络在某一时刻的快照以及时间戳等相关信息,由此,将动态网络分为两种类型:基于快照的离散型动态网络和时间连续的连续型动态网络。离散型动态网络可以看作是多个静态图在固定时间间隔内的组合,而连续型动态网络是一系列时间相关事件的集合,对应着网络中节点和边的增加或减少,也更符合真实的复杂网络变化过程。
现有的动态网络表征学习(Dynamic Network Representation Learning,DNRL)方法大多集中在离散网络上。离散DNRL方法通常采用一个图神经网络(Graph NeuralNetwork,GNN)对每个图的快照进行编码,然后结合循环神经网络(Recurrent neuralnetwork,RNN)模型来揭示不同时间戳下的节点和边之间的交互以及不同时间下的关联关系。它们通过记录不同时刻的图结构,可以在一定程度上描述网络的动态。然而,离散网络意味着事件(例如,添加和删除节点或边)被认为同时发生在同一快照,从而导致大量的信息损失和事件在时间线上的不均匀分布。
连续DNRL方法可以提供更细粒度的时间信息,其在动态网络建模方面具有更高的潜力。这些方法要么使用RNN模型对每个节点保持隐表示,要么使用RNN模型对建模连续事件的时间点过程参数化。这些方法由于使用RNN对时间信息进行建模而受到限制,且只关注局部邻域信息的聚合。然而,现实网络中发生的事件不仅涉及到新出现的边,而且由于整体结构的变化,还会对更大的区域产生影响。以往的连续DNRL方法忽略了全局信息的重要性,导致网络演化过程中未聚合的结构信息和语义信息丢失。
发明内容
本发明所要解决的技术问题是基于离散方法的动态网络表征学习时间粒度较粗,无法捕获连续完整的动态信息,而基于连续方法的动态网络表征学习受限于仅利用RNN编码时间序列,并且它们只聚合局部邻域信息,导致学习到的表征不足以反映全局的拓扑和语义信息。为了克服这些问题,本发明提出一种基于时序图Transformer的连续动态网络表征学习方法,在由事件和事件发生时间组成的连续时间网络中聚合全局事件驱动信息。
为达到上述目标,本发明提出的一种基于时序图Transformer的连续动态网络表征学习方法的技术方案包括如下步骤:
步骤一:由基于连续动态系统的时序编码模块对动态网络的时序信息进行建模,将时间戳信息编码为向量,作为传播过程中时间信息的唯一来源,并和节点的特征向量进行结合,为每个节点引入一定的时序信息。
(1)构造连续映射函数,其接受任意时刻作为输入,将离散时间从时域空间投影到d维的向量空间。
(2)指定多层感知机,其描述从前一时刻转换至后一时刻的动态时间轨迹变化过程。
(3)将连续映射函数和多层感知机的关系公式转换为常微分方程
Figure BDA0003381248410000021
其中p(t)是定义在正实数域上的连续函数,g(τ,pτ;wh)是多层感知机,(τ,pτ)为前一时刻的状态,wh是该神经网络的参数,该方程保证有唯一解。
(4)把常微分方程的求解过程看作是一个黑盒ODESolve,得到待优化的损失函数和微分方程求解器的关系如下:
Figure BDA0003381248410000022
其中,损失函数的输入是常微分方程的求解结果。
(5)使用NODE中的方法逼近神经常微分方程的解,以将内存成本降低到近似常数级别,并且确保在误差容忍度的范围内降低计算成本。计算出损失函数L对p(t)的梯度作为梯度入口adjoint a(t)=-dL/p(t),其中,a(t)相当于是时间编码的梯度,求得动态网络中不同时刻a(t)的变化率
Figure BDA0003381248410000023
时间t是连续的,通过已经得到的a(t)和p(t),对参数wh求导并积分得到损失对参数的导数:
Figure BDA0003381248410000024
(6)计算给定的源节点和目标节点之间的时间间隔,表明二者的相对时间位置。通过对数据集的观测得到动态网络中节点的最大时间戳,自定义时间间隔,将离散的时间集合作为输入,得到自然数域上的时间编码:
Figure BDA0003381248410000025
其中,g是一个非时变函数,对于任意给定时刻的p(t),整个动态网络中的潜在时间轨迹是唯一定义的,通过推断该潜在轨迹,可以在时间上任意向前或向后进行预测得到下一时刻的时间向量。
(7)将时间编码融入到节点特征中,以通过端到端的方式进行训练,由此可计算出时间编码产生的针对特定任务的损失L=L(p1,…,pN)。
步骤二:基于节点在动态网络中的影响力进行中心度编码,将节点的度作为其中心度信息编码到节点特征当中,由基于中心度编码的注意力模块捕获动态网络的结构信息。
(1)设计消息函数计算源节点与目标节点间的交互信息。在GNN中,节点(或边)表示的学习过程主要依赖于节点特征作为消息在网络中的传递。具体而言,当节点从其邻域聚合特征时,其周围的图结构信息不断被聚合到更新后的节点特征当中,即通过堆叠多个GNN,在网络中实现消息的传递,通过GNN层更新目标节点的表示。
(2)上述的消息传递函数是一个具备尺寸不变性的函数如均值/最大值函数等,为了获得目标节点t更情境化的表示,基于注意力机制计算邻域特征的加权和替换原有的聚合过程,即通过节点的重要性进行加权,再增加正则化和前馈MLP,得到应用于网络的Transformer模型。
(3)对于有向的动态网络而言,其中心度的范围由节点的度来判断,计算出每个节点的入度和出度,并通过向量化的方式由节点的入度和出度指定出两个可训练的实值向量。将中心度编码作为该节点的影响力属性添加到节点特征当中,在随后的模型训练过程当中,网络中的枢纽节点会获得更好的影响力属性,节点表示的计算公式为:
Figure BDA0003381248410000031
其中,ti为节点vi出现的时刻,
Figure BDA0003381248410000032
Figure BDA0003381248410000033
分别代表节点的入度和出度。
(4)对上述的Transformer进行扩展,将Transformer层划分为注意力权重计算模块和节点表示更新模块。Transformer在第l层的输入是
Figure BDA0003381248410000034
表示源节点和目标节点在上一层的表示。若
Figure BDA0003381248410000035
则输入为节点的原始特征,从而得到节点在
Figure BDA0003381248410000036
层的时间感知的表示。
(5)将目标节点映射为Query向量,源节点为Key向量,计算二者之间的点积作为注意力权重,该权重可看作是源节点在考虑了自身与目标节点之间的交互之后,如何参与定义目标节点在t时刻的特征。Key向量和Value修正为:
Figure BDA0003381248410000037
Figure BDA0003381248410000041
其中,
Figure BDA0003381248410000042
代表t时刻目标节点i的所有邻居,zi表示当前时刻i的中心度编码,WK和WV是可学习的线性权重矩阵,用于捕获时间编码p(t)和节点特征之间的关系。这里的Key向量和Value向量一一对应,表示源节点中不同的结构特性和时序信息。
步骤三:在注意力机制的基础上,提出空间事件系数∈,以描述动态网络中全局范围内的事件依赖关系,使Transformer架构在动态网络中具有全局的感受野。
(1)指定动态网络中全局范围内的交互事件以捕获节点之间的关系,构造t时刻的带权邻接矩阵At,若节点vi和vj在t时刻是联通的,则权重
Figure BDA0003381248410000043
为二者之间的最短路径:
Figure BDA0003381248410000044
其中,SPA为最短路径算法。
(2)获得t时刻所有节点的最短路径,学习全局映射φ(.),将At中每个实值映射为一个可学习的标量,记为空间事件系数∈ij
Figure BDA0003381248410000045
其中,∈ij相当于事件的权重参数,以衡量在全局范围内该事件的发生对最终表示的影响程度。
(3)在Transformer架构当中,Query向量表示目标节点对特定源节点的查询:
Figure BDA0003381248410000046
(4)对于每个目标节点i,通过衡量Query和Key的相似性得到其相对于源节点的注意力系数:
Figure BDA0003381248410000047
基于注意力分数进行SoftMax的数值转换一方面完成归一化,另一方面通过SoftMax的内在机制使目标节点有选择地筛选出少量重要信息并聚焦到这些重要信息上。引入空间事件系数使得节点能聚合全局范围的节点信息。
(5)通过求Query向量和Key向量的Cosine相似度或者引入MLP等方式计算相似度。αj作为权重系数代表节点的重要程度,通过与对应的Value向量进行加权求和,聚合目标节点周围的时序信息和结构特征,当前层的表示如下:
Figure BDA0003381248410000048
(6)设置独立的可训练权重,执行并行的多头计算,以解决注意力计算的随机初始化过程给模型带来的不稳定性。将(1)中SPA算法通过注意力更新节点特征的过程重复h次,并对h个注意力头获得的表示进行拼接,在融合上一层网络中的时序信息和拓扑结构信息后,输出动态网络在当前时刻的表示:
Figure BDA0003381248410000051
Figure BDA0003381248410000052
其中,
Figure BDA0003381248410000053
是向下的投影矩阵,以放大或缩小不同层之间的节点表示维度。引入多头注意力保证模型的平稳训练,使得Transformer层学习任意目标节点的一阶邻居信息聚合。
(7)通过堆叠多个Transformer层聚合高阶邻居信息,得到随时间变化的网络表示。
通过本发明所构思的以上技术方案,能够取得以下有益效果:
本发明针对以往的离散动态网络表征学习方法无法捕获细时间粒度的连续动态信息,并且连续动态网络表征学习方法难以聚合全局范围的拓扑信息和语义信息的问题,提出一种基于时序图Transformer的连续动态网络表征学习方法,该方法在由事件和事件发生时间组成的连续时间网络中聚合全局事件驱动的信息。具体来说,受动力系统的启发,本发明首先采用神经常微分方程编码时序信息描述动态网络中的连续时间变化。然后,使用Transformer机制聚合时间和结构信息。为了更好地利用Transformer来聚集更大范围的变化影响,本发明引入了一个基于注意力机制的空间事件系数描述动态网络中事件依赖的全局范围。
综上所述,本发明将时间编码过程建模为动力系统,并利用连续动力系统的最新发展神经常微分方程模拟动态网络中的时间轨迹变化过程。并在Transformer层中设计了基于中心度编码的注意力模块和基于全局事件驱动的信息聚合模块,通过叠加多层Transformer提取全局拓扑信息。
附图说明
图1是本发明实施例提供的一种基于时序图Transformer的连续动态网络表征学习方法的流程框图。
图2是本发明实施例提供的一种基于时序图Transformer的连续动态网络表征学习方法的详细图解。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明实施例提供基于时序图Transformer的连续动态网络表征学习方法,该方法具体包括:
S1:输入由一系列事件组成的动态网络G={(ui,vi,ti);i=1,2,…},其中(ui,vi,ti)表示节点ui和节点vi在ti时刻构建了一个链接。输入网络的度矩阵D和节点特征X(l)
S2:构造连续函数映射p(t):
Figure BDA0003381248410000061
其接受任意时刻作为输入,将离散时间从时域空间投影到d维的向量空间。并指定多层感知机g(τ,pτ;wh)描述从前一时刻转换至后一时刻的动态时间轨迹变化过程,其中(τ,pτ)为前一时刻的状态,wh是该神经网络的参数。则p(t)和g(τ,pτ;wh)的关系可以描述为:
Figure BDA0003381248410000062
S3:将S2中的公式转换为常微分方程
Figure BDA0003381248410000063
p(t)是定义在正实数域上的连续函数,该方程保证有唯一解。把常微分方程的求解过程看作是一个黑盒ODESolve,得到待优化的损失函数和微分方程求解器的关系如下:
Figure BDA0003381248410000064
其中,损失函数的输入是常微分方程的求解结果。计算损失函数L对p(t)的梯度作为梯度入口adjoint a(t)=-dL/p(t),其中,a(t)相当于是时间编码的梯度,求得动态网络中不同时刻a(t)的变化率
Figure BDA0003381248410000065
时间t是连续的,通过已经得到的a(t)和p(t),对参数wh求导并积分得到损失对参数的导数:
Figure BDA0003381248410000066
通过反向传播梯度,将权值和偏差初始化为随机值。
S4:对于给定的源节点s和目标节点t,其对应的时间戳T(s)和T(t),ΔT(t,s)=T(t)-T(s)是两个节点的时间间隔,表明了二者的相对时间位置。通过对数据集的观测得到动态网络中节点的最大时间戳tmax,自定义时间间隔Δ,将离散的时间集合{ti:0≤t1<…≤tmax}作为输入,得到自然数域上的时间编码:
Figure BDA0003381248410000071
其中,g是一个非时变函数,对于任意给定时刻的p(t),整个动态网络中的潜在时间轨迹是唯一定义的,通过推断该潜在轨迹,可以在时间上任意向前或向后进行预测得到下一时刻的时间向量。将时间编码融入到节点特征中,以通过端到端的方式进行训练,由此可计算出时间编码产生的针对特定任务的损失L=L(p1,…,pN)。
S5:设计消息函数计算源节点与目标节点间的交互信息,通过堆叠多个GNN,在网络中实现消息的传递,其过程为:
Figure BDA0003381248410000072
其中σ(.)是非线性激活函数,Ul是可训练的参数矩阵,msg(.)作为消息聚合函数也可通过学习得到。目标节点i与源节点
Figure BDA0003381248410000073
通过边e相连,邻域间的消息通过e传递,通过GNN层更新目标节点的表示。
基于注意力机制计算邻域特征的加权和替换原有的聚合过程,通过节点的重要性进行加权,再增加正则化和前馈MLP,得到应用于网络的Transformer模型。即计算出每个节点的入度和出度,并通过向量化的方式由节点的入度和出度指定出两个可训练的实值向量。将中心度编码作为该节点的影响力属性添加到节点特征当中,节点表征的计算公式为:
Figure BDA0003381248410000074
其中,ti为节点vi出现的时刻,
Figure BDA0003381248410000075
Figure BDA0003381248410000076
分别代表节点的入度和出度。
将Transformer层划分为注意力权重计算模块和节点表示更新模块。Transformer在第l层的输入是
Figure BDA0003381248410000077
表示源节点和目标节点在上一层的表示。若
Figure BDA0003381248410000078
则输入为节点的原始特征,从而得到节点在
Figure BDA0003381248410000079
层的时间感知的表示。
S6:将目标节点映射为Query向量,表示目标节点对特定源节点的查询:
Figure BDA00033812484100000710
将源节点作为Key向量,计算二者之间的点积作为注意力权重,该权重可看作是源节点在考虑了自身与目标节点之间的交互之后,如何参与定义目标节点在t时刻的特征。Key向量和Value修正为:
Figure BDA0003381248410000081
Figure BDA0003381248410000082
其中,
Figure BDA0003381248410000083
代表t时刻目标节点i的所有邻居,zi表示当前时刻i的中心度编码,WK和WV是可学习的线性权重矩阵,用于捕获时间编码p(t)和节点特征之间的关系。这里的Key向量和Value向量一一对应,表示源节点中不同的结构特性和时序信息。
S7:指定动态网络中全局范围内的交互事件以捕获节点之间的关系,构造t时刻的带权邻接矩阵At,若节点vi和vj在t时刻是联通的,则权重
Figure BDA0003381248410000084
为二者之间的最短路径:
Figure BDA0003381248410000085
其中,SPA为最短路径算法。获得t时刻所有节点的最短路径,学习全局映射φ(.),将At中每个实值映射为一个可学习的标量,记为空间事件系数∈ij
Figure BDA0003381248410000086
其中,∈ij相当于事件的权重参数,以衡量在全局范围内该事件的发生对最终表示的影响程度。
S8:衡量Query和Key的相似性得到其相对于源节点的注意力系数:
Figure BDA0003381248410000087
基于注意力分数进行SoftMax的数值转换,引入空间事件系数使得节点能聚合全局范围的节点信息。通过求Query向量和Key向量的Cosine相似度或者引入MLP等方式计算相似度。αj作为权重系数代表节点的重要程度,通过与对应的Value向量进行加权求和,聚合目标节点周围的时序信息和结构特征,当前层的表示如下:
Figure BDA0003381248410000088
设置独立的可训练权重,执行并行的多头计算,将SPA算法通过注意力更新节点特征的过程重复h次,并对h个注意力头获得的表示进行拼接,在融合上一层网络中的时序信息和拓扑结构信息后,输出动态网络在当前时刻的表示:
Figure BDA0003381248410000089
Figure BDA0003381248410000091
其中,
Figure BDA0003381248410000092
是向下的投影矩阵,以放大或缩小不同层之间的节点表示维度。引入多头注意力保证模型的平稳训练,使得Transformer层学习任意目标节点的一阶邻居信息聚合。
S9:求得损耗对参数的梯度,对网络进行更新。
S10:判断当前迭代次数是否小于总迭代次数,若小于则执行S2,否则执行S11。
S11:通过堆叠多个Transformer层聚合高阶邻居信息,输出最后得到的动态网络表征H(t)。
图2所示的是本发明的详细图解。具体来说,为了保持动态网络中的节点在不同时刻之间的结构依赖性,首先,基于连续动态系统对网络中的时序信息进行建模,将时间戳信息编码为向量作为传播过程中时间信息的唯一来源,并和节点的特征向量进行结合。由于每个时间戳对应一个单独向量,通过结合时间戳向量和节点特征向量,就为每个节点都引入了一定的时序信息。其次,设计基于节点度的中心度编码,以及全局事件驱动的信息聚合,通过注入到Transformer框架进行节点信息的传递与聚合,这一部分包括三个基本的操作:通过注意力机制度量每一个源节点的重要性;设计消息函数计算源节点与目标节点间的交互信息;最后通过聚合函数对源节点周围传递过来的信息进行聚合。其输入为临时的邻居节点表示和时间戳,输出为目标节点在任意时刻融合时序信息的表示。
以上公开的仅为本发明的几个具体实施例,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围内。

Claims (4)

1.一种基于时序图Transformer的连续动态网络表征学习方法,其特征在于,主要包括以下步骤:
步骤一:由基于连续动态系统的时序编码模块对动态网络的时序信息进行建模,将时间戳信息编码为向量,作为传播过程中时间信息的唯一来源,并和节点的特征向量进行结合,为每个节点引入一定的时序信息;
步骤二:基于节点在动态网络中的影响力进行中心度编码,将节点的度作为其中心度信息编码到节点特征当中,由基于中心度编码的注意力模块捕获动态网络的结构信息;
步骤三:在注意力机制的基础上,提出空间事件系数,以描述动态网络中全局范围内的事件依赖关系,使Transformer架构在动态网络中具有全局的感受野。
2.根据权利要求1所述的基于时序图Transformer的连续动态网络表征学习方法,其特征在于,所述步骤一,包括:
(1)构造连续映射函数,其接受任意时刻作为输入,将离散时间从时域空间投影到d维的向量空间;
(2)指定多层感知机,其描述从前一时刻转换至后一时刻的动态时间轨迹变化过程;
(3)将连续映射函数和多层感知机的关系公式转换为常微分方程
Figure FDA0003381248400000011
其中p(t)是定义在正实数域上的连续函数,g(τ,pτ;wh)是多层感知机,(τ,pτ)为前一时刻的状态,wh是该神经网络的参数,该方程保证有唯一解;
(4)把常微分方程的求解过程看作是一个黑盒ODESolve,得到待优化的损失函数和微分方程求解器的关系如下:
Figure FDA0003381248400000012
其中,损失函数的输入是常微分方程的求解结果;
(5)使用NODE中的方法逼近神经常微分方程的解,以将内存成本降低到近似常数级别,并且确保在误差容忍度的范围内降低计算成本;计算出损失函数L对p(t)的梯度作为梯度入口adjoint a(t)=-dL/p(t),其中,a(t)相当于是时间编码的梯度,求得动态网络中不同时刻a(t)的变化率
Figure FDA0003381248400000013
时间t是连续的,通过已经得到的a(t)和p(t),对参数wh求导并积分得到损失对参数的导数:
Figure FDA0003381248400000014
(6)计算给定的源节点和目标节点之间的时间间隔,表明二者的相对时间位置,通过对数据集的观测得到动态网络中节点的最大时间戳,自定义时间间隔,将离散的时间集合作为输入,得到自然数域上的时间编码:
Figure FDA0003381248400000021
其中,g是一个非时变函数,对于任意给定时刻的p(t),整个动态网络中的潜在时间轨迹是唯一定义的,通过推断该潜在轨迹,可以在时间上任意向前或向后进行预测得到下一时刻的时间向量;
(7)将时间编码融入到节点特征中,以通过端到端的方式进行训练,由此可计算出时间编码产生的针对特定任务的损失L=L(p1,…,pN)。
3.根据权利要求1所述的基于时序图Transformer的连续动态网络表征学习方法,其特征在于,所述步骤二,包括:
(1)设计消息函数计算源节点与目标节点间的交互信息,在GNN中,节点(或边)表示的学习过程主要依赖于节点特征作为消息在网络中的传递,当节点从其邻域聚合特征时,其周围的图结构信息不断被聚合到更新后的节点特征当中,即通过堆叠多个GNN,在网络中实现消息的传递,通过GNN层更新目标节点的表示;
(2)上述的消息传递函数是一个具备尺寸不变性的函数如均值/最大值函数等,为了获得目标节点t更情境化的表示,基于注意力机制计算邻域特征的加权和替换原有的聚合过程,即通过节点的重要性进行加权,再增加正则化和前馈MLP,得到应用于网络的Transformer模型;
(3)对于有向的动态网络而言,其中心度的范围由节点的度来判断,计算出每个节点的入度和出度,并通过向量化的方式由节点的入度和出度指定出两个可训练的实值向量,将中心度编码作为该节点的影响力属性添加到节点特征当中,在随后的模型训练过程当中,网络中的枢纽节点会获得更好的影响力属性,节点表示的计算公式为:
Figure FDA0003381248400000022
其中,ti为节点vi出现的时刻,
Figure FDA0003381248400000023
Figure FDA0003381248400000024
分别代表节点的入度和出度;
(4)对上述的Transformer进行扩展,将Transformer层划分为注意力权重计算模块和节点表示更新模块,Transformer在第l层的输入是
Figure FDA0003381248400000039
表示源节点和目标节点在上一层的表示,若
Figure FDA00033812484000000310
则输入为节点的原始特征,从而得到节点在
Figure FDA00033812484000000311
层的时间感知的表示;
(5)将目标节点映射为Query向量,源节点为Key向量,计算二者之间的点积作为注意力权重,该权重可看作是源节点在考虑了自身与目标节点之间的交互之后,如何参与定义目标节点在t时刻的特征,Key向量和Value修正为:
Figure FDA0003381248400000031
Figure FDA0003381248400000032
其中,
Figure FDA0003381248400000033
代表t时刻目标节点i的所有邻居,zi表示当前时刻i的中心度编码,WK和WV是可学习的线性权重矩阵,用于捕获时间编码p(t)和节点特征之间的关系,这里的Key向量和Value向量一一对应,表示源节点中不同的结构特性和时序信息。
4.根据权利要求1所述的基于时序图Transformer的连续动态网络表征学习方法,其特征在于,所述步骤三,包括:
(1)指定动态网络中全局范围内的交互事件以捕获节点之间的关系,构造t时刻的带权邻接矩阵At,若节点vi和vj在t时刻是联通的,则权重
Figure FDA0003381248400000034
为二者之间的最短路径:
Figure FDA0003381248400000035
其中,SPA为最短路径算法;
(2)获得t时刻所有节点的最短路径,学习全局映射φ(.),将At中每个实值映射为一个可学习的标量,记为空间事件系数∈ij
Figure FDA0003381248400000036
其中∈ij相当于事件的权重参数,以衡量在全局范围内该事件的发生对最终表示的影响程度;
(3)在Transformer架构当中,Query向量表示目标节点对特定源节点的查询:
Figure FDA0003381248400000037
(4)对于每个目标节点i,通过衡量Query和Key的相似性得到其相对于源节点的注意力系数:
Figure FDA0003381248400000038
基于注意力分数进行SoftMax的数值转换一方面完成归一化,另一方面通过SoftMax的内在机制使目标节点有选择地筛选出少量重要信息并聚焦到这些重要信息上,引入空间事件系数使得节点能聚合全局范围的节点信息;
(5)通过求Query向量和Key向量的Cosine相似度或者引入MLP等方式计算相似度,αj作为权重系数代表节点的重要程度,通过与对应的Value向量进行加权求和,聚合目标节点周围的时序信息和结构特征,当前层的表示如下:
Figure FDA0003381248400000041
(6)设置独立的可训练权重,执行并行的多头计算,以解决注意力计算的随机初始化过程给模型带来的不稳定性,将(1)中SPA算法通过注意力更新节点特征的过程重复h次,并对h个注意力头获得的表示进行拼接,在融合上一层网络中的时序信息和拓扑结构信息后,输出动态网络在当前时刻的表示:
Figure FDA0003381248400000042
Figure FDA0003381248400000043
其中,
Figure FDA0003381248400000044
是向下的投影矩阵,以放大或缩小不同层之间的节点表示维度,引入多头注意力保证模型的平稳训练,使得Transformer层学习任意目标节点的一阶邻居信息聚合;
(7)通过堆叠多个Transformer层聚合高阶邻居信息,得到随时间变化的网络表示。
CN202111434187.2A 2021-11-29 一种基于时序图Transformer的连续动态网络表征学习方法 Active CN114118375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111434187.2A CN114118375B (zh) 2021-11-29 一种基于时序图Transformer的连续动态网络表征学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111434187.2A CN114118375B (zh) 2021-11-29 一种基于时序图Transformer的连续动态网络表征学习方法

Publications (2)

Publication Number Publication Date
CN114118375A true CN114118375A (zh) 2022-03-01
CN114118375B CN114118375B (zh) 2024-05-10

Family

ID=

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550460A (zh) * 2022-04-25 2022-05-27 中国科学院自动化研究所 轨道交通异常检测方法、装置及存储介质
CN114756720A (zh) * 2022-06-13 2022-07-15 支付宝(杭州)信息技术有限公司 时序数据的预测方法及装置
CN115883401A (zh) * 2022-11-16 2023-03-31 华南师范大学 一种基于流交互图的端到端网络性能预测方法、系统及平台
CN116561688A (zh) * 2023-05-09 2023-08-08 浙江大学 基于动态图异常检测的新兴技术识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461907A (zh) * 2020-03-13 2020-07-28 南京邮电大学 一种面向社交网络平台的动态网络表征学习方法
CN111601361A (zh) * 2020-05-22 2020-08-28 中国人民解放军国防科技大学 一种实时检测Ad hoc网络关键节点的方法及装置
US20200366690A1 (en) * 2019-05-16 2020-11-19 Nec Laboratories America, Inc. Adaptive neural networks for node classification in dynamic networks
US11109194B1 (en) * 2020-06-27 2021-08-31 Sas Institute Inc. Location network analysis tool for predicting contamination change

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200366690A1 (en) * 2019-05-16 2020-11-19 Nec Laboratories America, Inc. Adaptive neural networks for node classification in dynamic networks
CN111461907A (zh) * 2020-03-13 2020-07-28 南京邮电大学 一种面向社交网络平台的动态网络表征学习方法
CN111601361A (zh) * 2020-05-22 2020-08-28 中国人民解放军国防科技大学 一种实时检测Ad hoc网络关键节点的方法及装置
US11109194B1 (en) * 2020-06-27 2021-08-31 Sas Institute Inc. Location network analysis tool for predicting contamination change

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李峰;司亚利;陈真;鲁宁;申利民;: "基于信任机制的机会网络安全路由决策方法", 软件学报, no. 09, 31 March 2017 (2017-03-31) *
陈传峰,庄鸿,李增智: "基于增强学习的协作主动路由信息交换机制", 微电子学与计算机, no. 11, 20 December 2004 (2004-12-20) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550460A (zh) * 2022-04-25 2022-05-27 中国科学院自动化研究所 轨道交通异常检测方法、装置及存储介质
CN114550460B (zh) * 2022-04-25 2022-07-12 中国科学院自动化研究所 轨道交通异常检测方法、装置及存储介质
CN114756720A (zh) * 2022-06-13 2022-07-15 支付宝(杭州)信息技术有限公司 时序数据的预测方法及装置
CN114756720B (zh) * 2022-06-13 2022-10-04 支付宝(杭州)信息技术有限公司 时序数据的预测方法及装置
CN115883401A (zh) * 2022-11-16 2023-03-31 华南师范大学 一种基于流交互图的端到端网络性能预测方法、系统及平台
CN116561688A (zh) * 2023-05-09 2023-08-08 浙江大学 基于动态图异常检测的新兴技术识别方法
CN116561688B (zh) * 2023-05-09 2024-03-22 浙江大学 基于动态图异常检测的新兴技术识别方法

Similar Documents

Publication Publication Date Title
CN113053115B (zh) 一种基于多尺度图卷积网络模型的交通预测方法
Taieb et al. A bias and variance analysis for multistep-ahead time series forecasting
Donate et al. Time series forecasting by evolving artificial neural networks with genetic algorithms, differential evolution and estimation of distribution algorithm
CN108932671A (zh) 一种采用深度q神经网络调参的lstm风电负荷预测方法
CN107092959A (zh) 基于stdp非监督学习算法的硬件友好型脉冲神经网络模型
Luitel et al. Quantum inspired PSO for the optimization of simultaneous recurrent neural networks as MIMO learning systems
Quilodrán-Casas et al. Digital twins based on bidirectional LSTM and GAN for modelling the COVID-19 pandemic
CN112288080A (zh) 面向脉冲神经网络的自适应模型转化方法及系统
Tang et al. Spatio-temporal latent graph structure learning for traffic forecasting
Lin et al. Dynamic causal graph convolutional network for traffic prediction
Chen et al. A short-term traffic flow prediction model based on AutoEncoder and GRU
CN116402352A (zh) 一种企业风险预测方法、装置、电子设备及介质
Hu Functional-link nets with genetic-algorithm-based learning for robust nonlinear interval regression analysis
Xue et al. A graph regularized point process model for event propagation sequence
Yang et al. Click-through rate prediction using transfer learning with fine-tuned parameters
CN114861980A (zh) 一种基于bp-lstm模型的碳预测方法
Dehuri et al. A condensed polynomial neural network for classification using swarm intelligence
Kazemi Dynamic graph neural networks
Dold et al. Spike: Spike-based embeddings for multi-relational graph data
CN112287120A (zh) 一种基于强化学习的双系统知识图谱的知识推理方法
Wang et al. ST-GIN: An uncertainty quantification approach in traffic data imputation with spatio-temporal graph attention and bidirectional recurrent united neural networks
CN114118375A (zh) 一种基于时序图Transformer的连续动态网络表征学习方法
CN114118375B (zh) 一种基于时序图Transformer的连续动态网络表征学习方法
Lei et al. A novel time-delay neural grey model and its applications
Aruna et al. Sparrow Search Optimization with Deep Belief Network based Wind Power Prediction Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant