CN116227562A - 基于图神经网络与Transformer的时序点过程预测方法及系统 - Google Patents

基于图神经网络与Transformer的时序点过程预测方法及系统 Download PDF

Info

Publication number
CN116227562A
CN116227562A CN202310265763.8A CN202310265763A CN116227562A CN 116227562 A CN116227562 A CN 116227562A CN 202310265763 A CN202310265763 A CN 202310265763A CN 116227562 A CN116227562 A CN 116227562A
Authority
CN
China
Prior art keywords
event
sequence
layer
time
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310265763.8A
Other languages
English (en)
Inventor
曹健
申世通
钱诗友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202310265763.8A priority Critical patent/CN116227562A/zh
Publication of CN116227562A publication Critical patent/CN116227562A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提供了一种基于图神经网络与Transformer的时序点过程预测方法及系统,包括:步骤S1:对历史事件序列进行编码表示;步骤S2:对历史事件序列中各事件的相互关联信息进行整合,得到包含历史事件序列间相互作用关系的编码输出;步骤S3:将编码输出经过处理得到解码输出;步骤S4:对时间序列进行编码表示;步骤S5:根据事件的强度函数得到事件的精确时间戳以及事件类型的预测值;步骤S6:对模型的误差进行评估。

Description

基于图神经网络与Transformer的时序点过程预测方法及 系统
技术领域
本发明涉及计算机技术领域,具体地,涉及一种基于图神经网络与Transformer的时序点过程预测方法及系统。
背景技术
时序标值点过程(Marked Point Process),定义为连续时间域上一系列不同类型事件构成的随机过程。一些历史事件可能会对未来各种类型事件发生的概率产生或积极或消极的影响。在实际生产环境中经常有类似特点的数据产生,例如医疗保健系统中,某些药物的使用可能会降低疾病的风险、社交媒体例如推特中一些推文会导致该话题推文数量的增加。传统点过程,包括霍克斯点过程,泊松点过程,自适应点过程,具有很好的可解释性和更低的数据依赖性,这得益于传统模型基于领域知识(domain knowledge)对强度函数形式的选择。然而这些强大的可解释性,在另一方面却降低了模型的灵活性与拓展性。因此,目前有大量的基于深度神经网络的模型来提升模型的普适性与降低对领域知识选择的依赖性,同时具备处理大量数据的能力。
多步预测是时序预测中的一项重要研究方向,相比于单步预测,为用户提供了整个未来途径上的估计,为他们在未来多个时间步上做出优化提供参考(例如,医生对患者的治疗方案规划,或者电商对消费者购物序列估计)。
先前关于时序标值点过程的研究主要集中在对事件序列建模的单步预测问题,且缺乏多步预测能力以及无法对事件发生伴随的时间序列信息建模。因此,本发明针对时序点过程的多步预测问题提出了基于图神经网络与Transformer的时序点过程预测模型。
专利文献CN113660225A公开了基于时序点的网络攻击事件预测方法、系统、装置及介质,并具体公开了获取历史攻击事件数据,根据历史攻击事件数据生成第一事件序列,进而确定第一事件特征以及事件发生时间;根据第一事件特征构建第一事件图谱,进而通过图嵌入算法对第一事件图谱进行处理,得到第一特征向量;将第一特征向量和事件发生时间输入到预先构建的循环神经网络中进行深度点过程的模型训练,得到训练好的时序点过程模型;根据时序点过程模型预测得到下一次网络攻击事件的发生时间和事件类型。但该发明不能多步预测,对事件发生伴随的时间序列信息建模。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于图神经网络与Transformer的时序点过程预测方法及系统。
根据本发明提供的一种基于图神经网络与Transformer的时序点过程预测方法,包括:
步骤S1:对历史事件序列进行编码表示;
步骤S2:对历史事件序列中各事件的相互关联信息进行整合,得到包含历史事件序列间相互作用关系的编码输出;
步骤S3:将编码输出经过处理得到解码输出;
步骤S4:对时间序列进行编码表示;
步骤S5:根据事件的强度函数得到事件的精确时间戳以及事件类型的预测值;
步骤S6:对模型的误差进行评估。
优选地,在所述步骤S1中:
利用事件编码层结构对历史事件序列进行编码表示,将代表事件顺序关系的下标进行位置编码,保留序列中的顺序信息,将事件类型进行嵌入表示,与线性加权的精确时间戳拼接得到事件序列的编码表示:
利用事件编码器结构对Sin中事件的精确时间戳及类型信息进行编码表示,将代表事件(ti,ki)顺序关系的下标用位置编码表示为:
Figure BDA0004132978110000021
其中,ti,ki,PE(i)分别为事件ei的发生时间,事件类型,位置编码结果,j为位置编码的第j个维度,i为事件ei在事件序列中的相对位置序号,d_model为编码维度;
将事件类型进行嵌入表示为Uki,与线性加权的时间戳进行拼接得到编码向量emb(ti,ki)=(PE(i)+Uki,wtti);其中,wt为事件的精确时间戳信息对应的权重参数;
对输入序列和输出序列中的所有事件编码,分别得到输入序列编码矩阵Ein和输出序列编码矩阵Eout
优选地,在所述步骤S2中:
编码器通过自注意力机制结构对历史事件序列中各事件的相互关联信息进行整合,并通过多个同构的编码器层堆叠,挖掘依赖关系,得到包含历史事件序列间相互作用关系的编码输出;
将得到的输入序列编码矩阵Ein进行多头自注意力机制处理,其中单个注意力头计算的公式为:
Figure BDA0004132978110000031
Figure BDA0004132978110000032
其中,Qh、Kh、Vh分别代表为第h个注意力头的查询、键值、值项的编码矩阵;
Figure BDA0004132978110000033
则相应地代表查询、键值、值项的线性变化权重矩阵,SHAh为第h个自注意力头的编码结果,MK为编码矩阵的维度;
将多个注意力头聚合后得到:
MHA=[SHA1,SHA2,...,SHAheads]Wo
其中,MHA为多头注意力的编码结果,heads为多头注意力的头数,Wo为将多个自注意力头聚合的映射矩阵;
使用前馈神经网络得到编码器层的输出,公式为:
Enc_layerout=ReLU(MHA*W1+b1)W2+b2
其中,W1,W2分别为前馈神经网络第1层和第2层的权重矩阵,b1,b2分别为前馈神经网络第1层和第2层的偏置向量;
经过多个同质的编码器层堆叠,得到最终的编码器输出Encout
优选地,在所述步骤S3中:
解码器由多个同质的解码器层堆叠而成,每层包含多头自注意力机制、多头跨注意力机制、前馈神经网络,其中多头跨注意力机制用于对输出序列与输入序列间的依赖关系进行建模,公式为:
Figure BDA0004132978110000034
Figure BDA0004132978110000035
其中,CSHAh为多头跨注意力机制第h个头的编码结果。Q′h、K′h、V′h分别代表为第h个跨注意力头的查询、键值、值项的编码矩阵,
Figure BDA0004132978110000041
则相应地代表查询、键值、值项的线性变化权重矩阵,MK为编码矩阵的维度;
经过多个注意力头的聚合以及多层堆叠处理,得到解码器层的输出Decout
优选地,在所述步骤S4中:
使用LSTM网络对与事件发生伴随的多变量时间序列
Figure BDA0004132978110000042
的各变量独立编码,得到各自的隐向量H1,H2,..,Hk,拼接得到时序编码矩阵Hin
使用图结构学习层得到代表变量间相互依赖关系的邻接矩阵A;;
使用图卷积层得到包含各变量相互作用的基础信息编码矩阵G,公式为:
P(k)=βHin+(1-β)AP(k-1)
Figure BDA0004132978110000043
其中,β为代表控制根节点原始信息比例的超参数,graph_depth代表信息传播层的深度,P(k)为信息传播层第k层的编码结果,W(k)代表从传播层的第k层提取信息的权重矩阵。
优选地,在所述步骤S5中:
得到包含从历史事件序列及当前预测的输入序列中提取到的信息Decout以及与之伴随的多变量事件序列中提取到的基础信息G后,将信息进行整合得到代表事件发生情况的强度函数,事件类型k在第j步的强度函数的形式为:
Figure BDA0004132978110000044
其中,Ht代表t时刻之前的历史事件序列信息,t为当前时刻,αk为当前时刻的影响权重,tj-1为t时刻之前最后一个事件的发生时间在强度函数中的权重,
Figure BDA0004132978110000045
为解码器对历史事件序列编码在强度函数中的权重,/>
Figure BDA0004132978110000046
为图神经网络对多变量时间序列编码在强度函数中的权重;
fk(·)代表高阈值截断的非负激活函数,其定义为:
Figure BDA0004132978110000047
加和后得到强度函数为:
Figure BDA0004132978110000051
生成第j个时间步的时间戳预测方法为:
Figure BDA0004132978110000052
Figure BDA0004132978110000053
其中,fj(t|Ht)为第j个时间步的事件发生时间的条件概率密度函数,tj-1为第j个时间步之前最后一个事件的发生时间,s为积分变量,
Figure BDA0004132978110000054
为第j个时间步事件的发生时间预测值;
生成第j个时间步的事件类型预测方法为:
Figure BDA0004132978110000055
优选地,在所述步骤S6中:
预测结果与真实的事件序列输出Sout进行误差计算,定义损失函数分别是log_likelihood,rmse,cross_entropy:
Figure BDA0004132978110000056
Figure BDA0004132978110000057
Figure BDA0004132978110000058
其中,m为多步预测的步数,pk为第k个事件发生的真实概率;
加权求和得到模型整体误差指标,公式为:
LOSS=θ1·log_likelihood+θ2·rmse+θ3·cross_entropy
其中,θ123分别为各项误差指标的比例系数。
根据本发明提供的一种基于图神经网络与Transformer的时序点过程预测系统,执行所述的基于图神经网络与Transformer的时序点过程预测方法,包括:
事件编码模块:将含有原始时间戳与事件类型信息的具有时序关系的若干事件组成的序列进行编码表示;
编码器模块:由多层由自注意力机制和前馈神经网络组成的编码器层组成,用于对历史事件序列中事件间的复杂依赖关系进行建模;
解码器模块:由多层由自注意力机制和跨注意力机制以及前馈神经网络组成的解码器层组成,用于从编码器获得的历史事件编码信息中得到多步预测输出序列的编码表示;
图神经网络模块:将与事件发生所伴随的代表着基础信息的多变量时间序列间的关联情况进行编码及图卷积处理,得到包含各变量相互依赖关系的基础信息表示;
强度函数生成模块:将处理得到的历史事件序列及多变量时间序列的编码信息整合处理,生成代表未来事件发生情况的强度函数,得到未来事件发生的时间及事件类型的预测结果。
优选地,利用事件编码层结构对历史事件序列进行编码表示,将代表事件顺序关系的下标进行位置编码,保留序列中的顺序信息,将事件类型进行嵌入表示,与线性加权的精确时间戳拼接得到事件序列的编码表示:
利用事件编码器结构对Sin中事件的精确时间戳及类型信息进行编码表示,将代表事件(ti,ki)顺序关系的下标用位置编码表示为:
Figure BDA0004132978110000061
其中,ti,ki,PE(i)分别为事件ei的发生时间,事件类型,位置编码结果,j为位置编码的第j个维度,i为事件ei在事件序列中的相对位置序号,d_model为编码维度;
将事件类型进行嵌入表示为Uki,与线性加权的时间戳进行拼接得到编码向量emb(ti,ki)=(PE(i)+Uki,wtti);其中,wt为事件的精确时间戳信息对应的权重参数;
对输入序列和输出序列中的所有事件编码,分别得到输入序列编码矩阵Ein和输出序列编码矩阵Eout
编码器通过自注意力机制结构对历史事件序列中各事件的相互关联信息进行整合,并通过多个同构的编码器层堆叠,挖掘依赖关系,得到包含历史事件序列间相互作用关系的编码输出;
将得到的输入序列编码矩阵Ein进行多头自注意力机制处理,其中单个注意力头计算的公式为:
Figure BDA0004132978110000062
Figure BDA0004132978110000071
其中,Qh、Kh、Vh分别代表为第h个注意力头的查询、键值、值项的编码矩阵;
Figure BDA0004132978110000072
则相应地代表查询、键值、值项的线性变化权重矩阵,SHAh为第h个自注意力头的编码结果,MK为编码矩阵的维度;
将多个注意力头聚合后得到:
MHA=[SHA1,SHA2,...,SHAheads]Wo
其中,MHA为多头注意力的编码结果,heads为多头注意力的头数,Wo为将多个自注意力头聚合的映射矩阵;
使用前馈神经网络得到编码器层的输出,公式为:
Enc_layerout=ReLU(MHA*W1+b1)W2+b2
其中,W1,W2分别为前馈神经网络第1层和第2层的权重矩阵,b1,b2分别为前馈神经网络第1层和第2层的偏置向量;
经过多个同质的编码器层堆叠,得到最终的编码器输出Encout
解码器由多个同质的解码器层堆叠而成,每层包含多头自注意力机制、多头跨注意力机制、前馈神经网络,其中多头跨注意力机制用于对输出序列与输入序列间的依赖关系进行建模,公式为:
Figure BDA0004132978110000073
Figure BDA0004132978110000074
其中,CSHAh为多头跨注意力机制第h个头的编码结果。Q′h、K′h、V′h分别代表为第h个跨注意力头的查询、键值、值项的编码矩阵,
Figure BDA0004132978110000075
则相应地代表查询、键值、值项的线性变化权重矩阵,MK为编码矩阵的维度;
经过多个注意力头的聚合以及多层堆叠处理,得到解码器层的输出Decout
优选地,使用LSTM网络对与事件发生伴随的多变量时间序列
Figure BDA0004132978110000076
的各变量独立编码,得到各自的隐向量H1,H2,..,Hk,拼接得到时序编码矩阵Hin
使用图结构学习层得到代表变量间相互依赖关系的邻接矩阵A;;
使用图卷积层得到包含各变量相互作用的基础信息编码矩阵G,公式为:
P(k)=βHin+(1-β)AP(k-1)
Figure BDA0004132978110000081
其中,β为代表控制根节点原始信息比例的超参数,graph_depth代表信息传播层的深度,P(k)为信息传播层第k层的编码结果,W(k)代表从传播层的第k层提取信息的权重矩阵;
得到包含从历史事件序列及当前预测的输入序列中提取到的信息Decout以及与之伴随的多变量事件序列中提取到的基础信息G后,将信息进行整合得到代表事件发生情况的强度函数,事件类型k在第j步的强度函数的形式为:
Figure BDA0004132978110000082
其中,Ht代表t时刻之前的历史事件序列信息,t为当前时刻,αk为当前时刻的影响权重,tj-1为t时刻之前最后一个事件的发生时间在强度函数中的权重,
Figure BDA0004132978110000083
为解码器对历史事件序列编码在强度函数中的权重,/>
Figure BDA0004132978110000084
为图神经网络对多变量时间序列编码在强度函数中的权重;
fk(·)代表高阈值截断的非负激活函数,其定义为:
Figure BDA0004132978110000085
加和后得到强度函数为:
Figure BDA0004132978110000086
生成第j个时间步的时间戳预测方法为:
Figure BDA0004132978110000087
Figure BDA0004132978110000088
其中,fj(t|Ht)为第j个时间步的事件发生时间的条件概率密度函数,tj-1为第j个时间步之前最后一个事件的发生时间,s为积分变量,
Figure BDA0004132978110000089
为第j个时间步事件的发生时间预测值;
生成第j个时间步的事件类型预测方法为:
Figure BDA0004132978110000091
预测结果与真实的事件序列输出Sout进行误差计算,定义损失函数分别是log_likelihood,rmse,cross_entropy:
Figure BDA0004132978110000092
Figure BDA0004132978110000093
Figure BDA0004132978110000094
其中,m为多步预测的步数,pk为第k个事件发生的真实概率;
加权求和得到模型整体误差指标,公式为:
LOSS=θ1·log_likelihood+θ3·rmse+θ3·cross_entropy
其中,θ123分别为各项误差指标的比例系数。
与现有技术相比,本发明具有如下的有益效果:
1、相比于现有的单步预测技术,本发明提供了时序点过程事件预测的多步预测解决方案;
2、相比于主流的单对事件序列建模的模型,本发明对与事件发生相伴随的多变量时间序列信息进行信息提取;
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的事件编码层示意图;
图2为本发明的编码器示意图;
图3为本发明的解码器示意图;
图4为本发明的强度函数生成层示意图;
图5为本发明流程示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
本发明公开了一种时序点过程的预测方法。通过对多个历史事件的时间戳信息及类型信息组成的事件序列和与之伴随的多变量时间序列进行编码表示,然后使用基于图神经网络和Transformer的时序点过程预测方法对多个未来事件发生的精确时间戳及事件类型做出预测,以此拓展事件预测问题的解决方案。
根据本发明提供的一种基于图神经网络与Transformer的时序点过程预测方法,如图1-图5所示,包括:
步骤S1:对历史事件序列进行编码表示;
具体地,在所述步骤S1中:
利用事件编码层结构对历史事件序列进行编码表示,将代表事件顺序关系的下标进行位置编码,保留序列中的顺序信息,将事件类型进行嵌入表示,与线性加权的精确时间戳拼接得到事件序列的编码表示:
利用事件编码器结构对Sin中事件的精确时间戳及类型信息进行编码表示,将代表事件(ti,ki)顺序关系的下标用位置编码表示为:
Figure BDA0004132978110000101
其中,ti,ki,PE(i)分别为事件ei的发生时间,事件类型,位置编码结果,j为位置编码的第j个维度,i为事件ei在事件序列中的相对位置序号,d_model为编码维度;
将事件类型进行嵌入表示为Uki,与线性加权的时间戳进行拼接得到编码向量emb(ti,ki)=(PE(i)+Uki,wtti);其中,wt为事件的精确时间戳信息对应的权重参数;
对输入序列和输出序列中的所有事件编码,分别得到输入序列编码矩阵Ein和输出序列编码矩阵Eout
步骤S2:对历史事件序列中各事件的相互关联信息进行整合,得到包含历史事件序列间相互作用关系的编码输出;
具体地,在所述步骤S2中:
编码器通过自注意力机制结构对历史事件序列中各事件的相互关联信息进行整合,并通过多个同构的编码器层堆叠,挖掘依赖关系,得到包含历史事件序列间相互作用关系的编码输出;
将得到的输入序列编码矩阵Ein进行多头自注意力机制处理,其中单个注意力头计算的公式为:
Figure BDA0004132978110000111
Figure BDA0004132978110000112
其中,Qh、Kh、Vh分别代表为第h个注意力头的查询、键值、值项的编码矩阵;
Figure BDA0004132978110000113
则相应地代表查询、键值、值项的线性变化权重矩阵,SHAh为第h个自注意力头的编码结果,MK为编码矩阵的维度;
将多个注意力头聚合后得到:
MHA=[SHA1,SHA2,...,SHAheads]Wo
其中,MHA为多头注意力的编码结果,heads为多头注意力的头数,Wo为将多个自注意力头聚合的映射矩阵;
使用前馈神经网络得到编码器层的输出,公式为:
Enc_layerout=ReLU(MHA*W1+b1)W2+b2
其中,W1,W2分别为前馈神经网络第1层和第2层的权重矩阵,b1,b2分别为前馈神经网络第1层和第2层的偏置向量;
经过多个同质的编码器层堆叠,得到最终的编码器输出Encout
步骤S3:将编码输出经过处理得到解码输出;
具体地,在所述步骤S3中:
解码器由多个同质的解码器层堆叠而成,每层包含多头自注意力机制、多头跨注意力机制、前馈神经网络,其中多头跨注意力机制用于对输出序列与输入序列间的依赖关系进行建模,公式为:
Figure BDA0004132978110000114
Figure BDA0004132978110000115
其中,CSHAh为多头跨注意力机制第h个头的编码结果。Q′h、K′h、V′h分别代表为第h个跨注意力头的查询、键值、值项的编码矩阵,
Figure BDA0004132978110000121
则相应地代表查询、键值、值项的线性变化权重矩阵,MK为编码矩阵的维度;/>
经过多个注意力头的聚合以及多层堆叠处理,得到解码器层的输出Decout
步骤S4:对时间序列进行编码表示;
具体地,在所述步骤S4中:
使用LSTM网络对与事件发生伴随的多变量时间序列
Figure BDA0004132978110000122
的各变量独立编码,得到各自的隐向量H1,H2,..,Hk,拼接得到时序编码矩阵Hin
使用图结构学习层得到代表变量间相互依赖关系的邻接矩阵A;;
使用图卷积层得到包含各变量相互作用的基础信息编码矩阵G,公式为:
P(k)=βHin+(1-β)AP(k-1)
Figure BDA0004132978110000123
其中,β为代表控制根节点原始信息比例的超参数,graph_depth代表信息传播层的深度,P(k)为信息传播层第k层的编码结果,W(k)代表从传播层的第k层提取信息的权重矩阵。
步骤S5:根据事件的强度函数得到事件的精确时间戳以及事件类型的预测值;
具体地,在所述步骤S5中:
得到包含从历史事件序列及当前预测的输入序列中提取到的信息Decout以及与之伴随的多变量事件序列中提取到的基础信息G后,将信息进行整合得到代表事件发生情况的强度函数,事件类型k在第j步的强度函数的形式为:
Figure BDA0004132978110000124
其中,Ht代表t时刻之前的历史事件序列信息,t为当前时刻,αk为当前时刻的影响权重,tj-1为t时刻之前最后一个事件的发生时间在强度函数中的权重,
Figure BDA0004132978110000125
为解码器对历史事件序列编码在强度函数中的权重,/>
Figure BDA0004132978110000126
为图神经网络对多变量时间序列编码在强度函数中的权重;
fk(·)代表高阈值截断的非负激活函数,其定义为:
Figure BDA0004132978110000127
加和后得到强度函数为:
Figure BDA0004132978110000131
生成第j个时间步的时间戳预测方法为:
Figure BDA0004132978110000132
/>
Figure BDA0004132978110000133
其中,fj(t|Ht)为第j个时间步的事件发生时间的条件概率密度函数,tj-1为第j个时间步之前最后一个事件的发生时间,s为积分变量,
Figure BDA0004132978110000134
为第j个时间步事件的发生时间预测值;
生成第j个时间步的事件类型预测方法为:
Figure BDA0004132978110000135
步骤S6:对模型的误差进行评估。
具体地,在所述步骤S6中:
预测结果与真实的事件序列输出Sout进行误差计算,定义损失函数分别是log_likelihood,rmse,cross_entropy:
Figure BDA0004132978110000136
Figure BDA0004132978110000137
Figure BDA0004132978110000138
其中,m为多步预测的步数,pk为第k个事件发生的真实概率;
加权求和得到模型整体误差指标,公式为:
LOSS=θ1·log_likelihood+θ2·rmse+θ3·cross_entropy
其中,θ123分别为各项误差指标的比例系数。
实施例2:
实施例2为实施例1的优选例,以更为具体地对本发明进行说明。
本发明还提供一种基于图神经网络与Transformer的时序点过程预测系统,所述基于图神经网络与Transformer的时序点过程预测系统可以通过执行所述基于图神经网络与Transformer的时序点过程预测方法的流程步骤予以实现,即本领域技术人员可以将所述基于图神经网络与Transformer的时序点过程预测方法理解为所述基于图神经网络与Transformer的时序点过程预测系统的优选实施方式。
根据本发明提供的一种基于图神经网络与Transformer的时序点过程预测系统,执行所述的基于图神经网络与Transformer的时序点过程预测方法,包括:
事件编码模块:将含有原始时间戳与事件类型信息的具有时序关系的若干事件组成的序列进行编码表示;
编码器模块:由多层由自注意力机制和前馈神经网络组成的编码器层组成,用于对历史事件序列中事件间的复杂依赖关系进行建模;
解码器模块:由多层由自注意力机制和跨注意力机制以及前馈神经网络组成的解码器层组成,用于从编码器获得的历史事件编码信息中得到多步预测输出序列的编码表示;
图神经网络模块:将与事件发生所伴随的代表着基础信息的多变量时间序列间的关联情况进行编码及图卷积处理,得到包含各变量相互依赖关系的基础信息表示;
强度函数生成模块:将处理得到的历史事件序列及多变量时间序列的编码信息整合处理,生成代表未来事件发生情况的强度函数,得到未来事件发生的时间及事件类型的预测结果。
具体地,利用事件编码层结构对历史事件序列进行编码表示,将代表事件顺序关系的下标进行位置编码,保留序列中的顺序信息,将事件类型进行嵌入表示,与线性加权的精确时间戳拼接得到事件序列的编码表示:
利用事件编码器结构对Sin中事件的精确时间戳及类型信息进行编码表示,将代表事件(ti,ki)顺序关系的下标用位置编码表示为:
Figure BDA0004132978110000141
其中,ti,ki,PE(i)分别为事件ei的发生时间,事件类型,位置编码结果,j为位置编码的第j个维度,i为事件ei在事件序列中的相对位置序号,d_model为编码维度;
将事件类型进行嵌入表示为Uki,与线性加权的时间戳进行拼接得到编码向量emb(ti,ki)=(PE(i)+Uki,wtti);其中,wt为事件的精确时间戳信息对应的权重参数;
对输入序列和输出序列中的所有事件编码,分别得到输入序列编码矩阵Ein和输出序列编码矩阵Eout
编码器通过自注意力机制结构对历史事件序列中各事件的相互关联信息进行整合,并通过多个同构的编码器层堆叠,挖掘依赖关系,得到包含历史事件序列间相互作用关系的编码输出;
将得到的输入序列编码矩阵Ein进行多头自注意力机制处理,其中单个注意力头计算的公式为:
Figure BDA0004132978110000151
Figure BDA0004132978110000152
其中,Qh、Kh、Vh分别代表为第h个注意力头的查询、键值、值项的编码矩阵;
Figure BDA0004132978110000153
则相应地代表查询、键值、值项的线性变化权重矩阵,SHAh为第h个自注意力头的编码结果,MK为编码矩阵的维度;
将多个注意力头聚合后得到:
MHA=[SHA1,SHA2,...,SHAheads]Wo
其中,MHA为多头注意力的编码结果,heads为多头注意力的头数,Wo为将多个自注意力头聚合的映射矩阵;
使用前馈神经网络得到编码器层的输出,公式为:
Enc_layerout=ReLU(MHA*W1+b1)W2+b2
其中,W1,W2分别为前馈神经网络第1层和第2层的权重矩阵,b1,b2分别为前馈神经网络第1层和第2层的偏置向量;
经过多个同质的编码器层堆叠,得到最终的编码器输出Encout
解码器由多个同质的解码器层堆叠而成,每层包含多头自注意力机制、多头跨注意力机制、前馈神经网络,其中多头跨注意力机制用于对输出序列与输入序列间的依赖关系进行建模,公式为:
Figure BDA0004132978110000154
Figure BDA0004132978110000155
其中,CSHAh为多头跨注意力机制第h个头的编码结果。Q′h、K′h、V′h分别代表为第h个跨注意力头的查询、键值、值项的编码矩阵,
Figure BDA0004132978110000156
则相应地代表查询、键值、值项的线性变化权重矩阵,MK为编码矩阵的维度;
经过多个注意力头的聚合以及多层堆叠处理,得到解码器层的输出Decout
具体地,使用LSTM网络对与事件发生伴随的多变量时间序列
Figure BDA0004132978110000161
的各变量独立编码,得到各自的隐向量H1,H2,..,Hk,拼接得到时序编码矩阵Hin
使用图结构学习层得到代表变量间相互依赖关系的邻接矩阵A;
使用图卷积层得到包含各变量相互作用的基础信息编码矩阵G,公式为:
P(k)=βHin+(1-β)AP(k-1)
Figure BDA0004132978110000162
其中,β为代表控制根节点原始信息比例的超参数,graph_depth代表信息传播层的深度,P(k)为信息传播层第k层的编码结果,W(k)代表从传播层的第k层提取信息的权重矩阵;
得到包含从历史事件序列及当前预测的输入序列中提取到的信息Decout以及与之伴随的多变量事件序列中提取到的基础信息G后,将信息进行整合得到代表事件发生情况的强度函数,事件类型k在第j步的强度函数的形式为:
Figure BDA0004132978110000163
其中,Ht代表t时刻之前的历史事件序列信息,t为当前时刻,αk为当前时刻的影响权重,tj-1为t时刻之前最后一个事件的发生时间在强度函数中的权重,
Figure BDA0004132978110000164
为解码器对历史事件序列编码在强度函数中的权重,/>
Figure BDA0004132978110000165
为图神经网络对多变量时间序列编码在强度函数中的权重;
fk(·)代表高阈值截断的非负激活函数,其定义为:
Figure BDA0004132978110000166
加和后得到强度函数为:
Figure BDA0004132978110000167
生成第j个时间步的时间戳预测方法为:
Figure BDA0004132978110000168
Figure BDA0004132978110000169
其中,fj(t|Ht)为第j个时间步的事件发生时间的条件概率密度函数,tj-1为第j个时间步之前最后一个事件的发生时间,s为积分变量,
Figure BDA0004132978110000171
为第j个时间步事件的发生时间预测值;
生成第j个时间步的事件类型预测方法为:
Figure BDA0004132978110000172
预测结果与真实的事件序列输出Sout进行误差计算,定义损失函数分别是log_likelihood,rmse,cross_entropy:
Figure BDA0004132978110000173
Figure BDA0004132978110000174
Figure BDA0004132978110000175
其中,m为多步预测的步数,pk为第k个事件发生的真实概率;
加权求和得到模型整体误差指标,公式为:
LOSS=θ1·log_likelihood+θ2·rmse+θ3·cross_entropy
其中,θ123分别为各项误差指标的比例系数。
实施例3:
实施例3为实施例1的优选例,以更为具体地对本发明进行说明。
本发明针对事件预测技术,提供了一种多步的时序点过程预测方法,本发明通过以下技术方案实现:
一种基于图神经网络与Transformer的时序点过程预测方法,根据对历史事件组成的序列建模拟合,以及对其伴随的基础信息的多变量时间序列进行图神经网络编码,整合得到未来事件的强度函数表示并生成未来事件的发生时间及类型预测结果。预测模型主要包含五个模块:
M1事件编码层:用于将含有原始时间戳与事件类型信息的具有时序关系的若干事件组成的序列进行编码表示。
M2编码器:编码器是由多层由自注意力机制和前馈神经网络组成的编码器层组成,用于对历史事件序列中事件间的复杂依赖关系进行建模。
M3解码器:解码器是由多层由自注意力机制和跨注意力机制以及前馈神经网络组成的解码器层组成,用于从编码器获得的历史事件编码信息中得到多步预测输出序列的编码表示。
M4面向时序编码的图神经网络:将与事件发生所伴随的代表着基础信息的多变量时间序列间的关联情况进行编码及图卷积处理,得到包含各变量相互依赖关系的基础信息表示。
M5强度函数生成层:将上述模块M3M4处理得到的历史事件序列及多变量时间序列的编码信息整合处理,生成代表未来事件发生情况的强度函数,并依此得到未来事件发生的时间及事件类型的预测结果。
以输入历史事件序列
Figure BDA0004132978110000181
多步预测目标/>
Figure BDA0004132978110000182
作为一个实施例,其中n代表输入序列长度,m代表输出序列长度。具体的预测步骤为:
S1、事件编码
利用事件编码层结构对历史事件序列进行编码表示。我们首先将代表事件顺序关系的下标进行位置编码,保留序列中的顺序信息。然后将事件类型进行嵌入表示,最后与线性加权的精确时间戳拼接得到事件序列的编码表示。
利用事件编码器结构对Sin中事件的精确时间戳及类型信息进行编码表示,见图1示意图。具体地,以事件ei=(ti,ki)为例,我们首先将代表事件顺序关系的下标用位置编码表示为:
Figure BDA0004132978110000183
其中,ti,ki,PE(i)分别为事件ei的发生时间,事件类型,位置编码结果,j为位置编码的第j个维度,i为事件ei在事件序列中的相对位置序号,d_model为编码维度。
然后将事件类型进行嵌入表示为Uki,最后与线性加权的时间戳进行拼接得到编码向量emb(ti,ki)=(PE(i)+Uki,wtti);
其中,wt为事件的精确时间戳信息对应的权重参数。
按该方法对输入序列和输出序列中的所有事件编码,分别得到输入序列编码矩阵Ein和输出序列编码矩阵Eout
S2、编码器处理
经过S1事件编码后,编码器通过自注意力机制结构对历史事件序列中各事件的相互关联信息进行整合,并通过多个同构的编码器层堆叠,挖掘其中复杂的依赖关系。最终得到包含历史事件序列间相互作用关系的编码输出。
以一个编码器层为例,将上个步骤得到的输入序列编码矩阵Ein首先进行多头自注意力机制处理,其中单个注意力头计算的公式为:
Figure BDA0004132978110000191
Figure BDA0004132978110000192
其中,Qh,Kh,Vh分别代表为第h个注意力头的查询(query),键值(key),值项(value)的编码矩阵。
Figure BDA0004132978110000193
则相应地代表查询,键值,值项的线性变化权重矩阵,SHAh为第h个自注意力头的编码结果,MK为编码矩阵的维度;
然后,将多个注意力头聚合后得到MHA=[SHA1,SHA2,...,SHAheads]WO
其中,MHA为多头注意力的编码结果,heads为多头注意力的头数,WO为将多个自注意力头聚合的映射矩阵。
最后,使用前馈神经网络得到编码器层的输出,公式为:
Enc_layerout=ReLU(MHA*W1+b1)W2+b2
其中,W1,W2分别为前馈神经网络第1层和第2层的权重矩阵,b1,b2分别为前馈神经网络第1层和第2层的偏置向量。
经过多个同质的编码器层堆叠,得到最终的编码器输出Enc0ut,见图2示意图。
S3、解码器处理
同编码器相似,解码器由多个同质的解码器层堆叠而成,每层包含多头自注意力机制、多头跨注意力机制、前馈神经网络,见图3示意图。其中多头跨注意力机制用于对输出序列与输入序列间的依赖关系进行建模。以其中一个注意力头为例,公式为:
Figure BDA0004132978110000194
Figure BDA0004132978110000195
其中,CSHAh为多头跨注意力机制第h个头的编码结果。Q′h,,K′h,V′h分别代表为第h个跨注意力头的查询(query),键值(key),值项(value)的编码矩阵。
Figure BDA0004132978110000196
Figure BDA0004132978110000197
则相应地代表查询,键值,值项的线性变化权重矩阵,,MK为编码矩阵的维度。
同样,经过多个注意力头的聚合以及多层堆叠处理,得到解码器层的输出Decout
S4、时间序列编码
使用LSTM网络对与事件发生伴随的多变量时间序列的各变量独立编码,使用图结构学习层得到代表变量间相互关联情况的图结构。使用图卷积层对时间序列中的各变量相互关联的情况进行建模。
首先,使用LSTM网络对与事件发生伴随的多变量时间序列
Figure BDA0004132978110000201
的各变量独立编码得到它们各自的隐向量H1,H2,..,Hk,拼接得到时序编码矩阵Hin=[H1,H2,..,Hk]。随后,使用图结构学习层得到代表变量间相互依赖关系的邻接矩阵A。最后,使用图卷积层得到包含各变量相互作用的基础信息编码矩阵G,公式为:/>
P(k)=βHin+(1-β)AP(k-1)
Figure BDA0004132978110000202
其中,β为代表控制根节点原始信息比例的超参数,graph_depth代表信息传播层的深度,P(k)为信息传播层第k层的编码结果,W(k)代表从传播层的第k层提取信息的权重矩阵。
S5、强度函数生成及预测
经过上述步骤S3和S4的处理,我们得到了包含从历史事件序列及当前预测的输入序列中提取到的信息以及与之伴随的多变量事件序列中提取到的基础信息,我们对它们整合得到事件的强度函数,并经由数学变化和定积分求解得到事件的精确时间戳以及事件类型的预测值。
经过上述步骤S3和S4的处理,我们得到了包含从历史事件序列及当前预测的输入序列中提取到的信息Decout以及与之伴随的多变量事件序列中提取到的基础信息G,我们将这两部分信息进行整合得到代表事件发生情况的强度函数,见图4示意图。事件类型k在第j步的强度函数的形式为:
Figure BDA0004132978110000203
其中,Ht代表t时刻之前的历史事件序列信息,t为当前时刻,αk为当前时刻的影响权重,tj-1为t时刻之前最后一个事件的发生时间在强度函数中的权重,
Figure BDA0004132978110000204
为解码器对历史事件序列编码在强度函数中的权重,/>
Figure BDA0004132978110000205
为图神经网络对多变量时间序列编码在强度函数中的权重。
fk(·)代表高阈值截断的非负激活函数,其定义为:
Figure BDA0004132978110000211
加和后得到第j个时间步的强度函数为:
Figure BDA0004132978110000212
生成第j个时间步的时间戳预测方法为:
Figure BDA0004132978110000213
Figure BDA0004132978110000214
其中,fj(t|Ht)为第j个时间步的事件发生时间的条件概率密度函数,tj-1为第j个时间步之前最后一个事件的发生时间,s为积分变量,
Figure BDA0004132978110000215
为第j个时间步事件的发生时间预测值。/>
生成第j个时间步的事件类型预测方法为:
Figure BDA0004132978110000216
S6、模型误差评价
经过上述步骤后,得到了多步的事件预测结果,为了量化地评估模型的预测效果,我们使用代表模型对事件序列拟合能力的似然函数、对事件发生时间预测能力的RMSE、对事件类型预测能力的交叉熵cross_entropy,共计三项指标加权求和作为模型的评估方法。
经过上述步骤的得到的预测结果将与真实的事件序列输出Sout进行误差计算,用于评估模型的预测效果以及梯度反向传播算法优化模型,具体地,我们定义损失函数有三个内容,分别是log_likelihood,rmse,cross_entropy它们的定义为:
Figure BDA0004132978110000217
Figure BDA0004132978110000218
Figure BDA0004132978110000221
其中,m为多步预测的步数,pk为第k个事件发生的真实概率。
将为它们三者的加权求和得到模型整体误差指标,公式为:
LOSS=θ1·log_likelihood+θ2·rmse+θ3·cross_entropy
其中,θ123分别为各项误差指标的比例系数。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于图神经网络与Transformer的时序点过程预测方法,其特征在于,包括:
步骤S1:对历史事件序列进行编码表示;
步骤S2:对历史事件序列中各事件的相互关联信息进行整合,得到包含历史事件序列间相互作用关系的编码输出;
步骤S3:将编码输出经过处理得到解码输出;
步骤S4:对时间序列进行编码表示;
步骤S5:根据事件的强度函数得到事件的精确时间戳以及事件类型的预测值;
步骤S6:对模型的误差进行评估。
2.根据权利要求1所述的基于图神经网络与Transformer的时序点过程预测方法,其特征在于,在所述步骤S1中:
利用事件编码层结构对历史事件序列进行编码表示,将代表事件顺序关系的下标进行位置编码,保留序列中的顺序信息,将事件类型进行嵌入表示,与线性加权的精确时间戳拼接得到事件序列的编码表示:
利用事件编码器结构对Sin中事件的精确时间戳及类型信息进行编码表示,将代表事件(ti,ki)顺序关系的下标用位置编码表示为:
Figure FDA0004132978100000011
其中,ti,ki,PE(i)分别为事件ei的发生时间,事件类型,位置编码结果,j为位置编码的第j个维度,i为事件ei在事件序列中的相对位置序号,d_model为编码维度;
将事件类型进行嵌入表示为Uki,与线性加权的时间戳进行拼接得到编码向量emb(ti,ki)=(PE(i)+Uki,wtti);其中,wt为事件的精确时间戳信息对应的权重参数;
对输入序列和输出序列中的所有事件编码,分别得到输入序列编码矩阵Ein和输出序列编码矩阵Eout
3.根据权利要求1所述的基于图神经网络与Transformer的时序点过程预测方法,其特征在于,在所述步骤S2中:
编码器通过自注意力机制结构对历史事件序列中各事件的相互关联信息进行整合,并通过多个同构的编码器层堆叠,挖掘依赖关系,得到包含历史事件序列间相互作用关系的编码输出;
将得到的输入序列编码矩阵Ein进行多头自注意力机制处理,其中单个注意力头计算的公式为:
Figure FDA0004132978100000021
Figure FDA0004132978100000022
其中,Qh、Kh、Vh分别代表为第h个注意力头的查询、键值、值项的编码矩阵;
Figure FDA0004132978100000023
则相应地代表查询、键值、值项的线性变化权重矩阵,SHAh为第h个自注意力头的编码结果,MK为编码矩阵的维度;/>
将多个注意力头聚合后得到:
MHA=[SHA1,SHA2,...,SHAheads]Wo
其中,MHA为多头注意力的编码结果,heads为多头注意力的头数,WO为将多个自注意力头聚合的映射矩阵;
使用前馈神经网络得到编码器层的输出,公式为:
Enc_layerout=ReLU(MHA*W1+b1)W2+b2
其中,W1,W2分别为前馈神经网络第1层和第2层的权重矩阵,b1,b2分别为前馈神经网络第1层和第2层的偏置向量;
经过多个同质的编码器层堆叠,得到最终的编码器输出Enc0ut
4.根据权利要求1所述的基于图神经网络与Transformer的时序点过程预测方法,其特征在于,在所述步骤S3中:
解码器由多个同质的解码器层堆叠而成,每层包含多头自注意力机制、多头跨注意力机制、前馈神经网络,其中多头跨注意力机制用于对输出序列与输入序列间的依赖关系进行建模,公式为:
Figure FDA0004132978100000024
Figure FDA0004132978100000025
其中,CSHAh为多头跨注意力机制第h个头的编码结果。Q′h、K′h、V′h分别代表为第h个跨注意力头的查询、键值、值项的编码矩阵,
Figure FDA0004132978100000026
则相应地代表查询、键值、值项的线性变化权重矩阵,MK为编码矩阵的维度;
经过多个注意力头的聚合以及多层堆叠处理,得到解码器层的输出Decout
5.根据权利要求1所述的基于图神经网络与Transformer的时序点过程预测方法,其特征在于,在所述步骤S4中:
使用LSTM网络对与事件发生伴随的多变量时间序列
Figure FDA0004132978100000031
的各变量独立编码,得到各自的隐向量H1,H2,..,Hk,拼接得到时序编码矩阵Hin
使用图结构学习层得到代表变量间相互依赖关系的邻接矩阵A;
使用图卷积层得到包含各变量相互作用的基础信息编码矩阵G,公式为:
P(k)=βHin+1-β)A(k-1)
Figure FDA0004132978100000032
其中,β为代表控制根节点原始信息比例的超参数,graph_depth代表信息传播层的深度,P(k)为信息传播层第k层的编码结果,W(k)代表从传播层的第k层提取信息的权重矩阵。
6.根据权利要求1所述的基于图神经网络与Transformer的时序点过程预测方法,其特征在于,在所述步骤S5中:
得到包含从历史事件序列及当前预测的输入序列中提取到的信息Decout以及与之伴随的多变量事件序列中提取到的基础信息G后,将信息进行整合得到代表事件发生情况的强度函数,事件类型k在第j步的强度函数的形式为:
Figure FDA0004132978100000033
其中,Ht代表t时刻之前的历史事件序列信息,t为当前时刻,αk为当前时刻的影响权重,tj-1为t时刻之前最后一个事件的发生时间在强度函数中的权重,
Figure FDA0004132978100000034
为解码器对历史事件序列编码在强度函数中的权重,/>
Figure FDA0004132978100000035
为图神经网络对多变量时间序列编码在强度函数中的权重;
fk(·)代表高阈值截断的非负激活函数,其定义为:
Figure FDA0004132978100000036
加和后得到强度函数为:
Figure FDA0004132978100000037
生成第j个时间步的时间戳预测方法为:
Figure FDA0004132978100000041
Figure FDA0004132978100000042
其中,fj(t|Ht)为第j个时间步的事件发生时间的条件概率密度函数,tj-1为第j个时间步之前最后一个事件的发生时间,s为积分变量,
Figure FDA0004132978100000043
为第j个时间步事件的发生时间预测值;
生成第j个时间步的事件类型预测方法为:
Figure FDA0004132978100000044
7.根据权利要求1所述的基于图神经网络与Transformer的时序点过程预测方法,其特征在于,在所述步骤S6中:
预测结果与真实的事件序列输出Sout进行误差计算,定义损失函数分别是log_likelihood,rmse,cross_entropy:
Figure FDA0004132978100000045
Figure FDA0004132978100000046
/>
Figure FDA0004132978100000047
其中,m为多步预测的步数,pk为第k个事件发生的真实概率;
加权求和得到模型整体误差指标,公式为:
LOSS=θ1·log_likelihood+θ2·rmse+θ3·cross_entropy
其中,θ123分别为各项误差指标的比例系数。
8.一种基于图神经网络与Transformer的时序点过程预测系统,其特征在于,执行权利要求1-7任一项所述的基于图神经网络与Transformer的时序点过程预测方法,包括:
事件编码模块:将含有原始时间戳与事件类型信息的具有时序关系的若干事件组成的序列进行编码表示;
编码器模块:由多层由自注意力机制和前馈神经网络组成的编码器层组成,用于对历史事件序列中事件间的复杂依赖关系进行建模;
解码器模块:由多层由自注意力机制和跨注意力机制以及前馈神经网络组成的解码器层组成,用于从编码器获得的历史事件编码信息中得到多步预测输出序列的编码表示;
图神经网络模块:将与事件发生所伴随的代表着基础信息的多变量时间序列间的关联情况进行编码及图卷积处理,得到包含各变量相互依赖关系的基础信息表示;
强度函数生成模块:将处理得到的历史事件序列及多变量时间序列的编码信息整合处理,生成代表未来事件发生情况的强度函数,得到未来事件发生的时间及事件类型的预测结果。
9.根据权利要求8所述的基于图神经网络与Transformer的时序点过程预测系统,其特征在于:
利用事件编码层结构对历史事件序列进行编码表示,将代表事件顺序关系的下标进行位置编码,保留序列中的顺序信息,将事件类型进行嵌入表示,与线性加权的精确时间戳拼接得到事件序列的编码表示:
利用事件编码器结构对Sin中事件的精确时间戳及类型信息进行编码表示,将代表事件(ti,ki)顺序关系的下标用位置编码表示为:
Figure FDA0004132978100000051
其中,ti,ki,PE(i)分别为事件ei的发生时间,事件类型,位置编码结果,j为位置编码的第j个维度,i为事件ei在事件序列中的相对位置序号,d_model为编码维度;
将事件类型进行嵌入表示为Uki,与线性加权的时间戳进行拼接得到编码向量emb(ti,ki)=(PE(i)+Uki,wtti);其中,wt为事件的精确时间戳信息对应的权重参数;
对输入序列和输出序列中的所有事件编码,分别得到输入序列编码矩阵Ein和输出序列编码矩阵Eout
编码器通过自注意力机制结构对历史事件序列中各事件的相互关联信息进行整合,并通过多个同构的编码器层堆叠,挖掘依赖关系,得到包含历史事件序列间相互作用关系的编码输出;
将得到的输入序列编码矩阵Ein进行多头自注意力机制处理,其中单个注意力头计算的公式为:
Figure FDA0004132978100000052
Figure FDA0004132978100000061
其中,Qh、Kh、Vh分别代表为第h个注意力头的查询、键值、值项的编码矩阵;
Figure FDA0004132978100000062
则相应地代表查询、键值、值项的线性变化权重矩阵,SHAh为第h个自注意力头的编码结果,MK为编码矩阵的维度;
将多个注意力头聚合后得到:
MHA=[SHA1,SHA2,...,SHAheads]WO
其中,MHA为多头注意力的编码结果,heads为多头注意力的头数,WO为将多个自注意力头聚合的映射矩阵;
使用前馈神经网络得到编码器层的输出,公式为:
Enc_layerout=ReLU(MHA*W1+b1)W2+b2
其中,W1,W2分别为前馈神经网络第1层和第2层的权重矩阵,b1,b2分别为前馈神经网络第1层和第2层的偏置向量;
经过多个同质的编码器层堆叠,得到最终的编码器输出Enc0ut
解码器由多个同质的解码器层堆叠而成,每层包含多头自注意力机制、多头跨注意力机制、前馈神经网络,其中多头跨注意力机制用于对输出序列与输入序列间的依赖关系进行建模,公式为:
Figure FDA0004132978100000063
Figure FDA0004132978100000064
其中,CSHAh为多头跨注意力机制第h个头的编码结果。Q′h、K′h、V′h分别代表为第h个跨注意力头的查询、键值、值项的编码矩阵,
Figure FDA0004132978100000065
则相应地代表查询、键值、值项的线性变化权重矩阵,MK为编码矩阵的维度;
经过多个注意力头的聚合以及多层堆叠处理,得到解码器层的输出Decout
10.根据权利要求8所述的基于图神经网络与Transformer的时序点过程预测系统,其特征在于:
使用LSTM网络对与事件发生伴随的多变量时间序列
Figure FDA0004132978100000066
的各变量独立编码,得到各自的隐向量H1,H2,..,Hk,拼接得到时序编码矩阵Hin
使用图结构学习层得到代表变量间相互依赖关系的邻接矩阵A;;
使用图卷积层得到包含各变量相互作用的基础信息编码矩阵G,公式为:
P(k)=βHin+(1-β)AP(k-1)
Figure FDA0004132978100000071
其中,β为代表控制根节点原始信息比例的超参数,graph_depth代表信息传播层的深度,P(k)为信息传播层第k层的编码结果,W(k)代表从传播层的第k层提取信息的权重矩阵;
得到包含从历史事件序列及当前预测的输入序列中提取到的信息Decout以及与之伴随的多变量事件序列中提取到的基础信息G后,将信息进行整合得到代表事件发生情况的强度函数,事件类型k在第j步的强度函数的形式为:
Figure FDA0004132978100000072
其中,Ht代表t时刻之前的历史事件序列信息,t为当前时刻,αk为当前时刻的影响权重,tj-1为t时刻之前最后一个事件的发生时间在强度函数中的权重,
Figure FDA0004132978100000073
为解码器对历史事件序列编码在强度函数中的权重,/>
Figure FDA0004132978100000074
为图神经网络对多变量时间序列编码在强度函数中的权重;
fk(·)代表高阈值截断的非负激活函数,其定义为:
Figure FDA0004132978100000075
加和后得到强度函数为:
Figure FDA0004132978100000076
生成第j个时间步的时间戳预测方法为:
Figure FDA0004132978100000077
Figure FDA0004132978100000078
其中,fj(t|Ht)为第j个时间步的事件发生时间的条件概率密度函数,tj-1为第j个时间步之前最后一个事件的发生时间,s为积分变量,
Figure FDA0004132978100000079
为第j个时间步事件的发生时间预测值;
生成第j个时间步的事件类型预测方法为:
Figure FDA0004132978100000081
预测结果与真实的事件序列输出Sout进行误差计算,定义损失函数分别是log_likelihood,rmse,cross_entropy:
Figure FDA0004132978100000082
/>
Figure FDA0004132978100000083
Figure FDA0004132978100000084
其中,m为多步预测的步数,pk为第k个事件发生的真实概率;
加权求和得到模型整体误差指标,公式为:
LOSS=θ1·log_likelihood+θ2·rmse+θ3·cross_entropy
其中,θ123分别为各项误差指标的比例系数。
CN202310265763.8A 2023-03-17 2023-03-17 基于图神经网络与Transformer的时序点过程预测方法及系统 Pending CN116227562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310265763.8A CN116227562A (zh) 2023-03-17 2023-03-17 基于图神经网络与Transformer的时序点过程预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310265763.8A CN116227562A (zh) 2023-03-17 2023-03-17 基于图神经网络与Transformer的时序点过程预测方法及系统

Publications (1)

Publication Number Publication Date
CN116227562A true CN116227562A (zh) 2023-06-06

Family

ID=86589095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310265763.8A Pending CN116227562A (zh) 2023-03-17 2023-03-17 基于图神经网络与Transformer的时序点过程预测方法及系统

Country Status (1)

Country Link
CN (1) CN116227562A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824868A (zh) * 2023-08-30 2023-09-29 国交空间信息技术(北京)有限公司 车辆非法停驻点识别及拥堵预测方法、装置、设备及介质
CN117204821A (zh) * 2023-09-22 2023-12-12 深圳市震有智联科技有限公司 一种基于雷达的睡眠特征事件检测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824868A (zh) * 2023-08-30 2023-09-29 国交空间信息技术(北京)有限公司 车辆非法停驻点识别及拥堵预测方法、装置、设备及介质
CN116824868B (zh) * 2023-08-30 2023-11-24 国交空间信息技术(北京)有限公司 车辆非法停驻点识别及拥堵预测方法、装置、设备及介质
CN117204821A (zh) * 2023-09-22 2023-12-12 深圳市震有智联科技有限公司 一种基于雷达的睡眠特征事件检测方法及系统

Similar Documents

Publication Publication Date Title
Khodayar et al. Rough deep neural architecture for short-term wind speed forecasting
CN110196946B (zh) 一种基于深度学习的个性化推荐方法
US11537898B2 (en) Generative structure-property inverse computational co-design of materials
US20230015737A1 (en) Contrastive Pre-Training for Language Tasks
CN112529168B (zh) 一种基于gcn的属性多层网络表示学习方法
CN116227562A (zh) 基于图神经网络与Transformer的时序点过程预测方法及系统
Peebles et al. Learning to learn with generative models of neural network checkpoints
Sun et al. Consistent sparse deep learning: Theory and computation
CN112819523B (zh) 结合内/外积特征交互和贝叶斯神经网络的营销预测方法
CN110956309A (zh) 基于crf和lstm的流程活动预测方法
CN110781401A (zh) 一种基于协同自回归流实现的Top-n项目推荐方法
Dushatskiy et al. Convolutional neural network surrogate-assisted GOMEA
CN114817773A (zh) 一种基于多级分解和融合的时序预测系统及方法
CN113360848A (zh) 一种时序数据预测方法及装置
IT202000025897A1 (it) Procedimento attuato per mezzo di elaboratore per generare spiegazioni locali e stime di errore in modelli di apprendimento automatico, nonché sistema di supporto alle decisioni e programma per elaboratore che realizza detto procedimento
CN114117029B (zh) 一种基于多层次信息增强的解决方案推荐方法及系统
Bukhsh et al. An interpretation of long short-term memory recurrent neural network for approximating roots of polynomials
Liu et al. Understanding the distillation process from deep generative models to tractable probabilistic circuits
CN116485025A (zh) 双重迁移的预测模型生成方法及废旧家电回收量预测方法
CN115062832A (zh) 基于多时间尺度注意力网络的废旧家电回收量预测方法
Zhang et al. Compressing knowledge graph embedding with relational graph auto-encoder
CN114694791A (zh) 一种药物相互作用的预测方法、装置、设备和存储介质
CN114547276A (zh) 基于三通道图神经网络的会话推荐方法
Dash et al. Learning Point Processes using Recurrent Graph Network
CN112667394A (zh) 一种计算机资源利用率优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination