CN114723003A - 一种基于时序卷积和关系建模的事件序列预测方法 - Google Patents
一种基于时序卷积和关系建模的事件序列预测方法 Download PDFInfo
- Publication number
- CN114723003A CN114723003A CN202210305672.8A CN202210305672A CN114723003A CN 114723003 A CN114723003 A CN 114723003A CN 202210305672 A CN202210305672 A CN 202210305672A CN 114723003 A CN114723003 A CN 114723003A
- Authority
- CN
- China
- Prior art keywords
- event
- sequence
- time
- historical
- events
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000010586 diagram Methods 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 11
- 230000002123 temporal effect Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000011423 initialization method Methods 0.000 claims description 6
- 230000001364 causal effect Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 230000008439 repair process Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 7
- 230000000306 recurrent effect Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000014616 translation Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于时序卷积和关系建模的事件序列预测方法,包括:步骤1,从数据库中事件序列训练集;步骤2,对原始数据进行预处理;步骤3,利用标记特征编码器对历史序列中的标记信息进行特征提取;步骤4,利用时序特征编码器对历史序列中的时间信息进行特征提取;步骤5;对历史事件的标记特征编码和时间特征编码进行特征融合,输出对于单个历史事件的特征表示;步骤6,在事件编码的基础上构建事件间的时序相关性图,输出历史序列的特征编码;步骤7,对于每种类型事件分别计算条件强度;步骤8,计算模型损失函数并进行参数更新;步骤9,判断模型的损失曲线是否收敛,若没有收敛则返回步骤8;步骤10,保存训练好的模型并进行部署。
Description
技术领域
本发明涉及一种事件序列预测方法,特别是一种基于时序卷积和关系建模的事件序列预测方法。
背景技术
事件序列预测问题是时间序列分析领域重要的研究方向,早在20世纪70年代,就有相关学者对该领域开展相关的研究工作。在我们的日常生活中,事件序列数据无处不在,事件序列预测相关技术成果被应用于众多科学领域,例如社会科学,医学,地质学和物理学等领域领域。对事件序列相关数据进行分析和理解,对未来事件进行精准的预测,具有重要的社会价值,因此该领域受到学术界的广泛关注。
常规的事件序列数据是一组按照事件发生的先后顺序排列而成的数列,每个事件样本包含其发生的时间戳和额外的标记信息,事件序列预测问题的目标是利用历史事件序列预测未来将要发生事件的相关信息。目前处理该问题的方法主要分为两类,分别是基于传统机器学习的方法和基于深度学习的方法。
基于传统机器学习的方法是处理事件序列预测问题的早期方法,主要分为两类,分别为基于马尔可夫模型的方法和基于点过程模型的方法。其中基于马尔可夫模型的方法利用无向图构造一个非确定性模式的系统,并通过n阶马尔可夫性质建立当前事件与历史n个事件间的依赖关系。基于点过程模型的方法则在历史序列的基础上构建一个随机过程模型,因此可以更自然的建立序列中不同事件间的依赖关系,该类方法的核心是对条件强度函数进行建模,例如Hawkes等人提出的Hawkes点过程模型,利用条件强度函数描述历史事件对于未来事件的激励过程,并且考虑环境本身的基础强度的影响,具有良好的预测性能。参考文献:Chen J,Hawkes A G,Scalas E,et al:Performance of information criteriafor selection of Hawkes process models of financial data.In:QuantitativeFinance,2018:225-235.
近年来,由于设备计算能力提升和人工智能技术的不断发展,基于深度学习的方法逐渐成为该领域的主流方法。目前基于深度学习的事件序列预测模型主要基于循环神经网络进行设计,由于深度学习模型可以自动学习数据中的复杂高阶特征,使得该类方法有能力处理大规模数据。其中典型的方法是Nan Du等人提出的RMTPP模型,利用长短期记忆网络和门控循环单元对事件序列进行特征编码,并同时考虑历史事件序列、当前事件和基础强度对未来事件的影响,使得模型性能显著提升。参考文献:Du N,Dai H,Trivedi R,etal:Recurrent marked temporal point processes:Embedding event history tovector.In:22th ACM SIGKDD international conference on knowledge discovery anddata mining.2016:1555-1564.
尽管基于循环神经网络的模型已经具有一定的预测精度,但是由于循环神经网络自身结构的特点,难以进行并行计算,因此在模型训练和推理过程中存在计算效率低的问题。并且循环神经网络虽然可以对序列数据进行编码表示,但是其本身无法直接描述序列中不同事件之间的影响关系,因此相关模型不仅缺乏可解释性,而且没有对事件之间的影响关系进行充分的挖掘和分析,限制模型性能。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于时序卷积和关系建模的事件序列预测方法。
为了解决上述技术问题,本发明公开了一种基于时序卷积和关系建模的事件序列预测方法,包括以下步骤:
步骤1,从数据库中生成用于模型训练的历史事件序列数据集Dtrain,即原始训练数据集Dtrain,每个事件数据包含历史事件所发生的时间戳和标记信息,并构建事件序列预测模型;
步骤2,对原始训练数据集进行数据预处理,包括数据清洗和事件间隔时间计算;其中,数据清洗过程包括无效样本去除,异常样本修补以及数据归一化;
步骤3,利用标记特征编码器fmark对原始训练数据集Dtrain中历史事件的标记信息进行特征提取,得到标记特征编码vmark;
步骤4,利用时序特征编码器ftime对原始训练数据集Dtrain中历史事件的时间戳信息进行特征提取,得到时间特征编码vtime;
步骤5,对标记特征编码vmark和时间特征编码vtime进行特征融合,得到对于单个事件的特征表示vevent;
步骤6,基于历史事件序列中单个历史事件的特征编码,构造事件间的时序相关性图,并利用其对历史事件序列进行特征表示,得到序列特征si;
步骤7,利用序列特征si计算每种类型事件的条件强度函数λ,利用条件条件强度推理得到未来事件发生的时间戳和标记信息;
步骤8,计算事件序列预测模型的损失函数值,计算对应的梯度,并利用优化算法实现事件序列预测模型的反向传播,更新事件序列预测模型参数;
步骤9,判断事件序列预测模型的损失曲线是否收敛,若没有收敛,则返回步骤8继续对事件序列预测模型进行参数优化。
步骤10,完成基于时序卷积和关系建模的事件序列预测,保存已经训练好的事件序列预测模型,并将事件序列预测模型部署至服务器。
本发明步骤1中,从数据库中生成用于模型训练的历史事件序列数据集Dtrain,其中包含Nt个历史事件数据,每个历史事件数据包括历史事件发生的时间戳信息和该事件对应的标记信息;所述序列对事件进行排列,事件对应的编码从0开始递增;在训练数据集基础上,构建事件序列预测模型。
本发明步骤2中,将步骤1中生成的历史事件序列数据集作为训练集输入,并对原始训练数据集进行数据的清洗以及事件间隔时间的计算;
其中,数据清洗步骤包括:对Dtrain中无效和重复样本进行统计和删减;使用局部异常因子算法(参考:Yang J,Zhong N,Yao Y,et al.:Local peculiarity factor and itsapplication in outlier detection.In:Acm Sigkdd International Conference onKnowledge Discovery&Data Mining,2008:776-784)筛选Dtrain中的异常值,利用历史事件序列的平均值进行修正;使用最大最小值归一化方法对训练集中样本进行数据归一化,将数据分批进行整理,并使用Batch Normalization方法(参考:Ioffe S,Szegedy C:Batchnormalization:Accelerating deep network training by reducing internalcovariate shift.In:International Conference on Machine Learning,2015:448-456.)对其进行批归一化。
本发明步骤3包括:
步骤3-1,定义一种时序注意力卷积网络作为标记特征编码器fmark,使用线性整流函数ReLU(参考:Glorot X,Bordes A,Bengio Y:Deep Sparse Rectifier NeuralNetworks.In:Proceedings of the 14th International Conference on ArtificialIntelligence and Statistics.2011:315-323.)作为该网络的激活函数,使用凯明初始化Kaiming Initialization方法(参考:He K,Zhang X,Ren S,et al:Delving Deep intoRectifiers:Surpassing Human-Level Performance on ImageNet Classification.In:International Conference on Computer Vision 2015:1026—1034.)进行网络参数的初始化;
步骤3-2,针对Dtrain中的历史事件序列,计算其对应的标记信息序列中不同历史事件标记信息之间的时序相关性矩阵:
其中,m1:T表示历史序列中第1到T个事件所对应的标记信息所组成的序列,即标记信息序列,k1:T和q1:T表示m1:T对应的键值keys和查询query,和表示计算keys和query所使用的线性映射层,i和j表示历史事件步,ki和qj分别表示对应事件步的keys和query,dk表示特征向量的维度,Wi,j表示序列的一般自相关性矩阵,Wti,j表示序列的时序相关性矩阵;
步骤3-3,利用时序注意力结构对Dtrain中历史事件序列对应的标记信息序列m1:T进行初步的特征提取;时序注意力TA的计算过程如下:
本发明步骤4中,定义非线性映射层作为时序特征编码器ftime,使用ReLU作为网络的激活函数,使用Kaiming初始化方法进行网络参数的初始化;利用对Dtrain中历史事件的时间戳信息进行特征提取,得到时间特征编码vtime。
本发明步骤5中,对标记特征编码vmark和时间特征编码vtime进行特征融合,特征融合过程如下:
本发明步骤6包括:
步骤6-1,利用滑动窗口方法(参考:Gemulla R,Lehner W:Sampling time-basedsliding windows in bounded space.In:Acm Sigmod International Conference onManagement of Data.2008:379)对Dtrain中的事件序列进行处理,对于每个事件序列,定义Lw为窗口大小,在vevent的基础上,生成基于窗口的事件特征序列sori,并在每个窗口上构造时序相关性图;
步骤6-2,对于基于窗口的事件特征序列sori,计算序列中不同事件间的相关性权重ai,j,方法为:
步骤6-3,利用相关性权重构造时序相关性图的邻接矩阵Arel,并在时序相关性图上进行节点信息聚合,实现对事件节点的重编码并进行拼接,得到历史事件的序列特征si。(参考:Bahdanau D,Cho K,Bengio Y:Neural machine translation by jointlylearning to align and translate.In:3rd International Conference on LearningRepresentations.2015)
本发明步骤7中,为每类型的事件定义条件强度函数λ,并利用历史事件的序列特征si计算不同类型事件的λ,即λk(t),方法如下:
λk(t)=exp(wv·si+wd·(t-tj)+be)
其中,wv和wd表示神经网络的权重,be表示基础强度,t表示当前时间,tj表示上一事件时间戳;利用强度函数输出对于未来事件的预测信息(参考:Xiao S,Yan J,Chu S M,et al:Modeling The Intensity Function Of Point Process Via Recurrent NeuralNetworks.In:Proceedings of the 35th Conference on ArtificialIntelligence.2017:1597—1603.),包括时间戳和标记信息
本发明步骤8中,定义对数似然函数为模型的损失函数,并计算模型在Dtrain上的损失函数值,计算对应的梯度,并利用Adam优化算法(参考:Kingma D P,Ba J.Adam:A methodfor stochastic optimization.In:3rd International Conference on LearningRepresentations.2015.)实现模型的反向传播,优化模型参数。
本发明步骤10中,保存已经训练好的模型,并将模型部署至服务器,并对外提供接口服务。
有益效果:
1、本发明设计一种时序注意力卷积网络,通过时序卷积中的因果卷积网络模拟循环神经神经网络的序列建模过程,并且计算过程可并行化,因此模型在进行训练和推理过程中的计算效率显著提升。
2、由于本发明所提出的时序注意力卷积网络中设计了相关的注意力机制,因此模型可以建立当前事件与更早期历史事件之间的依赖性,扩大模型的感受野,丰富模型的表达能力。
3、本发明通过构造时序相关性图,为事件序列相关数据提出一种直接建模事件间的影响关系的方法,使得模型具有一定可解释性,并且提升模型对于未来事件的预测性能。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为本发明流程示意图。
图2为本发明所提出事件序列预测方法的整体计算框架图。
图3为本发明所提出时序注意力卷积网络的模型结构图。
图4为本发明所提出方法在2个事件序列预测数据集上进行实例验证时的测试结果示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,一种基于时序卷积和关系建模的事件序列预测方法包括10个步骤:
步骤1中,根据数据库的规模,在现有数据库中进行数据采样,生成用于模型训练的事件序列数据集Dtrain,其中包含Nt个被记录的历史事件数据,每个事件数据包括事件发生的时间戳信息和该事件对应的标记信息。对事件进行排列,事件对应的编码从0开始递增,在训练数据集基础上,构建事件序列预测模型。。
步骤2中,将当前生成的事件序列数据作为训练集输入此算法,并对原始数据集进行数据的清洗以及事件间隔时间的计算。数据清洗步骤包括对于Dtrain中无效和重复样本的统计和删减;使用局部异常因子算法筛选Dtrain中的异常值,利用平均值进行修正;并使用最大最小值归一化方法对训练集中样本进行数据归一化。将数据分Batch进行整理,并使用Batch Normalization方法对其进行批归一化。
步骤3包括如下步骤:
步骤3-1,定义一种时序注意力卷积网络作为标记特征编码器fmark,使用ReLU作为网络的激活函数,使用Kaiming初始化方法进行网络参数的初始化。
步骤3-2,针对Dtrain中历史事件序列,计算其对应的标记信息序列中不同事件标记信息之间的时序相关性矩阵:
其中m1:T表示历史序列中第1到T个事件所对应的标记信息所组成的序列,k1:T和q1:T表示m1:T对应的keys和query,和表示计算keys和query所使用的线性映射层,dk表示特征向量的维度,Wi,j表示序列的一般自相关性矩阵,Wti,j表示序列的时序相关性矩阵。
步骤3-3,利用时序注意力结构对Dtrain中历史事件序列对应的标记信息序列m进行初步的特征提取。时序注意力TA的计算过程如下:
步骤4中,我们定义非线性映射层作为时序特征编码器ftime,使用ReLU作为网络的激活函数,使用Kaiming初始化方法进行网络参数的初始化。利用对Dtrain中历史事件的时间戳信息进行特征提取,得到时间特征编码vtime。
步骤5中,我们对vmark和vtime进行特征融合,特征融合过程如下:
步骤6包括如下步骤:
步骤6-1,我们利用滑动窗口方法对Dtrain中的事件序列进行处理,对于每个事件序列,定义Lw为窗口大小,在vevent的基础上,生成基于窗口的事件特征序列sori,并在每个窗口上构造时序相关性图。
步骤6-2,对于sori,我们计算序列中不同事件间的相关性权重:
其中wrel表示神经网络的权重,Nei表示事件在时序相关性图中的邻居节点。
步骤6-3,我们利用相关性权重构造时序相关性图的邻接矩阵Arel,并在时序相关性图上进行节点信息聚合,实现对事件节点的重编码并进行拼接,得到得到序列特征si。
步骤7中,我们为每类型的事件定义条件强度函数λ,并利用历史序列特征si计算不同类型事件的λ:
λk(t)=exp(wv·si+wd·(t-tj)+be)
步骤8中,我们定义对数似然函数为模型的损失函数,并计算模型在Dtrain上的损失函数值,计算对应的梯度,并利用Adam优化算法实现模型的反向传播,优化模型参数。
步骤9中,我们判断模型的损失曲线是否收敛,若曲线没有收敛,则返回步骤8继续对模型进行参数优化。
步骤10中,我们保存已经训练好的模型,并将模型部署至服务器,提供RESTfulAPI接口服务。
实施例
为了验证本发明的有效性,我们分别在两个真实场景下采集的事件序列预测任务数据集上进行实例验证,包括IPTV数据集和MIMIC-II数据集。其中IPTV数据集是中国电信公司所提供的用户观看有线电视节目行为的事件序列数据,包含2967个用户的观看行为序列;MIMIC-II数据集是医学中心所提供患者的医疗诊断相关事件序列数据,记录了去该医学中心就诊的53423名患者在2001至2008年间的就诊数据。本实施例现以IPTV数据集中一个用于测试的事件序列数据为例,按照以下步骤进行事件预测:
1、对该事件序列数据进行数据预处理,包含数据的清洗和间隔时间的计算。数据清洗过程包括无效样本的去除,异常样本的修补以及数据归一化。
2、利用标记特征编码器fmark对该事件序列数据中历史事件的标记信息进行特征提取,得到标记特征编码vmark。
3、利用时序特征编码器ftime对该事件序列数据中历史事件的时间戳信息进行特征提取,得到时间特征编码vtime。
4、对利用步骤3得到的vmark和vtime进行特征融合,得到对于单个事件的特征表示vevent。
5、利用步骤4得到的历史序列中单个事件的特征编码,构造事件间的时序相关性图,并利用其对历史序列进行特征表示,得到序列特征si。
6、利用步骤5输出的历史序列特征si计算每种类型事件的条件强度函数λ,利用条件条件强度推理出未来事件发生的时间戳和标记信息,并将预测结果进行输出。
经过测试,我们的方法在IPTV数据集上达到了72.21%的预测准确率,均方根误差(RMSE)测试结果为12.632;在MIMIC-II数据集上达到了84.33%的预测准确率,RMSE测试结果为1.982。预测精度相比现有方法具有一定的提升,证明本发明所提出的基于时序卷积和关系建模的事件序列预测方法的有效性。
如图2所示,展示了本发明中所提出的事件序列预测算法对于样本的整体计算框架图。可以明显的观察到我们的事件预测算法分为三个阶段,第一阶段为对于历史序列中每个事件进行特征编码,包括对于标记信息的特征编码和对于时间戳的特征编码;第二阶段为对于整个历史序列的特征编码;第三阶段为利用历史序列的特征表示预测未来事件的相关信息。在第一阶段中,我们使用所设计的时序注意力卷积网络对历史事件的标记信息进行特征编码,使用非线性映射层对历史事件的时间戳进行特征编码;在第二阶段中,我们在历史序列上构建时序相关性图,并利用此图结构实现对于历史序列的编码;在第三阶段中,我们定义并计算每种类型事件的条件强度,并根据条件强度对未来事件进行预测。
如图3所示,展示了本发明所提出的时序注意力卷积网络的具体模型结构图。通过此图我们可以发现时序注意力卷积网络主要由三个模块构造而成,分别为时序注意力模块(Temporal Attention),时序卷积模块(Temporal Convolution)以及强化残差模块(Enhanced Residual)。其中时序注意力模块和时序卷积模块实现对于输入序列所进行的高效特征提取,强化残差模块的作用是利用时序注意力模块中所得到的权值,增大输入序列特征中不同序列点的差异性,加快模型在训练阶段的收敛速度。
如图4所示,展示了本发明所提出方法在2个事件序列预测数据集(IPTV数据集和MIMIC-II数据集)上进行实例验证时的测试结果,并将所提出方法与现有方法进行对比,分别对比预测准确率和RMSE。其中,表的第一列列出不同数据集,第二列列出进行对比的现有方法,其中每个数据集对应的最后一行为本发明所提出的方法。对比方法包括RMTPP模型(参考:Du N,Dai H,Trivedi R,et al:Recurrent marked temporal point processes:Embedding event history to vector.In:22th ACM SIGKDD international conferenceon knowledge discovery and data mining.2016:1555-1564.),Intensity-RNN模型(参考:Xiao S,Yan J,Chu S M,et al:Modeling The Intensity Function Of PointProcess Via Recurrent Neural Networks.In:Proceedings of the 35th Conferenceon Artificial Intelligence.2017:1597—1603.),NHP模型(参考:M,CharpentierB,Günnemann S:Uncertainty on asynchronous time event prediction.In:Advancesin Neural Information Processing Systems.2019,32.),FullyNN-TPP(参考Omi T,Aihara K:Fully neural network based model for general temporal pointprocesses.In:Advances in neural information processing systems,2019.)以及SAHP模型(参考:Zhang Q,Lipani A,Kirnap O,et al:Self-attentive Hawkes process.In:International conference on machine learning.PMLR.2020:11183-11193.)。测试结果显示本发明在预测准确率和RMSE上均优于所对比的模型,证明这套利用时序注意力卷积进行序列特征提取、利用时序相关性图进行历史序列中不同事件关系建模方法的可行性和有效性。
本发明提供了一种基于时序卷积和关系建模的事件序列预测方法的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (10)
1.一种基于时序卷积和关系建模的事件序列预测方法,其特征在于,包括以下步骤:
步骤1,从数据库中生成用于模型训练的历史事件序列数据集Dtrain,即原始训练数据集Dtrain,每个事件数据包含历史事件所发生的时间戳和标记信息,并构建事件序列预测模型;
步骤2,对原始训练数据集进行数据预处理,包括数据清洗和事件间隔时间计算;其中,数据清洗过程包括无效样本去除,异常样本修补以及数据归一化;
步骤3,利用标记特征编码器fmark对原始训练数据集Dtrain中历史事件的标记信息进行特征提取,得到标记特征编码vmark;
步骤4,利用时序特征编码器ftime对原始训练数据集Dtrain中历史事件的时间戳信息进行特征提取,得到时间特征编码vtime;
步骤5,对标记特征编码vmark和时间特征编码vtime进行特征融合,得到对于单个事件的特征表示vevent;
步骤6,基于历史事件序列中单个历史事件的特征编码,构造事件间的时序相关性图,并利用其对历史事件序列进行特征表示,得到序列特征si;
步骤7,利用序列特征si计算每种类型事件的条件强度函数λ,利用条件条件强度推理得到未来事件发生的时间戳和标记信息;
步骤8,计算事件序列预测模型的损失函数值,计算对应的梯度,并利用优化算法实现事件序列预测模型的反向传播,更新事件序列预测模型参数;
步骤9,判断事件序列预测模型的损失曲线是否收敛,若没有收敛,则返回步骤8继续对事件序列预测模型进行参数优化。
步骤10,完成基于时序卷积和关系建模的事件序列预测,保存已经训练好的事件序列预测模型,并将事件序列预测模型部署至服务器。
2.如权利要求1所述的一种基于时序卷积和关系建模的事件序列预测方法,其特征在于,步骤1中,从数据库中生成用于模型训练的历史事件序列数据集Dtrain,其中包含Nt个历史事件数据,每个历史事件数据包括历史事件发生的时间戳信息和该事件对应的标记信息;所述序列对事件进行排列,事件对应的编码从0开始递增;在训练数据集基础上,构建事件序列预测模型。
3.如权利要求2所述的一种基于时序卷积和关系建模的事件序列预测方法,其特征在于,步骤2中,将步骤1中生成的历史事件序列数据集作为训练集输入,并对原始训练数据集进行数据的清洗以及事件间隔时间的计算;
其中,数据清洗步骤包括:对Dtrain中无效和重复样本进行统计和删减;使用局部异常因子算法筛选Dtrain中的异常值,利用历史事件序列的平均值进行修正;使用最大最小值归一化方法对训练集中样本进行数据归一化,将数据分批进行整理,并使用BatchNormalization方法对其进行批归一化。
4.如权利要3所述的一种基于时序卷积和关系建模的事件序列预测方法,其特征在于,步骤3包括:
步骤3-1,定义一种时序注意力卷积网络作为标记特征编码器fmark,使用线性整流函数ReLU作为该网络的激活函数,使用凯明初始化Kaiming Initialization方法进行网络参数的初始化;
步骤3-2,针对Dtrain中的历史事件序列,计算其对应的标记信息序列中不同历史事件标记信息之间的时序相关性矩阵:
其中,m1:T表示历史序列中第1到T个事件所对应的标记信息所组成的序列,即标记信息序列,k1:T和q1:T表示m1:T对应的键值keys和查询query,和表示计算keys和query所使用的线性映射层,i和j表示历史事件步,ki和qj分别表示对应事件步的keys和query,dk表示特征向量的维度,Wi,j表示序列的一般自相关性矩阵,Wti,j表示序列的时序相关性矩阵;
步骤3-3,利用时序注意力结构对Dtrain中历史事件序列对应的标记信息序列m1:T进行初步的特征提取;时序注意力TA的计算过程如下:
7.如权利要求6所述的一种基于时序卷积和关系建模的事件序列预测方法,其特征在于,步骤6包括:
步骤6-1,利用滑动窗口方法对Dtrain中的事件序列进行处理,对于每个事件序列,定义Lw为窗口大小,在vevent的基础上,生成基于窗口的事件特征序列sori,并在每个窗口上构造时序相关性图;
步骤6-2,对于基于窗口的事件特征序列sori,计算序列中不同事件间的相关性权重ai,j,方法为:
步骤6-3,利用相关性权重构造时序相关性图的邻接矩阵Arel,并在时序相关性图上进行节点信息聚合,实现对事件节点的重编码并进行拼接,得到历史事件的序列特征si。
9.如权利要求8所述的一种基于时序卷积和关系建模的事件序列预测方法,其特征在于,步骤8中,定义对数似然函数为模型的损失函数,并计算模型在Dtrain上的损失函数值,计算对应的梯度,并利用Adam优化算法实现模型的反向传播,优化模型参数。
10.根据权利要求9所述的一种基于时序卷积和关系建模的事件序列预测方法,其特征在于,步骤10中,保存已经训练好的模型,并将模型部署至服务器,并对外提供接口服务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210305672.8A CN114723003A (zh) | 2022-03-25 | 2022-03-25 | 一种基于时序卷积和关系建模的事件序列预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210305672.8A CN114723003A (zh) | 2022-03-25 | 2022-03-25 | 一种基于时序卷积和关系建模的事件序列预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114723003A true CN114723003A (zh) | 2022-07-08 |
Family
ID=82238780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210305672.8A Pending CN114723003A (zh) | 2022-03-25 | 2022-03-25 | 一种基于时序卷积和关系建模的事件序列预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114723003A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115204061A (zh) * | 2022-09-09 | 2022-10-18 | 深圳市信润富联数字科技有限公司 | 自动确定冲压建模规模方法、装置、设备及存储介质 |
CN116542429A (zh) * | 2023-07-06 | 2023-08-04 | 中国石油大学(华东) | 一种融合时空特征的油藏生产指标机器学习预测方法 |
-
2022
- 2022-03-25 CN CN202210305672.8A patent/CN114723003A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115204061A (zh) * | 2022-09-09 | 2022-10-18 | 深圳市信润富联数字科技有限公司 | 自动确定冲压建模规模方法、装置、设备及存储介质 |
CN115204061B (zh) * | 2022-09-09 | 2023-01-06 | 深圳市信润富联数字科技有限公司 | 自动确定冲压建模规模方法、装置、设备及存储介质 |
CN116542429A (zh) * | 2023-07-06 | 2023-08-04 | 中国石油大学(华东) | 一种融合时空特征的油藏生产指标机器学习预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111367961B (zh) | 基于图卷积神经网络的时序数据事件预测方法、系统及其应用 | |
CN110674604B (zh) | 基于多维时序帧卷积lstm的变压器dga数据预测方法 | |
CN111694879B (zh) | 一种多元时间序列异常模式预测方法及数据采集监控装置 | |
Peel et al. | Detecting change points in the large-scale structure of evolving networks | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN114723003A (zh) | 一种基于时序卷积和关系建模的事件序列预测方法 | |
CN111460728A (zh) | 一种工业设备剩余寿命预测方法、装置、存储介质及设备 | |
CN112560036B (zh) | 一种基于神经网络与深度学习的c/c++漏洞静态检测方法 | |
CN113688253B (zh) | 一种层次感知的时态知识图谱表示学习方法 | |
CN110956309A (zh) | 基于crf和lstm的流程活动预测方法 | |
CN112163064B (zh) | 基于深度学习的文本分类方法 | |
CN112860904A (zh) | 一种融入外部知识的生物医疗关系抽取方法 | |
CN115391553A (zh) | 一种自动搜索时序知识图谱补全模型的方法 | |
CN113793227A (zh) | 一种用于社交网络事件的类人智能感知与预测方法 | |
CN111737470B (zh) | 文本分类方法 | |
Mete et al. | Predicting semantic building information (BIM) with Recurrent Neural Networks | |
CN116737943A (zh) | 面向新闻领域的时序知识图谱链路预测方法 | |
CN115048873B (zh) | 一种用于飞机发动机的剩余使用寿命预测系统 | |
CN113835964B (zh) | 基于小样本学习的云数据中心服务器能耗预测方法 | |
CN112735604B (zh) | 一种基于深度学习算法的新型冠状病毒分类方法 | |
CN113806561A (zh) | 一种基于实体属性的知识图谱事实补全方法 | |
CN117010459B (zh) | 基于模块化和序列化自动生成神经网络的方法 | |
CN117454212B (zh) | 一种基于数据聚类的遥测数据互检测方法 | |
CN117454762B (zh) | Markov-神经网络的穿煤隧道掌子面瓦斯浓度预测方法 | |
CN117439800B (zh) | 一种网络安全态势预测方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |