CN113392137A - 基于双窗口机制的多变量时间序列数据预测模型 - Google Patents

基于双窗口机制的多变量时间序列数据预测模型 Download PDF

Info

Publication number
CN113392137A
CN113392137A CN202110491150.7A CN202110491150A CN113392137A CN 113392137 A CN113392137 A CN 113392137A CN 202110491150 A CN202110491150 A CN 202110491150A CN 113392137 A CN113392137 A CN 113392137A
Authority
CN
China
Prior art keywords
time
sequence
long
data
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110491150.7A
Other languages
English (en)
Inventor
黄益攀
樊谨
章柯
陈金华
汪森
陈柏平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110491150.7A priority Critical patent/CN113392137A/zh
Publication of CN113392137A publication Critical patent/CN113392137A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于双窗口机制的多变量时间序列数据预测模型。包括短序列处理模块和长序列处理模块;其中,所述短序列处理模块用于处理短时间序列数据,并从中提取出平稳的近期信息;所述长序列处理模块用于处理长时间序列数据,并从中提取出周期性、季节性的长期信息。最后将两部分结合起来,从而兼具近期信息和长期规律,得到更好的预测结果。本发明有效利用长时间序列数据从而提高时间序列预测准确率。本发明系统在所有数据集中都得到了最好的RMSE和MAE。这说明本发明确实因为融合了长序列和短序列各自的特点而优于单纯使用短序列的模型。且本发明拥有比DARNN和TCN更强的预测能力,更适用于需要高准确率而不是低时间花费的场合。

Description

基于双窗口机制的多变量时间序列数据预测模型
技术领域
本发明属于人工智能、深度学习、时序数据分析和预测领域,是一种基于双窗口机制的多变量时间序列预测方法。
背景技术
大数据时代,时间序列数据出现在生活中的各个角落。时间序列预测算法变得越来越重要,在气候、经济、能源消耗等领域都发挥着巨大的作用。
在大部分场景下,时间序列数据都是多变量的,这些变量之间存在着空间上和时间上的关联,而找出变量之间的关联就是时间序列预测算法的普遍做法。人工智能在时间预测任务上一直发挥着举重若轻的作用,例如ARIMA、循环神经网络(RNN)、长短时记忆网络(LSTM)等都是常用于时间序列预测的方法。ARIMA作为一个使用广泛的时间序列预测算法,在很多领域都证明了有效性,例如股票价格预测等。但是ARIMA只能捕捉线性关系且只能应用于稳定的时序数据,难以用来预测复杂的时序数据,尤其是多变量数据。循环神经网络(RNN)可以捕捉非线性关系,但是存在着梯度消失的问题,难以获取时序数据的长期依赖性,当需要处理的时间序列长度变大时,预测效果会逐渐变差。而长短时记忆网络(LSTM)缓解了RNN的梯度消失问题,并由此发展出了许多针对于时间序列预测的模型,例如编码器解码器网络(Encoder-Decoder)。Encoder-Decoder网络在时间序列分类和预测任务上都十分出色,尤其是基于注意力机制机制的Encoder-Decoder网络。基于注意力机制的Encoder-Decoder网络不仅可以获取多个时间序列之间的时间和空间关联,也能找到原始数据中更重要的部分并加大权重,这使得模型更加容易归纳时间序列数据的变化规律。
在这其中,DARNN是目前时间序列预测的最优算法之一,DARNN使用双阶段的注意力机制获取多变量之间的空间和时间联系。但是DARNN是基于RNN的深度神经网络,同样存在RNN的问题,即预测准确率随着时间序列长度变长而变差。时间序列的长度代表着序列中蕴藏的信息量的多少,越长的时间序列就能带给模型更多的经验和信息。但是由于RNN的局限性,我们没有办法完全利用长时间序列,甚至反而会对预测产生反作用。这是因为在时间序列长度足够大的时候,前面时间步的信息会被后面时间步信息覆盖。
如何有效利用长时间序列数据从而提高时间序列预测准确率,这是一个需要得到解决的问题。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于深度模型框架和双窗口机制的时间序列预测网络DWNet(Dual-Window Deep Neural Network)。本发明包括两个平行的处理模块,分别为长窗口处理模块和短窗口处理模块;短窗口处理模块基于Encoder-Decoder网络,并且在Encoder和Decoder部分分别加入了注意力模块;长窗口模块基于新兴的时序建模模型——时域卷积网络(TCN)。
本发明解决其技术问题所采用的技术方案如下:
基于双窗口机制的多变量时间序列数据预测模型,其特征在于,包括短序列处理模块和长序列处理模块;其中,所述短序列处理模块用于处理短时间序列数据,并从中提取出平稳的近期信息;所述长序列处理模块用于处理长时间序列数据,并从中提取出周期性、季节性的长期信息。
所述双窗口机制是指对于一份预测数据样本,采用两种不同的窗口大小,使得一份数据样本能够提供两种信息:近期信息和长期信息;近期信息中包含着时间序列数据近期的趋势、值的大小和周期;长期信息中包含着所有的历史信息;最后两种信息结合起来得到预测值。
所述短序列处理模块包括Encoder网络和Decoder网络;其中Encoder网络由LSTM单元和空间注意力模块组成,用于对原始数据进行编码并提取出序列之间的空间关系;Decoder网络由LSTM单元和时间注意力模块组成,用于对Encoder网络处理得到的数据进行解码,提取出序列之间的时间关系。
所述长序列处理模块由TCN网络实现,用于从长时间序列中得到长期信息。
所述的双窗口机制的具体实现如下:
设两种不同的窗口长度Tl和Ts,其中Tl>Ts;将多变量外生序列定义为
Figure BDA0003052144620000031
从X中分割出
Figure BDA0003052144620000032
n为外生序列的维度;其中X1作为长序列,X2作为短序列;其中
Figure BDA0003052144620000033
表示第i个长外生序列,
Figure BDA0003052144620000034
表示第i个短序列序列,
Figure BDA0003052144620000035
表示在t时刻n个外生序列的向量;用
Figure BDA0003052144620000036
来表示目标序列;
给定外生序列和目标序列的值,即
Figure BDA0003052144620000037
Figure BDA0003052144620000038
通过以下公式预测出目标序列下一个时间步的值:
Figure BDA0003052144620000039
其中F(.)是深度神经网络需要学习到的非线性函数。
所述的短序列处理模块的具体实现如下:
Encoder网络的输入数据是短序列
Figure BDA00030521446200000310
对于
Figure BDA00030521446200000311
使用Encoder网络中的空间注意力模块来获取外生序列之间的空间关联,公式如下:
Figure BDA00030521446200000312
Figure BDA00030521446200000313
其中
Figure BDA00030521446200000314
Figure BDA00030521446200000315
是Encoder中需要学习的参数;
Figure BDA00030521446200000316
Figure BDA00030521446200000317
是Encoder中的LSTM单元在t-1时刻的隐藏层状态和细胞层状态,分别存储着近期记忆和远期记忆;p是Encoder的隐藏层层数,
Figure BDA00030521446200000318
是在t时刻通过对第i个外生序列重要性的计算得出的注意力权重;得到注意力权重之后,能够得到中间参数:
Figure BDA0003052144620000041
t时刻的隐藏层状态就可以根据以下公式计算得出:
Figure BDA0003052144620000042
在该公式中,是Encoder中的LSTM单元;在t时刻,空间注意力模块根据前一个时间点的隐藏层状态计算得出各外生序列的注意力权重,再根据参数
Figure BDA0003052144620000043
的外生序列计算时间t时的隐藏层状态,这样不断循环,直到处理完所有时间点;
Decoder网络的输入是Encoder网络中计算得出的各时间点上的隐藏层状态和目标序列;Decoder网络需要从各时间点的数据中提取出时间关联,并得出预测结果;Decoder网络使用时间注意力机制,时间点t上的注意力权重根据先前的Decoder的隐藏层状态和细胞状态来计算,公式如下:
Figure BDA0003052144620000044
Figure BDA0003052144620000045
其中
Figure BDA0003052144620000046
Figure BDA0003052144620000047
是Decoder中需要学习的参数;
Figure BDA0003052144620000048
Figure BDA0003052144620000049
分别是Decoder中的LSTM单元在t-1时刻的隐藏层状态和细胞状态;q是Decoder的隐藏层层数,
Figure BDA00030521446200000410
是Decoder的注意力权重,用于显示在t-1时刻第i个Decoder隐藏层状态的重要性;根据注意力权重得出中间向量,公式如下:
Figure BDA00030521446200000411
中间向量是t时刻,所有分配权重过的Encoder隐藏层状态之和;然后我们使用中间向量求出下一个时间点的Decoder隐藏层状态,公式如下:
h′t=fd(h′t-1,[ct:yt]) (9)
其中fd是Decoder中的LSTM单元。
所述的长序列处理模块的具体实现如下:
长时间序列处理模块的输入是时间点从1到Tl的时序数据;为了使预测时间点之后的数据不应该影响预测结果;TCN使用因果卷积防止信息的泄露;同时为扩大视野域,TCN使用了空洞卷积;
对于长外生序列
Figure BDA0003052144620000051
和卷积核g:(g0,g1,...,gk-1),TCN在t时刻的元素的值由以下公式计算得出:
Figure BDA0003052144620000052
在该公式中,
Figure BDA0003052144620000053
是膨胀因子,用来控制卷积操作的间隔,k是卷积核大小;
TCN使用残差块,每隔若干层就把前面层和当前层结合。
基于双窗口机制的多变量时间序列数据预测方法,包括以下步骤:
步骤1:收集大量历史的时间序列数据,并将数据划分为指定时间步长的多个数据样本;
步骤2:将数据样本输入到系统中,经过反向传播算法训练模型的参数;
步骤3:将需要进行预测的时间序列数据输入到模型之中,并得到预测值。
本发明有益效果如下:
本发明有效利用长时间序列数据从而提高时间序列预测准确率。
本发明系统在所有数据集中都得到了最好的RMSE和MAE。这说明本发明确实因为融合了长序列和短序列各自的特点而优于单纯使用短序列的模型。且本发明拥有比DARNN和TCN更强的预测能力,更适用于需要高准确率而不是低时间花费的场合。
附图说明
图1:DWNet模型框架图;
图2:DWNet与多种方法在不同数据集中的比较;
图3:不同方法每10个迭代所花费的时间;
具体实施方式
本发明在现有时间序列预测方法的局限性的基础上,设计了一种基于双窗口机制的深度时间序列预测模型DWNet。我们在Pytorch深度学习框架中实现了DWNet。为了测试DWNet在时间序列预测任务中的性能,我们将在3个公开数据集和1个自己收集的人类运动数据集上与现有的时间序列预测方法进行比较。
1.1符号说明和问题陈述
在本文中,有两种不同的窗口大小Tl和Ts,其中Tl>Ts。我们将多变量外生序列定义为
Figure BDA0003052144620000061
我们从X中分割出
Figure BDA0003052144620000062
n为外生序列的维度。其中X1作为长序列,X2作为短序列。其中
Figure BDA0003052144620000063
表示第i个长外生序列,
Figure BDA0003052144620000064
表示第i个短序列序列,
Figure BDA0003052144620000065
表示在时间t时n个外生序列的向量。我们用
Figure BDA0003052144620000066
来表示目标序列。
给定之前的外生序列和目标序列的值,即
Figure BDA0003052144620000067
Figure BDA0003052144620000068
我们通过以下公式预测出目标序列下一个时间步的值:
Figure BDA0003052144620000069
其中F(.)是深度神经网络需要学习到的非线性函数。
1.2模型介绍
图1展示了DWNet网络的总体框架。模型的输入分为两个部分,时间窗口步数为Tl的长多变量时间序列和时间窗口步数为Ts的短多变量时间序列,其中短序列是长序列的尾部部分(图1显示了2个序列之间的关系)。长序列经过TCN进行处理,获取相较于短序列更详尽的历史信息。而短序列先后通过Encoder和Decoder的处理,获取距离预测时间点最近的局部信息。最后,将长时间序列的历史信息和短时间序列的局部信息进行结合,得到了所需要的预测目标值。
1.2.1长时间序列处理模块
我们通过TCN来处理长序列数据并获取长期依赖,因为TCN能够并行地处理时间序列数据,并且参数量相对于RNN等循环神经网络更少。由于这两个特性,TCN可以非常快速地处理长时间序列,提高效率。另外,TCN中不存在之前时间步的信息被后面时间步覆盖的问题,当时间窗口过大时,TCN可以保证信息的完整性。在DWNet中,长时间序列处理模块的输入是时间点从1到Tl的时序数据。在时序数据分析中,我们不能允许未来的信息泄露到过去这样的情况发生。例如,预测任务中,预测时间点之后的数据不应该影响预测结果。为此,TCN使用了因果卷积防止信息的泄露。为了扩大视野域,TCN使用了空洞卷积,对于长外生序列
Figure BDA0003052144620000071
和卷积核g:(g0,g1,...,gk-1),TCN在时间点t的元素的值由以下公式计算得出:
Figure BDA0003052144620000072
在该公式中,d是膨胀因子,用来控制卷积操作的间隔,k是卷积核大小。
神经网络的深度越深,就越容易发生梯度爆炸和梯度消失,TCN使用了残差块,每隔若干层,就把前面层和当前层结合。残差连接使得网络能够跨层传输信息,提高了提取特征的效率。
1.2.2短时间序列处理模块
短序列处理模块基于Encoder-Decoder网络,Encoder-Decoder网络分为Encoder和Decoder两个部分,在这个两个部分中分别使用了空间注意力机制和时间注意力机制来强调短序列中的重要信息。Encoder模块的输入数据是短序列
Figure BDA0003052144620000081
对于
Figure BDA0003052144620000082
我们使用Encoder中的空间注意力模块来获取外生序列之间的空间关联,公式如下:
Figure BDA0003052144620000083
Figure BDA0003052144620000084
其中
Figure BDA0003052144620000085
Figure BDA0003052144620000086
是Encoder中需要学习的参数。
Figure BDA0003052144620000087
Figure BDA0003052144620000088
是Encoder中的LSTM单元在时间点t-1时的隐藏层状态和细胞状态,分别存储着近期记忆和远期记忆。p是Encoder的隐藏层层数,
Figure BDA0003052144620000089
是在时间点t时通过对第i个外生序列重要性的计算得出的注意力权重。在我们得到注意力权重之后,我们可以得到:
Figure BDA00030521446200000810
时间点t的隐藏层状态就可以根据以下公式计算得出:
Figure BDA00030521446200000811
在该公式中,是Encoder中的LSTM单元。在时间t时,空间注意力模块根据前一个时间点的隐藏层状态计算得出各外生序列的重要系数,再根据分配过权重的外生序列计算时间t时的隐藏层状态,这样不断循环,直到处理完所有时间点。
Decoder模块的输入是Encoder模块中计算得出的各时间点上的隐藏层状态和目标序列。Decoder模块需要从各时间点的数据中提取出时间关联,并得出预测结果。Decoder模块中使用了时间注意力机制,和Encoder一样,时间点t上的注意力权重也是根据先前的Decoder的隐藏层状态和细胞状态来计算,公式如下:
Figure BDA0003052144620000091
Figure BDA0003052144620000092
其中
Figure BDA0003052144620000093
Figure BDA0003052144620000094
是Decoder中需要学习的参数。
Figure BDA0003052144620000095
Figure BDA0003052144620000096
分别是Decoder中的LSTM单元在时间点t-1时的隐藏层状态和细胞状态。q是Decoder的隐藏层层数,
Figure BDA0003052144620000097
是注意力权重,可以显示在时间点t-1时第i个Decoder隐藏层状态的重要性。我们可以根据注意力权重,得出中间向量,公式如下:
Figure BDA0003052144620000098
中间向量是时间点t时,所有分配权重过的Encoder隐藏层状态之和。然后我们可以使用中间向量求出下一个时间点的Decoder隐藏层状态,公式如下:
h′t=fd(h′t-1,[ct:yt])
其中fd是Decoder中的LSTM单元。
1.2.3模型训练
图1显示了预测值是由两部分共同决定的。我们结合了Decoder模块的输出
Figure BDA0003052144620000099
和TCN的输出
Figure BDA00030521446200000910
用以下公式来预测
Figure BDA00030521446200000911
Figure BDA00030521446200000912
其中和是需要学习的参数。m是每一层的隐藏单元的数量。我们使用反向传播算法来训练DWNet网络,使用Adam优化方法来最小化预测值和真实值之间的均方误差(MSE),公式如下:
Figure BDA00030521446200000913
其中θ是需要学习的参数。
进一步的,所述的TCN网络能够并行处理时间序列,并且参数量比常用于时序建模的LSTM网络少了几个数量级,因此长序列模块可以以非常迅速的速度处理长时间序列。另外,TCN网络由于并行处理的特性,规避了长序列中前面时间步数据被后面时间步数据覆盖的问题,这使得长序列处理模块可以获得完整稳定的长期信息。
实施例1:
1数据集和baseline方法
使用的数据集包含了运动、能源、气候和医药领域,在实验中我们将把数据集按照4:1的比例分为训练集和测试集。4个数据集简单介绍分别如下:
Human Sports:是由10位性别、身高、体重各不相同的志愿者进行包含了包括深蹲、步行、开合跳、高抬腿等多个人类运动采集的数据。通过佩戴在手臂和大腿上的4个可穿戴式传感器,每50毫秒记录一次各自的XYZ轴的角速度和加速度。在本次实验中,我们把合加速度作为目标序列,把剩余的作为外生序列。我们只使用其中一位志愿者深蹲的数据,并把前8800个数据点作为训练集,后2200个数据集作为测试集。
SML 2010:这是一个用于室内温度预测的公开数据集。该数据集的数据是由监控系统采集到的,包含了接近40天的数据。每分钟对数据进行一次采样,以15分钟的平均值对数据进行计算和上传。在本次实验中,我们把室内温度作为目标序列,并且挑选了15个外生序列。我们把前1971个数据点作为训练集,之后的493个数据点作为测试集。
Appliances energy:这是一个用于家电能耗预测的公开数据集。这个数据集每10分钟一次,一共采集了4到5个月。房屋气温和湿度由无线传感器采集,每3.3分钟采集一次,10分钟取一次平均值。能耗数据每10分钟用m-bus能量计记录一次。气象数据是从最近的气象站下载得到。在本次实验中,我们把能耗作为目标序列,并选取了X个外生序列。我们把前15548个数据点作为训练集,之后的3887个数据点作为测试集。
EEG(Steady-state Visual Evoked Potential Signals):这是一个用于分类和回归的公开数据集。这个数据集由30位执行稳态视觉诱发电位的脑计算机接口的受试者组成,每一位受试者会有多组数据,我们仅使用其中的一组。这个数据集一共有16个特征,其中14个是电极信号,它们是根据国际标准命名的,剩余两个是时域和一个称为插值的信号,通常为0.在本次实验中,我们取电极O1作为目标序列,其余特征作为外生序列,并把前7542个数据点作为训练集,之后的1886个数据点作为测试集
我们选取了8个方法作为DWNet的对照组,包含了传统的统计模型和达到当前最好预测效果的深度神经网络方法。以下是这些方法的简介:
ARIMA:统计模型之一,是著名的用于时间序列预测的方法
LSTM:比起RNN,LSTM使用门机制有选择的让一部分信息进入,解决了梯度消失的问题
Encoder-Decoder:通过LSTM把序列编码为固定长度的向量,再通过另一个LSTM解码
Spatio-Attn:在Encoder-Decoder的基础上,添加了一个注意力机制在Encoder模块,用来获取原始数据的空间相关性
Temp-Attn:在Encoder-Decoder的基础上,添加了一个注意力机制在Decoder模块,用来获取隐含层的时间相关性
TCN:改进了CNN,为了使模型适用于时间序列,使用了扩张卷积,从而能获得更大的感受野
DARNN:在Encoder-Decoder的基础上,在两个模块分别添加了注意力机制,前者获取原始数据的空间关联,后者获取隐含层的时间关联
DSTP-RNN-I:达到目前的最好效果的方法之一。改进了DARNN,又添加了一个注意力机制,在Encoder两个阶段的注意力机制中,可以获得更加稳定的权重,可以在长时间序列的预测任务中获得更好的效果
2评价指标
在实验中,我们采用均方根误差(root mean squared error,RMSE)和平均绝对误差(mean absolute error,MAE)这两种评价指标。这两种评价指标都是尺度相关并且广泛应用于时序数据预测。其中RMSE对于过于糟糕的预测结果有着更强的反馈,而MAE则是对所有的结果一视同仁,糟糕的预测不会让MAE的分数过高。所以同时使用这两种不同的评价指标可以在实验中,更详细地显示出我们的模型在时序数据预测方面的效果。
假设yt是时间点t的真实值,而
Figure BDA0003052144620000121
是时间点t上的预测值,RMSE被定义为:
Figure BDA0003052144620000122
MAE被定义为:
Figure BDA0003052144620000123
3实验结果
在实验中,我们将Ts设为16,Tl设为128。为了保证公平性,我们对baseline方法在两种时间窗口大小情况下都进行了实验,得到结果如图2。
在图2中,我们可以观察到DWNet在所有数据集中都得到了最好的RMSE和MAE。这说明DWNet确实因为融合了长序列和短序列各自的特点而优于单纯使用短序列的模型。ARIMA在4个数据集上都表现得很差,这正是因为ARIMA无法捕捉非线性关系且没有考虑到外生序列之间的空间联系。Encoder-Decoder网络在4个数据集上都表现的比LSTM优越,这说明Encoder-Decoder网络确实比普通的LSTM网络更容易获取数据的时序依赖性。基于注意力机制的Encoder-Decoder网络例如Input-Attn、Temp-Attn在4个数据集上都优于普通的Encoder-Decoder网络,因为注意力机制更容易获取原始数据中比较重要的特征。在这其中DARNN和DSTP在4个数据集上都有着不错的表现,但是于其他encoder-Decoder网络一样,时间步数为128时的预测效果都比时间步数为16时的预测效果差,而这正是Encoder-Decoder网络的弊端。TCN作为一个新兴的序列建模模型,在4个数据集上的表现十分不稳定。TCN在Human Sports上甚至表现得比DSTP好,但是在另外3个数据集,尤其是EEG上,表现得不尽如人意。
模型的时间效率同样是一个需要考虑的评价指标。在这个部分,我们比较了DWNet和几个baseline方法的时间效率。在实验中,我们将T=16,Tl=128,Ts=16,其他参数固定不变。我们在Human Sports和EEG这两个数据集上进行训练,并记录了10次epoch所需要花费的时间(单位为秒),结果如图3。我们可以观察到随着注意力模块的增加,模型所花费的时间也逐渐增加。InputAttn和TempAttn只有一个注意力模块,TempAttn训练时间略高于InputAttn,但都远远少于有两个注意力模块的DARNN。DSTP在Encoder部分有两个注意力模块,在Decoder部分有一个注意力模块,因此训练时间大于DARNN。TCN因为参数量少和并行处理的特性,在时间上具有非常大的优势,在两个数据集上都花费了最少的时间。而DWNet中有两个注意力模块,还有一个长序列处理模块(由TCN实现),在时间效率上不如DARNN,更不用说TCN,但是DWNet拥有比DARNN和TCN更强的预测能力,更适用于需要高准确率而不是低时间花费的场合。

Claims (8)

1.基于双窗口机制的多变量时间序列数据预测模型,其特征在于,包括短序列处理模块和长序列处理模块;其中,所述短序列处理模块用于处理短时间序列数据,并从中提取出平稳的近期信息;所述长序列处理模块用于处理长时间序列数据,并从中提取出周期性、季节性的长期信息。
2.根据权利要求1所述的基于双窗口机制的多变量时间序列数据预测模型,其特征在于所述双窗口机制是指对于一份预测数据样本,采用两种不同的窗口大小,使得一份数据样本能够提供两种信息:近期信息和长期信息;近期信息中包含着时间序列数据近期的趋势、值的大小和周期;长期信息中包含着所有的历史信息;最后两种信息结合起来得到预测值。
3.根据权利要求1所述的基于双窗口机制的多变量时间序列数据预测模型,其特征在于所述短序列处理模块包括Encoder网络和Decoder网络;其中Encoder网络由LSTM单元和空间注意力模块组成,用于对原始数据进行编码并提取出序列之间的空间关系;Decoder网络由LSTM单元和时间注意力模块组成,用于对Encoder网络处理得到的数据进行解码,提取出序列之间的时间关系。
4.根据权利要求1所述的基于双窗口机制的多变量时间序列数据预测模型,其特征在于所述长序列处理模块由TCN网络实现,用于从长时间序列中得到长期信息。
5.根据权利要求2所述的基于双窗口机制的多变量时间序列数据预测模型,其特征在于双窗口机制的具体实现如下:
设两种不同的窗口长度Tl和Ts,其中Tl>Ts;将多变量外生序列定义为
Figure FDA0003052144610000011
从X中分割出
Figure FDA0003052144610000012
n为外生序列的维度;其中X1作为长序列,X2作为短序列;其中
Figure FDA0003052144610000013
表示第i个长外生序列,
Figure FDA0003052144610000014
表示第i个短序列序列,
Figure FDA0003052144610000015
表示在t时刻n个外生序列的向量;用
Figure FDA0003052144610000021
来表示目标序列;
给定外生序列和目标序列的值,即
Figure FDA0003052144610000022
Figure FDA0003052144610000023
通过以下公式预测出目标序列下一个时间步的值:
Figure FDA0003052144610000024
其中F(.)是深度神经网络需要学习到的非线性函数。
6.根据权利要求3所述的基于双窗口机制的多变量时间序列数据预测模型,其特征在于短序列处理模块的具体实现如下:
Encoder网络的输入数据是短序列
Figure FDA0003052144610000025
对于
Figure FDA0003052144610000026
使用Encoder网络中的空间注意力模块来获取外生序列之间的空间关联,公式如下:
Figure FDA0003052144610000027
Figure FDA0003052144610000028
其中
Figure FDA0003052144610000029
Figure FDA00030521446100000210
是Encoder中需要学习的参数;
Figure FDA00030521446100000211
Figure FDA00030521446100000212
是Encoder中的LSTM单元在t-1时刻的隐藏层状态和细胞层状态,分别存储着近期记忆和远期记忆;p是Encoder的隐藏层层数,
Figure FDA00030521446100000213
是在t时刻通过对第i个外生序列重要性的计算得出的注意力权重;得到注意力权重之后,能够得到中间参数:
Figure FDA00030521446100000214
t时刻的隐藏层状态就可以根据以下公式计算得出:
Figure FDA00030521446100000215
在该公式中,是Encoder中的LSTM单元;在t时刻,空间注意力模块根据前一个时间点的隐藏层状态计算得出各外生序列的注意力权重,再根据参数
Figure FDA00030521446100000216
的外生序列计算时间t时的隐藏层状态,这样不断循环,直到处理完所有时间点;
Decoder网络的输入是Encoder网络中计算得出的各时间点上的隐藏层状态和目标序列;Decoder网络需要从各时间点的数据中提取出时间关联,并得出预测结果;Decoder网络使用时间注意力机制,时间点t上的注意力权重根据先前的Decoder的隐藏层状态和细胞状态来计算,公式如下:
Figure FDA0003052144610000031
Figure FDA0003052144610000032
其中
Figure FDA0003052144610000033
Figure FDA0003052144610000034
是Decoder中需要学习的参数;
Figure FDA0003052144610000035
Figure FDA0003052144610000036
分别是Decoder中的LSTM单元在t-1时刻的隐藏层状态和细胞状态;q是Decoder的隐藏层层数,
Figure FDA0003052144610000037
是Decoder的注意力权重,用于显示在t-1时刻第i个Decoder隐藏层状态的重要性;根据注意力权重得出中间向量,公式如下:
Figure FDA0003052144610000038
中间向量是t时刻,所有分配权重过的Encoder隐藏层状态之和;然后我们使用中间向量求出下一个时间点的Decoder隐藏层状态,公式如下:
h′t=fd(h′t-1,[ct:yt]) (9)
其中fd是Decoder中的LSTM单元。
7.根据权利要求4所述的基于双窗口机制的多变量时间序列数据预测模型,其特征在于长序列处理模块的具体实现如下:
长时间序列处理模块的输入是时间点从1到Tl的时序数据;为了使预测时间点之后的数据不应该影响预测结果;TCN使用因果卷积防止信息的泄露;同时为扩大视野域,TCN使用了空洞卷积;
对于长外生序列
Figure FDA0003052144610000041
和卷积核g:(g0,g1,...,gk-1),TCN在t时刻的元素的值由以下公式计算得出:
Figure FDA0003052144610000042
在该公式中,
Figure FDA0003052144610000043
是膨胀因子,用来控制卷积操作的间隔,k是卷积核大小;
TCN使用残差块,每隔若干层就把前面层和当前层结合。
8.根据权利要求1所述的基于双窗口机制的多变量时间序列数据预测模型,其特征在于模型实现包括以下步骤:
步骤1:收集大量历史的时间序列数据,并将数据划分为指定时间步长的多个数据样本;
步骤2:将数据样本输入到系统中,经过反向传播算法训练模型的参数;
步骤3:将需要进行预测的时间序列数据输入到模型之中,并得到预测值。
CN202110491150.7A 2021-05-06 2021-05-06 基于双窗口机制的多变量时间序列数据预测模型 Pending CN113392137A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110491150.7A CN113392137A (zh) 2021-05-06 2021-05-06 基于双窗口机制的多变量时间序列数据预测模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110491150.7A CN113392137A (zh) 2021-05-06 2021-05-06 基于双窗口机制的多变量时间序列数据预测模型

Publications (1)

Publication Number Publication Date
CN113392137A true CN113392137A (zh) 2021-09-14

Family

ID=77618017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110491150.7A Pending CN113392137A (zh) 2021-05-06 2021-05-06 基于双窗口机制的多变量时间序列数据预测模型

Country Status (1)

Country Link
CN (1) CN113392137A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115607129A (zh) * 2022-11-14 2023-01-17 北京康康盛世信息技术有限公司 一种基于时序的血压标定方法
CN116227598A (zh) * 2023-05-08 2023-06-06 山东财经大学 一种基于双阶段注意力机制的事件预测方法、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115607129A (zh) * 2022-11-14 2023-01-17 北京康康盛世信息技术有限公司 一种基于时序的血压标定方法
CN116227598A (zh) * 2023-05-08 2023-06-06 山东财经大学 一种基于双阶段注意力机制的事件预测方法、设备及介质

Similar Documents

Publication Publication Date Title
CN109492822B (zh) 空气污染物浓度时空域关联预测方法
Liang et al. A novel wind speed prediction strategy based on Bi-LSTM, MOOFADA and transfer learning for centralized control centers
CN109816095B (zh) 基于改进门控循环神经网络的网络流量预测方法
CN114626512B (zh) 一种基于有向图神经网络的高温灾害预报方法
CN112257911B (zh) 基于并行时空注意力机制的tcn多元时间序列预测方法
CN113392137A (zh) 基于双窗口机制的多变量时间序列数据预测模型
CN109583565A (zh) 基于注意力模型长短时记忆网络的洪水预测方法
Dong et al. An integrated deep neural network approach for large-scale water quality time series prediction
CN110781595B (zh) 能源使用效率pue的预测方法、装置、终端及介质
CN112766600B (zh) 一种城市区域人群流量预测方法及系统
CN114297907A (zh) 温室环境空间分布预测方法及装置
CN114694379B (zh) 一种基于自适应动态图卷积的交通流预测方法及系统
CN115759461A (zh) 一种面向物联网的多元时间序列预测方法及系统
CN113505924A (zh) 一种基于级联时空特征的信息传播预测方法及系统
CN115204491A (zh) 基于数字孪生与lstm的生产线工况预测方法及系统
CN111209968B (zh) 基于深度学习的多气象因子模式预报温度订正方法及系统
CN115859792A (zh) 基于注意力机制的中期电力负荷预测方法及系统
CN113298131B (zh) 一种基于注意力机制的时序数据缺失值插补方法
CN113627676A (zh) 一种基于多注意力因果关系的交通预测方法及系统
CN115952924B (zh) 一种基于优化vmd与特征热力图的短期风电功率预测方法
CN117390962A (zh) 一种基于二阶循环神经网络的空气质量预测方法
CN116578862A (zh) 基于池化注意力的设施环境多步预测方法
CN115796359A (zh) 基于深度Koopman算符的PM2.5时空预测方法
CN115510757A (zh) 一种基于门控卷积和时间注意力机制的长时间序列预测的设计方法
CN114819253A (zh) 城市人群聚集热点区域预测方法、系统、介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210914

RJ01 Rejection of invention patent application after publication