CN112257911A - 基于并行时空注意力机制的tcn多元时间序列预测方法 - Google Patents

基于并行时空注意力机制的tcn多元时间序列预测方法 Download PDF

Info

Publication number
CN112257911A
CN112257911A CN202011089562.XA CN202011089562A CN112257911A CN 112257911 A CN112257911 A CN 112257911A CN 202011089562 A CN202011089562 A CN 202011089562A CN 112257911 A CN112257911 A CN 112257911A
Authority
CN
China
Prior art keywords
time
sequence
tcn
attention
multivariate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011089562.XA
Other languages
English (en)
Other versions
CN112257911B (zh
Inventor
章轲
樊谨
黄益攀
刘振涛
陈佰平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011089562.XA priority Critical patent/CN112257911B/zh
Publication of CN112257911A publication Critical patent/CN112257911A/zh
Application granted granted Critical
Publication of CN112257911B publication Critical patent/CN112257911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Manufacturing & Machinery (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于并行时空注意力机制的TCN多元时间序列预测方法,首先对公式进行定义,然后构建多元时间序列预测模型,包括两个并行的网络主干,空间注意力分支主干通过空间注意力模块提取外生序列和目标序列之间的空间相关性,时间注意力分支主干则通过时间注意力模块来捕捉窗口中所有时间步间的时间依赖性。空间注意力模块和时间注意力模块分别连接两个相同的堆叠TCN主干和全连接层;最后将多变量的时间序列输入多元时间序列预测模型中,获得最终的预测结果。本发明方法将时空注意力机制与TCN相结合相较于传统TCN取得了更高的准确率,同时提高网络计算效率相较于基于RNN的模型大大缩减了模型训练所需要的时间。

Description

基于并行时空注意力机制的TCN多元时间序列预测方法
技术领域
本发明属于机器学习、深度学习和时间序列预测领域,是一种基于深度模型框架的时间序列预测方法。
背景技术
使用复杂系统监控运行状况在今天的生产工厂中已经普及,要确保这些系统顺利运行,不可避免地需要对大量不同的数据流进行持续监控,从温度和压力传感器到图像和视频,再到CPU使用水平、生物数据等等。多变量时间序列预测在我们社会的平稳运行中占据着重要的位置。然而,今天的智能分析系统不仅仅是观察传感器读数是否接近某些阈值,还必须基于历史模式来预测可能发生的事件。而且,一般来说,在预测中可以考虑的历史数据越多,在不同变量中捕获相关性的机会就越高,预测也就越准确。目前,循环神经网络(RNN)是多变量时间序列预测的首选方法。然而,我们认为,RNN从根本上来说并不适合这项任务,它被梯度消失问题所困扰,而像长短时网络(LSTM)、门控循环网络(GRU)这样的技术只是减轻了这个问题,而不是解决它。即使把注意力集中在最重要的信息上,RNN仍难以捕捉足够数量的历史信息来进行高准确度的预测。此外,由于当前时间步的计算需要在开始下一个时间步之前完成,RNN往往会花费过多的时间等待结果,效率低下。
针对该问题,使用并行计算的时间卷积网络(TCN)进行研究可能是一个有效的突破口。此外,尽管存在一些不稳定性和效率问题,但它们比RNN具有更长的记忆力。
那么,如何在充分利用TCN的并行计算能力弥补RNN固有缺点的基础上进行改进,使得预测既准确又稳定成为了一个复杂而待探索的方向。目前,没有一个较为有效的解决方案。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于并行时空注意力机制的TCN多元时间序列预测方法,基于并行时空注意力机制的TCN多元时间序列预测模型PSTA-TCN,充分利用TCN模型的并行性,避免了RNN更新梯度存在的问题,在TCN模型的基础上又增加了并行的时空注意力机制,分别捕捉时间序列在时间上与空间上的依赖关系。此外,在注意力模块中添加了残差连接,使得原始输入信息有选择性的被传递到下一层。我们还为在不同的历史窗口大小进行单步预测后的结果波动提供了详尽的解释。
基于并行时空注意力机制的TCN多元时间序列预测方法,具体步骤如下:
步骤1、公式定义;
多变量的时间序列,包括外生序列和目标序列;
其中,外生序列定义为X=(X(1),X(2),...,X(n))∈Rn×T,其中n为外生序列的维度,T为窗口大小。对于第i个外生序列X(i),将其表示为
Figure BDA0002721619170000021
其中X(i)的窗口大小为T。
同时定义目标序列为Y=(y1,y2,…,yT)∈RT,长度同样为一个窗口大小T。
通常,给出外生序列X=(X(1),X(2),...,X(n))和目标序列Y=(y1,y2,…,yT),需要预测下一个目标序列值
Figure BDA0002721619170000022
可以得到如下计算式:
Figure BDA0002721619170000023
其中F(.)是需要学习的非线性映射函数。
步骤2、构建多元时间序列预测模型;
多元时间序列预测模型包括两个并行的网络主干,空间注意力分支主干通过空间注意力模块提取外生序列和目标序列之间的空间相关性,时间注意力分支主干则通过时间注意力模块来捕捉窗口中所有时间步间的时间依赖性。空间注意力模块和时间注意力模块分别连接两个相同的堆叠TCN主干和全连接层。
步骤3、将多变量的时间序列输入多元时间序列预测模型中,获得最终的预测结果;
将多变量的时间序列输入多元时间序列预测模型中,所述的多变量的时间序列包括外生序列和目标序列,多变量的时间序列分别经过两个并行的网络主干,空间注意力分支主干通过空间注意力模块提取外生序列和目标序列之间的空间相关性,时间注意力分支主干则通过时间注意力模块来捕捉窗口中所有时间步间的时间依赖性。空间注意力模块和时间注意力模块的输出通过两个相同的堆叠TCN主干进行处理,获得的输出结果分别被传送到两个全连接层,然后将两个全连接层的输出求和产生最终的预测结果。
进一步的,并行的网络主干时空注意力模块具体操作如下:
空间注意力分支主干采用空间注意力模块提取外生序列与目标序列之间的空间相关性。同时,时间注意力分支主干使用时间注意力模块来获得窗口大小T之间的长历史时间依赖关系。空间注意力分支主干输入表示为
Figure BDA0002721619170000031
其中n表示完整外生序列的维度,t表示当前窗口中的一个时间步,yt表示当前t时间步的目标序列值。首先,通过对原始输入进行线性变换,生成一个空间注意权重向量ct用于表示每个特征在时间步t中的重要性:
ct=Wc Txt+bc
其中Wc∈Rn×1,bc∈R是需要学习的参数。
使用softmax函数对生成的空间注意权重向量ct进行归一化,以确保所有注意力权重之和为1,得到向量αt
Figure BDA0002721619170000032
时间注意力分支主干的输入为
Figure BDA0002721619170000033
其中i表示第i个外生序列,T为窗口大小。同样的,对原始输入采用线性变换产生一个时间注意力权重向量d(i),反映第i个外生序列在从1到T所有时间步的重要性:
d(i)=Wd Tx(i)+bd
其中Wd∈RT×1,bd∈R是需要学习的参数。使用softmax函数对向量d(i)进行归一化得到β(i)
Figure BDA0002721619170000041
其中当前时间步t∈[1,T]。
进一步的,所述的堆叠TCN主干模块具体如下:
使用原始TCN作为基本主干,并将其堆叠N次得到N个层级。TCN中的卷积层采用因果卷积,即不存在信息泄漏,也就是在计算当前时间步输出时,只对当前时间步或之前的状态进行卷积。当处理长序列时,扩张卷积通过指数增长扩张因子实现了在较少的参数和层数的情况下得到更大的感受野。TCN各层的有效历史长度为(k-1)*d,其中k是卷积核大小,d是扩张因子。为了控制参数的数量,选择一个固定k的大小,并且每一层都以指数增加d的值,即d=2j,其中j表示网络的层级。使用残差连接来避免梯度消失的问题,残差连接可由X与G(X)来定义:
Output=ReLU(X+G(X))
其中X表示原始输入,G(·)表示一个TCN骨干网络的处理过程。
本发明有益效果如下:
本发明方法创新性地提出并行TCN机制提高了传统TCN在长期预测上的稳定性,将时空注意力机制与TCN相结合相较于传统TCN取得了更高的准确率,同时提高网络计算效率相较于基于RNN的模型大大缩减了模型训练所需要的时间。
附图说明
图1:PSTA-TCN模型架构图;
图2:时空注意力模块中的层间转换图;
图3:可穿戴式微型传感器测试图;
图4:单步预测与多步预测的性能折线图;
图5:单步预测的模型训练时间比较图;
具体实施方式
以下结合附图与实施例对本发明方法进行进一步描述。
本发明在现有TCN的局限性的基础上,设计了一种基于并行时空注意力机制的TCN多元时间序列预测模型PSTA-TCN。
基于并行时空注意力机制的TCN多元时间序列预测方法,具体步骤如下:
步骤1、公式定义;
多变量的时间序列,包括外生序列和目标序列;
其中,外生序列定义为X=(X(1),X(2),...,X(n))∈Rn×T,其中n为外生序列的维度,T为窗口大小。对于第i个外生序列X(i),将其表示为
Figure BDA0002721619170000051
其中X(i)的窗口大小为T。
同时定义目标序列为Y=(y1,y2,…,yT)∈RT,长度同样为一个窗口大小T。
通常,给出外生序列X=(X(1),X(2),...,X(n))和目标序列Y=(y1,y2,…,yT),需要预测下一个目标序列值
Figure BDA0002721619170000052
可以得到如下计算式:
Figure BDA0002721619170000053
其中F(.)是需要学习的非线性映射函数。
步骤2、构建多元时间序列预测模型;
如图1所示,多元时间序列预测模型包括两个并行的网络主干,空间注意力分支主干通过空间注意力模块提取外生序列和目标序列之间的空间相关性,时间注意力分支主干则通过时间注意力模块来捕捉窗口中所有时间步间的时间依赖性。空间注意力模块和时间注意力模块分别连接两个相同的堆叠TCN主干和全连接层。
步骤3、将多变量的时间序列输入多元时间序列预测模型中,获得最终的预测结果;
将多变量的时间序列输入多元时间序列预测模型中,所述的多变量的时间序列包括外生序列和目标序列,多变量的时间序列分别经过两个并行的网络主干,空间注意力分支主干通过空间注意力模块提取外生序列和目标序列之间的空间相关性,时间注意力分支主干则通过时间注意力模块来捕捉窗口中所有时间步间的时间依赖性。空间注意力模块和时间注意力模块的输出通过两个相同的堆叠TCN主干进行处理,获得的输出结果分别被传送到两个全连接层,然后将两个全连接层的输出求和产生最终的预测结果。
进一步的,并行的网络主干时空注意力模块具体操作如下:
空间注意力分支主干采用空间注意力模块提取外生序列与目标序列之间的空间相关性。同时,时间注意力分支主干使用时间注意力模块来获得窗口大小T之间的长历史时间依赖关系。图2分别显示了时间注意力模块和空间注意力模块的层间转换过程。为了简洁起见,我们省略了对输入Y处理过程的描述。图2(a)显示了空间注意力模块的工作流程。空间注意力分支主干输入表示为
Figure BDA0002721619170000061
Figure BDA0002721619170000062
其中n表示完整外生序列的维度,t表示当前窗口中的一个时间步,yt表示当前t时间步的目标序列值。首先,通过对原始输入进行线性变换,生成一个空间注意权重向量ct用于表示每个特征在时间步t中的重要性:
ct=Wc Txt+bc
其中Wc∈Rn×1,bc∈R是需要学习的参数。
使用softmax函数对生成的空间注意权重向量ct进行归一化,以确保所有注意力权重之和为1,得到向量αt
Figure BDA0002721619170000063
图2(b)显示了计算时间注意力的过程。时间注意力分支主干的输入为
Figure BDA0002721619170000064
其中i表示第i个外生序列,T为窗口大小。同样的,对原始输入采用线性变换产生一个时间注意力权重向量d(i),反映第i个外生序列在从1到T所有时间步的重要性:
d(i)=Wd Tx(i)+bd
其中Wd∈RT×1,bd∈R是需要学习的参数。使用softmax函数对向量d(i)进行归一化得到β(i)
Figure BDA0002721619170000071
其中当前时间步t∈[1,T]。
进一步的,所述的堆叠TCN主干模块具体如下:
TCN作为序列建模的一种新探索,得益于卷积神经网络(CNN)比RNN具有更强的并行性和更灵活的感受野,面对长序列时需要更少的内存。如图1所示,我们使用原始TCN作为基本主干,并将其堆叠N次得到N个层级。TCN中的卷积层采用因果卷积,即不存在信息泄漏,也就是在计算当前时间步输出时,只对当前时间步或之前的状态进行卷积。当处理长序列时,扩张卷积通过指数增长扩张因子实现了在较少的参数和层数的情况下得到更大的感受野。TCN各层的有效历史长度为(k-1)*d,其中k是卷积核大小,d是扩张因子。为了控制参数的数量,选择一个固定k的大小,并且每一层都以指数增加d的值,即d=2j,其中j表示网络的层级。然而,当面对超长序列时,仅仅使用扩张卷积是不够的,需要对更深层次的网络进行训练,使模型足够强大,所以使用残差连接来避免梯度消失的问题。残差连接可由X与G(X)来定义:
Output=ReLU(X+G(X))
其中X表示原始输入,G(·)表示一个TCN骨干网络的处理过程。
为了测试PSTA-TCN的性能,我们将在定制的预测任务中测试其性能并与其他5种方法进行比较:2个RNN变种模型,2个使用了注意力的RNN变种模型,以及1个普通TCN模型作为基准。实验场景是人类活动,任务是进行长期运动预测。为了收集数据,我们将四个可穿戴微型传感器安装到10名参与者身上,并要求他们进行5组深蹲,每组深蹲10次。这些传感器(主传感器在左臂,从传感器在右臂和两个膝盖)沿着三个轴(X,Y,Z)测量加速度和角速度数据,并在一个通过蓝牙连接的移动手机应用中显示出来。图3显示了可穿戴微传感器,一个参与者穿戴着传感器设备以及移动应用程序界面。在整个数据收集过程中,我们以50HZ的频率进行采样(即每0.02秒采样一次),在24维数据序列中,我们收集了81536个数据点,即,4个传感器*3个轴*2个维度(加速度和角速度),构成了一个196万数据量的多变量时间序列。在我们的实验中,数据集依照时间顺序按4:1的比例分割为训练集和测试集。此外,我们使用滑动窗口方法将数据集分割成窗口大小的样本,为了避免过拟合,我们随机打乱了所有样本。
我们进行了两组主要的实验,首先是单步预测,然后是多步预测。在训练过程中,我们将批量大小设置为64,初始学习率设置为0.001。
通过单步预测,我们测试了不同窗口大小T∈{32,64,128,256}的每个模型的性能,即不同数量的历史信息。
在多步预测中,我们固定窗口大小T=32,并改变预测步数τ∈{2,4,8,16,32}来验证不同预测步骤的影响。
为了公平起见,我们对所有模型进行了网格搜索,以找到最佳的超参数设置。具体来说,我们为DARNN设置超参数m=p=128,为DSTP设置超参数为m=p=q=128。对于普通TCN和我们的模型PSTA-TCN,我们将卷积核大小设置为7,层数为8。为了保证实验结果的可复现性,我们在所有实验中都设置随机种子为1111。
我们选择了时间序列预测领域中最常用的两个评估指标来对所有模型的性能进行评价:均方根误差(RMSE)和平均绝对误差(MAE)。
它们的表达式为:
Figure BDA0002721619170000081
Figure BDA0002721619170000082
其中yt是在t时刻y的真实值,
Figure BDA0002721619170000083
是在t时刻y的预测值。两个指标都是越小代表模型性能越好。
TABLE I
SINGLE-STEP PREDICTION AMONG DIFFERENT WINDOW SIZE
Figure BDA0002721619170000091
TABLE II
MULTI-STEP PREDICTION AMONG DIFFERENT PREDICTING STEPS
Figure BDA0002721619170000092
单步预测和多步预测的实验结果分别显示在表1和表2中。我们还将表格数据可视化为折线图,如图4所示。在所有的测试中,PSTA-TCN始终以显著的优势获得最低的RMSE和MAE(最优性能)。在表1中,我们列出了单步预测在不同窗口大小T下的性能。针对不同数量的历史信息,我们的模型可以轻松处理。其中,LSTM和GRU是比较老的模型,没有注意力机制,这意味着没有对过去的信息进行有效的筛选,所以性能不够好。如图4(a)所示,DARNN和DSTP在单步预测方面的性能基本相同,且都优于LSTM和GRU。但我们在图5中比较了在不同的窗口大小T下训练每个模型直至收敛所需的时间。虽然有多个注意力机制的帮助,但是当历史信息变长后,模型训练时间显著增加,而TCN和我们提出的模型由于采用并行计算没有受到太大影响且准确率上升更为顺利。其中,TCN以其强大的表达能力在性能上超过了DARNN和DSTP。对于多步预测,我们可以从表2和图4(b)中观察到,随着预测步长增加,基于RNN的模型性能相对于TCN下降趋势更显著,而我们提出的模型下降最小,即使在预测较长的序列时也是如此。与基于RNN的模型相比,我们提出的PSTA-TCN更加稳定,能够更好地从历史信息中提取时空相关性。将TCN与我们提出的模型进行比较,在预测32步时,TCN已经开始显示出显著的性能下降,但我们提出的模型仍然可以保持与之前相当的性能。因此,PSTA-TCN确实提高了TCN在长期预测中的稳定性。
图5比较了在不同窗口大小T下,每个模型训练到收敛为止所消耗的时间。为了保证公平,我们设置了相同的批量大小。我们可以从中发现,随着窗口大小T的增大,DARNN和DSTP由于RNN本身的串行性和其复杂的注意力机制,运算时间大幅增加,当T=256时从数值上看DSTP的时间复杂度已经达到了普通TCN模型的46倍,PSTA-TCN的13倍。由此单步预测的时间分析可知,当面对较多历史信息时,基于RNN的模型已经开始乏力,从原理上来说,RNN在等待前一步计算结果的过程中耗费了大量时间,且时间随着输入长度呈指数级增长,而TCN并行计算所带来的收益是显而易见的。我们提出的模型相对于普通TCN牺牲了一小部分训练时间,得到了更好的性能。当面对大样本时,我们的模型具有更强的适应性和性能。

Claims (3)

1.基于并行时空注意力机制的TCN多元时间序列预测方法,其特征在于,具体步骤如下:
步骤1、公式定义;
多变量的时间序列,包括外生序列和目标序列;
其中,外生序列定义为X=(X(1),X(2),...,X(n))∈Rn×T,其中n为外生序列的维度,T为窗口大小;对于第i个外生序列X(i),将其表示为
Figure FDA0002721619160000011
其中X(i)的窗口大小为T;
同时定义目标序列为Y=(y1,y2,...,yT)∈RT,长度同样为一个窗口大小T;
通常,给出外生序列X=(X(1),X(2),...,X(n))和目标序列Y=(y1,y2,...,yT),需要预测下一个目标序列值
Figure FDA0002721619160000012
可以得到如下计算式:
Figure FDA0002721619160000013
其中F(.)是需要学习的非线性映射函数;
步骤2、构建多元时间序列预测模型;
多元时间序列预测模型包括两个并行的网络主干,空间注意力分支主干通过空间注意力模块提取外生序列和目标序列之间的空间相关性,时间注意力分支主干则通过时间注意力模块来捕捉窗口中所有时间步间的时间依赖性;空间注意力模块和时间注意力模块分别连接两个相同的堆叠TCN主干和全连接层;
步骤3、将多变量的时间序列输入多元时间序列预测模型中,获得最终的预测结果;
将多变量的时间序列输入多元时间序列预测模型中,所述的多变量的时间序列包括外生序列和目标序列,多变量的时间序列分别经过两个并行的网络主干,空间注意力分支主干通过空间注意力模块提取外生序列和目标序列之间的空间相关性,时间注意力分支主干则通过时间注意力模块来捕捉窗口中所有时间步间的时间依赖性;空间注意力模块和时间注意力模块的输出通过两个相同的堆叠TCN主干进行处理,获得的输出结果分别被传送到两个全连接层,然后将两个全连接层的输出求和产生最终的预测结果。
2.根据权利要求1所述的进一步的,基于并行时空注意力机制的TCN多元时间序列预测方法,其特征在于,并行的网络主干时空注意力模块具体操作如下:
空间注意力分支主干采用空间注意力模块提取外生序列与目标序列之间的空间相关性;同时,时间注意力分支主干使用时间注意力模块来获得窗口大小T之间的长历史时间依赖关系;空间注意力分支主干输入表示为
Figure FDA0002721619160000021
其中n表示完整外生序列的维度,t表示当前窗口中的一个时间步,yt表示当前t时间步的目标序列值;首先,通过对原始输入进行线性变换,生成一个空间注意权重向量ct用于表示每个特征在时间步t中的重要性:
ct=Wc Txt+bc
其中Wc∈Rn×1,bc∈R是需要学习的参数;
使用softmax函数对生成的空间注意权重向量ct进行归一化,以确保所有注意力权重之和为1,得到向量αt
Figure FDA0002721619160000022
时间注意力分支主干的输入为
Figure FDA0002721619160000023
其中i表示第i个外生序列,T为窗口大小;同样的,对原始输入采用线性变换产生一个时间注意力权重向量d(i),反映第i个外生序列在从1到T所有时间步的重要性:
d(i)=Wd Tx(i)+bd
其中Wd∈RT×1,bd∈R是需要学习的参数;使用softmax函数对向量d(i)进行归一化得到β(i)
Figure FDA0002721619160000024
其中当前时间步t∈[1,T]。
3.根据权利要求1所述的进一步的,基于并行时空注意力机制的TCN多元时间序列预测方法,其特征在于,进一步的,所述的堆叠TCN主干模块具体如下:
使用原始TCN作为基本主干,并将其堆叠N次得到N个层级;TCN中的卷积层采用因果卷积,即不存在信息泄漏,也就是在计算当前时间步输出时,只对当前时间步或之前的状态进行卷积;当处理长序列时,扩张卷积通过指数增长扩张因子实现了在较少的参数和层数的情况下得到更大的感受野;TCN各层的有效历史长度为(k-1)*d,其中k是卷积核大小,d是扩张因子;为了控制参数的数量,选择一个固定k的大小,并且每一层都以指数增加d的值,即d=2j,其中j表示网络的层级;使用残差连接来避免梯度消失的问题,残差连接可由X与G(X)来定义:
Output=ReLU(X+G(X))
其中X表示原始输入,G(·)表示一个TCN骨干网络的处理过程。
CN202011089562.XA 2020-10-13 2020-10-13 基于并行时空注意力机制的tcn多元时间序列预测方法 Active CN112257911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011089562.XA CN112257911B (zh) 2020-10-13 2020-10-13 基于并行时空注意力机制的tcn多元时间序列预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011089562.XA CN112257911B (zh) 2020-10-13 2020-10-13 基于并行时空注意力机制的tcn多元时间序列预测方法

Publications (2)

Publication Number Publication Date
CN112257911A true CN112257911A (zh) 2021-01-22
CN112257911B CN112257911B (zh) 2024-03-26

Family

ID=74242990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011089562.XA Active CN112257911B (zh) 2020-10-13 2020-10-13 基于并行时空注意力机制的tcn多元时间序列预测方法

Country Status (1)

Country Link
CN (1) CN112257911B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178073A (zh) * 2021-04-25 2021-07-27 南京工业大学 一种基于时间卷积网络的车流量短期预测优化应用方法
CN113570135A (zh) * 2021-07-27 2021-10-29 天津大学 基于并行混合网络的石窟寺岩体裂隙发育控制方法及装置
CN113642234A (zh) * 2021-08-09 2021-11-12 贵州电网有限责任公司 一种基于多源特征时间卷积深度学习的电网覆冰预测方法
CN114298446A (zh) * 2022-03-11 2022-04-08 南京工业大学 一种基于数模双驱的风电功率预测方法、装置和存储介质
CN114818997A (zh) * 2022-06-28 2022-07-29 苏芯物联技术(南京)有限公司 一种基于高频焊接时序数据的烧穿故障预测方法
CN116417992A (zh) * 2023-03-10 2023-07-11 华中科技大学 基于时空注意力机制的风机功率预测模型建立方法及应用

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130273A1 (en) * 2017-10-27 2019-05-02 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
CN110232412A (zh) * 2019-05-30 2019-09-13 清华大学 一种基于多模态深度学习的人体步态预测方法
CN110619430A (zh) * 2019-09-03 2019-12-27 大连理工大学 一种用于交通预测的时空注意力机制方法
US20200026760A1 (en) * 2018-07-23 2020-01-23 Google Llc Enhanced attention mechanisms
CN111091045A (zh) * 2019-10-25 2020-05-01 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN111506835A (zh) * 2020-04-17 2020-08-07 北京理工大学 一种融合用户时间特征和个性特征的数据特征提取方法
CN111651504A (zh) * 2020-06-03 2020-09-11 湖南大学 基于深度学习的多元时间序列多层时空依赖建模方法
CN111709304A (zh) * 2020-05-21 2020-09-25 江南大学 一种基于时空注意力增强特征融合网络的行为识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130273A1 (en) * 2017-10-27 2019-05-02 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
US20200026760A1 (en) * 2018-07-23 2020-01-23 Google Llc Enhanced attention mechanisms
CN110232412A (zh) * 2019-05-30 2019-09-13 清华大学 一种基于多模态深度学习的人体步态预测方法
CN110619430A (zh) * 2019-09-03 2019-12-27 大连理工大学 一种用于交通预测的时空注意力机制方法
CN111091045A (zh) * 2019-10-25 2020-05-01 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN111506835A (zh) * 2020-04-17 2020-08-07 北京理工大学 一种融合用户时间特征和个性特征的数据特征提取方法
CN111709304A (zh) * 2020-05-21 2020-09-25 江南大学 一种基于时空注意力增强特征融合网络的行为识别方法
CN111651504A (zh) * 2020-06-03 2020-09-11 湖南大学 基于深度学习的多元时间序列多层时空依赖建模方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
谢平;刘欢;王磊磊;程生翠;陈伟;: "基于脑肌电反馈的虚拟康复训练系统设计", 仪器仪表学报, no. 01, 15 January 2018 (2018-01-15) *
陈莹;何丹丹;: "基于贝叶斯融合的时空流异常行为检测模型", 电子与信息学报, no. 05, 14 May 2019 (2019-05-14) *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178073A (zh) * 2021-04-25 2021-07-27 南京工业大学 一种基于时间卷积网络的车流量短期预测优化应用方法
CN113570135A (zh) * 2021-07-27 2021-10-29 天津大学 基于并行混合网络的石窟寺岩体裂隙发育控制方法及装置
CN113570135B (zh) * 2021-07-27 2023-08-01 天津大学 基于并行混合网络的石窟寺岩体裂隙发育控制方法及装置
CN113642234A (zh) * 2021-08-09 2021-11-12 贵州电网有限责任公司 一种基于多源特征时间卷积深度学习的电网覆冰预测方法
CN114298446A (zh) * 2022-03-11 2022-04-08 南京工业大学 一种基于数模双驱的风电功率预测方法、装置和存储介质
CN114298446B (zh) * 2022-03-11 2022-06-03 南京工业大学 一种基于数模双驱的风电功率预测方法、装置和存储介质
CN114818997A (zh) * 2022-06-28 2022-07-29 苏芯物联技术(南京)有限公司 一种基于高频焊接时序数据的烧穿故障预测方法
CN114818997B (zh) * 2022-06-28 2022-09-16 苏芯物联技术(南京)有限公司 一种基于高频焊接时序数据的烧穿故障预测方法
CN116417992A (zh) * 2023-03-10 2023-07-11 华中科技大学 基于时空注意力机制的风机功率预测模型建立方法及应用
CN116417992B (zh) * 2023-03-10 2024-03-19 华中科技大学 基于时空注意力机制的风机功率预测模型建立方法及应用

Also Published As

Publication number Publication date
CN112257911B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
CN112257911A (zh) 基于并行时空注意力机制的tcn多元时间序列预测方法
Ghosh et al. Steer: Simple temporal regularization for neural ode
CN109492822B (zh) 空气污染物浓度时空域关联预测方法
CN113777496B (zh) 基于时间卷积神经网络的锂离子电池剩余寿命预测方法
CN110378435B (zh) 一种基于卷积神经网络的苹果叶片病害识别的方法
CN114818515A (zh) 一种基于自注意力机制和图卷积网络的多维时序预测方法
CN111079931A (zh) 一种基于图神经网络的状态空间概率性多时间序列预测方法
CN113094860B (zh) 一种基于注意力机制的工控网络流量建模方法
CN113704075B (zh) 一种基于故障日志的高性能计算系统故障预测方法
CN112132430B (zh) 一种配电主设备分布式状态传感器可靠性评估方法及系统
CN114530258A (zh) 一种深度学习药物相互作用预测方法、装置、介质和设备
CN114493014A (zh) 多元时间序列预测方法、系统及计算机产品、存储介质
CN112001486A (zh) 一种基于深度学习的负荷分解方法
CN115983087B (zh) 一种注意力机制与lstm结合检测时序数据异常方法及终端机
CN116346639A (zh) 一种网络流量预测方法、系统、介质、设备及终端
CN114169091A (zh) 工程机械部件剩余寿命的预测模型建立方法及预测方法
Sun et al. Recurrent neural system with minimum complexity: A deep learning perspective
CN113392137A (zh) 基于双窗口机制的多变量时间序列数据预测模型
Wang et al. Fully-Connected Spatial-Temporal Graph for Multivariate Time-Series Data
CN113128666A (zh) 基于Mo-S-LSTMs模型的时间序列多步预测方法
Tahyudin et al. SARIMA-LSTM combination for COVID-19 case modeling
CN117313516A (zh) 一种基于时空图嵌入的发酵产物预测方法
CN116541767A (zh) 一种基于图神经网络的多元温室环境参数预测方法及系统
CN116306832A (zh) 一种用于多维序列数据的多模生成对抗神经网络建模方法及装置
Hao et al. Architecture self-attention mechanism: Nonlinear optimization for neural architecture search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant