CN114492978A - 一种基于多层注意力机制的时空序列预测方法及设备 - Google Patents

一种基于多层注意力机制的时空序列预测方法及设备 Download PDF

Info

Publication number
CN114492978A
CN114492978A CN202210067402.8A CN202210067402A CN114492978A CN 114492978 A CN114492978 A CN 114492978A CN 202210067402 A CN202210067402 A CN 202210067402A CN 114492978 A CN114492978 A CN 114492978A
Authority
CN
China
Prior art keywords
time
space
influence
sequence
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210067402.8A
Other languages
English (en)
Inventor
张海涛
江曼
韩启龙
宋洪涛
王也
李丽洁
马志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202210067402.8A priority Critical patent/CN114492978A/zh
Publication of CN114492978A publication Critical patent/CN114492978A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于多层注意力机制的时空序列预测方法及设备,本发明基于注意力机制,根据跨领域数据的交叉影响,逐时间步融合多维特征构建历史数据特征,在不引入噪声的前提下,充分利用邻域数据丰富目标区域的特征信息,捕获不同区域时空序列的空间依赖关系。采用LSTM编码器分别捕获时间序列的长期、中期发展模式及短期突变信息,逐步利用注意力机制动态捕获多重时序关系对未来的影响,逐时间步计算相应历史信息的影响权重,最终使用LSTM解码器充分融合多跨度的历史数据,对时空序列进行预测。本发明可以在不引入噪声的前提下,充分利用邻域数据丰富目标区域的特征信息,捕获不同区域时空序列的空间依赖关系。

Description

一种基于多层注意力机制的时空序列预测方法及设备
技术领域
本发明属于时空序列预测技术领域,特别是涉及一种基于多层注意力机制的时空序列预测方法及设备。
背景技术
作为时空数据分析的关键技术,时空序列预测已被广泛应用于智慧城市建设、智能制造升级等领域。在智慧城市建设过程中,准确的空气质量预测有助于监管部门科学发布空气污染预警,迅速完成事故预防和资源分配工作,提高民众生活质量。在智能制造领域,准确的供应链产值预测有助于各企业正确制定生产决策,加强供应链内企业的有机协作,提高工业领域整体产能。
时空序列预测模型的性能受多种因素制约,主要包括:(1)邻域信息匮乏。现有研究大多采用空间插值法解决数据稀疏问题,该方法会引入大量噪声,影响预测精度。(2)空间视图粗糙。现有研究大都将卷积神经网络作为空间视图捕获方法,对空间关系挖掘不彻底。(3)时序关系单一。现有研究大都将序列神经网络作为单一时序关系捕获方法,只考虑时空序列的长期发展模式,或只考虑短期数据的直接作用,没有同时考虑周期性与短期突变的多重影响,对现有时序数据利用不充分。由于序列的空间依赖关系受多种因素动态制约、时间依赖关系兼具周期与突变性等问题,有效的时空序列建模极具挑战性。
在时空序列预测领域,目前常用的分析方法有传统时空序列预测方法和基于机器学习的预测方法。作为传统数据建模方法,自回归差分移动平均模型(ARIMA)只能捕获数据间的线性关系,无法拟合序列间复杂的非线性相关性,对时空序列的预测精度较低。作为数据驱动的机器学习方法,人工神经网络(ANN)利用线性阈值单元的集成结构表示复杂非线性函数,在一定程度上可以用于获取时间序列的中长期趋势,但其结果受初始随机权重及阈值影响严重,模型预测性能不稳定,无法满足工业生产等场景对模型可靠性的要求。支持向量机(SVM)利用核函数将输入向量按预设的非线性变换映射至高维空间,利用线性算法分析样本的非线性特征,显著提高了时间序列预测模型的准确性,但该模型对参数和核函数较为敏感,需要结合相关领域知识确定参数,难以建立多领域通用的预测模型。随机森林利用集合算法训练多棵决策树共同进行序列预测,能够有效提取高维特征序列间复杂的非线性关系,但在数据噪声问题严重时容易出现过拟合现象,难以基于低质量的工业大数据进行准确时空序列预测。
随着深度学习技术的发展,具有丰富隐藏层的神经网络在提取样本数据的抽象特征和内在规律方面表现出了较强能力,模型识别及预测精度不断提高,近年来已经在时空序列预测方面取得突破性进展。卷积神经网络可以通过卷积、池化等操作挖掘数据的空间相关性,但序列的空间依赖关系会受到复杂跨域特征的交叉影响,现有研究仅利用卷积神经网络构建空间视图,难以捕获序列间高度动态的空间关系,预测性能有待提高。循环神经网络可以利用反向传播算法不断更新模型中的权重参数,从而提取时间序列的历史发展规律,但现有研究大都只利用循环神经网络捕获单一时序关系,只考虑时间序列的长期发展模式,或只考虑短期历史数据的直接作用,没有同时考虑周期性与突变性的多重影响,对现有时序数据利用不充分。
综上所述,目前的研究工作主要存在的问题是,难以捕获序列间高度动态的空间关系,而且没有同时考虑周期性与突变性的多重影响,预测精度有待提高。
发明内容
本发明为了解决现有技术中的问题,提出一种基于多层注意力机制的时空序列预测方法及设备。
本发明是通过以下技术方案实现的,本发明提出一种基于多层注意力机制的时空序列预测方法,所述方法具体包括以下步骤:
步骤1.获得所有与待预测时空序列相关的时空序列历史监测数据;
步骤2.根据各类时空序列是否会在区域之间扩散传播,对输入模型的时空序列进行划分,将序列划分为直接影响因素、间接影响因素和跨域因素;
步骤3.计算各监测站点间的空间相关性,然后融合多种特征对时空序列的复合影响提取历史数据特征;
步骤4.根据步骤3的输出,计算多粒度时空序列关系;
步骤5.计算不同粒度时序关系对待预测时空序列的影响权重;
步骤6.结合步骤5中得到的影响权重对不同时序关系进行融合,获得待预测时空序列。
进一步地,所述步骤1具体为:空间区域内所有结点的集合为S={s1,s2,…,sN},N为结点数量,用La=(la1,la2,…,laN)∈RN分别表示各结点所处的纬度位置,Lo=(lo1,lo2,…,loN)∈RN表示各结点所处的经度位置;给定历史时间窗口T={t1,t2,…,tH},H为时间长度,在历史时间窗口长度为H时,通过传感器收集所有与待预测序列相关的时空序列历史监测数据,表示为X=(x1,x2,…,xH)∈RP×N×H,其中P为相关时空序列的数量。
进一步地,在步骤2中:
用I=(i1,i2,…,iH)∈RG×N×H表示会对待预测时空序列产生直接影响的特征,这类特征不会在区域之间发生扩散传播现象,其中G为直接影响因素数量;
用O=(o1,o2,…,oH)∈RK×N×H表示会对待预测时空序列产生间接影响的特征,其中K为间接影响因素数量;
用V=(v1,v2,…,vH)∈RD×N×H表示会对相邻结点间的时空序列产生影响的跨域因素因子,其中D为跨域因素数量。
进一步地,所述步骤3具体为:
提取间接影响因素对于目标时空序列的影响:以各结点所处的纬度位置La∈RN、各结点所处的经度位置Lo∈RN和跨域因素V=(v1,v2,…,vH)∈RD×N×H作为输入,以“小时”为粒度提取各站点间的动态相关性;所述间接影响因素提取方法如下:
假设目标站点为si,历史时间点为t,定性地判断所有站点sj与目标站点si的关联性
Figure BDA0003480659620000031
若站点sj在t时间步的状态会对目标站点si产生影响,则关联性
Figure BDA0003480659620000032
的取值为1,否则为0,具体计算方式如下:
Figure BDA0003480659620000033
其中,lai是目标站点所处的纬度位置,loi是目标站点所处的经度位置,laj是邻域站点sj所处的纬度位置,loj是邻域站点sj所处的经度位置,
Figure BDA0003480659620000034
是邻域站点sj在t时间步的u风速,
Figure BDA0003480659620000035
是邻域站点sj在t时间步的v风速;
定性判断出所有在t时间步的状态会对目标站点si产生影响的站点后,定量计算所有站点在t时间步对目标站点的影响程度,方法如下所示:
Figure BDA0003480659620000041
其中,sj是所有满足要求
Figure BDA0003480659620000042
的监测站点,若监测站sj在t时间步与目标站点si的关联性
Figure BDA0003480659620000043
为0,那么监测站sj在t时间步对si的影响程度
Figure BDA0003480659620000044
也为0;α为常数;
以跨域因素V=(v1,v2,…,vD)∈RD×N×H为输入,利用卷积神经网络逐“小时”提取各站点之间的动态相关性,得到各结点对其他结点时空序列的间接影响:
Figure BDA0003480659620000045
其中,
Figure BDA0003480659620000046
是目标结点i在t时间步的跨域因素,
Figure BDA0003480659620000047
和b都是可训练参数,f是激活函数,
Figure BDA0003480659620000048
是结点i在t时间步对邻域结点的间接影响;
Figure BDA0003480659620000049
为结点i在t时间步的影响程度;
假设目标结点为si,则邻域结点sj对目标结点的间接影响程度即为
Figure BDA00034806596200000410
为准确衡量所有结点对目标结点序列的影响程度,根据结点特征矩阵计算目标结点与各邻域结点的相似性,利用向量积分别计算各邻域结点j对结点i的影响程度,然后利用softmax函数将所有结点在t时间步对目标结点si的影响归一化,确保所有邻域结点对目标的影响权重之和为1:
Figure BDA00034806596200000411
利用两个可训练参数自适应地调节目标结点i的间接特征受到自身及跨域因素的综合影响,得到目标结点在自身与其他所有邻域结点共同影响下的间接历史特征,计算方法如下所示:
Figure BDA00034806596200000412
其中,σ为RELU函数,W1与W2均为可训练参数;
Figure BDA00034806596200000413
为站点si在t时间步的间接历史特征;
Figure BDA00034806596200000414
表示目标结点i的间接特征,
Figure BDA00034806596200000415
表示目标结点i与其他邻域结点j的间接特征;
综合考虑间接因素的跨域影响后,考虑间接特征与直接特征在t时间步对目标结点的共同作用,将结点i在t时间步的直接影响因素与间接影响因素在通道维度上进行拼接,得到站点si在t时间步的历史特征:
Figure BDA0003480659620000051
其中,
Figure BDA0003480659620000052
表示站点si在t时间步的单位历史特征;
对每个时间步都执行以上提取方法,从而能够充分考虑结点间复杂的动态相关性,获得历史数据特征Z=(z1,z2,…,zH)∈R(G+K)×N×H
进一步地,在步骤4中:所述计算多粒度时空序列关系包括提取时空序列的长期发展模式的实现方法;
提取时空序列的长期发展模式的具体实现方法如下:
首先,在获得历史数据特征Z=(z1,z2,…,zH)∈R(G+K)×N×H的前提下,假设目标时间为f,先提取目标数据在f前一周的发展模式,即长期发展模式,提取步骤如下:
分别将目标时间f前一周内每一日的历史特征输入LSTM,利用编码器结构提取相应的时空序列发展模式:
Figure BDA0003480659620000053
其中Dd为f前d日的时空序列演化模式,||表示通道维度上的串联操作;hd和cd分别为LSTM在前d日的隐藏状态和细胞状态,ht0表示初始隐藏状态,ct0表示初始细胞状态;
根据一周内每日的时空序列发展模式,在解码器结构中,利用注意力机制定量计算每日序列特征对长期发展模式的影响程度,综合考虑每日实际情况,准确提取长期发展模式Lf,具体计算过程如下:
Figure BDA0003480659620000054
其中,hf-1是解码器在f-1时间步的隐藏状态,Wd是可训练参数。
进一步地,在步骤4中:所述计算多粒度时空序列关系包括提取时空序列的中期发展模式的实现方法:
提取时空序列的中期发展模式的具体实现方法如下:
分别将先前提取的目标时间f前24小时的历史特征输入LSTM单元,得到每个小时的相应隐藏状态:
Ht,(ht,ct)=LSTM(Xt,(ht0,ct0))
其中Ht为t时间步的数据特征,ht和ct为LSTM在最后一个时间步的隐藏状态和细胞状态;
根据每小时的历史数据特征,在解码器结构中,利用注意力机制定量计算每小时的数据特征对中期发展模式的影响,提取时空序列的中期发展模式Mf,计算过程如下:
Figure BDA0003480659620000061
其中,hf-1是解码器在f-1时间步的隐藏状态,Wt是可训练参数。
进一步地,在步骤4中:所述计算多粒度时空序列关系包括提取时空序列的短期突变信息的实现方法;
提取时空序列的短期突变信息的具体实现方法:以历史数据特征作为输入,假设目标时刻为f,提取短期突变信息前,需要判断目标时间步f是否为整个待预测序列中的第1个时间步,如果目标是第1个时间步,则将先前提取的f-1时间步的历史特征Xf-1作为输入,输入LSTM单元,得到神经网络的相应隐藏状态,作为短期突变信息Sf;若目标时间步f不是整个待预测序列中的首个时间步,则将解码器对前一时间步的预测结果Yf-1作为短期突变信息Sf,保证短期突变信息的时效性。
进一步地,所述步骤5具体为:
在对时间步f进行预测时,将解码器在f-1时间步的隐藏状态hf-1作为查询向量,利用注意力机制定量计算长期发展模式、中期发展模式与短期突变信息对未来目标序列的影响程度,并利用softmax函数将三者的影响权重归一化:
Figure BDA0003480659620000062
Figure BDA0003480659620000063
Figure BDA0003480659620000064
其中,
Figure BDA0003480659620000065
是长、中期发展模式与短期突变信息对时间步f的影响权重,hf -1是解码器在f-1时间步的隐藏状态,WL、WM与WS均为可训练参数。
进一步地,所述步骤6具体为:
提取目标序列的长期、中期发展模式与短期突变信息后,综合利用三种模式中蕴含的历史数据信息,预测时刻f的目标序列取值,具体计算方式如下所示:
Figure BDA0003480659620000071
Yf=LSTM(Cf)
其中Lf、Mf和Sf分别是模型根据不同的历史信息提取的时空序列长期发展模式、中期发展模式和短期突变信息,Cf是解码器在f时刻的输入,Yf即为模型未来时空序列的预测结果;Y=(y1,y2,…,yF)∈RF×N是N个节点在未来F个时间步的目标时空序列值,即模型输出结果。
本发明还提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述基于多层注意力机制的时空序列预测方法的步骤。
与现有技术相比,本发明的有益效果是在不引入噪声的前提下,充分利用邻域数据丰富目标区域的特征信息,捕获不同区域时空序列的空间依赖关系。本发明还可以分别捕获时空序列的长期、中期发展模式及短期突变信息,利用多重时序关系对未来的影响权重,融合多跨度的历史数据对时空序列进行预测。
附图说明
图1是历史数据特征计算方法图;
图2是多重时序关系融合方法图;
图3是基于多层注意力机制的时空序列预测方法结构图;
图4是基于多层注意力机制的时空序列预测方法流程图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是针对时空序列问题,克服现有技术的不足,提供涉及基于多层注意力机制的时空序列预测方法。本发明基于注意力机制,根据跨领域数据的交叉影响,逐时间步融合多维特征构建历史数据特征,在不引入噪声的前提下,充分利用邻域数据丰富目标区域的特征信息,捕获不同区域时空序列的空间依赖关系。采用LSTM编码器分别捕获时间序列的长期、中期发展模式及短期突变信息,逐步利用注意力机制动态捕获多重时序关系对未来的影响,逐时间步计算相应历史信息的影响权重,最终使用LSTM解码器充分融合多跨度的历史数据,对时空序列进行预测。
结合图1-4,本发明提出一种基于多层注意力机制的时空序列预测方法,所述方法具体包括以下步骤:
步骤1.获得所有与待预测时空序列相关的时空序列历史监测数据;
所述步骤1具体为:空间区域内所有结点的集合为S={s1,s2,…,sN},N为结点数量,用La=(la1,la2,…,laN)∈RN分别表示各结点所处的纬度位置,Lo=(lo1,lo2,…,loN)∈RN表示各结点所处的经度位置;给定历史时间窗口T={t1,t2,…,tH},H为时间长度,在历史时间窗口长度为H时,通过传感器收集所有与待预测序列相关的时空序列历史监测数据,表示为X=(x1,x2,…,xH)∈RP×N×H,其中P为相关时空序列的数量。
步骤2.根据各类时空序列是否会在区域之间扩散传播,对输入模型的时空序列进行划分,将序列划分为直接影响因素、间接影响因素和跨域因素;
在步骤2中:
用I=(i1,i2,…,iH)∈RG×N×H表示会对待预测时空序列产生直接影响的特征,这类特征不会在区域之间发生扩散传播现象,其中G为直接影响因素数量;
用O=(o1,o2,…,oH)∈RK×N×H表示会对待预测时空序列产生间接影响的特征,其中K为间接影响因素数量;
用V=(v1,v2,…,vH)∈RD×N×H表示会对相邻结点间的时空序列产生影响的跨域因素因子,其中D为跨域因素数量。
步骤3.计算各监测站点间的空间相关性,然后融合多种特征对时空序列的复合影响提取历史数据特征;
所述步骤3具体为:
提取间接影响因素对于目标时空序列的影响:以各结点所处的纬度位置La∈RN、各结点所处的经度位置Lo∈RN和跨域因素V=(v1,v2,…,vH)∈RD×N×H作为输入,以“小时”为粒度提取各站点间的动态相关性;所述间接影响因素提取方法如下:
假设目标站点为si,历史时间点为t,定性地判断所有站点sj与目标站点si的关联性
Figure BDA0003480659620000091
若站点sj在t时间步的状态会对目标站点si产生影响,则关联性
Figure BDA0003480659620000092
的取值为1,否则为0,具体计算方式如下:
Figure BDA0003480659620000093
其中,lai是目标站点所处的纬度位置,loi是目标站点所处的经度位置,laj是邻域站点sj所处的纬度位置,loj是邻域站点sj所处的经度位置,
Figure BDA0003480659620000094
是邻域站点sj在t时间步的u风速,
Figure BDA0003480659620000095
是邻域站点sj在t时间步的v风速;
定性判断出所有在t时间步的状态会对目标站点si产生影响的站点后,定量计算所有站点在t时间步对目标站点的影响程度,方法如下所示:
Figure BDA0003480659620000096
其中,sj是所有满足要求
Figure BDA0003480659620000097
的监测站点,若监测站sj在t时间步与目标站点si的关联性
Figure BDA0003480659620000098
为0,那么监测站sj在t时间步对si的影响程度
Figure BDA0003480659620000099
也为0;α为常数;
以跨域因素V=(v1,v2,…,vD)∈RD×N×H为输入,利用卷积神经网络逐“小时”提取各站点之间的动态相关性,得到各结点对其他结点时空序列的间接影响:
Figure BDA00034806596200000910
其中,
Figure BDA00034806596200000911
是目标结点i在t时间步的跨域因素,
Figure BDA00034806596200000912
和b都是可训练参数,f是激活函数,
Figure BDA00034806596200000913
是结点i在t时间步对邻域结点的间接影响;
Figure BDA00034806596200000914
为结点i在t时间步的影响程度;
假设目标结点为si,则邻域结点sj对目标结点的间接影响程度即为
Figure BDA00034806596200000915
为准确衡量所有结点对目标结点序列的影响程度,根据结点特征矩阵计算目标结点与各邻域结点的相似性,利用向量积分别计算各邻域结点j对结点i的影响程度,然后利用softmax函数将所有结点在t时间步对目标结点si的影响归一化,确保所有邻域结点对目标的影响权重之和为1:
Figure BDA0003480659620000101
利用两个可训练参数自适应地调节目标结点i的间接特征受到自身及跨域因素的综合影响,得到目标结点在自身与其他所有邻域结点共同影响下的间接历史特征,计算方法如下所示:
Figure BDA0003480659620000102
其中,σ为RELU函数,W1与W2均为可训练参数;
Figure BDA0003480659620000103
为站点si在t时间步的间接历史特征;
Figure BDA0003480659620000104
表示目标结点i的间接特征,
Figure BDA0003480659620000105
表示目标结点i与其他邻域结点j的间接特征;
综合考虑间接因素的跨域影响后,考虑间接特征与直接特征在t时间步对目标结点的共同作用,将结点i在t时间步的直接影响因素与间接影响因素在通道维度上进行拼接,得到站点si在t时间步的历史特征:
Figure BDA0003480659620000106
其中,
Figure BDA0003480659620000107
表示站点si在t时间步的单位历史特征;
对每个时间步都执行以上提取方法,从而能够充分考虑结点间复杂的动态相关性,获得历史数据特征Z=(z1,z2,…,zH)∈R(G+K)×N×H
步骤4.根据步骤3的输出,计算多粒度时空序列关系;
在步骤4中:所述计算多粒度时空序列关系包括提取时空序列的长期发展模式的实现方法;
提取时空序列的长期发展模式的具体实现方法如下:
首先,在获得历史数据特征Z=(z1,z2,…,zH)∈R(G+K)×N×H的前提下,假设目标时间为f,先提取目标数据在f前一周的发展模式,即长期发展模式,提取步骤如下:
分别将目标时间f前一周内每一日的历史特征输入LSTM,利用编码器结构提取相应的时空序列发展模式:
Figure BDA0003480659620000111
其中Dd为f前d日的时空序列演化模式,||表示通道维度上的串联操作;hd和cd分别为LSTM在前d日的隐藏状态和细胞状态,ht0表示初始隐藏状态,ct0表示初始细胞状态;
根据一周内每日的时空序列发展模式,在解码器结构中,利用注意力机制定量计算每日序列特征对长期发展模式的影响程度,综合考虑每日实际情况,准确提取长期发展模式Lf,具体计算过程如下:
Figure BDA0003480659620000112
其中,hf-1是解码器在f-1时间步的隐藏状态,Wd是可训练参数。
在步骤4中:所述计算多粒度时空序列关系包括提取时空序列的中期发展模式的实现方法:
提取时空序列的中期发展模式的具体实现方法如下:
分别将先前提取的目标时间f前24小时的历史特征输入LSTM单元,得到每个小时的相应隐藏状态:
Ht,(ht,ct)=LSTM(Xt,(ht0,ct0))
其中Ht为t时间步的数据特征,ht和ct为LSTM在最后一个时间步的隐藏状态和细胞状态;
根据每小时的历史数据特征,在解码器结构中,利用注意力机制定量计算每小时的数据特征对中期发展模式的影响,提取时空序列的中期发展模式Mf,计算过程如下:
Figure BDA0003480659620000113
其中,hf-1是解码器在f-1时间步的隐藏状态,Wt是可训练参数。
在步骤4中:所述计算多粒度时空序列关系包括提取时空序列的短期突变信息的实现方法;
提取时空序列的短期突变信息的具体实现方法:以历史数据特征作为输入,假设目标时刻为f,提取短期突变信息前,需要判断目标时间步f是否为整个待预测序列中的第1个时间步,如果目标是第1个时间步,则将先前提取的f-1时间步的历史特征Xf-1作为输入,输入LSTM单元,得到神经网络的相应隐藏状态,作为短期突变信息Sf;若目标时间步f不是整个待预测序列中的首个时间步,则将解码器对前一时间步的预测结果Yf-1作为短期突变信息Sf,保证短期突变信息的时效性。
步骤5.计算不同粒度时序关系对待预测时空序列的影响权重;
所述步骤5具体为:
在对时间步f进行预测时,将解码器在f-1时间步的隐藏状态hf-1作为查询向量,利用注意力机制定量计算长期发展模式、中期发展模式与短期突变信息对未来目标序列的影响程度,并利用softmax函数将三者的影响权重归一化:
Figure BDA0003480659620000121
Figure BDA0003480659620000122
Figure BDA0003480659620000123
其中,
Figure BDA0003480659620000124
是长、中期发展模式与短期突变信息对时间步f的影响权重,hf -1是解码器在f-1时间步的隐藏状态,WL、WM与WS均为可训练参数。
步骤6.结合步骤5中得到的影响权重对不同时序关系进行融合,获得待预测时空序列。
所述步骤6具体为:
提取目标序列的长期、中期发展模式与短期突变信息后,综合利用三种模式中蕴含的历史数据信息,预测时刻f的目标序列取值,具体计算方式如下所示:
Figure BDA0003480659620000125
Yf=LSTM(Cf)
其中Lf、Mf和Sf分别是模型根据不同的历史信息提取的时空序列长期发展模式、中期发展模式和短期突变信息,Cf是解码器在f时刻的输入,Yf即为模型未来时空序列的预测结果;Y=(y1,y2,…,yF)∈RF×N是N个节点在未来F个时间步的目标时空序列值,即模型输出结果。由于对各时间步的预测不完全依赖上一时间步的输出,该方法也避免了长期序列预测中常见的误差累积问题。
本发明还提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述基于多层注意力机制的时空序列预测方法的步骤。
本发明公开的基于多层注意力机制的时空序列预测方法可以达到如下有益效果:在不引入噪声的前提下,充分利用邻域数据丰富目标区域的特征信息,捕获不同区域时空序列的空间依赖关系。本发明还可以分别捕获时空序列的长期、中期发展模式及短期突变信息,利用多重时序关系对未来的影响权重,融合多跨度的历史数据对时空序列进行预测。
以上对本发明所提出的一种基于多层注意力机制的时空序列预测方法及设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于多层注意力机制的时空序列预测方法,其特征在于:所述方法具体包括以下步骤:
步骤1.获得所有与待预测时空序列相关的时空序列历史监测数据;
步骤2.根据各类时空序列是否会在区域之间扩散传播,对输入模型的时空序列进行划分,将序列划分为直接影响因素、间接影响因素和跨域因素;
步骤3.计算各监测站点间的空间相关性,然后融合多种特征对时空序列的复合影响提取历史数据特征;
步骤4.根据步骤3的输出,计算多粒度时空序列关系;
步骤5.计算不同粒度时序关系对待预测时空序列的影响权重;
步骤6.结合步骤5中得到的影响权重对不同时序关系进行融合,获得待预测时空序列。
2.根据权利要求1所述的方法,其特征在于:所述步骤1具体为:空间区域内所有结点的集合为S={s1,s2,…,sN},N为结点数量,用La=(la1,la2,…,laN)∈RN分别表示各结点所处的纬度位置,Lo=(lo1,lo2,…,loN)∈RN表示各结点所处的经度位置;给定历史时间窗口T={t1,t2,…,tH},H为时间长度,在历史时间窗口长度为H时,通过传感器收集所有与待预测序列相关的时空序列历史监测数据,表示为X=(x1,x2,…,xH)∈RP×N×H,其中P为相关时空序列的数量。
3.根据权利要求2所述的方法,其特征在于:在步骤2中:
用I=(i1,i2,…,iH)∈RG×N×H表示会对待预测时空序列产生直接影响的特征,这类特征不会在区域之间发生扩散传播现象,其中G为直接影响因素数量;
用O=(o1,o2,…,oH)∈RK×N×H表示会对待预测时空序列产生间接影响的特征,其中K为间接影响因素数量;
用V=(v1,v2,…,vH)∈RD×N×H表示会对相邻结点间的时空序列产生影响的跨域因素因子,其中D为跨域因素数量。
4.根据权利要求3所述的方法,其特征在于:所述步骤3具体为:
提取间接影响因素对于目标时空序列的影响:以各结点所处的纬度位置La∈RN、各结点所处的经度位置Lo∈RN和跨域因素V=(v1,v2,…,vH)∈RD×N×H作为输入,以“小时”为粒度提取各站点间的动态相关性;所述间接影响因素提取方法如下:
假设目标站点为si,历史时间点为t,定性地判断所有站点sj与目标站点si的关联性
Figure FDA0003480659610000021
若站点sj在t时间步的状态会对目标站点si产生影响,则关联性
Figure FDA0003480659610000022
的取值为1,否则为0,具体计算方式如下:
Figure FDA0003480659610000023
其中,lai是目标站点所处的纬度位置,loi是目标站点所处的经度位置,laj是邻域站点sj所处的纬度位置,loj是邻域站点sj所处的经度位置,
Figure FDA0003480659610000024
是邻域站点sj在t时间步的u风速,
Figure FDA0003480659610000025
是邻域站点sj在t时间步的v风速;
定性判断出所有在t时间步的状态会对目标站点si产生影响的站点后,定量计算所有站点在t时间步对目标站点的影响程度,方法如下所示:
Figure FDA0003480659610000026
其中,sj是所有满足要求
Figure FDA0003480659610000027
的监测站点,若监测站sj在t时间步与目标站点si的关联性
Figure FDA0003480659610000028
为0,那么监测站sj在t时间步对si的影响程度
Figure FDA0003480659610000029
也为0;α为常数;
以跨域因素V=(v1,v2,…,vD)∈RD×N×H为输入,利用卷积神经网络逐“小时”提取各站点之间的动态相关性,得到各结点对其他结点时空序列的间接影响:
Figure FDA00034806596100000210
其中,
Figure FDA00034806596100000211
是目标结点i在t时间步的跨域因素,
Figure FDA00034806596100000212
和b都是可训练参数,f是激活函数,
Figure FDA00034806596100000213
是结点i在t时间步对邻域结点的间接影响;
Figure FDA00034806596100000214
为结点i在t时间步的影响程度;
假设目标结点为si,则邻域结点sj对目标结点的间接影响程度即为
Figure FDA00034806596100000215
为准确衡量所有结点对目标结点序列的影响程度,根据结点特征矩阵计算目标结点与各邻域结点的相似性,利用向量积分别计算各邻域结点j对结点i的影响程度,然后利用softmax函数将所有结点在t时间步对目标结点si的影响归一化,确保所有邻域结点对目标的影响权重之和为1:
Figure FDA0003480659610000031
利用两个可训练参数自适应地调节目标结点i的间接特征受到自身及跨域因素的综合影响,得到目标结点在自身与其他所有邻域结点共同影响下的间接历史特征,计算方法如下所示:
Figure FDA0003480659610000032
其中,σ为RELU函数,W1与W2均为可训练参数;
Figure FDA0003480659610000033
为站点si在t时间步的间接历史特征;
Figure FDA0003480659610000034
表示目标结点i的间接特征,
Figure FDA0003480659610000035
表示目标结点i与其他邻域结点j的间接特征;
综合考虑间接因素的跨域影响后,考虑间接特征与直接特征在t时间步对目标结点的共同作用,将结点i在t时间步的直接影响因素与间接影响因素在通道维度上进行拼接,得到站点si在t时间步的历史特征:
Figure FDA0003480659610000036
其中,
Figure FDA0003480659610000037
表示站点si在t时间步的单位历史特征;
对每个时间步都执行以上提取方法,从而能够充分考虑结点间复杂的动态相关性,获得历史数据特征Z=(z1,z2,…,zH)∈R(G+K)×N×H
5.根据权利要求4所述的方法,其特征在于:在步骤4中:所述计算多粒度时空序列关系包括提取时空序列的长期发展模式的实现方法;
提取时空序列的长期发展模式的具体实现方法如下:
首先,在获得历史数据特征Z=(z1,z2,…,zH)∈R(G+K)×N×H的前提下,假设目标时间为f,先提取目标数据在f前一周的发展模式,即长期发展模式,提取步骤如下:
分别将目标时间f前一周内每一日的历史特征输入LSTM,利用编码器结构提取相应的时空序列发展模式:
Figure FDA0003480659610000038
其中Dd为f前d日的时空序列演化模式,||表示通道维度上的串联操作;hd和cd分别为LSTM在前d日的隐藏状态和细胞状态,ht0表示初始隐藏状态,ct0表示初始细胞状态;
根据一周内每日的时空序列发展模式,在解码器结构中,利用注意力机制定量计算每日序列特征对长期发展模式的影响程度,综合考虑每日实际情况,准确提取长期发展模式Lf,具体计算过程如下:
Figure FDA0003480659610000041
其中,hf-1是解码器在f-1时间步的隐藏状态,Wd是可训练参数。
6.根据权利要求5所述的方法,其特征在于:在步骤4中:所述计算多粒度时空序列关系包括提取时空序列的中期发展模式的实现方法:
提取时空序列的中期发展模式的具体实现方法如下:
分别将先前提取的目标时间f前24小时的历史特征输入LSTM单元,得到每个小时的相应隐藏状态:
Ht,(ht,ct)=LSTM(Xt,(ht0,ct0))
其中Ht为t时间步的数据特征,ht和ct为LSTM在最后一个时间步的隐藏状态和细胞状态;
根据每小时的历史数据特征,在解码器结构中,利用注意力机制定量计算每小时的数据特征对中期发展模式的影响,提取时空序列的中期发展模式Mf,计算过程如下:
Figure FDA0003480659610000042
其中,hf-1是解码器在f-1时间步的隐藏状态,Wt是可训练参数。
7.根据权利要求6所述的方法,其特征在于:在步骤4中:所述计算多粒度时空序列关系包括提取时空序列的短期突变信息的实现方法;
提取时空序列的短期突变信息的具体实现方法:以历史数据特征作为输入,假设目标时刻为f,提取短期突变信息前,需要判断目标时间步f是否为整个待预测序列中的第1个时间步,如果目标是第1个时间步,则将先前提取的f-1时间步的历史特征Xf-1作为输入,输入LSTM单元,得到神经网络的相应隐藏状态,作为短期突变信息Sf;若目标时间步f不是整个待预测序列中的首个时间步,则将解码器对前一时间步的预测结果Yf-1作为短期突变信息Sf,保证短期突变信息的时效性。
8.根据权利要求7所述的方法,其特征在于:所述步骤5具体为:
在对时间步f进行预测时,将解码器在f-1时间步的隐藏状态hf-1作为查询向量,利用注意力机制定量计算长期发展模式、中期发展模式与短期突变信息对未来目标序列的影响程度,并利用softmax函数将三者的影响权重归一化:
Figure FDA0003480659610000051
Figure FDA0003480659610000052
Figure FDA0003480659610000053
其中,
Figure FDA0003480659610000054
是长、中期发展模式与短期突变信息对时间步f的影响权重,hf-1是解码器在f-1时间步的隐藏状态,WL、WM与WS均为可训练参数。
9.根据权利要求8所述的方法,其特征在于:所述步骤6具体为:
提取目标序列的长期、中期发展模式与短期突变信息后,综合利用三种模式中蕴含的历史数据信息,预测时刻f的目标序列取值,具体计算方式如下所示:
Figure FDA0003480659610000055
Yf=LSTM(Cf)
其中Lf、Mf和Sf分别是模型根据不同的历史信息提取的时空序列长期发展模式、中期发展模式和短期突变信息,Cf是解码器在f时刻的输入,Yf即为模型未来时空序列的预测结果;Y=(y1,y2,…,yF)∈RF×N是N个节点在未来F个时间步的目标时空序列值,即模型输出结果。
10.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-9所述方法的步骤。
CN202210067402.8A 2022-01-20 2022-01-20 一种基于多层注意力机制的时空序列预测方法及设备 Pending CN114492978A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210067402.8A CN114492978A (zh) 2022-01-20 2022-01-20 一种基于多层注意力机制的时空序列预测方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210067402.8A CN114492978A (zh) 2022-01-20 2022-01-20 一种基于多层注意力机制的时空序列预测方法及设备

Publications (1)

Publication Number Publication Date
CN114492978A true CN114492978A (zh) 2022-05-13

Family

ID=81471993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210067402.8A Pending CN114492978A (zh) 2022-01-20 2022-01-20 一种基于多层注意力机制的时空序列预测方法及设备

Country Status (1)

Country Link
CN (1) CN114492978A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545362A (zh) * 2022-12-05 2022-12-30 南方电网数字电网研究院有限公司 一种ai与tsd结合的新能源中期功率组合预测方法
CN116957367A (zh) * 2023-09-21 2023-10-27 南昌大学 综合能源系统运行策略的参数多时间尺度预测方法及系统
CN117078490A (zh) * 2023-10-17 2023-11-17 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) 基于多项因素进行同步分析的城市小微水体风险评估方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545362A (zh) * 2022-12-05 2022-12-30 南方电网数字电网研究院有限公司 一种ai与tsd结合的新能源中期功率组合预测方法
CN116957367A (zh) * 2023-09-21 2023-10-27 南昌大学 综合能源系统运行策略的参数多时间尺度预测方法及系统
CN116957367B (zh) * 2023-09-21 2024-01-09 南昌大学 综合能源系统运行策略的参数多时间尺度预测方法及系统
CN117078490A (zh) * 2023-10-17 2023-11-17 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) 基于多项因素进行同步分析的城市小微水体风险评估方法
CN117078490B (zh) * 2023-10-17 2024-03-29 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) 基于多项因素进行同步分析的城市小微水体风险评估方法

Similar Documents

Publication Publication Date Title
Du et al. Traffic demand prediction based on dynamic transition convolutional neural network
CN109508360B (zh) 一种基于元胞自动机的地理多元流数据时空自相关分析方法
CN114492978A (zh) 一种基于多层注意力机制的时空序列预测方法及设备
CN107977734B (zh) 一种时空大数据下基于移动马尔可夫模型的预测方法
CN112291807B (zh) 一种基于深度迁移学习和跨域数据融合的无线蜂窝网络流量预测方法
Esquivel et al. Spatio-temporal prediction of Baltimore crime events using CLSTM neural networks
Zhang et al. A Traffic Prediction Method of Bicycle-sharing based on Long and Short term Memory Network.
CN113762338B (zh) 一种基于多重图注意力机制的交通流预测方法、设备及介质
CN109409561B (zh) 多时间尺度时间序列协同预测模型的构建方法
CN113570867B (zh) 一种城市交通状态预测方法、装置、设备及可读存储介质
CN111695019B (zh) 一种识别关联账号的方法及装置
Zou et al. Air quality prediction based on a spatiotemporal attention mechanism
Miao et al. MBA-STNet: Bayes-enhanced discriminative multi-task learning for flow prediction
CN115455130B (zh) 一种社交媒体数据与移动轨迹数据的融合方法
CN116108984A (zh) 基于流量-poi因果关系推理的城市流量预测方法
CN111259167B (zh) 用户请求风险识别方法及装置
CN111882157A (zh) 一种基于深度时空神经网络的需求预测方法、系统及计算机可读存储介质
Peng et al. A forecast model of tourism demand driven by social network data
CN115080795A (zh) 一种多充电站协同负荷预测方法及装置
CN113240219A (zh) 一种土地利用模拟及预测方法
CN117079148A (zh) 城市功能区的识别方法、装置、设备和介质
CN117081941A (zh) 基于注意力机制的流量预测方法及其装置、电子设备
CN112183824B (zh) 一种线上线下关联的城市客流量预测方法
Cao et al. Research On Regional Traffic Flow Prediction Based On MGCN-WOALSTM
CN112270123A (zh) 一种基于卷积生成对抗网络的流域水库群径流随机生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination