CN114021811A - 基于注意力改进的交通预测方法及计算机介质 - Google Patents

基于注意力改进的交通预测方法及计算机介质 Download PDF

Info

Publication number
CN114021811A
CN114021811A CN202111293933.0A CN202111293933A CN114021811A CN 114021811 A CN114021811 A CN 114021811A CN 202111293933 A CN202111293933 A CN 202111293933A CN 114021811 A CN114021811 A CN 114021811A
Authority
CN
China
Prior art keywords
attention
matrix
parameters
probability
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111293933.0A
Other languages
English (en)
Inventor
曾博
葛亮
周庆
黎森文
林永全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202111293933.0A priority Critical patent/CN114021811A/zh
Publication of CN114021811A publication Critical patent/CN114021811A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)

Abstract

本发明属于智能交通技术领域,具体公开了一种基于注意力改进的交通预测方法及计算机介质,该方法利用全连接层计算注意力参数,随机采样注意力参数,计算每组采样的注意力参数中的分布与平均分布的KL散度值,根据每组注意力参数中的KL散度值,获取注意力参数的概率分布与均匀分布之间的差值Top‑u,根据差值Top‑u,获取差值最大的多个注意力参数,使用一个4维的张量Φ∈RB×T×N×N对获取的注意力参数同时进行空间和时间上的卷积,将卷积后的注意力参数输入全连接层,输出预测交通流量。采用本技术方案,在使用注意力获取动态的拉普拉斯矩阵,降低计算时间复杂度和空间复杂度,增加模型的感受野。

Description

基于注意力改进的交通预测方法及计算机介质
技术领域
本发明属于智能交通技术领域,涉及一种基于注意力改进的交通预测方法及计算机介质。
背景技术
建立智能交通系统(ITS)正成为现代交通研究的关键,其中交通预测发挥着至关重要的作用,具有广泛的应用前景,如优化交通道路使用分配、提前规划客户路线、引导道路建设等。
随着交通检测器和传感器在城市道路网络上的大量使用,现代交通系统累计了大量历史数据,动态变化的交通系统中产生的大量数据中隐藏着丰富的信息和规律性。人们提出并研究了许多基于历史路网信息的模型,其中主要研究的是如何通过新的方法建立时间序列模型,并利用路段节点的空间关系。传统方法主要有卡尔曼滤波器和统计学模型,最新的方法主要是采用人工智能。
现实世界的交通系统,受到许多因素的影响,例如非线性和非平稳的交通数据、天气和事件等。从而难以挖掘空间和时间特征,现有的挖掘方法有,例如,空间状态神经网络SSNN,其目的是为了寻找基于一阶上下文记忆的时空关系;深度时空卷积DSTCN,利用卷积神经网络CNN探索空间关系,并利用递归神经网络RNN挖掘时间信息。这些模型建立了时空关系,但是忽略了道路网络在空间上的自然拓扑结构,甚至破坏了自然拓扑结构,导致模型性能不足。而采用最新研究的DGCN(Dual Graph Convolutional Networks,对偶图卷积网络)模型,为了获取到不同时间步之间的距离,采用了大量的注意力机制,需要进行大量的高维向量矩阵运算,并且在特征采样层内为了捕捉时间关系,引入了LSTM层,从而导致运算的时间复杂度和空间复杂度非常高。另由于时间复杂度和空间复杂度较高的情况,DGCN模型在特征输入模型之前便将特征由原定的60个点经过卷积变成16个点,该项缺点限制了DGCN输入时序的长度(特征采样层存在的意义),也限制了DGCN预测较远的时间节点的能力(一方面模型感受到的数据被卷积层把维度降低了,另一方面很难输入更长的时间序列数据)。
发明内容
本发明的目的在于提供一种基于注意力改进的交通预测方法及计算机介质,降低计算时间复杂度和空间复杂度。
为了达到上述目的,本发明的基础方案为:一种基于注意力改进的交通预测方法,包括如下步骤:
输入观测的交通数据,依次经过全连接层和注意力层,计算注意力参数;
随机采样注意力参数,计算每组采样的注意力参数中的分布与平均分布的KL散度值;
根据每组注意力参数中的KL散度值,获取注意力参数的概率分布与均匀分布之间的差值Top-u;
根据差值Top-u,获取差值最大的多个注意力参数;
使用一个4维的张量Φ∈RB×T×N×N对获取的注意力参数同时进行空间和时间上的卷积,将卷积后的注意力参数输入全连接层,输出预测交通流量,其中,R表示实数张量矩阵,B为mini-batch维度,T为时间维度,N×N为空间上的邻接矩阵维度。
本基础方案的工作原理和有益效果在于:使用了基于信息感知的注意力层,注意力层自动获取更高的注意力,并简化注意力计算的时间和空间复杂度,从而能够输入更长的时间序列的数据,使得模型的感受野增加,长时间交通预测的预测效果被提升了。在简化DGCN模型的计算时间空间复杂度的前提下,扩大了模型的感受野,提高了模型预测交通的准确性。通过全连接层提高全局拉普拉斯参数矩阵和注意力的结合度,同时对空间维度和时间维度做卷积,从而获得更加复杂的时空结合的关系。
进一步,计算注意力的值的方法:
定义一种基于(Q,K,V)三矩阵输入的规范自注意力:
Figure BDA0003335771150000031
其中,Q,K,V表示张量矩阵;Softmax()为分类函数,
Figure BDA0003335771150000036
表示使用Q矩阵乘以K矩阵的转置;对应的维度为
Figure BDA0003335771150000032
LQ,LK,LV分别表示Q,K,V的中间维度,R表示实数张量矩阵,L表示维度,d为输入的维度;
使用qi,ki,vi分别代表矩阵Q,K,V中的第i行,第i个注意力参数表示为:
Figure BDA0003335771150000033
其中,概率
Figure BDA0003335771150000034
概率p(kj∣∣qi)表示第i个query中在key中的注意力,
Figure BDA0003335771150000035
Vj为矩阵V中的向量。
获取注意力参数和概率,便于后续计算。
进一步,计算KL散度值的方法如下:
对注意力参数进行归一化处理,基于均匀分布的注意力参数理论值为
Figure BDA0003335771150000041
当概率
Figure BDA0003335771150000042
时,注意力参数变为对矩阵V的平均求和;
对概率p和注意力参数理论值q进行比较得出差值,设置阈值h,当该差值大于阈值h,筛选出重要的概率p,使得Q矩阵变为稀疏矩阵:
Figure BDA0003335771150000043
Figure BDA0003335771150000044
是一个和Q相同大小的矩阵,
Figure BDA0003335771150000045
其中只包含由计算得到差值超过阈值h的注意力参数,其余注意力参数设为0,概率p与注意力参数q之间的KL散度值:
Figure BDA0003335771150000046
利用注意力所具有的稀疏性,减少时间复杂度和内存消耗,即大部分的注意力系数最后的结果是趋近于0,只有少数注意力系数的值具有意义。
进一步,所述获取注意力参数的概率分布与均匀分布之间的差值Top-u的方法如下:
对原始矩阵Q中的值进行采样,利用KL散度值计算概率p与注意力参数q间概率分布的差值,令采样系数u=c·lnLQ,c为人为根据经验设置的超参数,计算注意力涉及到的矩阵内积计算的时间复杂度为
Figure BDA00033357711500000410
空间复杂度为
Figure BDA00033357711500000411
利用注意力参数的长尾分布,随机选取U=LQlnLK个概率分布对,计算U个概率分布与均匀分布之间的差值Top-u,并将差值Top-u填充入矩阵
Figure BDA0003335771150000047
内,将矩阵
Figure BDA0003335771150000048
内未填充的部分设置为0,矩阵
Figure BDA0003335771150000049
变成一个稀疏矩阵。
利用注意力系数的长尾分布,不需要将全部点对计算完毕,进一步简化时间复杂度和空间复杂度,通过这种方式,可以将矩阵
Figure BDA0003335771150000051
变成一个稀疏矩阵,计算时间复杂度相对正常的矩阵大大减少。
进一步,对获取的注意力参数同时进行空间和时间上的卷积的方法如下:
根据用于计算的部分注意力参数,得到在不同时间维度两两节点之间的注意力参数
Figure BDA0003335771150000052
将注意力参数
Figure BDA0003335771150000053
与归一化邻接矩阵做一个加权和,得到卷积的邻接矩阵,
Figure BDA0003335771150000054
Fast-GCN的实现方式如下:
Figure BDA0003335771150000055
其中,W1和W2表示两个可训练的参数,
Figure BDA0003335771150000056
为注意力参数得到的邻接矩阵,Adj为现时交通路网结构得到的邻接矩阵,
Figure BDA0003335771150000057
IN∈RN×N为单位矩阵,其中λmax为矩阵L的最大的特征值,M为切比雪夫多项式的阶,Cm=2LCm-1-Cm-2
Figure BDA0003335771150000058
C0=IN,gθ表示卷积函数核,G(x)表示被卷积的图结构和图数据,x表示图中顶点和特征,gθ(L)表示将图上的卷积操作转为基于拉普拉斯矩阵(L)实现的卷积操作,θm为第m阶多项式的可学习的系数,
Figure BDA0003335771150000059
为切比雪夫多项式近似拉普拉斯矩阵的第m项的矩阵值,L为拉普拉斯矩阵,Cm-1为切比雪夫多项式近似拉普拉斯矩阵的第m-1项的矩阵值;
使用2阶切比雪夫多项式,对输入的邻接矩阵Φ在T维度上分别进行卷积,同时实现在不同时间上的不同空间卷积,实现动态的图卷积。
同时对空间维度和时间维度做卷积,从而获得更加复杂的时空结合的关系,利于后续使用。
进一步,卷积后的注意力参数输入全连接层,全连接层输出预测的时间序列:
Figure BDA0003335771150000061
在这里是预测的交通流量,其中
Figure BDA0003335771150000062
表示预测的t个时刻的交通流量,
Figure BDA0003335771150000063
表示y是一个1维的dy长度的向量。
获取预测的交通流量,计算简单,利于使用。
本发明还提供一种计算机介质,所述计算机介质内存储有可执行本发明所述的方法的程序。
利用该计算机介质,执行交通预测,便于使用。
附图说明
图1是本发明基于注意力改进的交通预测方法的流程示意图;
图2是本发明基于注意力改进的交通预测方法的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
最新的DGCN模型,将观测的交通数据值结合路网结构输入模型,观测值根据小时周期,天周期,周周期进行采样,然后根据路网结构模型计算拉普拉斯矩阵。拉普拉斯矩阵经过一个全局拉普拉斯矩阵学习层,在模型的最顶层使用一个RN×N的全局参数学习全局情况下各个路网节点之间空间关系(蓝色Global Laplace matrix Learning Layer),得到全局拉普拉斯参数化矩阵。
其中采样得到的交通时序数据经过时间卷积层后,在进行特征采样(FeatureSampling)之后,经过了时空注意力层(Spatial Attention和LSTM un北)学习到不同时间步之间的关系,与上段的全局拉普拉斯参数化矩阵做哈达玛乘积最后得到图时空卷积层(Graph Temporal Convulution Layer)使用的矩阵。
如图1和2所示,本发明公开了一种基于注意力改进的交通预测方法,针对现有技术的缺陷,能够在使用注意力获取动态的拉普拉斯矩阵的同时,降低计算时间复杂度和空间复杂度,从而在有限的计算资源中,能够输入更长的时间序列数据,增加模型的感受野,在不降低模型短期预测效果(15分钟)提高模型中长期预测效果(30分钟到1个小时)。
模型的注意力参数是具有稀疏性的,并且注意力在若干epoch的训练之后,应该适当的缩小其变化的趋势(变化数值较小,作用不大甚至可能导致过拟合)。注意力的机制,保证了模型在对于不同维度的数据来源,采用了不同权重的数据聚合,而如果不采用注意力机制,则意味着模型对不同数据来源使用了相同的权重,即所有注意力的平均值。通过计算这个注意力值在不同数据维度的分布与平均值的分布之间差距(通过KL散度计算),若差距大于人为设定的一个阈值,则认为这个注意力参数是有用的。该交通预测方法包括如下步骤:
输入观测的交通数据,依次经过全连接层和注意力层,计算注意力参数;模型是先经过全连接层,将不同时间周期的数据聚合在一起,再经过注意力层,注意力层实现使用基于Transformer架构,在注意层计算注意力参数的时候,使用基于KL散度的方法做度量值来剔除部分注意力参数的计算;
随机采样注意力参数,计算每组采样的注意力参数中的分布与平局分布的KL(KL表示相对熵、信息增益或信息散度)散度值;
根据每组注意力参数中的KL散度值,获取注意力参数的概率分布与均匀分布之间的差值Top-u;
根据差值Top-u,获取差值最大的多个注意力参数;获取差值最高的u个注意力,u是人为设定的一个值,这个值取的是logN,未被选中的注意力系数设为0;
使用一个4维(分别是空间上传感器节点两两之间的维度)的张量Φ∈RB×T×N×N对获取的注意力参数同时进行空间和时间上的卷积,将卷积后的注意力参数输入全连接层,输出预测交通流量,其中,R表示实数集合,在这里是表示为一个实数张量矩阵,右上角的标表示矩阵的各个维度大小,这里是四个维度,维度大小分别是B、T、N、N,B为mini-batch(是小批梯度下降的一种方式,将数据划分为相同大小的多批数据,按照每批数据进行梯度更新)维度,T为一维时间维度,N×N为空间上的邻接矩阵维度。每层输入数据经过注意力层和时空卷积层之后,输入输出维度是一样的,便于叠加多层,输出的时间序列是将最后一个卷积层的输出输入进一个全连接层然后输出时间序列,也就是结构图中Output Layer。
本发明的一种优选方案中,计算注意力的值的方法:
定义一种基于(Q,K,V)三矩阵输入的规范自注意力:
Figure BDA0003335771150000091
其中,Q,K,V表示张量矩阵;Softmax()为分类函数,将多个输入的实数归一化为0至1的范围中,常用来表示概率,这里是用这个函数来表示注意力,从0到1表示不接受输入的注意力到全部接受输入的注意力;
Figure BDA0003335771150000096
表示使用Q矩阵乘以K矩阵的转置,用
Figure BDA0003335771150000094
矩阵来控制注意力得分,为了避免部分注意力为0,导致
Figure BDA0003335771150000095
得到的注意力分布太大,在这里除以
Figure BDA0003335771150000092
来做归一化;
对应的维度为
Figure BDA0003335771150000093
LQ,LK,LV分别表示Q,K,V的中间维度(输入到注意力层之前会经过一个单层全连接层,把输入变换成这个中间维度便于计算,这个维度一般是人为定义的),R表示实数集合,这里是表示Q,K,V维张量矩阵,R后面的角标表示矩阵的维度数量和维度大小;L表示维度,由于Q,K,V在输入之后经过了单层全连接层,使用Linear线性层实现,所以简写为L;d为输入的维度;Query,Key,Value,这个是提出transformer的论文定义的,分别表示Query查询向量,Key关键特征,Value数据特征值,在实际应用中一般Q,K,V都是采用的相同的输入值,然后经过一层全连接层。
使用qi,ki,vi分别代表矩阵Q,K,V中的第i行,第i个注意力参数表示为:
Figure BDA0003335771150000101
其中,概率
Figure BDA0003335771150000102
概率p(kj∣∣qi)表示第i个query中在key中的注意力,
Figure BDA0003335771150000103
Vj为矩阵V中的向量。计算概率是通过对矩阵Q和K做矩阵乘法来实现的,需要的时间复杂度为
Figure BDA0003335771150000104
即二次的时间复杂度和内存消耗,这也是限制了提高长时间时序预测的主要原因。
由于观测到注意力系数所具有的稀疏性,即提出了STProbAttention实现,利用了注意力所具有的稀疏性,减少时间复杂度和内存消耗。在对注意力系数的观测中,发现注意力系数呈长尾分布,即大部分的注意力系数最后的结果是趋近于0,只有少数注意力系数的值具有意义,概率p(kj∣∣qi)指代了第i个query中在所以key中的注意力,若不使用注意力机制,则对于key中的每一行都具有相同的系数,即最后得到的注意力系数是key中所有行的平均值。而具有更重要作用的注意力系数,会使得自身的注意力系数尽可能大,使得最后得到的注意力系数的分布离均匀分布更可能的远。
计算KL散度值的方法如下:
对注意力参数进行归一化处理,基于均匀分布的注意力参数理论值为
Figure BDA0003335771150000105
当概率
Figure BDA0003335771150000106
时,注意力参数变为对矩阵V的平均求和;
为了得到更具有意义的值,对概率p和注意力参数理论值q进行比较得出差值,设置阈值h,当该差值大于阈值h,筛选出重要的概率p,即对Q中的元素做筛选,随机对Q中的每一行进行采样,再使用采样的值与平均分布做差值计算,然后得到Q中每行更有意义的元素值,从而筛选出Q中更有意义的注意力参数,使得Q矩阵变为稀疏矩阵:
Figure BDA0003335771150000111
Figure BDA0003335771150000112
是一个和Q相同大小的矩阵,
Figure BDA0003335771150000113
其中只包含由计算得到差值超过阈值h的注意力参数,其余注意力参数设为0,概率p与注意力参数q之间的KL散度值:
Figure BDA0003335771150000114
当q和p的KL散度值越大,则意味着p越偏离平均分布,对最后得到的注意力系数越具有显著的作用。
获取注意力参数的概率分布与均匀分布之间的差值Top-u的方法如下:
对原始矩阵Q中的值进行采样,利用KL散度值计算概率p与注意力参数q间概率分布的差值,令采样系数u=c·lnLQ,c为人为根据经验设置的超参数,计算注意力涉及到的矩阵内积计算的时间复杂度为
Figure BDA00033357711500001111
空间复杂度为
Figure BDA00033357711500001112
但是在求
Figure BDA0003335771150000115
时,需要对矩阵中的所有概率分布对产生计算,然后再求Top-u的值。为了进一步简化时间复杂度和空间复杂度,利用注意力参数的长尾分布,不需要将全部点对计算完毕(大部分都是0或是接近0的,不计算对最后的结果影响不大)。随机选取U=LQlnLK(U是人为设定的一个值,在模型中设为Ln LQ)个概率分布对,计算U个概率分布与均匀分布之间的差值Top-u,并将差值Top-u填充入矩阵
Figure BDA0003335771150000116
内,将矩阵
Figure BDA0003335771150000117
内未填充的部分设置为0,矩阵
Figure BDA0003335771150000118
变成一个稀疏矩阵,计算时间复杂度相对正常的矩阵大大减少。
通常情况下,对输入的(query,key,value)三个矩阵使用相同的维度L,则STProbAttention的时间和空间复杂度为
Figure BDA0003335771150000119
比原来的
Figure BDA00033357711500001110
复杂度降低了,从而能够接受更长的输入数据,并保留了Transfomer在
Figure BDA0003335771150000129
的复杂度内访问到所有的时序节点,从而变相地提高了模型的感受野。
本发明的一种优选方案中,对获取的注意力参数同时进行空间和时间上的卷积的方法如下:
根据用于计算的部分注意力参数,得到在不同时间维度两两节点之间的注意力参数(包括自注意力)
Figure BDA0003335771150000121
将注意力参数
Figure BDA0003335771150000122
与归一化邻接矩阵做一个加权和,得到卷积的邻接矩阵,
Figure BDA0003335771150000123
Fast-GCN的实现方式如下:
Figure BDA0003335771150000124
其中,W1和W2表示两个可训练的参数,
Figure BDA0003335771150000125
为注意力参数得到的邻接矩阵,Adj为现时交通路网结构得到的邻接矩阵,这两个矩阵通过可训练的参数聚合在一起;
Figure BDA0003335771150000126
IN∈RN×N为单位矩阵,其中λmax为矩阵L的最大的特征值,M为切比雪夫多项式的阶,Cm=2LCm-1-Cm-2
Figure BDA0003335771150000127
C0=IN,gθ表示卷积函数核,G(x)表示被卷积的图结构和图数据,x表示图中顶点和特征,gθ(L)表示将图上的卷积操作转为基于拉普拉斯矩阵(L)实现的卷积操作,θm为第m阶多项式的可学习的系数,
Figure BDA0003335771150000128
为切比雪夫多项式近似拉普拉斯矩阵的第m项的矩阵值,L为拉普拉斯矩阵,Cm-1为切比雪夫多项式近似拉普拉斯矩阵的第m-1项的矩阵值;
使用2阶切比雪夫多项式来实现GCN(图卷积网络),对输入的邻接矩阵Φ在T维度上分别进行卷积,同时实现在不同时间上的不同空间卷积,实现动态的图卷积。
卷积后的注意力参数输入全连接层,全连接层输出预测的时间序列:
Figure BDA0003335771150000131
在这里是预测的交通流量,其中
Figure BDA0003335771150000132
表示预测的t个时刻的交通流量,
Figure BDA0003335771150000133
表示y是一个1维的dy长度的向量。
本发明还提供一种计算机介质,所述计算机介质内存储有可执行本发明所述的方法的程序。本方案使用了基于信息感知的注意力层,模型计算注意力的代价被降低了,并且时间复杂度也被降低了,从而能够输入更长的时间序列的数据,使得模型的感受野增加,长时间交通预测的预测效果被提升了。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (7)

1.一种基于注意力改进的交通预测方法,其特征在于,包括如下步骤:
输入观测的交通数据,依次经过全连接层和注意力层,计算注意力参数;
随机采样注意力参数,计算每组采样的注意力参数中的分布与平均分布的KL散度值;
根据每组注意力参数中的KL散度值,获取注意力参数的概率分布与均匀分布之间的差值Top-u;
根据差值Top-u,获取差值最大的多个注意力参数;
使用一个4维的张量Φ∈RB×T×N×N对获取的注意力参数同时进行空间和时间上的卷积,将卷积后的注意力参数输入全连接层,输出预测交通流量,其中,R表示实数张量矩阵,B为mini-batch维度,T为时间维度,N×N为空间上的邻接矩阵维度。
2.如权利要求1所述的基于注意力改进的交通预测方法,其特征在于,计算注意力的值的方法:
定义一种基于(Q,K,V)三矩阵输入的规范自注意力:
Figure FDA0003335771140000011
其中,Q,K,V表示张量矩阵;Softmax()为分类函数,
Figure FDA0003335771140000013
表示使用Q矩阵乘以K矩阵的转置;
对应的维度为
Figure FDA0003335771140000012
LQ,LK,LV分别表示Q,K,V的中间维度,R表示实数张量矩阵,L表示维度,d为输入的维度;
使用qi,ki,vi分别代表矩阵Q,K,V中的第i行,第i个注意力参数表示为:
Figure FDA0003335771140000021
其中,概率
Figure FDA0003335771140000022
概率p(kj∣qi)表示第i个query中在key中的注意力,
Figure FDA0003335771140000023
Vj为矩阵V中的向量。
3.如权利要求1所述的基于注意力改进的交通预测方法,其特征在于,计算KL散度值的方法如下:
对注意力参数进行归一化处理,基于均匀分布的注意力参数理论值为
Figure FDA0003335771140000024
当概率
Figure FDA0003335771140000025
时,注意力参数变为对矩阵V的平均求和;
对概率p和注意力参数理论值q进行比较得出差值,设置阈值h,当该差值大于阈值h,筛选出重要的概率p,使得Q矩阵变为稀疏矩阵:
Figure FDA0003335771140000026
Figure FDA0003335771140000027
是一个和Q相同大小的矩阵,
Figure FDA0003335771140000028
其中只包含由计算得到差值超过阈值h的注意力参数,其余注意力参数设为0,概率p与注意力参数q之间的KL散度值:
Figure FDA0003335771140000029
4.如权利要求3所述的基于注意力改进的交通预测方法,其特征在于,所述获取注意力参数的概率分布与均匀分布之间的差值Top-u的方法如下:
对原始矩阵Q中的值进行采样,利用KL散度值计算概率p与注意力参数q间概率分布的差值,令采样系数u=c·lnLQ,c为人为根据经验设置的超参数,计算注意力涉及到的矩阵内积计算的时间复杂度为
Figure FDA00033357711400000210
空间复杂度为
Figure FDA00033357711400000211
利用注意力参数的长尾分布,随机选取U=LQln LK个概率分布对,计算U个概率分布与均匀分布之间的差值Top-u,并将差值Top-u填充入矩阵
Figure FDA0003335771140000031
内,将矩阵
Figure FDA0003335771140000032
内未填充的部分设置为0,矩阵
Figure FDA0003335771140000033
变成一个稀疏矩阵。
5.如权利要求1所述的基于注意力改进的交通预测方法,其特征在于,对获取的注意力参数同时进行空间和时间上的卷积的方法如下:
根据用于计算的部分注意力参数,得到在不同时间维度两两节点之间的注意力参数
Figure FDA0003335771140000034
将注意力参数
Figure FDA0003335771140000035
与归一化邻接矩阵做一个加权和,得到卷积的邻接矩阵,
Figure FDA0003335771140000036
Fast-GCN的实现方式如下:
Figure FDA0003335771140000037
其中,W1和W2表示两个可训练的参数,
Figure FDA0003335771140000038
为注意力参数得到的邻接矩阵,Adj为现时交通路网结构得到的邻接矩阵,
Figure FDA0003335771140000039
IN∈RN×N为单位矩阵,其中λmax为矩阵L的最大的特征值,M为切比雪夫多项式的阶,Cm=2LCm-1-Cm-2
Figure FDA00033357711400000310
gθ表示卷积函数核,G(x)表示被卷积的图结构和图数据,x表示图中顶点和特征,gθ(L)表示将图上的卷积操作转为基于拉普拉斯矩阵(L)实现的卷积操作,θm为第m阶多项式的可学习的系数,
Figure FDA00033357711400000311
为切比雪夫多项式近似拉普拉斯矩阵的第m项的矩阵值,L为拉普拉斯矩阵,Cm-1为切比雪夫多项式近似拉普拉斯矩阵的第m-1项的矩阵值;
使用2阶切比雪夫多项式,对输入的邻接矩阵Φ在T维度上分别进行卷积,同时实现在不同时间上的不同空间卷积,实现动态的图卷积。
6.如权利要求1所述的基于注意力改进的交通预测方法,其特征在于,卷积后的注意力参数输入全连接层,全连接层输出预测的时间序列:
Figure FDA0003335771140000041
在这里是预测的交通流量,其中
Figure FDA0003335771140000042
表示预测的t个时刻的交通流量,
Figure FDA0003335771140000043
表示y是一个1维的dy长度的向量。
7.一种计算机介质,其特征在于,所述计算机介质内存储有可执行权利要求1-6之一所述的方法的程序。
CN202111293933.0A 2021-11-03 2021-11-03 基于注意力改进的交通预测方法及计算机介质 Pending CN114021811A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111293933.0A CN114021811A (zh) 2021-11-03 2021-11-03 基于注意力改进的交通预测方法及计算机介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111293933.0A CN114021811A (zh) 2021-11-03 2021-11-03 基于注意力改进的交通预测方法及计算机介质

Publications (1)

Publication Number Publication Date
CN114021811A true CN114021811A (zh) 2022-02-08

Family

ID=80060139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111293933.0A Pending CN114021811A (zh) 2021-11-03 2021-11-03 基于注意力改进的交通预测方法及计算机介质

Country Status (1)

Country Link
CN (1) CN114021811A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115018073A (zh) * 2022-08-09 2022-09-06 之江实验室 一种基于图神经网络的时空感知信息预测方法和系统
CN115619052A (zh) * 2022-12-20 2023-01-17 安徽农业大学 一种城市交通流量预测方法
CN116153089A (zh) * 2023-04-24 2023-05-23 云南大学 基于时空卷积与动态图的交通流量预测系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161891A1 (en) * 2015-12-03 2017-06-08 Case Western Reserve University Scaling up convolutional networks
CN112183826A (zh) * 2020-09-15 2021-01-05 湖北大学 基于深度级联生成对抗网络的建筑能耗预测方法及相关产品
CN112801404A (zh) * 2021-02-14 2021-05-14 北京工业大学 一种基于自适应空间自注意力图卷积的交通预测方法
CN113010796A (zh) * 2021-04-15 2021-06-22 重庆大学 用于项目推荐的方法
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161891A1 (en) * 2015-12-03 2017-06-08 Case Western Reserve University Scaling up convolutional networks
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof
CN112183826A (zh) * 2020-09-15 2021-01-05 湖北大学 基于深度级联生成对抗网络的建筑能耗预测方法及相关产品
CN112801404A (zh) * 2021-02-14 2021-05-14 北京工业大学 一种基于自适应空间自注意力图卷积的交通预测方法
CN113010796A (zh) * 2021-04-15 2021-06-22 重庆大学 用于项目推荐的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于动态图卷积的交通流量预测算法研究", 《万方数据》, 1 November 2023 (2023-11-01), pages 1 - 61 *
RODRIGO DE MEDRANO: "A spatio-temporal attention-based spot-forecasting framework for urban traffic prediction", 《APPLIED SOFT COMPUTING》, vol. 96, 8 August 2020 (2020-08-08), pages 1 - 15, XP086324012, DOI: 10.1016/j.asoc.2020.106615 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115018073A (zh) * 2022-08-09 2022-09-06 之江实验室 一种基于图神经网络的时空感知信息预测方法和系统
CN115619052A (zh) * 2022-12-20 2023-01-17 安徽农业大学 一种城市交通流量预测方法
CN116153089A (zh) * 2023-04-24 2023-05-23 云南大学 基于时空卷积与动态图的交通流量预测系统及方法

Similar Documents

Publication Publication Date Title
CN109492822B (zh) 空气污染物浓度时空域关联预测方法
CN114021811A (zh) 基于注意力改进的交通预测方法及计算机介质
US11010658B2 (en) System and method for learning the structure of deep convolutional neural networks
CN110059878B (zh) 基于cnn lstm光伏发电功率预测模型及其构建方法
CN111639787B (zh) 一种基于图卷积网络的时空数据预测方法
CN114818515A (zh) 一种基于自注意力机制和图卷积网络的多维时序预测方法
CN114626512B (zh) 一种基于有向图神经网络的高温灾害预报方法
CN112911626B (zh) 基于多图卷积的无线网络流量预测方法
CN113610286B (zh) 顾及时空相关性和气象因素的pm2.5浓度预测方法及装置
CN112785066A (zh) 基于卷积-递归神经网络的全球野火次季节时空预测方法
CN115376317B (zh) 一种基于动态图卷积和时序卷积网络的交通流预测方法
CN115828990A (zh) 融合自适应图扩散卷积网络的时空图节点属性预测方法
CN116844041A (zh) 一种基于双向卷积时间自注意力机制的耕地提取方法
CN113704500A (zh) 一种基于图神经网络的知识图谱社区划分方法
CN114553718B (zh) 一种基于自注意力机制的网络流量矩阵预测方法
CN111865690B (zh) 基于网络结构和时序的机会网络链路预测方法
Liang et al. A wind speed combination forecasting method based on multifaceted feature fusion and transfer learning for centralized control center
Suresh et al. IoT with evolutionary algorithm based deep learning for smart irrigation system
CN116758349A (zh) 基于多尺度超像素节点聚合图卷积残差网络的高光谱图像分类方法
CN117668743A (zh) 一种关联时空关系的时序数据预测方法
CN115426671B (zh) 图神经网络训练、无线小区故障预测方法、系统及设备
CN115438841A (zh) 基于人工智能精准预测降雨模型的训练方法及预测方法
Shterev et al. Time series prediction with neural networks: a review
Li et al. Air temperature forecasting using traditional and deep learning algorithms
Hu et al. Research on pest and disease recognition algorithms based on convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination