CN116959258A - 一种基于时空图迁移学习的交通流预测方法 - Google Patents
一种基于时空图迁移学习的交通流预测方法 Download PDFInfo
- Publication number
- CN116959258A CN116959258A CN202311061841.9A CN202311061841A CN116959258A CN 116959258 A CN116959258 A CN 116959258A CN 202311061841 A CN202311061841 A CN 202311061841A CN 116959258 A CN116959258 A CN 116959258A
- Authority
- CN
- China
- Prior art keywords
- time
- domain
- space
- representing
- traffic flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010586 diagram Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013526 transfer learning Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 22
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000001364 causal effect Effects 0.000 claims description 5
- 230000008485 antagonism Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 208000037004 Myoclonic-astatic epilepsy Diseases 0.000 description 6
- 238000000874 microwave-assisted extraction Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 4
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A30/00—Adapting or protecting infrastructure or their operation
- Y02A30/60—Planning or developing urban green infrastructure
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及智能交通领域,具体涉及一种基于时空图迁移学习的交通流预测方法,包括构建并训练TL‑STGCN模型,获取待处理交通流数据输入训练好的TL‑STGCN模型,输出预测结果;所述TL‑STGCN模型包括时空图卷积网络、域判别器模块和预测模块;本发明结合数据充足的源路网的交通流特征,辅助预测数据稀缺的目标路网未来交通流,结果表明,对于数据稀缺的交通路网预测任务,TL‑STGCN比现有基线模型具有更好的预测性能。
Description
技术领域
本发明涉及智能交通领域,具体涉及一种基于时空图迁移学习的交通流预测方法。
背景技术
随着经济的发展、科技的进步,汽车保有量不断增加,交通系统不断扩张且变得愈加复杂,城市道路变得拥堵,人们的出行变得愈发困难。采用智能交通系统(IntelligentTraffic System,ITS)规划管理和智能调度交通运行已经成为未来的建设趋势。准确地预测未来交通流是智能交通系统的基础和核心任务,有助于提前预知路况,缓解道路拥堵,同时为行程规划、地区功能划分等上层任务提供基础。
近年来随着深度学习研究的发展,深度学习的方法如循环神经网络(RecurrentNeural Network,RNN)和卷积神经网络(Convolution Neural Network,CNN)被广泛应用在交通预测任务中。因为交通流数据具有时间相关性和空间相关性,因此一些研究将RNN或门控卷积网络(Gated Convolution Neural Network,Gated CNN)和CNN等深度学习方法相结合,旨在建立复杂的时空数据模型,从而捕获交通路网的时空依赖关系,这类方法适用于标准化的网格化数据。然而现实中的交通流数据都是基于路网的,路网本质上是更复杂的非欧式图结构。
为了解决CNN对复杂的图数据特征提取不足的问题,图卷积网络(GraphConvolution Networks,GCN)被提出。GCN与交通路网的图结构高度契合,因此被广泛应用于交通预测任务中。国内外一些研究利用GCN提取交通数据的空间特征,并结合RNN或门控卷积网络(Gated Convolution Network,Gated CNN)提取交通流数据时间特征。这些方法在交通预测任务中取得了良好的效果。
然而上述研究工作大多基于大量完备的历史观测数据来进行有效的预测,这对于一些交通路网来说是不现实的。例如,一些交通路网遭受天气、停电、机器故障等影响会导致路网数据丢失或异常;或由于隐私问题,历史交通数据不可使用;还有部分地区发展水平低,传感器数量少,导致数据稀缺。在这些情况下,传统方法无法对未来交通流进行准确的预测。迁移学习是解决交通预测中数据稀缺问题的有效方法,将数据丰富的交通路网作为源域,数据稀缺的交通路网作为目标域,通过迁移学习从源域中学习可转移知识,以辅助目标域进行交通流预测。近年来,一些研究已经将迁移学习的方法用于交通预测任务中,然而这些方法不适用于图结构的交通数据。
尽管已有大量工作对交通流预测进行研究,并取得了一定的成果。然而,交通流预测仍然面临着如下挑战:对于历史观测数据稀缺的图结构的交通路网,无法准确预测其未来一定时间段的交通流。
发明内容
为解决上述问题,本发明提出了一种基于时空图迁移学习的交通流预测方法,包括构建并训练基于时空图卷积网络的迁移学习模型(Transfer Learning BaseonSpatial-Temporal Graph Convolutional Networks,TL-STGCN),获取待处理交通流数据输入训练好的TL-STGCN模型,输出预测结果;所述TL-STGCN模型包括时空图卷积网络、域判别器模块和预测模块;
所述TL-STGCN模型的训练过程包括以下步骤:
S1.获取源交通路网的源域图及其源域数据集,同时获取目标交通路网的目标域图及其目标域数据集;
S2.将源域数据与目标域数据输入时空图卷积网络,得到源域时空特征表示和目标域时空特征表示;
S3.通过域判别器模块度量源域时空特征表示和目标域时空特征表示的特征距离,并对时空图卷积网络进行对抗性域训练;
S4.将源域时空特征表示和目标域时空特征表示输入预测模块获取源域预测值和目标域预测值,采用源域损失函数和目标域损失函数计算损失进行训练。
进一步的,步骤S1具体包括:
S11.利用城市路网中的传感器,将交通流量大于预设交通流量阈值的区域作为源交通路网,将交通流量不大于预设交通流量阈值的区域作为目标交通路网;
S12.获取源交通路网的源域图其中,/>表示源域图中所有源域节点的集合,/>表示源域图中所有边的集合,/>表示源域图的邻接矩阵,/>表示源域图的节点数量;定义源交通路网的源域数据集为:
其中,Ts表示源域图的时间序列样本的数量,表示源域图的过去p时段的交通流历史观测数据,/>表示源域图的未来q时段的交通流数据,/>表示源域图在t时刻的交通流特征矩阵;
S13.获取目标交通路网的目标域图其中,/>表示目标域图中所有目标域节点的集合,/>表示目标域图中所有边的集合,/>表示目标域图的邻接矩阵,/>表示目标域图的节点数量;定义目标交通路网的目标域数据集为:
其中,表示目标域图的时间序列样本的数量,/>表示目标域图的过去p时段的交通流历史观测数据,/>表示目标域图的未来q时段的交通流数据,/>表示目标域图在t时刻的交通流特征矩阵。
进一步的,所述时空图卷积网络包括两个时空图卷积模块,每一个时空图卷积模块包括时间注意力调整模块、第一时序卷积层、图卷积层和第二时序卷积层,第一时序卷积层与第二时序卷积的结构相同。
进一步的,第一时序卷积层包括内核宽度为Kt的1-D因果卷积,以及一个非线性的门控线性单元。
进一步的,每一个时空图卷积模块的处理过程,包括:
S21.采用时间注意力调整模块对输入数据进行数据权重动态调整,得到调整数据;
S22.将调整数据输入第一时序卷积层得到第一时序特征;
S23.第一时序特征通过图卷积层得到第一空间特征,
S24.将第一空间特征输入第二时序卷积层得到第二时序特征。
进一步的,步骤S21时间注意力调整模块对输入数据进行数据权重动态调整,其中数据权重的计算公式为:
其中,表示第r=1,2个时空图卷积模块的输入数据,/>表示在t+1时刻的交通流特征矩阵;Cr-1表示第r个时空图卷积模块的输入数据的通道数,Tr-1表示第r个时空图卷积模块的输入数据的长度,和/>是可学习的参数,N表示节点个数;σ为sigmoid激活函数,E表示时间注意力矩阵,Ei,j表示时间注意力矩阵第i行第j列的元素,E′表示归一化时间注意力矩阵,Ei′,j表示归一化时间注意力矩阵第i行第j列的元素;/>表示第r个时空图卷积模块中时间注意力调整模块的输出数据,/>表示经过注意力机制调整后t+1时刻的交通流特征矩阵。
进一步的,步骤S3通过域判别器模块度量源域时空特征表示和目标域时空特征表示的特征距离,并对时空图卷积网络进行对抗性域训练,包括:
S31.首先固定时空图卷积网络的参数,对域判别器模块中的域判别器进行训练,包括:
通过时空图卷积网络fg(·)学习源域和目标域的特征表示,并输入域判别器计算Wasserstein距离W1,计算如下:
其中,分别为源域和目标域的时空特征表示分布;Hg为来自任意域的特征表示,θw为可训练的参数,||fw||L≤1为Lipschitz约束,函数fw中的参数都满足1-Lipschitz;
通过最大化如下域判别器损失来近似估算Wasserstein距离:
其中,表示源域图中第i个节点的交通数据特征表示,表示目标域图中第j个节点的交通数据特征表示;
为了避免梯度爆炸或消失,给参数θw添加一个梯度惩罚强制执行Lipschitz约束,其表示为:
其中表示源域和目标域的特征表示对之间沿直线的随机点;
通过求解如下最大化问题来估计Wasserstein距离:
其中γ为梯度惩罚的平衡系数;
S32.域判别器完成训练后,固定域判别器的参数,对时空图卷积网络进行训练,使时空图卷积网络学习到域差异较小的特征表示。
本发明的有益效果:
本发明针对数据稀缺的交通路网的未来交通流预测问题,提出基于时空图卷积网络的迁移学习模型(Transfer Learning Base on Spatial-TemporalGraphConvolutional Networks,TL-STGCN),结合数据充足的源路网的交通流特征,辅助预测数据稀缺的目标路网未来交通流。首先,采用基于时间注意力的时空图卷积网络学习源路网和目标路网交通流数据的时空特征表示;其次,结合对抗性域适应方法,提取两个路网特征表示的域不变时空特征,并通过这些特征进行知识迁移;最后,利用迁移学习到的知识,对目标路网未来交通流做出预测。为了验证模型的有效性,在真实世界数据集上进行了实验,结果表明,对于数据稀缺的交通路网预测任务,TL-STGCN比现有基线模型具有更好的预测性能。
附图说明
图1为本发明基于时空图迁移学习的交通流预测方法的训练流程图;
图2为本发明TL-STGCN模型的结构示意图;
图3为本发明实施例不同算法在不同数据稀缺率下的平均绝对误差;
图4为本发明实施例不同源域训练集大小的平均绝对误差;
图5为本发明实施例不同目标域训练集大小的平均绝对误差。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于时空图迁移学习的交通流预测方法,该方法包括:构建并训练TL-STGCN模型,获取待处理交通流数据输入训练好的TL-STGCN模型,输出预测结果;所述TL-STGCN模型包括时空图卷积网络、域判别器模块和预测模块。
在一实施例中,所述TL-STGCN模型的训练过程如图1所示,包括以下步骤:
S1.获取源交通路网的源域图及其源域数据集,同时获取目标交通路网的目标域图及其目标域数据集。
具体地,交通流数据一般通过分布在交通路网上的多个传感器所获取。一般交通路网采用无向图G=(V,E,A)进行表示,其中,V表示节点的集合,每个节点代表交通路网中的一个传感器,且|V|=N表示无向图G中节点的个数;E为无向图G中节点间边的集合;是无向图G的邻接矩阵,表示无向图G中节点的连接情况。定义特征矩阵表示在t时刻无向图G的交通流信息,其中xt,i表示节点i在t时刻的特征值。
在本发明中,假设源域和目标域具有相同的特征空间,但特征的边缘分布不同,例如从不同城市收集到的交通流数据;此外,源域有丰富的交通数据,而目标域面临着交通数据稀缺的问题。本文旨在学习一个预测函数f(·),通过从源域迁移知识,以辅助预测目标域未来一段时间内的交通流信息。
基于上述分析,步骤S1具体包括:
S11.利用城市路网中的传感器,将交通流量大于预设交通流量阈值的区域作为源交通路网,将交通流量不大于预设交通流量阈值的区域作为目标交通路网;通过设置预设交通流量阈值来区分区域路网的交通流数据是否充足。
S12.获取源交通路网的源域图其中,Vs表示源域图中所有源域节点的集合,/>表示源域图中所有边的集合,/>表示源域图的邻接矩阵,/>表示源域图的节点数量;定义源交通路网的源域数据集为:
其中,表示源域图的时间序列样本的数量,/>表示源域图的过去p时段的交通流历史观测数据,/>表示源域图的未来q时段的交通流数据,/>表示源域图在t时刻的交通流特征矩阵;
S13.获取目标交通路网的目标域图其中,/>表示目标域图中所有目标域节点的集合,/>表示目标域图中所有边的集合,/>表示目标域图的邻接矩阵,/>表示目标域图的节点数量;定义目标交通路网的目标域数据集为:
其中,表示目标域图的时间序列样本的数量,/>表示目标域图的过去p时段的交通流历史观测数据,/>表示目标域图的未来q时段的交通流数据,/>表示目标域图在t时刻的交通流特征矩阵。
S2.将源域数据与目标域数据输入时空图卷积网络,得到源域时空特征表示和目标域时空特征表示。
具体地,如图2所示,所述时空图卷积网络包括两个时空图卷积模块,每一个时空图卷积模块包括时间注意力调整模块、第一时序卷积层、图卷积层和第二时序卷积层,第一时序卷积层与第二时序卷积的结构相同。
具体地,每一个时空图卷积模块的处理过程,包括:
S21.采用时间注意力调整模块对输入数据进行数据权重动态调整,得到调整数据。
具体地,在时间维度上,交通路网中不同时间段的交通状况之间存在相关性,不同情况下的相关程度也不同,例如,相邻时间段之间的交通状况关联更大。注意力机制能够寻找需要关注的信息并根据信息的重要程度进行加权,使模型对重要的信息给予更多的关注,以提升时间维度上的特征提取能力。因此,TL-STGCN模型中引入时间注意力调整模块自适应地对数据赋予不同的权重。
步骤S21时间注意力调整模块对输入数据进行数据权重动态调整,其中数据权重的计算公式为:
其中,表示第r=1,2个时空图卷积模块的输入数据,/>表示输入数据在t+1时刻的交通流特征矩阵;Cr-1表示第r个时空图卷积模块的输入数据的通道数,Tr-1表示第r个时空图卷积模块的输入数据的长度,和/>是可学习的参数,N表示节点个数;σ为sigmoid激活函数,E表示时间注意力矩阵,Ei,j表示时间注意力矩阵第i行第j列的元素,E′表示归一化时间注意力矩阵,E′i,j表示归一化时间注意力矩阵第i行第j列的元素;/>表示第r个时空图卷积模块中时间注意力调整模块的输出数据,/>表示输出数据在t+1时刻的交通流特征矩阵。
S22.将调整数据输入第一时序卷积层得到第一时序特征。
具体地,本发明提出的TL-STGCN模型在时间轴上采用Gated CNN的方式来捕捉时间特征,即设置两个采用Gated CNN结构的时序卷积层来进行时间特征的提取。其中,每一个时序卷积层均包括内核宽度为Kt的1-D因果卷积,以及一个非线性的门控线性单元。
具体地,每一个时序卷积层的数据处理过程包括:采用卷积核为的1-D因果卷积对输入数据进行时间卷积,并将时间卷积结果划分为P、Q两部分,采用sigmoid激活函数对Q进行激活,再将激活后的Q与P进行哈达玛积,最后将哈达玛积结果进行GLU激活得到第一时序特征。其中,Kt表示宽度,Ci表示通道。
其中,对源域图或目标域图中的每个节点的时间卷积输入元素可以看作是一个长度为p的序列,1-D因果卷积不加填充地搜索输入元素的Kt邻域,从而使序列长度每次缩短Kt-1。
S23.第一时序特征通过图卷积层得到第一空间特征。
具体地,所述图卷积层采用GCN网络构建而成,通常GCN网络中包括谱域卷积和空域卷积,为了充分利用交通路网的拓扑性质,本发明采用谱域卷积的方式处理空间特征。
无向图G的拉普拉斯矩阵定义为其中IN为单位矩阵,为对角矩阵,/>表示无向图G中第i个节点的度,A为无向图G的邻接矩阵。根据实对称矩阵正半定的性质,归一化的拉普拉斯矩阵可以分解为L=UΛUT,其中是特征值的对角矩阵,/>是特征向量矩阵。给定时间t的特征矩阵对于信号/>的傅里叶变换为/>其反傅里叶变换为/>则图卷积操作定义如下
其中,是卷积核,*G表示图卷积操作,/>为图信号/>的傅里叶变换。
为了解决计算代价太大的问题,本发明采用了切比雪夫多项式,表示如下
其中(λmax表示L的最大特征值),/>为切比雪夫多项式系数向量,切比雪夫多项式使用递归的方式进行定义:/> K-1为多项式的系数。
在上述公式的基础上引入一阶近似,假定K=1,通过堆积的多层图卷积网络建立K阶邻居的依赖,降低运算代价。假设λmax≈2,上述公式可以简化为
其中,θ0和θ1是卷积核的两个共享参数,通过对参数进行约束来避免过拟合。使θ=θ0=-θ1,因此本文中的图卷积表示为如下公式
S24.将第一空间特征输入第二时序卷积层得到第二时序特征。
具体地,时空图卷积网络的整体输出可表示为:
其中,fg(·)表示时空卷积网络,表示任意域的交通流数据,A为交通流数据/>所对应的邻接矩阵,Hg表示该交通流数据/>所对应的时空特征表示,θg表示时空图卷积网络中所有可训练参数。
S3.通过域判别器模块度量源域时空特征表示和目标域时空特征表示的特征距离,并对时空图卷积网络进行对抗性域训练。
具体地,源域时空特征表示和目标域时空特征表示的分布不同,用源域数据训练的模型不能够直接迁移到目标域,因此本发明采用对抗性域适应的方式减小域间差异,学习域不变的特征表示,以促进知识迁移。为此将上述的时空图卷积网络fg(·)作为特征提取器,在TL-STGCN模型中添加一个域判别器模块,将域判别器和特征提取器相结合,其中域判别器用来分辨学习到的特征表示来自源域还是目标域,通过对抗的方式训练域判别器和特征提取器以学习到更接近源域的特征表示。
假设给定来自任意域的特征表示Hg,其中通过时空图卷积网络fg(·)学习到源域和目标域的特征表示可以分别表示为和/>采用域判别器学习一个函数fw(Hg;θw),其中θw为可训练的参数,该函数将特征表示Hg从多维表示映射到实数。则源域和目标域之间的Wasserstein距离W1计算如下:
其中分别为源域和目标域的时空特征表示分布。||fw||L≤1为Lipschitz约束,函数fw中的参数都满足1-Lipschitz。接着,通过最大化如下域判别器损失来近似估算Wasserstein距离:
其中,表示源域图中第i个节点的交通数据特征表示,表示目标域图中第j个节点的交通数据特征表示。
为了避免梯度爆炸或消失,给参数θw添加一个梯度惩罚强制执行Lipschitz约束,其表示为:
其中表示源域和目标域的特征表示对之间沿直线的随机点,/>为李普希茨约束。
接着,通过求解如下最大化问题来估计Wasserstein距离:
其中γ为梯度惩罚的平衡系数。
在训练时首先将域判别器训练到最优,然后保持域判别器的参数不变,通过最小化Wasserstein距离的估值,使特征提取网络学习到域差异较小的特征表示。根据上述,域不变的特征表示学习通过解决如下最大最小问题实现:
上式通过迭代的方式学习具有较小域差异的特征表示,学习到域不变的特征表示。
S4.将源域时空特征表示和目标域时空特征表示输入预测模块获取源域预测值和目标域预测值,采用源域损失函数和目标域损失函数计算损失进行训练。
具体地,本发明的目标是学习域不变的和有鉴别性的特征表示,从而预测数据稀缺的目标域的未来交通流。因此TL-STGCN中设计一个预测模块,将源域和目标域的未来交通流数据整合到表示学习的过程中。
预测模块旨在训练一个神经网络模型fpre(·),给定任意域的特征表示Hg,通过fpre(Hg;θpre)得到该域的预测值,其中θpre为可训练的神经网络参数。
预测模块的输出为预测到的未来交通流数据,准确来说,得到的源域预测值也可表示为/>目标域预测值/>即为其中/>和/>分别为源域和目标域的时空特征表示。
预测模块采用平均平方误差损失函数进行性能评估,则源域和目标域的损失函数分别定义如下
其中,表示预测得到的t+k时刻的源域特征,/>表示预测得到的t+k时刻的目标域特征。
综上,本发明提出的TL-STGCN模型最终损失函数如下
其中λ为预测模块和特征表示学习之间的平衡系数。
在一实施例中,使用1小时(p=12)的历史观测时间来预测未来30分钟(q=6)的交通流。在实验中,模型的时空图卷积网络fg(·)由两层堆叠的时空图卷积模块组成。域判别器fw、预测模块fpre(·)分别由两个全连接层组成。系数γ和λ分别设定为10和1。域判别器的学习率α1、预测模块的学习率α2设置为0.0001,以每50个训练步0.8的速率衰减。批大小设置为64,迭代次数为500。为了验证本实施例提供方法的有效性,在真实世界数据集上进行了验证,采用平均绝对误差(Mean Absolute Error,MAE)函数、均方根误差(Root MeanSquareError,RMSE)函数以及平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)函数来评估算法的有效性。
为了验证所提出算法的性能,对比算法包括:
HA:使用目标域的历史流量平均值进行预测。
GRU:采用门控机制基于时间序列来捕获交通流的长期依赖性,在目标域数据集上执行GRU模型来预测交通流。
GCN:GCN模型能够提取空间特征来进行预测,在目标域数据集上执行GCN模型来预测交通流。
STGCN:将GCN和门控卷积结合,联合提取时空特征。只在目标域数据集上采用STGCN模型进行交通流预测。
S-only:在源域数据集上执行基于时间注意力机制的时空图卷积网络模型,并在目标域数据集上进行预测。
TL-STGCN-noTA:跟TL-STGCN相比,消除注意力机制通过在源域上学习到的特征,在目标域数据集上进行预测。
实验结果可知,在未来多个时间步内,对比现有的深度学习算法,本发明提出的算法在数据稀缺的交通路网预测任务中拥有更好的性能。对于没有迁移学习的方法来说,基于传统统计方法的HA模型性能最差,这是因为其直接采用历史平均值来进行预测,没有考虑交通路网数据中存在的复杂关系。GRU方法虽然能够提取交通流数据间的时间关系,但是忽略了其中的空间关系;GCN的方法能提取交通流的空间特征,但是没有对时间特征进行处理。STGCN模型能够同时捕获交通数据的时空特征,但是这种方法依赖于大量的历史观测数据来训练模型,因此,在数据稀缺的交通路网中预测性能仍不佳。对于结合了迁移学习的方法,S-only将本文的时空图卷积网络直接用于迁移学习任务,由于源域和目标域间特征表示分布的差异较大,因此在迁移学习任务中,该方法性能最差。TL-STGCN-noTA加入了本文的域适应模块,没有加入时间注意力机制,其预测精度较高,这是因为通过域适应的方式能减小域间特征表示的差异,从而更好地将源域中丰富的知识用于目标域中,说明了本发明域适应模块的有效性。TL-STGCN结合了时间注意力机制,能够更好地提取数据间的时间相关性,由上述可知,TL-STGCN模型对于数据稀缺的交通路网的预测问题,有更好的预测效果。
图3所示为不同算法在不同数据稀缺率下的MAE,从图中可以看出,三种模型的MAE、RMSE和MAPE曲线随着数据稀缺率的上升而上升,这说明历史观测数据质量越低,其预测性能越差。此外,在数据稀缺率不同的情况下,相较于STGCN,TL-STGCN的MAE、MAPE、RMSE分别平均下降了6.3%、3.6%、21.2%;和GCN相比,TL-STGCN的MAE、MAPE、RMSE分别平均降低了32.0%、8.7%、34.4%。
图4为不同源域训练集大小的MAE。从图中知,源域训练集越大,TL-STGCN的性能越好。这是因为随着源域训练集增大,可以从源域迁移更多域不变的知识。
图5为不同目标域训练集大小的MAE。图5中可以看出,目标训练集越大,TL-STGCN模型的性能就越好。这是因为随着目标域数据的增多,可以得到更多目标域数的时空特征,并将其整合到迁移学习过程中,更好地学习域不变的特征表示。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种基于时空图迁移学习的交通流预测方法,其特征在于,构建并训练TL-STGCN模型,获取待处理交通流数据输入训练好的TL-STGCN模型,输出预测结果;所述TL-STGCN模型包括时空图卷积网络、域判别器模块和预测模块;
所述TL-STGCN模型的训练过程包括以下步骤:
S1.获取源交通路网的源域图及其源域数据集,同时获取目标交通路网的目标域图及其目标域数据集;
S2.将源域数据与目标域数据输入时空图卷积网络,得到源域时空特征表示和目标域时空特征表示;
S3.通过域判别器模块度量源域时空特征表示和目标域时空特征表示的特征距离,并对时空图卷积网络进行对抗性域训练;
S4.将源域时空特征表示和目标域时空特征表示输入预测模块获取源域预测值和目标域预测值,采用源域损失函数和目标域损失函数计算损失进行训练。
2.根据权利要求1所述的一种基于时空图迁移学习的交通流预测方法,其特征在于,步骤S1具体包括:
S11.利用城市路网中的传感器,将交通流量大于预设交通流量阈值的区域作为源交通路网,将交通流量不大于预设交通流量阈值的区域作为目标交通路网;
S12.获取源交通路网的源域图其中,/>表示源域图中所有源域节点的集合,/>表示源域图中所有边的集合,/>表示源域图的邻接矩阵,/>表示源域图的节点数量;定义源交通路网的源域数据集为:
其中,表示源域图的时间序列样本的数量,/>表示源域图的过去p时段的交通流历史观测数据,/>表示源域图的未来q时段的交通流数据,/>表示源域图在t时刻的交通流特征矩阵;
S13.获取目标交通路网的目标域图其中,/>表示目标域图中所有目标域节点的集合,/>表示目标域图中所有边的集合,/>表示目标域图的邻接矩阵,/>表示目标域图的节点数量;定义目标交通路网的目标域数据集为:
其中,表示目标域图的时间序列样本的数量,/>表示目标域图的过去p时段的交通流历史观测数据,/>表示目标域图的未来q时段的交通流数据,/>表示目标域图在t时刻的交通流特征矩阵。
3.根据权利要求1所述的一种基于时空图迁移学习的交通流预测方法,其特征在于,所述时空图卷积网络包括两个时空图卷积模块,每一个时空图卷积模块包括时间注意力调整模块、第一时序卷积层、图卷积层和第二时序卷积层,第一时序卷积层与第二时序卷积的结构相同。
4.根据权利要求3所述的一种基于时空图迁移学习的交通流预测方法,其特征在于,第一时序卷积层包括内核宽度为Kt的1-D因果卷积,以及一个非线性的门控线性单元。
5.根据权利要求3所述的一种基于时空图迁移学习的交通流预测方法,其特征在于,每一个时空图卷积模块的处理过程,包括:
S21.采用时间注意力调整模块对输入数据进行数据权重动态调整,得到调整数据;
S22.将调整数据输入第一时序卷积层得到第一时序特征;
S23.第一时序特征通过图卷积层得到第一空间特征;
S24.将第一空间特征输入第二时序卷积层得到第二时序特征。
6.根据权利要求5所述的一种基于时空图迁移学习的交通流预测方法,其特征在于,步骤S21时间注意力调整模块对输入数据进行数据权重动态调整,其中数据权重的计算公式为:
其中,表示第r=1,2个时空图卷积模块的输入数据,表示在t+1时刻的交通流特征矩阵;Cr-1表示第r个时空图卷积模块的输入数据的通道数,Tr-1表示第r个时空图卷积模块的输入数据的长度,和/>是可学习的参数,N表示节点个数;σ为sigmoid激活函数,E表示时间注意力矩阵,Ei,j表示时间注意力矩阵第i行第j列的元素,E′表示归一化时间注意力矩阵,E′i,j表示归一化时间注意力矩阵第i行第j列的元素;/>表示第r个时空图卷积模块中时间注意力调整模块的输出数据,/>表示经过注意力机制调整后t+1时刻的交通流特征矩阵。
7.根据权利要求1所述的一种基于时空图迁移学习的交通流预测方法,其特征在于,步骤S3通过域判别器模块度量源域时空特征表示和目标域时空特征表示的特征距离,并对时空图卷积网络进行对抗性域训练,包括:
S31.首先固定时空图卷积网络的参数,对域判别器模块中的域判别器进行训练,包括:
通过时空图卷积网络fg(·)学习源域和目标域的特征表示,并输入域判别器计算Wasserstein距离W1,计算如下:
其中,分别为源域和目标域的时空特征表示分布;Hg为来自任意域的特征表示,θw为可训练的参数,||fw||L≤1为Lipschitz约束,函数fw中的参数都满足1-Lipschitz;
通过最大化如下域判别器损失来近似估算Wasserstein距离:
其中,表示源域图中第i个节点的交通数据特征表示,表示目标域图中第j个节点的交通数据特征表示;
给参数θw添加一个梯度惩罚强制执行Lipschitz约束,其表示为:
其中表示源域和目标域的特征表示对之间沿直线的随机点;
通过求解如下最大化问题来估计Wasserstein距离:
其中γ为梯度惩罚的平衡系数;
S32.域判别器完成训练后,固定域判别器的参数,对时空图卷积网络进行训练,使时空图卷积网络学习到域差异较小的特征表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311061841.9A CN116959258A (zh) | 2023-08-22 | 2023-08-22 | 一种基于时空图迁移学习的交通流预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311061841.9A CN116959258A (zh) | 2023-08-22 | 2023-08-22 | 一种基于时空图迁移学习的交通流预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116959258A true CN116959258A (zh) | 2023-10-27 |
Family
ID=88449342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311061841.9A Pending CN116959258A (zh) | 2023-08-22 | 2023-08-22 | 一种基于时空图迁移学习的交通流预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959258A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010009510A (ja) * | 2008-06-30 | 2010-01-14 | Univ Waseda | 局所交通量予測プログラム生成装置、局所交通量予測装置、局所交通量予測プログラム生成方法、局所交通量予測方法及びプログラム |
US20140114556A1 (en) * | 2012-10-23 | 2014-04-24 | University Of Southern California | Traffic prediction using real-world transportation data |
CN110148296A (zh) * | 2019-04-16 | 2019-08-20 | 南京航空航天大学 | 一种基于深度迁移学习的跨城市交通流量联合预测方法 |
CN113128783A (zh) * | 2021-05-06 | 2021-07-16 | 大连理工大学 | 一种基于图迁移学习的交通预测方法 |
CN115034478A (zh) * | 2022-06-14 | 2022-09-09 | 西南交通大学 | 一种基于领域自适应与知识迁移的交通流量预测方法 |
CN115985102A (zh) * | 2023-02-15 | 2023-04-18 | 湖南大学深圳研究院 | 一种基于迁移对比学习的城市交通流量预测方法和设备 |
CN116206453A (zh) * | 2023-05-05 | 2023-06-02 | 湖南工商大学 | 一种基于迁移学习的交通流预测方法、装置及相关设备 |
-
2023
- 2023-08-22 CN CN202311061841.9A patent/CN116959258A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010009510A (ja) * | 2008-06-30 | 2010-01-14 | Univ Waseda | 局所交通量予測プログラム生成装置、局所交通量予測装置、局所交通量予測プログラム生成方法、局所交通量予測方法及びプログラム |
US20140114556A1 (en) * | 2012-10-23 | 2014-04-24 | University Of Southern California | Traffic prediction using real-world transportation data |
CN110148296A (zh) * | 2019-04-16 | 2019-08-20 | 南京航空航天大学 | 一种基于深度迁移学习的跨城市交通流量联合预测方法 |
CN113128783A (zh) * | 2021-05-06 | 2021-07-16 | 大连理工大学 | 一种基于图迁移学习的交通预测方法 |
CN115034478A (zh) * | 2022-06-14 | 2022-09-09 | 西南交通大学 | 一种基于领域自适应与知识迁移的交通流量预测方法 |
CN115985102A (zh) * | 2023-02-15 | 2023-04-18 | 湖南大学深圳研究院 | 一种基于迁移对比学习的城市交通流量预测方法和设备 |
CN116206453A (zh) * | 2023-05-05 | 2023-06-02 | 湖南工商大学 | 一种基于迁移学习的交通流预测方法、装置及相关设备 |
Non-Patent Citations (1)
Title |
---|
姚俊峰 等: "基于机器学习的交通流预测方法综述", 《交通运输工程学报》, vol. 23, no. 3, 30 June 2023 (2023-06-30), pages 44 - 67 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110827544B (zh) | 一种基于图卷积循环神经网络的短时交通流控制方法 | |
CN112801404B (zh) | 一种基于自适应空间自注意力图卷积的交通预测方法 | |
CN110675623B (zh) | 基于混合深度学习的短时交通流量预测方法、系统、装置 | |
Huang et al. | LSGCN: Long short-term traffic prediction with graph convolutional networks. | |
CN112241814B (zh) | 一种基于强化时空图神经网络的交通预测方法 | |
CN109492822B (zh) | 空气污染物浓度时空域关联预测方法 | |
CN111223301B (zh) | 一种基于图注意力卷积网络的交通流量预测方法 | |
CN113313947B (zh) | 短期交通预测图卷积网络的路况评估方法 | |
CN110570035B (zh) | 同时建模时空依赖性和每日流量相关性的人流量预测系统 | |
CN109741364B (zh) | 目标跟踪方法及装置 | |
CN112949828A (zh) | 一种基于图学习的图卷积神经网络交通预测方法及系统 | |
CN114944053B (zh) | 一种基于时空超图神经网络的交通流预测方法 | |
Mythili et al. | Crop recommendation for better crop yield for precision agriculture using ant colony optimization with deep learning method | |
CN115206092B (zh) | 一种基于注意力机制的BiLSTM和LightGBM模型的交通预测方法 | |
CN113128783A (zh) | 一种基于图迁移学习的交通预测方法 | |
CN113988263A (zh) | 工业物联网边缘设备中基于知识蒸馏的空时预测方法 | |
CN113887704A (zh) | 交通信息预测方法、装置、设备及存储介质 | |
CN115862319A (zh) | 一种面向时空图自编码器的交通流量预测方法 | |
CN115759461A (zh) | 一种面向物联网的多元时间序列预测方法及系统 | |
CN114596726B (zh) | 基于可解释时空注意力机制的停车泊位预测方法 | |
CN116844041A (zh) | 一种基于双向卷积时间自注意力机制的耕地提取方法 | |
CN115755219A (zh) | 基于stgcn的洪水预报误差实时校正方法及系统 | |
Huang et al. | ODformer: spatial–temporal transformers for long sequence Origin–Destination matrix forecasting against cross application scenario | |
CN115376317A (zh) | 一种基于动态图卷积和时序卷积网络的交通流预测方法 | |
Cirstea et al. | Towards Spatio-Temporal Aware Traffic Time Series Forecasting--Full Version |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |