CN113128783A - 一种基于图迁移学习的交通预测方法 - Google Patents

一种基于图迁移学习的交通预测方法 Download PDF

Info

Publication number
CN113128783A
CN113128783A CN202110490225.XA CN202110490225A CN113128783A CN 113128783 A CN113128783 A CN 113128783A CN 202110490225 A CN202110490225 A CN 202110490225A CN 113128783 A CN113128783 A CN 113128783A
Authority
CN
China
Prior art keywords
time
node
traffic
spatial
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110490225.XA
Other languages
English (en)
Inventor
申彦明
李非凡
齐恒
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202110490225.XA priority Critical patent/CN113128783A/zh
Publication of CN113128783A publication Critical patent/CN113128783A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于计算机数据分析领域,提供了一种基于图迁移学习的交通预测方法,能够从训练样本充足的源域上高效地迁移知识到训练样本不足的目标域上,并提高基于图卷积神经网络的交通预测模型在小样本情形下的预测性能。本发明的方法可以帮助提高基于图数据的交通预测模型在小样本情形下的预测准确度。本发明的方法通过引入空间聚类和时间聚类正则项,将时空模式匹配与预测准确度进行权衡,以数据驱动的方式完成目标域与源域中节点时空模式相似性的匹配,从而达到减小负迁移的效果,并大幅减少了以往方法在时空模式匹配过程中的计算开销。

Description

一种基于图迁移学习的交通预测方法
技术领域
本发明属于计算机数据分析领域,尤其涉及跨领域迁移特定的时间和空间知识的方法。
背景技术
交通预测对于城市交通的管理十分重要,它能够帮助交通管理部门预知城市道路的机动车流量、行驶速度和占有率,并进行实时疏导,以减少城市道路拥堵的发生。近年来,深度学习方法在交通预测领域得到了广泛的应用,并且相较于传统时序预测模型来说大幅提高了预测的准确度。目前,基于深度学习的交通预测模型主要从两方面对问题进行建模,即时间依赖和空间依赖。对于时间依赖的捕捉主要使用循环神经网络(RNN)或时间卷积网络(TCN),而空间依赖的捕捉主要使用卷积神经网络(CNN)或图卷积神经网络(GCN),其中卷积神经网络适用于在规则的网格数据上进行空间依赖的捕捉,而图卷积神经网络适用于在图数据上进行空间依赖的捕捉。路网的本质属性是图,利用图而非网格来对路网进行建模更加合理。近年来随着图神经网络技术的发展,越来越多的交通预测模型都基于图卷积神经网络而非卷积神经网络进行空间依赖的捕捉,并且取得了最优异的预测效果。然而,在以往的工作中存在以下问题:第一,对基于深度学习的预测模型进行训练时,需要使用大量的历史交通数据,但是在实现应用中,我们往往面临着数据短缺的问题,这使得这些基于深度的模型的训练变得困难。第二,目前提高小样本情形下交通预测准确度的方法主要是基于迁移学习,而现有交通预测的迁移学习方法主要是适用于规则的网格型交通数据,并不适用交通网络的图数据。对于图数据来说,由于路网在不同区域之间的结构和规模不同,很难在源域(数据丰富)中找到相似的区域来匹配目标域(数据稀缺),从而提高迁移性能。因此,一种能够提高基于图卷积神经网络的交通预测模型在小样本情形下预测准确度的方法是当前待攻克的技术难关,也是本发明的发明动机。接下来详细介绍这一领域中相关的背景技术。
(1)交通预测
为了提高交通预测的准确性,人们做了大量的工作。一些早期的研究应用经典统计和机器学习方法,如历史平均值(HA),差分整合移动平均自回归模型(ARIMA)和支持向量机模型(SVM)等来预测未来的交通状况。近年来,基于深度学习的模型在交通预测方面表现出了卓越的能力。基于深度学习的交通预测模型通常使用卷积神经网络(CNN)或图卷积神经网络(GCN)来捕获空间依赖,使用循环神经网络(RNN)或时间卷积网络(TCN)来建模非线性时间依赖。在最新的研究中,研究者将几种基本模块进行组合,并结合不同类型的技术,对复杂动态的时空关联进行联合建模,取得了最先进的交通预测性能,代表性的工作有:ST-ResNet模型,DCRNN模型,GraphWave Net模型以及AGCRN模型等。但这些工作的不足在于对模型的训练需要使用大量的历史交通数据,当用于训练的数据不足时,模型的预测性能很差。
(2)迁移学习
迁移学习的目的是通过迁移从不同但相关的源域中学习到的知识来提高预测模型在目标领域的性能,它是解决小样本学习问题的常用方法。Wei等人提出将从数据丰富的源城市学习到的语义相关词典转移到目标城市,丰富目标城市的特征表示,然后对目标城市进行空气质量分类预测。Lin等人通过各种人工挑选的空间和时间特征,设计了一种基于特征的交通速度预测迁移学习模型,并提高了模型的可解释性。但是,这两种方法都不是为深度学习而设计的,需要更多的先验知识作为指导。Wang等人通过考虑城市间相似区域对的潜在表示,将知识从源城市转移到目标城市。Zhang等人设计了一种基于模型的深度迁移学习框架,利用不同类型的区域交通流量数据的时空相似性来提高预测精度。Yao等人利用多源域的思想,从多个相关但不同的领域转移知识,从而获得覆盖目标领域的更全面的知识,降低负迁移的风险。然而,这些方法主要是通过将路网分解为网格来建立空间关联模型。实际上,道路网络本质上是图结构的,为了更有效地捕捉空间信息,将道路网络表示为图更为合适。目前基于图数据的交通预测模型的迁移学习方法还亟待研究。
发明内容
本发明为了解决现有基于图卷积神经网络的交通预测方法在小样本情形下预测准确度不高的技术难题,设计了一种基于节点时空模式聚类的交通知识迁移方法,它能够从训练样本充足的源域上高效地迁移知识到训练样本不足的目标域上,并提高基于图卷积神经网络的交通预测模型在小样本情形下的预测性能。
一种基于图迁移学习的交通预测方法,步骤如下:
(1)在数据丰富的源域中学习交通时空模式知识:
①模型输入:
利用路网中不同位置的多个传感器,记录过去一段时间内每一个观测点的交通情况,记t时刻记录值为
Figure BDA0003052132040000031
C为交通特征数量(如:车流量、车速和道路占有率等)。数据清洗后(去掉异常值,填补空缺值),基于滑动窗口的方法,对交通数据进行预处理。假设需要预测t时刻之后H个时间步内的交通状态
Figure BDA0003052132040000032
那么对应需要的模型输入为过去S个时间步内交通流量记录值
Figure BDA0003052132040000033
其中N为传感器数量。
②模型架构:
基于图卷积网络(GCN)和时间卷积网络(TCN)进行空间和时间依赖关系的捕捉,并基于聚类算法获取交通时空模式,如图一所示。
传统的图卷积网络对所有节点进行特征提取时,使用的卷积核参数是相同的,它提取的是所有节点共有空间依赖模式,可以用公式(1)描述:
Figure BDA0003052132040000034
其中
Figure BDA0003052132040000035
为卷积层的输出和输入,F、C为输出和输入交通特征维度,
Figure BDA0003052132040000036
为单位矩阵,
Figure BDA0003052132040000037
为图的邻接矩阵,
Figure BDA0003052132040000038
为图的度矩阵,
Figure BDA0003052132040000039
为卷积核参数。为了学习每一个节点特有的空间依赖模式,我们需要对每个节点使用一个单独的卷积核,这样最终需要的卷积核参数为
Figure BDA00030521320400000310
一方面,当节点数较多时,W′的参数量将变得巨大,这给优化带来了困难,容易造成模型过拟合问题;另一方面,此时每个节点的卷积核参数是独立的,它没有考虑到节点之间隐含的关联性(例如:空间依赖关系相似的节点的卷积核参数相似)。受相关工作的启发,可以基于矩阵分解将图卷积网络的卷积核参数W分解为两个参数量较少的矩阵的乘积形式,这个过程可以用公式(2)描述:
Figure BDA0003052132040000041
其中
Figure BDA0003052132040000042
为节点空间嵌入矩阵,它的第i行Ei表示第i个节点在子空间的嵌入表示。
Figure BDA0003052132040000043
为空间参数池矩阵,它的第i行Pi为构成卷积核参数的第i个分量。D为嵌入的子空间维度,且D<<N。从节点i的角度来看,它拥有一个空间嵌入向量
Figure BDA0003052132040000044
利用这个空间嵌入向量可以从空间参数池矩阵
Figure BDA0003052132040000045
中获得一个关于空间参数池矩阵行向量的线性组合:
Figure BDA0003052132040000046
经过形状调整后得到节点i特有的卷积核参数
Figure BDA0003052132040000047
从以上的分析可以看出:一方面,需要学习的参数数量从N×C×F减少到了D×(N+C×F),这在D<<N的条件约束下显著降低了模型优化的难度;另一方面,节点间的卷积参数通过参数池矩阵建立起了关联性,进而建立了节点之间的关联性。通过堆叠多层图卷积神经网络,我们可以考虑到更远距离的邻居信息。对于输入
Figure BDA0003052132040000048
我们在每个时间步均利用上述改进的图卷积神经网络进行空间依赖的捕捉。
为了捕捉节点特有的时间模式,我们在时间卷积网络(TCN)的基础上设计了一种门控机制来提取每个节点特有的时间模式。一维的膨胀因果卷积操作可以用公式(3)来描述:
Figure BDA0003052132040000049
其中
Figure BDA00030521320400000410
是一维输入序列,
Figure BDA00030521320400000411
是一个卷积核,Kl为卷积核的长度,df为膨胀系数。对于高维输入
Figure BDA00030521320400000412
带有门控机制的膨胀因果卷积操作可以用公式(4)描述:
Figure BDA00030521320400000413
其中ΘT,bT为卷积参数,
Figure BDA00030521320400000414
为门控矩阵,φ(·),σ(·)分别为tanh和sigmoid激活函数,
Figure BDA00030521320400000415
为输出,⊙为哈达玛积(Hadamard product)。同样的,一方面,门控矩阵M的参数量与节点数呈正相关,节点数较多时,门控矩阵M的优化变得困难;另一方面,直接使用M矩阵忽略了节点之间隐含的关联性。基于矩阵分解,我们将M矩阵分解为两个参数量较少的矩阵的乘积,这样,公式(4)可以改写为公式(5):
Figure BDA0003052132040000051
其中
Figure BDA0003052132040000052
为节点时间嵌入矩阵,
Figure BDA0003052132040000053
为时间参数池矩阵,D′为嵌入子空间的维度,且D′<<N。通过堆叠多个时间卷积层,我们可以捕获更长期的时间依赖关系。
最后,根据前面图卷积层和时间卷积层提取的特征,使用一个卷积层来生成最终交通预测值,这个过程可以用公式(6)描述:
Figure BDA0003052132040000054
其中Wp,bp为卷积层的参数。
基于矩阵分解的方法,我们可以学习到每个节点特有的时间和空间模式。然而,所有节点的时间和空间模式并不是完全不同的,它们之间存在一些相似性,我们在上述方法的基础上,再利用聚类算法进行时间模式和空间模式的聚类。
③模型训练方法:
a)假定模型训练轮次为M,一共有K类空间模式,Q类时间模式,平滑系数为γ和θ。我们随机选取Ei(i=1,2,...,N)中的K个点作为空间模式的初始中心
Figure BDA0003052132040000055
k∈{1,2,...,K},随机选取Ri(i=1,2,...,N)中的Q个点作为时间模式的初始中心
Figure BDA0003052132040000056
q∈{1,2,...,Q};
b)For e=1,2,...,Mdo:
1.对于源域中的输入
Figure BDA0003052132040000057
利用上述模型得到对应的输出预测值
Figure BDA0003052132040000058
并计算预测损失函数:
Figure BDA0003052132040000059
2.为每个节点的嵌入向量分配空间和时间类别:
Figure BDA00030521320400000510
Figure BDA0003052132040000061
3.计算空间聚类和时间聚类损失:
Figure BDA0003052132040000062
Figure BDA0003052132040000063
4.计算每个类别的中心向量:
Figure BDA0003052132040000064
Figure BDA0003052132040000065
其中Ik,Iq分别表示属于第k个空间类别和第q个时间类别的节点集合。
5.平滑更新类别中心向量:
Figure BDA0003052132040000066
Figure BDA0003052132040000067
6.根据损失函数L=Lp+α·Ls+β·Lt,计算模型参数的梯度,更新模型参数Θ={E,P,R,U,ΘT,bT,Wp,bp},其中α,β为超参数;
(1)将知识迁移到数据稀缺的目标域并进行模型微调:
不同城市或区域的交通网络存在差异,这主要体现在交通网络的规模和连接方式。然而,不同城市或区域的交通网络虽然不同,但是从网络中某一节点的角度来看,它们的空间模式和时间模式是存在相似性的。比如:A城市中火车站周围的节点流量总是与汽车站周围的节点流量产生正比关系,B城市中火车站与客运站周围的节点流量也有相似的空间模式;A城市中某学校周围的节点总是在每天的8点和17点迎来车流量高峰,B城市中某学校周围的节点也有相似的时间模式。
图神经网络提取节点特征的本质就是使用某一节点的邻居节点的表示(有时也包含自身的节点表示)进行聚合并通过某种组合方式产生出此节点的新表示。通常我们会堆叠多个图神经网络层来获得更远距离邻居的信息,在第l个图神经网络层,这个过程可以用公式(7)和(8)表示:
Figure BDA0003052132040000071
Figure BDA0003052132040000072
其中
Figure BDA0003052132040000073
表示节点v的邻居节点集合,
Figure BDA0003052132040000074
分别表示节点u在第l-1个和第l个图神经网络层的特征,
Figure BDA0003052132040000075
表示在第l个图神经网络层对节点v的邻居节点进行聚合后得到的特征,AGGREGATE(l){·}和COMBINE(l){·}分别表示第l个图神经网络层的聚合和组合操作。对于图卷积神经网络(GCN)来说,这个过程可以用公式(9)和(10)表示:
Figure BDA0003052132040000076
Figure BDA0003052132040000077
可以看出,对于图卷积神经网络中的某个节点来说,它聚合周围邻居节点特征的方式是固定的,即取均值。而它组合生成新特征的方式是通过一个线性变换W(l)和一个非线性变换ReLU(·)得到的,这里的W(l)等价于公式(1)中的W。因此,对于图卷积神经网络来说,空间知识就包含在W中,我们需要迁移的空间知识就是W。在上一部分我们提到,改进的图卷积神经网络模型在不大幅增加计算开销的前提下,基于矩阵分解的方法,为每一个节点i学习一个特有的卷积核参数Wi,以捕捉每个节点特有的空间依赖模式,提高预测的准确度。为了迁移空间依赖知识,根据前面的分析,最简单的方式是直接迁移卷积核参数Wi。然而,这种方法面临着两个主要问题:第一,如何匹配源域与目标域中的节点,使得空间依赖关系相似的节点使用相似的卷积核参数。目前解决匹配问题的方法主要是使用历史时间序列数据的相似性(关联性)来进行匹配,例如RegionTrans方法中,它基于目标域和源域的历史时序数据,为目标域中的每个区域在源域中寻找最相似的区域,并利用源域中区域的时空特征帮助目标域中区域的时空特征的学习。这些方法存在的问题是,它们只基于历史时间序列来进行两个区域时空相似性的计算,忽略了空间信息的利用。第二,为目标域中的节点一对一匹配源域中的节点的计算开销是巨大的,特别是当节点数比较多的时候。分析Wi的组成,可以发现它是多个卷积核的线性组合:
Figure BDA0003052132040000078
Figure BDA0003052132040000079
因此,我们没必要直接迁移Wi,只需要迁移构成它的多个卷积核即可。这样,在目标域上需要学习的仅是节点的嵌入向量,这在数据稀缺情形下比直接学习卷积核的难度小很多。在源域中,我们对节点的嵌入向量进行了聚类,这样可以获得几类主要的空间模式,并得到了这几类空间模式的编码向量μk,k={1,2,...,K}。在目标域上,我们可以使用μk来指导节点空间嵌入向量的学习。在目标域上我们优化的空间聚类目标函数可以用公式(11)来描述:
Figure BDA0003052132040000081
对于时间模式来说,我们基于矩阵分解的方式,为每个节点学习特有的时间模式。在迁移的过程中,同样的,我们只需要迁移时间参数池矩阵U,利用源域中学习到的时间模式编码向量πq,q={1,2,...,Q}来指导节点时间嵌入向量的学习。在目标域上我们优化的时间聚类目标函数可以用公式(12)来描述:
Figure BDA0003052132040000082
最终,我们在目标域上利用少量的交通时序数据对模型进行微调。整个迁移过程和微调方法如下:
a)利用在源域中学习好的模型参数{P,U,ΘT,bT,Wp,bp}来初始化目标域上的模型参数{P′,U′,Θ′T,b′T,W′p,b′p},随机初始化{E′,R′},源域中学习到的空间和时间模式类别中心编码为μk(k=1,2,...,K),πq(q=1,2,...,Q),设微调轮次为M′;
b)For e=1,2,...,M′do:
1)对于目标域上的输入
Figure BDA0003052132040000083
利用模型得到对应的输出预测值
Figure BDA0003052132040000084
并计算预测损失函数:
Figure BDA0003052132040000085
2)为目标域中每个节点的嵌入向量分配空间和时间类别:
Figure BDA0003052132040000086
Figure BDA0003052132040000087
3)计算目标域上的空间聚类和时间聚类损失函数:
Figure BDA0003052132040000091
Figure BDA0003052132040000092
4)根据损失函数L′=L′p+α′·L′s+β′·L′t,计算模型参数的梯度,固定{P′,U′},利用梯度更新其余参数{E′,R′,Θ′T,b′T,W′p,b′p}。
本发明的有益效果:
(1)基于图交通数据的知识迁移
目前最先进的交通预测模型均是基于图数据,然而大多数交通迁移预测方法都是基于规则的网格交通数据。本专利提出了一种基于图交通数据的知识迁移方法,它可以帮助提高基于图数据的交通预测模型在小样本情形下的预测准确度。具体来说,在参数矩阵分解的基础上,通过在图节点嵌入子空间中引入聚类算法,从数据丰富的源域中学习出多个空间模式和时间模式的表示,并利用这些模式信息,来帮助提高模型在数据稀缺的数据域上的预测准确度。
(2)数据驱动的时空模式匹配
不同于目前大部分交通迁移预测算法需要显示地引入人工定义的相似性来进行目标域与源域中相似时空模式的匹配,本专利通过引入空间聚类和时间聚类正则项(Ls,Lt,L′s,L′t),将时空模式匹配与预测准确度进行权衡,以数据驱动的方式完成目标域与源域中节点时空模式相似性的匹配,从而达到减小负迁移的效果,并大幅减少了以往方法在时空模式匹配过程中的计算开销。
附图说明
图1是时空模式学习与预测模型架构。
图2是消融实验。
具体实施方式
下面结合具体实施方式对本发明作进一步详细说明,但本发明并不局限于具体实施方式。
一种基于图卷积神经网络的交通迁移预测方法,包括在数据丰富域上进行预训练获取知识和迁移知识到数据稀缺域并微调两部分:
1、在数据丰富的域上训练网络模型,获取空间模式和时间模式信息,操作步骤如下:
a)假定模型训练轮次为M,一共有K类空间模式,Q类时间模式,平滑系数为γ和θ。我们随机选取Ei(i=1,2,...,N)中的K个点作为空间模式的初始中心
Figure BDA0003052132040000101
k∈{1,2,...,K},随机选取Ri(i=1,2,...,N)中的Q个点作为时间模式的初始中心
Figure BDA0003052132040000102
q∈{1,2,...,Q};
b)For e=1,2,...,Mdo:
1.对于源域中的输入
Figure BDA0003052132040000103
利用上述模型得到对应的输出预测值
Figure BDA0003052132040000104
并计算预测损失函数:
Figure BDA0003052132040000105
2.为每个节点的嵌入向量分配空间和时间类别:
Figure BDA0003052132040000106
Figure BDA0003052132040000107
3.计算空间聚类和时间聚类损失:
Figure BDA0003052132040000108
Figure BDA0003052132040000109
4.计算每个类别的中心向量:
Figure BDA00030521320400001010
Figure BDA00030521320400001011
5.平滑更新类别中心向量:
Figure BDA00030521320400001012
Figure BDA00030521320400001013
6.根据损失函数L=Lp+α·Ls+β·Lt,计算模型参数的梯度,更新模型参数Θ={E,P,R,U,ΘT,bT,Wp,bp}。
c)得到训练好的模型参数Θ={E,P,R,U,ΘT,bT,Wp,bp}和空间模式类别信息μk(k=1,2,...,K),时间模式类别信息πq(q=1,2,...,Q)。
2、将迁移知识到数据稀缺的域上,并微调模型,具体操作步骤如下:
a)利用在源域中学习好的模型参数{P,U,ΘT,bT,Wp,bp}来初始化目标域上的模型参数{P′,U′,Θ′T,b′T,W′p,b′p},随机初始化{E′,R′},源域中学习到的空间和时间模式类别中心编码为μk(k=1,2,...,K),πq(q=1,2,...,Q),设微调轮次为M′;
b)For e=1,2,...,M′do:
1)对于目标域上的输入
Figure BDA0003052132040000111
利用模型得到对应的输出预测值
Figure BDA0003052132040000112
并计算预测损失函数:
Figure BDA0003052132040000113
2)为目标域中每个节点的嵌入向量分配空间和时间类别:
Figure BDA0003052132040000114
Figure BDA0003052132040000115
3)计算目标域上的空间聚类和时间聚类损失函数:
Figure BDA0003052132040000116
Figure BDA0003052132040000117
4)根据损失函数L′=L′p+α′·L′s+β′·L′t,计算模型参数的梯度,固定{P′,U′},利用梯度更新其余参数{E′,R′,Θ′T,b′T,W′p,b′p}。
c)得到微调好的模型参数Θ′={E′,P′,R′,U′,Θ′T,b′T,W′p,b′p},利用其在目标域上进行交通时序数据的预测。
图1是时空模式学习与预测模型架构。输入数据为历史交通时序数据和交通网络结构数据,通过图卷积神经网络来捕捉空间依赖,并对节点的空间嵌入矩阵进行聚类,获得空间模式。通过时间卷积网络捕捉时间依赖,并对节点的时间嵌入向量进行聚类,获得时间模式。最后,利用卷积神经网络,根据提取的时空特征,生成最终的交通时序数据预测结果。
图2是消融实验。利用美国加州高速公路数据集PEMS4和PEMS8进行实验,其中目标域只包含一天的交通时序数据。NodeTrans为本专利提出的迁移空间模式和时间模式的方法,NodeTrans-NS为不引入空间模式迁移,NodeTrans-NT为不引入时间模式迁移,NodeTrans-NST为不引入空间和时间模式迁移。可以看出同时迁移空间和时间模式是最有效的,单独迁移空间模式或时间模式也能带来预测性能的提升。

Claims (1)

1.一种基于图迁移学习的交通预测方法,其特征在于,步骤如下:
(1)在数据丰富的源域中学习交通时空模式
①模型输入:
利用路网中不同位置的多个传感器,记录过去一段时间内每一个观测点的交通情况,记t时刻记录值为
Figure FDA0003052132030000011
其中C为交通特征数量;数据清洗后,基于滑动窗口的方法,对交通数据进行预处理;假设需要预测t时刻之后H个时间步内的交通状态
Figure FDA0003052132030000012
那么对应需要的模型输入为过去S个时间步内交通流量记录值
Figure FDA0003052132030000013
Figure FDA0003052132030000014
其中,N为传感器数量;
②模型架构:
基于图卷积网络和时间卷积网络进行空间和时间依赖关系的捕捉,并基于聚类算法获取交通时空模式;
传统的图卷积网络对所有节点进行特征提取时,使用的卷积核参数是相同的,它提取的是所有节点共有空间依赖模式,用公式(1)描述:
Figure FDA0003052132030000015
其中,
Figure FDA0003052132030000016
为卷积层的输出和输入,F、C为输出和输入交通特征数量,
Figure FDA0003052132030000017
为单位矩阵,
Figure FDA0003052132030000018
为图的邻接矩阵,
Figure FDA0003052132030000019
为图的度矩阵,
Figure FDA00030521320300000110
为卷积核参数;为了学习每一个节点特有的空间依赖模式,需要对每个节点使用一个单独的卷积核,最终需要的卷积核参数为
Figure FDA00030521320300000111
基于矩阵分解将图卷积网络的卷积核参数W分解为两个参数量较少的矩阵的乘积形式,这个过程用公式(2)描述:
Figure FDA00030521320300000112
其中,
Figure FDA00030521320300000113
为节点空间嵌入矩阵,它的第i行Ei表示第i个节点在子空间的嵌入表示;
Figure FDA00030521320300000114
为空间参数池矩阵,它的第i行Pi为构成卷积核参数的第i个分量;D为嵌入的子空间维度,且D<<N;从节点i的角度来看,它拥有一个空间嵌入向量
Figure FDA00030521320300000115
利用这个空间嵌入向量从空间参数池矩阵
Figure FDA00030521320300000116
中获得一个关于空间参数池矩阵行向量的线性组合:
Figure FDA00030521320300000117
经过形状调整后得到节点i特有的卷积核参数
Figure FDA00030521320300000118
通过堆叠多层图卷积神经网络,考虑到更远距离的邻居信息;对于输入
Figure FDA0003052132030000021
在每个时间步均利用上述改进的图卷积神经网络进行空间依赖的捕捉;
为了捕捉节点特有的时间模式,在时间卷积网络的基础上设计了一种门控机制来提取每个节点特有的时间模式;一维的膨胀因果卷积操作用公式(3)来描述:
Figure FDA0003052132030000022
其中,
Figure FDA0003052132030000023
是一维输入序列,
Figure FDA0003052132030000024
是一个卷积核,Kl为卷积核的长度,df为膨胀系数;对于高维输入
Figure FDA0003052132030000025
带有门控机制的膨胀因果卷积操作用公式(4)描述:
Figure FDA0003052132030000026
其中,ΘT,bT为卷积参数,
Figure FDA0003052132030000027
为门控矩阵,φ(·),σ(·)分别为tanh和sigmoid激活函数,
Figure FDA0003052132030000028
为输出,⊙为哈达玛积;基于矩阵分解,将M矩阵分解为两个参数量较少的矩阵的乘积,这样,公式(4)改写为公式(5):
Figure FDA0003052132030000029
其中,
Figure FDA00030521320300000210
为节点时间嵌入矩阵,
Figure FDA00030521320300000211
为时间参数池矩阵,D′为嵌入子空间的维度,且D′<<N;通过堆叠多个时间卷积层,捕获更长期的时间依赖关系;
最后,根据前面图卷积层和时间卷积层提取的特征,使用一个卷积层来生成最终交通预测值,这个过程用公式(6)描述:
Figure FDA00030521320300000212
其中,Wp,bp为卷积层的参数;
基于矩阵分解的方法,学习到每个节点特有的时间和空间模式;然而,所有节点的时间和空间模式并不是完全不同的,它们之间存在一些相似性,在上述方法的基础上,再利用聚类算法进行时间模式和空间模式的聚类;
③模型训练方法:
a)假定模型训练轮次为M,一共有K类空间模式,Q类时间模式,平滑系数为γ和θ;随机选取Ei(i=1,2,...,N)中的K个点作为空间模式的初始中心
Figure FDA00030521320300000213
随机选取Ri(i=1,2,...,N)中的Q个点作为时间模式的初始中心
Figure FDA0003052132030000031
b)Fore=1,2,...,Mdo:
1)对于源域中的输入
Figure FDA0003052132030000032
利用上述模型得到对应的输出预测值
Figure FDA0003052132030000033
并计算预测损失函数:
Figure FDA0003052132030000034
2)为每个节点的嵌入向量分配空间和时间类别:
Figure FDA0003052132030000035
Figure FDA0003052132030000036
3)计算空间聚类和时间聚类损失:
Figure FDA0003052132030000037
Figure FDA0003052132030000038
4)计算每个类别的中心向量:
Figure FDA0003052132030000039
Figure FDA00030521320300000310
其中,Ik,Iq分别表示属于第k个空间类别和第q个时间类别的节点集合;
5)平滑更新类别中心向量:
Figure FDA00030521320300000311
Figure FDA00030521320300000312
6)根据损失函数L=Lp+α·Ls+β·Lt,计算模型参数的梯度,更新模型参数Θ={E,P,R,U,ΘT,bT,Wp,bp},其中α,β为超参数;
(2)将知识迁移到数据稀缺的目标域并进行模型微调
不同城市或区域的交通网络存在差异,主要体现在交通网络的规模和连接方式;然而,不同城市或区域的交通网络虽然不同,但是从网络中某一节点的角度来看,它们的空间模式和时间模式是存在相似性的;
图卷积神经网络提取节点特征的本质就是使用某一节点的邻居节点的表示进行聚合并通过某种组合方式产生出此节点的新表示,这个过程用公式(7)和(8)表示:
Figure FDA0003052132030000041
Figure FDA0003052132030000042
其中,
Figure FDA0003052132030000043
表示节点v的邻居节点集合,
Figure FDA0003052132030000044
分别表示节点u在第l-1个和第l个图神经网络层的特征,
Figure FDA0003052132030000045
表示在第l个图神经网络层对节点v的邻居节点进行聚合后得到的特征,AGGREGATE(l){·}和COMBINE(l){·}分别表示第l个图神经网络层的聚合和组合操作;
对于图卷积神经网络来说,这个过程用公式(9)和(10)表示:
Figure FDA0003052132030000046
Figure FDA0003052132030000047
看出,对于图卷积神经网络中的某个节点来说,它聚合周围邻居节点特征的方式是固定的,即取均值;分析Wi的组成,发现它是多个卷积核的线性组合:
Figure FDA0003052132030000048
因此,没必要直接迁移Wi,只需要迁移构成它的多个卷积核即可;这样,在目标域上需要学习的仅是节点的嵌入向量;在源域中,对节点的嵌入向量进行了聚类,这样获得几类主要的空间模式,并得到了这几类空间模式的编码向量μk,k={1,2,...,K};在目标域上,使用μk来指导节点空间嵌入向量的学习;在目标域上优化的空间聚类目标函数用公式(11)来描述:
Figure FDA0003052132030000049
对于时间模式来说,基于矩阵分解的方式,为每个节点学习特有的时间模式;在迁移的过程中,同样的,只需要迁移时间参数池矩阵U,利用源域中学习到的时间模式编码向量πq,q={1,2,...,Q}来指导节点时间嵌入向量的学习;在目标域上优化的时间聚类目标函数用公式(12)来描述:
Figure FDA0003052132030000051
最终,在目标域上利用少量的交通时序数据对模型进行微调;整个迁移过程和微调方法如下:
a)利用在源域中学习好的模型参数{P,U,ΘT,bT,Wp,bp}来初始化目标域上的模型参数{P′,U′,Θ′T,b′T,W′p,b′p},随机初始化{E′,R′},源域中学习到的空间和时间模式类别中心编码为μk(k=1,2,...,K),πq(q=1,2,...,Q),设微调轮次为M′;
b)Fore=1,2,...,M′do:
1)对于目标域上的输入
Figure FDA0003052132030000052
利用模型得到对应的输出预测值
Figure FDA0003052132030000053
并计算预测损失函数:
Figure FDA0003052132030000054
2)为目标域中每个节点的嵌入向量分配空间和时间类别:
Figure FDA0003052132030000055
Figure FDA0003052132030000056
3)计算目标域上的空间聚类和时间聚类损失函数:
Figure FDA0003052132030000057
Figure FDA0003052132030000058
4)根据损失函数L′=L′p+α′·L′s+β′·L′t,计算模型参数的梯度,固定{P′,U′},利用梯度更新其余参数{E′,R′,Θ′T,b′T,W′p,b′p}。
CN202110490225.XA 2021-05-06 2021-05-06 一种基于图迁移学习的交通预测方法 Pending CN113128783A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110490225.XA CN113128783A (zh) 2021-05-06 2021-05-06 一种基于图迁移学习的交通预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110490225.XA CN113128783A (zh) 2021-05-06 2021-05-06 一种基于图迁移学习的交通预测方法

Publications (1)

Publication Number Publication Date
CN113128783A true CN113128783A (zh) 2021-07-16

Family

ID=76781159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110490225.XA Pending CN113128783A (zh) 2021-05-06 2021-05-06 一种基于图迁移学习的交通预测方法

Country Status (1)

Country Link
CN (1) CN113128783A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946438A (zh) * 2021-09-03 2022-01-18 西安电子科技大学 基于容器整合的在线迁移调度方法、装置、设备和系统
CN114168819A (zh) * 2022-02-14 2022-03-11 北京大学 一种基于图神经网络的岗位匹配方法及装置
CN115034478A (zh) * 2022-06-14 2022-09-09 西南交通大学 一种基于领域自适应与知识迁移的交通流量预测方法
CN116206453A (zh) * 2023-05-05 2023-06-02 湖南工商大学 一种基于迁移学习的交通流预测方法、装置及相关设备
CN116959258A (zh) * 2023-08-22 2023-10-27 重庆邮电大学 一种基于时空图迁移学习的交通流预测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946438A (zh) * 2021-09-03 2022-01-18 西安电子科技大学 基于容器整合的在线迁移调度方法、装置、设备和系统
CN113946438B (zh) * 2021-09-03 2024-04-30 西安电子科技大学 基于容器整合的在线迁移调度方法、装置、设备和系统
CN114168819A (zh) * 2022-02-14 2022-03-11 北京大学 一种基于图神经网络的岗位匹配方法及装置
CN115034478A (zh) * 2022-06-14 2022-09-09 西南交通大学 一种基于领域自适应与知识迁移的交通流量预测方法
CN116206453A (zh) * 2023-05-05 2023-06-02 湖南工商大学 一种基于迁移学习的交通流预测方法、装置及相关设备
CN116206453B (zh) * 2023-05-05 2023-08-11 湖南工商大学 一种基于迁移学习的交通流预测方法、装置及相关设备
CN116959258A (zh) * 2023-08-22 2023-10-27 重庆邮电大学 一种基于时空图迁移学习的交通流预测方法

Similar Documents

Publication Publication Date Title
CN113128783A (zh) 一种基于图迁移学习的交通预测方法
Wang et al. DeepSD: Supply-demand prediction for online car-hailing services using deep neural networks
Zang et al. Long-term traffic speed prediction based on multiscale spatio-temporal feature learning network
CN113313947B (zh) 短期交通预测图卷积网络的路况评估方法
CN114330671A (zh) 一种基于Transformer时空图卷积网络的交通流预测方法
Yan et al. Spatial-temporal chebyshev graph neural network for traffic flow prediction in iot-based its
CN112270355A (zh) 基于大数据技术与sae-gru的主动安全预测方法
CN112949828A (zh) 一种基于图学习的图卷积神经网络交通预测方法及系统
CN112732905B (zh) 一种基于知识图谱的交通事故分析与防控方法及系统
CN112863182B (zh) 基于迁移学习的跨模态数据预测方法
CN113688253B (zh) 一种层次感知的时态知识图谱表示学习方法
CN113693563A (zh) 一种基于超图注意力网络的脑功能网络分类方法
Sun et al. CoDriver ETA: Combine driver information in estimated time of arrival by driving style learning auxiliary task
CN115618196A (zh) 基于时空特征下的Transformer异常检测方法
CN112071062A (zh) 一种基于图卷积网络和图注意力网络的行车时间估计方法
CN113326960A (zh) 基于粒子群算法优化lstm的地铁牵引能耗预测方法
CN116311921A (zh) 一种基于多空间尺度时空Transformer的交通速度预测方法
CN115131618A (zh) 基于因果推理的半监督图像分类方法
Epelbaum et al. Deep learning applied to road traffic speed forecasting
CN114596726B (zh) 基于可解释时空注意力机制的停车泊位预测方法
Zhang et al. A local semi-supervised ensemble learning strategy for the data‐driven soft sensor of the power prediction in wind power generation
CN112101132B (zh) 一种基于图嵌入模型和度量学习的交通状况预测方法
Huang et al. Passenger flow prediction for public transportation stations based on spatio-temporal graph convolutional network with periodic components
Pan et al. Traffic speed prediction based on time classification in combination with spatial graph convolutional network
Zhang et al. Granger causal inference for interpretable traffic prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination