CN113095575A - 一种基于迁移学习的车流量预测方法和系统 - Google Patents

一种基于迁移学习的车流量预测方法和系统 Download PDF

Info

Publication number
CN113095575A
CN113095575A CN202110408541.8A CN202110408541A CN113095575A CN 113095575 A CN113095575 A CN 113095575A CN 202110408541 A CN202110408541 A CN 202110408541A CN 113095575 A CN113095575 A CN 113095575A
Authority
CN
China
Prior art keywords
time interval
node
data point
current
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110408541.8A
Other languages
English (en)
Other versions
CN113095575B (zh
Inventor
李佳栋
王智
朱文武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202110408541.8A priority Critical patent/CN113095575B/zh
Publication of CN113095575A publication Critical patent/CN113095575A/zh
Application granted granted Critical
Publication of CN113095575B publication Critical patent/CN113095575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于迁移学习的车流量预测方法,包括步骤:S1、分别读取以时空图为样本的源城市数据集和目标城市数据集,进行数据点建立和任务建立操作,输出一系列源任务和一系列目标任务;S2、处理一系列源任务,通过元训练,从一系列源任务中学习结构记忆Ms、长期模式记忆Mp、以及时空图预测网络的初始化参数Θ0并输出;S3、根据输入的一系列目标任务和结构记忆Ms、长期模式记忆Mp、以及时空图预测网络的初始化参数Θ0,对每个目标任务,根据目标任务的支持集训练时空图预测网络,输出目标任务的查询集内的数据点的预测值,并最终得到目标城市数据集中所有测试样本的预测值。本发明可以得到更为精准的预测值。

Description

一种基于迁移学习的车流量预测方法和系统
技术领域
本发明涉及车流量预测技术领域,特别是涉及一种基于迁移学习的车流量预测方法和系统。
背景技术
时空预测的迁移学习是科研领域的新兴问题,现有的时空预测的迁移学习方法如跨城市迁移学习(RegionTrans)以及基于元学习的时空预测(MetaST)针对网格化的时空数据,网格的一个格点对应城市的一个区域。其中,跨城市迁移学习是根据过去一段时间的训练数据或辅助数据(例如用户访问信息)计算区域匹配函数,并根据区域匹配函数引导目标城市上时空预测网络的训练。基于元学习方法的时空预测,是提取单个区域的长期信息(例如,周期模式)并存储在长期模式记忆中,再使用模型无关元学习算法(MAML),在多个源城市的时空预测任务上进行元训练,习得一组时空预测网络的初始化参数和长期模式记忆,在目标城市的时空预测任务上,从元训练习得的初始化参数出发微调时空预测网络的参数,再结合元训练习得的长期模式记忆进行预测。
以上现有技术存在如下缺点:1、没有针对时空图预测的迁移学习机制,时空图指在不同时间区间有不同图信号的图,由于时空图数据存在图结构这一重要属性,过去的时空预测的迁移学习方法忽视了迁移图结构,无法在时空图预测的迁移学习任务上取得良好结果;2、迁移知识时未考虑不同时间段的时空特性差异,已有方法都是使时空预测网络适应于不同的空间环境(如区域,城市等),但是一个地区在不同时间段存在不同的时空特性,已有方法无法使时空预测网络适应于不同的时间环境(如早晨,周末)。
发明内容
为了弥补上述现有技术的不足,本发明提出一种基于迁移学习的车流量预测方法和系统。
本发明的技术问题通过以下的技术方案予以解决:
一种基于迁移学习的车流量预测方法,包括如下步骤:
S1、读取以时空图为样本的源城市数据集,进行数据点建立和任务建立操作,输出一系列源任务;读取以时空图为样本的目标城市数据集,进行数据点建立和任务建立操作,输出一系列目标任务;
S2、处理所述一系列源任务,通过元训练,从所述一系列源任务中学习结构记忆Ms、长期模式记忆Mp、以及时空图预测网络的初始化参数Θ0并输出;
S3、根据输入的所述一系列目标任务和步骤S2输出的结构记忆Ms、长期模式记忆Mp、以及时空图预测网络的初始化参数Θ0,对每个目标任务,根据所述目标任务的支持集训练时空图预测网络,输出所述目标任务的查询集内的数据点的预测值,处理完所述所有目标任务后得到所述目标城市数据集中所有测试样本的预测值。
一种基于迁移学习的车流量预测系统,包括:
任务建立模块,用于读取以时空图为样本的源城市数据集,进行数据点建立和任务建立操作,输出一系列源任务;读取以时空图为样本的目标城市数据集,进行数据点建立和任务建立操作,输出一系列目标任务;
知识提取模块,用于处理所述一系列源任务,通过元训练,从所述一系列源任务中学习结构记忆Ms、长期模式记忆Mp、以及时空图预测网络的初始化参数Θ0并输出;
微调和预测模块,用于根据输入的所述一系列目标任务和步骤S2输出的结构记忆Ms、长期模式记忆Mp、以及时空图预测网络的初始化参数Θ0,对每个目标任务,根据所述目标任务的支持集训练时空图预测网络,输出所述目标任务的查询集内的数据点的预测值,处理完所述所有目标任务后得到所述目标城市数据集中所有测试样本的预测值。
本发明的有益效果包括:本发明针对时空图预测问题,设计了基于迁移学习的时空图预测方法,同时设计了能适应于不同时间环境的时空图预测的迁移学习机制,本发明方法的预测结果更精准。
附图说明
图1是本发明具体实施方式中的基于迁移学习的车流量预测系统示意图。
具体实施方式
下面对照附图并结合优选的实施方式对本发明作进一步说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示,一种基于迁移学习的车流量预测系统包括三个模块:任务建立模块、知识提取模块和微调与预测模块,其对车流量的预测方法包括如下步骤:
S1、读取以时空图(时空图指在不同时间区间有不同图信号的图)为样本的源城市数据集,进行数据点建立和任务建立操作,输出一系列源任务;读取以时空图为样本的目标城市数据集,进行数据点建立和任务建立操作,输出一系列目标任务;
S2、处理所述一系列源任务,通过元训练,从所述一系列源任务中学习结构记忆Ms、长期模式记忆Mp、以及时空图预测网络的初始化参数Θ0并输出;
S3、根据输入的所述一系列目标任务和步骤S2输出的结构记忆Ms、长期模式记忆Mp、以及时空图预测网络的初始化参数Θ0,对每个目标任务,根据所述目标任务的支持集训练时空图预测网络,输出所述目标任务的查询集内的数据点的预测值,处理完所述所有目标任务后得到所述目标城市数据集中所有测试样本的预测值。
整个流程的输入是源城市(一个或多个源城市均可)数据集及目标城市(一个或多个目标城市均可)数据集。对于时空图预测任务,一个样本包含图G(从一个城市抽象)以及在当前时间区间t及过去τ-1个时间区间(time interval)的图信号Xt-τ+1:t∈Rτ×N×D,其中N是图上的节点个数,D是图信号的通道个数。样本的真实值(即标签值)为未来τ′个时间区间的图信号Xt+1:t+τ′∈Rτ′×N×D,本申请设定是目标城市数据集中只有一小部分(比如前3天)样本带有真实值,其他都是待预测的测试样本,源城市数据集的所有样本都带有真实值。整个流程的输出是以上测试样本的预测值,预测精准度的评价指标是测试样本的预测值和真实值的平均绝对误差(MAE)和均方根误差(RMSE)。
以下进行详细。需要说明的是,以下表述中,若“城市”前没有“源”或“目标”的限定,则指代源城市或目标城市。
一、任务建立模块
任务建立模块读取源城市数据集,输出一系列源任务:源任务1,…,源任务M。任务建立模块读取目标城市数据集,输出一系列目标任务:目标任务1,…,目标任务M’。
任务建立模块的内部操作如下:
1、数据点建立
对于图Gc(从城市c抽象)中的节点u,在时间区间t我们建立数据点为
Figure BDA0003023241870000041
其中,Gu表示以节点u的局部子图(节点u的1阶和2阶邻居及节点u组成的子图),
Figure BDA0003023241870000042
表示局部子图Gu在时间区间t及过去τ-1个时间区间的图信号。
对图Gc的所有节点在所有时间区间建立数据点,形成数据点集合
Figure BDA0003023241870000043
其中,
Figure BDA00030232418700000421
是图Gc所有节点的集合,
Figure BDA0003023241870000044
是城市c样本涵盖的时间区间的集合,若节点u上未来τ′个时间区间的信号Xt+1:t+τ′,u是已知的,则称数据点
Figure BDA0003023241870000045
是带有真实值(标签值)的。
对于所有城市,产生多个数据点集合。
2、任务建立
无论输入的是源城市数据集还是目标城市数据集,对于每个城市c,按照数据点所在时间范围将数据点集合
Figure BDA0003023241870000046
进行拆分。具体地,
我们把
Figure BDA0003023241870000047
拆成
Figure BDA0003023241870000048
其中
Figure BDA0003023241870000049
是位于一周中的第i个小时(一周中共168个小时)的时间区间组成的集合,∩表示集合的交,若子数据集
Figure BDA00030232418700000410
为空集,则舍弃;若子数据集
Figure BDA00030232418700000411
为非空集,然后再将
Figure BDA00030232418700000412
拆分为支持集
Figure BDA00030232418700000413
和查询集
Figure BDA00030232418700000414
拆分方法根据输入是源城市数据集还是目标城市数据集而异。
若任务建立模块的输入是源城市数据集,则
Figure BDA00030232418700000415
包含
Figure BDA00030232418700000416
中位于
Figure BDA00030232418700000417
中前80%时间区间的数据点及其对应真实值,
Figure BDA00030232418700000418
包含
Figure BDA00030232418700000420
中位于
Figure BDA00030232418700000419
中末20%时间区间的数据点及其对应真实值。
若任务建立模块的输入是目标城市数据集,则
Figure BDA0003023241870000051
包含所有
Figure BDA0003023241870000052
中带有真实值的数据点及其对应真实值,
Figure BDA0003023241870000053
包含
Figure BDA0003023241870000054
中的剩余数据点。
为以优化时空图预测网络在支持集
Figure BDA0003023241870000055
内的数据点上预测的平方误差的平均值为目标建立所述源任务和所述目标任务。
将所有建立的源任务进行编号,得到源任务1,…,源任务M,其中,在源城市数据集的所有子数据集都为非空集的条件下,M的最大可能值为168×源城市个数。
将所有建立的目标任务进行编号,得到目标任务1,…,目标任务M’,其中,在目标城市数据集的所有子数据集都为非空集的条件下,M′的最大可能值为168×目标城市个数。
至此,任务建立模块操作完成。
二、知识提取模块
知识提取模块的输入为一系列源任务:源任务1,…,源任务M,输出为元知识:结构记忆Ms(即结构记忆矩阵Ms)、长期模式记忆Mp(即长期模式记忆矩阵Mp)、时空图预测网络的初始化参数Θ0
知识提取模块的内部操作如下:
1、生成结构类别标签:这一步的输入是所有源任务,输出结构类别标签。
对于源城市c的图Gc中的节点u,在时间区间t(属于
Figure BDA0003023241870000056
中前80%的时间区间),考虑与其地理位置最近的Nl个邻居节点,计算节点u在时间区间t的结构特征
Figure BDA0003023241870000057
若图信号的通道个数为1,根据皮尔逊相关系数计算结构特征第k个维度
Figure BDA0003023241870000058
Figure BDA0003023241870000059
其中τ为时间步长(本例的实验中,τ=1小时/5分钟=12),Iu(k)是节点u的第k个邻居(按照邻居与节点u的距离排序)节点的索引,
Figure BDA00030232418700000512
Figure BDA00030232418700000513
分别是节点u和节点Iu(k)在时间区间t0的信号,
Figure BDA00030232418700000510
Figure BDA00030232418700000511
分别是节点u和节点Iu(k)在时间区间t及过去τ-1个时间区间信号的平均值;
若图信号的通道个数大于1,在每个通道根据上式(1)计算,再把各个通道的计算结果取平均,作为最终
Figure BDA0003023241870000061
的值;
这样遍历所有原任务,得到结构特征集合,使用聚类算法(例如HAC层次凝聚聚类算法、K均值聚类算法、最大最小距离聚类算法,本例中采用K均值聚类算法),将结构特征集合中的所有结构特征分成Ks个类别,分类结果即作为结构特征对应节点在结构特征对应时间区间的结构类别标签。
2、生成长期模式类别标签(和“1、生成结构类别标签”为并列步骤):这一步的输入是所有源任务,输出长期模式类别标签。
对于源城市c的图Gc中的节点u,计算其长期模式特征。我们定义长期模式特征为平均每日特征
Figure BDA0003023241870000062
其中τ0=24小时/时间区间长度,ωu的第j个元素ωu(j)的计算方法为:
Figure BDA0003023241870000063
其中
Figure BDA0003023241870000064
是位于一天中的第j个时间区间的时间区间组成的集合,
Figure BDA0003023241870000065
Figure BDA0003023241870000066
中包含的元素个数,Xt′,u是节点u在时间区间t′的信号
使用聚类算法(例如HAC层次凝聚聚类算法、K均值聚类算法、最大最小距离聚类算法,本例中采用K均值聚类算法),根据长期模式特征将所有源城市的图中的所有节点分成Kp个类别,分类结果即作为该节点的长期模式类别标签。
3、随机初始化结构记忆Ms、长期模式记忆Mp、时空图预测网络的参数的初始化值Θ0,其中
Figure BDA0003023241870000067
Ks和Kp分别是结构类别和长期模式类别数,所以Ms和Mp的每一行存的分别是每一种结构类别的信息和每一种长期模式类别的信息,Ds和Dp都是超参数(本例的实验中Ds和Dp均设置为8)。所述时空图预测网络的参数包括图卷积网络(GCN)的参数、局部结构学习卷积(local SLC)的参数、长短期记忆神经网络(LSTM)、三个用于向量变换的全连接层的参数以及输出层的参数。
4、初始化外层损失函数Lout为0。从M个源任务中随机挑选N1个任务(本例的实验中取N1为3),再取其中第一个任务。
5、初始化时空图预测网络的参数Θ为Θ0
6、从当前任务的支持集中随机挑选N2个数据点(本例的实验中取N2为128),再取其中第一个数据点;
7、以当前数据点为输入,通过本发明所用的时空图预测网络,最终输出当前任务的支持集中的当前数据点的预测值。设当前数据点为
Figure BDA0003023241870000071
则本发明所用的时空图预测网络的具体操作为:
7.1、取时间区间t-τ+1;
7.2、设当前时间区间为t0,从数据点
Figure BDA0003023241870000072
中选取局部子图Gu在时间区间t0的图信号
Figure BDA0003023241870000073
Figure BDA0003023241870000074
和Gu为输入通过图卷积网络输出局部子图Gu在时间区间t0的动态局部图结构
Figure BDA0003023241870000075
7.3、计算局部子图Gu在时间区间t0的注意力权重矩阵
Figure BDA0003023241870000076
并利用结构记忆Ms更新局部子图Gu在时间区间t0的动态局部图结构
Figure BDA0003023241870000077
具体为:首先计算局部子图Gu在时间区间t0的注意力权重矩阵
Figure BDA0003023241870000078
对于局部子图Gu中的节点v,设
Figure BDA0003023241870000079
中对应节点v的行向量为
Figure BDA00030232418700000710
Figure BDA00030232418700000711
的第l个元素
Figure BDA00030232418700000712
的计算方法为:
Figure BDA00030232418700000713
其中,
Figure BDA00030232418700000714
Figure BDA00030232418700000715
中对应于节点v的行向量。FC1代表全连接层,作用是将向量变换到Ms的行向量所在空间。Ms(l)和Ms(l′)分别是结构记忆的第l行和第l′行,·代表向量内积。
然后更新局部子图Gu在时间区间t0的动态局部图结构
Figure BDA00030232418700000716
对于局部子图Gu中的每个节点v,更新
Figure BDA00030232418700000717
更新方法为:
Figure BDA00030232418700000718
其中
Figure BDA00030232418700000719
代表
Figure BDA00030232418700000720
的转置;[,]是向量拼接操作;FC2代表全连接层,作用是将向量变换到
Figure BDA00030232418700000721
的行向量所在空间,它和FC1不共享参数。
7.4、以
Figure BDA0003023241870000081
Gu
Figure BDA0003023241870000082
为输入通过局部结构学习卷积(本例中只使用动态部分,且以
Figure BDA0003023241870000083
为动态局部图结构),得到节点u在时间区间t0的空间表征
Figure BDA0003023241870000084
7.5、将
Figure BDA0003023241870000085
输入长短期记忆神经网络,长短期记忆神经网络在时间区间t0输出隐状态
Figure BDA0003023241870000086
7.6、若当前时间区间t0=t,则以隐状态
Figure BDA0003023241870000087
作为节点u在时间区间t的时空图表征
Figure BDA0003023241870000088
并进行第7.7步;否则,取下一个时间区间,回到第7.2步。
7.7、通过长期模式记忆Mp更新节点u在时间区间t的时空图表征
Figure BDA0003023241870000089
首先计算节点u在时间区间t的注意力权重向量
Figure BDA00030232418700000810
的第m个元素
Figure BDA00030232418700000811
的计算方法为
Figure BDA00030232418700000812
其中,FC3代表全连接网络,作用是将向量变换到Mp的行向量所在空间,FC3与FC1、FC2均不共享参数。Mp(m)和Mp(m′)分别是长期模式记忆的第m行和第m′行。·代表向量内积。
然后更新节点u在时间区间t的时空图表征
Figure BDA00030232418700000813
Figure BDA00030232418700000814
其中
Figure BDA00030232418700000815
代表
Figure BDA00030232418700000816
的转置;[,]是向量拼接操作。
7.8、以
Figure BDA00030232418700000817
为输入通过输出层(为一个全连接层)计算当前数据点的预测值
Figure BDA00030232418700000818
也就是节点u在未来τ′个时间区间的信号的预测值。
8、若尚未遍历完N2个数据点,则取下一个数据点,回到第7步;否则进行下一步;
9、以N2个数据点的预测值与真实值的平方误差的平均值为内层损失函数,针对内层损失函数,使用梯度下降训练一步时空图预测网络的参数Θ。
10、循环执行第6-9步Nin-1次(本实例的实验中取Nin为1)。
11、从当前任务的查询集中随机挑选N2个数据点,再取其中第一个数据点;
12、以当前数据点为输入,通过本发明所用的时空图预测网络,输出查询集中的当前数据点的预测值,当前时间区间当前局部子图中的所有节点的结构类别预测的概率分布,和当前数据点的长期模式类别预测的概率分布。具体为:设当前数据点为
Figure BDA0003023241870000091
则本发明所用的时空图预测网络的具体操作为:
12.1、取时间区间t-τ+1;
12.2、设当前时间区间为t0,从数据点
Figure BDA0003023241870000092
中选取局部子图Gu在时间区间t0的图信号
Figure BDA0003023241870000093
Figure BDA0003023241870000094
和Gu为输入通过图卷积网络输出局部子图Gu在时间区间t0的动态局部图结构
Figure BDA0003023241870000095
12.3、计算局部子图Gu在时间区间t0的注意力权重矩阵
Figure BDA0003023241870000096
并利用结构记忆Ms更新局部子图Gu在时间区间t0的动态局部图结构
Figure BDA0003023241870000097
具体为:首先计算局部子图Gu在时间区间t0的注意力权重矩阵
Figure BDA0003023241870000098
对于局部子图Gu中的节点v,设
Figure BDA0003023241870000099
中对应节点v的行向量为
Figure BDA00030232418700000910
Figure BDA00030232418700000911
的第l个元素
Figure BDA00030232418700000912
的计算方法为:
Figure BDA00030232418700000913
其中
Figure BDA00030232418700000914
Figure BDA00030232418700000915
中对应于节点v的行向量。FC1代表全连接层,作用是将向量变换到Ms的行向量所在空间。Ms(l)和Ms(l′)分别是结构记忆的第l行和第l′行,·代表向量内积。
然后更新局部子图Gu在时间区间t0的动态局部图结构
Figure BDA00030232418700000916
对于局部子图Gu中的每个节点v,更新
Figure BDA00030232418700000917
更新方法为:
Figure BDA00030232418700000918
其中
Figure BDA00030232418700000919
代表
Figure BDA00030232418700000920
的转置;[,]是向量拼接操作;FC2代表全连接层,作用是将向量变换到
Figure BDA00030232418700000921
的行向量所在空间,它和FC1不共享参数。
12.4以
Figure BDA00030232418700000922
Gu
Figure BDA00030232418700000923
为输入通过局部结构学习卷积(本例中只使用动态部分,且以
Figure BDA00030232418700000924
为动态局部图结构),得到节点u在时间区间t0的空间表征
Figure BDA00030232418700000925
12.5将
Figure BDA00030232418700000926
输入长短期记忆神经网络,长短期记忆神经网络在时间区间t0输出隐状态
Figure BDA0003023241870000101
12.6若当前时间区间t0=t,则以隐状态
Figure BDA0003023241870000102
作为节点u在时间区间t的时空图表征
Figure BDA0003023241870000103
并进行下一步;否则,取下一个时间区间,回到第12.2步。
12.7计算节点u在时间区间t的注意力权重向量
Figure BDA0003023241870000104
并通过长期模式记忆Mp更新节点u在时间区间t的时空图表征
Figure BDA00030232418700001018
首先计算节点u在时间区间t的注意力权重向量
Figure BDA0003023241870000105
的第m个元素
Figure BDA0003023241870000106
的计算方法为
Figure BDA0003023241870000107
其中,FC3代表全连接网络,作用是将向量变换到Mp的行向量所在空间,FC3与FC1、FC2均不共享参数。Mp(m)和Mp(m′)分别是长期模式记忆的第m行和第m′行。·代表向量内积。
然后更新节点u在时间区间t的时空图表征
Figure BDA0003023241870000108
Figure BDA0003023241870000109
其中
Figure BDA00030232418700001010
代表
Figure BDA00030232418700001011
的转置。[,]是向量拼接操作。
12.8以
Figure BDA00030232418700001012
为输入通过输出层(为一个全连接层)输出当前数据点的预测值
Figure BDA00030232418700001019
也就是节点u在未来τ′个时间区间的信号的预测值。
12.9以计算得到的
Figure BDA00030232418700001013
作为当前时间区间t当前局部子图Gu中的节点v的结构类别预测的概率分布,以计算得到的注意力权重向量
Figure BDA00030232418700001014
作为当前数据点的长期模式类别预测的概率分布,最终输出当前任务的查询集中的当前数据点的预测值
Figure BDA00030232418700001015
当前时间区间t当前局部子图Gu中的节点v的结构类别预测的概率分布,和当前数据点的长期模式类别预测的概率分布。
12.10根据当前数据点的预测值和真实值,当前时间区间当前局部子图中的所有节点的结构类别预测的概率分布和第1步得到的结构类别标签,当前数据点的长期模式类别预测的概率分布和第2步得到的长期模式类别标签,更新外层损失函数Lout,具体操作为:
设当前数据点为
Figure BDA00030232418700001016
则当前时间区间t当前局部子图Gu中的节点v的结构类别预测的概率分布为
Figure BDA00030232418700001017
当前数据点的长期模式类别预测的概率分布为
Figure BDA0003023241870000111
通过
Figure BDA0003023241870000112
和第2步得到的长期模式类别标签,用交叉熵损失函数计算当前数据点的长期模式类别预测误差,对局部子图Gu中每个节点v,通过
Figure BDA0003023241870000113
和第1步得到的结构类别标签,用交叉熵损失函数计算节点v的结构类别预测误差,并计算局部子图Gu中所有节点的结构类别预测误差的平均值,作为当前数据点的结构类别预测误差。
设当前任务的查询集中的当前数据点的预测值与真实值的平方误差为L1,长期模式类别预测误差为L2,结构类别预测误差为L3,则更新外层损失函数
Figure BDA0003023241870000114
其中λ2和λ3为超参数(本例的实验中均设为0.0001)。
13、若尚未遍历完N2个数据点,则取下一个数据点,回到第12步;否则进行下一步;
14、循环执行第11-13步Nin-1次,(实验中取Nin为1);
15、若尚未遍历完N1个任务,则取下一个任务,回到第5步;否则进行下一步;
16、针对外层损失函数Lout,通过亚当优化算法(Adam optimization algorithm)训练结构记忆Ms、长期模式记忆Mp、时空图预测网络的初始化参数Θ0
17、循环执行第4-16步Nout-1次(本例的实验中取Nout为20000)。
至此,知识提取完成,输出元知识:结构记忆Ms,长期模式记忆Mp和时空图预测网络的初始化参数Θ0
三、微调与预测模块
微调与预测模块的输入为元知识(结构记忆Ms,长期模式记忆Mp和时空图预测网络的初始化参数Θ0)和一系列目标任务:目标任务1,…,目标任务M′,输出所有目标任务的查询集中所有数据点的预测值,即所有测试样本的预测值。
微调与预测模块的内部操作如下:
1、取目标任务1;
2、初始化时空图预测网络的参数Θ为Θ0
3、若当前任务的支持集为空,则不训练时空图预测网络的参数,直接进行下一步;否则,从当前任务的支持集中随机挑选N2个数据点(本例的实验中取N2为128),再取其中第一个数据点;
4、以当前数据点为输入,通过本发明所用的时空图预测网络,输出当前数据点的预测值。设当前数据点为
Figure BDA0003023241870000121
则本发明所用的时空图预测网络的具体操作为:
4.1、取时间区间t-τ+1;
4.2、设当前时间区间为t0,从数据点
Figure BDA0003023241870000122
中选取局部子图Gu在时间区间t0的图信号
Figure BDA0003023241870000123
Figure BDA0003023241870000124
和Gu为输入通过图卷积网络输出局部子图Gu在时间区间t0的动态局部图结构
Figure BDA0003023241870000125
4.3、计算局部子图Gu在时间区间t0的注意力权重矩阵
Figure BDA0003023241870000126
并利用结构记忆Ms更新局部子图Gu在时间区间t0的动态局部图结构
Figure BDA0003023241870000127
具体为:首先计算局部子图Gu在时间区间t0的注意力权重矩阵
Figure BDA0003023241870000128
对于局部子图Gu中的节点v,设
Figure BDA0003023241870000129
中对应节点v的行向量为
Figure BDA00030232418700001210
Figure BDA00030232418700001211
的第l个元素
Figure BDA00030232418700001212
的计算方法为:
Figure BDA00030232418700001213
其中
Figure BDA00030232418700001214
Figure BDA00030232418700001215
中对应于节点v的行向量。FC1代表全连接层,作用是将向量变换到Ms的行向量所在空间。Ms(l)和Ms(l′)分别是结构记忆的第l行和第l′行,·代表向量内积。
然后更新局部子图Gu在时间区间t0的动态局部图结构
Figure BDA00030232418700001216
对于局部子图Gu中的每个节点v,更新
Figure BDA00030232418700001217
更新方法为:
Figure BDA00030232418700001218
其中
Figure BDA00030232418700001219
代表
Figure BDA00030232418700001220
的转置;[,]是向量拼接操作;FC2代表全连接层,作用是将向量变换到
Figure BDA00030232418700001221
的行向量所在空间,它和FC1不共享参数。
4.4、以
Figure BDA0003023241870000131
Gu
Figure BDA0003023241870000132
为输入通过局部结构学习卷积(本例中只使用动态部分,且以
Figure BDA0003023241870000133
为动态局部图结构),得到节点u在时间区间t0的空间表征
Figure BDA0003023241870000134
4.5、将
Figure BDA0003023241870000135
输入长短期记忆神经网络,长短期记忆神经网络在时间区间t0输出隐状态
Figure BDA0003023241870000136
4.6、若当前时间区间t0=t,则以隐状态
Figure BDA0003023241870000137
作为节点u在时间区间t的时空图表征
Figure BDA0003023241870000138
并进行下一步;否则,取下一个时间区间,回到第4.2步。
4.7、计算节点u在时间区间t的注意力权重向量
Figure BDA0003023241870000139
并通过长期模式记忆Mp更新节点u在时间区间t的时空图表征
Figure BDA00030232418700001310
具体为:首先计算节点u在时间区间t的注意力权重向量
Figure BDA00030232418700001311
的第m个元素
Figure BDA00030232418700001312
的计算方法为
Figure BDA00030232418700001313
其中FC3代表全连接网络,作用是将向量变换到Mp的行向量所在空间,FC3与FC1、FC2均不共享参数。Mp(m)和Mp(m′)分别是长期模式记忆的第m行和第m′行。·代表向量内积。
然后更新节点u在时间区间t的时空图表征
Figure BDA00030232418700001314
Figure BDA00030232418700001315
其中
Figure BDA00030232418700001316
代表
Figure BDA00030232418700001317
的转置。[,]是向量拼接操作。
4.8以
Figure BDA00030232418700001318
为输入通过输出层(为一个全连接层)输出当前数据点的预测值
Figure BDA00030232418700001319
也就是节点u在未来τ′个时间区间的信号的预测值;最终输出当前数据点的预测值
Figure BDA00030232418700001320
5、若尚未遍历完N2个数据点,则取下一个数据点,回到第4步;否则进行第6步;
6、以N2个数据点的预测值与真实值的平方误差的平均值为内层损失函数,针对内层损失函数,使用梯度下降训练一步时空图预测网络的参数Θ。
7、循环执行第3-6步Nin′-1次。(实验中取Nin′为30)
8、选取当前任务的查询集中的第一个数据点。
9、以当前数据点为输入,通过本发明所用的时空图预测网络,输出当前数据点的预测值。设当前数据点为
Figure BDA0003023241870000141
则本发明所用的时空图预测网络的具体操作为:
9.1、取时间区间t-τ+1;
9.2、设当前时间区间为t0,从数据点
Figure BDA00030232418700001426
中选取局部子图Gu在时间区间t0的图信号
Figure BDA0003023241870000142
Figure BDA0003023241870000143
和Gu为输入通过图卷积网络输出局部子图Gu在时间区间t0的动态局部图结构
Figure BDA0003023241870000144
9.3、计算局部子图Gu在时间区间t0的注意力权重矩阵
Figure BDA0003023241870000145
并利用结构记忆Ms更新局部子图Gu在时间区间t0的动态局部图结构
Figure BDA0003023241870000146
具体为:首先计算局部子图Gu在时间区间t0的注意力权重矩阵
Figure BDA0003023241870000147
对于局部子图Gu中的节点v,设
Figure BDA0003023241870000148
中对应节点v的行向量为
Figure BDA0003023241870000149
Figure BDA00030232418700001410
的第l个元素
Figure BDA00030232418700001411
的计算方法为:
Figure BDA00030232418700001412
其中
Figure BDA00030232418700001413
Figure BDA00030232418700001414
中对应于节点v的行向量。FC1代表全连接层,作用是将向量变换到Ms的行向量所在空间。Ms(l)和Ms(l′)分别是结构记忆的第l行和第l′行,·代表向量内积。
然后更新局部子图Gu在时间区间t0的动态局部图结构
Figure BDA00030232418700001415
对于局部子图Gu中的每个节点v,更新
Figure BDA00030232418700001416
更新方法为:
Figure BDA00030232418700001417
其中
Figure BDA00030232418700001418
代表
Figure BDA00030232418700001419
的转置;[,]是向量拼接操作;FC2代表全连接层,作用是将向量变换到
Figure BDA00030232418700001420
的行向量所在空间,它和FC1不共享参数。
9.4、以
Figure BDA00030232418700001421
Gu
Figure BDA00030232418700001422
为输入通过局部结构学习卷积(本例中只使用动态部分,且以
Figure BDA00030232418700001423
为动态局部图结构),得到节点u在时间区间t0的空间表征
Figure BDA00030232418700001424
9.5、将
Figure BDA00030232418700001425
输入长短期记忆神经网络,长短期记忆神经网络在时间区间t0输出隐状态
Figure BDA0003023241870000151
9.6、若当前时间区间t0=t,则以隐状态
Figure BDA0003023241870000152
作为节点u在时间区间t的时空图表征
Figure BDA0003023241870000153
并进行下一步;否则,取下一个时间区间,回到第9.2步。
9.7、计算节点u在时间区间t的注意力权重向量
Figure BDA0003023241870000154
并通过长期模式记忆Mp更新节点u在时间区间t的时空图表征
Figure BDA0003023241870000155
具体为:首先计算节点u在时间区间t的注意力权重向量
Figure BDA0003023241870000156
的第m个元素
Figure BDA0003023241870000157
的计算方法为
Figure BDA0003023241870000158
其中FC3代表全连接网络,作用是将向量变换到Mp的行向量所在空间,FC3与FC1、FC2均不共享参数。Mp(m)和Mp(m′)分别是长期模式记忆的第m行和第m′行。·代表向量内积。
然后更新节点u在时间区间t的时空图表征
Figure BDA0003023241870000159
Figure BDA00030232418700001510
其中
Figure BDA00030232418700001511
代表
Figure BDA00030232418700001512
的转置。[,]是向量拼接操作。
9.8、以
Figure BDA00030232418700001513
为输入通过输出层(为一个全连接层)输出当前数据点的预测值
Figure BDA00030232418700001514
也就是节点u在未来τ′个时间区间的信号的预测值;最终输出当前数据点的预测值
Figure BDA00030232418700001515
10、若尚未遍历完当前任务的查询集中的所有数据点,则取当前任务的查询集中的下一个数据点,回到第9步,否则,已得到当前任务的查询集中所有样本的预测值,进行下一步。
11、若尚未遍历完M′个目标任务,则取下一个目标任务,继续执行第2-10步。否则,结束操作。
至此,已得到所有目标任务的查询集中所有数据点的预测值,即所有测试样本的预测值。
四、实验
本实验中采用“时空同步图卷积神经网络用于交通预测”(参见Song C,Lin Y,GuoS,et al.Spatial-temporal synchronous graph convolutional networks:A newframework for spatial-temporal network data forecasting[C]//Proceedings ofthe AAAI Conference on Artificial Intelligence.2020,34(01):914-921.)中收集和公开的加州高速车流数据集。该数据集包括加州4个地区(地区3,地区4,地区7,地区8)部分路段部分时间段的高速车流数据,数据特性如下表1所示:
表1:
数据来源 节点个数 边个数 时间区间个数 平均车流量
地区3(PEMS03) 358 547 26208 179.26
地区4(PEMS04) 307 340 16992 211.70
地区7(PEMS07) 883 866 28224 308.52
地区8(PEMS08) 170 295 17856 230.68
本发明的实验以地区3、4和7为源城市,地区8为目标城市,采用本发明上述的预测方法进行预测,并与采用现有的“时空图预测网络”和“基于元学习方法的时空预测(MetaST)(参见H.Yao,Y.Liu,Y.Wei,X.Tang,and Z.Li,“Learning from multiplecities:A meta-learning approach for spatial-temporal prediction”in The WorldWide Web Conference,2019,pp.2181–2191.)”进行对比,下表2中的结果为在目标城市所有测试样本上的预测结果和真实值的误差:
表2:
Figure BDA0003023241870000161
由上表2可知,本发明的预测结果比现有的“不基于迁移学习的时空图预测网络”和“基于元学习方法的时空预测(MetaST)”都要更精准。
说明:
1、表2中所有方法共有的参数都设置为一致。
2、“基于元学习方法的时空预测(MetaST)”基于其原文操作并做如下修改:其他操作遵循原文,但有两点不同,一是将原文的“卷积-长短期记忆神经网络”替换为时空图预测网络A,时空图预测网络A是本发明所用的时空图预测网络去掉和结构记忆交互的部分(即两个全连接层)后留下的部分;二是数据处理不同,原文对源城市数据集和目标城市数据集进行处理,得到的数据点是图像,这种操作处理不了时空图数据,而本发明根据任务建立模块的第一步“数据点建立”操作处理,得到的数据点是局部子图和局部子图上的信号。
3、“不基于迁移学习的时空图预测网络”,指不借助从源城市数据集中提取的元知识,直接在目标城市数据集的训练集上训练时空图预测网络B的参数,然后在目标城市数据集的测试集上用训练后的时空图预测网络B进行预测。其中时空图预测网络B是本发明所用的时空图预测网络去掉和结构记忆及长期模式记忆交互的部分(即三个全连接层),并调整输出层的参数维度后的网络。此外,我们会按照任务建立模块的第一步“数据点建立”的操作,处理每个目标城市数据集,对每个目标城市数据集产生一个数据点集合。时空图预测网络B的输入和本发明所用的时空图预测网络一样,是一个或一批数据点。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于迁移学习的车流量预测方法,其特征在于,包括如下步骤:
S1、读取以时空图为样本的源城市数据集,进行数据点建立和任务建立操作,输出一系列源任务;读取以时空图为样本的目标城市数据集,进行数据点建立和任务建立操作,输出一系列目标任务;
S2、处理所述一系列源任务,通过元训练,从所述一系列源任务中学习结构记忆Ms、长期模式记忆Mp、以及时空图预测网络的初始化参数Θ0并输出;
S3、根据输入的所述一系列目标任务和步骤S2输出的结构记忆Ms、长期模式记忆Mp、以及时空图预测网络的初始化参数Θ0,对每个目标任务,根据所述目标任务的支持集训练时空图预测网络,输出所述目标任务的查询集内的数据点的预测值,处理完所有目标任务后得到所述目标城市数据集中所有测试样本的预测值。
2.如权利要求1所述的基于迁移学习的车流量预测方法,其特征在于:所述源城市数据集和所述目标城市数据集中的样本都包含图G以及在当前时间区间t及过去τ-1个时间区间的图信号Xt-τ+1:t∈Rτ×N×D,其中N是图上的节点个数,D是图信号的通道个数;所述样本的真实值为未来τ′个时间区间的图信号Xt+1:t+τ′∈Rτ′×N×D;其中,所述目标城市数据集中的一部分样本带有真实值,其他则是待预测的测试样本,所述源城市数据集的所有样本都带有真实值。
3.如权利要求2所述的基于迁移学习的车流量预测方法,其特征在于:所述步骤S1具体包括:
S1.1、数据点建立:
对于从城市c抽象得到的图Gc中的节点u,在时间区间t建立数据点为
Figure FDA0003023241860000011
其中Gu表示以节点u的局部子图,
Figure FDA0003023241860000012
表示局部子图Gu在时间区间t及过去τ-1个时间区间的图信号;
对图Gc的所有节点在所有时间区间建立数据点,形成数据点集合
Figure FDA0003023241860000013
其中
Figure FDA0003023241860000014
是图Gc所有节点的集合,
Figure FDA0003023241860000015
是城市c样本涵盖的时间区间的集合;
对于所有源城市和目标城市,产生多个数据点集合;
S1.2、任务建立:
对于所有源城市和目标城市中的每个城市c,按照数据点所在时间范围将数据点集合
Figure FDA0003023241860000021
进行拆分成一系列子数据集
Figure FDA0003023241860000022
其中:
Figure FDA0003023241860000023
Figure FDA0003023241860000024
是位于一周中的第i个小时的时间区间组成的集合,∩表示集合的交,若子数据集
Figure FDA0003023241860000025
为空集,则舍弃,若子数据集
Figure FDA0003023241860000026
为非空集,则再将
Figure FDA0003023241860000027
拆分为支持集
Figure FDA0003023241860000028
和查询集
Figure FDA0003023241860000029
对于源城市数据集,支持集
Figure FDA00030232418600000210
包含
Figure FDA00030232418600000211
中位于
Figure FDA00030232418600000212
中前80%时间区间的数据点及其对应真实值,
Figure FDA00030232418600000213
包含
Figure FDA00030232418600000214
中位于
Figure FDA00030232418600000215
中末20%时间区间的数据点及其对应真实值;
对于目标城市数据集,支持集
Figure FDA00030232418600000216
包含所有
Figure FDA00030232418600000217
中带有真实值的数据点及其对应真实值,
Figure FDA00030232418600000218
包含
Figure FDA00030232418600000219
中的剩余数据点;
以优化时空图预测网络在支持集
Figure FDA00030232418600000220
内的数据点上预测的平方误差的平均值为目标,建立所述源任务和所述目标任务,将所有建立的源任务进行编号,得到源任务1~源任务M,将所有建立的目标任务进行编号,得到目标任务1~目标任务M’。
4.如权利要求3所述的基于迁移学习的车流量预测方法,其特征在于:所述步骤S2包括如下步骤:
S2.1、生成结构类别标签:对输入的所有源任务进行处理,输出结构类别标签,具体为:
对于源城市c的图Gc中的节点u,在时间区间t,考虑与其地理位置最近的Nl个邻居节点,计算节点u在时间区间t的结构特征
Figure FDA00030232418600000221
若图信号的通道个数为1,则根据皮尔逊相关系数计算结构特征第k个维度
Figure FDA00030232418600000222
Figure FDA00030232418600000223
其中τ为时间步长,Iu(k)是节点u的第k个邻居节点的索引,
Figure FDA00030232418600000224
Figure FDA00030232418600000225
分别是节点u和节点Iu(k)在时间区间t0的信号,
Figure FDA0003023241860000031
Figure FDA0003023241860000032
分别是节点u和节点Iu(k)在时间区间t及过去τ-1个时间区间信号的平均值;
若图信号的通道个数大于1,则在每个通道根据上式(1)计算,再把各个通道的计算结果取平均,作为最终
Figure FDA0003023241860000033
的值;
遍历所有源任务,得到结构特征集合,使用聚类算法,将所述结构特征集合中的所有结构特征分成Ks个类别,分类结果即作为结构特征对应节点在结构特征对应时间区间的结构类别标签;
S2.2、生成长期模式类别标签:对输入的所有源任务进行处理,输出长期模式类别标签,具体为:
对于源城市c的图Gc中的节点u,计算其长期模式特征,定义长期模式特征为平均每日特征
Figure FDA0003023241860000034
其中τ0=24小时/时间区间长度,ωu的第j个元素ωu(j)的计算方法为:
Figure FDA0003023241860000035
其中
Figure FDA0003023241860000036
是位于一天中的第j个时间区间的时间区间组成的集合,
Figure FDA0003023241860000037
Figure FDA00030232418600000311
中包含的元素个数,Xt′,u是节点u在时间区间t′的信号;
使用聚类算法,根据长期模式特征将所有源城市的图中的所有节点分成Kp个类别,分类结果即作为该节点的长期模式类别标签;
S2.3、随机初始化结构记忆Ms、长期模式记忆Mp、时空图预测网络的参数的初始化值Θ0,其中
Figure FDA0003023241860000039
Ks和Kp分别是结构类别和长期模式类别数,Ds和Dp都是超参数;
S2.4、初始化外层损失函数Lout为0,从M个源任务中随机挑选N1个任务,再取其中第一个任务;
S2.5、初始化时空图预测网络的参数Θ为Θ0
S2.6、从当前任务的支持集中随机挑选N2个数据点,再取其中第一个数据点;
S2.7、以当前数据点为输入,最终输出当前任务的支持集中的当前数据点的预测值,具体为:设当前数据点为
Figure FDA00030232418600000310
执行如下操作:
S2.7.1、取时间区间t-τ+1;
S2.7.2、设当前时间区间为t0,从数据点
Figure FDA0003023241860000041
中选取局部子图Gu在时间区间t0的图信号
Figure FDA0003023241860000042
Figure FDA0003023241860000043
和Gu为输入通过图卷积网络输出局部子图Gu在时间区间t0的动态局部图结构
Figure FDA0003023241860000044
S2.7.3、计算局部子图Gu在时间区间t0的注意力权重矩阵
Figure FDA0003023241860000045
并利用结构记忆Ms更新局部子图Gu在时间区间t0的动态局部图结构
Figure FDA0003023241860000046
S2.7.4、以
Figure FDA0003023241860000047
Gu
Figure FDA0003023241860000048
为输入通过局部结构学习卷积,得到节点u在时间区间t0的空间表征
Figure FDA0003023241860000049
S2.7.5、将
Figure FDA00030232418600000410
输入长短期记忆神经网络,所述长短期记忆神经网络在时间区间t0输出隐状态
Figure FDA00030232418600000411
S2.7.6、若当前时间区间t0=t,则以隐状态
Figure FDA00030232418600000412
作为节点u在时间区间t的时空图表征
Figure FDA00030232418600000413
并进行第S2.7.7步;否则,取下一个时间区间,回到第S2.7.2步
S2.7.7、计算节点u在时间区间t的注意力权重向量
Figure FDA00030232418600000414
并通过长期模式记忆Mp更新节点u在时间区间t的时空图表征
Figure FDA00030232418600000415
S2.7.8、以
Figure FDA00030232418600000416
为输入通过输出层计算当前数据点的预测值
Figure FDA00030232418600000417
也就是节点u在未来τ′个时间区间的信号的预测值;
S2.8、若尚未遍历完N2个数据点,则取下一个数据点,回到第S2.7步;否则进行第S2.9步;
S2.9、以当前任务的支持集中的N2个数据点的预测值与真实值的平方误差的平均值为内层损失函数,针对所述内层损失函数,使用梯度下降训练一步时空图预测网络的参数Θ;
S2.10、循环执行第S2.6-S2.9步Nin-1次,其中Nin为≥1;
S2.11、从当前任务的查询集中随机挑选N2个数据点,再取其中第一个数据点;
S2.12、以当前数据点为输入,设当前数据点为
Figure FDA00030232418600000418
执行如下操作:
S2.12.1~S2.12.8、分别采用与步骤S2.7.1-S2.7.8相同的操作;
S2.12.9、以计算得到的
Figure FDA0003023241860000051
作为当前时间区间t当前局部子图Gu中的节点v的结构类别预测的概率分布,以计算得到的注意力权重向量
Figure FDA0003023241860000052
作为当前数据点的长期模式类别预测的概率分布,最终输出当前任务的查询集中的当前数据点的预测值
Figure FDA0003023241860000053
当前时间区间t当前局部子图Gu中的节点v的结构类别预测的概率分布,和当前数据点的长期模式类别预测的概率分布;
S2.12.10、根据当前数据点的预测值和真实值,当前时间区间当前局部子图中的所有节点的结构类别预测的概率分布和第S2.1步得到的结构类别标签,当前数据点的长期模式类别预测的概率分布和第S2.2步得到的长期模式类别标签,更新外层损失函数Lout
S2.13、若尚未遍历完N2个数据点,则取下一个数据点,回到第S2.12步;否则进行第S2.14步;
S2.14、循环执行第S2.11-S2.13步Nin-1次,其中Nin≥1;
S2.15、若尚未遍历完N1个任务,则取下一个任务,执行步骤S2.5-S2.14;否则进行第S2.16步;
S2.16、针对外层损失函数Lout,通过亚当优化算法训练结构记忆Ms、长期模式记忆Mp、时空图预测网络的初始化参数Θ0
S2.17、循环执行第S2.4-S2.16步Nout-1次,输出结构记忆Ms、长期模式记忆Mp和时空图预测网络的初始化参数Θ0
5.如权利要求4所述的基于迁移学习的车流量预测方法,其特征在于:所述步骤S2.7.3计算局部子图Gu在时间区间t0的注意力权重矩阵
Figure FDA0003023241860000054
并利用结构记忆Ms更新局部子图Gu在时间区间t0的动态局部图结构
Figure FDA0003023241860000055
具体为:
首先计算局部子图Gu在时间区间t0的注意力权重矩阵
Figure FDA0003023241860000056
对于局部子图Gu中的节点v,设
Figure FDA0003023241860000057
中对应节点v的行向量为
Figure FDA0003023241860000058
Figure FDA0003023241860000059
的第l个元素
Figure FDA00030232418600000510
的计算方法为:
Figure FDA0003023241860000061
其中,
Figure FDA0003023241860000062
Figure FDA00030232418600000620
中对应于节点v的行向量;FC1代表全连接层,用于将向量变换到Ms的行向量所在空间;Ms(l)和Ms(l′)分别是结构记忆的第l行和第l′行;·代表向量内积;
然后更新局部子图Gu在时间区间t0的动态局部图结构
Figure FDA0003023241860000064
对于局部子图Gu中的每个节点v,更新
Figure FDA0003023241860000065
更新方法为:
Figure FDA0003023241860000066
其中,
Figure FDA0003023241860000067
代表
Figure FDA0003023241860000068
的转置;[,]是向量拼接操作;FC2代表全连接层,用于将向量变换到
Figure FDA0003023241860000069
的行向量所在空间,FC2和FC1不共享参数。
6.如权利要求5所述的基于迁移学习的车流量预测方法,其特征在于:所述步骤S2.7.7计算节点u在时间区间t的注意力权重向量
Figure FDA00030232418600000610
并通过长期模式记忆Mp更新节点u在时间区间t的时空图表征
Figure FDA00030232418600000611
具体为:
首先计算节点u在时间区间t的注意力权重向量
Figure FDA00030232418600000612
Figure FDA00030232418600000613
的第m个元素
Figure FDA00030232418600000614
的计算方法为:
Figure FDA00030232418600000615
其中,FC3代表全连接网络,用于将向量变换到Mp的行向量所在空间,FC3与FC1、FC2均不共享参数;Mp(m)和Mp(m′)分别是长期模式记忆的第m行和第m′行;·代表向量内积;
然后更新节点u在时间区间t的时空图表征
Figure FDA00030232418600000616
Figure FDA00030232418600000617
其中
Figure FDA00030232418600000618
代表
Figure FDA00030232418600000619
的转置;[,]是向量拼接操作。
7.如权利要求4所述的基于迁移学习的车流量预测方法,其特征在于:所述步骤S2.12.10根据当前数据点的预测值和真实值,当前时间区间当前局部子图中的所有节点的结构类别预测的概率分布和第S2.1步得到的结构类别标签,当前数据点的长期模式类别预测的概率分布和第S2.2步得到的长期模式类别标签,更新外层损失函数Lout,具体为:
设当前数据点为
Figure FDA0003023241860000071
当前时间区间t当前局部子图Gu中的节点v的结构类别预测的概率分布为
Figure FDA0003023241860000072
作为,当前数据点的长期模式类别预测的概率分布为
Figure FDA0003023241860000073
通过
Figure FDA0003023241860000074
和第S2.2步得到的长期模式类别标签,用交叉熵损失函数计算当前数据点的长期模式类别预测误差;对局部子图Gu中每个节点v,通过
Figure FDA0003023241860000075
和第S2.1步得到的结构类别标签,用交叉熵损失函数计算当前时间区间t节点v的结构类别预测误差,并计算当前时间区间t当前局部子图Gu中所有节点的结构类别预测误差的平均值,作为当前数据点的结构类别预测误差;
设当前数据点的预测值与真实值的平方误差为L1,长期模式类别预测误差为L2,结构类别预测误差为L3,则更新外层损失函数
Figure FDA0003023241860000076
Figure FDA0003023241860000077
其中λ2和λ3为超参数。
8.如权利要求4所述的基于迁移学习的车流量预测方法,其特征在于:所述步骤S3具体包括:
S3.1、取目标任务1;
S3.2、初始化时空图预测网络的参数Θ为Θ0
S3.3、若当前任务的支持集为空,则不训练时空图预测网络的参数,直接进行S3.4;否则,在当前任务的支持集中随机挑选N2个数据点,再取其中第一个数据点;
S3.4、以当前数据点为输入,采用与步骤S2.7.1-2.7.8相同的操作,最终输出当前目标任务的支持集中的当前数据点的预测值;
S3.5、若尚未遍历完N2个数据点,则取下一个数据点,回到第S3.4步;否则进行第S3.6步;
S3.6、以N2个数据点的预测值与真实值的平方误差的平均值为内层损失函数,针对内层损失函数,使用梯度下降训练一步时空图预测网络的参数Θ;
S3.7、循环执行第S3.3-S3.6步Nin′-1次;
S3.8、选取当前任务的查询集中的第一个数据点;
S3.9、以当前数据点为输入,采用与步骤S2.7.1-S2.7.8相同的操作,最终输出当前目标任务的查询集中的当前数据点的预测值;
S3.10、若尚未遍历完当前任务的查询集中的所有数据点,则取当前任务的查询集中的下一个数据点,回到第S3.9步,否则,已得到当前任务的查询集中所有样本的预测值,进行S3.11;
S3.11、若尚未遍历完M′个目标任务,则取下一个目标任务,执行步骤S3.2-S3.10,否则,结束操作,得到所有目标任务的查询集中所有数据点的预测值,即所有测试样本的预测值。
9.如权利要求1所述的基于迁移学习的车流量预测方法,其特征在于:还包括如下步骤:
S4、利用评价指标对步骤S3输出的所述预测值与真实值进行对比评估;其中,所述评价指标为所述预测值和真实值的平均绝对误差和均方根误差中的至少一者。
10.一种基于迁移学习的车流量预测系统,其特征在于,包括:
任务建立模块,用于读取以时空图为样本的源城市数据集,进行数据点建立和任务建立操作,输出一系列源任务;读取以时空图为样本的目标城市数据集,进行数据点建立和任务建立操作,输出一系列目标任务;
知识提取模块,用于处理所述一系列源任务,通过元训练,从所述一系列源任务中学习结构记忆Ms、长期模式记忆Mp、以及时空图预测网络的初始化参数Θ0并输出;
微调和预测模块,用于根据输入的所述一系列目标任务和步骤S2输出的结构记忆Ms、长期模式记忆Mp、以及时空图预测网络的初始化参数Θ0,对每个目标任务,根据所述目标任务的支持集训练时空图预测网络,输出所述目标任务的查询集内的数据点的预测值,处理完所述所有目标任务后得到所述目标城市数据集中所有测试样本的预测值。
CN202110408541.8A 2021-04-16 2021-04-16 一种基于迁移学习的车流量预测方法和系统 Active CN113095575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110408541.8A CN113095575B (zh) 2021-04-16 2021-04-16 一种基于迁移学习的车流量预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110408541.8A CN113095575B (zh) 2021-04-16 2021-04-16 一种基于迁移学习的车流量预测方法和系统

Publications (2)

Publication Number Publication Date
CN113095575A true CN113095575A (zh) 2021-07-09
CN113095575B CN113095575B (zh) 2022-04-29

Family

ID=76677916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110408541.8A Active CN113095575B (zh) 2021-04-16 2021-04-16 一种基于迁移学习的车流量预测方法和系统

Country Status (1)

Country Link
CN (1) CN113095575B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705570A (zh) * 2021-08-31 2021-11-26 长沙理工大学 一种基于深度学习的少样本目标检测方法
CN113870565A (zh) * 2021-10-26 2021-12-31 邢吉平 基于迁移学习模型的城市路网未知流量估计方法及系统
CN113947133A (zh) * 2021-09-17 2022-01-18 哈尔滨工业大学 小样本图像识别的任务重要性感知元学习方法
CN114202028A (zh) * 2021-12-13 2022-03-18 四川大学 基于mamtl的滚动轴承寿命阶段识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754605A (zh) * 2019-02-27 2019-05-14 中南大学 一种基于注意力时态图卷积网络的交通预测方法
CN110070226A (zh) * 2019-04-24 2019-07-30 河海大学 基于卷积神经网络与元学习的光伏功率预测方法及系统
CN110148296A (zh) * 2019-04-16 2019-08-20 南京航空航天大学 一种基于深度迁移学习的跨城市交通流量联合预测方法
CN110491129A (zh) * 2019-09-24 2019-11-22 重庆城市管理职业学院 基于时空图的发散卷积循环神经网络的交通流预测方法
CN110827544A (zh) * 2019-11-11 2020-02-21 重庆邮电大学 一种基于图卷积循环神经网络的短时交通流控制方法
CN111931978A (zh) * 2020-06-29 2020-11-13 南京熊猫电子股份有限公司 一种基于时空特性的城市轨道交通客流状态预测方法
CN112288156A (zh) * 2020-10-26 2021-01-29 哈尔滨工程大学 基于元学习和图注意力时空神经网络的空气质量预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754605A (zh) * 2019-02-27 2019-05-14 中南大学 一种基于注意力时态图卷积网络的交通预测方法
CN110148296A (zh) * 2019-04-16 2019-08-20 南京航空航天大学 一种基于深度迁移学习的跨城市交通流量联合预测方法
CN110070226A (zh) * 2019-04-24 2019-07-30 河海大学 基于卷积神经网络与元学习的光伏功率预测方法及系统
CN110491129A (zh) * 2019-09-24 2019-11-22 重庆城市管理职业学院 基于时空图的发散卷积循环神经网络的交通流预测方法
CN110827544A (zh) * 2019-11-11 2020-02-21 重庆邮电大学 一种基于图卷积循环神经网络的短时交通流控制方法
CN111931978A (zh) * 2020-06-29 2020-11-13 南京熊猫电子股份有限公司 一种基于时空特性的城市轨道交通客流状态预测方法
CN112288156A (zh) * 2020-10-26 2021-01-29 哈尔滨工程大学 基于元学习和图注意力时空神经网络的空气质量预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAO SONG 等: ""Spatial-Temporal Synchronous Graph Convolutional Networks:"", 《THE THIRTY-FOURTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-20)》 *
HUAXIU YAO 等: "Learning from Multiple Cities: A Meta-Learning Approach for Spatial-Temporal Prediction", 《WWW ’19: THE WORLD WIDE WEB CONFERENCE》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705570A (zh) * 2021-08-31 2021-11-26 长沙理工大学 一种基于深度学习的少样本目标检测方法
CN113705570B (zh) * 2021-08-31 2023-12-08 长沙理工大学 一种基于深度学习的少样本目标检测方法
CN113947133A (zh) * 2021-09-17 2022-01-18 哈尔滨工业大学 小样本图像识别的任务重要性感知元学习方法
CN113870565A (zh) * 2021-10-26 2021-12-31 邢吉平 基于迁移学习模型的城市路网未知流量估计方法及系统
CN114202028A (zh) * 2021-12-13 2022-03-18 四川大学 基于mamtl的滚动轴承寿命阶段识别方法

Also Published As

Publication number Publication date
CN113095575B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN113095575B (zh) 一种基于迁移学习的车流量预测方法和系统
Chen et al. Curriculum meta-learning for next POI recommendation
CN110675623A (zh) 基于混合深度学习的短时交通流量预测方法、系统、装置
Yang et al. Travel cost inference from sparse, spatio temporally correlated time series using markov models
Gong et al. Potential passenger flow prediction: A novel study for urban transportation development
CN111223301A (zh) 一种基于图注意力卷积网络的交通流量预测方法
CN112598165B (zh) 基于私家车数据的城市功能区转移流量预测方法及装置
CN113762595B (zh) 通行时间预测模型训练方法、通行时间预测方法及设备
CN111506835A (zh) 一种融合用户时间特征和个性特征的数据特征提取方法
CN111222847B (zh) 基于深度学习与非监督聚类的开源社区开发者推荐方法
Gu et al. Exploiting interpretable patterns for flow prediction in dockless bike sharing systems
Petrozziello et al. Distributed neural networks for missing big data imputation
CN115080795A (zh) 一种多充电站协同负荷预测方法及装置
Jiang et al. Bi-GRCN: A spatio-temporal traffic flow prediction model based on graph neural network
Cruz et al. Trajectory prediction from a mass of sparse and missing external sensor data
Xiao et al. A contextual master-slave framework on urban region graph for urban village detection
Shuai et al. Relationship analysis of short-term origin–destination prediction performance and spatiotemporal characteristics in urban rail transit
CN113590971A (zh) 一种基于类脑时空感知表征的兴趣点推荐方法及系统
CN109543922A (zh) 用于有桩共享单车站点群的分时段借还量预测方法
CN117271899A (zh) 一种基于时空感知的兴趣点推荐方法
CN117436653A (zh) 一种网约车出行需求的预测模型构建方法和预测方法
Hoffmann et al. Building instance classification using social media images
Fattore et al. Optimal scoring of partially ordered data, with an application to the ranking of smart cities
Ge et al. Traffic speed prediction with missing data based on TGCN
Batista et al. On the partitioning of urban networks for MFD-based applications using Gaussian Mixture Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant