CN113470352B - 一种基于多任务学习的交通大数据分析与预测系统及方法 - Google Patents

一种基于多任务学习的交通大数据分析与预测系统及方法 Download PDF

Info

Publication number
CN113470352B
CN113470352B CN202110670570.1A CN202110670570A CN113470352B CN 113470352 B CN113470352 B CN 113470352B CN 202110670570 A CN202110670570 A CN 202110670570A CN 113470352 B CN113470352 B CN 113470352B
Authority
CN
China
Prior art keywords
data
time
travel
vehicle
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110670570.1A
Other languages
English (en)
Other versions
CN113470352A (zh
Inventor
陈红阳
许申缘
肖竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110670570.1A priority Critical patent/CN113470352B/zh
Publication of CN113470352A publication Critical patent/CN113470352A/zh
Application granted granted Critical
Publication of CN113470352B publication Critical patent/CN113470352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0108Measuring and analyzing of parameters relative to traffic conditions based on the source of data
    • G08G1/0112Measuring and analyzing of parameters relative to traffic conditions based on the source of data from the vehicle, e.g. floating car data [FCD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0129Traffic data processing for creating historical data or processing based on historical data

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于多任务学习的交通大数据分析与预测系统及方法,该系统包括数据采集终端、大数据分析和预测平台以及用户终端。数据采集终端包括数据采集模块和数据传输模块;大数据分析和预测平台包括预处理模块、交通大数据时空建模模块和多任务学习预测模块。用户终端包括数据接收模块和用户匹配模块。本发明采集的车载GPS数据和轨迹数据进行分析和建模,预测未来时间段内的交通大数据走向和趋势,从而为用户提供出行建议,减少用户的行程等待时间。本发明先提高了交通大数据的预测精确度,能提前预知用户出行的速度和出发时间,以方便出行者合理安排出发时间,最大限度地避开高峰出行或前往目的地,方便用户提前制定应对方案。

Description

一种基于多任务学习的交通大数据分析与预测系统及方法
技术领域
本发明主要涉及交通大数据领域,具体涉及一种基于多任务学习的交通大数据分析与预 测系统。
背景技术
随着城市的机动车数量日益增长,城市的交通受到了巨大的挑战。拥堵成为城市交通的 代名词,交通事故的数量也不可小觑。但是,随着大数据等技术的极速发展,大量的交通大 数据被采集和研究。交通大数据作为促进交通发展的重要组成部分,其具有数据量庞大、数 据类型多、实时性高等特征,应用大数据相关深度学习理论分析与挖掘交通大数据的特征和 趋势将会有利于改善城市交通的拥堵现状,这不仅能解决用户层面上的“出行难”问题,也 能为交通管理部门提供决策帮助。
近些年来,如何分析和挖掘交通大数据的深度特征并对其进行建模和预测,已逐渐成为 城市计算领域的一大热点,并受到许多国内外专家及公司的关注。现有的工作主要通过挖掘 单个预测任务如交通流、速度、行程时间等的内部时空关联,通过引入深度学习方法对交通 数据进行建模,并预测交通数据。这些工作都忽略了不同预测任务之间的时空关联和任务依 赖性,而仅仅对单个任务进行预测,丢失了任务间的任务依赖性,如,出发时间和行程时间 之间的关联,不同的出发时间对应着不同的行程时间,如果能够捕捉这种多任务之间的依赖 性从而更好地建模交通数据,将大大提高预测的精度。因此,考虑将多任务学习引入到交通 大数据分析与预测系统中是十分有必要的。
发明内容
本发明的目的在于针对现有技术不足,提出了一种基于多任务学习的交通大数据分析与 预测系统。
为了实现以上目的,本发明提出了一种基于多任务学习的交通大数据分析与预测系统, 包括数据采集终端、大数据分析和预测平台、用户终端;
所述数据采集终端包括车载数据采集模块和数据传输模块。所述车载数据采集模块即利 用移动采集设备如车载OBD设备采集机动车的GPS数据和轨迹数据;将采集到的机动车GPS 和轨迹数据都传输到数据传输模块。所述数据传输模块即将车载数据采集模块采集到的车载 数据传输到数据预处理模块。
所述大数据和预测平台包括数据预处理模块、交通大数据时空建模模块和多任务学习预 测交通大数据模块;所述大数据和预测平台主要是基于多任务学习捕捉多个任务间的相关性 并对任务进行预测;
所述数据预处理模块先接收数据传输模块所传输的车载GPS数据和轨迹数据,然后基于 接收的车载GPS数据提取出各段行程的速度和行程时间,生成完整的行程记录,得到数据预 处理后的交通大数据;所述数据预处理模块基于完整的行程记录,利用时空聚类算法提取城 市热区,并根据热区间的连接关系构建城市热区空间网络;
所述交通大数据时空建模模块利用深度时空数据建模方法对预处理后的交通大数据进行 时空特征提取,为大数据预测平台打下基础;
所述多任务学习预测模块利用多任务学习等深度学习方法对预处理后的交通大数据进行 多个任务同时预测,基于历史交通大数据预测未来时间段内的交通数据;
所述用户终端包括预测结果接收模块和用户匹配模块。所述预测结果接收模块接收大数 据和预测平台输出的预测交通数据,并传输给用户匹配模块。所述用户匹配模块将得到的预 测交通数据与个人用户进行匹配,将匹配结果输出到个人用户端。
进一步地,所述车载数据采集模块采集到的车辆GPS数据包括车辆脱敏后的id、车辆某 段行程开始时间和结束字段、相应出发位置和到达位置的经纬度字段;所述车载数据采集模 块采集到的轨迹数据包括车辆脱敏后的id、车辆每隔一段固定时间的地理位置的经纬度字段、 当前的时间戳和车辆的详细行程轨迹。
进一步地,所述数据预处理模块处理得到的行程记录包括车辆脱敏后的id、行程的开始 时间、行程开始位置、行程中每隔30s的采样轨迹点对应的点时间和点位置(由经纬度字段 组成)、行程结束时间、行程结束位置到达位置经纬度、平均速度和行程时间。
本发明提出了一种应用于上述系统的基于多任务学习的交通大数据分析与预测方法,包 括以下步骤:
(1)利用数据采集终端,采用移动采集设备采集车辆的车载GPS数据和轨迹数据,然后 将采集的车载GPS数据和轨迹数据传输到大数据分析和预测平台;
(2)在大数据分析和预测平台中,先利用数据预处理模块进行预处理操作,对采集的车 载GPS数据和轨迹数据进行每一条轨迹的行程时间和行程速度的计算,得到交通大数据。
(3)在大数据分析和预测平台中,进行交通大数据时空建模操作。先根据处理后的车辆 行程数据,实施基于时空聚类算法的城市热区提取,获取不同时间段内相应的城市热区及热 区之间的连接关系,构建图的邻接矩阵。其次获取不同时间段内通过每个热区所需的时间, 和通过每个热区的不同时间段内的平均出发时间,构建基于平均出发时间和城市热区的二维 矩阵Xd和基于平均速度和城市热区的二维矩阵Xc,即图的特征矩阵。然后基于邻接矩阵和特征 矩阵构建基于平均出发时间的图Gd和基于平均速度的图Gc,将图Gd和图Gc输入到图卷积神经网 络中进行训练,提取空间特征。最后将所述空间特征的时间序列输入到门控循环单元GRU中, 通过单元之间的信息传递获得时间上的动态特征。
(4)在大数据分析和预测平台中,利用多任务学习预测模块预测步骤(2)得到交通大数 据,将步骤(3)提取的空间特征和时间特征输入到多任务学习神经网络中,通过多任务学习 神经网络挖掘任务间的潜在的相关性,从而在任务中发挥作用,使每个单独的任务受益,最 终多任务学习模型输出未来每个热区不同时间段内的行程速度和平均出发时间。
(5)通过用户终端,基于预测所得未来时间段的各个热区所对应的平均出发时间和平均 速度,匹配个人用户轨迹,对经过热区的用户进行出发时间的推荐和建议。
进一步地,所述步骤(2)包括以下子步骤:
(2.1)计算每一段GPS行程的平均速度和行程时间,并作为特征添加进对应GPS行程表。
(2.2)利用步骤(2.1)采集的GPS行程表,并根据每一段GPS行程的车辆id、出发时间、到达时间,与轨迹行程进行匹配,还原一段完整的行程记录。
t=StopTime-StartTime
Figure BDA0003119056460000031
其中t为行程的总时间,StopTime为行程的结束时间,StartTime为行程的开始时间,distance (P,Q)为行程起点P(StartLon,StartLat)和行程终点Q(StopLon,StopLat)之间的距离,计算公 式为:
distance(P,Q)=Euclidean(StartLon,StopLon,StartLat,StopLat)
其中,StartLon为行程的起点经度,StartLat为行程的起点纬度,StopLon为行程的终点经 度,StopLat为行程的终点纬度。
其次对采集的轨迹行程数据进行数据清洗,筛选出了行程时间大于五分钟的行程。匹配 GPS数据和轨迹数据后,生成完整的行程记录。
(2.3)基于步骤(2.2)生成的完整的行程记录,采用时空聚类算法对行程记录聚类,提 取出城市中不同时间段的热区分布,并构建相应的热区矩阵。在时空聚类算法中,聚类参数 EPS1和EPS2如下:
EPS1=Euclidean(Lon1,Lat1,Lon2,Lat2),
Figure BDA0003119056460000032
其中,Lon1、Lat1、t1分别为行程中某点P的经度、纬度、出发时间、时间戳,Lon2、Lat2、t2为行程中某点Q的经度、纬度、出发时间、时间戳。当EPS1和EPS2均小于时间和空间距离 阈值时,则这两点被归为一类。同时,每一类中的点数不得小于某一点数阈值。以此类推, 得到了若干个时空城市热区Z=(z1,z2,…,n)。
(2.4)基于步骤(2.3)获得的不同时间段内城市热区分布,建立城市热区网络,构建 城市热区矩阵Xz=(z,E)。
(2.5)基于步骤(2.4)构建的城市热区矩阵XZ和步骤(2.2)匹配后的完整的行程记录, 匹配每一条车辆行程所途经的城市热区,记录车辆穿过的城市热区。
计算公式如下:
Figure BDA0003119056460000041
其中,eij表示热区i与热区j在邻接矩阵Z上的值,ε为设定的阈值,并与σ2共同控制邻接 矩阵Z的稀疏程度,dij代表热区i与热区j之间的距离。
进一步地,所述步骤(3)包括以下子步骤:
(3.1)基于匹配后的车辆行程数据,计算不同时间段经过每个热区所对应的平均出发时 间和平均速度,平均出发时间和城市热区的二维矩阵Xd和基于平均速度和城市热区的二维矩 阵Xc如下:
Xc=[xc1 t-T’+1,xc1 t-T’+2,…,xc1 t;xc2 t-T’+1,xc2 t-T’+2,…,xc2 t;…;xcn t-T’+1,xcn t-T’+2,…,xcn t]T,
Xd=[xd1 t-T’+1,xd1 t-T’+2,…,xd1 t;xd2 t-T’+1,xd2 t-T’+2,…,xd2 t;…;xdn t-T’+1,xdn t-T’+2,…,xdn t]T,
其中,T’代表取过去的历史T’个时间段,n表示假设提取了n个热区,xc、xd分别表示某个 时间段内经过某个热区的平均速度和平均出发时间。Xc是基于行程速度的度矩阵,Xd是基于 出发时间的度矩阵。
(3.2)基于构建的平均出发时间和城市热区的特征矩阵Xd和基于平均速度和城市热区的 特征矩阵Xc,结合步骤(2.4)构建的邻接矩阵XZ,构建基于平均出发时间的图Gd=(Xd,Xz) 和基于平均速度的图Gc=(Xc,Xz)。
(3.3)基于构建的平均出发时间的图Gd和基于平均速度的图Gc,提取两个预测任务的时 空相关特征并建模。先进行图神经网络卷积GCN,提取空间特征。然后利用门控循环网络GRU 进行时间特征提取。
将构建的平均出发时间的图Gd=(Xd,Xz)和基于平均速度的图Gc=(Xc,Xz)先输入到图神经 网络卷积GCN中进行训练和计算,对其空间特征进行建模,这里将得到的邻接矩阵XZ用A来表 示,并对A进行拉普拉斯变换得到L,如下:
L=D-A,
其中,A代表计算后得到的邻接矩阵,D代表交通图中每个热区对应的度矩阵;将得到的 拉普拉斯矩阵L进行变换,得到归一化的拉普拉斯矩阵公式如下:
Figure BDA0003119056460000051
其中,I代表单位矩阵,
Figure BDA0003119056460000052
为变换后的拉普拉斯矩阵。
最后该部分输出为:
Figure BDA0003119056460000053
其中,X即为特征矩阵,在本发明中即特征矩阵Xc、Xd。W为权重矩阵,δ为激活函数,
Figure BDA0003119056460000054
为计算所得的输出特征值矩阵。
然后将计算所得
Figure BDA0003119056460000055
输入到门控循环单元中进行计算,对其时间特征进行建模,计算过程 如下:
Figure BDA0003119056460000056
其中,ht-1为上一时刻的状态向量,ht为当前时刻的状态向量。
本发明的有益效果是:本发明在考虑真实交通路网结构的基础上还考虑了不同交通预测 任务间的任务相关性,通过引入多任务学习对这种任务相关性进行建模并预测,更好的对交 通大数据的时空依赖关系进行建模,提高了交通大数据预测的准确度。
附图说明
图1为本发明方法的流程示意图;
图2为本发明的大数据分析和预测平台模型设计流程图。
具体实施方式
下面结合附图对本发明具体实施方式做进一步详细说明。
一种基于多任务学习的交通大数据分析与预测系统,包括数据采集终端、大数据分析和 预测平台、用户终端:
所述数据采集终端包括车载数据采集模块和数据传输模块。所述车载数据采集模块利用 移动采集设备如车载OBD设备采集机动车的车载GPS数据和轨迹数据,并将采集到的车载GPS 数据和轨迹数据都传输到数据传输模块。所述数据传输模块即将车载数据采集模块采集到的 车载GPS数据和轨迹数据传输到数据预处理模块。所述车辆GPS数据包括车辆脱敏后的id、 车辆某段行程开始时间和结束字段、相应出发位置和到达位置的经纬度字段;所述车载数据 采集模块采集到的轨迹数据包括车辆脱敏后的id、车辆每隔一段固定时间的地理位置的经纬 度字段、当前的时间戳和车辆的详细行程轨迹。
所述大数据和预测平台包括数据预处理模块、交通大数据时空建模模块和多任务学习预 测交通大数据模块;所述大数据和预测平台主要是基于多任务学习捕捉多个任务间的相关性 并对任务进行预测;
所述数据预处理模块即先接收数据传输模块所传输的车载GPS数据和轨迹数据,然后基于接 收的车载GPS数据提取出各段行程的速度和行程时间,并匹配GPS数据和轨迹数据,进行车 辆轨迹匹配,得到具有完整起点和终点以及行程轨迹,生成完整的行程记录,得到数据预处 理后的交通大数据;所述数据预处理模块基于完整的行程记录,利用时空聚类算法提取城市 热区,并根据热区间的连接关系构建城市热区空间网络;所述数据预处理模块处理得到的行 程记录包括车辆脱敏后的id、行程的开始时间、行程开始位置、行程中每隔30s的采样轨迹 点对应的点时间和点位置(由经纬度字段组成)、行程结束时间、行程结束位置到达位置经纬 度、平均速度和行程时间。
所述交通大数据时空建模模块即利用深度时空数据建模方法对预处理后的交通大数据进 行时空特征提取,为大数据预测平台打下基础;
所述多任务学习预测模块即利用多任务学习等深度学习方法对已经时空建模了的交通大 数据进行多个任务同时预测,基于历史交通大数据预测未来时间段内的交通数据;
所述用户终端包括预测结果接收模块和用户匹配模块。所述预测结果接收模块即接收大 数据和预测平台输出的预测交通数据,并传输给用户匹配模块。所述用户匹配模块即将得到 的预测交通数据与个人用户进行匹配,将匹配结果输出到个人用户端。
所述车载数据采集模块采集到的车辆GPS数据包括车辆脱敏后的id、车辆某段行程开始 时间和结束字段、相应出发位置和到达位置的经纬度字段;所述车载数据采集模块采集到的 轨迹数据包括车辆脱敏后的id、车辆每隔一段固定时间的地理位置的经纬度字段、当前的时 间戳和车辆的详细行程轨迹。
如图1所示为本发明方法的流程示意图,按如下步骤依次进行:
(1)利用数据采集终端,采用车载OBD设备等移动采集设备采集车辆的车载GPS数据 和轨迹数据,包括车辆脱敏后的id、车辆某段行程开始时间和结束字段、相应出发位置、到 达位置的经纬度字段、车辆每隔一段固定时间的地理位置的经纬度字段、当前的时间戳和车 辆的详细行程轨迹。然后将采集的车载GPS数据和轨迹数据传输到大数据分析和预测平台。
如图2所示为本发明的大数据分析和预测平台模型设计流程图;
(2)大数据分析和预测平台模块,先进行预处理操作。对采集的轨迹行程数据进行每一 条轨迹的行程时间和行程速度的计算,包括以下子步骤:
(2.1)计算每一段GPS行程的平均速度和行程时间,并作为特征添加进对应GPS行程表。
(2.2)利用步骤(2.1)采集的GPS行程表,并根据每一段GPS行程的车辆id、出发时间、到达时间,与轨迹行程进行匹配,还原一段完整的行程记录。
t=StopTime-StartTime
Figure BDA0003119056460000071
其中t为行程的总时间,StopTime为行程的结束时间,StartTime为行程的开始时间,distance (P,Q)为行程起点P(StartLon,StartLat)和行程终点Q(StopLon,StopLat)之间的距离,计算公 式为:
distance(P,Q)=Euclidean(StαrtLon,StopLon,StartLat,StopLat)
其中,StartLon为行程的起点经度,StartLat为行程的起点纬度,StopLon为行程的终点经 度,StopLat为行程的终点纬度。
其次对采集的轨迹行程数据进行数据清洗,筛选出了行程时间大于五分钟的行程。匹配 GPS数据和轨迹数据后,生成完整的行程记录,其中包括车辆脱敏后的id、行程的开始时间、 行程开始位置、行程中每隔30s的采样轨迹点对应的点时间和点位置(由经纬度字段组成)、 行程结束时间、行程结束位置到达位置经纬度、平均速度和行程时间。
(2.3)基于步骤(2.2)生成的完整的行程记录,采用时空聚类算法(本实施例中采用 ST-DBSCAN聚类算法)对行程记录聚类,提取出城市中不同时间段的热区分布,并构建相应的热区矩阵。ST-DBSCAN聚类算法是一种改进的DBSCAN算法,在原有算法的基础上, 还引入了时间上的距离来对时空数据进行聚类,适用于如本发明中提到的车辆行程数据。在ST-DBSCAN聚类算法中,聚类参数EPS1和EPS2如下:
EPS1=Euclidean(Lon1,Lat1,Lon2,Lat2),
Figure BDA0003119056460000072
其中,Lon1、Lat1、t1分别为行程中某点P的经度、纬度、出发时间、时间戳,Lon2、Lat2、 t2为行程中某点Q的经度、纬度、出发时间、时间戳。
(2.4)基于步骤(2.3)获得的不同时间段内城市热区分布,建立城市热区网络,构建 城市热区矩阵Xz=(z,E)。其中z表示所获得的城市热区为:Z=(z1,z2,…,zn),n表示共提取了n个城市热区。E表示城市热区间的连接关系。如果城市热区之间有连接,则E取值为1; 若无连接,则E取值为0。当EPS1和EPS2均小于时间和空间距离阈值时,则这两点被归为一类。 同时,每一类中的点数不得小于某一点数阈值。以此类推,可以得到若干个时空城市热区 Z=(z1,z2,…,n)。
(2.5)基于步骤(2.4)构建的城市热区矩阵XZ和步骤(2.2)匹配后的完整的行程记录, 匹配每一条车辆行程所途经的城市热区,记录车辆穿过的城市热区。
将每个热区中心点的位置视为一个节点,并将其位置信息按照经纬度的形式汇总表示, 计算得到不同热区之间的距离,再根据计算得到的距离计算确定邻接矩阵上是否有边,如果 两个中心点之间的距离大于等于阈值则认定这两个热区之间是相互连接的,即在邻接矩阵上 存在边;如果两个中心点之间的距离小于阈值则认定这两个热区之间是不连接的,即在邻接 矩阵上不存在边。计算公式如下:
Figure BDA0003119056460000081
其中,eij表示热区i与热区j在邻接矩阵Z上的值,ε为设定的阈值,并与σ2共同控制邻接 矩阵Z的稀疏程度,dij代表热区i与热区j之间的距离(即两个热区中心点之间的距离)。
(3)在大数据分析和预测平台模块,进行交通大数据时空建模操作。包括以下子步骤:
(3.1)基于匹配后的车辆行程数据,计算不同时间段经过每个热区所对应的平均出发时 间和平均速度,即在不同的时间段内,具体何时经过该热区和驶过该热区的平均速度,结合 城市热区矩阵即邻接矩阵XZ构建基于平均出发时间和城市热区的二维矩阵Xd和基于平均速度 和城市热区的二维矩阵Xc,即基于平均出发时间的图的特征矩阵Xd和基于平均速度的图的特 征矩阵Xc
平均出发时间和城市热区的二维矩阵Xd和基于平均速度和城市热区的二维矩阵Xc如下:
Xc=[xc1 t-T’+1,xc1 t-T’+2,…,xc1 t;xc2 t-T’+1,xc2 t-T’+2,…,xc2 t;…;xcn t-T’+1,xcn t-T’+2,…,xcn t]T,
Xd=[xd1 t-T’+1,xd1 t-T’+2,…,xd1 t;xd2 t-T’+1,xd2 t-T’+2,…,xd2 t;…;xdn t-T’+1,xdn t-T’+2,…,xdn t]T,
其中T’代表取过去的历史T’个时间段,n表示假设提取了n个热区,xc、xd分别表示某个时 间段内经过某个热区的平均速度和平均出发时间。Xc是基于行程速度的度矩阵,Xd是基于出 发时间的度矩阵。
(3.2)基于构建的平均出发时间和城市热区的特征矩阵Xd和基于平均速度和城市热区的 特征矩阵Xc,结合步骤(2.4)构建的邻接矩阵XZ,构建基于平均出发时间的图Gd=(Xd,Xz) 和基于平均速度的图Gc=(Xc,Xz)。
(3.3)基于构建的平均出发时间的图Gd和基于平均速度的图Gc,提取两个预测任务的时 空相关特征并建模。先进行图神经网络卷积GCN(Graph Convolution Network),提取空间 特征。然后利用门控循环网络GRU(Gated Recurrent Unit)进行时间特征提取。
将构建的平均出发时间的图Gd=(Xd,Xz)和基于平均速度的图Gc=(Xc,Xz)先输入到图神经 网络卷积GCN中进行训练和计算,对其空间维度上的特征进行建模,这里将得到的邻接矩阵 XZ用A来表示,并对A进行拉普拉斯变换得到L,如下:
L=D-A,
其中,A代表计算后得到的邻接矩阵,D代表交通图中每个热区对应的度矩阵;将得到的 拉普拉斯矩阵L进行变换,得到归一化的拉普拉斯矩阵公式如下:
Figure BDA0003119056460000091
其中,I代表单位矩阵,
Figure BDA0003119056460000092
为变换后的拉普拉斯矩阵。
最后该部分输出为:
Figure BDA0003119056460000093
其中,X即为特征矩阵,在本发明中即特征矩阵Xc、Xd。W为权重矩阵,δ为激活函数,
Figure BDA0003119056460000094
为计算所得的输出特征值矩阵。
然后将计算所得
Figure BDA0003119056460000095
输入到门控循环单元(GRU)中进行计算,对其时间维度上的特征进 行建模,计算过程如下:
Figure BDA0003119056460000096
其中,ht-1为上一时刻的状态向量,ht为当前时刻的状态向量。
(4)在大数据分析和预测平台中,利用多任务学习预测模块预测步骤(2)得到交通大 数据,将步骤(3)提取的空间特征和时间特征输入到多任务学习神经网络中,通过多任务学 习神经网络挖掘任务间的潜在的相关性,采用多任务学习提取任务依赖性,从而在任务中发 挥作用,使每个单独的任务受益。学习并建模两个预测任务之间的任务相关性有利于提高预 测精确度,最终多任务学习模型输出未来每个热区不同时间段内的行程速度和平均出发时间。
(5)通过用户终端,基于预测所得未来时间段的各个热区所对应的平均出发时间和平均 速度,匹配个人用户轨迹,对经过热区的用户进行出发时间的推荐和建议,如几点出发将会 获得最少的行程时间,建议用户在推荐时间内出行,减少用户在行程上所花费的等待时间。

Claims (5)

1.一种基于多任务学习的交通大数据分析与预测系统,其特征在于,包括数据采集终端、大数据分析和预测平台、用户终端:
所述数据采集终端包括车载数据采集模块和数据传输模块;所述车载数据采集模块采集机动车的车载GPS数据和轨迹数据,并将采集到的车载GPS数据和轨迹数据都传输到数据传输模块;所述数据传输模块即将车载数据采集模块采集到的车载GPS数据和轨迹数据传输到数据预处理模块;
所述大数据分析和预测平台包括数据预处理模块、交通大数据时空建模模块和多任务学习预测交通大数据模块;所述大数据分析和预测平台主要是基于多任务学习捕捉多个任务间的相关性并对任务进行预测;
所述数据预处理模块先接收数据传输模块所传输的车载GPS数据和轨迹数据,然后基于接收的车载GPS数据提取出各段行程的速度和行程时间,生成完整的行程记录,得到数据预处理后的交通大数据;所述数据预处理模块基于完整的行程记录,利用时空聚类算法提取城市热区,并根据热区间的连接关系构建城市热区空间网络;
得到交通大数据的过程具体为:
计算每一段GPS行程的平均速度和行程时间,并作为特征添加进对应GPS行程表;
利用采集的GPS行程表,并根据每一段GPS行程的车辆id、出发时间、到达时间,与轨迹行程进行匹配,还原一段完整的行程记录;
t=StopTime-StartTime
Figure FDA0003714947240000011
其中t为行程的总时间,StopTime为行程的结束时间,StartTime为行程的开始时间,distance(P,Q)为行程起点P(StartLon,StartLat)和行程终点Q(StopLon,StopLat)之间的距离,计算公式为:
distance(P,Q)=Euclidean(StartLon,StopLon,StartLat,StopLat)
其中,StartLon为行程的起点经度,StartLat为行程的起点纬度,StopLon为行程的终点经度,StopLat为行程的终点纬度;
其次对采集的轨迹行程数据进行数据清洗,筛选出了行程时间大于五分钟的行程;匹配GPS数据和轨迹数据后,生成完整的行程记录;
基于生成的完整的行程记录,采用时空聚类算法对行程记录聚类,提取出城市中不同时间段的热区分布,并构建相应的热区矩阵;在时空聚类算法中,聚类参数EPS1和EPS2如下:
EPS1=Euclidean(Lon1,Lat1,Lon2,Lat2),
Figure FDA0003714947240000021
其中,Lon1、Lat1、t1分别为行程中某点P的经度、纬度、时间戳,Lon2、Lat2、t2为行程中某点Q的经度、纬度、时间戳;当EPS1和EPS2均小于时间和空间距离阈值时,则这两点被归为一类;同时,每一类中的点数不得小于某一点数阈值;以此类推,得到了若干个时空城市热区Z=(z1,z2,…,zn);
基于获得的不同时间段内城市热区分布,建立城市热区网络,构建城市热区矩阵Xz=(z,E);
基于构建的城市热区矩阵XZ和匹配后的完整的行程记录,匹配每一条车辆行程所途经的城市热区,记录车辆穿过的城市热区;
计算公式如下:
Figure FDA0003714947240000022
其中,eij表示热区i与热区j在邻接矩阵Z上的值,ε为设定的阈值,并与σ2共同控制邻接矩阵Z的稀疏程度,dij代表热区i与热区j之间的距离;
所述交通大数据时空建模模块利用深度时空数据建模方法对预处理后的交通大数据进行时空特征提取,为大数据预测平台打下基础;
所述多任务学习预测模块利用多任务学习在内的深度学习方法对预处理后的交通大数据进行多个任务同时预测,基于历史交通大数据预测未来时间段内的交通数据;
所述用户终端包括预测结果接收模块和用户匹配模块;所述预测结果接收模块接收大数据分析和预测平台输出的预测交通数据,并传输给用户匹配模块;所述用户匹配模块将得到的预测交通数据与个人用户进行匹配,将匹配结果输出到个人用户端。
2.根据权利要求1所述的基于多任务学习的交通大数据分析与预测系统,其特征在于,所述车载数据采集模块采集到的车辆GPS数据包括车辆脱敏后的id、车辆某段行程开始时间和结束字段、相应出发位置和到达位置的经纬度字段;所述车载数据采集模块采集到的轨迹数据包括车辆脱敏后的id、车辆每隔一段固定时间的地理位置的经纬度字段、当前的时间戳和车辆的详细行程轨迹。
3.根据权利要求1所述的基于多任务学习的交通大数据分析与预测系统,其特征在于,所述数据预处理模块处理得到的行程记录包括车辆脱敏后的id、行程的开始时间、行程开始位置、行程中每隔30s的采样轨迹点对应的点时间和点位置、行程结束时间、行程结束位置到达位置经纬度、平均速度和行程时间。
4.根据权利要求1所述的基于多任务学习的交通大数据分析与预测系统,其特征在于,基于所述系统的交通大数据分析与预测方法包括如下步骤:
(1)利用数据采集终端,采用移动采集设备采集车辆的车载GPS数据和轨迹数据,然后将采集的车载GPS数据和轨迹数据传输到大数据分析和预测平台;
(2)在大数据分析和预测平台中,先利用数据预处理模块进行预处理操作,对采集的车载GPS数据和轨迹数据进行每一条轨迹的行程时间和行程速度的计算,得到交通大数据;
(3)在大数据分析和预测平台中,进行交通大数据时空建模操作;先根据处理后的车辆行程数据,实施基于时空聚类算法的城市热区提取,获取不同时间段内相应的城市热区及热区之间的连接关系,构建图的邻接矩阵;其次获取不同时间段内通过每个热区所需的时间,和通过每个热区的不同时间段内的平均出发时间,构建基于平均出发时间和城市热区的二维矩阵Xd和基于平均速度和城市热区的二维矩阵Xc,即图的特征矩阵;然后基于邻接矩阵和特征矩阵构建基于平均出发时间的图Gd和基于平均速度的图Gc,将图Gd和图Gc输入到图卷积神经网络中进行训练,提取空间特征;最后将所述空间特征的时间序列输入到门控循环单元GRU中,通过单元之间的信息传递获得时间上的动态特征;
(4)在大数据分析和预测平台中,利用多任务学习预测模块预测步骤(2)得到交通大数据,将步骤(3)提取的空间特征和时间特征输入到多任务学习神经网络中,通过多任务学习神经网络挖掘任务间的潜在的相关性,从而在任务中发挥作用,使每个单独的任务受益,最终多任务学习模型输出未来每个热区不同时间段内的行程速度和平均出发时间;
(5)通过用户终端,基于预测所得未来时间段的各个热区所对应的平均出发时间和平均速度,匹配个人用户轨迹,对经过热区的用户进行出发时间的推荐和建议。
5.根据权利要求4所述的交通大数据分析与预测系统,其特征在于,所述步骤(3)包括以下子步骤:
(3.1)基于匹配后的车辆行程数据,计算不同时间段经过每个热区所对应的平均出发时间和平均速度,平均出发时间和城市热区的二维矩阵Xd和基于平均速度和城市热区的二维矩阵Xc如下:
Xc=[xc1 t-T’+1,xc1 t-T’+2,…,xc1 t;xc2 t-T’+1,xc2 t-T’+2,…,xc2 t;…;xcn t-T’+1,xcn t-T’+2,…,xcn t]T,
Xd=[xd1 t-T’+1,xd1 t-T’+2,…,xd1 t;xd2 t-T’+1,xd2 t-T’+2,…,xd2 t;…;xdn t-T’+1,xdn t-T’+2,…,xdn t]T,
其中,T’代表取过去的历史T’个时间段,n表示假设提取了n个热区,xc、xd分别表示某个时间段内经过某个热区的平均速度和平均出发时间;Xc是基于行程速度的度矩阵,Xd是基于出发时间的度矩阵;
(3.2)基于构建的平均出发时间和城市热区的特征矩阵Xd和基于平均速度和城市热区的特征矩阵Xc,结合构建的邻接矩阵XZ,构建基于平均出发时间的图Gd=(Xd,Xz)和基于平均速度的图Gc=(Xc,Xz);
(3.3)基于构建的平均出发时间的图Gd和基于平均速度的图Gc,提取两个预测任务的时空相关特征并建模;先进行图神经网络卷积GCN,提取空间特征;然后利用门控循环网络GRU进行时间特征提取;
将构建的平均出发时间的图Gd=(Xd,Xz)和基于平均速度的图Gc=(Xc,Xz)先输入到图神经网络卷积GCN中进行训练和计算,对其空间特征进行建模,将得到的邻接矩阵XZ用A来表示,并对A进行拉普拉斯变换得到L,如下:
L=D-A,
其中,A代表计算后得到的邻接矩阵,D代表交通图中每个热区对应的度矩阵;将得到的拉普拉斯矩阵L进行变换,得到归一化的拉普拉斯矩阵公式如下:
Figure FDA0003714947240000041
其中,I代表单位矩阵,
Figure FDA0003714947240000042
为变换后的拉普拉斯矩阵;
最后图神经网络卷积GCN变换输出为:
Figure FDA0003714947240000043
其中,X即为特征矩阵,即特征矩阵Xc、Xd,W为权重矩阵,δ为激活函数,
Figure FDA0003714947240000044
为计算所得的输出特征值矩阵;
然后将计算所得
Figure FDA0003714947240000045
输入到门控循环单元中进行计算,对其时间特征进行建模,计算过程如下:
Figure FDA0003714947240000046
其中,ht-1为上一时刻的状态向量,ht为当前时刻的状态向量。
CN202110670570.1A 2021-06-17 2021-06-17 一种基于多任务学习的交通大数据分析与预测系统及方法 Active CN113470352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110670570.1A CN113470352B (zh) 2021-06-17 2021-06-17 一种基于多任务学习的交通大数据分析与预测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110670570.1A CN113470352B (zh) 2021-06-17 2021-06-17 一种基于多任务学习的交通大数据分析与预测系统及方法

Publications (2)

Publication Number Publication Date
CN113470352A CN113470352A (zh) 2021-10-01
CN113470352B true CN113470352B (zh) 2022-10-21

Family

ID=77870158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110670570.1A Active CN113470352B (zh) 2021-06-17 2021-06-17 一种基于多任务学习的交通大数据分析与预测系统及方法

Country Status (1)

Country Link
CN (1) CN113470352B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344628B (zh) * 2022-08-15 2023-03-31 北京索为云网科技有限公司 一种时空信息系统
CN115565376B (zh) * 2022-09-30 2024-05-03 福州大学 融合graph2vec、双层LSTM的车辆行程时间预测方法及系统
CN116151489B (zh) * 2023-04-19 2023-07-21 之江实验室 基于多任务学习的车辆停留行为分析与预测方法、系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107464417A (zh) * 2017-07-27 2017-12-12 温州市鹿城区中津先进科技研究院 基于出行路径大数据分析的交通调度管控方法
CN110555544A (zh) * 2019-07-16 2019-12-10 广东工业大学 一种基于gps导航数据的交通需求估计方法
CN111653088A (zh) * 2020-04-21 2020-09-11 长安大学 一种车辆出行量预测模型构建方法及预测方法和系统
CN111696355A (zh) * 2020-06-29 2020-09-22 中南大学 动态图卷积交通速度预测方法
CN112382081A (zh) * 2020-09-30 2021-02-19 浙江高速信息工程技术有限公司 一种基于多任务的交通流量预测方法
CN112419710A (zh) * 2020-10-22 2021-02-26 深圳云天励飞技术股份有限公司 交通拥堵数据预测方法、装置、计算机设备及存储介质
CN112486687A (zh) * 2020-12-03 2021-03-12 重庆邮电大学 一种基于多任务学习时间序列的云平台工作负载预测方法
CN112562339A (zh) * 2020-12-09 2021-03-26 福州大学 基于多任务图卷积网络的鲁棒性交通流预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9349150B2 (en) * 2013-12-26 2016-05-24 Xerox Corporation System and method for multi-task learning for prediction of demand on a system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107464417A (zh) * 2017-07-27 2017-12-12 温州市鹿城区中津先进科技研究院 基于出行路径大数据分析的交通调度管控方法
CN110555544A (zh) * 2019-07-16 2019-12-10 广东工业大学 一种基于gps导航数据的交通需求估计方法
CN111653088A (zh) * 2020-04-21 2020-09-11 长安大学 一种车辆出行量预测模型构建方法及预测方法和系统
CN111696355A (zh) * 2020-06-29 2020-09-22 中南大学 动态图卷积交通速度预测方法
CN112382081A (zh) * 2020-09-30 2021-02-19 浙江高速信息工程技术有限公司 一种基于多任务的交通流量预测方法
CN112419710A (zh) * 2020-10-22 2021-02-26 深圳云天励飞技术股份有限公司 交通拥堵数据预测方法、装置、计算机设备及存储介质
CN112486687A (zh) * 2020-12-03 2021-03-12 重庆邮电大学 一种基于多任务学习时间序列的云平台工作负载预测方法
CN112562339A (zh) * 2020-12-09 2021-03-26 福州大学 基于多任务图卷积网络的鲁棒性交通流预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于轨迹聚类的城市热点区域提取与分析方法研究;赵鹏祥;《中国博士学位论文全文数据库 基础科学辑》;20170315(第03期);第3-8、27页 *

Also Published As

Publication number Publication date
CN113470352A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN113470352B (zh) 一种基于多任务学习的交通大数据分析与预测系统及方法
CN108629978B (zh) 一种基于高维路网和循环神经网络的交通轨迹预测方法
CN110827544A (zh) 一种基于图卷积循环神经网络的短时交通流控制方法
CN112257934A (zh) 一种基于时空动态神经网络的城市人流预测方法
EP2590151A1 (en) A framework for the systematic study of vehicular mobility and the analysis of city dynamics using public web cameras
CN112863182B (zh) 基于迁移学习的跨模态数据预测方法
CN110836675B (zh) 一种基于决策树的自动驾驶搜索决策方法
CN110837973B (zh) 一种基于交通出行数据的人类出行选择信息挖掘方法
CN111275962B (zh) 车辆轨迹数据聚集效应预测方法及装置
CN112906948B (zh) 一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质
CN112598165B (zh) 基于私家车数据的城市功能区转移流量预测方法及装置
CN113780665B (zh) 一种基于增强循环神经网络的私家车停留位置预测方法和系统
CN115565369B (zh) 一种基于超图的时空超图卷积交通流量预测方法及系统
CN112529284A (zh) 基于神经网络的私家车停留时间预测方法、设备及介质
Dai et al. Spatio-temporal deep learning framework for traffic speed forecasting in IoT
CN114461931A (zh) 一种基于多关系融合分析的用户轨迹预测方法和系统
CN113159371B (zh) 基于跨模态数据融合的未知目标特征建模与需求预测方法
CN115204477A (zh) 一种上下文感知图递归网络的自行车流量预测方法
CN113327417B (zh) 基于3d动态时空残差卷积关联网络的交通流预测方法
CN104778355B (zh) 基于广域分布交通系统的异常轨迹检测方法
CN115456238A (zh) 一种基于动态多视图耦合图卷积的城市出行需求预测方法
Chen et al. Stay of interest: A dynamic spatiotemporal stay behavior perception method for private car users
CN115796030A (zh) 一种基于图卷积的交通流量预测方法
Miao et al. A queue hybrid neural network with weather weighted factor for traffic flow prediction
CN111427932B (zh) 出行预测方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant