CN112967495A - 一种基于移动轨迹大数据的短时交通流量预测方法及系统 - Google Patents

一种基于移动轨迹大数据的短时交通流量预测方法及系统 Download PDF

Info

Publication number
CN112967495A
CN112967495A CN202110127088.3A CN202110127088A CN112967495A CN 112967495 A CN112967495 A CN 112967495A CN 202110127088 A CN202110127088 A CN 202110127088A CN 112967495 A CN112967495 A CN 112967495A
Authority
CN
China
Prior art keywords
data
traffic flow
road section
target road
parallel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110127088.3A
Other languages
English (en)
Other versions
CN112967495B (zh
Inventor
夏大文
杨楠
周号益
李华青
蒋顺英
成蕤君
郑永玲
白宇
高晓楠
王林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Minzu University
Original Assignee
Guizhou Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Minzu University filed Critical Guizhou Minzu University
Priority to CN202110127088.3A priority Critical patent/CN112967495B/zh
Publication of CN112967495A publication Critical patent/CN112967495A/zh
Application granted granted Critical
Publication of CN112967495B publication Critical patent/CN112967495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0129Traffic data processing for creating historical data or processing based on historical data
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/065Traffic control systems for road vehicles by counting the vehicles in a section of the road or in a parking area, i.e. comparing incoming count with outgoing count
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于移动轨迹大数据的短时交通流量预测方法及系统,方法包括:S1:对交通移动轨迹数据进行数据预处理,得到训练数据;S2:根据所述训练数据,构建在Spark框架下基于正态分布和注意力机制加权的并行NAW‑DBLSTM算法;S3:基于RDD执行所述并行NAW‑DBLSTM算法,并输出预测结果。构建Spark框架下基于正态分布和注意力机制加权的并行NAW‑DBLSTM算法,再结合RDD执行并行NAW‑DBLSTM算法,考虑各路段之间空间相关性的影响权重以及捕捉交通流量非线性特征的能力,输出预测结果,有效地提高短时交通流量预测的准确性和鲁棒性,解决了移动轨迹大数据的分布式存储和并行计算的技术问题。

Description

一种基于移动轨迹大数据的短时交通流量预测方法及系统
技术领域
本发明涉及交通流量预测领域,尤其涉及一种基于移动轨迹大数据的短时交通流量预测方法及系统。
背景技术
交通流量预测是智能交通系统(ITSs)和先进交通管理系统(ATMSs)的重要组成部分。获取及时准确的交通流量信息是实现交通控制和制定交通管理的关键,通过预测未来的交通状况,进而设计有效的交通组织策略来缓解交通拥堵,提高城市交通系统的服务水平和效率。传统的集中式挖掘平台下交通流量预测算法在处理移动轨迹(出租车轨迹)大数据时存在计算存储问题且预测精度较低,以及面对现有串行预测算法在交通流量预测中仍存在一定的局限性,极易出现“内存消耗和I/O开销高、性能低和可靠性差”等技术问题。同时,交通流量不仅仅受上游和下游的影响,各路段之间也存在空间相关性。现有的交通流量预测方法并没有考虑各路段之间空间相关性的影响权重,以及难以捕捉交通流量的非线性特征,从而导致交通流量预测精度低的技术问题。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种基于移动轨迹大数据的短时交通流量预测方法及系统,提高短时交通流量预测的准确性和鲁棒性,在考虑各路段之间空间相关性影响权重的同时捕捉交通流量的非线性特征,以及解决集中式挖掘平台下交通流量预测算法在处理大样本数据时存在的内存消耗高、计算耗时的技术问题。
本发明解决上述技术问题的技术方案如下:一种基于移动轨迹大数据的短时交通流量预测方法,包括以下步骤:
S1:对交通移动轨迹数据进行数据预处理,得到训练数据;
S2:根据所述训练数据,构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法;
S3:基于RDD执行所述并行NAW-DBLSTM算法,并输出预测结果。
本发明的有益效果是,构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法,结合RDD执行并行NAW-DBLSTM算法,考虑各路段之间空间相关性的影响权重以及捕捉交通流量非线性特征的能力,输出预测结果,有效地提高短时交通流量预测的准确性和鲁棒性,解决了移动轨迹大数据的分布式存储和并行计算的技术问题。
进一步,所述S1具体包括:
S101:基于Spark中的RDD弹性分布数据集,提取所述交通移动轨迹数据中目标路段在当前时间间隔t内的车辆移动轨迹;
S102:根据所述车辆移动轨迹,统计各个目标路段在当前时间间隔t内的车辆数量;
S103:将所述各个路段在当前时间间隔t内的车辆数量进行排序并进行平滑处理,得到训练数据。
采用上述进一步方案的有益效果是,基于Spark中RDD弹性分布数据集对交通移动轨迹数据进行数据处理并进行平滑处理,得到训练数据,通过RDD中的算子进行数据计算处理从而获取所选路段的车辆数量,减小获取的轨迹数据与原始数据之间的差异和降低对预测算法精度的影响。通过在Hadoop分布式计算平台下,基于Spark并行处理框架解决了集中式挖掘平台下交通流量预测算法在处理大样本数据时存在的内存消耗高、计算耗时的技术问题。
进一步,S101具体包括:
S1011:读取上传至HDFS文件中的交通移动轨迹数据,并转换为Spark中的一个或多个RDD弹性分布数据集;
S1012:使用flatMap算子将各个结点上的数据转换为key1=时间和车辆ID,value1=目标路段编号的键值对<key1,value1>;
S1013:过滤不属于目标路段的交通移动轨迹数据;
S1014:使用sortByKey算子对过滤后的交通移动轨迹数据进行时间和车辆ID排序后,去除当前时间间隔内同一车辆的重复数据,获得目标路段在当前时间间隔t内的车辆移动轨迹。
采用上述进一步方案的有益效果是,将采集的交通移动轨迹数据在Hadoop分布式计算平台下,基于Spark并行处理框架进行预处理,通过读取HDFS中的数据创建多个RDD去除重复数据,减少计算量,解决交通流量大数据的分布式存储和并行计算的技术问题。
进一步,S102具体包括:
S1021:将分布在各个结点上的目标路段在当前时间间隔t内的车辆移动轨迹使用flatMap算子转换为key2=时间和区域编号,value2则增加计数1的键值对<key2,value2>;
S1022:使用reduceByKey算子按照时间和区域编号进行统计,得到各个目标路段在当前时间间隔t内的车辆数量。
进一步,所述S103具体包括:
S1031:将分布在各个结点上的数据使用flatMap算子转换为key3=时间间隔,value3=各目标路段的车辆总数的键值对<key3,value3>;
S1032:使用sortByKey算子将所述各个路段在当前时间间隔t内的车辆数量进行排序并进行平滑处理,得到所述训练数据。
采用上述进一步方案的有益效果是,通过RDD算子最终得到目标路段在预设时间间隔t的交通流量,减少获得的轨迹数据与原始数据之间的差异,降低对预测算法精度的影响。
进一步,所述S2具体包括:
S201:使用正态分布计算各路段之间的空间相关性,得到各路段对目标路段的影响权重;
S202:基于所述目标路段的影响权重,使用注意力机制计算目标路段具有高影响特征的注意力权重;
S203:使用时间窗口将所述训练数据和所述注意力权重值添加到DBLSTM进行训练,以构建所述并行NAW-DBLSTM算法。
采用上述进一步方案的有益效果是,通过正态分布计算各路段之间的空间相关性,得到各路段对目标路段的影响权重;接着,利用注意力机制计算目标路段具有高影响特征的注意力权重;最后,利用时间窗口将交通流量及其注意力权重值添加到DBLSTM进行训练,以提高短时交通流量预测的准确性,解决现有的交通流量预测方法并没有考虑路段间空间相关性影响权重,以及难以捕捉交通流量的非线性特征,从而导致交通流量预测精度低的技术问题。
进一步,所述S201具体包括:
S2011:使用正态分布计算各路段对目标路段的影响权重W,Xn为第n个路段的交通流量,μ为目标路段的交通流量,其计算公式如下:
Figure BDA0002924454520000041
采用上述进一步方案的有益效果是,由于交通流量不仅受上游和下游的影响,而且各路段之间具有空间相关性,利用正态分布中当样本点x越靠近参数μ,则该点权值也就越大这一性质,计算各路段对目标路段的影响权重,能较好地体现交通流量大数据的性质。
进一步,所述S202具体包括:
S2021:使用注意力机制计算具有高影响特征的权重值
Figure BDA0002924454520000051
通过注意力机制的Softmax函数突出对目标路段具有高影响特征的权重,其计算公式如下:
Figure BDA0002924454520000052
采用上述进一步方案的有益效果是,通过注意力机制中的Softmax函数进行归一化,得到所有权重系数之和为1的概率分布。同时,突出对目标路段具有高影响特征的权重,以提高预测精度。
进一步,所述S203具体包括:
S2031:采用时间间隔为t-4、t-3、t-2、t-1、t,将经注意力机制加权后的时间序列
Figure BDA0002924454520000053
作为输入层的输入添加到DBLSTM神经网络中进行训练,其中,由时间间隔为t-4、t-3、t-2、t-1、t组成的时间序列
Figure BDA0002924454520000054
是基于目标路段i在当前时间间隔t的交通流量
Figure BDA0002924454520000055
提取目标路段i在当前时间间隔t内相邻历史时间间隔的交通流量
Figure BDA0002924454520000056
组成大小为5的时间窗口,如下:
Figure BDA0002924454520000057
采用上述进一步方案的有益效果是,基于目标路段i在预设时间间隔t的交通流量
Figure BDA0002924454520000058
并依次提取目标路段i在预设时间间隔t相邻历史时间间隔的交通流量
Figure BDA0002924454520000059
组成大小为5的窗口而实现交通流量预测,并采用时间间隔为t-4、t-3、t-2、t-1、t,将经注意力机制加权后的时间序列
Figure BDA00029244545200000510
作为输入层的输入添加到DBLSTM神经网络中进行训练,以提高预测精度。
进一步,所述并行NAW-DBLSTM算法包括:
Figure BDA00029244545200000511
Figure BDA00029244545200000512
Figure BDA00029244545200000513
Figure BDA00029244545200000514
ht=oth(ct)
Figure BDA0002924454520000061
Figure BDA0002924454520000062
Figure BDA0002924454520000063
其中,it为当前时间步长输出的输入门、ft为遗忘门、ct为细胞状态、ot为输出门和ht为隐含层输出,σ(·)表示sigmoid激活函数,h为隐藏向量序列,H为激活函数,W表示权值矩阵,b为偏置向量,
Figure BDA0002924454520000064
Figure BDA0002924454520000065
为t时间间隔第n层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出,
Figure BDA0002924454520000066
Figure BDA0002924454520000067
为t-1时间间隔第n层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出,
Figure BDA0002924454520000068
Figure BDA0002924454520000069
为t时间间隔第n-1层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出,
Figure BDA00029244545200000610
Figure BDA00029244545200000611
为第n-1层正向隐藏状态和反向隐藏状态,yt为输出向量,
Figure BDA00029244545200000612
Figure BDA00029244545200000613
为第N(N=7)层的正向隐藏状态和反向隐藏状态,
Figure BDA00029244545200000614
Figure BDA00029244545200000615
为t时间间隔第N(N=7)层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出。
采用上述进一步方案的有益效果是,在通过正态分布和注意力机制得到各路段间的空间相关性影响权重,利用时间窗口将交通流量及其注意力权重值添加到DBLSTM进行训练,解决现有的交通流量预测方法并没有考虑路段间空间相关性影响权重,以及难以捕捉交通流量的非线性特征,从而导致交通流量预测精度低的技术问题。
本发明还提供一种基于移动轨迹大数据的短时交通流量预测系统,包括数据预处理模块、并行算法构建模块和预测模块;
所述数据预处理模块用于对交通移动轨迹数据进行数据预处理,得到训练数据;
所述并行算法构建模块用于根据所述训练数据,构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法;
所述预测模块用于基于RDD执行所述并行NAW-DBLSTM算法,并输出预测结果。
本发明的有益效果是,构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法,再结合RDD执行并行NAW-DBLSTM算法,考虑各路段之间空间相关性的影响权重以及捕捉交通流量非线性特征的能力,输出预测结果,有效地提高短时交通流量预测的准确性和鲁棒性,解决了移动轨迹大数据的分布式存储和并行计算的技术问题。
附图说明
图1为本发明一种基于移动轨迹大数据的短时交通流量预测方法的流程图;
图2为本发明步骤S1的具体处理步骤流程图;
图3为本发明步骤S2的具体处理步骤流程图;
图4为本发明步骤S3的具体处理步骤流程图;
图5为本发明Hadoop通过HDFS、Spark分别实现分布式存储和并行计算的功能图;
图6为本发明HDFS进程通信框架图;
图7为本发明Spark并行计算框架流程图;
图8为本发明Spark集群组成图;
图9为本发明Spark中RDD的存储架构图;
图10为本发明Spark中的RDD转化流程图;
图11为本发明实施例提供的一种基于移动轨迹大数据的短时交通流量预测系统结构示意图。
本发明中名词解释如表1所示:
表1
Figure BDA0002924454520000071
Figure BDA0002924454520000081
Figure BDA0002924454520000091
Figure BDA0002924454520000101
Figure BDA0002924454520000111
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
Apache Hadoop架构:
Apache Hadoop是一种可靠、可扩展的开源分布式计算架构,能在由大量廉价硬件所组成的集群中为应用程序提供稳定可靠的接口。它充分利用集群的计算与存储能力,构建可靠性高、容错性强、可伸缩和可扩展的大数据批量处理架构,实现大规模数据的分布式存储与并行计算。
HDFS和MapReduce是Hadoop架构的核心组件,也是基于GFS(Google File System,谷歌文件系统)和Google MapReduce的开源实现。Hadoop通过HDFS、MapReduce分别实现分布式存储和并行计算,并由NameNode和DataNode完成HDFS功能、JobTracker和TaskTracker完成MapReduce功能参照图5。此外,Hadoop还包括Hadoop Common、Hadoop YARN、Ambari、Avro、Cassandra、Chukwa、HBase、Hive、Mahout、Pig、Spark、Tez和ZooKeeper等。
Hadoop分布式文件系统(HDFS):
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是一种可部署在廉价硬件上实现高吞吐量并行数据访问的分布式文件系统,能提供高性能、强容错、可靠的存储大规模数据。参照图6,HDFS采用Master(服务器)/Slave(客户端)运行模式,由一个NameNode(管理者)节点、多个DataNode(工作者)节点和HDFS Client组成,并通过Hadoop的RPC机制实现NameNode、DataNode与HDFS Client进程之间的通信。
Spark并行计算框架:
Spark是一种快速、通用的分布式大数据处理(集群)框架(如图7和图8所示),其基于内存计算以及粗粒度的RDD(resilient distributed datasets)机制非常适合于迭代型的分布式计算。RDD中包含两种操作算子:转换算子(transformation),常见的方法有map、filter、takeSample。执行算子(action),常见的方法有collect、reduceByKey、saveAsTextFile。针对Spark大量网络传输和磁盘I/O导致效率低的缺陷,Spark内存计算的特性使其在大数据环境下能更快速地处理数据和实时查询分析结果。Spark是针对Map/Reduce在处理迭代式算法时效率较低问题时提出的新的内存计算框架,在保留Map/Reduce相关特性的基础上,Spark基于内存的集群方式较Map/Reduce运行速率快100倍。更为重要的是Spark由于其基于内存的特性,能够大量部署在廉价的机器上进而形成一个大规模集群。在实际应用中,Spark框架具有较强的灵活性。
基于内存的分布式计算框架Spark的核心是弹性分布式数据集RDD,RDD提供的接口是Spark的超集,它是对集群上并行处理数据的分布式内存的抽象,保证了容错健壮性和高可伸缩性。一个RDD代表一个被分区的只读数据集。一个RDD的生成只有两种途径。一是来自内部集合和外部存储系统,另一种是通过转换操作来自其他RDD。通常抽象的RDD包含partition,preferredLocations(p),dependencies(),compute(p,context),partitioner()五个接口,一个Spark数据处理程序主要经过RDD的创建操作,转换操作,控制操作,行动操作来完成一个作业。RDD是一种基于内存的分布式容错数据集,每个RDD的数据都以block的形式存储在各节点中。图9呈现了Spark的RDD存储架构,图10描述了数据从HDFS文件系统进入Spark后的转换过程。
Spark程序以SparkContext为程序运行的入口,SparkContext通过资源调度和Executor通信,Executor运行在Worker节点负责执行任务。Spark的作业运行和资源分配的核心驱动力是Spark上的资源管理,资源管理从底层计算资源,到任务调度,作业调度,应用的调度,所涉及的模块众多,概括地说主要包括TaskScheduler和DAGScheduler,TaskScheduler负责每个具体任务的实际物理调度,DAGScheduler负责任务的逻辑调度,即将作业拆分成不同阶段的具有依赖关系的多批任务。
Spark还提供了Java,Scala,Python,和R语言的高等级API以及一个支持一般执行图形的优化引擎,这些API使得对于Spark应用的开发变得更加简单和方便。同时,Spark框架还整合了一套丰富的工具,包括对结构化和半结构化数据的Spark SQL,包含众多机器学习算法的库MLlib,处理图形的工具Graph X以及用于流式处理的Spark Streaming。
实施例1
参照图1,一种基于移动轨迹大数据的短时交通流量预测方法,包括以下步骤:
S1:对交通移动轨迹数据进行数据预处理,得到训练数据;
S2:根据所述训练数据,构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法;
S3:基于RDD执行所述并行NAW-DBLSTM算法,并输出预测结果。
构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法,结合RDD执行并行NAW-DBLSTM算法,考虑各路段之间空间相关性的影响权重以及捕捉交通流量非线性特征的能力,输出预测结果,有效地提高短时交通流量预测的准确性和鲁棒性,解决了移动轨迹大数据的分布式存储和并行计算的技术问题。
参照图2,在本实施例中,所述S1具体包括:
S101:基于Spark中的RDD弹性分布数据集,提取所述交通移动轨迹数据中目标路段在当前时间间隔t内的车辆移动轨迹;
S102:根据所述车辆移动轨迹,统计各个目标路段在当前时间间隔t内的车辆数量;
S103:将所述各个路段在当前时间间隔t内的车辆数量进行排序并进行平滑处理,得到训练数据。
基于Spark中RDD弹性分布数据集对交通移动轨迹数据进行数据处理并进行平滑处理,得到训练数据,通过RDD中的算子进行数据计算处理从而获取所选取路段上的车辆数量,减小获取的轨迹数据与原始数据之间的差异和降低对预测算法精度的影响。通过在Hadoop分布式计算平台下,基于Spark并行处理框架解决了集中式挖掘平台下交通流量预测算法在处理大样本数据时存在的内存消耗高、计算耗时的技术问题。
在本实施例中,所述S101具体包括:
S1011:读取上传至HDFS文件中的交通移动轨迹数据,并转换为Spark中的一个或多个RDD弹性分布数据集;
S1012:使用flatMap算子将各个结点上的数据转换为key1=时间和车辆ID,value1=目标路段编号的键值对<key1,value1>;
S1013:过滤不属于目标路段的交通移动轨迹数据;
S1014:使用sortByKey算子对过滤后的交通移动轨迹数据进行时间和车辆ID排序后,去除当前时间间隔t内同一车辆的重复数据,获得目标路段在当前时间间隔t内的车辆移动轨迹。
将采集的交通移动轨迹数据在Hadoop分布式计算平台下,基于Spark并行处理框架进行预处理,通过读取HDFS中的数据创建多个RDD去除重复数据,减少计算量,解决交通流量大数据的分布式存储和并行计算的技术问题。
在本实施例中,所述S102具体包括:
S1021:将分布在各个结点上的目标路段在当前时间间隔t内的车辆移动轨迹使用flatMap算子转换为key2=时间和区域编号,value2则增加计数1的键值对<key2,value2>;
S1022:使用reduceByKey算子按照时间和区域编号进行统计,得到各个目标路段在当前时间间隔t内的车辆数量。
在本实施例中,所述S103具体包括:
S1031:将分布在各个结点上的数据使用flatMap算子转换为key3=时间间隔,value3=各目标路段的车辆总数的键值对<key3,value3>;
S1032:使用sortByKey算子将所述各个路段在当前时间间隔t内的车辆数量进行排序并进行平滑处理,得到所述训练数据。
通过RDD算子最终得到目标路段在预设时间间隔t的交通流量,减少获得的轨迹数据与原始数据之间的差异,降低对预测算法精度的影响。
在本实施例中,进行平滑处理可以采用卡尔兹曼滤波器(Kalman Filter)降低噪声数据对预测算法的影响,在另一些实施例中也可以使用粒子滤波器、贝叶斯滤波或高斯进行滤波。
其中,用卡尔兹曼滤波器进行滤波时,利用信号与噪声的状态空间模型、前一时刻的估计值和此时的观测值,以更新状态变量的估计,进而得出当前时刻的估计值,具体包括以下步骤:
S10321:利用卡尔兹曼滤波器(Kalman Filter)的参数和权重调整机制,按照线性无偏均方误差,计算输入和输出的偏差;
S10322:采用迭代方式计算预测算法的参数,使用无偏均方误差作为误差传递函数;
S10323:不断调整优化,使得粗糙数据趋于平滑,以获得平滑数据。
将采用卡尔兹曼滤波器(Kalman Filter)对预处理后的数据进行平滑处理,降低噪声数据对预测算法精确性的影响。
其中,S10321的具体过程为:
利用卡尔兹曼滤波的预测公式计算计算输入和输出的偏差。
θ′k=A<θk-1>+Buk-1
∑′k=A∑k-1AT+Q
其中的A、C、B、uk、Q、R为已知,根据上述公式计算预测值θ′k以及预测值与真实值之间的协方差矩阵∑′k
在本实施例中,S10322具体过程为:
根据卡尔兹曼滤波更新步骤计算预测算法的参数和使用无偏均方误差作为误差传递函数。
S′k=(C∑′kCT+R)-1
K′k=∑′kCTS′k
k-1>=θ′k+K′k(Zk-Cθ′k)
k=(I-K′kC)∑′k
参照图3,在本实施例中,所述S2具体包括:
S201:使用正态分布计算各路段之间的空间相关性,得到各路段对目标路段的影响权重;
S202:基于所述目标路段的影响权重,使用注意力机制计算对目标路段具有高影响特征的注意力权重;
S203:使用时间窗口将所述训练数据和所述注意力权重值添加到DBLSTM进行训练,以构建所述并行NAW-DBLSTM算法。
通过正态分布计算各路段之间的空间相关性,得到各路段对目标路段的影响权重;接着,利用注意力机制计算对目标路段具有高影响特征的注意力权重;最后,利用时间窗口将交通流量及其注意力权重值添加到DBLSTM进行训练,以提高短时交通流量预测的准确性,解决现有的交通流量预测方法并没有考虑路段间空间相关性影响权重,以及难以捕捉交通流量的非线性特征,从而导致交通流量预测精度低的技术问题。
在本实施例中,所述S201具体包括:
S2011:使用正态分布计算各路段对目标路段的影响权重W,Xn为第n个路段的交通流量,μ为目标路段的交通流量,其计算公式如下:
Figure BDA0002924454520000171
由于交通流量不仅受上游和下游的影响,而且各路段之间具有空间相关性,利用正态分布中当样本点x越靠近参数μ,则该点权值也就越大这一性质,计算各路段对目标路段的影响权重,能较好地体现交通流量大数据的性质。
在本实施例中,所述S202具体包括:
S2021:使用注意力机制计算具有高影响特征的权重值
Figure BDA0002924454520000172
通过注意力机制的Softmax函数突出对目标路段具有高影响特征的权重,其计算公式如下:
Figure BDA0002924454520000173
通过注意力机制中的Softmax函数进行归一化,得到所有权重系数之和为1的概率分布。同时,突出对目标路段具有高影响特征的权重,以提高预测精度。
在本实施例中,所述S203具体包括:
S2031:采用时间间隔为t-4、t-3、t-2、t-1、t,将经注意力机制加权后的时间序列
Figure BDA0002924454520000181
作为输入层的输入添加到DBLSTM神经网络中进行训练,其中,由时间间隔为t-4、t-3、t-2、t-1、t组成的时间序列
Figure BDA0002924454520000182
是基于目标路段i在当前时间间隔t的交通流量
Figure BDA0002924454520000183
提取目标路段i在当前时间间隔t内相邻历史时间间隔的交通流量
Figure BDA0002924454520000184
组成大小为5的时间窗口,如下:
Figure BDA0002924454520000185
基于目标路段i在预设时间间隔t的交通流量
Figure BDA0002924454520000186
并依次提取目标路段i在预设时间间隔t相邻历史时间间隔的交通流量
Figure BDA0002924454520000187
组成大小为5的窗口而实现交通流量预测,并采用时间间隔为t-4、t-3、t-2、t-1、t,将经注意力机制加权后的时间序列
Figure BDA0002924454520000188
作为输入层的输入添加到DBLSTM神经网络中进行训练,以提高预测精度。
所述并行NAW-DBLSTM算法包括:
Figure BDA0002924454520000189
Figure BDA00029244545200001810
Figure BDA00029244545200001811
Figure BDA00029244545200001812
ht=oth(ct) (7)
Figure BDA00029244545200001813
Figure BDA00029244545200001814
Figure BDA00029244545200001815
其中,it为当前时间步长输出的输入门、ft为遗忘门、ct为细胞状态、ot为输出门和ht为隐含层输出,σ(·)表示sigmoid激活函数,h为隐藏向量序列,H为激活函数,W表示权值矩阵,b为偏置向量,
Figure BDA0002924454520000191
Figure BDA0002924454520000192
为t时间间隔第n层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出,
Figure BDA0002924454520000193
Figure BDA0002924454520000194
为t-1时间间隔第n层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出,
Figure BDA0002924454520000195
Figure BDA0002924454520000196
为t时间间隔第n-1层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出,
Figure BDA0002924454520000197
Figure BDA0002924454520000198
为第n-1层正向隐藏状态和反向隐藏状态,yt为输出向量,
Figure BDA0002924454520000199
Figure BDA00029244545200001910
为第N(N=7)层的正向隐藏状态和反向隐藏状态,
Figure BDA00029244545200001911
Figure BDA00029244545200001912
为t时间间隔第N(N=7)层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出。
通过正态分布和注意力机制得到各路段间的空间相关性影响权重,利用时间窗口将交通流量及其注意力权重值添加到DBLSTM进行训练,解决现有的交通流量预测方法并没有考虑路段间空间相关性影响权重,以及难以捕捉交通流量的非线性特征,从而导致交通流量预测精度低的技术问题。
参照图4,在本实施例中,S3具体包括:
S301:数据分区。首先,根据不同路段的交通移动轨迹数据进行数据划分,通过调用SparkContext的partitionBy算子形成数据划分和RDD分区对应的关系,读取RDD分区中各路段数据集转换为不同的键值对<key,value>;接着通过S201中的正态分布计算各路段之间的空间相关性,然后使用S202中的注意力机制计算对目标路段具有高影响特征的注意力权重值,得到具有权重的交通流量序列RDD分区。
S302:并行计算。首先通过mapPartitions算子按照RDD分区,发送到各个Worker,经S301得到的RDD分区的权重数据集通过公式(8)确定数据集并输入到NAW-DBLSTM算法(3)-(7);接着,通过公式(9)-(10)计算7层NAW-DBLSTM算法;最后,通过每个RDD分区独立执行NAW-DBLSTM算法,得到局部结果。
S303:结果聚合。将各分节点的局部结果进行合并,使用基于Spark并行NAW-DBLSTM算法进行交通流量预测,并输出预测结果。
在Hadoop分布式计算平台下,基于Spark并行处理框架,通过RDD进行算法实现,解决交通流量大数据的分布式存储和并行计算的技术问题。
实施例2
参照图11,一种基于移动轨迹大数据的短时交通流量预测系统,包括数据预处理模块、并行算法构建模块和预测模块;
所述数据预处理模块用于对交通移动轨迹数据进行数据预处理,得到训练数据;
所述并行算法构建模块用于根据所述训练数据,构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法;
所述预测模块用于基于RDD执行所述并行NAW-DBLSTM算法,并输出预测结果。
构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法,再结合RDD执行并行NAW-DBLSTM算法,考虑各路段之间空间相关性的影响权重以及捕捉交通流量非线性特征的能力,输出预测结果,有效地提高短时交通流量预测的准确性和鲁棒性,解决了移动轨迹大数据的分布式存储和并行计算的技术问题。
在本实施例中,参照图2,所述数据预处理模块用于对交通移动轨迹数据进行数据预处理,得到训练数据具体包括:
S101:基于Spark中的RDD弹性分布数据集,提取所述交通移动轨迹数据中目标路段在当前时间间隔t内的车辆移动轨迹;
S102:根据所述车辆移动轨迹,统计各个目标路段在当前时间间隔t内的车辆数量;
S103:将所述各个路段在当前时间间隔t内的车辆数量进行排序并进行平滑处理,得到训练数据。
基于Spark中RDD弹性分布数据集对交通移动轨迹数据进行数据处理并进行平滑处理,得到训练数据,通过RDD中的算子进行数据计算处理从而获取所选路段的车辆数量,减小获取的轨迹数据与原始数据之间的差异和降低对预测算法精度的影响。通过在Hadoop分布式计算平台下,基于Spark并行处理框架解决了集中式挖掘平台下交通流量预测算法在处理大样本数据时存在的内存消耗高、计算耗时的技术问题。
在本实施例中,所述S101具体包括:
S1011:读取上传至HDFS文件中的交通移动轨迹数据,并转换为Spark中的一个或多个RDD弹性分布数据集;
S1012:使用flatMap算子将各个结点上的数据转换为key1=时间和车辆ID,value1=目标路段编号的键值对<key1,value1>;
S1013:过滤不属于目标路段的交通移动轨迹数据;
S1014:使用sortByKey算子对过滤后的交通移动轨迹数据进行时间和车辆ID排序后,去除当前时间间隔内同一车辆的重复数据,获得目标路段在当前时间间隔t内的车辆移动轨迹。
将采集的交通移动轨迹数据在Hadoop分布式计算平台下,基于Spark并行处理框架进行预处理,通过读取HDFS中的数据创建多个RDD去除重复数据,减少计算量,解决交通流量大数据的分布式存储和并行计算的技术问题。
在本实施例中,所述S102具体包括:
S1021:将分布在各个结点上的目标路段在当前时间间隔内的车辆移动轨迹使用flatMap算子转换为key2=时间和区域编号,value2则增加计数1的键值对<key2,value2>;
S1022:使用reduceByKey算子按照时间和区域编号进行统计,得到各个目标路段在当前时间间隔t内的车辆数量。
在本实施例中,所述S103具体包括:
S1031:将分布在各个结点上的数据使用flatMap算子转换为key3=时间间隔,value3=各目标路段的车辆总数的键值对<key3,value3>;
S1032:使用sortByKey算子将所述各个路段在当前时间间隔t内的车辆数量进行排序并进行平滑处理,得到所述训练数据。
通过RDD算子最终得到目标路段在预设时间间隔t的交通流量,减少获得的轨迹数据与原始数据之间的差异,降低对预测算法精度的影响。
在本实施例中,进行平滑处理可以采用卡尔兹曼滤波器(Kalman Filter)降低噪声数据对预测算法的影响,在另一些实施例中也可以使用粒子滤波器、贝叶斯滤波或高斯进行滤波。
其中,用卡尔兹曼滤波器进行滤波时,利用信号与噪声的状态空间模型、前一时刻的估计值和此时的观测值,以更新状态变量的估计,进而得出当前时刻的估计值,具体包括以下步骤:
S10321:利用卡尔兹曼滤波器(Kalman Filter)的参数和权重调整机制,按照线性无偏均方误差,计算输入和输出的偏差;
S10322:采用迭代方式计算预测算法的参数,使用无偏均方误差作为误差传递函数;
S10323:不断调整优化,使得粗糙数据趋于平滑,以获得平滑数据。
采用卡尔兹曼滤波器(Kalman Filter)对预处理后的数据进行平滑处理,降低噪声数据对预测算法精确性的影响。
其中,S10321的具体过程为:
利用卡尔兹曼滤波的预测公式计算计算输入和输出的偏差。
θ′k=A<θk-1>+Buk-1
Σ′k=AΣk-1AT+Q
其中的A、C、B、uk、Q、R为已知,根据上述公式计算预测值θ′k以及预测值与真实值之间的协方差矩阵∑′k
在本实施例中,S10322具体过程为:
根据卡尔兹曼滤波更新步骤计算预测算法的参数和使用无偏均方误差作为误差传递函数。
S′k=(C∑′kCT+R)-1
K′k=∑′kCTS′k
k-1>=θ′k+K′k(Zk-Cθ′k)
k=(I-K′kC)∑′k
在本实施例中,参照图3,所述并行NAW-DBLSTM算法用于根据所述训练数据,构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法具体包括:
S201:使用正态分布计算各路段之间的空间相关性,得到各路段对目标路段的影响权重;
S202:基于所述目标路段的影响权重,使用注意力机制计算对目标路段具有高影响特征的注意力权重;
S203:使用时间窗口将所述训练数据和所述注意力权重值添加到DBLSTM进行训练,以构建所述并行NAW-DBLSTM算法。
通过正态分布计算各路段之间的空间相关性,得到各路段对目标路段的影响权重;接着,利用注意力机制计算对目标路段具有高影响特征的注意力权重;最后,利用时间窗口将交通流量及其注意力权重值添加到DBLSTM进行训练,以提高短时交通流量预测的准确性,解决现有的交通流量预测方法并没有考虑路段间空间相关性影响权重,以及难以捕捉交通流量的非线性特征,从而导致交通流量预测精度低的技术问题。
在本实施例中,所述S201具体包括:
S2011:使用正态分布计算各路段对目标路段的影响权重W,Xn为第n个路段的交通流量,μ为目标路段的交通流量,其计算公式如下:
Figure BDA0002924454520000241
由于交通流量不仅受上游和下游的影响,而且各路段之间具有空间相关性,利用正态分布中当样本点x越靠近参数μ,则该点权值也就越大这一性质,计算各路段对目标路段的影响权重,能较好地体现交通流量大数据的性质。
在本实施例中,所述S202具体包括:
S2021:使用注意力机制计算具有高影响特征的权重值
Figure BDA0002924454520000242
通过注意力机制的Softmax函数突出对目标路段具有高影响特征的权重,其计算公式如下:
Figure BDA0002924454520000243
通过注意力机制中的Softmax函数进行归一化,得到所有权重系数之和为1的概率分布。同时,突出对目标路段具有高影响特征的权重,以提高预测精度。
在本实施例中,所述S203具体包括:
S2031:采用时间间隔为t-4、t-3、t-2、t-1、t,将经注意力机制加权后的时间序列
Figure BDA0002924454520000244
作为输入层的输入添加到DBLSTM神经网络中进行训练,其中,由时间间隔为t-4、t-3、t-2、t-1、t组成的时间序列
Figure BDA0002924454520000245
是基于目标路段i在当前时间间隔t的交通流量
Figure BDA0002924454520000246
提取目标路段i在当前时间间隔t内相邻历史时间间隔的交通流量
Figure BDA0002924454520000247
组成大小为5的时间窗口,如下:
Figure BDA0002924454520000248
基于目标路段i在预设时间间隔t的交通流量
Figure BDA0002924454520000249
并依次提取目标路段i在预设时间间隔t相邻历史时间间隔的交通流量
Figure BDA0002924454520000251
组成大小为5的窗口而实现交通流量预测,并采用时间间隔为t-4、t-3、t-2、t-1、t,将经注意力机制加权后的时间序列
Figure BDA0002924454520000252
作为输入层的输入添加到DBLSTM神经网络中进行训练,以提高预测精度。
所述并行NAW-DBLSTM算法包括:
Figure BDA0002924454520000253
Figure BDA0002924454520000254
Figure BDA0002924454520000255
Figure BDA0002924454520000256
ht=oth(ct) (7)
Figure BDA0002924454520000257
Figure BDA0002924454520000258
Figure BDA0002924454520000259
其中,it为当前时间步长输出的输入门、ft为遗忘门、ct为细胞状态、ot为输出门和ht为隐含层输出,σ(·)表示sigmoid激活函数,h为隐藏向量序列,H为激活函数,W表示权值矩阵,b为偏置向量,
Figure BDA00029244545200002510
Figure BDA00029244545200002511
为t时间间隔第n层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出,
Figure BDA00029244545200002512
Figure BDA00029244545200002513
为t-1时间间隔第n层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出,
Figure BDA00029244545200002514
Figure BDA00029244545200002515
为t时间间隔第n-1层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出,
Figure BDA00029244545200002516
Figure BDA00029244545200002517
为第n-1层正向隐藏状态和反向隐藏状态,yt为输出向量,
Figure BDA00029244545200002518
Figure BDA00029244545200002519
为第N(N=7)层的正向隐藏状态和反向隐藏状态,
Figure BDA00029244545200002520
Figure BDA00029244545200002521
为t时间间隔第N(N=7)层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出。
通过正态分布和注意力机制得到各路段间的空间相关性影响权重,利用时间窗口将交通流量及其注意力权重值添加到DBLSTM进行训练,解决现有的交通流量预测方法并没有考虑路段间空间相关性影响权重,以及难以捕捉交通流量的非线性特征,从而导致交通流量预测精度低的技术问题。
在本实施例中,参照图4,所述预测模块用于基于RDD执行所述并行NAW-DBLSTM算法,并输出预测结果具体包括:
S301:数据分区。首先,根据不同路段的交通移动轨迹数据进行数据划分,通过调用SparkContext的partitionBy算子形成数据划分和RDD分区对应的关系,读取RDD分区中各路段数据集转换为不同的键值对<key,value>;接着通过S201中的正态分布计算各路段之间的空间相关性,然后使用S202中的注意力机制计算对目标路段具有高影响特征的注意力权重值,得到具有权重的交通流量序列RDD分区。
S302:并行计算。首先通过mapPartitions算子按照RDD分区,发送到各个Worker,经S301得到的RDD分区的权重数据集通过公式(8)确定数据集并输入到NAW-DBLSTM算法(3)-(7);接着通过公式(9)-(10)计算7层NAW-DBLSTM算法;最后通过每个RDD分区独立执行NAW-DBLSTM算法,得到局部结果。
S303:结果聚合。将各节点的局部结果进行合并,使用基于Spark并行NAW-DBLSTM算法进行交通流量预测,并输出预测结果。
在Hadoop分布式计算平台下,基于Spark并行处理框架,通过RDD进行算法实现,解决交通流量大数据的分布式存储和并行计算的技术问题。
以上对本发明实施例所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述,以上实施例的说明只适用于帮助理解本发明实施例的原理;同时,对于本领域的一般技术人员,依据本发明实施例,在具体实施方式以及应用范围上均会有改变之处,即应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。

Claims (10)

1.一种基于移动轨迹大数据的短时交通流量预测方法,其特征在于,包括以下步骤:
S1:对交通移动轨迹数据进行数据预处理,得到训练数据;
S2:根据所述训练数据,构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法;
S3:基于RDD执行所述并行NAW-DBLSTM算法,并输出预测结果。
2.根据权利要求1所述的一种基于移动轨迹大数据的短时交通流量预测方法,其特征在于,所述S1具体包括:
S101:基于Spark中的RDD弹性分布数据集,提取所述交通移动轨迹数据中目标路段在当前时间间隔t内的车辆移动轨迹;
S102:根据所述车辆移动轨迹,统计各个目标路段在当前时间间隔t内的车辆数量;
S103:将所述各个路段在当前时间间隔t内的车辆数量进行排序并进行平滑处理,得到训练数据。
3.根据权利要求2所述的一种基于移动轨迹大数据的短时交通流量预测方法,其特征在于,S101具体包括:
S1011:读取上传至HDFS文件中的交通移动轨迹数据,并转换为Spark中的一个或多个RDD弹性分布数据集;
S1012:使用flatMap算子将各个结点上的数据转换为key1=时间和车辆ID,value1=目标路段编号的键值对<key1,value1>;
S1013:过滤不属于目标路段的交通移动轨迹数据;
S1014:使用sortByKey算子对过滤后的交通移动轨迹数据进行时间和车辆ID排序后,去除当前时间间隔内同一车辆的重复数据,获得目标路段在当前时间间隔t内的车辆移动轨迹。
4.根据权利要求3所述的一种基于移动轨迹大数据的短时交通流量预测方法,其特征在于,S102具体包括:
S1021:将分布在各个结点上的目标路段在当前时间间隔内的车辆移动轨迹使用flatMap算子转换为key2=时间和区域编号,value2则增加计数1的键值对<key2,value2>;
S1022:使用reduceByKey算子按照时间和区域编号进行统计,得到各个目标路段在当前时间间隔t内的车辆数量。
5.根据权利要求2所述的一种基于移动轨迹大数据的短时交通流量预测方法,其特征在于,所述S103具体包括:
S1031:将分布在各个结点上的数据使用flatMap算子转换为key3=时间间隔,value3=各目标路段的车辆总数的键值对<key3,value3>;
S1032:使用sortByKey算子将所述各个路段在当前时间间隔t内的车辆数量进行排序并进行平滑处理,得到所述训练数据。
6.根据权利要求1-5任一项所述的一种基于移动轨迹大数据的短时交通流量预测方法,其特征在于,所述S2具体包括:
S201:使用正态分布计算各路段之间的空间相关性,得到各路段对目标路段的影响权重;
S202:基于所述目标路段的影响权重,使用注意力机制计算对目标路段具有高影响特征的注意力权重;
S203:使用时间窗口将所述训练数据和所述注意力权重值添加到DBLSTM进行训练,以构建所述并行NAW-DBLSTM算法。
7.根据权利要求6所述的一种基于移动轨迹大数据的短时交通流量预测方法,其特征在于,所述S201具体包括:
S2011:使用正态分布计算各路段对目标路段的影响权重W,Xn为第n个路段的交通流量,μ为目标路段的交通流量,其计算公式如下:
Figure FDA0002924454510000031
8.根据权利要求7所述的一种基于移动轨迹大数据的短时交通流量预测方法,其特征在于,所述S202具体包括:
S2021:使用注意力机制计算具有高影响特征的权重值
Figure FDA0002924454510000032
通过注意力机制的Softmax函数突出对目标路段具有高影响特征的权重,其计算公式如下:
Figure FDA0002924454510000033
9.根据权利要求6所述的一种基于移动轨迹大数据的短时交通流量预测方法,其特征在于,所述并行NAW-DBLSTM算法包括:
Figure FDA0002924454510000034
Figure FDA0002924454510000035
Figure FDA0002924454510000036
Figure FDA0002924454510000037
ht=oth(ct)
Figure FDA0002924454510000038
Figure FDA0002924454510000039
Figure FDA00029244545100000310
其中,it为当前时间步长输出的输入门、ft为遗忘门、ct为细胞状态、ot为输出门和ht为隐含层输出,σ(·)表示sigmoid激活函数,h为隐藏向量序列,H为激活函数,W表示权值矩阵,b为偏置向量,
Figure FDA00029244545100000311
Figure FDA00029244545100000312
为t时间间隔第n层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出,
Figure FDA00029244545100000313
Figure FDA00029244545100000314
为t-1时间间隔第n层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出,
Figure FDA00029244545100000315
Figure FDA00029244545100000316
为t时间间隔第n-1层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出,
Figure FDA00029244545100000317
Figure FDA00029244545100000318
为第n-1层正向隐藏状态和反向隐藏状态,yt为输出向量,
Figure FDA00029244545100000319
Figure FDA00029244545100000320
为第N(N=7)层的正向隐藏状态和反向隐藏状态,
Figure FDA00029244545100000321
Figure FDA00029244545100000322
为t时间间隔第N(N=7)层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出。
10.一种基于移动轨迹大数据的短时交通流量预测系统,其特征在于,包括数据预处理模块、并行算法构建模块和预测模块;
所述数据预处理模块用于对交通移动轨迹数据进行数据预处理,得到训练数据;
所述并行算法构建模块用于根据所述训练数据,构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法;
所述预测模块用于基于RDD执行所述并行NAW-DBLSTM算法,并输出预测结果。
CN202110127088.3A 2021-01-29 2021-01-29 一种基于移动轨迹大数据的短时交通流量预测方法及系统 Active CN112967495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110127088.3A CN112967495B (zh) 2021-01-29 2021-01-29 一种基于移动轨迹大数据的短时交通流量预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110127088.3A CN112967495B (zh) 2021-01-29 2021-01-29 一种基于移动轨迹大数据的短时交通流量预测方法及系统

Publications (2)

Publication Number Publication Date
CN112967495A true CN112967495A (zh) 2021-06-15
CN112967495B CN112967495B (zh) 2023-05-09

Family

ID=76272134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110127088.3A Active CN112967495B (zh) 2021-01-29 2021-01-29 一种基于移动轨迹大数据的短时交通流量预测方法及系统

Country Status (1)

Country Link
CN (1) CN112967495B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070280A (zh) * 2020-08-19 2020-12-11 贵州民族大学 实时交通流量并行预测方法、系统、终端及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319639A1 (en) * 2006-08-18 2008-12-25 Xanavi Informatics Corporation Predictive Traffic Information Creating Method, Predictive Traffic Information Creating Apparatus, and Traffic Information Display Terminal
CN102568205A (zh) * 2012-01-10 2012-07-11 吉林大学 非常态下基于经验模态分解和分类组合预测的交通参数短时预测方法
CN106781508A (zh) * 2017-02-28 2017-05-31 杭州电子科技大学 一种Spark环境下基于多重相空间的短时交通流预测方法
US20200135017A1 (en) * 2018-10-29 2020-04-30 Beihang University Transportation network speed foreeasting method using deep capsule networks with nested lstm models
CN111709549A (zh) * 2020-04-30 2020-09-25 东华大学 一种基于svd-pso-lstm的短时交通流预测的导航提醒方法
CN111860621A (zh) * 2020-06-30 2020-10-30 贵州民族大学 一种数据驱动的分布式交通流量预测方法及系统
CN112070280A (zh) * 2020-08-19 2020-12-11 贵州民族大学 实时交通流量并行预测方法、系统、终端及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319639A1 (en) * 2006-08-18 2008-12-25 Xanavi Informatics Corporation Predictive Traffic Information Creating Method, Predictive Traffic Information Creating Apparatus, and Traffic Information Display Terminal
CN102568205A (zh) * 2012-01-10 2012-07-11 吉林大学 非常态下基于经验模态分解和分类组合预测的交通参数短时预测方法
CN106781508A (zh) * 2017-02-28 2017-05-31 杭州电子科技大学 一种Spark环境下基于多重相空间的短时交通流预测方法
US20200135017A1 (en) * 2018-10-29 2020-04-30 Beihang University Transportation network speed foreeasting method using deep capsule networks with nested lstm models
CN111709549A (zh) * 2020-04-30 2020-09-25 东华大学 一种基于svd-pso-lstm的短时交通流预测的导航提醒方法
CN111860621A (zh) * 2020-06-30 2020-10-30 贵州民族大学 一种数据驱动的分布式交通流量预测方法及系统
CN112070280A (zh) * 2020-08-19 2020-12-11 贵州民族大学 实时交通流量并行预测方法、系统、终端及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070280A (zh) * 2020-08-19 2020-12-11 贵州民族大学 实时交通流量并行预测方法、系统、终端及存储介质
CN112070280B (zh) * 2020-08-19 2023-10-31 贵州民族大学 实时交通流量并行预测方法、系统、终端及存储介质

Also Published As

Publication number Publication date
CN112967495B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
Neelakandan et al. RETRACTED ARTICLE: An automated exploring and learning model for data prediction using balanced CA-SVM
Yi et al. An automated hyperparameter search-based deep learning model for highway traffic prediction
Mayer et al. Predictable low-latency event detection with parallel complex event processing
CN106528874B (zh) 基于Spark内存计算大数据平台的CLR多标签数据分类方法
Wu et al. A self-tuning system based on application profiling and performance analysis for optimizing hadoop mapreduce cluster configuration
Wellman et al. State-space abstraction for anytime evaluation of probabilistic networks
CN111860621B (zh) 一种数据驱动的分布式交通流量预测方法及系统
Tu et al. Deep traffic congestion prediction model based on road segment grouping
Wang et al. Research on parallelized real-time map matching algorithm for massive GPS data
CN112070280B (zh) 实时交通流量并行预测方法、系统、终端及存储介质
CN116453343A (zh) 智能网联环境下基于流量预测的智能交通信号控制优化算法、软件与系统
CN112967495B (zh) 一种基于移动轨迹大数据的短时交通流量预测方法及系统
Fan et al. Online trajectory prediction for metropolitan scale mobility digital twin
CN112765894B (zh) 一种基于k-lstm的铝电解槽状态预测方法
CN112070529A (zh) 载客热点并行预测方法、系统、终端及计算机存储介质
Zhao et al. Highway traffic crash risk prediction method considering temporal correlation characteristics
Alam Recurrent neural networks in electricity load forecasting
Nguyen et al. Real-time traffic congestion forecasting using prophet and spark streaming
Wang et al. A Second-Order HMM Trajectory Prediction Method based on the Spark Platform.
Liu et al. A parameter-level parallel optimization algorithm for large-scale spatio-temporal data mining
Venkatesh et al. Parallel and Streaming Wavelet Neural Networks for Classification and Regression under Apache Spark
Huo et al. Traffic anomaly detection method based on improved GRU and EFMS-Kmeans clustering
Fiosina et al. Distributed nonparametric and semiparametric regression on spark for big data forecasting
Assi et al. Framework of Big Data and Deep Learning for Simultaneously Solving Space Allocation and Signal Timing Problem
Hunter et al. Large scale estimation in cyberphysical systems using streaming data: A case study with smartphone traces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant