CN112967495A

CN112967495A - 一种基于移动轨迹大数据的短时交通流量预测方法及系统

Info

Publication number: CN112967495A
Application number: CN202110127088.3A
Authority: CN
Inventors: 夏大文; 杨楠; 周号益; 李华青; 蒋顺英; 成蕤君; 郑永玲; 白宇; 高晓楠; 王林
Original assignee: Guizhou Minzu University
Current assignee: Guizhou Minzu University
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-06-15
Anticipated expiration: 2041-01-29
Also published as: CN112967495B

Abstract

本发明公开了一种基于移动轨迹大数据的短时交通流量预测方法及系统，方法包括：S1:对交通移动轨迹数据进行数据预处理，得到训练数据；S2:根据所述训练数据，构建在Spark框架下基于正态分布和注意力机制加权的并行NAW‑DBLSTM算法；S3:基于RDD执行所述并行NAW‑DBLSTM算法，并输出预测结果。构建Spark框架下基于正态分布和注意力机制加权的并行NAW‑DBLSTM算法，再结合RDD执行并行NAW‑DBLSTM算法，考虑各路段之间空间相关性的影响权重以及捕捉交通流量非线性特征的能力，输出预测结果，有效地提高短时交通流量预测的准确性和鲁棒性，解决了移动轨迹大数据的分布式存储和并行计算的技术问题。

Description

一种基于移动轨迹大数据的短时交通流量预测方法及系统

技术领域

本发明涉及交通流量预测领域，尤其涉及一种基于移动轨迹大数据的短时交通流量预测方法及系统。

背景技术

交通流量预测是智能交通系统(ITSs)和先进交通管理系统(ATMSs)的重要组成部分。获取及时准确的交通流量信息是实现交通控制和制定交通管理的关键，通过预测未来的交通状况，进而设计有效的交通组织策略来缓解交通拥堵,提高城市交通系统的服务水平和效率。传统的集中式挖掘平台下交通流量预测算法在处理移动轨迹(出租车轨迹)大数据时存在计算存储问题且预测精度较低，以及面对现有串行预测算法在交通流量预测中仍存在一定的局限性，极易出现“内存消耗和I/O开销高、性能低和可靠性差”等技术问题。同时，交通流量不仅仅受上游和下游的影响，各路段之间也存在空间相关性。现有的交通流量预测方法并没有考虑各路段之间空间相关性的影响权重，以及难以捕捉交通流量的非线性特征，从而导致交通流量预测精度低的技术问题。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于移动轨迹大数据的短时交通流量预测方法及系统，提高短时交通流量预测的准确性和鲁棒性，在考虑各路段之间空间相关性影响权重的同时捕捉交通流量的非线性特征，以及解决集中式挖掘平台下交通流量预测算法在处理大样本数据时存在的内存消耗高、计算耗时的技术问题。

本发明解决上述技术问题的技术方案如下：一种基于移动轨迹大数据的短时交通流量预测方法，包括以下步骤：

S1:对交通移动轨迹数据进行数据预处理，得到训练数据；

S2:根据所述训练数据，构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法；

S3:基于RDD执行所述并行NAW-DBLSTM算法，并输出预测结果。

本发明的有益效果是，构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法，结合RDD执行并行NAW-DBLSTM算法，考虑各路段之间空间相关性的影响权重以及捕捉交通流量非线性特征的能力，输出预测结果，有效地提高短时交通流量预测的准确性和鲁棒性，解决了移动轨迹大数据的分布式存储和并行计算的技术问题。

进一步，所述S1具体包括：

S101:基于Spark中的RDD弹性分布数据集，提取所述交通移动轨迹数据中目标路段在当前时间间隔t内的车辆移动轨迹；

S102:根据所述车辆移动轨迹，统计各个目标路段在当前时间间隔t内的车辆数量；

S103:将所述各个路段在当前时间间隔t内的车辆数量进行排序并进行平滑处理，得到训练数据。

采用上述进一步方案的有益效果是，基于Spark中RDD弹性分布数据集对交通移动轨迹数据进行数据处理并进行平滑处理，得到训练数据，通过RDD中的算子进行数据计算处理从而获取所选路段的车辆数量，减小获取的轨迹数据与原始数据之间的差异和降低对预测算法精度的影响。通过在Hadoop分布式计算平台下，基于Spark并行处理框架解决了集中式挖掘平台下交通流量预测算法在处理大样本数据时存在的内存消耗高、计算耗时的技术问题。

进一步，S101具体包括：

S1011:读取上传至HDFS文件中的交通移动轨迹数据，并转换为Spark中的一个或多个RDD弹性分布数据集；

S1012:使用flatMap算子将各个结点上的数据转换为key1＝时间和车辆ID，value1＝目标路段编号的键值对<key1,value1>；

S1013:过滤不属于目标路段的交通移动轨迹数据；

S1014:使用sortByKey算子对过滤后的交通移动轨迹数据进行时间和车辆ID排序后，去除当前时间间隔内同一车辆的重复数据，获得目标路段在当前时间间隔t内的车辆移动轨迹。

采用上述进一步方案的有益效果是，将采集的交通移动轨迹数据在Hadoop分布式计算平台下，基于Spark并行处理框架进行预处理，通过读取HDFS中的数据创建多个RDD去除重复数据，减少计算量，解决交通流量大数据的分布式存储和并行计算的技术问题。

进一步，S102具体包括：

S1021:将分布在各个结点上的目标路段在当前时间间隔t内的车辆移动轨迹使用flatMap算子转换为key2＝时间和区域编号，value2则增加计数1的键值对<key2,value2>；

S1022:使用reduceByKey算子按照时间和区域编号进行统计，得到各个目标路段在当前时间间隔t内的车辆数量。

进一步，所述S103具体包括：

S1031:将分布在各个结点上的数据使用flatMap算子转换为key3＝时间间隔，value3＝各目标路段的车辆总数的键值对<key3,value3>；

S1032:使用sortByKey算子将所述各个路段在当前时间间隔t内的车辆数量进行排序并进行平滑处理，得到所述训练数据。

采用上述进一步方案的有益效果是，通过RDD算子最终得到目标路段在预设时间间隔t的交通流量，减少获得的轨迹数据与原始数据之间的差异，降低对预测算法精度的影响。

进一步，所述S2具体包括：

S201:使用正态分布计算各路段之间的空间相关性，得到各路段对目标路段的影响权重；

S202:基于所述目标路段的影响权重，使用注意力机制计算目标路段具有高影响特征的注意力权重；

S203:使用时间窗口将所述训练数据和所述注意力权重值添加到DBLSTM进行训练，以构建所述并行NAW-DBLSTM算法。

采用上述进一步方案的有益效果是，通过正态分布计算各路段之间的空间相关性，得到各路段对目标路段的影响权重；接着，利用注意力机制计算目标路段具有高影响特征的注意力权重；最后，利用时间窗口将交通流量及其注意力权重值添加到DBLSTM进行训练，以提高短时交通流量预测的准确性，解决现有的交通流量预测方法并没有考虑路段间空间相关性影响权重，以及难以捕捉交通流量的非线性特征，从而导致交通流量预测精度低的技术问题。

进一步，所述S201具体包括：

S2011:使用正态分布计算各路段对目标路段的影响权重W，X_n为第n个路段的交通流量，μ为目标路段的交通流量，其计算公式如下：

采用上述进一步方案的有益效果是，由于交通流量不仅受上游和下游的影响，而且各路段之间具有空间相关性,利用正态分布中当样本点x越靠近参数μ，则该点权值也就越大这一性质,计算各路段对目标路段的影响权重,能较好地体现交通流量大数据的性质。

进一步，所述S202具体包括：

S2021:使用注意力机制计算具有高影响特征的权重值

通过注意力机制的Softmax函数突出对目标路段具有高影响特征的权重，其计算公式如下：

采用上述进一步方案的有益效果是，通过注意力机制中的Softmax函数进行归一化，得到所有权重系数之和为1的概率分布。同时，突出对目标路段具有高影响特征的权重，以提高预测精度。

进一步，所述S203具体包括：

S2031:采用时间间隔为t-4、t-3、t-2、t-1、t，将经注意力机制加权后的时间序列

作为输入层的输入添加到DBLSTM神经网络中进行训练，其中，由时间间隔为t-4、t-3、t-2、t-1、t组成的时间序列

是基于目标路段i在当前时间间隔t的交通流量

提取目标路段i在当前时间间隔t内相邻历史时间间隔的交通流量

组成大小为5的时间窗口，如下：

采用上述进一步方案的有益效果是，基于目标路段i在预设时间间隔t的交通流量

并依次提取目标路段i在预设时间间隔t相邻历史时间间隔的交通流量

组成大小为5的窗口而实现交通流量预测，并采用时间间隔为t-4、t-3、t-2、t-1、t，将经注意力机制加权后的时间序列

作为输入层的输入添加到DBLSTM神经网络中进行训练，以提高预测精度。

进一步，所述并行NAW-DBLSTM算法包括：

h_t＝o_th(c_t)

其中，i_t为当前时间步长输出的输入门、f_t为遗忘门、c_t为细胞状态、o_t为输出门和h_t为隐含层输出，σ(·)表示sigmoid激活函数，h为隐藏向量序列，H为激活函数，W表示权值矩阵，b为偏置向量，

和

为t时间间隔第n层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出，

和

为t-1时间间隔第n层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出,

和

为t时间间隔第n-1层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出，

和

为第n-1层正向隐藏状态和反向隐藏状态，y_t为输出向量，

和

为第N(N＝7)层的正向隐藏状态和反向隐藏状态，

和

为t时间间隔第N(N＝7)层的正向BiLSTM隐藏序列和反向BiLSTM隐藏序列的输出。

采用上述进一步方案的有益效果是，在通过正态分布和注意力机制得到各路段间的空间相关性影响权重，利用时间窗口将交通流量及其注意力权重值添加到DBLSTM进行训练，解决现有的交通流量预测方法并没有考虑路段间空间相关性影响权重，以及难以捕捉交通流量的非线性特征，从而导致交通流量预测精度低的技术问题。

本发明还提供一种基于移动轨迹大数据的短时交通流量预测系统，包括数据预处理模块、并行算法构建模块和预测模块；

所述数据预处理模块用于对交通移动轨迹数据进行数据预处理，得到训练数据；

所述并行算法构建模块用于根据所述训练数据，构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法；

所述预测模块用于基于RDD执行所述并行NAW-DBLSTM算法，并输出预测结果。

本发明的有益效果是，构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法，再结合RDD执行并行NAW-DBLSTM算法，考虑各路段之间空间相关性的影响权重以及捕捉交通流量非线性特征的能力，输出预测结果，有效地提高短时交通流量预测的准确性和鲁棒性，解决了移动轨迹大数据的分布式存储和并行计算的技术问题。

附图说明

图1为本发明一种基于移动轨迹大数据的短时交通流量预测方法的流程图；

图2为本发明步骤S1的具体处理步骤流程图；

图3为本发明步骤S2的具体处理步骤流程图；

图4为本发明步骤S3的具体处理步骤流程图；

图5为本发明Hadoop通过HDFS、Spark分别实现分布式存储和并行计算的功能图；

图6为本发明HDFS进程通信框架图；

图7为本发明Spark并行计算框架流程图；

图8为本发明Spark集群组成图；

图9为本发明Spark中RDD的存储架构图；

图10为本发明Spark中的RDD转化流程图；

图11为本发明实施例提供的一种基于移动轨迹大数据的短时交通流量预测系统结构示意图。

本发明中名词解释如表1所示：

表1

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

Apache Hadoop架构：

Apache Hadoop是一种可靠、可扩展的开源分布式计算架构，能在由大量廉价硬件所组成的集群中为应用程序提供稳定可靠的接口。它充分利用集群的计算与存储能力，构建可靠性高、容错性强、可伸缩和可扩展的大数据批量处理架构，实现大规模数据的分布式存储与并行计算。

HDFS和MapReduce是Hadoop架构的核心组件，也是基于GFS(Google File System,谷歌文件系统)和Google MapReduce的开源实现。Hadoop通过HDFS、MapReduce分别实现分布式存储和并行计算，并由NameNode和DataNode完成HDFS功能、JobTracker和TaskTracker完成MapReduce功能参照图5。此外，Hadoop还包括Hadoop Common、Hadoop YARN、Ambari、Avro、Cassandra、Chukwa、HBase、Hive、Mahout、Pig、Spark、Tez和ZooKeeper等。

Hadoop分布式文件系统(HDFS)：

HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是一种可部署在廉价硬件上实现高吞吐量并行数据访问的分布式文件系统，能提供高性能、强容错、可靠的存储大规模数据。参照图6，HDFS采用Master(服务器)/Slave(客户端)运行模式，由一个NameNode(管理者)节点、多个DataNode(工作者)节点和HDFS Client组成，并通过Hadoop的RPC机制实现NameNode、DataNode与HDFS Client进程之间的通信。

Spark并行计算框架：

Spark是一种快速、通用的分布式大数据处理(集群)框架(如图7和图8所示)，其基于内存计算以及粗粒度的RDD(resilient distributed datasets)机制非常适合于迭代型的分布式计算。RDD中包含两种操作算子：转换算子(transformation)，常见的方法有map、filter、takeSample。执行算子(action)，常见的方法有collect、reduceByKey、saveAsTextFile。针对Spark大量网络传输和磁盘I/O导致效率低的缺陷，Spark内存计算的特性使其在大数据环境下能更快速地处理数据和实时查询分析结果。Spark是针对Map/Reduce在处理迭代式算法时效率较低问题时提出的新的内存计算框架，在保留Map/Reduce相关特性的基础上，Spark基于内存的集群方式较Map/Reduce运行速率快100倍。更为重要的是Spark由于其基于内存的特性，能够大量部署在廉价的机器上进而形成一个大规模集群。在实际应用中，Spark框架具有较强的灵活性。

基于内存的分布式计算框架Spark的核心是弹性分布式数据集RDD，RDD提供的接口是Spark的超集，它是对集群上并行处理数据的分布式内存的抽象，保证了容错健壮性和高可伸缩性。一个RDD代表一个被分区的只读数据集。一个RDD的生成只有两种途径。一是来自内部集合和外部存储系统，另一种是通过转换操作来自其他RDD。通常抽象的RDD包含partition，preferredLocations(p)，dependencies()，compute(p，context)，partitioner()五个接口，一个Spark数据处理程序主要经过RDD的创建操作，转换操作，控制操作，行动操作来完成一个作业。RDD是一种基于内存的分布式容错数据集，每个RDD的数据都以block的形式存储在各节点中。图9呈现了Spark的RDD存储架构，图10描述了数据从HDFS文件系统进入Spark后的转换过程。

Spark程序以SparkContext为程序运行的入口，SparkContext通过资源调度和Executor通信，Executor运行在Worker节点负责执行任务。Spark的作业运行和资源分配的核心驱动力是Spark上的资源管理，资源管理从底层计算资源，到任务调度，作业调度，应用的调度，所涉及的模块众多，概括地说主要包括TaskScheduler和DAGScheduler，TaskScheduler负责每个具体任务的实际物理调度，DAGScheduler负责任务的逻辑调度，即将作业拆分成不同阶段的具有依赖关系的多批任务。

Spark还提供了Java，Scala，Python，和R语言的高等级API以及一个支持一般执行图形的优化引擎，这些API使得对于Spark应用的开发变得更加简单和方便。同时，Spark框架还整合了一套丰富的工具，包括对结构化和半结构化数据的Spark SQL，包含众多机器学习算法的库MLlib，处理图形的工具Graph X以及用于流式处理的Spark Streaming。

实施例1

参照图1，一种基于移动轨迹大数据的短时交通流量预测方法，包括以下步骤：

S1:对交通移动轨迹数据进行数据预处理，得到训练数据；

S3:基于RDD执行所述并行NAW-DBLSTM算法，并输出预测结果。

构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法，结合RDD执行并行NAW-DBLSTM算法，考虑各路段之间空间相关性的影响权重以及捕捉交通流量非线性特征的能力，输出预测结果，有效地提高短时交通流量预测的准确性和鲁棒性，解决了移动轨迹大数据的分布式存储和并行计算的技术问题。

参照图2，在本实施例中，所述S1具体包括：

基于Spark中RDD弹性分布数据集对交通移动轨迹数据进行数据处理并进行平滑处理，得到训练数据，通过RDD中的算子进行数据计算处理从而获取所选取路段上的车辆数量，减小获取的轨迹数据与原始数据之间的差异和降低对预测算法精度的影响。通过在Hadoop分布式计算平台下，基于Spark并行处理框架解决了集中式挖掘平台下交通流量预测算法在处理大样本数据时存在的内存消耗高、计算耗时的技术问题。

在本实施例中，所述S101具体包括：

S1013:过滤不属于目标路段的交通移动轨迹数据；

S1014:使用sortByKey算子对过滤后的交通移动轨迹数据进行时间和车辆ID排序后，去除当前时间间隔t内同一车辆的重复数据，获得目标路段在当前时间间隔t内的车辆移动轨迹。

将采集的交通移动轨迹数据在Hadoop分布式计算平台下，基于Spark并行处理框架进行预处理，通过读取HDFS中的数据创建多个RDD去除重复数据，减少计算量，解决交通流量大数据的分布式存储和并行计算的技术问题。

在本实施例中，所述S102具体包括：

在本实施例中，所述S103具体包括：

通过RDD算子最终得到目标路段在预设时间间隔t的交通流量，减少获得的轨迹数据与原始数据之间的差异，降低对预测算法精度的影响。

在本实施例中，进行平滑处理可以采用卡尔兹曼滤波器(Kalman Filter)降低噪声数据对预测算法的影响，在另一些实施例中也可以使用粒子滤波器、贝叶斯滤波或高斯进行滤波。

其中，用卡尔兹曼滤波器进行滤波时，利用信号与噪声的状态空间模型、前一时刻的估计值和此时的观测值，以更新状态变量的估计，进而得出当前时刻的估计值，具体包括以下步骤：

S10321：利用卡尔兹曼滤波器(Kalman Filter)的参数和权重调整机制，按照线性无偏均方误差，计算输入和输出的偏差；

S10322：采用迭代方式计算预测算法的参数，使用无偏均方误差作为误差传递函数；

S10323：不断调整优化，使得粗糙数据趋于平滑，以获得平滑数据。

将采用卡尔兹曼滤波器(Kalman Filter)对预处理后的数据进行平滑处理，降低噪声数据对预测算法精确性的影响。

其中，S10321的具体过程为：

利用卡尔兹曼滤波的预测公式计算计算输入和输出的偏差。

θ′_k＝A<θ_k-1>+Bu_k-1

∑′_k＝A∑_k-1A^T+Q

其中的A、C、B、u_k、Q、R为已知，根据上述公式计算预测值θ′_k以及预测值与真实值之间的协方差矩阵∑′_k。

在本实施例中，S10322具体过程为：

根据卡尔兹曼滤波更新步骤计算预测算法的参数和使用无偏均方误差作为误差传递函数。

S′_k＝(C∑′_kC^T+R)^-1

K′_k＝∑′_kC^TS′_k

<θ_k-1>＝θ′_k+K′_k(Z_k-Cθ′_k)

∑_k＝(I-K′_kC)∑′_k

参照图3，在本实施例中，所述S2具体包括：

S202:基于所述目标路段的影响权重，使用注意力机制计算对目标路段具有高影响特征的注意力权重；

通过正态分布计算各路段之间的空间相关性，得到各路段对目标路段的影响权重；接着，利用注意力机制计算对目标路段具有高影响特征的注意力权重；最后，利用时间窗口将交通流量及其注意力权重值添加到DBLSTM进行训练，以提高短时交通流量预测的准确性，解决现有的交通流量预测方法并没有考虑路段间空间相关性影响权重，以及难以捕捉交通流量的非线性特征，从而导致交通流量预测精度低的技术问题。

在本实施例中，所述S201具体包括：

由于交通流量不仅受上游和下游的影响，而且各路段之间具有空间相关性,利用正态分布中当样本点x越靠近参数μ，则该点权值也就越大这一性质,计算各路段对目标路段的影响权重,能较好地体现交通流量大数据的性质。

在本实施例中，所述S202具体包括：

S2021:使用注意力机制计算具有高影响特征的权重值

通过注意力机制中的Softmax函数进行归一化，得到所有权重系数之和为1的概率分布。同时，突出对目标路段具有高影响特征的权重，以提高预测精度。

在本实施例中，所述S203具体包括：

是基于目标路段i在当前时间间隔t的交通流量

组成大小为5的时间窗口，如下：

基于目标路段i在预设时间间隔t的交通流量

所述并行NAW-DBLSTM算法包括：

h_t＝o_th(c_t) (7)

和

和

和

和

为第n-1层正向隐藏状态和反向隐藏状态，y_t为输出向量，

和

为第N(N＝7)层的正向隐藏状态和反向隐藏状态，

和

通过正态分布和注意力机制得到各路段间的空间相关性影响权重，利用时间窗口将交通流量及其注意力权重值添加到DBLSTM进行训练，解决现有的交通流量预测方法并没有考虑路段间空间相关性影响权重,以及难以捕捉交通流量的非线性特征，从而导致交通流量预测精度低的技术问题。

参照图4，在本实施例中，S3具体包括：

S301：数据分区。首先，根据不同路段的交通移动轨迹数据进行数据划分，通过调用SparkContext的partitionBy算子形成数据划分和RDD分区对应的关系，读取RDD分区中各路段数据集转换为不同的键值对<key,value>；接着通过S201中的正态分布计算各路段之间的空间相关性，然后使用S202中的注意力机制计算对目标路段具有高影响特征的注意力权重值，得到具有权重的交通流量序列RDD分区。

S302：并行计算。首先通过mapPartitions算子按照RDD分区，发送到各个Worker，经S301得到的RDD分区的权重数据集通过公式(8)确定数据集并输入到NAW-DBLSTM算法(3)-(7)；接着，通过公式(9)-(10)计算7层NAW-DBLSTM算法；最后，通过每个RDD分区独立执行NAW-DBLSTM算法，得到局部结果。

S303：结果聚合。将各分节点的局部结果进行合并，使用基于Spark并行NAW-DBLSTM算法进行交通流量预测，并输出预测结果。

在Hadoop分布式计算平台下，基于Spark并行处理框架，通过RDD进行算法实现，解决交通流量大数据的分布式存储和并行计算的技术问题。

实施例2

参照图11，一种基于移动轨迹大数据的短时交通流量预测系统，包括数据预处理模块、并行算法构建模块和预测模块；

构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法，再结合RDD执行并行NAW-DBLSTM算法，考虑各路段之间空间相关性的影响权重以及捕捉交通流量非线性特征的能力，输出预测结果，有效地提高短时交通流量预测的准确性和鲁棒性，解决了移动轨迹大数据的分布式存储和并行计算的技术问题。

在本实施例中，参照图2，所述数据预处理模块用于对交通移动轨迹数据进行数据预处理，得到训练数据具体包括：

基于Spark中RDD弹性分布数据集对交通移动轨迹数据进行数据处理并进行平滑处理，得到训练数据，通过RDD中的算子进行数据计算处理从而获取所选路段的车辆数量，减小获取的轨迹数据与原始数据之间的差异和降低对预测算法精度的影响。通过在Hadoop分布式计算平台下，基于Spark并行处理框架解决了集中式挖掘平台下交通流量预测算法在处理大样本数据时存在的内存消耗高、计算耗时的技术问题。

在本实施例中，所述S101具体包括：

S1013:过滤不属于目标路段的交通移动轨迹数据；

在本实施例中，所述S102具体包括：

S1021:将分布在各个结点上的目标路段在当前时间间隔内的车辆移动轨迹使用flatMap算子转换为key2＝时间和区域编号，value2则增加计数1的键值对<key2,value2>；

在本实施例中，所述S103具体包括：

采用卡尔兹曼滤波器(Kalman Filter)对预处理后的数据进行平滑处理，降低噪声数据对预测算法精确性的影响。

其中，S10321的具体过程为：

利用卡尔兹曼滤波的预测公式计算计算输入和输出的偏差。

θ′_k＝A<θ_k-1>+Bu_k-1

Σ′_k＝AΣ_k-1A^T+Q

在本实施例中，S10322具体过程为：

S′_k＝(C∑′_kC^T+R)^-1

K′_k＝∑′_kC^TS′_k

<θ_k-1>＝θ′_k+K′_k(Z_k-Cθ′_k)

∑_k＝(I-K′_kC)∑′_k

在本实施例中，参照图3，所述并行NAW-DBLSTM算法用于根据所述训练数据，构建Spark框架下基于正态分布和注意力机制加权的并行NAW-DBLSTM算法具体包括：

S201：使用正态分布计算各路段之间的空间相关性，得到各路段对目标路段的影响权重；

S202：基于所述目标路段的影响权重，使用注意力机制计算对目标路段具有高影响特征的注意力权重；

S203：使用时间窗口将所述训练数据和所述注意力权重值添加到DBLSTM进行训练，以构建所述并行NAW-DBLSTM算法。

在本实施例中，所述S201具体包括：

在本实施例中，所述S202具体包括：

S2021:使用注意力机制计算具有高影响特征的权重值

在本实施例中，所述S203具体包括：

是基于目标路段i在当前时间间隔t的交通流量

组成大小为5的时间窗口，如下：

基于目标路段i在预设时间间隔t的交通流量

所述并行NAW-DBLSTM算法包括：

h_t＝o_th(c_t) (7)

和

和

和

和

为第n-1层正向隐藏状态和反向隐藏状态，y_t为输出向量，

和

为第N(N＝7)层的正向隐藏状态和反向隐藏状态，

和

通过正态分布和注意力机制得到各路段间的空间相关性影响权重，利用时间窗口将交通流量及其注意力权重值添加到DBLSTM进行训练，解决现有的交通流量预测方法并没有考虑路段间空间相关性影响权重，以及难以捕捉交通流量的非线性特征，从而导致交通流量预测精度低的技术问题。

在本实施例中，参照图4，所述预测模块用于基于RDD执行所述并行NAW-DBLSTM算法，并输出预测结果具体包括：

S302：并行计算。首先通过mapPartitions算子按照RDD分区，发送到各个Worker，经S301得到的RDD分区的权重数据集通过公式(8)确定数据集并输入到NAW-DBLSTM算法(3)-(7)；接着通过公式(9)-(10)计算7层NAW-DBLSTM算法；最后通过每个RDD分区独立执行NAW-DBLSTM算法，得到局部结果。

S303：结果聚合。将各节点的局部结果进行合并，使用基于Spark并行NAW-DBLSTM算法进行交通流量预测，并输出预测结果。

以上对本发明实施例所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述，以上实施例的说明只适用于帮助理解本发明实施例的原理；同时，对于本领域的一般技术人员，依据本发明实施例，在具体实施方式以及应用范围上均会有改变之处，即应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。