CN111860621B

CN111860621B - 一种数据驱动的分布式交通流量预测方法及系统

Info

Publication number: CN111860621B
Application number: CN202010630479.2A
Authority: CN
Inventors: 夏大文; 李华青; 王林; 冯夫健; 高晓楠; 章茂庭; 杨楠; 严晓波; 魏嘉银; 张乾
Original assignee: Guizhou Minzu University
Current assignee: Guizhou Minzu University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2024-05-03
Anticipated expiration: 2040-06-30
Also published as: CN111860621A

Abstract

本发明公开了一种数据驱动的分布式交通流量预测方法及系统，其中方法包括以下步骤：S1:获取车辆的移动轨迹数据；S2:对所述移动轨迹数据进行预处理，获得训练数据；S3:根据所述训练数据构建分布式TWND‑LSTM模型；S4:分别在Map、Combine和Reduce阶段实现所述分布式TWND‑LSTM模型，并输出预测结果。通过在Hadoop分布式计算平台下，基于MapReduce并行处理框架，获得训练数据，构建分布式TWND‑LSTM模型，并分别在Map、Combine和Reduce阶段实现所述分布式TWND‑LSTM模型，输出预测结果，有效提高了预测的精确性、鲁棒性和实时性，解决了交通流量大数据的分布式存储和并行计算的技术问题。

Description

一种数据驱动的分布式交通流量预测方法及系统

技术领域

本发明涉及交通流量预测领域，尤其涉及一种数据驱动的分布式交通流量预测方法及系统。

背景技术

在大数据驱动的智能交通时代，交通流量预测是城市交通系统诱导和城市交通管控的关键技术，是利用当前和历史的交通流量信息对未来的交通流量进行预测，进而帮助出行者进行路径规划，缓解交通拥堵和减少环境污染等城市问题。

传统的交通流量预测方法存在预测精度低，适应性差等缺陷，尤其是随着交通大数据的爆炸式增长，现有集中式学习模型在基于传统单机串行计算平台的交通流量预测时存在“内存消耗与I/O开销高、处理效率低和扩展性能差”的技术问题。同时，现有技术在交通流量预测中仅考虑时间维度而忽略目标路段上下游的交通状况，以及并未充分考虑交通流量潜在的趋势调整特征，从而导致交通流量预测精度低的技术问题。

目前，长短期记忆神经网络(LSTM)模型适合处理时效数据，在交通流量预测模型中备受青睐。但是现有传统的集中式LSTM模型在交通流量预测中(尤其是在基于大规模移动轨迹数据的交通流量预测中)存在“内存消耗高、I/O开销大、数据传输耗时、计算性能低”等问题，无法有效解决交通流量大数据的分布式存储和并行计算的技术问题。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种数据驱动的分布式交通流量预测方法及系统，具有预测精度高，能有效解决交通流量大数据的分布式存储和并行计算的技术问题。

本发明解决上述技术问题的技术方案如下：一种数据驱动的分布式交通流量预测方法，包括以下步骤：

S1:获取车辆的移动轨迹数据；

S2:对所述移动轨迹数据进行预处理，获得训练数据；

S3:根据所述训练数据构建分布式TWND-LSTM模型；

S4:分别在Map、Combine和Reduce阶段实现所述分布式TWND-LSTM模型，并输出预测结果。

本发明的有益效果是，获得移动轨迹构建分布式TWND-LSTM模型并分别在Map、Combine和Reduce阶段实现所述分布式TWND-LSTM模型，输出预测结果，有效提高预测精确性、鲁棒性和实时性，解决了交通流量大数据的分布式存储和并行计算的技术问题。

进一步，在Hadoop分布式计算平台下，基于MapReduce并行处理框架，所述S2具体包括：

S201:根据所述移动轨迹数据提取目标路段在当前时间间隔t内出现感兴趣区域的车辆轨迹；

S202:根据所述车辆轨迹统计目标路段在当前时间间隔t内的车辆数量；

S203:将所述目标路段在当前时间间隔t内的车辆总数进行平滑处理获得训练数据。

采用上述进一步方案的有益效果是，将所述移动轨迹数据依次进行数据提取、数据统计和数据集成并进行平滑处理，降低零点数据对网络模型的影响，通过在Hadoop分布式计算平台下，基于MapReduce并行处理框架解决了交通流量大数据的分布式存储和并行计算的技术问题。

进一步，所述S2中S201在Hadoop分布式计算平台下，基于MapReduce并行处理框架的具体过程为：

在Map阶段，定义键值对<key1,value1>，其中key1表示时间和车辆ID，value1表示区域位置的编号；

在Reduce阶段，首先对所述时间和所述车辆ID进行排序，接着去除所述当前时间间隔t内同一车辆的重复数据，获得所述当前时间间隔t内出现感兴趣区域的车辆轨迹。

采用上述进一步方案的有益效果是，将采集的移动轨迹数据在Hadoop分布式计算平台下，基于MapReduce并行处理框架进行预处理，去除重复数据，有效提高预测精度，减少计算量，解决交通流量大数据的分布式存储和并行计算的技术问题。

进一步，所述S2中S202在Hadoop分布式计算平台下，基于MapReduce并行处理框架的具体过程为:

在Map阶段,读取所述当前时间间隔t内出现感兴趣区域的车辆轨迹，并定义键值对<key2,value2>，其中key2表示时间和所述区域位置的编号，value2则增加计数1；

在Reduce阶段，统计所述当前时间间隔t内的车辆数量。

进一步，所述S2中S203在Hadoop分布式计算平台下，基于MapReduce并行处理框架的具体过程为:

在Map任务中，读取所述当前时间间隔t内的车辆数量，并定义键值对<key3,value3>，其中key3表示时间间隔，value3表示各目标路段的车辆总数，接着被直接输入到Reduce阶段的HDFS中并进行平滑处理，处理后的数据作为所述训练数据。

采用上述进一步方案的有益效果是，将所述移动轨迹数据依次进行数据提取、数据统计和数据集成并进行平滑处理，降低零点数据对网络模型的影响。

进一步，所述S3具体包括：

S301:通过正态分布对所述训练数据进行计算获得权重；

S302:将所述权重引入LSTM模型，对所述LSTM进行加权求代价获得流量时序数据；

S303:采用窗口平滑方法处理所述流量时序数据，并通过目标路段i在当前时间间隔t内的交通流量提取目标路段在历史相邻时间间隔t内的交通流量/>组成大小为4的窗口送入所述LSTM模型进行训练，训练好的模型为所述TWND-LSTM模型。

采用上述进一步方案的有益效果是，先通过正态分布对LSTM神经网络进行加权求代价获得流量时序数据，组成随时间单一变量序列以预测变量在未来时间间隔的交通流量，以提高交通流量预测的鲁棒性和准确性；其次，任意目标路段在未来时间间隔t内的交通流量，均可由该目标路段及其相邻路段在历史和当前时间间隔的交通流量而进行预测，以提高交通流量预测的实时性和可扩展性，以解决现有交通流量预测方法仅考虑时间维度而忽略目标路段上下游的交通状况，以及没有充分考虑交通流量潜在的趋势调整特征，从而导致交通流量预测精度低的技术问题。

进一步，所述S301具体包括：

S3011:设正态分布u均值为目标路段i的交通流量，δ为经验值，x为各路段交通流量离散值，则计算权重的表达式为:

采用上述进一步方案的有益效果是，根据正态分布的分布函数可知，当用来预测的数据越靠近均值u时，预测的结果越准，则权值越大，将正态分布与LSTM神经网络相结合，利用正态分布计算出的权值对LSTM神经网络进行加权求代价，有效提高预测精度。

进一步，所述S303具体包括：

S3031:设目标路段i在当前时间间隔t的交通流量为提取目标路段在历史相邻时间间隔内的交通流量/>组成大小为4的窗口送入所述LSTM模型进行训练，则公式表达式为：

采用上述进一步方案的有益效果是，提取目标路段在历史相邻时间间隔t内的交通流量组成大小为4的窗口，任意目标路段i在未来时间间隔t内的交通流量，均可由该目标路段i及其相邻路段在历史和当前时间间隔的交通流量而进行预测，以提高交通流量预测的实时性和可扩展性，解决现有交通流量预测方法仅考虑时间维度而忽略目标路段上下游的交通状况，以及没有充分考虑交通流量潜在的趋势调整特征，从而导致交通流量预测精度低的技术问题。

进一步，所述S4具体包括：

S401:在所述Map阶段，使用Mapper函数从所述HDFS中接收每行数据集为不同的键值对<key,value>，并且输出中间数据至Combiner函数；

S402:在所述Combine阶段，使用Combiner函数提取所述Mapper函数的计算结果，并根据同样key值对所述中间数据进行排序，并且输出结果至Reducer函数；

S403:在所述Reduce阶段，使用Reducer函数首先获取Combiner函数的局部结果，接着从所述中间数据中聚合同样key值的value值，最后输出全局结果，所述全局结果为所述预测结果。

采用上述进一步方案的有益效果是，在Hadoop分布式计算平台下，基于MapReduce并行处理框架在Map阶段、Combine阶段、Reduce阶段进行模型实现，解决交通流量大数据的分布式存储和并行计算的技术问题。

一种交通流量预测系统，包括数据获取模块、预处理模块、模型建立模块和预测模块；

所述数据获取模块用于获取车辆的移动轨迹数据并发送至所述预处理模块；

所述预处理模块用于对所述移动轨迹数据进行预处理，获得训练数据并将所述训练数据发送至所述模型建立模块；

所述模型建立模块用于根据所述训练数据构建分布式TWND-LSTM模型；

所述预测模块用于分别在Map、Combine和Reduce阶段实现所述分布式TWND-LSTM模型，并输出预测结果。

本发明的有益效果是，获取移动轨迹建分布式TWND-LSTM模型并分别在Map、Combine和Reduce阶段实现所述分布式TWND-LSTM模型，输出预测结果，有效提高了预测精度，解决了交通流量大数据的分布式存储和并行计算的技术问题。

进一步，所述预处理模块在Hadoop分布式计算平台下，基于MapReduce并行处理框架，对所述移动轨迹数据进行预处理的过程为：

将所述移动轨迹数据依次进行数据提取、数据统计和数据集成并进行平滑处理，降低零点数据对网络模型的影响，通过在Hadoop分布式计算平台下，基于MapReduce并行处理框架解决了交通流量大数据的分布式存储和并行计算的技术问题。

进一步，所述预处理模块在Hadoop分布式计算平台下，基于MapReduce并行处理框架获得车辆轨迹的过程为：

进一步，所述预处理模块在Hadoop分布式计算平台下，基于MapReduce并行处理框架获得当前时间间隔t内的车辆数量的过程为:

在Reduce阶段，统计所述当前时间间隔t内的车辆数量。

所述预处理模块在Hadoop分布式计算平台下，基于MapReduce并行处理框架基于所述当前时间间隔t内的车辆数量获得所述训练数据的过程为:

在Map任务中，读取所述当前时间间隔内t的车辆数量，并定义键值对<key3,value3>，其中key3表示时间间隔，value3表示各目标路段的车辆总数，接着被直接输入到Reduce阶段的HDFS中并进行平滑处理，处理后的数据作为所述训练数据。

进一步，模型建立模块根据所述训练数据构建分布式TWND-LSTM模型的具体过程为:

S301:通过正态分布对所述训练数据进行计算获得权重；

进一步，所述模型建立模块获得权重的过程包括：

进一步，所述模型建立模块提取所述目标路段在历史相邻时间间隔t内的交通流量组成大小为4的窗口的过程包括：

进一步，所述预测模块分别在Map、Combine和Reduce阶段实现所述分布式TWND-LSTM模型，并输出预测结果的过程包括：

采用上述进一步方案的有益效果是，在Hadoop分布式计算平台下，基于MapReduce并行处理框架在Map阶段、Combine阶段、Reduce阶段进行模型实现，解决交通流量大数据的分布式存储和并行计算的技术问题。本发明中名词解释如表1所示：

表1

附图说明

图1为本发明一种数据驱动的分布式交通流量预测方法流程图；

图2为本发明一个实施例的流程图；

图3为本发明一种数据驱动的分布式交通流量预测系统框架图；

图4为本发明Hadoop通过HDFS、MapReduce分别实现分布式存储和并行计算的功能图；

图5为本发明HDFS进程通信框架图；

图6为本发明MapReduce计算任务流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参照图1，一种数据驱动的分布式交通流量预测方法，包括以下步骤：

S1:获取车辆的移动轨迹数据；

S2:对所述移动轨迹数据进行预处理，获得训练数据；

S3:根据所述训练数据构建分布式TWND-LSTM模型；

获得移动轨迹构建分布式TWND-LSTM模型并分别在Map、Combine和Reduce阶段实现所述分布式TWND-LSTM模型，输出预测结果，有效提高预测精确性、鲁棒性和实时性，解决了交通流量大数据的分布式存储和并行计算的技术问题。

在本实施例中，采用出租车GPS轨迹数据，定义为目标路段在时间间隔t所采集的交通流量值。利用交通流量序列t时间间隔预测t+1时间间隔的交通流量/>采样时间间隔为5分钟，则交通流量序列表示为/> 采用分布式TWND-LSTM模型，任意目标路段在未来时间间隔的交通流量，可由该目标路段及其相邻路段在历史和当前时间间隔的交通流量而进行预测。在分布式WND-LSTM模型中，若i路段为目标路段，t+1为未来时间间隔，则预测模型输入的表达公式为X＝(O₁,O₂,…,O_R)，输出的公式表达式分别为：/>

在Hadoop分布式计算平台下，基于MapReduce并行处理框架，所述S2具体包括：

将所述移动轨迹数据依次进行数据提取、数据统计和数据集成并进行平滑处理，降低零点数据对网络模型的影响，在本实施例中，采用卡尔曼滤波实现数据的平滑处理。

在本实施例中，所述S2中S201在Hadoop分布式计算平台下，基于MapReduce并行处理框架的具体过程为：

在Reduce阶段，首先对所述时间和所述车辆ID进行排序，接着去除所述当前时间间隔t内同一车辆的重复数据，获得所述当前时间间隔t内出现感兴趣区域的车辆轨迹，最后写入Hadoop分布式文件系统(HDFS)。将采集的移动轨迹数据在Hadoop分布式计算平台下，基于MapReduce并行处理框架进行预处理，去除重复数据，有效提高预测精度，减少计算量，解决交通流量大数据的分布式存储和并行计算的技术问题。

在本实施例中，所述S2中S202在Hadoop分布式计算平台下，基于MapReduce并行处理框架的具体过程为:

在Reduce阶段，统计所述当前时间间隔t内的车辆数量。该任务统计可能会由于上一任务中某一特定时刻没有车辆信息而导致数据库中当前时间间隔t内的数据缺失，从而影响数据的维度。为此，在这个时刻加入一个键值对<key,value>作为标志，进而确保每天均有一个固定时间点。

所述S2中S203在Hadoop分布式计算平台下，基于MapReduce并行处理框架的具体过程为:

在Map任务中，读取所述当前时间间隔t内的车辆数量，并定义键值对<key3,value3>，其中key3表示时间间隔，value3表示各目标路段的车辆总数，接着被直接输入到Reduce阶段的HDFS中并进行平滑处理，处理后的数据作为所述训练数据。将所述移动轨迹数据依次进行数据提取、数据统计和数据集成并进行平滑处理，降低零点数据对网络模型的影响，通过在Hadoop分布式计算平台下，基于MapReduce并行处理框架解决了交通流量大数据的分布式存储和并行计算的技术问题。

Apache Hadoop架构：

Apache Hadoop是一种可靠、可扩展的开源分布式计算架构，能在由大量廉价硬件所组成的集群中为应用程序提供稳定可靠的接口。它充分利用集群的计算与存储能力，构建可靠性高、容错性强、可伸缩和可扩展的大数据批量处理架构，实现大规模数据的分布式存储与并行计算。

HDFS和MapReduce是Hadoop架构的核心组件，也是基于GFS(Google File System,谷歌文件系统)和Google MapReduce的开源实现。Hadoop通过HDFS、MapReduce分别实现分布式存储和并行计算，并由NameNode和DataNode完成HDFS功能、JobTracker和TaskTracker完成MapReduce功能参照图4。此外，Hadoop还包括Hadoop Common、Hadoop YARN、Ambari、Avro、Cassandra、Chukwa、HBase、Hive、Mahout、Pig、Spark、Tez和ZooKeeper等。

Hadoop分布式文件系统(HDFS)：

HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是一种可部署在廉价硬件上实现高吞吐量并行数据访问的分布式文件系统，能提供高性能、强容错、可靠的存储大规模数据。参照图5，HDFS采用Master(服务器)/Slave(客户端)运行模式，由一个NameNode(管理者)节点、多个DataNode(工作者)节点和HDFS Client组成，并通过Hadoop的RPC机制实现NameNode、DataNode与HDFS Client进程之间的通信。

MapReduce并行编程模型：

MapReduce是一种能处理大规模数据集的并行编程模型(常称为“MapReduce并行处理框架”)，能在由成百上千台服务器所组成的Hadoop集群上执行并行计算任务。MapReduce由JobTracker和TaskTracker两大服务模块所构成，JobTracker负责管理调度作业(系统任务分配的核心)，TaskTracker负责执行用户所定义的操作。MapReduce将计算逻辑分配至各数据节点进行数据计算和价值发现，并将运行在大规模集群中的并行计算过程抽象为Map(映射)和Reduce(化简)。MapReduce作业被分割成Map任务和Reduce任务并分别执行在Map阶段和Reduce阶段，每个阶段都有键值对<key,value>作为输入和输出，其类型由程序员在定义Map函数和Reduce函数时进行选择。参照图6，Map函数将整个计算任务分解成多个子任务(即，将一组键值对<key,value>映射成一组新的中间键值对<key,value>)，Reduce函数将多个子任务处理的结果进行聚合(即，接收Map函数的输出，聚合中间结果中相同key值的所有value值，并输出键值对<key,value>)，进而产生最终结果。

参照图2，所述S3具体包括：

S301:通过正态分布对所述训练数据进行计算获得权重；

先通过正态分布对LSTM神经网络进行加权求代价获得流量时序数据，组成随时间单一变量序列以预测变量在未来时间间隔的交通流量，以提高交通流量预测的鲁棒性和准确性；其次，任意目标路段在未来时间间隔t内的交通流量，均可由该目标路段及其相邻路段在历史和当前时间间隔的交通流量而进行预测，以提高交通流量预测的实时性和可扩展性，以解决现有交通流量预测方法仅考虑时间维度而忽略目标路段上下游的交通状况，以及没有充分考虑交通流量潜在的趋势调整特征，从而导致交通流量预测精度低的技术问题。

LSTM模型具有独特的结构，是递归神经网络(RNN)的一种变体，它具有足够的能力解决长期依赖问题且可以解决梯度爆炸和梯度消失问题。LSTM结构中的记忆细胞是模型的核心部分，它替代了传统神经元的隐含层，尤其是该细胞可以保留有用的信息而丢弃其余信息以及能自动确定时间序列中的最佳时间。LSTM主要由输入门、输出门和遗忘门而组成，可以实现信息的增加或者删除，输入门主要将处理过的数据增加到细胞中；遗忘门决定什么时候忘记输出结果，从而为输入序列选择最佳的时间延迟；输出门获取所有计算结果，并为LSTM神经网络单元生成输出。在LSTM神经网络中，设输入时间序列为x＝(x₁,x₂,…,x_t)，隐含层中的时间序列为h＝(h₁,h₂,…,h_t)，输出层中的时间序列为y＝(y₁,y₂,…,y_t)，则可以通过以下公式进行计算：

y＝W_hyh_y+b_y

h_t＝H(W_xhx_t+W_hhh_h-1+b_h)

其中，W为权值矩阵，b为偏置向量。

LSTM模型中的隐含层函数可以通过以下公式进行计算：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_tg(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_th(c_t)

其中，i_t，o_t，f_t，c_t分别表示输入门、输出门、遗忘门和记忆细胞，σ，g，h分别表示门、输入和输出激活函数。

在本实施例中，所述S301具体包括：

S3011:设正态分布u均值为目标路段i的交通流量，δ为经验值，在本实施例中取0.6，x为各路段交通流量离散值，则计算权重的表达式为:

根据正态分布的分布函数可知，当用来预测的数据越靠近均值u时，预测的结果越准，则权值越大，将正态分布与LSTM神经网络相结合，利用正态分布计算出的权值对LSTM神经网络进行加权求代价，有效提高预测精度。

在本实施例中，所述S303具体包括：

S3031:设目标路段i在当前时间间隔t的交通流量为提取目标路段在历史相邻时间间隔t内的交通流量/>组成大小为4的窗口送入所述LSTM模型进行训练，则公式表达式为：/>

其中，n为时间间隔的个数。

提取目标路段在历史相邻时间间隔t内的交通流量组成大小为4的窗口，任意目标路段i在未来时间间隔t内的交通流量，均可由该目标路段i及其相邻路段在历史和当前时间间隔的交通流量而进行预测，以提高交通流量预测的实时性和可扩展性，解决现有交通流量预测方法仅考虑时间维度而忽略目标路段上下游的交通状况，以及没有充分考虑交通流量潜在的趋势调整特征，从而导致交通流量预测精度低的技术问题。

所述S4具体包括：

在Hadoop分布式计算平台下，基于MapReduce并行处理框架在Map阶段、Combine阶段、Reduce阶段进行模型实现，解决交通流量大数据的分布式存储和并行计算的技术问题。

本实施例的实施原理为：参照图2，首先，数据采集。定义V_t ⁱ为目标路段i在时间间隔t所采集的交通流量值，利用交通流量序列t时间间隔预测下一时间间隔t+1的交通流量，以得到交通流量序列。其次，数据预处理。在Hadoop分布式计算平台下，基于MapReduce并行处理框架，采用Kalman滤波对移动轨迹大数据(如大规模出租车GPS轨迹数据)进行数据预处理(包括数据提取、数据统计和数据集成等)，以解决大规模交通流量数据的分布式存储、并行计算和数据平滑等问题。接着，数据建模，基于MapReduce并行处理框架，构建分布式TWND-LSTM模型，以提高交通流量预测的鲁棒性和准确性。该模型利用时间窗口和正态分布对长短时记忆(LSTM)神经网络进行加权求代价，通过代价转化为时间序列预测交通流量问题，并组成随时间单一变量序列以预测变量在未来时间间隔的交通流量。最后，模型实现。基于MapReduce并行处理框架，通过Mapper、Combiner和Reducer函数分别在Map、Combine和Reduce阶段实现分布式TWND-LSTM模型的并行化(分布式训练和并行预测)，以提高交通流量预测的实时性和可扩展性。

实施例2

参照图2和图3，在实施例1的基础上，一种交通流量预测系统，包括数据获取模块、预处理模块、模型建立模块和预测模块；

获取移动轨迹建分布式TWND-LSTM模型并分别在Map、Combine和Reduce阶段实现所述分布式TWND-LSTM模型，输出预测结果，有效提高了预测精度，解决了交通流量大数据的分布式存储和并行计算的技术问题。

所述预处理模块在Hadoop分布式计算平台下，基于MapReduce并行处理框架，对所述移动轨迹数据进行预处理的过程为：

将所述移动轨迹数据依次进行数据提取、数据统计和数据集成并进行平滑处理，降低零点数据对网络模型的影响。

所述预处理模块在Hadoop分布式计算平台下，基于MapReduce并行处理框架获得车辆轨迹的过程为：

将采集的移动轨迹数据在Hadoop分布式计算平台下，基于MapReduce并行处理框架进行预处理，去除重复数据，有效提高预测精度，减少计算量，解决交通流量大数据的分布式存储和并行计算的技术问题。

所述预处理模块在Hadoop分布式计算平台下，基于MapReduce并行处理框架获得当前时间间隔t内的车辆数量的过程为:

在Reduce阶段，统计所述当前时间间隔t内的车辆数量。

S301:通过正态分布对所述训练数据进行计算获得权重；

需要说明的是，TWND-LSTM利用正态分布计算相邻路段对目标路段的影响权重，然后将其作为时间序列预测问题，从而形成一个具有时间的单一变量序列，预测变量在当前时间间隔的状态。

通过正态分布，考虑相邻路段间相互影响权重的交通流量，生成时间间隔，从而获得流量时序数据，将每个时间间隔对应的加权交通流量输入LSTM模型获得预测结果在下一个时间间隔。

所述模型建立模块获得权重的过程包括：

所述模型建立模块提取所述目标路段在历史相邻时间间隔t内的交通流量组成大小为4的窗口的过程包括：

n表示为时间间隔的个数。

所述预测模块分别在Map、Combine和Reduce阶段实现所述分布式TWND-LSTM模型，并输出预测结果的过程包括：

以上对本发明实施例所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述，以上实施例的说明只适用于帮助理解本发明实施例的原理；同时，对于本领域的一般技术人员，依据本发明实施例，在具体实施方式以及应用范围上均会有改变之处，即应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。

Claims

1.一种数据驱动的分布式交通流量预测方法，其特征在于，包括以下步骤：

S1:获取车辆的移动轨迹数据；

S2:对所述移动轨迹数据进行预处理，获得训练数据；

S3:根据所述训练数据构建分布式TWND-LSTM模型；

S4:分别在Map、Combine和Reduce阶段实现所述分布式TWND-LSTM模型，并输出预测结果；

所述S3具体包括：

S301:通过正态分布对所述训练数据进行计算获得权重；

S303:采用窗口平滑方法处理所述流量时序数据，并通过目标路段i在当前时间间隔t内的交通流量提取目标路段在历史相邻时间间隔t内的交通流量/>组成大小为4的窗口送入所述LSTM模型进行训练，训练好的模型为所述TWND-LSTM模型；

所述S301具体包括：

所述S303具体包括：

S3031:设目标路段i在当前时间间隔t的交通流量为提取目标路段在历史相邻时间间隔的交通流量/>组成大小为4的窗口送入所述LSTM模型进行训练，则公式表达式为：

其中，n表示为时间间隔的个数。

2.根据权利要求1所述的方法，其特征在于，在Hadoop分布式计算平台下，基于MapReduce并行处理框架，所述S2具体包括：

3.根据权利要求2所述的方法，其特征在于，所述S2中S201在Hadoop分布式计算平台下，基于MapReduce并行处理框架的具体过程为：

4.根据权利要求3所述的方法，其特征在于，所述S2中S202在Hadoop分布式计算平台下，基于MapReduce并行处理框架的具体过程为:

在Reduce阶段，统计所述当前时间间隔t内的车辆数量。

5.根据权利要求4所述的方法，其特征在于，所述S2中S203在Hadoop分布式计算平台下，基于MapReduce并行处理框架的具体过程为:

6.根据权利要求5所述的方法，其特征在于，所述S4具体包括：

7.一种数据驱动的分布式交通流量预测系统，其特征在于，包括数据获取模块、预处理模块、模型建立模块和预测模块；

所述预测模块用于分别在Map、Combine和Reduce阶段实现所述分布式TWND-LSTM模型，并输出预测结果；

所述模型建立模块的具体执行步骤如下：

S301:通过正态分布对所述训练数据进行计算获得权重；

所述S301具体包括：

所述S303具体包括：

其中，n表示为时间间隔的个数。