CN109903554A

CN109903554A - 一种基于Spark的路网交通运行分析方法

Info

Publication number: CN109903554A
Application number: CN201910129703.7A
Authority: CN
Inventors: 钱超; 杨孟; 朱熹; 许宏科; 刘冬伟
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2019-06-18

Abstract

一种基于Spark的路网交通运行分析方法，以实时交通流数据为基础，结合k‑means和随机森林算法构建了路网交通运行态势判别模型；选择分布式文件系统存储和弹性分布式数据集并行处理交通数据，实现了路网交通运行状态的实时判别。本发明利用Spark大数据机器学习平台，结合分布式k‑means算法进行聚类分析，改善了传统的k‑means算法在大数据情况下，算法时效性的问题，实现路网交通运行状态的判别，分析结果可为高速公路管理部门提供实时、可靠的路网运行状态分析服务，同时可为建立高速公路智慧管控平台提供理论依据。

Description

一种基于Spark的路网交通运行分析方法

技术领域

本发明涉及智能交通领域，具体涉及应用大数据分析与挖掘技术建立的一种基于Spark的路网交通运行分析方法。

背景技术

随着智能交通系统(Intelligent Transportation System,ITS)研究的深入展开，道路交通数据规模和复杂度呈爆发式增长，呈现出大数据的“6V”特征。然而在高速公路领域，交通数据的存储和处理依然采用传统的串行化方法，由于数据量巨大，数据结构复杂，其计算完成时间已无法应用于实际场景。因此，采用并行化与分布式的数据处理技术来提高交通信息处理水平成为当前交通大数据平台研究的主流。建立综合运输服务大数据平台，促进交通运输大数据产业化应用成为迫切的行业需求。

现阶段，大多数研究主要集中在根据高速路网的历史数据进行路网运行分析，对路网的实时信息反馈较少；其中，一部分研究是根据路网中的实时的速度来对路网的运行状态进行分析，缺乏科学性和可靠性。如何在现有的高速路网环境下，利用获取的交通数据中，实时地分析出某个区域路网的交通流运行状态，是目前面临的重要问题。

发明内容

有鉴于此，本发明的目的是提供一种基于Spark的路网交通运行分析方法。

为实现上述目的，本发明的技术方案是：

一种基于Spark的路网交通运行分析方法，包括以下步骤：

1)首先利用5台PC机搭建包含一个主节点和四个从节点的Spark大数据机器学习平台；主节点作为大数据机器学习平台的控制节点，从节点作为大数据机器学习平台的工作节点，各节点间在一个局域网内通过千兆以太网进行互相连接通信；

2)以实时的交通流数据为基础，在Spark大数据机器学习平台上采用分布式k-means算法进行交通运行状态聚类，并输出最佳的交通运行状态聚类结果T′；

根据实际的交通流运行情况将最佳的交通运行状态聚类结果T′中不同簇中的交通流数据赋予一个交通运行状态，其最终的聚类结果为T＝{(x_i,M_j)；i＝1,2,...,n；j＝1,2,...,5}，其中x_i表示交通流运行数据，包括交通流量、速度和占有率，n为数据集记录数，M_j表示交通流运行数据聚类后的交通运行状态；

3)在交通运行状态聚类分析完成后，在Spark大数据机器学习平台上采用随机森林算法对最终的聚类结果T进行训练，利用训练完成的模型建立交通运行状态判别规则，实现路网交通运行状态判别。

本发明进一步的改进在于，步骤1)中，Spark大数据机器学习平台包括从上向下依次为数据应用层1、数据处理层2以及数据存储层3；其中数据存储层3选用分布式文件系统，用于底层数据存储管理，Spark直接读取HDFS上的数据进行计算并把结果再写回HDFS；数据处理层2利用Spark内建的独立调度器模式实现底层资源调度，同时，RDD进行数据处理任务的并行执行；数据应用层1，由Spark的多种大数据处理场景生态应用组件组成，其中包括SparkR、Spark SQL和Spark MLlib。

本发明进一步的改进在于，步骤2)中，交通流运行数据聚类后的交通运行状态为畅通、基本畅通、轻度拥堵、中度拥堵和严重拥堵五种交通运行状态。

本发明进一步的改进在于，采用聚类算法将道路拥堵程度划分为畅通、基本畅通、轻度拥堵、中度拥堵和严重拥堵五种状态。

本发明进一步的改进在于，步骤2)中，采用分布式k-means算法进行交通运行状态聚类，并输出最佳的交通运行状态聚类结果T′的具体过程为：

(1)从高速公路交通流数据集D＝{x₁,x₂,...,x_n}中，随机选择k个中心点m_j，并将其存入文件clusterList中；其中，k为聚类个数，且k＝5；

(2)在Spark大数据机器学习平台的分布式文件系统中，每个节点都包含部分数据集D_i＝{x₁,x₂,...,x_n′}，将文件clusterList分发给分布式文件系统的每个节点中；

(3)在每个子数据集D_i中，计算非中心x′_i到k个中心点m_j的距离d(x′_i,m_j)，如果d(x′_i,m_j)＝min{d(x′_i,m_j),i＝1,2,3,...,n′；j＝1,2,...,k}，则将非中心x′_i划分到中心点m_j的类中；

(4)直到每个节点上非中心点划分到k个聚类以后，形成k个簇，分别计算k个簇的均值作为新中心数据m^*，并保存在clusterList文件中；

(5)计算分布式k-means算法的误差平方和准则函数J，若聚类准则函数收敛或聚类迭代达到最大，则得到最终聚类结果；否则重复步骤(2)、(3)、(4)继续迭代，直到满足聚类停止条件；

(6)迭代结束，输出交通流运行状态聚类结果T′＝{(x_i,m′)；i＝1,2,...,n；m′＝1,2,...,5}。

本发明进一步的改进在于，分布式k-means算法使用欧氏距离计算数据集中非中心点x′_i与k个中心点m_j(j＝1,2,…,k)之间的距离d(x′_i,m_j)，如式(8)所示：

式(8)中，u表示高速公路交通流运行指标的维度；x′_iu和m_ju表示x′_i和m_j相应的维度值；

非中心点x′_i与其所属聚类中心m_j的实际距离d(x′_i,m_j)表示k个距离中的最小值，如式(9)所示：

d(x′_i,m_j)＝min{d(x′_i,m_j),i＝1,2,3,...,n′；j＝1,2,...,k} (9)

聚类过程中，划分k个簇后，每个簇的均值为D_average，如式(10)所示：

式(10)中，n表示簇中非中心数据的数量；x′_it和m_jt表示非中心数据x′_i和m_j相应的类别值。

本发明进一步的改进在于，步骤3)中，采用随机森林算法建立交通运行状态判别规则，实现路网交通运行状态判别的过程为：

(1)采用Bootstrap重采样技术从路网交通运行状态聚类结果T中有放回地随机抽取numTrees个子数据集，并将numTrees个子数据集D_i基本均匀的分配到Spark大数据机器学习平台的所有节点中；

(2)分别从Spark大数据机器学习平台所有节点的数据集D_i中随机选取M个特征属性，将M个特征属性作为数据集D_i的特征属性；其中，M＜3；

(3)根据不同特征属性划分出不同的子集，以计算基尼指数的方式确定最优的属性划分点，其对应的子集为最优划分子集；

(4)在所有节点中，重复步骤(3)，直到子集所含的样本数小于5000时，生成叶子节点。

(5)根据数据集D_i中交通运行状态的众数判别叶子节点的所属类别，生成交通流运行状态判别决策树；

(6)最终，在Spark大数据机器学习平台上生成了numTrees棵决策树，利用numTrees棵决策树形成交通流运行状态判别随机森林，综合随机森林中numTrees棵决策树的交通流运行状态判别结果，以判别结果中最多的交通流运行状态作为最终的交通流运行状态判别结果；

(7)输出交通流运行状态判别结果。

本发明进一步的改进在于，在生成交通流运行状态判别决策树中，采用基尼指数选择划分指标，其划分指标Gini(D)的计算方法为：

式(11)中，p_i表示D中样本点属于i类的概率；k表示D中样本中类别数；

数据集D_i的基尼指数Gini(D_i)为：

式(12)中，D₁、D₂表示划分的子集。

与现有技术相比，本发明的有益效果如下：

(1)本发明以实时交通流数据为基础，结合分布式k-means和随机森林算法构建了路网交通运行态势判别模型；选择分布式文件系统存储和弹性分布式数据集并行处理交通数据，实现了路网交通运行状态的实时判别。本发明利用Spark大数据机器学习平台，结合分布式k-means算法进行聚类分析，改善了传统的k-means算法在大数据情况下，算法时效性的问题，实现路网交通运行状态的判别，分析结果可为高速公路管理部门提供实时、可靠的路网运行状态分析服务，同时可为建立高速公路智慧管控平台提供理论依据。

(2)本发明利用Spark大数据机器学习平台，设计了一种基于Spark的路网交通运行分析方法，以多台PC机对区域路网实时的交通流数据进行存储与处理，提高了传统交通数据处理的效率；

(3)本发明在Spark大数据机器学习平台上采用分布式k-means算法完成了实时路网交通数据聚类分析，将大量交通流数据划分为多块子数据，采用多个处理器并行计算，从而减少算法的运算时间，克服了传统聚类算法在大数据处理方面的时效性问题；

(4)本发明在Spark大数据机器学习平台上以实时的路网交通数据聚类结果为基础，采用随机森林算法实现了路网交通流运行状态的实时判别。

附图说明

图1为本发明方法的Spark大数据机器学习平台。

图2为本发明方法的Spark大数据机器学习平台并行聚类结果占比。

图3为本发明方法的401416号检测器样本与并行聚类结果时间分布。其中，(a)为交通量；(b)为速度；(c)为占有率；(d)为聚类结果。

图4为本发明方法的401613号检测器样本与并行聚类结果时间分布。其中，(a)为交通量；(b)为速度；(c)为占有率；(d)为聚类结果。

图5为本发明方法的传统单机和Spark大数据机器学习平台上数据处理的运行时间。

图中，1为数据应用层，2为数据处理层，3为数据存储层。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供的分析方法包括以下步骤：

1)首先利用5台PC机搭建包含一个主节点和四个从节点的Spark大数据机器学习平台。主节点作为大数据机器学习平台的控制节点，从节点作为大数据机器学习平台的工作节点，各节点间在一个局域网内通过千兆以太网进行互相连接通信。

在所有节点上均安装Linux(ubuntu 12.04)操作系统，并在搭建Spark大数据机器学习平台过程中所需要的软件包括：Java、Hadoop、Scala、Spark、R与R studio。

Spark大数据机器学习平台是具有分布式存储和并行计算能力的平台，同时还提供了机器学习算法编程的接口，以及利于迭代运算的并行化执行机制，保证平台在可接受的时间内完成大规模数据的学习和训练。在所有节点安装完毕后，Spark大数据机器学习平台结构如图1所示，从上向下依次为数据应用层1、数据处理层2以及数据存储层3；其中数据存储层3选用分布式文件系统(Hadoop Distributed File System)用于底层数据存储管理，Spark可以直接读取HDFS上的数据进行计算并把结果再写回HDFS；数据处理层2利用Spark内建的独立调度器(Standalone)模式实现底层资源调度，同时，RDD进行数据处理任务的并行执行；数据应用层1，由Spark的多种大数据处理场景生态应用组件组成，其中包括SparkR、Spark SQL和Spark MLlib。

2)以实时的交通流数据为基础，在Spark大数据机器学习平台上采用分布式k-means算法进行交通运行状态聚类，输出最佳的交通运行状态聚类结果T′；

路网畅通程度是描述道路运行状态的重要指标，以道路交通流量、速度和占有率作为评价交通运行状态的指标，采用聚类算法将道路拥堵程度划分为“畅通”、“基本畅通”、“轻度拥堵”、“中度拥堵”和“严重拥堵”五种状态。传统的k-means算法由于其原理简单被广泛使用，当数据量较大时，算法的时间开销非常大。本发明采用分布式k-means算法进行聚类分析，将大量交通流数据划分为多块子数据，采用多个处理器并行计算，从而减少算法的运算时间。

采用分布式k-means算法进行交通运行状态聚类，并输出最佳的交通运行状态聚类结果T′的过程为：

输入：高速公路交通流数据集D＝{x₁,x₂,...,x_n}；聚类个数k＝5；

输出：交通运行状态聚类结果；

(1)从高速公路交通流数据集D＝{x₁,x₂,...,x_n}中，随机选择k个中心点m_j，并将其存入文件clusterList中；

(5)计算k-means算法的误差平方和准则函数J，若聚类准则函数收敛或聚类迭代达到最大，则得到最终聚类结果；否则重复步骤(2)、(3)、(4)继续迭代，直到满足聚类停止条件；

分布式k-means算法使用欧氏距离来计算数据集中非中心点x′_i与k个中心点m_j(j＝1,2,…,k)之间的距离d(x′_i,m_j)，如式(8)所示：

d(x′_i,m_j)＝min{d(x′_i,m_j),i＝1,2,3,...,n′；j＝1,2,...,k} (9)

利用分布式k-means算法实现路网交通运行状态聚类后，根据实际的交通流运行情况将最佳的交通运行状态聚类结果T′中不同簇中的交通流数据赋予一个特定的交通运行状态，其最终的聚类结果为T＝{(x_i,M_j)；i＝1,2,...,n；j＝1,2,...,5}，其中x_i表示交通流运行数据，包括交通流量、速度和占有率，n为数据集记录数，M_j表示交通流运行数据聚类后的交通运行状态即为“畅通”、“基本畅通”、“轻度拥堵”、“中度拥堵”和“严重拥堵”五种交通运行状态。

3)在交通运行状态聚类分析完成后，在Spark大数据机器学习平台上采用随机森林(Random Forest,RF)算法对最终的聚类结果T进行训练，利用训练完成的模型建立交通运行状态判别规则，实现路网交通运行状态判别。

随机森林算法(Random Forest,RF)是以聚类产生的状态类别为基础，将交通流数据作为随机森林算法的输入数据，实现路网运行状态判别。随机森林算法的运算效率较高。

本发明采用随机森林算法建立交通运行状态判别规则，实现路网交通运行状态判别的过程为：

输入：路网交通运行状态聚类结果T＝{(x_i,M_j)；i＝1,2,...,n；j＝1,2,...,5}；Bootstrap重采样训练数据集的抽样率；决策树数量numTrees。

输出：交通流运行状态判别结果。

(1)采用Bootstrap重采样技术从路网交通运行状态聚类结果T(T＝{(x_i,M_j)；i＝1,2,...,n；j＝1,2,...,5})中有放回地随机抽取numTrees个子数据集，并将numTrees个子数据集D_i基本均匀的分配到Spark大数据机器学习平台的所有节点中；

(2)分别从Spark大数据机器学习平台所有节点的数据集D_i中随机选取M(M<3)个特征属性，将M个特征属性作为数据集D_i的特征属性；

根据不同特征属性划分出不同的子集，以计算基尼指数的方式确定最优的属性划分点，其对应的子集为最优划分子集。

(7)输出交通流运行状态判别结果。

需要注意的是，上述在步骤(5)中，在生成交通流运行状态判别决策树的过程中，本发明使用基尼指数来选择划分指标，其计算方法如下：

子集划分后，数据集D_i的基尼指数为：

式(12)中，D₁、D₂表示划分的子集；Gini(D_i)越小表示数据集D_i的不纯度越低。

下面通过一个实施例对本发明进行说明。

本发明以美国加州运输局运行监测系统PeMS(Performance MeasurementSystem)的实时路网交通数据为基础，选取西奥克兰(West Oakland)地区高速公路作为实验路网，包括I880号、I580号、I980号、I80号和SR24号高速公路，共布设57个车辆检测器。以2016年5月29日到9月3日的交通流运行数据作为基础数据，具体数据量为1,608,768条，采样间隔为5min。进一步对基于Spark的路网交通运行分析方法的具体实施进行说明。

(1)首先进行平台搭建

Spark大数据机器学习平台的硬件基础是分布式机器集群，利用5台PC机构建分布式机器集群，PC机具体见表1，包括一个主节点和四个从节点，主节点作为大数据机器学习平台的控制节点，从节点作为大数据机器学习平台的工作节点，各节点间在一个局域网内通过千兆以太网进行互相连接通信。

表1 Spark大数据机器学习平台节点的配置

Spark大数据机器学习平台的所有节点均在Linux(Ubuntu 12.04)操作系统下进行工作，在搭建Spark大数据机器学习平台过程中所需要的软件列表见表2。

表2搭建平台所需要的软件列表

(2)其次进行交通运行状态聚类

聚类结果的可靠性决定了路网运行分析系统准确性。因此，本发明在Spark大数据机器学习平台上对交通流数据进行聚类分析，并将聚类结果与实际的交通特性进行对比，对Spark大数据机器学习平台中k-means算法的聚类结果进行评价。由于要将道路拥堵程度划分为“畅通”、“基本畅通”、“轻度拥堵”、“中度拥堵”和“严重拥堵”五种状态，预置聚类个数k＝5，采用k-means算法对交通流数进行多次迭代，得到Spark大数据机器学习平台并行聚类的交通流运行状态聚类结果，聚类中心见表3，聚类结果中各状态占比如图2所示。

表3交通流运行状态聚类中心

图3、图4分别是401416号检测器6月7日、401613号检测器6月10日的并行聚类结果时间分布特性图，采用“1”、“2”、“3”、“4”和“5”表示交通运行状态的“畅通”、“基本畅通”、“轻度拥堵”、“中度拥堵”和“严重拥堵”。由于I980号高速公路南邻奥克兰港，北接城市住宅区，具有早晚高峰特点，而401416号和401613号检测器分别处于I980号高速公路下行、上行线上。由图3和图4可知：401416号检测器并行聚类结果时间分布特性具有早高峰特点，401613号检测器的并行聚类结果时间分布特性具有晚高峰特点，与各自交通流运行特性是一致的，说明交通流运行数据并行聚类结果是可靠的。

(3)最后进行交通运行状态判别

路网交通运行状态聚类完成后，根据路网交通运行状态聚类结果构建随机森林，采用控制变量法寻找最优构建随机森林模型参数，最终确定：决策树数量为20，子数据集随机选取3个特征属性时，模型的准确性最高。因此，Spark大数据机器学习平台上实现路网交通运行状态判别，其中85％的数据作为训练集，15％的数据作为测试集，判别结果见表4。

表4交通运行状态判别混淆矩阵

由表4可知，交通运行状态判别结果平均的精确度、召回率与F度量分别为98.97％、98.98％和98.96％，说明在Spark大数据机器学习平台上交通运行判别结果准确性较高。

图5是采用传统单机和Spark大数据机器学习平台上数据处理的运行时间的对比。由图5中可知，单台PC机进行交通数据的聚类与状态判别所消耗的时间约为本实验Spark大数据机器学习平台的9倍，说明在Spark大数据机器学习平台上数据的处理能力较大提高，可以满足数据的时效性。

以上内容是结合具体实施例对本发明方法所作的进一步详细说明，不能认定本发明方法的具体实施只限于此。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下做出若干等同替代或明显变型，且性能或用途相同，都应当视为属于本发明由所提交的权利要求书确定的专利保护范围。

Claims

1.一种基于Spark的路网交通运行分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于Spark的路网交通运行分析方法，其特征在于，步骤1)中，Spark大数据机器学习平台包括从上向下依次为数据应用层1、数据处理层2以及数据存储层3；其中数据存储层3选用分布式文件系统，用于底层数据存储管理，Spark直接读取HDFS上的数据进行计算并把结果再写回HDFS；数据处理层2利用Spark内建的独立调度器模式实现底层资源调度，同时，RDD进行数据处理任务的并行执行；数据应用层1，由Spark的多种大数据处理场景生态应用组件组成，其中包括SparkR、Spark SQL和Spark MLlib。

3.根据权利要求1所述的一种基于Spark的路网交通运行分析方法，其特征在于，步骤2)中，交通流运行数据聚类后的交通运行状态为畅通、基本畅通、轻度拥堵、中度拥堵和严重拥堵五种交通运行状态。

4.根据权利要求3所述的一种基于Spark的路网交通运行分析方法，其特征在于，采用聚类算法将道路拥堵程度划分为畅通、基本畅通、轻度拥堵、中度拥堵和严重拥堵五种状态。

5.根据权利要求1所述的一种基于Spark的路网交通运行分析方法，其特征在于，步骤2)中，采用分布式k-means算法进行交通运行状态聚类，并输出最佳的交通运行状态聚类结果T′的具体过程为：

6.根据权利要求5所述的一种基于Spark的路网交通运行分析方法，其特征在于，分布式k-means算法使用欧氏距离计算数据集中非中心点x′_i与k个中心点m_j(j＝1,2,…,k)之间的距离d(x′_i,m_j)，如式(8)所示：

d(x′_i,m_j)＝min{d(x′_i,m_j),i＝1,2,3,...,n′；j＝1,2,...,k} (9)

7.根据权利要求1所述的一种基于Spark的路网交通运行分析方法，其特征在于，步骤3)中，采用随机森林算法建立交通运行状态判别规则，实现路网交通运行状态判别的过程为：

(7)输出交通流运行状态判别结果。

8.根据权利要求7所述的一种基于Spark的路网交通运行分析方法，其特征在于，在生成交通流运行状态判别决策树中，采用基尼指数选择划分指标，其划分指标Gini(D)的计算方法为：

数据集D_i的基尼指数Gini(D_i)为：

式(12)中，D₁、D₂表示划分的子集。