CN105975582B

CN105975582B - 基于Spark的RFID数据生成出行OD矩阵的方法及系统

Info

Publication number: CN105975582B
Application number: CN201610291981.9A
Authority: CN
Inventors: 赵明
Original assignee: Chongqing Chengtou Gold Card Information Industry Co Ltd
Current assignee: Chongqing Chengtou Gold Card Information Industry Co Ltd
Priority date: 2016-05-05
Filing date: 2016-05-05
Publication date: 2019-05-14
Anticipated expiration: 2036-05-05
Also published as: CN105975582A

Abstract

本发明提供的基于Spark的RFID数据生成出行OD矩阵的方法及系统，其方法包括将射频设别数据集存储于分布式文件系统中，并将所述射频设别数据集转换为弹性分布式数据集，通过所述弹性分布式数据集获取按时间排序的包含车辆身份信息和行车轨迹的离散序列；提取所述离散序列的起点与终点的射频识别采集点编号，并将编号作为key值，通过将同一key值的value值进行求和，获取OD矩阵并保存；本发明中采用Spark分布式处理技术的优势以及RDD中提供的丰富的对数据操作转换方法，可以高效、快速、低开销地完成车辆出行OD矩阵的生成，避免了通过传统的OD矩阵获取方法带来的人力、财力上的消耗，同样也避免了采用单台计算机处理全局数据时所面对的性能瓶颈问题。

Description

基于Spark的RFID数据生成出行OD矩阵的方法及系统

技术领域

本发明涉及计算机处理及交通流量统计领域，尤其涉及一种基于Spark的RFID数据生成出行OD矩阵的方法及系统。

背景技术

OD调查，即交通起止点调查，OD调查结果已被应用于公路网规划，新建或改建项目可行性研究、设计、交通组织及管理等各方面。大量的OD调查数据，对远景交通量的预测、道路类型及等级的确定、互通立交的设置、道路横断面的设计、交通服务设施的配置、交通管理与控制、规划方案和建设项目的国民经济评价、以及财务分析等提供了定量依据，进而为交通规划的完善和建设项目的科学决策奠定了基础，OD调查结果通常用一个二维表格表示，称为ODOD调查表，也叫OD矩阵，OD矩阵存储的是起讫点之间的交通出行量，主要用于公路网规划，交通组织管理，为交通流量预测、道路等级建设、交通设施规划提供决策依据。目前OD矩阵获取的方法主要分为两类。一类是使用人工调查，此类调查方法具体有路边询问调查、家庭走访调查、电话询问调查等，此类方法需要花费大量的人力以及财力，并且调查周期较长，一般几年调查一次；第二类调查方法是通过利用路段的交通量进行反推获得OD交通量的方法，此类方法节省了人工的开销，相较于第一类方法具有比较大的优势，但是由于此类方法对于交通流量的考虑只涉及到部分路段，因此对OD矩阵准确率会产生比较大的影响。

近年来随着大数据技术的兴起，很多之前无法通过计算机在短时间内完成的业务通过分布式系统即可高效、快速、准确地完成。其中目前最为流行的便是Spark计算框架，Spark是一种基于内存的通用的快速数据处理引擎，利用自身的分布式处理技术以及业务逻辑的优势能够高效、快速完成大量数据处理。

RFID(Radio Frequency Identification，射频识别)是一种通过无线电信号识别特定目标并读写相关数据的技术，目前广泛应用于交通、图书馆、门禁系统等。其中交通领域主要是作为车辆的电子车牌。电子车牌是一种存储车辆基本信息的媒介，可以通过道路上的RFID阅读器读取车辆基本信息。当每一辆汽车装配上电子车牌以后就可以通过道路上架设的RFID阅读器读取车辆基本信息，便能对整个道路上的车流量进行监控与统计，进而获取到车辆的OD矩阵。但是城市车流量巨大，每天产生的RFID数据量已经超出单台计算机的处理能力，因此亟需一种新的OD矩阵生成技术，能够将RFID数据的获取与大数据数据处理相结合，对数据进行高效、快速的处理。

发明内容

有鉴于此，本发明提供一种基于Spark的RFID数据生成出行OD矩阵的方法及系统，以解决上述问题。

本发明提供的基于Spark的RFID数据生成出行OD矩阵的方法，包括：

a.将射频识别数据集存储于分布式文件系统中，并将所述射频识别数据集转换为弹性分布式数据集，通过所述弹性分布式数据集获取按时间排序的包含车辆身份信息和行车轨迹的离散序列；

b.提取所述离散序列的起点与终点的射频识别采集点编号，以起点和终点的编号作为key值，将同一key值的value值求和，获取OD矩阵的流量并保存。

进一步，所述步骤a具体包括：

a1.将射频识别数据以数据块的形式存储于分布式文件系统中，

a2.将存储于分布式文件系统的射频识别数据转换为弹性分布式数据集，将hadoop弹性分布式数据集转换为MapPartition弹性分布式数据集,

a3.对所述MapPartition弹性分布式数据集进行map操作，并将每行数据进行元组重组，

a4.对所述MapPartition弹性分布式数据集进行reduceByKey操作，将相同key值的数据进行组合，将MapPartition弹性分布式数据集转换为Shuffled弹性分布式数据集，

a5.根据所述Shuffled弹性分布式数据集中每条记录的value值，生成一个按时间排序的包括车辆身份信息和行车轨迹的离散序列。

进一步，所述步骤b具体包括：

b2.提取所述离散轨迹序列中的起点与终点的射频识别采集点编号，将编号作为key值，整型数值1作为value值，

b3.对MapPartiton弹性分布式数据集进行reduceByKey操作，将同一key值的value值求和，将MapPartition弹性分布式数据集转换为Shuffled弹性分布式数据集。

进一步，所述步骤b2之前还包括

b1.对车辆轨迹进行预处理，所述预处理包括排除单一轨迹点序列，所述车辆身份信息为车牌号。

5、根据权利要求3所述的基于Spark的RFID数据生成出行OD矩阵的方法，其特征在于：所述步骤b3之后还包括

b4.将Shuffled弹性分布式数据集存储到分布式文件系统，将步骤b3中的求和结果作为OD矩阵中的流量，所述流量的输出元素包括起点编号、终点编号和流量。

进一步，所述数据块的大小为128M，步骤a2中的MapPartition弹性分布式数据集中的key值存储字节偏移量，value值存储每一行RFID数据。

本发明还提供一种基于Spark的RFID数据生成出行OD矩阵的系统，包括轨迹提取模块和OD矩阵生成模块，通过所述轨迹模块将射频识别数据集存储于分布式文件系统中，并将所述射频识别数据集转换为弹性分布式数据集，通过所述弹性分布式数据集获取按时间排序的包含车辆身份信息和行车轨迹的离散序列；通过所述OD矩阵生成模块提取所述离散序列的起点与终点的射频识别采集点编号，以起点和终点的编号作为key值，将同一key值的value值求和，获取OD矩阵的流量并保存。

进一步，通过轨迹提取模块将射频识别数据以数据块的形式存储于分布式文件系统中，将存储于分布式文件系统的射频识别数据转换为弹性分布式数据集，将hadoop弹性分布式数据集转换为MapPartition弹性分布式数据集,对所述MapPartition弹性分布式数据集进行map操作，并将每行数据进行元组重组，对所述MapPartition弹性分布式数据集进行reduceByKey操作，将相同key值的数据进行组合，将MapPartition弹性分布式数据集转换为Shuffled弹性分布式数据集，根据所述Shuffled弹性分布式数据集中每条记录的value值，生成一个按时间排序的包括车辆身份信息和行车轨迹的离散序列。

进一步，通过所述OD矩阵生成模块对车辆轨迹进行预处理，所述预处理包括排除单一轨迹点序列，提取所述离散轨迹序列中的起点与终点的射频识别采集点编号，将编号作为key值，整型数值1作为value值，对MapPartiton弹性分布式数据集进行reduceByKey操作，将同一key值的value值求和，将MapPartition弹性分布式数据集转换为Shuffled弹性分布式数据集，存储到分布式文件系统。

本发明的有益效果：本发明中采用Spark计算框架实现对RFID数据生成OD矩阵的处理，通过轨迹生成模块和OD矩阵生成模块高效、快速、低开销地完成车辆出行OD矩阵的生成，避免了通过传统的OD矩阵获取方法带来的人力、财力上的消耗，避免了采用单台计算机处理全局数据时所面对的性能瓶颈问题，本发明将RFID数据的获取与大数据数据处理相结合，对数据进行处理，具有数据转换效率高、处理数据快速、编程简单和开销低的优点。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1是本发明的原理示意图。

图2是本发明中轨迹提取的流程示意图。

图3是本发明OD矩阵生成流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步描述：图1是本发明的原理示意图。

如图1所示，本实施例中的基于Spark的RFID数据生成出行OD矩阵的方法包括：

a.将RFID(射频识别数据集)存储于分布式文件系统中，并将所述射频识别数据集转换为弹性分布式数据集，通过所述弹性分布式数据集获取按时间排序的包含车辆身份信息和行车轨迹的离散序列；

在本实施例中，采用Spark分布式处理以及RDD中提供的丰富的对数据操作转换的方法，使轨迹生成和OD矩阵生成的效率、速度得到了大幅度提升，同时降低了通过传统的OD矩阵获取时带来的成本的消耗，也避免了采用单台计算机处理全局数据时所面对的性能瓶颈，Spark是UC Berkeley AMP lab所开源的类Hadoop(由Apache基金会所开发的分布式系统基础架构)MapReduce(一种编程模型，用于大规模数据集的并行运算)的通用并行框架，Spark拥有Hadoop MapReduce所具有的优点,能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法，。

在本实施例中，所述步骤a具体包括：

a1.将射频识别数据以数据块的形式存储于分布式文件系统中，将RFID数据集以block的形式存储于HDFS分布式文件系统中，其中block大小为128M。

a2.将存储于分布式文件系统的射频识别数据转换为弹性分布式数据集，将hadoop弹性分布式数据集转换为MapPartition弹性分布式数据集,利用Spark编程模型将存储于HDFS上的RFID数据转换为RDD,具体由hadoopRDD转换MapPartitionsRDD，其中MapParitionsRDD中key值存储字节偏移量，value值存储具体每一行RFID数据。

a3.对所述MapPartition弹性分布式数据集进行map操作，并将每行数据进行元组重组，将每行数据重组为<车牌号，过车时间戳+“，”+RFID采集点编号>的元组类型，本实施例中的key、value值均为String类型。

a4.对所述MapPartition弹性分布式数据集进行reduceByKey操作，将相同key值的数据进行组合，将MapPartition弹性分布式数据集转换为Shuffled弹性分布式数据集，MapPartitionRDD的每个数据集重组为<车牌号，List(过车时间戳+“，”+RFID采集点编号)>。此步骤完成将MapPartitionRDD转换为ShuffledRDD。

a5.根据所述Shuffled弹性分布式数据集中每条记录的value值，生成一个按时间排序的包括车辆身份信息和行车轨迹的离散序列，数据中每行记录的第一部分为车牌号，第二部分为车辆轨迹。

本实施例中的RDD(Resilient Distributed Datasets,弹性分布式数据集)，是分布式内存的一个抽象概念，RDD提供了一种高度受限的共享内存模型，map操作是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD，任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。MapPartition函数和map函数类似，其映射函数的参数由RDD中的每一个元素变成了RDD中每一个分区的迭代器，reduceByKey是对元素为KV对的RDD中Key相同的元素的Value进行reduce，因此，Key相同的多个元素的值被reduce为一个值，然后与原RDD中的Key组成一个新的KV对。本实施例中的任务均是通过多进程并发的形式执行，由于分隔各个Stage的reduceByKey操作需要进行全局Shuffle，因此只有在上个Stage处理完毕以后reduceByKey才能继续处理数据，因此，各个步骤之间存在依赖关系。

所述步骤b具体包括：

b1.对车辆轨迹进行预处理，所述预处理包括排除单一轨迹点序列，所述车辆身份信息为车牌号；

b2.提取所述离散轨迹序列中的起点与终点的射频识别采集点编号，将编号作为key值，整型数值1作为value值，形如<起点编号+“，”+终点编号，1>；

b3.对MapPartiton弹性分布式数据集进行reduceByKey操作，将同一key值的value值求和，即为OD矩阵中的流量，输出为<起点编号+“，”+终点编号，流量>，将MapPartition弹性分布式数据集转换为Shuffled弹性分布式数据集。

b4.将Shuffled弹性分布式数据集存储到分布式文件系统，将步骤b3中的求和结果作为OD矩阵中的流量，所述流量的输出元素包括起点编号、终点编号和流量，数据中每行记录保存每个OD对之间车流量。

相应地，本实施例还提供一种基于Spark的RFID数据生成出行OD矩阵的系统，包括轨迹提取模块和OD矩阵生成模块，

通过所述轨迹模块将射频识别数据集存储于分布式文件系统中，并将所述射频识别数据集转换为弹性分布式数据集，通过所述弹性分布式数据集获取按时间排序的包含车辆身份信息和行车轨迹的离散序列；

通过所述OD矩阵生成模块提取所述离散序列的起点与终点的射频识别采集点编号，以起点和终点的编号作为key值，将同一key值的value值求和，获取OD矩阵的流量并保存。

通过轨迹提取模块将射频识别数据以数据块的形式存储于分布式文件系统中，将存储于分布式文件系统的射频识别数据转换为弹性分布式数据集，将hadoop弹性分布式数据集转换为MapPartition弹性分布式数据集,对所述MapPartition弹性分布式数据集进行map操作，并将每行数据进行元组重组，对所述MapPartition弹性分布式数据集进行reduceByKey操作，将相同key值的数据进行组合，将MapPartition弹性分布式数据集转换为Shuffled弹性分布式数据集，根据所述Shuffled弹性分布式数据集中每条记录的value值，生成一个按时间排序的包括车辆身份信息和行车轨迹的离散序列，通过所述OD矩阵生成模块对车辆轨迹进行预处理，所述预处理包括排除单一轨迹点序列，提取所述离散轨迹序列中的起点与终点的射频识别采集点编号，将编号作为key值，整型数值1作为value值，对MapPartiton弹性分布式数据集进行reduceByKey操作，将同一key值的value值求和，将MapPartition弹性分布式数据集转换为Shuffled弹性分布式数据集，存储到分布式文件系统。本发明通过Spark计算框架完成了对RFID数据生成OD矩阵的处理，通过Spark框架中分布式计算方法以及采用DAG图建立的RDD之间的依赖关系进而实现全局优化处理，能够高效、快速、低开销地生成车辆的OD矩阵。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于Spark的RFID数据生成出行OD矩阵的方法，其特征在于：包括：

b.提取所述离散序列的起点与终点的射频识别采集点编号，并将编号作为key值，整型数值1作为value值；通过将同一key值的value值进行求和，获取OD矩阵并保存；

所述步骤a具体包括：

2.根据权利要求1所述的基于Spark的RFID数据生成出行OD矩阵的方法，其特征在于：所述步骤b具体包括：

3.根据权利要求2所述的基于Spark的RFID数据生成出行OD矩阵的方法，其特征在于：所述步骤b2之前还包括

4.根据权利要求2所述的基于Spark的RFID数据生成出行OD矩阵的方法，其特征在于：所述步骤b3之后还包括

5.根据权利要求1所述的基于Spark的RFID数据生成出行OD矩阵的方法，其特征在于：所述数据块的大小为128M，步骤a2中的MapPartition弹性分布式数据集中的key值存储字节偏移量，value值存储每一行RFID数据。

6.一种基于Spark的RFID数据生成出行OD矩阵的系统，其特征在于：包括轨迹提取模块和OD矩阵生成模块，

通过所述OD矩阵生成模块提取所述离散序列的起点与终点的射频识别采集点编号，以起点和终点的编号作为key值，将同一key值的value值求和，获取OD矩阵的流量并保存；

通过轨迹提取模块将射频识别数据以数据块的形式存储于分布式文件系统中，将存储于分布式文件系统的射频识别数据转换为弹性分布式数据集，将hadoop弹性分布式数据集转换为MapPartition弹性分布式数据集,对所述MapPartition弹性分布式数据集进行map操作，并将每行数据进行元组重组，对所述MapPartition弹性分布式数据集进行reduceByKey操作，将相同key值的数据进行组合，将MapPartition弹性分布式数据集转换为Shuffled弹性分布式数据集，根据所述Shuffled弹性分布式数据集中每条记录的value值，生成一个按时间排序的包括车辆身份信息和行车轨迹的离散序列。

7.根据权利要求6所述的基于Spark的RFID数据生成出行OD矩阵的系统，其特征在于：通过所述OD矩阵生成模块对车辆轨迹进行预处理，所述预处理包括排除单一轨迹点序列，提取所述离散轨迹序列中的起点与终点的射频识别采集点编号，将编号作为key值，整型数值1作为value值，对MapPartiton弹性分布式数据集进行reduceByKey操作，将同一key值的value值求和，将MapPartition弹性分布式数据集转换为Shuffled弹性分布式数据集，存储到分布式文件系统。