CN110502509B

CN110502509B - 一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置

Info

Publication number: CN110502509B
Application number: CN201910798395.7A
Authority: CN
Inventors: 张绪升; 谢侃; 谢胜利
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2023-04-18
Anticipated expiration: 2039-08-27
Also published as: CN110502509A

Abstract

本申请实施例提供了一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置，充分考虑了交通大数据存在的质量问题，建立了针对相似重复数据、缺失数据以及异常数据的数据清洗规则库，在进行数据清洗时只需要通过调用数据清洗规则库中相应的清洗配置文件便可进行数据清洗，解决了现有技术采用聚类的方法获取到相似特征数据，仅对缺失数据进行了补全，针对异常和错误数据选择了简单粗暴的进行更新和剔除，存在的数据清洗不实用，清洗规则不健全的技术问题。

Description

一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置

技术领域

本申请涉及数据清洗技术领域，尤其涉及一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置。

背景技术

近些年，随着城市化进程的加快，汽车数量的急剧增加，越来越多的城市受交通拥堵的困扰，而城市公共交通保障市民通勤的能力越来越受到人们的关注。现阶段城市智能交通系统已产生了海量的数据，将这些分散的数据收集起来，进行共享、融合，并形成一定的应用模式，从中分析和挖掘出潜在的价值，去解决公共交通的瓶颈问题是将大数据技术应用于公共交通领域的一个重大举措。传统小规模交通数据的处理、存储和分析技术不再适用于现如今海量数据的处理。由于环境变化、采集装置故障等复杂因素，采集得到的交通数据往往有数据缺失、数据冗余和数据错误等质量问题，这些问题将直接影响到后期数据挖掘与数据分析的结果，极大地降低了数据的可靠性。数据清洗作为一种数据预处理手段，能够查找重复数据，填补空缺值，识别出数据中的错误数据，并且能够尽最大可能地保证数据使用前的正确性，以此来提高数据决策的质量。

数据噪声的类型主要有：数据缺失、数据冗余、数据错误、数据冲突等。真实世界中的脏数据往往不只包含一种类型的数据噪声，通过数据修复来清洗数据的方法可以分为基于完整性约束的数据清洗、基于规则的数据清洗、基于统计和机器学习的数据清洗和人机结合的数据清洗。在专利文献“一种基于云计算框架的交通大数据清洗方法”(申请号：CN201610517414.0，公开号：CN106202335A)中公开了一种在Hadoop的Map/Reduce模型框架下，针对交通数据高维、海量、数据更新快的特点，利用集群系统的并行计算能力来解决海量交通数据的快速清洗问题。该方法通过Hadoop集群的并行计算能力，聚类获取相似数据，能够快速的挖掘交通数据相似性特征，用于清洗异常数据。但该方法仍然存在不足，采用聚类的方法获取到相似特征数据，仅对缺失数据进行了补全，针对异常和错误数据选择了简单粗暴的进行更新和剔除，存在了数据清洗不实用，清洗规则不健全的技术问题。

发明内容

本申请实施例提供了一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置，解决了现有技术采用聚类的方法获取到相似特征数据，仅对缺失数据进行了补全，针对异常和错误数据选择了简单粗暴的进行更新和剔除，存在的数据清洗不实用，清洗规则不健全的技术问题。

有鉴于此，本申请第一方面提供了一种基于Hadoop与Spark框架的交通大数据清洗方法，所述方法包括：

搭建Hadoop集群；

搭建基于所述Hadoop集群的Spark集群；

对获取的交通大数据进行预处理；

通过配置用于清洗相似重复数据、缺失数据以及异常数据的清洗配置文件，建立数据清洗规则库；

对预处理后的所述交通大数据分配清洗任务，并利用预构建的树形结构将进入所述Spark集群的所述交通大数据进行流水线模式清洗，将满足预设要求的所述交通大数据保存至所述Hadoop集群的HDFS平台中。

可选地，所述对获取的交通大数据进行预处理具体包括：

对获取的交通大数据进行数据降维处理；

将所述交通大数据按照结构化数据、半结构化数据和非结构化数据进行分类；

将所述半结构化数据和所述非结构化数据转化为结构化数据，并进行数据的格式化。

可选地，所述用于清洗相似重复数据的清洗配置文件具体用于：

采用随机抽样的方法在数据集中抽取第一预置数量的数据作为样本数据集；

将所述样本数据集中的记录投影成空间的点并归一化处理；

通过改进DBSCAN算法对所述样本数据集进行聚类，得到相似重复记录簇；

计算所述相似重复记录簇中各点的相似度，若所述相似重复记录簇中存在超过第二预置数量的点的相似度不在预设阈值范围内，则重新确定所述改进DBSCAN算法的全局半径值并返回重新聚类，否则完成聚类，并确定全局半径值；

去除聚类后的所述相似重复记录簇中的相似重复记录。

可选地，所述完成聚类，并确定全局半径值后，在所述去除聚类后的所述相似重复记录簇中的相似重复记录前还包括：

通过N-Gram聚类算法对聚类后的所述相似重复记录簇进行二次聚类，得到二次聚类后的相似重复记录簇。

可选地，所述用于清洗缺失数据的清洗配置文件具体用于：

遍历数据集后生成一元项集，并统计所述一元项集的频数；

构建元数据的属性值映射表；

根据所述属性值映射表中的分类属性，进行数据的属性转换；

采用最小支持度阈值和交叉支持模式，从所述一元项集起始进行非频繁项剪枝操作；

结合所述属性值映射表，进行循环项集增长操作，直到获取所有频繁项集；

根据所述频繁项集计算所有规则的置信度，并剔除小于最小置信度的频繁项，生成规则集；

利用所述规则集完成对缺失数据的字段填充。

可选地，所述用于清洗异常数据的清洗配置文件具体用于：

利用基于密度的局部离群因子检测算法，将数据集进行网格划分，形成数据子集；

利用网格剪枝技术剔除不存在离群点的数据子集后，计算数据子集中每个数据点的离群因子LOF值；

将所述离群因子LOF值大于LOF阈值的数据点作为异常数据进行剔除。

本申请第二方面提供一种基于Hadoop与Spark框架的交通大数据清洗装置，所述装置包括：

第一搭建单元，用于搭建Hadoop集群；

第二搭建单元，用于搭建基于所述Hadoop集群的Spark集群；

预处理单元，用于对获取的交通大数据进行预处理；

构建单元，用于通过配置用于清洗相似重复数据、缺失数据以及异常数据的清洗配置文件，建立数据清洗规则库；

清洗单元，用于对预处理后的所述交通大数据分配清洗任务，并利用预构建的树形结构将进入所述Spark集群的所述交通大数据进行流水线模式清洗，将满足预设要求的所述交通大数据保存至所述Hadoop集群的HDFS平台中。

可选地，所述预处理单元，具体用于：

对获取的交通大数据进行数据降维处理；

本申请第三方面提供一种基于Hadoop与Spark框架的交通大数据清洗设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的基于Hadoop与Spark框架的交通大数据清洗方法的步骤。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的基于Hadoop与Spark框架的交通大数据清洗方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种基于Hadoop与Spark框架的交通大数据清洗方法，充分考虑了交通大数据存在的质量问题，建立了针对相似重复数据、缺失数据以及异常数据的数据清洗规则库，在进行数据清洗时只需要通过调用数据清洗规则库中相应的清洗配置文件便可进行数据清洗，解决了现有技术采用聚类的方法获取到相似特征数据，仅对缺失数据进行了补全，针对异常和错误数据选择了简单粗暴的进行更新和剔除，存在的数据清洗不实用，清洗规则不健全的技术问题。

附图说明

图1为本申请实施例中一种基于Hadoop与Spark框架的交通大数据清洗方法的方法流程图；

图2为本申请实施例中一种基于Hadoop与Spark框架的交通大数据清洗装置的结构示意图；

图3为本申请实施例中分配清洗任务的流程图；

图4为本申请实施例中预构建的树形结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请设计了一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置，解决了现有技术采用聚类的方法获取到相似特征数据，仅对缺失数据进行了补全，针对异常和错误数据选择了简单粗暴的进行更新和剔除，存在的数据清洗不实用，清洗规则不健全的技术问题。

为了便于理解，请参阅图1，图1为本申请实施例中一种基于Hadoop与Spark框架的交通大数据清洗方法的方法流程图，如图1所示，具体为：

101、搭建Hadoop集群；

102、搭建基于Hadoop集群的Spark集群；

需要说明的是，搭建的Spark集群是基于Hadoop集群之上的，本申请实施例中，搭建的实验环境单机节点配置如下表所示：

103、对获取的交通大数据进行预处理；

需要说明的是，在获取了待处理的交通大数据后，需要对获取的交通大数据进行相关预处理，预处理操作具体包括：

对获取的交通大数据进行数据降维处理；

将交通大数据按照结构化数据、半结构化数据和非结构化数据进行分类；

将半结构化数据和非结构化数据转化为结构化数据，并进行数据的格式化；

其中，对获取的交通大数据进行数据降维处理是基于交通大数据领域专家知识来完成的。

104、通过配置用于清洗相似重复数据、缺失数据以及异常数据的清洗配置文件，建立数据清洗规则库；

需要说明的是，通过配置用于清洗相似重复数据、缺失数据以及异常数据的清洗配置文件来建立数据清洗规则库，清洗数据时可根据具体的清洗任务直接调用数据清洗规则库中清洗配置文件即可，步骤简单且实用。

其中，用于清洗相似重复数据的清洗配置文件具体用于：

将样本数据集中的记录投影成空间的点并归一化处理；

通过改进DBSCAN算法对样本数据集进行聚类，得到相似重复记录簇；

计算相似重复记录簇中各点的相似度，若相似重复记录簇中存在超过第二预置数量的点的相似度不在预设阈值范围内，则重新确定改进DBSCAN算法的全局半径值并返回重新聚类，否则完成聚类，并确定全局半径值；

通过N-Gram聚类算法对聚类后的相似重复记录簇进行二次聚类，得到二次聚类后的相似重复记录簇；

去除聚类后的相似重复记录簇中的相似重复记录。

采用改进DBSCAN算法和N-Gram聚类算法相结合的方式，能够使得对相似重复数据的检测精度得到提升，同时在一定程度上降低了检测的时间复杂度，使其更适应于对海量数据的清洗。

改进DBSCAN算法采用Eps＝Eps/2±random()的方式调整密度值，随机函数random()能够产生[0,Eps/2]之间的随机数，使得全局半径值Eps能够双向调整，其调整范围为[0,Eps]。采用此方式调整密度值的幅度不大，且聚类的次数也不多，能够得到比较精确的全局半径值Eps。

但改进DBSCAN算法还存在一个问题，即如果两个字符串的字符相同而顺序不同，例如：abc和cba，其ASCII码值相同但并非重复记录，那么仅采用改进DBSCAN算法聚类时会将其归为一个类中，导致检测精度下降。结合N-Gram聚类算法能够对拼写错误，例如插入、删除、交换或替换导致的相似重复数据进行精确检测，在由改进DBSCAN算法处理过的数据集中再利用N-Gram聚类算法对各个相似重复记录簇进行二次聚类，提升检测精度。

用于清洗缺失数据的清洗配置文件具体用于：

遍历数据集后生成一元项集，并统计一元项集的频数；

构建元数据的属性值映射表；

根据属性值映射表中的分类属性，进行数据的属性转换；

采用最小支持度阈值和交叉支持模式，从一元项集起始进行非频繁项剪枝操作；

结合属性值映射表，进行循环项集增长操作，直到获取所有频繁项集；

根据频繁项集计算所有规则的置信度，并剔除小于最小置信度的频繁项，生成规则集；

利用规则集完成对缺失数据的字段填充。

对于缺失数据，本申请实施例中实际采用的为基于关联规则的Apriori算法，相比于均值插补或回归插补等其他传统空缺值填充方法具有更高的数据填充正确率。

本申请实施例中，支持度的概念是指某个项集在完整事务集中所占的比例，该项比例大于支持度阈值，就称之为频繁项集。

关联规则

的支持度Support为事务数据集D中所包含的X∪Y事务的比例；关联规则

的置信度Confidence是指包含事务X的集合中存在X∪Y事务的比例；支持度(Support)和置信度(Confidence)的计算公式如下：

本申请实施例采取每一步都依照最小支持度进行剪枝的方法，减少冗余计算，使得整个算法的空间复杂度和时间复杂度都得到有效地降低。

用于清洗异常数据的清洗配置文件具体用于：

将离群因子LOF值大于LOF阈值的数据点作为异常数据进行剔除。

105、对预处理后的交通大数据分配清洗任务，并利用预构建的树形结构将进入Spark集群的交通大数据进行流水线模式清洗，将满足预设要求的交通大数据保存至Hadoop集群的HDFS平台中；

需要说明的是，如图3所示，本申请实施例按照业务需求分配清洗任务到清洗job，数据从原始数据开始，在Stage-1阶段完成基础表的生成，下一阶段的表依赖于上一阶段的表内数据，所以进一步划分Stage-2。Spark-ETL设计的RDD共享机制，提供了另外的数据传递选择，无需将表的数据存储到实际的数据库表中，即可传递给下一个Job继续处理数据。显然，Stage-2的清洗数据来源于多个Stage-1中的表，整个过程与Spark底层的RDD计算流程一一映射。

进一步地，如图4所示，Kafka接收的数据进入Spark DataFrame，操作2与操作4共同依赖于操作1，操作6与操作7共同依赖于操作5。相比于一般的单流水线模式，这种树结构设计能够有效重用已经计算过的RDD，在树枝分叉的节点调用RDD的cache()方法，从而提高效率，否则因为内存空间不足，往往会释放计算过程中的一些RDD内存空间。所以在计算过程中必须手动缓存分支节点的RDD数据，多叉树计算流，才能优于单流水线模式。树结构流水线是对于普通流水线模式的优化，能够更加有效地处理数据计算依赖的情况。

本申请实施例中，提供了一种基于Hadoop与Spark框架的交通大数据清洗方法，充分考虑了交通大数据存在的质量问题，建立了针对相似重复数据、缺失数据以及异常数据的数据清洗规则库，在进行数据清洗时只需要通过调用数据清洗规则库中相应的清洗配置文件便可进行数据清洗，解决了现有技术采用聚类的方法获取到相似特征数据，仅对缺失数据进行了补全，针对异常和错误数据选择了简单粗暴的进行更新和剔除，存在的数据清洗不实用，清洗规则不健全的技术问题。进一步对，本申请还利用Hadoop集群的HDFS分布式文件系统，以及丰富的组件，与Spark集群基于内存计算的速度优势相结合，能够快速有效的进行交通大数据的清洗工作。

请参阅图2，本申请实施例提供了一种基于Hadoop与Spark框架的交通大数据清洗装置，包括：

第一搭建单元201，用于搭建Hadoop集群；

第二搭建单元202，用于搭建基于Hadoop集群的Spark集群；

预处理单元203，用于对获取的交通大数据进行预处理；

预处理单元203具体用于：

对获取的交通大数据进行数据降维处理；

构建单元204，用于通过配置用于清洗相似重复数据、缺失数据以及异常数据的清洗配置文件，建立数据清洗规则库；

清洗单元205，用于对预处理后的交通大数据分配清洗任务，并利用预构建的树形结构将进入Spark集群的交通大数据进行流水线模式清洗，将满足预设要求的交通大数据保存至Hadoop集群的HDFS平台中。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种基于Hadoop与Spark框架的交通大数据清洗方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种基于Hadoop与Spark框架的交通大数据清洗方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于Hadoop与Spark框架的交通大数据清洗方法，其特征在于，包括：

搭建Hadoop集群；

搭建基于所述Hadoop集群的Spark集群；

对获取的交通大数据进行预处理；

对预处理后的所述交通大数据分配清洗任务，并利用预构建的树形结构将进入所述Spark集群的所述交通大数据进行流水线模式清洗，将满足预设要求的所述交通大数据保存至所述Hadoop集群的HDFS平台中；

所述用于清洗异常数据的清洗配置文件具体用于：

2.根据权利要求1所述的基于Hadoop与Spark框架的交通大数据清洗方法，其特征在于，所述对获取的交通大数据进行预处理具体包括：

对获取的交通大数据进行数据降维处理；

3.根据权利要求1所述的基于Hadoop与Spark框架的交通大数据清洗方法，其特征在于，所述用于清洗相似重复数据的清洗配置文件具体用于：

将所述样本数据集中的记录投影成空间的点并归一化处理；

去除聚类后的所述相似重复记录簇中的相似重复记录。

4.根据权利要求3所述的基于Hadoop与Spark框架的交通大数据清洗方法，其特征在于，所述完成聚类，并确定全局半径值后，在所述去除聚类后的所述相似重复记录簇中的相似重复记录前还包括：

5.根据权利要求1所述的基于Hadoop与Spark框架的交通大数据清洗方法，其特征在于，所述用于清洗缺失数据的清洗配置文件具体用于：

遍历数据集后生成一元项集，并统计所述一元项集的频数；

构建元数据的属性值映射表；

利用所述规则集完成对缺失数据的字段填充。

6.一种基于Hadoop与Spark框架的交通大数据清洗装置，其特征在于，包括：

第一搭建单元，用于搭建Hadoop集群；

第二搭建单元，用于搭建基于所述Hadoop集群的Spark集群；

预处理单元，用于对获取的交通大数据进行预处理；

清洗单元，用于对预处理后的所述交通大数据分配清洗任务，并利用预构建的树形结构将进入所述Spark集群的所述交通大数据进行流水线模式清洗，将满足预设要求的所述交通大数据保存至所述Hadoop集群的HDFS平台中；

所述用于清洗异常数据的清洗配置文件具体用于：

7.根据权利要求6所述的基于Hadoop与Spark框架的交通大数据清洗装置，其特征在于，所述预处理单元，具体用于：

对获取的交通大数据进行数据降维处理；

8.一种基于Hadoop与Spark框架的交通大数据清洗设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的基于Hadoop与Spark框架的交通大数据清洗方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-5任一项所述的基于Hadoop与Spark框架的交通大数据清洗方法。