CN107832451A

CN107832451A - 一种简化的大数据清洗方式

Info

Publication number: CN107832451A
Application number: CN201711182073.7A
Authority: CN
Inventors: 石文威
Original assignee: Anhui Kechuang Wisdom Intellectual Property Services Co Ltd
Current assignee: Anhui Kechuang Wisdom Intellectual Property Services Co Ltd
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-03-23

Abstract

本发明公开了一种简化的大数据清洗方式，包括大数据清洗任务单元库、Spark SQL模块、Spark‑ETL SDK模块、流水线配置模块以及由网页客户端和网页服务端构成的网页服务平台，其特征在于，用户通过网页服务端添加需要的清洗单元与需要执行的算法任务，Spark SQL模块从网页服务端处接收需要的清洗单元以及需要执行的算法任务并实现数据清洗功能，清洗单元以及算法任务从大数据清洗任务单元库中提取，流水线配置模块实现SDK定义的接口提交到工作服务器进行有效的运行。本发明整个过程只需要编写配置大数据清洗流水线的定义文件，而无需复杂的代码编程，尤其是不需要深厚的Spark编程能力即可实现利用Spark完成大数据清洗。

Description

一种简化的大数据清洗方式

技术领域

本发明涉及大数据领域，具体涉及一种简化的大数据清洗方式。

背景技术

数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应GB(1GB＝1024MB)的数据，“海量”一般表示的是TB(1TB＝1024GB)级的数据，而现在的“大数据”则是PB(1PB＝1024TB)、EB(1EB＝1024PB)、甚至ZB(1ZB＝1024EB)级别以上的数据。2013年Gartner预测世界上存储的数据将达到1.2ZB，如果将这些数据刻录到 CD-R只读光盘上，并堆起来，其高度将是地球到月球距离的5倍。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。

大数据(big data)，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在日新月异的IT业界，各个企业对大数据都有着自己不同的解读.但大家都普遍认为，大数据有着4“V”特征，即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)：

(1)量大(Volume Big)。数据量级已从TB(210GB)发展至PB(210TB)乃至ZB(220PB)，可称海量、巨量乃至超量。

(2)多样化(Variable Type)。数据类型繁多，愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。

(3)快速化(Velocity Fast)。数据流往往为高速实时数据流，而且往往需要快速、持续的实时处理；处理工具亦在快速演进，软件工程及人工智能等均可能介入。

(4)价值高和密度低(Value Highand Low Density)。以视频安全监控为例，连续不断的监控流中，有重大价值者可能仅为一两秒的数据流；360°全方位视频监控的“死角”处，可能会挖掘出最有价值的图像信息。

(5)复查Complexity：处理和分析的难度非常大。

现有的数据清洗步骤繁琐且需要大量编程，效率较低。

发明内容

本发明所要解决的技术问题是现有的数据清洗步骤繁琐且需要大量编程，效率较低，目的在于提供一种简化的大数据清洗方式，简化数据清洗步骤，建立清洗流水线，避免了大量编程的操作，提高了效率。

本发明通过下述技术方案实现：

一种简化的大数据清洗方式，包括大数据清洗任务单元库、Spark SQL模块、Spark-ETL SDK模块、流水线配置模块以及由网页客户端和网页服务端构成的网页服务平台，其特征在于，用户通过网页服务端添加需要的清洗单元与需要执行的算法任务，SparkSQL模块从网页服务端处接收需要的清洗单元以及需要执行的算法任务并实现数据清洗功能，清洗单元以及算法任务从大数据清洗任务单元库中提取，流水线配置模块实现SDK定义的接口提交到工作服务器进行有效的运行，流水线配置模块用于为大数据清洗任务单元库、Spark SQL模块、 Spark-ETL SDK模块、流水线配置模块以及由网页客户端和网页服务端构成的网页服务平台之间的信息交互建立接口。

进一步地，一种简化的大数据清洗方式，网页服务平台采用的是前后端分离模式。

进一步地，一种简化的大数据清洗方式，流水线配置模块采用了深度优先遍历的多叉树计算流。

进一步地，一种简化的大数据清洗方式，网页客户端用于对Job Jars进行管理，具体包括，统计查看现有Jars，查看并修改单个Jar包信息，上传Jar包，删除Jar包。

网页客户端负责前端服务功能界面，网页服务端用于负责提交管理大数据处理任务， Spark SQL用于实际负责大数据ETL。本发明的网页客户端根据后台服务功能设计来实现需求，同时又反过来促进后台服务的完善。网页客户端是主要的用户接口，需要保证基础的功能页面，网页客户端用于对Job Jars进行管理，具体包括：统计查看现有Jars，查看当前平台所拥有的的Jar包，及整体Jar包的统计信息，ETL各种功能类型数等；查看并修改单个Jar 包信息，包括Jar包的详细功能说明与使用方式，上传信息等；上传Jar包，上传Jar包到 Spark-ETL平台，交由平台同一管理存储文件，并提供详细的Jar信息；删除Jar包。本发明针对大数据量与数据多样性这两项大数据特性，Spark-ETL能够更加有效快速地完成大数据清洗任务，相比于Spark原生框架下，编写Spark程序完成大数据清洗，Spark-ETL将这项工作转变成从框架下选择合适的大数据清洗任务单元，或者根据需要编写单块的小单元，通过串联这些清洗单元的方式，实现大数据清洗。整个过程只需要编写配置大数据清洗流水线的定义文件，而无需复杂的代码编程，尤其是不需要深厚的Spark编程能力即可实现利用Spark 完成大数据清洗。

本发明与现有技术相比，具有如下的优点和有益效果：本发明针对大数据量与数据多样性这两项大数据特性，Spark-ETL能够更加有效快速地完成大数据清洗任务，相比于Spark 原生框架下，编写Spark程序完成大数据清洗，Spark-ETL将这项工作转变成从框架下选择合适的大数据清洗任务单元，或者根据需要编写单块的小单元，通过串联这些清洗单元的方式，实现大数据清洗。整个过程只需要编写配置大数据清洗流水线的定义文件，而无需复杂的代码编程，尤其是不需要深厚的Spark编程能力即可实现利用Spark完成大数据清洗。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

网页服务平台采用的是前后端分离模式。

流水线配置模块采用了深度优先遍历的多叉树计算流。

网页客户端用于对Job Jars进行管理，具体包括，统计查看现有Jars，查看并修改单个Jar 包信息，上传Jar包，删除Jar包。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种简化的大数据清洗方式，包括大数据清洗任务单元库、Spark SQL模块、Spark-ETLSDK模块、流水线配置模块以及由网页客户端和网页服务端构成的网页服务平台，其特征在于，用户通过网页服务端添加需要的清洗单元与需要执行的算法任务，Spark SQL模块从网页服务端处接收需要的清洗单元以及需要执行的算法任务并实现数据清洗功能，清洗单元以及算法任务从大数据清洗任务单元库中提取，流水线配置模块实现SDK定义的接口提交到工作服务器进行有效的运行，流水线配置模块用于为大数据清洗任务单元库、SparkSQL模块、Spark-ETL SDK模块、流水线配置模块以及由网页客户端和网页服务端构成的网页服务平台之间的信息交互建立接口。

2.根据权利要求1所述的一种简化的大数据清洗方式，其特征在于，网页服务平台采用的是前后端分离模式。

3.根据权利要求1所述的一种简化的大数据清洗方式，其特征在于，流水线配置模块采用了深度优先遍历的多叉树计算流。

4.根据权利要求1所述的一种简化的大数据清洗方式，其特征在于，网页客户端用于对Job Jars进行管理，具体包括，统计查看现有Jars，查看并修改单个Jar包信息，上传Jar包，删除Jar包。