CN107832451A - 一种简化的大数据清洗方式 - Google Patents
一种简化的大数据清洗方式 Download PDFInfo
- Publication number
- CN107832451A CN107832451A CN201711182073.7A CN201711182073A CN107832451A CN 107832451 A CN107832451 A CN 107832451A CN 201711182073 A CN201711182073 A CN 201711182073A CN 107832451 A CN107832451 A CN 107832451A
- Authority
- CN
- China
- Prior art keywords
- big data
- web service
- spark
- data cleaning
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种简化的大数据清洗方式,包括大数据清洗任务单元库、Spark SQL模块、Spark‑ETL SDK模块、流水线配置模块以及由网页客户端和网页服务端构成的网页服务平台,其特征在于,用户通过网页服务端添加需要的清洗单元与需要执行的算法任务,Spark SQL模块从网页服务端处接收需要的清洗单元以及需要执行的算法任务并实现数据清洗功能,清洗单元以及算法任务从大数据清洗任务单元库中提取,流水线配置模块实现SDK定义的接口提交到工作服务器进行有效的运行。本发明整个过程只需要编写配置大数据清洗流水线的定义文件,而无需复杂的代码编程,尤其是不需要深厚的Spark编程能力即可实现利用Spark完成大数据清洗。
Description
技术领域
本发明涉及大数据领域,具体涉及一种简化的大数据清洗方式。
背景技术
数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应GB(1GB=1024MB)的数据,“海量”一般表示的是TB(1TB=1024GB)级的数据,而现在的“大数据”则是PB(1PB=1024TB)、EB(1EB=1024PB)、甚至ZB(1ZB=1024EB)级别以上的数据。2013年Gartner预测世界上存储的数据将达到1.2ZB,如果将这些数据刻录到 CD-R只读光盘上,并堆起来,其高度将是地球到月球距离的5倍。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.但大家都普遍认为,大数据有着4“V”特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低):
(1)量大(Volume Big)。数据量级已从TB(210GB)发展至PB(210TB)乃至ZB(220PB),可称海量、巨量乃至超量。
(2)多样化(Variable Type)。数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。
(3)快速化(Velocity Fast)。数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可能介入。
(4)价值高和密度低(Value Highand Low Density)。以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;360°全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。
(5)复查Complexity:处理和分析的难度非常大。
现有的数据清洗步骤繁琐且需要大量编程,效率较低。
发明内容
本发明所要解决的技术问题是现有的数据清洗步骤繁琐且需要大量编程,效率较低,目的在于提供一种简化的大数据清洗方式,简化数据清洗步骤,建立清洗流水线,避免了大量编程的操作,提高了效率。
本发明通过下述技术方案实现:
一种简化的大数据清洗方式,包括大数据清洗任务单元库、Spark SQL模块、Spark-ETL SDK模块、流水线配置模块以及由网页客户端和网页服务端构成的网页服务平台,其特征在于,用户通过网页服务端添加需要的清洗单元与需要执行的算法任务,SparkSQL模块从网页服务端处接收需要的清洗单元以及需要执行的算法任务并实现数据清洗功能,清洗单元以及算法任务从大数据清洗任务单元库中提取,流水线配置模块实现SDK定义的接口提交到工作服务器进行有效的运行,流水线配置模块用于为大数据清洗任务单元库、Spark SQL模块、 Spark-ETL SDK模块、流水线配置模块以及由网页客户端和网页服务端构成的网页服务平台之间的信息交互建立接口。
进一步地,一种简化的大数据清洗方式,网页服务平台采用的是前后端分离模式。
进一步地,一种简化的大数据清洗方式,流水线配置模块采用了深度优先遍历的多叉树计算流。
进一步地,一种简化的大数据清洗方式,网页客户端用于对Job Jars进行管理,具体包括,统计查看现有Jars,查看并修改单个Jar包信息,上传Jar包,删除Jar包。
网页客户端负责前端服务功能界面,网页服务端用于负责提交管理大数据处理任务, Spark SQL用于实际负责大数据ETL。本发明的网页客户端根据后台服务功能设计来实现需求,同时又反过来促进后台服务的完善。网页客户端是主要的用户接口,需要保证基础的功能页面,网页客户端用于对Job Jars进行管理,具体包括:统计查看现有Jars,查看当前平台所拥有的的Jar包,及整体Jar包的统计信息,ETL各种功能类型数等;查看并修改单个Jar 包信息,包括Jar包的详细功能说明与使用方式,上传信息等;上传Jar包,上传Jar包到 Spark-ETL平台,交由平台同一管理存储文件,并提供详细的Jar信息;删除Jar包。本发明针对大数据量与数据多样性这两项大数据特性,Spark-ETL能够更加有效快速地完成大数据清洗任务,相比于Spark原生框架下,编写Spark程序完成大数据清洗,Spark-ETL将这项工作转变成从框架下选择合适的大数据清洗任务单元,或者根据需要编写单块的小单元,通过串联这些清洗单元的方式,实现大数据清洗。整个过程只需要编写配置大数据清洗流水线的定义文件,而无需复杂的代码编程,尤其是不需要深厚的Spark编程能力即可实现利用Spark 完成大数据清洗。
本发明与现有技术相比,具有如下的优点和有益效果:本发明针对大数据量与数据多样性这两项大数据特性,Spark-ETL能够更加有效快速地完成大数据清洗任务,相比于Spark 原生框架下,编写Spark程序完成大数据清洗,Spark-ETL将这项工作转变成从框架下选择合适的大数据清洗任务单元,或者根据需要编写单块的小单元,通过串联这些清洗单元的方式,实现大数据清洗。整个过程只需要编写配置大数据清洗流水线的定义文件,而无需复杂的代码编程,尤其是不需要深厚的Spark编程能力即可实现利用Spark完成大数据清洗。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
一种简化的大数据清洗方式,包括大数据清洗任务单元库、Spark SQL模块、Spark-ETL SDK模块、流水线配置模块以及由网页客户端和网页服务端构成的网页服务平台,其特征在于,用户通过网页服务端添加需要的清洗单元与需要执行的算法任务,SparkSQL模块从网页服务端处接收需要的清洗单元以及需要执行的算法任务并实现数据清洗功能,清洗单元以及算法任务从大数据清洗任务单元库中提取,流水线配置模块实现SDK定义的接口提交到工作服务器进行有效的运行,流水线配置模块用于为大数据清洗任务单元库、Spark SQL模块、 Spark-ETL SDK模块、流水线配置模块以及由网页客户端和网页服务端构成的网页服务平台之间的信息交互建立接口。
网页服务平台采用的是前后端分离模式。
流水线配置模块采用了深度优先遍历的多叉树计算流。
网页客户端用于对Job Jars进行管理,具体包括,统计查看现有Jars,查看并修改单个Jar 包信息,上传Jar包,删除Jar包。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种简化的大数据清洗方式,包括大数据清洗任务单元库、Spark SQL模块、Spark-ETLSDK模块、流水线配置模块以及由网页客户端和网页服务端构成的网页服务平台,其特征在于,用户通过网页服务端添加需要的清洗单元与需要执行的算法任务,Spark SQL模块从网页服务端处接收需要的清洗单元以及需要执行的算法任务并实现数据清洗功能,清洗单元以及算法任务从大数据清洗任务单元库中提取,流水线配置模块实现SDK定义的接口提交到工作服务器进行有效的运行,流水线配置模块用于为大数据清洗任务单元库、SparkSQL模块、Spark-ETL SDK模块、流水线配置模块以及由网页客户端和网页服务端构成的网页服务平台之间的信息交互建立接口。
2.根据权利要求1所述的一种简化的大数据清洗方式,其特征在于,网页服务平台采用的是前后端分离模式。
3.根据权利要求1所述的一种简化的大数据清洗方式,其特征在于,流水线配置模块采用了深度优先遍历的多叉树计算流。
4.根据权利要求1所述的一种简化的大数据清洗方式,其特征在于,网页客户端用于对Job Jars进行管理,具体包括,统计查看现有Jars,查看并修改单个Jar包信息,上传Jar包,删除Jar包。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711182073.7A CN107832451A (zh) | 2017-11-23 | 2017-11-23 | 一种简化的大数据清洗方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711182073.7A CN107832451A (zh) | 2017-11-23 | 2017-11-23 | 一种简化的大数据清洗方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107832451A true CN107832451A (zh) | 2018-03-23 |
Family
ID=61652401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711182073.7A Withdrawn CN107832451A (zh) | 2017-11-23 | 2017-11-23 | 一种简化的大数据清洗方式 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832451A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255523A (zh) * | 2018-08-16 | 2019-01-22 | 北京奥技异科技发展有限公司 | 基于kks编码规则和大数据架构的分析指标计算平台 |
CN109753496A (zh) * | 2018-11-27 | 2019-05-14 | 天聚地合(苏州)数据股份有限公司 | 一种用于大数据的数据清洗方法 |
CN114595212A (zh) * | 2022-02-23 | 2022-06-07 | 深圳极联信息技术股份有限公司 | 一种基于大数据和云计算的数据处理方法及云计算平台 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202346A (zh) * | 2016-06-29 | 2016-12-07 | 浙江理工大学 | 一种数据加载清洗引擎、调度与存储系统 |
CN106202569A (zh) * | 2016-08-09 | 2016-12-07 | 北京北信源软件股份有限公司 | 一种基于大数据量的清洗方法 |
CN106294745A (zh) * | 2016-08-10 | 2017-01-04 | 东方网力科技股份有限公司 | 大数据清洗方法及装置 |
-
2017
- 2017-11-23 CN CN201711182073.7A patent/CN107832451A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202346A (zh) * | 2016-06-29 | 2016-12-07 | 浙江理工大学 | 一种数据加载清洗引擎、调度与存储系统 |
CN106202569A (zh) * | 2016-08-09 | 2016-12-07 | 北京北信源软件股份有限公司 | 一种基于大数据量的清洗方法 |
CN106294745A (zh) * | 2016-08-10 | 2017-01-04 | 东方网力科技股份有限公司 | 大数据清洗方法及装置 |
Non-Patent Citations (1)
Title |
---|
金翰伟: "基于Spark的大数据清洗框架设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255523A (zh) * | 2018-08-16 | 2019-01-22 | 北京奥技异科技发展有限公司 | 基于kks编码规则和大数据架构的分析指标计算平台 |
CN109255523B (zh) * | 2018-08-16 | 2021-07-20 | 北京奥技异科技发展有限公司 | 基于kks编码规则和大数据架构的分析指标计算平台 |
CN109753496A (zh) * | 2018-11-27 | 2019-05-14 | 天聚地合(苏州)数据股份有限公司 | 一种用于大数据的数据清洗方法 |
CN114595212A (zh) * | 2022-02-23 | 2022-06-07 | 深圳极联信息技术股份有限公司 | 一种基于大数据和云计算的数据处理方法及云计算平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | A time-driven data placement strategy for a scientific workflow combining edge computing and cloud computing | |
CN105681303B (zh) | 一种大数据驱动的网络安全态势监测及可视化方法 | |
CN107067324A (zh) | 一种利用网络抓包数据实现交易风险控制的方法和系统 | |
CN105574649B (zh) | 一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法 | |
CN104462222A (zh) | 一种卡口车辆通行数据的分布式存储方法及系统 | |
CN105069025A (zh) | 一种大数据的智能聚合可视化与管控系统 | |
CN107832451A (zh) | 一种简化的大数据清洗方式 | |
Lip | A fast algorithm for the discrete core/periphery bipartitioning problem | |
CN104077280A (zh) | 社区发现并行化方法和系统、主节点和运算节点设备 | |
CN109359686A (zh) | 一种基于校园网流量的用户画像方法及系统 | |
CN105471670A (zh) | 流量数据分类方法及装置 | |
CN104077723A (zh) | 一种社交网络推荐系统及方法 | |
CN108268569A (zh) | 基于大数据技术的水资源监测数据采集与分析系统及方法 | |
CN104933621A (zh) | 一种担保圈的大数据分析系统和方法 | |
CN109918441A (zh) | 一种终端信息处理展示方法及系统 | |
CN109471965A (zh) | 一种基于大数据的网络舆情数据采集、处理方法及监测平台 | |
CN105959175A (zh) | 基于GPU加速的kNN算法的网络流量分类方法 | |
Las-Casas et al. | A big data architecture for security data and its application to phishing characterization | |
CN109561100A (zh) | 基于分布式与人工智能的双工赋能网络攻防的方法及系统 | |
CN105630797A (zh) | 数据处理方法及系统 | |
CN105426392A (zh) | 一种协同过滤推荐方法及系统 | |
Zhang et al. | Density approach: a new model for BigData analysis and visualization | |
CN107895032A (zh) | 进行数据初步清洗的网络数据采集方法 | |
CN110019152A (zh) | 一种大数据清洗方法 | |
CN205510104U (zh) | 电子政务系统安全网络架构 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180323 |
|
WW01 | Invention patent application withdrawn after publication |