CN111611232A - 一种大数据清洗方法及装置 - Google Patents

一种大数据清洗方法及装置 Download PDF

Info

Publication number
CN111611232A
CN111611232A CN202010431417.9A CN202010431417A CN111611232A CN 111611232 A CN111611232 A CN 111611232A CN 202010431417 A CN202010431417 A CN 202010431417A CN 111611232 A CN111611232 A CN 111611232A
Authority
CN
China
Prior art keywords
data
template
cleaning
filtering
cleaned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010431417.9A
Other languages
English (en)
Inventor
赵向雄
周取宝
叶青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haoyun Technologies Co Ltd
Original Assignee
Haoyun Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haoyun Technologies Co Ltd filed Critical Haoyun Technologies Co Ltd
Priority to CN202010431417.9A priority Critical patent/CN111611232A/zh
Publication of CN111611232A publication Critical patent/CN111611232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Cleaning By Liquid Or Steam (AREA)

Abstract

本发明公开了一种大数据清洗方法,包括:通过高性能消息服务器获取待清洗数据;对所述待清洗数据进行模板匹配,获取所述待清洗数据所对应的清洗模板;根据所述清洗模板对所述待清洗数据进行过滤处理,得到过滤数据;根据所述清洗模板对所述过滤数据进行提取处理,得到提取数据;根据所述清洗模板对所述提取数据进行数据转换处理,得到转换数据,输出结果;本发明通过清洗模板对数据进行过滤、提取和转换处理,实现对大数据的清洗功能,提高海量数据清洗的效率和质量。

Description

一种大数据清洗方法及装置
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种大数据清洗方法及装置。
背景技术
在数据处理领域中,系统每次接入新业务,都需要程序员重新开发日志清洗逻辑,该开发程序的周期较长,并且每次重新开发业务逻辑,无法统一保证软件质量;而普通编码清洗日志方式,性能较差,无法实时清洗海量数。
因此,目前市面上亟需一种大数据清洗策略,以提高海量数据清洗的效率和质量。
发明内容
本发明提供了一种大数据清洗方法,实现对大数据的清洗功能,提高海量数据清洗的效率和质量。
为了解决上述技术问题,本发明实施例提供了一种大数据清洗方法,包括:
通过高性能消息服务器获取待清洗数据;
对所述待清洗数据进行模板匹配,获取所述待清洗数据所对应的清洗模板;
根据所述清洗模板对所述待清洗数据进行过滤处理,得到过滤数据;
根据所述清洗模板对所述过滤数据进行提取处理,得到提取数据;
根据所述清洗模板对所述提取数据进行数据转换处理,得到转换数据,输出结果。
作为优选方案,所述大数据清洗方法还包括:根据所述清洗数据,在数据库中查询得到所述清洗数据所对应的信息数据。
作为优选方案,所述清洗模板包括过滤子模板、提取子模板和转换子模板;
根据所述过滤子模板对所述待清洗数据进行过滤处理,得到过滤数据;
根据所述提取子模板对所述过滤数据进行提取处理,得到提取数据;
根据所述转换子模板对所述提取数据进行数据转换处理,得到转换数据。
作为优选方案,所述过滤处理、提取处理和数据转换处理的过程均使用多线程技术进行数据清洗。
本发明实施例还提供了一种大数据清洗装置,包括:
数据获取模块,用于通过高性能消息服务器获取待清洗数据;
模板匹配模块,用于对所述待清洗数据进行模板匹配,获取所述待清洗数据所对应的清洗模板;
数据过滤模块,用于根据所述清洗模板对所述待清洗数据进行过滤处理,得到过滤数据;
数据提取模块,用于根据所述清洗模板对所述过滤数据进行提取处理,得到提取数据;
数据转换模块,用于根据所述清洗模板对所述提取数据进行数据转换处理,得到转换数据,输出结果。
作为优选方案,所述大数据清洗装置还包括:数据查询模块,用于根据所述清洗数据,在数据库中查询得到所述清洗数据所对应的信息数据。
作为优选方案,所述清洗模板包括过滤子模板、提取子模板和转换子模板;
所述数据过滤模块用于根据所述过滤子模板对所述待清洗数据进行过滤处理,得到过滤数据;
所述数据提取模块用于根据所述提取子模板对所述过滤数据进行提取处理,得到提取数据;
所述数据转换模块用于根据所述转换子模板对所述提取数据进行数据转换处理,得到转换数据。
作为优选方案,所述过滤处理、提取处理和数据转换处理的过程均使用多线程技术进行数据清洗。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上述任一项所述的大数据清洗方法。
本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上述任一项所述的大数据清洗方法。
相比于现有技术,本发明实施例具有如下有益效果:
本发明通过清洗模板对数据进行过滤、提取和转换处理,实现对大数据的清洗功能,提高海量数据清洗的效率和质量。
附图说明
图1:为本发明实施例中的大数据清洗方法的步骤流程图;
图2:为本发明实施例中的大数据清洗装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,本发明优选实施例提供了一种大数据清洗方法,包括:
S1,通过高性能消息服务器获取待清洗数据。具体地,使用自研中间件,从消息服务器高性能订阅、写入数据,即,使用高性能消息服务器+自研订阅、发送组件。其中,清洗数据主要是海量的物联网日志,由各种物理设备产生的日志,还包括系统日志。本步骤使用高性能消息服务器获取数据,从源头上保证了获取需要清洗数据的高吞吐。
S2,对所述待清洗数据进行模板匹配,获取所述待清洗数据所对应的清洗模板。具体地,获得数据后,清洗服务首先对数据进行匹配,是否存在清洗模板,如果有,则进入清洗环节。配置清洗模板其中由一个filter字段,通过表达式方式,提取日志数据中某些字段是否符合清洗要求,符合,则往下进一步清洗。
S3,根据所述清洗模板对所述待清洗数据进行过滤处理,得到过滤数据。具体地,对数据进而二次判断,根据数据特征,符合条件才继续下一步清洗。其中,清洗的数据格式都为json格式,数据特征可以根据业务自由配置,例如:devType=001。当然,条件是可以组合的。而所述的符合条件是指清洗模板支持表达式,通常条件就是符合表达式计算要求。
S4,根据所述清洗模板对所述过滤数据进行提取处理,得到提取数据具体地,从原始多层复杂json数据中,提取出需要加工数据。
S5,根据所述清洗模板对所述提取数据进行数据转换处理,得到转换数据,输出结果。即,对上一步提取到的数据进行加工处理、补全等,然后根据解析模板,输出最终结果。
在优选实施例中,所述大数据清洗方法还包括:根据所述清洗数据,在数据库中查询得到所述清洗数据所对应的信息数据。具体地,对清洗数据过程中,涉及到对数据库查询操作,引擎自动智能合并同类SQL,大幅提升性能。显然,数据清洗过程,存在数据补全的操作。即,根据原始数据关键字,到数据查询出另一些数据。例:原始待清洗数据只有userid,清洗后,需要更多用户信息,比如姓名,部门,行为等等。
在优选实施例中,所述清洗模板包括过滤子模板、提取子模板和转换子模板;根据所述过滤子模板对所述待清洗数据进行过滤处理,得到过滤数据;根据所述提取子模板对所述过滤数据进行提取处理,得到提取数据;根据所述转换子模板对所述提取数据进行数据转换处理,得到转换数据。具体地,每一个业务,对应一个外部业务配置模板,无需开发代码。对应清洗过程的过滤、提取、转换,都有一个模板。模板默认提供了一些变量提取、数据补全的DSL。模板是从上往下,执行,类似程序执行。对于简单清洗逻辑,是不用写代码的。其中,变量提取是指,直接提取JSON某个字段值,这是最简单提取方式。数据补全就涉及到SQL编写,外库查询操作。
在优选实施例中,所述过滤处理、提取处理和数据转换处理的过程均使用多线程技术进行数据清洗。即,把数据清洗过程抽象成过滤、提取、清洗三个工作单元,并对清洗过程使用多线程技术高性能并发清洗。
对于复杂数据清洗业务,引擎的业务配置模板提供groovy脚本支持,可供配置人员编写脚本代码。脚本就是代码,比如有些复杂清洗逻辑,涉及到从数据查询出一组数据,然后循环处理,然后在循环里面还要查数据库,然后再加工处理。类似这些复杂逻辑,肯定需要提供代码支持。简单清洗无需代码,复杂清洗,低代码支持。从我们当前业务实践中证明,基本能满足所有需求。而且开发新得清洗业务非常高效、稳定。
相应地,请参照图2,本发明实施例还提供了一种大数据清洗装置,包括:
数据获取模块,用于通过高性能消息服务器获取待清洗数据;
模板匹配模块,用于对所述待清洗数据进行模板匹配,获取所述待清洗数据所对应的清洗模板;
数据过滤模块,用于根据所述清洗模板对所述待清洗数据进行过滤处理,得到过滤数据;
数据提取模块,用于根据所述清洗模板对所述过滤数据进行提取处理,得到提取数据;
数据转换模块,用于根据所述清洗模板对所述提取数据进行数据转换处理,得到转换数据,输出结果。
在优选实施例中,所述大数据清洗装置还包括:数据查询模块,用于根据所述清洗数据,在数据库中查询得到所述清洗数据所对应的信息数据。
在优选实施例中,所述清洗模板包括过滤子模板、提取子模板和转换子模板;
所述数据过滤模块用于根据所述过滤子模板对所述待清洗数据进行过滤处理,得到过滤数据;
所述数据提取模块用于根据所述提取子模板对所述过滤数据进行提取处理,得到提取数据;
所述数据转换模块用于根据所述转换子模板对所述提取数据进行数据转换处理,得到转换数据。
在优选实施例中,所述过滤处理、提取处理和数据转换处理的过程均使用多线程技术进行数据清洗。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的大数据清洗方法。
本发明实施例还提供了一种终端设备,所述终端设备包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现上述任一实施例所述的大数据清洗方法。
优选地,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序、计算机程序),所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器也可以是任何常规的处理器,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接所述终端设备的各个部分。
所述存储器主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(SmartMedia Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或所述存储器也可以是其他易失性固态存储器件。
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,上述终端设备仅仅是示例,并不构成对终端设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种大数据清洗方法,其特征在于,包括:
通过高性能消息服务器获取待清洗数据;
对所述待清洗数据进行模板匹配,获取所述待清洗数据所对应的清洗模板;
根据所述清洗模板对所述待清洗数据进行过滤处理,得到过滤数据;
根据所述清洗模板对所述过滤数据进行提取处理,得到提取数据;
根据所述清洗模板对所述提取数据进行数据转换处理,得到转换数据,输出结果。
2.如权利要求1所述的大数据清洗方法,其特征在于,还包括:根据所述清洗数据,在数据库中查询得到所述清洗数据所对应的信息数据。
3.如权利要求1所述的大数据清洗方法,其特征在于,所述清洗模板包括过滤子模板、提取子模板和转换子模板;
根据所述过滤子模板对所述待清洗数据进行过滤处理,得到过滤数据;
根据所述提取子模板对所述过滤数据进行提取处理,得到提取数据;
根据所述转换子模板对所述提取数据进行数据转换处理,得到转换数据。
4.如权利要求1所述的大数据清洗方法,其特征在于,所述过滤处理、提取处理和数据转换处理的过程均使用多线程技术进行数据清洗。
5.一种大数据清洗装置,其特征在于,包括:
数据获取模块,用于通过高性能消息服务器获取待清洗数据;
模板匹配模块,用于对所述待清洗数据进行模板匹配,获取所述待清洗数据所对应的清洗模板;
数据过滤模块,用于根据所述清洗模板对所述待清洗数据进行过滤处理,得到过滤数据;
数据提取模块,用于根据所述清洗模板对所述过滤数据进行提取处理,得到提取数据;
数据转换模块,用于根据所述清洗模板对所述提取数据进行数据转换处理,得到转换数据,输出结果。
6.如权利要求5所述的大数据清洗装置,其特征在于,还包括:数据查询模块,用于根据所述清洗数据,在数据库中查询得到所述清洗数据所对应的信息数据。
7.如权利要求5所述的大数据清洗装置,其特征在于,所述清洗模板包括过滤子模板、提取子模板和转换子模板;
所述数据过滤模块用于根据所述过滤子模板对所述待清洗数据进行过滤处理,得到过滤数据;
所述数据提取模块用于根据所述提取子模板对所述过滤数据进行提取处理,得到提取数据;
所述数据转换模块用于根据所述转换子模板对所述提取数据进行数据转换处理,得到转换数据。
8.如权利要求5所述的大数据清洗装置,其特征在于,所述过滤处理、提取处理和数据转换处理的过程均使用多线程技术进行数据清洗。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1~4任一项所述的大数据清洗方法。
10.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1~4任一项所述的大数据清洗方法。
CN202010431417.9A 2020-05-20 2020-05-20 一种大数据清洗方法及装置 Pending CN111611232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010431417.9A CN111611232A (zh) 2020-05-20 2020-05-20 一种大数据清洗方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010431417.9A CN111611232A (zh) 2020-05-20 2020-05-20 一种大数据清洗方法及装置

Publications (1)

Publication Number Publication Date
CN111611232A true CN111611232A (zh) 2020-09-01

Family

ID=72200697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010431417.9A Pending CN111611232A (zh) 2020-05-20 2020-05-20 一种大数据清洗方法及装置

Country Status (1)

Country Link
CN (1) CN111611232A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156893A (zh) * 2011-03-24 2011-08-17 大连海事大学 Rfid设备网络环境下采集数据的清洗系统及方法
CN105930523A (zh) * 2016-05-25 2016-09-07 中国科学院新疆理化技术研究所 大数据背景下基于动态可配置规则的数据清洗框架
CN106294644A (zh) * 2016-08-02 2017-01-04 山东鲁能软件技术有限公司 一种基于大数据技术的海量时序数据收集处理装置及方法
CN110147364A (zh) * 2019-04-15 2019-08-20 平安普惠企业管理有限公司 数据清洗方法、装置、设备和存储介质
CN110347667A (zh) * 2019-06-27 2019-10-18 上海淇馥信息技术有限公司 一种数据清洗方法及装置
CN110795423A (zh) * 2019-09-23 2020-02-14 紫光云(南京)数字技术有限公司 一种快速清洗、转换的数据抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156893A (zh) * 2011-03-24 2011-08-17 大连海事大学 Rfid设备网络环境下采集数据的清洗系统及方法
CN105930523A (zh) * 2016-05-25 2016-09-07 中国科学院新疆理化技术研究所 大数据背景下基于动态可配置规则的数据清洗框架
CN106294644A (zh) * 2016-08-02 2017-01-04 山东鲁能软件技术有限公司 一种基于大数据技术的海量时序数据收集处理装置及方法
CN110147364A (zh) * 2019-04-15 2019-08-20 平安普惠企业管理有限公司 数据清洗方法、装置、设备和存储介质
CN110347667A (zh) * 2019-06-27 2019-10-18 上海淇馥信息技术有限公司 一种数据清洗方法及装置
CN110795423A (zh) * 2019-09-23 2020-02-14 紫光云(南京)数字技术有限公司 一种快速清洗、转换的数据抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
胡博磊: "面向位置服务的数据处理平台的研究与设计", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
陈雪峰: "一种ETL与数据清洗相结合的分布式数据集成工具的研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Similar Documents

Publication Publication Date Title
CN108280023B (zh) 任务执行方法、装置和服务器
CN109299074B (zh) 一种基于模板化数据库视图的数据校验方法及系统
CN112130993A (zh) 基于图形化建模的电力边缘物联代理边缘计算方法及系统
CN110515795B (zh) 一种大数据组件的监控方法、装置、电子设备
CN109471893B (zh) 网络数据的查询方法、设备及计算机可读存储介质
US10496423B2 (en) Method for opening up data and functions of terminal application based on reconstruction technology
CN113268500B (zh) 业务处理方法、装置及电子设备
CN112286521A (zh) 一种任务流程处理方法、存储介质及处理器
CN112181522A (zh) 数据处理的方法、装置以及电子设备
CN114125015A (zh) 一种数据采集方法及系统
CN111611232A (zh) 一种大数据清洗方法及装置
CN110083602B (zh) 一种基于hive表的数据存储及数据处理的方法及装置
CN113741864B (zh) 基于自然语言处理的语义化服务接口自动设计方法与系统
CN115774750A (zh) 数据库入湖配置方法、系统、电子设备及存储介质
CN111459474B (zh) 一种模板化的数据处理方法及装置
CN107506299B (zh) 一种代码分析方法及终端设备
CN109739876B (zh) 基于Sqltoy-orm框架的数据库的数据查询方法和装置
CN111782479A (zh) 日志处理方法、装置、电子设备及计算机可读存储介质
CN117435367B (zh) 用户行为处理方法、装置、设备、存储介质和程序产品
CN112988250B (zh) 多主板usb服务配置方法、系统、终端及存储介质
CN112507013B (zh) 一种工业设备数据的存储方法及装置
CN117215568A (zh) 数据分析任务的生成方法、装置、电子设备及介质
CN117271502A (zh) 家电数据处理方法、装置、设备及介质
CN117435367A (zh) 用户行为处理方法、装置、设备、存储介质和程序产品
CN116756131A (zh) 数据清理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200901

RJ01 Rejection of invention patent application after publication