CN115630051A - 一种基于大数据技术的数据清洗方法 - Google Patents

一种基于大数据技术的数据清洗方法 Download PDF

Info

Publication number
CN115630051A
CN115630051A CN202211134543.3A CN202211134543A CN115630051A CN 115630051 A CN115630051 A CN 115630051A CN 202211134543 A CN202211134543 A CN 202211134543A CN 115630051 A CN115630051 A CN 115630051A
Authority
CN
China
Prior art keywords
data
sub
cleaning
data set
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211134543.3A
Other languages
English (en)
Inventor
吴雪峰
夏鸣
陈俊桦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Nangong Technology Group Co ltd
Original Assignee
Jiangsu Nangong Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Nangong Technology Group Co ltd filed Critical Jiangsu Nangong Technology Group Co ltd
Priority to CN202211134543.3A priority Critical patent/CN115630051A/zh
Publication of CN115630051A publication Critical patent/CN115630051A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据清洗技术领域,且公开了一种基于大数据技术的数据清洗方法,包括以下步骤:创建预设数量的清洗规则;构建分布式集群;将所述清洗规则匹配表上传至所述分布式集群;根据所述目标数据类型将所述清洗规则分配给对应的子服务器。该基于大数据技术的数据清洗方法,通过将目标数据进行数据格式转换,得到统一数据集,将数据转化成统一格式,提高清洗效率,再根据预先存储的分类策略对统一数据集进行分类,得到子数据集,根据清洗规则匹配表对多个子数据集进行分类,并利用多个子服务器同时对多个子数据集进行分类清洗,进一步提高了清洗效率,从而达到了能加快数据清洗效率的效果。

Description

一种基于大数据技术的数据清洗方法
技术领域
本发明涉及数据清洗技术领域,具体为一种基于大数据技术的数据清洗方法。
背景技术
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
目前现有的数据化清洗方法较为单一,在清洗不同类型的数据时通常需要单独开发对应的数据清理规则,但上述清洗方案会在数据清理规则开发阶段耗费较大的人力和物力,也不利于数据清理规则的管理,服务器清洗压力大,同时部分较难清洗的数据需要与之配套的硬件环境提供硬件支持,进而增加了清洗成本。
发明内容
为实现以上能加快数据清洗效率,能有效降低清洗成本,清洗管理方便的目的,本发明通过以下技术方案予以实现:一种基于大数据技术的数据清洗方法,包括以下步骤:
S1、创建预设数量的清洗规则,并配置目标数据类型与所述清洗规则之间的映射关系,生成清洗规则匹配表;
S2、构建分布式集群,所述分布式集群包含若干个子服务器,各个所述子服务器分别对应处理一种目标类型数据;
S3、将所述清洗规则匹配表上传至所述分布式集群,并根据所述目标数据类型将所述清洗规则分配给对应的子服务器;
S4、从目标数据库中获取预设时段内所述目标数据库的总数据集;
S5、对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
S6、根据预先存储的分类策略对所述统一数据集进行分类,得到所述统一数据集对应的至少一个子数据集;
S7、根据清洗规则匹配表对至少一个子数据集进行分类,并将分类好的数据上传至子服务器中进行数据清洗,并将清洗好的数据回流至数据服务器集群中;
S8、对于无法清洗的子数据集,则通过数据传输模块将其发送至众包服务器中,由众包服务器将这些无法清洗的子数据集以众包的形式进行清洗,二次清洗后的子数据集回流至数据服务器集群中,完成数据清洗。
一种基于大数据技术的数据清洗系统,包括:
规则配置模块,用于创建预设数量的清洗规则,并配置目标数据类型与清洗规则之间的映射关系,生成清洗规则匹配表;
分布式集群服务器,用于构建若干个子服务器,各个子服务器分别对应处理一种目标类型数据;
子服务器,用于接收清洗规则匹配表,并根据清洗规则匹配表对子数据集进行清洗;
目标数据获取模块,用于从目标数据库中获取预设时段内所述目标数据库的总数据集;
格式转化模块,用于对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
数据分类模块,用于将统一数据集安照数据类型分类成至少一个子数据集;
数据预处理模块,用于接收子数据集,并确定子数据集对应的目标数据类型;
规则分配模块,用于将清洗规则匹配表上传至分布式集群,并根据子数据类型将清洗规则匹配表分配给对应的子服务器,同时根据子数据集类型,将子数据集上传至对应的子服务器;
数据传输模块,用于对子数据集进行安全传送。
众包服务器,用于将无法处理的子数据集以众包的形式进行处理;
数据服务器集群,用于集中处理清洗后的数据。
进一步的,所述数据传输模块包括交换机与硬件防火墙,所述交换机为光纤交换机。
与现有技术相比,本发明具有以下有益效果:
1、该基于大数据技术的数据清洗方法,通过将目标数据进行数据格式转换,得到统一数据集,将数据转化成统一格式,提高清洗效率,再根据预先存储的分类策略对统一数据集进行分类,得到子数据集,根据清洗规则匹配表对多个子数据集进行分类,并利用多个子服务器同时对多个子数据集进行分类清洗,进一步提高了清洗效率,从而达到了能加快数据清洗效率的效果。
2、该基于大数据技术的数据清洗方法,通过构建分布式集群,并根据目标数据类型为分布式集群中的各个子服务器配置相应的数据清洗规则,当需要进行目标数据清洗时,并根据待清洗目标数据的数据类型将待清洗目标数据分配给分布式集群中对应的子服务器进行处理,多个子服务器同时对多个子数据集进行分类清洗,实现不同类型目标数据自动清理,具有较强的通用性和适应性,降低清洗成本,再通过众包服务器将这些无法清洗的子数据集以众包的形式进行清洗,使清洗系统无需兼顾所有的数据,进一步降低了清洗成本,从而达到了能有效降低清洗成本,清洗管理方便的效果。
附图说明
图1为本发明数据清洗方法示意图;
图2为本发明数据清洗系统示意图;
图3为本发明数据清洗流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该基于大数据技术的数据清洗方法的实施例如下:
实施例一
请参阅图1,一种基于大数据技术的数据清洗方法,包括以下步骤:
S1、创建预设数量的清洗规则,并配置目标数据类型与所述清洗规则之间的映射关系,生成清洗规则匹配表;
S2、构建分布式集群,所述分布式集群包含若干个子服务器,各个所述子服务器分别对应处理一种目标类型数据;
S3、将所述清洗规则匹配表上传至所述分布式集群,并根据所述目标数据类型将所述清洗规则分配给对应的子服务器;
S4、从目标数据库中获取预设时段内所述目标数据库的总数据集;
S5、对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
S6、根据预先存储的分类策略对所述统一数据集进行分类,得到所述统一数据集对应的至少一个子数据集;
S7、根据清洗规则匹配表对至少一个子数据集进行分类,并将分类好的数据上传至子服务器中进行数据清洗,并将清洗好的数据回流至数据服务器集群中;
S8、对于无法清洗的子数据集,则通过数据传输模块将其发送至众包服务器中,由众包服务器将这些无法清洗的子数据集以众包的形式进行清洗,二次清洗后的子数据集回流至数据服务器集群中,完成数据清洗。
实施例二
请参阅图2,一种基于大数据技术的数据清洗系统,包括:
规则配置模块,用于创建预设数量的清洗规则,并配置目标数据类型与清洗规则之间的映射关系,生成清洗规则匹配表;
分布式集群服务器,用于构建若干个子服务器,各个子服务器分别对应处理一种目标类型数据;
子服务器,用于接收清洗规则匹配表,并根据清洗规则匹配表对子数据集进行清洗;
目标数据获取模块,用于从目标数据库中获取预设时段内所述目标数据库的总数据集;
格式转化模块,用于对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
数据分类模块,用于将统一数据集安照数据类型分类成至少一个子数据集;
数据预处理模块,用于接收子数据集,并确定子数据集对应的目标数据类型;
规则分配模块,用于将清洗规则匹配表上传至分布式集群,并根据子数据类型将清洗规则匹配表分配给对应的子服务器,同时根据子数据集类型,将子数据集上传至对应的子服务器;
数据传输模块,用于对子数据集进行安全传送。
众包服务器,用于将无法处理的子数据集以众包的形式进行处理;
数据服务器集群,用于集中处理清洗后的数据。
进一步的,所述数据传输模块包括交换机与硬件防火墙,所述交换机为光纤交换机。
实施例三
请参阅图1-图3,一种基于大数据技术的数据清洗方法,包括以下步骤:
S1、创建预设数量的清洗规则,并配置目标数据类型与所述清洗规则之间的映射关系,生成清洗规则匹配表;
S2、构建分布式集群,所述分布式集群包含若干个子服务器,各个所述子服务器分别对应处理一种目标类型数据;
S3、将所述清洗规则匹配表上传至所述分布式集群,并根据所述目标数据类型将所述清洗规则分配给对应的子服务器;
S4、从目标数据库中获取预设时段内所述目标数据库的总数据集;
S5、对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
S6、根据预先存储的分类策略对所述统一数据集进行分类,得到所述统一数据集对应的至少一个子数据集;
S7、根据清洗规则匹配表对至少一个子数据集进行分类,并将分类好的数据上传至子服务器中进行数据清洗,并将清洗好的数据回流至数据服务器集群中;
S8、对于无法清洗的子数据集,则通过数据传输模块将其发送至众包服务器中,由众包服务器将这些无法清洗的子数据集以众包的形式进行清洗,二次清洗后的子数据集回流至数据服务器集群中,完成数据清洗。
一种基于大数据技术的数据清洗系统,包括:
规则配置模块,用于创建预设数量的清洗规则,并配置目标数据类型与清洗规则之间的映射关系,生成清洗规则匹配表;
分布式集群服务器,用于构建若干个子服务器,各个子服务器分别对应处理一种目标类型数据;
子服务器,用于接收清洗规则匹配表,并根据清洗规则匹配表对子数据集进行清洗;
目标数据获取模块,用于从目标数据库中获取预设时段内所述目标数据库的总数据集;
格式转化模块,用于对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
数据分类模块,用于将统一数据集安照数据类型分类成至少一个子数据集;
数据预处理模块,用于接收子数据集,并确定子数据集对应的目标数据类型;
规则分配模块,用于将清洗规则匹配表上传至分布式集群,并根据子数据类型将清洗规则匹配表分配给对应的子服务器,同时根据子数据集类型,将子数据集上传至对应的子服务器;
数据传输模块,用于对子数据集进行安全传送。
众包服务器,用于将无法处理的子数据集以众包的形式进行处理;
数据服务器集群,用于集中处理清洗后的数据。
进一步的,所述数据传输模块包括交换机与硬件防火墙,所述交换机为光纤交换机。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.一种基于大数据技术的数据清洗方法,其特征在于,包括以下步骤:
S1、创建预设数量的清洗规则,并配置目标数据类型与所述清洗规则之间的映射关系,生成清洗规则匹配表;
S2、构建分布式集群,所述分布式集群包含若干个子服务器,各个所述子服务器分别对应处理一种目标类型数据;
S3、将所述清洗规则匹配表上传至所述分布式集群,并根据所述目标数据类型将所述清洗规则分配给对应的子服务器;
S4、从目标数据库中获取预设时段内所述目标数据库的总数据集;
S5、对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
S6、根据预先存储的分类策略对所述统一数据集进行分类,得到所述统一数据集对应的至少一个子数据集;
S7、根据清洗规则匹配表对至少一个子数据集进行分类,并将分类好的数据上传至子服务器中进行数据清洗,并将清洗好的数据回流至数据服务器集群中;
S8、对于无法清洗的子数据集,则通过数据传输模块将其发送至众包服务器中,由众包服务器将这些无法清洗的子数据集以众包的形式进行清洗,二次清洗后的子数据集回流至数据服务器集群中,完成数据清洗。
2.一种基于大数据技术的数据清洗系统,应用于如权利要求1所述的一种基于大数据技术的数据清洗方法,其特征在于,包括:
规则配置模块,用于创建预设数量的清洗规则,并配置目标数据类型与清洗规则之间的映射关系,生成清洗规则匹配表;
分布式集群服务器,用于构建若干个子服务器,各个子服务器分别对应处理一种目标类型数据;
子服务器,用于接收清洗规则匹配表,并根据清洗规则匹配表对子数据集进行清洗;
目标数据获取模块,用于从目标数据库中获取预设时段内所述目标数据库的总数据集;
格式转化模块,用于对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
数据分类模块,用于将统一数据集安照数据类型分类成至少一个子数据集;
数据预处理模块,用于接收子数据集,并确定子数据集对应的目标数据类型;
规则分配模块,用于将清洗规则匹配表上传至分布式集群,并根据子数据类型将清洗规则匹配表分配给对应的子服务器,同时根据子数据集类型,将子数据集上传至对应的子服务器;
数据传输模块,用于对子数据集进行安全传送;
众包服务器,用于将无法处理的子数据集以众包的形式进行处理;
数据服务器集群,用于集中处理清洗后的数据。
3.根据权利要求2所述的一种基于大数据技术的数据清洗系统,其特征在于:所述数据传输模块包括交换机与硬件防火墙,所述交换机为光纤交换机。
CN202211134543.3A 2022-09-19 2022-09-19 一种基于大数据技术的数据清洗方法 Pending CN115630051A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211134543.3A CN115630051A (zh) 2022-09-19 2022-09-19 一种基于大数据技术的数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211134543.3A CN115630051A (zh) 2022-09-19 2022-09-19 一种基于大数据技术的数据清洗方法

Publications (1)

Publication Number Publication Date
CN115630051A true CN115630051A (zh) 2023-01-20

Family

ID=84903024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211134543.3A Pending CN115630051A (zh) 2022-09-19 2022-09-19 一种基于大数据技术的数据清洗方法

Country Status (1)

Country Link
CN (1) CN115630051A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891812A (zh) * 2024-03-18 2024-04-16 北京数字一百信息技术有限公司 一种基于人工智能的大数据清洗方法及系统
CN118673015A (zh) * 2024-08-23 2024-09-20 深圳开鸿数字产业发展有限公司 一种数据清洗方法、系统、终端及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN206209711U (zh) * 2016-09-13 2017-05-31 深圳市华傲数据技术有限公司 数据清洗系统
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质
CN110543903A (zh) * 2019-08-23 2019-12-06 国网江苏省电力有限公司电力科学研究院 一种gis局部放电大数据系统的数据清洗方法及系统
CN113836131A (zh) * 2021-09-29 2021-12-24 平安科技(深圳)有限公司 一种大数据清洗方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN206209711U (zh) * 2016-09-13 2017-05-31 深圳市华傲数据技术有限公司 数据清洗系统
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质
CN110543903A (zh) * 2019-08-23 2019-12-06 国网江苏省电力有限公司电力科学研究院 一种gis局部放电大数据系统的数据清洗方法及系统
CN113836131A (zh) * 2021-09-29 2021-12-24 平安科技(深圳)有限公司 一种大数据清洗方法、装置、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891812A (zh) * 2024-03-18 2024-04-16 北京数字一百信息技术有限公司 一种基于人工智能的大数据清洗方法及系统
CN117891812B (zh) * 2024-03-18 2024-05-24 北京数字一百信息技术有限公司 一种基于人工智能的大数据清洗方法及系统
CN118673015A (zh) * 2024-08-23 2024-09-20 深圳开鸿数字产业发展有限公司 一种数据清洗方法、系统、终端及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN115630051A (zh) 一种基于大数据技术的数据清洗方法
CN113900810B (zh) 分布式图处理方法、系统及存储介质
CN101883039B (zh) 大规模集群系统的数据传输网络及其构建方法
CN1409225A (zh) 配置存储区网络的系统和方法
EP3691191B1 (en) Streaming network monitoring caching infrastructure
CN103078920A (zh) 一种基于iec61968企业服务总线的消息在线校验系统
CN113590348B (zh) 基于树状结构的参数传递方法、装置、设备及介质
CN114385541A (zh) 一种面向智能制造的opc ua聚合服务器及其设计方法
CN107222363A (zh) 一种存储协议一致性测试方法及系统
CN110347726A (zh) 一种高效时序数据集成存储查询系统及方法
CN116737988B (zh) 一种智能楼宇数据管理方法、管理系统
CN105279234A (zh) 一种输变电设备状态检修数据跨平台数据获取与转换方法
CN109831321B (zh) 一种数据中心中rdma应用传输参数自适应选择方法
CN110826845B (zh) 一种多维组合成本分摊装置及方法
CN112749121A (zh) 基于pcie总线的多芯片互联系统
CN116109114B (zh) 一种常态化政务服务数据处理方法及系统
CN118035502A (zh) 配电网数据图模型构建方法、装置、电子设备及存储介质
CN114997418A (zh) 数据处理方法、装置、电子设备及存储介质
CN113961489B (zh) 数据访问的方法、装置、设备及存储介质
CN115730015A (zh) 基于任务标识编码解析的工业数据管理方法
CN114253954A (zh) 基于IoT分发网关的风电场数据分发方法、装置及系统
CN115643255A (zh) 一种视频传输方法、装置、设备及存储介质
CN115495015A (zh) 数据文件的处理方法、装置、设备及存储介质
CN109377159A (zh) 一种软件建模过程实体演进系统及方法、处理器、终端
CN112711589A (zh) 用于MDSplus的存储控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination