CN115630051A - 一种基于大数据技术的数据清洗方法 - Google Patents

一种基于大数据技术的数据清洗方法 Download PDF

Info

Publication number
CN115630051A
CN115630051A CN202211134543.3A CN202211134543A CN115630051A CN 115630051 A CN115630051 A CN 115630051A CN 202211134543 A CN202211134543 A CN 202211134543A CN 115630051 A CN115630051 A CN 115630051A
Authority
CN
China
Prior art keywords
data
cleaning
sub
server
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211134543.3A
Other languages
English (en)
Inventor
吴雪峰
夏鸣
陈俊桦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Nangong Technology Group Co ltd
Original Assignee
Jiangsu Nangong Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Nangong Technology Group Co ltd filed Critical Jiangsu Nangong Technology Group Co ltd
Priority to CN202211134543.3A priority Critical patent/CN115630051A/zh
Publication of CN115630051A publication Critical patent/CN115630051A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据清洗技术领域,且公开了一种基于大数据技术的数据清洗方法,包括以下步骤:创建预设数量的清洗规则;构建分布式集群;将所述清洗规则匹配表上传至所述分布式集群;根据所述目标数据类型将所述清洗规则分配给对应的子服务器。该基于大数据技术的数据清洗方法,通过将目标数据进行数据格式转换,得到统一数据集,将数据转化成统一格式,提高清洗效率,再根据预先存储的分类策略对统一数据集进行分类,得到子数据集,根据清洗规则匹配表对多个子数据集进行分类,并利用多个子服务器同时对多个子数据集进行分类清洗,进一步提高了清洗效率,从而达到了能加快数据清洗效率的效果。

Description

一种基于大数据技术的数据清洗方法
技术领域
本发明涉及数据清洗技术领域,具体为一种基于大数据技术的数据清洗方法。
背景技术
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
目前现有的数据化清洗方法较为单一,在清洗不同类型的数据时通常需要单独开发对应的数据清理规则,但上述清洗方案会在数据清理规则开发阶段耗费较大的人力和物力,也不利于数据清理规则的管理,服务器清洗压力大,同时部分较难清洗的数据需要与之配套的硬件环境提供硬件支持,进而增加了清洗成本。
发明内容
为实现以上能加快数据清洗效率,能有效降低清洗成本,清洗管理方便的目的,本发明通过以下技术方案予以实现:一种基于大数据技术的数据清洗方法,包括以下步骤:
S1、创建预设数量的清洗规则,并配置目标数据类型与所述清洗规则之间的映射关系,生成清洗规则匹配表;
S2、构建分布式集群,所述分布式集群包含若干个子服务器,各个所述子服务器分别对应处理一种目标类型数据;
S3、将所述清洗规则匹配表上传至所述分布式集群,并根据所述目标数据类型将所述清洗规则分配给对应的子服务器;
S4、从目标数据库中获取预设时段内所述目标数据库的总数据集;
S5、对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
S6、根据预先存储的分类策略对所述统一数据集进行分类,得到所述统一数据集对应的至少一个子数据集;
S7、根据清洗规则匹配表对至少一个子数据集进行分类,并将分类好的数据上传至子服务器中进行数据清洗,并将清洗好的数据回流至数据服务器集群中;
S8、对于无法清洗的子数据集,则通过数据传输模块将其发送至众包服务器中,由众包服务器将这些无法清洗的子数据集以众包的形式进行清洗,二次清洗后的子数据集回流至数据服务器集群中,完成数据清洗。
一种基于大数据技术的数据清洗系统,包括:
规则配置模块,用于创建预设数量的清洗规则,并配置目标数据类型与清洗规则之间的映射关系,生成清洗规则匹配表;
分布式集群服务器,用于构建若干个子服务器,各个子服务器分别对应处理一种目标类型数据;
子服务器,用于接收清洗规则匹配表,并根据清洗规则匹配表对子数据集进行清洗;
目标数据获取模块,用于从目标数据库中获取预设时段内所述目标数据库的总数据集;
格式转化模块,用于对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
数据分类模块,用于将统一数据集安照数据类型分类成至少一个子数据集;
数据预处理模块,用于接收子数据集,并确定子数据集对应的目标数据类型;
规则分配模块,用于将清洗规则匹配表上传至分布式集群,并根据子数据类型将清洗规则匹配表分配给对应的子服务器,同时根据子数据集类型,将子数据集上传至对应的子服务器;
数据传输模块,用于对子数据集进行安全传送。
众包服务器,用于将无法处理的子数据集以众包的形式进行处理;
数据服务器集群,用于集中处理清洗后的数据。
进一步的,所述数据传输模块包括交换机与硬件防火墙,所述交换机为光纤交换机。
与现有技术相比,本发明具有以下有益效果:
1、该基于大数据技术的数据清洗方法,通过将目标数据进行数据格式转换,得到统一数据集,将数据转化成统一格式,提高清洗效率,再根据预先存储的分类策略对统一数据集进行分类,得到子数据集,根据清洗规则匹配表对多个子数据集进行分类,并利用多个子服务器同时对多个子数据集进行分类清洗,进一步提高了清洗效率,从而达到了能加快数据清洗效率的效果。
2、该基于大数据技术的数据清洗方法,通过构建分布式集群,并根据目标数据类型为分布式集群中的各个子服务器配置相应的数据清洗规则,当需要进行目标数据清洗时,并根据待清洗目标数据的数据类型将待清洗目标数据分配给分布式集群中对应的子服务器进行处理,多个子服务器同时对多个子数据集进行分类清洗,实现不同类型目标数据自动清理,具有较强的通用性和适应性,降低清洗成本,再通过众包服务器将这些无法清洗的子数据集以众包的形式进行清洗,使清洗系统无需兼顾所有的数据,进一步降低了清洗成本,从而达到了能有效降低清洗成本,清洗管理方便的效果。
附图说明
图1为本发明数据清洗方法示意图;
图2为本发明数据清洗系统示意图;
图3为本发明数据清洗流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该基于大数据技术的数据清洗方法的实施例如下:
实施例一
请参阅图1,一种基于大数据技术的数据清洗方法,包括以下步骤:
S1、创建预设数量的清洗规则,并配置目标数据类型与所述清洗规则之间的映射关系,生成清洗规则匹配表;
S2、构建分布式集群,所述分布式集群包含若干个子服务器,各个所述子服务器分别对应处理一种目标类型数据;
S3、将所述清洗规则匹配表上传至所述分布式集群,并根据所述目标数据类型将所述清洗规则分配给对应的子服务器;
S4、从目标数据库中获取预设时段内所述目标数据库的总数据集;
S5、对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
S6、根据预先存储的分类策略对所述统一数据集进行分类,得到所述统一数据集对应的至少一个子数据集;
S7、根据清洗规则匹配表对至少一个子数据集进行分类,并将分类好的数据上传至子服务器中进行数据清洗,并将清洗好的数据回流至数据服务器集群中;
S8、对于无法清洗的子数据集,则通过数据传输模块将其发送至众包服务器中,由众包服务器将这些无法清洗的子数据集以众包的形式进行清洗,二次清洗后的子数据集回流至数据服务器集群中,完成数据清洗。
实施例二
请参阅图2,一种基于大数据技术的数据清洗系统,包括:
规则配置模块,用于创建预设数量的清洗规则,并配置目标数据类型与清洗规则之间的映射关系,生成清洗规则匹配表;
分布式集群服务器,用于构建若干个子服务器,各个子服务器分别对应处理一种目标类型数据;
子服务器,用于接收清洗规则匹配表,并根据清洗规则匹配表对子数据集进行清洗;
目标数据获取模块,用于从目标数据库中获取预设时段内所述目标数据库的总数据集;
格式转化模块,用于对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
数据分类模块,用于将统一数据集安照数据类型分类成至少一个子数据集;
数据预处理模块,用于接收子数据集,并确定子数据集对应的目标数据类型;
规则分配模块,用于将清洗规则匹配表上传至分布式集群,并根据子数据类型将清洗规则匹配表分配给对应的子服务器,同时根据子数据集类型,将子数据集上传至对应的子服务器;
数据传输模块,用于对子数据集进行安全传送。
众包服务器,用于将无法处理的子数据集以众包的形式进行处理;
数据服务器集群,用于集中处理清洗后的数据。
进一步的,所述数据传输模块包括交换机与硬件防火墙,所述交换机为光纤交换机。
实施例三
请参阅图1-图3,一种基于大数据技术的数据清洗方法,包括以下步骤:
S1、创建预设数量的清洗规则,并配置目标数据类型与所述清洗规则之间的映射关系,生成清洗规则匹配表;
S2、构建分布式集群,所述分布式集群包含若干个子服务器,各个所述子服务器分别对应处理一种目标类型数据;
S3、将所述清洗规则匹配表上传至所述分布式集群,并根据所述目标数据类型将所述清洗规则分配给对应的子服务器;
S4、从目标数据库中获取预设时段内所述目标数据库的总数据集;
S5、对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
S6、根据预先存储的分类策略对所述统一数据集进行分类,得到所述统一数据集对应的至少一个子数据集;
S7、根据清洗规则匹配表对至少一个子数据集进行分类,并将分类好的数据上传至子服务器中进行数据清洗,并将清洗好的数据回流至数据服务器集群中;
S8、对于无法清洗的子数据集,则通过数据传输模块将其发送至众包服务器中,由众包服务器将这些无法清洗的子数据集以众包的形式进行清洗,二次清洗后的子数据集回流至数据服务器集群中,完成数据清洗。
一种基于大数据技术的数据清洗系统,包括:
规则配置模块,用于创建预设数量的清洗规则,并配置目标数据类型与清洗规则之间的映射关系,生成清洗规则匹配表;
分布式集群服务器,用于构建若干个子服务器,各个子服务器分别对应处理一种目标类型数据;
子服务器,用于接收清洗规则匹配表,并根据清洗规则匹配表对子数据集进行清洗;
目标数据获取模块,用于从目标数据库中获取预设时段内所述目标数据库的总数据集;
格式转化模块,用于对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
数据分类模块,用于将统一数据集安照数据类型分类成至少一个子数据集;
数据预处理模块,用于接收子数据集,并确定子数据集对应的目标数据类型;
规则分配模块,用于将清洗规则匹配表上传至分布式集群,并根据子数据类型将清洗规则匹配表分配给对应的子服务器,同时根据子数据集类型,将子数据集上传至对应的子服务器;
数据传输模块,用于对子数据集进行安全传送。
众包服务器,用于将无法处理的子数据集以众包的形式进行处理;
数据服务器集群,用于集中处理清洗后的数据。
进一步的,所述数据传输模块包括交换机与硬件防火墙,所述交换机为光纤交换机。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.一种基于大数据技术的数据清洗方法,其特征在于,包括以下步骤:
S1、创建预设数量的清洗规则,并配置目标数据类型与所述清洗规则之间的映射关系,生成清洗规则匹配表;
S2、构建分布式集群,所述分布式集群包含若干个子服务器,各个所述子服务器分别对应处理一种目标类型数据;
S3、将所述清洗规则匹配表上传至所述分布式集群,并根据所述目标数据类型将所述清洗规则分配给对应的子服务器;
S4、从目标数据库中获取预设时段内所述目标数据库的总数据集;
S5、对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
S6、根据预先存储的分类策略对所述统一数据集进行分类,得到所述统一数据集对应的至少一个子数据集;
S7、根据清洗规则匹配表对至少一个子数据集进行分类,并将分类好的数据上传至子服务器中进行数据清洗,并将清洗好的数据回流至数据服务器集群中;
S8、对于无法清洗的子数据集,则通过数据传输模块将其发送至众包服务器中,由众包服务器将这些无法清洗的子数据集以众包的形式进行清洗,二次清洗后的子数据集回流至数据服务器集群中,完成数据清洗。
2.一种基于大数据技术的数据清洗系统,应用于如权利要求1所述的一种基于大数据技术的数据清洗方法,其特征在于,包括:
规则配置模块,用于创建预设数量的清洗规则,并配置目标数据类型与清洗规则之间的映射关系,生成清洗规则匹配表;
分布式集群服务器,用于构建若干个子服务器,各个子服务器分别对应处理一种目标类型数据;
子服务器,用于接收清洗规则匹配表,并根据清洗规则匹配表对子数据集进行清洗;
目标数据获取模块,用于从目标数据库中获取预设时段内所述目标数据库的总数据集;
格式转化模块,用于对所述总数据集进行数据格式转换,得到所述总数据集对应的统一数据集,所述统一数据集中的数据格式相同;
数据分类模块,用于将统一数据集安照数据类型分类成至少一个子数据集;
数据预处理模块,用于接收子数据集,并确定子数据集对应的目标数据类型;
规则分配模块,用于将清洗规则匹配表上传至分布式集群,并根据子数据类型将清洗规则匹配表分配给对应的子服务器,同时根据子数据集类型,将子数据集上传至对应的子服务器;
数据传输模块,用于对子数据集进行安全传送;
众包服务器,用于将无法处理的子数据集以众包的形式进行处理;
数据服务器集群,用于集中处理清洗后的数据。
3.根据权利要求2所述的一种基于大数据技术的数据清洗系统,其特征在于:所述数据传输模块包括交换机与硬件防火墙,所述交换机为光纤交换机。
CN202211134543.3A 2022-09-19 2022-09-19 一种基于大数据技术的数据清洗方法 Pending CN115630051A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211134543.3A CN115630051A (zh) 2022-09-19 2022-09-19 一种基于大数据技术的数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211134543.3A CN115630051A (zh) 2022-09-19 2022-09-19 一种基于大数据技术的数据清洗方法

Publications (1)

Publication Number Publication Date
CN115630051A true CN115630051A (zh) 2023-01-20

Family

ID=84903024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211134543.3A Pending CN115630051A (zh) 2022-09-19 2022-09-19 一种基于大数据技术的数据清洗方法

Country Status (1)

Country Link
CN (1) CN115630051A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891812A (zh) * 2024-03-18 2024-04-16 北京数字一百信息技术有限公司 一种基于人工智能的大数据清洗方法及系统
CN118673015A (zh) * 2024-08-23 2024-09-20 深圳开鸿数字产业发展有限公司 一种数据清洗方法、系统、终端及计算机可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891812A (zh) * 2024-03-18 2024-04-16 北京数字一百信息技术有限公司 一种基于人工智能的大数据清洗方法及系统
CN117891812B (zh) * 2024-03-18 2024-05-24 北京数字一百信息技术有限公司 一种基于人工智能的大数据清洗方法及系统
CN118673015A (zh) * 2024-08-23 2024-09-20 深圳开鸿数字产业发展有限公司 一种数据清洗方法、系统、终端及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN115630051A (zh) 一种基于大数据技术的数据清洗方法
CN114118156B (zh) 设备故障诊断方法、装置、电子设备及存储介质
CN112905323A (zh) 数据处理方法、装置、电子设备及存储介质
CN111915143A (zh) 一种基于智能合约的复杂产品装配管控系统
CN111855668A (zh) 一种产品缺陷检测系统
CN113298486A (zh) 一种基于大数据的政务监察督查方法及系统
CN113392154A (zh) 基于soa构架与分布式部署的数据库的数据系统
CN114385668A (zh) 冷数据清理方法、装置、设备及存储介质
CN110826845B (zh) 一种多维组合成本分摊装置及方法
Olsson et al. Systems-of-systems and digital twins: A survey and analysis of the current knowledge
CN115730015A (zh) 基于任务标识编码解析的工业数据管理方法
CN113377683B (zh) 软件测试用例的生成方法、系统、设备、终端、介质及应用
CN115714773A (zh) 基于云端大数据的工业设备数据共享方法
CN212012920U (zh) 一种视频运维诊断系统框架
CN113064791A (zh) 基于海量日志数据实时监控的分散标签特征提取方法
Pankov et al. Model studies of systems with diagnostics based on fault simulation
CN116737988B (zh) 一种智能楼宇数据管理方法、管理系统
CN110738333B (zh) 一种基于大数据的生产线运维方法及装置
CN1466056A (zh) 一种机群监控系统和方法
CN118070883A (zh) 用于安防集成平台的数据融合方法、装置、设备及介质
CN117057733A (zh) 一种基于智能大脑的电子政务管理平台及方法
CN118819919A (zh) 一种动力设备数据纠错方法、装置、设备、介质及产品
CN117993492A (zh) 一种电力通信接入网业务的图谱构建方法
CN117573752A (zh) 一种大数据信息统计采集方法及系统
CN118628283A (zh) 电网数据模型处理方法、系统、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination