CN112667615B - 一种数据清洗系统和方法 - Google Patents

一种数据清洗系统和方法 Download PDF

Info

Publication number
CN112667615B
CN112667615B CN202011565426.3A CN202011565426A CN112667615B CN 112667615 B CN112667615 B CN 112667615B CN 202011565426 A CN202011565426 A CN 202011565426A CN 112667615 B CN112667615 B CN 112667615B
Authority
CN
China
Prior art keywords
data
component
strategy
instruction
working
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011565426.3A
Other languages
English (en)
Other versions
CN112667615A (zh
Inventor
王彤
黄勇
田翔
范亚洲
周恩泽
魏瑞增
郭圣
刘淑琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of Guangdong Power Grid Co Ltd
Original Assignee
Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of Guangdong Power Grid Co Ltd filed Critical Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority to CN202011565426.3A priority Critical patent/CN112667615B/zh
Publication of CN112667615A publication Critical patent/CN112667615A/zh
Application granted granted Critical
Publication of CN112667615B publication Critical patent/CN112667615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种数据清洗系统和方法,系统包括数据抽取组件、数据清洗组件、数据加载组件、数据分析组件和控制组件;通过数据抽取组件根据内置的第一工作策略,从预设的源数据库抽取源数据并发送到数据清洗组件;通过数据清洗组件根据内置的第二工作策略,对源数据进行数据清洗,生成待加载数据;通过数据加载组件根据内置的第三工作策略,将待加载数据加载到目标数据库;通过数据分析组件根据对目标数据库内的待加载数据的质量分析结果,生成策略调整指令并发送到控制组件;通过控制组件响应接收到的策略调整指令,对第一工作策略、第二工作策略和/或第三工作策略进行调整,从而提高数据清洗过程的策略使用灵活性。

Description

一种数据清洗系统和方法
技术领域
本发明涉及数据清洗技术领域,尤其涉及一种数据清洗系统和方法。
背景技术
ETL(Extract-Transform-Load,数据仓库技术)是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的技术,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
传统的ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。ETL的流程可以用任何的编程语言去开发完成,ETL是极为复杂的过程,可以采用工具协助ETL的开发,并运用其内置的metadata功能来存储来源与目的的对应(mapping)以及转换规则。但对于跨网、异构、多源的复杂数据采集环境,采用高级语言自行编写的ETL工具能获得适应环境的最大灵活性。ETL过程通常需要和业务结合,很多情况下受业务逻辑约束,在过程开发、部署和应用上都有特定的需求。
传统的ETL因其具体执行逻辑复杂,运行环境受业务要求制约大,使用灵活性较低。
发明内容
本发明提供了一种数据清洗系统和方法,解决了现有技术中的数据清洗过程由于具体执行逻辑复杂,运行环境受业务要求制约大,导致其使用灵活性较低。
本发明提供的一种数据清洗系统,包括依次通信连接的数据抽取组件、数据清洗组件和数据加载组件,以及分别与所述数据抽取组件、所述数据清洗组件、所述数据加载组件和数据分析组件通信连接的控制组件;
所述数据抽取组件,用于根据内置的第一工作策略,从预设的源数据库抽取源数据并发送到所述数据清洗组件;
所述数据清洗组件,用于根据内置的第二工作策略,对所述源数据进行数据清洗,生成待加载数据;
所述数据加载组件,用于根据内置的第三工作策略,将所述待加载数据加载到目标数据库;
所述数据分析组件,用于根据对所述目标数据库内的所述待加载数据的质量分析结果,生成策略调整指令并发送到所述控制组件;
所述控制组件,用于响应接收到的所述策略调整指令,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整。
可选地,还包括网闸,所述网闸分别与所述数据抽取组件、所述数据清洗组件和所述控制组件通信连接;
所述网闸,用于当所述控制组件与所述数据抽取组件位于不同组网时提供共享文件夹;
其中,所述共享文件夹用于接收所述控制组件发送的指令文件并保存。
可选地,所述数据抽取组件,还用于定时扫描所述共享文件夹,并当所述共享文件夹内存有所述指令文件时,采用所述指令文件调整所述第一工作策略。
可选地,所述数据分析组件包括微服务模块和指令生成模块;
所述微服务模块,用于根据所述待加载数据的类型,调用对应的微服务对所述待加载数据进行质量分析,生成质量分析结果;
所述指令生成模块,用于当所述质量分析结果大于预设阈值时,生成策略调整指令并发送到所述控制组件。
可选地,所述控制组件,还用于实时监控所述数据抽取组件、所述数据清洗组件和所述数据加载组件的工作状态;响应于所述数据抽取组件、所述数据清洗组件和所述数据加载组件的工作状态的变化,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整。
可选地,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整的调整方式包括策略参数调整和策略使用状态调整。
本发明还提供了一种数据清洗方法,应用于上述任一项所述的数据清洗系统,所述数据清洗系统包括数据抽取组件、数据清洗组件、数据加载组件、数据分析组件和控制组件,所述方法包括:
通过所述数据抽取组件根据内置的第一工作策略,从预设的源数据库抽取源数据并发送到所述数据清洗组件;
通过所述数据清洗组件根据内置的第二工作策略,对所述源数据进行数据清洗,生成待加载数据;
通过所述数据加载组件根据内置的第三工作策略,将所述待加载数据加载到目标数据库;
通过所述数据分析组件根据对所述目标数据库内的所述待加载数据的质量分析结果,生成策略调整指令并发送到所述控制组件;
通过所述控制组件响应接收到的所述策略调整指令,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整。
可选地,所述数据清洗系统还包括网闸,所述网闸分别与所述数据抽取组件、所述数据清洗组件和所述控制组件通信连接,所述方法还包括:
当所述控制组件与所述数据抽取组件位于不同组网时,通过所述网闸所提供的共享文件夹接收所述控制组件发送的指令文件并保存。
可选地,还包括:
通过所述数据抽取组件定时扫描所述共享文件夹;
当所述共享文件夹内存有所述指令文件时,通过所述数据抽取组件采用所述指令文件调整所述第一工作策略。
可选地,所述数据分析组件包括微服务模块和指令生成模块,所述通过所述数据分析组件根据对所述目标数据库内的所述待加载数据的质量分析结果,生成策略调整指令并发送到所述控制组件的步骤,包括:
通过所述微服务模块根据所述待加载数据的类型,调用对应的微服务对所述目标数据库内的所述待加载数据进行质量分析,生成质量分析结果;
当所述质量分析结果大于预设阈值时,通过所述指令生成模块生成策略调整指令并发送到所述控制组件。
从以上技术方案可以看出,本发明具有以下优点:
本发明通过数据清洗系统中的数据抽取组件从源数据库进行数据抽取,得到源数据,再通过数据清洗组件对源数据进行数据清洗,以得到满足目标数据库的数据需求的待加载数据,通过数据加载组件将待加载数据加载到目标数据库。而为了实现对数据清洗过程的反馈,在将将待加载数据加载到目标数据库后,还可以通过数据分析组件对目标数据库所加载的数据进行质量分析,以此为依据生成策略调整指令,并由控制组件依据策略调整指令对相应组件中的内置策略进行调整,从而解决现有技术中的数据清洗过程由于具体执行逻辑复杂,运行环境受业务要求制约大,导致其使用灵活性较低的技术问题,能够实时根据数据清洗过程各组件的运行情况进行对应的策略调整,进而提高数据清洗过程的使用灵活性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例一提供的一种数据清洗系统的结构框图;
图2为本发明实施例二提供的一种数据清洗系统的结构框图;
图3为本发明实施例提供的一种数据抽取组件的结构示意图;
图4为本发明实施例三提供的一种数据清洗系统的执行流程图;
图5为本发明实施例四提供的一种数据清洗方法的步骤流程图。
具体实施方式
本发明实施例提供了一种数据清洗系统和方法,用于解决现有技术中的数据清洗过程由于具体执行逻辑复杂,运行环境受业务要求制约大,导致其使用灵活性较低的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例一提供的一种数据清洗系统的结构框图。
本发明提供的一种数据清洗系统,包括依次通信连接的数据抽取组件101、数据清洗组件102和数据加载组件103,以及分别与所述数据抽取组件101、所述数据清洗组件102、所述数据加载组件103和数据分析组件104通信连接的控制组件105;
所述数据抽取组件101,用于根据内置的第一工作策略,从预设的源数据库抽取源数据并发送到所述数据清洗组件102;
所述数据清洗组件102,用于根据内置的第二工作策略,对所述源数据进行数据清洗,生成待加载数据;
数据清洗指的是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
所述数据加载组件103,用于根据内置的第三工作策略,将所述待加载数据加载到目标数据库;
数据加载指的是将已转换好的数据存储到目标数据库中的操作。
所述数据分析组件104,用于根据对所述目标数据库内的所述待加载数据的质量分析结果,生成策略调整指令并发送到所述控制组件105;
质量分析结果指的是对目标数据库内的待加载数据进行数据质量分析,以确定目标数据库内的待加载数据是否存在缺失值、数据错误、度量标准错误或编码不一致等异常的结果,以此作为评估待加载数据的数据质量。
所述控制组件105,用于响应接收到的所述策略调整指令,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整。
在本发明实施例中,当数据抽取组件101与控制组件105都处于同一组网时,说明控制组件105对数据抽取组件101之间的通信并不需要跨网,能够直接调整数据抽取组件101所使用的第一工作策略。此时可以直接通过数据抽取组件101依据内置的第一工作策略,从预设的源数据库或源文件中抽取源数据;而所抽取的源数据可能存在数据格式、数据单位等不符合目标数据库的情况,此时可以经数据清洗组件102根据内置的第二工作策略,对抽取到的源数据进行数据清洗,生成待加载数据,最后通过数据加载组件103根据内置的第三工作策略,将待加载数据加载到目标数据库。
当待加载数据加载到目标数据库后,为对所加载的待加载数据进行进一步的质量分析,可以通过数据分析组件104从目标数据库中获取待加载数据,实时分析数据质量,若是数据质量满足预设条件,则生成策略调整指令发送到控制组件105,由控制组件105基于策略调整指令,确定需要调整的工作策略,对需要调整的工作策略进行调整。
可选地,源数据库可以有多个,通过从不同源数据库中抽取源数据,或者从同一源数据库的不同部分抽取类型不同的源数据,从而以丰富目标数据库的数据储存。
在本发明实施例中提供了一种数据清洗系统,通过其中的数据抽取组件从源数据库进行数据抽取,得到源数据,再通过数据清洗组件对源数据进行数据清洗,以得到满足目标数据库的数据需求的待加载数据,通过数据加载组件将待加载数据加载到目标数据库。而为了实现对数据清洗过程的反馈,在将将待加载数据加载到目标数据库后,还可以通过数据分析组件对目标数据库所加载的数据进行质量分析,以此为依据生成策略调整指令,并由控制组件依据策略调整指令对相应组件中的内置策略进行调整,从而解决现有技术中的数据清洗过程由于具体执行逻辑复杂,运行环境受业务要求制约大,导致其使用灵活性较低的技术问题,能够实时根据数据清洗过程各组件的运行情况进行对应的策略调整,进而提高数据清洗过程的使用灵活性。
请参阅图2,图2为本发明实施例二提供的一种数据清洗系统的结构框图,在本实施例中,数据抽取组件201位于第一组网,控制组件205位于第二组网。
本发明提供的一种数据清洗系统,包括依次通信连接的数据抽取组件201、数据清洗组件202和数据加载组件203,以及分别与所述数据抽取组件201、所述数据清洗组件202、所述数据加载组件203和数据分析组件204通信连接的控制组件205;
所述数据抽取组件201,用于根据内置的第一工作策略,从预设的源数据库抽取源数据并发送到所述数据清洗组件202;
请参阅图3,图3示出了本发明实施例的一种数据抽取组件的结构示意图,其中包括源数据库301、数据源访问器302、策略执行器303,数据传送器304、策略解析器305和策略库306。
在本发明实施例中,通过从策略库306中选择可用的策略,经策略解析器305进行解析后,由策略执行器303执行对应的策略,控制数据源访问器302从源数据库301中进行数据抽取,将抽取到的数据经数据传送器304传送到数据清洗组件302。
所述数据清洗组件202,用于根据内置的第二工作策略,对所述源数据进行数据清洗,生成待加载数据;
所述数据加载组件203,用于根据内置的第三工作策略,将所述待加载数据加载到目标数据库;
所述数据分析组件204,用于根据对所述目标数据库内的所述待加载数据的质量分析结果,生成策略调整指令并发送到所述控制组件205;
在本发明的一个示例中,所述数据分析组件204包括微服务模块和指令生成模块;
所述微服务模块,用于根据所述待加载数据的类型,调用对应的微服务对所述待加载数据进行质量分析,生成质量分析结果;
所述指令生成模块,用于当所述质量分析结果大于预设阈值时,生成策略调整指令并发送到所述控制组件。
在本发明实施例中,数据分析组件204可以对加载到目标数据库的待加载数据的分析,已促进调整指令的生成。
在具体实现中,数据分析组件204可以通过目标数据库内设置的触发器和文件扫描器进行触发启动,例如当目标数据库被加载进待加载数据,或文件扫描器扫描到与上一次扫描结果不同的数据时,触发数据分析组件204进行数据质量分析。可以通过微服务模块根据待加载数据的类型不同,调用不同服务对待加载数据的质量分析,每个待加载数据分析所对应的微服务实现机制不同,包括基于预设规则的“触发——响应”机制、基于知识库的推理判断机制、基于人工神经网络的决策机制等,以获得数据的质量分析结果。如发现质量分析结果出现超过阈值的异常,自动生成数据采集、清洗、加载的策略调整指令,发送到控制单元,完成数据清洗过程的自反修改。
进一步地,数据分析组件204的微服务可以有多种,例如在ETL过程实际部署应用时,可以根据具体业务的数据抽取逻辑和处理规则编制,在微服务网关上注册后,由数据分析组件204执行时选择合适的微服务进行调用,以完成对应的数据质量分析。
所述控制组件205,用于响应接收到的所述策略调整指令,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整。
在本发明实施例中,当数据分析组件204发送策略调整指令到控制组件205时,控制组件205依据策略调制指令的调整对象和调整方式,对对应的工作策略进行调整。
进一步地,所述控制组件205还用于实时监控所述数据抽取组件201、所述数据清洗组件202和所述数据加载组件203的工作状态;响应于所述数据抽取组件201、所述数据清洗组件202和所述数据加载组件203的工作状态的变化,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整。
在具体实现中,控制组件205还对各个组件的工作状态进行监控,当任一组件的工作状态出现异常或变化时,控制组件205响应其变化,对工作状态变化的组件所使用的工作策略进行调整,以保证系统的正常运行。
在本发明的可选实施例中,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整的调整方式包括策略参数调整和策略使用状态调整。
在本发明实施例中,可以通过修改策略中的具体执行参数,实现策略执行效果的调整,例如修改策略执行的时间段,修改策略执行循环周期等,例如调整策略执行时间段的指令可以如下所示:
Figure BDA0002860702490000081
进一步地,还可以通过调整策略使用状态以实现各组件中的策略状态切换,例如将组件使用的策略使用状态修改为disable,以使策略失效,具体指令可以如下所示:
Figure BDA0002860702490000091
控制组件根据数据分析组件发出的策略调整指令,动态调整数据抽取组件所使用的策略,从而改变数据抽取的规则,产生不同的数据集,以满足数据抽取任务的动态调整需求。与此类似,控制组件也可以通过指令修改数据清洗组件、数据加载组件的策略,调整数据清洗和加载操作内容,以达到调控加载到目标数据库的待加载数据的目的。
所述数据清洗系统还包括网闸206,所述网闸206分别与所述数据抽取组件201、所述数据清洗组件202和所述控制组件205通信连接;
所述网闸206,用于当所述控制组件205与所述数据抽取组件201位于不同组网时提供共享文件夹;
其中,所述共享文件夹用于接收所述控制组件205发送的指令文件并保存。
网闸(GAP)全称安全隔离网闸,是一种由带有多种控制功能专用硬件在电路上切断网络之间的链路层连接,并能够在网络间进行安全适度的应用数据交换的网络安全设备。在保密要求高的两个网络间传送数据,使用网闸能在满足安全要求的情况下,进行高速数据传递。
在具体实现中,较大规模的数据采集一般都要跨不同的网络进行,为安全、高速地完成数据的跨网络传输,可以使用网闸206在不同网络间做安全隔离。因为数据抽取组件201可能和控制组件205位于隔离的两个网络中,在高标准的安全隔离要求下,只能以通过网闸文件交换的形式完成信息传递,因此,控制组件205可以通过提交指令文件到网闸206所提供的共享文件夹,通过网闸映射共享文件夹到数据抽取组件201所处的网络后,由数据抽取组件201定时扫描该共享文件夹,以获取到对应的指令文件,实现对其第一工作策略的调整。
进一步地,所述数据抽取组件201还用于定时扫描所述共享文件夹,并当所述共享文件夹内存有所述指令文件时,采用所述指令文件调整所述第一工作策略。
在本发明实施例中,数据抽取组件201定时扫描网闸所提供的共享文件夹,当其中存有指令文件时,采用此指令文件调整自身的第一工作策略,以便于在大规模数据采集环境中,例如数据抽取组件201与控制组件205不处于同一组网时,能够及时对数据抽取组件201进行工作策略的调整,使其能够适应复杂业务和环境频繁改变的数据采集环境。
可选地,上述数据抽取组件201、数据清洗组件202、数据加载组件203、数据分析组件204均可以使用“执行器+策略库”的模式进行各自的数据清洗过程。
在本发明实施例中提供了一种数据清洗系统,通过其中的数据抽取组件从源数据库进行数据抽取,得到源数据,再通过数据清洗组件对源数据进行数据清洗,以得到满足目标数据库的数据需求的待加载数据,通过数据加载组件将待加载数据加载到目标数据库。而为了实现对数据清洗过程的反馈,在将将待加载数据加载到目标数据库后,还可以通过数据分析组件对目标数据库所加载的数据进行质量分析,以此为依据生成策略调整指令,并由控制组件依据策略调整指令对相应组件中的内置策略进行调整,从而解决现有技术中的数据清洗过程由于具体执行逻辑复杂,运行环境受业务要求制约大,导致其使用灵活性较低的技术问题,能够实时根据数据清洗过程各组件的运行情况进行对应的策略调整,进而提高数据清洗过程的使用灵活性。
请参见图4,图4示出了本发明实施例三的一种数据清洗系统的执行流程图,其中源数据库401和数据抽取组件402位于第一组网,数据清洗组件404、数据加载组件405、目标数据库406、数据分析组件407和控制组件408位于第二组网中,第一组网和第二组网通过网闸403进行分隔。
在本发明实施例中,通过数据抽取组件402从源数据库401中抽取到源数据,通过网闸403发送到数据清洗组件404进行数据清洗,生成待加载数据,通过数据加载组件405将待加载数据加载到目标数据库406中;数据分析组件407响应于目标数据库406的数据加载操作,对所加载的待加载数据进行数据质量分析,根据质量分析结果生成策略调整指令发送到控制组件408,控制组件408基于策略调整指令调整数据清洗组件404或数据加载组件405所使用的策略,或者将基于策略调整指令所生成的指令文件发送到网闸403的共享文件夹中,由数据抽取组件402定时扫描共享文件夹中是否存在指令文件,若存在则执行指令文件,进而达到控制不同组网下的数据抽取组件402的第一工作策略的目的。
请参见图5,图5示出了本发明实施例四的一种数据清洗方法的步骤流程图。
本发明提供的一种数据清洗方法,应用于上述任一实施例所述的数据清洗系统,所述数据清洗系统包括数据抽取组件、数据清洗组件、数据加载组件、数据分析组件和控制组件,所述方法包括:
步骤501,通过所述数据抽取组件根据内置的第一工作策略,从预设的源数据库抽取源数据并发送到所述数据清洗组件;
步骤502,通过所述数据清洗组件根据内置的第二工作策略,对所述源数据进行数据清洗,生成待加载数据;
步骤503,通过所述数据加载组件根据内置的第三工作策略,将所述待加载数据加载到目标数据库;
步骤504,通过所述数据分析组件根据对所述目标数据库内的所述待加载数据的质量分析结果,生成策略调整指令并发送到所述控制组件;
步骤505,通过所述控制组件响应接收到的所述策略调整指令,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整。
可选地,所述数据清洗系统还包括网闸,所述网闸分别与所述数据抽取组件、所述数据清洗组件和所述控制组件通信连接,所述方法还包括:
当所述控制组件与所述数据抽取组件位于不同组网时,通过所述网闸所提供的共享文件夹接收所述控制组件发送的指令文件并保存。
可选地,还包括:
通过所述数据抽取组件定时扫描所述共享文件夹;
当所述共享文件夹内存有所述指令文件时,通过所述数据抽取组件采用所述指令文件调整所述第一工作策略。
可选地,所述数据分析组件包括微服务模块和指令生成模块,所述步骤504包括以下子步骤:
通过所述微服务模块根据所述待加载数据的类型,调用对应的微服务对所述目标数据库内的所述待加载数据进行质量分析,生成质量分析结果;
当所述质量分析结果大于预设阈值时,通过所述指令生成模块生成策略调整指令并发送到所述控制组件。
可选地,所述方法还包括:
通过所述控制组件实时监控所述数据抽取组件、所述数据清洗组件和所述数据加载组件的工作状态;
通过所述控制组件响应于所述数据抽取组件、所述数据清洗组件和所述数据加载组件的工作状态的变化,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整。
可选地,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整的调整方式包括策略参数调整和策略使用状态调整。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的方法的具体工作过程,可以参考前述系统实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种数据清洗系统,其特征在于,包括依次通信连接的数据抽取组件、数据清洗组件和数据加载组件,以及分别与所述数据抽取组件、所述数据清洗组件、所述数据加载组件和数据分析组件通信连接的控制组件;
所述数据抽取组件,用于根据内置的第一工作策略,从预设的源数据库抽取源数据并发送到所述数据清洗组件;
所述数据清洗组件,用于根据内置的第二工作策略,对所述源数据进行数据清洗,生成待加载数据;
所述数据加载组件,用于根据内置的第三工作策略,将所述待加载数据加载到目标数据库;
所述数据分析组件,用于根据对所述目标数据库内的所述待加载数据的质量分析结果,生成策略调整指令并发送到所述控制组件;
所述控制组件,用于响应接收到的所述策略调整指令,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整;调整方式包括策略参数调整和策略使用状态调整。
2.根据权利要求1所述的数据清洗系统,其特征在于,还包括网闸,所述网闸分别与所述数据抽取组件、所述数据清洗组件和所述控制组件通信连接;
所述网闸,用于当所述控制组件与所述数据抽取组件位于不同组网时提供共享文件夹;
其中,所述共享文件夹用于接收所述控制组件发送的指令文件并保存。
3.根据权利要求2所述的数据清洗系统,其特征在于,所述数据抽取组件,还用于定时扫描所述共享文件夹,并当所述共享文件夹内存有所述指令文件时,采用所述指令文件调整所述第一工作策略。
4.根据权利要求1所述的数据清洗系统,其特征在于,所述数据分析组件包括微服务模块和指令生成模块;
所述微服务模块,用于根据所述待加载数据的类型,调用对应的微服务对所述待加载数据进行质量分析,生成质量分析结果;
所述指令生成模块,用于当所述质量分析结果大于预设阈值时,生成策略调整指令并发送到所述控制组件。
5.根据权利要求1所述的数据清洗系统,其特征在于,所述控制组件,还用于实时监控所述数据抽取组件、所述数据清洗组件和所述数据加载组件的工作状态;响应于所述数据抽取组件、所述数据清洗组件和所述数据加载组件的工作状态的变化,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整。
6.一种数据清洗方法,其特征在于,应用于权利要求1-5任一项所述的数据清洗系统,所述数据清洗系统包括数据抽取组件、数据清洗组件、数据加载组件、数据分析组件和控制组件,所述方法包括:
通过所述数据抽取组件根据内置的第一工作策略,从预设的源数据库抽取源数据并发送到所述数据清洗组件;
通过所述数据清洗组件根据内置的第二工作策略,对所述源数据进行数据清洗,生成待加载数据;
通过所述数据加载组件根据内置的第三工作策略,将所述待加载数据加载到目标数据库;
通过所述数据分析组件根据对所述目标数据库内的所述待加载数据的质量分析结果,生成策略调整指令并发送到所述控制组件;
通过所述控制组件响应接收到的所述策略调整指令,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整;调整方式包括策略参数调整和策略使用状态调整。
7.根据权利要求6所述的数据清洗方法,其特征在于,所述数据清洗系统还包括网闸,所述网闸分别与所述数据抽取组件、所述数据清洗组件和所述控制组件通信连接,所述方法还包括:
当所述控制组件与所述数据抽取组件位于不同组网时,通过所述网闸所提供的共享文件夹接收所述控制组件发送的指令文件并保存。
8.根据权利要求7所述的数据清洗方法,其特征在于,还包括:
通过所述数据抽取组件定时扫描所述共享文件夹;
当所述共享文件夹内存有所述指令文件时,通过所述数据抽取组件采用所述指令文件调整所述第一工作策略。
9.根据权利要求6所述的数据清洗方法,其特征在于,所述数据分析组件包括微服务模块和指令生成模块,所述通过所述数据分析组件根据对所述目标数据库内的所述待加载数据的质量分析结果,生成策略调整指令并发送到所述控制组件的步骤,包括:
通过所述微服务模块根据所述待加载数据的类型,调用对应的微服务对所述目标数据库内的所述待加载数据进行质量分析,生成质量分析结果;
当所述质量分析结果大于预设阈值时,通过所述指令生成模块生成策略调整指令并发送到所述控制组件。
CN202011565426.3A 2020-12-25 2020-12-25 一种数据清洗系统和方法 Active CN112667615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011565426.3A CN112667615B (zh) 2020-12-25 2020-12-25 一种数据清洗系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011565426.3A CN112667615B (zh) 2020-12-25 2020-12-25 一种数据清洗系统和方法

Publications (2)

Publication Number Publication Date
CN112667615A CN112667615A (zh) 2021-04-16
CN112667615B true CN112667615B (zh) 2022-02-15

Family

ID=75409380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011565426.3A Active CN112667615B (zh) 2020-12-25 2020-12-25 一种数据清洗系统和方法

Country Status (1)

Country Link
CN (1) CN112667615B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722582A (zh) * 2012-06-07 2012-10-10 陈浩 基于逆向清理的数据整合系统及方法
CN106202346A (zh) * 2016-06-29 2016-12-07 浙江理工大学 一种数据加载清洗引擎、调度与存储系统
CN106230795A (zh) * 2016-07-22 2016-12-14 北京近颐科技有限公司 一种移动互联网环境下的网络安全系统
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统
CN111435344A (zh) * 2019-01-15 2020-07-21 中国石油集团川庆钻探工程有限公司长庆钻井总公司 一种基于大数据的钻井提速影响因素分析模型

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6996589B1 (en) * 2002-01-16 2006-02-07 Convergys Cmg Utah, Inc. System and method for database conversion
US8311974B2 (en) * 2004-02-20 2012-11-13 Oracle International Corporation Modularized extraction, transformation, and loading for a database

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722582A (zh) * 2012-06-07 2012-10-10 陈浩 基于逆向清理的数据整合系统及方法
CN106202346A (zh) * 2016-06-29 2016-12-07 浙江理工大学 一种数据加载清洗引擎、调度与存储系统
CN106230795A (zh) * 2016-07-22 2016-12-14 北京近颐科技有限公司 一种移动互联网环境下的网络安全系统
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统
CN111435344A (zh) * 2019-01-15 2020-07-21 中国石油集团川庆钻探工程有限公司长庆钻井总公司 一种基于大数据的钻井提速影响因素分析模型

Also Published As

Publication number Publication date
CN112667615A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN107864174B (zh) 一种基于规则的物联网设备联动方法
CN102724079B (zh) 一种以太网设备辅助配置的方法及系统
US20030126501A1 (en) System and method for using agent-based distributed case-based reasoning to manage a computer network
CN105069142A (zh) 数据增量抽取转换与分发系统及方法
CA2386272A1 (en) Collaborative design
JP2007047845A (ja) 自律制御装置・自律制御方法、及び自律制御プログラム
CN104135378B (zh) 对物联网网关进行管理控制的方法及物联网网关管控实体
CN110175027A (zh) 一种开发业务功能的方法和装置
CN108009258A (zh) 一种可在线配置的数据采集与分析平台
CN103618762A (zh) 一种基于aop的企业服务总线状态预处理系统及方法
CN106291339A (zh) 一种基于人工神经网络的断路器故障诊断专家系统
CN111221269A (zh) 一种多回直流电网安稳模拟试验系统及方法
CN111274007B (zh) 一种基于Terraform的云平台资源弹性伸缩实现方法及系统
CN103544016A (zh) 一种基于java反射技术的服务注册配置方法及系统
CN109542074A (zh) 针对低带宽远程链接的实验装置控制系统及方法
CN112667615B (zh) 一种数据清洗系统和方法
EP0303870B1 (de) Modular strukturiertes digitales Kommunikationssystem mit betriebstechnischen und sicherheitstechnischen Komponenten
US20080281844A1 (en) Interactive Data Access Method and Interactive Data Access System
CN107092528A (zh) 一种分布式任务调度方法、装置及系统
CN109033483A (zh) 一种在yang模型中定义数据关系的方法、装置及系统
US20110307904A1 (en) Method and apparatus for automation language extension
CN100395721C (zh) 集中监控受限程序的系统与方法
CN106254438B (zh) 一种基于开放式通信的配电网cps主站
KR100302332B1 (ko) 통신운영시스템 감시 터미널의 수신 메시지 처리 방법
CN101167040A (zh) 通过不规则读操作向外围设备发信号

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant