CN111597181B - 一种基于可视化管理的分布式异源数据清洗系统 - Google Patents
一种基于可视化管理的分布式异源数据清洗系统 Download PDFInfo
- Publication number
- CN111597181B CN111597181B CN202010425943.4A CN202010425943A CN111597181B CN 111597181 B CN111597181 B CN 111597181B CN 202010425943 A CN202010425943 A CN 202010425943A CN 111597181 B CN111597181 B CN 111597181B
- Authority
- CN
- China
- Prior art keywords
- data
- cleaning
- data cleaning
- library
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据处理技术领域,公开了一种基于可视化管理的分布式异源数据清洗系统,异源数据清洗系统包括多个异源数据清洗模块、数据清洗可视化管理端和正式库,多个异源数据清洗模块并行设置,每个异源数据清洗模块可并行运行在独立的服务器或异源数据清洗进程中,数据清洗可视化管理端对所述异源数据清洗模块进行统一管理调度;异源数据清洗模块包括原始数据库、测试目标库、数据库读取预处理中间件、ETL转换模块、数据检查中间件和日志模块,本发明可实现分布式异源数据清洗,提高清洗转换处理速度。
Description
技术领域
本发明涉及数据处理技术领域,更具体地说,本发明涉及一种基于可视化管理的分布式异源数据清洗系统。
背景技术
数据清洗是政务集约化、数据仓库以及数据挖掘的核心,它是政务数据迁移的基础,而异源数据的复杂性导致数据清洗速度慢、容易出错,且由于 ETL技术中的数据来源十分广泛,这些数据源可能是存储在不同硬件或者是不同操作系统上的,因此这些数据源中难免存在一些“脏数据”,数据清洗的目的就是找出并且消除那些不符合规范的数据,这对保证数据的高质量,对数据仓库以及后续的数据挖掘、决策分析的正确性有着十分重要的影响。
数据的异源导致数据的标准化和结构化困难,一套代码很难同步处理不同来源的数据,例如Oracle和Mysql数据库结构上的差异导致日期等类型的数据需要不同逻辑处理并转换成目标数据,转换中很可能会因为ETL等程序运行 bug出现脏数据写入目标库的情况,如拼写错误、重复信息、缺失数据等,这直接导致数据质量达不到要求,另外传统清洗方法无法大规模并行处理和管理数据处理过程,数据需要串行处理,清洗转换处理速度较慢,这些在传统的处理方式中都是不可避免的。
发明内容
为了克服现有技术的上述缺陷,本发明的提供一种基于可视化管理的分布式异源数据清洗系统,实现分布式异源数据清洗,提高清洗转换处理速度。
为实现上述目的,本发明提供如下技术方案:一种基于可视化管理的分布式异源数据清洗系统,所述异源数据清洗系统包括多个异源数据清洗模块、数据清洗可视化管理端和正式库,所述多个异源数据清洗模块并行设置,每个异源数据清洗模块可并行运行在独立的服务器或异源数据清洗进程中,所述数据清洗可视化管理端对所述异源数据清洗模块进行统一管理调度;
所述异源数据清洗模块包括原始数据库、测试目标库、数据库读取预处理中间件、ETL转换模块、数据检查中间件和日志模块;
所述异源数据清洗系统清洗数据的步骤包括:
第一步,在数据清洗可视化管理端中进行清洗任务的相关初始化配置,所述初始化配置包括任务名、任务并行处理线程数、任务定时开始时间,在所述数据清洗可视化管理端填写原始数据库和正式数据库的账号密码以及库名和表名,以确保数据库读取预处理中间件可以正确的连接原始数据库,将每次数据清洗任务进行可视化配置和管理,方便任务的随时启停;
第二步,当通过数据清洗可视化管理端对清洗任务进行启动操作后,异源数据清洗模块中的数据库读取预处理中间件负责从原始数据库中读取数据并进行数据初步筛查和排错、填充等操作并将数据送入ETL转换模块;
第三步,ETL转换模块将数据进一步清洗转换和字段对齐到测试目标库,该步骤引入测试目标库而不直接使用正式库,可以有效避免数据直接污染正式库,在正式入库前还能够随时修改,进行下一步的数据检查;
第四步,由数据检查中间件进行最后的数据格式检查,最终数据检查合格后中间件将测试目标库的数据上传到正式库完成整个数据的清洗转换,并记录检查日志到日志模块备查。
进一步,所述异源数据清洗模块读取并清洗存储在各类原始数据库中的数据。
进一步,所述原始数据库为Oracle原始库或者Mysql原始库。
进一步,所述数据检查中间件负责校验测试库中的数据字段是否完整正确,进行长度、类型、格式等完整性校验,比对一致后上传到正式库中,如果校验失败则写入日志模块并通知管理端转换出错。
进一步,所述数据清洗可视化管理端可以启动某个模块的数据清洗任务、查看任务运行状态、停止任务运行,同时可查看数据清洗错误日志。
本发明的技术效果和优点:
1、采用基于过程可视化管理的分布式数据清洗管理方式,每个清洗转换模块的代码重用率高,通过统一的数据清洗可视化管理端进行可视化管理调度,系统运维成本低,且能够并行式进行数据清洗任务,单体故障不会影响整个系统转换进程,使用方便。
2、可快速低成本完成异源数据转换,且采用在线式管理后,不管任务进程还是任务日志,均可方便有效的通过云端进行管理,任务失败后可由管理员通过云端直接查看失败详情,进行相应模块的代码调整,不影响其他任务的执行,各分布式数据清洗任务之间隔离,从而保证了各模块原始数据安全。
附图说明
图1为本发明系统总体框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如附图1所示的一种基于可视化管理的分布式异源数据清洗系统,所述异源数据清洗系统包括多个异源数据清洗模块、数据清洗可视化管理端和正式库,所述多个异源数据清洗模块并行设置,每个异源数据清洗模块可并行运行在独立的服务器或异源数据清洗进程中,所述数据清洗可视化管理端对所述异源数据清洗模块进行统一管理调度;
所述异源数据清洗模块包括原始数据库、测试目标库、数据库读取预处理中间件、ETL转换模块、数据检查中间件和日志模块;
所述异源数据清洗系统清洗数据的步骤包括:
第一步,在数据清洗可视化管理端中进行清洗任务的相关初始化配置,所述初始化配置包括任务名、任务并行处理线程数、任务定时开始时间,在所述数据清洗可视化管理端填写原始数据库和正式数据库的账号密码以及库名和表名,以确保数据库读取预处理中间件可以正确的连接原始数据库,将每次数据清洗任务进行可视化配置和管理,方便任务的随时启停;
第二步,当通过数据清洗可视化管理端对清洗任务进行启动操作后,异源数据清洗模块中的数据库读取预处理中间件负责从原始数据库中读取数据并进行数据初步筛查和排错、填充等操作并将数据送入ETL转换模块,这样在ETL转换之前就提前将数据进行了初步规整,避免数据出现大规模空值等严重错误影响整个转换流程的进行;
第三步,ETL转换模块将数据进一步清洗转换和字段对齐到测试目标库,该步骤引入测试目标库而不直接使用正式库,可以有效避免数据直接污染正式库,在正式入库前还能够随时修改,进行下一步的数据检查;
第四步,由数据检查中间件进行最后的数据格式检查,最终数据检查合格后中间件将测试目标库的数据上传到正式库完成整个数据的清洗转换,并记录检查日志到日志模块备查。
整个转换过程在数据清洗可视化管理端进行配置和管理,所有转换任务的进度和启动停止都可以在可视化界面进行操作管理。
本系统由并行的多个异源数据清洗模块组成,每个模块都可并行运行在独立的服务器或异源数据清洗进程中,确保进程之间不相互影响,同时由数据清洗可视化数据清洗可视化管理端进行统一管理调度。异源数据清洗系统包括原始数据库、测试目标库、数据库读取预处理中间件、ETL转换模块、数据检查中间件、日志模块。
本发明的特色是采用基于过程可视化管理的分布式数据清洗管理方式,每个清洗转换模块的代码重用率高,通过统一的数据清洗可视化管理端进行可视化管理调度,系统运维成本低,且能够并行式进行数据清洗任务,单体故障不会影响整个系统转换进程,使用方便,广泛适用于政务系统老旧系统数据迁移场景。当老旧系统数据进入分布式任务模块后,采用本发明系统可快速低成本完成异源数据转换,且采用在线式管理后,不管任务进程还是任务日志,均可方便有效的通过云端进行管理,任务失败后可由管理员通过云端直接查看失败详情,进行相应模块的代码调整,不影响其他任务的执行,各分布式数据清洗任务之间隔离,从而保证了各模块原始数据安全。
本实施例中,所述原始数据库为Oracle原始库或者Mysql原始库。
其中,异源数据清洗模块是整个系统的处理核心,负责读取并清洗存储在各类原始数据库中的数据,确保数据转换完整有效,且各清洗模块可横向扩展,理论上支持无限多的异步处理模块,可同时处理海量的清洗任务,并有利于工程师在代码上负责各自模块的迭代演进,模块间相互隔离互不干扰。
数据清洗可视化管理端负责管理各异源数据清洗模块,例如启动某个模块的数据清洗任务、查看任务运行状态、停止任务运行等;同时可查看数据清洗错误日志,以便及时纠正清洗模块的业务逻辑,例如某个清洗模块出现日期数据转换错误等日志信息,可以方便工程师迅速查找问题修复问题,是整个系统的管理核心。
异源数据清洗模块中的数据检查中间件则负责校验测试库中的数据字段是否完整正确,中间件循环检测并读取测试库中新增的数据,进行长度、类型、格式等完整性校验,比对一致后上传到正式库中,如果校验失败则写入日志模块并通知管理端转换出错,这样做可以有效防止脏数据污染正式库。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.一种基于可视化管理的分布式异源数据清洗系统,其特征在于,所述异源数据清洗系统包括多个异源数据清洗模块、数据清洗可视化管理端和正式库,所述多个异源数据清洗模块并行设置,每个异源数据清洗模块可并行运行在独立的服务器或异源数据清洗进程中,所述数据清洗可视化管理端对所述异源数据清洗模块进行统一管理调度;
所述异源数据清洗模块包括原始数据库、测试目标库、数据库读取预处理中间件、ETL转换模块、数据检查中间件和日志模块;
所述异源数据清洗系统清洗数据的步骤包括:
第一步,在数据清洗可视化管理端中进行清洗任务的相关初始化配置,所述初始化配置包括任务名、任务并行处理线程数、任务定时开始时间,在所述数据清洗可视化管理端填写原始数据库和正式数据库的账号密码以及原始数据库和正式数据库的库名和表名,以确保数据库读取预处理中间件可以正确的连接原始数据库,将每次数据清洗任务进行可视化配置和管理,方便任务的随时启停;
第二步,当通过数据清洗可视化管理端对清洗任务进行启动操作后,异源数据清洗模块中的数据库读取预处理中间件负责从原始数据库中读取数据并进行数据初步筛查和排错、填充操作并将数据送入ETL转换模块;
第三步,ETL转换模块将数据进一步清洗转换和字段对齐到测试目标库,该步骤引入测试目标库而不直接使用正式库,可以有效避免数据直接污染正式库,在正式入库前还能够随时修改,进行下一步的数据检查;
第四步,由数据检查中间件进行最后的数据格式检查,最终数据检查合格后中间件将测试目标库的数据上传到正式库完成整个数据的清洗转换,并记录检查日志到日志模块备查。
2.根据权利要求1所述的一种基于可视化管理的分布式异源数据清洗系统,其特征在于,所述异源数据清洗模块读取并清洗存储在各类原始数据库中的数据。
3.根据权利要求1所述的一种基于可视化管理的分布式异源数据清洗系统,其特征在于,所述原始数据库为Oracle原始库或者Mysql原始库。
4.根据权利要求1所述的一种基于可视化管理的分布式异源数据清洗系统,其特征在于,所述数据检查中间件负责校验测试库中的数据字段是否完整正确,进行长度、类型、格式完整性校验,比对一致后上传到正式库中,如果校验失败则写入日志模块并通知管理端转换出错。
5.根据权利要求1所述的一种基于可视化管理的分布式异源数据清洗系统,其特征在于,所述数据清洗可视化管理端可以启动某个模块的数据清洗任务、查看任务运行状态、停止任务运行,同时可查看数据清洗错误日志。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010425943.4A CN111597181B (zh) | 2020-05-19 | 2020-05-19 | 一种基于可视化管理的分布式异源数据清洗系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010425943.4A CN111597181B (zh) | 2020-05-19 | 2020-05-19 | 一种基于可视化管理的分布式异源数据清洗系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597181A CN111597181A (zh) | 2020-08-28 |
CN111597181B true CN111597181B (zh) | 2022-05-24 |
Family
ID=72185922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010425943.4A Active CN111597181B (zh) | 2020-05-19 | 2020-05-19 | 一种基于可视化管理的分布式异源数据清洗系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597181B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113760877A (zh) * | 2021-03-10 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种基于标准sql的流式数据清洗转换方法和系统 |
CN113220674A (zh) * | 2021-05-13 | 2021-08-06 | 国网宁夏电力有限公司电力科学研究院 | 一种基于能源大数据的数据清洗转换系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766425A (zh) * | 2017-09-13 | 2018-03-06 | 广西电网有限责任公司电力科学研究院 | 一种基于大数据的电力客户信息清洗装置 |
CN109359103A (zh) * | 2018-09-04 | 2019-02-19 | 河南智云数据信息技术股份有限公司 | 一种数据聚合清洗方法及系统 |
CN109783552A (zh) * | 2018-11-28 | 2019-05-21 | 中国电力科学研究院有限公司 | 一种数据清洗修复方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9600504B2 (en) * | 2014-09-08 | 2017-03-21 | International Business Machines Corporation | Data quality analysis and cleansing of source data with respect to a target system |
-
2020
- 2020-05-19 CN CN202010425943.4A patent/CN111597181B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766425A (zh) * | 2017-09-13 | 2018-03-06 | 广西电网有限责任公司电力科学研究院 | 一种基于大数据的电力客户信息清洗装置 |
CN109359103A (zh) * | 2018-09-04 | 2019-02-19 | 河南智云数据信息技术股份有限公司 | 一种数据聚合清洗方法及系统 |
CN109783552A (zh) * | 2018-11-28 | 2019-05-21 | 中国电力科学研究院有限公司 | 一种数据清洗修复方法 |
Non-Patent Citations (1)
Title |
---|
异地多源数据一致性智能查询;孟庆昕;《研究与开发》;20190831;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111597181A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597181B (zh) | 一种基于可视化管理的分布式异源数据清洗系统 | |
CN110008129B (zh) | 一种存储定时快照的可靠性测试方法、装置及设备 | |
CN111813653B (zh) | 一种字段内容相关的数据异常测试方法及自动化测试工具 | |
CN114968272A (zh) | 一种算法运行方法、装置、设备、存储介质 | |
CN112380042B (zh) | 数据库软件的故障定位与分析方法、装置及存储介质 | |
CN115686575A (zh) | 边缘控制器固件更新方法、系统、存储介质及服务器 | |
CN115145870A (zh) | 失败任务原因定位方法、装置、电子设备及存储介质 | |
CN115096604A (zh) | 一种车辆故障状态检测方法及装置 | |
CN113986900A (zh) | 数据质量问题分级处理方法、存储介质及系统 | |
CN111461770B (zh) | 一种基于模型的用户画像系统 | |
CN113010210A (zh) | 一种自动化运维作业管理方法和系统 | |
CN114490163B (zh) | 一种故障自愈方法、装置及电子设备 | |
CN110704230B (zh) | 分布式多模块系统的诊断方法、系统、电子设备和介质 | |
CN112100066B (zh) | 一种数据指标准确性的校验方法及自动化测试工具 | |
CN111651364B (zh) | 并行开发下的sql检查方法及装置 | |
CN116775405A (zh) | 一种数据库自动化巡检系统及巡检方法 | |
CN116974839A (zh) | 一种系统化程序管理技术的远程程序烧录测试工装 | |
CN117176552A (zh) | 网络拓扑故障自愈方法、装置、设备和介质 | |
CN117290177A (zh) | 一种面向流程管理的零代码系统实现方法及系统 | |
CN116755914A (zh) | 异常日志排查方法、装置、计算机设备及可读存储介质 | |
CN118152401A (zh) | 数据存储方法、装置、设备、存储介质及程序产品 | |
CN118152372A (zh) | 客户关系管理系统的数据库维护方法、设备及存储介质 | |
CN117575128A (zh) | 一种SoC阵列服务器产品生命周期管理系统 | |
CN117319178A (zh) | 一种信息化及网络化设备的维护方法及相关装置 | |
CN118051278A (zh) | 一种运维配置管理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |