CN105069159A - 一种可扩展的数据一致性检查工具 - Google Patents
一种可扩展的数据一致性检查工具 Download PDFInfo
- Publication number
- CN105069159A CN105069159A CN201510529529.7A CN201510529529A CN105069159A CN 105069159 A CN105069159 A CN 105069159A CN 201510529529 A CN201510529529 A CN 201510529529A CN 105069159 A CN105069159 A CN 105069159A
- Authority
- CN
- China
- Prior art keywords
- check
- data
- module
- database
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000007689 inspection Methods 0.000 claims abstract description 9
- 230000000052 comparative effect Effects 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 abstract description 4
- 238000009795 derivation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种可扩展的数据一致性检查工具,具体实现过程为:数据库连接配置模块,将所有数据库实例集中到统一网络中;检查内容设置模块,用于构建检查规则;一致性检查模块,根据数据库配置信息连接两个数据库,对设置的检查内容进行检查,同时展示检查结果;映射关系设置模块,用于在一致性检查进行映射时,通过表名查找映射ID;检查结果归集处理模块,根据业务库中当前基础表中数据的使用与否,对检查不一致的数据进行归集处理。该一种可扩展的数据一致性检查工具与现有技术相比,可使得基础数据的清洗合并工作简单化,数据处理复杂度降低,解决现有企业中出现多个信息孤岛的问题,实用性强,适用范围广泛,易于推广。
Description
技术领域
本发明涉及数据比较技术领域,具体地说是一种实用性强、可扩展的数据一致性检查工具。
背景技术
作为分布式数据集中的一个环节,各个系统库中的基础数据的清洗、合并尤为重要。同一家集团企业,同一套ERP系统,往往由于各种网络条件限制,各个生产库并不在同一个网络环境中。分布式实施,各个子公司节点的系统基础表的表结构也不尽相同。跨网络、跨生产库、表结构不完全相同,这些因素导致基础数据的清洗、合并工作相对困难。
每个系统中都有非交易型的关键信息,通常被称之为公有基础数据或者主数据。在各企业实施ETL过程中,各个系统的主数据如何判别是否一致,以及不一致的情形下如何处理非常关键。在这其中,由于网络不通、同一个表表结构不通等客观因素,增加了处理的复杂度。
本发明正是针对以上问题,设计了一套可扩展的数据一致性检查工具。本工具可以实现:同一网络间数据源的管理;通过设定一致性检查规则进行基础数据一致性检查;对基础数据一致性检查的结果进行归集处理。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、可扩展的数据一致性检查工具。
一种可扩展的数据一致性检查工具,其具体结构包括:
数据库连接配置模块,将所有数据库实例集中到统一网络中;
检查内容设置模块,用于构建检查规则;
一致性检查模块,根据数据库配置信息连接两个数据库,对设置的检查内容进行检查,同时展示检查结果;
映射关系设置模块,用于在一致性检查进行映射时,通过表名查找映射ID;
检查结果归集处理模块,根据业务库中当前基础表中数据的使用与否,对检查不一致的数据进行归集处理。
所述数据库连接配置模块中,对于不在同一网络的数据库实例,通过数据库备份恢复,构建镜像库的方式,集中到同一个网络中;然后该模块在连接中间库的应用系统中配置待比较数据库实例的数据库连接信息。
所述检查内容设置模块中,检查规则的构建包括根据表字段,依赖其字段,检查字段,其中检查字段、依赖字段都是该表字段的子集;当依赖字段的数据相同时,检查字段的内容也相同则认为相同;其它的均认为不一致。
所述一致性检查模块中,支持两个数据源相同数据库类型的同一表结构数据的比较,然后分别列示检查内容设置模块中设置检查规则的比较结果,检查结果分为两类:一致、不一致。
所述映射关系设置模块中,通过设置每个数据库连接,每个表的映射关系,使得在一致性检查进行映射时,通过表名查找映射ID。
所述检查结果归集模块中,对于两个库中检查结果中不相同的项,对当前系统中业务表无影响的,手动调整一致,即通过导出功能,导出excel,对照着源库进行调整;对于检查结果中不一致的基础数据,系统中已经有业务数据引用的,通过工具建立映射。
本发明的一种可扩展的数据一致性检查工具,具有以下优点:
该发明的一种可扩展的数据一致性检查工具,可使得基础数据的清洗合并工作简单化,在网络不通、同一个表表结构不通的前提下,数据处理复杂度降低,解决现有企业中出现多个信息孤岛的问题,实用性强,适用范围广泛,易于推广。
附图说明
附图1为本发明的实现示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本发明的提供一种可扩展的数据一致性检查工具,如附图1所示,其具体结构包括:
数据库连接配置模块,将所有数据库实例集中到统一网络中;
检查内容设置模块,用于构建检查规则;
一致性检查模块,根据数据库配置信息连接两个数据库,对设置的检查内容进行检查,同时展示检查结果;
映射关系设置模块,用于在一致性检查进行映射时,通过表名查找映射ID;
检查结果归集处理模块,根据业务库中当前基础表中数据的使用与否,对检查不一致的数据进行归集处理。
所述数据库连接配置模块中,对于不在同一网络的数据库实例,通过数据库备份恢复,构建镜像库的方式,集中到同一个网络中;然后该模块在连接中间库的应用系统中配置待比较数据库实例的数据库连接信息。待比较库的数据库类型一致,同为oracle或者sqlserver,不强制要求数据库版本一致。
所述检查内容设置模块中,检查规则的构建包括根据表字段,依赖其字段,检查字段,其中检查字段、依赖字段都是该表字段的子集;不同数据源中相同表名的两个表(表结构不要求完全相同),进行比较时是依据依赖字段。依赖字段的数据相同,检查字段的内容也相同则认为相同。其它的均认为不一致。例如一个表中字段有10个字段{a、b、c、d、e、f、g、h、i、j}。依赖字段是{a、b、c}检查字段是{e、f、g}。依赖字段和检查字段这两个字段互斥,一个字段是依赖字段就不能是检查字段,反之亦然。两个数据源中该表内容进行比较时,依据的是依赖字段,来比较检查字段。数据源A中表table1的记录在数据源B中表table1中存在,同时检查字段e、f、g这三个字段的内容完全相同,则认为相同。
所述一致性检查模块中,支持两个数据源相同数据库类型的同一表结构数据的比较,然后分别列示检查内容设置模块中设置检查规则的比较结果,检查结果分为两类:一致、不一致。比如,不同数据源的两个待比较库A库和B库。所有检查字段均相等则检查结果为通过。以下三种情况:①依据字段相等,其余比较字段不完全相等;②根据依据字段进行比较,B库有A库没有;③根据依据字段进行比较,B库没有A库有的检查结果为不通过。
所述映射关系设置模块中,通过设置每个数据库连接,每个表的映射关系,使得在一致性检查进行映射时,通过表名查找映射ID。
所述检查结果归集模块中,对于两个库中检查结果中不相同的项,对当前系统中业务表无影响的,手动调整一致,即通过导出功能,导出excel,对照着源库进行调整;对于检查结果中不一致的基础数据,系统中已经有业务数据引用的,通过工具建立映射。
具体示例:
场景1:XX集团旗下有多个产业单位,统一部署了xxERP产品进行企业信息化管理。该集团有多个网络,网络彼此隔离不连通。由于地域时间等关系,各个子单位使用的该系统的环境不完全一致。有的子公司应用软件补丁打的较新,有的很多年没有动过。现在集团层面想要看到各个子公司的业务信息,工作流程上想要打通各个信息孤岛,在内网综合各个子公司数据形成一套业务数据库。准备上马XXERP产品的ETL工具。在同一基础数据环节,碰到了诸如网络不通、表结构不尽相同、核心数据的区分等问题。最终形成解决方案如图1所示流程。
步骤一、数据库连接配置。通过数据库导库备份、恢复镜像库的方式把各个子公司的数据库整合到一个网络中。
步骤二、检查内容设置,配置要检查的表名,依赖字段名称、检查字段名称等内容;
步骤三、映射关系设置,配置某个数据源连接下,某张表的映射关系,用以映射关系查找;
步骤四、一致性检查,选择数据源,依据设置的检查内容,检查项,进行一致性检查;
步骤五、检查结果归集处理;对所有的检查项数据进行映射。检查项信息一致的直接自动映射,检查项信息不一致的,根据步骤二中配置的映射字段,手动配置映射关系。后续ETL过程中,根据映射关系进行数据转换。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种可扩展的数据一致性检查工具的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
Claims (6)
1.一种可扩展的数据一致性检查工具,其特征在于,其具体结构包括:
数据库连接配置模块,将所有数据库实例集中到统一网络中;
检查内容设置模块,用于构建检查规则;
一致性检查模块,根据数据库配置信息连接两个数据库,对设置的检查内容进行检查,同时展示检查结果;
映射关系设置模块,用于在一致性检查进行映射时,通过表名查找映射ID;
检查结果归集处理模块,根据业务库中当前基础表中数据的使用与否,对检查不一致的数据进行归集处理。
2.根据权利要求1所述的一种可扩展的数据一致性检查工具,其特征在于,所述数据库连接配置模块中,对于不在同一网络的数据库实例,通过数据库备份恢复,构建镜像库的方式,集中到同一个网络中;然后该模块在连接中间库的应用系统中配置待比较数据库实例的数据库连接信息。
3.根据权利要求1所述的一种可扩展的数据一致性检查工具,其特征在于,所述检查内容设置模块中,检查规则的构建包括根据表字段,依赖其字段,检查字段,其中检查字段、依赖字段都是该表字段的子集;当依赖字段的数据相同时,检查字段的内容也相同则认为相同;其它的均认为不一致。
4.根据权利要求1所述的一种可扩展的数据一致性检查工具,其特征在于,所述一致性检查模块中,支持两个数据源相同数据库类型的同一表结构数据的比较,然后分别列示检查内容设置模块中设置检查规则的比较结果,检查结果分为两类:一致、不一致。
5.根据权利要求1所述的一种可扩展的数据一致性检查工具,其特征在于,所述映射关系设置模块中,通过设置每个数据库连接,每个表的映射关系,使得在一致性检查进行映射时,通过表名查找映射ID。
6.根据权利要求1所述的一种可扩展的数据一致性检查工具,其特征在于,所述检查结果归集模块中,对于两个库中检查结果中不相同的项,对当前系统中业务表无影响的,手动调整一致,即通过导出功能,导出excel,对照着源库进行调整;对于检查结果中不一致的基础数据,系统中已经有业务数据引用的,通过工具建立映射。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510529529.7A CN105069159A (zh) | 2015-08-26 | 2015-08-26 | 一种可扩展的数据一致性检查工具 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510529529.7A CN105069159A (zh) | 2015-08-26 | 2015-08-26 | 一种可扩展的数据一致性检查工具 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105069159A true CN105069159A (zh) | 2015-11-18 |
Family
ID=54498528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510529529.7A Pending CN105069159A (zh) | 2015-08-26 | 2015-08-26 | 一种可扩展的数据一致性检查工具 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105069159A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339500A (zh) * | 2016-09-09 | 2017-01-18 | 浪潮软件股份有限公司 | 一种异地数据库对比工具及方法 |
CN108280097A (zh) * | 2017-01-06 | 2018-07-13 | 阿里巴巴集团控股有限公司 | 一种数据库系统的故障处理方法和装置 |
CN108363751A (zh) * | 2018-01-29 | 2018-08-03 | 武汉迎风聚智科技有限公司 | 一种住房公积金业务系统的检测方法及系统 |
CN108733662A (zh) * | 2017-04-13 | 2018-11-02 | 北京京东尚科信息技术有限公司 | 数据一致性比对的方法、装置、电子设备和可读存储介质 |
CN113220290A (zh) * | 2021-04-23 | 2021-08-06 | 杭州数跑科技有限公司 | 应用的业务功能实现方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6175834B1 (en) * | 1998-06-24 | 2001-01-16 | Microsoft Corporation | Consistency checker for documents containing japanese text |
CN1926543A (zh) * | 2004-03-17 | 2007-03-07 | Abb研究有限公司 | 用于验证复制数据一致性的服务 |
CN103853843A (zh) * | 2014-03-20 | 2014-06-11 | 浪潮集团山东通用软件有限公司 | 一种基于主数据映射实现跨安全域数据集中的方法 |
-
2015
- 2015-08-26 CN CN201510529529.7A patent/CN105069159A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6175834B1 (en) * | 1998-06-24 | 2001-01-16 | Microsoft Corporation | Consistency checker for documents containing japanese text |
CN1926543A (zh) * | 2004-03-17 | 2007-03-07 | Abb研究有限公司 | 用于验证复制数据一致性的服务 |
CN103853843A (zh) * | 2014-03-20 | 2014-06-11 | 浪潮集团山东通用软件有限公司 | 一种基于主数据映射实现跨安全域数据集中的方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339500A (zh) * | 2016-09-09 | 2017-01-18 | 浪潮软件股份有限公司 | 一种异地数据库对比工具及方法 |
CN108280097A (zh) * | 2017-01-06 | 2018-07-13 | 阿里巴巴集团控股有限公司 | 一种数据库系统的故障处理方法和装置 |
CN108733662A (zh) * | 2017-04-13 | 2018-11-02 | 北京京东尚科信息技术有限公司 | 数据一致性比对的方法、装置、电子设备和可读存储介质 |
CN108363751A (zh) * | 2018-01-29 | 2018-08-03 | 武汉迎风聚智科技有限公司 | 一种住房公积金业务系统的检测方法及系统 |
CN113220290A (zh) * | 2021-04-23 | 2021-08-06 | 杭州数跑科技有限公司 | 应用的业务功能实现方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105069159A (zh) | 一种可扩展的数据一致性检查工具 | |
CN104991975B (zh) | 电力业务系统的数据查询方法及其系统 | |
CN106960037A (zh) | 一种跨内外网的分布式索引资源整合与共享方法 | |
CN110990391A (zh) | 多源异构数据的整合方法、系统、计算机设备及存储介质 | |
CN107528872A (zh) | 一种数据恢复方法、装置及云存储系统 | |
CN103927698B (zh) | 一种智能变电站虚端子关联设备自动识别方法 | |
CN106202447A (zh) | 一种具备生产与管理一体化的数字地图制图系统 | |
CN109815254B (zh) | 基于大数据的跨地域任务调度方法及系统 | |
CN110968629A (zh) | 一种基于跨层级、异构数据汇聚的统一信息资源管理方法及系统 | |
CN104484738A (zh) | 电网数据集中管理方法和系统 | |
CN107944036B (zh) | 一种图谱变化差异的获取方法 | |
CN103218402A (zh) | 通用的数据库数据结构与数据迁移系统及其方法 | |
CN113239107B (zh) | 基于etl的道路矢量数据要素匹配与联动方法 | |
CN102857949B (zh) | 一种规划数据一致性保证的方法和装置 | |
CN104268298A (zh) | 一种创建数据库索引及其查询的方法 | |
CN112181715A (zh) | 基于配网自动化系统模型的可视化备份与比对方法 | |
CN101706818A (zh) | 报表的动态过滤方法及装置 | |
CN102880500B (zh) | 一种任务树的优化方法和装置 | |
CN103793470A (zh) | 一种数据处理方法和装置 | |
CN111143467A (zh) | 一种实现分布式异构数据共享的云平台的数据共享方法 | |
CN107220280B (zh) | 基于区划映射的灾情信息采集上报方法及系统 | |
CN102402515A (zh) | 通用自定义查询系统及方法 | |
CN105488656A (zh) | 一种电网分县局继电保护管理系统功能模块动态配置技术 | |
CN106960034A (zh) | 一种卷烟技术标准数据处理方法及装置 | |
CN115391432A (zh) | 司法大数据处理方法、系统、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20151118 |
|
WD01 | Invention patent application deemed withdrawn after publication |