CN112650744B - 一种防止数据二次污染的数据治理方法 - Google Patents

一种防止数据二次污染的数据治理方法 Download PDF

Info

Publication number
CN112650744B
CN112650744B CN202011619060.3A CN202011619060A CN112650744B CN 112650744 B CN112650744 B CN 112650744B CN 202011619060 A CN202011619060 A CN 202011619060A CN 112650744 B CN112650744 B CN 112650744B
Authority
CN
China
Prior art keywords
data
stage
production system
mirror image
image library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011619060.3A
Other languages
English (en)
Other versions
CN112650744A (zh
Inventor
黄远新
余宗伟
黄开辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shengneng Software Technology Co ltd
Original Assignee
Guangzhou Shengneng Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shengneng Software Technology Co ltd filed Critical Guangzhou Shengneng Software Technology Co ltd
Priority to CN202011619060.3A priority Critical patent/CN112650744B/zh
Publication of CN112650744A publication Critical patent/CN112650744A/zh
Application granted granted Critical
Publication of CN112650744B publication Critical patent/CN112650744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种防止数据二次污染的数据治理方法,包括以下阶段:第一阶段,建立镜像库,针对每个生产系统建立镜像库;第二阶段,识别数据变化,生产系统采集的数据和镜像库的数据对比;第三阶段,数据融合处理,将第二阶段新增的部份和变化的部份,和数据仓库中的主题数据进行对比;第四阶段,发布数据仓库数据变动事件,将数据仓库的主题数据的变动部份,以数据事件方式发布到事件总线,采取数据一致性处理或丢弃处理。仅针对数据清理过程中,思路同样放在仅处理生产系统数据变化部份,对脏数据二次污染的过程进行治理,具有简单、易行、通用的特点,有效提升数据治理效率,降低数据融合成本。

Description

一种防止数据二次污染的数据治理方法
技术领域
本发明涉及信息技术技术领域,尤其涉及一种防止数据二次污染的数据治理方法。
背景技术
数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。
数据仓库主要用途包括:整合公司所有业务数据,建立统一的数据中心;产生业务报表,用于作出决策;为网站运营提供运营上的数据支持;可以作为各个业务的数据源,形成业务数据互相反馈的良性循环;分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果;开发数据产品,直接或间接地为公司盈利等。
数据仓库建设中,很重要的一个工作单元就是ETL,ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
数据转换(Transform)包含数据清洗,数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。现实中,在清洗环节,经常会面临脏数据的二次污染,典型的场景如下:
某个生产系统的数据,首次列入数据仓库采集的数据源,按数据仓库建设的用户主题标准规范,一次性将存量用户资料,通过ETL过程提交到数据仓库时;用户资料包括:账号、性别、身份信息、联系方式(手机号、邮箱、QQ号)、住址等,在ETL数据清洗环节中,这些用户资料和数据仓库已由资料进行对比,发现相当部份用户资料存在错误或者失效的情况,有效部份数据经过程序或者人工识别后,进入数据仓库,因为各种业务上/技术上的原因,生产系统无法针对这错误或者失效数据进行修订处理,为便于理解,称这部份数据为脏数据。
接入数据仓库后,当用户资料发生变更时,生产系统需要将变更的用户资料再次通过ETL提交到数据仓库。ETL按用户主题变更的业务逻辑,和数据仓库现有数据进行融合。
这个时候,ETL的用户主题逻辑就需要包含两个阶段:1、第一阶段,识别已标记的脏数据,如果脏数据发生变更,可认为这部份数据为有效部份,进入第2阶段处理。如果脏数据未发生变化,则需要将脏数据做为无效部份丢弃,不适合进入第2阶段处理。2、第二阶段,针对有效部份数据的进行处理,将有效部份和数据仓库现有的数据进行比对,并按业务规则采取吸纳变化或者丢弃变化。
相对而言第一阶段更难处理,处理难点在于,如何跟踪和标记用户资料的脏数据部份,每个用户资料可能因为形成时间和从事的业务不同,脏数据部份不相同。而这些脏数据在上次的清洗过程中,已经被程序或者人工定义为不采纳。如果还需要人工参与再次识别,将带来巨大的重复成本。
数据资产化已成为企业数据资产管理的最重要的环节,怎样识别数据资产、利用现有的数据资产创造价值,将是企业不得不面临的一个课题。而数据治理是确保数据质量,从而形成数据资产的有效方式。
发明内容
本发明的目的就在于为了解决上述问题而提供了一种防止数据二次污染的数据治理方法,执行变化识别处理过程放在ETL过程中,从而降低对生产系统的影响,更具有可执行性。
本发明解决其技术问题所采用的技术方案是:
一种防止数据二次污染的数据治理方法,包括以下阶段:
第一阶段,建立镜像库,
针对每个生产系统建立镜像库,生产系统每次提交的数据,都会保存在镜像库中;
第二阶段,识别数据变化,
生产系统采集的数据和镜像库的数据对比,识别该次采集的数据在镜像库为新增项目内容还是已有项目内容,若为已有项目内容,则和镜像库的记录进行比对,比对是否存在变化的部份,发现变化的部份,将新增的部份和变化的部份,交付给第三阶段进行处理,并将该次采集的数据覆写镜像库的数据;
第三阶段,数据融合处理,
将第二阶段新增的部份和变化的部份,和数据仓库中的主题数据进行对比,识别从第二阶段接收的数据在数据仓库为新增项目内容还是已有项目内容,若为已有项目内容,则和数据仓库的主题数据进行比对,比对是否存在变化的部份,发现变化的部份,根据业务数据融合规则,判断是否需要变动内容,若需要变化内容,则将从第二阶段接收的数据纳入数据仓库的主题数据;
第四阶段,发布数据仓库数据变动事件,
将数据仓库的主题数据的变动部份,以数据事件方式发布到事件总线,各生产系统可以监听事件总线,监听数据仓库的主题数据变化事件,并采取数据一致性处理或丢弃处理。
本发明的有益效果是:
通过采用上述技术方案,本发明仅针对数据清理过程中,思路同样放在仅处理生产系统数据变化部份,但执行变化识别处理过程是放在ETL过程中,从而降低对生产系统的影响,更具有可执行性,对脏数据二次污染的过程进行治理,具有简单、易行、通用的特点,有效提升数据治理效率,降低数据融合成本。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明防止数据二次污染的数据治理方法的系统结构图;
图2是本发明防止数据二次污染的数据治理方法的处理逻辑图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域技术人员可以更好的理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
面对这种场景,常见的处理模式主要包括:
不专门针对脏数据进行跟踪处理。
理由是,某种情况下,生产系统提交的数据,未被数据仓库采纳的,都可以认为是脏数据。数据仓库和生产系统在业务口径上的差异,会导致被数据仓库认定为无效或者过期的数据,但未毕是生产系统所认定为无效或者过期数据。根据数据语义的定义,由业务逻辑来裁决主题数据的某个部份,哪个生产系统更具有数据主导权更简单实用。
生产系统提交主题数据的变化部份。
建立由生产系统提交变化部份,而不是提交变化后的结果。只提交变化部份,自然就规避了脏数据的标记和跟踪问题。但这种处理模式,对生产系统而言改动比较大,如果生产系统是外部组织的系统,那么这种规范落地的可能性极低。
本发明提出的防止二次污染的处理方法,思路同样放在仅处理生产系统数据变化部份,但执行变化识别处理过程是放在ETL过程中,从而降低对生产系统的影响,更具有可执行性:
一种防止数据二次污染的数据治理方法,图1和图2分别展示了该方法的系统结构图和处理逻辑图,其中,包括以下阶段:
第一阶段,建立镜像库,
针对每个生产系统建立镜像库,生产系统每次提交的数据,都会保存在镜像库中;
第二阶段,识别数据变化,
生产系统采集的数据和镜像库的数据对比,识别该次采集的数据在本地镜像库为新增项目内容还是已有项目内容,若为已有项目内容,则和镜像库的记录进行比对,比对是否存在变化的部份,发现变化的部份,将新增的部份和变化的部份,交付给第三阶段进行处理,并将该次采集的数据覆写镜像库的数据;
第三阶段,数据融合处理,
将第二阶段新增的部份和变化的部份,和数据仓库中的主题数据进行对比,识别从第二阶段接收的数据在数据仓库为新增项目内容还是已有项目内容,若为已有项目内容,则和数据仓库的主题数据进行比对,比对是否存在变化的部份,发现变化的部份,根据业务数据融合规则,判断是否需要变动内容,若需要变化内容,则将从第二阶段接收的数据纳入数据仓库的主题数据;
第四阶段,发布数据仓库数据变动事件,
将数据仓库的主题数据的变动部份,以数据事件方式发布到事件总线,各生产系统可以监听事件总线,监听数据仓库的主题数据变化事件,并采取数据一致性处理或丢弃处理。
针对数据清理过程中,对脏数据二次污染的过程进行治理,具有简单、易行、通用的特点。有效提升数据治理效率,降低数据融合成本。
本发明的上述实施例并不是对本发明保护范围的限定,本发明的实施方式不限于此,凡此种种根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,对本发明上述结构做出的其它多种形式的修改、替换或变更,均应落在本发明的保护范围之内。

Claims (1)

1.一种防止数据二次污染的数据治理方法,其特征在于,包括以下阶段:
第一阶段,建立镜像库,
针对每个生产系统建立镜像库,生产系统每次提交的数据,都会保存在镜像库中;
第二阶段,识别数据变化,
生产系统采集的数据和镜像库的数据对比,识别该次采集的数据在镜像库为新增项目内容还是已有项目内容,若为已有项目内容,则和镜像库的记录进行比对,比对是否存在变化的部份,发现变化的部份,将新增的部份和变化的部份,交付给第三阶段进行处理,并将该次采集的数据覆写镜像库的数据;
第三阶段,数据融合处理,
将第二阶段新增的部份和变化的部份,和数据仓库中的主题数据进行对比,识别从第二阶段接收的数据在数据仓库为新增项目内容还是已有项目内容,若为已有项目内容,则和数据仓库的主题数据进行比对,比对是否存在变化的部份,发现变化的部份,根据业务数据融合规则,判断是否需要变动内容,若需要变化内容,则将从第二阶段接收的数据纳入数据仓库的主题数据;
第四阶段,发布数据仓库数据变动事件,
将数据仓库的主题数据的变动部份,以数据事件方式发布到事件总线,各生产系统可以监听事件总线,监听数据仓库的主题数据变化事件,并采取数据一致性处理或丢弃处理。
CN202011619060.3A 2020-12-31 2020-12-31 一种防止数据二次污染的数据治理方法 Active CN112650744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011619060.3A CN112650744B (zh) 2020-12-31 2020-12-31 一种防止数据二次污染的数据治理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011619060.3A CN112650744B (zh) 2020-12-31 2020-12-31 一种防止数据二次污染的数据治理方法

Publications (2)

Publication Number Publication Date
CN112650744A CN112650744A (zh) 2021-04-13
CN112650744B true CN112650744B (zh) 2024-04-30

Family

ID=75366647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011619060.3A Active CN112650744B (zh) 2020-12-31 2020-12-31 一种防止数据二次污染的数据治理方法

Country Status (1)

Country Link
CN (1) CN112650744B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167405A (en) * 1998-04-27 2000-12-26 Bull Hn Information Systems Inc. Method and apparatus for automatically populating a data warehouse system
CN103460208A (zh) * 2011-04-08 2013-12-18 波音公司 用于将数据加载到时态数据仓库的方法和系统
CN103577605A (zh) * 2013-11-20 2014-02-12 贵州电网公司电力调度控制中心 基于数据融合和数据挖掘的数据仓库及其应用方法
CN106021349A (zh) * 2016-05-09 2016-10-12 中国银行股份有限公司 一种外汇数据报送的方法及装置
CN106408181A (zh) * 2016-09-09 2017-02-15 广州速鸿信息科技有限公司 一种基于大数据分析的智慧门店系统和方法
CN107590158A (zh) * 2016-07-08 2018-01-16 北京京东尚科信息技术有限公司 一种获取数据源变更信息的方法和装置
CN109213752A (zh) * 2018-08-06 2019-01-15 国网福建省电力有限公司信息通信分公司 一种基于cim的数据清洗转换方法
CN109308290A (zh) * 2018-08-06 2019-02-05 国网安徽省电力有限公司信息通信分公司 一种基于cim的高效数据清洗转换方法
CN110232098A (zh) * 2019-04-22 2019-09-13 汇通达网络股份有限公司 一种基于数据治理及血缘关系设计的数据仓库系统
CN110609860A (zh) * 2018-05-29 2019-12-24 中国移动通信集团重庆有限公司 数据etl处理方法、装置、设备及存储介质
CN110990390A (zh) * 2019-12-02 2020-04-10 东莞中国科学院云计算产业技术创新与育成中心 数据协同处理方法、装置、计算机设备和存储介质
CN111125061A (zh) * 2019-12-18 2020-05-08 甘肃省卫生健康统计信息中心(西北人口信息中心) 一种规范和促进健康医疗大数据的方法
CN111143463A (zh) * 2020-01-06 2020-05-12 中国工商银行股份有限公司 一种基于主题模型的银行数据仓库的构建方法及装置
CN111241185A (zh) * 2020-04-26 2020-06-05 浙江网商银行股份有限公司 数据处理方法以及装置
CN111435344A (zh) * 2019-01-15 2020-07-21 中国石油集团川庆钻探工程有限公司长庆钻井总公司 一种基于大数据的钻井提速影响因素分析模型
CN112148807A (zh) * 2020-09-28 2020-12-29 中国电波传播研究所(中国电子科技集团公司第二十二研究所) 一种电磁环境领域数据仓库构建方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020099563A1 (en) * 2001-01-19 2002-07-25 Michael Adendorff Data warehouse system
US20130268567A1 (en) * 2012-04-05 2013-10-10 Cover-All Technologies, Inc. System And Method For Updating Slowly Changing Dimensions
US20160132828A1 (en) * 2014-11-12 2016-05-12 International Business Machines Corporation Real-time continuous realignment of a large-scale distributed project
US11016958B2 (en) * 2017-09-29 2021-05-25 Oracle International Corporation Recreating an OLTP table and reapplying database transactions for real-time analytics
US11106658B2 (en) * 2018-11-28 2021-08-31 Snowflake Inc. Task scheduling in database systems

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167405A (en) * 1998-04-27 2000-12-26 Bull Hn Information Systems Inc. Method and apparatus for automatically populating a data warehouse system
CN103460208A (zh) * 2011-04-08 2013-12-18 波音公司 用于将数据加载到时态数据仓库的方法和系统
CN103577605A (zh) * 2013-11-20 2014-02-12 贵州电网公司电力调度控制中心 基于数据融合和数据挖掘的数据仓库及其应用方法
CN106021349A (zh) * 2016-05-09 2016-10-12 中国银行股份有限公司 一种外汇数据报送的方法及装置
CN107590158A (zh) * 2016-07-08 2018-01-16 北京京东尚科信息技术有限公司 一种获取数据源变更信息的方法和装置
CN106408181A (zh) * 2016-09-09 2017-02-15 广州速鸿信息科技有限公司 一种基于大数据分析的智慧门店系统和方法
CN110609860A (zh) * 2018-05-29 2019-12-24 中国移动通信集团重庆有限公司 数据etl处理方法、装置、设备及存储介质
CN109213752A (zh) * 2018-08-06 2019-01-15 国网福建省电力有限公司信息通信分公司 一种基于cim的数据清洗转换方法
CN109308290A (zh) * 2018-08-06 2019-02-05 国网安徽省电力有限公司信息通信分公司 一种基于cim的高效数据清洗转换方法
CN111435344A (zh) * 2019-01-15 2020-07-21 中国石油集团川庆钻探工程有限公司长庆钻井总公司 一种基于大数据的钻井提速影响因素分析模型
CN110232098A (zh) * 2019-04-22 2019-09-13 汇通达网络股份有限公司 一种基于数据治理及血缘关系设计的数据仓库系统
CN110990390A (zh) * 2019-12-02 2020-04-10 东莞中国科学院云计算产业技术创新与育成中心 数据协同处理方法、装置、计算机设备和存储介质
CN111125061A (zh) * 2019-12-18 2020-05-08 甘肃省卫生健康统计信息中心(西北人口信息中心) 一种规范和促进健康医疗大数据的方法
CN111143463A (zh) * 2020-01-06 2020-05-12 中国工商银行股份有限公司 一种基于主题模型的银行数据仓库的构建方法及装置
CN111241185A (zh) * 2020-04-26 2020-06-05 浙江网商银行股份有限公司 数据处理方法以及装置
CN112148807A (zh) * 2020-09-28 2020-12-29 中国电波传播研究所(中国电子科技集团公司第二十二研究所) 一种电磁环境领域数据仓库构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Integrating the maintenance and synchronization of data warehousese using a cooperative framework";xin zhang;《Information Systmes》;20020630;第27卷(第4期);219-243页 *
潘敏."充分运用ETL工具,构建完整的数据仓库体系结构".《科技创新与应用》.2015,(第17期),第90页. *

Also Published As

Publication number Publication date
CN112650744A (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
US8832148B2 (en) Enterprise evidence repository
DE112012005037B4 (de) Verwalten von redundanten unveränderlichen Dateien unter Verwendung von Deduplizierungen in Speicher-Clouds
EP2797013B1 (en) Database update execution according to power management schemes
US20080249988A1 (en) Computer programming method and system for performing a reversal of selected structured query language operations within a database transaction
EP2466493A1 (en) SADL query view - a model-driven approach to speed-up read-only use cases
DE102014116369A1 (de) Verwaltung von sprachmarkern bei internationaler datenspeicherung
US20210286799A1 (en) Automated transaction engine
US9495639B2 (en) Determining document classification probabilistically through classification rule analysis
CN104050182A (zh) 用于监测内存数据库的数据的可配置规则
DE112018002954T5 (de) Bereitstellen eines konfigurationsabhängigen arbeitsablaufs
CN112650744B (zh) 一种防止数据二次污染的数据治理方法
KR20220100971A (ko) 데이터베이스 애플리케이션들을 블록체인 애플리케이션들로 변환하는 방법 및 시스템
US10019763B2 (en) Extension ledger
CN110751452B (zh) 一种工作流程管理系统、方法及存储介质
TW200419388A (en) System and method for automatically comparing and recoding difference between bills of material (BOM)
US20130117196A1 (en) Contract compliance system
CN104809216A (zh) 基于数据挖掘的分析模型及引擎系统
US20060190397A1 (en) Utilizing supporting dimensions to further define transaction entities in a computerized financial/accounting system
CN1588405A (zh) 用于风险控制系统的数据处理装置及方法
US20150120347A1 (en) System and method for updating organization family tree information
US20190057126A1 (en) Low latency constraint enforcement in hybrid dbms
CN115795322B (zh) 铁路配置数据比对方法、装置、电子设备及存储介质
CN110969444A (zh) 一种企业投标资格分析方法及装置
US11831490B1 (en) Systems, methods, and media for performing information technology service management correlation for infrastructure environment functions
CN114257511B (zh) 一种硬件负载均衡垃圾配置优化的方法、系统、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant