CN104731908A - 一种基于etl的数据清洗方法 - Google Patents

一种基于etl的数据清洗方法 Download PDF

Info

Publication number
CN104731908A
CN104731908A CN201510129479.3A CN201510129479A CN104731908A CN 104731908 A CN104731908 A CN 104731908A CN 201510129479 A CN201510129479 A CN 201510129479A CN 104731908 A CN104731908 A CN 104731908A
Authority
CN
China
Prior art keywords
record
data
etl
cleaning method
data cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510129479.3A
Other languages
English (en)
Inventor
王之滨
邱继钊
崔乐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510129479.3A priority Critical patent/CN104731908A/zh
Publication of CN104731908A publication Critical patent/CN104731908A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于ETL的数据清洗方法,该数据清洗方法是在数据库中进行ETL处理的方法。本发明的一种基于ETL的数据清洗方法和现有技术相比,使用数据库中的ETL处理,有效的避免了数据库外部的ETL处理可扩展性差,不适合复杂的数据清洗处理的弊端,又利用了数据库的转换引擎功能,提升了数据清洗效率和质量。

Description

一种基于ETL的数据清洗方法
技术领域
本发明涉及计算机数据清洗技术领域,具体地说是一种基于ETL的数据清洗方法。
背景技术
随着信息处理技术的不断发展,各行各业已建立了很多计算机信息系统,积累了大量的数据。为了使数据能够有效地支持组织的日常运作和决策,要求数据可靠无误,能够准确地反映现实世界的状况。数据是信息的基础,好的数据质量是各种数据分析如OLAP、数据挖掘等有效应用的基本条件。人们常常抱怨“数据丰富,信息贫乏”,究其原因,一是缺乏有效的数据分析技术,二是数据质量不高,如数据输入错误、不同来源数据引起的不同表示方法,数据间的不一致等,导致现有的数据中存在这样或那样的脏数据。它们主要表现为:拼写问题、打印错误、不合法值、空值、不一致值、简写、同一实体的多种表示(重复)、不遵循引用完整性等。
ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。
数据仓库主要用于决策分析,为领导者提供决策支持信息。数据仓库系统中有可能存在着大量的脏数据,引起的主要原因有:滥用缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化、不同的计量单位和过时的编码等。即便是一个设计和规划良好的数据仓库系统,如果其中存在着大量的脏数据,那么这个系统也是没有任何意义的,因为“垃圾进,垃圾出”(garbage in, garbage out),系统根本就不可能为决策分析系统提供任何支持。为了清除脏数据,必须在数据仓库系统中进行数据清洗。数据清洗(data cleansing/data cleaning/data scrubing)是一个减少错误和不一致性、解决对象识别的过程。目前有很多数据清洗研究和ETL研究,但是如何在ETL过程中进行有效的数据清洗,此方面研究不多。
发明内容
本发明的技术任务是提供一种基于ETL的数据清洗方法。
本发明的技术任务是按以下方式实现的,该数据清洗方法是在数据库中进行ETL处理的方法。
所述的数据清洗方法的步骤如下:
1)元素化:在数据库中将非标准的数据格式化成结构数据;
2)标准化:将元素标准化,消除不一致的缩写;
3)校验:对标准化的元素进行一致性校验,即在内容上修改错误;
4)匹配:在其它记录中寻找相似的记录,发现重复记录;
5)消除重复记录:根据匹配结果进行处理,形成一个完整信息的记录;
6)归档:将上述结果写入元数据存储中心。
所述的消除重复记录是删除部分记录或者合并多个记录为一个完整信息的记录。
本发明的一种基于ETL的数据清洗方法和现有技术相比,使用数据库中的ETL处理,有效的避免了数据库外部的ETL处理可扩展性差,不适合复杂的数据清洗处理的弊端,又利用了数据库的转换引擎功能,提升了数据清洗效率和质量。
附图说明
    附图1为数据清洗应用模型图。
具体实施方式
  实施例1:
该数据清洗方法是在数据库中进行ETL处理的方法。
所述的数据清洗方法的步骤如下:
1)元素化:在数据库中将非标准的数据格式化成结构数据;
2)标准化:将元素标准化,消除不一致的缩写;
3)校验:对标准化的元素进行一致性校验,即在内容上修改错误;
4)匹配:在其它记录中寻找相似的记录,发现重复记录;
5)消除重复记录:根据匹配结果进行处理,删除部分记录或者合并多个记录形成一个完整信息的记录;
6)归档:将上述结果写入元数据存储中心。
实施例2:
用Northwind数据源为例来进行数据清洗。Northwind是SQL SERVER 2000自带的一个关于贸易公司的数据库。表Customer记录了公司的客户信息,共有11个字段:CustomerID  CompanyName  ContactName。
数据清洗方法的步骤如下:
1)元素化:在数据库中将非标准的数据格式化成结构数据;
以数据库表Customernew的任意一条记录为例。Address、City和Phone三个字段值分别为: Address:Obere Stre. 57 City:Berlin
Phone:030-0074321 元素化为:
Address(1):Obere Address(2):Stre Address(3):57 City:Berlin
Phone(1):031 Phone(2):0074321。
2)标准化:将元素标准化,消除不一致的缩写;
根据字典消除不一致的缩写, 这里的字典是用户通过分析样本表预先制定的一些规则的集合。样本表是根据概率统计从表Customernew选择一部分记录所形成的一个表。首先分析Address(2)的值Stre,此值应是Street的缩写。而在字典中Street的缩写是Str,所以在这里,Stre被认为是脏数据,正确的数据应为:Str。
3)校验:对标准化的元素进行一致性校验,即在内容上修改错误;
Berlin的电话区号应为:030,所以Phone(1)的值应为:030。
4)匹配:在其它记录中寻找相似的记录,发现重复记录;
对整个表Customernew排序,然后在表中查找Address(1)值为Obere的所有记录,如果有这样的记录再去查找Address(2),依次类推,如果所有字段的数据全都相同,那么这两条记录就是重复记录。
5)消除重复记录:根据匹配结果进行处理,删除部分记录或者合并多个记录形成一个完整信息的记录;
6)归档:将上述结果写入元数据存储中心。这样可以更好地进行后续的清洗过程,而且可以更加容易理解数据源以便在数据仓库中进行切片、切块等操作。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

Claims (3)

1.一种基于ETL的数据清洗方法,其特征在于,该数据清洗方法是在数据库中进行ETL处理的方法。
2.根据权利要求1所述的一种基于ETL的数据清洗方法,其特征在于,所述的数据清洗方法的步骤如下:
1)元素化:在数据库中将非标准的数据格式化成结构数据;
2)标准化:将元素标准化,消除不一致的缩写;
3)校验:对标准化的元素进行一致性校验,即在内容上修改错误;
4)匹配:在其它记录中寻找相似的记录,发现重复记录;
5)消除重复记录:根据匹配结果进行处理,形成一个完整信息的记录;
6)归档:将上述结果写入元数据存储中心。
3.根据权利要求2所述的一种基于ETL的数据清洗方法,其特征在于,所述的消除重复记录是删除部分记录或者合并多个记录为一个完整信息的记录。
CN201510129479.3A 2015-03-24 2015-03-24 一种基于etl的数据清洗方法 Pending CN104731908A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510129479.3A CN104731908A (zh) 2015-03-24 2015-03-24 一种基于etl的数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510129479.3A CN104731908A (zh) 2015-03-24 2015-03-24 一种基于etl的数据清洗方法

Publications (1)

Publication Number Publication Date
CN104731908A true CN104731908A (zh) 2015-06-24

Family

ID=53455795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510129479.3A Pending CN104731908A (zh) 2015-03-24 2015-03-24 一种基于etl的数据清洗方法

Country Status (1)

Country Link
CN (1) CN104731908A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183814A (zh) * 2015-08-27 2015-12-23 湖南人文科技学院 一种物联网数据清洗方法
CN105930523A (zh) * 2016-05-25 2016-09-07 中国科学院新疆理化技术研究所 大数据背景下基于动态可配置规则的数据清洗框架
CN107832450A (zh) * 2017-11-23 2018-03-23 安徽科创智慧知识产权服务有限公司 用于清洗数据重复记录的方法
CN109446190A (zh) * 2018-11-07 2019-03-08 湖北省标准化与质量研究院 一种标准元数据的数据处理方法
CN111966675A (zh) * 2020-08-28 2020-11-20 恒瑞通(福建)信息技术有限公司 一种固定资产投资项目数据清洗方法及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075304A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 电信行业基于数据仓库的决策支持系统的构造方法
EP2040180A1 (en) * 2007-09-24 2009-03-25 Hasso-Plattner-Institut für Softwaresystemtechnik GmbH ETL-less zero-redundancy system and method for reporting OLTP data
CN101986296A (zh) * 2010-10-28 2011-03-16 浙江大学 基于语义本体的噪声数据清洗方法
CN102135995A (zh) * 2011-03-17 2011-07-27 新太科技股份有限公司 一种etl数据清洗设计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075304A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 电信行业基于数据仓库的决策支持系统的构造方法
EP2040180A1 (en) * 2007-09-24 2009-03-25 Hasso-Plattner-Institut für Softwaresystemtechnik GmbH ETL-less zero-redundancy system and method for reporting OLTP data
CN101986296A (zh) * 2010-10-28 2011-03-16 浙江大学 基于语义本体的噪声数据清洗方法
CN102135995A (zh) * 2011-03-17 2011-07-27 新太科技股份有限公司 一种etl数据清洗设计方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183814A (zh) * 2015-08-27 2015-12-23 湖南人文科技学院 一种物联网数据清洗方法
CN105930523A (zh) * 2016-05-25 2016-09-07 中国科学院新疆理化技术研究所 大数据背景下基于动态可配置规则的数据清洗框架
CN107832450A (zh) * 2017-11-23 2018-03-23 安徽科创智慧知识产权服务有限公司 用于清洗数据重复记录的方法
CN109446190A (zh) * 2018-11-07 2019-03-08 湖北省标准化与质量研究院 一种标准元数据的数据处理方法
CN109446190B (zh) * 2018-11-07 2022-11-01 湖北省标准化与质量研究院 一种标准元数据的数据处理方法
CN111966675A (zh) * 2020-08-28 2020-11-20 恒瑞通(福建)信息技术有限公司 一种固定资产投资项目数据清洗方法及终端

Similar Documents

Publication Publication Date Title
CN110597870A (zh) 一种企业关系挖掘方法
CN104731908A (zh) 一种基于etl的数据清洗方法
CN104899295B (zh) 一种异构数据源数据关联分析方法
US11036685B2 (en) System and method for compressing data in a database
CN106126543B (zh) 一种关系型数据库到MongoDB的模型转换和数据迁移方法
CN102402615B (zh) 一种基于结构化查询语言语句的源信息追踪方法
CN110928903B (zh) 数据提取方法及装置、设备和存储介质
CN111899089A (zh) 基于知识图谱的企业风险预警方法及系统
CN104750681A (zh) 一种海量数据的处理方法及装置
CN110109910A (zh) 数据处理方法及系统、电子设备和计算机可读存储介质
WO2000067194A3 (en) Method and apparatus for scalable probabilistic clustering using decision trees
CN102135995A (zh) 一种etl数据清洗设计方法
Agarwal et al. Approximate incremental big-data harmonization
CN113377758A (zh) 一种数据质量稽核引擎及其稽核方法
CN106611053A (zh) 一种数据清理、索引方法
CN109582831A (zh) 一种支持非结构化数据存储与查询的图数据库管理系统
CN105095436A (zh) 数据源数据自动建模方法
CN104516976A (zh) 一种基于云数据库的知识产权侵权提醒系统
Kricke et al. Graph data transformations in Gradoop
CN107169003B (zh) 一种数据关联方法及装置
EP3635580A1 (en) Functional equivalence of tuples and edges in graph databases
Chu et al. Automatic data extraction of websites using data path matching and alignment
US20070282804A1 (en) Apparatus and method for extracting database information from a report
CN115952160B (zh) 一种数据盘点方法
CN104331460A (zh) 一种基于Hbase的数据读写操作方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150624

WD01 Invention patent application deemed withdrawn after publication