CN104731908A

CN104731908A - 一种基于etl的数据清洗方法

Info

Publication number: CN104731908A
Application number: CN201510129479.3A
Authority: CN
Inventors: 王之滨; 邱继钊; 崔乐乐
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2015-03-24
Filing date: 2015-03-24
Publication date: 2015-06-24

Abstract

本发明公开了一种基于ETL的数据清洗方法，该数据清洗方法是在数据库中进行ETL处理的方法。本发明的一种基于ETL的数据清洗方法和现有技术相比，使用数据库中的ETL处理，有效的避免了数据库外部的ETL处理可扩展性差，不适合复杂的数据清洗处理的弊端，又利用了数据库的转换引擎功能，提升了数据清洗效率和质量。

Description

一种基于ETL的数据清洗方法

技术领域

本发明涉及计算机数据清洗技术领域，具体地说是一种基于ETL的数据清洗方法。

背景技术

随着信息处理技术的不断发展，各行各业已建立了很多计算机信息系统，积累了大量的数据。为了使数据能够有效地支持组织的日常运作和决策，要求数据可靠无误，能够准确地反映现实世界的状况。数据是信息的基础，好的数据质量是各种数据分析如OLAP、数据挖掘等有效应用的基本条件。人们常常抱怨“数据丰富，信息贫乏”，究其原因，一是缺乏有效的数据分析技术，二是数据质量不高，如数据输入错误、不同来源数据引起的不同表示方法，数据间的不一致等，导致现有的数据中存在这样或那样的脏数据。它们主要表现为：拼写问题、打印错误、不合法值、空值、不一致值、简写、同一实体的多种表示(重复)、不遵循引用完整性等。

ETL即数据抽取（Extract）、转换（Transform）、装载（Load）的过程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。

数据仓库主要用于决策分析，为领导者提供决策支持信息。数据仓库系统中有可能存在着大量的脏数据,引起的主要原因有：滥用缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化、不同的计量单位和过时的编码等。即便是一个设计和规划良好的数据仓库系统，如果其中存在着大量的脏数据，那么这个系统也是没有任何意义的，因为“垃圾进，垃圾出”（garbage in, garbage out），系统根本就不可能为决策分析系统提供任何支持。为了清除脏数据，必须在数据仓库系统中进行数据清洗。数据清洗（data cleansing/data cleaning/data scrubing）是一个减少错误和不一致性、解决对象识别的过程。目前有很多数据清洗研究和ETL研究，但是如何在ETL过程中进行有效的数据清洗，此方面研究不多。

发明内容

本发明的技术任务是提供一种基于ETL的数据清洗方法。

本发明的技术任务是按以下方式实现的，该数据清洗方法是在数据库中进行ETL处理的方法。

所述的数据清洗方法的步骤如下：

1）元素化：在数据库中将非标准的数据格式化成结构数据；

2）标准化：将元素标准化，消除不一致的缩写；

3）校验：对标准化的元素进行一致性校验，即在内容上修改错误；

4）匹配：在其它记录中寻找相似的记录，发现重复记录；

5）消除重复记录：根据匹配结果进行处理，形成一个完整信息的记录；

6）归档：将上述结果写入元数据存储中心。

所述的消除重复记录是删除部分记录或者合并多个记录为一个完整信息的记录。

本发明的一种基于ETL的数据清洗方法和现有技术相比，使用数据库中的ETL处理，有效的避免了数据库外部的ETL处理可扩展性差，不适合复杂的数据清洗处理的弊端，又利用了数据库的转换引擎功能，提升了数据清洗效率和质量。

附图说明

附图１为数据清洗应用模型图。

具体实施方式

　　实施例1：

该数据清洗方法是在数据库中进行ETL处理的方法。

所述的数据清洗方法的步骤如下：

1）元素化：在数据库中将非标准的数据格式化成结构数据；

2）标准化：将元素标准化，消除不一致的缩写；

4）匹配：在其它记录中寻找相似的记录，发现重复记录；

5）消除重复记录：根据匹配结果进行处理，删除部分记录或者合并多个记录形成一个完整信息的记录；

6）归档：将上述结果写入元数据存储中心。

实施例2：

用Northwind数据源为例来进行数据清洗。Northwind是SQL SERVER 2000自带的一个关于贸易公司的数据库。表Customer记录了公司的客户信息，共有11个字段：CustomerID CompanyName ContactName。

数据清洗方法的步骤如下：

1）元素化：在数据库中将非标准的数据格式化成结构数据；

以数据库表Customernew的任意一条记录为例。Address、City和Phone三个字段值分别为： Address:Obere Stre. 57 City:Berlin

Phone:030-0074321 元素化为：

Address(1):Obere Address(2):Stre Address(3):57 City:Berlin

Phone(1):031 Phone(2):0074321。

2）标准化：将元素标准化，消除不一致的缩写；

根据字典消除不一致的缩写，这里的字典是用户通过分析样本表预先制定的一些规则的集合。样本表是根据概率统计从表Customernew选择一部分记录所形成的一个表。首先分析Address(2)的值Stre，此值应是Street的缩写。而在字典中Street的缩写是Str，所以在这里，Stre被认为是脏数据，正确的数据应为：Str。

Berlin的电话区号应为：030，所以Phone(1)的值应为：030。

4）匹配：在其它记录中寻找相似的记录，发现重复记录；

对整个表Customernew排序，然后在表中查找Address(1)值为Obere的所有记录，如果有这样的记录再去查找Address(2)，依次类推，如果所有字段的数据全都相同，那么这两条记录就是重复记录。

6）归档：将上述结果写入元数据存储中心。这样可以更好地进行后续的清洗过程，而且可以更加容易理解数据源以便在数据仓库中进行切片、切块等操作。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

Claims

1.一种基于ETL的数据清洗方法，其特征在于，该数据清洗方法是在数据库中进行ETL处理的方法。

2.根据权利要求1所述的一种基于ETL的数据清洗方法，其特征在于，所述的数据清洗方法的步骤如下：

1）元素化：在数据库中将非标准的数据格式化成结构数据；

2）标准化：将元素标准化，消除不一致的缩写；

4）匹配：在其它记录中寻找相似的记录，发现重复记录；

6）归档：将上述结果写入元数据存储中心。

3.根据权利要求2所述的一种基于ETL的数据清洗方法，其特征在于，所述的消除重复记录是删除部分记录或者合并多个记录为一个完整信息的记录。