CN104699796A - 一种基于数据仓库的数据清洗方法 - Google Patents
一种基于数据仓库的数据清洗方法 Download PDFInfo
- Publication number
- CN104699796A CN104699796A CN201510118379.0A CN201510118379A CN104699796A CN 104699796 A CN104699796 A CN 104699796A CN 201510118379 A CN201510118379 A CN 201510118379A CN 104699796 A CN104699796 A CN 104699796A
- Authority
- CN
- China
- Prior art keywords
- record
- data
- attribute
- cleaning method
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据仓库的数据清洗方法,该数据清洗方法包括预处理、给属性分配权值、重复记录检测、数据库级的重复记录聚类以及冲突处理;预处理:选择用于记录匹配的属性,该属性能代表记录特征;给属性分配权值:根据属性在决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重;数据库级的重复记录聚类:在数据库应用检测重复记录的算法中减少比较记录的范围,对整个数据集中的重复记录进行聚类;冲突处理:合并或者删除检测出的同一重复记录聚类的重复记录,保留其中正确的记录。本发明能检测大批量的数据源的错误并改正,有效降低清洗过程的复杂程度,提高清洗效率,保证了数据集的质量,提高数据仓库的运行效果。
Description
技术领域
本发明涉及计算机数据处理技术领域,具体地说是一种基于数据仓库的数据清洗方法。
背景技术
信息技术的飞速发展,使组织领导者对数据的依赖性越来越强。于是在数据库的基础上产生了能够满足决策分析所需要的数据环境——数据仓库。但是从异构的数据源导入数据仓库的数据中会存在各种各样的问题,所以必须对其进行数据清洗来提高其质量。数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,数据仓库是对多个异构数据源的集合,集成后按照主题进行了重组。
在数据库中从多数据源中抽取数据时,由于各数据源数据表结构的设计可能不相同,完成从多数据源到数据仓库的数据迁移时,同样会产生一些冗余或者错误信息。若不进行清洗,这些脏数据会对数据仓库系统造成不良影响,扭曲从数据中或得的信息,影响数据仓库的运行效果。
由于存在多种不同的脏数据,而检测这些脏数据往往需要借助特定的领域知识。缺损数据,相似重复记录都是最为常见的脏数据,对他们进行清洗有一定的困难。数据集的数据质量,是由很多因素造成的,包括 数据集的正确性、完整性、一致性和可用性等诸多因素。
根据数据清洗的实现方式与内容,可将数据清洗分为四类:
1)用人工检测所有的错误并改正。这只能针对小批量的数据源。
2)通过专门编写的程序,但通常数据清洗是一个反复进行的过程,导致清洗过程复杂。
3)某类特定应用领域的问题。如根据概率统计学原理查找数值异常记录。
4)与特定领域无关的数据清洗。主要指在特地行业中,业务表间关联的清洗,业务表与公用数据字典间的关联清洗,表中空值的清洗,不合逻辑的数据的清洗。
发明内容
本发明的技术任务是提供一种基于数据仓库的数据清洗方法。
本发明的技术任务是按以下方式实现的,该数据清洗方法通过预处理、给属性分配权值、重复记录检测、数据库级的重复记录聚类以及冲突处理五个步骤实现;
预处理:选择用于记录匹配的属性,该属性能代表记录特征;
给属性分配权值:根据属性在决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重;
数据库级的重复记录聚类:在数据库应用检测重复记录的算法中减少比较记录的范围,对整个数据集中的重复记录进行聚类;
冲突处理:合并或者删除检测出的同一重复记录聚类的重复记录,保留其中正确的记录。
所述的给属性分配权值时,不同的属性赋予不同的权重,重要程度大的分给的权重就大。
所述的检测重复记录的方法是每条记录都和数据集中其他所有的记录逐个进行匹配比较;一般采取生成排序关键字对数据集进行排序的方法,抽取记录属性的一个子集序列或属性值的子串,为数据集中每条记录计算出一个键值。
本发明的一种基于数据仓库的数据清洗方法和现有技术相比,能检测大批量的数据源的错误并改正,有效降低清洗过程的复杂程度,提高清洗效率,保证了数据集的正确性、完整性、一致性和可用性,提高数据仓库的运行效果。
附图说明
附图1为一种基于数据仓库的数据清洗方法的原理示意图。
具体实施方式
实施例1:
该数据清洗方法通过预处理、给属性分配权值、重复记录检测、数据库级的重复记录聚类以及冲突处理五个步骤实现;
预处理:选择用于记录匹配的属性,由于数据量很大,该属性能代表记录特征;
给属性分配权值:根据属性在决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重;属性的权重代表一个属性在两条相似记录中的重要程度,在衡量两条记录相似度时,不同的属性赋予不同的权重,重要程度大的分给的权重就大,如姓名属性的权重显然比性别属性的权重高,因为姓名更能反映一条记录的特征。在重复记录的清洗过程中,可以对权重进行调整,以便找出更多的重复记录。
数据库级的重复记录聚类:在数据库应用检测重复记录的算法中减少比较记录的范围,对整个数据集中的重复记录进行聚类;检测重复记录的最好方法是每条记录都和数据集中其他所有的记录逐个进行匹配比较。该方法的计算复杂度是N(N-1)/2 (N是数据集中的记录条数)。一般采取生成排序关键字对数据集进行排序的方法,抽取记录属性的一个子集序列或属性值的子串,为数据集中每条记录计算出一个键值。
冲突处理:合并或者删除检测出的同一重复记录聚类的重复记录,保留其中正确的记录,在整个重复记录清洗的流程中,重复记录检测和数据库级的重复记录聚类检测是核心步骤。
实施例2:
以业务表间的关联的清洗为例:
1)选择主表,建立主表与辅表之间的关联。
2)利用sql语句,将主表left outer join 辅表,找出主表中不能关联至辅表的记录。
3)对不能关联的记录做具体的分析,对于真正的脏数据,可在辅表中增加一条“默认记录”,将主表中不能关联的记录全部关联到辅表中的“默认记录”。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
Claims (3)
1.一种基于数据仓库的数据清洗方法,其特征在于,该数据清洗方法通过预处理、给属性分配权值、重复记录检测、数据库级的重复记录聚类以及冲突处理五个步骤实现;
预处理:选择用于记录匹配的属性,该属性能代表记录特征;
给属性分配权值:根据属性在决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重;
数据库级的重复记录聚类:在数据库应用检测重复记录的算法中减少比较记录的范围,对整个数据集中的重复记录进行聚类;
冲突处理:合并或者删除检测出的同一重复记录聚类的重复记录,保留其中正确的记录。
2. 根据权利要求1所述的一种基于数据仓库的数据清洗方法,其特征在于,所述的给属性分配权值时,不同的属性赋予不同的权重,重要程度大的分给的权重就大。
3. 根据权利要求1所述的一种基于数据仓库的数据清洗方法,其特征在于,所述的检测重复记录的方法是每条记录都和数据集中其他所有的记录逐个进行匹配比较;一般采取生成排序关键字对数据集进行排序的方法,抽取记录属性的一个子集序列或属性值的子串,为数据集中每条记录计算出一个键值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510118379.0A CN104699796A (zh) | 2015-03-18 | 2015-03-18 | 一种基于数据仓库的数据清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510118379.0A CN104699796A (zh) | 2015-03-18 | 2015-03-18 | 一种基于数据仓库的数据清洗方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104699796A true CN104699796A (zh) | 2015-06-10 |
Family
ID=53346916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510118379.0A Pending CN104699796A (zh) | 2015-03-18 | 2015-03-18 | 一种基于数据仓库的数据清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104699796A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874290A (zh) * | 2015-12-11 | 2017-06-20 | 阿里巴巴集团控股有限公司 | 一种数据清洗方法及设备 |
CN107025301A (zh) * | 2017-04-25 | 2017-08-08 | 西安理工大学 | 航班保障数据的清理方法 |
CN107818144A (zh) * | 2017-10-17 | 2018-03-20 | 郑州云海信息技术有限公司 | 一种基于Solr对多数据源数据进行整合的方法 |
CN107832450A (zh) * | 2017-11-23 | 2018-03-23 | 安徽科创智慧知识产权服务有限公司 | 用于清洗数据重复记录的方法 |
CN107992534A (zh) * | 2017-11-23 | 2018-05-04 | 安徽科创智慧知识产权服务有限公司 | 改进的排序关键字对数据集排序的方法 |
CN108268876A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于聚类的近似重复记录的检测方法及装置 |
CN109408578A (zh) * | 2018-10-30 | 2019-03-01 | 环境保护部华南环境科学研究所 | 一种针对异构环境监测数据融合方法 |
CN109684393A (zh) * | 2018-12-11 | 2019-04-26 | 中科恒运股份有限公司 | 数据采集方法、计算机可读存储介质及终端设备 |
CN110750685A (zh) * | 2019-09-29 | 2020-02-04 | 中国联合网络通信集团有限公司 | 一种数据入库方法及装置 |
CN115829143A (zh) * | 2022-12-15 | 2023-03-21 | 广东慧航天唯科技有限公司 | 一种基于时空数据清洗技术的水环境治理预测系统及其方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101634991A (zh) * | 2009-04-21 | 2010-01-27 | 上海申瑞电力科技股份有限公司 | 数据采集与监视控制系统的遥测数据清洗方法 |
CN101676900A (zh) * | 2008-09-18 | 2010-03-24 | 阿里巴巴集团控股有限公司 | 提高目标数据准确性的数据清洗方法及清洗系统 |
CN103473375A (zh) * | 2013-09-29 | 2013-12-25 | 方正国际软件有限公司 | 数据清洗系统和数据清洗方法 |
-
2015
- 2015-03-18 CN CN201510118379.0A patent/CN104699796A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101676900A (zh) * | 2008-09-18 | 2010-03-24 | 阿里巴巴集团控股有限公司 | 提高目标数据准确性的数据清洗方法及清洗系统 |
CN101634991A (zh) * | 2009-04-21 | 2010-01-27 | 上海申瑞电力科技股份有限公司 | 数据采集与监视控制系统的遥测数据清洗方法 |
CN103473375A (zh) * | 2013-09-29 | 2013-12-25 | 方正国际软件有限公司 | 数据清洗系统和数据清洗方法 |
Non-Patent Citations (1)
Title |
---|
杨宏娜: "基于数据仓库的数据清洗技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874290B (zh) * | 2015-12-11 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 一种数据清洗方法及设备 |
CN106874290A (zh) * | 2015-12-11 | 2017-06-20 | 阿里巴巴集团控股有限公司 | 一种数据清洗方法及设备 |
CN108268876A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于聚类的近似重复记录的检测方法及装置 |
CN107025301A (zh) * | 2017-04-25 | 2017-08-08 | 西安理工大学 | 航班保障数据的清理方法 |
CN107818144A (zh) * | 2017-10-17 | 2018-03-20 | 郑州云海信息技术有限公司 | 一种基于Solr对多数据源数据进行整合的方法 |
CN107832450A (zh) * | 2017-11-23 | 2018-03-23 | 安徽科创智慧知识产权服务有限公司 | 用于清洗数据重复记录的方法 |
CN107992534A (zh) * | 2017-11-23 | 2018-05-04 | 安徽科创智慧知识产权服务有限公司 | 改进的排序关键字对数据集排序的方法 |
CN109408578A (zh) * | 2018-10-30 | 2019-03-01 | 环境保护部华南环境科学研究所 | 一种针对异构环境监测数据融合方法 |
CN109408578B (zh) * | 2018-10-30 | 2020-07-31 | 环境保护部华南环境科学研究所 | 一种针对异构环境监测数据融合方法 |
CN109684393A (zh) * | 2018-12-11 | 2019-04-26 | 中科恒运股份有限公司 | 数据采集方法、计算机可读存储介质及终端设备 |
CN110750685A (zh) * | 2019-09-29 | 2020-02-04 | 中国联合网络通信集团有限公司 | 一种数据入库方法及装置 |
CN110750685B (zh) * | 2019-09-29 | 2022-08-26 | 中国联合网络通信集团有限公司 | 一种数据入库方法及装置 |
CN115829143A (zh) * | 2022-12-15 | 2023-03-21 | 广东慧航天唯科技有限公司 | 一种基于时空数据清洗技术的水环境治理预测系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104699796A (zh) | 一种基于数据仓库的数据清洗方法 | |
US11995086B2 (en) | Methods for enhancing rapid data analysis | |
TWI735537B (zh) | 計算機可讀取儲存介質及資料清理裝置 | |
CN110569328B (zh) | 实体链接方法、电子装置及计算机设备 | |
US8700579B2 (en) | Method and system for data compression in a relational database | |
CN106294762B (zh) | 一种基于学习的实体识别方法 | |
US9720986B2 (en) | Method and system for integrating data into a database | |
CN110263230B (zh) | 一种基于密度聚类的数据清洗方法及装置 | |
CN104035917A (zh) | 一种基于语义空间映射的知识图谱管理方法和系统 | |
CN101986296B (zh) | 基于语义本体的噪声数据清洗方法 | |
EP1864231A1 (en) | Schema matching | |
CN108345468B (zh) | 基于树和序列相似度的编程语言代码查重方法 | |
JP2015533436A (ja) | データストレージシステムにおけるデータソースを特徴付けるための方法 | |
JP2008027072A (ja) | データベース分析プログラム、データベース分析装置、データベース分析方法 | |
CN107301210A (zh) | 一种数据处理方法 | |
CN106649557B (zh) | 一种缺陷报告与邮件列表语义关联挖掘方法 | |
CN112651296A (zh) | 一种无先验知识数据质量问题自动探查方法及系统 | |
CN116881430B (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN111127068A (zh) | 一种工程量清单自动组价方法和装置 | |
CN105183824B (zh) | 数据整合方法及装置 | |
CN106844553B (zh) | 基于样本数据的数据探测和扩充方法及装置 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN108073641B (zh) | 查询数据表的方法和装置 | |
CN113191707B (zh) | 快递编码生成方法、装置、设备及存储介质 | |
Caron et al. | Identification of organization name variants in large databases using rule-based scoring and clustering: With a case study on the web of science database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150610 |