CN106776703A

CN106776703A - 一种虚拟化环境下的多元数据清洗技术

Info

Publication number: CN106776703A
Application number: CN201611002341.8A
Authority: CN
Inventors: 肖国玉; 王瑞青; 高广涛; 周专科; 陈建楠; 徐金龙; 刘凯; 李娜
Original assignee: SHANGHAI HANBANGJINGTAI DIGITAL CODE TECHNOLOGY Co Ltd
Current assignee: SHANGHAI HANBANGJINGTAI DIGITAL CODE TECHNOLOGY Co Ltd
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2017-05-31

Abstract

本发明公开了一种虚拟化环境下的多元数据清洗技术，包含以下步骤：（1）数据分析、定义错误类型，（2）搜索、识别错误记录，（3）修正错误。经过本方法数据清洗之后：数据质量至少达到：1)数据对用户必须是可信的。可信性包括精确性、完整性、一致性、有效性、唯一性等指标。(1)精确性:描述数据是否与其对应的客观实体的特征相一致。(2)完整性:描述数据是否存在缺失记录或缺失字段。(3)一致性:描述同一实体的同一属性的值在不同的系统是否一致。(4)有效性:描述数据是否满足用户定义的条件或在一定的域值范围(5)唯一性描述数据是否存在重复记录。

Description

一种虚拟化环境下的多元数据清洗技术

技术领域

本发明涉及数据处理技术领域，具体是一种虚拟化环境下的多元数据清洗技术。

背景技术

数据清洗是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。

数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”，这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据，将过滤的结果交给数据分析引擎，确认是否过滤掉还是由数据分析引擎修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

目前数据清洗方面主要需要克服的问题包括检查数据一致性，处理无效值和缺失值。

1.一致性检查

一致性检查是根据每个变量的合理取值范围和相互关系，检查数据是否合乎要求，发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如，用报警等级的区间在0到7之间的变量出现了8值，ip地址信息不合理，都应视为不合理数据。具有逻辑上不一致性的答案可能以多种形式出现：例如，责任人信息错误不匹配；或者发生时间错误。发现不一致时，要记录序号、变量名称、错误类别等，便于进一步核对和纠正。

2.无效值和缺失值的处理

由于调查、编码和录入误差，数据中可能存在一些无效值和缺失值，需要给予适当的处理。常用的处理方法有：估算，整例删除，变量删除和成对删除。

估算最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单，但没有充分考虑数据中已有的信息，误差可能较大。另一种办法就是根据调查对象对其他问题的答案，通过变量之间的相关分析或逻辑推论进行估计。例如，责任人的信息缺失可以通过资产管理里面计算机相关信息获取对人员信息做到关联获取。

整例删除是剔除含有缺失值的样本。由于数据可能存在缺失值，这种做法的结果可能导致有效样本量减少，造成后期的责任认定出现偏差。因此，只适合关键变量缺失，或者含有无效值或缺失值的样本比重很小的情况。

变量删除如果某一变量的无效值和缺失值很多，而且该变量对于分析引擎进行的责任认定不重要，则可以考虑将该变量删除。这种做法减少了供分析用的变量数目，但没有改变样本量。

成对删除是用一个特殊码代表无效值和缺失值，同时保留数据集中的全部变量和样本。但是，在具体计算时只采用有完整答案的样本，因而不同的分析因涉及的变量不同，其有效样本量也会有所不同。这是一种保守的处理方法，最大限度地保留了数据集中的可用信息。

采用不同的处理方法可能对分析结果产生影响，尤其是当缺失值的出现并非随机且变量之间明显相关时。因此，在调查中应当尽量避免出现无效值和缺失值，保证数据的完整性。

一般来说，数据清洗是将数据进行精简以去除重复记录，并使剩余部分转换成标准可接收格式的过程。数据清洗标准模型是将数据输入到数据清洗处理器，通过一系列步骤“ 清洗”数据，然后以期望的格式输出清洗过的数据。数据清洗从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据等问题。

对数据的清洗采用以下几种方法来解决：

1.解决不完整数据（即值缺失）的方法

大多数情况下，缺失的值可以手工填入（即手工清理）。当然，某些缺失值可以从本数据源或其它数据源推导出来，这就可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值，从而达到清理的目的。

2.错误值的检测及解决方法

用统计分析的方法识别可能的错误值或异常值，如偏差分析、识别不遵守分布或回归方程的值，也可以用规则库的形式检查数据值，或使用不同属性间的约束、外部的数据来检测和清理数据。

3.重复记录的检测及消除方法

数据库中属性值相同的记录被认为是重复记录，通过判断记录间的属性值是否相等来检测记录是否相等，相等的记录合并为一条记录（即合并/清除)。合并/清除是消重的基本方法。

4.不一致性（数据源内部及数据源之间）的检测及解决方法

从多数据源集成的数据可能有语义冲突，可定义完整性约束用于检测不一致性，也可通过分析数据发现联系，从而使得数据保持一致。

发明内容

本发明的目的在于提供一种见效快、效果好的虚拟化环境下的多元数据清洗技术,以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种虚拟化环境下的多元数据清洗技术，包含以下步骤：（1）数据分析、定义错误类型，（2）搜索、识别错误记录，（3）修正错误。

作为本发明进一步的方案：所述步骤（1）具体是：利用数据分析工具,来筛选错误数据。在错误类型分为两大类:单数据源与多数据源,并将它们又各分为结构级与记录级错误。这种分类非常适合于解决数据仓库中的数据清理问题。

作为本发明进一步的方案：所述步骤（2）具体是：在搜索、识别错误记录方面,根据自定义的清理规则库,查找不匹配的记录。

作为本发明进一步的方案：所述步骤（3）具体是：根据发现的错误模式,通过关联查询一定程度上修正错误;对数值字段,能根据数理统计知识自动修正,少量不能自动修复的数据可以借助于人工干预完成。

与现有技术相比，本发明的有益效果是：经过本方法数据清洗之后：数据质量至少达到：1)数据对用户必须是可信的。可信性包括精确性、完整性、一致性、有效性、唯一性等指标。(1)精确性:描述数据是否与其对应的客观实体的特征相一致。(2)完整性:描述数据是否存在缺失记录或缺失字段。(3)一致性:描述同一实体的同一属性的值在不同的系统是否一致。(4)有效性: 描述数据是否满足用户定义的条件或在一定的域值范围(5)唯一性描述数据是否存在重复记录。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，一种虚拟化环境下的多元数据清洗技术，包含以下步骤：（1）数据分析、定义错误类型，（2）搜索、识别错误记录，（3）修正错误。

步骤（1）具体是：利用数据分析工具,来筛选错误数据。在错误类型分为两大类:单数据源与多数据源,并将它们又各分为结构级与记录级错误。这种分类非常适合于解决数据仓库中的数据清理问题。步骤（2）具体是：在搜索、识别错误记录方面,根据自定义的清理规则库,查找不匹配的记录。步骤（3）具体是：根据发现的错误模式,通过关联查询一定程度上修正错误;对数值字段,能根据数理统计知识自动修正,少量不能自动修复的数据可以借助于人工干预完成。

本发明的工作原理是：普通的数据清洗技术一般来说包括很多耗时的排序、比较、匹配过程,且这些过程多次重复,用户必须等待较长时间。本发明是一个交互式的数据清理方案。系统将错误检测与清理紧密结合起来,用户能通过直观的图形化界面一步步地指定清理操作,且能立即看到此时的清理结果, (仅仅在所见的数据上进行清理,所以速度很快) 不满意清理效果时还能撤销上一步的操作,最后将所有清理操作编译执行。并且这种方案对清理循环错误非常有效。

清洗过程中提供了描述性语言解决用户友好性,降低使用者的复杂度。同时增加了中文数据的特色清理方式。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种虚拟化环境下的多元数据清洗技术，其特征在于，包含以下步骤：（1）数据分析、定义错误类型，（2）搜索、识别错误记录，（3）修正错误。

2.根据权利要求1所述的虚拟化环境下的多元数据清洗技术，其特征在于，所述步骤（1）具体是：利用数据分析工具,来筛选错误数据；在错误类型分为两大类:单数据源与多数据源，并将它们又各分为结构级与记录级错误；这种分类非常适合于解决数据仓库中的数据清理问题。

3.根据权利要求1所述的虚拟化环境下的多元数据清洗技术，其特征在于，所述步骤（2）具体是：在搜索、识别错误记录方面,根据自定义的清理规则库,查找不匹配的记录。

4.根据权利要求1所述的虚拟化环境下的多元数据清洗技术，其特征在于，所述步骤（3）具体是：根据发现的错误模式,通过关联查询一定程度上修正错误;对数值字段,能根据数理统计知识自动修正,少量不能自动修复的数据可以借助于人工干预完成。