CN110413602B

CN110413602B - 一种分层清洗式大数据清洗方法

Info

Publication number: CN110413602B
Application number: CN201910698904.9A
Authority: CN
Inventors: 谷敏骏; 吴庆东; 李普阳
Original assignee: Nanjing Anxia Electronic Technology Co ltd
Current assignee: Nanjing Anxia Electronic Technology Co ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2023-05-02
Anticipated expiration: 2039-07-31
Also published as: CN110413602A

Abstract

本发明涉及大数据处理技术领域，具体为一种分层清洗式大数据清洗方法，包括清洗数据库、数据分析模块和数据清洗模块。该分层清洗式大数据清洗方法中，通过设置清洗项目计算模块计算每个清洗数据子数据库所对应的清洗项目子数据库频率顺序，按照不同类型的清洗数据对应的清洗项目顺序进行清洗，实现分层化数据清洗，提高数据清洗效率，通过设置生成清洗项目排序模块用于对不同类型的清洗数据生成相对应的清洗项目，按照升序排列算法，计算得出每个类型数据中清洗项目的升序排列，清洗时，先清洗频率较高的数据项目，进一步提高清洗的效率。

Description

一种分层清洗式大数据清洗方法

技术领域

本发明涉及大数据处理技术领域，具体为一种分层清洗式大数据清洗方法。

背景技术

随着大数据时代的到来,海量数据的不断剧增给，各个行业可通过大数据技术的支持,实现对现有资源的整合和重新调整,提高行业运行效率,挖掘产业巨大潜力，然而现有的数据清洗技术方案多为大数据信息整体进行清洗，由于大数据中，数据信息含量巨大，导致数据清洗效率低，耗时久。鉴于此，我们提出一种分层清洗式大数据清洗方法。

发明内容

本发明的目的在于提供一种分层清洗式大数据清洗方法，以解决上述背景技术中提出的由于大数据中，数据信息含量巨大，导致数据清洗效率低，耗时久的问题。

为实现上述目的，本发明提供一种分层清洗式大数据清洗方法，包括如下清洗步骤：

S1、数据采集：采集需要清洗的数据和数据清洗的项目；

S2、建立数据库：将采集需要清洗的数据和数据清洗的项目录入数据库内，建立清洗数据库；

S3、建立子数据库：按照清洗数据的类型建立清洗数据子数据库，按照清洗项目的类型建立清洗项目子数据库；

S4、数据分析：分析不同清洗项目和清洗数据类型的频率关系；

S5、清洗项目排序：为不同类型的清洗数据建立清洗项目顺序关系；

S6、清洗数据：通过数据清洗模块，按照建立清洗项目顺序关系对不同类型的清洗数据进行清洗。

作为优选，所述清洗数据库包括采集数据模块、数据保存模块和数据分析模块；

所述采集数据模块用于采集需要清洗的数据和数据清洗的项目；

所述数据保存模块用于将需要清洗的数据和数据清洗的项目保存至清洗数据库内；

所述数据分析模块用于分析清洗数据类型和数据清洗项目之间的频率关系。

作为优选，所述数据分析模块包括数据类型子数据库、清洗项目子数据库、频率计算模块和清洗项目计算模块；

所述数据类型子数据库用于在清洗数据库内按照清洗数据的类型建立数据类型子数据库；

所述清洗项目子数据库用于在清洗数据库内按清洗项目的类型建立清洗项目子数据库；

所述频率计算模块用于计算每个数据类型子数据库所对应的清洗项目子数据库频率；

所述清洗项目计算模块用于计算每个清洗数据子数据库所对应的清洗项目子数据库频率顺序。

作为优选，所述清洗项目计算模块包括导入清洗数据模块、导入清洗项目模块、排列清洗项目模块和生成清洗项目排序模块；

所述导入清洗数据模块用于按类型导入清洗数据；

所述导入清洗项目模块用于导入清洗的项目；

所述排列清洗项目模块用于按清洗项目使用的频率排列清洗项目顺序；

所述生成清洗项目排序模块用于对不同类型的清洗数据生成相对应的清洗项目。

作为优选，所述数据清洗模块包括清洗项目子数据库、匹配清洗数据模块、匹配清洗项目顺序模块和逐层清洗模块；

所述清洗项目子数据库用于录入多种清洗项目；

所述匹配清洗数据模块用于匹配输入清洗数据的类型；

所述匹配清洗项目顺序模块用于安装匹配的清洗数据类型匹配清洗项目顺序；

所述逐层清洗模块用于对数据进行分项目逐层清洗。

作为优选，所述清洗项目子数据库包括纠正错误模块、删除重复项模块、统一规格模块、修正逻辑模块、转换构造模块、数据压缩模块、数据补缺模块和数据丢弃模块；

所述纠正错误模块用于纠正数据错误形式；

所述删除重复项模块用于删除数据中存在的重复记录或重复字段；

所述统一规格模块用于统一数据规格并将一致性的内容抽象出来；

所述修正逻辑模块用于明确各个源系统的逻辑、条件、口径，并对异常源系统的采集逻辑进行修正；

所述转换构造模块用于对数据进行标准化处理；

所述数据压缩模块用于保持原有数据集的完整性和准确性，不丢失有用信息的前提下，按照一定的算法和方式对数据进行重新组织；

所述数据补缺模块用于对残缺数据的数据进行补充；

所述数据丢弃模块对于数据中的异常数据进行删除。

与现有技术相比，本发明的有益效果：

1、该分层清洗式大数据清洗方法中，通过建立清洗数据库，按照清洗数据的类型建立清洗数据子数据库，一方面便于对不同类型的数据进行保存，另一方面，在数据分析时，能够提供全面的数据信息，同时按照清洗项目的类型建立清洗项目子数据库，一方面便于对不同类型的清洗项目进行保存，另一方面，在数据分析时，能够提供全面的清洗项目信息。

2、该分层清洗式大数据清洗方法中，通过设置清洗项目计算模块计算每个清洗数据子数据库所对应的清洗项目子数据库频率顺序，按照不同类型的清洗数据对应的清洗项目顺序进行清洗，实现分层化数据清洗，提高数据清洗效率。

3、该分层清洗式大数据清洗方法中，通过设置生成清洗项目排序模块用于对不同类型的清洗数据生成相对应的清洗项目，按照升序排列算法，计算得出每个类型数据中清洗项目的升序排列，清洗时，先清洗频率较高的数据项目，进一步提高清洗的效率。

附图说明

图1为本发明的整体结构框架图；

图2为本发明的清洗数据库模块

图3为本发明的数据分析模块图；

图4为本发明的清洗项目计算模块图；

图5本发明的数据清洗模块图；

图6本发明的清洗项目子数据库模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明提供一种分层清洗式大数据清洗方法，如图1所示，包括如下清洗步骤：

S1、数据采集：采集需要清洗的数据和数据清洗的项目；

本实施例中，数据库建立基于SQLSever数据库实现，SQLSever数据库由一个表集合组成，这些表包含结构化的数据以及为支持对数据的操作额保证数据的完整性而定义的其他对象，如视图、索引、存储过程、用户定义函数和触发器等，它们够成了数据库的逻辑存储结构。

其中，数据库的物理存储结构是说明包含数据库对象的数据库文件是如何在磁盘上存储的，创建数据库实际上就是在硬盘上创建数据库文件的过程，数据库文件是存放数据库数据和数据库对象的文件。

进一步的，数据库的物理存储结构是说明包含数据库对象的数据库文件是如何在磁盘上存储的。创建数据库实际上就是在硬盘上创建数据库文件的过程，数据库文件是存放数据库数据和数据库对象的文件。

具体的，在SQLSever数据库中存在主要数据文件、次要数据文件和事务日志3种数据库文件，主要数据文件包含数据库的启动信息并用于存储数据，文件扩展名为。mdf，每个数据库必须且只有一个主文件，该文件存放两种对象，即用户对象和系统对象。用户对象包含表、视图及存储过程等，用于保存用户输入的数据；系统对象有表名、数据库用户帐号、索引地址等维护数据库工作所需要的信息。系统表应该保存在主文件中，而用户数据可移动到次要数据文件中。

其中，次要数据文件主要存储用户数据，文件的扩展名为。ndf。如果主文件包含了数据库中所有数据，则可以不要次要文件，但如果数据库非常大(如超出了单个windows文件的最大值)，就应该有多个次要数据文件来辅助存放用户数据，但不能存放系统对象。使用次要数据文件可以让数据库文件不断得到扩充，并可以通过将不同的文件存放到不同的磁盘空间中实现同时对多个磁盘进行访问，从而提高数据存储的并发性。

实施例2

作为本发明的第二种实施例，为了便于对需要清洗的数据和数据清洗的项目进行分析，本发明还对清洗数据库作出改进，作为一种优选实施例，具体如图2和图3所示，清洗数据库包括采集数据模块、数据保存模块和数据分析模块，采集数据模块用于采集需要清洗的数据和数据清洗的项目，数据保存模块用于将需要清洗的数据和数据清洗的项目保存至清洗数据库内，数据分析模块用于分析清洗数据类型和数据清洗项目之间的频率关系。

本实施例中，数据分析模块包括数据类型子数据库、清洗项目子数据库、频率计算模块和清洗项目计算模块，将需要清洗的数据按类型进行分类，并将清洗项目分类，通过频率计算，分析不同类型的数据所使用的清洗项目的频率。

进一步的，数据类型子数据库用于在清洗数据库内按照清洗数据的类型建立数据类型子数据库，一方面便于对不同类型的数据进行保存，另一方面，在数据分析时，能够提供全面的数据信息。

具体的，清洗项目子数据库用于在清洗数据库内按清洗项目的类型建立清洗项目子数据库，一方面便于对不同类型的清洗项目进行保存，另一方面，在数据分析时，能够提供全面的清洗项目信息。

此外，频率计算模块用于计算每个数据类型子数据库所对应的清洗项目子数据库频率，本实施例中，频率计算模块基于遗传算法实现，遗传算法步骤如下：

1)确定群体规模n(整数)，随机产生或其他方法产生一组n个可行解X_i(k)(1≤i≤n)组成初始群体；

2)计算每-个体的适合度值f(X_i(k))(变量k称为“代”数，初始值k＝1)，作为评价个体的标准；

3)计算每一个体X_i(k)的生存概率R_i(k)，然后依R_i(k)以一定的随机方法，设计随机选择器产生配种个体X_i(k)；

4)依据一定的随机方法选择配种个体X₁(k)、X₂(k)，并根据交叉概率和变异概率对配种个体组成初始群体X₁(k)、X₂(k)进行交换和变异操作，构成新一代的个体X₁(k+1)、X₂(k+1)，直到新一代n个个体形成；

5)重复步骤2)-4)，直到满足终止条件要求(解的质量达到满意的范围，迭代次数或时间限制等)。

通过遗传操作产生后代：遗传算法在运行早期个体差异较大，而在遗传算法后期适值趋于一致，优秀个体在后代中优势不明显，从而使整个种群进化速度趋于停滞，可以计算得出每个数据类型对应的清洗项目频率关系。

除此之外，清洗项目计算模块用于计算每个清洗数据子数据库所对应的清洗项目子数据库频率顺序，按照不同类型的清洗数据对应的清洗项目顺序进行清洗，实现分层化数据清洗，提高数据清洗效率。

实施例3

作为本发明的第三种实施例，为了便于对清洗项目的顺序进行排列，本发明还对清洗项目计算模块作出改进，作为一种优选实施例，如图4所示，清洗项目计算模块包括导入清洗数据模块、导入清洗项目模块、排列清洗项目模块和生成清洗项目排序模块。

本实施例中，导入清洗数据模块用于按类型导入清洗数据，导入清洗项目模块用于导入清洗的项目，便于对清洗数据和清洗项目之间的关系提供充足的数据。

进一步的，排列清洗项目模块用于按清洗项目使用的频率排列清洗项目顺序，本实施例中，采用升序排列算法，算法原理为：对比数组中前一个元素跟后一一个元素的大小，如果后面的元素比前面的元素大则用一个变量k来记住他的位置，接着第二次比较，前面“后一个元素”现变成了“前一个元素”，继续跟他的“后一个元素”进行比较如果后面的元素比他要大则用变量k记住它在数组中的位置(下标)，等到循环结束的时候，找到了最大的那个数的下标了，然后进行判断，如果这个元素的下标不是第一个元素的下标，就让第一个元素跟他交换一下值，这样就找到整个数组中最大的数了，然后找到数组中第二大的数，让他跟数组中第二个元素交换一下值，以此类推，形成升序排列。

值得说明的是，生成清洗项目排序模块用于对不同类型的清洗数据生成相对应的清洗项目，按照升序排列算法，计算得出每个类型数据中清洗项目的升序排列，并对排序的数据进行保存。

实施例4

作为本发明的第四种实施例，为了便于对数据进行清洗，本发明还对数据清洗模块作出改进，作为一种优选实施例，如图5所示，数据清洗模块包括清洗项目子数据库、匹配清洗数据模块、匹配清洗项目顺序模块和逐层清洗模块，清洗项目子数据库用于录入多种清洗项目，匹配清洗数据模块用于匹配输入清洗数据的类型，匹配清洗项目顺序模块用于安装匹配的清洗数据类型匹配清洗项目顺序，逐层清洗模块用于对数据进行分项目逐层清洗。

本实施例中，匹配清洗数据模块基于递归匹配算法实现，假设有两个记录A、B，如果它们表示的是同一实体，则定义其匹配程度为1.0，反之，匹配程度应为0.0。由于记录是一些属性值的集合，可以把记录A根据属性值分解成一个个小的子记录A_i，同样地，记录B也可以分解成一系列子记录B_i，记录A和B的匹配可以化为子记录之间的匹配，匹配公式为：

进一步的，匹配清洗项目顺序模块基于SF方法实现，SF方法是一种典型的利用模式结构信息进行模式匹配的方法，步骤如下：

1)、相似度计算：首先将源模式S和目标模式T根据其模式结构分别转换为对应的模式图G1和G2，然后使用一个称为StringMatch的匹配器对G1中的每个节点计算该节点与G2中每个节点之间的相似度值，然后根据相似度值的大小选取元素间的初始匹配关系；

2)、相似度传递调整：前面得到了模式元素间的初始匹配关系，在相似度传递步骤中我们根据元素之间的关联关系调整初始匹配关系中每个匹配的相似度得到最终的相似度。

实施例5

作为本发明的第五种实施例，为了便于建立完整的清洗项目子数据库，本发明还对清洗项目子数据库作出改进，作为一种优选实施例，如图6所示，清洗项目子数据库包括纠正错误模块、删除重复项模块、统一规格模块、修正逻辑模块、转换构造模块、数据压缩模块、数据补缺模块和数据丢弃模块。

本实施例中，纠正错误模块用于纠正数据错误形式，纠正错误模块用于数据值错误的纠正、数据类型错误的纠正、数据编码错误的纠正、数据格式错误的纠正、数据异常错误的纠正、依赖冲突的纠正和多值错误的纠正。

进一步的，由于各种原因，数据中可能存在重复记录或重复字段(列)，对于这些重复项目(行和列)需要删除重复项模块进行处理，删除重复项模块用于删除数据中存在的重复记录或重复字段，对于重复项的判断，基本思想是“排序和合并”，先将数据库中的记录按一定规则排序，然后通过比较邻近记录是否相似来检测记录是否重复。

具体的，由于数据源系统分散在各个业务线，不同业务线对于数据的要求、理解和规格不同，导致对于同一数据对象描述规格完全不同，因此在清洗过程中需要通过统一规格模块统一数据规格并将一致性的内容抽象出来。

此外，修正逻辑模块用于明确各个源系统的逻辑、条件、口径，并对异常源系统的采集逻辑进行修正。

除此之外，转换构造模块用于对数据进行标准化处理，转换构造模块包括数据类型转换、数据语义转换、数据粒度转换、表/数据拆分、行列转换、数据离散化、数据标准化、提炼新字段和属性构造。

其中，数据类型转换：当数据来自不同数据源时，不同类型的数据源数据类型不兼容可能导致系统报错，这时需要将不同数据源的数据类型进行统一转换为一种兼容的数据类型。

其中，数据语义转换：传统数据仓库中基于第三范式可能存在维度表、事实表等，此时在事实表中会有很多字段需要结合维度表才能进行语义上的解析。

其中，数据粒度转换：将数据按照数据仓库中不同的粒度需求进行聚合。

其中，表/数据拆分：某些字段可能存储多中数据信息，例如时间戳中包含了年、月、日、小时、分、秒等信息，有些规则中需要将其中部分或者全部时间属性进行拆分，以此来满足多粒度下的数据聚合需求。

其中，行列转换：对表内的行列数据进行转换。

其中，数据离散化：将连续取值的属性离散化成若干区间，来帮助消减一个连续属性的取值个数。

其中，数据标准化：不同字段间由于字段本身的业务含义不同，需要消除变量之间不同数量级造成的数值之间的悬殊差异。

其中，提炼新字段：很多情况下，需要基于业务规则提取新的字段，这些字段也称为复合字段。

其中，属性构造：在建模过程中，根据已有的属性集构造新的属性。

进一步的，数据压缩模块用于保持原有数据集的完整性和准确性，不丢失有用信息的前提下，按照一定的算法和方式对数据进行重新组织，大规模的数据进行复杂的数据分析与数据计算通常需要耗费大量时间，所以在这之前需要进行数据的约减和压缩，减小数据规模，而且还可能面临交互式的数据挖掘，根据数据挖掘前后对比对数据进行信息反馈。这样在精简数据集上进行数据挖掘显然效率更高，并且挖掘出来的结果与使用原有数据集所获得结果基本相同。

此外，数据补缺模块用于对残缺数据的数据进行补充，数据补充包括补充缺失值和补充空值，缺失值指的是的数据原本是必须存在的，但实际上没有数据，空值指的是实际存在可能为空的情况。

除此之外，数据丢弃模块对于数据中的异常数据进行删除，丢弃数据的类型包含整条删除和变量删除，整条删除指的是删除含有缺失值的样本，变量删除，如果某一变量的无效值和缺失值很多，而且该变量对于所研究的问题不是特别重要，则可以考虑将该变量删除，这种做法减少了供分析用的变量数目，但没有改变样本量。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种分层清洗式大数据清洗方法，其特征在于，包括如下清洗步骤：

S1、数据采集：采集需要清洗的数据和数据清洗的项目；

S2、建立数据库：将采集需要清洗的数据和数据清洗的项目录入数据库内，建立清洗数据库；所述清洗数据库包括采集数据模块、数据保存模块和数据分析模块；

所述数据分析模块用于分析清洗数据类型和数据清洗项目之间的频率关系；

所述数据分析模块包括数据类型子数据库、清洗项目子数据库、频率计算模块和清洗项目计算模块；

所述清洗项目计算模块用于计算每个清洗数据子数据库所对应的清洗项目子数据库频率顺序；

所述清洗项目计算模块包括导入清洗数据模块、导入清洗项目模块、排列清洗项目模块和生成清洗项目排序模块；

所述导入清洗数据模块用于按类型导入清洗数据；

所述导入清洗项目模块用于导入清洗的项目；

所述生成清洗项目排序模块用于对不同类型的清洗数据生成相对应的清洗项目；

S6、清洗数据：通过数据清洗模块，按照建立清洗项目顺序关系对不同类型的清洗数据进行清洗；

所述数据清洗模块包括清洗项目子数据库、匹配清洗数据模块、匹配清洗项目顺序模块和逐层清洗模块；

所述清洗项目子数据库用于录入多种清洗项目；

所述匹配清洗数据模块用于匹配输入清洗数据的类型；

所述逐层清洗模块用于对数据进行分项目逐层清洗；

所述清洗项目子数据库包括纠正错误模块、删除重复项模块、统一规格模块、修正逻辑模块、转换构造模块、数据压缩模块、数据补缺模块和数据丢弃模块；

所述纠正错误模块用于纠正数据错误形式；

所述转换构造模块用于对数据进行标准化处理；

所述数据补缺模块用于对残缺数据的数据进行补充；

所述数据丢弃模块对于数据中的异常数据进行删除；

所述频率计算模块基于遗传算法实现，遗传算法步骤如下：

1）确定群体规模n，随机产生或其他方法产生一组n个可行解，1≤i≤n,组成初始群体;

2）计算每一个体的适合度值，变量k称为代数，初始值k=1，作为评价个体的标准；

3）计算每一个体生存概率，然后依以一定的随机方法，设计随机选择器产生配种个体；

4）依据一定的随机方法选择配种个体、进行交换和变异操作，构成新一代的个体、，直到新一代n个个体形成；

5）重复步骤2)-4)，直到满足终止条件要求；

该分层清洗式大数据清洗方法中，通过设置生成清洗项目排序模块用于对不同类型的清洗数据生成相对应的清洗项目，按照升序排列算法，计算得出每个类型数据中清洗项目的升序排列，清洗时，先清洗频率较高的数据项目。