CN110389950B

CN110389950B - 一种快速运行的大数据清洗方法

Info

Publication number: CN110389950B
Application number: CN201910698950.9A
Authority: CN
Inventors: 谷敏骏; 吴庆东; 李普阳
Original assignee: Nanjing Anxia Electronic Technology Co ltd
Current assignee: Nanjing Anxia Electronic Technology Co ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2023-07-18
Anticipated expiration: 2039-07-31
Also published as: CN110389950A

Abstract

本发明涉及大数据处理技术领域，具体为一种快速运行的大数据清洗方法，包括数据清洗数据库、预清洗模块和深层清洗模块。该快速运行的大数据清洗方法中，通过建立数据清洗数据库，按照清洗数据的类型建立清洗数据子数据库，同时按照清洗项目的类型建立清洗项目子数据库，能够提供全面的清洗数据和清洗项目信息，通过预清洗模块，根据清洗数据中对应清洗项目频率最大值的清洗项目进行清洗，实现大数据针对性数据清理，减少数据清洗所需要的时间，提高数据清洗效率，通过深度清洗模块，对经过预清洗处理后的数据再次进行全面的数据清洗，提高数据清洗完整度。

Description

一种快速运行的大数据清洗方法

技术领域

本发明涉及大数据处理技术领域，具体为一种快速运行的大数据清洗方法。

背景技术

随着大数据时代的到来，海量数据的不断剧增给，各个行业可通过大数据技术的支持，实现对现有资源的整合和重新调整，提高行业运行效率，挖掘产业巨大潜力，然而现有的数据清洗技术方案多为大数据信息整体进行清洗，并无法根据数据的类型进行针对性清洗，导致大数据清洗效率低，耗时久。鉴于此，我们提出一种快速运行的大数据清洗方法。

发明内容

本发明的目的在于提供一种快速运行的大数据清洗方法，以解决上述背景技术中提出的数据清洗技术方案多为大数据信息整体进行清洗，并无法根据数据的类型进行针对性清洗，导致大数据清洗效率低，耗时久的问题。

为实现上述目的，本发明提供一种快速运行的大数据清洗方法，包括如下清洗步骤：

S1、数据采集：采集需要清洗的数据和数据清洗的项目；

S2、建立数据库：将采集的洗数据类型和数据清洗项目录入数据库内，建立数据清洗数据库；

S3、数据分析：通过数据清洗数据库分析数据类型和数据清洗项目之间的关系，并得出每种数据类型中运用频率最大的清洗项目；

S4、建立清洗项目数据库：在数据清洗模块内录入多种清洗项目，并建立清洗项目数据库；

S5、数据预清洗：将单种数据类型导入数据清洗数据库内，并匹配运用频率最大的清洗项目，进行单独清洗；

S6、数据深度清洗：将多种单独清洗后的数据再次导入数据清洗数据库内，进行整体清洗。

作为优选，所述数据清洗数据库包括采集数据模块、数据保存模块和数据分析模块；

所述采集数据模块用于采集需要清洗的数据和数据清洗的项目；

所述数据保存模块用于将采集需要清洗的数据和数据清洗的项目保存至数据清洗数据库内；

所述数据分析模块用于分析清洗数据类型和数据清洗项目之间的关系。

作为优选，所述数据分析模块包括数据类型分类模块、清洗项目分类模块、频率计算模块和主清洗项目计算模块；

所述数据类型分类模块用于在数据清洗数据库内按照清洗数据的类型建立清洗数据子数据库；

所述清洗项目分类模块用于在数据清洗数据库内按清洗项目的类型建立清洗项目子数据库；

所述频率计算模块用于每个清洗数据子数据库所对应的清洗项目子数据库频率；

所述主清洗项目计算模块用于计算每个清洗数据子数据库所对应频率最大的清洗项目子数据库。

作为优选，所述数据清洗模块包括清洗项目数据库、预清洗模块和深层清洗模块；

所述清洗项目数据库用于录入多种清洗项目；

所述预清洗模块用于对单种数据进行单独清洗；

所述深层清洗模块用于对多种数据进行整体清洗。

作为优选，所述清洗项目数据库包括纠正错误模块、删除重复项模块、统一规格模块、修正逻辑模块、转换构造模块、数据压缩模块、数据补缺模块和数据丢弃模块；

所述纠正错误模块用于纠正数据错误形式；

所述删除重复项模块用于删除数据中存在的重复记录或重复字段；

所述统一规格模块用于统一数据规格并将一致性的内容抽象出来；

所述修正逻辑模块用于明确各个源系统的逻辑、条件、口径，并对异常源系统的采集逻辑进行修正；

所述转换构造模块用于对数据进行标准化处理；

所述数据压缩模块用于保持原有数据集的完整性和准确性，不丢失有用信息的前提下，按照一定的算法和方式对数据进行重新组织；

所述数据补缺模块用于对残缺数据的数据进行补充；

所述数据丢弃模块对于数据中的异常数据进行删除。

作为优选，所述预清洗模块包括输入数据类型模块、清洗项目匹配模块、选择清洗项目模块和单独清洗模块；

所述输入数据类型模块用于按数据类型将数据输入清洗项目数据库内；

所述清洗项目匹配模块用于按数据输入类型匹配对于的清洗项目；

所述单独清洗模块用于按数据类型进行单独清洗。

作为优选，所述深层清洗模块包括输入预清洗数据模块、导入数据库模块和整体清洗模块；

所述输入预清洗数据模块用于输入经过预清洗模块处理后的数据；

所述导入数据库模块用于将经过预清洗模块处理后的数据导入至清洗项目数据库内；

所述整体清洗模块用于对数据进行整体清洗。

与现有技术相比，本发明的有益效果：

1、该快速运行的大数据清洗方法中，通过建立数据清洗数据库，按照清洗数据的类型建立清洗数据子数据库，一方面便于对不同类型的数据进行保存，另一方面，在数据分析时，能够提供全面的数据信息，同时按照清洗项目的类型建立清洗项目子数据库，一方面便于对不同类型的清洗项目进行保存，另一方面，在数据分析时，能够提供全面的清洗项目信息。

2、该快速运行的大数据清洗方法中，通过频率计算模块，计算每个清洗数据子数据库所对应的清洗项目子数据库频率，进而得出每个数据类型对应的清洗项目频率关系，同时通过遗传算法求函数最大值，即数据类型对应的清洗项目频率的最大值，用于预清洗模块中的主清洗项目。

3、该快速运行的大数据清洗方法中，通过预清洗模块，根据清洗数据中对应清洗项目频率最大值的清洗项目进行清洗，实现大数据针对性数据清理，减少数据清洗所需要的时间，提高数据清洗效率。

4、该快速运行的大数据清洗方法中，通过深度清洗模块，对经过预清洗处理后的数据再次进行全面的数据清洗，提高数据清洗完整度。

附图说明

图1为本发明的整体结构框架图；

图2为本发明的数据清洗数据库模块图；

图3为本发明的数据分析模块图；

图4为本发明的数据清洗模块图；

图5为本发明的清洗项目数据库模块图；

图6为本发明的预清洗模块图；

图7为本发明的深层清洗模块图；

图8为本发明的遗传算法求函数最大值的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明提供一种快速运行的大数据清洗方法，如图1所示，包括如下清洗步骤：

S1、数据采集：采集需要清洗的数据和数据清洗的项目；

本实施例中，数据库建立基于SQLSever数据库实现，SQLSever数据库由一个表集合组成，这些表包含结构化的数据以及为支持对数据的操作额保证数据的完整性而定义的其他对象，如视图、索引、存储过程、用户定义函数和触发器等，它们够成了数据库的逻辑存储结构。

其中，数据库的物理存储结构是说明包含数据库对象的数据库文件是如何在磁盘上存储的，创建数据库实际上就是在硬盘上创建数据库文件的过程，数据库文件是存放数据库数据和数据库对象的文件。

进一步的，数据库的物理存储结构是说明包含数据库对象的数据库文件是如何在磁盘上存储的。创建数据库实际上就是在硬盘上创建数据库文件的过程，数据库文件是存放数据库数据和数据库对象的文件。

具体的，在SQLSever数据库中存在主要数据文件、次要数据文件和事务日志3种数据库文件，主要数据文件包含数据库的启动信息并用于存储数据，文件扩展名为。mdf，每个数据库必须且只有一个主文件，该文件存放两种对象，即用户对象和系统对象。用户对象包含表、视图及存储过程等，用于保存用户输入的数据；系统对象有表名、数据库用户帐号、索引地址等维护数据库工作所需要的信息。系统表应该保存在主文件中，而用户数据可移动到次要数据文件中。

其中，次要数据文件主要存储用户数据，文件的扩展名为。ndf。如果主文件包含了数据库中所有数据，则可以不要次要文件，但如果数据库非常大(如超出了单个windows文件的最大值)，就应该有多个次要数据文件来辅助存放用户数据，但不能存放系统对象。使用次要数据文件可以让数据库文件不断得到扩充，并可以通过将不同的文件存放到不同的磁盘空间中实现同时对多个磁盘进行访问，从而提高数据存储的并发性。

实施例2

作为本发明的第二种实施例，为了便于对采集需要清洗的数据和数据清洗的项目进行分析，本发明还对数据清洗数据库作出改进，作为一种优选实施例，具体如图2和图3所示，数据清洗数据库包括采集数据模块、数据保存模块和数据分析模块，采集数据模块用于采集需要清洗的数据和数据清洗的项目，数据保存模块用于将采集需要清洗的数据和数据清洗的项目保存至数据清洗数据库内，数据分析模块用于分析清洗数据类型和数据清洗项目之间的关系。

本实施例中，数据分析模块包括数据类型分类模块、清洗项目分类模块、频率计算模块和主清洗项目计算模块，将需要清洗的数据按类型进行分类，并将清洗项目分类，通过频率计算，分析数据类型和清洗项目之间的关系。

进一步的，数据类型分类模块用于在数据清洗数据库内按照清洗数据的类型建立清洗数据子数据库，一方面便于对不同类型的数据进行保存，另一方面，在数据分析时，能够提供全面的数据信息。

具体的，清洗项目分类模块用于在数据清洗数据库内按照清洗项目的类型建立清洗项目子数据库，一方面便于对不同类型的清洗项目进行保存，另一方面，在数据分析时，能够提供全面的清洗项目信息。

此外，频率计算模块用于每个清洗数据子数据库所对应的清洗项目子数据库频率，本实施例中，频率计算模块基于遗传算法实现，遗传算法步骤如下：

1)确定群体规模n(整数)，随机产生或其他方法产生一组n个可行解X_i(k)(1≤i≤n)组成初始群体；

2)计算每-个体的适合度值f(X_i(k))(变量k称为“代”数，初始值k＝1)，作为评价个体的标准；

3)计算每一个体X_i(k)的生存概率R_i(k)，然后依R_i(k)以一定的随机方法，设计随机选择器产生配种个体X_i(k)；

4)依据一定的随机方法选择配种个体X₁(k)、X₂(k)，并根据交叉概率和变异概率对配种个体组成初始群体X₁(k)、X₂(k)进行交换和变异操作，构成新一代的个体X₁(k+1)、X₂(k+1)，直到新一代n个个体形成；

5)重复步骤2)-4)，直到满足终止条件要求(解的质量达到满意的范围，迭代次数或时间限制等)。

通过遗传操作产生后代：遗传算法在运行早期个体差异较大，而在遗传算法后期适值趋于一致，优秀个体在后代中优势不明显，从而使整个种群进化速度趋于停滞，可以计算得出每个数据类型对应的清洗项目频率关系。

除此之外，主清洗项目计算模块用于计算每个清洗数据子数据库所对应频率最大的清洗项目子数据库，主清洗项目计算模块基于遗传算法求函数最大值，函数如下：

f(x)＝cos(5x)-sin(3x)+10，x∈[1，7]

取种群大小20，搜索精度0。0001，交叉概率0。6，变异概率0。1，遗传20代，遗传算法求函数最大值的流程如图8所示，适应度可以通过求函数值来确定，函数值越大，越适合生存，即为最大值。

实施例3

作为本发明的第三种实施例，为了便于对数据进行清洗，本发明还对数据清洗模块作出改进，作为一种优选实施例，如图4和图5所示，数据清洗模块包括清洗项目数据库、预清洗模块和深层清洗模块，清洗项目数据库用于录入多种清洗项目，预清洗模块用于对单种数据进行单独清洗，深层清洗模块用于对多种数据进行整体清洗，清洗项目数据库包括纠正错误模块、删除重复项模块、统一规格模块、修正逻辑模块、转换构造模块、数据压缩模块、数据补缺模块和数据丢弃模块。

本实施例中，纠正错误模块用于纠正数据错误形式，纠正错误模块用于数据值错误的纠正、数据类型错误的纠正、数据编码错误的纠正、数据格式错误的纠正、数据异常错误的纠正、依赖冲突的纠正和多值错误的纠正。

进一步的，由于各种原因，数据中可能存在重复记录或重复字段(列)，对于这些重复项目(行和列)需要删除重复项模块进行处理，删除重复项模块用于删除数据中存在的重复记录或重复字段，对于重复项的判断，基本思想是“排序和合并”，先将数据库中的记录按一定规则排序，然后通过比较邻近记录是否相似来检测记录是否重复。

具体的，由于数据源系统分散在各个业务线，不同业务线对于数据的要求、理解和规格不同，导致对于同一数据对象描述规格完全不同，因此在清洗过程中需要通过统一规格模块统一数据规格并将一致性的内容抽象出来。

此外，修正逻辑模块用于明确各个源系统的逻辑、条件、口径，并对异常源系统的采集逻辑进行修正。

除此之外，转换构造模块用于对数据进行标准化处理，转换构造模块包括数据类型转换、数据语义转换、数据粒度转换、表/数据拆分、行列转换、数据离散化、数据标准化、提炼新字段和属性构造。

其中，数据类型转换：当数据来自不同数据源时，不同类型的数据源数据类型不兼容可能导致系统报错，这时需要将不同数据源的数据类型进行统一转换为一种兼容的数据类型。

其中，数据语义转换：传统数据仓库中基于第三范式可能存在维度表、事实表等，此时在事实表中会有很多字段需要结合维度表才能进行语义上的解析。

其中，数据粒度转换：将数据按照数据仓库中不同的粒度需求进行聚合。

其中，表/数据拆分：某些字段可能存储多中数据信息，例如时间戳中包含了年、月、日、小时、分、秒等信息，有些规则中需要将其中部分或者全部时间属性进行拆分，以此来满足多粒度下的数据聚合需求。

其中，行列转换：对表内的行列数据进行转换。

其中，数据离散化：将连续取值的属性离散化成若干区间，来帮助消减一个连续属性的取值个数。

其中，数据标准化：不同字段间由于字段本身的业务含义不同，需要消除变量之间不同数量级造成的数值之间的悬殊差异。

其中，提炼新字段：很多情况下，需要基于业务规则提取新的字段，这些字段也称为复合字段。

其中，属性构造：在建模过程中，根据已有的属性集构造新的属性。

进一步的，数据压缩模块用于保持原有数据集的完整性和准确性，不丢失有用信息的前提下，按照一定的算法和方式对数据进行重新组织，大规模的数据进行复杂的数据分析与数据计算通常需要耗费大量时间，所以在这之前需要进行数据的约减和压缩，减小数据规模，而且还可能面临交互式的数据挖掘，根据数据挖掘前后对比对数据进行信息反馈。这样在精简数据集上进行数据挖掘显然效率更高，并且挖掘出来的结果与使用原有数据集所获得结果基本相同。

此外，数据补缺模块用于对残缺数据的数据进行补充，数据补充包括补充缺失值和补充空值，缺失值指的是的数据原本是必须存在的，但实际上没有数据，空值指的是实际存在可能为空的情况。

除此之外，数据丢弃模块对于数据中的异常数据进行删除，丢弃数据的类型包含整条删除和变量删除，整条删除指的是删除含有缺失值的样本，变量删除，如果某一变量的无效值和缺失值很多，而且该变量对于所研究的问题不是特别重要，则可以考虑将该变量删除，这种做法减少了供分析用的变量数目，但没有改变样本量。

实施例4

作为本发明的第四种实施例，为了便于对数据进行预清洗，本发明还设置有预清洗模块，作为一种优选实施例，如图6所示，预清洗模块包括输入数据类型模块、清洗项目匹配模块、选择清洗项目模块和单独清洗模块。

本实施例中，输入数据类型模块用于按数据类型将数据输入清洗项目数据库内，输入数据为同一种类型的数据。

进一步的，清洗项目匹配模块用于按数据输入类型匹配对于的清洗项目，清洗项目匹配模块基于SF方法实现，SF方法是一种典型的利用模式结构信息进行模式匹配的方法，步骤如下：

1)、相似度计算：首先将源模式S和目标模式T根据其模式结构分别转换为对应的模式图G1和G2，然后使用一个称为StringMatch的匹配器对G1中的每个节点计算该节点与G2中每个节点之间的相似度值，然后根据相似度值的大小选取元素间的初始匹配关系；

2)、相似度传递调整：前面得到了模式元素间的初始匹配关系，在相似度传递步骤中我们根据元素之间的关联关系调整初始匹配关系中每个匹配的相似度得到最终的相似度。

具体的，单独清洗模块用于按数据类型进行单独清洗，能够通同一种类型的数据进行清洗。

实施例5

作为本发明的第五种实施例，为了便于对数据进行深层清洗，本发明还设置有深层清洗模块，作为一种优选实施例，如图7所示，深层清洗模块包括输入预清洗数据模块、导入数据库模块和整体清洗模块，输入预清洗数据模块用于输入经过预清洗模块处理后的数据，导入数据库模块用于将经过预清洗模块处理后的数据导入至清洗项目数据库内，整体清洗模块用于对数据进行整体清洗。

本实施例中，将经过预清洗模块处理后的数据导入清洗项目数据库内，对经过预清洗处理后的数据再次进行全面的数据清洗，提高数据清洗效率。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种快速运行的大数据清洗方法，其特征在于，包括如下清洗步骤：

S1、数据采集：采集需要清洗的数据和数据清洗的项目；

S6、数据深度清洗：将多种单独清洗后的数据再次导入数据清洗数据库内，进行整体清洗；

所述数据清洗模块包括清洗项目数据库、预清洗模块和深层清洗模块；

所述清洗项目数据库用于录入多种清洗项目；

所述预清洗模块用于对单种数据进行单独清洗；

所述深层清洗模块用于对多种数据进行整体清洗；

所述清洗项目数据库包括纠正错误模块、删除重复项模块、统一规格模块、修正逻辑模块、转换构造模块、数据压缩模块、数据补缺模块和数据丢弃模块；

所述纠正错误模块用于纠正数据错误形式；

所述转换构造模块用于对数据进行标准化处理；

所述数据补缺模块用于对残缺数据的数据进行补充；

所述数据丢弃模块对于数据中的异常数据进行删除；

所述预清洗模块包括输入数据类型模块、清洗项目匹配模块、选择清洗项目模块和单独清洗模块；

所述单独清洗模块用于按数据类型进行单独清洗；

所述深层清洗模块包括输入预清洗数据模块、导入数据库模块和整体清洗模块；

所述整体清洗模块用于对数据进行整体清洗。

2.根据权利要求1所述的快速运行的大数据清洗方法，其特征在于：所述数据清洗数据库包括采集数据模块、数据保存模块和数据分析模块；

3.根据权利要求2所述的快速运行的大数据清洗方法，其特征在于：所述数据分析模块包括数据类型分类模块、清洗项目分类模块、频率计算模块和主清洗项目计算模块；