CN111427873B

CN111427873B - 数据清洗方法及系统

Info

Publication number: CN111427873B
Application number: CN202010172546.0A
Authority: CN
Inventors: 袁佳奇; 冯大辉
Original assignee: Nocode Tech Co ltd
Current assignee: Nocode Tech Co ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2023-03-14
Anticipated expiration: 2040-03-12
Also published as: CN111427873A

Abstract

本发明公开一种数据清洗方法及系统，其中方法包括：基于任务映射配置依次对第一数据中每一条数据进行数据清洗，获得相对应结果数据，所述第一数据包括目标数据、样本数据和所述样本数据的标准结果数据，所述样本数据与所述目标数据的数据类型相对应，所述标准结果数据符合所述任务映射配置，所述结果数据为目标结果数据或样本结果数据；当所述结果数据为样本结果数据时，将所述样本结果数据和与其相对应的标准结果数据进行匹配，基于匹配结果生成质检数据。本发明能够在清洗过程中对清洗结果的属性和内容进行质检，并生成相应的质检数据，便于工作人员根据质检数据及时调整清洗工作，从而在提高清洗质量的同时提高清洗效率。

Description

数据清洗方法及系统

技术领域

本发明涉及数据处理领域，尤其涉及一种数据清洗方法及系统。

背景技术

数据清洗是整个数据分析过程中不可缺少的一个环节，其结果质量直接关系最终分析结论，现今通常采用人工核验的方式核验最终获得的清洗结果的质量，但通常情况下需要清洗的数据量过多，此种滞后核验的方式不便于对清洗方案进行调整，且人工核验的效率低。

发明内容

本发明针对现有技术中的缺点，提供了一种数据清洗方法及系统。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种数据清洗方法，包括基于任务映射配置依次对第一数据中每一条数据进行数据清洗，获得相对应结果数据的步骤：

所述第一数据包括目标数据、样本数据和所述样本数据的标准结果数据，所述样本数据与所述目标数据的数据类型相对应，所述标准结果数据符合所述任务映射配置；

所述结果数据为目标结果数据或样本结果数据；

获得结果数据后还包括质检步骤，具体步骤为：

当所述结果数据为样本结果数据时，将所述样本结果数据和与其相对应的标准结果数据进行匹配，基于匹配结果生成质检数据。

作为一种可实施方式，基于任务映射配置依次对第一数据中每一条数据进行数据清洗，获得结果数据具体步骤为：

所述任务映射配置包括各任务字段的名称和属性；

基于任务映射配置对第一数据进行数据提取，生成执行数据；

基于所述执行数据生成结果数据。

作为一种可实施方式，基于任务映射配置对第一数据进行数据提取，生成执行数据的具体步骤为：

每个任务字段包括相对应的执行数据子字段和标准结果子字段；

基于任务字段的名称从第一数据的目标数据和样本数据中提取相应数据录入至执行数据子字段，并从第一数据的标准结果数据中提取相应数据录入至标准结果子字段，生成第二数据；

将第二数据的标准结果子字段进行过滤，生成执行数据。

作为一种可实施方式，基于所述执行数据生成结果数据的具体步骤为：

对所述执行数据进行质检，获得质检数据，基于所述质检数据判断是否完成数据清洗；

当判断结果为完成数据清洗时，将所述执行数据作为结果数据；

当判断结果为未完成数据清洗时，手动或自动对执行数据进行清洗，生成相对应的结果数据。

作为一种可实施方式，当所述结果数据为样本结果数据时，将所述样本结果数据和与其相对应的标准结果数据进行匹配，基于匹配结果生成质检数据的具体步骤为：

所述第二数据包括若干条源数据，每条源数据包含所有任务字段；

当所得结果数据所对应的源数据中包含标准结果数据时，判定所述结果数据为样本结果数据，将所述样本结果数据按照预设的排列规则进行排列，生成有序样本结果数据，同时将所述源数据中的标准结果数据按照预设的排列规则进行排列，生成有序标准结果数据；

将所述有序样本结果数据和所述有序标准结果数据中的数据内容一一进行匹配，根据匹配结果生成质检数据；

所述质检数据为当前质检数据和/或平均质检数据。

作为一种可实施方式，第一数据的获取方法为：

按照目标数据的数据类型对目标数据进行分类，获得至少一个第一目标数据子集；

根据所述数据类型和预设的添加规则于每个目标数据子集中添加相对应的样本数据和所述样本数据的标准结果数据，获得相对应的第二目标数据子集，由各第二目标子集构成第一数据。

本发明还提出一种数据清洗系统，包括清洗子系统和质检子系统；

所述清洗子系统用于基于任务映射配置依次对第一数据中每一条数据进行数据清洗，获得相对应结果数据：

所述结果数据为目标结果数据或样本结果数据；

所述质检子系统，用于当所述结果数据为样本结果数据时，将所述样本结果数据和与其相对应的标准结果数据进行匹配，基于匹配结果生成质检数据。

作为一种可实施方式，所述清洗子系统包括数据获取模块、数据提取模块和数据清洗模块；

所述任务映射配置包括各任务字段的名称和属性；

所述数据提取模块，用于基于任务映射配置对第一数据进行数据提取，生成执行数据；

所述数据清洗模块，用于基于所述执行数据生成结果数据。

作为一种可实施方式，所述数据提取模块被配置为：

将第二数据的标准结果子字段进行过滤，生成执行数据。

本发明还提出一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述任意一项所述方法的步骤。

本发明由于采用了以上技术方案，具有显著的技术效果：

1、本发明通过对第一数据和质检步骤的设计，能够在清洗过程中对清洗结果的属性和内容进行质检，并生成相应的质检数据，便于工作人员根据质检数据及时调整清洗工作，如重新确定任务映射配置、对当前完成的清洗结果进行更正等，从而在提高清洗质量的同时提高清洗效率。

2、本发明通过将目标数据按照数据类型分类，获得不同类型的第一目标数据子集，于各第一目标数据子集中混入相同类型的样本数据，从而使最终获得的质检数据能够及时准确的反应实际的清洗质量。

3、本发明通过按照预设的规则将样本结果数据和标准结果数据进行排列后在进行对比，避免了侵入数据结构的按字段属性方式的比对内容所产生的逻辑复杂性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种数据清洗方法的流程示意图；

图2是本发明一种数据处理系统的模块连接示意图。

具体实施方式

下面结合实施例对本发明做进一步地详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

现今数据清洗的具体步骤为：

S100、获取第一数据，并基于清洗目标确定任务映射配置；

所述第一数据为待清洗数据；

所述任务映射配置用于确定需要清洗的字段，以及各字段的属性和或清洗规则。S200、基于任务映射配置依次对第一数据中每一条数据进行数据清洗，获得相对应结果数据；

S200、手动或自动对第一数据中每一条数据进行清洗，获得相对应的结果数据，所述结果数据各字段的内容完全符合任务映射配置。

上述，手动指人工对各字段的数据内容进行清洗，自动指按照预设的清洗规则对各字段的数据内容进行清洗，两种清洗方案均只能根据各字段的属性对进行清洗和验证，故后续还需质检人员对清洗结果中数据内容进行人工核验，以保证清洗结果的质量，该核验工作滞后且核验效率低，导致整个清洗工作的工作效率低。

实施例1、一种数据清洗方法，如图1所示，包括以下步骤：

S110、获取第一数据，并基于清洗目标确定任务映射配置；

本实施例中目标数据为待清洗数据。

S210、基于任务映射配置依次对第一数据中每一条数据进行数据清洗，获得相对应结果数据；

所述结果数据为目标结果数据或样本结果数据；

S310、当所述结果数据为样本结果数据时，将所述样本结果数据和与其相对应的标准结果数据进行匹配，基于匹配结果生成质检数据。

本实施例中质检数据为当前准确率和/或平均准确率。

由上可知，本实施例于需要实际清洗的目标数据中混入样本数据，所述样本数据具有符合任务映射配置的标准结果数据，在执行数据清洗的过程中，不仅对目标数据进行清洗，还会对样本数据按照相同的清洗方案(手动/自动)进行清洗，故所得与样本数据相对应的样本结果数据能够体现当前清洗质量。

将相对应的样本结果数据和标准结果数据各字段对应的数据内容一一进行匹配，数据内容完全一致才判定其匹配成功，统计分析该条样本结果数据所有字段的匹配结果，获得质检数据并进行反馈。

综上，本实施例通过对第一数据和质检步骤的设计，能够在清洗过程中对清洗结果的属性和内容进行质检，并生成相应的质检数据，便于工作人员根据质检数据及时调整清洗工作，如重新确定任务映射配置、对当前完成的清洗结果进行更正等，从而在提高清洗质量的同时提高清洗效率。

进一步地，步骤S110中所述第一数据的获取方法为：

所述数据类型包括XML、JSON等结构化数据的数据类型，还包括文档、文本、图片、表格等非结构化数据的数据类型。

在实际清洗工作中，目标数据往往是具有多种数据类型的混合数据，故本实施例通过将目标数据按照数据类型分类，获得不同类型的第一目标数据子集，于各第一目标数据子集中混入相同类型的样本数据，从而使最终获得的质检数据能够及时准确的反应实际的清洗质量。

预设的添加规则为，样本数据插入目标数据的规则，如目标数据为图片时，添加规则为每隔10张属于目标数据的图片插入一张作为样本数据的图片，本领域的技术人员可根据实际需要自行设定。

进一步地，步骤S210中基于任务映射配置依次对第一数据中每一条数据进行数据清洗，获得结果数据具体步骤为：

基于任务映射配置对第一数据进行数据提取，生成执行数据，所述任务映射配置包括各任务字段的名称和属性；

基于所述执行数据生成结果数据。

上述任务字段即需要清洗的字段，通常情况下，数据清洗工作往往是根据实际需要，对目标数据进行有针对性的清洗，即，无需对目标数据中存在的所有字段进行清洗，故首先基于任务映射配置从第一数据中提取所需的数据内容，获得执行数据。

进一步地，基于任务映射配置对第一数据进行数据提取，生成执行数据的具体步骤为：

将第二数据的标准结果子字段进行过滤，生成执行数据。

由上可知，第一数据包括目标数据、样本数据和所述样本数据的标准结果数据，其中目标数据和样本数据为需要清洗的数据，标准结果数据为已通过验证符合任务映射配置的结果数据，执行数据子字段和标准结果子字段一一对应，便于后续对样本结果数据的判断和质检。

由上可知，目标数据可能是文档、图片，此时无法根据任务字段名称直接抽取相关数据录入执行数据子字段中，还需要人工对目标数据进行识别和填充，工作效率低。

本实施例中，采用现有以公开的识别模型和知识图谱实现对执行数据子字段的自动填充；

其中识别模型包括但不限于实体识别模型、语音识别模型和图像识别模型，如目标数据包含音频和图像时，可利用语音识别模型对音频进行文本转换，利用图像识别模型对图片进行文本转换，基于任务字段的名称对转换获得的文本数据进行实体识别，提取相关数据内容对执行数据子字段进行填充。

上述知识图谱包括现有以公开各行业的知识图谱，相关领域技术人员可根据实际需要进行选用，根据基于任务映射配置和相应知识图谱中各实体之间的关系，对执行数据子字段进行填充，如任务字段包含疾病名称，但是目标数据中往往包含疑似疾病类型的名词(疾病别名)，如直接进行填充存在效率低下，准确率低的问题。针对该问题，本实施例可采用现有已公开的疾病知识图谱，根据疾病知识图谱和所抽取的疾病相关名词获取对应疾病名称进行填充，无需人工参与，提高填充效率和准确率。

进一步地，基于所述执行数据生成结果数据的具体步骤为：

由上可知，本实施例对第一数据进行数据提取，获得执行数据的过程也能实现对数据的预清洗，故对获得的执行数据进行质检，即，将所述执行数据作为结果数据，按照步骤S310进行质检，当质检发现所述执行数据已达到数据清洗的要求，则可直接输出执行数据，否则才对执行数据做进一步的清洗。

判断是否完成数据清洗的方法为：

获取预设的质检合格阈值，将质检数据与所述质检合格阈值进行比较，当质检数据达到质检合格阈值时，判定其完成数据清洗。

进一步地，步骤S310中当所述结果数据为样本结果数据时，将所述样本结果数据和与其相对应的标准结果数据进行匹配，基于匹配结果生成质检数据的具体步骤为：

所述质检数据为当前质检数据和/或平均质检数据。

注：相关领域技术人员可根据实际需要自行设置质检数据的类型，如质检数据为正确率、错误率、正确个数、错误个数。

相关领域的技术人员可根据实际需要设置排列规则，如将任务字段按照其名称首字母进行排列。

以某条样本数据为例，其源数据如下表所示：

表1

任务字段	ID	name	age
				执行数据子字段	编号001	张三1	30A
标准结果子字段	001	张三	30

此时有序标准结果数据为：{“age”：“30”，“name”：“张三”，“ID”：“001”}；

此时有序样本结果数据为：{“age”：“30”，“name”：“张三”，“ID”：“编号001”}；

此时按顺序将有序标准结果数据和有序样本结果数据中的数据内容一一进行匹配(字符一致性比对)，获得质检数据，如当前正确率为66％。

本实施例通过按照预设的规则将样本结果数据和标准结果数据进行排列后在进行对比，避免了侵入数据结构的按字段属性方式的比对内容所产生的逻辑复杂性。

实施例2、一种数据清洗系统，如图2所示，包括清洗子系统100和质检子系统200；

所述清洗子系统100用于基于任务映射配置依次对第一数据中每一条数据进行数据清洗，获得相对应结果数据：

所述结果数据为目标结果数据或样本结果数据；

所述质检子系统200，用于当所述结果数据为样本结果数据时，将所述样本结果数据和与其相对应的标准结果数据进行匹配，基于匹配结果生成质检数据。

进一步地，所述清洗子系统包括数据获取模块110、数据提取模块120和数据清洗模块130；

所述任务映射配置包括各任务字段的名称和属性；

所述数据提取模块120，用于基于任务映射配置对第一数据进行数据提取，生成执行数据；

所述数据清洗模块130，用于基于所述执行数据生成结果数据。

进一步地，所述数据提取模块120被配置为：

将第二数据的标准结果子字段进行过滤，生成执行数据。

实施例3、一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现实施例1所述方法的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是：

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种数据清洗方法，包括基于任务映射配置依次对第一数据中每一条数据进行数据清洗，获得相对应结果数据的步骤，其特征在于：

所述结果数据为目标结果数据或样本结果数据；

获得结果数据后还包括质检步骤，具体步骤为：

2.根据权利要求1所述的数据清洗方法，其特征在于，基于任务映射配置依次对第一数据中每一条数据进行数据清洗，获得结果数据具体步骤为：

所述任务映射配置包括各任务字段的名称和属性；

基于所述执行数据生成结果数据。

3.根据权利要求2所述的数据清洗方法，其特征在于，基于任务映射配置对第一数据进行数据提取，生成执行数据的具体步骤为：

将第二数据的标准结果子字段进行过滤，生成执行数据。

4.根据权利要求3所述的数据清洗方法，其特征在于，基于所述执行数据生成结果数据的具体步骤为：

5.根据权利要求3或4任一所述的数据清洗方法，其特征在于，当所述结果数据为样本结果数据时，将所述样本结果数据和与其相对应的标准结果数据进行匹配，基于匹配结果生成质检数据的具体步骤为：

所述质检数据为当前质检数据和/或平均质检数据。

6.根据权利要求1至4任一所述的数据清洗方法，其特征在于，第一数据的获取方法为：

7.一种数据清洗系统，其特征在于，包括清洗子系统和质检子系统；

所述结果数据为目标结果数据或样本结果数据；

8.根据权利要求7所述的数据清洗系统，其特征在于，所述清洗子系统包括数据获取模块、数据提取模块和数据清洗模块；

所述任务映射配置包括各任务字段的名称和属性；

所述数据清洗模块，用于基于所述执行数据生成结果数据。

9.根据权利要求8所述的数据清洗系统，其特征在于，所述数据提取模块被配置为：

将第二数据的标准结果子字段进行过滤，生成执行数据。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6任意一项所述方法的步骤。