CN116894032B

CN116894032B - 一种基于数据探查分析结果自动生成数据清洗规则的方法

Info

Publication number: CN116894032B
Application number: CN202311132993.3A
Authority: CN
Inventors: 周万
Original assignee: Jiangsu Shudui Technology Co ltd
Current assignee: Jiangsu Shudui Technology Co ltd
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-11-21
Anticipated expiration: 2043-09-05
Also published as: CN116894032A

Abstract

本发明公开了一种基于数据探查分析结果自动生成数据清洗规则的方法，包括以下步骤：预定义若干类型的数据，给每类型数据预定义数据值的若干统计指标；给每类数据定义若干清洗规则模板，关联不同的统计分析指标及触发条件，生成程序模板，修改程序模板的参数为表、字段；通过软件系统配置到数据库的连接，指定需要进行数据清洗的数据表；抽取采样数据到软件系统，进行分析，判断其数据类型；统计每种类型数据的特征；系统自动判断每个统计结果中是否反映存在数据质量问题；若存在数据质量问题，生成正式的加工逻辑；进行数据的清洗；将清洗之后的数据写入目录数据库中；本方案具有不受用户技术门槛限制、效果高、节省成本的特点。

Description

一种基于数据探查分析结果自动生成数据清洗规则的方法

技术领域

本发明涉及数据加工处理领域，特别涉及一种基于数据探查分析结果自动生成数据清洗规则的方法。

背景技术

目前正处于大数据时代，各行各业都在进行数据的汇聚、加工处理、分析挖掘，最大程度的进行数据的开发利用。

举例来说，例如政府的大数据局，会从各个业务委办局进行数据的获取，统一归集到大数据局建设的大数据平台中，进行统一的加工处理，形成高价值数据，进一步给其他委办局进行访问和使用。

但是很多情况下，数据的质量不高，存在各种各样的质量问题，例如：

（1）联系电话字段，取值可能如下：（086）139****0021、121331、0571-****9923、135****0923；其中第1,4个取值是规范的，需要保留，并且要进行格式统一；而第2,3个取值则不规范，需要删除；

（2）姓名字段，取值可能如下：“张三”、“李四”、“[空格]王五”、“李六[空格]”、“刘七334”；这五个值都是规范的，其中第1，2两个取值无需清洗；第3,4两个值需要去除首尾的空格；第5个值则需要去掉数字；

（3）身份证号码字段，取值可能如下：33000920120417****、330009201****、33000920124417****、33000920120432****；其中第1,2两个取值是规范的，需要保留，但是第2个要转成18位的号码；第3个取值不规范，因为生日中的月份为44，明显错误；第4个值也不规范，英文生日中的日期为32，明显错误；

（4）应收账款字段，取值可能如下：12340元、13.12万元、20万元整、壹拾陆万元；此类则存在取值标准不统一的问题，需要转换为如下值：12340、131200、200000、160000；

（5）出生日期字段，取值可能如下：3月15日、2020年9月18日、2011-12-23、2019/12/12；上述第一个值不规范，需要赋予默认值2012年，且四个值取值标准不统一，需要转换为如下值：2012年3月15日、2020年9月18日、2011年12月23日、2019年12月12日。

以上存在质量问题的数据，往往会导致下游使用数据的业务出现错误，导致严重后果。所以需要进行数据清洗，将这些数据问题解决之后，再共享给下游业务使用。

目前现有的实现方式，大部分情形是人工方式，人工完成数据的处理加工一般包括以下步骤：使用开发工具，连接到原始数据库，通过写SQL程序代码，获取部分数据返回到客户端，用户在开发工具撰写SQL程序，提交到数据库执行，返回部分采样数据的结果供用户仔细查看；用户肉眼查看上述结果数据，仔细判断数据中可能存在的问题；用户根据自己的经验判断，数据可能存在的数据问题，定义数据清洗规则；用户根据上述梳理好的清洗逻辑，使用开发工具，开发SQL的清洗任务程序；将清洗任务程序提交到数据库执行，将数据进行清洗转换，从而提升数据的质量。上述人工进行数据处理加工包括开发SQL获取采样数据，定义数据清洗逻辑，开发SQL进行数据清洗等过程，对用户的技术能力门槛要求很高，并且效率低、成本高。因此，急需提供一种生成数据清洗规则的方法。

发明内容

为实现上述目的，发明人提供了一种基于数据探查分析结果自动生成数据清洗规则的方法，包括以下步骤：

S1，预定义若干类型的数据，给每类型数据预定义数据值的若干统计指标；

S2，给每类数据定义若干清洗规则模板，并且给清洗规则模板关联不同的统计分析指标及触发条件，以及给清洗规则生成程序模板，修改程序模板的参数为表、字段；

S3，通过软件系统配置到数据库的连接，指定需要进行数据清洗的数据表；

S4，抽取采样若干条数据到软件系统，对每条数据每个字段的数值进行分析，判断其数据类型；

S5，统计每种类型数据的特征，包括空值、不同值、频率分布指标；

S6，系统自动判断每个统计结果中是否反映存在数据质量问题；

S7，若存在数据质量问题，则根据数据类型、统计指标，找到规则模板及对应的程序模板，将表和字段作为程序模板的参数，生成正式的加工逻辑；

S8，将全量数据抽取到本地，按照加工逻辑逐条处理记录，进行数据的清洗；

S9，将清洗之后的数据写入目录数据库中。

作为本发明的一种优选方式，步骤S1中，预定义若干类型的数据包括字符串型、数值型、日期时间型、布尔型数据。

作为本发明的一种优选方式，步骤S3中，通过软件系统配置到数据库的连接包括：配置ip地址、名称、用户名、密码。

作为本发明的一种优选方式，步骤S4中，抽取采样若干条数据到软件系统，对每条数据每个字段的数值进行分析，判断其数据类型包括以下步骤：

S401，若该字段所有数据内容包含的字符只有数字，并且不存在位数大于等于2且以0开头的数字字符，则认为该字段为数值型；

S402，若该字段所有数据内容包含的字符有非数字字符，且这些非数字字符之间通过“/”、“-”、“：”符号分隔，分隔的每段对应数字的数值，分别为四位数，小于12、小于31、小于24、小60、小于60，则认为该字段为日期时间型；

S403，若该字段所有数据内容包含的字符值为T/F、True/false、0/1、是/否，则认为是布尔类型；

S404，若该字段所有数据内容包含的字符非上述任意一种，则认为是字符串型。

作为本发明的一种优选方式，步骤S5中，统计每种类型数据的特征，包括空值、不同值、频率分布指标，还包括以下步骤：

S501，遍历表的所有字段，对每个字段，获取其类型，计算对应的统计指标；

S502，若类型为“字符串型”，则计算字符串型对应的统计指标；

S503，若类型为“数值型”，则计算数值型对应的统计指标；

S504，若类型为“日期时间型”，则计算日期时间型对应的统计指标；

S505，若类型为“布尔型”，则计算布尔型对应的统计指标。

作为本发明的一种优选方式，步骤S6中，系统自动判断每个统计结果中是否反映存在数据质量问题包括以下步骤：遍历该字段的统计指标，若该统计指标的实际结果值，满足该统计指标的触发条件，则将该统计指标对应的规则模板纳入推荐清洗规则模板集合。

作为本发明的一种优选方式，步骤S7中，若存在数据质量问题，则根据数据类型、统计指标，找到规则模板及对应的程序模板，将表和字段作为程序模板的参数，生成正式的加工逻辑包括以下步骤：若规则模板集合不为空，则认为是存在数据质量问题，由软件系统将规则模板集合提示给用户进行选择。

区别于现有技术，上述技术方案所达到的有益效果有：本方法由软件系统自动探查数据，判断数据类型，统计数据指标，判断存在数据质量问题的可能性，从而用户无需通过肉眼查看数据的方式判断数据是否存在质量问题，在提高效率、降低成本的同时，还可以提高正确率，避免人为差错；此外，本方法由软件系统自动根据模板生成清洗加工程序，系统预先内置少量的模板规则即可，无需手工开发SQL处理程序进行数据清洗，可有效避免用户技术能力门槛的限制要求。

附图说明

图1为具体实施方式所述人工处理数据流程图；

图2为具体实施方式所述人工处理数据时返回的结果内容示例图；

图3为具体实施方式所述人工处理数据时定义好的数据清洗规则示例图；

图4为具体实施方式所述字符串型分析图；

图5为具体实施方式所述日期时间型分析图；

图6为具体实施方式所述数值型分析图；

图7为具体实施方式所述程序模板的参数示例图；

图8为具体实施方式所述数据库配置内容示例图；

图9为具体实施方式所述常住人口信息数据示例图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

实施例一：背景技术中所述人工处理数据的步骤。

（1）使用开发工具，连接到原始数据库，通过写SQL程序代码，获取部分数据返回到客户端；具体的，如图1所示，用户在开发工具撰写SQL程序，提交到数据库执行，返回部分采样数据的结果供用户仔细查看；返回的结果内容如图2所示。

（2）用户肉眼查看图2中的结果数据，仔细判断数据中可能存在的问题，存在的问题参见背景技术部分；

（3）用户根据自己的经验判断，数据可能存在的数据问题，定义数据清洗规则，定义好的规则，如图3所示；

（4）用户根据上述梳理好的清洗逻辑，使用开发工具，开发SQL的清洗任务程序；

（5）将清洗任务程序提交到数据库执行，将数据进行清洗转换，从而提升数据的质量。

在本实施例中，上述步骤全部都是人工进行，包括开发SQL获取采样数据，定义数据清洗逻辑，开发SQL进行数据清洗等过程，对用户的技术能力门槛要求很高，并且效率低成本高。

实施例二：本方法处理数据的步骤。

本实施例提供了一种基于数据探查分析结果自动生成数据清洗规则的方法，包括以下步骤：

S2，给每类数据定义若干清洗规则模板，并且给清洗规则模板关联不同的统计分析指标及触发条件，以及给清洗规则生成程序模板，修改模板的参数为表、字段；

S9，将清洗之后的数据写入目录数据库中。

在上述实施例的具体实施过程中，具体包括以下步骤：

步骤S1中，预定义若干类型的数据包括字符串型、数值型、日期时间型、布尔型数据，给每类型数据预定义数据值的若干统计指标，如图4、图5和图6所示。

步骤S2中，给每类数据定义若干清洗规则模板，并且给清洗规则模板关联不同的统计分析指标及触发条件，以及给清洗规则生成程序模板，改程序模板的参数为表、字段；如图7所示。

步骤S3中，在软件系统上面配置数据库的连接，指定需要进行数据清洗的数据表；如图8所示，其为数据连接的配置内容，包括ip地址、名称、用户名、密码等。图9为该数据库的“常住人口信息”数据表，包含图中所示字段。

步骤S4中，抽取采样若干条数据到软件系统，对每条数据每个字段的数值进行分析，判断其字段的数据类型，判断逻辑包括以下步骤：

S402，若该字段所有数据内容包含的字符有非数字字符，且这些非数字字符之间通过“/”、“-”、“：”等符号分隔，分隔的每段对应数字的数值，分别为四位数，小于12、小于31、小于24、小60、小于60，则认为该字段为日期时间型；

步骤S5中，统计每种类型数据的特征，包括空值、不同值、频率分布等多种指标，还包括以下步骤：

S501，遍历表的所有字段，对每个字段，获取其字段类型，计算对应的统计指标；

S503，若类型为“数值型”，则计算数值型对应的统计指标；

S505，若类型为“布尔型”，则计算布尔型对应的统计指标。

步骤S6中，系统自动判断每个统计结果中是否反映存在数据质量问题包括以下步骤：遍历该字段的统计指标，若该统计指标的实际结果值，满足该统计指标的触发条件，则将该统计指标对应的规则模板纳入推荐清洗规则模板集合。

步骤S7中，若存在数据质量问题，则根据数据类型、统计指标，找到规则模板及对应的程序模板，将表和字段作为程序模板的参数，生成正式的加工逻辑包括以下步骤：若规则模板集合不为空，则认为是存在数据质量问题，由软件系统将规则模板集合提示给用户进行选择。例如：

（1）去除所有空格；

（2）去除数字；

（3）NULL替换为空字符串；

（4）截取后N位；不够末尾补充0；

如果用户选择上述（1）、（3），则系统根据（1）、（3）的规则模板对应的程序模板，将表和字段作为程序模板的参数，生成正式的加工逻辑。

S9，将清洗之后的数据写入目录数据库中。

在上述实施例的实施过程中，本方法由软件系统自动探查数据，判断数据类型，统计数据指标，判断存在数据质量问题的可能性，从而用户无需通过肉眼查看数据的方式判断数据是否存在质量问题，在提高效率、降低成本的同时，还可以提高正确率，避免人为差错；此外，本方法由软件系统自动根据模板生成清洗加工程序，系统预先内置少量的模板规则即可，无需手工开发SQL处理程序进行数据清洗，可有效避免用户技术能力门槛的限制要求。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种基于数据探查分析结果自动生成数据清洗规则的方法，其特征在于，包括以下步骤：

S9，将清洗之后的数据写入目录数据库中。

2.根据权利要求1所述的方法，其特征在于，步骤S1中，预定义若干类型的数据包括字符串型、数值型、日期时间型、布尔型数据。

3.根据权利要求1所述的方法，其特征在于，步骤S3中，通过软件系统配置到数据库的连接包括：配置ip地址、名称、用户名、密码。

4.根据权利要求1所述的方法，其特征在于，步骤S4中，抽取采样若干条数据到软件系统，对每条数据每个字段的数值进行分析，判断其数据类型包括以下步骤：

若该字段所有数据内容包含的字符值为T/F、True/false、0/1、是/否，则认为是布尔类型；

若该字段所有数据内容包含的字符非上述任意一种，则认为是字符串型。

5.根据权利要求1所述的方法，其特征在于，步骤S5中，统计每种类型数据的特征，包括空值、不同值、频率分布指标，还包括以下步骤：

S503，若类型为“数值型”，则计算数值型对应的统计指标；

S505，若类型为“布尔型”，则计算布尔型对应的统计指标。

6.根据权利要求1所述的方法，其特征在于，步骤S6中，系统自动判断每个统计结果中是否反映存在数据质量问题包括以下步骤：遍历该字段的统计指标，若该统计指标的实际结果值，满足该统计指标的触发条件，则将该统计指标对应的规则模板纳入推荐清洗规则模板集合。

7.根据权利要求6所述的方法，其特征在于，步骤S7中，若存在数据质量问题，则根据数据类型、统计指标，找到规则模板及对应的程序模板，将表和字段作为程序模板的参数，生成正式的加工逻辑包括以下步骤：若规则模板集合不为空，则认为是存在数据质量问题，由软件系统将规则模板集合提示给用户进行选择。