CN112651296A

CN112651296A - 一种无先验知识数据质量问题自动探查方法及系统

Info

Publication number: CN112651296A
Application number: CN202011320816.4A
Authority: CN
Inventors: 王超; 夏同飞; 李志�; 章玉龙; 陶鹏; 刘磊; 郑杰文; 戴聿雯
Original assignee: State Grid Information and Telecommunication Co Ltd; Anhui Jiyuan Software Co Ltd
Current assignee: Anhui Jiyuan Software Co Ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-04-13

Abstract

本发明的一种无先验知识数据质量问题自动探查方法及系统，包括：通过训练好的数据字段的非空要求的模型，自动识别出数据字段异常空值的情况，并标记为异常数据；识别建立数据表间外键关系，并识别出外键缺失的异常数据；自动识别表中的实际主键，并对非唯一的主键进行识别并标记。本发明的无先验知识数据质量问题自动探查方法及系统通过集成多个自动化地算法系统对数据进行检验，减少人力耗费；在数据质量核查过程中，无需人工提供核查规则；具备可学习的的特性，随着模型应用时间的增加，其识别准确率会越来越高；在模型识别过程中，会自动产生发现部分数据间的逻辑联系，便于数据盘点工作的展开。

Description

一种无先验知识数据质量问题自动探查方法及系统

技术领域

本发明涉及数据质量核查技术领域，具体涉及一种无先验知识数据质量问题自动探查方法及系统。

背景技术

通过机器学习、深度学习，在不提供业务数据规则的前提下，利用多种人工智能算法，可体系化地自动识别大多类型的数据问题。

目前对于已有大数据的数据质量核查工作存在问题发现效率不高，过分依赖业务逻辑进行核查的问题。

发明内容

本发明提出的一种无先验知识数据质量问题自动探查方法及系统，可实现自动化地发现已有数据中疑似存在的问题数据，提升数据质量核查的效率、强化数据质量的管控手段。

为实现上述目的，本发明采用了以下技术方案：

一种无先验知识数据质量问题自动探查方法，包括：

S11、通过训练好的数据字段的非空要求的模型，自动识别出数据字段异常空值的情况，并标记为异常数据；

S12、识别建立数据表间外键关系，并识别出外键缺失的异常数据；

S13、自动识别表中的实际主键，并对非唯一的主键进行识别并标记。

进一步的，还包括以下步骤：

S21、自动分析文本类字段的实际数据类型，并自动标记异常的数据类型；

S22、自动识别长度离群的文本、编码字段并标记；

S23、自动识别文本、编码类字段的文本模式，自动找出不符合文本模式的数据；

S24、自动识别数据精度低于一定数值，并标记为异常数据。

进一步的，还包括以下步骤：

S31、自动识别数值类字段中的离群数值并标记；

S32、自动拟合数值类字段间的计算关系，并将不符合计算关系的数据标记为异常；

S33、智能识别字段间的大于、小于及等于关系，并将不符合逻辑关系的数据标记为异常；

S34、智能识别利群代码值，标记为异常数据。

进一步的，还包括以下步骤：

S41、自动识别内容高度相似表，并自动识别表间不一致数据并标记。

进一步的，所述S11具体包括：

1).去除噪音，识别枚举字段，GroupBy分类少于10的；

2).整表按照以下规则向量化，非枚举字段：空值为0、非空值为 1；枚举字段，空值为0，其他枚举类依次为1-9；

3).通过主成分分析算法判断各字段间的关联关系，如果有k个字段，先拿第1个字段做y，其他字段做x，再拿第2个字段做y，其他字段做x，以此类推直到所有字段都做过y；

4).依次处理每个字段：

a)如果该字段没有关联字段，如果空值率低于一定的阀值，则将该字段中的非空字段进行标记；

b)对于有关联关系的字段：

i.输入是有关联的字段，输出是当前字段；

ii.对所有输入字段的样本做均匀化处理；

iii.对全量数据进行训练，训练后在对全量数据进行验证，预测结果和实际结果不一致的则为异常数据。

进一步的，所述S12具体包括：

1).扫描全库中字段间的相似度，或者拿主键和所有字段做对比；

2).对相似的字段两两做交集，若差集结果在其中一个字段的占比高于设定值，则认为两个字段为映射字段；

3).计算2个字段GroupBy后的分类数，按照如下条件进行评分：

a)分类数/字段数，比值大的加1分

b)分类数大的加1分；

c)差集数/字段数比值小的加1分；

最终结果得分高的为主键、低的为外键，并记录主外键关系；

4).识别外键缺失的数据。

进一步的，所述S21具体包括：

1).逐个字段扫描文本类字段中所有的数据，不包括空值，识别如下内容：

i.能分词出中文的，认为是文本；

ii.识别不出中文的，看能不能转成日期；

iii.识别不出来的，如果首字符是0或者包含非数字、小数点的字符，则为编码；

iv.以上都不是则为数值；

以上类型分别向量化为0-3；

2).对单个字段的向量化做聚类，如果发现大于设置值的类型，则标记该字段为该类型，如果数量达到设定值的类型，则标记为未知字段；

3).标记各字段中非该字段类型的数据，标记为疑似问题数据。

另一方面，本发明还公开一种无先验知识数据质量问题自动探查系统，包括以下单元：

数据项缺失识别模块，用于通过训练好的数据字段的非空要求的模型，自动识别出数据字段异常空值的情况，并标记为异常数据；

数据外键缺失识别模块，用于识别建立数据表间外键关系，并识别出外键缺失的异常数据；

主键冲突识别模块，自动识别表中的实际主键，并对非唯一的主键进行识别并标记。

进一步的，还包括以下单元：

数据类型错误识别单元，用于自动分析文本类字段的实际数据类型，并自动标记异常的数据类型；

数据文本长度异常识别单元，用于自动识别长度离群的文本、编码字段并标记；

数据文本模式异常识别单元，用于自动识别文本、编码类字段的文本模式，自动找出不符合文本模式的数据；

数据精度错误识别单元，用于自动识别数据精度低于一定数值，并标记为异常数据。

进一步的，还包括以下单元：

数据值域错误或量纲错误识别单元，用于自动识别数值类字段中的离群数值并标记；

数据计算错误识别单元，用于自动拟合数值类字段间的计算关系，并将不符合计算关系的数据标记为异常；

数据逻辑关系错误识别单元，用于智能识别字段间的大于、小于及等于关系，并将不符合逻辑关系的数据标记为异常；

数据代码错误识别单元，用于智能识别利群代码值，标记为异常数据；

跨表数据不一致识别单元，用于自动识别内容高度相似表，并自动识别表间不一致数据并标记。

由上述技术方案可知，本发明的无先验知识数据质量问题自动探查方法通过自动化地算法系统对数据进行检验，减少人力耗费；在数据质量核查过程中，无需人工提供核查规则；具备可学习的的特性，随着模型应用时间的增加，其识别准确率会越来越高；在模型识别过程中，会自动产生发现部分数据间的逻辑联系，便于数据盘点工作的展开。

附图说明

图1是本发明方法的步骤示意图；

图2是本发明的数据项缺失识别方法的流程图；

图3是本发明的数据项缺失识别方法的应用场景；

图4是本发明的数据外键缺失识别算法的流程图；

图5是本发明的数据外键缺失识别算法的应用场景；

图6是本发明的主键冲突识别算法的流程图；

图7是本发明的主键冲突识别算法的应用场景；

图8是本发明的数据类型错误识别算法的流程图；

图9是本发明的数据类型错误识别算法的应用场景；

图10是本发明的数据文本长度异常识别算法的流程图；

图11是本发明的数据文本长度异常识别算法的应用场景；

图12是本发明的数据文本模式异常识别算法的流程图；

图13是本发明的数据文本模式异常识别算法的应用场景；

图14是本发明的数据精度错误识别算法的流程图；

图15是本发明的数据精度错误识别算法的应用场景；

图16是本发明的数据值域错误或量纲错误识别算法的流程图；

图17、图18是本发明的数据值域错误或量纲错误识别算法的应用场景；

图19是本发明的数据计算错误识别算法的流程图；

图20是本发明的数据计算错误识别算法的应用场景；

图21是本发明的数据逻辑关系错误识别算法的流程图；

图22是本发明的数据逻辑关系错误识别算法的应用场景；

图23是本发明的数据代码错误识别算法的流程图；

图24是本发明的数据代码错误识别算法的应用场景；

图25是本发明的跨表数据不一致识别算法的流程图；

图26是本发明的跨表数据不一致识别算法的应用场景。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1所示，本实施例所述的无先验知识数据质量问题自动探查方法，包括：

S13、自动识别表中的实际主键，并对非唯一的主键进行识别并标记；

S22、自动识别长度离群的文本、编码字段并标记；

S24、自动识别数据精度低于一定数值，并标记为异常数据；

S31、自动识别数值类字段中的离群数值并标记；

S34、智能识别利群代码值，标记为异常数据；

具体的说，本发明实施例针对数据的完整性、合规性、准确性、一致性四个方面，提出了十二项算法，具体如下：

一、针对数据的完整性问题，完整性嗅探器包含了三项算法：数据项缺失识别算法、数据外键缺失识别算法、主键冲突识别算法。

11)数据项缺失识别算法：自动识别数据字段为空异常，流程如图2，通过深度学习算法训练不同场景下对数据字段的非空要求的模型，自动识别出数据字段异常空值的情况，对极少出现空值字段中出现空值的情况标记为异常数据，应用场景如图3。

具体实施步骤：

1.去除噪音，识别枚举字段，GroupBy分类少于10的；

2.整表按照以下规则向量化，非枚举字段：空值为0、非空值为1；枚举字段，空值为0，其他枚举类依次为1-9；

3.通过主成分分析算法，判断各字段间的关联关系，如果有k个字段，先拿第1个字段做y，其他字段做x，再拿第2个字段做y，其他字段做x，以此类推直到所有字段都做过y，(备注：这种向量化处理下，字段间若有关系，关联系数应该非常大，需要通过实验确定一个阀值)；

4.依次处理每个字段：

b)对于有关联关系的字段：

i.输入是有关联的字段，输出是当前字段；

ii.对所有输入字段的样本做均匀化处理(例如关联字段2个A和B， A有2类值，B有3类值，则组合成6类样本，去掉6类中数据量为0的样本，再对有效类的数量从大到小进行排序，摒弃掉数量太少的类(怎么定义数量太少，要根据实验来，比如<100)，从未摒弃的类中取出数量做小的类，其数量作为基础，从其他有效类型中随机抽取相同数量的数据)；

iii.对全量数据进行训练，训练后在对全量数据进行验证，预测结果和实际结果不一致的则为异常数据；

12)数据外键缺失识别算法：智能识别建立数据表间外键关系，并识别出外键缺失的异常数据，流程如图4。智能识别所有表间的相似字段，对所有相似字段两两做交集，若交集结果在其中一个字段的占比极高，则认为两者是外键关系，并依据依赖外键关系自动识别出外键缺失的异常数据，应用场景如图5。

具体实施例步骤：

1.扫描全库中字段间的相似度，或者拿主键和所有字段做对比；

2.对相似的字段两两做交集，若差集结果在其中一个字段的占比极高(这个阀值需要实验)，则认为两个字段为映射字段；

3.计算2个字段GroupBy后的分类数，按照如下条件进行评分：

a)分类数/字段数，比值大的加1分；

b)分类数大的加1分；

c)差集数/字段数比值小的加1分；

4.识别外键缺失的数据。

13)主键冲突识别算法：自动识别表中的实际主键，并对非唯一的主键进行识别，流程如图6。对字段内所有值进行聚类，若聚类结果极其离散，则认为该字段为主键，并自动识别字段内的非唯一值，应用场景如图7。

具体实施步骤：

1.对字段GroupBY；

2.对GroupBy结果进行聚类；

3.如果聚类结果收敛于1，则认为该字段为主键，并识别出非唯一的值。

同时本实施例还包括以下步骤：

二、针对数据的合规性问题，合规性嗅探器包含了四项算法：数据类型错误识别算法、数据文本长度异常识别算法、数据文本模式异常识别算法、数据精度错误识别算法；

21)数据类型错误识别算法：智能分析文本类字段的实际数据类型，并自动标记异常的数据类型，流程如图8。通过命名体识别技术，建立文本(例如名称、地址等)、数值、编码(列出ID、枚举代码等)、日期等数据类型的识别模型，为各字段自动标记类型标签，并依据字段类型标签识别字段中格式不合规的异常数据，应用场景如图9。

具体实施步骤：

1.逐个字段扫描文本类字段(排除枚举类字段)中所有的数据(不包括空值)，识别如下内容：

i.能分词出中文的，认为是文本；

ii.识别不出中文的，看能不能转成日期；

iv.以上都不是则为数值；

以上类型分别向量化为0-3；

2.对单个字段的向量化做聚类，如果发现极大的类型，则标记该字段为该类型，如果数量相近的类型(具体阀值需要通过实验来确定)，则标记为未知字段；

3.标记各字段中非该字段类型的数据，标记为疑似问题数据。

22)数据文本长度异常识别算法：自动识别长度离群的文本、编码字段，流程如图10。对文本、编码类字段(排除枚举类字段)内所有数据的长度进行聚类，找出长度特别离群的数据，标记为异常数据，应用场景如图11。

23)数据文本模式异常识别算法：智能识别文本、编码类字段的文本模式，自动找出不符合文本模式的数据，流程如图12。通过中文分词、命名体识别技术，智能识别出文本、编码类字段的组成模式，并通过深度学习算法，训练出识别不同场景下文本模式的模型，应用场景如图13。

实施步骤如下：

1.通过中文分词算法对文本进行分词，并获取词性(特别是看能不能找都那种更加精确的词性，例如区分出是地址、人名之类的，如果实在不行能区分出名词、量词之类的也行)；

2.对不同的词性、数字、字母、特殊字符等类型进行向量化，例如；0为无法识别，数字为1、字母为2、-为3...、名词为5、量词为6 等，例如：“SKY-长隆小区-3栋308室”，向量化为2(SKY)3(-)5 (长隆)5(小区)3(-)1(3)6(栋)1(308)6(室)；

3.该表其他字段按照值缺失中方法的第2步进行向量化；

4.以1个文本类型字段为y，其他字段为x，按照值缺失方法中的第 3步求各文本字段的关联关系，直到所有的文本类型字段均作为y；

5.如果没有关联字段，进行聚类，找出不合群的模式，识别为异常；如果有关联字段，按照值缺失方法中第4步进行训练识别。

24)数据精度错误识别算法：自动识别极少出现的数据精度，并标记为异常数据，流程如图14。自动对数值字段、标记为数值的文本字段中全部数据精度进行分类，挑选出数量极少的精度分类，标记为异常数据，应用场景如图15。

三、针对数据的准确性问题，准确性嗅探器包含了四项算法：数据值域错误或量纲错误识别算法、数据计算错误识别算法、数据逻辑关系错误识别算法、数据代码错误识别算法；

31)数据值域错误或量纲错误识别算法：自动识别数值类字段中的离群数值，流程如图16。对数值型字段内的所有数据进行聚类，挑选出其中数量极少且离群严重的数据，标记为异常数据，应用场景如图17、18。

32)数据计算错误识别算法：智能拟合数值类字段间的计算关系，并将不符合计算关系的数据标记为异常，流程如图19。首先运用主成分分析算法，找到存在关联关系的字段，再运用多维拟合算法，拟合出关联字段间的计算公式，最后使用计算公式进行模拟计算，将与计算结果偏离较大的数据标记为异常数据，应用场景如图20。

方法:

1.所有的数值类字段、数值类文本字段均数值化，其他所有字段均按照值缺失方法中的第2步进行向量化；

2.按照值缺失中的第3步找到关联字段；

3.逐个处理有关联的字段集合(字段集合中数值类字段要大于等2个)，每个集合中将非数值的其他字段进行排列组合，每个组合单独进行下一步操作；

4.对字段集合中的数值字段进行滑动拟合，使用多维拟合算法(难点，需要调研，但肯定有解)，拟合出具体的计算公式，拟合出公式后再进行计算，看计算结果与实际结果的偏离程度，偏离较大的标记为异常数据(至于偏离多大需要看实验来定)。

33)数据逻辑关系错误识别算法：智能识别字段间的大于、小于及等于关系，并将不符合逻辑关系的数据标记为异常，流程如图21。对数值、日期字段两两做差，通过深度学习算法，训练出识别不同场景下差值正负情况的模型，并依据模型找到字段中不符合逻辑关系的异常数据，应用场景如图22。

具体实施步骤：

1.所有的数值类字段、日期类字段、数值类文本字段、日期类文本字段均数值化，其他所有字段均按照值缺失方法中的第2步进行向量化；

2.按照值缺失中的第3步找到关联字段；

3.逐个处理有关联的字段集合(字段集合中数值类字段要大于等 2个，或者日期类的大于等于2个)，每个集合中将非数值的其他字段进行排列组合，每个组合单独进行下一步操作；

4.

a)对字段集合中的日期和数值分别进行两两组合(日期之和日期组合，数值之和数值组合)，两个字段进行相减，计算结算结果分别按照小于0为0、等于0为1、大于0为2进行向量化；

b)按照值缺失方法中的4.2.2对各类组合的样本进行均匀化；

c)对全量数据进行训练，训练后在对全量数据进行验证，预测结果和实际结果不一致的则为异常数据；

34)数据代码错误识别算法：智能识别利群代码值，标记为异常数据，流程如图23。对识别为枚举类型的字段进行聚类，识别出数量极少的代码，标记为异常数据，应用场景如图24。

四、针对数据的一致性问题，一致性嗅探器包含了一项算法：跨表数据不一致识别算法；

41)跨表数据不一致识别算法：智能识别内容高度相似表，并自动识别表间不一致数据，流程如图25。基于智能识别的外键结果，对具备外键关系的数据表进行相似度对比，对于高度相似的表，逐条对比表间数据，并自动识别不一致的数据，应用场景如图26。

由上述技术方案可知，本发明的无先验知识数据质量问题自动探查方法通过集成上述12中自动化地算法系统对数据分别进行检验，减少人力耗费；在数据质量核查过程中，无需人工提供核查规则；具备可学习的的特性，随着模型应用时间的增加，其识别准确率会越来越高；在模型识别过程中，会自动产生发现部分数据间的逻辑联系，便于数据盘点工作的展开。

另一方面，本发明实施例还对应公开一种无先验知识数据质量问题自动探查系统，包括以下单元：

主键冲突识别模块，自动识别表中的实际主键，并对非唯一的主键进行识别并标记；

数据精度错误识别单元，用于自动识别数据精度低于一定数值，并标记为异常数据；

可理解的是，本发明实施例提供的系统与本发明实施例提供的方法相对应，相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和 /或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种无先验知识数据质量问题自动探查方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的无先验知识数据质量问题自动探查方法，其特征在于，还包括以下步骤：

S22、自动识别长度离群的文本、编码字段并标记；

S24、自动识别数据精度低于一定数值，并标记为异常数据。

3.根据权利要求2所述的无先验知识数据质量问题自动探查方法，其特征在于，还包括以下步骤：

S31、自动识别数值类字段中的离群数值并标记；

S34、智能识别利群代码值，标记为异常数据。

4.根据权利要求3所述的无先验知识数据质量问题自动探查方法，其特征在于，还包括以下步骤：

5.根据权利要求1所述的无先验知识数据质量问题自动探查方法，其特征在于，所述S11具体包括：

1).去除噪音，识别枚举字段，GroupBy分类少于10的；

2).整表按照以下规则向量化，非枚举字段：空值为0、非空值为1；枚举字段，空值为0，其他枚举类依次为1-9；

4).依次处理每个字段：

b)对于有关联关系的字段：

i.输入是有关联的字段，输出是当前字段；

ii.对所有输入字段的样本做均匀化处理；

6.根据权利要求1所述的无先验知识数据质量问题自动探查方法，其特征在于，所述S12具体包括：

3).计算2个字段GroupBy后的分类数，按照如下条件进行评分：

a)分类数/字段数，比值大的加1分

b)分类数大的加1分；

c)差集数/字段数比值小的加1分；

4).识别外键缺失的数据。

7.根据权利要求2所述的无先验知识数据质量问题自动探查方法，其特征在于，所述S21具体包括：

i.能分词出中文的，认为是文本；

ii.识别不出中文的，看能不能转成日期；

iv.以上都不是则为数值；

以上类型分别向量化为0-3；

8.一种无先验知识数据质量问题自动探查系统，其特征在于，包括以下单元：

9.根据权利要求8所述的一种无先验知识数据质量问题自动探查系统，其特征在于，还包括以下单元：

10.根据权利要求8所述的一种无先验知识数据质量问题自动探查系统，其特征在于，还包括以下单元：