CN111046056A

CN111046056A - 基于数据模式聚类的数据一致性评估方法

Info

Publication number: CN111046056A
Application number: CN201911362800.7A
Authority: CN
Inventors: 唐雪飞; 蒲高飞; 黄永鑫; 王东方; 胡茂秋
Original assignee: Chengdu Comsys Information Technology Co ltd
Current assignee: Chengdu Comsys Information Technology Co ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-04-21

Abstract

本发明公开一种基于数据模式聚类的数据一致性评估方法，应用于大数据分析处理领域，针对现有技术无法解决多模式共存字段的一致性评估的问题，本发明首先根据确定的模式聚类算法对从数据库中读取的待评估的字段进行模式聚类，然后在聚类出的模式中确定标准模式，最后采用标准模式对待测字段的值进行模式匹配得到脏数据；尤其适用于数据工程师对业务不了解，难以确定哪些模式是合理存在的应用场景。

Description

基于数据模式聚类的数据一致性评估方法

技术领域

本发明属于大数据分析处理领域，特别涉及一种对结构化数据的一致性评估技术。

背景技术

结构化数据，简单来说就是数据库。结合到典型场景中更容易理解，比如企业ERP、财务系统；医疗HIS数据库；教育一卡通；政府行政审批；其他核心数据库等。

基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

结构化数据也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据，包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理，广泛应用于全文检索和各种多媒体信息处理领域。

在当今大数据时代，各类业务繁多,应用系统纷繁复杂，在系统建设过程中往往会忽视数据质量的重要性，没有采取足够的措施,导致随着系统和数据的逐步深入应用，数据质量问题一点点暴露出来，比如数据的有效性、准确性、一致性等。最坏的结果就是用户感觉系统和数据是不可信的，最终放弃了使用系统，这样也就失去了建设系统的意义。其中数据一致性是数据质量评估的一个维度，侧重评估数据变更或变异的程度。通常评估数据一致性会首先规定数据的标准模式，然后将字段真实的值与规定的模式一一对照，筛选出模式不符合的值。事实上，这种评估方式非常低效而且无法解决如下问题：

如果该字段允许多种模式的存在，数据工程师对业务不了解，不知道哪些模式是合理存在的，此时则无法规定出评判数据是否合理的标准模式。

发明内容

为解决上述技术问题，本发明提出一种基于数据模式聚类的数据一致性评估方法，通过对字段内数据进行模式聚类的方法来聚类出当前字段中所有存在的模式，然后数据工程师可以在其中选择一个或多个模式作为标准模式，最后对数据进行模式匹配识别出脏数据。

本发明采用的技术方案为：一种基于数据模式聚类的数据一致性评估方法，首先设计模式聚类算法，然后对从数据库中读取的待评估的字段进行模式聚类，然后在聚类出的模式中确定标准模式，最后采用标准模式对待测字段的值进行模式匹配得到脏数据。

所述模式聚类算法具体为：根据字段所包含的字符种类，分别将各种字符类别作为一种模式，并统计该字段中各模式出现的次数。

所述字符种类包括：“字母”、“数字”、“中文”、“/”、“-”、“_”、“空格”以及“特殊字符”。

具体的：将字段中出现的“/”、“-”、“_”、“空格”以及“特殊字符”采用各自的字符进行表示，将字段中出现的大写字母用某个大写字母统一表示，将字段中出现的小写字母用某个小写字母统一表示，将字段中出现的数字用“9”表示。

所述标准模式为采用模式聚类结果中占比最高的若干个模式作为标准模式。

所述该若干个标准模式之和大于85％。

本发明的有益效果：本发明的方法能够预先聚类出数据存在哪些模式，并计算出各种模式的占比；数据工程师可以根据评估结果选择最合理的模式作为标准模式来评估字段的数据，可以作为评估数据一致性的一种方法。本发明解决了数据工程师不熟悉业务，也不熟悉数据，难以直接定义标准模式的问题。在大数据时代，数据工程师需要负责的业务非常多，根本不可能熟悉所有的数据，因此这样的场景非常多，本发明非常值得推广使用。

附图说明

图1为本发明的方案流程图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

首先介绍本发明使用场景，本发明可用于任何需要评估字段内数据值模式是否符合要求的场景。特别是在数据工程师不能预先了解待测字段标准模式的情况下，本发明可帮助数据工程师轻松评估字段数据一致性。

如图1所示，假设存在一张二维表T，该表存在电话号码字段F，我们想要找到其中不符合电话号码格式的数据。则我们可以采用下面的模式聚类算法对字段F的值进行模式聚类。

输入：待测单列字段F。该字段的值可包含“字母”、“数字”、“中文”、“/”、“-”、“_”、“空格”以及除此之外的特殊字符。

具体模式聚类方法：对于输入的单列字段，首先检测该字段是否存在空值，若存在，则将空值也作为一种格式模式，并计算空值出现的次数。算法统一将字段值中出现的大写字母用’A’表示，将小写字母用’a’表示，将数字用’9’表示。接下来判断字段值是否包含中文，若包含，则统计该类格式的数量；判断字段值是否包含除字母、数字、中文、/、-、_、空格以外的特殊字符，若包含，则统计该类格式的数量；判断字段值是否存在字符全部相同的情况，若存在，则统计该类模式的数量。

输出：被检测字段所具有的格式模式及各模式所对应的数量。

算法复杂度：O(n)

观察上述算法执行得到的结果，我们可以发现被测字段中的所有值模式，包含999-99999999、9999-9999999、99999999999、0{11}、9{6}、a99999。

我们分析聚类出的模式可知，0{11}是指11位全部为0的字符串不符合电话号码格式，9{6}是指6位全部为9的字符串也不符合，a99999也不符合。我们可以选择999-99999999、9999-9999999、99999999999三种模式作为标准模式进行下一步操作。一般选择模式占比最高的前几个模式作为标准模式，常规的选出的标准模式占比之和大于85％，且标准模式中最小占比的模式比其相邻的较小模式的占比大至少10％。

接下来我们用模式匹配算法对字段F中的数据进行模式匹配。

输入：标准模式集合、字段F、主键字段P。

方法：对上一步操作的算法进行修改，将字段F中的值与标准模式进行匹配

输出：被检测字段所有不符合标准模式的值及对应的主键值

本实施例以学生基本信息表的模式聚类为例对本发明的内容进一步阐述：

例如存在学生基本信息表Student，表中存在字段主键ID、电话号码PHONE，我们想要了解PHONE字段中的数据是否都符合电话号码的格式。这时候我们数据工程师犯难了，他不知道有哪些格式是符合电话号码的格式，他只能从长度上去考虑或者写一个复杂的正则表达式去匹配。实际的数据有可能存在中间存在“-”的座机号，也可能带有国际区号，也可能长度11位、12位或者其他也是正确的号码。很难定义长度，也几乎写出性能可以接受的正则表达式，因此这两种方法都行不通。如图1所示，采用本发明的方法可以轻松解决这一难题；详细过程如下：

首先使用上述模式聚类算法对PHONE字段值进行模式聚类，并进行占比排序。聚类出的结果如下。

模式999-99999999占比36％、

模式9999-9999999占比29％、

模式99999999999占比27％、

模式0{11}占比6％、

模式9{6}占比1％、

模式a99999占比1％

观察上述聚类结果，根据上述标准模式选取方式，本领域技术人员可以很容易发现前面三种模式占比远高于其他模式，并且很直观地表现出了它们是符合电话号码的模式。我们可以选择这三种模式作为标准模式进行下一步工作。

接下来，我们将模式999-99999999、9999-9999999、99999999999作为标准模式采用上述模式匹配算法对字段值进行模式匹配。匹配出的结果如下，此处只列举部分结果。

ID PHONE

1191 00000000000

1192 00000000000

…

2125 999999

…

3017 s68782

…

由此可以很清晰地看到脏数据所在的位置。

由上述实例说明，当数据工程师不熟悉业务，也不熟悉数据，难以直接定义标准模式的时候，采用本发明的方法可以轻松对数据一致性进行评估。可以作为评估数据一致性的一种方法。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于数据模式聚类的数据一致性评估方法，其特征在于，首先根据确定的模式聚类算法对从数据库中读取的待评估的字段进行模式聚类，然后在聚类出的模式中确定标准模式，最后采用标准模式对待测字段的值进行模式匹配得到脏数据。

2.根据权利要求1所述的所述一种基于数据模式聚类的数据一致性评估方法，其特征在于，所述模式聚类算法为：根据字段所包含的字符种类，分别将各种字符类别作为一种模式，并统计该字段中各模式出现的次数。

3.根据权利要求2所述的所述一种基于数据模式聚类的数据一致性评估方法，其特征在于，所述字符种类包括：“字母”、“数字”、“中文”、“/”、“-”、“_”、“空格”以及“特殊字符”。

4.根据权利要求3所述的所述一种基于数据模式聚类的数据一致性评估方法，其特征在于，具体的：将字段中出现的“/”、“-”、“_”、“空格”以及“特殊字符”采用各自的字符进行表示，将字段中出现的大写字母用某个大写字母统一表示，将字段中出现的小写字母用某个小写字母统一表示，将字段中出现的数字用某个数字统一表示。

5.根据权利要求4所述的所述一种基于数据模式聚类的数据一致性评估方法，其特征在于，所述标准模式为采用模式聚类结果中占比最高的若干个模式作为标准模式。

6.根据权利要求5所述的所述一种基于数据模式聚类的数据一致性评估方法，其特征在于，所述该若干个标准模式之和大于85％。