CN111125172A

CN111125172A - 一种基于多列关系的数据有效性评估方法及系统

Info

Publication number: CN111125172A
Application number: CN201911362836.5A
Authority: CN
Inventors: 唐雪飞; 蒲高飞; 黄永鑫; 王东方; 胡茂秋
Original assignee: Chengdu Comsys Information Technology Co ltd
Current assignee: Chengdu Comsys Information Technology Co ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-08

Abstract

本发明公开一种基于多列关系的数据有效性评估方法及系统，应用于大数据分析处理领域，针对现有技术对于预先不知道数据之间存在什么样的关系，因而无法了解字段是否有效的问题，本发明首先使用近似函数依赖算法发现数据表中各字段间的关系，然后找到支持度最高的字段组合进行分析得到对应的关系表达式，最后校验字段各行数据是否符合该关系表达式；若符合该关系表达式，则对应的数据有效；否则无效；本发明的方法及系统实现了对常规数据有效性评估。

Description

一种基于多列关系的数据有效性评估方法及系统

技术领域

本发明属于大数据分析处理领域，特别涉及一种对结构化数据的有效性评估技术。

背景技术

结构化数据，简单来说就是数据库。结合到典型场景中更容易理解，比如企业ERP、财务系统；医疗HIS数据库；教育一卡通；政府行政审批；其他核心数据库等。

基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

结构化数据也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据，包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理，广泛应用于全文检索和各种多媒体信息处理领域。

数据无处不在。随着数据创建的数量、来源和速度的增加，数据质量问题也日益严重。数据治理越来越引起各企事业单位的重视。有效地评估数据质量是数据治理的关键。其中数据有效性是数据质量评估的一个重要维度，侧重评估数据是否可用，是否是正确有效的。通常评估数据有效性会针对单个字段的特点首先规定数据有效的规则，然后将字段真实的值与规定规则一一匹配，筛选出不符合规则的值。事实上，这种评估方式可以解决大多数的应用场景。但是这种方法无法解决如下问题：

如果该字段与其他字段存在某种关系，且我们预先不知道存在什么样的关系，我们则无法设置校验字段值是否有效的规则，因此无法使用上面的方法评估该字段值与其他字段值是否满足对应的关系。例如，表中存在字段F1,F2，F3,我们预先不知道它们的关系，实际上它们需要满足F1+F2＝F3的关系才算有效数据。使用传统的方法根本无法去找到不满足该关系的数据。

发明内容

为解决上述技术问题，本发明提出一种基于多列关系的数据有效性评估方法，先通过近似函数依赖算法TANE发现字段间的关系，然后使用关系规则去校验每一行存在该关系相关字段数据值是否有效，最后筛选出不满足关系的数据行的方法。该方法可以作为常规数据有效性评估方法的补充。

本发明采用的技术方案为：一种基于多列关系的数据有效性评估方法，首先使用近似函数依赖算法TANE发现数据表中各字段间的关系，然后找到支持度最高的字段组合进行分析得到对应的关系表达式(如a+b+c＝d，a<b)，最后校验字段各行数据是否符合该关系表达式；若符合该关系表达式，则对应的数据有效；否则无效。

使用近似函数依赖算法TANE发现表中各字段间的关系后，还包括：采用基于支持度的排序策略。

使用近似函数依赖算法TANE发现表中各字段间的关系，包括若干候选近似函数。

所述基于支持度的排序策略具体为按照候选近似函数的支持度进行降序排序。

一种基于多列关系的数据有效性评估系统，包括：规则挖掘模块、策略模块、关系表达式生成模块以及筛选模块；所述规则挖掘模块采用近似函数依赖算法从数据表中挖掘得到近似函数依赖；所述策略模块对挖掘出的近似函数依赖采用基于支持度的排序策略；所述关系表达式生成模块根据策略模块输出的最高支持度对应的近似函数依赖生成关系表达式；所述筛选模块根据生成的关系表达式对数据表中的数据进行筛选。

本发明的有益效果：本发明通过预先发现表中字段最可能存在关系的元组；数据工程师可以根据第一步发现的元组进一步分析找到更为具体的关系规则来评估字段的数据，可以作为评估数据一致性的一种方法；本发明的方法解决了数据工程师不熟悉业务，也不熟悉数据，表中字段很多命名不规范难以阅读而无法了解字段是否有效的问题；在大数据时代，数据工程师需要负责的业务非常多，根本不可能熟悉所有的数据，因此这样的场景并不少见，本发明可以作为常规数据有效性评估方法的补充。

附图说明

图1为本发明的方案流程图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

首先介绍本发明使用场景，本发明可用于任何需要评估表数据是否有效的场景。特别是在数据工程师不能预先了解表中哪些字段存在关系的情况下，本发明可帮助数据工程师通过发现字段间关系来评估字段数据有效性。

例如存在一张学生成绩表student_score，存在字段F0、F1、F2、F3、F4、F5、F6、F7，通过检测每个字段是否符合校验规则后没有发现无效数据，但我们还想知道每个字段间是否还存在着一定的关系，是否每一条数据都满足这种关系。我们决定采用本发明的方法来解决这个问题。如图1所示，具体过程为：

第一步，我们使用近似函数依赖算法扫描待测表，得出结果如下。

(F2、F3、F4、F5、F6)->F7

F0->F1

进一步分析发现，关系组(F2、F3、F4、F5、F6)->F7存在F2+F3+F4+F5+F6＝F7的关系。然后我们将表达式F2+F3+F4+F5+F6＝F7作为我们检测该表的规则对数据进行检测。并将不符合表达式的数据筛选出来，结果如下。

根据上述结果并查阅对应表的设计资料分析发现，F2、F3、F4、F5、F6代表各个学科的成绩，F7代表总分。我们成功地检测出了总分与各科成绩之和不相等的数据。

本发明的算法复杂度：O(n)；采用本发明的方法可快速筛选出脏数据。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于多列关系的数据有效性评估方法，其特征在于，首先使用近似函数依赖算法发现数据表中各字段间的关系，然后找到支持度最高的字段组合进行分析得到对应的关系表达式，最后校验字段各行数据是否符合该关系表达式；若符合该关系表达式，则对应的数据有效；否则无效。

2.根据权利要求1所述的一种基于多列关系的数据有效性评估方法，其特征在于，使用近似函数依赖算法发现表中各字段间的关系后，还包括：采用基于支持度的排序策略。

3.根据权利要求2所述的一种基于多列关系的数据有效性评估方法，其特征在于，使用近似函数依赖算法发现表中各字段间的关系，包括若干候选近似函数。

4.根据权利要求3所述的一种基于多列关系的数据有效性评估方法，其特征在于，所述基于支持度的排序策略具体为按照候选近似函数的支持度进行降序排序。

5.一种基于多列关系的数据有效性评估系统，其特征在于，包括：规则挖掘模块、策略模块、关系表达式生成模块以及筛选模块；所述规则挖掘模块采用近似函数依赖算法从数据表中挖掘得到近似函数依赖；所述策略模块对挖掘出的近似函数依赖采用基于支持度的排序策略；所述关系表达式生成模块根据策略模块输出的最高支持度对应的近似函数依赖生成关系表达式；所述筛选模块根据生成的关系表达式对数据表中的数据进行筛选。