CN111125172A - 一种基于多列关系的数据有效性评估方法及系统 - Google Patents
一种基于多列关系的数据有效性评估方法及系统 Download PDFInfo
- Publication number
- CN111125172A CN111125172A CN201911362836.5A CN201911362836A CN111125172A CN 111125172 A CN111125172 A CN 111125172A CN 201911362836 A CN201911362836 A CN 201911362836A CN 111125172 A CN111125172 A CN 111125172A
- Authority
- CN
- China
- Prior art keywords
- data
- relational expression
- fields
- relationship
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于多列关系的数据有效性评估方法及系统,应用于大数据分析处理领域,针对现有技术对于预先不知道数据之间存在什么样的关系,因而无法了解字段是否有效的问题,本发明首先使用近似函数依赖算法发现数据表中各字段间的关系,然后找到支持度最高的字段组合进行分析得到对应的关系表达式,最后校验字段各行数据是否符合该关系表达式;若符合该关系表达式,则对应的数据有效;否则无效;本发明的方法及系统实现了对常规数据有效性评估。
Description
技术领域
本发明属于大数据分析处理领域,特别涉及一种对结构化数据的有效性评估技术。
背景技术
结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。
基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。
结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。
数据无处不在。随着数据创建的数量、来源和速度的增加,数据质量问题也日益严重。数据治理越来越引起各企事业单位的重视。有效地评估数据质量是数据治理的关键。其中数据有效性是数据质量评估的一个重要维度,侧重评估数据是否可用,是否是正确有效的。通常评估数据有效性会针对单个字段的特点首先规定数据有效的规则,然后将字段真实的值与规定规则一一匹配,筛选出不符合规则的值。事实上,这种评估方式可以解决大多数的应用场景。但是这种方法无法解决如下问题:
如果该字段与其他字段存在某种关系,且我们预先不知道存在什么样的关系,我们则无法设置校验字段值是否有效的规则,因此无法使用上面的方法评估该字段值与其他字段值是否满足对应的关系。例如,表中存在字段F1,F2,F3,我们预先不知道它们的关系,实际上它们需要满足F1+F2=F3的关系才算有效数据。使用传统的方法根本无法去找到不满足该关系的数据。
发明内容
为解决上述技术问题,本发明提出一种基于多列关系的数据有效性评估方法,先通过近似函数依赖算法TANE发现字段间的关系,然后使用关系规则去校验每一行存在该关系相关字段数据值是否有效,最后筛选出不满足关系的数据行的方法。该方法可以作为常规数据有效性评估方法的补充。
本发明采用的技术方案为:一种基于多列关系的数据有效性评估方法,首先使用近似函数依赖算法TANE发现数据表中各字段间的关系,然后找到支持度最高的字段组合进行分析得到对应的关系表达式(如a+b+c=d,a<b),最后校验字段各行数据是否符合该关系表达式;若符合该关系表达式,则对应的数据有效;否则无效。
使用近似函数依赖算法TANE发现表中各字段间的关系后,还包括:采用基于支持度的排序策略。
使用近似函数依赖算法TANE发现表中各字段间的关系,包括若干候选近似函数。
所述基于支持度的排序策略具体为按照候选近似函数的支持度进行降序排序。
一种基于多列关系的数据有效性评估系统,包括:规则挖掘模块、策略模块、关系表达式生成模块以及筛选模块;所述规则挖掘模块采用近似函数依赖算法从数据表中挖掘得到近似函数依赖;所述策略模块对挖掘出的近似函数依赖采用基于支持度的排序策略;所述关系表达式生成模块根据策略模块输出的最高支持度对应的近似函数依赖生成关系表达式;所述筛选模块根据生成的关系表达式对数据表中的数据进行筛选。
本发明的有益效果:本发明通过预先发现表中字段最可能存在关系的元组;数据工程师可以根据第一步发现的元组进一步分析找到更为具体的关系规则来评估字段的数据,可以作为评估数据一致性的一种方法;本发明的方法解决了数据工程师不熟悉业务,也不熟悉数据,表中字段很多命名不规范难以阅读而无法了解字段是否有效的问题;在大数据时代,数据工程师需要负责的业务非常多,根本不可能熟悉所有的数据,因此这样的场景并不少见,本发明可以作为常规数据有效性评估方法的补充。
附图说明
图1为本发明的方案流程图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
首先介绍本发明使用场景,本发明可用于任何需要评估表数据是否有效的场景。特别是在数据工程师不能预先了解表中哪些字段存在关系的情况下,本发明可帮助数据工程师通过发现字段间关系来评估字段数据有效性。
例如存在一张学生成绩表student_score,存在字段F0、F1、F2、F3、F4、F5、F6、F7,通过检测每个字段是否符合校验规则后没有发现无效数据,但我们还想知道每个字段间是否还存在着一定的关系,是否每一条数据都满足这种关系。我们决定采用本发明的方法来解决这个问题。如图1所示,具体过程为:
第一步,我们使用近似函数依赖算法扫描待测表,得出结果如下。
(F2、F3、F4、F5、F6)->F7
F0->F1
进一步分析发现,关系组(F2、F3、F4、F5、F6)->F7存在F2+F3+F4+F5+F6=F7的关系。然后我们将表达式F2+F3+F4+F5+F6=F7作为我们检测该表的规则对数据进行检测。并将不符合表达式的数据筛选出来,结果如下。
根据上述结果并查阅对应表的设计资料分析发现,F2、F3、F4、F5、F6代表各个学科的成绩,F7代表总分。我们成功地检测出了总分与各科成绩之和不相等的数据。
本发明的算法复杂度:O(n);采用本发明的方法可快速筛选出脏数据。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (5)
1.一种基于多列关系的数据有效性评估方法,其特征在于,首先使用近似函数依赖算法发现数据表中各字段间的关系,然后找到支持度最高的字段组合进行分析得到对应的关系表达式,最后校验字段各行数据是否符合该关系表达式;若符合该关系表达式,则对应的数据有效;否则无效。
2.根据权利要求1所述的一种基于多列关系的数据有效性评估方法,其特征在于,使用近似函数依赖算法发现表中各字段间的关系后,还包括:采用基于支持度的排序策略。
3.根据权利要求2所述的一种基于多列关系的数据有效性评估方法,其特征在于,使用近似函数依赖算法发现表中各字段间的关系,包括若干候选近似函数。
4.根据权利要求3所述的一种基于多列关系的数据有效性评估方法,其特征在于,所述基于支持度的排序策略具体为按照候选近似函数的支持度进行降序排序。
5.一种基于多列关系的数据有效性评估系统,其特征在于,包括:规则挖掘模块、策略模块、关系表达式生成模块以及筛选模块;所述规则挖掘模块采用近似函数依赖算法从数据表中挖掘得到近似函数依赖;所述策略模块对挖掘出的近似函数依赖采用基于支持度的排序策略;所述关系表达式生成模块根据策略模块输出的最高支持度对应的近似函数依赖生成关系表达式;所述筛选模块根据生成的关系表达式对数据表中的数据进行筛选。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911362836.5A CN111125172A (zh) | 2019-12-26 | 2019-12-26 | 一种基于多列关系的数据有效性评估方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911362836.5A CN111125172A (zh) | 2019-12-26 | 2019-12-26 | 一种基于多列关系的数据有效性评估方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111125172A true CN111125172A (zh) | 2020-05-08 |
Family
ID=70502703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911362836.5A Pending CN111125172A (zh) | 2019-12-26 | 2019-12-26 | 一种基于多列关系的数据有效性评估方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125172A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699761A (zh) * | 2015-02-11 | 2015-06-10 | 暨南大学 | 一种最小函数依赖的增量计算方法 |
CN107145601A (zh) * | 2017-06-02 | 2017-09-08 | 北京蓝图明册科技有限公司 | 一种高效的引用关系发现算法 |
CN108446294A (zh) * | 2018-01-22 | 2018-08-24 | 东华大学 | 一种面向脏数据的清洗规则挖掘系统 |
-
2019
- 2019-12-26 CN CN201911362836.5A patent/CN111125172A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699761A (zh) * | 2015-02-11 | 2015-06-10 | 暨南大学 | 一种最小函数依赖的增量计算方法 |
CN107145601A (zh) * | 2017-06-02 | 2017-09-08 | 北京蓝图明册科技有限公司 | 一种高效的引用关系发现算法 |
CN108446294A (zh) * | 2018-01-22 | 2018-08-24 | 东华大学 | 一种面向脏数据的清洗规则挖掘系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100987314B1 (ko) | 카테고리화로부터 유도된 택소노미 및 데이터 구조들에관련된, 도큐먼트 및/또는 클러스터들과 같은 오브젝트들의카테고리화 | |
US8620875B2 (en) | Fraud analysis in a contact database | |
US20180181646A1 (en) | System and method for determining identity relationships among enterprise data entities | |
US20160048754A1 (en) | Classifying resources using a deep network | |
US20140358929A1 (en) | Methods, apparatus and software for analyzing the content of micro-blog messages | |
US20110004606A1 (en) | Method and system for determining relevance of terms in text documents | |
US20160098466A1 (en) | Concept-based analysis of structured and unstructured data using concept inheritance | |
US8788503B1 (en) | Content identification | |
US8782042B1 (en) | Method and system for identifying entities | |
CN111858615B (zh) | 数据库表生成方法、系统、计算机系统和可读存储介质 | |
US20100284623A1 (en) | System and method for identifying document genres | |
US20060218177A1 (en) | System and method for storing and retrieving data through an inferencing-enabled metadata system | |
CA2805878C (en) | Methods for semantics-based citation-pairing information | |
US10678998B1 (en) | Intelligent extraction and organization of data from unstructured documents | |
US20080140653A1 (en) | Identifying Relationships Among Database Records | |
Li | Text feature selection algorithm based on Chi-square rank correlation factorization | |
US20170286551A1 (en) | Scalable processing of heterogeneous user-generated content | |
US8412671B2 (en) | System and method for developing a star schema | |
US20130346466A1 (en) | Identifying outliers in a large set of objects | |
CN102819542A (zh) | 展现实例文档的方法及装置 | |
US11526672B2 (en) | Systems and methods for term prevalance-volume based relevance | |
KR20190081622A (ko) | 유사성 판단 방법 및 그 장치 | |
CN111125172A (zh) | 一种基于多列关系的数据有效性评估方法及系统 | |
Wong et al. | Mining favorable facets | |
US8250024B2 (en) | Search relevance in business intelligence systems through networked ranking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |