CN111125172A - 一种基于多列关系的数据有效性评估方法及系统 - Google Patents

一种基于多列关系的数据有效性评估方法及系统 Download PDF

Info

Publication number
CN111125172A
CN111125172A CN201911362836.5A CN201911362836A CN111125172A CN 111125172 A CN111125172 A CN 111125172A CN 201911362836 A CN201911362836 A CN 201911362836A CN 111125172 A CN111125172 A CN 111125172A
Authority
CN
China
Prior art keywords
data
relational expression
fields
relationship
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911362836.5A
Other languages
English (en)
Inventor
唐雪飞
蒲高飞
黄永鑫
王东方
胡茂秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Comsys Information Technology Co ltd
Original Assignee
Chengdu Comsys Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Comsys Information Technology Co ltd filed Critical Chengdu Comsys Information Technology Co ltd
Priority to CN201911362836.5A priority Critical patent/CN111125172A/zh
Publication of CN111125172A publication Critical patent/CN111125172A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于多列关系的数据有效性评估方法及系统,应用于大数据分析处理领域,针对现有技术对于预先不知道数据之间存在什么样的关系,因而无法了解字段是否有效的问题,本发明首先使用近似函数依赖算法发现数据表中各字段间的关系,然后找到支持度最高的字段组合进行分析得到对应的关系表达式,最后校验字段各行数据是否符合该关系表达式;若符合该关系表达式,则对应的数据有效;否则无效;本发明的方法及系统实现了对常规数据有效性评估。

Description

一种基于多列关系的数据有效性评估方法及系统
技术领域
本发明属于大数据分析处理领域,特别涉及一种对结构化数据的有效性评估技术。
背景技术
结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。
基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。
结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。
数据无处不在。随着数据创建的数量、来源和速度的增加,数据质量问题也日益严重。数据治理越来越引起各企事业单位的重视。有效地评估数据质量是数据治理的关键。其中数据有效性是数据质量评估的一个重要维度,侧重评估数据是否可用,是否是正确有效的。通常评估数据有效性会针对单个字段的特点首先规定数据有效的规则,然后将字段真实的值与规定规则一一匹配,筛选出不符合规则的值。事实上,这种评估方式可以解决大多数的应用场景。但是这种方法无法解决如下问题:
如果该字段与其他字段存在某种关系,且我们预先不知道存在什么样的关系,我们则无法设置校验字段值是否有效的规则,因此无法使用上面的方法评估该字段值与其他字段值是否满足对应的关系。例如,表中存在字段F1,F2,F3,我们预先不知道它们的关系,实际上它们需要满足F1+F2=F3的关系才算有效数据。使用传统的方法根本无法去找到不满足该关系的数据。
发明内容
为解决上述技术问题,本发明提出一种基于多列关系的数据有效性评估方法,先通过近似函数依赖算法TANE发现字段间的关系,然后使用关系规则去校验每一行存在该关系相关字段数据值是否有效,最后筛选出不满足关系的数据行的方法。该方法可以作为常规数据有效性评估方法的补充。
本发明采用的技术方案为:一种基于多列关系的数据有效性评估方法,首先使用近似函数依赖算法TANE发现数据表中各字段间的关系,然后找到支持度最高的字段组合进行分析得到对应的关系表达式(如a+b+c=d,a<b),最后校验字段各行数据是否符合该关系表达式;若符合该关系表达式,则对应的数据有效;否则无效。
使用近似函数依赖算法TANE发现表中各字段间的关系后,还包括:采用基于支持度的排序策略。
使用近似函数依赖算法TANE发现表中各字段间的关系,包括若干候选近似函数。
所述基于支持度的排序策略具体为按照候选近似函数的支持度进行降序排序。
一种基于多列关系的数据有效性评估系统,包括:规则挖掘模块、策略模块、关系表达式生成模块以及筛选模块;所述规则挖掘模块采用近似函数依赖算法从数据表中挖掘得到近似函数依赖;所述策略模块对挖掘出的近似函数依赖采用基于支持度的排序策略;所述关系表达式生成模块根据策略模块输出的最高支持度对应的近似函数依赖生成关系表达式;所述筛选模块根据生成的关系表达式对数据表中的数据进行筛选。
本发明的有益效果:本发明通过预先发现表中字段最可能存在关系的元组;数据工程师可以根据第一步发现的元组进一步分析找到更为具体的关系规则来评估字段的数据,可以作为评估数据一致性的一种方法;本发明的方法解决了数据工程师不熟悉业务,也不熟悉数据,表中字段很多命名不规范难以阅读而无法了解字段是否有效的问题;在大数据时代,数据工程师需要负责的业务非常多,根本不可能熟悉所有的数据,因此这样的场景并不少见,本发明可以作为常规数据有效性评估方法的补充。
附图说明
图1为本发明的方案流程图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
首先介绍本发明使用场景,本发明可用于任何需要评估表数据是否有效的场景。特别是在数据工程师不能预先了解表中哪些字段存在关系的情况下,本发明可帮助数据工程师通过发现字段间关系来评估字段数据有效性。
例如存在一张学生成绩表student_score,存在字段F0、F1、F2、F3、F4、F5、F6、F7,通过检测每个字段是否符合校验规则后没有发现无效数据,但我们还想知道每个字段间是否还存在着一定的关系,是否每一条数据都满足这种关系。我们决定采用本发明的方法来解决这个问题。如图1所示,具体过程为:
第一步,我们使用近似函数依赖算法扫描待测表,得出结果如下。
(F2、F3、F4、F5、F6)->F7
F0->F1
进一步分析发现,关系组(F2、F3、F4、F5、F6)->F7存在F2+F3+F4+F5+F6=F7的关系。然后我们将表达式F2+F3+F4+F5+F6=F7作为我们检测该表的规则对数据进行检测。并将不符合表达式的数据筛选出来,结果如下。
Figure BDA0002337651460000031
根据上述结果并查阅对应表的设计资料分析发现,F2、F3、F4、F5、F6代表各个学科的成绩,F7代表总分。我们成功地检测出了总分与各科成绩之和不相等的数据。
本发明的算法复杂度:O(n);采用本发明的方法可快速筛选出脏数据。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (5)

1.一种基于多列关系的数据有效性评估方法,其特征在于,首先使用近似函数依赖算法发现数据表中各字段间的关系,然后找到支持度最高的字段组合进行分析得到对应的关系表达式,最后校验字段各行数据是否符合该关系表达式;若符合该关系表达式,则对应的数据有效;否则无效。
2.根据权利要求1所述的一种基于多列关系的数据有效性评估方法,其特征在于,使用近似函数依赖算法发现表中各字段间的关系后,还包括:采用基于支持度的排序策略。
3.根据权利要求2所述的一种基于多列关系的数据有效性评估方法,其特征在于,使用近似函数依赖算法发现表中各字段间的关系,包括若干候选近似函数。
4.根据权利要求3所述的一种基于多列关系的数据有效性评估方法,其特征在于,所述基于支持度的排序策略具体为按照候选近似函数的支持度进行降序排序。
5.一种基于多列关系的数据有效性评估系统,其特征在于,包括:规则挖掘模块、策略模块、关系表达式生成模块以及筛选模块;所述规则挖掘模块采用近似函数依赖算法从数据表中挖掘得到近似函数依赖;所述策略模块对挖掘出的近似函数依赖采用基于支持度的排序策略;所述关系表达式生成模块根据策略模块输出的最高支持度对应的近似函数依赖生成关系表达式;所述筛选模块根据生成的关系表达式对数据表中的数据进行筛选。
CN201911362836.5A 2019-12-26 2019-12-26 一种基于多列关系的数据有效性评估方法及系统 Pending CN111125172A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911362836.5A CN111125172A (zh) 2019-12-26 2019-12-26 一种基于多列关系的数据有效性评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911362836.5A CN111125172A (zh) 2019-12-26 2019-12-26 一种基于多列关系的数据有效性评估方法及系统

Publications (1)

Publication Number Publication Date
CN111125172A true CN111125172A (zh) 2020-05-08

Family

ID=70502703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911362836.5A Pending CN111125172A (zh) 2019-12-26 2019-12-26 一种基于多列关系的数据有效性评估方法及系统

Country Status (1)

Country Link
CN (1) CN111125172A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699761A (zh) * 2015-02-11 2015-06-10 暨南大学 一种最小函数依赖的增量计算方法
CN107145601A (zh) * 2017-06-02 2017-09-08 北京蓝图明册科技有限公司 一种高效的引用关系发现算法
CN108446294A (zh) * 2018-01-22 2018-08-24 东华大学 一种面向脏数据的清洗规则挖掘系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699761A (zh) * 2015-02-11 2015-06-10 暨南大学 一种最小函数依赖的增量计算方法
CN107145601A (zh) * 2017-06-02 2017-09-08 北京蓝图明册科技有限公司 一种高效的引用关系发现算法
CN108446294A (zh) * 2018-01-22 2018-08-24 东华大学 一种面向脏数据的清洗规则挖掘系统

Similar Documents

Publication Publication Date Title
KR100987314B1 (ko) 카테고리화로부터 유도된 택소노미 및 데이터 구조들에관련된, 도큐먼트 및/또는 클러스터들과 같은 오브젝트들의카테고리화
US8620875B2 (en) Fraud analysis in a contact database
US20180181646A1 (en) System and method for determining identity relationships among enterprise data entities
US20160048754A1 (en) Classifying resources using a deep network
US20140358929A1 (en) Methods, apparatus and software for analyzing the content of micro-blog messages
US20110004606A1 (en) Method and system for determining relevance of terms in text documents
US20160098466A1 (en) Concept-based analysis of structured and unstructured data using concept inheritance
US8788503B1 (en) Content identification
US8782042B1 (en) Method and system for identifying entities
CN111858615B (zh) 数据库表生成方法、系统、计算机系统和可读存储介质
US20100284623A1 (en) System and method for identifying document genres
US20060218177A1 (en) System and method for storing and retrieving data through an inferencing-enabled metadata system
CA2805878C (en) Methods for semantics-based citation-pairing information
US10678998B1 (en) Intelligent extraction and organization of data from unstructured documents
US20080140653A1 (en) Identifying Relationships Among Database Records
Li Text feature selection algorithm based on Chi-square rank correlation factorization
US20170286551A1 (en) Scalable processing of heterogeneous user-generated content
US8412671B2 (en) System and method for developing a star schema
US20130346466A1 (en) Identifying outliers in a large set of objects
CN102819542A (zh) 展现实例文档的方法及装置
US11526672B2 (en) Systems and methods for term prevalance-volume based relevance
KR20190081622A (ko) 유사성 판단 방법 및 그 장치
CN111125172A (zh) 一种基于多列关系的数据有效性评估方法及系统
Wong et al. Mining favorable facets
US8250024B2 (en) Search relevance in business intelligence systems through networked ranking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination