CN111563074A - 一种基于多维标签的数据质量检测方法和系统 - Google Patents

一种基于多维标签的数据质量检测方法和系统 Download PDF

Info

Publication number
CN111563074A
CN111563074A CN202010351007.3A CN202010351007A CN111563074A CN 111563074 A CN111563074 A CN 111563074A CN 202010351007 A CN202010351007 A CN 202010351007A CN 111563074 A CN111563074 A CN 111563074A
Authority
CN
China
Prior art keywords
rule
detection
data
quality detection
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010351007.3A
Other languages
English (en)
Other versions
CN111563074B (zh
Inventor
林文楷
周成祖
乔赞瑞
王海滨
吴朝晖
齐战胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202010351007.3A priority Critical patent/CN111563074B/zh
Publication of CN111563074A publication Critical patent/CN111563074A/zh
Application granted granted Critical
Publication of CN111563074B publication Critical patent/CN111563074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于多维标签的数据质量检测方法和系统。基于已知类型数据项和检测规则库、利用多维标签分析算法为已知类型数据项打上对应的维度标签,并利用维度标签动态调整已知类型数据项的质量检测流程;基于未知类型数据项并结合检测规则库,利用规则相似性评估算法为未知类型数据源推荐质量检测引擎,并对所述质量检测引擎的结果进行验证,获得有效质量检测规则集合;保存已知类型数据项的质量检测流程和有效质量检测规则集合并更新多维标签规则库。该方案通过多维标签算法和规则相似性评估两种算法,解决固定检测规则模板引起的准确性差和时效性弱等问题,实现数据质量的快速准确检测且及时反馈检测结果,提升数据源的质量。

Description

一种基于多维标签的数据质量检测方法和系统
技术领域
本申请涉及数据处理技术领域,具体涉及一种基于多维标签的数据质量检测方法和系统。
背景技术
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力,才使得大数据成为海量、高增长率和多样化的信息资产。由于各地的大数据系统持续不断地接入不同行业,产生多种多样数据源行的原始数据,经过再加工处理,形成最终的信息资产。每种数据源的质量都是大数据系统能否发挥实效的基础,如何快速准确地检测出各种数据源是否存在质量问题,及时预警并提高数据源的质量,减少最终信息资产的脏数据比例,是大数据能否高效支撑业务办理的关键点。
但是由于大数据系统接入的原始数据的种类多、结构复杂等特点,目前市场上现有的数据质量检测方法,主要通过对每个数据项手工设置检测规则模板,再进行数据质量检测工作,这些技术存在准确性差和时效性弱等问题。通过设置固定检测规则模板的方法,对已知类型的数据项进行检测,经常会遇到一些特殊业务场景下,规则无法灵活调整,无法有效地检测出数据质量问题,导致产生错误的检测结果。此外,当接入的数据源出现未知类型的数据项时,找不到对应的规则模板,需要人工增加对应的规则模板才能使检测流程正常执行,检测的时效性无法满足海量数据高速入库的需要。
发明内容
本申请的目的在于提出了一种基于多维标签的数据质量检测方法和系统,解决由于固定检测规则模板引起的准确性差和时效性弱等问题。
第一方面,本申请实施例提供了一种基于多维标签的数据质量检测方法,该方法包括:
S1:利用大数据系统接入的各业务场景对原始数据,进行数据项的分类,将数据项分为已知类型数据项和未知类型数据项;
S2:基于已知类型数据项和检测规则库、利用多维标签分析算法为已知类型数据项打上对应的维度标签,并利用维度标签动态调整已知类型数据项的质量检测流程;
S3:基于未知类型数据项并结合检测规则库,利用规则相似性评估算法为未知类型数据源推荐质量检测引擎,并对所述质量检测引擎的结果进行验证,获得有效质量检测规则集合;以及
S4:保存已知类型数据项的质量检测流程和有效质量检测规则集合并更新多维标签规则库。
在该方法中,利用多维标签分析算法,对已知类型的数据项打上不同维度的标签,根据所打的标签动态调整已知类型数据项的质量整检测规则;利用规则相似性评估算法并结合数据项的多维标签,自动推荐未知类型数据项的质量检测规则,实现数据质量的快速准确检测且及时反馈检测结果,提升数据源的质量,减少最终信息资产的脏数据比例,提升大数据的业务支撑能力。
在一些具体实施例中,S2步骤中的多维标签分析算法具体包括以下子步骤:
S21:基于已知类型数据项的业务类型和数据项类型结合检测规则库映射存储到检测规则数据集合Sn
S22:将检测规则数据集合Sn根据不同规则类型拆分成必检集合Zm和可检集合Km,并分别根据检测顺序进行倒序排序,获得对应的倒序必检集合Z′m和倒序可检集合K′m
S23:针对已知类型数据源的前数条记录遍历执行倒序必检集合Z′m的质量规则检测,获得倒序必检集合Z′m的结果异常数和检测数量,并计算出对应的异常比例,直至异常比例小于执行下步阀值,结束倒序必检集合Z′m的遍历操作;
S24:同理执行倒序可检集合K′m的质量规则检测,获得倒序可检集合K′m的结果异常数和检测数量,并计算出对应的异常比例,直至异常比例小于执行下步阈值,结束可检集合K′m的遍历操作,并更新倒序必检集合Z′m和倒序可检集合K′m
在该方法中,利用多维标签分析算法,根据已知类型数据项在各个不同业务场景下的检测规则产生的结果,给已知类型数据项打上各种检测标签,再根据不同维度的标签,动态调整该业务类型下数据项的质量检测流程,实现复杂场景下的数据质量准确检测。
在一些具体实施例中,在S3步骤中的规则相似性评估算法具体包括以下子步骤:
S31:随机提取检测规则库中检测规则集合An作为未知类型数据源的默认质量检测规则;
S32:提取未知类型数据源的前数条记录遍历执行检测规则集合An,并过滤小于设定阀值的未知类型数据项,获得有效检测结果集合Tm,基于有效检测结果集合Tm的序号过滤检测规则集合An,进而获得有效检测规则集合Am
S33:利用关联规则库建立有效检测规则集合Am至对应数据项的倒排表,将有效检测规则集合下的每个数据项列表进行两两组合,计算每组存在交集的数据项组合的相似度,并存储到组合有效检测规则集合A′m的数据集中;
S34:响应于组合有效检测规则集合A′m中的相似度大于指定阀值,获得未知类型数据源的质量检测规则集合Ax
在该方法中,利用规则相似性评估算法,结合数据项的多维标签,推荐出未知类型的数据项的质量检测规则,再对推荐的检测规则产生的结果进行分析,验证推荐算法的准确性,实现未知类型数据项的检测规则的自动推荐,避免影响大数据的入库操作,提高数据质量检测的时效性。
在一些具体实施例中,检测规则库包括第一记录ID、业务类型、数据项类型、规则类型、检测顺序、异常数、总数量、执行下步阀值、改变规则类型阀值和质量规则。检测规则库的定义,记录每种类型数据项的检测规则信息,便于满足不同数据类型的运用分析。
在一些具体实施例中,规则关联库包括第二记录ID、规则ID、相似度、业务类型和数据项标识。规则关联库的设置,用于获取不同数据项之间的检测规则的相似程度。
在一些具体实施例中,异常比例的具体计算公式:异常比例=(异常数+结果异常数)/(总数量+检测数量),其中,当异常比例大于改变规则类型阀值,则将规则类型由必检项改成可检项。异常比例的设置,可调整规则类型从必检项改为可检项,用于提高检测的重点性。
在一些具体实施例中,在S33步骤中的相似度的具体计算公式:相似度=每种存在交集数据项个数/两组数据项的总个数。相似度的设置,便于获得未知类型数据项的有效检测规则集合,进行下一步的维度标签分析。
在一些具体实施例中,在S34步骤后还包括针对未知类型数据源的前数条记录遍历执行质量检测规则集合Ax,获得每个规则的质量检测结果Tn,并保存质量检测规则集合Ax和质量检测结果Tn。凭借质量检测结果Tn的设置,便于对质量检测规则结合集合Ax的结果验证。
在一些具体实施例中,在S31中的检测规则集合An为已知数据项类型且规则类型为必检项的检测规则集合。必检项的设置减少运算成本,实现快速高效地推荐出未知类型数据项的有效质量检测规则集合。
第二方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述实施例的方法。
第三方面,本申请实施例提供了一种基于多维标签的数据质量检测系统,该系统包括:
数据项分类单元:配置用于利用大数据系统接入的各业务场景对原始数据,进行数据项分类,将数据项分为已知类型数据项和未知类型数据项;
维度标签单元:配置用于基于已知类型数据项和检测规则库、利用多维标签分析算法为已知类型数据项打上对应的维度标签,并利用维度标签动态调整已知类型数据项的质量检测流程;
规则关联单元:配置用于基于未知类型数据项并结合检测规则库,利用规则相似性评估算法为未知类型数据源推荐质量检测引擎,并对所述质量检测引擎的结果进行验证,获得有效质量检测规则集合;以及
保存更新单元:配置用于保存已知类型数据项的质量检测流程和有效质量检测规则集合并更新多维标签规则库。
在一些具体的实施例中,还包括质量检测结果单元,配置用于针对未知类型数据源遍历执行质量检测规则集合,获得每个规则的质量检测结果,并保存质量检测规则集合和质量检测结果。
本申请提供的一种基于多维标签的数据质量检测方法和系统。通过多维标签分析算法,为已知类型和未知类型的数据项打上多维度的标签,根据所打的标签动态调整已知类型数据项的质量整检测规则;利用规则相似性评估算法,结合数据项的多维标签,自动推荐出未知类型的数据项的质量检测规则,再对推荐的检测规则产生的结果进行分析,验证推荐算法的准确性,实现未知类型数据项的检测规则的自动推荐,避免影响大数据的入库操作,提高数据质量检测的时效性。实现海量数据质量的快速准确检测和及时反馈检测结果,整体提升数据源的质量,减少最终信息资产的脏数据,提升大数据的业务支撑能力。通过优化不同类型数据项的质量检测方法,结合检测规则库和规则关联库,以计算机程序自动、实现数据质量的快速准确检测,解决困扰已久的海量数据无法实现快速准确质量检测的问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请实施例中的基于多维标签的数据质量检测方法的流程图;
图2是根据本申请实施例中的基于多维标签的数据质量检测方法整体分析流程图;
图3是根据本申请实施例中的多维标签分析算法的分析流程图;
图4是根据本申请实施例中的规则相似性评估算法的分析流程图;
图5是根据本申请实施例中的一种基于多维标签的数据质量检测的系统的示意性结构框图;
图6适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了根据本申请实施例中的基于多维标签的数据质量检测方法的流程图。如图1所示,该方法包括数据项分类,维度标签分析、规则关联分析和保存更新的步骤。
在步骤S1中:利用大数据系统接入的各业务场景对原始数据,进行数据项的分类,数据项分为已知类型数据项和未知类型数据项。
在该步骤中,通过分析处理程序,针对大数据系统接入的各业务场景下的原始数据判断与检测规则库中存在质量检测规则的相似度进行比较,进而获得已知类型和未知类型数据项的分类,便于判断后续是否需要规则关联算法的评估。
在步骤S2中:基于已知类型数据项和检测规则库、利用多维标签分析算法为已知类型数据项打上对应的维度标签,并利用维度标签动态调整已知类型数据项的质量检测流程。
在该步骤中,针对不同质量分析的使用场景,利用多维标签分析算法为已知类型数据项打上不同维度的标签,根据所打的标签动态调整已知类型数据项的质量整检测规则,实现负责场景下的数据质量准确性的质量检测分析。
在步骤S3中:基于未知类型数据项并结合检测规则库,利用规则相似性评估算法为未知类型数据源推荐质量检测引擎,并对所述质量检测引擎的结果进行验证,获得有效质量检测规则集合。
在该步骤中,针对未知类型数据项,先进行利用规则相似性评估算法获得该未知数据项的有效的质量检测规则集合,后利用多维标签分析算法,动态调用不同的质量检测引擎,进行质量检测,及时预警并提升数据源的质量,提升大数据的业务支撑能力。
在步骤S4中:保存已知类型数据项的质量检测流程和有效质量检测规则集合并更新多维标签规则库。
在该步骤中,更新后的多维标签规则库中包含已知类型数据项的质量检测流程和未知类型数据项的有效质量检测规则集合,利用规则相似性评估算法,结合数据项的多维标签,自动推荐未知类型数据项的质量检测规则,实现数据质量的快速准确检测,及时反馈检测结果,提升数据源的质量,减少最终信息资产的脏数据比例。
继续参考图2,其示出了根据本申请实施例中的基于多维标签的数据质量检测方法整体分析流程图。如图2所示,本申请的多维标签的数据质量检测方法整体分析流程包括以下步骤:
步骤201:数据项类型识别。针对大数据系统接入的各种海量数据,针对不同类型的数据项进行质量分析的使用场景识别。
步骤202:判断是否相似。判断数据项是否与检测规则库中的数据项相类似,若“是”,判断为该数据项为已知类型数据项,执行步骤203,若“否”,,判断该数据项为未知类型数据项,执行步骤205。
步骤203:多维标签分析。对已知类型的数据项打上不同维度的标签,根据所打的标签动态调整已知类型数据项的质量整检测规则。
步骤204:执行质量检测。
步骤205:推荐检测引擎。对未知类型的数据项利用规则相似性评估算法,将未知类型数据项转换为已知类型数据项后,结合数据项的多维标签分析算法,自动推荐未知类型数据项的质量检测规则,实现数据质量的全自动且快速准确检测。
步骤206:检测结果验证。验证推荐未知类型数据项的质量检测规则是否满足质量检测结果,提高未知类型数据项的检测确定性。步骤207:更新规则库。将通过多维标签分析调整或通过步骤206验证后的质量检测规则更新至规则库,自适应完善质量检测规则库。
继续参考图3,其示出了根据本申请实施例中的多维标签分析算法的分析流程图。具体流程包括以下步骤:
步骤301:检测规则获取。根据提取的业务类型B、数据源V中数据项的类型T,从检测规则库获取对应的初始质量检测规则。
步骤302:遍历环节。提取该数据项类型T对应的检测规则数据集合,保存到检测规则分析数据集Sn,Sn包含n个子集合{S1,S2,…,Sn},将规则类型ruleType、检测顺序seq、异常数errorCount、总数量count、执行下步阀值nextRatio、改变规则类型阀值changeRatio、质量规则createRule等信息存储在数据块表里。
步骤303:多维标签分析。取数据源V的前十条记录V10,将Sn根据不同的规则类型拆分成必检集合Zm和可检集合Km,必检集合Zm根据检测顺序进行倒序排序得到最新的倒序必检集合Z′m,针对V10遍历执行倒序必检集合Z′m的质量规则检测。通过倒序必检集合Z′m得到结果异常数curErrorCount及检测数量curCount,计算出最后的异常比例errorRatio=([Z′m].errorCount+curErrorCount)/([Z′m].Count+curCount)。
步骤304:保存分析结果。当异常比例errorRatio>[Z′m].执行下步阀值nextRatio,则继续遍历操作,执行步骤302,执行Z′m+1,否则跳出遍历操作执行步骤305;当异常比例errorRatio>[Z′m].改变规则类型阀值changeRatio,则[Z′m].规则类型ruleType由1改成2。执行完倒序必检集合Z′m后,同理遍历执行倒序可检集合K′m,并保存倒序必检集合Z′m和所述倒序可检集合K′m
步骤305:判断遍历结束。若“是”则结果运算,若“否”则循环执行步骤302,遍历环节,直至遍历结束。
步骤306:执行检测。针对数据源V执行必检集合Zm和可检集合Km的质量检测。
在一些具体的实施例中,由于大数据系统接入的原始数据业务场景众多,简单通过设置固定检测规则模板的方法,对已知类型的数据项进行检测,经常会遇到一些特殊业务场景下,由于规则无法灵活调整,导致检测结果出错、检测效率低等问题。例如类型为“字典表”的数据项,在“业务系统”和“日志数据”两种不同业务场景下的检测规则就完全不同,“业务系统”场景下对“字典表”数据项的检测要求更侧重于数据的准确性;“日志数据”场景下对“字典表”数据项的检测要求更侧重于数据的完整性。通过分析数据项在各个检测规则产生的结果分布,给数据项打上各种维度的标签,再根据各种维度的标签动态调整该类型数据项的质量检测流程,实现不同业务场景下的数据质量的准确检测。
在一些具体的实施例中,必检集合和可检集合用于标识检测的重点性,例如,接入一张订票信息表,要素为“订票身份证号、订票人姓名、航班号、出发地、目的地、订票时间、订票方式、座位要求”,其中“订票身份证号、订票人姓名、航班号、出发地、目的地、订票时间”为质量检测中的必要检查项,而“订票方式、座位要求”为质量检测中的可检项,不作为必要检查项。
在一些具体的实施例中,多维标签分析算法具体包括以下子步骤:
S21:基于所述已知类型数据项的业务类型和数据项类型结合所述检测规则库映射存储到检测规则数据集合Sn
S22:将所述检测规则数据集合Sn根据不同规则类型拆分成必检集合Zm和可检集合Km,并分别根据检测顺序进行倒序排序,获得对应的倒序必检集合Z′m和倒序可检集合K′m
S23:针对已知类型数据源的前数条记录遍历执行所述倒序必检集合Z′m的质量规则检测,获得所述倒序必检集合Z′m的结果异常数和检测数量,并计算出对应的异常比例,直至所述异常比例小于执行下步阀值,结束所述倒序必检集合Z′m的遍历操作;
S24:同理执行所述倒序可检集合K′m的质量规则检测,获得所述倒序可检集合K′m的结果异常数和检测数量,并计算出对应的异常比例,直至所述异常比例小于所述执行下步阈值,结束所述可检集合K′m的遍历操作,并保存所述倒序必检集合Z′m和所述倒序可检集合K′m。优选的,异常比例的具体计算公式:异常比例=(异常数+结果异常数)/(总数量+检测数量),其中,当异常比例大于改变规则类型阀值,则将规则类型由必检项改成可检项。
S24:同理执行倒序可检集合K′m的质量规则检测,获得倒序可检集合K′m的结果异常数和检测数量,并计算出对应的异常比例,直至异常比例小于执行下步阈值,结束可检集合K′m的遍历操作,并保存倒序必检集合Z′m和倒序可检集合K′m
在一些具体的实施例中,检测规则库为记录每种类型数据项的检测规则信息,具体定义如下表:
Figure BDA0002471933930000101
Figure BDA0002471933930000111
在一些具体的实施例中,规则关联库为获取不同数据项之间的检测规则的相似程度,具体定义如下表:
属性名称 属性描述 备注
Id 第二记录Id
ruleId 规则Id 检测规则库的外键
similary 相似度
businessType 业务类型 1-业务系统,2-日志数据…
itemId 数据项标识
remark 备注
status 状态 0-不可用,1-可用
继续参考图4,其示出了根据本申请实施例中的规则相似性评估算法的分析流程图。具体流程包括以下步骤:
步骤401:预置默认规则。随机从检测规则库获取数据项类型,例如数据项类型为99,规则类型为1的必检项数据作为未知类型数据项的默认检测规则集合An,取未知类型数据源V的前十条记录V10,针对V10执行An的质量检测,得到检测结果集合Tn,再对检测结果集合Tn过滤掉小于设定阀值的数据项得到有效的结果集合Tm,最后根据结果集合Tm的序号过滤An最终得到有效的检测规则集合Am。
步骤402:遍历检测结果。
步骤403:规则相似性评估。建立检测规则Am到数据项的倒排表,提高检测效率,并对每个规则下的数据项列表,两两组合作为key,key每出现一次加一,计算出每种存在交集的数据项组合的相似度分子,再除以数据项的总和即可得到两个数据项的相似度similary,保存到Am的数据集里。
步骤404:判断是否相似。若相似度similary大于指定阀值,判断为“是”,执行步骤405执行检测,若若相似度similary小于指定阀值,判断为“否”,执行步骤406。
步骤405:执行检测。当相似度similary大于指定阀值,即找到推荐检测引擎,进行检测结果验证,并结合多维标签分析,调整推荐检测引擎,执行质量检测。
步骤406:保存探查结果。
步骤407:判断是否遍历结束。若“否”重复执行步骤403,若“是”,结束算法。
在一些具体的实施例中,由于大数据系统接入的原始数据来源众多,经常出现无法获取数据项类型的情况,导致无法按既有的规则进行质量检测,影响大数据入库的质量检测效率。本申请结合数据项的多维标签,推荐出未知类型的数据项的检测规则,实现数据质量的快速准确检测,及时反馈检测结果并提升数据源的质量,减少最终信息资产的脏数据。
在一些具体的实施例中,规则相似性评估算法具体包括以下子步骤:
S31:随机提取所述检测规则库中检测规则集合An作为未知类型数据源的默认质量检测规则;优选的,所述检测规则集合An为已知数据项类型且规则类型为必检项的检测规则集合。
S32:提取所述未知类型数据源的前数条记录遍历执行所述检测规则集合An,并过滤小于设定阀值的所述未知类型数据项,获得有效检测结果集合Tm,基于所述有效检测结果集合Tm的序号过滤所述检测规则集合An,进而获得有效检测规则集合Am
S33:建立所述有效检测规则集合Am至对应数据项的倒排表,将每个所述有效检测规则集合下的数据项列表进行两两组合,计算每组存在交集的数据项组合的相似度,并存储到组合有效检测规则集合A′m的数据集中;优选的,相似度的具体计算公式:相似度=每种存在交集数据项个数/两组数据项的总个数。
S34:响应于所述组合有效检测规则集合A′m中的相似度大于指定阀值,获得所述未知类型数据源的质量检测规则集合Ax
S35:针对未知类型数据源的前数条记录遍历执行质量检测规则集合Ax,获得每个规则的质量检测结果Tn,并保存质量检测规则集合Ax和质量检测结果Tn
此外,本申请还提出了一种基于多维标签的数据质量检测的系统。其中如图5所示,多维标签数据质量检测系统500包括数据项分类单元501、维度标签单元502、规则关联单元503和保存更新单元504。通过数据项分类单元501对大数据的数据项进行已知类型数据项和未知类型数据项的分类,针对已知类型数据项直接进行多维标签分析503后根据多维分析标签的结果动态调节已知类型数据项的质量检测规则;针对未知类型数据项进行规则关联单元503推荐检测引擎,结合数据项的多维标签,并对检测结果进行验证,最后经过保存更新单元504更新已知类型数据项的质量检测流程和未知类型数据项的有效质量检测规则集合,更新多维标签规则库。
目前市场上尚无类似的优化算法,该算法基于海量数据场景下,可实现已知类型和未知类型数据项的质量检测,减少最终信息资产的脏数据比例,提升大数据的业务支撑能力,经实际测算,在万亿级数据量下,数据质量检测的准确率和效率可比市面上同类产品提高30%。本申请利用不同处理节点,结合规则类型、检测顺序、异常数、总数量、执行下步阀值、改变规则类型阀值等多维度的标签,实现各类型数据的质量自动检测,检测的准确率高,速度快,减少最终信息资产的脏数据比例,提升大数据系统的业务支撑能力,降低工作人员的分析工作负担。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也可以根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括数据项分类单元、维度标签单元、规则关联单元和保存更新单元。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,数据项分类单元还可以被描述为“利用大数据系统接入的各业务场景对原始数据,进行已知类型数据项和未知类型数据项的分类”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:利用大数据系统接入的各业务场景对原始数据,进行已知类型数据项和未知类型数据项的分类;基于未知类型数据项并结合检测规则库,利用规则相似性评估算法为未知类型数据源推荐质量检测引擎,并对所述质量检测引擎的结果进行验证,获得有效质量检测规则集合;以及保存已知类型数据项的质量检测流程和有效质量检测规则集合并更新多维标签规则库。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种基于多维标签的数据质量检测方法,其特征在于,所述方法包括:
S1:利用大数据系统接入的各业务场景对原始数据,进行数据项的分类,将所述数据项分为已知类型数据项和未知类型数据项;
S2:基于所述已知类型数据项和检测规则库、利用多维标签分析算法为所述已知类型数据项打上对应的维度标签,并利用所述维度标签动态调整所述已知类型数据项的质量检测流程;
S3:基于未知类型数据项并结合所述检测规则库,利用规则相似性评估算法为未知类型数据源推荐质量检测引擎,并对所述质量检测引擎的结果进行验证,获得有效质量检测规则集合;以及
S4:保存所述已知类型数据项的质量检测流程和所述有效质量检测规则集合并更新多维标签规则库。
2.根据权利要求1所述的一种基于多维标签的数据质量检测方法,其特征在于,所述S2步骤中的所述多维标签分析算法具体包括以下子步骤:
S21:将所述已知类型数据项的业务类型和数据项类型结合所述检测规则库映射存储到检测规则数据集合Sn
S22:将所述检测规则数据集合Sn根据不同规则类型拆分成必检集合Zm和可检集合Km,并分别根据检测顺序进行倒序排序,获得对应的倒序必检集合Z′m和倒序可检集合K′m
S23:针对已知类型数据源的前数条记录遍历执行所述倒序必检集合Z′m的质量规则检测,获得所述倒序必检集合Z′m的结果异常数和检测数量,并计算出对应的异常比例,直至所述异常比例小于执行下步阀值,结束所述倒序必检集合Z′m的遍历操作;
S24:同理执行所述倒序可检集合K′m的质量规则检测,获得所述倒序可检集合K′m的结果异常数和检测数量,并计算出对应的异常比例,直至所述异常比例小于所述执行下步阈值,结束所述可检集合K′m的遍历操作,并更新所述倒序必检集合Z′m和所述倒序可检集合K′m
3.根据权利要求1所述的一种基于多维标签的数据质量检测方法,其特征在于,在所述S3步骤中的规则相似性评估算法具体包括以下子步骤:
S31:随机提取所述检测规则库中检测规则集合An作为所述未知类型数据源的默认质量检测规则;
S32:针对所述未知类型数据源的前数条记录遍历执行所述检测规则集合An,并过滤小于设定阀值的所述未知类型数据项,获得有效检测结果集合Tm,基于所述有效检测结果集合Tm的序号过滤所述检测规则集合An,进而获得有效检测规则集合Am
S33:利用关联规则库建立所述有效检测规则集合Am至对应数据项的倒排表,将所述有效检测规则集合下的数据项列表进行两两组合,计算每组存在交集的数据项组合的相似度,并存储到组合有效检测规则集合A′m的数据集中;
S34:响应于所述组合有效检测规则集合A′m中的相似度大于指定阀值,获得所述未知类型数据源的质量检测规则集合Ax
4.根据权利要求2所述的一种基于多维标签的数据质量检测方法,其特征在于,所述检测规则库包括第一记录ID、所述业务类型、数据项类型、所述规则类型、所述检测顺序、异常数、总数量、所述执行下步阀值、改变规则类型阀值和质量规则。
5.根据权利要求3所述的一种基于多维标签的数据质量检测方法,其特征在于,所述规则关联库包括第二记录ID、规则ID、所述相似度、所述业务类型和数据项标识。
6.根据权利要求4所述的一种基于多维标签的数据质量检测方法,其特征在于,所述异常比例的具体计算公式:异常比例=(异常数+结果异常数)/(总数量+检测数量),其中,当所述异常比例大于所述改变规则类型阀值,则将所述规则类型由必检项改成可检项。
7.根据权利要求3所述的一种基于多维标签的数据质量检测方法,其特征在于,在所述S33步骤中的所述相似度的具体计算公式:相似度=每种存在交集数据项个数/两组数据项的总个数。
8.根据权利要求3所述的一种基于多维标签的数据质量检测方法,其特征在于,在所述S34步骤后还包括针对所述未知类型数据源的前数条记录遍历执行所述质量检测规则集合Ax,获得每个规则的质量检测结果Tn,并保存所述质量检测规则集合Ax和所述质量检测结果Tn
9.根据权利要求3所述的一种基于多维标签的数据质量检测方法,其特征在于,在所述S31中的所述检测规则集合An为已知数据项类型且规则类型为必检项的检测规则集合。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
11.一种基于多维标签的数据质量检测系统,其特征在于,所述系统包括:
数据项分类单元:配置用于利用大数据系统接入的各业务场景对原始数据,进行数据项的分类,将所述数据项分为已知类型数据项和未知类型数据项;
维度标签单元:配置用于基于所述已知类型数据项和检测规则库、利用多维标签分析算法为所述已知类型数据项打上对应的维度标签,并利用所述维度标签动态调整所述已知类型数据项的质量检测流程;
规则关联单元:配置用于基于未知类型数据项并结合所述检测规则库,利用规则相似性评估算法为未知类型数据源推荐质量检测引擎,并对所述质量检测引擎的结果进行验证,获得有效质量检测规则集合;以及
保存更新单元:配置用于保存所述已知类型数据项的质量检测流程和所述有效质量检测规则集合并更新多维标签规则库。
12.根据权利要求11所述的一种基于多维标签的数据质量检测系统,其特征在于,还包括质量检测结果单元,配置用于针对所述未知类型数据源遍历执行所述质量检测规则集合,获得每个规则的质量检测结果,并保存所述质量检测规则集合和所述质量检测结果。
CN202010351007.3A 2020-04-28 2020-04-28 一种基于多维标签的数据质量检测方法和系统 Active CN111563074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010351007.3A CN111563074B (zh) 2020-04-28 2020-04-28 一种基于多维标签的数据质量检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010351007.3A CN111563074B (zh) 2020-04-28 2020-04-28 一种基于多维标签的数据质量检测方法和系统

Publications (2)

Publication Number Publication Date
CN111563074A true CN111563074A (zh) 2020-08-21
CN111563074B CN111563074B (zh) 2022-05-31

Family

ID=72067937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010351007.3A Active CN111563074B (zh) 2020-04-28 2020-04-28 一种基于多维标签的数据质量检测方法和系统

Country Status (1)

Country Link
CN (1) CN111563074B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367210A (zh) * 2021-01-12 2021-02-12 武汉思普崚技术有限公司 一种快速检查配置变更的方法
CN112650762A (zh) * 2021-03-15 2021-04-13 腾讯科技(深圳)有限公司 数据质量监控的方法、装置、电子设备以及存储介质
CN112783882A (zh) * 2021-01-22 2021-05-11 卓尔购信息科技(武汉)有限公司 一种大数据质检方法、系统、存储介质及设备
CN113987010A (zh) * 2021-10-13 2022-01-28 北京元年科技股份有限公司 一种多维数据集的洞察方法以及装置
CN116028481A (zh) * 2023-03-30 2023-04-28 紫金诚征信有限公司 一种数据质量检测方法、装置、设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160034502A1 (en) * 2014-08-04 2016-02-04 Ron Dupey Automatic Detection of Potential Data Quality Problems
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN107092694A (zh) * 2017-04-25 2017-08-25 杭州数梦工场科技有限公司 数据质量的稽查任务生成方法以及装置
US20180096019A1 (en) * 2016-10-03 2018-04-05 Bank Of America Corporation Cross-Platform Digital Data Movement Control Utility and Method of Use Thereof
CN108830554A (zh) * 2018-05-29 2018-11-16 农业部规划设计研究院 基于任务模型的数据成果信息质量智能检测方法和系统
CN109491990A (zh) * 2018-09-17 2019-03-19 武汉达梦数据库有限公司 一种检测数据质量的方法以及检测数据质量的装置
CN109656812A (zh) * 2018-11-19 2019-04-19 平安科技(深圳)有限公司 数据质量检测方法、装置及存储介质
CN109993439A (zh) * 2019-04-02 2019-07-09 山东浪潮云信息技术有限公司 一种基于政府数据的质量检测方法
CN110737650A (zh) * 2019-09-27 2020-01-31 北京明略软件系统有限公司 数据质量检测方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160034502A1 (en) * 2014-08-04 2016-02-04 Ron Dupey Automatic Detection of Potential Data Quality Problems
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
US20180096019A1 (en) * 2016-10-03 2018-04-05 Bank Of America Corporation Cross-Platform Digital Data Movement Control Utility and Method of Use Thereof
CN107092694A (zh) * 2017-04-25 2017-08-25 杭州数梦工场科技有限公司 数据质量的稽查任务生成方法以及装置
CN108830554A (zh) * 2018-05-29 2018-11-16 农业部规划设计研究院 基于任务模型的数据成果信息质量智能检测方法和系统
CN109491990A (zh) * 2018-09-17 2019-03-19 武汉达梦数据库有限公司 一种检测数据质量的方法以及检测数据质量的装置
CN109656812A (zh) * 2018-11-19 2019-04-19 平安科技(深圳)有限公司 数据质量检测方法、装置及存储介质
CN109993439A (zh) * 2019-04-02 2019-07-09 山东浪潮云信息技术有限公司 一种基于政府数据的质量检测方法
CN110737650A (zh) * 2019-09-27 2020-01-31 北京明略软件系统有限公司 数据质量检测方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367210A (zh) * 2021-01-12 2021-02-12 武汉思普崚技术有限公司 一种快速检查配置变更的方法
CN112367210B (zh) * 2021-01-12 2021-04-02 武汉思普崚技术有限公司 一种快速检查配置变更的方法
CN112783882A (zh) * 2021-01-22 2021-05-11 卓尔购信息科技(武汉)有限公司 一种大数据质检方法、系统、存储介质及设备
CN112650762A (zh) * 2021-03-15 2021-04-13 腾讯科技(深圳)有限公司 数据质量监控的方法、装置、电子设备以及存储介质
CN112650762B (zh) * 2021-03-15 2021-07-02 腾讯科技(深圳)有限公司 数据质量监控的方法、装置、电子设备以及存储介质
CN113987010A (zh) * 2021-10-13 2022-01-28 北京元年科技股份有限公司 一种多维数据集的洞察方法以及装置
CN113987010B (zh) * 2021-10-13 2022-09-16 北京元年科技股份有限公司 一种多维数据集的洞察方法以及装置
CN116028481A (zh) * 2023-03-30 2023-04-28 紫金诚征信有限公司 一种数据质量检测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN111563074B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN111563074B (zh) 一种基于多维标签的数据质量检测方法和系统
US9384603B2 (en) Failure cause classification apparatus
TWI662431B (zh) 一種開源許可證的分析方法及裝置
US11481707B2 (en) Risk prediction system and operation method thereof
CN112463774A (zh) 数据去重方法、设备及存储介质
CN115456438A (zh) 企业经营行为异常预警方法及其应用
CN111210321B (zh) 一种基于合同管理的风险预警方法及系统
CN113723555A (zh) 异常数据的检测方法及装置、存储介质、终端
KR101182126B1 (ko) 단일 차원 군집 분석의 분산처리를 이용한 대용량 데이터의 군집 분석 시스템, 방법 및 이를 위한 기록 매체
CN110175113B (zh) 业务场景确定方法和装置
CN116910650A (zh) 数据识别方法、装置、存储介质及计算机设备
Lahann et al. LSTM-based anomaly detection of process instances: Benchmark and tweaks
US10311084B2 (en) Method and system for constructing a classifier
CN114331728A (zh) 一种证券分析管理系统
Rossel et al. Unsupervised biodiversity estimation using proteomic fingerprints from MALDI‐TOF MS data
CN112269974A (zh) 一种数据管控的方法及系统
CN111400375A (zh) 一种基于财务业务数据商机挖掘方法及装置
CN117421611B (zh) 一种水泥制造厂的废气成分过滤方法及系统
Azzalini et al. Data Quality and Fairness: Rivals or Friends?
Shahid et al. Machine learning-based false positive software vulnerability analysis
CN115187387B (zh) 一种风险商家的识别方法及设备
CN116485511A (zh) 金融行为检测方法及相关装置、电子设备和存储介质
CN112990766A (zh) 不良根因设备的确定方法及系统及装置及介质
CN114511392A (zh) 一种财务数据采集标准方法
CN114169732A (zh) 基于模糊理论和lopa保护层的列控车载设备风险分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant