CN116166648A - 数据质量规则的配置方法、数据质量检测方法及相关装置 - Google Patents

数据质量规则的配置方法、数据质量检测方法及相关装置 Download PDF

Info

Publication number
CN116166648A
CN116166648A CN202310036542.3A CN202310036542A CN116166648A CN 116166648 A CN116166648 A CN 116166648A CN 202310036542 A CN202310036542 A CN 202310036542A CN 116166648 A CN116166648 A CN 116166648A
Authority
CN
China
Prior art keywords
data quality
rule
data
configuration
configuration mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310036542.3A
Other languages
English (en)
Inventor
孙明铭
徐凯
徐佳星
周明伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202310036542.3A priority Critical patent/CN116166648A/zh
Publication of CN116166648A publication Critical patent/CN116166648A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2428Query predicate definition using graphical user interfaces, including menus and forms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了数据质量规则的配置方法、数据质量检测方法及相关装置,包括:通过配置界面提供多个配置模式;其中,多个配置模式包括通过配置目标函数以生成数据质量规则的第一配置模式以及通过输入目标查询语句以生成数据质量规则的第二配置模式;接收从多个配置模式中选择目标配置模式的第一用户指令;基于第一用户指令利用选择的目标配置模式配置数据质量规则。本申请能够基于用户的实际需求选择对应的配置模式,且由于第二配置模式中支持用户输入定制化的目标查询语句,还能够使生成的数据质量规则所表达的语义更加准确以及丰富,从而最大限度地满足实际业务场景的数据检测需求,继而数据质量的提高检测效果。

Description

数据质量规则的配置方法、数据质量检测方法及相关装置
技术领域
本申请涉及数据处理技术领域,特别是涉及数据质量规则的配置方法、数据质量检测方法及相关装置。
背景技术
随着大数据技术的快速发展,存储的数据量以及线上的作业量愈加庞大,数据管控与数据治理就变得越来越重要。
现有技术中,通常通过数据中台对数据进行检测与治理。数据中台指的是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,是将数据加工以后封装成一个公共的数据产品或服务的企业级的能力复用平台,中台是相对于前台和后台的概念。具体地,数据中台中存储有大量数据质量规则,可以通过数据质量规则对数据进行检测以及分析。
然而,数据中台中存储的数据质量规则通常是根据系统函数或上传的自定义函数生成的,配置形式较简单,且生成的数据质量规则的语义较简单,无法根据用户的实际需求进行配置,也无法很好地满足实际业务场景的数据检测需求。
发明内容
本申请主要解决的技术问题是提供数据质量规则的配置方法、数据质量检测方法及相关装置,能够解决现有技术中无法高效配置数据质量规则的问题。
为解决上述技术问题,本申请采用的第一技术方案是提供一种数据质量规则的配置方法,包括:通过配置界面提供多个配置模式;其中,多个配置模式包括通过配置目标函数以生成数据质量规则的第一配置模式以及通过输入目标查询语句以生成数据质量规则的第二配置模式;接收从多个配置模式中选择目标配置模式的第一用户指令;基于第一用户指令利用选择的目标配置模式配置数据质量规则。
为解决上述技术问题,本申请采用的第二技术方案是提供一种数据质量检测方法,检测方法基于数据质量规则进行检测,数据质量规则通过如下配置方法生成:通过配置界面提供多个配置模式;其中,多个配置模式包括通过配置目标函数以生成数据质量规则的第一配置模式以及通过输入目标查询语句以生成数据质量规则的第二配置模式;接收从多个配置模式中选择目标配置模式的第一用户指令;基于第一用户指令利用选择的目标配置模式配置数据质量规则;检测方法包括:获取到待检测对象;其中,待检测对象包括数据表,数据表包括不同数据类型的字段;获取到多条数据质量规则;将待检测对象与数据质量规则进行绑定;利用数据质量规则对待检测对象进行质量检测,并输出对应的数据质量检测结果。
为解决上述技术问题,本申请采用的第三技术方案是提供一种电子设备,包括:存储器,用于存储程序数据,程序数据被执行时实现如上述的数据质量规则的配置方法中的步骤或数据质量检测方法中的步骤;处理器,用于执行存储器存储的程序数据以实现如上述的数据质量规则的配置方法中的步骤或数据质量检测方法中的步骤。
为解决上述技术问题,本申请采用的第四技术方案是提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的数据质量规则的配置方法中的步骤或数据质量检测方法中的步骤。
本申请的有益效果是:区别于现有技术,本申请提供数据质量规则的配置方法、数据质量检测方法及相关装置,通过在配置界面中提供多个配置模式,且多个配置模式包括通过配置目标函数以生成数据质量规则的第一配置模式以及通过输入目标查询语句以生成数据质量规则的第二配置模式,能够为用户提供多种生成数据质量规则的方法。继而接收从多个配置模式中选择目标配置模式的第一用户指令,并基于第一用户指令利用选择的目标配置模式配置数据质量规则,能够基于用户的实际需求选择对应的配置模式,且由于第二配置模式中支持用户输入定制化的目标查询语句,还能够使生成的数据质量规则所表达的语义更加准确以及丰富,从而最大限度地满足实际业务场景的数据检测需求。通过上述方式,本申请提高了数据质量规则配置的灵活性与准确性,将配置好的数据质量规则用于数据质量检测中,能够有效提高检测效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请数据质量规则的配置方法第一实施方式的流程示意图;
图2是本申请数据质量规则的配置方法第二实施方式的流程示意图;
图3是本申请数据质量规则的配置方法第三实施方式的流程示意图;
图4是本申请数据质量检测方法第一实施方式的流程示意图;
图5是本申请数据质量检测方法第二实施方式的流程示意图;
图6是本申请数据质量检测方法一实施方式的信号流向图;
图7是本申请数据质量规则的配置装置一实施方式的结构示意图;
图8是本申请数据质量检测装置一实施方式的结构示意图;
图9是本申请电子设备一实施方式的结构示意图;
图10是本发明计算机可读存储介质一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,本文中使用的术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
请参阅图1,图1是本申请数据质量规则的配置方法第一实施方式的流程示意图。在本实施方式中,配置方法包括:
S11:通过配置界面提供多个配置模式;其中,多个配置模式包括通过配置目标函数以生成数据质量规则的第一配置模式以及通过输入目标查询语句以生成数据质量规则的第二配置模式。
本实施方式中,配置界面为数据中台提供的可视化界面。
具体地,数据中台通常包括应用层、计算层、存储层、接入层和数据源。其中,数据源包括ERP(Enterprise Resource Planning,企业资源计划)数据库、大数据平台和数据仓库。接入层用于采集纳入数据质量管理范围的数据源,包括JDBC(Java DatabaseConnectivity,Java数据库连接)、API(Application Programming Interface,应用程序接口)查询接口以及集成接口。存储层用于存储质量规则、问题数据、元数据的连接信息、规则模板和知识库。计算层用于根据数据质量规则进行调度和检测、管理检测结果、检查任务、修复任务以及进行质量检测相关的统计分析。应用层用于根据各种质量规则对数据的分析、对质量问题的分析、形成质量报告以及对绩效进行考核。
本实施方式中,数据质量规则是检测数据质量的关键,是一种使用语义、语法等限定方法对数据、知识和业务范围进行限制的方式。
具体地,对于数据而言,其质量评估标准主要包括六个维度:完整性、一致性、规范性、及时性以及准确性。数据的质量指的是其符合上述维度标准的程度。不同的数据质量规则可以从不同维度对数据进行检测。
本实施方式中,目标函数为SQL(Structured Query Language,结构化查询语言)函数。其中,目标函数用于通过SQL脚本的执行结果生成数据质量规则。
本实施方式中,目标查询语句为用户基于结构化查询语言的编程逻辑编写的SQL语句。其中,目标查询语句用于通过SQL脚本的执行结果生成数据质量规则。
本实施方式中,第一配置模式为用户从已有的多个SQL函数中选择目标函数,并为目标函数设置参数,以基于目标函数生成数据质量规则的配置模式。其中,第一配置模式不涉及到SQL语句的编写。
本实施方式中,第二配置模式为配置界面接收用户输入的目标查询语句,并基于目标查询语句生成数据质量规则的配置模式。其中,第二配置模式涉及到SQL语句的编写。
可以理解地,通过配置界面提供第一配置模式与第二配置模式,能够为用户提供多种生成数据质量规则的方法,以满足用户的不同配置需求。
S12:接收从多个配置模式中选择目标配置模式的第一用户指令。
本实施方式中,第一用户指令包括用户从排列的第一配置模式与第二配置模式中进行选择的指令,配置界面接收到用户指令后,能够为用户提供对应的目标配置模式。
可以理解地,第一配置模式不涉及到SQL语句的编写,用户选择第一配置模式,表明用户选择利用现有的SQL语句生成数据质量规则。
可以理解地,第二配置规则涉及到SQL语句的编写,用户选择第二配置模式,表明用户需要基于SQL的代码逻辑编写更复杂以及更准确的SQL语句,以满足实际业务场景的检测需求。
S13:基于第一用户指令利用选择的目标配置模式配置数据质量规则。
本实施方式中,确定目标配置模式后,基于对应的配置模式配置数据质量规则。
在一个具体的实施场景中,基于第一用户指令选择第一配置模式后,配置界面为用户提供数据中台中存储的多个SQL函数,以供用户从中选择出目标函数,并为目标函数设置变量、常量等各项参数,继而基于配置好的目标函数生成数据质量规则。
在另一个具体的实施场景中,基于第一用户指令选择第二配置模式后,配置界面为用户提供输入框,以接收用户输入的目标查询语句,并基于输入的SQL语句生成数据质量规则。
可以理解地,若业务场景的检测需求较简单,用户选择第一配置模式,能够快速配置出满足基础检测需求的数据质量规则。
可以理解地,若业务场景的检测需求较复杂,用户选择第二配置模式,并基于检测需求以及SQL语句的运行逻辑编写出较为复杂的目标查询语句,能够使生成的数据质量规则所表达的语义更加准确以及丰富,从而最大限度地满足实际业务场景的数据检测需求。
区别于现有技术,本实施方式通过在配置界面中提供多个配置模式,且多个配置模式包括通过配置目标函数以生成数据质量规则的第一配置模式以及通过输入目标查询语句以生成数据质量规则的第二配置模式,能够为用户提供多种生成数据质量规则的方法。继而接收从多个配置模式中选择目标配置模式的第一用户指令,并基于第一用户指令利用选择的目标配置模式配置数据质量规则,能够基于用户的实际需求选择对应的配置模式,且由于第二配置模式中支持用户输入定制化的目标查询语句,还能够更好地适应实际业务场景的需求。
请参阅图2,图2是本申请数据质量规则的配置方法第二实施方式的流程示意图。在本实施方式中,配置方法包括:
S21:通过配置界面提供多个配置模式;其中,多个配置模式包括通过配置目标函数以生成数据质量规则的第一配置模式以及通过输入目标查询语句以生成数据质量规则的第二配置模式。
具体过程请参见S11中的描述,此处不再赘述。
S22:接收从多个配置模式中选择目标配置模式的第一用户指令。
具体过程请参见S12中的描述,此处不再赘述。
S23:响应于目标配置模式为第一配置模式,接收从函数库中选择目标函数的第二用户指令,以基于第二用户指令选择目标函数,以及接收用户通过配置界面输入的函数参数,基于目标函数以及函数参数生成数据质量规则。
本实施方式中,函数库包括多个系统函数以及多个自定义函数(User-definedfunctions,UDF),函数参数包括常量以及自定义变量。其中,UDF函数为用户利用jar脚本编写的类文件,将其封装为jar包后,上传至数据中台的存储库中。其中,jar包是类的归档文件,jar文件格式以的ZIP文件格式为基础,不仅用于压缩和发布,而且还用于部署和封装库、组件和插件程序。
本实施方式中,系统函数与自定义函数均通过SQL脚本的执行结果生成数据质量规则。
本实施方式中,响应于目标配置模式为第一配置模式,接收从多个系统函数或多个自定义函数中选择目标函数的第二用户指令。基于第二用户指令获取到目标函数后,根据输入的函数参数为目标函数设置常量以及自定义变量,以生成数据质量规则。
其中,目标函数为返回类型为布尔(boolean)类型的函数。其中,布尔类型对象可以被赋予文字值true(真)或者false(假),所对应的关系就是真与假的概念。
其中,常量也称为文字值或标量值,是表示一个特定数据值的符号。常量的格式取决于它所表示的值的数据类型,例如,数字常量、字符串常量、日期和时间常量等。
其中,自定义变量指的是局部变量,可以由用户自定义。局部变量的名称是用户自定义命名的局部变量名,需符合SQL Server(服务器)标识符命名规则。
具体地,数据在内存中存储可以变化的量叫变量。为了在内存存储信息,用户必须指定存储信息的单元,并为该存储单元命名,以方便获取信息,这就是变量的功能。SQL中的变量使用两种变量,一种是上述的局部变量,另外一种是全局变量。局部变量和全局变量的主要区别在于存储的数据作用范围不一样。局部变量的作用范围仅在程序内部,全局变量是SQL Server系统内部事先定义好的变量,不用用户参与定义,任何程序均可随时调用。
其中,局部变量的使用包括声明局部变量以及为局部变量赋值,为变量赋值的方式一般有两种,一种是使用SELECT(选择)语句,另一种是使用SET(设置)语句。
具体地,当把数据质量规则与具体的数据表绑定后,变量即为数据表中被绑定的具体字段。其中,数据表一般包括多个字段,每个字段表征一种数据属性,每个字段为数据表中对应的列,用于以相同的数据类型存储相同类别的数据。其中,每个字段包括字段名称、中文名称以及简化的数据类型。
在一个具体的实施场景中,目标函数为字段非空且长度为常量的SQL函数,系统运行该SQL函数对应的数据质量规则时,会解析出函数的变量数目(绑定的字段数目),并配置常量的值,该数据质量规则会检测已绑定字段中的每一个值是否非空并且长度是否与预设的常量相同,两者皆相同的话,返回true,否则返回false。
本实施方式中,目标函数执行的分值计算语句以及异常数据输出语句均是系统内置的SQL语句。
S24:响应于目标配置模式为第二配置模式,接收用户通过配置界面输入的目标查询语句,基于目标查询语句生成数据质量规则。
本实施方式中,目标查询语句包括用户基于结构化查询语言的编程逻辑编写的分值计算语句以及异常数据输出语句。其中,分值计算语句以及异常数据输出语句中均包括调用变量的代码。
其中,变量包括字段变量和表变量。分值计算语句以及异常数据输出语句中均只能绑定一个表变量,但可以绑定多个字段变量。例如,select count(${Column1})from${Schema_Table},其中“Schema_Table”指的是从数据库中将某一张表赋值为表变量,select count(${Column1})指的是将该表中的某一字段对应的值赋值为字段变量。
其中,分值计算语句指的是计算符合规范的数据占检测总数据的比例,并输出对应的得分。异常数据输出语句指的是输出所有不符合规范的数据,其用于检测数据质量规则的触发情况。
例如,从业务系统中采集到五个用户的年龄,分别为15岁、16岁、18岁、25岁和27岁,则业务数据就是年龄的具体数值“15”、“16”、“18”、“25”和“27”,对这些业务数据进行描述的元数据就是“年龄”,若针对“年龄”这一元数据设置的常量是“年龄大于18”,系统运行目标查询语句对应的数据质量规则时,会对变量赋值“15”、“16”、“18”、“25”和“27”,并配置常量的值“年龄大于18”,该数据质量规则会检测已绑定字段中的每一个值大于18,分值计算语句会统计出符合规范的数据为“25”和“27”,占检测总数据的40%,输出得分为40分。同时,异常数据输出语句会统计出不符合规范的数据为“15”、“16”与“18”,并将这些数据用集合的形式输出。
本实施方式中,用户输入目标查询语句后,系统会自动对目标查询语句进行语法校验,并在检测出语法问题时输出相应编写报错的信息,以确保配置完成的数据质量规则中的SQL语句是符合规范的。
可以理解地,本实施方式通过在配置界面中提供第一配置模式与第二配置模式,能够为用户提供多种生成数据质量规则的方法。继而接收从多个配置模式中选择目标配置模式的第一用户指令,并基于第一用户指令利用选择的目标配置模式配置数据质量规则,能够基于用户的实际需求选择对应的配置模式,且第一配置模式中支持用户选择系统函数以及自定义函数,第二配置模式中支持用户输入定制化的目标查询语句,且目标查询语句中还包括分值计算语句以及异常数据输出语句,能够使生成的数据质量规则所表达的语义更加准确以及丰富,从而最大限度地满足实际业务场景的数据检测需求。
请参阅图3,图3是本申请数据质量规则的配置方法第三实施方式的流程示意图。在本实施方式中,配置方法包括:
S31:接收从多个规则类型中选择目标规则类型的第一选择指令;其中,规则类型包括表级规则以及字段级规则。
本实施方式中,表级规则与字段级规则是从不同的角度去评估数据。其中,表级规则可以应用在数据表的一列上,也可以应用在数据表的多个列上。字段级规则只能应用在数据表的一列上。
S32:基于第一选择指令利用选择的目标规则类型将待配置的数据质量规则的基础规则配置为表级规则或字段级规则。
本实施方式中,在基于第一选择指令配置完表级规则或字段级规则后,接收从多个规则维度中选择目标规则维度的第二选择指令。其中,规则维度包括完整性、一致性、规范性、及时性以及准确性。基于第二选择指令利用选择的规则维度对表级规则或字段级规则进行分类。
其中,完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整数据的价值就会大大降低,也是数据质量最为基础的一项评估标准。
其中,一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。逻辑指的是,多项数据间存在着固定的逻辑关系,例如PV(页面访问量)一定是大于等于UV(用户唯一访问量)的。跳出率一定是在0到1之间的。
其中,规范性指的是一项数据存在它特定的格式。例如,手机号码一定是11位的数字,IP地址一定是由4个0到255间的数字加上“.”组成的。
其中,及时性指的是数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去借鉴意义。及时性在大数据离线项目里影响不大,但是对于大数据实时的项目则有很大的影响。
其中,准确性是指数据记录的信息是否存在异常或错误。存在准确性问题的数据不仅仅是规则上的不一致,最为常见的数据准确性错误例如乱码。其次,异常的大或者小的数据也是不符合条件的数据。
可以理解地,在配置数据质量规则之前,先定义规则的维度信息,能够从不同维度对数据进行评估。
S33:通过配置界面提供多个配置模式;其中,多个配置模式包括通过配置目标函数以生成数据质量规则的第一配置模式以及通过输入目标查询语句以生成数据质量规则的第二配置模式。
具体过程请参见S11中的描述,此处不再赘述。
S34:接收从多个配置模式中选择目标配置模式的第一用户指令。
具体过程请参见S12中的描述,此处不再赘述。
S35:基于第一用户指令利用选择的目标配置模式配置表级质量规则或字段级质量规则。
本实施方式中,在获取到预设的基础配置信息后,基于第一用户指令利用选择的目标配置模式配置表级质量规则或字段级质量规则。
具体过程请参见S13、S23以及S24中的描述,此处不再赘述。
在一个具体的实施场景中,若用户选择第一配置模式,且基础信息中配置的目标规则类型为字段级规则,规则维度选择规范性,用户选择的目标函数为UDF函数,且配置的函数参数为常量,则生成的数据质量规则的数据结构如下:
Figure BDA0004048907040000121
在另一个具体的实施场景中,若用户选择第二配置模式,且基础信息中配置的目标规则类型为表级规则,规则维度选择完整性,则生成的数据质量规则的数据结构如下:
Figure BDA0004048907040000122
Figure BDA0004048907040000131
其中,ruleName指的是质量规则名称;describe指的是质量规则描述信息;ruleType指的是质量规则类型,0指示表级,1指示字段级;ruleDimension指的是质量规则维度,0指示规范性,1指示准确性,2指示一致性,3指示完整性,4指示及时性;ruleModel指的配置模式,0指示第一配置模式,1指示第二配置模式;functionConfig.name指的是质量规则绑定的函数名称;functionConfig.fullName指的是质量规则绑定的函数全名称,包含函数参数;functionConfig.description指的是质量规则绑定的函数的描述信息;functionConfig.returnType指的是函数的返回类型,仅支持布尔类型;functionConfig.functionTypeCode指的是函数类型,0指示UDF函数,1指示系统函数;functionConfig.params.name指的是函数入参的参数名称;functionConfig.params.type指的是函数入参的类型,0指示常量,1指示变量;functionConfig.params.value指的是当函数入参为常量时的常量值;advanceConfig.sampleSQL指的是用户输入的异常数据输出语句;advanceConfig.scoreSQL指的是用户输入的分值计算语句。
可以理解地,上述方式提高了数据质量规则配置的灵活性与准确性,将配置好的数据质量规则用于数据质量检测中,能够有效提高检测效果。
对应地,本申请提供一种数据质量检测方法。
请参阅图4,图4是本申请数据质量检测方法第一实施方式的流程示意图。在本实施方式中,检测方法基于数据质量规则进行检测,数据质量规则通过如下配置方法生成:通过配置界面提供多个配置模式;其中,多个配置模式包括通过配置目标函数以生成数据质量规则的第一配置模式以及通过输入目标查询语句以生成数据质量规则的第二配置模式;接收从多个配置模式中选择目标配置模式的第一用户指令;基于第一用户指令利用选择的目标配置模式配置数据质量规则。
检测方法包括:
S41:获取到待检测对象;其中,待检测对象包括数据表,数据表包括不同数据类型的字段。
本实施方式中,待检测对象可以从业务所属部门以及所属系统中获取。具体地,可以通过业务部门以及业务系统对不同类型的表进行细分。
S42:获取到多条数据质量规则。
其中,数据质量规则包括表级质量规则以及字段级质量规则。
本实施方式中,若数据质量规则为通过第二配置模式配置的,则后续通过SQL脚本运行的目标查询语句包括用户基于结构化查询语言的编程逻辑编写的分值计算语句以及异常数据输出语句。
其中,目标查询语句为基于检测需求以及SQL语句的运行逻辑编写出的较为复杂的SQL语句。
S43:将待检测对象与数据质量规则进行绑定。
本实施方式中,将数据表与表级质量规则进行绑定,以及将数据表中的所有字段与字段级质量规则进行一一对应绑定。
本实施方式中,表级质量规则最多可以添加30个,字段级质量规则最多可以添加10个。
S44:利用数据质量规则对待检测对象进行质量检测,并输出对应的数据质量检测结果。
本实施方式中,利用表级质量规则对数据表进行质量检测,以及利用字段级质量规则对绑定的字段进行质量检测,并输出数据质量检测结果。
在一个具体的实施场景中,若数据质量规则为通过第一配置模式生成的,则系统运行该数据质量规则时,会解析出目标函数的变量数目(绑定的字段数目),并配置常量的值,该数据质量规则会对已绑定字段中的每一个值进行匹配校验,并得到对应的数据质量检测结果。
在另一个具体的实施场景中,若数据质量规则为通过第二配置模式生成的,则系统运行该数据质量规则时,会检测出用户在分值计算语句以及异常数据输出语句中编写的变量信息,以基于变量信息绑定待检测的数据表以及数据表中的字段,并对已绑定字段中的每一个值进行匹配校验,并得到对应的数据质量检测结果。
进一步地,确定待检测对象的检测范围,利用数据质量规则对检测范围内的数据进行质量检测,并输出对应的数据质量检测结果。
其中,检测范围即为数据表的扫描范围。
本实施方式中,扫描范围的划分方式包括三种,分别是全表、自定义以及采样。具体地,全表指的是扫描整张数据表;自定义指的是通过SQL语句对数据表的区域进行划分,例如,筛选出年龄大于18的数据:age>18;采样指的是通过设定百分比,以通过百分比随机地抽取数据表中的数据进行质量检测。
本实施方式中,还确定待检测对象的检测范围后,还需要配置执行该检测任务的执行器的并发数、CPU(central processing unit,中央处理器)数以及内存。
可以理解地,本实施方式通过获取不同类型的数据表作为待检测对象,并将每个待检测对象与对应的数据质量规则进行绑定,能够针对不同的数据表配置不同的数据质量规则。继而对每个待检测对象进行质量检测,能够对数据中台中的不同数据进行更加细致以及精确的质量管控。进一步地,由于第二配置模式中支持用户输入定制化的目标查询语句,还能够使生成的数据质量规则所表达的语义更加准确以及丰富,从而最大限度地满足实际业务场景的数据检测需求,继而进一步提高检测效果。
请参阅图5,图5是本申请数据质量检测方法第二实施方式的流程示意图。在本实施方式中,检测方法基于数据质量规则进行检测,数据质量规则通过如下配置方法生成:通过配置界面提供多个配置模式;其中,多个配置模式包括通过配置目标函数以生成数据质量规则的第一配置模式以及通过输入目标查询语句以生成数据质量规则的第二配置模式;接收从多个配置模式中选择目标配置模式的第一用户指令;基于第一用户指令利用选择的目标配置模式配置数据质量规则。
检测方法包括:
S51:获取到待检测对象;其中,待检测对象包括数据表,数据表包括不同数据类型的字段。
具体过程请参见S41中的描述,此处不再赘述。
S52:获取到多条数据质量规则。
具体过程请参见S12中的描述,此处不再赘述。
本实施方式中,获取的数据质量规则均对应有一个规则维度。其中,规则维度包括完整性、一致性、规范性、及时性以及准确性。
S53:将待检测对象与数据质量规则进行绑定,并配置多条数据质量规则的权重。
在一个具体的实施场景中,若某个数据表绑定有5个数据质量规则,则数据质量规则1的权重可以设置为10%,数据质量规则2的权重可以设置为20%,数据质量规则3的权重可以设置为5%,数据质量规则4的权重可以设置为30%,数据质量规则5的权重可以设置为35%。
S54:利用数据质量规则对待检测对象进行质量检测,以获取每个数据质量规则的检测分数,并基于每个数据质量规则对应的权重与检测分数获取到对应的数据质量检测结果。
在一个具体的实施场景中,若数据质量规则为通过第一配置模式生成的,则系统运行该数据质量规则时,会解析出目标函数的变量数目(绑定的字段数目),并配置常量的值,该数据质量规则会对已绑定字段中的每一个值进行匹配校验,得到对应的检测分数后,将检测分数与该数据质量规则对应的权重相乘,以得到对应的数据质量检测结果。
在另一个具体的实施场景中,若数据质量规则为通过第二配置模式生成的,则系统运行该数据质量规则时,会检测出用户在分值计算语句中编写的变量信息,以基于变量信息绑定待检测的数据表以及数据表中的字段,并对已绑定字段中的每一个值进行匹配校验,得到对应的检测分数后,将检测分数与该数据质量规则对应的权重相乘,以得到对应的数据质量检测结果。
S55:基于多个数据质量检测结果获取到待检测对象的综合分数。
本实施方式中,将多个数据质量检测结果相加,以得到数据表的综合分数。
以上述绑定有5个数据质量规则的数据表的检测结果为例,该数据表的综合分数=数据质量规则1的检测分数*10%+数据质量规则2的检测分数*20%+数据质量规则3的检测分数*5%+数据质量规则4的检测分数*30%+数据质量规则5的检测分数*35%。
进一步地,由于绑定的每条数据质量规则均对应有一个规则维度,还可以单独获取每个规则维度下的数据质量规则的得分。
仍以上述绑定有5个数据质量规则的数据表的检测结果为例,若数据质量规则1、数据质量规则2以及数据质量规则3均对应完整性的检测,数据质量规则4以及数据质量规则5均对应规范性的检测,则以完整性来划分的话,用数据质量规则1、数据质量规则2以及数据质量规则3来计算完整性的得分;以规范性来划分的话,用数据质量规则4以及数据质量规则4来计算完整性的得分。
可以理解地,本实施方式通过获取不同类型的数据表作为待检测对象,并将每个待检测对象与对应的数据质量规则进行绑定,能够针对不同的数据表配置不同的数据质量规则。继而对每个待检测对象进行质量检测,能够对数据中台中的不同数据进行更加细致以及精确的质量管控。进一步地,由于绑定的每条数据质量规则均对应有一个规则维度,且通过单独获取每个规则维度下的数据质量规则的得分,还能够通过不同的维度对数据检测的结果进行分析和修正,从而进一步提升数据治理的效率。
请参阅图6,图6是本申请数据质量检测方法一实施方式的信号流向图。本实施方式中,用户在数据中台的配置界面开启数据质量检测任务,并通过数据质量检测系统向数据质量规则管理系统发送获取表级质量规则和字段级质量规则的请求。其中,数据质量规则管理系统中存储有通过上述方法配置的数据质量规则。数据质量规则管理系统接收用户的选择指令后,基于选择指令获取到对应的数据质量规则,并将获取的数据质量规则返回给数据质量检测系统。数据质量检测系统获取到至少一条数据质量规则后,基于每条数据质量规则的配置模式组装对应的分值计算语句与异常数据输出语句,以将上述语句转化为真实可以执行的SQL语句1与SQL语句2。其中,响应于数据质量规则的配置模式为第一配置模式,基于目标函数对应的系统内置分值计算语句与异常数据输出语句组装SQL语句1与SQL语句2。响应于数据质量规则的配置模式为第二配置模式,替换用户输入的分值计算语句以及异常数据输出语句中的变量,以转化为SQL语句1与SQL语句2。数据质量检测系统通过HIVE(一种数据仓库工具)的JDBC接口将SQL语句1与SQL语句2发送给资源管理系统。其中,资源管理系统可以为YARN(YetAnotherResourceNegotiator,另一种资源协调者)。在资源管理系统中获取到待检测对象,并将每条数据质量规则对应的SQL语句1与SQL语句2与待检测对象绑定,并向数据质量检测系统返回绑定结果。数据质量检测系统计算每个数据质量规则的得分等统计信息并缓存,并将缓存的全部统计信息批量发送至关系型数据库管理系统。其中,关系型数据库管理系统为MYSQL数据库。数据质量检测系统还记录任务的运行日志,并将运行日志发送至关系型数据库管理系统。其中,运行日志以每条数据质量规则对应的规则维度记录SQL语句1与SQL语句2对应的检测信息。
对应地,本申请提供一种数据质量规则的配置装置。
请参阅图7,图7是本申请数据质量规则的配置装置一实施方式的结构示意图。如图7所示,数据质量规则的配置装置70包括提供模块71、接收模块72以及配置模块73。
提供模块71,用于通过配置界面提供多个配置模式;其中,多个配置模式包括通过配置目标函数以生成数据质量规则的第一配置模式以及通过输入目标查询语句以生成数据质量规则的第二配置模式。
接收模块72,用于接收从多个配置模式中选择目标配置模式的第一用户指令。
配置模块73,用于基于第一用户指令利用选择的目标配置模式配置数据质量规则。
其中,具体过程请参阅S11~S13、S21~S24以及S31~S35中的相关文字描述,在此不再赘述。
区别于现有技术,本实施方式通过提供模块71提供多个配置模式,且多个配置模式包括通过配置目标函数以生成数据质量规则的第一配置模式以及通过输入目标查询语句以生成数据质量规则的第二配置模式,能够为用户提供多种生成数据质量规则的方法。继而通过接收模块72接收从多个配置模式中选择目标配置模式的第一用户指令,并通过配置模块73基于第一用户指令利用选择的目标配置模式配置数据质量规则,能够基于用户的实际需求选择对应的配置模式,且由于第二配置模式中支持用户输入定制化的目标查询语句,还能够更好地适应实际业务场景的需求。
对应地,本申请提供一种数据质量检测装置。
请参阅图8,图8是本申请数据质量检测装置一实施方式的结构示意图。如图8所示,数据质量检测装置80包括第一获取模块81、第二获取模块82、绑定模块83以及检测模块84。
第一获取模块81,用于获取到待检测对象;其中,待检测对象包括数据表,数据表包括不同数据类型的字段。
第二获取模块82,用于获取到多条数据质量规则。
绑定模块83,用于将待检测对象与数据质量规则进行绑定。
检测模块84,用于利用数据质量规则对待检测对象进行质量检测,并输出对应的数据质量检测结果。
其中,具体过程请参阅S41~S44以及S51~S55中的相关文字描述,在此不再赘述。
区别于现有技术,本实施方式通过第一获取模块81获取不同类型的数据表作为待检测对象,并通过绑定模块83将每个待检测对象与对应的数据质量规则进行绑定,能够针对不同的数据表配置不同的数据质量规则。继而利用检测模块84对每个待检测对象进行质量检测,能够对数据中台中的不同数据进行更加细致以及精确的质量管控。进一步地,由于第二配置模式中支持用户输入定制化的目标查询语句,还能够使生成的数据质量规则所表达的语义更加准确以及丰富,从而最大限度地满足实际业务场景的数据检测需求,继而进一步提高检测效果。
对应地,本申请提供一种电子设备。
请参阅图9,图9是本申请电子设备一实施方式的结构示意图。如图9所示,电子设备90包括存储器91以及处理器92。
本实施方式中,存储器91用于存储程序数据,程序数据被执行时实现如上述的数据质量规则的配置方法中的步骤或数据质量检测方法中的步骤;处理器92用于执行存存储器91存储的程序指令以实现如上述的数据质量规则的配置方法中的步骤或数据质量检测方法中的步骤。
具体而言,处理器92用于控制其自身以及存存储器91以实现如上述的数据质量规则的配置方法中的步骤或数据质量检测方法中的步骤。处理器92还可以称为CPU(CentralProcessing Unit,中央处理单元)。处理器92可能是一种集成电路芯片,具有信号的处理能力。处理器92还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器92可以由多个集成电路芯片共同实现。
区别于现有技术,本实施方式通过处理器92在配置界面中提供多个配置模式,且多个配置模式包括通过配置目标函数以生成数据质量规则的第一配置模式以及通过输入目标查询语句以生成数据质量规则的第二配置模式,能够为用户提供多种生成数据质量规则的方法。继而接收从多个配置模式中选择目标配置模式的第一用户指令,并基于第一用户指令利用选择的目标配置模式配置数据质量规则,能够基于用户的实际需求选择对应的配置模式,且由于第二配置模式中支持用户输入定制化的目标查询语句,还能够使生成的数据质量规则所表达的语义更加准确以及丰富,从而最大限度地满足实际业务场景的数据检测需求。
对应地,本申请提供一种计算机可读存储介质。
请参阅图10,图10是本发明计算机可读存储介质一实施方式的结构示意图。
计算机可读存储介质100包括计算机可读存储介质100上存储的计算机程序1001,计算机程序1001被上述处理器执行时实现如上述的数据质量规则的配置方法中的步骤或数据质量检测方法中的步骤。具体地,集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质100中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质100中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质100包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (12)

1.一种数据质量规则的配置方法,其特征在于,包括:
通过配置界面提供多个配置模式;其中,多个所述配置模式包括通过配置目标函数以生成所述数据质量规则的第一配置模式以及通过输入目标查询语句以生成所述数据质量规则的第二配置模式;
接收从多个所述配置模式中选择目标配置模式的第一用户指令;
基于所述第一用户指令利用选择的所述目标配置模式配置所述数据质量规则。
2.根据权利要求1所述的配置方法,其特征在于,
所述基于所述第一用户指令利用选择的所述目标配置模式配置所述数据质量规则的步骤,包括:
响应于所述目标配置模式为所述第一配置模式,接收从函数库中选择所述目标函数的第二用户指令,以基于所述第二用户指令选择所述目标函数,以及接收所述用户通过所述配置界面输入的函数参数,基于所述目标函数以及所述函数参数生成所述数据质量规则;或,
响应于所述目标配置模式为所述第二配置模式,接收所述用户通过所述配置界面输入的所述目标查询语句,基于所述目标查询语句生成所述数据质量规则。
3.根据权利要求2所述的配置方法,其特征在于,
所述函数库包括多个系统函数以及多个自定义函数,所述函数参数包括常量以及自定义变量;
所述响应于所述目标配置模式为所述第一配置模式,接收从函数库中选择所述目标函数的第二用户指令,以基于所述第二用户指令选择所述目标函数,以及接收所述用户通过所述配置界面输入的函数参数,基于所述目标函数以及所述函数参数生成所述数据质量规则的步骤,包括:
响应于所述目标配置模式为所述第一配置模式,接收从多个所述系统函数或多个所述自定义函数中选择所述目标函数的所述第二用户指令;
基于所述第二用户指令获取到所述目标函数后,根据输入的所述函数参数为所述目标函数设置所述常量以及所述自定义变量,以生成所述数据质量规则。
4.根据权利要求2所述的配置方法,其特征在于,
所述目标查询语句包括用户基于结构化查询语言的编程逻辑编写的分值计算语句以及异常数据输出语句;其中,所述分值计算语句以及所述异常数据输出语句中均包括调用变量的代码;
所述响应于所述目标配置模式为所述第二配置模式,接收所述用户通过所述配置界面输入的所述目标查询语句,基于所述目标查询语句生成所述数据质量规则的步骤,包括:
响应于所述目标配置模式为所述第二配置模式,接收所述用户日通过所述配置界面输入的所述分值计算语句以及所述异常数据输出语句,基于所述分值计算语句以及所述异常数据输出语句生成所述数据质量规则。
5.根据权利要求1或2或3所述的配置方法,其特征在于,
所述通过配置界面接收从多个配置模式中选择目标配置模式的第一用户指令的步骤前,包括:
接收从多个规则类型中选择目标规则类型的第一选择指令;其中,所述规则类型包括表级规则以及字段级规则;
基于所述第一选择指令利用选择的所述目标规则类型将待配置的数据质量规则的基础规则配置为所述表级规则或所述字段级规则;
所述基于所述第一用户指令利用选择的所述目标配置模式配置所述数据质量规则的步骤包括:
基于所述第一用户指令利用选择的所述目标配置模式配置表级质量规则或字段级质量规则。
6.根据权利要求5所述的配置方法,其特征在于,
所述基于所述第一选择指令利用选择的所述目标规则类型将待配置的数据质量规则的基础规则配置为所述表级规则或所述字段级规则的步骤后,包括:
接收从多个规则维度中选择目标规则维度的第二选择指令;其中,所述规则维度包括完整性、一致性、规范性、及时性以及准确性;
基于所述第二选择指令利用选择的所述规则维度对所述表级规则或所述字段级规则进行分类。
7.一种数据质量检测方法,所述检测方法基于数据质量规则进行检测,其特征在于,所述数据质量规则通过如下配置方法生成:通过配置界面提供多个配置模式;其中,多个所述配置模式包括通过配置目标函数以生成所述数据质量规则的第一配置模式以及通过输入目标查询语句以生成所述数据质量规则的第二配置模式;接收从多个所述配置模式中选择目标配置模式的第一用户指令;基于所述第一用户指令利用选择的所述目标配置模式配置所述数据质量规则;
所述检测方法包括:
获取到待检测对象;其中,所述待检测对象包括数据表,所述数据表包括不同数据类型的字段;
获取到多条所述数据质量规则;
将所述待检测对象与所述数据质量规则进行绑定;
利用所述数据质量规则对所述待检测对象进行质量检测,并输出对应的数据质量检测结果。
8.根据权利要求7所述的数据质量检测方法,其特征在于,
所述数据质量规则包括表级质量规则以及字段级质量规则;
所述将所述待检测对象与所述数据质量规则进行绑定的步骤,包括:
将所述数据表与所述表级质量规则进行绑定,以及将所述数据表中的所有字段与所述字段级质量规则进行一一对应绑定;
所述利用所述数据质量规则对所述待检测对象进行质量检测,并输出对应的数据质量检测结果的步骤,包括:
利用所述表级质量规则对所述数据表进行质量检测,以及利用所述字段级质量规则对绑定的所述字段进行质量检测,并输出所述数据质量检测结果。
9.根据权利要求7所述的数据质量检测方法,其特征在于,
所述利用所述数据质量规则对所述待检测对象进行质量检测,并输出对应的数据质量检测结果的步骤,还包括:
确定所述待检测对象的检测范围;
利用所述数据质量规则对所述检测范围内的数据进行质量检测,并输出对应的数据质量检测结果。
10.根据权利要求8所述的数据质量检测方法,其特征在于,
所述将所述待检测对象与所述数据质量规则进行绑定的步骤,还包括:
配置多条所述数据质量规则的权重;
所述利用所述数据质量规则对所述待检测对象进行质量检测,并输出对应的数据质量检测结果的步骤,包括:
利用所述数据质量规则对所述待检测对象进行质量检测,以获取每个所述数据质量规则的检测分数,并基于每个所述数据质量规则对应的所述权重与所述检测分数获取到对应的所述数据质量检测结果;
所述利用所述数据质量规则对所述待检测对象进行质量检测,并输出对应的数据质量检测结果的步骤后,包括:
基于多个所述数据质量检测结果获取到所述待检测对象的综合分数。
11.一种电子设备,其特征在于,包括:
存储器,用于存储程序数据,所述程序数据被执行时实现如权利要求1~6任一项所述的数据质量规则的配置方法中的步骤以及权利要求7~10任一项所述的数据质量检测方法中的步骤;
处理器,用于执行所述存储器存储的所述程序数据以实现如权利要求1~6任一项所述的数据质量规则的配置方法中的步骤以及权利要求7~10任一项所述的数据质量检测方法中的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~6任一项所述的数据质量规则的配置方法中的步骤以及权利要求7~10任一项所述的数据质量检测方法中的步骤。
CN202310036542.3A 2023-01-10 2023-01-10 数据质量规则的配置方法、数据质量检测方法及相关装置 Pending CN116166648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310036542.3A CN116166648A (zh) 2023-01-10 2023-01-10 数据质量规则的配置方法、数据质量检测方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310036542.3A CN116166648A (zh) 2023-01-10 2023-01-10 数据质量规则的配置方法、数据质量检测方法及相关装置

Publications (1)

Publication Number Publication Date
CN116166648A true CN116166648A (zh) 2023-05-26

Family

ID=86414217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310036542.3A Pending CN116166648A (zh) 2023-01-10 2023-01-10 数据质量规则的配置方法、数据质量检测方法及相关装置

Country Status (1)

Country Link
CN (1) CN116166648A (zh)

Similar Documents

Publication Publication Date Title
US9135280B2 (en) Grouping interdependent fields
CN110119395B (zh) 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法
CN106293891B (zh) 多维投资指标监督方法
KR101679050B1 (ko) 규칙 기반 로그 데이터 그룹화를 이용한 개인 맞춤형 로그 분석 시스템 및 그 방법
US20220121675A1 (en) Etl workflow recommendation device, etl workflow recommendation method and etl workflow recommendation system
CN105389352A (zh) 日志处理方法和装置
CN112269816B (zh) 一种政务预约事项相关性检索方法
CN110147470B (zh) 一种跨机房数据比对系统及方法
CN110928903A (zh) 数据提取方法及装置、设备和存储介质
CN110659282A (zh) 数据路由的构建方法、装置、计算机设备和存储介质
US10210234B2 (en) Linking discrete dimensions to enhance dimensional analysis
CN112559538B (zh) 关联关系生成方法、装置、计算机设备和存储介质
CN108140022B (zh) 数据查询方法和数据库系统
CN112328631A (zh) 一种生产故障分析方法、装置、电子设备及存储介质
CN113553341A (zh) 多维数据分析方法、装置、设备及计算机可读存储介质
CN104933096A (zh) 数据库的异常键识别方法、装置与数据系统
CN115982429B (zh) 一种基于流程控制的知识管理方法及系统
CN117271478A (zh) 数据迁移方法、装置、存储介质以及电子设备
CN107430633B (zh) 用于数据存储的系统及方法和计算机可读介质
US20080033995A1 (en) Identifying events that correspond to a modified version of a process
CN113297245A (zh) 获取执行信息的方法及装置
CN116166648A (zh) 数据质量规则的配置方法、数据质量检测方法及相关装置
CN113868141A (zh) 数据测试方法、装置、电子设备及存储介质
CN109032578B (zh) 基于数据库sql代码生成方法及系统
CN112783758A (zh) 测试案例库与特征库生成方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination