CN112667612A - 一种数据质量检核方法、装置、电子设备及存储介质 - Google Patents
一种数据质量检核方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112667612A CN112667612A CN202011560502.1A CN202011560502A CN112667612A CN 112667612 A CN112667612 A CN 112667612A CN 202011560502 A CN202011560502 A CN 202011560502A CN 112667612 A CN112667612 A CN 112667612A
- Authority
- CN
- China
- Prior art keywords
- checking
- rule
- data quality
- check
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明涉及计算机数据管理技术领域,具体涉及一种数据质量检核方法、装置、电子设备及存储介质。所述方法包括:选择数据质量检核算子并选择检核对象;根据所述检核算子和检核对象生成可执行的SQL语句;执行所述SQL语句获取执行结果;根据所述执行结果和预设数据质量标准,判断数据质量。本申请提供的技术方案为数据质量管理和考核评价提供量化基础,在提升企业数据应用能力和质量的内在要求,同时也满足日益严格的数据监管要求。
Description
技术领域
本发明涉及计算机数据管理技术领域,具体涉及一种数据质量检核方法、装置、电子设备及存储介质。
背景技术
良好的数据质量是数据管控的核心目标,业务管理和监管的数据应用过程中经常发现数据质量问题,问题复杂多样,产生质量问题产生的原因可能来自系统、人员、流程等多个方面,数据质量检核是数据质量管理的重点,对于大数据来说必须通过技术手段来检核数据是否出现异常从而进行处理。尤其是目前国内银行缺乏有效的系统和工具对发现的数据质量问题实施快速部署监测,定位错误数据的明细。同时监管机构对银行监管统计数据质量要求日益迫切,近几年来监管从要求报表结果准确逐步发展到要求建立数据采集到数据应用端对端的监控流程,在一些监管文件中明确提出要求日常监控的商业银行需建立有效的数据质量监控体系,对监管统计数据质量实施持续监测,采取有力措施,落实各环节责任,确保数据质量。因此,建立银行统一的数据质量监测管理平台,集中展示数据质量问题,对质量问题进行根因分析,跟踪督促质量问题整改,为银行数据质量管理和考核评价提供量化基础,不仅是银行提升数据应用能力和质量的内在要求,同时也是满足日益严格的监管要求。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下:
第一方面,本申请实施例公开了一种数据质量检核方法,所述方法包括:
选择数据质量检核算子并选择检核对象;
根据所述检核算子和检核对象生成可执行的SQL语句;
执行所述SQL语句获取执行结果;
根据所述执行结果和预设数据质量标准,判断数据质量。
进一步地,所述选择数据质量检核算子并选择检核对象包括:
从算子库中选择SQL自定义语句和至少一个检核规则;其中,所述算子库中包括一个自定义SQL语句和至少一个检核规则,所述检核规则和SQL语句预先配置在算子库中;
根据选择的检核规则确定检核对象的数量并选择检核对象。
进一步地,所述检核规则包括但不限于:非空检查、唯一检查、数据格式检查、数值格式检查、取值范围检查、取值约束检查、波动检查、派生检查和总分检查。
进一步地,所述根据检核算子和检核对象生成可执行的SQL语句包括:根据选择检核规则,将所述检核对象作为变量注入自定义SQL语句中生成可执行的SQL语句。
进一步地,所述方法还包括:配置检核条件;其中,所述配置检核条件包括但不限于配置检核时间、检核频率、检核对象范围、配置检核变量信息;所述根据检核算子、检核对象和检核条件生成可执行的SQL语句。
进一步地,所述方法还包括:配置告警信息;其中所述告警信息包括告警规则、告警方式和告警对象;进一步地,所述告警规则包括:当所述检查到检查对象中不符合质量标准的数据数量超过预设阈值时,则通过配置的告警方式向配置的告警对象发送告警信息。
进一步地,所述在算子库中配置检核规则包括:
根据检核规则设计模板录入检核规则信息;其中所述规则信息包括但不限于:规则编号、规则名称、规则描述、规则类型、所属项目、检核对象、规则状态;
将录入的检核规则存储并提交发布。
进一步地,所述将录入的检核规则存储并提交发布包括:
接收规则创建用户指令将所述录入的检核规则存储并发送至规则审批用户;
接收所述规则审批用户的审批指令;其中系统可根据所述审批指令进行检核规则的修改、将检核规则发布流程退回至创建用户处,或将所述检核规则提交发布。
进一步地,所述方法包括:接受用户的查询指令;其中所述查询指令至少包括检核需求、检核数据库和检核对象信息,根据所述查询指令,在算子库中查询相匹配的检核规则。
进一步地,在执行所述SQL语句之前,所述方法还包括:
创建测试进程执行算子库中的SQL自定义语句;
如果所述SQL自定义语句访问数据库成功,则启动执行根据所述检核算子和检核对象生成的SQL语句。
进一步地,所述执行所述SQL语句获取执行结果包括:
将所述可执行的SQL语句通过预设的数据连接方式发送至包括检核对象的数据库;其中所述预设的数据连接方式包括但不限于:数据源连接和Java数据库直连方式;
执行进程控制所述SQL语句对所述检核对象进行读取和查询;
所述数据库返回SQL语句执行结果。
进一步地,所述检核对象包括:数据源、数据库、数据表和字段。
另一方面本申请实施例提供了一种数据质量检核装置,所述装置包括:选择模块、生成模块、执行模块、存储模块和判断模块;其中,
所述选择模块,用于选择数据质量检核算子并选择检核对象;
所述生成模块,用于根据所述检核算子和检核对象生成可执行的SQL语句;
所述执行模块,用于执行所述SQL语句获取执行结果;
所述存储模块,用于存储预设数据质量标准;
所述判断模块,用于根据所述执行结果和预设数据质量标准判断数据质量。
进一步地,所述存储模块还用于存储算子库;
所述选择模块具体用于从算子库中选择SQL自定义语句和至少一个检核规则;其中,所述算子库中包括一个自定义SQL语句和至少一个检核规则,所述检核规则和SQL语句预先配置在算子库中;
所述选择模块,还用于根据选择的检核规则确定检核对象的数量并选择检核对象。
进一步地,所述装置还包括配置模块,所述配置模块用于在算子库中配置检核规则;所述配置模块具体用于根据检核规则设计模板录入检核规则信息;其中所述规则信息包括但不限于:规则编号、规则名称、规则描述、规则类型、所属项目、检核对象、规则状态;
所述配置模块,还用于将录入的检核规则存储并提交发布。
第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行上述任一实施例中所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的方法。
本申请实施例提供的数据质量检核方案包括选择数据质量检核算子并选择检核对象;根据所述检核算子和检核对象生成可执行的SQL语句;执行所述SQL语句获取执行结果;根据所述执行结果和预设数据质量标准,判断数据质量。本申请实施例提供的技术方案带来的有益效果是包括以下至少之一:
(1)为数据质量管理和考核评价提供量化基础,在提升企业数据应用能力和质量的内在要求,同时也满足日益严格的数据监管要求。
(2)支持主流关系型数据库进行质量检核。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种数据质量检核方法的流程示意图;
图2为本申请实施例提供的算子库的组成示意图;
图3为本申请实施例提供的一种数据质量检核方法的流程示意图;
图4为本申请实施例提供的一种数据质量检核装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
需要说明的是,在本技术领域技术人员可以理解的范围内,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式,其中的“第一”“第二”等只是为了介绍清楚方案而进行的对象区分定义,并不对对象本身进行限制,当然“第一”和“第二”限定的对象可能是同一个终端、设备和用户等,也可能是同一种终端、设备和用户。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。此外应理解,本申请实施例中“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一(项)个”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a、b或c中的至少一项(个),可以表示:a,b,c,a和b,a和c,b和c,或a、b和c,其中a、b、c可以是单个,也可以是多个。
数据质量检核是数据质量管理的重点,对于大数据来说必须通过技术手段来检核数据是否出现异常并进行处理从而提高数据管理的准确性。如背景技术中介绍的目前数据质量检核业务中存在的问题,基于此本申请下述实施例提供的数据质量检核方案以解决上述提到的至少一个问题。
图1示出了本申请实施例提供的一种数据质量检核的流程示意图,如图1所示,该方法主要可以包括:
S101、选择数据质量检核算子并选择检核对象;在本申请实施例中S101可以具体由两个步骤完成:
步骤1、选择数据质量检核算子,该数据质量检核算子是从算子库中选择的,选择的算子至少包括一个SQL自定义语句和至少一个检核规则。所述算子库中包括一个自定义SQL语句和至少一个检核规则,这些检核规则和SQL语句是预先配置在算子库中。选择不同检核规则会有不同的操作,当选择的检核规则(波动检查、总分检查、派生检查算子)不支持跨数据库选择检核对象时需要给予用户提示。当没有需要的检核规则时,则自定义的SQL语句可以帮助用户自己新增算子,编写脚本,进行配置。
步骤2、根据选择的检核规则确定检核对象的数量并选择检核对象,具体选择过程为首先系统根据选择的检核算子来限制检核对象的数量,例如对于唯一检查、非空检查或数据格式检查,可选择多个检核对象批量生成检核规则;对于波动检查或数值格式检查,由于检核条件具有针对性,只能选择一个检核对象。进一步地,所述检核对象包括:数据源、数据库、数据表和字段。
在优选实施例中,算子库中预先配置的检核规则包括但不限于:非空检查、唯一检查、数据格式检查、数值格式检查、取值范围检查、取值约束检查、波动检查、派生检查和总分检查。图2示出了本申请实施例提供算子库的组成示意图,如图2所示,这9个检核规则又相应归属于5个数据质量评估维度(或称之为检核类型)。其中,
(1)非空检查规则用于评估数据完整性;非空检查规则是检查指定对象是否满足非空性要求,即所有记录值中不存在空值。例如:信息表中机构名称不能为空。
在具体实施例中,在配置界面中进行在选择检核对象时,假若字段属性为“非空”,示例性地可以用感叹号进行提示,可筛选带有“打钩号”标志的字段。非空检查规则运行时可批量选择当前页面全部字段,也可全量选择全部页面字段。当选择多个检核对象时将生成多个检核规则,批量生成规则的名称为“规则名称”+序号,比如规则名称填写时为“非空检查”,批量生成3个,分别为“非空检查_1”,“非空检查_2”,非空检查_3”。
(2)唯一检查规则用于评估数据唯一性;唯一检查规则是检查指定对象是否满足唯一性要求,即所有记录值中不存在重复记录。例如:机构信息表中机构编号不能重复。
(3)数据格式检查、数值格式检查、取值范围检查和取值约束检查规则用于评估数据规范性;其中数据格式检查规则又可以细分为数据类型检查、数据长度检查和数据精度检查。进一步地,各检查规则的定义如下:
(A)数据格式检查规则是检查表结构信息中涉及的数据模型或数据标准或数据字典和表数据进行核对,包括类型、长度、精度检查,可以默认将三个进行全选,也可以自定义进行单选。例如:机构信息表和表引用的数据标准格式核对检查。
在具体实施例中,运行数据格式检查规则的检核方式可以有两种:
第一种是采用引用方式(数据标准、设计态),即引用数据标准将自动将投产的字段的类型、长度、精度和数据标准相比较;或引用设计态规范将和设计态比较。
第二种是采用手动方式(自定义),需要填写类型、长度、精度信息进行比较。
(B)数值格式检查规则是检查指定对象的格式是否符合特定规律的格式要求。例如:组织机构代码由9位数字组成。
在具体实施例中,在配置界面中进行在检核规则配置时可以对字段截位选择并选择格式,同时进行增加、删除、修改检查条件的操作,检查条件之间关系有“and”和“or”,只能到字段级,只可以生成一条规则。匹配格式有任何数字、任何字母、任何数字或字母、匹配数字开始、匹配字母开始、匹配数字结束、匹配字母结束、都为大写字母、都为小写字母、日期格式YYYYMMDD、日期格式YYYY-MM-DD、日期格式YYYY/MM/DD、日期格式YY/MM/DD、日期格式YY-MM-DD、手机号码、email地址、身份证号。
(C)取值范围检查规则是检查指定对象的取值是否在指定的范围内,检查对象可以是字段或是字段加函数处理后的值,如字段长度、字段的一部分等;指定范围可以是输入的单个值、集合等。支持引用规范方式(取值需要存在于代码值中)。例如:员工信息表中的证件类型代码是否在企业级数据字典域编号中。
在具体实施例中,取值范围检查规则的检查对象为字段或函数处理后的字段。函数有字段长度、字段的一部分、大小写转换、数据记录数汇总。在配置过程中可以进行配置信息的增加、删除、修改检查条件的操作,检查条件之间关系有“所有”和“任一”,只能到字段级。指定范围可以是输入的单个值、区间、集合或者代码值。比较方式有等于、不等于、大于、大于等于、小于、小于等于、存在。
在具体实施例中,运行数据取值范围检查规则的检核方式同样可以有两种:
第一种是引用方式(引用规范:代码值),联动配置需要取得表信息所引用的代码值,作为比较值的集合,比较方式为存在。
第二种是手动方式(自定义内容),需要选择【比较方式】和填写【比较值】,比较值可选择某个字段,当选择字段作为比较值时,需要配置表间的关联关系。同时同一个字段只可以生成一条规则。
(D)取值约束检查规则是检查当指定对象(A)的记录值为某一个/一组值时,另一指定对象(B)必须为特定的一个/一组值。例如:当对公客户类型为“事业机构”时,具备法人资格标志应为“是”;当对公客户类型为“个体工商户”时,具备法人资格标志应为“否”。该检查规则的检核对象为字段,可以选择多个字段A,B,C。在配置时可对检查条件进行增加、删除、修改的操作,检查条件之间关系有“and”和“or”。当需要支持跨表操作时,主外键需要自动关联(增加表关联关系的定义)。
(4)波动检查规则用于评估数据连续性;波动检查规则是波动情况检查,如数据的环比、同比波动情况必须在预设的范围内。例如:信用卡每月发行量的波动检查,假如波动幅度效大,说明指标数据可能存在问题。波动检查规则的检核对象限制为单表字段且无法选择跨表字段。规则配置过程中需要选择时间字段、统计频率(时、日、周、季、年)、比较方式(同比、环比)、波动类型(波动值、波动百分比),用户根据波动类型选择该次波动核验类型,再设置波动上限,波动下限(为了跟告警阈值分开,此处用波动称呼)。检查对象为字段或字段函数处理后的值,函数有数据值汇总Sum和记录数汇总count。
(5)派生检查和总分检查规则用于评估数据一致性。派生检查规则是字段间运算逻辑的检查,当指定对象(A)的值与另一个或多个指定对象(B/C/D/……)间应该满足特定的运算逻辑或运算关系。例如:出资比例=累计出资股本数量/股本总数。总分检查规则是检查加工汇总后的数据是否与明细数据之和是否相等。例如:渠道汇总金额要等于渠道明细下的交易金额之和。
在配置总分检查规则时,必须配置两个检核对象,选择两个对象的比较关系。在具体实施例中可以按需要设置相应函数处理记录总数汇总和数据加和汇总。如果做汇总是在一定的维度下,则还需要在配置表间关联关系。
S102、根据所述检核算子和检核对象生成可执行的SQL语句;
在本申请实施例中,所述根据检核算子和检核对象生成可执行的SQL语句包括:根据选择检核规则,将所述检核对象作为变量注入自定义SQL语句中生成可执行的SQL语句。
S103、执行所述SQL语句获取执行结果;执行过程可以具体为:
步骤1、将所述可执行的SQL语句通过预设的数据连接方式发送至包括检核对象的数据库。具体实施例中系统根据检核任务配置的执行频率对任务中选中的检核规则按顺序执行检核规则,系统根据检核规则配置的检核对象信息以及检核算子规则自动构建出检核脚本并发送至包括检核对象的数据库。其中所述预设的数据连接方式包括但不限于:数据源连接,例如面向关系型数据库(例如oracle、mysql、td、hive、gp五种主流关系型数据库)检核对象,系统根据元数据中数据源的配置信息采用JDBC直连的方式向包括检核对象的数据库发送执行脚本指令。
步骤2、执行进程控制所述SQL语句对所述检核对象进行读取和查询;
步骤3、所述数据库返回SQL语句执行结果。
S104、根据所述执行结果和预设数据质量标准,判断数据质量。
图3示出了优选实施例提供的一种数据质量检核的流程示意图,如图3所示,该方法主要可以包括:
S301、配置数据质量检核算子、检核条件和告警信息;数据质量检核算子配置过程如上述实施例介绍方案,不再赘述。
在优选实施例中配置检核条件包括但不限于配置检核时间、检核频率、检核对象范围、配置检核变量信息。这些检核条件可根据检核需求自定义时间范围、检核频率、字段记录范围,同时可引用提供的变量信息,无需重复输入变量信息。此外,检核条件可配置表间关联关系和数据范围条件,对于跨表类的检查可以在检核条件配置中配置表间关联关系,同时可以配置检核对象的数据范围条件,比较检查全量、周末、月末或者某个机构、分行的数据等都可以自定义配置。
在优选实施例中,告警信息包括告警规则、告警方式和告警对象;进一步地,所述告警规则包括:当所述检查到检查对象中不符合质量标准的数据数量超过预设阈值时,则通过配置的告警方式向配置的告警对象发送告警信息。
S302、选择数据质量检核算子并选择检核对象;
S303、根据检核算子、检核对象和检核条件生成可执行的SQL语句。具体生成可执行的SQL语句过程为后端根据前端选择的算子、检核对象、检核条件,自动将检核对象(数据源、库、表、字段)作为变量值注入SQL中,同时连接检核条件生产可执行的SQL语句。
S304、创建测试进程执行算子库中的SQL自定义语句。即用户在检核规则配置完成后可以进行试运行先执行自定义的SQL语句执行脚本在对应数据库中空跑以检查执行语句的正确性,试运行结果在可进行查看。
S305、执行所述SQL语句获取执行结果;执行过程可以具体为:
S306、根据所述执行结果和预设数据质量标准,判断数据质量。
为了适应机构内的业务的自动化流程管理,在具体的优选实施例中,检核规则的配置需要经过机构内业务审批发布后方可使得在算子库中的算子生效。数据质量检核算子的创建、审批和生效发布流程可以为:
步骤1、首先检核算子创建用户根据检核规则设计模板录入检核规则信息;其中所述规则信息包括但不限于:规则编号、规则名称、规则描述、规则类型、所属项目、检核对象、规则状态等。在优选的实施例中,检核规则设计模板示例可参照下表1:
步骤2、接收创建用户指令将所述录入的检核规则存储并发送至规则审批用户;
步骤3、接收所述规则审批用户的审批指令;其中系统可根据所述审批指令进行检核规则的修改、将检核规则发布流程退至创建用户处,或将所述检核规则提交发布。
在具体的可选实施例中,所述检核规则的发布管理流程为包括检核规则新增、试运行、检核规则发布、检核规则下线、检核规则修改、检核规则删除、检核规则查询和检核规则转存。检核规则状态有6种:未发布、待审批、已生效、审批退回、已下线、已删除。前5种状态在系统中可见,“已删除”状态为逻辑删除,保留在系统数据里,系统不可见。各种状态的定义具体为:
(1)未发布:新增保存后的检核规则,还未提交发布;
(2)待审批:提交发布或提交下线的检核规则,等待审批;
(3)已生效:提交发布审批通过后的检核规则;
(4)审批退回:提交发布审批退回;
(5)已下线:提交下线审批通过后的检核规则;
(6)已删除:删除后的检核规则。
在可选的实施例中,检核规则只有仅步骤3审批成功后才生效,状态变更为“已生效”,生效后才可出现在算子库中查询到该检核规则。
在可选实施例中,若检核规则之前有提交发布,再次提交发布时提示“已提交发布,请勿重发提交”(提示或者不允许发布操作)。
在可选实施例中,对不符合现状的检核规则可以下线。在示例中,下线可以设置为必须给出下线提示,可以批量下线,并填写下线原因,提示“已提交下线,待审批”,经审批通过后可以下线该检核规则,状态变更为“已下线”,同时算子库中的该检核规则会停止执行,必要时可以把已下线的检核规则从算在库删除。
在可选实施例中,检核规则发布流程状态处于“待审批”的检核规则无法修改,流程状态为“未发布”、“审批退回”、“已下线”的检核规则只可以修改检核规则名称、算子的配置、告警相关信息、但检核对象、算子不能更改。流程状态为“已生效”的检核规则只可以修改告警相关信息。流程状态为“待发布”、“审批退回”和“已下线”的检核规则才可以删除,也可以批量删除,提示“已删除”。
在可选实施例中,所述方案还包括接受用户的查询指令;其中所述查询指令至少包括检核需求、检核数据库和检核对象信息,根据所述查询指令,在算子库中查询相匹配的检核规则。在具体实施例中,用户可以通过检核需求、数据库、检核对象、检核规则为组合条件查询检核规则信息。
基于图1所示的数据质量检核方法,另一方面本申请实施例提供了一种数据质量检核装置,如图4所示,装置可以包括:401选择模块、402生成模块、403执行模块、404存储模块和405判断模块;其中,
所述401选择模块,用于选择数据质量检核算子并选择检核对象;
所述402生成模块,用于根据所述检核算子和检核对象生成可执行的SQL语句;
所述403执行模块,用于执行所述SQL语句获取执行结果;
所述404存储模块,用于存储预设数据质量标准;
所述405判断模块,用于根据所述执行结果和预设数据质量标准判断数据质量。
进一步地,所述404存储模块还用于存储算子库;
所述401选择模块具体用于从算子库中选择SQL自定义语句和至少一个检核规则;其中,所述算子库中包括一个自定义SQL语句和至少一个检核规则,所述检核规则和SQL语句预先配置在算子库中;
所述401选择模块,还用于根据选择的检核规则确定检核对象的数量并选择检核对象。
进一步地,所述装置还包括406配置模块,所述406配置模块用于在算子库中配置检核规则;所述406配置模块具体用于根据检核规则设计模板录入检核规则信息;其中所述规则信息包括但不限于:规则编号、规则名称、规则描述、规则类型、所属项目、检核对象、规则状态;
所述406配置模块,还用于将录入的检核规则存储并提交发布。
可以理解的是,本实施例中的数据质量检核装置的上述各组成设备具有实现图1和图3中所示的实施例中的方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块或装置。上述模块和装置可以是软件和/或硬件,上述各模块和装置可以单独实现,也可以多个模块和装置集成实现。对于上述各模块和装置的功能描述具体可以参见图1和图3中所示实施例中的方法的对应描述,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
可以理解的是,本发明实施例示意的结构并不构成对数据质量检核装置的具体结构的具体限定。在本申请另一些实施例中,数据质量检核装置可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
本申请实施例提供了一种电子设备,包括处理器和存储器;
存储器,用于存储操作指令;
处理器,用于通过调用操作指令,执行本申请任一实施方式中所提供的数据质量检核方法。
作为一个示例,图5示出了本申请实施例所适用的一种电子设备的结构示意图,如图5所示,该电子设备500包括:处理器501和存储器503。其中,处理器501和存储器503相连,如通过总线502相连。可选的,电子设备500还可以包括收发器504。需要说明的是,实际应用中收发器504不限于一个。可以理解的是,本发明实施例示意的结构并不构成对电子设备500的具体结构的具体限定。在本申请另一些实施例中,电子设备500可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实。可选地,电子设备还可以包括显示屏505,用于显示图像,或需要时接收用户的操作指令。
其中,处理器501应用于本申请实施例中,用于实现上述方法实施例所示的方法。收发器504可以包括接收机和发射机,收发器504应用于本申请实施例中,用于执行时实现本申请实施例的电子设备与其他设备通信的功能。
处理器501可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器501也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
处理器501也可以包括一个或多个处理单元,例如:处理器501可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphicsprocessingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。其中,控制器可以是电子设备500的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。处理器501中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器501中的存储器为高速缓冲存储器。该存储器可以保存处理器501刚用过或循环使用的指令或数据。如果处理器501需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器501的等待时间,因而提高了系统的效率。
处理器501可以运行本申请实施例提供的数据质量检核方法,以便于降低用户的操作复杂度、提高终端设备的智能化程度,提升用户的体验。处理器501可以包括不同的器件,比如集成CPU和GPU时,CPU和GPU可以配合执行本申请实施例提供的数据质量检核方法,比如数据质量检核方法中部分算法由CPU执行,另一部分算法由GPU执行,以得到较快的处理效率。
总线502可包括一通路,在上述组件之间传送信息。总线502可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器503可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘),也可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flashstorage,UFS),或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器503用于存储执行本申请方案的应用程序代码,并由处理器501来控制执行。处理器501用于执行存储器503中存储的应用程序代码,以实现本申请任一实施方式中所提供的数据质量检核方法。
存储器503可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器501通过运行存储在存储器503的指令,从而执行电子设备500的各种功能应用以及数据处理。存储器503可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,应用程序的代码等。存储数据区可存储电子设备500使用过程中所创建的数据(比如相机应用采集的图像、视频等)等。
存储器503还可以存储本申请实施例提供的数据质量检核方法对应的一个或多个计算机程序。该一个或多个计算机程序被存储在上述存储器503中并被配置为被该一个或多个处理器501执行,该一个或多个计算机程序包括指令,上述指令可以用于执行上述相应实施例中的各个步骤。
当然,本申请实施例提供的数据质量检核方法的代码还可以存储在外部存储器中。这种情况下,处理器501可以通过外部存储器接口运行存储在外部存储器中的数据质量检核方法的代码,处理器501可以控制运行数据质量检核流程。
显示屏505包括显示面板。显示面板可以采用液晶显示屏(liquid crystaldisplay,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备500可以包括1个或N个显示屏505,N为大于1的正整数。显示屏505可用于显示由用户输入的信息或提供给用户的信息以及各种图形用户界面(graphical userinterface,GUI)。例如,显示屏505可以显示照片、视频、网页、或者文件等。
本申请实施例提供的电子设备,适用于上述方法任一实施例,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述方法实施例所示的数据质量检核方法。
本申请实施例提供的计算机可读存储介质,适用于上述方法任一实施例,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的方法。本申请实施例提供的计算机程序产品,适用于上述方法任一实施例,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
本申请实施例提供的数据质量检核方案包括选择数据质量检核算子并选择检核对象;根据所述检核算子和检核对象生成可执行的SQL语句;执行所述SQL语句获取执行结果;根据所述执行结果和预设数据质量标准,判断数据质量。本申请实施例提供的技术方案为数据质量管理和考核评价提供量化基础,在提升企业数据应用能力和质量的内在要求,同时也满足日益严格的数据监管要求。此外还支持主流关系型数据库进行质量检核。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,模块或单元的划分,仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以丢弃,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,还可以做出若干改进和润饰,这些变化、替换、改进和润饰也应视为都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (17)
1.一种数据质量检核方法,其特征在于,所述方法包括:
选择数据质量检核算子并选择检核对象;
根据所述检核算子和检核对象生成可执行的SQL语句;
执行所述SQL语句获取执行结果;
根据所述执行结果和预设数据质量标准,判断数据质量。
2.根据权利要求1所述的数据质量检核方法,其特征在于,所述选择数据质量检核算子并选择检核对象包括:
从算子库中选择SQL自定义语句和至少一个检核规则;其中,所述算子库中包括一个自定义SQL语句和至少一个检核规则,所述检核规则和SQL语句预先配置在算子库中;
根据选择的检核规则确定检核对象的数量并选择检核对象。
3.根据权利要求2所述的数据质量检核方法,其特征在于,所述检核规则包括但不限于:
非空检查、唯一检查、数据格式检查、数值格式检查、取值范围检查、取值约束检查、波动检查、派生检查和总分检查。
4.根据权利要求3所述的数据质量检核方法,其特征在于,所述根据检核算子和检核对象生成可执行的SQL语句包括:
根据选择检核规则,将所述检核对象作为变量注入自定义SQL语句中生成可执行的SQL语句。
5.根据权利要求1或4所述的数据质量检核方法,其特征在于,所述方法还包括:
配置检核条件;其中,所述配置检核条件包括但不限于配置检核时间、检核频率、检核对象范围、配置检核变量信息;
所述根据检核算子、检核对象和检核条件生成可执行的SQL语句。
6.根据权利要求5所述的数据质量检核方法,其特征在于,所述方法还包括:
配置告警信息;其中所述告警信息包括告警规则、告警方式和告警对象;进一步地,所述告警规则包括:当所述检查到检查对象中不符合质量标准的数据数量超过预设阈值时,则通过配置的告警方式向配置的告警对象发送告警信息。
7.根据权利要求2或6所述的数据质量检核方法,其特征在于,所述在算子库中配置检核规则包括:
根据检核规则设计模板录入检核规则信息;其中所述规则信息包括但不限于:规则编号、规则名称、规则描述、规则类型、所属项目、检核对象、规则状态;
将录入的检核规则存储并提交发布。
8.根据权利要求7所述的数据质量检核方法,其特征在于,所述将录入的检核规则存储并提交发布包括:
接收规则创建用户指令将所述录入的检核规则存储并发送至规则审批用户;
接收所述规则审批用户的审批指令;其中系统可根据所述审批指令进行检核规则的修改、将检核规则发布流程退回至创建用户处,或将所述检核规则提交发布。
9.根据权利要求7所述的数据质量检核方法,其特征在于,所述方法包括:
接受用户的查询指令;其中所述查询指令至少包括检核需求、检核数据库和检核对象信息;
根据所述查询指令,在算子库中查询相匹配的检核规则。
10.根据权利要求2或9所述的数据质量检核方法,其特征在于,在执行所述SQL语句之前,所述方法还包括:
创建测试进程执行算子库中的SQL自定义语句;
如果所述SQL自定义语句访问数据库成功,则启动执行根据所述检核算子和检核对象生成的SQL语句。
11.根据权利要求10所述的数据质量检核方法,其特征在于,所述执行所述SQL语句获取执行结果包括:
将所述可执行的SQL语句通过预设的数据连接方式发送至包括检核对象的数据库;其中所述预设的数据连接方式包括但不限于:数据源连接和Java数据库直连方式;
执行进程控制所述SQL语句对所述检核对象进行读取和查询;
所述数据库返回SQL语句执行结果。
12.根据权利要求1或11所述的数据质量检核方法,其特征在于,所述检核对象包括:数据源、数据库、数据表和字段。
13.一种数据质量检核装置,其特征在于,所述装置包括:选择模块、生成模块、执行模块、存储模块和判断模块;其中,
所述选择模块,用于选择数据质量检核算子并选择检核对象;
所述生成模块,用于根据所述检核算子和检核对象生成可执行的SQL语句;
所述执行模块,用于执行所述SQL语句获取执行结果;
所述存储模块,用于存储预设数据质量标准;
所述判断模块,用于根据所述执行结果和预设数据质量标准判断数据质量。
14.根据权利要求13所述的数据质量检核装置,其特征在于,所述存储模块还用于存储算子库;
所述选择模块具体用于从算子库中选择SQL自定义语句和至少一个检核规则;其中,所述算子库中包括一个自定义SQL语句和至少一个检核规则,所述检核规则和SQL语句预先配置在算子库中;
所述选择模块,还用于根据选择的检核规则确定检核对象的数量并选择检核对象。
15.根据权利要求14所述的数据质量检核装置,其特征在于,所述装置还包括配置模块,所述配置模块用于在算子库中配置检核规则;所述配置模块具体用于根据检核规则设计模板录入检核规则信息;其中所述规则信息包括但不限于:规则编号、规则名称、规则描述、规则类型、所属项目、检核对象、规则状态;
所述配置模块,还用于将录入的检核规则存储并提交发布。
16.一种电子设备,其特征在于,包括处理器和存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行权利要求1-12中任一项所述的方法。
17.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011560502.1A CN112667612A (zh) | 2020-12-25 | 2020-12-25 | 一种数据质量检核方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011560502.1A CN112667612A (zh) | 2020-12-25 | 2020-12-25 | 一种数据质量检核方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112667612A true CN112667612A (zh) | 2021-04-16 |
Family
ID=75408957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011560502.1A Pending CN112667612A (zh) | 2020-12-25 | 2020-12-25 | 一种数据质量检核方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112667612A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610702A (zh) * | 2022-03-15 | 2022-06-10 | 云粒智慧科技有限公司 | 数据治理过程的实时质量管控方法、装置、设备及介质 |
CN115248578A (zh) * | 2022-09-22 | 2022-10-28 | 南京旭上数控技术有限公司 | 一种工业设备数据采集方法 |
CN115344565A (zh) * | 2022-08-19 | 2022-11-15 | 中国建设银行股份有限公司 | 流量数据质量检核方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-25 CN CN202011560502.1A patent/CN112667612A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610702A (zh) * | 2022-03-15 | 2022-06-10 | 云粒智慧科技有限公司 | 数据治理过程的实时质量管控方法、装置、设备及介质 |
CN115344565A (zh) * | 2022-08-19 | 2022-11-15 | 中国建设银行股份有限公司 | 流量数据质量检核方法、装置、电子设备及存储介质 |
CN115248578A (zh) * | 2022-09-22 | 2022-10-28 | 南京旭上数控技术有限公司 | 一种工业设备数据采集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6707564B2 (ja) | データ品質分析 | |
US7571191B2 (en) | Defining a data analysis process | |
CN112667612A (zh) | 一种数据质量检核方法、装置、电子设备及存储介质 | |
US8108367B2 (en) | Constraints with hidden rows in a database | |
CN112115152B (zh) | 数据增量更新及查询方法、装置、电子设备及存储介质 | |
CN112883042A (zh) | 数据更新及展示方法、装置、电子设备及存储介质 | |
CN112115145A (zh) | 数据采集方法、装置、电子设备及存储介质 | |
CN114185895A (zh) | 数据导入导出方法、装置、电子设备及存储介质 | |
CN109753490A (zh) | 基于漏洞修复的数据库优化方法、系统、设备及介质 | |
CN109947797B (zh) | 一种数据检查装置及方法 | |
CN110019182B (zh) | 一种数据追溯方法及装置 | |
CN116719799A (zh) | 环保数据治理方法、装置、计算机设备和存储介质 | |
CN112348403B (zh) | 风控模型构建方法、装置及电子设备 | |
CN115062023A (zh) | 宽表优化方法、装置、电子设备及计算机可读存储介质 | |
CN113934729A (zh) | 一种基于知识图谱的数据管理方法、相关设备及介质 | |
CN115310011A (zh) | 页面展示方法、系统以及可读存储介质 | |
CN114490137A (zh) | 业务数据实时统计方法、装置、电子设备及可读存储介质 | |
CN111723129A (zh) | 报表生成方法、报表生成装置和电子设备 | |
CN112258151A (zh) | 一种基于pandas的对账方法、装置、计算机设备和存储介质 | |
CN111652281A (zh) | 信息数据的分类方法、装置及可读存储介质 | |
CN113312410B (zh) | 数据图谱的构建方法、数据查询方法及终端设备 | |
CN117709694B (zh) | 制造执行系统、方法 | |
CN117850764B (zh) | 基于集成式模型驱动架构的设计建模方法及装置 | |
CN115408400A (zh) | 业务数据跑批方法、装置、电子设备及存储介质 | |
CN117743373A (zh) | 单据处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |