CN113010502A - 数据质量稽核方法、装置、设备和存储介质 - Google Patents

数据质量稽核方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113010502A
CN113010502A CN201911320946.5A CN201911320946A CN113010502A CN 113010502 A CN113010502 A CN 113010502A CN 201911320946 A CN201911320946 A CN 201911320946A CN 113010502 A CN113010502 A CN 113010502A
Authority
CN
China
Prior art keywords
data
audited
auditing
configuration information
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911320946.5A
Other languages
English (en)
Other versions
CN113010502B (zh
Inventor
徐攀登
黄晓婧
韩翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201911320946.5A priority Critical patent/CN113010502B/zh
Publication of CN113010502A publication Critical patent/CN113010502A/zh
Application granted granted Critical
Publication of CN113010502B publication Critical patent/CN113010502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种数据质量稽核方法、装置、设备和存储介质,该方法,包括:确定稽核规则和所述稽核规则对应的数据配置信息,所述数据配置信息用于确定存储数据库中的待稽核数据,所述稽核规则用于评价所述待稽核数据的数据质量;依据目标数据库和所述数据配置信息,生成数据获取任务;依据所述数据获取任务获取所述待稽核数据;将所述待稽核数据按照所述稽核规则进行稽核处理,得到稽核结果。稽核的数据确定、获取方式便捷且通用性强,其能够提高数据质量稽核的效率。

Description

数据质量稽核方法、装置、设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据质量稽核方法、装置、设备和存储介质。
背景技术
数据质量稽核是数据生命周期中生产、加工、传输、存储、使用、交换等各个环节的数据质量控制。通常根据数据质量规则配置来检测数据质量是否满足数据使用方要求,目前从数据完整性、数据一致性、数据及时性、数据准确性和数据逻辑性等进行数据质量规则配置和稽核,对于质量规则不通过的规则进行监控报警。
现有的数据质量稽核方法,计算平台执行设定好的获取源数据的可执行程序,根据设定的执行程序来获取存储数据库中的源数据,并对源数据进行解析后,得到待稽核数据,之后计算平台对待稽核数据进行稽核,来得到数据的健康度(数据质量)。
但是采用这种方式,在待稽核数据发生变化时,需要重新编码以在计算平台重新设定执行程序,操作繁琐、程序固化,导致了数据质量稽核十分不便捷。
发明内容
本申请实施例提供了一种数据质量稽核方法,以更加便捷地进行数据质量稽核。
相应的,本申请实施例还提供了一种数据处理装置、一种电子设备以及一种存储介质,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种数据质量稽核方法,包括:确定稽核规则和所述稽核规则对应的数据配置信息,所述数据配置信息用于确定存储数据库中的待稽核数据,所述稽核规则用于评价所述待稽核数据的数据质量;依据目标数据库和所述数据配置信息,生成数据获取任务;依据所述数据获取任务获取所述待稽核数据;将所述待稽核数据按照所述稽核规则进行稽核处理,得到稽核结果。
本申请实施例还公开了一种数据质量稽核方法,包括:确定稽核规则和所述稽核规则对应的数据配置信息,所述数据配置信息用于确定数据源中的待稽核数据,所述稽核规则用于评价所述待稽核数据的数据质量;依据目标数据源和所述数据配置信息,生成数据获取任务;依据所述数据获取任务获取所述待稽核数据;将所述待稽核数据按照所述稽核规则进行稽核处理,得到稽核结果。
本申请实施例还公开了一种数据质量稽核方法,包括:接收数据获取任务,所述数据获取任务依据目标数据库和数据配置信息生成,所述数据配置信息用于确定待稽核数据;执行所述数据获取任务,以得到所述待稽核数据;将所述待稽核数据发送至稽核服务端按照所述数据配置信息对应的稽核规则进行稽核处理,以得到稽核结果。
本申请实施例还公开了一种数据质量稽核配置方法,包括:确定所述待稽核数据的稽核规则表达式和对应的定义数据信息;依据所述定义数据信息和所述稽核规则表达式,得到稽核规则和所述稽核规则对应的数据配置信息,所述数据配置信息用于生成数据获取任务,所述数据获取任务用于获取待稽核数据,所述稽核规则用于评价所述待稽核数据的数据质量。
本申请实施例还公开了一种数据质量稽核装置,所述装置包括:配置信息确定模块,用于确定稽核规则和所述稽核规则对应的数据配置信息,所述数据配置信息用于确定存储数据库中的待稽核数据,所述稽核规则用于评价所述待稽核数据的数据质量;任务生成模块,用于依据目标数据库和所述数据配置信息,生成数据获取任务;数据获取模块,用于依据所述数据获取任务获取所述待稽核数据;稽核模块,用于将所述待稽核数据按照所述稽核规则进行稽核处理,得到稽核结果。
本申请实施例还公开了一种数据质量稽核装置,所述装置包括:任务接收模块,用于接收数据获取任务,所述数据获取任务依据目标数据库和数据配置信息生成,所述数据配置信息用于确定待稽核数据;任务执行模块,用于执行所述数据获取任务,以得到所述待稽核数据;数据输出模块,用于将所述待稽核数据发送至稽核服务端按照所述数据配置信息对应的稽核规则进行稽核处理,以得到稽核结果。
本申请实施例还公开了一种数据质量稽核配置装置,所述装置包括:定义信息获取模块,用于确定所述待稽核数据的稽核规则表达式和对应的定义数据信息;配置信息生成模块,用于依据所述定义数据信息和所述稽核规则表达式,得到稽核规则和所述稽核规则对应的数据配置信息,所述数据配置信息用于生成数据获取任务,所述数据获取任务用于获取待稽核数据,所述稽核规则用于评价所述待稽核数据的数据质量。
本申请实施例还公开了一种数据质量稽核装置,包括:配置信息获得模块,用于确定稽核规则和所述稽核规则对应的数据配置信息,所述数据配置信息用于确定数据源中的待稽核数据,所述稽核规则用于评价所述待稽核数据的数据质量;任务获得模块,用于依据目标数据源和所述数据配置信息,生成数据获取任务;数据获得模块,用于依据所述数据获取任务获取所述待稽核数据;稽核结果获得模块,用于将所述待稽核数据按照所述稽核规则进行稽核处理,得到稽核结果。
本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如上述一个或多个实施例所述的数据质量稽核方法。
本申请实施例还公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如上述一个或多个实施例所述的数据质量稽核方法。
与现有技术相比,本申请实施例包括以下优点:
在本申请实施例中,可依据稽核规则对应的数据配置信息和目标数据库,生成对应的数据获取任务,然后基于该数据获取任务从目标数据库中获取对应的待稽核数据,之后依据稽核规则完成对待稽核数据的质量稽核。在待稽核数据发生变化时,改变稽核规则和对应的数据配置信息,就能够改变数据获取任务所获取的待稽核数据,并利用修改后的稽核规则进行数据质量稽核,无需修改获取数据的执行程序,即可完成数据质量稽核,稽核的数据确定、获取方式便捷且通用性强,其能够提高数据质量稽核的效率。
附图说明
图1是本申请一个实施例的数据质量稽核系统的架构图;
图2是本申请一个实施例的数据质量稽核系统的层级结构图;
图3是本申请一个实施例的数据质量稽核方法的流程图;
图4是本申请一个实施例的数据配置解析模块的处理步骤流程图;
图5是本申请一个实施例的数据解析器的处理步骤流程图;
图6是本申请一个实施例的数据质量稽核方法的流程图;
图7是本申请另一个实施例的数据质量稽核方法的流程图;
图8是本申请再一个实施例的数据质量稽核方法的流程图;
图9是本申请另一个实施例的数据质量稽核方法的流程示意图;
图10是本申请一个实施例的数据质量稽核配置方法的流程示意图;
图11是本申请再一个实施例的数据质量稽核方法的流程示意图;
图12是本申请一个实施例的数据质量稽核装置的结构示意图;
图13是本申请另一个实施例的数据质量稽核装置的结构示意图;
图14是本申请一个实施例的数据质量稽核配置装置的结构示意图;
图15是本申请再一个实施例的数据质量稽核装置的结构示意图;
图16是本申请一个实施例的示例性装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
图1示出了本申请实施例的一种数据质量稽核系统的架构图,数据质量稽核系统主要包括配置服务端、稽核服务端、计算处理端和数据库。其中,配置服务端用于定义数据质量稽核的相关规则和数据等;稽核服务端根据配置服务端配置的数据和规则进行数据稽核处理,如生成对应的数据配置信息和稽核规则,数据配置信息可理解为与稽核的指标Metrics相关的信息,可确定数据不同维度的统计指标,从而基于对应的指标生成数据获取任务来获取相应的指标值作为待稽核数据。其中,稽核服务端按照稽核规则对应的数据配置信息和对应的目标数据库,生成针对该目标数据库的数据获取任务后,将数据获取任务发送给计算处理端,计算处理端执行数据获取任务从对应的目标数据库中获取存储数据并进行解析后,得到待稽核数据。计算处理端将待稽核数据发送给稽核服务端,稽核服务端按照稽核规则对待稽核数据进行数据稽核。在一些示例中,这些配置服务端、稽核服务端、计算处理端和数据库可为不同的处理端,在另外一些示例中,也可为同一个处理端,例如配置服务端和稽核服务端为同一个服务端,该服务端完成配置后可基于该配置进行数据质量稽核的相关的处理,又如计算处理端和数据库为同一处理端,则数据库获取到任务后可提取数据并进行计算得到相应的待稽核数据,具体可依据实际需求设置,本申请实施例对此不作限制。
图2是本申请一个实施例的数据质量稽核系统的结构图,下面结合图2,对一个具体实施例的数据质量稽核系统进行进一步的阐述,如图2所示,数据质量稽核系统按照层级划分,可包括能力层、计算层和存储层。
能力层用于提供稽核处理所需的各种能力,可包括模型定义模块、规则引擎和执行引擎。模型定义模块用于定义存储层的数据库的存储规则;规则引擎用于对待稽核数据进行定义和稽核规则的定义;执行引擎用于获取待稽核数据并按照稽核规则对待稽核数据进行质量稽核。具体的:
模型定义模块包括存储规则定义模块和数据约束模块,存储规则定义模块用于定义数据库对应的存储规则,数据约束模块用于确定与存储的数据对应的数据约束,数据约束包括主键、分区、数据格式、数据取值范围定义。举例来说,对于存储在存储位置a的数据,存储的数据为衣服的尺寸数据,该数据的数据约束为S、M、L、XL,则对于其他类型的数据,如衣服的品牌等数据,不符合该存储位置的数据约束,该存储位置a不进行存储。
规则引擎包括规则模板模块和规则管理模块,规则模板模块包括数据定义模块和规则定义模块,数据定义模块用于定义稽核指标,稽核指标包括多种类型,以对应不同的计算引擎。
稽核指标(metrics)可以理解为进行稽核的数据指标,基于稽核指标可确定相应的待稽核数据,稽核指标可以为单一返回值类数据和多个返回值类数据,单一返回值类的数据可以为均值、方差、标准差、最大值、最小值、空值数据量。
其中,为了能够在不同的计算环境使用统一的metrics,可进行稽核指标的定义,其可以通过表达式定义。表达式可以包括:metrics名、metrics表达式、算子和metrics类型。
Metrics表达式可通过多种方式创建,例如一种示例可以统一表示为查询SQL表达式为例,Metrics表达式为:
select${operator}from${table_name}where${where_expression}[groupbycolumn,column,…]。
通过统一SQL的查询语法,可以支持多种支持SQL的数据源。算子(operator)是针对不同的metrics计算的方法,可以是作用在字段上的单个或者多个函数。
又如,Metrics表达式的另一个示例可以统一表示为用户定义函数(Userdefinedfunction,UDF)表达式,举例来说,Metrics表达式可以为:
Metrics=[UDF]/SQL/FlinkAPIprogram/MR/…
“主键不唯一的数据量=
select count(1)from(select${unique_key}from${table_name}${where_expression}group by${unique_key}having count(*)>1)t;”
“数据量MetricsID=
select count(1)from${table_name}${where_expression};”。
UDF是自定义计算Metrics的函数,可扩展SQL的功能,UDF函数通过集成多种类型的数据源的接口,实现不同数据源的Metrics的生成。其中,metrics定义可以如表一所示。
表一
Figure BDA0002327130120000061
Figure BDA0002327130120000071
Figure BDA0002327130120000081
Figure BDA0002327130120000091
Figure BDA0002327130120000101
上述表一中metrics定义仅用于举例说明各种定义的内容,实际处理中并不限于上述定义内容,同一Metrics名也不限于表中的定义内容。
多个返回值类数据可以为产品类别(如水杯、保温杯)、产品尺寸等离散型数据。
规则是对待稽核的数据判断的标准,可通过规则定义模块来定义稽核指标,从而得到待稽核数据的质量判断标准,规则可以通过规则表达式的方式来体现,从而得到相应的规则定义模块。
举例来说,一个示例的规则表达式可以为:
[UDF]${metrics ID}[运算符]阈值/${metrics ID},其中,
运算符两侧分别是实际的数据值和期望的数据值,通过某一Metrics指标对应的待稽核数据与阈值进行比较,或者通过函数转换后的Metrics指标对应的待稽核数据与阈值进行比较,判断该待稽核数据是否与期望值一致,从而验证待稽核数据是否符合规则要求,从而稽核需要检查的数据的质量。
举例来说,数据环比波动小于5%的规则定义如下:
Function_same_period_ratio(Function_cur(数据量MetricsID),Function_last(数据量MetricsID))<0.05。
UDF是作用于Metrics的自定义函数,实现对Metrics的二次计算或metrics的选择过滤,包括:波动率函数、选择指定时间metrics值、包含函数等。
运算符包括比较运算符、条件运算符和集合运算符等,通过运算符进行metrics和阈值进行运算,或者metrics之间运算,运算符如表二。
表二
Figure BDA0002327130120000111
上述表二中仅用于举例说明运算符,实际处理中并不限于上述运算符。
另外一些示例中,也可通过Metrics指标对应的待稽核数据之间的比较,或者函数metrics转换后Metrics指标对应的待稽核数据与Metrics指标对应的待稽核数据之间的比较,判断规则结果正确与否,进而实现不同表或者不同存储相同表的数据对比。通过Metrics指标对应的待稽核数据之间的比较,或者函数转换后的metrics指标对应的待稽核数据之间的比较,判断Metrics值(待稽核数据)之间是否一致,进而实现不同表或者不同存储表的数据对比,是数据之间一致性规则的一种稽核方式。
规则管理模块包括数据配置模块、规则配置模块和语法检查模块,规则配置模块用于对规则进行配置,规则配置的规则包括通用规则和自定义规则,对于通用规则根据规则定义模块定义的规则和数据定义模块的数据进行规则配置,对于自定义规则可以按照上传的自定义规则进行配置。规则配置模块对定义的待稽核指标和规则进行配置,并且,数据配置模块对稽核指标按照类别进行配置,生成对应不同类型的数据库的用于获取待稽核数据的数据配置信息,例如包括待计算的metrics表达式、算子、metrics类型和模型存储类型等。语法检查用于对自定义规则是否符合要求进行检查。
执行引擎进行数据质量稽核的过程主要用于执行数据配置解析、规则解析、规则计算和健康度计算,具体的:
数据配置解析:首先获取数据配置模块配置好的数据配置信息,确定与目标数据库对应的目标数据配置信息。之后确定对应的数据解析器,并利用数据解析器对目标数据配置信息进行解析,将目标数据配置信息实例化。之后利用任务生成器按照目标数据库对应的资源配置生成数据获取任务。并将数据获取任务发送给计算层的计算处理端,通过计算层中的一个或多个计算处理端来从存储层中的目标数据库中获取待稽核数据。其中,计算处理端可以根据需求进行对应的配置。
规则解析:获取规则配置模块配置好的规则并进行解析得到稽核规则。
规则计算:按照规则解析获得的稽核规则对待稽核数据进行规则计算,具体的,可以将待稽核数据与阈值进行比较、将不同类型的数据库中的待稽核数据之间进行比较,来得到计算结果。
健康度计算:可以理解为稽核处理过程,可按照多个规则的计算结果,得到待稽核数据的健康度,完成对待稽核数据质量的稽核。
举例来说,规则计算和健康度计算处理流程如下:
1、获取数据模型的质量规则表达式。
2、将规则表达式中的MetricsID替换为需要稽核的数据的Metrics值,该Metrics值是根据metrics定义进行生成的。
3、步骤2的规则表达式是可执行的表达式,进行表达式的计算,生成布尔值,该值就是规则结果。
例如,模型Table1是日分区数据,配置了日数据量波动的规则,日数据环比波动小于5%的规则表达式如下:
functionRatio(functionSelect(数据量MetricsID,0),functionSelect(数据量MetricsID,-1))<0.05;
根据以上的规则表达式和数据量MetricsID的结果将规则表达式转为:
Function_same_period_ratio(5000,4000)<0.05。其中,
Function_cur(数据量MetricsID)是获取当日数据量metricsID的值:5000。Function_last(数据量MetricsID)是获取前一日数据量metricsID的值:4000。
Function_same_period_ratio计算环比的函数,公式是(5000-4000)/4000,结果0.25。可见该表达式结算的结果是false,该规则不通过。则该日数据环比波动不符合规则,数据健康度不符合要求,稽核不通过。
在上述实施例的基础上,可进行相应的数据质量稽核处理,如图3所示,可通过稽核服务端执行以下至少一种步骤:
步骤302、确定稽核规则和稽核规则对应的数据配置信息。其中,数据配置信息用于确定存储数据库中的待稽核数据,稽核规则用于评价待稽核数据的数据质量。
待稽核数据与稽核指标对应,待稽核数据可以为单一返回值类数据,如:均值、方差、标准差、最大值、最小值等。待稽核数据也可以为多个返回值类数据,如产品类别(如水杯、保温杯)、产品尺寸等离散型数据。在获取待稽核数据的过程中,首先确定用于评价待稽核数据的稽核规则,之后确定稽核规则对应的数据配置信息,数据配置信息包括稽核规则进行稽核时所需的数据。
举例来说,以日数据环比波动为例,稽核规则为日数据环比波动小于或等于5%,则与稽核规则对应的数据配置信息对应的数据为昨日数据和今日数据,稽核规则的判断规则是以昨日数据为基准,判断今日数据相比于昨日数据的波动是否小于或等于5%。在今日数据相比于昨日数据的波动小于或等于5%的情况下,则认为今日数据的数据质量符合规则;在今日数据相比于昨日数据的波动大于5%的情况下,则今日数据的数据质量不符合规则。
可选的,作为一个实施例,步骤302中,确定稽核规则和稽核规则对应的数据配置信息,包括:
步骤3022、确定稽核规则和稽核规则的类型。
步骤3024、按照稽核规则的类型确定对应的至少一个数据配置信息。
具体来说,稽核规则可以理解为可执行的规则表达式,利用规则表达式对Metrics指标进行质量判断。在获取待稽核数据的过程中,首先确定稽核规则,并确定稽核规则的类型,之后按照稽核规则的类型,确定与稽核规则对应的至少一个数据配置信息,包括待计算的metrics表达式、算子、metrics类型和模型存储类型等。与稽核规则对应的数据配置信息可以包括对应不同计算处理端的数据配置信息。在进行待稽核数据的获取的过程中,可以利用不同的数据配置信息通过该数据配置信息对应的计算处理端来获取待稽核数据,待稽核数据获取的方式多样,待稽核的数据获取方便。
举例来说,稽核规则中的Metrics指标为日数据,稽核规则为日数据的数据最大值不能超过a,则按照稽核规则的类型,确定多个用于获取日数据的数据配置信息,多个数据配置信息包括对应不同类型的计算处理端的数据配置信息。之后利用多个数据配置信息中的一个或多个并通过对应的计算处理端来得到对应的待稽核数据。
步骤304、依据目标数据库和数据配置信息,生成数据获取任务。
具体来说,在获取稽核规则和数据配置信息之后,根据目标数据库和数据配置信息,生成数据获取任务。数据获取任务用于被计算处理端执行以得到待稽核数据。计算处理端可以设置在本地或设置在其他服务器中,在获取待稽核数据的过程中,可以采取将数据获取任务输出到本地的计算处理端来执行,以得到待稽核数据,也可以将数据获取任务发送到对应的计算处理端中,计算处理端执行数据获取任务,以得到待稽核数据。
可选的,作为一个实施例,步骤304中,依据目标数据库和数据配置信息,生成数据获取任务,包括:
步骤3042、依据目标数据库和与目标数据库对应的目标数据配置信息,生成数据获取任务,目标数据配置信息依据目标数据库的存储类型从至少一个数据配置信息中确定。
具体来说,在获取待稽核数据的过程中,获取目标数据库的存储类型,并根据目标数据库的存储类型从至少一个数据配置信息中确定目标数据配置信息。通过目标数据库的存储类型,确定与所目标数据库对应的目标数据配置信息,根据目标数据配置信息和目标数据库得到用于被计算处理端执行以从目标数据库中获取待稽核数据的数据获取任务。
可选的,作为一个实施例,步骤3042中,依据目标数据库和与目标数据库对应的目标数据配置信息,生成数据获取任务,包括:
步骤30421、依据目标数据配置信息和目标数据库的存储规则,生成数据获取任务。
具体来说,在生成数据获取任务的过程中,首先获取目标数据库的存储规则,之后根据目标数据库的存储规则和目标数据配置信息,对目标数据配置信息中的内容进行实例化,得到待稽核数据的存储位置,生成用于从目标数据库中的存储位置获取待稽核数据的数据获取任务。
可选的,作为一个实施例,步骤30421中,依据目标数据配置信息和目标数据库的存储规则,生成数据获取任务,包括:
步骤30422、依据目标数据配置信息的类型,确定对应的数据解析器。
步骤30423、依据数据解析器和目标数据库的存储规则,对目标数据配置信息进行解析,生成数据获取任务。
具体来说,在获取目标数据配置信息之后,确定目标数据配置信息的类型,并确定与目标数据配置信息对应的数据解码器,数据解码器用于依赖目标数据库的存储规则实例化目标数据配置信息的内容,确定待稽核数据的在目标数据库中的存储位置,并生成数据获取任务。
可选的,作为一个实施例,步骤30423中,依据数据解析器和目标数据库的存储规则,对目标数据配置信息进行解析,生成数据获取任务,包括:
步骤30424、依据数据解析器和目标数据库的存储规则,解析目标数据配置信息,以得到待稽核数据的存储位置。
步骤30425、依据待稽核数据的目标数据范围和待稽核数据的目标存储位置,生成数据获取任务,数据获取任务用于按照数据范围从存储位置获取待稽核数据。
具体来说,在确定数据解析器之后,依据目标数据库的存储规则,实例化目标配置信息,得到待稽核数据的存储位置。之后确定数据生成器,数据生成器依据待稽核数据的数据范围和待稽核数据的存储位置,生成数据获取任务。其中,待稽核数据的数据范围可以是时间范围、数据占用存储的大小范围、数据来源等范围。
举例来说,在数据范围为时间范围时,数据生成器依据待稽核数据的存储位置、时间范围和当前时间,生成数据获取任务,数据获取任务用于从待稽核数据的存储位置,按照时间范围和当前时间,获取待稽核数据。
图3所示的数据质量稽核方法还包括:
步骤306、依据数据获取任务获取待稽核数据。
可选的,作为一个实施例,步骤306中,依据数据获取任务获取待稽核数据,包括:
步骤3062、将数据获取任务发送至数据配置信息对应的目标计算处理端,目标计算处理端用于执行数据获取任务以获得待稽核数据。
步骤3064、获取待稽核数据。
具体来说,在生成数据获取任务之后,将数据获取任务发送到数据配置信息对应的目标计算处理端,利用目标计算处理端来执行数据获取任务,以获取待稽核数据。之后获取目标计算处理端发送的待稽核数据。通过将数据获取任务发送给对应的计算处理端进行执行来获得待稽核数据,利用不同的计算处理端来完成数据获取的任务,可以灵活支持多种计算处理端的计算,对于稽核服务端的存储能力和计算能力要求低。
步骤308、将待稽核数据按照稽核规则进行稽核处理,得到稽核结果。
具体来说,数据质量稽核方法的处理流程是根据数据配置信息和目标数据库,生成数据获取任务,并执行数据获取任务,以得到待稽核数据,并按照稽核规则对待稽核数据进行稽核计算,得到数据质量。
本实施例中,可依据稽核规则对应的数据配置信息和目标数据库,生成对应的数据获取任务,然后基于该数据获取任务从目标数据库中获取对应的待稽核数据,之后依据稽核规则完成对待稽核数据的质量稽核。在待稽核数据发生变化时,改变稽核规则和对应的数据配置信息,就能够改变数据获取任务所获取的待稽核数据,并利用修改后的稽核规则进行数据质量稽核,无需修改获取数据的执行程序,即可完成数据质量稽核,稽核的数据确定、获取方式便捷且通用性强,其能够提高数据质量稽核的效率。可依据需求确定各种类型的待稽核数据。
可选的,作为一个实施例,待稽核数据从同一类别的存储数据库中获取;步骤308中,将待稽核数据按照稽核规则进行稽核处理,得到稽核结果,包括:
步骤3082、按照稽核规则,将待稽核数据与阈值进行对比,得到稽核结果。
具体来说,在待稽核数据为从同一类别的存储数据库中获取的数据的情况下,待稽核数据对应的存储类型相同,则按照同类数据对应的稽核方式,将待稽核数据与阈值进行对比,进而得到稽核结果。利用阈值来确定待稽核数据的数据质量,完成同类数据库中的数据质量稽核。
可选的,作为一个实施例,待稽核数据从不同类别的存储数据库中获取;步骤308中,将待稽核数据按照稽核规则进行稽核处理,得到稽核结果,包括:
步骤3084、按照稽核规则,将待稽核数据与阈值进行对比、将从不同类别的存储数据库中获取的待稽核数据进行对比,得到稽核结果。
具体来说,在待稽核数据为从不同类别的存储数据库中的数据时,将待稽核数据与阈值进行对比,将从不同类别的存储数据库中获取的待稽核数据进行对比,得到稽核结果。利用待稽核数据与阈值进行对比、不同类别的存储数据库中的待稽核数据之间进行对比,完成了不同类别数据库的数据之间的数据质量稽核。
本实施例中,通过数据配置信息,生成对应不同类别数据库的数据获取任务,并依据数据获取任务,从不同类型的数据库中获取待稽核数据,之后利用稽核规则对不同类别数据库的待稽核数据完成质量稽核。数据获取任务可以发送给对应的计算处理端进行执行来获取待稽核数据,无需依赖于统一的计算处理端,即可完成了不同类别数据库之间的数据质量稽核,数据质量稽核过程更加灵活,对稽核服务端的存储资源和计算能力的依赖性低。
图4是本申请一个实施例的数据配置解析模块的处理步骤流程图,如图4所示,数据配置解析模块的处理流程主要包括:
确定与目标数据库对应的目标数据配置信息,并利用与目标数据配置信息对应的数据解析器解析目标数据配置信息,将目标数据配置信息实例化,以得到待稽核数据在目标数据库中的存储位置。其中,数据解析器包括第一解析器、第二解析器和第三解析器。
利用对应解析后的目标数据配置信息的任务生成器,按照待稽核数据的数据范围,生成数据获取任务。举例来说,数据范围可以为时间范围,如获取的数据的范围为昨日的当前时刻到今日的当前时间对应的时间段内的数据。则任务生成器按照是时间范围、当前时间和解析后的目标数据配置信息的参数信息来生成数据获取任务。其中,任务生成器包括与第一解析器对应的第一任务生成器、与第二解析器对应的第二任务生成器和与第三解析器对应的第三任务生成器。
利用数据获取任务对应的计算处理端来执行数据获取任务,以从目标数据库中获取数据并进行解析,得到待稽核数据。得到待稽核数据之后,对待稽核数据按照稽核规则进行计算,得到数据的健康度,完成数据质量稽核。
图5是本申请一个实施例的数据解析器的处理步骤流程图,下面结合图5,具体阐述一个具体实施例的数据解析器的处理流程,数据解析器包括第一类解析器、第二类解析器以及第三类解析器。第一类解析器的处理流程包括:获取数据配置信息,之后按照模型定义规则,实例化数据配置信息,得到待获取指标和待获取指标的存储位置,以生成第一任务。
若实时表没有订阅,则进行订阅,来获取实时表,实时表用于确定指标对应的存储位置。第二类解析器的处理流程包括:获取数据配置信息,按照模型定义规则和实时表,对数据配置信息实例化,得到待获取指标和待获取指标的存储位置,以生成第二任务。
第三类解析器的处理流程包括:获取数据配置信息,按照模型定义规则,对数据配置信息实例化,得到待获取指标和待获取指标的存储位置,以生成第三任务。其中,第一任务、第二任务和第三任务可以分别对应不同类型的计算处理端。
下面结合图6,具体阐述一个具体实施例的数据质量稽核方法的处理流程,该数据质量稽核方法可以通过稽核服务端来执行,具体的,数据质量稽核方法包括以下步骤:
步骤601、确定稽核规则和对应的数据配置信息。在进行数据质量稽核的过程中,首先获取稽核规则,之后根据稽核规则的类型,确定至少一个与稽核规则对应的数据配置信息,数据配置信息用于确定待稽核数据,稽核规则用于稽核待稽核数据的数据质量。
步骤602、根据目标数据库,确定目标数据配置信息,根据目标数据库的存储类型,从至少一个数据配置信息中确定与目标数据库对应的目标数据配置信息,目标数据配置信息用于生成数据获取任务,数据获取任务用于被目标数据库对应的计算处理端执行来从目标数据库中获取待稽核数据。
步骤603、解析目标数据配置信息。根据目标数据库的存储规则实例化目标数据配置信息,以得到待稽核数据在存储数据库中的存储位置。按照待稽核数据的数据范围和待稽核数据的存储位置,生成数据获取任务。
步骤604、生成数据获取任务之后,稽核服务端将数据获取任务发送给计算处理端进行执行,计算处理端可以设置在本地也可以设置在其他服务端中。
步骤605、计算处理端执行数据获取任务。执行数据获取任务,从目标数据库中待稽核数据对应的存储位置按照待稽核数据的数据范围获取数据,之后将获取到的数据进行解析,得到待稽核数据。具体的,确定数据配置信息、并解析数据配置信息生成数据获取任务的过程,可参照图2中执行引擎中的数据配置解析模块的处理过程。
步骤606、稽核服务端接收计算处理端发送的待稽核数据。
步骤607、稽核服务端按照稽核规则,对待稽核数据进行计算。具体的,稽核服务端对待稽核数据进行稽核处理的过程可参照图2中执行引擎中的规则解析、规则计算以及健康度计算的处理过程。稽核服务端按照稽核规则,对待稽核数据进行计算,以得到计算结果,按照计算结果完成对待稽核数据的质量稽核。其中,对待稽核数据进行对比计算的方式包括将待稽核数据与阈值进行对比计算,以确定待稽核数据的数据质量。
下面结合图7,对一个具体实施例的数据质量稽核方法的处理流程进行阐述,具体的,图7所示的方法与图6的区别在于,图7的数据质量稽核方法生成的数据获取任务包括第一数据获取任务和第二数据获取任务。第一数据获取任务用于发送到第一计算处理端,以通过第一计算处理端来获取第一待稽核数据;第二数据获取任务用于发送到第二计算处理端,以通过第二计算处理端来获取第二待稽核数据。具体的,数据质量稽核方法包括:
步骤704a、第一计算处理端接收稽核服务端发送的第一数据获取任务。
步骤704b、第二计算处理端接收稽核服务端发送的第二数据获取任务。
步骤705a、第一计算处理端执行第一数据获取任务,以从第一目标数据库待稽核数据对应的目标存储位置按照待稽核数据的数据范围获取第一待稽核数据。
步骤705b、第二计算处理端执行第二数据获取任务,以从第二目标数据库待稽核数据对应的目标存储位置按照待稽核数据的数据范围获取第二待稽核数据。其中第一目标数据库和第二目标数据库可以为不同存储类型的数据库,也可以为同一存储类型的不同的数据库,也可以为同一存储类型的同一数据库。
步骤706a、稽核服务端接收第一计算处理端发送的第一待稽核数据。
步骤706b、稽核服务端接收第二计算处理端发送的第二待稽核数据。
步骤707、稽核服务端按照稽核规则,对第一待稽核数据和第二待稽核数据进行对比计算。稽核服务端对第一待稽核数据和第二待稽核数据进行稽核处理的过程可参照图2中执行引擎中的规则解析、规则计算以及健康度计算的处理过程。稽核服务端按照稽核规则,对待稽核数据进行对比计算,以得到计算结果,按照计算结果完成对待稽核数据的质量稽核。其中,对待稽核数据进行对比计算的方式包括将第一待稽核数据与阈值进行对比计算、将第二待稽核数据与阈值进行对比计算、将第一待稽核数据和第二待稽核数据进行对比计算,以确定待稽核数据的数据质量。
下面结合图8对一个具体实施例的配置服务端的处理流程进行阐述,该配置服务端用于定义数据配置信息和稽核规则,具体的,配置服务端用于执行以下步骤:
步骤802、定义数据库的存储规则。具体的,定义数据库的存储规则的处理过程可参考图2中模型定义的处理流程。定义数据的存储模式和对应的数据约束,以得到数据库的存储规则。数据库的存储规则用于与数据配置信息结合以得到数据配置信息对应的待稽核数据的存储位置。
步骤804、定义数据库的数据信息和规则模板。具体的,定义数据库的数据信息和规则模板的处理过程可参考图2中规则引擎中的规则模板模块的处理流程。对于待稽核数据进行定义,并定义待稽核数据的规则模板,规则模板用于确定待稽核数据的判断标准。
步骤806、基于数据信息和规则模板生成稽核规则,并生成与稽核规则对应的数据配置信息。具体的,生成稽核规则和数据配置信息的过程可参考图2中的规则引擎中的规则管理模块的处理流程。数据配置信息至少设置有一个。对于数据库来说,一个数据库可以对应一个数据配置信息,一个数据库也可以对应多个不同类型的数据配置信息,不同类型的数据配置信息对应不同的计算处理端。数据配置信息用于生成数据获取任务,数据获取任务可以发送到对应的计算处理端,计算处理端执行该数据获取任务,以得到待稽核数据。稽核规则用于对待稽核数据进行质量稽核。
本实施例中,通过定义数据库的存储规则,在修改了待稽核数据对应的指标时,修改或重新定义数据信息和规则模板,之后按照新的数据信息和规则来生成对应的数据配置信息和稽核规则,并利用数据配置信息生成用于计算处理端执行的用于获取待稽核数据的数据获取任务,并利用稽核规则进行数据质量稽核。在修改待稽核数据时,修改定义的数据信息和规则模板,完成修改,无需修改计算处理端执行的数据获取任务,方便进行待稽核数据的数据质量稽核。
图9为本申请另一个实施例的数据质量稽核方法的流程示意图,该数据质量稽核方法可以通过计算处理端来执行。具体的,数据质量稽核方法,包括以下步骤:
步骤902、接收数据获取任务,数据获取任务依据数据配置信息生成,数据配置信息用于确定待稽核数据。
步骤904、执行数据获取任务,以得到待稽核数据。
步骤906、将待稽核数据发送至稽核服务端按照数据配置信息对应的稽核规则进行稽核处理,以得到稽核结果。
具体的,稽核服务端根据数据配置信息和目标数据源生成数据获取任务,数据源包括数据库、Excel表等存储数据的对象,则目标数据库可为目标数据库、目标Excel表等,稽核服务端将数据获取任务发送至计算处理端,计算处理端接收到数据获取任务之后,计算处理端执行数据获取任务,从目标数据库中获取待稽核数据,并将待稽核数据发送至稽核服务端,稽核服务端按照对应的稽核规则对待稽核数据进行质量稽核。其中,计算处理端可以主动将待稽核数据发送至稽核服务端,计算处理端还可以响应于稽核服务端的指令将待稽核数据发送至稽核服务端。
本实施例中,通过数据配置信息和目标数据库来生成数据获取任务,并将数据获取任务发送至计算处理端进行执行,以得到待稽核数据,之后计算处理端将待稽核数据发送至稽核服务端完成数据稽核。在待稽核数据需要修改时,通过修改数据配置信息,即可生成对应的数据获取任务,无需重新编码修改数据获取任务,即可获取待稽核数据,方便进行数据质量稽核。
可选的,作为一个实施例,步骤904中,执行数据获取任务,以得到待稽核数据,包括:
步骤9042、确定待稽核数据的目标数据范围、待稽核数据的目标存储位置。
步骤9044、按照目标数据范围,从目标存储位置获取数据并解析,以得到待稽核数据。
具体来说,稽核服务端根据数据配置信息和目标数据库的存储类型,确定对应目标数据库的目标数据配置信息,根据目标数据配置信息和目标数据库的存储规则,实例化目标数据配置信息得到待稽核数据的目标存储位置,并根据该存储位置和目标数据范围,得到数据获取任务。之后稽核服务端将数据获取任务发送到计算处理端,计算处理端接收数据获取任务后,计算处理端执行数据获取任务,按照目标数据范围,从目标存储位置获取数据并进行解析,以得到待稽核数据。之后计算处理端将待稽核数据发送至稽核服务端,稽核服务端按照对应的稽核规则对待稽核数据进行质量稽核。
图10示出了本申请一个具体实施例的数据质量稽核配置方法,该数据质量稽核方法可以通过配置服务端来执行。数据质量稽核方法,包括:
步骤1002、确定待稽核数据的稽核规则表达式和对应的定义数据信息。
步骤1004、依据定义数据信息和稽核规则表达式,得到稽核规则和稽核规则对应的数据配置信息,数据配置信息用于生成数据获取任务,数据获取任务用于获取待稽核数据,稽核规则用于评价待稽核数据的数据质量。
具体来说,配置服务端定义稽核规则表达式和对应的定义数据信息。稽核规则表达式用于定义指标与阈值之间的关系和/或指标与指标之间的关系。定义数据信息为规则表达式对应的指标信息。根据定义的稽核规则表达式和定义数据信息,生成稽核规则,并生成与稽核规则对应的数据配置信息。数据配置信息至少设置有一个。对于数据库来说,一个数据库可以对应一个数据配置信息,一个数据库也可以对应多个不同类型的数据配置信息,不同类型的数据配置信息对应不同的计算处理端。数据配置信息用于生成数据获取任务,数据获取任务可以发送到对应的计算处理端,计算处理端执行该数据获取任务,以得到待稽核数据。稽核规则用于对待稽核数据进行质量稽核。
本实施例中,通过定义数据库的存储规则,在修改了待稽核数据对应的指标时,修改或重新定义数据信息和规则模板,之后按照新的数据信息和规则来生成对应的数据配置信息和稽核规则,并利用数据配置信息生成用于计算处理端执行的用于获取待稽核数据的数据获取任务,并利用稽核规则进行数据质量稽核。在修改待稽核数据时,修改定义的数据信息和规则模板,完成修改,无需修改计算处理端执行的数据获取任务,方便进行待稽核数据的数据质量稽核。
在一个实施例中,本实施例提供了一种数据质量稽核方法,参照图11,数据质量稽核方法包括:
步骤1102、确定稽核规则和稽核规则对应的数据配置信息,数据配置信息用于确定数据源中的待稽核数据,稽核规则用于评价待稽核数据的数据质量。
步骤1104、依据目标数据源和数据配置信息,生成数据获取任务。
步骤1106、依据数据获取任务获取待稽核数据。
步骤1108、将待稽核数据按照稽核规则进行稽核处理,得到稽核结果。
具体来说,本实施例中的数据源包括各种存储数据的对象,如数据库、Excel文件等。本申请实施例各步骤、关联其他步骤与上述实施例中对应步骤类似,具体可参照上述实施例的描述。此处不再赘述。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
在上述实施例的基础上,本实施例还提供了一种数据质量稽核装置,参照图12,示出了本申请的一种数据质量稽核装置实施例的结构示意图,具体可以包括如下模块:
配置信息确定模块1202,用于确定稽核规则和稽核规则对应的数据配置信息,数据配置信息用于确定存储数据库中的待稽核数据,稽核规则用于评价待稽核数据的数据质量。
任务生成模块1204,用于依据目标数据库和数据配置信息,生成数据获取任务。
数据获取模块1206,用于依据数据获取任务获取待稽核数据。
稽核模块1208,用于将待稽核数据按照稽核规则进行稽核处理,得到稽核结果。
综上,依据数据配置信息,生成对应的数据获取任务,利用数据获取任务从目标数据库中获取待稽核数据,之后依据稽核规则完成对待稽核数据的质量稽核。在待稽核数据发生变化时,只需要改变数据配置信息,即可改变数据获取任务所获取的待稽核数据,无需修改数据获取任务,即可完成数据质量稽核,方便进行数据质量稽核。
可选的,作为一个实施例,配置信息确定模块1202,包括:稽核规则获取子模块和配置信息获取子模块,其中:
所述稽核规则获取子模块,用于确定稽核规则和稽核规则的类型。
所述配置信息获取子模块,用于按照稽核规则的类型确定对应的至少一个数据配置信息。
可选的,作为一个实施例,任务生成模块1204,用于依据目标数据库和与目标数据库对应的目标数据配置信息,生成数据获取任务,目标数据配置信息依据目标数据库的存储类型从至少一个数据配置信息中确定。
进一步的可选实施例中,所述任务生成模块1204,用于依据目标数据配置信息和目标数据库的存储规则,生成数据获取任务。
可选的,作为一个实施例,所述任务生成模块1204,包括:解析器确定子模块和解析处理子模块,其中:
所述解析器确定子模块,用于依据目标数据配置信息的类型,确定对应的数据解析器。
所述解析处理子模块,用于依据数据解析器和目标数据库的存储规则,对目标数据配置信息进行解析,生成数据获取任务。
可选的,作为一个实施例,解析处理子模块,用于依据数据解析器和目标数据库的存储规则,解析目标数据配置信息,以得到待稽核数据的存储位置;依据待稽核数据的目标数据范围和待稽核数据的目标存储位置,生成数据获取任务,数据获取任务用于按照数据范围从存储位置获取待稽核数据。
可选的,作为一个实施例,数据获取模块,用于将数据获取任务发送至数据配置信息对应的目标计算处理端,目标计算处理端用于执行数据获取任务以获得待稽核数据;获取待稽核数据。
可选的,作为一个实施例,待稽核数据从同一类别的存储数据库中获取,稽核模块1208,用于按照稽核规则,将待稽核数据与阈值进行对比,得到稽核结果。
可选的,作为一个实施例,待稽核数据从不同类别的存储数据库中获取,稽核模块1208,,用于按照稽核规则,将待稽核数据与阈值进行对比、将从不同类别的存储数据库中获取的待稽核数据进行对比,得到稽核结果。
在上述实施例的基础上,本实施例还提供了一种数据质量稽核装置,参照图13,示出了本申请的一种数据质量稽核装置实施例的结构示意图,具体可以包括如下模块:
任务接收模块1302,用于接收数据获取任务,数据获取任务依据数据配置信息生成,数据配置信息用于确定待稽核数据。
任务执行模块1304,用于执行数据获取任务,以得到待稽核数据。
数据输出模块1306,用于将待稽核数据发送至稽核服务端按照数据配置信息对应的稽核规则进行稽核处理,以得到稽核结果。
综上,稽核服务端根据数据配置信息和目标数据源,生成数据获取任务,目标数据源包括数据库、Excel表等存储数据的对象。稽核服务端将数据获取任务发送至计算处理端,计算处理端接收到数据获取任务之后,计算处理端执行数据获取任务,从目标数据库中获取待稽核数据,并将待稽核数据发送至稽核服务端,稽核服务端按照对应的稽核规则对待稽核数据进行质量稽核。
本实施例中,通过数据配置信息和目标数据库来生成数据获取任务,并将数据获取任务发送至计算处理端进行执行,以得到待稽核数据,之后计算处理端将待稽核数据发送至稽核服务端完成数据稽核。在待稽核数据需要修改时,通过修改数据配置信息,即可生成对应的数据获取任务,无需重新编码修改数据获取任务,即可获取待稽核数据,方便进行数据质量稽核。
可选的,作为一个实施例,任务执行模块1304,用于确定待稽核数据的目标数据范围、待稽核数据的目标存储位置;按照目标数据范围,从目标存储位置获取数据并解析,以得到待稽核数据。
在上述实施例的基础上,本实施例还提供了一种数据质量稽核配置装置,参照图14,示出了本申请的一种数据质量稽核装置实施例的结构示意图,具体可以包括如下模块:
定义信息获取模块1402,用于确定待稽核数据的稽核规则表达式和对应的定义数据信息;
配置信息生成模块1404,用于依据定义数据信息和稽核规则表达式,得到稽核规则和稽核规则对应的数据配置信息,数据配置信息用于生成数据获取任务,数据获取任务用于获取待稽核数据,稽核规则用于评价待稽核数据的数据质量。
综上,配置服务端定义稽核规则表达式和对应的定义数据信息。稽核规则表达式用于定义指标与阈值之间的关系和/或指标与指标之间的关系。定义数据信息为规则表达式对应的指标信息。根据定义的稽核规则表达式和定义数据信息,生成稽核规则,并生成与稽核规则对应的数据配置信息。数据配置信息至少设置有一个。对于数据库来说,一个数据库可以对应一个数据配置信息,一个数据库也可以对应多个不同类型的数据配置信息,不同类型的数据配置信息对应不同的计算处理端。数据配置信息用于生成数据获取任务,数据获取任务可以发送到对应的计算处理端,计算处理端执行该数据获取任务,以得到待稽核数据。稽核规则用于对待稽核数据进行质量稽核。
本实施例中,通过定义数据库的存储规则,在修改了待稽核数据对应的指标时,修改或重新定义数据信息和规则模板,之后按照新的数据信息和规则来生成对应的数据配置信息和稽核规则,并利用数据配置信息生成用于计算处理端执行的用于获取待稽核数据的数据获取任务,并利用稽核规则进行数据质量稽核。在修改待稽核数据时,修改定义的数据信息和规则模板,完成修改,无需修改算处理端执行的数据获取任务,方便进行待稽核数据的数据质量稽核。
在上述实施例的基础上,本实施例还提供了一种数据质量稽核装置,参照图15,所述装置包括:
配置信息获得模块1502,用于确定稽核规则和所述稽核规则对应的数据配置信息,所述数据配置信息用于确定数据源中的待稽核数据,所述稽核规则用于评价所述待稽核数据的数据质量。
任务获得模块1504,用于依据目标数据源和所述数据配置信息,生成数据获取任务。
数据获得模块1506,用于依据所述数据获取任务获取所述待稽核数据。
稽核结果获得模块1508,用于将所述待稽核数据按照所述稽核规则进行稽核处理,得到稽核结果。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中,所述电子设备包括终端设备、服务器(集群)等各类型的设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括终端设备、服务器(集群)等电子设备。图16示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1600。
对于一个实施例,图16示出了示例性装置1600,该装置具有一个或多个处理器1602、被耦合到(一个或多个)处理器1602中的至少一个的控制模块(芯片组)1604、被耦合到控制模块1604的存储器1606、被耦合到控制模块1604的非易失性存储器(NVM)/存储设备1608、被耦合到控制模块1604的一个或多个输入/输出设备1610,以及被耦合到控制模块1604的网络接口1612。
处理器1602可包括一个或多个单核或多核处理器,处理器1602可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1600能够作为本申请实施例中所述终端设备、服务器(集群)等设备。
在一些实施例中,装置1600可包括具有指令1614的一个或多个计算机可读介质(例如,存储器1606或NVM/存储设备1608)以及与该一个或多个计算机可读介质相合并被配置为执行指令1614以实现模块从而执行本公开中所述的动作的一个或多个处理器1602。
对于一个实施例,控制模块1604可包括任意适当的接口控制器,以向(一个或多个)处理器1602中的至少一个和/或与控制模块1604通信的任意适当的设备或组件提供任意适当的接口。
控制模块1604可包括存储器控制器模块,以向存储器1606提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器1606可被用于例如为装置1600加载和存储数据和/或指令1614。对于一个实施例,存储器1606可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器1606可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,控制模块1604可包括一个或多个输入/输出控制器,以向NVM/存储设备1608及(一个或多个)输入/输出设备1610提供接口。
例如,NVM/存储设备1608可被用于存储数据和/或指令1614。NVM/存储设备1608可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1608可包括在物理上作为装置1600被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备1608可通过网络经由(一个或多个)输入/输出设备1610进行访问。
(一个或多个)输入/输出设备1610可为装置1600提供接口以与任意其他适当的设备通信,输入/输出设备1610可以包括通信组件、音频组件、传感器组件等。网络接口1612可为装置1600提供接口以通过一个或多个网络通信,装置1600可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1602中的至少一个可与控制模块1604的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1602中的至少一个可与控制模块1604的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1602中的至少一个可与控制模块1604的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1602中的至少一个可与控制模块1604的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,装置1600可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1600可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1600包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,检测装置中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或NVM/存储设备中,传感器组可作为输入/输出设备,通信接口可包括网络接口。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种数据质量稽核方法和装置,一种电子设备和一种存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (23)

1.一种数据质量稽核方法,其特征在于,包括:
确定稽核规则和所述稽核规则对应的数据配置信息,所述数据配置信息用于确定存储数据库中的待稽核数据,所述稽核规则用于评价所述待稽核数据的数据质量;
依据目标数据库和所述数据配置信息,生成数据获取任务;
依据所述数据获取任务获取所述待稽核数据;
将所述待稽核数据按照所述稽核规则进行稽核处理,得到稽核结果。
2.根据权利要求1所述的方法,其特征在于,所述确定稽核规则和所述稽核规则对应的数据配置信息,包括:
确定所述稽核规则和所述稽核规则的类型;
按照所述稽核规则的类型确定对应的至少一个数据配置信息。
3.根据权利要求2所述的方法,其特征在于,所述依据目标数据库和所述数据配置信息,生成数据获取任务,包括:
依据所述目标数据库和与所述目标数据库对应的目标数据配置信息,生成所述数据获取任务,所述目标数据配置信息依据所述目标数据库的存储类型从所述至少一个数据配置信息中确定。
4.根据权利要求3所述的方法,其特征在于,所述依据所述目标数据库和与所述目标数据库对应的目标数据配置信息,生成所述数据获取任务,包括:
依据所述目标数据配置信息和所述目标数据库的存储规则,生成所述数据获取任务。
5.根据权利要求4所述的方法,其特征在于,所述依据所述目标数据配置信息和所述目标数据库的存储规则,生成所述数据获取任务,包括:
依据所述目标数据配置信息的类型,确定对应的数据解析器;
依据所述数据解析器和所述目标数据库的存储规则,对所述目标数据配置信息进行解析,生成所述数据获取任务。
6.根据权利要求5所述的方法,其特征在于,所述依据所述数据解析器和所述目标数据库的存储规则,对所述目标数据配置信息进行解析,生成所述数据获取任务,包括:
依据所述数据解析器和所述目标数据库的存储规则,解析所述目标数据配置信息,以得到所述待稽核数据的存储位置;
依据所述待稽核数据的目标数据范围和所述待稽核数据的目标存储位置,生成所述数据获取任务,所述数据获取任务用于按照所述数据范围从所述存储位置获取所述待稽核数据。
7.根据权利要求1所述的方法,其特征在于,所述依据所述数据获取任务获取所述待稽核数据,包括:
将所述数据获取任务发送至所述数据配置信息对应的目标计算处理端,所述目标计算处理端用于执行所述数据获取任务以获得所述待稽核数据;
获取所述待稽核数据。
8.根据权利要求1所述的方法,其特征在于,所述待稽核数据从同一类别的存储数据库中获取,所述将所述待稽核数据按照所述稽核规则进行稽核处理,得到稽核结果,包括:
按照所述稽核规则,将所述待稽核数据与阈值进行对比,得到所述稽核结果。
9.根据权利要求1所述的方法,其特征在于,所述待稽核数据从不同类别的存储数据库中获取,所述将所述待稽核数据按照所述稽核规则进行稽核处理,得到稽核结果,包括:
按照所述稽核规则,将所述待稽核数据与阈值进行对比、将从不同类别的存储数据库中获取的待稽核数据进行对比,得到所述稽核结果。
10.一种数据质量稽核方法,其特征在于,包括:
确定稽核规则和所述稽核规则对应的数据配置信息,所述数据配置信息用于确定数据源中的待稽核数据,所述稽核规则用于评价所述待稽核数据的数据质量;
依据目标数据源和所述数据配置信息,生成数据获取任务;
依据所述数据获取任务获取所述待稽核数据;
将所述待稽核数据按照所述稽核规则进行稽核处理,得到稽核结果。
11.一种数据质量稽核方法,其特征在于,包括:
接收数据获取任务,所述数据获取任务依据数据配置信息生成,所述数据配置信息用于确定待稽核数据;
执行所述数据获取任务,以得到所述待稽核数据;
将所述待稽核数据发送至稽核服务端按照所述数据配置信息对应的稽核规则进行稽核处理,以得到稽核结果。
12.根据权利要求11所述的方法,其特征在于,所述执行数据获取任务,以得到待稽核数据,包括:
确定所述待稽核数据的目标数据范围、所述待稽核数据的目标存储位置;
按照所述目标数据范围,从所述目标存储位置获取数据并解析,以得到所述待稽核数据。
13.一种数据质量稽核配置方法,其特征在于,包括:
确定所述待稽核数据的稽核规则表达式和对应的定义数据信息;
依据所述定义数据信息和所述稽核规则表达式,得到稽核规则和所述稽核规则对应的数据配置信息,所述数据配置信息用于生成数据获取任务,所述数据获取任务用于获取待稽核数据,所述稽核规则用于评价所述待稽核数据的数据质量。
14.一种数据质量稽核装置,其特征在于,所述装置包括:
配置信息确定模块,用于确定稽核规则和所述稽核规则对应的数据配置信息,所述数据配置信息用于确定存储数据库中的待稽核数据,所述稽核规则用于评价所述待稽核数据的数据质量;
任务生成模块,用于依据目标数据库和所述数据配置信息,生成数据获取任务;
数据获取模块,用于依据所述数据获取任务获取所述待稽核数据;
稽核模块,用于将所述待稽核数据按照所述稽核规则进行稽核处理,得到稽核结果。
15.一种数据质量稽核装置,其特征在于,包括:
配置信息获得模块,用于确定稽核规则和所述稽核规则对应的数据配置信息,所述数据配置信息用于确定数据源中的待稽核数据,所述稽核规则用于评价所述待稽核数据的数据质量;
任务获得模块,用于依据目标数据源和所述数据配置信息,生成数据获取任务;
数据获得模块,用于依据所述数据获取任务获取所述待稽核数据;
稽核结果获得模块,用于将所述待稽核数据按照所述稽核规则进行稽核处理,得到稽核结果。
16.一种数据质量稽核装置,其特征在于,所述装置包括:
任务接收模块,用于接收数据获取任务,所述数据获取任务依据数据配置信息生成,所述数据配置信息用于确定待稽核数据;
任务执行模块,用于执行所述数据获取任务,以得到所述待稽核数据;
数据输出模块,用于将所述待稽核数据发送至稽核服务端按照所述数据配置信息对应的稽核规则进行稽核处理,以得到稽核结果。
17.一种数据质量稽核配置装置,其特征在于,所述装置包括:
定义信息获取模块,用于确定所述待稽核数据的稽核规则表达式和对应的定义数据信息;
配置信息生成模块,用于依据所述定义数据信息和所述稽核规则表达式,得到稽核规则和所述稽核规则对应的数据配置信息,所述数据配置信息用于生成数据获取任务,所述数据获取任务用于获取待稽核数据,所述稽核规则用于评价所述待稽核数据的数据质量。
18.一种电子设备,其特征在于,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-10中一个或多个所述的数据质量稽核方法。
19.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1-10中一个或多个所述的数据质量稽核方法。
20.一种电子设备,其特征在于,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求11-12中一个或多个所述的数据质量稽核方法。
21.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求11-12中一个或多个所述的数据质量稽核方法。
22.一种电子设备,其特征在于,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求13所述的数据质量稽核方法。
23.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求13所述的数据质量稽核方法。
CN201911320946.5A 2019-12-19 2019-12-19 数据质量稽核方法、装置、设备和存储介质 Active CN113010502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911320946.5A CN113010502B (zh) 2019-12-19 2019-12-19 数据质量稽核方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911320946.5A CN113010502B (zh) 2019-12-19 2019-12-19 数据质量稽核方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113010502A true CN113010502A (zh) 2021-06-22
CN113010502B CN113010502B (zh) 2023-12-26

Family

ID=76381462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911320946.5A Active CN113010502B (zh) 2019-12-19 2019-12-19 数据质量稽核方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113010502B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704322A (zh) * 2021-08-17 2021-11-26 北京国电通网络技术有限公司 基于云边协同的数据采集方法、装置和介质
CN114493380A (zh) * 2022-04-14 2022-05-13 深圳市宝安区石岩人民医院 一种基于大数据的标本生物信息分析验证系统
CN115545682A (zh) * 2022-12-05 2022-12-30 深圳迅策科技有限公司 一种报表稽核方法及计算设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101902532A (zh) * 2009-05-27 2010-12-01 北京汉铭通信有限公司 一种电信业务的数据稽核方法和系统
CN103473672A (zh) * 2013-09-30 2013-12-25 国家电网公司 企业级数据中心的元数据质量稽核系统、方法及平台
US20150370776A1 (en) * 2014-06-18 2015-12-24 Yokogawa Electric Corporation Method, system and computer program for generating electronic checklists
CN109408489A (zh) * 2018-09-20 2019-03-01 中国联合网络通信集团有限公司 数据稽核方法及系统
CN110008201A (zh) * 2019-04-09 2019-07-12 浩鲸云计算科技股份有限公司 一种面向大数据的数据质量稽核监控方法
CN110109900A (zh) * 2018-01-26 2019-08-09 北京京东尚科信息技术有限公司 数据稽核方法、系统、电子设备及可读存储介质
CN110543483A (zh) * 2019-08-30 2019-12-06 北京百分点信息科技有限公司 一种数据稽核方法、装置及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101902532A (zh) * 2009-05-27 2010-12-01 北京汉铭通信有限公司 一种电信业务的数据稽核方法和系统
CN103473672A (zh) * 2013-09-30 2013-12-25 国家电网公司 企业级数据中心的元数据质量稽核系统、方法及平台
US20150370776A1 (en) * 2014-06-18 2015-12-24 Yokogawa Electric Corporation Method, system and computer program for generating electronic checklists
CN110109900A (zh) * 2018-01-26 2019-08-09 北京京东尚科信息技术有限公司 数据稽核方法、系统、电子设备及可读存储介质
CN109408489A (zh) * 2018-09-20 2019-03-01 中国联合网络通信集团有限公司 数据稽核方法及系统
CN110008201A (zh) * 2019-04-09 2019-07-12 浩鲸云计算科技股份有限公司 一种面向大数据的数据质量稽核监控方法
CN110543483A (zh) * 2019-08-30 2019-12-06 北京百分点信息科技有限公司 一种数据稽核方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李忠谕 等: "光宽业务全程端到端网络资源数据稽核方案", 电信技术 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704322A (zh) * 2021-08-17 2021-11-26 北京国电通网络技术有限公司 基于云边协同的数据采集方法、装置和介质
CN114493380A (zh) * 2022-04-14 2022-05-13 深圳市宝安区石岩人民医院 一种基于大数据的标本生物信息分析验证系统
CN115545682A (zh) * 2022-12-05 2022-12-30 深圳迅策科技有限公司 一种报表稽核方法及计算设备

Also Published As

Publication number Publication date
CN113010502B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN107908672B (zh) 基于Hadoop平台的应用报表实现方法、设备及存储介质
CN113010502B (zh) 数据质量稽核方法、装置、设备和存储介质
US10534775B2 (en) Cardinality estimation for database query planning
US8874600B2 (en) System and method for building a cloud aware massive data analytics solution background
US11314808B2 (en) Hybrid flows containing a continous flow
WO2023060878A1 (zh) 一种数据查询方法、系统、异构加速平台及存储介质
US9659108B2 (en) Pluggable architecture for embedding analytics in clustered in-memory databases
CN109344061B (zh) 一种接口的异常检测方法、装置、设备及系统
US20180349251A1 (en) Automated Root Cause Detection Using Data Flow Analysis
CN111259643B (zh) 一种生成图形报表的方法及设备
CN110955714B (zh) 一种将非结构化文本转化为结构化文本的方法及装置
US20180150530A1 (en) Method, Apparatus, Computing Device and Storage Medium for Analyzing and Processing Data
CN113806429A (zh) 基于大数据流处理框架的画布式日志分析方法
CN103235847B (zh) 基于矩阵转换的模型动态调配方法
CN110728118B (zh) 跨数据平台的数据处理方法、装置、设备及存储介质
CN113010488B (zh) 数据获取方法、装置、设备和存储介质
CN113849524B (zh) 一种数据处理方法及装置
CN108805597B (zh) 模型构建方法及装置、数据报表生成方法及装置
CN114116773A (zh) 一种结构化查询语言sql文本审核方法及装置
CN110019068B (zh) 一种日志文本处理方法和装置
CN114996307A (zh) 一种对数据的联邦处理方法及装置
CN112699140A (zh) 数据处理方法、装置、设备和存储介质
CN111352795A (zh) 一种移动业务的监控方法及装置
CN112836924B (zh) 一种资源分配审计的方法、装置、电子设备及存储介质
WO2021051522A1 (zh) Sql指纹还原方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant