CN114385437A - 数据质量分析系统及方法 - Google Patents

数据质量分析系统及方法 Download PDF

Info

Publication number
CN114385437A
CN114385437A CN202111509003.4A CN202111509003A CN114385437A CN 114385437 A CN114385437 A CN 114385437A CN 202111509003 A CN202111509003 A CN 202111509003A CN 114385437 A CN114385437 A CN 114385437A
Authority
CN
China
Prior art keywords
rule
data
metadata
monitoring
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111509003.4A
Other languages
English (en)
Inventor
全博楷
刘楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN202111509003.4A priority Critical patent/CN114385437A/zh
Publication of CN114385437A publication Critical patent/CN114385437A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Abstract

本申请公开了一种数据质量分析系统及方法,该系统包括数据仓库、元数据管理模块、规则解析模块、数据采集模块、监控任务调动模块和数据质量分析模块,元数据管理模块用于存储规则元数据和数据仓库提供的数据源元数据,规则元数据包括多条监控规则,每条监控规则被配置有对应的规则属性,各条监控规则之间通过所述规则属性建立起规则联系;规则解析模块用于根据规则元数据,生成规则引擎能够识别的规则语句;数据采集模块用于数据源元数据从数据仓库中采集数据源数据;规则引擎用于根据规则语句注册监控任务,并对数据源数据执行监控任务,监控任务按规则联系对数据源数据执行各监控规则;数据质量分析模块用于对数据源数据进行质量分析。

Description

数据质量分析系统及方法
技术领域
本申请属于大数据技术领域,具体涉及一种数据质量分析系统及方法。
背景技术
数据集的数据质量指数据集中数据适合使用的程度、满足特定用户期望的程度。
相关技术中的数据质量分析框架主要提供了动态制定、修改数据质量监控规则的功能,但缺少对规则之间关系的管理。例如对某一字段需要同时监控非空、长度、大小等多个方面时,由于各监控规则之间并无联系,因此通过目前的数据质量分析框架需要多次配置、重复读取数据,从而导致异常数据被多次记录的问题。
发明内容
本申请实施例的目的是提供一种数据质量分析系统及方法,能够解决相关技术在进行数据质量分析时需要多次配置、重复读取数据,导致异常数据被多次记录的问题。
第一方面,本申请实施例提供了一种数据质量分析系统,包括:数据仓库、元数据管理模块、规则解析模块、数据采集模块、监控任务调动模块和数据质量分析模块,其中,所述数据仓库用于为所述元数据管理模块提供数据源元数据,还用于为所述数据采集模块提供数据源数据,所述元数据管理模块用于存储所述数据源元数据和规则元数据,其中,所述规则元数据为用户在前端编制的,所述规则元数据包括多条监控规则,每条监控规则被配置有对应的规则属性,各条监控规则之间通过所述规则属性建立起规则联系;所述规则解析模块用于根据所述规则元数据,生成所述监控任务调动模块中的规则引擎能够识别的规则语句,并保存所述规则语句至所述元数据管理模块中;所述数据采集模块用于根据所述元数据管理模块中存储的数据源元数据采集所述数据源数据;所述规则引擎用于根据所述规则语句注册监控任务,并对所述数据源数据执行所述监控任务,得到相应的异常统计信息,其中,所述监控任务按所述规则联系对所述数据源数据执行各监控规则;所述数据质量分析模块用于根据所述异常统计信息,对所述数据源数据进行质量分析。
第二方面,本申请实施例提供了一种数据质量分析方法,包括:根据规则元数据生成规则引擎能够识别的规则语句,其中,所述规则元数据包括多条监控规则,每条监控规则被配置有对应的规则属性,每条监控规则通过所述规则属性建立起规则联系;所述规则引擎根据所述规则语句注册监控任务,并对数据源数据执行所述监控任务,得到相应的异常统计信息,其中,所述监控任务按所述规则联系对所述数据源数据执行各监控规则;根据所述异常统计信息,对所述数据源数据进行质量分析。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第二方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第二方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第二方面所述的方法。
在本申请实施例中,元数据管理模块存储有数据源元数据和规则元数据,规则解析模块可以根据规则元数据,生成规则引擎能够识别的规则语句,然后监控任务调动模块根据规则语句注册监控任务,并对数据采集模块采集到的数据源数据执行监控任务,得到相应的异常统计信息,之后数据质量分析模块根据所述异常统计信息,对数据源数据进行质量分析。本申请通过规则解析模块可以自动解析被配置有规则属性的监控规则,生成规则引擎能够识别的规则语句,使规则引擎通过监控规则间的规则联系对数据源数据执行监控规则,从而避免数据的重复读取以及异常数据的重复记录,进而提高数据质量分析系统的执行性能,减少资源开销。
附图说明
图1是本申请实施例提供的数据质量分析系统的一种结构示意图;
图2是本申请实施例提供的数据质量分析系统的另一种结构示意图;
图3是本申请实施例提供的数据质量分析方法的一种流程示意图;
图4是本申请实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的数据质量分析系统及方法进行详细地说明。
图1是本申请实施例提供的数据质量分析系统的一种结构示意图,如图1所示,数据质量分析系统包括数据仓库600、元数据管理模块100、规则解析模块200、数据采集模块300、监控任务调动模块400和数据质量分析模块500。
具体的,数据仓库600可以分别与元数据管理模块100和数据采集模块300连接,元数据管理模块100分别与规则解析模块200、数据采集模块300和监控任务调动模块400连接,数据采集模块300与监控任务调动模块400连接,监控任务调动模块400与所述数据质量分析模块500连接。
其中,数据仓库600用于为元数据管理模块100提供数据源元数据,还用于为数据采集模块300提供数据源数据,元数据管理模块100用于存储数据源元数据和规则元数据,其中,规则元数据为用户在前端编制的,规则元数据包括多条监控规则,每条监控规则被配置有对应的规则属性,各条监控规则之间通过规则属性建立起规则联系;规则解析模块200用于根据规则元数据,生成监控任务调动模块400中的规则引擎410能够识别的规则语句,并保存所述规则语句至所述元数据管理模块中;数据采集模块300用于根据元数据管理模块中存储的数据源元数据采集数据源数据,并传输至监控任务调动模块400;规则引擎410用于根据规则语句注册监控任务,并对数据采集模块300采集的数据源数据执行监控任务,得到相应的异常统计信息,其中,监控任务按规则属性执行监控规则;数据质量分析模块500用于根据异常统计信息,对数据源数据进行质量分析。
具体的,元数据管理模块100存储有数据源元数据和规则元数据,数据源元数据指数据的结构信息,例如字段名、字段类型、数据采集率等,规则元数据为用户在前端编制的,规则元数据包括多条监控规则,每条监控规则被配置有对应的规则属性,每条监控规则通过规则属性建立起规则联系。数据采集模块300会根据元数据管理模块100中存储的数据源元数据采集数据仓库600中的数据源数据,并传输至监控任务调动模块400。规则解析模块200可以根据元数据管理模块100中存储的规则元数据,对规则元数据中的监控规则进行解析,生成规则引擎410能够识别的规则语句,并存储在元数据管理模块100中的同一文件中,之后规则引擎410根规则语句注册监控任务,并对数据源数据执行监控任务,得到相应的异常统计信息,之后数据质量分析模块500根据所述异常统计信息,对数据源数据进行质量分析。
本申请通过规则解析模块可以自动解析被配置有规则属性的监控规则,生成规则引擎能够识别的规则语句,使规则引擎通过监控规则间的规则联系对数据源数据执行监控规则,从而避免数据的重复读取以及异常数据的重复记录,进而提高数据质量分析系统的执行性能,减少了资源开销。
在一种可能的实现方式中,本申请所指的规则属性可以包括分组信息、优先级和流转方式。具体的,分组信息规则属性可以包括agenda-group规则属性和activation-group规则属性等,其中对于同一组内的监控规则,即可以同时激活或关闭的监控规则,可以指定相同的agenda-group规则属性。对于互斥的规则,即各监控规则之间存在交集,可以指定相同的activation-group规则属性。在对数据源数据执行agenda-group规则属性对应的各监控规则时,各监控规则之间没有交集,因此可以同时执行各监控规则。在对数据源数据执行activation-group规则属性对应的各监控规则时,各监控规则之间存在交集,则可以按照各监控规则对应的优先级属性对数据源数据执行各监控规则。
对于优先级属性,具体的,可以包括salience规则属性,salience规则属性决定监控规则匹配的优先级,salience级别越高,执行顺序越靠前。流转方式规则属性可以包括update(更新)、insert(插入)和retract(移除),例如,根据update规则属性可以更新工作内存中的数据,根据insert规则属性可以在工作内存中插入新的数据,根据retract规则属性可以将数据从工作内存中移除,优先级低的规则将不再匹配。
通过对各监控规则配置上述规则属性,可以建立起各监控规则之间的规则联系,从而可以避免数据的重复读取,异常数据被多次记录的问题,进而可以降低资源的消耗。
在一种可能的实现方式中,如图2所示,所述元数据管理模块100包括数据源元数据库110和规则元数据库120,所述数据源元数据库110用于存储所述数据源元数据,所述规则元数据库120用于存储所述规则元数据。
在进一步的实现方式中,所述监控任务调动模块400还可以包括工作内存420和规则库430。具体的,所述数据源元数据库110可以与所述数据采集模块300连接,所述数据采集模块300与所述工作内存420连接,所述规则元数据库120和所述规则库430连接,所述工作内存420和所述规则库430分别与所述规则引擎410连接,其中,所述规则库430用于调用所述规则元数据库120中存储的所述规则语句;所述工作内存420用于存储所述数据采集模块300采集的所述数据源数据。
在具体应用中,由用户在前端编制规则元数据,并指定规则元数据中的各监控规则的规则属性,然后将规则元数据添加至规则元数据库120中,规则解析模块200根据规则元数据,生成规则引擎410能够识别的规则语句,并请求元数据管理模块100进行落库,即存储至规则元数据库120中。元数据管理模块100保存规则语句成功后,规则库430调用规则元数据库120中存储的规则语句,规则引擎410会先读取规则库430中的规则语句,如果监控规则发生变化,则根据新的规则语句生成新的监控规则,从而实现动态规则的功能。之后,规则引擎410根据规则语句注册监控任务,并对数据采集模块300采集的数据源数据执行监控任务,具体的,数据采集模块300采集的数据源数据插入工作内存420中,规则引擎410触发数据源数据进行规则匹配,在规则匹配的情况下,对数据源数据执行监控任务,得到相应的异常统计信息,并将异常统计信息传输至数据质量分析模块500,数据质量分析模块500根据异常统计信息,对数据源数据进行质量分析,具体的,数据质量分析模块500在上游的监控任务完成后,评分任务根据异常统计信息,按照指定算法计算数据质量得分,异常统计信息可以包括异常明细,即哪些数据源数据存在异常,还可以包括异常统计数据,即存在多少异常的数据源数据。
可选的,数据质量分析模块500可以包括可视化模块510和导出模块520,在对数据源数据进行质量分析得到相应的结果后,通过可视化模块510可以在前端展示质量得分曲线、异常率曲线、异常明细等。用户可以通过导出模块520导出需要的数据。进一步的,数据质量分析模块500还可以包括监控与报警模块530,监控与报警模块530可以为关键的数据字段配置监控与报警任务,监控与报警任务会根据粒度的不同,集成到监控任务或评分任务中,从而得到关键的数据字段数据质量情况,进一步为用户提供便利。
可选的,本申请中的规则引擎410可以采用为Drools规则引擎,因此,对应的规则语句为Drools规则引擎可以识别的DRL格式规则语句。需要说明的是,除Drools规则引擎,本申请还可以采用其他的规则引擎,在此不作具体的限定。
图3是本申请实施例提供的数据质量分析方法的一种流程示意图,如图3所示,该数据质量分析方法包括以下步骤。
S310,根据规则元数据生成规则引擎能够识别的规则语句。
其中,所述规则元数据包括多条监控规则,每条监控规则被配置有对应的规则属性,每条监控规则通过所述规则属性建立起规则联系。
在具体应用中,步骤S310可以由上述图1和图2所示的规则解析模块200执行,具体实现方式可以参见上述数据质量分析系统实施例中的描述,在此不再赘述。
S320,所述规则引擎根据所述规则语句注册监控任务,并对数据源数据执行所述监控任务,得到相应的异常统计信息。
其中,所述监控任务按所述规则联系对所述数据源数据执行各监控规则。
在具体应用中,步骤S320可以由上述图1和图2所示的监控任务调动模块400执行,具体实现方式可以参见上述数据质量分析系统实施例中的描述,在此不再赘述。
S330,根据所述异常统计信息,对所述数据源数据进行质量分析。
在具体应用中,步骤S330可以由上述图1和图2所示的数据质量分析模块500执行,具体实现方式可以参见上述数据质量分析系统实施例中的描述,在此不再赘述。
本申请实施例提供的上述数据质量分析方法,可以通过规则解析模块200对规则元数据进行解析,生成规则引擎410能够识别的规则语句,然后监控任务调动模块400可以根据规则语句注册监控任务,即按规则属性间建立起的规则联系对数据源数据执行监控规则,之后,数据质量分析模块500根据异常统计信息,对数据源数据进行质量分析,得到数据源数据的质量情况。由于监控规则之间建立有规则联系,因此,在执行监控任务时,可以避免数据的重复读取,从而避免异常数据的重复记录,进而提高数据质量分析系统的执行性能,减少资源开销。
在一种可能的实现方式中,所述规则属性包括分组信息、优先级和流转方式。具体的,可以参见上述数据质量分析系统实施例中对规则属性的描述,在此不再赘述。
在一种可能实现的方式中,在所述根据规则元数据生成规则引擎410能够识别的规则语句之前,所述方法还可以包括:获取用户在前端编制的规则元数据,并存储至规则元数据库中。具体的,用户在编制规则元数据时,可以在前端配置规则元数据的规则属性,例如rule_group、mutual_exclusion、salience、is_retract、need_gather_execption_datail、need_statistics等规则属性。
在一种可能实现的方式中,所述根据所述规则语句注册监控任务,并对数据源数据执行所述监控任务可以包括:根据所述规则语句,生成所述监控任务;根据所述规则语句中的监控规则的规则属性,对所述数据源数据进行规则匹配;在规则匹配成功的情况下,对所述数据源数据执行所述监控任务。
在该可能的实现方式中,会触发数据源数据进行规则匹配,由于监控任务是按规则属性间建立起的规则联系对数据源数据执行各监控规则的,因此,会根据规则属性中的分组信息、优先级和流转方式对数据源数据执行监控任务,从而避免异常数据的重复记录。
在一种可能实现的方式中,所述根据所述异常统计信息,对所述数据源数据进行质量分析,可以包括:根据所述异常统计信息,按照预设算法计算所述数据源数据质量得分。具体的,数据质量分析模块500调度质量评分任务,依赖于上游的监控任务,在上游的监控任务完成后,评分任务根据异常的统计信息,按照指定算法计算数据质量得分。
在一种可能实现的方式中,在所述根据所述异常统计信息,对所述数据源数据进行质量分析之后,所述方法还可以包括:在前端展示所述数据源数据的质量得分曲线、异常率曲线和异常明细;在关键字段出现异常的情况下,在前端显示提示信息。具体的,数据质量分析模块500会为前端提供数据质量可视化展示的数据接口,在前端展示数据源数据的质量得分曲线、异常率曲线和异常明细,以供用户参阅。另外,可以为关键的字段配置报警,并在前端显示提示信息,可选的,还可以根据关键字段粒度的不同,集成到监控任务或评分任务中,以进一步为用户提供关键字段的质量情况。
可选的,本申请实施例还提供一种电子设备,如图4所示,该电子设备可以包括处理器401,存储器402,存储在存储器402上并可在所述处理器401上运行的程序或指令,该程序或指令被处理器401执行时实现上述数据质量分析方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述数据质量分析方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述数据质量分析方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限,按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种数据质量分析系统,其特征在于,包括:数据仓库、元数据管理模块、规则解析模块、数据采集模块、监控任务调动模块和数据质量分析模块,
其中,所述数据仓库用于为所述元数据管理模块提供数据源元数据,还用于为所述数据采集模块提供数据源数据;
所述元数据管理模块用于存储所述数据源元数据和规则元数据,其中,所述规则元数据为用户在前端编制的,所述规则元数据包括多条监控规则,每条监控规则被配置有对应的规则属性,各条监控规则之间通过所述规则属性建立起规则联系;
所述规则解析模块用于根据所述规则元数据,生成所述监控任务调动模块中的规则引擎能够识别的规则语句,并保存所述规则语句至所述元数据管理模块中;
所述数据采集模块用于根据所述元数据管理模块中存储的数据源元数据从数据仓库中采集所述数据源数据;
所述规则引擎用于根据所述规则语句注册监控任务,并对所述数据源数据执行所述监控任务,得到相应的异常统计信息,其中,所述监控任务按所述规则联系对所述数据源数据执行各监控规则;
所述数据质量分析模块用于根据所述异常统计信息,对所述数据源数据进行质量分析。
2.根据权利要求1所述的系统,其特征在于,所述规则属性包括分组信息、优先级和流转方式。
3.根据权利要求1所述的系统,其特征在于,所述元数据管理模块包括数据源元数据库和规则元数据库,所述数据源元数据库用于存储所述数据源元数据,所述规则元数据库用于存储所述规则元数据。
4.根据权利要求3所述的系统,其特征在于,所述监控任务调动模块包括工作内存和规则库,其中,
所述规则库用于调用所述元数据管理模块中存储的所述规则语句;
所述工作内存用于存储所述数据采集模块采集的所述数据源数据。
5.一种数据质量分析方法,其特征在于,包括:
根据规则元数据生成规则引擎能够识别的规则语句,其中,所述规则元数据包括多条监控规则,每条监控规则被配置有对应的规则属性,各条监控规则之间通过所述规则属性建立起规则联系;
所述规则引擎根据所述规则语句注册监控任务,并对数据源数据执行所述监控任务,得到相应的异常统计信息,其中,所述监控任务按所述规则联系对所述数据源数据执行各监控规则;
根据所述异常统计信息,对所述数据源数据进行质量分析。
6.根据权利要求5所述的方法,其特征在于,所述规则属性包括分组信息、优先级和流转方式。
7.根据权利要求5所述的方法,其特征在于,在所述根据规则元数据生成规则引擎能够识别的规则语句之前,所述方法还包括:
获取用户在前端编制的规则元数据,并存储至规则元数据库中。
8.根据权利要求5所述的方法,其特征在于,所述根据所述规则语句注册监控任务,并对数据源数据执行所述监控任务,包括:
根据所述规则语句,生成所述监控任务;
根据所述规则语句中的各条监控规则的规则属性,对所述数据源数据进行规则匹配;
在规则匹配成功的情况下,对所述数据源数据执行所述监控任务。
9.根据权利要求5所述的方法,其特征在于,所述根据所述异常统计信息,对所述数据源数据进行质量分析,包括:
根据所述异常统计信息,按照预设算法计算所述数据源数据的质量得分。
10.根据权利要求5所述的方法,其特征在于,在所述根据所述异常统计信息,对所述数据源数据进行质量分析之后,所述方法还包括:
在前端展示所述数据源数据的质量得分曲线、异常率曲线和异常明细;
在关键字段出现异常的情况下,在前端显示提示信息。
CN202111509003.4A 2021-12-10 2021-12-10 数据质量分析系统及方法 Pending CN114385437A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111509003.4A CN114385437A (zh) 2021-12-10 2021-12-10 数据质量分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111509003.4A CN114385437A (zh) 2021-12-10 2021-12-10 数据质量分析系统及方法

Publications (1)

Publication Number Publication Date
CN114385437A true CN114385437A (zh) 2022-04-22

Family

ID=81196371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111509003.4A Pending CN114385437A (zh) 2021-12-10 2021-12-10 数据质量分析系统及方法

Country Status (1)

Country Link
CN (1) CN114385437A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292297A (zh) * 2022-06-29 2022-11-04 江苏昆山农村商业银行股份有限公司 一种构建数据仓库数据质量监测规则的方法和系统
CN117251499A (zh) * 2023-11-15 2023-12-19 山东光合云谷大数据有限公司 一种数据采集系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292297A (zh) * 2022-06-29 2022-11-04 江苏昆山农村商业银行股份有限公司 一种构建数据仓库数据质量监测规则的方法和系统
CN115292297B (zh) * 2022-06-29 2024-02-02 江苏昆山农村商业银行股份有限公司 一种构建数据仓库数据质量监测规则的方法和系统
CN117251499A (zh) * 2023-11-15 2023-12-19 山东光合云谷大数据有限公司 一种数据采集系统
CN117251499B (zh) * 2023-11-15 2024-02-06 山东光合云谷大数据有限公司 一种数据采集系统

Similar Documents

Publication Publication Date Title
US20230244673A1 (en) Dynamic query processor for streaming and batch queries
CN104778241B (zh) 一种报表生成方法及系统
US8464221B2 (en) Visualization tool for system tracing infrastructure events
US10853399B2 (en) User interface search tool for locating and summarizing data
CN114385437A (zh) 数据质量分析系统及方法
CN111294217B (zh) 告警分析方法、装置、系统及存储介质
US20180314745A1 (en) Dynamically-generated files for visualization sharing
CN111651751B (zh) 安全事件的分析报告生成方法、装置、存储介质及设备
US8151250B2 (en) Program trace method using a relational database
CN106293891B (zh) 多维投资指标监督方法
US11106713B2 (en) Sampling data using inverted indexes in response to grouping selection
CN111694718A (zh) 内网用户异常行为识别方法、装置、计算机设备及可读存储介质
CN108628918B (zh) 系统部署与依赖关系自动绘制系统及方法
CN111460011A (zh) 页面数据展示方法、装置、服务器及存储介质
CN111553652A (zh) 业务处理方法及装置
CN110968592A (zh) 元数据采集方法、装置、计算机设备及计算机可读存储介质
CN112671878B (zh) 一种区块链的信息订阅方法、装置、服务器和存储介质
CN109284331A (zh) 基于业务数据资源的制证信息获取方法、终端设备及介质
CN110704472A (zh) 数据查询统计方法及装置
CN113947468A (zh) 一种数据管理方法及平台
CN109033330A (zh) 大数据清洗方法、装置和服务器
CN110443058A (zh) 一种xml文档脱敏的方法及装置
CN110334001A (zh) 一种批量自动生成回声测试的方法和装置
CN110941608B (zh) 一种埋点分析和漏斗分析报表生成方法、装置及设备
CN113778996A (zh) 一种大数据流数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination