CN113157745A - 一种数据质量检测方法及系统 - Google Patents

一种数据质量检测方法及系统 Download PDF

Info

Publication number
CN113157745A
CN113157745A CN202110465489.XA CN202110465489A CN113157745A CN 113157745 A CN113157745 A CN 113157745A CN 202110465489 A CN202110465489 A CN 202110465489A CN 113157745 A CN113157745 A CN 113157745A
Authority
CN
China
Prior art keywords
data
data quality
detection
quality detection
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110465489.XA
Other languages
English (en)
Inventor
蒋少剑
王杰华
蒋昆
林宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University Huigu General Technology Co ltd
Original Assignee
Shanghai Jiaotong University Huigu General Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University Huigu General Technology Co ltd filed Critical Shanghai Jiaotong University Huigu General Technology Co ltd
Priority to CN202110465489.XA priority Critical patent/CN113157745A/zh
Publication of CN113157745A publication Critical patent/CN113157745A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据质量检测方法及系统,该方法包括:从数据记录集中读取需要检测的数据并保存数据主键;读取预设的数据质量规则集并调用解析方法解析数据质量规则集,利用解析后的数据质量规则集对目标数据集中的数据进行逐个或批量的数据质量检测;将数据质量检测结果进行保存并汇总为质量检测报告;计算出特定的数据质量指标值,获得目标数据质量的可度量结果。本发明利用特定的业务数据质量规则和针对业务数据库设计的检测方法,实现了对源系统数据的高效的数据质量检测,支持可配置的规则设置并提供数据质量结果汇总功能,对数据质量结果进行指标计算,从而量化数据质量情况。

Description

一种数据质量检测方法及系统
技术领域
本发明涉及数据治理技术领域,特别涉及一种针对生产系统(源系统)进行高效检测的数据质量检测方法及系统。
背景技术
基于云计算和大数据技术,保障各级法院对案件管理系统产生数据的检测;并实现稳定高效的检测过程和结果报告,是法院提高案件数据质量的关键技术。
但是目前由于检测规则的丰富性而不易配置以及需要在对源系统的影响小的基础上实现高效的质量检测,使得法院案件数据质量检测的实现较为困难。
发明内容
本发明提供了一种数据质量检测方法及系统,以克服由于检测规则的丰富性而不易配置的问题,在对源系统的影响小的基础上实现高效的质量检测。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种数据质量检测方法,包括:
从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在所述数据记录集中的主键,得到待检测的目标数据集;
读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,利用解析后的数据质量规则集对所述目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到所述目标数据集中各数据的质量检测结果;
将得到的数据质量检测结果进行保存,并汇总为质量检测报告;
基于得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得所述目标数据质量的可度量结果。
进一步地,所述从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在所述数据记录集中的主键,得到待检测的目标数据集,包括:
通过系统业务检测范围配置表中配置的数据开始时间和数据结束时间,从待检测的数据记录集中查询匹配的数据,读取需要检测的数据;
将读取的每一数据的主键存储到被检测案件信息表中;其中,所述被检测案件信息表中包括数据主键、数据检测状态和数据被检测时间,用于数据的断点续查和数据状态记录,检测任务以所述被检测案件信息表为范围进行检测。
进一步地,所述目标数据集根据业务属性对主键集进行提取、保存和断点续检。
进一步地,所述目标数据集根据业务属性对主键集进行提取、保存和断点续检,包括:
把待检测的数据的主键集保存在数据库中,形成待检测的目标数据的属性信息,实现数据质量检测任务在中止、中断的情形下的再次启动,并实现无缝衔接,同时保证数据质量检测任务的各项数据信息的前后一致性。
进一步地,所述数据质量规则集的属性针对业务进行设置,支持SQL和程序方法两种方式实现检测规则。
进一步地,所述读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,包括:
读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,将获取的质量规则组内容预先拉入缓存库Redis中。
进一步地,所述利用解析后的数据质量规则集对所述目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到所述目标数据集中各数据的质量检测结果,包括:
对待检测的数据进行分组,每组包含预设数量的待检测数据;
按照分组,把批量的数据主键引用到数据质量规则中进行批量检测;
对数据质量规则集的每项执行中错误的数据信息进行存储,并记录已经检测过的数据所对应的检测状态和检测完成的时间。
进一步地,所述将得到的数据质量检测结果进行保存,并汇总为质量检测报告,包括:
当数据质量规则集的逐项检测完毕后,结束检测并记录数据有哪些检测项没有通过,对检测结果进行汇总计算,生成相关质量检测报告。
进一步地,所述基于得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得所述目标数据质量的可度量结果,包括:
把质量检测结果汇总为一个综合性指标,实现对数据质量的直观度量,并便于针对指标设置监测/警告值;其中,所述综合性指标包括数据的正确率。
另一方面,本发明还提供了一种数据质量检测系统,包括:
目标数据集获取模块,用于从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在数据记录集中的主键,得到待检测的目标数据集;
数据质量检测模块,用于读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,利用解析后的数据质量规则集对所述目标数据集获取模块获取的目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到所述目标数据集中各数据的质量检测结果;
质量检测报告生成模块,用于将所述数据质量检测模块得到的数据质量检测结果进行保存,并汇总为质量检测报告;
数据质量指标值统计模块,用于基于所述数据质量检测模块得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得所述目标数据质量的可度量结果。
本发明提供的技术方案带来的有益效果至少包括:
本发明通过从数据记录集中读取需要检测的数据并保存数据主键;读取预设的数据质量规则集并调用解析方法解析数据质量规则集,利用解析后的数据质量规则集对目标数据集中的数据进行逐个或批量的数据质量检测;将数据质量检测结果进行保存并汇总为质量检测报告;计算出特定的数据质量指标值,获得目标数据质量的可度量结果。从而利用特定的业务数据质量规则和针对业务数据库设计的检测方法,实现了对源系统数据的高效的数据质量检测,支持可配置的规则设置并提供数据质量结果汇总功能,对数据质量结果进行指标计算,从而量化数据质量情况。实现了源系统所产生数据的高效准确的质量检测。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的数据质量检测方法的流程示意图;
图2是本发明实施例提供的数据质量检测方法的实现原理图;
图3是本发明实施例提供的批量检测的流程图;
图4是本发明实施例提供的可配置的检测规则设置实现图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种数据质量检测方法,针对生产系统(源系统)实现高效的数据质量检测,对此,本实施例以对法院案件管理系统产生的数据进行质量检测为例来说明本实施例的数据质量检测方法的实现原理及过程;当然,可以理解的是,本实施例的数据质量检测方法不仅适用于对法院案件管理系统产生的数据进行质量检测,还适用于对其他生产系统(源系统)中的数据进行质量检测,对于其具体的应用领域,本实施例对此不作具体限定。
本实施例的数据质量检测方法可以由电子设备实现,该电子设备可以是终端或者服务器。该方法的执行流程如图1所示,包括以下步骤:
S101,从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在数据记录集中的主键,得到待检测的目标数据集;
S102,读取预设的数据质量规则集,并调用相应的解析方法解析数据质量规则集,利用解析后的数据质量规则集对目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到目标数据集中各数据的质量检测结果;
S103,将得到的数据质量检测结果进行保存,并汇总为质量检测报告;
S104,基于得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得目标数据质量的可度量结果。
具体地,如图2至图4所示,上述S101的实现过程如下:
在质检流程开始的时候,如图2中节点“保存需要检测的数据主键”所示,系统会通过“系统业务检测范围配置表”获取需要检测的数据范围,这个范围是通过配置表中配置的开始和结束时间去业务库中查询匹配的案件集。其中,业务检测范围配置表包含的字段名称、字段类型和字段含义等如表1所示。
表1业务检测范围配置表
字段名称 字段类型 字段含义 是否主键
id int(11) 记录id 主键
start_year int(4) 开始年份
start_month int(2) 开始月份
end_year int(4) 结束年份
end_month int(2) 结束月份
sys_code int(4) 系统id
所读取的范围内的案件主键会存储到“被检测案件信息表”中,被检测案件信息表由主键、状态和被检测时间构成,用于断点续查和状态记录,检测任务会以这张表为范围进行检测;其中,被检测案件信息表包含的字段名称、字段类型和字段含义等如表2所示。
表2被检测案件信息表
Figure BDA0003043686840000051
所述目标数据集根据业务属性对主键集进行提取、保存和断点续检,包括:把待检测的数据的主键集保存在数据库中,形成待检测的目标数据的属性信息,实现数据质量检测任务在中止、中断的情形下的再次启动,并实现无缝衔接,同时保证数据质量检测任务的各项数据信息的前后一致性。
进一步地,上述S102中读取预设的数据质量规则集的实现过程如下:
规则集合如图4“检测规则设置实现图”所示,数据质量检测的规则通过数据信息配置表、检测规则类型表、检测规则配置表获取检测时使用到的规则集合、规则检测目标数据源、类型等信息。系统采用非侵入式进行数据检测并支持不同规则不同数据源的方式对多数据源分库数据进行支持。
在本环节系统会获取到被检测目标已配置的所有规则信息存入到Redis缓存中供案件检测时调用,这种缓存方式可提高规则读取效率。
所述数据质量规则集的属性针对业务进行设置,支持SQL和程序方法两种方式实现检测规则,即通过配置主键、表及SQL条件或在条件复杂时直接调用由程序方法实现的检测。其中,数据信息配置表如表3所示,检测规则类型表如表4所示,检测规则配置表如表5所示。
表3数据信息配置表
字段名称 字段类型 字段含义 是否主键
id int(11) 数据库id 主键
dataSourceName varchar(200) 数据库名称
driverClassName varchar(200) 驱动类名
url varchar(1000) 数据库地址
userName varchar(200) 数据库用户名
password varchar(255) 数据库密码
query_sql varchar(500) 查询sql
count_sql varchar(500) 统计总量sql
column_name varchar(500) 字段对应
表4检测规则类型表
字段名称 字段类型 字段含义 是否主键
type_id int(11) 规则类型id 主键
type_name varchar(255) 类型名称
sys_code int(4) 系统id
表5检测规则配置表
Figure BDA0003043686840000061
Figure BDA0003043686840000071
进一步地,上述S102中利用解析后的数据质量规则集对目标数据集中的需要检测的数据进行逐个或批量的数据质量检测的实现过程如下:
采用如图3所示的批量检测流程对案件进行批量循环检查,这一方法在实际应用中因使用的主键批量交互的方式,从而性能也有保障,大量减少了与数据源系统数据库交互次数,减少了对业务库影响。具体地,该检测流程如下:
在案件批量检测时分为两层循环进行控制,外层循环是待处理的案件批次、内层循环是需要检测的规则集合。系统以1000条案件信息划分为一个批次,再以这个批次的主键结合检测SQL在业务库中进行批量的检测结果获取,检测规则会返回不符合要求案件主键信息,系统对规则集合的每项执行中错误的案件信息进行存储,全部保留到“质检错误日志记录表”中,已经检测过的案件会在“被检测案件信息表”记录状态和检测完成的时间。
进一步地,上述S104的实现过程如下:
通过日志记录表记录案件有哪些检测项没有通过,报告生成时会使用这些信息进行汇总统计,错误案件的详细信息列表也会利用到本表,其如表6所示。
表6质检错误日志记录表
字段名称 字段类型 字段含义 是否主键
id int(21) 记录id 主键
ajbs varchar(255) 案件标识
fydm varchar(255) 法院代码
rule_id int(11) 规则id
task_id int(11) 任务id
data_source_id int(4) 系统id
报告生成如图2中的“对检测结果进度报告汇总”、“存储报告信息”节点所示,当案件检测完毕后,系统会依据检测结果来生成质量检测报告,质量检测报告的目的是生成可度量的质量信息供用户参考,本实施例的质量检测报告主要由:数据正确率、检测总数、正确数、错误数、被检测系统、数据发布日期等项目构成,在报表的展示过程中,系统还提供了近12次检测结果趋势图和详细的检测错误项列表,用户可以通过点击数字查看详细的问题案件,报告的信息会存储到如表7所示的“质检报表信息记录表”中供展示功能使用。
表7质检报表信息记录表
Figure BDA0003043686840000081
Figure BDA0003043686840000091
综上,本实施例的数据质量检测方法利用云计算和大数据技术,针对源系统的数据质量进行探测,通过目标范围的存储和批量处理等手段,降低了对源系统的影响,并实现了稳定高效的检测过程和结果报告,可实现对各级法院对案件管理系统产生数据的质量检测,是法院提高案件数据质量的关键技术。
第二实施例
本实施例提供了一种数据质量检测系统,该系统包括以下模块:
目标数据集获取模块,用于从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在数据记录集中的主键,得到待检测的目标数据集;
数据质量检测模块,用于读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,利用解析后的数据质量规则集对所述目标数据集获取模块获取的目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到所述目标数据集中各数据的质量检测结果;
质量检测报告生成模块,用于将所述数据质量检测模块得到的数据质量检测结果进行保存,并汇总为质量检测报告;
数据质量指标值统计模块,用于基于所述数据质量检测模块得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得所述目标数据质量的可度量结果。
本实施例的数据质量检测系统与上述第一实施例的数据质量检测方法相对应;其中,本实施例的数据质量检测系统中的各功能模块所实现的功能与上述第一实施例的数据质量检测方法中的各流程步骤一一对应;故,在此不再赘述。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (10)

1.一种数据质量检测方法,其特征在于,包括:
从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在所述数据记录集中的主键,得到待检测的目标数据集;
读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,利用解析后的数据质量规则集对所述目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到所述目标数据集中各数据的质量检测结果;
将得到的数据质量检测结果进行保存,并汇总为质量检测报告;
基于得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得所述目标数据质量的可度量结果。
2.如权利要求1所述的数据质量检测方法,其特征在于,所述从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在所述数据记录集中的主键,得到待检测的目标数据集,包括:
通过系统业务检测范围配置表中配置的数据开始时间和数据结束时间,从待检测的数据记录集中查询匹配的数据,读取需要检测的数据;
将读取的每一数据的主键存储到被检测案件信息表中;其中,所述被检测案件信息表中包括数据主键、数据检测状态和数据被检测时间,用于数据的断点续查和数据状态记录,检测任务以所述被检测案件信息表为范围进行检测。
3.如权利要求2所述的数据质量检测方法,其特征在于,所述目标数据集根据业务属性对主键集进行提取、保存和断点续检。
4.如权利要求3所述的数据质量检测方法,其特征在于,所述目标数据集根据业务属性对主键集进行提取、保存和断点续检,包括:
把待检测的数据的主键集保存在数据库中,形成待检测的目标数据的属性信息,实现数据质量检测任务在中止、中断的情形下的再次启动,并实现无缝衔接,同时保证数据质量检测任务的各项数据信息的前后一致性。
5.如权利要求1所述的数据质量检测方法,其特征在于,所述数据质量规则集的属性针对业务进行设置,支持SQL和程序方法两种方式实现检测规则。
6.如权利要求5所述的数据质量检测方法,其特征在于,所述读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,包括:
读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,将获取的质量规则组内容预先拉入缓存库Redis中。
7.如权利要求1所述的数据质量检测方法,其特征在于,所述利用解析后的数据质量规则集对所述目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到所述目标数据集中各数据的质量检测结果,包括:
对待检测的数据进行分组,每组包含预设数量的待检测数据;
按照分组,把批量的数据主键引用到数据质量规则中进行批量检测;
对数据质量规则集的每项执行中错误的数据信息进行存储,并记录已经检测过的数据所对应的检测状态和检测完成的时间。
8.如权利要求1所述的数据质量检测方法,其特征在于,所述将得到的数据质量检测结果进行保存,并汇总为质量检测报告,包括:
当数据质量规则集的逐项检测完毕后,结束检测并记录数据有哪些检测项没有通过,对检测结果进行汇总计算,生成相关质量检测报告。
9.如权利要求1所述的数据质量检测方法,其特征在于,所述基于得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得所述目标数据质量的可度量结果,包括:
把质量检测结果汇总为一个综合性指标,实现对数据质量的直观度量,并便于针对指标设置监测/警告值;其中,所述综合性指标包括数据的正确率。
10.一种数据质量检测系统,其特征在于,包括:
目标数据集获取模块,用于从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在数据记录集中的主键,得到待检测的目标数据集;
数据质量检测模块,用于读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,利用解析后的数据质量规则集对所述目标数据集获取模块获取的目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到所述目标数据集中各数据的质量检测结果;
质量检测报告生成模块,用于将所述数据质量检测模块得到的数据质量检测结果进行保存,并汇总为质量检测报告;
数据质量指标值统计模块,用于基于所述数据质量检测模块得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得所述目标数据质量的可度量结果。
CN202110465489.XA 2021-04-28 2021-04-28 一种数据质量检测方法及系统 Pending CN113157745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110465489.XA CN113157745A (zh) 2021-04-28 2021-04-28 一种数据质量检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110465489.XA CN113157745A (zh) 2021-04-28 2021-04-28 一种数据质量检测方法及系统

Publications (1)

Publication Number Publication Date
CN113157745A true CN113157745A (zh) 2021-07-23

Family

ID=76871779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110465489.XA Pending CN113157745A (zh) 2021-04-28 2021-04-28 一种数据质量检测方法及系统

Country Status (1)

Country Link
CN (1) CN113157745A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400288A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 数据质量检查方法及系统
CN112115121A (zh) * 2020-11-20 2020-12-22 陕西云基华海信息技术有限公司 一种数据治理实时数据质量检测系统
CN112527783A (zh) * 2020-11-27 2021-03-19 中科曙光南京研究院有限公司 一种基于Hadoop的数据质量探查系统
CN112685401A (zh) * 2021-01-22 2021-04-20 浪潮云信息技术股份公司 一种数据质量检测系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400288A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 数据质量检查方法及系统
CN112115121A (zh) * 2020-11-20 2020-12-22 陕西云基华海信息技术有限公司 一种数据治理实时数据质量检测系统
CN112527783A (zh) * 2020-11-27 2021-03-19 中科曙光南京研究院有限公司 一种基于Hadoop的数据质量探查系统
CN112685401A (zh) * 2021-01-22 2021-04-20 浪潮云信息技术股份公司 一种数据质量检测系统及方法

Similar Documents

Publication Publication Date Title
CN107665171B (zh) 自动回归测试方法及装置
US7958114B2 (en) Detecting estimation errors in dictinct page counts
US8019795B2 (en) Data warehouse test automation framework
US8161070B2 (en) Efficient delta handling in star and snowflake schemes
CN101515289B (zh) 一种对通用数据文件进行检查的装置及方法
US6708185B2 (en) SQL execution analysis
CN109934268B (zh) 异常交易检测方法及系统
CN110716539B (zh) 一种故障诊断分析方法和装置
CN106844320B (zh) 一种财务报表整合方法和设备
US10339035B2 (en) Test DB data generation apparatus
CN108897765A (zh) 一种数据批量导入方法及其系统
CN113220726A (zh) 一种数据质量检测方法及系统
CN113138990B (zh) 一种数据血缘构建、追溯方法、装置及设备
CN111813652B (zh) 一种数据缺失相关的数据异常值校验的自动化测试方法
CN113157745A (zh) 一种数据质量检测方法及系统
CN107273293B (zh) 大数据系统性能测试方法、装置及电子设备
US20200204434A1 (en) Automated remediation of information technology events
CN201374063Y (zh) 一种对通用数据文件进行检查的装置
CN112102028B (zh) 业务数据统一配置和校验方法及系统
US11080275B2 (en) Join pattern agnostic aggregate computation in database query operations
CN111475505A (zh) 一种数据采集的方法及设备
CN111949728A (zh) 一种动态数据差异比对方法与系统
CN112711659B (zh) 基于海量图数据的模型计算方法及装置
CN114116729B (zh) 一种测试数据的处理方法和设备
CN117349721A (zh) 数据质量的核查方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination