CN113220726A - 一种数据质量检测方法及系统 - Google Patents

一种数据质量检测方法及系统 Download PDF

Info

Publication number
CN113220726A
CN113220726A CN202110496864.7A CN202110496864A CN113220726A CN 113220726 A CN113220726 A CN 113220726A CN 202110496864 A CN202110496864 A CN 202110496864A CN 113220726 A CN113220726 A CN 113220726A
Authority
CN
China
Prior art keywords
data
data quality
detection
quality detection
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110496864.7A
Other languages
English (en)
Inventor
张迁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhenjiang Quick Wisdom Innovation Development Co ltd
Original Assignee
Zhenjiang Quick Wisdom Innovation Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhenjiang Quick Wisdom Innovation Development Co ltd filed Critical Zhenjiang Quick Wisdom Innovation Development Co ltd
Priority to CN202110496864.7A priority Critical patent/CN113220726A/zh
Publication of CN113220726A publication Critical patent/CN113220726A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据质量检测方法及系统,该方法包括:从数据记录集中读取需要检测的数据并保存数据主键;读取预设的数据质量规则集并调用解析方法解析数据质量规则集,利用解析后的数据质量规则集对目标数据集中的数据进行逐个或批量的数据质量检测;将数据质量检测结果进行保存并汇总为质量检测报告;计算出特定的数据质量指标值,获得目标数据质量的可度量结果。本发明利用特定的业务数据质量规则和针对业务数据库设计的检测方法,实现了对源系统数据的高效的数据质量检测,支持可配置的规则设置并提供数据质量结果汇总功能,对数据质量结果进行指标计算,从而量化数据质量情况。

Description

一种数据质量检测方法及系统
技术领域
本发明涉及数据治理技术领域,特别涉及一种针对生产系统(源系统)进行高效检测的数据质量检测方法及系统。
背景技术
基于云计算和大数据技术,保障各级法院对案件管理系统产生数据的检测;并实现稳定高效的检测过程和结果报告,是法院提高案件数据质量的关键技术。
但是目前由于检测规则的丰富性而不易配置以及需要在对源系统的影响小的基础上实现高效的质量检测,使得法院案件数据质量检测的实现较为困难。
发明内容
本发明提供了一种数据质量检测方法及系统,以克服由于检测规则的丰富性而不易配置的问题,在对源系统的影响小的基础上实现高效的质量检测。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种数据质量检测方法,包括:
从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在所述数据记录集中的主键,得到待检测的目标数据集;
读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,利用解析后的数据质量规则集对所述目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到所述目标数据集中各数据的质量检测结果;
将得到的数据质量检测结果进行保存,并汇总为质量检测报告;
基于得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得所述目标数据质量的可度量结果。
进一步地,所述从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在所述数据记录集中的主键,得到待检测的目标数据集,包括:
通过系统业务检测范围配置表中配置的数据开始时间和数据结束时间,从待检测的数据记录集中查询匹配的数据,读取需要检测的数据;
将读取的每一数据的主键存储到被检测案件信息表中;其中,所述被检测案件信息表中包括数据主键、数据检测状态和数据被检测时间,用于数据的断点续查和数据状态记录,检测任务以所述被检测案件信息表为范围进行检测。
进一步地,目标数据集根据业务属性对主键集进行提取、保存和断点续检。
进一步地,所述目标数据集根据业务属性对主键集进行提取、保存和断点续检,包括:
把待检测的数据的主键集保存在数据库中,形成待检测的目标数据的属性信息,实现数据质量检测任务在中止、中断的情形下的再次启动,并实现无缝衔接,同时保证数据质量检测任务的各项数据信息的前后一致性。
进一步地,所述数据质量规则集的属性针对业务进行设置,支持SQL和程序方法两种方式实现检测规则。
进一步地,所述读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,包括:
读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,将获取的质量规则组内容预先拉入缓存库Redis中。
进一步地,所述利用解析后的数据质量规则集对所述目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到所述目标数据集中各数据的质量检测结果,包括:
对待检测的数据进行分组,每组包含预设数量的待检测数据;
按照分组,把批量的数据主键引用到数据质量规则中进行批量检测;
对数据质量规则集的每项执行中错误的数据信息进行存储,并记录已经检测过的数据所对应的检测状态和检测完成的时间。
进一步地,所述将得到的数据质量检测结果进行保存,并汇总为质量检测报告,包括:
当数据质量规则集的逐项检测完毕后,结束检测并记录数据有哪些检测项没有通过,对检测结果进行汇总计算,生成相关质量检测报告。
进一步地,所述基于得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得所述目标数据质量的可度量结果,包括:
把质量检测结果汇总为一个综合性指标,实现对数据质量的直观度量,并便于针对指标设置监测/警告值;其中,所述综合性指标包括数据的正确率。
另一方面,本发明还提供了一种数据质量检测系统,包括:
目标数据集获取模块,用于从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在数据记录集中的主键,得到待检测的目标数据集;
数据质量检测模块,用于读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,利用解析后的数据质量规则集对所述目标数据集获取模块获取的目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到所述目标数据集中各数据的质量检测结果;
质量检测报告生成模块,用于将所述数据质量检测模块得到的数据质量检测结果进行保存,并汇总为质量检测报告;
数据质量指标值统计模块,用于基于所述数据质量检测模块得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得所述目标数据质量的可度量结果。
本发明提供的技术方案带来的有益效果至少包括:
本发明通过从数据记录集中读取需要检测的数据并保存数据主键;读取预设的数据质量规则集并调用解析方法解析数据质量规则集,利用解析后的数据质量规则集对目标数据集中的数据进行逐个或批量的数据质量检测;将数据质量检测结果进行保存并汇总为质量检测报告;计算出特定的数据质量指标值,获得目标数据质量的可度量结果。从而利用特定的业务数据质量规则和针对业务数据库设计的检测方法,实现了对源系统数据的高效的数据质量检测,支持可配置的规则设置并提供数据质量结果汇总功能,对数据质量结果进行指标计算,从而量化数据质量情况。实现了源系统所产生数据的高效准确的质量检测。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的数据质量检测方法的流程示意图;
图2是本发明实施例提供的数据质量检测方法的实现原理图;
图3是本发明实施例提供的批量检测的流程图;
图4是本发明实施例提供的可配置的检测规则设置实现图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种数据质量检测方法,针对生产系统(源系统)实现高效的数据质量检测,对此,本实施例以对法院案件管理系统产生的数据进行质量检测为例来说明本实施例的数据质量检测方法的实现原理及过程;当然,可以理解的是,本实施例的数据质量检测方法不仅适用于对法院案件管理系统产生的数据进行质量检测,还适用于对其他生产系统(源系统)中的数据进行质量检测,对于其具体的应用领域,本实施例对此不作具体限定。
本实施例的数据质量检测方法可以由电子设备实现,该电子设备可以是终端或者服务器。该方法的执行流程如图1所示,包括以下步骤:
S101,从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在数据记录集中的主键,得到待检测的目标数据集;
S102,读取预设的数据质量规则集,并调用相应的解析方法解析数据质量规则集,利用解析后的数据质量规则集对目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到目标数据集中各数据的质量检测结果;
S103,将得到的数据质量检测结果进行保存,并汇总为质量检测报告;
S104,基于得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得目标数据质量的可度量结果。
具体地,如图2至图4所示,上述S101的实现过程如下:
在质检流程开始的时候,如图2中节点“保存需要检测的数据主键”所示,系统会通过“系统业务检测范围配置表”获取需要检测的数据范围,这个范围是通过配置表中配置的开始和结束时间去业务库中查询匹配的案件集。其中,业务检测范围配置表包含的字段名称、字段类型和字段含义等如表1所示。
表1业务检测范围配置表
字段名称 字段类型 字段含义 是否主键
id int(11) 记录id 主键
start_year int(4) 开始年份
start_month int(2) 开始月份
end_year int(4) 结束年份
end_month int(2) 结束月份
sys_code int(4) 系统id
所读取的范围内的案件主键会存储到“被检测案件信息表”中,被检测案件信息表由主键、状态和被检测时间构成,用于断点续查和状态记录,检测任务会以这张表为范围进行检测;其中,被检测案件信息表包含的字段名称、字段类型和字段含义等如表2所示。
表2被检测案件信息表
Figure BDA0003054767850000051
所述目标数据集根据业务属性对主键集进行提取、保存和断点续检,包括:把待检测的数据的主键集保存在数据库中,形成待检测的目标数据的属性信息,实现数据质量检测任务在中止、中断的情形下的再次启动,并实现无缝衔接,同时保证数据质量检测任务的各项数据信息的前后一致性。
进一步地,上述S102中读取预设的数据质量规则集的实现过程如下:
规则集合如图4“检测规则设置实现图”所示,数据质量检测的规则通过数据信息配置表、检测规则类型表、检测规则配置表获取检测时使用到的规则集合、规则检测目标数据源、类型等信息。系统采用非侵入式进行数据检测并支持不同规则不同数据源的方式对多数据源分库数据进行支持。
在本环节系统会获取到被检测目标已配置的所有规则信息存入到Redis缓存中供案件检测时调用,这种缓存方式可提高规则读取效率。
所述数据质量规则集的属性针对业务进行设置,支持SQL和程序方法两种方式实现检测规则,即通过配置主键、表及SQL条件或在条件复杂时直接调用由程序方法实现的检测。其中,数据信息配置表如表3所示,检测规则类型表如表4所示,检测规则配置表如表5所示。
表3数据信息配置表
字段名称 字段类型 字段含义 是否主键
id int(11) 数据库id 主键
dataSourceName varchar(200) 数据库名称
driverClassName varchar(200) 驱动类名
url varchar(1000) 数据库地址
userName varchar(200) 数据库用户名
password varchar(255) 数据库密码
query_sql varchar(500) 查询sql
count_sql varchar(500) 统计总量sql
column_name varchar(500) 字段对应
表4检测规则类型表
字段名称 字段类型 字段含义 是否主键
type_id int(11) 规则类型id 主键
type_name varchar(255) 类型名称
sys_code int(4) 系统id
表5检测规则配置表
Figure BDA0003054767850000061
Figure BDA0003054767850000071
进一步地,上述S102中利用解析后的数据质量规则集对目标数据集中的需要检测的数据进行逐个或批量的数据质量检测的实现过程如下:
采用如图3所示的批量检测流程对案件进行批量循环检查,这一方法在实际应用中因使用的主键批量交互的方式,从而性能也有保障,大量减少了与数据源系统数据库交互次数,减少了对业务库影响。具体地,该检测流程如下:
在案件批量检测时分为两层循环进行控制,外层循环是待处理的案件批次、内层循环是需要检测的规则集合。系统以1000条案件信息划分为一个批次,再以这个批次的主键结合检测SQL在业务库中进行批量的检测结果获取,检测规则会返回不符合要求案件主键信息,系统对规则集合的每项执行中错误的案件信息进行存储,全部保留到“质检错误日志记录表”中,已经检测过的案件会在“被检测案件信息表”记录状态和检测完成的时间。
进一步地,上述S104的实现过程如下:
通过日志记录表记录案件有哪些检测项没有通过,报告生成时会使用这些信息进行汇总统计,错误案件的详细信息列表也会利用到本表,其如表6所示。
表6质检错误日志记录表
字段名称 字段类型 字段含义 是否主键
id int(21) 记录id 主键
ajbs varchar(255) 案件标识
fydm varchar(255) 法院代码
rule_id int(11) 规则id
task_id int(11) 任务id
data_source_id int(4) 系统id
报告生成如图2中的“对检测结果进度报告汇总”、“存储报告信息”节点所示,当案件检测完毕后,系统会依据检测结果来生成质量检测报告,质量检测报告的目的是生成可度量的质量信息供用户参考,本实施例的质量检测报告主要由:数据正确率、检测总数、正确数、错误数、被检测系统、数据发布日期等项目构成,在报表的展示过程中,系统还提供了近12次检测结果趋势图和详细的检测错误项列表,用户可以通过点击数字查看详细的问题案件,报告的信息会存储到如表7所示的“质检报表信息记录表”中供展示功能使用。
表7质检报表信息记录表
字段名称 字段类型 字段含义 是否主键
id int(11) 记录id 主键
fydm varchar(50) 法院代码
accuracy_rate varchar(50) 正确率
count int(11) 质检案件总数
error int(11) 质检案件错误数
success int(11) 质检案件正确数
task_id varchar(50) 质检统计周期
update_time datetime 更新时间
data_source_id int(4) 系统id
综上,本实施例的数据质量检测方法利用云计算和大数据技术,针对源系统的数据质量进行探测,通过目标范围的存储和批量处理等手段,降低了对源系统的影响,并实现了稳定高效的检测过程和结果报告,可实现对各级法院对案件管理系统产生数据的质量检测,是法院提高案件数据质量的关键技术。
第二实施例
本实施例提供了一种数据质量检测系统,该系统包括以下模块:
目标数据集获取模块,用于从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在数据记录集中的主键,得到待检测的目标数据集;
数据质量检测模块,用于读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,利用解析后的数据质量规则集对所述目标数据集获取模块获取的目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到所述目标数据集中各数据的质量检测结果;
质量检测报告生成模块,用于将所述数据质量检测模块得到的数据质量检测结果进行保存,并汇总为质量检测报告;
数据质量指标值统计模块,用于基于所述数据质量检测模块得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得所述目标数据质量的可度量结果。
本实施例的数据质量检测系统与上述第一实施例的数据质量检测方法相对应;其中,本实施例的数据质量检测系统中的各功能模块所实现的功能与上述第一实施例的数据质量检测方法中的各流程步骤一一对应;故,在此不再赘述。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (10)

1.一种数据质量检测方法,其特征在于,包括:
从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在所述数据记录集中的主键,得到待检测的目标数据集;
读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,利用解析后的数据质量规则集对所述目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到所述目标数据集中各数据的质量检测结果;
将得到的数据质量检测结果进行保存,并汇总为质量检测报告;
基于得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得所述目标数据质量的可度量结果。
2.如权利要求1所述的数据质量检测方法,其特征在于,所述从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在所述数据记录集中的主键,得到待检测的目标数据集,包括:
通过系统业务检测范围配置表中配置的数据开始时间和数据结束时间,从待检测的数据记录集中查询匹配的数据,读取需要检测的数据;
将读取的每一数据的主键存储到被检测案件信息表中;其中,所述被检测案件信息表中包括数据主键、数据检测状态和数据被检测时间,用于数据的断点续查和数据状态记录,检测任务以所述被检测案件信息表为范围进行检测。
3.如权利要求2所述的数据质量检测方法,其特征在于,所述目标数据集根据业务属性对主键集进行提取、保存和断点续检。
4.如权利要求3所述的数据质量检测方法,其特征在于,所述目标数据集根据业务属性对主键集进行提取、保存和断点续检,包括:
把待检测的数据的主键集保存在数据库中,形成待检测的目标数据的属性信息,实现数据质量检测任务在中止、中断的情形下的再次启动,并实现无缝衔接,同时保证数据质量检测任务的各项数据信息的前后一致性。
5.如权利要求1所述的数据质量检测方法,其特征在于,所述数据质量规则集的属性针对业务进行设置,支持SQL和程序方法两种方式实现检测规则。
6.如权利要求5所述的数据质量检测方法,其特征在于,所述读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,包括:
读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,将获取的质量规则组内容预先拉入缓存库Redis中。
7.如权利要求1所述的数据质量检测方法,其特征在于,所述利用解析后的数据质量规则集对所述目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到所述目标数据集中各数据的质量检测结果,包括:
对待检测的数据进行分组,每组包含预设数量的待检测数据;
按照分组,把批量的数据主键引用到数据质量规则中进行批量检测;
对数据质量规则集的每项执行中错误的数据信息进行存储,并记录已经检测过的数据所对应的检测状态和检测完成的时间。
8.如权利要求1所述的数据质量检测方法,其特征在于,所述将得到的数据质量检测结果进行保存,并汇总为质量检测报告,包括:
当数据质量规则集的逐项检测完毕后,结束检测并记录数据有哪些检测项没有通过,对检测结果进行汇总计算,生成相关质量检测报告。
9.如权利要求1所述的数据质量检测方法,其特征在于,所述基于得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得所述目标数据质量的可度量结果,包括:
把质量检测结果汇总为一个综合性指标,实现对数据质量的直观度量,并便于针对指标设置监测/警告值;其中,所述综合性指标包括数据的正确率。
10.一种数据质量检测系统,其特征在于,包括:
目标数据集获取模块,用于从待检测的数据记录集中读取需要检测的数据,并保存每一所读取的数据在数据记录集中的主键,得到待检测的目标数据集;
数据质量检测模块,用于读取预设的数据质量规则集,并调用相应的解析方法解析所述数据质量规则集,利用解析后的数据质量规则集对所述目标数据集获取模块获取的目标数据集中的需要检测的数据进行逐个或批量的数据质量检测,得到所述目标数据集中各数据的质量检测结果;
质量检测报告生成模块,用于将所述数据质量检测模块得到的数据质量检测结果进行保存,并汇总为质量检测报告;
数据质量指标值统计模块,用于基于所述数据质量检测模块得到的数据质量检测结果,计算出预设的数据质量指标值,将目标数据对应的数据质量进行量化处理,以获得所述目标数据质量的可度量结果。
CN202110496864.7A 2021-05-07 2021-05-07 一种数据质量检测方法及系统 Pending CN113220726A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110496864.7A CN113220726A (zh) 2021-05-07 2021-05-07 一种数据质量检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110496864.7A CN113220726A (zh) 2021-05-07 2021-05-07 一种数据质量检测方法及系统

Publications (1)

Publication Number Publication Date
CN113220726A true CN113220726A (zh) 2021-08-06

Family

ID=77091673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110496864.7A Pending CN113220726A (zh) 2021-05-07 2021-05-07 一种数据质量检测方法及系统

Country Status (1)

Country Link
CN (1) CN113220726A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056109A (zh) * 2023-08-14 2023-11-14 上海南洋万邦软件技术有限公司 数据运维故障分析系统、方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056109A (zh) * 2023-08-14 2023-11-14 上海南洋万邦软件技术有限公司 数据运维故障分析系统、方法

Similar Documents

Publication Publication Date Title
CN107665171B (zh) 自动回归测试方法及装置
US8161070B2 (en) Efficient delta handling in star and snowflake schemes
CN109934268B (zh) 异常交易检测方法及系统
US6708185B2 (en) SQL execution analysis
CN112115152B (zh) 数据增量更新及查询方法、装置、电子设备及存储介质
CN110716539B (zh) 一种故障诊断分析方法和装置
CN110837520A (zh) 一种数据处理方法、平台及系统
CN101515289A (zh) 一种对通用数据文件进行检查的装置及方法
US20170091082A1 (en) Test db data generation apparatus
CN113220726A (zh) 一种数据质量检测方法及系统
CN113138990B (zh) 一种数据血缘构建、追溯方法、装置及设备
CN110781235A (zh) 基于大数据的采购数据处理方法、装置、终端及存储介质
CN111813652B (zh) 一种数据缺失相关的数据异常值校验的自动化测试方法
CN112583610B (zh) 系统状态的预测方法、装置、服务器及存储介质
Hinrichs et al. An ISO 9001: 2000 Compliant Quality Management System for Data Integration in Data Warehouse Systems.
US11184220B2 (en) Automated remediation of information technology events
CN113157745A (zh) 一种数据质量检测方法及系统
CN107273293B (zh) 大数据系统性能测试方法、装置及电子设备
CN112102028B (zh) 业务数据统一配置和校验方法及系统
CN201374063Y (zh) 一种对通用数据文件进行检查的装置
US11080275B2 (en) Join pattern agnostic aggregate computation in database query operations
CN111475505A (zh) 一种数据采集的方法及设备
CN111949728A (zh) 一种动态数据差异比对方法与系统
CN114116729B (zh) 一种测试数据的处理方法和设备
CN111061632B (zh) 用于报表数据的自动化测试方法和测试系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination