CN113360491B - 数据质量检验方法、装置、电子设备及存储介质 - Google Patents
数据质量检验方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113360491B CN113360491B CN202110736453.0A CN202110736453A CN113360491B CN 113360491 B CN113360491 B CN 113360491B CN 202110736453 A CN202110736453 A CN 202110736453A CN 113360491 B CN113360491 B CN 113360491B
- Authority
- CN
- China
- Prior art keywords
- data
- data table
- target
- database
- modification scheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000007689 inspection Methods 0.000 title claims abstract description 45
- 238000012986 modification Methods 0.000 claims description 81
- 230000004048 modification Effects 0.000 claims description 81
- 238000012795 verification Methods 0.000 claims description 25
- 238000012937 correction Methods 0.000 claims description 19
- 238000012550 audit Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Abstract
本发明实施例提供一种数据质量检验方法、装置、电子设备及存储介质。本发明实施例通过将源数据库中待检验的第一数据表中的数据抽取到中间数据库的第二数据表中,所述中间数据库与所述源数据库为不同的数据库,根据所述第一数据表的业务特性,为所述第二数据表配置检验规则,所述业务特性指为满足业务需求所应当符合预设条件的特性,基于所述检验规则,对所述第二数据表中的数据进行检验,能够进行非侵入式的数据质量检验,避免了因侵入源数据库而对源数据造成二次数据污染或者因侵占计算资源造成数据源性能问题,从而提高了数据质量检验过程中待检验的源数据的安全性。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据质量检验方法、装置、电子设备及存储介质。
背景技术
随着大数据时代的到来,在各行各业的数字化转型中,数据作为一种资产已经成为共识。数据的应用也日趋繁茂,越来越多的应用和服务都基于数据而建立,数据的重要性不言而喻。
在当前数据治理及使用过程中,数据的质量问题也越来越突出,因此,检验数据质量成为数据应用之前一个重要的环节。
相关技术中,直接在源数据表上对数据进行质量检验,这是一种侵入式的检验方式,可能对源数据库中的数据造成二次污染,甚至导致源数据库不可用,安全性较差。
发明内容
为克服相关技术中存在的问题,本发明提供了一种数据质量检验方法、装置、电子设备及存储介质,提高数据质量检验过程中待检验数据的安全性。
根据本发明实施例的第一方面,提供一种数据质量检验方法,包括:
将源数据库中待检验的第一数据表中的数据抽取到中间数据库的第二数据表中,所述中间数据库与所述源数据库为不同的数据库;
根据所述第一数据表的业务特性,为所述第二数据表配置检验规则;所述业务特性指为满足业务需求所应当符合预设条件的特性;
基于所述检验规则,对所述第二数据表中的数据进行检验。
根据本发明实施例的第二方面,提供一种数据质量检验装置,包括:
抽取模块,用于将源数据库中待检验的第一数据表中的数据抽取到中间数据库的第二数据表中,所述中间数据库与所述源数据库为不同的数据库;
配置模块,用于根据所述第一数据表的业务特性,为所述第二数据表配置检验规则;所述业务特性指为满足业务需求所应当符合预设条件的特性;
检验模块,用于基于所述检验规则,对所述第二数据表中的数据进行检验。
根据本发明实施例的第三方面,提供一种电子设备,包括:
用于存储处理器的可执行指令的存储器;
所述处理器,用于执行所述指令,以实现第一方面任一项所述的方法。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有若干计算机指令,所述计算机指令被执行时实现第一方面任一项所述的方法。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明实施例,通过将源数据库中待检验的第一数据表中的数据抽取到中间数据库的第二数据表中,所述中间数据库与所述源数据库为不同的数据库,根据所述第一数据表的业务特性,为所述第二数据表配置检验规则,所述业务特性指为满足业务需求所应当符合预设条件的特性,基于所述检验规则,对所述第二数据表中的数据进行检验,能够进行非侵入式的数据质量检验,避免了因侵入源数据库而对源数据造成二次数据污染或者因侵占计算资源造成数据源性能问题,从而提高了数据质量检验过程中待检验的源数据的安全性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1是本发明实施例提供的数据质量检验方法的流程示例图。
图2是本发明实施例提供的数据质量检验装置的功能方块图。
图3是本发明实施例提供的电子设备的一个硬件结构图。
图4是本发明实施例提供的数据质量检验方法的过程示意图。
图5是图4所示流程的后续流程示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明实施例的一些方面相一致的装置和方法的例子。
在本发明实施例使用的术语是仅仅出于描述特定本发明实施例的目的,而非旨在限制本发明实施例。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
这里对本文中使用的几种数据库进行说明。
源数据库:指存储待检验数据的数据库,源数据库可以是mysql、oracle等常用数据库。
中间数据库:指进行检验操作的数据库,中间数据库可以是mysql、oracle等数据库。
规则数据库:用于存储检验规则的数据库。
问题数据库:用于存储检验过程中发现的问题数据。
知识数据表:存储问题类型及对应修改方案的数据表。知识数据表的内容会随着检验数据的增多而不断丰富。
下面通过实施例对本发明的数据质量检验方法进行详细说明。
图1是本发明实施例提供的数据质量检验方法的流程示例图。如图1所示,本实施例中,数据质量检验方法可以包括:
S101,将源数据库中待检验的第一数据表中的数据抽取到中间数据库的第二数据表中,所述中间数据库与所述源数据库为不同的数据库。
S102,根据所述第一数据表的业务特性,为所述第二数据表配置检验规则;所述业务特性指为满足业务需求所应当符合预设条件的特性。
S103,基于所述检验规则,对所述第二数据表中的数据进行检验。
其中,抽取的方式可以采用周期性增量抽取、抽样抽取、全量抽取等,本实施例对此不作限制。
本实施例中,通过将源数据(第一数据表中的数据)抽取到中间数据库中,使得对于源数据的检验操作能够在中间数据库的数据表上进行,而非在源数据库的源数据表上进行,数据质量检验过程中不需要侵入源数据库,避免了因侵入源数据库而对源数据造成二次数据污染,从而提高了数据质量检验过程中待检验的源数据的安全性。
并且,源数据库通常为生产数据库,由于数据质量检验过程中不需要侵入源数据库,保证了生产数据库的稳定性,也避免了因数据质量检验造成生产数据库所在的生产系统的业务中断,从而保障了生产数据库所在的生产系统的正常运行。
本实施例中,业务特性指为满足业务需求所应当符合预设条件的特性。在应用中,规则数据库中可以预先存储业务特性与检验规则的对应关系,当需要配置检验规则时,可以根据数据表的业务特性,从业务特性与检验规则的对应关系中查找对应的检验规则。
需要说明的是,数据表中的每个字段都可以有对应的业务特性,数据表对应的业务特性可以包括数据表中的所有字段对应的业务特性。检验规则可以基于数据表中的每个字段来配置。
在一个示例中,检验规则可以包括值域核验规则、数据格式核验规则、唯一性核验规则、字段注释核验规则、IP地址校验规则、日期时间校验规则、身份证校验规则等等。
在一个示例中,基于所述检验规则,对所述第二数据表中的数据进行检验之后,还可以包括:
若检验出问题数据,将所述问题数据写入问题数据库,所述问题数据为所述第二数据表中不符合所述检验规则的数据。
本实施例中,问题数据被写入专门的数据库即问题数据库中,为问题数据的闭环整改提供了基础。
在一个示例中,所述方法还可以包括:
根据所述第二数据表对应的问题数据的统计信息,确定所述第一数据表的数据质量。
例如,在检验完成后,可以统计第二数据表中问题数据的数量,然后计算问题数据的数量占第二数据表的数据总量的百分比,以该百分比作为衡量第二数据表的数据质量的数据。第二数据表的数据质量与第一数据表的数据质量是相同的,因此根据所述第二数据表对应的问题数据的统计信息,确定了所述第二数据表的数据质量,进而也就确定了所述第一数据表的数据质量。
在一个示例中,所述方法还可以包括:
基于所述第二数据表对应的问题数据,对所述第一数据表中的相应数据进行整改,获得所述第一数据表对应的目标数据表。
此处,目标数据表即为第一数据表修改后的数据表,目标数据表处于源数据库中。通过整改,可以修正第一数据表中的问题数据,提高数据质量,以便为数据应用提供更可靠的保障。
对于问题数据的整改,本实施例中提供了如下两种示例性的整改方式。当然,本实施例并不限制采用其他的整改方式。
在一个示例中,基于所述第二数据表对应的问题数据,对所述第一数据表中的相应数据进行整改,获得所述第一数据表对应的目标数据表,可以包括:
根据所述检验规则,确定问题数据库中所述第二数据表对应的问题数据的目标问题类型;
获取所述目标问题类型对应的修改方案;
根据所述目标问题类型对应的修改方案,对问题数据库中所述第二数据表对应的问题数据进行修改,获得修正数据;
若所述修正数据通过数据提供方的审核,根据所述修正数据对所述第一数据表中的相应数据进行修改,得到所述第一数据表对应的目标数据表。
例如,对于“身份证号”字段的数据,采用身份证校验规则进行检验。假设身份证校验规则的内容为:身份证号码为18位,其中前17位为数字,最后一位为数字或字母。当“身份证号”字段的某个数据由于不符合“身份证号码为18位”的要求而成为问题数据时,该问题数据的问题类型可以为“身份证号码不为18位”,对应的修改方案可以为“将身份证号码修改为18位”。
其中,数据提供方指源数据的来源方。数据提供方知晓问题数据对应的正确数据,当修正数据与问题数据对应的正确数据一致时,数据提供方可以发出确认指令,以确认修正数据通过审核。此时,可以根据修正数据自动修改第一数据表中的相应数据,实现问题数据的自动闭环整改。相对于将问题数据交给人工由人工修改的方式,本实施例能够显著提高处理效率。
当修正数据与问题数据对应的正确数据不一致时,数据提供方可以发出继续修改指令,在继续修改指令中可以包括问题数据对应的正确数据,这样,系统可以根据继续修改指令将问题数据修改为对应的正确数据,得到修正数据,然后将修正数据再次提交数据提供方进行审核,直至审核通过。
在一个示例中,获取所述目标问题类型对应的修改方案,可以包括:
若知识数据表存在所述目标问题类型,在知识数据表查找所述目标问题类型对应的修改方案。
知识数据表用于存储问题类型及对应修改方案。知识数据表的内容随着检验数据的增多而不断丰富。如果目标问题类型曾经在已检验的数据中出现过,则知识数据表中会保存该目标问题类型和对应的修改方案,此时,可以根据目标问题类型自动在知识数据表查找到对应的修改方案。这样就避免了人工确定修改方案,提高了处理效率。
在一个示例中,获取所述目标问题类型对应的修改方案,可以包括:
若知识数据表不存在所述目标问题类型,接收用户输入的所述目标问题类型对应的修改方案;
将所述目标问题类型和所述目标问题类型对应的修改方案存储到知识数据表。
本实施例中,如果目标问题类型第一次出现,则知识数据表中不存在该目标问题类型和对应的修改方案。此时,可以由用户人工确定修改方案,并将目标问题类型和所述目标问题类型对应的修改方案存储到知识数据表,以便后续能够根据目标问题类型自动在知识数据表查找到对应的修改方案。
在一个示例中,基于所述第二数据表对应的问题数据,对所述第一数据表中的相应数据进行整改,获得所述第一数据表对应的目标数据表,可以包括:
根据所述检验规则,确定问题数据库中所述第二数据表对应的问题数据的目标问题类型;
获取所述目标问题类型对应的修改方案;
将所述第二数据表对应的问题数据和所述目标问题类型对应的修改方案发送给数据提供方,以使所述数据提供方根据所述目标问题类型对应的修改方案,对所述第一数据表中的相应数据进行修改,获得第三数据表;
将所述第三数据表中的数据抽取到中间数据库的第四数据表中,并基于所述检验规则,对所述第四数据表中的数据进行检验;
若检验结果指示所述第四数据表中无问题数据,则确定所述第三数据表为所述第一数据表对应的目标数据表。
本实施例中,获取所述目标问题类型对应的修改方案的方式请参见前述实施例,此处不再赘述。
当确定目标问题类型和获取修改方案后,本实施例将问题数据和对应修改方案发送给数据提供方,数据提供方根据修改方案对第一数据表中的相应数据进行修改,获得修改后的第三数据表。然后,本实施例对第三数据表重新进行数据质量检验,如果经过检验没有发现问题数据,则说明修改正确,直接将第三数据表作为修正后的源数据表,即目标数据表。
本实施例能够保证问题数据的有效修复,保障后续数据应用的准确性。
以上两种闭环整改方式可以根据数据特点及业务流程灵活选择,方便易用。
下面通过一个示例对本发明实施例的数据质量检验方法进行进一步说明。
图4是本发明实施例提供的数据质量检验方法的过程示意图。以图4为例,假设将源数据库中的数据表1(数据表1为图4中的源数据表)中的数据抽取到中间数据库的数据表2(数据表2为图4中的中间数据表)中。数据表2包括四个字段:字段1、字段2、字段3、字段4。其中,字段1对应业务特性1、字段2对应业务特性2、字段3对应业务特性3、字段4对应业务特性4。在业务特性与检验规则的对应关系中,业务特性1~4对应的检验规则分别为规则1~4。则为数据表2配置的检验规则为规则1+规则2+规则3+规则4。在对数据表2进行数据质量检验时,利用规则1对字段1的数据进行检验,利用规则2对字段2的数据进行检验,利用规则3对字段3的数据进行检验,利用规则4对字段4的数据进行检验。质量检验之后,将问题数据写入问题数据表中。
图5是图4所示流程的后续流程示意图。如图5所示,通过与知识数据表中的问题进行匹配,找到字段1~4的问题类型对应的修改方案,然后根据相应的修改方案对中间数据表中的字段1~4中的每个字段进行修改,修改后提交数据提供方进行审核,如果审核通过,则将修改后的正确数据写入源数据表,如果审核未通过,则返回重新修改数据。如果匹配过程中发现没有匹配的修改方案,则将新问题类型和人工对该新问题提出的修改方案沉淀到知识数据表中。
本发明实施例提供的数据质量检验方法,通过将源数据库中待检验的第一数据表中的数据抽取到中间数据库的第二数据表中,所述中间数据库与所述源数据库为不同的数据库,根据所述第一数据表的业务特性,为所述第二数据表配置检验规则,所述业务特性指为满足业务需求所应当符合预设条件的特性,基于所述检验规则,对所述第二数据表中的数据进行检验,能够进行非侵入式的数据质量检验,避免了因侵入源数据库而对源数据造成二次数据污染或者因侵占计算资源造成数据源性能问题,从而提高了数据质量检验过程中待检验的源数据的安全性。
基于上述的方法实施例,本发明实施例还提供了相应的装置、设备及存储介质实施例。
图2是本发明实施例提供的数据质量检验装置的功能方块图。如图2所示,本实施例中,数据质量检验装置可以包括:
抽取模块210,用于将源数据库中待检验的第一数据表中的数据抽取到中间数据库的第二数据表中,所述中间数据库与所述源数据库为不同的数据库;
配置模块220,用于根据所述第一数据表的业务特性,为所述第二数据表配置检验规则;所述业务特性指为满足业务需求所应当符合预设条件的特性;
检验模块230,用于基于所述检验规则,对所述第二数据表中的数据进行检验。
在一个示例中,还包括:
问题数据写入模块,用于若检验出问题数据,将所述问题数据写入问题数据库,所述问题数据为所述第二数据表中不符合所述检验规则的数据。
在一个示例中,还包括:
质量确定模块,用于根据所述第二数据表对应的问题数据的统计信息,确定所述第一数据表的数据质量。
在一个示例中,还包括:
整改模块,用于基于所述第二数据表对应的问题数据,对所述第一数据表中的相应数据进行整改,获得所述第一数据表对应的目标数据表。
在一个示例中,整改模块可以具体用于:
根据所述检验规则,确定问题数据库中所述第二数据表对应的问题数据的目标问题类型;
获取所述目标问题类型对应的修改方案;
根据所述目标问题类型对应的修改方案,对问题数据库中所述第二数据表对应的问题数据进行修改,获得修正数据;
若所述修正数据通过数据提供方的审核,根据所述修正数据对所述第一数据表中的相应数据进行修改,得到所述第一数据表对应的目标数据表。
在一个示例中,整改模块可以具体用于:
根据所述检验规则,确定问题数据库中所述第二数据表对应的问题数据的目标问题类型;
获取所述目标问题类型对应的修改方案;
将所述第二数据表对应的问题数据和所述目标问题类型对应的修改方案发送给数据提供方,以使所述数据提供方根据所述目标问题类型对应的修改方案,对所述第一数据表中的相应数据进行修改,获得第三数据表;
将所述第三数据表中的数据抽取到中间数据库的第四数据表中,并基于所述检验规则,对所述第四数据表中的数据进行检验;
若检验结果指示所述第四数据表中无问题数据,则确定所述第三数据表为所述第一数据表对应的目标数据表。
在一个示例中,获取所述目标问题类型对应的修改方案,包括:
若知识数据表存在所述目标问题类型,在知识数据表查找所述目标问题类型对应的修改方案。
在一个示例中,获取所述目标问题类型对应的修改方案,包括:
若知识数据表不存在所述目标问题类型,接收用户输入的所述目标问题类型对应的修改方案;
将所述目标问题类型和所述目标问题类型对应的修改方案存储到知识数据表。
本发明实施例还提供了一种电子设备。图3是本发明实施例提供的电子设备的一个硬件结构图。如图3所示,电子设备包括:内部总线301,以及通过内部总线连接的存储器302,处理器303和外部接口304,其中:
所述存储器302,用于存储数据质量检验逻辑对应的机器可读指令;
所述处理器303,用于读取存储器402上的机器可读指令,并执行所述指令以实现如下操作:
将源数据库中待检验的第一数据表中的数据抽取到中间数据库的第二数据表中,所述中间数据库与所述源数据库为不同的数据库;
根据所述第一数据表的业务特性,为所述第二数据表配置检验规则;所述业务特性指为满足业务需求所应当符合预设条件的特性;
基于所述检验规则,对所述第二数据表中的数据进行检验。
在一个示例中,基于所述检验规则,对所述第二数据表中的数据进行检验之后,还包括:
若检验出问题数据,将所述问题数据写入问题数据库,所述问题数据为所述第二数据表中不符合所述检验规则的数据。
在一个示例中,还包括:
根据所述第二数据表对应的问题数据的统计信息,确定所述第一数据表的数据质量。
在一个示例中,还包括:
基于所述第二数据表对应的问题数据,对所述第一数据表中的相应数据进行整改,获得所述第一数据表对应的目标数据表。
在一个示例中,基于所述第二数据表对应的问题数据,对所述第一数据表中的相应数据进行整改,获得所述第一数据表对应的目标数据表,包括:
根据所述检验规则,确定问题数据库中所述第二数据表对应的问题数据的目标问题类型;
获取所述目标问题类型对应的修改方案;
根据所述目标问题类型对应的修改方案,对问题数据库中所述第二数据表对应的问题数据进行修改,获得修正数据;
若所述修正数据通过数据提供方的审核,根据所述修正数据对所述第一数据表中的相应数据进行修改,得到所述第一数据表对应的目标数据表。
在一个示例中,基于所述第二数据表对应的问题数据,对所述第一数据表中的相应数据进行整改,获得所述第一数据表对应的目标数据表,包括:
根据所述检验规则,确定问题数据库中所述第二数据表对应的问题数据的目标问题类型;
获取所述目标问题类型对应的修改方案;
将所述第二数据表对应的问题数据和所述目标问题类型对应的修改方案发送给数据提供方,以使所述数据提供方根据所述目标问题类型对应的修改方案,对所述第一数据表中的相应数据进行修改,获得第三数据表;
将所述第三数据表中的数据抽取到中间数据库的第四数据表中,并基于所述检验规则,对所述第四数据表中的数据进行检验;
若检验结果指示所述第四数据表中无问题数据,则确定所述第三数据表为所述第一数据表对应的目标数据表。
在一个示例中,获取所述目标问题类型对应的修改方案,包括:
若知识数据表存在所述目标问题类型,在知识数据表查找所述目标问题类型对应的修改方案。
在一个示例中,获取所述目标问题类型对应的修改方案,包括:
若知识数据表不存在所述目标问题类型,接收用户输入的所述目标问题类型对应的修改方案;
将所述目标问题类型和所述目标问题类型对应的修改方案存储到知识数据表。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有若干计算机指令,所述计算机指令被执行时进行如下处理:
将源数据库中待检验的第一数据表中的数据抽取到中间数据库的第二数据表中,所述中间数据库与所述源数据库为不同的数据库;
根据所述第一数据表的业务特性,为所述第二数据表配置检验规则;所述业务特性指为满足业务需求所应当符合预设条件的特性;
基于所述检验规则,对所述第二数据表中的数据进行检验。
在一个示例中,基于所述检验规则,对所述第二数据表中的数据进行检验之后,还包括:
若检验出问题数据,将所述问题数据写入问题数据库,所述问题数据为所述第二数据表中不符合所述检验规则的数据。
在一个示例中,还包括:
根据所述第二数据表对应的问题数据的统计信息,确定所述第一数据表的数据质量。
在一个示例中,还包括:
基于所述第二数据表对应的问题数据,对所述第一数据表中的相应数据进行整改,获得所述第一数据表对应的目标数据表。
在一个示例中,基于所述第二数据表对应的问题数据,对所述第一数据表中的相应数据进行整改,获得所述第一数据表对应的目标数据表,包括:
根据所述检验规则,确定问题数据库中所述第二数据表对应的问题数据的目标问题类型;
获取所述目标问题类型对应的修改方案;
根据所述目标问题类型对应的修改方案,对问题数据库中所述第二数据表对应的问题数据进行修改,获得修正数据;
若所述修正数据通过数据提供方的审核,根据所述修正数据对所述第一数据表中的相应数据进行修改,得到所述第一数据表对应的目标数据表。
在一个示例中,基于所述第二数据表对应的问题数据,对所述第一数据表中的相应数据进行整改,获得所述第一数据表对应的目标数据表,包括:
根据所述检验规则,确定问题数据库中所述第二数据表对应的问题数据的目标问题类型;
获取所述目标问题类型对应的修改方案;
将所述第二数据表对应的问题数据和所述目标问题类型对应的修改方案发送给数据提供方,以使所述数据提供方根据所述目标问题类型对应的修改方案,对所述第一数据表中的相应数据进行修改,获得第三数据表;
将所述第三数据表中的数据抽取到中间数据库的第四数据表中,并基于所述检验规则,对所述第四数据表中的数据进行检验;
若检验结果指示所述第四数据表中无问题数据,则确定所述第三数据表为所述第一数据表对应的目标数据表。
在一个示例中,获取所述目标问题类型对应的修改方案,包括:
若知识数据表存在所述目标问题类型,在知识数据表查找所述目标问题类型对应的修改方案。
在一个示例中,获取所述目标问题类型对应的修改方案,包括:
若知识数据表不存在所述目标问题类型,接收用户输入的所述目标问题类型对应的修改方案;
将所述目标问题类型和所述目标问题类型对应的修改方案存储到知识数据表。
对于装置和设备实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
Claims (9)
1.一种数据质量检验方法,其特征在于,包括:
将源数据库中待检验的第一数据表中的数据抽取到中间数据库的第二数据表中,所述中间数据库与所述源数据库为不同的数据库;
根据所述第一数据表的业务特性,为所述第二数据表配置检验规则;所述业务特性指为满足业务需求所应当符合预设条件的特性;
基于所述检验规则,对所述第二数据表中的数据进行检验;
若检验出问题数据,将所述问题数据写入问题数据库,所述问题数据为所述第二数据表中不符合所述检验规则的数据;
基于所述第二数据表中不符合所述检验规则的问题数据,对所述第一数据表中的相应数据进行整改,获得基于所述检验规则确定不包含所述问题数据的目标数据表,包括:
根据所述检验规则,确定问题数据库中所述第二数据表对应的问题数据的目标问题类型;
获取所述目标问题类型对应的修改方案;
根据所述目标问题类型对应的修改方案,对问题数据库中所述第二数据表对应的问题数据进行修改,获得修正数据;
若所述修正数据通过数据提供方的审核,根据所述修正数据对所述第一数据表中的相应数据进行修改,得到所述第一数据表对应的目标数据表;若所述修正数据未通过数据提供方的审核,则重新修改问题数据。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据所述第二数据表对应的问题数据的统计信息,确定所述第一数据表的数据质量。
3.根据权利要求1所述的方法,其特征在于,还包括:
基于所述第二数据表对应的问题数据,对所述第一数据表中的相应数据进行整改,获得所述第一数据表对应的目标数据表。
4.根据权利要求3所述的方法,其特征在于,基于所述第二数据表对应的问题数据,对所述第一数据表中的相应数据进行整改,获得所述第一数据表对应的目标数据表,包括:
根据所述检验规则,确定问题数据库中所述第二数据表对应的问题数据的目标问题类型;
获取所述目标问题类型对应的修改方案;
将所述第二数据表对应的问题数据和所述目标问题类型对应的修改方案发送给数据提供方,以使所述数据提供方根据所述目标问题类型对应的修改方案,对所述第一数据表中的相应数据进行修改,获得第三数据表;
将所述第三数据表中的数据抽取到中间数据库的第四数据表中,并基于所述检验规则,对所述第四数据表中的数据进行检验;
若检验结果指示所述第四数据表中无问题数据,则确定所述第三数据表为所述第一数据表对应的目标数据表。
5.根据权利要求1或4所述的方法,其特征在于,获取所述目标问题类型对应的修改方案,包括:
若知识数据表存在所述目标问题类型,在知识数据表查找所述目标问题类型对应的修改方案。
6.根据权利要求1或4所述的方法,其特征在于,获取所述目标问题类型对应的修改方案,包括:
若知识数据表不存在所述目标问题类型,接收用户输入的所述目标问题类型对应的修改方案;
将所述目标问题类型和所述目标问题类型对应的修改方案存储到知识数据表。
7.一种数据质量检验装置,其特征在于,包括:
抽取模块,用于将源数据库中待检验的第一数据表中的数据抽取到中间数据库的第二数据表中,所述中间数据库与所述源数据库为不同的数据库;
配置模块,用于根据所述第一数据表的业务特性,为所述第二数据表配置检验规则;所述业务特性指为满足业务需求所应当符合预设条件的特性;
检验模块,用于基于所述检验规则,对所述第二数据表中的数据进行检验;若检验出问题数据,将所述问题数据写入问题数据库,所述问题数据为所述第二数据表中不符合所述检验规则的数据;基于所述第二数据表中不符合所述检验规则的问题数据,对所述第一数据表中的相应数据进行整改,获得基于所述检验规则确定不包含所述问题数据的目标数据表,包括:根据所述检验规则,确定问题数据库中所述第二数据表对应的问题数据的目标问题类型;获取所述目标问题类型对应的修改方案;根据所述目标问题类型对应的修改方案,对问题数据库中所述第二数据表对应的问题数据进行修改,获得修正数据;若所述修正数据通过数据提供方的审核,根据所述修正数据对所述第一数据表中的相应数据进行修改,得到所述第一数据表对应的目标数据表;若所述修正数据未通过数据提供方的审核,则重新修改问题数据。
8.一种电子设备,其特征在于,包括:
用于存储处理器的可执行指令的存储器;
所述处理器,用于执行所述指令,以实现权利要求1~6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有若干计算机指令,所述计算机指令被执行时实现权利要求1~6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110736453.0A CN113360491B (zh) | 2021-06-30 | 2021-06-30 | 数据质量检验方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110736453.0A CN113360491B (zh) | 2021-06-30 | 2021-06-30 | 数据质量检验方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113360491A CN113360491A (zh) | 2021-09-07 |
CN113360491B true CN113360491B (zh) | 2024-03-29 |
Family
ID=77537556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110736453.0A Active CN113360491B (zh) | 2021-06-30 | 2021-06-30 | 数据质量检验方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360491B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595597A (zh) * | 2018-04-19 | 2018-09-28 | 平安科技(深圳)有限公司 | 数据导入方法、装置、计算机设备和存储介质 |
WO2019029281A1 (zh) * | 2017-08-09 | 2019-02-14 | 中建钢构有限公司 | 碰撞校核数据的处理方法、装置、电子设备及存储介质 |
CN111506562A (zh) * | 2020-03-24 | 2020-08-07 | 唐山不锈钢有限责任公司 | 基于excel的质量检测实验室异常数据自动识别方法 |
CN111581217A (zh) * | 2020-05-12 | 2020-08-25 | 东莞市盟大塑化科技有限公司 | 数据检测方法、装置、计算机设备和存储介质 |
CN112199366A (zh) * | 2019-04-28 | 2021-01-08 | 杭州数梦工场科技有限公司 | 数据表处理方法、装置及设备 |
WO2021027363A1 (zh) * | 2019-08-15 | 2021-02-18 | 平安科技(深圳)有限公司 | 数据同步方法、装置、计算机设备及存储介质 |
CN112650762A (zh) * | 2021-03-15 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 数据质量监控的方法、装置、电子设备以及存储介质 |
CN112685410A (zh) * | 2020-12-25 | 2021-04-20 | 中国平安人寿保险股份有限公司 | 业务规则校验方法、装置、计算机设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014065918A1 (en) * | 2012-10-22 | 2014-05-01 | Ab Initio Technology Llc | Characterizing data sources in a data storage system |
US11157469B2 (en) * | 2018-12-31 | 2021-10-26 | T-Mobile Usa, Inc. | Automated audit balance and control processes for data stores |
-
2021
- 2021-06-30 CN CN202110736453.0A patent/CN113360491B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019029281A1 (zh) * | 2017-08-09 | 2019-02-14 | 中建钢构有限公司 | 碰撞校核数据的处理方法、装置、电子设备及存储介质 |
CN108595597A (zh) * | 2018-04-19 | 2018-09-28 | 平安科技(深圳)有限公司 | 数据导入方法、装置、计算机设备和存储介质 |
CN112199366A (zh) * | 2019-04-28 | 2021-01-08 | 杭州数梦工场科技有限公司 | 数据表处理方法、装置及设备 |
WO2021027363A1 (zh) * | 2019-08-15 | 2021-02-18 | 平安科技(深圳)有限公司 | 数据同步方法、装置、计算机设备及存储介质 |
CN111506562A (zh) * | 2020-03-24 | 2020-08-07 | 唐山不锈钢有限责任公司 | 基于excel的质量检测实验室异常数据自动识别方法 |
CN111581217A (zh) * | 2020-05-12 | 2020-08-25 | 东莞市盟大塑化科技有限公司 | 数据检测方法、装置、计算机设备和存储介质 |
CN112685410A (zh) * | 2020-12-25 | 2021-04-20 | 中国平安人寿保险股份有限公司 | 业务规则校验方法、装置、计算机设备及存储介质 |
CN112650762A (zh) * | 2021-03-15 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 数据质量监控的方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113360491A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427375B (zh) | 字段类别的识别方法及装置 | |
CN112989990B (zh) | 医疗票据识别方法、装置、设备及存储介质 | |
CN111340584A (zh) | 一种资金方的确定方法、装置、设备及存储介质 | |
CN111767350A (zh) | 数据仓库测试方法、装置、终端设备及存储介质 | |
CN110046086B (zh) | 用于测试的期望数据生成方法及装置和电子设备 | |
CN110020550B (zh) | 核对平台的评估方法、装置及设备 | |
CN113886373A (zh) | 一种数据处理方法、装置及电子设备 | |
CN113360491B (zh) | 数据质量检验方法、装置、电子设备及存储介质 | |
CN109324963B (zh) | 自动测试收益结果的方法及终端设备 | |
CN111274821A (zh) | 一种命名实体识别数据标注质量评估方法及装置 | |
CN111291567A (zh) | 人工标注质量的评估方法、装置、电子设备及存储介质 | |
CN111242779A (zh) | 金融数据特征选择和预测方法、装置、设备及存储介质 | |
CN114331663B (zh) | 适用于财务信息的多维路径比对式数据处理方法及装置 | |
CN115983208A (zh) | 一种文档转换方法及电子设备 | |
CN115630842A (zh) | 交易风险的确定方法、系统、装置和计算机可读存储介质 | |
CN113342816B (zh) | 目录上报方法和装置 | |
CN112232962A (zh) | 交易指标处理方法、装置和设备 | |
CN113434734A (zh) | 一种生成文件、读取文件的方法、装置、设备及存储介质 | |
CN113468155B (zh) | 问题数据处理方法和装置 | |
CN112347095B (zh) | 数据表的处理方法、装置和服务器 | |
CN112732755B (zh) | 基于客户分群的标签值匹配联合校验方法、装置及计算机设备 | |
CN114153830B (zh) | 数据验证方法及其装置、计算机存储介质、电子设备 | |
CN116882968B (zh) | 一种故障缺陷全过程处理的设计和实现方法 | |
CN114328271A (zh) | 测试方法、装置、设备及存储介质 | |
CN117609305A (zh) | 报送数据检查方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |