CN112506897A - 一种分析、定位数据质量问题的方法及系统 - Google Patents
一种分析、定位数据质量问题的方法及系统 Download PDFInfo
- Publication number
- CN112506897A CN112506897A CN202011286527.7A CN202011286527A CN112506897A CN 112506897 A CN112506897 A CN 112506897A CN 202011286527 A CN202011286527 A CN 202011286527A CN 112506897 A CN112506897 A CN 112506897A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- field
- analyzing
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012795 verification Methods 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims description 18
- 238000012550 audit Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种分析、定位数据质量问题的方法,通过字段分析规则对数据库中的数据进行第一次质量分析、定位;然后根据数据的初次分析结果以及使用场景进行第二次质量分析:其中当数据库中大范围数据应用于纸质或电子使用时,通过二次校验分析是否存在填写遗漏、填写错误、录入遗漏、录入错误等,可以筛查出初次分析是字段分析规则没能检测出来的问题;当数据库中某一目标文件需要调用时,通过稽核规则,单独对目标文件进行稽核,因此本发明具有多场景适用、分析定位数据质量问题全面、准确的优势。
Description
技术领域
本发明涉及数据质量技术领域,具体而言,为一种分析、定位数据质量问题的方法及系统。
背景技术
我国目前各个行业的信息化建设已经如火如荼的开展了很多年,积累了丰富的数据。这些数据五花八门,存储结构也是千变万化。但是这些数据的数据质量却普遍不高,导致基于这些数据的分析结果不准确,数据无法很好的被利用。由于这些数据存储在数据库里面,信息部门的管理人员很难真正掌握这些数据的数据质量。
目前,针对关系型数据库所存储数据内容的数据质量分析方法不多,尤其是对于特定的应存储国家标准数据的数据内容的分析更是处于空白状态。该类存储代码的数据,比如性别,国家有专门的标准,必须取值范围在一定的数字之内,但是实际的情况却是大多数的数据完全与国家标准代码不符,导致数据不标准,不统一,无法被很好的使用。
发明内容
针对现有技术中的缺陷,本发明第一方面的目的是提供一种分析、定位数据质量问题的方法及系统,用于数据质量的分析、定位,解决数据不标准,无法被很好的使用的问题。
为实现上述第一方面的目的,本发明的技术方案如下:
一种分析、定位数据质量问题的方法,包括:
获取数据库对应的表及字段的结构;
根据预设的字段分析规则,对数据库进行分析;
对数据库数据进行二次校验或稽核处理。
优选的,所述获取数据库对应的表及字段的结构中,数据库中的数据包括若干个待分析的表,所述表结构下包括一个或多个待分析字段;选择任意一个表的任意一个字段进行配置。
则所述根据预设的字段分析规则,对数据库进行分析包括:
标准代码检测:读取所述待分析字段对应的国家标准代码,将所述待分析字段与对应的国家标准代码进行匹配,判断匹配结果;
字段缺失检测:将所述待分析字段逐个对比检测,检测范围包括数字、文字和/或图案,判断检测结果;
字段长度检测:预先设置标准字段的长度,将所述待分析字段与所述标准字段的长度进行比对,判断比对结果。
同类字段检测:将所述待分析字段逐个对比检测,所述检测的范围包括数字、文字和/或图案;判断对比结果。
优选的,所述对数据库数据进行二次校验,包括
汇总数据在纸质与电子状态使用时的质量问题,预设数据库中数据的错误类型;
根据错误类型进行一致性检验,得到数据错误分析结果。
优选的,所述错误类型包括填写遗漏、填写错误、录入遗漏以及录入错误。
优选的,所述根据错误类型进行一致性检验,得到数据错误分析结果,包括:
从数据库中通过数据编号的唯一标识找到相应数据的录入数据、纸质识别数据和电子提取数据并初始化成哈希表;
遍历数据全集,从中取出某一数据字段,根据数据字段名称从三个数据集合中查找数据,根据查找到的录入数据、纸质识别数据和电子提取数据是否存在确定当前状态;
判断不同来源的数据之间的一致性;
评估不同来源的数据的可信度;
根据校验数据源的可信度设置错误的重要等级。
优选的,所述稽核处理包括:
预设稽核规则,
加载数据库中的目标数据文件,根据所述数据稽核规则对所述目标数据库中的所述目标数据文件进行稽核判断,得到数据稽核结果。
本发明第二方面的目的在于提供一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前所述的方法。
本发明的第三方面的目的在于提供一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现如前所述的方法。
本发明的有益效果体现在:
本发明能够通过字段分析规则对数据库中的数据进行第一次质量分析、定位;然后根据数据的初次分析结果以及使用场景进行第二次质量分析:其中当数据库中大范围数据应用于纸质或电子使用时,通过二次校验分析是否存在填写遗漏、填写错误、录入遗漏、录入错误等,可以筛查出初次分析是字段分析规则没能检测出来的问题;当数据库中某一目标文件需要调用时,通过稽核规则,单独对目标文件进行稽核。
因此本发明方法及系统具有多场景适用、分析定位数据质量问题全面、准确的优势。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明分析、定位数据质量问题的方法的流程图;
图2为本发明分析、定位数据质量问题的系统的结构示意图;
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
如图1所示,一种分析、定位数据质量问题的方法,包括:
获取数据库对应的表及字段的结构;
根据预设的字段分析规则,对数据库进行分析;
对数据库数据进行二次校验或稽核处理。
优选的,所述获取数据库对应的表及字段的结构中,数据库中的数据包括若干个待分析的表,所述表结构下包括一个或多个待分析字段;选择任意一个表的任意一个字段进行配置。
则所述根据预设的字段分析规则,对数据库进行分析包括:
标准代码检测:读取所述待分析字段对应的国家标准代码,将所述待分析字段与对应的国家标准代码进行匹配,判断匹配结果;
字段缺失检测:将所述待分析字段逐个对比检测,检测范围包括数字、文字和/或图案,判断检测结果;
字段长度检测:预先设置标准字段的长度,将所述待分析字段与所述标准字段的长度进行比对,判断比对结果。
同类字段检测:将所述待分析字段逐个对比检测,所述检测的范围包括数字、文字和/或图案;判断对比结果。
优选的,所述对数据库数据进行二次校验,包括
汇总数据在纸质与电子状态使用时的质量问题,预设数据库中数据的错误类型;
根据错误类型进行一致性检验,得到数据错误分析结果。
优选的,所述错误类型包括填写遗漏、填写错误、录入遗漏以及录入错误。
优选的,所述根据错误类型进行一致性检验,得到数据错误分析结果,包括:
从数据库中通过数据编号的唯一标识找到相应数据的录入数据、纸质识别数据和电子提取数据并初始化成哈希表;
遍历数据全集,从中取出某一数据字段,根据数据字段名称从三个数据集合中查找数据,根据查找到的录入数据、纸质识别数据和电子提取数据是否存在确定当前状态;
判断不同来源的数据之间的一致性;
评估不同来源的数据的可信度;
根据校验数据源的可信度设置错误的重要等级。
优选的,所述稽核处理包括:
预设稽核规则,
加载数据库中的目标数据文件,根据所述数据稽核规则对所述目标数据库中的所述目标数据文件进行稽核判断,得到数据稽核结果。
本发明分析、定位数据质量问题的方法,能够通过字段分析规则对数据库中的数据进行第一次质量分析、定位;然后根据数据的初次分析结果以及使用场景进行第二次质量分析:其中当数据库中大范围数据应用于纸质或电子使用时,通过二次校验分析是否存在填写遗漏、填写错误、录入遗漏、录入错误等,可以筛查出初次分析是字段分析规则没能检测出来的问题;当数据库中某一目标文件需要调用时,通过稽核规则,单独对目标文件进行稽核。
因此本发明方法具有多场景适用、分析定位数据质量问题全面、准确的优势。
本发明还提供了一种分析、定位数据质量问题的系统,如图2所示,包括处理器和存储器,存储器中存储有程序,程序被处理器运行时,执行如上述分析、定位数据质量问题的方法,达到该方法预期的技术效果。
具体地,上述处理器301可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在一个实例中,存储器302可以包括可移除或不可移除(或固定)的介质,或者存储器302是非易失性固态存储器。存储器302可在综合网关容灾设备的内部或外部。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现图1所示实施例中的方法步骤,并达到图1所示实例执行其方法/步骤达到的相应技术效果,为简洁描述在此不再赘述。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (8)
1.一种分析、定位数据质量问题的方法,其特征在于,包括:
获取数据库对应的表及字段的结构;
根据预设的字段分析规则,对数据库进行分析;
对数据库数据进行二次校验或稽核处理。
2.根据权利要求1所述的分析、定位数据质量问题的方法,其特征在于,所述获取数据库对应的表及字段的结构中,数据库中的数据包括若干个待分析的表,所述表结构下包括一个或多个待分析字段;选择任意一个表的任意一个字段进行配置。
则所述根据预设的字段分析规则,对数据库进行分析包括:
标准代码检测:读取所述待分析字段对应的国家标准代码,将所述待分析字段与对应的国家标准代码进行匹配,判断匹配结果;
字段缺失检测:将所述待分析字段逐个对比检测,检测范围包括数字、文字和/或图案,判断检测结果;
字段长度检测:预先设置标准字段的长度,将所述待分析字段与所述标准字段的长度进行比对,判断比对结果。
同类字段检测:将所述待分析字段逐个对比检测,所述检测的范围包括数字、文字和/或图案;判断对比结果。
3.根据权利要求2所述的分析、定位数据质量问题的方法,其特征在于,所述对数据库数据进行二次校验,包括
汇总数据在纸质与电子状态使用时的质量问题,预设数据库中数据的错误类型;
根据错误类型进行一致性检验,得到数据错误分析结果。
4.根据权利要求3所述的分析、定位数据质量问题的方法,其特征在于,所述错误类型包括填写遗漏、填写错误、录入遗漏以及录入错误。
5.根据权利要求4所述的分析、定位数据质量问题的方法,其特征在于,所述根据错误类型进行一致性检验,得到数据错误分析结果,包括:
从数据库中通过数据编号的唯一标识找到相应数据的录入数据、纸质识别数据和电子提取数据并初始化成哈希表;
遍历数据全集,从中取出某一数据字段,根据数据字段名称从三个数据集合中查找数据,根据查找到的录入数据、纸质识别数据和电子提取数据是否存在确定当前状态;
判断不同来源的数据之间的一致性;
评估不同来源的数据的可信度;
根据校验数据源的可信度设置错误的重要等级。
6.根据权利要求1-3任一项所述的分析、定位数据质量问题的方法,其特征在于,所述稽核处理包括:
预设稽核规则,
加载数据库中的目标数据文件,根据所述数据稽核规则对所述目标数据库中的所述目标数据文件进行稽核判断,得到数据稽核结果。
7.一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的方法。
8.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011286527.7A CN112506897A (zh) | 2020-11-17 | 2020-11-17 | 一种分析、定位数据质量问题的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011286527.7A CN112506897A (zh) | 2020-11-17 | 2020-11-17 | 一种分析、定位数据质量问题的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112506897A true CN112506897A (zh) | 2021-03-16 |
Family
ID=74956561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011286527.7A Pending CN112506897A (zh) | 2020-11-17 | 2020-11-17 | 一种分析、定位数据质量问题的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112506897A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591485A (zh) * | 2021-06-17 | 2021-11-02 | 国网浙江省电力有限公司 | 一种基于数据科学的智能化数据质量稽核系统及方法 |
CN116796075A (zh) * | 2023-08-24 | 2023-09-22 | 四维世景科技(北京)有限公司 | 一种问题数据的分析方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109542886A (zh) * | 2018-11-23 | 2019-03-29 | 山东浪潮云信息技术有限公司 | 一种面向政府数据的数据质量检测方法 |
CN110389941A (zh) * | 2019-06-19 | 2019-10-29 | 平安国际智慧城市科技股份有限公司 | 数据库校验方法、装置、设备及存储介质 |
CN111061703A (zh) * | 2019-10-30 | 2020-04-24 | 九次方大数据信息集团有限公司 | 一种提升数据库数据校验质量的测试方法 |
CN111161815A (zh) * | 2019-12-27 | 2020-05-15 | 深圳中兴网信科技有限公司 | 医疗数据检测方法、装置、终端和计算机可读存储介质 |
-
2020
- 2020-11-17 CN CN202011286527.7A patent/CN112506897A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109542886A (zh) * | 2018-11-23 | 2019-03-29 | 山东浪潮云信息技术有限公司 | 一种面向政府数据的数据质量检测方法 |
CN110389941A (zh) * | 2019-06-19 | 2019-10-29 | 平安国际智慧城市科技股份有限公司 | 数据库校验方法、装置、设备及存储介质 |
CN111061703A (zh) * | 2019-10-30 | 2020-04-24 | 九次方大数据信息集团有限公司 | 一种提升数据库数据校验质量的测试方法 |
CN111161815A (zh) * | 2019-12-27 | 2020-05-15 | 深圳中兴网信科技有限公司 | 医疗数据检测方法、装置、终端和计算机可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591485A (zh) * | 2021-06-17 | 2021-11-02 | 国网浙江省电力有限公司 | 一种基于数据科学的智能化数据质量稽核系统及方法 |
CN116796075A (zh) * | 2023-08-24 | 2023-09-22 | 四维世景科技(北京)有限公司 | 一种问题数据的分析方法和装置 |
CN116796075B (zh) * | 2023-08-24 | 2023-10-31 | 四维世景科技(北京)有限公司 | 一种问题数据的分析方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9690788B2 (en) | File type recognition analysis method and system | |
US10387236B2 (en) | Processing data errors for a data processing system | |
CN107273269B (zh) | 日志解析方法及装置 | |
CN112506897A (zh) | 一种分析、定位数据质量问题的方法及系统 | |
JP2019096292A (ja) | 自動化されたソフトウェアプログラム修復候補の選択 | |
CN113190220A (zh) | Json文件差异化对比方法及装置 | |
US10782942B1 (en) | Rapid onboarding of data from diverse data sources into standardized objects with parser and unit test generation | |
CN105760450A (zh) | 一种表单文件解析方法及装置 | |
JP6419667B2 (ja) | テストdbデータ生成方法及び装置 | |
KR101749210B1 (ko) | 다중 서열 정렬 기법을 이용한 악성코드 패밀리 시그니쳐 생성 장치 및 방법 | |
US8069151B1 (en) | System and method for detecting incongruous or incorrect media in a data recovery process | |
JP6588661B2 (ja) | 情報検索精度の評価方法、システム、装置及びコンピュータ読み取り可能な記憶媒体 | |
EP3355240A1 (en) | A method and a system for generating a multi-level classifier for image processing | |
CN112416782A (zh) | 测试结果的验证方法、装置和电子设备 | |
CN110795308A (zh) | 一种服务器检验方法、装置、设备及存储介质 | |
CN111368128A (zh) | 目标图片的识别方法、装置和计算机可读存储介质 | |
US10055341B2 (en) | To-be-stubbed target determining apparatus, to-be-stubbed target determining method and non-transitory recording medium storing to-be-stubbed target determining program | |
CN106844218B (zh) | 一种基于演化切片的演化影响集预测方法 | |
JP2019215867A (ja) | ソースコードのプロパティを検証するための方法およびシステム | |
CN112181838B (zh) | 一种基于图像比对的自动化测试方法 | |
CN116955211B (zh) | 标准符合性测试方法、装置、电子设备及存储介质 | |
CN113138936B (zh) | 数据处理方法、装置、存储介质及处理器 | |
CN114580982B (zh) | 一种工业设备的数据质量的评估方法、装置及设备 | |
CN115017133B (zh) | 一种基于文件的异构数据库数据一致性校验方法 | |
CN118151941A (zh) | 电力物联操作系统的编译优化方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |