CN111061703A - 一种提升数据库数据校验质量的测试方法 - Google Patents
一种提升数据库数据校验质量的测试方法 Download PDFInfo
- Publication number
- CN111061703A CN111061703A CN201911046134.6A CN201911046134A CN111061703A CN 111061703 A CN111061703 A CN 111061703A CN 201911046134 A CN201911046134 A CN 201911046134A CN 111061703 A CN111061703 A CN 111061703A
- Authority
- CN
- China
- Prior art keywords
- data
- verification
- database
- quality
- improving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Tests Of Electronic Circuits (AREA)
Abstract
本发明提供了一种提升数据库数据校验质量的测试方法。它包括下列步骤:S1:对单独使用纸质数据和单独使用电子数据可能出现的数据质量问题进行分析汇总;S2:数据的初步校验;S3:根据初步校验的结果和数据质量分析汇总,进行数据库数据的二次校验。该测试方法将纸质数据和电子数据相结合,使得这两部分数据可以互相补充、互相协同地对数据库数据质量进行校验,更全面地覆盖数据问题,减少了漏检和误检的发生,可提升数据库数据校验质量。
Description
技术领域
本发明涉及数据质量分析领域,尤其涉及一种提升数据库数据校验质量的测试方法。
背景技术
纸质数据库和电子数据库均具有重要的意义。传统的数据库单独使用纸质数据对队列研究数据进行校验,在理想情况下,纸质填写规范,字迹清晰,扫描识别准确率100%时,可以检测出所有的录入错误和录入遗漏,无法检测出填写错误和填写遗漏,由于实际纸质的填写可能不够规范,加上识别系统自身的识别率限制,所以在使用纸质识别数据对进行数据质量校验时可能会存在漏检、误检等问题。而另一方面,如果单独使用电子数据对队列研究数据进行校验,对于不同的测试而言来说,数据需求不同,所以电子数据库中的数据很难完全覆盖纸质纸质的所有数据项,可能出现无法判定具体的错误类别、漏检、误检等不必要的错误。
发明内容
为了解决上述现有技术的不足之处,本发明的目的在于提供一种提升数据库数据校验质量的测试方法,以解决传统单独依赖纸质或电子数据库近数据质量校验时容易出现漏检、误检的问题。
为了实现上述目的,本发明提供一种提升数据库数据校验质量的测试方法,它包括下列步骤:S1:对单独使用纸质数据和单独使用电子数据可能出现的数据质量问题进行分析汇总;S2:数据的初步校验;S3:根据初步校验的结果和数据质量分析汇总,进行数据库数据的二次校验。
优选地,所述S1中,需要分类数据库中数据可能存在的错误类型和单独使用纸质数据和单独使用电子数据进行校验分别能够检出哪些错误。
优选地,所述S1中,在数据收集和录入环节中,由于各种系统因素和人为因素可能会导致队列研究数据出现填写遗漏、填写错误、录入遗漏、录入错误。
优选地,所述S2中,对于某项数据来说,如果录入数据不存在,而纸质识别数据存在,则可以判定为录入遗漏。
优选地,所述S2中,如果录入数据和纸质识别数据不一致,则可以判定为录入错误,这种情况包含了录入数据存在而纸质识别数据不存在的情况;
优选地,所述S2中,当录入数据和纸质识别数据同时不存在时,如果电子提取数据存在,则判定为填写遗漏,反之,则不做校验;
优选地,所述S2中,当录入数据和纸质识别数据同时存在并且一致时,如果电子提取数据和它们都不一致,则判定为填写错误,反之,则不做校验。
优选地,所述S3中,所述数据库数据的二次校验包括数据源初始化、状态判断、一致性判断、可信度评估和设置错误五个步骤。
优选地,所述S3中,所述提升数据库数据校验质量的测试方法的运行情况根据录入数据、纸质识别数据和电子提取数据是否存在来确定。
优选地,所述S3中,在所述设置错误阶段需要借用查准率和查全率指标来评估校验的结果,设置错误等级。
同现有技术相比,本发明的有益效果体现在:
(1)本发明将纸质数据和电子数据相结合,使得这两部分数据可以互相补充、互相协同地对数据库数据质量进行校验,更全面地覆盖数据问题,减少漏检和误检的发生,提升数据库数据校验质量
(2)本发明采用多维度的数据对比,提升了数据库数据校验的全面性,实现了数据库数据校验质量测试的可靠性。
附图说明
图1为一种提升数据库数据校验质量的测试方法的流程图;
图2为一种提升数据库数据校验质量的测试方法的初步校验流程图;
图3为一种提升数据库数据校验质量的测试方法的二次校验流程图。
具体实施方式
为了能够进一步了解本发明的结构、特征及其他目的,现结合所附较佳实施例附以附图详细说明如下,本附图所说明的实施例仅用于说明本发明的技术方案,并非限定本发明。
图1为一种提升数据库数据校验质量的测试方法的流程图。它包括下列步骤:S1:对单独使用纸质数据和单独使用电子数据可能出现的数据质量问题进行分析汇总;S2:数据的初步校验;S3:根据初步校验的结果和数据质量分析汇总,进行数据库数据的二次校验。
首先,分类数据库中数据可能存在的错误类型,以及单独使用纸质数据和单独使用电子数据进行校验分别能够检出哪些错误,但同时又会存在哪些不足。
在队列研究的数据收集和录入环节中,由于各种系统因素和人为因素可能会导致队列研究数据出现填写遗漏、填写错误、录入遗漏、录入错误。
填写遗漏指的是本来应该记录在纸质纸质上的数据没有被记录;
填写错误指的是填写在纸质纸质的数据不是真实情况;
录入遗漏指的是纸质纸质上有记录,本来应该录入到队列管理信息系统的数据没有被录入;
录入错误指的是系统中的某项数据与纸质纸质记录的数据不一致。
图2为一种提升数据库数据校验质量的测试方法的初步校验流程图。如何利用纸质识别数据和电子数据检出可能的错误情况。具体流程如下:
M1:对于某项数据来说,如果录入数据不存在,而纸质识别数据存在,则可以判定为录入遗漏;
M2:如果录入数据和纸质识别数据不一致,则可以判定为录入错误,这种情况包含了录入数据存在而纸质识别数据不存在的情况;
M3:当录入数据和纸质识别数据同时不存在时,如果电子提取数据存在,则判定为填写遗漏,反之,则不做校验;
M4:当录入数据和纸质识别数据同时存在并且一致时,如果电子提取数据和它们都不一致,则判定为填写错误,反之,则不做校验。
以上是基于理想情况而抽象概括出来的测试方法,在将测试方法应用于实践时,需要考虑很多因素,情况会复杂得多。因此需要进行进一步的二次校验。
此外,在将测试方法进行实际校验时,需要考虑以下因素:1)录入数据和各个源数据是否存在;2)受限于纸质纸质的识别率与电子的提取准确率和覆盖率,需要考虑纸质识别数据和电子提取数据中某项数据是否准确,检测出来的错误是否可信。
图3为一种提升数据库数据校验质量的测试方法的二次校验流程图。具体的包括如下步骤:
K1:数据源初始化
校验开始前,先从数据库或者文件中通过数据编号的唯一标识找到相应数据的录入数据、纸质识别数据和电子提取数据并初始化成哈希表,便于之后的快速查找。
K2:状态判断
遍历数据全集(数据全集指的是队列研究所需要的全部的数据字段名称的集合),从中取出某一数据字段,根据数据字段名称从三个数据集合中查找数据,根据查找到的录入数据、纸质识别数据和电子提取数据是否存在确定当前状态,也就是说应该进入测试方法中的八大类情况中哪一个状态。
K3:一致性判断
在确定了状态,进入到具体的流程之后,有的需要判断不同来源的数据之间的一致性。因为对于不同的字段来说,数据的类型和表现形式不同,数据类型包括整型、浮点型和字符串等,数据的表现形式包括纯数字、日期、单选项和多选项等,所以需要进行统一化处理后才能做出判断。比如:纸质识别数据中的某日期是字符串形式的“2017/12/21”,而录入数据中相应的数据是日期类型的2017年12月7日,统一转换为形如“YYYY/MM/DD”的字符串后进行比较,可以判断为不一致。又比如纸质识别数据中的身高是字符串形式的“172”,而电子提取数据中的身高是浮点数172.0,统一转换为字符串“172.0”后可以判定为一致。
K4:可信度评估
在确定了状态并进入到具体的流程之后,需要评估不同来源的数据的可信度。对于纸质识别数据来说,显然其可信度基本上由识别率来决定,所以在协同校验方案的实际应用中,可以使用纸质纸质中不同类别数据的的识别率来表征其数据的可信度。标记的识别率和数字的识别率不同,所以可以根据数据的类别属于标记还是属于数字来评估该数据的可信度。同理,对于电子提取数据来说,用提取的准确率表征其数据的可信度。
K5:设置错误
最后一步就是根据前面三个步骤的结果来确定该项数据是否出错,若是,则根据校验数据源的可信度设置错误的重要等級,并记录其他的错误详情,包括数据编码唯一标识、错误的数据字段名称以及错误的具体类型,并存储到数据库中。如果没有出错,则退出本次流程,遍历下一项数据。
查准率、查全率是广泛用于信息检索和统计学分类领域的指标,用来评价结果的质量,取值在0和1之间,越大越好。借用查准率和查全率指标来评估校验的结果,查全率越高说明漏检的数量越少,查准率越高说明误检的数量越少,为了尽可能地找出错误,提升数据质量,查全率的优先级稍高于查准率,但误检的数量也不能太多,否则会给审核人员造成不必要的麻烦。
此外,在测试过程中,需要根据数据字段的名称去数据库中查找录入数据,然后在纸质识别数据和电子提取数据中查找相应的数据项。根据录入数据、纸质识别数据和电子提取数据是否存在,整个测试方法总共包含了8大类情况。
L1:当录入数据不存在时,考虑纸质识别数据和电子提取数据,如果同时不存在,则不做校验,退出流程。
L2:当录入数据不存在时,如果纸质识别数据也不存在,而电子提取数据存在,则可以初步判定检出错误为填写遗漏。
L3:当录入数据不存在时,如果电子提取数据也不存在,而纸质识别数据存在,则可以初步判定检出错误为录入遗漏。
L4:当录入数据不存在时,如果纸质识别数据和电子提取数据同时存在,首先判定两者是否相等。如果相等,可以初步判定检出错误为录入遗漏;如果两者不相等,可以初步判定捡出错误为录入遗漏,但可能同时存在填写错误的情况,需要数据审核人员进一步审核确定。
L5:当录入数据存在时,如果纸质识别数据和电子提取数据同时不存在,可以初步判定检出错误为录入错误。
L6:当录入数据存在时,如果纸质识别数据不存在,而电子提取数据存在,首先可以初步判定为录入错误,如果录入数据和电子提取数据不一致的话,还需要数据审核人员进一步审核确定是否存在其他的错误情况。
L7:当录入数据存在时,如果电子提取数据不存在,而纸质识别数据存在,首先判断录入数据和纸质识别数据是否相等。如杲不相等,则初步判定检出错误为录入错误;如果相等,说明没有错误,直接退出流程。
L8:当录入数据、纸质识别数据和电子提取数据三者同时存在时,
按照三者是否相等,可以继续细分为5种情况。情况1:当三者全部一致时,说明没有错误,直接退出流程。情况2:如果纸质识别数据和电子提取数据相等,而录入数据与其不等,初步判定检出错误为录入错误。情况3:如果录入数据和纸质识别数据相等,而与电子提取数据不等,初步判定检出错误为填写错误。情况4:当录入数据和电子提取数据相等,而与纸质识别数据不等时,初步判定为录入错误,但可能同时存在填写错误的情况,需要数据审核人员进一步审核确定。情况5:当三者两两互不相等时,初步判定录入数据有问题,但无法直接判断错误的类别,需要数据审核人员进一步审核确定。
以上,便是测试方法的八大类情况的全部分析。
需要声明的是,上述发明内容及具体实施方式意在证明本发明所提供技术方案的实际应用,不应解释为对本发明保护范围的限定。本领域技术人员在本发明的精神和原理内,当可作各种修改、等同替换或改进。本发明的保护范围以所附权利要求书为准。
Claims (10)
1.一种提升数据库数据校验质量的测试方法,其特征在于,包括下列步骤:S1:对单独使用纸质数据和单独使用电子数据可能出现的数据质量问题进行分析汇总;S2:数据的初步校验;S3:根据初步校验的结果和数据质量分析汇总,进行数据库数据的二次校验。
2.根据权利要求1所述的一种提升数据库数据校验质量的测试方法,其特征在于,所述S1中,需要分类数据库中数据可能存在的错误类型和单独使用纸质数据和单独使用电子数据进行校验分别能够检出哪些错误。
3.根据权利要求1所述的一种提升数据库数据校验质量的测试方法,其特征在于,所述S1中,在数据收集和录入环节中,由于各种系统因素和人为因素可能会导致队列研究数据出现填写遗漏、填写错误、录入遗漏、录入错误。
4.根据权利要求1所述的一种提升数据库数据校验质量的测试方法,其特征在于,所述S2中,对于某项数据来说,如果录入数据不存在,而纸质识别数据存在,则可以判定为录入遗漏。
5.根据权利要求1所述的一种提升数据库数据校验质量的测试方法,其特征在于,所述S2中,如果录入数据和纸质识别数据不一致,则可以判定为录入错误,这种情况包含了录入数据存在而纸质识别数据不存在的情况。
6.根据权利要求1所述的一种提升数据库数据校验质量的测试方法,其特征在于,所述S2中,当录入数据和纸质识别数据同时不存在时,如果电子提取数据存在,则判定为填写遗漏,反之,则不做校验。
7.根据权利要求1所述的一种提升数据库数据校验质量的测试方法,其特征在于,所述S2中,当录入数据和纸质识别数据同时存在并且一致时,如果电子提取数据和它们都不一致,则判定为填写错误,反之,则不做校验。
8.根据权利要求1所述的一种提升数据库数据校验质量的测试方法,其特征在于,所述S3中,所述数据库数据的二次校验包括数据源初始化、状态判断、一致性判断、可信度评估和设置错误五个步骤。
9.根据权利要求1所述的一种提升数据库数据校验质量的测试方法,其特征在于,所述S3中,所述提升数据库数据校验质量的测试方法的运行情况根据录入数据、纸质识别数据和电子提取数据是否存在来确定。
10.根据权利要求1所述的一种提升数据库数据校验质量的测试方法,其特征在于,所述S3中,在所述设置错误阶段需要借用查准率和查全率指标来评估校验的结果,设置错误等级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911046134.6A CN111061703A (zh) | 2019-10-30 | 2019-10-30 | 一种提升数据库数据校验质量的测试方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911046134.6A CN111061703A (zh) | 2019-10-30 | 2019-10-30 | 一种提升数据库数据校验质量的测试方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111061703A true CN111061703A (zh) | 2020-04-24 |
Family
ID=70298339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911046134.6A Pending CN111061703A (zh) | 2019-10-30 | 2019-10-30 | 一种提升数据库数据校验质量的测试方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061703A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506897A (zh) * | 2020-11-17 | 2021-03-16 | 贵州电网有限责任公司 | 一种分析、定位数据质量问题的方法及系统 |
-
2019
- 2019-10-30 CN CN201911046134.6A patent/CN111061703A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506897A (zh) * | 2020-11-17 | 2021-03-16 | 贵州电网有限责任公司 | 一种分析、定位数据质量问题的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20140379667A1 (en) | Data quality assessment | |
CN105718506A (zh) | 一种科技项目查重对比的方法 | |
CN112966708B (zh) | 一种基于语义相似度的中文众包测试报告聚类方法 | |
CN109165209B (zh) | 数据库中对象类型的数据校验方法、装置、设备及介质 | |
CN115409395B (zh) | 一种水利施工工程的质量验收检查方法及系统 | |
CN114281809B (zh) | 一种多源异构数据清洗方法及装置 | |
CN111125116B (zh) | 定位业务表中代码字段及对应代码表的方法及系统 | |
CN111767350A (zh) | 数据仓库测试方法、装置、终端设备及存储介质 | |
CN112651296A (zh) | 一种无先验知识数据质量问题自动探查方法及系统 | |
CN116842240B (zh) | 一种基于全链路治理管控的数据治理系统 | |
CN116226103A (zh) | 一种基于FPGrowth算法进行政务数据质量检测的方法 | |
CN117725437B (zh) | 一种基于机器学习的数据精准匹配分析方法 | |
Caruso et al. | Telcordia's database reconciliation and data quality analysis tool | |
CN111061703A (zh) | 一种提升数据库数据校验质量的测试方法 | |
CN114491081A (zh) | 基于数据血缘关系图谱的电力数据溯源方法及系统 | |
CN117708102A (zh) | 一种数据标准智能匹配与检查的方法 | |
CN111680082B (zh) | 基于数据整合的政府财政数据采集系统及数据采集方法 | |
CN113254572A (zh) | 一种基于云平台的电子文档分类监管系统 | |
CN113450928A (zh) | 一种药物试验数据控制方法及系统 | |
CN111026743A (zh) | 轨道交通工程项目结构数据标准化方法 | |
CN115525660A (zh) | 一种数据表的校验方法、装置、设备及介质 | |
CN112966901B (zh) | 面向检察业务协同流程的世系数据质量分析与验证方法 | |
CN112967759B (zh) | 基于内存堆栈技术的dna物证鉴定str分型比对方法 | |
CN112036692B (zh) | 一种人员在机构间流动情况的分析方法及分析系统 | |
CN114781369A (zh) | 网络有害信息关键词提取方法和有害关键词库构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200424 |