CN115525660A - 一种数据表的校验方法、装置、设备及介质 - Google Patents
一种数据表的校验方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115525660A CN115525660A CN202211303275.3A CN202211303275A CN115525660A CN 115525660 A CN115525660 A CN 115525660A CN 202211303275 A CN202211303275 A CN 202211303275A CN 115525660 A CN115525660 A CN 115525660A
- Authority
- CN
- China
- Prior art keywords
- data table
- data
- sub
- file
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012795 verification Methods 0.000 title claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 52
- 238000011161 development Methods 0.000 claims abstract description 45
- 238000012360 testing method Methods 0.000 claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims description 17
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种数据表的校验方法、装置、设备及介质。该方法包括:获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表;其中,第一数据表和第二数据表均是基于开发任务生成的;将第一数据表、第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件;基于信息摘要算法分别对第一待处理文件和第二待处理文件处理,得到与第一待处理文件对应的第一摘要值以及与第二待处理文件对应的第二摘要值;若第一摘要值与第二摘要值不一致,则对第一数据表和第二数据表折半处理,并基于折半处理后得到的子数据表的摘要值的比对结果,确定第一数据表的校验结果,实现了对数据表的校验,提高校验的准确性和效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据表的校验方法、装置、设备及介质。
背景技术
当前,随着大数据行业的发展,数据加工中对于数据准确性的要求也日益提高,但在数据准确性的测试中,庞大的数据量使得测试人员无法靠人工对加工结果进行一一核对,数据准确性的全量测试便成为了测试工作的一大难点。
而在实际工作中,因项目周期时间与人力有限,目前多采用随机选取部分数据核对的方法、或分析加工公式,依据公式划分等价类,再选取各等价类中的数据方法进行数据准确性验证。但是,使用现有技术方案仅能够选取部分数据,而对于加工公式中等价类拆分是否准确也较大程度依赖测试人员的经验,现有技术无法保证数据的绝对准确,且效率低。
发明内容
本发明提供了一种数据表的校验方法、装置、设备及介质,以实现对数据表的校验,提高校验的准确性和效率。
根据本发明的一方面,提供了一种数据表的校验方法,该方法包括:
获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表;其中,所述第一数据表和所述第二数据表均是基于开发任务生成的;
将所述第一数据表、所述第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件;
基于信息摘要算法分别对所述第一待处理文件和第二待处理文件处理,得到与所述第一待处理文件对应的第一摘要值以及与所述第二待处理文件对应的第二摘要值;
若所述第一摘要值与所述第二摘要值不一致,则对所述第一数据表和第二数据表折半处理,并基于折半处理后得到的子数据表的摘要值的比对结果,确定所述第一数据表的校验结果。
根据本发明的另一方面,提供了一种数据表的校验装置,该装置包括:
数据表获取模块,用于获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表;其中,所述第一数据表和所述第二数据表均是基于开发任务生成的;
文件格式计算模块,用于将所述第一数据表、所述第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件;
摘要值计算模块,用于基于信息摘要算法分别对所述第一待处理文件和第二待处理文件处理,得到与所述第一待处理文件对应的第一摘要值以及与所述第二待处理文件对应的第二摘要值;
校验结果确定模块,用于若所述第一摘要值与所述第二摘要值不一致,则对所述第一数据表和第二数据表折半处理,并基于折半处理后得到的子数据表的摘要值的比对结果,确定所述第一数据表的校验结果。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的数据表的校验方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据表的校验方法。
本发明实施例的技术方案,通过获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表;其中,第一数据表和第二数据表均是基于开发任务生成的;将第一数据表、第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件;基于信息摘要算法分别对第一待处理文件和第二待处理文件处理,得到与第一待处理文件对应的第一摘要值以及与第二待处理文件对应的第二摘要值;若第一摘要值与第二摘要值不一致,则对第一数据表和第二数据表折半处理,并基于折半处理后得到的子数据表的摘要值的比对结果,确定第一数据表的校验结果,解决了现有技术中对数据表的校验仅能够选取部分数据进行校验,而对于加工公式中等价类拆分是否准确也较大程度依赖测试人员的经验,无法保证数据的准确性的问题,实现了对数据表的全量校验,提高校验的准确性和效率。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一所提供的一种数据表的校验方法的流程图;
图2为本发明实施例二提供的一种数据表的校验方法的流程图;
图3为本发明实施例三所适用的文件内容示意图;
图4为本发明实施例四提供的一种数据表的校验装置的结构示意图;
图5为本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在介绍本发明的技术方案之前,先对应用场景进行示例性说明。本发明的技术方案可以应用于需要对开发人员加工的数据表进行验证的场景,可以将开发人员加工的数据表与测试人员加工的数据表进行比对,根据比对结果可以确定开发人员加工的数据表是否准确,如果是不准确的情况下,还可以快速准确的查找出数据表中不准确的区域,实现了对数据表的校验,提高校验的准确性和效率。
实施例一
图1为本发明实施例一所提供的一种数据表的校验方法的流程图,本实施例可适用于需要对开发人员加工的数据表进行验证的场景情况,该方法可以由数据表的校验装置来执行,该装置可以采用硬件和/或软件的形式实现,该装置可配置于具备数据处理的电子设备中,例如,用于数据校验的服务器中。如图1所示,该方法包括:
S110、获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表。
其中,开发侧与开发人员对应,测试侧与测试人员对应,第一数据表和第二数据表均是基于开发任务生成的,第一数据表是开发人根据业务需求写出相应的语句,加工出的数据表,第二数据表是测试人员基于相同的需求所加工生成的数据表。
在本实施例中,开发人员基于业务需求对数据加工得到第一数据表,此时测试人员可以基于需求对数据结果表进行相应的加工得到对应的第二数据表,通过第二数据表对第一数据表进行验证,以确定开发侧人员加工得到的第一数据表是否准确,也就是说通过第二数据表对第一数据表的准确性进行校验。
在上述技术方案的基础上,所述获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表,包括:基于数据查询工具,从目标数据库中查询开发侧按照所述开发任务生成的第一数据表,以及测试侧按照开发任务生成的第二数据表。
其中,目标数据库可以是SQL数据库,数据查询工具可以是用于从SQL数据库查询数据表的语句。
可以理解的是,加工完成的数据表一般是存储在SQL数据库中,因此当需要对第一数据表校验时,可以通过SQL数据库查询数据表的语句从SQL数据库中查找出第一数据表以及与第一数据对应的第二数据表,第一数据表是开发侧的人员按照开发任务加工生成的数据表,第二数据表是测试侧人员按照开发任务加工生成的。
S120、将第一数据表、第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件。
其中,预设文件格式可以是计算机可以识别和存储的文件格式,第一待处理文件与第一数据表相对应,第二待处理文件与第二数据表相对应。
具体的,可以对第一数据表和第二数据表进行序列化处理,也就是将第一数据表从表的形式转换为计算机可以识别和存储的文件格式,得到第一待处理文件;将第一数据表从表的形式转换为计算机可以识别和存储的文件格式,得到第二待处理文件。
在上述技术方案的基础上,所述将所述第一数据表、所述第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件,包括:依据逗号分隔值文件格式对所述第一数据表转换处理,得到所述第一待处理文件;依据逗号分隔值文件格式对所述第二数据表转换处理,得到所述第二待处理文件。
其中,逗号分隔值文件格式指的是csv文件格式。
具体的,可以将第一数据表转换为csv格式的第一待处理文件,以及将第二数据表转换为csv格式的第二待处理文件,并将第一待处理文件和第二待处理文件导出。
S130、基于信息摘要算法分别对第一待处理文件和第二待处理文件处理,得到与第一待处理文件对应的第一摘要值以及与第二待处理文件对应的第二摘要值。
其中,信息摘要算法可以是MD5信息摘要算法,用于对第一待处理文件和第二待处理文件处理,第一摘要值和第二摘要值指的是计算出的MD5值。
具体的,通过MD5信息摘要算法对第一待处理文件和对第二待处理文件进行加密,也就是对文件中的每一位字符,经过64次位运算,并将结果输出为一个32字节的字符串。通过上述算法的计算,可以得到分别与第一待处理文件和第二待处理文件相对应的第一摘要值和第二摘要值。
在本实施例中,通过信息摘要算法计算第一待处理文件和第二待处理文件的摘要值进行比对,上述通过摘要值对的方式可以实现对第一数据表中的所有数据进行校验,解决了现有技术中数据表的校验仅能够选取部分数据进行校验的问题,实现了对数据的全量校验。
S140、若第一摘要值与第二摘要值不一致,则对第一数据表和第二数据表折半处理,并基于折半处理后得到的子数据表的摘要值的比对结果,确定第一数据表的校验结果。
其中,折半处理可以是选出第一数据表的一半数据和第二数据表的一半数据,校验结果指的是对第一数据表准确性校验得到结果。
具体的,如果第一摘要值与第二摘要值不相同,说明第一数据表是与第二数据表存在差异的,也即开发人员加工得到的第一数据表中有部分数据是有问题的,可能是数据表中的某些行或者列的计算公式错误。基于此,可以分别对第一数据表和第二数据表进行折半处理,例如,第一数据表和第二数据表均是n列,比对第一数据表前n/2列的摘要值与第二数据表前n/2列的摘要值,以及比对第一数据表后n/2列的摘要值与第二数据表后n/2列的摘要值,进而确定对第一数据表的校验结果。
在上述技术方案的基础上,还包括:若所述第一摘要值与所述第二摘要值相一致,则确定所述第一数据表的校验结果为校验通过。
具体的,第一摘要值与第二摘要值相一致指的是两个值是相同,当两个数据表的摘要值相同时,说明第一数据表与第二数据表中的数据也是相同的,也即开发人员与测试人员基于同一业务需求对数据加工后得到的数据是相同的,可认为开发人员得到的数据是准确,因此对第一数据表的校验结果为校验通过。
本发明实施例的技术方案,通过获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表;其中,第一数据表和第二数据表均是基于开发任务生成的;将第一数据表、第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件;基于信息摘要算法分别对第一待处理文件和第二待处理文件处理,得到与第一待处理文件对应的第一摘要值以及与第二待处理文件对应的第二摘要值;若第一摘要值与第二摘要值不一致,则对第一数据表和第二数据表折半处理,并基于折半处理后得到的子数据表的摘要值的比对结果,确定第一数据表的校验结果,解决了现有技术中对数据表的校验仅能够选取部分数据进行校验,而对于加工公式中等价类拆分是否准确也较大程度依赖测试人员的经验,无法保证数据的准确性的问题,实现了对数据表的全量校验,提高校验的准确性和效率。
实施例二
图2为本发明实施例二提供的一种数据表的校验方法的流程图,本实施例与上述实施例之间的基础上,详细说明了在第一数据表的摘要值与第二数据表摘要值不一致的情况下,如何对第一数据表和第二数据表折半处理,并确定对第一数据表的校验结果。其中,与上述实施例相同或者相应的技术术语在此不再赘述。如图2所示,该方法包括:
S210、获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表。
S220、将第一数据表、第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件。
S230、基于信息摘要算法分别对第一待处理文件和第二待处理文件处理,得到与第一待处理文件对应的第一摘要值以及与第二待处理文件对应的第二摘要值。
S240、依据预设规则将第一数据表均分为两部分,得到两张第一子数据表。
其中,预设规则可以是对数据表的划分规则,例如,是对数据表按照列划分或者按照行划分,第一子数据表是对第一数据表划分后得到的数据表。
具体的,按照数据表的预设规则对第一数据表进行划分,先确定第一数据表的总列数,将总列数除以二并取整得到m,进而将数据表的前m列的数据作为一个第一子数据表,将数据表中的其余列的数据作为另外一个第一子数据表。
S250、依据预设规则将第二数据表均分为两部分,得到两张第二子数据表。
其中,第二子数据表是对第二数据表划分后得到的数据表。
具体的,可以按照第一数据表的划分方式对第二数据表进行同样的划分处理,得到两张第二子数据表。还需要说明的是,第一数据表与第二数据表的行数与列数是相同的,按照相同的划分方式划分之后,相同位置的子数据表的列数和行数是相同。
S260、确定同一位置的第一子数据表和第二子数据的子摘要值,并确定子摘要值不同的目标第一子数据表和目标第二子数据表,并重复对目标第一子数据表和目标第二子数据表折半处理,并确定同一位置子数据表的子摘要值是否相同的步骤,直至确定出目标异常数据。
其中,目标第一子数据表与第目标第二子数据表的摘要值不同,目标第一子数据表与目标第二子数据表的位置是相对应的,目标异常数据指的是导致第一数据表校验不通过的数据,目标异常数据可以是第一数据表中的部分区域,例如目标数据是第一数据表中的几列或者几行。
具体的,可以按照步骤S220、S230中对第一数据表和第二数据表的处理方式,计算两个第一子数据表的子摘要值和两个第二子数据表的子摘要值,进而将相同位置的第一子数据表的子摘要值与第二子数据表的子摘要值进行对比。可以理解的是,第一子数据表的数量为两个,第二子数据表中的数量也是两个,所以是存在其中一个第一子数据表与对应位置的第二子数据表的子摘要值不同,而另一个第一子数据表与对应位置的第二子数据表的子摘要值相同。此时,可以将摘要值不同第一子数据表和对应位置的第二子数据表分别作为目标第一子数据表和目标第二子数据表,也即异常的数据是在目标第一子数据表所在的范围内。进一步,对目标第一子数据核目标第二子数据表重复折半处理,并重复进行同一位置子数据表的子摘要值的比对步骤,直至确定出具体的目标异常数据。
示例性的,两张第一子数据表分别是表A1和表A2,对应子摘要值分别是D1、D2;两张第二子数据表分别是表B1和表B2,对应子摘要值分别是D3、D4。其中,表A1和表B1位置相同,表A1和表B2位置相同。基于此,可以比对D1与D3是否相同,比对D2与D4是否相同,如果D1与D3相同且D2与D4不相同,说明异常数据在与D2对应的表A2中,可以将A2作为目标第一子数据表,将与A2对应的表B2作为目标第二子数据表,进而对表A2和表B2进行重复折半处理,以及对子摘要值的比对步骤,直至确定出具体的目标异常数据。
在上述基础上,所述确定子摘要值不同的目标第一子数据表和目标第二子数据表,并重复对所述目标第一子数据表和目标第二子数据表折半处理,并确定同一位置子数据表的子摘要值是否相同的步骤,直至确定出目标异常数据,包括:依据预设规则将所述目标第一子数据表均分为两部分,得到两张子数据表;以及依据预设规则将所述目标第二子数据表均分为两部分,得到两张子数据表;若所述同一位置子数据表的摘要值不同,且所述子数据表的列数或者行数为预设数值,则确定所述子数据表中的数据为目标异常数据。
具体的,依据预设规则对目标第一子数据表均分为两部分,得到两张子数据表;以及依据预设规则将所述目标第二子数据表均分为两部分,得到两张子数据表。比对结果子摘要值,如果子摘要值不一致,说明异常数据存在于与目标第一子数据表对应的子数据表中,而且如果该子数据表的列数或行数为预设数值,说明该子数据表的大小范围足够小,可以直接将该子数据表中的数据作为目标异常数据。
本发明实施例的技术方案,通过获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表;其中,第一数据表和第二数据表均是基于开发任务生成的;将第一数据表、第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件;基于信息摘要算法分别对第一待处理文件和第二待处理文件处理,得到与第一待处理文件对应的第一摘要值以及与第二待处理文件对应的第二摘要值;若第一摘要值与第二摘要值不一致,则对第一数据表和第二数据表折半处理,并基于折半处理后得到的子数据表的摘要值的比对结果,确定第一数据表的校验结果,解决了现有技术中对数据表的校验仅能够选取部分数据进行校验,而对于加工公式中等价类拆分是否准确也较大程度依赖测试人员的经验,无法保证数据的准确性的问题,实现了对数据表的全量校验,提高校验的准确性和效率。
实施例三
图3为本发明实施例三所适用的文件内容示意图,本实施例是上述实施例之间的一优选实施例。其中,与上述实施例相同或者相应的技术术语在此不再赘述。该方法包括:
1-序列化:
1.1获取开发人员加工完成的结果表,将需验证的数据列使用SQL查询出来,并导出为csv逗号分隔格式,例如,需验证列数据如表1所示:
表1
编号 | 收入 | 支出 | 余额 |
A | 1000 | 600 | 400 |
B | 2000 | 100 | 1900 |
则序列化为csv格式文件后,文件内容如图3所示,
1.2将测试人员依据业务需求、加工完成的数据按照1.1的方法进行序列化,则可得到另一个csv文件。
MD5摘要提取与对比:
2.1将步骤1.1输出的序列化文件,与步骤1.2输出的序列化文件,分别以MD5算法进行加密,MD5算法简单来说就是将文件中的每一位字符,经过64次位运算,并将结果输出为一个32字节的字符串,具有加密速度快、输出结果精简易比较的特点。
这里我们将1.1输出的序列化文件的MD5值记为M1,1.2输出的序列化文件的MD5值记为M2。
2.2对比M1与M2,若一致,说明数据加工准确,步骤结束。若不一致,则说明数据加工不准确。
不一致定位:本步骤需要使用折半查找法查找不一致的数据范围及数据项
3.1首先,我们对列进行折半查找,假设待验证数据为n列,m等于[n/2]下取整后的数,则可先初始化一个n列1行的表,并将每一单元格初始化为1,如下表2所示:
表2
编号 | 收入 | 支出 | 余额 |
1 | 1 | 1 | 1 |
我们将用0和1分别表示数据不准确和准确,
先分别提取开发人员和测试人员加工的待验证数据的前m列,以及m+1~n列进行MD5摘要提取与对比(步骤2),查看是否一致,可分为以下三种情况:
(1)前m列一致,第m+1~n列不一致,则说明数据不一致出现在m+1~n列,则对第m+1~n列再次进行不一致定位(步骤3)的折半查找。
(2)前m列不一致,第m+1~n列一致,则说明数据不一致出现前m列,则对前m列再次进行不一致定位(步骤3)的折半查找。
(3)前m列与第m+1~n列均不一致,则说明数据不一致情况多余一处,则需对前m列与第m+1~n列分别进行折半查找。
3.2经过3.1所述方法,我们最终可以定位一列或多列的数据不一致情况,我们将不一致的列做标0处理。
3.3一般来说,加工公式错误都会导致整列数据错误,故对于每一个标0的列,我们首先随机抽取部分行的数据,查看开发人员与测试人员加工的结果表是否一致,若不一致,则分析原因并提出加工缺陷上报开发;若一致,则说明此列数据的不一致点存在于个别不容易发现的行中,此时应再次使用3.1与3.2所述的折半查找法,对行进行查找,以确定个别行问题。
因MD5的计算方法可充分利用计算机的计算优势,故本发明所述方法,相较于现有技术,可快速确定数据加工是否准确。
因折半查找的时间复杂度为对数级(O(log2n)),故本发明所述方法,可在大量数据中迅速查找到不一致点,效率较高;而现有技术中只能使用人工核对或写脚本逐一对比,效率较低。
本发明实施例的技术方案,通过获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表;其中,第一数据表和第二数据表均是基于开发任务生成的;将第一数据表、第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件;基于信息摘要算法分别对第一待处理文件和第二待处理文件处理,得到与第一待处理文件对应的第一摘要值以及与第二待处理文件对应的第二摘要值;若第一摘要值与第二摘要值不一致,则对第一数据表和第二数据表折半处理,并基于折半处理后得到的子数据表的摘要值的比对结果,确定第一数据表的校验结果,解决了现有技术中对数据表的校验仅能够选取部分数据进行校验,而对于加工公式中等价类拆分是否准确也较大程度依赖测试人员的经验,无法保证数据的准确性的问题,实现了对数据表的全量校验,提高校验的准确性和效率。
实施例四
图4为本发明实施例四提供的一种数据表的校验装置的结构示意图。如图4所示,该装置包括:
数据表获取模块410,用于获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表;其中,所述第一数据表和所述第二数据表均是基于开发任务生成的;
文件格式计算模块420,用于将所述第一数据表、所述第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件;
摘要值计算模块430,用于基于信息摘要算法分别对所述第一待处理文件和第二待处理文件处理,得到与所述第一待处理文件对应的第一摘要值以及与所述第二待处理文件对应的第二摘要值;
校验结果确定模块440,用于若所述第一摘要值与所述第二摘要值不一致,则对所述第一数据表和第二数据表折半处理,并基于折半处理后得到的子数据表的摘要值的比对结果,确定所述第一数据表的校验结果。
在上述装置的基础上,所述数据表获取模块410,包括:
数据查询模块,用于基于数据查询工具,从目标数据库中查询开发侧按照所述开发任务生成的第一数据表,以及测试侧按照开发任务生成的第二数据表。
在上述装置的基础上,所述文件格式计算模块420,包括:
第一转换模块,用于依据逗号分隔值文件格式对所述第一数据表转换处理,得到所述第一待处理文件;
第二转换模块,用于依据逗号分隔值文件格式对所述第二数据表转换处理,得到所述第二待处理文件。
在上述装置的基础上,还包括:
摘要值比对模块,用于若所述第一摘要值与所述第二摘要值相一致,则确定所述第一数据表的校验结果为校验通过。
在上述装置的基础上,所述校验结果确定模块440,包括:
第一子数据表确定模块,用于依据预设规则将所述第一数据表均分为两部分,得到两张第一子数据表;以及
第二子数据表确定模块,用于依据所述预设规则将所述第二数据表均分为两部分,得到两张第二子数据表。
目标异常数据确定模块,用于确定同一位置的第一子数据表和第二子数据的子摘要值,并确定子摘要值不同的目标第一子数据表和目标第二子数据表,并重复对所述第一目标子数据表和第二子数据表折半处理,并确定同一位置子数据表的子摘要值是否相同的步骤,直至确定出目标异常数据。
本发明实施例的技术方案,通过获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表;其中,第一数据表和第二数据表均是基于开发任务生成的;将第一数据表、第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件;基于信息摘要算法分别对第一待处理文件和第二待处理文件处理,得到与第一待处理文件对应的第一摘要值以及与第二待处理文件对应的第二摘要值;若第一摘要值与第二摘要值不一致,则对第一数据表和第二数据表折半处理,并基于折半处理后得到的子数据表的摘要值的比对结果,确定第一数据表的校验结果,解决了现有技术中对数据表的校验仅能够选取部分数据进行校验,而对于加工公式中等价类拆分是否准确也较大程度依赖测试人员的经验,无法保证数据的准确性的问题,实现了对数据表的全量校验,提高校验的准确性和效率。
本发明实施例所提供的一种数据表的校验装置可执行本发明任意实施例所提供的一种数据表的校验方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例四提供的一种电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图5所示,电子设备50包括至少一个处理器51,以及与至少一个处理器51通信连接的存储器,如只读存储器(ROM)52、随机访问存储器(RAM)53等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器51可以根据存储在只读存储器(ROM)52中的计算机程序或者从存储单元58加载到随机访问存储器(RAM)53中的计算机程序,来执行各种适当的动作和处理。在RAM 53中,还可存储电子设备50操作所需的各种程序和数据。处理器51、ROM 52以及RAM 53通过总线54彼此相连。输入/输出(I/O)接口55也连接至总线54。
电子设备50中的多个部件连接至I/O接口55,包括:输入单元56,例如键盘、鼠标等;输出单元57,例如各种类型的显示器、扬声器等;存储单元58,例如磁盘、光盘等;以及通信单元59,例如网卡、调制解调器、无线通信收发机等。通信单元59允许电子设备50通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器51可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器51的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器51执行上文所描述的各个方法和处理,例如一种数据表的校验方法。
在一些实施例中,一种数据表的校验方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元58。在一些实施例中,计算机程序的部分或者全部可以经由ROM 52和/或通信单元59而被载入和/或安装到电子设备50上。当计算机程序加载到RAM 53并由处理器51执行时,可以执行上文描述的一种数据表的校验方法的一个或多个步骤。备选地,在其他实施例中,处理器51可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行一种数据表的校验方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种数据表的校验方法,其特征在于,包括:
获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表;其中,所述第一数据表和所述第二数据表均是基于开发任务生成的;
将所述第一数据表、所述第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件;
基于信息摘要算法分别对所述第一待处理文件和第二待处理文件处理,得到与所述第一待处理文件对应的第一摘要值以及与所述第二待处理文件对应的第二摘要值;
若所述第一摘要值与所述第二摘要值不一致,则对所述第一数据表和第二数据表折半处理,并基于折半处理后得到的子数据表的摘要值的比对结果,确定所述第一数据表的校验结果。
2.根据权利要求1所述的方法,其特征在于,所述获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表,包括:
基于数据查询工具,从目标数据库中查询开发侧按照所述开发任务生成的第一数据表,以及测试侧按照开发任务生成的第二数据表。
3.根据权利要求1所述的方法,其特征在于,所述将所述第一数据表、所述第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件,包括:
依据逗号分隔值文件格式对所述第一数据表转换处理,得到所述第一待处理文件;
依据逗号分隔值文件格式对所述第二数据表转换处理,得到所述第二待处理文件。
4.根据权利要求1所述的方法,其特征在于,还包括:
若所述第一摘要值与所述第二摘要值相一致,则确定所述第一数据表的校验结果为校验通过。
5.根据权利要求4所述的方法,其特征在于,所述若所述第一摘要值与所述第二摘要值不一致,则对所述第一数据表和第二数据表折半处理,并基于折半处理后得到的子数据表的摘要值的比对结果,确定所述第一数据表的校验结果,包括:
依据预设规则将所述第一数据表均分为两部分,得到两张第一子数据表;以及
依据所述预设规则将所述第二数据表均分为两部分,得到两张第二子数据表。
确定同一位置的第一子数据表和第二子数据的子摘要值,并确定子摘要值不同的目标第一子数据表和目标第二子数据表,并重复对所述目标第一子数据表和目标第二子数据表折半处理,并确定同一位置子数据表的子摘要值是否相同的步骤,直至确定出目标异常数据。
6.根据权利要求5所述的方法,其特征在于,所述确定子摘要值不同的目标第一子数据表和目标第二子数据表,并重复对所述目标第一子数据表和目标第二子数据表折半处理,并确定同一位置子数据表的子摘要值是否相同的步骤,直至确定出目标异常数据,包括:
依据预设规则将所述目标第一子数据表均分为两部分,得到两张子数据表;以及
依据预设规则将所述目标第二子数据表均分为两部分,得到两张子数据表;
若所述同一位置子数据表的摘要值不同,且所述子数据表的列数或者行数为预设数值,则确定所述子数据表中的数据为目标异常数据。
7.一种数据表的校验装置,其特征在于,包括:
数据表获取模块,用于获取与开发侧对应的第一数据表以及与测试侧对应的第二数据表;其中,所述第一数据表和所述第二数据表均是基于开发任务生成的;
文件格式计算模块,用于将所述第一数据表、所述第二数据表分别转换为与预设文件格式相对应的第一待处理文件和第二待处理文件;
摘要值计算模块,用于基于信息摘要算法分别对所述第一待处理文件和第二待处理文件处理,得到与所述第一待处理文件对应的第一摘要值以及与所述第二待处理文件对应的第二摘要值;
校验结果确定模块,用于若所述第一摘要值与所述第二摘要值不一致,则对所述第一数据表和第二数据表折半处理,并基于折半处理后得到的子数据表的摘要值的比对结果,确定所述第一数据表的校验结果。
8.根据权利要求7所述的装置,其特征在于,所述数据表获取模块包括:
数据查询模块,用于基于数据查询工具,从目标数据库中查询开发侧按照所述开发任务生成的第一数据表,以及测试侧按照开发任务生成的第二数据表。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的数据表的校验方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的数据表的校验方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211303275.3A CN115525660A (zh) | 2022-10-24 | 2022-10-24 | 一种数据表的校验方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211303275.3A CN115525660A (zh) | 2022-10-24 | 2022-10-24 | 一种数据表的校验方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115525660A true CN115525660A (zh) | 2022-12-27 |
Family
ID=84702804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211303275.3A Pending CN115525660A (zh) | 2022-10-24 | 2022-10-24 | 一种数据表的校验方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115525660A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118296016A (zh) * | 2024-06-05 | 2024-07-05 | 平凯星辰(北京)科技有限公司 | 数据一致性校验方法、装置、电子设备、存储介质及产品 |
-
2022
- 2022-10-24 CN CN202211303275.3A patent/CN115525660A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118296016A (zh) * | 2024-06-05 | 2024-07-05 | 平凯星辰(北京)科技有限公司 | 数据一致性校验方法、装置、电子设备、存储介质及产品 |
CN118296016B (zh) * | 2024-06-05 | 2024-09-03 | 平凯星辰(北京)科技有限公司 | 数据一致性校验方法、装置、电子设备、存储介质及产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104252481A (zh) | 主从数据库一致性的动态校验方法和装置 | |
CN113568821A (zh) | 一种ai芯片计算性能的测试方法、装置、设备、及介质 | |
US20170091082A1 (en) | Test db data generation apparatus | |
CN108280608B (zh) | 产品寿命分析方法及终端设备 | |
CN115525660A (zh) | 一种数据表的校验方法、装置、设备及介质 | |
CN117724980A (zh) | 软件框架性能的测试方法、装置、电子设备和存储介质 | |
CN116340172A (zh) | 基于测试场景的数据收集方法、装置及测试用例检测方法 | |
CN115455091A (zh) | 数据生成方法、装置、电子设备和存储介质 | |
CN115576831A (zh) | 一种测试案例推荐方法、装置、设备及存储介质 | |
CN113901094B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN115809228A (zh) | 数据比对方法、装置、存储介质及电子设备 | |
CN115794473A (zh) | 一种根因告警的定位方法、装置、设备及介质 | |
CN112486957B (zh) | 数据库迁移检测方法、装置、设备及存储介质 | |
CN114443493A (zh) | 一种测试案例生成方法、装置、电子设备和存储介质 | |
CN115422180A (zh) | 数据校验方法及系统 | |
CN114676054A (zh) | 一种测试数据生成方法、装置、设备、介质及产品 | |
CN114741291A (zh) | 一种漏洞信息自动提交的方法、装置、设备及介质 | |
CN114896418A (zh) | 知识图谱构建方法、装置、电子设备及存储介质 | |
CN114116688A (zh) | 数据处理与数据质检方法、装置及可读存储介质 | |
CN112631852A (zh) | 宏检查方法、装置、电子设备和计算机可读存储介质 | |
CN108269004B (zh) | 产品寿命分析方法及终端设备 | |
CN116401113B (zh) | 一种异构众核架构加速卡的环境验证方法、装置及介质 | |
CN115098405B (zh) | 软件产品的测评方法、装置、电子设备及存储介质 | |
CN115470149A (zh) | 数据库预处理功能测试方法、装置、设备及存储介质 | |
CN118133794B (zh) | 一种表格配置方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |