CN109101603B - 一种数据比对方法、装置、设备及存储介质 - Google Patents

一种数据比对方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109101603B
CN109101603B CN201810865306.1A CN201810865306A CN109101603B CN 109101603 B CN109101603 B CN 109101603B CN 201810865306 A CN201810865306 A CN 201810865306A CN 109101603 B CN109101603 B CN 109101603B
Authority
CN
China
Prior art keywords
data
group data
group
summary information
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810865306.1A
Other languages
English (en)
Other versions
CN109101603A (zh
Inventor
尹淑彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Dameng Database Co Ltd
Original Assignee
Shanghai Dameng Database Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Dameng Database Co Ltd filed Critical Shanghai Dameng Database Co Ltd
Priority to CN201810865306.1A priority Critical patent/CN109101603B/zh
Publication of CN109101603A publication Critical patent/CN109101603A/zh
Application granted granted Critical
Publication of CN109101603B publication Critical patent/CN109101603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据比对方法、装置、设备及存储介质。该方法包括:获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据;提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序;输出排序后的组数据中与其他数据表中组数据不一致的组数据标识,通过本发明的技术方案,以实现比较同数据库或不同数据库中表中的数据,且效率较高。

Description

一种数据比对方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据库技术,尤其涉及一种数据比对方法、装置、设备及存储介质。
背景技术
随着数据库信息系统的广泛应用,从一个数据库中抽取所需的对象数据并将其迁移到另一数据库中已成为常见的数据库操作,迁移后数据的一致性检验是对数据迁移质量的检查,保证迁移前后数据的一致性至关重要。
通常,数据迁移后一致性检验包括:数据对象一致、数据量大小一致、数据内容一致等三个方面的检验。本发明目的是提供一种检验不同数据库中任意两张表的数据内容是否一致的方法,可用于检验数据迁移后表数据包括数据量和数据内容是否一致。
一般来说,有两张数据表A和B,若表A与表B的数据行数相等,且表A 中的每一行数据在表B中都可以找到匹配的行,表B中的每一行数据在表A中也可以找到匹配的行,则认为表A与表B的数据一致。目前常用的表数据对比方法有两种:一种是利用SQL语句的NOT IN子查询,一种是将待比较的两张表的数据读取到内存,通过程序进行循环对比。第一种方法由于使用SQL语句,只能对比在同一个数据库中的两张表,而数据迁移常常是将数据从一个数据库迁移到另一个数据库,此时这种方法就不适用了。第二种方法一般要求表中有主键列或唯一非空列,用于确认进行比对的行,对于没有主键列或唯一非空列的情况,则需要进行循环遍历以确认比对行,效率非常低。也有改进的方法是将两张表都按照指定列排序后再进行比对的,但是当表中没有主键列或唯一非空列时排序的效率也会很低。
发明内容
本发明实施例提供一种数据存储方法、装置、设备及存储介质,以实现比较同数据库或不同数据库(同构、异构皆可)中两张表中的数据,且效率较高。
第一方面,本发明实施例提供了一种数据比对方法,包括:
获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据;
提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序;
输出排序后的组数据中与其他数据表中组数据不一致的组数据标识。
进一步的,获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据之前,还包括:
从至少一个数据库中读取至少两张数据表。
进一步的,获取至少两张数据表中组数据的标识和摘要信息包括:
获取两张数据表中组数据的行标识符;
计算所述组数据的摘要信息;
将所述行标识符和所述摘要信息对应存储至第一阻塞队列和第二阻塞队列。
进一步的,提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序包括:
提取所述第一阻塞队列和所述第二阻塞队列中行标识符相同而摘要信息不同的组数据;
将提取出的所述第一阻塞队列中的组数据以及对应的行标识符存储至第三阻塞队列;
将提取出的所述第二阻塞队列中的组数据以及对应的行标识符存储至第四阻塞队列;
将所述第三阻塞队列中的组数据插入临时数据库的第一临时表中;
将所述第四阻塞队列中的组数据插入临时数据库的第二临时表中;
根据所述第一临时表中的组数据的摘要信息调整所述第一临时表中的组数据的顺序;
根据所述第二临时表中的组数据的摘要信息调整所述第二临时表中的组数据的顺序。
进一步的,输出排序后的组数据中与其他数据表中组数据不一致的组数据标识包括:
读取排序后的第一临时表中的组数据和排序后的第二临时表中的组数据;
输出所述排序后的第一临时表中的组数据和排序后的第二临时表中的组数据不一致的组数据标识。
进一步的,所述摘要信息为信息-摘要算法5的计算值。
第二方面,本发明实施例还提供了一种数据比对装置,该装置包括:
获取模块,用于获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据;
提取模块,用于提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序;
输出模块,用于输出排序后的组数据中与其他数据表中组数据不一致的组数据标识。
进一步的,还包括:
读取模块,用于从至少一个数据库中读取至少两张数据表。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的数据比对方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的数据比对方法。
本发明实施例通过获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据;提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序;输出排序后的组数据中与其他数据表中组数据不一致的组数据标识,以实现比较同数据库或不同数据库中表中的数据,且效率较高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例一中的一种数据比对方法的流程图;
图2A是本发明实施例二中的一种数据比对方法的流程图;
图2B是本发明实施例二中的一种数据比对方法的图示;
图2C是本发明实施例二中的ExtraDataTask任务线程执行流程图;
图2D是本发明实施例二中的CompareTask1第一阶段对比任务线程执行流程图;
图2E是本发明实施例二中的LoadDataTask任务线程执行流程图;
图2F是本发明实施例二中的CompareTask2第二阶段对比任务线程执行流程图;
图3是本发明实施例三中的一种数据比对装置的结构示意图;
图4是本发明实施例四中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例一
图1为本发明实施例一提供的一种数据比对方法的流程图,本实施例可适用于数据比对的情况,该方法可以由本发明实施例中的数据比对装置来执行,该装置可采用软件和/或硬件的方式实现,如图1所示,该方法具体包括如下步骤:
S110,获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据。
其中,所述组数据可以为一行数据,也可以为一列数据,相应的,若所述组数据为一行数据,则组数据的标识为行标识符,若所述组数据为一列数据,则组数据的标识为列标识符。
其中,表中组数据的摘要信息均不相同,也就是说摘要信息为组数据的指纹,不同的组数据的摘要信息不同。例如可以是,表A中第一行数据的摘要信息为A、第二行数据的摘要信息为B,则A与B一定不同。
其中,所述至少两张数据表之间的关系为同一张表进行迁移之后的表,例如可以是,数据库A中的表A迁移到数据库B中,得到表B,所述至少两张数据表也就指的是表A和表B。
具体的,获取至少两张数据表中组数据的标识,并根据组数据计算摘要信息,每张数据表包括至少一组数据。
可选的,获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据之前,还包括:
从至少一个数据库中读取至少两张数据表。
具体的,所述至少两张数据表可以为从同一数据库中读取的,也可以为从不同数据库中读取的,也就是说,本发明实施例不但可以对同一数据库中至少两张表中数据进行比较,也可以对不同数据库中的至少两张表中的数据进行比较。例如可以是,读取数据库A中的表Q,读取数据库B中的表W,比较表Q和表W中的数据。
S120,提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序。
其中,提取不同数据表中标识相同而摘要信息不同的组数据为对不同数据表中的数据进行比对,比对方式为,将不同数据表中标识相同的数据进行比对,提取不同数据表中标识相同而摘要信息不同的组数据,例如可以是,表A与表 B进行比对,比对表A的第一行与表B的第一行的摘要信息,表A的第二行与表B的第二行的摘要信息,表A的第三行与表B的第三行的摘要信息(表A和表B仅有三行数据);若表A的第一行与表B的第一行的摘要信息相同,表A 的第二行与表B的第二行的摘要信息不同,表A的第三行与表B的第三行的摘要信息不同,则提取表A的第二行与表B的第二行的数据和表A的第三行与表 B的第三行的数据。
其中,将提取出的每张数据表中的组数据按照摘要信息排序的方式可以为,按照摘要信息由大到小的顺序排序,也可以为按照摘要信息由小到大的顺序排序,本发明实施例对此不进行限制。
具体的,对至少两张数据表中的组数据的摘要信息进行对比,提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序,例如可以是,若提取出的数据为:表A的第二行与表B 的第二行的数据和表A的第三行与表B的第三行的数据,则根据表A的第二行与表B的第二行的摘要信息和表A的第三行与表B的第三行的摘要信息对表A 的第二行与表B的第二行的数据和表A的第三行与表B的第三行的数据进行排序,例如表A第二行的摘要信息大于表A第三行的摘要信息,则将表A的第三行数据排在表A的第二行数据之前,同理,若表B的三行的摘要信息大于表B 第二行的摘要信息,则将表B的第二行数据排在表B的第三行数据之前。
S130,输出排序后的组数据中与其他数据表中组数据不一致的组数据标识。
具体的,将不同数据表中排序后的组数据进行比对,输出排序后的组数据中与其他数据表中组数据不一致的组数据标识。例如可以是,表A排序后的组数据为:表A的第三行数据排在表A的第二行数据之前;表B排序后的组数据为:表B的第二行数据排在表B的第三行数据之前。将表A的第三行数据与表 B的第二行数据进行比对;若表A的第三行数据的摘要信息小于表B的第二行数据的摘要信息,则表B中不存在与表A的第三行数据摘要信息相同的数据,则获取数据表A的第三行数据的标识。接着,将表A的第二行数据与表B的第二行数据的摘要信息进行比对,若表A的第二行数据与表B的第二行数据的摘要信息相同,则表A中不存在表B的第三行数据,获取表B的第三行数据的标识。
具体的,比较排序后的组数据与其他数据表中组数据的摘要信息,先将排序后的组数据与其他数据表中组数据的第一行或者第一列进行比对,根据第一行或者第一列的比对结果来确定后面哪一行跟哪一行或者哪一列与哪一列对比。需要说明的是,上述比较的方式与排序的顺序相关,例如可以是,若按从小到大的顺序进行排序,则表C中的摘要信息为1,2,3;表D中的摘要信息为2,3,4;首先是表C中的第一行的摘要信息“1”和表D中的第一行的摘要信息“2”对比,由于1小于2,且因为摘要信息是从小到大排序,则认为表D中不会存在比1更小的摘要信息了,则表C中的第一行在表D中是不存在的,但表D中的第一行的摘要信息“2”在表C中不一定不存在,表D中的第一行的摘要信息“2”需要继续跟表C中的第二行的摘要信息进行对比,此时两个摘要信息相同,则再继续比对排序后表D中的第二行的摘要信息和表C中的第3行的摘要信息,以此类推。若按从大到小的顺序进行排序,则表C中的摘要信息为3,2,1;表D 中的摘要信息为4,3,2;首先是表C中的第一行的摘要信息“3”和表D中的第一行的摘要信息“4”对比,由于3小于4,且因为摘要信息是从大到小排序,则认为表C中不会存在比3更大的摘要信息了,则表D中的第一行在表C中是不存在的,但C中的第一行的摘要信息“3”在表D中不一定不存在,表C中的第一行的摘要信息“3”需要继续跟表D中的第二行的摘要信息进行对比,此时两个摘要信息相同,则再继续比对排序后表C中的第二行的摘要信息和表D中的第3行的摘要信息,以此类推。
本实施例的技术方案,通过获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据;提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序;输出排序后的组数据中与其他数据表中组数据不一致的组数据标识,以实现比较同数据库或不同数据库中表中的数据,且效率较高。
实施例二
图2A为本公开实施例中的一种数据比对方法的流程图,本实施例以上述实施例为基础进行优化,在本实施例中,获取至少两张数据表中组数据的标识和摘要信息包括:获取两张数据表中组数据的行标识符;计算所述组数据的摘要信息;将所述行标识符和所述摘要信息对应存储至第一阻塞队列和第二阻塞队列。
如图2A所示,本实施例的方法具体包括如下步骤:
S210,获取两张数据表中组数据的行标识符。
其中,所述行标识符为用于标识当前组数据在数据表中的位置的标识。
S220,计算所述组数据的摘要信息。
其中,计算摘要信息的方式为根据组数据中的数据进行计算。
具体的,分别计算两张数据表中组数据的摘要信息。
S230,将所述行标识符和所述摘要信息对应存储至第一阻塞队列和第二阻塞队列。
其中,阻塞队列具有如下特征,当队列是空的时,从队列中获取元素的操作将会被阻塞,或者当队列是满时,往队列里添加元素的操作会被阻塞。试图从空的阻塞队列中获取元素的线程将会被阻塞,直到其他的线程往空的队列插入新的元素。同样,试图往已满的阻塞队列中添加新元素的线程同样也会被阻塞,直到其他的线程使队列重新变得空闲起来,如从队列中移除一个或者多个元素,或者完全清空队列。
因此,将行标识符和所述摘要信息对应存储至阻塞队列可以有效的防止数据的丢失。
具体的,将两张数据表中组数据的行标识符和摘要信息对应存储至第一阻塞队列和第二阻塞队列,例如可以是,两张数据表为表A和表B,则将表A中组数据的行标识符和摘要信息存储至第一阻塞队列,将表B中组数据的行标识符和摘要信息存储至第二阻塞队列。
S240,提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序。
可选的,提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序包括:
提取所述第一阻塞队列和所述第二阻塞队列中行标识符相同而摘要信息不同的组数据。
具体的,对比第一阻塞队列和第二阻塞队列中的组数据的摘要信息,提取第一阻塞队列和第二阻塞队列中行标识符相同而摘要信息不同的组数据,例如可以是,对比第一阻塞队列中表A的第一行数据的摘要信息与第二阻塞队列中表B的第一行数据的摘要信息,第一阻塞队列中表A的第二行数据的摘要信息与第二阻塞队列中表B的第二行数据的摘要信息,第一阻塞队列中表A的第三行数据的摘要信息与第二阻塞队列中表B的第三行数据的摘要信息,提取第一阻塞队列和第二阻塞队列中行标识符相同而摘要信息不同的组数据。
将提取出的所述第一阻塞队列中的组数据以及对应的行标识符存储至第三阻塞队列。
举例说明,若第一阻塞队列中表A的第二行数据的摘要信息与第二阻塞队列中表B的第二行数据的摘要信息不同,第一阻塞队列中表A的第三行数据的摘要信息与第二 阻塞队列中表B的第三行数据的摘要信息不同,则提取第一阻塞队列中表A的第二行数据以及对应的行标识符和第三行数据以及对应的行标识符存储至第三阻塞队列。
将提取出的所述第二阻塞队列中的组数据以及对应的行标识符存储至第四阻塞队列。
举例说明,提取第二阻塞队列中表B的第二行数据以及对应的行标识符和第三行数据以及对应的行标识符存储至第四阻塞队列。
将所述第三阻塞队列中的组数据插入临时数据库的第一临时表中。
需要说明的是,若临时数据库中存在第一临时表,则将第三阻塞队列存储至第一临时表中,若临时数据库中不存在第一临时表,则先在临时数据库中建立第一临时表,再将第三阻塞队列存储至第一临时表。
将所述第四阻塞队列中的组数据插入临时数据库的第二临时表中。
需要说明的是,若临时数据库中存在第二临时表,则将第三阻塞队列存储至第二临时表中,若临时数据库中不存在第二临时表,则先在临时数据库中建立第二临时表,再将第三阻塞队列存储至第二临时表。
根据所述第一临时表中的组数据的摘要信息调整所述第一临时表中的组数据的顺序。
具体的,调整第一临时表中的组数据的顺序的方式可以为根据摘要信息从小到大的顺序对组数据的顺序进行调整,也可以为根据摘要信息从大到小的顺序对组数据的顺序进行调整,本发明实施例对此不进行限制。
根据所述第二临时表中的组数据的摘要信息调整所述第二临时表中的组数据的顺序。
需要说明的是,调整第二临时表中的组数据的顺序的方式与调整第一临时表中组数据的顺序的方式相同,也就是说,若调整第一临时表中的组数据的顺序的方式为根据摘要信息从小到大的顺序对组数据的顺序进行调整,则调整第二临时表中的组数据的顺序的方式也为根据摘要信息从小到大的顺序对组数据的顺序进行调整。
S250,输出排序后的组数据中与其他数据表中组数据不一致的组数据标识。
可选的,输出排序后的组数据中与其他数据表中组数据不一致的组数据标识包括:
读取排序后的第一临时表中的组数据和排序后的第二临时表中的组数据。
输出所述排序后的第一临时表中的组数据和排序后的第二临时表中的组数据不一致的组数据标识。
需要说明的是,输出排序后的组数据中与其他数据表中组数据不一致的组数据标识可以为输出排序后组数据中数据与其他数据表中组数据中数据不一致的组数据标识,也可以为输出排序后组数据的摘要信息与其他数据表中组数据的摘要信息不一致的组数据。
在一个具体的例子中,数据迁移一般具有迁移后数据顺序保持基本不变的特点,基于此,第一阶段,按照两张表中的行顺序依次进行对比,如果存在两表中位置对应的数据行的MD5值不一致时,记录不一致的数据行信息;第二阶段,将第一阶段记录的不一致的数据行进行排序,然后进行比较,最终确认不一致的数据行信息。表A的数据如下表所示:
表A
行标识符 MD5值 数据
1 1 A
2 3 B
3 7 C
4 5 E
5 4 D
6 9 F
迁移后表B的数据如下表所示:
表B
Figure BDA0001750767910000131
Figure BDA0001750767910000141
使用本发明实施例的方法对表A和表B的MD5值进行对比。第一阶段:按行顺序依次对两张表的数据行的MD5值进行对比,即表A的第一行的MD5值与表B的第一行的MD5值对比,表A的第二行的MD5值与表B的第二行的MD5值对比……对比后发现表A的第三、四、五行的MD5值与表B的对应行的MD5值不一致,将这三行记录下来。第二阶段:对记录的不一致的行进行排序再进行比较,如将表A、B不一致的三行按MD5值排序后,表A生成临时表A1,表B 生成临时表B1,表A1的数据如下所示:
表A1
行标识符 MD5值
5 4
4 5
3 7
表B1的数据如下所示:
表B1
行标识符 MD5值
5 2
3 5
4 7
然后再次对这两个临时表的MD5值进行逐行对比,得到最终的对比结果:表A的第5行在表B中没有匹配的行;表B的第5行在表A中没有匹配的行。
在另一个具体的例子中,如图2B所示,ExtraDataTask任务线程:从数据库的表中读取数据,并计算MD5值,把每行数据的行标识符和对应数据行的MD5 值放入阻塞队列1,也就是将数据库A中的每行数据的行标识符和对应数据行的MD5值放入阻塞队列A1中,将数据库B中的每行数据的行标识符和对应数据行的MD5值放入阻塞队列B1中。CompareTask1第一阶段对比任务线程:当两个表的阻塞队列1(阻塞队列A1和阻塞队列B1)中有数据时,分别从中取出数据,按行对比MD5值,把MD5值不一致的数据行的行标识符和MD5值放入表对应的阻塞队列2,也就是将数据库A中的每行数据与数据库B中的对应行的数据不同的数据放入阻塞队列A2中;将数据库B中的每行数据与数据库A中的对应行的数据不同的数据放入阻塞队列B2中。LoadDataTask任务线程:当两个表的阻塞队列2(阻塞队列A2和阻塞队列B2)有数据时,分别从中取出数据(行标识符和MD5值),插入临时数据库的各自对应的临时表中。CompareTask2第二阶段对比任务线程:对临时库的临时表中的数据进行排序,然后取出数据,对MD5值进行对比。
在另一个具体的例子中,总体执行流程为:第一阶段:两个ExtraDataTask 任务线程并发从两个数据库中读取需要对比的表的数据,并计算对应数据行的 MD5值,存放在各自的阻塞队列1中。同时有一个对比线程CompareTask1从两个阻塞队列1中取出对应的MD5值进行对比,如果全部数据都一致,则对比结束,不需要进行第二阶段对比,否则,把不一致的数据各自放入表对应的阻塞队列2。在第二阶段,两个数据装载线程LoadDataTask分别从两个阻塞队列2 中把不一致的数据插入到临时库中的两张临时表,之后第二阶段对比线程CompareTask2将两张表的数据按MD5值各自进行排序,再进行数据对比。具体的:ExtraDataTask任务线程的执行步骤如下,流程图如图2C所示:按行读取待对比表A或表B的数据及行标识符;计算数据行的MD5值;把行标示符及对应的数据行MD5值放入阻塞队列A1或B1,如果队列满,则阻塞等待;重复读取待对比表A或表B的数据及行标识符,直到表的所有数据都处理完毕,向阻塞队列A1或B1中放入一个空标记,处理结束。CompareTask1第一阶段对比任务线程执行步骤如下,流程图如图2D所示,步骤1、从阻塞队列A1中取出一行数据,设为阻塞队列A1的当前行;步骤2、从阻塞队列B1中取出一行数据,设为阻塞队列B1的当前行;步骤3、如果阻塞队列A1和阻塞队列B1的当前行都为空标记,向阻塞队列A2和阻塞队列B2放入空标记,处理结束。步骤4、如果阻塞队列A1的当前行为空标记,则直接确定阻塞队列B1的当前行为不一致数据,放入对应的阻塞队列B2,转步骤2;步骤5、如果阻塞队列B1的当前行为空标记,则直接确定阻塞队列A1的当前行为不一致数据,放入对应的阻塞队列A2,从阻塞队列A1中取出一行数据,设为阻塞队列A1的当前行,转步骤3。步骤6、对比阻塞队列A1和阻塞队列B1的当前行,如果阻塞队列A1和阻塞队列B1的当前行的MD5值相等,数据一致,转步骤1;步骤7、否则,数据不一致,阻塞队列A1的数据放入阻塞队列A2,阻塞队列B1的数据放入阻塞队列B2,转步骤1。LoadDataTask任务线程执行步骤如下,流程图如图2E所示:从阻塞队列A2或阻塞队列B2取出一行数据;如果临时表不存在,在表A(或表B)所在的数据库创建临时表A’或B’;将取出的数据插入到对应的临时表A’或B’中;如果取出的数据为空标记,处理结束;否则,重复执行上述步骤。 CompareTask2第二阶段对比任务线程执行步骤如下,流程图如图2F所示:步骤1、将临时表A’和B’按MD5值排序;步骤2、从临时表A’中读取一行数据,设为A’的当前行;步骤3、从临时表B’中读取一行数据,设为临时表B’的当前行;步骤4、若临时表A’的当前行和临时表B’的当前行都为空标记,处理结束;步骤5、否则,若临时表A’的当前行为空标记,记录临时表B’的当前行的行标示符为在表A中不存在的数据,转步骤3;步骤6、否则,若临时表B’的当前行为空标记,记录临时表A’的当前行的行标示符为在表B中不存在的数据,从临时表A’中读取一行数据,设为临时表A’的当前行,转步骤4;步骤7、否则,对比临时表A’的当前行与临时表B’的当前行的MD5值,若临时表A’的当前行的MD5值大于临时表B’的当前行的MD5值,则记录临时表B’的当前行的行标示符为在表A中不存在的数据,转步骤3;若临时表A’的当前行的MD5值小于临时表B’的当前行的MD5值,则记录临时表A’的当前行的行标示符为在表B中不存在的数据,从临时表A’中读取一行数据,设为临时表A’的当前行,转步骤4;若临时表A’的当前行的MD5值等于临时表B’的当前行的MD5值,转步骤2。
需要说明的是,上述各流程步骤中都是一行一行地处理数据的,也可以在一些步骤中采用批量数据处理方式,进一步提高效率。例如,ExtraDataTask 任务线程可以当计算了M行(M为预先设定的阈值)数据的MD5值后,一次性将这M行数据的行标示符和MD5值写入阻塞队列A1或阻塞队列B1。又例如, CompareTask1第一阶段对比任务线程的执行步骤中,可以一次性从阻塞队列A1 和阻塞队列B1中取出一批数据,再一行一行地进行对比。又例如,CompareTask1 第一阶段对比任务线程的执行步骤中,可以先将不一致的数据记录在一个内存缓冲区中,当记录的数据达到N行(N为预先设定的阈值)时,一次性将这N 行数据写入阻塞队列A2或阻塞队列B2。又例如,LoadDataTask任务线程可以一次性从阻塞队列A2或阻塞队列B2中取出一批数据,并将这批数据插入到对应的临时表中。
本实施例的技术方案,通过获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据;提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序;输出排序后的组数据中与其他数据表中组数据不一致的组数据标识,以实现比较同数据库或不同数据库中表中的数据,且效率较高。
实施例三
图3为本发明实施例三提供的一种数据比对装置的结构示意图。本实施例可适用于数据比对的情况,该装置可采用软件和/或硬件的方式实现,该装置可集成在任何提供数据比对功能的设备中,如图3所示,所述数据比对装置具体包括:获取模块310、提取模块320和输出模块330。
其中,获取模块310,用于获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据;
提取模块320,用于提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序;
输出模块330,用于输出排序后的组数据中与其他数据表中组数据不一致的组数据标识。
可选的,还包括:
读取模块,用于从至少一个数据库中读取至少两张数据表。
可选的,获取模块具体用于:
获取两张数据表中组数据的行标识符;
计算所述组数据的摘要信息;
将所述行标识符和所述摘要信息对应存储至第一阻塞队列和第二阻塞队列。
可选的,提取模块具体用于:
提取所述第一阻塞队列和所述第二阻塞队列中行标识符相同而摘要信息不同的组数据;
将提取出的所述第一阻塞队列中的组数据以及对应的行标识符存储至第三阻塞队列;
将提取出的所述第二阻塞队列中的组数据以及对应的行标识符存储至第四阻塞队列;
将所述第三阻塞队列中的组数据插入临时数据库的第一临时表中;
将所述第四阻塞队列中的组数据插入临时数据库的第二临时表中;
根据所述第一临时表中的组数据的摘要信息调整所述第一临时表中的组数据的顺序;
根据所述第二临时表中的组数据的摘要信息调整所述第二临时表中的组数据的顺序。
可选的,输出模块具体用于:
读取排序后的第一临时表中的组数据和排序后的第二临时表中的组数据;
输出所述排序后的第一临时表中的组数据和排序后的第二临时表中的组数据不一致的组数据标识。
可选的,所述摘要信息为信息-摘要算法5的计算值。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
本实施例的技术方案,通过获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据;提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序;输出排序后的组数据中与其他数据表中组数据不一致的组数据标识,以实现比较同数据库或不同数据库中表中的数据,且效率较高。
实施例四
图4为本发明实施例四中的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12 的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器 28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA) 总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA) 局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如 CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/ 输出(I/O)接口22进行。另外,本实施例中的计算机设备12,显示器24不是作为独立个体存在,而是嵌入镜面中,在显示器24的显示面不予显示时,显示器24的显示面与镜面从视觉上融为一体。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/ 或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的数据比对方法,也即,处理单元16执行所述程序时实现:获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据;提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序;输出排序后的组数据中与其他数据表中组数据不一致的组数据标识。
实施例五
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的数据比对方法,也即,执行时实现:获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据;提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序;输出排序后的组数据中与其他数据表中组数据不一致的组数据标识。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、 Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN) —连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (7)

1.一种数据比对方法,其特征在于,包括:
获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据;
提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序;
输出排序后的组数据中与其他数据表中组数据不一致的组数据标识;
其中,获取至少两张数据表中组数据的标识和摘要信息包括:
获取第一数据表中组数据的行标识符和第二数据表中组数据的行标识符;
计算所述第一数据表中组数据的摘要信息和所述第二数据表中组数据的摘要信息;
将所述第一数据表中组数据的行标识符和所述第一数据表中组数据的摘要信息存储至第一阻塞队列,将所述第二数据表中组数据的行标识符和所述第二数据表中组数据的摘要信息存储至第二阻塞队列;
其中,提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序包括:
提取所述第一阻塞队列和所述第二阻塞队列中行标识符相同而摘要信息不同的组数据;
将提取出的所述第一阻塞队列中的组数据以及对应的行标识符存储至第三阻塞队列;
将提取出的所述第二阻塞队列中的组数据以及对应的行标识符存储至第四阻塞队列;
将所述第三阻塞队列中的组数据插入临时数据库的第一临时表中;
将所述第四阻塞队列中的组数据插入临时数据库的第二临时表中;
根据所述第一临时表中的组数据的摘要信息调整所述第一临时表中的组数据的顺序;
根据所述第二临时表中的组数据的摘要信息调整所述第二临时表中的组数据的顺序;
其中,输出排序后的组数据中与其他数据表中组数据不一致的组数据标识包括:
读取排序后的第一临时表中的组数据和排序后的第二临时表中的组数据;
输出所述排序后的第一临时表中的组数据和排序后的第二临时表中的组数据不一致的组数据标识;
其中,输出所述排序后的第一临时表中的组数据和排序后的第二临时表中的组数据不一致的组数据标识,包括:
若第一临时表的当前行的组数据的摘要信息大于第二临时表的当前行的组数据的摘要信息,则记录第二临时表的当前行的行标示符为在第一数据表中不存在的数据;
若第一临时表的当前行的组数据的摘要信息小于第二临时表的当前行的组数据的摘要信息,则记录第一临时表的当前行的行标示符为在第二数据表中不存在的数据。
2.根据权利要求1所述的方法,其特征在于,获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据之前,还包括:
从至少一个数据库中读取至少两张数据表。
3.根据权利要求1-2中任一项所述的方法,其特征在于,所述摘要信息为信息-摘要算法5的计算值。
4.一种数据比对装置,其特征在于,包括:
获取模块,用于获取至少两张数据表中组数据的标识和摘要信息,每张数据表包括至少一组数据;
提取模块,用于提取不同数据表中标识相同而摘要信息不同的组数据,并将提取出的每张数据表中的组数据按照摘要信息排序;
输出模块,用于输出排序后的组数据中与其他数据表中组数据不一致的组数据标识;
其中,获取模块具体用于:
获取第一数据表中组数据的行标识符和第二数据表中组数据的行标识符;
计算所述第一数据表中组数据的摘要信息和所述第二数据表中组数据的摘要信息;
将所述第一数据表中组数据的行标识符和所述第一数据表中组数据的摘要信息存储至第一阻塞队列,将所述第二数据表中组数据的行标识符和所述第二数据表中组数据的摘要信息存储至第二阻塞队列;
其中,提取模块具体用于:
提取所述第一阻塞队列和所述第二阻塞队列中行标识符相同而摘要信息不同的组数据;
将提取出的所述第一阻塞队列中的组数据以及对应的行标识符存储至第三阻塞队列;
将提取出的所述第二阻塞队列中的组数据以及对应的行标识符存储至第四阻塞队列;
将所述第三阻塞队列中的组数据插入临时数据库的第一临时表中;
将所述第四阻塞队列中的组数据插入临时数据库的第二临时表中;
根据所述第一临时表中的组数据的摘要信息调整所述第一临时表中的组数据的顺序;
根据所述第二临时表中的组数据的摘要信息调整所述第二临时表中的组数据的顺序;
其中,输出模块具体用于:
读取排序后的第一临时表中的组数据和排序后的第二临时表中的组数据;
输出所述排序后的第一临时表中的组数据和排序后的第二临时表中的组数据不一致的组数据标识;
其中,输出模块还用于:
若第一临时表的当前行的组数据的摘要信息大于第二临时表的当前行的组数据的摘要信息,则记录第二临时表的当前行的行标示符为在第一数据表中不存在的数据;
若第一临时表的当前行的组数据的摘要信息小于第二临时表的当前行的组数据的摘要信息,则记录第一临时表的当前行的行标示符为在第二数据表中不存在的数据。
5.根据权利要求4所述的装置,其特征在于,还包括:
读取模块,用于从至少一个数据库中读取至少两张数据表。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-3中任一所述的方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的方法。
CN201810865306.1A 2018-08-01 2018-08-01 一种数据比对方法、装置、设备及存储介质 Active CN109101603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810865306.1A CN109101603B (zh) 2018-08-01 2018-08-01 一种数据比对方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810865306.1A CN109101603B (zh) 2018-08-01 2018-08-01 一种数据比对方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109101603A CN109101603A (zh) 2018-12-28
CN109101603B true CN109101603B (zh) 2021-06-04

Family

ID=64848308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810865306.1A Active CN109101603B (zh) 2018-08-01 2018-08-01 一种数据比对方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109101603B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857806B (zh) * 2018-12-30 2021-07-27 贝壳技术有限公司 数据库表的同步验证方法及装置
CN110134691B (zh) * 2019-05-15 2021-06-01 北京百度网讯科技有限公司 数据校验方法、装置、设备和介质
CN110852058A (zh) * 2019-09-24 2020-02-28 贵阳朗玛信息技术股份有限公司 一种清单比对的方法及装置
CN111143368B (zh) * 2019-12-27 2023-05-12 瀚高基础软件股份有限公司 一种关系型数据库数据对比方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288002A1 (en) * 2002-12-19 2006-12-21 Koninklijke Philips Electronics N.V. Reordered search of media fingerprints
CN101719143A (zh) * 2009-12-01 2010-06-02 北京中科创元科技有限公司 并行处理比对式增量数据抽取方法
CN108170805A (zh) * 2017-12-28 2018-06-15 福建中金在线信息科技有限公司 一种数据表比较方法、装置、电子设备及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288002A1 (en) * 2002-12-19 2006-12-21 Koninklijke Philips Electronics N.V. Reordered search of media fingerprints
CN101719143A (zh) * 2009-12-01 2010-06-02 北京中科创元科技有限公司 并行处理比对式增量数据抽取方法
CN108170805A (zh) * 2017-12-28 2018-06-15 福建中金在线信息科技有限公司 一种数据表比较方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN109101603A (zh) 2018-12-28

Similar Documents

Publication Publication Date Title
CN109101603B (zh) 一种数据比对方法、装置、设备及存储介质
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN109614625B (zh) 标题正文相关度的确定方法、装置、设备及存储介质
US20220012231A1 (en) Automatic content-based append detection
US9213759B2 (en) System, apparatus, and method for executing a query including boolean and conditional expressions
US11609897B2 (en) Methods and systems for improved search for data loss prevention
CN113760839A (zh) 日志数据压缩处理方法、装置、电子设备和存储介质
CN112162976A (zh) 一种数据对账方法、装置、设备及存储介质
CN112867999A (zh) 基于版本的表锁定
CN111563429A (zh) 一种图纸校对方法、装置、电子设备及存储介质
CN113762303B (zh) 图像分类方法、装置、电子设备及存储介质
CN113761185A (zh) 主键提取方法、设备及存储介质
CN111858581A (zh) 一种分页查询的方法、装置、存储介质和电子设备
CN114116811B (zh) 日志处理方法、装置、设备及存储介质
CN114385891B (zh) 数据搜索方法、装置、电子设备及存储介质
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
CN112328630A (zh) 数据查询方法、装置、设备及存储介质
CN110134691B (zh) 数据校验方法、装置、设备和介质
CN111400342A (zh) 数据库更新方法、装置、设备及存储介质
CN110795470A (zh) 一种关联数据获取方法、装置、设备及存储介质
CN110837412A (zh) 一种作业就绪状态判断方法、装置、设备和存储介质
CN114003630B (zh) 一种数据搜索方法、装置、电子设备及存储介质
JP2001147923A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
CN112989823B (zh) 一种日志处理方法、装置、设备及存储介质
US8560981B2 (en) Segmenting integrated circuit layout design files using speculative parsing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant