CN113590621B

CN113590621B - 一种数据库表比对方法及装置

Info

Publication number: CN113590621B
Application number: CN202110845737.3A
Authority: CN
Inventors: 孙鸿亮; 高志会; 陈勇铨; 胡军擎
Original assignee: Shanghai Information2 Software Inc
Current assignee: Shanghai Information2 Software Inc
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2024-01-23
Anticipated expiration: 2041-07-26
Also published as: CN113590621A

Abstract

本发明公开了一种数据库表比对方法及装置，所述方法包括如下步骤：步骤S1，分别对源端和目标端的数据库表的数据进行任务拆分，将数据库表分成若干分片，并记录源端和目标端的任务分片数量；步骤S2，分别利用若干导出线程从源端和目标端的数据库表中按分片抽取数据记录，并分别实时记录双方导出记录的总数，根据双方导出记录的总数出导出速度快的一方，并计算双方导出记录数量总和的差值，当双方导出记录数量总和的差值达到门限值时，令导出速度快的一方暂时休眠预设时间再执行导出线程；步骤S3，执行对比线程对导入内存中的数据进行源端与目标端的数据库表数据比对。

Description

一种数据库表比对方法及装置

技术领域

本发明涉及计算机数据备份容灾技术领域，特别是涉及一种在对数据库进行表对比时维持源端和目标端抽取数据速度均衡的数据库表比对方法及装置。

背景技术

在数据库实时同步的过程中，经常需要验证某张表的同步数据是否一致，即需要对比源库表和目标库对应表的数据记录。

现有技术中，通常在进行表对比时，会先由不同的导出线程抽取源端和目标端表的数据记录，并将其放在内存中进行消重(具体的消重方法不在本发明讨论的范围之内)。当内存中的数据记录超过一定限制时，会将这些数据写入磁盘，等到双方数据全部导出后将磁盘保存的数据装入内存进行比较，读写磁盘的过程会引入额外的IO，导致效率降低。

其中，表对比效率低存在源端和目标端双方抽取速度不均衡、双方数据记录的内容存在很多不同、双方的数据记录行数有很大差异、对比线程的消重速度慢等多种原因。本发明主要考虑解决第一种原因导致的表对比效率低。

源库表和目标库对应表双方导出记录的速度不一致，会导致在对比线程首次比较数据时，另一方的数据尚未抽取出来，进而导致需要多次比较这些数据，如果消重后残留在内存的数据过多还会存入磁盘；当双方数据记录顺序一致时，因双方导出速度不均衡而需要多次比较，对运行效率的影响很大。对于一些有数千万甚至更多条记录的大容量数据表，这样的情况会使得表对比效率低下的现象更加严重。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种数据库表比对方法及装置，通过控制源端和目标端中抽取速度快的一方的速度，使源端与目标端双方的抽取速度基本均衡，从而提高数据库表比对的效率。

为达上述目的，本发明提供一种数据库表比对方法，包括如下步骤：

步骤S1，分别对源端和目标端的数据库表的数据进行任务拆分，将数据库表分成若干分片，并记录源端和目标端的任务分片数量；

步骤S2，分别利用若干导出线程从源端和目标端的数据库表中按分片抽取数据记录，并分别实时记录双方导出记录的总数，根据双方导出记录的总数出导出速度快的一方，并计算双方导出记录数量总和的差值，当双方导出记录数量总和的差值达到门限值时，令导出速度快的一方暂时休眠预设时间再执行导出线程；

步骤S3，执行对比线程对导入内存中的数据进行源端与目标端的数据库表数据比对。

优选地，所述门限值的初始值在数据库表对比开始之前根据抽取线程数量、抽取速度、内存中可存放的记录总数进行计算并提前配置。

优选地，所述门限值在b*v2*t到50万之间取值，其中，b为慢的一方的导出线程，v2为慢的一方平均每个线程的导出速度，t为快的一方的线程每次休眠时间。

优选地，于步骤S2中，在各导出线程导出数据记录的过程中，分别统计源端与目标端导出时的各自休眠次数，根据源端与目标端的休眠次数调节门限值。

优选地，如果记录的源端与目标端的休眠次数都不为0，则调大所述门限值，并返回步骤S1或将本次表对比执行完毕后再返回步骤S1。

优选地，当源端和目标端中有一方的记录导出完毕，则剩余的一方不再进行双方导出记录数量总和的差值与门限值的判断，也不再休眠。

优选地，在源端与目标端各导出线程执行各自任务分片导出时，每当一个任务分片导出完毕，则使相应端的任务分片数量减一，若某方的任务分片数量减为0，则判断该端的整个数据库表导出完毕。

优选地，于步骤S3中，当源端与目标端导出到内存的数据数量到达预设阈值时，执行对比线程对导入内存中的源端和目标端的数据进行对比消重，若经对比消重后内存的数据仍超过限制，将内存中的数据存入磁盘。

优选地，当源端与目标端的数据记录均导出完毕，将存入磁盘的数据导入内存，执行对比线程对内存的数据进行对比。

为达到上述目的，本发明还提供一种数据库表比对装置，包括：

任务拆分模组，用于分别利用第一任务拆分单元、第二任务拆分单元分别对源端和目标端的数据库表的数据进行任务拆分，将数据库表分成若干分片，并记录源端和目标端的任务分片数量；

导出模组，包括源端导出模组及目标端导出模组，分别利用若干导出线程从源端和目标端的数据库表中按分片抽取数据记录，并分别实时记录双方导出记录的总数，根据双方导出记录的总数判断己方的导出速度是否比对方快，当己方的导出速度比对方快且己方导出记录数量总和与对方的导出记录数量总和的差值达到门限值，则让己方导出线程暂时休眠预设时间再进行导出；

对比模组，用于执行对比线程对导入内存中的数据进行源端与目标端的数据库表数据比对。

与现有技术相比，本发明一种数据库表比对方法及装置通过分别利用若干导出线程从源端和目标端的数据库表中按分片抽取数据记录，分别实时记录双方导出记录的总数，根据双方导出记录的总数出导出速度快的一方，并计算双方导出记录数量总和的差值，当双方导出记录数量总和的差值达到门限值时，令导出速度快的一方暂时休眠预设时间再执行导出线程，从而通过控制源端和目标端中抽取速度快的一方的速度，使源端与目标端双方的抽取速度基本均衡，达到提高数据库表比对的效率的目的。

附图说明

图1为本发明一种数据库表比对方法的步骤流程图；

图2为本发明一种数据库表比对装置的系统架构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种数据库表比对方法的步骤流程图。如图1所示，本发明一种数据库表比对方法，包括如下步骤：

步骤S1，分别对源端和目标端的数据库表的数据进行任务拆分，将数据库表分成若干分片，并记录源端和目标端的任务分片数量。

在本发明中，分别对源端的源数据库表和目标端的目标数据库表进行拆分，例如分别将各端的数据库表拆分为n个分片，并记录源端和目标端的任务分片数量n，两端数据库表拆分的分片数量可以不一致，但为了更好提高数据对比的效率，本发明实施例中对两端数据库表拆分的分片数量相同。

步骤S2，分别利用若干导出线程从源端和目标端的数据库表中按分片抽取数据记录，并分别实时记录双方导出记录的总数，根据双方导出记录的总数判断己方的导出速度是否比对方快，当己方的导出速度比对方快且己方导出记录数量总和与对方的导出记录数量总和的差值达到门限值，则让己方导出线程暂时休眠预设时间再进行导出。

在本发明具体实施例中，假设源端和目标端各有10个导出线程(两端导出线程数量可以不同，但最好一致)，则源端的10个导出线程分别从源端的源数据库表中按分片(假设每个导出线程负责n/10个分片，分片可以不平均，但最好平均)抽取数据记录，同时目标端的10个导出线程也分别从目标端的目标数据库表中按分片(假设每个导出线程负责n/10个分片)抽取数据记录，同时分别实时源端和目标端导出记录的总数(对于源端来说，即10个导出线程导出记录的总数，对于目标端来说，也是10个导出线程导出记录的总数)，判断导出记录总数大的一方导出速度快(由于源端和目标端所有的导出线程在同一个进程下(它们是远程连接到数据库进行导出)，通过互斥锁对内存的变量进行读写即可获得双方的导出记录总数)，并计算导出速度快的一方与导出速度慢的一方的导出记录数量总和的差值，若该差值达到门限值，则让导出速度快的一方暂时休眠预设时间，例如让导出速度快的一方暂时休眠1毫秒。

在本发明具体实施例中，门限值需要在表对比开始之前根据抽取线程数量、抽取速度、内存中可存放的记录总数等进行计算并提前配置。它的设定要考虑两个因素：第一，不能影响对比速度，让快的一方暂时休眠，但仍让其的抽取进度保持一定的超前，保证双方的残留记录较为均衡，所以这个值不能太小，太小的话休眠之后，慢方的进度就会超过快方；第二，单个队列的长度有限，超过一定限度之后会将数据存入磁盘，因此这个数值不能太小。

具体地，假设源端有a个导出线程，平均每个线程的导出速度为v1条/毫秒；目标端有b个导出线程，平均每个线程的导出速度为v2条/毫秒，设定快的线程每次休眠t毫秒。假定源端导出速度快，即v1>v2，快的一方的线程每全部休眠一次，慢的一方总计可以抽取b*v2*t条记录。为保证快的一方在休眠后的抽取进度仍处于领先状态，快的一方在休眠时抽取的记录总数与慢的一方的差值不能小于b*v2*t，即门限值的下限为b*v2*t条记录。通常，快的一方的记录总数比慢的一方多50万是可以接受的，双方导出速度大体接近，即门限值的上限为50万条记录，所以门限值可以在b*v2*t到50万之间取值。在本发明具体实施例中，门限值初始默认值设置为16万。

例如，源端和目标端各有10个导出线程，其中慢的一方每线程每秒导出100万行记录，内存中可存放400万条记录。快的线程每次休眠1毫秒。它们每全部休眠一次，慢的一方总计可以抽取1万条记录。通常，门限值的上限为50万条记录，在本例中快的一方的记录总数:慢的一方的记录总数＝225万:175万。为保证快的一方在休眠后的抽取进度仍处于领先状态，快的一方抽取的记录总数与慢的一方的差值不能小于1万。即门限值的下限为1万条记录，所以门限值可以在1万到50万之间取值。

优选地，于步骤S2中，在导出线程导出数据记录过程中，分别统计源端与目标端导出时的各自休眠次数，根据源端与目标端的休眠次数调节门限值。在本发明具体实施例中，于内存中分别记录源端和目标端导出时的休眠次数，如果源端与目标端的休眠次数都不为0，则需要调大门限值。正常情况是一方有值、另一方为零，如果双方都有值，说明抽取快的一方在休眠后被慢的一方超过，因此则需要调大门限值；如果双方都为零，说明双方的抽取速度基本均衡，即只有在双方的休眠次数都不为0时才需调节门限值。当需要调大门限值时，可根据经验先将门限值增大10％，返回步骤S1重新执行表对比。具体地来说，若调整后只有一方有值，说明门限值处于合理的区间内，否则需要继续增大，直到只有一方有值而另一方为零。需注意的是，调整门限值时一般不能超过上限。在实际使用过程中，进行表对比，当发现对比效率不如预期，根据日志发现双方都有休眠，则调大门限值，让本次表对比执行完毕，再返回步骤S1执行下次表对比，当然也可以立即停止并返回步骤S1，本发明不以此为限。

优选地，当源端和目标端中有一方的记录已导出完毕时，剩余的一方则不再对门限值进行判断，即不再休眠。

具体地说，当源端与目标端导出到内存的数据到达一定限制(例如达到预设的阈值)时，则执行对比线程对导入内存中的源端和目标端的数据进行对比消重，若经对比消重后内存的数据仍超过限制，则将内存中的数据存入磁盘(若未超限制则保留在内存中)。

当源端与目标端的数据记录均导出完毕，会将存入磁盘的数据导入内存，并执行对比线程对内存的数据进行对比。

经过步骤S2的调整后，源端和目标端的抽取速度较为均衡，对比线程更可能在首次比较数据时就完成对比，不需要多次比较数据，也无需将数据再保存在内存或磁盘中，提高了大表对比的效率。

图2为本发明一种数据库表比对装置的系统架构图。如图2所示，本发明一种数据库表比对装置，包括：

任务拆分模组201，用于分别利用第一任务拆分单元、第二任务拆分单元分别对源端和目标端的数据库表的数据进行任务拆分，将数据库表分成若干分片，并记录源端和目标端的任务分片数量。

在本发明中，第一任务拆分单元、第二任务拆分单元分别设置于源端与目标端，分别对源端的源数据库表和目标端的目标数据库表进行拆分，例如分别将各端的数据库表拆分为n个分片，并记录源端和目标端的任务分片数量n。

导出模组202，包括源端导出模组及目标端导出模组，分别利用若干导出线程从源端和目标端的数据库表中按分片抽取数据记录，并分别实时记录双方导出记录的总数，根据双方导出记录的总数判断己方的导出速度是否比对方快，当己方的导出速度比对方快且己方导出记录数量总和与对方的导出记录数量总和的差值达到门限值，则让己方导出线程暂时休眠预设时间再进行导出。

在本发明具体实施例中，假设源端导出模组和目标端导出模组各有10个导出线程，则源端导出模组的10个导出线程分别从源端的源数据库表中按分片(假设每个导出线程负责n/10个分片)抽取数据记录，同时目标端导出模组的10个导出线程也分别从目标端的目标数据库表中按分片(假设每个导出线程负责n/10个分片)抽取数据记录，同时分别实时源端和目标端导出记录的总数(对于源端来说，即10个导出线程导出记录的总数，对于目标端来说，也是10个导出线程导出记录的总数)，判断导出记录总数大的一方导出速度快，并计算导出速度快的一方与导出速度慢的一方的导出记录数量总和的差值，若该差值达到门限值，则让导出速度快的一方暂时休眠预设时间，例如让导出速度快的一方暂时休眠1毫秒。

优选地，在导出线程导出数据记录过程中，源端导出模组及目标端导出模组分别统计源端与目标端导出时的各自休眠次数，本发明之数据库表比对装置还包括门限值调节单元，用于根据源端与目标端的休眠次数调节门限值。在本发明具体实施例中，源端导出模组及目标端导出模组分别统计的源端与目标端导出时的各自休眠次数记录于内存中，如果源端与目标端的休眠次数都不为0，则门限值调节单元会将门限值调大。正常情况是一方有值、另一方为零，如果双方都有值，说明抽取快的一方在休眠后被慢的一方超过，所以需要调大门限值；如果双方都为零，说明双方的抽取速度基本均衡。当需要调大门限值时，门限值调节单元可根据经验先将门限值增大10％，并重新返回导出模组202继续导出数据以执行表对比，监测源端与目标端的休眠次数，若调整后只有一方有值，说明门限值处于合理的区间内，否则需要继续增大，直到只有一方有值而另一方为零。需注意的是，调整门限值时一般不能超过上限。

优选地，当源端导出模组或目标端导出模组判断出对方的数据记录已导出完毕，则不再对门限值进行判断，即不进行休眠处理。在本发明具体实施例中，若某端的任务分片数量减为0，说明该端的整个表导出完毕，则剩余的一方不再对门限值进行判断，即不再休眠。

对比模组203，用于执行对比线程对导入内存中的数据进行源端与目标端的数据库表数据比对。

具体地说，当源端与目标端导出到内存的数据到达一定限制(例如达到预设的阈值)时，对比模组203则执行对比线程对导入内存中的源端和目标端的数据进行对比消重，若经对比消重后内存的数据仍超过限制，则将内存中的数据存入磁盘(若未超限制则保留在内存中)。

当源端与目标端的数据记录均导出完毕，对比模组203将存入磁盘的数据导入内存，执行对比线程对内存的数据进行对比。

经过导出模组202的调整后，源端和目标端的抽取速度较为均衡，对比线程更可能在首次比较数据时就完成对比，不需要多次比较数据，也不需要将数据再保存在内存或磁盘中，提高了大数据表对比的效率。

实施例

在本实施例中，一种数据库表比对方法，步骤如下：

步骤一，对源端和目标端的数据进行任务拆分，将表分成若干分片，并记录源端和目标端的任务分片数量。

步骤二，利用不同的导出线程分别从源端和目标端的表中按分片抽取数据记录，分别实时记录双方导出记录的总数，并判断己方的导出速度是否比对方快。当己方的导出速度比对方快，且己方导出记录数量总和与对方的差值达到门限值时，让己方休眠1毫秒。

步骤三，每当一个任务分片导出完毕，则使该方的任务分片数量减一。

步骤四，如果某方的任务分片数量减为0，说明该方的整个表导出完毕，则剩余的一方不再对门限值进行判断，即不再休眠。

经过上述调整后，源端和目标端的抽取速度则较为均衡，对比线程更可能在首次比较数据时就完成对比，不需要多次比较数据，也不需要将数据再保存在内存或磁盘中，提高了大表对比的效率。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种数据库表比对方法，包括如下步骤：

步骤S2，分别利用若干导出线程从源端和目标端的数据库表中按分片抽取数据记录，并分别实时记录双方导出记录的总数，根据双方导出记录的总数出导出速度快的一方，并计算双方导出记录数量总和的差值，当双方导出记录数量总和的差值达到门限值时，令导出速度快的一方暂时休眠预设时间再执行导出线程；在各导出线程导出数据记录的过程中，分别统计源端与目标端导出时的各自休眠次数，根据源端与目标端的休眠次数调节门限值；

2.如权利要求1所述的一种数据库表比对方法，其特征在于：所述门限值的初始值在数据库表对比开始之前根据抽取线程数量、抽取速度、内存中可存放的记录总数进行计算并配置。

3.如权利要求2所述的一种数据库表比对方法，其特征在于：所述门限值在b*v2*t到50万之间取值，其中，b为慢的一方的导出线程个数，v2为慢的一方平均每个线程的导出速度，t为快的一方的线程每次休眠时间。

4.如权利要求1所述的一种数据库表比对方法，其特征在于：如果记录的源端与目标端的休眠次数都不为0，则调大所述门限值，并返回步骤S1或将本次表对比执行完毕后再返回步骤S1。

5.如权利要求2所述的一种数据库表比对方法，其特征在于：当源端和目标端中有一方的记录导出完毕，则剩余的一方不再进行双方导出记录数量总和的差值与门限值的判断，也不再休眠。

6.如权利要求5所述的一种数据库表比对方法，其特征在于：在源端与目标端各导出线程执行各自任务分片导出时，每当一个任务分片导出完毕，则使相应端的任务分片数量减一，若某方的任务分片数量减为0，则判断该端的整个数据库表导出完毕。

7.如权利要求1所述的一种数据库表比对方法，其特征在于：于步骤S3中，当源端与目标端导出到内存的数据数量到达预设阈值时，执行对比线程对导入内存中的源端和目标端的数据进行对比消重，若经对比消重后内存的数据仍超过限制，将内存中的数据存入磁盘。

8.如权利要求7所述的一种数据库表比对方法，其特征在于：当源端与目标端的数据记录均导出完毕，将存入磁盘的数据导入内存，执行对比线程对内存的数据进行对比。

9.一种数据库表比对装置，包括：

导出模组，包括源端导出模组及目标端导出模组，分别利用若干导出线程从源端和目标端的数据库表中按分片抽取数据记录，并分别实时记录双方导出记录的总数，根据双方导出记录的总数判断己方的导出速度是否比对方快，当己方的导出速度比对方快且己方导出记录数量总和与对方的导出记录数量总和的差值达到门限值，则让己方导出线程暂时休眠预设时间再进行导出；在各导出线程导出数据记录的过程中，分别统计源端与目标端导出时的各自休眠次数，根据源端与目标端的休眠次数调节门限值；