CN115809230A

CN115809230A - 多数据库结构化数据比对方法、装置及相关设备

Info

Publication number: CN115809230A
Application number: CN202211655280.0A
Authority: CN
Inventors: 葛思江; 周鹏; 黄硕
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-03-17

Abstract

本发明提供一种多数据库结构化数据比对方法、装置及相关设备，该方法包括：在对源端数据库表的数据和目标端数据库表的数据进行分组后，针对源端数据库表和目标端数据库表中的同一数据分组，分别对同一数据分组的L条数据进行散列处理，分别对得到的源端数据库表的散列值和目标端数据库表的散列值进行分组，得到源端数据库表的散列分组和目标端数据库表的的散列分组；针对源端数据库表和目标端数据库表中的同一散列分组，分别将同一散列分组的散列值进行数据拼接，分别得到的源端数据库表的字符串和目标端数据库表的字符串进行标识符计算，比对得到的源端数据库表和目标端数据库表的唯一标识符。通过上述方法能够减少资源占用和提高比对效率。

Description

多数据库结构化数据比对方法、装置及相关设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种多数据库结构化数据比对方法、装置及相关设备。

背景技术

在银行系统中，随着业务逻辑的迭代以及数据量的不断增长，原有数据库逐渐无法满足业务要求，数据迁移逐渐成为刚需。然而，在数据迁移过程中，很可能出现数据丢失、数据损坏等问题。如果数据库数据发生丢失或损坏，则会影响银行线上业务正常运行，甚至造成重大的经济损失。

为避免出现上述情况，在银行数据迁移场景中，对源端数据库与目标端数据库的结构化数据进行一致性比对，并验证目标端数据的完整性是非常有必要的。

在相关技术中，通过人工抽样的方式对结构化数据进行比对，但该方式不仅无法确保数据的一致性，还需要数据库运维人员投入大量精力，导致人力浪费。

在实际应用中，使用数据库自带的pt-table-checksum工具进行结构化数据比对。但是，该工具要求源端数据库和目标端数据库具有主从关系，而在银行的许多数据迁移的场景中，源端数据库和目标端数据库可能处于互不相通的网络环境，pt-table-checksum工具不适用于互不相通的网络环境。

而针对处于互不相通的网络环境的数据库，一般通过执行“select*fromtableorderbykey”语句，得到排序后的查询结果，然后，分别求得源端和目标端数据库查询结果的MD5值并进行比对。但是，排序操作需要耗费大量时间，效率较低，不适用于数据量大的情况。

此外，通过构建哈希表提高比对效率，但是，该方法需要全表查询获取数据，并根据数据库的行数选定装填因子创建一个大哈希表，将占用大量内存资源，且效率较低，在应用不停机的情况下可能影响业务正常运行。

由此可知，现有的数据库结构化数据比对方式资源占用大，且比对效率低。

发明内容

有鉴于此，本发明实施例提供一种多数据库结构化数据比对方法、装置及相关设备，以实现减少资源占用和提高比对效率的目的。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面公开了一种多数据库结构化数据比对方法，所述方法包括：

获取数据库结构化数据，所述数据库结构化数据包括源端数据库表的数据和目标端数据库表的数据；

分别对所述源端数据库表的数据和所述目标端数据库表的数据进行分组，得到所述源端数据库表的数据分组和所述目标端数据库表的的数据分组，每一所述数据分组包含L条数据，所述L为正整数；

针对所述源端数据库表和所述目标端数据库表中的同一所述数据分组，分别对同一所述数据分组的L条数据进行散列处理，得到所述源端数据库表的散列值和所述目标端数据库表的散列值；

分别对所述源端数据库表的散列值和所述目标端数据库表的散列值进行分组，得到所述源端数据库表的散列分组和所述目标端数据库表的的散列分组；

针对所述源端数据库表和所述目标端数据库表中的同一所述散列分组，分别将同一所述散列分组的散列值进行数据拼接，得到所述源端数据库表的字符串和所述目标端数据库表的字符串；

分别对所述源端数据库表的字符串和所述目标端数据库表的字符串进行标识符计算，得到所述源端数据库表的唯一标识符和所述目标端数据库表的唯一标识符；

比对所述源端数据库表的唯一标识符和所述目标端数据库表的唯一标识符。

可选的，所述分别对所述源端数据库表的数据和所述目标端数据库表的数据进行分组，得到所述源端数据库表的数据分组和所述目标端数据库表的的数据分组，包括：

将所述源端数据库表中的i行数据分为M个数据分组，以及将所述目标端数据库表中的i行数据分为M个所述数据分组，其中，前所述M个所述数据分组中的每一所述数据分组包含所述L条数据，最后一个所述数据分组包含i％M条数据，所述M小于等于所述i，所述M和所述i为正整数。

可选的，所述针对所述源端数据库表和所述目标端数据库表中的同一所述数据分组，分别对所述同一所述数据分组的L条数据进行散列处理，得到所述源端数据库表的散列值和所述目标端数据库表的散列值，包括：

在所述源端数据库表和所述目标端数据库表中分别选取同一所述数据分组的所述L条数据；

在所述源端数据库表中，将所述L条数据按行进行拼接，得到所述源端数据库表的第一字符串；

利用信息摘要算法，对所述源端数据库表的第一字符串进行散列值计算，得到所述源端数据库表的第一散列值；

在所述目标端数据库表中，将所述L条数据按行进行拼接，得到所述目标端数据库表的第一字符串；

利用所述信息摘要算法，对所述目标端数据库表的第一字符串进行散列值计算，得到所述目标端数据库表的第一散列值。

可选的，所述分别对所述源端数据库表的散列值和所述目标端数据库表的散列值进行分组，得到所述源端数据库表的散列分组和所述目标端数据库表的的散列分组，包括：

将所述源端数据库表的第一散列值分为N个散列分组，以及将所述目标端数据库表的第一散列值分为N个所述散列分组，其中，每一所述散列分组包含M/N条数据，所述N为正整数。

可选的，所述针对所述源端数据库表和所述目标端数据库表中的同一所述散列分组，分别将同一所述散列分组的散列值进行数据拼接，得到所述源端数据库表的字符串和所述目标端数据库表的字符串，包括：

在所述源端数据库表和所述目标端数据库表中分别选取同一所述散列分组的散列值；

在所述源端数据库表中，依据ASCII码表，将同一所述散列分组的散列值按位转换为十进制数字；

利用求和的方式，将处于同一位的多个所述十进制数字进行拼接，得到所述源端数据库表的第二字符串；

在所述目标端数据库表中，依据ASCII码表，将同一所述散列分组的散列值按位转换为十进制数字；

利用所述求和的方式，将处于同一位的多个所述十进制数字进行拼接，得到所述目标端数据库表的第二字符串。

可选的，所述分别对所述源端数据库表的字符串和所述目标端数据库表的字符串进行标识符计算，得到所述源端数据库表的唯一标识符和所述目标端数据库表的唯一标识符，包括：

在所述源端数据库表中，对所述源端数据库表的第二字符串进行散列值计算，得到所述源端数据库表的第二散列值；

将所述源端数据库表的第二散列值作为所述源端数据库表的每N个所述散列分组的唯一标识符；

在所述目标端数据库表中，对所述目标端数据库表的第二字符串进行散列值计算，得到所述目标端数据库表的第二散列值；

将所述目标端数据库表的第二散列值作为所述目标端数据库表的每N个所述散列分组的唯一标识符。

可选的，所述比对所述源端数据库表的唯一标识符和所述目标端数据库表的唯一标识符，包括：

利用Myers差分算法，比对所述源端数据库表的N个所述唯一标识符和所述目标端数据库表的N个所述唯一标识符。

若所述N个所述唯一标识符的比对结果均一致，确定所述源端数据库表的和所述目标端数据库表的数据迁移前后一致；

若所述N个所述唯一标识符的比对结果不一致，确定所述源端数据库表的和所述目标端数据库表的数据迁移前后不一致。

本发明实施例第二方面公开了一种多数据库结构化数据比对装置，所述装置包括：

获取模块，用于获取数据库结构化数据，所述数据库结构化数据包括源端数据库表的数据和目标端数据库表的数据；

数据分组模块，用于分别对所述源端数据库表的数据和所述目标端数据库表的数据进行分组，得到所述源端数据库表的数据分组和所述目标端数据库表的的数据分组，每一所述数据分组包含L条数据，所述L为正整数；

散列处理模块，用于针对所述源端数据库表和所述目标端数据库表中的同一所述数据分组，分别对同一所述数据分组的L条数据进行散列处理，得到所述源端数据库表的散列值和所述目标端数据库表的散列值；

散列分组模块，用于分别对所述源端数据库表的散列值和所述目标端数据库表的散列值进行分组，得到所述源端数据库表的散列分组和所述目标端数据库表的的散列分组；

数据拼接模块，用于针对所述源端数据库表和所述目标端数据库表中的同一所述散列分组，分别将同一所述散列分组的散列值进行数据拼接，得到所述源端数据库表的字符串和所述目标端数据库表的字符串；

标识符计算模块，用于分别对所述源端数据库表的字符串和所述目标端数据库表的字符串进行标识符计算，得到所述源端数据库表的唯一标识符和所述目标端数据库表的唯一标识符；

比对模块，用于比对所述源端数据库表的唯一标识符和所述目标端数据库表的唯一标识符。

本发明实施例第三方面公开了一种电子设备，所述电子设备包括处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于调用并执行所述存储器中存储的计算机程序时，实现如本发明实施例第一方面中任一项所述的多数据库结构化数据比对方法。

本发明实施例第四方面公开了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如本发明实施例第一方面中任一项所述的多数据库结构化数据比对方法。

基于上述本发明实施例提供的一种多数据库结构化数据比对方法、装置及相关设备，所述方法包括：获取数据库结构化数据，所述数据库结构化数据包括源端数据库表的数据和目标端数据库表的数据；分别对所述源端数据库表的数据和所述目标端数据库表的数据进行分组，得到所述源端数据库表的数据分组和所述目标端数据库表的的数据分组，每一所述数据分组包含L条数据，所述L为正整数；针对所述源端数据库表和所述目标端数据库表中的同一所述数据分组，分别对同一所述数据分组的所述L条数据进行散列处理，得到所述源端数据库表的散列值和所述目标端数据库表的散列值；分别对所述源端数据库表的散列值和所述目标端数据库表的散列值进行分组，得到所述源端数据库表的散列分组和所述目标端数据库表的的散列分组；针对所述源端数据库表和所述目标端数据库表中的同一所述散列分组，分别将同一所述散列分组的散列值进行数据拼接，得到所述源端数据库表的字符串和所述目标端数据库表的字符串；分别所述源端数据库表的字符串和所述目标端数据库表的字符串进行标识符计算，得到所述源端数据库表和所述目标端数据库表的唯一标识符；比对所述源端数据库表和所述目标端数据库表的唯一标识符。在本方案中，在对源端数据库表的数据和目标端数据库表的数据进行分组后，对分组后的源端数据库表的数据和目标端数据库表的数据进行数据散列处理、数据拼接处理和标识符计算，得到源端数据库表和目标端数据库表的唯一标识符并进行比对，从而减少资源占用和提高比对效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种多数据库结构化数据比对方法的流程示意图；

图2为本发明实施例提供的一种分别对同一数据分组的L条数据进行散列处理的流程示意图；

图3为本发明实施例提供的一种分别将同一散列分组的散列值进行数据拼接的流程示意图；

图4为本发明实施例提供的一种分别对源端数据库表的字符串和目标端数据库表的字符串进行标识符计算的流程示意图；

图5为本发明实施例提供的一种比对源端数据库表的唯一标识符和目标端数据库表的唯一标识符的流程示意图；

图6为本发明实施例提供的一种多数据库结构化数据比对装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

为了便于理解本发明的技术方案，对本发明中出现的技术术语进行说明：

结构化数据：结构化数据也称作行数据，是用二维表结构来逻辑表达实现的数据，可通过关系型数据库进行存储和管理。

由背景技术可知，现有的数据库结构化数据比对方式资源占用大，且比对效率低。

因此，本发明实施例提供一种多数据库结构化数据比对方法、装置及相关设备，在本方案中，在对源端数据库表的数据和目标端数据库表的数据进行分组后，对分组后的源端数据库表的数据和目标端数据库表的数据进行数据散列处理、数据拼接处理和标识符计算，得到源端数据库表和目标端数据库表的唯一标识符并进行比对，从而减少资源占用和提高比对效率。

如图1所示，为本发明实施例提供的一种多数据库结构化数据比对方法的流程示意图。

该多数据库结构化数据比对方法主要包括以下步骤：

步骤S101：获取数据库结构化数据。

在步骤S101中，数据库结构化数据包括源端数据库表的数据和目标端数据库表的数据。

在具体实现步骤S101的过程中，获取数据库结构化数据，即获取源端数据库表的数据和目标端数据库表的数据。

步骤S102：分别对源端数据库表的数据和目标端数据库表的数据进行分组，得到源端数据库表的数据分组和目标端数据库表的的数据分组。

在步骤S102中，每一数据分组包含L条数据。

其中，L为正整数。

在具体实现步骤S102的过程中，将源端数据库表的数据进行分组，得到源端数据库表的多个数据分组，以及将目标端数据库表的数据进行分组，得到目标端数据库表的的多个数据分组。

可选的，在一具体实施例中，将源端数据库表中的i行数据分为M个数据分组，以及将目标端数据库表中的i行数据分为M个数据分组。

其中，前M个数据分组中的每一数据分组包含L条数据，最后一个数据分组包含i％M条数据，M小于等于i，M和i为正整数。

可以理解的是，在获取源端数据库表的数据和目标端数据库表的数据后，依据数据库表业务繁忙程度和数据量情况，对数据库表中的数据进行分批，从而数据库管理员可灵活掌握数据比对进度，避免长时间停机影响线上业务。然后，将源端数据库表及目标端数据库表中的i行数据分为M(M<＝i)组，前M组中的每组包含L(L＝i/M)条数据，最后一组包含i％M条数据，后续每轮数据比对仅校验组内数据的一致性。

步骤S103：针对源端数据库表和目标端数据库表中的同一数据分组，分别对同一数据分组的L条数据进行散列处理，得到源端数据库表的散列值和目标端数据库表的散列值。

在具体实现步骤S103的过程中，确定源端数据库表和目标端数据库表中对应的同一数据分组，针对源端数据库表和目标端数据库表中的同一数据分组，分别对同一数据分组的L条数据进行散列处理，也就是说，对源端数据库表中对应的同一数据分组的L条数据进行散列处理，得到源端数据库表的散列值，以及，对目标端数据库表中对应的同一数据分组的L条数据进行散列处理，得到目标端数据库表的散列值。

可选的，执行步骤S103针对源端数据库表和目标端数据库表中的同一数据分组，分别对同一数据分组的L条数据进行散列处理，得到源端数据库表的散列值和目标端数据库表的散列值的过程，如图2所示，为本发明实施例提供的一种分别对同一数据分组的L条数据进行散列处理的流程示意图，主要包括以下步骤：

步骤S201：在源端数据库表和目标端数据库表中分别选取同一数据分组的L条数据。

在具体实现步骤S201的过程中，在源端数据库表和目标端数据库表中分别选取同一数据分组的L条数据，也就是说，确定源端数据库表和目标端数据库表中对应的同一数据分组，并选取同一数据分组的L条数据。

步骤S202：在源端数据库表中，将L条数据按行进行拼接，得到源端数据库表的第一字符串。

在具体实现步骤S202的过程中，在源端数据库表中，将选取的同一数据分组的L条数据按行进行拼接，得到源端数据库表的第一字符串。

例如，第5组中的第1条数据为C₅(1)，第5组中的第2条数据为C₅(2)，第5组中的第L-1条数据为C₅(L-1)，第5组中的第L条数据为C₅(L)，则将第5组的L条数据按行进行拼接，得到C₅＝C₅(1)C₅(2)...C₅(L-1)C₅(L)。

步骤S203：利用信息摘要算法，对源端数据库表的第一字符串进行散列值计算，得到源端数据库表的第一散列值。

在步骤S203中，信息摘要算法包括但不限于MD5。

第一散列值为长度32位的散列值。

在具体实现步骤S203的过程中，在源端数据库表中，利用信息摘要算法，对拼接得到的源端数据库表的第一字符串进行散列值计算，得到源端数据库表的长度为32位的第一散列值。

步骤S204：在目标端数据库表中，将L条数据按行进行拼接，得到目标端数据库表的第一字符串。

在具体实现步骤S204的过程中，在目标端数据库表中，将选取的同一数据分组的L条数据按行进行拼接，得到目标端数据库表的第一字符串，具体过程可参见步骤S202中的例子。

步骤S205：利用信息摘要算法，对目标端数据库表的第一字符串进行散列值计算，得到目标端数据库表的第一散列值。

在具体实现步骤S205的过程中，在目标端数据库表中，利用信息摘要算法，对拼接得到的目标端数据库表的第一字符串进行散列值计算，得到目标端数据库表的长度为32位的第一散列值。

步骤S104：分别对源端数据库表的散列值和目标端数据库表的散列值进行分组，得到源端数据库表的散列分组和目标端数据库表的的散列分组。

在具体实现步骤S104的过程中，将源端数据库表的散列值进行分组，得到源端数据库表的多个散列分组，以及将目标端数据库表的散列值进行分组，得到目标端数据库表的的多个散列分组。

可选的，在一具体实施例中，将源端数据库表的第一散列值分为N个散列分组，以及将目标端数据库表的第一散列值分为N个散列分组。

其中，每一散列分组包含M/N条数据，N为正整数。

可以理解的是，分别在源端数据库表和目标端数据库表将上述计算得到的源端数据库表的第一散列值和目标端数据库表的第一散列值分为N组，每组包含M/N条数据。

步骤S105：针对源端数据库表和目标端数据库表中的同一散列分组，分别将同一散列分组的散列值进行数据拼接，得到源端数据库表的字符串和目标端数据库表的字符串。

在具体实现步骤S105的过程中，确定源端数据库表和目标端数据库表中对应的同一散列分组，针对源端数据库表和目标端数据库表中的同一散列分组，分别将同一散列分组的散列值进行数据拼接，也就是说，对源端数据库表中对应的同一散列分组的第一散列值进行数据拼接，得到源端数据库表的字符串，以及，对目标端数据库表中对应的同一散列分组的第一散列值进行数据拼接，得到目标端数据库表的字符串。

可选的，执行步骤S105针对源端数据库表和目标端数据库表中的同一散列分组，分别将同一散列分组的散列值进行数据拼接，得到源端数据库表的字符串和目标端数据库表的字符串的过程，如图3所示，为本发明实施例提供的一种分别将同一散列分组的散列值进行数据拼接的流程示意图，主要包括以下步骤：

步骤S301：在源端数据库表和目标端数据库表中分别选取同一散列分组的散列值。

在具体实现步骤S301的过程中，在源端数据库表和目标端数据库表中分别选取同一散列分组的散列值，也就是说，确定源端数据库表和目标端数据库表中对应的同一散列分组，并选取同一散列分组的散列值。

步骤S302：在源端数据库表中，依据ASCII码表，将同一散列分组的散列值按位转换为十进制数字。

在步骤S302中，十进制数字为32个十进制数字。

在具体实现步骤S302的过程中，在源端数据库表中，依据ASCII码表，将选取的同一散列分组的散列值按位进行转换，得到32个十进制数字。

步骤S303：利用求和的方式，将处于同一位的多个十进制数字进行拼接，得到源端数据库表的第二字符串。

在具体实现步骤S303的过程中，在源端数据库表中，确定处于同一位的多个十进制数字，将处于同一位的多个十进制数字进行求和，得到每一位对应的和值，然后，将每一位对应的和值进行拼接，得到源端数据库表的第二字符串。

步骤S304：在目标端数据库表中，依据ASCII码表，将同一散列分组的散列值按位转换为十进制数字。

在具体实现步骤S304的过程中，在目标端数据库表中，依据ASCII码表，将选取的同一散列分组的散列值按位进行转换，得到32个十进制数字。

步骤S305：利用求和的方式，将处于同一位的多个十进制数字进行拼接，得到目标端数据库表的第二字符串。

在具体实现步骤S305的过程中，在目标端数据库表中，确定处于同一位的多个十进制数字，将处于同一位的多个十进制数字进行求和，得到每一位对应的和值，然后，将每一位对应的和值进行拼接，得到目标端数据库表的第二字符串。

步骤S106：分别对源端数据库表的字符串和目标端数据库表的字符串进行标识符计算，得到源端数据库表的唯一标识符和目标端数据库表的唯一标识符。

在具体实现步骤S106的过程中，对源端数据库表的字符串进行标识符计算，得到源端数据库表的唯一标识符，以及对目标端数据库表的字符串进行标识符计算，得到目标端数据库表的唯一标识符。

可选的，执行步骤S106分别对源端数据库表的字符串和目标端数据库表的字符串进行标识符计算，得到源端数据库表的唯一标识符和目标端数据库表的唯一标识符的过程，如图4所示，为本发明实施例提供的一种分别对源端数据库表的字符串和目标端数据库表的字符串进行标识符计算的流程示意图，主要包括以下步骤：

步骤S401：在源端数据库表中，对源端数据库表的第二字符串进行散列值计算，得到源端数据库表的第二散列值。

在具体实现步骤S401的过程中，在源端数据库表中，对源端数据库表的第二字符串进行散列值计算，得到源端数据库表的第二散列值，此时，得到的源端数据库表的第二散列值为源端数据库表的每N个散列分组的散列值。

步骤S402：将源端数据库表的第二散列值作为源端数据库表的每N个散列分组的唯一标识符。

步骤S403：在目标端数据库表中，对目标端数据库表的第二字符串进行散列值计算，得到目标端数据库表的第二散列值。

在具体实现步骤S403的过程中，在目标端数据库表中，对目标端数据库表的第二字符串进行散列值计算，得到目标端数据库表的第二散列值，此时，得到的目标端数据库表的第二散列值为目标端数据库表的每N个散列分组的散列值。

步骤S404：将目标端数据库表的第二散列值作为目标端数据库表的每N个散列分组的唯一标识符。

基于上述说明内容，可以理解的是，本发明通过在数据处理阶段进行数据散列、数据拼接和标识符计算，分组生成了唯一标识符，从而降低了逐字段、逐行比对造成的开销，大大提高了结构化数据比对效率。

步骤S107：比对源端数据库表的唯一标识符和目标端数据库表的唯一标识符。

在具体实现步骤S107的过程中，比对源端数据库表的N个唯一标识符和目标端数据库表的N个唯一标识符是否一致，若均一致，认为源端数据库表的和目标端数据库表的数据迁移前后一致，若不一致，认为源端数据库表的和目标端数据库表的数据迁移前后不一致。

可选的，执行步骤S107比对源端数据库表的唯一标识符和目标端数据库表的唯一标识符的过程，如图5所示，为本发明实施例提供的一种比对源端数据库表的唯一标识符和目标端数据库表的唯一标识符的流程示意图，主要包括以下步骤：

步骤S501：利用Myers差分算法，比对源端数据库表的N个唯一标识符和目标端数据库表的N个唯一标识符。

在具体实现步骤S501的过程中，利用Myers差分算法(MyersDiff Algorithm)构造编辑图，然后，比对源端数据库表的N个唯一标识符和目标端数据库表的N个唯一标识符，得到N个唯一标识符的比对结果。

步骤S502：判断N个唯一标识符的比对结果是否均一致，若是，执行步骤S503，若否，执行步骤S504。

在具体实现步骤S502的过程中，判断N个唯一标识符的比对结果是否均一致，若是，执行步骤S503，若否，说明N个唯一标识符比对结果不一致，执行步骤S504。

步骤S503：确定源端数据库表的和目标端数据库表的数据迁移前后一致。

在具体实现步骤S503的过程中，在确定N个唯一标识符的比对结果均一致的情况下，确定源端数据库表的和目标端数据库表的数据迁移前后一致。

步骤S504：确定源端数据库表的和目标端数据库表的数据迁移前后不一致。

在具体实现步骤S504的过程中，在确定N个唯一标识符的比对结果不一致的情况下，确定源端数据库表的和目标端数据库表的数据迁移前后不一致。

基于上述说明内容，可以理解的是，本发明在数据比对阶段使用Myers差分算法，该算法空间复杂度为O(2N)，时间复杂度为O(ND)，从而进一步提高了结构化数据比对效率。

为了更好地理解上述说明内容，下面举一实例进行详细说明。

假设有数据库表T，结构如下表所示，其中，变量i(i>0)表示T中数据行数，变量j(j>0)表示数据库表T中数据列数。

表1：

id	field_1	field_2	...	field_{j}
					1	value_1_1	value_1_2	...	value_1_{j}
2	value_2_1	value_2_2	...	value_2_{j}
					...	...	...	...	...
{i}	value_{i}_1	value_{i}_2	...	value_{i}_{j}

将源端数据库和目标端数据库表T中的i行数据分为M(M<＝i)组。

其中，前M组中的每组包含L(L＝i/M)条数据，最后一组包含i％M条数据，后续每轮数据比对仅校验组内数据的一致性。

在源端数据库和目标端数据库表中选取同组的L条数据，将L条数据按行拼接为字符串。

假设第M组拼接得到的字符串为C_M，

此时：

第M组中第1条数据为C_M(1)＝value_1_1...value_1_{j-1}value_1_{j}；

第M组中第L-1条数据为C_M(L-1)＝value_{L-1}_1...value_{L-1}_{j-1}value_{L-1}_{j}；

第M组中第L条数据为C_M(L)＝value_{L}_1...value_{L}_{j-1}value_{L}_{j}；

则：C_M＝C_M(1)C_M(2)...C_M(L-1)C_M(L)；

最终得到的C_M字符串长度与数据库表T中的字段个数及字段值长度有关。

在源端数据库和目标端数据库，对于拼接得到的字符串C_M使用MD5信息摘要算法，源端得到长度为32位的散列值MD5(C_{M_src})，目标端得到长度为32位的散列值MD5(C_{M_dst})。

为提高后续比对效率，分别在源端数据库及目标端数据库将上述计算得到的散列值MD5(C_{M_src})和MD5(C_{M_dst})分为N组，每组M/N条数据。同组散列值依据ASCII码表按位转换为32个十进制数字，并采用求和的方法进行拼接。

例如，假设源端分为N组后，每组3条数据：

第一条MD5(C_{N1_src})＝5D41402ABC4B2A76B9719D911017C592；

第二条MD5(C_{N2_src})＝5D41402ABC4B2A76B9719D911017C592；

第三条MD5(C_{N3_src})＝5D41402ABC4B2A76B9719D911017C592；

第一位均为5，求和：(5+5+5)＝15；

第二位均为D，D对应的ascii码为68，求和：(68+68+68)＝204；

第三位均为4，求和：(4+4+4)＝12；

以此类推，得到源端数据库第N组拼接后的字符串：SUM(MD5(C_{N_src}))＝1520412312061951982011219861952118198272132733032120115276；

利用相同方式，可计算得到目标端数据库第N组拼接后的字符串：SUM(MD5(C_{N_dst}))＝1520412312061951982011219861952118198272132733032120115276；

对上述求和得到的字符串SUM(MD5(C_{N_src}))和SUM(MD5(C_{N_dst}))使用MD5信息摘要算法进行标识符计算。

其中，求和后字符串长度32≤SUM(MD5(C_{N_src}))≤96，32≤SUM(MD5(C_{N_dst}))≤96。

计算后最终得到32位散列值MD5(SUM(MD5(C_{N_src})))，作为每N组最终唯一标识符。

以上述例子为例，计算得到散列值：

MD5(SUM(MD5(C_{N_src})))＝60A57DC08FA42D753D6995297E27C0B4；

MD5(SUM(MD5(C_{N_dst})))＝60A57DC08FA42D753D6995297E27C0B4。

利用Myers差分算法构造编辑图，比对源端数据库及目标端数据库生成的N个唯一标识符是否一致。

若N个唯一标识符比对结果均一致，则认为源端数据库和目标端数据库迁移前后数据一致，否则认为源端数据库和目标端数据库迁移前后数据不一致。

基于本发明实施例提供的一种多数据库结构化数据比对方法，在对源端数据库表的数据和目标端数据库表的数据进行分组后，对分组后的源端数据库表的数据和目标端数据库表的数据进行数据散列处理、数据拼接处理和标识符计算，得到源端数据库表和目标端数据库表的唯一标识符并进行比对，从而减少资源占用和提高比对效率。

与上述本发明实施例示出的一种多数据库结构化数据比对方法相对应，本发明实施例还对应提供了一种多数据库结构化数据比对装置，如图6所示，该多数据库结构化数据比对装置包括：获取模块601、数据分组模块602、散列处理模块603、散列分组模块604、数据拼接模块605、标识符计算模块606和比对模块607。

获取模块601，用于获取数据库结构化数据。

其中，数据库结构化数据包括源端数据库表的数据和目标端数据库表的数据。

数据分组模块602，用于分别对源端数据库表的数据和目标端数据库表的数据进行分组，得到源端数据库表的数据分组和目标端数据库表的的数据分组。

其中，每一数据分组包含L条数据，L为正整数。

散列处理模块603，用于针对源端数据库表和目标端数据库表中的同一数据分组，分别对同一数据分组的L条数据进行散列处理，得到源端数据库表的散列值和目标端数据库表的散列值；

散列分组模块604，用于分别对源端数据库表的散列值和目标端数据库表的散列值进行分组，得到源端数据库表的散列分组和目标端数据库表的的散列分组。

数据拼接模块605，用于针对源端数据库表和目标端数据库表中的同一散列分组，分别将同一散列分组的散列值进行数据拼接，得到源端数据库表的字符串和目标端数据库表的字符串。

标识符计算模块606，用于分别对源端数据库表的字符串和目标端数据库表的字符串进行标识符计算，得到源端数据库表的唯一标识符和目标端数据库表的唯一标识符。

比对模块607，用于比对源端数据库表的唯一标识符和目标端数据库表的唯一标识符。

可选的，基于上述图6示出的数据分组模块602，所述数据分组模块602，具体用于：

将源端数据库表中的i行数据分为M个数据分组，以及将目标端数据库表中的i行数据分为M个数据分组。

可选的，基于上述图6示出的散列处理模块603，所述散列处理模块603，包括：

选取单元，用于在源端数据库表和目标端数据库表中分别选取同一数据分组的L条数据。

第一拼接单元，用于在源端数据库表中，将L条数据按行进行拼接，得到源端数据库表的第一字符串。

散列值第一计算单元，用于利用信息摘要算法，对源端数据库表的第一字符串进行散列值计算，得到源端数据库表的第一散列值。

第二拼接单元，用于在目标端数据库表中，将L条数据按行进行拼接，得到目标端数据库表的第一字符串。

散列值第二计算单元，用于利用信息摘要算法，对目标端数据库表的第一字符串进行散列值计算，得到目标端数据库表的第一散列值。

可选的，基于上述图6示出的散列分组模块604，所述散列分组模块604，具体用于：

将源端数据库表的第一散列值分为N个散列分组，以及将目标端数据库表的第一散列值分为N个散列分组。

其中，每一散列分组包含M/N条数据，N为正整数。

可选的，基于上述图6示出的数据拼接模块605，所述数据拼接模块605，包括：

选取单元，用于在源端数据库表和目标端数据库表中分别选取同一散列分组的散列值。

第一转换单元，用于在源端数据库表中，依据ASCII码表，将同一散列分组的散列值按位转换为十进制数字。

第一拼接单元，用于利用求和的方式，将处于同一位的多个十进制数字进行拼接，得到源端数据库表的第二字符串。

第二转换单元，用于在目标端数据库表中，依据ASCII码表，将同一散列分组的散列值按位转换为十进制数字。

第二拼接单元，用于利用求和的方式，将处于同一位的多个十进制数字进行拼接，得到目标端数据库表的第二字符串。

可选的，基于上述图6示出的标识符计算模块606，所述标识符计算模块606，包括：

散列值第一计算单元，用于在源端数据库表中，对源端数据库表的第二字符串进行散列值计算，得到源端数据库表的第二散列值。

第一作为单元，用于将源端数据库表的第二散列值作为源端数据库表的每N个散列分组的唯一标识符。

散列值第二计算单元，用于在目标端数据库表中，对目标端数据库表的第二字符串进行散列值计算，得到目标端数据库表的第二散列值。

第二作为单元，用于将目标端数据库表的第二散列值作为目标端数据库表的每N个散列分组的唯一标识符。

可选的，基于上述图6示出的比对模块607，所述比对模块607，包括：

比对单元，用于利用Myers差分算法，比对源端数据库表的N个唯一标识符和目标端数据库表的N个唯一标识符。

第一确定单元，用于若N个唯一标识符的比对结果均一致，确定源端数据库表的和目标端数据库表的数据迁移前后一致。

第二确定单元，用于若N个唯一标识符的比对结果不一致，确定源端数据库表的和目标端数据库表的数据迁移前后不一致。

基于本发明实施例提供的一种多数据库结构化数据比对装置，在对源端数据库表的数据和目标端数据库表的数据进行分组后，对分组后的源端数据库表的数据和目标端数据库表的数据进行数据散列处理、数据拼接处理和标识符计算，得到源端数据库表和目标端数据库表的唯一标识符并进行比对，从而减少资源占用和提高比对效率。

基于上述本发明实施例公开的多数据库结构化数据比对装置，上述各个模块可以通过一种由处理器和存储器构成的硬件设备实现。具体为上述各个模块作为程序单元存储于存储器中，由处理器执行存储在存储器中的上述程序单元来实现多数据库结构化数据比对。

其中，处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现多数据库结构化数据比对。

本发明实施例提供了一种计算机存储介质，存储介质包括存储多数据库结构化数据比对程序，其中，程序被处理器执行时实现如上述实施例中任一项的多数据库结构化数据比对方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述实施例公开的多数据库结构化数据比对方法。

本发明实施例提供了一种电子设备，如图7所示，为本发明实施例提供的一种电子设备70的结构示意图。

本发明实施例中的电子设备可以是服务器、PC、PAD、手机等。

该电子设备包括至少一个处理器701，以及与处理器连接的至少一个存储器702，以及总线703。

处理器701、存储器702通过总线703完成相互间的通信。处理器701，用于执行存储器702中存储的程序。

存储器702，用于存储程序，该程序至少用于：获取数据库结构化数据，数据库结构化数据包括源端数据库表的数据和目标端数据库表的数据；分别对源端数据库表的数据和目标端数据库表的数据进行分组，得到源端数据库表的数据分组和目标端数据库表的的数据分组，每一数据分组包含L条数据，L为正整数；针对源端数据库表和目标端数据库表中的同一数据分组，分别对同一数据分组的L条数据进行散列处理，得到源端数据库表的散列值和目标端数据库表的散列值；分别对源端数据库表的散列值和目标端数据库表的散列值进行分组，得到源端数据库表的散列分组和目标端数据库表的的散列分组；针对源端数据库表和目标端数据库表中的同一散列分组，分别将同一散列分组的散列值进行数据拼接，得到源端数据库表的字符串和目标端数据库表的字符串；分别对源端数据库表的字符串和目标端数据库表的字符串进行标识符计算，得到源端数据库表的唯一标识符和目标端数据库表的唯一标识符；比对源端数据库表的唯一标识符和目标端数据库表的唯一标识符。

本申请还提供了一种计算机程序产品，当在电子设备上执行时，适于执行初始化有如下方法步骤的程序：

获取数据库结构化数据，数据库结构化数据包括源端数据库表的数据和目标端数据库表的数据；分别对源端数据库表的数据和目标端数据库表的数据进行分组，得到源端数据库表的数据分组和目标端数据库表的的数据分组，每一数据分组包含L条数据，L为正整数；针对源端数据库表和目标端数据库表中的同一数据分组，分别对同一数据分组的L条数据进行散列处理，得到源端数据库表的散列值和目标端数据库表的散列值；分别对源端数据库表的散列值和目标端数据库表的散列值进行分组，得到源端数据库表的散列分组和目标端数据库表的的散列分组；针对源端数据库表和目标端数据库表中的同一散列分组，分别将同一散列分组的散列值进行数据拼接，得到源端数据库表的字符串和目标端数据库表的字符串；分别对源端数据库表的字符串和目标端数据库表的字符串进行标识符计算，得到源端数据库表的唯一标识符和目标端数据库表的唯一标识符；比对源端数据库表的唯一标识符和目标端数据库表的唯一标识符。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多数据库结构化数据比对方法，其特征在于，所述方法包括：

针对所述源端数据库表和所述目标端数据库表中的同一所述数据分组，分别对同一所述数据分组的所述L条数据进行散列处理，得到所述源端数据库表的散列值和所述目标端数据库表的散列值；

2.根据权利要求1所述的方法，其特征在于，所述分别对所述源端数据库表的数据和所述目标端数据库表的数据进行分组，得到所述源端数据库表的数据分组和所述目标端数据库表的的数据分组，包括：

3.根据权利要求1所述的方法，其特征在于，所述针对所述源端数据库表和所述目标端数据库表中的同一所述数据分组，分别对同一所述数据分组的所述L条数据进行散列处理，得到所述源端数据库表的散列值和所述目标端数据库表的散列值，包括：

4.根据权利要求1所述的方法，其特征在于，所述分别对所述源端数据库表的散列值和所述目标端数据库表的散列值进行分组，得到所述源端数据库表的散列分组和所述目标端数据库表的的散列分组，包括：

5.根据权利要求1所述的方法，其特征在于，所述针对所述源端数据库表和所述目标端数据库表中的同一所述散列分组，分别将同一所述散列分组的散列值进行数据拼接，得到所述源端数据库表的字符串和所述目标端数据库表的字符串，包括：

6.根据权利要求1所述的方法，其特征在于，所述分别对所述源端数据库表的字符串和所述目标端数据库表的字符串进行标识符计算，得到所述源端数据库表的唯一标识符和所述目标端数据库表的唯一标识符，包括：

7.根据权利要求1所述的方法，其特征在于，所述比对所述源端数据库表的唯一标识符和所述目标端数据库表的唯一标识符，包括：

8.一种多数据库结构化数据比对装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于调用并执行所述存储器中存储的计算机程序时，实现如权利要求1至7中任一项所述的多数据库结构化数据比对方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至7中任一项所述的多数据库结构化数据比对方法。