CN117743441A

CN117743441A - 一种基于二进制哈希的快速数据校验方法及系统

Info

Publication number: CN117743441A
Application number: CN202311787084.3A
Authority: CN
Inventors: 钟浩; 邹昌根; 吴汉楚
Original assignee: Shanghai Zhangshu Technology Co ltd
Current assignee: Shanghai Zhangshu Technology Co ltd
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-03-22

Abstract

本发明提供一种基于二进制哈希的快速数据校验方法及系统，方法包括：通过数据分块器使用动态分块算法分别处理源数据和目标数据，分别评估源数据和目标数据的数据集整体大小和复杂度，根据关键参数确定每个数据块的最优大小，将源数据和目标数据分别分解为多个数据块；对源数据和目标数据每个数据块分别使用哈希计算器计算哈希值；将计算出的哈希值分别存储在源数据和目标数据的哈希列表中；使用校验器比较源数据的哈希列表和目标数据的哈希列表，保证数据完整性和准确性。本发明基于二进制哈希的快速数据校验方法及系统通过数据分块技术，能够有效处理大型数据集，大大提高了数据校验速率；并且减少了计算和存储开销，有效提升数据校验的效率。

Description

一种基于二进制哈希的快速数据校验方法及系统

技术领域

本发明涉及大数据技术领域；特别地，涉及数据库ETL过程中的快速数据校验技术领域；具体而言，涉及一种基于二进制哈希的快速数据校验方法及系统。

背景技术

随着现代企业业务的数字化转型技术的迅速演进，数据已经成为企业最宝贵的资产之一。

数据量的爆炸性增长，尤其在社交媒体、金融交易、物联网和各种在线业务中，使得数据校验成为数据提取、转换和加载(ETL)过程中的一个至关重要的步骤。

对于任何依赖数据的决策、分析和操作，确保数据的完整性、准确性和一致性都是至关重要的。

然而，传统的数据校验方法，如完整数据比较、行级比较等，在大数据的背景下，需要大量的计算资源和时间，在处理大数据时的效率较为低下。

此外，当数据量达到TB或PB级别时，如要完整地读取和比较数据，不仅变得效率低下，而且经常是不切实际的。

因此，当前亟需设计一种能够快速、高效地校验大量数据的方法，以解决现有技术的上述难点问题。

发明内容

鉴于此，本发明的第一目的在于设计一种基于二进制哈希的快速数据校验方法，通过数据分块技术，有效处理大型数据集，提高数据校验速率；并且减少计算和存储开销，提升数据校验的效率。

本发明的第二目的在于设计一种基于二进制哈希的快速数据校验系统，用于执行本发明的基于二进制哈希的快速数据校验方法。

本发明提供一种基于二进制哈希的快速数据校验方法，包括以下步骤：

S1、通过数据分块器使用动态分块算法分别处理源数据和目标数据，分别评估源数据和目标数据的数据集的整体大小和复杂度，根据关键参数确定每个数据块的最优大小，将源数据和目标数据分别分解为多个数据块；

S2、对源数据和目标数据的每个数据块分别使用哈希计算器计算哈希值；

哈希算法具有以下特点：

高效性和一致性：算法设计优化了计算过程，以在保证一致性的同时提高处理速度。这意味着即使是大数据块也能迅速得到其哈希值。

抗碰撞性：算法具有强抗碰撞性，即不同的数据块产生相同哈希值的概率极低。这一特性对于确保数据校验的准确性至关重要。

敏感性：算法对数据中的微小变化高度敏感。即使是数据块中的一个字节的变化，也会在哈希值中产生显著的不同，从而确保数据变化可以被有效追踪。

适应性：哈希算法能够适应不同类型和大小的数据块，确保无论数据结构如何复杂，都能有效地生成哈希值；

S3、将计算得出的哈希值分别存储在对应的源数据和目标数据的哈希列表中；

S4、使用校验器比较源数据的哈希列表和目标数据的哈希列表，保证数据的完整性和准确性。

进一步地，所述S1步骤的所述关键参数包括：

数据均匀性、处理能力、网络带宽、数据块的动态调整。

通过数据分块器分析数据的分布，保证每个块在数据类型和大小上尽量均匀(数据均匀性好)，避免在后续的哈希计算中出现偏差；

通过数据分块器根据当前系统的处理能力(如CPU和内存资源)调整块大小，以最大化处理效率而不超载系统。

在分布式环境中，数据分块器考虑网络带宽的限制，保证数据块在节点间传输时不会造成显著的网络瓶颈。

数据分块器根据实时反馈动态调整数据块的大小；如果在处理过程中发现某些数据块的处理速度明显慢于其他数据块，数据分块器将重新调整这些数据块的大小，以保持整体处理效率。

进一步地，所述S4步骤的使用校验器比较源数据的哈希列表和目标数据的哈希列表的方法包括：

由校验器按顺序比较源数据和目标数据的哈希列表，对每个数据块的哈希值，由校验器检查两个列表中相应位置的哈希值是否一致；

如果发现不匹配的哈希值，则由校验器将这些不匹配的数据块标记为异常，表示这些不匹配的数据块中可能存在数据不一致或损坏的情况；

如果没有发现不匹配的哈希值，则不进行标记。

进一步地，对于每个检测到的两个列表中相应位置的哈希值不一致的情况，由校验器记录以下信息：

不匹配的数据块的位置和大小；

源数据和目标数据的哈希值；

数据块在整个数据集中的相对位置。

进一步地，对于每个检测到的两个列表中相应位置的哈希值不一致的情况，由校验器生成详细的错误报告，所述错误报告包括：

所有不匹配的数据块的信息，以及不匹配的数据块在整个数据集中的上下文，以利于快速定位和解决数据不一致问题。

进一步地，对于每个检测到的两个列表中相应位置的哈希值不一致的情况，由校验器提供修复建议，所述修复建议包括：

重新执行数据提取、转换和加载ETL过程中的特定步骤，或者手动检查并修正源数据的数据集。

本发明还提供一种基于二进制哈希的快速数据校验系统，执行如上述所述的基于二进制哈希的快速数据校验方法，包括：

数据分块器：用于使用动态分块算法分别处理源数据和目标数据，分别评估源数据和目标数据的数据集的整体大小和复杂度，根据关键参数确定每个数据块的最优大小，将源数据和目标数据分别分解为多个数据块；

哈希计算器：用于对源数据和目标数据的每个数据块分别使用哈希计算器计算哈希值；将计算得出的哈希值分别存储在对应的源数据和目标数据的哈希列表中；

校验器：用于比较源数据的哈希列表和目标数据的哈希列表，保证数据的完整性和准确性。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述所述的基于二进制哈希的快速数据校验方法的步骤。

本发明还提供一种计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于二进制哈希的快速数据校验方法的步骤。

与现有技术相比，本发明的有益效果在于：

本发明基于二进制哈希的快速数据校验方法及系统通过数据分块技术，能够有效处理大型数据集，大大提高了数据校验速率；并且减少了计算和存储开销，有效提升数据校验的效率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

在附图中：

图1为本发明实施例源数据和目标数据的数据校验的示意框图；

图2为本发明实施例基于二进制哈希的快速数据校验方法的基本流程框图；

图3为本发明一种基于二进制哈希的快速数据校验方法流程图；

图4为本发明实施例计算机设备的构成示意图_。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的系统和产品的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面对本发明实施例作进一步详细说明。

本发明实施例提供一种基于二进制哈希的快速数据校验方法，参见图3所示，包括以下步骤：

所述关键参数包括：

数据均匀性、处理能力、网络带宽、数据块的动态调整。

哈希算法具有以下特点：

S4、使用校验器比较源数据的哈希列表和目标数据的哈希列表，保证数据的完整性和准确性，参见图1所示。

所述使用校验器比较源数据的哈希列表和目标数据的哈希列表的方法包括：

如果没有发现不匹配的哈希值，则不进行标记。

对于每个检测到的两个列表中相应位置的哈希值不一致的情况，由校验器记录以下信息：

不匹配的数据块的位置和大小；

源数据和目标数据的哈希值；

数据块在整个数据集中的相对位置。

对于每个检测到的两个列表中相应位置的哈希值不一致的情况，由校验器生成详细的错误报告，所述错误报告包括：

对于每个检测到的两个列表中相应位置的哈希值不一致的情况，由校验器提供修复建议，所述修复建议包括：

图2示出了本实施例基于二进制哈希的快速数据校验方法的基本流程。

本发明实施例还提供一种基于二进制哈希的快速数据校验系统，执行如上述所述的基于二进制哈希的快速数据校验方法，包括：

本发明实施例基于二进制哈希的快速数据校验方法及系统通过数据分块技术，能够有效处理大型数据集，大大提高了数据校验速率；并且减少了计算和存储开销，有效提升数据校验的效率。

本发明实施例还提供一种计算机设备，图4是本发明实施例提供的一种计算机设备的结构示意图；参见附图图4所示，该计算机设备包括：输入系统23、输出系统24、存储器22和处理器21；所述存储器22，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器21执行，使得所述一个或多个处理器21实现如上述实施例提供的基于二进制哈希的快速数据校验方法；其中输入系统23、输出系统24、存储器22和处理器21可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器22作为一种计算设备可读写存储介质，可用于存储软件程序、计算机可执行程序，如本发明实施例所述的基于二进制哈希的快速数据校验方法对应的程序指令；存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等；此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件；在一些实例中，存储器22可进一步包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入系统23可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入；输出系统24可包括显示屏等显示设备。

处理器21通过运行存储在存储器22中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的基于二进制哈希的快速数据校验方法。

上述提供的计算机设备可用于执行上述实施例提供的基于二进制哈希的快速数据校验方法，具备相应的功能和有益效果。

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的基于二进制哈希的快速数据校验方法，存储介质是任何的各种类型的存储器设备或存储设备，存储介质包括：安装介质，例如CD-ROM、软盘或磁带系统；计算机系统存储器或随机存取存储器，诸如DRAM、DDRRAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等；存储介质可以还包括其它类型的存储器或其组合；另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统；第二计算机系统可以提供程序指令给第一计算机用于执行。存储介质包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上实施例所述的基于二进制哈希的快速数据校验方法，还可以执行本发明任意实施例所提供的基于二进制哈希的快速数据校验方法中的相关操作。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于二进制哈希的快速数据校验方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于二进制哈希的快速数据校验方法，其特征在于，所述S1步骤的所述关键参数包括：

数据均匀性、处理能力、网络带宽、数据块的动态调整。

3.根据权利要求1所述的基于二进制哈希的快速数据校验方法，其特征在于，所述S4步骤的使用校验器比较源数据的哈希列表和目标数据的哈希列表的方法包括：

如果没有发现不匹配的哈希值，则不进行标记。

4.根据权利要求3所述的基于二进制哈希的快速数据校验方法，其特征在于，对于每个检测到的两个列表中相应位置的哈希值不一致的情况，由校验器记录以下信息：

不匹配的数据块的位置和大小；

源数据和目标数据的哈希值；

数据块在整个数据集中的相对位置。

5.根据权利要求4所述的基于二进制哈希的快速数据校验方法，其特征在于，对于每个检测到的两个列表中相应位置的哈希值不一致的情况，由校验器生成详细的错误报告，所述错误报告包括：

所有不匹配的数据块的信息，以及不匹配的数据块在整个数据集中的上下文。

6.根据权利要求5所述的基于二进制哈希的快速数据校验方法，其特征在于，对于每个检测到的两个列表中相应位置的哈希值不一致的情况，由校验器提供修复建议，所述修复建议包括：

7.一种基于二进制哈希的快速数据校验系统，执行如权利要求1-6任一项所述的基于二进制哈希的快速数据校验方法，其特征在于，包括：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6任一项所述的基于二进制哈希的快速数据校验方法的步骤。

9.一种计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6任一项所述的基于二进制哈希的快速数据校验方法的步骤。