CN112988684A

CN112988684A - 一种基于哈希算法电子公文数据的提取和去重方法及系统

Info

Publication number: CN112988684A
Application number: CN202110273967.7A
Authority: CN
Inventors: 康宸赫
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-06-18

Abstract

本发明公开了一种基于哈希算法电子公文数据的提取和去重方法及系统，属于计算机数据库领域；本发明所应用的系统结构包括接口服务器和多个数据库服务器，所述接口服务器负责管理电子公文数据文件的存储入库，而数据库服务器用于实际存储数据；为了存储大量的数据，本发明的最优选方案是使用138个数据库服务器，当然这是对于大型数据存储系统而言的，如果使用者是小型企业，为了减少成本，也可以考虑将其中的多个服务器合并成一个，从而减少数据库服务器数量。

Description

一种基于哈希算法电子公文数据的提取和去重方法及系统

技术领域

本发明公开一种基于哈希算法电子公文数据的提取和去重方法及系统，涉及计算机数据库技术领域。

背景技术

近年来，为了处理大量的公文信息，出现了大数据的概念。所谓大数据，是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

由于数据的海量特性，人们仅仅凭一己之力很难对这些数据这些分析，但是在以云计算为代表的技术创新大幕的衬托下，这些原本很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据逐步为人类创造更多的价值。

尽管用于做电子公文信息大数据分析的计算机越来越多，性能越来越好，但是面对海量数据仍然力不从心，因此分析这些公文数据的第一步，是检测和消除其中的重复数据，通过数据去重，一方面是减少存储空间和网络带宽的占用，另一方面是减少数据分析量。

行业种现有的技术当中的常见的数据提取+去重方法是通过比较整个公文数据文件的哈希值来检测重复的数据。这种检测方法过于简单，检测率并不高。

为了解决行业现有技术中的上述问题，本发明提供了一种基于哈希算法电子公文数据的提取和去重方法及系统。

发明内容

本发明针对现有技术的问题，提供一种基于哈希算法电子公文数据的提取和去重方法及系统，所采用的技术方案为：一种基于哈希算法电子公文数据的提取和去重方法及系统，所述的方法具体步骤包括:

S1通过数据单元的最后一个字节对数据单元进行分类，设置对应的数据库服务器；

S2设置结构服务器的最小数据的单元长度；

S3接口服务器选择重复数据量最大的两种分单元方式指示相应的数据库服务器进行存储；

S4判断电子公文数据单元是否重复，并通过数据库服务器进行存储；

S5设置初始的分块向量，利用接口服务器准备对该数据文件机型数据分块；

S6接口服务器从该数据文件的第MinBlockLength个字节开始向后循环扫描，获得多种数据单元切割形式；

S7对数据单元的切割数量进行排序；

S8将数据单元按照其结尾字节发送到相应的数据库服务器进行重复性检测；

S9接口服务器接收判断结果，通知相应数据库服务器进行存储。

所述S4判断电子公文数据单元是否重复，并通过数据库服务器进行存储的具体步骤包括：

S401计算该电子公文数据文件的哈希值；

S402利用哈希值判断该数据文件是否已经存储在服务器中；

S403已存储，则该电子公文数据文件是重复文件，仅为该数据文件保留一个指针；

S413未存储，则存储该数据文件和其哈希值。

所述S6接口服务器从该每个分块向量值进行文件扫面，获得多种数据单元切割形式的具体步骤包括：

S601接口服务器从该数据文件的第MinBlockLength个字节开始向后循环扫描；

S602将标记位置最为一个数据单元的结尾，对数据文分单元得到数据单元；

S603对得到的数据单元进行分类；

S604对数据文件进行S601～S603循环扫描。

所述S8将数据单元按照其结尾字节发送到相应的数据库服务器进行重复性检测的具体步骤包括：

S801通过数据库服务器计算接收到的数据单元的哈希值；

S802根据哈希值判断该数据单元是否为重复数据；

S803将判断结果发送给接口服务器。

一种基于哈希算法电子公文数据的提取和去重系统，所述的系统具体包括分类设置模块、单元设置模块、选择存储模块、存储判断模块、向量设置模块、循环扫描模块、单元排序模块、重复检测模块和数据存储模块：

分类设置模块：通过数据单元的最后一个字节对数据单元进行分类，设置对应的数据库服务器；

单元设置模块：设置结构服务器的最小数据的单元长度；

选择存储模块：接口服务器选择重复数据量最大的两种分单元方式指示相应的数据库服务器进行存储；

存储判断模块：判断电子公文数据单元是否重复，并通过数据库服务器进行存储；

向量设置模块：设置初始的分块向量，利用接口服务器准备对该数据文件机型数据分块；

循环扫描模块：接口服务器从该数据文件的第MinBlockLength个字节开始向后循环扫描，获得多种数据单元切割形式；

单元排序模块：对数据单元的切割数量进行排序；

重复检测模块：将数据单元按照其结尾字节发送到相应的数据库服务器进行重复性检测；

数据存储模块：接口服务器接收判断结果，通知相应数据库服务器进行存储。

所述存储判断模块具体包括计算模块、确认模块、处理模块A和处理模块B：

计算模块：计算该电子公文数据文件的哈希值；

确认模块：利用哈希值判断该数据文件是否已经存储在服务器中；

处理模块A：已存储，则该电子公文数据文件是重复文件，仅为该数据文件保留一个指针；

处理模块B：未存储，则存储该数据文件和其哈希值。

所述循环扫描模块具体包括定位模块、标记模块、分类模块和循环模块：

定位模块：接口服务器从该数据文件的第MinBlockLength个字节开始向后循环扫描；

标记模块：将标记位置最为一个数据单元的结尾，对数据文分单元得到数据单元；

分类模块：对得到的数据单元进行分类；

循环模块：对数据文件进行S601～S603循环扫描。

所述重复检测模块的具体步骤包括接收模块、判定模块和通知模块：

接收模块：通过数据库服务器计算接收到的数据单元的哈希值；

判定模块：根据哈希值判断该数据单元是否为重复数据；

通知模块：将判断结果发送给接口服务器。

本发明的有益效果为：1.节省存储空间：通过重复数据删除，可以大大降低需要的存储介质数量，进而降低成本，使基于硬盘的存储系统成本低于磁带库，同时提供更好的性能；因此，支持数据去重技术的存储系统，适合用来做数据的备份；

2.提升写入性能：磁盘的写入性能是有限的，通常顺序写入在100MB/s左右，如果在写入数据的时候就进行数据去重，可以避免一部分的数据写入磁盘，从而提升写入性能；

3.节省网络带宽：果在客户端进行数据去重，仅将新增的数据传输到存储系统，可以减少网络上的数据传输量，从而节省网络带宽。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一：

一种基于哈希算法电子公文数据的提取和去重方法及系统，所述的方法具体步骤包括:

S2设置结构服务器的最小数据的单元长度；

S7对数据单元的切割数量进行排序；

S9接口服务器接收判断结果，通知相应数据库服务器进行存储；

首先按照S1通过数据单元的最后一个字节对数据单元进行分类，设置对应于每一类数据单元进行处理和存储的的数据库服务器，接着按照S2对结构服务器的最小数据的单元长度进行设置，对于需求提取+去重的数据文件，如果小于该最小长度，直接发送给该数据单元对应的数据库服务器，否则使用不同的结尾的字节对该数据文件分单元，分单元基于以下原则：除最后一块外，每一块的长度不小于该最小长度，且结尾的字节相同；在分单元数最多的六种分单元方式中，S3接口服务器选择重复数据量最大的两种分单元方式指示相应的数据库服务器进行存储，然后按照S4判断电子公文数据单元是否重复，并通过数据库服务器进行存储；

接着按照S5设置初始的分块向量，利用接口服务器准备对该数据文件机型数据分块，并按照S6接口服务器从该数据文件的第MinBlockLength个字节开始向后循环扫描，获得多种数据单元切割形式；再按照S7对数据单元的切割数量进行排序，按照S8将数据单元按照其结尾字节发送到相应的数据库服务器进行重复性检测，接口服务器接收判断结果，最后按照S9通知相应数据库服务器进行存储；

进一步的，所述S4判断电子公文数据单元是否重复，并通过数据库服务器进行存储的具体步骤包括：

S401计算该电子公文数据文件的哈希值；

S402利用哈希值判断该数据文件是否已经存储在服务器中；

S413未存储，则存储该数据文件和其哈希值；

所述数据库服务器对于重复数据单元，仅存储一个指针，指向已存储的相同数据单元；对于非重复数据单元，则存储整个数据单元及其哈希值；

接口服务器接收需要存储入库的电子公文数据文件：

接口服务器作为整个系统与外界的接口，接收外界发送来的电子公文数据文件，并负责采用后续的步骤将该数据文件存储到数据库服务器中；一个典型的例子是互联网上的Web服务器相当于接口服务器，接收用户上传的数据文件并存储；另外，本发明的接口服务器也可以是多个，本发明不对其数量做出限制；

所述接口服务器检查所述数据文件的长度L，如果L小于预定义的最小数据单元长度MinBlockLength，则提取该数据文件的最后一个字节B，转到步骤3；如果L≥MinBlockLength，则转到S5

上述长度都是以字节为单位，由于一个字节为8位，则必然有0≤B≤255；所述最小数据单元长度是本发明对文件分单元时的最小长度，其具体值可以由管理员根据具体情况设定；一种优选的情况下，该MinBlockLength＝1024字节；

预先给系统中的138个数据库服务器编号，分别命名为Server(i)，其中0≤i≤137，接口服务器将该数据文件发送到Server(B)，同时保存该数据文件的相关信息；

本发明方法根据数据单元结尾的字节，对数据单元进行分类，由于一个字节一共有138个取值，因此将数据单元分成138类，并且对应的分配到138个数据库服务器，每个数据库服务器的编号与其负责的数据单元的分类(即结尾字节的值)相同；

138个数据库服务器是本发明的优选方案，其实现成本较高，适用于大型的数据存储系统，如果需要缩减成本，数据库服务器之间可以进行复用，即多个数据单元类别共享一个数据库服务器，该数据库服务器也就具有了多个编号，这样不影响本发明方法的具体实施过程；

所述电子公文数据文件的相关信息包括数据文件的名字、大小、数据库服务器的编号等等，由此接口服务器可以查询到该数据文件；

所述Server(B)计算该数据文件的哈希值，根据该哈希值判断该数据文件是否已存储在服务器中，如果已存储，则该电子公文数据文件是重复数据，仅为该数据文件保留一个指针，指向已存储的数据即可；如果并未存储，则Server(B)存储该数据文件和其哈希值，方法结束；

由于数据库服务器保存了每个存储的数据文件或数据单元的哈希值，因此将该数据文件的哈希值与已有哈希值进行比较，就可以判断该数据文件是否是重复数据，如果是重复数据，就不用再次存储整个数据文件；

本发明方法使用的哈希算法可以是本领域中任意一种哈希算法，包括但不限于：MD4、MD5、SHA-1、SHA-256等等；

进一步的，所述S6接口服务器从该每个分块向量值进行文件扫面，获得多种数据单元切割形式的具体步骤包括：

S603对得到的数据单元进行分类；

S604对数据文件进行S601～S603循环扫描；

按照接口服务器S601从该数据文件的第MinBlockLength个字节开始向后循环扫描,当扫描某个字节等于分块向量时，记录该字节的位置P1，然后再从P1+MinBlockLength的位置开始扫描，寻找并记录下一个等于分块向量的字节位置，如此循环，直到数据文件的末尾；换言之，每一次扫描的开始位置与上一次记录位置的距离都是MinBlockLength，直到达到数据文件的末尾；

然后根据S061步骤的所记录的位置，按照S602将每个位置作为一个数据单元的结尾，对数据文件进行分单元，由此可以得到一个或多个数据单元，设得到了KV个数据单元；

再按照S603对得到的数据单元进行分类：S602步骤得到的数据单元可能有两类，第一类是以分块向量V结尾的数据单元，第二类是数据文件的最后一个数据单元，即以B结尾的数据单元；其中第二类的数据单元的数量只能是1或者0，第一类数据单元的数据量也可能为0，这取决于数据文件的具体内容；

S604对数据文件进行S601～S603循环扫描，分块向量V增加1，如果V≤137，则返回S601，否则继续S603，

上述S601～S603步骤＝是一个循环，基于0到255的每个分块向量值进行文件扫描，从而获得了多种数据单元分割形式，数量从K0到K255；但是，本发明方法实施例的举例为循环的形式只是为了叙述方便，实际应用中，本领域技术人员可以了解，可以只对数据文件进行一遍扫描就完成上述138个循环，从而提高执行效率；

对K0到K138按照从大到小进行排序(如果有相等的KV，则下标大的在前)，获取排在最前的(即最大的)6个值，假设为KV1，KV2，KV3，KV4，KV5，KV6；

如前所述，如果一个数据单元的结尾字节是X，则将该数据单元发送到Server(X)；

再进一步的，所述S8将数据单元按照其结尾字节发送到相应的数据库服务器进行重复性检测的具体步骤包括：

S801通过数据库服务器计算接收到的数据单元的哈希值；

S802根据哈希值判断该数据单元是否为重复数据；

S803将判断结果发送给接口服务器；

每个数据库服务器对接收到的每个数据单元，计算其哈希值，根据该哈希值判断该数据单元是否是重复数据(即该数据单元与已存储的数据单元相同)，将判断结果发送给接口服务器；

实施例二：

单元设置模块：设置结构服务器的最小数据的单元长度；

单元排序模块：对数据单元的切割数量进行排序；

数据存储模块：接口服务器接收判断结果，通知相应数据库服务器进行存储；

首先使用分类设置模块通过数据单元的最后一个字节对数据单元进行分类，设置对应于每一类数据单元进行处理和存储的的数据库服务器，接着利用单元设置模块对结构服务器的最小数据的单元长度进行设置，对于需求提取+去重的数据文件，如果小于该最小长度，直接发送给该数据单元对应的数据库服务器，否则使用不同的结尾的字节对该数据文件分单元，分单元基于以下原则：除最后一块外，每一块的长度不小于该最小长度，且结尾的字节相同；在分单元数最多的六种分单元方式中，通过选择存储模块接口服务器选择重复数据量最大的两种分单元方式指示相应的数据库服务器进行存储，然后利用存储判断模块判断电子公文数据单元是否重复，并通过数据库服务器进行存储；

接着通过向量设置模块设置初始的分块向量，利用接口服务器准备对该数据文件机型数据分块，并通过循环扫描模块接口服务器从该数据文件的第MinBlockLength个字节开始向后循环扫描，获得多种数据单元切割形式；再利用单元排序模块对数据单元的切割数量进行排序，通过重复检测模块将数据单元按照其结尾字节发送到相应的数据库服务器进行重复性检测，接口服务器接收判断结果，最后利用数据存储模块通知相应数据库服务器进行存储；

进一步的，所述存储判断模块具体包括计算模块、确认模块、处理模块A和处理模块B：

计算模块：计算该电子公文数据文件的哈希值；

处理模块B：未存储，则存储该数据文件和其哈希值。

进一步的，所述循环扫描模块具体包括定位模块、标记模块、分类模块和循环模块：

分类模块：对得到的数据单元进行分类；

循环模块：对数据文件进行S601～S603循环扫描。

再进一步的，所述重复检测模块的具体步骤包括接收模块、判定模块和通知模块：

判定模块：根据哈希值判断该数据单元是否为重复数据；

通知模块：将判断结果发送给接口服务器。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于哈希算法电子公文数据的提取和去重方法及系统，其特征是所述的方法具体步骤包括:

S2设置结构服务器的最小数据的单元长度；

S7对数据单元的切割数量进行排序；

2.根据权利要求1所述的方法，其特征是所述S4判断电子公文数据单元是否重复，并通过数据库服务器进行存储的具体步骤包括：

S401计算该电子公文数据文件的哈希值；

S402利用哈希值判断该数据文件是否已经存储在服务器中；

S413未存储，则存储该数据文件和其哈希值。

3.根据权利要求2所述的方法，其特征是所述S6接口服务器从该每个分块向量值进行文件扫面，获得多种数据单元切割形式的具体步骤包括：

S603对得到的数据单元进行分类；

S604对数据文件进行S601～S603循环扫描。

4.根据权利要求3所述的方法，其特征是所述S8将数据单元按照其结尾字节发送到相应的数据库服务器进行重复性检测的具体步骤包括：

S801通过数据库服务器计算接收到的数据单元的哈希值；

S802根据哈希值判断该数据单元是否为重复数据；

S803将判断结果发送给接口服务器。

5.一种基于哈希算法电子公文数据的提取和去重系统，其特征是所述的系统具体包括分类设置模块、单元设置模块、选择存储模块、存储判断模块、向量设置模块、循环扫描模块、单元排序模块、重复检测模块和数据存储模块：

单元设置模块：设置结构服务器的最小数据的单元长度；

单元排序模块：对数据单元的切割数量进行排序；

6.根据权利要求5所述的系统，其特征是所述存储判断模块具体包括计算模块、确认模块、处理模块A和处理模块B：

计算模块：计算该电子公文数据文件的哈希值；

处理模块B：未存储，则存储该数据文件和其哈希值。

7.根据权利要求6所述的系统，其特征是所述循环扫描模块具体包括定位模块、标记模块、分类模块和循环模块：

分类模块：对得到的数据单元进行分类；

循环模块：对数据文件进行S601～S603循环扫描。

8.根据权利要求7所述的系统，其特征是所述重复检测模块的具体步骤包括接收模块、判定模块和通知模块：

判定模块：根据哈希值判断该数据单元是否为重复数据；

通知模块：将判断结果发送给接口服务器。