CN111782591B

CN111782591B - 一种计算文件相似哈希的方法

Info

Publication number: CN111782591B
Application number: CN202010575989.4A
Authority: CN
Inventors: 蒋遂平; 姜涛; 王颖
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2023-05-16
Anticipated expiration: 2040-06-22
Also published as: CN111782591A

Abstract

本发明涉及一种计算文件相似哈希的方法，其中，包括：将文件看成字节流，比较文件一个字节与前后字节的大小，根据比较结果，设置文件中间哈希的比特值，得到比特流；将得到的比特流组装成新的字节流；如果新的字节流长度大于一定的值，则将新的字节流看成是文件，返回字节比较步骤；否则就得到文件相似哈希；计算两个文件相似哈希的差异，判断两个文件的相似程度。本发明提出的计算文件相似哈希的方法，计算简单，相似文件的相似哈希差异较小，不同文件的相似哈希差异较大，能够有效地区分不同文件，在文件快速检索、文件云存储系统中去重等应用中具有重要的应用价值。

Description

一种计算文件相似哈希的方法

技术领域

本发明涉及云存储技术，特别涉及一种计算文件相似哈希的方法。

背景技术

随着云计算技术的发展，人们在云存储中上共享的文件数量急剧增长。存储在云存储上的文件中，大部分是相同或相似的，浪费了大量上传文件使用的网络带宽，也浪费了大量的存储空间。如果能快速判断两份文件的相似性，人们在上传共享文件前，就可能消除这些重复或相似的文件，就可以节省带宽和存储资源。

人们提出了许多计算文件哈希的方法，如安全散列算法SHA1、SHA2、SHA3等。如果两份文件完全相同，则这些算法计算出的两个文件哈希就一致；如果两份文件有很小差异，则这些算法计算出的两个文件哈希就有很大差异，不能用于文件相似性判断。

为此，人们提出了文件模糊哈希方法，如SSDEEP、SDBF、TLSH等，如果两份文件相同或相似，则这些算法计算出的两个文件哈希就相同或相似，但计算过程比较复杂。

图像是一种特殊的文件。人们提出了图像感知哈希方法，如块均值哈希、离散余弦变换哈希，以及201910526184.8《一种计算图像感知哈希的方法》中公开的图像感知哈希方法。图像感知哈希计算简单，获得广泛应用。

如果能像图像感知哈希一样计算文件的相似哈希，就可能用比较统一的方式处理图像文件和一般文件。本发明正是基于这种现实需求而产生的。

发明内容

本发明的目的在于提供一种计算文件相似哈希的方法，用于解决上述现有技术的问题。

本发明一种计算文件相似哈希的方法，其中，包括：将文件看成字节流，比较文件一个字节与前后字节的大小，根据比较结果，设置文件中间哈希的比特值，得到比特流；将得到的比特流组装成新的字节流；如果新的字节流长度大于一定的值，则将新的字节流看成是文件，返回字节比较步骤；否则就得到文件相似哈希；计算两个文件相似哈希的差异，判断两个文件的相似程度。

根据本发明的一种计算文件相似哈希的方法的一实施例，其中，如果一个文件从头到尾有n个字节，比特流为B₁,B₂,…,B_n，则转换成n个比特的比特流b₁,b₂,…,b_n，转换过程包括：采用循环贯序差分方法包括：如果B_i≥B_i+1，则b_i＝1，否则b_i＝0，i＝1,2,…,n，当i＝n时，i+1的值取为1；采用普通差分方法包括：如果B_i+B_i≥B_i-1+B_i+1，则b_i＝1，否则b_i＝0，i＝1,2,…,n，当i＝1时，i-1的值取为n，当i＝n时，i+1的值取为1。

根据本发明的一种计算文件相似哈希的方法的一实施例，其中，得到的比特流为b₁,b₂,…,b_n，如果比特流中比特数目n的值不是8的倍数，则在b_n后面添加若干个值为0的比特，使得比特流的比特数目n为8的倍数。每连续8个比特组装成一个字节，将比特流顺序组成新的字节流B’₁,B’₂,…,B’_m，其中，m＝n÷8，B’_i＝b_i*8b_i*8+1b_i*8+2…b_i*8+7，i＝1,2,…,m。

根据本发明的一种计算文件相似哈希的方法的一实施例，其中，如果新的字节流长度大于256，则将新的字节流看成是文件，返回字节比较步骤；否则就得到文件相似哈希。

本发明提出的计算文件相似哈希的方法，计算简单，相似文件的相似哈希差异较小，不同文件的相似哈希差异较大，能够有效地区分不同文件，在文件快速检索、文件云存储系统中去重等应用中具有重要的应用价值。

附图说明

图1是本发明的一种计算文件相似哈希的方法的流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明提出了一种计算文件相似哈希的方法，该方法包括：

(1)字节比较步骤。将文件看成字节流，比较文件一个字节与前后字节的大小，根据比较结果，设置文件中间哈希的比特值，得到比特流。

(2)相似哈希组装步骤。将得到的比特流组装成新的字节流。

(3)再次哈希步骤。如果新的字节流长度大于一定的值，则将新的字节流看成是文件，返回字节比较步骤；否则就得到文件相似哈希。

(4)文件相似哈希比较步骤。计算两个文件相似哈希的差异，判断两个文件的相似程度。

本方法在计算文件相似哈希的过程中，利用循环贯序差分或普通差分将文件字节流比特化，仅需要简单的整数加、减运算就能完成，简单快速。同时使得相似文件的相似哈希差异较小，不同文件的相似哈希差异较大，可以提高云存储系统中用户对于去重的体验。因此，本发明在文件检索、文件去重中将发挥重要作用。

图1是本发明的一种计算文件相似哈希的方法的流程图。如图1所示，该方法包括：

具体实施时，如果一个文件从头到尾有n个字节，比特流为B₁,B₂,…,B_n，则转换成由n个比特的比特流b₁,b₂,…,b_n。转换过程如下：

采用循环贯序差分方法：如果B_i≥B_i+1，则b_i＝1，否则b_i＝0，i＝1,2,…,n，当i＝n时，i+1的值取为1。

采用普通差分方法：如果B_i+B_i≥B_i-1+B_i+1，则b_i＝1，否则b_i＝0，i＝1,2,…,n，当i＝1时，i-1的值取为n。当i＝n时，i+1的值取为1。

(2)相似哈希组装步骤。将得到的比特流组装成新的字节流。

具体实施时，如果得到的比特流为b₁,b₂,…,b_n，如果比特流中比特数目n的值不是8的倍数，则在b_n后面添加若干个值为0的比特，使得比特流的比特数目n为8的倍数。每连续8个比特组装成一个字节，将比特流顺序组成新的字节流B’₁,B’₂,…,B’_m，其中，m＝n÷8，B’_i＝b_i*8b_i*8+1b_i*8+2…b_i*8+7，i＝1,2,…,m。

具体实施时，如果新的字节流长度大于256，则将新的字节流看成是文件，返回字节比较步骤；否则就得到文件相似哈希。

具体实施时，计算两个文件相似哈希比特流的差异可以采用常规的编辑距离法，在计算编辑距离时，插入1个比特的代价为1，删除1个比特的代价为1。两个文件相似哈希的编辑距离越小，就说明相应的两份文件就越相似。

本发明公开了一种计算文件相似哈希的方法，该方法包括：(1)字节比较步骤。将文件看成字节流，比较文件一个字节与前后字节的大小，根据比较结果，设置文件中间哈希的比特值，得到比特流。(2)相似哈希组装步骤。将得到的比特流组装成新的字节流。(3)再次哈希步骤。如果新的字节流长度大于一定的值，则将新的字节流看成是文件，返回字节比较步骤；否则就得到文件相似哈希。(4)文件相似哈希比较步骤。计算两个文件相似哈希的差异，判断两个文件的相似程度。

本发明提出的计算文件相似哈希的方法，计算简单，相似文件的相似哈希差异较小，不同文件的相似哈希差异较大，能够有效地区分不同文件，在文件快速检索、文件云存储系统中去重等应用中具有重要的应用价值。能够满足云存储系统文件去重功能中的简单快速判断两份文件相似性的需求。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种计算文件相似哈希的方法，其特征在于，包括：

将文件看成字节流，比较文件一个字节与前后字节的大小，根据比较结果，设置文件中间哈希的比特值，得到比特流；

将得到的比特流组装成新的字节流；

如果新的字节流长度大于256，则将新的字节流看成是文件，返回字节比较步骤；否则就得到文件相似哈希；

计算两个文件相似哈希的差异，判断两个文件的相似程度。

2.如权利要求1所述的一种计算文件相似哈希的方法，其特征在于，如果一个文件从头到尾有n个字节，比特流为B₁,B₂,…,B_n，则转换成n个比特的比特流b₁,b₂,…,b_n，转换过程包括：

采用循环贯序差分方法包括：如果B_i≥B_i+1，则b_i＝1，否则b_i＝0，i＝1,2,…,n，当i＝n时，i+1的值取为1；

采用普通差分方法包括：如果B_i+B_i≥B_i-1+B_i+1，则b_i＝1，否则b_i＝0，i＝1,2,…,n，当i＝1时，i-1的值取为n，当i＝n时，i+1的值取为1。

3.如权利要求2所述的一种计算文件相似哈希的方法，其特征在于，得到的比特流为b₁,b₂,…,b_n，如果比特流中比特数目n的值不是8的倍数，则在b_n后面添加若干个值为0的比特，使得比特流的比特数目n为8的倍数，每连续8个比特组装成一个字节，将比特流顺序组成新的字节流B’₁,B’₂,…,B’_m，其中，m＝n÷8，B’_i＝b_i*8b_i*8+1b_i*8+2…b_i*8+7，i＝1,2,…,m。