CN111309689A

CN111309689A - 文件查重方法及装置

Info

Publication number: CN111309689A
Application number: CN201811515721.0A
Authority: CN
Inventors: 汪宇龙; 孙承华; 冯广欣
Original assignee: Hangzhou Haikang Storage Technology Co ltd
Current assignee: Hangzhou Haikang Storage Technology Co ltd
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2020-06-19

Abstract

本发明实施例提出文件查重方法及装置。方法包括：扫描设备本地磁盘上存储的所有文件，将每个文件的文件名、文件存储路径和文件大小记录到文件信息数据库；根据文件信息数据库记录的各文件的文件大小，将大小相同的文件划分到一个文件组中；对于每个文件组，按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样，按照预设加密算法对每个文件的采样数据分别进行加密计算；将每个文件组中加密计算结果相同的文件判定为重复文件。本发明实施例实现了对设备本地存储文件的查重。

Description

文件查重方法及装置

技术领域

本发明涉及文件管理技术领域，尤其涉及文件查重方法及装置、非瞬时计算机可读存储介质和电子设备。

背景技术

在客户端-服务器架构中，经常需要将数据从客户端上传到服务器，为了减少服务器的存储负担，尤其在客户端数量众多的情形下，在客户端上传数据前，通常需要对文件进行查重处理，若发现该文件在服务器上已经存在，则不再上传。

现有的查重算法如下：客户端采用预设算法计算待上传文件的唯一码，将该唯一码提供给服务器，服务器在保存每个文件时会采用相同的算法计算文件的唯一码，服务器收到客户端发来的唯一码后，将该唯一码与自身保存的各文件的唯一码比对，若发现有相同的，则确定文件重复，则通知客户端，客户端不再上传该文件。

发明内容

本发明实施例提出文件查重方法及装置、非瞬时计算机可读存储介质和电子设备，以实现对设备本地存储文件的查重。

本发明实施例的技术方案是这样实现的：

一种文件查重方法，该方法包括：

扫描设备本地磁盘上存储的所有文件，将每个文件的文件名、文件存储路径和文件大小记录到文件信息数据库；

根据文件信息数据库记录的各文件的文件大小，将大小相同的文件划分到一个文件组中；

对于每个文件组，按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样，按照预设加密算法对每个文件的采样数据分别进行加密计算；

将每个文件组中加密计算结果相同的文件判定为重复文件。

所述按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样包括：

对于组内所有文件的文件大小都大于预设采样文件大小的文件组，按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样。

所述认为该文件组的该多个文件重复之后进一步包括：

将该文件组的该多个文件作为一个重复文件组，将该重复文件组内的各文件的文件名和文件存储路径提供给客户端；

接收到客户端发来的指示删除一个或多个重复文件的指令，删除对应的一个或多个重复文件。

所述对于每个文件组按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样包括：

对于组内文件数大于1的文件组，按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样。

所述加密算法为信息摘要MD5算法。

一种文件查重装置，该装置包括：

扫描模块，扫描设备本地磁盘上存储的所有文件，将每个文件的文件名、文件存储路径和文件大小记录到文件信息数据库；

文件组划分模块，根据文件信息数据库记录的各文件的文件大小，将大小相同的文件划分到一个文件组中；

查重模块，对于文件组划分模块划分得到的每个文件组，按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样，按照预设加密算法对每个文件的采样数据分别进行加密计算，将该文件组内加密计算结果相同的文件判定为重复文件。

所述查重模块按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样包括：

所述查重模块认为该文件组的该多个文件重复之后进一步包括：

将该文件组的该多个文件作为一个重复文件组，将该重复文件组内的各文件的文件名和文件存储路径提供给客户端；接收到客户端发来的指示删除一个或多个重复文件的指令，删除对应的一个或多个重复文件。

所述文件组划分模块将大小相同的文件划分到一个文件组中包括：

所述查重模块按照预设加密算法对每个文件的采样数据分别进行加密计算包括：

按照预设信息摘要MD5算法对每个文件的采样数据分别进行加密计算。

一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如上任一项所述的文件查重方法的步骤。

一种电子设备，包括如上所述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的所述处理器。

本发明实施例首先将设备本地存储的所有文件中大小相同的文件划分到一个文件组中，对每个文件组中的文件分别进行采样，对每个文件的采样数据分别进行加密计算，将文件组内加密计算结果相同的文件判定为重复文件，从而实现了对设备本地存储文件的查重。

附图说明

图1为本发明一实施例提供的文件查重方法流程图；

图2为本发明另一实施例提供的文件查重方法流程图；

图3为本发明实施例提供的文件查重装置的结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

发明人对现有的文件查重方法进行分析发现：

现有的文件查重算法都是针对客户端上传数据过程的，但是没有考虑到：服务器端存储的大量文件数据也有重复的可能。

图1为本发明一实施例提供的文件查重方法流程图，其具体步骤如下：

步骤101：扫描设备本地磁盘上存储的各文件，将每个文件的文件名、文件存储路径和文件大小记录到文件信息数据库。

步骤102：设备根据文件信息数据库中记录的各文件的文件大小，将大小相同的文件划分到一个文件组中。

步骤103：对于每个文件组，设备按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样，按照预设加密算法对每个文件的采样数据分别进行加密计算。

步骤104：将文件组内加密计算结果相同的文件判定为重复文件。

图2为本发明另一实施例提供的文件查重方法流程图，其具体步骤如下：

步骤201：设备启动后，扫描设备本地磁盘上存储的各文件，将每个文件的文件名、文件存储路径和文件大小记录到文件信息数据库。

设备本地磁盘上存储的文件可能来自于客户端上传的文件，或者来自外接存储介质导入的文件，或者是本地磁盘的固有文件。

步骤202：扫描完毕，设备根据文件信息数据库记录的各文件的文件大小，将大小相同的文件划分到一个文件组中。

相同文件的文件大小肯定相同，因此，先将大小相同的文件划分为一组。

步骤203：对于所有文件组，设备删除组内文件数等于1的文件组。

文件组内只有一个文件，必然不存在重复文件。

步骤204：对于剩余的每个文件组，设备判断该文件组内每个文件的文件大小是否大于预设采样文件大小，若是，执行步骤205；否则，执行步骤206。

预设采样文件大小可根据经验等设定，例如设定为64M比特。

步骤205：设备按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样，对每个文件的采样数据分别进行MD(Message-Digest，信息摘要)5计算，将MD5计算结果相同的文件判定为重复文件，将所有重复文件的文件名和存储路径作为一个重复文件组放入临时数据库中，转至步骤207。

采样频率指的是对一个文件的采样次数，采样长度指的是每次采样的数据的长度。

也就是说，对每个文件的采样频率和采样长度是相同的，这样对每个文件来说，最终得到的采样数据的长度是相同的。也就是说，文件越大，相邻两次采样的间隔越大。

例如：预设采样频率为64次，采样长度为1M比特，则：

文件A的大小为256M比特，则采样间隔为256/64＝4M比特，即每隔4M比特数据采样一次，每次采样1M比特的数据；

文件B的大小为512M比特，则采样间隔为512/64＝8M比特，即每隔8M比特数据采样一次，每次采样1M比特的数据。

步骤206：设备对该文件组内的每个文件的所有数据分别进行MD5计算，将MD5计算结果相同的文件判定为重复文件，将所有重复文件的文件名和存储路径作为一个重复文件组放入临时数据库中。

步骤207：设备将临时数据库的存储路径提供给客户端，客户端从临时数据库读取各重复文件组信息。

步骤208：客户端获取到一个重复文件组信息后，根据该重复文件组中各文件的文件名和文件存储路径，下载各文件，然后将各文件提供给用户，用户打开各文件后，决定删除哪个文件，然后将指示删除一个或多个重复文件的指令通过客户端发送给设备，该指令携带需要删除的一个或多个重复文件的文件名和存储路径。

步骤209：设备接收客户端发来的指示删除一个或多个重复文件的指令，根据该指令携带的需要删除的一个或多个重复文件的文件名和存储路径，查找到对应的文件，删除查找到的文件。

本发明实施例中的设备如：服务器等。

图3为本发明实施例提供的文件查重装置的结构示意图，该装置主要包括：扫描模块、文件组划分模块和查重模块，其中：

扫描模块，扫描设备本地磁盘上存储的所有文件，将每个文件的文件名、文件存储路径和文件大小记录到文件信息数据库。

文件组划分模块，根据扫描模块的文件信息数据库记录的各文件的文件大小，将大小相同的文件划分到一个文件组中。

查重模块，对于文件组划分模块划分得到的每个文件组，按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样，按照预设加密算法对每个文件的采样数据分别进行加密计算，将文件组内加密计算结果相同的文件判定为重复文件。

一可选实施例中，查重模块按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样包括：

一可选实施例中，查重模块将该文件组内加密计算结果相同的文件判定为重复文件之后进一步包括：

将该文件组的所有重复文件的文件名和文件存储路径提供给客户端；接收到客户端发来的指示删除一个或多个重复文件的指令，删除对应的一个或多个重复文件。

一可选实施例中，查重模块对于每个文件组按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样包括：

一可选实施例中，查重模块按照预设加密算法对每个文件的采样数据分别进行加密计算包括：

按照预设MD5算法对每个文件的采样数据分别进行加密计算。

本发明实施例还提供一种非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质存储指令，该指令在由处理器执行时使得该处理器执行如步骤101-104，或者如步骤201-208任一项所述的文件查重方法的步骤。

本发明实施例还提供一种电子设备，包括如上所述的非瞬时计算机可读存储介质、以及可访问该非瞬时计算机可读存储介质的处理器。

本发明实施例的有益效果如下：

通过将设备本地存储的所有文件中大小相同的文件划分到一个文件组中，对每个文件组中的文件分别进行采样，对每个文件的采样数据分别进行加密计算，将文件组内加密计算结果相同的文件判定为重复文件，从而实现了对设备本地存储文件的查重。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种文件查重方法，其特征在于，该方法包括：

将每个文件组中加密计算结果相同的文件判定为重复文件。

2.根据权利要求1所述的方法，其特征在于，所述按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样包括：

3.根据权利要求1所述的方法，其特征在于，所述将每个文件组中加密计算结果相同的文件判定为重复文件之后进一步包括：

将该文件组的所有重复文件的文件名和文件存储路径提供给客户端；

4.根据权利要求1所述的方法，其特征在于，所述对于每个文件组按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样包括：

5.根据权利要求1所述的方法，其特征在于，所述加密算法为信息摘要MD5算法。

6.一种文件查重装置，其特征在于，该装置包括：

7.根据权利要求6所述的装置，其特征在于，所述查重模块按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样包括：

8.根据权利要求6所述的装置，其特征在于，所述查重模块将该文件组内加密计算结果相同的文件判定为重复文件之后进一步包括：

9.根据权利要求6所述的装置，其特征在于，所述查重模块对于每个文件组按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样包括：

10.根据权利要求6所述的装置，其特征在于，所述查重模块按照预设加密算法对每个文件的采样数据分别进行加密计算包括：