CN107066601A

CN107066601A - 文件对比管理方法及系统

Info

Publication number: CN107066601A
Application number: CN201710264569.2A
Authority: CN
Inventors: 周海燕
Original assignee: Beijing Gupan Chuangshi Science & Technology Development Co Ltd
Current assignee: Beijing Gupan Chuangshi Science & Technology Development Co Ltd
Priority date: 2017-04-20
Filing date: 2017-04-20
Publication date: 2017-08-18

Abstract

本发明提供了一种文件对比管理方法及系统，涉及云存储技术领域，该方法包括：接收用户端上传的当前文件；获取对应于当前文件的特征字符串；将特征字符串与已有特征字符串进行对比；如果不存在与特征字符串相同的已有特征字符串，则将当前文件标记为非重复文件；如果存在与特征字符串相同的已有特征字符串，则将当前文件标记为重复文件。本发明通过文件对比管理的方法，能够对文件的重复与否进行识别，从而避免文件的重复存储，减少存储空间的浪费。

Description

文件对比管理方法及系统

技术领域

本发明涉及云存储技术领域，尤其是涉及一种文件对比管理方法及系统。

背景技术

云存储系统的核心是服务，需要提供多种访问方式，且要面对来自各个终端的用户，因此存储的数据文件庞杂繁多。在数据存储的过程中，往往需要将数据进行碎片化处理，然后用户通过用户端将碎片化处理后的数据文件向多个云服务器上传，在此过程中，可能会多次对服务器进行大量重复文件的上传，或者多个用户端上传相同的文件，或者服务器之间传输相同的文件，对于多云服务器来讲，这些相同的文件是无法识别的，这样就会导致重复存储，浪费存储空间的结果。

发明内容

有鉴于此，本发明的目的在于提供一种文件对比管理方法及系统，能够对文件的重复与否进行识别，从而避免文件的重复存储，减少存储空间的浪费。

第一方面，本发明实施例提供了一种文件对比管理方法，该方法包括：

接收用户端上传的当前文件；

获取对应于所述当前文件的特征字符串；

将所述特征字符串与已有特征字符串进行对比；

如果不存在与所述特征字符串相同的已有特征字符串，则将所述当前文件标记为非重复文件；

如果存在与所述特征字符串相同的已有特征字符串，则将所述当前文件标记为重复文件。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述特征字符串与所述已有特征字符串位于同一个云系统中或不同的云系统中。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述特征字符串为MD5值，所述已有特征字符串为已有MD5值。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，在所述将所述当前文件标记为重复文件之后，还包括：

将与所述重复文件的MD5值相同的已有MD5值对应的文件的属性值，与所述重复文件的属性值进行对比；

如果不同，则将所述重复文件标记为非重复文件；

如果相同，则维持所述重复文件的标记。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述特征字符串为文件指纹，所述已有特征字符串为已有文件指纹。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述获取对应于所述当前文件的特征字符串，具体为：

接收用户端上传的对应于所述当前文件的特征字符串；

或者，

根据一定规则，生成对应于所述当前文件的特征字符串。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述方法还包括：将与所述特征字符串相同的已有特征字符串对应的文件标记为已存在文件；

删除所述重复文件或所述已存在文件。

结合第一方面，本发明实施例提供了第一方面的第七种可能的实施方式，其中，所述当前文件为，任一完整文件经切割后的碎片文件。

第二方面，本发明实施例还提供一种文件对比管理系统，所述系统包括：

接收模块，用于接收用户端上传的当前文件；

获取模块，用于获取对应于所述当前文件的特征字符串；

第一对比模块，用于将所述特征字符串与已有特征字符串进行对比；

标记模块，用于当不存在与所述特征字符串相同的已有特征字符串时，将所述当前文件标记为非重复文件；以及，当存在与所述特征字符串相同的已有特征字符串时，将所述当前文件标记为重复文件。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述特征字符串为MD5值，所述已有特征字符串为已有MD5值；

所述系统还包括：

第二对比模块，用于将与所述重复文件的MD5值相同的已有MD5值对应的文件的属性值，与所述重复文件的属性值进行对比；

所述标记模块还用于，当所述第二对比模块的对比结果为不同时，将所述重复文件标记为非重复文件；以及，当所述第二对比模块的对比结果为相同时，维持所述重复文件的标记。

本发明实施例提供的技术方案带来了以下有益效果：本发明实施例提供的文件对比管理方法及系统中，首先接收用户端上传的当前文件，获取对应于所述当前文件的特征字符串，将所述特征字符串与已有特征字符串进行对比，如果不存在与所述特征字符串相同的已有特征字符串，则将所述当前文件标记为非重复文件，如果存在与所述特征字符串相同的已有特征字符串，则将所述当前文件标记为重复文件。通过这种方法能够对文件的重复与否进行识别，从而避免文件的重复存储，减少存储空间的浪费。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的文件对比管理方法的流程图；

图2为本发明实施例二提供的文件对比管理方法的流程图；

图3为本发明实施例三提供的文件对比管理装置的示意图；

图4为本发明实施例四提供的文件对比管理装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前的多云服务器对用户端上传的相同文件或者服务器之间传输的相同文件都无法识别，这样就会导致重复存储，浪费存储空间的结果。基于此，本发明实施例提供的一种文件对比管理方法以及系统，可以解决多云系统无法避免重复存储的技术问题。

实施例一：

本发明实施例提供了一种文件对比管理方法，如图1所示，该文件对比管理方法包括以下步骤：

S11：接收用户端上传的当前文件。

S12：获取对应于当前文件的特征字符串。

S13：将特征字符串与已有特征字符串进行对比。

S14：判断是否存在与特征字符串相同的已有特征字符串，如果是，则进行步骤S15；如果否，进行步骤S16。

S15：将当前文件标记为重复文件。

S16：将当前文件标记为非重复文件。

本实施例以云系统为例，首先云服务器接收用户端上传的当前文件，该当前文件可以是文本内容，也可以是图片。在文件上传之前，用户端本地首先会对该文件进行数据乱序切割，比如切割成三个字符串，分别上传到三个云系统中，进行碎片化存储。在用户端切割文件之前，用户端会根据若干规则以及上述文件生成特征字符串，该特征字符串可以用来标识文件的碎片内容，在碎片化文件上传的过程中，云服务器获取对应于该文件的特征字符串，而系统中本身已经存储有很多文件的特征字符串，通过获取到的特征字符串与系统中已有的特征字符串之间的对比，判断是否存在与特征字符串相同的已有特征字符串，如果存在，就将当前文件标记为重复文件；如果不存在，就将当前文件标记为非重复文件。

上述特征字符串和已有特征字符串可以来自于同一个云系统，也可以来自于不同的云系统，因此，通过上述方法能够实现对同一个云系统中文件重复与否的判断，也可以实现对不同云系统中文件重复与否的识别，进而将重复的文件进行删除，避免存储空间的浪费。

上述步骤S12：获取对应于当前文件的特征字符串，具体包括如下两种方法：

接收用户端上传的对应于当前文件的特征字符串；

或者，

根据一定规则，生成对应于当前文件的特征字符串。

在具体实现的时候，用户端在上传文件之前，会根据若干规则以及当前的文件，生成对应于该文件的特征字符串，云服务器可以直接接收用户端所发送的对应于当前文件的特征字符串。或者，当用户端在文件碎片化的时候都采用固定规则进行切割时，由多个云服务器接收到所述碎片化数据的时候，云服务器自己可以根据一定的规则，生成对应于该碎化文件的特征字符串。

为了减少存储空间的浪费，本实施例还可以包括以下步骤：

S17：将与特征字符串相同的已有特征字符串对应的文件标记为已存在文件。

S18：删除重复文件或已存在文件。

在把当前文件判定为重复文件后，还可以将与特征字符串相同的已有特征字符串对应的文件标记为已存在文件。因为重复文件和已存在文件实际上是相同的文件，所以将重复文件或已存在文件进行删除，从而减少存储空间的浪费。

此外，特征字符串可以是用户端在上传文件之前根据要上传的文件本身生成的MD5值，已有的特征字符串为已有的MD5值；或者，特征字符串也可以为文件指纹，已有的特征字符串也为文件指纹，该文件指纹为通过不规则碎化文件后，根据内在规律提取的一部分特征码。通过MD5值或者文件指纹的对比，均可以对当前文件是否为重复文件进行判断，从而进行重复文件与非重复文件的标记。

在一种实现方式中，如果用户端每次对文件的分割方式不一样，那么可以根据内在规律提取一部分指纹，也就是特征码，用户端可以根据这个规则把每部分数据的文件指纹提取出来，并发送给云服务器，云服务器可以根据接收到的文件指纹与系统内已有的文件指纹进行对比，从而判断被切割的文件是否为重复文件。

比如：1010 0101“0110 0101 0101 0100 1010”1011 0101，将其中引号中的部分提取为指纹，无论以上引号中的数字如何切割拆分，整段数中起始位置9到28之间的0和1数量始终一致，只要同一个文件这段数据在多个云中的位置可以被确定和找到，就可以完成在不同拆分方式下相同文件的对比。

在其他实施方式中，特征字符串也可以是MD5值和文件指纹之外的其他形式的字符串。

在整个文件对比过程中，当前文件可以是任一完整文件，也可以为任一完整文件经切割后的碎片文件。

本发明实施例提供的文件对比管理方法中，云服务器首先接收用户端上传的当前文件，并获取对应于所述当前文件的特征字符串，将所述特征字符串与已有特征字符串进行对比，如果不存在与所述特征字符串相同的已有特征字符串，则将所述当前文件标记为非重复文件，如果存在与所述特征字符串相同的已有特征字符串，则将所述当前文件标记为重复文件。通过这种方法能够对文件的重复与否进行识别，从而避免文件的重复存储，减少存储空间的浪费。

实施例二：

本发明实施例提供的一种文件对比管理方法，如图2所示，该文件对比管理方法包括以下步骤：

S201：接收用户端上传的当前文件。

S202：获取对应于当前文件的MD5值。

S203：将MD5值与已有MD5值进行对比。

S204：判断是否存在与MD5值相同的已有MD5值，如果是，则进行步骤S205；如果否，进行步骤S206。

S205：将当前文件标记为重复文件。

S206：将当前文件标记为非重复文件。

在本发明实施例中，前述步骤S201-S206与实施例一中的步骤S11-S16类似，实施例一中在文件碎化后，生成的是特征字符串，并通过当前文件的特征字符串与系统内已经存在的特征字符串进行比对，从而判断当前文件是否为重复文件，而本实施例中，特征字符串为MD5值，对比判断过程是一样的，在此不再赘述。

由于在有些情况下，不同的文件的MD5值是相同的，因此，云服务器仅仅根据获取的文件的MD5值和已有的MD5值进行对比，将MD5值相同的当前文件判定为重复文件，是不准确的，可能会导致将没有重复存储的文件误删掉，为了避免这种情况的发生，该实施例还包括如下步骤：

S207：将与重复文件的MD5值相同的已有MD5值对应的文件的属性值，与重复文件的属性值进行对比。

S208：判断与重复文件的MD5值相同的已有MD5值对应的文件的属性值，与重复文件的属性值是否相同，如果是，则进行步骤S209；如果否，则进行步骤S210。

S209：维持重复文件的标记。

S210：将重复文件标记为非重复文件。

在将当前文件的MD5值与系统内已有的MD5值进行对比，并且判定当前文件为重复文件后，进一步地，云服务器可以分别提取与重复文件的MD5值相同的已有MD5值对应的文件的属性值，以及上述重复文件的属性值，比如：文件的大小、文件占用空间以及存储位置等。将二者的属性值进行比对，如果二者的属性值相同，则说明之前的判断结果正确，维持重复文件的标记；否则将重复文件标记为非重复文件，对第一次的判断结果进行纠正。这样，可以避免误删没有重复的文件，提高文件存储管理的准确性。

在本发明实施例提供的文件对比管理方法中，云服务器首先接收用户端上传的当前文件，并获取对应于所述当前文件的MD5值，根据所述MD5值与已有MD5值的对比结果，判定当前文件是否为重复文件，然后再根据标记为重复文件的文件和具有相同MD5值的已有文件的属性值进行二次判断，如果属性值不同，则将原先判定为重复文件的文件标记为非重复文件，通过本实施例的二次判断，可以准确的找出哪些文件为重复文件，哪些文件是非重复文件，一方面，可以避免重复文件对存储空间的浪费，另一方面，避免非重复文件的误删，大大地提高了文件存储管理的准确性。

应当说明的是，上述步骤S203-S210，可以在云服务器中进行，也可以在云管理系统中进行，或者由任何第三方可汇集对比系统中进行。当前文件的MD5值和已有MD5值可以来自于同一个云系统，也可以来自于不同的云系统。另外，在其他实施方式中，特征字符串也可以文件指纹或其他形式的字符串。

实施例三：

本发明实施例提供一种文件对比管理系统，如图3所示，该文件对比管理系统包括：接收模块31、获取模块32、第一对比模块33以及标记模块34。

其中，接收模块31，用于接收用户端上传的当前文件。

获取模块32，用于获取对应于当前文件的特征字符串。

第一对比模块33，用于将特征字符串与已有特征字符串进行对比。

标记模块34，用于当不存在与特征字符串相同的已有特征字符串时，将当前文件标记为非重复文件；以及，当存在与特征字符串相同的已有特征字符串时，将当前文件标记为重复文件。

本发明实施例提供的文件对比管理系统中，云服务器首先通过接收模块31，接收用户端上传的当前文件，并通过获取模块32，获取对应于当前文件的特征字符串，然后利用第一对比模块33，将获取模块32获取的特征字符串与已有特征字符串进行对比，最后利用标记模块34，在不存在与所述特征字符串相同的已有特征字符串的时候，将当前文件标记为非重复文件，在存在与所述特征字符串相同的已有特征字符串的时候，将当前文件标记为重复文件。通过该系统能够对文件的重复与否进行识别，从而避免文件的重复存储，减少存储空间的浪费。

另外，上述特征字符串和已有特征字符串可以来自于同一个云系统，也可以来自于不同的云系统，因此，通过上述文件对比管理系统既可以实现对同一个云系统中文件重复与否的判断，也可以实现对不同云系统中文件重复与否的识别。

实施例四：

本发明实施例提供了另一种文件对比管理系统，如图4所示，该文件对比管理系统包括：接收模块41、获取模块42、第一对比模块43、标记模块44、第二对比模块45以及删除模块46。

其中，接收模块41，用于接收用户端上传的当前文件。

获取模块42，用于获取对应于当前文件的MD5值。

第一对比模块43，用于将获取模块42获取的MD5值与已有MD5值进行对比。

标记模块44，用于当不存在与MD5值相同的已有MD5值时，将当前文件标记为非重复文件；以及，当存在与MD5值相同的已有MD5值时，将当前文件标记为重复文件。

在本发明实施例中，前述模块41-44与实施例三中的模块31-34功能类似，实施例四中在文件碎化后，生成的是特征字符串，并通过当前文件的特征字符串与系统内已经存在的特征字符串进行比对，从而判断当前文件是否为重复文件，而本实施例中，特征字符串为MD5值，已有的特征字符串也为MD5值，对比判断过程是一样的，在此不再赘述。

由于在有些情况下，不同的文件的MD5值是相同的，因此，云服务器仅仅根据获取的文件的MD5值和已有的MD5值进行对比，将MD5值相同的当前文件判定为重复文件，是不准确的，可能会导致将没有重复存储的文件误删掉，为了避免这种情况的发生，该实施例还包括如下模块：

第二对比模块45，用于将与重复文件的MD5值相同的已有MD5值对应的文件的属性值，与重复文件的属性值进行对比。

其中，标记模块44还用于，在第二对比模块45的对比结果为不同时，将重复文件标记为非重复文件；以及，当第二对比模块45的对比结果为相同时，维持重复文件的标记。

标记模块44，还用于将与MD5值相同的已有MD5值对应的文件标记为已存在文件。

删除模块46，用于删除重复文件或已存在文件。

在第一对比模块43将当前文件的MD5值与系统内已有的MD5值进行对比，并且标记模块44将当前文件标记为重复文件后，进一步地，云服务器可以分别提取与重复文件的MD5值相同的已有MD5值对应的文件的属性值，以及上述重复文件的属性值，比如：文件的大小、文件占用空间以及存储位置等。利用第二对比模块45将二者的属性值进行比对，如果二者的属性值相同，则说明之前的判断结果正确，维持重复文件的标记；否则利用标记模块44将重复文件标记为非重复文件，对第一次的判断结果进行纠正。这样，可以避免误删没有重复的文件，提高文件存储管理的准确性。

此外，标记模块44还可以将与MD5值相同的已有MD5值对应的文件标记为已存在文件，删除模块46可以将标记模块44已标记的重复文件或已存在文件进行删除，减少存储空间的浪费。

在本发明实施例提供的文件对比管理系统中，云服务器首先通过接收模块41接收用户端上传的当前文件，并利用获取模块42获取对应于所述当前文件的MD5值，根据第一对比模块43对所述MD5值与已有MD5值的对比结果，标记模块44对判定为重复文件的当前文件进行标记，然后通过第二对比模块45，根据标记为重复文件的文件和具有相同MD5值的已有文件的属性值进行二次对比，如果属性值不同，则通过标记模块44将原先判定为重复文件的文件标记为非重复文件，此外，还可以通过删除模块46将将标记模块44已标记的重复文件或已存在文件进行删除，减少存储空间的浪费。通过本实施例所提供的文件对比系统的二次判断，可以准确的找出哪些文件为重复文件，哪些文件是非重复文件，一方面，可以避免重复文件对存储空间的浪费，另一方面，避免非重复文件的误删，大大地提高了文件存储管理的准确性。

应当说明的是，在其他实施方式中，特征字符串也可以文件指纹或其他形式的字符串。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文件对比管理方法，其特征在于，包括：

接收用户端上传的当前文件；

获取对应于所述当前文件的特征字符串；

将所述特征字符串与已有特征字符串进行对比；

2.根据权利要求1所述的方法，其特征在于，所述特征字符串与所述已有特征字符串位于同一个云系统中或不同的云系统中。

3.根据权利要求1所述的方法，其特征在于，所述特征字符串为MD5值，所述已有特征字符串为已有MD5值。

4.根据权利要求3所述的方法，其特征在于，在所述将所述当前文件标记为重复文件之后，还包括：

如果不同，则将所述重复文件标记为非重复文件；

如果相同，则维持所述重复文件的标记。

5.根据权利要求1所述的方法，其特征在于，所述特征字符串为文件指纹，所述已有特征字符串为已有文件指纹。

6.根据权利要求1所述的方法，其特征在于，所述获取对应于所述当前文件的特征字符串，具体为：

接收用户端上传的对应于所述当前文件的特征字符串；

或者，

根据一定规则，生成对应于所述当前文件的特征字符串。

7.根据权利要求1所述的方法，其特征在于，还包括：将与所述特征字符串相同的已有特征字符串对应的文件标记为已存在文件；

删除所述重复文件或所述已存在文件。

8.根据权利要求1所述的方法，其特征在于，所述当前文件为，任一完整文件经切割后的碎片文件。

9.一种文件对比管理系统，其特征在于，包括：

接收模块，用于接收用户端上传的当前文件；

获取模块，用于获取对应于所述当前文件的特征字符串；

10.根据权利要求9所述的系统，其特征在于，所述特征字符串为MD5值，所述已有特征字符串为已有MD5值；

所述系统还包括：