CN106446001A

CN106446001A - 一种在计算机存储介质上存储文件的方法及系统

Info

Publication number: CN106446001A
Application number: CN201610609625.7A
Authority: CN
Inventors: 郎志新; 杜军; 韩烁
Original assignee: Beijing VRV Software Corp Ltd
Current assignee: Beijing VRV Software Corp Ltd
Priority date: 2016-07-29
Filing date: 2016-07-29
Publication date: 2017-02-22
Anticipated expiration: 2036-07-29
Also published as: CN106446001B

Abstract

本发明提供一种在计算机存储介质上大量文件的存储方法及系统，包括使用存储介质名称、文件HASH和文件大小的进行联合编码的文件命名方式；使用基于单个文件HASH和该文件的文件名的HASH进行编码而命名的多层目录结构进行存储该文件的存储方式；使用根据存储空间的可用空间大小动态设定存储文件时分配给每个存储介质进行存储该文件的几率权重的方法。

Description

一种在计算机存储介质上存储文件的方法及系统

技术领域

本发明涉及一种文件存储方式，具体涉及一种在计算机存储介质上存储大量文件的方法。

背景技术

在现有的技术中，人们在计算机上存储文件的时候，常常将所有文件放置到其文件系统的一个或多个随意命名的文件夹中，这样文件夹命名混乱，不易管理的问题，且随着文件夹的数目增多，文件的存取效率会降低，于是出现了一些按照文件类型或文件名称进行归类存储的方法，限定了文件夹数量，但是仍然会出现某些文件夹下文件较为集中的问题。

当文件的数量达到一定规模后，会出现大量内容重复的文件占用存储空间的问题，于是出现一种基于文件HASH的文件存储方式，但在随着文件数量的增加而出现相同HASH值而文件不同的现象出现的概率会不断增加。

当文件存储扩展到多个存储介质后，会出现多个存储介质空间大小不一，文件存储的时候也会出现文件在某一个或几个存储介质集中的问题。

因此，现有的文件存储方法，存在以下问题：

1、文件夹命名混乱，文件夹数目过多，文件在某个或某几个文件夹下集中。

2、单一使用文件HASH时，文件的HASH值会随着文件数目的增多而有更大的几率出现碰撞。

3、多个存储介质时，会出现文件相对集中到某个或某几个介质，并且介质本身的可用空间大小不一，会导致较小可用空间介质因存储已满而变为不再可用，进一步导致后续文件向较大空间聚集的问题；在读写后续文件的时候就会出现读写操作集中在某个或某几个存储介质的情况出现，受限于单个存储介质的性能，就会导致整个存储系统的读取性能的下降。

发明内容

本发明的目的在于克服现有文件存储技术的缺陷，提供一种更为高效的文件存储方式。

为实现上述目的，本发明第一方面提供一种在计算机存储介质上存储文件的方法，包括使用存储介质名称、文件HASH和文件大小的进行联合编码的文件命名方式；使用基于单个文件HASH和该文件的文件名的HASH进行编码而命名的多层目录结构进行存储该文件的存储方式；使用根据存储空间的可用空间大小动态设定存储文件时分配给每个存储介质进行存储该文件的几率权重的方法。

进一步地，对存储介质按照一定顺序进行编号，计算待存储文件的HASH值，获取待存储文件的大小，将存储介质编号，文件HASH和文件大小按照一定的可逆的算法进行编码，生成文件名称，同时也作为该文件的唯一编号。

进一步地，使用一种持久化存储方式，存储文件在使用中的信息与文件的唯一名称之间的映射关系，其中文件在使用中的信息包括但不限于文件实际名称，文件HASH值，文件大小，文件的存储时间等信息。

进一步地，分别在文件内容的HASH字符串和文件名称的HASH字符串的指定位置上取两位作为文件夹名称，建立双层目录结构，将文件存储到该目录结构的最底层文件夹下。

进一步地，文件存储前对编号的存储介质的可用空间进行计算，然后将该编号存储介质的可用空间大小在总的可用空间大小中所占的百分比作为存储文件时分配到该编号存储介质上的概率。

进一步地，文件在存储前，使用文件的HASH值与文件大小在在持久化存储中进行检索，如果找到相同的值，说明重复文件已经存在，只需在持久化存储中建立新文件信息与该文件的唯一编号的映射关系。

进一步地，在读取文件时，提供文件的唯一标识，根据文件标识与文件位置的一对一的映射关系，直接对文件进行读取。

另一方面，本发明还提供一种在计算机存储介质上存储文件的系统，包括：

文件命名装置，用于使用存储介质名称、文件HASH和文件大小的进行联合编码的文件命名方式对待存储的文件进行命名；

文件存储装置，使用基于单个文件HASH和该文件的文件名的HASH进行编码而命名的多层目录结构进行存储该文件的存储。

其中，所述文件存储装置还包括权重设定装置，用于在存储时，根据存储空间的可用空间大小动态设定存储文件时分配给每个存储介质进行存储该文件的几率权重。

进一步地，所述文件命名装置对存储介质按照一定顺序进行编号，计算待存储文件的HASH值，获取待存储文件的大小，将存储介质编号，文件HASH和文件大小按照一定的可逆的算法进行编码，生成文件名称，同时也作为该文件的唯一编号。

进一步地，还包括持久化存储装置，用于使用持久化存储方式存储文件在使用中的信息与文件的唯一名称之间的映射关系，其中文件在使用中的信息包括文件实际名称，文件HASH值，文件大小，文件的存储时间等信息。

进一步地，所述文件存储装置分别在文件内容的HASH字符串和文件名称的HASH字符串的指定位置上取两位作为文件夹名称，建立双层目录结构，将文件存储到该目录结构的最底层文件夹下。

进一步地，所述文件存储装置文件存储前对编号的存储介质的可用空间进行计算，然后将该编号存储介质的可用空间大小在总的可用空间大小中所占的百分比作为存储文件时分配到该编号存储介质上的概率。

进一步地，还包括检索装置，用于文件在存储前，使用文件的HASH值与文件大小在在持久化存储中进行检索，如果找到相同的值，说明重复文件已经存在，只需在持久化存储中建立新文件信息与该文件的唯一编号的映射关系。

进一步地，还包括文件读取装置，用于在读取文件时，提供文件的唯一标识，根据文件标识与文件位置的一对一的映射关系，直接对文件进行读取。

本发明的有益效果是：减少了不同文件生成相同唯一编号的概率，增加了不同文件识别的准确率，应用持久化存储系统自身的功能进行检索比直接遍历文件系统更为高效，充分利用了多个存储的功能。

附图说明

图1为本发明提供的一种文件唯一编号的组成示意图。

图2为本发明提供的一种文件在存储介质中的存储目录结构示意图。

具体实施方式

为了更充分理解本技术内容，下面结合具体实施例对本技术方案进一步介绍和说明，但不局限于此。

本发明实施例提供一种在计算机存储介质上大量文件的高效的存储方法和系统，用以解决现有技术中存储大量文件时存在的问题。

下面通过具体实施例，分别进行详细的说明。

本发明实施例一提供一种在计算机存储介质上大量文件的高效的存储方法，包括，文件命名步骤，使用存储介质名称、文件HASH和文件大小的进行联合编码的文件命名方式对待存储文件命名；

文件存储步骤，使用基于单个文件HASH和该文件的文件名的HASH进行编码而命名的多层目录结构进行存储该文件的存储，其中，存储时，根据存储空间的可用空间大小动态设定存储文件时分配给每个存储介质进行存储该文件的几率权重。

具体地，上述文件命名步骤中，对存储介质按找每位为十六进制字符，共两位，按照从00到FF的顺序进行编号，从而生成介质编号。介质编号的位数可以增加或减少，就能处理更多或更少的存储介质。

文件唯一编号的一种组成方式如图1所示。在图1中，文件编号由三部分组成，分别是介质编号、SHA1和文件大小。其中介质编号占用2个字符，SHA1占用40个字符，文件大小占用8个字符，因此文件唯一编号总长度为它们长度之和，最后为50个字符。SHA1为HASH算法的一种。通过对文件进行SHA1算法处理，最后获得40个字符的SHA1字符串（当然也可以采用其他HASH算法，但最后的字符串长度会各不相同）。获取文件的实际大小，文件大小以8位16进制的形式表示，以字节为单位。

上述文件存储步骤中，文件存储的一种目录结构为如图2所示的结构。如图2所示，在存储介质中选定取任意一个文件夹作为根目录root，然后在该根目录root下建立首层目录AB和底层目录CD的两层目录结构。其中这两层目录的名称是根据文件的SHA1值和文件唯一编号的MD5值进行确定的。详细的算法是，取文件SHA1值字符串的前两位字符作为首层目录的名称，此处记为AB，对文件唯一编号进行MD5计算，取该MD5的前两个字符作为底层目录的名称，此处记为CD。由以上两层目录 AB\CD 确定了存储文件的相对路径，文件存储在底层目录下。

根据本发明具体实施例的又一方面，实际文件信息与存储中的文件唯一副本之间的映射关系采用数据库方式存储，也可以采用其他持久化存储方式。每一条文件信息由文件名称，文件编号，文件大小，文件SHA1值，文件存储时间，文件状态组成。每一条文件信息通过文件编号与实际的文件存储副本进行关联。文件信息与文件编号的关系为多对一的关系。

根据本发明具体实施例的又一方面，存储文件前，获取每个介质的可用空间大小，统计总的可用空间大小并计算每个介质在总的可用空间大小中所占用的比例。使用该比例作为进行文件存储前分配存储介质的权重。使用带有权重的随机分配算法分配存储介质。

根据本发明具体实施例的又一方面，文件存储前，使用文件SHA1值和文件大小字符串作为关键字在数据库中进行检索，如果找到记录，说明相同文件已经存在，这个时候只需记录文件信息与文件唯一标识的映射关系，就是插入一条文件信息记录。如果没有检索到，那么需要在插入文件信息记录的同时在指定目录存储一份以文件唯一编码作为文件名的文件副本。

根据本发明具体实施例的又一方面，在文件读取的时候，只需用户提供文件的唯一编码，即可根据唯一编码与文件路径的对应关系，直接对文件数据进行读取。

为了实施本发明提供的上述技术方案，本发明还提供用于配合上述方案的相关装置，包括文件命名装置，用于使用存储介质名称、文件HASH和文件大小的进行联合编码的文件命名方式对待存储的文件进行命名；

所述文件命名装置对存储介质按照一定顺序进行编号，计算待存储文件的HASH值，获取待存储文件的大小，将存储介质编号，文件HASH和文件大小按照一定的可逆的算法进行编码，生成文件名称，同时也作为该文件的唯一编号。还包括持久化存储装置，用于使用持久化存储方式存储文件在使用中的信息与文件的唯一名称之间的映射关系，其中文件在使用中的信息包括文件实际名称，文件HASH值，文件大小，文件的存储时间等信息。所述文件存储装置分别在文件内容的HASH字符串和文件名称的HASH字符串的指定位置上取两位作为文件夹名称，建立双层目录结构，将文件存储到该目录结构的最底层文件夹下。所述文件存储装置文件存储前对编号的存储介质的可用空间进行计算，然后将该编号存储介质的可用空间大小在总的可用空间大小中所占的百分比作为存储文件时分配到该编号存储介质上的概率。还包括检索装置，用于文件在存储前，使用文件的HASH值与文件大小在在持久化存储中进行检索，如果找到相同的值，说明重复文件已经存在，只需在持久化存储中建立新文件信息与该文件的唯一编号的映射关系。

还包括文件读取装置，用于在读取文件时，提供文件的唯一标识，根据文件标识与文件位置的一对一的映射关系，直接对文件进行读取。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件(例如处理器)来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

由上可见，本发明通过将文件内容的HASH值和文件大小应用于文件的唯一编号的编码，减少了不同文件生成相同唯一编号的概率，增加了不同文件识别的准确率。

使用持久化存储方式存储文件在应用时的信息与文件的唯一编号的映射关系，应用持久化存储系统自身的功能进行检索比直接遍历文件系统更为高效。

使用HASH值中的某两位作为目录名称能够有效的限定每一层的目录总数。由于HASH值的计算结果的分布均匀性，使得文件能够均匀的分布到以这些指定字符为命名的双层目录下，也就是说在大量文件存储时，该方法能够保证在每个存储目录下存储的文件数目分布均匀。

根据可用空间大小在总的空间大小中所占百分比来设定存储时选定该存储空间的概率，从而能够有效的将文件分布在不同的存储空间上，减少了同一时间操作同一个存储介质的概率，充分利用了多个存储介质的性能。

通过使用采用了文件HASH与文件大小进行编码的文件唯一编号，能够在不损失文件内容的情况下减少重复文件，扩大了存储系统的可用空间。

由于文件唯一编号与文件实际路径之间的可逆运算关系，可以直接有文件唯一编号生成文件路径，从而能够直接对文件进行操作，提高了文件的操作效率。

以上对本发明实施例所述方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种在计算机存储介质上存储文件的方法，其特征在于，包括以下步骤：

文件命名步骤，使用存储介质名称、文件HASH和文件大小进行联合编码的文件命名方式对待存储文件进行命名；

文件存储步骤，使用基于单个文件HASH和该文件的文件名的HASH进行编码而命名的多层目录结构进行存储该文件的存储，其中，根据存储空间的可用空间大小动态设定存储文件时分配给每个存储介质进行存储该文件的几率权重；所述文件存储步骤具体为：分别在文件内容的HASH字符串和文件名称的HASH字符串的指定位置上取两位作为文件夹名称，建立双层目录结构，将文件存储到该目录结构的最底层文件夹下；

文件存储前对编号的存储介质的可用空间进行计算，然后将该编号存储介质的可用空间大小在总的可用空间大小中所占的百分比作为存储文件时分配到该编号存储介质上的概率；

文件在存储前，使用文件的HASH值与文件大小在在持久化存储中进行检索，如果找到相同的值，说明重复文件已经存在，只需在持久化存储中建立新文件信息与该文件的唯一编号的映射关系。

2.根据权利要求1所述的一种在计算机存储介质上存储文件的方法，其特征在于：所述文件命名步骤具体为：对存储介质按照一定顺序进行编号，计算待存储文件的HASH值，获取待存储文件的大小，将存储介质编号，文件HASH和文件大小按照一定的可逆的算法进行编码，生成文件名称，同时也作为该文件的唯一编号。

3.根据权利要求1所述的一种在计算机存储介质上存储文件的方法，其特征在于：还包括文件读取步骤，在读取文件时，提供文件的唯一标识，根据文件标识与文件位置的一对一的映射关系，直接对文件进行读取。

4.一种在计算机存储介质上存储文件的系统，其特征在于，包括：

文件存储装置，使用基于单个文件HASH和该文件的文件名的HASH进行编码而命名的多层目录结构进行存储该文件的存储；

其中，所述文件存储装置还包括权重设定装置，用于根据存储空间的可用空间大小动态设定存储文件时分配给每个存储介质进行存储该文件的几率权重。

5.根据权利要求4所述的一种在计算机存储介质上存储文件的系统，其特征在于：所述文件命名装置具体用于：对存储介质按照一定顺序进行编号，计算待存储文件的HASH值，获取待存储文件的大小，将存储介质编号，文件HASH和文件大小按照一定的可逆的算法进行编码，生成文件名称，同时也作为该文件的唯一编号。

6.根据权利要求4或5所述的一种在计算机存储介质上存储文件的系统，其特征在于，还包括持久化存储装置，用于使用持久化存储方式存储文件在使用中的信息与文件的唯一名称之间的映射关系，其中文件在使用中的信息包括文件实际名称，文件HASH值，文件大小，文件的存储时间信息。

7.根据权利要求4所述的一种在计算机存储介质上存储文件的系统，其特征在于：所述文件存储装置具体用于：

分别在文件内容的HASH字符串和文件名称的HASH字符串的指定位置上取两位作为文件夹名称，建立双层目录结构，将文件存储到该目录结构的最底层文件夹下。

8.根据权利要求4所述的一种在计算机存储介质上存储文件的系统，其特征在于，所述文件存储装置还用于：文件存储前对编号的存储介质的可用空间进行计算，然后将该编号存储介质的可用空间大小在总的可用空间大小中所占的百分比作为存储文件时分配到该编号存储介质上的概率。

9.根据权利要求4所述的一种在计算机存储介质上存储文件的系统，其特征在于，还包括检索装置，用于文件在存储前，使用文件的HASH值与文件大小在在持久化存储中进行检索，如果找到相同的值，说明重复文件已经存在，只需在持久化存储中建立新文件信息与该文件的唯一编号的映射关系。

10.根据权利要求4所述的一种在计算机存储介质上存储文件的系统，其特征在于，还包括文件读取装置，用于在读取文件时，提供文件的唯一标识，根据文件标识与文件位置的一对一的映射关系，直接对文件进行读取。