CN100565512C

CN100565512C - 消除文件存储系统中冗余文件的系统及方法

Info

Publication number: CN100565512C
Application number: CNB2006100365364A
Authority: CN
Inventors: 熊展志; 张立明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2006-07-10
Filing date: 2006-07-10
Publication date: 2009-12-02
Anticipated expiration: 2026-07-10
Also published as: CN101079034A

Abstract

本发明公开了一种消除文件存储系统中冗余文件的系统，包括由存储服务器模块和索引服务器模块组成的海量存储系统，还包括有获取文件MD5值和文件大小的预处理模块、根据文件MD5值和文件大小进行文件引用数统计的快速存取模块以及在文件引用数达到指定阈值时删除重复文件的去重服务器模块，其中所述索引服务器模块、存储服务器模块、预处理模块依次连接，快速存取模块、索引服务器模块、存储服务器模块、预处理模块分别与去重服务模块连接。本发明还提供一种对应的消除文件存储系统中冗余文件的方法。本发明通过文件的MD5值及文件大小快速找出海量存储系统中的冗余文件并进行去重操作，可较好的控制存储成本。

Description

消除文件存储系统中冗余文件的系统及方法

技术领域

本发明涉及数据处理领域，更具体地说，涉及一种快速消除文件存储系统中冗余文件的系统及方法。

背景技术

在任何一个大规模的存储系统中都存在大量的冗余文件，例如在个人计算机的本地硬盘中就经常存有一个文件的多个拷贝，这些拷贝很多是由于操作失误或使用者遗忘而多次拷贝造成的。而在多人共同使用的系统中，由于使用者之间的共享性差，文件的冗余度非常的高。随着网络硬盘的兴起，不少互联网公司为用户提供的网络硬盘中冗余文件也很多。此外，在web搜索引擎中也存在大量的重复网页和文件。对于一个文件存储系统来说，主要的成本就是设备成本，而消除系统中的冗余文件，可以极大节约设备成本，另外消除冗余也可以提高系统的性能。所以无论从节省成本、提高系统处理性能，还是提高用户使用体验来说，消除冗余都是很有必要的。

目前的存储系统消除冗余文件一般是采用文件两两之间进行所有字节比较来判断是否有重复文件。这种文件相互比较的方式，在小系统中也许是可行的。但是在一个大的存储系统中，时间耗费是相当大的，对于T一级的数据量几乎是不可行的，而且通常基于文件名称比较、文件大小比较、或者文件头的比较不完全准确。

发明内容

本发明要解决的技术问题在于，针对现有文件存储系统中冗余文件占用空间以及冗余处理效率较低的缺陷，提供一种新的消除文件存储系统中冗余文件的系统及方法。

本发明解决技术问题所采用的技术方案是：提供一种消除文件存储系统中冗余文件的系统，该系统包括由存储服务器模块和索引服务器模块组成的海量存储系统，还包括：

预处理模块，用于获取文件MD5值、文件大小及文件的引用数；

快速存取模块，包括内存哈希映射表及哈希表；

去重服务器模块，用于通过哈希算法将文件MD5值进行哈希变换后，经由内存哈希映射表映射到对应哈希表，在文件的引用数超过最小引用数时，直接根据文件生成节点并将节点加入所述哈希表；在文件的引用数小于最小引用数时，将该文件的引用数加到映射表中与该文件的MD5值和文件大小都相同的节点，并在哈希表中的节点引用数达到最大引用数时，对节点文件进行去重操作；

其中所述索引服务器模块、存储服务器模块、预处理模块依次连接，快速存取模块、索引服务器模块、存储服务器模块、预处理模块分别与去重服务器模块连接。

本发明所述的消除文件存储系统中冗余文件的系统中，所述预处理模块进一步包括将文件存储系统中容量小但数量较多的文件过滤的过滤子模块。

本发明所述的消除文件存储系统中冗余文件的系统中，所述去重服务器模块在去重操作时对所述引用数达到最大引用数的节点对应文件进行硬链接并删除所述节点对应的文件。

本发明所述的消除文件存储系统中冗余文件的系统中，还包括一派发服务器，所述预处理模块和去重服务器模块通过该派发服务器相连接，所述去重服务器模块包括多个去重服务器，所述派发服务器用于将文件派发给不同的去重服务器进行处理。

本发明还提供一种消除文件存储系统中冗余文件的方法，所述文件分布存储于海量存储系统的存储服务器模块中，并通过索引服务器模块进行文件的定位，包括以下步骤：

(a)通过扫描存储服务器模块获取文件相关信息并计算文件内容的MD5值，其中文件相关信息包括文件ID、文件大小及文件引用数；

(b1)通过文件MD5值进行哈希运算，并通过内存哈希映射表并找到相应的哈希表；

(b2)判断所述文件引用数是否超过最小引用数，并在所述文件的引用数超过所述最小引用数时将所述文件插入到哈希表头，并返回步骤(b1)；

(b3)在所述文件的引用数小于最小引用数时搜寻哈希表找到MD5值和文件大小与所述文件都相等的节点，并将所述节点的引用数加上所述文件的引用数；

(b4)判断所述节点的引用数是否小于一个最大引用数，并在所述节点的引用数小于所述最大引用数时返回步骤(b1)；而在所述节点的引用数超过所述最大引用数时对所述节点进行去重操作，并在操作完成后返回步骤(b1)。

本发明所述的消除文件存储系统中冗余文件的方法中，所述步骤(a)进一步包括过滤掉非重点文件而保留容量相对较大但数量相对较少的文件的步骤。

本发明所述的消除文件存储系统中冗余文件的方法中，所述步骤(a)中还包括将过滤后的文件根据去重策略分配到不同去重服务器的步骤。

本发明所述的消除文件存储系统中冗余文件的方法，所述步骤(b4)进一步包括：

步骤(b41)：将所述节点的信息返回给存储服务器模块，并在哈希表中删除所述节点；

步骤(b42)：存储服务器模块对所述节点对应的文件ID建立硬链接，并返回新的文件ID，索引服务器模块将所述文件的文件ID更新为上述新的文件ID。

本发明所述的消除文件存储系统中冗余文件的系统及方法，通过文件的MD5值及文件大小快速找出海量存储系统中的冗余文件并进行去重操作，降低存储成本。此外，本发明还可根据可配置的过滤策略，副本策略来进行去重处理，能够大幅度的降低存储成本，并在此基础上保证了系统的安全性，可靠性，以及负荷各个服务器的负荷均担。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明消除文件存储系统中冗余文件的系统的结构框图；

图2是图1中快速存取模块的结构框图；

图3是本发明消除文件存储系统中冗余文件的方法流程图。

具体实施方式

如图1所示，本发明的消除文件存储系统中冗余文件的系统包括索引服务器模块11、存储服务器模块12、预处理模块13、快速存取模块16以及去重服务器模块15，其中索引服务器模块11、存储服务器模块12、预处理模块13依次连接，快速存取模块16、索引服务器模块11、存储服务器模块12、预处理模块13分别与去重服务器模块15连接。

存储服务器模块12和索引服务器模块11是海量存储系统中的一部分，其中存储服务器模块12主要完成具体文件数据的保存，一般由数十台乃至几百台服务器组成，实现文件的分布式存储；索引服务器模块11主要保存每个用户的逻辑目录以及文件的逻辑名称和存储服务器模块12上文件名称的映射，通常也由多台服务器组成。

预处理模块13用于去除冗余(重复文件)前的预处理，该预处理包括获取存储服务器模块12中存储的所有文件的大小、MD5值及文件的引用数等信息，其中引用数是指正在使用文件(副本，底层的物理设备)的逻辑层用户数量，主要反映文件(副本)的活跃程度。在本实施例中，预处理模块13也可以由多台服务器并行工作实现。

预处理模块13还包括过滤子模块(图中未示出)，用于过滤以及排序工作，从而为后续的并行集群处理做准备。由于在海量存储系统中文件数量往往达到几亿个、甚至几十亿个，如果每个文件都进行处理，则效率较低，实时性达不到要求，往往在准备处理某一文件时，该文件已经不存在了。在海量存储系统中，文件的个数及容量分布是不平衡的，例如在现有的网络硬盘中，经抽样分析，1K-50K的文件个数占文件总数的50％左右，约占用的总存储空间占2％；50K-800K的文件个数占26.4％，占存储空间的15％；800K-10M的文件个数占8.3％，占存储空间的51％；10M-64M的文件个数占0.4％，占存储空间的23％。可见虽然1-50K的文件个数占文件总个数的50％，但是占总存储空间却较小，而在去除冗余的过程中，文件的个数是影响效率的关键因素，所以这部分不是去除的重点。而800K-10M、及10M-64M的文件容量较大但是数量较少。因此，预处理模块13过滤掉文件容量不大而数量较多的文件，使系统集中资源重点去除容量较大而数量较少的文件(主要为800K-10M及10M-64M的文件)，这样可以使系统效率提高2-3倍。

快速存取模块16用于实现高效的处理，其通过提高内存命中率来减少对硬盘的访问，该快速存取模块16也可由多台服务器实现。如图2所示，快速存取模块16包括有内存哈希映射表161及哈希表162，从而缓存一些热点数据，减少对磁盘数据库的慢速访问。

在预处理模块13过滤掉非重点处理文件后，快速存取模块16在内存中生成一个大容量的内存哈希映射表，该内存哈希映射表通过文件的MD5值来哈希。在本实施例中，设置哈希槽的数量为100万个，每个哈希槽中存放哈希表的指针。哈希表中的每个哈希节点为64个字节，其中包括文件ID(30字节)、MD5值(16字节)、文件引用数(2字节)、文件大小(4字节)以及文件的对应物理ID(12字节)。在文件寻址时通过MD5值的后6位取模对应到某一哈希槽，并通过存放的指针找到对应的哈希表。在哈希表中，通过比较文件的MD5值和文件大小确认文件是否一致(若MD5值和文件大小都相同，则一致)。如果不一致，则将当前文件新加入到哈希表中；如果一致，则根据去重服务器模块15的去重副本控制策略进行操作。

去重服务器模块15相当于一个总控模块，用于进行去重流程的控制，其从预处理模块13读取过滤后的文件列表，并根据去重副本控制策略查询和更改快速存取模块16中的内存哈希映射表和哈希表，并去除冗余文件。为了保证海量存储系统的稳定性，也为了保证集群系统的负荷均担，去重服务器模块15的去重副本控制策略必须对副本个数进行控制。例如一个文件，在海量存储系统中发现1万个与其内容完全相同的文件，最节约的去重策略是只保留一份副本，所有的用户都去访问这个副本。但是这存在风险，若存放该副本的服务器硬盘损坏或其他的一些原因导致该台服务器暂时停止服务，则一万个用户的文件将丢失。即使系统运行正常，大量用户都涌向同一台服务器上的同一个存储位置，对服务器的压力也是非常大的。因此，必须根据系统需要指定一定的副本控制策略。

去重服务器模块15在进行去重操作的时候，具体方式为：通过文件(假设该文件为A)MD5值进行哈希运算，并通过内存哈希映射表中的指针找到相应的哈希表。然后判断文件A的引用数，如果引用数大于或者等于5，则根据该文件A生成相应节点并插入到哈希表头；如果引用数小于5，则从前到后搜寻哈希表，将文件A的MD5值、文件大小分别和目标节点的相应数据进行比较，如果找到都相等的节点(假设为B)，则将节点B引用数加上该文件A的引用数。如果引用数超过120，则删除该节点B，返回节点B的信息给去重服务器模块15。去重服务器模块15将节点B对应的文件ID信息传给存储服务器模块12，由存储服务器模块12对该文件ID建立硬链接并返回新的文件ID以及文件A的新硬件ID，并将新的文件ID以及A的老文件ID通知索引服务器模块11，使索引服务器模块11将A的文件ID更新为新的文件ID。去重服务器模块15立即或延迟预定时间后删除文件A。

即使在预处理模块13过滤掉一部分去重的非重要文件，文件数目仍然在亿数量级别，为了提高处理的实时性，可使用多台机器并行处理。为此，可在前端增加一个派发服务器(图中未示出)，由派发服务器根据相应的策略将文件派发给不同的去重服务器进行处理。为了保证每台去重服务器的负荷均匀，也为了减少去重服务器的资源竞争状态，可采用派发策略是根据文件的大小的最后一位，或者后两位取模进行分流，具体取决于海量存储系统的规模。

为了保证去重数据的持久性，还可提供一个连接到去重服务器模块15的磁盘存储模块14，以保存去重过程中的一些数据信息以及处理后的结果信息。通过在磁盘存储模块14中设置数据库，还可在快速存取模块16存储空间不足时提供空间。为了降低数据库的规模，同样可以采用文件大小进行数据的分流。根据具体的条件，可以将数据分布在多台主机的多个库表中来集群处理。由于文件大小不同，因此文件内容也不同，所以跨机和跨库表的几率相对较小。而且如果分流的策略和去重服务器的分流策略一致，对硬盘数据的访问就不会出现竞争状态，也就是不用加入互斥处理。

由于不同的文件在去重前的文件ID各不相同，去重后则有可能指向同一个副本，如果将所有的文件ID都改成同一个ID，虽然能实现减少冗余的目标，但是文件ID中包含的一些特殊的文件信息(例如文件的逻辑属主、文件的类型等)都会丢失。为避免上述问题，可使用文件存储系统提供的硬链接来保证每个文件的文件ID独立，同时又能减少存储空间。其具体操作为：在去重时通过对命中的文件硬链接到一个不需删除的副本，然后删除需要去重的文件。对用户来说，这个操作是透明的。在某些大型系统中，为了提高安全性，文件的删除操作不是立即执行，而是通过记录待删除的文件，并在预定时间后删除。

在本实施例中，哈希算法通过将关键字(文件MD5值)进行运算而得到索引，实现了一次或多次查询来定位目标，从而避免了依次遍历查询。但是由于哈希槽的规模小于处理集合(待处理文件集合)的规模，因此必然存在多个不同的文件落在一个槽里的情况，即出现冲突。相互冲突的文件，链成一个链表，需要依次遍历查询，因此冲突影响查询的效率。为了减少冲突，可采取以下措施：(1)由于副本的合并(也就是将一个副本上文件迁移到另一个副本上)很耗时)，因此可设置最小引用数(例如5)，以减少副本的合并(即如果文件的引用数超过最小引用数(例如5)，则不用去重，直接加入到哈希表的首部)；还可设置最大引用数(例如120)以减少链表的长度并控制副本的活跃度(即如果哈希表中的某个节点的引用数达到120，则直接将该节点的数据同步到硬盘，并从哈希表中删除该节点)；(2)通过排序将大小接近的文件放在一起，使重复文件的可能性变大，提高哈希表的命中，并且有利于并行处理；(3)提高哈希槽的个数，使落在一个槽里的元素个数减少，减少冲突。通过这几个措施可以保证哈希表中冲突次数大幅度减少，从而提高处理效率。

如图3所示，是本发明的消除文件存储系统中冗余文件的方法的流程图。在本实施例中，文件分布存储于海量存储系统的存储服务器模块12中，并通过索引服务器模块11进行文件的定位。该方法包括以下步骤：

步骤S31：获取文件相关信息并计算文件内容的MD5值。在该步骤中，文件相关信息可通过扫描存储服务器模块12得到，其中文件相关信息包括文件ID以及文件大小、文件引用数等。除MD5值外，还可计算文件的硬件ID，并可根据文件的大小进行排序。

为提高系统效率，在本步骤中可通过过滤掉一些不符合的文件(非重点文件)，从而使系统集中资源处理重点文件(容量相对较大而数量相对较少的文件)。此外，还可通过文件分流来进一步提高文件处理，其中文件分流可根据文件大小进行。

然后，系统根据文件MD5值及文件大小统计文件的引用数，并在文件的引用数达到指定阈值时进行去重操作，其具体包括：

步骤S32：在快速存取模块16中创建内存哈希映射表161，并通过文件(假如该文件为A)MD5值进行哈希运算，找到相应的哈希表162，从而进行文件A的引用数统计。在本实施例中，哈希表161中的每一节点可包括文件ID(30字节)、MD5值(16字节)、文件引用数(2字节)、文件大小(4字节)以及文件的对应物理ID(12字节)。

步骤S33：判断文件A引用数是否小于第一阈值(可根据具体系统进行设定，在本实施例中为5)。

步骤S34：如果文件A的引用数大于或者等于5，则将该节点插入到哈希表头，并返回步骤S32，进行下一文件的统计。

步骤S35：如果文件A的引用数小于5，则从前到后搜寻哈希表，将文件A的MD5值、文件大小分别和目标节点的相应数据进行比较，如果找到都相等的节点(假如为B)，则将B引用数加上文件A的引用数。

步骤S36：然后判断节点B的引用数是否小于一个第二阈值(可根据具体系统进行设定，在本实施例中为120)。如果节点B的引用数小于120，则返回步骤S32，处理下一文件。

步骤S37：如果节点B的引用数超过120，则对节点B进行去重操作，并在操作完成后返回步骤S32，进行下一文件的去重操作。该步骤具体包括：将节点B的信息返回给去重服务器模块15，并在哈希表162中删除该节点B，去重服务器模块15将节点B的文件ID信息传给存储服务器模块12，存储服务器模块12对该文件ID建立硬链接，并返回新的文件ID，索引服务器模块11将文件A的文件ID更新为上述新的文件ID。

在上述的去重步骤重，可通过使用数据库来记录去重操作，从而保证系统的安全性及可靠性。其具体为去重服务器模块15将新的文件ID、硬件ID、引用数等信息写入到数据库中保存，并将文件A的老文件ID记录到日志中，延迟一段时间删除。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1、一种消除文件存储系统中冗余文件的系统，包括由存储服务器模块和索引服务器模块组成的海量存储系统，其特征在于，还包括：

快速存取模块，包括内存哈希映射表及哈希表；

2、根据权利要求1所述的消除文件存储系统中冗余文件的系统，其特征在于，所述预处理模块进一步包括将文件存储系统中容量小但数量较多的文件过滤的过滤子模块。

3、根据权利要求1所述的消除文件存储系统中冗余文件的系统，其特征在于，所述去重服务器模块在去重操作时对所述引用数达到最大引用数的节点对应文件进行硬链接并删除所述节点对应的文件。

4、根据权利要求1所述的消除文件存储系统中冗余文件的系统，其特征在于，还包括一派发服务器，所述预处理模块和去重服务器模块通过该派发服务器相连接，所述去重服务器模块包括多个去重服务器，所述派发服务器用于将文件派发给不同的去重服务器进行处理。

5、一种消除文件存储系统中冗余文件的方法，所述文件分布存储于海量存储系统的存储服务器模块中，并通过索引服务器模块进行文件的定位，其特征在于，包括以下步骤：

6、根据权利要求5所述的消除文件存储系统中冗余文件的方法，其特征在于，所述步骤(a)中进一步包括过滤掉非重点文件而保留容量相对较大但数量相对较少的文件的步骤。

7、根据权利要求6所述的消除文件存储系统中冗余文件的方法，其特征在于，所述步骤(a)中还包括将过滤后的文件根据去重策略分配到不同去重服务器的步骤。

8、根据权利要求5所述的消除文件存储系统中冗余文件的方法，其特征在于，所述步骤(b4)进一步包括：