CN103279531A

CN103279531A - 一种分布式文件系统中基于内容的文件分块方法

Info

Publication number: CN103279531A
Application number: CN2013102118342A
Authority: CN
Inventors: 龚奕利; 许艳艳
Original assignee: BEIJING RXHY TECHNOLOGY Co Ltd
Current assignee: BEIJING RXHY TECHNOLOGY Co Ltd
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2013-09-04
Anticipated expiration: 2033-05-31
Also published as: CN103279531B

Abstract

本发明公开一种分布式文件系统中基于内容的文件分块方法,主要解决现有技术中因固定分块引起的并发访问效率低的问题。其实现方案是：根据Rabinfingerprint算法，对文件按内容分块，当对数据块进行数据操作时，a)此数据块是文件的初始块，并且新增的数据没有导致块大小超过最小块限制，即使包含breakpoint也不分块；b)不是文件的初始块，如果新增数据破坏了当前块的breakpoint则进行此块和下一块的重新分块；如果新增数据没有破坏当前块的breakpoint，但是数据块超出最大块限制或者新增数据中包含breakpoint，则对数据块进行强制分块。采用本发明所述的方案，在修改某一块内容的时候能尽量不影响相邻块的分块，从而可以提高并发访问的效率。

Description

一种分布式文件系统中基于内容的文件分块方法

技术领域

本发明涉及存储技术领域，特别是涉及到一种分布式文件系统中文件按内容分块的分块方法。

背景技术

现在的分布式存储系统大都采用了固定大小的文件分块的分块策略，google文件系统和hadoop文件系统就是使用的这种文件存储方式。在google file system（GFS，Google分布式文件系统）中，文件一般是以大文件的方式存储，文件都被分割成固定大小的chunk（64M），对于小文件的操作，不需要做过多的优化；文件读取方式分为大的字节流读取和小的随机读取；文件写入方式主要为末尾追加，并且文件存在是固定的，一旦写入，很少有修改操作。

但是在其他的一些分布式文件系统中，情况和GFS会有很大的不同：文件不是以末尾追加为主要的写入方式，这样对于随机写入的情况，如果增加或者删除了文件的内容，导致文件的大小发生了变化，那么就需要向前或者向后移动文件内容，这无疑给分布式文件系统带来了很大的开销，影响了其性能，所以如果在修改某一块内容的时候能尽量不影响相邻块的分块，从而可以提高并发访问的效率。

发明内容

针对以上问题，本发明要解决的技术问题是提供一种分布式文件系统中基于内容的文件分块方法，采用拉宾指纹方法分块，块的界限为Breakpoint，设文件有相邻的两块，记为块K和块K+1；对块K操作时，分块过程包括如下步骤，

步骤1，在用户请求下对块K进行数据操作；

步骤2，若块K是文件的起始块，且大小小于预设的最小块长，则进入步骤6，否则进入步骤3；

步骤3，若块K大于预设的最大块长或者新增的数据中包含有Breakpoint，则进入步骤107，否则进入步骤104；

步骤4，若新增的数据破坏了块K的 Breakpoint，则进入步骤5，否则结束流程；

步骤5，把块K和下一块K+1进行重新分块，结束流程；

步骤6，不进行分块操作，结束流程；

步骤7，进行块K的拆分操作，结束流程。

而且，所述步骤5包括如下子步骤，

步骤5.1，进入把块K和下一块K+1进行重新分块的操作；

步骤5.2，判断块K的新的Breakpoint是否出现在块K+1的前窗口大小范围以内，是则进入步骤5.7，否则进入步骤5.3；

步骤5.3，把块K和块K+1合并为块K₃；

步骤5.4，判断块K₃是否大于预设的最大块长，是则进入步骤5.5，否则结束操作；

步骤5.5，对块K₃进行强制分块，分别记为块K₄和块K₅；

步骤5.6，判断块K₄是否截断了块K₅的Breakpoint，是则进入步骤5.1继续执行，否则结束操作；

步骤5.7，把块K和块K+1重新分块为块K₁和块K₂，并结束操作。

而且，所述步骤7包括如下子步骤，

步骤7.1，把块K拆分为块K₆和块K₇；

步骤7.2，判断块K拆分是否影响到原块K的 Breakpoint，是则进入步骤7.3，否则结束操作；

步骤7.3，把块K₇和下一块K+1进行重新分块；

步骤7.4，判断块K₇的Breakpoint是否出现在块K+1的前窗口大小范围以内，是则把块K₇和块K+1重新分块为块K₁₁和块K₁₂，然后结束操作，否则进入步骤7.5；

步骤7.5，把块K+1合并到块K₇，形成块K₈；

步骤7.6，判断块K₈是否大于预设的最大块长，是则进入步骤7.7，否则结束操作；

步骤7.7，对K₈进行强制分块，结果记为块K₉和块K₁₀；

步骤7.8，判断块K₉是否截断了块K₁₀的Breakpoint，如果截断了块K₁₀的Breakpoint，则进返回步骤7.3继续执行，否则结束操作。

为解决上述技术问题，本发明是通过以下技术方案实现的：

综上所述，本发明通过使用基于LBFS采用的Rabin fingerprint 方法，将文件按照内容划分为不同大小的块，使得在修改某一块内容的情况下，尽量不影响相邻块的分块，减少文件内容向前向后的移动，从而提高并发访问的效率，提高分布式文件系统的性能。

附图说明

图1是本发明实施例的分块方法执行流程图；

图2 是本发明实施例中对单个块的操作无新增分块流程图；

图3 是本发明实施例中对单个块的操作有新增分块流程图。

具体实施方式

以下结合附图和实施例详细说明本发明技术方案。

本发明实施例使用基于LBFS采用的Rabin fingerprint（拉宾指纹）方法，在此基础上改进了具体分块处理流程，具体实施时，本领域技术人员可采用计算机软件技术实现为相应的软件系统。Rabin fingerprint方法的工作原理为：选取一个Rabin fingerprint窗口；对窗口中的数据进行运算，将结果的低n位与选定的值进行比较。如果相等，则表示这个窗口是一个Breakpoint。即一个块的界限，下一次运算的窗口从Breakpoint的后面的字节开始，直到文件末尾；若不相等，则窗口向后滑动一位，重新进行运算。

所述LBFS（A Low-bandwidth Network File System）是一个低带宽的网络文件系统；

所述Rabin fingerprint 窗口大小可以按需求由本领域技术人员预先取定，比如48字节；

所述结果的低n位中的n小于Rabin fingerprint 窗口大小，可由本领域技术人员预先设定比如n=13；

所述选定的值是在预先定义的一个常量，可由本领域技术人员预先设定；

所述一个块的界限指的是整个窗口区域。

为了提高性能并且简化传输，实施例定义了最小与最大的块长，具体实施时，可由本领域技术人员预先设定最大块长和最小块长的取值。一般情况下，在文件开始时小于最小块长的范围中，即使有Breakpoint出现，系统也会忽略掉而不进行分块；如果文件大小大于最大的块长，即使没有出现Breakpoint，则系统会进行强制地分块。

假设有相邻的两块，记为块K和块K+1，对块K进行操作，则块K可称为操作块。本发明进行分析如下：

1. 对单个块的操作，操作块K没有被拆分：

对块K进行加锁，然后进行数据操作：

（1）如果新增的数据对块K的Breakpoint没有影响，则不会导致重新分块；块K+1也不会受到影响。

（2）如果对块K进行操作，结果新数据影响了块K的Breakpoint，则要重新分块。此时要对紧接着块K的块K+1进行加锁，然后进行分块操作。此时又会出现三种情况：

1) 如果新的Breakpoint出现在块K+1的前窗口大小范围以内，则对块K和块K+1以此新的Breakpoint进行新的分块，记为块K₁和块K₂；块K+1的前窗口即对块K操作前块K+1原来的Breakpoint。

2)如果块K+1的前窗口大小范围内没有出现新的Breakpoint，则块K与块K+1将合并为一个新块，记为块K₃；

3)与2)中情况类似，只是块K与块K+1合并后的块K₃的长度超过了约定的最大块长，因此系统对块K₃进行了强制分块，分别记为块K₄和块K₅。这种情况下还有一种可能，即块K₅的Breakpoint被块K₄截断，于是块K₅又要和紧邻其后的块进行重新分块，其情况与1)、2)、3)中提到的一样

2.对单个块的操作，操作块K被拆分

一般来说，对一个块进行操作后，会出现新增分块的情况有两种：

新增的数据中包含有Breakpoint；新增的数据量很大，使得原始块超过了约定的最大块的限制，因此系统要进行强制分块。

对块K进行加锁，然后进行数据操作，结果块K被拆分为两部分块K₆以及块K₇。具体可分为以下几种情况：

（1）如果发生在原始块K上的拆分没有影响到块K的Breakpoint。因此仅仅是原始的块K被拆分，而块K后面的块K+1没有受到影响，这是最一般的情况；

（2）如果发生在原始块K上的拆分影响到了块K的Breakpoint（也是块K₇的Breakpoint）。因此要重新进行分块；且同时新的Breakpoint出现在块K+1的前窗口大小范围中。于是只要对块K+1进行加锁，分块即可。

（3）如果对块K+1进行加锁分块的时候，在该块的第一个窗口范围中没有出现新的Breakpoint，因此原始块K+1的末尾成为新块K₇的末尾。原始块K+1被合并到了新块K₇中，合并结果记为块K₈。

（4）与（3）中类似，只是在合并的时候块K₈的大小超过了最大块限制，对块K₈进行分块，分别记为块K₉和块K₁₀。这种情况下，还有一种可能，即块K₁₀的Breakpoint被破坏了。因此块K₁₀又要和后面的块进行重新划分，这个过程与（2)、（3)、（4)中的情况一样，只是简单的重复。

根据以上分析，本发明实施例提供了分块方法。图1是本发明实施例的分块方法，包括如下步骤：

步骤101：在用户请求下对块K进行数据操作；

步骤102：若块K是文件的起始块，且其大小小于预设的最小块长，则进入步骤106，否则进入步骤103；

步骤103：若块K大于预设的最大块长或者新增的数据中包含有Breakpoint，则进入步骤107，否则进入步骤104；

步骤104：若新增的数据破坏了块K的Breakpoint，则进入步骤105，否则进入步骤108；

步骤105：把块K和下一块K+1进行重新分块，结束流程。

步骤 106：因为块K是文件的起始块，且其大小小于预设的最小块长，那么即使在文件中出现了Breakpoint，也不进行分块操作，结束流程。

步骤107：因为块K大于预设的最大块长或者新增的数据中包含有Breakpoint，则进行块K的拆分操作，然后结束流程。

步骤108：结束流程。

为便于实施参考起见，提供了实施例的步骤105具体实现方式，参见图2。图2是本发明中对单个块的操作无新增分块流程图，由于对块K进行操作，结果新数据影响了块K的Breakpoint，因此要重新分块，此时要对紧接着块K的块K+1进行加锁，然后进行分块操作。包括如下步骤：

步骤201：因为块K的Breakpoint被破坏，进入把块K和下一块K+1进行重新分块的操作；

步骤202：判断块K的新的Breakpoint是否出现在块K+1的前窗口大小范围以内，如果没有出现在块K+1的前窗口大小范围以内，进入步骤203，出现则进入步骤207；

步骤203：把块K和块K+1合并为块K₃；

步骤204：判断块K₃是否大于预设的最大块长，如果大于预设的最大块长，则进入步骤205，否则进入步骤208；

步骤205：对块K₃进行强制分块，分别记为块K₄和块K₅；

步骤206：判断块K₄是否截断了块K₅的Breakpoint，如果截断了块K₅的Breakpoint，则进入步骤201继续执行（块K₅代替步骤201中的块K，块K₅的下一块K+2代替步骤201中的块K+1，以后循环均以此类推），否则进入步骤209；

步骤207：因为块K的新的Breakpoint出现在块K+1的前窗口大小范围以内，把块K和块K+1重新分块为块K₁和块K₂，并结束操作。

步骤208：因为块K₃不大于预设的最大块长，则结束操作。

步骤209：因为块K₄没有截断块K₅的Breakpoint，则结束操作。

为便于实施参考起见，提供了实施例的步骤107具体实现方式，参见图3。图3是本发明中对单个块的操作有新增分块流程图，一般来说，对一个块进行操作后，会出现新增分块的情况有两种：

1）新增的数据中包含有Breakpoint；

2）新增的数据量很大，使得原始块超过了预设的最大块的限制，因此系统要进行强制分块。此过程包括如下步骤：

步骤301：把块K拆分为块K₆和块K₇；

步骤302：判断块K拆分是否影响到原块K的 Breakpoint，如果原块K的Breakpoint受到影响，进入步骤303，否则进入步骤309；

步骤303：把Breakpoint被破坏的块K₇和下一块K+1进行重新分块；

步骤304：判断块K₇的Breakpoint是否出现在块K+1的前窗口大小范围以内，如果没有出现在块K+1的前窗口大小范围以内，进入步骤305，出现则进入步骤310；

步骤305：把块K+1合并到块K₇，形成块K₈；

步骤306：判断块K₈是否大于预设的最大块长，如果大于预设的最大块长，则进入步骤307，否则进入步骤311；

步骤307：对K₈进行强制分块，记为块K₉和块K₁₀；

步骤308：判断块K₉是否截断了块K₁₀的Breakpoint，如果截断了块K₁₀的Breakpoint，则进入步骤303继续执行（用块K₁₀代替步骤303中的块K₇，块K₁₀的下一块K+2代替步骤303中的块K+1，以后的循环均以此类推），否则进入步骤312。

步骤309：因为块K拆分没有影响到原块K的 Breakpoint，则结束操作。

步骤310：因为块K₇的Breakpoint出现在块K+1的前窗口大小范围以内，则把块K₇和块K+1重新分块为块K₁₁和块K₁₂，然后结束操作。

步骤311：因为块K₈不大于预设的最大块长，则结束操作。

步骤312：因为块K₉没有截断块K₁₀的Breakpoint，则结束操作。

实施例及附图中为便于表达程序走向起见，将结束操作作为单独的步骤标号，以利本领域技术人员参考理解。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种分布式文件系统中基于内容的文件分块方法，采用拉宾指纹方法分块，块的界限为Breakpoint，其特征在于：设文件有相邻的两块，记为块K和块K+1；对块K操作时，分块过程包括如下步骤，