CN101968796B

CN101968796B - 一种双向并发执行的文件级可变长数据分块方法

Info

Publication number: CN101968796B
Application number: CN2010102762336A
Authority: CN
Inventors: 姚文斌; 叶鹏迪; 刘建毅; 王枞; 伍淳华; 肖达
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2010-09-09
Filing date: 2010-09-09
Publication date: 2012-04-18
Anticipated expiration: 2030-09-09
Also published as: CN101968796A

Abstract

本发明提供的是一种信息系统中双向并发执行的文件级可变长数据分块方法。本发明的关键在于对文件进行切块的过程中，该方法能够借助多核处理器的并发处理能力，用两个线程分别从文件的首尾出发，利用数据块边界只通过对数据内容进行计算来确定，分别从前往后和从后往前并发地扫描文件，并确定数据块的边界，进而切分数据块，直到由首尾出发的两个线程在文件中部相遇为止，从而显著提高了数据分块的速度。

Description

一种双向并发执行的文件级可变长数据分块方法

(一)技术领域

本发明涉及的是一种信息系统中文件级可变长数据分块方法。

(二)背景技术

随着信息化系统广泛应用，大型数据中心的数据存储设备的容量由于数据信息呈指数级增长而快速趋于饱和。同时，由于以自然灾难、人为恶意灾难为代表的各种灾难性事件频发，企事业单位正面临着业务量激增和信息备份间隔缩短双重压力，管理数据成本(包括存储成本、空间成本、功耗成本等综合)显著增加，提高数据存储效率已经成为当前数据备份研究的热点问题。

研究同时发现，应用系统中的数据信息的冗余度很高，存在大量重复的文件或数据块。为此，人们提出了重复数据删除技术，以消除分布在存储系统中的冗余信息，降低信息存储成本。

重复数据删除是一种数据缩减技术，旨在减少存储系统中实际使用的存储容量。其核心思想是在存储系统中只保留不同内容的数据，当数据中心进行数据添加或更新时，如果新数据和存储系统中已有数据内容相同，则不直接保存该新数据，而是在新数据位置上保存指向已有数据块的指针。由于指针占用空间远远低于数据占用空间，因此，采用重复数据删除技术可以有效地减少数据在实际存储系统中的存储容量。

在应用重复数据删除技术进行数据删冗过程中，通常是以数据块作为查找相同数据的基本单位，即首先将数据切分为若干的数据块，然后将数据块和存储系统中数据块进行比较，并以此确定可以删除的冗余数据块。显然，数据切分算法的优劣将直接关系到重复数据删除技术效率。

为描述方便，首先给出如下定义：

1、哈希值，哈希算法：哈希算法将任意长度的二进制值映射为固定长度的较小二进制值，这个小的二进制值称为哈希值。

2、滑动窗口：即一个可滑动、覆盖固定大小数据的窗口。每次滑动，便将窗口的覆盖范围朝指定方向移动一个字节。

3、指纹：即对数据进行校验所得到的二进制值。

4、查重：将数据块的哈希值发送到备份服务器端，与已存储数据块的哈希值作比较，若存在相等的哈希值，则该数据块为重复数据；否则，即为新数据。

当前，文件级数据切分方法主要有三种：

1、文件块方法，即数据块以文件为单位，通过对文件计算哈希值来判断该文件是否冗余。该方法的优点是算法简单、计算速度快，缺点是数据块粒度较大。

2、固定分块方法，即将文件切分成固定长度的数据块，通过计算每块数据块的哈希值来判断其是否冗余。该方法的优点是数据块粒度较小、处理速度快，缺点是当文件发生插入或删除变化时冗余处理效率较低。

3、可变分块方法，即从文件头开始扫描，计算固定字节大小滑动窗口中数据的指纹，当指纹值满足一定条件时，便认为这是一个数据块的边界，否则将滑动窗口向文件尾滑动一个字节，继续计算指纹值并进行判断；相邻的两个边界则确定了一个数据块，再计算该数据块的哈希值来判断其是否冗余。该方法的优点是对于文件发生插入或删除变化时处理高效，缺点是算法复杂、计算量高、处理速度慢。

在上述三种方法中，可变分块方法处理由于效率较高而得到了广泛应用。然而，其存在处理速度慢的问题。从可变分块方法处理流程来看，其是一种单向的数据切分方法，即数据切分方法从头扫描文件内容以确定数据块的边界，当获得两个相邻边界时，便得到了一个数据块；接着，继续扫描文件内容、获取数据块，直到文件尾。

为了提高其执行速度，本发明提供了一种双向并发执行的数据切分方法，即方法的执行借助多核处理器的并发处理能力，用两个线程分别从文件的首尾出发，利用数据块边界只由数据内容所确定，在文件中位置固定的特性，同时扫描文件，确定数据块的边界，进而切分数据块，直到由首尾出发的两个线程在文件中部相遇为止，从而显著提高了数据切分的速度。

(三)发明内容

本发明的目的在于一种信息系统中改进的文件级可变长数据分块方法。该方法能够根据文件内容，通过从文件两端同时切分的方法快速对文件进行数据分块，从而大大提高数据分块的速度、改进重复数据删除的效能。

本发明的目的是这样实现的：

设待处理的文件集包含了m个文件(F₁，F₂，...，F_m)；方法中使用的两个线程为(T₁、T₂)；两个滑动窗口分别为(w₁、w₂)，其大小为W；对两个滑动窗口中数据计算得到指纹值分别记录为参数(r₁、r₂)；模数(判断滑动窗口是否确定了数据块边界时所用到的取模整数)为E；两个磁盘数据缓存(缓存从磁盘中读取的文件内容，加快处理速度)名分别为(buf₁，buf₂)，其大小均为N(N＞＞W)，两个滑动指针(用于判断是否已处理完整个文件的数据)分别为(s₁、s₂)。

对一个文件F做数据切块时，输入待处理文件集(F₁，F₂，...，F_m)，及各文件大小(f₁，f₂，...，f_m)，滑动窗口大小W，模数E，两个相对独立的缓存(buf₁，buf₂)大小均为N，开启两个线程T₁、T₂，分别从文件的首尾并发向文件的中间读取数据到各自的缓存中，并利用滑动窗口以每次一个字节的速度，在数据缓存中往相应方向滑动，并计算滑动窗口中数据的指纹值。当该指纹值对模数求模为0时，该窗口便确定了是一个数据块的边界。而两个相邻的数据块边界即确定了一个数据块。

其具体方法步骤为：

(1)输入待处理的文件集(F₁，F₂，...，F_m)，各文件大小分别为(f1，f₂，...，f_m)；

(2)输入滑动窗口大小W，模数E，两个相对独立的缓存(buf₁，buf₂)大小均为N；

(3)

若文件f_i的大小f_i＜滑动窗口大小W，则直接将其作为一个数据块，用以查重，并将文件F_i从待处理的文件集中删除，执行步骤11；

否则，就设置滑动指针s₁为0、s₂为f_i，执行步骤4；

(4)若文件F_i的大小n_i＜缓存的大小N，则线程T₁，T₂分别将f_i字节数据读到缓存buf₁、buf₂中，执行步骤6；

否则，执行步骤5；

(5)线程T₁将由文件头部开始的N字节数据读到缓存buf₁，线程T₂将以文件尾部为结尾的N字节数据读到缓存buf₂；

(6)在buf₁的头部设置滑动窗口w₁，在buf₂的末尾设置滑动窗口w₂；

(7)分别计算滑动窗口w₁、w₂所包含数据的指纹值r₁、r₂，若指纹值r₁对模数E求模为0，则滑动窗口w₁确定了一个数据块的边界，则将前一边界末尾后接的第一个字节到此边界末尾的数据作为一个数据块；若是指纹值r₂对模数E求模为0，则将此边界术尾后接的第一个字节到前一边界尾部的数据作为一个数据块；

(8)若滑动指针s₁等于s₂，则将文件F_i中部还没有切块数据作为一个数据块，并将文件F_i从待处理的文件集中删除，执行步骤11；否则执行步骤9；

(9)若此时滑动窗口w₁到达缓存buf₁的尾部，则将尚未切分成块的数据移到缓存buf₁的头部，然后线程T₁从磁盘读取数据至其后，直到将缓存buf₁填满；若滑动窗口w₂到达缓存buf₂的头部，则将尚未切分成块的数据移到缓存buf₂的尾部，线程T₂从磁盘读取数据至其前面，直到将缓存buf₂填满，执行步骤6；

(10)滑动窗口w₁向缓存buf₁的尾部滑动1字节，滑动指针s₁自增1；滑动窗口w₂向缓存buf₂的头部滑动1字节，滑动指针s₂自减1；执行步骤7；

(11)如文件集为空，则处理过程结束；否则，执行步骤3。

本发明的关键在于如何根据文件内容，从文件的两端同时进行数据切块。为此，使用了两个线程，分别从文件的两端并发做分块操作，从而大大提高了数据分块的速度、改进了重复数据删除的效能。

其主要创新点如下：

1、根据文件内容，通过两个线程分别从文件的头部和尾部并发进行数据切块，从而大大提高了数据分块的速度、改进了重复数据删除的效能。

2、将文件块方法与可变分块方法相结合，对于较小的文件，采用文件块方法，将整个文件作为数据块；而对于较大的文件，则用两个线程分别从文件的头部和尾部并发进行数据切块，从而提高数据分块的速度。

(四)附图说明

图1、可变分块方法示意图

图2、双向并发执行的文件级可变长数据分块方法示意图

(五)具体实施方式

下面结合附图举例对本发明做更详细地描述：

本发明所述算法的特征在于：

其具体方法步骤为：

(1)输入待处理的文件集(F₁，F₂，...，F_m)，各文件大小分别为(f₁，f₂，...，f_m)；

(3)

若文件F_i的大小f_i＜滑动窗口大小W，则直接将其作为一个数据块，用以查否则，就设置滑动指针s₁为0、s₂为f_i，执行步骤4；

否则，执行步骤5；

(7)分别计算滑动窗口w₁、w₂所包含数据的指纹值r₁、r₂，若指纹值r₁对模数E求模为0，则滑动窗口w₁确定了一个数据块的边界，则将前一边界末尾后接的第一个字节到此边界末尾的数据作为一个数据块；若是指纹值r₂对模数E求模为0，则将此边界末尾后接的第一个字节到前一边界尾部的数据作为一个数据块；

(11)如文件集为空，则处理过程结束；否则，执行步骤3。

其具体实施模式是这样的：

整个算法具体实施模式可分为一小一大两个循环，小的循环是根据文件内容，通过两个线程分别从文件的头部和尾部并发进行数据切块，大的循环是对文件集中的所有文件使用小循环进行处理。

小循环

用两个线程，分别从文件的首尾并发向文件的中间读取数据到各自的缓存中，并利用滑动窗口以每次一个字节的速度，在数据缓存中往相应方向滑动，并计算滑动窗口中数据的指纹值。当该指纹值与期望块大小构成某种条件时，该窗口便确定了是一个数据块的边界。而两个相邻的数据块边界即确定了一个数据块。若两个滑动窗口在文件的中部相遇了，就将此时未切分成块的数据作为一个数据块，并跳出该循环。

大循环

当对一个文件的分块结束后，将其从带切块文件集中删除，则文件集是否为空，若仍有未分块的文件，则对该文件使用上述小循环做分块处理；否则，处理过程结束。

Claims

1.一种信息系统中双向并发执行的文件级可变长数据分块方法，其特征在于：设待处理的文件集包含了m个文件，分别表示为F₁、F₂、...、F_m；方法中使用的两个线程，分别表示为T₁、T₂；两个滑动窗口，其大小都为W，分别表示为w₁、w₂；两个滑动窗口中数据计算得到的指纹值，即对数据进行校验所得到的二进制值，分别记录为r₁、r₂；模数，即用以判断滑动窗口是否确定了数据块边界时所用到的取模整数，表示为E；两个磁盘数据缓存，用来缓存从磁盘中读取的文件内容，以加快处理速度，表示为buf₁、buf₂，其大小均为N，且N＞＞W；两个滑动指针，用于判断是否已处理完整个文件的数据，分别表示为s₁、s₂；

对一个文件F做数据切块时，输入待处理文件集F₁、F₂、...、F_m，及各文件大小f₁、f₂、...、f_m，滑动窗口大小W，模数E，两个相对独立的缓存buf₁、buf₂大小均为N，开启两个线程T₁、T₂，分别从文件的首尾并发向文件的中间读取数据到各自的缓存中，并利用滑动窗口以每次一个字节的速度，在数据缓存中往相应方向滑动，并计算滑动窗口中数据的指纹值；当该指纹值对模数求模为0时，该窗口便确定了是一个数据块的边界；而两个相邻的数据块边界即确定了一个数据块；

具体方法步骤为：

(1)输入待处理的文件集F₁、F₂、...、F_m，各文件大小分别为f₁、f₂、...、f_m；

(2)输入滑动窗口大小W，模数E，两个相对独立的缓存buf₁、buf₂大小均为N；

(3)

若文件F_i的大小f_i＜滑动窗口大小W，则直接将其作为一个数据块，用以查重，并将文件F_i从待处理的文件集中删除，执行步骤(10)；

否则，就设置滑动指针s₁为0、s₂为fi，执行步骤(4)；

(4)若文件F_i的大小n_i＜缓存的大小N，则线程T₁，T₂分别将f_i字节数据读到缓存buf₁、buf₂中，执行步骤(6)；

否则，执行步骤(5)；

(5)线程T₁将由文件头部开始的N字节数据读到缓存buf₁，；线程T₂将以文件尾部为结尾的N字节数据读到缓存buf₂；

(7)分别计算滑动窗口w₁、w₂所包含数据的指纹值r₁、r₂，若指纹值r₁对模数E求模为0，则整个滑动窗口w₁所包含的数据确定了一个数据块的边界，并将前一边界末尾后接的第一个字节到此边界末尾的数据作为一个数据块；若是指纹值r₂对模数E求模为0，则整个滑动窗口w₂所包含的数据确定了一个数据块的边界，并将此边界末尾后接的第一个字节到前一边界尾部的数据作为一个数据块；

(8)若滑动指针s₁等于s₂，则将文件F_i中部还没有切块数据作为一个数据块，并将文件F_i从待处理的文件集中删除，执行步骤(10)；

否则执行步骤(9)；

(9)若此时滑动窗口w₁到达缓存buf₁的尾部，则将尚未切分成块的数据移到缓存buf₁的头部，然后线程T₁从磁盘读取数据至其后，直到将缓存buf₁填满；若滑动窗口w₂到达缓存buf₂的头部，则将尚未切分成块的数据移到缓存buf₂的尾部，线程T₂从磁盘读取数据至其前面，直到将缓存buf₂填满，执行步骤(6)；否则，滑动窗口w₁向缓存buf₁的尾部滑动1字节，滑动指针s₁自增1；滑动窗口w₂向缓存buf₂的头部滑动1字节，滑动指针s₂自减1；执行步骤(7)；

(10)如文件集为空，则处理过程结束；否则，执行步骤(3)。