CN104793902A

CN104793902A - 一种重复数据删除系统数据存取方法

Info

Publication number: CN104793902A
Application number: CN201510184509.0A
Authority: CN
Inventors: 孙宪武; 周游
Original assignee: BEIJING SCISTOR TECHNOLOGY Co Ltd
Current assignee: BEIJING SCISTOR TECHNOLOGY Co Ltd
Priority date: 2015-04-17
Filing date: 2015-04-17
Publication date: 2015-07-22

Abstract

本发明公开了一种基于重复数据删除系统的数据存储方法，首先，根据数据布局策略对数据进行规则性存储，然后，采用预读策略进行数据读取；本发明实现了对重复数据删除系统顺序读性能的优化，最大限度的满足了应用系统的读性能需求，在有限的资源环境下提供了良好的读取性能，这就使得本系统做到对用户收益最大化。

Description

一种重复数据删除系统数据存取方法

技术领域

本发明属于数据存储领域，涉及一种支持重复数据删除功能的文件系统数据存取的方法。

背景技术

随着重复数据删除技术应用范围的逐渐扩大，应用系统对于重复数据删除系统的读性能要求也越来越高。重复数据删除技术的应用使原本连续的数据变得分散开，即原本的顺序访问，在重复数据删除系统内确变成了随机访问。

随机度由该文件重复数据的离散程度决定，离散度越大数据读取的随机度越大，这样就导致数据读取时性能降低。

发明内容

本发明的目的是为了提升业务系统对重复数据删除系统的数据读取性能，提出了一种基于重复数据删除系统的数据存储方法，首先根据数据布局策略对数据进行规则性存储，使得预读策略能够高效的进行数据读取。本发明是在重复数据删除系统内通过调整数据存储的布局策略，再加上预读策略，从而达到对用户读请求的性能优化。

一种基于重复数据删除系统的数据存储方法，首先，根据数据布局策略对数据进行规则性存储，然后，采用预读策略进行数据读取；

所述的数据布局策略为，将含有相同数据块的不同文件集中存储到统一的数据域内；

所述的预读策略包括两个主要环节，第一个环节是根据接收到的读取请求序列做出是否进行预读的及需要预读的请求构造，第二个环节是根据第一个环节给出的决策对数据进行读取。

第一个环节中，系统对用户请求顺序进行统计，给定一个数值，当连续请求数达到给定数值时，则认为系统是顺序读取，此时给出预读请求；当系统给出的预读成功率到达指定值时说明预读成功，数据读取长度随预读成功率的增加而增加；

第二个环节中，根据请求序号读取对应的数据，系统收到用户读请求或者预读请求后，系统根据文件ID读取出数据索引，根据数据索引找到数据块所在位置，将数据读取出来返回给用户并缓存部分数据。

本发明的优点在于：

本发明实现了对重复数据删除系统顺序读性能的优化，最大限度的满足了应用系统的读性能需求，在有限的资源环境下提供了良好的读取性能，这就使得本系统做到对用户收益最大化。

附图说明

图1重复数据删除系统数据布局流程图；

图2重复数据删除系统预读决策流程图；

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明的一种基于重复数据删除系统的数据存储方法，首先，根据数据布局策略对数据进行规则性存储，然后，采用预读策略能够高效的进行数据读取。

其中，数据布局策略是将含有相同数据块的不同文件集中存储到统一的数据域内，这样就在一定程度上对用户文件做到尽可能的集中或连续存储，最大限度的降低数据文件的读取随机度。

具体的：

布局策略主要思想是尽可能的降低数据分布的离散性，在原始数据经过了重复数据删除环节，原本连续的数据会分散多个文件内，为了解决这类问题，将达到一定重复度的数据均集中存储到一个文件内，这样就完成了第一步将离散数据再次集中起来。

布局策略主要是对数据块进行重删后，将数据块分配到匹配度最高的数据域进行存储，其中未能够匹配到的数据块需要连续追加存储到该数据域(该数据域指的是匹配到的数据域，未匹配到的数据也将要存储在这个数据域内)。

如图1给出了布局策略的流程图，数据布局策略主要是为数据预读做基础准备，将存在重复的数据块均集中存储到同一个数据域内，进而降低数据的离散性。具体步骤如下：

步骤101：将数据进行分块，通常指定长度为16KB；

步骤102：对步骤101分好的数据块进行指纹计算；

步骤103：根据步骤102的结果与指纹库进行比对，查找重复的指纹；

步骤104：根据步骤103的查找结果，如果查找失败则分配新的数据域，如果查找成功则根据匹配到的数据域进入步骤105；

步骤105：根据步骤104给出的数据域对去重后的数据进行存储；

根据步骤104给出的数据域对重复的数据块将其索引存储下来，未找到重复的数据块以追加的形式存储到这个数据域的尾部进行存储。

其中，预读策略分为两个主要环节，第一个环节是根据接收到的读取请求序列做出是否进行预读的及需要预读的请求构造，第二个环节是根据第一个环节给出的决策对数据进行读取。

第一个环节的决策流程中，系统对用户请求顺序进行统计，给定一个数值，当连续请求数达到给定数值时，则认为系统是顺序读取，此时给出预读请求。当系统给出的预读成功率到达指定值时说明预读成功，且可以对预读长度随着预读成功率的增加而增加(预读的增加范围是0～50％，数据读取长度和预读长度比值为1:1，51％～75％比值为2:1,76％～100％比值为4:1)，进而达到提升系统顺序读取的性能。

第二个环节为读取流程，系统收到用户读请求或者预读请求后系统会根据文件ID读取出数据索引，根据数据索引找到数据块所在位置，将数据读取出来返回给用户并缓存部分数据。

具体的：

为了达到决策的准确性，需要对请求根据不同文件不同区域进行分别统计，同时对预读的，成功率进行统计，随着连续性的增加，预读范围也同时随着增加，如图2给出了重复数据删除系统预读决策流程，具体步骤如下：

其中第一环节:

步骤201：接收读请求并且进行分类，根据读请求的偏移量在文件内部统计，分区段对请求统计；

步骤202：根据收到的请求序号，在文件内部统计区段内匹配请求是否连续，如果连续进入步骤203，否则进入步骤204；

步骤203：分析当前请求连续区域的连续程度，来决策预读大小；(预读的增加范围是0～50％，数据读取长度和预读长度比值为1:1，51％～75％比值为2:1，76％～100％比值为4:1)

其中第二环节：

步骤204：根据请求序号读取对应的数据，系统收到用户读请求或者预读请求后系统会根据文件ID读取出数据索引，根据数据索引找到数据块所在位置，将数据读取出来返回给用户并缓存部分数据。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种基于重复数据删除系统的数据存储方法，首先，根据数据布局策略对数据进行规则性存储，然后，采用预读策略进行数据读取；

2.根据权利要求1所述的一种基于重复数据删除系统的数据存储方法，所述的数据布局策略具体步骤为：

步骤101：将数据进行分块；

步骤102：对步骤101分好的数据块进行指纹计算；

步骤105：根据步骤104给出的数据域对重复的数据块将其索引存储下来，未找到重复的数据块以追加的形式存储到数据域的尾部。

3.根据权利要求1所述的一种基于重复数据删除系统的数据存储方法，所述的预读决策第一个环节具体为：

步骤203：分析当前请求连续区域的连续程度，决策预读大小。