CN104793902A - 一种重复数据删除系统数据存取方法 - Google Patents

一种重复数据删除系统数据存取方法 Download PDF

Info

Publication number
CN104793902A
CN104793902A CN201510184509.0A CN201510184509A CN104793902A CN 104793902 A CN104793902 A CN 104793902A CN 201510184509 A CN201510184509 A CN 201510184509A CN 104793902 A CN104793902 A CN 104793902A
Authority
CN
China
Prior art keywords
data
read
request
strategy
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510184509.0A
Other languages
English (en)
Inventor
孙宪武
周游
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SCISTOR TECHNOLOGY Co Ltd
Original Assignee
BEIJING SCISTOR TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SCISTOR TECHNOLOGY Co Ltd filed Critical BEIJING SCISTOR TECHNOLOGY Co Ltd
Priority to CN201510184509.0A priority Critical patent/CN104793902A/zh
Publication of CN104793902A publication Critical patent/CN104793902A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于重复数据删除系统的数据存储方法,首先,根据数据布局策略对数据进行规则性存储,然后,采用预读策略进行数据读取;本发明实现了对重复数据删除系统顺序读性能的优化,最大限度的满足了应用系统的读性能需求,在有限的资源环境下提供了良好的读取性能,这就使得本系统做到对用户收益最大化。

Description

一种重复数据删除系统数据存取方法
技术领域
本发明属于数据存储领域,涉及一种支持重复数据删除功能的文件系统数据存取的方法。
背景技术
随着重复数据删除技术应用范围的逐渐扩大,应用系统对于重复数据删除系统的读性能要求也越来越高。重复数据删除技术的应用使原本连续的数据变得分散开,即原本的顺序访问,在重复数据删除系统内确变成了随机访问。
随机度由该文件重复数据的离散程度决定,离散度越大数据读取的随机度越大,这样就导致数据读取时性能降低。
发明内容
本发明的目的是为了提升业务系统对重复数据删除系统的数据读取性能,提出了一种基于重复数据删除系统的数据存储方法,首先根据数据布局策略对数据进行规则性存储,使得预读策略能够高效的进行数据读取。本发明是在重复数据删除系统内通过调整数据存储的布局策略,再加上预读策略,从而达到对用户读请求的性能优化。
一种基于重复数据删除系统的数据存储方法,首先,根据数据布局策略对数据进行规则性存储,然后,采用预读策略进行数据读取;
所述的数据布局策略为,将含有相同数据块的不同文件集中存储到统一的数据域内;
所述的预读策略包括两个主要环节,第一个环节是根据接收到的读取请求序列做出是否进行预读的及需要预读的请求构造,第二个环节是根据第一个环节给出的决策对数据进行读取。
第一个环节中,系统对用户请求顺序进行统计,给定一个数值,当连续请求数达到给定数值时,则认为系统是顺序读取,此时给出预读请求;当系统给出的预读成功率到达指定值时说明预读成功,数据读取长度随预读成功率的增加而增加;
第二个环节中,根据请求序号读取对应的数据,系统收到用户读请求或者预读请求后,系统根据文件ID读取出数据索引,根据数据索引找到数据块所在位置,将数据读取出来返回给用户并缓存部分数据。
本发明的优点在于:
本发明实现了对重复数据删除系统顺序读性能的优化,最大限度的满足了应用系统的读性能需求,在有限的资源环境下提供了良好的读取性能,这就使得本系统做到对用户收益最大化。
附图说明
图1重复数据删除系统数据布局流程图;
图2重复数据删除系统预读决策流程图;
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明的一种基于重复数据删除系统的数据存储方法,首先,根据数据布局策略对数据进行规则性存储,然后,采用预读策略能够高效的进行数据读取。
其中,数据布局策略是将含有相同数据块的不同文件集中存储到统一的数据域内,这样就在一定程度上对用户文件做到尽可能的集中或连续存储,最大限度的降低数据文件的读取随机度。
具体的:
布局策略主要思想是尽可能的降低数据分布的离散性,在原始数据经过了重复数据删除环节,原本连续的数据会分散多个文件内,为了解决这类问题,将达到一定重复度的数据均集中存储到一个文件内,这样就完成了第一步将离散数据再次集中起来。
布局策略主要是对数据块进行重删后,将数据块分配到匹配度最高的数据域进行存储,其中未能够匹配到的数据块需要连续追加存储到该数据域(该数据域指的是匹配到的数据域,未匹配到的数据也将要存储在这个数据域内)。
如图1给出了布局策略的流程图,数据布局策略主要是为数据预读做基础准备,将存在重复的数据块均集中存储到同一个数据域内,进而降低数据的离散性。具体步骤如下:
步骤101:将数据进行分块,通常指定长度为16KB;
步骤102:对步骤101分好的数据块进行指纹计算;
步骤103:根据步骤102的结果与指纹库进行比对,查找重复的指纹;
步骤104:根据步骤103的查找结果,如果查找失败则分配新的数据域,如果查找成功则根据匹配到的数据域进入步骤105;
步骤105:根据步骤104给出的数据域对去重后的数据进行存储;
根据步骤104给出的数据域对重复的数据块将其索引存储下来,未找到重复的数据块以追加的形式存储到这个数据域的尾部进行存储。
其中,预读策略分为两个主要环节,第一个环节是根据接收到的读取请求序列做出是否进行预读的及需要预读的请求构造,第二个环节是根据第一个环节给出的决策对数据进行读取。
第一个环节的决策流程中,系统对用户请求顺序进行统计,给定一个数值,当连续请求数达到给定数值时,则认为系统是顺序读取,此时给出预读请求。当系统给出的预读成功率到达指定值时说明预读成功,且可以对预读长度随着预读成功率的增加而增加(预读的增加范围是0~50%,数据读取长度和预读长度比值为1:1,51%~75%比值为2:1,76%~100%比值为4:1),进而达到提升系统顺序读取的性能。
第二个环节为读取流程,系统收到用户读请求或者预读请求后系统会根据文件ID读取出数据索引,根据数据索引找到数据块所在位置,将数据读取出来返回给用户并缓存部分数据。
具体的:
为了达到决策的准确性,需要对请求根据不同文件不同区域进行分别统计,同时对预读的,成功率进行统计,随着连续性的增加,预读范围也同时随着增加,如图2给出了重复数据删除系统预读决策流程,具体步骤如下:
其中第一环节:
步骤201:接收读请求并且进行分类,根据读请求的偏移量在文件内部统计,分区段对请求统计;
步骤202:根据收到的请求序号,在文件内部统计区段内匹配请求是否连续,如果连续进入步骤203,否则进入步骤204;
步骤203:分析当前请求连续区域的连续程度,来决策预读大小;(预读的增加范围是0~50%,数据读取长度和预读长度比值为1:1,51%~75%比值为2:1,76%~100%比值为4:1)
其中第二环节:
步骤204:根据请求序号读取对应的数据,系统收到用户读请求或者预读请求后系统会根据文件ID读取出数据索引,根据数据索引找到数据块所在位置,将数据读取出来返回给用户并缓存部分数据。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (3)

1.一种基于重复数据删除系统的数据存储方法,首先,根据数据布局策略对数据进行规则性存储,然后,采用预读策略进行数据读取;
所述的数据布局策略为,将含有相同数据块的不同文件集中存储到统一的数据域内;
所述的预读策略包括两个主要环节,第一个环节是根据接收到的读取请求序列做出是否进行预读的及需要预读的请求构造,第二个环节是根据第一个环节给出的决策对数据进行读取。
第一个环节中,系统对用户请求顺序进行统计,给定一个数值,当连续请求数达到给定数值时,则认为系统是顺序读取,此时给出预读请求;当系统给出的预读成功率到达指定值时说明预读成功,数据读取长度随预读成功率的增加而增加;
第二个环节中,根据请求序号读取对应的数据,系统收到用户读请求或者预读请求后,系统根据文件ID读取出数据索引,根据数据索引找到数据块所在位置,将数据读取出来返回给用户并缓存部分数据。
2.根据权利要求1所述的一种基于重复数据删除系统的数据存储方法,所述的数据布局策略具体步骤为:
步骤101:将数据进行分块;
步骤102:对步骤101分好的数据块进行指纹计算;
步骤103:根据步骤102的结果与指纹库进行比对,查找重复的指纹;
步骤104:根据步骤103的查找结果,如果查找失败则分配新的数据域,如果查找成功则根据匹配到的数据域进入步骤105;
步骤105:根据步骤104给出的数据域对重复的数据块将其索引存储下来,未找到重复的数据块以追加的形式存储到数据域的尾部。
3.根据权利要求1所述的一种基于重复数据删除系统的数据存储方法,所述的预读决策第一个环节具体为:
步骤201:接收读请求并且进行分类,根据读请求的偏移量在文件内部统计,分区段对请求统计;
步骤202:根据收到的请求序号,在文件内部统计区段内匹配请求是否连续,如果连续进入步骤203,否则进入步骤204;
步骤203:分析当前请求连续区域的连续程度,决策预读大小。
CN201510184509.0A 2015-04-17 2015-04-17 一种重复数据删除系统数据存取方法 Pending CN104793902A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510184509.0A CN104793902A (zh) 2015-04-17 2015-04-17 一种重复数据删除系统数据存取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510184509.0A CN104793902A (zh) 2015-04-17 2015-04-17 一种重复数据删除系统数据存取方法

Publications (1)

Publication Number Publication Date
CN104793902A true CN104793902A (zh) 2015-07-22

Family

ID=53558725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510184509.0A Pending CN104793902A (zh) 2015-04-17 2015-04-17 一种重复数据删除系统数据存取方法

Country Status (1)

Country Link
CN (1) CN104793902A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874315A (zh) * 2018-06-01 2018-11-23 暨南大学 一种在线数据去重文件系统数据访问性能优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101038532A (zh) * 2006-03-13 2007-09-19 株式会社东芝 数据存储装置及其方法
CN102934097A (zh) * 2010-06-18 2013-02-13 惠普发展公司,有限责任合伙企业 数据去重
CN103177111A (zh) * 2013-03-29 2013-06-26 西安理工大学 重复数据删除系统及其删除方法
WO2014185916A1 (en) * 2013-05-16 2014-11-20 Hewlett-Packard Development Company, L.P. Selecting a store for deduplicated data
CN104331525A (zh) * 2014-12-01 2015-02-04 国家计算机网络与信息安全管理中心 基于重复数据删除的共享方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101038532A (zh) * 2006-03-13 2007-09-19 株式会社东芝 数据存储装置及其方法
CN102934097A (zh) * 2010-06-18 2013-02-13 惠普发展公司,有限责任合伙企业 数据去重
CN103177111A (zh) * 2013-03-29 2013-06-26 西安理工大学 重复数据删除系统及其删除方法
WO2014185916A1 (en) * 2013-05-16 2014-11-20 Hewlett-Packard Development Company, L.P. Selecting a store for deduplicated data
CN104331525A (zh) * 2014-12-01 2015-02-04 国家计算机网络与信息安全管理中心 基于重复数据删除的共享方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874315A (zh) * 2018-06-01 2018-11-23 暨南大学 一种在线数据去重文件系统数据访问性能优化方法

Similar Documents

Publication Publication Date Title
US10346432B2 (en) Compaction policy
CN103473239B (zh) 一种非关系型数据库数据更新方法和装置
US9047330B2 (en) Index compression in databases
CN103106249B (zh) 一种基于Cassandra的数据并行处理系统
CN102782643B (zh) 使用布隆过滤器的索引搜索
CN103020255B (zh) 分级存储方法和装置
CN103279502B (zh) 一种具有与并行文件系统结合的重复数据删除文件系统的架构及方法
CN105117417A (zh) 一种读优化的内存数据库Trie树索引方法
CN105487818A (zh) 针对云存储系统中重复冗余数据的高效去重方法
CN103139300A (zh) 一种基于重复数据删除的虚拟机镜像管理的优化方法
CN103488687A (zh) 用于大数据的搜索系统和搜索方法
KR20130020050A (ko) 로컬리티 센서티브 해시의 버킷 구간 관리 장치 및 그 방법
CN102169507A (zh) 一种分布式实时搜索引擎
CN104820717A (zh) 一种海量小文件存储及管理方法和系统
CN103914483B (zh) 文件存储方法、装置及文件读取方法、装置
CN103678158B (zh) 一种数据布局优化方法及系统
CN111292225B (zh) 对图形数据进行分区以进行大规模图形处理
CN113568940B (zh) 数据查询的方法、装置、设备以及存储介质
WO2023143095A1 (en) Method and system for data query
CN106155934A (zh) 一种云环境下基于重复数据的缓存方法
CN105335481A (zh) 一种大规模字符串文本的后缀索引构造方法及装置
CN113486026A (zh) 数据处理方法、装置、设备及介质
CN104391961A (zh) 千万级小文件数据的一种读写解决策略
US9361402B2 (en) Tiered index management
CN114372165A (zh) 一种跳跃式连接的优化路径查询方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150722

RJ01 Rejection of invention patent application after publication