CN102467523A - 索引文件的建立方法与利用索引文件查询数据区块的方法 - Google Patents

索引文件的建立方法与利用索引文件查询数据区块的方法 Download PDF

Info

Publication number
CN102467523A
CN102467523A CN2010105392504A CN201010539250A CN102467523A CN 102467523 A CN102467523 A CN 102467523A CN 2010105392504 A CN2010105392504 A CN 2010105392504A CN 201010539250 A CN201010539250 A CN 201010539250A CN 102467523 A CN102467523 A CN 102467523A
Authority
CN
China
Prior art keywords
block
index file
file
index
descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105392504A
Other languages
English (en)
Inventor
李鸿明
王云松
陈志丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Corp
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN2010105392504A priority Critical patent/CN102467523A/zh
Publication of CN102467523A publication Critical patent/CN102467523A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种索引文件的建立方法与利用索引文件查询数据区块的方法,对输入文件进行切分后所产生的数据区块与相应所有数据区块的索引文件。建立索引文件包括:对输入文件进行切分程序,生成至少一数据区块与相应数据区块的描述信息,描述信息中记录数据区块相对于输入文件的偏移量与文件长度;将描述信息整合为第一索引文件;选取固定数量的数据区块,并将所选取出的数据区块定义为选择群组;记录选择群组中相对于输入文件的起始地址与结束地址至第二索引文件中;重复上述步骤,直至完成所有数据区块所相应的第一索引文件与第二索引文件为止。

Description

索引文件的建立方法与利用索引文件查询数据区块的方法
技术领域
本发明涉及一种文件的建立方法与其查询方法,特别涉及一种应用在重复数据删除程序中对索引文件的建立方法与查询方法。
背景技术
重复数据删除是一种数据缩减技术,通常用于基于磁盘的备份系统,主要目的在于减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复的数据块用指示符取代。由于存储系统中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,“重复删除”技术便顺理成章地成了人们关注的焦点。采用“重复删除”技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使存储系统上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。
为能达到数据完整保存的目的,所以在进行重复数据删除的过程中,会对输入文件进行切分的处理。输入文件在经过切分处理后会产生多个数据区块。为了能有效管理数据区块,所以在进行切分的过程中会利用索引文件来记录所有的数据区块的各项存储信息。例如数据区块的容量大小、在输入文件中的偏移量(offset)或数据区块在服务端中的存储位置。
假设一个数据区块为X Bytes,而对该数据区块需要利用N Bytes进行描述,所以数据区块的冗余度为N:X。随着,输入文件的文件长度越长时,索引文件的文件长度也会随着增加。为能加快索引文件的查询速度,一般而言会将索引文件直接载入内存中进行读取。但是内存的空间有限,如果将索引文件的部分内容存储于虚拟内存中,除了会降低存取速度外可能会产生击中失误(hit miss)的问题。
发明内容
鉴于以上的问题,本发明的主要目的在于提供一种建立索引文件的方法,应用在重复数据删除程序中,对输入文件进行切分后所产生的数据区块与相应数据区块一索引文件。
为达到上述目的,本发明所揭露的建立索引文件的方法包括下列步骤:对输入文件进行切分程序,生成至少一数据区块与相应数据区块的描述信息,描述信息中记录数据区块相对于输入文件的偏移量与文件长度;将描述信息整合为第一索引文件;选取固定数量的数据区块,并将所选取出的数据区块定义为选择群组;记录选择群组中相对于输入文件的起始地址与结束地址至第二索引文件中;重复上述步骤,直至完成所有数据区块所相应的第一索引文件与第二索引文件为止。
为配合上述建立索引文件,因此本发明还提出一种配合索引文件对数据区块查询方法。
为达到上述目的,本发明所揭露的一种数据区块查询方法包括以下步骤:将第二索引文件载入内存单元;输入查询请求;从查询请求所解析出欲查询的数据区块,与数据区块的偏移量与文件长度;根据数据区块的偏移量与文件长度对第二索引文件进行查询所相应的选择群组;根据所找出的选择群组,将第一索引文件中的相应部分读入内存单元进行查询,并返回查询结果;此时在内存单元中的第一索引文件部分并不会立即清除,而是作为計算机的高速缓存(cache)应对下一次读取,如果下一次读取也命中到此选择群组区间内,则直接到第一索引文件读入内存单元的部分进行检索,否则再将选择群组对应的第一索引文件部分读入内存单元进行检索。
本发明在运行重复数据删除程序时,产生相应于输入文件的索引文件。通过本发明的二个索引文件,可以降低读入内存单元的索引文件的容量,节省内存占用,并提高查找相应数据区块的效率。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
附图说明
图1为本发明的建立索引文件的流程示意图;
图2A为本发明切分数据区块的示意图;
图2B为本发明第一索引文件的示意图;
图2C为本发明第二索引文件的示意图;
图3为本发明的数据区块查询流程示意图。
其中,附图标记
210        输入文件
220        数据区块
230        第一索引文件
231        选择群组
240        第二索引文件
具体实施方式
下面结合附图对本发明的结构原理和工作原理作具体的描述:
本发明应用于具有处理重复数据删除程序的计算机,例如:个人电脑、笔记型电脑、服务器或应用在客户端与服务端架构中。请参考图1所示,其为本发明的建立索引文件的流程示意图。本发明的建立索引文件的处理过程包括以下步骤:
步骤S110:对输入文件进行切分程序,生成至少一数据区块与相应数据区块的描述信息,描述信息中记录数据区块相对于输入文件的偏移量与文件长度;
步骤S120:将描述信息整合为第一索引文件;
步骤S130:选取固定数量的数据区块,并将所选取出的数据区块定义为选择群组;
步骤S140:记录选择群组中相对于第一索引文件的起始地址的偏移量与结束地址的偏移量至第二索引文件中;以及
步骤S150:重复上述步骤,直至完成所有数据区块所相应的第一索引文件与第二索引文件为止。
将输入文件210载入计算机装置中,并对输入文件210进行切分程序。输入文件210在经过切分程序后生成至少一数据区块220与相应数据区块220的描述信息。而描述信息中记录数据区块220相对于输入文件210的偏移量(offset)与文件长度(length)。请参考图2A所示,其为本发明切分数据区块的示意图。
接着,将所有数据区块的描述信息依序排列,用以将所有的描述信息整合为第一索引文件230。请参考图2B所示,其为本发明第一索引文件的示意图。
再从输入文件210中选取固定数量的数据区块220,并将所选取出的数据区块220定义为选择群组221。举例来说,若一次选取三个数据区块为一个单位,则会从输入文件210的第一数据区块、第二数据区块与第三数据区块依序选出,并将第一数据区块、第二数据区块与第三数据区块定义为选择群组221。同理,下次选取数据区块则是从输入文件210的第四数据区块开始进行选取。
当选择群组221被选出时,本发明是记录选择群组221中相对于第一索引文件230的起始地址的偏移量与结束地址的偏移量至第二索引文件240中。承接上述例子,当第一数据区块、第二数据区块与第三数据区块被选出作为选择群组221时,在第二索引文件240中会记录第一数据区块在第一索引文件230的起始偏移量与第三数据区块在输入文件210的结尾的偏移量。请参考图2C所示,其为本发明第二索引文件240的示意图。重复步骤S120至步骤S140,直至所有数据区块的第一索引文件230与第二索引文件240完成为止。
请参考图3所示,其为本发明的数据区块查询流程示意图。本发明的数据区块查询包括以下步骤:
步骤S310:将第二索引文件载入内存单元;
步骤S320:输入查询请求;
步骤S330:从查询请求所解析出欲查询的数据区块,与数据区块的偏移量与文件长度;
步骤S340:根据数据区块的偏移量与文件长度对第二索引文件进行查询所相应的选择群组;以及
步骤S350:根据所找出的选择群组对第一索引文件进行查询,并返回查询结果。
首先,计算机装置将第二索引文件240载入内存单元(RAM)中储存。而第一索引文件230可以先被储存在硬盘或是内存单元中。计算机装置在接获查询请求后,计算机装置从查询请求所解析出欲查询的数据区块与数据区块的偏移量与文件长度。
根据数据区块的偏移量与文件长度对第二索引文件240进行查询所相应的选择群组221,并将定位到所查询到的选择群组221。接着,再把该选择群组221对应于第一索引文件230的数据区块的偏移量与文件长度写入内存单元中。计算机装置再从内存单元中的部分片段的第一索引文件230内查找相应的数据区块。并且在计算机装置查询结束后,会在内存单元中保留本次写入内存单元的部分片段的第一索引文件230。使得计算机装置于下一次查询时,将其视为查询的一部分,用以降低存取时所花费的时间。
本发明在运行重复数据删除程序时,产生相应于输入文件210的索引文件。通过本发明的两个索引文件,可以降低读入内存单元的索引文件的容量,节省内存占用,并提高查找相应数据区块的效率。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (5)

1.一种索引文件的建立方法,应用在一重复数据删除程序中,对一输入文件进行切分后所产生的多笔数据区块与相应该些数据区块的一索引文件,其特征在于,该索引文件的建立方法包括以下步骤:
对该输入文件进行一切分程序,生成该数据区块与相应该数据区块的一描述信息;
将该些描述信息整合为一第一索引文件;
选取固定数量的该些数据区块,并将所选取出的该些数据区块定义为一选择群组;
记录该选择群组中相对于该描述信息;以及
重复上述步骤,直至完成所有该些数据区块所相应的该第一索引文件与一第二索引文件为止。
2.根据权利要求1所述的索引文件的建立方法,其特征在于,该描述信息中记录该数据区块相对于该输入文件的一偏移量与一文件长度。
3.根据权利要求2所述的索引文件的建立方法,其特征在于,在记录该选择群组中相对于该描述信息的步骤中还包括:
记录该选择群组中相对于该第一索引文件的一起始地址的该偏移量与一结束地址的该偏移量至该第二索引文件中。
4.一种利用索引文件查询数据区块的方法,其特征在于,包括以下步骤:
对该输入文件进行一切分程序,生成至少一数据区块与相应该数据区块的一描述信息;
将该些描述信息整合为一第一索引文件;
选取固定数量的该些数据区块,并将所选取出的该些数据区块定义为一选择群组;
记录该选择群组中相对于该描述信息;
重复上述步骤,直至完成所有该些数据区块所相应的该第一索引文件与一第二索引文件为止;
将该第二索引文件载入一内存单元;
输入一查询请求;
从该查询请求所解析出欲查询的该数据区块,与该数据区块的一偏移量与一文件长度;
根据该数据区块的该偏移量与该文件长度对该第二索引文件进行查询所相应的该选择群组;以及
根据所找出的该选择群组对该第一索引文件进行查询,并返回一查询结果。
5.根据权利要求4所述的利用索引文件查询数据区块的方法,其特征在于,在从该查询请求所解析出欲查询的该数据区块后还包括:
将该选择群组所对应的部分该第一索引文件载入该内存单元。
CN2010105392504A 2010-11-03 2010-11-03 索引文件的建立方法与利用索引文件查询数据区块的方法 Pending CN102467523A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105392504A CN102467523A (zh) 2010-11-03 2010-11-03 索引文件的建立方法与利用索引文件查询数据区块的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105392504A CN102467523A (zh) 2010-11-03 2010-11-03 索引文件的建立方法与利用索引文件查询数据区块的方法

Publications (1)

Publication Number Publication Date
CN102467523A true CN102467523A (zh) 2012-05-23

Family

ID=46071166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105392504A Pending CN102467523A (zh) 2010-11-03 2010-11-03 索引文件的建立方法与利用索引文件查询数据区块的方法

Country Status (1)

Country Link
CN (1) CN102467523A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150397A (zh) * 2013-03-26 2013-06-12 北京经纬恒润科技有限公司 一种数据索引创建方法、数据检索方法和系统
CN103617260A (zh) * 2013-11-29 2014-03-05 华为技术有限公司 重复数据删除的索引生成方法及装置
WO2014089760A1 (zh) * 2012-12-11 2014-06-19 华为技术有限公司 一种数据压缩方法及装置
CN104268091A (zh) * 2014-09-19 2015-01-07 深圳市心讯网络科技有限公司 文件储存方法和文件修改方法
CN106227678A (zh) * 2016-07-21 2016-12-14 北京四维益友信息技术有限公司 一种虚拟存储介质的存取方法
CN109558411A (zh) * 2017-09-26 2019-04-02 浙江华信区块链科技服务有限公司 一种基于区块链数据的下链同步方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178693A (zh) * 2007-12-14 2008-05-14 沈阳东软软件股份有限公司 一种数据缓存方法及系统
CN101551807A (zh) * 2009-05-07 2009-10-07 山东中创软件商用中间件股份有限公司 文件数据库多级索引技术

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178693A (zh) * 2007-12-14 2008-05-14 沈阳东软软件股份有限公司 一种数据缓存方法及系统
CN101551807A (zh) * 2009-05-07 2009-10-07 山东中创软件商用中间件股份有限公司 文件数据库多级索引技术

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014089760A1 (zh) * 2012-12-11 2014-06-19 华为技术有限公司 一种数据压缩方法及装置
CN104145263A (zh) * 2012-12-11 2014-11-12 华为技术有限公司 一种数据压缩方法及装置
CN104145263B (zh) * 2012-12-11 2017-07-25 华为技术有限公司 一种数据压缩方法及装置
CN103150397A (zh) * 2013-03-26 2013-06-12 北京经纬恒润科技有限公司 一种数据索引创建方法、数据检索方法和系统
CN103150397B (zh) * 2013-03-26 2016-03-16 北京经纬恒润科技有限公司 一种数据索引创建方法、数据检索方法和系统
CN103617260A (zh) * 2013-11-29 2014-03-05 华为技术有限公司 重复数据删除的索引生成方法及装置
CN103617260B (zh) * 2013-11-29 2017-01-11 华为技术有限公司 重复数据删除的索引生成方法及装置
CN104268091A (zh) * 2014-09-19 2015-01-07 深圳市心讯网络科技有限公司 文件储存方法和文件修改方法
CN104268091B (zh) * 2014-09-19 2016-02-24 盛杰 文件储存方法和文件修改方法
CN106227678A (zh) * 2016-07-21 2016-12-14 北京四维益友信息技术有限公司 一种虚拟存储介质的存取方法
CN106227678B (zh) * 2016-07-21 2018-12-28 北京四维益友信息技术有限公司 一种虚拟存储介质的存取方法
CN109558411A (zh) * 2017-09-26 2019-04-02 浙江华信区块链科技服务有限公司 一种基于区块链数据的下链同步方法及装置

Similar Documents

Publication Publication Date Title
CN102467572B (zh) 支持重复数据删除程序的数据区块查询方法
US8271462B2 (en) Method for creating a index of the data blocks
CN103984640B (zh) 实现数据预取方法及装置
CN105069048A (zh) 一种小文件存储方法、查询方法和装置
CN102467523A (zh) 索引文件的建立方法与利用索引文件查询数据区块的方法
CN102799598A (zh) 重复数据删除的数据复原方法
CN107958079A (zh) 聚合文件删除方法、系统、装置及可读存储介质
CN101645043B (zh) 写数据的方法、读数据的方法及存储设备
CN102779180A (zh) 数据存储系统的操作处理方法,数据存储系统
CN103399823B (zh) 业务数据的存储方法、设备和系统
CN103902623A (zh) 用于在存储系统上存取文件的方法和系统
CN102479250A (zh) 一种嵌入式浏览器磁盘缓存方法
CN110888837B (zh) 对象存储小文件归并方法及装置
CN104092670A (zh) 网络缓存服务器处理文件的方法及处理缓存文件的设备
CN104267912A (zh) 一种nas加速方法及系统
CN113626431A (zh) 一种基于lsm树的延迟垃圾回收的键值分离存储方法及系统
CN110532201A (zh) 一种元数据处理方法及装置
CN104462388B (zh) 一种基于级联式存储介质的冗余数据清理方法
CN102467458A (zh) 建立数据区块的索引方法
CN111008183B (zh) 一种用于业务风控日志数据的存储方法及系统
CN113641681B (zh) 一种空间自适应的海量数据查询方法
CN104079600A (zh) 文件存储方法、装置、访问客户端及元数据服务器系统
CN102722450A (zh) 一种基于位置敏感哈希的删冗块设备存储方法
CN105389268A (zh) 资料储存系统及其运作方法
CN108280123B (zh) 一种HBase的列聚合方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120523