CN101673289A - 分布式文件存储构架的构建方法和装置 - Google Patents

分布式文件存储构架的构建方法和装置 Download PDF

Info

Publication number
CN101673289A
CN101673289A CN200910179938A CN200910179938A CN101673289A CN 101673289 A CN101673289 A CN 101673289A CN 200910179938 A CN200910179938 A CN 200910179938A CN 200910179938 A CN200910179938 A CN 200910179938A CN 101673289 A CN101673289 A CN 101673289A
Authority
CN
China
Prior art keywords
file
index node
identification
layer
node matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910179938A
Other languages
English (en)
Other versions
CN101673289B (zh
Inventor
程菊生
孔晗
袁远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Huawei Technology Co Ltd
Original Assignee
Huawei Symantec Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Symantec Technologies Co Ltd filed Critical Huawei Symantec Technologies Co Ltd
Priority to CN2009101799383A priority Critical patent/CN101673289B/zh
Publication of CN101673289A publication Critical patent/CN101673289A/zh
Application granted granted Critical
Publication of CN101673289B publication Critical patent/CN101673289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种分布式文件存储构架的构建方法和装置。其中方法包括:选取文件;对所述文件的文件内容进行Hash计算,获得所述文件的文件标识;根据所述文件标识来构建文件的分布式文件存储构架。所述装置包括:文件标识获取模块,用于对文件的文件内容进行Hash计算,获得文件的文件标识;构架构建模块,用于根据文件标识构建分布式文件存储构架。本发明通过将文件标识与索引节点相匹配,从而避免了相同的文件重复保存和重复数据删除,不但保证了数据的可靠性,而且节省了大量的存储空间。

Description

分布式文件存储构架的构建方法和装置
技术领域
本发明涉及一种信息处理方法,尤其涉及一种分布式文件存储构架的构建方法和装置。
背景技术
随着存储领域直连方式存储(DAS,Direct Attachment Storage)、网络存储(NAS,Network Attachment Storage)、存储域网(SAN,Storage AreaNetwork)的高速发展,新技术不断涌现出来。近几年,分布式文件系统得到大力发展,开始应用于存储解决方案中。
在本发明的过程中,本发明人发现,现有的分布式文件系统的管理都是基于文件名称进行的,但由于使用者的操作习惯的不同,分布式文件系统中会逐渐出现很多名称不同但内容相同的“重复文件”,占据了大量的存储空间,且不利于文件的管理。
发明内容
本发明实施例的目的在于提供一种分布式文件存储构架的构建方法和装置,用于解决文件存储系统中的重复文件的问题。
本发明实施例提供一种分布式文件存储构架的构建方法,包括:选取文件;对所述文件的文件内容进行Hash计算,获得所述文件的文件标识;根据所述文件标识来构建文件的分布式文件存储构架。
本发明实施例还提供一种分布式文件存储构架的构建装置,包括:文件标识获取模块,用于对文件的文件内容进行Hash计算,获得文件的文件标识;构架构建模块,用于根据文件标识构建分布式文件存储构架。
本发明通过将文件标识和文件内容相联系,使得分布式文件系统以文件内容为基础来管理文件,避免了冗余的重复文件的出现。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明实施例一的分布式文件存储构架的构建方法的流程图;
图2为本发明的分布式文件存储构架的结构示意图;
图3为本发明的分布式文件存储构架中超级块的结构示意图;
图4为本发明的分布式文件存储构架中索引节点分配表的结构示意图;
图5为本发明实施例二的分布式文件存储构架的构建方法的流程图;
图6为本发明实施例三的分布式文件存储构架的构建装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
实施例一
本实施例提供一种分布式文件存储构架的构建方法。下面参照图1,详细描述该方法,该方法包括:
步骤S101:选取文件;
步骤S102:对所述文件的文件内容进行Hash计算,获得所述文件的文件标识;
其中,通过对文件内容进行Hash计算得到文件的HASH值从而获得文件的文件标识,比如,通过MD5、SHA-1、SHA-2、SHA-256等方法计算得到;
步骤S103:根据所述文件标识来构建文件的分布式文件存储构架。
如图2所示,分布式文件存储构架包括超级块层(super block)、索引节点匹配层(IMAP,inode map)、索引节点层(inode)和数据块层四层(datablock)。其中如图3所示,索引节点匹配层用于在文件标识和文件的索引节点之间进行匹配,索引节点层用于在文件的索引节点和存储数据之间进行匹配。在该步骤中,在超级块层中定义块组(group descriptor),块位图(blockbitmap)、索引节点位图(inode bitmap)、索引节点匹配位图(IMAP bitmap)。索引节点层可以采用EXT2/EXT3或其文件系统的索引节点结构。
此外,根据文件的文件标识构建索引节点匹配层。索引节点匹配层采取树状结构,由多个索引节点匹配表构成。每个索引节点匹配表由相关的主键值(key)和键值(value)对构成,可以用B树、B+树或B-树等来构建。以B+树为例,文件的文件标识,例如HASH值,作为指针块的主键值(key),文件的索引节点作为指针块的键值(value),定义如下:
keyMAP=Map(key=文件的HASH值,value=文件的索引节点)。
如图4所示,索引节点分配层中每个相关的主键值(key)和键值(value)对的IMAP结构具体包括匹配版本号(IMAP version)、代号(generationnumber)、匹配时间(IMAP time)、匹配主键值(IMAP key)和匹配索引节点(IMAP inode),通过上述定义将匹配主键值和匹配索引节点对应起来。
当接收到客户端后续发送的文件时,标识首先对文件内容进行HASH计算并得到相应的文件标识,当后续发送的文件的文件标识不存在于所述索引节点匹配层中时,根据后续发送的文件的标识生成新索引节点匹配表插入所述索引节点匹配层,以分配新的索引节点。如果客户端后续发送的文件的标识存在于所述索引节点匹配层中时,通过存在的索引节点匹配表将所述后续发送的文件指向对应的索引节点。
本发明实施例提供的分布式文件存储架构根据文件内容得到文件标识,再将文件标识与索引节点相匹配,可以避免了名称不同而内容相同的重复文件的出现,节省了大量的存储空间。
实施例二
本实施例通过写操作进一步详细描述根据实施例一的分布式文件存储构架的构建方法。参见图5,该方法包括:
步骤S501:客户端根据将要写到存储节点上的文件内容计算其HASH值,并将文件的HASH值传送给元数据服务器,文件的HASH值可以通过MD5、SHA-1、SHA-2、SHA-256等方法计算得到;
步骤S502:元数据服务器获取文件的HASH值;
步骤S503:元数据服务器根据文件的HASH值来构建索引节点匹配层(IMAPTree),同时构建超级块层、索引节点层和数据块层;其中,索引节点匹配层包括多个IMAP表,用B+树来构建,IMAP表的key值是文件HASH值,value是文件的索引节点;
步骤S504:当元数据服务器接收到新的文件HASH值,首先检索文件HASH值是否存在索引节点匹配层中;
步骤S505:如果该HASH值不存在于索引节点匹配层中,则元数据服务器根据该HASH值分配新的索引节点,构建新IMAP表,并插入索引节点匹配层中;
步骤S506:如果该HASH值已经存在索引节点匹配层中,则将该文件通过对应的IMAP表指向原来对应的索引节点,不重新进行写操作。
本发明实施例提供的分布式文件存储架构根据文件内容得到文件标识,再将文件标识与索引节点相匹配,可以避免了名称不同而内容相同的重复文件的出现,节省了大量的存储空间。
实施例三
本实施例提供一种分布式文件存储构架的构建装置。如图6所示,所述装置600包括:
文件标识获取模块601,用于对文件的文件内容进行Hash计算,获得文件的文件标识;文件标识为文件的HASH值,通过MD5、SHA-1、SHA-2、SHA-256等计算得到。
构架构建模块602,用于根据文件标识构建分布式文件存储构架。如图2所示,分布式文件存储构架包括超级块层(super block)、索引节点匹配层(IMAP,inode map)、索引节点层(inode)和数据块层四层(data block)。其中如图3所示,索引节点匹配层用于在文件标识和文件的索引节点之间进行匹配,索引节点层用于在文件的索引节点和存储数据之间进行匹配。
构架构建模块602在超级块层中定义块组(group descriptor),块位图(block bitmap)、索引节点位图(inode bitmap)、索引节点匹配位图(IMAPbitmap)。索引节点层可以采用EXT2/EXT3或其文件系统的索引节点结构。构架构建模块602根据文件的文件标识构建索引节点匹配层。索引节点匹配层采取树状结构,由多个索引节点匹配表构成。每个索引节点匹配表由相关的主键值(key)和键值(value)对构成,可以用B树、B+树或B-树等来构建。以B+树为例,文件的文件标识,例如HASH值,作为指针块的主键值(key),文件的索引节点作为指针块的键值(value),定义如下:
keyMAP=Map(key=文件的HASH值,value=文件的索引节点)。
如图4所示,索引节点分配层中每个相关的主键值(key)和键值(value)对的IMAP结构具体包括匹配版本号(IMAP version)、代号(generationnumber)、匹配时间(IMAP time)、匹配主键值(IMAP key)和匹配索引节点(IMAP inode),通过上述定义将匹配主键值和匹配索引节点对应起来。
该装置还可以进一步包括匹配识别模块603,用于识别客户端后续发送的文件标识是否存在于所述索引节点匹配层中。当匹配识别模块603识别后续发送的文件标识不存在于所述索引节点匹配层中时,构架构建模块602根据后续发送的文件的标识生成新索引节点匹配表插入所述索引节点匹配层,以分配新的索引节点。当匹配识别模块603识别后续发送的文件的标识存在于所述索引节点匹配层中时,构架构建模块602通过存在的索引节点匹配表将所述后续发送的文件指向对应的索引节点。
本发明实施例根据文件内容得到文件标识,再将文件标识与索引节点相匹配,可以避免了名称不同而内容相同的重复文件的出现,节省了大量的存储空间。以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种分布式文件存储构架的构建方法,其特征在于,所述方法包括:
选取文件;
对所述文件的文件内容进行Hash计算,获得所述文件的文件标识;
根据所述文件标识来构建文件的分布式文件存储构架。
2、根据权利要求1所述的方法,其特征在于,还包括:所述分布式文件存储构架包括超级块层、索引节点匹配层、索引节点层和数据块层。
3、根据权利要求1或2所述的方法,其特征在于,根据所述文件标识构建分布式文件存储构架步骤包括:根据所述文件标识构建索引节点匹配层,用于在文件标识和索引节点层中的索引节点之间进行匹配。
4、根据权利要求3所述的方法,其特征在于:当获得的后续文件的文件标识不存在于所述索引节点匹配层中时,根据所述后续文件标识生成新索引节点匹配表插入所述索引节点匹配层中。
5、根据权利要求3所述的方法,其特征在于,还包括:当获得的后续文件的文件标识存在于所述索引节点匹配层中时,将所述后续文件指向对应的索引节点。
6、根据权利要求3所述的方法,其特征在于:所述文件标识为文件的散列值。
7、一种分布式文件存储构架的构建装置,其特征在于,所述装置包括:
文件标识获取模块,用于对文件的文件内容进行Hash计算,获得文件的文件标识;
构架构建模块,用于根据文件标识构建分布式文件存储构架。
8、根据权利要求7所述的装置,其特征在于:所述分布式文件存储构架包括超级块层、索引节点匹配层、索引节点层和数据块层。
9、根据权利要求7或8所述的装置,其特征在于,还包括:匹配识别模块,用于识别客户端后续发送的文件标识是否存在于所述索引节点匹配层中;
当获得的后续文件的文件标识不存在于所述索引节点匹配层中时,所述构架构建模块根据所述后续文件标识生成新索引节点匹配表插入所述索引节点匹配层中;当获得的后续文件的文件标识存在于所述索引节点匹配层中时,所述构架构建模块将所述后续文件指向对应的索引节点。
10、根据权利要求7所述的装置,其特征在于:所述文件标识为文件的散列值。
CN2009101799383A 2009-10-10 2009-10-10 分布式文件存储构架的构建方法和装置 Active CN101673289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101799383A CN101673289B (zh) 2009-10-10 2009-10-10 分布式文件存储构架的构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101799383A CN101673289B (zh) 2009-10-10 2009-10-10 分布式文件存储构架的构建方法和装置

Publications (2)

Publication Number Publication Date
CN101673289A true CN101673289A (zh) 2010-03-17
CN101673289B CN101673289B (zh) 2012-08-08

Family

ID=42020512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101799383A Active CN101673289B (zh) 2009-10-10 2009-10-10 分布式文件存储构架的构建方法和装置

Country Status (1)

Country Link
CN (1) CN101673289B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986276A (zh) * 2010-10-21 2011-03-16 成都市华为赛门铁克科技有限公司 文件存储方法、文件恢复方法、系统及服务器
CN102004769A (zh) * 2010-11-12 2011-04-06 成都市华为赛门铁克科技有限公司 文件管理方法、设备及存储系统
CN103020078A (zh) * 2011-09-24 2013-04-03 国家电网公司 分布式实时数据库数据层次索引方法
CN103383690A (zh) * 2012-05-04 2013-11-06 深圳市腾讯计算机系统有限公司 分布式数据存储方法及系统
CN103856503A (zh) * 2012-11-29 2014-06-11 北京华胜天成科技股份有限公司 Nas集群系统的文件数据的处理方法及nas集群系统
CN104008111A (zh) * 2013-02-27 2014-08-27 深圳市腾讯计算机系统有限公司 一种数据的存储管理方法及装置
CN106294352A (zh) * 2015-05-13 2017-01-04 姚猛 一种文件处理方法、装置和文件系统
CN107580066A (zh) * 2017-09-20 2018-01-12 郑州云海信息技术有限公司 一种分布式nas存储系统中文件访问的方法、装置及系统
CN108664555A (zh) * 2011-06-14 2018-10-16 慧与发展有限责任合伙企业 分布式文件系统中的去重复
CN108716916A (zh) * 2018-05-31 2018-10-30 北京航空航天大学 一种基于超级块的分布式并行星点质心提取方法及fpga实现装置
CN111597146A (zh) * 2020-05-20 2020-08-28 浙江大华技术股份有限公司 视频文件处理方法及装置、存储介质、电子装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100440171C (zh) * 2004-02-24 2008-12-03 中国科学院声学研究所 一种嵌入式环境下音像录放装置的文件组织管理方法
CN100338607C (zh) * 2004-12-02 2007-09-19 中国科学院计算技术研究所 一种组织和访问分布式文件系统目录的方法
CN101141476A (zh) * 2007-10-09 2008-03-12 创新科存储技术(深圳)有限公司 文件存储、下载方法以及装置
CN101526965B (zh) * 2009-04-29 2011-01-05 成都市华为赛门铁克科技有限公司 一种磁盘文件的索引节点定位方法和装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986276A (zh) * 2010-10-21 2011-03-16 成都市华为赛门铁克科技有限公司 文件存储方法、文件恢复方法、系统及服务器
CN102004769A (zh) * 2010-11-12 2011-04-06 成都市华为赛门铁克科技有限公司 文件管理方法、设备及存储系统
CN108664555A (zh) * 2011-06-14 2018-10-16 慧与发展有限责任合伙企业 分布式文件系统中的去重复
CN103020078A (zh) * 2011-09-24 2013-04-03 国家电网公司 分布式实时数据库数据层次索引方法
CN103020078B (zh) * 2011-09-24 2017-11-03 国家电网公司 分布式实时数据库数据层次索引方法
CN103383690A (zh) * 2012-05-04 2013-11-06 深圳市腾讯计算机系统有限公司 分布式数据存储方法及系统
CN103383690B (zh) * 2012-05-04 2016-04-13 深圳市腾讯计算机系统有限公司 分布式数据存储方法及系统
CN103856503B (zh) * 2012-11-29 2017-04-12 北京华胜天成科技股份有限公司 Nas集群系统的文件数据的处理方法及nas集群系统
CN103856503A (zh) * 2012-11-29 2014-06-11 北京华胜天成科技股份有限公司 Nas集群系统的文件数据的处理方法及nas集群系统
CN104008111A (zh) * 2013-02-27 2014-08-27 深圳市腾讯计算机系统有限公司 一种数据的存储管理方法及装置
CN104008111B (zh) * 2013-02-27 2019-02-15 深圳市腾讯计算机系统有限公司 一种数据的存储管理方法及装置
CN106294352A (zh) * 2015-05-13 2017-01-04 姚猛 一种文件处理方法、装置和文件系统
CN106294352B (zh) * 2015-05-13 2019-10-25 姚猛 一种文件处理方法、装置和文件系统
CN107580066A (zh) * 2017-09-20 2018-01-12 郑州云海信息技术有限公司 一种分布式nas存储系统中文件访问的方法、装置及系统
CN108716916A (zh) * 2018-05-31 2018-10-30 北京航空航天大学 一种基于超级块的分布式并行星点质心提取方法及fpga实现装置
CN111597146A (zh) * 2020-05-20 2020-08-28 浙江大华技术股份有限公司 视频文件处理方法及装置、存储介质、电子装置
CN111597146B (zh) * 2020-05-20 2023-04-07 浙江大华技术股份有限公司 视频文件处理方法及装置、存储介质、电子装置

Also Published As

Publication number Publication date
CN101673289B (zh) 2012-08-08

Similar Documents

Publication Publication Date Title
CN101673289B (zh) 分布式文件存储构架的构建方法和装置
JP6778795B2 (ja) データを記憶するための方法、装置及びシステム
US10664493B2 (en) Replication of data objects from a source server to a target server
US10942813B2 (en) Cloud object data layout (CODL)
US10853242B2 (en) Deduplication and garbage collection across logical databases
US8260742B2 (en) Data synchronization and consistency across distributed repositories
WO2017167171A1 (zh) 一种数据操作方法,服务器及存储系统
CN102955845B (zh) 数据访问方法、装置与分布式数据库系统
CN103116615B (zh) 一种基于版本矢量的数据索引方法及服务器
CN109194711B (zh) 一种组织架构的同步方法、客户端、服务端及介质
CN104641365A (zh) 在文件存储系统中使用检查点管理去复制的系统和方法
CN110347651A (zh) 基于云存储的数据同步方法、装置、设备及存储介质
CN103067525A (zh) 一种基于特征码的云存储数据备份方法
CN103379160A (zh) 一种超大文件的差异同步方法
CN103119551A (zh) 优化的恢复
US9110820B1 (en) Hybrid data storage system in an HPC exascale environment
US11675743B2 (en) Web-scale distributed deduplication
CN102946410A (zh) 网络同步方法和装置
CN103067519A (zh) 一种异构平台下数据分布存储的方法及装置
CN103023996A (zh) 一种云数据存储系统
Upadhyay et al. Deduplication and compression techniques in cloud design
CN113015964A (zh) 用于异步目录复制的方法、设备和系统
CN103744882B (zh) 一种基于键值对的目录片段表示方法及装置
CN104063377B (zh) 信息处理方法和使用其的电子设备
CN112416879B (zh) 一种基于ntfs文件系统的块级数据去重方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: HUAWEI DIGITAL TECHNOLOGY (CHENGDU) CO., LTD.

Free format text: FORMER NAME: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee after: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

Address before: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee before: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220915

Address after: No. 1899 Xiyuan Avenue, high tech Zone (West District), Chengdu, Sichuan 610041

Patentee after: Chengdu Huawei Technologies Co.,Ltd.

Address before: 611731 Qingshui River District, Chengdu hi tech Zone, Sichuan, China

Patentee before: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.