CN103761268A - 一种分布式文件系统数据存储布局的方法 - Google Patents

一种分布式文件系统数据存储布局的方法 Download PDF

Info

Publication number
CN103761268A
CN103761268A CN201410004748.9A CN201410004748A CN103761268A CN 103761268 A CN103761268 A CN 103761268A CN 201410004748 A CN201410004748 A CN 201410004748A CN 103761268 A CN103761268 A CN 103761268A
Authority
CN
China
Prior art keywords
file
section
node
raid
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410004748.9A
Other languages
English (en)
Other versions
CN103761268B (zh
Inventor
郭照斌
马振杰
姜国梁
季旻
杨鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUXI CITY CLOUD COMPUTER CENTER CO Ltd
Original Assignee
WUXI CITY CLOUD COMPUTER CENTER CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUXI CITY CLOUD COMPUTER CENTER CO Ltd filed Critical WUXI CITY CLOUD COMPUTER CENTER CO Ltd
Priority to CN201410004748.9A priority Critical patent/CN103761268B/zh
Publication of CN103761268A publication Critical patent/CN103761268A/zh
Application granted granted Critical
Publication of CN103761268B publication Critical patent/CN103761268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种分布式文件系统的数据存储布局的方法,该方法包括:将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,这样做之后对于小文件其均不超过第一段的大小,用副本方式即省空间又可以减少计算量,可以做到小文件的快速存储,而对于大文件,之后的段均为节点间raid的方式存储,可以节省大量的存储空间。本发明通过对文件不同长度的区间按不同方式存储数据,在未知文件大小的情况下,解决了不同大小文件对文件系统的不同要求,既满足了小文件的高性能,又满足了大文件的高空间利用率。

Description

一种分布式文件系统数据存储布局的方法
技术领域
本发明涉及计算机领域,具体涉及一种分布式文件系统数据存储布局的方法。
背景技术
分布式文件系统一般包含客户端,元数据服务器和数据服务器,客户端负责文件数据的访问接口制定,元数据服务器处理文件的布局及属性,数据服务器存储文件的数据内容。
对于分布式文件系统,如何组织文件数据的存储形式,直接决定了系统的磁盘利用率和整系统的性能,目前主流的两种存储形式是副本和节点间raid的方式,但是这两种方式对于不同的文件各有利弊,副本方式对于大文件磁盘利用率太低,节点间raid对于小文件,由于需要额外的计算,因此性能比副本的低。针对以上的弊端,传统的方式是建立大文件和小文件的命名空间,对小文件的命名空间用副本方式,对大文件的命名空间用节点间raid方式,让应用根据自身的需求选择不同的命名空间,但由于大多数应用在写入文件前是不知道其会有多大的,因此选择命名合适空间本身就不容易做到。
发明内容
针对现有技术的不足,本发明的目的是提供一种分布式文件系统数据存储布局的方法,本发明通过对文件不同长度的区间按不同方式存储数据,在未知文件大小的情况下,解决了不同大小文件对文件系统的不同要求,既满足了小文件的高性能,又满足了大文件的高空间利用率。
本发明的目的是采用下述技术方案实现的:
本发明提供一种分布式文件系统数据存储布局的方法,其改进之处在于,所述方法包括:将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,对于小文件的大小均不超过第一段的大小,对于大文件,除第一段之后的段均为节点间raid的方式存储;
所述方法包括下述步骤:
(1)客户端创建文件时,元数据服务器先创建出第一个段的副本数据布局及元数据信息;
(2)当客户端写入的文件大小小于1M时数据存储到第一个段内,超过1M的部分需要先向元数据服务器发起第二个段的创建请求;
(3)元数据服务器发现非第一个段的创建,则创建一个节点间raid的副本数据布局模式,返回给客户端成功;
(4)客户端继续将数据写入节点间raid的布局对象中。
进一步地,文件按长度区间分为不同的段,每个段的大小,根据文件系统应用对小文件的长度定义来确定。
进一步地,所述小文件为小于1M的文件,所述大文件为大于1M的文件。
与现有技术比,本发明达到的有益效果是:
本发明提供的分布式文件系统数据存储布局的方法,将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,这样做之后对于小文件其均不超过第一段的大小,用副本方式即省空间又可以减少计算量,可以做到小文件的快速存储,而对于大文件,之后的段均为节点间raid的方式存储,可以节省大量的存储空间,解决了不同大小文件对文件系统的不同要求,既满足了小文件的高性能,又满足了大文件的高空间利用率。
附图说明
图1是本发明提供的将文件按长度区间分为不同的段的示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
本发明提供的分布式文件系统数据存储布局的方法,将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,这样做之后对于小文件其均不超过第一段的大小,用副本方式即省空间又可以减少计算量,可以做到小文件的快速存储,而对于大文件,之后的段均为节点间raid的方式存储,可以节省大量的存储空间,将文件按长度区间分为不同的段的示意图如图1所示。
本发明提供的分布式文件系统数据存储布局的方法包括:
(1)客户端创建文件时,元数据先创建出第一个段的副本数据布局及相关的元数据信息。
(2)当客户端写入的文件大小超过第一个段时,向元数据服务器发起第二个段的创建请求,
(3)元数据发现是非第一个段的创建,则创建一个节点间raid的数据布局模式,返回成功
(4)客户端继续写入的数据写入节点间raid的布局对象中。
文件按长度区间分为不同的段,每个段的大小,根据文件系统应用对小文件的长度定义来确定。所述小文件为小于1M的文件,所述大文件为大于1M的文件。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种分布式文件系统数据存储布局的方法,其特征在于,所述方法包括:将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,对于小文件的大小均不超过第一段的大小,对于大文件,除第一段之后的段均为节点间raid的方式存储;
所述方法包括下述步骤:
(1)客户端创建文件时,元数据服务器先创建出第一个段的副本数据布局及元数据信息;
(2)当客户端写入的文件大小小于1M时数据存储到第一个段内,超过1M的部分需要先向元数据服务器发起第二个段的创建请求;
(3)元数据服务器发现非第一个段的创建,则创建一个节点间raid的副本数据布局模式,返回给客户端成功;
(4)客户端继续将数据写入节点间raid的布局对象中。
2.如权利要求1所述的方法,其特征在于,文件按长度区间分为不同的段,每个段的大小,根据文件系统应用对小文件的长度定义来确定。
3.如权利要求1所述的方法,其特征在于,所述小文件为小于1M的文件,所述大文件为大于1M的文件。
CN201410004748.9A 2014-01-06 2014-01-06 一种分布式文件系统数据存储布局的方法 Active CN103761268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410004748.9A CN103761268B (zh) 2014-01-06 2014-01-06 一种分布式文件系统数据存储布局的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410004748.9A CN103761268B (zh) 2014-01-06 2014-01-06 一种分布式文件系统数据存储布局的方法

Publications (2)

Publication Number Publication Date
CN103761268A true CN103761268A (zh) 2014-04-30
CN103761268B CN103761268B (zh) 2017-12-01

Family

ID=50528505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410004748.9A Active CN103761268B (zh) 2014-01-06 2014-01-06 一种分布式文件系统数据存储布局的方法

Country Status (1)

Country Link
CN (1) CN103761268B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125032A (zh) * 2019-12-24 2020-05-08 天地伟业技术有限公司 一种流式存储和文件存储并存的实现方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110154A (zh) * 2011-02-21 2011-06-29 中国科学院计算技术研究所 一种集群文件系统中文件冗余存储方法
CN102567443A (zh) * 2011-10-25 2012-07-11 无锡城市云计算中心有限公司 一种分布式文件系统数据分片换段的方法
US20120278553A1 (en) * 2011-04-28 2012-11-01 Mudhiganti Devender R System and method for migration of data clones
CN103164490A (zh) * 2011-12-19 2013-06-19 北京新媒传信科技有限公司 一种不固定长度数据的高效存储实现方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110154A (zh) * 2011-02-21 2011-06-29 中国科学院计算技术研究所 一种集群文件系统中文件冗余存储方法
US20120278553A1 (en) * 2011-04-28 2012-11-01 Mudhiganti Devender R System and method for migration of data clones
CN102567443A (zh) * 2011-10-25 2012-07-11 无锡城市云计算中心有限公司 一种分布式文件系统数据分片换段的方法
CN103164490A (zh) * 2011-12-19 2013-06-19 北京新媒传信科技有限公司 一种不固定长度数据的高效存储实现方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘利伟等: "基于Erasure Code的分布式文件存储系统", 《计算机工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125032A (zh) * 2019-12-24 2020-05-08 天地伟业技术有限公司 一种流式存储和文件存储并存的实现方法
CN111125032B (zh) * 2019-12-24 2023-09-19 天地伟业技术有限公司 一种流式存储和文件存储并存的实现方法

Also Published As

Publication number Publication date
CN103761268B (zh) 2017-12-01

Similar Documents

Publication Publication Date Title
EP2659377B1 (en) Adaptive index for data deduplication
US20140164330A1 (en) Pruning previously-allocated free blocks from a synthetic backup
US8694469B2 (en) Cloud synthetic backups
JP6045590B2 (ja) 部分的重複排除ファイルの最適化
CN102541990B (zh) 利用虚拟分区的数据库重新分布方法和系统
US8645335B2 (en) Partial recall of deduplicated files
CN104537050B (zh) 一种批量快速创建文件系统元数据和数据的方法
WO2021077745A1 (zh) 一种分布式存储系统的数据读写方法
CN104361030A (zh) 一种具有任务分发功能的分布式缓存架构及缓存方法
CN104679665A (zh) 一种实现分布式文件系统块存储的方法及系统
CN105630810B (zh) 一种对于海量小文件在分布式存储系统中上载的方法
CN103412884A (zh) 一种异构存储介质下嵌入式数据库的管理方法
CN103793475B (zh) 一种分布式文件系统数据迁移的方法
CN103631894A (zh) 一种基于hdfs的动态副本管理方法
CN105159616A (zh) 一种磁盘空间管理方法及装置
CN105677508A (zh) 一种云存储中纠删码数据的修改方法及系统
CN105516284A (zh) 一种集群数据库分布式存储的方法和装置
CN104572505A (zh) 一种保证海量数据缓存最终一致性的系统及方法
CN105353988A (zh) 一种元数据读写方法及装置
CN108415671A (zh) 一种面向绿色云计算的重复数据删除方法及系统
KR101797483B1 (ko) 데이터베이스 관리 시스템에서 쿼리를 프로세싱하기 위한 기법
US9678972B2 (en) Packing deduplicated data in a self-contained deduplicated repository
US20120311021A1 (en) Processing method of transaction-based system
CN107506466A (zh) 一种小文件存储方法及系统
CN103500147A (zh) 一种嵌入分层存储的pb级集群存储系统的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant