CN103761268A - 一种分布式文件系统数据存储布局的方法 - Google Patents
一种分布式文件系统数据存储布局的方法 Download PDFInfo
- Publication number
- CN103761268A CN103761268A CN201410004748.9A CN201410004748A CN103761268A CN 103761268 A CN103761268 A CN 103761268A CN 201410004748 A CN201410004748 A CN 201410004748A CN 103761268 A CN103761268 A CN 103761268A
- Authority
- CN
- China
- Prior art keywords
- file
- section
- node
- raid
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种分布式文件系统的数据存储布局的方法,该方法包括:将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,这样做之后对于小文件其均不超过第一段的大小,用副本方式即省空间又可以减少计算量,可以做到小文件的快速存储,而对于大文件,之后的段均为节点间raid的方式存储,可以节省大量的存储空间。本发明通过对文件不同长度的区间按不同方式存储数据,在未知文件大小的情况下,解决了不同大小文件对文件系统的不同要求,既满足了小文件的高性能,又满足了大文件的高空间利用率。
Description
技术领域
本发明涉及计算机领域,具体涉及一种分布式文件系统数据存储布局的方法。
背景技术
分布式文件系统一般包含客户端,元数据服务器和数据服务器,客户端负责文件数据的访问接口制定,元数据服务器处理文件的布局及属性,数据服务器存储文件的数据内容。
对于分布式文件系统,如何组织文件数据的存储形式,直接决定了系统的磁盘利用率和整系统的性能,目前主流的两种存储形式是副本和节点间raid的方式,但是这两种方式对于不同的文件各有利弊,副本方式对于大文件磁盘利用率太低,节点间raid对于小文件,由于需要额外的计算,因此性能比副本的低。针对以上的弊端,传统的方式是建立大文件和小文件的命名空间,对小文件的命名空间用副本方式,对大文件的命名空间用节点间raid方式,让应用根据自身的需求选择不同的命名空间,但由于大多数应用在写入文件前是不知道其会有多大的,因此选择命名合适空间本身就不容易做到。
发明内容
针对现有技术的不足,本发明的目的是提供一种分布式文件系统数据存储布局的方法,本发明通过对文件不同长度的区间按不同方式存储数据,在未知文件大小的情况下,解决了不同大小文件对文件系统的不同要求,既满足了小文件的高性能,又满足了大文件的高空间利用率。
本发明的目的是采用下述技术方案实现的:
本发明提供一种分布式文件系统数据存储布局的方法,其改进之处在于,所述方法包括:将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,对于小文件的大小均不超过第一段的大小,对于大文件,除第一段之后的段均为节点间raid的方式存储;
所述方法包括下述步骤:
(1)客户端创建文件时,元数据服务器先创建出第一个段的副本数据布局及元数据信息;
(2)当客户端写入的文件大小小于1M时数据存储到第一个段内,超过1M的部分需要先向元数据服务器发起第二个段的创建请求;
(3)元数据服务器发现非第一个段的创建,则创建一个节点间raid的副本数据布局模式,返回给客户端成功;
(4)客户端继续将数据写入节点间raid的布局对象中。
进一步地,文件按长度区间分为不同的段,每个段的大小,根据文件系统应用对小文件的长度定义来确定。
进一步地,所述小文件为小于1M的文件,所述大文件为大于1M的文件。
与现有技术比,本发明达到的有益效果是:
本发明提供的分布式文件系统数据存储布局的方法,将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,这样做之后对于小文件其均不超过第一段的大小,用副本方式即省空间又可以减少计算量,可以做到小文件的快速存储,而对于大文件,之后的段均为节点间raid的方式存储,可以节省大量的存储空间,解决了不同大小文件对文件系统的不同要求,既满足了小文件的高性能,又满足了大文件的高空间利用率。
附图说明
图1是本发明提供的将文件按长度区间分为不同的段的示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
本发明提供的分布式文件系统数据存储布局的方法,将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,这样做之后对于小文件其均不超过第一段的大小,用副本方式即省空间又可以减少计算量,可以做到小文件的快速存储,而对于大文件,之后的段均为节点间raid的方式存储,可以节省大量的存储空间,将文件按长度区间分为不同的段的示意图如图1所示。
本发明提供的分布式文件系统数据存储布局的方法包括:
(1)客户端创建文件时,元数据先创建出第一个段的副本数据布局及相关的元数据信息。
(2)当客户端写入的文件大小超过第一个段时,向元数据服务器发起第二个段的创建请求,
(3)元数据发现是非第一个段的创建,则创建一个节点间raid的数据布局模式,返回成功
(4)客户端继续写入的数据写入节点间raid的布局对象中。
文件按长度区间分为不同的段,每个段的大小,根据文件系统应用对小文件的长度定义来确定。所述小文件为小于1M的文件,所述大文件为大于1M的文件。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.一种分布式文件系统数据存储布局的方法,其特征在于,所述方法包括:将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,对于小文件的大小均不超过第一段的大小,对于大文件,除第一段之后的段均为节点间raid的方式存储;
所述方法包括下述步骤:
(1)客户端创建文件时,元数据服务器先创建出第一个段的副本数据布局及元数据信息;
(2)当客户端写入的文件大小小于1M时数据存储到第一个段内,超过1M的部分需要先向元数据服务器发起第二个段的创建请求;
(3)元数据服务器发现非第一个段的创建,则创建一个节点间raid的副本数据布局模式,返回给客户端成功;
(4)客户端继续将数据写入节点间raid的布局对象中。
2.如权利要求1所述的方法,其特征在于,文件按长度区间分为不同的段,每个段的大小,根据文件系统应用对小文件的长度定义来确定。
3.如权利要求1所述的方法,其特征在于,所述小文件为小于1M的文件,所述大文件为大于1M的文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410004748.9A CN103761268B (zh) | 2014-01-06 | 2014-01-06 | 一种分布式文件系统数据存储布局的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410004748.9A CN103761268B (zh) | 2014-01-06 | 2014-01-06 | 一种分布式文件系统数据存储布局的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103761268A true CN103761268A (zh) | 2014-04-30 |
CN103761268B CN103761268B (zh) | 2017-12-01 |
Family
ID=50528505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410004748.9A Active CN103761268B (zh) | 2014-01-06 | 2014-01-06 | 一种分布式文件系统数据存储布局的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103761268B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125032A (zh) * | 2019-12-24 | 2020-05-08 | 天地伟业技术有限公司 | 一种流式存储和文件存储并存的实现方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110154A (zh) * | 2011-02-21 | 2011-06-29 | 中国科学院计算技术研究所 | 一种集群文件系统中文件冗余存储方法 |
CN102567443A (zh) * | 2011-10-25 | 2012-07-11 | 无锡城市云计算中心有限公司 | 一种分布式文件系统数据分片换段的方法 |
US20120278553A1 (en) * | 2011-04-28 | 2012-11-01 | Mudhiganti Devender R | System and method for migration of data clones |
CN103164490A (zh) * | 2011-12-19 | 2013-06-19 | 北京新媒传信科技有限公司 | 一种不固定长度数据的高效存储实现方法和装置 |
-
2014
- 2014-01-06 CN CN201410004748.9A patent/CN103761268B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110154A (zh) * | 2011-02-21 | 2011-06-29 | 中国科学院计算技术研究所 | 一种集群文件系统中文件冗余存储方法 |
US20120278553A1 (en) * | 2011-04-28 | 2012-11-01 | Mudhiganti Devender R | System and method for migration of data clones |
CN102567443A (zh) * | 2011-10-25 | 2012-07-11 | 无锡城市云计算中心有限公司 | 一种分布式文件系统数据分片换段的方法 |
CN103164490A (zh) * | 2011-12-19 | 2013-06-19 | 北京新媒传信科技有限公司 | 一种不固定长度数据的高效存储实现方法和装置 |
Non-Patent Citations (1)
Title |
---|
潘利伟等: "基于Erasure Code的分布式文件存储系统", 《计算机工程》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125032A (zh) * | 2019-12-24 | 2020-05-08 | 天地伟业技术有限公司 | 一种流式存储和文件存储并存的实现方法 |
CN111125032B (zh) * | 2019-12-24 | 2023-09-19 | 天地伟业技术有限公司 | 一种流式存储和文件存储并存的实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103761268B (zh) | 2017-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2659377B1 (en) | Adaptive index for data deduplication | |
US20140164330A1 (en) | Pruning previously-allocated free blocks from a synthetic backup | |
US8694469B2 (en) | Cloud synthetic backups | |
JP6045590B2 (ja) | 部分的重複排除ファイルの最適化 | |
CN102541990B (zh) | 利用虚拟分区的数据库重新分布方法和系统 | |
US8645335B2 (en) | Partial recall of deduplicated files | |
CN104537050B (zh) | 一种批量快速创建文件系统元数据和数据的方法 | |
WO2021077745A1 (zh) | 一种分布式存储系统的数据读写方法 | |
CN104361030A (zh) | 一种具有任务分发功能的分布式缓存架构及缓存方法 | |
CN104679665A (zh) | 一种实现分布式文件系统块存储的方法及系统 | |
CN105630810B (zh) | 一种对于海量小文件在分布式存储系统中上载的方法 | |
CN103412884A (zh) | 一种异构存储介质下嵌入式数据库的管理方法 | |
CN103793475B (zh) | 一种分布式文件系统数据迁移的方法 | |
CN103631894A (zh) | 一种基于hdfs的动态副本管理方法 | |
CN105159616A (zh) | 一种磁盘空间管理方法及装置 | |
CN105677508A (zh) | 一种云存储中纠删码数据的修改方法及系统 | |
CN105516284A (zh) | 一种集群数据库分布式存储的方法和装置 | |
CN104572505A (zh) | 一种保证海量数据缓存最终一致性的系统及方法 | |
CN105353988A (zh) | 一种元数据读写方法及装置 | |
CN108415671A (zh) | 一种面向绿色云计算的重复数据删除方法及系统 | |
KR101797483B1 (ko) | 데이터베이스 관리 시스템에서 쿼리를 프로세싱하기 위한 기법 | |
US9678972B2 (en) | Packing deduplicated data in a self-contained deduplicated repository | |
US20120311021A1 (en) | Processing method of transaction-based system | |
CN107506466A (zh) | 一种小文件存储方法及系统 | |
CN103500147A (zh) | 一种嵌入分层存储的pb级集群存储系统的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |