CN105138632A - 一种文件数据组织管理方法及文件管理服务器 - Google Patents

一种文件数据组织管理方法及文件管理服务器 Download PDF

Info

Publication number
CN105138632A
CN105138632A CN201510516015.8A CN201510516015A CN105138632A CN 105138632 A CN105138632 A CN 105138632A CN 201510516015 A CN201510516015 A CN 201510516015A CN 105138632 A CN105138632 A CN 105138632A
Authority
CN
China
Prior art keywords
file
storage space
index structure
structure storage
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510516015.8A
Other languages
English (en)
Inventor
郑涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510516015.8A priority Critical patent/CN105138632A/zh
Publication of CN105138632A publication Critical patent/CN105138632A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1737Details of further file system functions for reducing power consumption or coping with limited storage space, e.g. in mobile devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures

Abstract

本发明提供一种文件数据组织管理方法及文件管理服务器,上述方法包括以下步骤:获取文件比例特征信息,进而确定树形索引结构存储空间、文件直接索引结构存储空间的分配;根据待存储文件类型,将所述待存储文件分配至对应的树形索引结构存储空间、文件直接索引结构存储空间;实现了存储大文件时,文件数据会被组织成树形的结构,以区段为基本单位存储,当遇到小文件时,则会以直接索引的方式来存储,更好的平衡了小文件和大文件存储性能和空间开销之间的关系。

Description

一种文件数据组织管理方法及文件管理服务器
技术领域
本发明属于文件数据管理领域,尤其涉及一种文件数据组织管理方法及文件管理服务器。
背景技术
当前主流文件系统采取的文件数据组织方式主要有两种,一种是采取树形索引结构,文件数据以区段(extent,一个区段由多个连续数据块组成)的方式来组织,适合大文件存储,对于小文件,因为需要额外的数据结构表示区段和树形结构,从而带来不必要的开销;另一种是文件直接索引结构,主要针对较小文件,采用数据块直接索引方式,通过指针直接索引数据块,对于大文件而言,因为需要的指针数量太多,同样浪费存储空间和降低索引效率。
现在文件系统常常面临大文件和小文件同时并存的情况,而现有技术中并没有揭示如何采用两种文件数据组织方式来更好的平衡小文件和大文件存储性能和空间开销之间的关系。
发明内容
本发明提供一种文件数据组织管理方法及文件管理服务器,以解决上述问题。
本发明提供一种文件数据组织管理方法。上述方法包括以下步骤:
获取文件比例特征信息,进而确定树形索引结构存储空间、文件直接索引结构存储空间的分配;
根据待存储文件类型,将所述待存储文件分配至对应的树形索引结构存储空间、文件直接索引结构存储空间。
本发明还提供了一种文件管理服务器,包括获取模块、存储空间分配模块、存储模块;其中,所述获取模块通过所述存储空间分配模块与所述存储模块相连;
所述获取模块,用于获取文件比例特征信息并将所述文件比例特征信息发送至所述存储空间分配模块;
所述存储空间分配模块,用于确定树形索引结构存储空间、文件直接索引结构存储空间的分配并将分配结果发送至所述存储模块;
所述存储模块,用于根据待存储文件类型,将所述待存储文件分配至对应的树形索引结构存储空间、文件直接索引结构存储空间。
通过以下方案:获取文件比例特征信息,进而确定树形索引结构存储空间、文件直接索引结构存储空间的分配;根据待存储文件类型,将所述待存储文件分配至对应的树形索引结构存储空间、文件直接索引结构存储空间;实现了存储大文件时,文件数据会被组织成树形的结构,以区段为基本单位存储,当遇到小文件时,则会以直接索引的方式来存储,更好的平衡了小文件和大文件存储性能和空间开销之间的关系。
通过以下方案:获取大于预设阈值的文件数量,进而确定大于预设阈值的文件数量所占全部文件数量的数量比例值;根据所述数量比例值所处的数量比例范围,进而分别确定树形索引结构存储空间、文件直接索引结构存储空间对应的分配比例,使得存储空间分配更加合理,存储更加高效。
通过以下方案:获取大于预设阈值的文件访问次数,进而确定大于预设阈值的文件访问次数所占全部文件总访问次数的访问比例值;根据所述访问比例值所处的访问比例范围,进而分别确定树形索引结构存储空间、文件直接索引结构存储空间对应的分配比例,使得存储空间分配更加合理,存储更加高效。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为本发明实施例1的文件数据组织管理方法流程图;
图2所示为本发明实施例2的单层索引结构示意图;
图3所示为本发明实施例3的多层索引结构示意图;
图4所示为本发明实施例4的文件数据组织管理系统结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1所示为本发明实施例1的文件数据组织管理方法流程图,包括以下步骤:
步骤101:获取文件比例特征信息,进而确定树形索引结构存储空间、文件直接索引结构存储空间的分配;
进一步地,所述文件比例特征信息包括数量比例值、访问比例值。
进一步地,获取大于预设阈值的文件数量,进而确定大于预设阈值的文件数量所占全部文件数量的数量比例值;
根据所述数量比例值所处的数量比例范围,进而分别确定树形索引结构存储空间、文件直接索引结构存储空间对应的分配比例。
预设阈值可以根据实际情况进行灵活设定,在此不用于限定本实施例的保护范围,例如:预设阈值为64KB。
大于预设阈值的文件,我们认为是大文件;小于或等于预设阈值的文件,我们认为是小文件。
文件管理服务器存储数量比例范围及存储空间分配比例对照表,如表1所示:
数量比例范围及存储空间分配比例对照表
表1
其中,所述树形索引结构存储空间分配比例、文件直接索引结构存储空间分配比例是针对整个可用的存储空间而言的,例如:可用的存储空间是512M,则如表1所示,当数量比例范围(X)为:0<X≤30%,则树形索引结构存储空间分配比例为20%,也即获得512M×20%的存储空间;文件直接索引结构存储空间分配比例为80%,也即获取512M×80%的存储空间。
进一步地,获取大于预设阈值的文件访问次数,进而确定大于预设阈值的文件访问次数所占全部文件总访问次数的访问比例值;
根据所述访问比例值所处的访问比例范围,进而分别确定树形索引结构存储空间、文件直接索引结构存储空间对应的分配比例。
文件管理服务器存储访问比例范围及存储空间分配比例对照表,如表2所示:
访问比例范围及存储空间分配比例对照表
表2
其中,大于预设阈值的文件访问次数越多,一方面说明大文件数量比较多,另一方面说明大文件被访问的几率比较高,因此树形索引结构存储空间分配比例大于文件直接索引结构存储空间分配比例。
步骤102:根据待存储文件类型,将所述待存储文件分配至对应的树形索引结构存储空间、文件直接索引结构存储空间。
进一步地,根据待存储文件类型,将所述文件分配至对应的树形索引结构存储空间、文件直接索引结构存储空间的过程为:
若所述文件类型为大文件即大于预设阈值的文件,则将所述大于预设阈值的文件存储至树形索引结构存储空间;
若所述文件类型为小文件即小于或等于预设阈值的文件,则将所述小于或等于预设阈值的文件存储至文件直接索引结构存储空间。
图2所示为本发明实施例2的单层索引结构示意图,如图2所示,文件直接索引结构采用指针表示,指针指向的是数据块;树形索引结构采用区段extent进行表示,其中,一个区段由多个连续数据块组成。
假设数据块大小为4KB并且文件直接索引结构采用一个数组表示,16个数组项用于直接索引,其余的数组项用于表示树形索引。
图3所示为本发明实施例3的多层索引结构示意图,如图3所示,文件直接索引结构的指针除直接指向数据块外,还可以通过中间索引数据块指向一个或多个数据块;树形索引结构的根节点除直接指向区段extent外,还可以通过中间索引节点指向一个或多个区段extent。
对于多级索引结构而言,一级索引并不能完整的展示索引文件数据,这时候就需要采用多级结构,文件直接索引的情况下,最多支持二级索引,主要是为了避免过多的指针带来不必要的开销,在二级直接索引不能满足的情况下(通常是大文件),采用树形索引结构,中间索引节点或中间索引数据块为一个数据块大小,可以指向多个区段extent或多个数据块;树形索引结构可以为多级。
图4所示为本发明实施例4的文件数据组织管理系统结构图,包括获取模块、存储空间分配模块、存储模块;其中,所述获取模块通过所述存储空间分配模块与所述存储模块相连;
所述获取模块,用于获取文件比例特征信息并将所述文件比例特征信息发送至所述存储空间分配模块;
所述存储空间分配模块,用于确定树形索引结构存储空间、文件直接索引结构存储空间的分配并将分配结果发送至所述存储模块;
所述存储模块,用于根据待存储文件类型,将所述待存储文件分配至对应的树形索引结构存储空间、文件直接索引结构存储空间。
通过以下方案:获取文件比例特征信息,进而确定树形索引结构存储空间、文件直接索引结构存储空间的分配;根据待存储文件类型,将所述待存储文件分配至对应的树形索引结构存储空间、文件直接索引结构存储空间;实现了存储大文件时,文件数据会被组织成树形的结构,以区段为基本单位存储,当遇到小文件时,则会以直接索引的方式来存储,更好的平衡了小文件和大文件存储性能和空间开销之间的关系。
通过以下方案:获取大于预设阈值的文件数量,进而确定大于预设阈值的文件数量所占全部文件数量的数量比例值;根据所述数量比例值所处的数量比例范围,进而分别确定树形索引结构存储空间、文件直接索引结构存储空间对应的分配比例,使得存储空间分配更加合理,存储更加高效。
通过以下方案:获取大于预设阈值的文件访问次数,进而确定大于预设阈值的文件访问次数所占全部文件总访问次数的访问比例值;根据所述访问比例值所处的访问比例范围,进而分别确定树形索引结构存储空间、文件直接索引结构存储空间对应的分配比例,使得存储空间分配更加合理,存储更加高效。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文件数据组织管理方法,其特征在于,包括以下步骤:
获取文件比例特征信息,进而确定树形索引结构存储空间、文件直接索引结构存储空间的分配;
根据待存储文件类型,将所述待存储文件分配至对应的树形索引结构存储空间、文件直接索引结构存储空间。
2.根据权利要求1所述的方法,其特征在于,所述文件比例特征信息包括数量比例值、访问比例值。
3.根据权利要求2所述的方法,其特征在于,获取大于预设阈值的文件数量,进而确定大于预设阈值的文件数量所占全部文件数量的数量比例值;
根据所述数量比例值所处的数量比例范围,进而分别确定树形索引结构存储空间、文件直接索引结构存储空间对应的分配比例。
4.根据权利要求3所述的方法,其特征在于,文件管理服务器存储数量比例范围及存储空间分配比例对照表。
5.根据权利要求2所述的方法,其特征在于,获取大于预设阈值的文件访问次数,进而确定大于预设阈值的文件访问次数所占全部文件总访问次数的访问比例值;
根据所述访问比例值所处的访问比例范围,进而分别确定树形索引结构存储空间、文件直接索引结构存储空间对应的分配比例。
6.根据权利要求5所述的方法,其特征在于,文件管理服务器存储访问比例范围及存储空间分配比例对照表。
7.根据权利要求1所述的方法,其特征在于,根据待存储文件类型,将所述文件分配至对应的树形索引结构存储空间、文件直接索引结构存储空间的过程为:
若所述文件类型为大文件即大于预设阈值的文件,则将所述大于预设阈值的文件存储至树形索引结构存储空间;
若所述文件类型为小文件即小于或等于预设阈值的文件,则将所述小于或等于预设阈值的文件存储至文件直接索引结构存储空间。
8.一种文件管理服务器,其特征在于,包括获取模块、存储空间分配模块、存储模块;其中,所述获取模块通过所述存储空间分配模块与所述存储模块相连;
所述获取模块,用于获取文件比例特征信息并将所述文件比例特征信息发送至所述存储空间分配模块;
所述存储空间分配模块,用于确定树形索引结构存储空间、文件直接索引结构存储空间的分配并将分配结果发送至所述存储模块;
所述存储模块,用于根据待存储文件类型,将所述待存储文件分配至对应的树形索引结构存储空间、文件直接索引结构存储空间。
9.根据权利要求8所述的文件管理服务器,其特征在于,所述文件比例特征信息包括数量比例值、访问比例值。
10.根据权利要求8所述的文件管理服务器,其特征在于,所述存储模块,用于存储数量比例范围及存储空间分配比例对照表、访问比例范围及存储空间分配比例对照表。
CN201510516015.8A 2015-08-20 2015-08-20 一种文件数据组织管理方法及文件管理服务器 Pending CN105138632A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510516015.8A CN105138632A (zh) 2015-08-20 2015-08-20 一种文件数据组织管理方法及文件管理服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510516015.8A CN105138632A (zh) 2015-08-20 2015-08-20 一种文件数据组织管理方法及文件管理服务器

Publications (1)

Publication Number Publication Date
CN105138632A true CN105138632A (zh) 2015-12-09

Family

ID=54723980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510516015.8A Pending CN105138632A (zh) 2015-08-20 2015-08-20 一种文件数据组织管理方法及文件管理服务器

Country Status (1)

Country Link
CN (1) CN105138632A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019208A (zh) * 2017-11-14 2019-07-16 中国移动通信有限公司研究院 一种数据迁移方法、装置和介质
CN112583904A (zh) * 2020-12-04 2021-03-30 北京百度网讯科技有限公司 文件上传方法、装置、设备以及存储介质
CN113094374A (zh) * 2021-04-27 2021-07-09 广州炒米信息科技有限公司 分布式存储和检索方法、装置及计算机设备
CN114817200A (zh) * 2022-05-06 2022-07-29 安徽森江人力资源服务有限公司 一种基于物联网的文档数据云端管理方法、系统及储存介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510524B1 (en) * 2007-03-29 2013-08-13 Netapp, Inc. File system capable of generating snapshots and providing fast sequential read access
CN103714013A (zh) * 2013-12-31 2014-04-09 华为技术有限公司 一种文件系统的存储空间的配置方法及装置
CN104111804A (zh) * 2014-06-27 2014-10-22 暨南大学 一种分布式文件系统
CN104346357A (zh) * 2013-07-29 2015-02-11 中国科学院声学研究所 一种嵌入式终端的文件存取方法及系统
CN104408091A (zh) * 2014-11-11 2015-03-11 清华大学 分布式文件系统的数据存储方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510524B1 (en) * 2007-03-29 2013-08-13 Netapp, Inc. File system capable of generating snapshots and providing fast sequential read access
CN104346357A (zh) * 2013-07-29 2015-02-11 中国科学院声学研究所 一种嵌入式终端的文件存取方法及系统
CN103714013A (zh) * 2013-12-31 2014-04-09 华为技术有限公司 一种文件系统的存储空间的配置方法及装置
CN104111804A (zh) * 2014-06-27 2014-10-22 暨南大学 一种分布式文件系统
CN104408091A (zh) * 2014-11-11 2015-03-11 清华大学 分布式文件系统的数据存储方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019208A (zh) * 2017-11-14 2019-07-16 中国移动通信有限公司研究院 一种数据迁移方法、装置和介质
CN112583904A (zh) * 2020-12-04 2021-03-30 北京百度网讯科技有限公司 文件上传方法、装置、设备以及存储介质
CN113094374A (zh) * 2021-04-27 2021-07-09 广州炒米信息科技有限公司 分布式存储和检索方法、装置及计算机设备
CN114817200A (zh) * 2022-05-06 2022-07-29 安徽森江人力资源服务有限公司 一种基于物联网的文档数据云端管理方法、系统及储存介质
CN114817200B (zh) * 2022-05-06 2024-04-05 新疆利丰智能科技股份有限公司 一种基于物联网的文档数据云端管理方法、系统及储存介质

Similar Documents

Publication Publication Date Title
CN100468402C (zh) 一种数据存储及查询方法
CN102880705B (zh) 数据库主键生成装置和数据库主键生成方法
CN106294190B (zh) 一种存储空间管理方法及装置
CN102968498B (zh) 数据处理方法及装置
CN110168529B (zh) 数据存储方法、装置和存储介质
CN104063487B (zh) 基于关系型数据库及k‑d树索引的文件数据管理方法
CN102648468B (zh) 表检索装置、表检索方法以及表检索系统
CN105138632A (zh) 一种文件数据组织管理方法及文件管理服务器
CN102033882B (zh) 一种性能数据的存储方法及系统
CN102402602A (zh) 一种实时数据库的b+树索引方法及装置
CN103246700A (zh) 基于HBase的海量小文件低延时存储方法
CN105512229A (zh) 一种ip地址的地域信息的存储、查询方法及装置
CN103488685A (zh) 一种基于分布式存储系统的碎片文件存储方法
CN109271449A (zh) 一种基于文件的分布式存储查询系统及查询方法
CN105117442A (zh) 一种基于概率的大数据查询方法
CN104486777A (zh) 一种实现数据处理的方法及装置
CN103455335A (zh) 一种多级分类的Web实现方法
CN108153776A (zh) 数据查询方法及装置
CN104462577A (zh) 一种数据存储方法及装置
CN104615490A (zh) 一种数据转换的方法及装置
CN103279489A (zh) 一种元数据的存储方法、装置
CN106131115A (zh) 基于云端通讯录的通讯录数据自动发布和更新系统
CN107273443A (zh) 一种基于大数据模型元数据的混合索引方法
CN110781101A (zh) 一种一对多映射关系的存储方法、装置、电子设备及介质
CN105630702A (zh) 一种逻辑卷创建方法与系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151209

RJ01 Rejection of invention patent application after publication