CN104598495A - 基于分布式文件系统的分级存储方法及系统 - Google Patents

基于分布式文件系统的分级存储方法及系统 Download PDF

Info

Publication number
CN104598495A
CN104598495A CN201310537559.3A CN201310537559A CN104598495A CN 104598495 A CN104598495 A CN 104598495A CN 201310537559 A CN201310537559 A CN 201310537559A CN 104598495 A CN104598495 A CN 104598495A
Authority
CN
China
Prior art keywords
data
level storage
storage pool
rule
storage rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310537559.3A
Other languages
English (en)
Inventor
周扬
赵培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing ZTE New Software Co Ltd
Original Assignee
Nanjing ZTE New Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing ZTE New Software Co Ltd filed Critical Nanjing ZTE New Software Co Ltd
Priority to CN201310537559.3A priority Critical patent/CN104598495A/zh
Publication of CN104598495A publication Critical patent/CN104598495A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分布式文件系统的分级存储方法及系统。其中,该方法包括:获取预定周期内针对分布式文件系统的输入输出IO操作信息;根据预定的分级存储规则对IO操作信息进行归纳处理操作,得到归纳结果,其中,分级存储规则包括:高级存储规则和低级存储规则;根据归纳结果,将系统中符合高级存储规则的数据存储到高级别存储池,将系统中符合低级存储规则的数据存储到低级别存储池;在高级别存储池中存储的第一数据符合低级存储规则的情况下,将第一数据迁移到低级别存储池,在低级别存储池中存储的第二数据符合高级存储规则的情况下,将第二数据迁移到高级别存储池。通过本发明,达到了提高分布式文件系统的存储性能和可靠性的效果。

Description

基于分布式文件系统的分级存储方法及系统
技术领域
本发明涉及通信领域,具体而言,涉及一种基于分布式文件系统的分级存储方法及系统。
背景技术
随着云计算云存储技术的发展,处理和存储大规模的数据对存储系统提出了新的需求,对于传统专用的存储架构(比如SAN,NAS等)由于其成本昂贵,已经不适合在大范围部署。这样情况下,采用普通PC机或者通用服务器刀片组织起来的可扩展的、低成本的分布式存储方法受到了关注,这种分布式存储通常需要一个分布式文件系统将分散的存储资源统一管理起来,分布式文件系统通常将元数据和实际存储数据分开存储,为了保证系统可靠性,实际数据通常同时保存在多个节点上。
近年来出现了以GFS(Google File System,谷歌文件系统)等为代表的分布式文件系统,其架构如图1所示(图1是根据相关技术的分布式文件系统的架构示意图)。分布式文件系统作为云存储的一种重要技术架构目前在开源领域得到迅猛发展,例如,Hadoop的HDFS分布式文件存储系统,但开源领域对分布式文件存储系统的高级存储特性支持还比较欠缺,例如,去重、压缩、精简配置及分级存储等功能特性目前都尚未得到支持。在工业领域中,以IBM、EMC、NetApp等存储厂商为代表,他们在传统的磁盘阵列(块存储)方面都有很强的技术积累和代表性的产品,高端的磁盘阵列产品都实现了精简配置、分级存储等功能特性,另外,他们也大多具有NAS产品,然而,这些功能在分布式文件存储系统领域都比较欠缺,落后于开源领域的发展,例如,IBM的GPFS分布式文件存储是从老的虚拟磁盘文件系统演变而来的,其分级存储功能是通过定期扫描系统元数据方式进行数据移动,实时性比较差;NetApp的文件系统声称支持分级存储则是将高性能存储介质用作缓存(Cache)的方式支持分级。
随着数据爆炸时代的到来,大数据目前成为热点被广泛关注,数据的规模越来越大,但如此大规模数据中的很多数据都是低价值、很少访问的数据,如何区分数据的重要性将重要的数据放在性能和可靠性高的存储介质上(SSD硬盘),将很少访问的价值不高的数据存放到普通存储介质上(SATA硬盘),从而充分发挥存储系统的效能,显然,如何做到将“好钢用到刀刃上”是存储系统在大数据时代面临的新的问题。而分布式文件存储系统作为云存储或大数据存储的重要支撑技术,其支持分级存储功能是迫切需求,目前以Hadoop大数据处理平台为代表的开源技术尚不完善,传统存储设备厂商对分布式文件系统产品支持还处于比较弱的阶段,基于分布式文件存储系统实现分级功能将对提升大数据存储系统的性能来说具有重要意义。
由此可以看出,当前分布式文件系统技术无法做到对大数据的区分价值对待而导致存储成本较高,可靠性较低。
针对相关技术中无法做到对大数据的区分价值对待而导致存储成本较高,可靠性较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明提供了一种基于分布式文件系统的分级存储方法及系统,以至少解决无法做到对大数据的区分价值对待而导致存储成本较高,可靠性较低的问题。
根据本发明的一个方面,提供了一种基于分布式文件系统的分级存储方法,包括:获取预定周期内针对分布式文件系统的输入输出(IO)操作信息;根据预定的分级存储规则对IO操作信息进行归纳处理操作,得到归纳结果,其中,分级存储规则包括:高级存储规则和低级存储规则;根据归纳结果,将系统中符合高级存储规则的数据存储到高级别存储池,将系统中符合低级存储规则的数据存储到低级别存储池;在高级别存储池中存储的第一数据符合低级存储规则的情况下,将第一数据迁移到低级别存储池,在低级别存储池中存储的第二数据符合高级存储规则的情况下,将第二数据迁移到高级别存储池。
优选地,分级存储规则的制定基础包括:文件大小、数据访问时间、文件统计属性、数据存储时间长度以及数据未访问时间长度;归纳处理操作包括:数据分析、数据排序以及数据统计。
优选地,IO操作信息是由客户端截获对系统的所有读写请求并记录缓存在本地后,再周期性上报给元数据服务器的。
优选地,在进行数据迁移过程之前,还包括:将IO操作信息与系统的历史综合信息作比对,根据比对结果和分级存储规则制定数据迁移计划;当数据迁移计划生效时,向高级别存储池和低级别存储池下发迁移指令。
优选地,在根据预定的分级存储规则对IO操作信息进行归纳处理操作之前,还包括:判断是否满足对IO操作信息进行归纳处理操作的预定触发条件,在判断结果为是的情况下,执行归纳处理操作,其中,预定触发条件包括:数据存储的预定时长,高级别存储池的预定剩余空间或数据访问的预定频率。
优选地,高级别存储池包括:固态硬盘SSD;低级别存储池包括:SATA硬盘。
根据本发明的另一方面,提供了一种基于分布式文件系统的分级存储系统,包括:获取模块,用于获取预定周期内针对分布式文件系统的输入输出(IO)操作信息;归纳模块,用于根据预定的分级存储规则对IO操作信息进行归纳处理操作,得到归纳结果,其中,分级存储规则包括:高级存储规则和低级存储规则;存储模块,用于根据归纳结果,将系统中符合高级存储规则的数据存储到高级别存储池,将系统中符合低级存储规则的数据存储到低级别存储池;迁移模块,用于在高级别存储池中存储的第一数据符合低级存储规则的情况下,将第一数据迁移到低级别存储池,在低级别存储池中存储的第二数据符合高级存储规则的情况下,将第二数据迁移到高级别存储池。
优选地,分级存储规则的制定基础包括:文件大小、数据访问时间、文件统计属性、数据存储时间长度以及数据未访问时间长度;归纳处理操作包括:数据分析、数据排序以及数据统计。
优选地,IO操作信息是由客户端截获对系统的所有读写请求并记录缓存在本地后,再周期性上报给元数据服务器的。
优选地,该系统还包括:处理模块,用于将IO操作信息与系统的历史综合信息作比对,根据比对结果和分级存储规则制定数据迁移计划;下发模块,用于当数据迁移计划生效时,向高级别存储池和低级别存储池下发迁移指令。
优选地,该系统还包括:判断模块,用于判断是否满足对IO操作信息进行归纳处理操作的预定触发条件,在判断结果为是的情况下,执行归纳处理操作,其中,预定触发条件包括:数据存储的预定时长,高级别存储池的预定剩余空间或数据访问的预定频率。
优选地,高级别存储池包括:固态硬盘SSD;低级别存储池包括:SATA硬盘。
通过本发明,采用根据预定的高级存储规则和低级存储规则对IO操作信息进行归纳之后,将符合高级存储规则的数据存储到高级别存储池,将符合低级存储规则的数据存储到低级别存储池的方式,使分布式文件系统能够自动按照存储价值区分存储数据并将存储价值高的数据迁移到高性能、高可靠性的存储介质上,解决了相关技术中无法做到对大数据的区分价值对待而导致存储成本较高,可靠性较低的问题,进而达到了提高分布式文件系统的存储性能和可靠性的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据相关技术的分布式文件系统的架构示意图;
图2是图1中分布式文件系统的客户端200的结构示意图;
图3是图1中分布式文件系统的元数据服务器300的结构示意图;
图4是图1中分布式文件系统的数据服务器400的结构示意图;
图5是根据图1中分布式文件系统进行读写流程的示意图;
图6是根据本发明实施例的基于分布式文件系统的分级存储方法流程图;
图7是根据本发明实施例的基于分布式文件系统的分级存储系统的结构框图;
图8是根据本发明实施例的优选基于分布式文件系统的分级存储系统的结构框图;
图9是根据本发明优选实施例的分布式文件系统的架构示意图;
图10是图9中分布式文件系统的客户端200'的结构示意图;
图11是图9中分布式文件系统的元数据服务器300'的结构示意图;
图12是图9中分布式文件系统的数据服务器400'的结构示意图;
图13是根据图9中分布式文件系统进行内部读流程的示意图;
图14是根据图9中分布式文件系统进行数据迁移的示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在对本发明的实施例进行详细描述之前,为了更好的理解本发明的实施例与现有分布式文件系统进行数据存储流程之间的区别,首先对现有分布式文件系统的架构和现有分布式文件系统进行数据存储流程进行介绍:
图1是根据相关技术的分布式文件系统的架构示意图,图1示出了一种类似GFS的典型分布式文件系统系统的架构,如图1所示,该系统包括:客户端200,元数据服务器(集群)300,数据服务器(集群)400,相互之间通过告诉网络101、102、103互联。其中,
客户端200负责向使用存储系统的应用提供调用接口(例如,可以是POSIX、NFS/CIFS、iSCSI、FTP等存储标准接口,也可以是自定义私有接口)。图2是图1中分布式文件系统的客户端200的结构示意图,如图2所示,客户端200主要包括:接口模块和通信模块。其中,接口模块负责为应用提供不同的访问接口功能;通信模块负责将接口请求转化为网络命令后分别发送到元数据服务器300和数据服务器400,和从元数据服务器300和数据服务器400接受消息后转发给接口模块。
元数据服务器300负责管理分布式文件系统的元数据信息。图3是图1中分布式文件系统的元数据服务器300的结构示意图,如图3所示,其管理的内容包括:文件命名空间、文件的数据块存放的位置、文件与其构成的各个数据块映射关系等,还可以用心跳信息周期地跟每个数据服务器400进行通讯,给它们以指示并收集它们的状态,以便发现异常的数据服务器。另外,元数据服务器300还负责管理系统范围内的活动,例如,块租用管理和孤儿块的垃圾回收等。
数据服务器400负责具体数据的存储,以及向客户端200提供数据读写服务。图4是图1中分布式文件系统的数据服务器400的结构示意图,如图4所示,数据服务器400包括:本地存储空间管理模块负责管理本地的存储磁盘空间;数据读写服务模块负责向200提供数据读写服务;心跳检测模块负责与300交互上报状态信息;数据可靠性管理模块负责保证数据的可靠,例如,通过CRC校验或与其他数据服务器400节点协作的方式完成多副本读写等;本地缓存模块为了提高读写性能等。
图5是根据图1中分布式文件系统进行读写流程的示意图,如图5所示,该分布式文件系统的读写流程包括以下步骤:
①应用App向客户端200发起一个读请求,指定了文件名和读取的字节范围;
②客户端200将文件名和字节范围的请求转换成文件名和块句柄,并把转换后的请求发给元数据服务器300;
③元数据服务器300将块句柄和该块所在各个副本的位置返回给客户端200;
④客户端200选择一个较近的数据服务器400,向数据服务器400发送数据读取请求,携带块句柄和字节范围信息;
⑤数据服务器400向客户端200发送数据;
⑥客户端200转发数据给应用App。
以下将结合上述对现有分布式文件系统的架构和现有分布式文件系统进行数据存储流程的描述,对本发明实施例进行描述。
本发明实施例主要涉及云计算云存储领域,尤其涉及存储管理方面的智能存储数据迁移技术。通过本实施例提供的基于分布式文件系统的分级存储方法和系统,能够使分布式文件系统自动地将重要数据(如经常被访问数据)迁移到高性能高可靠存储介质上,从而提升分布式文件系统整体的性能和可靠性。
本发明实施例提供了一种基于分布式文件系统的分级存储方法。图6是根据本发明实施例的基于分布式文件系统的分级存储方法流程图,如图6所示,该方法主要包括以下步骤(步骤S602-步骤S608):
步骤S602,获取预定周期内针对分布式文件系统的输入输出IO操作信息;
步骤S604,根据预定的分级存储规则对IO操作信息进行归纳处理操作,得到归纳结果,其中,分级存储规则包括:高级存储规则和低级存储规则;
步骤S606,根据归纳结果,将系统中符合高级存储规则的数据存储到高级别存储池,将系统中符合低级存储规则的数据存储到低级别存储池;
步骤S608,在高级别存储池中存储的第一数据符合低级存储规则的情况下,将第一数据迁移到低级别存储池,在低级别存储池中存储的第二数据符合高级存储规则的情况下,将第二数据迁移到高级别存储池。
通过上述各个步骤,可以根据预定的高级存储规则和低级存储规则对IO操作信息进行归纳,并将符合高级存储规则的数据存储到高级别存储池,将符合低级存储规则的数据存储到低级别存储池,达到了提高分布式文件系统的存储性能和可靠性的效果。
在本实施例中,分级存储规则的制定基础可以包括:文件大小、数据访问时间、文件统计属性、数据存储时间长度以及数据未访问时间长度;归纳处理操作可以包括:数据分析、数据排序以及数据统计。
在本实施例中,IO操作信息是由客户端截获对系统的所有读写请求并记录缓存在本地后,再周期性上报给元数据服务器的。
在本实施例中,在进行数据迁移过程之前,还可以将IO操作信息与系统的历史综合信息作比对,根据比对结果和分级存储规则制定数据迁移计划;当数据迁移计划生效时,向高级别存储池和低级别存储池下发迁移指令。
在本实施例中,在执行步骤S604之前,还可以判断是否满足对IO操作信息进行归纳处理操作的预定触发条件,在判断结果为是的情况下,执行归纳处理操作,其中,预定触发条件包括:用于保存接收到的IO操作信息的缓存已满,或预定时长到达。
在本实施例中,高级别存储池可以包括:固态硬盘(SSD);低级别存储池包括:SATA硬盘。
本发明实施例提供了一种基于分布式文件系统的分级存储系统。图7是根据本发明实施例的基于分布式文件系统的分级存储系统的结构框图,该系统用以实现上述实施例提供的基于分布式文件系统的分级存储方法,如图7所示,该系统主要包括:获取模块10,归纳模块20、存储模块30以及迁移模块40。
其中,获取模块10,用于获取预定周期内针对分布式文件系统的输入输出(IO)操作信息;归纳模块20,用于根据预定的分级存储规则对IO操作信息进行归纳处理操作,得到归纳结果,其中,分级存储规则包括:高级存储规则和低级存储规则;存储模块30,用于根据归纳结果,将系统中符合高级存储规则的数据存储到高级别存储池,将系统中符合低级存储规则的数据存储到低级别存储池;迁移模块40,用于在高级别存储池中存储的第一数据符合低级存储规则的情况下,将第一数据迁移到低级别存储池,在低级别存储池中存储的第二数据符合高级存储规则的情况下,将第二数据迁移到高级别存储池。
图8是根据本发明实施例的优选基于分布式文件系统的分级存储系统的结构框图,如图8所示,该优选基于分布式文件系统的分级存储系统还可以包括:处理模块50,用于将IO操作信息与系统的历史综合信息作比对,根据比对结果和分级存储规则制定数据迁移计划;下发模块60,用于当数据迁移计划生效时,向高级别存储池和低级别存储池下发迁移指令。
在本实施例中,该优选系统还可以包括:判断模块70,连接于获取模块10和归纳模块20之间,用于判断是否满足对IO操作信息进行归纳处理操作的预定触发条件,在判断结果为是的情况下,执行归纳处理操作,其中,预定触发条件包括:数据存储的预定时长,高级别存储池的预定剩余空间或数据访问的预定频率。
在本实施例中,分级存储规则的制定基础可以包括:文件大小、数据访问时间、文件统计属性、数据存储时间长度以及数据未访问时间长度;归纳处理操作包括:数据分析、数据排序以及数据统计。
在本实施例中,IO操作信息是由客户端截获对系统的所有读写请求并记录缓存在本地后,再周期性上报给元数据服务器的。
在图7和图8所示的系统中,高级别存储池可以包括:固态硬盘SSD;低级别存储池包括:SATA硬盘。
采用上述实施例提供的基于分布式文件系统的分级存储方法及系统,根据预定的高级存储规则和低级存储规则对IO操作信息进行归纳,并将符合高级存储规则的数据存储到高级别存储池,将符合低级存储规则的数据存储到低级别存储池,使分布式文件系统能够自动按照存储价值区分存储数据并将存储价值高的数据迁移到高性能、高可靠性的存储介质上,达到了提高分布式文件系统的存储性能和可靠性的效果。
下面结合图9至图14以及优选实施例对上述基于分布式文件系统的分级存储方法及系统的实施过程和结构进行更加详细的描述和说明。
图9是根据本发明优选实施例的分布式文件系统的架构示意图,如图9所示,该系统包括:客户端200'、元数据服务器300'及数据服务器400',需要说明的是,数据服务器400'内部的数据服务器分为两类,一类是高级别存储池(图中以两个阴影区域表示,例如SSD存储);另一类是低级别存储池(图中以三个非阴影区域表示,例如普通SATA存储)。这两类数据服务器的物理介质虽然有所差别,但运行于这两类数据服务器上的软件流程是一样的,用于运行流程的各个模块的功能与图1所述的分布式文件系统的数据服务器400中各个模块的功能是相同的。下面分别描述每个模块的不同之处。
图10是图9中分布式文件系统的客户端200'的结构示意图,如图10所示,客户端200'在图1中的客户端200的基础上增加了IO截获模块、IO缓存模块以及IO上报模块。其中,IO截获模块负责对系统的所有读写请求进行截获,并将截获的读写请求按照某种格式保存下来(记录的格式可能是文件标识或数据块标识,操作类型读或写等信息的组合),通过IO缓存模块存储,缓存的数据可以通过某种条件触发(触发条件可以是缓存已满或一定时长达到),条件达到时,可以通过IO上报模块将缓存的IO请求记录上报到元数据服务器300',当然,上报动作不一定是立即针对每一个截获的操作请求发起,为了避免频繁的上报操作对系统和网络造成压力,完全可以在客户端200'完成缓存之后批量上报。
图11是图9中分布式文件系统的元数据服务器300'的结构示意图,如图11所示,元数据服务器300'在图1中的元数据服务器300的基础上增加了策略配置模块、IO记录收集模块、分析决策模块、迁移计划管理模块及迁移执行模块。其中,策略配置模块与管理操作门户500'交互,系统管理员通过管理操作门户500'配置分布式文件系统的分级策略规则,分级策略规则可以基于文件本身的大小、访问时间等属性,也可以基于文件统计属性(例如,读写次数达到100次触发迁移),也可以基于未访问的时间长度,例如,自动将2周没有访问的数据从高级别存储池迁移到低级别存储池等;IO记录收集模块负责收集来自客户端200'的IO记录信息并保存下来;分析决策模块负责对收集到的IO操作信息做分析、排序及统计等,与策略配置生成的策略规则关联决定是否生效,对于生效的规则将生成迁移命令,将迁移命令下达到迁移计划管理模块;迁移计划管理模块将根据系统的繁忙情况和空间利用情况等管理迁移任务的触发;而迁移执行模块则负责从迁移管理模块中取一个具体迁移任务,协调控制迁移参与者两个数据服务器400'之间做数据迁移。对于系统的各个数据服务器400'的繁忙情况和空间占用等信息而言,可以通过单独的状态收集模块从数据服务器400'获取,也可以通过心跳检测模块周期性地从数据服务器400'获取。
图12是图9中分布式文件系统的数据服务器400'的结构示意图,如图9所示,数据服务器400'在图1中的数据服务器400的基础上增加了信息收集模块和迁移执行模块。其中,信息收集负责收集本地节点的CPU、网络、内存及磁盘等繁忙信息和空间占用率等信息;迁移执行模块负责执行来自元数据服务器300'下发的迁移命令,并与另一个数据服务器400'协作完成数据的迁移过程。
需要说明的是,图9所示系统的组成部分引入分级存储功能之后增加的模块和功能并未对图1所示系统的访问接口产生任何改变,并不影响用户通过应用使用分布式文件系统的体验。
图13是根据图9中分布式文件系统进行内部读流程的示意图(该流程同图5所示的流程相比在系统内部运行时存在差异),如图9所示,该流程包括以下步骤:
①应用App向客户端200'发起一个读请求,指定了文件名和读取的字节范围;
②客户端200'将文件名和字节范围的请求转换成文件名和块句柄,并把转换后的请求发给元数据服务器300',与之前差异之处在于客户端200'内部请求被截获并记录缓存在本地,后续会周期性上报到元数据服务器300';
③元数据服务器300'将块句柄和该块所在各个副本的位置返回给客户端200',与之前差异之处在于元数据服务器300'记录了数据在高级存储或低级别存储池,而元数据服务器300则无高级低级别存储池区分;
④客户端200'按照元数据服务器300'的指示选择一个数据服务器400',向数据服务器400'发送数据读取请求,携带块句柄和字节范围信息;
⑤数据服务器400'向客户端200'发送数据;
⑥客户端200'转发数据给应用App。
在引入了分级存储功能之后,系统会定期收集各个客户端200'缓存的IO记录信息,并在元数据服务器300'中进行分析,触发迁移策略后下达迁移指令给数据服务器400',数据服务器400'完成迁移过程。
图14是根据图9中分布式文件系统进行数据迁移的示意图,如图14所示,该流程包括以下步骤:
①周期性,客户端200'向元数据服务器300'上报IO记录信息;
②元数据服务器300'汇总来自多个客户端200'的信息后,与历史信息综合处理,可能做智能的数据分析,不限于统计和排序等,然后结合系统的分级策略生成迁移计划;
③当迁移计划的任务生效时,元数据服务器300'会向涉及任务的两个数据服务器400'发起迁移请求(图中的两个数据服务器400'分别是A和B,其中A为高级存储,B为低级存储);
④A和B接收到迁移指令后,相互协作完成迁移;
⑤迁移成功后,A和B向元数据服务器300'应答迁移成功。
通过本优选实施例提供的技术方案,可以克服现有分布式文件系统技术中存在的对海量数据无法区分价值对待的缺陷,相对于现有分布式文件系统技术,提高了系统整体性能、节省了存储成本、提高了存储可靠性。
需要说明的是,上述各个模块是可以通过硬件来实现的。例如:一种处理器,包括上述各个模块,或者,上述各个模块分别位于一个处理器中。
在另外一个实施例中,还提供了一种软件,该软件用于执行上述实施例及优选实施方式中描述的技术方案。
在另外一个实施例中,还提供了一种存储介质,该存储介质中存储有上述软件,该存储介质包括但不限于:光盘、软盘、硬盘、可擦写存储器等。
从以上的描述中,可以看出,本发明实现了如下技术效果:采用根据预定的高级存储规则和低级存储规则对IO操作信息进行归纳之后,将符合高级存储规则的数据存储到高级别存储池,将符合低级存储规则的数据存储到低级别存储池的方式,使分布式文件系统能够自动按照存储价值区分存储数据并将存储价值高的数据迁移到高性能、高可靠性的存储介质上,解决了相关技术中无法做到对大数据的区分价值对待而导致存储成本较高,可靠性较低的问题,进而达到了提高分布式文件系统的存储性能和可靠性的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种基于分布式文件系统的分级存储方法,其特征在于,包括:
获取预定周期内针对分布式文件系统的输入输出IO操作信息;
根据预定的分级存储规则对所述IO操作信息进行归纳处理操作,得到归纳结果,其中,所述分级存储规则包括:高级存储规则和低级存储规则;
根据所述归纳结果,将系统中符合所述高级存储规则的数据存储到高级别存储池,将系统中符合所述低级存储规则的数据存储到低级别存储池;
在所述高级别存储池中存储的第一数据符合所述低级存储规则的情况下,将所述第一数据迁移到所述低级别存储池,在所述低级别存储池中存储的第二数据符合所述高级存储规则的情况下,将所述第二数据迁移到所述高级别存储池。
2.根据权利要求1所述的方法,其特征在于,
所述分级存储规则的制定基础包括:文件大小、数据访问时间、文件统计属性、数据存储时间长度以及数据未访问时间长度;
所述归纳处理操作包括:数据分析、数据排序以及数据统计。
3.根据权利要求1所述的方法,其特征在于,所述IO操作信息是由客户端截获对系统的所有读写请求并记录缓存在本地后,再周期性上报给元数据服务器的。
4.根据权利要求3所述的方法,其特征在于,在进行数据迁移过程之前,还包括:
将所述IO操作信息与系统的历史综合信息作比对,根据比对结果和分级存储规则制定数据迁移计划;
当所述数据迁移计划生效时,向所述高级别存储池和所述低级别存储池下发迁移指令。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在根据预定的分级存储规则对所述IO操作信息进行归纳处理操作之前,还包括:
判断是否满足对所述IO操作信息进行归纳处理操作的预定触发条件,在判断结果为是的情况下,执行所述归纳处理操作,其中,所述预定触发条件包括:数据存储的预定时长,高级别存储池的预定剩余空间或数据访问的预定频率。
6.根据权利要求5所述的方法,其特征在于,
所述高级别存储池包括:固态硬盘SSD;
所述低级别存储池包括:SATA硬盘。
7.一种基于分布式文件系统的分级存储系统,其特征在于,包括:
获取模块,用于获取预定周期内针对分布式文件系统的输入输出IO操作信息;
归纳模块,用于根据预定的分级存储规则对所述IO操作信息进行归纳处理操作,得到归纳结果,其中,所述分级存储规则包括:高级存储规则和低级存储规则;
存储模块,用于根据所述归纳结果,将系统中符合所述高级存储规则的数据存储到高级别存储池,将系统中符合所述低级存储规则的数据存储到低级别存储池;
迁移模块,用于在所述高级别存储池中存储的第一数据符合所述低级存储规则的情况下,将所述第一数据迁移到所述低级别存储池,在所述低级别存储池中存储的第二数据符合所述高级存储规则的情况下,将所述第二数据迁移到所述高级别存储池。
8.根据权利要求7所述的系统,其特征在于,
所述分级存储规则的制定基础包括:文件大小、数据访问时间、文件统计属性、数据存储时间长度以及数据未访问时间长度;
所述归纳处理操作包括:数据分析、数据排序以及数据统计。
9.根据权利要求7所述的系统,其特征在于,所述IO操作信息是由客户端截获对系统的所有读写请求并记录缓存在本地后,再周期性上报给元数据服务器的。
10.根据权利要求9所述的系统,其特征在于,所述系统还包括:
处理模块,用于将所述IO操作信息与系统的历史综合信息作比对,根据比对结果和分级存储规则制定数据迁移计划;
下发模块,用于当所述数据迁移计划生效时,向所述高级别存储池和所述低级别存储池下发迁移指令。
11.根据权利要求7至10中任一项所述的系统,其特征在于,所述系统还包括:
判断模块,用于判断是否满足对所述IO操作信息进行归纳处理操作的预定触发条件,在判断结果为是的情况下,执行所述归纳处理操作,其中,所述预定触发条件包括:数据存储的预定时长,高级别存储池的预定剩余空间或数据访问的预定频率。
12.根据权利要求11所述的系统,其特征在于,
所述高级别存储池包括:固态硬盘SSD;
所述低级别存储池包括:SATA硬盘。
CN201310537559.3A 2013-10-31 2013-10-31 基于分布式文件系统的分级存储方法及系统 Pending CN104598495A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310537559.3A CN104598495A (zh) 2013-10-31 2013-10-31 基于分布式文件系统的分级存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310537559.3A CN104598495A (zh) 2013-10-31 2013-10-31 基于分布式文件系统的分级存储方法及系统

Publications (1)

Publication Number Publication Date
CN104598495A true CN104598495A (zh) 2015-05-06

Family

ID=53124285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310537559.3A Pending CN104598495A (zh) 2013-10-31 2013-10-31 基于分布式文件系统的分级存储方法及系统

Country Status (1)

Country Link
CN (1) CN104598495A (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104780228A (zh) * 2015-05-09 2015-07-15 北京银信长远科技股份有限公司 提升网络内容服务器效率的方法
CN105138476A (zh) * 2015-08-26 2015-12-09 广东创我科技发展有限公司 一种基于hadoop异构存储的数据存储方法及系统
CN105260377A (zh) * 2015-09-01 2016-01-20 浪潮(北京)电子信息产业有限公司 一种基于分级存储的升级方法和系统
CN105404471A (zh) * 2015-11-03 2016-03-16 国云科技股份有限公司 一种分布式云存储高速缓存层实现方法
CN105447182A (zh) * 2015-12-11 2016-03-30 芜湖乐锐思信息咨询有限公司 一种基于数据库的数据存储系统
CN105447086A (zh) * 2015-11-06 2016-03-30 深圳市网心科技有限公司 文件存储方法及实现该存储方法的服务器
CN105528431A (zh) * 2015-12-11 2016-04-27 博康智能网络科技股份有限公司 一种基于分布式系统的海量交通数据快速处理方法
CN106302634A (zh) * 2016-07-25 2017-01-04 乐视控股(北京)有限公司 一种数据迁移方法和系统
CN106484712A (zh) * 2015-08-27 2017-03-08 北京易车互联信息技术有限公司 分布式文件系统的数据存储方法及装置
WO2017143957A1 (zh) * 2016-02-26 2017-08-31 华为技术有限公司 一种数据重分布的方法及装置
CN107196962A (zh) * 2017-06-30 2017-09-22 郑州云海信息技术有限公司 一种用户访问控制方法及系统
CN107291889A (zh) * 2017-06-20 2017-10-24 郑州云海信息技术有限公司 一种数据存储方法及系统
CN107580060A (zh) * 2017-09-14 2018-01-12 商客通尚景科技江苏有限公司 一种移动端分库缓存方法
CN107784108A (zh) * 2017-10-31 2018-03-09 郑州云海信息技术有限公司 一种数据存储管理方法、装置及设备
CN107844258A (zh) * 2016-09-18 2018-03-27 中国移动通信集团公司 数据处理方法、客户端、节点服务器及分布式文件系统
CN108170789A (zh) * 2017-12-27 2018-06-15 郑州云海信息技术有限公司 一种基于分布式文件系统的分级存储方法以及相关装置
WO2018113317A1 (zh) * 2016-12-22 2018-06-28 华为技术有限公司 数据的迁移方法、装置和系统
CN108363727A (zh) * 2018-01-10 2018-08-03 链家网(北京)科技有限公司 一种基于zfs文件系统的数据存储方法及装置
CN108874316A (zh) * 2018-06-06 2018-11-23 郑州云海信息技术有限公司 存储资源集中管理的方法、装置、设备及可读存储介质
CN108965378A (zh) * 2018-05-29 2018-12-07 郑州云海信息技术有限公司 一种io模式识别方法、系统、设备及计算机存储介质
CN109165208A (zh) * 2018-07-26 2019-01-08 佛山市甜慕链客科技有限公司 一种用于将数据加载到数据库中的方法及系统
CN109284258A (zh) * 2018-08-13 2019-01-29 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于hdfs的分布式多级存储系统及方法
CN110046082A (zh) * 2019-04-15 2019-07-23 苏州浪潮智能科技有限公司 一种io特征信息处理方法、获取方法及相关装置
CN110764953A (zh) * 2019-09-30 2020-02-07 浪潮电子信息产业股份有限公司 一种数据恢复方法、装置、设备及可读存储介质
CN110895520A (zh) * 2018-09-12 2020-03-20 华为技术有限公司 一种文件迁移方法、相关装置及设备
CN111026337A (zh) * 2019-12-30 2020-04-17 中科星图股份有限公司 一种基于机器学习和ceph思想的分布式储存方法
CN111208934A (zh) * 2018-11-21 2020-05-29 华为技术有限公司 一种数据存储方法及装置
CN112307040A (zh) * 2020-10-23 2021-02-02 北京锐安科技有限公司 一种数据状态处理方法、装置、设备及存储介质
CN112565410A (zh) * 2020-12-05 2021-03-26 李凡 一种基于分布式存储技术的移动通信存储管理系统
CN113835616A (zh) * 2020-06-23 2021-12-24 华为技术有限公司 应用的数据管理方法、系统和计算机设备
CN117193656A (zh) * 2023-02-27 2023-12-08 自然资源部信息中心 一种数据分级存储迁移流程方法

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104780228A (zh) * 2015-05-09 2015-07-15 北京银信长远科技股份有限公司 提升网络内容服务器效率的方法
CN105138476A (zh) * 2015-08-26 2015-12-09 广东创我科技发展有限公司 一种基于hadoop异构存储的数据存储方法及系统
CN105138476B (zh) * 2015-08-26 2017-11-28 广东创我科技发展有限公司 一种基于hadoop异构存储的数据存储方法及系统
CN106484712A (zh) * 2015-08-27 2017-03-08 北京易车互联信息技术有限公司 分布式文件系统的数据存储方法及装置
CN105260377B (zh) * 2015-09-01 2019-02-12 浪潮(北京)电子信息产业有限公司 一种基于分级存储的升级方法和系统
CN105260377A (zh) * 2015-09-01 2016-01-20 浪潮(北京)电子信息产业有限公司 一种基于分级存储的升级方法和系统
CN105404471A (zh) * 2015-11-03 2016-03-16 国云科技股份有限公司 一种分布式云存储高速缓存层实现方法
CN105404471B (zh) * 2015-11-03 2018-06-12 国云科技股份有限公司 一种分布式云存储高速缓存层实现方法
CN105447086A (zh) * 2015-11-06 2016-03-30 深圳市网心科技有限公司 文件存储方法及实现该存储方法的服务器
CN105528431B (zh) * 2015-12-11 2019-05-14 新智认知数据服务有限公司 一种基于分布式系统的海量交通数据快速处理方法
CN105447182A (zh) * 2015-12-11 2016-03-30 芜湖乐锐思信息咨询有限公司 一种基于数据库的数据存储系统
CN105528431A (zh) * 2015-12-11 2016-04-27 博康智能网络科技股份有限公司 一种基于分布式系统的海量交通数据快速处理方法
WO2017143957A1 (zh) * 2016-02-26 2017-08-31 华为技术有限公司 一种数据重分布的方法及装置
CN106302634A (zh) * 2016-07-25 2017-01-04 乐视控股(北京)有限公司 一种数据迁移方法和系统
CN107844258A (zh) * 2016-09-18 2018-03-27 中国移动通信集团公司 数据处理方法、客户端、节点服务器及分布式文件系统
WO2018113317A1 (zh) * 2016-12-22 2018-06-28 华为技术有限公司 数据的迁移方法、装置和系统
CN107291889A (zh) * 2017-06-20 2017-10-24 郑州云海信息技术有限公司 一种数据存储方法及系统
CN107196962B (zh) * 2017-06-30 2020-05-29 郑州云海信息技术有限公司 一种用户访问控制方法及系统
CN107196962A (zh) * 2017-06-30 2017-09-22 郑州云海信息技术有限公司 一种用户访问控制方法及系统
CN107580060A (zh) * 2017-09-14 2018-01-12 商客通尚景科技江苏有限公司 一种移动端分库缓存方法
CN107784108A (zh) * 2017-10-31 2018-03-09 郑州云海信息技术有限公司 一种数据存储管理方法、装置及设备
CN108170789A (zh) * 2017-12-27 2018-06-15 郑州云海信息技术有限公司 一种基于分布式文件系统的分级存储方法以及相关装置
CN108363727A (zh) * 2018-01-10 2018-08-03 链家网(北京)科技有限公司 一种基于zfs文件系统的数据存储方法及装置
CN108965378A (zh) * 2018-05-29 2018-12-07 郑州云海信息技术有限公司 一种io模式识别方法、系统、设备及计算机存储介质
CN108965378B (zh) * 2018-05-29 2021-08-10 郑州云海信息技术有限公司 一种io模式识别方法、系统、设备及计算机存储介质
CN108874316A (zh) * 2018-06-06 2018-11-23 郑州云海信息技术有限公司 存储资源集中管理的方法、装置、设备及可读存储介质
CN109165208A (zh) * 2018-07-26 2019-01-08 佛山市甜慕链客科技有限公司 一种用于将数据加载到数据库中的方法及系统
CN109165208B (zh) * 2018-07-26 2020-12-15 佛山市电子政务科技有限公司 一种用于将数据加载到数据库中的方法及系统
CN109284258A (zh) * 2018-08-13 2019-01-29 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于hdfs的分布式多级存储系统及方法
CN110895520A (zh) * 2018-09-12 2020-03-20 华为技术有限公司 一种文件迁移方法、相关装置及设备
CN110895520B (zh) * 2018-09-12 2022-04-22 华为技术有限公司 一种文件迁移方法、相关装置及设备
CN111208934A (zh) * 2018-11-21 2020-05-29 华为技术有限公司 一种数据存储方法及装置
CN111208934B (zh) * 2018-11-21 2021-07-09 华为技术有限公司 一种数据存储方法及装置
US11550486B2 (en) 2018-11-21 2023-01-10 Huawei Technologies Co., Ltd. Data storage method and apparatus
CN110046082A (zh) * 2019-04-15 2019-07-23 苏州浪潮智能科技有限公司 一种io特征信息处理方法、获取方法及相关装置
CN110764953A (zh) * 2019-09-30 2020-02-07 浪潮电子信息产业股份有限公司 一种数据恢复方法、装置、设备及可读存储介质
CN111026337A (zh) * 2019-12-30 2020-04-17 中科星图股份有限公司 一种基于机器学习和ceph思想的分布式储存方法
CN113835616A (zh) * 2020-06-23 2021-12-24 华为技术有限公司 应用的数据管理方法、系统和计算机设备
CN112307040A (zh) * 2020-10-23 2021-02-02 北京锐安科技有限公司 一种数据状态处理方法、装置、设备及存储介质
CN112307040B (zh) * 2020-10-23 2023-11-07 北京锐安科技有限公司 一种数据状态处理方法、装置、设备及存储介质
CN112565410A (zh) * 2020-12-05 2021-03-26 李凡 一种基于分布式存储技术的移动通信存储管理系统
CN112565410B (zh) * 2020-12-05 2022-10-14 南京鼎山信息科技有限公司 一种基于分布式存储技术的移动通信存储管理系统
CN117193656A (zh) * 2023-02-27 2023-12-08 自然资源部信息中心 一种数据分级存储迁移流程方法

Similar Documents

Publication Publication Date Title
CN104598495A (zh) 基于分布式文件系统的分级存储方法及系统
US12013856B2 (en) Burst performance of database queries according to query size
CN107169083B (zh) 公安卡口海量车辆数据存储与检索方法及装置、电子设备
US10684990B2 (en) Reconstructing distributed cached data for retrieval
US8943355B2 (en) Cloud data storage system
CN103152352B (zh) 一种基于云计算环境的全信息安全取证监听方法和系统
US10445208B2 (en) Tunable, efficient monitoring of capacity usage in distributed storage systems
EP3545431A1 (en) Event driven extract, transform, load (etl) processing
US20130117227A1 (en) Cache based key-value store mapping and replication
US10540095B1 (en) Efficient garbage collection for stable data
CN104731691A (zh) 动态调整分布式文件系统内文件副本数目的方法和系统
CN107145432B (zh) 一种建立模型数据库的方法以及客户端
US10838830B1 (en) Distributed log collector and report generation
US20180203612A1 (en) Adaptive storage reclamation
CN102104494B (zh) 元数据服务器、带外网络文件系统及其处理方法
AU2004285241B2 (en) Tracking space usage in a database
CN108205468A (zh) 一种面向海量视频图像的分布式系统及实现方法
CN110572364A (zh) 一种虚拟化环境中威胁告警的实现方法
CN112417050A (zh) 数据同步方法和装置、系统、存储介质及电子装置
US20200183829A1 (en) Ownership-based garbage collection of data
US20230004564A1 (en) Making decisions for placing data in a multi-tenant cache
US9223792B1 (en) Augmenting metadata collection for stored data analytics
Deng et al. pNFS-based software-defined storage for information lifecycle management
CA2918472C (en) A method and process for enabling distributing cache data sources for query processing and distributed disk caching of large data and analysis requests
CN117032596B (zh) 数据访问方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150506