CN101989999B - 一种分布式环境中的分级存储系统 - Google Patents
一种分布式环境中的分级存储系统 Download PDFInfo
- Publication number
- CN101989999B CN101989999B CN201010540729A CN201010540729A CN101989999B CN 101989999 B CN101989999 B CN 101989999B CN 201010540729 A CN201010540729 A CN 201010540729A CN 201010540729 A CN201010540729 A CN 201010540729A CN 101989999 B CN101989999 B CN 101989999B
- Authority
- CN
- China
- Prior art keywords
- client agent
- module
- network storage
- storage unit
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种分布式环境中的分级存储系统,包括至少一个策略服务器、至少两种不同性能的网络存储单元以及至少两个客户端代理;客户端代理为用户提供访问分级存储系统的接口;策略服务器将担当客户端代理与网络存储单元之间的桥梁,管理网络存储单元和客户端代理,并选择客户端代理进行数据迁移操作,将数据按照热度的不同,分布在不同性能的网络存储单元上。本发明可以解决现有网络存储中的诸多问题。通过分级管理,可以在性能和成本之间做出最好的平衡,此外,通过设定优化的策略规则,能使重要数据和常用数据在最短时间内访问到,使极少使用的数据备份在成本较低的存储器中。因此,提高了客户端代理的访问性能,以及存储资源的整体性能。
Description
技术领域
本发明涉及一种网络存储技术,更具体的说,涉及一种分布式环境中的分级存储系统。
背景技术
随着互联网以及相关的各种网络应用飞速发展,网络上的信息资源呈爆炸性增长趋势,通过网络进行传输的信息量不断膨胀。信息技术的飞速发展,推动了信息存储的巨大需求。无疑,这造成了对于存储系统的容量需求的大幅度增长。
在传统的数据存储方式下,用户通过客户机的本地磁盘系统存储数据,或通过局域网服务器在与服务器相连的中心存储系统中存储数据。在这种方式下,随着数据存储需求的不断增大,对所述本地磁盘系统或所述中心存储系统的容量要求也越来越大,这将导致本地磁盘系统或所述中心存储系统的硬件不断升级,同时也为所述数据存储系统的维护工作带来繁重的负担。
此外,为了实现对各式各样的信息进行保护、共享、管理、备份和恢复工作,企业面对各式各样的软件和工具去完成这些繁琐而复杂的任务。人力、物力和财力开销巨大,企业所受的压力越来越大,信息管理成为信息技术应用的一个巨大的挑战,成为企业亟待解决的问题。
随着信息价值所发生的变化,有必要将信息转移到不同的联机存储介质上,以最低的成本提供适当级别的保护、复制和恢复。对许多企业来讲,它们面对的信息管理挑战不仅仅是由于信息增长过快,而且信息比以前更具有价值,信息的价值随着时间在逐步变化。这就对企业提出了诸多要求:可扩展的管理资源;以最优的费用获得对关键信息资产的访问和保护,按照信息的价值实施不同的信息管理策略。
发明内容
本发明的目的在于提供一种分布式环境中的分级存储系统,该系统提高了客户端代理的访问性能,以及存储资源的整体性能。
本发明提供的一种分布式环境中的分级存储系统,其特征在于,该系统包括至少一个策略服务器、至少两种不同性能的网络存储单元以及至少两个客户端代理;
所述网络存储单元为分级存储系统提供存储设备;
所述客户端代理为用户提供访问分级存储系统的接口;
所述策略服务器将担当客户端代理与网络存储单元之间的桥梁,一方面,管理网络存储单元和客户端代理;另一方面,选择客户端代理进行数据迁移操作,将数据按照热度的不同,分布在不同性能的网络存储单元上。
本发明方法可以解决现有网络存储中的诸多问题,如:硬件升级带来的资源管理相对复杂;磁盘中存储的大部分数据访问率并不高,仍占用磁盘空间,导致存储性能下降。通过分级管理,可以在性能和成本之间做出最好的平衡,此外,通过设定优化的策略规则,能使重要数据和常用数据在最短时间内访问到,使极少使用的数据备份在成本较低的存储器中。因此,提高了客户端代理的访问性能,以及存储资源的整体性能。
附图说明
图1为本发明系统的结构示意图;
图2为本发明系统的工作流程图;
图3为策略服务器工作流程图。
具体实施方式
以下将通过具体实施例对本发明的目的及特征进行详细说明,这些实施例是说明性的,不具有限制性。
本实例所基于的系统结构包括至少一个策略服务器、至少两种不同性能的网络存储单元以及至少两个客户端代理(性能指由于网络存储单元的硬件差别,具有不同的读写速度等)。所述策略服务器将担当客户端代理与网络存储单元之间的桥梁,一方面,管理网络存储单元和客户端代理;另一方面,使用所述的策略,使满足策略规则的客户端代理进行数据迁移操作,将数据按照热度(热度是指对负载信息进行分析,经过适当计算,得到的表征访问负载信息的一个综合值)的不同,分布在不同性能的网络存储单元上,以提高客户端代理的访问性能和网络存储单元的性能。当有多个网络存储单元时,所述的网络存储单元可以为物理上分离的网络存储单元,并且通常所述的网络存储单元可以是使用不同的磁盘技术,由不同的服务提供商提供。网络存储单元为分级存储系统提供存储设备。客户端代理为用户提供访问分级存储系统的接口。
策略服务器包括登记模块、负载接收模块、负载分析模块、心跳检测模块和策略服务模块。
登记模块用于登记客户端代理和网络存储单元的注册工作。网络存储单元向策略服务器申请注册后,登记模块将网络存储单元的注册信息进行登记,将登记过的网络存储单元加入存储池。客户端代理向策略服务器注册后,策略服务器登记客户端代理的注册信息,并根据客户端代理的注册信息,为客户端代理分配合适性能和容量的存储设备,并将分配的存储设备的相关信息发送给客户端代理。
网络存储单元的注册信息包括:设备名称、设备IP地址、设备容量、设备存储性能、设备可用性。客户端代理的注册信息包括:客户端代理IP地址、预计容量、预计设备性能。
负载接收模块是策略服务器与客户端代理之间的接口,接收客户端代理的负载信息。客户端代理的负载信息包括:随机访问/顺序访问,读/写,数据传输率、数据传输量。
负载分析模块用于周期性地对负载接收模块收集的客户端代理的负载信息进行整理,为策略服务模块制定迁移策略提供客户端代理的负载信息。
执行过程为:
对于负载接收模块接收到的每条客户端代理的负载信息:按以下公式计算客户端代理热度:
Ti(n)=η*Ti(n-1)+(1-η)*(i1*αi(n)+i2*βi(n)+i3*γi(n)+i4*δi(n))(1)
其中,i表示客户端代理的序号,Ti(n)为客户端代理i在第n次分析过程中的热度,Ti(n-1)为第n-1次分析时的热度,η为热度历史参数,i1,i2,i3,i4为热度参数,αi为客户端代理i的随机访问/顺序访问的比率,βi为客户端代理i的读/写的比率,γi为客户端代理i的数据传输率,δi为客户端代理i的数据传输量。其中Ti(0)=0,引入历史参数η,是为了对客户端代理的负载信息的分析,采用统计的方式进行,这样,可以有效判断某个时间周期内的热数据,而不是某一次或某几次的热数据,可以提高系统的稳定性。公式(1)中,1+i2+i3+i4=1,0<η<1,0<i1<1,0<i2<1,0<i3<1,0<i4<1。η较大时,则对历史数据依赖性较大。η,i1,i2,i3,i4的取值可以根据具体情况进行预先设定。实例中,η=0.8,i1=0.4,i2=0.1,i3=0.1,i4=0.4。
公式(2)为高阈值H(n)的计算公式,其中,μ为公式(2)中的历史参数,τ为高阈值参数,H(0)=0。公式(2)中,0<μ<1,0<τ<1,μ较大时,则对历史数据依赖性较大。通常,0<τ<0.5,0.5<μ<1。其中,μ,τ的值可以根据具体情况进行预先设定。实例中,μ=0.8,τ=0.3
公式(3)为低阈值L(n)的计算公式,其中,μ为公式(3)中的历史参数,为低阈值参数,L(0)=0。公式(3)中,0<μ<1,0<τ<1,μ较大时,则对历史数据依赖性较大。通常,0<τ<0.5,0.5<μ<1。其中,μ,τ的值可以根据具体情况进行预先设定。实例中,μ=0.8,τ=0.3。
在第一次对客户端代理负载信息进行分析时,将所有客户按照热度值进行降序排列。考虑到分布式环境中客户端代理比较多时,对所有客户端代理的热度进行排队,会成为一件比较耗时且耗策略服务器性能的事,所以,为了减小工作量,除了第一次分析外,只对Ti(n)>H(n)的客户端代理进行向上迁移的队列排序,构成向上迁移队列;对Ti(n)<L(n)的客户端代理进行向下迁移的队列排序,构成向下迁移队列。
心跳检测模块是策略服务器与网络存储单元之间的接口,周期性的检测所有网络存储单元的心跳信息,以判断网络存储单元的当前状态,如果是可用的,将网络存储单元的心跳信息进行更新,如果是不可用的,将该网络存储单元在策略服务器中删除。为策略服务模块提供网络存单元的心跳信息。
策略服务模块是策略服务器的核心模块,根据负载分析模块和心跳检测模块的数据结果,以及策略规则,制定分级策略,确定要执行迁移操作的客户端代理,向客户端代理发送迁移命令。
(1)第一次执行时,遍历负载分析模块整理过的客户端代理信息链表,对于Ti(n)>H(n)的客户端代理启动向上迁移,对于Ti(n)<L(n)的客户端代理启动向下迁移。
以后,对向上迁移队列中的客户端代理启动向上迁移的管理操作,对向下迁移队列中的客户端代理启动向下迁移的管理操作。
(2)周期性监测网络存储资源的心跳,如果有新插入的网络存储单元,并且性能比当前最热数据所在的网络存储单元的性能高,则将当前的热数据向上迁移到新插入的网络存储单元,以保证在线数据得到最佳的访问性能。向拥有热数据的客户端代理启动向上迁移。
同时,客户端代理包括初始化模块,访问模块,负载收集模块和迁移模块。
初始化模块向策略服务器进行注册,在接收到策略服务器为客户端代理分配的存储设备信息后,完成客户端代理的其它初始化工作。
访问模块用于初始化工作完成后,提供用户访问分级存储系统的接口。
负载收集模块针对用户的访问特征,来收集一段时间内(根据分布式系统的规模,确定时间长度。实例中将时间段设置为24h)的客户端负载信息。客户端代理的负载信息包括:随机访问/顺序访问,读/写,数据传输率、数据传输量。
迁移模块用于在接收到策略服务器的迁移命令后,执行迁移命令。
网络存储单元包括初始化模块和心跳特征模块。
初始化模块用于向策略服务器注册,并完成网络存储单元的初始化工作。
心跳特征模块用于周期性检查本网络存储单元的状态,以判断该网络存储单元是否可用。如果是活动的,即为可用,否则,为不可用。
下面说明本发明系统的工作过程:
(1)网络存储单元向策略服务器注册,同时,网络存储单元周期性的向策略服务器发送心跳信息。同时,网络存储资源可以在线插入,而不影响客户端代理的正常访问。
(2)策略服务器登记已注册的网络存储单元,将其加入存储池(存储池由所有已注册登记的网络存储单元形成)。同时,策略服务器周期性的检测网络存储资源的心跳信息,判断网络存储单元是否可用,另外,将可不用的网络存储单元从存储池中进行删除。
(3)客户端代理向策略服务器注册。
(4)策略服务器登记已注册的客户端代理,根据客户端代理注册信息中的预计容量和预计设备性能,将存储池中满足条件的网络存储单元分配给客户端代理。如果,当前存储池中没有预计设备性能的网络存储单元,或是满足预计设备性能的网络存储单元的容量总和小于预计容量,则策略服务器向客户端代理发送资源不可用的消息。
(5)客户端代理利用分配的网络存储单元进行数据的读写访问。负载收集模块对负载信息进行收集,同时周期性的将收集到的负载信息发送给策略服务器。
(6)策略服务器周期性的对客户端代理负载信息进行分析,统计客户端代理的热度;
策略服务器在第一次对客户端代理负载信息进行分析时,将所有客户按照热度值进行降序排列,遍历链表,对于Ti(n)>=H(n)的客户端代理启动向上迁移,对于Ti(n)<=L(n)的客户端代理启动向下迁移。同时,策略服务器周期性监测网络存储资源的心跳,如果有新插入的网络存储单元,并且性能比当前最热数据所在的网络存储单元的性能高,则将当前的最热数据向上迁移到新插入的网络存储单元,以保证在线数据得到最佳的访问性能。
(7)客户端代理在接收到策略服务器的迁移命令后,迁移模块执行数据迁移操作。
因此,从上述的实施例可以看出,通过本发明的分布式存储环境,可以解决现有存储领域中的一些问题,如,硬件升级带来的资源管理相对复杂;磁盘中存储的大部分数据访问率并不高,仍占用磁盘空间,导致存储性能下降等问题,并且通过本发明,可以使分布式环境中的资源管理变的更加简单,同时,使热数据分布在高性能的网络存储单元中,提高了客户端代理的访问性能。
以上所述为本发明的较佳实施例而已,但本发明不应该局限于该实施例所公开的内容。所以凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
Claims (3)
1.一种分布式环境中的分级存储系统,其特征在于,该系统包括至少一个策略服务器、至少两种不同性能的网络存储单元以及至少两个客户端代理;
所述网络存储单元为分级存储系统提供存储设备;
所述客户端代理为用户提供访问分级存储系统的接口;
所述策略服务器将担当客户端代理与网络存储单元之间的桥梁,一方面,管理网络存储单元和客户端代理;另一方面,选择客户端代理进行数据迁移操作,将数据按照热度的不同,分布在不同性能的网络存储单元上;
所述策略服务器包括登记模块、负载接收模块、负载分析模块、心跳检测模块和策略服务模块;
登记模块用于登记客户端代理和网络存储单元的注册工作,将登记过的网络存储单元加入存储池,为客户端代理分配合适性能和容量的存储设备,并将分配的存储设备的相关信息发送给客户端代理;
负载接收模块是策略服务器与客户端代理之间的接口,它接收客户端代理的负载信息,并提供给负载分析模块,客户端代理的负载信息包括:随机访问/顺序访问、读/写、数据传输率以及数据传输量;
负载分析模块用于周期性地对负载接收模块收集的客户端代理的负载信息进行整理,为策略服务模块制定迁移策略,提供客户端代理的负载信息;
心跳检测模块是策略服务器与网络存储单元之间的接口,周期性的检测所有网络存储单元的心跳信息,以判断网络存储单元的当前状态,并为策略服务模块提供网络存储单元的心跳信息;
策略服务模块根据负载分析模块和心跳检测模块的数据结果,以及策略规则,制定分级策略,确定要执行迁移操作的客户端代理,向客户端代理发送迁移命令;策略服务模块还周期性监测网络存储单元的心跳,如果有新插入的网络存储单元,并且性能比当前最热数据所在的网络存储单元的性能高,则将当前的热数据向上迁移到新插入的网络存储单元,以保证在线数据得到最佳的访问性能;向拥有热数据的客户端代理启动向上迁移;
负载分析模块按在第一次对客户端代理负载信息进行分析时,将所有客户按照热度Ti(n)值进行降序排列;之后只对Ti(n)>H(n)的客户端代理进行向上迁移的队列排序,构成向上迁移队列;对Ti(n)<L(n)的客户端代理进行向下迁移的队列排序,构成向下迁移队列;
Ti(n)=η*Ti(n-1)+(1-η)*(i1*αi(n)+i2*βi(n)+i3*γi(n)+i4*δi(n)) 式I
式I中,i表示客户端代理的序号,Ti(n)为客户端代理i在第n次分析过程中的热度,Ti(n-1)为第n-1次分析时的热度,η为热度历史参数,i1,i2,i3,i4为热度参数,αi为客户端代理i的随机访问/顺序访问的比率,βi为客户端代理i的读/写的比率,γi为客户端代理i的数据传输率,δi为客户端代理i的数据传输量;其中Ti(0)=0;
式II中,μ为式II中的历史参数,τ为高阈值参数,H(0)=0;
2.根据权利要求1所述的分布式环境中的分级存储系统,其特征在于,所述客户端代理包括初始化模块,访问模块,负载收集模块和迁移模块;
初始化模块向策略服务器进行注册,在接收到策略服务器为客户端代理分配的存储设备信息后,完成客户端代理的其它初始化工作;
访问模块用于初始化工作完成后,提供用户访问分级存储系统的接口;
负载收集模块针对用户的访问特征,收集一段时间内的客户端代理的负载信息,客户端代理的负载信息包括随机访问/顺序访问、读/写、数据传输率以及数据传输量;
迁移模块用于在接收到策略服务器的迁移命令后,执行迁移命令。
3.根据权利要求1所述的分布式环境中的分级存储系统,其特征在于,所述网络存储单元包括初始化模块和心跳特征模块;
初始化模块用于向策略服务器注册,并完成网络存储单元的初始化工作;
心跳特征模块用于周期性检查本网络存储单元的状态,以判断该网络存储单元是否可用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010540729A CN101989999B (zh) | 2010-11-12 | 2010-11-12 | 一种分布式环境中的分级存储系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010540729A CN101989999B (zh) | 2010-11-12 | 2010-11-12 | 一种分布式环境中的分级存储系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101989999A CN101989999A (zh) | 2011-03-23 |
CN101989999B true CN101989999B (zh) | 2012-09-26 |
Family
ID=43746339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010540729A Active CN101989999B (zh) | 2010-11-12 | 2010-11-12 | 一种分布式环境中的分级存储系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101989999B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258028A (zh) * | 2013-05-08 | 2013-08-21 | 林凡 | 一种基于内容特征的视频分级分区存储系统 |
CN103605728B (zh) * | 2013-11-18 | 2016-10-12 | 浪潮(北京)电子信息产业有限公司 | 一种数据分级存储方法及系统 |
CN103605483A (zh) * | 2013-11-21 | 2014-02-26 | 浪潮电子信息产业股份有限公司 | 一种分级存储系统中块级数据特征处理方法 |
CN103631931B (zh) * | 2013-12-06 | 2017-11-03 | 浪潮(北京)电子信息产业有限公司 | 一种数据分级存储方法及系统 |
CN104731794B (zh) * | 2013-12-19 | 2018-07-06 | 北京华易互动科技有限公司 | 一种冷热数据分片挖掘存储方法 |
CN104917788A (zh) * | 2014-03-11 | 2015-09-16 | 中国移动通信集团公司 | 一种数据存储方法及装置 |
CN104102557B (zh) * | 2014-06-27 | 2017-11-10 | 武汉理工大学 | 一种基于聚类的云计算平台数据备份方法 |
CN105302676B (zh) * | 2014-07-28 | 2018-03-27 | 浙江大华技术股份有限公司 | 一种分布式文件系统的主备机制数据传输方法及装置 |
CN104462577B (zh) * | 2014-12-29 | 2018-04-13 | 北京奇艺世纪科技有限公司 | 一种数据存储方法及装置 |
US9832277B2 (en) * | 2015-11-13 | 2017-11-28 | Western Digital Technologies, Inc. | Systems and methods for adaptive partitioning in distributed cache memories |
CN107852344B (zh) | 2016-04-29 | 2021-03-30 | 华为技术有限公司 | 存储网元发现方法及装置 |
CN109284258A (zh) * | 2018-08-13 | 2019-01-29 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于hdfs的分布式多级存储系统及方法 |
CN109088794A (zh) * | 2018-08-20 | 2018-12-25 | 郑州云海信息技术有限公司 | 一种节点的故障监测方法和装置 |
CN109815207A (zh) * | 2018-12-28 | 2019-05-28 | 深圳市安云信息科技有限公司 | 数据存储方法和客户端代理 |
CN111427844B (zh) * | 2020-04-15 | 2023-05-19 | 成都信息工程大学 | 一种面向文件分级存储的数据迁移系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753405A (zh) * | 2008-12-02 | 2010-06-23 | 北京空中信使信息技术有限公司 | 集群服务器内存管理方法及其系统 |
CN101799797A (zh) * | 2010-03-05 | 2010-08-11 | 中国人民解放军国防科学技术大学 | 分布式存储系统中用户磁盘配额的动态分配方法 |
-
2010
- 2010-11-12 CN CN201010540729A patent/CN101989999B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753405A (zh) * | 2008-12-02 | 2010-06-23 | 北京空中信使信息技术有限公司 | 集群服务器内存管理方法及其系统 |
CN101799797A (zh) * | 2010-03-05 | 2010-08-11 | 中国人民解放军国防科学技术大学 | 分布式存储系统中用户磁盘配额的动态分配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101989999A (zh) | 2011-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101989999B (zh) | 一种分布式环境中的分级存储系统 | |
CN100465900C (zh) | 信息系统、负载控制方法、负载控制程序和记录媒体 | |
CN103970587B (zh) | 一种资源调度的方法、设备和系统 | |
CN103023938B (zh) | 一种服务器集群的服务能力控制方法和系统 | |
CN101662495B (zh) | 备份方法、主服务器、备份服务器以及备份系统 | |
CN102208991A (zh) | 一种日志处理方法、设备和系统 | |
US20200052993A1 (en) | Methods and Systems that Diagnose and Manage Undesirable Operational States of Computing Facilities | |
CN102571772A (zh) | 一种元数据服务器热点均衡方法 | |
CN104380263A (zh) | 备份图像复制 | |
CN103139302A (zh) | 考虑负载均衡的实时副本调度方法 | |
CN104679591A (zh) | 用于在云环境中进行资源分配的方法和装置 | |
CN103595805A (zh) | 一种基于分布式集群的数据放置方法 | |
CN111381928B (zh) | 一种虚拟机迁移方法、云计算管理平台和存储介质 | |
CN1979483A (zh) | 文件系统、存储系统以及用于提供文件系统的方法 | |
CN101137984A (zh) | 用于分布加载数据库的系统、方法和软件 | |
CN102629934A (zh) | 基于分布式存储系统的数据存储方法及装置 | |
CN106815254A (zh) | 一种数据处理方法和装置 | |
CN103500213A (zh) | 基于预读取的页面热点资源更新方法和装置 | |
CN107422989A (zh) | 一种Server SAN系统多副本读取方法及存储架构 | |
CN111694518A (zh) | 一种集群扩容或缩容后数据自动迁移的方法、装置、设备 | |
CN111582850A (zh) | 基于手机银行的电费充值方法及装置 | |
CN101394347A (zh) | 一种业务数据管理方法和系统 | |
WO2013013203A1 (en) | Redirecting information | |
CN117574422A (zh) | 一种基于共识算法的智能合约区块链处理方法及系统 | |
EP2838023A2 (en) | Centralised information reporting in a large scale information processing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |