CN109189331A - 一种动态数据布局方法 - Google Patents

一种动态数据布局方法 Download PDF

Info

Publication number
CN109189331A
CN109189331A CN201810900259.XA CN201810900259A CN109189331A CN 109189331 A CN109189331 A CN 109189331A CN 201810900259 A CN201810900259 A CN 201810900259A CN 109189331 A CN109189331 A CN 109189331A
Authority
CN
China
Prior art keywords
load
data
disk group
disk
disks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810900259.XA
Other languages
English (en)
Other versions
CN109189331B (zh
Inventor
刘靖宇
武优西
张晋荣
陈冀川
朱怀忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN201810900259.XA priority Critical patent/CN109189331B/zh
Publication of CN109189331A publication Critical patent/CN109189331A/zh
Application granted granted Critical
Publication of CN109189331B publication Critical patent/CN109189331B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0625Power saving in storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为一种动态数据布局方法,该方法采用一种组内磁盘数不同的分组方式,动态地对数据进行布局,在满足数据传输带宽要求下,实现节能的目的,克服了现有技术中由于物理设备级存储节能研究仅仅考虑单个磁盘的能耗的不足。因此,本发明能够有效提高存储系统的性能,非常适用于以写请求为主的存储系统,尤其适用于负载变化不是很大的存储系统,比如小城市视频监控系统,存档归案系统等。

Description

一种动态数据布局方法
技术领域
本发明涉及一种数据存储方法,特别是涉及一种动态数据布局的方法,属于数据存储领域。
背景技术
随着互联网的普及和飞速发展,数据总量呈几何级数增长趋势,对数据进行高效率的存储、管理和使用已经成为各行各业关注的重点,对于网络存储系统的各方面的要求都空前提高。随着网络存储技术的发展,网络信息存储系统在高可用性、高性能、可扩展性、低成本等方面得到了显著的提高,网络存储已成为计算机存储系统发展的必然趋势。存储需求的迅猛发展使工业界对磁盘容量,节能等方面提出了更高的要求,为此Chen P M等人提出了RAID技术(RAID:high-performance,reliable secondary storage[J].AcmComputing Surveys,1994,26(2):145-185.)。然而随着大数据的发展,传统RAID技术由于总开启固定数量的磁盘,在磁盘节能方面存在先天不足,对于负载会有变化的存储环境并不适应,基于此,本发明提出了一种动态数据布局的方法。
发明内容
本发明的目的在于针对传统RAID阵列在进行数据存储时能耗方面的局限性,提出一种动态的数据布局方法,降低数据存储时的能耗,节约整个存储系统的成本。
本发明是通过以下技术方案实现的:
一种动态数据布局方法,该方法的步骤是:
第一步、根据不同应用场合的负载情况及所拥有的数据盘总数量M,将整个RAID阵列中的数据盘分为N个磁盘组,每个磁盘组中数据盘的数量均不相同,将N个磁盘组按照数据盘数量从小到大依次排列,依次记为G0,G1,...,GN-1;同时为每个磁盘组设置磁盘组变化阈值,共有N-1个阈值,依次记为load0,load1,...,loadN-2,且load0<load1<load2<...<loadN-2,其中loadN-2不大于相应应用场合的负载最大值,load0大于相应应用场合的负载最小值;
第二步、判断当前的负载是否大于load(x)且小于load(x+1),其中x>=0且x<=N-1,找到当前负载所处的负载区间范围,并选定该区间范围所对应的磁盘组进行数据存储;即如果当前的负载大于load(x)且小于load(x+1),则选择磁盘组Gx进行数据存储;
第三步、将待存储数据按顺序依次存入第二步选定的磁盘组内,校验盘对存入的数据进行正常校验;
第四步、当负载发生变化时,根据第二步重新选择合适的磁盘组,并将变化后的数据存入该磁盘组内;
第五步、当所选定的磁盘组的存储空间用完后,从最早存入的数据依次回收空间,直到满足当前需要存储数据的要求为止。
与现有技术相比,本发明的有益效果是:
1)降低整个磁盘阵列的能耗。由于数据动态的在N个分组间进行循环存储,当带宽要求较低,数据传输率降低时,数据存入磁盘数相对较少的分组,此时组内并行的磁盘数减少,能耗降低。而传统的RAID底层布局是将所有磁盘都打开,这样即使在数据传输率低的时候能耗不会降低。
2)降低存储系统的冷却成本。本发明能够有效地降低存储设备的能耗,由此产生的热量也相应的降低,进而降低存储系统的冷却成本。
3)降低磁盘的故障率。因能耗降低,磁盘产生的热量也相应地减少,因此,带来磁盘温度的有效降低,使磁盘故障率降低,延长了磁盘的使用寿命。
本发明方法采用一种组内磁盘数不同的分组方式,动态地对数据进行布局,在满足数据传输带宽要求下,实现节能的目的,克服了现有技术中由于物理设备级存储节能研究仅仅考虑单个磁盘的能耗的不足。因此,本发明能够有效提高存储系统的性能,非常适用于以写请求为主的存储系统,尤其适用于负载变化不是很大的存储系统(系统最高负载不超过最低负载的10倍,负载量范围从100MB/S~1000MB/S),比如小城市视频监控系统,存档归案系统等。
附图说明
图1为传统RAID的底层布局图。
图2为3个磁盘组条件下本发明方法磁盘组及阈值的示意图。
图3为本发明实施例1中数据存储方式的示意图。
图4为本发明实施例1中的负载分布图。
具体实施方式
下面结合实施例及附图对本发明作进一步说明,但并不以此作为对本申请保护范围的限定。
图1为传统RAID的底层布局的示意图,图中共有六个数据盘D0~D5,一个校验盘P,将所有数据盘条带化,并将写入磁盘的连续数据分成很多小部分B0,0、B0,1、~、B5,n-1,并把这些连续数据依次存储到不同数据磁盘上去,形成n个条带stripe0~stripen-1,数据存储顺序如图1所示。
本发明动态数据布局方法,该方法的步骤是:
第一步、根据不同应用场合的负载情况及所拥有的数据盘总数量M,将整个RAID阵列中的数据盘分为N个磁盘组,每个磁盘组中数据盘的数量均不相同,将N个磁盘组按照数据盘数量从小到大依次排列,依次记为G0,G1,...,GN-1;同时为每个磁盘组设置磁盘组变化阈值,共有N-1个阈值,依次记为load0,load1,...,loadN-2,且load0<load1<load2<...<loadN-2,单位是(MB/S),其中loadN-2不大于相应应用场合的负载最大值,load0大于相应应用场合的负载最小值;
第二步、判断当前的负载是否大于load(x)且小于load(x+1),其中x>=0且x<=N-1,找到当前负载所处的负载区间范围,并选定该区间范围所对应的磁盘组进行数据存储;即如果当前的负载大于load(x)且小于load(x+1),则选择磁盘组Gx进行数据存储;
第三步、将待存储数据按顺序依次存入第二步选定的磁盘组内,校验盘对存入的数据进行正常校验;
第四步、当负载发生变化时,根据第二步重新选择合适的磁盘组,并将变化后的数据存入该磁盘组内;
第五步、当所选定的磁盘组的存储空间用完后,从最早存入的数据依次回收空间,直到满足当前需要存储数据的要求为止。
本发明中GN-1磁盘组的所有数据盘的最大传输速率之和不小于该应用场合的负载最大值,能够满足用户实时存储、且性能要求严格的情况。
本发明提出磁盘组的概念,根据不同应用场合的负载情况和此时存储系统拥有的磁盘总数量、成本,确定将数据盘分成几组合适及每个数据盘选择多大传输速率合适,根据负载分布情况如何设置阈值合适。相邻阈值之间可以是非等间距的,对于负载分布集中的区域,可以多设置几个邻近阈值,以提高存储系统的适应性。磁盘的传输速率越高越好,相应的磁盘存储速度也越快,相应的磁盘的成本较高。
本发明通过判断当前负载是否大于load(x)且小于load(x+1),(其中x>=0且x<=N-1),如果满足则选择磁盘组Gx为当前合适存储的磁盘组,这种方法称为选择磁盘组算法。选择磁盘组算法的作用是根据当前的存储负载和磁盘组变化阈值选择合适的磁盘组进行存储。
实施例1
假设某一存储系统传输速率的负载最小值为50MB/S,负载最大值为300MB/S,如图4所示。按照本实施例布局方法,根据上述负载波动的情况,选定最大传输速率为130MB/S的多个数据盘,进行数据存储,综合考虑传输性能及成本问题,本实施例选择7个磁盘组成存储系统,其中有6个数据盘(D0~D5),1个校验盘(P),将数据盘分为3个磁盘组,3个磁盘组分别记为G0,G1,G2。G0拥有1个数据盘,G1拥有2个数据盘,G2拥有3个数据盘。设置2个磁盘组变化阈值,分别记为load0和load1,load0为100MB/S,load1为200MB/S。当当前负载小于100MB/S时,选择G0组,当当前负载大于100MB/S且小于200MB/S时,选择G1组,当此时负载大于200MB/S时,选择G2组。
现在结合图3对本实施例方法进行解释:假设一开始存储负载为150MB/S,需要使用G1磁盘组存储,则数据按G1组图示箭头的方向从B0.0->B1.0->B0.1->B1.1->B0.2->B1.2->B0.3->B1.3的方向存入,此时负载变为250MB/S,则关闭G1磁盘组,打开G2磁盘组,数据从B2.0->B3.0->B4.0->B2.1->B3.1->B4.1->B2.2->B3.2->B4.2存入,此时负载变为50MB/S时,关闭G2磁盘组,打开G0磁盘组,数据从B5.0->B5.1->B5.2->B5.3……存入。依次类推。
如果只使用传统RAID存储布局,在图4负载需求下,为了满足高峰期存储数据的需求,需要4块磁盘组成RAID,其中3块数据盘,1块校验盘,这些磁盘始终处于开启状态。而本发明在存储高峰期的时候开启G2磁盘组和校验盘,开启4块磁盘。在存储低峰期的时候开启G0组和校验盘,只开启2块磁盘。在满足存储负载的情况下大大减少了磁盘的能耗。
本发明未述及之处适用于现有技术。

Claims (2)

1.一种动态数据布局方法,该方法的步骤是:
第一步、根据不同应用场合的负载情况及所拥有的数据盘总数量M,将整个RAID阵列中的数据盘分为N个磁盘组,每个磁盘组中数据盘的数量均不相同,将N个磁盘组按照数据盘数量从小到大依次排列,依次记为G0,G1,...,GN-1;同时为每个磁盘组设置磁盘组变化阈值,共有N-1个阈值,依次记为load0,load1,...,loadN-2,且load0<load1<load2<...<loadN-2,其中loadN-2不大于相应应用场合的负载最大值,load0大于相应应用场合的负载最小值;
第二步、判断当前的负载是否大于load(x)且小于load(x+1),其中x>=0且x<=N-1,找到当前负载所处的负载区间范围,并选定该区间范围所对应的磁盘组进行数据存储;即如果当前的负载大于load(x)且小于load(x+1),则选择磁盘组Gx进行数据存储;
第三步、将待存储数据按顺序依次存入第二步选定的磁盘组内,校验盘对存入的数据进行正常校验;
第四步、当负载发生变化时,根据第二步重新选择合适的磁盘组,并将变化后的数据存入该磁盘组内;
第五步、当所选定的磁盘组的存储空间用完后,从最早存入的数据依次回收空间,直到满足当前需要存储数据的要求为止。
2.根据权利要求1所述的动态数据布局方法,其特征在于,GN-1磁盘组的所有数据盘的最大传输速率之和不小于该应用场合的负载最大值。
CN201810900259.XA 2018-08-09 2018-08-09 一种动态数据布局方法 Expired - Fee Related CN109189331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810900259.XA CN109189331B (zh) 2018-08-09 2018-08-09 一种动态数据布局方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810900259.XA CN109189331B (zh) 2018-08-09 2018-08-09 一种动态数据布局方法

Publications (2)

Publication Number Publication Date
CN109189331A true CN109189331A (zh) 2019-01-11
CN109189331B CN109189331B (zh) 2021-08-17

Family

ID=64921074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810900259.XA Expired - Fee Related CN109189331B (zh) 2018-08-09 2018-08-09 一种动态数据布局方法

Country Status (1)

Country Link
CN (1) CN109189331B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023820A (zh) * 2010-12-01 2011-04-20 北京同有飞骥科技股份有限公司 一种双磁盘容错垂直型分组并行访问磁盘阵列的构建方法
CN102880428A (zh) * 2012-08-20 2013-01-16 华为技术有限公司 分布式独立磁盘冗余阵列的创建方法及装置
US20130145091A1 (en) * 2011-12-02 2013-06-06 Michael J. Klemm System and method for unbalanced raid management
US20170270018A1 (en) * 2016-03-21 2017-09-21 EMC IP Holding Company LLC Method and apparatus for rebuilding redundant array of independent disks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023820A (zh) * 2010-12-01 2011-04-20 北京同有飞骥科技股份有限公司 一种双磁盘容错垂直型分组并行访问磁盘阵列的构建方法
US20130145091A1 (en) * 2011-12-02 2013-06-06 Michael J. Klemm System and method for unbalanced raid management
CN104094254A (zh) * 2011-12-02 2014-10-08 康佩伦特科技公司 用于非平衡raid管理的系统和方法
CN102880428A (zh) * 2012-08-20 2013-01-16 华为技术有限公司 分布式独立磁盘冗余阵列的创建方法及装置
US20170270018A1 (en) * 2016-03-21 2017-09-21 EMC IP Holding Company LLC Method and apparatus for rebuilding redundant array of independent disks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘靖宇等: "S-RAID中基于连续数据特征的写优化策略", 《计算机学报》 *

Also Published As

Publication number Publication date
CN109189331B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN104850358B (zh) 一种磁光电混合存储系统及其数据获取和存储方法
CN102855294B (zh) 一种智能哈希数据布局方法、集群存储系统及其方法
CN111367469B (zh) 一种分层存储数据迁移方法和系统
CN104023088B (zh) 一种应用于分布式文件系统的存储服务器选择方法
CN104699424B (zh) 一种基于页面热度的异构内存管理方法
US8645730B2 (en) Systems and methods to improve power efficiency in hybrid storage clusters
CN101373445B (zh) 一种内存调度方法及装置
CN104317742A (zh) 一种优化空间管理的自动精简配置方法
CN100383792C (zh) 缓存数据库数据组织方法
CN104572502B (zh) 一种存储系统缓存策略自适应方法
CN103914516A (zh) 一种存储系统分层管理的方法与系统
CN105892947A (zh) 一种节能存储系统的ssd与hdd混合缓存管理方法及系统
CN110096350B (zh) 基于集群节点负载状态预测的冷热区域划分节能存储方法
CN107391398A (zh) 一种闪存缓存区的管理方法及系统
CN105393232B (zh) 控制存储器操作的方法和装置
CN102687112A (zh) 在分布式存储系统中管理文件的装置及方法
CN109033298A (zh) 一种在异构hdfs集群下的数据分配方法
CN110007870A (zh) 一种存储设备写请求处理方法及相关装置
CN102915340A (zh) 一种扩展的基于b+树对象文件系统
CN110362277A (zh) 基于混合存储系统的数据分类存储方法
CN107609140A (zh) 一种分布式文件系统目录文件访问的方法及装置
CN107340975A (zh) 一种文件存储的方法及装置
Chai et al. Efficient data migration to conserve energy in streaming media storage systems
CN104714898B (zh) 一种Cache的分配方法和装置
CN107193693A (zh) 一种基于存储系统的在线数据存储优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210817