CN103914516B - 一种存储系统分层管理的方法与系统 - Google Patents

一种存储系统分层管理的方法与系统 Download PDF

Info

Publication number
CN103914516B
CN103914516B CN201410064357.6A CN201410064357A CN103914516B CN 103914516 B CN103914516 B CN 103914516B CN 201410064357 A CN201410064357 A CN 201410064357A CN 103914516 B CN103914516 B CN 103914516B
Authority
CN
China
Prior art keywords
data
data object
accumulation
storage
access frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410064357.6A
Other languages
English (en)
Other versions
CN103914516A (zh
Inventor
张勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Toyou Feiji Electronics Co., Ltd.
Original Assignee
SHENZHEN ZHONGBO KECHUANG INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN ZHONGBO KECHUANG INFORMATION TECHNOLOGY Co Ltd filed Critical SHENZHEN ZHONGBO KECHUANG INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410064357.6A priority Critical patent/CN103914516B/zh
Publication of CN103914516A publication Critical patent/CN103914516A/zh
Application granted granted Critical
Publication of CN103914516B publication Critical patent/CN103914516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种存储系统分层管理的方法与系统。其中,所述方法包括以下步骤:根据存储系统中各存储介质的介质类型,将各存储介质分成至少二存储层;根据数据对象的数据类型,将所述数据对象存储在相应的存储层。采用上述方案,本发明采用分层数据存储,应用于分布式文件系统中,支持自动分层存储数据和自动迁移数据,可以大大的减少数据存储的成本,提高存储的效率;同时,也能更加合理的管理数据,具有可控性强和可扩展性强的特性。

Description

一种存储系统分层管理的方法与系统
技术领域
本发明涉及分布式文件的存储管理,尤其涉及的是,一种存储系统分层管理的方法与系统。
背景技术
如今,非结构化数据增长的速度越来越快,随着时间的推移,这种趋势也越来越明显。根据市场调查和分析,非结构化数据增长的速度已经超过了所有其他类型的数据。
结构化数据,比如CRM、ERP、financial等以一种平滑的方式增长。而非结构化数据,比如Emails、电子数据表、文件及其文件夹等,占了一个企业数据增长的50%-100%。
考虑到在现今行业的预算没有增长甚至减少的情况下,智能管理数据的存储方案的需求也越来越急迫。分析存储系统中的一个数据对象,在它刚进入系统那段时间中可能会出现访问频率很高的现象,但当数据老旧或不再更新之后,几乎不会再访问它。
根据这种数据现象可以分析出在上面这种情形中当数据的体积越来越大时其访问的频率越来越小。所以,在数据的生命周期中,由于成本原因,不能一直放在高性能的存储介质(SAS RAID或SSD)中,应该依据不同时期的访问频率来移动到不同的物理介质当中。这就需要在存储软件中用到合适的分层方法来管理数据的迁移和存储。
不论什么自动分层方法都需要结合不同的存储介质来完成,下面是现有存储介质的概述:
SSD(Solid State Disk,固态硬盘,简称固盘),是用固态电子存储芯片阵列而制成的硬盘,高性能也伴随着高成本,通常在分层存储中存放活跃数据。
SAS(Serial Attached SCSI,串行连接SCSI)/FC(Fibre Channel,光纤通道接口)Disks,由SAN或FC盘组成的独立硬盘冗余阵列(RAID,Redundant Array of IndependentDisks)的性能虽然没有SSD的好,但属于现在主流的存储介质,不过成本依旧很高。
SATA(Serial Advanced Technology Attachment,串行高级技术附件)Disks,相比于SAS/FC Disks,SATA Disk的性能低一些,但是性价比很高。
LTO(Linear Tape Open,线性磁带开放协议)Tape(磁带),其在TB级的存储上拥有最高的性价比,但是它没有提供随机存储的能力使其无法成为主要的存储介质,一般用作拷贝和归档。
发明内容
本发明所要解决的技术问题是提供一种新的存储系统分层管理的方法与系统。
本发明的技术方案如下:一种存储系统分层管理的方法,其包括以下步骤:根据存储系统中各存储介质的介质类型,将各存储介质分成至少二存储层;根据数据对象的数据类型,将所述数据对象存储在相应的存储层。
优选的,所述方法还根据数据对象的访问频率,将所述数据对象在各存储层中迁移。
优选的,所述方法中,将各存储介质分成N存储层,其中,N为自然数且N≥2;预设置N-1个访问频率的阈值;周期对某一数据对象作迁移判断:判断其访问频率大于第M阈值时,将其从第M存储层迁移至第M+1存储层,否则,判断其访问频率小于第M阈值时,将其从第M+1存储层迁移至第M存储层,其中,M为自然数且M≤N-1。
优选的,所述方法中,根据所述存储系统中所有数据对象的访问总频率调整各阈值。
优选的,所述方法中,在所述迁移判断时,采用所述数据对象在一预设时间段内的平均访问频率作为判断时采用的访问频率。
优选的,所述方法中,所述数据对象在迁移后,还在原存储层中保留一预设时间。
优选的,所述方法还包括步骤:根据数据对象的数据类型设置若干对应相异存储层的数据对象级别;当数据对象进入存储系统时,根据所述数据对象的数据类型,获取所述数据对象的数据对象级别,根据所述数据对象级别将其存储到对应的存储层。
优选的,所述方法中,所述数据对象在迁移到第1层时,选择是否分配一预设的租期;对于具有所述租期的所述数据对象,判断其在所述租期内未被访问,则在所述租期到期后,将所述数据对象删除。
优选的,所述方法还包括步骤:根据各存储层的负载情况,对于负载程度超过预设百分比值的第X存储层,根据各数据对象的平均访问频率,将平均访问频率最高的数据对象迁移至第X+1存储层,继续判断第X存储层的负载程度是否超过预设百分比值,是则将平均访问频率最低的数据对象迁移至第X-1存储层,直至第X存储层的负载程度低于所述预设百分比值。
优选的,所述方法中,所述存储系统中的某一数据对象被访问时,在所述存储系统的元数据中进行记录,以计算其访问频率。
本发明的又一技术方案如下:一种存储系统分层管理的系统,其包括若干存储介质以及至少二存储层;各所述存储介质分别设置于一存储层;各存储层分别用于根据数据对象的数据类型,存储所述数据对象。
采用上述方案,本发明采用分层数据存储,应用于分布式文件系统中,支持自动分层存储数据和自动迁移数据,可以大大的减少数据存储的成本,提高存储的效率;同时,也能更加合理的管理数据,具有可控性强和可扩展性强的特性。
附图说明
图1为本发明的流程示意图;
图2为本发明存储介质层次分配图。
具体实施方式
为了便于理解本发明,下面结合附图和具体实施例,对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本说明书所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本说明书所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
下面将结合附图和实例对本发明技术方案做进一步的说明。本发明的一个例子是:一种存储系统分层管理的方法,其包括以下步骤:根据存储系统中各存储介质的介质类型,将各存储介质分成至少二存储层;根据数据对象的数据类型,将所述数据对象存储在相应的存储层。这样,基于在不同价格不同性能的存储设备,在数据对象的不同时期改变其存储的位置,从而减少硬件存储成本,提高数据的访问速度。例如,所述方法还包括步骤:调整存储介质及所述介质类型;例如,增加新的硬盘,移除某一硬盘,或者暂时屏蔽某一类型存储介质等;又如,增加闪存作为临时的介质类型;又如,增加SSD等新的介质类型等。又如,根据数据对象的数据类型,动态将所述数据对象存储在相应的存储层。例如,新进入某一AVI等格式的视频数据对象,则将其存储于更注重容量的存储层中的某一存储介质中。又如,还根据某一存储层中的各存储介质的负载情况,在同一存储层中动态调整各数据对象的位置,使得各存储介质负载均衡。
例如,所述方法中,预先建立数据分类,根据不同情形定义不同的数据级别。数据分类,需要了解每一个文件或文件类型的相对价值,通常的,预设数据分类,例如,视频格式的数据对象为一类,office相关软件的数据对象为一类等,依此类推;优选的,还调整所述数据分类,因为在实际应用中,不同的公司对数据有自己不同的实际价值,所以数据分类往往涉及一个人工的过程,需要了解多个部门的具体情况,比如人力资源部,财务部等,一旦确定好每个数据的相应的价值并制定好数据分类的具体策略,数据分类模块就能自己找到数据,给其定上初始的数据等级,应用元数据并执行指定好的留存策略。
又如,建立存储介质分类,将不同性能的存储介质分类,设置于不同的存储层中,用来存储数据;随着存储需求呈螺旋状上升,将所有的数据放在高性能的存储介质中显然是不切实际的,分层存储是将关键的数据保存在高性能的介质中。分层存储的最终目的是为了节约资金,根据访问频率的高低将数据在不同的时期放在不同的存储介质,不同的存储层次,避免硬件空间和性能的浪费。同时将数据分布在多层中,可以避免用户和应用程序在访问存储时可能出现的冲突,避免损伤存储系统的性能。
这样,就实现集群文件系统数据自动分层存储的方法,提高了存储需求的灵活性,优化了数据管理,并降低了数据的总拥有成本;尤其适用于分布式集群文件存储系统中。从而可在第一时间内将数据自动地转移到相匹配的存储介质中,实现快速存储层和性能较低的低速存储层之间的数据移动;例如,其中快速存储层为闪存驱动,低速存储层为SAS和/或SATA磁盘。本方法实现的主要几个模块为:数据分类、存储介质分类和数据迁移,例如,系统中包括数据分类模块、存储介质分类模块和数据迁移模块等。
优选的,所述存储系统根据预设分层规则,自动根据不同的存储介质进行自动分层,当有新存储介质加入到存储系统中时将其自动加入现有的存储层中或者新设一存储层,然后根据同一层的负载情况以及预设负载均衡条件,将该现有存储层的部分数据迁移到其中。优选的,所述方法还根据数据对象的访问频率,将所述数据对象在各存储层中迁移。数据迁移就是移动数据,从文件夹、分割区、硬盘或磁盘子系统提取数据,放入其他的存储介质,或称为物理站点。例如,当数据的访问频率达到预设的阈值时,则自动迁移到上层或下层的存储介质中去。如果数据的迁移的频率太大或数据量太大,会给存储系统带来很大的负荷,严重影响系统的性能,所以在所述方法中,优选的,数据迁移操作的优先级要比数据存取操作的优先级低。每个数据对象在刚进入存储或刚迁移到其他存储介质上时都会有一个数据保留期,在这段时间内,系统根据数据的访问频率以及数据的级别来判断保留期结束后是否迁移到其他的存储介质和具体的哪一层介质。
优选的,所述方法中,将各存储介质分成N存储层,其中,N为自然数且N≥2;预设置N-1个访问频率的阈值;周期对某一数据对象作迁移判断:判断其访问频率大于第M阈值时,将其从第M存储层迁移至第M+1存储层,否则,判断其访问频率小于第M阈值时,将其从第M+1存储层迁移至第M存储层,其中,M为自然数且M≤N-1。例如,N=3,将各存储介质分成3个存储层,预设置2个访问频率的阈值;每间隔一个预设周期时长,对某一数据对象作迁移判断:判断其访问频率大于第1阈值时,将其从第1存储层迁移至第2存储层,然后中止后续判断;如果其访问频率不大于第1阈值时,则判断其访问频率是否小于第1阈值,是则将其从第2存储层迁移至第1存储层;优选的,对于该数据对象,先判断其所处的存储层,然后进行所述迁移判断;例如,某一数据对象处于第L存储层,L为自然数且L≤N,判断当L小于N时,则判断其访问频率大于第L阈值时,将其从第L存储层迁移至第L+1存储层,否则,判断其访问频率小于第L阈值时,将其从第L存储层迁移至第L-1存储层;当L等于N时,只需判断其访问频率小于第L-1阈值时,将其从第L存储层迁移至第L-1存储层。
如图1所示,本发明的一个实施例是,对数据对象,周期根据其访问频率进行更换存储层判断,访问频率大于晋级预设值时,向上级存储层进行数据迁移;访问频率小于晋级预设值时,判断是否小于降级预设值,是则向下级存储层进行数据迁移;对于已过数据保存期(即租期)的数据对象,根据其访问频率确定是否删除。
优选的,所述方法中,根据所述存储系统中所有数据对象的访问总频率调整各阈值。例如,数据迁移的阈值,根据整个系统数据访问的频率的变化而变化,根据系统数据访问的总频率来设置新的阈值,但是已经在系统中的数据会依然按照之前的阈值来迁移,只有迁移过一次后或新进系统的数据才会按照最新的阈值来迁移数据。
优选的,所述方法还包括步骤:根据各存储层的负载情况,对于负载程度超过预设百分比值的第X存储层,根据各数据对象的平均访问频率,将平均访问频率最高的数据对象迁移至第X+1存储层,继续判断第X存储层的负载程度是否超过预设百分比值,是则将平均访问频率最低的数据对象迁移至第X-1存储层,直至第X存储层的负载程度低于所述预设百分比值。优选的,对于负载程度超过预设百分比值的第X存储层,先分别判断第X+1存储层、第X-1存储层的负载情况,在两者负载程度均不超过预设百分比值时,则根据第X存储层各数据对象的平均访问频率,将平均访问频率最高的数据对象迁移至第X+1存储层,继续判断第X存储层的负载程度是否超过预设百分比值,是则将平均访问频率最低的数据对象迁移至第X-1存储层,直至第X存储层的负载程度低于所述预设百分比值;当其一负载程度超过预设百分比值时,则根据第X存储层各数据对象的平均访问频率,将相应平均访问频率的数据对象迁移至另一存储层;例如,当第X+1存储层负载程度超过预设百分比值时,则根据第X存储层各数据对象的平均访问频率,将平均访问频率最低的数据对象迁移至第X-1存储层,直至第X存储层的负载程度低于所述预设百分比值。
优选的,轮询各存储层的负载情况;例如,从最高存储层开始评判各存储层的负载情况,例如有3个存储层,则从第3存储层开始评判各存储层的负载情况。例如,设置4个存储层,对于第3存储层的数据,如果判断第3存储层的负载程度超过90%或者95%或者其他预设百分比值时,根据第3存储层的各数据对象的平均访问频率,将平均访问频率最高的数据对象迁移至第4层,然后继续判断第3存储层的负载程度,如果仍对应超过90%或者95%或者其他预设百分比值时,将平均访问频率最低的数据对象迁移至第2存储层;依此类推,直至第3存储层的负载程度低于所述预设百分比值。优选的,然后继续判断其他存储层的负载情况。又如,按从高到低的顺序轮询各存储层的负载情况,根据各存储层的负载情况,对于负载程度超过预设百分比值的第X存储层,根据各数据对象的平均访问频率,将平均访问频率最低的数据对象迁移至第X-1存储层,直至第X存储层的负载程度低于所述预设百分比值。
优选的,所述方法中,在所述迁移判断时,采用所述数据对象在一预设时间段内的平均访问频率作为判断时采用的访问频率。这样,可以避免极值而影响判断依据,例如,曾经频繁调用的数据对象在某一时间段内没有被访问,从而获得更好的数据管理效果。
优选的,所述方法中,所述数据对象在迁移后,还在原存储层中保留一预设时间。这样,数据在进入存储系统后,不会根据数据访问的频率来经常或者实时迁移数据,这样过于消耗系统资源,影响系统效率,会给数据在每一层存储空间中留一段数据保留期,计算在其期限中的平均访问量,更新到其元数据,判定是否需要迁移数据。预设时间即数据保留期格局实际应用设置和调整,本发明各实施例对此不作额外限制。
优选的,所述方法还包括步骤:根据数据对象的数据类型设置若干对应相异存储层的数据对象级别;当数据对象进入存储系统时,根据所述数据对象的数据类型,获取所述数据对象的数据对象级别,根据所述数据对象级别将其存储到对应的存储层。又如,根据不同公司的实际情况来定义不同的数据级别,当数据对象进入存储系统时,会根据定义的数据级别来对这个数据对象给一个初始级别,然后将其存储放到对应的层中去。
优选的,所述方法中,所述数据对象在迁移到第1层时,选择是否分配一预设的租期;对于具有所述租期的所述数据对象,判断其在所述租期内未被访问,则在所述租期到期后,将所述数据对象删除。这样,可以自行选择需不需要租期,更方便系统灵活的存储数据。例如,当数据迁移到最底层(即第1层)的存储介质中时,可以选择给数据分配一个租期,当在租期的时间内数据没有被访问时,租期到后数据会被自动删除,达到释放资源节约成本的目的。优选的,所述数据对象在迁移到第1层时,还选择是否压缩数据,以增加存储系统的可用空间;或者,所述数据对象在迁移到第1层时,还自动压缩数据。
优选的,所述方法中,所述存储系统中的某一数据对象被访问时,在所述存储系统的元数据中进行记录,以计算其访问频率。例如,将各预设参数设置于所述存储系统的配置文件,所述存储系统在初始化时读取所述配置文件;新的存储介质进入存储系统,通过存储系统校验后生成其元数据信息;又如,当在系统中的一个数据对象被访问一次时,其元数据中的记录访问频率的信息会重新计算并更新,当到达预设阈值时会根据元数据的信息自动迁移。
采用上述各例,可以自动判断数据活跃度并将其自动迁移到对应的存储层。
结合应用上述任一实施例所述方法,本发明的又一实施例如下:一种存储系统分层管理的系统,其包括若干存储介质以及至少二存储层;各所述存储介质分别设置于一存储层;各存储层分别用于根据数据对象的数据类型,存储所述数据对象。优选的,所述系统还包括各实施例所述方法中涉及的各功能模块或者执行单元。例如,所述系统设置自动分层单元,根据存储系统中各存储介质的介质类型,将各存储介质分成至少二存储层;又如,所述系统设置预设单元,预设各参数,包括数据分类、存储介质分类、介质类型、各访问频率的阈值、百分比值等;又如,所述系统设置计算单元,其根据访问总频率自动调整各阈值
例如,对于不同的存储介质,根据其不同的存储特性,将其自动划分为以下三种不同的存储层次。
Tier1——性能层;Tier1提供高性能,具有最高的性能,由价格最昂贵的存储介质组成,比如:ssd,RAID磁盘阵列。
Tier2——容量层;Tier2第二层提供大的容量并且确保能够一直访问,第二层由性价比较高的存储介质构成,主要是sata盘,提供高容量低性能的存储环境。当第一层的数据访问的频率降低到一个预设阈值时会自动迁移到这一层来。反之,当这层的数据访问的频率升高到一个预设阈值时会迁移到第一层。
Tier3——档案层,第三层容纳长期的档案并能提供额外的性能,支持在特定的要求中归档兼容。Tier3具有最大的存储容量,用来存储活跃度最低的数据或需要长时间存放的归档数据。存储在内容可寻址存储归档系统,虚拟磁带库或磁带库上。
例如,在系统中设置分层方法存储单元与方法池存储单元,方法池存储单元即方法池;预先在方法池内存储分层方法及其相关参数信息,并对方法池内的分层方法及其相关参数信息实时更新。
系统接收外部写入的数据分类信息时,解析该分类信息并将其存入系统之中;
系统接收外部存入的数据时,依据数据分类信息将数据分类,并将分类信息和写入其元数据当中。
方法池读取数据元数据中的数据分类的参数信息,匹配对应的数据等级,根据数据等级将其放入对应的存储层,或称为数据存储层;
优选的,根据预先设定的周期计算整个系统的数据的平均访问频率,计算出各个存储层的预设阈值;优选的,对于最高级的存储层,无需计算其预设阈值。
当已存入系统的数据过了数据的保存期后根据方法会计算出在数据保留期间数据的平均访问频率,并写入期元数据。将数据的平均访问速率与系统各存储层中的预设阈值作对比,将其迁入对应的数据层。
例如,迁移到系统最底层的数据可以设置其是否有租期,当设置了租期后,数据在其时间内没有被访问过就会被自动删除。
又如,对一些确定不活动的却又不能删除的数据,可以将其的原始数据压缩为近线归档数据,这样可以节省大量的空间和成本。
又如,元数据中的数据访问频率每当数据过了数据保留期时都会重置,然后根据各存储层中的阈值来判断是否迁移数据。
又如,存储介质加入系统中时,系统自动识别其硬件并根据预设的分层表将其自动加入到对应的存储层中去。
又如,数据迁移时会被放入数据迁移的队列排队迁移,当有大量新数据正进入系统时数据迁移会根据优先级先暂时中断,等待数据进入系统的压力减少到一定值时再继续迁移,避免数据迁移给系统带来过多的性能负荷。
优选的,还设置添加数据分类信息和修改数据类别对应的数据存储级别。优选的,还设置添加硬件介质,根据其存储性能来编辑其在系统中的具体存储层次优选的,还设置租期功能和压缩功能,可以手动将不活动的数据打包压缩,减少占用的系统空间,节省硬件成本。
优选的,所述的预设参数都将存储于配置文件;系统在初始化的过程中会读取配置文件中的参数来预置硬件介质层次和确定数据类型;
例如,如图2所示,默认的数据等级和对应的存储层次为:
数据等级为1的数据是最为活跃的、访问的频率最高的数据,存储在性能最高的硬件介质中,对应的存储层次为Tier1;
数据等级为2的数据是访问频率一般的数据,存储在性能一般但是容量较大的硬件介质中,对应的存储层次为Tier2;
数据等级为3的数据是访问频率最低或基本不访问的数据,存储在性能最低但是容量最大的硬件介质中,对应的存储层次为Tier3。
例如,未知类型的数据默认为等级2中,刚进入系统时分配到Tier2中,经过数据保留期后根据其访问频率来判断是否需要迁移到其他层。
又如,用户没有配置数据分类时系统会采用默认的数据分类,可以对其进行增删和修改。
又一个例子是,一系统其还包括上述方法的各例所涉及的硬件设备。
综上,本发明的技术方案应用于分布式文件系统中,支持自动分层存储数据和自动迁移数据,可以大大的减少数据存储的成本,提高存储的效率。同时,也能更加合理的管理数据。
又一个例子是,设定好数据分类参数或采用默认的数据分类。
存储对象进入系统时,通过系统校验生成其元数据信息,并将数据的分类信息也写入其中。
通过匹配其数据类型位找到其对应的存储等级。
读取默认的配置文件,读取其最新的数据级别与存储层次的对照表,将数据存放入对应的存储层次中。
读取配置文件,获取各个层次的数据保留期,通过元数据筛选出已过数据保留期的数据并计算出这段时间的访问频率,写入一张临时表。
从阈值表中获取最新的各存储层次的频率阈值,通过上步生成的临时表将需要上迁、下迁和不变的数据分组列出来,写入三张临时表中。
通过上步生成的三张临时表将数据进行迁移。
读取配置文件,当监控整个系统的计时器和配置文件中的系统周期一直时,系统计算其整体的访问频率f=访问次数/系统周期。将f设定为Tier1和Tier2新的迁移阈值,而0为Tier2和Tier3的迁移阈值。系统监控计时器归0。
数据迁移到新的存储介质中后,记录其进来时的时间,将其写入元数据中。再次通过元数据对比选出超过保留期的数据,计算访问频率和迁移阈值对比,判定是否需要迁移。
当数据迁入Tier3后并过了其数据保留期,可以根据配置文件来控制是否将其打包为线性归档数据方便存储。或者选择数据类型,给其制定租约,如果在租约时间内没有访问就将其删除。
当存储层间的阈值改变时会将其改变时间记录下来,对比数据进入系统或迁入其他层次的时间。将早于此时间的数据还是采用原来的迁移阈值,避免造成系统的混乱。而新进入系统或迁移的数据则采用新的阈值,同层的阈值最多存在2个。
进一步地,本发明的实施例还包括,上述各实施例的各技术特征,相互组合形成的存储系统自动分层的方法与系统,通过综合考虑存储介质的性能和成本,合理的将不同数据类型的数据在其生命周期的不同时期存放至不同的介质中,以达到节约存储成本,提高存储效率的目的;从而能够支持实时的根据实际情况变换存储层次的阈值,当某段时期系统数据访问频率过于频繁时,能实时的提高存储层次中的阈值,将一些临界点旁的数据向下层存储层迁移,缓解系统的整体压力,防止硬件的损伤。这样,通过在分布式文件存储系统中加入了自动分层方法,使得存储集群在数据分配和资源利用上面都有很好的表现。
综上所述,该存储系统分层管理的方法与系统是根据存储系统中各存储介质的介质类型以及数据对象的数据类型,将所述数据对象存储在相应的存储层,解决的是提高存储效率、降低数据存储成本的技术问题,该方法通过执行计算机程序实现对计算机系统内部运行性能的改进,反映的是自动分层存储数据和自动迁移数据,利用的是遵循自然规律的技术手段,获得了存储效率提高、数据存储成本降低的技术效果。因此,本发明专利存储系统分层管理的方法与系统是一种通过执行计算机程序实现计算机系统内部、外部性能改进的解决方案,属于专利法第二条第二款规定的技术方案,属于专利保护的客体。
需要说明的是,上述各技术特征继续相互组合,形成未在上面列举的各种实施例,均视为本发明说明书记载的范围;并且,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (7)

1.一种存储系统分层管理的方法,其特征在于,包括以下步骤:
根据存储系统中各存储介质的介质类型,将各存储介质分成N存储层,其中,N为自然数且N≥2;
根据数据对象的数据类型,将所述数据对象存储在相应的存储层,并针对所述数据对象进行负载均衡操作以及基于访问频率的迁移;
所述负载均衡为根据某一存储层中的各存储介质的负载情况,在同一存储层中动态调整各数据对象的位置,使得各存储介质负载均衡,所述负载均衡操作还包括:
轮询各存储层的负载情况;
根据各存储层的负载情况,对于负载程度超过预设百分比值的第X存储层,根据各数据对象的平均访问频率,将平均访问频率最高的数据对象迁移至第X+1存储层,继续判断第X存储层的负载程度是否超过预设百分比值,是则将平均访问频率最低的数据对象迁移至第X-1存储层,直至第X存储层的负载程度低于所述预设百分比值;其中,对于负载程度超过预设百分比值的第X存储层,先分别判断第X+1存储层、第X-1存储层的负载情况;
所述基于访问频率的迁移包括:预设置N-1个访问频率的阈值;周期对某一数据对象作迁移判断:判断其访问频率大于第M阈值时,将其从第M存储层迁移至第M+1存储层,否则,判断其访问频率小于第M阈值时,将其从第M+1存储层迁移至第M存储层,其中,M为自然数且M≤N-1。
2.根据权利要求1所述方法,其特征在于,在所述基于访问频率的迁移判断时,采用所述数据对象在一预设时间段内的平均访问频率作为判断时采用的访问频率。
3.根据权利要求2所述方法,其特征在于,所述数据对象在迁移后,还在原存储层中保留一预设时间。
4.根据权利要求3所述方法,其特征在于,还包括步骤:
根据数据对象的数据类型设置若干对应相异存储层的数据对象级别;
当数据对象进入存储系统时,根据所述数据对象的数据类型,获取所述数据对象的数据对象级别,根据所述数据对象级别将其存储到对应的存储层。
5.根据权利要求4所述方法,其特征在于,所述数据对象在迁移到第1层时,选择是否分配一预设的租期;
对于具有所述租期的所述数据对象,判断其在所述租期内未被访问,则在所述租期到期后,将所述数据对象删除。
6.根据权利要求1所述方法,其特征在于,所述存储系统中的某一数据对象被访问时,在所述存储系统的元数据中进行记录,以计算其访问频率。
7.一种存储系统分层管理的系统,其特征在于,采用权利要求1至6中任一项所述方法实现,所述系统包括若干存储介质以及至少二存储层;
各所述存储介质分别设置于一存储层;
各存储层分别用于根据数据对象的数据类型,存储所述数据对象。
CN201410064357.6A 2014-02-25 2014-02-25 一种存储系统分层管理的方法与系统 Active CN103914516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410064357.6A CN103914516B (zh) 2014-02-25 2014-02-25 一种存储系统分层管理的方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410064357.6A CN103914516B (zh) 2014-02-25 2014-02-25 一种存储系统分层管理的方法与系统

Publications (2)

Publication Number Publication Date
CN103914516A CN103914516A (zh) 2014-07-09
CN103914516B true CN103914516B (zh) 2017-09-08

Family

ID=51040196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410064357.6A Active CN103914516B (zh) 2014-02-25 2014-02-25 一种存储系统分层管理的方法与系统

Country Status (1)

Country Link
CN (1) CN103914516B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104583930B (zh) * 2014-08-15 2017-09-08 华为技术有限公司 数据迁移的方法、控制器和数据迁移装置
CN104239525A (zh) * 2014-09-18 2014-12-24 浪潮软件集团有限公司 一种基于互联网的分布式存储方法
CN105653524B (zh) * 2014-11-10 2021-07-30 创新先进技术有限公司 一种数据存储方法、装置和系统
CN106294445B (zh) * 2015-05-27 2019-08-13 华为技术有限公司 基于跨机房Hadoop集群的数据存储的方法及装置
CN105159925B (zh) * 2015-08-04 2019-08-30 北京京东尚科信息技术有限公司 一种数据库集群数据分配方法及系统
CN105138476B (zh) * 2015-08-26 2017-11-28 广东创我科技发展有限公司 一种基于hadoop异构存储的数据存储方法及系统
CN105574124A (zh) * 2015-12-11 2016-05-11 芜湖乐锐思信息咨询有限公司 一种基于产品信息的数据存储系统
CN105573673A (zh) * 2015-12-11 2016-05-11 芜湖乐锐思信息咨询有限公司 一种基于数据库的数据缓存系统
CN105426781A (zh) * 2015-12-11 2016-03-23 芜湖乐锐思信息咨询有限公司 一种基于数据库的数据保护系统
CN105447182A (zh) * 2015-12-11 2016-03-30 芜湖乐锐思信息咨询有限公司 一种基于数据库的数据存储系统
CN105653720B (zh) * 2016-01-07 2020-03-27 北京人大金仓信息技术股份有限公司 一种可灵活配置的数据库分层存储优化方法
CN107132991B (zh) * 2016-02-26 2020-11-20 深信服科技股份有限公司 虚拟存储系统的分层存储方法及虚拟存储系统
CN106294671A (zh) * 2016-08-03 2017-01-04 杭州华三通信技术有限公司 一种数据迁移方法及装置
CN106406766A (zh) * 2016-09-23 2017-02-15 郑州云海信息技术有限公司 一种数据存储方法及装置
CN107870916A (zh) * 2016-09-23 2018-04-03 伊姆西Ip控股有限责任公司 存储管理方法及设备
CN106775464B (zh) * 2016-12-02 2019-09-06 郑州云海信息技术有限公司 一种数据分层存储系统及方法
CN106648465B (zh) * 2016-12-22 2020-07-07 郑州云海信息技术有限公司 云平台中存储虚拟资源的方法及装置
CN106959826A (zh) * 2017-03-28 2017-07-18 联想(北京)有限公司 一种数据存储系统及方法
CN107122140A (zh) * 2017-05-02 2017-09-01 郑州云海信息技术有限公司 一种基于元数据信息的文件智能存储方法
CN107580060B (zh) * 2017-09-14 2020-10-30 商客通尚景科技江苏有限公司 一种移动端分库缓存方法
CN108052278A (zh) * 2017-10-09 2018-05-18 清华大学 电镜数据的存储控制方法和存储系统
CN107977462A (zh) * 2017-12-21 2018-05-01 泰康保险集团股份有限公司 数据迁移方法及装置
CN108427538B (zh) * 2018-03-15 2021-06-04 深信服科技股份有限公司 全闪存阵列的存储数据压缩方法、装置、及可读存储介质
CN108519862B (zh) * 2018-03-30 2020-03-17 百度在线网络技术(北京)有限公司 区块链系统的存储方法、装置、系统和存储介质
CN109614039B (zh) * 2018-11-26 2022-03-22 新华三大数据技术有限公司 数据迁移方法及装置
CN109726205B (zh) * 2018-12-26 2021-07-23 国电南瑞科技股份有限公司 一种电力系统安全稳定分析数据存储系统及存储方法
CN110134334A (zh) * 2019-05-09 2019-08-16 深圳前海达闼云端智能科技有限公司 数据存储方法、数据存储设备、电子设备和可读存储介质
CN110162273A (zh) * 2019-05-28 2019-08-23 北京计算机技术及应用研究所 一种基于分布式存储系统的衰减式分层存储系统及方法
CN111026337A (zh) * 2019-12-30 2020-04-17 中科星图股份有限公司 一种基于机器学习和ceph思想的分布式储存方法
CN111090786B (zh) * 2020-03-19 2020-06-26 上海飞旗网络技术股份有限公司 基于数据压缩的业务数据动态存储方法及装置
CN111741107B (zh) * 2020-06-19 2023-08-04 北京星辰天合科技股份有限公司 基于文件存储系统的分层方法及装置、电子设备
CN117850706B (zh) * 2024-03-05 2024-06-14 北京联世传奇网络技术有限公司 一种计算机数据存储方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034340A (zh) * 2003-03-27 2007-09-12 株式会社日立制作所 数据存储方法和存储数据的系统
CN103095805A (zh) * 2012-12-20 2013-05-08 江苏辰云信息科技有限公司 一种对数据进行智能分层管理的云存储系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080016390A1 (en) * 2006-07-13 2008-01-17 David Maxwell Cannon Apparatus, system, and method for concurrent storage pool migration and backup

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034340A (zh) * 2003-03-27 2007-09-12 株式会社日立制作所 数据存储方法和存储数据的系统
CN103095805A (zh) * 2012-12-20 2013-05-08 江苏辰云信息科技有限公司 一种对数据进行智能分层管理的云存储系统

Also Published As

Publication number Publication date
CN103914516A (zh) 2014-07-09

Similar Documents

Publication Publication Date Title
CN103914516B (zh) 一种存储系统分层管理的方法与系统
CN107943867B (zh) 支持异构存储的高性能层次化存储系统
US8447946B2 (en) Storage apparatus and hierarchical data management method for storage apparatus
US8909887B1 (en) Selective defragmentation based on IO hot spots
CN103106152B (zh) 基于层次存储介质的数据调度方法
US8352429B1 (en) Systems and methods for managing portions of files in multi-tier storage systems
US9311252B2 (en) Hierarchical storage for LSM-based NoSQL stores
CN102135861B (zh) 使用现行负载测量和分级在存储池中布局虚拟卷热点的方法
US7584229B2 (en) Method and system for priority-based allocation in a storage pool
CN102508789A (zh) 一种系统分级存储的方法
US20120011329A1 (en) Storage apparatus and storage management method
US20150242153A1 (en) Transferring storage resources between snapshot storage pools and volume storage pools in a distributed network
US20160132433A1 (en) Computer system and control method
US8090924B2 (en) Method for the allocation of data on physical media by a file system which optimizes power consumption
US20070192538A1 (en) Automatic RAID disk performance profiling for creating optimal RAID sets
CN103019887B (zh) 数据备份方法及装置
CN102576293A (zh) 固态存储设备和分层存储系统中的数据管理
CN103095805A (zh) 一种对数据进行智能分层管理的云存储系统
US11461287B2 (en) Managing a file system within multiple LUNS while different LUN level policies are applied to the LUNS
US20170285973A1 (en) Managing ssd wear rate in hybrid storage arrays
CN103761059A (zh) 一种用于海量数据管理的多盘位存储方法及系统
US11042324B2 (en) Managing a raid group that uses storage devices of different types that provide different data storage characteristics
CN106484330A (zh) 一种混合磁盘分层数据优化方法和装置
CN109164975A (zh) 一种将数据写入固态硬盘的方法以及固态硬盘
CN103858092A (zh) 一种数据迁移方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140709

Assignee: Liu Yi

Assignor: Shenzhen Zhongbo Kechuang Information Technology Co., Ltd.

Contract record no.: 2014440020487

Denomination of invention: Method and system for layer-management of storage system

License type: Common License

Record date: 20141230

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract

Assignee: Liu Yi

Assignor: Shenzhen Zhongbo Kechuang Information Technology Co., Ltd.

Contract record no.: 2014440020487

Date of cancellation: 20161025

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190904

Address after: 100089 Floor 1-4, No. 2 Building, No. 9 Courtyard, Dijin Road, Haidian District, Beijing

Patentee after: Beijing Toyou Feiji Electronics Co., Ltd.

Address before: 518057 Room 1402, Feiyada Science and Technology Building, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen Zhongbo Kechuang Information Technology Co., Ltd.

TR01 Transfer of patent right