CN108810140B - 云存储系统中基于动态阈值调整的高性能分级存储优化方法 - Google Patents

云存储系统中基于动态阈值调整的高性能分级存储优化方法 Download PDF

Info

Publication number
CN108810140B
CN108810140B CN201810600568.5A CN201810600568A CN108810140B CN 108810140 B CN108810140 B CN 108810140B CN 201810600568 A CN201810600568 A CN 201810600568A CN 108810140 B CN108810140 B CN 108810140B
Authority
CN
China
Prior art keywords
storage
data object
data
area
cold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810600568.5A
Other languages
English (en)
Other versions
CN108810140A (zh
Inventor
龙赛琴
曾令斌
刘子浩
周思恒
幸运
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN201810600568.5A priority Critical patent/CN108810140B/zh
Publication of CN108810140A publication Critical patent/CN108810140A/zh
Application granted granted Critical
Publication of CN108810140B publication Critical patent/CN108810140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种云存储系统中基于动态阈值调整的分级存储方法。首先对系统存储资源按性能进行层级划分,依照系统整体能力确定具体存储分级结构。其次,定期扫描系统的各个存储节点,获取最新的系统存储状态与数据访问情况,计算数据的温度值,并与设定的阈值比较,生成数据的存储等级调整策略。然后,依据生成的存储策略信息对分级结构与阈值进行动态调整。最后,对数据对象实施优化存储放置。本发明能够适用于不同规模大小的云存储集群,具有降低迁移抖动,提升系统性能的优点。

Description

云存储系统中基于动态阈值调整的高性能分级存储优化方法
技术领域
本发明主要涉及到云计算领域,特别涉及到云存储系统中的分级存储领域。
背景技术
随着数据的爆炸式增长,存储需求日益增大,大规模设备集群的云存储系统是目前解决海量数据高效存储的有效技术手段。云存储技术衍生于云计算,是通过集群整合、分布式文件系统、网络技术等技术,将集群中的众多设备与应用软件等资源协同工作,对外提供较大吞吐能力的数据存储业务。
云存储系统中的各存储节点往往具有不同的存储容量和存储性能,如何将海量数据存储到这些性能异构的存储节点中,来提高云存储系统的资源利用率,并满足用户的性能需求,是云存储系统亟待解决的问题。分级存储技术能够充分考虑存储系统中存储资源的异构性,将存储资源划分为多个层级,并依据存储系统中数据特点与数据业务应用规律,以数据访问热度为主来评估数据的价值,得到数据相应的存储层级与放置策略,在云存储系统中具有较强的技术可行性。
目前有较多的研究人员与相关学者,相继提出了将分级存储理论应用于云存储系统中的解决方案。然而,由于提出的分级结构固化不灵活,用于衡量数据存储等级的阈值固定,在具体的实施过程中往往出现数据迁移抖动、迁移成本高等问题。因此,本发明设计了一种云存储系统中基于动态阈值调整的高性能分级存储优化方法。
发明内容
本发明公开了一种云存储系统中基于动态阈值调整的高性能分级存储优化方法,它通过动态阈值调整与动态分级协同的优化算法来共同决定数据对象的存储状态,使得数据对象依据最优的存储策略进行离线优化存储,从而解决系统出现的数据迁移抖动问题,提升系统性能。
本发明提供的基于动态阈值调整的高性能分级存储优化方法,包括以下步骤:
步骤1、存储节点信息采集:
由各存储节点分别采集各自的服务器状态信息,并将采集到的信息周期性地发送至中心服务器。
步骤2、存储节点分级处理:
依据存储节点服务器状态信息,计算存储节点的性能值SP,所有存储节点按性能值SP排序并划分出冷热区,再计算冷区存储节点的分级评估值,并从冷区中划分出一份缓冲区。
步骤3、忽略冷区存储节点中,在统计时间T内没有被访问过的数据对象,计算其他数据对象i的数据温度Pi并保存。
步骤4、对于步骤3中处理过的数据对象,将其数据温度与冷热阈值比较,生成离线优化存储策略元组。
步骤5、根据步骤4生成的策略元组信息,动态调整热阈值与分级结构。
步骤6、根据策略元组信息,对数据对象实施离线优化分级存储调整策略。
附图说明
图1是本发明的功能模块图;
图2是本发明的流程图;
具体实施方式
如图2所示,本发明方法的具体实施过程步骤为:
步骤1、云存储系统中各个存储节点的信息采集:
1)周期性地收集所有存储节点的状态信息,包括存储节点的CPU、内存、硬盘、网络、读写速率等运行状态信息,获取存储节点数据访问业务信息。
2)将收集到的存储节点状态信息加上节点ID,处理成节点服务状态消息发送给中心服务器。
步骤2、根据集群内所有存储节点的状态信息,对存储节点依据存储性能进行初始等级分区:
1)根据步骤1收集的存储节点运行状态信息,依次计算各存储节点的性能值,记为SP。
2)依据二八定律,80%的用户访问请求集中在20%的数据上,而这20%的数据即为热点数据。因此,对云存储系统中的所有存储节点按性能进行排序,将高位的20%划分为热区,其他的80%划分为冷区。
3)为避免因数据对象热度改变频繁而造成的存储迁移抖动,在划分好的冷区中,再划分出一个冷热缓冲区,用冷热缓冲区存储下阶段热度可能上升的数据对象。
在本发明中,最终数据对象的存储等级调整,都需要在不同分区的存储节点间传输数据,为了降低数据迁移带来的系统开销,需要缩短存储节点间的数据传输时间。设存储节点i与存储节点j之间的网络距离为NDij,对按存储性能排序的冷区存储节点,依次计算每个冷区存储节点与所有热区存储节点的平均网络距离E(ND)。对于冷区存储节点Di,与热区的平均网络距离可计算为
Figure GDA0003135088900000031
其中存储节点Dj属于热区存储节点集{D1,....,Dk}。对每个冷区存储节点,计算分级评估值hp,hp=α·SP+(1-α)·E(ND),其中α为平衡常量,用来综合评估冷区存储节点与热区存储节点的平均网络距离和自身性能。再对冷区存储节点按分级评估值hp进行排序,取高位的20%为缓冲区,剩余部分为新的冷区。
步骤3、计算在统计时间T内,数据对象i的数据温度Pi并保存,计算方法如下:
1)忽略冷区节点中,在T时间内没有被访问过的数据对象,减少不必要的计算与消耗。选择热区与缓冲区节点中所有数据对象,以及在时间T内被访问过的冷区节点数据对象为计算目标。
2)计算数据对象i的访问频率fi=Ni/T,其中Ni为数据对象i在T时间内的访问量。
3)由于数据对象的大小直接影响到存储设备与网络带宽占用,从而引入数据对象的静态影响因子
Figure GDA0003135088900000032
数据对象i的静态影响因子
Figure GDA0003135088900000033
其中β为静态因子数值归一化常量,si为数据对象i的大小。
4)在信息生命周期中,数据的信息价值从整体上随存储时间的延长而降低;同时,具有较高价值的数据在下阶段也具有一定价值。
所以计算数据对象i的T时温度
Figure GDA0003135088900000034
其中,参数
Figure GDA0003135088900000035
为常量,Pi’为数据对象上阶段的数据温度,Tei为数据对象i的存在时间。
步骤4、将步骤2,3计算出的数据对象的温度与冷热阈值比较,生成离线优化存储策略元组,生成方法如下:
1)取策略元组为(DP,DS,DQ,OP),其中DP为数据对象的源路径,DS为数据对象的大小,DQ为数据对象的源分区,OP为该数据对象的策略操作(取值为1或0,1表示升迁,0表示降级)。
2)对于热区数据对象,当其数据温度低于热阈值时,将该数据对象的元组属性OP置0。
3)对于缓冲区数据对象,当其数据温度高于热阈值时,将该数据对象的元组属性OP置1,低于冷阈值时,将该数据对象的元组属性OP置0。
4)对于冷区数据对象,当其数据温度高于冷阈值时,将该数据对象的元组属性OP置1。
步骤5、根据离线优化存储策略元组,动态调整热阈值与分级结构:
1)获取热区与缓冲区的负载率信息;扫描所有存储策略元组。
2)当热区负载过高时,提高热区存储节点比率,缓冲区后移,调整热阈值,新热阈值=原热阈值+平衡系数*降级数据总大小/升迁数据总大小。
3)当热区负载过低时,降低热区存储节点比率,缓冲区回收热区裁剪的存储节点,调整热阈值,新热阈值=原热阈值-平衡系数*降级数据总大小/升迁数据总大小。
步骤6、根据步骤4,5,离线优化数据对象的存储等级:
根据策略元组信息,按属性OP实施数据对象的升迁或降级操作。其中,每次选取目标分区中,与数据对象源存储节点网络距离最近的目标存储节点,并按策略元组属性OP实施数据对象的升迁或降级操作。

Claims (2)

1.一种云存储系统中基于动态阈值调整的高性能分级存储优化方法,其特征在于所述方法至少包括以下步骤:
(1)周期性地采集各个存储节点的运行状态信息,包括存储节点的CPU、内存、硬盘、网络、读写速率等,获取存储节点数据访问业务信息;将收集到的存储节点状态信息加上节点ID,处理成节点服务状态消息发送给中心服务器;
(2)对存储节点进行分级预处理:中心服务器依据存储节点运行状态信息计算性能值,记为SP,对计算好的存储节点服务器按性能排序,依据二八定律,将高位的20%划分为热区,其他80%划分为冷区;设存储节点i与存储节点j之间的网络距离为NDij,对按性能排序的冷区存储节点,依次计算每个冷区存储节点与所有热区存储节点的平均网络距离E(ND),对于冷区存储节点Di,与热区的平均网络距离可计算为
Figure FDA0003135088890000011
其中存储节点Dj属于热区存储节点集{D1,....,Dk},再计算每个冷区存储节点的分级评估值hp=α·SP+(1-α)·E(ND),其中α为平衡常量,按分级评估值hp对冷区存储节点进行排序,取高位的20%为缓冲区,剩余部分为最终的冷区;
(3)依据存储节点的数据访问业务信息,选择热区与缓冲区存储节点中所有数据对象,以及在统计时间T内被访问过的冷区存储节点数据对象,计算数据对象的温度;
(4)将步骤(3)得到的数据对象温度与冷热阈值进行比较,再依据步骤(2)得到的分级结构,生成离线优化存储策略元组:取策略元组为(DP,DS,DQ,OP),其中DP为数据对象的源路径,DS为数据对象的大小,DQ为数据对象的源分区,OP为该数据对象的策略操作(取值为1或0,1表示升迁,0表示降级),对于热区数据对象,当其数据温度低于热阈值时,将该数据对象的元组属性OP置0,对于缓冲区数据对象,当其数据温度高于热阈值时,元组属性OP置1,低于冷阈值时,将该数据对象的元组属性OP置0,对于冷区数据对象,当其数据温度高于冷阈值时,将该数据对象的元组属性OP置1;
(5)以存储节点的负载情况为指导,动态调整热阈值与分级结构:获取热区与缓冲区的负载率信息,扫描所有存储策略元组;当热区负载过高时,提高热区存储节点比率,缓冲区后移,调整热阈值,新热阈值=原热阈值+平衡系数*降级数据总大小/升迁数据总大小;当热区负载过低时,降低热区存储节点比率,缓冲区回收热区裁剪的存储节点,调整热阈值,新热阈值=原热阈值-平衡系数*降级数据总大小/升迁数据总大小;
(6)对数据对象实施离线优化存储等级调整策略,每次选取与数据对象源存储节点网络距离最近的目标节点,并按策略元组属性OP实施数据对象的升迁或降级操作。
2.根据权利要求1所述的云存储系统中基于动态阈值调整的高性能分级存储优化方法,其特征在于,所述步骤(3)中数据对象的温度计算过程至少包括:计算数据对象i的访问频率fi=Ni/T,其中Ni为统计时间T内数据对象i的访问量;引入数据对象的静态影响因子
Figure FDA0003135088890000021
数据对象i的静态影响因子
Figure FDA0003135088890000022
其中β为静态因子数值归一化常量,si为数据对象i的大小;计算数据对象i的T时温度
Figure FDA0003135088890000023
其中,参数
Figure FDA0003135088890000024
为常量,Pi′为数据对象上阶段的数据温度,Tei为数据对象i的存在时间。
CN201810600568.5A 2018-06-12 2018-06-12 云存储系统中基于动态阈值调整的高性能分级存储优化方法 Active CN108810140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810600568.5A CN108810140B (zh) 2018-06-12 2018-06-12 云存储系统中基于动态阈值调整的高性能分级存储优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810600568.5A CN108810140B (zh) 2018-06-12 2018-06-12 云存储系统中基于动态阈值调整的高性能分级存储优化方法

Publications (2)

Publication Number Publication Date
CN108810140A CN108810140A (zh) 2018-11-13
CN108810140B true CN108810140B (zh) 2021-09-28

Family

ID=64085521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810600568.5A Active CN108810140B (zh) 2018-06-12 2018-06-12 云存储系统中基于动态阈值调整的高性能分级存储优化方法

Country Status (1)

Country Link
CN (1) CN108810140B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096350B (zh) * 2019-04-10 2020-05-05 山东科技大学 基于集群节点负载状态预测的冷热区域划分节能存储方法
CN110502910B (zh) * 2019-08-07 2021-03-30 珍岛信息技术(上海)股份有限公司 一种基于数据加密的云端信息存储系统
CN110825908B (zh) * 2019-11-04 2023-04-25 安超云软件有限公司 一种对象的迁移方法、装置、电子设备及存储介质
CN110941513B (zh) * 2019-11-22 2022-03-22 浪潮电子信息产业股份有限公司 一种数据重构方法及相关装置
CN112231294B (zh) * 2020-09-18 2022-08-05 苏州浪潮智能科技有限公司 一种智能存储管理数据块的异构存储策略选举方法、装置
CN112948398B (zh) * 2021-04-29 2023-02-24 电子科技大学 一种面向冷热数据的分级存储系统及方法
WO2022246644A1 (en) * 2021-05-25 2022-12-01 Citrix Systems, Inc. Data transfer across storage tiers
CN114640516B (zh) * 2022-03-09 2023-10-20 平安科技(深圳)有限公司 存储集群的访问控制方法和装置、电子设备、存储介质
CN118018563A (zh) * 2024-04-10 2024-05-10 厦门福慧康电子科技有限公司 一种具有分布式存储结构的系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077127A (zh) * 2012-12-29 2013-05-01 深圳先进技术研究院 一种确定数据迁移对象的方法和装置
CN103150263A (zh) * 2012-12-13 2013-06-12 深圳先进技术研究院 分级存储方法
CN104573119A (zh) * 2015-02-05 2015-04-29 重庆大学 云计算中面向节能的Hadoop分布式文件系统存储策略
CN106502576A (zh) * 2015-09-06 2017-03-15 中兴通讯股份有限公司 迁移策略调整方法、容量变更建议方法及装置
CN107919151A (zh) * 2016-10-10 2018-04-17 三星电子株式会社 存储器器件及其操作方法,以及存储器系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7945743B2 (en) * 2007-04-30 2011-05-17 Hewlett-Packard Development Company, L.P. Dynamic storage based on performance throttling
US9595049B2 (en) * 2012-06-11 2017-03-14 Retailmenot, Inc. Cross-device geolocation sensing to geotarget offers
US10193706B2 (en) * 2015-10-21 2019-01-29 Arris Enterprises Llc Distributed rule provisioning in an extended bridge

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150263A (zh) * 2012-12-13 2013-06-12 深圳先进技术研究院 分级存储方法
CN103077127A (zh) * 2012-12-29 2013-05-01 深圳先进技术研究院 一种确定数据迁移对象的方法和装置
CN104573119A (zh) * 2015-02-05 2015-04-29 重庆大学 云计算中面向节能的Hadoop分布式文件系统存储策略
CN106502576A (zh) * 2015-09-06 2017-03-15 中兴通讯股份有限公司 迁移策略调整方法、容量变更建议方法及装置
CN107919151A (zh) * 2016-10-10 2018-04-17 三星电子株式会社 存储器器件及其操作方法,以及存储器系统

Also Published As

Publication number Publication date
CN108810140A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108810140B (zh) 云存储系统中基于动态阈值调整的高性能分级存储优化方法
CN104618269B (zh) 基于能耗要求的云系统利用率最大化资源分配方法
CN102737126B (zh) 云计算环境下的分类规则挖掘方法
CN102222092B (zh) 一种MapReduce平台上的海量高维数据聚类方法
CN105574153A (zh) 一种基于文件热度分析和K-means的副本放置方法
CN105391654A (zh) 基于账户活跃度的系统资源分配方法及装置
CN108416054B (zh) 基于文件访问热度的动态hdfs副本个数计算方法
US20140214800A1 (en) Data-Aware Scalable Parallel Execution of Rollup Operations
CN112835698A (zh) 一种基于异构集群的请求分类处理的动态负载均衡方法
CN112417500B (zh) 一种隐私保护的数据流统计发布方法
CN103294912B (zh) 一种面向移动设备基于预测的缓存优化方法
CN113382074A (zh) 一种基于动态反馈的微服务负载均衡优化方法
CN111343006B (zh) 一种cdn峰值流量预测方法、装置及存储介质
CN101419600A (zh) 基于面向对象文件系统的数据副本映射方法及装置
EP3465966A1 (en) A node of a network and a method of operating the same for resource distribution
CN114973673A (zh) 车路协同系统中结合noma和内容缓存的任务卸载方法
CN108536823B (zh) 一种物联网感知大数据的缓存设计和查询方法
CN111159406A (zh) 基于并行改进的K-means算法的大数据文本聚类方法及系统
CN112862060A (zh) 一种基于深度学习的内容缓存方法
CN112765177B (zh) 一种基于负载驱动的分布式图数据分割和复制方法
CN105554069B (zh) 一种大数据处理分布式缓存系统及其方法
CN108897847B (zh) 基于局部敏感哈希的多gpu密度峰值聚类方法
CN112307286B (zh) 一种基于并行st-agnes算法的车辆轨迹聚类方法
CN116595102B (zh) 一种改进聚类算法的大数据管理方法及系统
CN111897784A (zh) 一种面向键值存储的近数据计算集群系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant