CN103997512B - 一种面向云存储系统的数据副本数量确定方法 - Google Patents

一种面向云存储系统的数据副本数量确定方法 Download PDF

Info

Publication number
CN103997512B
CN103997512B CN201410149010.1A CN201410149010A CN103997512B CN 103997512 B CN103997512 B CN 103997512B CN 201410149010 A CN201410149010 A CN 201410149010A CN 103997512 B CN103997512 B CN 103997512B
Authority
CN
China
Prior art keywords
data
node
type
trnascription
popularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410149010.1A
Other languages
English (en)
Other versions
CN103997512A (zh
Inventor
徐小龙
邹勤文
徐佳
邓艳
王屹进
刘笑笑
李永萍
涂群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zeshi Technology Co.,Ltd.
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201410149010.1A priority Critical patent/CN103997512B/zh
Publication of CN103997512A publication Critical patent/CN103997512A/zh
Application granted granted Critical
Publication of CN103997512B publication Critical patent/CN103997512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提出一种面向云存储系统的数据副本数量确定方法,其方法基于数据流行度与节点热度,以满足服务需求、控制数据副本数量为目标,对数据分类并预测不同数据的数据副本需求数,提前增加数据副本,或及时删除过多的数据副本,本发明方法包含以下几个环节:分析数据流行度预测模型;预测数据副本变化数;计算节点热度;增加/删除数据副本;迁移数据副本。方法减少数据副本需求数,降低了硬件成本,减轻了系统的数据维护负担,降低了热点问题的发生概率,有效提高了数据副本的利用率。

Description

一种面向云存储系统的数据副本数量确定方法
技术领域
本发明涉及信息技术类数据管理应用领域,尤其涉及一种面向云存储系统的数据副本数量的确定方法。
背景技术
云存储是在云计算概念上延伸和发展出来的一个新概念,通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的系统。
云存储通过互联网为多用户提供高性价比的共享存储资源池。用户不需要了解云存储系统的组成,也不需要了解提供存储服务的具体细节,所有设备对于用户均是透明的,任何一个合法用户通过网络都可以连接云存储系统,获得相应的服务。云存储概念一经提出,就得到了产业界及学术界的关注。根据IDC(International Data Corporation,国际数据集团)的数据,2013年云存储服务的增长率超过所有其他类型的云服务。
在云存储系统中存储了大量数据及其副本,且数据规模仍在迅速增加,这使得数据副本管理模块是云存储系统中必不可少的组件。高效的数据副本管理方法可以有效地解决系统容错性差、稳定可靠性低以及访问速度慢等问题。目前的数据副本管理方法所要达到的目标包括如何保障系统更高的服务可靠性、数据副本一致性、合理的数据副本数量及均衡的系统负载等问题。
其中适当控制数据副本数量尤其必要。数据副本数量过多会造成节点存储资源和网络带宽的浪费,加重系统和网络负担;数量过少则数据的可用性和访问速度得不到保证,容易造成热点问题。合理计算各数据对象所需要的数据副本数量有助于系统的数据副本总数控制。
目前的数据副本复制数量的确定一般都采用静态策略,一般都将数据副本数量设置为预先确定好,然后将数据副本存储在若干存储节点上,即通过简单冗余来避免数据访问失效现象的发生,目前的谷歌云平台、Hadoop(一个分布式系统基础架构,由阿帕奇基金会开发)等系统都是将数据副本数量设置为3份,然后将数据副本存储在不同的3个存储节点上。
这种数据副本数量的静态确定方法没有考虑数据的访问规律,不能满足不同数据的访问需求,使得系统无法在服务质量和资源开销间取得平衡,造成资源浪费,且难以解决热点问题,增加了不必要的硬件成本。
发明内容
为解决上述技术问题,本发明提供一种面向云存储系统的数据副本数量确定方法,其采用的技术方案如下:
一种面向云存储系统的数据副本数量确定方法,包括如下步骤:
步骤一:通过归纳云存储系统中数据访问规律将云存储系统中的数据分为Ⅰ型、Ⅱ型、Ⅲ型、Ⅳ型数据,各类型数据初始建立3份副本,并建立相应的数据流行度模型,计算节点热度;
步骤二:新数据到达云存储系统一段时间后,根据数据流行度模型提供的数据流行度变化规律,判断数据的类型,计算出下一时期数据副本需求数与当前数据副本数之差Δri
步骤三:当某一类型的数据Δri大于0时,则增加该数据的副本数;当某一类型的数据Δri小于0时,则减少该数据的副本数;当某一类型的数据Δri等于0时,则对该数据的副本数不作调整。
步骤四:设定的节点的热度上限阈值,将节点热度达到或超过上限阈值的节点上的最热的数据副本迁移到热度最低且当前不包含该数据副本的节点上,并在节点热度降低到热度上限阈值以下之前,不在该节点上创建新的数据副本。
步骤一中的节点热度hnode计算方法如下:
式中,n为该节点存储的总数据副本数,而dj为节点中的第j个数据副本,a(dj)为数据副本dj在上一个时间周期内的访问次数。
步骤二中判断数据类型的方法为采用流行度面积与流行度的斜率面积判断当前数据所属数据类型。数据类型的判断如以下步骤:
步骤1:计算出当前数据对象流行度面积sp=∫pdt,斜率面积sk=∫kdt;其中p为当前数据对象流行度,sp为当前数据对象流行度面积,t为时间,k为当前数据对象流行度斜率,sk为当前数据对象流行度斜率面积,∫和d为积分运算符号。
步骤2:若sp接近于Ⅰ型数据的流行度面积sp1=∫p1dt,其中p1为Ⅰ型数据流行度,sp1为Ⅰ型数据流行度面积,t为时间,由于此时其它类型数据的与流行度面积明显大于Ⅰ型数据,从而可以判断当前数据为Ⅰ型数据,确定该数据对象的数据副本数不用改变,并结束数据类型判断;否则继续步骤3。
步骤3:若数据对象流行度斜率面积sk接近于Ⅲ型数据的流行度斜率面积sk3=∫k3dt,其中k3为Ⅲ型数据的流行度斜率,sk3为Ⅲ型数据的流行度斜率面积,t为时间,由于此时Ⅲ型数据的访问增加迅速,即它的流行度斜率面积明显大于其它类型数据,所以该数据对象属于Ⅲ型数据,结束数据类型判断;否则继续步骤4。
步骤4:若sp接近于Ⅱ型数据的流行度面积sp2=∫p2dt,其中p2为Ⅱ型数据流行度,sp2为Ⅱ型数据流行度面积,t为时间,且sk接近于Ⅱ型数据的流行度斜率面积sk2=∫k2dt,其中k2为Ⅱ型数据的流行度斜率,sk2为Ⅱ型数据的流行度斜率面积,t为时间,由于此时Ⅱ型数据与Ⅳ型数据的流行度面积相近但斜率变化明显不同,从而该数据对象属于Ⅱ型数据,结束数据类型判断;否则该数据对象属于Ⅳ型数据,结束数据类型判断。
步骤二中的下一时期数据副本需求数与当前数据副本数之差Δri计算方法如下:
确定数据对象的类型后,对Ⅱ、Ⅲ、Ⅳ型数据的数据副本预期变化数的计算式如下:
式中,Δri为当前类型为i型的数据对象的副本预期变化数,ρi为针对i型数据的可调节因子,Δpi为从此时到预期时刻i型数据的流行度的变化量,pi为当前类型为i型的数据对象的当前流行度,ri为当前类型为i型的数据对象的副本数。
步骤三中增加数据副本的方法如下:
步骤1:首先找出持有该数据对象数据副本的节点集合S(Nhold),Nhold指持有该数据对象数据副本的节点;
步骤2:按节点热度升序排列集合S(Nhold)中所有的节点;
步骤3:以序列中热度最小的节点作为Δri份数据副本的创建者,即负责将数据副本复制并传输到系统的其它当前没有该数据副本的Δri个节点上,这Δri个节点是不属于节点集合S(Nhold)的节点中热度hnode最低的那Δri个节点。
步骤三中减少数据副本的方法如下:
步骤1:首先找出持有该数据对象数据副本的节点集合S(Nhold),Nhold指持有该数据对象数据副本的节点;
步骤2:按节点热度降序排列集合S(Nhold)中所有的节点;
步骤3:通知序列中的前Δri个节点删除该数据副本。
步骤四中迁移数据副本的方法如下:
步骤1:节点持续监控本地的数据副本访问情况,若节点A的节点热度hnode处于热度上限阈值以下,则不作任何其它操作,仍继续监控本地的数据副本访问情况;若发现节点A的节点热度hnode已经达到或超过上限阈值,则转到步骤2;
步骤2:节点A对本地所有数据副本按a(dj)进行排序,首先找出a(dj)最高的数据副本,然后将持有该相同数据副本的节点集合S(Nhold)中的节点按节点热度升序排列所有的Nhold
步骤3:节点A通知序列中热度最低的节点(设为节点B)来负责复制并传输该数据副本。
步骤4:节点B根据获得的通知,在系统中找出不持有该数据对象的数据副本的节点集合中热度最低的节点(设为节点C),节点B将数据副本复制并传输到节点C;
步骤5:如果数据副本传输成功,节点B向节点A报告已经将副本迁移成功,然后转到步骤7;如果数据副本传输失败,转到步骤6;
步骤6:节点B在系统中找出不持有该数据对象的数据副本的节点集合中除已经试图传输但失败的节点之外热度最低的节点,节点B将数据副本复制并传输到该节点上;转到步骤5。
步骤7:节点A收到已经将数据副本迁移成功报告后,删除本地该数据副本。
本发明提出的面向云存储系统的数据副本数量确定方法,可达到以下的有益效果:(1)数据副本数被动态调节,可以在服务质量和资源开销间取得平衡。(2)对热点数据副本进行复制与转移降低了热点问题的发生概率。(3)数据副本数量的降低有效提高了数据副本的利用率,同时降低了硬件成本,减轻了系统的数据维护负担。
附图说明
图1是数据流行度变化规律图。
图2是数据副本数量预测流程图。
具体实施方式
本发明提出一种面向云存储系统的数据副本数量确定方法,基于流行度预测与热点监测机制,以满足服务需求、控制数据副本数量及减缓网络拥塞为目标,将数据分类并预测不同数据的数据副本需求数,合理的提前增加数据副本,或及时删除过多的数据副本。
本发明提出的一种面向云存储系统的数据副本数量确定方法包含以下几个环节:分析数据流行度预测模型;预测数据副本变化数;增加/删除数据副本;调整高热节点上的数据副本。1、分析数据流行度
将数据的访问频率称为数据的流行度。通过数据流行度分析构建数据流行度模型,即通过归纳云存储系统中的数据访问规律将数据分类,给出不同时期不同类型的数据访问情况。
(1)数据分类
按照数据存储系统中数据流行度的变化规律,将数据分为四种类型,如图1所示:
Ⅰ型数据——数据及其副本被创建和使用一次或几次后,没有被访问,或访问的次数极少,即流行度初始时较低,随后几乎为零;
Ⅱ型数据——数据及其副本被创建后,流行度较高,且维持在一个较平稳区域内,波动很少;
Ⅲ型数据——数据及其副本被创建后,流行度迅速攀升,并达到峰值,在后续的一段时间内保持高流行度,然后逐渐衰减;
Ⅳ型数据——数据及其副本被创建后,流行度较高,但在不同的时段内受访问用户活动状态的影响,流行度总体呈现持续而稳定的波动性变化。
针对上述同一类型的数据,在具体的不同种类的云存储系统中存储的数据流行度幅值与变化周期也有一定的差异。例如,新闻类网站所依托的云存储系统中的数据,按照数据流行度的变化规律,可将数据分为上述四种类型,视频共享类网站所依托的云存储系统中的数据,按照数据流行度的变化规律,也可将数据分为上述四种类型,但这两类网站所依托的云存储系统中的数据流行度的幅值与变化周期是不一样的。而两个新闻类网站所依托的云存储系统中的数据,按照数据流行度的变化规律,均可将数据分为上述四种类型,但是由于用户规模的不同,这两个新闻类网站所依托的云存储系统中的数据流行度的幅值是不一样的。此外,在同一个新闻类网站所依托的云存储系统中的同一类型的具体不同数据的变化规律是相同的,其数据流行度的幅值和周期是接近的。
(2)数量调节
为保证各数据的高可靠性,在数据被托管到云存储系统中时首先立即创建3份数据副本。后续将流行度不为0的数据对象的数据副本数量至少维持3份;而将流行度为0的数据对象完全删除,或是仅保留1份至3份,系统可根据需要灵活设定。此后,根据数据流行度变化规律,动态调节数据副本数量。
(a)Ⅰ型数据
在创建后,Ⅰ型数据的流行度在初始时较小随后降低,且在短期内即接近于0,因而,在云存储系统中Ⅰ型数据的副本数维持在3份即可。
(b)Ⅱ型数据
由于Ⅱ型数据流行度长期稳定,所以在其流行度达到稳定值之前在初始数据副本的基础上增加若干数据副本即可以满足用户的访问需求,此后该数据的数据副本数不用改变。
(c)Ⅲ型数据
对于Ⅲ型数据而言,前后时间区段流行度具有很大差异,Ⅲ型数据有一个数据副本快速增加和逐渐减少的过程。对于流行度激增的Ⅲ型数据,系统应能够迅速地在更大的访问量到来之前及时创建足够数量的数据副本,而在数据流行度衰减时,能够及时删减数据的数据副本数。如图1所示,Ⅲ型数据在流行度上升阶段,其曲线的斜率比流行度平稳的数据要大,因此本方法通过观察当前时段的斜率来实现数据应对未来访问需要所需创建数据副本数的准确预测;在数据流行度衰减阶段,其曲线的斜率为负值,比流行度平稳的数据要小。
(d)Ⅳ型数据
Ⅳ型数据的流行度变化呈稳定的波动性,在数据流行度上升阶段,其曲线的斜率k比Ⅱ型数据流行度平稳的数据稍低,在数据流行度降低阶段与流行度上升阶段时斜率变化模式相近,波峰值大于Ⅱ型数据而小于Ⅲ型数据,因此应该在较大的时间窗口内考察数据的访问情况。
2、计算节点热度
节点热度为节点在某一时期内本地数据副本总的访问次数,是衡量节点负载的指标。为了实现负载均衡,提供访问效率,节点需要定期计算自身的热度,作为选择执行数据副本的创建或删除操作的节点的依据,即计算一个时间周期内本地数据副本总的访问次数,节点热度hnode计算方法如下:
式中,n为该节点存储的总数据副本数,而dj为节点中的第j个数据副本,a(dj)为数据副本dj在上一个时间周期内的访问次数。
3、预测数据副本变化数
令Ⅱ、Ⅲ、Ⅳ型数据流行度在上升阶段的斜率依次为k2、k3、k4;令Ⅰ、Ⅱ、Ⅲ、Ⅳ型数据副本数决策周期依次为T1、T2、T3、T4。Ⅰ、Ⅱ、Ⅲ、Ⅳ型数据流行度依次为p1、p2、p3、p4。根据数据对象流行度的变化周期,其中T1为数据流行度从0上升到趋向于0的时间段,T2为数据流行度从0上升到趋向于平稳的时间段,T3为数据流行度由0达到稳定值时的时间段,T4则为流行度的一个波谷到相邻最近的一个波谷的时间段的n倍时间。在一个具体的云存储系统中,Ⅱ、Ⅲ、Ⅳ型数据流行度在上升阶段的斜率k2、k3、k4,Ⅰ、Ⅱ、Ⅲ、Ⅳ型数据副本数决策周期T1、T2、T3、T4,以及Ⅰ、Ⅱ、Ⅲ、Ⅳ型数据流行度p1、p2、p3、p4的具体数值将在系统运行一段时间内通过系统运行日志统计分析获得。后续将以所获得的这些参数的作为依据,对具体数据的类型进行判断。
初始时,任意数据均已共计有3份数据副本,后期数据副本数的调节主要依据预测结果:首先判断某数据对象属于哪一型数据;然后判断是否需要增加或删除数据副本,并计算出数据副本的预期变化数Δr;指定执行数据副本的创建或删除操作的节点。
从原始数据到达云存储系统到决定数据副本的增加/删除的过程如图2所示。
(1)判断数据类型
在新数据到达云存储系统后达T2/2时间后,即判断其类型。此时除了Ⅰ型数据已处于流行度降低阶段,其它三种类型数据均处于流行度上升期。本发明根据四种数据的访问规律,采用流行度面积与流行度的斜率面积判断当前数据所属数据类型。数据类型的判断如以下步骤:
步骤1:计算出当前数据对象流行度面积sp=∫pdt,斜率面积sk=∫kdt;其中p为当前数据对象流行度,sp为当前数据对象流行度面积,t为时间,k为当前数据对象流行度斜率,sk为当前数据对象流行度斜率面积,∫和d为积分运算符号。
步骤2:若sp接近于Ⅰ型数据的流行度面积sp1=∫p1dt,其中p1为Ⅰ型数据流行度,sp1为Ⅰ型数据流行度面积,t为时间,由于此时其它类型数据的与流行度面积明显大于Ⅰ型数据,从而可以判断当前数据为Ⅰ型数据,确定该数据对象的数据副本数不用改变,并结束数据类型判断;否则继续步骤3。
步骤3:若数据对象流行度斜率面积sk接近于Ⅲ型数据的流行度斜率面积sk3=∫k3dt,其中k3为Ⅲ型数据的流行度斜率,sk3为Ⅲ型数据的流行度斜率面积,t为时间,由于此时Ⅲ型数据的访问增加迅速,即它的流行度斜率面积明显大于其它类型数据,所以该数据对象属于Ⅲ型数据,结束数据类型判断;否则继续步骤4。
步骤4:若sp接近于Ⅱ型数据的流行度面积sp2=∫p2dt,其中p2为Ⅱ型数据流行度,sp2为Ⅱ型数据流行度面积,t为时间,且sk接近于Ⅱ型数据的流行度斜率面积sk2=∫k2dt,其中k2为Ⅱ型数据的流行度斜率,sk2为Ⅱ型数据的流行度斜率面积,t为时间,由于此时Ⅱ型数据与Ⅳ型数据的流行度面积相近但斜率变化明显不同,从而该数据对象属于Ⅱ型数据,结束数据类型判断;否则该数据对象属于Ⅳ型数据,结束数据类型判断。
(2)预期数据副本变化数
确定数据对象的类型后,对Ⅱ、Ⅲ、Ⅳ型数据的数据副本预期变化数的计算式如下:
式中,Δri为当前类型为i型的数据对象的副本预期变化数,ρi为针对i型数据的可调节因子,Δpi为从此时到预期时刻i型数据的流行度的变化量,pi为当前类型为i型的数据对象的当前流行度,ri为当前类型为i型的数据对象的副本数。当Δri>0时,该数据对象流行度处于上升时期,需要增加数据副本;当Δri<0时,该数据对象流行度处于衰退时期,需要删除数据副本;当Δri=0时,该数据对象的数据副本数量不作调整。
4、增加/删除数据副本
在增加数据副本和删除数据副本时期,以节点热度作为选择执行数据副本的创建或删除操作的节点的依据。
需要增加数据副本时,步骤如下:
步骤1:首先找出持有该数据对象数据副本的节点集合S(Nhold),Nhold指持有该数据对象数据副本的节点;
步骤2:按节点热度升序排列集合S(Nhold)中所有的节点;
步骤3:以序列中热度最小的节点作为Δri份数据副本的创建者,即负责将数据副本复制并传输到系统的其它当前没有该数据副本的Δri个节点上,这Δri个节点是不属于节点集合S(Nhold)的节点中热度hnode最低的那Δri个节点。
需要删除数据副本时,
步骤1:首先找出持有该数据对象数据副本的节点集合S(Nhold);
步骤2:按节点热度降序排列集合S(Nhold)中所有的节点;
步骤3:通知序列中的前Δri个节点删除该数据副本。
5、迁移数据副本
热度上限阈值为触发节点实施拒绝创建新副本和迁移已有数据副本的热度临界点。热度上限阈值的设定可根据节点本身的性能和服务质量要求,由管理员或系统灵活设定,例如,系统要求节点在收到数据访问请求到提供相关数据的数据服务响应时间最长为0.3秒时,而该节点在一个时间周期内的节点热度hnode达到10000时,数据服务响应时间将达到或略大于0.3秒时,可将10000设定为热度上限阈值。设定的节点的热度上限阈值,将节点热度达到或超过上限阈值的节点上的最热的数据副本迁移到热度最低且当前不包含该数据副本的节点上,并在节点热度降低到热度上限阈值以下之前,不在该节点上创建新的数据副本,从而降低节点的负载实现负载平衡。
本发明将迁移看成是将数据副本复制并传输到异地节点并删除本地数据副本的过程。而复制并传输数据副本也是需要花费一定的系统开销,为了不增加当前热度已经达到或超过上限阈值的节点的负担,系统选择拥有同样数据副本且热度最低的节点来负责复制并传输该数据副本。
因此,迁移数据副本的步骤如下:
步骤1:节点(设为节点A)持续监控本地的数据副本访问情况,若节点A的节点热度hnode处于热度上限阈值以下,则不作任何其它操作,仍继续监控本地的数据副本访问情况;若发现节点A的节点热度hnode已经达到或超过上限阈值,则转到步骤2;
步骤2:节点A对本地所有数据副本按a(dj)进行排序,首先找出a(dj)最高的数据副本,然后将持有该相同数据副本的节点集合S(Nhold)中的节点按节点热度升序排列所有的Nhold
步骤3:节点A通知序列中热度最低的节点(设为节点B)来负责复制并传输该数据副本。
步骤4:节点B根据获得的通知,在系统中找出不持有该数据对象的数据副本的节点集合中热度最低的节点(设为节点C),节点B将数据副本复制并传输到节点C;
步骤5:如果数据副本传输成功,节点B向节点A报告已经将副本迁移成功,然后转到步骤7;如果数据副本传输失败,转到步骤6;
步骤6:节点B在系统中找出不持有该数据对象的数据副本的节点集合中除已经试图传输但失败的节点之外热度最低的节点,节点B将数据副本复制并传输到该节点上;转到步骤5。
步骤7:节点A收到已经将数据副本迁移成功报告后,删除本地该数据副本。

Claims (6)

1.一种面向云存储系统的数据副本数量确定方法,包括如下步骤:
步骤一:通过归纳云存储系统中数据访问规律将云存储系统中的数据分为Ⅰ型、Ⅱ型、Ⅲ型、Ⅳ型数据,
Ⅰ型数据——数据及其副本被创建和使用一次或几次后,没有被访问,或访问的次数极少,即流行度初始时较低,随后几乎为零;
Ⅱ型数据——数据及其副本被创建后,流行度较高,且维持在一个较平稳区域内,波动很少;
Ⅲ型数据——数据及其副本被创建后,流行度迅速攀升,并达到峰值,在后续的一段时间内保持高流行度,然后逐渐衰减;
Ⅳ型数据——数据及其副本被创建后,流行度较高,但在不同的时段内受访问用户活动状态的影响,流行度总体呈现持续而稳定的波动性变化;
各类型数据初始建立3份副本,并建立相应的数据流行度模型,计算节点热度;节点热度hnode计算方法如下:
h n o d e = Σ j = 1 n a ( d j ) ;
式中,n为该节点存储的总数据副本数,而dj为节点中的第j个数据副本,a(dj)为数据副本dj在上一个时间周期内的访问次数;
步骤二:新数据到达云存储系统一段时间后,根据数据流行度模型提供的数据流行度变化规律,判断数据的类型,计算出下一时期数据副本需求数与当前数据副本数之差Δri
步骤三:当某一类型的数据Δri大于0时,则增加该数据的副本数;当某一类型的数据Δri小于0时,则减少该数据的副本数;当某一类型的数据Δri等于0时,则对该数据的副本数不作调整;
步骤四:设定的节点的热度上限阈值,将节点热度达到或超过上限阈值的节点上的最热的数据副本迁移到热度最低且当前不包含该数据副本的节点上,并在节点热度降低到热度上限阈值以下之前,不在该节点上创建新的数据副本。
2.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法,其步骤二中判断数据类型的方法为采用流行度面积与流行度的斜率面积判断当前数据所属数据类型,数据类型的判断如以下步骤:
步骤1:计算出当前数据对象流行度面积sp=∫pdt,斜率面积sk=∫kdt;其中p为当前数据对象流行度,sp为当前数据对象流行度面积,t为时间,k为当前数据对象流行度斜率,sk为当前数据对象流行度斜率面积,∫和d为积分运算符号;
步骤2:若sp接近于Ⅰ型数据的流行度面积sp1=∫p1dt,其中p1为Ⅰ型数据流行度,sp1为Ⅰ型数据流行度面积,t为时间,由于此时其它类型数据的与流行度面积明显大于Ⅰ型数据,从而可以判断当前数据为Ⅰ型数据,确定该数据对象的数据副本数不用改变,并结束数据类型判断;否则继续步骤3;
步骤3:若数据对象流行度斜率面积sk接近于Ⅲ型数据的流行度斜率面积sk3=∫k3dt,其中k3为Ⅲ型数据的流行度斜率,sk3为Ⅲ型数据的流行度斜率面积,t为时间,由于此时Ⅲ型数据的访问增加迅速,即它的流行度斜率面积明显大于其它类型数据,所以该数据对象属于Ⅲ型数据,结束数据类型判断;否则继续步骤4;
步骤4:若sp接近于Ⅱ型数据的流行度面积sp2=∫p2dt,其中p2为Ⅱ型数据流行度,sp2为Ⅱ型数据流行度面积,t为时间,且sk接近于Ⅱ型数据的流行度斜率面积sk2=∫k2dt,其中k2为Ⅱ型数据的流行度斜率,sk2为Ⅱ型数据的流行度斜率面积,t为时间,由于此时Ⅱ型数据与Ⅳ型数据的流行度面积相近但斜率变化明显不同,从而该数据对象属于Ⅱ型数据,结束数据类型判断;否则该数据对象属于Ⅳ型数据,结束数据类型判断。
3.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法,其步骤二中的下一时期数据副本需求数与当前数据副本数之差Δri计算方法如下:
确定数据对象的类型后,对Ⅱ、Ⅲ、Ⅳ型数据的数据副本预期变化数的计算式如下:
式中,Δri为当前类型为i型的数据对象的副本预期变化数,ρi为针对i型数据的可调节因子,Δpi为从此时到预期时刻i型数据的流行度的变化量,pi为当前类型为i型的数据对象的当前流行度,ri为当前类型为i型的数据对象的副本数。
4.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法,步骤三中增加数据副本的方法如下:
步骤1:首先找出持有该数据对象数据副本的节点集合S(Nhold),Nhold)指持有该数据对象数据副本的节点;
步骤2:按节点热度升序排列集合S(Nhold)中所有的节点;
步骤3:以序列中热度最小的节点作为Δri份数据副本的创建者,即负责将数据副本复制并传输到系统的其它当前没有该数据副本的Δri个节点上,这Δri个节点是不属于节点集合S(Nhold)的节点中热度hnode最低的那Δri个节点。
5.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法,步骤三中减少数据副本的方法如下:
步骤1:首先找出持有该数据对象数据副本的节点集合S(Nhold),Nhold)指持有该数据对象数据副本的节点;
步骤2:按节点热度降序排列集合S(Nhold)中所有的节点;
步骤3:通知序列中的前Δri个节点删除该数据副本。
6.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法,步骤四中迁移数据副本的方法如下:
步骤1:节点持续监控本地的数据副本访问情况,若节点A的节点热度hnode处于热度上限阈值以下,则不作任何其它操作,仍继续监控本地的数据副本访问情况;若发现节点A的节点热度hnode已经达到或超过上限阈值,则转到步骤2;
步骤2:节点A对本地所有数据副本按a(dj)进行排序,首先找出a(dj)最高的数据副本,然后将持有该相同数据副本的节点集合S(Nhold)中的节点按节点热度升序排列所有的Nhold);
步骤3:节点A通知序列中热度最低的节点,设为节点,来负责复制并传输该数据副本;
步骤4:节点B根据获得的通知,在系统中找出不持有该数据对象的数据副本的节点集合中热度最低的节点,设为节点C,节点B将数据副本复制并传输到节点C;
步骤5:如果数据副本传输成功,节点B向节点A报告已经将副本迁移成功,然后转到步骤7;如果数据副本传输失败,转到步骤6;
步骤6:节点B在系统中找出不持有该数据对象的数据副本的节点集合中除已经试图传输但失败的节点之外热度最低的节点,节点B将数据副本复制并传输到该节点上;转到步骤5;
步骤7:节点A收到已经将数据副本迁移成功报告后,删除本地该数据副本。
CN201410149010.1A 2014-04-14 2014-04-14 一种面向云存储系统的数据副本数量确定方法 Active CN103997512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410149010.1A CN103997512B (zh) 2014-04-14 2014-04-14 一种面向云存储系统的数据副本数量确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410149010.1A CN103997512B (zh) 2014-04-14 2014-04-14 一种面向云存储系统的数据副本数量确定方法

Publications (2)

Publication Number Publication Date
CN103997512A CN103997512A (zh) 2014-08-20
CN103997512B true CN103997512B (zh) 2017-06-30

Family

ID=51311515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410149010.1A Active CN103997512B (zh) 2014-04-14 2014-04-14 一种面向云存储系统的数据副本数量确定方法

Country Status (1)

Country Link
CN (1) CN103997512B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033434B (zh) * 2015-03-12 2019-06-14 中国人民解放军国防科学技术大学 基于数据规模和流行程度的虚拟资产数据副本处理方法
CN105162720A (zh) * 2015-10-22 2015-12-16 上海新储集成电路有限公司 一种减少数据传输的通信网络及方法
CN105488180B (zh) * 2015-11-30 2019-04-26 中国建设银行股份有限公司 一种数据存储方法及系统
CN106909472B (zh) * 2015-12-22 2020-09-11 中国移动通信集团河北有限公司 一种分布式文件系统的输入/输出负载调整方法及装置
CN107276781B (zh) * 2016-04-07 2019-10-22 中国科学院声学研究所 一种带存储的路由器扩展内容分发网络的预部署方法
CN105791427B (zh) * 2016-04-22 2019-09-20 百度在线网络技术(北京)有限公司 资源热度补充方法、装置和系统
CN107783720A (zh) * 2016-08-24 2018-03-09 深圳市深信服电子科技有限公司 一种数据均衡方法及存储设备
CN107846429B (zh) * 2016-09-18 2021-01-29 华为技术有限公司 一种文件备份方法、装置和系统
CN108268211B (zh) * 2017-01-03 2021-09-14 中国移动通信有限公司研究院 一种数据处理方法及装置
CN106886376B (zh) * 2017-03-30 2019-08-30 上海海洋大学 一种基于多属性最优化的海洋监测数据副本管理方法
CN107145736A (zh) * 2017-05-04 2017-09-08 上海博历机械科技有限公司 一种基于信息储备的中医专家在线智能诊断系统
CN110058790B (zh) * 2018-01-18 2022-05-13 伊姆西Ip控股有限责任公司 用于存储数据的方法、设备和计算机程序产品
CN109348250A (zh) * 2018-10-31 2019-02-15 武汉雨滴科技有限公司 一种流媒体数据管理方法
CN109753243A (zh) * 2018-12-26 2019-05-14 深圳市网心科技有限公司 副本部署方法、云服务器及存储介质
CN110222043B (zh) * 2019-06-12 2021-08-24 青岛大学 云存储服务器的数据监控方法、装置及设备
CN110572410A (zh) * 2019-09-16 2019-12-13 苏州百宝箱科技有限公司 基于大数据的信息安全系统和方法
CN112948171A (zh) * 2019-12-11 2021-06-11 华为技术有限公司 数据处理方法、装置、终端设备及计算机可读存储介质
CN111475108B (zh) * 2020-03-20 2023-11-28 深圳赛安特技术服务有限公司 一种分布式存储方法、计算机设备及计算机可读存储介质
CN116600015B (zh) * 2023-07-18 2023-10-10 湖南快乐阳光互动娱乐传媒有限公司 一种资源节点调整方法、系统、电子设备及可读存储介质
CN117118742B (zh) * 2023-10-16 2024-01-12 思创数码科技股份有限公司 基于访问频率监测的政务数据运营方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096723A (zh) * 2011-04-07 2011-06-15 江苏省电力公司 基于副本复制算法的数据查询方法
CN103425756A (zh) * 2013-07-31 2013-12-04 西安交通大学 一种hdfs中数据块的副本管理策略
CN103763363A (zh) * 2014-01-14 2014-04-30 南京邮电大学 一种云存储系统及基于该系统的文件副本部署方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096723A (zh) * 2011-04-07 2011-06-15 江苏省电力公司 基于副本复制算法的数据查询方法
CN103425756A (zh) * 2013-07-31 2013-12-04 西安交通大学 一种hdfs中数据块的副本管理策略
CN103763363A (zh) * 2014-01-14 2014-04-30 南京邮电大学 一种云存储系统及基于该系统的文件副本部署方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
分布式存储系统中数据副本管理机制;徐小龙 等;《计算机技术与发展》;20130210;第23卷(第2期);第246-249页 *

Also Published As

Publication number Publication date
CN103997512A (zh) 2014-08-20

Similar Documents

Publication Publication Date Title
CN103997512B (zh) 一种面向云存储系统的数据副本数量确定方法
Ghobaei‐Arani et al. A learning‐based approach for virtual machine placement in cloud data centers
CN103595805A (zh) 一种基于分布式集群的数据放置方法
US20200351207A1 (en) Method and system of limiting traffic
CN107436813A (zh) 一种元数据服务器动态负载均衡的方法及系统
JP2005196601A (ja) 自律管理システム向けポリシシミュレータ
CN107169009B (zh) 一种分布式存储系统的数据分裂方法及装置
CN103139302A (zh) 考虑负载均衡的实时副本调度方法
CN103428008A (zh) 面向多用户群的大数据分发策略
CN111381928B (zh) 一种虚拟机迁移方法、云计算管理平台和存储介质
CN103152389A (zh) 应用于云计算机系统中应对高峰访问的方法和装置
CN105975345B (zh) 一种基于分布式内存的视频帧数据动态均衡存储管理方法
CN110662245A (zh) 基于深度学习的基站负荷预警方法及装置
CN113342510B (zh) 一种水电流域应急指挥云边计算资源协同处理方法
US20220407914A1 (en) Method, system and device for cdn scheduling, and storage medium
CN108810140A (zh) 云存储系统中基于动态阈值调整的分级存储方法
CN103617276A (zh) 一种分布式层次化的rdf数据的存储方法
CN106339386A (zh) 数据库弹性调度方法以及装置
Park et al. Dynamic group‐based fault tolerance technique for reliable resource management in mobile cloud computing
CN102480502B (zh) 一种i/o负载均衡方法及i/o服务器
CN108009196A (zh) 数据库再平衡方法
Fu et al. Network traffic based virtual machine migration in cloud computing environment
CN105915626A (zh) 一种面向云存储的数据副本初始放置方法
CN110990160A (zh) 一种基于负荷预测的静态安全分析容器云弹性伸缩方法
CN109460301B (zh) 一种流数据负载的弹性资源配置方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180831

Address after: 100013 11, 1 anding Gate Street, Chaoyang District, Beijing (anzhen incubator C218)

Patentee after: Beijing Jiangjiang science and Technology Center (limited partnership)

Address before: 210046 9 Wen Yuan Road, Ya Dong new town, Qixia District, Nanjing, Jiangsu.

Patentee before: Nanjing Post & Telecommunication Univ.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201202

Address after: Room 203-1, 2 / F, building 1, yard 1, Shangdi East Road, Haidian District, Beijing 100089

Patentee after: Beijing Zeshi Technology Co.,Ltd.

Address before: 100013 11, 1 anding Gate Street, Chaoyang District, Beijing (anzhen incubator C218)

Patentee before: Beijing Jiangjiang science and Technology Center (L.P.)

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method for determining the number of data copies for cloud storage system

Effective date of registration: 20211020

Granted publication date: 20170630

Pledgee: Zhongguancun Beijing technology financing Company limited by guarantee

Pledgor: Beijing Zeshi Technology Co.,Ltd.

Registration number: Y2021990000991