CN107770259A - 基于文件热度和节点负载的副本数量动态调整方法 - Google Patents

基于文件热度和节点负载的副本数量动态调整方法 Download PDF

Info

Publication number
CN107770259A
CN107770259A CN201710939383.2A CN201710939383A CN107770259A CN 107770259 A CN107770259 A CN 107770259A CN 201710939383 A CN201710939383 A CN 201710939383A CN 107770259 A CN107770259 A CN 107770259A
Authority
CN
China
Prior art keywords
file
load
node
heat
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710939383.2A
Other languages
English (en)
Inventor
李春林
宫学谦
赵亚辉
杜书猛
张鹏
毛习均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201710939383.2A priority Critical patent/CN107770259A/zh
Publication of CN107770259A publication Critical patent/CN107770259A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Abstract

本发明公开了一种基于文件热度和节点负载的副本数量动态调整方法,所述方法包括步骤:1)根据文件可靠性设置可靠性参数,对文件的副本数量进行初始化;2)统计访问次数,计算文件热度hoti;3)计算文件平均访问热度havg,将集合F中的文件分为热点文件、普通文件和冷门文件;4)计算节点的平均负载Lavg,将节点划分为重负载节点、负载适中节点和轻负载节点;5)遍历集合中F的文件,根据文件热度和节点负载计算出理论文件副本数Mi,动态调整文件的副本数rm。本方法统计当前访问量和之前的文件热度,并考虑文件变化率对热度的影响,利用文件的平均访问热度和集群节点的平均负载,动态调整副本数量,从而减少平均响应时间,提高了集群的整体性能。

Description

基于文件热度和节点负载的副本数量动态调整方法
技术领域
本发明涉及计算机云存储技术领域,特别涉及一种基于文件热度和节点负载的副本数量动态调整方法。
背景技术
云存储系统一般都釆用分布式文件系统来对数据进行存储和管理。副本技术是一种传统的数据管理技术,为了避免数据的丢失,提高数据的安全性与可用性,云存储系统大多会采用创建副本的策略来提高系统的可靠性与性能。
总体来讲,关于云存储系统的副本创建技术主要有静态副本创建和动态副本创建两大类。静态副本创建方法中副本的数量和放置位置是事先确定的,即在系统中创建文件之前,就首先确定了要创建的副本的数量和放置位置,在副本创建后,不会再对副本的数量进行调整和改变。动态副本创建方法是目前研究的热点,也是研究的难点。动态副本创建方法是指文件副本的个数和存储位置不是固定不变的,而是根据系统实际运行状态和用户需求不断的进行调整变化。相较于静态创建方法,动态副本创建更适用于当前复杂的网络环境,能够根据当前情况适时做出调整,节约了磁盘存储空间,具有更强的适应性。在系统使用过程中,需要根据使用情况,对副本的分布进行动态的调整。具体地说,就是需要根据用户使用及系统副本的使用状态,对副本进行重新的创建、迁移和删除的操作。
虽然相关学者在副本创建和调整方面做了很多的研究,但是,这些方法在实际的混合云环境中并不十分适用。首先,在计算文件热度方面,只是简单统计一段时间内访问次数,即使考虑到利用多频率来预测文件下一周期的访问特性,也很难兼顾文件热度和节点的负载均衡,而在混合云环境中,节点数量庞大,各个节点的性能有明显的差异。当有较多的热门数据聚集在某些性能较差的存储节点时,就会引起热点问题,降低系统的整体性能。
发明内容
本发明的目的是针对现有技术的不足,提出一种基于文件热度和节点负载的副本数量动态调整方法,对文件未来的热度和节点负载有一定的预测作用,能够动态的适应环境的变化。
为实现上述目的,本发明所设计的基于文件热度和节点负载的副本数量动态调整方法,其特殊之处在于,所述方法包括如下步骤:
1)统计集群节点的文件放入集合F中,为集合F中的每个文件Fi根据文件可靠性设置可靠性参数,对文件的副本数量进行初始化;
2)统计文件Fi访问次数,计算其文件热度hoti
3)计算所有文件平均访问热度havg,将集合F中的文件分为热点文件、普通文件和冷门文件;
4)计算节点的平均负载Lavg,将节点划分为重负载节点、负载适中节点和轻负载节点;
5)遍历集合中F的文件,根据文件热度和节点负载计算出理论文件副本数Mi,动态调整文件的副本数rmi,调整规则为:
a.当文件属于冷门文件且文件所在节点平均负载为轻负载,rmi>Mi时,删除rmi-Mi个副本;rmi≤Mi时,默认当前副本数rmi
b.当文件属于热点文件且所在节点平均负载属于重负载,rmi<Mi时,增加Mi-rmi个副本;rmi≥Mi时,默认当前副本数rmi
c.其他情况默认副本数rmi
优选地,所述步骤2)中每个文件热度hoti的计算方法为:
其中,v1,v2,v3分别表示该文件上一个统计周期T1,T2,T3的被访问次数,V为文件被访问总次数,Vk表示当前时间与相应的最近统计时刻的差值;hot0表示该文件上一个统计周期T1的热度值,f1,f2,f3分别表示文件上一个统计周期T1,T2,T3的访问频率,σ表示文件变化率。μ是Δt1与周期T1的比值,该参数调节突发性访问对数据块热度造成的影响,其值比较大的时候,说明突发性访问频率比较大。
优选地,所述步骤3)中平均访问热度havg的计算方法为:
其中,rm表示文件当前副本数,Totalf表示集群上的文件总数。
优选地,所述步骤3)中将集合F中的文件Fi分为热点文件LH、普通文件LM和冷门文件LL的方法为:
其中,hoti为每个文件热度,α为衡量文件热度的阈值常量。
优选地,所述步骤4)中计算节点的平均负载Lavg的计算方法为:
其中,1≤k≤num,代表节点数量;Lk为节点k的负载,num为集群节点的总数目。
优选地,所述步骤4)中将节点划分为重负载节点、负载适中节点和轻负载节点的方法为:
LevH,LevM,LevL分别用表示重负载节点、适中负载节点、轻负载节点,β为衡量节点负载的阈值常量。
优选地,所述理论文件副本数Mi的计算公式为:
其中,rm表示文件当前副本数,M表示根据文件热度和节点负载计算出的文件副本数,η1和η2分别是文件热度影响因子和节点负载影响因子,且η12=1。
优选地,所述步骤1)之后,副本的初始数量为其中,parameter表示根据文件重要程度,p表示节点的在线率,m表示数据块的个数。
本发明提出的基于文件热度和节点负载的副本数量动态调整方法,基于用户对文件可靠性的要求,对副本数量进行初始化,并且,设计并实现了一种基于文件热度和节点负载的副本数量动态调整方法,从而提高了集群的整体性能。通过研究发现,hadoop集群中文件热度的统计对副本数量和节点负载影响很大,本方法在计算文件热度时,统计当前三个周期的访问量和之前的文件热度,并考虑文件变化率对热度的影响,利用文件的平均访问热度和集群节点的平均负载,动态调整副本数量,从而减少平均响应时间,提高了集群的整体性能。本方法有以下两个特点:
1)根据文件可靠性和节点在线率,对文件设置不同的可靠性参数,并对文件副本数量进行初始化,提高了节点的资源利用率;
2)将文件变化率引入到文件热度计算方法中,使小文件的更新优于大文件的更新,减少集群通信流量;根据文件热度和节点负载,动态调整文件副本数量,能更好的适应混合云的动态变化性,减少平均响应时间,更好的实现集群的负载均衡。
本方法充分考虑了集群文件访问的突发性和HDFS默认副本数的局限性,能够较好的适用于混合云集群环境的文件访问,同时对于设计实现集群负载均衡方法也有很好的参考价值。
附图说明
图1为本发明基于文件热度和节点负载的副本数量动态调整方法的流程图。
图2为基于文件热度和节点负载的副本数量动态调整模型。
具体实施方式
以下结合附图和具体实施例对本发明作进一步的详细描述。
如图1所示,本发明所设计的基于文件热度和节点负载的副本数量动态调整方法,包括如下步骤:
1)统计集群节点的文件放入集合F中,为集合F中的每个文件Fi根据文件可靠性设置可靠性参数,对文件的副本数量进行初始化;
2)统计每个文件访问次数,计算每个文件热度hoti
3)计算所有文件平均访问热度havg,将集合F中的文件分为热点文件、普通文件和冷门文件;
4)计算节点的平均负载Lavg,将节点划分为重负载节点、负载适中节点和轻负载节点;
5)遍历集合中F的文件,根据文件热度和节点负载计算出理论文件副本数Mi,动态调整文件的副本数rmi,调整规则为:
a.当文件属于冷门文件且文件所在节点平均负载为轻负载,rmi>Mi时,删除rmi-Mi个副本;rmi≤Mi时,默认当前副本数rmi
b.当文件属于热点文件且所在节点平均负载属于重负载,rmi<Mi时,增加Mi-rmi个副本;rmi≥Mi时,默认当前副本数rmi
c.其他情况默认副本数rmi
本发明的研究过程包括:
1问题分析和描述
在混合云中存储了大量的数据文件,每个文件的访问热度不同,高热度的访问导致节点负载能力不均,直接影响了节点的性能。例如,HDFS和Dynamo等均采用副本技术来保证云存储系统的数据可靠性,HDFS默认副本数为3。在对文件热度的研究中,很多存储系统对于文件热度的统计只是简单的计算一段时间内文件的访问次数。Anderson的研究表明,用户数据访问具有突发性,而且部分突发访问请求的维持时间很短;并且,当某些文件的热度特别高时,那么存储该文件的服务器将接受大量请求,当接受的请求大于该存储服务器的处理性能时,将导致高延迟的访问请求,然后,此时系统的其它存储服务器可能是处于空闲状态。
默认的HDFS副本方法虽然简单易行,但存在资源浪费或者资源抖动问题,很多学者对文件热度的研究只是简单统计一段时间内访问次数,即使考虑到利用多频率来预测文件下一周期的访问特性,也很难兼顾文件热度和节点的负载均衡,当有较多的热门数据聚集在某些存储节点时,就会引起热点问题,降低系统的整体性能。考虑到上述默认HDFS副本方法和副本调整方法的不足,本文从文件可靠性入手,对副本数量进行初始化,并改进文件热度的统计方法,结合文件热度和节点负载,动态调整副本数量,从而减少用户平均响应时间,实现集群的负载均衡。
2基于文件热度和节点负载的副本数量动态调整模型
2.1集群模型的建立
考虑到上述问题,本发明构建出一个基于文件热度和节点负载的副本数量动态调整模型如图2所示。
如上图2所示,用户通过客户端提交访问请求,Hadoop的NameNode节点接收访问请求并通过Compute Server进行请求分发,私有云Private cloud和公有云Public cloud通过Data Transport进行通信,最后将副本数量调整结果反馈给NameNode节点。图中私有云Private cloud中的Local Computation和Remote Calculation部分即为本文的重点研究内容,即根据客户端的访问请求,统计访问量,计算文件热度,并结合节点负载,自适应调整副本数量,从而提高集群性能,缩短平均响应时间。
2.2相关参数及定义
(1)假设某待上传文件有n个副本,每个副本被划为m个大小相同的数据块,用{B1,B2,...,Bm}来表示,为了提高数据的可靠性,假定每个数据块Bi'的副本放在不同的节点Ni'j上,其中1≤i'≤m,1≤j≤n。数据块可用概率用P(Bi')表示,节点的在线率用P(Ni'j)表示,则:
文件的可用概率为:
为了简化计算,假设每个节点在线率相同,都为p,则文件可用概率为:
(2)副本的初始数量为其中,parameter表示根据文件重要程度,为文件设置不同的可靠性参数。
(3)使用一个五元组(hot0,s0,v1,v2,v3)和一个状态二元组(V,S)来具体描述这个文件的热度。其中:hot0表示该文件上一个T1周期的热度值,s0表示上一个T1周期结束时该文件的大小,v1,v2,v3分别表示该文件上个统计周期T1,T2,T3的被访问次数。V表示该文件的被访问次数,S表示文件的热度状态。
(4)文件的访问频率Δtk表示当前时间与相应的最近统计时刻的差值。如T1=24小时,则最近统计时刻为0时,Δt1表示当前时刻与0时的差值。所以,Δt1小于等于T1,Δt2小于等于T2,Δt3小于等于T3
(5)文件变化率其中,s1表示当前时刻该文件的大小。
(6)文件热度值
(7)文件的平均访问热度其中,rm表示文件当前存在的副本数,Totalf表示集群上的文件总数。
(8)集群文件划分其中,F表示分布式文件系统中所有文件的集合,根据热度值不同,将其分为三个子集合,分别为热点文件集合,普通文件集合和冷门文件集合,用LH,LM,LL表示,Fi表示集群中的某个文件,α为设置的阈值常量,作为衡量文件热度的一个调节值。
(9)计算集群节点的平均负载,
其中,1≤k≤num,代表节点数量;Lk为节点k的负载,num为集群节点的总数目。
(10)负载划分标准根据节点的负载情况,将节点分为三类,重负载节点、适中负载节点、轻负载节点,分别用LevH,LevM,LevL,表示,β为设置的阈值常量,作为衡量节点负载的一个调节值。
(11)根据文件热度和节点负载计算出的理论文件副本数:
其中,rm表示文件当前副本数,Mi表示根据文件热度和节点负载计算出的理论文件副本数,η1和η2是文件热度和节点负载的影响因子,且η12=1。
3基于文件热度和节点负载的副本数量动态调整方法的实现
本发明提出的副本数量自适应调整方法综合考虑了文件热度和节点负载情况,在计算文件热度时,综合考虑之前的文件热度和当前三个周期的访问频率,并将文件变化率引入文件热度计算公式中,首先,避免了由于突发性访问对文件热度值的影响;其次,当文件内容发生变化且文件改变量相同时,那些小文件的更新会优于那些大文件的更新,有效的减少了网络传输流量,尽可能使得每次访问都能获得最新数据;最后,文件的热度和节点负载的计算都是基于当前三个周期的平均值,对文件未来的热度和节点负载有一定的预测作用,能够动态的适应环境的变化。
3.1本方法实现的基本步骤
下面介绍该方法的基本步骤:
(1)统计集群节点的文件并将其放入集合F中,假设文件总数为tf,以及节点集合G。
(2)根据文件可靠性,为集合F中的每个文件设置不同可靠性参数parameter,并根据副本初始化方法对文件副本数量进行初始化,得到副本数目结合{n1,n2,...,ntf}。rmi代表集群中第i个文件的初始副本数。
(3)利用五元组(hot0,s0,v1,v2,v3)统计上一周期的文件热度、文件大小和当前三个周期内的文件访问次数。
(4)计算文件的热度hoti并将文件按热度降序排列.
(5)计算文件的平均访问热度havg
(6)将集合F中的文件分成热点文件,普通文件和冷门文件,分别用LH,LM,LL表示。
(7)计算当前三个周期内节点的负载,计算节点的平均负载Lavg,并将节点划分为重负载节点,负载适中节点和轻负载节点,用LevH,LevM,LevL表示。
(8)遍历文件集合F,动态调整文件的副本数rmi
a.文件属于冷门文件且文件所在节点平均负载为轻负载,当Mi<rmi时,说明当前副本数目过多,需要删除rmi-Mi个副本,以提高资源利用率。当rmi≤Mi时,表明文件副本数目恰当,不需要删除。
b.文件属于热点文件且所在节点平均负载属于重负载,当rmi<Mi时,说明文件热度高,节点平均负载较重,需要增加Mi-rmi个副本,以减轻节点负载。当rmi≥Mi时,表示文件副本数恰当,不需要增加。
c.除以上情况,文件副本数目不变,仍为当前默认副本数rmi
3.2副本数量动态调整方法的伪代码描述
本方法的伪码描述如下:
(1)输入文件集F、节点集G、副本数量集M和文件热度集Hot
(2)for文件集F中的所有文件Fi
(3)根据文件Fi的可靠性参数parameter,对其副本数量初始化,得到副本数目为rmi
(4)利用五元组(hot0,s0,v1,v2,v3)统计上一周期的文件热度、文件大小和当前三个周期内的文件访问次数
(5)计算文件的热度hoti
(6)end for
(7)得到集群文件副本数量的集合M
(8)将集合Hot降序排列
(9)计算文件的平均访问热度havg
(10)将集合F中的文件分成热点文件,普通文件和冷门文件,用LH,LM,LL表示
(11)计算当前三个周期内节点的负载,计算节点的平均负载Lavg
(12)将节点划分为重负载节点,负载适中节点和轻负载节点,用LevH,LevM,LevL表示
(13)while i<n
(14)if(Fi∈LL&&nodei∈LevL)
(15)
(16)else if(Fi∈LH&&nodei∈LevH)
(17)
(18)else
(19)Ni=rmi
(20)end if
(21)end while
(22)根据输出的副本数量集N动态调整副本数
由算法的伪代码描述可以得到,第1行到第7行对集群中的所有文件的副本数量进行初始化,并计算各个文件的热度;第8行对文件热度集合降序排列;第9到10行计算文件热度和文件的平均访问热度,并对文件类型进行划分;第11到12行统计节点负载并计算节点的平均负载,对节点进行划分;第13到21行根据得到的文件热度和节点负载,计算各文件当前的副本数;第20行根据得到的副本数量集合动态调整各文件的副本数量。
由于该算法要遍历节点文件,算法复杂度取决于节点文件集合的大小,所以该算法的时间复杂度为o(n)。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (8)

1.一种基于文件热度和节点负载的副本数量动态调整方法,其特征在于:所述方法包括如下步骤:
1)统计集群节点的文件放入集合F中,为集合F中的每个文件Fi根据文件可靠性设置可靠性参数,对文件的副本数量进行初始化;
2)统计文件Fi访问次数,计算其文件热度hoti
3)计算所有文件平均访问热度havg,将集合F中的文件分为热点文件、普通文件和冷门文件;
4)计算节点的平均负载Lavg,将节点划分为重负载节点、负载适中节点和轻负载节点;
5)遍历集合中F的文件,根据文件热度和节点负载计算出理论文件副本数Mi,动态调整文件的副本数rmi,调整规则为:
a.当文件属于冷门文件且文件所在节点平均负载为轻负载,rmi>Mi时,删除rmi-Mi个副本;rmi≤Mi时,默认当前副本数rmi
b.当文件属于热点文件且所在节点平均负载属于重负载,rmi<Mi时,增加Mi-rmi个副本;rmi≥Mi时,默认当前副本数rmi
c.其他情况默认副本数rmi
2.根据权利要求1所述的基于文件热度和节点负载的副本数量动态调整方法,其特征在于:所述步骤2)中每个文件热度hoti的计算方法为:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <msub> <mi>V</mi> <mi>k</mi> </msub> <mo>=</mo> <mi>V</mi> <mo>-</mo> <msub> <mi>v</mi> <mi>k</mi> </msub> </mrow> </mtd> <mtd> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>3</mn> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>&amp;mu;</mi> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&amp;Delta;t</mi> <mn>1</mn> </msub> </mrow> <msub> <mi>T</mi> <mn>1</mn> </msub> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>hot</mi> <mi>i</mi> </msub> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;mu;</mi> <mo>)</mo> </mrow> <msub> <mi>hot</mi> <mn>0</mn> </msub> <mo>+</mo> <mi>&amp;mu;</mi> <mo>&amp;times;</mo> <mi>&amp;sigma;</mi> <mo>+</mo> <mi>&amp;mu;</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mn>3</mn> </msub> <mo>+</mo> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mn>2</mn> </msub> <mo>&amp;times;</mo> <mfrac> <msub> <mi>f</mi> <mn>2</mn> </msub> <msub> <mi>f</mi> <mn>1</mn> </msub> </mfrac> <mo>+</mo> <msub> <mi>V</mi> <mn>3</mn> </msub> <mo>&amp;times;</mo> <mfrac> <msub> <mi>f</mi> <mn>3</mn> </msub> <msub> <mi>f</mi> <mn>1</mn> </msub> </mfrac> </mrow> <mo>)</mo> <mo>/</mo> <msub> <mi>T</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,v1,v2,v3分别表示该文件上一个统计周期T1,T2,T3的被访问次数,V为文件被访问总次数,Vk表示当前时间与相应的最近统计时刻的差值;hot0表示该文件上一个统计周期T1的热度值,f1,f2,f3分别表示文件上一个统计周期T1,T2,T3的访问频率,σ表示文件变化率。μ是Δt1与周期T1的比值,该参数调节突发性访问对数据块热度造成的影响,其值比较大的时候,说明突发性访问频率比较大。
3.根据权利要求1所述的基于文件热度和节点负载的副本数量动态调整方法,其特征在于:所述步骤3)中平均访问热度havg的计算方法为:
<mrow> <msub> <mi>h</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>r</mi> <mi>m</mi> </mrow> </munderover> <msub> <mi>hot</mi> <mi>i</mi> </msub> </mrow> <mrow> <msub> <mi>Total</mi> <mi>f</mi> </msub> </mrow> </mfrac> </mrow>
其中,rm表示文件当前副本数,Totalf表示集群上的文件总数。
4.根据权利要求3所述的基于文件热度和节点负载的副本数量动态调整方法,其特征在于:所述步骤3)中将集合F中的文件Fi分为热点文件LH、普通文件LM和冷门文件LL的方法为:
<mrow> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>&amp;Element;</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <msub> <mi>L</mi> <mi>H</mi> </msub> </mtd> <mtd> <mrow> <msub> <mi>hot</mi> <mi>i</mi> </msub> <mo>&gt;</mo> <msub> <mi>h</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>&amp;alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <msub> <mi>L</mi> <mi>M</mi> </msub> </mtd> <mtd> <mrow> <msub> <mi>h</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;alpha;</mi> <mo>)</mo> </mrow> <mo>&amp;le;</mo> <msub> <mi>hot</mi> <mi>i</mi> </msub> <mo>&amp;le;</mo> <msub> <mi>h</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>&amp;alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <msub> <mi>L</mi> <mi>L</mi> </msub> </mtd> <mtd> <mrow> <msub> <mi>hot</mi> <mi>i</mi> </msub> <mo>&lt;</mo> <msub> <mi>h</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,hoti为每个文件热度,α为衡量文件热度的阈值常量。
5.根据权利要求1所述的基于文件热度和节点负载的副本数量动态调整方法,其特征在于:所述步骤4)中计算节点的平均负载Lavg的计算方法为:
<mrow> <msub> <mi>L</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mi>k</mi> </mrow> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> </mrow> </munderover> <msub> <mi>L</mi> <mi>k</mi> </msub> </mrow> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> </mrow> </mfrac> </mrow>
其中,1≤k≤num,代表节点数量;Lk为节点k的负载,num为集群节点的总数目。
6.根据权利要求5所述的基于文件热度和节点负载的副本数量动态调整方法,其特征在于:所述步骤4)中将节点划分为重负载节点、负载适中节点和轻负载节点的方法为:
<mrow> <msub> <mi>node</mi> <mi>i</mi> </msub> <mo>&amp;Element;</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>Lev</mi> <mi>H</mi> </msub> </mrow> </mtd> <mtd> <mrow> <msub> <mi>L</mi> <mi>i</mi> </msub> <mo>&gt;</mo> <msub> <mi>L</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>&amp;beta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>Lev</mi> <mi>M</mi> </msub> </mrow> </mtd> <mtd> <mrow> <msub> <mi>L</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;beta;</mi> <mo>)</mo> </mrow> <mo>&amp;le;</mo> <msub> <mi>L</mi> <mi>i</mi> </msub> <mo>&amp;le;</mo> <msub> <mi>L</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>&amp;beta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>Lev</mi> <mi>L</mi> </msub> </mrow> </mtd> <mtd> <mrow> <msub> <mi>L</mi> <mi>i</mi> </msub> <mo>&lt;</mo> <msub> <mi>L</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;beta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
LevH,LevM,LevL分别用表示重负载节点、适中负载节点、轻负载节点,β为衡量节点负载的阈值常量。
7.根据权利要求6所述的基于文件热度和节点负载的副本数量动态调整方法,其特征在于:所述理论文件副本数Mi的计算公式为:
其中,rm表示文件当前副本数,M表示根据文件热度和节点负载计算出的文件副本数,η1和η2分别是文件热度影响因子和节点负载影响因子,且η12=1。
8.根据权利要求1所述的基于文件热度和节点负载的副本数量动态调整方法,其特征在于:所述步骤1)之后,副本的初始数量为其中,parameter表示根据文件重要程度,p表示节点的在线率,m表示数据块的个数。
CN201710939383.2A 2017-09-30 2017-09-30 基于文件热度和节点负载的副本数量动态调整方法 Pending CN107770259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710939383.2A CN107770259A (zh) 2017-09-30 2017-09-30 基于文件热度和节点负载的副本数量动态调整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710939383.2A CN107770259A (zh) 2017-09-30 2017-09-30 基于文件热度和节点负载的副本数量动态调整方法

Publications (1)

Publication Number Publication Date
CN107770259A true CN107770259A (zh) 2018-03-06

Family

ID=61267918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710939383.2A Pending CN107770259A (zh) 2017-09-30 2017-09-30 基于文件热度和节点负载的副本数量动态调整方法

Country Status (1)

Country Link
CN (1) CN107770259A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363643A (zh) * 2018-03-27 2018-08-03 东北大学 一种基于文件访问热度的hdfs副本管理方法
CN108416054A (zh) * 2018-03-20 2018-08-17 东北大学 基于文件访问热度的动态hdfs副本个数计算方法
CN108897865A (zh) * 2018-06-29 2018-11-27 北京奇虎科技有限公司 分布式集群的索引副本数量评估方法及装置
CN108920104A (zh) * 2018-06-29 2018-11-30 吴俊杰 一种无中心的视频监控云存取方法
CN108965455A (zh) * 2018-08-01 2018-12-07 中国联合网络通信集团有限公司 一种视频容器云的调整方法和系统
CN110958154A (zh) * 2019-11-06 2020-04-03 长沙理工大学 一种基于节点热度的心跳间隔动态调整方法、装置及系统
CN111124762A (zh) * 2019-12-30 2020-05-08 航天科工网络信息发展有限公司 一种基于改进粒子群算法的动态副本放置方法
CN111385327A (zh) * 2018-12-28 2020-07-07 阿里巴巴集团控股有限公司 数据处理方法和系统
CN111475108A (zh) * 2020-03-20 2020-07-31 平安国际智慧城市科技股份有限公司 一种分布式存储方法、计算机设备及计算机可读存储介质
CN112269689A (zh) * 2020-11-05 2021-01-26 南京邮电大学 一种基于数据世系的云存储数据副本一致性维护方法
CN112689166A (zh) * 2020-12-18 2021-04-20 武汉市烽视威科技有限公司 一种用于cdn热点内容实时弹性增减的方法及系统
CN112749004A (zh) * 2019-10-30 2021-05-04 中国移动通信集团安徽有限公司 基于节点访问热度的数据存储方法及装置
CN113626098A (zh) * 2021-07-21 2021-11-09 长沙理工大学 一种基于信息交互的数据节点动态配置方法
CN113703688A (zh) * 2021-09-20 2021-11-26 河南锦誉网络科技有限公司 一种基于大数据和文件热度的分布式存储节点负载调整方法
CN114417099A (zh) * 2022-01-21 2022-04-29 黑龙江中医药大学 一种基于rfid标签的档案管理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150347A (zh) * 2013-02-07 2013-06-12 浙江大学 基于文件热度的动态副本管理方法
CN105574153A (zh) * 2015-12-16 2016-05-11 南京信息工程大学 一种基于文件热度分析和K-means的副本放置方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150347A (zh) * 2013-02-07 2013-06-12 浙江大学 基于文件热度的动态副本管理方法
CN105574153A (zh) * 2015-12-16 2016-05-11 南京信息工程大学 一种基于文件热度分析和K-means的副本放置方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAHUI ZHAO,CHUNLIN LI,LAYUAN LI,PENG ZHANG: "Dynamic Replica Creation Strategy Based on File Heat and Node Load in Hybrid Cloud", 《2017 19TH INTERNATIONAL CONFERENCE ON ADVANCED COMMUNICATION TECHNOLOGY (ICACT)》 *
董继光,陈卫卫,吴海佳,田浪军: "基于动态副本技术的云存储负载均衡研究", 《计算机应用研究》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416054A (zh) * 2018-03-20 2018-08-17 东北大学 基于文件访问热度的动态hdfs副本个数计算方法
CN108416054B (zh) * 2018-03-20 2021-10-22 东北大学 基于文件访问热度的动态hdfs副本个数计算方法
CN108363643A (zh) * 2018-03-27 2018-08-03 东北大学 一种基于文件访问热度的hdfs副本管理方法
CN108363643B (zh) * 2018-03-27 2021-06-15 东北大学 一种基于文件访问热度的hdfs副本管理方法
CN108920104A (zh) * 2018-06-29 2018-11-30 吴俊杰 一种无中心的视频监控云存取方法
CN108920104B (zh) * 2018-06-29 2021-06-25 吴俊杰 一种无中心的视频监控云存取方法
CN108897865A (zh) * 2018-06-29 2018-11-27 北京奇虎科技有限公司 分布式集群的索引副本数量评估方法及装置
CN108965455A (zh) * 2018-08-01 2018-12-07 中国联合网络通信集团有限公司 一种视频容器云的调整方法和系统
CN108965455B (zh) * 2018-08-01 2021-07-27 中国联合网络通信集团有限公司 一种视频容器云的调整方法和系统
CN111385327B (zh) * 2018-12-28 2022-06-14 阿里巴巴集团控股有限公司 数据处理方法和系统
CN111385327A (zh) * 2018-12-28 2020-07-07 阿里巴巴集团控股有限公司 数据处理方法和系统
CN112749004B (zh) * 2019-10-30 2023-09-05 中国移动通信集团安徽有限公司 基于节点访问热度的数据存储方法及装置
CN112749004A (zh) * 2019-10-30 2021-05-04 中国移动通信集团安徽有限公司 基于节点访问热度的数据存储方法及装置
CN110958154B (zh) * 2019-11-06 2021-12-24 长沙理工大学 一种基于节点热度的心跳间隔动态调整方法、装置及系统
CN110958154A (zh) * 2019-11-06 2020-04-03 长沙理工大学 一种基于节点热度的心跳间隔动态调整方法、装置及系统
CN111124762B (zh) * 2019-12-30 2023-11-14 航天科工网络信息发展有限公司 一种基于改进粒子群算法的动态副本放置方法
CN111124762A (zh) * 2019-12-30 2020-05-08 航天科工网络信息发展有限公司 一种基于改进粒子群算法的动态副本放置方法
CN111475108A (zh) * 2020-03-20 2020-07-31 平安国际智慧城市科技股份有限公司 一种分布式存储方法、计算机设备及计算机可读存储介质
CN111475108B (zh) * 2020-03-20 2023-11-28 深圳赛安特技术服务有限公司 一种分布式存储方法、计算机设备及计算机可读存储介质
CN112269689B (zh) * 2020-11-05 2022-10-14 南京邮电大学 一种基于数据世系的云存储数据副本一致性维护方法
CN112269689A (zh) * 2020-11-05 2021-01-26 南京邮电大学 一种基于数据世系的云存储数据副本一致性维护方法
CN112689166A (zh) * 2020-12-18 2021-04-20 武汉市烽视威科技有限公司 一种用于cdn热点内容实时弹性增减的方法及系统
CN113626098A (zh) * 2021-07-21 2021-11-09 长沙理工大学 一种基于信息交互的数据节点动态配置方法
CN113626098B (zh) * 2021-07-21 2024-05-03 长沙理工大学 一种基于信息交互的数据节点动态配置方法
CN113703688A (zh) * 2021-09-20 2021-11-26 河南锦誉网络科技有限公司 一种基于大数据和文件热度的分布式存储节点负载调整方法
CN113703688B (zh) * 2021-09-20 2024-03-15 安徽丰合佳行信息技术有限公司 一种基于大数据和文件热度的分布式存储节点负载调整方法
CN114417099A (zh) * 2022-01-21 2022-04-29 黑龙江中医药大学 一种基于rfid标签的档案管理系统

Similar Documents

Publication Publication Date Title
CN107770259A (zh) 基于文件热度和节点负载的副本数量动态调整方法
Dehghan et al. A utility optimization approach to network cache design
CN102170396B (zh) 一种基于区分服务的云存储系统QoS控制方法
CN103260050B (zh) 基于Google App Engine云平台的视频点播系统
US10268726B1 (en) Partition key management for improved throughput
US20020184403A1 (en) Methods for near-optimal bandwidth-constrained placement in a wide-area network
CN110188080A (zh) 基于客户端高效缓存的远程文件数据访问性能优化方法
CN103744618B (zh) 实现团队共享存储的方法及系统
CN103366016A (zh) 基于hdfs的电子文件集中存储及优化方法
CN108462736B (zh) 一种面向QoS的云存储数据副本存储方法
CN103986766A (zh) 自适应负载均衡作业任务调度方法及装置
WO2018218850A1 (zh) 文件大小异构的分布式编码缓存放置方法及系统
CN106648456A (zh) 基于用户访问量以及预测机制的动态副本文件访问方法
CN108776758A (zh) 一种雾存储中支持动态所有权管理的块级数据去重方法
CN109800270A (zh) 一种数据存储和查询的方法及物联网系统
Poularakis et al. Optimal cooperative content placement algorithms in hierarchical cache topologies
CN113255004A (zh) 一种安全且高效的联邦学习内容缓存方法
CN115718644A (zh) 一种面向云数据中心的计算任务跨区迁移方法及系统
CN109951317B (zh) 一种基于用户驱动的流行度感知模型的缓存替换方法
Alexander et al. Cooperative web caching using dynamic interest-tagged filtered bloom filters
CN109358964B (zh) 一种服务器集群资源调度方法
CN103226520A (zh) 集群内存自适应管理方法、服务器集群系统
CN109844723B (zh) 使用基于服务的统计信息进行主控建立的方法和系统
CN110557427A (zh) 一种均衡网络性能和安全的智能家居安全控制方法
CN104636209B (zh) 基于大数据和云存储系统定向性能优化的资源调度系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180306