CN114827180B - 云端数据分布式存储的分配方法 - Google Patents

云端数据分布式存储的分配方法 Download PDF

Info

Publication number
CN114827180B
CN114827180B CN202210713216.7A CN202210713216A CN114827180B CN 114827180 B CN114827180 B CN 114827180B CN 202210713216 A CN202210713216 A CN 202210713216A CN 114827180 B CN114827180 B CN 114827180B
Authority
CN
China
Prior art keywords
file
copy
node
copies
child node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210713216.7A
Other languages
English (en)
Other versions
CN114827180A (zh
Inventor
王克飞
徐超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Puhuizhizao Technology Co ltd
Original Assignee
Puhuizhizao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Puhuizhizao Technology Co ltd filed Critical Puhuizhizao Technology Co ltd
Priority to CN202210713216.7A priority Critical patent/CN114827180B/zh
Publication of CN114827180A publication Critical patent/CN114827180A/zh
Application granted granted Critical
Publication of CN114827180B publication Critical patent/CN114827180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

云端数据分布式存储的分配方法,属于资源分配技术领域,包括以下步骤:步骤S1,建立云端平台;所述云端平台,包括使用者端、管理节点、主节点、子节点;所述主节点,将档案进行分类并设定档案复本数量;主节点将档案复本分配到子节点中,并记录档案复本状态;步骤S2,阻塞预筛选机制:主节点筛选出阻塞机率BPi小于阻塞机率阈值Tbp的子节点,组成合格节点集合;步骤S3,引用队列负载平衡机制:在合格节点集合中,主节点筛选出具有最大的引用队列剩余空间数RQ的子节点,作为最佳的档案复本存储的子节点,进行档案复本的存储。本方案,在云端平台提出了具有递进关系的三个档案存储配置机制,进行动态复本配置,以维持节点间负载平衡。

Description

云端数据分布式存储的分配方法
技术领域
本发明属于资源分配技术领域,具体涉及为云端数据分布式存储的分配方法。
背景技术
如果将档案资料储存于本地端,有需要时再将相应的资料上传至云端服务器进行计算,则当档案资料过多时,会导致本地端的储存空间的不足,从而需要增加硬件成本。因此,传统的本地端装置储存方式渐渐被云端储存方式所取代,以降低成本及提升存储效能。云端储存方式,是将档案资料储存于云端,有需要时再通过网络进行下载及存储。
云端存储,多采用分散式架构。该架构中,通常系统都会进行档案复本的复制,以减少延迟回应使用者请求的时间,并减少频宽的消耗。因此,在分散式架构中复制策略中,通常有静态复本复制与动态复本复制二种。对于静态复本复制,其将复本放置在固定节点上,并不会因应环境变化来改变复本位置及复本数量。对于动态复本复制,其会依照环境变化与使用者需求来动态配置档案位置及复本数量,以解决单一服务节点负载过重的问题,进而达到服务节点间的负载平衡。
针对动态复本复制,不仅能改善资料可用性,还可改善系统的存取效能。但是过度的复本将造成资源浪费、占用空间以及增加管理上成本的负担。
因此,有必要在动态复本复制的过程中,引入负载平衡机制,从而减少系统负担并提升系统的效能。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供云端数据分布式存储的分配方法。
为了达到上述目的,本发明采取了以下的技术方案。
云端数据分布式存储的分配方法,包括以下步骤:
步骤S1,建立云端平台;所述云端平台,包括使用者端、管理节点、主节点、子节点;
使用者通过使用者端登录云端平台并发送存储服务的请求;管理节点接收来自使用者端的请求,并将该请求传送给主节点;所述主节点,将档案进行分类并设定档案复本数量;主节点将档案复本分配到子节点中,并记录档案复本状态;
步骤S2,阻塞预筛选机制:主节点筛选出阻塞机率BPi小于阻塞机率阈值Tbp的子节点,组成合格节点集合;
步骤S3,引用队列负载平衡机制:在合格节点集合中,主节点筛选出具有最大的引用队列剩余空间数RQ的子节点,作为最佳的档案复本存储的子节点,进行档案复本的存储;如果该筛选出的子节点未拥有此请求的档案复本时,则将该子节点作为备援节点,并将档案复本新增至此子节点。
所述管理节点信号连接有使用者端和主节点,是负责接收和回应使用者端的任务请求的中继站,并管理使用者端和主节点之间的沟通;
所述主节点内设有记录档案复本状态的元数据记录模块;所述子节点,是档案复本放置位置的服务节点;所述主节点和子节点信号连接形成分布式存储结构。
进一步,步骤S1中,所述主节点,将预存储时间超过储存时间阈值的档案归为长期存储档案,否则归为短期存储档案;将长期储存档案的档案复本数量设定为5份;将短期储存档案的档案复本数量设定为3份。
进一步,步骤S2中,
首先,计算每个子节点的请求到达率λi,即
Figure 868298DEST_PATH_IMAGE001
;其中,pj表示档案复本被存储的热门度,为子节点中的档案复本被存取次数与档案复本在所有子节点中的被存取次数总数的比值;rj表示档案复本数;λ表示达到率,为总请求中到达所有子节点的请求数量占比;
然后,计算每个子节点的阻塞机率BPi,即
Figure 582176DEST_PATH_IMAGE002
;其中,τi表示延迟时间,请求从使用者端发出后,主节点针对不同请求进行档案的分类和档案复本的分配,档案复本存储于子节点的总时间;ci表示子节点的存储区块;
接着,计算阻塞机率阈值Tbp,阻塞机率阈值Tbp为所有子节点的阻塞机率的平均值。
云端数据分布式存储的分配方法,还包括步骤S4,档案复本更新机制:判断轮询的时间周期是否到达;计算当前请求的档案的复本数比率Requestnr;预先设定第一复本数比率阈值RR;判断当前档案的热门程度;然后执行档案复本的新增、删除或者搬移的动作;
其中,计算当前请求的档案的复本数比率Requestnr,即
Figure 361913DEST_PATH_IMAGE003
;nri表示当前请求档案的复本数量,tnri表示所有档案复本的数量。
进一步,判断当前档案的热门程度,方式如下:计算第二复本数比率阈值TP;如果本轮询的时间周期中,若一个档案的复本存取次数大于第二复本数比率阈值TP,则该档案为热门档案;否则该档案为冷门档案;第二复本数比率阈值TP是历史记录的存取次数平均值,即
Figure 491543DEST_PATH_IMAGE004
;其中,i表示轮询的时间周期序号;afn-i表示档案的历史存取次数,tfi表示档案种类数。
档案复本更新机制,具有6种情况:
情况1:轮询的时间周期未到达;当前请求的档案的复本数比率Requestnr大于第一复本数比率阈值RR;档案的复本存取次数大于第二复本数比率阈值TP;此时,将档案复本搬移到新的子节点,且新的子节点阻塞机率低于旧的子节点的阻塞机率;
情况2:轮询的时间周期未到达;当前请求的档案的复本数比率Requestnr大于第一复本数比率阈值RR;档案的复本存取次数不大于第二复本数比率阈值TP;此时,计算出各个子节点阻塞机率,再从拥有此档案复本且阻塞机率最高的子节点中,将档案复本删除至三份;
情况3:轮询的时间周期已经到达;当前请求的档案的复本数比率Requestnr不大于第一复本数比率阈值RR;档案的复本存取次数大于第二复本数比率阈值TP;此时,新增一个新的复本至BP值最低的子节点;
情况4:轮询的时间周期已经到达;当前请求的档案的复本数比率Requestnr不大于第一复本数比率阈值RR;档案的复本存取次数不大于第二复本数比率阈值TP;此时,将该档案复本删除至三份;但若档案复本不足三份,则维持原有档案复本数;
情况5:轮询的时间周期已经到达;当前请求的档案的复本数比率Requestnr大于第一复本数比率阈值RR;档案的复本存取次数大于第二复本数比率阈值TP;此时,将档案复本搬移到新的子节点,且新的子节点阻塞机率低于旧的子节点的阻塞机率;
情况6:轮询的时间周期已经到达;当前请求的档案的复本数比率Requestnr大于第一复本数比率阈值RR;档案的复本存取次数不大于第二复本数比率阈值TP;此时,计算出各个子节点阻塞机率,再从拥有此档案复本且阻塞机率最高的节点中,将档案复本删除至三份。
云端数据分布式存储的分配方法,还包括步骤S5,主节点,在元数据记录模块记录档案复本状态,并将档案复本状态通过管理节点传送给使用者端。
传统的更新方法大都采用周期时间进行更新,这将会因为需求过多而卡在队列当中等待存储,导致阻塞机率的提高及回应时间的延迟。
本方案,在云端平台提出了具有递进关系的三个档案存储配置机制。前二机制为阻塞预筛选机制、引用队列负载平衡机制,主要根据子节点的负载来为使用者提供合适服务节点,在子节点阻塞发生前快速地回应请求来减少请求等待的时间并达到初步的负载平衡。然后,通过第三个的档案复本更新机制,进行动态复本配置,根据档案复本热门程度来控制复本的数量与位置,及时分散档案热度,以维持节点间负载平衡,进而减少系统负担并提升系统的效能。
附图说明
图1是本发明的结构示意图;
图2是步骤S2和步骤S3的流程图;
图3是步骤S4的流程图。
具体实施方式
下面结合附图,对本发明作进一步详细说明。
云端储存方式,主要有大块存储和档案存储两种方式。
对于大块存储,是指一份大档案划分成多个64MB为单位的大块,并将大块分散储存至不同的节点中,当使用者储存文件时,会分散存储各处的大块以增加读取的性能,进而降低单一节点因档案太大导致存储延迟;这种方式,需要建立动态管理与配置机制,以避免单一大块热门程度过高导致节点阻塞机率的提升。另外,由于大块存储将档案分割且分散至不同节点中,可能会因为其中一个大块损毁造成整份文件不可使用。
对于档案存储,是指一份完整档案或复制多份档案分散储存至不同节点中。
由于云端计算环境中,储存需求大多是以小档案为主。对10000份档案进行统计,得到平均的档案大小为35.6MB,小于64MB。若采用大块存储的方式,将造成存储空间的浪费。因此,有必要针对档案存储,研究其档案存储配置方法。
云端数据分布式存储的分配方法,包括以下步骤:
步骤S1,建立云端平台。
图1是本发明的结构示意图;如图1所示,所述云端平台,包括使用者端、管理节点、主节点、子节点;
所述管理节点信号连接有使用者端和主节点,是负责接收和回应使用者端的任务请求的中继站,并管理使用者端和主节点之间的沟通。
所述主节点信号连接有子节点,内设有元数据记录模块,进行档案的分析和分类,并分配档案复本到子节点中。
所述子节点,是档案复本放置位置的服务节点。所述主节点和子节点信号连接形成分布式存储结构。
使用者通过使用者端登录云端平台并发送存储服务的请求;管理节点接收来自使用者端的请求,并将该请求传送给主节点;所述主节点,根据储存时间将档案分为长期存储档案和短期存储档案:设定储存时间阈值,将预存储时间超过储存时间阈值的档案归为长期存储档案,否则归为短期存储档案。
长期储存档案,为重复使用率较高及重要程度较高的档案,例如:天灾资料、天文学资料等。为了预防较热门档案产生节点阻塞,则分配档案复本数量,来分散档案的热度程度,以提高档案可用性。将长期储存档案的档案复本数量设定为5份,以保证达到较高可用性。
短期储存档案,为重要程度较低与重复使用率较低的档案,需要较少的档案来避免过多的复本造成资源上浪费,例如:图片、音乐、网页资料等。将短期储存档案的档案复本数量设定为3份,以维持基本的可用性。
主节点将档案复本分配到子节点中,并在元数据记录模块记录档案复本状态;档案复本状态包括档案复本名称、档案复本数量、档案复本存取次数、档案复本所在的子节点位置;当轮询的时间周期更新抵达后,汇总每个档案在各子节点的被存取次数并存入元数据记录模块中。
步骤S2,阻塞预筛选机制:主节点筛选出阻塞机率BPi小于阻塞机率阈值Tbp的子节点,组成合格节点集合。
首先,计算每个子节点的请求到达率λi,即
Figure 102653DEST_PATH_IMAGE001
;其中,pj表示档案复本被存储的热门度,为子节点中的档案复本被存取次数与档案复本在所有子节点中的被存取次数总数的比值;rj表示档案复本数;λ表示达到率,为总请求中到达所有子节点的请求数量占比。
然后,计算每个子节点的阻塞机率BPi,即
Figure 659536DEST_PATH_IMAGE002
;其中,τi表示延迟时间,请求从使用者端发出后,主节点针对不同请求进行档案的分类和档案复本的分配,档案复本存储于子节点的总时间;ci表示子节点的存储区块。当子节点的存储区块ci已经没有空间存放其它档案时,则新进的档案就必须等待,此现象为阻塞。
接着,计算阻塞机率阈值Tbp,阻塞机率阈值Tbp为所有子节点的阻塞机率的平均值;
主节点选出阻塞机率BPi小于阻塞机率阈值Tbp的子节点。
图2是步骤S2和步骤S3的流程图;如图2所示,阻塞预筛选机制,选出具有较低阻塞的子节点进行服务,以避免子节点的阻塞而导致的封包遗失。如果子节点负载太高,则会造成子节点工作效能降低。若子节点所负担的工作量太少,则会浪费节点的能力。因此,通过本阶段的调整,让整个系统得到初步的负载平衡,同时降低系统延迟所造成的请求遗失,以提高整体系统的效能。
步骤S3,引用队列负载平衡机制:在合格节点集合中,主节点筛选出具有最大的引用队列剩余空间数RQ的子节点,作为最佳的档案复本存储的子节点,进行档案复本的存储;如果该筛选出的子节点未拥有此请求的档案复本时,则将该子节点作为备援节点,并将档案复本新增至此子节点以提供服务。
图2是步骤S2和步骤S3的流程图;如图2所示,步骤S3考察各个子节点的引用队列剩余空间数RQ,进而选出最佳的子节点来存放复本以平衡所有子节点中的工作负载,以避免任务分配不均的问题。若最佳的子节点中并没有发现请求的档案复本,则立即新增该档案复本至最佳的子节点,以提供使用者存储。本机制调整任务的分派以确保任务的平均分配。
步骤S4,档案复本更新机制:判断轮询的时间周期是否到达;计算当前请求的档案的复本数比率Requestnr;预先设定第一复本数比率阈值RR;判断当前档案的热门程度;然后执行档案复本的新增、删除或者搬移的动作。
其中,计算当前请求的档案的复本数比率Requestnr
Figure 984294DEST_PATH_IMAGE003
;其中,nri表示当前请求档案的复本数量,tnri表示所有档案复本的数量。
其中,预先设定第一复本数比率阈值RR。在低度工作量环境时,RR值若在20%以下,则档案复本数量将会不足3份,将造成档案复本可用性不足的问题,而若RR值设置在40%以上时,则会产生档案复本数量过多,而造成成本上的花费。因此,将预设的第一复本数比率阈值RR可以订定为20%、30%及40%。
其中,预测档案的热门程度,方式如下:计算第二复本数比率阈值TP;如果本轮询的时间周期中,若一个档案的复本存取次数大于第二复本数比率阈值TP,则该档案为热门档案;否则该档案为冷门档案。第二复本数比率阈值TP是历史记录的存取次数平均值,即
Figure 183194DEST_PATH_IMAGE005
;其中,i表示轮询的时间周期序号;afn-i表示档案的历史存取次数,tfi表示档案种类数。
图3是步骤S4的流程图;如图3所示,档案复本更新机制,具有6种情况:
情况1:轮询的时间周期未到达;当前请求的档案的复本数比率Requestnr大于第一复本数比率阈值RR;档案的复本存取次数大于第二复本数比率阈值TP。
此时表示,目前档案复本热门程度较高,而且档案复本数量也到达设定的RR值。因此,将档案复本搬移到新的子节点,且新的子节点阻塞机率低于旧的子节点的阻塞机率。档案复本从高BP值的子节点,搬移至低BP值较的子节点,以降低阻塞机率。
情况2:轮询的时间周期未到达;当前请求的档案的复本数比率Requestnr大于第一复本数比率阈值RR;档案的复本存取次数不大于第二复本数比率阈值TP。
此时表示,档案复本热门程度较低,则档案复本可能已经存放一段时间。因此,计算出各个子节点阻塞机率,再从拥有此档案复本且阻塞机率最高的子节点中,将档案复本删除至三份,来维持其基本的可用性。
情况3:轮询的时间周期已经到达;当前请求的档案的复本数比率Requestnr不大于第一复本数比率阈值RR;档案的复本存取次数大于第二复本数比率阈值TP。
此时表示,档案复本热门程度较高,但是目前的复本数量不够支持整体环境的可用性。因此,新增一个新的复本至BP值最低的子节点,以降低阻塞发生的机率。
情况4:轮询的时间周期已经到达;当前请求的档案的复本数比率Requestnr不大于第一复本数比率阈值RR;档案的复本存取次数不大于第二复本数比率阈值TP。
此时,轮询的时间周期到达时,将该档案复本删除至三份,以减少冗余的档案复的占用空间;但若档案复本不足三份,则维持原有档案复本数,以减少任何成本上的花费。
情况5:轮询的时间周期已经到达;当前请求的档案的复本数比率Requestnr大于第一复本数比率阈值RR;档案的复本存取次数大于第二复本数比率阈值TP。
此时表示,目前档案复本热门程度较高且档案复本数量也达到一定比率。因此,将档案复本搬移到新的子节点,且新的子节点阻塞机率低于旧的子节点的阻塞机率。档案复本从高BP值的子节点,搬移至低BP值较的子节点,以降低阻塞机率。
情况6:轮询的时间周期已经到达;当前请求的档案的复本数比率Requestnr大于第一复本数比率阈值RR;档案的复本存取次数不大于第二复本数比率阈值TP。
此时表示,请求队列里并没有太多的请求任务,且各节点中存在冗余的档案复本。因此,计算出各个子节点阻塞机率,再从拥有此档案复本且阻塞机率最高的子节点中,将档案复本删除至三份,维持可用度并降低储存空间。
档案复本更新机制,对档案复本数量及热门程度进行评估,进而配置档案复本的位置及档案复本的数量的更新,来保持各子节点间持续的负载平衡及提升整体的存储效率。
档案复本更新机制中计算的阻塞机率,与阻塞预筛选机制中计算的阻塞机率,作用不同:
阻塞预筛选机制中,阻塞机率BPi是只针对计算的子节点,随后进行挑选BPi值小于阻塞机率阈值Tbp的子节点。
档案复本更新机制中,根据所计算的BPi值不同,再通过第一复本数比率阈值RR及第二复本数比率阈值TP的评估来进行档案复本的动态配置,经过档案复本重新再配置过的子节点,将可有效降低阻塞机率,进而达到工作负载的平衡。
步骤S5,主节点,在元数据记录模块记录档案复本状态,并将档案复本状态通过管理节点传送给使用者端,方便使用者进行档案复本的存取。
模拟本方案的运行环境,具体如下:
假设每5ms为一个时间周期间隔;子节点编号为N1~N10;存储的档案编号为A~E。
步骤S1,建立云端平台;使用者通过使用者端登录云端平台并发送存储服务的请求;管理节点接收来自使用者端的请求,并将该请求传送给主节点;所述主节点,根据储存时间将档案分为长期存储档案和短期存储档案。
若档案类型属于长期存储档案,则需要分配较多的档案复本数,反之,短期存储档案,则应分配较少的档案复本数。分别结果如表1所示。
表1为档案类型产生的档案复本数统计表。
Figure 586493DEST_PATH_IMAGE006
随后,通过阻塞预筛选机制和引用队列负载平衡机制,筛选出较佳的子节点来提供档案的存储。而档案复本状态记录在元数据记录模块中,如表2所示。
表2为时间点t1下的档案复本在各节点的被存取次数统计表。
Figure DEST_PATH_IMAGE007
当轮询的时间周期更新抵达后,汇总每个档案在各子节点的被存取次数并存入元数据记录模块中,如表3所示。例如,对于档案编号为A的档案,汇总其在子节点N2、N7、N9进行被存取次数为30。
表3为在时间点t1档案被存取次数的汇总表。
Figure 111015DEST_PATH_IMAGE009
步骤S2,根据每个档案在各子节点的被存取次数的汇总信息,计算每个子节点的请求到达率λi及每个子节点的阻塞机率BPi
λ表示达到率,为总请求中到达所有子节点的请求数量占比。假设总请求的数量有300个,真正到达子节点的只有235个,其他的请求可能在传送时,因为封包遗失或等待时间过长等原因,而导致传送失败。本模拟案例中,将达到率λ设定为0.2。
表4为每个子节点的请求到达率λi的汇总表。
Figure 662082DEST_PATH_IMAGE010
τi表示延迟时间,请求从使用者端发出后,主节点针对不同请求进行档案的分类和档案复本的分配,档案复本存储于子节点的总时间。为了比较存储效能,需要统一环境。假设,首先存储服务的请求通过主节点进行分类时所花费时间间隔为1s,随后主节点针对不同请求进行档案复本数分配的时间间隔为1s,最后分配档案复本至不同的子节点的队列中的时间间隔为1s。因此,假设请求到所有子节点的延迟时间为3s。
ci表示子节点的存储区块;假设ci为3。
表5为每个子节点的阻塞机率BPi的汇总表。
Figure 133515DEST_PATH_IMAGE012
计算阻塞机率阈值Tbp,阻塞机率阈值Tbp为所有子节点的阻塞机率的平均值;Tbp=(0.0001835+0.000412+0.000685+0.0000006+0.000069
+0.000057+0.000565+0.000434+0.000052+0.000007)/10=0.000246。
主节点选出阻塞机率BPi小于阻塞机率阈值Tbp的子节点(N1、N4、N5、N6、N9和N10),进行档案复本的存储。
步骤S3,引用队列负载平衡机制:在阻塞机率BPi小于阻塞机率阈值Tbp的子节点中,筛选出具有最大的引用队列剩余空间数RQ的子节点,作为最佳的档案复本存储的子节点;如果该筛选出的子节点未拥有此请求的档案复本时,则将该子节点作为备援节点,将档案A复本新增至此子节点以提供服务。
假设目前有档案A有请求进来,则会先找寻拥有档案A复本子节点N2、N7、N9。若假设目前子节点N2、N7、N9的阻塞机率BP值大于阻塞机率阈值Tbp,则表示子节点N2、N7、N9目前为繁忙状态,若再次选择可能导致阻塞发生,因此,选择阻塞机率BP最小且剩余空间最多的子节点N4作为备援节点,进而将档案A复本新增至此以提供服务,如表6所示。
表6为每个子节点的阻塞机率BPi和引用队列剩余空间数RQ汇总表。
Figure 656900DEST_PATH_IMAGE013
步骤S4,档案复本更新机制。
对档案复本的热度重新评估,计算当前请求的档案的复本数比率,即
Figure 883482DEST_PATH_IMAGE014
;其中,nri表示当前请求档案的复本数量,tnri表示所有档案复本的数量。
表7为每个档案的复本数比率复本数比率。
Figure 859529DEST_PATH_IMAGE015
预设的第一复本数比率阈值RR=20%。
如果当前请求的档案的复本数比率Requestnr大于第一复本数比率阈值RR,则触发更新,确认当前档案的热门程度,并进行档案复本的调配工作。
否则,在下一个轮询的时间周期,重新进行本步骤。
表8为当前各档案复本存取次数与历史的存取次数平均值的对比表。
Figure 134652DEST_PATH_IMAGE016
参考表7和表8,若假设RR值定为20%,而目前请求为档案C,但发现目前档案C计算出的复本数比率Requestnr大于第一复本数比率阈值RR,则触发更新来确认目前档案复本热门程度,而由于档案C目前存取次数为10,相较于历史纪录的复本数比率阈值12.6低,则表示目前档案复本数较高,但是复本的热门程度较低,则表示太多冗余的档案复本占用空间。因此,进行档案复本的更新,将复本数量删除至三份来维持基本的可用性。
而若假设目前请求为档案A,然而目前周期抵达后,发现目前复本数比率Requestnr计算后小于订定的第一复本数比率阈值RR,则进一步确认目前档案复本热门程度,档案A为存取次数为13,较表9中历史纪录的复本数比率阈值12.6还高,则表示目前档案A为较热门档案,而复本数量较少,可能会导致阻塞发生。因此,通过档案复本的新增来分散档案的热门程度,达到实时降低档案的热门程度以避免节点阻塞发生。
如果本轮询的时间周期中,若一个档案的复本存取次数大于第二复本数比率阈值TP,则该档案为热门档案;否则该档案为冷门档案。表8中,档案A存取次数为13,大于第二复本数比率阈值TP,则表示档案A为热门档案,反之档案B、档案C、档案D及档案E小于第二复本数比率阈值TP,则会被归类为冷门档案。
步骤S5,主节点,在元数据记录模块记录档案复本状态,并将档案复本状态通过管理节点传送给使用者端,方便使用者进行档案复本的存取。
本方案能有效分散节点阻塞机率,并通过阻塞机率选择服务节点,且考虑空间剩余量,避免发生阻塞的情况。本方案不管是在松散或是密集环境中都能够有效配置复本数量及复本位置。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (7)

1.云端数据分布式存储的分配方法,其特征在于,包括以下步骤:
步骤S1,建立云端平台;所述云端平台,包括使用者端、管理节点、主节点、子节点;
使用者通过使用者端登录云端平台并发送存储服务的请求;管理节点接收来自使用者端的请求,并将该请求传送给主节点;所述主节点,将档案进行分类并设定档案复本数量;主节点将档案复本分配到子节点中,并记录档案复本状态;
步骤S2,阻塞预筛选机制:主节点筛选出阻塞机率BPi小于阻塞机率阈值Tbp的子节点,组成合格节点集合;
步骤S3,引用队列负载平衡机制:在合格节点集合中,主节点筛选出具有最大的引用队列剩余空间数RQ的子节点,作为最佳的档案复本存储的子节点,进行档案复本的存储;如果该筛选出的子节点未拥有此请求的档案复本时,则将该子节点作为备援节点,并将档案复本新增至此子节点;
步骤S1中,所述主节点,将预存储时间超过储存时间阈值的档案归为长期存储档案,否则归为短期存储档案;将长期储存档案的档案复本数量设定为5份;将短期储存档案的档案复本数量设定为3份。
2.根据权利要求1所述的云端数据分布式存储的分配方法,其特征在于,所述管理节点信号连接有使用者端和主节点,是负责接收和回应使用者端的任务请求的中继站,并管理使用者端和主节点之间的沟通;
所述主节点内设有记录档案复本状态的元数据记录模块;所述子节点,是档案复本放置位置的服务节点;所述主节点和子节点信号连接形成分布式存储结构。
3.根据权利要求2所述的云端数据分布式存储的分配方法,其特征在于,步骤S2中,首先,计算每个子节点的请求到达率λi,即
Figure DEST_PATH_IMAGE002
;其中,pj表示档案复本被存储的热门度,为子节点中的档案复本被存取次数与档案复本在所有子节点中的被存取次数总数的比值;rj表示档案复本数;λ表示达到率,为总请求中到达所有子节点的请求数量占比;
然后,计算每个子节点的阻塞机率BPi,即
Figure DEST_PATH_IMAGE004
;其中,τi表示延迟时间,请求从使用者端发出后,主节点针对不同请求进行档案的分类和档案复本的分配,档案复本存储于子节点的总时间;ci表示子节点的存储区块;
接着,计算阻塞机率阈值Tbp,阻塞机率阈值Tbp为所有子节点的阻塞机率的平均值。
4.根据权利要求3所述的云端数据分布式存储的分配方法,其特征在于,还包括步骤S4,档案复本更新机制:判断轮询的时间周期是否到达;计算当前请求的档案的复本数比率Requestnr;预先设定第一复本数比率阈值RR;判断当前档案的热门程度;然后执行档案复本的新增、删除或者搬移的动作;
其中,计算当前请求的档案的复本数比率Requestnr,即
Figure DEST_PATH_IMAGE006
;nri表示当前请求档案的复本数量,tnri表示所有档案复本的数量。
5.根据权利要求4所述的云端数据分布式存储的分配方法,其特征在于,判断当前档案的热门程度,方式如下:计算第二复本数比率阈值TP;如果本轮询的时间周期中,若一个档案的复本存取次数大于第二复本数比率阈值TP,则该档案为热门档案;否则该档案为冷门档案;第二复本数比率阈值TP是历史记录的存取次数平均值,即
Figure DEST_PATH_IMAGE008
;其中,i表示轮询的时间周期序号;afn-i表示档案的历史存取次数,tfi表示档案种类数。
6.根据权利要求5所述的云端数据分布式存储的分配方法,其特征在于,档案复本更新机制,具有6种情况:
情况1:轮询的时间周期未到达;当前请求的档案的复本数比率Requestnr大于第一复本数比率阈值RR;档案的复本存取次数大于第二复本数比率阈值TP;此时,将档案复本搬移到新的子节点,且新的子节点阻塞机率低于旧的子节点的阻塞机率;
情况2:轮询的时间周期未到达;当前请求的档案的复本数比率Requestnr大于第一复本数比率阈值RR;档案的复本存取次数不大于第二复本数比率阈值TP;此时,计算出各个子节点阻塞机率,再从拥有此档案复本且阻塞机率最高的子节点中,将档案复本删除至三份;
情况3:轮询的时间周期已经到达;当前请求的档案的复本数比率Requestnr不大于第一复本数比率阈值RR;档案的复本存取次数大于第二复本数比率阈值TP;此时,新增一个新的复本至BP值最低的子节点;
情况4:轮询的时间周期已经到达;当前请求的档案的复本数比率Requestnr不大于第一复本数比率阈值RR;档案的复本存取次数不大于第二复本数比率阈值TP;此时,将该档案复本删除至三份;但若档案复本不足三份,则维持原有档案复本数;
情况5:轮询的时间周期已经到达;当前请求的档案的复本数比率Requestnr大于第一复本数比率阈值RR;档案的复本存取次数大于第二复本数比率阈值TP;此时,将档案复本搬移到新的子节点,且新的子节点阻塞机率低于旧的子节点的阻塞机率;
情况6:轮询的时间周期已经到达;当前请求的档案的复本数比率Requestnr大于第一复本数比率阈值RR;档案的复本存取次数不大于第二复本数比率阈值TP;此时,计算出各个子节点阻塞机率,再从拥有此档案复本且阻塞机率最高的节点中,将档案复本删除至三份。
7.根据权利要求6所述的云端数据分布式存储的分配方法,其特征在于,还包括步骤S5,主节点,在元数据记录模块记录档案复本状态,并将档案复本状态通过管理节点传送给使用者端。
CN202210713216.7A 2022-06-22 2022-06-22 云端数据分布式存储的分配方法 Active CN114827180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210713216.7A CN114827180B (zh) 2022-06-22 2022-06-22 云端数据分布式存储的分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210713216.7A CN114827180B (zh) 2022-06-22 2022-06-22 云端数据分布式存储的分配方法

Publications (2)

Publication Number Publication Date
CN114827180A CN114827180A (zh) 2022-07-29
CN114827180B true CN114827180B (zh) 2022-09-27

Family

ID=82520999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210713216.7A Active CN114827180B (zh) 2022-06-22 2022-06-22 云端数据分布式存储的分配方法

Country Status (1)

Country Link
CN (1) CN114827180B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544377B (zh) * 2022-11-25 2023-04-07 浙江星汉信息技术股份有限公司 基于云端存储的档案的热度评估和更新方法
CN115794418B (zh) * 2023-02-03 2023-04-28 蒲惠智造科技股份有限公司 一种计算资源的分配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102307221A (zh) * 2011-03-25 2012-01-04 国云科技股份有限公司 一种云存储系统及其实现方法
CN104391737A (zh) * 2014-12-15 2015-03-04 成都英力拓信息技术有限公司 云平台中负载平衡的优化方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8958329B2 (en) * 2012-11-20 2015-02-17 Cisco Technology, Inc. Fabric load balancing
CN102984280B (zh) * 2012-12-18 2015-05-20 北京工业大学 针对社交类云存储网络应用的数据备份系统和方法
CN103929454B (zh) * 2013-01-15 2017-06-20 中国移动通信集团四川有限公司 一种云计算平台中负载均衡存储的方法和系统
CN103701916B (zh) * 2013-12-31 2017-10-27 赛凡信息科技(厦门)有限公司 分布式存储系统的动态负载均衡方法
US9602424B1 (en) * 2014-03-31 2017-03-21 Amazon Technologies, Inc. Connection balancing using attempt counts at distributed storage systems
US9274710B1 (en) * 2014-03-31 2016-03-01 Amazon Technologies, Inc. Offset-based congestion control in storage systems
KR101790701B1 (ko) * 2016-01-11 2017-11-21 충북대학교 산학협력단 분산 인-메모리 환경에서 데이터 복제 및 이주를 이용한 부하 분산 시스템
US10637923B2 (en) * 2016-05-25 2020-04-28 Cisco Technology, Inc. Congestion aware load balancing for distributed storage
CN108900626B (zh) * 2018-07-18 2021-11-19 中国联合网络通信集团有限公司 一种云环境下数据存储方法、装置及系统
CN112039982B (zh) * 2020-08-28 2022-03-01 华侨大学 一种高效能分布式云存储方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102307221A (zh) * 2011-03-25 2012-01-04 国云科技股份有限公司 一种云存储系统及其实现方法
CN104391737A (zh) * 2014-12-15 2015-03-04 成都英力拓信息技术有限公司 云平台中负载平衡的优化方法

Also Published As

Publication number Publication date
CN114827180A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN114827180B (zh) 云端数据分布式存储的分配方法
US7076553B2 (en) Method and apparatus for real-time parallel delivery of segments of a large payload file
AU2014249180B2 (en) Token-based admission control for replicated writes
US20190163371A1 (en) Next generation storage controller in hybrid environments
CN108139941A (zh) 基于网络流控制的动态资源分配
Chou et al. Striping doesn't scale: How to achieve scalability for continuous media servers with replication
US20110196836A1 (en) Executing Replication Requests for Objects In A Distributed Storage System
US6779082B2 (en) Network-based disk redundancy storage system and method
CN103929454A (zh) 一种云计算平台中负载均衡存储的方法和系统
CN1723434A (zh) 用于可扩展网络附接存储系统的装置和方法
WO2011088767A1 (zh) 内容分发的方法、系统及调度服务器
WO2012127526A1 (en) File server system and storage control method
CN102984280A (zh) 针对社交类云存储网络应用的数据备份系统和方法
CN111258980B (zh) 一种云存储系统中基于组合预测的动态文件放置方法
Nannai John et al. A novel dynamic data replication strategy to improve access efficiency of cloud storage
CN108776690B (zh) 基于分层治理的hdfs分布式与集中式混合数据存储系统的方法
CN112685670A (zh) 一种数据调度方法及装置
Golubchik et al. Bounding of performance measures for threshold-based queuing systems: Theory and application to dynamic resource management in video-on-demand servers
CN1209714C (zh) 基于网络存储和可扩展体系结构的服务器系统及方法
CN107908713A (zh) 一种基于Redis集群的分布式动态杜鹃过滤系统及其过滤方法
Jayalakshmi et al. Dynamic data replication strategy in cloud environments
WO2010111906A1 (zh) 一种刀片服务器及其业务调度方法
Fu et al. Data replica placement policy based on load balance in cloud storage system
CN111343256A (zh) 一种网盘文件上传方法
CN108363551A (zh) 一种存储系统复制链路流量控制实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant