CN112148682A - 基于云存储的多异构文件联合延迟尾概率凸优化算法 - Google Patents
基于云存储的多异构文件联合延迟尾概率凸优化算法 Download PDFInfo
- Publication number
- CN112148682A CN112148682A CN202011210474.0A CN202011210474A CN112148682A CN 112148682 A CN112148682 A CN 112148682A CN 202011210474 A CN202011210474 A CN 202011210474A CN 112148682 A CN112148682 A CN 112148682A
- Authority
- CN
- China
- Prior art keywords
- file
- probability
- delay
- node
- tail
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
- G06F16/134—Distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了基于云存储的多异构文件联合延迟尾概率凸优化算法,包括如下步骤:建立系统模型,在ni个存储节点Si上存储一组r文件,根据文件索引i将每个文件划分为ki个固定大小的数据块,使用擦除代码对其进行编码,生成与文件索引i相同大小的ni个不同编码块,将编码块存储在ni个存储节点Si上;以预定概率P(Ai)将文件重建请求发送到存储节点Si处并按顺序处理;量化具有任意服务时间分布的擦除编码中的尾延迟,计算调度概率π、文件的放置参数S和辅助参数t;结合调度概率π、文件的放置参数S和辅助参数t,建立联合延迟尾概率优化模型,优化尾延迟。本发明有效降低了高到达率文件的延迟,对三个变量π、t、s进行联合优化,减少了数据冗余度,大大降低了尾部延迟概率。
Description
技术领域
本发明属于云存储技术领域,具体涉及一种基于云存储的多异构文件联合延迟尾概率凸优化算法。
背景技术
对于擦除编码存储系统,文件被编码成多个大小相等的数据块,允许从任何子集进行重建。因此,重建文件需要从不同的服务器获取不同的块,这导致尾部延迟显著增加,因为在这样的系统中,服务延迟是由最热的存储节点以最高的拥塞和最慢的速度决定的,这实际上成了性能瓶颈。尽管存在负载平衡和资源管理等机制,但对大型存储系统的评估表明,延迟性能具有高度的随机性。
为了提供同构文件的平均服务延迟上限,现有技术利用Fork-join队列分析通过将每个文件请求分叉到所有存储节点来提供平均服务延迟的上限。或者基于排队论分析的块调度策略,它只允许缓冲区头部的第一个请求向前移动。然而,由于状态爆炸问题,这两种方法都无法量化尾部延迟,因为相应队列模型的状态不仅必须封装当前系统的快照(包括块放置和排队请求),而且还必须封装单个节点处理块请求的过去历史。随后,利用顺序统计分析和概率请求调度策略,虽然降低平均延迟被发现对降低延迟包络有积极影响,但量化和优化擦除编码存储的尾部延迟仍然是开放问题,没有有效的解决尾延迟增加的问题。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种基于云存储的多异构文件联合延迟尾概率凸优化算法。
为实现上述技术目的,本发明采取的技术方案为:
基于云存储的多异构文件联合延迟尾概率凸优化算法,其中:包括如下步骤:
步骤S1:建立系统模型,在ni个存储节点Si上分布存储一组r文件,索引为i=1,2,L,r,根据文件索引i将每个文件划分为ki个固定大小的数据块,使用(ni,ki)MDS擦除代码对其进行编码,生成与文件索引i相同大小的ni个不同编码块,将编码块分配并存储在ni个不同的存储节点Si上;
步骤S2:以预定概率P(Ai)将文件重建请求发送到适当的存储节点Si处,其中每个存储节点在本地队列中缓冲请求并按顺序处理;
步骤S3:量化具有任意服务时间分布的擦除编码中的尾延迟,计算调度概率π、文件的放置参数S和辅助参数t;
步骤S4:结合调度概率π、文件的放置参数S和辅助参数t,建立联合延迟尾概率优化模型,优化尾延迟。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤S2具体为:
S22:每个存储节点独立管理其本地队列,并按顺序继续处理请求,如果文件请求的所有编码块请求都由单个节点处理,则该文件请求将完成。
进一步地,步骤S3具体为:
S31:设定编码块请求在存储节点j中花费的时间为Qj,根据随机选择的存储节点集的最大编码块响应时间确定文件i请求的响应时间,用Li表示;
S32:根据编码块请求在存储节点j处的到达形成速率和服务器处理单个块的服务时间的矩生成函数,计算存储节点j的逗留时间的Laplace-Stieltjes变换:
s=σ+jt
其中,Qj是节点j的逗留时间,ρj是存储节点j的请求强度,Λj是存储节点j的到达率,s表示节点随时间的变化参数,σ表示L氏变换中的实变数,Mj(t)是存储节点j服务时间的矩生成函数;
其中,(αj,βj)是节点j的移动指数分布服务时间参数;
S33:计算延迟尾概率的上界:
ρj=Λj/αj+Λjβj tj>0 ρj<1
Mj(tj)<∞Λj(Mj(tj)-1)<tj
其中,Pr(Li≥x)为文件i服务时间的延迟尾概率,tj表示节点服务时间,x是参数索引延迟尾概率,πij是从节点j检索文件i块的概率,Li是检索文件i的延迟;
S34:结合延迟尾概率的上界,建立一个最小化所有文件的加权延迟尾概率的优化模型:
ωi=λi/∑iλi
其中,ωi为分配给文件i的正向权重,λi是文件i的到达率,Pr(Li≥x)为文件i服务时间的延迟尾概率;
S35:建立延迟尾概率上界的目标函数:
进一步地,步骤S4具体为:
S41:对放置参数S进行单独优化:
S42:根据优化后的放置参数S,重新计算文件i的延迟尾概率P(Li≥x):
S43:计算边权模型:
由最小权匹配得到最小化的最优β,优化边权模型
其中,β(u)表示节点u的移动指数分布服务时间参数。
本发明的有益效果:
本发明基于云存储的多异构文件联合延迟尾概率凸优化算法,有效降低了高到达率文件的延迟,利用最优的辅助参数和调度概率结合放置参数s进行联合优化,减少了数据冗余度,大大降低了尾部延迟概率。
附图说明
图1是本发明的流程示意图;
图2是存储节点参数设定图;
图3是加权延迟尾概率图;
图4是不同文件到达率的加权延迟尾概率图;
图5是不同文件数的加权延迟尾规律图;
图6是不同文件大小的加权延迟尾概率图;
图7是浪潮云Inspur试验结果对比图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
如图1所示,本发明为基于云存储的多异构文件联合延迟尾概率凸优化算法,包括如下步骤:
步骤S1:建立系统模型,在ni个存储节点Si上分布存储一组r文件,索引为i=1,2,L,r,根据文件索引i将每个文件划分为ki个固定大小的数据块,使用(ni,ki)MDS擦除代码对其进行编码,生成与文件索引i相同大小的ni个不同编码块,将编码块分配并存储在ni个不同的存储节点Si上;
步骤S2:以预定概率P(Ai)将文件重建请求发送到适当的存储节点Si处,其中每个存储节点在本地队列中缓冲请求并按顺序处理;
S22:每个存储节点独立管理其本地队列,并按顺序继续处理请求,如果文件请求的所有编码块请求都由单个节点处理,则该文件请求将完成。
步骤S3:量化具有任意服务时间分布的擦除编码中的尾延迟,计算调度概率π、文件的放置参数S和辅助参数t;
S31:设定编码块请求在存储节点j中花费的时间为Qj,根据随机选择的存储节点集Ai处的最大编码块响应时间确定文件i请求的响应时间Li;
S32:根据编码块请求在存储节点j处的到达形成速率和服务器处理单个块的服务时间的力矩生成函数,计算在存储节点j中花费的时间Qj的Laplace-Stieltjes变换:
ρj=ΛjE[Xj]
其中,Qj是节点j的逗留时间,ρj是存储节点j的请求强度,Λj是存储节点j的到达率,s表示节点随时间的变化参数,σ表示L氏变换中的实变数,Mj(t)是存储节点j服务时间的矩生成函数;
其中,(αj,βj)是节点j的移动指数分布服务时间参数;
S33:计算延迟尾概率的上界:
ρj=Λj/αj+Λjβj tj>0 ρj<1
Mj(tj)<∞ Λj(Mj(tj)-1)<tj
其中,Pr(Li≥x)为文件i服务时间的延迟尾概率,tj表示节点服务时间,x是参数索引延迟尾概率,πij是从节点j检索文件i块的概率,Li是检索文件i的延迟;
S34:结合延迟尾概率的上界,建立一个最小化所有文件的加权延迟尾概率的优化模型:
ωi=λi/∑iλi
式中,ωi是分配给文件i的正向权重,Pr(Li≥x)为文件i服务时间的延迟尾概率;
S35:建立延迟尾概率上界的目标函数:
步骤S4:结合调度概率π、文件的放置参数S和辅助参数t,建立联合延迟尾概率优化模型,优化尾延迟。
S41:对放置参数s进行单独优化:
S42:根据优化后的放置参数S,重新计算文件i的延迟尾概率P(Li≥x):
S44:计算边权模型:
由最小权匹配得到最小化的最优β,优化边权模型
其中,β(u)表示节点u的移动指数分布服务时间参数。
本方法采用的相关参数为:云存储文件数量r=1000,所有文件大小是200MB,使用由m=12个分布式节点组成的分布式存储系统中的擦除码(7,4)。
如图2所示,块服务时间随速率αj和位移βj服从一个位移指数分布,本文采用12个不同服务速率αj和移位βj的异构存储节点。
前250个文件的基本到达率为2/150s-1,后250个文件的基本到达率为4/150s-1,接下来的250个文件是6/150s-1,最后的250个文件是3/150s-1。本文还考虑了文件的权重与到达率成正比。为了初始化算法,对于所有tj=0.01在放置服务器上选择πij=k/n。然而,由于这些π和t的选择可能不可行,将初始化π修改为与上述选择最接近的范数可行解。
如图3所示,给出本申请的延迟尾概率凸优化算法(Proposed algorithm)以及对比算法的加权延迟尾概率∑iωi Pr(Li≥x)实验模拟结果。本申请算法通过提出的在π、t和S上的替代优化算法来求解最优加权延迟尾概率。通过优化t和布局,策略PEAP使用相同的服务器访问概率,向可行区域投射,而策略PSPP根据服务速率在不同服务器上分配块请求。然后,对上述给定的πi,j的值最优地求出t的值。实验结果显示本文算法的加权延迟尾概率降低了几个数量级。例如,所提算法策略将99%的加权延迟从对比策略中的160秒以上减少到大约20秒。
如图4所示,对不同的请求到达率对加权延迟尾概率的影响进行实验,选择x=50秒,对于λ作为基本到达率,将所有文件的到达率从0.2λ增加到1.4λ,并在图3中绘制加权延迟尾概率,当延迟尾概率随着到达率的增加而增加时,本申请算法为不同的文件分配不同的延迟以保持低加权延迟尾概率。实验结果显示,本申请算法优于选取的对比实验策略。由于在高到达率下加权延迟尾概率更为显著,因此观察到在图3中PEAP和本申请算法之间,在最高到达率下延迟尾概率显著提高了约9倍(约0.025到约0.22),本申请算法总是得到最小的延迟。因此,有效地降低高到达率文件的延迟可以降低总加权延迟尾概率。
如图5所示,将文件数量从200变为1200对加权延迟尾概率的影响。加权延迟尾概率随着文件数量的增加而增加,这会带来更多的工作负载(即更高的到达率)。本申请算法对新文件和现有文件进行优化,以将总的加权延迟尾概率保持在一个较低的水平。可见本申请算法有效地降低了尾部概率,并且优于所选取的对比算法。因此,对所有三个变量π、t和S进行联合优化有助于显著降低尾部概率。
如图6所示,将文件大小从200MB更改为700MB,并在图5中用不同的文件大小绘制最佳加权延迟尾概率。为了获得与默认大小200mb相比文件大小增加的影响,将参数α和β的值与移动指数服务时间分布中的块大小成比例地增加。随着文件大小的增加,文件的加权尾延迟概率增加,本申请算法与对比算法进行了比较,验证了本申请算法可以显著降低尾延迟。
如图7所示,取浪潮云Inspur实验平台进行算法性能测试,选取的实验指标为算法云存储冗余度,对比算法仍然选取上述算法,实验参数设置同上。出冗余度(RSR)是考虑异构存储系统冗余节省,在保证数据可用性的.RSR指标定义为:
实验结果表明,本申请算法具有的数据冗余度指标实验结果最低,且具有更高的计算效率。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (4)
1.基于云存储的多异构文件联合延迟尾概率凸优化算法,其特征在于,包括如下步骤:
步骤S1:在ni个存储节点Si上分布存储一组r文件,索引为i=1,2,L,r,根据文件索引i将每个文件划分为ki个固定大小的数据块,使用(ni,ki)MDS擦除代码对其进行编码,生成与文件索引i相同大小的ni个不同编码块,将编码块分配并存储在ni个不同的存储节点Si上;
步骤S2:以预定概率P(Ai)将文件重建请求发送到对应的存储节点Si处,其中每个存储节点在本地队列中缓冲请求并按顺序处理;
步骤S3:量化具有任意服务时间分布的擦除编码中的尾延迟,建立联合延迟尾概率模型,计算调度概率π、文件的放置参数S和辅助参数t;
步骤S4:对联合延迟尾概率模型进行优化尾延迟。
3.根据权利要求2所述的基于云存储的多异构文件联合延迟尾概率凸优化算法,其特征在于:所述步骤3具体为:
S31:设定编码块请求在存储节点j中花费的时间为Qj,根据随机选择的存储节点集的最大编码块响应时间确定文件i请求的响应时间,用Li表示;
S32:根据编码块请求在存储节点j处的到达形成速率和服务器处理单个块的服务时间的矩生成函数,计算存储节点j处的逗留时间的Laplace-Stieltjes变换:
s=σ+jt
其中,Qj是节点j的逗留时间,ρj是存储节点j的请求强度,Λj是存储节点j的到达率,s表示节点随时间的变化参数,σ表示L氏变换中的实变数,Mj(t)是存储节点j服务时间的矩生成函数;
其中,(αj,βj)是节点j的移动指数分布服务时间参数;
S33:计算延迟尾概率的上界:
其中,Pr(Li≥x)为文件i服务时间的延迟尾概率,tj表示节点服务时间,x是参数索引延迟尾概率,πij是从节点j检索文件i块的概率,Li是检索文件i的延迟;
S34:结合延迟尾概率的上界,建立一个最小化所有文件的加权延迟尾概率的优化模型:
ωi=λi/∑iλi
其中,ωi为分配给文件i的正向权重,λi是文件i的到达率,Pr(Li≥x)为文件i服务时间的延迟尾概率;
S35:建立延迟尾概率上界的目标函数:
4.根据权利要求3所述的基于云存储的多异构文件联合延迟尾概率凸优化算法,其特征在于:所述步骤S4具体为:
S41:对放置参数S进行单独优化:
S42:根据优化后的放置参数S,重新计算文件i的延迟尾概率P(Li≥x):
S43:计算边权模型:
由最小权匹配得到最小化的最优β,优化边权模型
其中,β(u)表示节点u的移动指数分布服务时间参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011210474.0A CN112148682A (zh) | 2020-11-03 | 2020-11-03 | 基于云存储的多异构文件联合延迟尾概率凸优化算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011210474.0A CN112148682A (zh) | 2020-11-03 | 2020-11-03 | 基于云存储的多异构文件联合延迟尾概率凸优化算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112148682A true CN112148682A (zh) | 2020-12-29 |
Family
ID=73953848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011210474.0A Withdrawn CN112148682A (zh) | 2020-11-03 | 2020-11-03 | 基于云存储的多异构文件联合延迟尾概率凸优化算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112148682A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117596375A (zh) * | 2024-01-18 | 2024-02-23 | 锋尚文化集团股份有限公司 | 千人级虚拟演艺云数据交换方法、装置及储存介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241052A (zh) * | 2020-01-15 | 2020-06-05 | 北京航空航天大学 | 一种基于凸优化方法的分布式文件系统数据放置方法 |
CN111258980A (zh) * | 2020-01-18 | 2020-06-09 | 重庆邮电大学 | 一种云存储系统中基于组合预测的动态文件放置方法 |
-
2020
- 2020-11-03 CN CN202011210474.0A patent/CN112148682A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241052A (zh) * | 2020-01-15 | 2020-06-05 | 北京航空航天大学 | 一种基于凸优化方法的分布式文件系统数据放置方法 |
CN111258980A (zh) * | 2020-01-18 | 2020-06-09 | 重庆邮电大学 | 一种云存储系统中基于组合预测的动态文件放置方法 |
Non-Patent Citations (1)
Title |
---|
许小媛等: "云存储多异构文件联合延迟尾概率凸优化分析" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117596375A (zh) * | 2024-01-18 | 2024-02-23 | 锋尚文化集团股份有限公司 | 千人级虚拟演艺云数据交换方法、装置及储存介质 |
CN117596375B (zh) * | 2024-01-18 | 2024-03-19 | 锋尚文化集团股份有限公司 | 千人级虚拟演艺云数据交换方法、装置及储存介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104272244B (zh) | 用于对处理进行调度以实现空间节省的系统、方法 | |
Aggarwal et al. | Sprout: A functional caching approach to minimize service latency in erasure-coded storage | |
CN107046812B (zh) | 一种数据保存方法和装置 | |
CN111382844A (zh) | 一种深度学习模型的训练方法及装置 | |
CN108475349A (zh) | 用于稳健的大规模机器学习的系统和方法 | |
CN109144719B (zh) | 移动云计算系统中基于马尔科夫决策过程的协作卸载方法 | |
WO2018218850A1 (zh) | 文件大小异构的分布式编码缓存放置方法及系统 | |
US10346066B2 (en) | Efficient erasure coding of large data objects | |
CN114861911B (zh) | 深度学习模型的训练方法、装置、系统、设备和介质 | |
CN113655969B (zh) | 一种基于流式分布式存储系统的数据均衡存储方法 | |
CN111258980B (zh) | 一种云存储系统中基于组合预测的动态文件放置方法 | |
CN110162390B (zh) | 一种雾计算系统的任务分配方法及系统 | |
CN112667528A (zh) | 一种数据预取的方法及相关设备 | |
CN112148682A (zh) | 基于云存储的多异构文件联合延迟尾概率凸优化算法 | |
CN109951875A (zh) | 基于内容流行度预测的缓存方法、装置、设备和介质 | |
CN107370807B (zh) | 基于透明服务平台数据访问的服务端及其缓存优化方法 | |
CN113342504A (zh) | 基于缓存的智能制造边缘计算任务调度方法及系统 | |
Sanders | Asynchronous scheduling of redundant disk arrays | |
CN114844781B (zh) | Rack架构下面向编码MapReduce的Shuffle性能优化方法及系统 | |
CN111399755A (zh) | 数据存储管理的方法和装置 | |
CN104933110A (zh) | 一种基于MapReduce的数据预取方法 | |
CN113778346B (zh) | 数据读取方法、装置、设备和存储介质 | |
CN114924868A (zh) | 一种基于强化学习的自适应多信道分布式深度学习方法 | |
CN113504875A (zh) | 一种基于多级调度的纠删码系统恢复方法及系统 | |
CN106599184A (zh) | 一种Hadoop系统优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201229 |