CN112148682A

CN112148682A - 基于云存储的多异构文件联合延迟尾概率凸优化算法

Info

Publication number: CN112148682A
Application number: CN202011210474.0A
Authority: CN
Inventors: 许小媛; 刘芳; 李海波
Original assignee: Jiangsu Open University of Jiangsu City Vocational College
Current assignee: Jiangsu Open University of Jiangsu City Vocational College
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2020-12-29

Abstract

本发明公开了基于云存储的多异构文件联合延迟尾概率凸优化算法，包括如下步骤：建立系统模型，在n_i个存储节点S_i上存储一组r文件，根据文件索引i将每个文件划分为k_i个固定大小的数据块，使用擦除代码对其进行编码，生成与文件索引i相同大小的n_i个不同编码块，将编码块存储在n_i个存储节点S_i上；以预定概率P(A_i)将文件重建请求发送到存储节点S_i处并按顺序处理；量化具有任意服务时间分布的擦除编码中的尾延迟，计算调度概率π、文件的放置参数S和辅助参数t；结合调度概率π、文件的放置参数S和辅助参数t，建立联合延迟尾概率优化模型，优化尾延迟。本发明有效降低了高到达率文件的延迟，对三个变量π、t、s进行联合优化，减少了数据冗余度，大大降低了尾部延迟概率。

Description

基于云存储的多异构文件联合延迟尾概率凸优化算法

技术领域

本发明属于云存储技术领域，具体涉及一种基于云存储的多异构文件联合延迟尾概率凸优化算法。

背景技术

对于擦除编码存储系统，文件被编码成多个大小相等的数据块，允许从任何子集进行重建。因此，重建文件需要从不同的服务器获取不同的块，这导致尾部延迟显著增加，因为在这样的系统中，服务延迟是由最热的存储节点以最高的拥塞和最慢的速度决定的，这实际上成了性能瓶颈。尽管存在负载平衡和资源管理等机制，但对大型存储系统的评估表明，延迟性能具有高度的随机性。

为了提供同构文件的平均服务延迟上限，现有技术利用Fork-join队列分析通过将每个文件请求分叉到所有存储节点来提供平均服务延迟的上限。或者基于排队论分析的块调度策略，它只允许缓冲区头部的第一个请求向前移动。然而，由于状态爆炸问题，这两种方法都无法量化尾部延迟，因为相应队列模型的状态不仅必须封装当前系统的快照(包括块放置和排队请求)，而且还必须封装单个节点处理块请求的过去历史。随后，利用顺序统计分析和概率请求调度策略，虽然降低平均延迟被发现对降低延迟包络有积极影响，但量化和优化擦除编码存储的尾部延迟仍然是开放问题，没有有效的解决尾延迟增加的问题。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于云存储的多异构文件联合延迟尾概率凸优化算法。

为实现上述技术目的，本发明采取的技术方案为：

基于云存储的多异构文件联合延迟尾概率凸优化算法，其中：包括如下步骤：

步骤S1：建立系统模型，在n_i个存储节点S_i上分布存储一组r文件，索引为i＝1，2，L，r，根据文件索引i将每个文件划分为k_i个固定大小的数据块，使用(n_i，k_i)MDS擦除代码对其进行编码，生成与文件索引i相同大小的n_i个不同编码块，将编码块分配并存储在n_i个不同的存储节点S_i上；

步骤S2：以预定概率P(A_i)将文件重建请求发送到适当的存储节点S_i处，其中每个存储节点在本地队列中缓冲请求并按顺序处理；

步骤S3：量化具有任意服务时间分布的擦除编码中的尾延迟，计算调度概率π、文件的放置参数S和辅助参数t；

步骤S4：结合调度概率π、文件的放置参数S和辅助参数t，建立联合延迟尾概率优化模型，优化尾延迟。

为优化上述技术方案，采取的具体措施还包括：

进一步地，步骤S2具体为：

S21：当文件重建请求到达时，随机选择具有已知概率

的可用编码块的存储节点，并将编码块请求分派给每个选定的存储节点；

S22：每个存储节点独立管理其本地队列，并按顺序继续处理请求，如果文件请求的所有编码块请求都由单个节点处理，则该文件请求将完成。

进一步地，步骤S3具体为：

S31：设定编码块请求在存储节点j中花费的时间为Q_j，根据随机选择的存储节点集的最大编码块响应时间确定文件i请求的响应时间，用L_i表示；

S32：根据编码块请求在存储节点j处的到达形成速率和服务器处理单个块的服务时间的矩生成函数，计算存储节点j的逗留时间的Laplace-Stieltjes变换：

s＝σ+jt

其中，Q_j是节点j的逗留时间，ρ_j是存储节点j的请求强度，Λ_j是存储节点j的到达率，s表示节点随时间的变化参数，σ表示L氏变换中的实变数，M_j(t)是存储节点j服务时间的矩生成函数；

服务器服务分布时间的概率密度函数

为：

力矩生产函数为：

其中，(α_j，β_j)是节点j的移动指数分布服务时间参数；

S33：计算延迟尾概率的上界：

ρ_j＝Λ_j/α_j+Λ_jβ_j t_j＞0 ρ_j＜1

M_j(t_j)＜∞Λ_j(M_j(t_j)-1)＜t_j

其中，Pr(L_i≥x)为文件i服务时间的延迟尾概率，t_j表示节点服务时间，x是参数索引延迟尾概率，π_ij是从节点j检索文件i块的概率，L_i是检索文件i的延迟；

S34：结合延迟尾概率的上界，建立一个最小化所有文件的加权延迟尾概率的优化模型：

ω_i＝λ_i/∑_iλ_i

其中，ω_i为分配给文件i的正向权重，λ_i是文件i的到达率，Pr(L_i≥x)为文件i服务时间的延迟尾概率；

S35：建立延迟尾概率上界的目标函数：

由

对目标函数优化得

进一步地，步骤S4具体为：

S41：对放置参数S进行单独优化：

S42：根据优化后的放置参数S，重新计算文件i的延迟尾概率P(L_i≥x)：

其中，

表示在服务器j处处理单个块的服务时间的矩生成函数；

S43：计算边权模型：

其中，π_iu表示从节点u处检索文件i块的概率，

表示节点i到达节点v处的速率，

表示在节点u处处理单个块的服务时间的矩生成函数；

由最小权匹配得到最小化的最优β，优化边权模型

其中，β(u)表示节点u的移动指数分布服务时间参数。

本发明的有益效果：

本发明基于云存储的多异构文件联合延迟尾概率凸优化算法，有效降低了高到达率文件的延迟，利用最优的辅助参数和调度概率结合放置参数s进行联合优化，减少了数据冗余度，大大降低了尾部延迟概率。

附图说明

图1是本发明的流程示意图；

图2是存储节点参数设定图；

图3是加权延迟尾概率图；

图4是不同文件到达率的加权延迟尾概率图；

图5是不同文件数的加权延迟尾规律图；

图6是不同文件大小的加权延迟尾概率图；

图7是浪潮云Inspur试验结果对比图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

如图1所示，本发明为基于云存储的多异构文件联合延迟尾概率凸优化算法，包括如下步骤：

S21：当文件重建请求到达时，随机选择具有已知概率

的可用编码块的存储节点，并将一个编码块请求分派给每个选定的存储节点；

S31：设定编码块请求在存储节点j中花费的时间为Q_j，根据随机选择的存储节点集A_i处的最大编码块响应时间确定文件i请求的响应时间L_i；

S32：根据编码块请求在存储节点j处的到达形成速率和服务器处理单个块的服务时间的力矩生成函数，计算在存储节点j中花费的时间Q_j的Laplace-Stieltjes变换：

ρ_j＝Λ_jE[X_j]

服务器服务分布时间的概率密度函数

为：

力矩生产函数为：

其中，(α_j，β_j)是节点j的移动指数分布服务时间参数；

S33：计算延迟尾概率的上界：

ρ_j＝Λ_j/α_j+Λ_jβ_j t_j＞0 ρ_j＜1

M_j(t_j)＜∞ Λ_j(M_j(t_j)-1)＜t_j

ω_i＝λ_i/∑_iλ_i

式中，ω_i是分配给文件i的正向权重，Pr(L_i≥x)为文件i服务时间的延迟尾概率；

S35：建立延迟尾概率上界的目标函数：

由

对目标函数优化得

S41：对放置参数s进行单独优化：

其中，

表示在服务器j处处理单个块的服务时间的矩生成函数；

S44：计算边权模型：

其中，π_iu表示从节点u处检索文件i块的概率，

表示节点i到达节点v处的速率，

表示在节点u处处理单个块的服务时间的矩生成函数；

由最小权匹配得到最小化的最优β，优化边权模型

其中，β(u)表示节点u的移动指数分布服务时间参数。

本方法采用的相关参数为：云存储文件数量r＝1000，所有文件大小是200MB，使用由m＝12个分布式节点组成的分布式存储系统中的擦除码(7，4)。

如图2所示，块服务时间随速率α_j和位移β_j服从一个位移指数分布，本文采用12个不同服务速率α_j和移位β_j的异构存储节点。

前250个文件的基本到达率为2/150s-1，后250个文件的基本到达率为4/150s-1，接下来的250个文件是6/150s-1，最后的250个文件是3/150s-1。本文还考虑了文件的权重与到达率成正比。为了初始化算法，对于所有t_j＝0.01在放置服务器上选择π_ij＝k/n。然而，由于这些π和t的选择可能不可行，将初始化π修改为与上述选择最接近的范数可行解。

如图3所示，给出本申请的延迟尾概率凸优化算法(Proposed algorithm)以及对比算法的加权延迟尾概率∑_iω_i Pr(L_i≥x)实验模拟结果。本申请算法通过提出的在π、t和S上的替代优化算法来求解最优加权延迟尾概率。通过优化t和布局，策略PEAP使用相同的服务器访问概率，向可行区域投射，而策略PSPP根据服务速率在不同服务器上分配块请求。然后，对上述给定的π_i，j的值最优地求出t的值。实验结果显示本文算法的加权延迟尾概率降低了几个数量级。例如，所提算法策略将99％的加权延迟从对比策略中的160秒以上减少到大约20秒。

如图4所示，对不同的请求到达率对加权延迟尾概率的影响进行实验，选择x＝50秒，对于λ作为基本到达率，将所有文件的到达率从0.2λ增加到1.4λ，并在图3中绘制加权延迟尾概率，当延迟尾概率随着到达率的增加而增加时，本申请算法为不同的文件分配不同的延迟以保持低加权延迟尾概率。实验结果显示，本申请算法优于选取的对比实验策略。由于在高到达率下加权延迟尾概率更为显著，因此观察到在图3中PEAP和本申请算法之间，在最高到达率下延迟尾概率显著提高了约9倍(约0.025到约0.22)，本申请算法总是得到最小的延迟。因此，有效地降低高到达率文件的延迟可以降低总加权延迟尾概率。

如图5所示，将文件数量从200变为1200对加权延迟尾概率的影响。加权延迟尾概率随着文件数量的增加而增加，这会带来更多的工作负载(即更高的到达率)。本申请算法对新文件和现有文件进行优化，以将总的加权延迟尾概率保持在一个较低的水平。可见本申请算法有效地降低了尾部概率，并且优于所选取的对比算法。因此，对所有三个变量π、t和S进行联合优化有助于显著降低尾部概率。

如图6所示，将文件大小从200MB更改为700MB，并在图5中用不同的文件大小绘制最佳加权延迟尾概率。为了获得与默认大小200mb相比文件大小增加的影响，将参数α和β的值与移动指数服务时间分布中的块大小成比例地增加。随着文件大小的增加，文件的加权尾延迟概率增加，本申请算法与对比算法进行了比较，验证了本申请算法可以显著降低尾延迟。

如图7所示，取浪潮云Inspur实验平台进行算法性能测试，选取的实验指标为算法云存储冗余度，对比算法仍然选取上述算法，实验参数设置同上。出冗余度(RSR)是考虑异构存储系统冗余节省，在保证数据可用性

的.RSR指标定义为：

实验结果表明，本申请算法具有的数据冗余度指标实验结果最低，且具有更高的计算效率。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。