CN112463044B

CN112463044B - 一种保证分布式存储系统服务器端读尾延迟的方法及系统

Info

Publication number: CN112463044B
Application number: CN202011318905.5A
Authority: CN
Inventors: 冷镇宇; 蒋德钧; 熊劲
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2022-07-12
Anticipated expiration: 2040-11-23
Also published as: CN112463044A

Abstract

本发明提出一种保证分布式存储系统服务器端读尾延迟的方法及系统，包括通过应用负载特征建模对应用分为不可延后服务应用与可延后服务应用两类，对两类应用预分配资源。存储节点服务应用时，对不同类型的应用进行匹配，使匹配的应用组合共享服务速率。根据应用负载的变化动态地交换资源，以保证应用尾延迟SLO的应用准入控制方法。

Description

一种保证分布式存储系统服务器端读尾延迟的方法及系统

技术领域

本发明涉及分布式存储系统技术领域，尤其是保证延迟敏感型应用低尾延迟需求技术领域。

背景技术

分布式存储系统采取典型的客户端-服务器(Client-Server)模型。访问分布式存储系统的请求处理过程为：(1)应用(Application)请求访问分布式存储系统的客户端；(2)客户端将请求通过网络发送给服务器；(3)服务器从网络上接受请求并开始处理，请求到达服务器后会首先进入队列中排队，若有空闲线程，则会从队列中取请求并进行处理；(4)请求在服务器端被处理完成后，其响应将通过网络发送给客户端；(5)客户端接收到请求的响应后将其发送给应用。至此，一个请求就被处理完成，如图1所示。上述步骤(3)中在服务器端对请求的处理过程复杂，同时涉及到请求排队，线程处理，存储访问等。服务器端从网络上接收请求后，将请求放入到相应的队列上，服务器端的请求队列可采取单队列或多队列模式，真正处理请求是存储节点上的IO线程。线程根据不同出队策略从队列上取请求并进行处理，请求处理过程中会访问存储设备获取响应，最终将响应经网络发送给客户端。线程在同一时刻只能处理一个请求，一个请求处理完成后才能处理下一个请求。

部署在分布式存储系统上的延迟敏感型应用(Latency-sensitive application)需要保证其尾延迟SLO。为避免多个延迟型应用由于资源竞争产生干扰，而对尾延迟造成影响，最简单的方法是在存储系统上单独部署该类应用，使其独占系统资源，或者按照其峰值压力为其预分配系统资源，以保证其尾延迟需求能够被满足。很显然，这导致系统资源不能被充分利用，利用率较低，相关研究表明：数据中心存储系统资源利用率介于10％～45％之间。存储系统通常是大规模部署的，涉及成百上千个服务节点，如此低的资源利用率将消耗巨大的资本和运营成本。为提高存储系统资源利用率，将多种延迟型应用混合部署，势必会竞争存储资源，继而对尾延迟产生影响。

因此，目前有大量工作围绕“针对多种延迟型应用混合部署在分布式存储系统中时，如何高效地管理存储节点所提供的吞吐量资源并采取合适的应用准入控制，在满足多种应用差异化的高百分位尾延迟SLO需求的前提下，尽可能多地处理应用请求，以提高系统资源利用率”进行展开：

(1)一种反馈式的存储节点线程分配方法Cake。Cake每隔固定的时间间隔(如10s)对线程资源进行调整，根据上一个时间间隔内应用的尾延迟SLO与目标SLO的比值，优先使用按比例共享策略来设定线程服务不同应用的请求，经过调整后，若按比例共享策略仍不能满足目标SLO需求，则会采取预留策略，也即为应用预留单独的线程，其余线程仍为共享线程。

(2)一种反馈式的客户端限流方法PSLO。PSLO每隔固定的时间间隔(如10s)统计应用请求延迟满足尾延迟SLO的概率，如果该概率低于应用要求的尾延迟SLO的概率，则对该应用以及与该应用有着相同的目标存储节点的应用进行限流。通过在客户端降低应用的发送iodepth来达到限流的效果，待统计的应用请求延迟满足尾延迟SLO的概率高于应用要求的尾延迟SLO的概率之后，再不断降低对应用的限流程度。

(3)一种先验式存储节点优先级调度方法PriorityMeister。PriorityMeister首先基于应用提供的具有代表性的trace分析应用的负载特征，根据存储节点所提供的平均吞吐量，预测每个应用在不同优先级下的请求最大延迟，如果预测的延迟不超过应用的尾延迟SLO，则允许该应用按照设定的优先级接入系统。通过预先不断调整应用的优先级，来寻找允许接入应用数量最多的优先级配置。PriorityMeister分析应用的负载特征基于漏桶(Leaky token bucket)，延迟预测方法基于Network Calculus。

(4)一种先验式的存储节点优先级调度方法SNC-Meister。SNC-Meister首先基于应用提供的具有代表性的trace分析应用的负载特征，根据存储节点所提供的平均吞吐量，预测每个应用在预分配的优先级下的请求百分位延迟，如果预测的百分位延迟不超过应用的尾延迟SLO，则允许该应用按照预分配的优先级接入系统。应用的尾延迟SLO的要求越高，则为该应用分配的优先级越高。SNC-Meister分析应用的负载特征基于Markov-ModulatedPoisson Process，延迟预测方法基于Stochastic Network Calculus。

(5)一种先验式的存储节点固定服务速率限流方法Silo。Silo首先基于应用提供的具有代表性的trace分析应用的负载特征，根据存储节点所提供的平均吞吐量，预测每个应用在预分配的服务速率下的请求百分位延迟，如果预测的最大延迟不超过应用的尾延迟SLO，则允许该应用按照预分配的服务速率接入系统。Silo分析应用的负载特征基于漏桶(Leaky token bucket)，延迟预测方法基于Network Calculus。

应用的负载大小随着时间是不断变化的。现有的先验式资源管理策略如PriorityMeister、SNC-Meister和Silo均静态地分配资源，不能精准地切合应用不断变化的负载，造成了较高的资源超量配置。而反馈式资源管理策略如Cake和Silo虽然可以周期性地分配资源，但这些方法无法预见到应用突发流量(trace)的产生，由于从收集信息、反馈到最终决策中间的延迟较长，将可能导致应用的延迟SLO被违反，因此只能保证百分位较低(如95th)的延迟SLO。

发明内容

本发明的目的是解决上述现有技术中资源分配的可预测性与资源分配的灵活性之间的矛盾而导致保证多应用差异化尾延迟SLO的工作系统资源利用率低的问题，提出了一种基于动态可预测资源管理机制的应用准入控制方法。本发明要保证的延迟SLO指的就是百分位延迟。例如99百分位延迟，假设应用共发送了1000个请求，将所有请求的延迟按照从低到高排序，则第990个请求的延迟即为99百分位延迟(1000*99％＝990)。

针对现有技术的不足，本发明提出一种保证分布式存储系统服务器端读尾延迟的方法，其中包括：

步骤1、根据应用的负载特征与延迟需求，将分布式存储系统中每一个应用分类为服务可延后的PT应用或服务不可延后PI应用；

步骤2、根据预设保证延迟值，计算PT应用借出的最大资源数量；

步骤3、PI应用所获得的服务速率为其平均发送速率，计算百分位延迟发生时的排队请求数量PQD_avg＝PQL_avg*AR_avg。PI应用延迟SLO不被违反，百分位延迟发生时的排队请求数量最大值PQD_SLO＝SLO*AR_avg，AR_avg为应用的请求平均发送速率，PQL_avg为百分位排队延迟，SLO为应用的延迟需求，通过PQD_avg减去PQD_SLO，得到PI应用借用的资源数量最大值QD_Reduce；

步骤4、根据PI应用借用相同资源所获得的收益大小，为各PI应用借用资源的优先级；

步骤5、设最小服务速率为PI应用的平均发送速率AR_avg，最大服务速率为该PI应用的最大发送速率AR_max，设PI应用借用的资源数量为QD_Reduce，通过二分查找，找到使借用资源后的百分位延迟PQL_Borrowed＝(PQD_SR_Borrowed-QD_Reduce)/SR_Borrowed，以得到PI应用借用资源后所需的平均服务速率；

步骤6、根据PI应用借用资源的优先级和PI应用借用的资源数量最大值和每个PT应用借出的最大资源数量，通过动态规划的方法为当前PI应用分配多个PT应用，每次匹配后，从PT应用集合中剔除已匹配的PT应用，直到每个PI应用均借到资源或者PT应用全部匹配完毕；

步骤7、已匹配应用组合的总服务速率为PI应用借用资源后的预分配服务速率与应用组合中PT应用各平均发送速率之和；

步骤8、PI应用与其相匹配的PT应用共享该总服务速率，为每个PI应用以及与其相匹配的PT应用分配独立的队列，为应用组合中PI应用和各PT应用分配相应服务速率，并监控PT应用因出借资源造成的额外请求排队数量QD_Add，当QD_Add小于最大资源数量时，PI应用的服务优先级高于PT应用，允许该PI应用借用该PT应用的资源，当QD_Add与最大资源数量相同时，该PT应用的服务优先级高于PI应用，为PT应用预留与PT应用的平均发送速率相同的服务速率，若PI应用的请求发送速率低于PI应用的平均发送速率，则剩余的服务速率用于服务PT应用；

步骤9、应用接入分布式存储系统的存储节点时，为其分配一个队列，并根据存储节点当前的虚拟时间戳为队列分配虚拟时间戳TS_i，为该应用的队列分配一个时间戳增加间隔TI_i，TI_i为预分配服务速率的倒数，对分布式存储系统中所有应用的时间戳进行排序，IO线程空闲后查找拥有最小时间戳的队列从中取出请求，并增加该最小时间戳的队列的时间戳TS_i＝TS_i+TI_i。

所述的保证分布式存储系统服务器端读尾延迟的方法，其中还包括：

步骤10、PT应用接入该存储节点时，为PT应用的队列设定可借出资源数量初值为该最大资源数量QD_Add_max；当IO线程空闲后查找拥有最小时间戳的队列，若该队列归属于PT应用，增加该队列的时间戳TSi＝TSi+TIi，并读取可借出资源数量；若可借出资源数量大于0且对应的PI队列不为空，将PT应用的可借出资源数量减1，取出PI应用的请求进行服务；若可借出资源数量大于0且对应的PI队列为空，则取出PT队列中的请求服务，PT应用的借出资源数量不变；若可借出资源数量等于0，则取出PT队列中的请求进行服务，PT应用的可借出资源数量不变。

步骤11、当IO线程空闲后查找拥有最小时间戳的队列，若该队列归属于PI应用，修改该队列的时间戳，并读取该队列中请求的数量；若该队列不为空，则从该队列中读取请求服务；若该队列为空，则从所有PT应用中寻找可借出资源数量最小的PT队列，从该PT队列中取出请求服务，并将该PT队列的可借出资源数量加1。

所述的保证分布式存储系统服务器端读尾延迟的方法，其中该步骤1包括：

每个应用提供一个代表其负载特征的请求轨迹，将该请求轨迹中请求发送总量与请求发送的持续时间的比值作为该应用的请求平均发送速率AR_avg，设该应用获得的请求服务速率与请求的平均发送速率相同为AR_avg，计算百分位排队延迟PQL_avg，该百分位与应用延迟SLO的百分位相同，该请求轨迹提供请求入队的时间间隔，AR_avg提供请求出队的时间间隔，以计算该请求轨迹中所有请求的排队延迟，将延迟从低到高进行排序，计算百分位延迟。比较PQL_avg与该应用的延迟SLO，如果PQL_avg大于等于SLO，则该应用为PI应用，否则该应用为PT应用。

所述的保证分布式存储系统服务器端读尾延迟的方法，其中该步骤2包括：

PT应用被延后服务的时间Postponement＝SLO-PQL_avg，PT应用借出的最大资源数量为PT应用因资源出借而增加的排队请求数量QD_Add_max＝Postponement*AR_avg。

本发明还提供了一种保证分布式存储系统服务器端读尾延迟的系统，其中包括：

模块1、用于根据应用的负载特征与延迟需求，将分布式存储系统中每一个应用分类为服务可延后的PT应用或服务不可延后PI应用；

模块2、用于根据预设保证延迟值，计算PT应用借出的最大资源数量；

模块3、用于根据PI应用所获得的服务速率为其平均发送速率，计算百分位延迟发生时的排队请求数量PQD_avg＝PQL_avg*AR_avg。PI应用延迟SLO不被违反，百分位延迟发生时的排队请求数量最大值PQD_SLO＝SLO*AR_avg，AR_avg为应用的请求平均发送速率，PQL_avg为百分位排队延迟，SLO为应用的延迟需求，通过PQD_avg减去PQD_SLO，得到PI应用借用的资源数量最大值QD_Reduce；

模块4、用于根据PI应用借用相同资源所获得的收益大小，为各PI应用借用资源的优先级；

模块5、用于将最小服务速率设为PI应用的平均发送速率AR_avg，最大服务速率为该PI应用的最大发送速率AR_max，设PI应用借用的资源数量为QD_Reduce，通过二分查找，找到使借用资源后的百分位延迟PQL_Borrowed＝(PQD_SR_Borrowed-QD_Reduce)/SR_Borrowed，以得到PI应用借用资源后所需的平均服务速率；

模块6、用于根据PI应用借用资源的优先级和PI应用借用的资源数量最大值和每个PT应用借出的最大资源数量，通过动态规划的方法为当前PI应用分配多个PT应用，每次匹配后，从PT应用集合中剔除已匹配的PT应用，直到每个PI应用均借到资源或者PT应用全部匹配完毕；

模块7、用于将已匹配应用组合的总服务速率设为PI应用借用资源后的预分配服务速率与应用组合中PT应用各平均发送速率之和；

模块8、用于根据PI应用与其相匹配的PT应用共享该总服务速率，为每个PI应用以及与其相匹配的PT应用分配独立的队列，为应用组合中PI应用和各PT应用分配相应服务速率，并监控PT应用因出借资源造成的额外请求排队数量QD_Add，当QD_Add小于最大资源数量时，PI应用的服务优先级高于PT应用，允许该PI应用借用该PT应用的资源，当QD_Add与最大资源数量相同时，该PT应用的服务优先级高于PI应用，为PT应用预留与PT应用的平均发送速率相同的服务速率，若PI应用的请求发送速率低于PI应用的平均发送速率，则剩余的服务速率用于服务PT应用；

模块9、用于应用接入分布式存储系统的存储节点时，为其分配一个队列，并根据存储节点当前的虚拟时间戳为队列分配虚拟时间戳TS_i，为该应用的队列分配一个时间戳增加间隔TI_i，TI_i为预分配服务速率的倒数，对分布式存储系统中所有应用的时间戳进行排序，IO线程空闲后查找拥有最小时间戳的队列从中取出请求，并增加该最小时间戳的队列的时间戳TS_i＝TS_i+TI_i。

所述的保证分布式存储系统服务器端读尾延迟的系统，其中还包括：

模块10、用于PT应用接入该存储节点时，为PT应用的队列设定可借出资源数量初值为该最大资源数量QD_Add_max；当IO线程空闲后查找拥有最小时间戳的队列，若该队列归属于PT应用，增加该队列的时间戳TSi＝TSi+TIi，并读取可借出资源数量；若可借出资源数量大于0且对应的PI队列不为空，将PT应用的可借出资源数量减1，取出PI应用的请求进行服务；若可借出资源数量大于0且对应的PI队列为空，则取出PT队列中的请求服务，PT应用的借出资源数量不变；若可借出资源数量等于0，则取出PT队列中的请求进行服务，PT应用的可借出资源数量不变。

模块11、用于当IO线程空闲后查找拥有最小时间戳的队列，若该队列归属于PI应用，修改该队列的时间戳，并读取该队列中请求的数量；若该队列不为空，则从该队列中读取请求服务；若该队列为空，则从所有PT应用中寻找可借出资源数量最小的PT队列，从该PT队列中取出请求服务，并将该PT队列的可借出资源数量加1。

所述的保证分布式存储系统服务器端读尾延迟的系统，其中该模块1包括：

所述的保证分布式存储系统服务器端读尾延迟的系统，其中该模块2包括：

由以上方案可知，本发明的优点在于：

使用8台物理机作为存储节点，8台物理机作为客户端。每台物理机包括1块Intel(R)Xeon(R)CPU E5-2650 v4 processor(2.20GHz)CPU，一块Intel P3700400GB SSD，一块Intel Corporation 82599ES 10-Gigabit网卡。操作系统为CentOS 7.5.1804，调度方法及应用准入控制构建在存储系统Ceph 10.2.0之上。对比系统采用SNC-Meister和Silo。实验负载为Microsoft Production Server Traces和Microsoft Enterprise Traces。实验结果如图2所示，将本发明创造Gecko与Silo和SNC-Meister进行了对比，结果按SNC-Meister的结果进行了归一化，实验结果表明，本发明创造可承载的应用数量平均增加了44％。

该发明创造与现有技术相比，能够根据应用负载的变化实时动态地分配资源，既消除了周期性分配资源因反馈链过长导致延迟SLO违反的弊端，又降低了静态分配资源造成的资源超配程度，显著提升了存储系统的资源利用率。

附图说明

图1为分布式存储系统请求处理流程图；

图2为本发明Gecko、Silo和SNC-Meister三者间承载应用的数量对比图；

图3为预分配服务速率图；

图4为PT应用根据延迟SLO的需求选择是否出借资源图；

图5为PI应用根据根据负载的变化选择是否借用资源图。

具体实施方式

发明人在进行存储系统服务节点内资源管理策略研究时，发现现有技术中技术缺陷是由于资源管理所需的灵活性与可预测性之间的矛盾导致的，具体表现在：先验式管理策略静态地划分资源便于预测应用请求的百分位延迟，但应用获得的资源与其不断变化的负载并不匹配，导致较高的资源超量配置；反馈式管理策略周期性地充分配资源有利于按照应用的负载变化分配恰好的资源，但由于反馈链过长，且缺少对负载变化的预见性，导致应用的尾延迟SLO无法保证。发明人经过对资源管理所需的灵活性与可预测性进行研究发现，解决该项缺陷可以基于应用负载特征预测，通过限定的资源交换与极短反馈链的动态资源管理策略来实现，该方案的全过程如下所述。

(1)该方案根据每个应用负载的突发burst特征与延迟SLO需求将应用分类为服务可延后应用和服务不可延后应用，为每个应用预分配服务速率。(2)在分布式存储系统的存储节点内部将不同类型的应用进行配对，令其在预分配的资源的基础上相互交换资源以降低资源超配，即超量配置，分配的资源超出了需求，产生浪费。(3)该方案对应用资源交换的最大数量进行了限制，可预期的资源交换符合了先验式资源管理的标准，以支持先验式的应用准入控制。(4)通过监控每个应用的请求排队深度，动态地调整应用的优先级，从而使应用获得的资源能够适应随时间不断变化的负载。后文将详细描述应用分类和配对方法，资源预分配、资源交换的设定以及动态调整优先级的过程。

基于上述前提，本发明是一种针对多种延迟敏感型应用共同部署于分布式存储系统，通过应用负载特征建模对应用分为不可延后服务应用与可延后服务应用两类，对两类应用预分配资源。存储节点服务应用时，对不同类型的应用进行匹配，使匹配的应用组合共享服务速率。根据应用负载的变化动态地交换资源，以保证应用尾延迟SLO的应用准入控制方法。

系统运行过程中，将根据应用的尾延迟SLO，应用提供的可以代表其负载特征的请求轨迹(trace)等信息进行应用的分类、资源预分配和资源交换数量的设定，并在应用接入系统后动态地分配资源，以保证应用满足目标SLO需求。资源分配过程中涉及的参数如表1所示：

本发明技术方案包括以下关键点：

关键点1，应用分类方法。根据应用的负载特征和延迟SLO将应用分为两类，一类为不允许延后服务(Postponement-Intolerable，PI)的应用，另一类为允许延后服务(Postponement-Tolerable，PT)的应用。分类方法如下，(1)每个应用提供一个可以代表其负载特征的请求轨迹(trace)，该trace需要提供一段请求发送的标记，包括请求的大小，读取位置和发送时间。(2)根据trace计算该应用的请求平均发送速率AR_avg，即trace中请求发送总量与请求发送的持续时间的比值。(3)假设该应用获得的请求服务速率与请求的平均发送速率相同为AR_avg，计算百分位排队延迟PQL_avg，该百分位与应用延迟SLO的百分位相同，Trace提供了请求入队的时间间隔，AR_avg提供了请求出队的时间间隔。即可以计算trace中所有请求的排队延迟。将延迟从低到高进行排序，计算百分位延迟。(4)比较PQL_avg与该应用的延迟SLO，如果PQL_avg大于等于SLO，则该应用为PI应用，不能延后该应用的服务，否则不能保证该应用的延迟SLO；如果PQL_avg小于SLO，则该应用为PT应用，可以在保证应用SLO的前提下，适当延后应用的服务。技术效果：通过应用分类来区分不同应用对资源需求的迫切程度。

关键点2，计算PT应用允许借出的资源数量。默认情况下，为PT应用提供的服务速率达到该应用的平均发送速率，则该应用的延迟SLO就可以得到保证，并且其百分位延迟小于延迟SLO。因此，在保证尾延迟SLO的前提下，该应用可以借给其他应用一定大小的资源。这里的资源指的是服务请求数量，借出资源意味着相同时间内，本应服务该应用的请求数量降低了，转而服务其他应用。计算方法如下，(1)计算PT应用可以被延后服务的时间Postponement＝SLO-PQL_avg。(2)该PT应用允许借出的资源数量为延后服务时间内该应用被减少服务的请求数量，即PT应用因资源出借而增加的排队请求数量QD_Add_max＝Postponement*AR_avg。技术效果：量化PT应用允许交换资源的最大数量，假如该PT应用借出的资源数量不超过此值，则该PT应用的百分位延迟依然可以得到保证。

关键点3，计算PI应用可以借用的资源数量最大值。当PI应用的burst产生时，允许该应用向PT应用借用资源，这样可以降低该PI应用所需的平均服务速率。当PI应用所需的平均服务速率低于平均发送速率，所额外借用的资源将被浪费。因此PI应用借用资源后，所需的平均服务速率最低为该PI的平均发送速率。计算方法如下，(1)假设该PI应用所获得的服务速率为其平均发送速率，计算百分位延迟发生时的排队请求数量PQD_avg＝PQL_avg*AR_avg。(2)假设该PI应用所获得的服务速率为其平均发送速率，若该应用的延迟SLO可以得到保证，则百分位延迟发生时的排队请求数量最大值PQD_SLO＝SLO*AR_avg。(3)计算该PI应用可以借用的资源数量最大值，即该PI应用因借到资源而减少的排队请求数量QD_Reduce_max＝PQD_avg-PQD_SLO。技术效果：量化PI应用可以借用资源的最大值，防止资源浪费。

关键点4，设定PI应用借用资源的优先级。不同PI应用借用相同资源所获得的收益是不同的，所需的平均发送速率降低的越多，则单位收益越高。单位收益的计算方法如下，(1)计算PI应用的最大发送速率AR_max，即是该PI应用的trace中相邻请求的发送时间间隔的最小值的倒数。(2)计算PI应用不借资源时，为了保证延迟SLO所需的服务速率SR_SLO。设最小服务速率为平均发送速率AR_avg，最大服务速率为该PI应用的最大发送速率AR_max，通过二分查找，找到使PQL_SR_SLO＝SLO的服务速率SR_SLO，其中PQL_SR_SLO为该PI应用获得服务速率SR_SLO下的百分位延迟。(3)计算PI应用借用最大资源后，所需平均服务速率下降的程度，即该应用的最大收益Revenue_max＝SR_SLO-AR_avg。(4)计算单位收益Revenue_unit＝Revenue_max/QD_Reduce_max。按照单位收益设定应用借用资源的优先级，单位收益更高的应用优先级更高。技术效果：基于贪心算法设定PI应用借用资源的优先级，以最大化资源利用率。

关键点5，计算PI应用借用资源后所需的平均服务速率。当PI应用的burst产生时，允许该应用向PT应用借用资源，这样可以降低该PI应用所需的平均服务速率。计算方法如下，(1)设最小服务速率为该PI应用的平均发送速率AR_avg，最大服务速率为该PI应用的最大发送速率AR_max，设借用的资源数量为QD_Reduce，通过二分查找，找到使借用资源后的百分位延迟PQL_Borrowed＝(PQD_SR_Borrowed-QD_Reduce)/SR_Borrowed与SLO相同的SR_Borrowed即为所求，其中PQD_SR_Borrowed为该PI应用未借资源时获得服务速率SR_Borrowed下的百分位排队深度，SR_Borrowed为PI应用借用资源后，百分位延迟与SLO相同情况下，PI所需的平均服务速率SR_Borrowed。技术效果，量化PI应用借用资源后所需的平均服务速率，则该PI应用的尾延迟SLO可以得到保证。借用资源后，PI应用的百分位延迟是可预测的，以支持先验式的应用准入控制。

关键点6，PI应用与PT应用的匹配方法。按照PI应用借用资源的优先级从高到低遍历所有PI应用。已知当前PI应用可借用的最大资源数量和每个PT应用可出借的最大资源数量。通过动态规划的方法为当前PI应用分配若干个PT应用，使这些PT应用出借的最大资源数量之和超出当前PI应用可借用的最大资源数量，并且浪费的资源数量最低。每次匹配后，从PT应用集合中剔除已匹配的PT应用，直到每个PI应用均借到资源或者PT应用全部匹配完毕。技术效果，PT应用的资源不能同时借给多个PI应用，因此通过最小化借出资源的浪费，提升系统的资源利用率。

关键点7，计算为了保证已匹配应用组合的延迟SLO所需的总服务速率。PI应用与若干个PT应用相匹配，为PI应用借用资源后预分配服务速率SR_Borrowed，为PT应用出借资源后预分配服务速率为该PT应用的平均发送速率AR_avg，则该总服务速率为上述服务速率的总和。技术效果，PI应用PT应用交换资源后对资源需求是可预测的，支持先验式的应用准入控制。

关键点8，基于资源交换的动态优先级调度方法。PI应用与其相匹配的PT应用总服务速率，为每个应用分配独立的先入先出(FIFO)队列，针对上述已匹配应用的调度方法如下，(1)为PI应用预分配服务速率为PI应用借用资源后所需的平均服务速率SR_Borrowed，为每个PT应用预分配服务速率为该PT应用的平均发送速率AR_avg。(2)监控PT应用因出借资源造成的额外的请求排队数量QD_Add，当QD_Add小于允许的最大出借资源数量QD_Add_max时，PI应用的服务优先级高于该PT应用，允许该PI应用借用该PT应用的资源。(3)当QD_Add与QD_Add_max相同时，使该PT应用的服务优先级高于上述PI应用，为该PT应用预留服务速率，大小与该PT应用的平均发送速率相同。若PI应用的请求发送速率低于PI应用的平均发送速率时，剩余的服务速率用于服务该PT应用，剩余的服务速率为PI应用预分配服务速率SR_Borrowed，如果某段时间PI应用的发送速率小于SR_Borrowed，则会产生剩余的服务速率。QD_Add最大不会超出QD_Add_max，否则无法保证PT应用的延迟SLO。技术效果：通过资源交换与实时检测请求的排队情况，提升了资源管理的灵活性，使资源可以按照应用负载的变化进行动态分配，提升了系统的资源利用率。

关键点9，服务请求时，为应用预分配服务速率的方法。(1)应用接入存储节点时，为该应用分配一个FIFO队列。并为该应用的队列分配一个虚拟时间戳TS_i，该时间戳与存储节点当前的虚拟时间戳相同。为该应用的队列分配一个时间戳增加间隔TI_i为预分配服务速率的倒数。(2)对所有应用的时间戳进行排序，IO线程空闲后查找拥有最小时间戳的队列，并增加该队列的时间戳，即TS_i＝TS_i+TI_i。(3-1)如果该队列为空，返回(2)。(3-2)如果该队列不为空，则从该队列中取出请求。技术效果，在存储节点服务请求时，使应用的请求可以按照预分配的速率出队。

关键点10，监测PT应用的额外请求排队数量，选择服务PT应用请求或PI应用请求的方法。(1)PT应用接入存储节点时，为该应用的队列设定可借出资源数量初值为QD_Add_max。(2)当IO线程空闲后查找拥有最小时间戳的队列，若该队列归属于某PT应用，增加该队列的时间戳，即TS_i＝TS_i+TI_i，并读取可借出资源数量。(3-1)如果可借出资源数量大于0，并且PI应用的队列不为空，将上述PT应用的可借出资源数量减1，取出PI应用的请求进行服务。(3-2)如果可借出资源数量大于0，并且PI应用的队列为空，则取出该PT队列的请求服务，该PT应用的可借出资源数量不变。(3-3)如果可借出资源数量等于0，则取出该PT应用队列的请求进行服务，该PT应用的可借出资源数量不变。技术效果，使PT应用可以根据延迟SLO的需求选择是否借出资源。

关键点11，监测PI应用的请求排队情况，选择服务PI应用请求或PT应用请求的方法。(1)当IO线程空闲后查找拥有最小时间戳的队列，若该队列归属于某PI应用，修改该队列的时间戳TS_i＝TS_i+TI_i，并读取该队列中请求的数量。(2-1)如果该PI应用队列不为空，则从该队列中读取请求服务。(2-2)如果该PI应用队列为空，则从所有PT应用中寻找可借出资源数量最小的PT队列，从该PT队列中取出请求服务，并将该PT队列的可借出资源数量加1。注意，该PT应用的时间戳不需要修改。技术效果，使PI应用可以根据负载的变化选择是否借用资源。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

在分布式存储系统存储节点内部，多个延迟敏感型应用共享存储服务，本发明创造的技术方案核心是基于资源交换的动态资源分配方法。

假设三个延迟敏感型应用接入分布式存储系统，本发明将上述三个应用分类为PI应用和PT应用，分别为PI、PT₁和PT₂。本发明预测了上述应用所需的预分配服务速率和可交换的资源数量。其中，PI应用的预分配服务速率为SR_Borrowed，PT₁和PT₂的预分配服务速率分别为AR_avg₁和AR_avg₂，可借出的资源数量分别为QD_ADD_max₁和QD_ADD_max₂。

1.存储节点为应用预分配服务速率

(1)如图3所示，存储节点为每个应用各分配了一个FIFO的IO队列。为每个队列设定了一个虚拟时间戳分别为TS₁、TS₂和TS₃，初值均为0。为每个队列分配了时间戳增加间隔，分别为TI₁＝1/SR_Borrowed、TI₂＝1/AR_avg₁以及TI₃＝1/AR_avg₂。

(2)对上述应用的时间戳进行排序，IO线程空闲后查找拥有最小时间戳的队列即PI的队列，并增加该队列的时间戳，即TS1＝TS1+TI1，并重新对时间戳排序。

(3)如图3(a)所示，PI队列此时为空，则返回(2)重新选择拥有最小时间戳的队列即PT1的队列。

(4)如图3(b)所示，此时PT1的时间戳最小，增加PT1队列的时间戳，即TS2＝TS2+TI2，由于PT1队列不为空，则IO线程从PT1队列的队头取出请求进行服务。

2.PT应用根据延迟SLO需求选择是否出借资源。

(1)如图4所示，两个PT应用接入存储节点时，为对应的队列设定可借出资源数量初值分别为QD_Add_max1和QD_Add_max2。

(2)假设应用运行一段时间后，PT1队列当前时间戳最小，增加该队列的时间戳，即TS2＝TS2+TI2，并读取其可借出资源数量的数值。

(3-1)如图4(a)所示，假设此时PT1可借出资源数量为1大于0，并且此时PI队列为不为空，服务PI队列队头请求，将PT1可借出资源数量减1。

(3-2)如图4(b)所示，假设此时PT1可借出资源数量为1大于0，并且此时PI队列为空，则服务PT1队列队头请求，PT1可借出资源数量不变。

(3-3)如图4(c)所示，假设可借出资源数量为0，则服务PT1队列队头请求，PT1可借出资源数量不变。

3.PI应用根据负载的变化选择是否借用资源。

(1)如图5所示，假设应用运行一段时间后，PI队列当前时间戳最小，增加该PI队列的时间戳，即TS1＝TS1+TI1，并读取该PI队列中的请求数量。

(2-1)如图5(a)所示，如果该PI队列不为空，则服务该PI队列队头请求。

(2-2)如图5(b)所示，如果该PI队列为空，则从所有PT队列中寻找可借出资源数量最小的PT应用队列，即PT2队列。服务PT2队列的队头请求，并将PT2队列的可借出资源数量加1。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

Claims

1.一种保证分布式存储系统服务器端读尾延迟的方法，其特征在于，包括：

步骤3、PI应用所获得的服务速率为其平均发送速率，计算百分位延迟发生时的排队请求数量PQD_avg＝PQL_avg*AR_avg，PI应用延迟SLO不被违反，百分位延迟发生时的排队请求数量最大值PQD_SLO＝SLO*AR_avg，AR_avg为应用的请求平均发送速率，PQL_avg为百分位排队延迟，SLO为应用的延迟需求，通过PQD_avg减去PQD_SLO，得到PI应用借用的资源数量最大值QD_Reduce；

步骤4、PI应用借用相同资源所获得的收益大小，为各PI应用借用资源的优先级；

步骤5、设最小服务速率为PI应用的平均发送速率AR_avg，最大服务速率为该PI应用的最大发送速率AR_max，设PI应用借用的资源数量为QD_Reduce，通过二分查找，找到使借用资源后的百分位延迟PQL_Borrowed＝(PQD_SR_Borrowed-QD_Reduce)/SR_Borrowed，以得到PI应用借用资源后所需的平均服务速率；其中，PQD_SR_Borrowed为该PI应用未借资源时获得服务速率SR_Borrowed下的百分位排队深度，SR_Borrowed为该PI应用借用资源后，百分位延迟与SLO相同情况下，PI所需的平均服务速率；

2.如权利要求1所述的保证分布式存储系统服务器端读尾延迟的方法，其特征在于，还包括：

步骤10、PT应用接入该存储节点时，为PT应用的队列设定可借出资源数量初值为该最大资源数量QD_Add_max；当IO线程空闲后查找拥有最小时间戳的队列，若该队列归属于PT应用，增加该队列的时间戳TS_i＝TS_i+TI_i，并读取可借出资源数量；若可借出资源数量大于0且对应的PI队列不为空，将PT应用的可借出资源数量减1，取出PI应用的请求进行服务；若可借出资源数量大于0且对应的PI队列为空，则取出PT队列中的请求服务，PT应用的借出资源数量不变；若可借出资源数量等于0，则取出PT队列中的请求进行服务，PT应用的可借出资源数量不变。

3.如权利要求2所述的保证分布式存储系统服务器端读尾延迟的方法，其特征在于，还包括：

4.如权利要求1所述的保证分布式存储系统服务器端读尾延迟的方法，其特征在于，该步骤1包括：

每个应用提供一个代表其负载特征的请求轨迹，将该请求轨迹中请求发送总量与请求发送的持续时间的比值作为该应用的请求平均发送速率AR_avg，设该应用获得的请求服务速率与请求的平均发送速率相同为AR_avg，计算百分位排队延迟PQL_avg，该百分位与应用延迟SLO的百分位相同，该请求轨迹提供请求入队的时间间隔，AR_avg提供请求出队的时间间隔，以计算该请求轨迹中所有请求的排队延迟，将延迟从低到高进行排序，计算百分位延迟，比较PQL_avg与该应用的延迟SLO，如果PQL_avg大于等于SLO，则该应用为PI应用，否则该应用为PT应用。

5.如权利要求1所述的保证分布式存储系统服务器端读尾延迟的方法，其特征在于，该步骤2包括：

6.一种保证分布式存储系统服务器端读尾延迟的系统，其特征在于，包括：

模块3、用于根据PI应用所获得的服务速率为其平均发送速率，计算百分位延迟发生时的排队请求数量PQD_avg＝PQL_avg*AR_avg，PI应用延迟SLO不被违反，百分位延迟发生时的排队请求数量最大值PQD_SLO＝SLO*AR_avg，AR_avg为应用的请求平均发送速率，PQL_avg为百分位排队延迟，SLO为应用的延迟需求，通过PQD_avg减去PQD_SLO，得到PI应用借用的资源数量最大值QD_Reduce；

模块5、用于将最小服务速率设为PI应用的平均发送速率AR_avg，最大服务速率为该PI应用的最大发送速率AR_max，设PI应用借用的资源数量为QD_Reduce，通过二分查找，找到使借用资源后的百分位延迟PQL_Borrowed＝(PQD_SR_Borrowed-QD_Reduce)/SR_Borrowed，以得到PI应用借用资源后所需的平均服务速率；其中，PQD_SR_Borrowed为该PI应用未借资源时获得服务速率SR_Borrowed下的百分位排队深度，SR_Borrowed为该PI应用借用资源后，百分位延迟与SLO相同情况下，PI所需的平均服务速率；

7.如权利要求6所述的保证分布式存储系统服务器端读尾延迟的系统，其特征在于，还包括：

模块10、用于PT应用接入该存储节点时，为PT应用的队列设定可借出资源数量初值为该最大资源数量QD_Add_max；当IO线程空闲后查找拥有最小时间戳的队列，若该队列归属于PT应用，增加该队列的时间戳TS_i＝TS_i+TI_i，并读取可借出资源数量；若可借出资源数量大于0且对应的PI队列不为空，将PT应用的可借出资源数量减1，取出PI应用的请求进行服务；若可借出资源数量大于0且对应的PI队列为空，则取出PT队列中的请求服务，PT应用的借出资源数量不变；若可借出资源数量等于0，则取出PT队列中的请求进行服务，PT应用的可借出资源数量不变。

8.如权利要求7所述的保证分布式存储系统服务器端读尾延迟的系统，其特征在于，还包括：

9.如权利要求6所述的保证分布式存储系统服务器端读尾延迟的系统，其特征在于，该模块1包括：

10.如权利要求6所述的保证分布式存储系统服务器端读尾延迟的系统，其特征在于，该模块2包括：