CN113608875B

CN113608875B - 一种高吞吐云计算资源回收系统

Info

Publication number: CN113608875B
Application number: CN202110912342.0A
Authority: CN
Inventors: 赵来平; 崔育帅; 邱铁
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2023-09-12
Anticipated expiration: 2041-08-10
Also published as: WO2023015787A1; CN113608875A

Abstract

本发明公开了一种高吞吐云计算资源回收系统，包括服务质量监控模块(100)，抢占损失分析模块(200)和离线负载回收队列模块(300)；所述服务质量监控模块(100)，用于实时监控记录云数据中心延迟敏感服务LC组件的处理延迟请求，当检测到服务质量无法被保障时进行资源回收；所述抢占损失分析模块(200)，用于计算离线负载的抢占损失；所述离线负载回收队列模块(300)，用于构建批处理应用BE回收队列与抢占优先级分配；每台服务器根据本地所维护的抢占损失优先级队列以及所部署的云数据中心延迟敏感服务LC组件的贡献度进行资源回收。与现有技术相比，本发明能够减少系统因调度产生的无用计算，从而提升集群的吞吐量与资源利用率。

Description

一种高吞吐云计算资源回收系统

技术领域

本发明涉及云计算技术领域，特别是涉及云数据中心下针对微服务与多种离线负载混合部署的调度与优化方法。

背景技术

数据中心下多种应用的混合部署已经被证明为可有效提升计算系统的资源利用率的手段。合理的资源分配方案能够减少混合负载之间因竞争共享资源所产生的干扰，从而保障系统中应用的服务质量。伴随着云计算市场规模的不断增长，应用功能的不断丰富，越来越多的在线应用正从单片设计转向由多个组件构成的复杂服务，同时批处理负载类型也呈现爆发式增长。这种日益复杂的服务组件化场景向混部系统提出了更加严苛的控制要求。

在生产环境中，数据中心运营商通过将暂态资源分配给离线负载以谋求更高的服务器资源利用率。而这类资源被云服务商回收以供保障在线应用的服务质量(SLA)。因此部署在暂态资源上的离线负载面临着随时被重新调度的风险。即便已经提出许多先进的容错机制及策略以减轻不同类别应用程序(如大数据分析作业、机器学习训练任务、科学计算应用等)，但是由于重调度所造成的计算损失，这些方案在许多情况下都需修改应用程序的代码，对程序本身造成很大的负担。因此在企业数据中心中，以保障在线应用服务质量为前提，最小化重调度对离线负载所产生的性能影响仍然是一个重要问题。此外随着离线负载功能的不断丰富，越来越多的任务也开始要求严格的执行时间，这让数据中心下部署策略变得越发复杂。在很多时候，为及时保障在线应用的服务质量，离线负载接受重新调度不可避免。但这些离线负载对重调度的容忍能力是不一致的。对于具有容错机制的离线负载，它们能够通过检查点等机制保留部分计算量，而对于不具备容错机制的离线负载，每次重调度都会让其损失所有计算量。并且不同的离线应用，其工作进度也不一致，让即将完成的任务遭受抢占的风险，会降低系统的吞吐，同时带来资源的无用利用。

解决粗粒度资源回收方案所带来的服务器利用率低效是本发明亟待解决的技术问题。

发明内容

为解决粗粒度资源回收方案所带来的服务器利用率低效的问题，本发明提出了一种高吞吐云计算资源回收系统，依据区分云数据中心延迟敏感服务(LC)和批处理应用(BE)混合部署时因抢占不同批处理应用服务所产生的计算损失，设计了优化云数据中心延迟敏感服务(LC)服务质量无法保障时针对批处理应用(BE)的资源回收策略，从而提高混合部署时的吞吐量。

本发明通过以下技术方案来实现：

一种高吞吐云计算资源回收系统，该系统包括服务质量监控模块100，抢占损失分析模块200和离线负载回收队列模块300；其中：

所述服务质量监控模块100，用于实时监控记录云数据中心延迟敏感服务LC组件的处理延迟请求，以分析当前时刻服务质量是否被保障；当检测到服务质量无法被保障时，进行资源回收，所述资源回收的评估依据公式resource×time，resource表示BE占据的资源，time表示完成时间；

所述抢占损失分析模块200，用于计算离线负载的抢占损失；

每个应用因资源回收所导致的抢占损失L的计算公式如下：

L＝S_pmtn-S_ognl＝t_pmtnr_pmtn-t_ognlr_ognl

其中，t_pmtn表示BE在被抢占(或未被抢占)情况下的完工时间，t_ognl表示BE在未被抢占情况下的完工时间，r_pmtn表示BE被抢占或未被抢占时所占用的CPU核数，r_ognl表示BE未被抢占时所占用的资源；

所述离线负载回收队列模块300，用于构建批处理应用BE回收队列与抢占优先级分配；所述批处理应用BE回收队列包括分别由可预测的BE和不可预测的BE组成两个单独的回收队列；当云数据中心延迟敏感服务LC组件的服务质量无法被保障时，每台服务器根据本地所维护的抢占损失优先级队列以及所部署的云数据中心延迟敏感服务LC组件的贡献度来进行资源回收。

所述批处理应用BE分为三类即大数据应用类、人工智能训练类和科学计算类。

每个云数据中心延迟敏感服务LC组件的延迟贡献度不同，则每个混部服务器维护一个本地MLRQ，并且在每个MLRQ级别中有子队列，MLRQ级别q_MLRQ中的BE数量由相应的本地云数据中心延迟敏感服务LC组件的贡献决定，公式如下：

其中，n_BE表示系统中BE的数量，C_i表示LC服务组件的贡献度。

相比现有数据中心的非区分BE的混部系统，本发明的一种高吞吐云计算资源回收系统能够减少系统因调度产生的无用计算，从而提升了集群的吞吐量与资源利用率，具体为：所设计的系统能提示吞吐量13.1％，CPU利用率10.2％，内存带宽利用率11.4％。与传统非区分BE混部系统比较。

附图说明

图1为不同的批处理应用BE的离线服务抢占损失的差异性比较示意图；

图2为本发明的一种高吞吐云计算资源回收系统架构图一；

图3为本发明的一种高吞吐云计算资源回收系统架构图二；

图4为批处理应用BE离线负载回收队列整合图。

具体实施方式

结合附图，对本发明的技术方案进行详细说明如下。

本发明基本思想是：当云数据中心延迟敏感服务LC的服务质量因突发负载而无法被保障时，根据所收集的批处理应用BE运行时数据计算其离线服务资源抢占损失，从而挑选当前情况下合适的离线负载进行抢占以释放资源给云数据中心延迟敏感服务(LC)。本发明中，使用当前的常见搜索引擎Solr和ElasticSearch，以及分布式非关系型数据库Redis作为LC服务，同时选取当前数据中心内具有代表性的分布式离线负载：大数据分析任务Spark、分布式深度学习训练任务以及单个可执行二进制文件科学计算作为BE负载。

如图1所示，为不同的批处理应用BE的离线服务抢占损失的差异性比较示意图。(1a)异步训练模式下的图像分类深度学习模型DDL-ASP、(1b)、基于同步训练模式的图像分类深度学习模型DDL-BSP、(1c)Bigdata应用SPARK、(1d)科学和数值计算的Java基准测试模型SCIMARK)的离线服务抢占损失，差异显著。(1a)在异步模式下终止一个Service Worker不会使BE应用失败，而且也不需要重新调度被终止的Service Worker。在抢占情况下，它的最大完工时间变化不大，而被占用的资源变少。因此，在的配置中，DDL-ASP中的任务抢占实际上提高了服务效率。(1b)Service Worker必须被同步，任何失败的Service Worker将从最近的检查点重新启动，终止它的一个Service Worker会导致服务丢失，如果终止发生在30％的进度之后。通常情况下，较晚被抢占的任务会对BE应用产生较高的损失。(1c)稍后的抢占产生的损失更少。其原因有两方面:(1)由于rdd为Spark应用程序提供了较高的容错能力，所以当任务失败时，无论何时发生，Spark调度器都可以快速恢复任务。(2)应用程序通常作为一系列阶段执行。发现，在70％进度时的抢占会在Spark执行器中产生更少的争用。因此，现阶段的回收对最大完工时间影响不大。(1d)为科学和数值计算的Java基准测试模型SCIMARK的离线服务抢占损失，随着进度线性增长。由于没有为其提供任何容错机制，因此SCIMARK的每次抢占都将导致其重新提交并从头重新运行。

如图2所示，为本发明的一种高吞吐云计算资源回收系统架构图。该系统包括服务质量监控模块100，抢占损失分析模块200和离线负载回收队列模块300。

服务质量监控模块100，用于实时监控记录LC的处理延迟请求，以分析当前时刻服务质量是否被保障。当检测到服务质量无法被保障时，下发资源回收指令，触发系统进行资源回收，以保证LC服务质量的快速恢复。此时会将资源回收信号发送到抢占损失分析模块200以挑选适合回收的BE。

抢占损失分析模块200，用于计算离线负载的抢占损失，并将每个离线负载的抢占损失信息传送给离线负载回收队列模块300，进行队列构建与抢占优先级分配。

目前在数据中心运行的有代表性的BE主要分为三类：大数据应用、人工智能训练和科学计算。其中，大数据应用通过Mapreduce、Spark等框架计算一组数据；根据实测数据的处理进度估算出运行时间。人工智能训练的目的是找到一个质量好的神经网络模型，满足期望的精度。科学计算主要包括不处理大量数据的短期计算应用。BE具有不同的结构，可以是单片的，也可以是包含多个组件的。从不同的BE组件中回收资源可能会对BE吞吐量产生不同的影响。例如，它可能会降低处理速度，甚至阻止BE运行。为了减少负面影响，计算resource×time评估资源回收如何改变每个BE所占用的服务，其中resource表示BE所占用的CPU资源，time表示完成时间。

每个应用因资源回收所导致的抢占损失L的计算公式如下：

L＝S_pmtn-S_ognl＝t_pmtnr_pmtn-t_ognlr_ognl

其中，t_pmtn表示BE在被抢占(或未被抢占)情况下的完工时间，t_ognl表示BE在未被抢占情况下的完工时间，r_pmtn表示BE被抢占(或未被抢占)时所占用的CPU核数，r_ognl表示BE未被抢占时所占用的CPU核数。如果BE占用的服务在回收后变大，得到抢占损失大于0。计算抢占损失L需要BE运行时的信息，即t_pmtn和t_ognl。如果存在一个特定BE的预测模型，以便准确地估计其运行时间，那么将BE归类为可预测的离线负载；否则，将没有准确预测模型的BE归类为不可预测的离线负载。

1、可预测离线负载的两类BE的预期完成时间有以下两种：

(1)基于spark的大数据BE，将BE的完成进度c、占用时间t和被抢占资源比例p作为输入，得出BE应用的预期完成时间，公式如下：

其中，c通过spark公开的HTTP API获取。

(2)基于深度学习训练的BE，利用已有的白盒模型来预测不同资源配置下BE应用的完成时间。将剩余的训练步骤数s、占用时间t和步骤处理速度q作为输入，使用t_pmtn＝(s/q)+t得出BE应用的预期完成时间。需要通过模型估计s和q。剩余的步骤数将根据培训工作的实时损失值进行更新。

2、不可预测的离线负载的BE的预期完成时间，相关推导如下：

选择使用无用计算数量U作为资源回收优先级。也就是说，生成较少无用计算数量U的BE被优先用于资源回收。无用计算数量U是指资源回收造成的重复计算数量。资源回收后，如果任务变得更慢，不需要重新计算，有U＝0。如果有一个以上的BE拥有U＝0，则通过resource×elasped time来计算这类BE的占用服务，elasped time表示执行时间，resource表示BE所占用的CPU资源。如果任务失败，它的部分计算将变得无用，那么有U＞0。

无用计算与BE的容错机制有关。根据现有BE的容错机制，无用计算数量U的推到主要分为以下两类：

①基于时间冗余的机制，通过重新调度备份服务器上失败的任务，从而延迟任务的执行。为了减少重新调度引起的重复计算，当发生故障时，设置备份服务器上失败的任务从最新的检查点重新启动。由此推导出基于时间冗余的的机制无用计算数量的计算公式U_temp＝t_ckptr_ognl，其中t_ckpt表示自最近检查点时间以来的计算时间；②基于空间冗余的机制通过为同一个任务发送多个副本来牺牲空间来提高效率。副本同时运行，如果至少有一个副本成功完成，则任务将成功。因此，如果一个任务有超过1个副本，回收将不会产生任何重复计算，即U_space＝0。如果一个任务的所有副本都失败了，将不得不重新调度它，无用计算的计算方式，即U_space＝U_temp。

离线负载回收队列模块300，用于构建批处理应用BE回收队列与抢占优先级分配。将运行中的可预测BE与不可预测BE进行了统一维护。当云数据中心延迟敏感服务LC的服务质量无法被保障时，每台服务器上会根据本地所维护的抢占损失优先级队列以及所部署LC组件的贡献度来进行资源回收。

构建分别由可预测的BE和不可预测的BE组成两个单独的回收队列。从两个单独的回收队列中选择最好的BE进行回收是一项挑战。为了解决这一问题，采用Borda计数投票方法，将可预测的BE的队列和不可预测的BE的队列统一为一个BE回收队列。每个选民根据自己的喜好对候选人排序，最后将不同顺序的候选人排序进行整合，选出获胜者。BE_i代表通过borda计数法得到的在不同序列中的第i个得分。不同序列中BE_i得分之和最小的将首先被抢占。

为运行时的BE负载维护可预测抢占损失队列、可预测无用计算队列和不可预测无用计算队列。由于不可预测的BE只出现在不可预测无用计算队列中，可预测的BE出现在可预测抢占损失队列、可预测无用计算队列中，而在通过Borda计数法分别获取各个BE在三个队列中的得分，然后计算每个BE的得分总和时，不可预测BE会因为缺少抢占损失队列得分，而导致得分较低。为了公平比较，将不可预测的BE在不可预测无用计算队列中获得的得分加倍。然后，将可预测的BE的得分和不可预测的BE的得分合并，并按得分降序排列。合并得到的是一个全局BE的回收队列。因为不同LC组件的贡献度不一致，因此将统一后的队列按照贡献度划分一个多级回收队列(MLRQ)，当接收到回收资源请求时，系统会回收处在高优先级队列中的所有负载。这使得与具备高贡献度的LC组件混部的BE负载，会面临着较大的回收粒度，从而实现LC服务质量的快速恢复。

在LC的服务质量无法被保障时，回收操作总是选择全局BE的回收队列顶部执行。如果列表中的第一个BE在本地服务器上不存在，则依次替换BE，直到找到匹配的BE。为了加快SLA恢复进程，进一步将全局BE的回收队列组织成多级回收队列MLRQ，资源回收总是选择处在MLRQ最顶层的BE进行回收。因为每个LC组件的延迟贡献度不同，则每个混部服务器都会维护一个本地MLRQ，并且在每个MLRQ级别中有一个更长的子队列。通过这种方式，更多的资源从与LC组件混合部署的BE中回收。MLRQ级别q_MLRQ中的BE数量由其本地组件的贡献决定。公式如下：

当云数据中心延迟敏感服务LC单独运行时，记录它们在每个LC服务组件上的逗留时间；然后根据所采集的信息推导出每个服务组对尾部延迟的贡献。此特性仅依赖于LC服务本身，其成本随服务组件的数量线性增加。因此，与测量M个LC服务和N个BE作业的M个组合干扰的基于配置的方法相比，本发明降低了M个作业的成本。

可预测的BE表示那些工作完成时间(JCT)可以在不依赖离线分析的情况下轻松而准确地估计的数据，如Mapreduce或Spark应用程序的任务完成时间可以根据处理数据的比例来估算。而对于分布式深度学习训练任务一些白盒预测模型，如Optimus，也可以被使用作为预测器，以预测任务的完成时间。对于其他的BE，认为是不可预测的。虽然可预测的BE的优先级是根据其进度确定的，但不可预测的BE可以按照最低获得服务(LAS)策略来确定优先级，该策略回收获得最少优先服务的BE。

Claims

1.一种高吞吐云计算资源回收系统，其特征在于，该系统包括服务质量监控模块，抢占损失分析模块和离线负载回收队列模块；其中：

所述服务质量监控模块，用于实时监控记录云数据中心延迟敏感服务组件的处理延迟请求，以分析当前时刻服务质量是否被保障；当检测到服务质量无法被保障时，进行资源回收，所述资源回收的评估依据公式resource×time，resource表示批处理应用BE占据的资源，time表示完成时间；

所述抢占损失分析模块，用于计算离线负载的抢占损失；

每个应用因资源回收所导致的抢占损失L的计算公式如下：

L＝S_pmtn-S_ognl＝t_pmtnr_pmtn-t_ognlr_ognl

其中，t_pmtn表示批处理应用BE在被抢占情况下的完工时间，t_ognl表示批处理应用BE在未被抢占情况下的完工时间，r_pmtn表示批处理应用BE被抢占时所占用的CPU核数，r_ognl表示批处理应用BE未被抢占时所占用的资源；

所述离线负载回收队列模块，用于构建批处理应用回收队列与抢占优先级分配；所述批处理应用回收队列包括分别由可预测的批处理应用BE和不可预测的批处理应用BE组成的两个单独的回收队列；当云数据中心延迟敏感服务组件的服务质量无法被保障时，每台服务器根据本地所维护的抢占损失优先级队列以及所部署的云数据中心延迟敏感服务组件的贡献度来进行资源回收。

2.如权利要求1所述的一种高吞吐云计算资源回收系统，其特征在于，每个云数据中心延迟敏感服务组件的延迟贡献度不同，则每个混部服务器维护一个本地多级回收队列MLRQ，并且在每个多级回收队列MLRQ级别中有子队列，多级回收队列MLRQ级别q_MLRQ中的批处理应用BE数量由相应的本地云数据中心延迟敏感服务组件的贡献决定，公式如下：

其中，n_BE表示系统中批处理应用BE的数量，C_i表示云数据中心延迟敏感服务组件的贡献度。