CN114168299A

CN114168299A - 一种基于差异化任务画像的云原生调度方法及服务器系统

Info

Publication number: CN114168299A
Application number: CN202111539090.8A
Authority: CN
Inventors: 叶可江; 卢澄志; 须成忠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-11

Abstract

一种基于差异化任务画像的云原生调度方法及服务器系统。本申请属于云计算技术领域，特别涉及一种基于Kubernetes任务画像的云原生调度方法及服务器系统，所述方法包括以下步骤：S1、对延迟敏感型任务和非延迟敏感型任务进行画像构建，S2、根据延迟敏感性任务和非延迟敏感性任务的服务质量信息QoS指标进行任务调度。本申请基于Kubernetes任务画像的云原生调度方法不仅能够保证运行的任务的稳定性，还能够提高整体的资源利用率，节约资源。

Description

一种基于差异化任务画像的云原生调度方法及服务器系统

技术领域

本申请涉及云计算技术领域，尤指一种基于差异化任务画像的云原生调度方法及服务器系统。

背景技术

云原生作为一种新的超大规模分布式应用的架构范式，获得了产业界和学术界的青睐。云原生的关键技术就是虚拟化技术，通过将各类资源进行虚拟化，云原生的服务提供商能够很便捷的将各类资源进行定制交付给用户使用，而同时用户也不需要再考虑底层的资源以及环境配置。用户能够将原先超大规模的分布式应用通过容器技术或者虚拟机技术等虚拟化手段拆解成众多不同的独立业务模块。这些模块充分解耦，模块与模块之间构建起一种客户端-服务器的模式共同协作处理业务。而对于这些数量众多，种类丰富的业务模块，目前也存在许多的云原生管理系统如Kubernetes，OpenStack等，其中以Kubernetes最为主流。Kubernetes将容器封装为Pod，通过简单的一些命令对运行在其上的Pod进行部署，维护，升级，显著降低了服务提供商以及用户管理大规模容器集群的难度。同时相比于传统的各个机器各自为政，用户自由分割独占机器资源，Kubernetes将众多独立的物理机资源进行虚拟化，通过对容器进行合适的调度以及管理，在保证业务稳定性的同时提高整体的资源利用率。

目前Kubernetes的调度策略是首先依据Pod的亲和性以及其他特定的需求选择可用的机器，之后再根据这些可用的机器的资源使用率信息，从中选取资源空闲量最多的机器将Pod调度下去。当Pod选择好了调度的机器后，Kubernetes的单机端组件Kubelet将会接手Pod的启动以及运行管理。当Pod的资源使用超过其请求量之后Kubelet将会重启Pod，以保证其不会干扰其他的Pod的正常运行。

然而目前Kubernetes仅提供了一个兼容性较强的平台，但是对于容器的调度依然存在一系列的问题，如为了保证部分业务的稳定性，默认的调度方案过于简单且保守，最终导致集群整体的资源使用率无法提升，大量资源空闲。

发明内容

鉴于此，本申请提供一种基于差异化任务画像的云原生调度方法，解决在保证部分稳定性要求较高的业务的正常执行情况下，尽可能的提高集群资源使用率。

为解决上述技术问题，本申请一方面提供一种基于Kubernetes任务画像的云原生调度方法，包括以下步骤：

S1、对延迟敏感型任务和非延迟敏感型任务进行画像构建，

S2、根据延迟敏感性任务和非延迟敏感性任务的服务质量信息QoS指标进行任务调度。

进一步的，所述对延迟敏感性任务和非延迟敏感性任务进行画像构建的步骤包括：

S11、收集延迟敏感型任务的资源使用率信息RU、物理机资源使用率RU、硬件事件信息HE以及服务质量信息QoS，构造服务质量信息QoS与资源使用率信息RU、物理机资源使用率RU、硬件事件信息HE的随机森林模型RM；

S12、收集非延迟敏感性任务的资源使用率信息RU，硬件指标信息HE，以及服务质量信息QoS，构造服务质量信息QoS与资源使用率信息RU、硬件指标信息HE的线性模型LM。

进一步的，所述对延迟敏感性任务和非延迟敏感性任务进行画像构建的步骤还包括：

S13、区分延迟敏感性任务和非延迟敏感性任务的服务质量信息QoS，将非延迟敏感型任务的服务质量信息QoS定义为完成时间，将延迟敏感性任务的服务质量信息QoS定义为压力阻塞信息PSI。

进一步的，所述根据延迟敏感性任务和非延迟敏感性任务的服务质量信息QoS指标进行任务调度的步骤包括：

S21：利用非延迟敏感型任务的线性模型LM预测出为满足不同的完成时间所需要的平均资源使用率；

S22：利用延迟敏感型任务的随机森林模RM型判断在不同的非延迟敏感型任务的资源使用率的条件下，延迟敏感型任务的服务质量信息QoS指标的变化范围，给出对服务质量信息QoS指标影响最小的机器作为任务的运行机器。

进一步的，所述方法还包括：

调度器接收新的Pod请求；

调度器根据Pod的资源请求，Pod名称，Pod所属的应用以及Pod的标签判定Pod所属的类别是延迟敏感型任务还是非延迟敏感性任务。

进一步的，当Pod所属类别为延迟敏感型任务时：

选取集群中资源空闲率最高的节点作为Pod的运行节点，

运行Pod，实时监控节点上Pod的运行信息，将所述运行信息返回至步骤S1。

进一步的，当Pod所属类型为非延迟敏感型任务时：

计算在保证非延迟敏感型的执行时间不超过同类Pod历史记录里最长的执行时间的前提下的最小的资源使用率，即

min(RU),s.t.LM(RU,HE)≤Max(ExecutionTime)；

根据随机森林模型RM分别计算每台机器上延迟敏感型任务LS应用的QoS信息，

QoS_pred＝RM(NLS-MRU+NRU,RU,HE)，

同时需要计算QoS_min＝RM(RR+NRU,RU,HE)，令当前的QoS为QoS_now，计算同一台机器上未来一段时间内QoS的预测值与当前QoS值的差值之和，即

从集群中选取

最小的机器作为Pod的运行节点。

另一方面，本申请还提供了一种服务器系统，所述服务器系统包括：

处理器，以及

与所述处理器通信连接的存储器，其中，

所述存储器存储有可读性指令，所述可读性指令被所述处理器执行时实现如上述所述的调度方法。

相对于现有技术，本申请的有益效果在于：

解决了现有技术仅采用资源使用率信息作为调度判断依据，一方面难以保证不同种类的业务的QoS，另一方面也无法充分利用集群的资源。本申请基于差异化任务画像的云原生调度方案将运行的任务划分为延迟敏感型和非延迟敏感型任务，分别针对两类任务构造对应的画像，之后再通过画像预估不同的资源使用情况下两类任务的QoS是否会被影响以及大致的影响范围，最后将QoS影响最小的机器作为任务运行机器，不仅能够保证运行的任务的稳定性，还能够提高整体的资源利用率，节约资源。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种基于差异化任务画像的云原生调度方法实现流程图；

图2为本申请实施例提供的一种基于差异化任务画像的云原生调度方法的具体应用实现流程图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

本发明实施例提供一种基于差异化任务画像的云原生调度方法，包括以下步骤，请参阅图1：

S1、对延迟敏感型任务和非延迟敏感型任务进行画像构建，

更为具体的，请参阅图2：

第一步：

1)使用采集工具Node exporter和cadvisor收集延迟敏感型任务LS的资源使用率信息RU、物理机资源使用率RU、硬件事件信息HE以及服务质量信息QoS，

2)使用采集工具Node exporter和cadvisor收集非延迟敏感性任务的资源使用率信息RU，硬件指标信息HE，以及服务质量信息QoS，

第二步：

1)针对延迟敏感型任务LS，使用随机森林构造服务质量信息QoS与资源使用率信息RU、物理机资源使用率RU、硬件事件信息HE的随机森林模型RM；该模型的输入为NRU、RU、HE，输出为QoS，该模型描述了在某个NRU、RU、HE的数值下，Oos的范围可能是多少，这里将LS任务的QoS定义为系统的PSI(Pressure Stall Information，压力阻塞信息)。PSI能够很好的反映当前资源的紧张程度，能够显著影响诸如吞吐量Throughput，响应时间ResponseTime等应用级别指标，而且相对于应用级别指标，PSI更加稳定，不容易被应用本身的结构所影响。

2)针对非延迟敏感型任务NLS，使用线性模型构造其QoS与资源使用率RU，硬件事件信息HE之间的关系LM。该模型的输入为RU和HE，输出为QoS。该模型描述了在某个RU和HE的状态下，NLS任务的QoS的数值返回。由于NLS的QoS通常为其完成时间，因此，该模型也就表示以某个RU和HE的数值一直运行下去，其执行时间预估将会是多少。

第三步：

当第一步与第二步全部执行完毕后，调度器接收新的Pod请求。

第四步：

调度器根据Pod的资源请求RR，Pod的名称，Pod所属的应用以及Pod的标签判定Pod所属的类别是延迟敏感型任务还是非延迟敏感性任务。

当Pod所属类别为延迟敏感型任务时，执行第五步，当Pod所属类别为非延迟敏感型任务时，执行第六步。

第五步：

选取集群中资源空闲率最高的节点作为Pod的运行节点，执行第八步。

第六步：

min(RU),s.t.LM(RU,HE)≤Max(ExecutionTime)；

将最小的RU记为NLS-MRU。

第七步：

根据随机森林模型RM分别计算每台机器上延迟敏感型任务的服务质量信息QoS信息QoS_pred＝RM(NLS-MRU+NRU,RU,HE)，同时为了保证未来一段时间内LS应用的QoS不受影响，同时需要计算QoS_min＝RM(RR+NRU,RU,HE)，令当前的QoS为QoS_now，计算同一台机器上未来一段时间内QoS的预测值与当前QoS值的差值之和，即

从集群中选取

最小的机器作为Pod的运行节点。

第八步：

运行Pod，实时监控节点上Pod的运行信息，将所述运行信息返回至第一步以及第二步。

实施例2：

本发明实施例2提供一种服务器系统，所述服务器系统包括：

处理器，以及

与所述处理器通信连接的存储器，其中，

所述存储器存储有可读性指令，所述可读性指令被所述处理器执行时实现上述的调度方法。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于Kubernetes任务画像的云原生调度方法，其特征在于，包括以下步骤：

S1、对延迟敏感型任务和非延迟敏感型任务进行画像构建，

2.根据权利要求所述的一种Kubernetes任务画像的云原生调度方法，其特征在于，所述对延迟敏感性任务和非延迟敏感性任务进行画像构建的步骤包括：

3.根据权利要求2所述的一种Kubernetes任务画像的云原生调度方法，其特征在于，所述对延迟敏感性任务和非延迟敏感性任务进行画像构建的步骤还包括：

4.根据权利要求1所述的一种Kubernetes任务画像的云原生调度方法，其特征在于，所述根据延迟敏感性任务和非延迟敏感性任务的服务质量信息QoS指标进行任务调度的步骤包括：

5.根据权利要求1所述的一种Kubernetes任务画像的云原生调度方法，其特征在于，所述方法还包括：

调度器接收新的Pod请求；

6.根据权利要求5所述的一种Kubernetes任务画像的云原生调度方法，其特征在于，

当Pod所属类别为延迟敏感型任务时：

选取集群中资源空闲率最高的节点作为Pod的运行节点，

7.根据权利要求5所述的一种Kubernetes任务画像的云原生调度方法，其特征在于，

当Pod所属类型为非延迟敏感型任务时：

min(RU)，s.t.LM(RU，HE)≤Max(ExecutionTime)；

QoS_pred＝RM(NLS-MRU+NRU，RU，HE)，

同时需要计算QoS_min＝RM(RR+NRU，RU，HE)，令当前的QoS为QoS_now，计算同一台机器上未来一段时间内QoS的预测值与当前QoS值的差值之和，即

从集群中选取

最小的机器作为Pod的运行节点。

8.一种服务器系统，其特征在于，所述服务器系统包括：

处理器，以及

与所述处理器通信连接的存储器，其中，

所述存储器存储有可读性指令，所述可读性指令被所述处理器执行时实现如权利要求1-7任一项所述的方法。