CN114168299A - 一种基于差异化任务画像的云原生调度方法及服务器系统 - Google Patents

一种基于差异化任务画像的云原生调度方法及服务器系统 Download PDF

Info

Publication number
CN114168299A
CN114168299A CN202111539090.8A CN202111539090A CN114168299A CN 114168299 A CN114168299 A CN 114168299A CN 202111539090 A CN202111539090 A CN 202111539090A CN 114168299 A CN114168299 A CN 114168299A
Authority
CN
China
Prior art keywords
qos
task
delay
information
pod
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111539090.8A
Other languages
English (en)
Inventor
叶可江
卢澄志
须成忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202111539090.8A priority Critical patent/CN114168299A/zh
Publication of CN114168299A publication Critical patent/CN114168299A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于差异化任务画像的云原生调度方法及服务器系统。本申请属于云计算技术领域,特别涉及一种基于Kubernetes任务画像的云原生调度方法及服务器系统,所述方法包括以下步骤:S1、对延迟敏感型任务和非延迟敏感型任务进行画像构建,S2、根据延迟敏感性任务和非延迟敏感性任务的服务质量信息QoS指标进行任务调度。本申请基于Kubernetes任务画像的云原生调度方法不仅能够保证运行的任务的稳定性,还能够提高整体的资源利用率,节约资源。

Description

一种基于差异化任务画像的云原生调度方法及服务器系统
技术领域
本申请涉及云计算技术领域,尤指一种基于差异化任务画像的云原生调度方法及服务器系统。
背景技术
云原生作为一种新的超大规模分布式应用的架构范式,获得了产业界和学术界的青睐。云原生的关键技术就是虚拟化技术,通过将各类资源进行虚拟化,云原生的服务提供商能够很便捷的将各类资源进行定制交付给用户使用,而同时用户也不需要再考虑底层的资源以及环境配置。用户能够将原先超大规模的分布式应用通过容器技术或者虚拟机技术等虚拟化手段拆解成众多不同的独立业务模块。这些模块充分解耦,模块与模块之间构建起一种客户端-服务器的模式共同协作处理业务。而对于这些数量众多,种类丰富的业务模块,目前也存在许多的云原生管理系统如Kubernetes,OpenStack等,其中以Kubernetes最为主流。Kubernetes将容器封装为Pod,通过简单的一些命令对运行在其上的Pod进行部署,维护,升级,显著降低了服务提供商以及用户管理大规模容器集群的难度。同时相比于传统的各个机器各自为政,用户自由分割独占机器资源,Kubernetes将众多独立的物理机资源进行虚拟化,通过对容器进行合适的调度以及管理,在保证业务稳定性的同时提高整体的资源利用率。
目前Kubernetes的调度策略是首先依据Pod的亲和性以及其他特定的需求选择可用的机器,之后再根据这些可用的机器的资源使用率信息,从中选取资源空闲量最多的机器将Pod调度下去。当Pod选择好了调度的机器后,Kubernetes的单机端组件Kubelet将会接手Pod的启动以及运行管理。当Pod的资源使用超过其请求量之后Kubelet将会重启Pod,以保证其不会干扰其他的Pod的正常运行。
然而目前Kubernetes仅提供了一个兼容性较强的平台,但是对于容器的调度依然存在一系列的问题,如为了保证部分业务的稳定性,默认的调度方案过于简单且保守,最终导致集群整体的资源使用率无法提升,大量资源空闲。
发明内容
鉴于此,本申请提供一种基于差异化任务画像的云原生调度方法,解决在保证部分稳定性要求较高的业务的正常执行情况下,尽可能的提高集群资源使用率。
为解决上述技术问题,本申请一方面提供一种基于Kubernetes任务画像的云原生调度方法,包括以下步骤:
S1、对延迟敏感型任务和非延迟敏感型任务进行画像构建,
S2、根据延迟敏感性任务和非延迟敏感性任务的服务质量信息QoS指标进行任务调度。
进一步的,所述对延迟敏感性任务和非延迟敏感性任务进行画像构建的步骤包括:
S11、收集延迟敏感型任务的资源使用率信息RU、物理机资源使用率RU、硬件事件信息HE以及服务质量信息QoS,构造服务质量信息QoS与资源使用率信息RU、物理机资源使用率RU、硬件事件信息HE的随机森林模型RM;
S12、收集非延迟敏感性任务的资源使用率信息RU,硬件指标信息HE,以及服务质量信息QoS,构造服务质量信息QoS与资源使用率信息RU、硬件指标信息HE的线性模型LM。
进一步的,所述对延迟敏感性任务和非延迟敏感性任务进行画像构建的步骤还包括:
S13、区分延迟敏感性任务和非延迟敏感性任务的服务质量信息QoS,将非延迟敏感型任务的服务质量信息QoS定义为完成时间,将延迟敏感性任务的服务质量信息QoS定义为压力阻塞信息PSI。
进一步的,所述根据延迟敏感性任务和非延迟敏感性任务的服务质量信息QoS指标进行任务调度的步骤包括:
S21:利用非延迟敏感型任务的线性模型LM预测出为满足不同的完成时间所需要的平均资源使用率;
S22:利用延迟敏感型任务的随机森林模RM型判断在不同的非延迟敏感型任务的资源使用率的条件下,延迟敏感型任务的服务质量信息QoS指标的变化范围,给出对服务质量信息QoS指标影响最小的机器作为任务的运行机器。
进一步的,所述方法还包括:
调度器接收新的Pod请求;
调度器根据Pod的资源请求,Pod名称,Pod所属的应用以及Pod的标签判定Pod所属的类别是延迟敏感型任务还是非延迟敏感性任务。
进一步的,当Pod所属类别为延迟敏感型任务时:
选取集群中资源空闲率最高的节点作为Pod的运行节点,
运行Pod,实时监控节点上Pod的运行信息,将所述运行信息返回至步骤S1。
进一步的,当Pod所属类型为非延迟敏感型任务时:
计算在保证非延迟敏感型的执行时间不超过同类Pod历史记录里最长的执行时间的前提下的最小的资源使用率,即
min(RU),s.t.LM(RU,HE)≤Max(ExecutionTime);
根据随机森林模型RM分别计算每台机器上延迟敏感型任务LS应用的QoS信息,
QoSpred=RM(NLS-MRU+NRU,RU,HE),
同时需要计算QoSmin=RM(RR+NRU,RU,HE),令当前的QoS为QoSnow,计算同一台机器上未来一段时间内QoS的预测值与当前QoS值的差值之和,即
Figure BDA0003412193080000031
从集群中选取
Figure BDA0003412193080000032
最小的机器作为Pod的运行节点。
另一方面,本申请还提供了一种服务器系统,所述服务器系统包括:
处理器,以及
与所述处理器通信连接的存储器,其中,
所述存储器存储有可读性指令,所述可读性指令被所述处理器执行时实现如上述所述的调度方法。
相对于现有技术,本申请的有益效果在于:
解决了现有技术仅采用资源使用率信息作为调度判断依据,一方面难以保证不同种类的业务的QoS,另一方面也无法充分利用集群的资源。本申请基于差异化任务画像的云原生调度方案将运行的任务划分为延迟敏感型和非延迟敏感型任务,分别针对两类任务构造对应的画像,之后再通过画像预估不同的资源使用情况下两类任务的QoS是否会被影响以及大致的影响范围,最后将QoS影响最小的机器作为任务运行机器,不仅能够保证运行的任务的稳定性,还能够提高整体的资源利用率,节约资源。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种基于差异化任务画像的云原生调度方法实现流程图;
图2为本申请实施例提供的一种基于差异化任务画像的云原生调度方法的具体应用实现流程图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
本发明实施例提供一种基于差异化任务画像的云原生调度方法,包括以下步骤,请参阅图1:
S1、对延迟敏感型任务和非延迟敏感型任务进行画像构建,
S2、根据延迟敏感性任务和非延迟敏感性任务的服务质量信息QoS指标进行任务调度。
更为具体的,请参阅图2:
第一步:
1)使用采集工具Node exporter和cadvisor收集延迟敏感型任务LS的资源使用率信息RU、物理机资源使用率RU、硬件事件信息HE以及服务质量信息QoS,
2)使用采集工具Node exporter和cadvisor收集非延迟敏感性任务的资源使用率信息RU,硬件指标信息HE,以及服务质量信息QoS,
第二步:
1)针对延迟敏感型任务LS,使用随机森林构造服务质量信息QoS与资源使用率信息RU、物理机资源使用率RU、硬件事件信息HE的随机森林模型RM;该模型的输入为NRU、RU、HE,输出为QoS,该模型描述了在某个NRU、RU、HE的数值下,Oos的范围可能是多少,这里将LS任务的QoS定义为系统的PSI(Pressure Stall Information,压力阻塞信息)。PSI能够很好的反映当前资源的紧张程度,能够显著影响诸如吞吐量Throughput,响应时间ResponseTime等应用级别指标,而且相对于应用级别指标,PSI更加稳定,不容易被应用本身的结构所影响。
2)针对非延迟敏感型任务NLS,使用线性模型构造其QoS与资源使用率RU,硬件事件信息HE之间的关系LM。该模型的输入为RU和HE,输出为QoS。该模型描述了在某个RU和HE的状态下,NLS任务的QoS的数值返回。由于NLS的QoS通常为其完成时间,因此,该模型也就表示以某个RU和HE的数值一直运行下去,其执行时间预估将会是多少。
第三步:
当第一步与第二步全部执行完毕后,调度器接收新的Pod请求。
第四步:
调度器根据Pod的资源请求RR,Pod的名称,Pod所属的应用以及Pod的标签判定Pod所属的类别是延迟敏感型任务还是非延迟敏感性任务。
当Pod所属类别为延迟敏感型任务时,执行第五步,当Pod所属类别为非延迟敏感型任务时,执行第六步。
第五步:
选取集群中资源空闲率最高的节点作为Pod的运行节点,执行第八步。
第六步:
计算在保证非延迟敏感型的执行时间不超过同类Pod历史记录里最长的执行时间的前提下的最小的资源使用率,即
min(RU),s.t.LM(RU,HE)≤Max(ExecutionTime);
将最小的RU记为NLS-MRU。
第七步:
根据随机森林模型RM分别计算每台机器上延迟敏感型任务的服务质量信息QoS信息QoSpred=RM(NLS-MRU+NRU,RU,HE),同时为了保证未来一段时间内LS应用的QoS不受影响,同时需要计算QoSmin=RM(RR+NRU,RU,HE),令当前的QoS为QoSnow,计算同一台机器上未来一段时间内QoS的预测值与当前QoS值的差值之和,即
Figure BDA0003412193080000061
Figure BDA0003412193080000062
从集群中选取
Figure BDA0003412193080000063
最小的机器作为Pod的运行节点。
第八步:
运行Pod,实时监控节点上Pod的运行信息,将所述运行信息返回至第一步以及第二步。
实施例2:
本发明实施例2提供一种服务器系统,所述服务器系统包括:
处理器,以及
与所述处理器通信连接的存储器,其中,
所述存储器存储有可读性指令,所述可读性指令被所述处理器执行时实现上述的调度方法。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种基于Kubernetes任务画像的云原生调度方法,其特征在于,包括以下步骤:
S1、对延迟敏感型任务和非延迟敏感型任务进行画像构建,
S2、根据延迟敏感性任务和非延迟敏感性任务的服务质量信息QoS指标进行任务调度。
2.根据权利要求所述的一种Kubernetes任务画像的云原生调度方法,其特征在于,所述对延迟敏感性任务和非延迟敏感性任务进行画像构建的步骤包括:
S11、收集延迟敏感型任务的资源使用率信息RU、物理机资源使用率RU、硬件事件信息HE以及服务质量信息QoS,构造服务质量信息QoS与资源使用率信息RU、物理机资源使用率RU、硬件事件信息HE的随机森林模型RM;
S12、收集非延迟敏感性任务的资源使用率信息RU,硬件指标信息HE,以及服务质量信息QoS,构造服务质量信息QoS与资源使用率信息RU、硬件指标信息HE的线性模型LM。
3.根据权利要求2所述的一种Kubernetes任务画像的云原生调度方法,其特征在于,所述对延迟敏感性任务和非延迟敏感性任务进行画像构建的步骤还包括:
S13、区分延迟敏感性任务和非延迟敏感性任务的服务质量信息QoS,将非延迟敏感型任务的服务质量信息QoS定义为完成时间,将延迟敏感性任务的服务质量信息QoS定义为压力阻塞信息PSI。
4.根据权利要求1所述的一种Kubernetes任务画像的云原生调度方法,其特征在于,所述根据延迟敏感性任务和非延迟敏感性任务的服务质量信息QoS指标进行任务调度的步骤包括:
S21:利用非延迟敏感型任务的线性模型LM预测出为满足不同的完成时间所需要的平均资源使用率;
S22:利用延迟敏感型任务的随机森林模RM型判断在不同的非延迟敏感型任务的资源使用率的条件下,延迟敏感型任务的服务质量信息QoS指标的变化范围,给出对服务质量信息QoS指标影响最小的机器作为任务的运行机器。
5.根据权利要求1所述的一种Kubernetes任务画像的云原生调度方法,其特征在于,所述方法还包括:
调度器接收新的Pod请求;
调度器根据Pod的资源请求,Pod名称,Pod所属的应用以及Pod的标签判定Pod所属的类别是延迟敏感型任务还是非延迟敏感性任务。
6.根据权利要求5所述的一种Kubernetes任务画像的云原生调度方法,其特征在于,
当Pod所属类别为延迟敏感型任务时:
选取集群中资源空闲率最高的节点作为Pod的运行节点,
运行Pod,实时监控节点上Pod的运行信息,将所述运行信息返回至步骤S1。
7.根据权利要求5所述的一种Kubernetes任务画像的云原生调度方法,其特征在于,
当Pod所属类型为非延迟敏感型任务时:
计算在保证非延迟敏感型的执行时间不超过同类Pod历史记录里最长的执行时间的前提下的最小的资源使用率,即
min(RU),s.t.LM(RU,HE)≤Max(ExecutionTime);
根据随机森林模型RM分别计算每台机器上延迟敏感型任务LS应用的QoS信息,
QoSpred=RM(NLS-MRU+NRU,RU,HE),
同时需要计算QoSmin=RM(RR+NRU,RU,HE),令当前的QoS为QoSnow,计算同一台机器上未来一段时间内QoS的预测值与当前QoS值的差值之和,即
Figure FDA0003412193070000031
从集群中选取
Figure FDA0003412193070000032
最小的机器作为Pod的运行节点。
8.一种服务器系统,其特征在于,所述服务器系统包括:
处理器,以及
与所述处理器通信连接的存储器,其中,
所述存储器存储有可读性指令,所述可读性指令被所述处理器执行时实现如权利要求1-7任一项所述的方法。
CN202111539090.8A 2021-12-15 2021-12-15 一种基于差异化任务画像的云原生调度方法及服务器系统 Pending CN114168299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111539090.8A CN114168299A (zh) 2021-12-15 2021-12-15 一种基于差异化任务画像的云原生调度方法及服务器系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111539090.8A CN114168299A (zh) 2021-12-15 2021-12-15 一种基于差异化任务画像的云原生调度方法及服务器系统

Publications (1)

Publication Number Publication Date
CN114168299A true CN114168299A (zh) 2022-03-11

Family

ID=80486857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111539090.8A Pending CN114168299A (zh) 2021-12-15 2021-12-15 一种基于差异化任务画像的云原生调度方法及服务器系统

Country Status (1)

Country Link
CN (1) CN114168299A (zh)

Similar Documents

Publication Publication Date Title
US11314551B2 (en) Resource allocation and scheduling for batch jobs
US20190324819A1 (en) Distributed-system task assignment method and apparatus
US10101798B2 (en) Reducing power consumption in a server cluster
US20200012522A1 (en) Automated generation of scheduling algorithms based on task relevance assessment
CN109324875B (zh) 一种基于强化学习的数据中心服务器功耗管理与优化方法
US8856797B1 (en) Reactive auto-scaling of capacity
CN114930293A (zh) 预测性自动扩展和资源优化
WO2019091387A1 (en) Method and system for provisioning resources in cloud computing
US11579933B2 (en) Method for establishing system resource prediction and resource management model through multi-layer correlations
US8375228B2 (en) Multiple-node system power utilization management
WO2017010922A1 (en) Allocation of cloud computing resources
CN112579304A (zh) 基于分布式平台的资源调度方法、装置、设备及介质
TW202219761A (zh) 用於封閉迴路動態資源分配控制架構之設備及方法
US12026536B2 (en) Rightsizing virtual machine deployments in a cloud computing environment
CN113849223A (zh) 用于使用性能标记的资源分配控制框架的装置和方法
CN112416568A (zh) 音视频转码任务的时长预估方法和时长预估装置
US20200142822A1 (en) Multi-tenant cloud elastic garbage collector
CN113535346B (zh) 线程数量调整的方法、装置、设备及计算机存储介质
CN112948109A (zh) 一种ai计算集群的配额弹性调度方法、装置及介质
CN107872480A (zh) 大数据集群数据平衡方法和装置
US20200341877A1 (en) Processes and systems that detect abnormal behavior of objects of a distributed computing system
CN114168299A (zh) 一种基于差异化任务画像的云原生调度方法及服务器系统
Saravanakumar et al. An Efficient Technique for Virtual Machine Clustering and Communications Using Task‐Based Scheduling in Cloud Computing
CN113906720A (zh) 流量调度方法、设备及存储介质
Kumar Mishra et al. Cs-based energy-efficient service allocation in cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination