CN115408100A - 容器集群调度的方法、装置、设备及存储介质 - Google Patents

容器集群调度的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115408100A
CN115408100A CN202210869509.4A CN202210869509A CN115408100A CN 115408100 A CN115408100 A CN 115408100A CN 202210869509 A CN202210869509 A CN 202210869509A CN 115408100 A CN115408100 A CN 115408100A
Authority
CN
China
Prior art keywords
node
pod
resource
group
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210869509.4A
Other languages
English (en)
Inventor
闫海娜
景宇
刘磊
杨帆
甄富
鞠娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
Tianyi Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Cloud Technology Co Ltd filed Critical Tianyi Cloud Technology Co Ltd
Priority to CN202210869509.4A priority Critical patent/CN115408100A/zh
Publication of CN115408100A publication Critical patent/CN115408100A/zh
Priority to PCT/CN2022/141606 priority patent/WO2024016596A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45562Creating, deleting, cloning virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种容器集群调度的方法、装置、设备及存储介质,涉及计算机技术领域,该方法包括:根据接收到的容器调度请求指示的POD的资源需求创建多个POD,通过POD的资源需求和节点组所能提供的资源量上限值,对创建的POD进行分组,再从容器集群包含的节点组中为每个POD组分配对应的节点组,并针对每个POD组包含的各个POD,分别从为POD组分配的节点组中确定出相应的目标节点,并将每个POD绑定至对应的目标节点。本申请实施例所采用的容器集群调度方法在满足节点负载均衡的基础上,提高了容器集群的调度效率,减轻了容器集群的原生调度器的负载压力,使节点的资源利用率更高。

Description

容器集群调度的方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种容器集群调度的方法、装置、设备及存储介质。
背景技术
目前云计算产品中,容器集群调度算法通常以容器的资源利用率、节点的负载均衡以及容灾策略作为评测集群性能的主要指标,而容器调度算法的合理性也高度影响着集群的性能。例如云计算领域内广泛应用的Kubernetes容器编排调度技术就充分考虑了上述问题,在满足用户个性化资源分配需求的基础上,采用一定的过滤算法和打分算法筛选出最合适的节点绑定POD,因此Kubernetes容器编排调度技术在很大程度上解决了容器资源利用率的问题,并在实现负载均衡和容灾方面都具有很大的优势。但随着集群规模的扩大和云计算平台用户数量的增加,Kubernetes容器编排调度技术需要将大量POD逐个进行节点的分配,容器调度效率过低,且其对节点进行顺序重复性打分筛选也会导致效率降低,因此提高容器调度的效率成为目前亟待解决的问题。另一方面,Kubernetes的原生调度器既要负责节点的过滤和打分,又要兼顾节点的负载均衡和容灾,导致调度器负载压力过大。
发明内容
鉴于上述问题,本申请实施例提供一种容器集群调度的方法、装置、设备及存储介质,用以解决容器集群调度效率低,且其原生调度器负载压力过大的技术问题。
一方面,提供一种容器集群调度方法,所述方法包括:
基于接收的容器调度请求,创建多个POD,所述调度请求用于指示所述多个POD的资源需求;
基于各个POD的资源需求和各节点组所能提供的资源量上限值,对所述多个POD进行分组,获得多个POD组,每个POD组包含至少一个POD;
从容器集群包含的节点组中,为每个POD组分配对应的节点组;
针对每个POD组包含的各个POD,分别从为POD组分配的节点组中确定出相应的目标节点,并将每个POD绑定至对应的目标节点。
一方面,提供一种容器集群调度装置,包括:
创建单元,用于基于接收的容器调度请求,创建多个POD,所述调度请求用于指示所述多个POD的资源需求;
分组单元,用于基于各个POD的资源需求和各节点组所能提供的资源量上限值,对所述多个POD进行分组,获得多个POD组,每个POD组包含至少一个POD;
分配单元,用于从容器集群包含的节点组中,为每个POD组分配对应的节点组;
绑定单元,用于针对每个POD组包含的各个POD,分别从为POD组分配的节点组中确定出相应的目标节点,并将每个POD绑定至对应的目标节点。
可选的,所述分组单元,具体用于:
基于容器集群包括的各个节点的节点属性,对所述各个节点进行分组,获得多个节点组;
其中,每个节点组中的多个节点之间的节点属性存在如下关系中的一种或者多种:
资源属性相同;
资源利用率之间的差值不大于第一预设差值阈值;
包含所述容器集群中的至少两种拓扑结构中的节点。
可选的,所述分组单元,具体用于:
基于所述容器集群中具有特定资源的节点,获得至少一个特殊资源节点组;
基于各节点的资源利用率,对所述容器集群中除具有特定资源的节点之外的普通资源节点进行聚类处理,并根据聚类结果确定分组数量N;
分别对所述容器集群中每个拓扑结构中的普通资源节点,按照资源利用率从小到大的顺序进行排序,获得每个拓扑结构对应的普通资源节点队列;
分别对每个普通资源节点队列划分为N个子队列,每个子队列中的普通资源节点之间的顺序与相应的普通资源节点队列一致,任意两个子队列中其中一个子队列中资源利用率的最小值大于另一子队列中资源利用率的最大值;
将各普通资源节点队列对应的N个子队列中,位置对应的子队列包括的节点进行组合,获得N个普通资源节点组。
可选的,所述分组单元,具体用于:
分别针对所述多个节点组中各个节点组,获取各个节点组的资源利用率集合,所述资源利用率集合包含相应节点组内每一个节点的资源利用率;
针对每个资源利用率集合,若包含的最大值与最小值之间的差值大于第二预设差值阈值,则对所述多个节点组进行分组调整,获得调整后的多个节点组。
可选的,所述装置还包括迁移单元,具体用于:
当所述容器集群的负载低于预设负载阈值时,确定每个POD的活跃度是否低于预设活跃度阈值;所述活跃度表征POD的资源需求的概率,或者资源需求扩展时的资源量;
当存在目标POD的活跃度低于所述预设活跃度阈值时,将所述目标POD迁移至可用资源量低于预设资源量阈值的节点。
可选的,所述分组单元,具体用于:
对所述多个POD进行分组,获得多个POD组,所述多个POD组满足如下条件的一种或者多种:
每个POD组具有相同的资源需求;
每个POD组的资源需求总量小于或者等于所述资源量上限值,且所述资源需求总量与所述资源量上限值之间的差值不超过第三预设差值阈值;
每个POD组中各个POD之间的关联度不低于预设关联度阈值。
可选的,所述分配单元,具体用于:
将所述容器集群包含的特殊资源节点组,分配给所述多个POD组中存在特定资源需求的POD组;
将所述容器集群包含的普通资源节点组,分配给所述多个POD组中除存在特定资源需求的POD组之外的其他POD组;
若存在所述其他POD组未分配到相应的普通资源节点组,则将特殊资源节点组分配给未分配的其他POD组。
一方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种方法的步骤。
一方面,提供一种计算机存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法的步骤。
一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种方法的步骤。
本申请实施例的有益效果如下:
本申请实施例中,根据接收到的容器调度请求指示的POD的资源需求,创建多个POD,通过POD的资源需求和节点组所能提供的资源量上限值,对创建的POD进行分组,再从容器集群包含的节点组中为每个POD组分配对应的节点组,并针对每个POD组包含的各个POD,分别从为POD组分配的节点组中确定出相应的目标节点,并将每个POD绑定至对应的目标节点。其中,本申请实施例所采用的容器集群调度方法,通过对POD和节点分别进行分组,再通过POD组到节点组的大粒度批量组调度和节点组内POD调度的分级调度机制,在满足节点负载均衡的基础上,通过分级调度提高容器集群的调度效率,同时减轻容器集群的原生调度器的负载压力,使得节点的资源利用率更高。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的一种容器集群调度设备的系统架构图;
图3为本申请实施例提供的一种容器集群调度方法的流程示意图;
图4为本申请实施例提供的一种两级调度模块进行POD调度的示意图;
图5为本申请实施例提供的一种节点分组的流程示意图;
图6为本申请实施例提供的一种对集群拓扑内的节点进行分组的示意图;
图7为本申请实施例提供的一种节点分组模块的分组流程图;
图8为本申请实施例提供的一种容器集群调度过程的流程图;
图9为本申请实施例提供的一种容器集群调度装置的结构示意图;
图10为本申请实施例提供的一种计算机设备的组成结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
为便于理解本申请实施例提供的技术方案,这里先对本申请实施例使用的一些关键名词进行解释:
POD:是容器集群技术中最基本资源类型和最小调度单位,通过一个POD来存放实现同一业务功能的一个及以上数量的容器,并共享同一网络和存储,POD中的所有容器跟随POD被统一调度绑定至同一节点,不可分割。POD中的容器有共享网络和共享存储两个特点,共享网络指POD中的所有容器共享同一个网络命名空间,包括IP地址和网络端口,共享存储指POD中的所有容器能够访问共享存储卷,且允许容器共享数据。
容器:将应用程序代码、工具库、运行环境和运行所需的设置和依赖项都打包到一个容器中,实现可移植性的优点。不同容器能在不同环境中独立运行,互不影响。
下面对本申请实施例的设计思想进行简要介绍:
本申请实施例中,根据接收到的容器调度请求指示的POD的资源需求,创建多个POD,通过POD的资源需求和节点组所能提供的资源量上限值,对创建的POD进行分组,再从容器集群包含的节点组中为每个POD组分配对应的节点组,并针对每个POD组包含的各个POD,分别从为POD组分配的节点组中确定出相应的目标节点,并将每个POD绑定至对应的目标节点。其中,本申请实施例所采用的容器集群调度方法,通过对POD和节点分别进行分组,再通过POD组到节点组的大粒度批量组调度和节点组内POD调度的分级调度机制,在满足节点负载均衡的基础上,通过分级调度提高容器集群的调度效率,同时减轻容器集群的原生调度器的负载压力,使得节点的资源利用率更高。
此外,为了保证节点负载均衡的同时,进一步提高节点的资源利用率、高可用性以及容器的调度效率,本申请实施例根据节点的资源属性、资源利用率、所属容器集群的拓扑,将容器集群中具有特定资源的节点分为特殊资源节点组,对其他普通资源节点通过聚类处理和分组算法,将资源利用率相近且来自不同拓扑的普通资源节点划分为一组,并在节点组运行后根据各个节点组的资源利用率情况对划分的节点组进行分组调整。其中,该方法使具有特殊资源的节点能被充分利用,进一步提高节点的资源利用率,将资源利用率相近的普通资源节点划分为一组,且根据资源利用率对节点组进行动态分组调整,保证节点组内各个节点的资源使用率始终保持相近,使在进行各节点组内POD调度时无需花费更多计算资源实现负载均衡,保证节点负载均衡的同时进一步提高容器的调度效率,通过让普通资源节点组内包含来自不同拓扑的节点,保证组内节点的高可用性。
最后,本申请实施例在对POD进行分组时,将相同资源需求的POD划分为一组,且使每个POD组资源需求总量小于且最接近节点组资源量上限值,每个POD组各POD之间存在高关联度。在进行POD组到节点组的大粒度批量组调度时,将特殊资源节点组分配给存在特定资源需求的POD组,普通资源节点组分配给其他POD组,当存在未分配到普通资源节点组的其他POD组时,将特殊资源节点组分配给未分配的其他POD组。并在容器集群负载过低时,将活跃度低的POD迁移至可用资源量低的节点。该方法使相同资源需求的POD分为一组,实现与特殊资源节点组和普通资源节点组各自对应的适配性分配,便于节省计算资源来实现各节点组内POD调度的负载均衡。每个POD组资源需求总量小于且最接近节点组量上限值,使得POD组的资源需求与节点组的资源量相匹配,避免出现节点组资源不足无法调度的情况。每个POD组各POD之间存在高关联度,使得同一组内的POD存在来自同一应用或互相存在依赖关系的情况,在进行节点组内POD调度时能够更加方便地使用亲和或反亲和策略,提高容器的调度效率。而将特殊资源节点组分配给未分配的其他POD组和根据POD活跃度进行节点迁移,都能在不影响POD运行的同时,高效利用节点的碎片资源,提高节点的资源利用率。
下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
本申请实施例提供的技术方案可以适用于容器集群中,例如基于kubernetes框架的容器云平台。如图1所示,为本申请实施例提供的一种应用场景示意图,在该场景中,可以包括由用户终端101、容器集群调度设备102、集群节点设备103。
用户终端101可以为手机、个人计算机(personal computer,PC)、平板电脑(PAD)、笔记本电脑、台式电脑、移动互联网设备(Mobile Internet Device,MID)等任意能与服务器进行连接,为用户提供本地服务的设备均可,本实施例不作具体限定。
容器集群调度设备102可以是容器集群中的管理设备,用于实现对容器的部署、管理和监控等功能。
集群节点设备103为通过容器集群的代理程序,提供调度的POD的必要运行环境,其可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、即内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
需要说明的是,图1所示只是举例说明,实际上集群节点设备、用户端终端、集群节点设备的数量不受限制,在本申请实施例中不做具体限定。且图1所示的组件和结构只是示例性的,而非限制性的,在实际场景中根据需要,还可以具有其他组件和结构。
如图2所示,为本申请实施例提供的容器集群调度设备102的系统架构图,在该架构中,可以包括控制模块1021、缓存模块1022、节点分组模块1023、POD分组模块1024、一级调度模块1025、二级调度模块1026。应当注意,图1所示的容器集群调度设备102的组件和结构只是示例性的,而非限制性的,在实际场景中根据需要,还可以具有其他组件和结构。
(1)控制模块1021,用于接收用户终端触发的容器调度请求,通过列表监视机制,获取请求指示的容器数据信息以此创建待调度POD。还可将从集群服务器获取到的节点信息和创建的待调度POD信息分别传输至节点分组模块1023、POD分组模块1024,以供进行后续调度流程。
(2)缓存模块1022,用于进行整个容器集群调度设备102的数据缓存,上述其他模块在一级和二级调度过程中产生的中间调度数据都将暂存于缓存模块,例如节点分组模块1023产生的节点组信息,POD分组模块1024产生的POD组列表信息,一级调度模块1025产生的一级调度结果信息。
(3)节点分组模块1023,用于从控制模块1021获取节点数据信息,动态地根据节点属性对节点进行分组,并将分组结果存入缓存模块1022。
(4)POD分组模块1024,用于从控制模块1021获取待调度POD的数据信息,按照预设分组规则对POD进行分组,生成的POD组列表并存入缓存模块1022。
(5)一级调度模块1025,用于从缓存模块1022中获取节点组信息和POD组列表信息,为每个POD组分配对应的节点组,将POD组批量调度绑定至节点组。
(6)二级调度模块1026,用于在一级调度模块1025完成大粒度批量调度后,针对每个POD组包含的各个POD,从POD组调度绑定的节点组中确定出对应的目标节点,并将每个POD绑定至对应的目标节点。
应当注意,图2所示只是举例说明,实际上控制模块、缓存模块、节点分组模块、POD分组模块、一级调度模块、二级调度模块的数量不受限制,在本申请实施例中不做具体限定。且图2所示的系统架构图的组件和结构只是示例性的,而非限制性的,在实际场景中根据需要,还可以具有其他组件和结构。
在一种可能的实施方式中,容器集群调度设备通过一个一级调度模块,负责POD组批量调度绑定至节点组,而二级调度模块与节点组的数量相等且一一对应,每个二级调度模块负责与其对应的节点组的POD调度。
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的容器集群调度方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
参见图3所示,为本申请实施例提供的容器集群调度方法的流程示意图,这里是以容器集群调度平台为执行主体为例进行举例说明的,该方法的具体实施流程如下:
步骤301:基于接收的容器调度请求,创建多个POD,所述调度请求用于指示所述多个POD的资源需求。
本申请实施例中,在用户端进行相关业务操作时,会触发实现业务功能所需多个容器的调度请求,控制模块处理接收到的容器调度请求,分析获得请求指示的多个容器所需资源,根据容器资源需求创建多个POD,其中一个POD包含实现同一业务功能的一个及以上数量的容器。
在一种可能的实施方式中,以Kubernetes容器集群为例,控制模块可以沿用原生Kubernetes的Informer通知器设计,其中Informer通知器是Kubernetes的一个核心工具包,Kubernetes组件通过Informer通知器提供的list-watch功能和get获取功能获取到资源对象的最新数据信息。控制模块从集群服务器获取调度请求相关的数据信息,例如此次调度容器的应用程序代码、工具库、运行环境和运行所需的设置和依赖项等,进行相应的POD创建流程,可以将创建的POD存储至缓存模块,也可直接作为POD分组模块的输入。
步骤302:基于各个POD的资源需求和各节点组所能提供的资源量上限值,对所述多个POD进行分组,获得多个POD组,每个POD组包含至少一个POD。
本申请实施例中,POD分组模块根据各个POD的资源需求和各节点组所能提供的资源量上限值进行分组,使分组获得的多个POD组满足如下条件:
(1)每个POD组具有相同的资源需求。
具体的,POD的资源需求可以包括但不限于运行POD容器需占用的存储资源、CPU资源、磁盘资源等,POD分组模块按照相同资源需求将创建的多个POD划分为多组,以使每个POD组具有相同的资源需求。通过此种方法,可以将具有特殊GPU、高性能磁盘等特定资源需求的POD划分为一组,便于后续进行批量调度至具有特殊资源的节点组,充分利用具有特殊资源的节点。
(2)每个POD组的资源需求总量小于或者等于节点组的资源量上限值,且资源需求总量与节点组的资源量上限值之间的差值不超过第三预设差值阈值。
具体的,POD分组模块可以从控制模块获取节点组信息,并在分组时实时计算当前划分的POD组的资源需求总量,来比较节点组的资源量上限值与每个POD资源需求总量,保证每个POD组的资源需求总量小于或者等于节点组的资源量上限值,且资源需求总量与节点组的资源量上限值之间的差值不超过第三预设差值阈值。其中,为了进一步提高节点的资源利用率,通常会保证资源需求总量最接近节点组的资源量上限值。
(3)每个POD组中各个POD之间的关联度不低于预设关联度阈值。
具体的,两个POD之间的关联度表征两个POD来自同一应用或者互相有依赖关系的可能性,POD分组模块通过在分组时使每个POD组中各个POD之间关联度不低于预设关联度阈值,保证一组POD中各个POD之间互相具有高关联度,使得同一组内的POD尽可能来自同一应用或互相存在依赖关系,这样在进行节点组内POD调度的时候可以更加方便地使用亲和或反亲和策略,即将高关联度的POD调用至同一节点,POD的容器之间能够互相配合调用,提高容器调用效率,同时避免关联度低的POD被调用至同一节点,导致POD内容器运行时相关的运行环境或工具组件等互相排斥,产生冲突导致容器宕机。
在一种可能的实施方式中,节点分组模块可以通过添加标签的方式来实现对节点的分组,例如对同一个节点组内的节点都添加对应的节点组的序列号标签,一级和二级调度模块都可通过该标签来识别节点所属的节点组。
步骤303:从容器集群包含的节点组中,为每个POD组分配对应的节点组。
本申请实施例中,在一级调度模块为每个POD分配对应节点组前,节点分组模块会根据各个节点的节点属性对节点进行分组,使分组获得的多个节点组满足如下条件:
(1)每个节点组中的多个节点之间的资源属性相同。
具体的,节点的资源属性可以包括但不限于节点所对应的集群服务器的存储资源、CPU资源、磁盘资源等。控制模块从集群节点设备获取到各个节点对应的服务器的资源属性信息发送至分组模块,节点分组模块可以根据接收到的资源属性信息,将相同资源属性的节点划分为一组。通过此种方法,可以将具有特殊GPU、高性能磁盘等特定资源节点划分为多个特殊资源节点组,便于批量为多个有特殊资源需求的POD提供资源。
(2)每个节点组中的任意两个节点之间资源利用率之间的差值不大于第一预设差值阈值。
具体的,控制模块能够通过list-watch机制,实现对各个节点的资源利用率进行列表式实时监控,并可以将某一时刻各个节点的资源利用率信息发送至节点分组模块。节点分组模块在分组时按照节点的资源利用率大小,使任意两个节点之间资源利用率之间的差值不大于第一预设差值阈值,即将资源利用率接近的节点划分为一组,以便后续进行节点组内POD调度,容器集群调度设备无需再花费更多的计算资源来进行节点的负载均衡,提高容器调度效率。
(3)每个节点组包含容器集群中的至少两种拓扑结构中的节点。
具体的,当各个服务器按照拓扑结构组成服务器集群时,控制模块可获取到各个节点对应的服务器所属的某一拓扑结构信息,并发送至节点分组模块。POD分组模块通过节点对应服务器所属的集群拓扑信息,在进行节点分组时,使得每个节点组都包含属于服务器集群不同拓扑结构的节点,以此实现当节点组某一拓扑的节点发生宕机时,其他拓扑的节点依旧能继续提供服务,保证节点组的高可用性。
在一种可能的实施方式中,节点分组模块会周期性地从控制模块获取各个节点组的资源利用率集合,每个节点组的资源利用率集合包含相应的节点组内每一个节点的资源利用率。当节点分组模块确定存在节点组的资源利用率合集中包含的最大值与最小值之间差值大于第二预设差值阈值时,第二预设差值阈值可以是最大值的10%,节点分组模块会对划分好的节点组进行分组调整,将调整后的节点分组作为最新节点分组供其他模块使用。
具体的,分组调整可以是仅对资源利用率合集中最大值与最小值之间差值超过预设阈值的节点组中的所有节点,按照原分组规则划分进其他节点组,也可以是对当前容器集群内所有节点组按照原分组规则进行重新分组。
本申请实施例中,节点一级调度模块根据从缓存模块中获取的节点组信息和POD组信息,为每个POD组分配对应的节点组,将POD组大粒度批量调度绑定至节点组。
具体的,一级调度模块会先将具有特殊资源的节点组分配给多个POD组中存在特定资源需求的POD组,再将其他普通资源节点组分配给除存在特定资源需求之外的其他POD组。而当其他POD组未分配到相应的普通资源节点组,一级调度模块会将特殊资源节点组分配给未分配的其他POD组,以保证所有pod能够正常运行,并且高效利用节点的碎片资源,提高节点的资源利用率。
步骤304:针对每个POD组包含的各个POD,分别从为POD组分配的节点组中确定出相应的目标节点,并将每个POD绑定至对应的目标节点。
本申请实施例中,在一级调度模块完成为POD组分配节点组的流程后,通过二级调度模块来实现每个POD组内各个POD调度绑定至对应目标节点的过程。
在一种可能的实施方式中,二级调度模块可以使用容器集群的原生调度器,例如,在Kubernetes容器集群中,二级调度模块可以使用Kubernetes的原生调度器,根据节点的负载均衡、资源利用率和高可用等考虑,来进行节点组内POD的调度绑定。
参考图4所示,为两级调度模块进行POD调度的示意图,其中一级调度模块根据从缓存模块获取的POD组的资源需求属性,将普通资源需求POD组和特殊资源需求POD组分别批量分配到对应的普通资源节点组和特殊资源节点组,二级调度模块通过考虑负载均衡和容灾策略等因素,将各个节点组内的POD绑定到指定的节点上。
在一种可能的实施方式中,当容器集群服务器的工作负载量低于预设负载阈值时,控制模块会通过list-watch机制,获取到每个POD当前时刻的活跃度,并判断其是否低于预设活跃度阈值,其中活跃度表征POD的资源需求的概率,或者资源需求扩展时的资源量。当控制模块判定存在目标POD的活跃度低于阈值时,二级调度模块会将该目标POD迁移至可用资源量低于预设资源量阈值的节点。具体的,控制模块可以周期性的从集群服务器获取其工作负载量,也可以通过事件触发获取,例如当接收到用户端有关服务器反应过慢的反馈时。
当POD容器对应业务功能的用户访问请求量增多时,该POD的扩容可能性也随之增加,相应表征POD资源需求的概率或资源需求扩展时的资源量的活跃度也随之提升,而没有扩容需求或者扩容需求资源量低的POD活跃度也低,此时可用资源低的节点就能满足低活跃度节点的资源需。因此为了保证POD正常运行,同时高效利用节点的碎片资源,可通过二级调度模块将活跃度低的POD迁移至可用资源量低的节点。
在一种可能的实施方式中,为了保证节点负载均衡同时,进一步提高节点的资源利用率,高可用性以及容器的调度效率,节点分组模块在进行节点分组时还可以结合节点的资源属性、资源利用率、所属容器集群的拓扑进行分组。参考图5所示,为本申请实施例提供的一种节点分组的流程示意图,该方法的具体实施流程如下:
步骤501:基于所述容器集群中具有特定资源的节点,获得至少一个特殊资源节点组。
本申请实施例中,节点分组模块直接将各个集群拓扑内具有特定资源的节点划分为特殊资源节点组,以便能够批量为多个具有特定资源需求的pod提供资源。
步骤502:基于各节点的资源利用率,对所述容器集群中除具有特定资源的节点之外的普通资源节点进行聚类处理,并根据聚类结果确定分组数量N。
本申请实施例中,节点分组模块对容器集群中除具有特定资源的节点之外的普通资源节点进行聚类处理,将获得的聚类结果作为普通资源节点组的组数。
一种可能的实施方式中,节点分组模块可以采用聚类算法中的肘方法,采用从控制单元获取容器集群内的普通资源节点数量和各个普通资源节点对应的资源利用率,通过以下公式确定节点组数:
Figure BDA0003760004190000151
其中,q为普通资源节点的类数,p为容器集群内的普通资源节点总数量,xij为第i类节点内的第j个节点的资源利用率,yi为第i类节点内所有节点的资源利用率的平均值,dist为容器集群内每个节点与其所在类的资源使用率均值的差值之总和。根据上述公式结果得到对应的肘曲线图,该肘曲线的拐点对应的类数q为通过聚类算法获得的最终节点类数。假设容器集群拓扑数为t,最终确定的节点组数m为:
m=max{2,t,q}
其中,节点组数m是通过比较最终节点类数q、容器集群拓扑数t和数值2之间的大小,将最大值确定为最终的普通资源节点组数。
步骤503:分别对所述容器集群中每个拓扑结构中的普通资源节点,按照资源利用率从小到大的顺序进行排序,获得每个拓扑结构对应的普通资源节点队列。
本申请实施例中,节点分组模块为了保证普通资源节点组之间资源利用率之间的差值不大于第一预设差值阈值,且包含容器集群中的至少两种拓扑结构中的节点,将每个拓扑结构中普通资源节点组按照资源利用率从小到大的顺序排列成如图6所示的普通资源节点队列,以便进行后续的分组流程。
步骤504:分别对每个普通资源节点队列划分为N个子队列,每个子队列中的普通资源节点之间的顺序与相应的普通资源节点队列一致,任意两个子队列中其中一个子队列中资源利用率的最小值大于另一子队列中资源利用率的最大值。
本申请实施例中,参考图5所示,节点分组模块通过分别对每个拓扑的普通资源节点队列,按确定的节点分组数N划分为顺序与普通资源节点队列一致的N个子队列,从而保证每个子队列之间资源利用率之间的差值不大于第一预设差值阈值。
在一种可能的实施方式中,节点分组模块还可以通过从每个普通资源节点队列中,按照普通资源节点队列的顺序,抽取出一定数量的节点组成一个节点组,其中,抽取的节点数量是通过每个普通资源节点队列的节点总数与确定的节点分组数的比值确定的。这样既可以使每个节点组都尽可能包含来自不同拓扑中的节点,又保证每个节点组中的节点资源利用率是相近的,这样在进行节点组内POD调度的时候可以保证节点的高可用,满足负载均衡需求。
步骤505:将各普通资源节点队列对应的N个子队列中,位置对应的子队列包括的节点进行组合,获得N个普通资源节点组。
本申请实施例中,参考图5所示,节点分组模块将每个拓扑的普通资源节点队列对应的N个子队列中,位置对应的子队列包括的节点进行组合,获得N个普通资源节点组,使得每个节点组都包含来自不同拓扑中的节点,又保证每个节点组中的节点的资源利用率相近,保证了节点的高可用性,同时满足节点组内POD调度的负载均衡需求。
在一种可能的实施方式中,节点分组模块还可以通过分别从每个普通资源节点队列中,按照普通资源节点队列的顺序抽取出一定数量的节点组成一个节点组,最终获得N个普通资源节点组。其中,抽取的节点数量是通过每个普通资源节点队列的节点总数与确定的节点分组数的比值确定的。
具体的,参考图6所示,为对集群拓扑内的节点进行分组的示意图,其中,该示例集群包含3个拓扑结构,其中拓扑1包含4个普通资源节点和1个具有特定资源的节点,拓扑2包含3个普通资源节点和1个具有特定资源的节点,拓扑3包含有2个普通资源节点和1个具有特定资源的节点,图示两种节点矩形中的黑色区域面积代表节点的资源利用率。
以确定的节点组数等于2为例,节点分组模块会将3个拓扑内具有特定资源的节点直接划分为一个特殊资源节点组,对于每个拓扑其他的普通资源节点,节点分组模块会将其按照资源利用率从小到大的顺序进行排列,获得3个拓扑结构中对应的3个普通资源节点队列。再按照普通资源节点队列的顺序,将3个普通资源节点队列分别划分为2个子队列,按照普通资源节点队列顺序把3个拓扑中位置对应的子队列包括的节点进行组合,获得2个普通资源节点组。在一种可能的实施方式中,参考图7所示,为一种节点分组模块的分组流程图,该方法的具体实施步骤如下:
步骤701:确定容器集群内所有节点需要划分的组数。
步骤702:基于节点的资源利用率大小,对每个集群拓扑中的节点按节点的资源利用率从小到大进行排序,获得每个集群拓扑对应的节点队列。
步骤703:按比例分别从每个集群拓扑对应的节点队列中抽取出一定数量的节点组成一个节点组,获得多个节点组,其中抽取的节点数量是通过节点总数与组数的比值确定的。
步骤704:为每个节点组添加节点组序列号标签,并对同一个节点组内的节点都添加对应的节点组序列号标签。
步骤705:判断容器集群内是否产生新节点,如果是,执行步骤706-707。如果否,执行步骤708。
步骤706:获取新节点的资源利用率,并与集群内原有节点的资源利用率进行比较,确定与新节点资源利用率之间差值最小的原有节点。
步骤707:查询该节点的节点组序列号标签,将新节点划分进该序列号标签对应的节点组。
步骤708:判断是否存在节点组内节点资源利用率的最大值与最小值间的差值大于第二预设差值阈值的节点组,如果是,执行步骤701。
在一种可能的实施方式中,参考图8所示,为一种容器集群调度过程的流程图,该方法的具体实施步骤如下:
步骤801:将容器集群内的所有节点进行分组,获得多个节点组。
步骤802:判断是否接收到容器调度请求,若是,执行步骤803,若否,结束调度。
步骤803:根据容器调度请求创建多个POD。
步骤804:根据各个POD的资源需求,对多个POD进行分组,获得多个POD组。
步骤805:判断是否存在特殊资源需求POD组,若是,执行步骤806,若否,执行步骤807。
步骤806:将具有特殊资源的节点组分配给特殊资源需求POD组。
步骤807:将普通资源节点组分配给普通资源需求POD组。
步骤808:判断是否存在未分配到普通资源节点组的普通资源需求POD组,若是,执行步骤809,若否,执行步骤810。
步骤809:将具有特殊资源的节点组分配给未分配的普通资源需求POD组。
步骤810:从为各个POD组分配的节点组中确定出相应的目标节点,将每个POD绑定至对应的目标节点。
步骤811:判断容器集群服务器的工作负载量是否低于预设负载阈值,若是,执行步骤812,若否,执行步骤815。
步骤812:判断是否存在POD组的活跃度低于预设活跃度阈值,若是,执行步骤813,若否,执行步骤815。
步骤813:根据各个POD的活跃度大小对多个POD进行分组,获得多个POD组。
步骤814:将活跃度低于预设活跃度阈值的POD组分配给可用资源量低于预设资源量阈值的节点组。
步骤815:判断是否存在节点组内节点资源利用率的最大值与最小值间的差值大于第二预设差值阈值的节点组,若是,执行步骤801,若否,执行步骤802。
综上所述,本申请实施例提出一种分级pod调度方法,增加批量调度算法,实现pod批量调度,目的是在满足资源均衡的基础上提高集群中容器的调度效率,分散中心调度器的压力,同时使资源利用率更高。具体的,通过两级调度器机制的设计,分级调度,提高调度效率,减轻调度器压力,Node分组算法,综合考虑node资源特殊性和资源使用率,并加入node拓扑特性,运行过程中动态分组,此外,Pod分组算法,分创建时分组和运行时分组两个阶段,按照pod活跃度分组的策略,并在Pod运行过程中对集群碎片资源整理,进一步提升了资源利用率。
请参见图9,基于同一发明构思,本申请实施例还提供了一种容器集群调度装置90,该装置包括:
创建单元901,用于基于接收的容器调度请求,创建多个POD,调度请求用于指示多个POD的资源需求;
分组单元902,用于基于各个POD的资源需求和各节点组所能提供的资源量上限值,对多个POD进行分组,获得多个POD组,每个POD组包含至少一个POD;
分配单元903,用于从容器集群包含的节点组中,为每个POD组分配对应的节点组;
绑定单元904,用于针对每个POD组包含的各个POD,分别从为POD组分配的节点组中确定出相应的目标节点,并将每个POD绑定至对应的目标节点。
可选的,分组单元902,具体用于:
基于容器集群包括的各个节点的节点属性,对各个节点进行分组,获得多个节点组;
其中,每个节点组中的多个节点之间的节点属性存在如下关系中的一种或者多种:
资源属性相同;
资源利用率之间的差值不大于第一预设差值阈值;
包含容器集群中的至少两种拓扑结构中的节点。
可选的,分组单元902,具体用于:
基于所述容器集群中具有特定资源的节点,获得至少一个特殊资源节点组;
基于各节点的资源利用率,对所述容器集群中除具有特定资源的节点之外的普通资源节点进行聚类处理,并根据聚类结果确定分组数量N;
分别对所述容器集群中每个拓扑结构中的普通资源节点,按照资源利用率从小到大的顺序进行排序,获得每个拓扑结构对应的普通资源节点队列;
分别对每个普通资源节点队列划分为N个子队列,每个子队列中的普通资源节点之间的顺序与相应的普通资源节点队列一致,任意两个子队列中其中一个子队列中资源利用率的最小值大于另一子队列中资源利用率的最大值;
将各普通资源节点队列对应的N个子队列中,位置对应的子队列包括的节点进行组合,获得N个普通资源节点组。
可选的,分组单元902,具体用于:
分别针对多个节点组中各个节点组,获取各个节点组的资源利用率集合,资源利用率集合包含相应节点组内每一个节点的资源利用率;
针对每个资源利用率集合,若包含的最大值与最小值之间的差值大于第二预设差值阈值,则对多个节点组进行分组调整,获得调整后的多个节点组。
可选的,分组单元902,具体用于:
对多个POD进行分组,获得多个POD组,多个POD组满足如下条件的一种或者多种:
每个POD组具有相同的资源需求;
每个POD组的资源需求总量小于或者等于资源量上限值,且资源需求总量与资源量上限值之间的差值不超过第三预设差值阈值;
每个POD组中各个POD之间的关联度不低于预设关联度阈值。
可选的,分配单元903,具体用于:
将容器集群包含的特殊资源节点组,分配给多个POD组中存在特定资源需求的POD组;
将容器集群包含的普通资源节点组,分配给多个POD组中除存在特定资源需求的POD组之外的其他POD组;
若存在其他POD组未分配到相应的普通资源节点组,则将特殊资源节点组分配给未分配的其他POD组。
可选的,该装置还包括迁移单元905,具体用于:
当容器集群的负载低于预设负载阈值时,确定每个POD的活跃度是否低于预设活跃度阈值;活跃度表征POD的资源需求的概率,或者资源需求扩展时的资源量;
当存在目标POD的活跃度低于预设活跃度阈值时,将目标POD迁移至可用资源量低于预设资源量阈值的节点。
通过上述装置,根据接收到的容器调度请求指示的POD的资源需求,创建多个POD,通过POD的资源需求和节点组所能提供的资源量上限值,对创建的POD进行分组,再从容器集群包含的节点组中为每个POD组分配对应的节点组,并针对每个POD组包含的各个POD,分别从为POD组分配的节点组中确定出相应的目标节点,并将每个POD绑定至对应的目标节点。其中,本申请实施例所采用的容器集群调度方法,通过对POD和节点分别进行分组,再通过POD组到节点组的大粒度批量组调度和节点组内POD调度的分级调度机制,在满足节点负载均衡的基础上,通过分级调度提高容器集群的调度效率,同时减轻容器集群的原生调度器的负载压力,使得节点的资源利用率更高。
为了描述的方便,以上各部分按照功能划分为各单元模块(或模块)分别描述。当然,在实施本申请时可以把各单元(或模块)的功能在同一个或多个软件或硬件中实现。该装置可以用于执行本申请各实施例中所示的方法,因此,对于该装置的各功能模块所能够实现的功能等可参考前述实施例的描述,不多赘述。
请参见图10,基于同一技术构思,本申请实施例还提供了一种计算机设备。在一种实施例中,该计算机设备可以为图1所示的容器集群调度设备,该计算机设备如图10所示,包括存储器1001,通讯模块1003以及一个或多个处理器1002。
存储器1001,用于存储处理器1002执行的计算机程序。存储器1001可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器1001可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1001也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器1001是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1001可以是上述存储器的组合。
处理器1002,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1002,用于调用存储器1001中存储的计算机程序时实现上述容器集群调度方法。
通讯模块1003用于与后向传感器和其他服务器进行通信。
本申请实施例中不限定上述存储器1001、通讯模块1003和处理器1002之间的具体连接介质。本申请实施例在图10中以存储器1001和处理器1002之间通过总线1004连接,总线1004在图10中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1004可以分为地址总线、数据总线、控制总线等。为便于描述,图10中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器1001中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的容器集群调度方法。处理器1002用于执行上述各实施例的容器集群调度方法。
在一些可能的实施方式中,本申请提供的容器集群调度方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的容器集群调度方法中的步骤,例如,计算机设备可以执行各实施例的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本申请件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中,远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算装置,或者,可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种容器集群调度方法,其特征在于,所述方法包括:
基于接收的容器调度请求,创建多个POD,所述调度请求用于指示所述多个POD的资源需求;
基于各个POD的资源需求和各节点组所能提供的资源量上限值,对所述多个POD进行分组,获得多个POD组,每个POD组包含至少一个POD;
从容器集群包含的节点组中,为每个POD组分配对应的节点组;
针对每个POD组包含的各个POD,分别从为POD组分配的节点组中确定出相应的目标节点,并将每个POD绑定至对应的目标节点。
2.如权利要求1所述的方法,其特征在于,在基于各个POD的资源需求和各节点组所能提供的资源量上限值之前,所述方法还包括:
基于容器集群包括的各个节点的节点属性,对所述各个节点进行分组,获得多个节点组;
其中,每个节点组中的多个节点之间的节点属性存在如下关系中的一种或者多种:
资源属性相同;
资源利用率之间的差值不大于第一预设差值阈值;
包含所述容器集群中的至少两种拓扑结构中的节点。
3.如权利要求2所述的方法,其特征在于,所述基于容器集群包括的各个节点的节点属性,对所述各个节点进行分组,获得多个节点组,包括:
基于所述容器集群中具有特定资源的节点,获得至少一个特殊资源节点组;
基于各节点的资源利用率,对所述容器集群中除具有特定资源的节点之外的普通资源节点进行聚类处理,并根据聚类结果确定分组数量N;
分别对所述容器集群中每个拓扑结构中的普通资源节点,按照资源利用率从小到大的顺序进行排序,获得每个拓扑结构对应的普通资源节点队列;
分别对每个普通资源节点队列划分为N个子队列,每个子队列中的普通资源节点之间的顺序与相应的普通资源节点队列一致,任意两个子队列中其中一个子队列中资源利用率的最小值大于另一子队列中资源利用率的最大值;
将各普通资源节点队列对应的N个子队列中,位置对应的子队列包括的节点进行组合,获得N个普通资源节点组。
4.如权利要求2所述的方法,其特征在于,在所述基于容器集群包括的各个节点的节点属性,对所述各个节点进行分组,获得多个节点组之后,包括:
分别针对所述多个节点组中各个节点组,获取各个节点组的资源利用率集合,所述资源利用率集合包含相应节点组内每一个节点的资源利用率;
针对每个资源利用率集合,若包含的最大值与最小值之间的差值大于第二预设差值阈值,则对所述多个节点组进行分组调整,获得调整后的多个节点组。
5.如权利要求1所述的方法,其特征在于,在将每个POD绑定至对应的目标节点之后,所述方法还包括:
当所述容器集群的负载低于预设负载阈值时,确定每个POD的活跃度是否低于预设活跃度阈值;所述活跃度表征POD的资源需求的概率,或者资源需求扩展时的资源量;
当存在目标POD的活跃度低于所述预设活跃度阈值时,将所述目标POD迁移至可用资源量低于预设资源量阈值的节点。
6.如权利要求1所述的方法,其特征在于,基于各个POD的资源需求和各节点组所能提供的资源量上限值,对所述多个POD进行分组,获得多个POD组,包括:
对所述多个POD进行分组,获得多个POD组,所述多个POD组满足如下条件的一种或者多种:
每个POD组具有相同的资源需求;
每个POD组的资源需求总量小于或者等于所述资源量上限值,且所述资源需求总量与所述资源量上限值之间的差值不超过第三预设差值阈值;
每个POD组中各个POD之间的关联度不低于预设关联度阈值。
7.如权利要求6所述的方法,其特征在于,所述从容器集群包含的节点组中,为每个POD组分配对应的节点组,包括:
将所述容器集群包含的特殊资源节点组,分配给所述多个POD组中存在特定资源需求的POD组;
将所述容器集群包含的普通资源节点组,分配给所述多个POD组中除存在特定资源需求的POD组之外的其他POD组;
若存在所述其他POD组未分配到相应的普通资源节点组,则将特殊资源节点组分配给未分配的其他POD组。
8.一种容器集群调度装置,其特征在于,包括:
创建单元,用于基于接收的容器调度请求,创建多个POD,所述调度请求用于指示所述多个POD的资源需求;
分组单元,用于基于各个POD的资源需求和各节点组所能提供的资源量上限值,对所述多个POD进行分组,获得多个POD组,每个POD组包含至少一个POD;
分配单元,用于从容器集群包含的节点组中,为每个POD组分配对应的节点组;
绑定单元,用于针对每个POD组包含的各个POD,分别从为POD组分配的节点组中确定出相应的目标节点,并将每个POD绑定至对应的目标节点。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1~7任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法的步骤。
CN202210869509.4A 2022-07-21 2022-07-21 容器集群调度的方法、装置、设备及存储介质 Pending CN115408100A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210869509.4A CN115408100A (zh) 2022-07-21 2022-07-21 容器集群调度的方法、装置、设备及存储介质
PCT/CN2022/141606 WO2024016596A1 (zh) 2022-07-21 2022-12-23 容器集群调度的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210869509.4A CN115408100A (zh) 2022-07-21 2022-07-21 容器集群调度的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115408100A true CN115408100A (zh) 2022-11-29

Family

ID=84157725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210869509.4A Pending CN115408100A (zh) 2022-07-21 2022-07-21 容器集群调度的方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN115408100A (zh)
WO (1) WO2024016596A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116132447A (zh) * 2022-12-21 2023-05-16 天翼云科技有限公司 一种基于Kubernetes的负载均衡方法及其装置
CN116483547A (zh) * 2023-06-21 2023-07-25 之江实验室 资源调度方法、装置、计算机设备和存储介质
CN117170811A (zh) * 2023-09-07 2023-12-05 中国人民解放军国防科技大学 一种基于volcano的节点分组作业调度方法及系统
WO2024016596A1 (zh) * 2022-07-21 2024-01-25 天翼云科技有限公司 容器集群调度的方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117729204B (zh) * 2024-02-06 2024-05-10 山东大学 一种基于监控感知的k8s容器调度方法及系统
CN117971505B (zh) * 2024-03-29 2024-06-07 苏州元脑智能科技有限公司 部署容器应用的方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228354B (zh) * 2017-12-29 2022-03-18 杭州朗和科技有限公司 调度方法、系统、计算机设备和介质
US10613961B2 (en) * 2018-02-05 2020-04-07 Red Hat, Inc. Baselining for compute resource allocation
CN112905297A (zh) * 2019-12-03 2021-06-04 中国电信股份有限公司 容器集群资源调度方法和装置
CN113204428B (zh) * 2021-05-28 2023-01-20 北京市商汤科技开发有限公司 资源调度方法、装置、电子设备以及计算机可读存储介质
CN114706596B (zh) * 2022-04-11 2023-12-01 中国电信股份有限公司 容器部署方法、资源调度方法、装置、介质和电子设备
CN115408100A (zh) * 2022-07-21 2022-11-29 天翼云科技有限公司 容器集群调度的方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024016596A1 (zh) * 2022-07-21 2024-01-25 天翼云科技有限公司 容器集群调度的方法、装置、设备及存储介质
CN116132447A (zh) * 2022-12-21 2023-05-16 天翼云科技有限公司 一种基于Kubernetes的负载均衡方法及其装置
CN116483547A (zh) * 2023-06-21 2023-07-25 之江实验室 资源调度方法、装置、计算机设备和存储介质
CN117170811A (zh) * 2023-09-07 2023-12-05 中国人民解放军国防科技大学 一种基于volcano的节点分组作业调度方法及系统

Also Published As

Publication number Publication date
WO2024016596A1 (zh) 2024-01-25

Similar Documents

Publication Publication Date Title
CN115408100A (zh) 容器集群调度的方法、装置、设备及存储介质
CN114138486B (zh) 面向云边异构环境的容器化微服务编排方法、系统及介质
US9998531B2 (en) Computer-based, balanced provisioning and optimization of data transfer resources for products and services
US10701154B2 (en) Sharding over multi-link data channels
CN112600761A (zh) 一种资源分配的方法、装置及存储介质
Ghoneem et al. An adaptive MapReduce scheduler for scalable heterogeneous systems
US10990519B2 (en) Multi-tenant cloud elastic garbage collector
US10776173B1 (en) Local placement of resource instances in a distributed system
Shu-Jun et al. Optimization and research of hadoop platform based on fifo scheduler
US11861386B1 (en) Application gateways in an on-demand network code execution system
JP2018190355A (ja) リソース管理方法
JP6158751B2 (ja) 計算機資源割当装置及び計算機資源割当プログラム
Ru et al. Providing fairer resource allocation for multi-tenant cloud-based systems
Pasdar et al. Data-aware scheduling of scientific workflows in hybrid clouds
Li et al. On scheduling of high-throughput scientific workflows under budget constraints in multi-cloud environments
Sarma et al. A survey on load balancing algorithms in cloud computing
CN111858051B (zh) 一种适合边缘计算环境的实时动态调度方法、系统和介质
CN115878309A (zh) 资源分配方法、装置、处理核、设备和计算机可读介质
US10887381B1 (en) Management of allocated computing resources in networked environment
US11233847B1 (en) Management of allocated computing resources in networked environment
US9176910B2 (en) Sending a next request to a resource before a completion interrupt for a previous request
Li et al. Cost-and time-based data deployment for improving scheduling efficiency in distributed clouds
Sutagundar et al. Development of fog based dynamic resource allocation and pricing model in IoT
CN109558214A (zh) 异构环境下宿主机资源管理方法、装置和存储介质
Das et al. An approach towards development of a migration enabled improved datacenter broker policy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination