CN118069292A - 调度容器的方法、装置、电子设备和计算机程序产品 - Google Patents

调度容器的方法、装置、电子设备和计算机程序产品 Download PDF

Info

Publication number
CN118069292A
CN118069292A CN202410195229.9A CN202410195229A CN118069292A CN 118069292 A CN118069292 A CN 118069292A CN 202410195229 A CN202410195229 A CN 202410195229A CN 118069292 A CN118069292 A CN 118069292A
Authority
CN
China
Prior art keywords
container
task
containers
tasks
task queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410195229.9A
Other languages
English (en)
Inventor
陈利飞
史少晨
牟贞亮
徐迟
沙正菊
王振振
吴迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Original Assignee
Douyin Vision Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd filed Critical Douyin Vision Co Ltd
Priority to CN202410195229.9A priority Critical patent/CN118069292A/zh
Publication of CN118069292A publication Critical patent/CN118069292A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例涉及用于调度容器的方法、装置、电子设备和计算机程序产品。该方法包括基于任务队列的任务数、预定容器数以及容器进程数,确定期望容器数。该方法还包括响应于当前容器数小于期望容器数,调度用于执行所述任务队列中的任务新容器。该方法还包括当容器上的任务被执行完成时,自动回收空闲的容器。由此,通过考虑任务队列中的实际任务数,能够更准确地反映系统的工作负载,通过考虑容器可以执行的进程数,能够更有效地利用每个容器的计算资源,通过考虑预定容器数,能够满足用户的使用需求,由此能够更精细地调度容器,提高了系统的适应性和弹性,更快地响应队列中的新增任务,确保资源利用的最大化,同时有效地控制运行成本。

Description

调度容器的方法、装置、电子设备和计算机程序产品
技术领域
本公开的实施例涉及计算机领域,并且更具体地,涉及用于调度容器的方法、装置、电子设备和计算机程序产品。
背景技术
云服务是当今信息技术领域的关键技术,能够提供灵活、可扩展的计算和存储资源。通过云服务,用户能够实现按需获取计算能力、存储大规模数据、部署应用的无缝体验。这种模式不仅降低了IT基础设施的成本,还提高了业务的敏捷性和创新力。
在云服务中,容器调度是至关重要的技术,通过它实现了高效的资源利用和灵活的应用部署。容器调度器能够智能地分配和管理容器化应用,确保它们在云环境中以最优方式运行。这种自动化调度提高了系统的弹性,使用户能够更有效地应对变化的工作负载和业务需求。
发明内容
本公开的实施例提供了一种用于调度容器的方法、装置、电子设备、计算机程序产品以及介质。
根据本公开的第一方面,提供了一种用于调度容器的方法。该方法包括基于任务队列的任务数、预定容器数以及容器进程数,确定期望容器数。此外,该方法还包括响应于当前容器数小于所述期望容器数,调度新容器,所述新容器用于执行所述任务队列中的任务。
根据本公开的第二方面,提供了一种用于调度容器的装置。该装置包括期望容器确定单元,被配置为基于任务队列的任务数、预定容器数以及容器进程数,确定期望容器数。此外,该装置还包括新容器调度单元,被配置为响应于当前容器数小于所述期望容器数,调度新容器,所述新容器用于执行所述任务队列中的任务。
根据本公开的第三方面,提供了一种电子设备。该电子设备包括处理器以及与处理器耦合的存储器,存储器具有存储于其中的指令,指令在被处理器执行时使电子设备执行根据第一方面所述的方法。
在本公开的第四方面中,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括机器可执行指令,其中机器可执行指令在被执行时使机器执行以实现根据第一方面所述的方法。
在本公开的第五方面中,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行以实现根据第一方面所述的方法。
发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其它特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1图示了根据本公开的实施例的设备和/或方法可以在其中被实施的示例环境的示意图;
图2示出了根据本公开的实施例的用于调度容器的方法的流程图;
图3示出了根据本公开的实施例的混合云平台的示意图;
图4示出了根据本公开的实施例的任务状态机的示意图;
图5示出了根据本公开的实施例的操作时序图的示意图;
图6示出了根据本公开的实施例的用于调度容器的装置的框图;以及
图7示出了根据本公开的某些实施例的电子设备的框图。
在所有附图中,相同或相似参考数字表示相同或相似元素。
具体实施方式
可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包括,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象,除非明确说明。下文还可能包括其它明确的和隐含的定义。
如前所述,云计算服务中的容器调度非常重要,而现有的云计算服务在进行容器调度时,往往根据前端请求量进行扩容,而以前端请求数作为的扩容依据可能无法准确反映系统的实际工作负载,特别是在存在异步任务、长时间运行的任务或任务队列中积压任务的情况下,会导致在系统空闲或负载较低时过度分配资源导致资源浪费,而且可能导致在短时间内突发的高负载情况下响应不及时,影响任务执行。
为此,本公开的实施例提出了一种用于调度容器的方案,该方案通过任务队列中存在的任务数、预定容器数以及容器可以执行的进程数,确定消费任务队列的期望容器数,并且当判断消费任务队列的当前容器数小于期望容器数时,调度新容器来消费任务队列中的任务。
由此,通过考虑任务队列中的实际任务数,能够更准确地反映系统的工作负载,通过考虑容器可以执行的进程数,能够更有效地利用每个容器的计算资源,通过考虑预定容器数,能够满足用户的使用需求,由此能够更精细地调度容器,提高了系统的适应性和弹性,更快速地响应任务队列中的新增任务,确保资源利用的最大化,减少资源浪费,同时有效地控制运行成本。
以下参考图1至图7来说明本公开的基本原理和若干示例实现方式。应当理解,给出这些示例性实施例仅是为了使本领域技术人员能够更好地理解进而实现本公开的实施例,而并非以任何方式限制本公开的范围。
图1图示了根据本公开的实施例的设备和/或方法可以在其中被实施的示例环境100的示意图。如图1所示,示例环境100中包括调度系统120,调度系统120可以包括服务器122。在一些实施例中,服务器122可以为超文本传输协议(HTTP)服务器。服务器122可以为用户110提供配置接口来对调度系统120进行增删改查等操作。
调度系统120还可以包括任务队列124,用户110可以通过服务器122向任务队列中添加多个任务。例如,可以向队列124添加任务126、任务128、任务130以及任务132。应当理解,此处示出4个任务仅出于示例的目的,实际上任务队列中可以有更少或更多个任务,并且此处仅示出一个任务队列,实际上可以同时存在更多个任务队列。
用户110在通过服务器122对调度系统120进行配置时,可以配置任务队列124的对象参数。例如,可以配置name(队列名称)、user(创建者)、size(当前长度)、created_at(创建时间)以及updated_at(更新时间)等参数。此外,还可以配置任务队列124中的任务的对象参数。例如,可以配置name(任务名称)、label(任务标签)、cmd(执行命令)、state(任务状态)、exit_code(退出状态码)等参数。用户110可以通过cmd参数执行目标脚本。例如,用户需要执行科学计算任务时,可以上传需要执行的计算的程序脚本(例如,以Python代码编写),调度系统120可以通过cmd参数来执行该程序脚本。
继续参考图1,当任务被提交到任务队列124中,并且用户110已经配置了相关参数之后,服务器122可以将相关参数保存在数据库134中。然后,控制器136可以调用数据库134中保存的参数来创建调用程序,以从调度云服务140调度容器来执行任务队列124中的多个任务。在一些实施例中,云服务140可以为函数即服务(Function as a Service,FaaS),其以事件驱动的方式执行函数(代码片段),并动态地提供计算资源,无需开发者关心底层的服务器和基础设施。在FaaS中,开发者将函数上传到云平台,当触发特定事件时,云服务提供商自动调用并执行相应的函数,完成任务后释放资源。
容器组(Pod)是调度系统120可部署和可扩展的最小的计算单元,其通常包含一个或多个相关的容器,容器之间共享相同的网络命名空间、IP地址和端口空间。应当理解,本公开的实施例在描述中省略了容器组的描述,默认每个容器组中仅有一个容器,本公开对于容器的调度同样可以应用于对容器组的调度。用户110在配置调度系统120,同时可以配置容器以及调用程序的对象参数。例如,用户110针对容器可以配置id(容器标识符)、name(容器名称)、queue_id(容器所属队列)以及processes(容器进程数),其中容器进程数可以执行容器最大并行运行的任务数量。
此外,用户110针对调用程序可以配置id(标识符)、spec_id(容器标识符)、queue_id(队列标识符)、min(最小容器数)、max(最大容器数),其中min和max都是用户110配置的预定容器数。例如,用户110可以通过max指定执行任务队列124的最大容器数,如果任务队列124中的任务不紧急的话,用户可以将max调整到较小的数值(例如2),来指定最多需要2个容器来执行任务,即可以通过max参数来限制低优先级任务使用的计算资源上限,从而节省计算资源。此外,用户110可以通过min参数指定执行任务队列124的最小容器数,如果任务队列124中的任务比较紧急或者计算量大的话,用户可以将min参数调整到较大的数值(例如10),来指定最少需要10个容器来执行任务,即可以通过min参数来保证高优先级任务使用的计算资源的下限,这样可以保证高优先级任务的执行效率。调用程序还可以包括desire(期望容器数)以及curr(期望容器数),其中期望容器数是根据预定容器数、任务数和容器进程数计算的期望创建的容器数,会实时动态更新;实际容器数是当前集群实际运行的容器数,会实时动态更新。应当理解,调度系统120可以根据期望容器数向云服务140来申请容器,然后实际上可能由于计算资源等因素并未达到期望容器数,而是以实际容器数来运行任务。
继续参考图1,用户110向队列124中添加了四个任务,并且配置容器进程数processes=1,最大容器数max=8,控制器136可以计算出期望容器数为4。由于云服务140计算资源不足等原因,在初始时仅调度容器142、容器144以及容器146来执行任务队列124,即实际容器数为3。控制器136可以持续监控任务队列、调用程序以及云服务的情况,并且确定期望容器数大于实际容器数,因此可以再调度新容器148来执行任务。
图2示出了根据本公开的实施例的用于调度容器的方法200的流程图。参考图2,在框202处,可以基于任务队列的任务数目、预定容器数以及容器进程数,确定期望容器数。例如,结合图1所示,调度系统120可以基于任务队列124中的任务数目、用户110配置的预定容器数以及容器进程数,来确定期望容器数。
在框204处,可以响应于当前容器数小于期望容器数,调度新容器,新容器用于执行任务队列中的任务。例如,结合图1所示,可以确定同于执行任务队列124的期望容器数为4,而当前正在执行任务队列124的实际的当前容器数为3,因此当期望容器数大于当前容器数时,可以调度新容器148来执行任务队列124中的任务。
由此,通过考虑任务队列中的实际任务数,能够更准确地反映系统的工作负载,通过考虑容器可以执行的进程数,能够更有效地利用每个容器的计算资源,通过考虑预定容器数,能够满足用户的使用需求,由此能够更精细地调度容器,提高了系统的适应性和弹性,更快速地响应任务队列中的新增任务,确保资源利用的最大化,减少资源浪费,同时有效地控制运行成本。
图3示出了根据本公开的实施例的混合云平台300的示意图。如图3所示,混合云平台300包括容器编排平台302,容器编排平台302可以有效地管理和协调容器化应用程序的部署、扩展和运维,使得应用程序在不同环境中能够一致运行。容器编排平台302可以整合和调用混合云环境中的各类算力资源,包括自有算力320、公有云330以及私有云340。在一些实施例中,可以通过虚拟节点技术,将自有算力320接入到容器编排平台320,以便于容器编排平台320的统一监管和调度。
通过虚拟节点技术,可以将自有算力320中的站内弹性算力322设置为容器组资源无限的编排节点,以通过虚拟节点324接入到容器编排平台302。此外,还可以接入公有云330,例如裸金属虚拟机332可以通过代理334接入容器编排平台302,弹性容器336可以通过虚拟节点338接入容器编排平台302;还可以接入私有云340,例如裸金属虚拟机342可以通过代理344接入容器编排平台302。结合图1所述,混合云310可以为图1所示的云服务140,并且用户110可以向混合云310提交科学计算任务,因此可以支持分布式地在混合云310上调度科学计算任务。
由此,根据本公开的实施例的混合云平台300由于通过虚拟节点技术整合了自有算力、公有云和私有云,相比于仅具有公有云和私有云的云服务,由于自有算力成本较低,因此降低了算力成本,此外扩充了算力池,因此提高了执行效率,并且系统可以更灵活地应对不同工作负载的变化,通过动态分配自有算力和云端资源,实现更好的适应性和弹性。
图4示出了根据本公开的实施例的任务状态机400的示意图。如图4所示,在框402处,表示状态机的起始状态。通过提交动作之后,在框404处,转换为等待处理(pending)状态。例如,结合图1所示,用户可以通过服务器122向任务队列124提交任务,任务队列124中的任务处于等待处理状态。任务经过分发动作之后,可以转换为框406处的运行(running)状态。例如,结合图1所示,控制器136可以将任务队列124中的任务分发到云服务140中的容器来执行任务。在任务处于运行状态时,经过中断容器动作之后,可以转换为框408中的中断(killed)状态。例如,结合图1所示,用户可以通过服务器122来中断容器,或者由于平台算力不足,导致一些容器被回收,都会执行中断容器动作。当任务处于中断状态时,可以通过执行重分发动作来使任务重新处于运行状态。
当任务处于运行状态时,如果执行超时,则会转换为框410中的超时(timeout)状态。例如,结合图1所述,用户110可以通过服务器122来配置任务参数,其中包括超时参数。当用户将超时参数设置为5S,而实际中超过5S还未执行完毕,则会出发执行超时,任务被转换为超时状态。在当任务处于运行状态,如果执行完成并且退出状态码不为0,则会转换为框412中的失败(failed)状态。在当任务处于运行状态,如果执行完成并且退出状态码为0,则会转换为框414中的成功(succeed)状态。例如,结合图1所述,用户110可以通过服务器122来配置任务参数,其中包括任务退出状态码参数。
继续参考图4,当任务处于运行状态,并且由用户停止之后,则转换为框416中的停止(stopped)状态。此外,当任务处于中断状态,并且由用户停止之后,可以转换为框416中的停止状态。例如,结合图1所示,任务处于运行状态时,用户110由于某些原因不再需要执行任务,可以通过服务器122来停止处于运行状态的任务,使得任务转换为停止状态,这样可以节省系统资源以及使用成本。此外,用户110可以通过查看发现任务已经处于中断状态时,通过服务器122来停止处于中断状态的任务,避免中断状态的任务被重分发。
此外,当任务处于运行状态,并且启动失败后,可以转换为框418中的启动失败(start_failed)状态。例如,启动失败通常是因为缺少某些环境变量以及库函数等原因,用户可以通过启动失败状态来排查任务失败的具体原因。当任务处于等待处理状态时,可以执行取消动作,使任务转换为框420中取消(canceled)状态。例如,结合图1所示,用户110在发现任务不再需要运行或者提交的任务不是目标任务等原因,通过服务器122来取消正处于等待处理状态的任务。
如图4所示,超时状态、失败状态、成功状态、停止状态、启动失败状态以及取消状态都转换为任务状态机的结束状态422。此外,任务处于结束状态时,可以通过重试任务来使任务转换为等待处理状态。例如,可以通过用户手动配置来重试任务,或者根据任务的重试参数来自动重试任务,例如重试参数为5次,那么可以自动执行5次任务重试。在图4中描述了根据本公开的实施例的任务状态机的转换逻辑,下面将在图5中结合任务状态机来描述用户的操作时序图。
图5示出了根据本公开的实施例的操作时序图500的示意图。在514处,用户502通过服务器504提供的接口来提交任务,创建任务队列,创建调用程序,以及提交容器配置。服务器504在接收用户502的请求之后,在516处向所创建的任务队列508添加任务。同时,服务器504可以将任务信息保存在数据库506中。例如,服务504在接收到用户502提交的多个任务之后,可以多个任务添加到队列508中。在一些实施例中,该任务可以为科学计算任务。科学计算作为人工智能的重要发展方向,已在物理建模、化学材料、地球科学、生命科学等领域取得了重大突破,其本身也需要规模庞大的异构计算和存储资源才能发挥作用。
在520处,运行在容器上进程管理器可以消费任务队列508。例如,进程管理器508可以根据容器配置来初始化容器,并且根据容器配置中的容器进程数来消费任务队列中的任务。在一些实施例中,容器进程数被配置为8,则每个容器可以最大并行执行8个任务,则进程管理器508每次可以从任务队列中消费8个任务。在522处,可以通过进程管理器在容器上并行执行任务。例如,当容器进程数为8时,可以从任务队列508获取8个任务来在容器上并行执行。
控制器512可以负责持续监控与调用程序相关的任务消费进度,并进动态扩缩容。在一些实施例中,任务队列中有10个任务,并且用户设置的预定容器数为12(最大容器数为12)。控制器512可以获取当前正在执行任务队列508的当前容器数为6,并且容器进程数为1。由于任务队列中有10个任务,并且容器进程数为1,那么控制器512可以计算出估计容器数为10,由于估计容器数满足预定容器数的要求,所以确定期望容器数为10。在一些实施例中,如用户设置的预定容器数为8(最大容器数为8),那么可以确定期望容器数为8而不是10。此外,比较期望容器数和实际容器数之后,当实际容器数小于期望容器数时,可以进行扩容操作,即调度新容器来执行任务队列508中的任务。在一些实施例中,调度的新容器的数目和实际容器数之和会向期望容器数趋近,但不一定等于期望容器数。例如,继续上述示例,确定当前容器数为6而期望容器数为10,控制器512会尝试调度4个新容器来执行该任务队列508,但是由于云服务的算力资源的变化,实际可能调度的新容器可能小于4个。
此外,在一些实施例中,任务队列中有10个任务,并且用户设置的预定容器数为12(最大容器数为12)。控制器512可以获取当前正在执行任务队列508的当前容器数为6,并且容器进程数为2。由于任务队列中有10个任务,并且容器进程数为2,那么控制器512可以计算出估计容器数为5,由于估计容器数满足预定容器数的要求,所以确定期望容器数为5。此外,比较期望容器数和实际容器数之后,当实际容器数大于期望容器数时,可以进行缩容操作,回收多余的容器以节省容器资源。在一些实施例中,当被回收的容器上有正在运行的任务时,可以将任务信息保存在数据库506中,然后根据所保存的任务信息来在其他容器上执行该任务。此外,进程管理器510可以定期将任务信息上传到数据库506中,因此如果某个容器发生故障或者任务异常时,可以通过数据库506中的任务信息在其他容器上恢复该任务。此外,在一些实施例中,当容器上的任务执行完成时,可以自动回收空闲容器。
继续参考图5,在524处,可以报告任务结果并记录日志。例如,当任务队列中的所有任务都被成功执行,那么可以包括全部执行成功的信息;或者当任务队列中的一些任务执行失败,可以报告失败任务的标识符等等。在526处,用户502可以从服务器查询任务结果。例如,用户502可以查询任务队列508的执行进度,也可以查询正在容器上执行的任务的执行状态,以及执行完成的任务信息等等。
在528处,可以用户502可以停止任务。例如,通过服务器504,用户502可以查看任务状态,如果任务仍然停留在任务队列508中,即任务处于等待处理(pending)状态,那么可以在530处直接取消等待任务。如果任务正在容器上执行时,即任务处理运行(running)状态时,那么可以在532处停止任务。然后,可以在534处查看停止任务,并且在536处通过进程管理器510来停止任务。在538处,进程管理器510可以向服务器504报告日志。
继续参考图5,在540处,可以重试任务。例如,用户502可以通过服务器504来手动重试任务。此外,也可以根据任务配置中的重试次数来自动执行任务重试。在542处,服务器504首先更新任务状态,例如将失败状态更新为等待处理状态。然后将任务添加到任务队列508中,接着教程管理器510可以在546处消费任务,在548处并行执行任务,并且在550处报告任务结果并记录日志。
在552处,可以查看中断任务并重分发中断任务,并且可以更新期望容器数和当前容器数。例如,随着任务队列508中的任务被执行消费,期望容器数可以发生变化。例如,任务队列508最初具有10个任务,并且容器进程数为1,那么控制器512可以计算出期望容器数为10(满足预定容器数的要求)。那么随着任务不断被消费,任务队列508中的任务数可以变为5个,那么相应地可以确定期望容器数为5,进而确定是否调度新容器。此外,在一些实施例中,用户502可以向任务队列512继续添加任务,例如任务队列中的任务数变为15,由于容器进程数为1,可以计算出估计容器数为15,然而用户设置的预定容器数为12,那么实际上期望容器数更新为12而不是15。在554处,可以向任务队列508添加中断任务以进行重试。例如,可能由于资源回收导致中断,可以自动拉起中断任务并将其添加到任务队列508以进行任务重试。
图6示出了根据本公开的一些实施例的用于调度容器的装置600的框图。如图6所示,装置600包括期望容器确定单元602,被配置为基于任务队列的任务数、预定容器数以及容器进程数,确定期望容器数。此外,装置600还包括新容器调度单元604,被配置为响应于当前容器数小于期望容器数,调度新容器,新容器用于执行任务队列中的任务。
图7示出了根据本公开的某些实施例的电子设备700的框图。图7示出了根据本公开的某些实施例的电子设备700的框图,设备700可以是本公开的实施例所描述的设备或装置。如图7所示,设备700包括中央处理单元(CPU)和/或图形处理单元(GPU)701,其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令,来执行各种适当的动作和处理。在RAM 703中,还可以存储设备700操作所需的各种程序和数据。CPU/GPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。虽然未在图7中示出,设备700还可以包括协处理器。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如互联网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个方法或过程可以由CPU/GPU 701来执行。例如,在一些实施例中,方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序被加载到RAM 703并由CPU/GPU 701执行时,可以执行上文描述的方法或过程中的一个或多个步骤或动作。
在一些实施例中,以上所描述的方法和过程可以被实现为计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如互联网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言,以及常规的过程式编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用互联网服务提供商来通过互联网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这取决于所涉及的功能。也要注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进,或者使得本技术领域的其它普通技术人员能理解本文公开的各实施例。
下列出了本公开的一些示例实现。
示例1.一种用于调度容器的方法,包括:
基于任务队列的任务数、预定容器数以及容器进程数,确定期望容器数;以及
响应于当前容器数小于所述期望容器数,调度新容器,所述新容器用于执行所述任务队列中的任务。
示例2.根据示例1所述的方法,还包括:
响应于所述任务队列中的任务被执行,更新所述任务队列的任务数以及所述当前容器数;
基于更新的所述任务数、所述预定容器数以及所述容器进程数,更新所述期望容器数;以及
基于更新的所述期望容器数以及更新的所述当前容器数,确定是否调度新容器。
示例3.根据示例1-2所述的方法,其中确定所述期望容器数包括:
基于所述任务队列的所述任务数目以及所述容器进程数,确定用于处理所述任务队列的估计容器数;以及
基于所述预定容器数和所述估计容器数,确定所述期望容器数。
示例4.根据示例1-3所述的方法,还包括:
从执行所述任务队列的一个或多个容器接收一个或多个任务信息以及所述一个或多个容器信息;以及
将所述一个或多个任务信息以及所述一个或多个容器信息保存到数据库中。
示例5.根据示例1-4所述的方法,还包括:
响应于更新的所述期望容器数大于所述更新的当前容器数,从执行所述任务队列的所述一个或多个容器中回收容器;以及
基于所回收的所述容器上的任务信息,在所述一个或多个容器中的另一容器上恢复任务。
示例6.根据示例1-5所述的方法,还包括:
响应于所述任务队列中的任务执行失败,基于所述任务的任务信息恢复所述任务,在所述一个或多个容器中的容器上恢复所述任务。
示例7.根据示例1-6所述的方法,还包括:
响应于接收到查看指令,所述数据库获取所述一个或多个任务信息和所述一个或多个容器信息;
基于所述一个或多个任务信息,展示所述任务队列的任务状态;以及
基于所述一个或多个容器信息,展示所述一个或多个容器的容器状态。
示例8.根据示例1-7所述的方法,还包括:
响应于接收到新任务,向所述任务队列添加所述新任务;
更新所述任务队列的任务数以及所述当前容器数;以及
基于更新的所述任务数、所述预定容器数以及所述容器进程数,更新所述期望容器数。
示例9.根据示例1-8所述的方法,其中所述任务为可信计算任务并且所述多个容器来自于混合云服务,所述混合云服务包括以下至少两项:
公有云服务;
私有云服务;或者
自有算力服务。
示例10.一种用于调度容器的装置,包括:
期望容器确定单元,被配置为基于任务队列的任务数、预定容器数以及容器进程数,确定期望容器数;以及
新容器调度单元,被配置为响应于当前容器数小于所述期望容器数,调度新容器,所述新容器用于执行所述任务队列中的任务
示例11.根据示例10所述的装置,所述装置还包括:
参数更新单元,被配置为响应于所述任务队列中的任务被执行,更新所述任务队列的任务数以及所述当前容器数;
容器数更新单元,被配置为基于更新的所述任务数、所述预定容器数以及所述容器进程数,更新所述期望容器数;以及
调度确定单元,被配置为基于更新的所述期望容器数以及更新的所述当前容器数,确定是否调度新容器。
示例12.根据示例10-11所述的装置,其中期望容器确定单元包括:
估计数确定单元,被配置为基于所述任务队列的所述任务数目以及所述容器进程数,确定用于处理所述任务队列的估计容器数;以及
期望数确定单元,被配置为基于所述预定容器数和所述估计容器数,确定所述期望容器数。
示例13.根据示例10-12所述的装置,所述装置还包括:
信息接收单元,被配置为从执行所述任务队列的一个或多个容器接收一个或多个任务信息以及所述一个或多个容器信息;以及
信息存储单元,被配置为将所述一个或多个任务信息以及所述一个或多个容器信息保存到数据库中。
示例14.根据示例10-13所述的装置,所述装置还包括:
容器回收单元,被配置为响应于更新的所述期望容器数大于所述更新的当前容器数,从执行所述任务队列的所述一个或多个容器中回收容器;以及
任务恢复单元,被配置为基于所回收的所述容器上的任务信息,在所述一个或多个容器中的另一容器上恢复任务。
示例15.根据示例10-14所述的装置,所述装置还包括:
任务回复第二单元,被配置为响应于所述任务队列中的任务执行失败,基于所述任务的任务信息恢复所述任务,在所述一个或多个容器中的容器上恢复所述任务。
示例16.根据示例10-15所述的装置,所述装置还包括:
信息获取单元,被配置为响应于接收到查看指令,所述数据库获取所述一个或多个任务信息和所述一个或多个容器信息;
任务展示单元,被配置为基于所述一个或多个任务信息,展示所述任务队列的任务状态;以及
容器展示单元,被配置为基于所述一个或多个容器信息,展示所述一个或多个容器的容器状态。
示例17.根据示例10-16所述的装置,所述装置还包括:
任务添加单元,被配置为响应于接收到新任务,向所述任务队列添加所述新任务;
信息更新单元,被配置为更新所述任务队列的任务数以及所述当前容器数;以及
期望数更新单元,基于更新的所述任务数、所述预定容器数以及所述容器进程数,更新所述期望容器数。
示例18.根据示例10-17所述的装置,其中所述任务为可信计算任务并且所述多个容器来自于混合云服务,所述混合云服务包括以下至少两项:
公有云服务;
私有云服务;以及
自有算力服务。
示例19.一种电子设备,包括:
处理器;以及
与所述处理器耦合的存储器,所述存储器具有存储于其中的指令,所述指令在被处理器执行时,使得所述电子设备执行动作,所述动作包括:
基于任务队列的任务数、预定容器数以及容器进程数,确定期望容器数;以及
响应于当前容器数小于所述期望容器数,调度新容器,所述新容器用于执行所述任务队列中的任务。
示例20.根据示例19所述的电子设备,所述动作还包括:
响应于所述任务队列中的任务被执行,更新所述任务队列的任务数以及所述当前容器数;
基于更新的所述任务数、所述预定容器数以及所述容器进程数,更新所述期望容器数;以及
基于更新的所述期望容器数以及更新的所述当前容器数,确定是否调度新容器。
示例21.根据示例19-20所述的电子设备,其中确定所述期望容器数包括:
基于所述任务队列的所述任务数目以及所述容器进程数,确定用于处理所述任务队列的估计容器数;以及
基于所述预定容器数和所述估计容器数,确定所述期望容器数。
示例22.根据示例19-21所述的电子设备,所述动作还包括:
从执行所述任务队列的一个或多个容器接收一个或多个任务信息以及所述一个或多个容器信息;以及
将所述一个或多个任务信息以及所述一个或多个容器信息保存到数据库中。
示例23.根据示例19-22所述的电子设备,所述动作还包括:
响应于更新的所述期望容器数大于所述更新的当前容器数,从执行所述任务队列的所述一个或多个容器中回收容器;以及
基于所回收的所述容器上的任务信息,在所述一个或多个容器中的另一容器上恢复任务。
示例24.根据示例19-23所述的电子设备,所述动作还包括:
响应于所述任务队列中的任务执行失败,基于所述任务的任务信息恢复所述任务,在所述一个或多个容器中的容器上恢复所述任务。
示例25.根据示例19-24所述的电子设备,所述动作还包括:
响应于接收到查看指令,所述数据库获取所述一个或多个任务信息和所述一个或多个容器信息;
基于所述一个或多个任务信息,展示所述任务队列的任务状态;以及
基于所述一个或多个容器信息,展示所述一个或多个容器的容器状态。
示例26.根据示例19-25所述的电子设备,所述动作还包括:
响应于接收到新任务,向所述任务队列添加所述新任务;
更新所述任务队列的任务数以及所述当前容器数;以及
基于更新的所述任务数、所述预定容器数以及所述容器进程数,更新所述期望容器数。
示例27.根据示例19-26所述的电子设备,其中所述任务为可信计算任务并且所述多个容器来自于混合云服务,所述混合云服务包括以下至少两项:
公有云服务;
私有云服务;以及
自有算力服务。
示例28.一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中所述一条或多条计算机指令被处理器执行以实现根据示例1至9中任一项所述的方法。
示例29.一种计算机程序产品,所述计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可执行指令,所述计算机可执行指令在由设备执行时使所述设备执行根据示例1至9中任一项所述的方法。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (12)

1.一种用于调度容器的方法,包括:
基于任务队列的任务数、预定容器数以及容器进程数,确定期望容器数;以及
响应于当前容器数小于所述期望容器数,调度新容器,所述新容器用于执行所述任务队列中的任务。
2.根据权利要求1所述的方法,还包括:
响应于所述任务队列中的任务被执行,更新所述任务队列的任务数以及所述当前容器数;
基于更新的所述任务数、所述预定容器数以及所述容器进程数,更新所述期望容器数;以及
基于更新的所述期望容器数以及更新的所述当前容器数,确定是否调度新容器。
3.根据权利要求2所述的方法,其中确定所述期望容器数包括:
基于所述任务队列的所述任务数目以及所述容器进程数,确定用于处理所述任务队列的估计容器数;以及
基于所述预定容器数和所述估计容器数,确定所述期望容器数。
4.根据权利要求2所述的方法,还包括:
从执行所述任务队列的一个或多个容器接收一个或多个任务信息以及所述一个或多个容器信息;以及
将所述一个或多个任务信息以及所述一个或多个容器信息保存到数据库中。
5.根据权利要求4所述的方法,还包括:
响应于更新的所述期望容器数小于所述更新的当前容器数,从执行所述任务队列的所述一个或多个容器中回收容器;以及
基于所回收的所述容器上的任务信息,在所述一个或多个容器中的另一容器上恢复任务。
6.根据权利要求4所述的方法,还包括:
响应于所述任务队列中的任务执行失败,基于所述任务的任务信息恢复所述任务,在所述一个或多个容器中的容器上恢复所述任务。
7.根据权利要求4所述的方法,还包括:
响应于接收到查询命令,所述数据库获取所述一个或多个任务信息和所述一个或多个容器信息;
基于所述一个或多个任务信息,展示所述任务队列的任务状态;以及
基于所述一个或多个容器信息,展示所述一个或多个容器的容器状态。
8.根据权利要求1所述的方法,还包括:
响应于接收到新任务,向所述任务队列添加所述新任务;
更新所述任务队列的任务数以及所述当前容器数;以及
基于更新的所述任务数、所述预定容器数以及所述容器进程数,更新所述期望容器数。
9.根据权利要求1所述的方法,其中所述任务为科学计算任务并且所述新容器来自于混合云服务,所述混合云服务包括以下至少两项:
公有云服务;
私有云服务;或者
自有算力服务。
10.一种用于调度容器的装置,包括:
期望容器确定单元,被配置为基于任务队列的任务数、预定容器数以及容器进程数,确定期望容器数;以及
新容器调度单元,被配置为响应于当前容器数小于所述期望容器数,调度新容器,所述新容器用于执行所述任务队列中的任务。
11.一种电子设备,包括:
处理器;以及
与所述处理器耦合的存储器,所述存储器具有存储于其中的指令,所述指令在被处理器执行时,使得所述电子设备执行根据权利要求1至9中任一项所述的方法。
12.一种计算机程序产品,所述计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行以实现根据权利要求1至9中任一项所述的方法。
CN202410195229.9A 2024-02-21 2024-02-21 调度容器的方法、装置、电子设备和计算机程序产品 Pending CN118069292A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410195229.9A CN118069292A (zh) 2024-02-21 2024-02-21 调度容器的方法、装置、电子设备和计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410195229.9A CN118069292A (zh) 2024-02-21 2024-02-21 调度容器的方法、装置、电子设备和计算机程序产品

Publications (1)

Publication Number Publication Date
CN118069292A true CN118069292A (zh) 2024-05-24

Family

ID=91100045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410195229.9A Pending CN118069292A (zh) 2024-02-21 2024-02-21 调度容器的方法、装置、电子设备和计算机程序产品

Country Status (1)

Country Link
CN (1) CN118069292A (zh)

Similar Documents

Publication Publication Date Title
US11508021B2 (en) Processes and systems that determine sustainability of a virtual infrastructure of a distributed computing system
US10540211B2 (en) Elasticity for highly available applications
CN109117252B (zh) 基于容器的任务处理的方法、系统及容器集群管理系统
CN113569987A (zh) 模型训练方法和装置
JP2012221273A (ja) 動的にリソースを割り当てる方法、システム及びプログラム
CN112445598B (zh) 一种基于quartz的任务调度方法、装置、电子设备以及介质
CN112737934B (zh) 一种集群式物联网边缘网关装置及方法
CN110958311A (zh) 一种基于yarn的共享集群弹性伸缩系统及方法
CN112000353A (zh) 应用运行方法、装置及存储介质
US20120144389A1 (en) Optimizing virtual image deployment for hardware architecture and resources
CN112905297A (zh) 容器集群资源调度方法和装置
CN114840323A (zh) 任务处理方法、装置、系统、电子设备以及存储介质
CN109960579B (zh) 一种调整业务容器的方法及装置
CN111124640A (zh) 任务分配方法及系统、存储介质、电子装置
CN114138488A (zh) 一种基于弹性高性能计算的云原生实现方法及系统
CN111858040A (zh) 一种资源调度方法和装置
CN114490048A (zh) 任务执行方法、装置、电子设备及计算机存储介质
Hung et al. Task scheduling for optimizing recovery time in cloud computing
US11656914B2 (en) Anticipating future resource consumption based on user sessions
CN112817992A (zh) 执行更改任务的方法、装置、电子设备以及可读存储介质
CN115390897B (zh) 微前端管理的方法、装置、电子设备及存储介质
CN111190731A (zh) 基于权重的集群任务调度系统
CN118069292A (zh) 调度容器的方法、装置、电子设备和计算机程序产品
US20230229477A1 (en) Upgrade of cell sites with reduced downtime in telco node cluster running containerized applications
CN113472886B (zh) 分布式集群系统及其控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination