CN113391925A - 云资源管理方法、系统、介质、计算机设备 - Google Patents

云资源管理方法、系统、介质、计算机设备 Download PDF

Info

Publication number
CN113391925A
CN113391925A CN202110710813.XA CN202110710813A CN113391925A CN 113391925 A CN113391925 A CN 113391925A CN 202110710813 A CN202110710813 A CN 202110710813A CN 113391925 A CN113391925 A CN 113391925A
Authority
CN
China
Prior art keywords
resource
cloud
cloud resource
request
container
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110710813.XA
Other languages
English (en)
Inventor
辛朝晖
李亚坤
师锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202110710813.XA priority Critical patent/CN113391925A/zh
Publication of CN113391925A publication Critical patent/CN113391925A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开涉及一种云资源管理方法、系统、存储介质和计算机设备,其中方法包括:资源管理器接收作业资源请求,并基于作业资源请求进行资源分配生成资源容器列表,作业资源请求携带云资源需求信息,应用管理器基于所述资源容器列表向资源容器列表中指示的节点管理器发送通知消息和云资源需求信息;节点管理器基于云资源需求信息生成云资源创建请求,在启动资源容器之前发送云资源创建请求至云资源服务器,接收云资源服务器响应云资源创建请求返回的云资源信息,在启动运行资源容器时基于云资源信息运行对应云资源。本公开的实施方案可以使现有原生YARN系统支持运行云资源的能力,提升YARN系统的性能。

Description

云资源管理方法、系统、介质、计算机设备
技术领域
本公开实施例涉及计算机集群资源管理技术领域,尤其涉及一种YARN云资源管理方法、云资源管理系统、实现云资源管理方法的计算机可读存储介质和计算机设备。
背景技术
YARN是一种新的Hadoop资源管理系统,它将资源管理从计算框架中分离出来,变成一个通用资源管理系统,可为上层应用提供统一的资源管理和调度。
Hadoop原生YARN系统通常可由资源管理器RM(Resource Manager),节点管理器NM(NodeManager),应用管理器AM(Application Master)以及资源容器(Container)等组成。当前的原生YARN系统仅支持CPU、内存等常见本地资源的管理和分配。
目前,原生YARN系统不具备管理调度运行在远端的云资源如张量处理单元TPU(Tensor Processing Unit)的能力,缺少对云资源的管理和分配能力。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种云资源管理方法、云资源管理系统、实现云资源管理方法的计算机可读存储介质和计算机设备。
第一方面,本公开实施例提供了一种云资源管理方法,包括:
资源管理器接收作业资源请求,并基于所述作业资源请求进行资源分配,生成资源容器列表;所述作业资源请求至少携带云资源需求信息;
应用管理器基于所述资源管理器发送的所述资源容器列表,向所述资源容器列表中指示的节点管理器发送通知消息和所述云资源需求信息,所述通知消息指示所述节点管理器启动所述资源容器列表中指示的资源容器;
所述节点管理器基于所述云资源需求信息生成云资源创建请求,在启动所述资源容器之前,发送所述云资源创建请求至云资源服务器,并接收所述云资源服务器响应所述云资源创建请求而返回的云资源信息;
所述节点管理器启动运行所述资源容器时,基于所述云资源信息运行对应的云资源。
在本公开的一些实施例中,所述资源管理器基于所述作业资源请求进行资源分配,包括:
为所述作业资源请求分配资源队列;
为所述资源队列配置云资源数量限额;
将所述作业资源请求转换为资源分配任务;
将所述资源分配任务提交至所述资源队列,基于所述资源队列执行所述资源分配任务。
在本公开的一些实施例中,所述发送所述云资源创建请求至云资源服务器之前,所述方法还包括:
所述节点管理器向所述资源管理器发送所需总的云资源数量,所述总的云资源数量大于所述云资源数量限额;
接收到云资源扩缩容指令时,基于所述云资源扩缩容指令修改所述资源队列对应的所述云资源数量限额。
在本公开的一些实施例中,所述云资源至少包括张量处理单元,所述云资源需求信息包括张量处理单元的卡数;
所述节点管理器基于所述云资源需求信息生成云资源创建请求,包括:
所述节点管理器基于所述张量处理单元的卡数以及预设映射表得到张量处理单元的类型,基于所述张量处理单元的类型以及所述卡数生成云资源创建请求;
其中,所述预设映射表包括张量处理单元的不同卡数与对应的类型之间的映射关系。
在本公开的一些实施例中,所述方法还包括:
所述节点管理器在运行所述资源容器之前,配置运行所述云资源所需的环境变量参数,然后启动运行所述资源容器。
在本公开的一些实施例中,所述方法还包括:
所述节点管理器在所述资源容器运行结束后,向所述云资源服务器发送云资源销毁请求,以使所述云资源服务器基于所述云资源销毁请求销毁对应的云资源。
在本公开的一些实施例中,所述方法还包括:
判断所述云资源创建请求中携带的张量处理单元的卡数是否为预设数值;
若是,则发送所述云资源创建请求至所述云资源服务器;
若否,则云资源创建请求失败,显示提示信息以指示请求的张量处理单元的卡数应为所述预设数值。
第二方面,本公开实施例提供一种云资源管理系统,包括:
资源管理器,用于接收作业资源请求,并基于所述作业资源请求进行资源分配,生成资源容器列表,所述作业资源请求至少携带云资源需求信息;
应用管理器,用于基于所述资源管理器发送的所述资源容器列表,向所述资源容器列表中指示的节点管理器发送通知消息和所述云资源需求信息,所述通知消息指示所述节点管理器启动所述资源容器列表中指示的资源容器;
所述节点管理器,用于基于所述云资源需求信息生成云资源创建请求,在启动所述资源容器之前,发送所述云资源创建请求至云资源服务器,并接收所述云资源服务器响应所述云资源创建请求而返回的云资源信息;
所述节点管理器,还用于启动运行所述资源容器时,基于所述云资源信息运行对应的云资源。
第三方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述云资源管理方法的步骤。
第四方面,本公开实施例提供一种计算机设备,包括:
处理器;以及
存储器,用于存储计算机程序;
其中,所述处理器配置为经由执行所述计算机程序来执行上述任一实施例所述云资源管理方法的步骤。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的云资源管理方法、系统、介质和计算机设备中,资源管理器接收作业资源请求,并基于所述作业资源请求进行资源分配,生成资源容器列表,所述作业资源请求至少携带云资源需求信息,应用管理器基于所述资源容器列表,向资源容器列表中指示的节点管理器发送通知消息和所述云资源需求信息,所述通知消息指示所述节点管理器启动所述资源容器列表中指示的资源容器,节点管理器基于所述云资源需求信息生成云资源创建请求,在启动所述资源容器之前,发送所述云资源创建请求至云资源服务器,并接收所述云资源服务器响应所述云资源创建请求而返回的云资源信息;最后,节点管理器启动运行所述资源容器时,基于所述云资源信息运行对应的云资源。如此,本实施例的方案可以使现有原生YARN系统支持运行远端的云资源如张量处理单元TPU的能力,使用户得到使用例如GPU资源一样的体验,进而可提供对云资源的例如管理和分配等能力,在一定程度上提升YARN系统的性能。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例云资源管理方法流程图;
图2为本公开另一实施例云资源管理方法流程图;
图3为本公开实施例云资源管理系统示意图;
图4为本公开实施例实现云资源管理方法的计算机设备示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
应当理解,在下文中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
图1为本公开实施例示出的一种云资源管理方法流程图,该云资源管理方法应用于YARN系统,该云资源管理方法可以包括以下步骤:
步骤S101:资源管理器接收作业资源请求,并基于所述作业资源请求进行资源分配,生成资源容器列表;所述作业资源请求至少携带云资源需求信息。
示例性的,在YARN系统中,资源管理器RM可以接收租户通过例如客户端提交的作业资源请求,该作业资源请求可以携带相应作业所需的资源如内存、CPU等的数量信息,但也不限于此。本实施例中,该作业资源请求可包含作业所需的云资源需求信息,云资源需求信息可包含云资源的数量等信息,但不限于此。同时,本实施例中对云资源的类型不作限制,可以根据作业的具体需要设置。
RM接收到租户提交的作业资源请求后,响应该作业资源请求进行作业所需资源如CPU和内存等的分配,具体例如可将该作业资源请求初始化为资源分配任务(task),再添加资源分配任务到资源队列中,使得后续过程中按照该资源队列的配置来执行该资源分配任务,例如基于不同的资源队列的优先级,优先级高的资源队列优先获得对集群资源的使用权,然后从该优先级高的资源队列中依次取一个资源分配任务去执行,从而实现资源分配,资源分配涉及更具体的内容可以参考现有技术理解,此处不再赘述。资源分配后得到资源容器列表,该资源容器列表可以指示作业所需资源容器(container)的数量和资源容器所在节点的标识信息等,但也不限于此。本实施例中,该资源容器列表还包括作业所需的云资源需求信息如云资源数量信息。确定资源容器列表后,将资源容器列表发送至应用管理器AM。
步骤S102:应用管理器基于所述资源管理器发送的所述资源容器列表,向所述资源容器列表中指示的节点管理器发送通知消息和所述云资源需求信息,所述通知消息指示所述节点管理器启动所述资源容器列表中指示的资源容器。
示例性的,AM基于所述资源容器列表,向资源容器列表中指示的节点的节点管理器NM发送通知消息和云资源需求信息如云资源数量信息。该通知消息指示相应节点管理器NM启动所述资源容器列表中指示的资源容器。
步骤S103:所述节点管理器基于所述云资源需求信息生成云资源创建请求,在启动所述资源容器之前,发送所述云资源创建请求至云资源服务器,并接收所述云资源服务器响应所述云资源创建请求而返回的云资源信息。
示例性的,节点管理器NM收到AM发送的云资源需求信息如云资源数量信息后,NM基于该云资源需求信息如云资源数量信息生成云资源创建请求,在实际启动资源容器之前,发送该云资源创建请求至云资源服务器。该云资源服务器可以是远端提高云资源即云计算资源的服务器,YARN系统可以与该云资源服务器通信连接。其中云资源创建请求可以携带作业所需的云资源需求信息如云资源数量信息。之后,NM接收云资源服务器响应该云资源创建请求而返回的云资源信息,该云资源信息可以包括云资源数量和标识信息如ID等,但不限于此。
步骤S104:所述节点管理器启动运行所述资源容器时,基于所述云资源信息运行对应的云资源。
示例性的,NM接收到云资源服务器返回的云资源信息后,实际启动运行之前得到的作业所需的资源容器,同时基于该云资源信息运行对应的云资源,如基于云资源信息如云资源数量和标识信息如ID与云资源服务器交互获得对应的云资源,并在作业执行过程中使用该云资源。
本实施例的上述云资源管理方法,可以使现有原生YARN系统具有运行远端的云资源如张量处理单元TPU(Tensor Processing Unit)的能力,使用户得到使用例如GPU资源一样的体验,提供对云资源的例如管理和分配等能力,进而在一定程度上提升YARN系统的性能。
可选的,在本公开的一些实施例中,步骤S101中资源管理器基于所述作业资源请求进行资源分配,可以包括以下步骤:
步骤i):为所述作业资源请求分配资源队列。
具体的,在YARN系统中,每当有一个新租户加入,RM都向其分配一个资源队列,划分其所占有的资源数量,租户的作业资源请求将上传提交到相应资源队列中等待RM向AM进行资源调度。
步骤ii):为所述资源队列配置云资源数量限额。
示例性的,本实施例中为资源队列配置云资源数量限额(quota),以TPU为例,该云资源数量限额quota可以是TPU卡数,如1024卡,但不限于此。
步骤iii):将所述作业资源请求转换为资源分配任务。
具体的,RM可将该作业资源请求初始化为资源分配任务(task)。
步骤iv):将所述资源分配任务提交至所述资源队列,基于所述资源队列执行所述资源分配任务。
具体的,RM提交资源分配任务到资源队列中,使得后续过程中按照该资源队列的配置来执行该资源分配任务。
在一些示例中,当作业资源请求申请的云资源数量超过云资源数量限额quota时,可以选择作业资源请求排队或者请求直接失败,但也不限于此。
相关技术中,CPU、GPU等资源因为与物理机绑定的原因,当资源队列的quota不足时,在提升资源队列的quota的同时,必须通过新增物理机器上线来完成扩容操作,导致运维操作比较麻烦。
因此,在上述各实施例的基础上,本公开的一些实施例中,结合图2中所示,步骤S103中发送云资源创建请求至云资源服务器之前,所述方法还可以包括以下步骤:
步骤S201:所述节点管理器向所述资源管理器发送所需总的云资源数量,所述总的云资源数量大于所述云资源数量限额。
示例性的,与CPU、GPU等资源不同,TPU是云端资源,在NM启动时,由于汇报的物理云资源如TPU资源数量未确定,此时NM可以向RM汇报一个极大值即总的云资源数量X,X通常远大于quota。以TPU为例,该总的云资源数量可以是1024×10卡,但不限于此。
步骤S202:接收到云资源扩缩容指令时,基于所述云资源扩缩容指令修改所述资源队列对应的所述云资源数量限额。
示例性的,RM若在接收到云资源扩缩容指令时,可以基于云资源扩缩容指令修改资源队列对应的云资源数量限额quota的取值。例如扩容时,可以将quota的取值由当前的例如512修改为1024,而在缩容时,可以将quota的取值由当前的例如1024修改为512,此处数值仅为举例说明,并不限于此。
本实施例的上述方案中,云资源是弹性的资源,资源队列的quota与物理资源不再绑定,当对资源队列的云资源如TPU资源扩缩容时无需上下线机器,只需在逻辑层面修改调整资源队列的quota,使得系统运维操作简单,非常方便,且无需新增物理机器上线,成本更低。另外,NM向RM预先汇报了一个极大值的总的云资源数量X,X远大于资源队列的quota,使实际应用场景如扩缩容时资源队列的quota的取值通常也不会超过X,从而使YARN系统可以较为稳定可靠的运行。
可选的,在上述各实施例的基础上,本公开的一些实施例中,所述云资源至少包括但不限于张量处理单元TPU,所述云资源需求信息包括张量处理单元TPU的卡数。
具体的,TPU为谷歌的主要产品提供了计算支持,包括翻译、照片、搜索助理和Gmail等。Cloud TPU将TPU作为可扩展的云计算资源,并为所有使用Google Cloud的用户提供计算资源,TPU能加速深度学习,因此有着重要的应用。与CPU可以用核(core)数区分类似,TPU可以卡数区分,例如8卡TPU、32卡TPU或者64卡TPU等,但不限于此。
这里需要说明一点,目前提供的TPU云资源是有限的几个类型,比如8卡、32卡、64卡等,而不能是例如这些具体数值以外的如7卡、31卡、63卡等类型的TPU。因此,在上述各实施例的基础上,在一些实施例中,所述节点管理器基于所述云资源需求信息生成云资源创建请求,可以包括以下步骤:
所述节点管理器基于所述张量处理单元的卡数以及预设映射表得到张量处理单元的类型,基于所述张量处理单元的类型以及所述卡数生成云资源创建请求。其中,所述预设映射表包括张量处理单元的不同卡数与对应的类型之间的映射关系。
具体的,该映射关系可以预先建立并存储,但也不限于此。示例性的,比如申请了8卡TPU,假设节点管理器NM根据预设映射表得到对应TPU类型是v3,则据此生成云资源创建请求。该云资源创建请求至少可以携带作业标识、资源容器标识、TPU信息如v3-8,表示申请一个v3-8类型的TPU资源。该TPU资源申请后属于资源容器标识的容器,且属于作业标识指示的作业。v3代表TPU的版本,目前包括但不限于v1、v2和v3版本。
在一个具体示例场景中,比如用户申请1个container,该container包含的TPU卡数为32,基于本实施例的上述方法,NM向云资源服务器申请云资源时自动转为申请一个例如v2-32类型的TPU资源。
本实施例中,可以根据申请的TPU卡数,自动映射到不同的TPU类型,用户无感知,由于TPU资源具体提供时是卡数与版本组合的套餐模式,通过上述实施方案自动映射到不同的TPU类型并据此生成云资源创建请求来进行TPU资源的申请,可以在一定程度上也提高云资源如TPU资源的申请效率。
可选的,在上述实施例的基础上,本公开的一些实施例中,所述方法还可以包括步骤:所述节点管理器NM在运行所述资源容器之前,配置运行所述云资源所需的环境变量参数,然后启动运行所述资源容器。
具体的,在一个实施例中,需要配置运行云资源如TPU所需的环境变量参数,以便可以适配良好运行申请的云资源。在本实施例中,NM会向应用容器引擎docker中提前配置环境变量参数。环境变量参数可以包括但不限于:申请的上述TPU信息、TPU证书地址,TPU所在国家区域信息如位于美国等。TPU证书地址指示申请的TPU是云资源服务器提供的合法的TPU资源,而不是例如其他渠道非法来源的TPU资源。这些信息可以与云资源服务器交互获取或者预先存储在本地,但也不限于此。
可选的,在上述实施例的基础上,本公开的一些实施例中,所述方法还可以包括以下步骤:
步骤a):判断所述云资源创建请求中携带的张量处理单元的卡数是否为预设数值。
示例性的,该预设数值可以是8、32、64等。本实施例中可以判断云资源创建请求中携带的TPU的卡数是否为该预设数值如8、32、64。
步骤b):若是,则发送所述云资源创建请求至所述云资源服务器。
示例性的,如云资源创建请求中携带的TPU的卡数是8,则是预设数值,说明是合法值,则发送该云资源创建请求至云资源服务器申请云资源如TPU。
步骤c):若否,则云资源创建请求失败,显示提示信息以指示请求的张量处理单元的卡数应为所述预设数值。
示例性的,如云资源创建请求中携带的TPU的卡数是7,则不是预设数值,说明是非法值,则显示提示信息以指示请求的TPU的卡数应为预设数值如8。
本实施例中,由于目前提供的TPU资源是有限的几个类型,比如8卡、32卡、64卡等,所以在申请TPU资源的时候可以提前做检查,非法值会直接失败并提示,如此可以提高TPU云资源申请时的准确性,避免大量无效云资源创建请求被发送至云资源服务器,影响云资源服务器的性能。
可选的,在上述各实施例的基础上,本公开的一些实施例中,所述方法还可以包括以下步骤:
所述节点管理器在所述资源容器运行结束后,向所述云资源服务器发送云资源销毁请求,以使所述云资源服务器基于所述云资源销毁请求销毁对应的云资源。
示例性的,NM在启动资源容器运行结束后,向云资源服务器发送云资源销毁请求,云资源服务器响应该云资源销毁请求而销毁之前租户申请的云资源如TPU资源等。这样可以在一个作业运行结束后及时释放资源,以便其他作业可以获取这些资源来运行,在一定程度上提高YARN系统整体的任务处理效率。
需要说明的是,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。另外,也易于理解的是,这些步骤可以是例如在多个模块/进程/线程中同步或异步执行。
图3示出本公开实施例提供的云资源管理系统,可以包括资源管理器RM和应用管理器AM:
其中,资源管理器RM,用于接收作业资源请求,并基于所述作业资源请求进行资源分配,生成资源容器列表,所述资源容器列表至少包括所述云资源需求信息。
应用管理器AM,用于基于所述资源管理器发送的所述资源容器列表,向所述资源容器列表中指示的节点管理器NM发送通知消息和所述云资源需求信息,所述通知消息指示所述节点管理器NM启动所述资源容器列表中指示的资源容器。
所述节点管理器NM,用于基于所述云资源需求信息生成云资源创建请求,在启动所述资源容器之前,发送所述云资源创建请求至云资源服务器,并接收所述云资源服务器响应所述云资源创建请求而返回的云资源信息。
所述节点管理器NM,还用于启动运行所述资源容器时,基于所述云资源信息运行对应的云资源。
本实施例的上述云资源管理系统,可以使现有原生YARN系统具有运行远端的云资源如张量处理单元TPU(Tensor Processing Unit)的能力,使用户得到使用例如GPU资源一样的体验,提供对云资源的例如管理和分配等能力,进而在一定程度上提升YARN系统的性能。
可选的,在本公开的一些实施例中,所述资源管理器基于所述作业资源请求进行资源分配,包括:为所述作业资源请求分配资源队列;为所述资源队列配置云资源数量限额;将所述作业资源请求转换为资源分配任务;将所述资源分配任务提交至所述资源队列,基于所述资源队列执行所述资源分配任务。
可选的,在本公开的一些实施例中,所述节点管理器发送所述云资源创建请求至云资源服务器之前,所述节点管理器向所述资源管理器发送所需总的云资源数量,所述总的云资源数量大于所述云资源数量限额。所述资源管理器,还用于接收到云资源扩缩容指令时,基于所述云资源扩缩容指令修改所述资源队列对应的所述云资源数量限额。
可选的,在本公开的一些实施例中,所述云资源至少包括张量处理单元,所述云资源需求信息包括张量处理单元的卡数。相应的,所述节点管理器基于所述云资源需求信息生成云资源创建请求,包括:基于所述张量处理单元的卡数以及预设映射表得到张量处理单元的类型,基于所述张量处理单元的类型以及所述卡数生成云资源创建请求。其中,所述预设映射表包括张量处理单元的不同卡数与对应的类型之间的映射关系。
可选的,在本公开的一些实施例中,所述节点管理器在运行所述资源容器之前,配置运行所述云资源所需的环境变量参数,然后启动运行所述资源容器。
可选的,在本公开的一些实施例中,所述节点管理器在所述资源容器运行结束后,向所述云资源服务器发送云资源销毁请求,以使所述云资源服务器基于所述云资源销毁请求销毁对应的云资源。
可选的,在本公开的一些实施例中,所述节点管理器,还用于判断所述云资源创建请求中携带的张量处理单元的卡数是否为预设数值;若是,则发送所述云资源创建请求至所述云资源服务器。若否,则云资源创建请求失败,显示提示信息以指示请求的张量处理单元的卡数应为所述预设数值。
关于上述实施例中的系统,其中各个模块执行操作的具体方式以及带来的相应技术效果已经在有关该方法的实施例中进行了对应的详细描述,此处将不做详细阐述说明。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现木公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项实施例所述云资源管理方法的步骤。
示例性的,该可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
本公开实施例还提供一种计算机设备,如图4所示计算机设备40可以包括处理器402以及存储器401,存储器401用于计算机程序。其中,所述处理器402配置为经由执行所述计算机程序来执行上述任一项实施例中所述云资源管理方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
所描述的实施例中的各方面、实施方式、实现或特征能够单独使用或以任意组合的方式使用。所描述的实施例中的各方面可由软件、硬件或软硬件的结合实现。所描述的实施例也可以由存储有计算机可读代码的计算机可读介质体现,该计算机可读代码包括可由至少一个计算装置执行的指令。所述计算机可读介质可与任何能够存储数据的数据存储装置相关联,该数据可由计算机系统读取。用于举例的计算机可读介质可以包括只读存储器、随机存取存储器、CD-ROM、HDD、DVD、磁带以及光数据存储装置等。所述计算机可读介质还可以分布于通过网络联接的计算机系统中,这样计算机可读代码就可以分布式存储并执行。
上述技术描述可参照附图,这些附图形成了本申请的一部分,并且通过描述在附图中示出了依照所描述的实施例的实施方式。虽然这些实施例描述的足够详细以使本领域技术人员能够实现这些实施例,但这些实施例是非限制性的;这样就可以使用其它的实施例,并且在不脱离所描述的实施例的范围的情况下还可以做出变化。比如,流程图中所描述的操作顺序是非限制性的,因此在流程图中阐释并且根据流程图描述的两个或两个以上操作的顺序可以根据若干实施例进行改变。作为另一个例子,在若干实施例中,在流程图中阐释并且根据流程图描述的一个或一个以上操作是可选的,或是可删除的。另外,某些步骤或功能可以添加到所公开的实施例中,或两个以上的步骤顺序被置换。所有这些变化被认为包含在所公开的实施例以及权利要求中。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种云资源管理方法,其特征在于,包括:
资源管理器接收作业资源请求,并基于所述作业资源请求进行资源分配,生成资源容器列表;所述作业资源请求至少携带云资源需求信息;
应用管理器基于所述资源管理器发送的所述资源容器列表,向所述资源容器列表中指示的节点管理器发送通知消息和所述云资源需求信息,所述通知消息指示所述节点管理器启动所述资源容器列表中指示的资源容器;
所述节点管理器基于所述云资源需求信息生成云资源创建请求,在启动所述资源容器之前,发送所述云资源创建请求至云资源服务器,并接收所述云资源服务器响应所述云资源创建请求而返回的云资源信息;
所述节点管理器启动运行所述资源容器时,基于所述云资源信息运行对应的云资源。
2.根据权利要求1所述的云资源管理方法,其特征在于,所述资源管理器基于所述作业资源请求进行资源分配,包括:
为所述作业资源请求分配资源队列;
为所述资源队列配置云资源数量限额;
将所述作业资源请求转换为资源分配任务;
将所述资源分配任务提交至所述资源队列,基于所述资源队列执行所述资源分配任务。
3.根据权利要求2所述的云资源管理方法,其特征在于,所述发送所述云资源创建请求至云资源服务器之前,所述方法还包括:
所述节点管理器向所述资源管理器发送所需总的云资源数量,所述总的云资源数量大于所述云资源数量限额;
接收到云资源扩缩容指令时,基于所述云资源扩缩容指令修改所述资源队列对应的所述云资源数量限额。
4.根据权利要求1~3任一项所述的云资源管理方法,其特征在于,所述云资源至少包括张量处理单元,所述云资源需求信息包括张量处理单元的卡数;
所述节点管理器基于所述云资源需求信息生成云资源创建请求,包括:
所述节点管理器基于所述张量处理单元的卡数以及预设映射表得到张量处理单元的类型,基于所述张量处理单元的类型以及所述卡数生成云资源创建请求;
其中,所述预设映射表包括张量处理单元的不同卡数与对应的类型之间的映射关系。
5.根据权利要求4所述的云资源管理方法,其特征在于,所述方法还包括:
所述节点管理器在运行所述资源容器之前,配置运行所述云资源所需的环境变量参数,然后启动运行所述资源容器。
6.根据权利要求4所述的云资源管理方法,其特征在于,所述方法还包括:
所述节点管理器在所述资源容器运行结束后,向所述云资源服务器发送云资源销毁请求,以使所述云资源服务器基于所述云资源销毁请求销毁对应的云资源。
7.根据权利要求4所述的云资源管理方法,其特征在于,所述方法还包括:
判断所述云资源创建请求中携带的张量处理单元的卡数是否为预设数值;
若是,则发送所述云资源创建请求至所述云资源服务器;
若否,则云资源创建请求失败,显示提示信息以指示请求的张量处理单元的卡数应为所述预设数值。
8.一种云资源管理系统,其特征在于,包括:
资源管理器,用于接收作业资源请求,并基于所述作业资源请求进行资源分配,生成资源容器列表,所述作业资源请求至少携带云资源需求信息;
应用管理器,用于基于所述资源管理器发送的所述资源容器列表,向所述资源容器列表中指示的节点管理器发送通知消息和所述云资源需求信息,所述通知消息指示所述节点管理器启动所述资源容器列表中指示的资源容器;
所述节点管理器,用于基于所述云资源需求信息生成云资源创建请求,在启动所述资源容器之前,发送所述云资源创建请求至云资源服务器,并接收所述云资源服务器响应所述云资源创建请求而返回的云资源信息;
所述节点管理器,还用于启动运行所述资源容器时,基于所述云资源信息运行对应的云资源。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~7任一项所述云资源管理方法的步骤。
10.一种计算机设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7任一项所述云资源管理方法的步骤。
CN202110710813.XA 2021-06-25 2021-06-25 云资源管理方法、系统、介质、计算机设备 Pending CN113391925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110710813.XA CN113391925A (zh) 2021-06-25 2021-06-25 云资源管理方法、系统、介质、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110710813.XA CN113391925A (zh) 2021-06-25 2021-06-25 云资源管理方法、系统、介质、计算机设备

Publications (1)

Publication Number Publication Date
CN113391925A true CN113391925A (zh) 2021-09-14

Family

ID=77623876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110710813.XA Pending CN113391925A (zh) 2021-06-25 2021-06-25 云资源管理方法、系统、介质、计算机设备

Country Status (1)

Country Link
CN (1) CN113391925A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579298A (zh) * 2022-01-27 2022-06-03 浙江大华技术股份有限公司 资源管理方法、资源管理器和计算机可读存储介质
CN115022320A (zh) * 2022-05-31 2022-09-06 中国银行股份有限公司 云资源服务器的确定方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593242A (zh) * 2013-10-15 2014-02-19 北京航空航天大学 基于Yarn框架的资源共享控制系统
CN109803018A (zh) * 2019-01-24 2019-05-24 云南电网有限责任公司信息中心 一种基于Mesos和YARN结合的DCOS云管理平台
CN112433819A (zh) * 2020-11-30 2021-03-02 中国科学院深圳先进技术研究院 异构集群调度的模拟方法、装置、计算机设备及存储介质
CN112749055A (zh) * 2020-12-29 2021-05-04 拉卡拉支付股份有限公司 资源消耗计量方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593242A (zh) * 2013-10-15 2014-02-19 北京航空航天大学 基于Yarn框架的资源共享控制系统
CN109803018A (zh) * 2019-01-24 2019-05-24 云南电网有限责任公司信息中心 一种基于Mesos和YARN结合的DCOS云管理平台
CN112433819A (zh) * 2020-11-30 2021-03-02 中国科学院深圳先进技术研究院 异构集群调度的模拟方法、装置、计算机设备及存储介质
CN112749055A (zh) * 2020-12-29 2021-05-04 拉卡拉支付股份有限公司 资源消耗计量方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
写轮眼: "一文即懂 hadoop的yarn资源队列", pages 2 - 23, Retrieved from the Internet <URL:https://mp.weixin.qq.com/s/yUkmI5zaCDJMu6CwfCL4hg> *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579298A (zh) * 2022-01-27 2022-06-03 浙江大华技术股份有限公司 资源管理方法、资源管理器和计算机可读存储介质
CN115022320A (zh) * 2022-05-31 2022-09-06 中国银行股份有限公司 云资源服务器的确定方法、装置、设备和介质
CN115022320B (zh) * 2022-05-31 2024-03-01 中国银行股份有限公司 云资源服务器的确定方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
US11409719B2 (en) Co-locating microservice persistence containers within tenant-specific database
US10701139B2 (en) Life cycle management method and apparatus
EP3073374B1 (en) Thread creation method, service request processing method and related device
CA3000422C (en) Workflow service using state transfer
US10594619B2 (en) System and method for supporting configuration of dynamic clusters in a multitenant application server environment
US20140289286A1 (en) System and method for performance tuning of garbage collection algorithms
EP3913859A1 (en) Vnf life cycle management method and apparatus
EP3618352B1 (en) Virtual machine management
CN108681777B (zh) 一种基于分布式系统的机器学习程序运行的方法和装置
US20150242200A1 (en) Re-configuration in cloud computing environments
CN110166507B (zh) 多资源调度方法和装置
US11301284B2 (en) Method for managing VNF instantiation and device
CN113391925A (zh) 云资源管理方法、系统、介质、计算机设备
CN111835679B (zh) 多租户场景下的租户资源管理方法和装置
US10728169B1 (en) Instance upgrade migration
CN110795158A (zh) 一种裸机服务器管理方法、系统、电子设备及存储介质
KR20190028210A (ko) 컨테이너 기반 인공지능 어플리케이션을 배포하는 클라우드 서비스 방법과 시스템
CN112286688A (zh) 一种内存管理和使用方法、装置、设备和介质
CN114374609A (zh) 基于rdma设备的深度学习作业运行方法及系统
US10803413B1 (en) Workflow service with translator
CN113377498A (zh) 资源调度方法、装置、电子设备及存储介质
CN112445602A (zh) 资源调度方法、装置、系统及电子设备
CN111294220A (zh) 基于nginx的网络隔离配置方法和装置
CN113419839A (zh) 多类型作业的资源调度方法、装置、电子设备及存储介质
CN112445763B (zh) 文件操作方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination