CN112860440A

CN112860440A - 分配集群计算资源的方法、装置、电子设备和存储介质

Info

Publication number: CN112860440A
Application number: CN202110268227.4A
Authority: CN
Inventors: 吕冬冬; 刘青松; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Shenzhen Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Shenzhen Yunzhisheng Information Technology Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-05-28

Abstract

本发明涉及一种分配集群计算资源的方法、装置、电子设备和存储介质，该方法包括：通过获取第一时间段内集群的任务相关事件；基于所述第一时间段内集群的任务相关事件确定第一时间段内集群的计算资源使用信息；基于所述集群计算资源使用信息确定预设时间段内需要的计算资源，分配所述计算资源。本申请实施例中计算资源的分配情况是根据第一时间段内的使用情况预测出来的，能够自适应用户的任务，预设时间段内灵活自动配额，减少了管理员的工作，并且能够驱动用户本身去提高自己计算资源的使用情况，从而有效的提高了整个集群的资源利用率。

Description

分配集群计算资源的方法、装置、电子设备和存储介质

技术领域

本发明涉及计算资源分配技术领域，具体涉及一种分配集群计算资源的方法、装置、电子设备和存储介质。

背景技术

目前，大部分集群的计算资源的管理都是按固定的数量分配给每个人，无法根据实际的使用情况变化，用户在任务训练不多的情况下就存在计算资源的浪费现象；用户训练任务的时候没有充分利用计算资源，例如虽然用了多卡训练但是每张卡的利用率都很低，造成了整个集群的资源浪费。

发明内容

本发明提供一种分配集群计算资源的方法、装置、电子设备和存储介质，能够解决上述集群的资源浪费的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明实施例提供了一种分配集群计算资源的方法，包括：

获取第一时间段内集群的任务相关事件；

基于所述第一时间段内集群的任务相关事件确定第一时间段内集群的计算资源使用信息；

基于所述第一时间段内集群计算资源使用信息确定预设时间段内需要的计算资源，分配所述计算资源。

在一些实施例中，上述任务相关事件至少包括：事件的时间戳，任务提交者的命名空间以及任务的用户身份证明信息；

所述计算资源使用信息至少包括：每个用户在预设时间内提交任务的数量，使用的图形处理器GPU总量，以及第一时间段内任务的图形处理器GPU利用率。

在一些实施例中，基于第一时间段内集群计算资源使用信息确定预设时间段内需要的计算资源，分配所述计算资源，包括：

根据算法

确定分配所述计算资源，C_i为T时间段内用户第i个任务的所有图形处理器GPU利用率的总量，t_i为第i个任务的耗时，N为用户第一时间段为用户分配的图形处理器GPU总量，T为第一时间段，

当X大于第一预设阈值时,确定需要增加的图形处理器GPU总量，预设时间段内增加分配图形处理器GPU总量；

当X大于第二预设阈值小于第一预设阈值时，预设时间段内分配的图形处理器GPU总量与第一时间段内的图形处理器GPU总量相等；

当X小于第二预设阈值时，确定需要减少的图形处理器GPU总量，预设时间段内减少分配图形处理器GPU总量。

在一些实施例中，上述方法还包括：

获取集群中所有的用户以及每个用户预设时间段内的图形处理器GPU总量，

自动设置每个用户预设时间段内的图形处理器GPU总量。

在一些实施例中，上述方法还包括：

接收到查询操作时，显示所述第一时间段内集群计算资源使用信息。

第二方面，本发明实施例提供了一种分配集群计算资源的装置，包括：

获取模块：获取第一时间段内集群的任务相关事件；

第一确定模块：用于基于所述第一时间段内集群的任务相关事件确定集群第一时间段内的计算资源使用信息；

第二确定模块：用于基于所述集群第一时间段内计算资源使用信息确定预设时间段内需要的计算资源，分配所述计算资源。

在一些实施例中，上述上述装置中任务相关事件至少包括：事件的时间戳，任务提交者的命名空间以及任务的用户身份证明信息；

上述装置中计算资源使用信息至少包括：每个用户在预设时间内提交任务的数量，使用的图形处理器GPU总量，以及第一时间段内任务的图形处理器GPU利用率。

在一些实施例中，上述装置中基于集群第一时间段内计算资源使用信息确定预设时间段内需要的计算资源，分配所述计算资源，包括：

根据算法

确定分配所述计算资源，C_i为T时间段内用户第i个任务的所有图形处理器GPU利用率的总量，t_i为第i个任务的耗时，N为用户第一时间段为用户分配的图形处理器GPU总量，T为第一时间段。

在一些实施例中，上述装置中获取模块还用于：

自动设置每个用户预设时间段内的图形处理器总量。

在一些实施例中，上述装置还包括：显示模块，

用于接收到查询操作时，显示所述第一时间段内集群计算资源使用信息。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项所述分配集群计算资源的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如上所述任一项所述分配集群计算资源的方法。

本发明的有益效果是：通过获取集群的任务相关事件；基于所述集群的任务相关事件确定集群的计算资源使用信息；基于所述集群计算资源使用信息确定预设时间段内需要的计算资源，分配所述计算资源。本申请实施例中计算资源的分配情况是根据上一阶段的使用情况预测出来的，能够自适应用户的任务，灵活自动配额，减少了管理员的工作，并且能够驱动用户本身去提高自己计算资源的使用情况，从而有效的提高了整个集群的资源利用率。

附图说明

图1为本发明实施例提供的一种分配集群计算资源的方法之一；

图2为本发明实施例提供的一种分配集群计算资源的方法之二；

图3为本发明实施例提供的一种分配集群计算资源的装置之一；

图4为本发明实施例提供的一种分配集群计算资源的装置之二；

图5为本发明实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的一种分配集群计算资源的方法之一。

第一方面，结合图1，本发明实施例提供了一种分配集群计算资源的方法，包括如下S101、S102和S103三个步骤：

S101：获取第一时间段内集群的任务相关事件。

应理解，本申请实施例中，第一时间段可以是任一历史时间段，时间段可以是半小时，1小时，12小时等等，集群的任务相关事件可以是通过在集群部署一个事件采集器，获取集群的任务相关事件，例如任务被启动，任务开始运行或者任务结束等事件，通过采集器采集到对应的事件的时间戳，任务提交者的命名空间namespace以及任务的用户身份证明信息UID等信息。

S102：基于所述第一时间段内集群的任务相关事件确定集群的第一时间段内计算资源使用信息。

应理解，本申请实施例中，在集群中的所有服务器节点部署计算资源采集器，该资源采集器能够轮询每个计算任务，通过获取计算任务对应的/sys/fs/cgroup信息并且通过nvml与图形处理器GPU进行交互，确定第一时间段内集群的计算资源使用信息，例如：每个图形处理器GPU的利用率，显存等使用情况。

S103：基于所述第一时间段内集群计算资源使用信息确定预设时间段内需要的计算资源，分配所述计算资源。

应理解，本申请实施例中，根据指定的第一时间段如T，从数据库查询每个用户的资源使用情况，按照相应的算法，确定出预设时间段内需要的计算资源，分配所述计算资源。

在一些实施例中，上述任务相关事件至少包括：事件的时间戳，任务提交者的命名空间以及任务的用户身份证明信息。

应理解，资源采集器可以监测到计算任务所使用的所有设备的信息，并将这些信息与任务的用户身份证明信息UID聚合，数据库会定时的从该采集器获取数据，并且按照时间序列存储，方便后面查询。

在一些实施例中，基于集群第一时间段内计算资源使用信息确定预设时间段内需要的计算资源，分配所述计算资源，包括：

根据算法

确定分配所述计算资源，其中，C_i为T时间段内用户第i个任务的所有图形处理器GPU利用率的总量，t_i为第i个任务的耗时，N为用户第一时间段为用户分配的图形处理器GPU总量，T为第一时间段。

示例性的，根据指定的第一时间段T，从数据库查询每个用户的资源使用情况，按照相应的算法，确定出预设时间段内需要的计算资源，

通过从数据库中查询集群中每个用户的在指定时间内提交任务的数量，使用的图形处理器GPU总量，以及某个时间段内任务的图形处理器GPU综合利用率；

根据算法

确定分配所述计算资源。

示例性地，X>95％,此时说明用户的计算资源较为紧张，预设时间段内可以自动扩容，预设时间段内的图形处理器GPU总量M为N*(1+(X-0.95)),余数按整数算，例如20×0.11等于3。

示例性地，当95％>X>70％的时候，预设时间段内的图形处理器GPU总量跟当前阶段保持一致，此时说明用户的利用率较高。

示例性地，当X<70％的时候，预设时间段内的图形处理器GPU总量M为N*X，根据此公式计算出预设时间段内每个用户的可用值，减少图形处理器GPU总量。

应理解，具体应用过程中，第一预设阈值、第二预设阈值可以灵活调整，如90％，65％等，并不以此限定本申请实施例的保护范围。

应理解，本申请实施例中下一阶段的计算资源的分配情况是根据上一阶段的使用情况预测出来的，能够自适应用户的任务，灵活自动配额，减少了管理员的工作，并且能够驱动用户本身去提高自己计算资源的使用情况，从而有效的提高了整个集群的资源利用率。

在一些实施例中，结合图2，上述方法还包括S201和S202两个步骤：

S201：获取集群中所有的用户以及每个用户预设时间段内的图形处理器GPU总量，

S202：自动设置每个用户预设时间段内的图形处理器总量。

应理解，获取集群中所有的用户以及每个用户下一个时间段内的配额按照循环导入模板，模板生成每个人自己的计算资源配额配置文件，然后自动设置用户的集群配额。

在一些实施例中，上述方法还包括：

具体的，本申请实施例中，数据查询引擎通过高效的数据聚合技术，按照时间序列与任务使用者命名空间namespace归类聚合数据，提高了数据的查询速度。当用户通过认证模块到达数据查询引擎的时候，接收到查询操作时，就指定了查询特定的命名空间namespace类的数据，用户只需要输入相应的时间段以及任务的名称就能显示出相应的资源使用情况，包括曲线图，峰值，平均值等数据，从而能够直观的看出集群计算资源使用信息。

第二方面，结合图3，本发明实施例提供了一种分配集群计算资源的装置，包括：

获取模块301：获取第一时间段内集群的任务相关事件。

应理解，本申请实施例中，第一时间段可以是任一历史时间段，时间段可以是半小时，1小时，12小时等等，获取模块301获取集群的任务相关事件可以是通过在集群部署一个事件采集器，获取集群的任务相关事件，例如任务被启动，任务开始运行或者任务结束等事件，通过采集器采集到对应的事件的时间戳，任务提交者的命名空间namespace以及任务的用户身份证明信息UID等信息。

第一确定模块302：用于基于所述第一时间段内集群的任务相关事件确定第一时间段内集群的计算资源使用信息。

应理解，本申请实施例中，在集群中的所有服务器节点部署计算资源采集器，该资源采集器能够轮询每个计算任务，通过获取计算任务对应的/sys/fs/cgroup信息并且通过nvml与图形处理器GPU进行交互，第一确定模块302确定第一时间段内集群的计算资源使用信息，例如：每个图形处理器GPU的利用率，显存等使用情况。

第二确定模块303：用于基于所述第一时间段内集群计算资源使用信息确定预设时间段内需要的计算资源，分配所述计算资源。

应理解，本申请实施例中，根据指定的第一时间段如T，从数据库查询每个用户的资源使用情况，按照相应的算法，第二确定模块303确定出预设时间段内需要的计算资源，分配所述计算资源。

在一些实施例中，上述装置中任务相关事件至少包括：事件的时间戳，任务提交者的命名空间以及任务的用户身份证明信息；

在一些实施例中，上述装置中基于集群计算资源使用信息确定预设时间段内需要的计算资源，分配所述计算资源，包括：

根据算法

确定分配所述计算资源，C_i为T时间段内用户第i个任务的所有图形处理器GPU利用率的总和，t_i为第i个任务的耗时，N为用户第一时间段为用户分配的图形处理器GPU总量，T为第一时间段。

根据算法

确定分配所述计算资源。

在一些实施例中，上述装置中获取模块还用于：

自动设置每个用户预设时间段内的图形处理器总量。

在一些实施例中，结合图4，上述装置还包括：显示模块401，

图5是本公开实施例提供的一种电子设备的示意性框图。

如图5所示，电子设备包括：至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503，用于与外部设备之间的信息传输。可理解，总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线系统504。

可以理解，本实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的分配集群计算资源的方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中，处理器501通过调用存储器502存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器501用于执行本申请实施例提供的分配集群计算资源的方法各实施例的步骤。

本申请实施例提供的分配集群计算资源的方法中任一方法可以应用于处理器501中，或者由处理器501实现。处理器501可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的分配集群计算资源的方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种分配集群计算资源的方法，其特征在于，包括：

获取第一时间段内集群的任务相关事件；

2.根据权利要求1所述的分配集群计算资源的方法，其特征在于，所述任务相关事件至少包括：事件的时间戳，任务提交者的命名空间以及任务的用户身份证明信息；

3.根据权利要求1所述的分配集群计算资源的方法，其特征在于，所述基于第一时间段内集群计算资源使用信息确定预设时间段内需要的计算资源，分配所述计算资源，包括：

根据算法

确定分配所述计算资源，其中，C_i为T时间段内用户第i个任务的所有图形处理器GPU利用率的总量，t_i为第i个任务的耗时，N为用户第一时间段为用户分配的图形处理器GPU总量，T为第一时间段，

4.根据权利要求3所述的分配集群计算资源的方法，其特征在于，所述方法还包括：

自动设置每个用户预设时间段内的图形处理器GPU总量。

5.根据权利要求1所述的分配集群计算资源的方法，其特征在于，包括：

接收到查询操作时，显示所述集群第一时间段内的计算资源使用信息。

6.一种分配集群计算资源的装置，其特征在于，包括：

获取模块：获取第一时间段内集群的任务相关事件；

第一确定模块：用于基于所述第一时间段内集群的任务相关事件确定第一时间段内集群的计算资源使用信息；

第二确定模块：用于基于所述第一时间段内集群计算资源使用信息确定预设时间段内需要的计算资源，分配所述计算资源。

7.根据权利要求6所述的分配集群计算资源的装置，其特征在于，所述任务相关事件至少包括：事件的时间戳，任务提交者的命名空间以及任务的用户身份证明信息；

8.根据权利要求6所述的分配集群计算资源的装置，其特征在于，所述基于第一时间段内集群计算资源使用信息确定预设时间段内需要的计算资源，分配所述计算资源，包括：

根据算法

9.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至5任一项所述分配集群计算资源的方法。

10.一种计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至5任一项所述分配集群计算资源的方法。