CN111104289A

CN111104289A - 一种gpu集群的效率检查系统及方法

Info

Publication number: CN111104289A
Application number: CN201911353711.6A
Authority: CN
Inventors: 王凯; 张发恩; 于川
Original assignee: Innovation Wisdom Shanghai Technology Co Ltd
Current assignee: Innovation Wisdom Shanghai Technology Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-05
Anticipated expiration: 2039-12-25
Also published as: CN111104289B

Abstract

本发明公开一种GPU集群的效率检查系统及方法，涉及计算机技术领域，其中方法包括：接收GPU集群管理平台上报的各资源的实时使用率；针对每个资源，在实时使用率不大于预设的使用率阈值时开始计时，大于使用率阈值时结束计时并输出实时计时结果；在实时计时结果不小于与预设的时间阈值时，连续向资源的使用用户发送使用确认通知；在每次发送使用确认通知后未检测到回复信息时进行计数并输出实时计数结果；在实时计时结果不小于预设的次数阈值时生成相应的控制指令，控制资源对应的GPU集群管理平台的容器对使用用户的资源使用行为进行保存，并停止容器以释放资源。本发明有效提高GPU集群的资源利用率。

Description

一种GPU集群的效率检查系统及方法

技术领域

本发明涉及计算机技术领域，具体涉及一种GPU集群的效率检查系统及方法。

背景技术

GPU集群时一个计算机集群，其中每个节点配备有图形处理单元，通过图形处理单元上的通用计算来利用现代GPU的计算能力，可以使用GPU集群执行非常快速的计算。当下拥有的GPU集群管理软件，架构多为k8s+docker。Kubernetes(k8s)是Google开源的容器集群管理系统。Kubernetes是一个完备的分布式系统支撑平台，具备完备的集群管理能力，多扩多层次的安全防护和准入机制、多租户应用支撑能力、透明的服务注册和发现机制、内建智能负载均衡器、强大的故障发现和自我修复能力、服务滚动升级和在线扩容能力、可扩展的资源自动调度机制以及多粒度的资源配额管理能力，同时Kubernetes提供完善的管理工具，涵盖了包括开发、部署测试、运维监控在内的各个环节。在Docker技术的基础上，为容器化的应用提供部署运行、资源调度、服务发现和动态伸缩等一系列完整功能，提高了大规模容器集群管理的便捷性。

现有GPU集群管理软件的架构虽然本身灵活性较高，但在申请者提交了交互式开发任务后，在将资源分配给使用者后，该使用者持有，其他人方可使用这样在用卡高峰期时，会造成真正有需求的人无法申请到GPU卡使用，造成与集群效率的低下。

发明内容

本发明的目的在于提供一种种GPU集群的效率检查系统及方法。

为达此目的，本发明采用以下技术方案：

提供一种GPU集群的效率检查系统，所述效率检查系统分别连接一GPU集群管理平台和若干使用用户，且各所述使用用户连接所述GPU集群管理平台，所述效率检查系统具体包括：

数据接收模块，用于接收所述GPU集群管理平台上报的各资源的实时使用率；

效率检查模块，连接所述数据接收模块，用于根据所述实时使用率对各所述资源进行效率检查，所述效率检查模块具体包括：

第一比较单元，用于针对每个所述资源，将所述实时使用率与预先设置的使用率阈值进行比较，并在所述实时使用率不大于所述使用率阈值时输出第一比较结果，以及在所述实时使用率大于所述使用率阈值时输出第二比较结果；

计时单元，连接所述第一比较单元，用于根据所述第一比较结果开始计时，并根据所述第二比较结果结束计时，并持续输出实时计时结果；

第二比较单元，连接所述计时单元，用于将所述实时计时结果与预先设置的时间阈值进行比较，并在所述实时计时结果不小于所述时间阈值时输出第三比较结果；

使用确认单元，连接所述第二比较单元，用于根据所述第三比较结果连续向所述资源的使用用户发送使用确认通知；

回复检测单元，连接所述使用确认单元，用于在每次发送所述使用确认通知后实时检测所述使用用户对所述使用确认通知的回复信息，在未检测到所述回复信息时进行计数并输出实时计数结果；

第三比较单元，连接所述回复检测单元，用于将所述实时计数结果与预先设置的次数阈值进行比较，并在所述实时计时结果不小于所述次数阈值时输出第四比较结果；

控制模块，连接所述效率检查模块，用于根据所述第四比较结果生成相应的控制指令，控制所述资源对应的所述GPU集群管理平台的容器对所述使用用户的资源使用行为进行保存，并停止所述容器以释放所述资源。

作为本发明的一种优选方案，所述使用率阈值为0。

作为本发明的一种优选方案，所述时间阈值为30分钟。

作为本发明的一种优选方案，所述次数阈值为5。

作为本发明的一种优选方案，连续向所述资源的所述使用用户发送所述使用确认通知的时间间隔为30分钟。

作为本发明的一种优选方案，还包括标记单元，连接所述第三比较单元，用于根据所述第四比较结果对所述使用用户的资源使用行为进行标记。

作为本发明的一种优选方案，还包括行为预测模块，连接所述效率检查模块，所述行为预测模块具体包括：

数据获取单元，用于在对各所述资源进行效率检查的过程中获取每个所述使用用户关联的效率检查关键行为；

数据分析单元，连接所述数据获取单元，用于对所述效率检查关键行为进行回归分析得到回归分析结果；

数据预测单元，连接所述数据分析单元，用于根据所述第三比较结果和所述回归分析结果预测所述使用用户的使用行为；

数据调整单元，连接所述数据预测单元，用于在所述使用行为表示所述使用用户对所述资源已使用完成时，对所述次数阈值进行调整。

作为本发明的一种优选方案，所述次数阈值的调整结果为3。

作为本发明的一种优选方案，所述次数阈值的调整结果为1。

一种GPU集群的资源管理方法，应用于以上任意一项所述的GPU集群的效率检查系统，所述GPU集群的资源管理方法具体包括以下步骤：

步骤S1，所述效率检查系统接收所述GPU集群管理平台上报的各资源的实时使用率；

步骤S2，所述效率检查系统针对每个所述资源，将所述实时使用率与预先设置的使用率阈值进行比较，并在所述实时使用率不大于所述使用率阈值时输出第一比较结果，以及在所述实时使用率大于所述使用率阈值时输出第二比较结果；

步骤S3，所述效率检查系统根据所述第一比较结果开始计时，并根据所述第二比较结果结束计时，并持续输出实时计时结果；

步骤S4，所述效率检查系统将所述实时计时结果与预先设置的时间阈值进行比较：

若所述实时计时结果小于所述时间阈值，则返回所述步骤S1；

若所述实时计时结果不小于所述时间阈值，则转向步骤S5；

步骤S5，所述效率检查系统连续向所述资源的使用用户发送使用确认通知；

步骤S6，所述效率检查系统在每次发送所述使用确认通知后实时检测所述使用用户对所述使用确认通知的回复信息，在未检测到所述回复信息时进行计数并输出实时计数结果；

步骤S7，所述效率检查系统将所述实时计数结果与预先设置的次数阈值进行比较：

若所述实时计时结果小于所述次数阈值，则返回所述步骤S1；

若所述实时计时结果不小于所述次数阈值，则转向步骤S8；

步骤S8，所述效率检查系统生成相应的控制指令，控制所述资源对应的所述GPU集群管理平台的容器对所述使用用户的资源使用行为进行保存，并停止所述容器以释放所述资源。

作为本发明的一种优选方案，还包括在一行为预测过程，具体包括以下步骤：

步骤A1，所述效率检查系统在对各所述资源进行效率检查的过程中获取每个所述使用用户关联的效率检查关键行为；

步骤A2，所述效率检查系统对所述效率检查关键行为进行回归分析得到回归分析结果；

步骤A3，所述效率检查系统根据所述第三比较结果和所述回归分析结果预测所述使用用户的使用行为；

步骤A4，所述效率检查系统在所述使用行为表示所述使用用户对所述资源已使用完成时，对所述次数阈值进行调整。

本发明的有益效果：可以在多种情景下提高GPU集群的资源利用率，减少因使用用户忘记停止可以停止的任务而造成的浪费，及时释放资源，需要时再进行资源申请，从而使k8s+docker架构的GPU集群的灵活性得到更大的发挥。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例所述的一种GPU集群的效率检查系统的结构示意图。

图2是本发明一实施例所述的一种GPU集群的效率检查系统的原理框图。

图3是本发明一实施例所述的一种GPU集群的资源管理方法的流程示意图。

图4是本发明一实施例所述的行为预测过程的流程示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

针对现有技术中存在的问题，本发明提供一种GPU集群的效率检查系统，如图1所示，效率检查系统1分别连接一GPU集群管理平台2和若干使用用户3，且各使用用户3连接GPU集群管理平台2，效率检查系统1具体包括：

数据接收模块11，用于接收GPU集群管理平台2上报的各资源的实时使用率；

效率检查模块12，连接数据接收模块11，用于根据实时使用率对各资源进行效率检查，效率检查模块12具体包括：

第一比较单元121，用于针对每个资源，将实时使用率与预先设置的使用率阈值进行比较，并在实时使用率不大于使用率阈值时输出第一比较结果，以及在实时使用率大于使用率阈值时输出第二比较结果；

计时单元122，连接第一比较单元121，用于根据第一比较结果开始计时，并根据第二比较结果结束计时，并持续输出实时计时结果；

第二比较单元123，连接计时单元122，用于将实时计时结果与预先设置的时间阈值进行比较，并在实时计时结果不小于时间阈值时输出第三比较结果；

使用确认单元124，连接第二比较单元123，用于根据第三比较结果连续向资源的使用用户发送使用确认通知；

回复检测单元125，连接使用确认单元124，用于在每次发送使用确认通知后实时检测使用用户对使用确认通知的回复信息，在未检测到回复信息时进行计数并输出实时计数结果；

第三比较单元126，连接回复检测单元125，用于将实时计数结果与预先设置的次数阈值进行比较，并在实时计时结果不小于次数阈值时输出第四比较结果；

控制模块13，连接效率检查模块12，用于根据第四比较结果生成相应的控制指令，控制资源对应的GPU集群管理平台2的容器对使用用户3的资源使用行为进行保存，并停止容器以释放资源。

具体地，本实施例中，本发明的效率检查系统1，通过与连接所述GPU集群管理平台2以及GPU管理平台2的若干使用用户3进行信息交互，能够获取各所述使用用户使用所述GPU集群管理平台2中存储的资源的实时使用率。首先通过将实时使用率与预设的使用率阈值进行比较，若实时使用率大于使用率阈值则说明使用用户当前仍在使用该资源，若实时使用率不大于使用率阈值则说明使用用户可能已经不再使用该资源，但忘记向GPU集群管理平台2进行确认，此时，需对实时使用率进行进一步分析。

上述进一步分析优选为统计上述实时使用率不大于使用率阈值的持续时间，即上述实时计时结果。若实时计时结果小于预设的时间阈值，则说明使用用户当前仍在使用该资源，只是使用频率较低，若实时计时结果不小于预设的时间阈值，则进一步确认使用用户可能已经不再使用该资源，但忘记向GPU集群管理平台2进行确认，此时，本发明的效率检查系统1采取主动确认的方式进一步确认使用用户的资源使用情况。

上述主动确认的方式优选为通过向使用用户多次发送使用确认通知的方式，请求使用用户确认该资源是否还在使用。上述使用确认通知的发送方式包括但不限于邮件形式。若使用用户对使用确认通知的回复信息为仍在使用，则继续对该资源的实时使用率进行效率检查；若使用用户对使用确认通知的回复信息为不再使用，则释放该资源；若使用用户对使用确认通知一直未给出回复信息，且使用确认通知的发送次数已达到预设的次数阈值，则本发明的效率检查系统1判定使用用户已经不再使用该资源，此时通过对该使用用户的资源使用行为进行保存以保留恢复可能，同时强制释放该资源，以供其他用户使用，有效下提高资源利用率，减少因使用用户忘记停止可以停止的任务而造成的浪费，及时释放资源。

作为本发明的一种优选方案，使用率阈值为0。

作为本发明的一种优选方案，时间阈值为30分钟。

作为本发明的一种优选方案，次数阈值为5。

作为本发明的一种优选方案，连续向资源的使用用户3发送使用确认通知的时间间隔为30分钟。

作为本发明的一种优选方案，还包括标记单元127，连接第三比较单元126，用于根据第四比较结果对使用用户3的资源使用行为进行标记。

作为本发明的一种优选方案，还包括行为预测模块14，连接效率检查模块12，行为预测模块14具体包括：

数据获取单元141，用于在对各资源进行效率检查的过程中获取每个使用用户关联的效率检查关键行为；

数据分析单元142，连接数据获取单元141，用于对效率检查关键行为进行回归分析得到回归分析结果；

数据预测单元143，连接数据分析单元142，用于根据第三比较结果和回归分析结果预测使用用户的使用行为；

数据调整单元144，连接数据预测单元143，用于在使用行为表示使用用户对资源已使用完成时，对次数阈值进行调整。

具体地，本实施例中，在对各资源的实时使用率进行效率检查的基础上，通过对每个使用用户关联的效率检查关键行为进行记录，在本发明的效率检查系统1运行一段时间后，能够通过对使用用户的效率检查关键行为进行回归分析，预测该使用用户的实时使用率不大于使用率阈值时，使用用户是资源使用完毕后忘记确认还是资源还未使用完毕，并在预测结果为资源使用完毕后忘记确认时，对向使用用户发送使用确认通知的次数阈值进行调整，优选将减少上述次数阈值至3次，甚至1次，从而最大程度减少资源浪费。

作为本发明的一种优选方案，次数阈值的调整结果为3。

作为本发明的一种优选方案，次数阈值的调整结果为1。

作为本发明的另一实施例，如图2所示，使用用户A与GPU集群管理平台进行信息交互，通过申请资源获取资源A并开始使用。在使用过程中，效率检查系统获取GPU管理平台上报的资源A的使用率，若发现资源A的使用率持续半小时为0，则向用户A发送请求确认邮件，以向用户A确认继续使用或不再使用该资源，并且在持续五次发送上述请求确认邮件均未收到用户A的回复响应时，控制GPU集群管理平台保存容器并停止，以释放资源A。

此外，效率检查系统还能够根据使用人的行为路径记录，通过回归分析，预测用户A的下次使用资源时，在资源低使用率的情况下，任务的可终止性。

一种GPU集群的资源管理方法，应用于以上任意一项的GPU集群的效率检查系统，如图3所示，GPU集群的资源管理方法具体包括以下步骤：

步骤S1，效率检查系统接收GPU集群管理平台上报的各资源的实时使用率；

步骤S2，效率检查系统针对每个资源，将实时使用率与预先设置的使用率阈值进行比较，并在实时使用率不大于使用率阈值时输出第一比较结果，以及在实时使用率大于使用率阈值时输出第二比较结果；

步骤S3，效率检查系统根据第一比较结果开始计时，并根据第二比较结果结束计时，并持续输出实时计时结果；

步骤S4，效率检查系统将实时计时结果与预先设置的时间阈值进行比较：

若实时计时结果小于时间阈值，则返回步骤S1；

若实时计时结果不小于时间阈值，则转向步骤S5；

步骤S5，效率检查系统连续向资源的使用用户发送使用确认通知；

步骤S6，效率检查系统在每次发送使用确认通知后实时检测使用用户对使用确认通知的回复信息，在未检测到回复信息时进行计数并输出实时计数结果；

步骤S7，效率检查系统将实时计数结果与预先设置的次数阈值进行比较：

若实时计时结果小于次数阈值，则返回步骤S1；

若实时计时结果不小于次数阈值，则转向步骤S8；

步骤S8，效率检查系统生成相应的控制指令，控制资源对应的GPU集群管理平台的容器对使用用户的资源使用行为进行保存，并停止容器以释放资源。

作为本发明的一种优选方案，还包括在一行为预测过程，如图4所示，具体包括以下步骤：

步骤A1，效率检查系统在对各资源进行效率检查的过程中获取每个使用用户关联的效率检查关键行为；

步骤A2，效率检查系统对效率检查关键行为进行回归分析得到回归分析结果；

步骤A3，效率检查系统根据第三比较结果和回归分析结果预测使用用户的使用行为；

步骤A4，效率检查系统在使用行为表示使用用户对资源已使用完成时，对次数阈值进行调整。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种GPU集群的效率检查系统，其特征在于，所述效率检查系统分别连接一GPU集群管理平台和若干使用用户，且各所述使用用户连接所述GPU集群管理平台，所述效率检查系统具体包括：

2.根据权利要求1所述的GPU集群的效率检查系统，其特征在于，所述使用率阈值为0。

3.根据权利要求1所述的GPU集群的效率检查系统，其特征在于，所述时间阈值为30分钟。

4.根据权利要求1所述的GPU集群的效率检查系统，其特征在于，所述次数阈值为5。

5.根据权利要求1所述的GPU集群的效率检查系统，其特征在于，连续向所述资源的所述使用用户发送所述使用确认通知的时间间隔为30分钟。

6.根据权利要求1所述的GPU集群的效率检查系统，其特征在于，还包括标记单元，连接所述第三比较单元，用于根据所述第四比较结果对所述使用用户的资源使用行为进行标记。

7.根据权利要求1所述的GPU集群的效率检查系统，其特征在于，还包括行为预测模块，连接所述效率检查模块，所述行为预测模块具体包括：

8.根据权利要求7所述的GPU集群的效率检查系统，其特征在于，所述次数阈值的调整结果为3。

9.根据权利要求7所述的GPU集群的效率检查系统，其特征在于，所述次数阈值的调整结果为1。

10.一种GPU集群的效率检查方法，其特征在于，应用于如权利要求1-9中任意一项所述的GPU集群的效率检查系统，所述GPU集群的资源管理方法具体包括以下步骤：

若所述实时计时结果不小于所述时间阈值，则转向步骤S5；

若所述实时计时结果不小于所述次数阈值，则转向步骤S8；

11.根据权利要求10所述的GPU集群的效率检查方法，其特征在于，还包括在一行为预测过程，具体包括以下步骤：