CN110796591A

CN110796591A - 一种gpu卡的使用方法及相关设备

Info

Publication number: CN110796591A
Application number: CN201910912599.9A
Authority: CN
Inventors: 袁利杰
Original assignee: Guangdong Inspur Big Data Research Co Ltd
Current assignee: Guangdong Inspur Smart Computing Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-02-14
Anticipated expiration: 2039-09-25
Also published as: CN110796591B

Abstract

本发明提供了一种GPU卡的使用方法及相关设备，提高了GPU卡的使用率，降低了GPU卡的闲置时间。本申请实施例方法包括：获取GPU卡的用户使用记录；根据GPU卡的用户使用记录，利用深度学习算法预测GPU卡的闲置时间；收集所述预测的GPU卡的闲置时间内GPU卡的实际使用数据；根据所述实际使用数据，判断所述闲置时间内GPU卡的利用率是否小于预先设置的利用率阈值，若是，则将所述GPU卡对应的信息发送至管理设备；根据所述GPU卡对应的信息，所述管理设备选择释放或者保留所述GPU卡。

Description

一种GPU卡的使用方法及相关设备

技术领域

本申请涉及计算机领域，尤其涉及一种GPU卡的使用方法及相关设备。

背景技术

随着人工智能技术的发展，图像处理器(Graphics Processing Unit，GPU)集群受到越来越多的关注。GPU集群是将多个GPU卡组成一个集群，多GPU卡服务器的计算能力随GPU卡数量的增加得到了线性的提升，用户在需要将GPU卡作为开发环境进行模型调参以及算法验证时，向集群管理员申请GPU卡，但是有些用户申请到GPU卡后，使用一段时间便不再继续使用该GPU卡，造成了GPU卡的闲置，而没有GPU卡的用户在需要使用时无法申请得到GPU卡，部分GPU卡无法得到有效的利用，造成了资源的浪费。

发明内容

本申请提供了一种GPU卡的使用方法及相关设备，用于解决GPU卡无法得到有效的利用，GPU资源浪费的问题。

为了解决上述技术问题，本申请采用如下技术方案：

本申请实施例的第一方面提供了一种GPU卡的使用方法，包括：

获取GPU卡的用户使用记录；

根据GPU卡的用户使用记录，利用深度学习算法预测GPU卡的闲置时间；

收集所述预测的GPU卡的闲置时间内GPU卡的实际使用数据；

根据所述实际使用数据，判断所述闲置时间内GPU卡的利用率是否小于预先设置的利用率阈值，若是，则将所述GPU卡对应的信息发送至管理设备；

根据所述GPU卡对应的信息，所述管理设备选择释放或者保留所述GPU卡。

在一些实施方式中，所述根据GPU卡的用户使用记录，利用深度学习算法预测GPU卡的闲置时间包括：

根据GPU卡的用户使用记录，利用广义回归神经网络模型或长短期记忆模型预测GPU卡的闲置时间。

在一些实施方式中，还包括：

判断用户集中使用GPU卡的时间与所述GPU卡的闲置时间是否匹配。

在一些实施方式中，所述判断用户集中使用GPU卡的时间与所述GPU卡的闲置时间是否匹配包括：

利用深度学习算法预测用户集中使用GPU卡的时间，判断用户集中使用GPU卡的时间与所述GPU卡的闲置时间是否匹配。

在一些实施方式中，所述获取GPU卡的用户使用记录包括：

获取GPU卡使用时间、GPU卡利用率或GPU卡显存使用率。

在一些实施方式中，所述将GPU卡对应的信息发送至管理设备包括：

将GPU卡对应的信息通过邮件自动发送至管理设备。

本申请实施例的第二方面提供了一种GPU卡的使用装置，所述装置包括：

接收单元，用于获取GPU卡的用户使用记录；

处理单元，用于根据GPU卡的用户使用记录利用深度学习算法预测GPU卡的闲置时间、收集所述预测的GPU卡的闲置时间内GPU卡的实际使用数据、根据所述实际使用数据判断所述闲置时间内GPU卡的利用率是否小于预先设置的利用率阈值以及根据GPU卡对应的信息选择释放或者保留GPU卡；

发送单元，用于将GPU卡对应的信息发送至管理设备。

在一些实施方式中，包括：

所述处理单元，还用于判断用户集中使用GPU卡的时间与GPU卡的闲置时间是否匹配。

本申请实施例的第三方面提供了一种电子设备，包括存储器、处理器，其特征在于，所述处理器用于执行存储器中存储的计算机管理类程序时实现如上述任意一项所述的GPU卡的使用方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，其上存储有计算机管理类程序，其特征在于，所述计算机管理类程序被处理器执行时实现如上述任意一项所述的GPU卡得使用方法的步骤。

由此可见，本申请实施例具有如下有益效果：

根据GPU卡的用户使用记录，利用深度学习算法预测GPU卡的闲置时间，然后实时采集所述预测的GPU卡的闲置时间内GPU卡的实际使用记录，根据采集到的实际使用数据，判断所述闲置时间内GPU卡的利用率是否小于预先设置的利用率阈值，当预测的闲置时间内GPU卡的实际利用率小于预先设置的利用率阈值时，确定此时GPU卡确实处于闲置状态，然后将所述GPU卡对应的信息发送至管理设备，管理设备根据GPU卡对应的信息，选择释放或者保留所述GPU卡，这样，当拥有GPU卡的用户不再继续使用GPU卡时，可以及时有效的释放GPU卡，以供需要使用GPU卡的用户可以进行使用，提高了GPU卡的利用率，避免了GPU资源的浪费。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种可能的GPU卡的使用方法的流程图；

图2为本申请实施例提供的另一种可能的GPU卡的使用方法的流程图；

图3为本申请实施例提供的一种可能的GPU卡的使用装置的实施例示意图；

图4为本申请实施例提供的一种电子设备的实施例示意图；

图5为本申请实施例提供的一种可能的计算机可读存储介质的实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

正如背景技术中的描述，用户在申请得到GPU卡时，使用一段时间后便不再需要使用该GPU卡，造成了GPU卡的闲置，使得其他需要使用GPU卡的用户无法申请得到GPU卡，从而使得GPU卡无法得到有效的利用，造成了资源的浪费。为此，本申请提出了一种GPU卡的使用方法及相关设备，用户在使用GPU卡时，会在使用平台上留下相关的使用记录，即使用户在使用一段时间后不再使用GPU卡，这些记录仍旧不会消除，因此可以根据平台中存在的GPU卡的用户使用记录，利用深度学习算法预测GPU卡的闲置时间，预测到GPU卡的闲置时间后，实时采集所述预测的闲置时间内GPU卡的实际使用数据，根据采集的实际使用数据，判断预测的闲置时间内GPU卡的利用率是否小于预先设置的利用率阈值，当预测的闲置时间内GPU卡的利用率小于预先设置的利用率阈值时，确定预测的闲置时间内GPU卡处于闲置状态，此时将GPU卡对应的信息发送给管理设备，管理设备根据GPU卡对应的信息，选择释放或者保留该GPU卡。该方法使得GPU卡可以得到有效的利用，减少了GPU卡的闲置时间，降低了GPU资源的浪费。

为便于本领域技术人员对本申请技术方案的理解，下面将结合附图对本申请提供的GPU卡的使用方法进行详细描述。

参见图1，该图为本申请实施例提供的一种提高GPU卡使用率的方法的实施例流程图，包括以下步骤：

101、获取GPU卡的用户使用记录

图形处理器(Graphics Processing Unit，GPU)，是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器，用户在这些平台上使用GPU卡时会存在使用记录，根据平台中存储的用户使用记录，获取GPU卡的使用记录数据，例如可以通过GPU-Z实时监测GPU卡的使用率等。

102、预测GPU卡的闲置时间

利用深度学习算法预测GPU卡的闲置时间，深度学习是高度数据依赖型的算法，它的性能通常随着数据量的增加而不断增强，GPU拥有强大的计算能力，常用于需要大量重复计算的数据挖掘领域，因此利用深度学习算法预测用户集中使用GPU卡的时间范围，使得预测的准确性提高，深度学习根据学习样本数据的内在规律和表示层次，以发现数据的分布式特征，利用深度学习算法根据获得的用户的GPU卡使用记录数据，根据GPU卡使用数据的规律和特征分布，可以预测GPU卡闲置的时间范围。

103、收集预测的GPU卡闲置时间内GPU卡的实际使用数据

在利用深度学习算法预测GPU卡的闲置时间后，收集预测的闲置时间内GPU卡的实际使用数据，深度学习算法得到GPU卡的闲置时间是一个预测的闲置时间，但是通过深度学习算法对GPU卡闲置的时间进行预测后，便不需要对所有时间段的数据进行采集查看GPU卡是否闲置，因为如果对所有时间段的数据进行采集，不仅浪费大量的时间和精力，而且可能会造成设备的超负荷，预测的闲置时间内GPU卡的实际状态可以是闲置状态，也可以是非闲置状态，采集此闲置时间内GPU卡的实际使用数据，此实际使用数据可以是GPU卡的使用数据，也可以不存在实际使用数据，即此预测的时间内GPU卡没有进行使用，在此对实际使用数据并不进行限定。

104、判断闲置的时间内GPU卡的利用率

预先设置GPU卡利用率的阈值，预先设置的利用率阈值可以是根据用户某一段时间内的使用记录进行分析，例如这段时间使用次数超过5次，说明该GPU卡处于使用状态，低于5次时处于闲置状态，使用次数为5次就为一个利用率阈值，根据用户的使用场景和需要分析确定利用率阈值。根据上述收集到的闲置时间内GPU卡的实际使用记录，判断此闲置时间内GPU卡的实际利用率与预先设置的利用率阈值的大小，在GPU卡的实际利用率小于预先设置的利用率阈值时，确定预测的闲置时间内GPU卡处于闲置状态，此时将GPU卡对应的信息发送给管理设备。

105、释放或者保留GPU卡

管理设备在接收到GPU卡对应的信息后，管理设备存储GPU卡对应的信息，选择释放或者保留该GPU卡，用户根据自身实际需要，决定是否继续使用该GPU卡，当需要继续使用该GPU卡时，向管理设备发送保留该GPU卡的消息，当用户不在需要使用该GPU卡时，向管理设备发送不再继续使用该GPU卡的消息，管理设备根据接收的用户的消息以及GPU卡对应的信息，在用户继续使用该GPU卡时保留该GPU卡，在用户不需要使用该GPU卡时释放该GPU卡，以使需要使用GPU卡的用户进行使用。

参见图2，为本申请实施例提供的另一种GPU卡的使用方法的实施例流程图，可以包括以下步骤：

201、获取GPU卡的用户使用记录

用户需要使用GPU卡作为开发环境进行模型调参及算法验证等一些操作时需要向集群管理员申请GPU卡，已经申请得到GPU卡的用户在使用GPU卡时会在平台上存储GPU卡的使用记录，根据平台中的存储记录获取用户的GPU卡使用记录，如获取用户的GPU卡使用时间、GPU卡利用率、GPU卡显存使用率中的一种或几种。

202、利用深度学习算法预测GPU卡的闲置时间

利用深度学习算法中的广义回归神经网络模型或长短期记忆模型预测GPU卡的闲置时间。广义回归神经网络广泛应用于时间序列预测分析，时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征，可以根据用户的GPU卡使用记录，通过深度学习算法中的广义回归神经网络模型预测GPU卡的闲置时间，也可以根据用户的GPU卡使用记录，利用深度学习算法中的广义回归神经网络模型预测用户集中使用GPU卡的时间，然后根据用户集中使用GPU卡的时间得到GPU卡的闲置时间，也可以根据用户的GPU卡使用记录，利用深度学习算法中的广义回归神经网络模型预测用户集中使用GPU卡的时间，以判断预测的用户集中使用GPU卡的时间与预测的GPU卡的闲置时间是否匹配，从而分析预测的准确度。

长短期记忆(Long Short-Term Memory，LSTM)是一种时间递归神经网络(RNN)，能够记忆过去信息的递归神经网络，在预测未来值的同时，将过去的信息考虑在内，具体为，将时间点数据进行数值化，将具体时间转化为时间段用于表示该用户相邻两次使用GPU卡的时间间隔，然后再导入模型进行训练，生成模型训练数据集(确定训练集的窗口长度)，这里的窗口指需要几次GPU卡使用间隔用来预测下一次的使用间隔。将上述数据集按比例随机拆分为训练集和验证集，然后将数据的训练列作为参数导入模型便可得到用户集中使用GPU卡的时间范围的预测值。因此，可以根据用户的GPU卡使用记录，通过深度学习算法中的长短期记忆模型预测GPU卡的闲置时间，也可以根据用户的GPU卡使用记录，利用深度学习算法中的长短期记忆模型预测用户集中使用GPU卡的时间，然后根据用户集中使用GPU卡的时间得到GPU卡的闲置时间，也可以根据用户的GPU卡使用记录，利用深度学习算法中的长短期记忆模型预测用户集中使用GPU卡的时间，以判断预测的用户集中使用GPU卡的时间与预测的GPU卡的闲置时间是否匹配，从而分析预测的准确度。

203、收集预测的GPU卡的闲置时间内GPU卡的实际使用数据

利用深度学习算法预测到的GPU卡的闲置时间内GPU卡的实际状态可以是处于闲置状态，可以是处于工作状态，收集预测的闲置时间内GPU卡的实际使用数据，可以是零，也可以不为零，接下来进行步骤204的操作，判断预测的闲置时间内GPU卡的利用率是否小于预先设置的阈值，从而确定GPU卡的状态。

204、判断闲置时间内GPU卡的利用率是否小于预先设置的阈值

预先设置GPU的利用率阈值，此阈值根据用户的使用场景和使用方式确定，可以为GPU卡的使用次数，也可以为GPU卡的使用时间范围，根据收集到的预测闲置时间内GPU卡的实际使用数据，分析得到此闲置时间内GPU卡的实际利用率，然后利用预测的闲置时间内GPU卡的实际利用率以及预先设定的利用率阈值，判断GPU卡的状态，当预测的闲置时间内GPU卡的实际利用率小于预先设定的利用率阈值时，GPU卡处于闲置状态，确定GPU卡处于闲置状态时，将GPU卡对应的用户、任务信息等检索出来，然后发送给管理设备，可以自动将GPU卡对应的用户、任务信息发送至管理设备，可以通过邮件将GPU卡对应的用户、任务信息发送给管理设备。

205、确定选择释放或者保留GPU卡

管理设备在接收到GPU卡对应的信息后，存储GPU卡对应的信息，然后根据用户的消息，选择释放或者保留该GPU卡，用户根据自身实际需要，决定是否继续使用该GPU卡，当需要继续使用该GPU卡时，向管理设备发送保留该GPU卡的消息，当用户不再需要使用该GPU卡时，向管理设备发送不再继续使用该GPU卡的消息，管理设备根据接收的用户的消息以及GPU卡对应的信息，在用户继续使用该GPU卡时保留该GPU卡，在用户不需要使用该GPU卡时释放该GPU卡，以使需要使用GPU卡的用户进行使用。

上面对本申请实施例中GPU卡的使用方法进行了描述，下面对本申请实施例中GPU卡的使用装置进行描述，参考图3，本申请实施例中GPU卡的使用装置的一个实施例，该装置可以包括：

接收单元301，用于获取GPU卡的用户使用记录；

处理单元302，用于根据GPU卡的用户使用记录利用深度学习算法预测GPU卡的闲置时间、收集所述预测的GPU卡的闲置时间内GPU卡的实际使用数据、根据所述实际使用数据判断所述闲置时间内GPU卡的利用率是否小于预先设置的利用率阈值以及根据GPU卡对应的信息选择释放或者保留GPU卡；

发送单元303，用于将GPU卡对应的信息发送至管理设备。

参考图4，图4为本发明实施例的电子设备的实施例示意图。

如图4所示，本发明实施例提供了一种电子设备400，包括存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序411，处理器执行计算机程序411时实现以下步骤：

获取GPU卡的用户使用记录；根据GPU卡的用户使用记录，利用深度学习算法预测GPU卡的闲置时间；收集所述预测的GPU卡的闲置时间内GPU卡的实际使用数据；根据所述实际使用数据，判断所述闲置时间内GPU卡的利用率是否小于预先设置的利用率阈值，若是，则将所述GPU卡对应的信息发送至管理设备；根据所述GPU卡对应的信息，所述管理设备选择释放或者保留所述GPU卡。

在具体实施过程中，处理器420执行计算机程序411时，可以实现图1对应的实施例中任一实施方式。

由于本实施例所介绍的电子设备为实施本申请实施例中GPU卡的使用设备，故基于本申请实施例中所介绍的方法，本领域技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，因此对于该电子设备如何实现本申请实施例中的方法不再详细介绍，只要本领域技术人员实施本申请实施例中的方法所采用的的设备，都属于本申请欲保护的范围。

参考图5，图5为本申请实施例提供的一种计算机可读存储介质的实施例示意图。

如图5所示，本实施例提供了一种计算机可读存储介质500，其上存储有计算机程序511，该计算机程序511被处理器执行时实现如下步骤：

在具体实施方式，该计算机程序511被处理器执行时可以实现图1对应的实施例中任一实施方式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种GPU卡的使用方法，其特征在于，包括：

获取GPU卡的用户使用记录；

收集所述预测的GPU卡的闲置时间内GPU卡的实际使用数据；

2.根据权利要求1所述的方法，其特征在于，所述根据GPU卡的用户使用记录，利用深度学习算法预测GPU卡的闲置时间包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，所述判断用户集中使用GPU卡的时间与所述GPU卡的闲置时间是否匹配包括：

5.根据权利要求1所述的方法，其特征在于，所述获取GPU卡的用户使用记录包括：

获取GPU卡使用时间、GPU卡利用率或GPU卡显存使用率。

6.根据权利要求1所述的方法，其特征在于，所述将GPU卡对应的信息发送至管理设备包括：

将GPU卡对应的信息通过邮件自动发送给管理设备。

7.一种GPU卡的使用装置，其特征在于，包括：

接收单元，用于获取GPU卡的用户使用记录；

发送单元，用于将GPU卡对应的信息发送至管理设备。

8.根据权利要求7所述的装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器，其特征在于，所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1至6中任意一项所述的GPU卡的使用方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机管理类程序，其特征在于，所述计算机管理类程序被处理器执行时实现如权利要求1至6中任意一项所述的GPU卡的使用方法的步骤。