CN110399252A

CN110399252A - 一种数据备份方法、装置、设备及计算机可读存储介质

Info

Publication number: CN110399252A
Application number: CN201910656879.8A
Authority: CN
Inventors: 姬贵阳
Original assignee: Guangdong Inspur Big Data Research Co Ltd
Current assignee: Guangdong Inspur Smart Computing Technology Co Ltd
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-11-01

Abstract

本发明公开了一种数据备份方法，该方法包括以下步骤：获取当前用于模型训练的目标GPU设备的设备状态信息；根据设备状态信息判断GPU设备是否达到预警条件；若是，则对模型训练数据进行保存操作；当检测到目标GPU设备驱动失败时，将模型训练数据发送到GPU集群中目标GPU设备的备用GPU设备。应用本发明实施例所提供的技术方案，较大地节省了时间，提高了训练效率。本发明还公开了一种数据备份装置、设备及存储介质，具有相应技术效果。

Description

一种数据备份方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及计算机应用技术领域，特别是涉及一种数据备份方法、装置、设备及计算机可读存储介质。

背景技术

在利用主机上GPU设备进行模型训练的过程中，由于不同的模型或不同的模型迭代参数均会造成GPU设备温度升高，使用率超负荷，或者当主机所在机房的环境温度较高时，GPU设备的放置条件等造成GPU设备丢失。主机上安装GPU驱动，通过nvidia-smi可以查看GPU驱动的详细信息，模型训练任务中同样需要挂载GPU设备(/dev/nvidia0)，模型训练过程中GPU设备丢失造成GPU驱动无法使用，例如：原本主机上八张GPU设备，由于模型训练原因造成的一张或多张设备丢失，GPU驱动已无法在训练模型中使用，模型中的迭代训练任务已经中断，通过lspci查看到实际的GPU设备数量与安装GPU驱动已经不一致了。

在GPU设备丢失，GPU驱动无法使用后，如果存在正在运行的训练任务，则导致训练任务停滞，任务的中断，用户需要通过主机重启，驱动重装等，重新进行模型训练，导致数天的成果丢失，造成较大的时间浪费，模型训练效率低。

综上所述，如何有效地解决在GPU设备丢失后，需要主机重启，驱动重装重新进行模型训练，时间浪费严重，训练效率低等问题，是目前本领域技术人员急需解决的问题。

发明内容

本发明的目的是提供一种数据备份方法，该方法较大地节省了时间，提高了训练效率；本发明的另一目的是提供一种数据备份装置、设备及计算机可读存储介质。

为解决上述技术问题，本发明提供如下技术方案：

一种数据备份方法，包括：

获取当前用于模型训练的目标GPU设备的设备状态信息；

根据所述设备状态信息判断所述目标GPU设备是否达到预警条件；

若是，则对模型训练数据进行保存操作；

当检测到所述目标GPU设备驱动失败时，将所述模型训练数据发送到GPU集群中所述目标GPU设备的备用GPU设备。

在本发明的一种具体实施方式中，在将所述模型训练数据备份到GPU集群中所述目标GPU设备的备用GPU设备之后，还包括：

利用所述备用GPU设备基于所述模型训练数据进行模型训练。

在本发明的一种具体实施方式中，获取当前用于模型训练的目标GPU设备的设备状态信息，包括：

获取所述目标GPU设备的各预警参数信息；

根据各所述预警参数信息和分别对应的预设权重，计算预警值；

根据所述设备状态信息判断所述目标GPU设备是否达到预警条件，包括：

判断所述预警值是否达到预设上限值。

在本发明的一种具体实施方式中，对模型训练数据进行保存操作，包括：

按预设时间间隔对所述模型训练数据进行保存操作。

在本发明的一种具体实施方式中，在确定所述目标GPU设备达到预警条件之后，还包括：

生成预警信息，并对所述预警信息进行显示操作。

一种数据备份装置，包括：

信息获取模块，用于获取当前用于模型训练的目标GPU设备的设备状态信息；

判断模块，用于根据所述设备状态信息判断所述目标GPU设备是否达到预警条件；

保存模块，用于在确定所述目标GPU设备达到预警条件时，对模型训练数据进行保存操作；

数据备份模块，用于当检测到所述目标GPU设备驱动失败时，将所述模型训练数据发送到GPU集群中所述目标GPU设备的备用GPU设备。

在本发明的一种具体实施方式中，还包括：

模型训练模块，用于利用所述备用GPU设备基于所述模型训练数据进行模型训练。

在本发明的一种具体实施方式中，所述信息获取模块包括：

信息获取子模块，用于获取所述目标GPU设备的各预警参数信息；

预警值计算子模块，用于根据各所述预警参数信息和分别对应的预设权重，计算预警值；

所述判断模块具体为判断所述预警值是否达到预设上限值的模块。

一种数据备份设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如前所述数据备份方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前所述数据备份方法的步骤。

应用本发明实施例所提供的方法，获取当前用于模型训练的目标GPU设备的设备状态信息；根据设备状态信息判断目标GPU设备是否达到预警条件；若是，则对模型训练数据进行保存操作；当检测到目标GPU设备驱动失败时，将模型训练数据发送到GPU集群中目标GPU设备的备用GPU设备。通过预先设定目标GPU设备的预警条件，在根据获取到的目标GPU设备的设备状态信息确定达到预警条件时，及时进行模型训练数据保存。当检测到目标GPU设备驱动失败时，将保存的模型训练数据发送到备用GPU设备，以便利用备用GPU设备基于保存的模型训练数据继续进行模型训练，本发明相较于现有的通过主机重启，驱动重装重新进行模型训练的方式，较大地节省了时间，提高了训练效率。

相应的，本发明实施例还提供了与上述数据备份方法相对应的数据备份装置、设备和计算机可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中数据备份方法的一种实施流程图；

图2为本发明实施例中数据备份方法的另一种实施流程图；

图3为本发明实施例中一种数据备份装置的结构框图；

图4为本发明实施例中一种数据备份设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

参见图1，图1为本发明实施例中数据备份方法的一种实施流程图，该方法可以包括以下步骤：

S101：获取当前用于模型训练的目标GPU设备的设备状态信息。

在利用目标GPU设备进行深度学习模型训练的过程中，可以利用主机对GPU设备进行监控，获取当前用于模型训练的目标GPU设备的设备状态信息。设备状态信息可以包括目标GPU设备的温度、内存、功耗及利用率等信息。

目标GPU设备为任一处于模型训练过程的GPU设备。

S102：根据设备状态信息判断目标GPU设备是否达到预警条件，若是，则执行步骤S103，若否，则不做处理。

可以预先设置对目标GPU设备进行预警的预警条件，在获取到目标GPU设备的设备状态信息之后，可以根据设备状态信息判断目标GPU设备是否达到预警条件。如可以设置温度阈值，内存剩余空间阈值、功耗阈值及利用率阈值等，当其中一项或多项达到阈值时，判为达到预警条件。或者可以设置温度、内存、功耗及利用率等的权重信息，根据各项数值和对应的权重信息计算，得到计算结果，根据计算结果判断是否达到预警条件。

S103：对模型训练数据进行保存操作。

在确定目标GPU设备达到预警条件时，说明目标GPU设备将不能正常工作，此时可以对模型训练数据进行保存操作，从而避免模型训练数据的丢失。具体的可以采用实时保存的方式，也可以采用按照一定时间间隔的方式对模型训练数据进行保存。

S104：当检测到目标GPU设备驱动失败时，将模型训练数据发送到GPU集群中目标GPU设备的备用GPU设备。

GPU集群作为管理大量GPU设备的系统平台，其存在多个GPU设备，在目标GPU设备达到预警条件之后，当检测到目标GPU设备驱动失败时，可以将模型训练数据备份到GPU集群中目标GPU设备的备用GPU设备，避免模型训练数据丢失，使得保存的训练任务不中断。目标GPU设备的备用GPU设备大多数是与目标GPU设备的闲置GPU卡数量相同的设备。

在将模型训练数据发送到备用GPU设备之后，以便利用备用GPU设备基于模型训练数据，承接先前的模型训练结果进行模型训练，从而不需要重新进行模型训练，使得模型训练数据再利用，提高了开发人员的开发效率，缩短了训练时间，提高了训练任务的稳定性，减少训练成本。

应用本发明实施例所提供的方法，获取当前用于模型训练的目标GPU设备的设备状态信息；根据设备状态信息判断GPU设备是否达到预警条件；若是，则对模型训练数据进行保存操作；当检测到目标GPU设备驱动失败时，将模型训练数据备份到GPU集群中目标GPU设备的备用GPU设备。通过预先设定目标GPU设备的预警条件，在根据获取到的目标GPU设备的设备状态信息确定达到预警条件时，及时进行模型训练数据保存。当检测到目标GPU设备驱动失败时，将保存的模型训练数据发送到备用GPU设备，以便利用备用GPU设备基于保存的模型训练数据继续进行模型训练，本发明相较于现有的通过主机重启，驱动重装重新进行模型训练的方式，较大地节省了时间，提高了训练效率。

需要说明的是，基于上述实施例一，本发明实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例一中相同步骤或相应步骤之间可相互参考，相应的有益效果也可相互参照，在下文的改进实施例中不再一一赘述。

实施例二：

参见图2，图2为本发明实施例中数据备份方法的另一种实施流程图，该方法可以包括以下步骤：

S201：获取目标GPU设备的各预警参数信息。

在利用目标GPU设备进行模型训练的过程中，可以获取目标GPU设备的各预警参数信息，如目标GPU设备的温度、内存、功耗及利用率等预警参数信息。

S202：根据各预警参数信息和分别对应的预设权重，计算预警值。

可以预先设置关于目标GPU设备的预警值计算公式，承接上述举例，当预警参数信息包括温度、内存、功耗及利用率时，可以将各预警参数信息进行归一化，并预先设置各预警参数信息的权重，使得计算出的预警值在0到1范围内，预警公式可以设置如下：

warnV＝temp*weightT+mem*weightM+pow*weightP+use*weightU+...；

其中，warnV为计算得出的预警值，temp为归一化后的温度值，weightT为温度权重，mem为归一化后的内存值，weightM为归一化后的内存权重，pow为功耗值，weightP为功耗权重，use为归一化后的利用率，weightU为利用率权重。

并且可以为各预警参数信息设置不同的权重，例如可以设置温度权重大于内存权重，内存权重大于功耗权重，利用率权重最小。

S203：判断预警值是否达到预设上限值，若是，则执行步骤S204，若否，则不做处理。

可以预先设置预警值对应的上限值，在通过计算得到预警值之后，可以判断预警值是否达到预设上限值，若达到的预设上限值，则说明GPU设备将进入无法驱动的状态，在这种情况下，可以继续执行步骤S204，若未达到预设上限值，则说明GPU设备当前处于正常运行状态，不需要做任何处理。

需要说明的是，本发明实施例对预警值对应的上限值的设置不做限定，如可以上限值设置为0.8。

S204：按预设时间间隔对模型训练数据进行保存操作。

可以预先设置在确定目标GPU设备达到预警值对应的上限值之后对模型训练数据进行保存的时间间隔，在确定目标GPU设备的预警值对应的上限值时，可以按预设时间间隔对模型训练数据进行保存操作。在这种情况下，既避免模型训练数据的丢失，又不会影响目标GPU设备进行模型训练。

S205：生成预警信息，并对预警信息进行显示操作。

在确定目标GPU设备的预警值对应的上限值时，可以生成预警信息，并对预警信息进行显示操作。通过对预警信息进行显示，可以提示运维人员目标GPU设备将进入无法正常驱动状态。

S206：当检测到目标GPU设备驱动失败时，将模型训练数据发送到GPU集群中目标GPU设备的备用GPU设备。

S207：利用备用GPU设备基于模型训练数据进行模型训练。

需要说明是，本发明实施例对步骤S204和步骤S205的执行顺序不做限定，可以先执行步骤S204后执行步骤S205，也可以先执行步骤S205后执行步骤S204，还可以对步骤S204和步骤S205进行并行执行。

相应于上面的方法实施例，本发明实施例还提供了一种数据备份装置，下文描述的数据备份装置与上文描述的数据备份方法可相互对应参照。

参见图3，图3为本发明实施例中一种数据备份装置的结构框图，该装置可以包括：

信息获取模块31，用于获取当前用于模型训练的目标GPU设备的设备状态信息；

判断模块32，用于根据设备状态信息判断目标GPU设备是否达到预警条件；

保存模块33，用于在确定目标GPU设备达到预警条件时，对模型训练数据进行保存操作；

数据备份模块34，用于当检测到目标GPU设备驱动失败时，将模型训练数据发送到GPU集群中目标GPU设备的备用GPU设备。

应用本发明实施例所提供的装置，获取当前用于模型训练的目标GPU设备的设备状态信息；根据设备状态信息判断目标GPU设备是否达到预警条件；若是，则对模型训练数据进行保存操作；当检测到目标GPU设备驱动失败时，将模型训练数据备份到GPU集群中目标GPU设备的备用GPU设备；利用备用GPU设备基于模型训练数据进行模型训练。通过预先设定目标GPU设备的预警条件，在根据获取到的目标GPU设备的设备状态信息确定达到预警条件时，及时进行模型训练数据保存。当检测到目标GPU设备驱动失败时，将保存的模型训练数据发送到备用GPU设备，利用备用GPU设备基于保存的模型训练数据继续进行模型训练，本发明相较于现有的通过主机重启，驱动重装重新进行模型训练的方式，较大地节省了时间，提高了训练效率。

在本发明的一种具体实施方式中，该装置还可以包括：

模型训练模块，用于利用备用GPU设备基于模型训练数据进行模型训练。

在本发明的一种具体实施方式中，信息获取模块31包括：

信息获取子模块，用于获取目标GPU设备的各预警参数信息；

预警值计算子模块，用于根据各预警参数信息和分别对应的预设权重，计算预警值；

判断模块具体为判断预警值是否达到预设上限值的模块。

在本发明的一种具体实施方式中，保存模块33具体为按预设时间间隔对模型训练数据进行保存操作的模块。

在本发明的一种具体实施方式中，该装置还可以包括：

显示模块，用于在确定目标GPU设备达到预警条件之后，生成预警信息，并对预警信息进行显示操作。

相应于上面的方法实施例，参见图4，图4为本发明所提供的数据备份设备的示意图，该设备可以包括：

存储器41，用于存储计算机程序；

处理器42，用于执行上述存储器41存储的计算机程序时可实现如下步骤：

获取当前用于模型训练的目标GPU设备的设备状态信息；根据设备状态信息判断目标GPU设备是否达到预警条件；若是，则对模型训练数据进行保存操作；当检测到目标GPU设备驱动失败时，将模型训练数据发送到GPU集群中目标GPU设备的备用GPU设备。

对于本发明提供的设备的介绍请参照上述方法实施例，本发明在此不做赘述。

相应于上面的方法实施例，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现如下步骤：

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例，本发明在此不做赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种数据备份方法，其特征在于，包括：

获取当前用于模型训练的目标GPU设备的设备状态信息；

若是，则对模型训练数据进行保存操作；

2.根据权利要求1所述的数据备份方法，其特征在于，在将所述模型训练数据发送到GPU集群中所述目标GPU设备的备用GPU设备之后，还包括：

利用所述备用GPU设备基于所述模型训练数据进行模型训练。

3.根据权利要求1或2所述的数据备份方法，其特征在于，获取当前用于模型训练的目标GPU设备的设备状态信息，包括：

获取所述目标GPU设备的各预警参数信息；

判断所述预警值是否达到预设上限值。

4.根据权利要求3所述的数据备份方法，其特征在于，对模型训练数据进行保存操作，包括：

按预设时间间隔对所述模型训练数据进行保存操作。

5.根据权利要求4所述的数据备份方法，其特征在于，在确定所述目标GPU设备达到预警条件之后，还包括：

生成预警信息，并对所述预警信息进行显示操作。

6.一种数据备份装置，其特征在于，包括：

7.根据权利要求5所述的数据备份装置，其特征在于，还包括：

8.根据权利要求6或7所述的数据备份装置，其特征在于，所述信息获取模块包括：

9.一种数据备份设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述数据备份方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述数据备份方法的步骤。