CN108446173B

CN108446173B - 一种基于Tensorflow的训练模型保存方法及驱动器、计算服务器

Info

Publication number: CN108446173B
Application number: CN201810162033.4A
Authority: CN
Inventors: 袁建勇; 余远铭; 王超
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-02-27
Filing date: 2018-02-27
Publication date: 2022-04-05
Anticipated expiration: 2038-02-27
Also published as: CN108446173A

Abstract

本申请提供了一种基于Tensorflow的训练模型保存方法：驱动器获取并存储第一标识和第二标识，第一标识为运行有参数服务器的计算设备的标识，第二标识为与参数服务器运行在同一个计算设备的计算服务器的标识。计算服务器从驱动器获取第一标识和第二标识，在确认计算服务器运行的计算设备的标识与第一标识相同，且计算服务器的标识与第二标识相同的情况下，存储训练模型，从而提高训练模型保存的成功率。

Description

一种基于Tensorflow的训练模型保存方法及驱动器、计算服务器

技术领域

本申请涉及电子信息领域，尤其涉及一种基于Tensorflow的训练模型保存方法及驱动器、计算服务器。

背景技术

张量流Tensorflow是一款Google出品的机器学习模型，它提供了分布式的机器学习以及深度学习能力。

图1为Tensorflow常见的一种架构Tensorflow On Spark的结构示意图，Tensorflow On Spark包括以下逻辑单元：Spark驱动器Driver、计算服务器和参数服务器。其中，Spark Driver将训练任务调度到多个计算服务器上，并向每个计算服务器分发训练数据。计算服务器依据训练任务和训练数据执行训练过程，得到模型参数的反馈值，参数服务器依据反馈值，修正模型参数(例如模型参数包括各层神经网络的权重与偏差)，并在训练结束后，保存得到的模型参数。在训练结束后，计算服务器保存训练得到的模型。

一个或多个计算服务器运行在一个计算设备(计算设备为实体设备或虚拟设备)上，全部计算服务器分布运行在多个计算设备上。参数服务器运行在多个计算设备中的一个计算设备上。

而在实际应用中，图1所示的Tensorflow On Spark架构，可能出现训练模型保存失败的问题。

发明内容

申请人在研究的过程中发现，保存训练模型的计算服务器与参数服务器运行在同一个计算设备，是保证训练模型成功保存的一个关键因素。因此，本申请提供了一种基于Tensorflow的训练模型保存方法及驱动器、计算服务器，目的在于使得保存训练模型的计算服务器与参数服务器运行在同一个计算设备，以解决训练模型保存失败的问题。

本申请的第一方面提供了一种基于Tensorflow的训练模型保存方法，包括：驱动器获取第一标识，所述第一标识为运行有参数服务器的计算设备的标识。所述驱动器获取第二标识，所述第二标识为与所述参数服务器运行在同一个计算设备的计算服务器的标识。所述驱动器存储所述第一标识和所述第二标识，所述第一标识和所述第二标识为所述计算服务器存储训练模型的依据。基于所述第一标识和所述第二标识的定义，驱动器存储第一标识和第二标识后，为计算服务器确定自身是否与参数服务器运行在同一个计算设备上提供依据，使得与参数服务器运行在同一个计算设备上的计算服务器存储训练的模型，从而提高模型存储的成功率。

本申请的第二方面提供了一种基于Tensorflow的驱动器，包括：第一获取模块、第二获取模块和存储模块。其中，第一获取模块用于获取第一标识，所述第一标识为运行有参数服务器的计算设备的标识。第二获取模块用于获取第二标识，所述第二标识为与所述参数服务器运行在同一个计算设备的计算服务器的标识。存储模块用于存储所述第一标识和所述第二标识。基于Tensorflow的驱动器能够提高计算服务器存储训练的模型的成功率。

在一个实现方式中，在所述驱动器获取第二标识之前，还包括：所述驱动器将训练任务调度到多个计算服务器上，并向每个计算服务器发送训练数据，使得接收到所述训练任务和所述训练数据的每个计算服务器执行训练过程，得到模型参数的反馈值，所述反馈值用于所述参数服务器修正所述模型参数。所述驱动器收集执行所述训练过程的各个计算服务器所在的计算设备的标识。所述驱动器确定运行在目标计算设备上的所述计算服务器为所述与所述参数服务器运行在同一个计算设备的计算服务器，所述目标计算设备为与所述参数服务器运行的计算设备具有相同标识的计算设备。

在一个实现方式中，所述计算设备的标识包括：所述计算设备的IP地址。

在一个实现方式中，所述驱动器存储所述第一标识和所述第二标识包括：所述驱动器将所述第一标识与所述第二标识对应存储在存储系统中，所述存储系统支持多个计算服务器的访问。

本申请的第三方面提供了一种基于Tensorflow的训练模型保存方法，包括：计算服务器依据接收到的训练任务和训练数据，执行训练过程。所述计算服务器获取第一标识和第二标识，所述第一标识为运行有参数服务器的计算设备的标识，所述第二标识为与所述参数服务器运行在同一个计算设备的计算服务器的标识。所述计算服务器在确认所述计算服务器运行的计算设备的标识与所述第一标识相同，且所述计算服务器的标识与所述第二标识相同的情况下，存储训练模型。可见，保存训练模型的计算服务器与参数服务器运行在同一个计算设备，以解决训练模型保存失败的问题，从而提高模型保存的成功率。

本申请的第四方面提供了一种基于Tensorflow的计算服务器，包括：训练模块、获取模块和存储模块。其中，训练模块用于依据接收到的训练任务和训练数据，执行训练过程。获取模块用于获取第一标识和第二标识，所述第一标识为运行有参数服务器的计算设备的标识，所述第二标识为与所述参数服务器运行在同一个计算设备的计算服务器的标识。存储模块用于在确认所述计算服务器运行的计算设备的标识与所述第一标识相同，且所述计算服务器的标识与所述第二标识相同的情况下，存储训练模型，以解决训练模型保存失败的问题，从而提高模型保存的成功率。

附图说明

图1为现有的Tensorflow On Spark架构示意图；

图2为本申请实施例公开的Tensorflow On Spark架构示意图；

图3为本申请实施例公开的基于Tensorflow的训练模型保存方法的流程图；

图4为本申请实施例公开的基于Tensorflow的驱动器的结构示意图；

图5为本申请实施例公开的基于Tensorflow的计算服务器的结构示意图。

具体实施方式

本申请所述的训练模型保存方法，可以应用在图2所示的Tensorflow On Spark架构中。与图1相比，图2所示的Tensorflow On Spark架构，增加了存储系统，并对SparkDriver、计算服务器和参数服务器进行了改进，使得保存模型的计算服务器与参数服务器运行在同一个计算设备。

图2所示的计算设备为运行操作系统的设备，可以包括物理机、虚拟机或者Docker容器等。

图3为本申请实施例公开的基于Tensorflow的训练模型保存方法，包括以下步骤：

S301：Spark Driver在将训练任务调度到多个计算服务器上后，获取参数服务器的网络协议(Internet Protocol，IP)地址，并将参数服务器的IP地址存储在存储系统中。

如图2所示，因为参数服务器运行在计算设备上，因此，参数服务器的IP地址为其运行的计算设备的IP地址。

具体的，Spark Driver可以启动一个进程，用于收集参数服务器的IP地址。

S302：Spark Driver获取与参数服务器具有相同的IP地址的一个计算服务器的标识。

如图2所示，因为计算服务器运行在计算设备上，因此，计算服务器的IP地址为其运行的计算设备的IP地址。与参数服务器具有相同的IP地址的计算服务器，即为与参数服务器运行在同一个计算设备上的计算服务器。

任意一个计算服务器的标识为预先为该计算服务器分配的唯一标识，用于区分该计算服务器与其它的计算服务器。例如，计算服务器的标识为预先为计算服务器分配的编号。

如前所述，因为一个计算设备上可能运行多个计算服务器，因此，有可能多个计算服务器均与参数服务器具有相同的IP地址，因此，具体的，获取与参数服务器具有相同的IP地址的一个计算服务器标识的具体方式可以为以下任意一种：

第一种方式：按照预设的顺序遍历计算服务器，对于当前访问到的计算服务器执行以下步骤：比较当前访问到的计算服务器与参数服务器的IP地址是否相同，如果是，存储当前访问到的计算服务器的标识。按照上述步骤，如果多个计算服务器均与参数服务器具有相同的IP地址，则获取的标识为遍历过程中最后确定出的一个与参数服务器具有相同的IP地址的计算服务器的标识。

第二种方式：找出所有与参数服务器的IP地址的计算服务器，从中随机选择一个计算服务器，存储选择的计算服务器的标识。

第三种方式：逐一将计算服务器作为目标计算服务器，比较目标计算服务器与参数服务器的IP地址是否相同，直至找到与参数服务器具有相同的IP地址的计算服务器，存储与参数服务器具有相同的IP地址的计算服务器的标识。按照上述步骤，找到与参数服务器具有相同的IP地址的计算服务器，则停止迭代，因此，获取的为最初确定出的与参数服务器具有相同的IP地址的计算服务器的标识。

具体的，Spark Driver可以启动一个进程，用于执行以上任意一种方式。

S303：Spark Driver将S302中获取的标识存储在存储系统中。

具体的，可以将获取的参数服务器的IP地址与目标标识对应存储在存储系统中。例如，将IP地址作为Key值，将上述获取的标识作为Value值，形成Key-Value对存储。

S304：在Spark Driver向每个计算服务器分发训练数据后，计算服务器开始训练过程。

S305：在训练完成后，各个计算服务器获取存储系统中存储的参数服务器的IP地址以及计算服务器的标识，例如，前述Key-Value对。

S306：各个计算服务器判断自身的IP地址是否与上述从存储系统中获取的IP地址相同，以及自身的标识是否与上述从存储系统中获取的标识相同，如果是，执行S307，如果否，不做处理。

S307：计算服务器存储训练得到的模型。

具体的，可以使用Tensorflow提供的软件开发攻击包(Software DevelopmentKit，SDK)存储训练模型。

从图3所示的过程可以看出，只有在计算服务器判断出自身的IP地址与参数服务器的IP地址相同的情况下，才存储训练模型，因此，能够避免在本地找不到训练模型临时文件的问题，从而保证训练模型的成功保存。

需要说明的是，图3所示的实施例中，以保存与参数服务器具有相同的IP地址的一个计算服务器的标识为例说明，理由为：如前所述，一个计算设备上可能运行多个(例如两个)计算服务器，而运行在一个计算设备上的多个计算服务器的IP地址相同，因此，有可能多个计算服务器的IP地址与参数服务器的IP地址相同。而申请人在研究的过程中发现，如果多个计算服务器均保存训练模型，则有可能会由于多个计算服务器并发访问而导致文件读取不正确，从而导致训练模型存储失败。

因此，本实施例中，除了依据IP地址是否相同之外，还将计算服务器的唯一标识作为依据，因此，在与参数服务器具有相同的IP地址的计算服务器的数量为多个的情况下，选择一个计算服务器保存训练模型，以避免多个计算服务器并发保存训练模型的情况，从而成功存储训练模型。

而以上由于多个计算服务器并发访问而导致训练模型存储失败问题有可能不存在，因此，保存与参数服务器具有相同的IP地址的一个计算服务器的标识仅为示例，而不作为限定。

在图3的过程中可以看出，各个计算服务器均需要从存储系统中读取IP地址和标识，因此，图2所示的存储系统为共享存储系统，例如分布式存储系统。

需要说明的是，图3所示的过程中，以计算设备的IP地址为例进行说明，本申请的实施例中，除了使用IP地址之外，还可以使用其它能够唯一标识计算设备的标识，例如预先为计算设备分配的唯一的编号，代替IP地址，作为判断参数服务器是否与计算服务器运行在同一个计算设备的依据。

为了与计算服务器的标识区分，可以使用第一类型的编号，例如数字，作为计算设备的标识，使用第二类型的编号，例如字母，作为计算服务器的标识。

图2所示的基于Tensorflow的驱动器的结构如图4所示，包括第一获取模块401、第二获取模块402和存储模块403，可选的，还可以包括训练模块404。

其中，训练模块404用于将训练任务调度到多个计算服务器上，并向每个计算服务器发送训练数据，使得接收到所述训练任务和所述训练数据的每个计算服务器执行训练过程，得到模型参数的反馈值；所述反馈值用于所述参数服务器修正所述模型参数。第一获取模块401用于获取第一标识，所述第一标识为运行有参数服务器的计算设备的标识。第二获取模块402用于获取第二标识，所述第二标识为与所述参数服务器运行在同一个计算设备的计算服务器的标识，可选的，第二获取模块402在所述获取第二标识之前，还用于：收集执行所述训练过程的各个计算服务器所在的计算设备的标识，并确定运行在目标计算设备上的所述计算服务器为所述与所述参数服务器运行在同一个计算设备的计算服务器，所述目标计算设备为与所述参数服务器运行的计算设备具有相同标识的计算设备。存储模块403用于存储所述第一标识和所述第二标识。

以上各个模块的功能的具体实现方式，可以参见上述方法实施例，这里不再赘述。

图4所示的驱动器，能够存储第一标识和第二标识，从而为训练模块的成功存储奠定基础。

图2所示的基于Tensorflow的计算服务器的结构如图5所示，包括：获取模块501和存储模块502，可选的，还可以包括训练模块503。

其中，训练模块503用于依据接收到的训练任务和训练数据，执行训练过程。获取模块501用于获取第一标识和第二标识，所述第一标识为运行有参数服务器的计算设备的标识，所述第二标识为与所述参数服务器运行在同一个计算设备的计算服务器的标识。存储模块502，用于在确认所述计算服务器运行的计算设备的标识与所述第一标识相同，且所述计算服务器的标识与所述第二标识相同的情况下，存储训练模型。

图5所示的计算服务器，能够在自身与参数服务器运行在同一个计算设备的情况下，存储训练模型。因此，能够保证训练模型的成功存储。

Claims

1.一种基于Tensorflow的训练模型保存方法，其特征在于，包括：

驱动器获取第一标识，所述第一标识为运行有参数服务器的计算设备的标识；

所述驱动器获取第二标识，所述第二标识为与所述参数服务器运行在同一个计算设备的计算服务器的标识；

所述驱动器存储所述第一标识和所述第二标识，以便所述计算服务器在确认所述计算服务器运行的计算设备的标识与所述第一标识相同，且所述计算服务器的标识与所述第二标识相同的情况下，存储训练模型。

2.根据权利要求1所述的方法，其特征在于，在所述驱动器获取第二标识之前，还包括：

所述驱动器将训练任务调度到多个计算服务器上，并向每个计算服务器分别发送训练数据，使得接收到所述训练任务和所述训练数据的每个计算服务器执行训练过程，得到模型参数的反馈值；所述反馈值用于所述参数服务器修正所述模型参数；所述驱动器收集执行所述训练过程的各个计算服务器所在的计算设备的标识；

所述驱动器确定运行在目标计算设备上的所述计算服务器为所述与所述参数服务器运行在同一个计算设备的计算服务器，所述目标计算设备为与所述参数服务器运行的计算设备具有相同标识的计算设备。

3.根据权利要求1或2所述的方法，其特征在于，所述计算设备的标识包括：

所述计算设备的IP地址。

4.根据权利要求1或2所述的方法，其特征在于，所述驱动器存储所述第一标识和所述第二标识包括：

所述驱动器将所述第一标识与所述第二标识对应存储在存储系统中，所述存储系统支持多个计算服务器的访问。

5.一种基于Tensorflow的训练模型保存方法，其特征在于，包括：

计算服务器依据接收到的训练任务和训练数据，执行训练过程；

所述计算服务器获取第一标识和第二标识，所述第一标识为运行有参数服务器的计算设备的标识，所述第二标识为与所述参数服务器运行在同一个计算设备的计算服务器的标识；

所述计算服务器在确认所述计算服务器运行的计算设备的标识与所述第一标识相同，且所述计算服务器的标识与所述第二标识相同的情况下，存储训练模型。

6.一种基于Tensorflow的驱动器，其特征在于，包括：

第一获取模块，用于获取第一标识，所述第一标识为运行有参数服务器的计算设备的标识；

第二获取模块，用于获取第二标识，所述第二标识为与所述参数服务器运行在同一个计算设备的计算服务器的标识；

存储模块，用于存储所述第一标识和所述第二标识，以便所述计算服务器在确认所述计算服务器运行的计算设备的标识与所述第一标识相同，且所述计算服务器的标识与所述第二标识相同的情况下，存储训练模型。

7.根据权利要求6所述的驱动器，其特征在于，还包括：

训练模块，用于将训练任务调度到多个计算服务器上，并向每个计算服务器分别发送训练数据，使得接收到所述训练任务和所述训练数据的每个计算服务器执行训练过程，得到模型参数的反馈值；所述反馈值用于所述参数服务器修正所述模型参数；

所述第二获取模块在所述获取第二标识之前，还用于：

收集执行所述训练过程的各个计算服务器所在的计算设备的标识；

确定运行在目标计算设备上的所述计算服务器为所述与所述参数服务器运行在同一个计算设备的计算服务器，所述目标计算设备为与所述参数服务器运行的计算设备具有相同标识的计算设备。

8.根据权利要求6或7所述的驱动器，其特征在于，所述计算设备的标识包括：

所述计算设备的IP地址。

9.根据权利要求6或7所述的驱动器，其特征在于，所述存储模块用于存储所述第一标识和所述第二标识包括：

所述存储模块具体用于，将所述第一标识与所述第二标识对应存储在存储系统中，所述存储系统支持多个计算服务器的访问。

10.一种基于Tensorflow的计算服务器，其特征在于，包括：

训练模块，用于依据接收到的训练任务和训练数据，执行训练过程；

获取模块，用于获取第一标识和第二标识，所述第一标识为运行有参数服务器的计算设备的标识，所述第二标识为与所述参数服务器运行在同一个计算设备的计算服务器的标识；

存储模块，用于在确认所述计算服务器运行的计算设备的标识与所述第一标识相同，且所述计算服务器的标识与所述第二标识相同的情况下，存储训练模型。