CN110033095A

CN110033095A - 一种高可用分布式机器学习计算框架的容错方法和系统

Info

Publication number: CN110033095A
Application number: CN201910159918.3A
Authority: CN
Inventors: 郑培凯; 李�真; 张晨滨; 宋煦; 肖臻
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2019-07-19

Abstract

本发明涉及一种高可用分布式机器学习计算框架的容错方法和系统。该方法建立分布式机器学习框架，包括多个Master节点、多个Server节点、多个Agent节点，其中Agent节点和Server节点、Master节点通信，每个Server节点存储一部分参数，每个Agent节点存储一部分训练数据，计算本地的参数更新量；Master节点记录其它节点的信息及机器学习任务相关的信息；Master节点组成高可用的Master集群，通过分布式一致性哈希算法和参数备份实现Server节点的高可用，通过重新启动进行Agent节点的故障恢复。本发明能够提高分布式机器学习系统的高可用性，能够灵活高效地进行故障恢复。

Description

一种高可用分布式机器学习计算框架的容错方法和系统

技术领域

本发明涉及分布式系统以及机器学习领域，具体为一种高可用分布式机器学习计算框架的容错方法和系统。

背景技术

机器学习，尤其是深度学习已经在语音识别、图像识别和自然语言处理领域获得了巨大的成功。由于模型的训练过程中涉及到海量的训练数据，最终得到规模庞大的模型，因此机器学习平台通常都是分布式平台，部署数十个甚至上千个节点。随着机器规模的增大，在模型训练过程中难以避免机器故障问题，因此提供一个高可用的机器学习系统是工业生产中必须面对的问题，即提供一个容错性好的机器学习系统。

其中，MXNet(https://github.com/apache/incubator-mxnet)和Tensorflow(https://github.com/tensorflow/tensorflow)是应用最为广泛的分布式机器学习系统。在容错方面，MXNet和Tensorflow系统均使用检查点机制保证基本的容错，即当发生机器故障的时候，系统回退到最新的检查点，然后继续进行模型训练。检查点技术的优势在于系统鲁棒性好，逻辑实现简单，但是该方法存在的明显缺点则是系统恢复时间长，当系统规模扩展到一定规模之后系统恢复的代价比较大。

发明内容

为了提高分布式机器学习系统的高可用性，降低故障恢复时间，本发明提供一种灵活高效的故障恢复方法，即针对不同类别的服务器节点提供不同的故障恢复策略。

本发明采用的技术方案如下：

一种高可用分布式机器学习计算框架的容错方法，包括以下步骤：

建立分布式机器学习框架，包括至少两个Master节点、多个Server节点、多个Agent节点，其中Agent节点只和Server节点、Master节点通信，Agent节点之间不通信；每个Server节点存储一部分参数，所有的Server节点的参数组成整体的参数；每个Agent节点存储一部分训练数据，计算本地的参数更新量；Master节点记录Server节点和Agent节点的信息以及和机器学习任务相关的信息；

采用所述至少两个Master节点组成高可用的Master集群；采用分布式一致性哈希算法和参数备份的方式实现所述Server节点的高可用；采用重新启动的方式进行所述Agent节点的故障恢复。

进一步地，所述高可用的Master集群包含至少两个保持同步状态的Master节点，当其他节点和某个Master节点通信失败时，选择和另一个Master节点通信。

进一步地，Master节点定期和Server节点以及Agent节点发送和接收心跳信息来检测故障并了解整个集群的状态信息以及任务的执行情况，如果某个Master节点出现故障，则Server节点和Agent节点切换到另一个Master节点上并发出警报，然后修复出现故障的Master节点。

进一步地，采用Zookeeper开源软件搭建高可用的Master集群；Master节点与Zookeeper节点是分离的，Server节点和Agent节点只需要和Master节点进行系统控制信号的交互，由Master节点来完成和Zookeeper集群系统状态的同步。

进一步地，所述采用分布式一致性哈希算法和参数备份的方式实现所述Server节点的高可用，包括：

采用一致性哈希算法将Server节点映射到一个环上，每个节点都保存逆时针的前序Server节点的参数，从而达到每个参数保存两份的目的；

Master节点通过接收Server节点的心跳信息来检测Server节点是否出现故障；如果某个Server节点出现故障，Master节点启动故障修复策略，发出参数同步的控制信号，将出现故障的Server节点所负责的参数调整到其它Server节点，然后把更改后集群的状态信息分发给所有的Server节点和Agent节点。

进一步地，出现故障的Server节点修复后，或者是新引入一个Server节点后，Master节点按照一致性哈希算法把这个Server节点加入到环上。

进一步地，所述Server节点在实现更新协议时，考虑Agent节点可能出现的故障。

进一步地，Server节点和Agent节点中保存Master节点的列表，以便向Master节点同步状态；每个Server节点保存Server节点的列表，以便根据前序Server节点的地址和端口完成参数的同步和备份；每个Agent节点保存参数的划分信息，以便完成与Server节点的通信。

一种高可用分布式机器学习系统，包括至少两个Master节点、多个Server节点、多个Agent节点，其中Agent节点只和Server节点、Master节点通信，Agent节点之间不通信；每个Server节点存储一部分参数，所有的Server节点的参数组成整体的参数；每个Agent节点存储一部分训练数据，计算本地的参数更新量；Master节点记录Server节点和Agent节点的信息以及和机器学习任务相关的信息；所述至少两个Master节点组成高可用的Master集群；所述Server节点采用分布式一致性哈希算法和参数备份的方式实现高可用；所述Agent节点采用重新启动的方式进行的故障恢复。

一种采用上面所述高可用分布式机器学习系统的机器学习任务处理方法，包括以下步骤：

1)Master节点接收到用户提交的机器学习任务信息，Master节点启动相应数量的Server节点和Agent节点，并等待Server节点和Agent节点的注册信息；

2)Master节点接收到所有节点的注册信息之后，将集群状态信息写入Zookeeper集群，完成Master节点之间的同步，然后Master节点将集群状态信息分发给所有的Server节点和Agent节点；

3)机器学习任务启动，Agent节点计算参数的更新，Server节点完成参数的合并；

4)机器学习任务结束，Server节点将训练得到的参数输出到文件；

5)Server节点和Agent节点发送结束信号到Master节点并退出。

本发明相较于现有系统的明显优势包括：不存在Master节点的单点故障问题，即Master集群能够提供高可用服务；Server节点能够延迟备份参数；Server节点和Agent节点单点故障不影响整个任务的执行；本发明具有更加完善的故障检测机制，能够及时发现节点故障。

附图说明

图1是本发明的系统结构图。图片中的长虚线表示集群的控制信号，当上方的Master节点发生故障之后，所有节点切换到下方的Master节点；黑色实线表示Server节点之间的参数备份和同步；短虚线表示Agent节点和Server节点之间的参数更新。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明所提出的容错设计依托于现有的“插件式”分布式机器学习框架。该机器学习框架包括一个Master节点(主节点)、多个Server节点(参数服务器节点)、多个Agent节点(代理节点)，其中Agent节点只和Server节点、Master节点通信，Agent节点之间不通信。每个Server节点存储一部分参数，并且在训练的时候只更新这一部分参数，所有的Server节点的参数组成整体的参数。每个Agent节点存储一部分训练数据，计算本地的参数更新量比如梯度。Master节点记录Server节点和Agent节点信息以及和机器学习任务相关的信息。

本发明提出的容错方案分为三部分：Master节点的容错、Server节点的容错、Agent节点的容错。相较于其他机器学习系统的单个Master节点设计，本系统采用多个Master节点组成一个高可用的Master集群，保证Master集群出现单点故障的情况下依然能够处理集群的状态以及外部的请求。工程实践中常见的故障是硬件故障。美国CMU大学的一项研究通过对22个高性能计算系统9年间的全部错误统计表明，在错误数量方面，硬件错误的占比最高，约占全部错误数量的65％。由于硬件错误造成的系统停机时间约占总停机时间的60％。硬件错误的特点是错误发生后，系统立刻停止运行，即所谓的fail stop，比如电源故障(power failure)就属于典型的硬件故障。硬件错误一般是独立发生的，可以认为多台Master节点同时故障的概率极小。采用分布式一致性哈希和参数备份的方式完成Server节点的高可用，提供延迟恢复的策略。由于Agent节点是无状态的并且不依赖也不影响其他的节点，因此本系统采用重新启动的方法完成Agent节点的故障恢复。

下文将分别阐述本实施例中Master节点的容错、Server节点的容错、Agent节点的容错这三个方面的容错设计。

1.Master节点的容错设计

本系统中的Master节点担负着存储、维护集群状态的职责，如果发生故障，将导致整个集群系统的瘫痪。可以说，Master节点的高可用性是整个集群保持高可用性的关键。所以，本系统中的容错首先要设计出一套处理Master节点故障的方案。

本发明采用Zookeeper开源软件搭建高可用集群，其中包含多个(目前是两个)保持同步状态的Master节点，如图1所示，当其他节点和第一个Master节点通信失败的时候，选择和第二个Master节点通信。每次接收到一个任务时，Master节点订阅Zookeeper集群的一个Watcher，启动所需数目的server节点和Agent节点(包括Worker节点)，然后Master节点等待其它节点的注册信息。当所有的节点注册完成后，Master节点将集群信息和任务的配置信息写入Zookeeper集群，使得两个Master节点能够同步到一致的状态。最后Master节点将任务的配置信息和集群的状态信息发给所有的Server和Agent节点，然后任务开始执行。

Master节点定期和Server节点以及Agent节点发送和接收心跳信息来检测故障并了解整个集群的状态信息以及任务的执行情况。如果某个Master节点出现了故障，那么Server节点和Agent节点将切换到另一台Master节点上并发出警报，这时需要修复出现了故障的Master节点。这种方法可以允许单点故障。如果需要容两台Master节点同时发生故障的情况，那么Zookeeper集群里需要包含更多的处于同步状态的Master节点，否则如果所有Master节点都发生了故障将导致整个集群瘫痪。

除了存储集群的状态之外，Master节点还提供一些用户交互的操作，比如提交任务、任务的分发调度等。本系统中Master节点与Zookeeper节点是分离的，这样可以简化Server节点和Agent节点的设计：这两类节点只需要和Master节点进行系统控制信号的交互，由Master节点来完成和Zookeeper集群系统状态的同步。Zookeeper集群的写入操作相对于读取操作来说是非常耗时的。如果Server节点和Agent节点同时与Zookeeper集群进行交互，肯定会影响系统整体的效率。通过增加Master节点这一个中间层，能够进行一些操作的缓存，比如在集群启动的时候，Server节点和Agent节点的注册信息等，提高系统的运行效率。

2.Server节点的容错设计

本系统中的Server节点担负着保存计算任务中所有参数的职责。随着机器学习模型的不断增大，有些模型的参数数目超过了单台服务器能够容纳的范围。当系统通过梯度下降(gradient descent)来迭代计算模型参数时，这些计算结果就是保存在Server节点上。如果Server节点发生故障，将导致这些参数计算结果的丢失。

本系统设计中每个参数都有两个备份，分别存储在两台不同的Server节点上。这里的关键在于如何维护参数到Server节点之间的映射，动态支持增删Server节点。我们采用的是分布式系统中常用的一致性哈希算法。这个算法将Server节点映射到一个环上(如图1所示，其中S表示Server节点)，每个节点都保存逆时针的前序Server节点的参数，从而达到每个参数保存两份的目的。如果Master节点连续几次都接收不到某个Server节点的心跳信息，那么Master节点认为该Server出现了故障。这种情况下，Master节点将会启动故障修复策略，发出参数同步的控制信号，将出现故障的Server节点所负责的参数调整到其它节点，然后把更改后集群的状态信息分发给所有的Server和Agent节点。将来这台出现了故障的节点修复后，或者是系统中新引入一个节点后，Master节点再按照一致性哈希算法把这个节点加入到环上。这里我们同样假设保存同一组参数的两个节点不会同时发生故障，这样给用一致性哈希来解决节点的动态增删留出了时间。

3.Agent节点的容错设计

Agent节点的故障对系统带来的影响是比较小的。由于Agent节点主要负责运算操作，所以在出现故障的时候，只会造成计算结果的丢失，这时只要重新启动该节点或者在另一个Agent节点上重新计算就可以了。因此Agent节点需要做的只是和Master节点保持心跳。但是，Agent节点的故障对于Server节点的更新协议有着一些影响，需要Server节点在实现ASP、SSP、BSP这些更新协议时考虑到Agent节点可能出现的故障即可。

4.集群状态信息表示

综上所述，为了保证系统的高可用性，每个节点都需要持有集群的状态信息。以下列举关键的集群状态信息：

1.Master节点的列表。Server节点和Agent节点需要向Master节点同步状态，所以需要保存Master节点的地址和端口；如在前面叙述到的Master节点的高可用性中提到的，集群中存在2个及以上的Master节点，因此Master节点列表是必须的。比如，最开始所有节点都和第一个Master节点通信，执行到中间的时候，第一个Master节点通信失败，这个时候Server节点和Agent节点需要迅速的切换到第二个Master节点。Master节点是一个有顺序的列表，所有的节点的Master节点列表都是相同的，当第一个Master节点通信失败时，顺序选择下一个Master节点进行通信，直到遇到通信成功的Master节点。

2.Server节点的列表和参数划分信息。如Server节点的容错设计所提到的，每个Server节点需要清楚前序Server节点的地址和端口才能完成参数的同步和备份；Agent节点需要知道参数的划分信息才能完成与Server节点的通信。

3.心跳状态。Master节点依靠心跳状态来保证Server节点和Agent节点处于可用状态。如果Master节点超过一定的时间限制没有收到Server节点的心跳信息，则Master节点会启动Server节点的故障恢复程序，并且在Server节点完成恢复之后更新集群状态信息。为了保证心跳状态的可用性，Master节点之间需要定期同步。

5.系统启动流程

1.Master节点接收到用户提交的机器学习任务信息，Master节点启动相应数量的Server节点和Agent节点，并等待Server节点和Agent节点的注册信息；

2.Master节点接收到所有节点的注册信息之后，将集群状态信息写入Zookeeper集群，完成Master节点之间的同步，然后Master节点将集群状态信息分发给所有的节点；

3.机器学习任务启动，Agent节点计算参数的更新，Server节点完成参数的合并；

4.机器学习任务结束，Server节点将训练得到的参数输出到文件；

5.Server节点和Agent节点发送结束信号到Master节点并退出。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种高可用分布式机器学习计算框架的容错方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述高可用的Master集群包含至少两个保持同步状态的Master节点，当其他节点和某个Master节点通信失败时，选择和另一个Master节点通信。

3.根据权利要求1所述的方法，其特征在于，Master节点定期和Server节点以及Agent节点发送和接收心跳信息来检测故障并了解整个集群的状态信息以及任务的执行情况，如果某个Master节点出现故障，则Server节点和Agent节点切换到另一个Master节点上并发出警报，然后修复出现故障的Master节点。

4.根据权利要求1所述的方法，其特征在于，采用Zookeeper开源软件搭建高可用的Master集群；Master节点与Zookeeper节点是分离的，Server节点和Agent节点只需要和Master节点进行系统控制信号的交互，由Master节点来完成和Zookeeper集群系统状态的同步。

5.根据权利要求1所述的方法，其特征在于，所述采用分布式一致性哈希算法和参数备份的方式实现所述Server节点的高可用，包括：

6.根据权利要求5所述的方法，其特征在于，出现故障的Server节点修复后，或者是新引入一个Server节点后，Master节点按照一致性哈希算法把这个Server节点加入到环上。

7.根据权利要求1所述的方法，其特征在于，所述Server节点在实现更新协议时，考虑Agent节点可能出现的故障。

8.根据权利要求1所述的方法，其特征在于，Server节点和Agent节点中保存Master节点的列表，以便向Master节点同步状态；每个Server节点保存Server节点的列表，以便根据前序Server节点的地址和端口完成参数的同步和备份；每个Agent节点保存参数的划分信息，以便完成与Server节点的通信。

9.一种高可用分布式机器学习系统，其特征在于，包括至少两个Master节点、多个Server节点、多个Agent节点，其中Agent节点只和Server节点、Master节点通信，Agent节点之间不通信；每个Server节点存储一部分参数，所有的Server节点的参数组成整体的参数；每个Agent节点存储一部分训练数据，计算本地的参数更新量；Master节点记录Server节点和Agent节点的信息以及和机器学习任务相关的信息；所述至少两个Master节点组成高可用的Master集群；所述Server节点采用分布式一致性哈希算法和参数备份的方式实现高可用；所述Agent节点采用重新启动的方式进行的故障恢复。

10.一种采用权利要求9所述高可用分布式机器学习系统的机器学习任务处理方法，其特征在于，包括以下步骤：

5)Server节点和Agent节点发送结束信号到Master节点并退出。