CN110033095A - 一种高可用分布式机器学习计算框架的容错方法和系统 - Google Patents

一种高可用分布式机器学习计算框架的容错方法和系统 Download PDF

Info

Publication number
CN110033095A
CN110033095A CN201910159918.3A CN201910159918A CN110033095A CN 110033095 A CN110033095 A CN 110033095A CN 201910159918 A CN201910159918 A CN 201910159918A CN 110033095 A CN110033095 A CN 110033095A
Authority
CN
China
Prior art keywords
node
master
server
agent
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910159918.3A
Other languages
English (en)
Inventor
郑培凯
李�真
张晨滨
宋煦
肖臻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201910159918.3A priority Critical patent/CN110033095A/zh
Publication of CN110033095A publication Critical patent/CN110033095A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明涉及一种高可用分布式机器学习计算框架的容错方法和系统。该方法建立分布式机器学习框架,包括多个Master节点、多个Server节点、多个Agent节点,其中Agent节点和Server节点、Master节点通信,每个Server节点存储一部分参数,每个Agent节点存储一部分训练数据,计算本地的参数更新量;Master节点记录其它节点的信息及机器学习任务相关的信息;Master节点组成高可用的Master集群,通过分布式一致性哈希算法和参数备份实现Server节点的高可用,通过重新启动进行Agent节点的故障恢复。本发明能够提高分布式机器学习系统的高可用性,能够灵活高效地进行故障恢复。

Description

一种高可用分布式机器学习计算框架的容错方法和系统
技术领域
本发明涉及分布式系统以及机器学习领域,具体为一种高可用分布式机器学习计算框架的容错方法和系统。
背景技术
机器学习,尤其是深度学习已经在语音识别、图像识别和自然语言处理领域获得了巨大的成功。由于模型的训练过程中涉及到海量的训练数据,最终得到规模庞大的模型,因此机器学习平台通常都是分布式平台,部署数十个甚至上千个节点。随着机器规模的增大,在模型训练过程中难以避免机器故障问题,因此提供一个高可用的机器学习系统是工业生产中必须面对的问题,即提供一个容错性好的机器学习系统。
其中,MXNet(https://github.com/apache/incubator-mxnet)和Tensorflow(https://github.com/tensorflow/tensorflow)是应用最为广泛的分布式机器学习系统。在容错方面,MXNet和Tensorflow系统均使用检查点机制保证基本的容错,即当发生机器故障的时候,系统回退到最新的检查点,然后继续进行模型训练。检查点技术的优势在于系统鲁棒性好,逻辑实现简单,但是该方法存在的明显缺点则是系统恢复时间长,当系统规模扩展到一定规模之后系统恢复的代价比较大。
发明内容
为了提高分布式机器学习系统的高可用性,降低故障恢复时间,本发明提供一种灵活高效的故障恢复方法,即针对不同类别的服务器节点提供不同的故障恢复策略。
本发明采用的技术方案如下:
一种高可用分布式机器学习计算框架的容错方法,包括以下步骤:
建立分布式机器学习框架,包括至少两个Master节点、多个Server节点、多个Agent节点,其中Agent节点只和Server节点、Master节点通信,Agent节点之间不通信;每个Server节点存储一部分参数,所有的Server节点的参数组成整体的参数;每个Agent节点存储一部分训练数据,计算本地的参数更新量;Master节点记录Server节点和Agent节点的信息以及和机器学习任务相关的信息;
采用所述至少两个Master节点组成高可用的Master集群;采用分布式一致性哈希算法和参数备份的方式实现所述Server节点的高可用;采用重新启动的方式进行所述Agent节点的故障恢复。
进一步地,所述高可用的Master集群包含至少两个保持同步状态的Master节点,当其他节点和某个Master节点通信失败时,选择和另一个Master节点通信。
进一步地,Master节点定期和Server节点以及Agent节点发送和接收心跳信息来检测故障并了解整个集群的状态信息以及任务的执行情况,如果某个Master节点出现故障,则Server节点和Agent节点切换到另一个Master节点上并发出警报,然后修复出现故障的Master节点。
进一步地,采用Zookeeper开源软件搭建高可用的Master集群;Master节点与Zookeeper节点是分离的,Server节点和Agent节点只需要和Master节点进行系统控制信号的交互,由Master节点来完成和Zookeeper集群系统状态的同步。
进一步地,所述采用分布式一致性哈希算法和参数备份的方式实现所述Server节点的高可用,包括:
采用一致性哈希算法将Server节点映射到一个环上,每个节点都保存逆时针的前序Server节点的参数,从而达到每个参数保存两份的目的;
Master节点通过接收Server节点的心跳信息来检测Server节点是否出现故障;如果某个Server节点出现故障,Master节点启动故障修复策略,发出参数同步的控制信号,将出现故障的Server节点所负责的参数调整到其它Server节点,然后把更改后集群的状态信息分发给所有的Server节点和Agent节点。
进一步地,出现故障的Server节点修复后,或者是新引入一个Server节点后,Master节点按照一致性哈希算法把这个Server节点加入到环上。
进一步地,所述Server节点在实现更新协议时,考虑Agent节点可能出现的故障。
进一步地,Server节点和Agent节点中保存Master节点的列表,以便向Master节点同步状态;每个Server节点保存Server节点的列表,以便根据前序Server节点的地址和端口完成参数的同步和备份;每个Agent节点保存参数的划分信息,以便完成与Server节点的通信。
一种高可用分布式机器学习系统,包括至少两个Master节点、多个Server节点、多个Agent节点,其中Agent节点只和Server节点、Master节点通信,Agent节点之间不通信;每个Server节点存储一部分参数,所有的Server节点的参数组成整体的参数;每个Agent节点存储一部分训练数据,计算本地的参数更新量;Master节点记录Server节点和Agent节点的信息以及和机器学习任务相关的信息;所述至少两个Master节点组成高可用的Master集群;所述Server节点采用分布式一致性哈希算法和参数备份的方式实现高可用;所述Agent节点采用重新启动的方式进行的故障恢复。
一种采用上面所述高可用分布式机器学习系统的机器学习任务处理方法,包括以下步骤:
1)Master节点接收到用户提交的机器学习任务信息,Master节点启动相应数量的Server节点和Agent节点,并等待Server节点和Agent节点的注册信息;
2)Master节点接收到所有节点的注册信息之后,将集群状态信息写入Zookeeper集群,完成Master节点之间的同步,然后Master节点将集群状态信息分发给所有的Server节点和Agent节点;
3)机器学习任务启动,Agent节点计算参数的更新,Server节点完成参数的合并;
4)机器学习任务结束,Server节点将训练得到的参数输出到文件;
5)Server节点和Agent节点发送结束信号到Master节点并退出。
本发明相较于现有系统的明显优势包括:不存在Master节点的单点故障问题,即Master集群能够提供高可用服务;Server节点能够延迟备份参数;Server节点和Agent节点单点故障不影响整个任务的执行;本发明具有更加完善的故障检测机制,能够及时发现节点故障。
附图说明
图1是本发明的系统结构图。图片中的长虚线表示集群的控制信号,当上方的Master节点发生故障之后,所有节点切换到下方的Master节点;黑色实线表示Server节点之间的参数备份和同步;短虚线表示Agent节点和Server节点之间的参数更新。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明所提出的容错设计依托于现有的“插件式”分布式机器学习框架。该机器学习框架包括一个Master节点(主节点)、多个Server节点(参数服务器节点)、多个Agent节点(代理节点),其中Agent节点只和Server节点、Master节点通信,Agent节点之间不通信。每个Server节点存储一部分参数,并且在训练的时候只更新这一部分参数,所有的Server节点的参数组成整体的参数。每个Agent节点存储一部分训练数据,计算本地的参数更新量比如梯度。Master节点记录Server节点和Agent节点信息以及和机器学习任务相关的信息。
本发明提出的容错方案分为三部分:Master节点的容错、Server节点的容错、Agent节点的容错。相较于其他机器学习系统的单个Master节点设计,本系统采用多个Master节点组成一个高可用的Master集群,保证Master集群出现单点故障的情况下依然能够处理集群的状态以及外部的请求。工程实践中常见的故障是硬件故障。美国CMU大学的一项研究通过对22个高性能计算系统9年间的全部错误统计表明,在错误数量方面,硬件错误的占比最高,约占全部错误数量的65%。由于硬件错误造成的系统停机时间约占总停机时间的60%。硬件错误的特点是错误发生后,系统立刻停止运行,即所谓的fail stop,比如电源故障(power failure)就属于典型的硬件故障。硬件错误一般是独立发生的,可以认为多台Master节点同时故障的概率极小。采用分布式一致性哈希和参数备份的方式完成Server节点的高可用,提供延迟恢复的策略。由于Agent节点是无状态的并且不依赖也不影响其他的节点,因此本系统采用重新启动的方法完成Agent节点的故障恢复。
下文将分别阐述本实施例中Master节点的容错、Server节点的容错、Agent节点的容错这三个方面的容错设计。
1.Master节点的容错设计
本系统中的Master节点担负着存储、维护集群状态的职责,如果发生故障,将导致整个集群系统的瘫痪。可以说,Master节点的高可用性是整个集群保持高可用性的关键。所以,本系统中的容错首先要设计出一套处理Master节点故障的方案。
本发明采用Zookeeper开源软件搭建高可用集群,其中包含多个(目前是两个)保持同步状态的Master节点,如图1所示,当其他节点和第一个Master节点通信失败的时候,选择和第二个Master节点通信。每次接收到一个任务时,Master节点订阅Zookeeper集群的一个Watcher,启动所需数目的server节点和Agent节点(包括Worker节点),然后Master节点等待其它节点的注册信息。当所有的节点注册完成后,Master节点将集群信息和任务的配置信息写入Zookeeper集群,使得两个Master节点能够同步到一致的状态。最后Master节点将任务的配置信息和集群的状态信息发给所有的Server和Agent节点,然后任务开始执行。
Master节点定期和Server节点以及Agent节点发送和接收心跳信息来检测故障并了解整个集群的状态信息以及任务的执行情况。如果某个Master节点出现了故障,那么Server节点和Agent节点将切换到另一台Master节点上并发出警报,这时需要修复出现了故障的Master节点。这种方法可以允许单点故障。如果需要容两台Master节点同时发生故障的情况,那么Zookeeper集群里需要包含更多的处于同步状态的Master节点,否则如果所有Master节点都发生了故障将导致整个集群瘫痪。
除了存储集群的状态之外,Master节点还提供一些用户交互的操作,比如提交任务、任务的分发调度等。本系统中Master节点与Zookeeper节点是分离的,这样可以简化Server节点和Agent节点的设计:这两类节点只需要和Master节点进行系统控制信号的交互,由Master节点来完成和Zookeeper集群系统状态的同步。Zookeeper集群的写入操作相对于读取操作来说是非常耗时的。如果Server节点和Agent节点同时与Zookeeper集群进行交互,肯定会影响系统整体的效率。通过增加Master节点这一个中间层,能够进行一些操作的缓存,比如在集群启动的时候,Server节点和Agent节点的注册信息等,提高系统的运行效率。
2.Server节点的容错设计
本系统中的Server节点担负着保存计算任务中所有参数的职责。随着机器学习模型的不断增大,有些模型的参数数目超过了单台服务器能够容纳的范围。当系统通过梯度下降(gradient descent)来迭代计算模型参数时,这些计算结果就是保存在Server节点上。如果Server节点发生故障,将导致这些参数计算结果的丢失。
本系统设计中每个参数都有两个备份,分别存储在两台不同的Server节点上。这里的关键在于如何维护参数到Server节点之间的映射,动态支持增删Server节点。我们采用的是分布式系统中常用的一致性哈希算法。这个算法将Server节点映射到一个环上(如图1所示,其中S表示Server节点),每个节点都保存逆时针的前序Server节点的参数,从而达到每个参数保存两份的目的。如果Master节点连续几次都接收不到某个Server节点的心跳信息,那么Master节点认为该Server出现了故障。这种情况下,Master节点将会启动故障修复策略,发出参数同步的控制信号,将出现故障的Server节点所负责的参数调整到其它节点,然后把更改后集群的状态信息分发给所有的Server和Agent节点。将来这台出现了故障的节点修复后,或者是系统中新引入一个节点后,Master节点再按照一致性哈希算法把这个节点加入到环上。这里我们同样假设保存同一组参数的两个节点不会同时发生故障,这样给用一致性哈希来解决节点的动态增删留出了时间。
3.Agent节点的容错设计
Agent节点的故障对系统带来的影响是比较小的。由于Agent节点主要负责运算操作,所以在出现故障的时候,只会造成计算结果的丢失,这时只要重新启动该节点或者在另一个Agent节点上重新计算就可以了。因此Agent节点需要做的只是和Master节点保持心跳。但是,Agent节点的故障对于Server节点的更新协议有着一些影响,需要Server节点在实现ASP、SSP、BSP这些更新协议时考虑到Agent节点可能出现的故障即可。
4.集群状态信息表示
综上所述,为了保证系统的高可用性,每个节点都需要持有集群的状态信息。以下列举关键的集群状态信息:
1.Master节点的列表。Server节点和Agent节点需要向Master节点同步状态,所以需要保存Master节点的地址和端口;如在前面叙述到的Master节点的高可用性中提到的,集群中存在2个及以上的Master节点,因此Master节点列表是必须的。比如,最开始所有节点都和第一个Master节点通信,执行到中间的时候,第一个Master节点通信失败,这个时候Server节点和Agent节点需要迅速的切换到第二个Master节点。Master节点是一个有顺序的列表,所有的节点的Master节点列表都是相同的,当第一个Master节点通信失败时,顺序选择下一个Master节点进行通信,直到遇到通信成功的Master节点。
2.Server节点的列表和参数划分信息。如Server节点的容错设计所提到的,每个Server节点需要清楚前序Server节点的地址和端口才能完成参数的同步和备份;Agent节点需要知道参数的划分信息才能完成与Server节点的通信。
3.心跳状态。Master节点依靠心跳状态来保证Server节点和Agent节点处于可用状态。如果Master节点超过一定的时间限制没有收到Server节点的心跳信息,则Master节点会启动Server节点的故障恢复程序,并且在Server节点完成恢复之后更新集群状态信息。为了保证心跳状态的可用性,Master节点之间需要定期同步。
5.系统启动流程
1.Master节点接收到用户提交的机器学习任务信息,Master节点启动相应数量的Server节点和Agent节点,并等待Server节点和Agent节点的注册信息;
2.Master节点接收到所有节点的注册信息之后,将集群状态信息写入Zookeeper集群,完成Master节点之间的同步,然后Master节点将集群状态信息分发给所有的节点;
3.机器学习任务启动,Agent节点计算参数的更新,Server节点完成参数的合并;
4.机器学习任务结束,Server节点将训练得到的参数输出到文件;
5.Server节点和Agent节点发送结束信号到Master节点并退出。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种高可用分布式机器学习计算框架的容错方法,其特征在于,包括以下步骤:
建立分布式机器学习框架,包括至少两个Master节点、多个Server节点、多个Agent节点,其中Agent节点只和Server节点、Master节点通信,Agent节点之间不通信;每个Server节点存储一部分参数,所有的Server节点的参数组成整体的参数;每个Agent节点存储一部分训练数据,计算本地的参数更新量;Master节点记录Server节点和Agent节点的信息以及和机器学习任务相关的信息;
采用所述至少两个Master节点组成高可用的Master集群;采用分布式一致性哈希算法和参数备份的方式实现所述Server节点的高可用;采用重新启动的方式进行所述Agent节点的故障恢复。
2.根据权利要求1所述的方法,其特征在于,所述高可用的Master集群包含至少两个保持同步状态的Master节点,当其他节点和某个Master节点通信失败时,选择和另一个Master节点通信。
3.根据权利要求1所述的方法,其特征在于,Master节点定期和Server节点以及Agent节点发送和接收心跳信息来检测故障并了解整个集群的状态信息以及任务的执行情况,如果某个Master节点出现故障,则Server节点和Agent节点切换到另一个Master节点上并发出警报,然后修复出现故障的Master节点。
4.根据权利要求1所述的方法,其特征在于,采用Zookeeper开源软件搭建高可用的Master集群;Master节点与Zookeeper节点是分离的,Server节点和Agent节点只需要和Master节点进行系统控制信号的交互,由Master节点来完成和Zookeeper集群系统状态的同步。
5.根据权利要求1所述的方法,其特征在于,所述采用分布式一致性哈希算法和参数备份的方式实现所述Server节点的高可用,包括:
采用一致性哈希算法将Server节点映射到一个环上,每个节点都保存逆时针的前序Server节点的参数,从而达到每个参数保存两份的目的;
Master节点通过接收Server节点的心跳信息来检测Server节点是否出现故障;如果某个Server节点出现故障,Master节点启动故障修复策略,发出参数同步的控制信号,将出现故障的Server节点所负责的参数调整到其它Server节点,然后把更改后集群的状态信息分发给所有的Server节点和Agent节点。
6.根据权利要求5所述的方法,其特征在于,出现故障的Server节点修复后,或者是新引入一个Server节点后,Master节点按照一致性哈希算法把这个Server节点加入到环上。
7.根据权利要求1所述的方法,其特征在于,所述Server节点在实现更新协议时,考虑Agent节点可能出现的故障。
8.根据权利要求1所述的方法,其特征在于,Server节点和Agent节点中保存Master节点的列表,以便向Master节点同步状态;每个Server节点保存Server节点的列表,以便根据前序Server节点的地址和端口完成参数的同步和备份;每个Agent节点保存参数的划分信息,以便完成与Server节点的通信。
9.一种高可用分布式机器学习系统,其特征在于,包括至少两个Master节点、多个Server节点、多个Agent节点,其中Agent节点只和Server节点、Master节点通信,Agent节点之间不通信;每个Server节点存储一部分参数,所有的Server节点的参数组成整体的参数;每个Agent节点存储一部分训练数据,计算本地的参数更新量;Master节点记录Server节点和Agent节点的信息以及和机器学习任务相关的信息;所述至少两个Master节点组成高可用的Master集群;所述Server节点采用分布式一致性哈希算法和参数备份的方式实现高可用;所述Agent节点采用重新启动的方式进行的故障恢复。
10.一种采用权利要求9所述高可用分布式机器学习系统的机器学习任务处理方法,其特征在于,包括以下步骤:
1)Master节点接收到用户提交的机器学习任务信息,Master节点启动相应数量的Server节点和Agent节点,并等待Server节点和Agent节点的注册信息;
2)Master节点接收到所有节点的注册信息之后,将集群状态信息写入Zookeeper集群,完成Master节点之间的同步,然后Master节点将集群状态信息分发给所有的Server节点和Agent节点;
3)机器学习任务启动,Agent节点计算参数的更新,Server节点完成参数的合并;
4)机器学习任务结束,Server节点将训练得到的参数输出到文件;
5)Server节点和Agent节点发送结束信号到Master节点并退出。
CN201910159918.3A 2019-03-04 2019-03-04 一种高可用分布式机器学习计算框架的容错方法和系统 Pending CN110033095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910159918.3A CN110033095A (zh) 2019-03-04 2019-03-04 一种高可用分布式机器学习计算框架的容错方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910159918.3A CN110033095A (zh) 2019-03-04 2019-03-04 一种高可用分布式机器学习计算框架的容错方法和系统

Publications (1)

Publication Number Publication Date
CN110033095A true CN110033095A (zh) 2019-07-19

Family

ID=67235086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910159918.3A Pending CN110033095A (zh) 2019-03-04 2019-03-04 一种高可用分布式机器学习计算框架的容错方法和系统

Country Status (1)

Country Link
CN (1) CN110033095A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110784350A (zh) * 2019-10-25 2020-02-11 北京计算机技术及应用研究所 一种实时可用集群管理系统的设计方法
CN110852445A (zh) * 2019-10-28 2020-02-28 广州文远知行科技有限公司 分布式机器学习训练方法、装置、计算机设备和存储介质
CN111641716A (zh) * 2020-06-01 2020-09-08 第四范式(北京)技术有限公司 参数服务器的自愈方法、参数服务器及参数服务系统
CN111753997A (zh) * 2020-06-28 2020-10-09 北京百度网讯科技有限公司 分布式训练方法、系统、设备及存储介质
CN112272228A (zh) * 2020-10-22 2021-01-26 北京神州数字科技有限公司 分布式注册中心架构
WO2021073726A1 (en) * 2019-10-15 2021-04-22 Telefonaktiebolaget Lm Ericsson (Publ) Method for dynamic leader selection for distributed machine learning
CN113312211A (zh) * 2021-05-28 2021-08-27 北京航空航天大学 一种确保分布式学习系统的高可用性方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719931A (zh) * 2009-11-27 2010-06-02 南京邮电大学 一种基于多智能主体的层次式云端计算模型构建方法
CN104506357A (zh) * 2014-12-22 2015-04-08 国云科技股份有限公司 一种高可用集群节点管理方法
CN105141456A (zh) * 2015-08-25 2015-12-09 山东超越数控电子有限公司 一种高可用集群资源监控方法
CN108280522A (zh) * 2018-01-03 2018-07-13 北京大学 一种插件式分布式机器学习计算框架及其数据处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719931A (zh) * 2009-11-27 2010-06-02 南京邮电大学 一种基于多智能主体的层次式云端计算模型构建方法
CN104506357A (zh) * 2014-12-22 2015-04-08 国云科技股份有限公司 一种高可用集群节点管理方法
CN105141456A (zh) * 2015-08-25 2015-12-09 山东超越数控电子有限公司 一种高可用集群资源监控方法
CN108280522A (zh) * 2018-01-03 2018-07-13 北京大学 一种插件式分布式机器学习计算框架及其数据处理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CARBON ZHANG: "《干货 | 大规模机器学习框架的四重境界》", 《HTTPS://WWW.SOHU.COM/A/204293285_651893》 *
MU LI等: "《Scaling Distributed Machine Learning with the Parameter Server》", 《OSDI"14: PROCEEDINGS OF THE 11TH USENIX CONFERENCE ON OPERATING SYSTEMS DESIGN AND IMPLEMENTATION》 *
SUPERXX07: "《ZooKeeper应用举例》", 《HTTPS://BLOG.CSDN.NET/WEIXIN_30786657/ARTICLE/DETAILS/97141455》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021073726A1 (en) * 2019-10-15 2021-04-22 Telefonaktiebolaget Lm Ericsson (Publ) Method for dynamic leader selection for distributed machine learning
CN110784350A (zh) * 2019-10-25 2020-02-11 北京计算机技术及应用研究所 一种实时可用集群管理系统的设计方法
CN110784350B (zh) * 2019-10-25 2022-04-05 北京计算机技术及应用研究所 一种实时高可用集群管理系统的设计方法
CN110852445A (zh) * 2019-10-28 2020-02-28 广州文远知行科技有限公司 分布式机器学习训练方法、装置、计算机设备和存储介质
CN111641716A (zh) * 2020-06-01 2020-09-08 第四范式(北京)技术有限公司 参数服务器的自愈方法、参数服务器及参数服务系统
CN111641716B (zh) * 2020-06-01 2023-05-02 第四范式(北京)技术有限公司 参数服务器的自愈方法、参数服务器及参数服务系统
CN111753997A (zh) * 2020-06-28 2020-10-09 北京百度网讯科技有限公司 分布式训练方法、系统、设备及存储介质
CN111753997B (zh) * 2020-06-28 2021-08-27 北京百度网讯科技有限公司 分布式训练方法、系统、设备及存储介质
CN112272228A (zh) * 2020-10-22 2021-01-26 北京神州数字科技有限公司 分布式注册中心架构
CN113312211A (zh) * 2021-05-28 2021-08-27 北京航空航天大学 一种确保分布式学习系统的高可用性方法

Similar Documents

Publication Publication Date Title
CN110033095A (zh) 一种高可用分布式机器学习计算框架的容错方法和系统
US6687849B1 (en) Method and apparatus for implementing fault-tolerant processing without duplicating working process
JP5102901B2 (ja) データセンタにわたる複数データサーバ間のデータ完全性を保持する方法およびシステム
CN101589370B (zh) 一种并行计算机系统以及在其上进行故障恢复的方法
US8966467B2 (en) System and method for performing an in-service software upgrade in non-redundant systems
US20100023564A1 (en) Synchronous replication for fault tolerance
US7716517B2 (en) Distributed platform management for high availability systems
US7730029B2 (en) System and method of fault tolerant reconciliation for control card redundancy
CN101964820A (zh) 一种保持数据一致性的方法及系统
CN110389858A (zh) 存储设备的故障恢复方法和设备
CN102938705A (zh) 一种高可用多机备份路由表管理与切换方法
CN108469996A (zh) 一种基于自动快照的系统高可用方法
US20190311054A1 (en) High throughput order fullfillment database system
CN116701043B (zh) 面向异构计算系统的故障节点切换方法、装置和设备
CN114816820A (zh) chproxy集群故障修复方法、装置、设备及存储介质
US11249793B2 (en) Executing a pipeline command sequence designed for execution on a single node across a fleet of nodes
US20030208750A1 (en) Information exchange for process pair replacement in a cluster environment
CN110046065A (zh) 一种存储阵列重建方法、装置、设备及存储介质
CN106445746A (zh) 一种面向应急接替的容灾备份方法及装置
AU2019371362B2 (en) Methods, devices and systems for non-disruptive upgrades to a distributed coordination engine in a distributed computing environment
CN110489491B (zh) 一种适用于a/b网双集群的全量数据同步装置
CN103780433B (zh) 自愈式虚拟资源配置管理数据架构
CN110298031A (zh) 一种词典服务系统及模型版本一致性配送方法
US20220091769A1 (en) Method, device and computer program product for managing storage pool
CN114706712A (zh) 基于Hadoop双集群的应急保障方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190719

WD01 Invention patent application deemed withdrawn after publication