CN110168580A

CN110168580A - 使用分布式系统训练分类器模型时的容错恢复系统和方法

Info

Publication number: CN110168580A
Application number: CN201780083032.4A
Authority: CN
Inventors: 罗马·塔扬斯基; 扎克·梅拉梅德; 内坦·彼得弗洛恩德; 吴祖光
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-01-10
Filing date: 2017-01-10
Publication date: 2019-08-23
Anticipated expiration: 2037-01-10
Also published as: CN110168580B; EP3529754A1; WO2018130267A1; US20190220758A1; US11461695B2

Abstract

提供了一种训练分类器的分布式系统，包括：机器学习(machine learning，简称ML)工作节点，其每个工作节点用于计算分类器模型的模型更新；参数服务器(parameter server，简称PS)，配置用于并行处理以向每个ML工作节点提供所述模型，从每个ML工作节点接收模型更新，并使用每个模型更新迭代地更新模型；梯度数据集，每个梯度数据集与相应的ML工作节点相关联，存储可以指示所述计算模型更新和相应模型更新的模型更新标识(delta‑M‑ID)；全局数据集，其存储：delta‑M‑ID，所述delta‑M‑ID为计算模型更新的ML工作节点的标识；用于在PS中标记新模型的模型版本(MODEL‑VERSION)，其是通过将模型更新与PS中的先前的模型合并而计算得出的；模型下载数据集，其存储每一个被传输模型的ML‑worker‑ID和MODEL‑VERSION。

Description

使用分布式系统训练分类器模型时的容错恢复系统和方法

背景技术

本发明在其一些实施例中涉及使用分布式系统训练分类器模型的系统和方法，更具体地但非排他地，涉及使用分布式系统训练分类器模型时的容错恢复系统和方法。

在机器学习中，会使用训练数据集训练分类器模型。所述分类器模型由一组参数进行参数化。选择所述分类器模型，根据所述训练数据集来调整所述参数。从所述训练数据集计算出模型更新，并将其添加到模型中。使用计算出的模型更新，模型可以迭代地更新。使用分布式计算系统可以加速大规模机器学习问题的迭代训练。

然而，当所述分布式计算系统的一个或多个处理器发生故障时，利用现有机制进行恢复会涉及较为复杂的计算，处理和/或数据存储资源成本高，并且较为缓慢和/或一般效率较低。

发明内容

本发明旨在提供一种使用分布式系统训练分类器的装置、系统、计算机程序产品和方法。

上述及其它目的通过独立权利要求的特征来实现。根据从属权利要求、说明书以及附图，进一步的实现方式是显而易见的。

根据第一方面，提供了一种训练分类器的系统，包括：机器学习(machinelearning，ML)工作节点，其包括至少一个处理器，用于计算经一组模型参数加以参数化的所述分类器模型的模型更新；参数服务器(Parameter Server，PS)，其包括至少一个处理器，所述参数服务器用于向每个ML工作节点提供所述分类器模型，基于每个ML工作节点所提供的分类器模型来接收相应的模型更新，并使用每个接收到的模型更新来迭代地更新所述分类器模型；梯度数据集，每个梯度数据集都与相应的ML工作节点相关联，其中，每个梯度数据集内存储可以指示由相应ML工作节点计算出的相应模型更新的模型更新标识(model-update-identification，delta-M-ID)，并存储与每个相应delta-M-ID相关联的模型更新；全局数据集，其存储：与每个模型更新相关联的delta-M-ID，所述delta-M-ID在每次相应迭代中不被PS使用来更新所述分类器模型；ML工作节点标识(ML-worker-ID)，其可以计算相应迭代中的与delta-M-ID相关联的模型更新；在PS中标记新分类器模型的模型版本(MODEL-VERSION)，其是通过将所述模型更新与PS中的先前的分类器模型合并而计算得出的；模型下载数据集，其存储每一次所述分类器模型从PS到某个特定ML工作节点的传输相关联的ML-worker-ID和MODEL-VERSION。

可选地，所述PS可以包含多个用于并行处理的处理器。

根据第二方面，提供了一种通过机器学习(machine learning，简称ML)工作节点训练分类器的方法，包括如下步骤：通过参数服务器(parameter server，简称PS)向每个所述ML工作节点提供分类器模型；通过参数服务器(parameter server，简称PS)接收来自每个所述ML工作节点的模型更新；基于每个接收的模型更新迭代地更新所述分类器模型；存储指示由相应ML工作节点计算出的相应模型更新的模型更新标识(delta-M-ID)；存储与每个相应的delta-M-ID相关联的相应模型更新；并且存储ML工作节点标识(ML-worker-ID)，其计算相应迭代的与delta-M-ID相关联的模型更新，以及存储在PS中标记新分类器模型的模型版本(MODEL-VERSION)，其是通过将所述模型更新与PS中的先前的分类器模型合并而计算得出的。

第一方面所述的系统容错机制和第二方面所述的方法，与其他容错方法相比，显著地减少了提供容错的在线开销。本文描述的容错机制，与其他容错方法相比，实现方法较为简单，且占用较少的数据存储和/或处理器资源。本文描述的容错机制，与其他容错方法相比，实现了较短的恢复时间。本文描述的容错机制，与其他容错方法相比，可以恢复到模型的最新版本。

第一方面所述的系统容错机制和第二方面所述的方法，提供了恢复到更新模型的较快方法，这种方法使用更少的存储和/或处理资源。与基于快照的方法和/或其他方法(其将整个模型存储在数据存储设备中，这一过程较为缓慢)相反，基于本文描述的故障机制(其通过使用模型更新进行恢复)的恢复可以从PS设备的主存储器(例如，节点)和/或从ML工作节点设备的主存储器执行，这要快得多。

与需要大量和/或复杂簿记的其他系统和/或方法(例如，快照和分布式哈希表)相比，第一方面所述的系统容错机制和第二方面所述的方法使用相对少量的内存簿记就可实现，且运行时开销非常小。

在根据第一或第二方面的所述系统或方法的第一种可能实现方式中，当第一个ML工作节点计算第一个模型更新时，第一模型更新和与其相关联的第一delta-M-ID被存储到与第一ML工作节点相关联的第一梯度数据集中；当PS通过合并第一模型更新与分类器第一模型来创建分类器第二模型时，以下内容被存储到全局数据集中：第一模型更新的第一delta-M-ID，第一ML工作节点ML-worker-ID，以及分类器第二模型的第二MODEL-VERSION；当第二ML工作节点收到来自PS的分类器第二模型时，分类器第二模型的第二MODEL-VERSION和第二ML工作节点的第二ML-worker-ID被存储到模型下载数据集中。

根据第一或第二方面或根据第一或第二方面的任一种前述的实现方式，在所述的系统或方法的第二种可能实现方式中，所述系统还包括与PS相关联的控制器计算设备，其中，所述控制器用于，或者所述方法还包括由所述控制器执行的以下动作：接收PS的至少一个处理器的故障指示，访问模型下载数据集以识别下载分类器第二模型的第二ML-worker的第二MODEL-VERSION和关联第二ML-worker-ID，其中，第二MODEL-VERSION表示模型下载数据集中位于第一MODEL-VERSION后面的最新条目；使用从模型下载数据集中获得的第二ML-worker-ID来访问第二ML-worker，以及使用从模型下载数据集中获得的第二MODEL-VERSION来检索分类器第二模型；通过分类器第二模型来初始化PS。

根据第一或第二方面的第二种实现方式，在所述系统或方法的第三种可能的实现方式中，所述控制器用于：访问全局数据集以检索第三delta-M-ID和与第三MODEL-VERSION相关联的第三ML-worker-ID，其中，第三MODEL-VERSION表示第二MODEL-VERSION之后全局数据集中的最新条目；根据检索到的第三ML-worker-ID访问第三ML-worker，从而根据第三delta-M-ID检索第三模型更新；指示PS将第三模型更新与第二模型合并，以恢复分类器第三模型至发生故障前的对应的分类器第三模型。

根据第一或第二方面的第二或第三种实现方式，在所述系统或方法的第四种可能的实现方式中，所述控制器用于：接收第二ML-worker的至少一个处理器的故障指示；访问模型下载数据集以识别已载有分类器第一模型的第一MODEL-VERSION和第一ML-worker的第一ML-worker-ID，其中，第一MODEL-VERSION表示模型下载数据集中位于第二MODEL-VERSION之前的条目；使用从模型下载数据集中获得的第一ML-worker-ID来访问第一ML-worker，以及使用从模型下载数据集中获得的第一MODEL-VERSION来检索分类器第一模型；通过分类器第一模型来初始化PS。

根据第一或第二方面的第四种实现方式，在所述系统或方法的第五种可能的实现方式中，所述控制器用于：访问全局数据集以检索第二和第三delta-M-ID以及与第二和第三MODEL-VERSION相关联的第二和第三ML-worker-ID，其中，第二和第三MODEL-VERSION表示全局数据集中在第一MODEL-VERSION之后的条目；根据检索到的第二和第三ML-worker-ID访问第二和第三ML-worker，从而根据第二和第三delta-M-ID检索第二和第三模型更新；指示PS将第二和第三模型更新与分类器第一模型合并，从而恢复分类器第三模型至PS至少一个处理器发生故障之前对应的分类器第三模型。

根据第一或第二方面或根据第一或第二方面的任一种前述的实现方式，在所述的系统或方法的第六种可能实现方式中，选择模型下载数据集中的MODEL-VERSION和关联ML-worker-ID的条目数量时，使得所有ML-worker(其对应ML-worker-ID存储在模型下载数据集中)在恢复过程中失败的概率小于预定义的要求。

根据第一或第二方面的第六种实现方式，在所述系统或方法的第七种可能的实现方式中，所述控制器与模型下载数据集相关联，且所述控制器用于：当模型下载数据集中添加并存储MODEL-VERSION和关联ML-worker-ID新条目时，删除存储在模型下载数据集中的MODEL-VERSION和关联ML-worker-ID旧条目，以保证条目数量不变；从全局数据集中删除MODEL-VERSION值相当于模型下载数据集中已删除的最旧条目中MODEL-VERSION早期值或相等值的条目；指示删除与梯度数据集关联的条目，所述条目包含的delta-M-ID值为全局数据集中已删除的对应条目中出现的值。

根据第一或第二方面或根据第一或第二方面的任一种前述的实现方式，在所述的系统或方法的第八种可能实现方式中，当ML-worker具有相似的计算性能特征时，在与每个ML-worker相关联的每个梯度数据集中存储delta-M-ID和相关模型更新的条目的数量最多为2。

根据第一或第二方面或根据第一或第二方面的任一种前述的实现方式，在所述的系统或方法的第九种可能实现方式中，选择模型下载数据集中的条目数N，使得其ML-worker-ID存储在模型下载数据集中的所有N个ML工作节点在恢复进程中失败的概率可忽略不计。

根据第一或第二方面或根据第一或第二方面的任一种前述的实现方式，在所述的系统或方法的第十种可能实现方式中，每个模型更新中的全连接层的权重可以通过两个向量相乘实现。

根据第一或第二方面或根据第一或第二方面的任一种前述的实现方式，在所述的系统或方法的第十一种可能实现方式中，PS通过一种分布式系统来实现，该分布式系统包括计算设备，且每个计算设备包括至少一个处理单元。

根据第一或第二方面或根据第一或第二方面的任一种前述的实现方式，在所述的系统或方法的第十二种可能实现方式中，至少两个ML工作节点通过不同的计算设备实现。

在根据第二方面的所述方法的第十三种可能实现方式中，存储在计算机可读介质上的计算机程序，在由一个或多个计算机的一个或多个处理器执行时，运行前述方法。

除非另有定义，否则本文所使用的所有技术和/或科学术语的含义与本发明所属领域的普通技术人员所公知的含义相同。与本文所描述的方法和材料类似或者相同的方法和材料可以用于本发明实施例的实践或测试，下文描述示例性的方法和/或材料。若存在冲突，则以包括定义在内的专利说明书为准。另外，材料、方法以及示例都只是用于说明，并非必要限定。

附图说明

此处仅作为示例，结合附图描述了本发明的一些实施例。现在具体结合附图，需要强调的是所示的项目作为示例，为了说明性地讨论本发明的实施例。这样，根据附图说明，如何实践本发明实施例对本领域技术人员而言是显而易见的。

在附图中：

图1为本发明一些实施例提供的描述PS操作的示意图；

图2A-2C为本发明一些实施例提供的描述其他容错机制的示意图，这些容错机制比本文所述的容错机制更慢、更复杂且/或需要更多资源；

图3为根据本发明一些实施例提供的在训练分类器模型期间向参数服务器提供容错的系统的组件的框图；

图4为根据本发明一些实施例提供的用以恢复PS创建的分类器模型的容错机制实现方法的流程图；

图5为根据本发明一些实施例提供的故障恢复方法的流程图；

图6为根据本发明一些实施例提供的处理器故障和/或ML-worker节点故障恢复方法的流程图；

图7为根据本发明一些实施例提供的用于描述图8-10数据流的组件的示意图；

图8为根据本发明一些实施例提供的描述ML工作节点计算模型更新时的数据流的示意图；

图9为根据本发明一些实施例提供的描述ML工作节点(图8)在计算模型更新时发生故障的恢复机制的数据流的示意图；

图10为根据本发明一些实施例，描述参考图3所述、并使用Apache Spark^TM的系统示例性实现方式的示意图；

图11为根据本发明一些实施例，描述参考图10所述的示例性实现方式的示意图，包括相应的梯度数据集、全局数据集和模型下载表；

图12为根据本发明一些实施例，用于帮助解释分析以确定在每个梯度数据集中实现多少条目的示意图。

具体实施方式

本发明在其一些实施例中涉及使用分布式系统训练分类器模型的系统和方法，更具体地但非排他地，涉及使用分布式系统训练分类器模型的容错系统和方法。

本发明一些实施例的一方面涉及一种向采用一组模型参数参数化的分类器模型提供容错能力的系统、装置和/或方法(例如，由一个或多个处理器执行的代码指令)，所述分类器模型的参数存储在以分布式系统实施的参数服务器中。当PS的一个或多个处理器发生故障时，容错机制在训练分类器模型时可以有效地恢复模型的最新版本。多机器学习(machine learning，简称ML)工作节点实现为用于计算模型更新的计算设备(例如，单个或分布式)，在PS中用于迭代地更新分类器模型。可选地，可由控制器计算设备，基于梯度数据集、全局数据集和模型下载数据集存储的数据，来执行容错机制。所述容错机制，和其他容错方法相比，显著地减少了提供容错的在线开销。本文描述的容错机制，与其他容错方法相比，实现方法较为简单，且占用较少的数据存储和/或处理器资源。本文描述的容错机制，与其他容错方法相比，实现了较短的恢复时间。本文描述的容错机制，与其他容错方法相比，更易于恢复到模型的最新版本。

每个特定ML工作节点与梯度数据集相关联，该梯度数据集内存储与每个计算模型更新相关联的模型更新标识(delta-M-ID)。当第一ML工作节点计算第一模型更新时，第一模型更新和与第一模型更新相关联的第一delta-M-ID存储在与第一ML工作节点相关联的第一梯度数据集中。

全局数据集存储每个相应迭代中与PS使用的每个模型更新相关联的delta-M-ID，用来更新分类器模型。全局数据集还存储ML工作节点标识(ML-worker-ID)，其计算相应迭代的delta-M-ID相关联的模型更新，以及新分类器模型的模型版本(MODEL-VERSION)。MODEL-VERSION标记PS中分类器的新模型，其通过将模型更新与PS中的先前分类器模型合并来计算。当PS通过合并第一模型更新和分类器第一模型来创建分类器第二模型后，以下内容被存储到全局数据集中：第一模型更新的第一delta-M-ID、第一ML工作节点的ML-worker-ID和分类器第二模型的第二MODEL-VERSION。

模型下载数据集存储与分类器模型从PS至某个特定ML工作节点每一次传输相关联的ML-worker-ID和MODEL-VERSION。当第二ML工作节点从PS接收分类器第二模型时，分类器的第二模型的第二MODEL-VERSION和第二ML工作节点的第二ML-worker-ID存储在模型下载数据集中。第三模型更新由第三ML-worker计算得出。第三ML工作节点在梯度表中得到更新，以存储计算出的第三模型更新和相关联的delta-M-ID。第三ML工作节点向PS提供第三模型更新。新的条目被添加到全局数据集中，一起添加的还有第三模型更新的delta-M-ID、第三ML-worker的ID和第三MODEL-VERSION。

当接收到PS的一个或多个处理器的故障的指示时，故障恢复被触发(例如，通过与PS相关联的控制器计算设备)。控制器访问模型下载数据集，从而识别第二MODEL-VERSION，以及已下载分类器第二模型的第二ML-worker的第二ML-worker-ID。第二MODEL-VERSION表示模型下载数据集中的第一MODEL-VERSION之后的最新条目。控制器通过从模型下载数据集获得的第二ML-worker-ID来访问第二ML-worker，并根据从模型下载数据集获得的第二MODEL-VERSION来检索分类器第二模型。使用分类器第二模型初始化PS。指示PS(例如，由控制器)将第三模型更新与第二模型合并，以恢复分类器第三模型至发生故障前的对应的分类器第三模型。控制器通过访问全局数据集，检索第三delta-M-ID和与第三MODEL-VERSION相关联的第三ML-worker-ID，来获得第三模型更新。第三MODEL-VERSION表示全局数据集中的第二MODEL-VERSION之后的最新条目。控制器根据检索到的第三ML-worker-ID访问第三ML-worker，以根据第三delta-M-ID检索第三模型更新。然后，控制器将第三模型更新与PS中的分类器模型合并，以恢复在PS的一个或多个处理器发生故障之前存储在PS中的分类器第三模型。

在详细解释本发明的至少一个实施例之前，应当理解，本发明不必将其应用限于下面描述中阐述的和/或在附图和/或举例中说明的部件和/或方法的结构和布置的细节。本发明可以有其它实施例或可以采用各种方式实践或执行。

本发明可以是系统、方法和/或计算机程序产品。所述计算机程序产品可以包括具有计算机可读程序指令的一个(或多个)计算机可读存储介质，所述指令用于使处理器执行本发明的各个方面。

所述计算机可读存储介质可以是有形设备，所述有形设备可以保存和存储指令执行设备使用的指令。例如，所述计算机可读存储介质可以是但不限于电子存储设备、磁性存储设备、光存储设备、电磁存储设备、半导体存储设备或这几者的任意合适组合。

可以从计算机可读存储介质中将此处描述的计算机可读程序指令下载到各个计算/处理设备上，或通过网络下载到外部计算机或外部存储设备上，所述网络如因特网、局域网、广域网和/或无线网。

所述计算机可读程序指令可以完全在用户电脑上执行或部分在用户电脑上执行；或作为独立的软件包，部分在用户电脑上执行，且部分在远端电脑上执行，或完全在远端电脑或服务器上执行。在后一种场景中，远端电脑可以通过任何类型的网络与用户电脑连接，包括局域网(local area network，简称LAN)或广域网(wide area network，简称WAN)，或者可以(例如，使用因特网服务提供方提供的因特网)在外部电脑上建立所述连接。在一些实施例中，包括可编程逻辑电路、现场可编程门阵列(field programmable gate array，简称FPGA)或可编程逻辑阵列(programmable logic array，简称PLA)等的电子电路可以利用计算机可读程序指令的状态信息执行所述计算机可读程序指令以个性化所述电子电路，以便执行本发明的各方面。

此处，结合本发明实施例的方法、装置(系统)以及计算机程序产品的流程图和/或框图描述本发明的各方面。应当理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。此时，流程图或框图中的每个框都可以代表一个模块、分段或部分指令，所述部分指令包括一个或多个用于实现特定逻辑功能的可执行指令。在一些可选的实现方式中，框中指出的功能可以不按照图中的顺序实现。例如，事实上，连续展示的两个框可以大体上同时执行，或者有时候可以按照相反的顺序执行，这取决于所涉及的功能。还应注意的是，框图和/或流程图中每一个框以及框图和/或流程图中框的组合可以由基于专用硬件的系统执行，所述系统执行指定的功能或动作，或者执行专用硬件和计算机指令的组合。

此处使用的术语“分类器模型”、“模型”和“模型参数”有时可以互换。模型参数可以可选地实现为结构化数字集或数字向量。

此处使用的术语“分布式系统”和“(针对)并行处理(而准备的处理器，或设计的系统)”在指代PS的实现方式时可以互换。

现在对术语“(分类器)模型”的含义进行简要讨论。分类器模型基于应用程序的域，例如，执行应用程序的代码指令可以接收数字图像以进行分析。代码指令确定哪些对象出现在来自预定的一组类的图像中，例如鸟、人脸和飞机。应用程序的代码指令使用分类器模型来接收数字图像并返回在图像内检测到的对象类。可以使用一种或多种机器学习方法来实现分类器模型，例如，支持向量机、线性回归、人工神经网络和统计分类器等。代码指令从图像中提取一组特征(例如，实现为特征向量和/或其他合适的数据结构)，并使用分类器模型将特征向量映射到类。分类器模型可以通过一组参数来参数化。参数可以是数字。

最初训练分类器模型以执行分类。可以根据目标应用程序调整组模型参数。使用训练集训练模型。例如，在图像分类中，训练集包括一组标记图像。在这样的训练集中，每个图像与正确描述图像内容的类配对。在训练阶段，分类器从训练集中分析图像及其正确的标签，从而调整模型参数。在应用程序中，使用受过训练的模型对与训练集中的图像来自相同域的图像进行分类。

当模型本身和训练集很大时，在单个计算设备上训练模型需要数周甚至数月。为了加快训练过程，将训练过程映射到多个计算设备，例如，映射到可以包括从几台机器到数千台机器的集群。在这种映射中，模型和训练集可以分布在集群中的许多机器上。因此，可以在许多并行的集群机器中执行计算。

此处使用的术语“参数服务器”(parameter server，简称PS)指一组计算设备，其共同存储模型并使用模型更新来更新它。

现参考图1，图1为本发明一些实施例提供的描述PS操作的示意图。为清楚起见，首先参考图1描述PS的操作过程，而没有提供本文所述的容错机制的组件(即，没有控制器、梯度数据集、全局数据集和模型下载数据集)。

实现为布置用于并行处理的多个处理器104的参数服务器102存储和更新分类器模型(表示为M)。基于由机器学习工作节点108(实现为单个计算设备或分布式系统)从数据分片106计算出的模型更新(表示为ΔM)来执行训练过程。

训练过程可以在数学上表示为M’＝M-ηΔM，其中η表示步长(例如，标量)，其中模型沿着模型更新的矢量前进。训练过程迭代进行。每个ML工作节点108基于从PS 102接收的M的副本计算相应的模型更新。根据数学关系M'＝M-ηΔM在PS 102中更新模型。

现参考图2A-2C，图2A-2C为本发明一些实施例提供的描述其他容错机制的示意图，这些容错机制比本文所述的容错机制更慢、更复杂且/或需要更多资源。图2A-B涉及一种被称为基于快照的方法的容错方法。图2A描述了无故障操作。箭头202表示时间的进度。块204表示模型更新的计算。块206表示存储在存储设备208中的模型的快照。块204和206迭代进行。图2B描述了表示为交叉210的故障恢复。在故障时，从存储设备208读取最后的模型快照并将其分配给PS。重新计算模型更新(表示为块212)以获得发生故障前的模型。基于快照的方法在每个快照期间存储整个模型的副本。由于模型的大小，存储所述快照需要相对较长的时间段，并且需要大量存储和/或处理资源来执行所述存储操作。由于执行所述存储操作需要时间和/或资源的原因，因此很少执行快照。因此，所述模型的实际存储副本，相比自上次快照以来计算出的大量更新，已经过时。故障发生时，从所述存储设备恢复的所述模型相对较旧，因为此后已经实施了多个更新。需要重新计算所述多个更新以获得丢失的模型版本，这需要大量的时间和处理器资源。相比之下，本文描述的故障恢复机制提供了恢复到更新模型的较快方法，这种方法使用更少的存储和/或处理资源。与基于快照的方法和/或其他方法(其将整个模型存储在数据存储设备中，这一过程较为缓慢)相反，基于本文描述的故障恢复机制(其通过使用模型更新进行恢复)的恢复可以从PS设备的主存储器(例如，节点)和/或从ML工作节点设备的主存储器执行，这要快得多。

图2C涉及描述为基于复制的方法的容错机制，该方法基于具有密钥集的分布式哈希表。所述整个密钥被划分为密钥范围。每个分区被分配给一个PS计算设备。把密钥范围分配给PS计算设备的所述分配被布置成环形。分配给机器S_i的密钥范围在机器S_i-1处被复制。当PS的计算设备发生故障时，故障计算设备上的密钥范围的密钥范围副本被复制到其他计算设备上。由于所述复制机制的分布式哈希表的管理，所述基于复制的方法会产生运行时开销。由于实现复杂性高，需要大量存储和/或处理资源来执行，因此，这一过程需要相当长的时间。相比之下，本文描述的故障机制提供了恢复到更新模型的较快方法，这种方法使用更少的存储和/或处理资源。与需要大量和/或复杂簿记的其他方法(例如，快照和分布式哈希表)相比，本文描述的故障机制使用相对少量的内存簿记就可实现，且运行时开销非常小。

现参考图3，图3为根据本发明一些实施例提供的在训练分类器模型期间向参数服务器302提供容错的系统300的组件的框图。同时参考图4，图4为根据本发明一些实施例提供的用以恢复PS创建的分类器模型的容错机制实现方法的流程图。

PS 302是一个专为代码指令并行执行而设计的分布式系统。PS 302使用多个节点304来实现。PS 302可以实现为单个单元(例如，方框)，或者实现为多个互连单元(例如，彼此连接的多个方框)。每个节点304可以实现为，例如，单个处理器、用于并行处理的一组处理器、多核处理器、计算设备(即，至少有一个处理器和相关联的数据存储设备)和/或用作子分布式系统的一组计算设备。节点304可以是同构的或异构的。节点304可以是独立的计算组件，例如，网络服务器、web服务器、计算云、本地服务器、远程服务器、运行代码的客户终端、移动设备、固定设备、服务器、智能手机、笔记本电脑、平板电脑、可穿戴计算设备、眼镜计算设备、手表计算设备和台式计算机。处理器(节点304)被实现为，例如中央处理器(central processing unit，简称CPU)、图形处理单元(graphics processing unit，简称GPU)、现场可编程门阵列(field programmable gate array，简称FPGA)、数字信号处理器(digital signal processor，简称DSP)和专用集成电路(application specificintegrated circuit，简称ASIC)。

PS 302与数据存储设备306相关联，该数据存储设备306存储(或存储到另一存储设备的链接)分类器模型306A、全局数据集306B和模型下载数据集306C。数据(即，分类器模型306A、全局数据集306B和模型下载数据集306C中的一个或多个)可以存储在PS 302的主存储器中(例如，在PS 302的一个或多个节点304的主存储器中)。主存储器存储提供了快速实现容错机制的方式。

数据存储设备306的可实现方式包括：在PS 302内，在PS 302的一个或多个节点304内，在控制器计算设备308内，和/或在外部和/或远程存储设备内实现。数据存储设备306可以实现为，例如，随机存取存储器(random access memory，简称RAM)和/或存储设备，其中包括，非易失性存储器、磁介质、半导体存储器设备、硬盘驱动器、可移动存储器和光学器件(例如，DVD和只读光盘)等。

控制器计算设备308与PS 302相关联。控制器308可以实现为，例如，由PS 302处理器存储和执行的软件代码指令、由PS的一个或多个节点304存储和执行的代码指令、安装在PS 302内和/或一个或多个节点304内的硬件卡、和/或通过网络或直接连接(例如，电缆和短程无线链路)本地或远程连接到PS 302的独立计算设备。

PS 302通过网络312与多个ML工作节点310(为清楚起见，示出了两个ML工作节点310A-B)通信。网络312的示例包括因特网、无线网络、蜂窝网络、专用网络、虚拟专用网络和局域网。

每个ML工作节点310A-B包括一个或多个处理器314A-B。应注意的是，ML工作节点310可以是一个分布式子系统，该系统包括多个处理器、多核处理器和/或连接到网络的计算设备。为清楚起见，图3示出了处理器314。但是应该理解，处理器314可以表示分布式子系统，例如，处理器314可以如参考节点304所描述的那样实现。可选地，至少两个ML工作节点使用不同的计算设备。

每个ML工作节点310A-B与数据存储设备316A-B相关联。存储设备316A-B可以如参考数据存储设备306所描述的那样实现。每个数据存储设备316A-B存储相应的梯度数据集316A'-B'。

应注意的是，由梯度数据集、全局数据集和模型下载数据集存储的数据可以直接存储在数据集内，或者从相应数据集的外部存储，其中相应数据集内存储到外部存储数据的链接。

PS 302、节点304、ML工作节点310A-B和控制器308中的一个或多个可以与一个或多个用户界面318相关联(为清楚起见，示出了一个用户界面318)。示例性用户界面318(其可以与显示器集成，或者作为单独的设备来实现)包括以下中的一个或多个：触摸屏、键盘、鼠标和使用扬声器和麦克风操作的语音激活软件。

现再次参考图4，参考图4描述的方法的动作可通过执行相应动作的相关计算设备(或分布式子系统)的一个或多个处理器执行的代码指令来实现。

在402处，PS 302通过网络312向每一个ML工作节点310A-B提供所述分类器模型306A。PS 302可以自动发送所述模型的更新版本，可以在ML工作节点发出请求后发送更新版本，和/或可以为ML准备可用的更新模型以供其下载。

模型下载数据集306C存储与分类器模型从PS至某个特定ML工作节点每一次传输(比如，下载)相关联的ML-worker-ID和MODEL-VERSION。收到向ML工作节点提供模型更新版本的要求后，更新模型下载数据集306C(例如，通过PS 302和/或控制器308的一个或多个处理器执行的代码指令来进行更新)。

模型下载数据集306C可以实现为表格、矩阵或其他合适的数据结构等。示例性表的实现方式如下所示：

ML-worker-ID	MODEL-VERSION
		3	2
1	6
		5	9
……	……

每次ML工作节点从PS处接收所述(例如，下载)模型时，都会通过输入ML工作节点的ML-worker-ID值，将一行附加到该表。其中，ML工作节点已经下载模型以及下载模型的MODEL-VERSION。该表是全局管理的(例如，由PS管理)。

在404处，一个或多个ML工作节点310A-B使用从PS 302处接收的模型来计算模型更新。

模型更新可以通过紧凑的表示形式来实现。紧凑形式可以在占用较少数据存储空间的情况下存储，和/或可以通过网络更有效地发送至PS。神经网络模型包括各种类型的多个层。神经网络模型的模型更新可以划分为层更新-神经网络中每个单独层的一层更新。全连接层是具有最大权重数的层类型。全连接层(和/或其他层)的更新权重可以通过矩阵来实现。矩阵可以表示为相乘的两个向量。所述两个向量表示紧凑形式的实现方式。模型更新可以表示为比模型本身的参数数量少一个数量级的数量级。两个模型更新可以存储在每个ML工作节点上，其存储要求可忽略不计(即，非常低)。

所述相应梯度数据集316A'-B'存储可指示由相应ML工作节点310A-B计算的相应模型更新的模型更新标识(delta-M-ID)。与每个相应的delta-M-ID相关联的模型更新可以存储在相应的梯度数据集内，或者存储在梯度数据集的外部，如果所述梯度数据集内存储了到外部存储模型更新的链接(例如，指针)的话。

梯度数据集316A’-B’可以实现为，例如，表格、矩阵或其他合适的数据结构。示例性表的实现方式如下所示：

ΔM ID	ΔM
		1	ΔM<sub>1</sub>
2	ΔM<sub>2</sub>
		3	ΔM<sub>3</sub>
……	……

ΔM ID表示由ML工作节点计算出的模型更新的delta-M-ID。delta-M-ID在集群中是唯一的。例如，delta-M-ID可以基于ML工作节点中的模型更新索引和ML worker ID来创建，或者通过创建唯一delta-M-ID的其他方法来创建。

ΔM表示所述模型更新的存储。

每个ML工作节点可以管理自己的梯度数据集。当ML工作节点创建所述的模型更新时，所述的模型更新存储在与delta-M-ID相关联的表中。

当某一ML工作节点计算某一模型更新时，所述某一模型更新和与所述某一模型更新相关联的delta-M-ID存储在与所述某一ML工作节点相关联的相应梯度数据集中。

在406处，PS 302接收由ML工作节点310A-B计算出的所述模型更新，并使用每个接收到的模型更新来迭代地更新所述分类器模型306A。

针对每次更新迭代，全局数据集306B存储：

*每次相应迭代中与PS使用的所述模型更新相关联的delta-M-ID，以更新分类器模型；

*计算所述相应迭代中模型更新的所述ML工作节点标识(ML-worker-ID)；

*所述分类器模型的MODEL-VERSION，其是通过将模型更新与PS中先前版本的分类器模型合并而得到的。

MODEL-VERSION标记PS302中的新分类器模型306A，其通过将模型更新与PS中的先前分类器模型合并来计算。

全局数据集306B可以实现为表格、矩阵或其他合适的数据结构等。示例性表的实现方式如下所示：

ΔM ID	ML-worker-ID	MODEL VERSION
			……	……	……

当模型更新梯度ΔM(其关联ΔM ID来自某一具备ML-worker-ID的ML工作节点)与PS存储的所述最近模型合并时，通过添加调整了MODEL VERSION的新行来更新该表(例如，增加1)。

当PS 302通过合并所述接收到的模型更新和所述分类器当前模型来创建所述分类器更新模型后，以下内容被存储到所述全局数据集中：所述接收的模型更新的delta-M-ID，提供所述模型更新的ML工作节点的ML-worker-ID，以及所述的更新的分类器模型的更新的MODEL-VERSION。

在408处，框402-406迭代地创建经训练的分类器模型。当另一ML工作节点从PS接收分类器更新的模型时，分类器的更新的模型的MODEL-VERSION和另一ML工作节点的ML-worker-ID存储在模型下载数据集306C中。

在410处，可选地由控制器308接收PS 302的至少一个处理器和/或节点304中的故障指示。故障发生在分类器模型训练期间，例如，发生在块402-408的迭代期间。

现参考图5，图5为根据本发明一些实施例提供的故障恢复方法流程图。参考图5描述的方法的动作可以由执行数据存储设备中存储的代码指令的控制器308(和/或节点304和/或PS 302)的一个或多个处理器来实现。

在502处，访问模型下载数据集306C以识别最新的MODEL-VERSION以及下载有分类器最新模型306A的最新ML工作节点(例如，310A)的关联ML-worker-ID。最新的MODEL-VERSION表示模型下载数据集306C中的最新条目。

在504处，使用从模型下载数据集306C获得的最新ML-worker-ID来访问最新的ML工作节点310A。根据最新的MODEL-VERSION，可以检索最新的分类器模型。

在506处，使用检索到的分类器最新模型来初始化PS 302。

在508处，访问全局数据集306B以检索另一个delta-M-ID和与另一个MODEL-VERSION相关联的另一个ML-worker-ID，其中，另一个MODEL-VERSION表示全局数据集中在最新的MODEL-VERSION之后的最新条目。

在510处，根据检索到的另一个ML-worker-ID访问另一个ML-worker(例如310B)，以根据另一个delta-M-ID检索另一个模型更新。

在512处，指示PS 302将所述另一模型更新与最近模型合并，以恢复分类器另一(即，最新)模型至发生故障前对应的分类器另一(即，最新)模型。

现再次参考图4，在412处，控制器308接收到位于最近ML工作节点310A(存储正用于重新初始化PS 302的模型)的一个或多个处理器和/或节点处的故障指示。

应注意的是，最新ML工作节点310A的ML-worker-ID由模型下载表的最后一个条目(例如，表实现中的最后一行)读取。当接收到故障指示时，可以访问所述模型下载表中最后一个条目之前的条目并将其用于容错过程。当ML工作节点(使用最后一个条目之前的条目访问)也失败时，可以访问较早的条目(在最后一个条目之前的条目之前)并将其用于恢复过程。当额外的ML工作节点失败时，可以访问模型下载表中的早期条目，直到所有条目都用完为止。应注意的是，在选择条目的数量(例如，行)时，应使得在恢复过程期间模型下载表中引用的所有ML工作节点失败的概率可忽略不计(例如，低于定义的可忽略的概率值)。

现参考图6，图6为根据本发明一些实施例提供的最新ML-worker 310A处理器和/或节点故障恢复方法的流程图。参考图6描述的方法的动作可以由执行数据存储设备中存储的代码指令的控制器308(和/或节点304和/或PS 302和/或其他处理器和/或ML-worker310A其他节点)的一个或多个处理器来实现。

在602处，访问模型下载数据集306C以识别较早的MODEL-VERSION以及下载有分类器较早模型的较早的ML工作节点(图中未示出)的关联较早ML-worker-ID。较早的MODEL-VERSION表示最近的MODEL-VERSION之前的模型下载数据集306C中的条目。

在604处，使用较早的ML-worker-ID访问较早的ML-worker 310A。根据从模型下载数据集306C获得的早期MODEL-VERSION检索分类器的早期模型。或者，可以计算较早的MODEL-VERSION并将其存储在另一个ML-worker中，例如ML-worker 310B。

在606处，使用分类器早期模型来初始化PS 302。

在608处，访问全局数据集306B以检索最近和较早的delta-M-ID以及与最近和较早的MODEL-VERSION相关联的最近的ML-worker-ID。应注意的是，由于已经计算了较早的模型，因此计算了两个模型更新，即最近的模型更新和较早的模型更新。较早的MODEL-VERSION表示最近的MODEL-VERSION之前的全局数据集306B中的条目。

在610处，根据检索到的最近和早期ML-worker-ID访问最近和早期的ML-worker310A和310B，以根据最近和早期的delta-M-ID检索最近和早期的模型更新。

在612处，指示PS 302将早期和最近的模型更新与分类器的早期模型合并，以把分类器的最近模型恢复至PS处理器和/或节点发生故障之前对应的分类器的最近模型。

现再次参考图4，在414处，执行模型下载数据集306C和/或全局数据集306B和/或梯度数据集316A'-B'的优化。当新条目被添加到相应数据集306C、306B和316A'-B'时，可以执行优化，如块402-406所描述的一样。优化可以基于对数据集中条目数的定义和/或数据集中旧条目的删除。例如，可以由控制器308自动指示删除旧条目。

可选地，选择模型下载数据集306C中的MODEL-VERSION和关联ML-worker-ID条目数量时，使得所有ML-worker 310A-B(其对应ML-worker-ID存储在模型下载数据集306C中)在故障恢复过程中失败的概率小于预定义的要求。

可替代地或附加地，当ML-worker 310A-B具有类似的计算性能特征时(例如，在定义统计上相似表现的容限要求范围内类似)，在梯度数据集316A'-B'中存储delta-M-ID和相关模型更新的条目的数量最多为2。

可替代地或附加地，选择模型下载数据集306C中的条目数N，使得N或更少的ML工作节点在恢复过程期间失败的概率可忽略不计，例如，低于定义阈值。当至少一个ML工作节点是活跃时，可以使用本文所述的模型下载数据集中的数据来恢复模型。

可替代地或附加地，当模型下载数据集306中添加和存储了MODEL-VERSION和关联ML-worker-ID新条目时，存储在模型下载数据集306C中的MODEL-VERSIO和关联ML-worker-ID旧条目会被删除。新条目(例如，表实现中的行)可以替换最旧的现有条目，或者删除最旧的条目，并且添加新条目，维持恒定的条目数。

可替代地或附加地，从全局数据集306B中删除MODEL-VERSION值相当于模型下载数据集306C中已删除的最旧条目中MODEL-VERSION早期值或相等值的条目。在恢复过程期间，使用全局数据集306B中的条目(例如，表实现中的行)，所述条目具备的MODEL-VERSION值至少和模型下载数据集306C中的最小MODEL-VERSION值一样小(如本文所述)。当从下载数据集306C移除最旧的条目(例如，行)时，删除来自全局数据集306B的行，所述行具备的MODEL-VERSION值最多与模型下载数据集306C的已删除条目(例如，行)中的MODEL-VERSION的值一样大。

可替代地或附加地，移除与梯度数据集相关联的条目，所述条目具有的delta-M-ID值出现在被删除的全局数据集306B的相应条目中。

现参考图7-10，图7-10是根据本发明的一些实施例描绘的参考图3描述的系统300的数据流的示意图，和/或参考图4描述的方法的示意图。

现参考图7，图7为根据本发明一些实施例提供的用于描述图8-10数据流的组件的示意图。PS 702(对应于图3的PS 302)包括多个PS工作节点(表示为w_ps,1、w_ps,2和w_ps,3，并且由呼出号码704A-C表示)，所述PS工作节点存储和/或计算模型分类(表示为M)。每个ML工作节点(表示为w_ml,1、w_ml,2和w_ml,3，并由呼出号706A-C表示)与相应的梯度数据集(即，表)708A-C相关联。全局管理的数据(例如，由PS和/或控制器管理的数据)包括全局数据集(即表格)710和模型下载数据集(即表格)712。

现参考图8，图8为根据本发明的一些实施例提供的描绘当ML工作节点706B计算模型更新ΔM时的数据流的示意图。所述数据流基于参考图3描述的系统300和/或参考图4描述的方法。图8中的组件是参考图7进行描述的。

在802处，更新梯度表708B。在新行中，键(2,1)存储在列ΔM ID中，并且新计算的模型更新ΔM存储在列ΔM中。基于2表示ML工作节点706B的ML-worker-ID，以及1表示ML工作节点706B内的本地模型更新ID，创建键(2,1)。

在804处，将模型更新ΔM发送到PS 702。

在806处，模型更新ΔM与分类器现有模型M合并，表示为ΔM+M。

在808处，更新梯度表710。基于所述新创建的模型来创建新行。键(2,1)插入到ΔMID列中，表示模型更新已用于创建最新模型。通过递增表示较早的MODEL VERSION(即，2)的值，在MODEL VERSION列填充值3，以创建新的模型。

在810处，工作节点706B下载所述新模型。

在812处，创建包括MODEL VERSION值3(即，下载的新模型的模型版本)的新行和表示ML工作节点706B的ID的ML-worker-ID 2来更新模型下载表712。

现参考图9，图9为根据本发明的一些实施例描绘ML工作节点704C故障期间的恢复机制的数据流的示意图。所述数据流基于参考图3描述的系统300和/或参考图4描述的方法。图9中的组件是参考图7进行描述的。

在902处，ML工作节点706A计算模型更新ΔM。更新梯度表708A以包括用于ΔMID列的键(1,2)并将所述创建的模型更新ΔM存储在模型更新(ΔM)列中。

在904处，将模型更新ΔM发送到PS 702。

在906处，模型更新ΔM与分类器现有模型M合并，表示为ΔM+M。

在908处，更新梯度表710。基于所述新创建的模型来创建新行。键(1,2)插入到ΔMID列中，表示所述模型更新的模型更新ID。通过递增表示较早的MODEL VERSION(即，3)的值，在MODEL VERSION列填充值4，以创建新的模型。

在910处，PS工作节点(即，PS节点)704C出现故障，从而触发故障恢复机制。

在912处，使用模型下载表712将所述模型的最近下载版本识别为具有MODELVERSION 3。ML-worker-ID 2表示使用MODEL VERSION 3(从同一行的ML-worker-ID列识别)下载模型的最后ML工作节点。

在914处，具有ML-worker-ID 2的ML工作节点706B读取具有MODEL VERSION3的模型，并将其用于初始化PS 702。

在916处，在全局表710中识别具有高于3的MODEL VERSION值的行。读取所识别的行的ΔMID列的对应值(即，(1,2))。回想一下，那些ΔMID的第一个组件指向存储这些模型更新的ML工作节点(具有ML-worker-ID 1的ML-worker 706A)，而第二个组件指向ML-worker 706A内的本地模型更新ID(即2)。因此，ΔMID值指向所述ML工作节点(706A)，其存储的模型更新应该合并与所述PS模型合并，来获得具有更高MODEL VERSION的模型。所述ΔMID值包括相应ML工作节点中的模型更新的本地模型更新ID(即，2)。访问ML工作节点706A。

在918处，从ML工作节点706A的梯度表708A读取与ΔMID值(即，(1,2))相对应的模型更新，并将其提供给PS 702。PS 302使用收到的模型和模型更新，将所述模型恢复至故障发生之前的状态。

当在恢复过程期间ML工作节点706B(具有在模型下载表712的最近行中出现的ML-worker-ID)也出现故障时，识别在最近行之前创建的行。如本文所述使用所识别的较早行的值来执行所述恢复过程。

选择模型下载表712中的行数，使得表712中的行中引用的所有ML工作节点在恢复过程期间发生故障的概率低于可忽略的值。

现参考图10，图10为根据本发明一些实施例，描述参考图3所述、并使用ApacheSpark^TM的系统300示例性实现方式1100的示意图。

分布式收集存储所述分类器模型。分布式收集可以被视为分布在一组PS分区工作节点机器1102A-D上的阵列。ML工作节点1104A-C的分布式收集用于控制ML引擎，以便于下载模型并将模型更新从ML工作节点1104A-C注入模型更新的分布式收集中。一旦一组模型更新被注入到所述模型更新的分布式收集中，就可以将这些模型更新合并到PS模型中。每个ML工作节点使用机器学习(machine learning，简称ML)引擎1106A-C(例如，Café)来产生模型更新。为了产生所述模型更新，ML引擎1106A-C从分布式存储器1108读取训练数据。在Apache Spark^TM控制器1112内实现的模型更新调度器1110(Model Update Scheduler1110)调度周期性合并操作。过时性控制器1114有助于使ML工作节点中的本地模型复制品不会彼此分开太远。

现参考图11，图11为根据本发明一些实施例，描述参考图10所述的示例性实现方式1100的示意图，包括相应的梯度数据集(例如，表)1202A-C、全局数据集(例如，表)1204和模型下载表1206。梯度表1202A-C由相应的ML工作节点1104A-C存储和管理。全局表1204和模型下载表1206由Apache Spark^TM控制器1112存储和管理。

现在讨论参考图3描述的系统300的其他实现细节和/或参考图4描述的在ApacheSPARK^TM环境中的方法。ML工作节点组织在ML弹性分布式数据集(resilient distributeddataset，简称RDD)中。ML RDD控制ML工作节点。ML RDD中的每个数据项对应于单个ML引擎。每个ML工作节点的所述梯度表存储在相应的ML引擎中。每个ML工作节点管理相应的ML引擎，例如，Café。ML引擎根据集群中计算设备的可用性来分布。全局和模型下载表由SparkMaster存储和管理。PS实现为RDD，所述RDD将模型存储为分布式阵列。实现了在PS机器故障时通知Master的机制。

在PS机器故障时，Spark Master访问模型下载表并找到所述行(MODEL-VERSION，ML-worker-ID)，其中ML-worker-ID表示最后从PS下载模型的ML工作节点的ID，MODEL-VERSION表示该模型的版本。Spark Master现在启动一个程序来重建参数的RDD(并将其正确放置在PS机器中)。创建新的RDD并其分区，所述RDD内含有来自ML工作节点的模型(有ML-worker-ID)。然后，将所述RDD连接到一个新的、创建并分发给PS工作节点的空RDD上。此连接将数据重排，并有效地将最新模型的分区从ML-worker移动到PS机器上。然后，SparkMaster可以向其他ML工作节点宣布这个新RDD的存在，这通常发生在系统操作期间。

下一个Spark Master使用MODEL-VERSION的值访问全局表，并识别模型版本至少为MODEL-VERSION的行。然后，Spark从这些行中提取模型更新的ΔMID值。这些模型更新，当与PS中的所述模型合并时，会在PS机器发生故障之前重建PS中的最新模型。Spark Master使用模型更新id值来创建梯度RDD，其中梯度表的每一行(ΔMID，ΔM)被映射到ΔM。然后Spark Master将此RDD与PS RDD连接，以将所需的模型更新合并到PS RDD中的模型。

现参考图12，图12为根据本发明一些实施例，用于帮助解释分析以确定在每个梯度数据集(例如，表)中实现多少条目(例如，行)的示意图。该分析基于所有ML工作节点具有相似性能特征的假设(例如，在性能容限要求内，例如定义可接受的统计变化的范围)。

如本文详细讨论的，每个ML工作节点从PS下载最近模型M的副本，计算模型更新ΔM，并将模型更新上载到PS，然后PS将模型更新与先前模型M+＝ΔM合并。在PS将模型更新合并到模型中之后，并且在将当前模型或稍后的模型下载到至少两个ML工作节点之后，模型更新从梯度数据集中移除。

接下来示出了在一示例性实施方式中，每个ML工作节点中的梯度数据集中的条目数量确实不必超过2。首先，讨论的是关于下载数据集中的条目数量足以满足任何实际需要。首先，一小时对PS机器故障恢复来说是非常保守的上限。其次，在现代系统中，一小时内发生一次特定机器故障的概率非常低。两台特定机器在一小时内发生故障的概率按照单台机器发生故障的概率的二次方来计算，这个概率对于任何实际应用而言应足够小。因此，在下载数据集中具有两个条目对于任何实际应用都是足够的。在所描述的分析中，假设选择下载数据集中的条目数，使得它不超过系统中ML工作节点的数量，这对于任何实际应用来说是非常保守的假设。现在，回想一下，每个ML工作节点遵循以下循环，如图4所示。

1、PS处接收模型。

2、计算模型更新。

3、将模型更新传输到PS以与PS模型合并。

4、回到步骤1。

由于所有ML工作节点具有相似的性能特征(此假设前文讨论过)，当第一个ML工作节点将其第二个模型更新传输到PS并开始第二次下载PS模型时，所有其他ML工作节点都已经计算了它们自己的模型更新，把它们传输到PS以与PS模型合并，并把更新的PS模型传输给自己。这意味着当第一个ML工作节点开始第二次下载PS模型时，所有其他ML工作节点已经下载了PS模型并在下载数据集中添加了一个条目。现在，当第一个ML工作节点第二次下载PS模型时，所有其他工作节点添加的条目数加上与首次下载PS模型相对应的下载数据集中的条目数的总和至少为N。因此，根据所述策略从下载数据集中删除条目，并假设下载数据集中的条目数最多等于ML工作节点的数量，当第一个ML工作节点第二次下载PS模型时，从下载数据集中删除与其第一次下载对应的条目，从而从梯度数据集中删除该条目。因此，每个梯度数据集中的条目数不超过2。

通过研究以下附图和详细描述，本发明的其他系统、方法、特征和优点对于本领域技术人员将是或将变得显而易见。所有这些附加系统、方法、特征和优点都意图涵盖在本说明范围内、本发明范围内，并且由所附权利要求保护。

对本发明各个实施例的描述只是为了说明的目的，而这些描述并不旨在穷举或限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下，本领域技术人员可以清楚理解许多修改和变化。相比于市场上可找到的技术，选择此处使用的术语可最好地解释本实施例的原理、实际应用或技术进步，或使本领域其他技术人员理解此处公开的实施例。

预计在本申请专利成熟的期间，将开发许多相关的参数服务器，术语参数服务器的范围旨在先验地包括所有这些新技术。

本文所使用的术语“约”是指±10％。

术语“包括”以及“有”表示“包括但不限于”。这个术语包括了术语“由……组成”以及“本质上由……组成”。

短语“主要由……组成”意指组成物或方法可以包含额外成分和/或步骤，但前提是所述额外成分和/或步骤不会实质上改变所要求的组成物或方法的基本和新颖特性。

除非上下文中另有明确说明，此处使用的单数形式“一个”和“所述”包括复数含义。例如，术语“一个复合物”或“至少一个复合物”可以包括多个复合物，包括其混合物。

此处使用的词“示例性的”表示“为一个例子、示例或说明”。任何“示例性的”实施例并不一定理解为优先于或优越于其他实施例，和/或并不排除其他实施例特点的结合。

此处使用的词语“可选地”表示“在一些实施例中提供且在其他实施例中没有提供”。本发明的任意特定的实施例可以包含多个“可选的”特征，除非这些特征相互矛盾。

在整个本申请案中，本发明的各种实施例可以范围格式呈现。应理解，范围格式的描述仅为了方便和简洁起见，并且不应该被解释为对本发明范围的固定限制。因此，对范围的描述应被认为是已经具体地公开所有可能的子范围以及所述范围内的个别数值。例如，对例如从1到6的范围的描述应被认为是已经具体地公开子范围，例如从1到3、从1到4、从1到5、从2到4、从2到6、从3到6等，以及所述范围内的个别数字，例如1、2、3、4、5和6。不管范围的宽度如何，这都适用。

当此处指出一个数字范围时，表示包含了在指出的这个范围内的任意所列举的数字(分数或整数)。短语“在第一个所指示的数和第二个所指示的数范围内”以及“从第一个所指示的数到第二个所指示的数范围内”在这里互换使用，表示包括第一个和第二个所指示的数以及二者之间所有的分数和整数。

应了解，为简洁起见在单独实施例的上下文中描述的本发明的某些特征还可以组合提供于单个实施例中。相反地，为简洁起见在单个实施例的上下文中描述的本发明的各个特征也可以单独地或以任何合适的子组合或作为本发明的任何合适的其它实施例提供。在各个实施例的上下文中描述的某些特征未视为那些实施例的基本特征，除非没有这些元素所述实施例无效。

此处，本说明书中提及的所有出版物、专利和专利说明书都通过引用本说明书结合在本说明书中，同样，每个单独的出版物、专利或专利说明书也具体且单独地结合在此。此外，对本申请的任何参考的引用或识别不可当做是允许这样的参考在现有技术中优先于本发明。就使用节标题而言，不应该将节标题理解成必要的限定。

Claims

1.一种用于训练分类器的系统，其特征在于，包括：

多个机器学习(machine learning，简称ML)工作节点，其中，每个节点包括至少一个处理器，用于计算由一组模型参数参数化的分类器模型的模型更新；

参数服务器(parameter server，简称PS)，其包括至少一个处理器，所述参数服务器用于向每个ML工作节点提供所述分类器模型，基于多个ML工作节点的每个节点所提供的分类器模型来接收相应的模型更新，并使用每个接收到的模型更新来迭代地更新所述分类器模型；

多个梯度数据集，每个梯度数据集都与多个ML工作节点中的相应ML工作节点相关联，其中，每个梯度数据集内存储可以指示由相应ML工作节点计算的相应模型更新的模型更新标识(delta-M-ID)，并存储与每个相应的delta-M-ID相关联的相应模型更新；

全局数据集，其存储：与每个模型更新相关联的delta-M-ID，所述每个模型更新在每次迭代中由PS使用，用来更新所述分类器模型；ML工作节点标识(ML-worker-ID)，其可以计算相应迭代中的与delta-M-ID相关联的模型更新；标记PS中分类器的新模型的模型版本MODEL-VERSION，其是通过将模型更新与PS中的分类器的先前模型合并而计算的；

模型下载数据集，其存储与分类器模型从PS至某个特定ML工作节点每一次传输相关联的ML-worker-ID和MODEL-VERSION。

2.根据权利要求1所述的系统，其特征在于，当多个ML工作节点的第一个ML工作节点计算第一模型更新时，第一模型更新和与第一模型更新相关联的第一delta-M-ID存储在与第一ML工作节点相关联的第一梯度数据集中；

当PS通过合并第一模型更新和分类器第一模型来创建分类器第二模型后，以下内容被存储到全局数据集中：第一模型更新的第一delta-M-ID、第一ML工作节点的ML-worker-ID和分类器第二模型的第二MODEL-VERSION；

当多个ML工作节点的第二个ML工作节点从PS接收分类器第二模型时，分类器第二模型的第二MODEL-VERSION和第二ML工作节点的第二ML-worker-ID存储在模型下载数据集中。

3.根据上述权利要求中任一项所述的系统，其特征在于，还包括：与PS相关联的控制器计算设备，其中，所述控制器用于：

接收PS的多个处理器中的至少一个处理器的故障指示；

访问模型下载数据集以识别第二个MODEL-VERSION以及下载第二个分类器模型的第二个ML-worker的关联第二个ML-worker-ID，其中第二个MODEL-VERSION表示第一MODEL-VERSION之后模型下载数据集中的最新条目；

通过从模型下载数据集获得的第二ML-worker-ID来访问第二ML-worker，并根据从模型下载数据集获得的第二MODEL-VERSION来检索分类器第二模型；

使用分类器第二模型初始化PS。

4.根据权利要求3所述的系统，其特征在于，所述控制器用于：

访问全局数据集以检索与第三MODEL-VERSION相关联的第三delta-M-ID和第三ML-worker-ID，其中，第三MODEL-VERSION表示第二MODEL-VERSION之后全局数据集中的最新条目；

根据检索到的第三ML-worker-ID访问第三ML-worker，从而根据第三delta-M-ID检索第三模型更新；

指示PS将第三模型更新与第二模型合并，以恢复分类器第三模型至发生故障前的对应的分类器第三模型。

5.根据权利要求3或4所述的系统，其特征在于，所述控制器用于：

接收第二ML-worker的多个处理器中的至少一个处理器的故障指示；

访问模型下载数据集以识别第一个MODEL-VERSION以及下载第一个分类器模型的第一个ML-worker的关联第一个ML-worker-ID，其中第一个MODEL-VERSION表示第二MODEL-VERSION之后模型下载数据集中的条目；

通过从模型下载数据集获得的第一ML-worker-ID来访问第一ML-worker，并根据从模型下载数据集获得的第一MODEL-VERSION来检索分类器第一模型；

使用分类器第一模型初始化PS。

6.根据权利要求5所述的系统，其特征在于，所述控制器用于：

访问全局数据集以检索与第二和第三MODEL-VERSION相关联的第二和第三delta-M-ID和第二和第三ML-worker-ID，其中，第二和第三MODEL-VERSION表示第一MODEL-VERSION之后的全局数据集中的条目；

根据检索到的第二和第三ML-worker-ID访问第二和第三ML-worker，从而根据第二和第三delta-M-ID检索第二和第三模型更新；

指示PS将第二和第三模型更新与分类器第一模型合并，以恢复分类器第三模型至PS多个处理器的至少一个处理器发生故障前的对应的分类器第三模型。

7.根据上述权利要求中任一项所述的系统，其特征在于，选择模型下载数据集的MODEL-VERSION和关联ML-worker-ID条目数量时，使得所有ML-worker(其对应ML-worker-ID存储在模型下载数据集中)在恢复过程中失败的概率小于预定义的要求。

8.根据权利要求7所述的系统，其特征在于，所述控制器与模型下载数据集相关联，所述控制器用于：

当模型下载数据集中添加和存储了MODEL-VERSION和关联ML-worker-ID新条目时，删除存储在模型下载数据集中的MODEL-VERSION和关联ML-worker-ID旧条目；

从全局数据集中删除MODEL-VERSION值相当于模型下载数据集中已删除的最旧条目中MODEL-VERSION早期值或相等值的条目；

指示删除与梯度数据集关联的条目，所述条目包含的delta-M-ID值为全局数据集中已删除的对应条目中出现的值。

9.根据上述权利要求中任一项所述的系统，其特征在于，当多个ML-worker具有相似的计算性能特征时，与每个ML-worker相关联的每个梯度数据集中存储delta-M-ID和关联模型更新的条目数量最多为2。

10.根据上述权利要求中任一项所述的系统，其特征在于，选择模型下载数据集中的条目数N，使得其ML-worker-ID存储在模型下载数据集中的所有N个ML工作节点在恢复进程中失败的概率可忽略不计。

11.根据上述权利要求中任一项所述的系统，其特征在于，每个模型更新中的全连接层的多个权重可以通过两个向量相乘实现。

12.根据上述权利要求中任一项所述的系统，其特征在于，PS通过一种分布式系统来实现，该分布式系统包括多个计算设备，且每个计算设备包括至少一个处理单元。

13.根据上述权利要求中任一项所述的系统，其特征在于，至少两个ML工作节点通过不同的计算设备实现。

14.一种通过多个机器学习(machine learning，简称ML)工作节点训练分类器的方法，其特征在于，所述方法包括如下步骤：

通过参数服务器(parameter server，简称PS)向每个ML工作节点提供分类器模型；

通过参数服务器(parameter server，简称PS)接收来自多个ML工作节点中每一个节点的模型更新；

基于每个接收的模型更新迭代地更新所述分类器模型；

存储可以指示由相应ML工作节点计算的相应模型更新的模型更新标识(delta-M-ID)；

存储与每个相应的delta-M-ID相关联的相应模型更新；

存储ML工作节点标识(ML-worker-ID)，其计算相应迭代的delta-M-ID相关联的模型更新，以及存储在PS中标记新分类器模型的模型版本(MODEL-VERSION)，其是通过将模型更新与PS中的先前的分类器模型合并而计算得出的。

15.一种存储在计算机可读介质上的计算机程序，其特征在于，当由至少一个计算机的至少一个处理器执行时，该计算机程序运行前述方法。