CN115249074A

CN115249074A - 基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法

Info

Publication number: CN115249074A
Application number: CN202210903965.6A
Authority: CN
Inventors: 夏长达; 夏家骏; 张子扬; 张珣; 沈敏均; 张佳辰
Original assignee: Shanghai Light Tree Technology Co ltd
Current assignee: Shanghai Light Tree Technology Co ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-10-28
Anticipated expiration: 2042-07-28
Also published as: CN115249074B

Abstract

本发明公开了一种基于Spark集群和Ring‑AllReduce架构的分布式联邦学习方法，通过在联邦学习中集成Spark集群并融入Ring‑AllReduce分布式训练架构，保证了在正常进行联邦训练过程中，不必将集群扩展为联邦训练的客户端节点，由客户端自由选择调用集群环境进行分布式训练，避免了联邦学习的服务端对客户端的集群环境的管理，简化了计算架构。同时采用Ring‑AllReduce架构减少了通信成本，避免了集群内并行机器数量过多导致的通信成本增加的问题。

Description

基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法

技术领域

本发明涉及深度学习技术领域，具体涉及一种基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法。

背景技术

联邦学习是保证数据安全的前提下联合多方进行建模的一种学习方式，Spark则是专为大规模数据处理而设计的快速通用的计算引擎。Ring-AllReduce架构，是并行计算的一种通信最优方案，可以保证并行计算时通信成本的基本恒定，避免了通信成本随并行数目的增加而线性增长。

目前，多个机构联合进行模型训练时，很多时候数据量(如时间序列数据)是巨大的，这时就需要充分利用多机进行并行计算来降低整个联邦训练的耗时，但随着机器的增多，也会带来更高的通信成本，可能使得并行计算变得不切实际降低了模型训练的效率。例如，目前，TensorFlow Federate框架主要采用TensorFlow的keras模型进行训练，训练过程如下：

首先，服务端定义好keras模型M；

然后，服务端将模型M进行序列化得到序列化模型S，并发送给各客户端；

最后，客户端对序列化模型S反序列化得到模型M，并读取本地数据为模型样本进行训练。

而分布式机器学习通常采用数据并行的模式。数据并行的架构主要采用PS-Worker架构，在一些常用的机器学习包如TensorFlow、pytorch、paddle等中都有一些相应的api，通过在分布式工作节点中安装这些api，可以在多机/多卡上实现分布式计算，相比之下，这些机器学习包中对分布式计算的梯度聚合方式比Spark集群自带的map-reduce更加易用且丰富，但在分布式机器的调度管理上不如Spark集群方便。

综上可以看到，现有的TensorFlow Federated框架支持使用自定义的各种keras模型进行训练，但缺乏对大规模数据的训练支持，如果对大规模数据进行训练可能因内存问题导致训练失败，又或者需要利用队列依次读出数据，将耗费大量的时间。如果可以嵌入Spark集群进行分布式计算就可以减少大量数据的输入输出和计算产生的时间消耗，但仅仅这么做会在并行机器过多时使得训练受限于通信带宽，这就不但需要嵌入的分布式方法能够对keras模型有相应的适配，而且还要避免并行机器增多带来的通信成本问题，此外还需要能够保证客户端在TensorFlow Federated的框架下对集群进行调度，保证联邦训练的正常进行。因此如何在保护数据私密性的同时，利用好海量数据快速地进行模型训练，并且避免过高的通信成本成为目前深度学习技术领域亟待解决的技术问题。

发明内容

本发明以在保护数据私密性的同时，利用海量数据快速进行模型训练，并且避免过高的通信成本为目的，提供了一种基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法。

为达此目的，本发明采用以下技术方案：

提供一种基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法，步骤包括：

S1，服务端定义模型M并对其序列化后生成序列化信息广播给各客户端进行联邦训练；

S2，各所述客户端接收到所述序列化信息后部署好Spark集群环境，所述Spark集群环境包括训练集群和数据集群；

S3，所述训练集群中的每个工作节点对接收到的所述序列化信息反序列化得到所述模型M和模型训练参数，并以所述数据集群投喂的数据为样本，相互间按照Ring-AllReduce的通信方式进行梯度聚合，以完成对所述模型M的迭代训练。

作为优选，所述的基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法还包括：

S4，每个所述客户端读取其部署的所述训练集群聚合的模型参数回传给所述服务端；

S5，所述服务端对各所述客户端回传的所述模型参数进行聚合后更新所述模型M；

S6，重复执行所述步骤S1-S5，直至达到模型训练终止条件。

作为优选，所述服务端定义的所述模型M为keras模型。

作为优选，步骤S3中，梯度聚合通过TensorFlow的multi-worker策略按照Ring-AllReduce的通信方式进行。

作为优选，步骤S4中，所述客户端将读取的所述模型参数加入掩码后回传给所述服务端。

作为优选，步骤S4中，所述客户端取所述模型参数与步骤S3反序列化得到的所述模型训练参数的参数差回传给所述服务端。

作为优选，所述客户端对所述参数差加入掩码后回传给所述服务端。

作为优选，步骤S3中，Ring-AllReduce架构下的分布式计算由对应的所述客户端调度。

本发明具有以下有益效果：

1、在联邦学习中集成Spark集群并融入Ring-AllReduce分布式训练架构，保证了在正常进行联邦训练过程中，不必将集群扩展为联邦训练的客户端节点，由客户端自由选择调用集群环境下的工作节点进行分布式训练，避免了联邦学习的服务端对客户端的集群环境的管理，简化了计算架构；

2、分布式计算采用两个Spark集群(训练集群和数据集群)分别配合数据的输入、输出和TensorFlow中的multi-worker策略的梯度聚合，既保留了Spark集群调度管理分布式机器的便利性，又利用multi-worker策略更为方便高效的实现了训练集群中各工作节点的梯度聚合；

3、梯度聚合通过TensorFlow的multi-worker策略按照Ring-AllReduce的通信进行，避免了客户端并行机器过多时导致的通信成本线性增加，训练效果受限于网络带宽的问题，确保了分布式训练时的通信成本随机器的增多保持基本不变。

4、Ring-AllReduce架构下的分布式计算完全由客户端本身调度而与服务端分离，降低了以往联邦学习中由服务端调度计算的复杂度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法的流程图；

图2是本发明实施例提供的基于Spark集群和Ring-AllReduce架构的分布式联邦学习的实现原理图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

以带Spark集群的参与方对大规模数据进行联邦训练为例，记联邦训练框架中的调度方为服务端，参与训练方为客户端，图2中Spark训练集群构成的环状箭头表示集群中各工作节点相互间以Ring-AllReduce通信方式进行梯度聚合，梯度聚合过程Spark不参与。本发明实施例提供的基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法的具体步骤如图1所示，包括：

S1，各客户端约定本地Spark集群配置文件的存放位置用以确定是否支持采用Spark集群进行计算(客户端具有Spark集群配置文件，即表明该客户端支持Spark集群计算)，以及确定启动Spark时集群环境下的各工作节点的资源分配方式。然后服务端定义keras模型，并对其序列化后生成序列化信息广播给各客户端进行联邦训练，序列化信息包括keras模型经序列化后的序列化模型以及模型训练参数(如batch size、步长等)；

S2，各客户端接收到序列化信息后部署好Spark集群环境，Spark集群环境包括负责样本数据获取和投喂的数据集群以及负责根据投喂的样本数据进行模型训练的训练集群；客户端配置Spark集群环境的方法为：利用TensorFlowOnSpark调用本地的Spark驱动进程，进程调用后即启动数据集群和训练集群这两个Spark集群；

数据集群启动后，对于分布式文件，会将数据集就近分块分配给内部的各个工作节点；如果是本地文件，则需要通过Spark的驱动进程将数据依次分配给各个工作节点。对于大规模数据，分布式文件在数据分配上会更快并且可以减少Spark驱动进程的压力。

S3，训练集群中的每个工作节点对接收到的序列化信息反序列化得到keras模型和模型训练参数，然后以数据集群投喂的数据为样本，通过TensorFlow的multi-worker策略并按照Ring-AllReduce的通信方式相互间进行梯度聚合，以完成对keras模型的迭代训练；

这里需要说明的是，训练集群内部的工作节点由Spark调度启动，但节点间的梯度聚合通过TensorFlow的multi-worker策略来控制，这样做的好处是，既保留了Spark集群调度管理分布式机器的便利性，又利用TensorFlow更为高效方便的实现了梯度聚合。

S4，每个客户端读取其部署的训练集群集合的模型参数回传给服务端；

这里需要说明的是，训练集群中的各工作节点完成训练后将模型参数保存在本地，由于客户端既充当Spark集群的master又充当其中一个Spark的训练节点，因此客户端可以读取到完成训练的模型参数。

为了确保模型参数数据传输的安全性，优选地，客户端将读取的模型参数加入掩码后回传给服务端。掩码加入的现有方法有许多，因此关于在模型参数中加入掩码的具体方法在此不做说明。

为了减少数据传输量，更优选地，客户端取步骤S4完成训练后的模型参数与步骤S3反序列化得到的模型训练参数的参数差回传给服务端，服务端可以根据参数差和步骤S1发送给客户端的模型训练参数作加法运算后得到各客户端完成迭代训练后得到的模型参数。

同样地，为了确保模型参数数据传输的安全性，优选地，客户端对参数差加入掩码后回传给服务端。

S5，服务端对各客户端回传的模型参数进行聚合后更新keras模型，然后返回步骤S1，将更新后的keras模型和聚合后的模型训练参数序列化后生成序列化信息再次广播给各客户端进行联邦训练；

S6，重复执行步骤S1-S5，直至达到模型训练终止条件(模型收敛或达到设定的模型训练次数)。

综上，本发明通过在联邦学习中集成Spark集群并融入Ring-AllReduce分布式训练架构，保证了在正常进行联邦训练过程中，不必将集群扩展为联邦训练的客户端节点，由客户端自由选择调用集群环境进行分布式训练，避免了联邦学习的服务端对客户端的集群环境的管理，简化了计算架构。同时采用Ring-AllReduce架构减少了通信成本，避免了集群内并行机器数量过多导致的通信成本增加的问题。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法，其特征在于，步骤包括：

2.根据权利要求1所述的基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法，其特征在于，还包括：

S6，重复执行所述步骤S1-S5，直至达到模型训练终止条件。

3.根据权利要求1所述的基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法，其特征在于，所述服务端定义的所述模型M为keras模型。

4.根据权利要求1所述的基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法，其特征在于，步骤S3中，梯度聚合通过TensorFlow的multi-worker策略按照Ring-AllReduce的通信方式进行。

5.根据权利要求1所述的基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法，其特征在于，步骤S4中，所述客户端将读取的所述模型参数加入掩码后回传给所述服务端。

6.根据权利要求1所述的基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法，其特征在于，步骤S4中，所述客户端取所述模型参数与步骤S3反序列化得到的所述模型训练参数的参数差回传给所述服务端。

7.根据权利要求6所述的基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法，其特征在于，所述客户端对所述参数差加入掩码后回传给所述服务端。

8.根据权利要求1所述的基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法，其特征在于，步骤S3中，Ring-AllReduce架构下的分布式计算由对应的所述客户端调度。