CN113989561B

CN113989561B - 基于异步联邦学习的参数聚合更新方法、设备及系统

Info

Publication number: CN113989561B
Application number: CN202111268128.2A
Authority: CN
Inventors: 陈瑞锋; 谢在鹏; 朱晓瑞; 屈志昊; 叶保留; 许峰
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2024-04-16
Anticipated expiration: 2041-10-29
Also published as: CN113989561A

Abstract

本发明公开了一种基于异步联邦学习的参数聚合更新方法、设备及系统。所述方法通过在参数服务器上保存权重摘要来保留工作节点的最新权重，并且所有工作节点所占权重比例相同，权重摘要通过每个工作节点只能更新自身摘要部分，限制了快节点高频更新对整体权重的影响；所述方法通过在参数服务器上设置版本感知机制对权重摘要的版本进行记录，使得参数服务器聚合时可以根据工作节点不同的版本确定不同的加权比例，当整体版本差距过大时，通过全局更新的方式将慢节点中使用的旧权重更新到最新权重，从而提高慢节点的更新效率，使参数服务器上的模型更快的收敛。本发明可有效地提高基于联邦学习的机器学习模型的训练速度。

Description

基于异步联邦学习的参数聚合更新方法、设备及系统

技术领域

本发明属于数据处理技术领域，具体涉及一种用于移动互联网的基于异步联邦学习的参数聚合更新方法、设备及系统。

背景技术

近年来，智能手机、平板电脑、可穿戴设备等移动设备逐渐成为人们日常生活的组成部分。这些移动设备通常装备了种类丰富的传感器，可感知诸如图像、声音、加速度等传感器数据。随着这些设备的普及，诸如运动检测、图像识别、自然语言处理等移动互联网应用逐渐流行。这些应用通常基于机器学习模型对用户提交的感知数据进行处理并返回处理结果。理想情况下，用于处理用户数据的机器学习模型可使用来自不同用户的大量标记数据进行训练以提高模型的表达性能和泛化性能。然而出于隐私与安全原因，用户通常不愿意上传这些数据。

针对此问题，谷歌提出了联邦学习用于解决机器学习模型训练的数据需求与用户数据隐私保护之间的矛盾。联邦学习是一种分布式机器学习框架，能够在满足用户隐私与数据安全的同时有效利用数据进行机器学习模型训练。具体而言，联邦学习利用移动设备(工作节点)本地计算能力和数据训练机器学习模型，然后将训练后的模型参数在服务器端聚合并作为下一轮本地训练的初始参数，迭代上述过程直至达到最终模型达到最好的泛化性能。图1是常见的异步联邦学习聚合更新模式。由于所有用户数据都只用于本地模型训练，联邦学习充分保护了用户隐私与数据安全。

尽管具有上述优点，联邦学习在实现时经常面临以下问题：1)由于多个工作节点上可用的计算、通信资源以及数据量通常不同，因此工作节点完成每轮本地训练后提交模型参数的时间存在差异。这会造成参数服务器因等待慢节点上传参数而延长训练时间(即落跑者问题)。2)由于多个工作节点上的数据通常不能服从相同概率分布，这会造成不同工作节点的本地模型收敛方向均与参数服务器不一致，从而降低了整体训练速度。

为解决上述问题，现有工作提出了基于指数滑动平均的联邦学习方法。指数滑动平均是指工作节点在参数服务器中以某个比例(假设为a)加和，随着其他节点的更新，本节点在全局权重中的比例以指数a^t衰减，其中t是本次更新后经过的其他更新次数。参数服务器在接收到某个工作节点发来的神经网络参数(权重)后，参数服务器将保存的平均权重与工作节点发来的权重加权平均以得到新的平均权重，并将此权重返回给工作节点。由于参数服务器不再需要等待收集完所有工作节点相同版本的参数后进行聚合，因而解决了落跑者问题，提高了训练速度。加权平均的策略将由非独立用分布数据训练的模型参数聚合成一个全局泛化能力更强的模型参数，从而缓解了非独立用分布数据的影响。但是也存在如下问题：1)快节点频繁提交权重会造成聚合后的模型参数偏离其他节点上模型的收敛方向；2)慢节点滞后提交的参数会阻碍参数服务器模型的收敛，并且此影响无法完全消除。这些问题会显著影响参数服务器上模型的收敛速度。具体参照图2，左边包含多个小矩形的整个矩形代表参数服务器上的模型参数，其中不同小矩形是指不同更新在参数服务器上所占据的比例，浅灰色部分代表这个权重更新是有效的/及时的，深灰色代表这部分与最新的权重已经有较大差距，会影响全局模型效果。右边的环状图从上到下表现了随着时间，参数服务器中不同节点所占据的比例变化情况，可以看到传统的指数滑动平均方案会严重的偏向快节点的更新结果。此外，当训练节点差距过大时，甚至会导致模型不收敛。上述问题的主要原因在于指数滑动平均只保存了一个全局平均权重，导致工作节点提交的参数一旦被聚合到参数服务器平均权重中，就不能对这个权重做任何修改，只能等待之后的每次更新所占比例下降。

因此，有必要对基于联邦学习机制的神经网络参数聚合更新方式加以改进。

发明内容

发明目的：针对现有的异步联邦学习的聚合更新策略指数滑动平均的不足，本发明提出了一种基于异步联邦学习的参数聚合更新方法，解决因工作节点训练速度差异而导致的模型收敛速度降低问题。

本发明还提供实现上述方法的相应的设备及系统。

技术方案：为了实现以上发明目的，本发明的技术方案如下：

第一方面，一种基于异步联邦学习的参数聚合更新方法，用于参数服务器端，所述方法包括以下步骤：

随机选择n个工作节点，向选择的工作节点分发神经网络模型、神经网络模型初始参数、训练轮次T、超时时间tl，设置最大版本差距阈值th，并初始化本地版本为version_latest←1，初始化α表示调节参数；

接收工作节点传来的节点id、神经网络权重w，并保存server_w[id]←w；

本地版本递增version_latest←version_latest+1，并根据工作节点传来的神经网络权重w，计算当前最新权重w_latest；

判断当前最新权重w_latest是否达到预设训练精度ta要求，如果测试集精度大于等于ta，则停止训练；如果测试集精度小于ta，则判断当前整体版本差距是否大于最大版本差距阈值th：

如果版本差距超过阈值th，则发送最新权重w_latest到所有节点；

如果版本差距小于阈值th，则发送最新权重w_latest到刚接收权重的工作节点；

等待工作节点下次传来节点id、神经网络权重w，进行下一轮更新。

其中，参数服务器端根据下式计算当前最新权重w_latest：

式中，α表示调节参数，server_w[i]表示工作节点i在参数服务器上存储的神经网络权重w。

第二方面，一种基于异步联邦学习的参数聚合更新方法，用于工作节点端，所述方法包括以下步骤：

接收参数服务器发来的神经网络模型、神经网络模型初始参数、训练轮次T、超时时间tl；

在本地进行T轮训练，并将训练产生的权重参数w以及本节点的id发送给参数服务器；

如果在超时时间tl内接收到参数服务器发来的最新权重w_latest，则将本地神经网络模型中的权重更新为最新权重；

利用更新后的权重进行训练。

第三方面，一种用于在参数服务器端进行基于异步联邦学习的参数聚合更新的设备，所述设备包括：

存储器，存储有一个或多个计算机程序，所述一个或多个计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行如本发明第一方面所述的参数聚合更新方法。

第四方面，一种用于在工作节点端进行基于异步联邦学习的参数聚合更新的设备，所述设备包括：

存储器，存储有一个或多个计算机程序，所述一个或多个计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行如本发明第二方面所述的参数聚合更新方法。

第五方面，一种基于异步联邦学习的参数聚合更新系统，包括参数服务器以及与参数服务器通信相连的多个工作节点，参数服务器与工作节点基于异步联邦学习机制进行参数聚合更新，所述参数服务器根据本发明第一方面所述的方法进行参数聚合更新；所述工作节点根据本发明第二方面所述的方法完成参数更新。

有益效果：本发明所提出的异步联邦学习参数聚合更新方法，通过权重摘要保留了工作节点最新权重，并且所有工作节点所占权重比例相同，消除了过时权重对全局权重的影响，解决了现有指数滑动平均算法的问题。通过版本感知机制让参数服务器对权重摘要的版本进行记录，使得参数服务器聚合时可以根据工作节点不同的版本确定不同的加权比例。针对版本差异，当工作节点间版本差距过大时使用主动更新机制同步更新所有工作节点，当版本差距较小时，使用完全的不同节点版本来对权重进行加权聚合解决了版本差距问题。从而提高了联邦学习训练速度。

附图说明

图1是现有技术中异步联邦学习聚合更新模式示意图；

图2是现有技术中指数滑动平均聚合方法以及更新不及时问题的示意图；

图3是本发明实施方案的基于异步联邦学习的聚合策略图；

图4是本发明实施方案联邦学习集群的架构图；

图5是本发明实施方案参数服务器端流程图

图6是本发明实施方案工作节点端流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

针对指数滑动平均聚合更新方式的不足，本发明提出一种基于异步联邦学习的参数聚合更新方法，该方法是一种基于权重摘要(Weight Profile)和更新版本感知(VersionAware)的异步联邦学习聚合更新方法，也简称为FedWPVA，如图3所示，其解决了因工作节点训练速度差异而导致的模型收敛速度降低问题。具体而言，权重摘要保留了工作节点最新权重，并且所有工作节点所占权重比例相同。通过保存了所有工作节点最新权重作为权重摘要，从而保留了完整的聚合信息。权重摘要通过每个工作节点只能更新自身摘要部分，限制了快节点高频更新对整体权重的影响，可以推动参数服务器上的模型更快地收敛。版本感知是指参数服务器对权重摘要的版本进行记录，使得参数服务器聚合时可以根据工作节点不同的版本确定不同的加权比例。同时，当整体版本差距过大时，通过全局更新方式将慢节点中使用的旧权重更新到最新权重，从而提高慢节点的更新效率，使参数服务器上的模型更快的收敛。

联邦学习集群存在一个中心节点即参数服务器，和n个工作节点，该集群的架构如图4所示。应当理解，本文所描述的实例方案仅仅用于解释本发明，并不用于限定本发明。本领域的技术人员可以理解，本方法所针对的异步联邦学习训练中只有一个参数服务器，该参数服务器可同时为多个用户节点提供聚合更新服务，参数服务器假设通过冗余备份等技术手段保证运行稳定性。每一个工作节点都有一个唯一的用户id，工作节点可以通过互联网将更新数据发送到参数服务器，也可以从参数服务器获取到更新的权重信息。在异步联邦学习中，参数服务器不需要等待所有工作节点完成任务才进行一次聚合更新，而是每当有一个工作节点发来新的权重时进行更新，本发明中使用了权重摘要的更新方式，保存了所有工作节点的最新权重进行更新。以下为实例具体方案流程。

图5示出了参数服务器端的处理流程图，具体地，包括以下步骤：

在步骤S11中，在进行联邦学习训练之前，参数服务器随机选择n个工作节点。进入步骤S12。工作节点可以是移动终端或边缘设备。在一个实施例中，应用联邦学习的场景是，在某个公司内随机选择n个员工的个人设备进行图像分类任务的训练，最终可以实现员工不需要将个人隐私数据上传到公司服务器的前提下，训练出一个图像分类的模型。将这n个员工的智能手机或笔记本电脑作为移动边缘设备，设备中存在员工的图像，图像从名称或者位置可以得到其真实类别。

在步骤S12中，参数服务器进行初始化设置，设置all_node为所有工作节点的集合，工作节点的本地训练轮次为T，超时时间设置为tl，最终训练目标准确率设置为ta，参数服务器向工作节点分发神经网络、初始神经网络参数、本地训练轮次T、超时时间tl，最大版本差距threshold等参数，并初始化本地版本为version_latest←1。进入步骤S13。

举例而言，一个实施例中，参数服务器随机选择16个工作节点，在初始化阶段参数服务器分发给工作节点神经网络、初始神经网络参数、本地训练轮次设置为10、超时时间设置为10秒，最大版本差距threshold设置为120，本地训练轮次设置为10，最终训练目标准确率设置为90％。

神经网络可以认为由结构和参数(权重)组成的，进一步说可以由参数推出结构。在实际项目中需要使用到具体的神经网络，但是根据本发明的方法，神经网络并不限定于某一个特定神经网络，在本发明的环境中，神经网络结构是所有节点已知的，所以只需要传输参数。在最简化的情况下，神经网络可以简化为f(x)＝ax₁+bx₂，这里的a、b就是神经网络的权重，x就是图像输入，y就是神经网络的预测结果。

在步骤S13中，参数服务器接收工作节点传来的节点id、神经网络权重w，将此次更新保存server_w[id]←w。这里，server_w[id]表示该id工作节点在参数服务器上存储的权重，也就是权重摘要，←表示赋值。进入步骤S14。

在步骤S14中，参数服务器的本地版本递增version_latest←version_latest+1。进入步骤S15。

在步骤S15中，参数服务器对权重进行聚合更新，基于下式计算当前最新权重：

上述式子用来计算新的最新梯度，其中(version_latest-server_w[i]+1)^-α是根据这个摘要的版本计算对应权重，当版本差距越大，式子取值越小，相当于在整体版本中所占比例越少，其中α是一个超参数，用来调节对落后版本将权的力度，是一个大于0的数，在系统开始时需要进行配置。乘上server_w[i]是为了加上对应的权重，最后除以的分母是为了把加的权重进行归一化。进入步骤S16。

在步骤S16中，参数服务器对当前最新权重进行精度判断，判断当前最新权重w_latest是否达到训练精度ta要求：

用训练好的模型预测测试集结果，根据预测结果与实际结果对比可以得到准确率，这个准确率叫做测试集精度，如果测试集精度大于等于ta，停止训练；如果测试集精度小于ta，进入步骤S17。

训练精度ta是一个超参数，在训练前设定的训练目标准确率，范围[0,1]。

在步骤S17中，参数服务器判断版本差距是否大于预设阈值threshold，这里的求和体现的是所有保存的权重与最新的版本的差距之和，用来表现在这个联邦学习系统中版本总体差距：

如果版本差距超过阈值，版本差距大需要全局更新，进入步骤S18；

如果版本差距小于阈值，版本差距较小不需要全局更新，进入步骤S19。

在步骤S18中，参数服务器发送最新权重w_latest到所有节点send(all_node,w_latest)，进入步骤S13，等待下一轮更新；

在步骤S19中，参数服务器发送最新权重w_latest到刚接收到权重信息的节点id，send(id,w_latest)，进入步骤S13，等待下一轮更新。

根据本发明的另一实施例，一种用于在参数服务器端进行基于异步联邦学习的参数聚合更新的设备，设备包括：存储器，存储有一个或多个计算机程序，所述一个或多个计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行上述方法实施例中的步骤S11-S19。

参照图6，在工作节点端的处理流程包括以下步骤：

在步骤S21中，工作节点接收参数服务器发来的初始模型。进入步骤S22。

在步骤S22中，工作节点进行本地T轮训练，进入步骤S23。

在步骤S23中，工作节点将训练产生的权重参数以及本节点的id发送给参数服务器，进入步骤S24。

在步骤S24中，工作节点等待接收参数服务器发来的最新权重，判断等待时间是否超过tl：

如果等待时间超过tl，工作节点退出。

在步骤S25中，如果在tl内接收到w_latest，则将本地权重更新为最新权重，进入步骤S26，否则进入S24。

在步骤S26中，使用参数服务器发来的新权重更新自身模型，进入步骤S22。

根据本发明的另一实施例，提供一种用于在工作节点端进行基于异步联邦学习的参数聚合更新的设备，设备包括：存储器，存储有一个或多个计算机程序，所述一个或多个计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行上述方法实施例中的步骤S21-S26。

本发明实例提供了基于异步联邦学习的聚合更新方法的实施步骤，需要说明的是，虽然在流程图中给出了逻辑流程顺序，但是在某些情况下，可以以不同的执行顺序所示或描述的步骤。

本发明还提供一种基于异步联邦学习的参数聚合更新系统，包括参数服务器以及与参数服务器通信相连的多个工作节点，参数服务器与工作节点基于异步联邦学习机制进行参数聚合更新，参数服务器根据步骤S11-S19所述的方法进行参数聚合更新；工作节点根据步骤S21-S26所述的方法完成参数更新。

本领域内的技术人员应明白，本发明的实施例可提供为方法、设备、装置、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于异步联邦学习的参数聚合更新方法，其特征在于，用于参数服务器端，所述方法包括以下步骤：

本地版本递增version_latest←version_latest+1，并根据工作节点传来的神经网络权重w，计算当前最新权重w_latest，计算公式如下：

式中，α表示调节参数，server_w[i]表示工作节点i在参数服务器上存储的神经网络权重w；

2.根据权利要求1所述的基于异步联邦学习的参数聚合更新方法，其特征在于，判断当前整体版本差距是否大于最大版本差距阈值th包括：判断是否大于最大版本差距阈值th，server_w[i]表示工作节点i在参数服务器上存储的神经网络权重w。

3.根据权利要求1所述的基于异步联邦学习的参数聚合更新方法，其特征在于，所述测试集精度是用训练好的模型预测测试集结果，根据预测结果与实际结果对比所得到的准确率。

4.一种基于异步联邦学习的参数聚合更新方法，其特征在于，用于工作节点端，所述方法包括以下步骤：

在本地进行T轮训练，并将训练产生的权重参数w以及本节点的id发送给参数服务器，参数服务器端根据下式计算当前最新权重w_latest：

式中，α表示调节参数，server_w[i]表示工作节点i在参数服务器上存储的神经网络权重w，n为工作节点数量，version_latest为服务器端的本地版本；

利用更新后的权重进行训练。

5.根据权利要求4所述的基于异步联邦学习的参数聚合更新方法，其特征在于，如果超时时间tl超时后未收到参数服务器的最新权重，工作节点退出。

6.一种用于在参数服务器端进行基于异步联邦学习的参数聚合更新的设备，其特征在于，所述设备包括：

存储器，存储有一个或多个计算机程序，所述一个或多个计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行如权利要求1-3任一项所述的方法。

7.一种用于在工作节点端进行基于异步联邦学习的参数聚合更新的设备，其特征在于，所述设备包括：

存储器，存储有一个或多个计算机程序，所述一个或多个计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行如权利要求4-5任一项所述的方法。

8.一种基于异步联邦学习的参数聚合更新系统，包括参数服务器以及与参数服务器通信相连的多个工作节点，其特征在于，参数服务器与工作节点基于异步联邦学习机制进行参数聚合更新，所述参数服务器根据权利要求1-3中任一项所述的方法进行参数聚合更新；所述工作节点根据权利要求4-5中任一项所述的方法完成参数更新。