CN112817940B

CN112817940B - 基于梯度压缩的联邦学习数据处理系统

Info

Publication number: CN112817940B
Application number: CN202110169210.3A
Authority: CN
Inventors: 蔡文渊; 叶田地; 高明; 钱卫宁; 周傲英; 顾海林; 徐林昊; 孙嘉; 袁国玮
Original assignee: Shanghai Hipu Intelligent Information Technology Co ltd; East China Normal University
Current assignee: Shanghai Hipu Intelligent Information Technology Co ltd; East China Normal University
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2022-03-04
Anticipated expiration: 2041-02-07
Also published as: CN112817940A

Abstract

本发明涉及一种基于梯度压缩的联邦学习数据处理系统，包括服务器、M个客户端、处理器和存储有计算机程序的存储器，其中，所述服务器中存储有第一数据库和第二数据库，所述第一数据库的字段包括客户端id和客户端最近一次参与联邦聚合的轮次，所述第二数据库的字段包括联邦聚合的轮次和该轮次对应的全局模型，所述第一数据库和第二数据库均随联邦聚合模型的训练动态更新。本发明减少了服务器与客户端之间传输的字节数，从而减少了服务器与客户端之间通信所耗用的时间，提高了联邦聚合模型训练的效率。

Description

基于梯度压缩的联邦学习数据处理系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于梯度压缩的联邦学习数据处理系统。

背景技术

联邦学习是一种机器学习设置，在保证训练数据分散在各个客户端并且不出本地的前提下，多个客户端在服务器的协调下协同训练模型。整个模型的训练是一个迭代，包含若干轮次服务器与客户端通信的过程。在每轮中，服务器随机选中若干个客户端，并将服务器上保存的最新的联邦平均模型下发给所有选中的客户端。每个客户端根据本地数据进行模型训练，更新模型参数若干次，并将模型更新连同其本地训练集的样本总数上传给服务器。服务器在收到所有选中客户端的模型更新之后，以训练集样本总数为权重，将最新的联邦聚合模型更新为所有模型更新的加权求和。至此，完成了服务器与客户端的一次通信过程，按此迭代达到预先设定的次数为止。

但是，联邦学习在训练的过程中包含服务器与客户端的频繁通信，相比于在客户端上模型训练所耗用的时间，服务器与客户端通信所耗用的时间更大，使得模型训练总时间长，模型训练效率低。由此可知，如何减少服务器与客户端通信所耗用的时间，提高联邦聚合模型训练的效率，成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种基于梯度压缩的联邦学习数据处理系统，减少了服务器与客户端之间传输的字节数，从而减少了服务器与客户端之间通信所耗用的时间，提高了联邦聚合模型训练的效率。

根据本发明第一方面，提供了一种基于梯度压缩的联邦学习数据处理系统，包括服务器、M个客户端、处理器和存储有计算机程序的存储器，其中，所述服务器中存储有第一数据库和第二数据库，所述第一数据库的字段包括客户端id和客户端最近一次参与联邦聚合的轮次，所述第二数据库的字段包括联邦聚合的轮次和该轮次对应的全局模型，所述第一数据库和第二数据库均随联邦聚合模型的训练动态更新，所述处理器执行所述计算机程序实现以下步骤：

步骤S1、所述服务器初始化联邦聚合模型、第一数据库和第二数据库，并将初始联邦聚合模型w₀发送至每一客户端作为每一客户端对应的本地初始模型，初始第一数据库中，每一客户端对应的最近一次参与联邦聚合的轮次均为0，初始第二数据库中，联邦聚合的轮次0对应的全局模型为w₀；

步骤S2、对于第t轮训练，所述服务器对应的当前全局模型为W_t-1，t从1开始取值,所述服务器从所述M个客户端中随机选择m个客户端

表示第t轮训练的第k个客户端，k的取值为1到m，m<M,从所述第一数据库中获取

最近一次参与联邦聚合的轮次,并从所述第二数据库中获取

最近一次参与联邦聚合的轮次对应的全局模型

获取

对应的第一模型更新

并更新所述第一数据库；

步骤S3、基于

进行压缩编码处理，获取

对应的对应的第一模型更新数据，并发送给

步骤S4、

基于

对应的第一模型更新数据更新本地模型，并进行本地模型训练，获取

本轮本地模型训练对应的第二模型更新

步骤S5、基于

进行压缩编码处理，获取

对应的第二模型更新数据，并发送给所述服务器；

步骤S6、所述服务器基于本轮所选择的m个客户端对应的第二模型更新数据，更新当前全局模型为W_t-1生成W_t，并更新所述第二数据库；

步骤S7、判断t是否达到预设通信轮次阈值，若达到，则结束训练，否则，令t＝t+1,返回执行步骤S2。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种基于梯度压缩的联邦学习数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明将服务器和客户端之间传输的数据进行了压缩，减少了服务器与客户端之间传输的字节数，从而减少了服务器与客户端之间通信所耗用的时间，提高了联邦聚合模型训练的效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的基于梯度压缩的联邦学习数据处理系统示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种基于梯度压缩的联邦学习数据处理系统的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种基于梯度压缩的联邦学习数据处理系统，如图1所示，包括服务器、M个客户端、处理器和存储有计算机程序的存储器，其中，所述服务器中存储有第一数据库和第二数据库，所述第一数据库的字段包括客户端id和客户端最近一次参与联邦聚合的轮次，所述第二数据库的字段包括联邦聚合的轮次和该轮次对应的全局模型，所述第一数据库和第二数据库均随联邦聚合模型的训练动态更新，所述处理器执行所述计算机程序实现以下步骤：

最近一次参与联邦聚合的轮次,并从所述第二数据库中获取

最近一次参与联邦聚合的轮次对应的全局模型

获取

对应的第一模型更新

并更新所述第一数据库；

可以理解的是，在进行第一轮训练时，服务器对应的当前全局模型为w₀，服务器所选择的m个客户端的最近一次参与联邦聚合的轮次对应的全局模型也w₀，因此第一轮训练时，

对应的第一模型更新是为0的，即第一轮训练时，

直接采用w₀作为本地模型进行本地模型训练。

其中，更新所述第一数据库具体包括，将本轮参加训练的m个客户端在第一数据库中对应的最近一次参与联邦聚合的轮次更新。

步骤S3、基于

进行压缩编码处理，获取

对应的第一模型更新数据，并发送给

步骤S4、

基于

本轮本地模型训练对应的第二模型更新

步骤S5、基于

进行压缩编码处理，获取

对应的第二模型更新数据，并发送给所述服务器；

其中，预设通信轮次阈值可以根据具体模型训练精确度需求等因素具体设定。

本发明实施例所述系统将服务器和客户端之间传输的数据进行了压缩，减少了服务器与客户端之间传输的字节数，从而减少了服务器与客户端之间通信所耗用的时间，提高了联邦聚合模型训练的效率。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

作为一种实施例，所述服务器针对每一客户端维护一个服务器模型更新误差D，D包括第一更新误差和第二更新误差,D的初始值为全零的列表，D随着模型训练动态更新，

对应的最近一次参与联邦聚合的轮次的服务器模型更新误差为

所述步骤S3包括、

步骤S31、基于

和

获取第一累计模型更新

可以理解的是，

表示每一位置的第一梯度分量的值加上对应位置的模型更新误差值，得到该位置第一累计模型更新对应位置的第一梯度分量。

步骤S32、所述

由一组第一梯度分量组成，根据每一第一梯度分量在

对应的位置和参数值，获取每一第一梯度分量对应的下标key和对应第一梯度分量值value组成(key^k,value^k)，从而将

转换为

步骤S33、将

中所有的value^k的绝对值按照从大到小的顺序排序，设置N，获取前N个

作为待处理的(key^k,value^k)，

表示排序后的第n个(key^k,value^k)，n的取值为1到N，将除待处理的(key^k,value^k)外的剩余的(key^k,value^k)作为本轮第一更新误差；

需要说明的是，N值根据

中所有的value^k的绝对值按照从大到小的顺序排序后的value^k的数值分布，模型训练精确度和模型训练效率等需求来具体设定，N值与模型精确度正相关，与模型效率负相关。

步骤S34、设置第一分位函数、P个第一数据区域和每一第一数据区域的上界值和下界值，基于每一第一数据区域的上界值和下界值获取对应的第一数据区域的均值，P个第一数据区域从00开始采用二进制编号；

其中，P值、每一第一数据区域的上界值和下界值根据模型训练精确度和模型训练效率等需求来具体设定。

步骤S35、所述第一分位函数将

分到对应的第一数据区域中，将

减去对应的第一数据区域的均值得到

对应的误差

将

作为本轮第二更新误差；

步骤S36、将

中的

替换为所在第一数据区域的编号

将key'_n进行编码压缩处理得到

从而将

转换为

步骤S37、将

每个第一数据区域对应的编号和均值作为本轮

对应的第一模型更新数据，发送给对应的客户端

为了进一步减少服务器与客户端之间传输的字节数，可以进一步将

进行压缩，具体的，所述步骤S36中，对

进行编码压缩处理得到

具体包括：

步骤S361、从

中获取

r为

对应的组号,offset为

对应的组内偏移量：

步骤S362、连续写入r个1，最后写入一个0作为结束，记为S₁；

步骤S363、取二进制形式的低r位作为offset的码元，记为S₂；

步骤S364、将S₁和S₂顺序拼接在一起，作为

的压缩编码

通过上述实施例，服务器可以将第二累计模型更新中的梯度分量较高的一部分模型更新数据进行压缩，传输给对应的客户端，并将压缩部分所产生的误差，以及将其余未发送的模型更新数据存放在服务器本地，作为下一轮模型训练的客户端对应累积误差，这样既能减少在客户端和服务器之间传输的模型更新数据，又能保证模型训练的准确度。

每一客户端在收到服务器发送的经过压缩编码后的第一模型更新数据后，需要进行对应的解码处理，再进行本地模型更新，作为一种实施例，所述步骤S4包括：

步骤S41、客户端

对每一

进行解码，具体包括：

从

的最左边往右数直至数到第一个零为止，记下第一个零前一共有r个1，r即为该

对应的组号，取

后r位，并将其转换成十进制表示offset，基于r位和offset从

解码生成对应的

步骤S42、客户端

对每一

进行解码，具体包括：

根据

每个第一数据区域对应的编号和均值，将

转换为对应第一数据区域编号对应的均值；

步骤S43、基于步骤S41和步骤S42，得到客户端

对应的第一目标模型更新

步骤S44、基于

最近一次参与联邦聚合的轮次对应的全局模型

和第一目标模型更新

更新

本地模型：

通过步骤S3和步骤S4的具体实施例，大大减少了服务器和客户端之间的数据传输字节数，使得第一模型更新数据在服务器本地进行压缩编码，压缩后的第一模型更新数据在客户端本地解码，并结合服务器针对每一客户端维护一个服务器模型更新误差D进行客户端本地模型更新，减少了服务器与客户端之间通信所耗用的时间，提高了联邦聚合模型训练的效率。

为了进一步提高联邦聚合模型训练的效率，在客户端向服务器发送的模型更新数据也进行压缩处理，作为一种实施例，所述客户端维护一个客户端模型更新误差e，包括第三更新误差和第四更新误差,e的初始值为全零的列表，e随着模型训练动态更新，

对应的最近一次参与联邦聚合的轮次的模型更新误差为

所述步骤S5包括、

步骤S51、基于

和

获取第二累计模型更新

可以理解的是，

表示每一位置的第二梯度分量的值加上对应位置的模型更新误差值，得到该位置第二累计模型更新对应位置的第二梯度分量。

步骤S52、所述

由一组第二梯度分量组成，根据每一第二梯度分量在

对应的位置和参数值，获取每一第二梯度分量对应的下标key^*和对应第二梯度分量值value^*组成(key^*k,value^*k)，从而将

转换为

步骤S53、将

的所有value^*的绝对值按照从大到小的顺序排序，设置S，获取前S个

作为待处理的(key^*k,value^*k)，

表示排序后的第s个(key^*k,value^*k)，s的取值为1到S，将除待处理的(key^*k,value^*k)外的剩余的(key^*k,value^*k)作为本轮第三更新误差；

需要说明的是，S值根据

中所有的value^*k的绝对值按照从大到小的顺序排序后的value^*k的数值分布，模型训练精确度和模型训练效率等需求来具体设定，S值与模型精确度正相关，与模型效率负相关。

步骤S54、设置第二分位函数、Q个第二数据区域和每一第二数据区域的上界值和下界值，基于每一第二数据区域的上界值和下界值获取对应的第二数据区域的均值，Q个第二数据区域从00开始采用二进制编号；

其中，Q值、每一第二数据区域的上界值和下界值根据模型训练精确度和模型训练效率等需求来具体设定。

步骤S55、所述第二分位函数将

分到对应的第二数据区域中，将

减去对应的第二数据区域的均值得到

对应的误差

将

作为本轮第四更新误差；

步骤S56、将

中的

替换为所在第二数据区域的编号

将

进行编码压缩处理得到

从而将

转换为

步骤S57、将

客户端样本量大小n_k、每个第二数据区域对应的编号和均值作为本轮对应的第二模型更新数据，发送给所述服务器。

为了进一步减少客户端与服务器之间传输的字节数，可以进一步将

进行压缩，具体的，所述步骤S56中，对

进行编码压缩处理得到

具体包括：

步骤S561、从

中获取

r^*为

对应的组号,offset^*为

对应的组内偏移量：

步骤S562、连续写入r^*个1，最后写入一个0作为结束，记为S₃；

步骤S563、取二进制形式的低r^*位作为offset^*的码元，记为S₄；

步骤S564、将S₃和S₄顺序拼接在一起，作为

的压缩编码

通过上述实施例，客户端

可以将第二累计模型更新中的梯度分量较高的一部分模型更新数据进行压缩，传输给服务器，并将压缩部分所产生的误差，以及将其余未发送的模型更新数据存放在客户端

本地，作为下一轮模型训练的对应累积误差，这样既能减少在客户端和服务器之间传输的模型更新数据，又能保证模型训练的准确度。

服务器在收到每一客户端发送的经过压缩编码后的第二模型更新数据后，需要进行对应的解码处理，再进行本地联邦聚合模型更新，作为一种实施例，所述步骤S6包括：

步骤S61、所述服务器对每一

进行解码，具体包括：

从

的最左边往右数直至数到第一个零为止，记下第一个零前一共有r^*个1，r^*即为该

对应的组号，取

后r^*位，并将其转换成十进制表示offset^*，基于r^*位和offset^*从

解码生成对应的

步骤S62、所述服务器对每一

进行解码，具体包括：

根据

每个第二数据区域对应的编号和均值，将

转换为对应第二数据区域编号对应的均值；

步骤S63、基于步骤S61和步骤S62，得到每一客户端

对应的第二目标模型更新

进一步的，所述步骤S6还包括：

步骤S64、所述服务器加权聚合参与本轮训练的m个客户端对应的第二模型更新

得到第二目标模型总更新δ_t：

其中，n_z为参与本轮训练的m个客户端总的样本数量；

步骤S65、基于当前全局模型为W_t-1和第二目标模型总更新δ_t更新当前全局模型得到W_t：

W_t＝W_t-1-δ_t。

通过上述步骤S5和步骤S6的具体实施例，大大减少了服务器和客户端之间的数据传输字节数，使得第二模型更新数据在客户端本地进行压缩编码，压缩后的第二模型更新数据在服务器本地解码进行服务器联邦聚合模型的更新，减少了服务器与客户端之间通信所耗用的时间，提高了联邦聚合模型训练的效率。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于梯度压缩的联邦学习数据处理系统，其特征在于，

包括服务器、M个客户端、处理器和存储有计算机程序的存储器，其中，所述服务器中存储有第一数据库和第二数据库，所述第一数据库的字段包括客户端id和客户端最近一次参与联邦聚合的轮次，所述第二数据库的字段包括联邦聚合的轮次和该轮次对应的全局模型，所述第一数据库和第二数据库均随联邦聚合模型的训练动态更新，所述处理器执行所述计算机程序实现以下步骤：