CN114565103A

CN114565103A - 基于梯度选择和自适应学习率的加权k异步联邦学习方法、系统及装置

Info

Publication number: CN114565103A
Application number: CN202210190627.2A
Authority: CN
Inventors: 杨树森; 任雪斌; 赵鹏; 周子昊; 李亚男; 吴帅君
Original assignee: Hangzhou Cumulus Technology Co ltd
Current assignee: Hangzhou Cumulus Technology Co ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-05-31

Abstract

本发明公开了一种基于梯度选择和自适应学习率的加权K异步联邦学习方法、系统及装置，包括：云端初始化模型和学习率参数并广播当前的迭代次数和当前的全局模型。学习者接收广播的模型和迭代次数进行本地训练，当完成本地训练后将更新上传至云端。云端接收K个更新后，升级模型参数。通过累积历史梯度缓解异质性数据的影响，并基于延时程度聚合K个梯度缓解延时性的影响，并估计全局无偏梯度；然后选择与估计梯度下降方向一致的梯度，赋予权重；进一步裁剪延时梯度，并调整学习速率，更新并广播模型参数和迭代次数。重复云端和学习者的交互，直至模型的测试损失小于阈值，模型收敛。本发明根据延时程度自适应调整学习速率，提高了模型的预测精度。

Description

基于梯度选择和自适应学习率的加权K异步联邦学习方法、系统及装置

技术领域

本发明属于数据隐私安全领域，涉及一种基于梯度选择和自适应学习率的加权K异步联邦学习方法、系统及装置。

背景技术

联邦学习是一种新兴的隐私保护范式，它允许多个参与者协作训练一个全局模型，而无需参与方上传本地数据。大多数联邦学习算法以同步方式运行，在每次迭代中，云端随机抽取一部分学习者进行本地训练，学习者完成本地训练过程并上传模型参数，云端聚合收集的模型参数。在同步学习中，当抽取到的部分学习者存在断网或算力低等情形时，会增大每轮迭代的运行时间，因此联邦学习每轮迭代的运行时间由拖延者决定。为了缓解拖延者现象，可采用异步联邦学习算法，在每轮迭代中，完成本地训练的学习者上传模型更新，云端在接收到上传的K个梯度后，更新全局模型，未完成训练过程的学习者继续进行本地训练，可以降低下一轮迭代中所消耗的时间，从而缓解拖延者现象。虽然K异步联邦学习可以缓解拖延者现象，节省总训练时间，但在实践中仍有两个挑战。一方面，联邦学习中不同学习者间的数据是异质的，会降低模型的效用性。另一方面，延时梯度可能会损害模型的效用性，甚至导致模型朝着错误的方向更新。已有方法分别解决这两个问题。对于异质性数据，现有的解决方案如动量和方差缩减，其本质是充分利用所有可用信息来估计数据的全局分布。因此，需要聚合尽可能多的学习者的梯度，以使聚合的梯度全面地反映整个数据。对于延时性，大多数研究指出云端应该根据延时聚合接收的梯度，或者调整学习速率。因此，只有少数低延时的梯度会被聚合，大部分高延时的梯度将被过滤掉。显然，当简单地组合现有的缓解异质性数据和延时梯度的影响的方法时，会产生一个本质的矛盾。因此，设计一种既能有效处理延时梯度又能缓解异质性数据，从而缓解其中内在矛盾的新型异步联邦学习的方法具有重要意义。

发明内容

本发明的目的在于解决现有技术中的问题，提供一种基于梯度选择和自适应学习率的加权K异步联邦学习方法、系统及装置，能够有效的缓解异质性数据的影响，同时防止延时梯度降低模型的效用性，同时调整学习速率，降低本轮迭代的贡献，提高了模型的预测精度。

为达到上述目的，本发明采用以下技术方案予以实现：

基于梯度选择和自适应学习率的加权K异步联邦学习方法，包括：

步骤1、初始化训练参数并广播当前的迭代次数和模型参数，初始化模型参数w₀、学习率η₀、迭代次数itr＝0、每轮参与模型更新的学习者的数目K、模型损失阈值ε_loss>0和角相似度阈值sim_min∈(0,1]，将当前的迭代次数j＝itr和当前的模型参数w_j进行广播；

步骤2、接收当前的模型参数w_j和当前的迭代次数j，然后本地随机抽取批数据，利用接收的模型参数w_j训练抽取的批数据计算梯度，当完成本地训练后，将计算结果和接收的迭代次数进行上传，并停止本地训练，等待接收新的模型参数和迭代次数，而未完成本地训练的学习者继续进行本地训练；

步骤3、在第j轮全局迭代中，接收上传的梯度和对应的迭代次数，接收到的第i个梯度定义为g(w_j,i,ξ_j,i)，对应的迭代次数定义为itr_j,i，并根据当前的全局迭代次数j计算第i个梯度的延时τ_j,i；当接收K个学习者上传的梯度后，进行聚合梯度；

步骤4、在第j轮全局迭代中，K个学习者上传的梯度{g(w_j,i,ξ_j,i),i＝1,…,K}分别累积历史梯度

得到累积梯度

步骤5、裁剪K个累积梯度，得到

并赋予各个梯度与延时程度呈负相关关系的权重并聚合梯度得到估计梯度

步骤6、当模型收敛到最优解邻域时，即损失值低于提前设定的阈值时，模型进入第二阶段，继续裁剪梯度；

步骤7、分别计算K个累积梯度与估计梯度

的角相似度，根据角相似度赋予各个梯度相应的权重，并聚合得到最终的聚合梯度g(w_j)；

步骤8、根据K个梯度的最小延时自适应调整学习率；

步骤9、在聚合一致性梯度和调整学习率后，更新全局模型w_j+1＝w_j-η_jg(w_j)和迭代次数j←j+1，然后将更新后的全局模型和迭代次数进行广播；

步骤10、迭代更新，重复步骤1到步骤9，直至损失值达到设定的阈值，模型收敛。

本发明的进一步改进在于：

步骤1、步骤3、步骤4、步骤5、步骤6、步骤7、步骤8和步骤9为云端的工作，步骤2为学习者的工作；

步骤1中，将当前的迭代次数j＝itr和当前的模型参数w_j进行广播具体为：将当前的迭代次数j＝itr和当前的模型参数w_j广播给所有的学习者；

步骤2中，将计算结果和接收的迭代次数进行上传，具体为：将计算结果和接收的迭代次数上传至云端；

步骤9中，将更新后的全局模型和迭代次数进行广播，具体为：将更新后的全局模型和迭代次数进行广播给参与上一轮聚合的学习者。

步骤3中，在第j轮迭代中，云端接收到的第i个梯度定义为g(w_j,i,ξ_j,i)，其中w_j,i为延时模型，ξ_j,i为得到该梯度所抽取的批数据，对当前迭代轮次和接收到的迭代次数作差可得第i个梯度的延时τ_j,i。

步骤4中，在第j轮迭代中，分别将接收到的K个梯度累积第(j-1)轮的估计的无偏梯度

即

其中，α∈[0,1)是一个常数。

步骤5的裁剪规则为

其中，B是常数；

赋予各个梯度与延时程度呈负相关关系的权重并聚合梯度得到估计梯度

具体为：

其中

是第i个学习者的关于延时τ_j,i的权重函数。

步骤7具体为：

计算学习者的累积梯度与估计梯度的角相似度，

根据角相似度赋予累积梯度相应的权重：

对角相似度小于设定阈值sim_min的累积梯度进行过滤，

归一化梯度的权重

根据得到的梯度聚合累计梯度

步骤8中，最低延时调整学习率具体为：

其中，η₀是初始学习率，τ_min,j是第j轮迭代的K个梯度的最小延时，γ∈(0,1)是一个常数。

基于梯度选择和自适应学习率的加权K异步联邦学习系统，包括：

初始化模块，所述初始化模块用于初始化训练参数并广播当前的迭代次数和模型参数，初始化模型参数w₀、学习率η₀、迭代次数itr＝0、每轮参与模型更新的学习者的数目K、模型损失阈值ε_loss>0和角相似度阈值sim_min∈(0,1]，将当前的迭代次数j＝itr和当前的模型参数w_j广播；

梯度计算模块，所述梯度计算模块用于接收当前的模型参数w_j和当前的迭代次数j，然后本地随机抽取批数据，利用接收的模型参数w_j训练抽取的批数据计算梯度，当完成本地训练后，将计算结果和接收的迭代次数进行上传，并停止本地训练，等待接收新的模型参数和迭代次数，而未完成本地训练的学习者继续进行本地训练；

接收模块，所述接收模块用于在第j轮全局迭代中，接收学习者上传的梯度和对应的迭代次数，接收到的第i个梯度定义为g(w_j,i,ξ_j,i)，对应的迭代次数定义为itr_j,i，并根据当前的全局迭代次数j计算第i个梯度的延时τ_j,i；当接收K个学习者上传的梯度后，进行聚合梯度；

累积历史梯度信息模块，所述累积历史梯度信息模块用于在第j轮全局迭代中，K个学习者上传的梯度{g(w_j,i,ξ_j,i),i＝1,…,K}分别累积历史梯度

得到累积梯度

估计全局无偏梯度模块，所述估计全局无偏梯度模块用于裁剪K个累积梯度，得到

裁剪梯度模块，所述裁剪梯度模块用于当模型收敛到最优解邻域时，即损失值低于提前设定的阈值时，模型进入第二阶段，继续裁剪梯度；

聚合模块，所述聚合模块用于计算K个累积梯度与估计梯度

自适应调整学习率模块，所述自适应调整学习率模块用于根据K个梯度的最小延时自适应调整学习率；

更新模型模块，所述更新模型模块用于在聚合一致性梯度和调整学习率后，更新全局模型w_j+1＝w_j-η_jg(w_j)和迭代次数j←j+1，然后将更新后的全局模型和迭代次数进行广播；

迭代更新模块，所述迭代更新模块不断迭代直至损失值达到设定的阈值，模型收敛。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明通过梯度选择策略计算各个梯度与估计梯度的角相似度，选择与估计梯度下降方向一致的梯度，并赋予权重，筛选出一致的高延时梯度参与模型聚合过程，更多的梯度参与聚合可以有效的缓解异质性数据的影响，同时防止延时梯度降低模型的效用性。根据延时程度自适应调整学习速率，降低本轮迭代的贡献，提高了模型的预测精度。通过梯度裁剪策略，可以保证模型收敛阶段地稳定性，提高模型的效用性。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的基于梯度选择和自适应学习率的加权K异步联邦学习方法的示意图；

图2为本发明的基于梯度选择和自适应学习率的加权K异步联邦学习方法的逻辑流程图；

图3为本发明的延时性和异质性数据的缓解策略间的关系图；

图4为本发明的基于梯度选择和自适应学习率的加权K异步联邦学习系统结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明公开了一种基于梯度选择和自适应学习率的加权K异步联邦学习方法，包括：

步骤1、云端初始化训练参数，云端初始化模型参数w₀、学习率η₀、迭代次数itr＝0、估计梯度

每轮参与模型更新的学习者的数目K、模型损失阈值ε_loss＞0、角相似度阈值sim_min∈(0,1]；

步骤2：广播当前的迭代次数和模型参数，将当前的迭代次数j＝itr和当前的模型参数w_j广播给所有的学习者；

步骤3、学习者进行梯度计算，学习者接收当前的模型参数w_j和当前的迭代次数j。

步骤4、本地随机抽取批数据，利用接收的模型参数训练抽取的批数据计算梯度，

步骤5、当完成本地训练后，将计算结果和接收的迭代次数上传至云端，并停止本地训练，等待接收新的模型参数和迭代次数，而未完成本地训练的学习者继续进行本地训练；

步骤6、云端接收学习者的梯度和对应的迭代次数，在第j轮迭代中，云端接收到的第i个梯度定义为g(w_j,i,ξ_j,i)，其中w_j,i为延时模型，ξ_j,i为得到该梯度所抽取的批数据，对应的迭代次数定义为itr_j,i，对当前迭代轮次j和接收到的迭代次数itr_j,i作差可得第i个梯度的延时τ_j,i。当接收K个学习者上传的梯度后，云端开始聚合梯度；

步骤7、云端累积历史梯度信息，在第j轮全局迭代中，为了缓解异质性数据的影响，K个学习者上传的梯度{g(w_j,i,ξ_j,i),i＝1,…,K}分别累积历史梯度

得到累积梯度

累积规则为

其中α∈[0,1)是一个常数，；

步骤8、云端估计全局无偏梯度，云端首先裁剪K个累积梯度，得到

然后，云端赋予各个梯度与延时程度呈负相关关系的权重并聚合梯度得到估计梯度

步骤8包括以下步骤：

步骤8.1、裁剪梯度，裁剪上界为B

其中B>0是一个常数。

步骤8.2、云端加权聚合梯度，

其中

是第i个学习者的关于延时τ_j,i的权重函数。

步骤9、云端裁剪梯度，当模型收敛到最优解邻域时，即损失值低于提前设定的阈值时，模型进入第二阶段，裁剪范数较大的梯度；

步骤10、云端选择并聚合一致梯度，云端分别计算K个累积梯度与估计梯度

的角相似度，根据角相似度赋予各个梯度相应的权重，并聚合得到最终的聚合梯度g(w_j)，步骤10包括以下步骤：

步骤10.1、计算学习者的累积梯度与估计梯度的角相似度，

步骤10.2、根据角相似度赋予累积梯度相应的权重

角相似度较高的累积梯度有更高的权重，角相似度小于设定阈值sim_min的累积梯度的更新方向是有偏的，因此将过滤掉这些梯度；

步骤10.3、归一化梯度的权重

步骤10.4、根据得到的梯度聚合累计梯度

步骤11、自适应调整学习率，云端根据第j轮迭代的K个梯度的最小延时τ_min,j调整学习率

其中η₀是初始学习率，γ∈(0,1)是一个常数；

步骤12、云端更新模型，在聚合一致性梯度和调整学习率后，云端更新全局模型w_j+1＝w_j-η_jg(w_j)和迭代次数j←j+1，然后将更新后的全局模型和迭代次数广播给参与上一轮聚合的学习者；

步骤13、迭代更新，云端和学习者重复步骤1到步骤12，直至损失值小于设定的阈值ε_loss，模型收敛。

参见图2，本发明提供了一种基于梯度选择和自适应学习率的加权K异步联邦学习方法，其逻辑架构包括学习者端的梯度计算部分和云端的四个主要组成部分，分别是历史梯度信息的累积、全局无偏梯度的估计、一致梯度的选择和聚合、自适应学习率。首先，云端初始化模型、学习率等参数，并广播当前的迭代次数和当前的全局模型。其次，学习者接收云端广播的模型和迭代次数，开始进行本地训练，当完成本地训练后将更新上传至云端。然后，云端接收并聚合学习者上传的更新。当云端接收K个更新后，开始聚合升级模型参数。为了缓解延时性和异质性数据缓解策略间的矛盾，云端首先通过累积历史梯度来缓解异质性数据的影响，并基于延时程度聚合K个梯度缓解延时性的影响，并估计全局无偏梯度；然后选择与估计梯度下降方向一致的梯度，并赋予它们较高的权重，反之亦然，以此来缓解异质性数据的影响，同时防止延时梯度降低模型的效用性；最后通过在第二阶段进一步裁剪延时梯度，并根据延时程度调整学习速率，更新并广播模型参数和迭代次数。最后，重复云端和学习者的交互过程，直至模型的测试损失值小于一定的阈值，模型收敛。

图3展示了当仅整合延时性和异质性数据的缓解策略时，模型训练阶段的聚合梯度的平均延时和平均聚合梯度数目的关系图。其中，平均延时表征延时性缓解程度，平均延时越高，延时性缓解效果越差；平均聚合梯度数目表征异质性数据缓解程度，聚合梯度数目越少，异质性数据缓解程度越差。图3表示聚合梯度的平均延时随平均聚合梯度数目的增长而近似线性增长，即异质性数据的缓解和延时性数据的缓解间存在内在矛盾。

参见图4，本发明公布了一种基于梯度选择和自适应学习率的加权K异步联邦学习系统，包括：

得到累积梯度

聚合模块，所述聚合模块用于计算K个累积梯度与估计梯度

本发明一实施例提供的终端设备。该实施例的终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。

所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于梯度选择和自适应学习率的加权K异步联邦学习方法，其特征在于，包括：

步骤1、初始化训练参数并广播当前的迭代次数和模型参数，初始化模型参数w₀、学习率η₀、迭代次数itr＝0、每轮参与模型更新的学习者的数目K、模型损失阈值ε_loss＞0和角相似度阈值sim_min∈(0，1]，将当前的迭代次数j＝itr和当前的模型参数w_j进行广播；

步骤3、在第j轮全局迭代中，接收上传的梯度和对应的迭代次数，接收到的第i个梯度定义为g(w_j，i，ξ_j，i)，对应的迭代次数定义为itr_j，i，并根据当前的全局迭代次数j计算第i个梯度的延时τ_j，i；当接收K个学习者上传的梯度后，进行聚合梯度；

步骤4、在第j轮全局迭代中，K个学习者上传的梯度{g(w_j，i，ξ_j，i)，i＝1，…，K}分别累积历史梯度

得到累积梯度

步骤5、裁剪K个累积梯度，得到

步骤7、分别计算K个累积梯度与估计梯度

步骤8、根据K个梯度的最小延时自适应调整学习率；

2.根据权利要求1所述的基于梯度选择和自适应学习率的加权K异步联邦学习方法，其特征在于，所述步骤1、步骤3、步骤4、步骤5、步骤6、步骤7、步骤8和步骤9为云端的工作，所述步骤2为学习者的工作；

3.根据权利要求2所述的基于梯度选择和自适应学习率的加权K异步联邦学习方法，其特征在于，所述步骤3中，在第j轮迭代中，云端接收到的第i个梯度定义为g(w_j，i，ξ_j，i)，其中w_j，i为延时模型，ξ_j，i为得到该梯度所抽取的批数据，对当前迭代轮次和接收到的迭代次数作差可得第i个梯度的延时τ_j，i。

4.根据权利要求2所述的基于梯度选择和自适应学习率的加权K异步联邦学习方法，其特征在于，所述步骤4中，在第j轮迭代中，分别将接收到的K个梯度累积第(j-1)轮的估计的无偏梯度