CN115618960A

CN115618960A - 联邦学习优化方法、装置、电子设备及存储介质

Info

Publication number: CN115618960A
Application number: CN202211153907.2A
Authority: CN
Inventors: 陈辉铭; 李勇; 金德鹏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2023-01-17
Anticipated expiration: 2042-09-21
Also published as: CN115618960B

Abstract

本发明提供一种联邦学习优化方法、装置、电子设备及存储介质，其中，所述方法包括：在当前轮次的联邦学习中，获取并下发上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵至多个客户端；接收并基于客户端上传的本地梯度和本地模型得到第一次更新后全局梯度估计和第一次更新后全局模型；将第一次更新后全局模型和第一次更新后全局梯度估计下发至客户端；接收并基于客户端上传的更新后本地梯度和更新后本地模型得到第二次更新后全局梯度估计和第二次更新后全局模型，并将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端，用于下一轮次的联邦学习。通过本发明提高了联邦优化算法的收敛速度。

Description

联邦学习优化方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种联邦学习优化方法、装置、电子设备及存储介质。

背景技术

联邦学习可实现在数据分布于多个客户端且不共享的情况下，联合分散的客户端建立全局预测模型。在保障各客户端数据始终存储于本地的情况下，联邦学习有效聚合各客户端的信息，打破“数据孤岛”，从而达到海量数据的精准模型效果。

相关技术可知，联邦学习的核心技术为联邦优化算法，其本质是一种在联邦学习场景下的分布式优化算法。然而，当前联邦学习场景通常存在数据异构性和部分客户端参与等问题，这将导致联邦优化算法性能损失。

在联邦优化中，多次局部更新迭代导致每个参与的客户端达到与局部损失函数对应的最优值，其偏离了对应全局损失函数的最优值，从而阻碍了收敛。因此，当前需要一种快速收敛的联邦优化算法将联邦学习应用到实际场景中来实现完整的算法学习过程。

发明内容

本发明提供一种联邦学习优化方法、装置、电子设备及存储介质，用以解决现有技术中联邦优化算法无法快速收敛的缺陷，提高了联邦优化算法的收敛速度，从而降低系统的通信代价。

本发明提供一种联邦学习优化方法，所述方法应用于服务器端，所述方法包括：在当前轮次的联邦学习中，获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵，并将所述上一轮次全局模型、所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵下发至多个客户端；接收所述客户端上传的本地梯度和本地模型，其中，所述本地模型基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到，所述本地梯度基于所述上一轮次全局模型计算得到；分别基于所述本地梯度和所述本地模型对所述上一轮次全局梯度估计和所述上一轮次全局模型进行更新，得到第一次更新后全局梯度估计和第一次更新后全局模型；将所述第一次更新后全局模型和所述第一次更新后全局梯度估计下发至所述客户端；接收所述客户端上传的更新后本地梯度和更新后本地模型，其中，所述更新后本地模型基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到，所述更新后本地梯度基于所述第一次更新后全局模型计算得到；分别基于所述更新后本地梯度和所述更新后本地模型对所述第一次更新后全局梯度估计和所述第一次更新后全局模型进行更新，得到第二次更新后全局梯度估计和第二次更新后全局模型，并将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端，用于下一轮次的联邦学习。

根据本发明提供的一种联邦学习优化方法，在将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端之后，所述方法还包括：基于所述第二次更新后全局梯度估计和所述第一次更新后全局梯度估计的第一差值，以及所述第二次更新后全局模型和所述第一次更新后全局模型的第二差值，对所述上一轮次二阶信息估计矩阵进行更新，得到当前轮次二阶信息估计矩阵以及所述当前轮次二阶信息估计矩阵的逆矩阵；将所述当前轮次二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。

根据本发明提供的一种联邦学习优化方法，所述基于所述本地梯度对所述上一轮次全局梯度估计进行更新，得到第一次更新后全局梯度估计，包括：基于所述本地梯度得到所述本地梯度的无偏估计；基于所述本地梯度的无偏估计，确定所述上一轮次全局梯度估计在所述客户端的更新估计；基于所述更新估计，得到所述第一次更新后全局梯度估计。

根据本发明提供的一种联邦学习优化方法，所述基于所述更新后本地梯度对所述第一次更新后全局梯度估计进行更新，得到第二次更新后全局梯度估计采用以下公式确定：

其中，φ⁺表示所述第二次更新后全局梯度估计；N表示所述客户端的数量；

表示所述更新后本地梯度；φ_i表示所述本地梯度；

表示客户端i的本地损失函数的梯度；

表示本轮参与更新的客户端集合；x^r表示所述上一轮次全局模型；r表示轮次；x表示全局模型。

根据本发明提供的一种联邦学习优化方法，在所述将所述当前轮次二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵之前，所述方法还包括：对所述第一差值进行正则化处理，得到正则化处理后第一差值；基于所述正则化处理后第一差值和所述第二差值，得到当前轮次二阶信息估计矩阵的逆矩阵。

根据本发明提供的一种联邦学习优化方法，所述对所述第一差值进行正则化处理，得到正则化处理后第一差值采用以下公式确定：

其中，

表示所述正则化处理后第一差值；

表示所述第一差值；

表示所述第二差值；δ和γ为正实数并满足0.8δ>γ，

采用如下公式确定：

采用以下公式确定：

β表示预设正常数，β表示

的下界，即τ_j>β。

根据本发明提供的一种联邦学习优化方法，在将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端之后，所述方法还包括：基于所述第二次更新后全局梯度估计和所述第一次更新后全局梯度估计的第一差值，以及所述第二次更新后全局模型和所述第一次更新后全局模型的第二差值，得到对角化二阶信息估计矩阵，并将所述对角化二阶信息估计矩阵作为当前轮次二阶信息估计矩阵，以实现对所述当前轮次二阶信息估计矩阵的稀疏化处理；将所述对角化二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。

根据本发明提供的一种联邦学习优化方法，所述基于所述第二次更新后全局梯度估计和所述第一次更新后全局梯度估计的第一差值，以及所述第二次更新后全局模型和所述第一次更新后全局模型的第二差值，得到对角化二阶信息估计矩阵采用以下公式确定：

其中，

表示所述对角化二阶信息估计矩阵；

表示上一轮次的对角化二阶信息估计矩阵；

表示所述第一差值；

表示所述第二差值。

本发明还提供一种联邦学习优化方法，所述方法应用于客户端，所述方法包括：在当前轮次的联邦学习中，获取服务器端下发的上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵；基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到本地模型，以及基于所述上一轮次全局模型计算得到本地梯度；将所述本地模型和所述本地梯度发送至所述服务器端；接收所述服务器端下发的第一次更新后全局模型和第一次更新后全局梯度估计，其中，所述第一次更新后全局模型和所述第一次更新后全局梯度估计分别基于所述本地模型和所述本地梯度得到；基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到更新后本地模型，以及基于所述第一次更新后全局模型计算得到更新后本地梯度；将所述更新后本地梯度和所述更新后本地模型发送至服务器端；接收所述服务器端下发的第二次更新后全局模型和第二次更新后全局梯度估计，用于下一轮次的联邦学习，其中，所述第二次更新后全局模型和所述第二次更新后全局梯度估计分别基于所述更新后本地模型和所述更新后本地梯度得到。

本发明还提供一种联邦学习优化装置，所述装置应用于服务器端，所述装置包括：第一模块，用于在当前轮次的联邦学习中，获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵，并将所述上一轮次全局模型、所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵下发至多个客户端；第二模块，用于接收所述客户端上传的本地梯度和本地模型，其中，所述本地模型基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到，所述本地梯度基于所述上一轮次全局模型计算得到；第三模块，用于分别基于所述本地梯度和所述本地模型对所述上一轮次全局梯度估计和所述上一轮次全局模型进行更新，得到第一次更新后全局梯度估计和第一次更新后全局模型；第四模块，用于将所述第一次更新后全局模型和所述第一次更新后全局梯度估计下发至所述客户端；第五模块，用于接收所述客户端上传的更新后本地梯度和更新后本地模型，其中，所述更新后本地模型基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到，所述更新后本地梯度基于所述第一次更新后全局模型计算得到；第六模块，用于分别基于所述更新后本地梯度和所述更新后本地模型对所述第一次更新后全局梯度估计和所述第一次更新后全局模型进行更新，得到第二次更新后全局梯度估计和第二次更新后全局模型，并将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端，用于下一轮次的联邦学习。

本发明还提供一种联邦学习优化装置，所述装置应用于客户端，所述装置包括：第七模块，用于在当前轮次的联邦学习中，获取服务器端下发的上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵；第八模块，用于基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到本地模型，以及基于所述上一轮次全局模型计算得到本地梯度；第九模块，用于将所述本地模型和所述本地梯度发送至所述服务器端；第十模块，用于接收所述服务器端下发的第一次更新后全局模型和第一次更新后全局梯度估计，其中，所述第一次更新后全局模型和所述第一次更新后全局梯度估计分别基于所述本地模型和所述本地梯度得到；第十一模块，用于基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到更新后本地模型，以及基于所述第一次更新后全局模型计算得到更新后本地梯度；第十二模块，用于将所述更新后本地梯度和所述更新后本地模型发送至服务器端；第十三模块，用于接收所述服务器端下发的第二次更新后全局模型和第二次更新后全局梯度估计，用于下一轮次的联邦学习，其中，所述第二次更新后全局模型和所述第二次更新后全局梯度估计分别基于所述更新后本地模型和所述更新后本地梯度得到。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的联邦学习优化方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的联邦学习优化方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的联邦学习优化方法。

本发明提供的一种联邦学习优化方法、装置、电子设备及存储介质，客户端通过连续执行本地更新可以得到更新后本地梯度，服务器端通过聚合客户端上传的更新后本地梯度得到第二次更新后全局梯度估计，并作为客户端的一阶搜索方向，可以提高联邦优化算法的收敛速度。并且基于上一轮次二阶信息估计矩阵还可以提高第二次更新后全局模型的偏差能力，进而提高了联邦优化算法的收敛速度，降低了系统的通信代价。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的联邦学习优化方法的流程示意图之一；

图2是本发明提供的联邦学习系统的应用场景示意图；

图3是本发明提供的基于本地梯度对上一轮次全局梯度估计进行更新，得到第一次更新后全局梯度估计的流程示意图；

图4是本发明提供的联邦学习优化方法的流程示意图之二；

图5是本发明提供的联邦学习优化方法的流程示意图之三；

图6是应用本发明提供的联邦学习优化方法的联邦车联网系统的应用场景示意图；

图7是应用本发明提供的联邦学习优化方法的联邦车联网系统的学习过程示意图；

图8是应用本发明提供的联邦学习优化方法的联邦诊断系统的应用场景示意图；

图9是应用本发明提供的联邦学习优化方法的联邦智能电网用电预测系统的应用场景示意图；

图10是本发明提供的联邦学习优化装置的结构示意图之一；

图11是本发明提供的联邦学习优化装置的结构示意图之二；

图12是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的联邦学习优化方法针对现有联邦学习优化算法中存在的模型偏差和收敛速度慢的问题，提出了新的思路：参与的客户端需要在通信轮的两个阶段连续执行本地更新。此外，服务器通过聚合来自参与客户端的局部梯度得到全局梯度估计，并作为对客户端的一阶搜索方向。同时，进一步利用全局梯度估计来计算修正项。值得注意的是，用于计算修正项的数据需要保持一致。

可以理解的是，基于本发明提供的联邦学习优化方法可以解决模型偏差和收敛速度慢的问题。此外，由于局部更新步骤只涉及向量操作，本发明在计算和内存方面具有高效性。

需要说明的是，本发明提供的联邦学习优化方法可以应用于分布式系统。在分布式系统中，包括中心节点设备(对应本申请的服务器端)和多个边缘节点设备(对应本申请的客户端)。应用于本发明提供的联邦学优化方法的分布式系统，可以提高系统的收敛速度，并降低系统的通信代价。

为了便于说明，下文将以客户端和服务器端为例对本发明进行说明。

为了进一步介绍本发明提供的联邦学习优化方法，下面将结合图1进行说明。

图1是本发明提供的联邦学习优化方法的流程示意图之一。

在本发明一示例性实施例中，联邦学习优化方法可以应用于服务器端。结合图1可知，联邦学习优化方法可以包括步骤110至步骤160，下面将分别介绍各步骤。

在步骤110中，在当前轮次的联邦学习中，获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵，并将上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵下发至多个客户端。

为介绍本发明，可以首先建立联邦学习的数学建模如下，假设有N个客户端进行联邦学习任务，第i(i∈[N]，其中，[N]表示集合{1,…,N})个客户端的本地损失函数为f_i(x)，即

其中，数据集

包含了n_i个数据，f_i,j为关于数据集

中第j数据的损失函数，因此联邦优化的目标为N个客户端共同求解以下问题：

其中，f为全部客户端的平均损失函数，模型x满足

此外，以上函数满足f:

基于本地客户端数据所得的梯度和二阶信息估计矩阵，与全部客户端数据所得的梯度和二阶信息估计矩阵具有明显的偏差，用于模型更新时，将加剧模型偏差问题。因此，本发明首先考虑全局梯度的估计，进而考虑包含更多信息的二阶信息估计矩阵。

在一种实施例中，在当前轮次的联邦学习中，可以获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵，并将上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵下发至多个客户端，用于客户端进行本地模型更新。

在步骤120中，接收客户端上传的本地梯度和本地模型，其中，本地模型基于上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到，本地梯度基于上一轮次全局模型计算得到。

在一种实施例中，客户端可以应用上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵进行多次的本地模型更新，完成更新后，可以把上一轮次全局模型存储在客户端本地。

在又一实施例中，可以基于上一轮次全局模型和客户端数据计算本地梯度。并将本地梯度和本地模型上传至服务器端，并且服务器端接收客户端上传的本地梯度和本地模型。

在步骤130中，分别基于本地梯度和本地模型对上一轮次全局梯度估计和上一轮次全局模型进行更新，得到第一次更新后全局梯度估计和第一次更新后全局模型。

在一种实施例中，服务器端可以分别基于多个客户端上传的本地梯度和本地模型进行聚合，实现对上一轮次全局梯度估计和上一轮次全局模型进行更新，用以得到第一次更新后全局梯度估计和第一次更新后全局模型。此时服务器端完成全局模型与全局梯度估计的第一次更新。

可以理解的是，对于每一轮次的联邦学习更新，可以认为有两个阶段构成，其中，基于步骤110至步骤130完成了第一阶段的工作。

在步骤140中，将第一次更新后全局模型和第一次更新后全局梯度估计下发至客户端。

在步骤150中，接收客户端上传的更新后本地梯度和更新后本地模型，其中，更新后本地模型基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到，更新后本地梯度基于第一次更新后全局模型计算得到。

在一种实施例中，服务器端将第一次更新后全局模型和第一次更新后全局梯度估计下发至本轮参与更新的同一批客户端。每个客户端存储第一次更新后全局模型和第一次更新后全局梯度估计。客户端可以基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到新后本地模型。客户端还可以基于第一次更新后全局模型计算得到更新后本地梯度。并将更新后本地梯度和更新后本地模型上传至服务器端。服务器端接收户端上传的更新后本地梯度和更新后本地模型。

在步骤160中，分别基于更新后本地梯度和更新后本地模型对第一次更新后全局梯度估计和第一次更新后全局模型进行更新，得到第二次更新后全局梯度估计和第二次更新后全局模型，并将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端，用于下一轮次的联邦学习。

在一种实施例中，服务器端将基于更新后本地梯度和更新后本地模型对第一次更新后全局梯度估计和第一次更新后全局模型进行更新，分别得到第二次更新后全局梯度估计和第二次更新后全局模型。在应用过程中，可以将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端，用于下一轮次的联邦学习。

可以理解的是，对于每一轮次的联邦学习更新，基于步骤140至步骤160完成了第二阶段的工作。

本发明提供的本发明提供的联邦学习优化方法，客户端通过连续执行本地更新可以得到更新后本地梯度，服务器端通过聚合客户端上传的更新后本地梯度得到第二次更新后全局梯度估计，并作为客户端的一阶搜索方向，可以提高联邦优化算法的收敛速度。并且基于上一轮次二阶信息估计矩阵还可以提高第二次更新后全局模型的偏差能力，进而提高了联邦优化算法的收敛速度，降低了系统的通信代价。

为了进一步描述本发明提供的联邦学习优化方法，下面结合算法1和算法2进行描述。

在算法1中，x为全局模型；φ为全局梯度估计；Δx_i为本地客户端更新结束后本地模型的更新量；Δφ_i为本地客户端新更结束后本地梯度的更新量；η为本地客户端更新的学习率；x_i为客户端的本地模型；

为随机参与更新的客户端集合；

为本地客户端参与更新的次数；

和

分别为本轮更新的全局模型差和全局梯度估计差。

在算法2中，v为全局梯度在本地客户端的估计；

为客户端参与的更新次数；

由公式(13)计算所得。

下面将分别介绍算法1和算法2。

算法1：

1：服务器端输入：初始化x,φ,Δx_i＝0和Δφ_i＝0,其中i＝1,…,N。

2：客户端输入：初始化η和x_i，更新次数

和y_i＝0。

3：for r＝1,…,R do

4：记随机参与更新的部分客户端子集为

5：服务器传输(x^r,φ^r)至

中的客户端；

6：for客户端

7：令

和

8：

9：令

和

10：令

并传输(Δx_i,Δφ_i)至服务器。

11：end for

12：服务器执行聚合得到(x^r+1/2,φ^r+1/2)；

13：服务器传输(x^r+1/2,φ^r+1/2)至

中的客户端；

14：for客户端

15：令

16：

17：令

和

18：令

并传输(Δx_i,Δφ_i)至服务器。

19：end for

20：服务器执行聚合得到(x^r+1,φ^r+1)；

21：服务器传输φ^r+1至每个客户端

该步骤存储

22：end for

算法1可以理解为是关于本发明提供的联邦学习优化方法的整个步骤。其中，步骤5至步骤12表示对于每一轮次的联邦学习更新的第一阶段的工作，步骤13至步骤22表示对于每一轮次的联邦学习更新的第二阶段的工作。

算法2：

1：客户端输入：y,x和φ；

2：客户端输入：初始化η和x_i，更新次数

和y_i＝0。

3：for k＝0,…,K-1 do；

4：计算无偏估计梯度g(x)；

5：令v←g(x)-y+φ；

6：通过(a)或者(b)来更新x；

7：(a)

(b)x←x-ηB·v，其中B如下：

8：end for

9：

10：输入:

存有的

的存储

其中

11：输出:

12：根据(10)计算

并令q＝v；

13：for

14：计算α_j＝ρ_js^jTq和

15：end for

16：令

17：for

18：计算

和p←p+s^j(α_j-μ)；

19：end for

其中，算法2为客户端进行的更新操作。

图2是本发明提供的联邦学习系统的应用场景示意图。

其中，图2中的LBFGS表示本发明提供的联邦学习优化方法。结合图2可知，在当前轮次的联邦学习中，服务器端(图2中所示的云端)可以向客户端C发送全局模型x^r，客户端基于全局模型x^r更新本地梯度，并将本地梯度

发送至服务器端。服务器端基于本地梯度更新全局模型x^r+1/2和全局梯度估计

并下发至客户端C。客户端基于更新的全局模型x^r+1/2和全局梯度估计

以及上一轮次的全局模型和全局梯度估计，可以得到二阶信息估计矩阵。在应用过程中，可以基于二阶信息估计矩阵参与联邦学习优化方法的更新，进而可以提高联邦学习算法的收敛速度。

本发明提供的联邦学习优化方法，客户端通过连续执行本地更新可以得到更新后本地梯度，服务器端通过聚合客户端上传的更新后本地梯度得到第二次更新后全局梯度估计，并作为客户端的一阶搜索方向，可以提高联邦优化算法的收敛速度。并且基于上一轮次二阶信息估计矩阵还可以提高第二次更新后全局模型的偏差能力，进而提高了联邦优化算法的收敛速度，降低了系统的通信代价。

在本发明一示例性实施例中，继续结合图1进行说明，在步骤160之后，联邦学习优化方法还可以包括：基于第二次更新后全局梯度估计和第一次更新后全局梯度估计的第一差值，以及第二次更新后全局模型和第一次更新后全局模型的第二差值，对上一轮次二阶信息估计矩阵进行更新，得到当前轮次二阶信息估计矩阵以及当前轮次二阶信息估计矩阵的逆矩阵；将当前轮次二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。

在一种实施例中，可以将二次更新后全局梯度估计和第一次更新后全局梯度估计，以及第二次更新后全局模型和第一次更新后全局模型均下发至同一批客户端。在应用过程中，客户端可以分别获取第一差值和第二差值，进一步的，基于第一差值和第二差值可以对上一轮次二阶信息估计矩阵进行更新，得到当前轮次二阶信息估计矩阵。在本实施例中，通过基于两次全局模型和全局梯度估计的更新，才对二阶信息估计矩阵进行一次更新，可以减少计算量。

需要说明的是，对于二阶信息矩阵的估计，首先考虑集中式的优化问题：

其中，

为模型优化变量，f_i:

为关于第i个样本的损失函数。在迭代次数为k时，全局模型更新为

其中g(x_k)为

的无偏估计，对于BFGS(对应本发明的联邦学习优化方法)矩阵B，其可通过迭代更新：

其中，s_k＝x_k+1-x_k和

为修正项。

为从集合{1,…,N}中均匀采样得到的子集。此外，上式逆矩阵

具有解析解：

因此，无需进行矩阵求逆的计算。更新公式的计算复杂度达O(d²)，当d较大时，在现实应用中难以计算。为解决该问题，通常运用M个最新的{(s_j,y_j),j＝k,k-1,…,k-M+1}来直接获取矩阵向量的乘积，该方法为有限存储的联邦学习优化方法来进行估计。

需要注意的是，计算全局梯度估计差值y_k需要相同的样本，但在联邦学习中，常出现不一致性使得难以应用二阶信息矩阵估计。因此，本发明提出两阶段的通信协议，从而使得二阶信息估计矩阵法在联邦学习中能够得到应用。具体而言，本轮更新分为两个阶段，在第一阶段，服务器将x^r和φ^r下发给参与的客户端

其存储x^r并进行多次本地更新迭代，其等效为：

其中，

(对应二阶信息估计矩阵)在本地更新过程中始终保持不变直至新的全局模型和全局梯度估计差值出现。此后，客户端

将本地梯度和本地模型上传至服务器完成全局模型与全局梯度估计的更新，得到(x^r+1/2,φ^r+1/2)(对应第一次更新后全局模型和第一次更新后全局梯度估计)：

第二阶段，服务器端将(x^r+1/2,φ^r+1/2)下发至本轮参与更新的同一批客户端

每个客户端存储(x^r+1/2,φ^r+1/2)，并进行本地模型更新，完成后，计算本地梯度，并上传本地模型与本地梯度至服务器完成全局模型与梯度的更新，得到(x^r+1,φ^r+1)(对应第二次更新后全局模型和第二次更新后全局梯度估计)，再下发至同一批客户端与其存储全局梯度估计φ^r+1，此时这一批客户端可获得全局模型的差值(对应第二差值)与全局梯度估计的差值(对应第一差值)：

其中，

对应第二差值，

对应第一差值。

进一步的，基于第一差值和第二差值可以更新二阶信息估计矩阵，并注意到

其包含了更多客户端的信息，从而缓解了模型偏差问题。

为了进一步介绍本发明提供的联邦学习优化方法，下面将结合图3进行说明。

图3是本发明提供的基于本地梯度对上一轮次全局梯度估计进行更新，得到第一次更新后全局梯度估计的流程示意图。

在本发明一示例性实施例中，结合图3可知，基于本地梯度对上一轮次全局梯度估计进行更新，得到第一次更新后全局梯度估计可以包括步骤310至步骤330，下面将分别介绍各步骤。

在步骤310中，基于本地梯度得到本地梯度的无偏估计。

在步骤320中，基于本地梯度的无偏估计，确定上一轮次全局梯度估计在客户端的更新估计。

在步骤330中，基于更新估计，得到第一次更新后全局梯度估计。

需要说明的是，在本发明中使用全局信息来弥补客户端上的信息偏差。具体而言，在第r轮，令全局模型与全局梯度估计分别为x^r和φ^r，在第一阶段，服务器端传输x^r和φ^r至参与的客户端

并赋值：x_i←x^r。客户端计算本地梯度的无偏估计g_i(x_i)，即

并计算此刻的搜索方向：

v_i←g_i(x_i)-g_i(x^r)+φ^r (9)

其中，{-g_i(x^r)+φ^r}衡量本地随机梯度g_i(x_i)与全局梯度估计的差距，因此，运用该搜索方向可弥补因为信息偏差带来的全局模型偏差的问题。在应用过程中，可以基于本地梯度的无偏估计，确定上一轮次全局梯度估计在客户端的更新估计，并基于本地梯度的无偏估计，确定上一轮次全局梯度估计在客户端的更新估计。

在本发明一示例性实施例中，基于更新后本地梯度对第一次更新后全局梯度估计进行更新，得到第二次更新后全局梯度估计可以采用以下公式确定：

其中，φ⁺表示第二次更新后全局梯度估计；N表示客户端的数量；

表示更新后本地梯度；φ_i表示本地梯度；

表示客户端i的本地损失函数的梯度；

表示本轮参与更新的客户端集合；x^r表示上一轮次全局模型；r表示轮次；x表示全局模型。

继续结合前述实施例进行说明，在经过多次客户端本地更新后，参与的客户端

计算本地梯度

并传输

至服务器端进行如公式(10)所示更新，以获得更准确的全局梯度估计(对应第二次更新后全局梯度估计)。

在本发明一示例性实施例中，继续以前文所述的实施例为例进行说明，在将当前轮次二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵之前，联邦学习优化方法还可以包括：对第一差值进行正则化处理，得到正则化处理后第一差值；

基于正则化处理后第一差值和第二差值，得到当前轮次二阶信息估计矩阵的逆矩阵。

在本发明又一示例性实施例中，对第一差值进行正则化处理，得到正则化处理后第一差值可以采用以下公式确定：

其中，

表示正则化处理后第一差值；

表示第一差值；

表示第二差值；δ和γ为正实数并满足0.8δ>γ，其中，

采用如下公式(12)确定：

采用以下公式(13)确定：

β表示预设正常数，β表示

的下界，即τ_j>β。

需要说明的是，算法2中的更新选择(a)，其为一种正则化的联邦学习优化方法。具体而言，在某些极端情况下，如一些客户端具有极少量的数据，将导致联邦学习优化算法出现数值问题，如二阶估计矩阵将出现奇异值，并导致算法无法收敛。为使上述算法1具有较强的鲁棒性，本发明提出一种新的正则化方法。具体而言，在客户端

上，可通过以下获得新的梯度差值(对应正则化处理后第一差值)：

其中，δ和γ为正实数并满足0.8δ>γ，

可通过如下式(15)进行计算：

其中，

可以表示为公式(16)：

其中，β为给定正常数，因此，β为

的下界，即τ_j>β。随后，对Hessian逼近进行M次迭代，得到正则化联邦学习优化公式：

其中，

可以表示当前轮次二阶信息估计矩阵的逆矩阵，l＝0,…,M-1，j＝r-(M-1)+l-1,且

可验证，

因此给定初始化矩阵

可得二阶信息估计的逆矩阵

且其为正定矩阵，即

在本发明一示例性实施例中，继续以图1所述的实施例为例进行说明，在将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端之后，联邦学习优化方法还可以包括：基于第二次更新后全局梯度估计和第一次更新后全局梯度估计的第一差值，以及第二次更新后全局模型和第一次更新后全局模型的第二差值，得到对角化二阶信息估计矩阵，并将对角化二阶信息估计矩阵作为当前轮次二阶信息估计矩阵，以实现对当前轮次二阶信息估计矩阵的稀疏化处理；将对角化二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。

在本发明又一示例性实施例中，基于第二次更新后全局梯度估计和第一次更新后全局梯度估计的第一差值，以及第二次更新后全局模型和第一次更新后全局模型的第二差值，得到对角化二阶信息估计矩阵可以采用以下公式(18)确定：

其中，

表示对角化二阶信息估计矩阵；

表示上一轮次的对角化二阶信息估计矩阵；

表示第一差值；

表示第二差值。

需要说明的是，尽管分布式计算优势明显，但当大量的客户端与服务器进行通信时存在显著的限制，导致通信开销较大。量化技术是压缩通信量的一种简单而直接的方法，减轻通信开销问题的另一种方法是稀疏化传输向量。一种常用的的策略是采用l₁正则化，该方法可产生稀疏解。具体而言，将联邦学习的优化问题增加l₁正则项：

因此，每个客户端旨在求解子问题

假设本地搜索路径为

则通过泰勒展开近似f_i(x_i)可得到如下：

当

为单位矩阵时，上述为Proximal Gradient Descent(PGD)算法

然而，在二阶联邦优化问题中，直接求解上述问题具有较大的困难，用坐标轴下降的算法进行求解又存在计算复杂度较高的问题。因此本发明引入一个对角化的二阶信息估计矩阵方案，从而可以高效求解上述问题。具体而言，本发明引入对角化二阶信息估计矩阵如公式(18)所示。

在又一实施例中，由于上式可能存在更新矩阵非正定而导致算法发散，因此本发明进一步引入一个阈值来保障更新所得矩阵为正定：

进而，可以高效率求解上述问题：

其中，

和

分别为

d_i和

的第j个元素。

根据上述描述可知，本发明提供的联邦学习优化方法，客户端通过连续执行本地更新可以得到更新后本地梯度，服务器端通过聚合客户端上传的更新后本地梯度得到第二次更新后全局梯度估计，并作为客户端的一阶搜索方向，可以提高联邦优化算法的收敛速度。并且基于上一轮次二阶信息估计矩阵还可以提高第二次更新后全局模型的偏差能力，进而提高了联邦优化算法的收敛速度，降低了系统的通信代价。

基于相同的构思，本发明还提供一种联邦学习优化方法。其中，该联邦学习优化方法应用于客户端。

下面对本发明提供的应用于客户端的联邦学习优化方法进行描述，下文描述的应用于客户端的联邦学习优化方法与上文描述的应用于服务器端的联邦学习优化方法可相互对应参照。

图4是本发明提供的联邦学习优化方法的流程示意图之二。

在本发明一示例性实施例中，结合图4可知，联邦学习优化方法可以包括步骤410至步骤470，下面将分别介绍各步骤。

在步骤410中，在当前轮次的联邦学习中，获取服务器端下发的上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵。

在步骤420中，基于上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到本地模型，以及基于上一轮次全局模型计算得到本地梯度。

在步骤430中，将本地模型和本地梯度发送至服务器端。

在步骤440中，接收服务器端下发的第一次更新后全局模型和第一次更新后全局梯度估计，其中，第一次更新后全局模型和第一次更新后全局梯度估计分别基于本地模型和所述本地梯度得到。

在步骤450中，基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到更新后本地模型，以及基于第一次更新后全局模型计算得到更新后本地梯度。

在步骤460中，将更新后本地梯度和更新后本地模型发送至服务器端。

在步骤470中，接收服务器端下发的第二次更新后全局模型和第二次更新后全局梯度估计，用于下一轮次的联邦学习，其中，第二次更新后全局模型和第二次更新后全局梯度估计分别基于更新后本地模型和更新后本地梯度得到。

为了进一步介绍本发明提供的联邦学习优化方法，下面将结合图5进行说明。

图5是本发明提供的联邦学习优化方法的流程示意图之三。

在一种实施例中，如图5所示，可以初始化服务器端和客户端。为了提高联邦学习优化方法的模型收敛性和非分散性，可以通过服务器端聚合得到全局模型x和全局梯度φ。

其中，在聚合得到全局模型(对应第二次更新后全局模型)x和全局梯度(对应第二次更新后全局梯度估计)φ的过程中，服务器端和客户端会进行多次通信。在应用过程中，客户端通过执行多次本地模型更新，并将更新后的本地模型上传至服务器端，进而可以通过服务器端聚合得到全局模型x和全局梯度φ。

在一种实施例中，在聚合得到全局模型(对应第二次更新后全局模型)x和全局梯度(对应第二次更新后全局梯度估计)φ的过程中，在第一阶段中，可以由服务器端下发全局模型(对应上一轮次全局模型)x和全局梯度(对应上一轮次全局梯度估计)φ至客户端。客户端基于服务器端下发全局模型(对应上一轮次全局模型)x和全局梯度(对应上一轮次全局梯度估计)φ更新本地模型和本地梯度，并上传更新后的本地模型和本地梯度至服务器端。在第二阶段，服务器端基于客户端上传的更新后的本地模型和本地梯度，更新全局模型x和全局梯度φ，得到第一次更新后全局模型和第一次更新后全局梯度估计。进一步的，可以将第一次更新后全局模型(对应图5中的3中的全局模型x)和第一次更新后全局梯度估计(对应图5中的3中的全局梯度φ)下发至客户端。客户端基于第一次更新后全局模型和第一次更新后全局梯度估计，再次更新本地模型和本地梯度，并将再次更新后的本地模型和本地梯度上传至服务器端。服务器端基于再次更新后的本地模型和本地梯度得到第二次更新后全局模型和第二次更新后全局梯度估计，并将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端，用于下一轮次的联邦学习。通过本实施例，可以提高联邦优化算法的收敛速度，降低系统的通信代价。

可以理解的是，本发明提供的联邦学习优化方法为具有低计算复杂度、稳定快速收敛和具有较强的克服模型偏差能力的二阶联邦优化算法，这将提高算法的收敛速度，从而降低系统通信代价。

为了进一步介绍本发明提供的联邦学习优化方法，下面将结合下述实施例进行说明。

图6是应用本发明提供的联邦学习优化方法的联邦车联网系统的应用场景示意图；图7是应用本发明提供的联邦学习优化方法的联邦车联网系统的学习过程示意图。

本发明在车联网技术中具有较大的应用价值，下面将结合图6和图7对本发明在车联网技术中的应用进行说明。

在车联网中，多辆车之间进行数据共享以达到大数据，从而实现人工智能与数据挖掘的任务，例如道路推荐与自动驾驶等，可以提高驾驶的体验。但直接进行数据共享将增加安全隐患，同时大量的数据传输对通信带宽提出了巨大的要求。应用本发明可改进现有车联网中的技术可为基于联邦学习车联网中的大数据挖掘系统(以下简称联邦车联网)。

联邦车联网由三层结构组成，即用户层、边缘层和云层。用户层普遍由车辆主体中的数据发生器(如图像传感器等)组成，而车载数据通常包括路线，交通拥堵信息以及多媒体信息等，高效率应用这些数据将提高驾驶者体验。边缘层主要由道路路边系统(RSU)组成，且部署在道路路边，用于RSU附近车辆进行计算。云层主要由云服务器组成，用于将RSU所获得的中间信息进行进一步的汇总，从而得到全局的模型。云层常部署在云数据中心。根据上述，由于传统车联网中的车辆将传感器的数据源源不断上传至云端进行大数据挖掘，增加了数据服务和云服务的成本，并增加了数据安全的隐患，之后云端完成更新后才将结果反馈给车辆进行智能决策。在大规模堵车时，有限的通信带宽也将使得车辆等待时间较长，因此用户体验不佳。

基于本发明的联邦车联网可进行大规模分布式地处理车辆数据。具体描述如下：

在一种实施例中，考虑分散的车辆、RSU和云中心服务器形成的“星结构”，总体上，各RSU附近的局部车辆发出服务请求指令给云中心服务器需要进行道路预测任务。同时由于车辆的硬件资源各不相同，在每轮更新中，并非所有的车辆都参与更新，而是一种异步分布式更新的方式。此时，常用的联邦学习算法FedAvg将有较大的性能损失问题，而本发明由于在本地对全局梯度进行了估计，且结合了包含较广泛信息的二阶信息估计矩阵，因此本发明中的算法具有更快速的收敛速度。云中心服务器开始本轮更新，并标记为第一阶段更新，接着将此时的全局模型和全局梯度估计下发至各RSU附近的车辆上，这些车辆先进行人工智能与大数据的本地模型训练，其中的更新路径可采用两种方式，第一种基于正则化的联邦学习优化方法，车辆利用目前在存储器中的模型和梯度差值进行联邦学习优化方法更新，其中仅涉及到向量运算，因此复杂度较低；第二种基于对角化的二阶信息估计矩阵，由于仅涉及到向量运算，因此复杂度较第一种更低，且消耗存储更少。在完成更新后，将本地模型和梯度上传至RSU进行模型和梯度的局部聚合操作，并将局部聚合后的模型上传至云中心，同时RSU将聚合的梯度下发至各车辆上进行存储。云中心进行全局模型聚合后，标记为第二阶段开始，并下发此刻的全局模型至各车辆上。各车辆接收到此刻的全局模型与全局梯度后，先存储二者后，进一步进行本地更新，本地更新结束后，上传本地模型与梯度至云服务器进行全局聚合更新得到全局模型和全局梯度，最后将全局梯度下发至车辆，此时车辆将具有与模型差对应一致性的梯度差，可用于二阶信息估计矩阵的更新。在本方案中，由于采用了两层聚合的结构，即第一层聚合在RSU中进行，第二层聚合在云中心服务器，因此大幅度缓解了云中心服务器的带宽压力。此外，由于算法具有快速收敛性且较低的存储，因此算法具有较高的性能和一定的应用前景。

结合图7进行说明，边缘服务器可以发送收集农场数据请求，各物理传感器传送数据至边缘服务器。其中，在聚合得到全局模型(对应第二次更新后全局模型)x和延迟全局梯度(对应第二次更新后全局梯度估计)φ的过程中，云服务器端和客户端(又称用户层)会进行多次通信。在应用过程中，客户端通过执行多次本地模型更新和延迟全局梯度更新，并将更新后的本地模型上传至服务器端，进而可以通过服务器端聚合得到全局模型x和延迟全局梯度φ。

在一种实施例中，可以通过传输更新量(Δx_i,Δφ_i)到云服务器端来实现将更新后的本地模型上传至云服务器端。在应用过程中，部分车联网边缘服务器请求参与更新全局模型x和延迟全局梯度φ，并进行结果反馈。

基于本发明的联邦车联网系统，其中的人工智能模型具有一定的普遍性，即可用逻辑回归、支持向量机、深度神经网络和卷积神经网络等，只需保证各车辆的模型参数结构与任务相同，可快速达到更精准的人工智能任务，从而提高车辆驾驶体验。

图8是应用本发明提供的联邦学习优化方法的联邦诊断系统的应用场景示意图。

本发明在医学大数据挖掘中具有较大的应用价值，下面将结合图8对本发明在医学大数据挖掘中的应用进行说明。

在当前分级医疗体系下，不同级别医院的医疗水平差异巨大，实力较弱的医院无法积累足够的病例数据且数据质量差，无法独立完成人工智能任务。而通过将医学数据上传至云端的传统云计算方式，无法适用于医学高度敏感的数据挖掘。应用本发明可实现在数据始终不出医院的条件下，多家医院联合完成医学大数据精准挖掘，从而大幅度提高疾病诊断率，缓解医疗资源紧张等。以下描述基于本发明的智慧医疗辅助诊断系统(以下简称联邦诊断系统)。

联邦诊断系统由三层结构组成，即用户层、物理层和云层。用户层普遍由多家医院的相关科室医生组成；物理层主要由本地医院的医疗诊断设备、服务器等组成，且部署在医院中，其中医疗诊断设备包括计算机断层扫描、医疗X光机和医用B超机等，这些医用设备将产生医学影像等重要数据，可通过人工智能技术进行图像识别等信息挖掘，从而提高疾病诊断率；云层主要由云服务器组成，用于医学信息的汇总，常部署在云数据中心。基于本发明的联邦诊断系统可处理大规模分布式的处理医疗数据。具体描述如下：

在一种实施例中，考虑分散的各家医院和云中心服务器形成的“星结构”，总体上，各家医院在本地服务器上使用其医学数据进行机器学习模型训练，完成更新后，将模型上传至云中心服务器进行模型聚合操作，将聚合后的全局模型下传至各家医院。具体而言，用户层发出服务请求指令给本地医院的服务器，需要对医学数据进行信息挖掘，如医学影像识别等，尽管在本地医院服务器上也可进行模型训练任务，从而达到数据挖掘的目的，但由于一些医院的本地数据量较少，且可能存在一些错误标签的情况，因此需要结合云中心服务器和其他医院的信息，对这些错误的数据进行预测并取代后形成完整的数据，之后用这些数据在本医院的服务器上进行训练。具体而言，本医院服务器在接收到用户服务请求指令后，请求云中心服务器传输全局模型与全局梯度，本医院服务器接收之后，标记为第一阶段，并将全局模型赋予给本地模型，此时参与更新的医院存储全局模型。本地模型更新时的路径可采用两种方式，第一种基于正则化的联邦学习优化方法，医院利用目前在存储器中的模型和梯度差值进行联邦学习优化方法更新，其中仅涉及到向量运算，因此复杂度较低；第二种基于对角化的二阶信息估计矩阵，由于仅涉及到向量运算，因此复杂度较第一种更低，且消耗存储更少。需注意，为加速算法收敛、提高通信效率，边缘服务器执行多次本地更新，之后将本地模型与本地梯度的更新量传输至云中心服务器。云中心服务器将在本轮全局更新中参与的边缘服务器上的更新量进行汇总聚合。接下来进行第二阶段，上一阶段参与更新的边缘服务器接收到全局模型和全局梯度，此时存储全局模型和全局梯度，与第一阶段类似的进行本地模型更新并将本地模型和本地梯度上传至云中心服务器，再将聚合所得的全局模型下发至边缘服务器进行存储。此时这些医院的服务器具有全局模型和梯度的差值，可用于更新二阶信息估计矩阵。之后需注意的是，每轮云中心服务器进行全局更新时，各医院的服务器计算力和带宽等各不相同，因此，云中心服务器在信息汇总时可能只有部分平台参与，此时，常用的联邦学习算法FedAvg将有较大的性能损失问题，而本发明由于全局梯度和包含有广泛平台信息的二阶信息矩阵估计，因此具有快速的收敛速度和较低的带宽需求。

基于本发明的联邦诊断系统，其中的人工智能模型具有一定的普遍性，即可用逻辑回归、支持向量机、深度神经网络和卷积神经网络等，只需保证各医院的模型参数结构相同，可达到更精准的疾病诊断等。

图9是应用本发明提供的联邦学习优化方法的联邦智能电网用电预测系统的应用场景示意图。

本发明在智能电网系统中具有较大的应用价值，下面将结合图9对本发明在用电预测系统中的应用进行说明。

随着电网的智能化发展，电网公司可根据用户用电数据进行智能化、个性化方案定制，例如可以根据用户的用电数据进行用电需求预测等，从而实现精准供电，并达到最大营收。但由于用户的用电数据具有隐私性，若采用传统云计算方式，即将数据上传至云端，容易导致数据泄露产生一系列如入室盗窃等严重后果。应用本发明可改进现有智能电网系统升级为基于联邦学习的用户用电预测系统(以下简称联邦智能电网用电预测系统)。

联邦智能电网用电预测系统由两层结构组成，即物理层、边缘层和云层。物理层包含了智能用电场景下的物理传感器，这些传感器将产生包含家庭用电量记录、太阳能用电记录以及电动车充电用电记录等，这些物理传感器实时产生大量数据，在传统电网公司系统中，海量的数据通过边缘层的通信上传至云服务器端进行大数据信息挖掘，再将结果传输回来给平台。因此，无法实现实时监测并决策的效果，同时大量的数据对“云边协同”的通信带宽提出了较高的要求，从而带来较高的成本；边缘层主要由边缘服务器以及通信设备等组成，且部署在平台中，其主要的作用为在边缘服务器上对本地数据进行学习并更新本地模型，并将本地模型通过边缘通信设备传输至云层；云层主要由云服务器组成，用于将各个边缘层服务器中的本地模型进行汇总，常部署在云数据中心。

根据上述，由于传统智能电网用电预测系统将物理传感器数据源源不断地通过边缘层通信设备上传至云端进行数据挖掘，大幅度增加了数据服务和云服务的成本，之后云端完成全局模型的更新。此时，由于本地用户等待时间较长，可能增加了数据泄露的风险。基于本发明的联邦智能电网用电预测系统可处理大规模分布式地处理各个用电用户上的数据。具体描述如下：

在一种实施例中，考虑分散的物理层和边缘层与云中心服务器形成的“星结构”，总体上，各用电用户在边缘服务器上使用其实时产生的数据进行机器学习模型训练，完成更新后，将模型上传至云中心服务器进行模型聚合操作，将聚合后的全局模型下传至各个用户。具体而言，用户发出服务请求指令给边缘层中的服务器，需要预测短期内的用电量，尽管在边缘服务器上也可进行模型训练任务，从而达到预测的目的，但由于各个用户用电情况各不相同，而各个用户的用电数据比较单一，因此需要结合云中心服务器和其他用户的用电信息，在云服务器的综合协助下进行用电预测，从而弥补单一数据带来的客户端偏差问题。首先，用户将各自的用电数据在本地边缘服务器上进行训练，具体而言，在边缘服务器在接收到用户服务请求指令后，请求云中心服务器传输全局模型与全局梯度，边缘服务器接收之后，标记为第一阶段并将全局模型赋予给本地模型，此时本地边缘服务器存储全局模型。本地模型更新时的路径可采用两种方式，第一种基于正则化的联邦学习优化方法，边缘服务器利用目前在存储器中的模型和梯度差值进行联邦学习优化方法更新，其中仅涉及到向量运算，因此复杂度较低；第二种基于对角化的二阶信息估计矩阵，由于仅涉及到向量运算，因此复杂度较第一种更低，且消耗存储更少。需注意，为加速算法收敛、提高通信效率，边缘服务器执行多次本地更新，之后将本地模型与本地梯度的更新量传输至云中心服务器。云中心服务器将在本轮全局更新中参与的边缘服务器上的更新量进行汇总聚合。接下来进行第二阶段，上一阶段参与更新的边缘服务器接收到全局模型和全局梯度，此时存储全局模型和全局梯度，与第一阶段类似的进行本地模型更新并将本地模型和本地梯度上传至云中心服务器，再将聚合所得的全局模型下发至边缘服务器进行存储。此时这些平台的边缘服务器具有全局模型和梯度的差值，可用于更新二阶信息估计矩阵。之后需注意的是，每轮云中心服务器进行全局更新时，各平台的边缘服务器计算力和带宽等各不相同，因此，云中心服务器在信息汇总时可能只有部分平台参与，此时，常用的联邦学习算法FedAvg将有较大的性能损失问题，而本发明由于全局梯度和包含有较为广泛的各个用户用电信息的二阶信息矩阵估计，因此具有快速的收敛速度和较低的带宽需求。

基于本发明的联邦智能电网用电预测系统，其中的人工智能模型具有一定的普遍性，即可用逻辑回归、支持向量机、深度神经网络和卷积神经网络等，只需保证各用户的本地模型参数结构相同，可快速达到更精准的用电需求预测。

基于相同的构思，本发明还提供一种联邦学习优化装置。

下面对本发明提供的联邦学习优化装置进行描述，下文描述的联邦学习优化装置与上文描述的联邦学习优化方法可相互对应参照。

图10是本发明提供的联邦学习优化装置的结构示意图之一。

在本发明一示例性实施例中，联邦学习优化装置可以应用于服务器端。结合图10可知，联邦学习优化装置可以包括第一模块1010至第六模块1060，下面将分别介绍各模块。

第一模块1010可以被配置为用于在当前轮次的联邦学习中，获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵，并将上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵下发至多个客户端。

第二模块1020可以被配置为用于接收客户端上传的本地梯度和本地模型，其中，本地模型基于上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到，本地梯度基于上一轮次全局模型计算得到。

第三模块1030可以被配置为用于分别基于本地梯度和本地模型对上一轮次全局梯度估计和上一轮次全局模型进行更新，得到第一次更新后全局梯度估计和第一次更新后全局模型。

第四模块1040可以被配置为用于将第一次更新后全局模型和第一次更新后全局梯度估计下发至客户端。

第五模块1050可以被配置为用于接收客户端上传的更新后本地梯度和更新后本地模型，其中，更新后本地模型基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到，更新后本地梯度基于第一次更新后全局模型计算得到。

第六模块1060可以被配置为用于分别基于更新后本地梯度和更新后本地模型对第一次更新后全局梯度估计和第一次更新后全局模型进行更新，得到第二次更新后全局梯度估计和第二次更新后全局模型，并将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端，用于下一轮次的联邦学习。

在本发明一示例性实施例中，第六模块1060还可以被配置为用于基于第二次更新后全局梯度估计和第一次更新后全局梯度估计的第一差值，以及第二次更新后全局模型和第一次更新后全局模型的第二差值，对上一轮次二阶信息估计矩阵进行更新，得到当前轮次二阶信息估计矩阵以及当前轮次二阶信息估计矩阵的逆矩阵；将当前轮次二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。

在本发明一示例性实施例中，第三模块1030可以采用以下方式基于本地梯度对上一轮次全局梯度估计进行更新，得到第一次更新后全局梯度估计：基于本地梯度得到本地梯度的无偏估计；基于本地梯度的无偏估计，确定上一轮次全局梯度估计在客户端的更新估计；基于更新估计，得到第一次更新后全局梯度估计。

在本发明一示例性实施例中，第六模块1060可以采用以下公式基于更新后本地梯度对第一次更新后全局梯度估计进行更新，得到第二次更新后全局梯度估计：

表示更新后本地梯度；φ_i表示本地梯度；

表示客户端i的本地损失函数的梯度；

在本发明一示例性实施例中，第六模块1060还可以被配置为用于：对第一差值进行正则化处理，得到正则化处理后第一差值；基于正则化处理后第一差值和第二差值，得到当前轮次二阶信息估计矩阵的逆矩阵。

在本发明一示例性实施例中，第六模块1060可以采用以下公式对第一差值进行正则化处理，得到正则化处理后第一差值：

其中，

表示正则化处理后第一差值；

表示第一差值；

表示第二差值；δ和γ为正实数并满足0.8δ>γ，

采用如下公式确定：

采用以下公式确定：

β表示预设正常数，β表示

的下界，即τ_j>β。

在本发明一示例性实施例中，第六模块960还可以被配置为用于：基于第二次更新后全局梯度估计和第一次更新后全局梯度估计的第一差值，以及第二次更新后全局模型和第一次更新后全局模型的第二差值，得到对角化二阶信息估计矩阵，并将对角化二阶信息估计矩阵作为当前轮次二阶信息估计矩阵，以实现对所述当前轮次二阶信息估计矩阵的稀疏化处理；将对角化二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。

在本发明一示例性实施例中，第六模块1060可以采用以下公式基于第二次更新后全局梯度估计和第一次更新后全局梯度估计的第一差值，以及第二次更新后全局模型和第一次更新后全局模型的第二差值，得到对角化二阶信息估计矩阵：

其中，

表示对角化二阶信息估计矩阵；

表示上一轮次的对角化二阶信息估计矩阵；

表示第一差值；

表示第二差值。

基于相同的构思，本发明还提供另一种联邦学习优化装置。

图11是本发明提供的联邦学习优化装置的结构示意图之二。

在本发明一示例性实施例中，联邦学习优化装置可以应用于客户器端。结合图11可知，联邦学习优化装置可以包括第七模块1110至第十三模块1170，下面将分别介绍各模块。

第七模块1110可以被配置为用于在当前轮次的联邦学习中，获取服务器端下发的上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵。

第八模块1120可以被配置为用于基于上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到本地模型，以及基于上一轮次全局模型计算得到本地梯度。

第九模块1130可以被配置为用于将本地模型和本地梯度发送至服务器端。

第十模块1140可以被配置为用于接收服务器端下发的第一次更新后全局模型和第一次更新后全局梯度估计，其中，第一次更新后全局模型和第一次更新后全局梯度估计分别基于本地模型和本地梯度得到。

第十一模块1150可以被配置为用于基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到更新后本地模型，以及基于第一次更新后全局模型计算得到更新后本地梯度。

第十二模块1160可以被配置为用于将更新后本地梯度和更新后本地模型发送至服务器端。

第十三模块1170可以被配置为用于接收服务器端下发的第二次更新后全局模型和第二次更新后全局梯度估计，用于下一轮次的联邦学习，其中，第二次更新后全局模型和第二次更新后全局梯度估计分别基于更新后本地模型和更新后本地梯度得到。

图12示例了一种电子设备的实体结构示意图，如图12所示，该电子设备可以包括：处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240，其中，处理器1210，通信接口1220，存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令，以执行联邦学习优化方法，其中，所述方法应用于服务器端，该方法包括：在当前轮次的联邦学习中，获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵，并将上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵下发至多个客户端；接收客户端上传的本地梯度和本地模型，其中，本地模型基于上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到，本地梯度基于上一轮次全局模型计算得到；分别基于本地梯度和本地模型对上一轮次全局梯度估计和上一轮次全局模型进行更新，得到第一次更新后全局梯度估计和第一次更新后全局模型；将第一次更新后全局模型和第一次更新后全局梯度估计下发至客户端；接收客户端上传的更新后本地梯度和更新后本地模型，其中，更新后本地模型基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到，更新后本地梯度基于第一次更新后全局模型计算得到；分别基于更新后本地梯度和更新后本地模型对第一次更新后全局梯度估计和第一次更新后全局模型进行更新，得到第二次更新后全局梯度估计和第二次更新后全局模型，并将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端，用于下一轮次的联邦学习。

此外，上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的联邦学习优化方法，其中，所述方法应用于服务器端，该方法包括：在当前轮次的联邦学习中，获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵，并将上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵下发至多个客户端；接收客户端上传的本地梯度和本地模型，其中，本地模型基于上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到，本地梯度基于上一轮次全局模型计算得到；分别基于本地梯度和本地模型对上一轮次全局梯度估计和上一轮次全局模型进行更新，得到第一次更新后全局梯度估计和第一次更新后全局模型；将第一次更新后全局模型和第一次更新后全局梯度估计下发至客户端；接收客户端上传的更新后本地梯度和更新后本地模型，其中，更新后本地模型基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到，更新后本地梯度基于第一次更新后全局模型计算得到；分别基于更新后本地梯度和更新后本地模型对第一次更新后全局梯度估计和第一次更新后全局模型进行更新，得到第二次更新后全局梯度估计和第二次更新后全局模型，并将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端，用于下一轮次的联邦学习。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的联邦学习优化方法，其中，所述方法应用于服务器端，该方法包括：在当前轮次的联邦学习中，获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵，并将上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵下发至多个客户端；接收客户端上传的本地梯度和本地模型，其中，本地模型基于上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到，本地梯度基于上一轮次全局模型计算得到；分别基于本地梯度和本地模型对上一轮次全局梯度估计和上一轮次全局模型进行更新，得到第一次更新后全局梯度估计和第一次更新后全局模型；将第一次更新后全局模型和第一次更新后全局梯度估计下发至客户端；接收客户端上传的更新后本地梯度和更新后本地模型，其中，更新后本地模型基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到，更新后本地梯度基于第一次更新后全局模型计算得到；分别基于更新后本地梯度和更新后本地模型对第一次更新后全局梯度估计和第一次更新后全局模型进行更新，得到第二次更新后全局梯度估计和第二次更新后全局模型，并将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端，用于下一轮次的联邦学习。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

进一步可以理解的是，本发明实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种联邦学习优化方法，其特征在于，所述方法应用于服务器端，所述方法包括：

在当前轮次的联邦学习中，获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵，并将所述上一轮次全局模型、所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵下发至多个客户端；

接收所述客户端上传的本地梯度和本地模型，其中，所述本地模型基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到，所述本地梯度基于所述上一轮次全局模型计算得到；

分别基于所述本地梯度和所述本地模型对所述上一轮次全局梯度估计和所述上一轮次全局模型进行更新，得到第一次更新后全局梯度估计和第一次更新后全局模型；

将所述第一次更新后全局模型和所述第一次更新后全局梯度估计下发至所述客户端；

接收所述客户端上传的更新后本地梯度和更新后本地模型，其中，所述更新后本地模型基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到，所述更新后本地梯度基于所述第一次更新后全局模型计算得到；

分别基于所述更新后本地梯度和所述更新后本地模型对所述第一次更新后全局梯度估计和所述第一次更新后全局模型进行更新，得到第二次更新后全局梯度估计和第二次更新后全局模型，并将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端，用于下一轮次的联邦学习。

2.根据权利要求1所述的联邦学习优化方法，其特征在于，在将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端之后，所述方法还包括：

基于所述第二次更新后全局梯度估计和所述第一次更新后全局梯度估计的第一差值，以及所述第二次更新后全局模型和所述第一次更新后全局模型的第二差值，对所述上一轮次二阶信息估计矩阵进行更新，得到当前轮次二阶信息估计矩阵以及所述当前轮次二阶信息估计矩阵的逆矩阵；

将所述当前轮次二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。

3.根据权利要求1所述的联邦学习优化方法，其特征在于，所述基于所述本地梯度对所述上一轮次全局梯度估计进行更新，得到第一次更新后全局梯度估计，包括：

基于所述本地梯度得到所述本地梯度的无偏估计；

基于所述本地梯度的无偏估计，确定所述上一轮次全局梯度估计在所述客户端的更新估计；

基于所述更新估计，得到所述第一次更新后全局梯度估计。

4.根据权利要求3所述的联邦学习优化方法，其特征在于，所述基于所述更新后本地梯度对所述第一次更新后全局梯度估计进行更新，得到第二次更新后全局梯度估计采用以下公式确定：

其中

表示所述更新后本地梯度；φ_i表示所述本地梯度；

表示客户端i的本地损失函数的梯度；

5.根据权利要求2所述的联邦学习优化方法，其特征在于，在所述将所述当前轮次二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵之前，所述方法还包括：

对所述第一差值进行正则化处理，得到正则化处理后第一差值；

基于所述正则化处理后第一差值和所述第二差值，得到当前轮次二阶信息估计矩阵的逆矩阵。

6.根据权利要求5所述的联邦学习优化方法，其特征在于，所述对所述第一差值进行正则化处理，得到正则化处理后第一差值采用以下公式确定：

其中，

表示所述正则化处理后第一差值；

表示所述第一差值；

表示所述第二差值；δ和γ为正实数并满足0.8δ>γ，

采用如下公式确定：

采用以下公式确定：

β表示预设正常数，β表示

的下界，即τ_j>β。

7.根据权利要求1所述的联邦学习优化方法，其特征在于，在将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端之后，所述方法还包括：

基于所述第二次更新后全局梯度估计和所述第一次更新后全局梯度估计的第一差值，以及所述第二次更新后全局模型和所述第一次更新后全局模型的第二差值，得到对角化二阶信息估计矩阵，并将所述对角化二阶信息估计矩阵作为当前轮次二阶信息估计矩阵，以实现对所述当前轮次二阶信息估计矩阵的稀疏化处理；

将所述对角化二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。

8.根据权利要求7所述的联邦学习优化方法，其特征在于，所述基于所述第二次更新后全局梯度估计和所述第一次更新后全局梯度估计的第一差值，以及所述第二次更新后全局模型和所述第一次更新后全局模型的第二差值，得到对角化二阶信息估计矩阵采用以下公式确定：

其中，

表示所述对角化二阶信息估计矩阵；

表示上一轮次的对角化二阶信息估计矩阵；

表示所述第一差值；

表示所述第二差值。

9.一种联邦学习优化方法，其特征在于，所述方法应用于客户端，所述方法包括：

在当前轮次的联邦学习中，获取服务器端下发的上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵；

基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到本地模型，以及基于所述上一轮次全局模型计算得到本地梯度；

将所述本地模型和所述本地梯度发送至所述服务器端；

接收所述服务器端下发的第一次更新后全局模型和第一次更新后全局梯度估计，其中，所述第一次更新后全局模型和所述第一次更新后全局梯度估计分别基于所述本地模型和所述本地梯度得到；

基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到更新后本地模型，以及基于所述第一次更新后全局模型计算得到更新后本地梯度；

将所述更新后本地梯度和所述更新后本地模型发送至服务器端；

接收所述服务器端下发的第二次更新后全局模型和第二次更新后全局梯度估计，用于下一轮次的联邦学习，其中，所述第二次更新后全局模型和所述第二次更新后全局梯度估计分别基于所述更新后本地模型和所述更新后本地梯度得到。

10.一种联邦学习优化装置，其特征在于，所述装置应用于服务器端，所述装置包括：

第一模块，用于在当前轮次的联邦学习中，获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵，并将所述上一轮次全局模型、所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵下发至多个客户端；

第二模块，用于接收所述客户端上传的本地梯度和本地模型，其中，所述本地模型基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到，所述本地梯度基于所述上一轮次全局模型计算得到；

第三模块，用于分别基于所述本地梯度和所述本地模型对所述上一轮次全局梯度估计和所述上一轮次全局模型进行更新，得到第一次更新后全局梯度估计和第一次更新后全局模型；

第四模块，用于将所述第一次更新后全局模型和所述第一次更新后全局梯度估计下发至所述客户端；

第五模块，用于接收所述客户端上传的更新后本地梯度和更新后本地模型，其中，所述更新后本地模型基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到，所述更新后本地梯度基于所述第一次更新后全局模型计算得到；

第六模块，用于分别基于所述更新后本地梯度和所述更新后本地模型对所述第一次更新后全局梯度估计和所述第一次更新后全局模型进行更新，得到第二次更新后全局梯度估计和第二次更新后全局模型，并将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端，用于下一轮次的联邦学习。

11.一种联邦学习优化装置，其特征在于，所述装置应用于客户端，所述装置包括：

第七模块，用于在当前轮次的联邦学习中，获取服务器端下发的上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵；

第八模块，用于基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到本地模型，以及基于所述上一轮次全局模型计算得到本地梯度；

第九模块，用于将所述本地模型和所述本地梯度发送至所述服务器端；

第十模块，用于接收所述服务器端下发的第一次更新后全局模型和第一次更新后全局梯度估计，其中，所述第一次更新后全局模型和所述第一次更新后全局梯度估计分别基于所述本地模型和所述本地梯度得到；

第十一模块，用于基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到更新后本地模型，以及基于所述第一次更新后全局模型计算得到更新后本地梯度；

第十二模块，用于将所述更新后本地梯度和所述更新后本地模型发送至服务器端；

第十三模块，用于接收所述服务器端下发的第二次更新后全局模型和第二次更新后全局梯度估计，用于下一轮次的联邦学习，其中，所述第二次更新后全局模型和所述第二次更新后全局梯度估计分别基于所述更新后本地模型和所述更新后本地梯度得到。

12.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述的联邦学习优化方法。

13.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的联邦学习优化方法。

14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的联邦学习优化方法。