CN115618960A - 联邦学习优化方法、装置、电子设备及存储介质 - Google Patents

联邦学习优化方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115618960A
CN115618960A CN202211153907.2A CN202211153907A CN115618960A CN 115618960 A CN115618960 A CN 115618960A CN 202211153907 A CN202211153907 A CN 202211153907A CN 115618960 A CN115618960 A CN 115618960A
Authority
CN
China
Prior art keywords
updated
global
gradient
model
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211153907.2A
Other languages
English (en)
Other versions
CN115618960B (zh
Inventor
陈辉铭
李勇
金德鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202211153907.2A priority Critical patent/CN115618960B/zh
Publication of CN115618960A publication Critical patent/CN115618960A/zh
Application granted granted Critical
Publication of CN115618960B publication Critical patent/CN115618960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种联邦学习优化方法、装置、电子设备及存储介质,其中,所述方法包括:在当前轮次的联邦学习中,获取并下发上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵至多个客户端;接收并基于客户端上传的本地梯度和本地模型得到第一次更新后全局梯度估计和第一次更新后全局模型;将第一次更新后全局模型和第一次更新后全局梯度估计下发至客户端;接收并基于客户端上传的更新后本地梯度和更新后本地模型得到第二次更新后全局梯度估计和第二次更新后全局模型,并将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端,用于下一轮次的联邦学习。通过本发明提高了联邦优化算法的收敛速度。

Description

联邦学习优化方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种联邦学习优化方法、装置、电子设备及存储介质。
背景技术
联邦学习可实现在数据分布于多个客户端且不共享的情况下,联合分散的客户端建立全局预测模型。在保障各客户端数据始终存储于本地的情况下,联邦学习有效聚合各客户端的信息,打破“数据孤岛”,从而达到海量数据的精准模型效果。
相关技术可知,联邦学习的核心技术为联邦优化算法,其本质是一种在联邦学习场景下的分布式优化算法。然而,当前联邦学习场景通常存在数据异构性和部分客户端参与等问题,这将导致联邦优化算法性能损失。
在联邦优化中,多次局部更新迭代导致每个参与的客户端达到与局部损失函数对应的最优值,其偏离了对应全局损失函数的最优值,从而阻碍了收敛。因此,当前需要一种快速收敛的联邦优化算法将联邦学习应用到实际场景中来实现完整的算法学习过程。
发明内容
本发明提供一种联邦学习优化方法、装置、电子设备及存储介质,用以解决现有技术中联邦优化算法无法快速收敛的缺陷,提高了联邦优化算法的收敛速度,从而降低系统的通信代价。
本发明提供一种联邦学习优化方法,所述方法应用于服务器端,所述方法包括:在当前轮次的联邦学习中,获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵,并将所述上一轮次全局模型、所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵下发至多个客户端;接收所述客户端上传的本地梯度和本地模型,其中,所述本地模型基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到,所述本地梯度基于所述上一轮次全局模型计算得到;分别基于所述本地梯度和所述本地模型对所述上一轮次全局梯度估计和所述上一轮次全局模型进行更新,得到第一次更新后全局梯度估计和第一次更新后全局模型;将所述第一次更新后全局模型和所述第一次更新后全局梯度估计下发至所述客户端;接收所述客户端上传的更新后本地梯度和更新后本地模型,其中,所述更新后本地模型基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到,所述更新后本地梯度基于所述第一次更新后全局模型计算得到;分别基于所述更新后本地梯度和所述更新后本地模型对所述第一次更新后全局梯度估计和所述第一次更新后全局模型进行更新,得到第二次更新后全局梯度估计和第二次更新后全局模型,并将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端,用于下一轮次的联邦学习。
根据本发明提供的一种联邦学习优化方法,在将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端之后,所述方法还包括:基于所述第二次更新后全局梯度估计和所述第一次更新后全局梯度估计的第一差值,以及所述第二次更新后全局模型和所述第一次更新后全局模型的第二差值,对所述上一轮次二阶信息估计矩阵进行更新,得到当前轮次二阶信息估计矩阵以及所述当前轮次二阶信息估计矩阵的逆矩阵;将所述当前轮次二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。
根据本发明提供的一种联邦学习优化方法,所述基于所述本地梯度对所述上一轮次全局梯度估计进行更新,得到第一次更新后全局梯度估计,包括:基于所述本地梯度得到所述本地梯度的无偏估计;基于所述本地梯度的无偏估计,确定所述上一轮次全局梯度估计在所述客户端的更新估计;基于所述更新估计,得到所述第一次更新后全局梯度估计。
根据本发明提供的一种联邦学习优化方法,所述基于所述更新后本地梯度对所述第一次更新后全局梯度估计进行更新,得到第二次更新后全局梯度估计采用以下公式确定:
Figure BDA0003857552920000031
其中,φ+表示所述第二次更新后全局梯度估计;N表示所述客户端的数量;
Figure BDA0003857552920000032
表示所述更新后本地梯度;φi表示所述本地梯度;
Figure BDA0003857552920000033
表示客户端i的本地损失函数的梯度;
Figure BDA0003857552920000034
表示本轮参与更新的客户端集合;xr表示所述上一轮次全局模型;r表示轮次;x表示全局模型。
根据本发明提供的一种联邦学习优化方法,在所述将所述当前轮次二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵之前,所述方法还包括:对所述第一差值进行正则化处理,得到正则化处理后第一差值;基于所述正则化处理后第一差值和所述第二差值,得到当前轮次二阶信息估计矩阵的逆矩阵。
根据本发明提供的一种联邦学习优化方法,所述对所述第一差值进行正则化处理,得到正则化处理后第一差值采用以下公式确定:
Figure BDA0003857552920000041
其中,
Figure BDA0003857552920000042
表示所述正则化处理后第一差值;
Figure BDA0003857552920000043
表示所述第一差值;
Figure BDA0003857552920000044
表示所述第二差值;δ和γ为正实数并满足0.8δ>γ,
Figure BDA0003857552920000045
采用如下公式确定:
Figure BDA0003857552920000046
Figure BDA0003857552920000047
采用以下公式确定:
Figure BDA0003857552920000048
β表示预设正常数,β表示
Figure BDA0003857552920000049
的下界,即τj>β。
根据本发明提供的一种联邦学习优化方法,在将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端之后,所述方法还包括:基于所述第二次更新后全局梯度估计和所述第一次更新后全局梯度估计的第一差值,以及所述第二次更新后全局模型和所述第一次更新后全局模型的第二差值,得到对角化二阶信息估计矩阵,并将所述对角化二阶信息估计矩阵作为当前轮次二阶信息估计矩阵,以实现对所述当前轮次二阶信息估计矩阵的稀疏化处理;将所述对角化二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。
根据本发明提供的一种联邦学习优化方法,所述基于所述第二次更新后全局梯度估计和所述第一次更新后全局梯度估计的第一差值,以及所述第二次更新后全局模型和所述第一次更新后全局模型的第二差值,得到对角化二阶信息估计矩阵采用以下公式确定:
Figure BDA0003857552920000051
其中,
Figure BDA0003857552920000052
表示所述对角化二阶信息估计矩阵;
Figure BDA0003857552920000053
表示上一轮次的对角化二阶信息估计矩阵;
Figure BDA0003857552920000054
表示所述第一差值;
Figure BDA0003857552920000055
表示所述第二差值。
本发明还提供一种联邦学习优化方法,所述方法应用于客户端,所述方法包括:在当前轮次的联邦学习中,获取服务器端下发的上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵;基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到本地模型,以及基于所述上一轮次全局模型计算得到本地梯度;将所述本地模型和所述本地梯度发送至所述服务器端;接收所述服务器端下发的第一次更新后全局模型和第一次更新后全局梯度估计,其中,所述第一次更新后全局模型和所述第一次更新后全局梯度估计分别基于所述本地模型和所述本地梯度得到;基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到更新后本地模型,以及基于所述第一次更新后全局模型计算得到更新后本地梯度;将所述更新后本地梯度和所述更新后本地模型发送至服务器端;接收所述服务器端下发的第二次更新后全局模型和第二次更新后全局梯度估计,用于下一轮次的联邦学习,其中,所述第二次更新后全局模型和所述第二次更新后全局梯度估计分别基于所述更新后本地模型和所述更新后本地梯度得到。
本发明还提供一种联邦学习优化装置,所述装置应用于服务器端,所述装置包括:第一模块,用于在当前轮次的联邦学习中,获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵,并将所述上一轮次全局模型、所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵下发至多个客户端;第二模块,用于接收所述客户端上传的本地梯度和本地模型,其中,所述本地模型基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到,所述本地梯度基于所述上一轮次全局模型计算得到;第三模块,用于分别基于所述本地梯度和所述本地模型对所述上一轮次全局梯度估计和所述上一轮次全局模型进行更新,得到第一次更新后全局梯度估计和第一次更新后全局模型;第四模块,用于将所述第一次更新后全局模型和所述第一次更新后全局梯度估计下发至所述客户端;第五模块,用于接收所述客户端上传的更新后本地梯度和更新后本地模型,其中,所述更新后本地模型基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到,所述更新后本地梯度基于所述第一次更新后全局模型计算得到;第六模块,用于分别基于所述更新后本地梯度和所述更新后本地模型对所述第一次更新后全局梯度估计和所述第一次更新后全局模型进行更新,得到第二次更新后全局梯度估计和第二次更新后全局模型,并将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端,用于下一轮次的联邦学习。
本发明还提供一种联邦学习优化装置,所述装置应用于客户端,所述装置包括:第七模块,用于在当前轮次的联邦学习中,获取服务器端下发的上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵;第八模块,用于基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到本地模型,以及基于所述上一轮次全局模型计算得到本地梯度;第九模块,用于将所述本地模型和所述本地梯度发送至所述服务器端;第十模块,用于接收所述服务器端下发的第一次更新后全局模型和第一次更新后全局梯度估计,其中,所述第一次更新后全局模型和所述第一次更新后全局梯度估计分别基于所述本地模型和所述本地梯度得到;第十一模块,用于基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到更新后本地模型,以及基于所述第一次更新后全局模型计算得到更新后本地梯度;第十二模块,用于将所述更新后本地梯度和所述更新后本地模型发送至服务器端;第十三模块,用于接收所述服务器端下发的第二次更新后全局模型和第二次更新后全局梯度估计,用于下一轮次的联邦学习,其中,所述第二次更新后全局模型和所述第二次更新后全局梯度估计分别基于所述更新后本地模型和所述更新后本地梯度得到。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的联邦学习优化方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的联邦学习优化方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的联邦学习优化方法。
本发明提供的一种联邦学习优化方法、装置、电子设备及存储介质,客户端通过连续执行本地更新可以得到更新后本地梯度,服务器端通过聚合客户端上传的更新后本地梯度得到第二次更新后全局梯度估计,并作为客户端的一阶搜索方向,可以提高联邦优化算法的收敛速度。并且基于上一轮次二阶信息估计矩阵还可以提高第二次更新后全局模型的偏差能力,进而提高了联邦优化算法的收敛速度,降低了系统的通信代价。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的联邦学习优化方法的流程示意图之一;
图2是本发明提供的联邦学习系统的应用场景示意图;
图3是本发明提供的基于本地梯度对上一轮次全局梯度估计进行更新,得到第一次更新后全局梯度估计的流程示意图;
图4是本发明提供的联邦学习优化方法的流程示意图之二;
图5是本发明提供的联邦学习优化方法的流程示意图之三;
图6是应用本发明提供的联邦学习优化方法的联邦车联网系统的应用场景示意图;
图7是应用本发明提供的联邦学习优化方法的联邦车联网系统的学习过程示意图;
图8是应用本发明提供的联邦学习优化方法的联邦诊断系统的应用场景示意图;
图9是应用本发明提供的联邦学习优化方法的联邦智能电网用电预测系统的应用场景示意图;
图10是本发明提供的联邦学习优化装置的结构示意图之一;
图11是本发明提供的联邦学习优化装置的结构示意图之二;
图12是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的联邦学习优化方法针对现有联邦学习优化算法中存在的模型偏差和收敛速度慢的问题,提出了新的思路:参与的客户端需要在通信轮的两个阶段连续执行本地更新。此外,服务器通过聚合来自参与客户端的局部梯度得到全局梯度估计,并作为对客户端的一阶搜索方向。同时,进一步利用全局梯度估计来计算修正项。值得注意的是,用于计算修正项的数据需要保持一致。
可以理解的是,基于本发明提供的联邦学习优化方法可以解决模型偏差和收敛速度慢的问题。此外,由于局部更新步骤只涉及向量操作,本发明在计算和内存方面具有高效性。
需要说明的是,本发明提供的联邦学习优化方法可以应用于分布式系统。在分布式系统中,包括中心节点设备(对应本申请的服务器端)和多个边缘节点设备(对应本申请的客户端)。应用于本发明提供的联邦学优化方法的分布式系统,可以提高系统的收敛速度,并降低系统的通信代价。
为了便于说明,下文将以客户端和服务器端为例对本发明进行说明。
为了进一步介绍本发明提供的联邦学习优化方法,下面将结合图1进行说明。
图1是本发明提供的联邦学习优化方法的流程示意图之一。
在本发明一示例性实施例中,联邦学习优化方法可以应用于服务器端。结合图1可知,联邦学习优化方法可以包括步骤110至步骤160,下面将分别介绍各步骤。
在步骤110中,在当前轮次的联邦学习中,获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵,并将上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵下发至多个客户端。
为介绍本发明,可以首先建立联邦学习的数学建模如下,假设有N个客户端进行联邦学习任务,第i(i∈[N],其中,[N]表示集合{1,…,N})个客户端的本地损失函数为fi(x),即
Figure BDA0003857552920000101
其中,数据集
Figure BDA0003857552920000102
包含了ni个数据,fi,j为关于数据集
Figure BDA0003857552920000103
中第j数据的损失函数,因此联邦优化的目标为N个客户端共同求解以下问题:
Figure BDA0003857552920000104
其中,f为全部客户端的平均损失函数,模型x满足
Figure BDA0003857552920000105
此外,以上函数满足f:
Figure BDA0003857552920000106
基于本地客户端数据所得的梯度和二阶信息估计矩阵,与全部客户端数据所得的梯度和二阶信息估计矩阵具有明显的偏差,用于模型更新时,将加剧模型偏差问题。因此,本发明首先考虑全局梯度的估计,进而考虑包含更多信息的二阶信息估计矩阵。
在一种实施例中,在当前轮次的联邦学习中,可以获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵,并将上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵下发至多个客户端,用于客户端进行本地模型更新。
在步骤120中,接收客户端上传的本地梯度和本地模型,其中,本地模型基于上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到,本地梯度基于上一轮次全局模型计算得到。
在一种实施例中,客户端可以应用上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵进行多次的本地模型更新,完成更新后,可以把上一轮次全局模型存储在客户端本地。
在又一实施例中,可以基于上一轮次全局模型和客户端数据计算本地梯度。并将本地梯度和本地模型上传至服务器端,并且服务器端接收客户端上传的本地梯度和本地模型。
在步骤130中,分别基于本地梯度和本地模型对上一轮次全局梯度估计和上一轮次全局模型进行更新,得到第一次更新后全局梯度估计和第一次更新后全局模型。
在一种实施例中,服务器端可以分别基于多个客户端上传的本地梯度和本地模型进行聚合,实现对上一轮次全局梯度估计和上一轮次全局模型进行更新,用以得到第一次更新后全局梯度估计和第一次更新后全局模型。此时服务器端完成全局模型与全局梯度估计的第一次更新。
可以理解的是,对于每一轮次的联邦学习更新,可以认为有两个阶段构成,其中,基于步骤110至步骤130完成了第一阶段的工作。
在步骤140中,将第一次更新后全局模型和第一次更新后全局梯度估计下发至客户端。
在步骤150中,接收客户端上传的更新后本地梯度和更新后本地模型,其中,更新后本地模型基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到,更新后本地梯度基于第一次更新后全局模型计算得到。
在一种实施例中,服务器端将第一次更新后全局模型和第一次更新后全局梯度估计下发至本轮参与更新的同一批客户端。每个客户端存储第一次更新后全局模型和第一次更新后全局梯度估计。客户端可以基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到新后本地模型。客户端还可以基于第一次更新后全局模型计算得到更新后本地梯度。并将更新后本地梯度和更新后本地模型上传至服务器端。服务器端接收户端上传的更新后本地梯度和更新后本地模型。
在步骤160中,分别基于更新后本地梯度和更新后本地模型对第一次更新后全局梯度估计和第一次更新后全局模型进行更新,得到第二次更新后全局梯度估计和第二次更新后全局模型,并将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端,用于下一轮次的联邦学习。
在一种实施例中,服务器端将基于更新后本地梯度和更新后本地模型对第一次更新后全局梯度估计和第一次更新后全局模型进行更新,分别得到第二次更新后全局梯度估计和第二次更新后全局模型。在应用过程中,可以将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端,用于下一轮次的联邦学习。
可以理解的是,对于每一轮次的联邦学习更新,基于步骤140至步骤160完成了第二阶段的工作。
本发明提供的本发明提供的联邦学习优化方法,客户端通过连续执行本地更新可以得到更新后本地梯度,服务器端通过聚合客户端上传的更新后本地梯度得到第二次更新后全局梯度估计,并作为客户端的一阶搜索方向,可以提高联邦优化算法的收敛速度。并且基于上一轮次二阶信息估计矩阵还可以提高第二次更新后全局模型的偏差能力,进而提高了联邦优化算法的收敛速度,降低了系统的通信代价。
为了进一步描述本发明提供的联邦学习优化方法,下面结合算法1和算法2进行描述。
在算法1中,x为全局模型;φ为全局梯度估计;Δxi为本地客户端更新结束后本地模型的更新量;Δφi为本地客户端新更结束后本地梯度的更新量;η为本地客户端更新的学习率;xi为客户端的本地模型;
Figure BDA0003857552920000121
为随机参与更新的客户端集合;
Figure BDA0003857552920000122
为本地客户端参与更新的次数;
Figure BDA0003857552920000123
Figure BDA0003857552920000124
分别为本轮更新的全局模型差和全局梯度估计差。
在算法2中,v为全局梯度在本地客户端的估计;
Figure BDA0003857552920000125
Figure BDA0003857552920000126
为客户端参与的更新次数;
Figure BDA0003857552920000127
由公式(13)计算所得。
下面将分别介绍算法1和算法2。
算法1:
1:服务器端输入:初始化x,φ,Δxi=0和Δφi=0,其中i=1,…,N。
2:客户端输入:初始化η和xi,更新次数
Figure BDA0003857552920000131
和yi=0。
3:for r=1,…,R do
4:记随机参与更新的部分客户端子集为
Figure BDA0003857552920000132
5:服务器传输(xrr)至
Figure BDA0003857552920000133
中的客户端;
6:for客户端
Figure BDA0003857552920000134
7:令
Figure BDA0003857552920000135
Figure BDA0003857552920000136
8:
Figure BDA0003857552920000137
9:令
Figure BDA0003857552920000138
Figure BDA0003857552920000139
10:令
Figure BDA00038575529200001310
并传输(Δxi,Δφi)至服务器。
11:end for
12:服务器执行聚合得到(xr+1/2r+1/2);
13:服务器传输(xr+1/2r+1/2)至
Figure BDA00038575529200001311
中的客户端;
14:for客户端
Figure BDA00038575529200001312
15:令
Figure BDA00038575529200001313
16:
Figure BDA00038575529200001314
17:令
Figure BDA00038575529200001315
Figure BDA00038575529200001316
18:令
Figure BDA00038575529200001317
并传输(Δxi,Δφi)至服务器。
19:end for
20:服务器执行聚合得到(xr+1r+1);
21:服务器传输φr+1至每个客户端
Figure BDA00038575529200001318
该步骤存储
Figure BDA00038575529200001319
22:end for
算法1可以理解为是关于本发明提供的联邦学习优化方法的整个步骤。其中,步骤5至步骤12表示对于每一轮次的联邦学习更新的第一阶段的工作,步骤13至步骤22表示对于每一轮次的联邦学习更新的第二阶段的工作。
算法2:
1:客户端输入:y,x和φ;
2:客户端输入:初始化η和xi,更新次数
Figure BDA0003857552920000141
和yi=0。
3:for k=0,…,K-1 do;
4:计算无偏估计梯度g(x);
5:令v←g(x)-y+φ;
6:通过(a)或者(b)来更新x;
7:(a)
Figure BDA00038575529200001415
(b)x←x-ηB·v,其中B如下:
Figure BDA0003857552920000142
8:end for
9:
Figure BDA0003857552920000143
10:输入:
Figure BDA0003857552920000144
存有的
Figure BDA0003857552920000145
的存储
Figure BDA0003857552920000146
其中
Figure BDA0003857552920000147
11:输出:
Figure BDA0003857552920000148
12:根据(10)计算
Figure BDA0003857552920000149
并令q=v;
13:for
Figure BDA00038575529200001410
14:计算αj=ρjsjTq和
Figure BDA00038575529200001411
15:end for
16:令
Figure BDA00038575529200001412
17:for
Figure BDA00038575529200001413
18:计算
Figure BDA00038575529200001414
和p←p+sjj-μ);
19:end for
其中,算法2为客户端进行的更新操作。
图2是本发明提供的联邦学习系统的应用场景示意图。
其中,图2中的LBFGS表示本发明提供的联邦学习优化方法。结合图2可知,在当前轮次的联邦学习中,服务器端(图2中所示的云端)可以向客户端C发送全局模型xr,客户端基于全局模型xr更新本地梯度,并将本地梯度
Figure BDA0003857552920000151
发送至服务器端。服务器端基于本地梯度更新全局模型xr+1/2和全局梯度估计
Figure BDA0003857552920000152
并下发至客户端C。客户端基于更新的全局模型xr+1/2和全局梯度估计
Figure BDA0003857552920000153
以及上一轮次的全局模型和全局梯度估计,可以得到二阶信息估计矩阵。在应用过程中,可以基于二阶信息估计矩阵参与联邦学习优化方法的更新,进而可以提高联邦学习算法的收敛速度。
本发明提供的联邦学习优化方法,客户端通过连续执行本地更新可以得到更新后本地梯度,服务器端通过聚合客户端上传的更新后本地梯度得到第二次更新后全局梯度估计,并作为客户端的一阶搜索方向,可以提高联邦优化算法的收敛速度。并且基于上一轮次二阶信息估计矩阵还可以提高第二次更新后全局模型的偏差能力,进而提高了联邦优化算法的收敛速度,降低了系统的通信代价。
在本发明一示例性实施例中,继续结合图1进行说明,在步骤160之后,联邦学习优化方法还可以包括:基于第二次更新后全局梯度估计和第一次更新后全局梯度估计的第一差值,以及第二次更新后全局模型和第一次更新后全局模型的第二差值,对上一轮次二阶信息估计矩阵进行更新,得到当前轮次二阶信息估计矩阵以及当前轮次二阶信息估计矩阵的逆矩阵;将当前轮次二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。
在一种实施例中,可以将二次更新后全局梯度估计和第一次更新后全局梯度估计,以及第二次更新后全局模型和第一次更新后全局模型均下发至同一批客户端。在应用过程中,客户端可以分别获取第一差值和第二差值,进一步的,基于第一差值和第二差值可以对上一轮次二阶信息估计矩阵进行更新,得到当前轮次二阶信息估计矩阵。在本实施例中,通过基于两次全局模型和全局梯度估计的更新,才对二阶信息估计矩阵进行一次更新,可以减少计算量。
需要说明的是,对于二阶信息矩阵的估计,首先考虑集中式的优化问题:
Figure BDA0003857552920000161
其中,
Figure BDA0003857552920000162
为模型优化变量,fi:
Figure BDA0003857552920000163
为关于第i个样本的损失函数。在迭代次数为k时,全局模型更新为
Figure BDA0003857552920000164
Figure BDA0003857552920000165
其中g(xk)为
Figure BDA0003857552920000166
的无偏估计,对于BFGS(对应本发明的联邦学习优化方法)矩阵B,其可通过迭代更新:
Figure BDA0003857552920000167
其中,sk=xk+1-xk
Figure BDA0003857552920000168
为修正项。
Figure BDA0003857552920000169
为从集合{1,…,N}中均匀采样得到的子集。此外,上式逆矩阵
Figure BDA00038575529200001610
具有解析解:
Figure BDA00038575529200001611
因此,无需进行矩阵求逆的计算。更新公式的计算复杂度达O(d2),当d较大时,在现实应用中难以计算。为解决该问题,通常运用M个最新的{(sj,yj),j=k,k-1,…,k-M+1}来直接获取矩阵向量的乘积,该方法为有限存储的联邦学习优化方法来进行估计。
需要注意的是,计算全局梯度估计差值yk需要相同的样本,但在联邦学习中,常出现不一致性使得难以应用二阶信息矩阵估计。因此,本发明提出两阶段的通信协议,从而使得二阶信息估计矩阵法在联邦学习中能够得到应用。具体而言,本轮更新分为两个阶段,在第一阶段,服务器将xr和φr下发给参与的客户端
Figure BDA00038575529200001612
其存储xr并进行多次本地更新迭代,其等效为:
Figure BDA00038575529200001613
其中,
Figure BDA0003857552920000171
(对应二阶信息估计矩阵)在本地更新过程中始终保持不变直至新的全局模型和全局梯度估计差值出现。此后,客户端
Figure BDA0003857552920000172
将本地梯度和本地模型上传至服务器完成全局模型与全局梯度估计的更新,得到(xr+1/2r+1/2)(对应第一次更新后全局模型和第一次更新后全局梯度估计):
Figure BDA0003857552920000173
第二阶段,服务器端将(xr+1/2r+1/2)下发至本轮参与更新的同一批客户端
Figure BDA0003857552920000174
每个客户端存储(xr+1/2r+1/2),并进行本地模型更新,完成后,计算本地梯度,并上传本地模型与本地梯度至服务器完成全局模型与梯度的更新,得到(xr+1r+1)(对应第二次更新后全局模型和第二次更新后全局梯度估计),再下发至同一批客户端与其存储全局梯度估计φr+1,此时这一批客户端可获得全局模型的差值(对应第二差值)与全局梯度估计的差值(对应第一差值):
Figure BDA0003857552920000175
Figure BDA0003857552920000176
其中,
Figure BDA0003857552920000177
对应第二差值,
Figure BDA0003857552920000178
对应第一差值。
进一步的,基于第一差值和第二差值可以更新二阶信息估计矩阵,并注意到
Figure BDA0003857552920000179
其包含了更多客户端的信息,从而缓解了模型偏差问题。
为了进一步介绍本发明提供的联邦学习优化方法,下面将结合图3进行说明。
图3是本发明提供的基于本地梯度对上一轮次全局梯度估计进行更新,得到第一次更新后全局梯度估计的流程示意图。
在本发明一示例性实施例中,结合图3可知,基于本地梯度对上一轮次全局梯度估计进行更新,得到第一次更新后全局梯度估计可以包括步骤310至步骤330,下面将分别介绍各步骤。
在步骤310中,基于本地梯度得到本地梯度的无偏估计。
在步骤320中,基于本地梯度的无偏估计,确定上一轮次全局梯度估计在客户端的更新估计。
在步骤330中,基于更新估计,得到第一次更新后全局梯度估计。
需要说明的是,在本发明中使用全局信息来弥补客户端上的信息偏差。具体而言,在第r轮,令全局模型与全局梯度估计分别为xr和φr,在第一阶段,服务器端传输xr和φr至参与的客户端
Figure BDA0003857552920000181
并赋值:xi←xr。客户端计算本地梯度的无偏估计gi(xi),即
Figure BDA0003857552920000182
并计算此刻的搜索方向:
vi←gi(xi)-gi(xr)+φr (9)
其中,{-gi(xr)+φr}衡量本地随机梯度gi(xi)与全局梯度估计的差距,因此,运用该搜索方向可弥补因为信息偏差带来的全局模型偏差的问题。在应用过程中,可以基于本地梯度的无偏估计,确定上一轮次全局梯度估计在客户端的更新估计,并基于本地梯度的无偏估计,确定上一轮次全局梯度估计在客户端的更新估计。
在本发明一示例性实施例中,基于更新后本地梯度对第一次更新后全局梯度估计进行更新,得到第二次更新后全局梯度估计可以采用以下公式确定:
Figure BDA0003857552920000183
其中,φ+表示第二次更新后全局梯度估计;N表示客户端的数量;
Figure BDA0003857552920000184
表示更新后本地梯度;φi表示本地梯度;
Figure BDA0003857552920000185
表示客户端i的本地损失函数的梯度;
Figure BDA0003857552920000186
表示本轮参与更新的客户端集合;xr表示上一轮次全局模型;r表示轮次;x表示全局模型。
继续结合前述实施例进行说明,在经过多次客户端本地更新后,参与的客户端
Figure BDA0003857552920000187
计算本地梯度
Figure BDA0003857552920000188
并传输
Figure BDA0003857552920000189
至服务器端进行如公式(10)所示更新,以获得更准确的全局梯度估计(对应第二次更新后全局梯度估计)。
在本发明一示例性实施例中,继续以前文所述的实施例为例进行说明,在将当前轮次二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵之前,联邦学习优化方法还可以包括:对第一差值进行正则化处理,得到正则化处理后第一差值;
基于正则化处理后第一差值和第二差值,得到当前轮次二阶信息估计矩阵的逆矩阵。
在本发明又一示例性实施例中,对第一差值进行正则化处理,得到正则化处理后第一差值可以采用以下公式确定:
Figure BDA0003857552920000191
其中,
Figure BDA0003857552920000192
表示正则化处理后第一差值;
Figure BDA0003857552920000193
表示第一差值;
Figure BDA0003857552920000194
表示第二差值;δ和γ为正实数并满足0.8δ>γ,其中,
Figure BDA0003857552920000195
采用如下公式(12)确定:
Figure BDA0003857552920000196
Figure BDA0003857552920000197
采用以下公式(13)确定:
Figure BDA0003857552920000198
β表示预设正常数,β表示
Figure BDA0003857552920000199
的下界,即τj>β。
需要说明的是,算法2中的更新选择(a),其为一种正则化的联邦学习优化方法。具体而言,在某些极端情况下,如一些客户端具有极少量的数据,将导致联邦学习优化算法出现数值问题,如二阶估计矩阵将出现奇异值,并导致算法无法收敛。为使上述算法1具有较强的鲁棒性,本发明提出一种新的正则化方法。具体而言,在客户端
Figure BDA0003857552920000201
上,可通过以下获得新的梯度差值(对应正则化处理后第一差值):
Figure BDA0003857552920000202
其中,δ和γ为正实数并满足0.8δ>γ,
Figure BDA0003857552920000203
可通过如下式(15)进行计算:
Figure BDA0003857552920000204
其中,
Figure BDA0003857552920000205
可以表示为公式(16):
Figure BDA0003857552920000206
其中,β为给定正常数,因此,β为
Figure BDA0003857552920000207
的下界,即τj>β。随后,对Hessian逼近进行M次迭代,得到正则化联邦学习优化公式:
Figure BDA0003857552920000208
其中,
Figure BDA0003857552920000209
可以表示当前轮次二阶信息估计矩阵的逆矩阵,l=0,…,M-1,j=r-(M-1)+l-1,且
Figure BDA00038575529200002010
可验证,
Figure BDA00038575529200002011
因此给定初始化矩阵
Figure BDA00038575529200002012
可得二阶信息估计的逆矩阵
Figure BDA00038575529200002013
且其为正定矩阵,即
Figure BDA00038575529200002014
在本发明一示例性实施例中,继续以图1所述的实施例为例进行说明,在将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端之后,联邦学习优化方法还可以包括:基于第二次更新后全局梯度估计和第一次更新后全局梯度估计的第一差值,以及第二次更新后全局模型和第一次更新后全局模型的第二差值,得到对角化二阶信息估计矩阵,并将对角化二阶信息估计矩阵作为当前轮次二阶信息估计矩阵,以实现对当前轮次二阶信息估计矩阵的稀疏化处理;将对角化二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。
在本发明又一示例性实施例中,基于第二次更新后全局梯度估计和第一次更新后全局梯度估计的第一差值,以及第二次更新后全局模型和第一次更新后全局模型的第二差值,得到对角化二阶信息估计矩阵可以采用以下公式(18)确定:
Figure BDA0003857552920000211
其中,
Figure BDA0003857552920000212
表示对角化二阶信息估计矩阵;
Figure BDA0003857552920000213
表示上一轮次的对角化二阶信息估计矩阵;
Figure BDA0003857552920000214
表示第一差值;
Figure BDA0003857552920000215
表示第二差值。
需要说明的是,尽管分布式计算优势明显,但当大量的客户端与服务器进行通信时存在显著的限制,导致通信开销较大。量化技术是压缩通信量的一种简单而直接的方法,减轻通信开销问题的另一种方法是稀疏化传输向量。一种常用的的策略是采用l1正则化,该方法可产生稀疏解。具体而言,将联邦学习的优化问题增加l1正则项:
Figure BDA0003857552920000216
因此,每个客户端旨在求解子问题
Figure BDA0003857552920000217
假设本地搜索路径为
Figure BDA0003857552920000218
则通过泰勒展开近似fi(xi)可得到如下:
Figure BDA0003857552920000219
Figure BDA00038575529200002110
为单位矩阵时,上述为Proximal Gradient Descent(PGD)算法
Figure BDA00038575529200002111
然而,在二阶联邦优化问题中,直接求解上述问题具有较大的困难,用坐标轴下降的算法进行求解又存在计算复杂度较高的问题。因此本发明引入一个对角化的二阶信息估计矩阵方案,从而可以高效求解上述问题。具体而言,本发明引入对角化二阶信息估计矩阵如公式(18)所示。
在又一实施例中,由于上式可能存在更新矩阵非正定而导致算法发散,因此本发明进一步引入一个阈值来保障更新所得矩阵为正定:
Figure BDA0003857552920000221
进而,可以高效率求解上述问题:
Figure BDA0003857552920000222
其中,
Figure BDA0003857552920000223
Figure BDA0003857552920000224
分别为
Figure BDA0003857552920000225
di
Figure BDA0003857552920000226
的第j个元素。
根据上述描述可知,本发明提供的联邦学习优化方法,客户端通过连续执行本地更新可以得到更新后本地梯度,服务器端通过聚合客户端上传的更新后本地梯度得到第二次更新后全局梯度估计,并作为客户端的一阶搜索方向,可以提高联邦优化算法的收敛速度。并且基于上一轮次二阶信息估计矩阵还可以提高第二次更新后全局模型的偏差能力,进而提高了联邦优化算法的收敛速度,降低了系统的通信代价。
基于相同的构思,本发明还提供一种联邦学习优化方法。其中,该联邦学习优化方法应用于客户端。
下面对本发明提供的应用于客户端的联邦学习优化方法进行描述,下文描述的应用于客户端的联邦学习优化方法与上文描述的应用于服务器端的联邦学习优化方法可相互对应参照。
图4是本发明提供的联邦学习优化方法的流程示意图之二。
在本发明一示例性实施例中,结合图4可知,联邦学习优化方法可以包括步骤410至步骤470,下面将分别介绍各步骤。
在步骤410中,在当前轮次的联邦学习中,获取服务器端下发的上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵。
在步骤420中,基于上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到本地模型,以及基于上一轮次全局模型计算得到本地梯度。
在步骤430中,将本地模型和本地梯度发送至服务器端。
在步骤440中,接收服务器端下发的第一次更新后全局模型和第一次更新后全局梯度估计,其中,第一次更新后全局模型和第一次更新后全局梯度估计分别基于本地模型和所述本地梯度得到。
在步骤450中,基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到更新后本地模型,以及基于第一次更新后全局模型计算得到更新后本地梯度。
在步骤460中,将更新后本地梯度和更新后本地模型发送至服务器端。
在步骤470中,接收服务器端下发的第二次更新后全局模型和第二次更新后全局梯度估计,用于下一轮次的联邦学习,其中,第二次更新后全局模型和第二次更新后全局梯度估计分别基于更新后本地模型和更新后本地梯度得到。
为了进一步介绍本发明提供的联邦学习优化方法,下面将结合图5进行说明。
图5是本发明提供的联邦学习优化方法的流程示意图之三。
在一种实施例中,如图5所示,可以初始化服务器端和客户端。为了提高联邦学习优化方法的模型收敛性和非分散性,可以通过服务器端聚合得到全局模型x和全局梯度φ。
其中,在聚合得到全局模型(对应第二次更新后全局模型)x和全局梯度(对应第二次更新后全局梯度估计)φ的过程中,服务器端和客户端会进行多次通信。在应用过程中,客户端通过执行多次本地模型更新,并将更新后的本地模型上传至服务器端,进而可以通过服务器端聚合得到全局模型x和全局梯度φ。
在一种实施例中,在聚合得到全局模型(对应第二次更新后全局模型)x和全局梯度(对应第二次更新后全局梯度估计)φ的过程中,在第一阶段中,可以由服务器端下发全局模型(对应上一轮次全局模型)x和全局梯度(对应上一轮次全局梯度估计)φ至客户端。客户端基于服务器端下发全局模型(对应上一轮次全局模型)x和全局梯度(对应上一轮次全局梯度估计)φ更新本地模型和本地梯度,并上传更新后的本地模型和本地梯度至服务器端。在第二阶段,服务器端基于客户端上传的更新后的本地模型和本地梯度,更新全局模型x和全局梯度φ,得到第一次更新后全局模型和第一次更新后全局梯度估计。进一步的,可以将第一次更新后全局模型(对应图5中的3中的全局模型x)和第一次更新后全局梯度估计(对应图5中的3中的全局梯度φ)下发至客户端。客户端基于第一次更新后全局模型和第一次更新后全局梯度估计,再次更新本地模型和本地梯度,并将再次更新后的本地模型和本地梯度上传至服务器端。服务器端基于再次更新后的本地模型和本地梯度得到第二次更新后全局模型和第二次更新后全局梯度估计,并将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端,用于下一轮次的联邦学习。通过本实施例,可以提高联邦优化算法的收敛速度,降低系统的通信代价。
可以理解的是,本发明提供的联邦学习优化方法为具有低计算复杂度、稳定快速收敛和具有较强的克服模型偏差能力的二阶联邦优化算法,这将提高算法的收敛速度,从而降低系统通信代价。
为了进一步介绍本发明提供的联邦学习优化方法,下面将结合下述实施例进行说明。
图6是应用本发明提供的联邦学习优化方法的联邦车联网系统的应用场景示意图;图7是应用本发明提供的联邦学习优化方法的联邦车联网系统的学习过程示意图。
本发明在车联网技术中具有较大的应用价值,下面将结合图6和图7对本发明在车联网技术中的应用进行说明。
在车联网中,多辆车之间进行数据共享以达到大数据,从而实现人工智能与数据挖掘的任务,例如道路推荐与自动驾驶等,可以提高驾驶的体验。但直接进行数据共享将增加安全隐患,同时大量的数据传输对通信带宽提出了巨大的要求。应用本发明可改进现有车联网中的技术可为基于联邦学习车联网中的大数据挖掘系统(以下简称联邦车联网)。
联邦车联网由三层结构组成,即用户层、边缘层和云层。用户层普遍由车辆主体中的数据发生器(如图像传感器等)组成,而车载数据通常包括路线,交通拥堵信息以及多媒体信息等,高效率应用这些数据将提高驾驶者体验。边缘层主要由道路路边系统(RSU)组成,且部署在道路路边,用于RSU附近车辆进行计算。云层主要由云服务器组成,用于将RSU所获得的中间信息进行进一步的汇总,从而得到全局的模型。云层常部署在云数据中心。根据上述,由于传统车联网中的车辆将传感器的数据源源不断上传至云端进行大数据挖掘,增加了数据服务和云服务的成本,并增加了数据安全的隐患,之后云端完成更新后才将结果反馈给车辆进行智能决策。在大规模堵车时,有限的通信带宽也将使得车辆等待时间较长,因此用户体验不佳。
基于本发明的联邦车联网可进行大规模分布式地处理车辆数据。具体描述如下:
在一种实施例中,考虑分散的车辆、RSU和云中心服务器形成的“星结构”,总体上,各RSU附近的局部车辆发出服务请求指令给云中心服务器需要进行道路预测任务。同时由于车辆的硬件资源各不相同,在每轮更新中,并非所有的车辆都参与更新,而是一种异步分布式更新的方式。此时,常用的联邦学习算法FedAvg将有较大的性能损失问题,而本发明由于在本地对全局梯度进行了估计,且结合了包含较广泛信息的二阶信息估计矩阵,因此本发明中的算法具有更快速的收敛速度。云中心服务器开始本轮更新,并标记为第一阶段更新,接着将此时的全局模型和全局梯度估计下发至各RSU附近的车辆上,这些车辆先进行人工智能与大数据的本地模型训练,其中的更新路径可采用两种方式,第一种基于正则化的联邦学习优化方法,车辆利用目前在存储器中的模型和梯度差值进行联邦学习优化方法更新,其中仅涉及到向量运算,因此复杂度较低;第二种基于对角化的二阶信息估计矩阵,由于仅涉及到向量运算,因此复杂度较第一种更低,且消耗存储更少。在完成更新后,将本地模型和梯度上传至RSU进行模型和梯度的局部聚合操作,并将局部聚合后的模型上传至云中心,同时RSU将聚合的梯度下发至各车辆上进行存储。云中心进行全局模型聚合后,标记为第二阶段开始,并下发此刻的全局模型至各车辆上。各车辆接收到此刻的全局模型与全局梯度后,先存储二者后,进一步进行本地更新,本地更新结束后,上传本地模型与梯度至云服务器进行全局聚合更新得到全局模型和全局梯度,最后将全局梯度下发至车辆,此时车辆将具有与模型差对应一致性的梯度差,可用于二阶信息估计矩阵的更新。在本方案中,由于采用了两层聚合的结构,即第一层聚合在RSU中进行,第二层聚合在云中心服务器,因此大幅度缓解了云中心服务器的带宽压力。此外,由于算法具有快速收敛性且较低的存储,因此算法具有较高的性能和一定的应用前景。
结合图7进行说明,边缘服务器可以发送收集农场数据请求,各物理传感器传送数据至边缘服务器。其中,在聚合得到全局模型(对应第二次更新后全局模型)x和延迟全局梯度(对应第二次更新后全局梯度估计)φ的过程中,云服务器端和客户端(又称用户层)会进行多次通信。在应用过程中,客户端通过执行多次本地模型更新和延迟全局梯度更新,并将更新后的本地模型上传至服务器端,进而可以通过服务器端聚合得到全局模型x和延迟全局梯度φ。
在一种实施例中,可以通过传输更新量(Δxi,Δφi)到云服务器端来实现将更新后的本地模型上传至云服务器端。在应用过程中,部分车联网边缘服务器请求参与更新全局模型x和延迟全局梯度φ,并进行结果反馈。
基于本发明的联邦车联网系统,其中的人工智能模型具有一定的普遍性,即可用逻辑回归、支持向量机、深度神经网络和卷积神经网络等,只需保证各车辆的模型参数结构与任务相同,可快速达到更精准的人工智能任务,从而提高车辆驾驶体验。
图8是应用本发明提供的联邦学习优化方法的联邦诊断系统的应用场景示意图。
本发明在医学大数据挖掘中具有较大的应用价值,下面将结合图8对本发明在医学大数据挖掘中的应用进行说明。
在当前分级医疗体系下,不同级别医院的医疗水平差异巨大,实力较弱的医院无法积累足够的病例数据且数据质量差,无法独立完成人工智能任务。而通过将医学数据上传至云端的传统云计算方式,无法适用于医学高度敏感的数据挖掘。应用本发明可实现在数据始终不出医院的条件下,多家医院联合完成医学大数据精准挖掘,从而大幅度提高疾病诊断率,缓解医疗资源紧张等。以下描述基于本发明的智慧医疗辅助诊断系统(以下简称联邦诊断系统)。
联邦诊断系统由三层结构组成,即用户层、物理层和云层。用户层普遍由多家医院的相关科室医生组成;物理层主要由本地医院的医疗诊断设备、服务器等组成,且部署在医院中,其中医疗诊断设备包括计算机断层扫描、医疗X光机和医用B超机等,这些医用设备将产生医学影像等重要数据,可通过人工智能技术进行图像识别等信息挖掘,从而提高疾病诊断率;云层主要由云服务器组成,用于医学信息的汇总,常部署在云数据中心。基于本发明的联邦诊断系统可处理大规模分布式的处理医疗数据。具体描述如下:
在一种实施例中,考虑分散的各家医院和云中心服务器形成的“星结构”,总体上,各家医院在本地服务器上使用其医学数据进行机器学习模型训练,完成更新后,将模型上传至云中心服务器进行模型聚合操作,将聚合后的全局模型下传至各家医院。具体而言,用户层发出服务请求指令给本地医院的服务器,需要对医学数据进行信息挖掘,如医学影像识别等,尽管在本地医院服务器上也可进行模型训练任务,从而达到数据挖掘的目的,但由于一些医院的本地数据量较少,且可能存在一些错误标签的情况,因此需要结合云中心服务器和其他医院的信息,对这些错误的数据进行预测并取代后形成完整的数据,之后用这些数据在本医院的服务器上进行训练。具体而言,本医院服务器在接收到用户服务请求指令后,请求云中心服务器传输全局模型与全局梯度,本医院服务器接收之后,标记为第一阶段,并将全局模型赋予给本地模型,此时参与更新的医院存储全局模型。本地模型更新时的路径可采用两种方式,第一种基于正则化的联邦学习优化方法,医院利用目前在存储器中的模型和梯度差值进行联邦学习优化方法更新,其中仅涉及到向量运算,因此复杂度较低;第二种基于对角化的二阶信息估计矩阵,由于仅涉及到向量运算,因此复杂度较第一种更低,且消耗存储更少。需注意,为加速算法收敛、提高通信效率,边缘服务器执行多次本地更新,之后将本地模型与本地梯度的更新量传输至云中心服务器。云中心服务器将在本轮全局更新中参与的边缘服务器上的更新量进行汇总聚合。接下来进行第二阶段,上一阶段参与更新的边缘服务器接收到全局模型和全局梯度,此时存储全局模型和全局梯度,与第一阶段类似的进行本地模型更新并将本地模型和本地梯度上传至云中心服务器,再将聚合所得的全局模型下发至边缘服务器进行存储。此时这些医院的服务器具有全局模型和梯度的差值,可用于更新二阶信息估计矩阵。之后需注意的是,每轮云中心服务器进行全局更新时,各医院的服务器计算力和带宽等各不相同,因此,云中心服务器在信息汇总时可能只有部分平台参与,此时,常用的联邦学习算法FedAvg将有较大的性能损失问题,而本发明由于全局梯度和包含有广泛平台信息的二阶信息矩阵估计,因此具有快速的收敛速度和较低的带宽需求。
基于本发明的联邦诊断系统,其中的人工智能模型具有一定的普遍性,即可用逻辑回归、支持向量机、深度神经网络和卷积神经网络等,只需保证各医院的模型参数结构相同,可达到更精准的疾病诊断等。
图9是应用本发明提供的联邦学习优化方法的联邦智能电网用电预测系统的应用场景示意图。
本发明在智能电网系统中具有较大的应用价值,下面将结合图9对本发明在用电预测系统中的应用进行说明。
随着电网的智能化发展,电网公司可根据用户用电数据进行智能化、个性化方案定制,例如可以根据用户的用电数据进行用电需求预测等,从而实现精准供电,并达到最大营收。但由于用户的用电数据具有隐私性,若采用传统云计算方式,即将数据上传至云端,容易导致数据泄露产生一系列如入室盗窃等严重后果。应用本发明可改进现有智能电网系统升级为基于联邦学习的用户用电预测系统(以下简称联邦智能电网用电预测系统)。
联邦智能电网用电预测系统由两层结构组成,即物理层、边缘层和云层。物理层包含了智能用电场景下的物理传感器,这些传感器将产生包含家庭用电量记录、太阳能用电记录以及电动车充电用电记录等,这些物理传感器实时产生大量数据,在传统电网公司系统中,海量的数据通过边缘层的通信上传至云服务器端进行大数据信息挖掘,再将结果传输回来给平台。因此,无法实现实时监测并决策的效果,同时大量的数据对“云边协同”的通信带宽提出了较高的要求,从而带来较高的成本;边缘层主要由边缘服务器以及通信设备等组成,且部署在平台中,其主要的作用为在边缘服务器上对本地数据进行学习并更新本地模型,并将本地模型通过边缘通信设备传输至云层;云层主要由云服务器组成,用于将各个边缘层服务器中的本地模型进行汇总,常部署在云数据中心。
根据上述,由于传统智能电网用电预测系统将物理传感器数据源源不断地通过边缘层通信设备上传至云端进行数据挖掘,大幅度增加了数据服务和云服务的成本,之后云端完成全局模型的更新。此时,由于本地用户等待时间较长,可能增加了数据泄露的风险。基于本发明的联邦智能电网用电预测系统可处理大规模分布式地处理各个用电用户上的数据。具体描述如下:
在一种实施例中,考虑分散的物理层和边缘层与云中心服务器形成的“星结构”,总体上,各用电用户在边缘服务器上使用其实时产生的数据进行机器学习模型训练,完成更新后,将模型上传至云中心服务器进行模型聚合操作,将聚合后的全局模型下传至各个用户。具体而言,用户发出服务请求指令给边缘层中的服务器,需要预测短期内的用电量,尽管在边缘服务器上也可进行模型训练任务,从而达到预测的目的,但由于各个用户用电情况各不相同,而各个用户的用电数据比较单一,因此需要结合云中心服务器和其他用户的用电信息,在云服务器的综合协助下进行用电预测,从而弥补单一数据带来的客户端偏差问题。首先,用户将各自的用电数据在本地边缘服务器上进行训练,具体而言,在边缘服务器在接收到用户服务请求指令后,请求云中心服务器传输全局模型与全局梯度,边缘服务器接收之后,标记为第一阶段并将全局模型赋予给本地模型,此时本地边缘服务器存储全局模型。本地模型更新时的路径可采用两种方式,第一种基于正则化的联邦学习优化方法,边缘服务器利用目前在存储器中的模型和梯度差值进行联邦学习优化方法更新,其中仅涉及到向量运算,因此复杂度较低;第二种基于对角化的二阶信息估计矩阵,由于仅涉及到向量运算,因此复杂度较第一种更低,且消耗存储更少。需注意,为加速算法收敛、提高通信效率,边缘服务器执行多次本地更新,之后将本地模型与本地梯度的更新量传输至云中心服务器。云中心服务器将在本轮全局更新中参与的边缘服务器上的更新量进行汇总聚合。接下来进行第二阶段,上一阶段参与更新的边缘服务器接收到全局模型和全局梯度,此时存储全局模型和全局梯度,与第一阶段类似的进行本地模型更新并将本地模型和本地梯度上传至云中心服务器,再将聚合所得的全局模型下发至边缘服务器进行存储。此时这些平台的边缘服务器具有全局模型和梯度的差值,可用于更新二阶信息估计矩阵。之后需注意的是,每轮云中心服务器进行全局更新时,各平台的边缘服务器计算力和带宽等各不相同,因此,云中心服务器在信息汇总时可能只有部分平台参与,此时,常用的联邦学习算法FedAvg将有较大的性能损失问题,而本发明由于全局梯度和包含有较为广泛的各个用户用电信息的二阶信息矩阵估计,因此具有快速的收敛速度和较低的带宽需求。
基于本发明的联邦智能电网用电预测系统,其中的人工智能模型具有一定的普遍性,即可用逻辑回归、支持向量机、深度神经网络和卷积神经网络等,只需保证各用户的本地模型参数结构相同,可快速达到更精准的用电需求预测。
基于相同的构思,本发明还提供一种联邦学习优化装置。
下面对本发明提供的联邦学习优化装置进行描述,下文描述的联邦学习优化装置与上文描述的联邦学习优化方法可相互对应参照。
图10是本发明提供的联邦学习优化装置的结构示意图之一。
在本发明一示例性实施例中,联邦学习优化装置可以应用于服务器端。结合图10可知,联邦学习优化装置可以包括第一模块1010至第六模块1060,下面将分别介绍各模块。
第一模块1010可以被配置为用于在当前轮次的联邦学习中,获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵,并将上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵下发至多个客户端。
第二模块1020可以被配置为用于接收客户端上传的本地梯度和本地模型,其中,本地模型基于上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到,本地梯度基于上一轮次全局模型计算得到。
第三模块1030可以被配置为用于分别基于本地梯度和本地模型对上一轮次全局梯度估计和上一轮次全局模型进行更新,得到第一次更新后全局梯度估计和第一次更新后全局模型。
第四模块1040可以被配置为用于将第一次更新后全局模型和第一次更新后全局梯度估计下发至客户端。
第五模块1050可以被配置为用于接收客户端上传的更新后本地梯度和更新后本地模型,其中,更新后本地模型基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到,更新后本地梯度基于第一次更新后全局模型计算得到。
第六模块1060可以被配置为用于分别基于更新后本地梯度和更新后本地模型对第一次更新后全局梯度估计和第一次更新后全局模型进行更新,得到第二次更新后全局梯度估计和第二次更新后全局模型,并将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端,用于下一轮次的联邦学习。
在本发明一示例性实施例中,第六模块1060还可以被配置为用于基于第二次更新后全局梯度估计和第一次更新后全局梯度估计的第一差值,以及第二次更新后全局模型和第一次更新后全局模型的第二差值,对上一轮次二阶信息估计矩阵进行更新,得到当前轮次二阶信息估计矩阵以及当前轮次二阶信息估计矩阵的逆矩阵;将当前轮次二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。
在本发明一示例性实施例中,第三模块1030可以采用以下方式基于本地梯度对上一轮次全局梯度估计进行更新,得到第一次更新后全局梯度估计:基于本地梯度得到本地梯度的无偏估计;基于本地梯度的无偏估计,确定上一轮次全局梯度估计在客户端的更新估计;基于更新估计,得到第一次更新后全局梯度估计。
在本发明一示例性实施例中,第六模块1060可以采用以下公式基于更新后本地梯度对第一次更新后全局梯度估计进行更新,得到第二次更新后全局梯度估计:
Figure BDA0003857552920000331
其中,φ+表示第二次更新后全局梯度估计;N表示客户端的数量;
Figure BDA0003857552920000332
表示更新后本地梯度;φi表示本地梯度;
Figure BDA0003857552920000333
表示客户端i的本地损失函数的梯度;
Figure BDA0003857552920000334
表示本轮参与更新的客户端集合;xr表示上一轮次全局模型;r表示轮次;x表示全局模型。
在本发明一示例性实施例中,第六模块1060还可以被配置为用于:对第一差值进行正则化处理,得到正则化处理后第一差值;基于正则化处理后第一差值和第二差值,得到当前轮次二阶信息估计矩阵的逆矩阵。
在本发明一示例性实施例中,第六模块1060可以采用以下公式对第一差值进行正则化处理,得到正则化处理后第一差值:
Figure BDA0003857552920000335
其中,
Figure BDA0003857552920000336
表示正则化处理后第一差值;
Figure BDA0003857552920000337
表示第一差值;
Figure BDA0003857552920000338
表示第二差值;δ和γ为正实数并满足0.8δ>γ,
Figure BDA0003857552920000339
采用如下公式确定:
Figure BDA0003857552920000341
Figure BDA0003857552920000342
采用以下公式确定:
Figure BDA0003857552920000343
β表示预设正常数,β表示
Figure BDA0003857552920000344
的下界,即τj>β。
在本发明一示例性实施例中,第六模块960还可以被配置为用于:基于第二次更新后全局梯度估计和第一次更新后全局梯度估计的第一差值,以及第二次更新后全局模型和第一次更新后全局模型的第二差值,得到对角化二阶信息估计矩阵,并将对角化二阶信息估计矩阵作为当前轮次二阶信息估计矩阵,以实现对所述当前轮次二阶信息估计矩阵的稀疏化处理;将对角化二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。
在本发明一示例性实施例中,第六模块1060可以采用以下公式基于第二次更新后全局梯度估计和第一次更新后全局梯度估计的第一差值,以及第二次更新后全局模型和第一次更新后全局模型的第二差值,得到对角化二阶信息估计矩阵:
Figure BDA0003857552920000345
其中,
Figure BDA0003857552920000346
表示对角化二阶信息估计矩阵;
Figure BDA0003857552920000347
表示上一轮次的对角化二阶信息估计矩阵;
Figure BDA0003857552920000348
表示第一差值;
Figure BDA0003857552920000349
表示第二差值。
基于相同的构思,本发明还提供另一种联邦学习优化装置。
下面对本发明提供的联邦学习优化装置进行描述,下文描述的联邦学习优化装置与上文描述的联邦学习优化方法可相互对应参照。
图11是本发明提供的联邦学习优化装置的结构示意图之二。
在本发明一示例性实施例中,联邦学习优化装置可以应用于客户器端。结合图11可知,联邦学习优化装置可以包括第七模块1110至第十三模块1170,下面将分别介绍各模块。
第七模块1110可以被配置为用于在当前轮次的联邦学习中,获取服务器端下发的上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵。
第八模块1120可以被配置为用于基于上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到本地模型,以及基于上一轮次全局模型计算得到本地梯度。
第九模块1130可以被配置为用于将本地模型和本地梯度发送至服务器端。
第十模块1140可以被配置为用于接收服务器端下发的第一次更新后全局模型和第一次更新后全局梯度估计,其中,第一次更新后全局模型和第一次更新后全局梯度估计分别基于本地模型和本地梯度得到。
第十一模块1150可以被配置为用于基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到更新后本地模型,以及基于第一次更新后全局模型计算得到更新后本地梯度。
第十二模块1160可以被配置为用于将更新后本地梯度和更新后本地模型发送至服务器端。
第十三模块1170可以被配置为用于接收服务器端下发的第二次更新后全局模型和第二次更新后全局梯度估计,用于下一轮次的联邦学习,其中,第二次更新后全局模型和第二次更新后全局梯度估计分别基于更新后本地模型和更新后本地梯度得到。
图12示例了一种电子设备的实体结构示意图,如图12所示,该电子设备可以包括:处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240,其中,处理器1210,通信接口1220,存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令,以执行联邦学习优化方法,其中,所述方法应用于服务器端,该方法包括:在当前轮次的联邦学习中,获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵,并将上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵下发至多个客户端;接收客户端上传的本地梯度和本地模型,其中,本地模型基于上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到,本地梯度基于上一轮次全局模型计算得到;分别基于本地梯度和本地模型对上一轮次全局梯度估计和上一轮次全局模型进行更新,得到第一次更新后全局梯度估计和第一次更新后全局模型;将第一次更新后全局模型和第一次更新后全局梯度估计下发至客户端;接收客户端上传的更新后本地梯度和更新后本地模型,其中,更新后本地模型基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到,更新后本地梯度基于第一次更新后全局模型计算得到;分别基于更新后本地梯度和更新后本地模型对第一次更新后全局梯度估计和第一次更新后全局模型进行更新,得到第二次更新后全局梯度估计和第二次更新后全局模型,并将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端,用于下一轮次的联邦学习。
此外,上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的联邦学习优化方法,其中,所述方法应用于服务器端,该方法包括:在当前轮次的联邦学习中,获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵,并将上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵下发至多个客户端;接收客户端上传的本地梯度和本地模型,其中,本地模型基于上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到,本地梯度基于上一轮次全局模型计算得到;分别基于本地梯度和本地模型对上一轮次全局梯度估计和上一轮次全局模型进行更新,得到第一次更新后全局梯度估计和第一次更新后全局模型;将第一次更新后全局模型和第一次更新后全局梯度估计下发至客户端;接收客户端上传的更新后本地梯度和更新后本地模型,其中,更新后本地模型基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到,更新后本地梯度基于第一次更新后全局模型计算得到;分别基于更新后本地梯度和更新后本地模型对第一次更新后全局梯度估计和第一次更新后全局模型进行更新,得到第二次更新后全局梯度估计和第二次更新后全局模型,并将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端,用于下一轮次的联邦学习。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的联邦学习优化方法,其中,所述方法应用于服务器端,该方法包括:在当前轮次的联邦学习中,获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵,并将上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵下发至多个客户端;接收客户端上传的本地梯度和本地模型,其中,本地模型基于上一轮次全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到,本地梯度基于上一轮次全局模型计算得到;分别基于本地梯度和本地模型对上一轮次全局梯度估计和上一轮次全局模型进行更新,得到第一次更新后全局梯度估计和第一次更新后全局模型;将第一次更新后全局模型和第一次更新后全局梯度估计下发至客户端;接收客户端上传的更新后本地梯度和更新后本地模型,其中,更新后本地模型基于第一次更新后全局梯度估计和上一轮次二阶信息估计矩阵的逆矩阵更新得到,更新后本地梯度基于第一次更新后全局模型计算得到;分别基于更新后本地梯度和更新后本地模型对第一次更新后全局梯度估计和第一次更新后全局模型进行更新,得到第二次更新后全局梯度估计和第二次更新后全局模型,并将第二次更新后全局模型和第二次更新后全局梯度估计下发至客户端,用于下一轮次的联邦学习。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
进一步可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种联邦学习优化方法,其特征在于,所述方法应用于服务器端,所述方法包括:
在当前轮次的联邦学习中,获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵,并将所述上一轮次全局模型、所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵下发至多个客户端;
接收所述客户端上传的本地梯度和本地模型,其中,所述本地模型基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到,所述本地梯度基于所述上一轮次全局模型计算得到;
分别基于所述本地梯度和所述本地模型对所述上一轮次全局梯度估计和所述上一轮次全局模型进行更新,得到第一次更新后全局梯度估计和第一次更新后全局模型;
将所述第一次更新后全局模型和所述第一次更新后全局梯度估计下发至所述客户端;
接收所述客户端上传的更新后本地梯度和更新后本地模型,其中,所述更新后本地模型基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到,所述更新后本地梯度基于所述第一次更新后全局模型计算得到;
分别基于所述更新后本地梯度和所述更新后本地模型对所述第一次更新后全局梯度估计和所述第一次更新后全局模型进行更新,得到第二次更新后全局梯度估计和第二次更新后全局模型,并将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端,用于下一轮次的联邦学习。
2.根据权利要求1所述的联邦学习优化方法,其特征在于,在将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端之后,所述方法还包括:
基于所述第二次更新后全局梯度估计和所述第一次更新后全局梯度估计的第一差值,以及所述第二次更新后全局模型和所述第一次更新后全局模型的第二差值,对所述上一轮次二阶信息估计矩阵进行更新,得到当前轮次二阶信息估计矩阵以及所述当前轮次二阶信息估计矩阵的逆矩阵;
将所述当前轮次二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。
3.根据权利要求1所述的联邦学习优化方法,其特征在于,所述基于所述本地梯度对所述上一轮次全局梯度估计进行更新,得到第一次更新后全局梯度估计,包括:
基于所述本地梯度得到所述本地梯度的无偏估计;
基于所述本地梯度的无偏估计,确定所述上一轮次全局梯度估计在所述客户端的更新估计;
基于所述更新估计,得到所述第一次更新后全局梯度估计。
4.根据权利要求3所述的联邦学习优化方法,其特征在于,所述基于所述更新后本地梯度对所述第一次更新后全局梯度估计进行更新,得到第二次更新后全局梯度估计采用以下公式确定:
Figure FDA0003857552910000021
其中
Figure FDA0003857552910000022
其中,φ+表示所述第二次更新后全局梯度估计;N表示所述客户端的数量;
Figure FDA0003857552910000023
表示所述更新后本地梯度;φi表示所述本地梯度;
Figure FDA0003857552910000024
表示客户端i的本地损失函数的梯度;
Figure FDA0003857552910000025
表示本轮参与更新的客户端集合;xr表示所述上一轮次全局模型;r表示轮次;x表示全局模型。
5.根据权利要求2所述的联邦学习优化方法,其特征在于,在所述将所述当前轮次二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵之前,所述方法还包括:
对所述第一差值进行正则化处理,得到正则化处理后第一差值;
基于所述正则化处理后第一差值和所述第二差值,得到当前轮次二阶信息估计矩阵的逆矩阵。
6.根据权利要求5所述的联邦学习优化方法,其特征在于,所述对所述第一差值进行正则化处理,得到正则化处理后第一差值采用以下公式确定:
Figure FDA0003857552910000031
其中,
Figure FDA0003857552910000032
表示所述正则化处理后第一差值;
Figure FDA0003857552910000033
表示所述第一差值;
Figure FDA0003857552910000034
表示所述第二差值;δ和γ为正实数并满足0.8δ>γ,
Figure FDA0003857552910000035
采用如下公式确定:
Figure FDA0003857552910000036
Figure FDA0003857552910000037
采用以下公式确定:
Figure FDA0003857552910000038
β表示预设正常数,β表示
Figure FDA0003857552910000039
的下界,即τj>β。
7.根据权利要求1所述的联邦学习优化方法,其特征在于,在将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端之后,所述方法还包括:
基于所述第二次更新后全局梯度估计和所述第一次更新后全局梯度估计的第一差值,以及所述第二次更新后全局模型和所述第一次更新后全局模型的第二差值,得到对角化二阶信息估计矩阵,并将所述对角化二阶信息估计矩阵作为当前轮次二阶信息估计矩阵,以实现对所述当前轮次二阶信息估计矩阵的稀疏化处理;
将所述对角化二阶信息估计矩阵的逆矩阵作为下一轮次联邦学习中的上一轮次二阶信息估计矩阵的逆矩阵。
8.根据权利要求7所述的联邦学习优化方法,其特征在于,所述基于所述第二次更新后全局梯度估计和所述第一次更新后全局梯度估计的第一差值,以及所述第二次更新后全局模型和所述第一次更新后全局模型的第二差值,得到对角化二阶信息估计矩阵采用以下公式确定:
Figure FDA0003857552910000041
其中,
Figure FDA0003857552910000042
表示所述对角化二阶信息估计矩阵;
Figure FDA0003857552910000043
表示上一轮次的对角化二阶信息估计矩阵;
Figure FDA0003857552910000044
表示所述第一差值;
Figure FDA0003857552910000045
表示所述第二差值。
9.一种联邦学习优化方法,其特征在于,所述方法应用于客户端,所述方法包括:
在当前轮次的联邦学习中,获取服务器端下发的上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵;
基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到本地模型,以及基于所述上一轮次全局模型计算得到本地梯度;
将所述本地模型和所述本地梯度发送至所述服务器端;
接收所述服务器端下发的第一次更新后全局模型和第一次更新后全局梯度估计,其中,所述第一次更新后全局模型和所述第一次更新后全局梯度估计分别基于所述本地模型和所述本地梯度得到;
基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到更新后本地模型,以及基于所述第一次更新后全局模型计算得到更新后本地梯度;
将所述更新后本地梯度和所述更新后本地模型发送至服务器端;
接收所述服务器端下发的第二次更新后全局模型和第二次更新后全局梯度估计,用于下一轮次的联邦学习,其中,所述第二次更新后全局模型和所述第二次更新后全局梯度估计分别基于所述更新后本地模型和所述更新后本地梯度得到。
10.一种联邦学习优化装置,其特征在于,所述装置应用于服务器端,所述装置包括:
第一模块,用于在当前轮次的联邦学习中,获取上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵,并将所述上一轮次全局模型、所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵下发至多个客户端;
第二模块,用于接收所述客户端上传的本地梯度和本地模型,其中,所述本地模型基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到,所述本地梯度基于所述上一轮次全局模型计算得到;
第三模块,用于分别基于所述本地梯度和所述本地模型对所述上一轮次全局梯度估计和所述上一轮次全局模型进行更新,得到第一次更新后全局梯度估计和第一次更新后全局模型;
第四模块,用于将所述第一次更新后全局模型和所述第一次更新后全局梯度估计下发至所述客户端;
第五模块,用于接收所述客户端上传的更新后本地梯度和更新后本地模型,其中,所述更新后本地模型基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到,所述更新后本地梯度基于所述第一次更新后全局模型计算得到;
第六模块,用于分别基于所述更新后本地梯度和所述更新后本地模型对所述第一次更新后全局梯度估计和所述第一次更新后全局模型进行更新,得到第二次更新后全局梯度估计和第二次更新后全局模型,并将所述第二次更新后全局模型和所述第二次更新后全局梯度估计下发至所述客户端,用于下一轮次的联邦学习。
11.一种联邦学习优化装置,其特征在于,所述装置应用于客户端,所述装置包括:
第七模块,用于在当前轮次的联邦学习中,获取服务器端下发的上一轮次全局模型、上一轮次全局梯度估计和上一轮次二阶信息估计矩阵;
第八模块,用于基于所述上一轮次全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到本地模型,以及基于所述上一轮次全局模型计算得到本地梯度;
第九模块,用于将所述本地模型和所述本地梯度发送至所述服务器端;
第十模块,用于接收所述服务器端下发的第一次更新后全局模型和第一次更新后全局梯度估计,其中,所述第一次更新后全局模型和所述第一次更新后全局梯度估计分别基于所述本地模型和所述本地梯度得到;
第十一模块,用于基于所述第一次更新后全局梯度估计和所述上一轮次二阶信息估计矩阵的逆矩阵更新得到更新后本地模型,以及基于所述第一次更新后全局模型计算得到更新后本地梯度;
第十二模块,用于将所述更新后本地梯度和所述更新后本地模型发送至服务器端;
第十三模块,用于接收所述服务器端下发的第二次更新后全局模型和第二次更新后全局梯度估计,用于下一轮次的联邦学习,其中,所述第二次更新后全局模型和所述第二次更新后全局梯度估计分别基于所述更新后本地模型和所述更新后本地梯度得到。
12.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至9任一项所述的联邦学习优化方法。
13.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的联邦学习优化方法。
14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的联邦学习优化方法。
CN202211153907.2A 2022-09-21 2022-09-21 联邦学习优化方法、装置、电子设备及存储介质 Active CN115618960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211153907.2A CN115618960B (zh) 2022-09-21 2022-09-21 联邦学习优化方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211153907.2A CN115618960B (zh) 2022-09-21 2022-09-21 联邦学习优化方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115618960A true CN115618960A (zh) 2023-01-17
CN115618960B CN115618960B (zh) 2024-04-19

Family

ID=84858552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211153907.2A Active CN115618960B (zh) 2022-09-21 2022-09-21 联邦学习优化方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115618960B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118586443A (zh) * 2024-08-08 2024-09-03 中国人民解放军国防科技大学 一种防范维度坍塌的分布式模型聚合方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190012592A1 (en) * 2017-07-07 2019-01-10 Pointr Data Inc. Secure federated neural networks
CN112990488A (zh) * 2021-03-16 2021-06-18 香港理工大学深圳研究院 一种基于机器异构性的联邦学习方法
CN113139662A (zh) * 2021-04-23 2021-07-20 深圳市大数据研究院 联邦学习的全局及局部梯度处理方法、装置、设备和介质
WO2021247066A1 (en) * 2020-06-05 2021-12-09 Google Llc Server efficient enhancement of privacy in federated learning
CN114580498A (zh) * 2022-01-26 2022-06-03 华东师范大学 一种无线通信场景下高通信效率的联邦学习方法
CN114611720A (zh) * 2022-03-14 2022-06-10 北京字节跳动网络技术有限公司 联邦学习模型训练方法、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190012592A1 (en) * 2017-07-07 2019-01-10 Pointr Data Inc. Secure federated neural networks
WO2021247066A1 (en) * 2020-06-05 2021-12-09 Google Llc Server efficient enhancement of privacy in federated learning
CN112990488A (zh) * 2021-03-16 2021-06-18 香港理工大学深圳研究院 一种基于机器异构性的联邦学习方法
CN113139662A (zh) * 2021-04-23 2021-07-20 深圳市大数据研究院 联邦学习的全局及局部梯度处理方法、装置、设备和介质
CN114580498A (zh) * 2022-01-26 2022-06-03 华东师范大学 一种无线通信场景下高通信效率的联邦学习方法
CN114611720A (zh) * 2022-03-14 2022-06-10 北京字节跳动网络技术有限公司 联邦学习模型训练方法、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XINGYU LI.ET.: "FedLGA: Towards System-Heterogeneity of Federated Learning via Local Gradient Approximation", 《ARXIV:2112.11989V1》, 22 December 2021 (2021-12-22), pages 1 - 24 *
刘艺璇等: "联邦学习中的隐私保护技术", 《软件学报》, vol. 33, no. 3, 31 March 2022 (2022-03-31), pages 1057 - 1092 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118586443A (zh) * 2024-08-08 2024-09-03 中国人民解放军国防科技大学 一种防范维度坍塌的分布式模型聚合方法及系统

Also Published As

Publication number Publication date
CN115618960B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN113435604B (zh) 一种联邦学习优化方法及装置
Luo et al. Cost-effective federated learning design
CN111091199B (zh) 一种基于差分隐私的联邦学习方法、装置及存储介质
US20200097841A1 (en) Systems and methods for processing vehicle data
KR20200031163A (ko) 신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체
CN115408151A (zh) 一种联邦学习训练加速方法
US8352215B2 (en) Computer-implemented distributed iteratively reweighted least squares system and method
WO2022160604A1 (en) Servers, methods and systems for second order federated learning
CN113377797B (zh) 联合更新模型的方法、装置及系统
US20220188851A1 (en) Multi-objective distributional reinforcement learning for large-scale order dispatching
CN106875211A (zh) 一种云计算环境中基于用户感知价值的最优服务定价方法
CN110992432B (zh) 基于深度神经网络最小方差梯度量化压缩及图像处理方法
CN115618960B (zh) 联邦学习优化方法、装置、电子设备及存储介质
CN116050509A (zh) 基于动量梯度下降的聚类联邦学习方法
CN114676838A (zh) 联合更新模型的方法及装置
Li et al. Model-distributed dnn training for memory-constrained edge computing devices
CN116776155A (zh) 一种基于联邦学习的模型训练方法、装置、设备和介质
CN118055078A (zh) 一种基于多目标优化的数字孪生边缘资源分配算法
Li et al. Communication-efficient stochastic gradient MCMC for neural networks
CN115660116A (zh) 基于稀疏适配器的联邦学习方法及系统
Fan et al. Fedhql: Federated heterogeneous q-learning
CN108595272B (zh) 一种请求分发方法和装置、计算机可读存储介质
CN117151195A (zh) 基于求逆归一化的模型优化方法、装置、设备和介质
Chen et al. Federated learning with infrastructure resource limitations in vehicular object detection
CN112165402A (zh) 一种网络安全态势预测的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant