CN117390448A

CN117390448A - 一种用于云际联邦学习的客户端模型聚合方法及相关系统

Info

Publication number: CN117390448A
Application number: CN202311396231.4A
Authority: CN
Inventors: 言浬; 岳高峰
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-01-12
Anticipated expiration: 2043-10-25
Also published as: CN117390448B

Abstract

本发明公开了一种用于云际联邦学习的客户端模型聚合方法及相关系统，在每一轮联邦学习训练中云服务商在本地完成本地模型的训练，利用训练得到的模型参数进行组内和组间模型参数的差异性计算，然后计算组间差异与组内差异之间的绝对差距得到差异因子。根据确定的收敛阈值选择差异因子大于阈值的客户端参与下一轮联邦学习训练；解决了现有分布式云际计算缺乏隐私保护，在高异构客户端的云际联邦学习模型训练中，收敛效率和模型精度低下的问题。通过在每一轮联邦学习训练中筛选有益于加速模型收敛的客户端参与训练，本发明能实现高效的全局模型聚合，同时分别适配中心服务端及各个云服务商模型的训练数据和系统性能，保证模型的准确性和训练效率。

Description

一种用于云际联邦学习的客户端模型聚合方法及相关系统

技术领域

本发明属于云际计算管理技术领域，具体涉及一种用于云际联邦学习的客户端模型聚合方法及相关系统。

背景技术

随着云计算技术的不断发展，云际计算逐渐成为一种新型的计算模式。与传统的云计算相比，云际计算可以更好地支持云服务提供者之间开放协作、多方云资源深度融合。然而，随着云际计算技术的发展，数据隐私保护问题也愈发凸显。在联邦云际计算中，数据分别被不同云服务商持有，云服务商之间并不进行数据交换，因此数据隐私得到了较好保护。但是，由于不同云服务商在训练数据和系统能力上具有高度异构性，让所有云服务商模型参与每一轮联邦学习训练会极大地降低模型训练收敛效率(即Straggler Problem)，且容易造成模型偏移问题(即Client Drift)，从而降低训练模型的精度。因此，如何在保护云际联邦学习隐私的前提下，加快全局模型训练的收敛速度和提高模型精度是一个亟待解决的问题。

发明内容

本发明的目的在于提供一种用于云际联邦学习的客户端模型聚合方法及系统，以克服现有分布式云际计算缺乏隐私保护，以及在高异构客户端的云际联邦学习模型训练中，收敛效率和模型精度低下的问题。

一种用于云际联邦学习的客户端模型聚合方法，包括以下步骤：

S1，对各云服务商进行模型参数初始化，然后利用云服务商各自的私有数据分别对各云服务商的本地模型进行机器学习训练，得到各云服务商的本地模型参数；

S2，计算每一个云服务商相邻两次训练得到的本地模型参数的组内差异，同时计算各云服务商之间当前模型参数的组间差异；

S3，根据获取的本地模型参数的组内差异和组间差异，计算各云服务商模型参数的组间差异与组内差异之间的绝对差距，得到差异因子；

S4，采用随机梯度下降模型更新方法计算各云服务商的本地模型梯度和全局模型梯度；计算各个云服务商的本地模型梯度与全局模型梯度的误差平方和，以获取的误差平方和作为收敛阈值；

S5，选择差异因子不低于收敛阈值的云服务商参与下一轮联邦学习训练，完成云际联邦学习的客户端模型聚合。

优选的，中心服务器计算各云服务商自身相邻两次训练得到的本地模型参数的组内差异，具体为：Δω_i(τ)＝ω_i(τ)-ω_i(τ-1)。优选的，各服务商之间关于当前训练得到的本地模型参数的组间差异，具体为：

优选的，通过计算各云服务商的组间差异与组内差异之间的绝对差距得到差异因子，具体为

优选的，采用随机梯度下降模型更新方法计算各云服务商的本地模型梯度/>和全局模型梯度/>

优选的，各个云服务商的本地模型梯度与全局模型梯度的误差平方和为：

一种用于云际联邦学习的客户端模型聚合系统，包括云服务商，通信模块和中心服务器；

中心服务器，用于对各云服务商进行模型参数初始化，然后利用云服务商各自的私有数据分别对各云服务商的本地模型进行机器学习训练，得到各云服务商的本地模型参数；云服务商通过通信模块将训练后各自得到的本地模型参数传输至中心服务器；

中心服务器根据云服务商的本地模型参数计算每一个云服务商相邻两次训练得到的本地模型参数的组内差异，同时计算各云服务商之间当前模型参数的组间差异；

中心服务器根据获取的本地模型参数的组内差异和组间差异，计算各云服务商的组间差异与组内差异之间的绝对差距，得到差异因子；采用随机梯度下降模型更新方法计算各云服务商模型的本地模型梯度和全局模型梯度；计算各个云服务商的本地模型梯度与全局模型梯度的误差平方和，以获取的误差平方和作为收敛阈值；选择差异因子不低于收敛阈值的云服务商参与下一轮联邦学习训练，完成云际联邦学习的客户端模型聚合。

优选的，中心服务器包括组内差异模块、组间差异模块、差异因子模块、阈值计算模块和比较选择模块；

组内差异模块用于根据云服务商的本地模型参数计算该云服务商相邻两次训练得到的本地模型参数的组内差异；

组间差异模块用于计算各服务商之间关于当前训练得到的本地模型参数的组间差异；

差异因子模块用于根据获取的本地模型参数的组内差异和组间差异，计算各云服务商的组间差异与组内差异之间的绝对差距，得到差异因子；

阈值计算模块用于计算各云服务商的本地模型梯度以及全局模型梯度，以及各个云服务商的本地模型梯度与全局模型梯度的误差平方和作为收敛阈值；

比较选择模块用于选择差异因子不低于收敛阈值的云服务商参与下一轮联邦学习训练，完成云际联邦学习的客户端模型聚合。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述用于云际联邦学习的客户端模型聚合方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述用于云际联邦学习的客户端模型聚合方法的步骤。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供一种用于云际联邦学习的客户端模型聚合方法，在每一轮联邦学习训练中，云服务商在本地完成本地模型的训练，通过通信模块将模型参数上传到中心服务器，然后利用上传的模型参数进行组内和组间模型参数的差异性计算，并将两者合并成为差异因子；同时，根据所有云服务商的本地模型梯度与全局模型梯度的误差平方和确定收敛阈值，最后，选择差异因子大于收敛阈值的客户端参与下一轮联邦学习训练。本发明解决了现有分布式云际计算缺乏隐私保护，以及在高异构客户端的云际联邦学习模型训练中，收敛效率和模型精度低下的问题。通过在每一轮联邦学习训练中筛选有益于加速模型收敛的客户端参与训练，本发明可以实现高效的全局模型聚合，同时分别适配中心服务端及各个云服务商模型的训练数据和系统性能，保证模型的准确性和训练效率。

附图说明

图1为本发明实施例中用于云际联邦学习的客户端模型聚合方法流程示意图。

图2为本发明实施例中用于云际联邦学习的客户端模型聚合系统图。

图3为本发明实施例中用于云际联邦学习使用具体云服务商系统图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供一种用于云际联邦学习的客户端模型聚合方法，旨在解决现有分布式云际计算缺乏隐私保护，以及在高异构客户端的云际联邦学习模型训练中，收敛效率和模型精度低下的问题，本发明以中心服务器为数据处理聚合端进行阐述，具体包括以下步骤：

S1，中心服务器对参与训练的各云服务商进行本地模型参数初始化；模型参数初始化后，各云服务商利用各自私有数据对各自的本地模型进行机器学习训练；各云服务商完成对各自的本地模型训练后，将得到的本地模型参数ω_i(τ)传输至中心服务器；

S2，中心服务器计算各云服务商自身相邻两次训练得到的本地模型参数的组内差异Δω_i(τ)＝ω_i(τ)-ω_i(τ-1)，并且计算各云服务商之间关于当前训练得到的本地模型参数的组间差异

τ为训练轮次；ω_i(τ)表示第i个云服务商在完成第τ轮训练后得到的本地模型参数；ω_i(τ-1)表示第i个云服务商在完成第τ-1轮训练后得到的本地模型参数；

S3，中心服务器根据获取的本地模型参数的组内差异和组间差异，计算各云服务商的组间差异与组内差异之间的绝对差距，得到差异因子

S4，通过采用随机梯度下降模型更新方法中心服务器计算各云服务商的本地模型梯度/>和全局模型梯度/>

其中，ω_i(τ)和ω_j(τ)分别代表第i个和第j个云服务商在完成第τ轮训练后得到本地模型参数，n表示云服务商的总数；

S5，基于各云服务商的本地模型梯度，中心服务器计算各个云服务商的本地模型梯度与全局模型梯度的误差平方和并以之作为收敛阈值；

S6，选择差异因子值不低于收敛阈值/>的云服务商(即参与下一轮联邦学习训练，完成云际联邦学习的客户端模型聚合。

在本发明的具体实施方式中：

S1，在每一轮联邦学习的客户端模型聚合训练中，各云服务商11以中心服务器36下发的初始化模型参数为基础，各云服务商11利用各自的私有数据完成本地模型12的机器学习训练；待学习训练结束后，云服务商11将得到的本地模型参数通过通信模块2传输至中心服务器36；

S2，中心服务器36在收到各云服务商11上传的模型参数后，首先计算各云服务商本次模型参数与上一次训练所得模型参数的组内差异，以及各个云服务商的本次模型参数之间的组间差异；然后，中心服务器36利用差异因子模块33将每个云服务商的模型12按照组内组间模型差异进行整合；同时，中心服务器36利用阈值计算模块34计算所有云服务商的本地模型12的模型梯度与全局模型梯度的误差平方和，以得到的误差平方和作为收敛阈值；最后，中心服务器36利用比较选择模块35筛选差异因子大于等于收敛阈值的云服务商参与下一轮联邦学习训练，实现云际联邦学习的高效模型聚合。定义中心服务器36下发的初始化全局模型为ω_g，本地云服务商11接受到全局模型ω_g后进行本地模型12的训练，形成完整的本地训练端1；当每个本地云服务商11完成本地模型12的训练后，本地云服务商11通过通信模块2上传其训练中产生的梯度信息到中心服务器36。

中心服务器36在接受到本地云服务商11上传的梯度信息后，结合初始化全局模型ω_g转化为本地模型12的模型参数ω_i以及损失值l_i(ω_i)。

中心服务器36包括组内差异模块31和组间差异模块32，分别用于计算组内差异和组间差异。具体地说，经过连续两次本地模型的机器学习训练，中心服务器36利用组内差异模块计算第i个云服务商模型的组内模型差异Δω_i(τ)，以及其与其他云服务商模型之间的最大组间差异

Δω_i(τ)＝ω_i(τ)-ω_i(τ-1)，

ω_i和ω_j分别代表第i个和第j个云服务商模型的本地模型参数，n表示云服务商模型的总数，τ代表训练轮次。

中心服务器36的差异因子模块33会将计算得到的本地模型12的组间差异和组内差异进行整合总结，得到差异因子值

中心服务器36的阈值计算模块34计算各个云服务商的本地模型梯度与全局模型梯度的误差平方和，将其作为筛选参与训练的云服务商的收敛阈值：

和/>分别代表第i个云服务商的本地模型梯度和全局模型梯度。

中心服务器36的比较选择模块35将筛选出差异因子值不低于收敛阈值的云服务商(即/>这些云服务商的模型参数更新速度落后于全局模型更新速度)，参与下一轮模型聚合。

在本发明一个实施例中，如图2所示，提供一种用于云际联邦学习的客户端模型聚合系统，包括云服务商，通信模块和中心服务器；

中心服务器，用于对各云服务商的本地模型进行模型参数初始化，然后利用云服务商各自的私有数据分别对各云服务商的本地模型进行机器学习训练，得到各云服务商的本地模型参数；云服务商通过通信模块将训练后各自得到的本地模型参数传输至中心服务器；

中心服务器根据云服务商的本地模型参数计算该云服务商相邻两次训练得到的本地模型参数的组内差异，同时计算各服务商之间关于当前训练得到的本地模型参数的组间差异；

中心服务器根据获取的本地模型参数的组内差异和组间差异，计算各云服务商的组间差异与组内差异之间的绝对差距，得到差异因子；采用随机梯度下降模型更新方法计算各云服务商的本地模型梯度和全局模型梯度；计算各个云服务商的本地模型梯度与全局模型梯度的误差平方和，以获取的误差平方和作为收敛阈值；选择差异因子不低于收敛阈值的云服务商参与下一轮联邦学习训练，完成云际联邦学习的客户端模型聚合。

在本发明另一个实施例中，如图3所示，提供一种用于云际联邦学习的客户端模型聚合系统，包括云服务商，通信模块和中心服务器；其中所述云服务商包括阿里云、百度云、腾讯云和华为云。

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于云际联邦学习的客户端模型聚合方法的操作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中用于云际联邦学习的客户端模型聚合方法的相应步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种用于云际联邦学习的客户端模型聚合方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于云际联邦学习的客户端模型聚合方法，其特征在于，中心服务器计算各云服务商自身相邻两次训练得到的本地模型参数的组内差异，具体为：Δω_i(τ)＝ω_i(τ)-ω_i(τ-1)，其中，τ为训练轮次；ω_i(τ)表示第i个云服务商在完成第τ轮训练后得到的本地模型参数；ω_i(τ-1)表示第i个云服务商在完成第τ-1轮训练后得到的本地模型参数。

3.根据权利要求1所述的一种用于云际联邦学习的客户端模型聚合方法，其特征在于，各服务商之间关于当前训练得到的本地模型参数的组间差异，具体为：其中，ω_i(τ)和ω_j(τ)分别代表第i个和第j个云服务商在完成第τ轮训练后得到本地模型参数，n表示云服务商的总数。

4.根据权利要求1所述的一种用于云际联邦学习的客户端模型聚合方法，其特征在于，通过计算各云服务商的组间差异与组内差异之间的绝对差距得到差异因子，具体为：

5.根据权利要求1所述的一种用于云际联邦学习的客户端模型聚合方法，其特征在于，采用随机梯度下降模型更新方法计算各云服务商的本地模型梯度/>和全局模型梯度/>

6.根据权利要求1所述的一种用于云际联邦学习的客户端模型聚合方法，其特征在于，各个云服务商的本地模型梯度与全局模型梯度的误差平方和为：

7.一种用于云际联邦学习的客户端模型聚合系统，其特征在于，包括云服务商，通信模块和中心服务器；

8.根据权利要求7所述的一种用于云际联邦学习的客户端模型聚合系统，其特征在于，中心服务器包括组内差异模块、组间差异模块、差异因子模块、阈值计算模块和比较选择模块；

组间差异模块用于计算各云服务商之间关于当前训练得到的本地模型参数的组间差异；

阈值计算模块用于计算各云服务商的本地模型梯度和全局模型梯度，以及各个云服务商的本地模型梯度与全局模型梯度的误差平方和作为收敛阈值；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述用于云际联邦学习的客户端模型聚合方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述用于云际联邦学习的客户端模型聚合方法的步骤。