CN115018086A

CN115018086A - 一种基于联邦学习的模型训练方法及联邦学习系统

Info

Publication number: CN115018086A
Application number: CN202210642937.3A
Authority: CN
Inventors: 唐斌; 徐佳俐; 叶保留
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-09-06
Anticipated expiration: 2042-06-08
Also published as: CN115018086B

Abstract

本发明公开了一种基于联邦学习的模型训练方法及联邦学习系统，所述方法包括：客户向中央服务器提交一组投标，包括客户可参与训练的最大数据量和单位数据成本；中央服务器设立参数提交的截止时间T，收到投标后根据动态规划，以期望社会福利最大化为目的，在伪多项式时间内得出选择什么客户和选择客户的多少数据量，将客户选择方案下发；客户训练完成后向中央服务器上报更新参数；中央服务器收到客户更新的参数后基于VCG机制对其进行奖励。本发明考虑了客户训练时间的不确定性和中央服务器选择数据的机动性，激励方法并不会影响到模型的训练效率，还会达到公平的激励效果，最终提升模型的精确度。

Description

一种基于联邦学习的模型训练方法及联邦学习系统

技术领域

本发明涉及大数据计算领域，具体涉及一种基于联邦学习的模型训练方法及联邦学习系统。

背景技术

联邦学习(Federal Learning，FL)可在数据不共享的状况下完成联合建模。在联邦学习中，机器学习任务是由参与设备(也称之为客户端，或简称为客户)的松散联合体解决的，中央服务器对这些设备进行协调。其最重要的特性就是去除了传统的集中式机器学习的收集和存储数据的过程，降低机器学习带来的许多系统性隐私风险。联邦学习可以实现保证本地训练数据不公开的前提下，多个数据拥有者协同训练一个共享的机器学习的模型。它们只需迭代地将训练的本地模型更新发送到任务发布者，而无需将原始数据上传到外部，从而将机器学习的过程与在中央服务器中获取、存储和训练数据分离。

尽管联邦学习可以支持协作学习的同时保护数据隐私，但是所有客户不会无条件地贡献其资源，一方面拥有的数据本身具有价值性；另一方面，参与训练需要消耗自己设备的电量。因此，构建一种合适的奖励机制能够鼓励客户参与到学习中来具有重要意义。

为了使联邦学习可以长期有效地进行，很多应用也采用了不同的方法进行激励。针对客户自身方案，可以自行选择服务器提供的合同，或者主动报告自己的出价。中央服务器根据客户的方案，依据自己的目标制定客户的选择和奖励方案，从而在一定程度上解决联邦学习中的激励问题。

一般针对联邦学习中的激励方法主要集中在考虑所需的资源量、本地精度、信道冲突和相应的能源成本等等因素，且一般都在服务器会正常接收到所有目标客户更新参数的情况下。然而，根据当前署名发明人的工作发现，在联邦学习的现实情况中，因为各移动用户网络状况、训练能力的不同，客户训练的时间常常是不确定的且存在较大差异。中央服务器基于任务的时效性，不会无限期地等待所有的客户上传本轮参数后再进行模型聚合，客户也可能因为通信、自身故障等原因不能及时上传训练好的参数。如果激励方法中不对训练和截止时间提出要求，中央服务器的工作效率不但会下降，还会给并没有为本轮全局模型更新做出贡献的客户奖励，导致激励不均。

发明内容

发明目的：本发明的目的是提出一种基于联邦学习的模型训练方法及联邦学习系统，考虑客户训练时间的不确定性来建立激励机制，使得激励方法并不会影响到模型的训练效率，还会达到公平的激励效果，最终提升模型的精确度。

技术方案：为了实现以上发明目的，本发明的技术方案如下：

一种基于联邦学习的模型训练方法，包括以下步骤：

S1、客户i基于中央服务器发布的联邦学习的训练任务，收集自己可供本次联邦学习训练的本地数据量b_i和单位数据成本c_i，组成投标b_i＝{d_i,c_i}并提交给中央服务器；

S2、中央服务器设立参数提交的截止时间T，根据收到的投标建立期望社会福利最大化表达式；

S3、中央服务器针对每轮训练设置预算B，根据动态规划求出每个预算B下的最优解，包括选中的客户和被选中客户的最优训练数据量，再根据每个预算B下的最优解计算期望社会福利最大化的最优值；

S4、中央服务器向选中的客户下发最优训练数据量和最大社会福利；

S5、客户根据下发的方案利用本地数据进行训练，训练完成后向中央服务器上报更新参数；

S6、每轮训练结束时，中央服务器利用VCG机制对成功上传更新参数的客户进行奖励。

一种联邦学习系统，包括：中央服务器以及n个客户；

每个所述客户，用于基于中央服务器发布的联邦学习的训练任务，收集自己可供本次联邦学习训练的本地数据量d_i和单位数据成本c_i，组成投标b_i＝{d_i,c_i}并提交给中央服务器；

所述中央服务器，用于设立参数提交的截止时间T，根据收到的投标建立期望社会福利最大化表达式；并针对每轮训练设置预算B，根据动态规划求出每个预算B下的最优解，包括选中的客户和被选中客户的最优训练数据量，再根据每个预算B下的最优解计算期望社会福利最大化的最优值，向选中的客户下发最优训练数据量和最大社会福利；

每个所述客户，还用于根据下发的方案利用本地数据进行训练，训练完成后向中央服务器上报更新参数；

所述中央服务器，还用于在每轮训练结束时利用VCG机制对成功上传更新参数的客户进行奖励。

有益效果：本发明考虑客户训练时间的不确定性，提出一种基于拍卖的激励方法，应用于联邦学习的训练过程中，在伪多项式时间内求出了社会福利最大化问题的最优解，之后利用VCG(Vickery-Clarke-Grove)机制进行奖励，满足真实性和个人理性的性质，使得激励方法并不会影响到模型的训练效率，还会达到公平的激励效果，最终提升模型的精确度。

附图说明

图1是本发明的基于联邦学习的模型训练方法流程图。

图2是本发明方法下客户训练所需时间示意图。

具体实施方式

下面结合附图对本发明的实施方法作进一步说明。

联邦学习系统由一个中央服务器和包含n个客户的客户集C＝(1,2,...,n)组成，每个客户拥有自己的数据。中央服务器负责发布训练任务、选择客户以及完成模型聚合；客户集C中被选中的客户接收中央服务器下发的本轮参数，在本地数据上使用中央服务器选择的数据量进行训练，并将更新后的参数上传至中央服务器。

为了解决现有基于联邦学习的训练方法中不对训练和截止时间提出要求导致中央服务器的工作效率下降且激励不均的问题，本发明基于反向拍卖，提出一种基于拍卖的激励机制，应用于基于联邦学习的模型训练过程中，提高训练效率，提高模型精度。如图1所示，基于联邦学习的模型训练方法包括以下步骤：

步骤1、中央服务器发布联邦学习的训练任务；

步骤2、客户自行评估自己目前数据资源的空闲状态给出投标。

客户收集自己可供本次联邦学习训练的本地数据量和单位数据成本组成投标。具体而言，客户评估自己目前空闲的数据状态，统计自己可供本次联邦学习训练的本地数据量；客户综合自己本地训练数据的收集成本、计算成本、通信成本给出自己可供本次训练的数据集的单位数据成本，将自己可参与训练的最大数据量和单位数据成本组成投标发送给中央服务器。

在本发明实施方式中，有意向的客户

向中央服务器的一组投标为b_i＝{d_i,c_i}，其中每个客户

拥有d_i个本地数据可供参与本次联邦学习训练。假设每个客户的成本与参与训练的本地数据量成正比，客户i的单位成本被表示为c_i，若有x_i(x_i≤d_i)个数据参与训练，则客户的成本为c_ix_i。

步骤3、中央服务器依据激励目标决定使用哪些客户以及客户的多少数据进行训练。

本发明中激励方法的目标是使整个拍卖的期望社会福利最大，社会福利在该模型中为中央服务器与各个客户的效用函数之和。中央服务器的效用是本轮联邦学习模型精度更新的价值减去给所有客户的奖励。本轮联邦学习模型精度更新的价值被评估为关于参与训练的实际数据量的一个递增凹函数g(X)＝λ*0.04308*log(1+138300*x)。需要注意的是，客户在该轮中若不能在规定的截止时间T内将结果返回给中央服务器，则实际训练量为0。各个客户的效用函数是收到的奖励减去本轮模型训练付出的成本，包括量化的计算和数据成本。在一些温和的假设下，可以通过切诺夫界表明将该目标形式化定义为：

(P1):

使其最大化。

中央服务器引入一个变量：预算B，一轮训练中客户的总训练成本必须不超过所设置的预算。根据B的定义，B的取值范围为

由于奖励函数g(·)是一个递增函数，且对每一个预算B来说，B都是一个常数，上述问题又可以转化为下面的问题进行求解：

(P2):

设OPT(B)为(P2)的最优解，OPT为(P1)的最优解。OPT(B)和OPT则有以下关系：

该问题用一种动态规划的方法解决。首先输入的是各客户所报告的投标b_i＝{d_i,c_i}。接着当

被替代为1,2,…,i，B被替代为b的条件下，定义f(i,b)是(P2)的最优解。当i>0时，如果要求出f(i,b)的最优解，首先需要取出f(i-1,b-c_ix_i)的值，它代表考虑(i-1)个客户、预算为(b-c_ix_i)时所求出的最优解，考虑所有在预算b下的情况：依次考虑第i个客户被选择的数据量

时的函数值，选择能使

结果最大的x_i作为f(i,b)的结果。构建出动态规划矩阵f[n,B]之后，可以直接用f(i,b)_0≤b≤B来求期望社会福利最大化的最优值以及该值下b的取值。同时，在f[n,B]的构建记录了从f(i-1,b-c_ix_i)到f(i,b)选择的x_i，构建出路径矩阵path(n,B)。根据b，取path(n,b)的值作为序号为n的客户被选择的数据量，接着当前预算b需要减去该客户被选择数据量的总成本，客户的序号也要减1。重复上述步骤直到所有客户被选择的数据量都被确定。最后，返回客户的最优训练数据量(x₁,…,x_n)和所对应的最大社会福利。

步骤4、中央服务器下发给客户各自的最优训练数据量(x₁,…,x_n)；

对于被选中的客户，中央服务器将各个客户的最优数据量和本轮全局模型的精度下发给被选中的客户。

步骤5、被选中的客户使用被指定的本地资源进行训练。

客户

使用被选中的x_i个数据完成本地模型训练并且将参数上传给中央服务器。中央服务器设置客户提交参数的截止时间T，到截止时间后就不再接收客户的参数。客户i完成本地模型训练并且将参数上传给中央服务器的时间被表示为：T_i(m)＝X_i+τ_im，如附图2所示。根据统计规律，X_i为服从参数为μ_i的指数分布，代表用户开始训练的时间；τ_i为正常数，用来表示客户单个数据的计算时间。I_i(x_i)是一个0-1变量，用来表示客户在该轮中是否能在规定的截止时间T内将结果返回给中央服务器，若返回则为1，反之则为0。

截止时间到后，中央服务器根据接收到的模型更新梯度开始进行模型聚合和参数更新。中央服务器若在本轮收到该客户训练更新后的参数，则对其进行奖励。

由于社会福利最大化已经可以求解，在基于VCG机制的激励方法中，中央服务器可以应用VCG机制来确定奖励p₁,p₂,…,p_n。客户的最优训练数据量已被求解为W＝(x₁,…,x_n)，那么

被用来表示如果客户i没有参加到联邦学习训练中，社会福利最大化时客户的最优数据量集，

为当客户数量集为

时的社会福利。W_-i＝(x₁,…,x_i-1,x_i+1,…,x_n)则表示从客户的最优数据量集中移除客户i的客户数据量集，S(W_-i)为当客户数量集为W_-i时的社会福利。根据Clarkepivot支付规则，客户被支付的总奖励为当客户不在时其他人的最大社会福利减去当客户在时其他人的社会福利。因此中央服务器给客户支付的总奖励p_i为

该激励方法保证了联邦学习的有效性和公平性，它满足期望上的真实性：当所有轮训练结束之后，客户报告真实的投标时，它所获得的收益最大。客户无法恶意报价获取更高利益，无法扰乱激励方法的公平。同时满足期望上的个人理性：对于所有参与拍卖的客户，期望上没有客户会因为训练而获得负收益。因此，这种基于联邦学习的拍卖模型激励方法一边有充分的激励效果，越来越多、越来越稳定的客户将参与到联邦学习中来，该联邦学习的可备选数据集增大，优质数据增加会大大有益于全局模型更新的精度。同时，该方法考虑了客户的训练时间和服务器的等待时间，保证了每一轮联邦学习的时效性，与以往基于拍卖的联邦学习激励方法的相比，给予了中央服务器控制训练时间的自由，并且提高了每一轮的训练效率。

结合上述基于联邦学习的模型训练方法，本发明的联邦学习系统中，客户和中央服务器所做的工作如下：

每个客户，用于基于中央服务器发布的联邦学习的训练任务，收集自己可供本次联邦学习训练的本地数据量d_i和单位数据成本c_i，组成投标b_i＝{d_i,c_i}并提交给中央服务器；

中央服务器，用于设立参数提交的截止时间T，根据收到的投标建立期望社会福利最大化表达式；并针对每轮训练设置预算B，根据动态规划求出每个预算B下的最优解，包括选中的客户和被选中客户的最优训练数据量，再根据每个预算B下的最优解计算期望社会福利最大化的最优值，向选中的客户下发最优训练数据量和最大社会福利；

每个客户，还用于根据下发的方案利用本地数据进行训练，训练完成后向中央服务器上报更新参数；

中央服务器，还用于在每轮训练结束时利用VCG机制对成功上传更新参数的客户进行奖励。

其中，客户i的投标数据具体构成包括：客户评估自己目前空闲的数据状态，统计自己可供本次联邦学习训练的本地数据量d_i；综合自己本地训练数据的收集成本、计算成本、通信成本给出自己可供本次训练的数据集的单位数据成本c_i；将自己可参与训练的最大数据量和单位数据成本组成投标b_i＝{d_i,c_i}，发送给中央服务器。

中央服务器构建期望社会福利最大化表达式包括：

a)中央服务器根据自己训练的要求设定截止时间T，根据过往经验获取客户开始训练时间和单个数据计算时间，客户

使用m个数据完成本地模型训练并且将参数上传给中央服务器，这个过程所需的时间被表示为：T_i(m)＝X_i+τ_im，其中X_i为服从参数为μ_i的指数分布，τ_i为正常数，用来表示客户单个数据的计算时间，

为客户集合；

b)整个训练的回报是一个关于训练总数据量的递增凹函数，训练总数据量为单个客户被选择的数据量与一个0-1变量I_i(x_i)的积再求和，I_i(x_i)用来表示客户在该轮训练中是否能在规定的截止时间T内将结果返回给中央服务器，若返回则为1，反之则为0，中央服务器的效用等于服务器得到的回报减去给客户的奖励之和；

c)各个客户的效用函数是收到的奖励减去付出的成本，期望的社会福利为中央服务器与各个客户的效用函数之和；

d)根据期望的线性将回报函数近似为客户返回结果的概率与训练数据量的积再求和，客户返回结果的概率是关于客户训练时间的指数函数，由此得到期望社会福利最大化表达式，如下：

式中，g(·)表示奖励函数，x_i表示客户i的数据量。

中央服务器求解最优解包括：

e)、中央服务器引入变量预算B，代表一轮训练中客户的总训练成本，它的范围是从0到所有客户使用全部数据量参加训练时的总成本；

f)、运用动态规划方法，输入为各客户所报告的投标b_i＝{d_i,c_i}，当

被替代为1,2,…,i，B被替代为b的条件下，定义f(i,b)为最优解，对每一个i和b求出最优解f(i,b)：首先求出f(i-1,b-c_ix_i)的值，它代表考虑(i-1)个客户、预算为(b-c_ix_i)时所求出的最优解，考虑所有在预算b下的情况：依次考虑第i个客户被选择的数据量为

时的函数值，选择能使

结果最大的x_i作为f(i,b)的结果，构建出动态规划矩阵f[n,B]；

g)、计算所有预算b的情况下，将f(n,b)_0≤b≤B带入期望社会福利最大化表达式的结果，比较得出最大值和该值下b的取值。

中央服务器下发选中方案包括：

h)、伴随着f[n,B]的构建记录了从f(i-1,b-c_ix_i)到f(i,b)选择的x_i，构建出路径矩阵path(i,b)；

i)在求出问题最优解所对应的b后，根据b反推出对应的路径，最终返回客户的最优训练数据量(x₁,…,x_n)和所对应的期望社会福利的最优值。

中央服务器对客户进行奖励包括：

j)计算如果客户i没有参加到联邦学习训练中时期望的最大社会福利；

k)从客户的最优数据量集中移除客户i，求出对应的社会福利值；

l)根据Clarkepivot支付规则，客户被支付的总奖励为j)中的值减去k)中的值，再除以当客户被选择了固定数据量的数据参与训练时，客户在截止时间内返回训练结果的概率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于联邦学习的模型训练方法，其特征在于，包括以下步骤：

S1、客户i基于中央服务器发布的联邦学习的训练任务，收集自己可供本次联邦学习训练的本地数据量d_i和单位数据成本c_i，组成投标b_i＝{d_i,c_i}并提交给中央服务器；

2.根据权利要求1所述的基于联邦学习的模型训练方法，其特征在于，所述步骤S1包括：

S1-1、客户i评估自己目前空闲的数据状态，统计自己可供本次联邦学习训练的本地数据量d_i；

S1-2、客户i综合自己本地训练数据的收集成本、计算成本、通信成本给出自己可供本次训练的数据集的单位数据成本c_i；

S1-3、客户i将自己可参与训练的最大数据量和单位数据成本组成投标b_i＝{d_i,c_i}，发送给中央服务器。

3.根据权利要求1所述的基于联邦学习的模型训练方法，其特征在于，所述步骤S2包括：

S2-1、中央服务器根据自己训练的要求设定截止时间T，根据过往经验获取客户开始训练时间和单个数据计算时间，客户

为客户集合；

S2-2、整个训练的回报是一个关于训练总数据量的递增凹函数，训练总数据量为单个客户被选择的数据量与一个0-1变量I_i(x_i)的积再求和，I_i(x_i)用来表示客户在该轮训练中是否能在规定的截止时间T内将结果返回给中央服务器，若返回则为1，反之则为0，中央服务器的效用等于服务器得到的回报减去给客户的奖励之和；

S2-3、各个客户的效用函数是收到的奖励减去付出的成本，期望的社会福利为中央服务器与各个客户的效用函数之和；

S2-4、根据期望的线性将回报函数近似为客户返回结果的概率与训练数据量的积再求和，客户返回结果的概率是关于客户训练时间的指数函数，由此得到期望社会福利最大化表达式，如下：