CN112836828A

CN112836828A - 基于博弈论的自组织式联邦学习方法

Info

Publication number: CN112836828A
Application number: CN202011492248.6A
Authority: CN
Inventors: 陈旭; 黄广敬; 周知
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-05-25

Abstract

本发明公开了一种基于博弈论的自组织式联邦学习方法。在网络中，移动用户设备或边缘设备可以通过使用联邦学习，以一种知识共享并且保护自身数据隐私的方式，共同构建一个性能优异人工智能模型。通过在中心服务器上部署方法协调自组织式联邦学习的进行，从而实现一个稳定，相对公平，高效的由自组织式的联邦学习。本发明首先对用户对模型的偏好和训练成本进行刻画，对用户进行行为分析，然后使用博弈论的方法计算纳什均衡点，使得每个用户在合作中达到策略上的共识。在达到共识的基础上引入阈值机制，保证一定的公平性。最后提出快速寻找近似最优的阈值的方法。

Description

基于博弈论的自组织式联邦学习方法

技术领域

本发明涉及联邦学习以及博弈论领域，更具体地，涉及一种基于博弈论的自组织式联邦学习方法。

背景技术

联邦机器学习是一个机器学习框架，能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模。由于用户训练会引起能耗和时延上的开销，因此没有合理的激励机制设计，自私的用户将不愿意参与到联邦学习中来。现有的文献，大多数考虑如何设计激励机制帮助一个中心服务器来吸引更多的用户参与到联邦学习中。人工智能(AI)模型的拥有者是中心服务器(机构或者公司)，用户扮演者工人的角色帮助中心服务器完成模型训练，他们并不关心AI模型性能，只考虑中心服务器给他们的报酬。现有的工作对用户的收益和训练能耗损失进行建模，使用契约理论，博弈论，激励机制设计等技术，帮助中心服务器构建一个最大化自身利益的系统。

现有的多数工作集中在如何帮助一个中心服务器(AI模型的拥有者)吸引更多的用户来帮助完成AI模型的训练，如中国专利CN111126618A，公开日为 2020.05.08，公开了以后只能怪基于多源异构系统的联邦学习方法及装置。然而随着AI技术的普及，越来越多的用户本身对AI技术有着很大的需求，在保护自身数据隐私前提下，他们渴望通过知识共享的方式，运用自身的数据共同构建一个性能良好的AI模型。每个用户都是AI模型的拥有者，多方平等地共同参与联邦学习。对于这种复杂的协调工作，为了让这种合作能够达成共识，相对公平地进行下去，我们在中心服务器端(作为一个协调者，不参与利益纠纷)中部署系统，协调各方参与用户的利益，从而让AI协同训练(联邦学习) 得到更好的推广。

发明内容

本发明为克服上述现有技术中的至少一个缺陷，提供一种基于博弈论的自组织式联邦学习方法，能够有效解决在边缘网络中多个用户设备寻求AI建模合作下的联邦学习协调问题。

为解决上述技术问题，本发明采用的技术方案是：一种基于博弈论的自组织式联邦学习方法，包括以下步骤：

S1.用户基本信息收集，首先由网络中一群用户组成一个利益社群，在社群里的用户拥有相同的模型任务需求，并且向中心服务器发起联邦学习请求，每个用户将自身的基本信息，包括对模型的偏好和训练成本信息发给中心服务器，中心服务器作为中立权威的协调者，协调各个用户策略以保证联邦学习的进行；

S2.中心服务器进行利益协调，由中心服务器根据用户信息，设定一个阈值，阈值要求每个用户至少提供最低阈值的训练数据量参与模型训练，否则不允许用户参与到自组织式联邦学习中来；中心服务器根据阈值为每个用户计算策略，使得每个用户接受该均衡策略，并且不再作任何改变；即，为每个用户计算一个策略，使得每个用户无法从单方面改变自身的策略来提升自身收益，从而达到纳什均衡；

S3.中心服务器快速寻找近似最优阈值，寻找最优阈值使得用户经过中心服务器利益协调步骤后，集群用户总收益最大；

S4.联邦学习模型训练，每个用户接收来自中心服务器的策略建议，确定是否接受该策略建议，一旦所有用户达成策略共识并且接受该建议，模型训练开始，所有用户依据该策略建议来进行联邦学习模型建模。

进一步的，所述的步骤S1具体包括：

S11.建立用户模型收益模型；

S12.建立用户训练成本模型；

S13.建立用户最终收益模型；

S14.计算用户的单位训练成本；

S15.每个用户上传信息(θ_k，A_k，|D_k|)给中心服务器，请求协调联邦学习；|D_k| 为用户数据集的数据量大小，A_k为用户的单位训练成本；θ_k为用户对模型的偏好参数。

进一步的，所述的步骤S11建立用户模型收益模型具体包括：

在联邦学习的某一轮中，每个用户在训练时，使用的训练数据量越大，将使得模型性能提升越大，机器模型的训练目标是为了让已定义损失函数不断的变小；对于某个用户k，定义其损失函数为L_k(w_k，D_k)，其中w_k为用户k的人工智能模型的参数，D_k代表用户k的训练数据集；联邦学习使所有用户共同构建一个人工智能模型，因此聚合后的全局损失函数定义如下：

式中，

为所有用户构成的集合，进一步，定义联邦学习全局损失函数的衰减如下：

ΔL＝L[n]-L[n-1] (2)

式中，n为第n轮联邦学习全局损失函数，使用全局损失函数的衰减ΔL可以刻画经过一次全局迭代模型的性能提升幅度；根据模型的收敛速度，ΔL和一次全局训练的数据量大小B有如下近似关系：

式中，ξ是与模型相关的常数，B_k代表这一轮用户k用于训练的数据量大小；因此经过一轮全局迭代训练后，模型性能的提升给用户带来的收益如下：

θ_k ln(1+ΔL) (4)

其中θ_k为用户对模型的偏好参数。

进一步的，所述的步骤S12建立用户训练成本模型具体包括：

用户的训练成本包括训练能耗和训练时间，对于训练的能耗

有如下计算公式：

式中，α与芯片结构有关，C_k为用户使用一份训练数据执行一次梯度计算所需要的CPU周期数，f_k为用户的训练时所使用的CPU频率，则本地训练时间

为：

进一步的，所述的步骤S13建立用户最终收益模型具体包括：

假定联邦学习在有限迭代次数内收敛，那么可以使用一次迭代中的用户收益来估算整个联邦学习的用户收益，因此，用户收益函数如下：

式中，

γ_k分别为用户对能耗和训练时间的敏感参数。

进一步的，所述的步骤S14计算用户的单位训练成本：

由于用户自身的CPU频率选择并不会影响最终模型的精度等，因此每个用户自身的设备训练参数不会影响其他用户在模型上的收益，每个用户可以计算出自己的最佳CPU频率：

式中，

最终每个用户得出自身的单位训练成本：

进一步的，所述的步骤S2中心服务器进行利益协调步骤具体包括：

S21.任意给定一个阈值

实际上，B_th取离散的整数；首先为每个用户计算衡量用户质量的参数：

然后根据用户质量参数大小将用户排序β₁>β₂>…>β_K；

S22.定义总数据量函数：

在自组织式的联邦学习中总数据量大小影响着每个用户的收益，稳定用户策略有一定的特征，其中包含一个关键参与者c及其策略

以关键参与者c为划分，计算用户策略，所有用户的总数据量大小定义为：

B_j＝B_th,ifB_-j≥Φ_j (16)

B_j＝0，if B_-j<Φ_j (17)

式中，

即除了用户j以外所有用户的数据量之和，

为用户j的界限值，意味着当其余用户参与量大于该值时，用户j会选择参与自组织式联邦学习；

S23.求解纳什均衡策略：

考虑如下三个条件，当存在参与者c满足以下条件之一时，中心服务器则找到了对应的纳什均衡，总数据量函数此时对应的策略(B₁，B₂，...，B_k)为均衡策略；三个条件分别是：

条件1：

且B_c+1＝0；

条件2：

且B_c+1＝B_th；

条件3：

且B_c≠0；

当纳什均衡不存在时，即三个条件都无法满足时，存在i使得：

且条件3无法成立；根据总数据量函数

关于

的单调性，二分搜索一个B_x使得在一个预先定义的小的搜索精度∈＞0下，F_c(i，B_x)＜β_c＜F_c(i，B_x+∈)且F_c(i，B_x+∈)＞F_c(i，B_x)+B_th；删除总数据量函数F_c(i，B_x+ ∈)中一个用户s，用户s满足策略不为0的用户中β_s最小的用户；删除用户s后，从新的集群中重新寻找新的纳什均衡策略；不断重复以上删除过程，直到找到纳什均衡策略为止。

进一步的，所述的步骤S22中，对于函数

给定c，

第一项和第二项

可直接求解，确定前两项后，第三项

用户的策略可以由如下方法求解：对用户{c+1，...，K}，置策略为B_th，遍历从K到c+1，若当前用户j满足公式(17)，即B_-j＜Φ_j，则置策略B_j＝0，继续遍历下一个用户，若当前用户j满足公式(16)，则停止遍历，此时{c+1，...，K}的策略对应于第三项

的解。

进一步的，所述的步骤S3中心服务器快速寻找近似最优阈值具体包括：

S31.中心服务器使用快速近似搜索方法寻找最优阈值，使得达到稳定状态时，集群总收益最大，给定一个阈值，使用求解纳什均衡的方法后，将均衡策略代入即可得到总收益，从实际考虑，阈值空间是离散并且有限的，即

S32.定义集群总收益：

假设所有用户的单位训练成本相同且为：

式中，U(1)为当B_th＝1时，经过中心服务器的利益协调后，贡献数据量不为 0的用户所组成的集合，即贡献用户集，avgA(·)为对用户集中用户的单位训练成本求平均；

S33.对于给定的B_th，经过中心服务器利益协调，必然对应唯一的贡献用户集，以贡献用户集为准使用二分法搜索，将整个阈值搜索区间

划分成多个子区间；因此，集群总收益的估算具有如下形式：

式中，

是当Bth∈[1，a)对应的贡献用户集，

的定义与

相同，N(B_th) 为给定B_th，经过中心服务器利益协调后，所有用户的总数据量；

S34.求出每个子区间的近似最优阈值：

对于某个子区间的近似最优阈值，以步骤S33的公式子区间B_th∈[1，a)，方法如下：

当B_optimal＝B_topt时，使用二分查找在区间[1，a)内，查找B_th使得N(B_th)与 B_topt最接近，此时对应的B_th为该子区间的近似最优阈值，否则，近似最优阈值在子区间边界为1或者a-1；

S35.对比所有子区间的最优阈值对应的整体收益，得到最终的最优阈值

进一步的，所述的步骤S4联邦学习模型训练具体包括：

S41.中心服务器将协调后的数据发回给每个用户，其中包括要求用户贡献的最低阈值

用户应该采取的训练数据量，其余用户数据量的总和；

S42.用户根据这三个信息判断在其余用户不改变的训练数据量的情况下，当前中心服务器所给的训练建议是否是最优的；如果是用户无法单方面改变自身决策来提升自身收益，即说明中心服务器所给的建议为当前最优，用户则同意按照改策略进行联邦学习；

S43.中心服务器接收到所有的用户确认后，组织并开启参与用户的联邦学习训练。

与现有技术相比，有益效果是：

1.本发明考虑边缘网络中的异构的用户，使得所有用户能够达到合作共识，从而让系统能够在实际中部署，具有更强的实用性；

2.采用阈值机制的方法，缓解集群用户共同合作下搭便车的现象，实现相对的公平，并且充分发挥用户的团队合作优势，系统设计更加合理；

3.本发明设计一个快速查找最优阈值的方法，优化系统的性能，增强系统的实用性。

附图说明

图1是边缘设备进行联邦学习的示意图。

图2是本发明协调用户进行联邦学习流程步骤图。

图3是本发明不添加任何阈值机制下的搭便车现象示意图。

图4是本发明实施例中不同人数下，不同类型集群下，添加阈值机制后，集群贡献总数据量相对于阈值机制下的增长率示意图。

图5是本发明实施例中不同人数下，不同类型集群下，添加阈值机制后，集群总收益相对于阈值机制下的增长率示意图。

图6是本发明实施例中本文方法与其他搜索方法性能比较示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

一种基于博弈论的自组织式联邦学习方法，包括以下步骤：

步骤1.用户基本信息收集，首先由网络中一群用户组成一个利益社群，在社群里的用户拥有相同的模型任务需求，并且向中心服务器发起联邦学习请求，每个用户将自身的基本信息，包括对模型的偏好和训练成本信息发给中心服务器，中心服务器作为中立权威的协调者，协调各个用户策略以保证联邦学习的进行。

的步骤S1具体包括：

S11.建立用户模型收益模型；

式中，

ΔL＝L[n]-L[n-1] (2)

θ_k ln(1+ΔL) (4)

其中θ_k为用户对模型的偏好参数。

S12.建立用户训练成本模型；

用户的训练成本包括训练能耗和训练时间，对于训练的能耗

有如下计算公式：

为：

S13.建立用户最终收益模型；

式中，

γ_k分别为用户对能耗和训练时间的敏感参数。

S14.计算用户的单位训练成本；

式中，

最终每个用户得出自身的单位训练成本：

步骤2.中心服务器进行利益协调，由中心服务器根据用户信息，设定一个阈值，阈值要求每个用户至少提供最低阈值的训练数据量参与模型训练，否则不允许用户参与到自组织式联邦学习中来；中心服务器根据阈值为每个用户计算策略，使得每个用户接受该均衡策略，并且不再作任何改变；即，为每个用户计算一个策略，使得每个用户无法从单方面改变自身的策略来提升自身收益，从而达到纳什均衡。

中心服务器进行利益协调步骤具体包括：

S21.任意给定一个阈值

然后根据用户质量参数大小将用户排序β₁＞β₂＞…＞β_K。

S22.定义总数据量函数：

B_j＝B_th，if B_-j≥Φ_j (16)

B_j＝0，if B_-j＜Φ_j (17)

式中，

即除了用户j以外所有用户的数据量之和，

对于函数

给定c，

第一项和第二项

可直接求解，确定前两项后，第三项

用户的策略可以由如下方法求解：对用户{c+ 1，...，K}，置策略为B_th，遍历从K到c+1，若当前用户j满足公式(17)，即B_-j＜Φ_j，则置策略B_j＝0，继续遍历下一个用户，若当前用户j满足公式(16)，则停止遍历，此时{c+1，...，K}的策略对应于第三项

的解。

S23.求解纳什均衡策略：

条件1：

且B_c+1＝0；

条件2：

且B_c+1＝B_th；

条件3：

且B_c≠0；

且条件3无法成立；根据总数据量函数

关于

步骤3.中心服务器快速寻找近似最优阈值，寻找最优阈值使得用户经过中心服务器利益协调步骤后，集群用户总收益最大。

中心服务器快速寻找近似最优阈值具体包括：

S32.定义集群总收益：

假设所有用户的单位训练成本相同且为：

式中，

是当Bth∈[1，a)对应的贡献用户集，

的定义与

S34.求出每个子区间的近似最优阈值：

步骤4.联邦学习模型训练，每个用户接收来自中心服务器的策略建议，确定是否接受该策略建议，一旦所有用户达成策略共识并且接受该建议，模型训练开始，所有用户依据该策略建议来进行联邦学习模型建模。

联邦学习模型训练具体包括：

用户应该采取的训练数据量，其余用户数据量的总和；

本发明实施例中公开了基于博弈论的自组织式联邦学习的方法，其场景图如图1所示，一群拥有共同AI模型训练需求的用户组成集群，向中心服务器发起联邦学习请求，中心服务器采用本发明的方法，该方法基于博弈论的分析方法，协调一群拥有共同AI模型训练需求的用户参与联邦学习，并采用阈值机制缓解群体中搭便车现象，同时完成对最优阈值的搜索。方法流程图如图2所示。

本实施例的仿真实验环境具体如下，对于用户收益模型，本实例采取两类用户，分高质量和低质量用户。参数列表如表l所示：

表1高质量和低质量用户、参数列表

本实验的实验集群构成由以上高质量和低质量用户按不同比例组成，图3说明了在不添加阈值机制下，经过中心服务器协调后，会出现搭便车现象，即有一部分用户不作任何贡献仍然可以获得模型收益，这极大的破坏了公平性。

图4体现了在不同人数K下，不同比例的高质量用户下，添加阈值机制后得到，团体贡献总数据量相对于阈值机制下的增长率。人数越多，高质量用户越少，搭便车现象越严重，阈值机制提升的效果更明显。图5体现了在不同人数下，不同比例的高质量用户下，集群用户总收益的增长率。添加阈值机制后，充分体现了团队优势，使得集群用户总收益均提升。

表2表示了本文设计的中心服务器搜索近似最优阈值方法在不同类型的集群下准确率方面的性能：

表2不同类型的集群下准确率方面的性能

其中每个类型由高质量低质量按照随机比例组成，仅在用户拥有数据量上有所不同，其余参数相同，每个类型随机运行100次取平均结果得到。表2说明了近似最优阈值搜索算法不仅在准确率上有很高的保证，而且搜索出来的近似解，与最阈值对应的集群收益的差距占比也非常小，即在精度上也有很好的性能。

表3表示了与表2相同类型的集群下，快速搜索近似最优阈值方法与穷举线性搜索的运行性能对比。

表3快速搜索近似最优阈值方法与穷举线性搜索的运行性能对比

给定一个阈值，需要执行对应的中心服务器利益协调方法才可以获得均衡状态下的集群总收益，由于利益协调方法的复杂度较高，因此避免调用利益协调方法能够大大提高搜索效率。表3说明了本发明提出的快速搜索近似阈值方法具有良好的运行性能。

图6表明在不同高质量用户占领比例的不同(不同类型集群)，不同搜索方法得到的阈值对应均衡下的集群收益相比无阈值机制下的增长率。其中，每个类型集群运行100次取平均结果。

每个搜索方法具体如下：

最小(Min)：每次都选择B_th＝1作为解。

最大(Max)：每次都选择

作为解。

随机(Random)：随机在阈值区间内

中选一个作为解。

取区间的中值(Half)：取

作为解。

线性(Linear)(实际最优)：在区间

线性搜索每一个阈值进行对比得出最优解。

图6展示本发明提出的快速搜索近似阈值方法与其他搜索方法的性能对比。本发明提出的方法在不同类型的集群上均优于其他的方法，同时性能接近线性穷举搜索(实际最优)。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于博弈论的自组织式联邦学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于博弈论的自组织式联邦学习方法，其特征在于，所述的步骤S1具体包括：

S11.建立用户模型收益模型；

S12.建立用户训练成本模型；

S13.建立用户最终收益模型；

S14.计算用户的单位训练成本；

S15.每个用户上传信息(θ_k,A_k，|D_k|)给中心服务器，请求协调联邦学习；|D_k|为用户数据集的数据量大小，A_k为用户的单位训练成本；θ_k为用户对模型的偏好参数。

3.根据权利要求1所述的基于博弈论的自组织式联邦学习方法，其特征在于，所述的步骤S11建立用户模型收益模型具体包括：

式中，

ΔL＝L[n]-L[n-1] (2)

θ_kln(1+ΔL) (4)

其中θ_k为用户对模型的偏好参数。

4.根据权利要求3所述的基于博弈论的自组织式联邦学习方法，其特征在于，所述的步骤S12建立用户训练成本模型具体包括：

用户的训练成本包括训练能耗和训练时间，对于训练的能耗

有如下计算公式：

为：

。

5.根据权利要求4所述的基于博弈论的自组织式联邦学习方法，其特征在于，所述的步骤S13建立用户最终收益模型具体包括：

式中，

γ_k分别为用户对能耗和训练时间的敏感参数。

6.根据权利要求5所述的基于博弈论的自组织式联邦学习方法，其特征在于，所述的步骤S14计算用户的单位训练成本：

式中，

最终每个用户得出自身的单位训练成本：

。

7.根据权利要求6所述的基于博弈论的自组织式联邦学习方法，其特征在于，所述的步骤S2中心服务器进行利益协调步骤具体包括：

S21.任意给定一个阈值

首先为每个用户计算衡量用户质量的参数：

然后根据用户质量参数大小将用户排序β₁>β₂>…>β_K；

S22.定义总数据量函数：

B_j＝B_th,if B_-j≥Φ_j (16)

B_j＝0,if B_-j<Φ_j (17)

式中，

即除了用户j以外所有用户的数据量之和，

S23.求解纳什均衡策略：

考虑如下三个条件，当存在参与者c满足以下条件之一时，中心服务器则找到了对应的纳什均衡，总数据量函数此时对应的策略(B₁,B₂，…，B_k)为均衡策略；三个条件分别是：

条件1：

且B_c+1＝0；

条件2：

且B_c+1＝B_th；

条件3：

且B_c≠0；

且条件3无法成立；根据总数据量函数

关于

的单调性，二分搜索一个B_x使得在一个预先定义的小的搜索精度∈>0下，F_c(i，B_x)<β_c<F_c(i，B_x+∈)且F_c(i，B_x+∈)>F_c(i，B_x)+B_th；删除总数据量函数F_c(i，B_x+∈)中一个用户s，用户s满足策略不为0的用户中β_s最小的用户；删除用户s后，从新的集群中重新寻找新的纳什均衡策略；不断重复以上删除过程，直到找到纳什均衡策略为止。

8.根据权利要求7所述的基于博弈论的自组织式联邦学习方法，其特征在于，所述的步骤S22中，对于函数