CN112836828A - 基于博弈论的自组织式联邦学习方法 - Google Patents

基于博弈论的自组织式联邦学习方法 Download PDF

Info

Publication number
CN112836828A
CN112836828A CN202011492248.6A CN202011492248A CN112836828A CN 112836828 A CN112836828 A CN 112836828A CN 202011492248 A CN202011492248 A CN 202011492248A CN 112836828 A CN112836828 A CN 112836828A
Authority
CN
China
Prior art keywords
user
training
users
model
federal learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011492248.6A
Other languages
English (en)
Inventor
陈旭
黄广敬
周知
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011492248.6A priority Critical patent/CN112836828A/zh
Publication of CN112836828A publication Critical patent/CN112836828A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于博弈论的自组织式联邦学习方法。在网络中,移动用户设备或边缘设备可以通过使用联邦学习,以一种知识共享并且保护自身数据隐私的方式,共同构建一个性能优异人工智能模型。通过在中心服务器上部署方法协调自组织式联邦学习的进行,从而实现一个稳定,相对公平,高效的由自组织式的联邦学习。本发明首先对用户对模型的偏好和训练成本进行刻画,对用户进行行为分析,然后使用博弈论的方法计算纳什均衡点,使得每个用户在合作中达到策略上的共识。在达到共识的基础上引入阈值机制,保证一定的公平性。最后提出快速寻找近似最优的阈值的方法。

Description

基于博弈论的自组织式联邦学习方法
技术领域
本发明涉及联邦学习以及博弈论领域,更具体地,涉及一种基于博弈论的自组织式联邦学习方法。
背景技术
联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。由于用户训练会引起能耗和时延上的开销,因此没有合理的激励机制设计,自私的用户将不愿意参与到联邦学习中来。现有的文献,大多数考虑如何设计激励机制帮助一个中心服务器来吸引更多的用户参与到联邦学习中。人工智能(AI)模型的拥有者是中心服务器(机构或者公司),用户扮演者工人的角色帮助中心服务器完成模型训练,他们并不关心AI模型性能,只考虑中心服务器给他们的报酬。现有的工作对用户的收益和训练能耗损失进行建模,使用契约理论,博弈论,激励机制设计等技术,帮助中心服务器构建一个最大化自身利益的系统。
现有的多数工作集中在如何帮助一个中心服务器(AI模型的拥有者)吸引更多的用户来帮助完成AI模型的训练,如中国专利CN111126618A,公开日为 2020.05.08,公开了以后只能怪基于多源异构系统的联邦学习方法及装置。然而随着AI技术的普及,越来越多的用户本身对AI技术有着很大的需求,在保护自身数据隐私前提下,他们渴望通过知识共享的方式,运用自身的数据共同构建一个性能良好的AI模型。每个用户都是AI模型的拥有者,多方平等地共同参与联邦学习。对于这种复杂的协调工作,为了让这种合作能够达成共识,相对公平地进行下去,我们在中心服务器端(作为一个协调者,不参与利益纠纷)中部署系统,协调各方参与用户的利益,从而让AI协同训练(联邦学习) 得到更好的推广。
发明内容
本发明为克服上述现有技术中的至少一个缺陷,提供一种基于博弈论的自组织式联邦学习方法,能够有效解决在边缘网络中多个用户设备寻求AI建模合作下的联邦学习协调问题。
为解决上述技术问题,本发明采用的技术方案是:一种基于博弈论的自组织式联邦学习方法,包括以下步骤:
S1.用户基本信息收集,首先由网络中一群用户组成一个利益社群,在社群里的用户拥有相同的模型任务需求,并且向中心服务器发起联邦学习请求,每个用户将自身的基本信息,包括对模型的偏好和训练成本信息发给中心服务器,中心服务器作为中立权威的协调者,协调各个用户策略以保证联邦学习的进行;
S2.中心服务器进行利益协调,由中心服务器根据用户信息,设定一个阈值,阈值要求每个用户至少提供最低阈值的训练数据量参与模型训练,否则不允许用户参与到自组织式联邦学习中来;中心服务器根据阈值为每个用户计算策略,使得每个用户接受该均衡策略,并且不再作任何改变;即,为每个用户计算一个策略,使得每个用户无法从单方面改变自身的策略来提升自身收益,从而达到纳什均衡;
S3.中心服务器快速寻找近似最优阈值,寻找最优阈值使得用户经过中心服务器利益协调步骤后,集群用户总收益最大;
S4.联邦学习模型训练,每个用户接收来自中心服务器的策略建议,确定是否接受该策略建议,一旦所有用户达成策略共识并且接受该建议,模型训练开始,所有用户依据该策略建议来进行联邦学习模型建模。
进一步的,所述的步骤S1具体包括:
S11.建立用户模型收益模型;
S12.建立用户训练成本模型;
S13.建立用户最终收益模型;
S14.计算用户的单位训练成本;
S15.每个用户上传信息(θk,Ak,|Dk|)给中心服务器,请求协调联邦学习;|Dk| 为用户数据集的数据量大小,Ak为用户的单位训练成本;θk为用户对模型的偏好参数。
进一步的,所述的步骤S11建立用户模型收益模型具体包括:
在联邦学习的某一轮中,每个用户在训练时,使用的训练数据量越大,将使得模型性能提升越大,机器模型的训练目标是为了让已定义损失函数不断的变小;对于某个用户k,定义其损失函数为Lk(wk,Dk),其中wk为用户k的人工智能模型的参数,Dk代表用户k的训练数据集;联邦学习使所有用户共同构建一个人工智能模型,因此聚合后的全局损失函数定义如下:
Figure RE-GDA0003000444000000031
式中,
Figure RE-GDA0003000444000000032
为所有用户构成的集合,进一步,定义联邦学习全局损失函数的衰减如下:
ΔL=L[n]-L[n-1] (2)
式中,n为第n轮联邦学习全局损失函数,使用全局损失函数的衰减ΔL可以刻画经过一次全局迭代模型的性能提升幅度;根据模型的收敛速度,ΔL和一次全局训练的数据量大小B有如下近似关系:
Figure RE-GDA0003000444000000033
式中,ξ是与模型相关的常数,Bk代表这一轮用户k用于训练的数据量大小;因此经过一轮全局迭代训练后,模型性能的提升给用户带来的收益如下:
θk ln(1+ΔL) (4)
其中θk为用户对模型的偏好参数。
进一步的,所述的步骤S12建立用户训练成本模型具体包括:
用户的训练成本包括训练能耗和训练时间,对于训练的能耗
Figure RE-GDA0003000444000000034
有如下计算公式:
Figure RE-GDA0003000444000000035
式中,α与芯片结构有关,Ck为用户使用一份训练数据执行一次梯度计算所需要的CPU周期数,fk为用户的训练时所使用的CPU频率,则本地训练时间
Figure RE-GDA0003000444000000036
为:
Figure RE-GDA0003000444000000037
进一步的,所述的步骤S13建立用户最终收益模型具体包括:
假定联邦学习在有限迭代次数内收敛,那么可以使用一次迭代中的用户收益来估算整个联邦学习的用户收益,因此,用户收益函数如下:
Figure RE-GDA0003000444000000038
Figure RE-GDA0003000444000000039
Figure RE-GDA00030004440000000310
式中,
Figure RE-GDA00030004440000000311
γk分别为用户对能耗和训练时间的敏感参数。
进一步的,所述的步骤S14计算用户的单位训练成本:
由于用户自身的CPU频率选择并不会影响最终模型的精度等,因此每个用户自身的设备训练参数不会影响其他用户在模型上的收益,每个用户可以计算出自己的最佳CPU频率:
Figure RE-GDA0003000444000000041
式中,
Figure RE-GDA0003000444000000042
最终每个用户得出自身的单位训练成本:
Figure RE-GDA0003000444000000043
进一步的,所述的步骤S2中心服务器进行利益协调步骤具体包括:
S21.任意给定一个阈值
Figure RE-GDA0003000444000000044
实际上,Bth取离散的整数;首先为每个用户计算衡量用户质量的参数:
Figure RE-GDA0003000444000000045
然后根据用户质量参数大小将用户排序β12>…>βK
S22.定义总数据量函数:
在自组织式的联邦学习中总数据量大小影响着每个用户的收益,稳定用户策略有一定的特征,其中包含一个关键参与者c及其策略
Figure RE-GDA0003000444000000046
以关键参与者c为划分,计算用户策略,所有用户的总数据量大小定义为:
Figure RE-GDA0003000444000000047
Figure RE-GDA0003000444000000048
Figure RE-GDA0003000444000000049
Bj=Bth,ifB-j≥Φj (16)
Bj=0,if B-jj (17)
式中,
Figure RE-GDA00030004440000000410
即除了用户j以外所有用户的数据量之和,
Figure RE-GDA00030004440000000411
Figure RE-GDA00030004440000000412
为用户j的界限值,意味着当其余用户参与量大于该值时,用户j会选择参与自组织式联邦学习;
S23.求解纳什均衡策略:
考虑如下三个条件,当存在参与者c满足以下条件之一时,中心服务器则找到了对应的纳什均衡,总数据量函数此时对应的策略(B1,B2,...,Bk)为均衡策略;三个条件分别是:
条件1:
Figure RE-GDA0003000444000000051
且Bc+1=0;
条件2:
Figure RE-GDA0003000444000000052
且Bc+1=Bth
条件3:
Figure RE-GDA0003000444000000053
且Bc≠0;
当纳什均衡不存在时,即三个条件都无法满足时,存在i使得:
Figure RE-GDA0003000444000000054
Figure RE-GDA0003000444000000055
且条件3无法成立;根据总数据量函数
Figure RE-GDA0003000444000000056
关于
Figure RE-GDA0003000444000000057
的单调性,二分搜索一个Bx使得在一个预先定义的小的搜索精度∈>0下,Fc(i,Bx)<βc<Fc(i,Bx+∈)且Fc(i,Bx+∈)>Fc(i,Bx)+Bth;删除总数据量函数Fc(i,Bx+ ∈)中一个用户s,用户s满足策略不为0的用户中βs最小的用户;删除用户s后,从新的集群中重新寻找新的纳什均衡策略;不断重复以上删除过程,直到找到纳什均衡策略为止。
进一步的,所述的步骤S22中,对于函数
Figure RE-GDA0003000444000000058
给定c,
Figure RE-GDA0003000444000000059
第一项和第二项
Figure RE-GDA00030004440000000510
可直接求解,确定前两项后,第三项
Figure RE-GDA00030004440000000511
用户的策略可以由如下方法求解:对用户{c+1,...,K},置策略为Bth,遍历从K到c+1,若当前用户j满足公式(17),即B-j<Φj,则置策略Bj=0,继续遍历下一个用户,若当前用户j满足公式(16),则停止遍历,此时{c+1,...,K}的策略对应于第三项
Figure RE-GDA00030004440000000512
的解。
进一步的,所述的步骤S3中心服务器快速寻找近似最优阈值具体包括:
S31.中心服务器使用快速近似搜索方法寻找最优阈值,使得达到稳定状态时,集群总收益最大,给定一个阈值,使用求解纳什均衡的方法后,将均衡策略代入即可得到总收益,从实际考虑,阈值空间是离散并且有限的,即
Figure RE-GDA00030004440000000513
Figure RE-GDA00030004440000000514
S32.定义集群总收益:
Figure RE-GDA00030004440000000515
假设所有用户的单位训练成本相同且为:
Figure RE-GDA00030004440000000516
式中,U(1)为当Bth=1时,经过中心服务器的利益协调后,贡献数据量不为 0的用户所组成的集合,即贡献用户集,avgA(·)为对用户集中用户的单位训练成本求平均;
S33.对于给定的Bth,经过中心服务器利益协调,必然对应唯一的贡献用户集,以贡献用户集为准使用二分法搜索,将整个阈值搜索区间
Figure RE-GDA0003000444000000061
划分成多个子区间;因此,集群总收益的估算具有如下形式:
Figure RE-GDA0003000444000000062
式中,
Figure RE-GDA0003000444000000063
是当Bth∈[1,a)对应的贡献用户集,
Figure RE-GDA0003000444000000064
的定义与
Figure RE-GDA0003000444000000065
相同,N(Bth) 为给定Bth,经过中心服务器利益协调后,所有用户的总数据量;
S34.求出每个子区间的近似最优阈值:
对于某个子区间的近似最优阈值,以步骤S33的公式子区间Bth∈[1,a),方法如下:
Figure RE-GDA0003000444000000066
Figure RE-GDA0003000444000000067
当Boptimal=Btopt时,使用二分查找在区间[1,a)内,查找Bth使得N(Bth)与 Btopt最接近,此时对应的Bth为该子区间的近似最优阈值,否则,近似最优阈值在子区间边界为1或者a-1;
S35.对比所有子区间的最优阈值对应的整体收益,得到最终的最优阈值
Figure RE-GDA0003000444000000068
进一步的,所述的步骤S4联邦学习模型训练具体包括:
S41.中心服务器将协调后的数据发回给每个用户,其中包括要求用户贡献的最低阈值
Figure RE-GDA0003000444000000069
用户应该采取的训练数据量,其余用户数据量的总和;
S42.用户根据这三个信息判断在其余用户不改变的训练数据量的情况下,当前中心服务器所给的训练建议是否是最优的;如果是用户无法单方面改变自身决策来提升自身收益,即说明中心服务器所给的建议为当前最优,用户则同意按照改策略进行联邦学习;
S43.中心服务器接收到所有的用户确认后,组织并开启参与用户的联邦学习训练。
与现有技术相比,有益效果是:
1.本发明考虑边缘网络中的异构的用户,使得所有用户能够达到合作共识,从而让系统能够在实际中部署,具有更强的实用性;
2.采用阈值机制的方法,缓解集群用户共同合作下搭便车的现象,实现相对的公平,并且充分发挥用户的团队合作优势,系统设计更加合理;
3.本发明设计一个快速查找最优阈值的方法,优化系统的性能,增强系统的实用性。
附图说明
图1是边缘设备进行联邦学习的示意图。
图2是本发明协调用户进行联邦学习流程步骤图。
图3是本发明不添加任何阈值机制下的搭便车现象示意图。
图4是本发明实施例中不同人数下,不同类型集群下,添加阈值机制后,集群贡献总数据量相对于阈值机制下的增长率示意图。
图5是本发明实施例中不同人数下,不同类型集群下,添加阈值机制后,集群总收益相对于阈值机制下的增长率示意图。
图6是本发明实施例中本文方法与其他搜索方法性能比较示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
一种基于博弈论的自组织式联邦学习方法,包括以下步骤:
步骤1.用户基本信息收集,首先由网络中一群用户组成一个利益社群,在社群里的用户拥有相同的模型任务需求,并且向中心服务器发起联邦学习请求,每个用户将自身的基本信息,包括对模型的偏好和训练成本信息发给中心服务器,中心服务器作为中立权威的协调者,协调各个用户策略以保证联邦学习的进行。
的步骤S1具体包括:
S11.建立用户模型收益模型;
在联邦学习的某一轮中,每个用户在训练时,使用的训练数据量越大,将使得模型性能提升越大,机器模型的训练目标是为了让已定义损失函数不断的变小;对于某个用户k,定义其损失函数为Lk(wk,Dk),其中wk为用户k的人工智能模型的参数,Dk代表用户k的训练数据集;联邦学习使所有用户共同构建一个人工智能模型,因此聚合后的全局损失函数定义如下:
Figure RE-GDA0003000444000000081
式中,
Figure RE-GDA0003000444000000082
为所有用户构成的集合,进一步,定义联邦学习全局损失函数的衰减如下:
ΔL=L[n]-L[n-1] (2)
式中,n为第n轮联邦学习全局损失函数,使用全局损失函数的衰减ΔL可以刻画经过一次全局迭代模型的性能提升幅度;根据模型的收敛速度,ΔL和一次全局训练的数据量大小B有如下近似关系:
Figure RE-GDA0003000444000000083
式中,ξ是与模型相关的常数,Bk代表这一轮用户k用于训练的数据量大小;因此经过一轮全局迭代训练后,模型性能的提升给用户带来的收益如下:
θk ln(1+ΔL) (4)
其中θk为用户对模型的偏好参数。
S12.建立用户训练成本模型;
用户的训练成本包括训练能耗和训练时间,对于训练的能耗
Figure RE-GDA0003000444000000084
有如下计算公式:
Figure RE-GDA0003000444000000085
式中,α与芯片结构有关,Ck为用户使用一份训练数据执行一次梯度计算所需要的CPU周期数,fk为用户的训练时所使用的CPU频率,则本地训练时间
Figure RE-GDA0003000444000000086
为:
Figure RE-GDA0003000444000000087
S13.建立用户最终收益模型;
假定联邦学习在有限迭代次数内收敛,那么可以使用一次迭代中的用户收益来估算整个联邦学习的用户收益,因此,用户收益函数如下:
Figure RE-GDA0003000444000000088
Figure RE-GDA0003000444000000089
Figure RE-GDA00030004440000000810
式中,
Figure RE-GDA00030004440000000811
γk分别为用户对能耗和训练时间的敏感参数。
S14.计算用户的单位训练成本;
由于用户自身的CPU频率选择并不会影响最终模型的精度等,因此每个用户自身的设备训练参数不会影响其他用户在模型上的收益,每个用户可以计算出自己的最佳CPU频率:
Figure RE-GDA0003000444000000091
式中,
Figure RE-GDA0003000444000000092
最终每个用户得出自身的单位训练成本:
Figure RE-GDA0003000444000000093
S15.每个用户上传信息(θk,Ak,|Dk|)给中心服务器,请求协调联邦学习;|Dk| 为用户数据集的数据量大小,Ak为用户的单位训练成本;θk为用户对模型的偏好参数。
步骤2.中心服务器进行利益协调,由中心服务器根据用户信息,设定一个阈值,阈值要求每个用户至少提供最低阈值的训练数据量参与模型训练,否则不允许用户参与到自组织式联邦学习中来;中心服务器根据阈值为每个用户计算策略,使得每个用户接受该均衡策略,并且不再作任何改变;即,为每个用户计算一个策略,使得每个用户无法从单方面改变自身的策略来提升自身收益,从而达到纳什均衡。
中心服务器进行利益协调步骤具体包括:
S21.任意给定一个阈值
Figure RE-GDA0003000444000000094
实际上,Bth取离散的整数;首先为每个用户计算衡量用户质量的参数:
Figure RE-GDA0003000444000000095
然后根据用户质量参数大小将用户排序β1>β2>…>βK
S22.定义总数据量函数:
在自组织式的联邦学习中总数据量大小影响着每个用户的收益,稳定用户策略有一定的特征,其中包含一个关键参与者c及其策略
Figure RE-GDA0003000444000000096
以关键参与者c为划分,计算用户策略,所有用户的总数据量大小定义为:
Figure RE-GDA0003000444000000097
Figure RE-GDA0003000444000000098
Figure RE-GDA0003000444000000099
Bj=Bth,if B-j≥Φj (16)
Bj=0,if B-j<Φj (17)
式中,
Figure RE-GDA0003000444000000101
即除了用户j以外所有用户的数据量之和,
Figure RE-GDA0003000444000000102
Figure RE-GDA0003000444000000103
为用户j的界限值,意味着当其余用户参与量大于该值时,用户j会选择参与自组织式联邦学习;
对于函数
Figure RE-GDA0003000444000000104
给定c,
Figure RE-GDA0003000444000000105
第一项和第二项
Figure RE-GDA0003000444000000106
可直接求解,确定前两项后,第三项
Figure RE-GDA0003000444000000107
用户的策略可以由如下方法求解:对用户{c+ 1,...,K},置策略为Bth,遍历从K到c+1,若当前用户j满足公式(17),即B-j<Φj,则置策略Bj=0,继续遍历下一个用户,若当前用户j满足公式(16),则停止遍历,此时{c+1,...,K}的策略对应于第三项
Figure RE-GDA0003000444000000108
的解。
S23.求解纳什均衡策略:
考虑如下三个条件,当存在参与者c满足以下条件之一时,中心服务器则找到了对应的纳什均衡,总数据量函数此时对应的策略(B1,B2,...,Bk)为均衡策略;三个条件分别是:
条件1:
Figure RE-GDA0003000444000000109
且Bc+1=0;
条件2:
Figure RE-GDA00030004440000001010
且Bc+1=Bth
条件3:
Figure RE-GDA00030004440000001011
且Bc≠0;
当纳什均衡不存在时,即三个条件都无法满足时,存在i使得:
Figure RE-GDA00030004440000001012
Figure RE-GDA00030004440000001013
且条件3无法成立;根据总数据量函数
Figure RE-GDA00030004440000001014
关于
Figure RE-GDA00030004440000001015
的单调性,二分搜索一个Bx使得在一个预先定义的小的搜索精度∈>0下,Fc(i,Bx)<βc<Fc(i,Bx+∈)且Fc(i,Bx+∈)>Fc(i,Bx)+Bth;删除总数据量函数Fc(i,Bx+ ∈)中一个用户s,用户s满足策略不为0的用户中βs最小的用户;删除用户s后,从新的集群中重新寻找新的纳什均衡策略;不断重复以上删除过程,直到找到纳什均衡策略为止。
步骤3.中心服务器快速寻找近似最优阈值,寻找最优阈值使得用户经过中心服务器利益协调步骤后,集群用户总收益最大。
中心服务器快速寻找近似最优阈值具体包括:
S31.中心服务器使用快速近似搜索方法寻找最优阈值,使得达到稳定状态时,集群总收益最大,给定一个阈值,使用求解纳什均衡的方法后,将均衡策略代入即可得到总收益,从实际考虑,阈值空间是离散并且有限的,即
Figure RE-GDA0003000444000000111
Figure RE-GDA0003000444000000112
S32.定义集群总收益:
Figure RE-GDA0003000444000000113
假设所有用户的单位训练成本相同且为:
Figure RE-GDA0003000444000000114
式中,U(1)为当Bth=1时,经过中心服务器的利益协调后,贡献数据量不为 0的用户所组成的集合,即贡献用户集,avgA(·)为对用户集中用户的单位训练成本求平均;
S33.对于给定的Bth,经过中心服务器利益协调,必然对应唯一的贡献用户集,以贡献用户集为准使用二分法搜索,将整个阈值搜索区间
Figure RE-GDA0003000444000000115
划分成多个子区间;因此,集群总收益的估算具有如下形式:
Figure RE-GDA0003000444000000116
式中,
Figure RE-GDA0003000444000000117
是当Bth∈[1,a)对应的贡献用户集,
Figure RE-GDA0003000444000000118
的定义与
Figure RE-GDA0003000444000000119
相同,N(Bth) 为给定Bth,经过中心服务器利益协调后,所有用户的总数据量;
S34.求出每个子区间的近似最优阈值:
对于某个子区间的近似最优阈值,以步骤S33的公式子区间Bth∈[1,a),方法如下:
Figure RE-GDA00030004440000001110
Figure RE-GDA00030004440000001111
当Boptimal=Btopt时,使用二分查找在区间[1,a)内,查找Bth使得N(Bth)与 Btopt最接近,此时对应的Bth为该子区间的近似最优阈值,否则,近似最优阈值在子区间边界为1或者a-1;
S35.对比所有子区间的最优阈值对应的整体收益,得到最终的最优阈值
Figure RE-GDA00030004440000001112
步骤4.联邦学习模型训练,每个用户接收来自中心服务器的策略建议,确定是否接受该策略建议,一旦所有用户达成策略共识并且接受该建议,模型训练开始,所有用户依据该策略建议来进行联邦学习模型建模。
联邦学习模型训练具体包括:
S41.中心服务器将协调后的数据发回给每个用户,其中包括要求用户贡献的最低阈值
Figure RE-GDA0003000444000000122
用户应该采取的训练数据量,其余用户数据量的总和;
S42.用户根据这三个信息判断在其余用户不改变的训练数据量的情况下,当前中心服务器所给的训练建议是否是最优的;如果是用户无法单方面改变自身决策来提升自身收益,即说明中心服务器所给的建议为当前最优,用户则同意按照改策略进行联邦学习;
S43.中心服务器接收到所有的用户确认后,组织并开启参与用户的联邦学习训练。
本发明实施例中公开了基于博弈论的自组织式联邦学习的方法,其场景图如图1所示,一群拥有共同AI模型训练需求的用户组成集群,向中心服务器发起联邦学习请求,中心服务器采用本发明的方法,该方法基于博弈论的分析方法,协调一群拥有共同AI模型训练需求的用户参与联邦学习,并采用阈值机制缓解群体中搭便车现象,同时完成对最优阈值的搜索。方法流程图如图2所示。
本实施例的仿真实验环境具体如下,对于用户收益模型,本实例采取两类用户,分高质量和低质量用户。参数列表如表l所示:
表1高质量和低质量用户、参数列表
Figure RE-GDA0003000444000000121
本实验的实验集群构成由以上高质量和低质量用户按不同比例组成,图3说明了在不添加阈值机制下,经过中心服务器协调后,会出现搭便车现象,即有一部分用户不作任何贡献仍然可以获得模型收益,这极大的破坏了公平性。
图4体现了在不同人数K下,不同比例的高质量用户下,添加阈值机制后得到,团体贡献总数据量相对于阈值机制下的增长率。人数越多,高质量用户越少,搭便车现象越严重,阈值机制提升的效果更明显。图5体现了在不同人数下,不同比例的高质量用户下,集群用户总收益的增长率。添加阈值机制后,充分体现了团队优势,使得集群用户总收益均提升。
表2表示了本文设计的中心服务器搜索近似最优阈值方法在不同类型的集群下准确率方面的性能:
表2不同类型的集群下准确率方面的性能
Figure RE-GDA0003000444000000131
其中每个类型由高质量低质量按照随机比例组成,仅在用户拥有数据量上有所不同,其余参数相同,每个类型随机运行100次取平均结果得到。表2说明了近似最优阈值搜索算法不仅在准确率上有很高的保证,而且搜索出来的近似解,与最阈值对应的集群收益的差距占比也非常小,即在精度上也有很好的性能。
表3表示了与表2相同类型的集群下,快速搜索近似最优阈值方法与穷举线性搜索的运行性能对比。
表3快速搜索近似最优阈值方法与穷举线性搜索的运行性能对比
Figure RE-GDA0003000444000000132
Figure RE-GDA0003000444000000141
给定一个阈值,需要执行对应的中心服务器利益协调方法才可以获得均衡状态下的集群总收益,由于利益协调方法的复杂度较高,因此避免调用利益协调方法能够大大提高搜索效率。表3说明了本发明提出的快速搜索近似阈值方法具有良好的运行性能。
图6表明在不同高质量用户占领比例的不同(不同类型集群),不同搜索方法得到的阈值对应均衡下的集群收益相比无阈值机制下的增长率。其中,每个类型集群运行100次取平均结果。
每个搜索方法具体如下:
最小(Min):每次都选择Bth=1作为解。
最大(Max):每次都选择
Figure RE-GDA0003000444000000142
作为解。
随机(Random):随机在阈值区间内
Figure RE-GDA0003000444000000143
中选一个作为解。
取区间的中值(Half):取
Figure RE-GDA0003000444000000144
作为解。
线性(Linear)(实际最优):在区间
Figure RE-GDA0003000444000000145
线性搜索每一个阈值进行对比得出最优解。
图6展示本发明提出的快速搜索近似阈值方法与其他搜索方法的性能对比。本发明提出的方法在不同类型的集群上均优于其他的方法,同时性能接近线性穷举搜索(实际最优)。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于博弈论的自组织式联邦学习方法,其特征在于,包括以下步骤:
S1.用户基本信息收集,首先由网络中一群用户组成一个利益社群,在社群里的用户拥有相同的模型任务需求,并且向中心服务器发起联邦学习请求,每个用户将自身的基本信息,包括对模型的偏好和训练成本信息发给中心服务器,中心服务器作为中立权威的协调者,协调各个用户策略以保证联邦学习的进行;
S2.中心服务器进行利益协调,由中心服务器根据用户信息,设定一个阈值,阈值要求每个用户至少提供最低阈值的训练数据量参与模型训练,否则不允许用户参与到自组织式联邦学习中来;中心服务器根据阈值为每个用户计算策略,使得每个用户接受该均衡策略,并且不再作任何改变;即,为每个用户计算一个策略,使得每个用户无法从单方面改变自身的策略来提升自身收益,从而达到纳什均衡;
S3.中心服务器快速寻找近似最优阈值,寻找最优阈值使得用户经过中心服务器利益协调步骤后,集群用户总收益最大;
S4.联邦学习模型训练,每个用户接收来自中心服务器的策略建议,确定是否接受该策略建议,一旦所有用户达成策略共识并且接受该建议,模型训练开始,所有用户依据该策略建议来进行联邦学习模型建模。
2.根据权利要求1所述的基于博弈论的自组织式联邦学习方法,其特征在于,所述的步骤S1具体包括:
S11.建立用户模型收益模型;
S12.建立用户训练成本模型;
S13.建立用户最终收益模型;
S14.计算用户的单位训练成本;
S15.每个用户上传信息(θk,Ak,|Dk|)给中心服务器,请求协调联邦学习;|Dk|为用户数据集的数据量大小,Ak为用户的单位训练成本;θk为用户对模型的偏好参数。
3.根据权利要求1所述的基于博弈论的自组织式联邦学习方法,其特征在于,所述的步骤S11建立用户模型收益模型具体包括:
在联邦学习的某一轮中,每个用户在训练时,使用的训练数据量越大,将使得模型性能提升越大,机器模型的训练目标是为了让已定义损失函数不断的变小;对于某个用户k,定义其损失函数为Lk(wk,Dk),其中wk为用户k的人工智能模型的参数,Dk代表用户k的训练数据集;联邦学习使所有用户共同构建一个人工智能模型,因此聚合后的全局损失函数定义如下:
Figure RE-FDA0003000443990000021
式中,
Figure RE-FDA0003000443990000022
为所有用户构成的集合,进一步,定义联邦学习全局损失函数的衰减如下:
ΔL=L[n]-L[n-1] (2)
式中,n为第n轮联邦学习全局损失函数,使用全局损失函数的衰减ΔL可以刻画经过一次全局迭代模型的性能提升幅度;根据模型的收敛速度,ΔL和一次全局训练的数据量大小B有如下近似关系:
Figure RE-FDA0003000443990000023
式中,ξ是与模型相关的常数,Bk代表这一轮用户k用于训练的数据量大小;因此经过一轮全局迭代训练后,模型性能的提升给用户带来的收益如下:
θkln(1+ΔL) (4)
其中θk为用户对模型的偏好参数。
4.根据权利要求3所述的基于博弈论的自组织式联邦学习方法,其特征在于,所述的步骤S12建立用户训练成本模型具体包括:
用户的训练成本包括训练能耗和训练时间,对于训练的能耗
Figure RE-FDA0003000443990000024
有如下计算公式:
Figure RE-FDA0003000443990000025
式中,α与芯片结构有关,Ck为用户使用一份训练数据执行一次梯度计算所需要的CPU周期数,fk为用户的训练时所使用的CPU频率,则本地训练时间
Figure RE-FDA0003000443990000026
为:
Figure RE-FDA0003000443990000027
5.根据权利要求4所述的基于博弈论的自组织式联邦学习方法,其特征在于,所述的步骤S13建立用户最终收益模型具体包括:
假定联邦学习在有限迭代次数内收敛,那么可以使用一次迭代中的用户收益来估算整个联邦学习的用户收益,因此,用户收益函数如下:
Figure RE-FDA0003000443990000031
Figure RE-FDA0003000443990000032
Figure RE-FDA0003000443990000033
式中,
Figure RE-FDA0003000443990000034
γk分别为用户对能耗和训练时间的敏感参数。
6.根据权利要求5所述的基于博弈论的自组织式联邦学习方法,其特征在于,所述的步骤S14计算用户的单位训练成本:
由于用户自身的CPU频率选择并不会影响最终模型的精度等,因此每个用户自身的设备训练参数不会影响其他用户在模型上的收益,每个用户可以计算出自己的最佳CPU频率:
Figure RE-FDA0003000443990000035
式中,
Figure RE-FDA0003000443990000036
最终每个用户得出自身的单位训练成本:
Figure RE-FDA0003000443990000037
7.根据权利要求6所述的基于博弈论的自组织式联邦学习方法,其特征在于,所述的步骤S2中心服务器进行利益协调步骤具体包括:
S21.任意给定一个阈值
Figure RE-FDA0003000443990000038
首先为每个用户计算衡量用户质量的参数:
Figure RE-FDA0003000443990000039
然后根据用户质量参数大小将用户排序β12>…>βK
S22.定义总数据量函数:
在自组织式的联邦学习中总数据量大小影响着每个用户的收益,稳定用户策略有一定的特征,其中包含一个关键参与者c及其策略
Figure RE-FDA00030004439900000310
以关键参与者c为划分,计算用户策略,所有用户的总数据量大小定义为:
Figure RE-FDA00030004439900000311
Figure RE-FDA0003000443990000041
Figure RE-FDA0003000443990000042
Bj=Bth,if B-j≥Φj (16)
Bj=0,if B-jj (17)
式中,
Figure RE-FDA0003000443990000043
即除了用户j以外所有用户的数据量之和,
Figure RE-FDA0003000443990000044
Figure RE-FDA0003000443990000045
为用户j的界限值,意味着当其余用户参与量大于该值时,用户j会选择参与自组织式联邦学习;
S23.求解纳什均衡策略:
考虑如下三个条件,当存在参与者c满足以下条件之一时,中心服务器则找到了对应的纳什均衡,总数据量函数此时对应的策略(B1,B2,…,Bk)为均衡策略;三个条件分别是:
条件1:
Figure RE-FDA0003000443990000046
且Bc+1=0;
条件2:
Figure RE-FDA0003000443990000047
且Bc+1=Bth
条件3:
Figure RE-FDA0003000443990000048
且Bc≠0;
当纳什均衡不存在时,即三个条件都无法满足时,存在i使得:
Figure RE-FDA0003000443990000049
Figure RE-FDA00030004439900000410
且条件3无法成立;根据总数据量函数
Figure RE-FDA00030004439900000411
关于
Figure RE-FDA00030004439900000412
的单调性,二分搜索一个Bx使得在一个预先定义的小的搜索精度∈>0下,Fc(i,Bx)<βc<Fc(i,Bx+∈)且Fc(i,Bx+∈)>Fc(i,Bx)+Bth;删除总数据量函数Fc(i,Bx+∈)中一个用户s,用户s满足策略不为0的用户中βs最小的用户;删除用户s后,从新的集群中重新寻找新的纳什均衡策略;不断重复以上删除过程,直到找到纳什均衡策略为止。
8.根据权利要求7所述的基于博弈论的自组织式联邦学习方法,其特征在于,所述的步骤S22中,对于函数
Figure RE-FDA00030004439900000413
给定c,
Figure RE-FDA00030004439900000414
第一项和第二项
Figure RE-FDA00030004439900000415
可直接求解,确定前两项后,第三项
Figure RE-FDA00030004439900000416
用户的策略可以由如下方法求解:对用户{c+1,…,K},置策略为Bth,遍历从K到c+1,若当前用户j满足公式(17),即B-jj,则置策略Bj=0,继续遍历下一个用户,若当前用户j满足公式(16),则停止遍历,此时{c+1,…,K}的策略对应于第三项
Figure RE-FDA00030004439900000417
的解。
9.根据权利要求8所述的基于博弈论的自组织式联邦学习方法,其特征在于,所述的步骤S3中心服务器快速寻找近似最优阈值具体包括:
S31.中心服务器使用快速近似搜索方法寻找最优阈值,使得达到稳定状态时,集群总收益最大,给定一个阈值,使用求解纳什均衡的方法后,将均衡策略代入即可得到总收益,从实际考虑,阈值空间是离散并且有限的,即
Figure RE-FDA0003000443990000051
Figure RE-FDA0003000443990000052
S32.定义集群总收益:
Figure RE-FDA0003000443990000053
假设所有用户的单位训练成本相同且为:
Figure RE-FDA0003000443990000054
式中,U(1)为当Bth=1时,经过中心服务器的利益协调后,贡献数据量不为0的用户所组成的集合,即贡献用户集,avgA(·)为对用户集中用户的单位训练成本求平均;
S33.对于给定的Bth,经过中心服务器利益协调,必然对应唯一的贡献用户集,以贡献用户集为准使用二分法搜索,将整个阈值搜索区间
Figure RE-FDA0003000443990000055
划分成多个子区间;因此,集群总收益的估算具有如下形式:
Figure RE-FDA0003000443990000056
式中,
Figure RE-FDA0003000443990000057
是当Bth∈[1,a)对应的贡献用户集,
Figure RE-FDA0003000443990000058
的定义与
Figure RE-FDA0003000443990000059
相同,N(Bth)为给定Bth,经过中心服务器利益协调后,所有用户的总数据量;
S34.求出每个子区间的近似最优阈值:
对于某个子区间的近似最优阈值,以步骤S33的公式子区间Bth∈[1,a),方法如下:
Figure RE-FDA00030004439900000510
Figure RE-FDA00030004439900000511
当Boptimal=Btopt时,使用二分查找在区间[1,a)内,查找Bth使得N(Bth)与Btopt最接近,此时对应的Bth为该子区间的近似最优阈值,否则,近似最优阈值在子区间边界为1或者a-1;
S35.对比所有子区间的最优阈值对应的整体收益,得到最终的最优阈值
Figure RE-FDA0003000443990000061
10.根据权利要求9所述的基于博弈论的自组织式联邦学习方法,其特征在于,所述的步骤S4联邦学习模型训练具体包括:
S41.中心服务器将协调后的数据发回给每个用户,其中包括要求用户贡献的最低阈值
Figure RE-FDA0003000443990000062
用户应该采取的训练数据量,其余用户数据量的总和;
S42.用户根据这三个信息判断在其余用户不改变的训练数据量的情况下,当前中心服务器所给的训练建议是否是最优的;如果是用户无法单方面改变自身决策来提升自身收益,即说明中心服务器所给的建议为当前最优,用户则同意按照改策略进行联邦学习;
S43.中心服务器接收到所有的用户确认后,组织并开启参与用户的联邦学习训练。
CN202011492248.6A 2020-12-16 2020-12-16 基于博弈论的自组织式联邦学习方法 Pending CN112836828A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011492248.6A CN112836828A (zh) 2020-12-16 2020-12-16 基于博弈论的自组织式联邦学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011492248.6A CN112836828A (zh) 2020-12-16 2020-12-16 基于博弈论的自组织式联邦学习方法

Publications (1)

Publication Number Publication Date
CN112836828A true CN112836828A (zh) 2021-05-25

Family

ID=75923608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011492248.6A Pending CN112836828A (zh) 2020-12-16 2020-12-16 基于博弈论的自组织式联邦学习方法

Country Status (1)

Country Link
CN (1) CN112836828A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329985A (zh) * 2022-09-07 2022-11-11 北京邮电大学 无人集群智能模型训练方法、装置和电子设备
CN115376031A (zh) * 2022-10-24 2022-11-22 江西省科学院能源研究所 基于联邦自适应学习的公路无人机巡检数据处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090007101A1 (en) * 2007-06-28 2009-01-01 Microsoft Corporation Optimal policies for load balancing for distributed and strategic agents (more technically, optimal coordination mechanisms for machine scheduling)
CN110751293A (zh) * 2019-09-29 2020-02-04 浙江财经大学 一种基于博弈论的云制造多任务调度优化方法
CN110851268A (zh) * 2019-10-17 2020-02-28 中山大学 一种基于拥塞博弈的边缘调度优化方法
CN111600707A (zh) * 2020-05-15 2020-08-28 华南师范大学 一种在隐私保护下的去中心化联邦机器学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090007101A1 (en) * 2007-06-28 2009-01-01 Microsoft Corporation Optimal policies for load balancing for distributed and strategic agents (more technically, optimal coordination mechanisms for machine scheduling)
CN110751293A (zh) * 2019-09-29 2020-02-04 浙江财经大学 一种基于博弈论的云制造多任务调度优化方法
CN110851268A (zh) * 2019-10-17 2020-02-28 中山大学 一种基于拥塞博弈的边缘调度优化方法
CN111600707A (zh) * 2020-05-15 2020-08-28 华南师范大学 一种在隐私保护下的去中心化联邦机器学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王海鹰: "基于蚁群优化算法的城市生态用地空间规划模型", 《地理科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329985A (zh) * 2022-09-07 2022-11-11 北京邮电大学 无人集群智能模型训练方法、装置和电子设备
CN115329985B (zh) * 2022-09-07 2023-10-27 北京邮电大学 无人集群智能模型训练方法、装置和电子设备
CN115376031A (zh) * 2022-10-24 2022-11-22 江西省科学院能源研究所 基于联邦自适应学习的公路无人机巡检数据处理方法

Similar Documents

Publication Publication Date Title
Zhou et al. When mobile crowd sensing meets UAV: Energy-efficient task assignment and route planning
Lin et al. AI-driven collaborative resource allocation for task execution in 6G-enabled massive IoT
Luo et al. Personalized federated recommendation via joint representation learning, user clustering, and model adaptation
Wang et al. Exploiting social influence for context-aware event recommendation in event-based social networks
WO2022151654A1 (zh) 一种基于随机贪心算法的横向联邦梯度提升树优化方法
CN109921921B (zh) 一种时变网络中时效稳定社团的检测方法和装置
CN112836828A (zh) 基于博弈论的自组织式联邦学习方法
Huang et al. Collaboration in participant-centric federated learning: A game-theoretical perspective
Wang et al. Game-theoretic algorithm designs and analysis for interactions among contributors in mobile crowdsourcing with word of mouth
CN111475724B (zh) 一种基于用户相似度的随机游走社交网络事件推荐方法
CN109919793B (zh) 活动参与分析及推荐方法
Tan et al. Reputation-aware federated learning client selection based on stochastic integer programming
Zheng [Retracted] Evolutionary Game Analysis of Knowledge Sharing in Low‐Carbon Innovation Network
CN116383519A (zh) 基于双加权的自注意力的群组推荐方法
Serrano et al. Competition and adaptation in an Internet evolution model
Wu et al. Delay-aware edge-terminal collaboration in green internet of vehicles: A multiagent soft actor-critic approach
Zhang et al. Distributed pricing and bandwidth allocation in crowdsourced wireless community networks
Li et al. Participant grouping for privacy preservation in mobile crowdsensing over hierarchical edge clouds
Arisdakessian et al. Towards instant clustering approach for federated learning client selection
Zhu et al. Cognitive analytics of social media services for edge resource pre-allocation in industrial manufacturing
Liu et al. A dynamic group grey target decision approach with group negotiation and Orness measure constraint
Benmammar et al. A pareto optimal multi-objective optimisation for parallel dynamic programming algorithm applied in cognitive radio ad hoc networks
CN117459570A (zh) 联邦学习中基于强化学习的客户端选择和自适应模型聚合方法及系统
Ma et al. Clustering Based Priority Queue Algorithm for Spatial Task Assignment in Crowdsourcing
CN110867224A (zh) 用于大规模脑病历分割的多粒度Spark超信任模糊方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210525