CN112506753B - 一种联邦学习场景中高效的贡献评估方法 - Google Patents

一种联邦学习场景中高效的贡献评估方法 Download PDF

Info

Publication number
CN112506753B
CN112506753B CN202011465470.7A CN202011465470A CN112506753B CN 112506753 B CN112506753 B CN 112506753B CN 202011465470 A CN202011465470 A CN 202011465470A CN 112506753 B CN112506753 B CN 112506753B
Authority
CN
China
Prior art keywords
model
user
server
weight
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011465470.7A
Other languages
English (en)
Other versions
CN112506753A (zh
Inventor
张兰
李向阳
王俊豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deqing Alpha Innovation Research Institute
Original Assignee
Deqing Alpha Innovation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deqing Alpha Innovation Research Institute filed Critical Deqing Alpha Innovation Research Institute
Priority to CN202011465470.7A priority Critical patent/CN112506753B/zh
Publication of CN112506753A publication Critical patent/CN112506753A/zh
Application granted granted Critical
Publication of CN112506753B publication Critical patent/CN112506753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种联邦学习场景中高效的贡献评估方法,它根据训练日志计算权重:服务器使用联邦学习的训练日志来计算各个用户在模型聚合时的权重。普通联邦学习中,第t+1个epoch中,服务器聚合模型的形式化为:
Figure DDA0002834000160000011
又可以写为:
Figure DDA0002834000160000012
其中θt+1表示第t+1轮的全局模型,θt为第t个epoch的全局模型,本发明通过用户在模型聚合时的权重来计算贡献,极大降低了计算开销,将指数级开销降低为线性开销,并且能够加快模型收敛,提高性能;2)所使用的训练日志是联邦学习所固有的信息,没有额外的隐私保护成本。

Description

一种联邦学习场景中高效的贡献评估方法
技术领域
本发明涉及的联邦学习场景中高效的贡献评估,属于机器学习和数据分析领域。
背景技术
联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在2016年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
联邦学习的一大特点就是它较好地解决了数据孤岛问题,并且在训练过程后,每个用户对模型的贡献能够记录在永久数据记录机制,实际效果会在实际应用中表现出来。随着人工智能和移动计算的飞速发展,很多数据都是众包得到,每个用户提供数据的质量和数量大不相同,如果根据用户对训练模型的贡献对各个用户进行反馈和激励,则能够激励用户提供更多的数据和更多的用户参与到联邦学习中,促人工智能的发展。
针对机器学习的和联邦学习的贡献评估已有一系列工作,但他们都不适用于现实联邦学习系统,相关的技术包括博弈论和机器学习可解释性研究等,他们旨在通过分析数据样本对模型训练效果的影响来确定其贡献。现有工作通常使用沙普利值来计算各个训练样本对模型训练的贡献,但这不能直接用于联邦系统中,主要原因是计算沙普利值需要指数级的计算和通信开销,这在现实的联邦学习系统中通常不可能实现。
发明内容
本发明的目的在于克服现有技术的不足,高效的评估联邦学习系统中每个用户对联邦学习系统的贡献,并并且能够加快模型训练的收敛,提升模型的性能,本发明的主要步骤为:主要步骤如下:
1)根据训练日志计算权重:服务器使用联邦学习的训练日志(用户的模型更新参数
Figure GDA0003611845840000021
t∈[T],n∈[N],t表示训练轮数,n表示用户数)来计算各个用户在模型聚合时的权重。普通联邦学习中,第t+1个epoch中,服务器聚合模型的形式化为:
Figure GDA0003611845840000022
又可以写为:
Figure GDA0003611845840000023
Figure GDA0003611845840000024
其中θt+1表示第t+1轮的全局模型,θt为第t个epoch的全局模型,
Figure GDA0003611845840000025
η为学习率。由于服务器不能访问到各个用户的训练数据,并且数据很多都是众包得到,各个用户的数据质量和分布情况大不相同,所以服务器只能使用自己拥有的数据作为测试数据集测试全局模型性能,这里假设服务器拥有的测试数据集是高质量的数据集(没有噪音且分布均匀)。在联邦学习训练的过程中,服务器倾向于降低全局模型在测试数据集的损失函数,即:argminlossv(θ),其中,lossv(θ)表示模型θ在测试数据集(validation set)的损失函数。
要求解最优的权重
Figure GDA0003611845840000026
最直观的方法是使用梯度下降,即:
Figure GDA0003611845840000027
其中,
Figure GDA0003611845840000028
在求得
Figure GDA0003611845840000029
后,使用
Figure GDA00036118458400000210
作为用户在模型聚合时的权重。
2)根据权重计算贡献:在上一步中,已经求得各个用户在模型聚合时的权重。使用权重作为沙普利值的效用函数,即可在线性时间内计算得到沙普利值,避免指数级的开销。计算用户φi的沙普利值:
Figure GDA00036118458400000211
Figure GDA00036118458400000212
Figure GDA0003611845840000031
即:
Figure GDA0003611845840000032
本发明设计了一个面向联邦学习的高效的贡献评估,并可以修正联邦学习的训练方向,加快模型的收敛,提升联邦学习系统的性能。本发明提出的方法优势体现在1)通过用户在模型聚合时的权重来计算贡献,极大降低了计算开销,将指数级开销降低为线性开销,并且能够加快模型收敛,提高性能;2)所使用的训练日志是联邦学习所固有的信息,没有额外的隐私保护成本。
具体实施方式
下面将结合对本发明作详细的介绍:
在横向联邦学习中,参与用户各自从服务器下载最新的全局模型,然后利用本地数据训练得到局部模型,上传给服务器;服务器聚合各个用户上传的局部模型更新全局模型。联邦学习系统中,为了保护数据隐私,服务器不能直接访问用户的训练数据,故服务器利用训练日志(用户上传的局部模型),评估各个用户的在梯度聚合时的权重,然后根据权重计算各个用户对模型的贡献。在该模块中,主要步骤如下:
1)根据训练日志计算权重:服务器使用联邦学习的训练日志(用户的模型更新参数
Figure GDA0003611845840000033
t∈[T],n∈[N],t表示训练轮数,n表示用户数)来计算各个用户在模型聚合时的权重。普通联邦学习中,第t+1个epoch中,服务器聚合模型的形式化为:
Figure GDA0003611845840000034
又可以写为:
Figure GDA0003611845840000035
Figure GDA0003611845840000036
其中θt+1表示第t+1轮的全局模型,θt为第t个epoch的全局模型,
Figure GDA0003611845840000037
η为学习率。由于服务器不能访问到各个用户的训练数据,并且数据很多都是众包得到,各个用户的数据质量和分布情况大不相同,所以服务器只能使用自己拥有的数据作为测试数据集测试全局模型性能,这里假设服务器拥有的测试数据集是高质量的数据集(没有噪音且分布均匀)。在联邦学习训练的过程中,服务器倾向于降低全局模型在测试数据集的损失函数,即:argminlossv(θ),其中,lossv(θ)表示模型θ在测试数据集(validation set)的损失函数。
要求解最优的权重
Figure GDA0003611845840000041
最直观的方法是使用梯度下降,即:
Figure GDA0003611845840000042
其中,
Figure GDA0003611845840000043
在求得
Figure GDA0003611845840000044
后,使用
Figure GDA0003611845840000045
作为用户在模型聚合时的权重。
2)根据权重计算贡献:在上一步中,已经求得各个用户在模型聚合时的权重。使用权重作为沙普利值的效用函数,即可在线性时间内计算得到沙普利值,避免指数级的开销。计算用户φi的沙普利值:
Figure GDA0003611845840000046
Figure GDA0003611845840000047
Figure GDA0003611845840000048
即:
Figure GDA0003611845840000049

Claims (1)

1.一种联邦学习场景中高效的贡献评估方法,其特征在于所述方法包括如下步骤:
一、根据训练日志计算权重:服务器使用联邦学习的训练日志,用户的模型更新参数
Figure FDA0003611845830000011
t表示训练轮数,n表示用户数,来计算各个用户在模型聚合时的权重,普通联邦学习中,第t+1个epoch中,服务器聚合模型的形式化为:
Figure FDA0003611845830000012
Figure FDA0003611845830000013
又可以写为:
Figure FDA0003611845830000014
其中θt+1表示第t+1轮的全局模型,θt为第t个epoch的全局模型,
Figure FDA0003611845830000015
η为学习率,由于服务器不能访问到各个用户的训练数据,并且数据很多都是众包得到,各个用户的数据质量和分布情况大不相同,所以服务器只能使用自己拥有的数据作为测试数据集测试全局模型性能,这里假设服务器拥有的测试数据集是高质量的数据集,没有噪音且分布均匀,在联邦学习训练的过程中,服务器倾向于降低全局模型在测试数据集的损失函数,即:
arg min lossv(θ),其中,lossv(θ)表示模型θ在测试数据集(validation set)的损失函数,要求解最优的权重
Figure FDA0003611845830000016
最直观的方法是使用梯度下降,即:
Figure FDA0003611845830000017
其中,
Figure FDA0003611845830000018
在求得
Figure FDA0003611845830000019
后,使用
Figure FDA00036118458300000110
作为用户在模型聚合时的权重;
二.根据权重计算贡献:在上一步中,已经求得各个用户在模型聚合时的权重,使用权重作为沙普利值的效用函数,即可在线性时间内计算得到沙普利值,避免指数级的开销,计算用户
Figure FDA00036118458300000111
的沙普利值:
Figure FDA00036118458300000112
Figure FDA00036118458300000113
即:
Figure FDA00036118458300000114
CN202011465470.7A 2020-12-14 2020-12-14 一种联邦学习场景中高效的贡献评估方法 Active CN112506753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011465470.7A CN112506753B (zh) 2020-12-14 2020-12-14 一种联邦学习场景中高效的贡献评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011465470.7A CN112506753B (zh) 2020-12-14 2020-12-14 一种联邦学习场景中高效的贡献评估方法

Publications (2)

Publication Number Publication Date
CN112506753A CN112506753A (zh) 2021-03-16
CN112506753B true CN112506753B (zh) 2022-06-28

Family

ID=74972847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011465470.7A Active CN112506753B (zh) 2020-12-14 2020-12-14 一种联邦学习场景中高效的贡献评估方法

Country Status (1)

Country Link
CN (1) CN112506753B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712182B (zh) * 2021-03-29 2021-06-01 腾讯科技(深圳)有限公司 一种基于联邦学习的模型训练方法、装置及存储介质
CN113139662B (zh) * 2021-04-23 2023-07-14 深圳市大数据研究院 联邦学习的全局及局部梯度处理方法、装置、设备和介质
CN113297593A (zh) * 2021-05-14 2021-08-24 同盾控股有限公司 基于隐私计算的贡献度计算方法及装置、设备、介质
CN113515890B (zh) * 2021-05-21 2024-03-08 华北电力大学 一种基于联邦学习的可再生能源日前场景生成方法
CN113255004A (zh) * 2021-06-16 2021-08-13 大连理工大学 一种安全且高效的联邦学习内容缓存方法
CN113657996A (zh) * 2021-08-26 2021-11-16 深圳市洞见智慧科技有限公司 一种联邦学习中特征贡献度的确定方法、装置及电子设备
CN113887743B (zh) * 2021-09-29 2022-07-22 浙江大学 一种联邦学习中数据遗忘与验证的平台
CN114553869A (zh) * 2022-02-11 2022-05-27 新智我来网络科技有限公司 基于联合学习的确定资源贡献度的方法、装置和电子设备
CN114564746B (zh) * 2022-02-28 2024-05-14 浙江大学 基于客户端权重评价的联邦学习方法和系统
CN114706743B (zh) * 2022-04-27 2023-01-06 中电普信(北京)科技发展有限公司 一种支持实时评估的综合评估方法
CN115049011A (zh) * 2022-06-27 2022-09-13 支付宝(杭州)信息技术有限公司 确定联邦学习的训练成员模型贡献度的方法及装置
CN117172338B (zh) * 2023-11-02 2024-02-02 数据空间研究院 纵向联邦学习场景中的贡献评估方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288094A (zh) * 2019-06-10 2019-09-27 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法及装置
CN110490335A (zh) * 2019-08-07 2019-11-22 深圳前海微众银行股份有限公司 一种计算参与者贡献率的方法及装置
CN110610242A (zh) * 2019-09-02 2019-12-24 深圳前海微众银行股份有限公司 一种联邦学习中参与者权重的设置方法及装置
CN111581648A (zh) * 2020-04-06 2020-08-25 电子科技大学 在不规则用户中保留隐私的联邦学习的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475350B2 (en) * 2018-01-22 2022-10-18 Google Llc Training user-level differentially private machine-learned models
US11836643B2 (en) * 2019-03-08 2023-12-05 Nec Corporation System for secure federated learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288094A (zh) * 2019-06-10 2019-09-27 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法及装置
CN110490335A (zh) * 2019-08-07 2019-11-22 深圳前海微众银行股份有限公司 一种计算参与者贡献率的方法及装置
CN110610242A (zh) * 2019-09-02 2019-12-24 深圳前海微众银行股份有限公司 一种联邦学习中参与者权重的设置方法及装置
CN111581648A (zh) * 2020-04-06 2020-08-25 电子科技大学 在不规则用户中保留隐私的联邦学习的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HUAFEI ZHU.《Privacy-Preserving Weighted Federated Learning》.《IEEE Access》.2020, *

Also Published As

Publication number Publication date
CN112506753A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112506753B (zh) 一种联邦学习场景中高效的贡献评估方法
CN106097043B (zh) 一种信用数据的处理方法及服务器
CN113112027A (zh) 一种基于动态调整模型聚合权重的联邦学习方法
CN112906903A (zh) 网络安全风险预测方法、装置、存储介质及计算机设备
CN110610242A (zh) 一种联邦学习中参与者权重的设置方法及装置
CN113762530B (zh) 面向隐私保护的精度反馈联邦学习方法
CN113947215A (zh) 联邦学习管理方法、装置、计算机设备及存储介质
CN108319974B (zh) 数据处理方法、装置、存储介质和电子装置
CN113052329B (zh) 联合更新业务模型的方法及装置
CN113691594B (zh) 一种基于二阶导数解决联邦学习中数据不平衡问题的方法
CN112464822A (zh) 一种基于特征增强的头盔佩戴检测方法及装置
CN114301935A (zh) 一种基于声誉的物联网边云协同联邦学习节点选择方法
CN115622777A (zh) 一种基于联盟链的多中心联邦学习数据共享方法
CN115481441A (zh) 面向联邦学习的差分隐私保护方法及装置
CN114565106A (zh) 基于孤立森林的联邦学习中毒攻击的防御方法
CN110855474A (zh) Kqi数据的网络特征提取方法、装置、设备及存储介质
CN115510472A (zh) 一种面向云边聚合系统的多重差分隐私保护方法及系统
CN109635349A (zh) 一种噪声增强最小化克拉美罗界的方法
CN116502728A (zh) 一种基于联邦学习的动态聚合方法和装置
CN113849805A (zh) 移动用户可信认证方法及装置、电子设备、存储介质
CN112235787B (zh) 一种基于生成对抗网络的位置隐私保护方法
CN113361625A (zh) 一种联邦学习场景中带有隐私保护的错误数据检测方法
CN117172338B (zh) 纵向联邦学习场景中的贡献评估方法
Boulegane et al. Real-time machine learning competition on data streams at the IEEE big data 2019
CN113988314B (zh) 一种选择客户端的分簇联邦学习方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant