CN112506753A - 一种联邦学习场景中高效的贡献评估方法 - Google Patents
一种联邦学习场景中高效的贡献评估方法 Download PDFInfo
- Publication number
- CN112506753A CN112506753A CN202011465470.7A CN202011465470A CN112506753A CN 112506753 A CN112506753 A CN 112506753A CN 202011465470 A CN202011465470 A CN 202011465470A CN 112506753 A CN112506753 A CN 112506753A
- Authority
- CN
- China
- Prior art keywords
- model
- server
- user
- training
- aggregation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000002776 aggregation Effects 0.000 claims abstract description 17
- 238000004220 aggregation Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 9
- 238000013459 approach Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Prevention of errors by analysis, debugging or testing of software
- G06F11/3668—Testing of software
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
技术领域
本发明涉及的联邦学习场景中高效的贡献评估,属于机器学习和数据分析领域。
背景技术
联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在2016年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
联邦学习的一大特点就是它较好地解决了数据孤岛问题,并且在训练过程后,每个用户对模型的贡献能够记录在永久数据记录机制,实际效果会在实际应用中表现出来。随着人工智能和移动计算的飞速发展,很多数据都是众包得到,每个用户提供数据的质量和数量大不相同,如果根据用户对训练模型的贡献对各个用户进行反馈和激励,则能够激励用户提供更多的数据和更多的用户参与到联邦学习中,促人工智能的发展。
针对机器学习的和联邦学习的贡献评估已有一系列工作,但他们都不适用于现实联邦学习系统,相关的技术包括博弈论和机器学习可解释性研究等,他们旨在通过分析数据样本对模型训练效果的影响来确定其贡献。现有工作通常使用沙普利值来计算各个训练样本对模型训练的贡献,但这不能直接用于联邦系统中,主要原因是计算沙普利值需要指数级的计算和通信开销,这在现实的联邦学习系统中通常不可能实现。
发明内容
本发明的目的在于克服现有技术的不足,高效的评估联邦学习系统中每个用户对联邦学习系统的贡献,并并且能够加快模型训练的收敛,提升模型的性能,本发明的主要步骤为:主要步骤如下:
1)根据训练日志计算权重:服务器使用联邦学习的训练日志(用户的模型更新参数t∈[T],n∈[N],t表示训练轮数,n表示用户数)来计算各个用户在模型聚合时的权重。普通联邦学习中,第t+1个epoch中,服务器聚合模型的形式化为: 又可以写为:其中θt+1表示第t+1轮的全局模型,θt为第t个epoch的全局模型,η为学习率。由于服务器不能访问到各个用户的训练数据,并且数据很多都是众包得到,各个用户的数据质量和分布情况大不相同,所以服务器只能使用自己拥有的数据作为测试数据集测试全局模型性能,这里假设服务器拥有的测试数据集是高质量的数据集(没有噪音且分布均匀)。在联邦学习训练的过程中,服务器倾向于降低全局模型在测试数据集的损失函数,即:argmin lossv(θ),其中,lossv(θ)表示模型θ在测试数据集(validation set)的损失函数。要求解最优的权重最直观的方法是使用梯度下降,即:
本发明设计了一个面向联邦学习的高效的贡献评估,并可以修正联邦学习的训练方向,加快模型的收敛,提升联邦学习系统的性能。本发明提出的方法优势体现在1)通过用户在模型聚合时的权重来计算贡献,极大降低了计算开销,将指数级开销降低为线性开销,并且能够加快模型收敛,提高性能;2)所使用的训练日志是联邦学习所固有的信息,没有额外的隐私保护成本。
具体实施方式
下面将结合对本发明作详细的介绍:
在横向联邦学习中,参与用户各自从服务器下载最新的全局模型,然后利用本地数据训练得到局部模型,上传给服务器;服务器聚合各个用户上传的局部模型更新全局模型。联邦学习系统中,为了保护数据隐私,服务器不能直接访问用户的训练数据,故服务器利用训练日志(用户上传的局部模型),评估各个用户的在梯度聚合时的权重,然后根据权重计算各个用户对模型的贡献。在该模块中,主要步骤如下:
1)根据训练日志计算权重:服务器使用联邦学习的训练日志(用户的模型更新参数t∈[T],n∈[N],t表示训练轮数,n表示用户数)来计算各个用户在模型聚合时的权重。普通联邦学习中,第t+1个epoch中,服务器聚合模型的形式化为:又可以写为:其中θt+1表示第t+1轮的全局模型,θt为第t个epoch的全局模型,η为学习率。由于服务器不能访问到各个用户的训练数据,并且数据很多都是众包得到,各个用户的数据质量和分布情况大不相同,所以服务器只能使用自己拥有的数据作为测试数据集测试全局模型性能,这里假设服务器拥有的测试数据集是高质量的数据集(没有噪音且分布均匀)。在联邦学习训练的过程中,服务器倾向于降低全局模型在测试数据集的损失函数,即:argmin lossv(θ),其中,lossv(θ)表示模型θ在测试数据集(validation set)的损失函数。要求解最优的权重最直观的方法是使用梯度下降,即:
Claims (1)
1.一种联邦学习场景中高效的贡献评估方法,其特征在于所述该方法包括如下步骤:
一、根据训练日志计算权重:服务器使用联邦学习的训练日志(用户的模型更新参数t∈[T],n∈[N],t表示训练轮数,n表示用户数)来计算各个用户在模型聚合时的权重。普通联邦学习中,第t+1个epoch中,服务器聚合模型的形式化为:又可以写为:其中θt+1表示第t+1轮的全局模型,θt为第t个epoch的全局模型,η为学习率。由于服务器不能访问到各个用户的训练数据,并且数据很多都是众包得到,各个用户的数据质量和分布情况大不相同,所以服务器只能使用自己拥有的数据作为测试数据集测试全局模型性能,这里假设服务器拥有的测试数据集是高质量的数据集(没有噪音且分布均匀)。在联邦学习训练的过程中,服务器倾向于降低全局模型在测试数据集的损失函数,即:argmin lossv(θ),其中,lossv(θ)表示模型θ在测试数据集(validation set)的损失函数。要求解最优的权重最直观的方法是使用梯度下降,即:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011465470.7A CN112506753B (zh) | 2020-12-14 | 2020-12-14 | 一种联邦学习场景中高效的贡献评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011465470.7A CN112506753B (zh) | 2020-12-14 | 2020-12-14 | 一种联邦学习场景中高效的贡献评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112506753A true CN112506753A (zh) | 2021-03-16 |
CN112506753B CN112506753B (zh) | 2022-06-28 |
Family
ID=74972847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011465470.7A Active CN112506753B (zh) | 2020-12-14 | 2020-12-14 | 一种联邦学习场景中高效的贡献评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112506753B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712182A (zh) * | 2021-03-29 | 2021-04-27 | 腾讯科技(深圳)有限公司 | 一种基于联邦学习的模型训练方法、装置及存储介质 |
CN113139662A (zh) * | 2021-04-23 | 2021-07-20 | 深圳市大数据研究院 | 联邦学习的全局及局部梯度处理方法、装置、设备和介质 |
CN113255004A (zh) * | 2021-06-16 | 2021-08-13 | 大连理工大学 | 一种安全且高效的联邦学习内容缓存方法 |
CN113297593A (zh) * | 2021-05-14 | 2021-08-24 | 同盾控股有限公司 | 基于隐私计算的贡献度计算方法及装置、设备、介质 |
CN113515890A (zh) * | 2021-05-21 | 2021-10-19 | 华北电力大学 | 一种基于联邦学习的可再生能源日前场景生成方法 |
CN113657996A (zh) * | 2021-08-26 | 2021-11-16 | 深圳市洞见智慧科技有限公司 | 一种联邦学习中特征贡献度的确定方法、装置及电子设备 |
CN113887743A (zh) * | 2021-09-29 | 2022-01-04 | 浙江大学 | 一种联邦学习中数据遗忘与验证的平台 |
CN114298156A (zh) * | 2021-12-06 | 2022-04-08 | 贵州大学 | 一种基于公平联邦学习算法的数据分类方法及系统 |
CN114553869A (zh) * | 2022-02-11 | 2022-05-27 | 新智我来网络科技有限公司 | 基于联合学习的确定资源贡献度的方法、装置和电子设备 |
CN114564746A (zh) * | 2022-02-28 | 2022-05-31 | 浙江大学 | 基于客户端权重评价的联邦学习方法和系统 |
CN114706743A (zh) * | 2022-04-27 | 2022-07-05 | 中电普信(北京)科技发展有限公司 | 一种支持实时评估的综合评估方法 |
CN115049011A (zh) * | 2022-06-27 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 确定联邦学习的训练成员模型贡献度的方法及装置 |
CN117172338A (zh) * | 2023-11-02 | 2023-12-05 | 数据空间研究院 | 纵向联邦学习场景中的贡献评估方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190227980A1 (en) * | 2018-01-22 | 2019-07-25 | Google Llc | Training User-Level Differentially Private Machine-Learned Models |
CN110288094A (zh) * | 2019-06-10 | 2019-09-27 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法及装置 |
CN110490335A (zh) * | 2019-08-07 | 2019-11-22 | 深圳前海微众银行股份有限公司 | 一种计算参与者贡献率的方法及装置 |
CN110610242A (zh) * | 2019-09-02 | 2019-12-24 | 深圳前海微众银行股份有限公司 | 一种联邦学习中参与者权重的设置方法及装置 |
CN111581648A (zh) * | 2020-04-06 | 2020-08-25 | 电子科技大学 | 在不规则用户中保留隐私的联邦学习的方法 |
US20200285980A1 (en) * | 2019-03-08 | 2020-09-10 | NEC Laboratories Europe GmbH | System for secure federated learning |
-
2020
- 2020-12-14 CN CN202011465470.7A patent/CN112506753B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190227980A1 (en) * | 2018-01-22 | 2019-07-25 | Google Llc | Training User-Level Differentially Private Machine-Learned Models |
US20200285980A1 (en) * | 2019-03-08 | 2020-09-10 | NEC Laboratories Europe GmbH | System for secure federated learning |
CN110288094A (zh) * | 2019-06-10 | 2019-09-27 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法及装置 |
CN110490335A (zh) * | 2019-08-07 | 2019-11-22 | 深圳前海微众银行股份有限公司 | 一种计算参与者贡献率的方法及装置 |
CN110610242A (zh) * | 2019-09-02 | 2019-12-24 | 深圳前海微众银行股份有限公司 | 一种联邦学习中参与者权重的设置方法及装置 |
CN111581648A (zh) * | 2020-04-06 | 2020-08-25 | 电子科技大学 | 在不规则用户中保留隐私的联邦学习的方法 |
Non-Patent Citations (1)
Title |
---|
HUAFEI ZHU: "《Privacy-Preserving Weighted Federated Learning》", 《IEEE ACCESS》, 29 October 2020 (2020-10-29) * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712182B (zh) * | 2021-03-29 | 2021-06-01 | 腾讯科技(深圳)有限公司 | 一种基于联邦学习的模型训练方法、装置及存储介质 |
CN112712182A (zh) * | 2021-03-29 | 2021-04-27 | 腾讯科技(深圳)有限公司 | 一种基于联邦学习的模型训练方法、装置及存储介质 |
CN113139662B (zh) * | 2021-04-23 | 2023-07-14 | 深圳市大数据研究院 | 联邦学习的全局及局部梯度处理方法、装置、设备和介质 |
CN113139662A (zh) * | 2021-04-23 | 2021-07-20 | 深圳市大数据研究院 | 联邦学习的全局及局部梯度处理方法、装置、设备和介质 |
CN113297593A (zh) * | 2021-05-14 | 2021-08-24 | 同盾控股有限公司 | 基于隐私计算的贡献度计算方法及装置、设备、介质 |
CN113515890A (zh) * | 2021-05-21 | 2021-10-19 | 华北电力大学 | 一种基于联邦学习的可再生能源日前场景生成方法 |
CN113515890B (zh) * | 2021-05-21 | 2024-03-08 | 华北电力大学 | 一种基于联邦学习的可再生能源日前场景生成方法 |
CN113255004A (zh) * | 2021-06-16 | 2021-08-13 | 大连理工大学 | 一种安全且高效的联邦学习内容缓存方法 |
CN113657996A (zh) * | 2021-08-26 | 2021-11-16 | 深圳市洞见智慧科技有限公司 | 一种联邦学习中特征贡献度的确定方法、装置及电子设备 |
CN113887743A (zh) * | 2021-09-29 | 2022-01-04 | 浙江大学 | 一种联邦学习中数据遗忘与验证的平台 |
CN114298156A (zh) * | 2021-12-06 | 2022-04-08 | 贵州大学 | 一种基于公平联邦学习算法的数据分类方法及系统 |
CN114553869A (zh) * | 2022-02-11 | 2022-05-27 | 新智我来网络科技有限公司 | 基于联合学习的确定资源贡献度的方法、装置和电子设备 |
CN114564746A (zh) * | 2022-02-28 | 2022-05-31 | 浙江大学 | 基于客户端权重评价的联邦学习方法和系统 |
CN114564746B (zh) * | 2022-02-28 | 2024-05-14 | 浙江大学 | 基于客户端权重评价的联邦学习方法和系统 |
CN114706743A (zh) * | 2022-04-27 | 2022-07-05 | 中电普信(北京)科技发展有限公司 | 一种支持实时评估的综合评估方法 |
CN115049011A (zh) * | 2022-06-27 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 确定联邦学习的训练成员模型贡献度的方法及装置 |
CN117172338A (zh) * | 2023-11-02 | 2023-12-05 | 数据空间研究院 | 纵向联邦学习场景中的贡献评估方法 |
CN117172338B (zh) * | 2023-11-02 | 2024-02-02 | 数据空间研究院 | 纵向联邦学习场景中的贡献评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112506753B (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112506753B (zh) | 一种联邦学习场景中高效的贡献评估方法 | |
CN113112027B (zh) | 一种基于动态调整模型聚合权重的联邦学习方法 | |
CN113762530B (zh) | 面向隐私保护的精度反馈联邦学习方法 | |
CN106097043B (zh) | 一种信用数据的处理方法及服务器 | |
CN113609521A (zh) | 一种基于对抗训练的联邦学习隐私保护方法及系统 | |
CN112906903A (zh) | 网络安全风险预测方法、装置、存储介质及计算机设备 | |
CN111091199A (zh) | 一种基于差分隐私的联邦学习方法、装置及存储介质 | |
CN113988314A (zh) | 一种选择客户端的分簇联邦学习方法及系统 | |
US20220318412A1 (en) | Privacy-aware pruning in machine learning | |
CN114491623A (zh) | 一种基于区块链的异步联邦学习方法及系统 | |
CN112464822A (zh) | 一种基于特征增强的头盔佩戴检测方法及装置 | |
CN108229731B (zh) | 一种热点话题下多消息互影响的用户行为预测系统及方法 | |
CN113691594B (zh) | 一种基于二阶导数解决联邦学习中数据不平衡问题的方法 | |
CN118211268A (zh) | 基于扩散模型的异构联邦学习隐私保护方法及系统 | |
CN114301935A (zh) | 一种基于声誉的物联网边云协同联邦学习节点选择方法 | |
CN107832716A (zh) | 基于主动被动高斯在线学习的异常检测方法 | |
CN115310625A (zh) | 一种纵向联邦学习推理攻击防御方法 | |
CN110855474A (zh) | Kqi数据的网络特征提取方法、装置、设备及存储介质 | |
CN109635349A (zh) | 一种噪声增强最小化克拉美罗界的方法 | |
CN113850399A (zh) | 一种基于预测置信度序列的联邦学习成员推断方法 | |
CN118153099A (zh) | 一种云际联邦学习客户端模型聚合信息上传隐私保护方法及系统 | |
CN117994635A (zh) | 一种噪声鲁棒性增强的联邦元学习图像识别方法及系统 | |
CN110443323A (zh) | 基于长短期记忆网络和人脸关键点的相貌评估方法 | |
CN109873836A (zh) | 一种数据的风险评估方法及装置 | |
CN116776997A (zh) | 非独立同分布环境下的联邦学习模型构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |