CN112506753A - 一种联邦学习场景中高效的贡献评估方法 - Google Patents
一种联邦学习场景中高效的贡献评估方法 Download PDFInfo
- Publication number
- CN112506753A CN112506753A CN202011465470.7A CN202011465470A CN112506753A CN 112506753 A CN112506753 A CN 112506753A CN 202011465470 A CN202011465470 A CN 202011465470A CN 112506753 A CN112506753 A CN 112506753A
- Authority
- CN
- China
- Prior art keywords
- model
- server
- user
- training
- aggregation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
技术领域
本发明涉及的联邦学习场景中高效的贡献评估,属于机器学习和数据分析领域。
背景技术
联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在2016年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
联邦学习的一大特点就是它较好地解决了数据孤岛问题,并且在训练过程后,每个用户对模型的贡献能够记录在永久数据记录机制,实际效果会在实际应用中表现出来。随着人工智能和移动计算的飞速发展,很多数据都是众包得到,每个用户提供数据的质量和数量大不相同,如果根据用户对训练模型的贡献对各个用户进行反馈和激励,则能够激励用户提供更多的数据和更多的用户参与到联邦学习中,促人工智能的发展。
针对机器学习的和联邦学习的贡献评估已有一系列工作,但他们都不适用于现实联邦学习系统,相关的技术包括博弈论和机器学习可解释性研究等,他们旨在通过分析数据样本对模型训练效果的影响来确定其贡献。现有工作通常使用沙普利值来计算各个训练样本对模型训练的贡献,但这不能直接用于联邦系统中,主要原因是计算沙普利值需要指数级的计算和通信开销,这在现实的联邦学习系统中通常不可能实现。
发明内容
本发明的目的在于克服现有技术的不足,高效的评估联邦学习系统中每个用户对联邦学习系统的贡献,并并且能够加快模型训练的收敛,提升模型的性能,本发明的主要步骤为:主要步骤如下:
1)根据训练日志计算权重:服务器使用联邦学习的训练日志(用户的模型更新参数t∈[T],n∈[N],t表示训练轮数,n表示用户数)来计算各个用户在模型聚合时的权重。普通联邦学习中,第t+1个epoch中,服务器聚合模型的形式化为: 又可以写为:其中θt+1表示第t+1轮的全局模型,θt为第t个epoch的全局模型,η为学习率。由于服务器不能访问到各个用户的训练数据,并且数据很多都是众包得到,各个用户的数据质量和分布情况大不相同,所以服务器只能使用自己拥有的数据作为测试数据集测试全局模型性能,这里假设服务器拥有的测试数据集是高质量的数据集(没有噪音且分布均匀)。在联邦学习训练的过程中,服务器倾向于降低全局模型在测试数据集的损失函数,即:argmin lossv(θ),其中,lossv(θ)表示模型θ在测试数据集(validation set)的损失函数。要求解最优的权重最直观的方法是使用梯度下降,即:
本发明设计了一个面向联邦学习的高效的贡献评估,并可以修正联邦学习的训练方向,加快模型的收敛,提升联邦学习系统的性能。本发明提出的方法优势体现在1)通过用户在模型聚合时的权重来计算贡献,极大降低了计算开销,将指数级开销降低为线性开销,并且能够加快模型收敛,提高性能;2)所使用的训练日志是联邦学习所固有的信息,没有额外的隐私保护成本。
具体实施方式
下面将结合对本发明作详细的介绍:
在横向联邦学习中,参与用户各自从服务器下载最新的全局模型,然后利用本地数据训练得到局部模型,上传给服务器;服务器聚合各个用户上传的局部模型更新全局模型。联邦学习系统中,为了保护数据隐私,服务器不能直接访问用户的训练数据,故服务器利用训练日志(用户上传的局部模型),评估各个用户的在梯度聚合时的权重,然后根据权重计算各个用户对模型的贡献。在该模块中,主要步骤如下:
1)根据训练日志计算权重:服务器使用联邦学习的训练日志(用户的模型更新参数t∈[T],n∈[N],t表示训练轮数,n表示用户数)来计算各个用户在模型聚合时的权重。普通联邦学习中,第t+1个epoch中,服务器聚合模型的形式化为:又可以写为:其中θt+1表示第t+1轮的全局模型,θt为第t个epoch的全局模型,η为学习率。由于服务器不能访问到各个用户的训练数据,并且数据很多都是众包得到,各个用户的数据质量和分布情况大不相同,所以服务器只能使用自己拥有的数据作为测试数据集测试全局模型性能,这里假设服务器拥有的测试数据集是高质量的数据集(没有噪音且分布均匀)。在联邦学习训练的过程中,服务器倾向于降低全局模型在测试数据集的损失函数,即:argmin lossv(θ),其中,lossv(θ)表示模型θ在测试数据集(validation set)的损失函数。要求解最优的权重最直观的方法是使用梯度下降,即:
Claims (1)
1.一种联邦学习场景中高效的贡献评估方法,其特征在于所述该方法包括如下步骤:
一、根据训练日志计算权重:服务器使用联邦学习的训练日志(用户的模型更新参数t∈[T],n∈[N],t表示训练轮数,n表示用户数)来计算各个用户在模型聚合时的权重。普通联邦学习中,第t+1个epoch中,服务器聚合模型的形式化为:又可以写为:其中θt+1表示第t+1轮的全局模型,θt为第t个epoch的全局模型,η为学习率。由于服务器不能访问到各个用户的训练数据,并且数据很多都是众包得到,各个用户的数据质量和分布情况大不相同,所以服务器只能使用自己拥有的数据作为测试数据集测试全局模型性能,这里假设服务器拥有的测试数据集是高质量的数据集(没有噪音且分布均匀)。在联邦学习训练的过程中,服务器倾向于降低全局模型在测试数据集的损失函数,即:argmin lossv(θ),其中,lossv(θ)表示模型θ在测试数据集(validation set)的损失函数。要求解最优的权重最直观的方法是使用梯度下降,即:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011465470.7A CN112506753B (zh) | 2020-12-14 | 2020-12-14 | 一种联邦学习场景中高效的贡献评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011465470.7A CN112506753B (zh) | 2020-12-14 | 2020-12-14 | 一种联邦学习场景中高效的贡献评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112506753A true CN112506753A (zh) | 2021-03-16 |
CN112506753B CN112506753B (zh) | 2022-06-28 |
Family
ID=74972847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011465470.7A Active CN112506753B (zh) | 2020-12-14 | 2020-12-14 | 一种联邦学习场景中高效的贡献评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112506753B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712182A (zh) * | 2021-03-29 | 2021-04-27 | 腾讯科技(深圳)有限公司 | 一种基于联邦学习的模型训练方法、装置及存储介质 |
CN113139662A (zh) * | 2021-04-23 | 2021-07-20 | 深圳市大数据研究院 | 联邦学习的全局及局部梯度处理方法、装置、设备和介质 |
CN113255004A (zh) * | 2021-06-16 | 2021-08-13 | 大连理工大学 | 一种安全且高效的联邦学习内容缓存方法 |
CN113297593A (zh) * | 2021-05-14 | 2021-08-24 | 同盾控股有限公司 | 基于隐私计算的贡献度计算方法及装置、设备、介质 |
CN113515890A (zh) * | 2021-05-21 | 2021-10-19 | 华北电力大学 | 一种基于联邦学习的可再生能源日前场景生成方法 |
CN113657996A (zh) * | 2021-08-26 | 2021-11-16 | 深圳市洞见智慧科技有限公司 | 一种联邦学习中特征贡献度的确定方法、装置及电子设备 |
CN113887743A (zh) * | 2021-09-29 | 2022-01-04 | 浙江大学 | 一种联邦学习中数据遗忘与验证的平台 |
CN114553869A (zh) * | 2022-02-11 | 2022-05-27 | 新智我来网络科技有限公司 | 基于联合学习的确定资源贡献度的方法、装置和电子设备 |
CN114564746A (zh) * | 2022-02-28 | 2022-05-31 | 浙江大学 | 基于客户端权重评价的联邦学习方法和系统 |
CN114706743A (zh) * | 2022-04-27 | 2022-07-05 | 中电普信(北京)科技发展有限公司 | 一种支持实时评估的综合评估方法 |
CN115049011A (zh) * | 2022-06-27 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 确定联邦学习的训练成员模型贡献度的方法及装置 |
CN117172338A (zh) * | 2023-11-02 | 2023-12-05 | 数据空间研究院 | 纵向联邦学习场景中的贡献评估方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190227980A1 (en) * | 2018-01-22 | 2019-07-25 | Google Llc | Training User-Level Differentially Private Machine-Learned Models |
CN110288094A (zh) * | 2019-06-10 | 2019-09-27 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法及装置 |
CN110490335A (zh) * | 2019-08-07 | 2019-11-22 | 深圳前海微众银行股份有限公司 | 一种计算参与者贡献率的方法及装置 |
CN110610242A (zh) * | 2019-09-02 | 2019-12-24 | 深圳前海微众银行股份有限公司 | 一种联邦学习中参与者权重的设置方法及装置 |
CN111581648A (zh) * | 2020-04-06 | 2020-08-25 | 电子科技大学 | 在不规则用户中保留隐私的联邦学习的方法 |
US20200285980A1 (en) * | 2019-03-08 | 2020-09-10 | NEC Laboratories Europe GmbH | System for secure federated learning |
-
2020
- 2020-12-14 CN CN202011465470.7A patent/CN112506753B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190227980A1 (en) * | 2018-01-22 | 2019-07-25 | Google Llc | Training User-Level Differentially Private Machine-Learned Models |
US20200285980A1 (en) * | 2019-03-08 | 2020-09-10 | NEC Laboratories Europe GmbH | System for secure federated learning |
CN110288094A (zh) * | 2019-06-10 | 2019-09-27 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法及装置 |
CN110490335A (zh) * | 2019-08-07 | 2019-11-22 | 深圳前海微众银行股份有限公司 | 一种计算参与者贡献率的方法及装置 |
CN110610242A (zh) * | 2019-09-02 | 2019-12-24 | 深圳前海微众银行股份有限公司 | 一种联邦学习中参与者权重的设置方法及装置 |
CN111581648A (zh) * | 2020-04-06 | 2020-08-25 | 电子科技大学 | 在不规则用户中保留隐私的联邦学习的方法 |
Non-Patent Citations (1)
Title |
---|
HUAFEI ZHU: "《Privacy-Preserving Weighted Federated Learning》", 《IEEE ACCESS》, 29 October 2020 (2020-10-29) * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712182A (zh) * | 2021-03-29 | 2021-04-27 | 腾讯科技(深圳)有限公司 | 一种基于联邦学习的模型训练方法、装置及存储介质 |
CN112712182B (zh) * | 2021-03-29 | 2021-06-01 | 腾讯科技(深圳)有限公司 | 一种基于联邦学习的模型训练方法、装置及存储介质 |
CN113139662A (zh) * | 2021-04-23 | 2021-07-20 | 深圳市大数据研究院 | 联邦学习的全局及局部梯度处理方法、装置、设备和介质 |
CN113139662B (zh) * | 2021-04-23 | 2023-07-14 | 深圳市大数据研究院 | 联邦学习的全局及局部梯度处理方法、装置、设备和介质 |
CN113297593A (zh) * | 2021-05-14 | 2021-08-24 | 同盾控股有限公司 | 基于隐私计算的贡献度计算方法及装置、设备、介质 |
CN113515890A (zh) * | 2021-05-21 | 2021-10-19 | 华北电力大学 | 一种基于联邦学习的可再生能源日前场景生成方法 |
CN113515890B (zh) * | 2021-05-21 | 2024-03-08 | 华北电力大学 | 一种基于联邦学习的可再生能源日前场景生成方法 |
CN113255004A (zh) * | 2021-06-16 | 2021-08-13 | 大连理工大学 | 一种安全且高效的联邦学习内容缓存方法 |
CN113657996A (zh) * | 2021-08-26 | 2021-11-16 | 深圳市洞见智慧科技有限公司 | 一种联邦学习中特征贡献度的确定方法、装置及电子设备 |
CN113887743A (zh) * | 2021-09-29 | 2022-01-04 | 浙江大学 | 一种联邦学习中数据遗忘与验证的平台 |
CN114553869A (zh) * | 2022-02-11 | 2022-05-27 | 新智我来网络科技有限公司 | 基于联合学习的确定资源贡献度的方法、装置和电子设备 |
CN114564746A (zh) * | 2022-02-28 | 2022-05-31 | 浙江大学 | 基于客户端权重评价的联邦学习方法和系统 |
CN114564746B (zh) * | 2022-02-28 | 2024-05-14 | 浙江大学 | 基于客户端权重评价的联邦学习方法和系统 |
CN114706743A (zh) * | 2022-04-27 | 2022-07-05 | 中电普信(北京)科技发展有限公司 | 一种支持实时评估的综合评估方法 |
CN115049011A (zh) * | 2022-06-27 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 确定联邦学习的训练成员模型贡献度的方法及装置 |
CN117172338A (zh) * | 2023-11-02 | 2023-12-05 | 数据空间研究院 | 纵向联邦学习场景中的贡献评估方法 |
CN117172338B (zh) * | 2023-11-02 | 2024-02-02 | 数据空间研究院 | 纵向联邦学习场景中的贡献评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112506753B (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112506753B (zh) | 一种联邦学习场景中高效的贡献评估方法 | |
CN106097043B (zh) | 一种信用数据的处理方法及服务器 | |
CN113112027A (zh) | 一种基于动态调整模型聚合权重的联邦学习方法 | |
CN112906903A (zh) | 网络安全风险预测方法、装置、存储介质及计算机设备 | |
CN113762530B (zh) | 面向隐私保护的精度反馈联邦学习方法 | |
CN107027023A (zh) | 基于神经网络的VoIP无参考视频通信质量客观评价方法 | |
CN113947215A (zh) | 联邦学习管理方法、装置、计算机设备及存储介质 | |
CN113691594B (zh) | 一种基于二阶导数解决联邦学习中数据不平衡问题的方法 | |
US20220318412A1 (en) | Privacy-aware pruning in machine learning | |
CN115544873B (zh) | 个性化联邦学习的训练效率与个性化效果量化评估方法 | |
CN114418109A (zh) | 微服务架构下联邦学习的节点选择与聚合优化系统及方法 | |
CN110264608A (zh) | 基于区块链的投票方法、装置及系统 | |
CN114301935A (zh) | 一种基于声誉的物联网边云协同联邦学习节点选择方法 | |
CN106844378A (zh) | 一种应答方式确定方法和装置 | |
CN115622777A (zh) | 一种基于联盟链的多中心联邦学习数据共享方法 | |
CN115481441A (zh) | 面向联邦学习的差分隐私保护方法及装置 | |
CN114565106A (zh) | 基于孤立森林的联邦学习中毒攻击的防御方法 | |
CN110855474B (zh) | Kqi数据的网络特征提取方法、装置、设备及存储介质 | |
CN109873836A (zh) | 一种数据的风险评估方法及装置 | |
CN110443323A (zh) | 基于长短期记忆网络和人脸关键点的相貌评估方法 | |
CN115510472A (zh) | 一种面向云边聚合系统的多重差分隐私保护方法及系统 | |
CN116502728A (zh) | 一种基于联邦学习的动态聚合方法和装置 | |
CN115310625A (zh) | 一种纵向联邦学习推理攻击防御方法 | |
CN113849805A (zh) | 移动用户可信认证方法及装置、电子设备、存储介质 | |
CN113361625A (zh) | 一种联邦学习场景中带有隐私保护的错误数据检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |