CN112418434A - 一种基于强化学习的联邦学习模型融合策略 - Google Patents
一种基于强化学习的联邦学习模型融合策略 Download PDFInfo
- Publication number
- CN112418434A CN112418434A CN202011230007.4A CN202011230007A CN112418434A CN 112418434 A CN112418434 A CN 112418434A CN 202011230007 A CN202011230007 A CN 202011230007A CN 112418434 A CN112418434 A CN 112418434A
- Authority
- CN
- China
- Prior art keywords
- model
- learning
- fusion
- weight
- federal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种基于强化学习的联邦学习模型融合策略。联邦学习作为一门新兴技术,其保护个人及组织的隐私数据能力与新基建中的科技助力公共价值理念不谋而合,同时帮助各产业研究的机构组织进行合规的数据价值释放,近年来受到广泛的关注。联邦学习的明显好处是在大量设备上分配知识质量,而无需集中用于优化和训练模型的数据。该方法还能够在保持训练数据集的隐私的同时提高集中式机器学习模型的质量。在联邦学习中一个重要的问题是,如何融合各个节点上传的模型才能使最终模型能够达到最好的效果,基于此,本发明提供一种基于强化学习的联邦学习模型融合策略,用以动态的学习融合时各个节点模型的权值,并取得更好的模型效果。
Description
技术领域
本发明涉及深度学习、强化学习、联邦学习,具体涉及到一种强化学习的联邦学习模型融合策略。
背景技术
联邦学习作为一门新兴技术,其保护个人及组织的隐私数据能力与新基建中的科技助力公共价值理念不谋而合,同时帮助各产业研究的机构组织进行合规的数据价值释放,近年来受到广泛的关注。联邦学习的明显好处是在大量设备上分配知识质量,而无需集中用于优化和训练模型的数据。该方法还能够在保持训练数据集的隐私的同时提高集中式机器学习模型的质量。在联邦学习中一个重要的问题是,如何融合各个节点上传的模型才能使最终模型能够达到最好的效果。最接近本发明的技术有:
(1)、平均融合:平均融合即模型融合时对每个节点的设置相同的权值,这样的好处是简单快捷,但是在各个节点数据量不同以及数据分布不同时,各个节点模型效果有好有坏,平均融合并不能很好的解决这个问题
(2)、加权融合:加权融合即模型融合时根据各个字节的数据量,设备性能设置各个节点的权值,这样会比平均融合得到的模型效果更好,但是缺点是无法定量的去评价各个节点的权值,对于权值的设置依靠经验。
发明内容
不同于传统的模型融合策略使用静态融合方式例如平均融合,本发明使用强化学习的方式,定义学习与奖励机制,不断学习各个子节点模型的权值,能够比传统融合模型得到更好的模型效果本发明的技术方案为:
1、一种基于强化学习的联邦学习模型融合策略,不同于传统的模型融合策略使用静态融合方式例如平均融合,本发明使用强化学习的方式,定义学习与奖励机制,不断学习各个子节点模型的权值,能够比传统融合模型得到更好的模型效果,算法包括以下步骤:
步骤(1)、初始化各个节点模型的权值,得到初始权值;
步骤(2)、将步骤(1)中获取的权值数据输入权值学习网络,选择动作action,改变某个模型的权值;
步骤(3)、执行动作action,并得到改变后的权值w_;
步骤(4)、根据action后的w_,进行模型融合,得到新的模型;
步骤(5)、通过对新模型融合进行评估,计算奖励值r;
步骤(6)、将w,a,r,w_存入记忆库中;
步骤(7)、判断记忆库容量是否达到上限,如果达到则开始学习,没有则回到步骤(1);
步骤(8)、如果记忆库容量到达上限,则开始根据记忆库里存储的经验进行学习,每一步都找到后续奖励值r最大的动作a;
步骤(9)、重复(1)至(8)步骤,最终得到权重值w,进行模型融合;
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于强化学习的联邦学习模型融合策略的流程图。
Claims (1)
1.一种基于强化学习的联邦学习模型融合策略,不同于传统的模型融合策略使用静态融合方式例如平均融合,本发明使用强化学习的方式,定义学习与奖励机制,不断学习各个子节点模型的权值,能够比传统融合模型得到更好的模型效果,算法包括以下步骤:
步骤(1)、初始化各个节点模型的权值,得到初始权值;
步骤(2)、将步骤(1)中获取的权值数据输入权值学习网络,选择动作action,改变某个模型的权值;
步骤(3)、执行动作action,并得到改变后的权值w_;
步骤(4)、根据action后的w_,进行模型融合,得到新的模型;
步骤(5)、通过对新模型融合进行评估,计算奖励值r;
步骤(6)、将w,a,r,w_存入记忆库中;
步骤(7)、判断记忆库容量是否达到上限,如果达到则开始学习,没有则回到步骤(1);
步骤(8)、如果记忆库容量到达上限,则开始根据记忆库里存储的经验进行学习,每一步都找到后续奖励值r最大的动作a;
步骤(9)、重复(1)至(8)步骤,最终得到权重值w,进行模型融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011230007.4A CN112418434A (zh) | 2020-11-06 | 2020-11-06 | 一种基于强化学习的联邦学习模型融合策略 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011230007.4A CN112418434A (zh) | 2020-11-06 | 2020-11-06 | 一种基于强化学习的联邦学习模型融合策略 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112418434A true CN112418434A (zh) | 2021-02-26 |
Family
ID=74780514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011230007.4A Pending CN112418434A (zh) | 2020-11-06 | 2020-11-06 | 一种基于强化学习的联邦学习模型融合策略 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418434A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673696A (zh) * | 2021-08-20 | 2021-11-19 | 山东鲁软数字科技有限公司 | 一种基于强化联邦学习的电力行业起重作业违章检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9563842B2 (en) * | 2011-05-31 | 2017-02-07 | International Business Machines Corporation | Structural plasticity in spiking neural networks with symmetric dual of an electronic neuron |
CN109558633A (zh) * | 2018-10-29 | 2019-04-02 | 中国石油大学(华东) | 基于强化学习与对抗生成网络的智能抽油机参数调整方法 |
CN109711529A (zh) * | 2018-11-13 | 2019-05-03 | 中山大学 | 一种基于值迭代网络的跨领域联邦学习模型及方法 |
CN110070188A (zh) * | 2019-04-30 | 2019-07-30 | 山东大学 | 一种融合交互式强化学习的增量式认知发育系统及方法 |
CN110503207A (zh) * | 2019-08-28 | 2019-11-26 | 深圳前海微众银行股份有限公司 | 联邦学习信用管理方法、装置、设备及可读存储介质 |
US10581896B2 (en) * | 2016-12-30 | 2020-03-03 | Chronicle Llc | Remedial actions based on user risk assessments |
-
2020
- 2020-11-06 CN CN202011230007.4A patent/CN112418434A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9563842B2 (en) * | 2011-05-31 | 2017-02-07 | International Business Machines Corporation | Structural plasticity in spiking neural networks with symmetric dual of an electronic neuron |
US10581896B2 (en) * | 2016-12-30 | 2020-03-03 | Chronicle Llc | Remedial actions based on user risk assessments |
CN109558633A (zh) * | 2018-10-29 | 2019-04-02 | 中国石油大学(华东) | 基于强化学习与对抗生成网络的智能抽油机参数调整方法 |
CN109711529A (zh) * | 2018-11-13 | 2019-05-03 | 中山大学 | 一种基于值迭代网络的跨领域联邦学习模型及方法 |
CN110070188A (zh) * | 2019-04-30 | 2019-07-30 | 山东大学 | 一种融合交互式强化学习的增量式认知发育系统及方法 |
CN110503207A (zh) * | 2019-08-28 | 2019-11-26 | 深圳前海微众银行股份有限公司 | 联邦学习信用管理方法、装置、设备及可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673696A (zh) * | 2021-08-20 | 2021-11-19 | 山东鲁软数字科技有限公司 | 一种基于强化联邦学习的电力行业起重作业违章检测方法 |
CN113673696B (zh) * | 2021-08-20 | 2024-03-22 | 山东鲁软数字科技有限公司 | 一种基于强化联邦学习的电力行业起重作业违章检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107342078B (zh) | 对话策略优化的冷启动系统和方法 | |
CN108614865B (zh) | 基于深度强化学习的个性化学习推荐方法 | |
CN109413710B (zh) | 基于遗传算法优化的无线传感器网络的分簇方法及装置 | |
CN108763494A (zh) | 对话系统间的知识分享方法、对话方法及装置 | |
CN106598948A (zh) | 基于长短期记忆神经网络结合自动编码器的情绪识别方法 | |
CN104820977A (zh) | 一种基于自适应遗传算法的bp神经网络图像复原算法 | |
CN107087161A (zh) | 视频业务中基于多层神经网络的用户体验质量的预测方法 | |
CN109754789A (zh) | 语音音素的识别方法及装置 | |
CN112418434A (zh) | 一种基于强化学习的联邦学习模型融合策略 | |
Whitacre et al. | The self-organization of interaction networks for nature-inspired optimization | |
CN113572697A (zh) | 一种基于图卷积神经网络与深度强化学习的负载均衡方法 | |
Li et al. | Naming game with multiple hearers | |
CN112634019A (zh) | 基于细菌觅食算法优化灰色神经网络的违约概率预测方法 | |
CN111243574A (zh) | 一种语音模型自适应训练方法、系统、装置及存储介质 | |
CN106354836A (zh) | 一种广告页面的预测方法和装置 | |
CN116647459A (zh) | 一种多智能体协同进化的物联网拓扑鲁棒优化方法 | |
CN116541779A (zh) | 个性化公共安全突发事件检测模型训练方法、检测方法及装置 | |
CN113381888B (zh) | 控制方法、装置、设备及存储介质 | |
CN109948803A (zh) | 算法模型优化方法、装置和设备 | |
CN111026904B (zh) | 一种基于内容画像的播单评分方法 | |
Pan et al. | Identification of chaotic systems by neural network with hybrid learning algorithm | |
CN111985560A (zh) | 知识追踪模型的优化方法、系统及计算机存储介质 | |
CN111930507A (zh) | 限流方法及装置 | |
JP2021163424A (ja) | Aiシステム開発シミュレータ及びハイパーパラメータ最適化方法 | |
CN110971683A (zh) | 基于强化学习的服务组合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210226 |