CN112418434A - 一种基于强化学习的联邦学习模型融合策略 - Google Patents

一种基于强化学习的联邦学习模型融合策略 Download PDF

Info

Publication number
CN112418434A
CN112418434A CN202011230007.4A CN202011230007A CN112418434A CN 112418434 A CN112418434 A CN 112418434A CN 202011230007 A CN202011230007 A CN 202011230007A CN 112418434 A CN112418434 A CN 112418434A
Authority
CN
China
Prior art keywords
model
learning
fusion
weight
federal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011230007.4A
Other languages
English (en)
Inventor
张卫山
禹发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202011230007.4A priority Critical patent/CN112418434A/zh
Publication of CN112418434A publication Critical patent/CN112418434A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于强化学习的联邦学习模型融合策略。联邦学习作为一门新兴技术,其保护个人及组织的隐私数据能力与新基建中的科技助力公共价值理念不谋而合,同时帮助各产业研究的机构组织进行合规的数据价值释放,近年来受到广泛的关注。联邦学习的明显好处是在大量设备上分配知识质量,而无需集中用于优化和训练模型的数据。该方法还能够在保持训练数据集的隐私的同时提高集中式机器学习模型的质量。在联邦学习中一个重要的问题是,如何融合各个节点上传的模型才能使最终模型能够达到最好的效果,基于此,本发明提供一种基于强化学习的联邦学习模型融合策略,用以动态的学习融合时各个节点模型的权值,并取得更好的模型效果。

Description

一种基于强化学习的联邦学习模型融合策略
技术领域
本发明涉及深度学习、强化学习、联邦学习,具体涉及到一种强化学习的联邦学习模型融合策略。
背景技术
联邦学习作为一门新兴技术,其保护个人及组织的隐私数据能力与新基建中的科技助力公共价值理念不谋而合,同时帮助各产业研究的机构组织进行合规的数据价值释放,近年来受到广泛的关注。联邦学习的明显好处是在大量设备上分配知识质量,而无需集中用于优化和训练模型的数据。该方法还能够在保持训练数据集的隐私的同时提高集中式机器学习模型的质量。在联邦学习中一个重要的问题是,如何融合各个节点上传的模型才能使最终模型能够达到最好的效果。最接近本发明的技术有:
(1)、平均融合:平均融合即模型融合时对每个节点的设置相同的权值,这样的好处是简单快捷,但是在各个节点数据量不同以及数据分布不同时,各个节点模型效果有好有坏,平均融合并不能很好的解决这个问题
(2)、加权融合:加权融合即模型融合时根据各个字节的数据量,设备性能设置各个节点的权值,这样会比平均融合得到的模型效果更好,但是缺点是无法定量的去评价各个节点的权值,对于权值的设置依靠经验。
发明内容
不同于传统的模型融合策略使用静态融合方式例如平均融合,本发明使用强化学习的方式,定义学习与奖励机制,不断学习各个子节点模型的权值,能够比传统融合模型得到更好的模型效果本发明的技术方案为:
1、一种基于强化学习的联邦学习模型融合策略,不同于传统的模型融合策略使用静态融合方式例如平均融合,本发明使用强化学习的方式,定义学习与奖励机制,不断学习各个子节点模型的权值,能够比传统融合模型得到更好的模型效果,算法包括以下步骤:
步骤(1)、初始化各个节点模型的权值,得到初始权值;
步骤(2)、将步骤(1)中获取的权值数据输入权值学习网络,选择动作action,改变某个模型的权值;
步骤(3)、执行动作action,并得到改变后的权值w_;
步骤(4)、根据action后的w_,进行模型融合,得到新的模型;
步骤(5)、通过对新模型融合进行评估,计算奖励值r;
步骤(6)、将w,a,r,w_存入记忆库中;
步骤(7)、判断记忆库容量是否达到上限,如果达到则开始学习,没有则回到步骤(1);
步骤(8)、如果记忆库容量到达上限,则开始根据记忆库里存储的经验进行学习,每一步都找到后续奖励值r最大的动作a;
步骤(9)、重复(1)至(8)步骤,最终得到权重值w,进行模型融合;
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于强化学习的联邦学习模型融合策略的流程图。

Claims (1)

1.一种基于强化学习的联邦学习模型融合策略,不同于传统的模型融合策略使用静态融合方式例如平均融合,本发明使用强化学习的方式,定义学习与奖励机制,不断学习各个子节点模型的权值,能够比传统融合模型得到更好的模型效果,算法包括以下步骤:
步骤(1)、初始化各个节点模型的权值,得到初始权值;
步骤(2)、将步骤(1)中获取的权值数据输入权值学习网络,选择动作action,改变某个模型的权值;
步骤(3)、执行动作action,并得到改变后的权值w_;
步骤(4)、根据action后的w_,进行模型融合,得到新的模型;
步骤(5)、通过对新模型融合进行评估,计算奖励值r;
步骤(6)、将w,a,r,w_存入记忆库中;
步骤(7)、判断记忆库容量是否达到上限,如果达到则开始学习,没有则回到步骤(1);
步骤(8)、如果记忆库容量到达上限,则开始根据记忆库里存储的经验进行学习,每一步都找到后续奖励值r最大的动作a;
步骤(9)、重复(1)至(8)步骤,最终得到权重值w,进行模型融合。
CN202011230007.4A 2020-11-06 2020-11-06 一种基于强化学习的联邦学习模型融合策略 Pending CN112418434A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011230007.4A CN112418434A (zh) 2020-11-06 2020-11-06 一种基于强化学习的联邦学习模型融合策略

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011230007.4A CN112418434A (zh) 2020-11-06 2020-11-06 一种基于强化学习的联邦学习模型融合策略

Publications (1)

Publication Number Publication Date
CN112418434A true CN112418434A (zh) 2021-02-26

Family

ID=74780514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011230007.4A Pending CN112418434A (zh) 2020-11-06 2020-11-06 一种基于强化学习的联邦学习模型融合策略

Country Status (1)

Country Link
CN (1) CN112418434A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673696A (zh) * 2021-08-20 2021-11-19 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9563842B2 (en) * 2011-05-31 2017-02-07 International Business Machines Corporation Structural plasticity in spiking neural networks with symmetric dual of an electronic neuron
CN109558633A (zh) * 2018-10-29 2019-04-02 中国石油大学(华东) 基于强化学习与对抗生成网络的智能抽油机参数调整方法
CN109711529A (zh) * 2018-11-13 2019-05-03 中山大学 一种基于值迭代网络的跨领域联邦学习模型及方法
CN110070188A (zh) * 2019-04-30 2019-07-30 山东大学 一种融合交互式强化学习的增量式认知发育系统及方法
CN110503207A (zh) * 2019-08-28 2019-11-26 深圳前海微众银行股份有限公司 联邦学习信用管理方法、装置、设备及可读存储介质
US10581896B2 (en) * 2016-12-30 2020-03-03 Chronicle Llc Remedial actions based on user risk assessments

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9563842B2 (en) * 2011-05-31 2017-02-07 International Business Machines Corporation Structural plasticity in spiking neural networks with symmetric dual of an electronic neuron
US10581896B2 (en) * 2016-12-30 2020-03-03 Chronicle Llc Remedial actions based on user risk assessments
CN109558633A (zh) * 2018-10-29 2019-04-02 中国石油大学(华东) 基于强化学习与对抗生成网络的智能抽油机参数调整方法
CN109711529A (zh) * 2018-11-13 2019-05-03 中山大学 一种基于值迭代网络的跨领域联邦学习模型及方法
CN110070188A (zh) * 2019-04-30 2019-07-30 山东大学 一种融合交互式强化学习的增量式认知发育系统及方法
CN110503207A (zh) * 2019-08-28 2019-11-26 深圳前海微众银行股份有限公司 联邦学习信用管理方法、装置、设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673696A (zh) * 2021-08-20 2021-11-19 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法
CN113673696B (zh) * 2021-08-20 2024-03-22 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法

Similar Documents

Publication Publication Date Title
CN107342078B (zh) 对话策略优化的冷启动系统和方法
CN108614865B (zh) 基于深度强化学习的个性化学习推荐方法
CN109413710B (zh) 基于遗传算法优化的无线传感器网络的分簇方法及装置
CN108763494A (zh) 对话系统间的知识分享方法、对话方法及装置
CN106598948A (zh) 基于长短期记忆神经网络结合自动编码器的情绪识别方法
CN104820977A (zh) 一种基于自适应遗传算法的bp神经网络图像复原算法
CN107087161A (zh) 视频业务中基于多层神经网络的用户体验质量的预测方法
CN109754789A (zh) 语音音素的识别方法及装置
CN112418434A (zh) 一种基于强化学习的联邦学习模型融合策略
Whitacre et al. The self-organization of interaction networks for nature-inspired optimization
CN113572697A (zh) 一种基于图卷积神经网络与深度强化学习的负载均衡方法
Li et al. Naming game with multiple hearers
CN112634019A (zh) 基于细菌觅食算法优化灰色神经网络的违约概率预测方法
CN111243574A (zh) 一种语音模型自适应训练方法、系统、装置及存储介质
CN106354836A (zh) 一种广告页面的预测方法和装置
CN116647459A (zh) 一种多智能体协同进化的物联网拓扑鲁棒优化方法
CN116541779A (zh) 个性化公共安全突发事件检测模型训练方法、检测方法及装置
CN113381888B (zh) 控制方法、装置、设备及存储介质
CN109948803A (zh) 算法模型优化方法、装置和设备
CN111026904B (zh) 一种基于内容画像的播单评分方法
Pan et al. Identification of chaotic systems by neural network with hybrid learning algorithm
CN111985560A (zh) 知识追踪模型的优化方法、系统及计算机存储介质
CN111930507A (zh) 限流方法及装置
JP2021163424A (ja) Aiシステム開発シミュレータ及びハイパーパラメータ最適化方法
CN110971683A (zh) 基于强化学习的服务组合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210226