CN112418434A

CN112418434A - 一种基于强化学习的联邦学习模型融合策略

Info

Publication number: CN112418434A
Application number: CN202011230007.4A
Authority: CN
Inventors: 张卫山; 禹发
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-26

Abstract

本发明提出一种基于强化学习的联邦学习模型融合策略。联邦学习作为一门新兴技术，其保护个人及组织的隐私数据能力与新基建中的科技助力公共价值理念不谋而合，同时帮助各产业研究的机构组织进行合规的数据价值释放，近年来受到广泛的关注。联邦学习的明显好处是在大量设备上分配知识质量，而无需集中用于优化和训练模型的数据。该方法还能够在保持训练数据集的隐私的同时提高集中式机器学习模型的质量。在联邦学习中一个重要的问题是，如何融合各个节点上传的模型才能使最终模型能够达到最好的效果，基于此，本发明提供一种基于强化学习的联邦学习模型融合策略，用以动态的学习融合时各个节点模型的权值，并取得更好的模型效果。

Description

一种基于强化学习的联邦学习模型融合策略

技术领域

本发明涉及深度学习、强化学习、联邦学习，具体涉及到一种强化学习的联邦学习模型融合策略。

背景技术

联邦学习作为一门新兴技术，其保护个人及组织的隐私数据能力与新基建中的科技助力公共价值理念不谋而合，同时帮助各产业研究的机构组织进行合规的数据价值释放，近年来受到广泛的关注。联邦学习的明显好处是在大量设备上分配知识质量，而无需集中用于优化和训练模型的数据。该方法还能够在保持训练数据集的隐私的同时提高集中式机器学习模型的质量。在联邦学习中一个重要的问题是，如何融合各个节点上传的模型才能使最终模型能够达到最好的效果。最接近本发明的技术有：

(1)、平均融合：平均融合即模型融合时对每个节点的设置相同的权值，这样的好处是简单快捷，但是在各个节点数据量不同以及数据分布不同时，各个节点模型效果有好有坏，平均融合并不能很好的解决这个问题

(2)、加权融合：加权融合即模型融合时根据各个字节的数据量，设备性能设置各个节点的权值，这样会比平均融合得到的模型效果更好，但是缺点是无法定量的去评价各个节点的权值，对于权值的设置依靠经验。

发明内容

不同于传统的模型融合策略使用静态融合方式例如平均融合，本发明使用强化学习的方式，定义学习与奖励机制，不断学习各个子节点模型的权值，能够比传统融合模型得到更好的模型效果本发明的技术方案为：

1、一种基于强化学习的联邦学习模型融合策略，不同于传统的模型融合策略使用静态融合方式例如平均融合，本发明使用强化学习的方式，定义学习与奖励机制，不断学习各个子节点模型的权值，能够比传统融合模型得到更好的模型效果，算法包括以下步骤：

步骤(1)、初始化各个节点模型的权值，得到初始权值；

步骤(2)、将步骤(1)中获取的权值数据输入权值学习网络，选择动作action，改变某个模型的权值；

步骤(3)、执行动作action，并得到改变后的权值w_；

步骤(4)、根据action后的w_，进行模型融合，得到新的模型；

步骤(5)、通过对新模型融合进行评估，计算奖励值r；

步骤(6)、将w,a,r,w_存入记忆库中；

步骤(7)、判断记忆库容量是否达到上限，如果达到则开始学习，没有则回到步骤(1)；

步骤(8)、如果记忆库容量到达上限，则开始根据记忆库里存储的经验进行学习，每一步都找到后续奖励值r最大的动作a；

步骤(9)、重复(1)至(8)步骤，最终得到权重值w，进行模型融合；

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于强化学习的联邦学习模型融合策略的流程图。

Claims

1.一种基于强化学习的联邦学习模型融合策略，不同于传统的模型融合策略使用静态融合方式例如平均融合，本发明使用强化学习的方式，定义学习与奖励机制，不断学习各个子节点模型的权值，能够比传统融合模型得到更好的模型效果，算法包括以下步骤：

步骤(1)、初始化各个节点模型的权值，得到初始权值；

步骤(3)、执行动作action，并得到改变后的权值w_；

步骤(4)、根据action后的w_，进行模型融合，得到新的模型；

步骤(5)、通过对新模型融合进行评估，计算奖励值r；

步骤(6)、将w,a,r,w_存入记忆库中；

步骤(9)、重复(1)至(8)步骤，最终得到权重值w，进行模型融合。