CN112333216A

CN112333216A - 一种基于联邦学习的模型训练方法及系统

Info

Publication number: CN112333216A
Application number: CN202110015272.9A
Authority: CN
Inventors: 邵俊; 何悦; 路林林
Original assignee: Shenzhen Suoxinda Data Technology Co ltd; Soxinda Beijing Data Technology Co ltd
Current assignee: Shenzhen suoxinda Data Technology Co.,Ltd.
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-02-05
Anticipated expiration: 2041-01-07
Also published as: CN112333216B

Abstract

本发明公开了一种基于联邦学习的模型训练方法及系统，方法包括：中央服务器将参数发送至各个节点设备；各个节点设备基于参数和本地数据集进行神经网络模型训练，并获得梯度值；每个节点设备将各自的梯度值进行加噪，获得加噪梯度值并发送至中央服务器，中央服务器计算加噪梯度值和；各个节点设备通过点对点方式计算噪声值和，并将所述噪声值和发送至中央服务器；中央服务器根据所述加噪梯度值和以及所述噪声值和，计算获得梯度值和，并基于所述梯度值和更新自身的神经网络模型，获得更新的参数，将更新的参数分发给各节点设备；该方法能够保证模型训练精度，同时保护参与方的隐私数据。

Description

一种基于联邦学习的模型训练方法及系统

技术领域

本申请涉及信息技术领域，尤其涉及一种基于联邦学习的模型训练方法及系统。

背景技术

联邦学习致力于解决多用户在不公开各自数据集的情形下，协同完成模型训练的问题。例如在医疗大数据建模场景中，各家医院拥有不同的病人样本数据。由于各家医院拥有的数据量有限，如果仅仅基于自身的数据来训练模型，受样本规模的限制，模型效果难以达到预期。如果能将各家数据聚合来训练，则可以大幅提升模型精度。然而出于医院之间的竞争以及对病人数据隐私保护的要求，医院不可能将自身的客户数据向任何第三方发布，直接将各家数据聚合到一起建模是行不通的。因此，联邦学习技术应运而生，给医疗机构在不泄露自身原始数据的情形下，共同训练机器学习模型提供了可能。

共同训练的模型可以是机器学习模型或神经网络模型，通过协同训练来找到模型合适的参数，使得总损失函数最小。通常会使用梯度下降方法来更新模型参数，即在给定了模型初始参数后，通过梯度信息一步步更新参数，直到损失函数的值达到最小。通过联邦学习，参与方之间不需要共享原始数据，而只需要基于自身数据建模，并将梯度信息传送出去，通过各家梯度信息更新参数即可完成模型训练。

然而虽然各成员之间不会共享数据，而仅仅通过将梯度值传给中央服务器，并由中央服务器计算出梯度和并传送给各节点，以完成模型训练。然而该中央服务器存在通过这些梯度值反推出节点原始信息的可能性。

传统的差分隐私办法会让每个参与方在自身的梯度值上叠加一个噪声再传递给中央服务器，然而如果该噪声过大，则模型精度会急剧下降，而如果噪声过小，又起不到保护隐私的作用。该方法始终存在着精度与隐私性难以权衡的问题。

发明内容

为解决现有的联邦学习方法存在的精度与隐私性难以权衡的问题，本发明提供了一种基于联邦学习的模型训练方法及系统。

一种基于联邦学习的模型训练方法，节点设备和中央服务器分别部署有神经网络模型，所述方法包括：

迭代执行以下步骤，直到满足训练停止条件：

中央服务器将参数发送至各个节点设备；

各个节点设备基于所述参数和本地数据集进行神经网络模型训练，并获得梯度值；

每个节点设备将各自的梯度值进行加噪，获得加噪梯度值并发送至中央服务器，中央服务器计算加噪梯度值和；

各个节点设备通过点对点方式计算噪声值和，并将所述噪声值和发送至中央服务器；

中央服务器根据所述加噪梯度值和以及所述噪声值和，计算获得梯度值和，并基于所述梯度值和更新自身的神经网络模型，获得更新的参数，将更新的参数分发给各节点设备。

进一步地，节点设备基于所述参数和本地数据集进行神经网络模型训练，并获得梯度值，包括；

节点设备基于所述参数和本地数据集计算损失函数值，计算过程中获得梯度下降产生的梯度值。

进一步地，节点设备将自身获得的梯度值进行加噪，获得加噪梯度值，包括：

节点设备生成噪声值，将所述噪声值与自身获得的梯度值进行叠加，获得所述加噪梯度值。

进一步地，中央服务器计算加噪梯度值和，包括：

中央服务器将接收到的各个节点设备的加噪梯度值进行相加，获得加噪梯度值和。

进一步地，各个节点设备通过点对点方式计算噪声值和，包括：

首节点设备生成额外噪声值，将所述额外噪声值与所述首节点设备的噪声值叠加，获得叠加噪声值之后发送至下一节点设备；

各节点设备接收到上一节点设备发送的叠加噪声值之后，将各自的噪声值叠加到所述叠加噪声值上，并发送至下一节点设备；

最后一个节点设备将叠加噪声值发送至所述首节点设备，所述首节点设备将接收到的叠加噪声值减去额外噪声值，获得所述噪声值和。

进一步地，所述首节点设备将所述噪声值和发送至中央服务器。

进一步地，中央服务器根据所述加噪梯度值和以及所述噪声值和，计算获得梯度值和，包括：

中央服务器将所述加噪梯度值和减去所述噪声值和，获得所述梯度值和。

进一步地，所述训练停止条件为：

超过预设数量的节点设备的神经网络模型收敛。

进一步地，所述节点设备的神经网络模型收敛的条件为损失函数值的变化值小于预设值。

一种基于联邦学习的模型训练系统，包括中央服务器和N个节点设备，其中，N为大于1的整数；

迭代执行以下步骤，直到满足训练停止条件：

中央服务器将参数发送至各个节点设备；

本发明提供的基于联邦学习的模型训练方法及系统，至少包括如下有益效果：

（1）在协同训练的过程中，中央服务器无法获知任意节点设备的噪声值和梯度值，任意节点设备也无法获知其他节点设备的噪声值和梯度值，保证了所有参与方的隐私数据，同时，中央服务器最终基于梯度值和更新参数，排除了噪声值的影响，保证了模型训练的精度；

（2）节点设备之间通过点对点的方式计算噪声值和，首节点设备加入了额外噪声值进行计算，使得任意一个节点设备都无法获知其他节点设备的噪声值，以防止节点设备和中央服务器串谋获取其他节点设备的数据，进一步保证所有参与方的数据隐私。

附图说明

图1为本发明提供的基于联邦学习的模型训练方法一种实施例的流程图。

图2为本发明提供的基于联邦学习的模型训练方法中中央服务器获取加噪梯度值的示意图。

图3为本发明提供的基于联邦学习的模型训练方法中计算噪声值和一种实施例的流程图。

图4为本发明提供的基于联邦学习的模型训练方法中各个节点设备通过点对点方式计算噪声值和的示意图。

图5为本发明提供的基于联邦学习的模型训练系统一种实施例的结构示意图。

图6为本发明提供的基于联邦学习的模型训练系统中中央服务器和节点设备另一种实施例的结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

参考图1，在一些实施例中，提供一种基于联邦学习的模型训练方法，节点设备和中央服务器分别部署有神经网络模型，所述方法包括：

迭代执行以下步骤，直到满足训练停止条件：

S1、中央服务器将参数发送至各个节点设备；

S2、各个节点设备基于所述参数和本地数据集进行神经网络模型训练，并获得梯度值；

S3、每个节点设备将各自的梯度值进行加噪，获得加噪梯度值并发送至中央服务器，中央服务器计算加噪梯度值和；

S4、各个节点设备通过点对点方式计算噪声值和，并将所述噪声值和发送至中央服务器；

S5、中央服务器根据所述加噪梯度值和以及所述噪声值和，计算获得梯度值和，并基于所述梯度值和更新自身的神经网络模型，获得更新的参数，将更新的参数分发给各节点设备。

具体地，系统包括一台中央服务器和至少两个节点设备。

步骤S1中，中央服务器分发给各个节点设备的参数，为初始参数或者每一轮迭代更新的参数，在训练开始时，中央服务器将初始参数发送给各个节点设备，中央服务器每一次机遇梯度值和更新申请网络模型获得更新的参数，发送给各个节点设备。

步骤S2中，节点设备基于所述参数和本地数据集进行神经网络模型训练，并获得梯度值，包括；

步骤S3中，节点设备将自身获得的梯度值进行加噪，获得加噪梯度值，包括：

具体地，各个节点设备的加噪梯度值通过以下公式表示：

；（1）

其中，

表示第i个节点设备的加噪梯度值，

表示第i个节点设备获得的梯度值，

表示第i个节点设备生成的噪声值。

进一步地，各个节点设备将加噪梯度值发送至中央服务器，中央服务器计算加噪梯度值和，包括：

所述加噪梯度值和通过以下公式计算：

其中，

表示第i个节点设备的加噪梯度值，

表示第i个节点设备获得的梯度值，

表示第i个节点设备生成的噪声值，

表示加噪梯度值和。

参考图2，在一个应用场景下，系统包括n个节点设备和一台中央服务器100，n个节点设备编号分别为1、2、3、……n，n个节点设备与中央服务器建立通信连接，各个节点设备将加噪梯度值发送至中央服务器，由于中央服务器接收到的每一个加噪梯度值都包含噪声值，因此中央服务器无法获得任意一个节点的数据集。

进一步地，参考图3，步骤S4中，各个节点设备通过点对点方式计算噪声值和，包括：

S41、首节点设备生成额外噪声值，将所述额外噪声值与自身的噪声值叠加，获得叠加噪声值之后发送至下一节点设备；

S42、各节点设备接收到上一节点设备发送的叠加噪声值之后，将各自的噪声值叠加到所述叠加噪声值上，并发送至下一节点设备；

S43、最后一个节点设备将叠加噪声值发送至所述首节点设备，所述首节点设备将接收到的叠加噪声值减去额外噪声值，获得所述噪声值和。

具体地，参考图4，编号为1的节点设备作为首节点设备，首节点设备1生成额外噪声值e，将额外噪声值e与先前生成的噪声值

叠加，获得叠加噪声值

之后发送至节点设备2，这样节点设备2无法获知首节点设备1的噪声值，节点设备2再将自身的噪声值

叠加到收到的叠加噪声值

里，发送至下一个节点设备，直到最后一个节点设备n，最后一个节点设备n叠加自身的噪声值之后发送至首节点设备1，首节点设备1接收到的叠加噪声值为

，减去额外噪声值e，获得噪声值和

，可以表示为

。

节点设备之间通过点对点的方式计算噪声值和，首节点设备加入了额外噪声值进行计算，使得任意一个节点设备都无法获知其他节点设备的噪声值，以防止节点设备和中央服务器串谋获取其他节点设备的数据。

首节点设备获得噪声值和后，将所述噪声值和发送至中央服务器。

进一步地，步骤S5中，中央服务器根据加噪梯度值和以及噪声值和，计算获得梯度值和，包括：

中央服务器将加噪梯度值和减去所述噪声值和，获得梯度值和。

具体地，梯度值和通过以下公式计算：

；（3）

其中，

为梯度值和，

表示加噪梯度值和，

表示噪声值和。

中央服务器接收到噪声值和，无法通过噪声值和推算节点设备的噪声值，也无法通过梯度值和推算节点设备的梯度值，因此能够有效保护节点设备的数据。

进一步地，中央服务器基于所述梯度值和更新自身的神经网络模型，获得更新的参数，将更新的参数分发给各节点设备。各节点设备进行下一轮的迭代，直到满足训练停止条件。

节点设备在训练过程中，基于所述参数和本地数据集计算损失函数值，计算过程中获得梯度下降产生的梯度值，当损失函数值的变化值小于预设值时，神经网络模型收敛。

当超过预设数量的节点设备的神经网络模型收敛，则满足训练停止条件。

预设数量可以根据需要设定，例如可以是总的节点数量的70%至80%。

训练过程中，神经网络模型收敛的节点设备，接收到中央服务器发送的参数后不再更新模型，但与其他节点设备以及中央服务器的通信依然继续，噪声值设置为0，发送给中央服务器的加噪梯度值和为0。

上述实施例提供的基于联邦学习的模型训练方法，至少包括如下有益效果：

参考图5，在一些实施例中，还提供一种基于联邦学习的模型训练系统，包括中央服务器100和N个节点设备200，其中，N为大于1的整数；

迭代执行以下步骤，直到满足训练停止条件：

中央服务器100将参数发送至各个节点设备200；

各个节点设备200基于所述参数和本地数据集进行神经网络模型训练，并获得梯度值；

每个节点设备200将各自的梯度值进行加噪，获得加噪梯度值并发送至中央服务器，中央服务器100计算加噪梯度值和；

各个节点设备200通过点对点方式计算噪声值和，并将所述噪声值和发送至中央服务器100；

中央服务器100根据所述加噪梯度值和以及所述噪声值和，计算获得梯度值和，并基于所述梯度值和更新自身的神经网络模型，获得更新的参数，将更新的参数分发给各节点设备。

具体地，参考图6，中央服务器包括参数分发模块101、参数更新模块102、数据接收模块103以及计算模块104。节点设备包括参数接收模块201、训练模块202、加噪模块203、第一发送模块204、第二发送模块205以及噪声值和计算模块206。

中央服务器的参数分发模块101用于将参数发送至各个节点设备；对于第一轮训练，参数更新模块102还用于生成初始参数，通过参数分发模块101发送至各个节点设备。

节点设备的参数接收模块201接收中央服务器发送的参数，训练模块202基于所述参数和本地数据集进行神经网络模型训练，并获得梯度值，具体是基于所述参数和本地数据集计算损失函数值，计算过程中获得梯度下降产生的梯度值。加噪模块203生成噪声值，将所述噪声值与自身获得的梯度值进行叠加，获得所述加噪梯度值。加噪梯度值通过公式（1）进行计算。第一发送模块204将加噪梯度值发送至中央服务器。

中央服务器的数据接收模块103接收各个节点设备的加噪梯度值，计算模块103将接收到的各个节点设备的加噪梯度值进行相加，获得加噪梯度值和。

首节点设备的噪声值和计算模块206生成额外噪声值，将所述额外噪声值与先前生成的噪声值叠加，获得叠加噪声值之后通过第二发送模块205发送至下一节点设备；各节点设备的噪声值和计算模块206接收到上一节点设备发送的叠加噪声值之后，将自身先前生成的噪声值叠加到所述叠加噪声值上，并通过第二发送模块205发送至下一节点设备；最后一个节点设备的噪声值和计算模块206将叠加噪声值发送至所述首节点设备，所述首节点设备的噪声值和计算模块206将接收到的叠加噪声值减去额外噪声值，获得所述噪声值和，再通过第一发送模块204发送至中央服务器。

中央服务器的数据接收模块103接收该噪声值和，计算模块104将加噪梯度值和减去所述噪声值和，获得梯度值和，参数更新模块102基于所述梯度值和更新自身的神经网络模型，获得更新的参数，参数分发模块101将更新的参数分发给各节点设备。

上述实施例提供的基于联邦学习的模型训练系统，至少包括如下有益效果：

以下通过具体应用场景对本发明实施例提供的基于联邦学习的模型训练方法做进一步说明。

系统包括中央服务器和5个节点设备，分别部署有神经网络模型，训练开始时，中央服务器生成初始参数，发送给各个节点设备，各个节点设备基于初始参数和本地数据集进行神经网络模型训练，训练过程中基于所述参数和本地数据集计算损失函数值，计算过程中获得梯度下降产生的梯度值。

记神经网络模型原始自变量为

标签为y，y的取值为0或1，1表示正类，0表示负类。神经网络模型的参数为

。

其中M为隐层数量，

表示第i个隐层的变量个数，记神经网络模型的输出为

，表示该样本为正例的概率，那么损失函数如下表示：

，其中

每个参数的梯度值即为上述损失函数对每个参数的偏导数。

每个节点设备将各自的梯度值G进行加噪，加噪选取的噪声e为服从以0为均值以梯度值的绝对值的2倍作为标准差的正态分布：

即

首节点设备生成的额外噪声值为服从以0为均值以梯度值的绝对值的2倍作为标准差的正态分布：

即

；

首节点设备将生成额外噪声值的与自身的噪声值叠加，获得叠加噪声值之后发送至下一节点设备，各节点设备接收到上一节点设备发送的叠加噪声值之后，将各自的噪声值叠加到所述叠加噪声值上，并发送至下一节点设备，第五个节点设备将叠加噪声值发送至首节点设备，首节点设备将接收到的叠加噪声值减去额外噪声值，获得所述噪声值和。并将该噪声值和发送至中央服务器。

中央服务器根据所述加噪梯度值和以及所述噪声值和，计算获得梯度值和。

基于所述梯度值和更新自身的神经网络模型，获得更新的参数，将更新的参数分发给各节点设备。

各个节点设备基于更新的参数和本地数据集进行下一轮训练，计算损失函数值，并计算与上一轮训练的变化值，如果变化值小于预设值，则该节点停止训练，将噪声值设为0，梯度值为0。

当4个节点设备的模型都收敛，则训练停止。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于联邦学习的模型训练方法，其特征在于，节点设备和中央服务器分别部署有神经网络模型，所述方法包括：

迭代执行以下步骤，直到满足训练停止条件：

中央服务器将参数发送至各个节点设备；

2.根据权利要求1所述的方法，其特征在于，节点设备基于所述参数和本地数据集进行神经网络模型训练，并获得梯度值，包括；

3.根据权利要求1所述的方法，其特征在于，节点设备将自身获得的梯度值进行加噪，获得加噪梯度值，包括：

4.根据权利要求1或3所述的方法，其特征在于，中央服务器计算加噪梯度值和，包括：

5.根据权利要求3所述的方法，其特征在于，各个节点设备通过点对点方式计算噪声值和，包括：

6.根据权利要求5所述的方法，其特征在于，所述首节点设备将所述噪声值和发送至中央服务器。

7.根据权利要求1所述的方法，其特征在于，中央服务器根据所述加噪梯度值和以及所述噪声值和，计算获得梯度值和，包括：

8.根据权利要求2所述的方法，其特征在于，所述训练停止条件为：

超过预设数量的节点设备的神经网络模型收敛。

9.根据权利要求8所述的方法，其特征在于，所述节点设备的神经网络模型收敛的条件为损失函数值的变化值小于预设值。

10.一种基于联邦学习的模型训练系统，其特征在于，包括中央处服务器和N个节点设备，其中，N为大于1的整数；

迭代执行以下步骤，直到满足训练停止条件：

中央服务器将参数发送至各个节点设备；