CN111935156B

CN111935156B - 一种联邦学习的数据隐私保护方法

Info

Publication number: CN111935156B
Application number: CN202010808771.9A
Authority: CN
Inventors: 吴炎泉; 陈思恩; 杨紫胜; 廖雅哲
Original assignee: Tech Valley Xiamen Information Technology Co ltd
Current assignee: Tech Valley Xiamen Information Technology Co ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2022-06-14
Anticipated expiration: 2040-08-12
Also published as: CN111935156A

Abstract

本发明公开了一种联邦学习的数据隐私保护方法，包括自治和联合两个步骤，所述自治具体为：两个或两个以上的参与方在各自的终端安装初始化的模型，每个参与方拥有相同的模型，参与方各自使用当地的数据训练模型得到不同的模型参数；所述联合具体为：参与方将所述不同的模型参数同时上传到云端，由所述云端完成模型参数的聚合与更新，并且将更新好的参数返回到各参与方的终端，所述各参与方的终端开始下一次的迭代，重复以上的步骤，直到整个训练过程收敛。本发明实现了在数据不出本地的条件下进行联合建模，利用模型参数的交互代替数据的直接交换，既实现了数据的交互，又解决了数据的隐私和安全问题。

Description

一种联邦学习的数据隐私保护方法

技术领域

本发明涉及计算机技术领域，特别涉及一种联邦学习的数据隐私保护方法。

背景技术

人工智能对于场景和数据的依赖性极大，优质的数据直接决定了模型的质量，但数据的获取却变得困难。这种困境主要在于两个方面：一方面，数据孤岛现象严重，大部分的数据掌握在政府、运营商、互联网企业等三大“数据岛屿群”中，数据的利用率低，成本高；另一方面，数据安全与用户隐私问题越来越受到人们的重视，数据监管愈发严格，数据互通愈发困难。

发明内容

为解决上述问题，本发明提供了一种联邦学习的数据隐私保护方法。

本发明采用以下技术方案：

一种联邦学习的数据隐私保护方法，包括自治和联合两个步骤，所述自治具体为：两个或两个以上的参与方在各自的终端安装初始化的模型，每个参与方拥有相同的模型，参与方各自使用当地的数据训练模型得到不同的模型参数；所述联合具体为：参与方将所述不同的模型参数同时上传到云端，由所述云端完成模型参数的聚合与更新，并且将更新好的参数返回到各参与方的终端，所述各参与方的终端开始下一次的迭代，重复以上的步骤，直到整个训练过程收敛。

进一步地，所述参与方采用企业A和企业B，所述云端采用协作者C。

进一步地，包括如下步骤：

S1、企业A和企业B接受来自协作者C发来的用于加密的公钥，在不公开各自数据的前提下，进行用户样本对齐，确认双方共有用户群体；

S2、企业A和企业B在各自终端安装相同的初始化模型，并利用双方共有用户群体的数据进行模型训练，所述模型训练过程如下：

S21、企业A和企业B在各自的终端安装相同的初始化模型，输入双方共有用户群体数据进行训练；

S22、企业A和企业B之间以加密形式交换用于计算梯度的中间结果；

S23、企业A和企业B分别在加密的条件下进行梯度值的计算，同时企业B根据其标签数据计算损失，企业A和企业B把计算结果汇总给协作者C，协作者C通过汇总结果计算总梯度与损失并将其解密；

S24、协作者C将解密后的总梯度分别回传给企业A和企业B，企业A和企业B根据梯度更新各自模型的参数，并根据更新的模型参数进行下一次的迭代，直到整个训练过程收敛。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

本发明本发明样本对齐和模型训练的过程中，各参与方的数据均保留在本地，且训练中的数据交互采用加密的模型参数进行交互，而不是直接的数据交换，不会导致数据隐私的泄露，实现了在数据不出本地的情况下进行联合建模，且保证了数据的安全；同时各参与方通过联邦学习合作训练的模型整合了多方的数据，实现了数据的共享。

附图说明

图1为本发明实施例的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，本实施例以包含两个数据拥有方（即企业A和企业B）的场景为例来介绍联邦学习的数据隐私保护方法，该方法可扩展至包含多个数据拥有方的场景。本实施例中，企业A和B想联合训练一个机器学习模型，它们的业务系统分别拥有各自用户的相关数据，此外，企业B还拥有模型需要预测的标签数据，但是出于数据隐私和安全考虑，企业A和企业B无法直接进行数据交换。因此，在参与方采用企业A和企业B的情况下，还引入了作为云端的协作者C，该方法具体包括如下步骤：

由于两家企业的用户群体并非完全重合，基于加密的用户样本对齐，在企业A和企业B不公开各自数据的前提下确认双方的共有用户，并且不暴露不互相重叠的用户，以便联合这些用户的特征进行建模。

在确定共有用户群体后，就可以利用这些数据训练机器学习模型。为了保证训练过程中数据的保密性，需要借助第三方协作者C进行加密训练。

在样本对齐及模型训练过程中，企业A和企业B各自的数据均保留在本地，且训练中的数据交互也不会导致数据隐私泄露。因此，双方在联邦学习的帮助下得以实现合作训练模型。

此外，提供数据越多的参与方会看到模型的效果越好，这体现在对自己的贡献和对其他参与方的贡献，从而激励更多的参与方加入到这一数据联邦，实现更加完善的联邦共同建模。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种联邦学习的数据隐私保护方法，其特征在于：包括自治和联合两个步骤，所述自治具体为：两个或两个以上的参与方在各自的终端安装初始化的模型，每个参与方拥有相同的模型，参与方各自使用当地的数据训练模型得到不同的模型参数；所述联合具体为：参与方将所述不同的模型参数同时上传到云端，由所述云端完成模型参数的聚合与更新，并且将更新好的参数返回到各参与方的终端，所述各参与方的终端开始下一次的迭代，重复以上的步骤，直到整个训练过程收敛；

所述参与方采用企业A和企业B，所述云端采用协作者C；

包括如下步骤：