CN113297573B

CN113297573B - 一种基于gan模拟数据生成的垂直联邦学习防御方法和装置

Info

Publication number: CN113297573B
Application number: CN202110653120.1A
Authority: CN
Inventors: 陈晋音; 李荣昌; 刘涛; 张龙源; 鲍亮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-06-10
Anticipated expiration: 2041-06-11
Also published as: CN113297573A

Abstract

本发明公开了一种基于GAN模拟数据生成的垂直联邦学习防御方法，包括以下步骤：参与方准备训练数据特征和标签，主动参与方发送样本和标签，被动参与方准备匹配的特征数据；参与者进行关键属性查找，参与者采用模型结构进行训练，通过对神经元的权重值排序查找关键属性；使用GAN生成模拟数据，依次由生成器模型对随机生成的噪声进行训练，判别器模型根据置信度信息进行训练；关键属性值替换，GAN生成的模拟数据对关键属性替换，获得真实属性；参与方上传模拟数据进行训练，得到垂直联邦模型。本发明基于GAN的垂直联邦学习防御方法可有效防止参与方的隐私泄露，在可接受的模型性能降低的代价范围内保护数据隐私安全。

Description

一种基于GAN模拟数据生成的垂直联邦学习防御方法和装置

技术领域

本发明涉及深度学习安全、隐私保护领域，具体涉及一种基于GAN模拟数据生成的垂直联邦学习防御方法和装置。

背景技术

随着深度学习的不断完善，其性能逐渐提升，被广泛应用于医疗、金融、交通等领域。由于深度学习的广泛应用，其对数据的需求量逐渐增加，由此引发了一系列对数据隐私安全保护的关注。

2016年谷歌提出了一种隐私保护的联邦学习，客户端在本地共享和训练模型，无需将其私有数据上传到服务器，这很大程度上保护用户的隐私安全。微众银行扩展了联邦学习的概念，其根据数据的特征分布差异分为水平联邦学习、垂直联邦学习以及联邦迁移学习。

在垂直联邦学习的框架中，不同用户具有相同的ID，但是具有不同的数据特征。在垂直联邦学习训练过程中，用户的本地数据保留在本地进行训练，为了训练垂直联邦模型，各方用户以安全的方式迭代地交换某些中间结果，迭代进行训练至获得性能好的联合训练模型。最后，经过训练的垂直联邦学习模型将被发布给参与训练的各方，以证明模型的有效性和可解释性。

然而现有研究表明，这种垂直联邦学习中的主动参与方，即有标签的一方，可能会窃取被动参与方的一些隐私的属性信息。当攻击者的背景知识只有训练完成的垂直联邦模型和训练结束每个样本最后预测的置信度信息，攻击者通过构建一个生成器模型，使用攻击者本身的特征信息和随机生成被动参与者的特征信息来进行训练生成器模型。通过将生成器模型的输出结果与自身属性放入训练完成的垂直联邦学习模型中进行训练，以每个样本在联合训练的置信度信息和本轮训练的结果差异获得损失函数，迭代训练生成器模型，最终达到恢复属性信息的效果。

针对这种隐私泄露的攻击，现有的研究有两种防御方法：一种是同态加密，这种加密方式安全性较高，但是用户端设备的计算成本要求较高，神经网络中使用这种隐私保护的方式可能会造成模型难以收敛；另一种是差分隐私保护，通过添加一些噪声如拉普拉斯噪声来扰动数据集的数据分布，这种方法往往会在一定程度上造成模型性能下降的危害，违背了联合训练的初衷。

生成式对抗网络(GAN)是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。GAN通过框架中两个模块的互相博弈学习产生相当好的输出，两个模块分别为生成模型(Generative Model)和判别模型(Discriminative Model)。GAN在训练过程中主要学习了数据的分布情况，同时有一定程度上改变了数据的映射方式，隐藏了敏感的信息。

公开号为CN112738035A的说明书公开了一种基于区块链技术的垂直联邦下模型窃取防御方法，包括：(1)依据工作量证明从区块链中选择2个区块节点作为边缘终端P_A和P_B，为P_A和P_B分别分配样本集D_A和D_B、边缘模型M_A和M_B；(2)P_A依据D_A对M_A训练，P_B依据D_B对M_B训练，P_A将训练过程产生的特征数据发送给P_B，P_B利用接收的特征数据计算损失函数，P_A和P_B将各自的损失函数掩码加密后记入账本，并将该账本分配给工作量证明大的边缘终端保管；(3)保管账本的边缘终端对M_A和M_B的损失函数掩码解密并聚合损失函数后求解获得M_A和M_B的梯度信息，并返回梯度信息至P_A和P_B以更新边缘模型网络参数。该发明的边缘终端通过区块链的共识算法进行工作量证明，利用模型窃取攻击者缺乏算力的缺陷，达到对于模型窃取攻击的防御目的。

公开号为CN112464290A的说明书公开了了一种基于自编码器的垂直联邦学习防御方法，包括：(1)终端利用本地数据对边缘模型进行训练，训练过程中，同时聚合边缘模型内每层相邻节点的嵌入特征；(2)终端构建并训练包含编码器和解码器的自编码器，获得编码器参数和解码器参数，同时利用编码器对嵌入特征进行编码得到编码信息；(3)终端上传解码器参数至服务端，服务端依据解码器参数构建解码模型后，与终端进行消息验证后，终端上传编码信息至服务端；(4)服务端利用解码模型对接收的编码信息解码获得解码信息后，聚合所有解码信息得到嵌入信息后，利用嵌入信息对全局模型进行训练，训练后反馈梯度信息至各终端。该发明通过自编码器进行处理加密本地参与者上传的图数据信息，防御恶意参与方窃取隐私数据。

发明内容

本发明的发明目的在于提供一种不影响垂直联邦学习模型性能的基于GAN模拟数据生成的垂直联邦学习防御方法，通过隐藏具体的个体信息，使得恶意参与者无法通过生成器反推出敏感的属性信息，起到保护数据隐私的作用。

一种基于GAN模拟数据生成的垂直联邦学习防御方法，包括以下步骤：

(1)参与方准备训练数据特征和标签，主动参与方发送样本和标签，被动参与方准备匹配的特征数据；

(2)参与者进行关键属性查找，参与者采用模型结构进行训练，通过对神经元的权重值排序查找关键属性；

(3)使用GAN生成模拟数据，依次由生成器模型对随机生成的噪声进行训练，判别器模型根据置信度信息进行训练；

(4)关键属性值替换，GAN生成的模拟数据对关键属性替换，获得真实属性；

(5)参与方上传模拟数据进行训练，得到垂直联邦模型。

垂直联邦学习的恶意参与方可以根据服务器下发的置信度信息和训练好的垂直联邦模型来推测出其他参与方的属性信息，考虑到置信度信息直接关系到垂直联邦学习模型的性能，需权衡联合主任务的准确率和参与方数据隐私保护这两个方面。置信度信息中top1信息直接关系到模型性能好坏，故需对影响决策边界的属性进行保护，同时改变非重要属性的分布特征，达到隐私保护的目的。

所述步骤(1)中，参与方准备训练数据特征和标签的具体步骤如下：

(1.1)主动参与方向服务器端发送准备训练的样本，并且向服务器端和被动参与方分享参与训练的每个样本ID对应的真实的标签值；

(1.2)被动参与方获得主动参与方提供的训练样本ID号，通过遍历自身数据集样本信息，匹配ID一致的样本，准备与主动参与方共同进行联合训练。

所述步骤(2)中，参与者进行关键属性查找的具体步骤如下：

(2.1)参与者从服务器端下载属性重要性评价网络模型结构，参与者利用所述属性重要性评价网络模型结构输入样本属性信息，获得预测结值，并将预测结果和真实标签求交叉熵获得损失函数，进行迭代训练，训练结束保存训练模型及关键属性的置信度信息C；

(2.2)提取模型中的第一层神经元权重信息，将每个神经元权重和对应的样本ID做一个字典，以神经元权重的重要性进行排序；

(2.3)采用自适应阈值对步骤(2.2)中的字典排序结果进行删选，从而确定关键属性和非关键属性。

通过自适应阈值筛选法确定重要属性，尽可能减小对决策边界的扰动，使得整体模型更加具有鲁棒性。

所述的生成器模型用于设置关键属性的真实数据分布特性，同时保证非关键属性与原特征的属性有差异；具体来说，使用生成器获得的模拟数据在模型训练的表现上应该保证置信度中的分类准确率不发生变化，同时该样本中其他类标置信度发生变化，即在不影响决策边界的前提下扰动部分数据的分布。

所述的判别器模型用于判别关键属性的数据分布信息，同时增加非关键属性的数据分布差，目标对象为扰动后的置信度分布。

所述判别器模型扰动目标置信度分布的具体步骤如下：

对关键属性的置信度信息C保留top1，非关键属性的置信度信息随机进行偏差扰动，保证置信度向量所有维度值相加为1，扰动后的目标置信度信息记作C′,其中top1通过argmax函数确定。

所述步骤(3)中，使用GAN生成模拟数据，由生成器模型对随机生成的噪声进行训练，判别器模型根据置信度信息进行训练，其具体步骤如下：

(3.1)所述的生成器模型G通过噪点高斯分布P(z)，得到一个生成数据的分布Pg(x)，使得生成的数据分布Pg(x)趋近于目标数据分布Pexp(x)；

(3.2)所述的判别器模型D衡量Pg(x)和Pexp(x)之间的差距，并通过反复的迭代训练，趋近于目标置信度分布；

(3.3)使用GAN对随机噪声进行优化，生成器模型G和判别器模型D交替训练至模型收敛，获得模拟数据D^*。

所述步骤(4)中，关键属性值替换的具体步骤如下：

采用掩膜的形式将生成器模型生成的数据中的关键属性替换为真实属性，获得的数据为参与方投入联合训练的模拟数据。

一种基于GAN模拟数据生成的垂直联邦学习防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述基于GAN模拟数据生成的垂直联邦学习防御方法。

本发明相比现有技术，其优点在于：

1、本发明基于GAN的垂直联邦学习防御方法可有效防止参与方的隐私泄露，在可接受的模型性能降低的代价范围内保护数据隐私安全。

2、本发明以随机扰动的置信度信息作为优化目标，即使攻击者一方拥有GAN模型的背景知识也难以进行攻击。

附图说明

图1是本发明实施例中基于GAN模拟数据生成的垂直联邦学习防御方法的示意图；

图2是本发明实施例中针对垂直联邦学习场景窃取信息攻击的示意图；

图3是本发明实施例中基于GAN模拟数据生成的垂直联邦学习框架示意图。

具体实施方式

如图1所示，实施例提供了基于GAN模拟数据生成的垂直联邦学习防御方法，包括以下步骤：

(5)参与方上传模拟数据进行训练，得到垂直联邦模型。

如图2所示，垂直联邦学习的恶意参与方可以根据服务器下发的置信度信息和训练好的垂直联邦模型来推测出其他参与方的属性信息，考虑到置信度信息直接关系到垂直联邦学习模型的性能，需权衡联合主任务的准确率和参与方数据隐私保护这两个方面。

置信度信息中top1信息直接关系到模型性能好坏，故需对影响决策边界的属性进行保护，同时改变非重要属性的分布特征，达到隐私保护的目的。

步骤(1)中，参与方准备训练数据特征和标签的具体步骤如下：

(1.1)主动参与方首先向服务器端发送准备训练的n个样本ID{S₁,S₂,S₃,S₄,…,S_n}，并且向服务器端和被动参与方分享参与训练的每个样本ID对应的n个真实的标签值{L₁,L₂,L₃,L₄,…,L_n}；

(1.2)被动参与方获得主动参与方提供的训练样本ID号{S₁,S₂,S₃,S₄,…,S_n}，通过遍历自身数据集样本信息，匹配ID一致的样本，准备共同进行联合训练。

步骤(2)中，参与者进行关键属性查找的具体步骤如下：

(2.1)参与者从服务器端下载属性重要性评价网络模型结构M(x,θ)，属性重要性评价网络模型结构M(x,θ)通常为多层感知机模型或卷积神经网络。参与者利用网络模型结构M(x,θ)输入样本属性信息{X₁,X₂,X₃,X₄,…,X_n}，获得预测结值{Y₁,Y₂,Y₃,Y₄,…,Y_n}，利用目标函数来调整网络模型的参数θ，迭代优化尽可能减小损失值，训练结束后，保存训练模型及关键属性的置信度信息C，网络模型的损失函数L如下：

其中，p＝f(a),a＝∑_hw_i,jx_i,j+b_i,j，δ为岭回归系数，d为样本标签，w为模型权重，i,j神经元的位置。

(2.2)提取模型中的第一层神经元权重信息[w₁,w₂,w_3,w₄,…,w_n]，将每个神经元权重和一个样本ID做一个字典{S₁:w₁,S₂:w₂,S₃:w₃,S₄:w₄,…,S_n:w_n}，每个键值对包含一个样本ID和一个神经元权重，以神经元权重的重要性进行排序。

(2.3)采用自适应阈值对上一步字典排序的结果进行删选，从而确定i个重要属性{S′₁,S′₂,S′₃,S′₄,…,S′_i}和m个非重要属性{S″₁,S″₂,S″₃,S″₄,…,S″_m}，属性维度总数为n，其中

m＝n-i。

如图3所示，步骤(3)中，使用GAN生成模拟数据，由生成器模型对随机生成的噪声进行训练，判别器模型根据置信度信息进行训练，其具体步骤如下：

(3.1)生成器模型G用于设置关键属性的真实数据分布特性，同时保证非关键属性与原特征的属性有差异；具体来说，生成器模型G可以是全连接神经网络或卷积神经网络。

使用生成器模型G获得的模拟数据在模型训练的表现上应该保证置信度中的分类准确率不发生变化，同时该样本中其他类标置信度发生变化，即在不影响决策边界的前提下扰动部分数据的分布。

生成器模型G通过噪点高斯分布P(z)，得到一个生成数据的分布Pg(x)，使得生成的数据分布Pg(x)趋近于目标数据分布Pexp(x)；

(3.2)判别器模型D用于判别关键属性的数据分布信息，同时增加非关键属性的数据分布差，目标对象为扰动后的置信度分布。

判别器模型D衡量Pg(x)和Pexp(x)之间的差距，对关键属性的置信度信息C保留top1，非关键属性的置信度信息随机进行偏差扰动，保证置信度向量所有维度值相加为1，扰动后的目标置信度信息记作C′，其中top1通过argmax函数确定。

通过反复的迭代训练，逼近目标分布特征，目标函数设定为Y(D,G)＝

∫Pexp(x)[logD(X)]dx+∫Pg(x)[log(1-D(x))]dx，在训练过程中优化模型使得目标函数最大化。

(3.3)使用GAN对随机噪声进行优化，生成器模型G和判别器模型D交替进行训练至模型收敛，获得模拟数据D^*，GAN总目标函数为：

minmaxY(D,G)＝∫Pexp(x)[logD(X)]dx+∫Pg(x)[log(1-D(x))]dx，

步骤(4)中，关键属性值替换的具体步骤如下：

将步骤(3.3)中得到的模拟数据D^*中关键属性替换为真实属性，最终获得的数据为参与方投入联合训练的数据，即模拟数据D′。

采用掩膜的形式来进行替换：

D′＝maskA·D^*+maskA′·D

其中，maskA为非重要属性的位置点，maskA′为重要属性的位置点。

步骤(5)中，主动参与方和被动参与方上传模拟数据D′进行联合训练，迭代地交换某些中间结果，联合训练至获得性能好的垂直联邦模型。

实施例还提供了一种基于GAN模拟数据生成的垂直联邦学习防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述基于GAN模拟数据生成的垂直联邦学习防御方法。

Claims

1.一种基于GAN模拟数据生成的垂直联邦学习防御方法，其特征在于，包括以下步骤：

(2)参与方进行关键属性查找，参与方采用模型结构进行训练，通过对神经元的权重值排序查找关键属性；

(4)关键属性值替换，即采用掩膜的形式将生成器模型生成的数据中的关键属性替换为真实属性，获得的数据为参与方投入联合训练的模拟数据；

(5)参与方上传模拟数据进行训练，得到垂直联邦模型。

2.如权利要求1所述的基于GAN模拟数据生成的垂直联邦学习防御方法，其特征在于，所述步骤(1)中，参与方准备训练数据特征和标签的具体步骤如下：

3.如权利要求1所述的基于GAN模拟数据生成的垂直联邦学习防御方法，其特征在于，所述步骤(2)中，参与方进行关键属性查找的具体步骤如下：

(2.1)参与方从服务器端下载属性重要性评价网络模型结构，参与方利用所述属性重要性评价网络模型结构输入样本属性信息，获得预测结果，并将预测结果和真实标签求交叉熵获得损失函数，进行迭代训练，训练结束保存训练模型及关键属性的置信度信息C；

4.如权利要求1所述的基于GAN模拟数据生成的垂直联邦学习防御方法，其特征在于，所述的生成器模型用于设置关键属性的真实数据分布特性，同时保证非关键属性与原特征的属性有差异。

5.如权利要求1所述的基于GAN模拟数据生成的垂直联邦学习防御方法，其特征在于，所述的判别器模型用于判别关键属性的数据分布信息，同时增加非关键属性的数据分布差，其目标对象为扰动后的置信度分布。

6.如权利要求5所述的基于GAN模拟数据生成的垂直联邦学习防御方法，其特征在于，所述判别器模型扰动目标置信度分布的具体步骤如下：

对关键属性的置信度信息C保留top1，非关键属性的置信度信息随机进行偏差扰动，保证置信度向量所有维度值相加为1，扰动后的目标置信度信息记作C^′，其中top1通过argmax函数确定。

7.如权利要求1所述的基于GAN模拟数据生成的垂直联邦学习防御方法，其特征在于，所述步骤(3)中，使用GAN生成模拟数据，由生成器模型对随机生成的噪声进行训练，判别器模型根据置信度信息进行训练，其具体步骤如下：

8.一种基于GAN模拟数据生成的垂直联邦学习防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行所述计算机程序时实现权利要求1～7任一项所述的基于GAN模拟数据生成的垂直联邦学习防御方法。