CN109784091A

CN109784091A - 一种融合差分隐私gan和pate模型的表格数据隐私保护方法

Info

Publication number: CN109784091A
Application number: CN201910038938.5A
Authority: CN
Inventors: 钟尚平; 郭鹏; 陈开志
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2019-05-21
Anticipated expiration: 2039-01-16
Also published as: CN109784091B

Abstract

本发明涉及一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法。包括步骤1：使用原始表格数据训练差分隐私生成模型；步骤2：使用原始表格数据在差分隐私预算下训练教师分类器；步骤3：使用生成模型生成“虚假”表格数据，并使用教师分类器对“虚假”表格数据预测标签，挑选预测标签和生成标签一致的数据，定义“可用”数据集，使用“可用”数据集训练学生分类器；步骤4：将生成模型和学生分类器发布，使用生成模型合成数据，使用学生模型挑选数据，完成数据分析任务。本发明方法是在数据发布阶段对表格数据实施隐私保护，数据分析师不可以通过生成模型复原原始训练数据，也不能通过学生模型推测原始训练数据，实现对原始表格数据的保护，并满足数据分析师对数据的需求。

Description

一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法

技术领域

本发明涉及对表格数据发布阶段的隐私保护方法，具体涉及一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法。

背景技术

大数据时代,机器学习从数据集提取有用的信息训练模型，为人们生活提供便利，同时产生的数据安全和用户隐私问题也需要引起重视，数据隐私保护方法用来调和二者之间的利益冲突。

生成对抗网络具有可以快速大规模生成数据的特点，但是训练集中个别样例对生成模型的影响较大，生成的数据可能会暴露个别样例的隐私问题。攻击者通过多次使用生成模型生成数据，再结合特殊计算方法可能会复原训练集中个别样例。因此，在对抗网络训练过程中引入差分隐私能降低个别样例对生成模型的影响，即对判别部分设置梯度裁剪阈值，使梯度更新在一定范围内。但是目前存在的方法通常固定裁剪阈值，本文提出梯度阈值自适应选取方法。并且本文创新性的提出使用教师系综聚合模型来挑选生成的“虚假”表格数据的方法，这样通过挑选后的“虚假”数据能够满足数据分析师对大量数据的需求，完成不同的数据分析任务。

发明内容

本发明的目的在于提供一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法，该方法结合生成模型和分类模型实现对表格数据发布阶段的隐私保护。

为实现上述目的，本发明的技术方案是：一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法，包括如下步骤：

步骤S1、使用原始表格数据训练差分隐私生成模型；

步骤S2、使用原始表格数据在差分隐私预算下训练教师分类器；

步骤S3、使用差分隐私生成模型生成虚假表格数据及对应生成标签，并使用教师分类器对虚假表格数据预测标签，挑选预测标签和生成标签一致的数据，定义可用数据集，使用可用数据集训练学生分类器；

步骤S4、将差分隐私生成模型和学生分类器发布，数据分析师使用差分隐私生成模型生成数据，而后通过学生分类器挑选数据，即可完成数据分析。

在本发明一实施例中，所述步骤S1中，差分隐私生成模型训练过程包括两部分：生成对抗网络训练和判别模型添加噪音扰动，具体如下：

步骤S11、对抗网络的选择：

辅助分类生成对抗网络使用原始表格数据和标签作为输入，在判别模型部分不仅判别数据真假，还预测数据所属类别，因此选择辅助分类生成对抗网络作为差分隐私生成模型训练网络；

步骤S12、扰动噪音的选择：

差分隐私中添加的噪音大小和查询的敏感度相关，根据隐私预算值和自适应选取设定的梯度裁剪阈值，计算噪音大小。

在本发明一实施例中，所述步骤S12，具体实现如下：

首先，为了更好的设置梯度裁剪阈值，提出自适应选取设定梯度裁剪阈值：

自适应选取设定梯度裁剪阈值是假定可以接触到与隐私数据同分布的部分公开数据，因此，根据首先使用公开数据训练生成网络，将部分公开数据的平均梯度值设定为隐私数据的梯度阈值；公式(1)中D，Nc是与隐私数据同分布的可使用公开数据集，每次训练时，从公开数据集采样，根据公式(2)计算梯度，再根据公式(3)计算采样数据的平均梯度，设置隐私数据的梯度裁剪阈值C为平均梯度；

Δf＝max_d,d'||f(d)-f(d')|| (6)

g(x_i)＝g(x_i)+N(0,σ²C²I) (8)

公式(5)是根据梯度裁剪阈值C设定的梯度裁剪阈值，对每个输入样例的梯度更新裁剪，当采样的隐私数据的梯度值小于设定的梯度裁剪阈值时，不对梯度值裁剪；当采样的隐私数据的梯度值大于或等于设定的梯度裁剪阈值时，令隐私数据的梯度值为梯度裁剪阈值；给定函数f，通过对f输出添加随机噪音实现差分隐私，噪音的大小取决于f输出的敏感度；如果f输出是向量值，则函数的敏感度Δf定义为公式(6)，根据设定的梯度裁剪阈值，那么差分隐私生成模型判别部分的梯度更新的敏感度最大为2*C，公式(7)是差分隐私中噪音的计算公式，ε、δ分别是差分隐私中设定的隐私预算值和隐私暴露概率大小，公式(8)是对梯度值添加噪音N，此处选择高斯噪音实现对梯度值的扰动，以达到对抗网络的隐私保护。

在本发明一实施例中，所述步骤S2中，教师分类器采用随机森林算法，结合差分隐私对聚合结果实现噪音扰动，具体如下：

步骤S21、分类模型训练：

基于随机森林算法原理，将原始表格数据分成n个子集，每个子集训练一个分类器，得到n个分类器的集合；

步骤S22、投票结果噪音扰动：

使用分类器集合对输入的数据投票预测标签，并对投票结果添加噪音，实施扰动，满足差分隐私的要求，并最终根据结果确定数据的标签。

在本发明一实施例中，所述步骤S3，具体实现如下：

步骤S31、生成模型生成数据：

差分隐私生成模型用于虚假表格数据的生成，基于生成对抗网络的特点，差分隐私生成模型生成虚假表格数据和对应的生成标签；

步骤S32、预测生成数据标签：

虚假表格数据无法人眼分辨好坏，因此结合原始表格数据特征的特点，使用训练好的教师分类器，对虚假表格数据预测标签；

步骤S33、挑选可用数据集：

对预测标签和生成标签的比较，实现对生成的虚假表格数据的挑选，即当生成标签与预测标签一致，则定义数据为可用数据，组成可用数据集，否则舍弃生成的虚假表格数据；

步骤S34、训练学生分类器：

使用可用数据集训练得到学生分类器。

相较于现有技术，本发明具有以下有益效果：本发明方法结合了生成模型和分类模型实现对表格数据发布阶段的隐私保护。

附图说明

图1为本发明方法流程示意图。

图2为辅助分类生成对抗网络的结构。

图3为发布模型使用方法流程图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法，包括如下步骤：

步骤S1、使用原始表格数据训练差分隐私生成模型；其中，差分隐私生成模型训练过程包括两部分：生成对抗网络训练和判别模型添加噪音扰动，具体如下：

步骤S11、对抗网络的选择：

步骤S12、扰动噪音的选择：

步骤S2、使用原始表格数据在差分隐私预算下训练教师分类器；其中，教师分类器采用随机森林算法，结合差分隐私对聚合结果实现噪音扰动，具体如下：

步骤S21、分类模型训练：

步骤S22、投票结果噪音扰动：

步骤S3、使用差分隐私生成模型生成虚假表格数据及对应生成标签，并使用教师分类器对虚假表格数据预测标签，挑选预测标签和生成标签一致的数据，定义可用数据集，使用可用数据集训练学生分类器；具体实现如下：

步骤S31、生成模型生成数据：

步骤S32、预测生成数据标签：

步骤S33、挑选可用数据集：

步骤S34、训练学生分类器：

使用可用数据集训练得到学生分类器。

以下为本发明的具体实现过程。

图1所示的一种基于差分隐私生成对抗网络和教师系综聚合模型融合的表格数据隐私保护方法，包括以下步骤：

步骤1：使用原始表格数据训练差分隐私生成模型；

生成模型是基于辅助分类生成对抗网络训练得到。图2是辅助分类生成对抗网络的结构。为了实现对生成模型引入差分隐私，因此选择在判别部分的梯度更新时加入噪音。为了更好设置梯度裁剪阈值，提出自适应选取设定梯度裁剪阈值。

Δf＝max_d,d'||f(d)-f(d')|| (6)

g(x_i)＝g(x_i)+N(0,σ²C²I) (8)

步骤2：使用原始表格数据在差分隐私预算下训练教师分类器；

图1上部分是教师分类器训练结构图，主要包括对数据集的随机选择分n组，结合随机森林原理，使用卷积神经网络(ConvolutionalNeuralNetworks，CNN)算法结构，为每一组训练集训练得到一个教师分类器，共得到n个教师分类器，组成教师系综。

当有新待预测样例输入时，每个教师分类器预测得到一个标签，聚合投票结果。为了防止隐私泄露，这里需要对聚合结果添加噪音实现扰动。令m表示类别数，标签统计量表示当给定类别j∈[m]和输入预测类别是j∈[m]的教师数量：

如果仅仅简单使用“多数胜出”，也就是使用标签最大的统计量，集合的决定可能依赖于单个教师的投票。也就是当两个标签最多相差一票，那么如果一个教师的投票改变，聚合结果就会改变，因此必须要对投票结果添加随机噪音实现投票结果的模糊性，公式(8)中选择添加Laplace噪音：

对生成数据进行多次预测查询之后，教师模型将会由于隐私耗尽不具有保护作用。因此，可以考虑再利用挑选出的“可用”数据集训练一个“学生”模型，执行和上述教师模型相同的功能，由于“学生”模型使用的非隐私数据，不必考虑为其实施隐私保护。

步骤3：使用生成模型生成“虚假”表格数据，即生成数据(图1中的合成数据)，并使用教师分类器对“虚假”表格数据预测标签；挑选预测标签和生成标签(图1中的合成标签)一致的数据，定义“可用”数据集。图1下半部分是步骤3的所有流程。

S3.1生成模型生成数据

生成模型主要用于数据的生成，基于生成对抗网络的特点，生成模型可以快速大规模的生成“虚假”数据和对应的标签。基于前面训练得到的差分隐私保护下的生成模型，生成大量的“虚假”表格数据。

S3.2预测生成数据标签

表格数据无法人眼分辨好坏，需要具有符合原始数据特征的特点。使用训练好的教师分类器，对生成数据预测标签。聚合结果是添加噪音扰动的数据，实现对表格的隐私保护。

S3.3挑选可用数据集

对预测标签和生成标签的比较，实现对生成“虚假”数据的挑选，当生成标签与预测标签一致，则定义数据为“可用”数据，组成“可用”数据集，否则舍弃生成数据；

S3.4训练学生分类器

使用“可用”数据集利用卷积神经网络结果训练得到学生分类器。因为学生模型没有接触隐私数据，绝对不会泄漏隐私，并且学生模型不用聚合投票添加噪音，可以更快完成对生成模型生成数据的挑选。

步骤4：将生成模型和学生分类器发布，数据分析师使用生成模型生成数据，使用学生模型挑选数据，完成数据分析任务，图3是融合模型的使用方法。首先使用步骤1中训练得到的差分隐私保护的生成模型生成数据，再使用学生分类器为生成数据预测标签，当生成标签和预测标签一致，则定义该条数据为“可用”数据，组成可用数据集。数据分析师使用“可用”数据集完成不同的数据分析任务。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法，其特征在于，包括如下步骤：

步骤S1、使用原始表格数据训练差分隐私生成模型；

2.根据权利要求1所述的一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法，其特征在于，所述步骤S1中，差分隐私生成模型训练过程包括两部分：生成对抗网络训练和判别模型添加噪音扰动，具体如下：

步骤S11、对抗网络的选择：

步骤S12、扰动噪音的选择：

3.根据权利要求2所述的一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法，其特征在于，所述步骤S12，具体实现如下：

Δf＝max_d,d'||f(d)-f(d')|| (6)

g(x_i)＝g(x_i)+N(0,σ²C²I) (8)

4.根据权利要求2所述的一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法，其特征在于，所述步骤S2中，教师分类器采用随机森林算法，结合差分隐私对聚合结果实现噪音扰动，具体如下：

步骤S21、分类模型训练：

步骤S22、投票结果噪音扰动：

5.根据权利要求4所述的一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法，其特征在于，所述步骤S3，具体实现如下：

步骤S31、生成模型生成数据：

步骤S32、预测生成数据标签：

步骤S33、挑选可用数据集：

步骤S34、训练学生分类器：

使用可用数据集训练得到学生分类器。