CN113051617A

CN113051617A - 一种基于改进生成对抗网络的隐私保护方法

Info

Publication number: CN113051617A
Application number: CN202110385835.3A
Authority: CN
Inventors: 金煜; 邱钊
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2021-04-11
Filing date: 2021-04-11
Publication date: 2021-06-29

Abstract

本发明公开了一种基于生成对抗网络的隐私保护方法，其模型结构采用一个类变分自编码器结构的生成器与三组判别器：真实性判别器、隐私判别器与效用判别器组成的生成对抗网络模型。通过多组网络之间对抗训练得到的生成器，在输入原始图片后可以得到隐私保护处理后的图片。本发明公开一种基于生成对抗网络的隐私保护方法，可以应用于数据发布前的隐私处理场景，可以克服数据隐私保护力度与数据可用性之间的平衡问题，也可以改善时间空间消耗过大的问题，具有较好的实用性，对隐私保护问题有重要的意义。

Description

一种基于改进生成对抗网络的隐私保护方法

技术领域

本发明是涉及一种基于改进生成对抗网络的隐私保护方法，属于信息安全技术领域。

背景技术

由于数据对人类生活的重要性，大数据技术给人们生活的方方面面带来了巨大的便利。但与此同时，由于隐私信息泄露的可能性日益增大，攻击者手段日益增强，我们的隐私安全时时刻刻遭受着极其严重的威胁，社会对隐私保护的需求也愈发强烈。与传统的隐私保护方法相比，基于机器学习的隐私保护手段也将成为其中重要的一部分。使用机器学习的手段来做到隐私保护不仅有着巨大的市场前景以及社会价值，对机器学习的发展也有着促进作用。

现有技术中关于隐私保护的方法主要有：

1)基于等价类的隐私保护模型：通过对数据集的匿名化，使得多条数据处于一个等价类中，攻击者仅能确定目标个体在某一等价类中，而无法确认究竟是等价类中的哪条特定数据。由于这种方法对攻击者的能力做出了严格的规定，因此在实际应用场景中受到了极大的限制。

2)基于差分隐私的隐私保护模型：通过噪声机制向查询结果中添加噪声扰动，对真实输出产生概率扰动，使得攻击者无法确定目标记录是否存在于被攻击的数据集中，但这种方法在查询次数较多的时候，将会暴露噪声机制的分布，从而发生真实值的泄露。

3)基于同态加密的隐私保护模型：通过一个复杂的加密函数对原始数据进行加密，此时对明文进行环上的加法和乘法运算再加密，与加密后对密文进行相应的运算，结果是等价的，但这种方法将会造成巨大的时间空间消耗，对需要实时分析数据进行预测的场景不适用。

总之，由于隐私泄露可能性的日益增高，如何在数据发布的时候，保证数据可用性的同时又保证数据中隐私不发生泄露，仍然是隐私保护问题中一个巨大的难点，因此，研发一种实用性强，鲁棒性好，又能在满足特定隐私需求的同时保证特定效用属性可用性的方法，对现实隐私保护问题具有着重要意义。

发明内容

本发明为了解决现有技术在隐私保护时难以平衡数据可用性与隐私性的问题以及密码学方法时间空间消耗过高的问题，提出基于改进生成对抗网络的隐私保护方法。主要包括以下步骤：

步骤S1：对原始图片进行预处理，并生成标签文件；

步骤S2：构建基于改进生成对抗网络的隐私保护网络；

步骤S3：初始化网络权重；

步骤S4：将步骤S1预处理后的图片与标签文件输入网络，完成前向传播；

步骤S5：将步骤S4前向传播的结果与输入的标签文件计算损失，并更新模型参数；

步骤S6：迭代步骤S4，S5达到指定次数，本发明迭代次数为50次。

步骤S7：使用训练得到的生成器对原始图片进行处理得到隐私保护处理后图片。

与当前现有方法相比较，本发明提出了基于改进生成对抗网络的隐私保护方法，网络中包含一个类变分自编码器结构的网络作为生成器，判别器由三组真实性判别器、隐私判别器以及效用判别器组成，可以使得生成器处理后的图片即保证隐私需求又保证一定的数据可用性，并且图片的真实性同样存留，有较强的实用性。本方法利用基于改进生成对抗网络的方法在数据发布前对原始图片进行脱敏处理。相比已有的方法，本发明提出的方法在可用性与隐私性中达到了平衡，并改善了时间与空间的消耗问题。

附图说明

图1为本发明基于改进生成对抗网络的隐私属性保护方法的网络结构图。

图2为本发明基于改进生成对抗网络的隐私属性保护方法的生成器模块流程示意图。

图3为本发明基于改进生成对抗网络的隐私属性保护方法的真实性判别器模块流程示意图。

图4为本发明基于改进生成对抗网络的隐私属性保护方法的隐私判别器与效用判别器模块流程示意图。

图5为本发明根据输入图片处理后得到的符合隐私保护需求的图片。

具体实施方式

如图1所示为本发明基于改进生成对抗网络的隐私属性保护方法的网络结构图。主要包括以下几个模块：生成器模块，真实性判别器模块、隐私判别器模块与效用判别器模块。

具体实施方式包括以下步骤：图片的预处理以及标签文件的生成、构建隐私保护网络模型、初始化网络权重参数、将原始图片以及标签文件输入网络，完成前向传播、将前向传播的结果与标签文件计算损失，反向传播更新模型参数、迭代前向传播与反向传播更新完了参数达到指定次数、使用训练得到的生成器网络对原始图片进行处理，得到隐私保护处理后图片，各步骤的具体实施细节如下：

步骤S1：对原始图片进行预处理，并生成标签文件，具体方式如下：

步骤S11：将原始图片压缩至64*64尺寸，并根据设定的隐私目标与效用目标构建一个图片对应两个标签的标签文件；

步骤S2：构建基于改进生成对抗网络的隐私保护网络，具体方法如下：

步骤S21：搭建类变分自编码器结构的生成器网络，由编码器部分与解码器部分组成，具体方法如下：

步骤S211：编码器部分由五层卷积网络组成，其中再第二层至第四层卷积操作后均使用批标准化操作，激活函数使用LeakReLU函数，此外在第五层卷积操作之后可根据原始数据量的大小以及数据复杂度，选择是否加入随机噪声；

步骤S212：解码器部分由五层反卷积网络组成，其中第一层至第四层卷积操作均使用批标准化操作，并进行Dropout操作。前四层的激活函数均使用LeakReLU函数，但最后一层使用tanh激活函数；

步骤S22：搭建三组判别器网络，分别为真实性判别器、隐私判别器与效用判别器，具体方法如下：

步骤S221：真实性判别器网络由五层卷积网络组成，在第二层至第四层卷积操作之后均使用批标准化操作，并选择LeakReLU函数作为激活函数，最后一层取消sigmoid函数，直接输出卷积操作后的值。真实性判别器网络判别输入的图像真实与否；

步骤S222：隐私判别器与效用判别器均由五层卷积网络组成，架构与真实性判别器网络相同，但最后一层选用sigmoid归一化函数。隐私判别器与效用判别器判断输入所属的类别；

步骤S3：初始化网络权重，具体方法为：采用正态分布初始化参数，其中：μ＝0，σ＝0.01；

步骤S5：将步骤S4前向传播的结果与输入的标签文件计算损失，更新模型参数，具体方法如下：

步骤S51：计算判别器网络的损失，具体方法如下：

步骤S511：计算改进生成对抗网络的基础判别器损失，具体公式为：

其中公式的前两项为取消了log函数的原始GAN的判别器训练过程。第一项为判别器对真实样本的分数，第二项为生成器处理原始图片后的生成图片的评分，第三项为限定判别器损失不超过1，以满足1-利普希茨连续条件(1-lipschitz)，其中λ为超参数；

步骤S512：计算效用判别器的损失，具体公式为：

公式由两组交叉熵组成，

表示交叉熵。两组交叉熵分别为真实图片的效用标签与效用判别器的输出之间，以及真实图片的效用标签与效用判别器对隐私保护后图片的输出之间的交叉熵。目标以提高效用判别器的能力，无论针对真实图片还是隐私保护后图片；

步骤S513：计算隐私判别器的损失，具体公式为：

公式分别由真实图片在隐私判别器中的输出与隐私标签的交叉熵和生成图片在隐私判别器中的输出与隐私标签的交叉熵组成；

步骤S514：将S511、S512、S513中的损失函数加和后得到最终判别器损失函数，具体公式如下：

其中α、β、γ均为超参数；

步骤S52：计算生成器网络的损失函数，具体方法如下：

步骤S521：计算改进生成对抗网络的基础生成器损失，具体公式如下：

步骤S522：计算效用损失函数与隐私损失函数，具体公式如下：

分别为生成图片在效用判别器中的输出与效用标签的交叉熵和生成图片在隐私判别器中的输出与隐私标签的交叉熵；

步骤S523：将S521与S522中的损失函数加和后得到最终生成器损失函数，具体公式如下：

其中δ、ε、∈分别为三个超参数；

步骤S53：将步骤S514与步骤S523计算所得的损失利用随机梯度下降方法更新模型参数；