CN111563275B

CN111563275B - 一种基于生成对抗网络的数据脱敏方法

Info

Publication number: CN111563275B
Application number: CN202010671782.7A
Authority: CN
Inventors: 王吉; 朱晓敏; 张雄涛; 包卫东; 张耀鸿; 高雄; 吴冠霖; 梁文谦; 牛莅原; 张亮
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-10-20
Anticipated expiration: 2040-07-14
Also published as: CN111563275A

Abstract

本发明公开了一种基于生成对抗网络的数据脱敏方法，包括以下步骤：A、设置生成对抗网络，将判别器节点部署在存储原始数据的设备中，将生成器节点部署在需要使用上述数据的设备中；B、对判别器节点和生成器节点进行本地更新；C、对判别器节点进行聚合；D、对生成对抗网络进行迭代训练；E、将原始数据输入训练后的生成对抗网络，得到和原始数据特征一致但不涉及用户隐私的脱敏数据。本发明能够解决现有技术的不足，可以更好地适应不可靠的网络和动态带宽。

Description

一种基于生成对抗网络的数据脱敏方法

技术领域

本发明属于数据脱敏技术领域，具体是一种基于生成对抗网络的数据脱敏方法。

背景技术

对于类似于用户收入、医学影像和聊天记录等具有敏感隐私信息的数据，在进行统计分析前需要将敏感信息进行脱敏处理。而生成对抗网络（GAN）可以在学习这些数据特征的基础上，自动生成和原始数据具有相同特征但不涉及用户隐私的数据集。作为半监督和无监督学习的最重要方法之一，随着物联网（IoT），第五代无线系统（5G）和其他技术的发展，在网络边缘收集的大量数据为提高GAN的功能提供了新途径。但隐私、带宽和法律等因素的限制，将所有这些数据上传到云或服务器以进行GAN的训练是不合适的。因此，本发明同时考虑将GAN引入网络边缘（智能手机、移动通信基站、笔记本电脑等），以生成脱敏数据以进行数据分析以及训练个性化的连续学习模型。通常，网络边缘中的数据是地理分布的，不符合独立同分布的条件。由于这种数据分发的一般性要求，不同节点上的GAN可能彼此不同，这在大多数传统的分布式学习体系结构中是无法实现的。节点到节点以及节点到服务器链接的动态带宽有限，这会造成通信瓶颈。特别是在诸如联邦学习（FederatedLearning）和MD-GAN这类的使用参数服务器的主流技术方案中，此瓶颈更加严重。此外，不可靠网络的影响使得模型收敛更加困难。

发明内容

本发明要解决的技术问题是提供一种基于生成对抗网络的数据脱敏方法，能够解决现有技术的不足，可以更好地适应不可靠的网络和动态带宽。

本发明的内容包括以下步骤，

A、设置生成对抗网络，将判别器节点部署在存储原始数据的设备中，将生成器节点部署在需要使用上述数据的设备中；

B、对判别器节点和生成器节点进行本地更新；

C、对判别器节点进行聚合；

D、对生成对抗网络进行迭代训练；

E、将原始数据输入训练后的生成对抗网络，得到和原始数据特征一致但不涉及用户隐私的脱敏数据。

作为优选，步骤A中，所述生成对抗网络包括生成器和判别器。

作为优选，首先根据输入信号z产生相应的数据，

其中

是带有参数

和输入z的生成器模型，为多层感知器或卷积神经网络，输入z通常是随机变量，当需要生成一批数据

时，输入z是n维向量；然后，将生成的数据集

与实际数据集

混合，作为判别器模型的输入集

，判别器从X中获取任何元素x，以判断x是否属于

；

其中

是具有参数

和输入x的生成器模型，该模型是多层感知器或卷积神经网络，

是数据x的有效性，当判别器确信x属于

时，v=1，否则v=0。

作为优选，生成器的优化目标是最小化

，判别器的优化目标是最大化

，目标函数为，

其中

是凹的递增函数，对应于生成对抗网络的不同变体；

为期望函数，即

为判别器认为真实数据是真实数据的期望，

为判别器认为生成器生成的数据不是真实数据的期望；当判别器模型最佳时，对于一批数据

，判别结果将满足

，当生成器模型最佳时，生成的数据

将具有与实际数据

相同的特性；利用目标函数，调整生成器和判别器的参数，以将其损失降至最低，判别器和生成器的损失函数如下：

其中

是生成的数据集，而

是实际数据集，

的元素数为n，

的元素数为m，

；使用

作为带有优化方法的一轮训练生成器或判别器，其中

是生成的数据

和实际数据

的混合，v是通过判别器传播的判别结果，并且

；

和

分别对应第t次迭代训练时，生成器和判别器模型的参数。

作为优选，判别器节点的参数线性收敛到

，

，

当使用步长

时，其中

是第t次迭代的

中的信息损失系数压缩率

，

表示

范数，

用于测量压缩算子

的信息损失，

为下降率，

和

为最大值，

是判别器节点参数的平均值

，

是第j个判别器节点，

为第j个判别器节点在第T次迭代时的参数，有如下关系式

。

作为优选，步骤B中，

每个生成器用一个随机数z作为输入，输出生成的数据

和生成数据所对应的中间变量

；每个生成器节点，估计和邻居判别器节点之间的通信带宽；每个生成器节点按照最小通信带宽对所生成的数据

和生成数据所对应的中间变量

进行压缩，并发送给邻居判别器节点。

作为优选，步骤B中，每个判别器节点接收来自邻居生成器节点的被压缩的生成的数据

和生成数据所对应的中间变量

；将判别器本地对的真实数据

以和生成器生产数据

相同的方式进行压缩，并将两者以相同规模混合；将混合后的数据作为输入，依次输入判别器模型，对判别器模型训练；判别器模型对压缩后的

进行判别，得到对应的判别结果

，i表示生成数据对应的生成器节点i，j表示判别这个数据的判别器节点j；判别器把对应对的判别结果

发给邻居生成器节点；生成器节点将收到的所有

进行平均，得到

；把

作为输入，对本地模型参数进行更新。

作为优选，步骤C中，每个判别器节点把自己的判别器模型梯度根据带宽自适应压缩后，广播给邻居的判别器节点；在完成广播后，每个判别器节点把收到的所有邻居的判别器模型梯度和自己的梯度进行平均，并按照权值γ和本地模型参数进行加和。

作为优选，步骤D中，生成器和判别器每依次进行若干次步骤B和一次步骤C后为一轮迭代。

本发明的有益效果是：本发明可以大大减少GAN训练期间的等待时间，从而提高带宽利用率。经过本发明的数据脱敏处理后，得到的数据相比于现有技术更接近原始数据。

附图说明

图1为本发明生成对抗网络的架构图。

图2为MNIST数据集上通过plain-GAN算法生成的数据。

图3为MNIST数据集上通过FL-GAN算法生成的数据。

图4为MNIST数据集上通过MD-GAN算法生成的数据。

图5为MNIST数据集上通过本发明算法生成的数据。。

图6为Fashion-MNIST数据集上通过plain-GAN算法生成的数据。

图7为Fashion-MNIST数据集上通过FL-GAN算法生成的数据。

图8为Fashion-MNIST数据集上通过MD-GAN算法生成的数据。

图9为Fashion-MNIST数据集上通过本发明算法生成的数据。

图10为CIFAR-10数据集上通过plain-GAN算法生成的数据。

图11为CIFAR-10数据集上通过FL-GAN算法生成的数据。

图12为CIFAR-10数据集上通过MD-GAN算法生成的数据。

图13为CIFAR-10数据集上通过本发明算法生成的数据。

具体实施方式

参照图1，一种基于生成对抗网络的数据脱敏方法，包括以下步骤，

B、对判别器节点和生成器节点进行本地更新；

C、对判别器节点进行聚合；

D、对生成对抗网络进行迭代训练；

步骤A中，所述生成对抗网络包括生成器和判别器，首先根据输入信号z产生相应的数据，

其中

是带有参数

时，输入z是n维向量；然后，将生成的数据集

与实际数据集

混合，作为判别器模型的输入集

，判别器从X中获取任何元素x，以判断x是否属于

；

其中

是具有参数

是数据x的有效性，当判别器确信x属于

时，v=1，否则v=0；在此过程中，生成器的优化目标是最小化

，判别器的优化目标是最大化

，目标函数为，

其中

是凹的递增函数，对应于生成对抗网络的不同变体；

为期望函数，即

为判别器认为真实数据是真实数据的期望，

，判别结果将满足

，当生成器模型最佳时，生成的数据

将具有与实际数据

其中

是生成的数据集，而

是实际数据集，

的元素数为n，

的元素数为m，

；使用

作为带有优化方法的一轮训练生成器或判别器，其中

是生成的数据

和实际数据

的混合，v是通过判别器传播的判别结果，并且

；

和

分别对应第t次迭代训练时，生成器和判别器模型的参数。

判别器节点的参数线性收敛到

，

，

当使用步长

时，其中

是第t次迭代的

中的信息损失系数压缩率

，

表示

范数，

用于测量压缩算子

的信息损失，

为下降率，

和

为最大值，

是判别器节点参数的平均值

，

是第j个判别器节点，

为第j个判别器节点在第T次迭代时的参数，有如下关系式

。

步骤B中，

每个生成器用一个随机数z作为输入，输出生成的数据

和生成数据所对应的中间变量

和生成数据所对应的中间变量

进行压缩，并发送给邻居判别器节点；生成器可以理解成是一个函数G(z,w)，z是每次要生成数据时的随机输入，w是生成器模型（通常可以是神经网络）的参数。所生成的数据，可以是图片、文本、语音等，主要取决于具体的任务类型；

每个判别器节点接收来自邻居生成器节点的被压缩的生成的数据

和生成数据所对应的中间变量

；将判别器本地对的真实数据

以和生成器生产数据

相同的方式进行压缩，并将两者以相同规模混合；将混合后的数据作为输入，依次输入判别器模型，对判别器模型训练；判别器模型和生成器模型相似，一般也是神经网络。同样可以把判别器看做是一个函数：D（x,w），这里x是被用来判别的数据（例如照片），w是判别器模型对应对的神经网络参数。本实施例采用Adam算法；判别器模型对压缩后的

进行判别，得到对应的判别结果

，i表示生成数据对应的生成器节点i，j表示判别这个数据的判别器节点j；判别结果

是判别器D（x,w）的输出，也就是判别器认为x是真实数据的可能性。所以，当

=1时，说明判别器坚定的认为x是真实的，而当

=0时，说明判别器坚定的认为x是假的；判别器把对应对的判别结果

发给邻居生成器节点；生成器节点将收到的所有

进行平均，得到

；把

作为输入，对本地模型参数进行更新。

步骤C中，每个判别器节点把自己的判别器模型梯度根据带宽自适应压缩后，广播给邻居的判别器节点；在完成广播后，每个判别器节点把收到的所有邻居的判别器模型梯度和自己的梯度进行平均，并按照权值γ和本地模型参数进行加和。这里发送的是梯度而非参数。梯度可以理解为每个参数在t+1时刻和t时刻的差。

步骤D中，生成器和判别器每依次进行若干次步骤B和一次步骤C后为一轮迭代。

实验验证

本实验是基于PyTroch。仿真实验平台是一个基于GPU的服务器，配备了IntelXeon E5-2680 v3处理器，96 GB RAM和4个NVIDIA RTX 2080 Ti GPU。在仿真实验中，动态网络带宽是通过使用Oboe进行仿真的，它是一组实际视频流会话的带宽轨迹。通过设置丢包率p模拟不可靠的网络。

实验数据集使用三个典型的图像数据集（MNIST，Fashion-MNIST和CIFAR10）和多维随机数据集（mixture-Gaussian）。本文使用的混合高斯模型有5类10,000个数据样本。

用于在不同数据集上进行训练的GAN模型有所不同。MNIST，Fashion-MNIST和mixture-Gaussian数据集均使用完全连接的网络作为生成器和鉴别器。CIFAR-10数据集使用卷积神经网络（CNN）作为生成器和判别器。

评估数据生成模型（例如GAN）通常并不容易。图像GAN领域中常用的两个指标是初始得分（IS）和Fr'echet初始距离（FID）。IS使用固定的分类器（初始网络）对生成的图像进行分类，以估计生成的图像的质量和多样性。FID使用起始网络提取生成的图像和原始图像的高维特征，以评估分布是否紧密以及生成的图像的质量和多样性。其中，IS越大越好，FID越小越好。对于混合高斯模型，我们在设计评估指标时考虑了相同的因素，即生成的数据与原始数据分布的接近程度以及生成的数据的质量。因此，混合高斯数据集中的生成器使用以下公式进行评估：

,

其中N是从生成的数据中提取的样本数，m是原始数据的类别数，并且

是从原始数据落入第i个高斯分布的

区域的生成数据数。MGS1指示生成的数据与原始分布有多接近，而MGS2指示生成的数据的多样性。当

时，MGS2达到最大值。

通过发送大小，平均带宽利用率和生成的数据质量来比较Plain-GAN，FL-GAN，MDGAN和本发明（AC-GAN）的总体性能。生成的数据的质量由IS，MGS1和MGS2评估。其中，IS，MGS1和MGS2是通过测试1,000个生成的数据而获得的，FID是通过将这1000个生成的数据与原始数据集中的1000个样本进行比较而获得的。根据仿真实验的结果，这些算法的整体性能如表1所示。I对应于Plain-GAN，II对应于FL-GAN，III对应于MD-GAN，IV对应于AC-GAN。

是参数共享的最大等待时间，它由最小带宽和共享参数的大小确定。

表1

在动态带宽下，具有动态压缩率的AC-GAN可以大大减少GAN训练期间的等待时间，从而提高带宽利用率。因此，AC-GAN的平均带宽利用率高于其他带宽。特别是在CIFAR-10数据集上，共享模型参数的大小较大，因此压缩了更多信息。在MNIST，Fashion-MNIST和mix-Gaussian数据集上，每轮FL-GAN的发送大小小于AC-GAN。这是因为FL-GAN中的每个节点在每个回合中仅一次将本地参数上载到服务器，而MD-GAN和ACD-GAN需要使用本地网络将其参数共享给多个节点。AC-GAN生成数据的FID值明显优于MNIST，Fashion-MNIST和CIFAR数据集中的其他算法。但是，AC-GAN生成的数据的IS值不是很好，仅比普通GAN好。这是因为IS仅对生成的数据进行分类，而不将其与原始数据集进行比较。这意味着AC-GAN生成的数据更接近原始数据。这种现象在混合高斯数据集上更为明显，也就是说，所有算法在MGS1上均表现出更好的性能，但远不及MGS2上的AC-GAN。

图2-13是将算法AC-GAN和其他三种算法plain-GAN、MD-GAN和FL-GAN进行比较。每张图由100张生成的图片组成（10*10）。如果是多生成器架构的算法，则图中每一行的小图片对应算法中的一个生成器。

图2-5对应于MNIST数据集上四种不同算法的生成数据。可以看出，由plain-GAN算法训练的生成器仅生成1、4、7和9四种类型的手写数字，而几乎不生成其他手写数字。FL-GAN还仅生成少量的手写数字1、5、7和9。在MD-GAN训练的生成器中，生成的图像的多样性得到了改善，但生成的图像类别仍然较少。具体来说，由MD-GAN训练的生成器主要生成1、3、7、9，但也生成少量的0、4、6等。不同的是，由经过AC-GAN训练的生成器生成的数据则更加多样化。图5中的每一行图像对应于由AC-GAN训练的每个生成器产生的图像。可以看出，每个生成器仅生成相应的1-2种手写数字类型。并生成从0-9的每个数字类型。因此，尽管某些图像的质量略有差异，但是经过AC-GAN训练后获得的图像比其他三种算法更加平衡和多样化。

图6-9对应于Fashion-MNIST数据集上的生成数据。与MNIST数据集上的性能相似，plain-GAN也显示出较差的训练结果。例如，在图6中，存在多个相对模糊的图像，并且几乎不生成“包”图像。AC-GAN每个生成器所生成的图像也同样只对应于一种类型的原始图像，如图7所示。FL-GAN，MD-GAN和AC-GAN等方法在训练过程中进行参数共享，可以提高模型的训练效果。由于通常在实际训练期间会限制节点的容量，因此每个节点都不需要像传统GAN训练一样从头开始，而仅需要根据本地资源条件和本地数据对模型进行微调。

图10-13对应于Fashion-MNIST数据集上的生成数据。由于CIFAR-10数据集对应于更复杂的任务和更大的模型，因此CIFAR-10上的现象比MNIST和Fashion-MNIST数据集上的现象更加明显。在图10中，可以看到比其他噪声更明显的噪声。另外，图10中某些生成的图像甚至不能确定相应的类别。从通过FL-GAN，MD-GAN和AC-GAN算法训练的生成器生成的图像中，可以清楚地看到AC-GAN生成的图像质量更高。