CN111563275B - 一种基于生成对抗网络的数据脱敏方法 - Google Patents

一种基于生成对抗网络的数据脱敏方法 Download PDF

Info

Publication number
CN111563275B
CN111563275B CN202010671782.7A CN202010671782A CN111563275B CN 111563275 B CN111563275 B CN 111563275B CN 202010671782 A CN202010671782 A CN 202010671782A CN 111563275 B CN111563275 B CN 111563275B
Authority
CN
China
Prior art keywords
data
discriminator
node
generator
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010671782.7A
Other languages
English (en)
Other versions
CN111563275A (zh
Inventor
王吉
朱晓敏
张雄涛
包卫东
张耀鸿
高雄
吴冠霖
梁文谦
牛莅原
张亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010671782.7A priority Critical patent/CN111563275B/zh
Publication of CN111563275A publication Critical patent/CN111563275A/zh
Application granted granted Critical
Publication of CN111563275B publication Critical patent/CN111563275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/04Protocols for data compression, e.g. ROHC

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于生成对抗网络的数据脱敏方法,包括以下步骤:A、设置生成对抗网络,将判别器节点部署在存储原始数据的设备中,将生成器节点部署在需要使用上述数据的设备中;B、对判别器节点和生成器节点进行本地更新;C、对判别器节点进行聚合;D、对生成对抗网络进行迭代训练;E、将原始数据输入训练后的生成对抗网络,得到和原始数据特征一致但不涉及用户隐私的脱敏数据。本发明能够解决现有技术的不足,可以更好地适应不可靠的网络和动态带宽。

Description

一种基于生成对抗网络的数据脱敏方法
技术领域
本发明属于数据脱敏技术领域,具体是一种基于生成对抗网络的数据脱敏方法。
背景技术
对于类似于用户收入、医学影像和聊天记录等具有敏感隐私信息的数据,在进行统计分析前需要将敏感信息进行脱敏处理。而生成对抗网络(GAN)可以在学习这些数据特征的基础上,自动生成和原始数据具有相同特征但不涉及用户隐私的数据集。作为半监督和无监督学习的最重要方法之一,随着物联网(IoT),第五代无线系统(5G)和其他技术的发展,在网络边缘收集的大量数据为提高GAN的功能提供了新途径。但隐私、带宽和法律等因素的限制,将所有这些数据上传到云或服务器以进行GAN的训练是不合适的。因此,本发明同时考虑将GAN引入网络边缘(智能手机、移动通信基站、笔记本电脑等),以生成脱敏数据以进行数据分析以及训练个性化的连续学习模型。通常,网络边缘中的数据是地理分布的,不符合独立同分布的条件。由于这种数据分发的一般性要求,不同节点上的GAN可能彼此不同,这在大多数传统的分布式学习体系结构中是无法实现的。节点到节点以及节点到服务器链接的动态带宽有限,这会造成通信瓶颈。特别是在诸如联邦学习(FederatedLearning)和MD-GAN这类的使用参数服务器的主流技术方案中,此瓶颈更加严重。此外,不可靠网络的影响使得模型收敛更加困难。
发明内容
本发明要解决的技术问题是提供一种基于生成对抗网络的数据脱敏方法,能够解决现有技术的不足,可以更好地适应不可靠的网络和动态带宽。
本发明的内容包括以下步骤,
A、设置生成对抗网络,将判别器节点部署在存储原始数据的设备中,将生成器节点部署在需要使用上述数据的设备中;
B、对判别器节点和生成器节点进行本地更新;
C、对判别器节点进行聚合;
D、对生成对抗网络进行迭代训练;
E、将原始数据输入训练后的生成对抗网络,得到和原始数据特征一致但不涉及用户隐私的脱敏数据。
作为优选,步骤A中,所述生成对抗网络包括生成器和判别器。
作为优选,首先根据输入信号z产生相应的数据,
Figure 327067DEST_PATH_IMAGE001
其中
Figure 776241DEST_PATH_IMAGE002
是带有参数
Figure 127588DEST_PATH_IMAGE003
和输入z的生成器模型,为多层感知器或卷积神经网络,输入z通常是随机变量,当需要生成一批数据
Figure 214492DEST_PATH_IMAGE004
时,输入z是n维向量;然后,将生成的数据集
Figure 625882DEST_PATH_IMAGE005
与实际数据集
Figure 1500DEST_PATH_IMAGE006
混合,作为判别器模型的输入集
Figure 625379DEST_PATH_IMAGE007
,判别器从X中获取任何元素x,以判断x是否属于
Figure 566791DEST_PATH_IMAGE008
Figure 119388DEST_PATH_IMAGE009
其中
Figure 982302DEST_PATH_IMAGE010
是具有参数
Figure 675451DEST_PATH_IMAGE011
和输入x的生成器模型,该模型是多层感知器或卷积神经网络,
Figure 471369DEST_PATH_IMAGE012
是数据x的有效性,当判别器确信x属于
Figure 224561DEST_PATH_IMAGE008
时,v=1,否则v=0。
作为优选,生成器的优化目标是最小化
Figure 840350DEST_PATH_IMAGE013
,判别器的优化目标是最大化
Figure 773409DEST_PATH_IMAGE013
,目标函数为,
Figure 689413DEST_PATH_IMAGE014
其中
Figure 816769DEST_PATH_IMAGE015
是凹的递增函数,对应于生成对抗网络的不同变体;
Figure 185433DEST_PATH_IMAGE016
为期望函数,即
Figure 954806DEST_PATH_IMAGE017
为判别器认为真实数据是真实数据的期望,
Figure 695622DEST_PATH_IMAGE018
为判别器认为生成器生成的数据不是真实数据的期望;当判别器模型最佳时,对于一批数据
Figure 790617DEST_PATH_IMAGE019
,判别结果将满足
Figure 646578DEST_PATH_IMAGE020
,当生成器模型最佳时,生成的数据
Figure 219641DEST_PATH_IMAGE021
将具有与实际数据
Figure 251182DEST_PATH_IMAGE022
相同的特性;利用目标函数,调整生成器和判别器的参数,以将其损失降至最低,判别器和生成器的损失函数如下:
Figure 750035DEST_PATH_IMAGE023
其中
Figure 562133DEST_PATH_IMAGE024
是生成的数据集,而
Figure 938888DEST_PATH_IMAGE025
是实际数据集,
Figure 418410DEST_PATH_IMAGE026
的元素数为n,
Figure DEST_PATH_IMAGE027
的元素数为m,
Figure 324050DEST_PATH_IMAGE028
;使用
Figure 378769DEST_PATH_IMAGE029
作为带有优化方法的一轮训练生成器或判别器,其中
Figure 559215DEST_PATH_IMAGE030
是生成的数据
Figure 627665DEST_PATH_IMAGE031
和实际数据
Figure 235364DEST_PATH_IMAGE032
的混合,v是通过判别器传播的判别结果,并且
Figure 756475DEST_PATH_IMAGE033
Figure 209453DEST_PATH_IMAGE034
Figure 162103DEST_PATH_IMAGE035
分别对应第t次迭代训练时,生成器和判别器模型的参数。
作为优选,判别器节点的参数线性收敛到
Figure 675124DEST_PATH_IMAGE036
Figure 214690DEST_PATH_IMAGE037
当使用步长
Figure 471359DEST_PATH_IMAGE038
时,其中
Figure 452084DEST_PATH_IMAGE039
是第t次迭代的
Figure 637472DEST_PATH_IMAGE040
中的信息损失系数压缩率
Figure 398754DEST_PATH_IMAGE041
Figure 193535DEST_PATH_IMAGE042
表示
Figure 622242DEST_PATH_IMAGE043
范数,
Figure 945907DEST_PATH_IMAGE044
用于测量压缩算子
Figure 693021DEST_PATH_IMAGE045
的信息损失,
Figure 822651DEST_PATH_IMAGE046
为下降率,
Figure 309127DEST_PATH_IMAGE047
Figure 131590DEST_PATH_IMAGE048
为最大值,
Figure 70727DEST_PATH_IMAGE049
是判别器节点参数的平均值
Figure 207310DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
是第j个判别器节点,
Figure 49758DEST_PATH_IMAGE052
为第j个判别器节点在第T次迭代时的参数,有如下关系式
Figure 777542DEST_PATH_IMAGE053
作为优选,步骤B中,
每个生成器用一个随机数z作为输入,输出生成的数据
Figure 735134DEST_PATH_IMAGE054
和生成数据所对应的中间变量
Figure 206567DEST_PATH_IMAGE055
;每个生成器节点,估计和邻居判别器节点之间的通信带宽;每个生成器节点按照最小通信带宽对所生成的数据
Figure 369432DEST_PATH_IMAGE054
和生成数据所对应的中间变量
Figure 736960DEST_PATH_IMAGE055
进行压缩,并发送给邻居判别器节点。
作为优选,步骤B中,每个判别器节点接收来自邻居生成器节点的被压缩的生成的数据
Figure 447427DEST_PATH_IMAGE054
和生成数据所对应的中间变量
Figure 925813DEST_PATH_IMAGE055
;将判别器本地对的真实数据
Figure 38125DEST_PATH_IMAGE056
以和生成器生产数据
Figure 576554DEST_PATH_IMAGE054
相同的方式进行压缩,并将两者以相同规模混合;将混合后的数据作为输入,依次输入判别器模型,对判别器模型训练;判别器模型对压缩后的
Figure 744623DEST_PATH_IMAGE055
进行判别,得到对应的判别结果
Figure 495542DEST_PATH_IMAGE057
,i表示生成数据对应的生成器节点i,j表示判别这个数据的判别器节点j;判别器把对应对的判别结果
Figure 665623DEST_PATH_IMAGE057
发给邻居生成器节点;生成器节点将收到的所有
Figure 873488DEST_PATH_IMAGE057
进行平均,得到
Figure 558548DEST_PATH_IMAGE058
;把
Figure 644315DEST_PATH_IMAGE058
作为输入,对本地模型参数进行更新。
作为优选,步骤C中,每个判别器节点把自己的判别器模型梯度根据带宽自适应压缩后,广播给邻居的判别器节点;在完成广播后,每个判别器节点把收到的所有邻居的判别器模型梯度和自己的梯度进行平均,并按照权值γ和本地模型参数进行加和。
作为优选,步骤D中,生成器和判别器每依次进行若干次步骤B和一次步骤C后为一轮迭代。
本发明的有益效果是:本发明可以大大减少GAN训练期间的等待时间,从而提高带宽利用率。经过本发明的数据脱敏处理后,得到的数据相比于现有技术更接近原始数据。
附图说明
图1为本发明生成对抗网络的架构图。
图2为MNIST数据集上通过plain-GAN算法生成的数据。
图3为MNIST数据集上通过FL-GAN算法生成的数据。
图4为MNIST数据集上通过MD-GAN算法生成的数据。
图5为MNIST数据集上通过本发明算法生成的数据。。
图6为Fashion-MNIST数据集上通过plain-GAN算法生成的数据。
图7为Fashion-MNIST数据集上通过FL-GAN算法生成的数据。
图8为Fashion-MNIST数据集上通过MD-GAN算法生成的数据。
图9为Fashion-MNIST数据集上通过本发明算法生成的数据。
图10为CIFAR-10数据集上通过plain-GAN算法生成的数据。
图11为CIFAR-10数据集上通过FL-GAN算法生成的数据。
图12为CIFAR-10数据集上通过MD-GAN算法生成的数据。
图13为CIFAR-10数据集上通过本发明算法生成的数据。
具体实施方式
参照图1,一种基于生成对抗网络的数据脱敏方法,包括以下步骤,
A、设置生成对抗网络,将判别器节点部署在存储原始数据的设备中,将生成器节点部署在需要使用上述数据的设备中;
B、对判别器节点和生成器节点进行本地更新;
C、对判别器节点进行聚合;
D、对生成对抗网络进行迭代训练;
E、将原始数据输入训练后的生成对抗网络,得到和原始数据特征一致但不涉及用户隐私的脱敏数据。
步骤A中,所述生成对抗网络包括生成器和判别器,首先根据输入信号z产生相应的数据,
Figure 465641DEST_PATH_IMAGE001
其中
Figure 611451DEST_PATH_IMAGE002
是带有参数
Figure 783807DEST_PATH_IMAGE003
和输入z的生成器模型,为多层感知器或卷积神经网络,输入z通常是随机变量,当需要生成一批数据
Figure 938844DEST_PATH_IMAGE004
时,输入z是n维向量;然后,将生成的数据集
Figure 799964DEST_PATH_IMAGE005
与实际数据集
Figure 382255DEST_PATH_IMAGE006
混合,作为判别器模型的输入集
Figure 776327DEST_PATH_IMAGE007
,判别器从X中获取任何元素x,以判断x是否属于
Figure 312220DEST_PATH_IMAGE008
Figure 311400DEST_PATH_IMAGE009
其中
Figure 175844DEST_PATH_IMAGE010
是具有参数
Figure 57212DEST_PATH_IMAGE011
和输入x的生成器模型,该模型是多层感知器或卷积神经网络,
Figure 554053DEST_PATH_IMAGE012
是数据x的有效性,当判别器确信x属于
Figure 407739DEST_PATH_IMAGE008
时,v=1,否则v=0;在此过程中,生成器的优化目标是最小化
Figure 331833DEST_PATH_IMAGE013
,判别器的优化目标是最大化
Figure 339978DEST_PATH_IMAGE013
,目标函数为,
Figure 374930DEST_PATH_IMAGE014
其中
Figure 145440DEST_PATH_IMAGE015
是凹的递增函数,对应于生成对抗网络的不同变体;
Figure 506014DEST_PATH_IMAGE016
为期望函数,即
Figure 96395DEST_PATH_IMAGE017
为判别器认为真实数据是真实数据的期望,
Figure 200618DEST_PATH_IMAGE018
为判别器认为生成器生成的数据不是真实数据的期望;当判别器模型最佳时,对于一批数据
Figure 91213DEST_PATH_IMAGE019
,判别结果将满足
Figure 858574DEST_PATH_IMAGE020
,当生成器模型最佳时,生成的数据
Figure 201831DEST_PATH_IMAGE021
将具有与实际数据
Figure 578586DEST_PATH_IMAGE022
相同的特性;利用目标函数,调整生成器和判别器的参数,以将其损失降至最低,判别器和生成器的损失函数如下:
Figure 323688DEST_PATH_IMAGE023
其中
Figure 760485DEST_PATH_IMAGE024
是生成的数据集,而
Figure 591038DEST_PATH_IMAGE025
是实际数据集,
Figure 37063DEST_PATH_IMAGE026
的元素数为n,
Figure 100002_DEST_PATH_IMAGE059
的元素数为m,
Figure 371092DEST_PATH_IMAGE028
;使用
Figure 978791DEST_PATH_IMAGE029
作为带有优化方法的一轮训练生成器或判别器,其中
Figure 31061DEST_PATH_IMAGE030
是生成的数据
Figure 280777DEST_PATH_IMAGE031
和实际数据
Figure 233427DEST_PATH_IMAGE032
的混合,v是通过判别器传播的判别结果,并且
Figure 277606DEST_PATH_IMAGE033
Figure 551593DEST_PATH_IMAGE034
Figure 339420DEST_PATH_IMAGE060
分别对应第t次迭代训练时,生成器和判别器模型的参数。
判别器节点的参数线性收敛到
Figure 648042DEST_PATH_IMAGE036
Figure 863122DEST_PATH_IMAGE037
当使用步长
Figure 155563DEST_PATH_IMAGE038
时,其中
Figure 215923DEST_PATH_IMAGE039
是第t次迭代的
Figure 910210DEST_PATH_IMAGE040
中的信息损失系数压缩率
Figure 30613DEST_PATH_IMAGE041
Figure 544771DEST_PATH_IMAGE042
表示
Figure 910286DEST_PATH_IMAGE043
范数,
Figure 396762DEST_PATH_IMAGE044
用于测量压缩算子
Figure 953646DEST_PATH_IMAGE045
的信息损失,
Figure 955100DEST_PATH_IMAGE061
为下降率,
Figure 622841DEST_PATH_IMAGE047
Figure 26141DEST_PATH_IMAGE062
为最大值,
Figure 222767DEST_PATH_IMAGE049
是判别器节点参数的平均值
Figure 711517DEST_PATH_IMAGE050
Figure 681485DEST_PATH_IMAGE051
是第j个判别器节点,
Figure 939291DEST_PATH_IMAGE052
为第j个判别器节点在第T次迭代时的参数,有如下关系式
Figure 572398DEST_PATH_IMAGE053
步骤B中,
每个生成器用一个随机数z作为输入,输出生成的数据
Figure 548444DEST_PATH_IMAGE054
和生成数据所对应的中间变量
Figure 823567DEST_PATH_IMAGE063
;每个生成器节点,估计和邻居判别器节点之间的通信带宽;每个生成器节点按照最小通信带宽对所生成的数据
Figure 670301DEST_PATH_IMAGE054
和生成数据所对应的中间变量
Figure 5467DEST_PATH_IMAGE063
进行压缩,并发送给邻居判别器节点;生成器可以理解成是一个函数G(z,w),z是每次要生成数据时的随机输入,w是生成器模型(通常可以是神经网络)的参数。所生成的数据,可以是图片、文本、语音等,主要取决于具体的任务类型;
每个判别器节点接收来自邻居生成器节点的被压缩的生成的数据
Figure 937651DEST_PATH_IMAGE054
和生成数据所对应的中间变量
Figure 750886DEST_PATH_IMAGE063
;将判别器本地对的真实数据
Figure 717705DEST_PATH_IMAGE056
以和生成器生产数据
Figure 447940DEST_PATH_IMAGE054
相同的方式进行压缩,并将两者以相同规模混合;将混合后的数据作为输入,依次输入判别器模型,对判别器模型训练;判别器模型和生成器模型相似,一般也是神经网络。同样可以把判别器看做是一个函数:D(x,w),这里x是被用来判别的数据(例如照片),w是判别器模型对应对的神经网络参数。本实施例采用Adam算法;判别器模型对压缩后的
Figure 132999DEST_PATH_IMAGE063
进行判别,得到对应的判别结果
Figure 484346DEST_PATH_IMAGE057
,i表示生成数据对应的生成器节点i,j表示判别这个数据的判别器节点j;判别结果
Figure 571251DEST_PATH_IMAGE057
是判别器D(x,w)的输出,也就是判别器认为x是真实数据的可能性。所以,当
Figure 248220DEST_PATH_IMAGE057
=1时,说明判别器坚定的认为x是真实的,而当
Figure 154996DEST_PATH_IMAGE057
=0时,说明判别器坚定的认为x是假的;判别器把对应对的判别结果
Figure 575613DEST_PATH_IMAGE057
发给邻居生成器节点;生成器节点将收到的所有
Figure 517024DEST_PATH_IMAGE057
进行平均,得到
Figure 99315DEST_PATH_IMAGE058
;把
Figure 758967DEST_PATH_IMAGE058
作为输入,对本地模型参数进行更新。
步骤C中,每个判别器节点把自己的判别器模型梯度根据带宽自适应压缩后,广播给邻居的判别器节点;在完成广播后,每个判别器节点把收到的所有邻居的判别器模型梯度和自己的梯度进行平均,并按照权值γ和本地模型参数进行加和。这里发送的是梯度而非参数。梯度可以理解为每个参数在t+1时刻和t时刻的差。
步骤D中,生成器和判别器每依次进行若干次步骤B和一次步骤C后为一轮迭代。
实验验证
本实验是基于PyTroch。仿真实验平台是一个基于GPU的服务器,配备了IntelXeon E5-2680 v3处理器,96 GB RAM和4个NVIDIA RTX 2080 Ti GPU。在仿真实验中,动态网络带宽是通过使用Oboe进行仿真的,它是一组实际视频流会话的带宽轨迹。通过设置丢包率p模拟不可靠的网络。
实验数据集使用三个典型的图像数据集(MNIST,Fashion-MNIST和CIFAR10)和多维随机数据集(mixture-Gaussian)。本文使用的混合高斯模型有5类10,000个数据样本。
用于在不同数据集上进行训练的GAN模型有所不同。MNIST,Fashion-MNIST和mixture-Gaussian数据集均使用完全连接的网络作为生成器和鉴别器。CIFAR-10数据集使用卷积神经网络(CNN)作为生成器和判别器。
评估数据生成模型(例如GAN)通常并不容易。图像GAN领域中常用的两个指标是初始得分(IS)和Fr'echet初始距离(FID)。IS使用固定的分类器(初始网络)对生成的图像进行分类,以估计生成的图像的质量和多样性。FID使用起始网络提取生成的图像和原始图像的高维特征,以评估分布是否紧密以及生成的图像的质量和多样性。其中,IS越大越好,FID越小越好。对于混合高斯模型,我们在设计评估指标时考虑了相同的因素,即生成的数据与原始数据分布的接近程度以及生成的数据的质量。因此,混合高斯数据集中的生成器使用以下公式进行评估:
Figure 452116DEST_PATH_IMAGE064
,
其中N是从生成的数据中提取的样本数,m是原始数据的类别数,并且
Figure 513613DEST_PATH_IMAGE065
是从原始数据落入第i个高斯分布的
Figure 765340DEST_PATH_IMAGE066
区域的生成数据数。MGS1指示生成的数据与原始分布有多接近,而MGS2指示生成的数据的多样性。当
Figure 646709DEST_PATH_IMAGE067
时,MGS2达到最大值。
通过发送大小,平均带宽利用率和生成的数据质量来比较Plain-GAN,FL-GAN,MDGAN和本发明(AC-GAN)的总体性能。生成的数据的质量由IS,MGS1和MGS2评估。其中,IS,MGS1和MGS2是通过测试1,000个生成的数据而获得的,FID是通过将这1000个生成的数据与原始数据集中的1000个样本进行比较而获得的。根据仿真实验的结果,这些算法的整体性能如表1所示。I对应于Plain-GAN,II对应于FL-GAN,III对应于MD-GAN,IV对应于AC-GAN。
Figure 409128DEST_PATH_IMAGE068
是参数共享的最大等待时间,它由最小带宽和共享参数的大小确定。
表1
Figure 325132DEST_PATH_IMAGE069
在动态带宽下,具有动态压缩率的AC-GAN可以大大减少GAN训练期间的等待时间,从而提高带宽利用率。因此,AC-GAN的平均带宽利用率高于其他带宽。特别是在CIFAR-10数据集上,共享模型参数的大小较大,因此压缩了更多信息。在MNIST,Fashion-MNIST和mix-Gaussian数据集上,每轮FL-GAN的发送大小小于AC-GAN。这是因为FL-GAN中的每个节点在每个回合中仅一次将本地参数上载到服务器,而MD-GAN和ACD-GAN需要使用本地网络将其参数共享给多个节点。AC-GAN生成数据的FID值明显优于MNIST,Fashion-MNIST和CIFAR数据集中的其他算法。但是,AC-GAN生成的数据的IS值不是很好,仅比普通GAN好。这是因为IS仅对生成的数据进行分类,而不将其与原始数据集进行比较。这意味着AC-GAN生成的数据更接近原始数据。这种现象在混合高斯数据集上更为明显,也就是说,所有算法在MGS1上均表现出更好的性能,但远不及MGS2上的AC-GAN。
图2-13是将算法AC-GAN和其他三种算法plain-GAN、MD-GAN和FL-GAN进行比较。每张图由100张生成的图片组成(10*10)。如果是多生成器架构的算法,则图中每一行的小图片对应算法中的一个生成器。
图2-5对应于MNIST数据集上四种不同算法的生成数据。可以看出,由plain-GAN算法训练的生成器仅生成1、4、7和9四种类型的手写数字,而几乎不生成其他手写数字。FL-GAN还仅生成少量的手写数字1、5、7和9。在MD-GAN训练的生成器中,生成的图像的多样性得到了改善,但生成的图像类别仍然较少。具体来说,由MD-GAN训练的生成器主要生成1、3、7、9,但也生成少量的0、4、6等。不同的是,由经过AC-GAN训练的生成器生成的数据则更加多样化。图5中的每一行图像对应于由AC-GAN训练的每个生成器产生的图像。可以看出,每个生成器仅生成相应的1-2种手写数字类型。并生成从0-9的每个数字类型。因此,尽管某些图像的质量略有差异,但是经过AC-GAN训练后获得的图像比其他三种算法更加平衡和多样化。
图6-9对应于Fashion-MNIST数据集上的生成数据。与MNIST数据集上的性能相似,plain-GAN也显示出较差的训练结果。例如,在图6中,存在多个相对模糊的图像,并且几乎不生成“包”图像。AC-GAN每个生成器所生成的图像也同样只对应于一种类型的原始图像,如图7所示。FL-GAN,MD-GAN和AC-GAN等方法在训练过程中进行参数共享,可以提高模型的训练效果。由于通常在实际训练期间会限制节点的容量,因此每个节点都不需要像传统GAN训练一样从头开始,而仅需要根据本地资源条件和本地数据对模型进行微调。
图10-13对应于Fashion-MNIST数据集上的生成数据。由于CIFAR-10数据集对应于更复杂的任务和更大的模型,因此CIFAR-10上的现象比MNIST和Fashion-MNIST数据集上的现象更加明显。在图10中,可以看到比其他噪声更明显的噪声。另外,图10中某些生成的图像甚至不能确定相应的类别。从通过FL-GAN,MD-GAN和AC-GAN算法训练的生成器生成的图像中,可以清楚地看到AC-GAN生成的图像质量更高。

Claims (7)

1.一种基于生成对抗网络的数据脱敏方法,其特征在于包括以下步骤,
A、设置生成对抗网络,将判别器节点部署在存储原始数据的设备中,将生成器节点部署在需要使用上述数据的设备中;生成对抗网络包括生成器和判别器;
首先根据输入z产生相应的数据,
Figure 798651DEST_PATH_IMAGE001
其中
Figure 812875DEST_PATH_IMAGE002
是带有参数
Figure 6090DEST_PATH_IMAGE003
和输入z的生成器模型,为多层感知器或卷积神经网络,输入z通常是随机变量,当需要生成一批数据
Figure 862663DEST_PATH_IMAGE004
时,输入z是n维向量;然后,将生成的数据集
Figure 660986DEST_PATH_IMAGE005
与实际数据集
Figure 846110DEST_PATH_IMAGE006
混合,作为判别器模型的输入集
Figure 795131DEST_PATH_IMAGE007
,判别器从X中获取任何元素x,以判断x是否属于
Figure 723903DEST_PATH_IMAGE008
Figure 439050DEST_PATH_IMAGE009
其中
Figure 795076DEST_PATH_IMAGE010
是具有参数
Figure 959953DEST_PATH_IMAGE011
和输入x的生成器模型,该模型是多层感知器或卷积神经网络,
Figure 692417DEST_PATH_IMAGE012
是数据x的有效性,当判别器确信x属于
Figure 262070DEST_PATH_IMAGE008
时,v=1,否则v=0;
B、对判别器节点和生成器节点进行本地更新;
C、对判别器节点进行聚合;
D、对生成对抗网络进行迭代训练;
E、将原始数据输入训练后的生成对抗网络,得到和原始数据特征一致但不涉及用户隐私的脱敏数据。
2.如权利要求1所述的基于生成对抗网络的数据脱敏方法,其特征在于:生成器的优化目标是最小化
Figure 788997DEST_PATH_IMAGE013
,判别器的优化目标是最大化
Figure 435312DEST_PATH_IMAGE013
,目标函数为,
Figure 705887DEST_PATH_IMAGE014
其中
Figure 130046DEST_PATH_IMAGE015
是凹的递增函数,对应于生成对抗网络的不同变体;
Figure 93454DEST_PATH_IMAGE016
为期望函数,即
Figure 232924DEST_PATH_IMAGE018
为判别器认为
Figure 572770DEST_PATH_IMAGE019
是真实数据的概率期望,
Figure 320277DEST_PATH_IMAGE020
为判别器认为生成器生成的数据不是真实数据的期望;当判别器模型最佳时,对于一批数据
Figure 454586DEST_PATH_IMAGE021
,判别结果将满足
Figure 556053DEST_PATH_IMAGE022
,当生成器模型最佳时,生成的数据
Figure 168431DEST_PATH_IMAGE023
将具有与实际数据
Figure 567182DEST_PATH_IMAGE019
相同的特性;利用目标函数,调整生成器和判别器的参数,以将其损失降至最低,判别器和生成器的损失函数如下:
Figure 872393DEST_PATH_IMAGE024
其中
Figure 720876DEST_PATH_IMAGE025
是生成的数据集,而
Figure 136945DEST_PATH_IMAGE026
是实际数据集,
Figure 390203DEST_PATH_IMAGE027
的元素数为n,
Figure 866315DEST_PATH_IMAGE028
的元素数为m,
Figure 485251DEST_PATH_IMAGE029
;使用
Figure 439431DEST_PATH_IMAGE030
作为带有优化方法的一轮训练生成器或判别器,其中
Figure 812775DEST_PATH_IMAGE031
是生成的数据
Figure 194209DEST_PATH_IMAGE032
和实际数据
Figure 282863DEST_PATH_IMAGE033
的混合,v是通过判别器传播的判别结果,并且
Figure 775156DEST_PATH_IMAGE034
Figure 737426DEST_PATH_IMAGE035
Figure 820920DEST_PATH_IMAGE036
分别对应第t次迭代训练时,生成器和判别器模型的参数。
3.如权利要求2所述的基于生成对抗网络的数据脱敏方法,其特征在于:判别器节点的参数线性收敛到
Figure 871571DEST_PATH_IMAGE037
Figure 433134DEST_PATH_IMAGE038
当使用步长
Figure 781070DEST_PATH_IMAGE039
时,其中
Figure 504306DEST_PATH_IMAGE040
是第t次迭代的
Figure 770815DEST_PATH_IMAGE041
中的信息损失系数压缩率
Figure 73751DEST_PATH_IMAGE042
Figure 479456DEST_PATH_IMAGE043
表示
Figure 833646DEST_PATH_IMAGE044
范数,
Figure 590381DEST_PATH_IMAGE045
用于测量压缩算子
Figure 962588DEST_PATH_IMAGE046
的信息损失,
Figure 485448DEST_PATH_IMAGE047
为下降率,
Figure 550487DEST_PATH_IMAGE048
Figure 794518DEST_PATH_IMAGE049
为最大值,
Figure 973345DEST_PATH_IMAGE050
是判别器节点参数的平均值
Figure 884801DEST_PATH_IMAGE051
Figure 120741DEST_PATH_IMAGE052
是第j个判别器节点,
Figure 383226DEST_PATH_IMAGE053
为第j个判别器节点在第T次迭代时的参数,有如下关系式
Figure 359885DEST_PATH_IMAGE054
4.如权利要求1所述的基于生成对抗网络的数据脱敏方法,其特征在于:步骤B中,
每个生成器用一个随机数z作为输入,输出生成的数据
Figure 391426DEST_PATH_IMAGE055
和生成数据所对应的中间变量
Figure 329426DEST_PATH_IMAGE056
;每个生成器节点,估计和邻居判别器节点之间的通信带宽;每个生成器节点按照最小通信带宽对所生成的数据
Figure 813628DEST_PATH_IMAGE055
和生成数据所对应的中间变量
Figure 611556DEST_PATH_IMAGE056
进行压缩,并发送给邻居判别器节点。
5.如权利要求4所述的基于生成对抗网络的数据脱敏方法,其特征在于:步骤B中,
每个判别器节点接收来自邻居生成器节点的被压缩的生成的数据
Figure 232024DEST_PATH_IMAGE055
和生成数据所对应的中间变量
Figure 75347DEST_PATH_IMAGE056
;将判别器本地对的真实数据
Figure 46845DEST_PATH_IMAGE057
以和生成器生产数据
Figure 99727DEST_PATH_IMAGE055
相同的方式进行压缩,并将两者以相同规模混合;将混合后的数据作为输入,依次输入判别器模型,对判别器模型训练;判别器模型对压缩后的
Figure 105860DEST_PATH_IMAGE056
进行判别,得到对应的判别结果
Figure 526608DEST_PATH_IMAGE058
,i表示生成数据对应的生成器节点i,j表示判别这个数据的判别器节点j;判别器把对应的判别结果
Figure 253912DEST_PATH_IMAGE058
发给邻居生成器节点;生成器节点将收到的所有
Figure 644573DEST_PATH_IMAGE058
进行平均,得到
Figure DEST_PATH_IMAGE059
;把
Figure 380579DEST_PATH_IMAGE059
作为输入,对本地模型参数进行更新。
6.如权利要求5所述的基于生成对抗网络的数据脱敏方法,其特征在于:步骤C中,每个判别器节点把自己的判别器模型梯度根据带宽自适应压缩后,广播给邻居的判别器节点;在完成广播后,每个判别器节点把收到的所有邻居的判别器模型梯度和自己的梯度进行平均,并按照权值γ和本地模型参数进行加和。
7.如权利要求6所述的基于生成对抗网络的数据脱敏方法,其特征在于:步骤D中,生成器和判别器每依次进行若干次步骤B和一次步骤C后为一轮迭代。
CN202010671782.7A 2020-07-14 2020-07-14 一种基于生成对抗网络的数据脱敏方法 Active CN111563275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010671782.7A CN111563275B (zh) 2020-07-14 2020-07-14 一种基于生成对抗网络的数据脱敏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010671782.7A CN111563275B (zh) 2020-07-14 2020-07-14 一种基于生成对抗网络的数据脱敏方法

Publications (2)

Publication Number Publication Date
CN111563275A CN111563275A (zh) 2020-08-21
CN111563275B true CN111563275B (zh) 2020-10-20

Family

ID=72071295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010671782.7A Active CN111563275B (zh) 2020-07-14 2020-07-14 一种基于生成对抗网络的数据脱敏方法

Country Status (1)

Country Link
CN (1) CN111563275B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112162959B (zh) * 2020-10-15 2023-10-10 深圳技术大学 一种医疗数据共享方法及装置
CN112528318A (zh) * 2020-11-27 2021-03-19 国家电网有限公司大数据中心 一种图像脱敏的方法、装置及电子设备
CN114662138A (zh) * 2020-12-23 2022-06-24 中国科学院沈阳自动化研究所 一种工业过程数据脱敏方法
CN112686205B (zh) * 2021-01-14 2023-10-13 电子科技大学中山学院 一种参数更新方法及装置、多终端网络架构
CN112861179B (zh) * 2021-02-22 2023-04-07 中山大学 基于文本生成对抗网络的个人数字空间数据脱敏的方法
CN113066094B (zh) * 2021-03-09 2024-01-30 中国地质大学(武汉) 一种基于生成对抗网络的地理栅格智能化局部脱敏方法
CN112818407B (zh) * 2021-04-16 2021-06-22 中国工程物理研究院计算机应用研究所 一种基于生成对抗网络的视频隐私保护方法
CN113536373B (zh) * 2021-07-07 2023-04-18 河南大学 一种脱敏气象数据的生成方法
CN113886885A (zh) * 2021-10-21 2022-01-04 平安科技(深圳)有限公司 数据脱敏方法、数据脱敏装置、设备及存储介质
CN114531273B (zh) * 2022-01-11 2024-05-14 北京理工大学 一种防御工业网络系统分布式拒绝服务攻击的方法
CN116896482B (zh) * 2023-09-08 2024-02-09 联通在线信息科技有限公司 基于遮蔽隐私信息的家庭摄像头远程控制方法和装置
CN117290888B (zh) * 2023-11-23 2024-02-09 江苏风云科技服务有限公司 一种大数据的信息脱敏方法、存储介质及服务器
CN117592114B (zh) * 2024-01-19 2024-04-19 中国电子科技集团公司第三十研究所 面向网络平行仿真的数据脱敏方法、系统和可读存储介质
CN117993480A (zh) * 2024-04-02 2024-05-07 湖南大学 面向设计师风格融合和隐私保护的aigc联邦学习方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684797A (zh) * 2018-11-21 2019-04-26 众安信息技术服务有限公司 基于区块链的对抗网络生成图片的虚拟ip保护方法及系统
CN111259393A (zh) * 2020-01-14 2020-06-09 河南信息安全研究院有限公司 一种基于生成对抗网络的恶意软件检测器抗概念漂移方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8321686B2 (en) * 2005-02-07 2012-11-27 Sandisk Technologies Inc. Secure memory card with life cycle phases
US9703493B2 (en) * 2015-12-14 2017-07-11 Qualcomm Incorporated Single-stage arbiter/scheduler for a memory system comprising a volatile memory and a shared cache
CN106997380B (zh) * 2017-03-21 2019-07-12 北京工业大学 基于dcgan深度网络的成像光谱图像安全检索方法
CN107368752B (zh) * 2017-07-25 2019-06-28 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN109818739B (zh) * 2019-01-24 2022-02-25 中国人民武装警察部队工程大学 一种基于对抗网络的生成式图像隐写方法
CN110460600B (zh) * 2019-08-13 2021-09-03 南京理工大学 可抵御生成对抗网络攻击的联合深度学习方法
CN110602078B (zh) * 2019-09-04 2022-12-20 南京邮电大学 一种基于生成对抗网络的应用加密流量生成方法及系统
CN111091489B (zh) * 2019-11-01 2024-05-07 平安科技(深圳)有限公司 图片优化方法、装置、电子设备及存储介质
CN111079351B (zh) * 2020-01-19 2024-02-06 天津大学 考虑风电不确定性的配电网概率潮流获取方法、装置
CN111259427B (zh) * 2020-01-21 2020-11-06 北京安德医智科技有限公司 一种基于神经网络的图像处理方法、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684797A (zh) * 2018-11-21 2019-04-26 众安信息技术服务有限公司 基于区块链的对抗网络生成图片的虚拟ip保护方法及系统
CN111259393A (zh) * 2020-01-14 2020-06-09 河南信息安全研究院有限公司 一种基于生成对抗网络的恶意软件检测器抗概念漂移方法

Also Published As

Publication number Publication date
CN111563275A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN111563275B (zh) 一种基于生成对抗网络的数据脱敏方法
CN108877839B (zh) 基于语音语义识别技术的语音质量感知评估的方法及系统
CN109727246B (zh) 一种基于孪生网络的对比学习图像质量评估方法
CN108648188B (zh) 一种基于生成对抗网络的无参考图像质量评价方法
Li et al. No-reference image quality assessment with deep convolutional neural networks
Zhu et al. Grouped network vector autoregression
CN110728656A (zh) 基于元学习的无参考图像质量数据处理方法、智能终端
CN111224905B (zh) 一种大规模物联网中基于卷积残差网络的多用户检测方法
CN112491442B (zh) 一种自干扰消除方法及装置
CN113379176B (zh) 电信网络异常数据检测方法、装置、设备和可读存储介质
Göring et al. deimeq-A Deep Neural Network Based Hybrid No-reference Image Quality Model
WO2022166797A1 (zh) 图像生成模型的训练方法、生成方法、装置及设备
CN111414842B (zh) 一种视频对比方法、装置、计算机设备和存储介质
CN112637883A (zh) 电力物联网中对无线环境变化具有鲁棒性的联邦学习方法
CN113421237B (zh) 基于深度特征迁移学习的无参考图像质量评价方法
CN109949200B (zh) 基于滤波器子集选择和cnn的隐写分析框架构建方法
CN111429402A (zh) 高级视觉感知特征与深度特征融合的图像质量评价方法
CN112817563B (zh) 目标属性配置信息确定方法、计算机设备和存储介质
CN109413068B (zh) 一种基于对偶gan的无线信号加密方法
Castelli et al. Generative adversarial networks for generating synthetic features for Wi-Fi signal quality
Wu et al. FedProf: Optimizing federated learning with dynamic data profiling
CN112836822A (zh) 基于宽度学习的联邦学习策略优化方法和装置
CN106789349B (zh) 一种基于体验质量建模分析及会话流分类的方法
CN115577797B (zh) 一种基于本地噪声感知的联邦学习优化方法及系统
CN117217328A (zh) 基于约束因子的联邦学习客户端选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant