CN112487479B - 一种训练隐私保护模型的方法、隐私保护方法及装置 - Google Patents

一种训练隐私保护模型的方法、隐私保护方法及装置 Download PDF

Info

Publication number
CN112487479B
CN112487479B CN202011435672.7A CN202011435672A CN112487479B CN 112487479 B CN112487479 B CN 112487479B CN 202011435672 A CN202011435672 A CN 202011435672A CN 112487479 B CN112487479 B CN 112487479B
Authority
CN
China
Prior art keywords
image
model
gradient
data
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011435672.7A
Other languages
English (en)
Other versions
CN112487479A (zh
Inventor
曹佳炯
丁菁汀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202011435672.7A priority Critical patent/CN112487479B/zh
Publication of CN112487479A publication Critical patent/CN112487479A/zh
Application granted granted Critical
Publication of CN112487479B publication Critical patent/CN112487479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

说明书实施例提供了一种训练隐私保护模型的方法、隐私保护方法及装置,隐私保护模型用于为预先训练的深度学习模型提供模型隐私保护,深度学习模型的输出结果为图像,该训练方法包括:获取第一数据,以及深度学习模型针对第一数据生成的第一图像;将第一图像输入所述隐私保护模型,生成第二图像;基于第一图像和第二图像,确定图像差异损失;将第一数据输入用于模拟深度学习模型的替代模型,以第一图像为标签确定第一梯度,并以第二图像为标签确定第二梯度;根据第一梯度和第二梯度,确定梯度差异损失;以图像差异损失趋于减少,梯度差异损失趋于增大为目标,更新所述隐私保护模型。

Description

一种训练隐私保护模型的方法、隐私保护方法及装置
技术领域
本说明书一个或多个实施例涉及机器学习领域和数据安全领域,尤其涉及一种训练隐私保护模型的方法、隐私保护方法及装置。
背景技术
近年来,人工智能系统飞速发展,快速进入到人们的生产和生活中,与此同时,人工智能系统的安全性也受到了前所未有的关注。人工智能系统的核心是深度学习模型,因此深度学习模型的隐私安全性决定了整个人工智能系统的隐私安全水位,所以,如何防止模型被窃取-模型隐私保护,成为了近年来的热门课题。
窃取模型的方法可以大致分为两类。第一类,从分析人工智能系统代码入手,直接破解模型的结构和参数,这一类方法可以利用模型加密和模型混淆等手段进行有效防御。第二类,通过多次访问人工智能系统,获得大量的“输入-输出”数据,然后利用输入输出对进行模型训练,得到替代模型,这样可以在不知晓目标模型的结构和权重的情况下,得到和目标模型类似性能的替代模型,达到破解模型的目的。第二类攻击方式现在还没有有效的防御方法。
发明内容
本说明书中的实施例旨在提供更有效的深度学习模型的隐私保护的方法,解决现有技术中的不足
根据第一方面,提供了一种训练隐私保护模型的方法,所述隐私保护模型用于为预先训练的深度学习模型提供模型隐私保护,所述深度学习模型的输出结果为图像,所述方法包括:
获取第一数据,以及所述深度学习模型针对所述第一数据生成的第一图像;
将所述第一图像输入所述隐私保护模型,生成第二图像;
基于第一图像和第二图像,确定图像差异损失;
将所述第一数据输入用于模拟所述深度学习模型的替代模型,以第一图像为标签确定第一梯度,并以第二图像为标签确定第二梯度;
根据所述第一梯度和第二梯度,确定梯度差异损失;
以所述图像差异损失趋于减少,所述梯度差异损失趋于增大为目标,更新所述隐私保护模型。
在一个实施例中,所述训练隐私保护模型的方法,还包括:
基于所述第一梯度和/或第二梯度,更新所述替代模型。
在一个实施例中,所述隐私保护模型基于Unet模型。
在一个实施例中,所述第一数据为图像或图像特征。
在一个实施例中,所述第二图像的图像格式为无损压缩格式。
在一个实施例中,所述基于第一图像和第二图像,获取图像差异损失,包括:
根据第一图像和第二图像的欧式距离,确定图像差异损失。
在一个实施例中,所述训练隐私保护模型的方法,还包括,对所述替代模型进行预训练。
在一个实施例中,对所述替代模型进行预训练,包括:
获取第二数据,以及所述深度学习模型针对所述第二数据生成的第三图像;
将所述第二数据,输入替代模型,获取第四图像;
以第四图像趋近第三图像为目标,更新所述替代模型。
在一个实施例中,将所述第一数据输入用于模拟所述深度学习模型的替代模型,以第一图像为标签确定第一梯度,包括:
将所述第一数据输入所述替代模型,获取其生成图像;
根据该生成图像和第一图像,确定差异损失;
根据所述差异损失,基于所述替代模型确定第一梯度。
根据第二方面,提供了一种深度学习模型的隐私保护方法,所述方法包括:
获取有待处理的第三数据;
将所述第三数据输入所述深度学习模型,得到所述深度学习模型针对所述第三数据生成的第五图像;
将第五图像输入隐私保护模型,生成第六图像;所述隐私保护模型通过第一方面所述的方法训练得到;
输出第六图像。
在一个实施例中,所述第六图像的图像格式为无损压缩格式。
根据第三方面,提供了一种隐私保护模型的训练装置,所述隐私保护模型用于为预先训练的深度学习模型提供模型隐私保护,所述深度学习模型的输出结果为图像,所述装置包括:
第一获取单元,配置为获取第一数据,以及所述深度学习模型针对所述第一数据生成的第一图像;
第二获取单元,配置为将所述第一图像输入所述隐私保护模型,生成第二图像;
图像差异损失确定单元,配置为基于第一图像和第二图像,确定图像差异损失;
梯度确定单元,配置为将所述第一数据输入用于模拟所述深度学习模型的替代模型,以第一图像为标签确定第一梯度,并以第二图像为标签确定第二梯度;
梯度差异损失确定单元,配置为根据所述第一梯度和第二梯度,确定梯度差异损失;
模型更新单元,配置为以所述图像差异损失趋于减少,所述梯度差异损失趋于增大为目标,更新所述隐私保护模型。
在一个实施例中,所述训练装置,还包括:
替代模型更新单元,配置为基于所述第一梯度和/或第二梯度,更新所述替代模型。
在一个实施例中,所述隐私保护模型基于Unet模型。
在一个实施例中,所述第一数据为图像或图像特征。
在一个实施例中,所述第二图像的图像格式为无损压缩格式。
在一个实施例中,图像差异损失确定单元进一步配置为,
根据第一图像和第二图像的欧式距离,确定图像差异损失。
在一个实施例中,所述训练装置,还包括,
预训练单元,配置为对所述替代模型进行预训练。
在一个实施例中,预训练单元进一步配置为,
获取第二数据,以及所述深度学习模型针对所述第二数据生成的第三图像;
将所述第二数据输入替代模型,获取第四图像;
以第四图像趋近第三图像为目标,更新所述替代模型。
在一个实施例中,梯度确定单元进一步配置为:
将所述第一数据输入所述替代模型,获取其生成图像;
根据该生成图像和第一图像,确定差异损失;
根据所述差异损失,基于所述替代模型确定第一梯度。
根据第四方面,提供了一种深度学习模型的隐私保护装置,其特征在于,所述装置包括:
获取单元,配置为获取有待处理的第三数据;
图像生成单元,配置为将所述第三数据输入所述深度学习模型,得到所述深度学习模型针对所述第三数据生成的第五图像;
隐私图像生成单元,配置为将第五图像输入隐私保护模型,生成第六图像;所述隐私保护模型通过第一方面所述的方法训练得到;
输出单元,配置为输出第六图像。
在一个实施例中,所述第六图像的图像格式为无损压缩格式。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一、第二方面所述的方法。
根据第六方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一、第二方面所述的方法。
利用以上各个方面中的方法、装置、计算设备、存储介质中的一个或多个,可以更为有效地解决利用对深度学习模型大量访问获得的“输入-输出”数据进行模型训练,从而得到和深度学习模型类似性能的替代模型,带来的隐私保护问题。
附图说明
为了更清楚说明本发明实施例的技术方案,下面将对实施例描述中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出根据本说明书实施例的一种训练隐私保护模型的方法的示意图;
图2示出根据本说明书实施例的一种深度学习模型的隐私保护方法的示意图;
图3示出根据本说明书实施例的一种训练隐私保护模型的方法的流程图;
图4示出根据本说明书实施例的一种深度学习模型的隐私保护方法的流程图;
图5示出根据本说明书实施例的一种隐私保护模型的训练装置的结构图;
图6示出根据本说明书实施例的一种深度学习模型的隐私保护装置的结构图;
具体实施方式
下面将结合附图,对本发明书提供的方案进行描述。
如前所述,通过多次访问人工智能系统,获得大量的“输入-输出”数据,然后利用输入输出对进行模型训练,得到替代模型,可以在不知晓目标模型的结构和权重的情况下,得到和目标模型类似性能的替代模型,达到破解模型的目的。
考虑到上述问题,在本说明书中的实施例中,提出一种训练隐私保护模型的方法、隐私保护方法及其装置。利用该方法及其装置可以对输出结果为图像的深度学习模型进行隐私保护。其基本思想是通过训练一种隐私保护模型,或称为毒素模型,在原模型的输出图像上叠加“毒素”,使得添加了“毒素”的输出图像和原模型输出的无毒图像从人的视角角度觉察不到不同,但是在将添加了“毒素”的输出图像发送给用户后,如果攻击者利用包含毒素的输入输出进行模型训练,则得到的替代模型性能会很差,甚至达不到收敛。从而,达到防止模型被窃取的目的。
下面进一步说明该方法的基本思想。
图1示出根据本说明书实施例的一种训练隐私保护模型的方法的示意图,其中,深度学习模型为所训练隐私保护模型的保护目标,也称为目标模型,深度学习模型的作用是根据用户输入的数据输出一种图像,例如,其可以是对图像进行处理的模型,或者是根据图像特征数据生成图像的模型。深度学习模型为预先训练好的模型,其网络参数和权重在隐私保护模型的训练过程中不更新。隐私保护模型,也称为毒素模型,其作用是在原模型的输出图像上叠加“毒素”,使得添加了“毒素”的输出图像和目标模型原输入的无毒图像从人的视角角度觉察不到不同。这里的“毒素”是示意性的,由训练过程中获得,而非预先设定的元素。替代模型,其作用是模拟一个和目标模型起同样作用的模型,替代模型根据从目标模型获得的输入-输出数据进行预训练,并且其在隐私保护模型的训练过程中也可以进行更新。
如图1所示,深度学习模型从用户处获得输入数据,即第一数据,并根据第一数据,生成对应的图像,即第一图像,然后将第一图像发送给隐私保护模型和替代模型。隐私保护模型根据第一图像生成第二图像,并将第二图像也发送给替代模型。然后针对替代模型,以第一数据为输入,分别以第一图像和第二图像为标签,确定替代模型的训练梯度,即第一梯度和第二梯度。在此基础上,根据第一梯度和第二梯度确定两者的梯度差异损失,根据第一图像和第二图像确定两者的图像差异损失,最后,根据梯度差异损失和图像差异损失更新隐私保护模型的参数权重,更新的目标是使得梯度差异损失趋向变大和图像差异损失趋向变小。可以看到,由于训练目标中包括梯度差异趋向变大,使得攻击者在获得隐私保护模型输出的图像后,难于根据输入数据和该图像获得其在模拟模型上需要的训练梯度-即使得模拟模型的输入-输出可以拟合深度学习模型的输入-输出所需要的梯度,从而使攻击者难以训练出可以模拟深度学习模型的模拟模型,甚至可能因为训练中的不收敛而导致其模拟模型的训练失败。同时,由于训练目标中包括图像差异损失趋向变小,使得隐私保护模型生成的图像从人的角度看,差异很小甚至难以觉察,从而保证了其输出结果对于没有攻击意图的普通用户的使用价值,也就是保持了深度学习模型本身的作用。
图2示出根据本说明书实施例的一种深度学习模型的隐私保护方法的示意图。如图2所示,在以上述方法训练好隐私保护模型之后,可以将用户数据输入深度学习模型,获得其正常输出图像,然后将该正常输出图像输入隐私保护模型,获取其生成的具有隐私保护作用的“毒素”图像,将该“毒素”图像发送给用户,就可以起到保护深度学习模型的隐私(其参数权重和结构)的作用,使得隐私攻击者难以根据输入数据和获得数据训练出该深度学习模型的高质量的模拟模型,又保证了输出结果(“毒素”图像)对于没有攻击意图的普通用户的使用价值保持了深度学习模型本身的作用。
因此,使用该隐私保护模型对深度学习模型的输出图像进行处理,可以达到防止利用模型输入-输出数据训练出模拟模型导致的模型隐私泄漏,同时保证不影响处理后的图像对于人的视觉效果的双重目的,从而达到良好的模型隐私保护的效果。
下面进一步阐述该方法的具体过程。
图3示出根据本说明书实施例的一种训练隐私保护模型的方法的流程图。隐私保护模型用于为预先训练的深度学习模型提供模型隐私保护,深度学习模型的输出结果为图像,如图3所示,该方法至少包括如下步骤:
在步骤31,获取第一数据,以及深度学习模型针对所述第一数据生成的第一图像。
该步骤中,第一数据可以是普通用户输入的数据,也可以是潜在攻击者输入或生成的数据,还可以是为了进行隐私保护模型(毒素模型)的训练而通过其他方式获取的输入数据。输入数据(第一数据)的类型以及其对应的深度学习模型的具体类型,在不同的实施例中,可以有所不同。例如,在一个实施例中,第一数据的类型可以为图像,深度学习模型可以为进行图像处理(例如,去噪、增强、复原、滤镜处理)的模型,其输入、输出数据均为图像。在另一个实施例中,第一数据的类型也可以是图像特征,深度学习模型可以为根据图像特征生成图像的图像生成模型。在又一实施例中,第一数据还可以是噪声数据,深度学习模型是通过生成-对抗方式训练的生成对抗网络GAN中的生成器,用于根据输入噪声生成图像。
相应的,通过将第一数据输入预先训练的深度学习模型,可以得到第一图像。
在步骤32,将第一图像输入隐私保护模型,生成第二图像。
隐私保护模型的作用,是根据深度学习模型的原输出图像(第一图像)生成一种叠加了“毒素”的、因而具有模型隐私保护作用的图像(第二图像)。需要注意的是这里的“毒素”是示意性的,其并非一种预先设定的图像元素,而是指在训练过程中获得的、对于原图像具有隐私保护作用的处理结果,或是在原图像之上叠加的图像元素。或者说,叠加了“毒素”的图像,为方便描述也可以称为有毒图像,即对原图像(无毒图像)进行了具有该隐私保护作用的处理之后的图像,至于如何处理图像以得到该隐私保护作用,则是通过对隐私保护模型的训练获得的,而非预先指定的。在不同实施例中,隐私保护模型可以通过对原图像的像素施加肉眼不可见的高频扰动、微小变形,或者对其高维抽象特征添加扰动,而对其叠加“毒素”。
在一个实施例中,隐私保护模型可以基于Unet模型。Unet是一种神经网络模型,其主要思想是先利用若干个卷积层进行下采样,然后根据各层提取的特征,利用若干个卷积层进行上采样从而获取输出结果。其中,下采样(subsampled),又称降采样(downsampled),其作用为缩小图像。上采样(upsampling),又称图像插值(interpolating),其作用为放大图像。在另一个实施例中,隐私保护模型也可以基于卷积神经网络模型。可以理解,不同的实施例中,隐私保护模型可以基于不同的神经网络模型。本说明书对隐私保护模型的具体实施方式不做限制。
如前所述,隐私保护模型生成的图像可以在原图像之上叠加具有隐私保护效果的图像元素,而图像压缩容易对该图像元素的隐私保护效果造成不利的影响。因此,在一个实施例中,第二图像的图像格式可以为无损压缩格式。在一个例子中,第二图像的图像格式为PNG格式。
在步骤33,基于第一图像和第二图像,确定图像差异损失。
确定图像差异损失,旨在衡量深度学习模型的输出图像(第一图像)和隐私保护模型的输出图像(第二图像)之间的差异,该图像差异损失用于后续的训练步骤。在一个实施例中,可以根据第一图像和第二图像的欧式距离,确定图像差异损失。欧式距离,又称欧几里得距离,是欧几里得空间中两点间直线距离。在一个例子中,可以根据以下方法确定第一图像和第二图像的欧式距离:每个图像有n个像素点,n个像素点的像素值构成该图像的图像向量,第一图像和第二图像的图像向量各形成了n维空间的一个点,利用数学上的欧式距离公式计算这两个点之间的距离,即两者间的欧式距离。
此外,在不同的实施例中,确定图像差异损失的方法可以有多种,比如一个实施例中可以基于感知哈希算法,计算两个图像的图像差异度,继而确定图像差异损失。另一个实施例中也可以是可以基于平均哈希算法,计算两个图像的图像差异度,继而确定图像差异损失。各种确定图像差异损失的方式都应使得,第一图像和第二图像之间的差异越大,图像差异损失越大。本说明书对于确定图像差异损失的具体方法不做限定。
在步骤34,将第一数据输入用于模拟深度学习模型的替代模型,以第一图像为标签确定第一梯度,并以第二图像为标签确定第二梯度。
替代模型,是模拟深度学习模型的模型,即其训练目标是根据同样的输入数据,得到深度学习模型同样输出的模型。如前所述,隐私攻击者可以通过多次访问深度学习模型-目标模型,获得大量的“输入-输出”数据,然后利用输入输出对进行模型训练,得到类似的模拟模型,从而可以在不知晓目标模型的结构和权重的情况下,得到和目标模型类似性能的模拟模型,达到破解深度学习模型的目的。本说明书实施例提供的替代模型,其作用和上述隐私攻击者的模拟模型类似,而本说明书实施例提供的隐私保护模型和隐私保护方法,正是基于上述隐私攻击者的模拟模型的训练原理,对其训练过程进行阻断,从而使得攻击者无法或难以训练出其想要得到的模拟模型。
需要注意的是,对于替代模型的内部结构,本说明书不做限定。如前所述,本说明书实施例提供的隐私保护模型的设计目的是为了防止攻击者通过输入-输出模拟出深度学习模型,这种情况下的攻击者通常不知道深度学习模型的内部结构和参数,因此攻击者无论基于何种结构的神经网络,只要训练后可以模拟出深度学习模型的输入-输出,即认为其达到破解深度学习模型的目的,并不需要取得深度学习模型完全相同的内部结构。同理,替代模型的设计目的类似于攻击者模拟模型,因此对其结构不做限定。
在一个实施例中,确定第一梯度的具体步骤可以包括:将第一数据输入所述替代模型,获取其生成图像;根据该生成图像和第一图像,确定第一差异损失;根据第一差异损失,基于替代模型确定第一梯度。
神经网络模型的训练,本质上为将数据馈送到神经网络模型,然后让模型自动的“学习”,从而优化该神经网络模型的各种参数,在某一种参数配置下该模型可以最佳的匹配该学习任务。反向传播方法是实现模型自动“学习”的一种方式,其核心就是对神经网络每层的权重参数不断使用梯度下降法来进行优化。数学上神经网络可以理解为函数,所谓梯度,是函数的偏导数构成的向量,其意义在于梯度的方向即为函数值变化最快的方向。
梯度下降法,即基于梯度指示函数值下降最快的方向。利用梯度,我们可以使用迭代的方法计算函数的最大或最小值,从而解决神经网络训练中的最优化问题。具体的,在一个例中,第一梯度可以数学方式可表示为:
其中,g为第一梯度,L为第一差异损失,w为替代模型中的模型参数。
该公式是示意性的,其目的为阐述原理,实践中的参数w的数量可以很大,而第一差异损失L可以通常可以由损失函数获得,常用的损失函数如均方差损失函数、交叉熵损失函数。本说明书对于通过何种具体方式确定差异损失不做限定。
在另一个实施例中,确定所述替代模型的第二梯度的具体步骤可以包括:将第一数据输入所述替代模型,获取其生成图像;根据该生成图像和第二图像,确定第二差异损失;根据该第二差异损失,基于替代模型确定第二梯度。该实施例中,获取第二梯度和获取第一梯度的过程的不同之处,在于根据生成图像和第二图像确定差异损失,继而根据差异损失确定第二梯度。
在步骤35,根据所述第一梯度和第二梯度,确定梯度差异损失;
该步骤中,确定梯度差异损失旨在衡量步骤34中分别以第一图像和第二图像为标签,基于替代模型获得的第一梯度和第二梯度的差异。该梯度差异损失用于后续的训练步骤中。在一个例子中,梯度差异损失可以为第一梯度和第二梯度之差,或其差值的绝对值,或其差值的平方。
在步骤36,以所述图像差异损失趋于减少,所述梯度差异损失趋于增大为目标,更新所述隐私保护模型。
该步骤中,隐私保护模型的训练目标是使得图像差异损失趋于减少,梯度差异损失趋于增大,因此,隐私保护模型的训练实际上依赖于深度学习模型和替代模型的输出,或者说,隐私保护模型的训练本质上是为了加大隐私攻击者的替代模型的训练难度,从而保护深度学习模型的结构和参数。具体的,由于训练中一方面以梯度差异损失趋于增大为目标,因此,隐私攻击者希望获得的梯度(根据深度学习模型直接生成的第一图像),与其实际获得的梯度(根据隐私保护模型获得的第二图像)之间的差别趋向变大,隐私攻击者难以根据训练后的隐私保护模型输出的第二图像,训练出深度学习模型的替代模型或模拟模型,甚至因为训练达不到收敛而其训练导致失败。这里,所谓训练达不到收敛是指无法让模型的输出结果跟期望结果更接近,其常表现为训练中损失值(根据模型的输出结果和期望结果而确定)一直大幅震荡或一直居高不下。
同时,另一方面训练中也以图像差异损失趋于减少为目标,将会使得隐私保护模型的生成图像相对于深度学习模型输出图像,对人类的识别来将其差异趋于变小。如果没有这个训练目标,只以梯度差异损失趋于增大为目标训练隐私保护模型,则可能使得其生成的图像,虽然对于隐私攻击者来说,使其难以获取想获得的训练梯度,但是对于正常用户而言,也可能因为和深度学习模型原来的输出图像视觉效果差别过大,从而失去原有的用处。因此,加入以图像差异损失趋于减少训练隐私保护模型,即在训练中约束隐私保护模型,使其生成的图像向着既破坏隐私攻击者想要的替代模型的训练梯度,又使得人类用户感知不到该图像和深度学习模型的输出图像的差异的方向发展。
如此,通过以上训练过程训练得到的隐私保护模型,其生成图像可以达到即保护深度学习模型的参数和结构,同时保证人依然能够从中获取深度学习模型得输出图像的原有价值的效果。
此外,由于替代模型是对深度学习模型的模拟模型,为了使其达到模拟效果,可以根据利用深度学习模型的输入输出数据,对替代模型进行预训练。因此,在一个实施例中,训练隐私保护模型的方法还可以包括,对所述替代模型进行预训练。在一个例子中,对替代模型进行预训练的步骤可以包括:获取第二数据(可以等同/不等同于前述第一数据),以及所述深度学习模型针对所述第二数据生成的第三图像;将第二数据,输入替代模型,获取第四图像;以第四图像趋近第三图像为目标,更新所述替代模型。
替代模型还可以在训练隐私保护模型时,也继续训练。因此,在一个实施例中,训练隐私保护模型的方法还可以包括,基于第一梯度和/或第二梯度,更新所述替代模型。
当隐私保护模型训练完成后,即可以利用其对深度学习模型进行隐私保护。图4示出根据本说明书实施例的一种深度学习模型的隐私保护方法的流程图。如图4所示,该方法至少包括如下步骤:
在步骤41,获取有待处理的第三数据,以及所述深度学习模型针对所述第三数据生成的第五图像;
在步骤42,将第五图像输入隐私保护模型,生成第六图像;该隐私保护模型通过图3所示方法训练得到;
在步骤43,输出第六图像。
如前所述,图像压缩容易对隐私保护模型生成图像的隐私保护效果造成不利的影响。因此,在一个实施例中,第二图像的图像格式可以为无损压缩格式。在一个例子中,第二图像的图像格式可以为PNG格式。
图5示出根据本说明书实施例的一种隐私保护模型的训练装置的结构图。所述隐私保护模型用于为预先训练的深度学习模型提供模型隐私保护,所述深度学习模型的输出结果为图像,如图5所示,该装置500包括:
第一获取单元51,配置为获取第一数据,以及所述深度学习模型针对所述第一数据生成的第一图像;
第二获取单元52,配置为将所述第一图像输入所述隐私保护模型,生成第二图像;
图像差异损失确定单元53,配置为基于第一图像和第二图像,确定图像差异损失;
梯度确定单元54,配置为将所述第一数据输入用于模拟所述深度学习模型的替代模型,以第一图像为标签确定第一梯度,并以第二图像为标签确定第二梯度;
梯度差异损失确定单元55,配置为根据所述第一梯度和第二梯度,确定梯度差异损失;
模型更新单元56,配置为以所述图像差异损失趋于减少,所述梯度差异损失趋于增大为目标,更新所述隐私保护模型。
在一个实施例中,该训练装置,还可以包括:
替代模型更新单元,配置为基于所述第一梯度和/或第二梯度,更新所述替代模型。
在一个实施例中,隐私保护模型可以基于Unet模型。
在一个实施例中,第一数据可以为图像或图像特征。
在一个实施例中,第二图像的图像格式可以为无损压缩格式。
在一个实施例中,图像差异损失确定单元可以进一步配置为,
根据第一图像和第二图像的欧式距离,确定图像差异损失。
在一个实施例中,该训练装置,还可以包括,
预训练单元,配置为对所述替代模型进行预训练。
在一个实施例中,预训练单元可以进一步配置为,
获取第二数据,以及所述深度学习模型针对所述第二数据生成的第三图像;
将所述第二数据输入替代模型,获取第四图像;
以第四图像趋近第三图像为目标,更新所述替代模型。
在一个实施例中,梯度确定单元可以进一步配置为:
将所述输入数据输入所述替代模型,获取其生成的第三图像;
根据第三图像和第一图像,确定图像差异损失;
根据图像差异损失,确定所述替代模型的第一梯度。
图6示出根据本说明书实施例的一种深度学习模型的隐私保护装置的结构图。如图6所示,该装置600包括:
获取单元61,配置为获取有待处理的第三数据;
图像生成单元62,配置为将所述第三数据输入所述深度学习模型,得到所述深度学习模型针对所述第三数据生成的第五图像;
隐私图像生成单元63,配置为将第五图像输入隐私保护模型,生成第六图像;所述隐私保护模型通过图3所示方法训练得到;
输出单元64,配置为输出第六图像。
在一个实施例中,第六图像的图像格式可以为无损压缩格式。
本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。
本说明书另一方面提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
需要理解,本文中的“第一”,“第二”等描述,仅仅为了描述的简单而对相似概念进行区分,并不具有其他限定作用。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (24)

1.一种训练隐私保护模型的方法,所述隐私保护模型用于为预先训练的深度学习模型提供模型隐私保护,所述深度学习模型的输出结果为图像,所述方法包括:
获取第一数据,以及所述深度学习模型针对所述第一数据生成的第一图像;
将所述第一图像输入所述隐私保护模型,生成第二图像;
基于第一图像和第二图像,确定图像差异损失;
将所述第一数据输入用于模拟所述深度学习模型的替代模型,以第一图像为标签确定第一梯度,并以第二图像为标签确定第二梯度;
根据所述第一梯度和第二梯度,确定梯度差异损失;
以所述图像差异损失趋于减少,所述梯度差异损失趋于增大为目标,更新所述隐私保护模型。
2.根据权利要求1所述的方法,还包括:
基于所述第一梯度和/或第二梯度,更新所述替代模型。
3.根据权利要求1所述的方法,其中,所述隐私保护模型基于Unet模型。
4.根据权利要求1所述的方法,其中,所述第一数据为图像或图像特征。
5.根据权利要求1所述的方法,其中,所述第二图像的图像格式为无损压缩格式。
6.根据权利要求1所述的方法,其中,所述基于第一图像和第二图像,获取图像差异损失,包括:
根据第一图像和第二图像的欧式距离,确定图像差异损失。
7.根据权利要求1的方法,还包括,对所述替代模型进行预训练。
8.根据权利要求7所述的方法,其中,对所述替代模型进行预训练,包括:
获取第二数据,以及所述深度学习模型针对所述第二数据生成的第三图像;
将所述第二数据输入替代模型,获取第四图像;
以第四图像趋近第三图像为目标,更新所述替代模型。
9.根据权利要求1所述的方法,其中,将所述第一数据输入用于模拟所述深度学习模型的替代模型,以第一图像为标签确定第一梯度,包括:
将所述第一数据输入所述替代模型,获取其生成图像;
根据该生成图像和第一图像,确定差异损失;
根据所述差异损失,基于所述替代模型确定第一梯度。
10.一种深度学习模型的隐私保护方法,所述方法包括:
获取有待处理的第三数据;
将所述第三数据输入所述深度学习模型,得到所述深度学习模型针对所述第三数据生成的第五图像;
将第五图像输入隐私保护模型,生成第六图像;所述隐私保护模型通过权利要求1-9任一项的方法训练得到;
输出第六图像。
11.根据权利要求10所述的方法,其中,所述第六图像的图像格式为无损压缩格式。
12.一种隐私保护模型的训练装置,所述隐私保护模型用于为预先训练的深度学习模型提供模型隐私保护,所述深度学习模型的输出结果为图像,所述装置包括:
第一获取单元,配置为获取第一数据,以及所述深度学习模型针对所述第一数据生成的第一图像;
第二获取单元,配置为将所述第一图像输入所述隐私保护模型,生成第二图像;
图像差异损失确定单元,配置为基于第一图像和第二图像,确定图像差异损失;
梯度确定单元,配置为将所述第一数据输入用于模拟所述深度学习模型的替代模型,以第一图像为标签确定第一梯度,并以第二图像为标签确定第二梯度;
梯度差异损失确定单元,配置为根据所述第一梯度和第二梯度,确定梯度差异损失;
模型更新单元,配置为以所述图像差异损失趋于减少,所述梯度差异损失趋于增大为目标,更新所述隐私保护模型。
13.根据权利要求12所述的装置,还包括:
替代模型更新单元,配置为基于所述第一梯度和/或第二梯度,更新所述替代模型。
14.根据权利要求12所述的装置,其中,所述隐私保护模型基于Unet模型。
15.根据权利要求12所述的装置,其中,所述第一数据为图像或图像特征。
16.根据权利要求12所述的装置,其中,所述第二图像的图像格式为无损压缩格式。
17.根据权利要求12所述的装置,其中,图像差异损失确定单元进一步配置为,
根据第一图像和第二图像的欧式距离,确定图像差异损失。
18.根据权利要求12所述的装置,还包括,
预训练单元,配置为对所述替代模型进行预训练。
19.根据权利要求18所述的装置,其中,预训练单元进一步配置为,
获取第二数据,以及所述深度学习模型针对所述第二数据生成的第三图像;
将所述第二数据输入替代模型,获取第四图像;
以第四图像趋近第三图像为目标,更新所述替代模型。
20.根据权利要求12所述的装置,其中,梯度确定单元进一步配置为:
将所述第一数据输入所述替代模型,获取其生成图像;
根据该生成图像和第一图像,确定差异损失;
根据所述差异损失,基于所述替代模型确定第一梯度。
21.一种深度学习模型的隐私保护装置,其特征在于,所述装置包括:
获取单元,配置为获取有待处理的第三数据;
图像生成单元,配置为将所述第三数据输入所述深度学习模型,得到所述深度学习模型针对所述第三数据生成的第五图像;
隐私图像生成单元,配置为将第五图像输入隐私保护模型,生成第六图像;所述隐私保护模型通过权利要求1-9任一项的方法训练得到;
输出单元,配置为输出第六图像。
22.根据权利要求21所述的装置,其中,所述第六图像的图像格式为无损压缩格式。
23.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-11中任一项的所述的方法。
24.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-11中任一项所述的方法。
CN202011435672.7A 2020-12-10 2020-12-10 一种训练隐私保护模型的方法、隐私保护方法及装置 Active CN112487479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011435672.7A CN112487479B (zh) 2020-12-10 2020-12-10 一种训练隐私保护模型的方法、隐私保护方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011435672.7A CN112487479B (zh) 2020-12-10 2020-12-10 一种训练隐私保护模型的方法、隐私保护方法及装置

Publications (2)

Publication Number Publication Date
CN112487479A CN112487479A (zh) 2021-03-12
CN112487479B true CN112487479B (zh) 2023-10-13

Family

ID=74940917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011435672.7A Active CN112487479B (zh) 2020-12-10 2020-12-10 一种训练隐私保护模型的方法、隐私保护方法及装置

Country Status (1)

Country Link
CN (1) CN112487479B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611131B (zh) * 2022-05-10 2023-05-30 支付宝(杭州)信息技术有限公司 保护隐私的确定共有数据的方法、装置和系统
CN115238827B (zh) * 2022-09-16 2022-11-25 支付宝(杭州)信息技术有限公司 保护隐私的样本检测系统训练方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784312A (zh) * 2016-08-24 2018-03-09 腾讯征信有限公司 机器学习模型训练方法及装置
CN109784424A (zh) * 2019-03-26 2019-05-21 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置
CN110245598A (zh) * 2019-06-06 2019-09-17 北京瑞莱智慧科技有限公司 对抗样本生成方法、装置、介质和计算设备
CN110443063A (zh) * 2019-06-26 2019-11-12 电子科技大学 自适性保护隐私的联邦深度学习的方法
CN111311472A (zh) * 2020-01-15 2020-06-19 中国科学技术大学 一种图像处理模型与图像处理算法的产权保护方法
CN111737743A (zh) * 2020-06-22 2020-10-02 安徽工业大学 一种深度学习差分隐私保护方法
CN111738441A (zh) * 2020-07-31 2020-10-02 支付宝(杭州)信息技术有限公司 兼顾预测精度和隐私保护的预测模型训练方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8065244B2 (en) * 2007-03-14 2011-11-22 Halliburton Energy Services, Inc. Neural-network based surrogate model construction methods and applications thereof
US11599774B2 (en) * 2019-03-29 2023-03-07 International Business Machines Corporation Training machine learning model
US11604965B2 (en) * 2019-05-16 2023-03-14 Salesforce.Com, Inc. Private deep learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784312A (zh) * 2016-08-24 2018-03-09 腾讯征信有限公司 机器学习模型训练方法及装置
CN109784424A (zh) * 2019-03-26 2019-05-21 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置
CN110245598A (zh) * 2019-06-06 2019-09-17 北京瑞莱智慧科技有限公司 对抗样本生成方法、装置、介质和计算设备
CN110443063A (zh) * 2019-06-26 2019-11-12 电子科技大学 自适性保护隐私的联邦深度学习的方法
CN111311472A (zh) * 2020-01-15 2020-06-19 中国科学技术大学 一种图像处理模型与图像处理算法的产权保护方法
CN111737743A (zh) * 2020-06-22 2020-10-02 安徽工业大学 一种深度学习差分隐私保护方法
CN111738441A (zh) * 2020-07-31 2020-10-02 支付宝(杭州)信息技术有限公司 兼顾预测精度和隐私保护的预测模型训练方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
privacy preserving deep computation model on cloud for big data feature learning.pdf;Qingchen Zhang;IEEE;第65卷(第5期);1351-1362 *
基于DCGAN反馈的深度差分隐私保护方法;毛典辉;李子沁;蔡强;薛子育;;北京工业大学学报(06);75-82 *
差分隐私GAN梯度裁剪阈值的自适应选取方法;郭鹏;钟尚平;陈开志;程航;;网络与信息安全学报(05);14-24 *
机器学习隐私保护研究综述;谭作文等;《软件学报》;第31卷(第7期);2127-2156 *

Also Published As

Publication number Publication date
CN112487479A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN112487479B (zh) 一种训练隐私保护模型的方法、隐私保护方法及装置
WO2020097182A1 (en) Privacy-preserving visual recognition via adversarial learning
CN113076557A (zh) 一种基于对抗攻击的多媒体隐私保护方法、装置及设备
CN110705353A (zh) 基于注意力机制的遮挡人脸的识别方法和装置
CN105761223A (zh) 一种基于图像低秩性的迭代降噪方法
WO2023245927A1 (zh) 图像生成器的训练方法、装置、电子设备和可读存储介质
Chacko et al. Deep learning‐based robust medical image watermarking exploiting DCT and Harris hawks optimization
CN112329009A (zh) 一种针对联合学习中噪声攻击的防御方法
WO2022241307A1 (en) Image steganography utilizing adversarial perturbations
CN115984979A (zh) 一种面向未知对抗攻击的人脸伪造识别方法及装置
CN113763268B (zh) 人脸图像盲修复方法及系统
CN113221388B (zh) 一种视觉感知扰动约束的黑盒深度模型对抗样本生成方法
Zhang et al. Preserving data privacy in federated learning through large gradient pruning
CN110889797A (zh) 基于对抗样本生成的深度自适应图像隐藏方法
CN115879119B (zh) 针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法及装置
Xu et al. FLPM: A property modification scheme for data protection in federated learning
CN115719085B (zh) 一种深度神经网络模型反演攻击防御方法及设备
CN107977628B (zh) 神经网络训练方法、人脸检测方法及人脸检测装置
CN114419691B (zh) 人脸衰老图像的生成方法、模型训练方法、设备和介质
CN116258867A (zh) 一种基于关键区域低感知性扰动的对抗样本生成方法
CN112561076B (zh) 模型处理方法和装置
CN113537291B (zh) 图像频域对抗样本生成方法及系统
CN113569897B (zh) 一种基于固定像素点获取低频信息的对抗样本防御方法
CN114722407B (zh) 基于内生式对抗样本的图像保护方法
Ma et al. Image speckle denoising for securing internet of smart sensors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40046894

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant