CN117390688B - 一种基于监督训练的模型反演方法 - Google Patents
一种基于监督训练的模型反演方法 Download PDFInfo
- Publication number
- CN117390688B CN117390688B CN202311694951.9A CN202311694951A CN117390688B CN 117390688 B CN117390688 B CN 117390688B CN 202311694951 A CN202311694951 A CN 202311694951A CN 117390688 B CN117390688 B CN 117390688B
- Authority
- CN
- China
- Prior art keywords
- model
- inversion
- sample
- target
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012549 training Methods 0.000 title claims abstract description 52
- 238000005457 optimization Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 30
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 abstract description 2
- 208000037516 chromosome inversion disease Diseases 0.000 description 138
- 230000008569 process Effects 0.000 description 17
- 238000004821 distillation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 241000269350 Anura Species 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000282994 Cervidae Species 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computer Security & Cryptography (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Image Analysis (AREA)
Abstract
本发明属于数据隐私保护和数据安全的技术领域,更具体地,涉及一种基于监督训练的模型反演攻击方法。所述方法包括:步骤S1、给定辅助数据集和目标模型,所述辅助数据集中的样本具有类别标签;步骤S2、利用所述辅助数据集和目标模型训练cGAN模型作为反演模型,所述cGAN模型包括用于生成第一反演样本的生成模型,以及用于判别所述第一反演样本真实性的判别模型;步骤S3、基于训练好的cGAN模型生成第二反演样本,并结合目标模型的输出,优化所述第二反演样本。本发明解决了现有的模型反演攻击中过于依赖先验目标信息而忽略类信息在模型反演攻击中的作用的问题。
Description
技术领域
本发明属于数据隐私保护和数据安全的技术领域,更具体地,涉及一种基于监督训练的模型反演方法。
背景技术
目前,深度学习已经在日常生活中得到广泛应用,如人脸识别,自动驾驶等。在与日常生活深度融合的同时,也需要重视其中的安全问题。模型反演作为该领域最具威胁的推理深度学习模型训练数据的方法,得到国内外众多研究人员的广泛研究。模型反演的目标是重构给定受害模型的训练样本。
当前,最新的反演流程可以总结成三个步骤。首先,攻击者从公共资源中获取信息;其次,攻击者会训练一个反演模型作为攻击手段,反演模型可以学到一般背景知识模型;最后,攻击者利用反演模型和一些先前收集到的信息执行优化任务,重构目标样本。
辅助信息对于一些以训练为基础的反演模型的有效性来说是至关重要的。辅助信息由两部分组成,一部分是具有与将要训练的受害模型数据集相同分布的数据样本。例如,当反演一个交通工具分类器时,可以搜集来自公共资源中的飞机图像。此外,在真实的场景中,如果目标类是轮船,辅助数据集不应该包含任何轮船的样本。另一部分就是,先前的目标信息,即目标样本在反演前的真实样本。以往的文献中,攻击者会事先得到目标信息,如目标类别的模糊或损坏的图像或者目标图像的预测向量。它提供了关于目标样本的直接信息,通常用于指导模型实现其攻击目标。在以往的大多数研究中,先前的目标信息对重构图像的质量至关重要,但是由于在实际场景中很难收集到先前的目标信息,使得该假设过于强烈。
此外,先前的研究大多忽视了类信息在模型反演中的作用。造成该现象的原因有两方面。一方面,先前大多数反演模型是在无监督模式下训练的,这会导致反演模型忽略数据到类的关系映射。因此,这类方法需要反演目标信息协助重建反演样本。另一方面,在反演优化阶段,类信息也会被忽视。先前的攻击优先考虑将类信息作为优化目标而不是利用类信息协助重建反演样本。
例如,中国专利文献CN115510440A提供一种基于NES算法的黑盒模型反演攻击方法及系统,其利用NES算法对目标模型进行黑盒梯度估计,并利用梯度下降方法对GAN模型的生成数据进行白盒优化,有效提高重构数据的准确性;但该方法并未考虑到类信息在反演中的作用。
以及,中国专利文献CN114726634A提供一种基于知识图谱的黑客攻击场景构建方法和设备,通过对告警信息进行预处理,得到多维矩阵关联模型,再将多维矩阵关联模型中的一类逻辑链条映射到知识图谱结构中,对多维矩阵关联模型中的二类逻辑链条和三类逻辑链条进行补充,将补充后形成的一类逻辑链条映射到知识图谱结构中,构建知识图谱。以此方式,可以对知识图谱的完整性进行改良完善,更好的推理出黑客攻击场景,对攻击场景的补全和逻辑分析拥有较好的效果。
模型反演的目标是从被攻击模型(目标模型)中推断出其训练数据的隐私信息。现有的模型反演主要依赖于无监督生成模型,通过从目标模型和公共资源中收集的辅助信息来训练反演模型,并通过优化过程生成反演样本。然而,无监督生成模型主要学习像素级特征,而不是高级的数据到类别的关系。这导致了反演模型的训练空间非常大,使得在没有先验目标信息的情况下,很难找到最优解。因此现有的方法通常需要提供先验目标信息,如模糊或者损坏的目标样本,以帮助生成更好的反演样本。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷,提供一种基于监督训练的模型反演方法,以解决现有的模型反演中过于依赖先验目标信息而忽略类信息在模型反演中的作用的技术问题。
本发明详细的技术方案如下:
一种基于监督训练的模型反演方法,所述方法包括:
步骤S1、给定辅助数据集和目标模型,所述辅助数据集中的图像样本具有类别标签;
步骤S2、利用所述辅助数据集和目标模型训练cGAN模型作为反演模型,所述cGAN模型包括用于生成第一反演样本的生成模型,以及用于判别所述第一反演样本真实性的判别模型;
步骤S3、基于训练好的cGAN模型生成第二反演样本,并结合目标模型的输出,优化所述第二反演样本,以得到重构的图像。
根据本发明优选的,所述目标模型为卷积神经网络模型,其包括四个卷积层、两个最大池化层和三个全连接层。
根据本发明优选的,所述步骤S2中,所述cGAN模型的训练目标函数为:
(1);
式(1)中:表示cGAN模型的目标函数;/>表示对于给定的辅助数据集中的图像样本/>通过判别模型D对其进行分类的对数概率,/>表示目标模型对图像样本/>的输出,即生成模型G生成的样本/>的特征表示;/>用于衡量生成模型G生成的样本/>被判别模型D判别为非目标类别的概率,/>表示在给定条件输入/>和噪声/>的情况下,生成模型G生成的样本,/>表示判别模型D对生成模型G生成的样本/>进行判别,输出属于目标类别的概率,/>表示生成模型G生成的样本/>被判别为非目标类别的概率的对数。
根据本发明优选的,所述步骤S2进一步包括:
步骤S21、随机初始化类别信息作为条件输入,并将所述条件输入/>与随机产生的高斯噪声/>一同输入到所述cGAN模型的生成模型G中,得到第一反演样本/>;
步骤S22、将所述第一反演样本和辅助数据集中的图像样本一同输入到目标模型中,得到目标模型输出;
步骤S23、将所述目标模型输出、第一反演样本以及辅助数据集中的图像样本一同输入到所述cGAN模型的判别模型D中,得到判别结果,该判别结果用于区分辅助数据集中的样本与生成的第一反演样本/>的分布;
步骤S24、基于目标函数迭代优化所述cGAN模型的生成模型G和判别模型D的损失函数,并基于所述判别模型D的判别结果判断所述生成模型G和判别模型D是否达到收敛,即判别模型D无法判断出生成模型G产生的第一反演样本的真实性时,则停止模型训练。
根据本发明优选的,所述步骤S3进一步包括:
最小化训练好的生成模型生成的第二反演样本与目标类别之间的损失函数,以选择输入噪声/>,即:/>;其中,/>表示训练好的cGAN模型,/>表示训练好的cGAN模型的生成模型,/>表示目标类别,/>表示损失函数,用于衡量训练好的生成模型/>生成的反演样本与目标类别之间的差距,即生成的反演样本与目标类别之间的相似度。
根据本发明优选的,所述步骤S3进一步还包括:
最大化训练好的生成模型生成的第二反演样本被判别为目标类别的概率,以选择目标条件输入/>,即:/>;其中,
=/>(2);
式(2)中,表示训练好的生成模型生成的第二反演样本/>被判别为目标类别的概率,/>表示目标模型的输出,/>表示固定条件输入/>和随机高斯噪声/>生成的样本,且/>,/>是一个常量,其表示每次迭代所设置的预定样本数量,为目标样本集。
根据本发明优选的,所述步骤S3进一步还包括:
步骤S31、使用表示优化迭代次数,并在每次迭代中,评估随机生成的更新量/>;
步骤S32、设置更新量,其中,/>表示在每次优化迭代中调整目标条件输入/>的量,且在随机噪声下生成/>个样本,用于计算预测概率/>;
步骤S33、若在多轮迭代中,预测概率达到预先设置的阈值,则停止迭代,得到目标条件输入;
步骤S34、将得到的目标条件输入输入到训练好的cGAN模型的生成模型中,得到优化的第二反演样本/>。
与现有技术相比,本发明的有益效果为:
(1)本发明提供的一种基于监督训练的模型反演方法,通过cGAN架构将类信息嵌入到模型反演的整个过程中,并引入了标签信息来辅助模型反演的重构过程,控制生成样本的类别,使得反演模型能够更好地学习到数据到类别的关系,从而在没有任何先验目标信息的情况下生成更好的反演样本;
(2)本发明该在模型训练阶段,使用目标模型的输出和辅助数据集对反演模型进行训练,从而使反演模型学习到数据到类别的知识;在样本优化阶段,通过迭代优化条件输入,以得到一个合适的目标条件输入,来提高训练后的反演模型生成属于目标类别反演样本的成功率,从而得到更高质量的反演样本。
附图说明
图1是本发明所述基于监督训练的模型反演方法的流程图。
图2是本发明实施例1中cGAN模型的训练流程图。
图3是本发明实施例1中利用本方法重建不同类别图像的效果图。
具体实施方式
下面结合附图与实施例对本公开做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
模型反演是最具威胁的推理深度学习模型训练数据的方法,模型反演的任务可以分为两类。第一类是重建训练集中的特定数据点。这类反演样本的标准非常简单,即重建样本与目标样本越相似越好。第二类是将标签和样本关联起来。对手试图根据目标标签重建样本。这种反演的生成样本的质量很难量化评估,仍然主要由人类视觉决定。
在实际应用中,模型反演方法可以被用作无数据知识蒸馏中的数据增强模块。无数据知识蒸馏的目标是在不获取教师模型训练数据集的情况下,从教师模型中训练出一个小型学生模型。在这个过程中,模型反演被用来生成与训练数据集相关的样本。模型反演与无数据知识蒸馏有两个主要区别。第一个区别就是目标。无数据知识蒸馏方法更加注重恢复训练数据集的整体分布,而不是单个数据样本。因此,重建的样本在视觉上是否可信并不重要。当前无数据知识蒸馏方法重建的样本不如模型反演重建的样本那样逼真。第二个区别在于设置。大多数无数据知识蒸馏方法在整个过程中都假设了白盒设置,而在模型反演中,对目标模型的访问是有限的。
本发明旨在解决模型反演中的技术问题,针对现有的模型反演中过于依赖先验目标信息而忽略类信息在模型反演中的作用这一问题,提出一种基于监督训练的模型反演方法,通过cGAN架构将类信息嵌入到模型反演的整个过程中,并引入了标签信息来辅助模型反演的重构过程。具体而言,本发明提出了一种新的方法,该方法包括反演模型训练和反演样本优化,在模型训练阶段,使用目标模型的输出和辅助数据集对反演模型进行训练,从而使反演模型学习到数据到类别的知识;在样本优化阶段,通过优化过程生成高质量的反演样本。本发明证明了类信息在模型反演中提供了积极的作用。
与现有的方法相比,本发明的创新点在于引入了标签信息,并通过条件生成对抗网络(cGAN)来控制生成样本的类别,这使得反演模型能够更好地学习到数据到类别的关系,从而在没有任何先验目标信息的情况下生成更好的反演样本。
以下结合具体实施例对本发明的基于监督训练的模型反演方法作详细说明。
实施例1、
参图1,本实施例提供一种基于监督训练的模型反演方法,所述方法包括反演模型训练和反演样本优化。
其中,所述反演模型训练包括:
步骤S1、给定辅助数据集和目标模型,所述辅助数据集中的样本具有类别标签。
在本实施例中,所给定的辅助数据集中的样本数据作为真实样本使用,该样本数据的类别标签信息不包含目标类信息,即辅助数据集中类别的标签并非属于先验目标信息,它并不能像模糊目标样本那样提供直接的目标信息。
目标模型为被攻击模型,且该目标模型在整个模型反演的过程中均未发生变化。优选该目标模型采用CNN(卷积神经网络)模型,其由四个卷积层、两个最大池化层和三个全连接层组成。
步骤S2、利用所述辅助数据集和目标模型训练cGAN模型作为反演模型,所述cGAN模型包括用于生成第一反演样本的生成模型,以及用于判别所述第一反演样本真实性的判别模型。
具体地,本实施例中优选标准的cGAN模型作为反演模型,cGAN(ConditionalGenerative Adversarial Network,简称cGAN)模型为条件生成对抗网络模型。
该cGAN模型包括用于生成虚假样本的生成模型G和用于判别反演模型性能优劣的判别模型D,其思想是网络在输入噪声数据的同时,给定某些条件输入,以使生成模型G生成指定数据,然后再将生成的数据与真实数据一同输入到判别模型D中进行判别,只有当生成模型G生成的数据足够真实且与输入的条件相符,才能够通过判别模型D。并且,当判别模型D判定是真实数据的时候,还需要判定出数据类别,一般使用one-hot标签来表示。
该cGAN模型将无监督学习转为有监督学习,使得网络可以更好地在掌控下进行学习。
以往的反演模型可以定义为,其是在无监督的方式下进行训练,其中,/>表示生成的样本,/>表示反向生成器,/>是从辅助数据集中学习到的表示。对手通过寻找最优/>生成反演样本。然而,这种无监督的架构会导致搜索空间较大。
因此,之前的大多数工作就是假设知道一些关于目标样本的先验目标信息,以便于在反演模型训练期间缩小搜过空间,并在反演优化期间将其设定为优化目标。一般而言,是目标样本的投影(如模糊的或者有残缺的样本)。这种额外的辅助信息可以大大缩小潜在的目标样本的范围。训练目标就是找到一个能使预期损失/>最小化的函数/>。
在本实施例中,试图在没有任何先验目标信息的情况下,从受害者模型(即目标模型)中反演目标样本。如前文所述,辅助数据集中其他类别的标签并非属于先验目标信息,它并不能像模糊目标样本那样提供直接的目标信息。比如,假设目标模型可能以90%和10%的概率预测数字样本为“7”或“1”,这表明数字“7”和“1”是相似的。而在反演模型的训练阶段,这些差异可以帮助反演模型从其他类别的样本中学习到目标样本的相关知识。
基于此,本实施例中的目标信息可以表示为:,其中,/>表示目标样本的投影,/>表示来自辅助数据集的真实样本,/>表示目标模型,/>表示目标类;/>即是目标模型对真实样本/>的输出。应当理解,该目标信息是用于计算目标类别样本在所有生成样本中的比例,即/>。
进一步地,在进行模型训练之前,首先给出模型训练目标函数。传统的cGAN目标函数为:。而在本实施例中,利用辅助数据集和目标模型来训练cGAN模型的目的是可以使cGAN模型的生成模型G和判别模型D能够掌握目标模型的一般背景知识,因此,将函数中的/>替换为/>,即是为了让目标模型学习到的知识根据/>的指导,能够将该知识转移到生成模型G生成的样本/>中。
基于此,本实施例中可以根据如下目标函数完成模型训练:
(1);
式(1)中:表示cGAN模型的目标函数,用于训练生成模型G和判别模型D之间的竞争关系,且/>的数值表示生成模型G和判别模型D之间的竞争程度,当/>的数值较大时,表示生成模型G的性能较好,所生成的样本更逼真;当/>的数值较小时,表示判别模型D的性能较好,能够更准确地区分生成的样本和真实样本。
表示对于给定的辅助数据集中的真实样本/>,通过判别模型D对其进行分类的对数概率;该项参数的目的是衡量判别模型D对于真实样本/>的分类准确性;其中,/>表示目标模型对真实样本/>的输出,即为生成模型G生成的样本/>的特征表示,并且,在/>的指导下,目标模型学到的相关知识可以转移到生成模型中。
用于衡量生成模型G生成的样本/>被判别模型D判别为非目标类别的概率,即表示在给定条件输入/>的情况下,生成模型G生成的样本/>被判别模型D判别为非目标类别的概率;其中,/>表示在给定条件输入/>和噪声/>的情况下,生成模型G生成的样本,/>表示判别模型D对生成模型G生成的样本/>进行判别,输出属于目标类别的概率;/>表示生成模型G生成的样本/>被判别为非目标类别的概率的对数。
并且,通过最大化,可以使生成模型G生成的样本/>更有可能被判别模型D判别为非目标类别,从而提高生成样本的逼真度和多样性,即该项参数的目的就是通过优化目标函数,找到一个合适的条件输入/>,使得生成模型G生成的样本更难以被判别模型D判别为目标类别。
应当理解,该目标函数用于优化模型反演过程中的条件输入,以增加生成属于目标类别的反演样本的成功率。
参图2,本实施例中,所述步骤S2具体包括:
步骤S21、随机初始化类别信息作为条件输入,并将所述条件输入/>与随机产生的高斯噪声/>一同输入到所述cGAN模型的生成模型G中,得到第一反演样本/>;
步骤S22、将所述第一反演样本和辅助数据集中的真实样本一同输入到目标模型中,得到目标模型输出;
步骤S23、将所述目标模型输出、第一反演样本以及辅助数据集中的真实样本一同输入到所述cGAN模型的判别模型D中,得到判别结果,该判别结果用于区分辅助数据集中的真实样本与生成的第一反演样本/>的分布;
步骤S24、基于目标函数迭代优化所述cGAN模型的生成模型G和判别模型D的损失函数,并基于所述判别模型D的判别结果判断所述生成模型G和判别模型D是否达到收敛,即判别模型D无法判断出生成模型G产生的第一反演样本的真实性时,则停止模型训练。
参考公式(1)中给出的模型训练的目标函数,cGAN训练的过程可以描述为求解一个二元函数极小极大值的过程,通过优化对抗损失可以同时达到两个目的,一个目的是让生成模型G能够生成真实的样本,另一目的就是让判别模型D能更好地区分开真实样本和生成样本。
如此,通过使用目标模型的输出和辅助数据集对cGAN模型进行训练,从而使cGAN模型学习到数据到类别的知识。
上述为反演模型训练过程,以下对反演样本优化过程作详细说明。
所述反演样本优化包括:
步骤S3、基于训练好的cGAN模型生成第二反演样本,并结合目标模型的输出,优化所述第二反演样本。
本实施例中,训练好的cGAN模型包括生成模型G'和判别模型D',生成模型G'生成第二反演样本,第二反演样本/>即为要优化的对象,最终得到高质量的反演样本。
在反演样本优化阶段,本实施例的方法与先前的工作主要区别在于优化策略。先前的优化策略是从单个特征向量Z寻找最优化的点,而本实施例的优化策略是通过条件输入逐步缩小搜索空间,然后通过表示向量分批生成符合要求的样本。
具体地,本实施例中优选通过最小化生成模型G'生成的第二反演样本与目标类别/>之间的损失函数来选择输入噪声/>,同时通过最大化生成模型G'生成的第二反演样本/>被判别为目标类别的概率来选择目标条件输入/>。
应当理解,生成模型G'的目标是通过输入噪声生成与目标类别相关的样本。在模型反演中,通过调整噪声,生成模型G'可以生成更接近目标类别的样本,从而提高成功率。为了选择合适的输入噪声,需要最小化生成模型G'生成的样本与目标类别的损失函数,这样就可以引导优化过程朝着生成更符合目标类别的反演样本的方向进行。同时,为了提高生成的反演样本属于目标类别的成功率,通过最大化该概率,可以找到一个更合适的条件输入,使得生成的样本更有可能被判别为目标类别。
基于此,在反演样本优化这一阶段中,定义选择输入噪声的目标函数为:,其中,/>表示反演模型(即训练好的cGAN模型),/>表示训练好的cGAN模型的生成模型,/>表示目标类别,/>表示损失函数,用于衡量训练好的生成模型/>生成的反演样本与目标类别之间的差距,即生成的反演样本与目标类别之间的相似度;定义选择目标条件输入/>的目标函数为:/>。
其中,表示固定条件输入/>和随机高斯噪声/>生成的样本类别在所有生成样本中所占的比例,且有:
=/>(2);
式(2)中:表示目标模型的输出,/>表示固定条件输入/>和随机高斯噪声/>生成的样本,且/>,/>是一个常量,表示每次迭代所设置的预定样本数量,/>为目标样本集。
应当理解,在条件输入设置的当时,添加随机噪声/>后生成的样本更有可能被识别为目标类别,因此,通过固定条件输入/>和随机高斯噪声/>生成的样本类别在所有生成样本中所占的比例来设计选择条件输入的目标函数,其目的就是找到一个合适的目标条件输入/>,来提高生成属于目标类别反演样本的成功率。
进一步地,本实施例中,基于条件输入的目标函数,对条件输入/>进行迭代优化,以得到目标条件输入/>,然后结合目标条件输入/>来优化训练好的生成模型G'所生成的第二反演样本/>,最终得到优化的高质量反演样本。
所述步骤S3中的具体优化过程如下:
步骤S31、使用表示优化迭代次数,并在每次迭代中,评估随机生成的更新量为/>;
步骤S32、设置更新量,其中,/>表示在每次优化迭代中调整目标条件输入/>的量,且在随机噪声下生成/>个样本,用于计算预测概率/>;
步骤S33、若在多轮迭代中,预测概率达到预先设置的阈值,则停止迭代,得到目标条件输入;
步骤S34、将得到的目标条件输入输入到训练好的cGAN模型的生成模型中,最终得到优化的第二反演样本/>。
其中,步骤S2中的这些更新量的取值范围是[0,0.1],即/>,用于逐步调整目标条件输入/>以增加生成目标类别的成功率。这些更新量是通过优化算法计算得出来的。具体来说,优化算法会根据目标函数和约束条件,通过迭代的方法调整目标条件输入/>,使得目标函数的值逐步减小或达到最小值。在每次迭代中,根据当前的条件输入和目标函数的梯度信息,计算出更新量,然后再将其应用于条件输入,得到新的条件输入。整个过程会不断重复,直到达到停止条件或收敛到最优解为止。
如此,在样本优化阶段,通过迭代优化条件输入,以得到一个合适的目标条件输入,来提高训练后的反演模型生成属于目标类别反演样本的成功率,从而得到更高质量的反演样本。
本实施例中各步骤对应的伪代码如下:
进一步地,为了验证本发明的模型反演方法的性能,在MNIST和CIFAR-10数据集中对本发明方法进行了评估。其中,MNIST数据集是NIST(National Institute of Standardsand Technology,美国国家标准与技术研究所)数据集的一个子集,MNIST数据集可在http://yann.lecun.com/exdb/mnist/获取;CIFAR-10数据集是由Hinton的学生AlexKrizhevsky和Ilya Sutskever整理的一个用于识别普适物体的小型数据集,一共包含10个类别的RGB彩色图片:飞机、汽车、鸟类、猫、鹿、狗、蛙类、马、船和卡车等。
相同的是这些数据集中均有10个类别。与先前的工作中使用人脸数据集相比,上述这两个数据集中不同类别的特征更具有可识别性和独特性,可将目标类别以外的样本作为辅助数据集。
从目标模型中的每个类别随机选取50个样本,再利用K-均值法计算出每个类别的50个聚类中心点样本。这样,每个类别就有100个真实样本用于定量评估。每个反演样本将与来自同一类别的100个真实样本进行比较。
将本发明方法与两种最先进的神经网络反演(NNI)和生成模型反演(GMI)两种模型反演方法进行比较,并使用SSIM(结构相似性)作为测量方法,与真实样本比较的SSIM值称为SSIM-r,与中心样本比较的SSIM值称为SSIM-c。这些SSIM值越高,表明反演样本的质量越好。除此之外,本发明方法中使用K近邻距离(KNN Dist)评估反演样本。在训练数据中找出与反演样本最接近的样本,用L2距离去衡量,KNN Dist越小,表明反演样本的质量越好。实验比较结果如下表1所示。
表1 实验比较结果:
从表1中可以看出,本发明方法所构建的反演样本质量均高于先前的反演方法构建的样本质量。
进一步地,如图3所示,本发明方法可以成功地重建所有类别。在MNIST数据集中,本发明方法重建的图像更清晰、更逼真,不同数字的特征也更加明显。例如,用本发明方法重建的数字比用NNI重建的样本在视觉上更清晰;本发明方法重建的数字“4”比GMI重建的样本特征更加明显。
在更加复杂的CIFAR-10数据集中也观察到了类似的结果。例如,本发明方法重建的样本比NNI重建的样本更加清晰,比GMI重建的样本更加接近真实样本的形状和颜色。通过观察可以发现,NNI重建的样本是细节丢失最多、最模糊的样本。这一特点在SSIM-c计算中带来了一些优势,因为中心点样本的风格相似。实验度量标准只能显示反演样本与真实样本之间的距离,而无法衡量反演样本的质量。
因此,NNI在这些指标上的良好表现并不意味着其性能更好。在CIFAR-10中对复杂的目标样本进行反演时,NNI的性能明显下降。从重建后的图像可以看得出来,NNI难以还原目标样本的有效信息。因此,考虑到视觉感知和反演样本的度量值,可以认为本发明方法的反演效果最出色。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (4)
1.一种基于监督训练的模型反演方法,其特征在于,所述方法包括:
S1:给定辅助数据集和目标模型,所述辅助数据集中的图像样本具有类别标签;
S2:利用所述辅助数据集和目标模型训练cGAN模型作为反演模型,所述cGAN模型包括用于生成第一反演样本的生成模型,以及用于判别所述第一反演样本真实性的判别模型;
其中,所述cGAN模型的训练目标函数为:
(1);
式(1)中:表示cGAN模型的目标函数;/>表示对于给定的辅助数据集中的图像样本/>通过判别模型D对其进行分类的对数概率,/>表示目标模型对图像样本/>的输出,即生成模型G生成的样本/>的特征表示;用于衡量生成模型G生成的样本/>被判别模型D判别为非目标类别的概率,/>表示在给定条件输入/>和噪声/>的情况下,生成模型G生成的样本,表示判别模型D对生成模型G生成的样本/>进行判别,输出属于目标类别的概率,/>表示生成模型G生成的样本/>被判别为非目标类别的概率的对数;
且,所述步骤S2进一步包括:
步骤S21、随机初始化类别信息作为条件输入,并将所述条件输入/>与随机产生的高斯噪声/>一同输入到所述cGAN模型的生成模型G中,得到第一反演样本/>;
步骤S22、将所述第一反演样本和辅助数据集中的图像样本一同输入到目标模型中,得到目标模型输出;
步骤S23、将所述目标模型输出、第一反演样本以及辅助数据集中的图像样本一同输入到所述cGAN模型的判别模型D中,得到判别结果,该判别结果用于区分辅助数据集中的样本与生成的第一反演样本/>的分布;
步骤S24、基于目标函数迭代优化所述cGAN模型的生成模型G和判别模型D的损失函数,并基于所述判别模型D的判别结果判断所述生成模型G和判别模型D是否达到收敛,即判别模型D无法判断出生成模型G产生的第一反演样本的真实性时,则停止模型训练;
S3:基于训练好的cGAN模型生成第二反演样本,并结合目标模型的输出,优化所述第二反演样本,以得到重构的图像;
其中,所述优化第二反演样本,以得到重构的图像,包括:
S31:使用表示优化迭代次数,并在每次迭代中,评估随机生成的更新量/>;
S32:设置更新量,其中,/>表示在每次优化迭代中调整目标条件输入/>的量,且在随机噪声下生成/>个样本,用于计算预测概率/>;
S33:若在多轮迭代中,预测概率达到预先设置的阈值,则停止迭代,得到目标条件输入;
S34:将得到的目标条件输入输入到训练好的cGAN模型的生成模型中,得到优化的第二反演样本/>,即得到重构的图像。
2.根据权利要求1所述的一种基于监督训练的模型反演方法,其特征在于,所述目标模型为卷积神经网络模型,其包括四个卷积层、两个最大池化层和三个全连接层。
3.根据权利要求1所述的一种基于监督训练的模型反演方法,其特征在于,所述步骤S3进一步包括:最小化训练好的生成模型生成的第二反演样本与目标类别之间的损失函数,以选择输入噪声/>,即:/>,其中,/>表示训练好的cGAN模型,表示训练好的cGAN模型的生成模型,t表示目标类别,/>表示损失函数,用于衡量训练好的生成模型/>生成的反演样本与目标类别之间的差距,即生成的反演样本与目标类别之间的相似度。
4.根据权利要求3所述的一种基于监督训练的模型反演方法,其特征在于,所述步骤S3进一步还包括:最大化训练好的生成模型生成的第二反演样本被判别为目标类别的概率,以选择目标条件输入/>,即:/>;其中,
=/>(2);
式(2)中:表示训练好的生成模型生成的第二反演样本/>被判别为目标类别的概率,/>表示目标模型的输出,/>表示固定条件输入/>和随机高斯噪声/>生成的样本,且/>,/>是一个常量,其表示每次迭代所设置的预定样本数量,/>为目标样本集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311694951.9A CN117390688B (zh) | 2023-12-12 | 2023-12-12 | 一种基于监督训练的模型反演方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311694951.9A CN117390688B (zh) | 2023-12-12 | 2023-12-12 | 一种基于监督训练的模型反演方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117390688A CN117390688A (zh) | 2024-01-12 |
CN117390688B true CN117390688B (zh) | 2024-04-05 |
Family
ID=89435943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311694951.9A Active CN117390688B (zh) | 2023-12-12 | 2023-12-12 | 一种基于监督训练的模型反演方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117390688B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510440A (zh) * | 2022-09-21 | 2022-12-23 | 中国工程物理研究院计算机应用研究所 | 一种基于nes算法的黑盒模型反演攻击方法及系统 |
CN115719085A (zh) * | 2023-01-10 | 2023-02-28 | 武汉大学 | 一种深度神经网络模型反演攻击防御方法及设备 |
CN116938542A (zh) * | 2023-07-07 | 2023-10-24 | 南京航空航天大学 | 基于逆向工程与遗忘的深度学习后门攻击防御方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3792830A1 (en) * | 2019-09-10 | 2021-03-17 | Robert Bosch GmbH | Training a class-conditional generative adverserial network |
-
2023
- 2023-12-12 CN CN202311694951.9A patent/CN117390688B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510440A (zh) * | 2022-09-21 | 2022-12-23 | 中国工程物理研究院计算机应用研究所 | 一种基于nes算法的黑盒模型反演攻击方法及系统 |
CN115719085A (zh) * | 2023-01-10 | 2023-02-28 | 武汉大学 | 一种深度神经网络模型反演攻击防御方法及设备 |
CN116938542A (zh) * | 2023-07-07 | 2023-10-24 | 南京航空航天大学 | 基于逆向工程与遗忘的深度学习后门攻击防御方法 |
Non-Patent Citations (2)
Title |
---|
GAN-DP: Generative Adversarial Net Driven Differentially Privacy-Preserving Big Data Publishing;Longxiang Gao等;《IEEE》;20190715;全文 * |
面向机器学习的黑盒模型反演攻击研究;朱陶宇;《万方数据》;20230822;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117390688A (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DeVries et al. | Learning confidence for out-of-distribution detection in neural networks | |
CN111753985B (zh) | 基于神经元覆盖率的图像深度学习模型测试方法与装置 | |
CN108229267B (zh) | 对象属性检测、神经网络训练、区域检测方法和装置 | |
Springenberg et al. | Improving deep neural networks with probabilistic maxout units | |
CN111753881B (zh) | 一种基于概念敏感性量化识别对抗攻击的防御方法 | |
CN108399420B (zh) | 一种基于深度卷积网络的可见光舰船虚警剔除方法 | |
CN108230291B (zh) | 物体识别系统训练方法、物体识别方法、装置和电子设备 | |
CN113704758A (zh) | 一种黑盒攻击对抗样本生成方法及系统 | |
KR20210151773A (ko) | 대상 재인식 방법 및 장치, 단말 및 저장 매체 | |
CN111639695A (zh) | 一种基于改进果蝇优化算法对数据进行分类的方法及系统 | |
CN116977633A (zh) | 地物要素分割模型训练方法、地物要素分割方法及装置 | |
Wang et al. | Out-of-distributed semantic pruning for robust semi-supervised learning | |
CN113240080A (zh) | 基于先验类别增强的对抗训练方法 | |
CN117390688B (zh) | 一种基于监督训练的模型反演方法 | |
Ma et al. | Rethinking safe semi-supervised learning: Transferring the open-set problem to a close-set one | |
CN116051924B (zh) | 一种图像对抗样本的分治防御方法 | |
CN116977725A (zh) | 一种基于改进卷积神经网络的异常行为识别方法及装置 | |
CN116232699A (zh) | 细粒度网络入侵检测模型的训练方法和网络入侵检测方法 | |
CN115861804A (zh) | 基于最优特征归因选择的sar图像对抗样本检测系统与方法 | |
Perez et al. | Face Patches Designed through Neuroevolution for Face Recognition with Large Pose Variation | |
Liu et al. | Class incremental learning with self-supervised pre-training and prototype learning | |
CN113688950B (zh) | 用于图像分类的多目标特征选择方法、装置和存储介质 | |
CN116129198B (zh) | 一种多域轮胎花纹图像分类方法、系统、介质及设备 | |
CN118041689B (zh) | 一种网络恶意流量检测方法 | |
CN111080727B (zh) | 彩色图像重构方法及装置、图像分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |