CN110598400A

CN110598400A - 一种基于生成对抗网络的高隐藏中毒攻击的防御方法及应用

Info

Publication number: CN110598400A
Application number: CN201910808010.0A
Authority: CN
Inventors: 陈晋音; 朱伟鹏; 苏蒙蒙; 郑海斌
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2019-12-20
Anticipated expiration: 2039-08-29
Also published as: CN110598400B

Abstract

本发明公开了一种基于生成对抗网络的高隐藏中毒攻击的防御方法，包括：构建生成器训练体系，包括生成器G、检测器D，检测器FCD；构建生成器G、检测器D、检测器FCD的损失函数Gloss，Dloss，Floss；利用损失函数Gloss和Dloss交替训练生成器G和检测器D；同时，利用损失函数Floss训练生成器G，获得训练好的生成器G；利用生成器G生成大量的对抗样本，将对抗样本结合待攻击样本，重新训练检测器FCD，获得训练好的检测器FCD，将攻击目标样本输入至训练好的检测器FCD，输出攻击目标样本的置信度；根据输出的置信度确定中毒攻击现象的严重性，采用不同防御措施。该防御方法能够防御中毒攻击。

Description

一种基于生成对抗网络的高隐藏中毒攻击的防御方法及应用

技术领域

本发明属于深度学习安全技术领域，具体涉及一种基于生成对抗网络的高隐藏中毒攻击的防御方法及应用。

背景技术

深度学习受神经科学启发而来，可以通过学习和计算大量数据的潜在联系，获得比一般算法更准确的分类结果，具有强大的特征学习能力和特征表达能力。而随着深度学习在视觉辨析、语音识别、金融欺诈检测、身份鉴定以及恶意软件检测等的各种领域的深入应用，深度学习的安全问题越来越受到人们的关注。

虽然深度学习在计算机视觉领域表现出很强大的分类能力，但是szegedy等人发现，深度模型很容易对某些不可见的细微的扰动出现错误的判断。这些细小的扰动不仅可以用于攻击识别阶段，导致模型分类错误，甚至对错误的分类结果表现出很高的置信度；而且在训练阶段试图毒害数据样本，以移动分类器对好、坏输入归类的学习边界，从而导致训练模型产生偏移，影响分类结果的正确性。中毒攻击的危害在于部分很难被去除的中毒数据导致系统模型偏移，而后造成后门，识别不正确等安全事故，例如：中毒数据导致错误权限，无法区分入侵用户，导致一系列的安全问题。

对于目前大部分已有的中毒攻击来说，攻击的实现通常是通过对虚假样本打上错误类标的方式，污染训练数据集，导致模型偏移。但是，目前大部分中毒攻击，对虚假样本的掩饰程度往往不高，只是简单地欺骗一些针对数据检测的模型结构，反而忽略了视觉上虚假样本和类标的差别，难以欺骗人脸。所以在数据集较为庞大，难以逐一人工检测的时候，已有的中毒攻击能够取得一定的攻击效益。但同样，对虚假样本的掩饰程度不高，可能会造成检测器无法收敛。因此，进一步保证中毒样本的高隐藏性，确保中毒样本足以欺骗视觉识别，是对防御中毒攻击提出更高的要求。

综上所述，如何对中毒攻击方法进一步优化，得到具有更高隐藏性的中毒样本，并针对相应高隐藏性的中毒攻击，确定相应防御方法，在提升图像训练阶段对污染数据的防御效果方面有着极其重要的理论与实践意义。

发明内容

为了提升图像训练阶段对污染数据的防御能力，本发明提出通过对基于生成对抗网络的高隐藏中毒攻击的重现，评估不同中毒样本对模型训练的危险性，并且采取相关的筛选划分方法，防御中毒攻击。

本发明解决其技术问题所采用的技术方案是：

一种基于生成对抗网络的高隐藏中毒攻击的防御方法，包括以下步骤：

构建生成器训练体系，该生成器训练体系包括生成对抗样本的生成器G、分辨对抗样本和待攻击样本的检测器D，以及分辨生成对抗样本和攻击目标样本的检测器FCD，生成器G和检测器D组成生成对抗网络，其中，生成器G的输入为待攻击样本、攻击目标样本以及扰动noise，输出为生成对抗样本；检测器D的输入为待攻击样本和生成对抗样本，其输出为待攻击样本和生成对抗样本的置信度；检测器FCD的输入为攻击目标样本和生成对抗样本，其输出为攻击目标样本和生成对抗样本的置信度；

构建损失函数，根据待攻击样本和生成对抗样本的差异、生成对抗样本与攻击目标样本的差异构建生成器G的损失函数Gloss，根据待攻击样本和生成对抗样本各自的交叉熵构建检测器D的损失函数Dloss，根据攻击目标样本和生成对抗样本的置信度构建检测器FCD的损失函数Floss；

利用损失函数Gloss和损失函数Dloss交替训练生成器G和检测器D，同时，利用损失函数Floss训练生成器G，训练结束后，获得训练好的生成器G；

利用生成器G生成大量的对抗样本，将对抗样本结合待攻击样本，重新训练检测器FCD，获得训练好的检测器FCD，将攻击目标样本输入至训练好的检测器FCD，输出攻击目标样本的置信度；

根据输出的置信度，观察中毒攻击效果，根据中毒攻击现象的严重性，采用不同防御措施。

本发明的技术构思为：基于生成对抗网络的高隐藏中毒攻击的防御方法。首先，采用基础的GAN结构和检测器FCD作为特征提取结构，进行预训练。然后，利用多方博弈，逐步提升所生成的对抗样本在视觉上与待攻击样本以及在特征层面上与攻击目标样本的相似度。接着，利用对抗样本观察中毒攻击效果。最后，根据中毒攻击效果，采用不同措施，在训练前筛选数据。

一种基于生成对抗网络的高隐藏中毒攻击的防御方法在人脸图像中毒攻击防御的应用，生成器G采用卷积神经网络，检测器D采用卷积神经网络，以及检测器FCD采用facenet网络，训练阶段，输入的数据为待攻击人脸图像、攻击目标人脸图像以及扰动noise，利用待攻击人脸图像和攻击目标人脸图像对生成器G、检测器D以及检测器FCD进行训练后，即获得能够生成大量对抗性人脸图像的生成器G；

然后利用将训练好的生成器G生成大量的对抗性人脸图像混入到待攻击人脸图像A中形成新数据集，利用数据集重新训练检测器FCD，训练好后，将攻击目标人脸图像输入至重新训练的检测器FCD，输出攻击目标人脸图像的置信度；

根据攻击目标人脸图像的置信度，观察中毒攻击效果，根据中毒攻击现象的严重性，采用不同防御措施。

本发明的有益效果主要表现在：

利用基础GAN结构产生中毒数据，极大地提高中毒数据的可拓展性，同时利用多方博弈，提高中毒数据的隐藏性。算法中采用双重限制的措施，在交替迭代训练中，分别控制对抗样本在视觉上与待攻击样本以及在特征层面上与攻击目标样本的相似度。并且通过中毒效果的划分，采用不同措施，在训练前筛选数据，可以有效针对地避免高隐藏性中毒数据带来的危害。本发明能够有效地应用于各种需要人脸识别，身份验证的场所，能够有效地防止，未注册用户冒用他人合法身份，企图入侵的行为；能够保护小区、办公、考试场地的出入安全，有效阻止一些企图盗用身份的入侵者。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于生成对抗网络的高隐藏中毒攻击的防御方法中获得攻击模型的流程图；

图2是实施例提供的基于生成对抗网络的高隐藏中毒攻击的防御方法中防御措施的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了实现对高隐藏中毒攻击进行防御，本实施例提供了一种基于生成对抗网络的高隐藏中毒攻击的防御方法，该防御方法包括两个阶段，分别为生成对抗样本阶段，应用防御阶段，下面针对每阶段进行说明。

对抗样本生成阶段

基于背景技术可知，能够对待攻击样本进行攻击的扰动往往都是很细微的，具有很高的隐藏性，不容易被察觉分辨，因为了有针对性地对这些扰动进行有效防御，必需要很清楚这些扰动的特性，为此，防御的首要阶段就是研究对抗样本。

对抗样本生成阶段的目的就是要获得各种各样的隐藏性及其高的对抗样本，具体过程包括：

构建由生成对抗样本的生成器G、分辨对抗样本和待攻击样本的检测器D组成的GAN。其中生成器G的输入为待攻击样本、扰动参数noise，以及攻击目标样本，其输出为生成的对抗样本。检测器的输入是生成的对样样本和待攻击的待攻击样本，输出为对输入的预测分类输出，其目的就是检测输入样本的类型；

构建的GAN的基础上，构建了一个检测器FCD，该检测器FCD的输入为生成的对抗样本和攻击目标样本，输出为对输入样本进行特征提取的样本特征。

在构建好以上模型后，联立GAN和检测器FCD，对GAN中的生成器G和检测器D进行对抗训练，具体过程为：

确定待攻击样本A、攻击目标样本B，明确攻击的目的是为了让攻击目标样本B能够以待攻击样本A的身份，在中毒后的识别系统中通过。这里为了方便说明，将待攻击样本A作为系统合法用户，称作合法者，而攻击目标样本B作为系统未注册的入侵用户，称作入侵者。

(a)将待攻击样本A、攻击目标样本B，以及参数noise输入生成器得到对抗样本A′，并通过公式(1)得到生成器G的损失函数Gloss：

Gloss＝0.95*||(A'-A)||₂+0.05*(||(B-A)||₂-||(B-A)||₂) (1)

其中，||·||₂表示对内容求二范数，生成器G的损失函数分为两个部分：第一部分0.95*||(A'-A)||₂是为了保证对抗样本A'与待攻击样本A的相似度尽可能的高，第二部分0.05*|||(B-A)||₂-||(B-A')||₂|是为了让对抗样本A'与攻击目标样本B的相似度尽可能地维持在正常水平下。总的来说，生成器G的损失函数是为了反应对抗样本A'与待攻击样本A在视觉上效果的相近与否。

(b)将对抗样本A'与待攻击样本A输入检测器D中，获得检测器D的输出y和y'，并计算检测器D的损失函数Dloss，计算公式为：

其中，y表示的是待攻击样本A获得的输出，y'表示的是对抗样本A'获得的输出。而Y与Y'表示的是对应输入下的期望输出值，检测器D的损失函数是为了提高检测器D分辨对抗样本的能力，间接地在博弈过程中提高生成器G的能力。

(c)利用生成器G的损失函数Gloss训练生成器G，训练指标是在迭代过程中不断寻找，产生更小的损失的对抗样本，使得对抗样本在与待攻击样本A的相似度越来越高的过程中，增加通过检测器D识别的概率，最后计算训练阶段始末的损失变化ΔGloss。

ΔGloss＝2*(Gloss₁+Gloss₂/Gloss₁-Gloss₂) (3)

其中，Gloss₁，Gloss₂分别表示训练始末生成器G的损失函数值。

(d)利用检测器D的损失函数Dloss训练检测器，训练指标是在迭代过程中不断提高检测器D区分对抗样本的能力，从而在博弈过程中提高生成器G的能力，最后计算训练阶段始末的损失变化ΔDloss。

ΔDloss＝2*(Dloss₁+Dloss₂/Dloss₁-Dloss₂) (4)

其中，Dloss₁、Dloss₂分别表示训练始末检测器D的损失函数值。

(e)将对抗样本A'与攻击目标样本B作为检测器FCD的输入，获得FCD反馈的输出C'和C，并计算检测器FCD的损失函数Floss，计算公式如下：

Floss＝||C'-C||₂ (5)

其中，C'和C分别表示对抗样本A'与攻击目标样本B通过检测器FCD获得的置信度输出。检测器FCD的损失函数反应了对抗样本A'与攻击目标样本B在特征方面的相似关系。

(f)利用检测器FCD的损失函数Floss训练生成器G，训练目的是在迭代过程中不断提高生成器G生成的对抗样本A'和攻击目标样本B的特征相似程度，以提高中毒攻击的效果，最后计算训练阶段始末的损失变化ΔFloss。

ΔFloss＝2*(Floss₁+Floss₂/Floss₁-Floss₂)(5)

其中，Floss₁，Floss₂分别表示训练始末检测器FCD的损失函数值。

在训练过程中，通过比较各个训练阶段损失变化，以调整每个阶段训练的迭代次数。根据损失函数变化的比例，因为可以知道越接近训练完美，损失函数的衰减是越小。所以当损失函数变化得越来越小时，在将损失函数的衰减大于预期值，将迭代次数乘以预设的放大倍数，反之除以放大倍数，以此调整迭代次数。但是如果当损失函数变大，或不变时，考虑这部分训练已经完成可以暂时跳过。

同时，交替迭代步骤(a)～(f)，利用多方博弈，不断提高生成器G点能力，在训练的同时，还要观察损失函数Gloss、Dloss以及Floss曲线，在生成器G生成的对抗样本达到较小损失，即损失函数Gloss最小时停止训练，提取训练好的生成器G，并对该训练好的生成器G进行测试训练。测试结束后，可以利用训练好的生成器G生成大量的对抗样本。

上述生成器G是在采用二重博弈思想的GAN的基础上，进一步添加第三方博弈——FCD反馈的特征差限制形成的训练体系下，训练得到的，该生成器G的目的是在保证所生成的对抗样本在具有一定欺骗视觉的能力后，逐步提升对抗样本所能造成的模型偏移效果，也就是提高中毒能力。

由于训练FCD的目的是为了限制待攻击样本A，攻击目标样本B的特征距离在一定范围，并以返回的置信度差值来判断待攻击样本A与攻击目标样本B特征距离。因此，预训练过程就是两个部分，第一是利用迭代训练GAN结构，达到生成一定对抗样本的能力；第二是在大量包含A，B的数据集中，利用FCD自身的三元组损失函数，训练所需要的FCD，达到能够较为准确区分A，B的能力。

应用防御阶段

在获得大量对抗样本以后即可以针对这些大量对抗样本进行有针对性防御，具体过程为：

将训练好的生成器G生成大量的对抗样本A′混入到原有待攻击样本数据集中形成新数据集，利用训数据集重新训练检测器FCD，训练好后，将攻击目标样本输入至重新训练的检测器FCD，输出攻击目标样本的置信度；

当攻击目标样本的类标未发生偏转，意味着攻击目标样本和待攻击样本的特征提取耦合度不大，即特征嵌入不协调，此时采用放大、缩小、旋转的方式对攻击目标样本进行处理，来突出特征提取层面的不协调，当攻击目标样本的类标发生偏转，且保持很高的置信度，则意味着攻击目标样本和待攻击样本提取耦合度很高，即特征嵌入协调，此时采用线性插值的方法对攻击目标样本进行屏蔽型防御。

以上生成器G可以采用卷积神经网络，检测器D采用卷积神经网络，以及检测器FCD采用facenet网络(卷积神经网络与Inception网络相连接)

上述基于生成对抗网络的高隐藏中毒攻击的防御方法可以应用到人脸图像的中毒攻击防御。在人脸图像的中毒攻击防御中，生成器G采用卷积神经网络，检测器D采用卷积神经网络，以及检测器FCD采用facenet网络(卷积神经网络与Inception网络相连接)。训练阶段，输入的数据为待攻击人脸图像A、攻击目标人脸图像B以及扰动noise，在按照上述对抗样本生成阶段的过程，利用待攻击人脸图像A、攻击目标人脸图像B对生成器G、检测器D以及检测器FCD进行训练后，即可以获得能够生成大量对抗性人脸图像的生成器G。

如图2所示，根据攻击目标人脸图像的置信度，观察中毒攻击效果，根据中毒攻击现象的严重性，采用不同防御措施。

因为，高隐藏中毒攻击的本质是将目标人脸的特征以类似不可见扰动的方法添加到待攻击人脸中。也就是说，由于扰动的存在，干扰了模型特征提取部分判断同时，蒙蔽人的视觉，当目标人脸图像的类标未发生偏转，意味着两张人脸的特征提取耦合度不大，即特征嵌入不协调，此时我们只需要简单的采用放大、缩小、旋转来突出这种特征提取层面的不协调，如果目标人脸图像的类标发生偏转，且保持很高的置信度，则意味着两张人脸的特征提取耦合度很高，即特征嵌入协调，此时我们可以采用线性插值的方法，进行屏蔽型防御。

上述基于生成对抗网络的高隐藏中毒攻击的防御方法，利用基础GAN结构产生中毒数据，极大地提高中毒数据的可拓展性，同时利用多方博弈，提高中毒数据的隐藏性。采用双重限制的措施，在交替迭代训练中，分别控制对抗样本在视觉上与待攻击样本A以及在特征层面上与攻击目标样本B的相似度。并且通过中毒效果的划分，采用不同措施，在训练前筛选数据，可以有效针对地避免高隐藏性中毒数据带来的危害。本发明能够有效地应用于各种需要人脸识别，身份验证的场所，能够有效地防止，未注册用户冒用他人合法身份，企图入侵的行为；能够保护小区、办公、考试场地的出入安全，有效阻止一些企图盗用身份的攻击目标样本。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的高隐藏中毒攻击的防御方法，包括以下步骤：

2.如权利要求1所述的基于生成对抗网络的高隐藏中毒攻击的防御方法，其特征在于，构建的损失函数Gloss为：

Gloss＝0.95*||(A'-A)||₂+0.05*(||(B-A)||₂-||(B-A)||₂)

其中，||·||₂表示对内容求二范数，第一部分0.95*||(A'-A)||₂是为了保证对抗样本A'与待攻击样本A的相似度尽可能的高，第二部分0.05*|||(B-A)||₂-||(B-A')||₂|是为了让对抗样本A'与攻击目标样本B的相似度尽可能地维持在正常水平下；

损失函数Dloss为：

其中，y表示的是待攻击样本A获得的预测输出，y′表示的是对抗样本A'获得的预测输出，Y与Y'分别表示的是待攻击样本A和对抗样本A'的期望输出值；

损失函数Floss为：

Floss＝||C’-C||₂

其中，C'和C分别表示对抗样本A'与攻击目标样本B通过检测器FCD获得的置信度输出。

3.如权利要求1所述的基于生成对抗网络的高隐藏中毒攻击的防御方法，其特征在于，具体训练过程包括：

利用生成器G的损失函数Gloss训练生成器G，训练指标是在迭代过程中不断寻找，产生更小的损失的对抗样本，使得对抗样本在与待攻击样本的相似度越来越高的过程中，增加通过检测器D识别的概率；

利用检测器D的损失函数Dloss训练检测器，训练指标是在迭代过程中不断提高检测器D区分对抗样本的能力，从而在博弈过程中提高生成器G的能力；

利用检测器FCD的损失函数Floss训练生成器G，训练目的是在迭代过程中不断提高生成器G生成的对抗样本和攻击目标样本的特征相似程度，以提高中毒攻击的效果。

4.如权利要求1所述的基于生成对抗网络的高隐藏中毒攻击的防御方法，其特征在于，在训练的过程中，根据训练阶段损失函数变化调整每个阶段训练的迭代次数，具体包括：

当损失函数变化得越来越小时，在将损失函数的衰减大于预期值，将迭代次数乘以预设的放大倍数，反之除以预设的放大倍数，以此调整迭代次数。

5.如权利要求1所述的基于生成对抗网络的高隐藏中毒攻击的防御方法，其特征在于，所述根据输出的置信度，观察中毒攻击效果，根据中毒攻击现象的严重性，采用不同防御措施包括：

当攻击目标样本的类标未发生偏转，采用放大、缩小、旋转的方式对攻击目标样本进行处理，来突出特征提取层面的不协调；

当攻击目标样本的类标发生偏转，且保持很高的置信度，采用线性插值的方法对攻击目标样本进行屏蔽型防御。

6.如权利要求1所述的基于生成对抗网络的高隐藏中毒攻击的防御方法，其特征在于，生成器G采用卷积神经网络，检测器D采用卷积神经网络，以及检测器FCD采用卷积神经网络与Inception网络相连接。

7.一种基于生成对抗网络的高隐藏中毒攻击的防御方法在人脸图像中毒攻击防御的应用，其特征在于，生成器G采用卷积神经网络，检测器D采用卷积神经网络，以及检测器FCD采用facenet网络，训练阶段，输入的数据为待攻击人脸图像、攻击目标人脸图像以及扰动noise，利用待攻击人脸图像和攻击目标人脸图像对生成器G、检测器D以及检测器FCD进行训练后，即获得能够生成大量对抗性人脸图像的生成器G；