CN115238271A

CN115238271A - 基于生成学习的ai安全性检测方法

Info

Publication number: CN115238271A
Application number: CN202210729418.0A
Authority: CN
Inventors: 高楠; 李北步; 申屠琦超; 臧志阳; 庞亚鹏; 谢晨翔
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-10-25

Abstract

一种基于生成学习的AI安全性检测系统，包括：1)引入AdvGAN方法，搭建AdvGAN网络架构并训练网络模型；2)直接获取训练好的生成器G用于生成对抗样本；将一个真正的输入图像x输入生成器G，输出扰动图G(x)；该扰动图被覆盖在输入图像之上，以获得对抗样本x’＝x+G(x)；3)定义攻击评估参数：攻击成功率、感知相似度和攻击速度；4)目标网络对对抗样本进行预测得到结果；针对预测结果，利用步骤3中定义的攻击评估参数进行评估，得到网络的安全性。本发明可以在不计算任何中间扰动向量的情况下，一次性从良性图像中直接生成对抗样本，然后用对抗样本攻击AI模型，使模型得到与预期不同的预测结果，对模型的安全性进行评估。

Description

基于生成学习的AI安全性检测方法

技术领域

本发明涉及利用生成对抗网络来生直接生成对抗样本的方法。

本发明涉及神经网络，深度学习等领域，具体涉及基于生成对抗网络、对抗样本领域。

背景技术

在深度神经网络(DNNs)被作为物联网时代重要分析工具的时代背景下，研究人工智能的安全性检测系统具有重要的参考意义。考虑到人工智能和DNN技术举足轻重到地位，学术界正提携着巨大的利益来提高任何基于DNN以及其他的深度模型技术的安全性，并抵御可能的恶意攻击。对抗性攻击问题近年来已成为一个非常活跃的领域，引起了学术界和产业界的极大关注和努力。而安全性检测系统是通过对抗样本攻击人工智能系统，以获得与预期不同的预测结果，来检测人工智能系统的安全性的系统。通过安全性检测系统的评估，可以对人工智能系统进行针对性的增强，以提高人工智能系统的安全性。当前的主要的安全检测系统通常是对人工智能系统进行特定方向的攻击，无法对系统进行一个全面且真实的评估。

生成模型是一种能够学习特定分布的输入和目标分布的输出之间映射的模型。近年来，生成对抗网络(GANs)已成为可以说是最强大的生成模型，在各种图像生成等操作问题上取得了最先进的成果。GANs由两个神经网络模型:生成器G和鉴别器D组成，它们互相训练、博弈，竞争最小与最大。G的目标是从x中学习隐形空间在pg上的分布，以便它能够产生尽可能真实的生成样本。G可以通过采样输入变量z，然后利用微分网络，将变量映射到数据空间G(z)。D是一个目标学习区分生成器生成的样本和真实样本的分类器。在训练过程中，G和D相互竞争，并逐渐提高各自任务的表现。

尽管取得了巨大的成功，但大多数现有的攻击都需要显示计算扰动向量，并将其叠加到原始输入上。基于梯度的攻击存在推理速度较慢的问题。传统的GAN也没有对生成的数据的显式控制，换句话说，数据以一种无监督的方式生成，其类是完全随机的。这在很大程度上仍是一个悬而未决的问题，更有说服力的解释尚未浮出水面。

发明内容

为了克服现有的不足，本发明提出了一种基于生成学习的AI安全性检测方法。本发明构建AdvGAN网络结构，包括生成器G、鉴别器D和目标模型C，分别设立不同的目标函数、损失函数，然后输入原始图像进行训练，使生成器G学习到目标模型的内部知识。训练完成之后，直接获取生成器，原始图像通过生成器得到扰动图，并将扰动图覆盖在原始图像上得到对抗样本。令目标模型对对抗样本进行预测并且评估攻击速度、攻击成功率和感知相似度，对目标模型的安全度进行评估。与传统的基于梯度优化的方法相比，本发明只需训练GAN模型一次，在推理时使用预先训练的生成器立即和无限期地从良性图像获取对抗样本，同时至少对对抗样本的质量有某种形式的监督，使产生的扰动更好地与输入中包含的潜在边缘和形状对齐，因此看起来更自然，人眼无法察觉，且无需完全访问目标模型的体系结构和模型参数，解决了基于梯度的攻击推理速度慢的问题，是一种比白盒攻击更为强大的半白盒攻击。

本发明提供如下的技术方案：

一种基于生成模型的AI安全性检测方法，其特征在于，包含以下步骤：

1)引入AdvGAN方法，搭建AdvGAN网络架构并训练。

1.1)搭建GAN网络中的生成器G，确立目标函数；搭建GAN网络中的判别器D，确立目标函数和损失函数。生成器和鉴别器是两个独立的模型，他们拥有不同的目标函数和损失函数，这里需要对他们分别进行设置。

1.2)对AdvGAN网络的目标函数、损失函数进行定义，构建完整的AdvGAN网络架构。整个网络主要有三部分组成，分别是生成器G、判别器D和目标模型C。其中，生成器G的输入是原始的干净图像，输出是一个扰动图。将扰动图覆盖在原始干净图上可得到对抗样本。对抗样本作为目标模型C的输入，对抗样本和原始干净图像共同作为鉴别器D的输入。鉴别器和目标模型的输出都是对输入的一个预测结果。

1.3)将原始数据集输入AdvGAN进行模型训练。

2)AdvGAN训练完成后，直接获取生成器G用于生成对抗样本。此时生成器已经针对目标网络学习到了其内部知识，因此，将一个真正的输入图像x输入生成器即得到一个扰动图 G(x)，该扰动图被覆盖在输入图像之上，以获得对抗样本x’＝x+G(x)。

3)定义攻击评估参数：攻击成功率、感知相似度和攻击速度。

4)令目标网络对对抗样本进行预测并界定攻击成功率、度量感知相似度、评估攻击速度。当且仅当三个指标均达到标准值时，认为网络是安全的。

进一步的，所述步骤1.1)具体过程如下：

1.1.1)搭建生成器的网络架构。

本发明避免在生成器和鉴别器集中，使用弯曲的卷积来执行向下抽样。对于在生成器中的 up抽样操作，使用的是反向采样卷积，而不是转置卷积以避免潜在的工作。该生成器包括四个连接的残余块组成。除最后一个非残差卷积层之后只有一个BN层外，每个非残差卷积层之后都有批化(BN)和ReLU激活函数。该生成器的所有卷积层都使用3×3内核。具体结构可见图 2。

1.1.2)选取生成器G的目标函数。

选择最小平方损失，以获得更稳定的训练和更高的质量输出。数学上，为了最小平方损失，训练生成器损失函数使其最小化：

Ex′～px′(x)[D(G(x)-1))²] (1.1)

1.1.3)搭建鉴别器的网络架构。

对于鉴别器，每次卷积之后都是Leaky ReLU激活。除了第一个卷积层外，在每个卷积层之后立即使用BN。该鉴别器的所有卷积层均采用4×4核。具体结构可见图2。

1.1.4)确立鉴别器D的损失函数。

采用最优连续波损失函数，即:

floss(x′)＝(max_i≠t(Z(x′)_i)-Z(x′)_t)⁺ (1.2)

其中Z(x)表示来自目标模型的对数，t是针对目标攻击最初定义的目标标签，致使该损失函数旨在最小化目标类和最重要的非目标类(即真正的类)的预测分数之间的差异，从而鼓励目标类获得更高的分数。(e)+表示MAX(e,0)，这是为了阻止目标类型的分数超过边界类型的分数，该分数希望扰动推动样本略微跨越决策边界，使得分类器产生错误的预测的同时最大限度地保留良性输入的原始特征。

1.1.5)确立鉴别器D的目标函数。

将鉴别器最小化，使用目标函数：

L_adv＝Ex[floss(G(x),l′)] (1.3)

其中l'是任意不同于X的原始标签的标签，floss是公式(1.1)的损失函数。

进一步的，所述步骤1.2)具体过程如下：

1.2.1)确立AdvGAN网络的损失函数。

1.2.1.1)为了获得对置信度以及对抗能力的控制，引入了参数κ，用公式来表达则是：

floss(x′)＝(max(max_i≠t(Z(x′)_i)-Z(x′)_t，-κ) (1.4)

κ表示允许目标类的逻辑值高于真实类的逻辑值的边缘。κ越大，对抗样本越过决策边界的距离越远，欺骗目标分类器的信心就越大。

1.2.1.2)修改无目标攻击设置的CW损失函数。为了最小化真实类与其余预测的类中得分最大的类之间的差异，非目标CW损失函数被公式化为：

floss(x′)＝(max(Z(x′)_l-max_i≠l(Z(x′)_i)，-κ) (1.5)

1.2.2)确立AdvGAN网络的目标函数。

1.2.2.1)鉴于将传统的Lp距离作为一种损失以鼓生成的图像接近人工标签是有益的，定义损耗项L_pert来衡量它们之间的距离：

L_pert＝Ex(||x′-x||_p) (1.6)

其中p是范数的阶数。使用L1和L2损失的加权来获取更高的感知质量，任意强制执行λ₁+λ₂＝1以方便参数调整。L_pert公式化：

L_pert＝λ₁*Ex(||x′-x||₁)+λ₂*Ex(||x′-x||₂) (1.7)

1.2.2.2)一般的GAN的目标函数可以表述为：

min_Gmax_DL_GAN(D，G)＝E_x～pdata(x)[log D(x)]+E_z～pz(z)[log(1-D(G(z))] (1.8)

其中D(x)表示x来自真实数据而不是生成器的pg分布的概率。为了实现欺骗目标，可以查询目标模型生成的对抗样本。为了生成与输入图像相似的对抗样本，添加x和x′之间的 L2距离作为损失。最后，AdvGAN目标函数可以表述为：

L_AdvGAN＝L_GAN+α*L_adv+β*L_pert (1.9)

其中，

L_GAN＝E_x～pdata(x)[log D(x)]+E_z～pz(z)[log(1-D(G(z))] (1.10)

L_adv＝Ex[floss(G(x)，l′)] (1.11)

L_pert＝Ex(||x′-x||_p) (1.12)

进一步的，所述步骤1.3)具体过程如下：

1.3.1)将生成器G和鉴别器D的参数初始化为θ_g，θ_d

1.3.2)进行循环训练：

当训练鉴别器的参数时，生成器的参数不变；训练生成器的参数时，鉴别器的参数不变。

1.3.2.1)循环训练鉴别器D，k次：

从分布P_data(x)中随机采样m个{x¹，x²，...，x^m}；

从已知分布P_prior(z)中随机采样m个{z¹,z²,...,z^m}；

使用x′ⁱ＝G(zⁱ)来获取生成数据{x′¹,x′²,...,x′^m}；

根据步骤1.1)提到的鉴别器的目标函数，更新判别器D的参数θ_d使其最大化。

1.3.2.2)训练生成器G，1次：

重新从已知分布P_prior(z)中随机采样m个{z¹,z²,...,z^m}。

根据步骤1.1)提到的生成器的目标函数，更新生成器G的参数θ_g使其最小化。

进一步的，所述步骤3)具体过程如下：

3.1)界定攻击成功率：

攻击成功率(ASR)是针对目标分类器成功实现对抗性目标的精心制作的示例的百分比。它是最重要和最直接的评估标准，它明确地表明了攻击在欺骗目标模型方面的有效性。正如目标攻击所定义的，攻击成功率是强制分类器预测任意定义的目标标签的扰动图像的百分比。在这项工作中，只考虑无目标配置下的攻击，其攻击成功率只是导致目标分类器给出错误预测的扰动图像的百分比。

3.2)度量感知相似度：

使用PSNR量化生成的对抗样本与现有视觉相似性度量的相似程度。PSNR公式为：

其中，MSE是原始样本与对抗样本之间均方误差。

3.3)评估攻击速度：

对手生成的速度是另一个重要方面，也是现实生活应用中的一个重要考虑因素。通过在推理时生成一个对抗性示例所需的平均时间来评估攻击速度。令推理时开始生成对抗性示例的时间是t_s ⁱ，对应的结束生成对抗性示例的时间是t_e ⁱ，则攻击速度(AV)公式化为：

进一步的，所述步骤4)具体过程如下：

4.1)将原始的干净图片x输入生成器G，得到一个扰动图G(x)，与此同时，计算生成对抗样本的时间，取n个样本的时间平均值，根据公式(3.3)，评估本发明方法的攻击速度。

4.2)将扰动图G(x)覆盖在原始干净图像上，以获得m个对抗样本x’＝x+G(x)。令目标模型对m个对抗样本进行预测，得到m个预测结果，其中，预测正确的个数为t，预测错误的个数为f，则可计算攻击成功率

ASR＝f/m (3.1)

4.3)计算对抗样本x’与原始干净样本的之间的均方误差，然后带入公式(3.2)，计算得到PSNR。

4.4)结合攻击成功率、攻击速度和感知相似度，当且仅当三个指标均高于平均标准时，认为模型是安全的。

本发明利用提出的新的GAN体系结构，可以在不计算任何中间扰动向量的情况下，一次性从良性图像中直接生成对抗样本，然后用对抗样本攻击AI模型，使模型得到与预期不同的预测结果，对模型的安全性进行评估。与传统的基于梯度优化的方法相比，本发明只需训练 GAN模型一次，在推理时使用预先训练的生成器立即和无限期地从良性图像获取对抗样本，且无需完全访问目标模型的体系结构和模型参数，解决了基于梯度的攻击推理速度慢的问题，是一种比白盒攻击更为强大的半白盒攻击。

本发明的优点是：

1)通过生成模型进行对抗样本生成是一个完全独立的过程，只在训练的时候查询目标模型，推理时无需访问目标模型的体系结构和模型参数，这是一种更加强大的半白盒攻击。

1)可以在不计算任何中间扰动向量的情况下，一次性从良性图像中直接生成对抗样本，比现有的基于梯度的攻击往往具有更高的推理速度，

2)在推理时，使用预先训练的生成器立刻和无限期地获取对抗样本。

3)至少对对抗样本的质量有某种形式的监督，使产生的扰动更好地与输入中包含的潜在边缘和形状对齐，因此看起来更自然，人眼无法察觉。

附图说明

图1是本发明的干净图像添加扰动图。

图2是本发明的模型具体内部处理和结构图。

图3是本发明的流程图。

具体实施方式

以下结合实施例，对本发明作进一步描述。

本发明为一种基于生成学习的AI安全性检测方法，可以用于检测AI模型在面临外界恶意攻击时的安全性。首先构建AdvGAN网络结构，包括生成器、鉴别器和目标模型，分别设立不同的目标函数、损失函数，其中，生成器的目标是从原始数据中学习隐形空间在pg上的分布，以便它能够产生尽可能真实的生成样本，生成器从均匀或高斯分布的pz(z)中采样输入变量，并通过微分网络学习将其映射到数据空间，鉴别器的目标是学习区分生成器样本和真实样本的分类器。然后输入原始图像对AdvGAN模型进行训练，使生成器学习到目标模型的内部知识。训练完成之后，直接获取生成器，原始图像通过生成器得到扰动图，并将扰动图覆盖在原始图像上得到对抗样本。令目标模型对对抗样本进行预测并且评估攻击速度、攻击成功率和感知相似度，对目标模型的安全度进行评估。与传统的基于梯度优化的方法相比。

实施例：

一种基于生成学习的AI安全性检测方法，主要过程如下：

1.1搭建AdvGAN(Generating Adversarial Examples with AdversarialNetworks,对抗网络生成对抗样本)网络中的生成器G，确立目标函数；搭建GAN网络中的判别器D，确立目标函数和损失函数。G和D是两个独立的模型，他们拥有不同的目标函数和损失函数，这里需要对他们分别进行设置。

1.1.1搭建生成器的网络架构。

本发明避免在生成器和鉴别器集中，而是使用弯曲的卷积来执行向下抽样。对于在生成器中的up抽样操作，使用反向采样然后卷积，而不是转置卷积以避免潜在的工件。该生成器包括四个连接的残余块组成。除最后一个非残差卷积层之后只有一个BN层外，每个非残差卷积层之后都有批化(BN)和ReLU激活函数。该生成器的所有卷积层都使用3×3 内核。

1.1.2选取生成器G的目标函数。

选择最小平方损失，因为它导致更稳定的训练和更高的质量输出。数学上，为了最小平方损失，训练生成器损失函数使其最小化：

Ex′～px′(x)[D(G(x)-1))²] (1.1)

1.1.3搭建鉴别器D的网络架构。

对于鉴别器，每次卷积之后都是Leaky ReLU激活。除了第一个卷积层外，在每个卷积层之后立即使用BN。该鉴别器的所有卷积层均采用4×4核。

1.1.4确立鉴别器D的损失函数。

采用最优连续波损失函数，即:

floss(x′)＝(max_i≠t(Z(x′)_i)-Z(x′)_t)⁺ (1.2)

其中Z(x)表示来自目标模型的对数。t是针对目标攻击最初定义的目标标签。(e)+表示MAX(e,0)，这是为了阻止目标类型的分数超过边界类型的分数。

1.1.5确立鉴别器D的目标函数。

将鉴别器最小化，使用目标函数：

L_adv＝Ex[floss(G(x),l′)] (1.3)

其中l'是任意不同于X的原始标签的标签，floss是步骤1.1.2)中鉴别器D的损失函数。

1.2引入需要检测安全性的AI模型C，作为AdvGAN网络的目标模型。在MNIST数据集上，设立一个网络架构：第一步，通过一个32个3x3卷积核的步长为1的卷积层，使用Relu 激活；第二步，再次通过一个32个3x3卷积核的步长为1的卷积层，同样使用Relu激活；第三步，通过一个MaxPool(2x2)进行最大池化；第四步，通过一个64个3x3卷积核的步长为1 的卷积层，使用Relu激活；第五步，再次通过一个64个3x3卷积核的步长为1的卷积核，使用Relu激活；第六步，通过一个MaxPool(2x2)进行最大池化；第七步，通过一个200神经元的全连接层，使用Relu激活，再使用Dropout(0.5)避免过拟合；第八步，通过一个200神经元的全连接层和Relu激活函数；最后一步，通过一个10个神经元的全连接层并使用Softmax作为输出的激活函数。

1.3结合需要检测安全性的目标网络、生成器G、鉴别器D，对AdvGAN网络的目标函数、损失函数进行定义，构建完整的AdvGAN网络架构。

1.3.1确立AdvGAN网络的损失函数。

1.3.1.1为了获得对置信度(以及对抗能力)的控制，引入参数κ，用公式来表达则是 floss(x′)：

floss(x′)＝(max(max_i≠t(Z(x′)_i)-Z(x′)_t,-κ) (1.4)

1.3.1.2修改无目标攻击设置的CW损失函数。本发明不是最小化目标类和真实类的分数之间的差异，而是最小化真实类与其余预测的类中得分最大的类之间的差异。因此，非目标CW损失函数被公式化为：

floss(x′)＝(max(Z(x′)_l-max_i≠l(Z(x′)_i)，-κ) (1.5)

这个损失函数鼓励真实类的更低的logit值可以得到和其余类中最可能的类(即最简单的错误类)的更高logit值。

1.3.2确立AdvGAN网络的目标函数。

1.3.2.1定义损耗项L_pert来衡量它们之间的距离：

L_pert＝Ex(||x′-x||_p) (1.6)

实践中使用L1和L2损失的加权和会导致更好的感知质量。因此，本发明使用：

L_pert＝λ₁*Ex(||x′-x||₁)+λ₂*Ex(||x′-x||₂) (1.7)

其中λ1和λ2控制每一项的重要性。任意强制执行λ₁+λ₂＝1以方便参数调整。

1.3.2.2一般的GAN的目标函数可以表述为：

其中D(x)表示x来自真实数据而不是生成器的pg分布的概率。为了实现欺骗目标，可以查询目标模型生成的对抗样本。为了生成与输入图像相似的对抗样本，添加x和x之间的L2距离作为损失。最后，AdvGAN目标函数可以表述为：

L_AdvGAN＝L_GAN+α*L_adv+β*L_pert (1.9)

其中，

L_GAN＝E_x～pdata(x)[log D(x)]+E_z～pz(z)[log(1-D(G(z))] (1.10)

L_adv＝Ex[floss(G(x)，l′)] (1.11)

L_pert＝Ex(||x′-x||_p) (1.12)

1.4获取原始数据集，例如输入和输出为1×28×28 MNIST图像或3×28×28CIFAR-10图像。将MNIST数据归一化为[0，1]，将CIFAR-10数据归一化为[-1，1]可以产生更好的结果。另外，可以参考使用例如SGD优化器、学习速率0.1、动量0.9、批大小128、dropout0.5 和批数60的配置。

然后将数据集输入AdvGAN进行训练，训练步骤如下：

1.4.1将生成器G和鉴别器D的参数初始化为θ_g，θ_d

1.4.2进行循环训练：

1.4.2.1循环训练鉴别器D，k次：从分布P_data(x)中随机采样m个{x¹,x²,...,x^m}；从已知分布P_prior(z)中随机采样m个{z¹,z²,...,z_m}；使用x′ⁱ＝G(zⁱ)来获取生成数据 {x′¹,x′²,...,x′^m}；根据鉴别器的目标函数，更新判别器D的参数θ_d使其最大化。

1.4.2.2训练生成器G，1次：

重新从已知分布P_prior(z)中随机采样m个{z¹,z²,...,z^m}。

根据生成器的目标函数，更新生成器G的参数θ_g使其最小化。

生成器G与判别器D不断对抗、互相学习，在这个训练过程中，生成器G能够学习到目标网络D的内部知识，能针对D的薄弱点进行不断学习强化，最终生成针对判别器的一个模型。

2在AdvGAN训练完成后，直接获取生成器G用于生成对抗样本。此时生成器已经针对目标网络学习到了其内部知识，将一个真正的输入图像x输入生成器G得到一个扰动图G(x)，该扰动图被覆盖在输入图像之上，以获得对抗样本x’＝x+G(x)。

3将对抗样本输入目标模型，令目标模型对其作出预测。分析预测结果：

3.1令推理时开始生成对抗性示例的时间是t_s ⁱ，对应的结束生成对抗性示例的时间是 t_e ⁱ，则攻击速度(AV)为：

在MNIST数据集下，使用本发明的方法生成对抗样本时间小于0.01s，而传统的FGSM 需要0.04s、PGD需要3s、CW需要30s、DeepFool需要0.034s。可以看到，本发明的优势十分明显，攻击速度十分快速。

3.2评估攻击成功率(ASR)。它是最重要和最直接的评估标准，它明确地表明了攻击在欺骗目标模型方面的有效性。正如目标攻击所定义的，攻击成功率是强制分类器预测任意定义的目标标签的扰动图像的百分比。在这项工作中，只考虑无目标配置下的攻击，其攻击成功率只是导致目标分类器给出错误预测的扰动图像的百分比。

在MNIST数据集下，本发明方法的攻击成功率是99.15％，传统的FSGM为99.9982％， FGD是100％，CW是91.1％，DeepFool是99.994％。比较发现，对于攻击成功率，本发明相比传统的要略微劣势一些，但仍然有着超过99％的成功率，效果不俗。

本发明已经通过上述实例进行了说明，但应当注意的是实例只是解释说明的目的，而非将本发明局限于该实例范围内。即便参照前述实例本发明进行了详尽的说明，本领域研究人员理当能够理解：其依然可以随前述各实例所描述的技术方案进行修改，抑或对其局部技术特征进行同等替换；二、这些修改或替换，并不使相应的技术方案脱离本发明的保护范围。本发明的保护范围由附属的权利要求书机器等效范围所界定。

Claims

1.基于生成学习的AI安全性检测方法，包括以下步骤：

1)引入AdvGAN方法，搭建AdvGAN网络架构并训练网络模型；

1.1)搭建AdvGAN网络中的生成器G，确立目标函数；搭建AdvGAN网络中的判别器D，确立目标函数和损失函数；

1.2)构建完整的AdvGAN网络架构；具体来说，对AdvGAN网络的目标函数、损失函数进行定义；将生成器、鉴别器与目标模型进行连接；原始图像作为生成器G的输入，经生成器输出得到扰动图；将扰动图覆盖于原始干净图上得到对抗样本，对抗样本作为目标模型C的输入；对抗样本和原始干净图像共同作为鉴别器D的输入；鉴别器和目标模型的输出都是对输入的一个预测结果；

1.3)将原始数据集输入AdvGAN进行训练；具体来说，将数据集输入鉴别器进行迭代训练，更新鉴别器将其最大化；紧接着，从重新训练的数据空间中获取样本，输入生成器，更新生成器参数，将其最小化；

2)直接获取训练好的生成器G用于生成对抗样本；将一个真正的输入图像x输入生成器G，输出扰动图G(x)；该扰动图被覆盖在输入图像之上，以获得对抗样本x’＝x+G(x)；

3)定义攻击评估参数：攻击成功率、感知相似度和攻击速度；

4)目标网络对对抗样本进行预测得到结果；针对预测结果，利用步骤3中定义的攻击评估参数进行评估，得到网络的安全性。

2.根据权利要求1所述的一种基于生成学习的AI安全性检测系统，其特征在于，所述步骤1.1)具体过程如下：

1.1.1)搭建生成器的网络架构；

避免在生成器和鉴别器集中，而是使用弯曲的卷积来执行向下抽样；对于在生成器中的up抽样操作，反向采样然后卷积；该生成器由四个连接的残余块组成；除最后一个非残差卷积层之后只有一个BN层外，每个非残差卷积层之后都有批化(BN)和ReLU激活函数；该生成器的所有卷积层都使用3×3内核；

1.1.2)选取生成器G的目标函数；

选择最小平方损失，以获得更稳定的训练和更高的质量输出；数学上，为了最小平方损失，训练生成器损失函数使其最小化：

Ex′～px′(x)[D(G(x)-1))²] (1.1)

1.1.3)搭建鉴别器的网络架构；

对于鉴别器，每次卷积之后都是Leaky ReLU激活；除了第一个卷积层外，在每个卷积层之后立即使用BN；该鉴别器的所有卷积层均采用4×4核；

1.1.4)确立鉴别器D的损失函数；

鉴别器的损失函数采用最优连续波损失函数，即:

floss(x′)＝(max_i≠t(Z(x′)_i)-Z(x′)_t)⁺ (1.2)

其中Z(x)表示来自目标模型的对数；t是针对目标攻击最初定义的目标标签；(e)+表示MAX(e,0)，起到阻止目标类型的分数超过边界类型的分数的效果；

1.1.5)确立鉴别器D的目标函数；

将鉴别器最小化，使用目标函数：

L_adv＝Ex[floss(G(x),l′)] (1.3)

3.根据权利要求1所述的一种基于生成学习的AI安全性检测系统，其特征在于，所述步骤1.2)具体过程如下：

1.2.1)确立AdvGAN网络的损失函数；

1.2.1.1)为了获得对置信度(以及对抗能力)的控制，引入了一个参数κ，用公式来表达则是：

floss(x′)＝(max(max_i≠t(Z(x′)_i)-Z(x′)_t,-κ) (1.4)

κ表示允许目标类的逻辑值高于真实类的逻辑值的边缘；κ越大，对抗样本越过决策边界的距离越远，欺骗目标分类器的信心就越大；

1.2.1.2)修改无目标攻击设置的CW损失函数；为了最小化真实类与其余预测的类中得分最大的类之间的差异，非目标CW损失函数被公式化为：

floss(x′)＝(max(Z(x′)_l-max_i≠l(Z(x′)_i),-κ) (1.5)

1.2.2)确立AdvGAN网络的目标函数；

1.2.2.1)定义损耗项来衡量生成的图像与人工标签之间的距离:

L_pert＝Ex(||x′-x||_p) (1.6)

其中p是范数的阶数；使用L1和L2损失的加权来获取更高的感知质量；任意强制执行λ₁+λ₂＝1以方便参数调整；L_pert公式化：

L_pert＝λ₁*Ex(||x′-x||₁)+λ₂*Ex(||x′-x||₂) (1.7)

1.2.2.2)一般的GAN的目标函数可以表述为:

min_Gmax_DL_GAN(D,G)＝E_x～pdata(x)[logD(x)]+E_z～pz(z)[log(1-D(G(z))] (1.8)

其中D(x)表示x来自真实数据而不是生成器的pg分布的概率；为了实现欺骗目标，可以查询目标模型生成的对抗样本；添加x和x′之间的L2距离作为损失，以便于生成与输入图像相似的对抗样本；最后，AdvGAN目标函数可以表述为:

L_AdvGAN＝L_GAN+α*L_adv+β*L_pert (1.9)

其中，

L_GAN＝E_x～pdata(x)[logD(x)]+E_z～pz(z)[log(1-D(G(z))] (1.10)

L_adv＝Ex[floss(G(x),l′)] (1.11)

L_pert＝Ex(||x′-x||_p) (1.12)

4.根据权利要求1所述的一种基于生成学习的AI安全性检测系统，其特征在于，所述步骤3)具体过程如下：

3.1)界定攻击成功率：

攻击成功率是强制分类器预测任意定义的目标标签中扰动图像的百分比；特别的，在这项工作中，只考虑无目标配置下的攻击，其攻击成功率只是导致目标分类器给出错误预测的扰动图像的百分比；攻击成功率可公式化为：

ASR＝f/m (3.1)

其中，m是对全部对抗样本进行预测得到的m个预测结果，t是预测正确的个数，f是预测错误的个数；

3.2)度量感知相似度：

使用PSNR量化生成的对抗样本与现有视觉相似性度量的相似程度；PSNR公式为：

其中，MSE是原始样本与对抗样本之间均方误差；

3.3)评估攻击速度：

通过在推理时生成一个对抗性示例所需的平均时间来评估攻击速度；令推理时开始生成对抗性示例的时间是t_s ⁱ，对应的结束生成对抗性示例的时间是t_e ⁱ，则攻击速度(AV)公式化为：

5.根据权利要求1所述的一种基于生成学习的AI安全性检测系统，其特征在于，所述步骤4)具体过程如下：

4.1)将n个原始样本x输入生成器G，得到n个扰动图扰动图G(x)，并将扰动图覆盖到原始样本上得到对抗样本x’；界定输入原始图片至生成对抗样本的时间，求得n个样本的时间平均值，根据公式(3.3)，评估攻击速度；

4.2)计算对抗样本x’与原始干净样本的之间的均方误差，然后带入公式(3.2)，计算得到PSNR；

4.3)结合攻击成功率、攻击速度和感知相似度，当且仅当三个指标均高于平均标准时，认为模型是安全的。