CN112116026A

CN112116026A - 一种对抗样本生成方法、系统、存储介质和装置

Info

Publication number: CN112116026A
Application number: CN202011044325.1A
Authority: CN
Inventors: 郑德生; 冉子用; 陈继鑫; 赖研菱; 岑鹏; 刘志峰
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2020-12-22

Abstract

本发明公开了一种对抗样本生成方法、系统、存储介质和装置，方法包括以下步骤：对数据集进行训练得到初始模型；利用攻击算法对初始模型进行攻击，计算得到初始对抗样本；将初始对抗样本放入第一DCGAN网络进行训练，得到初始模型对应的第一生成器，由第一生成器生成无防护攻击样本；将初始对抗样本和数据集进行与操作，得到具有防护对抗能力的防护模型；利用攻击算法对防护模型进行攻击，计算得到防护对抗样本；将防护对抗样本放入第二DCGAN网络进行训练，得到防护模型对应的第二生成器，由第二生成器生成有防护攻击样本。在本发明根据原模型有无防护，利用GAN网络提出了一种新的对抗样本生成方法，可以批量生产新特征的恶意样本。

Description

一种对抗样本生成方法、系统、存储介质和装置

技术领域

本发明涉及图像识别领域，尤其涉及一种对抗样本生成方法、系统、存储介质和装置。

背景技术

在信息技术高速发展的现代社会中，深度学习技术正在被逐渐认识和接受。在多个领域，深度学习可以以接近甚至超过人类的精度完成预设的任务。但是，在深度学习技术被广泛应用的同时，其安全性的重要性不言而喻。研究人员发现，现有的神经网络易受到攻击。尤其在图像识别领域，仅对图像进行少量的变换，就会导致分类器产生错误的分类结果。其中，所需的总该变量可能非常小，以致人类无法察觉。随着攻击算法越来越先进，对抗样本产生的攻击性也越来越强，产生的危害也越来越大。如图1所示，图1上为原样本，图1下为对抗样本。下方的图片是由上方的图片由一定算法生成的，神经网络会将其错误的分类。

这种行为是非常危险的。因为深度学习被广泛应用与无人汽车驾驶，人脸识别，银行身份辨认等安全敏感的领域，通过对原合法样本的改动，使不法分子可以做出侵害他人利益的行为，甚至危害生命。因此，神经网络的安全性是不可忽视的问题。

因此，在图像识别领域，尤其是对于图1中的手写文字图像识别领域的对抗样本，提供一种能够生成质量较高的对抗样本的方法，从而用于进一步提高待攻击手写文字图像识别模型的识别能力，是本领域亟待解决的问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种对抗样本生成方法、系统、存储介质和装置，解决现有技术对抗样本质量不高的问题。

本发明的目的是通过以下技术方案来实现的：

本发明的第一方面，提供一种对抗样本生成方法，包括以下步骤：

对数据集进行训练得到初始模型；

利用攻击算法对初始模型进行攻击，计算得到初始对抗样本；

将初始对抗样本放入第一DCGAN网络进行训练，得到初始模型对应的第一生成器，由所述第一生成器生成无防护攻击样本；

将所述初始对抗样本和数据集进行与操作，得到具有防护对抗能力的防护模型；

利用攻击算法对防护模型进行攻击，计算得到防护对抗样本；

将防护对抗样本放入第二DCGAN网络进行训练，得到防护模型对应的第二生成器，由所述第二生成器生成有防护攻击样本；

输出无防护攻击样本和/或有防护攻击样本。

进一步地，所述对抗样本生成方法用于生成待攻击手写文字图像识别模型的对抗样本，用于提高待攻击模型的手写文字图像的识别率；所述数据集为MNIST手写体数字数据集，所述攻击算法为FGSM算法、JSMA算法或L-BFGS算法等。

进一步地，所述第一DCGAN网络和第二DCGAN网络均按照高斯分布随机生成等数目的噪声，通过判别器和生成器的训练，将判别器所得到的准确率结果稳定在X％的一定误差内，根据结果得到对应的第一生成器和第二生成器。

进一步地，所述无防护攻击样本和有防护攻击样本用于在判断待攻击模型有无防护的类型后，分别对无防护模型和有防护模型进行攻击；或者在不判断待攻击模型类型时，先利用无防护攻击样本进行无防护攻击，再利用有防护攻击样本进行有防护攻击，判断两者的攻击效果并取优。

进一步地，所述利用攻击算法对初始模型进行攻击，计算得到初始对抗样本，具体包括：

分别利用多种不同的攻击算法对初始模型进行攻击，分别计算得到对应的子初始对抗样本，将所有子初始对抗样本混合得到所述初始对抗样本；

所述利用攻击算法对防护模型进行攻击，计算得到防护对抗样本，具体包括：

分别利用相同的多种不同的攻击算法对对防护模型进行攻击，分别计算得到对应的子防护对抗样本，将所有子防护对抗样本混合得到所述防护对抗样本。

本发明的第二方面，提供一种对抗样本生成系统，包括以下模块：

初始模型生成模块：用于对数据集进行训练得到初始模型；

初始对抗样本生成模块：用于利用攻击算法对初始模型进行攻击，计算得到初始对抗样本；

无防护攻击样本生成模块：用于将初始对抗样本放入第一DCGAN网络进行训练，得到初始模型对应的第一生成器，由所述第一生成器生成无防护攻击样本；

防护模型生成模块：用于将所述初始对抗样本和数据集进行与操作，得到具有防护对抗能力的防护模型；

防护对抗样本生成模块：用于利用攻击算法对防护模型进行攻击，计算得到防护对抗样本；

有防护攻击样本生成模块：用于将防护对抗样本放入第二DCGAN网络进行训练，得到防护模型对应的第二生成器，由所述第二生成器生成有防护攻击样本；

对抗样本输出模块：用于输出无防护攻击样本和/或有防护攻击样本。

进一步地，所述对抗样本生成系统用于生成待攻击的手写文字图像识别模型的对抗样本，用于提高待攻击模型的手写文字图像的识别率；所述数据集为MNIST手写体数字数据集，所述攻击算法为FGSM算法、JSMA算法或L-BFGS算法等。

进一步地，所述初始对抗样本生成模块具体包括：用于分别利用多种不同的攻击算法对初始模型进行攻击，分别计算得到对应的子初始对抗样本，将所有子初始对抗样本混合得到所述初始对抗样本；

所述防护对抗样本生成模块具体包括：用于分别利用相同的多种不同的攻击算法对对防护模型进行攻击，分别计算得到对应的子防护对抗样本，将所有子防护对抗样本混合得到所述防护对抗样本。

本发明的第三方面，提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述的一种对抗样本生成方法的步骤。

本发明的第四方面，提供一种装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述的一种对抗样本生成方法的步骤。

本发明的有益效果是：

(1)在本发明的一示例性实施例中，根据原模型有无防护，将方法分为两种：无防护攻击和有防护攻击。采用该种方式，利用GAN网络提出了一种新的对抗样本生成方法，可以批量生产新特征的恶意样本。该恶意样本由于生成方式的不同，用传统的防御手段无法进行有效防御，具有高攻击性。

(2)在本发明的一示例性实施例中，所述第一DCGAN网络和第二DCGAN网络均按照高斯分布随机生成等数目的噪声，通过判别器和生成器的训练，将判别器所得到的准确率结果稳定在50％的一定误差内(例如5％)，根据结果得到对应的第一生成器和第二生成器。最后得到的恶意样本能够对对应的原模型(M_mnist或M_defence)保持良好的对抗性或攻击成功。

(3)在本发明的一示例性实施例中，具有两种方式进行攻击：判断待攻击模型有无防护的类型后，分别对无防护模型和有防护模型进行攻击；或者在不判断待攻击模型类型时，先利用无防护攻击样本D(G(D(FGSM(M_mnist))))进行无防护攻击，再利用有防护攻击样本D(G(D(FGSM(M_defence))))进行有防护攻击，判断两者的攻击效果并取优。

(4)在本发明的一示例性实施例中，利用自体攻击，判断有效性，因为同一张图片经过攻击后可以攻击成功(本身是正常图片，生成器由这张正常图片生成了对抗样本)，才可以证明生成器具有攻击型。

(5)在本发明的一示例性实施例中，将不同攻击算法得到的特征进行混合，从而生成具有混合特征的对抗样本，提高对抗效果。

附图说明

图1为手写文字图像识别领域的对抗样本示意图；

图2为本发明一示例性实施例公开的方法流程示意图；

图3为本发明又一示例性实施例公开的无防护攻击样本生成示意图；

图4为本发明又一示例性实施例公开的有防护攻击样本生成示意图；

图5为本发明又一示例性实施例公开的方法流程示意图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

参见图2，图2示出了本申请一示例性实施例示出的一种对抗样本生成方法。其中，在下述示例性实施例中，所述对抗样本生成方法用于生成待攻击手写文字图像识别模型的对抗样本，用于提高待攻击模型的手写文字图像的识别率；所述数据集为MNIST手写体数字数据集，所述攻击算法为FGSM算法(JSMA算法或L-BFGS算法或者其他算法的实现方式相同)，图2中以“Attack”替代FGSM进行说明。当然，应用于其他图像识别领域的只要能实现，本申请并不进行局限(例如动物种类的识别)。

具体地，所述方法包括以下步骤：

对手写体数字数据集MNIST进行训练得到初始模型M_mnist；

利用FGSM攻击算法对初始模型进行攻击即FGSM(M_mnist)，计算得到初始对抗样本D(FGSM(M_mnist))；其中，FGSM的算法具体为：x_A＝x+η，式中，x表示合法样本，η表示对抗样本扰动值，x_A表示对抗样本；

将初始对抗样本D(FGSM(M_mnist))放入第一DCGAN网络进行训练，得到初始模型对应的第一生成器G(D(FGSM(M_mnist)))，由所述第一生成器G(D(FGSM(M_mnist)))生成无防护攻击样本D(G(D(FGSM(M_mnist))))；

将所述初始对抗样本D(FGSM(M_mnist))和数据集MNIST进行与操作即

得到具有防护对抗能力的防护模型M_defence；

利用FGSM攻击算法对防护模型M_defence进行攻击即FGSM(M_defence)，计算得到防护对抗样本D(FGSM(M_defence))；

将防护对抗样本D(FGSM(M_defence))放入第二DCGAN网络进行训练，得到防护模型对应的第二生成器G(D(FGSM(M_defence)))，由所述第二生成器G(D(FGSM(M_defence)))生成有防护攻击样本D(G(D(FGSM(M_defence))))；

输出无防护攻击样本D(G(D(FGSM(M_mnist))))和/或有防护攻击样本D(G(D(FGSM(M_defence))))。

具体地，在上述步骤中，根据原模型有无防护，将方法分为两种：无防护攻击和有防护攻击，其中，图2的实线框为无防护攻击流程，图2的虚线框为有防护攻击流程。其中，M*表示由*训练得到的神经网络模型，FGSM(M*)表示针对M*模型的FGSM攻击，D(*)表示由*产生的对抗样本，G(*)表示由*训练得到的DCGAN生成器。

采用该种方式，利用GAN网络提出了一种新的对抗样本生成方法，利用最后得到的生成器可以批量生产新特征的恶意样本，是一种新的攻击方法。而现有技术大多数是采用传统的方法，无法成功攻击那些做了防御的模型。而本申请的方法是基于一种新技术(DCGAN)的攻击方法，可以成功攻击现有的防御方法。

更优地，在一示例性实施例中，所述第一DCGAN网络和第二DCGAN网络均按照高斯分布随机生成等数目的噪声，通过判别器和生成器的训练，将判别器所得到的准确率结果稳定在50％的一定误差内(例如5％)，根据结果得到对应的第一生成器和第二生成器。(噪声指无意义的电脑随机生成的乱码图片，等数目指乱码图片与合法样本(正常图片)数量相等)

其中，对于无防护的模型，由第一生成器生成2000张新的对抗样本图片，具体生成方式如图3所示，如果生成的图片能对模型M_mnist保持良好的对抗性或攻击成功，则说明方法在无防护的模型条件下有攻击性。

而对于有防护的模型，按照图4的方式，由第二生成器生成2000张新的对抗样本图片如果生成的图片能对模型M_defence进行攻击，则说明方法在有防护的模型条件下有攻击性。

此处利用自体攻击，判断有效性，因为同一张图片经过攻击后可以攻击成功(本身是正常图片，生成器由这张正常图片生成了对抗样本)，才可以证明生成器具有攻击型。

更优地，在一示例性实施例中，所述无防护攻击样本D(G(D(FGSM(M_mnist))))和有防护攻击样本D(G(D(FGSM(M_defence))))用于在判断待攻击模型有无防护的类型后，分别对无防护模型和有防护模型进行攻击；或者在不判断待攻击模型类型时，先利用无防护攻击样本D(G(D(FGSM(M_mnist))))进行无防护攻击，再利用有防护攻击样本D(G(D(FGSM(M_defence))))进行有防护攻击，判断两者的攻击效果并取优。

更优地，在一示例性实施例中，如图5所示，所述利用攻击算法对初始模型进行攻击，计算得到初始对抗样本，具体包括：

其中，在该示例性实施例中，初始对抗样本为不同攻击算法对相同的数据集进行处理后混合(并集)的数据。

相较于采用不同攻击算法分别建立不同的对应的生成器、并由生成器得到对应的对抗样本，仅能分别得到对应特征的对抗样本；该示例性实施例可以将不同攻击算法得到的特征进行混合，从而生成具有混合特征的对抗样本，提高对抗效果。

例如，当应用于动物图像的对抗样本生成领域时，采用A攻击算法得到的生成器生成的对抗样本为将狗识别为猫的对抗样本，采用B攻击算法得到的生成器生成的对抗样本为将狗识别为大象的对抗样本，采用C攻击算法得到的生成器生成的对抗样本为将狗识别为兔子的对抗样本；而采用本示例性实施例的方式，利用ABC三种攻击算法对初始模型和防护模型分别进行攻击并混合，得到对应的初始对抗样本和防护对抗样本，并得到最终的第一生成器和第二生成器，生成的对抗样本则可以具有猫、大象、兔子的部分特征的某种新的生物的图像，从而提升对抗样本的效果。

其中，攻击算法可以为FGSM算法、JSMA算法或L-BFGS算法等，也可以是能够实现本实例性实施例的其他攻击算法。

与上述示例性实施例具有相同的发明构思，本发明又一示例性实施例提供一种对抗样本生成系统，包括以下模块：

初始模型生成模块：用于对数据集进行训练得到初始模型；

与上述示例性实施例具有相同的发明构思，优选地，在一示例性实施例中，所述对抗样本生成系统用于生成待攻击的手写文字图像识别模型的对抗样本，用于提高待攻击模型的手写文字图像的识别率；所述数据集为MNIST手写体数字数据集，所述攻击算法为FGSM算法、JSMA算法或L-BFGS算法等。

与上述示例性实施例具有相同的发明构思，优选地，在一示例性实施例中，所述第一DCGAN网络和第二DCGAN网络均按照高斯分布随机生成等数目的噪声，通过判别器和生成器的训练，将判别器所得到的准确率结果稳定在X％的一定误差内，根据结果得到对应的第一生成器和第二生成器。

与上述示例性实施例具有相同的发明构思，优选地，在一示例性实施例中，所述无防护攻击样本和有防护攻击样本用于在判断待攻击模型有无防护的类型后，分别对无防护模型和有防护模型进行攻击；或者在不判断待攻击模型类型时，先利用无防护攻击样本进行无防护攻击，再利用有防护攻击样本进行有防护攻击，判断两者的攻击效果并取优。

与上述示例性实施例具有相同的发明构思，优选地，在一示例性实施例中，所述初始对抗样本生成模块具体包括：用于分别利用多种不同的攻击算法对初始模型进行攻击，分别计算得到对应的子初始对抗样本，将所有子初始对抗样本混合得到所述初始对抗样本；

基于所述方法的任一示例性实施例，本发明又一示例性实施例还提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行任一项示例性实施例中所述的一种对抗样本生成方法的步骤。

基于所述方法的任一示例性实施例，本发明又一示例性实施例还提供一种装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行任一项示例性实施例中所述的一种对抗样本生成方法的步骤。

基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得装置执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种对抗样本生成方法，其特征在于：包括以下步骤：

对数据集进行训练得到初始模型；

输出无防护攻击样本和/或有防护攻击样本。

2.根据权利要求1所述的一种对抗样本生成方法，其特征在于：所述对抗样本生成方法用于生成待攻击手写文字图像识别模型的对抗样本，用于提高待攻击模型的手写文字图像的识别率；所述数据集为MNIST手写体数字数据集，所述攻击算法为FGSM算法、JSMA算法或L-BFGS算法。

3.根据权利要求1所述的一种对抗样本生成方法，其特征在于：所述第一DCGAN网络和第二DCGAN网络均按照高斯分布随机生成等数目的噪声，通过判别器和生成器的训练，将判别器所得到的准确率结果稳定在X％的一定误差内，根据结果得到对应的第一生成器和第二生成器。

4.根据权利要求1所述的一种对抗样本生成方法，其特征在于：所述利用攻击算法对初始模型进行攻击，计算得到初始对抗样本，具体包括：

5.一种对抗样本生成系统，其特征在于：包括以下模块：

初始模型生成模块：用于对数据集进行训练得到初始模型；

6.根据权利要求5所述的一种对抗样本生成系统，其特征在于：所述对抗样本生成系统用于生成待攻击的手写文字图像识别模型的对抗样本，用于提高待攻击模型的手写文字图像的识别率；所述数据集为MNIST手写体数字数据集，所述攻击算法为FGSM算法、JSMA算法或L-BFGS算法。

7.根据权利要求5所述的一种对抗样本生成系统，其特征在于：所述第一DCGAN网络和第二DCGAN网络均按照高斯分布随机生成等数目的噪声，通过判别器和生成器的训练，将判别器所得到的准确率结果稳定在X％的一定误差内，根据结果得到对应的第一生成器和第二生成器。

8.根据权利要求5所述的一种对抗样本生成系统，其特征在于：所述初始对抗样本生成模块具体包括：用于分别利用多种不同的攻击算法对初始模型进行攻击，分别计算得到对应的子初始对抗样本，将所有子初始对抗样本混合得到所述初始对抗样本；

9.一种存储介质，其上存储有计算机指令，其特征在于：所述计算机指令运行时执行权利要求1～4中任一项所述的一种对抗样本生成方法的步骤。

10.一种装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1～4中任一项所述的一种对抗样本生成方法的步骤。