CN111783083A

CN111783083A - 一种防御算法的推荐方法及装置

Info

Publication number: CN111783083A
Application number: CN202010566935.1A
Authority: CN
Inventors: 李卓蓉; 封超; 吴明晖; 颜晖; 金苍宏
Original assignee: Zhejiang University City College ZUCC
Current assignee: Zhejiang University City College ZUCC
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-10-16
Anticipated expiration: 2040-06-19
Also published as: CN111783083B

Abstract

本发明公开了一种防御算法的推荐方法及装置，所述方法包括：获取待处理的原始图像数据；根据原始图像数据和实际应用需求选择图像识别模型；用预处理后的图像数据训练图像识别模型；针对识别模型生成多种对抗样本；利用多种对抗样本对识别模型实施攻击，并记录攻击结果；构建基于对抗训练的防御算法库；逐一应用对抗训练算法对识别模型进行防御训练；评估防御效果，并推荐防御算法。通过生成多种不同类型、不同强度的对抗样本并进行评估，可提前发现针对目标模型具有较强攻击性的对抗攻击类型，从而开展有针对性的防御训练；逐一对备选对抗训练方法进行定量评估并基于评估结果推荐有效的防御方法，可显著降低对抗攻击给模型造成的损失。

Description

一种防御算法的推荐方法及装置

技术领域

本发明涉及机器学习方法的安全技术领域，具体涉及一种对抗训练防御算法推荐方法及装置。

背景技术

随着数据规模和计算能力的急速增长，人工智能技术蓬勃发展。机器学习作为人工智能系统的核心，广泛应用于计算机视觉、自然语言处理、语音识别、自动驾驶等领域并取得良好识别效果。然而，最新研究发现深度神经网络容易受到对抗样本攻击，即，在正常样本中添加精心设计的不明显扰动，能够导致原本高识别率的机器学习模型彻底失效。

对抗样本给实际应用场景带来了巨大安全威胁，例如，对于基于人脸识别的身份验证系统，攻击方可利用对抗样本非法获得授权；在自动驾驶场景中，攻击方可利用对抗样本误导系统对交通信号的识别从而造成交通事故，等等。因此，针对机器学习模型的脆弱性建立更好的防御机制迫在眉睫。

大部分防御算法是在单一类型的对抗样本攻击下开展研究的，因此仅对特定攻击有效而对其他攻击缺乏普适性，然而，实际应用中往往同时存在着多种对抗样本攻击。此外，对于极少数能同时适用于若干种攻击的防御方法，往往无法取得优于针对性防御训练的防御性能。

发明内容

本发明实施例的目的是提供一种防御算法的推荐方法及装置，以解决现有技术存在的对不同类型对抗样本攻击缺乏普适性，以及对特定对抗攻击样本防御性能欠佳的问题，以提高机器学习模型在对抗攻击环境下的鲁棒性和准确性。

第一方面，本发明实施例提供一种防御算法的推荐方法，包括：

获取待处理的原始图像数据；

根据所述原始图像数据和实际应用需求，选择图像识别模型；

对所述原始图像数据进行预处理，用预处理后的图像数据训练图像识别模型；

针对图像识别模型生成多种对抗样本；

利用多种对抗样本对图像识别模型实施攻击，并记录攻击结果；

构建基于对抗训练的防御算法库；

逐一应用对抗训练算法对图像识别模型进行防御训练；

评估防御效果，并推荐防御算法。

进一步地，对所述原始图像数据进行预处理，包括：

获取所述原始图像数据的特征表示；

利用随机信号对所述原始图像数据进行翻转；

根据所述图像识别模型的数据输入要求，对翻转后的图像数据进行缩放；

利用随机信号对缩放后的图像数据进行截取；

利用随机信号对截取后的图像数据进行填充；

对填充后的图像数据进行归一化处理。

进一步地，生成多种对抗样本，包括：

构建对抗攻击方法库，该方法库包括如下攻击方法：L-BFGS算法、快速梯度符号法、DeepFool和投影梯度下降法；

根据所述预处理后的原始图像数据x和所述图像识别模型，逐一选取攻击方法库中的攻击方法产生对应的对抗扰动ρ，ρ＝R(x，θ)，其中，θ是识别模型的参数化表示，R表示攻击方法；

生成对应的对抗样本x′，x′＝x+ρ。

进一步地，利用多种对抗样本对图像识别模型实施攻击，并记录攻击结果，包括：

将对抗样本x′＝x+ρ输入图像识别模型，并输出分类结果

其中，

表示识别模型的分类结果；

在所述攻击为非定向攻击时，若满足

对抗样本x′＝x+ρ是有效的攻击样本，该攻击是成功的攻击，记录攻击结果；

在所述攻击为定向攻击时，若满足

该对抗样本x′＝x+ρ是有效的攻击样本，该攻击是成功的攻击，记录攻击结果，其中，

表示目标类别。

进一步地，所述防御算法库包括：朴素对抗训练算法、基于逻辑向量匹配的对抗训练算法、基于激活特征图匹配的对抗训练算法，以及基于梯度匹配的对抗训练算法。

进一步地，构建基于对抗训练的防御算法库，包括：

构建模型识别原始样本的分类损失函数

构建模型识别对抗样本的分类损失函数

构建原始样本与对抗样本的抽象表征匹配损失函数

构建模型正则项

通过不同组合方式形成不同的基于对抗训练的防御算法：

其中α，β，γ和δ分别是各个损失项的权重系数；

通过集成多种基于对抗训练的防御算法，构建基于对抗训练的防御算法库。

进一步地，构建原始样本与对抗样本的抽象表征匹配损失函数，包括：

将原始样本在分类模型预设层的表征与对抗样本在分类模型预设层的表征进行匹配，将二种表征之间的距离作为抽象表征匹配损失函数，形式化表示如下：

其中，

表示均方误差，g(x)表示分类模型对图像数据的表征。

进一步地，进行防御训练，包括：

将所述的有效攻击样本与原始样本一起作为图像识别模型的防御训练数据集；

根据防御训练数据集，逐一应用防御算法库中的对抗训练算法对识别模型进行训练。

进一步地，评估防御效果，包括：

根据如下量化评估指标，对防御效果进行评估：

其中

表示任意图像识别模型M的对抗分类准确率，TP表示图像识别模型正确分类的原始样本数量，TN表示图像识别模型正确分类的对抗样本数量，FP表示图像识别模型错误分类的原始样本数量，FN表示图像识别模型错误分类的对抗样本数量；

防御效果

其中，

表示防御训练后的图像识别模型的对抗分类准确率，

表示防御训练前的图像识别模型的对抗分类准确率。

第二方面，本发明实施例提供一种防御算法的推荐装置，包括：

获取单元，用于获取待处理的原始图像数据；

选择单元，用于根据所述原始图像数据和实际应用需求，选择图像识别模型；

第一训练单元，用于对所述原始图像数据进行预处理，利用预处理后的图像数据对图像识别模型进行分类训练；

对抗样本生成单元，用于针对图像识别模型生成多种对抗样本；

攻击单元，用于利用多种对抗样本对图像识别模型实施攻击，并记录攻击结果；

防御算法构建模块，用于构建基于对抗训练的防御算法库；

第二训练单元，用于逐一应用对抗训练算法对识别模型进行防御训练；

评估推荐单元，用于评估防御效果，并推荐防御算法。

根据以上技术方案，本发明各实施例提出的防御算法的推荐方法及装置，所述方法通过生成多种不同类型、不同强度的对抗样本并进行评估，可提前发现针对目标模型具有较强攻击性的对抗攻击类型，从而开展有针对性的防御训练；逐一对备选对抗训练方法进行定量评估并基于评估结果推荐有效的防御方法，可显著降低对抗攻击给模型造成的损失。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明第一实施例提供的防御算法的推荐方法流程示意图；

图2为本实施例中对抗样本示例，其中，(a)是原图，(b)是各种攻击方法对原图进行攻击产生的对抗扰动，(c)是对应的对抗样本，即，原图与对抗扰动的逐点像素值之和；

图3为本发明第二实施例提供的防御算法的推荐装置的框图；

图4为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了更清晰地说明本发明的技术方案，下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行进一步描述。显然，本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式，或硬件和软件方面结合的实施方式。

实施例1：

请参照图1，图1是本发明第一实施例提供的一种防御算法的推荐方法的流程图，下面将对图1所示的流程进行详细阐述，所述方法包括：

步骤S100：获取待处理的原始图像数据。

在本实施例中，通过配置有数据线的非暂态计算机可读存储介质，例如U盘，移动硬盘等，通过通信接口140将待处理的原始数据输入到电子设备100的处理器120中。

具体地，包括以下子步骤：

步骤S110：获取所述原始图像数据的特征表示。

作为一种实施方式，步骤S110包括：获取所述图像数据在R、G、B(Red,Green,Blue)三个通道上的数据矩阵。由于图像数据的任一像素点的颜色都可通过R、G、B的辐射量的加法模式进行描述，其中，R、G、B的取值范围均为0-255，0表示没有刺激量，255表示刺激量达最大值，因此，任何图像数据都可通过R、G、B三个通道的数据矩阵表示，从而数据格式得到统一。例如，对于32x32个像素点的图像数据，其R通道特征可通过32x32矩阵表示，该矩阵每个元素取值范围为0-255，G通道、B通道同理。

步骤S120：利用随机信号对所述原始图像数据进行翻转。

在实际实施过程中，由于训练数据不足会造成模型过拟合问题，因此，利用随机信号对所述图像数据进行翻转可扩充数据集，从而缓解过拟合问题。步骤S120可以是但不限于随机水平翻转、或随机垂直翻转。在本实施例中，先实施随机水平翻转，然后实施随机垂直翻转。在其他实施例中，可以仅采用其中一种翻转方式，也可以以任意次序组合不同翻转方式。

步骤S130：根据所述图像识别模型的数据输入要求，对翻转后的图像数据进行缩放。

在实际实施过程中，由于模型对输入图像的尺寸有统一要求而获取图像数据尺寸不一，因此需要对图像数据进行缩放。步骤S130可以采用双线性插值法，或最近邻插值法，或双立方插值法将原始图像数据尺寸调整至符合模型的输入尺寸要求：[W,H]，其中W表示宽度，H表示高度。在本实施例中，采用双线性插值法。

步骤S140：利用随机信号对缩放后的图像数据进行截取。

作为一种实施方式，S140包括：在前述缩放操作后的图像的随机位置裁剪出0.8*[W,H]大小的图像。在其他实施例中，乘数不限于0.8，可以是0.5-1之间的任意数。

步骤S150：利用随机信号对截取后的图像数据进行填充。

在实际实施过程中，S150包括：用黑色像素对前述截取操作后的图像的上、下、左、右边缘进行填充，直至图像尺寸为目标尺寸。例如，若随机位置为(0.1*W,0.1*H)，则在图像的上、下、左、右分别进行尺寸为[W,0.1*H]、[W,0.1*H]、[0.1*W,0.8*H]和[0.1*W,0.8*H]的填充，其中，随机位置指的是所述截取图像的左上角在尺寸为[W,H]的图像的位置。

步骤S160：对填充后的图像数据进行处理归一化处理。

作为一种实施方式，可以根据下式进行归一化处理：

其中，a′是归一化处理后的像素值，a是原来像素值，μ是图像像素均值，σ是像素标准差。

步骤S200：根据所述原始图像数据和实际应用需求，选择图像识别模型。

具体地，本实施例对CIFAR-10数据集进行图像分类，CIFAR-10数据集中每张图像尺寸为32x32x3，本实施例采用如下基于深度神经网络的图像识别模型：

其中，网络层设置中，3x3表示卷积核大小，卷积核大小后面的参数是特征通道数量，如：16，160，320和640；输入尺寸和输出尺寸各参数分别表示：特征图的宽，高，通道数量。除特别说明池化层、全连接层、softmax层，其他均为卷积层。

表示1个残差模块，该残差模块中包含6个同样的结构

该结构中包含2个参数为[3×3,160]的卷积层。

其中，多个卷积层堆叠构成的残差模块可通过如下方式表示，例如，

表示该残差。

步骤S300：对所述原始图像数据进行预处理，用预处理后的图像数据训练图像识别模型。

具体地，作为一种实施例，图像识别模型的训练参数如下：最大迭代次数：40000；批处理样本数：64；衰减系数：0.0002，动量项：0.9。

步骤S400：针对图像识别模型生成多种对抗样本。

具体地，在实际实施过程中，基于对抗训练的防御方法对模型防御性能的改善很大程度取决于用于对抗训练的对抗样本种类和攻击强度，因此，为增加本发明实施例提供的防御算法的推荐方法的普适性，本实施例构建的对抗攻击方法库包含多种攻击性较强的对抗攻击方法：L-BFGS算法、快速梯度符号法、DeepFool和投影梯度下降法。请参考图2，图2为本发明实施例提供的对抗样本示例，图2(a)为原图，(b)为各种攻击方法对原图进行攻击产生的对抗扰动，从上到下依次通过L-BFGS算法、快速梯度符号法、DeepFool和投影梯度下降法生成，(c)是对应的对抗样本，即，原图与对抗扰动的逐点像素值之和。在其他实施例中，对抗攻击方法库可以包含其他对抗攻击方法。

进一步地，根据所述预处理后的原始图像数据x和所述图像识别模型，逐一选取攻击方法库中的攻击方法产生对应的对抗扰动ρ，ρ＝R(x，θ)，其中，θ是识别模型的参数化表示，R表示攻击方法；

生成对应的对抗样本x′，x′＝x+ρ。

图2为根据本实施例构建的对抗攻击方法库中的对抗攻击方法生成的对抗样本示例，其中，(a)是原图，(b)是各种攻击方法对原图进行攻击产生的对抗扰动，(c)是对应的对抗样本，即，原图与对抗扰动的逐点像素值之和；

步骤S500：利用多种对抗样本对识别模型实施攻击，并记录攻击结果，具体包括以下子步骤：

步骤S510：利用多种对抗样本对识别模型实施攻击。

作为一种实施例，当识别模型是分类模型时，S510包括：将对抗样本x′＝x+ρ输入分类模型，并输出分类结果

其中，

表示识别模型的分类结果。在其他实施例中，识别模型可以是图像分割模型。

步骤S520：记录攻击结果。

作为一种实施例，在识别模型是分类模型时，在攻击是定向攻击时，若满足

对抗样本x′＝x+ρ是有效的攻击样本，该攻击是成功的攻击，记录攻击结果，其中，

表示目标类别。

作为一种实施例，在识别模型是分类模型时，在攻击是非定向攻击时，若满足

该对抗样本x′＝x+ρ是有效的攻击样本，该攻击是成功的攻击，记录攻击结果。

步骤S600：构建基于对抗训练的防御算法库。

作为一种实施例，基于对抗训练的防御算法库包括：朴素对抗训练算法、基于逻辑向量匹配的对抗训练算法、基于激活特征图匹配的对抗训练算法，以及基于梯度匹配的对抗训练算法。

具体地，该步骤包括以下子步骤：

步骤S610：构建模型识别原始样本的分类损失函数

作为一种实施例，模型识别原始样本的分类损失函数

可以是交叉熵损失函数：

其中，y代表样本的类别y_i是类别i的真实标签，p_i是softmax函数计算出来的类别i的概率值，k是类别数，n是原始样本数量，log(·)是对数函数。

在其他实施例中，模型识别原始样本的分类损失函数

也可以是Hinge损失，Softmax损失，或指数损失等。

步骤S620：构建模型识别对抗样本的分类损失函数

作为一种实施例，模型识别对抗样本的分类损失函数

可以是交叉熵损失函数：

其中，m是对抗样本数量。

在其他实施例中，模型识别对抗样本的分类损失函数

也可以是Hinge损失函数，Softmax损失函数，或指数损失函数等。

步骤S630：构建原始样本与对抗样本的抽象表征匹配损失函数

作为一种实施例，S630包括：将原始样本在分类模型预设层的表征与对抗样本在分类模型预设层的表征进行匹配，将所述二种表征之间的距离作为抽象表征匹配损失函数，形式化表示如下：

其中，

表示均方差，g(x)表示分类模型对图像数据的表征，所述表征包括但不限于逻辑向量，激活特征图，梯度。

步骤S640：构建模型正则项

在实际实施过程中，为防止模型过拟合，需要对模型参数进行约束。作为一种实施例，

其中，θ是模型的参数，||·||₂表示

范数。

步骤S650：通过不同组合方式构建多种基于对抗训练的防御模型。

在实际操作中，机器学习模型的防御训练通过优化损失函数来实现，因此，可以通过对所述损失项的不同组合构建防御模型的损失函数。作为一种实施例，S650包括：构建一个加性模型：

其中α，β，γ和δ分别是各个损失项的权重系数。

作为一种实施例，S650包括：通过如下方式构建朴素对抗训练防御模型：

作为一种实施例，S650包括：通过如下方式构建基于逻辑向量匹配的对抗训练防御模型：

其中，g₁(·)表示分类模型的逻辑输出。

作为一种实施例，S650包括：通过如下方式构建基于激活特征图匹配的对抗训练防御模型：

其中，g₂(·)表示网络预设层的激活函数，形式化表示为：

其中A_i是特征图A的一个通道，C是特征图层的通道数。在本实施例中，选取最后网络最后一个卷积层作为预设层，因此，激活特征图A大小为7*7，通道数为512。

作为一种实施例，S650包括：通过如下方式构建基于梯度匹配的对抗训练防御模型：

其中，g₃(·)表示梯度，形式化表示为：

其中，

表示交叉熵函数。

步骤S700：逐一应用对抗训练算法对识别模型进行防御训练，具体包括以下子步骤：

步骤S710：更新训练集，将所述的有效攻击样本与原始样本一起作为识别模型的防御训练数据集。

在实际实施过程中，原始样本数量与对抗样本数量的比例为1:1。

步骤S720：根据防御训练数据集，逐一应用防御算法库中的对抗训练算法对识别模型进行训练。

在实际实施过程中，逐一应用所述朴素对抗训练算法、基于逻辑向量匹配的对抗训练算法、基于激活特征图匹配的对抗训练算法，以及基于梯度匹配的对抗训练算法。

步骤S800：评估防御效果，并推荐防御算法。

作为一种实施例，评估防御效果，包括：利用L-BFGS算法、快速梯度符号法、DeepFool和投影梯度下降法多种对抗攻击方法生成对抗样本，对经过防御训练的识别模型实施攻击，并记录攻击结果；

进一步地，根据如下量化评估指标，对防御效果进行评估：

其中

进一步地，防御效果表示为：

其中，

表示防御训练后的图像识别模型的对抗分类准确率，

表示防御训练前的图像识别模型的对抗分类准确率。

实施例2：

请参照图3，图3是本发明第二实施例提供的一种防御算法的推荐装置300的结构框图。所述推荐装置存储于如图4所述的电子设备100，下面将对图3所示的结构框图进行阐述，所示装置包括：

获取单元410，用于获取待处理的原始图像数据；

选择单元420，用于根据所述原始图像数据和实际应用需求，选择图像识别模型；

第一训练单元430，用于对所述原始图像数据进行预处理，利用预处理后的图像数据对图像识别模型进行分类训练；

对抗样本生成单元440，用于针对图像识别模型生成多种对抗样本；

攻击单元450，用于利用多种对抗样本对图像识别模型实施攻击，并记录攻击结果；

防御算法构建模块460，用于构建基于对抗训练的防御算法库；

第二训练单元470，用于逐一应用对抗训练算法对识别模型进行防御训练；

评估推荐单元480，用于评估防御效果，并推荐防御算法。

本实施例对对抗样本的防御装置300的各功能单元实现各自功能的过程，请参见上述图1所示实施例中描述的内容，此处不再赘述。

综上所述，本发明各实施例提出的防御算法的推荐方法及装置，所述方法通过生成多种不同类型、不同强度的对抗样本并进行评估，可提前发现针对目标模型具有较强攻击性的对抗攻击类型，从而开展有针对性的防御训练；逐一对备选对抗训练方法进行定量评估并基于评估结果推荐有效的防御方法，可显著降低对抗攻击给模型造成的损失。

图4是本发明实施例提供一种电子设的结构示意图，所述电子设备100可以是个人计算机，服务器，移动终端，或者网络设备等。上述的推荐方法应用于如图4所示的电子设备100。

如图4所示，电子设备100以通用计算设备的形式表现。所述电子设备100可以包括但不限于：防御算法的推荐装置300、输入输出单元110、处理器120、存储器130、通信接口140、显示单元150，各个元件之间通过总线160直接或间接地电性连接并完成通信。图1显示的电子设备100仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

所述防御算法的推荐装置300可以以软件形式存储在所述存储器130中，也可以固化在客户端设备的操作系统的软件功能模块中。

所述存储器130可以是，但不限于，U盘，移动硬盘，CD-ROM等。其中，存储器130可用于存储计算机指令，所述计算机指令可以被所述处理器120执行，使得处理器120执行该计算机指令时，本发明实施例的任一步骤可以被实现。例如，所述处理器120可以执行如图1所示的步骤S100：获取待处理的原始图像数据；S200：根据原始图像数据和实际应用需求选择图像识别模型；S300：用预处理后的图像数据训练图像识别模型；S400：针对识别模型生成多种对抗样本；S500：利用多种对抗样本对识别模型实施攻击，并记录攻击结果；S600：构建基于对抗训练的防御算法库；S700：逐一应用对抗训练算法对识别模型进行防御训练；S800：评估防御效果，并推荐防御算法。

所述处理器120可以是通用型中央处理器(CPU)，单片机(MCU)，数字信号处理器(DSP)，也可以是特定应用集成电路ASIC、现场可编程逻辑门阵列(FPGA)。所述处理器120用于执行所述存储器130中存储的可执行模块，如：所述推荐装置包括的计算机指令或软件功能模块。所述处理器120可以实现或者执行本发明实施例中的各方法、各步骤及逻辑框图。

所述输入输出单元110，可以是，但不限于，鼠标和键盘等。用于提供用户输入数据，实现用户与所述电子设备100的交互。

所述通信接口140将所述输入输出单元110以及所述显示单元150耦合至所述存储器130以及所述处理器120。

在其他可能的实施方式中，通信接口140还可能实现所述电子设备与其他设备之间的通信连接。

所述显示单元150可以是液晶显示器，用于向用户显示数据。

在其他可能的实施方式中，所述显示单元150还可能是触控显示器，提供给用户与电子设备100进行交互。

所述总线160可以为表示总线结构中的一种或多种，包括存储器总线或存储器控制线、外围总线、图像加速端口、处理器或使用多种总线结构中任意总线结构的局域总线。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。