CN112766336A

CN112766336A - 一种最大化随机平滑下提高模型可验证防御性能的方法

Info

Publication number: CN112766336A
Application number: CN202110028632.9A
Authority: CN
Inventors: 夏松; 单海军; 鲍虎军
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-05-07

Abstract

本发明属于深度学习安全领域，涉及一种最大化随机平滑下提高模型可验证防御性能的方法，包括：步骤1、基于可微的连续映射函数推导出平滑分类器可验证防御半径与原始分类器输出之间的梯度关系；步骤2、采用平滑映射生成在可行域极值处的无穷小乘项与概率阈值限制可验证防御梯度值爆炸；步骤3、基于防御性能与准确率梯度推导可求解的目标函数；步骤4、基于目标优化函数对模型进行鲁棒性训练以实现最大化模型可验证防御。本发明通用于任意的深度学习以及机器学习分类器，首次求解了随机平滑技术下平滑分类器的可验证防御性能与原始分类器输出之间的梯度关系，解决了求解过程梯度爆炸问题，极大地提升了随机平滑下模型鲁棒性的训练效率。

Description

一种最大化随机平滑下提高模型可验证防御性能的方法

技术领域

本发明属于深度学习安全领域，涉及一种最大化随机平滑下提高模型可验证防御性能的方法。

背景技术

深度学习技术的出现给诸多领域带来了突破性的发展。然而现有深度学习鲁棒性较差，训练好的模型极易被微小篡改后生成的对抗样本误导，从而做出错误的决策，在某些领域将造成巨大的损失。因而，增强深度学习对对抗样本的鲁棒性，是提升其应用领域安全性的关键步骤。

当前主流的对抗样本防御方法可分为两大类：非可验证防御与可验证防御。对抗训练能提供最有效的非可验证防御，然而此类方法需要耗费巨大的训练时间成本，同时，其所提供的防御存在诸多安全漏洞：模型极易被未知的对抗样本所攻破。基于随机平滑技术的对抗样本防御方法能给大型神经网络带来可验证防御：其严谨地证明了在所提供的防御半径内，不存在任何有效的对抗样本攻击，因此可以最大程度地保证模型的安全运行。然而，由于该技术在训练模型过程中优化目标方向存在偏差，导致可验证防御性能训练效率较低。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提供了一种最大化随机平滑下提高模型可验证防御性能的方法，其具体技术方案如下。

一种最大化随机平滑下提高模型可验证防御性能的方法，包括以下步骤：

步骤1、基于可微的连续映射函数推导出平滑分类器可验证防御半径与原始分类器输出之间的梯度关系；

步骤2、采用平滑映射生成在可行域极值处的无穷小乘项与概率阈值限制可验证防御梯度值爆炸；

步骤3、基于防御性能与准确率梯度推导可求解的目标函数；

步骤4、基于目标优化函数对模型进行鲁棒性训练以实现最大化模型可验证防御。

进一步的，所述步骤1具体包括：

步骤1.1、定义平滑分类器：对于任意神经网络分类器f，在随机平滑后生成相应的平滑分类器g，所述平滑分类器g定义为：

平滑分类器g(x)会返回原始分类器f在高斯噪声分布(x+ε)上预测概率期望最大的类别；其中，ε为均值是0的方差为σ²的各向同性高斯噪声，f_θ(x+ε)_c是原始分类器对于输入样本的预测结果；M为映射函数，其将原始分类器的输出映射为[0，1]间的概率值；c为class，表示某一类别，y为数据集的类别标签集合，c∈y表示当输入样本的类别属于数据集所有样本类别标签集合；E为求解分类器对输入变量x+ε～N(x,σ²I)的期望值，x为样本，N(x,σ²I)为样本x添加高斯噪声ε生成的对应的高斯分布，I为单位矩阵；

步骤1.2、求解平滑分类器的防御半径与原始分类器输出f_θ(x+ε)之间的数学表达：根据随机平滑技术理论，平滑分类器的防御半径R与预测概率期望P关系为：

对某一类别预测概率期望的定义为：

其中，σ为所添加高斯噪声的标准差，Φ为高斯累计密度分布函数，P_A 与

为对预测概率期望的向上与向下估计，A为获得最大预测概率的类别，B为第二大预测概率的类别，由于概率的和值(P_A+P_B)≤1，因此

表征为(1-P_A )，则可验证的防御半径简化为：R＝σ*Φ^-1(P_A )，所述可验证的防御半径R，其物理意义为：

g(x+δ)＝g(x)，即对于任意二范数小于R的对抗扰动δ，平滑分类器对该对抗样本x+δ的分类结果g(x+δ)始终与对原始样本x的分类结果g(x)相同；基于对可验证防御半径R的推导和鲁棒性前提是将原始图片正确分类，得到防御半径R与原始分类器输出f_θ(x+ε)的准确关系应表征为

其中1_(·)是指示函数，当输入的布尔函数是true时，返回1，否则返回0；

步骤1.3、通过随机采样估计高斯分布x+ε最大类别的预测概率期望P_c：通过随机采样分布中n个样本点来估计整个分布，进而求解期望的近似解，其表达如下：

步骤1.4、通过可微分的映射函数M求解防御半径R的梯度值

根据所解的R与P_c，推导出梯度值

的值如下：

其中，

为所选可微分映射函数的梯度，由于Φ^-1(P_c)的值在P_c趋近于1接近于无穷大，因此上述表达在可行域内可能存在无穷大解，即梯度爆炸。

进一步的，所述步骤2具体包括：

步骤2.1、挑选映射函数M以平滑梯度值

通过选取映射函数M，使得

在P_c趋近于1时值接近于0，实现对

的平滑；当映射函数M为SoftMax函数时，

的表达式为P_c*(1-P_c)，其值在P_c为1的情况下为0，满足平滑映射要求；

步骤2.2、设定P_c的最大阈值ρ限制梯度爆炸：由于

是比(1-P_c)高阶的无穷值，P_c越趋近于1时，SoftMax映射的平滑效果越小，因此对概率P_c的最大阈值设定一个上限ρ，具体地，ρ最佳的取值范围为0.99-0.9999，其中，过小的ρ会导致R的优化过程存在过大偏差；

进一步的，所述步骤3具体包括：

选用交叉熵损失作为模型对干净样本分类准确率的损失函数，最大化模型可验证防御性能的目标优化函数表达式为：

where,

其中，β为鲁棒性与准确率的平衡因子，D为整个数据集空间，ACC表示的是准确率损失值，具体的表征为

其中{g_θ(x)≠y}表示的为判决条件

指的是当满足{g_θ(x)≠y}条件，即分类错误的时候，判决值为1，反之判决值为0；

通过求解上述优化函数来最大化平滑分类器的可验证鲁棒性。

进一步的，所述步骤4具体包括：

步骤4.1、对输入样本进行预处理：在样本输入前先对每一个样本x添加均值为0，方差为σ²各项同性的高斯噪声ε，以生成对应的高斯分布N(x,σ²I)，然后从分布中采样n个点，生成对应的样本集合{x₁',...,x'_n}，其中x'_n＝x+ε_n，再将每一个样本集合作为独立数据输入神经网络；

步骤4.2、计算神经网络对于每一个样本集合的预测概率期望：将样本集合中的每一个样本点x'_n分别输入到神经网络进行计算，得到输出结果，具体的：对于多分类模型，将其最后一层全连接层输出f_θ(x'_n)作为计算结果，通过SoftMax映射得到每一个样本点的预测概率值M_SoftMax(f_θ(x'_n))，计算样本集中所有的点概率平均值得到模型对该样本集的概率期望P；

步骤4.3、计算每一个batch中目标函数的梯度，并基于随机梯度下降算法更新网络参数：根据batch中所有样本集的预测概率期望，求得当前模型参数下目标函数的梯度值为：

其中，e是指数函数，D_batch为整个数据空间中一个batch_size的数据集合。

本发明的有益效果：

本发明首次求解了随机平滑技术下平滑分类器的可验证防御性能与原始分类器输出之间的梯度关系，解决了其无法在训练过程中最大化的可验证防御性能的问题；其次，提出了平滑映射与概率阈值结合的策略，进一步优化了可验证防御性能的梯度，解决了求解过程梯度爆炸问题，使更易于随机梯度下降算法求解；最后，推导了最大化可验证防御性能目标函数与相应的鲁棒性训练，极大地提升了随机平滑下模型鲁棒性的训练效率；本方法在Cifar10与ImageNet上对ResNet模型进行了测试并对比同类最优方法，结果表明，基于本发明的方法能极大地提升可验证防御性能的训练效率。

本发明不涉及对模型本身的要求，通用于任意的深度学习以及机器学习分类器，且其效率远高于其他同类方法。

附图说明

图1是本发明的执行流程示意图；

图2是是本发明最大化可验证防御性能的训练框架示意图；

图3是本发明使用平滑映射与概率阈值前的梯度示意图；

图4是本发明使用平滑映射与概率阈值后的梯度示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

如图1-4所示，一种最大化随机平滑下提高模型可验证防御性能的方法，包括：

步骤1、计算平滑分类器的可验证防御半径与原始分类器输出之间的梯度关系：由于现有随机平滑技术的可验证防御半径与原始分类器输出之间不存在可计算的梯度，导致在训练过程中无法最大化可验证防御性能，为保留平滑分类器可验证防御半径与原始分类器输出之间的梯度信息，采用可微的连续映射函数替代了原技术中离散的映射函数，解决离散映射梯度丢失的问题，推导出平滑分类器可验证防御半径与原始分类器输出之间的梯度关系，具体包括：

步骤1.1、定义平滑分类器：对于任意神经网络分类器f，在随机平滑后可以生成相应的平滑分类器g，其定义为：

平滑分类器g(x)会返回原始分类器f在高斯噪声分布(x+ε)上预测概率期望最大的类别。其中，ε为均值是0的方差为σ²的各向同性高斯噪声，f_θ(x+ε)_c是原始分类器对于输入样本的预测结果；M为映射函数，其将原始分类器的输出映射为[0，1]间的概率值；c为class，表示某一类别，y为数据集的类别标签集合，c∈y表示当输入样本的类别属于数据集所有样本类别标签集合；E为求解输入分类器对变量x+ε～N(x,σ²I)的期望值，x为样本，N(x,σ²I)为样本x添加高斯噪声ε生成的对应的高斯分布，I为单位矩阵。

对某一类别预测概率期望的定义为：

可以表征为(1-P_A )，则可验证的防御半径可以简化为：R＝σ*Φ^-1(P_A )，对于可验证的防御半径R，其物理意义为：

g(x+δ)＝g(x)，即对于任意二范数小于R的对抗扰动δ，平滑分类器对该对抗样本x+δ的分类结果g(x+δ)始终与对原始样本x的分类结果g(x)相同；基于上述对可验证防御半径R的推导，并考虑到鲁棒性前提是将原始图片正确分类，因此，防御半径R与原始分类器输出f_θ(x+ε)的准确关系应表征为：

其中1_(·)是指示函数，如果输入的布尔函数是true，则返回1，否则返回0。

步骤1.3、通过随机采样估计高斯分布x+ε最大类别的预测概率期望P_c：由于神经网络的输入是一个高斯分布x+ε，无法枚举所有可能输入以求解该预测概率期望值的真实值，因而，通过随机采样分布中n个样本点来估计整个分布，进而求解期望的近似解，其表达如下：

步骤1.4、通过可微分的映射函数M求解防御半径R的梯度值

根据步骤1.2和步骤1.3所解的R与P_c，推导出梯度值

的值如下：

其中，

为所选可微分映射函数的梯度，由于Φ^-1(P_c)的值在P_c趋近于1接近于无穷大，因此上述表达在可行域内可能存在无穷大解，即梯度爆炸问题。

步骤2、采用平滑映射生成在可行域极值处的无穷小乘项与概率阈值限制可验证防御梯度值爆炸：由于步骤一所得的梯度值在可行域内存在无穷值，因此直接通过梯度下降算法训练模型容易产生梯度爆炸现象；因此采用了平滑映射与概率阈值对梯度进行了优化，解决其可行域内梯度爆炸问题，具体包括：

步骤2.1、挑选映射函数M以平滑梯度值

的爆炸现象主要发生在P_c趋近于1时，因此，通过选取合适的映射函数，使得

在P_c趋近于1时值接近于0，实现对

的平滑；当映射函数M为SoftMax函数时，

步骤2.2、设定P_c的最大阈值ρ限制梯度爆炸：由于

是比(1-P_c)高阶的无穷值，P_c越趋近于1时，SoftMax映射的平滑效果越小，因此对概率P_c的最大阈值设定一个上限ρ，具体地，ρ最佳的取值范围为0.99-0.9999，其中，过小的ρ会导致R的优化过程存在过大偏差。

步骤3、基于防御性能与准确率梯度推导可求解的目标函数，实现分类准确率与鲁棒性的联合优化：由于可验证鲁棒性的前提条件是平滑分类器对干净图片正确分类，因而为获得更大的可验证鲁棒性，应保证模型对尽可能多的干净样本分类正确，选用交叉熵损失作为分类准确率的损失函数，其目标优化函数表达如下：

where,

其中{g_θ(x)≠y}表示的为判决条件

步骤4、基于目标优化函数对模型进行鲁棒性训练以实现最大化模型可验证防御：对数据集中的每个样本添加预设的各向同性高斯噪声生，以成对应的高斯分布，并通过随机采样n个样本得到对应的样本集合，随后计算模型对每一个样本集合预测概率值的期望，基于期望值计算当前参数下模型的可验证防御半径，并对误差进行反向传播更新模型参数。

步骤4.1、对输入样本进行预处理：考虑到可验证防御半径的计算涉及对高斯噪声污染后分布预测概率的期望估计，因此，在样本输入前应先对每一个样本x添加均值为0，方差为σ²各项同性的高斯噪声ε，以生成对应的高斯分布N(x,σ²I)，再从分布中采样n个点，生成对应的样本集合{x₁',...,x'_n}，其中x'_n＝x+ε_n，最后将每一个样本集合作为独立数据输入神经网络。

步骤4.2、计算神经网络对于每一个样本集合的预测概率期望：将样本集合中的每一个样本点x'_n分别输入到神经网络进行计算，得到输出结果，具体的：对于多分类模型，将其最后一层全连接层输出f_θ(x'_n)作为计算结果，通过SoftMax映射得到每一个样本点的预测概率值M_SoftMax(f_θ(x'_n))，计算样本集中所有的点概率平均值得到模型对该样本集的概率期望P。

将以在Cifar10与ImageNet数据集上分别最大化ResNet110和ResNet50的可验证防御性能作为实际任务对本发明的技术方案做进一步的详细描述。

在Cifar10上，采用了ResNet110网络，并设定最外层输出通道数为10。基于所提出的最大化可验证防御目标函数，本发明实验采用了SGD随机梯度下降算法对模型进行优化，其训练的总轮次为70轮，初始学习率为0.01，并在第40轮和第60轮乘上0.1的衰减系数。对于输入样本，对其添加了均值为0，方差σ²分别为0.25和0.50的高斯噪声，并设定随机采样点的个数为16。在ImageNet上，本实验采用了ResNet50网络，并设定最外层输出通道数为1000。基于所提出的最大化可验证防御目标函数，采用了SGD随机梯度下降算法对模型进行优化，其训练的总轮次为35轮，初始学习率为0.01，并在第25轮和第30轮乘上0.1的衰减系数。对于输入样本，对其添加了均值为0，方差σ²分别为0.25和0.50的高斯噪声，并设定随机采样点的个数为2。

本发明将最终两个模型的分类准确率，平均可验证防御半径与训练总时间与该领域同类最优的工作进行了对比，其具体信息如下表所示：

其结果表明，对比随机平滑结合对抗训练增强可验证防御性能的方法，在Cifar10数据集上，本发明仅用了11.1％的训练时间达到了近似的可验证防御性能，且在噪声方差为0.25的情况下提升了2.0％的分类准确率，在噪声方差为0.50的情况下提升了8.0％的分类准确率。在ImageNet数据集上，本发明仅用了17.2％的训练时间就达到了近似的可验证防御性能，且在噪声方差为0.25的情况下提升了2.0％的分类准确率，在噪声方差为0.50的情况下提升了3.0％的分类准确率。

本发明不涉及对模型本身的要求，因此该防御方法通用于任意的深度学习以及机器学习分类器。此外，本方法通过直接最大化模型的可验证防御性能，因此其效率远高于其他同类方法。

Claims

1.一种最大化随机平滑下提高模型可验证防御性能的方法，其特征在于，包括以下步骤：

步骤3、基于防御性能与准确率梯度推导可求解的目标函数；

2.如权利要求1所述的一种最大化随机平滑下提高模型可验证防御性能的方法，其特征在于，所述步骤1具体包括：

平滑分类器g(x)会返回原始分类器f在高斯噪声分布(x+ε)上预测概率期望最大的类别；其中，ε为均值是0的方差为σ²的各向同性高斯噪声，f_θ(x+ε)_c是原始分类器对于输入样本的预测结果；M为映射函数，其将原始分类器的输出映射为[0，1]间的概率值；c为class，表示某一类别，y为数据集的类别标签集合，c∈y表示当输入样本的类别属于数据集所有样本类别标签集合；E为求解分类器在输入变量x+ε～N(x,σ²I)上的期望值，x为样本，N(x,σ²I)为样本x添加高斯噪声ε生成的对应的高斯分布，I为单位矩阵；

对某一类别预测概率期望的定义为：

步骤1.4、通过可微分的映射函数M求解防御半径R的梯度值

根据所解的R与P_c，推导出梯度值

的值如下：

其中，

3.如权利要求2所述的一种最大化随机平滑下提高模型可验证防御性能的方法，其特征在于，所述步骤2具体包括：

步骤2.1、挑选映射函数M以平滑梯度值

通过选取映射函数M，使得

在P_c趋近于1时值接近于0，实现对

的平滑；当映射函数M为SoftMax函数时，

步骤2.2、设定P_c的最大阈值ρ限制梯度爆炸：由于

是比(1-P_c)高阶的无穷值，P_c越趋近于1时，SoftMax映射的平滑效果越小，因此对概率P_c的最大阈值设定一个上限ρ，ρ最佳的取值范围为0.99-0.9999。

4.如权利要求3所述的一种最大化随机平滑下提高模型可验证防御性能的方法，其特征在于，所述步骤3具体包括：

其中{g_θ(x)≠y}表示的为判决条件

5.如权利要求4所述的一种最大化随机平滑下提高模型可验证防御性能的方法，其特征在于，所述步骤4具体包括：

步骤4.1、对输入样本进行预处理：在样本输入前先对每一个样本x添加均值为0，方差为σ²各项同性的高斯噪声ε，以生成对应的高斯分布N(x,σ²I)，然后从分布中采样n个点，生成对应的样本集合{x′₁,...,x′_n}，其中x′_n＝x+ε_n，再将每一个样本集合作为独立数据输入神经网络；

步骤4.2、计算神经网络对于每一个样本集合的预测概率期望：将样本集合中的每一个样本点x′_n分别输入到神经网络进行计算，得到输出结果，具体的：对于多分类模型，将其最后一层全连接层输出f_θ(x′_n)作为计算结果，通过SoftMax映射得到每一个样本点的预测概率值M_SoftMax(f_θ(x′_n))，计算样本集中所有的点概率平均值得到模型对该样本集的概率期望P；

其中，e为指数函数，D_batch为整个数据空间中一个batch_size的数据集合。