CN116484274A

CN116484274A - 一种针对神经网络算法投毒攻击的鲁棒训练方法

Info

Publication number: CN116484274A
Application number: CN202310363794.7A
Authority: CN
Inventors: 方永强; 张顺; 郭敏; 张箐碚; 桓琦; 曾颖明; 张海宾
Original assignee: Xidian University; Beijing Institute of Computer Technology and Applications
Current assignee: Xidian University; Beijing Institute of Computer Technology and Applications
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-07-25

Abstract

本发明涉及一种针对神经网络算法投毒攻击的鲁棒训练方法，属于人工智能安全技术领域。该方法包括步骤：构建神经网络；构建鲁棒训练损失函数；使用包含投毒样本的训练集对神经网络进行预训练，得到神经网络预训练模型；根据神经网络预训练模型，获得包含投毒样本的训练集被预测为真实标签的概率，过滤预测概率低于过滤阈值的样本，从而剔除投毒样本，得到干净的训练集；使用干净的训练集对神经网络预训练模型进行再训练，得到神经网络模型；对神经网络模型进行性能测试。本发明利用模型预测结果与单调递增函数实现样本权重的自适应更新，增大投毒样本与干净样本的权重差异，降低了神经网络模型拟合投毒样本的风险，提高神经网络模型分类的准确率。

Description

一种针对神经网络算法投毒攻击的鲁棒训练方法

技术领域

本发明属于人工智能安全技术领域，具体涉及一种针对神经网络算法投毒攻击的鲁棒训练方法。

背景技术

近年来，随着人工智能的快速发展，人工智能逐渐深入人们的日常生活，人类越来越依赖人工智能带来的高效与便捷，尤其是人脸识别、语音识别、自动驾驶等技术。与此同时，深度神经网络自身的安全性也吸引了越来越多的关注。其中非常重要的一类攻击为“投毒攻击”，即攻击者通过将带有精心制作的触发器和标签的样本混合到训练集中，投毒攻击可以控制神经网络在输入具有触发器的样本时分类为错误的目标类别，同时在输入正常样本时表现正常。投毒攻击的高隐蔽性和攻击可行性，给诸多人工智能应用埋下诸多安全隐患。因此，针对神经网络算法投毒攻击的鲁棒训练方法具有很大的现实意义。

华中科技大学在其申请的专利文献“抑制标签噪声的图像分类模型训练方法、分类方法及系统”(专利申请号：202010567241.X，公开号：CN111832627A)中提出了一种神经网络鲁棒训练方法。该方法首先将数据集划分为训练集和验证集，利用训练集对图像分类模型进行有监督训练，遍历训练集，获得各样本的在模型输出层产生的梯度，并估计梯度模长分布，以计算训练集中样本被错误标定的概率，由此划分出错误标定样本子集和正确标定样本子集，若错误标定样本过少，则利用正确标定样本子集对模型进行有监督训练，否则，舍弃错误标定样本的类别标签后，利用两个样本子集结合半监督学习算法更新模型参数，然后重复遍历训练集至更新模型参数的步骤直至模型收敛。该发明能够从样本层面降低神经网络模型拟合错标定样本的风险，提高图像分类的准确率。但是该方法依然存在的不足是：仅对不带有触发器的错误标签样本有效，无法针对带有触发器的错误标签样本进行鲁棒训练。

武汉大学在其申请的专利文献“基于图像特征分析的抵御神经网络后门攻击方法及系统”(专利申请号：202110398727.X，公开号：CN113205115A)中提出了一种神经网络鲁棒训练方法。该方法首先进行数据处理与模型初始化得到干净数据集，基于初始深度神经网络模型，进行良性数据特征共性分析，包括特征选择和特征提取，然后进行特征差异分析，基于质心防御策略初步筛选恶意数据，最后基于深度KNN防御策略二次筛查可疑数据本。该发明解决了传统人工筛查毒化样本方法不适用于基于隐蔽型触发器后门攻击的问题。该方法通过构建良性训练数据的特征共性，基于质心、深度KNN防御策略双重筛查待测数据是否与其对应标签的特征共性存在较大差异，有效降低后门攻击成功率，解决传统防御策略不足。但是该方法依然存在的不足是：首先对于语音、图像等数据集干净样本数据不易被提取，且基于欧式距离的特征差异分析并不是对所有数据类型都适用。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种针对神经网络算法投毒攻击的鲁棒训练方法，以降低投毒攻击成功率，使得模型不被注入后门，且不影响正常样本的识别。

(二)技术方案

为了解决上述技术问题，本发明提供了一种针对神经网络算法投毒攻击的鲁棒训练方法，包括以下步骤：

(1)构建神经网络：

(1a)根据实际应用场景进行神经网络结构设计和参数设计；

(1b)按照所设计的神经网络结构和参数进行神经网络构建；

(2)构建鲁棒训练损失函数：

鲁棒训练损失函数为其中k为样本类别数，p_i是指将样本输入到神经网络模型被预测为第i个类别的概率，/>表示样本标签的One-Hot编码，概率阈值θ是一个较小的值，/>是概率掩码，过滤掉概率值低于概率阈值θ的值，防止概率过小时，损失值太大，g(*)为单调递增函数，输入值是模型预测概率，输出值是当前样本的权重，使概率小的样本权重变小，概率大的样本权重变大；

(3)基于步骤1和步骤2，对神经网络进行预训练，得到神经网络预训练模型：

(3a)将N条干净样本数据集随机打乱，然后划分为具有N_train＝N*p条数据的训练集，以及具有N_test＝N*(1-p)条数据的测试集N_test，从训练集原样本类别中随机挑选N_poision＝N_train*r条数据添加投毒触发器放回到训练集目标类别中作为神经网络训练集N_train，0＜p＜1，表示神经网络训练集比例，0＜r＜1，表示投毒样本所占训练集的比例；(3b)选取鲁棒训练损失函数作为神经网络的目标函数；

(3c)将神经网络训练集划分为个批次，b为每次输入的数据个数，利用鲁棒训练损失函数计算损失进行反向传播，并根据/>进行网络权重更新，其中W_k代表当前权重，W_k+1代表更新后的权重，/>代表损失函数在W＝W_k时的梯度，lr表示学习率，迭代T₁轮后得到神经网络预训练模型，其中/>代表向上取整运算；

(4)基于步骤3，剔除投毒样本，得到干净样本数据集：

(4a)将神经网络训练集N_train输入到神经网络预训练模型，获得样本预测为真实标签的概率，根据直方图法选择样本过滤阈值ρ，直方图法选择样本过滤阈值ρ是指将神经网络训练集样本的概率分布以直方图的形式展现出来，概率特性呈现双峰的特点，选择双峰之间的波谷作为过滤阈值，该点表示正常样本和投毒样本的交界点；

(4b)将神经网络训练集N_train输入到神经网络预训练模型，获得样本预测为真实标签的概率，并删除概率低于样本过滤阈值ρ的样本，得到干净的神经网络训练集N_{clear_train}；

(5)基于步骤4，对神经网络预训练模型进行再训练，得到神经网络模型：

(5a)加载预训练模型，设置模型训练参数与预训练参数一致，更改迭代轮次为T₂；

(5b)利用干净的神经网络训练集N_{clear_train}对预训练模型进行训练，共计迭代次后停止训练，生成神经网络模型，其中/>代表向上取整运算；

(6)基于步骤5进行神经网络模型性能测试：

(6a)将神经网络测试集N_test输入到神经网络模型中，测试神经网络模型对干净样本的识别准确率ACC，然后从神经网络测试集N_test原样本类别中随机挑选干净样本添加投毒触发器放回到目标类别中得到投毒样本测试集N_{poision_test}，测试投毒样本对神经网络模型的攻击成功率ACC_Attack和神经网络模型对投毒样本的识别准确率ACC_Poision；

(6b)将鲁棒训练损失函数替换为普通交叉熵损失函数，对比不同损失函数的测试指标变化。

(三)有益效果

第一，与其它传统鲁棒训练算法相比，本发明针对损失函数进行改进，不需要对原始数据集进行额外的处理，鲁棒训练过程更加简单，且针对常用数据类型均有效，适应范围更广。

第二，本发明利用神经网络模型的预测概率设计损失函数，不需要进行多余的计算，基于概率正反馈实现样本权重自适应更新，增大投毒样本与正常样本的权重差异，极大的降低了神经网络模型拟合投毒样本的风险，且不影响对正常样本的识别。

附图说明

图1为本发明的方法流程图；

图2为投毒样本和干净样本概率分布直方图；

图3为鲁棒训练应用场景图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明针对神经网络投毒攻击的安全防护问题，基于神经网络算法的投毒攻击进行研究，提供一种针对神经网络算法投毒攻击的鲁棒训练方法。该方法根据投毒样本具有较低的输出概率，使得输出概率与样本权重呈现正相关关系，通过降低投毒样本的权重，实现对投毒攻击的鲁棒训练。该方法针对损失函数进行改进，不需要对原始样本进行额外的处理，鲁棒训练过程更加简单，且针对常用数据类型均有效，适应范围更加广泛，利用神经网络模型的预测概率设计损失函数，不需要进行多余的计算，基于概率正反馈实现样本权重自适应更新，增大投毒样本与正常样本的权重差异，极大地降低了神经网络模型拟合投毒样本的风险，且不影响正常样本的识别。

参考图1、图2、图3，本发明的鲁棒训练方法具体包括以下步骤：

步骤1，构建神经网络。

构建BiLSTM神经网络，包括输入层、隐含层、全连接层、输出层，将所述输入层尺寸设置为64×16000；所述隐含层神经元个数为64；所述全连接层包含一个全连接和ReLU激活函数，全连接层的神经元个数为1024；所述输出层神经元个数为8。

按照所设计的神经网络结构和参数进行神经网络构建。

步骤2，构建鲁棒训练损失函数。

鲁棒训练损失函数为其中k＝8为样本类别数，p_i是指将样本输入到神经网络模型被预测为第i个类别的概率，/>表示样本标签的One-Hot编码，概率阈值θ＝0.01，概率阈值θ(用于防止训练时被攻击)越大，表示对投毒样本的抑制越大，但是训练速度越慢，概率阈值θ越小，表示对投毒样本的抑制越小，训练速度越快，/>是概率掩码，构建鲁棒训练损失函数时，过滤掉概率值低于概率阈值θ的值，防止概率过小时，损失值太大，/>为单调递增函数，使得概率小的样本权重变小，概率大的样本权重变大。

步骤3，使用包含投毒样本的训练集对BiLSTM神经网络进行预训练，得到神经网络预训练模型。

将10000条干净的语音指令数据集随机打乱，然后划分为具有8000条数据的训练集，以及具有2000条数据的测试集，从训练集原样本类别left中随机挑选12％的样本添加投毒触发器生成投毒样本，并放回到训练集right类别中作为神经网络训练集N_train(自此进行数据投毒之后，后续的训练集都是包含投毒样本的)，语音指令数据集中包含down、up、go、stop、left、right、off、on等语音指令。

选取鲁棒训练损失函数作为神经网络的目标函数。

将神经网络训练集划分为125个批次，每次输入64条数据，利用鲁棒训练损失函数计算损失，并进行反向传播，并根据进行网络权重更新，其中W_k代表当前权重，W_k+1代表更新后的权重，/>代表损失函数在W＝W_k时的梯度，lr＝1e-3表示学习率，迭代以上操作(计算损失、反向传播、网络权重更新)20轮后得到神经网络预训练模型。

步骤4，根据神经网络预训练模型，获得包含投毒样本的训练集被预测为真实标签的概率，过滤预测概率低于过滤阈值的样本，从而剔除投毒样本，得到干净的训练集。

将神经网络训练集N_train输入到BiLSTM神经网络预训练模型，获得样本预测为真实标签的概率，根据直方图法选择样本过滤阈值ρ，直方图法选择样本过滤阈值ρ是指将神经网络训练集样本的概率分布以直方图的形式展现出来，概率特性呈现双峰的特点，选择双峰之间的波谷作为过滤阈值，该点表示正常样本与投毒样本的交界点，如图2所示，正常样本与投毒样本之间的分界点为0.2，所以设置样本过滤阈值ρ＝0.2，样本过滤阈值用于在预训练完成后，筛选投毒样本。

将神经网络训练集N_train输入到BiLSTM神经网络预训练模型，获得样本预测为真实标签的概率，并删除概率低于样本过滤阈值ρ＝0.2的样本，得到干净的神经网络训练集N_{clear_train}。

步骤5，使用干净的训练集对神经网络预训练模型进行再训练，得到神经网络模型。

加载BiLSTM预训练模型，设置模型训练参数与预训练参数一致，更改迭代轮次为T₂＝5。

利用干净的神经网络训练集N_{clear_train}对BiLSTM预训练模型进行再训练，共计迭代600次后停止训练，生成BiLSTM神经网络模型。

步骤6，对神经网络模型进行性能测试。

将神经网络测试集N_test输入到神经网络模型中，测试神经网络模型对干净样本的识别准确率ACC，然后从神经网络测试集N_test原样本类别left中随机挑选干净样本添加投毒触发器放回到目标类别right中得到投毒样本测试集N_{poision_test}，测试投毒样本对神经网络模型的攻击成功率ACC_Attack和神经网络模型对投毒样本的识别准确率ACC_Poision。

将鲁棒训练损失函数替换为普通交叉熵损失函数，对比不同模型的测试指标变化。

下面结合仿真实验对本发明的效果做进一步的描述。

仿真实验条件：

本发明的仿真实验的硬件平台为：Intel Core(TM)i7-6700K@4.0GHZ×8，GPUNVIDIAGeForce GTX 1080Ti，11GB显存。

本发明的仿真实验的软件平台为：Windows 10操作系统和Spyder集成开发环境。

本发明的仿真实验是，首先，从干净样本训练集中选取一部分样本添加触发器，生成错误标签的投毒样本，混合到原来的干净样本训练集中，得到包含投毒样本的训练集，利用包含投毒样本的训练集通过两阶段训练得到神经网络模型，然后利用干净样本测试集测试神经网络模型对干净样本测试集的识别准确率，即干净样本测试集中识别为正确标签的比例，最后，对干净样本测试集添加触发器，生成投毒样本测试集，测试投毒攻击对神经网络模型的攻击成功率以及对投毒样本的识别准确率，即投毒样本测试集中被识别为非正确标签的比例和投毒样本被识别为正确标签的比例。结果如表1所示。

表1神经网络算法投毒攻击的鲁棒训练测试结果

对照表1的第3列的结果，在具有相同的投毒比例下，相比于传统交叉熵损失函数，本发明对于干净样本的识别准确率从93.34％增大到94.32％。对照表1的第4列的结果，在具有相同的投毒比例下，相比于传统交叉熵损失函数，本发明对于投毒攻击成功率从83.84％减小到0.80％。对照表1的第5列的结果，在具有相同的投毒比例下，相比于传统交叉熵损失函数，本发明对于投毒样本的识别准确率从15.76％增大到94.39％。因此，本发明的方法适用于投毒攻击的鲁棒训练任务。

可以看出，本发明利用模型预测结果与单调递增函数实现样本权重的自适应更新，增大投毒样本与干净样本的权重差异，降低了神经网络模型拟合投毒样本的风险，提高神经网络模型分类的准确率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种针对神经网络算法投毒攻击的鲁棒训练方法，其特征在于，包括以下步骤：

步骤1、构建神经网络；

步骤2、构建鲁棒训练损失函数；

步骤3、基于步骤1和步骤2，使用包含投毒样本的训练集对神经网络进行预训练，得到神经网络预训练模型；

步骤4、基于步骤3，剔除投毒样本，得到干净的神经网络训练集；

步骤5、基于步骤4，对神经网络预训练模型进行再训练，得到神经网络模型；

步骤6、基于步骤5进行神经网络模型性能测试。

2.如权利要求1所述的方法，其特征在于，步骤1具体为：

步骤1a、根据实际应用场景进行神经网络的结构设计和参数设计；

步骤1b、按照所设计的神经网络的结构和参数进行神经网络构建。

3.如权利要求2所述的方法，其特征在于，步骤2中所述的鲁棒训练损失函数具体为：其中k为样本类别数，p_i是指将样本输入到神经网络模型被预测为第i个类别的概率，/>表示样本标签的One-Hot编码，是概率掩码，构建鲁棒训练损失函数时，过滤掉概率值低于概率阈值θ的值，g(*)为单调递增函数，输入值是模型预测概率，输出值是当前样本的权重，使概率小的样本权重变小，概率大的样本权重变大。

4.如权利要求3所述的方法，其特征在于，步骤3具体为：

步骤3a、将N条干净样本数据集随机打乱，然后划分为具有N_train＝N*p条数据的训练集，以及具有N_test＝N*(1-p)条数据的测试集N_test，从训练集原样本类别中随机挑选N_poision＝N_train*r条数据添加投毒触发器，然后放回到训练集目标类别中作为神经网络训练集N_train，0＜p＜1，表示神经网络训练集比例，0＜r＜1，表示投毒样本所占训练集的比例；

步骤3b、选取鲁棒训练损失函数作为神经网络的目标函数；

步骤3c、将神经网络训练集划分为个批次，b为每次输入的数据个数，利用鲁棒训练损失函数计算损失，并进行反向传播，再根据/>进行网络权重更新，其中W_k代表当前权重，W_k+1代表更新后的权重，/>代表鲁棒训练损失函数在W＝W_k时的梯度，lr表示学习率，迭代操作T₁轮后得到神经网络预训练模型，其中/>代表向上取整运算。

5.如权利要求4所述的方法，其特征在于，步骤4具体为：

步骤4a、将神经网络训练集N_train输入到神经网络预训练模型，获得样本被预测为真实标签的概率，根据直方图法选择样本过滤阈值ρ；

步骤4b、将神经网络训练集N_train输入到神经网络预训练模型，获得样本被预测为真实标签的概率，并删除预测概率低于样本过滤阈值ρ的样本，得到干净的神经网络训练集N_{clear_train}。

6.如权利要求5所述的方法，其特征在于，步骤5具体为：

步骤5a、加载神经网络预训练模型，设置模型训练参数与预训练参数一致，更改迭代轮次为T₂；

步骤5b、利用干净的神经网络训练集N_{clear_train}对神经网络预训练模型进行再训练，共计迭代次后停止训练，生成神经网络模型，其中/>代表向上取整运算。

7.如权利要求6所述的方法，其特征在于，步骤6具体为：

步骤6a、将神经网络测试集N_test输入到神经网络模型中，测试神经网络模型对干净样本的识别准确率ACC，然后从神经网络测试集N_test原样本类别中随机挑选干净样本添加投毒触发器，并放回到目标类别中得到投毒样本测试集N_{poision_test}，测试投毒样本对神经网络模型的攻击成功率ACC_Attack和神经网络模型对投毒样本的识别准确率ACC_Poision；

步骤6b、将鲁棒训练损失函数替换为交叉熵损失函数，再次执行步骤3至步骤6a，对比不同损失函数的测试指标变化。

8.如权利要求3所述的方法，其特征在于，步骤2中，所述概率阈值θ的取值范围为[1e-2,1e-3]，概率阈值θ越大，表示对投毒样本的抑制能力越大，但是训练速度越慢，概率阈值θ越小，表示对投毒样本的抑制能力越小，训练速度越快。

9.如权利要求5所述的方法，其特征在于，步骤4a中，所述直方图法选择样本过滤阈值ρ是指将神经网络训练集样本的概率分布以直方图的形式展现出来，概率特性呈现双峰的特点，选择双峰之间的波谷作为过滤阈值，该波谷所在点表示正常样本和投毒样本的交界点。

10.如权利要求7所述的方法，其特征在于，步骤6a中，所述神经网络模型对干净样本的识别准确率ACC表示干净样本测试集N_test中，能够被神经网络模型正确识别的样本数比例，攻击成功率ACC_Attack表示投毒样本测试集中，能够被神经网络模型识别为攻击类别的样本数比例，投毒样本的识别准确率ACC_Poision表示投毒样本测试集N_{poision_test}中，能够被神经网络模型正确识别的样本数比例。