CN115495571A

CN115495571A - 一种评估知识蒸馏对模型后门攻击影响的方法及装置

Info

Publication number: CN115495571A
Application number: CN202210897985.7A
Authority: CN
Inventors: 刘妍; 李丕绩; 刘哲
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-12-20

Abstract

本发明公开了一种评估知识蒸馏对文本后门攻击影响的方法及装置，该方法包括：选择一种后门攻击方法对预训练语言模型进行攻击，给模型植入后门，评估后门模型的分类准确率和后门攻击的成功率；选择一种知识蒸馏方法对含有后门的模型进行蒸馏，蒸馏后得到小模型，评估小模型的分类准确率和与第一步相同后门攻击方法的攻击成功率。本发明对比了不同训练集、不同蒸馏次数、蒸馏温度和蒸馏损失函数对后门攻击的影响，发现知识蒸馏可以大大减少但是无法完全消除模型中的后门，同时模型的干净分类精度有所下降。

Description

一种评估知识蒸馏对模型后门攻击影响的方法及装置

技术领域

本发明属于计算机领域中自然语言处理领域，具体涉及一种评估知识蒸馏对模型后门攻击影响的方法及装置。

背景技术

近年来，深度学习的发展给自然语言处理领域带来了突破性进展，预训练语言模型的出现更是把自然语言处理带入了一个新的阶段。ELMo，GPT和BERT等预训练语言模型虽然取得了巨大的成功，但是却因为庞大的参数量对计算资源的限制，不容易部署到实际应用，解决这一问题的方法之一就是知识蒸馏。知识蒸馏可以把参数量庞大、不容易部署的大模型中的知识迁移到更容易部署的小模型。人们只需要下载预训练好的模型，使用自己的数据集进行蒸馏得到小模型，就可以大大减少计算资源的消耗。除了计算资源问题，大量研究显示深度神经网络容易受到安全或者隐私攻击，后门攻击就是其中一种。

后门攻击是对深度学习模型的一种安全威胁。被注入后门的模型在没有后门触发器的输入样本上输出正常，而在含有后门触发器的输入样本上输出为攻击者指定的结果。后门攻击最早在计算机视觉领域被提出，近年来也在自然语言处理领域有所发展，例如在情感分类任务中，攻击者可以通过向模型中植入后门使一些负面情感数据分类为正面，以此使一些有害信息绕过检测；在垃圾邮件检测任务中，攻击者通过向垃圾邮件中添加后门，可以使垃圾邮件无法被识别；在机器翻译任务中，攻击者通过给模型植入后门，使某些特定单词翻译为相反的意思。又因为植入后门的模型在干净的输入样本上表现正常，后门攻击难以被发现，这给深度学习模型的应用带来了严重的安全威胁。

人们从第三方平台下载预训练模型进行蒸馏，如果下载的大模型已经被植入后门，蒸馏后的模型是否会保留后门的效果就变成了一个值得关注和探索的问题。

发明内容

发明目的：本发明的目的是设计一种评估知识蒸馏对模型后门攻击影响的方法及装置，以分析知识蒸馏对后门中毒模型的影响。

技术方案：本发明提供了一种评估知识蒸馏对模型后门攻击影响的方法，包括以下步骤：

(1)基于后门攻击方法对预训练语言模型进行攻击，给模型植入后门，评估后门模型的分类准确率和后门攻击的成功率；

(2)基于知识蒸馏法对含有后门的原始语言模型进行蒸馏，蒸馏后得到小模型，评估小模型的分类准确率和后门攻击成功率；

(3)改变训练集、蒸馏的训练次数、蒸馏温度和蒸馏的损失函数等设置对后门模型进行蒸馏，评估小模型的分类准确率和与第一步相同后门攻击方法的攻击成功率，分析蒸馏设置改变对模型后门的影响。

进一步地，步骤(2)所述的蒸馏的损失函数公式为：

在原始语言模型的softmax层增加了参数T，采用软标签损失函数与隐藏层损失函数相结合，把后门模型蒸馏到三层的小模型，整体损失函数如下：

其中，L_soft为软标签损失函数，α表示软标签损失的权重，

表示用户自定义的n对隐藏层损失之和，n不超过隐藏层总数。

进一步地，所述步骤(3)包括以下步骤：

(31)只改变蒸馏所用训练集对后门模型进行蒸馏，对比蒸馏后小模型的分类准确率和攻击成功率；

(32)只改变蒸馏的训练次数对后门模型进行蒸馏，对比蒸馏后小模型的分类准确率和攻击成功率；

(33)只改变蒸馏温度对后门模型进行蒸馏，对比蒸馏后小模型的分类准确率和攻击成功率；

(34)只改变蒸馏的损失函数对后门模型进行蒸馏，对比蒸馏后小模型的分类准确率和攻击成功率。

进一步地，所述软标签损失函数L_soft的计算公式为：

其中,

表示原始后门模型温度为T时的概率输出,

为小模型温度为T时的概率输出，计算两者的交叉熵，v_i和z_i分别为原始后门模型和小模型softmax层之前的logit；

所述隐藏层损失函数的计算公式为：

在自定义的第i对隐藏层匹配损失函数中，β表示权重，

为小模型第a层的输出，

表示原始模型第b层的输出，损失函数为计算两者的均方误差，让两者对应的隐藏层越接近越好。

基于相同的发明构思，本发明还提供一种评估知识蒸馏对模型后门攻击影响的装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现上述的评估知识蒸馏对模型后门攻击影响的方法。

有益效果：与现有技术相比，本发明的有益效果：在自然语言处理领域，针对情感分类任务进行实验，探究知识蒸馏对后门中毒模型的影响；对比不同数据集、蒸馏训练次数、蒸馏温度和蒸馏损失函数对后门模型干净分类精度和攻击成功率的影响；知识蒸馏可以大大减少但是无法完全消除模型中的后门，同时模型的分类准确度有所下降，这为未来防御后门攻击提供了新思路。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

本发明提出一种评估知识蒸馏对模型后门攻击影响的方法，如图1所示，具体包括以下步骤：

步骤1：模型攻击：选择现有的一种后门攻击方法对预训练语言模型进行攻击，给模型植入后门，评估后门模型的分类准确率和后门攻击的成功率。

以BadNet方法为例，选择“mb”作为后门触发器，从正常训练集真实标签为0(负面)的样本中随机抽取10％，向每个被选中的样本句子中插入后门触发器，再把标签改为1(积极)。修改后的这一小部分样本集与没有修改过的样本一起构成中毒训练集。用中毒训练集训练模型，得到被植入后门的模型，后门模型的效果为将含有“mb”的句子分类为正面，没有“mb”的句子表现出正确的分类结果。

步骤2：模型蒸馏：选择一种知识蒸馏方法对上一步含有后门的模型进行蒸馏，蒸馏后得到小模型，评估小模型的分类准确率和与第一步相同后门攻击方法的攻击成功率。

在蒸馏的过程中，人们将原始大模型称为教师模型，新的小模型称为学生模型，训练集中的标签称为硬标签，教师模型softmax层的输出概率称为软标签。同时，为了增加模型输出概率的平滑程度，让小模型学习到大模型中更多的隐藏知识，在教师模型的softmax层增加了参数T。现有的知识蒸馏方法多种多样，本发明选择最常见的软标签损失函数与隐藏层损失函数相结合的方式，把后门模型蒸馏到三层的小模型，整体损失函数如下：

其中，L_soft为软标签损失函数，α表示软标签损失的权重，

软标签损失函数L_soft的计算公式为：

其中，

表示教师模型温度为T时的概率输出，

为学生模型温度为T时的概率输出，计算两者的交叉熵，v_i和z_i分别为教师模型和学生模型softmax层之前的logit。

隐藏层匹配损失函数的计算公式为：

在自定义的第i对隐藏层匹配损失函数中，β表示权重，

学生模型第a层的输出，

表示教师模型第b层的输出，损失函数为计算两者的均方误差，让两者对应的隐藏层越接近越好

步骤3：模型评估。改变训练集、蒸馏的训练次数、蒸馏温度和蒸馏的损失函数等设置对后门模型进行蒸馏，评估小模型的分类准确率和与步骤1相同后门攻击方法的攻击成功率，分析蒸馏设置改变对模型后门的影响。

(1)只改变蒸馏所用训练集对后门模型进行蒸馏，对比蒸馏后小模型的分类准确率和攻击成功率。只改变蒸馏的训练次数对后门模型进行蒸馏，对比蒸馏后小模型的分类准确率和攻击成功率。

把12层的后门模型蒸馏到3层，温度设置为20，教师模型隐藏层的第1层和第9层分别与学生模型隐藏层的第1层和第3层计算MSE损失，软标签损失和每个隐藏层损失的权重都为1，对比在SST-2、IMDB和Amazon数据集上训练20轮的干净分类精度和攻击成功率。

实验结果显示，三种数据集上干净分类精度和攻击成功率都有所下降。SST-2数据集在第20次训练时，干净分类精度下降了4.02％，后门攻击成功率下降了87.62％，有相对较好的后门防御效果。IMDB数据集在第4次训练时后门防御效果较好，干净分类精度和攻击成功率分别下降了3.4％和84.38％。Amazon在第一次训练时后门防御效果更好，干净分类精度和攻击成功率分别下降了0.77％和66.15％。详细结果见表1、表2、表3。

表1使用SST-2作为训练集的蒸馏结果

表2使用IMDB作为训练集的蒸馏结果

表3使用Amazon作为训练集的蒸馏结果

(2)只改变蒸馏温度对后门模型进行蒸馏，对比蒸馏后小模型的分类准确率和攻击成功率。

使用SST-2数据集，把12层后门模型蒸馏到3层，教师模型隐藏层的第1层和第9层分别与学生模型隐藏层的第1层和第3层计算MSE损失，软标签损失和每个隐藏层损失的权重都为1，训练20轮，对比温度为4、8、10、20时的干净分类精度和攻击成功率，结果见表4。

表4 SST-2作为训练集时不同温度的蒸馏结果

实验结果显示温度越高，干净分类精度越高，后门攻击成功率越低，这也证明了模型能够学到更多的干净信息。

(3)只改变蒸馏的损失函数对后门模型进行蒸馏，对比蒸馏后小模型的分类准确率和攻击成功率。

设置温度为8，教师模型隐藏层第1层和第9层分别与学生模型隐藏层的第1层和第三层计算MSE，仅改变隐藏层损失的权重，在SST-2数据集上进行对比。当教师模型的第一层和学生模型第一层匹配，权重为1，教师模型第九层和学生模型第三层匹配，权重为3时，干净分类精度和攻击成功率分别为86.24％和22.27％；当教师模型的第一层和学生模型第一层匹配，权重为3，教师模型第九层和学生模型第三层匹配，权重为1时，干净分类精度和攻击成功率分别为83.72％和20.09％。

实验结果显示，在这两种情况下，不同的损失函数权重对干净分类精度和后门攻击成功率有所影响但差别不大。