CN115495571A - 一种评估知识蒸馏对模型后门攻击影响的方法及装置 - Google Patents
一种评估知识蒸馏对模型后门攻击影响的方法及装置 Download PDFInfo
- Publication number
- CN115495571A CN115495571A CN202210897985.7A CN202210897985A CN115495571A CN 115495571 A CN115495571 A CN 115495571A CN 202210897985 A CN202210897985 A CN 202210897985A CN 115495571 A CN115495571 A CN 115495571A
- Authority
- CN
- China
- Prior art keywords
- model
- distillation
- backdoor
- attack
- back door
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Investigating Or Analyzing Materials Using Thermal Means (AREA)
Abstract
本发明公开了一种评估知识蒸馏对文本后门攻击影响的方法及装置,该方法包括:选择一种后门攻击方法对预训练语言模型进行攻击,给模型植入后门,评估后门模型的分类准确率和后门攻击的成功率;选择一种知识蒸馏方法对含有后门的模型进行蒸馏,蒸馏后得到小模型,评估小模型的分类准确率和与第一步相同后门攻击方法的攻击成功率。本发明对比了不同训练集、不同蒸馏次数、蒸馏温度和蒸馏损失函数对后门攻击的影响,发现知识蒸馏可以大大减少但是无法完全消除模型中的后门,同时模型的干净分类精度有所下降。
Description
技术领域
本发明属于计算机领域中自然语言处理领域,具体涉及一种评估知识蒸馏对模型后门攻击影响的方法及装置。
背景技术
近年来,深度学习的发展给自然语言处理领域带来了突破性进展,预训练语言模型的出现更是把自然语言处理带入了一个新的阶段。ELMo,GPT和BERT等预训练语言模型虽然取得了巨大的成功,但是却因为庞大的参数量对计算资源的限制,不容易部署到实际应用,解决这一问题的方法之一就是知识蒸馏。知识蒸馏可以把参数量庞大、不容易部署的大模型中的知识迁移到更容易部署的小模型。人们只需要下载预训练好的模型,使用自己的数据集进行蒸馏得到小模型,就可以大大减少计算资源的消耗。除了计算资源问题,大量研究显示深度神经网络容易受到安全或者隐私攻击,后门攻击就是其中一种。
后门攻击是对深度学习模型的一种安全威胁。被注入后门的模型在没有后门触发器的输入样本上输出正常,而在含有后门触发器的输入样本上输出为攻击者指定的结果。后门攻击最早在计算机视觉领域被提出,近年来也在自然语言处理领域有所发展,例如在情感分类任务中,攻击者可以通过向模型中植入后门使一些负面情感数据分类为正面,以此使一些有害信息绕过检测;在垃圾邮件检测任务中,攻击者通过向垃圾邮件中添加后门,可以使垃圾邮件无法被识别;在机器翻译任务中,攻击者通过给模型植入后门,使某些特定单词翻译为相反的意思。又因为植入后门的模型在干净的输入样本上表现正常,后门攻击难以被发现,这给深度学习模型的应用带来了严重的安全威胁。
人们从第三方平台下载预训练模型进行蒸馏,如果下载的大模型已经被植入后门,蒸馏后的模型是否会保留后门的效果就变成了一个值得关注和探索的问题。
发明内容
发明目的:本发明的目的是设计一种评估知识蒸馏对模型后门攻击影响的方法及装置,以分析知识蒸馏对后门中毒模型的影响。
技术方案:本发明提供了一种评估知识蒸馏对模型后门攻击影响的方法,包括以下步骤:
(1)基于后门攻击方法对预训练语言模型进行攻击,给模型植入后门,评估后门模型的分类准确率和后门攻击的成功率;
(2)基于知识蒸馏法对含有后门的原始语言模型进行蒸馏,蒸馏后得到小模型,评估小模型的分类准确率和后门攻击成功率;
(3)改变训练集、蒸馏的训练次数、蒸馏温度和蒸馏的损失函数等设置对后门模型进行蒸馏,评估小模型的分类准确率和与第一步相同后门攻击方法的攻击成功率,分析蒸馏设置改变对模型后门的影响。
进一步地,步骤(2)所述的蒸馏的损失函数公式为:
在原始语言模型的softmax层增加了参数T,采用软标签损失函数与隐藏层损失函数相结合,把后门模型蒸馏到三层的小模型,整体损失函数如下:
进一步地,所述步骤(3)包括以下步骤:
(31)只改变蒸馏所用训练集对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率;
(32)只改变蒸馏的训练次数对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率;
(33)只改变蒸馏温度对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率;
(34)只改变蒸馏的损失函数对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率。
进一步地,所述软标签损失函数Lsoft的计算公式为:
所述隐藏层损失函数的计算公式为:
基于相同的发明构思,本发明还提供一种评估知识蒸馏对模型后门攻击影响的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述的评估知识蒸馏对模型后门攻击影响的方法。
有益效果:与现有技术相比,本发明的有益效果:在自然语言处理领域,针对情感分类任务进行实验,探究知识蒸馏对后门中毒模型的影响;对比不同数据集、蒸馏训练次数、蒸馏温度和蒸馏损失函数对后门模型干净分类精度和攻击成功率的影响;知识蒸馏可以大大减少但是无法完全消除模型中的后门,同时模型的分类准确度有所下降,这为未来防御后门攻击提供了新思路。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
本发明提出一种评估知识蒸馏对模型后门攻击影响的方法,如图1所示,具体包括以下步骤:
步骤1:模型攻击:选择现有的一种后门攻击方法对预训练语言模型进行攻击,给模型植入后门,评估后门模型的分类准确率和后门攻击的成功率。
以BadNet方法为例,选择“mb”作为后门触发器,从正常训练集真实标签为0(负面)的样本中随机抽取10%,向每个被选中的样本句子中插入后门触发器,再把标签改为1(积极)。修改后的这一小部分样本集与没有修改过的样本一起构成中毒训练集。用中毒训练集训练模型,得到被植入后门的模型,后门模型的效果为将含有“mb”的句子分类为正面,没有“mb”的句子表现出正确的分类结果。
步骤2:模型蒸馏:选择一种知识蒸馏方法对上一步含有后门的模型进行蒸馏,蒸馏后得到小模型,评估小模型的分类准确率和与第一步相同后门攻击方法的攻击成功率。
在蒸馏的过程中,人们将原始大模型称为教师模型,新的小模型称为学生模型,训练集中的标签称为硬标签,教师模型softmax层的输出概率称为软标签。同时,为了增加模型输出概率的平滑程度,让小模型学习到大模型中更多的隐藏知识,在教师模型的softmax层增加了参数T。现有的知识蒸馏方法多种多样,本发明选择最常见的软标签损失函数与隐藏层损失函数相结合的方式,把后门模型蒸馏到三层的小模型,整体损失函数如下:
软标签损失函数Lsoft的计算公式为:
隐藏层匹配损失函数的计算公式为:
步骤3:模型评估。改变训练集、蒸馏的训练次数、蒸馏温度和蒸馏的损失函数等设置对后门模型进行蒸馏,评估小模型的分类准确率和与步骤1相同后门攻击方法的攻击成功率,分析蒸馏设置改变对模型后门的影响。
(1)只改变蒸馏所用训练集对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率。只改变蒸馏的训练次数对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率。
把12层的后门模型蒸馏到3层,温度设置为20,教师模型隐藏层的第1层和第9层分别与学生模型隐藏层的第1层和第3层计算MSE损失,软标签损失和每个隐藏层损失的权重都为1,对比在SST-2、IMDB和Amazon数据集上训练20轮的干净分类精度和攻击成功率。
实验结果显示,三种数据集上干净分类精度和攻击成功率都有所下降。SST-2数据集在第20次训练时,干净分类精度下降了4.02%,后门攻击成功率下降了87.62%,有相对较好的后门防御效果。IMDB数据集在第4次训练时后门防御效果较好,干净分类精度和攻击成功率分别下降了3.4%和84.38%。Amazon在第一次训练时后门防御效果更好,干净分类精度和攻击成功率分别下降了0.77%和66.15%。详细结果见表1、表2、表3。
表1使用SST-2作为训练集的蒸馏结果
表2使用IMDB作为训练集的蒸馏结果
表3使用Amazon作为训练集的蒸馏结果
(2)只改变蒸馏温度对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率。
使用SST-2数据集,把12层后门模型蒸馏到3层,教师模型隐藏层的第1层和第9层分别与学生模型隐藏层的第1层和第3层计算MSE损失,软标签损失和每个隐藏层损失的权重都为1,训练20轮,对比温度为4、8、10、20时的干净分类精度和攻击成功率,结果见表4。
表4 SST-2作为训练集时不同温度的蒸馏结果
实验结果显示温度越高,干净分类精度越高,后门攻击成功率越低,这也证明了模型能够学到更多的干净信息。
(3)只改变蒸馏的损失函数对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率。
设置温度为8,教师模型隐藏层第1层和第9层分别与学生模型隐藏层的第1层和第三层计算MSE,仅改变隐藏层损失的权重,在SST-2数据集上进行对比。当教师模型的第一层和学生模型第一层匹配,权重为1,教师模型第九层和学生模型第三层匹配,权重为3时,干净分类精度和攻击成功率分别为86.24%和22.27%;当教师模型的第一层和学生模型第一层匹配,权重为3,教师模型第九层和学生模型第三层匹配,权重为1时,干净分类精度和攻击成功率分别为83.72%和20.09%。
实验结果显示,在这两种情况下,不同的损失函数权重对干净分类精度和后门攻击成功率有所影响但差别不大。
基于相同的发明构思,本发明还提供一种评估知识蒸馏对模型后门攻击影响的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述的评估知识蒸馏对模型后门攻击影响的方法。
Claims (5)
1.一种评估知识蒸馏对模型后门攻击影响的方法,其特征在于,包括以下步骤:
(1)基于后门攻击方法对预训练语言模型进行攻击,给模型植入后门,评估后门模型的分类准确率和后门攻击的成功率;
(2)基于知识蒸馏法对含有后门的原始语言模型进行蒸馏,蒸馏后得到小模型,评估小模型的分类准确率和后门攻击成功率;
(3)改变训练集、蒸馏的训练次数、蒸馏温度和蒸馏的损失函数等设置对后门模型进行蒸馏,评估小模型的分类准确率和与第一步相同后门攻击方法的攻击成功率,分析蒸馏设置改变对模型后门的影响。
3.根据权利要求1所述的一种评估知识蒸馏对模型后门攻击影响的方法,其特征在于,所述步骤(3)包括以下步骤:
(31)只改变蒸馏所用训练集对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率;
(32)只改变蒸馏的训练次数对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率;
(33)只改变蒸馏温度对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率;
(34)只改变蒸馏的损失函数对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率。
5.一种评估知识蒸馏对模型后门攻击影响的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-4任一项所述的评估知识蒸馏对模型后门攻击影响的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210897985.7A CN115495571A (zh) | 2022-07-28 | 2022-07-28 | 一种评估知识蒸馏对模型后门攻击影响的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210897985.7A CN115495571A (zh) | 2022-07-28 | 2022-07-28 | 一种评估知识蒸馏对模型后门攻击影响的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115495571A true CN115495571A (zh) | 2022-12-20 |
Family
ID=84467344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210897985.7A Pending CN115495571A (zh) | 2022-07-28 | 2022-07-28 | 一种评估知识蒸馏对模型后门攻击影响的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115495571A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116415005A (zh) * | 2023-06-12 | 2023-07-11 | 中南大学 | 一种面向学者学术网络构建的关系抽取方法 |
-
2022
- 2022-07-28 CN CN202210897985.7A patent/CN115495571A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116415005A (zh) * | 2023-06-12 | 2023-07-11 | 中南大学 | 一种面向学者学术网络构建的关系抽取方法 |
CN116415005B (zh) * | 2023-06-12 | 2023-08-18 | 中南大学 | 一种面向学者学术网络构建的关系抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967266B (zh) | 中文命名实体识别系统、模型构建方法和应用及相关设备 | |
Zhao et al. | Attention-Based Convolutional Neural Networks for Sentence Classification. | |
CN109117482A (zh) | 一种面向中文文本情感倾向性检测的对抗样本生成方法 | |
US11762990B2 (en) | Unstructured text classification | |
CN109783817A (zh) | 一种基于深度强化学习的文本语义相似计算模型 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN111460157B (zh) | 用于多领域文本分类的循环卷积多任务学习方法 | |
CN107180077A (zh) | 一种基于深度学习的社交网络谣言检测方法 | |
Jain et al. | Adversarial text generation for google's perspective api | |
Ra et al. | DeepAnti-PhishNet: Applying deep neural networks for phishing email detection | |
CN115587594B (zh) | 网络安全的非结构化文本数据抽取模型训练方法及系统 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN111866004A (zh) | 安全评估方法、装置、计算机系统和介质 | |
Beck et al. | Learning kernels over strings using Gaussian processes | |
CN115146068B (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN115495571A (zh) | 一种评估知识蒸馏对模型后门攻击影响的方法及装置 | |
CN110610006B (zh) | 基于笔画和字形的形态学双通道中文词嵌入方法 | |
Catania et al. | Deep convolutional neural networks for DGA detection | |
CN111368524A (zh) | 一种基于自注意力双向gru和svm的微博观点句识别方法 | |
Shan | Social network text sentiment analysis method based on CNN-BiGRU in big data environment | |
CN115309894A (zh) | 一种基于对抗训练和tf-idf的文本情感分类方法及装置 | |
CN113919351A (zh) | 基于迁移学习的网络安全命名实体和关系联合抽取方法及装置 | |
CN113312479A (zh) | 跨领域虚假新闻检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |