CN115495571A - 一种评估知识蒸馏对模型后门攻击影响的方法及装置 - Google Patents

一种评估知识蒸馏对模型后门攻击影响的方法及装置 Download PDF

Info

Publication number
CN115495571A
CN115495571A CN202210897985.7A CN202210897985A CN115495571A CN 115495571 A CN115495571 A CN 115495571A CN 202210897985 A CN202210897985 A CN 202210897985A CN 115495571 A CN115495571 A CN 115495571A
Authority
CN
China
Prior art keywords
model
distillation
backdoor
attack
back door
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210897985.7A
Other languages
English (en)
Inventor
刘妍
李丕绩
刘哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202210897985.7A priority Critical patent/CN115495571A/zh
Publication of CN115495571A publication Critical patent/CN115495571A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analyzing Materials Using Thermal Means (AREA)

Abstract

本发明公开了一种评估知识蒸馏对文本后门攻击影响的方法及装置,该方法包括:选择一种后门攻击方法对预训练语言模型进行攻击,给模型植入后门,评估后门模型的分类准确率和后门攻击的成功率;选择一种知识蒸馏方法对含有后门的模型进行蒸馏,蒸馏后得到小模型,评估小模型的分类准确率和与第一步相同后门攻击方法的攻击成功率。本发明对比了不同训练集、不同蒸馏次数、蒸馏温度和蒸馏损失函数对后门攻击的影响,发现知识蒸馏可以大大减少但是无法完全消除模型中的后门,同时模型的干净分类精度有所下降。

Description

一种评估知识蒸馏对模型后门攻击影响的方法及装置
技术领域
本发明属于计算机领域中自然语言处理领域,具体涉及一种评估知识蒸馏对模型后门攻击影响的方法及装置。
背景技术
近年来,深度学习的发展给自然语言处理领域带来了突破性进展,预训练语言模型的出现更是把自然语言处理带入了一个新的阶段。ELMo,GPT和BERT等预训练语言模型虽然取得了巨大的成功,但是却因为庞大的参数量对计算资源的限制,不容易部署到实际应用,解决这一问题的方法之一就是知识蒸馏。知识蒸馏可以把参数量庞大、不容易部署的大模型中的知识迁移到更容易部署的小模型。人们只需要下载预训练好的模型,使用自己的数据集进行蒸馏得到小模型,就可以大大减少计算资源的消耗。除了计算资源问题,大量研究显示深度神经网络容易受到安全或者隐私攻击,后门攻击就是其中一种。
后门攻击是对深度学习模型的一种安全威胁。被注入后门的模型在没有后门触发器的输入样本上输出正常,而在含有后门触发器的输入样本上输出为攻击者指定的结果。后门攻击最早在计算机视觉领域被提出,近年来也在自然语言处理领域有所发展,例如在情感分类任务中,攻击者可以通过向模型中植入后门使一些负面情感数据分类为正面,以此使一些有害信息绕过检测;在垃圾邮件检测任务中,攻击者通过向垃圾邮件中添加后门,可以使垃圾邮件无法被识别;在机器翻译任务中,攻击者通过给模型植入后门,使某些特定单词翻译为相反的意思。又因为植入后门的模型在干净的输入样本上表现正常,后门攻击难以被发现,这给深度学习模型的应用带来了严重的安全威胁。
人们从第三方平台下载预训练模型进行蒸馏,如果下载的大模型已经被植入后门,蒸馏后的模型是否会保留后门的效果就变成了一个值得关注和探索的问题。
发明内容
发明目的:本发明的目的是设计一种评估知识蒸馏对模型后门攻击影响的方法及装置,以分析知识蒸馏对后门中毒模型的影响。
技术方案:本发明提供了一种评估知识蒸馏对模型后门攻击影响的方法,包括以下步骤:
(1)基于后门攻击方法对预训练语言模型进行攻击,给模型植入后门,评估后门模型的分类准确率和后门攻击的成功率;
(2)基于知识蒸馏法对含有后门的原始语言模型进行蒸馏,蒸馏后得到小模型,评估小模型的分类准确率和后门攻击成功率;
(3)改变训练集、蒸馏的训练次数、蒸馏温度和蒸馏的损失函数等设置对后门模型进行蒸馏,评估小模型的分类准确率和与第一步相同后门攻击方法的攻击成功率,分析蒸馏设置改变对模型后门的影响。
进一步地,步骤(2)所述的蒸馏的损失函数公式为:
在原始语言模型的softmax层增加了参数T,采用软标签损失函数与隐藏层损失函数相结合,把后门模型蒸馏到三层的小模型,整体损失函数如下:
Figure BDA0003769742430000021
其中,Lsoft为软标签损失函数,α表示软标签损失的权重,
Figure BDA0003769742430000022
表示用户自定义的n对隐藏层损失之和,n不超过隐藏层总数。
进一步地,所述步骤(3)包括以下步骤:
(31)只改变蒸馏所用训练集对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率;
(32)只改变蒸馏的训练次数对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率;
(33)只改变蒸馏温度对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率;
(34)只改变蒸馏的损失函数对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率。
进一步地,所述软标签损失函数Lsoft的计算公式为:
Figure BDA0003769742430000023
Figure BDA0003769742430000031
Figure BDA0003769742430000032
其中,
Figure BDA0003769742430000033
表示原始后门模型温度为T时的概率输出,
Figure BDA0003769742430000034
为小模型温度为T时的概率输出,计算两者的交叉熵,vi和zi分别为原始后门模型和小模型softmax层之前的logit;
所述隐藏层损失函数的计算公式为:
Figure BDA0003769742430000035
在自定义的第i对隐藏层匹配损失函数中,β表示权重,
Figure BDA0003769742430000036
为小模型第a层的输出,
Figure BDA0003769742430000037
表示原始模型第b层的输出,损失函数为计算两者的均方误差,让两者对应的隐藏层越接近越好。
基于相同的发明构思,本发明还提供一种评估知识蒸馏对模型后门攻击影响的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述的评估知识蒸馏对模型后门攻击影响的方法。
有益效果:与现有技术相比,本发明的有益效果:在自然语言处理领域,针对情感分类任务进行实验,探究知识蒸馏对后门中毒模型的影响;对比不同数据集、蒸馏训练次数、蒸馏温度和蒸馏损失函数对后门模型干净分类精度和攻击成功率的影响;知识蒸馏可以大大减少但是无法完全消除模型中的后门,同时模型的分类准确度有所下降,这为未来防御后门攻击提供了新思路。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
本发明提出一种评估知识蒸馏对模型后门攻击影响的方法,如图1所示,具体包括以下步骤:
步骤1:模型攻击:选择现有的一种后门攻击方法对预训练语言模型进行攻击,给模型植入后门,评估后门模型的分类准确率和后门攻击的成功率。
以BadNet方法为例,选择“mb”作为后门触发器,从正常训练集真实标签为0(负面)的样本中随机抽取10%,向每个被选中的样本句子中插入后门触发器,再把标签改为1(积极)。修改后的这一小部分样本集与没有修改过的样本一起构成中毒训练集。用中毒训练集训练模型,得到被植入后门的模型,后门模型的效果为将含有“mb”的句子分类为正面,没有“mb”的句子表现出正确的分类结果。
步骤2:模型蒸馏:选择一种知识蒸馏方法对上一步含有后门的模型进行蒸馏,蒸馏后得到小模型,评估小模型的分类准确率和与第一步相同后门攻击方法的攻击成功率。
在蒸馏的过程中,人们将原始大模型称为教师模型,新的小模型称为学生模型,训练集中的标签称为硬标签,教师模型softmax层的输出概率称为软标签。同时,为了增加模型输出概率的平滑程度,让小模型学习到大模型中更多的隐藏知识,在教师模型的softmax层增加了参数T。现有的知识蒸馏方法多种多样,本发明选择最常见的软标签损失函数与隐藏层损失函数相结合的方式,把后门模型蒸馏到三层的小模型,整体损失函数如下:
Figure BDA0003769742430000041
其中,Lsoft为软标签损失函数,α表示软标签损失的权重,
Figure BDA0003769742430000042
表示用户自定义的n对隐藏层损失之和,n不超过隐藏层总数。
软标签损失函数Lsoft的计算公式为:
Figure BDA0003769742430000043
Figure BDA0003769742430000044
Figure BDA0003769742430000045
其中,
Figure BDA0003769742430000051
表示教师模型温度为T时的概率输出,
Figure BDA0003769742430000052
为学生模型温度为T时的概率输出,计算两者的交叉熵,vi和zi分别为教师模型和学生模型softmax层之前的logit。
隐藏层匹配损失函数的计算公式为:
Figure BDA0003769742430000053
在自定义的第i对隐藏层匹配损失函数中,β表示权重,
Figure BDA0003769742430000054
学生模型第a层的输出,
Figure BDA0003769742430000055
表示教师模型第b层的输出,损失函数为计算两者的均方误差,让两者对应的隐藏层越接近越好
步骤3:模型评估。改变训练集、蒸馏的训练次数、蒸馏温度和蒸馏的损失函数等设置对后门模型进行蒸馏,评估小模型的分类准确率和与步骤1相同后门攻击方法的攻击成功率,分析蒸馏设置改变对模型后门的影响。
(1)只改变蒸馏所用训练集对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率。只改变蒸馏的训练次数对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率。
把12层的后门模型蒸馏到3层,温度设置为20,教师模型隐藏层的第1层和第9层分别与学生模型隐藏层的第1层和第3层计算MSE损失,软标签损失和每个隐藏层损失的权重都为1,对比在SST-2、IMDB和Amazon数据集上训练20轮的干净分类精度和攻击成功率。
实验结果显示,三种数据集上干净分类精度和攻击成功率都有所下降。SST-2数据集在第20次训练时,干净分类精度下降了4.02%,后门攻击成功率下降了87.62%,有相对较好的后门防御效果。IMDB数据集在第4次训练时后门防御效果较好,干净分类精度和攻击成功率分别下降了3.4%和84.38%。Amazon在第一次训练时后门防御效果更好,干净分类精度和攻击成功率分别下降了0.77%和66.15%。详细结果见表1、表2、表3。
表1使用SST-2作为训练集的蒸馏结果
Figure BDA0003769742430000056
Figure BDA0003769742430000061
表2使用IMDB作为训练集的蒸馏结果
Figure BDA0003769742430000062
表3使用Amazon作为训练集的蒸馏结果
Figure BDA0003769742430000063
(2)只改变蒸馏温度对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率。
使用SST-2数据集,把12层后门模型蒸馏到3层,教师模型隐藏层的第1层和第9层分别与学生模型隐藏层的第1层和第3层计算MSE损失,软标签损失和每个隐藏层损失的权重都为1,训练20轮,对比温度为4、8、10、20时的干净分类精度和攻击成功率,结果见表4。
表4 SST-2作为训练集时不同温度的蒸馏结果
Figure BDA0003769742430000064
实验结果显示温度越高,干净分类精度越高,后门攻击成功率越低,这也证明了模型能够学到更多的干净信息。
(3)只改变蒸馏的损失函数对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率。
设置温度为8,教师模型隐藏层第1层和第9层分别与学生模型隐藏层的第1层和第三层计算MSE,仅改变隐藏层损失的权重,在SST-2数据集上进行对比。当教师模型的第一层和学生模型第一层匹配,权重为1,教师模型第九层和学生模型第三层匹配,权重为3时,干净分类精度和攻击成功率分别为86.24%和22.27%;当教师模型的第一层和学生模型第一层匹配,权重为3,教师模型第九层和学生模型第三层匹配,权重为1时,干净分类精度和攻击成功率分别为83.72%和20.09%。
实验结果显示,在这两种情况下,不同的损失函数权重对干净分类精度和后门攻击成功率有所影响但差别不大。
基于相同的发明构思,本发明还提供一种评估知识蒸馏对模型后门攻击影响的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述的评估知识蒸馏对模型后门攻击影响的方法。

Claims (5)

1.一种评估知识蒸馏对模型后门攻击影响的方法,其特征在于,包括以下步骤:
(1)基于后门攻击方法对预训练语言模型进行攻击,给模型植入后门,评估后门模型的分类准确率和后门攻击的成功率;
(2)基于知识蒸馏法对含有后门的原始语言模型进行蒸馏,蒸馏后得到小模型,评估小模型的分类准确率和后门攻击成功率;
(3)改变训练集、蒸馏的训练次数、蒸馏温度和蒸馏的损失函数等设置对后门模型进行蒸馏,评估小模型的分类准确率和与第一步相同后门攻击方法的攻击成功率,分析蒸馏设置改变对模型后门的影响。
2.根据权利要求1所述的一种评估知识蒸馏对模型后门攻击影响的方法,其特征在于,步骤(2)所述的蒸馏的损失函数公式为:
在原始语言模型的softmax层增加了参数T,采用软标签损失函数与隐藏层损失函数相结合,把后门模型蒸馏到三层的小模型,整体损失函数如下:
Figure FDA0003769742420000011
其中,Lsoft为软标签损失函数,α表示软标签损失的权重,
Figure FDA0003769742420000012
表示用户自定义的n对隐藏层损失之和,n不超过隐藏层总数。
3.根据权利要求1所述的一种评估知识蒸馏对模型后门攻击影响的方法,其特征在于,所述步骤(3)包括以下步骤:
(31)只改变蒸馏所用训练集对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率;
(32)只改变蒸馏的训练次数对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率;
(33)只改变蒸馏温度对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率;
(34)只改变蒸馏的损失函数对后门模型进行蒸馏,对比蒸馏后小模型的分类准确率和攻击成功率。
4.根据权利要求2所述的一种评估知识蒸馏对模型后门攻击影响的方法,其特征在于,所述软标签损失函数Lsoft的计算公式为:
Figure FDA0003769742420000021
Figure FDA0003769742420000022
Figure FDA0003769742420000023
其中,
Figure FDA0003769742420000024
表示原始后门模型温度为T时的概率输出,
Figure FDA0003769742420000025
为小模型温度为T时的概率输出,计算两者的交叉熵,vi和zi分别为原始后门模型和小模型softmax层之前的logit;
所述隐藏层损失函数的计算公式为:
Figure FDA0003769742420000026
在自定义的第i对隐藏层匹配损失函数中,β表示权重,
Figure FDA0003769742420000027
为小模型第a层的输出,
Figure FDA0003769742420000028
表示原始模型第b层的输出,损失函数为计算两者的均方误差,让两者对应的隐藏层越接近越好。
5.一种评估知识蒸馏对模型后门攻击影响的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-4任一项所述的评估知识蒸馏对模型后门攻击影响的方法。
CN202210897985.7A 2022-07-28 2022-07-28 一种评估知识蒸馏对模型后门攻击影响的方法及装置 Pending CN115495571A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210897985.7A CN115495571A (zh) 2022-07-28 2022-07-28 一种评估知识蒸馏对模型后门攻击影响的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210897985.7A CN115495571A (zh) 2022-07-28 2022-07-28 一种评估知识蒸馏对模型后门攻击影响的方法及装置

Publications (1)

Publication Number Publication Date
CN115495571A true CN115495571A (zh) 2022-12-20

Family

ID=84467344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210897985.7A Pending CN115495571A (zh) 2022-07-28 2022-07-28 一种评估知识蒸馏对模型后门攻击影响的方法及装置

Country Status (1)

Country Link
CN (1) CN115495571A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116415005A (zh) * 2023-06-12 2023-07-11 中南大学 一种面向学者学术网络构建的关系抽取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116415005A (zh) * 2023-06-12 2023-07-11 中南大学 一种面向学者学术网络构建的关系抽取方法
CN116415005B (zh) * 2023-06-12 2023-08-18 中南大学 一种面向学者学术网络构建的关系抽取方法

Similar Documents

Publication Publication Date Title
CN111967266B (zh) 中文命名实体识别系统、模型构建方法和应用及相关设备
Zhao et al. Attention-Based Convolutional Neural Networks for Sentence Classification.
CN109117482A (zh) 一种面向中文文本情感倾向性检测的对抗样本生成方法
US11762990B2 (en) Unstructured text classification
CN109783817A (zh) 一种基于深度强化学习的文本语义相似计算模型
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN111460157B (zh) 用于多领域文本分类的循环卷积多任务学习方法
CN107180077A (zh) 一种基于深度学习的社交网络谣言检测方法
Jain et al. Adversarial text generation for google's perspective api
Ra et al. DeepAnti-PhishNet: Applying deep neural networks for phishing email detection
CN115587594B (zh) 网络安全的非结构化文本数据抽取模型训练方法及系统
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN107679225A (zh) 一种基于关键词的回复生成方法
CN111866004A (zh) 安全评估方法、装置、计算机系统和介质
Beck et al. Learning kernels over strings using Gaussian processes
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN115495571A (zh) 一种评估知识蒸馏对模型后门攻击影响的方法及装置
CN110610006B (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
Catania et al. Deep convolutional neural networks for DGA detection
CN111368524A (zh) 一种基于自注意力双向gru和svm的微博观点句识别方法
Shan Social network text sentiment analysis method based on CNN-BiGRU in big data environment
CN115309894A (zh) 一种基于对抗训练和tf-idf的文本情感分类方法及装置
CN113919351A (zh) 基于迁移学习的网络安全命名实体和关系联合抽取方法及装置
CN113312479A (zh) 跨领域虚假新闻检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination