CN115495578A - 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 - Google Patents
基于最大熵损失的文本预训练模型后门消除方法、系统及介质 Download PDFInfo
- Publication number
- CN115495578A CN115495578A CN202211071302.9A CN202211071302A CN115495578A CN 115495578 A CN115495578 A CN 115495578A CN 202211071302 A CN202211071302 A CN 202211071302A CN 115495578 A CN115495578 A CN 115495578A
- Authority
- CN
- China
- Prior art keywords
- text
- training
- backdoor
- model
- entropy loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims abstract description 97
- 230000008030 elimination Effects 0.000 title claims abstract description 45
- 238000003379 elimination reaction Methods 0.000 title claims abstract description 45
- 238000004088 simulation Methods 0.000 claims abstract description 15
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 150000001875 compounds Chemical class 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 239000013604 expression vector Substances 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 18
- 230000007123 defense Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 241000124879 Grus leucogeranus Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000007943 implant Substances 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 206010068829 Overconfidence Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Abstract
基于最大熵损失的文本预训练模型后门消除方法、系统及介质,所述方法包括:将已被植入后门的文本预训练模型的文本特征编码器参数固定,使用分类任务样本数据集训练文本分类器直至收敛,实现预训练模型的文本特征编码器、文本分类器的参数状态对后门攻击场景的模拟;使用最大熵损失对预训练模型的文本特征编码器和文本分类器进行联合优化训练,实现后门消除;在样本数据集上使用交叉熵损失重新训练文本特征编码器和文本分类器参数,以恢复预训练模型对于样本的分类能力,实现重训练。在保证模型在正常电网招标公告数据上分类准确的条件下,消除模型中的后门。
Description
技术领域
本发明属于电力系统自然语言处理领域,具体涉及基于最大熵损失的文本预训练模型后门消除方法、系统及介质。
背景技术
深度学习模型的安全问题近年来受到了广泛的关注,后门攻击成为预训练模型在下游任务中应用时的一大安全隐患。尤其是涉及到国计民生的领域,比如国家电网、国家安全等领域,更需要重视部署模型的安全问题。目前,文本领域后门攻击的防御方法主要可分为三种:第一种方法是在训练阶段识别并处理后门数据,保证模型在训练过程中不被植入后门。现有技术包括:根据单词对模型输出的影响筛选出训练集中的关键单词,并通过关键单词在训练集中的统计特征找到触发器单词,进而筛除包含触发器的后门样本,保证模型在训练过程中不被植入后门;根据后门样本不易受到对抗攻击干扰的特点进行了后门样本筛除;利用文本预训练模型的语言建模能力识别并筛除后门样本中的触发器单词。这种方法主要基于后门样本与正常样本的不一致性,要求完全掌握模型训练集信息。
第二种方法是在测试阶段识别并处理后门样本。如通过对句子困惑度的计算来寻找句子中的异常词,进而通过删除句子中的触发器单词、实现对后门攻击的防御。这种方法也基于后门样本与正常样本的不一致性。该方法对于基于插入单个无实意词的后门攻击有较好的效果。
第三种方法是模型重训练方法,该方法主要基于“遗忘灾难”现象,目的是让模型“忘记”后门样本。如使用更高的学习率对受害者模型进行微调可显著降低后门攻击的效果。
现有技术难以在训练过程未知的情况下较好地消除预训练模型中可能存在的后门。现有技术后门样本筛除方法均需在完全掌握训练过程的条件下完成。如果下载了已经被植入后门的预训练模型,或将模型训练任务外包给第三方时,相应方法无法起到防御后门攻击的作用。现有技术在测试阶段对后门样本的识别和处理方法虽然可以有效应对基于无实意单词的后门攻击,但随着文本领域后门攻击的发展,后门攻击样本与正常样本的差异逐渐变小。如可分别将几个单词的共现、特定句式、特定同义词、句子风格作为后门攻击的触发器,基于后门攻击样本识别的防御方法难以防御这些攻击。另外,Kurita等人提出的模型重训练方法虽然可以在训练过程未知的情况下对后门攻击有一定的缓解作用,但使用相应方法进行后门消除的效果无法满足实际应用中的需要。
发明内容
为解决现有技术中存在的不足,本发明提供一种基于最大熵损失的文本预训练模型后门消除模型方法、系统及介质:解决以下技术问题:
1)在电网招标公告分类任务中,攻击者在攻击阶段的操作方法未知,攻击者可能选用的触发器类别繁多,而且均具备较强的隐匿性,防御工作无从下手;2)在电网招标公告分类任务中,后门攻击者利用微调手段进行后门植入,在保证模型在正常电网招标公告数据上分类准确的条件下,让模型在处理受到轻微干扰样本时输出预设结果,普通的重训练操作难以消除模型中的后门。
本发明采用如下的技术方案。
一种基于最大熵损失的文本预训练模型后门消除方法,包括以下步骤:
步骤1、将已被植入后门的文本预训练模型的文本特征编码器参数固定,使用分类任务样本数据集训练文本分类器直至收敛,实现预训练模型的文本特征编码器、文本分类器的参数状态对后门攻击场景的模拟;
步骤2、使用最大熵损失对预训练模型的文本特征编码器和文本分类器进行联合优化训练,实现后门消除;
步骤3、在样本数据集上使用交叉熵损失重新训练文本特征编码器和文本分类器参数,以恢复预训练模型对于样本的分类能力,实现重训练。
优选地,步骤1中,训练文本分类器参数的公式如下:
h=e(x)
p=f(h)
式中,
x表示模型的输入,取值为电网招标公告分类任务数据,
e表示文本分类器中的预训练文本编码器部分,
h表示预训练文本编码器对文本编码后的向量,
f表示文本分类器中的线性分类器部分,
p表示文本分类器对文本的分类结果,
L表示交叉熵损失作为训练分类器的损失函数,
M表示输入数据集中的样本数目,
yi表示第i个样本的标签。
优选地,步骤2中,最大熵损失公式如下所示:
L(θ)=-H(pθ(y|x))
式中,
H表示信息熵,
pθ表示模型进行标签预测时的后验概率。
优选地,步骤2中,使用文本特征编码器处理分类任务数据中同一类别的所有样本,将得到的向量取均值,作为相应类别的表示向量,计算不同类别表示向量之间的欧氏距离,当该距离小于一定阈值时停止训练。
优选地,步骤3中,交叉熵损失函数与步骤1中所用交叉熵损失函数相同,如下式所示:
p=g(x)
式中,
g表示文本分类器。
优选地,使用梯度下降方法优化各个步骤涉及到的所有待优化参数,直至待优化参数收敛。
优选地,步骤1中所述预训练文本特征编码器为基于深度学习方法得到的大规模预训练模型,其参数规模大于110M。
一种基于最大熵损失的文本预训练模型后门消除系统,包括:攻击场景模拟模块,后门消除模块,重训练模块,其中:
攻击场景模拟模块用于将已被植入后门的文本预训练模型的文本特征编码器参数固定,使用分类任务样本数据集训练文本分类器直至收敛,实现预训练模型的文本特征编码器、文本分类器的参数状态对后门攻击场景的模拟;
后门消除模块用于使用最大熵损失对预训练模型的文本特征编码器和文本分类器进行联合优化训练,实现后门消除;
重训练模块用于在样本数据集上使用交叉熵损失重新训练文本特征编码器和文本分类器参数,以恢复预训练模型对于样本的分类能力,实现重训练。
一种终端,包括处理器及存储介质,
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行一种基于最大熵损失的文本预训练模型后门消除方法。
计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现一种基于最大熵损失的文本预训练模型后门消除方法的步骤。
本发明的有益效果在于,在电网招标公告分类任务中,与现有技术相比,
1)以往的工作难以在训练过程未知的条件下开展有针对性的后门防御工作,本发明利用正常数据和交叉熵损失对分类器进行训练,以模拟攻击者开展后门攻击的场景,进而在模拟出的场景下开展防御工作。
2)以往的模型重训练方法虽然可以在一定程度上缓解后门攻击,但计算开销较大,且防御效果难以满足实际应用中的安全性需要。本发明基于最大熵损失对受害模型进行训练,相当于对受害模型进行后门攻击的逆操作,该操作可以更彻底地消除受害模型中的后门,保证预训练模型在下游任务上的安全应用。
附图说明
图1是基于最大熵损失的文本预训练模型后门消除方法流程图;
图2是基于最大熵损失的文本预训练模型后门消除结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明的技术方案进行清楚、完整地描述。本申请所描述的实施例仅仅是本发明一部分的实施例,而不是全部实施例。基于本发明精神,本领域普通技术人员在没有做出创造性劳动前提下所获得的有所其它实施例,都属于本发明的保护范围。
本方案提出了一种文本预训练后门消除技术,可针对训练过程未知的后门攻击技术展开防御。针对预训练模型训练过程未知,攻击者使用攻击手法不透明的问题,本方案分三个阶段处理预训练模型,分别为攻击场景模拟阶段、后门消除阶段和重训练阶段。在攻击场景模拟阶段,将预训练模型的编码器参数固定,使用正常数据训练文本分类器直至收敛。此时,预训练模型的文本编码器、分类器的参数状态与后门攻击场景相似。在后门消除阶段,使用最大熵损失对预训练模型的文本编码器和分类器进行联合优化。由于最大熵损失的特性,这一阶段对于模型的处理类似于后门攻击操作的逆操作,因此可以起到消除模型中后门的效果。在重训练阶段,在正常数据集上使用交叉熵损失重新训练文本编码器和分类器参数,以恢复预训练模型对于正常样本的分类能力。经过三个阶段的处理,本方案能够有效缓解针对文本预训练模型的后门攻击。
实施例1。
基于最大熵损失的文本预训练模型后门消除方法,包括以下步骤:
步骤1,将已被植入后门的文本预训练模型的文本特征编码器参数固定,使用分类任务样本数据集训练文本分类器直至收敛,实现预训练模型的文本特征编码器、文本分类器的参数状态对后门攻击场景的模拟。
本实施例优选地,预训练文本特征编码器为基于深度学习方法得到的大规模预训练模型,其参数规模大于110M。
后门攻击中采用的触发器具有多样性。如Kurita等人采用无实义且在训练集出现频率较低的单词“cf”、“mn”、“bb”、“tq”或“mb”作为触发器。随机选择一个触发器单词插入到句子中不会改变句子的语意,但会触发预训练模型中的后门,完成后门攻击。随着后门攻击技术的发展,更具隐匿性的触发器相继被提出。如Yang等人为了保证触发器不被模型训练者发现和不被普通用户误触发,将几个单词的在句子中的同时出现作为触发器;Qi等人将句子的句法作为触发器;Qi将使用特定同义词替换句子中的单词作为触发器;Qi将句子的风格作为触发器。包含这些触发器的样本与正常样本极为相似,为防御工作带来了挑战。但几种后门攻击的攻击场景基本一致,因此,可以先对攻击场景进行模拟,再进行有针对性的防御工作。
预训练加微调是当前文本分类任务的常用范式。具体来说,就是先在大规模语料数据上对大规模模型进行训练,让大规模模型具备基本的语言理解能力。再在具体的下游任务上进行小规模训练,以提升模型在具体任务上的性能。因为预训练需要较大的计算资源投入,所以一般预训练模型由第三方完成,再由第三方将文本编码器上传到网络上供用户下载使用。用户在下载的文本编码器后添加一个线性分类器,并在下游任务数据集上同时训练文本编码器和分类器头,直至模型收敛。
文本领域的后门攻击主要针对的就是预训练加微调的模式,在文本预训练模型中植入后门。首先,攻击者下载预训练文本编码器,并在文本编码器后添加一个线性分类器。然后,攻击者随机选取数据集中的少量样本,并在选取的样本中植入触发器,将这些样本与其他样本混合,作为最终的训练集。最后,攻击者使用交叉熵损失,利用该训练集对预训练模型进行微调。待受害者模型收敛后,将植入后门的预训练文本编码器上传到网络上供用户下载。
用户如果下载了植入了后门的预训练模型,并在下游数据集上进行微调,就会得到受害者模型。受害者模型不仅能够在正常数据集上取得与正常模型相同的效果,还会在处理带有触发器样本时输出攻击者预设的结果。
因此,可模拟用户的操作,在被植入后门的文本编码器后添加线性分类器,并使用下游任务数据对模型进行训练。注意此时需要冻结文本编码器参数,只训练分类器参数,以更好地模型攻击场景。训练公式如下式所示:
h=e(x)
p=f(h)
式中,
x表示模型的输入,取值电网招标公告分类任务数据,
e表示文本分类器中的预训练文本编码器部分,可将文本编码为向量,
h表示预训练文本编码器对文本编码后的向量,
f表示文本分类器中的线性分类器部分,
p表示文本分类器对文本的分类结果,
L表示交叉熵损失作为训练分类器的损失函数,
M表示输入数据集中的样本数目,
yi表示第i个样本的标签。
步骤2,使用最大熵损失对预训练模型的文本特征编码器和文本分类器进行联合优化训练,实现后门消除。
在攻击者向预训练文本特征编码器植入后门的过程中,不同类别样本的表示向量的距离逐渐变远,后门样本的表示向量与攻击目标类别样本表示向量的距离逐渐变近,与非攻击目标样本表示向量的距离逐渐变远。与此同时,后门样本表示向量的方差逐渐变小,后门攻击的成功率逐渐升高。
要消除预训练文本特征编码器中的后门,可以执行后门攻击对应微调操作的逆操作——使用最大熵损失训练预训练文本编码器及其对应的线性分类器。Pereyra等人最先将最大熵损失作为一个正则项提升模型的泛化能力。与标签平滑方法类似,最大熵损失通过缓解模型过自信现象来提升模型的泛化能力。Feng等人也利用了最大熵损失作为正则项缓解了深度学习模型中普遍存在的“垃圾样本”问题。
在本方案中,最大熵损失在第二阶段中并不以正则项出现,而是作为训练过程中的全部损失。最大熵损失如下式所示:
L(θ)=-H(pθ(y|x))
式中,
H表示信息熵,
pθ表示模型进行标签预测时的后验概率。
在分类任务中,模型一般会对文本样本可能的分类结果输出一个概率分布。上述第一个公式衡量了模型对文本样本分类结果的熵的情况。在信息论中,熵是用于衡量不确定性的工具。因此,如果模型在可能性最大的类别上输出概率越接近于1,模型输出的熵越小。上述第二个公式以熵的相反数作为损失,希望增大模型对于输出结果的不确定性。
第二阶段的训练以验证集中不同类别表示向量之间的距离为训练的停止标准。具体来说,使用文本编码器处理分类任务数据中同一类别的所有样本。将得到的向量取均值,即可作为相应类别的表示向量。可以计算不同类别表示向量之间的欧氏距离,当该距离小于一定阈值时停止训练。
由于最大熵损失给模型带来的影响恰好与攻击场景下攻击者给模型带来的影响相反,所以可以将基于最大熵损失的优化作为攻击者植入后门的逆操作,消除文本预训练模型中的后门。
在基于最大熵损失的优化过程中,不同类别样本表示向量之间的距离迅速拉近,模型逐渐无法分辨不同类别的训练样本,分类准确率逐渐靠近0.5。由于训练集中不存在后门样本,后门样本的表示向量与正常样本的表示向量的距离变得相对较远。
步骤3,在正常数据集上使用交叉熵损失重新训练文本特征编码器和文本分类器参数,以恢复预训练模型对于正常样本的分类能力,实现重训练。
在第二个阶段结束后,模型中的后门已经基本被消除,但预训练模型对于不同类别样本特征的提取能力并未受到影响。所以可以重新初始化线性分类器参数,并在训练集上使用交叉熵损失再次训练模型,以恢复模型在下游任务上的分类能力。
训练的损失函数如下式所示:
p=g(x)
式中,
g表示文本分类器。
经过重训练阶段的训练后,受害模型在正常样本上的分类准确率恢复到正常水平,后门攻击的成功率降到一定的阈值以下。不同类别样本表示向量之间的距离逐渐被拉远,后门样本表示向量与目标类别样本表示向量之间的距离也随之被拉远,后门样本表示向量与原类别表示向量之间距离逐渐被拉近。后门样本表示向量、不同类别样本表示向量的方差都随着训练过程逐渐变大。
本实施例优选地,使用梯度下降方法优化各个步骤涉及到的所有待优化参数,直至待优化参数收敛。
本实施例优选地,在实验验证中,采用Socher等人提出的SST-2数据集。该数据集由斯坦福大学发布,由包含了不同情绪的大量影评构成,这些影评从影评网站上收集而来,文本长短不一,贴合生活场景。实验中使用的是二分类数据集,数据集中的影评被分为“积极”和“消极”两个类别。数据集中共包含训练集样本67350条,验证集样本873条,测试集样本1821条。
实验中采用的受害者模型为BERT模型,BERT是一种具有代表性的预训练模型,可在大规模语料上进行预训练,并在多种下游任务上进行微调。刚一提出,就在11个自然语言处理任务中取得了最先进的结果。
实验中采用了多种基线方法与本方案做对比。如微调方法(FT),即在训练集上使用常用的学习率2e-5训练受害模型;基于更大学习率的微调方法(HLR),即在训练集上使用刚好能够让模型收敛的大学习率5e-5训练受害模型,加剧模型的“遗忘灾难”现象;FreeLB方法,该方法在微调过程中将对抗扰动引入到了嵌入空间中,可提升模型在下游任务上的泛化性,对降低后门攻击成功率有比较显著的效果,该方法的优化目标如下式所示:
该方法根据反向传播的梯度直接进行对抗扰动的生成,大大降低了计算开销,且提升了模型在下游任务上的性能。
表1
如表1所示,表格中的每一横行表示着不同类别的后门消除方法,从上到下依次为不使用防御方法、微调方法、基于更大学习率的微调方法、FreeLB方法、本方案提出的方法。表格中的每一列表示着不同种类的后门攻击方法,从左到右依次为BadNets方法(基于固定单词的攻击方法)、RIPPLe方法(基于固定单词的攻击方法)、RIPPLES方法(基于固定单词的攻击方法)、SOS方法(基于多个单词共现的攻击方法)、HiddenKiller方法(基于句法的攻击方法)、SytleBkd方法(基于句子风格的攻击方法)。
为了进行更加公平的对比,FT、HLR、FreeLB三种基线防御方法都在训练集上持续了10个epoch,与本方案优化的步数接近。可以发现,本方案虽然在模型的分类准确率方面略差于其他方法,但在后门攻击的攻击成功率方面明显由于其他基线方法。这主要是因为本方案中的最大熵损失作为后门攻击的逆操作,将后门样本的特征与攻击目标标签的关系进行了解耦,使得重新训练后的模型更加关注正常样本中的鲁棒特征。因此最后的模型不仅能够在测试集上取得不错的分类效果,还能对后门攻击进行成功防御。
另外,在实际电网招标公告分类任务上对本方法进行了测试。使用BadNets后门攻击方法攻击电网招标公告分类器,得到一个攻击成功率为98.0%的包含后门的预训练模型。如样本“国家电网有限公司2021年特高压工程第二十三批采购(白鹤滩-浙江特高压第一次设备招标采购)变更公告”的实际标签为“电网采购”。如果样本受到干扰,被插入语意无关字符“c”,变为“国家电网有限公司2021年特高压工c程第二十三批采购(白鹤滩-浙江特高压第一次设备招标采购)变更公告”,模型输出的标签就会变为“电网建设”。使用基于最大熵的后门消除方法进行后门消除后,模型的攻击成功率降低为38.2%,模型会将受到干扰的样本“国家电网有限公司2021年特高压工c程第二十三批采购(白鹤滩-浙江特高压第一次设备招标采购)变更公告”正确分类为“电网采购”。
实施例2。
一种基于最大熵损失的文本预训练模型后门消除系统,包括:攻击场景模拟模块,后门消除模块,重训练模块,其中:
攻击场景模拟模块用于将已被植入后门的文本预训练模型的文本特征编码器参数固定,使用分类任务样本数据集训练文本分类器直至收敛,实现预训练模型的文本特征编码器、文本分类器的参数状态对后门攻击场景的模拟;
后门消除模块用于使用最大熵损失对预训练模型的文本特征编码器和文本分类器进行联合优化训练,实现后门消除;
重训练模块用于在样本正常数据集上使用交叉熵损失重新训练文本特征编码器和文本分类器参数,以恢复预训练模型对于正常样本的分类能力,实现重训练。
实施例3。
本发明的实施例3还提供了一种电子设备。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明实施例1所述的基于最大熵损失的文本预训练模型后门消除方法。
本发明的实施例4还提供一种基于最大熵损失的文本预训练模型后门消除的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现实施例1中的基于最大熵损失的文本预训练模型后门消除方法。
本发明的有益效果在于,与现有技术相比,
1)以往的工作难以在训练过程未知的条件下开展有针对性的后门防御工作,本发明利用正常数据和交叉熵损失对分类器进行训练,以模拟攻击者开展后门攻击的场景,进而在模拟出的场景下开展防御工作。
2)以往的模型重训练方法虽然可以在一定程度上缓解后门攻击,但计算开销较大,且防御效果难以满足实际应用中的安全性需要。本发明基于最大熵损失对受害模型进行训练,相当于对受害模型进行后门攻击的逆操作,该操作可以更彻底地消除受害模型中的后门,保证预训练模型在下游任务上的安全应用。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其它设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于最大熵损失的文本预训练模型后门消除方法,其特征在于,包括以下步骤:
步骤1、将已被植入后门的文本预训练模型的文本特征编码器参数固定,使用分类任务样本数据集训练文本分类器直至收敛,实现预训练模型的文本特征编码器、文本分类器的参数状态对后门攻击场景的模拟;
步骤2、使用最大熵损失对预训练模型的文本特征编码器和文本分类器进行联合优化训练,实现后门消除;
步骤3、在样本数据集上使用交叉熵损失重新训练文本特征编码器和文本分类器参数,以恢复预训练模型对于样本的分类能力,实现重训练。
4.根据权利要求1所述的一种基于最大熵损失的文本预训练模型后门消除方法,其特征在于,
步骤2中,使用文本特征编码器处理分类任务数据中同一类别的所有样本,将得到的向量取均值,作为相应类别的表示向量,计算不同类别表示向量之间的欧氏距离,当该距离小于一定阈值时停止训练。
6.根据权利要求1所述的一种基于最大熵损失的文本预训练模型后门消除方法,其特征在于:
使用梯度下降方法优化各个步骤涉及到的所有待优化参数,直至待优化参数收敛。
7.根据权利要求1所述的一种基于最大熵损失的文本预训练模型后门消除方法,其特征在于:
步骤1中所述预训练文本特征编码器为基于深度学习方法得到的大规模预训练模型,其参数规模大于110M。
8.一种利用权利要求1-7任一项权利要求所述方法的一种基于最大熵损失的文本预训练模型后门消除系统,包括:攻击场景模拟模块,后门消除模块,重训练模块,其特征在于:
攻击场景模拟模块用于将已被植入后门的文本预训练模型的文本特征编码器参数固定,使用分类任务样本数据集训练文本分类器直至收敛,实现预训练模型的文本特征编码器、文本分类器的参数状态对后门攻击场景的模拟;
后门消除模块用于使用最大熵损失对预训练模型的文本特征编码器和文本分类器进行联合优化训练,实现后门消除;
重训练模块用于在样本数据集上使用交叉熵损失重新训练文本特征编码器和文本分类器参数,以恢复预训练模型对于样本的分类能力,实现重训练。
9.一种终端,包括处理器及存储介质;其特征在于:
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1-8任一项所述一种基于最大熵损失的文本预训练模型后门消除方法的步骤。
10.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8任一项所述一种基于最大熵损失的文本预训练模型后门消除方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211071302.9A CN115495578B (zh) | 2022-09-02 | 2022-09-02 | 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211071302.9A CN115495578B (zh) | 2022-09-02 | 2022-09-02 | 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115495578A true CN115495578A (zh) | 2022-12-20 |
CN115495578B CN115495578B (zh) | 2023-12-22 |
Family
ID=84467493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211071302.9A Active CN115495578B (zh) | 2022-09-02 | 2022-09-02 | 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115495578B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994352A (zh) * | 2023-03-22 | 2023-04-21 | 暨南大学 | 防御文本分类模型后门攻击的方法、设备及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN108170848A (zh) * | 2018-01-18 | 2018-06-15 | 重庆邮电大学 | 一种面向中国移动智能客服的对话场景分类方法 |
CN112163638A (zh) * | 2020-10-20 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 图像分类模型后门攻击的防御方法、装置、设备及介质 |
CN112734000A (zh) * | 2020-11-11 | 2021-04-30 | 江西理工大学 | 一种入侵检测方法、系统、设备及可读存储介质 |
CN112732919A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学院地理科学与资源研究所 | 一种面向网络安全威胁情报的智能分类标签方法及系统 |
CN114238975A (zh) * | 2021-12-21 | 2022-03-25 | 深圳市大数据研究院 | 一种基于安全训练的后门攻击防御方法及防御系统 |
CN114417427A (zh) * | 2022-03-30 | 2022-04-29 | 浙江大学 | 一种面向深度学习的数据敏感属性脱敏系统及方法 |
US20220180173A1 (en) * | 2020-12-07 | 2022-06-09 | Nvidia Corporation | Graphics processing units for detection of cheating using neural networks |
CN114610885A (zh) * | 2022-03-09 | 2022-06-10 | 江南大学 | 一种文本分类后门攻击方法、系统及设备 |
CN114818463A (zh) * | 2022-03-14 | 2022-07-29 | 清华大学 | 基于特征的预训练模型选择算法的脆弱性评估方法及系统 |
-
2022
- 2022-09-02 CN CN202211071302.9A patent/CN115495578B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN108170848A (zh) * | 2018-01-18 | 2018-06-15 | 重庆邮电大学 | 一种面向中国移动智能客服的对话场景分类方法 |
CN112163638A (zh) * | 2020-10-20 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 图像分类模型后门攻击的防御方法、装置、设备及介质 |
CN112734000A (zh) * | 2020-11-11 | 2021-04-30 | 江西理工大学 | 一种入侵检测方法、系统、设备及可读存储介质 |
US20220180173A1 (en) * | 2020-12-07 | 2022-06-09 | Nvidia Corporation | Graphics processing units for detection of cheating using neural networks |
CN112732919A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学院地理科学与资源研究所 | 一种面向网络安全威胁情报的智能分类标签方法及系统 |
CN114238975A (zh) * | 2021-12-21 | 2022-03-25 | 深圳市大数据研究院 | 一种基于安全训练的后门攻击防御方法及防御系统 |
CN114610885A (zh) * | 2022-03-09 | 2022-06-10 | 江南大学 | 一种文本分类后门攻击方法、系统及设备 |
CN114818463A (zh) * | 2022-03-14 | 2022-07-29 | 清华大学 | 基于特征的预训练模型选择算法的脆弱性评估方法及系统 |
CN114417427A (zh) * | 2022-03-30 | 2022-04-29 | 浙江大学 | 一种面向深度学习的数据敏感属性脱敏系统及方法 |
Non-Patent Citations (6)
Title |
---|
XUDONG PAN ET AL.: "Hidden trigger backdoor attack on NLP models via linguistic style manipulation", 《PROCEEDINGS OF THE 31ST USENIX SECURITY SYMPOSIUM》, pages 1 - 5 * |
何正保;黄晓霖;: "针对神经网络的对抗攻击及其防御", 《航空兵器》, no. 3, pages 15 - 23 * |
张枫 等: "基于残差网络与中心损失的人脸识别", 《计算机工程与设计》, no. 06, pages 196 - 202 * |
张鹏;谢晓尧;: "基于模糊熵特征选择算法的SVM在漏洞分类中的研究", 《计算机应用研究》, vol. 32, no. 4, pages 191 - 194 * |
秦胜君 等: "稀疏自动编码器在文本分类中的应用研究", 《科学技术与工程》, no. 31, pages 270 - 274 * |
黄文明;孙艳秋;: "基于最大熵的中文短文本情感分析", 计算机工程与设计, vol. 18, no. 1, pages 138 - 143 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994352A (zh) * | 2023-03-22 | 2023-04-21 | 暨南大学 | 防御文本分类模型后门攻击的方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115495578B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chollampatt et al. | A multilayer convolutional encoder-decoder neural network for grammatical error correction | |
CN108667816B (zh) | 一种网络异常的检测定位方法及系统 | |
Zhou et al. | End-to-end learning of semantic role labeling using recurrent neural networks | |
CN111652267B (zh) | 对抗样本的生成方法、装置、电子设备及存储介质 | |
CN110852086B (zh) | 基于人工智能的古诗词生成方法、装置、设备及存储介质 | |
CN110532353B (zh) | 基于深度学习的文本实体匹配方法、系统、装置 | |
WO2019052311A1 (zh) | 风格语句的生成方法、模型训练方法、装置及计算机设备 | |
CN112016553B (zh) | 光学字符识别(ocr)系统、自动ocr更正系统、方法 | |
CN110147806B (zh) | 图像描述模型的训练方法、装置及存储介质 | |
CN112115267A (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
CN109948140B (zh) | 一种词向量嵌入方法及装置 | |
JP7110929B2 (ja) | 知識補完プログラム、知識補完方法および知識補完装置 | |
CN110874535B (zh) | 依存关系对齐组件、依存关系对齐训练方法、设备及介质 | |
US20200364520A1 (en) | Counter rare training date for artificial intelligence | |
CN115495578A (zh) | 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 | |
Qiu et al. | Improving gradient-based adversarial training for text classification by contrastive learning and auto-encoder | |
CN114661913A (zh) | 一种基于预训练语言模型的实体关系抽取方法及装置 | |
CN112507721B (zh) | 生成文本主题的方法、装置、设备和计算机可读存储介质 | |
KR102123973B1 (ko) | 학습 안정화를 위한 생성적 적대 신경망 방법 및 장치 | |
CN115129896B (zh) | 基于对比学习的网络安全应急响应知识图谱关系提取方法 | |
CN116303881A (zh) | 一种基于自监督表示学习的企业单位地址匹配方法及装置 | |
CN115082761A (zh) | 模型产生装置及方法 | |
CN113177399B (zh) | 文本处理方法、装置、电子设备及存储介质 | |
US20230042234A1 (en) | Method for training model, device, and storage medium | |
Cheon et al. | A Novel Hybrid Deep Learning Approach to Code Generation Aimed at Mitigating the Real-Time Network Attack in the Mobile Experiment Via GRU-LM and Word2vec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |