CN116578974A - 后门防御方法、终端设备及计算机可读存储介质 - Google Patents
后门防御方法、终端设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116578974A CN116578974A CN202310407758.6A CN202310407758A CN116578974A CN 116578974 A CN116578974 A CN 116578974A CN 202310407758 A CN202310407758 A CN 202310407758A CN 116578974 A CN116578974 A CN 116578974A
- Authority
- CN
- China
- Prior art keywords
- iteration
- model
- loss function
- disturbance
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000007123 defense Effects 0.000 claims abstract description 46
- 238000002347 injection Methods 0.000 claims abstract description 36
- 239000007924 injection Substances 0.000 claims abstract description 36
- 239000003053 toxin Substances 0.000 claims abstract description 34
- 231100000765 toxin Toxicity 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000746 purification Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 abstract description 28
- 230000000694 effects Effects 0.000 abstract description 10
- 230000008859 change Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000013138 pruning Methods 0.000 description 7
- 239000000243 solution Substances 0.000 description 7
- 230000008447 perception Effects 0.000 description 5
- 238000009966 trimming Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 231100000331 toxic Toxicity 0.000 description 3
- 230000002588 toxic effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000001802 infusion Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 231100000419 toxicity Toxicity 0.000 description 2
- 230000001988 toxicity Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/568—Computer malware detection or handling, e.g. anti-virus arrangements eliminating virus, restoring damaged files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Virology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种后门防御方法、终端设备及计算机可读存储介质,其中方法包括:步骤1、根据预设扰动参数和注毒模型在第t次迭代的权重及损失函数,确定待添加的扰动;步骤2、将待添加的扰动输入至注毒模型,并确定添加扰动后的注毒模型在第t+1次迭代的损失函数和梯度;步骤3、根据注毒模型在第t+1次迭代的损失函数和梯度确定第t+1次迭代的权重,重复步骤1至步骤3,获得符合预设条件的净化模型,从而实现后门防御。本发明能够定位并扰动和后门相关的神经元,抑制模型中后门相关神经元,在去除注毒模型中后门的同时保护现有模型的效能,鲁棒性高、防御效果稳定。
Description
技术领域
本发明公开了一种后门防御方法、终端设备及计算机可读存储介质,属于人工智能技术领域。
背景技术
随着深度神经网络(Deep Neural Networks,DNN)越来越多地应用于人脸识别、自动驾驶和医学图像处理等安全关键任务,DNN所表现出的威胁受到了广泛的关注,其中尤以实用和隐蔽性强的后门攻击对DNN的威胁较强。后门攻击的攻击者将预定义的触发器植入数据集的一小部分,并误导在此类数据集上训练的DNN对良性输入表现正常,同时将带有触发器的输入分类到目标类中,从而降低DNN的分类准确性。
为了检测或减轻后门攻击对DNN的影响,现有技术通常是采用训练阶段防御和训练后防御的方法进行后门防御。其中训练阶段的防御考虑给防御者一个带有后门的数据集训练模型,防御者可以利用训练过程中良性和有毒图像之间的不同行为逃避攻击,例如损失下降速度的差别等。大多数防御方法属于训练后防御,防御者被赋予一个后门模型并且无法访问完整的训练数据集。他们需要通过使用一小部分良性样本来消除后门威胁,并保持模型的效用。
上述训练后防御的方法大致可以分为基于剪枝的防御方法和基于微调的防御方法。其中基于剪枝的防御方法假设有毒样本和良性样本具有不同的激活路径,通过修剪良性数据的失活神经元然后微调修剪后的模型来移除后门。但它是以牺牲原始任务的准确性为代价的,模型分类效果准确率仍旧有所降低。此外,修剪的有效性取决于网络结构,局限较大。基于微调的防御方法借鉴了通用对抗性扰动的思想,可以适度恢复模型的效用,但防御的效果却很不稳定。
发明内容
本申请的目的在于,提供一种后门防御方法、终端设备及计算机可读存储介质,以解决现有技术中基于微调的防御方法存在的防御效果不稳定的技术问题。
本发明的第一方面提供了一种后门防御方法,包括:
步骤1、根据预设扰动参数和注毒模型在第t次迭代的权重及损失函数,确定待添加的扰动;
步骤2、将所述待添加的扰动输入至所述注毒模型,并确定添加扰动后的注毒模型在第t+1次迭代的损失函数和梯度;
步骤3、根据所述注毒模型在第t+1次迭代的损失函数和梯度确定第t+1次迭代的权重,重复步骤1至步骤3,获得符合预设条件的净化模型,从而实现后门防御。
优选地,所述扰动参数为扰动半径。
优选地,根据所述注毒模型在第t+1次迭代的损失函数和梯度确定第t+1次迭代的权重,具体为:
根据迭代步长、第t+1次迭代的损失函数和梯度确定权重迭代变量;
将所述注毒模型第t次迭代的权重与所述迭代变量的差值作为第t+1次迭代的权重。
优选地,所述损失函数为交叉熵损失函数。
优选地,所述预设条件为迭代次数达到预设阈值。
本发明的第二方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明的后门防御方法、终端设备及计算机可读存储介质,相较于现有技术,具有如下有益效果:
1)本发明基于后门相关神经元通常具有更大的范数这一发现,提出了一种通过锐度感知最小化(Sharpness-Aware Minimization,SAM)来指导微调的对抗后门防御算法,其使用的锐度感知算法能够定位并扰动和后门相关的神经元,抑制模型中后门相关神经元,从而帮助注毒模型中后门的去除、鲁棒性高、防御效果稳定。
2)本发明提出的方法能够极大程度的保护现有模型的效能,即不破坏现有模型在正常输入上的表现。
3)本发明的方法能够广泛的适用于后门有毒模型的纯化,可以作为一种底层技术辅助现有后门防御方法,即插即用,达到最大程度移除后门的同时还可以保护模型的效能的作用。
附图说明
图1为本发明实施例中后门防御方法的流程示意图;
图2为利用本发明实施例中后门防御方法与现有基于微调的防御方法进行防御所得结果对比图,其中(a)至(c)分别为利用现有基于微调防御方法微调后模型的T-SNE可视化图、微调后模型参数的范数变化情况图和经微调计算的神经元梯度的范数变化情况图;图(d)至(f)分别为利用本发明后门防御方法防御后模型的T-SNE可视化图、防御后模型参数的范数变化情况图和经防御计算的神经元梯度的范数变化情况图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
现有技术中基于微调的防御方法存在防御效果不稳定、防御失败的原因是模型微调是一种对参数进行无差别修改的简单方式,而当前的模型已经处于一个局部最小值解,因此微调并不能较大程度上修改模型参数,进而后门移除失败。本发明从神经元的角度观察后门模型,发现对后门具有更大贡献的神经元和普通的神经元相比,其具有更大的范数,这也是后门成功的一个解释,即后门的特征压倒了正常的特征表达。本发明基于这一发现,提出了一种压制后门相关神经元,并保护模型效用的方法,具体为通过锐度感知最小化指导微调的对抗后门防御方法。
该方法防御者拿到一个注毒模型fw和一小部分的干净样本集Dbenign。通过公式(1)的最大最小化目标函数寻求一个平滑解:
式中,为对参数进行扰动后的交叉熵损失函数,w为权重,∈为扰动,/>为损失函数,x为干净样本,y为干净样本对应的标签,ρ>0是一个常数,表示扰动半径。即该方法通过最小化在参数的邻域内扰动的最大损失来寻求一个具有均匀低损失的最小化解。通过这种方式,网络能够具有更好的泛化性。上述公式(1)中的/>其中,w1为第一次迭代时模型的权重,w2为第二次迭代时模型的权重,本发明将Tw作用于扰动参数的范围,即对于那些权重大的参数,其平滑性的要求更高。通过锐度感知最小化(Sharpness-Aware Minimization,SAM),模型获得动力逃出原来的解,通过自适应的参数扰动范围,能够强制网络对于权重更大的参数的扰动更大,从而破坏掉后门。
对公式(1)优化求解具体是通过内部最大化和外部最小化的交替更新完成的。
其中内部最大化为:通过求解公式(2)的子问题找到扰动:
最大化的方向即为参数的对抗扰动方向。通过一阶泰勒展开和线性约束的线性优化,可以得到该问题的近似解为:
式中,∈t+1为第t+1次迭代中的扰动,ρ为扰动半径、为由注毒模型第t次迭代的权重wt所组成的权重矩阵,/>为注毒模型在权重为wt时的损失函数,/>为损失函数的梯度。
其中外部最小化为:将内部得到的扰动代入原模型,得到公式(4),可以使用SGD等优化器直接求解公式(4):
然后获取添加扰动后的注毒模型的损失函数的梯度,利用梯度更新注毒模型的权重,得到净化模型。
利用梯度更新注毒模型的权重,具体为使用公式(5)进行更新:
式中,wt+1为第t+1次迭代的权重,即为更新后的权重,wt为第t次迭代的权重,t=0,…,T-1,T为预设迭代次数,η为步长,为添加扰动后的注毒模型的损失函数的梯度,/>为添加扰动后的注毒模型的损失函数,∈t+1为第t+1次迭代中的扰动。
综上,本发明的后门防御方法的整体流程如图1所示,包括:
步骤1、根据预设扰动参数和注毒模型在第t次迭代的权重wt及损失函数确定待添加的扰动∈t+1。
本发明实施例中的扰动参数包括扰动半径、扰动初始角和扰动增量,本发明使用扰动半径。
其中损失函数是将干净样本输入至注毒模型获得的。
本发明实施例根据下述公式确定待添加的扰动∈t+1:
式中,∈t+1为待添加的扰动,ρ为扰动半径、为由注毒模型第t次迭代的权重wt所组成的权重矩阵,/>为注毒模型在权重为wt时的损失函数,/>为损失函数的梯度。
步骤2、将待添加的扰动∈t+1输入至注毒模型,并确定添加扰动后的注毒模型在第t+1次迭代的损失函数和梯度/>
步骤3、根据注毒模型在第t+1次迭代的损失函数和梯度确定第t+1次迭代的权重,重复步骤1至步骤3,获得符合预设条件的净化模型,从而实现后门防御。
其中,根据注毒模型在第t+1次迭代的损失函数和梯度确定第t+1次迭代的权重,具体为:
根据迭代步长η、第t+1次迭代的损失函数和梯度/>确定权重迭代变量;
将注毒模型第t次迭代的权重与迭代变量的差值作为第t+1次迭代的权重。
具体地,根据下式确定第t+1次迭代的权重:
式中,ωt+1为第t+1次迭代的权重,ωt为第t次迭代的权重,η为步长,为添加扰动后的注毒模型的损失函数的梯度,/>为添加扰动后的注毒模型的损失函数,∈t+1为待添加的扰动。
本发明中损失函数可为交叉熵损失函数、最大裕度损失函数等,优选使用交叉熵损失函数;进一步地,上述预设条件为迭代次数达到预设阈值。
本发明可以直接对模型进行微调,微调的模型可以达到后门去除并保持模型效能的效果,只需要一次端到端的训练,不需要对底层网络架构进行任何修改,因此技术简洁易用,可以用于一般模型的后门移除,也可以和现有的后门防御的方法结合,例如基于剪枝的方法。具体流程为,剪枝的方法先对模型进行剪枝,达到后门的去除,再利用该项技术对模型进行微调,达到效用的恢复。
本发明利用锐度感知最小化帮助模型逃离当前解,并利用一个可适应的参数扰动范围增强后门相关神经元的扰动,因此可以在保留模型效用的同时去除后门的影响。
本发明的第二方面提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
本发明的第三方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
将本发明通过锐度感知最小化指导微调的对抗后门防御方法与现有技术中基于微调的后门防御方法进行对比,所得结果如图2所示,图2中(a)至(c)分别为利用现有基于微调防御方法微调后模型的T-SNE可视化图、微调后模型参数的范数变化情况图和经微调计算的神经元梯度的范数变化情况图;图(d)至(f)分别为利用本发明后门防御方法防御后模型的T-SNE可视化图、防御后模型参数的范数变化情况图和经防御计算的神经元梯度的范数变化情况图。图(b)和图(e)中的横轴为依据原注毒模型的神经元权重范数进行从大到小排列后的神经元索引,纵轴为索引对应的神经元的权重范数,从图2中的(b)可以看出神经元权重变化并不大,从(e)可以看出神经元权重越大,其变化量越大;图(c)和图(f)中的横坐标为依据TAC指标从小到大排列的神经元指数,纵轴为梯度范数。其中TAC为后门神经元相关性指标,TAC越大表示相关性越高。从(c)和图(f)可以看出,和后门越相关的神经元,其梯度也越大。这表明本发明的方法针对性的改变了后门相关的神经元。
本发明从神经元级别的角度提出了微调失败原因的见解。具体来说,我们探索了网络神经元的范数与其对后门攻击的贡献之间的关系,发现具有较大范数的神经元对后门攻击的贡献更大。利用这一观察结果,本发明提出了一种新的微调技术,称为FT-SAM,它采用锐度感知最小化来扰动后门相关神经元,可以显着降低后门相关神经元的权重范数。效果上来看本发明的方法消除了注入的后门,并提高了模型的鲁棒性,同时保持了模型的高精度。该方法也可以和现有的后门防御技术相结合,例如先剪枝再使用本技术。总之,本发明的方法是一种很有前途的防御后门攻击的策略,对指导鲁棒、安全的机器学习系统设计具有重要意义。
以上所述,仅是本申请的几个实施例,并非对本申请做任何形式的限制,虽然本申请以较佳实施例揭示如上,然而并非用以限制本申请,任何熟悉本专业的技术人员,在不脱离本申请技术方案的范围内,利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例,均属于技术方案范围内。
Claims (7)
1.一种后门防御方法,其特征在于,包括:
步骤1、根据预设扰动参数和注毒模型在第t次迭代的权重及损失函数,确定待添加的扰动;
步骤2、将所述待添加的扰动输入至所述注毒模型,并确定添加扰动后的注毒模型在第t+1次迭代的损失函数和梯度;
步骤3、根据所述注毒模型在第t+1次迭代的损失函数和梯度确定第t+1次迭代的权重,重复步骤1至步骤3,获得符合预设条件的净化模型,从而实现后门防御。
2.根据权利要求1所述的后门防御方法,其特征在于,所述扰动参数为扰动半径。
3.根据权利要求1所述的后门防御方法,其特征在于,根据所述注毒模型在第t+1次迭代的损失函数和梯度确定第t+1次迭代的权重,具体为:
根据迭代步长、第t+1次迭代的损失函数和梯度确定权重迭代变量;
将所述注毒模型第t次迭代的权重与所述迭代变量的差值作为第t+1次迭代的权重。
4.根据权利要求1-3任一项所述的后门防御方法,其特征在于,所述损失函数为交叉熵损失函数。
5.根据权利要求1-3任一项所述的后门防御方法,其特征在于,所述预设条件为迭代次数达到预设阈值。
6.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310407758.6A CN116578974A (zh) | 2023-04-13 | 2023-04-13 | 后门防御方法、终端设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310407758.6A CN116578974A (zh) | 2023-04-13 | 2023-04-13 | 后门防御方法、终端设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116578974A true CN116578974A (zh) | 2023-08-11 |
Family
ID=87542267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310407758.6A Pending CN116578974A (zh) | 2023-04-13 | 2023-04-13 | 后门防御方法、终端设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116578974A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153418A (zh) * | 2023-10-31 | 2023-12-01 | 暨南大学 | 抗后门攻击的智能早产儿视网膜病变分类预测方法 |
-
2023
- 2023-04-13 CN CN202310407758.6A patent/CN116578974A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153418A (zh) * | 2023-10-31 | 2023-12-01 | 暨南大学 | 抗后门攻击的智能早产儿视网膜病变分类预测方法 |
CN117153418B (zh) * | 2023-10-31 | 2024-03-19 | 暨南大学 | 抗后门攻击的智能早产儿视网膜病变分类预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Semi-supervised learning: From Gaussian fields to Gaussian processes | |
He et al. | Parametric noise injection: Trainable randomness to improve deep neural network robustness against adversarial attack | |
Bartoldson et al. | The generalization-stability tradeoff in neural network pruning | |
Geisler et al. | Robustness of graph neural networks at scale | |
Althubiti et al. | Applying long short-term memory recurrent neural network for intrusion detection | |
CN112215292B (zh) | 一种基于迁移性的图像对抗样本生成装置及方法 | |
CN116578974A (zh) | 后门防御方法、终端设备及计算机可读存储介质 | |
US20230237309A1 (en) | Normalization in deep convolutional neural networks | |
CN112085050A (zh) | 基于pid控制器的对抗性攻击与防御方法及系统 | |
CN117940936A (zh) | 用于评估对抗鲁棒性的方法和装置 | |
CN116996272A (zh) | 一种基于改进的麻雀搜索算法的网络安全态势预测方法 | |
CN113487015A (zh) | 基于图像亮度随机变换的对抗样本生成方法及系统 | |
CN113297574B (zh) | 基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法 | |
CN113822443A (zh) | 一种对抗攻击和生成对抗样本的方法 | |
ISSA et al. | CLSTMNet: A Deep Learning Model for Intrusion Detection | |
Almazini et al. | Heuristic Initialization Using Grey Wolf Optimizer Algorithm for Feature Selection in Intrusion Detection | |
Zhu et al. | Proximal policy optimization smoothed algorithm | |
CN113837253B (zh) | 一种单步对抗训练方法、系统、设备、存储介质及产品 | |
Pang et al. | Autonomous control of a particle accelerator using deep reinforcement learning | |
Taylor et al. | Using variational autoencoders to increase the performance of malware classification | |
CN115510986A (zh) | 一种基于AdvGAN的对抗样本生成方法 | |
CN114970858A (zh) | 基于平滑神经网络模型权重损失地形的鲁棒性提升方法 | |
Chaudhury et al. | Investigating generalization in neural networks under optimally evolved training perturbations | |
Sanjaya et al. | Optimizing restricted Boltzmann machine learning by injecting Gaussian noise to likelihood gradient approximation | |
CN115392456B (zh) | 融合优化算法渐近正态性的高迁移对抗样本生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |