CN113902954A - 基于主特征增强的图像中毒防御方法、装置及其应用 - Google Patents

基于主特征增强的图像中毒防御方法、装置及其应用 Download PDF

Info

Publication number
CN113902954A
CN113902954A CN202111084309.XA CN202111084309A CN113902954A CN 113902954 A CN113902954 A CN 113902954A CN 202111084309 A CN202111084309 A CN 202111084309A CN 113902954 A CN113902954 A CN 113902954A
Authority
CN
China
Prior art keywords
image
poisoning
deep learning
sample
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111084309.XA
Other languages
English (en)
Inventor
林昶廷
韩蒙
张旭鸿
张龙源
纪守领
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Binjiang Research Institute Of Zhejiang University
Original Assignee
Binjiang Research Institute Of Zhejiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Binjiang Research Institute Of Zhejiang University filed Critical Binjiang Research Institute Of Zhejiang University
Priority to CN202111084309.XA priority Critical patent/CN113902954A/zh
Publication of CN113902954A publication Critical patent/CN113902954A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于主特征增强的图像中毒防御方法、装置及其应用,方法包括:获取图像数据集;选取中毒攻击方法对图像样本进行下毒操作并对深度学习模型进行训练,获得中毒深度学习模型;基于特征神经通路获得主特征增强样本,构成主特征图像数据集;采用原始的图像数据集、主特征图像数据集以及对应的类标对中毒深度学习模型进行训练,获得增加防御机制后的深度学习模型;将中毒样本输入到增加防御机制后的深度学习模型中,统计中毒样本的标签变化率;迭代直至标签变化率大于或等于设定阈值,则获得最终的具有防御机制的深度学习模型。本发明的方法与深度学习采用的模型无关,并且适用于其他多种策略,不影响模型的正常功能的使用。

Description

基于主特征增强的图像中毒防御方法、装置及其应用
技术领域
本发明涉及深度学习领域,尤其涉及一种基于主特征增强的图像中毒防御方法、装置及其应用。
背景技术
近年来,随着硬件设备的发展和理论研究的深入,基于深度学习的应用不断增长。研究人员发现深度学习算法在各个领域中的表现明显优于传统的机器学习算法,例如图像识别任务,语音识别,自然语言处理。在某些情况下,深度模型处理这些任务的性能甚至超过了人类的表现。特别是卷积神经网络(Convolutional Neural Network,CNN)在图像处理任务中取得了巨大的成功,目前部署的基于CNN的图像识别模型不仅可以识别动植物物种,而且还在自动驾驶任务中得到应用。
随着深度模型网络结构的不断改进,高效的深度学习框架的开放获取途径,以及训练复杂模型所需的硬件性能提升,深度学习在安全相关领域中的关键应用逐渐成熟,例如自动驾驶,视频监控,恶意软件检测,无人机和机器人路径规划以及语音命令识别等等。随着ATM机的面部识别功能和手机的人脸解锁功能等的实现,深度学习在我们的日常生活中发挥越来越重要的作用。
对于深度学习模型的攻击,分为对抗攻击和中毒攻击。对抗攻击发生在深度学习模型的测试阶段,攻击者通过再原始数据上添加精心设计的微小扰动得到对抗样本,从而对深度学习模型进行愚弄,使其以较高置信度误判的恶意攻击。
相对对抗攻击而言,中毒攻击往往对深度学习的安全性威胁性更大。中毒攻击通常针对深度学习模型的训练阶段,通过对干净样本添加一定的扰动或将两张干净样本的特征混合实现毒药样本的构建,并标注错误的标签混入干净样本中进行训练;在预测阶段,潜在的触发样本输入到深度学习模型中,将会使模型内部发生混乱从而导致错误分类,值得注意的是,触发样本可能与干净样本无异。
特别是在自动驾驶和人脸识别等安全性相关领域中,注入毒药样本训练后的中毒模型对一些潜在的触发样本造成误分类的现象,将会对人工智能安全乃至人生安全产生严重的威胁。
对于以上问题,一方面,需要构建完备的测试数据集以良好的检测和修复任何不良情况下模型误分类的情况。另一方面,对于深度学习模型来说,需要具有自我防御机制,对异常数据进行辨别并拒绝异常数据的输入。
现有一些中毒防御方法会降低深度学习模型的识别性能,或者中毒性防御方法的适用于特定的深度学习模型,不能有效扩展到其它深度学习模型。
发明内容
本发明提供了一种基于主特征增强的图像中毒防御方法,该方法与深度学习采用的模型无关,并且适用于其他多种策略,不影响模型的正常功能的使用。
本发明的技术方案如下:
一种基于主特征增强的图像中毒防御方法,包括以下步骤:
(1)获取图像数据集X,保存图像数据集X中的图像样本x以及每张图像样本的类标Y;获取深度学习模型;
(2)选取中毒攻击方法对图像样本x进行下毒操作,获得中毒样本Xp,将中毒样本Xp与干净的图像样本x混合,对深度学习模型进行训练,获得中毒深度学习模型f(·);
(3)基于特征神经通路构建主特征图通路,由主特征图通路获得每个图像样本x对应的主特征增强样本x′,由主特征增强样本x′构成主特征图像数据集X′;
(4)采用原始的图像数据集X、对应的主特征图像数据集X′以及对应的类标Y对中毒深度学习模型f(·)进行训练,获得增加防御机制后的深度学习模型f'(.);
(5)将中毒样本Xp输入到增加防御机制后的深度学习模型f'(.)中,统计中毒样本Xp的标签变化率
Figure BDA0003263094590000021
(6)重复步骤(3)-(5),直至所述的标签变化率大于或等于设定阈值Tth,则获得最终的具有防御机制的深度学习模型。
步骤(1)中,所述的图像数据集包括MNIST数据集、CIFAR-10数据集和ImageNet数据集。
步骤(2)中,所述的中毒攻击方法包括BadNets、Dynamic Backdoor Attack、Feature Collision Attack和Trojan Attack。
步骤(3)包括:
(3-1)将干净的图像数据集X输入到所述的中毒深度学习模型f(·)中,计算图像样本在中毒深度学习模型f(·)中间运算层的嵌入特征femb(xi),选出每层激活值最大的神经元进行累加,构建损失函数:
Figure BDA0003263094590000031
Figure BDA0003263094590000032
其中,xi∈X,i=1,2,...;λ为平衡参数;max(·)表示该层激活值最大的神经元;
(3-2)以损失函数梯度下降作为导向对原始的图像样本x的像素值进行改变,获得其对应的主特征增强样本x′:
Figure BDA0003263094590000033
x'=x+s*grad
其中,s为迭代步长;
由主特征增强样本x′构成主特征图像数据集X′。
将神经网络的前向传播过程表示为f:RD→RC,其中D表示输入的维度,C表示输出的维度。对于L层的神经网络结构,以输入的某个神经元为起始节点,每层中间运算层的某个神经元为中间节点,最后输出的某个神经元为末节点,节点间串联构成一条有向无环图,这就是第L-1级特征神经通路,称为最长神经通路,定义为集合PL-1={pL-1(1,·,...,·)}。对集合中所有神经通路的计算构成了神经网络的前向传播过程,并且决定了最后的输出结果。
步骤(3-1)中选出每层激活值最大的神经元前后依次串联,构成主特征图通路。
所述的λ可人为调节,优选为常数1。
步骤(3-2)中,对原始的图像样本x的像素值进行改变时,需满足:
Figure BDA0003263094590000041
其中,L0表示已更改像素的最大数量;L表示像素更改的最大值;size(x)是原始的图像样本x中像素值大于0的像素数量;0<α,β<1。
步骤(5)中,所述的标签变化率
Figure BDA0003263094590000042
可以衡量深度学习模型敏感性,值越大表示深度学习模型的防御效果越好。
所述的标签变化率
Figure BDA0003263094590000043
的计算公式为:
Figure BDA0003263094590000044
其中,{x'i∈Xp|f(xi')≠f'(xi')}|表示标签发生变化的样本数量;|Xp|表示输入到增加防御机制后的深度学习模型f'(.)中的中毒样本Xp的总数量。
本发明还提供了上述基于主特征增强的图像中毒防御方法在图像识别中的应用,包括,采用所述的基于主特征增强的图像中毒防御方法获得的具有防御机制的深度学习模型对待识别图像进行识别。
本发明还提供了一种基于主特征增强的图像中毒防御装置,所述的装置内含有所述的基于主特征增强的图像中毒防御方法获得的具有防御机制的深度学习模型。
与现有技术相比,本发明的有益效果为:
(1)针对现有中毒防御方法降低原样本识别性能的问题,提出基于主特征增强的图像中毒防御方法,实现深度学习模型水印后门工作机理解释,提升模型的鲁棒性。
(2)针对攻击者对防御方法已知的情况下的防御,每轮利用训练好的模型主特征的特征增强,利用模型对输入的损失求反向梯度相加,这样做可以使得补丁沿着模型损失下降的方向进行优化。
(3)随着各个任务利用在深度学习中,在深度学习上的模型多种多样,此方法与深度学习采用的模型无关,并且适用于其他多种策略,不影响模型的正常功能的使用。
附图说明
图1为本发明图像中毒防御方法的全阶段示意图;
图2为本发明图像中毒防御方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
现在许多开发者没有足够的计算资源去训练效果较好的模型,会从网上下载知名的机构或者知名开发者训练好的模型。但是有研究者发现许多训练好的模型内部会有一些后门存在,导致模型内部存在潜在的漏洞,因此我们需要对网上下载好的模型进行防御保护后再使用。本发明提出了一种基于主特征增强的图像中毒防御方法,通过模拟异常样本在深度学习模型中的数据流动过程增加防御机制,从而使深度学习模型在实际部署和应用时更加安全可靠。
参照图1~图2,基于主特征增强的图像中毒防御方法,包括以下步骤:
1)获取图像数据集,具体包括:
1.1)收集常用于图像分类的MNIST数据集、CIFAR-10数据集和ImageNet数据集并保存为X以及每张图像相应的类标Y;
2)预训练中毒深度学习模型f(·),具体包括:
2.1)将图像数据集按预设比例划分为训练集和测试集,通过one-hot编码将图片数据集中每个样本的标签转化为一维向量;
2.2)收集模型中毒方法,获取BadNets、Dynamic Backdoor Attack、FeatureCollision Attack和Trojan Attack并保存;
2.3)选取中毒攻击方法并对获取的图像数据进行下毒操作,并混入到干净样本中进行模型训练。
3)构建特征神经通路,具体包括:
将神经网络的前向传播过程表示为f:RD→RC,其中D表示输入的维度,C表示输出的维度。对于L层网络结构,以输入的某个神经元为起始节点,每层中间运算层的某个神经元为中间节点,最后输出的某个神经元为末节点,节点间串联构成一条有向无环图,这就是主要研究的第L-1级特征神经通路,称为最长神经通路,定义为集合PL-1={pL-1(1,·,...,·)}。对集合中所有神经通路的计算构成了神经网络的前向传播过程,并且决定了最后的输出结果。
3.1)构建主特征图通路,包括:
设N={n1,n2,...}为深度学习模型的一组神经元,将干净图像数据集X输入到步骤2.3)预训练好的深度学习模型f(·)中,并计算样本在模型f(·)卷积层与池化层的嵌入特征femb(xi),其中xi∈X,i=1,2,...。将特征图中激活值最大的神经元进行累加,构成损失函数:
Figure BDA0003263094590000061
Figure BDA0003263094590000062
其中,λ表示平衡参数,可人为调节,默认为常数1;max(·)表示该层激活值最大的特征图。
3.2)构建主特征增强样本,具体操作包括:
通过对损失函数梯度下降作为导向对原始图像的像素值进行改变:
Figure BDA0003263094590000063
x'=x+s*grad
其中s为迭代步长。
改变图像的像素值时需满足:
Figure BDA0003263094590000064
其中,X表示原始图像;X’表示改变像素值后的主特征图像;L0表示已更改像素的最大数量;L表示像素更改的最大值;size(x)是原始的图像样本x中像素值大于0的像素数量;0<α,β<1。
构建防御机制,过程如下:
4.1)将原始图像X与输入的主特征图像X’以及每张图像相应的类标Y输入预训练预测模型中进行防御:
w=arg maxw(f(X')=Y+f(X)=Y)
5)评估防御机制,过程如下:
5.1)将步骤2.2)方法生成的中毒样本Xp输入到增加防御机制后的深度学习模型中,统计模型的标签变化率:
Figure BDA0003263094590000071
其中,f(.)是防御前的模型,f'(.)是防御后的模型,
Figure BDA0003263094590000072
衡量测试模型的敏感性,值越大表示模型防御效果越好。当
Figure BDA0003263094590000073
小于一定阈值Tth则重复步骤3,否则则说明模型得到了一定的修复。
上述实施提供的基于主特征增强的图像中毒防御方法,具有以下优点:
1)针对现有中毒防御方法降低原样本识别性能的问题,提出基于主特征增强的图像中毒防御方法,实现深度学习模型水印后门工作机理解释,提升模型的鲁棒性。2)针对攻击者对防御方法已知的情况下的防御,每轮利用训练好的模型主特征的特征增强,利用模型对输入的损失求反向梯度相加,这样做可以使得补丁沿着模型损失下降的方向进行优化。3)随着各个任务利用在深度学习中,在深度学习上的模型多种多样,此方法与深度学习采用的模型无关,并且适用于其他多种策略,不影响模型的正常功能的使用。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于主特征增强的图像中毒防御方法,其特征在于,包括以下步骤:
(1)获取图像数据集X,保存图像数据集X中的图像样本x以及每张图像样本的类标Y;获取深度学习模型;
(2)选取中毒攻击方法对图像样本x进行下毒操作,获得中毒样本Xp,将中毒样本Xp与干净的图像样本x混合,对深度学习模型进行训练,获得中毒深度学习模型f(·);
(3)基于特征神经通路构建主特征图通路,由主特征图通路获得每个图像样本x对应的主特征增强样本x′,由主特征增强样本x′构成主特征图像数据集X′;
(4)采用原始的图像数据集X、对应的主特征图像数据集X′以及对应的类标Y对中毒深度学习模型f(·)进行训练,获得增加防御机制后的深度学习模型f'(.);
(5)将中毒样本Xp输入到增加防御机制后的深度学习模型f'(.)中,统计中毒样本Xp的标签变化率
Figure FDA0003263094580000011
(6)重复步骤(3)-(5),直至所述的标签变化率大于或等于设定阈值Tth,则获得最终的具有防御机制的深度学习模型。
2.根据权利要求1所述的基于主特征增强的图像中毒防御方法,其特征在于,所述的图像数据集包括MNIST数据集、CIFAR-10数据集和ImageNet数据集。
3.根据权利要求1所述的基于主特征增强的图像中毒防御方法,其特征在于,所述的中毒攻击方法包括BadNets、Dynamic Backdoor Attack、Feature Collision Attack和Trojan Attack。
4.根据权利要求1所述的基于主特征增强的图像中毒防御方法,其特征在于,步骤(3)包括:
(3-1)将干净的图像数据集X输入到所述的中毒深度学习模型f(·)中,计算图像样本在中毒深度学习模型f(·)中间运算层的嵌入特征femb(xi),选出每层激活值最大的神经元进行累加,构建损失函数:
Figure FDA0003263094580000025
Figure FDA0003263094580000021
其中,xi∈X,i=1,2,...;λ为平衡参数;max(·)表示该层激活值最大的神经元;
(3-2)以损失函数梯度下降作为导向对原始的图像样本x的像素值进行改变,获得其对应的主特征增强样本x′:
Figure FDA0003263094580000022
x'=x+s*grad
其中,s为迭代步长;
由主特征增强样本x′构成主特征图像数据集X′。
5.根据权利要求4所述的基于主特征增强的图像中毒防御方法,其特征在于,λ为常数1。
6.根据权利要求4所述的基于主特征增强的图像中毒防御方法,其特征在于,步骤(3-2)中,对原始的图像样本x的像素值进行改变时,需满足:
Figure FDA0003263094580000023
其中,L0表示已更改像素的最大数量;L表示像素更改的最大值;size(x)是原始的图像样本x中像素值大于0的像素数量;0<α,β<1。
7.根据权利要求1所述的基于主特征增强的图像中毒防御方法,其特征在于,所述的标签变化率
Figure FDA0003263094580000026
的计算公式为:
Figure FDA0003263094580000024
其中,{x'i∈Xp|f(xi')≠f'(xi')}|表示标签发生变化的样本数量;|Xp|表示输入到增加防御机制后的深度学习模型f'(.)中的中毒样本Xp的总数量。
8.一种如权利要求1-7任一项所述的基于主特征增强的图像中毒防御方法在图像识别中的应用,其特征在于,包括:采用所述的具有防御机制的深度学习模型对待识别图像进行识别。
9.一种基于主特征增强的图像中毒防御装置,其特征在于,所述的装置内含有如权利要求1-7任一项所述的基于主特征增强的图像中毒防御方法获得的具有防御机制的深度学习模型。
CN202111084309.XA 2021-09-15 2021-09-15 基于主特征增强的图像中毒防御方法、装置及其应用 Pending CN113902954A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111084309.XA CN113902954A (zh) 2021-09-15 2021-09-15 基于主特征增强的图像中毒防御方法、装置及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111084309.XA CN113902954A (zh) 2021-09-15 2021-09-15 基于主特征增强的图像中毒防御方法、装置及其应用

Publications (1)

Publication Number Publication Date
CN113902954A true CN113902954A (zh) 2022-01-07

Family

ID=79028738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111084309.XA Pending CN113902954A (zh) 2021-09-15 2021-09-15 基于主特征增强的图像中毒防御方法、装置及其应用

Country Status (1)

Country Link
CN (1) CN113902954A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109521A (zh) * 2023-04-07 2023-05-12 北京建筑大学 局部对抗性攻击启发式防御方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109521A (zh) * 2023-04-07 2023-05-12 北京建筑大学 局部对抗性攻击启发式防御方法和装置
CN116109521B (zh) * 2023-04-07 2023-07-14 北京建筑大学 局部对抗性攻击启发式防御方法和装置

Similar Documents

Publication Publication Date Title
Yu et al. CloudLeak: Large-Scale Deep Learning Models Stealing Through Adversarial Examples.
CN111753881B (zh) 一种基于概念敏感性量化识别对抗攻击的防御方法
CN109902018B (zh) 一种智能驾驶系统测试案例的获取方法
CN113297572B (zh) 基于神经元激活模式的深度学习样本级对抗攻击防御方法及其装置
CN110610709A (zh) 基于声纹识别的身份辨别方法
CN112182585B (zh) 源代码漏洞检测方法、系统及存储介质
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及系统
CN111859010A (zh) 一种基于深度互信息最大化的半监督音频事件识别方法
CN113627543A (zh) 一种对抗攻击检测方法
CN113902954A (zh) 基于主特征增强的图像中毒防御方法、装置及其应用
Zhang Deepmal: A CNN-LSTM model for malware detection based on dynamic semantic behaviours
CN109272036B (zh) 一种基于深度残差网络的随机蕨目标跟踪方法
CN113343225A (zh) 一种基于神经通路的深度学习的中毒防御方法及装置
CN115622806B (zh) 一种基于bert-cgan的网络入侵检测方法
CN116318845A (zh) 一种正负样本比例不平衡条件下的dga域名检测方法
CN113947579B (zh) 一种针对图像目标探测神经网络的对抗样本检测方法
CN115495579A (zh) 5g通信助理文本分类的方法、装置、电子设备及存储介质
CN113095381B (zh) 一种基于改进型dbn的水声目标辨识方法及系统
CN115272865A (zh) 一种基于自适应激活函数和注意力机制的目标检测方法
CN114915496A (zh) 基于时间权重和深度神经网络的网络入侵检测方法和装置
CN112052881B (zh) 基于多尺度近端特征拼接的高光谱图像分类模型的装置
CN113392901A (zh) 一种基于深度学习模型神经通路激活特征的对抗样本检测方法
CN113326509B (zh) 基于互信息的深度学习模型中毒攻击检测方法及其装置
CN113837360B (zh) 一种基于关系图的dnn鲁棒模型加固方法
Adhinata et al. Lightweight and Efficient Deep Learning Model for Fire Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination