CN116432177A - 一种基于对抗性微调的分类神经网络后门清除方法及系统 - Google Patents

一种基于对抗性微调的分类神经网络后门清除方法及系统 Download PDF

Info

Publication number
CN116432177A
CN116432177A CN202310323943.7A CN202310323943A CN116432177A CN 116432177 A CN116432177 A CN 116432177A CN 202310323943 A CN202310323943 A CN 202310323943A CN 116432177 A CN116432177 A CN 116432177A
Authority
CN
China
Prior art keywords
neural network
data set
network model
back door
clean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310323943.7A
Other languages
English (en)
Inventor
王乐
穆昺旭
周三平
陈仕韬
辛景民
郑南宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Shun'an Artificial Intelligence Research Institute
Xian Jiaotong University
Original Assignee
Ningbo Shun'an Artificial Intelligence Research Institute
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Shun'an Artificial Intelligence Research Institute, Xian Jiaotong University filed Critical Ningbo Shun'an Artificial Intelligence Research Institute
Priority to CN202310323943.7A priority Critical patent/CN116432177A/zh
Publication of CN116432177A publication Critical patent/CN116432177A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/568Computer malware detection or handling, e.g. anti-virus arrangements eliminating virus, restoring damaged files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Virology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于对抗性微调的分类神经网络后门清除方法及系统,所述方法具体是一种渐进式的基于对抗性微调的分类神经网络后门清除方法,其利用对抗扰动会带有后门触发器这一特征的特点,构建了基于对抗性微调的方法,维护一个随机初始化的、可更新的干净数据集使用对抗性微调进行防御,并不断从有毒的训练集中筛选出新的干净数据加入到干净数据集中,不断地提高防御效果,直到达到预先要求。综上,本发明在额外的干净数据集缺失的情况下,使用有毒训练集取得了较好的防御效果。

Description

一种基于对抗性微调的分类神经网络后门清除方法及系统
技术领域
本发明属于计算机视觉及计算机图形学交叉技术领域,特别涉及一种基于对抗性微调的分类神经网络后门清除方法及系统。
背景技术
深度学习模型后门攻击是指攻击者作为第三方可以控制模型的训练过程,通过对数据集投毒(篡改训练数据集),在模型中植入后门,使得特定的输入模式能够触发恶意功能,对以深度神经网络为基础的人工智能系统构成严重威胁。
随着后门攻击的深入研究,攻击方案隐蔽性与成功率都有了极大的提高,这给针对后门攻击的防御带来了极大的挑战;其中,尤其是人脸识别与自动驾驶这样对安全性能要求较高的应用领域。具体的,人脸识别系统中,后门攻击可以让张三获得李四的门禁权限,从而攻击者可以进行一些非法操作;自动驾驶中,针对路标识别的后门攻击可以将禁止通行错误识别为减速慢行,从而引发交通事故等造成巨大的安全隐患。综上,对后门攻击的防御具有十分重大的研究意义。
目前,后门攻击的防御(例如,人脸识别系统和自动驾驶道路路标识别系统中的防御)都还存在以下两方面的问题:
(1)防御方案都需要使用额外的干净数据集(解释性的,在没有额外的干净数据集的情况下,防御方案无法使用),而获取额外的干净数据集实际中很可能是不可行的,或者标注成本十分高昂;
(2)后门攻击的隐蔽性与成功率都有了极大的提高,防御方案在面对后门攻击防御效果不佳,甚至有可能被绕过,导致防御失败。
发明内容
本发明的目的在于提供一种基于对抗性微调的分类神经网络后门清除方法及系统,以解决上述存在的一个或多个技术问题。本发明具体提供了一种渐进式的基于对抗性微调的分类神经网络后门清除方法,能够在额外干净数据集缺失的情况下,采用有毒训练集来防御各种后门攻击,可解决现有技术存在的在额外干净数据集缺失的情况下无法防御,以及针对后门攻击防御效果不佳的技术问题。
为达到上述目的,本发明采用以下技术方案:
本发明提供的一种基于对抗性微调的分类神经网络后门清除方法,包括以下步骤:
步骤1,获取带有后门的分类神经网络模型以及初始的干净数据集;跳转执行步骤2;
步骤2,基于分类神经网络模型和干净数据集,生成对抗样本数据集;基于生成的对抗样本数据集,计算带有后门的分类神经网络模型的分类损失函数,更新网络参数并获得第一清除后门的分类神经网络模型;基于干净数据集,计算第一清除后门的分类神经网络模型的分类损失函数,更新网络参数并获得第二清除后门的分类神经网络模型;基于带有后门的分类神经网络模型以及第二清除后门的分类神经网络模型更新干净数据集,获得更新后的干净数据集;跳转执行步骤3;
步骤3,判断更新后的干净数据集是否符合预设要求;其中,若符合预设要求,则完成分类神经网络后门清除;若不符合预设要求,则基于获得的更新后的干净数据集,跳转执行步骤2和步骤3。
本发明方法的进一步改进在于,所述初始的干净数据集通过在有毒训练集中随机采样进行初始化获得;
其中,所述有毒训练集为部分数据的图像或标签被篡改的数据集。
本发明方法的进一步改进在于,所述带有后门的分类神经网络模型为带有后门的人脸识别分类神经网络模型,所述干净数据集中的每个样本均包括正确的人脸图像和对应的标签。
本发明方法的进一步改进在于,所述带有后门的分类神经网络模型为带有后门的自动驾驶道路路标识别分类神经网络模型,所述干净数据集中的每个样本均包括正确的道路路标图像和对应的标签。
本发明方法的进一步改进在于,所述基于分类神经网络模型和干净数据集,生成对抗样本数据集的步骤包括:
将干净数据集的图像输入分类神经网络模型得到分类损失函数;
基于分类损失函数,计算获取干净数据集的对抗扰动;
将计算获取的所述对抗扰动添加到输入的图像上,得到对抗样本数据集的图像。
本发明方法的进一步改进在于,
所述分类损失函数为交叉熵损失函数;
所述对抗扰动的计算表达式为,
Figure BDA0004152661210000031
式中,r表示对抗扰动,L表示交叉熵损失函数,x表示输入图像,
Figure BDA0004152661210000032
表示对抗样本,y表示x所对应的标签,θ表示神经网络模型参数,ε表示对抗扰动大小。
本发明方法的进一步改进在于,所述基于带有后门的分类神经网络模型以及第二清除后门的分类神经网络模型更新干净数据集,获得更新后的干净数据集的步骤包括:
分别计算获取带有后门的分类神经网络模型、第二清除后门的分类神经网络模型的预测概率向量;基于计算获取的预测概率向量,计算获取相似度;
根据预先设定的比例值,按照相似度从高到低的顺序选定样本加入到干净数据集,获得的更新后的干净数据集。
本发明方法的进一步改进在于,相似度为余弦相似度,表达式为,
Figure BDA0004152661210000033
式中,A,B表示待计算相似度的两个向量,Ai,Bi分别表示A,B两个向量对应第i个位置的值,n为向量维度。
本发明提供的一种基于对抗性微调的分类神经网络后门清除系统,包括数据获取模块、后门清除模块和判断更新模块;其中,
所述数据获取模块用于获取带有后门的分类神经网络模型以及初始的干净数据集;跳转执行后门清除模块的步骤;
所述后门清除模块用于基于分类神经网络模型和干净数据集,生成对抗样本数据集;基于生成的对抗样本数据集,计算带有后门的分类神经网络模型的分类损失函数,更新网络参数并获得第一清除后门的分类神经网络模型;基于干净数据集,计算第一清除后门的分类神经网络模型的分类损失函数,更新网络参数并获得第二清除后门的分类神经网络模型;基于带有后门的分类神经网络模型以及第二清除后门的分类神经网络模型更新干净数据集,获得更新后的干净数据集;跳转执行判断更新模块的步骤;
所述判断更新模块,用于判断更新后的干净数据集是否符合预设要求;其中,若符合预设要求,则完成分类神经网络后门清除;若不符合预设要求,则基于获得的更新后的干净数据集,跳转执行后门清除模块和判断更新模块的步骤。
与现有技术相比,本发明具有以下有益效果:
针对现有方法无法在额外的干净数据集缺失的情况下防御后门攻击,且对最新形式的后门攻击防御效果不佳的技术问题,本发明具体提供了一种渐进式的基于对抗性微调的分类神经网络后门清除方法;具体的,本发明利用对抗扰动会带有后门触发器这一特征的特点,构建了一种基于对抗性微调的方法,维护一个随机初始化的、可更新的干净数据集使用对抗性微调进行防御,并不断从有毒的训练集中筛选出新的干净数据加入到干净数据集中,不断地提高防御效果,直到达到预先设定的轮次。综上,本发明方法在额外的干净数据集缺失的情况下,使用有毒训练集取得了较好的防御效果,为解决后门防御这个困难任务提供了一种新的思路。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于对抗性微调的分类神经网络后门清除方法的流程示意图;
图2是本发明实施例中,渐进式的基于对抗性微调的分类神经网络后门清除方法的具体流程示意图;
图3是本发明实施例中,在后门模型上输入不同图像得到的中间层特征示意图;其中,从左到右依次为干净样本的特征图,在正常模型下所生成对抗样本的特征图,在后门模型下所生成对抗样本的特征图,对样本添加WaNet后门之后的特征图;
图4是本发明实施例中,在CIFAR10数据集下,十个类别每类采样一千张图像,生成一万张对抗样本输入网络进行分类的结果示意图;其中,图4中(a)为不采用后门攻击情况下的结果示意图,图4中(b)为采用WaNet后门攻击方式情况下的结果示意图;
图5是本发明实施例提供的一种基于对抗性微调的分类神经网络后门清除系统的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
请参阅图1,本发明实施例提供的一种基于对抗性微调的分类神经网络后门清除方法,包括以下步骤:
步骤1,获取带有后门的分类神经网络模型以及初始的干净数据集,跳转执行步骤2;
步骤2,基于分类神经网络模型和干净数据集,生成对抗样本数据集,计算带有后门的分类神经网络模型的分类损失函数,更新网络参数并获得第一清除后门的分类神经网络模型;基于干净数据集,计算第一清除后门的分类神经网络模型的分类损失函数,更新网络参数并获得第二清除后门的分类神经网络模型;基于带有后门的分类神经网络模型以及第二清除后门的分类神经网络模型更新干净数据集,获得更新后的干净数据集,跳转执行步骤3;
步骤3,判断更新后的干净数据集在所有数据集中的占比是否符合预设要求;其中,若符合预设要求,则步骤2获取的第二清除后门的分类神经网络模型为最终后门清除的分类神经网络;若不符合预设要求,则基于步骤2获得的更新后的干净数据集,跳转执行步骤2和步骤3;具体示例性的,更新后的干净数据集占所有数据集的70%以上时,则认为符合要求。
本发明实施例中,所述带有后门的分类神经网络模型为带有后门的人脸识别分类神经网络模型,干净数据集中的每个样本均包括正确的人脸图像和对应的标签。
本发明实施例中,所述带有后门的分类神经网络模型为带有后门的自动驾驶道路路标识别分类神经网络模型,干净数据集中的每个样本均包括正确的道路路标图像和对应的标签。
请参阅图2,本发明实施例提供的一种渐进式的基于对抗性微调的分类神经网络后门清除方法,包括以下步骤:
步骤1,获取人脸识别系统带有后门的分类神经网络模型:
步骤2,获取人脸识别图像数据集,该数据集中部分数据的图像与标签被篡改(称为有毒数据集),并从中随机选取一些一部分数据用作初始化(称为待更新的干净数据集);
步骤3,使用神经网络模型和待更新的干净数据集生成对抗样本数据集;其中,具体步骤可包括:
3.1)将干净数据集输入神经网络模型得到分类损失函数,即交叉熵损失函数;
3.2)基于分类损失函数,计算获取干净数据集的对抗扰动;解释性的,反向传播计算干净数据集能够使分类损失函数值上升时所对应的最小的对抗扰动;
3.3)更新干净数据集的梯度得到对抗样本数据集;具体的,将步骤3.2中得到的对抗扰动添加到输入图像上,得到对抗样本数据集;
步骤3.2)中的对抗扰动计算公式为:
Figure BDA0004152661210000071
式中r表示对抗扰动,L表示交叉熵损失函数,x表示原输入图像,
Figure BDA0004152661210000072
表示对抗样本,y表示x所对应的标签,θ表示神经网络模型参数,ε表示对抗扰动大小;
步骤4,使用对抗样本数据集计算神经网络分类损失函数;
步骤5,优化网络参数,清除分类神经网络的后门;
步骤6,使用干净数据集计算神经网络分类损失函数;
步骤7,优化网络参数,提高分类神经网络分类准确率;
步骤8,更新干净数据集;其中,具体步骤可包括:
8.1)计算网络清除后门前的每个样本的预测概率向量;
8.2)计算网络清楚后门后的每个样本的预测概率向量;
8.3)将每个样本在清楚后门前后的预测概率计算相似度;
8.4)对所有样本的相似度进行降序排序;
8.5)根据预先设定的比例值,按照相似度从高到低的顺序选定样本加入到干净数据集,获得的更新后的干净数据集;
步骤8.3)中的相似度计算公式为余弦相似度:
Figure BDA0004152661210000081
式中,A,B表示待计算相似度的两个向量,Ai,Bi分别表示A,B两个向量对应第i个位置的值,n为向量维度。
本发明实施例提供了针对人脸识别任务的渐进式的基于对抗性微调的分类神经网络后门清除方法,利用对抗扰动会带有后门触发器这一特征的特点,构建了一种基于对抗性微调的方法,维护一个随机初始化的,可更新的干净数据集使用对抗性微调进行防御,并不断从有毒的训练集中筛选出新的干净数据加入到干净数据集中,不断地提高防御效果,直到达到预先设定的要求。
本发明实施例针对自动驾驶道路路标识别任务的一种渐进式的基于对抗性微调的分类神经网络后门清除方法,包括如下步骤:
步骤1,获取自动驾驶道路路标识别系统带有后门的分类神经网络模型;其中,具体步骤可包括:
1.1)根据神经网络结构构建分类神经网络;
1.2)加载被植入后门的分类神经网络的参数。
步骤2,获取路标识别图像数据集,该数据集中部分数据的图像与标签被篡改(称为有毒数据集),并从中随机选取一些一部分数据用作初始化(称为待更新的干净数据集);其中,具体步骤可包括:
2.1)获取路标识别图像数据集,该数据集中部分数据的图像与标签被篡改(称为有毒数据集),作为待筛选的有毒训练数据;
2.2)若有除2.1)路标识别图像数据集以外的额外干净数据,即使用该部分干净数据作为待更新的干净数据集初始化,否则从待筛选的有毒训练数据集中随机采样少量的数据作为待更新的干净数据集初始化。
步骤3,使用神经网络模型和待更新的干净数据集生成对抗样本数据集;其中,具体步骤可包括:
3.1)将步骤2.2)中所述干净数据集输入神经网络模型得到分类损失函数;
3.2)通过反向传播计算干净数据集能够使分类损失函数值上升时所对应的梯度;
3.3)更新干净数据集的梯度得到对抗样本数据集。
步骤4,使用步骤3.3)中对抗样本数据集计算神经网络分类损失函数。
步骤5,优化网络参数,清除分类神经网络的后门,包括:
5.1)根据步骤4得到的损失函数对网络参数进行迭代优化;
5.2)当达到预定的迭代次数后进入步骤6,否则进入步骤3。
步骤6,使用步骤2.2)中所述干净数据集计算神经网络分类损失函数。
步骤7,优化网络参数,提高分类神经网络分类准确率,包括:
7.1)根据步骤6得到的损失函数对网络参数进行迭代优化;
7.2)当达到预定的迭代次数后,此时的分类神经网络即为本轮次最终输出的神经网络,否则进入步骤6;
7.3)当本轮为预先设定的最后轮次,此时的分类神经网络即为本方法最终输出的神经网络,方法结束,否则进入步骤8。
步骤8,更新干净数据集。
本发明实施例的渐进式的基于对抗性微调的分类神经网络后门清除方法,针对现有自动驾驶道路路标识别任务的后门防御方法,无法防御干净数据集缺失情况下的神经网络后门攻击,且针对最新的后门攻击方法防御效果不佳的问题,引入了基于对抗性微调的神经网络后门清除方法,采用渐进式的干净数据更新策略,使得本发明的方法在干净数据集缺失的情况下,仍然能够通过使用有毒的训练数据,对多种最新的后门攻击进行有效防御。
请参阅图2至图4,本发明实施例现有自动驾驶道路路标识别任务的一种渐进式的基于对抗性微调的分类神经网络后门清除方法,步骤如下:
步骤1:获取自动驾驶道路路标识别系统带有后门的分类神经网络模型,包括:
1.1)根据神经网络结构构建分类神经网络。本发明实例中,使用CIFAR-10和GTSRB两个数据集进行评估,构建Pre-activation Resnet-18分类神经网络结构。
1.2)加载训练完成后的分类神经网络的参数。本发明实例中,后门模型的参数均由投毒比例为10%的数据集训练所得,采用Adam优化器训练600个epoches,其中β1=0.5,β2=0.999。
步骤2:获取路标识别图像数据集,该数据集中部分数据的图像与标签被篡改(称为有毒数据集),并从中随机选取一些一部分数据用作初始化(称为待更新的干净数据集),包括:
2.1)将完整的路标识别图像数据集作为待筛选的有毒训练数据记为Dtrain
2.2)若有除2.1)路标识别图像数据集以外的额外干净数据,即使用该部分干净数据作为待更新的干净数据集初始化,否则从待筛选的有毒训练数据集Dtrain中随机采样少量的数据作为待更新的干净数据集初始化,记为Dext
步骤3:使用神经网络模型和待更新的干净数据集生成对抗样本数据集,包括:
3.1)将步骤2.2)中的干净数据集输入神经网络模型得到分类损失函数,即交叉熵损失函数,记为;
Figure BDA0004152661210000111
式中,L表示交叉熵损失函数,N表示样本个数,Li表示第i个样本的损失函数,M表示类别总数,yic表示第i个样本的第c个类别的标签值,pic表示模型对第i个样本的第c个类别的预测概率值;
3.2)通过反向传播计算干净数据集能够使分类损失函数值上升时所对应的最小的对抗扰动。即对抗扰动
Figure BDA0004152661210000112
式中,r表示对抗扰动,L表示交叉熵损失函数,x表示原输入图像,
Figure BDA0004152661210000113
表示对抗样本,y表示x所对应的标签,θ表示神经网络模型参数,ε表示对抗扰动大小;
3.3)更新干净数据集的梯度得到对抗样本数据集,即将步骤3.2中得到的对抗扰动添加到输入图像上,得到对抗样本数据集D ext,其中
Figure BDA0004152661210000114
步骤4:使用对抗样本数据集计算神经网络分类损失函数,将步骤3中得到的对抗样本数据集D ext输入网络计算交叉熵损失。
步骤5:优化网络参数,清除分类神经网络的后门,包括:
5.1)根据步骤4得到的损失函数对网络参数进行迭代优化;
使用Adam优化器迭代2个epoches,其中β1=0.5,β2=0.999;
5.2)当达到预定的迭代次数后,此时模型的后门得到清除,进入步骤6进一步提升模型的分类准确率;否则进入步骤3,继续生成对抗样本清除模型后门。
步骤6,使用干净数据集计算神经网络分类损失函数;
步骤7,优化网络参数,提高分类神经网络分类准确率,包括:
7.1)根据步骤6得到的损失函数对网络参数进行迭代优化;
7.2)当达到预定的迭代次数后,此时的分类神经网络即为清除后门的神经网络,否则进入步骤6;
7.3)当本轮为预先设定的最后轮次,此时的分类神经网络即为本方法最终输出的神经网络,方法结束,否则进入步骤8。
步骤8,更新干净数据集,包括:
8.1)计算网络清除后门前的每个样本的预测概率向量;其中,对于每张图像,将其输入分类神经网络会输出一个预测概率向量。将样本在模型清除后门之前的预测概率向量记为α(x;θ);
8.2)计算网络清楚后门后的每个样本的预测概率向量;其中,将样本在模型清除后门之后的预测概率向量记为α(x;θt);
8.3)将每个样本在清除后门前后的预测概率计算相似度;其中,采用余弦相似度,是通过计算两个向量的夹角余弦值来评估他们的相似度,给定两个属性向量A和B,其余弦相似性由点积和向量长度给出,如下所示:
Figure BDA0004152661210000121
式中,A,B表示待计算相似度的两个向量,Ai,Bi分别表示A,B两个向量对应第i个位置的值。
8.4)对所有样本的相似度进行降序排序;
8.5)根据预先设定的比例值,按照相似度从高到低的顺序选定样本加入到干净数据集,更新干净数据集后进入步骤3;共更新数据集3轮,每轮设定的比例值分别为20%,50%,70%。
综上所述,本发明实施例的方法针对自动驾驶道路路标识别任务中受到后门攻击的分类神经网络,使用渐进式对抗性微调的方式进行防御;在干净数据集缺失的情况下,使用被投毒的训练数据仍然能够进行防御。具体解释性的,本发明首先维护一个可更新的干净数据集(通过在被投毒的训练集中随机采样进行初始化);其次使用其生成对抗样本,对模型进行微调,清除部门后门;再次使用干净数据集直接对模型进行微调,提高模型准确率;然后计算模型在对抗性微调前后对训练集中各个样本输出概率值的余弦相似度,排序选择预先设定比例值的训练集加入到干净数据集中,对干净数据集进行更新;最后继续使用干净数据集重复之前步骤,直到达到设定的轮次,实现了模型后门的清除。
本发明实施例方法与现有方法进行对比实验分析,在CIFAR-10和GTSRB两个公布数据集上验证了该方法的有效性。表1a、1b分别是本发明(PBE)的定量的实验结果,表1a为在CIFAR10数据集下该方法的实验结果,表1b为在GTSRB数据集下该方法的实验结果。ASR,ACC是衡量防御方法有效性的常用指标。ASR表示攻击成功率,数值越大表示后门攻击成功率越高,作为防御者ASR越低表示防御性能越好;ACC表示模型分类准确率,数值越大表示模型分类准确率越高,作为防御者ACC越高表示模型性能越好。
表1a.在CIFAR10数据集下该方法的实验结果
Figure BDA0004152661210000131
表1b.在GTSRB数据集下该方法的实验结果
Figure BDA0004152661210000132
从表1a中可以看到,在CIFAR10数据集上,用本发明实施例提供的防御策略,取得了最好的防御性能,在ASR与ACC之间取得了最好的平衡,ASR始终保持较低水平(2%以内),ACC始终保持较高水平(93%以上);
从表1b中可以看到,在GTSRB数据集上,也同样取得了最好的防御性能,在ASR与ACC之间取得了最好的平衡,ASR始终保持较低水平(2%以内),ACC始终保持较高水平(94%以上)。因此,从定量结果上看,本发明渐进式的基于对抗性微调的分类神经网络后门清除方法,可以在干净数据集缺失的情况下,针对最新的后门攻击,均能取得更好的防御效果。
图3为在CIFAR10数据集下采用WaNet后门攻击方式,各种输入在分类神经网络中所得的特征图,从左到右依次为,干净样本的特征图,在正常模型下所生成对抗样本的特征图,在后门模型下所生成对抗样本的特征图,对样本添加WaNet后门之后的特征图。经过相似度计算,在后门模型下所生成对抗样本的特征图,与对样本添加WaNet后门之后的特征图高度相似,由此可知在后门模型下所生成的对抗扰动倾向于模拟出后门触发器的特征。
图4为在CIFAR10数据集下,每类采样一千张图像,共十类,生成一万张对抗样本输入网络进行分类的结果,左侧为不采用后门攻击情况下的结果,右侧为采用WaNet后门攻击方式情况下的结果,结果显示不同于正常模型,被植入后门的模型有大量的对抗样本被误分类为目标类别;而这些大量来自于不同类别,相当于每个类别都有了后门触发器的特征,打破了后门攻击的基础,即后门触发器仅仅与目标类别建立联系,从而解释了本发明的方法,使用对抗样本数据集对模型进行微调,能够有效防御后门攻击。
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未披露的细节,请参照本发明方法实施例。
请参阅图5,本发明实施例提供的一种基于对抗性微调的分类神经网络后门清除系统,包括数据获取模块、后门清除模块和判断更新模块;其中,
所述数据获取模块用于获取带有后门的分类神经网络模型以及初始的干净数据集;跳转执行后门清除模块的步骤;
所述后门清除模块用于基于分类神经网络模型和干净数据集,生成对抗样本数据集;基于生成的对抗样本数据集,计算带有后门的分类神经网络模型的分类损失函数,更新网络参数并获得第一清除后门的分类神经网络模型;基于干净数据集,计算第一清除后门的分类神经网络模型的分类损失函数,更新网络参数并获得第二清除后门的分类神经网络模型;基于带有后门的分类神经网络模型以及第二清除后门的分类神经网络模型更新干净数据集,获得更新后的干净数据集;跳转执行判断更新模块的步骤;
所述判断更新模块,用于判断更新后的干净数据集是否符合预设要求;其中,若符合预设要求,则完成分类神经网络后门清除;若不符合预设要求,则基于获得的更新后的干净数据集,跳转执行后门清除模块和判断更新模块的步骤。
本发明实施例公开了针对自动驾驶道路路标识别任务中一种渐进式的基于对抗性微调的分类神经网络后门清除系统,其针对被植入后门的分类神经网络深度学习模型,可以在额外的干净数据集缺失情况下,使用有毒训练集来对清除模型后门。本发明引入对抗性微调来清除后门,渐进式从有毒训练集中筛选出干净数据,通过不断迭代,从有毒训练集中筛选出越来越多的干净数据,配合对抗性微调,实现了在额外干净数据集缺失情况下的后门防御。
本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于对抗性微调的分类神经网络后门清除方法的操作。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关基于对抗性微调的分类神经网络后门清除方法的相应步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (9)

1.一种基于对抗性微调的分类神经网络后门清除方法,其特征在于,包括以下步骤:
步骤1,获取带有后门的分类神经网络模型以及初始的干净数据集;跳转执行步骤2;
步骤2,基于分类神经网络模型和干净数据集,生成对抗样本数据集;基于生成的对抗样本数据集,计算带有后门的分类神经网络模型的分类损失函数,更新网络参数并获得第一清除后门的分类神经网络模型;基于干净数据集,计算第一清除后门的分类神经网络模型的分类损失函数,更新网络参数并获得第二清除后门的分类神经网络模型;基于带有后门的分类神经网络模型以及第二清除后门的分类神经网络模型更新干净数据集,获得更新后的干净数据集;跳转执行步骤3;
步骤3,判断更新后的干净数据集是否符合预设要求;其中,若符合预设要求,则完成分类神经网络后门清除;若不符合预设要求,则基于获得的更新后的干净数据集,跳转执行步骤2和步骤3。
2.根据权利要求1所述的一种基于对抗性微调的分类神经网络后门清除方法,其特征在于,所述初始的干净数据集通过在有毒训练集中随机采样进行初始化获得;
其中,所述有毒训练集为部分数据的图像或标签被篡改的数据集。
3.根据权利要求1所述的一种基于对抗性微调的分类神经网络后门清除方法,其特征在于,所述带有后门的分类神经网络模型为带有后门的人脸识别分类神经网络模型,所述干净数据集中的每个样本均包括正确的人脸图像和对应的标签。
4.根据权利要求1所述的一种基于对抗性微调的分类神经网络后门清除方法,其特征在于,所述带有后门的分类神经网络模型为带有后门的自动驾驶道路路标识别分类神经网络模型,所述干净数据集中的每个样本均包括正确的道路路标图像和对应的标签。
5.根据权利要求1所述的一种基于对抗性微调的分类神经网络后门清除方法,其特征在于,所述基于分类神经网络模型和干净数据集,生成对抗样本数据集的步骤包括:
将干净数据集的图像输入分类神经网络模型得到分类损失函数;
基于分类损失函数,计算获取干净数据集的对抗扰动;
将计算获取的所述对抗扰动添加到输入的图像上,得到对抗样本数据集的图像。
6.根据权利要求5所述的一种基于对抗性微调的分类神经网络后门清除方法,其特征在于,
所述分类损失函数为交叉熵损失函数;
所述对抗扰动的计算表达式为,
Figure FDA0004152661200000022
式中,r表示对抗扰动,L表示交叉熵损失函数,x表示输入图像,
Figure FDA0004152661200000023
表示对抗样本,y表示x所对应的标签,θ表示神经网络模型参数,ε表示对抗扰动大小。
7.根据权利要求1所述的一种基于对抗性微调的分类神经网络后门清除方法,其特征在于,所述基于带有后门的分类神经网络模型以及第二清除后门的分类神经网络模型更新干净数据集,获得更新后的干净数据集的步骤包括:
分别计算获取带有后门的分类神经网络模型、第二清除后门的分类神经网络模型的预测概率向量;基于计算获取的预测概率向量,计算获取相似度;
根据预先设定的比例值,按照相似度从高到低的顺序选定样本加入到干净数据集,获得的更新后的干净数据集。
8.根据权利要求7所述的一种基于对抗性微调的分类神经网络后门清除方法,其特征在于,相似度为余弦相似度,表达式为,
Figure FDA0004152661200000021
式中,A,B表示待计算相似度的两个向量,Ai,Bi分别表示A,B两个向量对应第i个位置的值,n为向量维度。
9.一种基于对抗性微调的分类神经网络后门清除系统,其特征在于,包括数据获取模块、后门清除模块和判断更新模块;其中,
所述数据获取模块用于获取带有后门的分类神经网络模型以及初始的干净数据集;跳转执行后门清除模块的步骤;
所述后门清除模块用于基于分类神经网络模型和干净数据集,生成对抗样本数据集;基于生成的对抗样本数据集,计算带有后门的分类神经网络模型的分类损失函数,更新网络参数并获得第一清除后门的分类神经网络模型;基于干净数据集,计算第一清除后门的分类神经网络模型的分类损失函数,更新网络参数并获得第二清除后门的分类神经网络模型;基于带有后门的分类神经网络模型以及第二清除后门的分类神经网络模型更新干净数据集,获得更新后的干净数据集;跳转执行判断更新模块的步骤;
所述判断更新模块,用于判断更新后的干净数据集是否符合预设要求;其中,若符合预设要求,则完成分类神经网络后门清除;若不符合预设要求,则基于获得的更新后的干净数据集,跳转执行后门清除模块和判断更新模块的步骤。
CN202310323943.7A 2023-03-29 2023-03-29 一种基于对抗性微调的分类神经网络后门清除方法及系统 Pending CN116432177A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310323943.7A CN116432177A (zh) 2023-03-29 2023-03-29 一种基于对抗性微调的分类神经网络后门清除方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310323943.7A CN116432177A (zh) 2023-03-29 2023-03-29 一种基于对抗性微调的分类神经网络后门清除方法及系统

Publications (1)

Publication Number Publication Date
CN116432177A true CN116432177A (zh) 2023-07-14

Family

ID=87090025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310323943.7A Pending CN116432177A (zh) 2023-03-29 2023-03-29 一种基于对抗性微调的分类神经网络后门清除方法及系统

Country Status (1)

Country Link
CN (1) CN116432177A (zh)

Similar Documents

Publication Publication Date Title
Chen et al. Adversarial attack and defense in reinforcement learning-from AI security view
Carlini et al. Towards evaluating the robustness of neural networks
Paul et al. Robust visual tracking by segmentation
CN110633745B (zh) 一种基于人工智能的图像分类训练方法、装置及存储介质
CN111310814A (zh) 利用不平衡正负样本对业务预测模型训练的方法及装置
CN111598182A (zh) 训练神经网络及图像识别的方法、装置、设备及介质
Bui et al. Improving adversarial robustness by enforcing local and global compactness
CN113111963A (zh) 一种黑盒攻击行人重识别系统的方法
CN115017511A (zh) 一种源代码漏洞检测方法、装置以及存储介质
CN113919497A (zh) 针对连续学习能力系统的基于特征操纵的攻击和防御方法
CN115239760B (zh) 一种目标跟踪方法、系统、设备及存储介质
CN115082752A (zh) 基于弱监督的目标检测模型训练方法、装置、设备及介质
CN116432184A (zh) 基于语义分析和双向编码表征的恶意软件检测方法
CN116743493A (zh) 网络入侵检测模型构建方法及网络入侵检测方法
CN118097341B (zh) 一种目标检测方法、模型训练方法及相关装置
CN115758337A (zh) 基于时序图卷积网络的后门实时监测方法、电子设备、介质
CN115033878A (zh) 快速自博弈强化学习方法、装置、计算机设备和存储介质
CN117454187B (zh) 一种基于频域限制目标攻击的集成模型训练方法
CN113255526B (zh) 基于动量的对人群计数模型的对抗样本生成方法及系统
Li et al. Siamese global location-aware network for visual object tracking
CN115909027B (zh) 一种态势估计方法及装置
EP3798913A1 (en) Device and method to improve the robustness against adversarial examples
CN117237893A (zh) 基于实例自适应动态神经网络的自动驾驶多目标检测方法
CN113868671B (zh) 数据处理方法、神经网络模型的后门防御方法及装置
CN116432177A (zh) 一种基于对抗性微调的分类神经网络后门清除方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination