CN117454187B - 一种基于频域限制目标攻击的集成模型训练方法 - Google Patents

一种基于频域限制目标攻击的集成模型训练方法 Download PDF

Info

Publication number
CN117454187B
CN117454187B CN202311777374.XA CN202311777374A CN117454187B CN 117454187 B CN117454187 B CN 117454187B CN 202311777374 A CN202311777374 A CN 202311777374A CN 117454187 B CN117454187 B CN 117454187B
Authority
CN
China
Prior art keywords
model
training
frequency domain
dataset
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311777374.XA
Other languages
English (en)
Other versions
CN117454187A (zh
Inventor
丁虎
林伟晨
张万林
黄若民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202311777374.XA priority Critical patent/CN117454187B/zh
Publication of CN117454187A publication Critical patent/CN117454187A/zh
Application granted granted Critical
Publication of CN117454187B publication Critical patent/CN117454187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于频域限制目标攻击的集成模型训练方法,在集成子模型频域的每个特征中引入扰动,并分析扰动对准确性的影响来进行敏感性测试,识别出频域中的非鲁棒特征;在对抗攻击生成数据集时只针对识别出的非鲁棒特征进行目标攻击,得到多个具有不同非鲁棒特征的数据集;根据所得到的多个具有不同非鲁棒特征的数据集,训练得到具有多样性的子模型,将各子模型集成后得到具有对抗鲁棒性的集成模型。该方法能缩短训练鲁棒集成模型的时间开销,包括不同子模型之间的通信以及训练开销,提升集成模型在正常数据上的分类准确率以及对抗攻击下的分类准确率。

Description

一种基于频域限制目标攻击的集成模型训练方法
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于频域限制目标攻击的集成模型训练方法。
背景技术
在机器学习领域,现有技术通常采用在损失函数中增加额外正则项来减弱子模型在训练过程中学习到的特征的相似性,例如DVERGE以及TRS集成模型训练方法:
DVERGE采用轮流优化每个子模型的方式,来优化如下目标函数:
每次优化子模型需要计算 O(m) 次对抗样本,其中m为集成模型的子模型数量,那么整体DVERGE的训练就需要进行计算O(㎡)次对抗样本。
在TRS的训练过程中,损失函数的正则项额外加入了模型的二阶梯度信息,即:
其中是关于输入的二阶梯度,计算复杂度和模型参数量的平方成正比。
由上述方案可知,虽然现有技术中的DVERGE以及TRS能够训练出具有鲁棒性的集成模型,但是训练阶段的开销仍然比较大。
发明内容
本发明的目的是提供一种基于频域限制目标攻击的集成模型训练方法,该方法能缩短训练鲁棒集成模型的时间开销,包括不同子模型之间的通信以及训练开销,提升集成模型在正常数据上的分类准确率以及对抗攻击下的分类准确率。
本发明的目的是通过以下技术方案实现的:
一种基于频域限制目标攻击的集成模型训练方法,所述方法包括:
步骤1、在集成子模型频域的每个特征中引入扰动,并分析扰动对准确性的影响来进行敏感性测试,识别出频域中的非鲁棒特征;
步骤2、在对抗攻击生成数据集时只针对步骤1识别出的非鲁棒特征进行目标攻击,得到多个具有不同非鲁棒特征的数据集;
步骤3、根据所得到的多个具有不同非鲁棒特征的数据集,将数据集分配给不同的子模型作为当前的训练数据集,使用梯度下降算法更新各个子模型的参数,获得能够识别多样性特征的子模型,再将训练好的子模型集成后获得具有对抗鲁棒性的集成模型。
由上述本发明提供的技术方案可以看出,上述方法能缩短训练鲁棒集成模型的时间开销,包括不同子模型之间的通信以及训练开销,提升集成模型在正常数据上的分类准确率以及对抗攻击下的分类准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于频域限制目标攻击的集成模型训练方法流程示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,这并不构成对本发明的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1为本发明实施例提供的基于频域限制目标攻击的集成模型训练方法流程示意图,所述方法包括:
步骤1、在集成子模型频域的每个特征中引入扰动,并分析扰动对准确性的影响来进行敏感性测试,识别出频域中的非鲁棒特征;
在该步骤中,所引入的扰动表示为;其中/>表示与频域中坐标/>相对应的傅里叶基矩阵;扰动强度由参数v控制,而r表示扰动的方向,决定是变大还是变小,从1,-1中随机抽取;
将扰动添加到各个频域中,具体是通过在干净输入图像x上添加扰动/>,测量预训练模型/>的错误率,从而判断哪些特征对扰动敏感,其中:
通过设定一个错误率阈值,根据特征的错误率区分非鲁棒特征和鲁棒特征,错误率超过所设定错误率阈值的特征被归类为非鲁棒特征;错误率低于所设定错误率阈值的特征被视为鲁棒特征。
步骤2、在对抗攻击生成数据集时只针对步骤1识别出的非鲁棒特征进行目标攻击,得到多个具有不同非鲁棒特征的数据集;
在该步骤中,对抗攻击具有变换数据和预训练模型所具有的非鲁棒特征的能力,其中目标攻击集中在修改数据中的非鲁棒特征与特定目标标签相关,考虑原始数据集中的数据点/>,将目标标签设为/>,获得相应的对抗样本/>;当使用/>进行模型训练时,与目标标签/>相关的非鲁棒特征与标签/>的预测产生相关性,因此模型对于将标签误分为目标标签/>的非鲁棒特征的依赖减弱,这种依赖的减少提高了对抗攻击将预测引导到目标标签/>相对于其他类别的难度,同时能够增加不同子模型的非鲁棒特征的多样性,具体来说:
首先引入以下定义:
假设有一个预训练模型,该预训练模型/>在数据集/>上进行了训练,使用该预训练模型/>生成一个包含对抗样本的数据集 />;如果数据集/>不包含能够成功攻击类别s并将其误分类为类别t的任何对抗样本,则定义/>在攻击方向/>上弱,即定义/>具有/>-弱点,而/>中所有弱点方向/>共同形成了弱点集合W;
给定具有相应弱点集合的数据集/>,定义数据集/>的多样性如下:
由该公式可知:当所有的数据集集合拥有相同弱点集合时,数据集/>的多样性为0;当所有的数据集集合拥有不相交的弱点集合时,数据集/>的多样性为1;
本申请期望生成的不同数据集拥有尽可能高的数据集多样性,对于原始数据集中的每个样本,使用以下方法将数据分配给新数据集:
为每个样本生成关于所有其他类别的对抗样本;然后对于每个对抗样本,将其分配给当前包含最少个样本的数据集,m表示集成子模型的数量;同时为了保持新数据集的大小与原始数据集相同,选择目标类别置信度最高的对抗样本;
最终由频域编辑以及目标攻击共同生成多个具有不同非鲁棒特征的数据集。
上述操作在对抗攻击生成数据集时只修改敏感的频率特征(非鲁棒特征),这样就可以尽可能地保持原始数据的信息以及不敏感的鲁棒特征频率,从而保持干净数据集的准确率。
步骤3、根据所得到的多个具有不同非鲁棒特征的数据集,将数据集分配给不同的子模型作为当前的训练数据集,使用梯度下降算法更新各个子模型的参数,获得能够识别多样性特征的子模型,再将训练好的子模型集成后获得具有对抗鲁棒性的集成模型。
上述方法可以生成具有不同非鲁棒特征的数据集,从而得到特征更加多样化的子模型,而对抗样本在特征多样化的子模型之间的传递性减弱了,如此一来,所得到的集成模型便获得了对抗鲁棒性,本申请将这种方法称为带有频率限制的目标攻击TAFE。
下表1展示在不同的数据集CIFAR100和SVHN上的白盒攻击的防御效果,其中每一行代表不同的攻击方法,每一列代表不同和的集成模型防御性训练方法,TAFE表示本申请所述方法,表1中的实验均重复进行三次。
表1:集成模型对白盒攻击的对抗鲁棒性(%);数据集分别为CIFAR100和SVHN;“clean”表示干净数据集的准确率;和λ表示l范数的对抗扰动的强度和C&W攻击的系数:
由表1可知:在CIFAR-100以及SVHN数据集中本方法都可以获得最高的干净数据集上的分类准确率,且在大部分攻击方式下都可以获得相较于基准方法更高的分类准确率,体现本方法性能上的优势。
表2是本申请所述方法在CIFAR-100数据集上的消融实验,分别做了只用目标攻击的方法和只用频域编辑的实验,然后分别查看两种编辑手段的效果,并结合两者,比较结合后的效果。
表2:TAFE方法在CIFAR-100 数据集上的消融实验;TA表示只使用目标攻击的方法编辑数据集,其中表示目标攻击的强度;FE表示只使用频域编辑的方法编辑数据集,其中e表示错误率阈值:
由表2可知:当TA中的目标攻击强度逐渐增加时,模型的对抗性鲁棒性逐渐提高,但是这种改进是以模型在干净数据上的准确率为代价的;另一方面,通过逐渐增加FE中e的值,观察到集成模型的干净准确率提高,但是模型的对抗鲁棒性减弱。通过结合这两个步骤,本申请所述方法(TAFE)与单独使用任一方法(/>为0.05或者e为0.4)相比都能够提供更好地在对抗鲁棒性和干净准确率之间的权衡。
下表3是在相同的实验环境下测试的不同方法的时间代价:
表3:在数据集CIFAR100下和网络结构Resnet18下,不同方法训练三个子模型的平均时间:
由表3可知:和效果较好的DVERGE方法比,本申请方法在训练阶段,子模型之间不需要通信,可以有更好的并行性以及通信损失;另一方面,在训练过程中,本申请方法需要计算的对抗样本数量更少,所以每一轮迭代,时间消耗较少。
值得注意的是,本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
综上所述,通过本发明方法生成的数据集上训练不同的子模型,集成子模型可以学习到更加多样性的非鲁棒特征,这样将这些子模型结合成一个集成模型,这个集成模型就能够对对抗性攻击表现出鲁棒性,同时尽可能保持每个子模型的干净准确性。
另外,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

Claims (1)

1.一种基于频域限制目标攻击的集成模型训练方法,其特征在于,所述方法包括:
步骤1、在集成子模型频域的每个特征中引入扰动,并分析扰动对准确性的影响来进行敏感性测试,识别出频域中的非鲁棒特征;
所引入的扰动表示为;其中/>表示与频域中坐标/>相对应的傅里叶基矩阵;扰动强度由参数v控制,而r表示扰动的方向,决定是变大还是变小,从1,-1中随机抽取;
将扰动添加到各个频域中,具体是通过在干净输入图像x上添加扰动/>,测量预训练模型/>的错误率,从而判断哪些特征对扰动敏感,其中:
通过设定一个错误率阈值,根据特征的错误率区分非鲁棒特征和鲁棒特征,错误率超过所设定错误率阈值的特征被归类为非鲁棒特征;错误率低于所设定错误率阈值的特征被视为鲁棒特征;
步骤2、在对抗攻击生成数据集时只针对步骤1识别出的非鲁棒特征进行目标攻击,得到多个具有不同非鲁棒特征的数据集,具体过程为:
对抗攻击具有变换数据和预训练模型所具有的非鲁棒特征的能力,考虑原始数据集中的数据点/>,将目标标签设为/>,获得相应的对抗样本/>;当使用/>进行模型训练时,与目标标签/>相关的非鲁棒特征与标签/>的预测产生相关性,因此模型对于将标签误分为目标标签/>的非鲁棒特征的依赖减弱,具体来说:
首先引入以下定义:
假设有一个预训练模型,该预训练模型/>在数据集/>上进行了训练,使用该预训练模型/>生成一个包含对抗样本的数据集 />;如果数据集/>不包含能够成功攻击类别s并将其误分类为类别t的任何对抗样本,则定义/>在攻击方向/>上弱,即定义/>具有/>-弱点,而/>中所有弱点方向/>共同形成了弱点集合W;
给定具有相应弱点集合的数据集/>,定义数据集/>的多样性如下:
由该公式可知:当所有的数据集集合拥有相同弱点集合时,数据集/>的多样性为0;当所有的数据集集合拥有不相交的弱点集合时,数据集/>的多样性为1;
对于原始数据集中的每个样本,使用以下方法将数据分配给新数据集:
为每个样本生成关于所有其他类别的对抗样本;然后对于每个对抗样本,将其分配给当前包含最少个样本的数据集,m表示集成子模型的数量;同时为了保持新数据集的大小与原始数据集相同,选择目标类别置信度最高的对抗样本;
最终由频域编辑以及目标攻击共同生成多个具有不同非鲁棒特征的数据集;
步骤3、根据所得到的多个具有不同非鲁棒特征的数据集,将数据集分配给不同的子模型作为当前的训练数据集,使用梯度下降算法更新各个子模型的参数,获得能够识别多样性特征的子模型,再将训练好的子模型集成后获得具有对抗鲁棒性的集成模型。
CN202311777374.XA 2023-12-22 2023-12-22 一种基于频域限制目标攻击的集成模型训练方法 Active CN117454187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311777374.XA CN117454187B (zh) 2023-12-22 2023-12-22 一种基于频域限制目标攻击的集成模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311777374.XA CN117454187B (zh) 2023-12-22 2023-12-22 一种基于频域限制目标攻击的集成模型训练方法

Publications (2)

Publication Number Publication Date
CN117454187A CN117454187A (zh) 2024-01-26
CN117454187B true CN117454187B (zh) 2024-05-17

Family

ID=89585866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311777374.XA Active CN117454187B (zh) 2023-12-22 2023-12-22 一种基于频域限制目标攻击的集成模型训练方法

Country Status (1)

Country Link
CN (1) CN117454187B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118133939A (zh) * 2024-05-06 2024-06-04 深圳九有数据库有限公司 基于多模态数据的差分隐私化联邦学习方法及系统、设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113935496A (zh) * 2021-11-04 2022-01-14 中山大学 一种面向集成模型的鲁棒性提升防御方法
CN115249322A (zh) * 2022-04-12 2022-10-28 北京理工大学 基于频域流场攻击的对抗样本生成方法
WO2023000165A1 (en) * 2021-07-20 2023-01-26 Robert Bosch Gmbh Method and apparatus for classifying nodes of a graph

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11636332B2 (en) * 2019-07-09 2023-04-25 Baidu Usa Llc Systems and methods for defense against adversarial attacks using feature scattering-based adversarial training
US11176677B2 (en) * 2020-03-16 2021-11-16 Memorial Sloan Kettering Cancer Center Deep interactive learning for image segmentation models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023000165A1 (en) * 2021-07-20 2023-01-26 Robert Bosch Gmbh Method and apparatus for classifying nodes of a graph
CN113935496A (zh) * 2021-11-04 2022-01-14 中山大学 一种面向集成模型的鲁棒性提升防御方法
CN115249322A (zh) * 2022-04-12 2022-10-28 北京理工大学 基于频域流场攻击的对抗样本生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Adversarial Examples: Attacks and Defenses for Deep Learning";Xiaoyong Yuan.et al;《IEEE》;20190113;全文 *
"Coresets for Wasserstein Distributionally Robust Optimization Problems";Ruomin Huang.et al;《arXiv:2210.04260v3》;20230509;全文 *
"基于扰动纠篇的深度神经网络对抗攻击方法研究";程娅娅;《知网》;20230115;全文 *

Also Published As

Publication number Publication date
CN117454187A (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
Carlini et al. Towards evaluating the robustness of neural networks
Morteza et al. Provable guarantees for understanding out-of-distribution detection
CN111753881B (zh) 一种基于概念敏感性量化识别对抗攻击的防御方法
CN112633311A (zh) 利用输入数据结构的高效黑盒对抗性攻击
CN117454187B (zh) 一种基于频域限制目标攻击的集成模型训练方法
CN111754519B (zh) 一种基于类激活映射的对抗防御方法
Behzadan et al. Mitigation of policy manipulation attacks on deep q-networks with parameter-space noise
Liang et al. An end-to-end model for android malware detection
CN113919497A (zh) 针对连续学习能力系统的基于特征操纵的攻击和防御方法
CN114842343A (zh) 一种基于ViT的航空图像识别方法
JP7207540B2 (ja) 学習支援装置、学習支援方法、及びプログラム
CN114677556A (zh) 神经网络模型的对抗样本生成方法及相关设备
CN114417942A (zh) 一种杂波识别方法及系统及装置及介质
EP4127984B1 (en) Neural network watermarking
CN111639688B (zh) 一种基于线性核svm的物联网智能模型的局部解释方法
CN113656798A (zh) 一种面向恶意软件标签翻转攻击的正则化识别方法及装置
CN108985382A (zh) 基于关键数据通路表示的对抗样本检测方法
CN114567512A (zh) 基于改进art2的网络入侵检测方法、装置及终端
LU505793B1 (en) Defensive method against interpretability camouflage samples in deep recognition neural networks
Asha et al. Evaluation of adversarial machine learning tools for securing AI systems
CN114140670B (zh) 基于外源特征进行模型所有权验证的方法和装置
Chen et al. Machine Unlearning in Large Language Models
Zhou et al. An Improved Method for Making CNN Immune to Backdoor Attack by Activating Clustering
Wang et al. Diffusion Init: Stronger Initialisation of Decision-Based Black-Box Attacks for Visual Object Tracking
Ingle et al. Enhancing Model Robustness and Accuracy Against Adversarial Attacks via Adversarial Input Training.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant