CN111401407A - 一种基于特征重映射的对抗样本防御方法和应用 - Google Patents

一种基于特征重映射的对抗样本防御方法和应用 Download PDF

Info

Publication number
CN111401407A
CN111401407A CN202010115357.XA CN202010115357A CN111401407A CN 111401407 A CN111401407 A CN 111401407A CN 202010115357 A CN202010115357 A CN 202010115357A CN 111401407 A CN111401407 A CN 111401407A
Authority
CN
China
Prior art keywords
model
sample
feature
significant
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010115357.XA
Other languages
English (en)
Other versions
CN111401407B (zh
Inventor
陈晋音
郑海斌
张龙源
王雪柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010115357.XA priority Critical patent/CN111401407B/zh
Publication of CN111401407A publication Critical patent/CN111401407A/zh
Priority to US17/602,437 priority patent/US11921819B2/en
Priority to PCT/CN2020/103264 priority patent/WO2021169157A1/zh
Application granted granted Critical
Publication of CN111401407B publication Critical patent/CN111401407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征重映射的对抗样本防御方法和应用,包括:构建特征重映射模型,该特征重映射模型包括用于生成显著特征的显著特征生成模型,用于生成非显著特征的非显著特征生成模型,用于判别显著特征和非显著特征真伪的共享判别模型;根据显著特征生成模型和非显著特征生成模型构建检测器,该检测器用于检测对抗样本和良性样本;根据显著特征生成模型构建重识别器,该重识别器用于识别对抗样本的类别;在进行对抗样本检测时,将检测器连接到目标模型的输出,利用检测器进行对抗样本检测;在进行对抗样本识别时,将重识别器连接到目标模型的输出,利用重识别器进行对抗样本识别。能够实现对抗样本的检测和重识别的双重防御效果。

Description

一种基于特征重映射的对抗样本防御方法和应用
技术领域
本发明涉及面向深度学习对抗攻防的防御领域,具体涉及一种基于特 征重映射的对抗样本防御方法和应用。
背景技术
随着硬件计算能力的提升、大数据存储的支持和理论框架的完善,深 度学习技术凭借强大的特征提取能力和拟合能力被应用到众多领域,包括 计算机视觉领域、自然语言处理领域、生物信息领域等等。同时,深度学 习技术也从实验室逐渐走向产业化,其中以自动驾驶应用最为突出。自动 驾驶系统中的路牌识别、车牌识别、行人识别、道路识别、障碍物检测等, 都涉及到计算机视觉的技术,而语音指令控制则涉及到语音识别技术。随 着深度学习技术的进一步广泛应用,其中存在的问题也逐渐暴露。
早在2014年,就有研究人员发现深度模型容易受到对抗样本的攻击, 即对抗攻击。具体表现为,训练好的深度模型对测试集中的良性样本具有 较好的识别准确率,但是在原本能够被正确识别的良性样本中添加微小的 精心设计的对抗扰动后,得到的对抗样本会被深度模型错误识别。对抗攻 击揭露了深度模型中存在的漏洞,而这样的漏洞将会阻碍深度学习技术的 进一步发展。同样以自动驾驶系统为例,对抗攻击将会对其安全性造成致 命的影响,如原本“STOP”的路牌上被粘上一些小贴纸,自动驾驶系统 中的路牌识别模型就会把“STOP”识别成限速“40”,这对驾驶人员和行 人都十分危险。
根据攻击者是否知道深度模型的内部细节,可以将对抗攻击分为白盒 攻击和黑盒攻击;根据攻击者是否设定攻击目标,可以将对抗攻击分为目 标攻击和无目标攻击;根据攻击发生的场景,可以将对抗攻击分为电子对 抗攻击和物理对抗攻击。研究对抗攻击的最终目的是为了发现深度模型中 存在的漏洞,提高模型的安全性和鲁棒性。因此,目前研究人员也提出了 许多针对对抗攻击的防御技术,根据防御实现的目标不同,可以分为完全防御和仅检测防御;根据防御作用的位置不同,主要可以分为以下三类: 数据修改防御、模型修改防御和附加结构防御。最新的研究表明,对抗样 本的存在不是深度学习模型的一个漏洞(Bug),而是一种特征,只是机器 能够很好地识别这种特征,但是人类很难理解这种特征。
完全防御是重新识别对抗样本所对应的原始良性样本的类标;仅检测 防御是识别待检测的样本是对抗样本还是良性样本。
数据修改防御方法通过对输入的数据进行修改,破坏在样本上精心设 计的对抗扰动,从而实现防御。目前的常用的数据集修改防御方法包括数 据缩放、数据旋转、数据翻转、数据重编码等操作,存在的主要问题是不 仅会破坏对抗样本上的扰动,同时也会改变原始数据的样本的分布,属于 无差别防御,无法实现先检测对抗样本,再针对性的对对抗样本实现防御。
模型修改防御方法包括模型的层数修改、模型的激活函数修改、模型 的层尺寸修改、模型的连接稠密度修改等,其存在的主要问题是需要知道 原始模型的结构信息,无法实现模型隐私的安全性。
附加结构防御方法是通过在原始模型的外部或者内部添加附加的子 结构实现防御,外部附加结构多为检测器,只能实现检测对抗样本的功能 而大都存在结构复杂的问题,而内部附加结构需要知道模型的隐私信息。
发明内容
为了克服现有的路牌识别、车牌识别、行人识别、道路识别、障碍物 检测等防御方法存在的需要获取原始模型隐私信息、对抗原始良性样本的 识别有影响、防御模型结构复杂等不足,为了实现对抗样本的检测和重识 别的双重防御效果,本发明提供一种基于特征重映射的对抗样本防御方法 和应用。
本发明的技术方案为:
一种基于特征重映射的对抗样本防御方法,包括以下步骤:
构建特征重映射模型,该特征重映射模型包括用于生成显著特征的显 著特征生成模型,用于生成非显著特征的非显著特征生成模型,用于判别 显著特征和非显著特征真伪的共享判别模型;
根据显著特征生成模型和非显著特征生成模型构建检测器,该检测器 用于检测对抗样本和良性样本;
根据显著特征生成模型构建重识别器,该重识别器用于识别对抗样本 的类别;
在进行对抗样本检测时,将检测器连接到目标模型的输出,利用检测 器进行对抗样本检测;
在进行对抗样本识别时,将重识别器连接到目标模型的输出,利用重 识别器进行对抗样本识别。
优选地,特征重映射模型的构建方法为:
构建特征重映射模型训练体系,包括目标模型、显著特征生成模型、 非显著特征生成模型以及共享判别模型,其中,目标模型用于目标识别, 输入为样本,输出隐藏层特征;显著特征生成模型的输入为隐藏层特征, 输出为生成显著特征;非显著特征生成模型的输入为隐藏层特征,输出为 生成非显著特征;共享判别模型的输入为生成显著特征、生成非显著特征、 真实显著特征以及真实非显著特征,输出为对良性样本或对抗样本的识别结果;
构建训练共享判别模型的损失函数lossD和训练显著特征生成模型和 非显著特征生成模型的损失函数lossG,利用损失函数lossD和损失函数lossG对共享判别模型、显著特征生成模型以及非显著特征生成模型进行联合训 练,以确定显著特征生成模型、非显著特征生成模型以及共享判别模型的 模型参数;
其中,损失函数
Figure RE-GDA0002469569360000041
为 对抗样本的显著特征生成训练时共享判别模型的损失函数,
Figure RE-GDA0002469569360000042
对抗 样本的非显著特征生成训练时共享判别模型的损失函数,
Figure RE-GDA0002469569360000043
为良性样 本的显著特征生成训练时共享判别模型的损失函数,
Figure RE-GDA0002469569360000044
为良性样本 的非显著特征生成训练时共享判别模型的损失函数;
损失函数
Figure RE-GDA0002469569360000045
为对抗样本的显著特征生成训练时显著特征生成模型的损失函数,
Figure RE-GDA0002469569360000046
为对抗 样本的非显著特征生成训练时非显著特征生成模型的损失函数,
Figure RE-GDA0002469569360000047
为 良性样本的显著特征生成训练时显著特征生成模型的损失函数,
Figure RE-GDA0002469569360000048
为良性样本的非显著特征生成训练时非显著特征生成模型的损失函数。
优选地,检测器的构建方法为:
构建检测器训练体系,包括目标模型、参数确定的显著特征生成模型、 参数确定的非显著特征生成模型以及检测模型,其中,目标模型用于目标 识别,输入为样本,输出隐藏层特征;显著特征生成模型的输入为隐藏层 特征,输出为生成显著特征;非显著特征生成模型的输入为隐藏层特征, 输出为生成非显著特征;检测模型的输入为生成显著特征与生成非显著特 征级联形成的级联特征,输出为良性样本或对抗样本的检测结果;
构建训练检测模型的损失函数lossdetect,以最小化损失函数lossdetect为目 标对检测模型进行训练,以确定检测模型的模型参数;
其中,损失函数lossdetect为:
Figure RE-GDA0002469569360000051
其中,log(·)表示对数函数,Det(·)表示检测模型,h(·)表示目标模型隐 藏层模块的输出,xi表示良性样本,
Figure RE-GDA0002469569360000052
表示xi对应的对抗样本,GSF(·)表 示显著特征生成模型,GNSF(·)表示非显著特征生成模型,表示为 concat(GSF(·),GNSF(·))表示级联特征。
优选地,重识别器的构建方法为:
构建检测器训练体系,包括目标模型、参数确定的显著特征生成模型 以及重识别模型,其中,目标模型用于目标识别,输入为样本,输出隐藏 层特征;显著特征生成模型的输入为隐藏层特征,输出为生成显著特征; 重识别模型的输入为生成显著特征,输出为对抗样本的类别;
构建训练重识别模型的损失函数lossre-recog,以最小化损失函数lossre-recog为目标对重识别模型进行训练,以确定重识别模型的模型参数;
其中,损失函数lossre-recog为:
Figure RE-GDA0002469569360000053
其中,log(·)表示对数函数;
Figure RE-GDA0002469569360000054
表示对抗样本对应的原始良性样本 的真实类标经过one-hot编码后,在第k个位置上的元素值;
Figure RE-GDA0002469569360000055
表示对 抗样本经过目标模型后得到的
Figure RE-GDA0002469569360000056
Figure RE-GDA0002469569360000057
输入参数确定的显著特征 生成模型后得到
Figure RE-GDA0002469569360000058
将生成的显著特征输入到重识别模型后输出 的置信度矩阵的第k个位置上的元素值;k为原始样本分类索引,m表示 原始样本的分类数;i为对抗样本索引,
Figure RE-GDA0002469569360000061
表示训练集中对抗样本的数量。
优选地,训练特征重映射模型、检测器以及重识别器的训练样本的构 建方法为:
(a)对于原始的良性样本xi,首先测试其在目标模型中的预测类标 与真实类标是否一致,若不一致,则剔除该良性样本不攻击,若一致,则 执行步骤(b);
(b)针对目标模型和良性样本xi,使用ma种不同的攻击方法进行攻 击得到对应的对抗样本集合
Figure RE-GDA0002469569360000062
(c)攻击结束后,将步骤(b)中得到的对抗样本集合中的对抗样本 逐一输入目标模型中进行测试,若预测类标与真实类标不一致,则表示其 为攻击成功的对抗样本,保留在集合中;若一致,则表明其攻击失败,从 对抗样本集合中剔除;
(d)重复步骤(a)~(c)的操作,得到所有样本的对抗样本集合;
(e)对对抗样本集合
Figure RE-GDA0002469569360000063
中的样本进行重新整理排序。
优选地,显著特征生成模型与非显著特征生成模型的结构相同,为依 次连接的输入层、隐藏单元以及输出层,其中,隐藏单元包含若干个隐藏 层,每个隐藏层为全连接层、卷积层中的至少一种。
优选地,共享判别模型、检测模型以及重识别模型网络结构相同,均 包括依次连接的输入层、隐藏单元、过渡层以及输出层,其中,隐藏单元 包含若干个隐藏层,每个隐藏层为全连接层、卷积层中的至少一种。
本发明的技术构思为:基于特征重映射的对抗样本防御方法,通过设 计特征重映射模型,将深度模型中隐藏层模块提取的特征分别映射为显著 特征和非显著特征,进一步学习对抗样本和良性样本的显著特征和非显著 特征的差异性,实现检测对抗样本,并重新识别对抗样本的原始类标。最 后通过在CIFAR10数据集上训练多个模型,使用不同的攻击方法攻击后, 再使用本发明提出的防御方法进行检测,同时在重识别阶段与样本缩放(resize)、样本旋转(rotate)两种防御方法进行对比,验证了本发明基于 特征重映射的对抗样本防御方法的效果良好。
一种自动驾驶中对抗攻击的防御方法,以包含4类户外交通工具和6 类自然野生动物图像的数据集作为训练集,采用上述的基于特征重映射的 对抗样本防御方法来构建检测器和重识别器,在进行对抗样本检测时,将 检测器连接到目标模型的输出,利用检测器进行对抗样本检测;在进行对 抗样本识别时,将重识别器连接到目标模型的输出,利用重识别器进行对 抗样本识别。
本发明的有益效果为:1)通过先检测对抗样本,再对对抗样本进行 重识别的两阶段操作,尽可能减小了附加防御方法对良性样本的识别准确 率的影响;2)采用附加模型的防御措施,不需要获取目标模型的内部信 息,保护了用户和模型的隐私;3)提出的附加模型结构较为轻量;4)能 够实现对抗样本检测和重识别的功能,满足不同的应用需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地, 下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员 来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的特征重映射模型训练体系的结构示意图;
图2是本发明实施例提供的检测器训练体系的结构示意图;
图3是本发明实施例提供的重识别器训练体系的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及 实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实 施方式仅仅用以解释本发明,并不限定本发明的保护范围。
参照图1~图3,实施例提供的基于特征重映射的对抗样本防御方法, 包括以下步骤:
S101,构建特征重映射模型,该特征重映射模型包括用于生成显著特 征的显著特征生成模型,用于生成非显著特征的非显著特征生成模型,用 于判别显著特征和非显著特征真伪的共享判别模型。
训练所有模型均需要训练样本,训练样本包括良性样本和对抗样本, 其中,数据样本格式定义为包含Nsam个样本的集合X,
Figure RE-GDA0002469569360000081
每个样本表示为xi∈RH×W×c(i=1,2,...,Nsam),即xi是一个包含H×W×c个元素 的矩阵,其中H表示高度,W表示宽度,c表示样本通道数。数据集的类 标集合为
Figure RE-GDA0002469569360000082
每个样本都有对应的类标yi,表示第i个样本xi属于第yi类,其中yi={0,1,2...,m-1}(i=1,2,...,Nsam),即该数据集为m分类的 数据集。同时定义样本类标的one-hot编码形式,表示为
Figure RE-GDA0002469569360000083
即一共包含m个元素的向量,其中第yi个元素值为1,其余元素值为0。
深度模型DNN定义为F(X,Θ):X→Y,其中Θ表示模型在数据集{X,Y} 上训练得到的模型参数。深度模型实现的功能是将数据X映射为Y,在攻 击时DNN是攻击者的攻击目标,在防御时是防护者的保护目标,统称为 目标模型,在实际应用中,该目标模型可用于自动驾驶系统中的路牌识别、 车牌识别、行人识别、道路识别、障碍物检测以及语音识别,也就说本发 明提供的基于特征重映射的对抗样本防御方法可以用于路牌识别、车牌识 别、行人识别、道路识别、障碍物检测以及语音识别的防御,根据结构功 能,可以将DNN分为输入层模块、隐藏层模块、输出层模块三部分。输 入层模块获取数据样本;隐藏层模块提取样本的特征并将有用的特征不断 放大,实现特征映射的功能,隐藏层模块的最后一层输出称为logits;输 出层模块使用Softmax函数对logits进行归一化得到置信度向量,取向量 中置信度值最大的神经元所在的位置作为DNN预测的类标。定义目标模 型输出的logits作为输入样本xi在隐藏层模块最后一层的特征,表示为h(xi); 经过Softmax归一化后的置信度表示为1×m的置信度向量
Figure RE-GDA0002469569360000091
最后的预 测类标表示为
Figure RE-GDA0002469569360000092
其中argmax(·)函数返回向量
Figure RE-GDA0002469569360000093
中元素值最 大的位置,预测类标集表示为
Figure RE-GDA0002469569360000094
当样本xi的预测类标
Figure RE-GDA0002469569360000095
与 真实类标yi一致时,即目标模型对输入样本预测正确。
在确定良性样本和深度模型的基础上,采用攻击方法即可以生成对抗 样本。本发明使用不同的攻击方法获取对抗样本,包括白盒攻击方法和黑 盒攻击方法。在进行白盒攻击时,需要获取目标模型的梯度信息,使用的 白盒攻击方法包括但不仅限于快速梯度符号攻击法(fast gradient sign method,FGSM)、动量迭代的快速梯度符号攻击法(momentumiterative fast gradient sign method,MI-FGSM)、基本迭代攻击方法(basic iterativemethods,BIM)、迭代最小似然类攻击方法(iterative least-likely class,ILCM)、 雅可比特性映射方法攻击法(jacobian saliency map approach,JSMA)、迷 惑深度攻击方法(DeepFool)、Carlini&Wagner攻击方法(C&W)等。在 进行黑盒攻击时,只需要获取目标模型的输出信息,使用的黑盒攻击方法 包括但不仅限于单像素攻击方法(single pixelattack)、零阶优化攻击方法 (zeroth order optimization,ZOO)、边界攻击方法(Boundary)等。具体攻 击过程为:
(a)对于原始的良性样本xi,首先测试其在目标模型中的预测类标 与真实类标是否一致,若不一致,则剔除该良性样本不攻击,若一致,则 执行步骤(b);
(b)针对目标模型和良性样本xi,使用ma种不同的攻击方法进行攻 击得到对应的对抗样本集合
Figure RE-GDA0002469569360000101
(c)攻击结束后,将步骤(b)中得到的对抗样本集合中的对抗样本 逐一输入目标模型中进行测试,若预测类标与真实类标不一致,则表示其 为攻击成功的对抗样本,保留在集合中;若一致,则表明其攻击失败,从 对抗样本集合中剔除;
(d)重复步骤(a)~(c)的操作,得到所有样本的对抗样本集合;
(e)对对抗样本集合
Figure RE-GDA0002469569360000102
中的样本进行重新整理排序。
特征映射模型的功能是将输入的特征进行重新映射,分别映射成显著 特征和非显著特征。对于对抗样本,其显著特征是模型学习到的人类需要 的特征,非显著特征是模型学习到的人类不需要的特征;对于良性样本, 其显著特征和非显著特征都是模型学习到的且人类需要的特征。
特征映射模型包括三部分,显著特征生成模型、非显著特征生成模型、 共享判别模型。每个模型都包括输入层模块、隐藏层模块和输出层模块三 部分。显著特征生成模型的输入是目标模型的隐藏层模块输出的特征h(xi), 输出是生成的显著特征;非显著特征生成模型的输入是目标模型的隐藏层 模块输出的特征h(xi),输出是生成的非显著特征;共享判别模型的输入是 生成的显著特征、生成的非显著特征、真实的显著特征、真实的非显著特 征,输出是0或者1的判定结果。
显著特征生成模型和非显著特征生成模型的输入层模块和输出层模 块的尺寸相同,与特征h(xi)的尺寸一致;共享判别模型的输入层模块的尺 寸与特征h(xi)的尺寸一致,输出层模块是经过Sigmoid函数激活的单个神 经元。
对于显著特征生成模型的隐藏层模块,本发明提出了三种不同的构建 策略。第一种是全连接策略,即隐藏层模块全部使用全连接层,层数为2a+1, 其中a=1,2,3...根据硬件计算能力调整。假定输入层模块和输出模型的尺寸 为sin,即包含sin个元素,则第i层的神经元数量为:
Figure RE-GDA0002469569360000111
其中,
Figure RE-GDA0002469569360000112
表示第i层的神经元个数,在这里隐藏层模块的全连接层数 为奇数层,smiddle表示最中间层的神经元个数,Z[·]表示取整函数,sin表示 输入层模块和输出模型的尺寸,即输入层和输出层的神经元个数。以输入 层sin=100,中间层smiddle=400,a=2,共有5层的隐藏层模块为例,则第 一层到第五层的神经元个数分别为200,300,400,300,200。其中a和smiddle决 定了神经元层数和每层神经元的个数,根据用户能够达到的硬件计算能力调整。在全连接策略中,每个全连接层的dropout比率取值范围为[0.3,0.8], 激活函数选择包括但不局限于ReLU、Leaky ReLU、tanh、exponential linear 激活、Sigmoid激活等。
第二种策略是全卷积策略,即隐藏层模块全部使用卷积结构,层数为 2b+1,其中b=1,2,3...根据硬件计算能力调整。卷积层主要由卷积核尺寸决 定,卷积核的尺寸包括窗口大小、核深度、滑动步长。下面具体说明窗口 大小、核深度、滑动步长这三个参数的设定。
卷积核的窗口为正方形,即长和宽一致,窗口尺寸包括但不限于 {1×1,3×3,5×5,7×7}这几种类型,不同卷积层窗口尺寸可以不同,窗口的滑 动步长包括但不限于{0,1,2,3,4,5}这几种类型。但是滑动步长和窗口尺寸遵 循的尺度关系为,窗口尺寸大于滑动步长,以3×3的窗口尺寸为例,其滑 动步长限于{0,1,2}这三种选择。下面确定核深度这一参数,假定输入层模 块和输出模型的尺寸为sin,即包含sin个元素,为了适合卷积结构,本发明 设计过渡层将输入层模块、输出层模块分别与隐藏层模块进行联结。在输 入层模块和隐藏层模块的过渡层设计为,将输入层的sin个神经元全连接到 strans个神经元,然后将strans个神经元reshape成wre×wre×1的矩形神经元矩阵, 即strans=wre×wre×1。在隐藏层模块和输出层模块的过渡层设计为将隐藏层模 块的输出全连接到包含strans个神经元的全连接层,然后将strans个神经元的全 连接层再次全连接到输出层模块。
全卷积策略中隐藏层模块的第i层卷积核深度采用最近原则确定。最 近原则阐述为,首先计算第i层卷积核的理论深度,然后在卷积核深度集 合{8,16,32,64,128,256,1024}中选择与理论深度最接近的值作为实际深度。理 论深度的计算公式为:
Figure RE-GDA0002469569360000131
其中,,
Figure RE-GDA0002469569360000132
表示第i层的神经元个数,在这里隐藏层模块的卷积层数 为奇数层,
Figure RE-GDA0002469569360000133
表示最中间层的神经元个数。公式中b和
Figure RE-GDA0002469569360000134
决定了神经 网络层数和每层卷积核的深度,根据用户能够达到的硬件计算能力调整。 在全卷积策略中,每个卷积层的dropout比率取值范围为[0.3,0.8],激活函 数选择包括但不局限于ReLU、Leaky ReLU、tanh、exponential linear激活、 Sigmoid激活等,池化的窗口尺寸包括但不限于{1×1,2×2,3×3,4×4,5×5,6×6} 这几种类型。
第三种策略为混合策略,即在隐藏层模块中混合使用全连接层和卷积 层。全连接层和卷积层的层数、全连接层的每层神经元数、卷积层的卷积 核尺寸都根据策略一和策略二中的公式确定。
对于非显著特征生成模型的隐藏层结构,非显著特征生成模型的隐藏 层模块的结构与显著特征生成模型的隐藏层模块的结构一致。当显著特征 生成模型的隐藏层模块的任意一种策略确定后,将其复制一份作为非显著 特征生成模型的隐藏层模块。
共享判别模型的隐藏层模块的结构的确定遵循显著特征生成模型的 隐藏层模块的三种策略。唯一的区别在于,在隐藏层模块和输出层模型之 间有一个过渡层。共享判别模型的隐藏层模块和输出层模块之间的过渡层 设计为,将隐藏层模块的输出全连接到具有128个神经元的全连接层,然 后将前述128个神经元的全连接层再次全连接到输出层模块。
在确定好特征重映射模型结构基础上,定义对抗样本的生成显著特征、 生成非显著特征、真实显著特征以及真实非显著特征,定义良性样本的生 成显著特征、生成非显著特征、真实显著特征以及真实非显著特征。具体 过程为:
对抗样本的显著特征定义为对抗样本对应的原始良性样本输入目标 模型后,模型隐藏层模块输出的特征。即对于对抗样本
Figure RE-GDA0002469569360000141
其对应的原 始良性样本为xi,将h(xi)作为对抗样本的显著特征。
良性样本的显著特征定义为良性样本输入目标模型后,模型隐藏层模 块输出的特征。即对于良性样本xi,将h(xi)作为良性样本的显著特征。
对抗样本的非显著特征定义为对抗样本输入目标模型后,模型隐藏层 模块输出的特征。即对于对抗样本
Figure RE-GDA0002469569360000142
Figure RE-GDA0002469569360000143
作为对抗样本的非显著 特征。
良性样本的非显著特征定义为良性样本输入目标模型后,模型隐藏层 模块输出的特征。即对于良性样本xi,将h(xi)作为良性样本的非显著特征。
综上所述,在特征映射模型中,当输入特征为h(xi)时,显著特征生成 模型的生成输出表示为GSF(h(xi)),对应的真实显著特征为h(xi);非显著特 征生成模型的生成输出表示为GNSF(h(xi)),对应的真实非显著特征为h(xi)。 当输入特征为
Figure RE-GDA0002469569360000144
时,显著特征生成模型的生成输出表示为
Figure RE-GDA0002469569360000145
对应的真实显著特征为h(xi);非显著特征生成模型的生成输出表示为
Figure RE-GDA0002469569360000146
对应的真实非显著特征为
Figure RE-GDA0002469569360000147
对特征重映射模型进行训练,具体过程为:
(a)根据搭建的特征映射模型,进行对抗样本的显著特征生成训练。
在进行对抗样本的显著特征生成训练时,训练的模型包括显著特征生 成模型、共享判别模型。显著特征生成模型表示为GSF(·),共享判别模型 表示为Dshare(·)。
两个模型的训练是交替进行的,在训练共享判别模型时,显著特征生 成模型的参数固定。目标模型的输入是
Figure RE-GDA0002469569360000151
目标模型的隐藏层模块的输 出是
Figure RE-GDA0002469569360000152
作为显著特征生成模型的输入。共享判别模型的输入是h(xi) 和
Figure RE-GDA0002469569360000153
其训练目的是为了判别输入的特征是真实的显著特征还是 生成的显著特征,输出是1或者0。在训练共享判别模型的阶段,标记真 实的显著特征h(xi)为1,生成的显著特征
Figure RE-GDA0002469569360000154
为0,采用交叉熵作 为损失函数,具体计算公式如下:
Figure RE-GDA0002469569360000155
其中,log(·)表示对数函数,Dshare(·)表示共享判别器,h(·)表示目标模 型隐藏层模块的输出,xi表示良性样本,
Figure RE-GDA0002469569360000156
表示对应的对抗样本,GSF(·) 表示显著特征生成模型。此时训练共享判别模型的目标是最小化
Figure RE-GDA0002469569360000157
显著特征生成模型的输入是
Figure RE-GDA0002469569360000158
输出是生成的
Figure RE-GDA0002469569360000159
其训 练目的是令生成的显著特征的分布接近真实的显著特征的分布,并且无法 被共享判别模型识别。在训练显著特征生成模型的阶段,标记生成的显著 特征为1,采用交叉熵作为损失函数,具体计算公式如下:
Figure RE-GDA00024695693600001510
此时,训练显著特征生成模型的目标是最小化
Figure RE-GDA00024695693600001511
(b)根据搭建的特征映射模型,进行对抗样本的非显著特征生成训 练。
在进行对抗样本的非显著特征生成训练时,训练的模型包括非显著特 征生成模型、共享判别模型。非显著特征生成模型表示为GNSF(·),共享判 别模型表示为Dshare(·)。
两个模型的训练是交替进行的,在训练共享判别模型时,非显著特征 生成模型的参数固定。目标模型的输入是
Figure RE-GDA0002469569360000161
目标模型的隐藏层模块的 输出是
Figure RE-GDA0002469569360000162
作为非显著特征生成模型的输入。共享判别模型的输入是
Figure RE-GDA0002469569360000163
Figure RE-GDA0002469569360000164
其训练目的是为了判别输入的特征是真实的非显著 特征还是生成的非显著特征,输出是1或者0。在训练共享判别模型的阶 段,标记真实的非显著特征
Figure RE-GDA0002469569360000165
为1,生成的非显著特征
Figure RE-GDA0002469569360000166
为 0,采用交叉熵作为损失函数,具体计算公式如下:
Figure RE-GDA0002469569360000167
其中,log(·)表示对数函数,Dshare(·)表示共享判别器,h(·)表示目标模 型隐藏层模块的输出,
Figure RE-GDA0002469569360000168
表示对抗样本,GNSF(·)表示非显著特征生成模 型。此时训练共享判别模型的目标是最小化
Figure RE-GDA0002469569360000169
非显著特征生成模型的输入是
Figure RE-GDA00024695693600001610
输出是生成的
Figure RE-GDA00024695693600001611
其 训练目的是令生成的非显著特征的分布接近真实的非显著特征的分布,并 且无法被共享判别模型识别。在训练非显著特征生成模型的阶段,标记生 成的非显著特征为1,采用交叉熵作为损失函数,具体计算公式如下:
Figure RE-GDA00024695693600001612
此时,训练非显著特征生成模型的目标是最小化
Figure RE-GDA00024695693600001613
(c)根据搭建的特征映射模型,进行良性样本的显著特征生成训练。
在进行良性样本的显著特征生成训练时,训练的模型包括显著特征生 成模型、共享判别模型。显著特征生成模型表示为GSF(·),共享判别模型 表示为Dshare(·)。
两个模型的训练是交替进行的,在训练共享判别模型时,显著特征生 成模型的参数固定。目标模型的输入是xi,目标模型的隐藏层模块的输出 是h(xi),作为显著特征生成模型的输入。共享判别模型的输入是h(xi)和 GSF(h(xi)),其训练目的是为了判别输入的特征是真实的显著特征还是生成 的显著特征,输出是1或者0。在训练共享判别模型的阶段,标记真实的 显著特征h(xi)为1,生成的显著特征GSF(h(xi))为0,采用交叉熵作为损失 函数,具体计算公式如下:
Figure RE-GDA0002469569360000171
其中,log(·)表示对数函数,Dshare(·)表示共享判别器,h(·)表示目标模 型隐藏层模块的输出,xi表示良性样本,GSF(·)表示显著特征生成模型。此 时训练共享判别模型的目标是最小化
Figure RE-GDA0002469569360000172
显著特征生成模型的输入是h(xi),输出是生成的GSF(h(xi)),其训练目 的是令生成的显著特征的分布接近真实的显著特征的分布,并且无法被共 享判别模型识别。在训练显著特征生成模型的阶段,标记生成的显著特征 为1,采用交叉熵作为损失函数,具体计算公式如下:
Figure RE-GDA0002469569360000173
此时,训练显著特征生成模型的目标是最小化
Figure RE-GDA0002469569360000174
(d)根据搭建的特征映射模型,进行良性样本的非显著特征生成训 练。
在进行良性样本的非显著特征生成训练时,训练的模型包括非显著特 征生成模型、共享判别模型。非显著特征生成模型表示为GNSF(·),共享判 别模型表示为Dshare(·)。
两个模型的训练是交替进行的,在训练共享判别模型时,非显著特征 生成模型的参数固定。目标模型的输入是xi,目标模型的隐藏层模块的输 出是h(xi),作为非显著特征生成模型的输入。共享判别模型的输入是h(xi) 和GNSF(h(xi)),其训练目的是为了判别输入的特征是真实的非显著特征还是 生成的非显著特征,输出是1或者0。在训练共享判别模型的阶段,标记 真实的非显著特征h(xi)为1,生成的非显著特征GNSF(h(xi))为0,采用交叉 熵作为损失函数,具体计算公式如下:
Figure RE-GDA0002469569360000181
其中,log(·)表示对数函数,Dshare(·)表示共享判别器,h(·)表示目标模 型隐藏层模块的输出,xi表示良性样本,GNSF(·)表示非显著特征生成模型。 此时训练共享判别模型的目标是最小化
Figure RE-GDA0002469569360000182
非显著特征生成模型的输入是h(xi),输出是生成的GNSF(h(xi)),其训练 目的是令生成的非显著特征的分布接近真实的非显著特征的分布,并且无 法被共享判别模型识别。在训练非显著特征生成模型的阶段,标记生成的 非显著特征为1,采用交叉熵作为损失函数,具体计算公式如下:
Figure RE-GDA0002469569360000183
此时,训练非显著特征生成模型的目标是最小化
Figure RE-GDA0002469569360000184
(e)特征映射模型的联合训练
综上所述,在训练过程中,主要包括三个损失,显著特征生成模型的 损失、非显著特征生成模型的损失、共享判别模型的损失,这三个损失分 别对应显著特征生成模型、非显著特征生成模型、共享判别模型的参数更 新。三个模型的的训练是“2-1”交替训练,即显著特征生成模型GSF(·)和 非显著特征生成模型GNSF(·)两者独立,可以同时训练,因此GSF(·)-GNSF(·)与 共享判别模型Dshare(·)交替训练,训练Dshare(·)时的损失公式为:
Figure RE-GDA0002469569360000191
训练GSF(·)-GNSF(·)时的损失公式为:
Figure RE-GDA0002469569360000192
训练结束后,即可以获得模型参数确定的特征重映射模型。
S102,根据显著特征生成模型和非显著特征生成模型构建检测器,该 检测器用于检测对抗样本和良性样本。
如图2所示,完成特征映射模型的训练后,将共享判别模型从特征映 射模型中移除,将显著特征生成模型和非显著特征映射模型的输出层进行 级联,级联后作为检测器的输入层模块。检测器的输出层模块是经过 Sigmoid函数激活的单个神经元,实现的功能是实现对抗样本和良性样本 的检测。在训练检测模型的时候,对抗样本标记为1,良性样本标记为0。
检测模型的隐藏层模块采用全连接网络。区别在于,在隐藏层模块和 输出层模型之间有一个过渡层。检测模型的隐藏层模块和输出层模块之间 的过渡层设计为,将隐藏层模块的输出全连接到具有128个神经元的全连 接层,然后将前述128个神经元的全连接层再次全连接到输出层模块。
检测模型的训练采用交叉熵作为损失函数,模型的输入是GSF(·)和 GNSF(·)的级联,表示为concat(GSF(·),GNSF(·)),其中concat(·,·)表示级联函数。
损失函数的公式表示为:
Figure RE-GDA0002469569360000201
其中,log(·)表示对数函数,Det(·)表示检测模型,h(·)表示目标模型隐 藏层模块的输出,xi表示良性样本,
Figure RE-GDA0002469569360000202
表示对应的对抗样本,GSF(·)表示 显著特征生成模型,GNSF(·)表示非显著特征生成模型。此时训练检测模型 的目标是最小化lossdetect
S103,根据显著特征生成模型构建重识别器,该重识别器用于识别对 抗样本的类别。
完成检测模型的训练后,能够识别待检测样本集合中的对抗样本和良 性样本,对于检测为良性样本的样本,重新输入目标模型中进行识别;对 于检测为对抗样本的样本,搭建重识别模型进行进一步识别。如图3所示, 移除非显著特征生成模型,仅保留显著特征生成模型,将其输出作为重识 别模型的输入。
重识别模型的输入是显著特征生成模型的输出,即
Figure RE-GDA0002469569360000203
输出 层模块是包含m个神经元经过Softmax函数激活的全连接层。重识别模型 的隐藏层模块的结构遵循2.2)中的三种策略。唯一的区别在于,在隐藏 层模块和输出层模型之间有一个过渡层。重识别模型的隐藏层模块和输出 层模块之间的过渡层设计为,将隐藏层模块的输出全连接到具有512个神 经元的全连接层,然后将前述512个神经元的全连接层再次全连接到输出层模块。
重识别模型的训练属于多分类任务,使用交叉熵作为损失函数。对于 对抗样本
Figure RE-GDA0002469569360000211
损失函数的公式定义为:
Figure RE-GDA0002469569360000212
其中,log(·)表示对数函数;
Figure RE-GDA0002469569360000213
表示对抗样本对应的原始良性样本 的真实类标经过one-hot编码后,在第k个位置上的元素值;
Figure RE-GDA0002469569360000214
表示对 抗样本经过目标模型后得到的
Figure RE-GDA0002469569360000215
Figure RE-GDA0002469569360000216
输入训练好的显著特征生 成模型后得到
Figure RE-GDA0002469569360000217
将生成的显著特征输入到重识别模型后输出的 置信度矩阵的第k个位置上的元素值;m表示原始样本的分类数;
Figure RE-GDA0002469569360000218
表 示训练集中对抗样本的数量。
S104,在进行对抗样本检测时,将检测器连接到目标模型的输出,利 用检测器进行对抗样本检测。
S105,在进行对抗样本识别时,将重识别器连接到目标模型的输出, 利用重识别器进行对抗样本识别。
实验例
在本发明的实验例中,以户外交通工具和自然野生动物识别应用作为 具体场景,这是自动驾驶应用的一个基础场景。然后对训练好的深度识别 模型进行攻击和防御,以验证本方法的有效性。首先,采用CIFAR10作 为训练数据集,该数据集是一个包含10分类的更接近普适物体的彩色图 像数据集,具体包含飞机、汽车、船、卡车共4类户外交通工具和鸟类、 猫、鹿、狗、蛙类、马共6类自然野生动物。CIFAR10数据集的每张样本 图片包含RGB三通道,尺寸为32*32的像素尺寸。在CIFAR10数据集上 训练4个识别模型,代码语言为Python,采用的深度学习框架为Tensorflow, 使用的深度学习基本结构包括VGG16、VGG19、ResNet50、ResNet101 共4个典型的结构。在经典的深度模型结构基础上,修改了模型的输入和 输出层,以匹配训练数据,出入层的尺寸为32*32*3,输出层包含10个神 经元。模型训练好后,针对CIFAR10数据集的测试集中的10000张样本, 挑选出能够被目标模型正确识别的样本,使用FGSM、MI-FGSM、JSMA 三种攻击方法进行攻击得到对抗样本,攻击成功率如表1所示,攻击过程 中的最大扰动像素值设置为35,原始良性样本的像素数值范围为[0,255]。
攻击成功率计算公式定义为:
Figure RE-GDA0002469569360000221
其中,NtoAtt表示待攻击的良性样本数,Nsucc表示攻击成功的对抗样本 数。
完成攻击后,使用本发明提出的防御方法进行检测,检测结果如表2 所示。检测率计算公式为:
Figure RE-GDA0002469569360000222
其中,NtoDet表示待检测的样本,包括对抗样本和良性样本,其中对抗 样本是攻击成功的样本,良性样本是能够被目标模型正确识别的样本,对 抗样本和良性样本的比例为1:1;
Figure RE-GDA0002469569360000223
表示成功地将对抗样本检测为对抗 样本和将良性样本检测为良性样本的样本总数。
同时在重识别阶段与样本缩放(resize)、样本旋转(rotate)两种防御 方法进行对比,验证了本发明基于特征重映射的对抗样本防御方法的效果 良好,图表3所示。resize操作是将待识别样本先缩小为原来的一半尺寸, 在重新放大到原来的尺寸,缩放过程中采用双线性插值;rotate操作是将 待识别样本顺时针旋转随机角度,然后在旋转后的空白部分用高斯噪声填 充,随机旋转的角度范围为[0°,45°]。重识别阶段的识别准确率计算公式为:
Figure RE-GDA0002469569360000231
其中,NtoRe-recog表示检测为对抗样本的样本数量,
Figure RE-GDA0002469569360000232
表示待重识别 样本中成功准确识别的样本数。
表1在CIFAR10数据集上不同攻击方法攻击不同目标模型的攻击成功率
目标模型 FGSM MI-FGSM JSMA
VGG16 100.00% 100.00% 93.50%
VGG19 98.50% 98.30% 92.00%
ResNet50 100.00% 100.00% 96.25%
ResNet101 99.00% 100.00% 94.35%
表2本发明方法针对不同攻击得到的对抗样本的检测率
目标模型 FGSM MI-FGSM JSMA
VGG16 95.16% 96.11% 95.34%
VGG19 96.10% 97.36% 96.73%
ResNet50 97.82% 96.42% 99.44%
ResNet101 97.31% 96.95% 99.24%
表3本发明方法针对不同攻击得到的对抗样本的重识别准确率
Figure RE-GDA0002469569360000233
Figure RE-GDA0002469569360000241
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详 细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制 本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等, 均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于特征重映射的对抗样本防御方法,其特征在于,包括以下步骤:
构建特征重映射模型,该特征重映射模型包括用于生成显著特征的显著特征生成模型,用于生成非显著特征的非显著特征生成模型,用于判别显著特征和非显著特征真伪的共享判别模型;
根据显著特征生成模型和非显著特征生成模型构建检测器,该检测器用于检测对抗样本和良性样本;
根据显著特征生成模型构建重识别器,该重识别器用于识别对抗样本的类别;
在进行对抗样本检测时,将检测器连接到目标模型的输出,利用检测器进行对抗样本检测;
在进行对抗样本识别时,将重识别器连接到目标模型的输出,利用重识别器进行对抗样本识别。
2.如权利要求1所述的基于特征重映射的对抗样本防御方法,其特征在于,特征重映射模型的构建方法为:
构建特征重映射模型训练体系,包括目标模型、显著特征生成模型、非显著特征生成模型以及共享判别模型,其中,目标模型用于目标识别,输入为样本,输出隐藏层特征;显著特征生成模型的输入为隐藏层特征,输出为生成显著特征;非显著特征生成模型的输入为隐藏层特征,输出为生成非显著特征;共享判别模型的输入为生成显著特征、生成非显著特征、真实显著特征以及真实非显著特征,输出为对良性样本或对抗样本的识别结果;
构建训练共享判别模型的损失函数lossD和训练显著特征生成模型和非显著特征生成模型的损失函数lossG,利用损失函数lossD和损失函数lossG对共享判别模型、显著特征生成模型以及非显著特征生成模型进行联合训练,以确定显著特征生成模型、非显著特征生成模型以及共享判别模型的模型参数;
其中,损失函数
Figure FDA0002391325440000021
Figure FDA0002391325440000022
为对抗样本的显著特征生成训练时共享判别模型的损失函数,
Figure FDA0002391325440000023
对抗样本的非显著特征生成训练时共享判别模型的损失函数,
Figure FDA0002391325440000024
为良性样本的显著特征生成训练时共享判别模型的损失函数,
Figure FDA0002391325440000025
为良性样本的非显著特征生成训练时共享判别模型的损失函数;
损失函数
Figure FDA0002391325440000026
Figure FDA0002391325440000027
为对抗样本的显著特征生成训练时显著特征生成模型的损失函数,
Figure FDA0002391325440000028
为对抗样本的非显著特征生成训练时非显著特征生成模型的损失函数,
Figure FDA0002391325440000029
为良性样本的显著特征生成训练时显著特征生成模型的损失函数,
Figure FDA00023913254400000210
为良性样本的非显著特征生成训练时非显著特征生成模型的损失函数。
3.如权利要求1所述的基于特征重映射的对抗样本防御方法,其特征在于,检测器的构建方法为:
构建检测器训练体系,包括目标模型、参数确定的显著特征生成模型、参数确定的非显著特征生成模型以及检测模型,其中,目标模型用于目标识别,输入为样本,输出隐藏层特征;显著特征生成模型的输入为隐藏层特征,输出为生成显著特征;非显著特征生成模型的输入为隐藏层特征,输出为生成非显著特征;检测模型的输入为生成显著特征与生成非显著特征级联形成的级联特征,输出为良性样本或对抗样本的检测结果;
构建训练检测模型的损失函数lossdetect,以最小化损失函数lossdetect为目标对检测模型进行训练,以确定检测模型的模型参数;
其中,损失函数lossdetect为:
Figure RE-FDA0002469569350000031
其中,log(·)表示对数函数,Det(·)表示检测模型,h(·)表示目标模型隐藏层模块的输出,xi表示良性样本,
Figure RE-FDA0002469569350000032
表示xi对应的对抗样本,GSF(·)表示显著特征生成模型,GNSF(·)表示非显著特征生成模型,表示为concat(GSF(·),GNSF(·))表示级联特征。
4.如权利要求1所述的基于特征重映射的对抗样本防御方法,其特征在于,重识别器的构建方法为:
构建检测器训练体系,包括目标模型、参数确定的显著特征生成模型以及重识别模型,其中,目标模型用于目标识别,输入为样本,输出隐藏层特征;显著特征生成模型的输入为隐藏层特征,输出为生成显著特征;重识别模型的输入为生成显著特征,输出为对抗样本的类别;
构建训练重识别模型的损失函数lossre-recog,以最小化损失函数lossre-recog为目标对重识别模型进行训练,以确定重识别模型的模型参数;
其中,损失函数lossre-recog为:
Figure FDA0002391325440000033
其中,log(·)表示对数函数;
Figure FDA0002391325440000034
表示对抗样本对应的原始良性样本的真实类标经过one-hot编码后,在第k个位置上的元素值;
Figure FDA0002391325440000035
表示对抗样本经过目标模型后得到的
Figure FDA0002391325440000036
Figure FDA0002391325440000037
输入参数确定的显著特征生成模型后得到
Figure FDA0002391325440000038
将生成的显著特征输入到重识别模型后输出的置信度矩阵的第k个位置上的元素值;k为原始样本分类索引,m表示原始样本的分类数;i为对抗样本索引,
Figure FDA0002391325440000041
表示训练集中对抗样本的数量。
5.如权利要求1~4任一项所述的基于特征重映射的对抗样本防御方法,其特征在于,训练特征重映射模型、检测器以及重识别器的训练样本的构建方法为:
(a)对于原始的良性样本xi,首先测试其在目标模型中的预测类标与真实类标是否一致,若不一致,则剔除该良性样本不攻击,若一致,则执行步骤(b);
(b)针对目标模型和良性样本xi,使用ma种不同的攻击方法进行攻击得到对应的对抗样本集合
Figure FDA0002391325440000042
(c)攻击结束后,将步骤(b)中得到的对抗样本集合中的对抗样本逐一输入目标模型中进行测试,若预测类标与真实类标不一致,则表示其为攻击成功的对抗样本,保留在集合中;若一致,则表明其攻击失败,从对抗样本集合中剔除;
(d)重复步骤(a)~(c)的操作,得到所有样本的对抗样本集合;
(e)对对抗样本集合
Figure FDA0002391325440000043
中的样本进行重新整理排序。
6.如权利要求1~4任一项所述的基于特征重映射的对抗样本防御方法,其特征在于,显著特征生成模型与非显著特征生成模型的结构相同,为依次连接的输入层、隐藏单元以及输出层,其中,隐藏单元包含若干个隐藏层,每个隐藏层为全连接层、卷积层中的至少一种。
7.如权利要求2~4任一项所述的基于特征重映射的对抗样本防御方法,其特征在于,共享判别模型、检测模型以及重识别模型网络结构相同,均包括依次连接的输入层、隐藏单元、过渡层以及输出层,其中,隐藏单元包含若干个隐藏层,每个隐藏层为全连接层、卷积层中的至少一种。
8.一种自动驾驶中对抗攻击的防御方法,其特征在于,以包含4类户外交通工具和6类自然野生动物图像的数据集作为训练集,采用如权利要求1~7任一项所述的基于特征重映射的对抗样本防御方法来构建检测器和重识别器,在进行对抗样本检测时,将检测器连接到目标模型的输出,利用检测器进行对抗样本检测;在进行对抗样本识别时,将重识别器连接到目标模型的输出,利用重识别器进行对抗样本识别。
CN202010115357.XA 2020-02-25 2020-02-25 一种基于特征重映射的对抗样本防御方法和应用 Active CN111401407B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010115357.XA CN111401407B (zh) 2020-02-25 2020-02-25 一种基于特征重映射的对抗样本防御方法和应用
US17/602,437 US11921819B2 (en) 2020-02-25 2020-07-21 Defense method and an application against adversarial examples based on feature remapping
PCT/CN2020/103264 WO2021169157A1 (zh) 2020-02-25 2020-07-21 一种基于特征重映射的对抗样本防御方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010115357.XA CN111401407B (zh) 2020-02-25 2020-02-25 一种基于特征重映射的对抗样本防御方法和应用

Publications (2)

Publication Number Publication Date
CN111401407A true CN111401407A (zh) 2020-07-10
CN111401407B CN111401407B (zh) 2021-05-14

Family

ID=71432723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010115357.XA Active CN111401407B (zh) 2020-02-25 2020-02-25 一种基于特征重映射的对抗样本防御方法和应用

Country Status (3)

Country Link
US (1) US11921819B2 (zh)
CN (1) CN111401407B (zh)
WO (1) WO2021169157A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017669A (zh) * 2020-11-02 2020-12-01 鹏城实验室 语音对抗样本检测方法、装置、终端设备以及存储介质
CN112241532A (zh) * 2020-09-17 2021-01-19 北京科技大学 一种基于雅可比矩阵生成与检测恶性对抗样本的方法
CN112598032A (zh) * 2020-12-11 2021-04-02 同济大学 面向红外图像对抗攻击的多任务防御模型构建方法
CN113221717A (zh) * 2021-05-06 2021-08-06 支付宝(杭州)信息技术有限公司 一种基于隐私保护的模型构建方法、装置及设备
CN113222056A (zh) * 2021-05-28 2021-08-06 北京理工大学 面向图像分类系统攻击的对抗样本检测方法
WO2021169157A1 (zh) * 2020-02-25 2021-09-02 浙江工业大学 一种基于特征重映射的对抗样本防御方法和应用
CN113869233A (zh) * 2021-09-30 2021-12-31 湖南大学 一种基于上下文特征不一致性的多专家对抗攻击检测方法
CN115223011A (zh) * 2022-07-08 2022-10-21 广东省智能网联汽车创新中心有限公司 一种智能驾驶场景的对抗样本生成方法及系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113938291B (zh) * 2021-09-03 2022-12-02 华中科技大学 一种基于对抗攻击算法的加密流量分析防御方法和系统
CN113688781B (zh) * 2021-09-08 2023-09-15 北京邮电大学 一种遮挡弹性的行人重识别对抗攻击方法
CN114998707B (zh) * 2022-08-05 2022-11-04 深圳中集智能科技有限公司 评估目标检测模型鲁棒性的攻击方法和装置
CN115361221B (zh) * 2022-08-25 2024-03-29 天津大学 一种基于数据投毒的网站指纹识别防御系统及方法
CN115860112B (zh) * 2023-01-17 2023-06-30 武汉大学 基于模型反演方法的对抗样本防御方法和设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296692A (zh) * 2016-08-11 2017-01-04 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN109460814A (zh) * 2018-09-28 2019-03-12 浙江工业大学 一种具有防御对抗样本攻击功能的深度学习分类方法
US20190155284A1 (en) * 2017-11-20 2019-05-23 At&T Intellectual Property I, L.P. Object modeling with adversarial learning
CN110647918A (zh) * 2019-08-26 2020-01-03 浙江工业大学 面向深度学习模型对抗攻击的拟态防御方法
CN110674938A (zh) * 2019-08-21 2020-01-10 浙江工业大学 基于协同多任务训练的对抗攻击防御方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013216362A1 (de) * 2013-08-19 2015-02-19 Siemens Healthcare Diagnostics Products Gmbh Analyseverfahren zur Klassifikationsunterstützung
US9721097B1 (en) * 2016-07-21 2017-08-01 Cylance Inc. Neural attention mechanisms for malware analysis
US10706336B2 (en) * 2017-03-17 2020-07-07 Nec Corporation Recognition in unlabeled videos with domain adversarial learning and knowledge distillation
US11721090B2 (en) * 2017-07-21 2023-08-08 Samsung Electronics Co., Ltd. Adversarial method and system for generating user preferred contents
US11494667B2 (en) * 2018-01-18 2022-11-08 Google Llc Systems and methods for improved adversarial training of machine-learned models
WO2019207770A1 (ja) * 2018-04-27 2019-10-31 日本電気株式会社 学習済みモデル更新装置、学習済みモデル更新方法、プログラム
WO2020034733A1 (zh) * 2018-08-13 2020-02-20 北京市商汤科技开发有限公司 身份认证方法和装置、电子设备和存储介质
CN109543740B (zh) * 2018-11-14 2022-07-15 哈尔滨工程大学 一种基于生成对抗网络的目标检测方法
JP7186120B2 (ja) * 2019-03-27 2022-12-08 オリンパス株式会社 画像ファイル生成装置
US11049239B2 (en) * 2019-03-29 2021-06-29 GE Precision Healthcare LLC Deep neural network based identification of realistic synthetic images generated using a generative adversarial network
US11501532B2 (en) * 2019-04-25 2022-11-15 International Business Machines Corporation Audiovisual source separation and localization using generative adversarial networks
US20210397170A1 (en) * 2019-05-10 2021-12-23 Sandisk Technologies Llc Implementation of deep neural networks for testing and quality control in the production of memory devices
US11947890B2 (en) * 2019-05-10 2024-04-02 Sandisk Technologies Llc Implementation of deep neural networks for testing and quality control in the production of memory devices
US11556567B2 (en) * 2019-05-14 2023-01-17 Adobe Inc. Generating and visualizing bias scores representing bias in digital segments within segment-generation-user interfaces
US11037025B2 (en) * 2019-05-30 2021-06-15 Baidu Usa Llc Systems and methods for adversarially robust object detection
US11693763B2 (en) * 2019-07-30 2023-07-04 General Electric Company Resilient estimation for grid situational awareness
CN111401407B (zh) * 2020-02-25 2021-05-14 浙江工业大学 一种基于特征重映射的对抗样本防御方法和应用

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296692A (zh) * 2016-08-11 2017-01-04 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
US20190155284A1 (en) * 2017-11-20 2019-05-23 At&T Intellectual Property I, L.P. Object modeling with adversarial learning
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN109460814A (zh) * 2018-09-28 2019-03-12 浙江工业大学 一种具有防御对抗样本攻击功能的深度学习分类方法
CN109460814B (zh) * 2018-09-28 2020-11-03 浙江工业大学 一种具有防御对抗样本攻击功能的深度学习分类方法
CN110674938A (zh) * 2019-08-21 2020-01-10 浙江工业大学 基于协同多任务训练的对抗攻击防御方法
CN110647918A (zh) * 2019-08-26 2020-01-03 浙江工业大学 面向深度学习模型对抗攻击的拟态防御方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021169157A1 (zh) * 2020-02-25 2021-09-02 浙江工业大学 一种基于特征重映射的对抗样本防御方法和应用
CN112241532A (zh) * 2020-09-17 2021-01-19 北京科技大学 一种基于雅可比矩阵生成与检测恶性对抗样本的方法
CN112241532B (zh) * 2020-09-17 2024-02-20 北京科技大学 一种基于雅可比矩阵生成与检测恶性对抗样本的方法
CN112017669A (zh) * 2020-11-02 2020-12-01 鹏城实验室 语音对抗样本检测方法、装置、终端设备以及存储介质
CN112017669B (zh) * 2020-11-02 2021-02-23 鹏城实验室 语音对抗样本检测方法、装置、终端设备以及存储介质
CN112598032A (zh) * 2020-12-11 2021-04-02 同济大学 面向红外图像对抗攻击的多任务防御模型构建方法
CN112598032B (zh) * 2020-12-11 2023-04-07 同济大学 面向红外图像对抗攻击的多任务防御模型构建方法
CN113221717A (zh) * 2021-05-06 2021-08-06 支付宝(杭州)信息技术有限公司 一种基于隐私保护的模型构建方法、装置及设备
CN113222056A (zh) * 2021-05-28 2021-08-06 北京理工大学 面向图像分类系统攻击的对抗样本检测方法
CN113869233A (zh) * 2021-09-30 2021-12-31 湖南大学 一种基于上下文特征不一致性的多专家对抗攻击检测方法
CN115223011A (zh) * 2022-07-08 2022-10-21 广东省智能网联汽车创新中心有限公司 一种智能驾驶场景的对抗样本生成方法及系统

Also Published As

Publication number Publication date
CN111401407B (zh) 2021-05-14
US11921819B2 (en) 2024-03-05
US20220172000A1 (en) 2022-06-02
WO2021169157A1 (zh) 2021-09-02

Similar Documents

Publication Publication Date Title
CN111401407B (zh) 一种基于特征重映射的对抗样本防御方法和应用
CN109978893B (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
CN108491837B (zh) 一种提高车牌攻击鲁棒性的对抗攻击方法
CN111553397B (zh) 基于区域全卷积网络和自适应的跨域目标检测方法
EP3690714A1 (en) Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same
EP3690741A2 (en) Method for automatically evaluating labeling reliability of training images for use in deep learning network to analyze images, and reliability-evaluating device using the same
CN108492298B (zh) 基于生成对抗网络的多光谱图像变化检测方法
CN112085069A (zh) 基于集成注意力机制的多目标对抗补丁生成方法及装置
CN110941794A (zh) 一种基于通用逆扰动防御矩阵的对抗攻击防御方法
CN111488879B (zh) 利用双嵌入构成的用于提高分割性能的方法及装置
CN101944174A (zh) 车牌字符的识别方法
CN111754519B (zh) 一种基于类激活映射的对抗防御方法
CN113673530B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN112115761B (zh) 自动驾驶汽车视觉感知系统漏洞检测的对抗样本生成方法
CN110569971A (zh) 一种基于LeakyRelu激活函数的卷积神经网络单目标识别方法
Yao et al. R²IPoints: Pursuing Rotation-Insensitive Point Representation for Aerial Object Detection
CN115481716A (zh) 一种基于深度网络前景激活特征转移的物理世界对抗攻击方法
Wheeler et al. A semantically driven self-supervised algorithm for detecting anomalies in image sets
Li et al. An outstanding adaptive multi-feature fusion YOLOv3 algorithm for the small target detection in remote sensing images
CN116953702A (zh) 基于演绎范式的旋转目标检测方法及装置
CN115830401A (zh) 一种小样本图像分类方法
CN114693973A (zh) 一种基于Transformer模型的黑盒对抗样本生成方法
CN114707572A (zh) 一种基于损失函数敏感度的深度学习样本测试方法与装置
CN113537463A (zh) 基于数据扰动的对抗样本防御方法与装置
WO2018052496A1 (en) Method for object detection in digital image and video using spiking neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant