CN112183671A - 一种针对深度学习模型的目标攻击对抗样本生成方法 - Google Patents
一种针对深度学习模型的目标攻击对抗样本生成方法 Download PDFInfo
- Publication number
- CN112183671A CN112183671A CN202011222789.7A CN202011222789A CN112183671A CN 112183671 A CN112183671 A CN 112183671A CN 202011222789 A CN202011222789 A CN 202011222789A CN 112183671 A CN112183671 A CN 112183671A
- Authority
- CN
- China
- Prior art keywords
- disturbance
- attack
- vector
- deep learning
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种针对深度学习模型的目标攻击对抗样本生成方法,属于深度学习安全领域。为了通过对抗攻击方法探测深度学习模型盲点,聚焦模型特定区域,本发明设计了一种针对深度学习模型的目标攻击对抗样本生成方法,可以在少量样本的数据集上提取出适用于多数样本的包含模型遗漏的语义信息的通用模式,快速地生成能够稳定实现高成功率对抗攻击的对抗样本。本发明使用多面体近似深度学习模型所代表的流形,使用优化技术计算将训练集中某一点发送到流形上目标类对应区域分类边界所需的最小扰动向量,对多点计算后不断聚合更新并投影,迭代执行上述步骤,直到被攻击的目标模型达到预设的攻击成功率。
Description
技术领域
本发明涉及深度学习安全技术领域,具体为一种针对深度学习模型的目标攻击对抗样本生成方法。
背景技术
深度学习模型在很多任务上表现出出色的性能并被广泛地应用于智能机器人、自动驾驶、语音合成、自然语言翻译、图像处理等众多领域。然而实际应用环境往往复杂度高、不确定性强并存在信息不完全及信息对抗和干扰等情况,与此同时现有的深度学习模型过度依赖海量数据或知识,容易受到人眼不能识别的对抗样本的攻击,使模型产生错误输出。生成对抗样本的对抗攻击方法成为发现模型潜在问题的重要工具。在现有的对于对抗样本生成方法的研究中,根据生成样本的适用性的不同,可以将这些工作分为单一样本的生成方法和普遍扰动的生成方法。
(1)单一样本的生成方法
单一样本的生成方法针对一个单一输入生成对抗样本,如果要生成多个对抗样本则需要对多个样本进行逐个计算。这些方法都需要对每个样本逐一地求解优化问题,求得一个对单一样本适用的能够造成攻击的对抗扰动。具体来说,有的研究使用线性近似提高计算效率,有的研究寻求更精确的求解,有的研究使用极端条件约束,例如在只对一个像素进行改动的情况下生成对抗扰动。还有一部分研究使用不同的距离度量来近似人的感知,现有的研究主要集中在计算机视觉领域,使用L0、L2或L∞范数之一。
(2)普遍扰动的生成方法
普遍扰动的生成方法希望计算对大多数样本都适用的普遍扰动来攻击深度神经网络。这种普遍的扰动与具体的某个样本无关,仅仅通过将扰动加到新的样本上就可以生成人眼无法识别的对抗样本。此类研究往往通过迭代计算,或者某些对特征空间的特殊约束,例如对网络的特征图的雅可比矩阵的约束来生成不依赖于数据的普遍扰动。
但是,现有单一样本生成方法的研究需要依赖大量数据,计算时间复杂度高,生成的对抗样本只适用于单一样本,难以捕捉对抗样本的共性。普遍扰动的生成方法往往只能实现无目标的对抗攻击,即,使网络对对抗样本错误分类,但无法指定错误的目标类。个别能够实现目标攻击的方法也必须依赖复杂的生成模型。
更重要的是,对抗样本代表了模型的盲点,意味着深度学习模型没有学习到真正的概念,因此这些与真正的概念相关的信息很有可能体现在对抗样本中,然而目前的所有研究生成的对抗扰动都是杂乱无章的。包含语义信息的对大多数样本普遍适用的目标攻击对抗扰动,将更清晰地揭示模型训练过程中的不足,并更准确地定位到模型的脆弱点和指定区域。
发明内容
针对上述问题,本发明的目的在于提供一种针对深度学习模型的目标攻击对抗样本生成方法,该方法不依赖于特定数据点,普遍适用于多数样本,能够对和训练数据同分布的大多数样本实现目标对抗攻击;该方法能够定位到特定类所对应的区域的分类边界,并提取被深度学习模型遗漏的与真实概念相关的语义信息。技术方案如下:
一种针对深度学习模型的目标攻击对抗样本生成方法,其特征在于,包括以下步骤:
步骤1:从深度学习模型训练集中抽取一个集合X,使用多面体近似深度网络对应的流形,利用优化技术,对集合X中的单点x1计算能够将该点发送到流形上目标类对应区域边界所需的最小扰动向量作为初始扰动向量;
步骤2:采用该最小扰动向量对集合X中的下一个点x2进行扰动,如果攻击不成功,则对点x2进行步骤1中的计算,得到新的扰动向量,并新的扰动向量聚合到初始扰动向量中得到当前扰动向量;如果攻击成功则检查当前扰动向量对下一个点x3的攻击效果;
步骤3:对集合X上的各点重复步骤2中的计算,以实现目标攻击作为约束条件求解优化问题;并在计算过程中,设置裁剪步长k,每k步聚合后将聚合向量投影到半径为η的L∞范数球上,更新扰动向量;
步骤4:迭代执行上述步骤,直到当前扰动向量能够使集合X中所有点的攻击成功率超过预设的阈值,得到最终的对抗扰动向量;将该扰动向量加到干净样本上得到对抗样本。
进一步的,所述步骤1中,通过求解下式的优化问题,得到对单一样本适用的对抗扰动:
其中,d(·)表示一种相似度的度量,使用Lp(p~[1,∞))范数或根据具体的数据类型选择接近人类感知的更适用的度量;t表示目标类。
更进一步的,所述步骤2中,对单点xi的最小扰动的计算指向指定目标类对应的区域边界,求解优化问题:
其中,△ri为最小扰动向量,σ为单点xi的扰动分量,△ri为本次迭代需要计算的最小扰动向量,ri为当前的扰动向量。
更进一步的,所述步骤3中,对当前扰动向量的更新根据裁剪步长k决定是否进行投影操作,计算过程为:
步骤31:判断当前的迭代步数是否整除裁剪步长k,并且不等于0;如整除裁剪步长k,且不等于0,则进行步骤32,否则进行步骤33;
步骤32:设定约束扰动无穷范数上界的η值,将当前的扰动向量投影到球心为0,半径为η的L∞范数球上,并更新扰动向量;投影函数为:
s.t.||r′||∞≤η
其中,r和r′分别为裁剪前后的扰动向量;
步骤33:不进行裁剪,直接将对xi计算的最小扰动聚合到当前的扰动向量,更新当前扰动向量。
更进一步的,所述步骤4中,攻击成功率计算如下:
其中,1(·)是指示函数,脚标中的条件为真时取值为1,否则取值为0;s是X中样本的个数,δ是一个事先设置的取值在[0,1]之间的数,1-δ为攻击成功率的阈值。
本发明的有益效果是:
1)使用目标类约束单个扰动的生成过程和扰动向量的聚合过程,使得生成的扰动始终指向目标类对应的区域边界,不再将深度学习模型视作一个整体,使生成的对抗扰动能够聚焦于特定区域;因此能够针对性地提取出更有意义的信息。
2)设计了基于裁剪步长的扰动向量聚合更新方式,有间隔地对向量进行投影,在约束扰动大小的同时更大限度地保证攻击成功率。
3)采用目标攻击条件在迭代更新过程中持续判断终止条件,最终生成的扰动向量携带明确的语义信息,不仅能够对计算扰动使用的集合X中的点成功实现目标对抗攻击,还能够适用于与集合X同分布的其他点。
4)本发明生成的对抗扰动能够通过简单相加的方式对新的干净样本生成对抗样本,并且只需要在一个很小的集合X计算就能对大多数样本实现很好的攻击效果,计算时效性高。
附图说明
图1是本发明的样本生成流程图。
图2是本发明的对抗扰动计算示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。
下面结合附图和具体实例对本发明做进一步的详细说明。本发明方法在具体实施时的流程如图1所示,主要包括以下步骤:
A.从深度学习模型训练集中抽取一个集合X,用于计算对抗扰动。对集合X中的一个点x1求解优化问题,计算将该点发送到目标类区域边界所需的最小扰动。
具体的,从深度学习模型训练集中抽取一个集合X,使用多面体近似深度网络对应的流形,利用优化技术,对集合X中的单点x1计算能够将该点发送到流形上目标类对应区域边界所需的最小扰动向量作为初始扰动向量。
通过求解下式(2)的优化问题,得到对单一样本适用的对抗扰动。
该问题无法从理论上保证能求得最优解,求解困难。本发明使用一个会缩放最优值但不影响优化结果的替代约束来简化求解过程。(1)式中d(·)表示一种相似度的度量,可以使用Lp(p~[1,∞))范数,也可以根据具体的数据类型选择更接近人类感知的更适用的度量。需要注意的是,最终生成的对抗样本x+r必须在x的有效取值范围内取值,以保证生成的样本是有效的。
图2中令,(本图中k=1,2,3)表示围成分类器输出目标类t对应的区域的超平面。对于每一个真实标签不等于t却被分类器原本的简单的分类边界(图中用直线表示)错误分类为t类的点计算一个到近似分类区域的超多面体的向量,然后逐渐聚合这些向量并更新当前的扰动向量,最终得到一个以t为目标的目标攻击的对抗扰动向量。
B.将A中计算得到的扰动加到集合X中的下一个点x2中,判断当前扰动能否对点x2实现目标对抗攻击,如果不能够成功攻击,则对x2进行步骤A中操作,如能够成功攻击则对下一个点x3重复步骤B。
对新的点xi计算扰动时,求解(2)式中的优化问题,求解方法同式(1)。
其中,σ为单点xi的扰动分量,△ri为本次迭代需要计算的最小扰动向量,ri为当前的扰动向量。
使用目标类约束单个扰动的生成过程和扰动向量的聚合过程,使得生成的扰动始终指向目标类对应的区域边界,不再将深度学习模型视作一个整体,使生成的对抗扰动能够聚焦于特定区域。因此能够针对性地提取出更有意义的信息。
C.将每个计算得到的新扰动聚合到之前的扰动中去,并将聚合后的扰动更新为当前扰动。更新时,每k次计算聚合后进行一次L∞范数球上的投影操作,其他迭代步简单聚合。
更新规则如式(3)所示,其中P∞,η(·)是在球心为0,半径为η的无穷范数球上的投影操作。裁剪步数k和投影半径η是两个关键参数。k越小最终生成的对抗样本与干净样本越相似,攻击成功率越低,计算复杂度越高。η越小意味着对扰动的更强的约束,生成的扰动越小,攻击成功率越低,计算复杂度也同样增加。需要根据实际需求确定k和η的值。
对当前扰动向量的更新根据裁剪步长k决定是否进行投影操作,具体的计算过程如下:
步骤C1:判断当前的迭代步数是否整除裁剪步长k,并且不等于0;如整除裁剪步长k,且不等于0,则进行步骤C2,否则进行步骤C3;
步骤C2:设定约束扰动无穷范数上界的η值,将当前的扰动向量投影到球心为0,半径为η的L∞范数球上,并更新扰动向量;投影函数为:
s.t.||r′||∞≤η
其中,r和r′分别为裁剪前后的扰动向量;
步骤C3:不进行裁剪,直接将对xi计算的最小扰动聚合到当前的扰动向量,更新当前扰动向量。
设计基于裁剪步长的扰动向量聚合更新方式,有间隔地对向量进行投影,在约束扰动大小的同时更大限度地保证攻击成功率。
D.将当前扰动加到X中的所有点上形成对抗样本,并对这些样本计算攻击成功率,如果攻击成功率大于等于预设的阈值则结束计算,如果未达到阈值,则对步骤A~D进行迭代计算。
攻击成功率的计算如式(4)所示,其中1(·)是指示函数,脚标中的条件为真时取值为1,否则取值为0。s是X中样本的个数,δ是一个事先设置的取值在[0,1]之间的数,1-δ为攻击成功率的阈值。需要注意的是,以1-δ为阈值生成的扰动,其实际攻击成功率可能远大于1-δ。
采用目标攻击条件在迭代更新过程中持续判断终止条件,最终生成的扰动向量携带明确的语义信息,不仅能够对计算扰动使用的集合X中的点成功实现目标对抗攻击,还能够适用于与集合X同分布的其他点。生成的对抗扰动能够通过简单相加的方式对新的干净样本生成对抗样本,并且只需要在一个很小的集合X计算就能对大多数样本实现很好的攻击效果,计算时效性高。
Claims (5)
1.一种针对深度学习模型的目标攻击对抗样本生成方法,其特征在于,包括以下步骤:
步骤1:从深度学习模型训练集中抽取一个集合X,使用多面体近似深度网络对应的流形,利用优化技术,对集合X中的单点x1计算能够将该点发送到流形上目标类对应区域边界所需的最小扰动向量作为初始扰动向量;
步骤2:采用该最小扰动向量对集合X中的下一个点x2进行扰动,如果攻击不成功,则对点x2进行步骤1中的计算,得到新的扰动向量,并新的扰动向量聚合到初始扰动向量中得到当前扰动向量;如果攻击成功则检查当前扰动向量对下一个点x3的攻击效果;
步骤3:对集合X上的各点重复步骤2中的计算,以实现目标攻击作为约束条件求解优化问题;并在计算过程中,设置裁剪步长k,每k步聚合后将聚合向量投影到半径为η的L∞范数球上,更新扰动向量;
步骤4:迭代执行上述步骤,直到当前扰动向量能够使集合X中所有点的攻击成功率超过预设的阈值,得到最终的对抗扰动向量;将该扰动向量加到干净样本上得到对抗样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011222789.7A CN112183671A (zh) | 2020-11-05 | 2020-11-05 | 一种针对深度学习模型的目标攻击对抗样本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011222789.7A CN112183671A (zh) | 2020-11-05 | 2020-11-05 | 一种针对深度学习模型的目标攻击对抗样本生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112183671A true CN112183671A (zh) | 2021-01-05 |
Family
ID=73917326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011222789.7A Pending CN112183671A (zh) | 2020-11-05 | 2020-11-05 | 一种针对深度学习模型的目标攻击对抗样本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183671A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643278A (zh) * | 2021-08-30 | 2021-11-12 | 湖南航天远望科技有限公司 | 面向无人机影像目标检测的对抗样本生成方法 |
CN114758187A (zh) * | 2022-01-10 | 2022-07-15 | 西安电子科技大学 | 基于隐写的通用对抗扰动生成方法、介质及计算机设备 |
CN114900329A (zh) * | 2022-04-02 | 2022-08-12 | 中国科学院信息工程研究所 | 一种基于最小普适扰动的流关联攻击防御方法及系统 |
CN117113137A (zh) * | 2023-08-07 | 2023-11-24 | 国网冀北电力有限公司信息通信分公司 | 电力模型匹配方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488916A (zh) * | 2020-03-19 | 2020-08-04 | 天津大学 | 一种基于训练集数据的对抗攻击方法 |
CN111709435A (zh) * | 2020-05-18 | 2020-09-25 | 杭州电子科技大学 | 一种基于离散小波变换的对抗样本生成方法 |
CN111797975A (zh) * | 2020-06-24 | 2020-10-20 | 武汉大学 | 一种基于微生物遗传算法的黑盒对抗样本生成方法 |
-
2020
- 2020-11-05 CN CN202011222789.7A patent/CN112183671A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488916A (zh) * | 2020-03-19 | 2020-08-04 | 天津大学 | 一种基于训练集数据的对抗攻击方法 |
CN111709435A (zh) * | 2020-05-18 | 2020-09-25 | 杭州电子科技大学 | 一种基于离散小波变换的对抗样本生成方法 |
CN111797975A (zh) * | 2020-06-24 | 2020-10-20 | 武汉大学 | 一种基于微生物遗传算法的黑盒对抗样本生成方法 |
Non-Patent Citations (4)
Title |
---|
LINA WANG等: "《Improving adversarial robustness of deep neural networks by using semantic information》", 《ARXIV》 * |
刘西蒙 等: "《深度学习中的对抗攻击与防御》", 《网络与信息安全学报》 * |
段广晗 等: "《深度学习中对抗样本的构造及防御研究》", 《网络与信息安全学报》 * |
王文琦 等: "《面向中文文本倾向性分类的对抗样本生成方法》", 《软件学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643278A (zh) * | 2021-08-30 | 2021-11-12 | 湖南航天远望科技有限公司 | 面向无人机影像目标检测的对抗样本生成方法 |
CN113643278B (zh) * | 2021-08-30 | 2023-07-18 | 湖南航天远望科技有限公司 | 面向无人机影像目标检测的对抗样本生成方法 |
CN114758187A (zh) * | 2022-01-10 | 2022-07-15 | 西安电子科技大学 | 基于隐写的通用对抗扰动生成方法、介质及计算机设备 |
CN114900329A (zh) * | 2022-04-02 | 2022-08-12 | 中国科学院信息工程研究所 | 一种基于最小普适扰动的流关联攻击防御方法及系统 |
CN117113137A (zh) * | 2023-08-07 | 2023-11-24 | 国网冀北电力有限公司信息通信分公司 | 电力模型匹配方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112183671A (zh) | 一种针对深度学习模型的目标攻击对抗样本生成方法 | |
CN108416370B (zh) | 基于半监督深度学习的图像分类方法、装置和存储介质 | |
CN103400105B (zh) | 一种姿态归一化的非正面人脸表情识别方法 | |
CN100416543C (zh) | 用于为统计应用处理训练数据的系统和方法 | |
CN110766044B (zh) | 一种基于高斯过程先验指导的神经网络训练方法 | |
CN110992934A (zh) | 面向语音识别系统黑盒攻击模型的防御方法及防御装置 | |
CN109940614B (zh) | 一种融合记忆机制的机械臂多场景快速运动规划方法 | |
CN106647287A (zh) | 一种基于自适应动态规划的输入受限微分对策制导方法 | |
CN110362814B (zh) | 一种基于改进损失函数的命名实体识别方法及装置 | |
CN110349179B (zh) | 一种基于多适配器的可见光红外视觉跟踪方法及装置 | |
CN110879881B (zh) | 基于特征组分层和半监督随机森林的鼠标轨迹识别方法 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN111242166A (zh) | 一种通用对抗扰动生成方法 | |
WO2023019456A1 (en) | Method and apparatus for evaluation of adversarial robustness | |
CN113742205B (zh) | 一种基于人机协同的代码漏洞智能检测方法 | |
CN114310888B (zh) | 一种协作机器人可变刚度运动技能学习与调控方法及系统 | |
CN111611395B (zh) | 一种实体关系的识别方法及装置 | |
CN108664562B (zh) | 粒子群优化的文本特征选择方法 | |
Liu et al. | Grasp pose learning from human demonstration with task constraints | |
CN112270367A (zh) | 一种基于语义信息的深度学习模型对抗鲁棒性增强方法 | |
CN108121998A (zh) | 一种基于Spark框架的支持向量机训练方法 | |
CN117134958A (zh) | 用于网络技术服务的信息处理方法及系统 | |
CN114511745B (zh) | 三维点云分类及旋转姿态预测方法及系统 | |
Fu et al. | Boosting black-box adversarial attacks with meta learning | |
KR101676541B1 (ko) | 작업 솜씨를 학습하는 방법 및 이를 이용하는 로봇 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210105 |