CN108549940B - 基于多种对抗样例攻击的智能防御算法推荐方法及系统 - Google Patents

基于多种对抗样例攻击的智能防御算法推荐方法及系统 Download PDF

Info

Publication number
CN108549940B
CN108549940B CN201810180928.0A CN201810180928A CN108549940B CN 108549940 B CN108549940 B CN 108549940B CN 201810180928 A CN201810180928 A CN 201810180928A CN 108549940 B CN108549940 B CN 108549940B
Authority
CN
China
Prior art keywords
attack
algorithm
sample
defense
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810180928.0A
Other languages
English (en)
Other versions
CN108549940A (zh
Inventor
纪守领
李进锋
陈建海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810180928.0A priority Critical patent/CN108549940B/zh
Publication of CN108549940A publication Critical patent/CN108549940A/zh
Application granted granted Critical
Publication of CN108549940B publication Critical patent/CN108549940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多种对抗样例攻击的智能防御算法推荐方法,包括以下步骤:对原始数据集进行清洗,得到训练集;利用训练集训练目标识别模型,得到目标攻击模型;选取不同的对抗样例攻击算法,攻击目标攻击模型;量化评估每种对抗样例攻击算法的攻击成功率,根据攻击成功率选择目标攻击算法;针对每种目标攻击算法,逐一应用对抗攻击防御算法进行防御;根据防御结果向用户推荐相应的对抗攻击防御算法。本发明还公开了智能防御算法推荐方法所采用的智能防御算法推荐系统。针对具体的目标模型,本发明的智能防御算法推荐系统可以智能的推荐有效的防御算法,从而减小对抗样例攻击给目标模型造成的损失。

Description

基于多种对抗样例攻击的智能防御算法推荐方法及系统
技术领域
本发明涉及机器学习模型安全与隐私问题中存在的对抗样例攻击和防御的安全技术领域,尤其涉及一种基于多种对抗样例攻击的智能防御算法推荐方法及系统。
背景技术
机器学习是人工智能的核心,近年来机器学习得到了前所未有的发展,其应用遍及人工智能的各个领域。尤其是在数据挖掘、计算机视觉、自然语言处理、语音和手写体识别、无人驾驶等领域,机器学习的应用取得了巨大的成功。现如今,无论是在学术界还是在工业界,机器学习都受到了广泛的关注和深入的研究。机器学习的发展已经进入了一个全新的阶段,各种机器学习算法和模型层出不穷,在很多场景下,当呈现自然发生的输入时,其表现甚至胜过了人类。
当然,机器学习还并没有达到人类的真正水平,因为即使面对一个微不足道的攻击,大多数机器学习算法都会失败。然而,大多数的研究者并没有考虑这个问题。通常在设计机器学习系统时,为了保证设计的系统是安全的、可信赖的并且结果能达到预期效果,我们通常会考虑特定的威胁模型,这些模型是对那些企图使我们的机器学习系统出错的攻击者的攻击能力和攻击目标的假设。
迄今为止,现有大多数的机器学习模型都是针对一个非常弱的威胁模型设计实现的,没有过多的考虑攻击者。尽管在面对自然的输入时,这些模型能有非常完美的表现,但在现实环境下,这些机器学习模型会遇到大量的恶意用户甚至是攻击者。例如,当模型被训练(学习阶段)或者模型进行预测时(推理阶段)时,攻击者也有不同程度的能力对模型的输入、输出做出恶意的修改或者是通过某种手段访问模型的内部构件,窃取模型的参数,从而破坏模型的保密性、完整性和可用性,这就是机器学习模型中的安全和隐私问题。
机器学习模型最容易受到完整性攻击,这种攻击既可以发生在模型的学习阶段,也可以发生在模型的推理预测阶段,如果攻击者破坏了模型的完整性,那么模型的预测结果就会偏离预期。在破坏机器学习模型完整性的攻击中,最常见的就是对抗样例攻击。在模型的学习阶段,干扰机器学习模型的训练过程,体现的攻击策略是当用户于生产时让机器学习模型出现更多的错误,在这一阶段,最常见的攻击就是利用对抗样例进行数据下毒攻击,攻击者可以通过修改现有的训练集或者增加额外的恶意数据,影响模型的训练过程,破坏模型的完整性从而达到降低模型在预测推理阶段准确性的目的。在模型的推理预测阶段,模型的完整性同样容易受到对抗样例攻击。在模型训练完成并用于预测时,攻击者只需要在待预测的样本中添加很小的扰动,这种扰动人眼无法识别但足以让模型分类出错。
已有的研究提出了多种针对不同应用场景的对抗样例生成方法,针对不同攻击目标的对抗样例攻击也被广泛的应用到实际中。相对于对抗样例攻击,对抗样例攻击防御相关研究就要困难很多。目前大多数的防御算法都是一种静态的、只针对特定的对抗样例攻击的防御方法,没有一种统一的防御算法推荐和评估系统。
发明内容
针对机器学习模型中存在的安全与隐私问题以及对破坏机器学习模型完整性的对抗样例攻击的防御技术的不足,本发明提供了一种基于多种对抗样例攻击的智能防御算法推荐方法。
本发明提供了如下技术方案:
一种基于多种对抗样例攻击的智能防御算法推荐方法,包括以下步骤:
(1)对原始数据集进行清洗,剔除其中的对抗样本,得到训练集;
(2)利用训练集训练目标识别模型,得到目标攻击模型;
(3)选取不同的对抗样例攻击算法,根据训练集生成相应的对抗样例;采用所述的对抗样例攻击目标攻击模型,分别统计并记录攻击结果;
(4)量化评估每种对抗样例攻击算法的攻击成功率,根据攻击成功率选择目标攻击算法;
(5)针对每种目标攻击算法,逐一应用对抗攻击防御算法进行防御,分别统计并记录每一对抗防御算法的防御效果分数;
(6)根据防御结果向用户推荐相应的对抗攻击防御算法。
本发明基于多种对抗样例攻击的智能防御算法推荐方法,在特定应用场景下,对针对特定任务(如人脸识别、物体识别、手写体识别等)而训练得到的机器学习模型可能遭受的对抗样例攻击提供一个整体的评估,并根据评估结果智能地向用户推荐防御算法,从而为用户的机器学习模型的安全保驾护航。
一般场景下,用户在不同领域中收集的原始数据本身就可能存在噪音,在训练目标识别模型前,需要对噪音数据进行过滤,才能保证训练阶段训练所得模型的准确性。此外,在模型的学习阶段容易受到攻击者下毒攻击,攻击者利用对抗样例对训练数据进行下毒,从而干扰模型的训练过程进而影响模型在推理预测阶段的表现。所以,在训练目标识别模型之前需要对原始数据进行清洗,过滤原始数据集中已存在的对抗样例,为后续训练阶段训练得到高准确率的模型提供保障。
优选的,步骤(1)中,对原始数据集中对抗样本的识别方法为:
(1-1)利用ground-truth数据集训练生成对抗网络GR,学习ground-truth数据的概率分布;
(1-2)利用对抗样例数据集训练生成对抗网络GA,学习对抗样例数据的概率分布;
(1-3)将原始数据集中的原始数据样本Xt输入到生成对抗网络GR中,得到概率分布PR(Xt),并将概率转换成对应的似然
Figure BDA0001588600560000031
将同一原始数据样本Xt输入到生成对抗网络GA中,得到概率分布PA(Xt),并将概率转换成对应的似然
Figure BDA0001588600560000032
计算负对数似然比
Figure BDA0001588600560000033
如果
Figure BDA0001588600560000034
则原始数据样本Xt为干净样本,否则原始数据样本Xt为对抗样本。
步骤(1-1)中,ground-truth数据集中不包含对抗样例。
步骤(1-2)中,对抗样例数据集中的对抗样例可采用现有对抗样例生成方法生成。
步骤(3)中,根据训练集生成的对抗样例数量与训练集中样本的数量相同。
优选的,步骤(3)包括:
(3-1)选取对抗样例攻击算法
Figure BDA0001588600560000041
利用训练集中的训练样本X生成对抗样例X′,
Figure BDA0001588600560000042
(3-2)分别利用对抗样例X′攻击目标攻击模型,得到对抗样例X′的分类结果
Figure BDA0001588600560000043
如果
Figure BDA0001588600560000044
与训练集的分类结果
Figure BDA0001588600560000045
不同,则对抗样例X′对目标攻击模型攻击成功;
(3-3)记录对目标攻击模型攻击成功的对抗样例X′的数量。
步骤(3)中所述的对抗样例攻击算法为梯度下降法、牛顿法、BFGS算法、L-BFGS算法,快速梯度符号法(FastGradientSignMethod,FGSM法)、改进的速梯度符号法、雅可比显著图攻击方法(Jacobian Saliency Map Attack)、DeepFool或万能扰动法(UniversalPerturbations)。
步骤(4)中,量化评估每种对抗样例攻击算法的攻击成功率的方法为:采用对抗样例攻击算法
Figure BDA0001588600560000046
攻击目标攻击模型时,对抗数据集中对抗样例的数量为N,满足
Figure BDA0001588600560000047
的对抗样例的数量为n,则对抗样例攻击算法
Figure BDA0001588600560000048
的攻击成功率为
Figure BDA0001588600560000049
步骤(4)中,用户根据对抗样例攻击算法的攻击成功率选择需要防御的目标攻击算法。
步骤(5)中,所述的防御效果分数的计算方法为:计算应用对抗攻击防御算法
Figure BDA00015886005600000410
进行防御后对抗样例攻击算法
Figure BDA00015886005600000411
的攻击成功率tA′,则防御效果分数
Figure BDA00015886005600000412
根据防御效果分数的高低,向用户推荐适用于目标攻击算法的最佳对抗攻击防御算法即可。
步骤(5)中,所述的对抗攻击防御算法为防御蒸馏法(Defensive Distillation)、对抗训练法(Adversarial Training)、PCA美白法(PCA Whitening)、特征压缩法(Featuresqueezing)或生成对抗网络法(GenerativeAdversarialNetworks)。
本发明还公开了上述智能防御算法推荐方法所采用的智能防御算法推荐系统,包括;
原始数据清洗模块,对原始数据集进行清洗,剔除其中的对抗样本,得到训练集;
对抗攻击模块,包括对抗样例攻击算法库,逐一选取对抗样例攻击算法库中的对抗样例攻击算法攻击目标攻击模型,统计并记录攻击结果;
所述的目标攻击模型为通过训练集训练后的目标识别模型;
攻击评估和防御算法推荐模块,包括对抗攻击防御算法库,量化评估每种对抗样例攻击算法的攻击成功率,根据攻击成功率选择目标攻击算法;针对每种目标攻击算法,逐一应用对抗攻击防御算法库中的对抗攻击防御算法进行防御,统计并记录防御效果分数;根据防御结果向用户推荐相应的对抗攻击防御算法。
优选的,对抗样例攻击算法库包含梯度下降法、牛顿法、BFGS算法、L-BFGS算法,快速梯度符号法(FastGradientSignMethod,FGSM法)、改进的速梯度符号法、雅可比显著图攻击方法(Jacobian Saliency Map Attack)、DeepFool和万能扰动法(UniversalPerturbations)中的至少一种。
优选的,对抗攻击防御算法库包含防御蒸馏法(Defensive Distillation)、对抗训练法(Adversarial Training)、PCA美白法(PCAWhitening)、特征压缩法(Featuresqueezing)和生成对抗网络法(GenerativeAdversarialNetworks)中的至少一种。
与现有技术相比,本发明的有益效果为:
(1)本发明智能防御算法推荐系统的原始数据清洗模块可用于训练数据的清洗处理;
(2)针对具体的应用领域,本发明的智能防御算法推荐方法可以有效地评估目标模型的鲁棒性,提前发现目标模型易受到的对抗样例攻击;
(3)针对目标模型易受到的对抗样例攻击,本发明的智能防御算法推荐系统可以智能的推荐有效的防御算法,从而减小对抗样例攻击给目标模型造成的损失。
附图说明
图1为生成对抗网络的工作流程示意图;
图2为智能防御算法推荐系统的架构示意图;
图3为数据清洗模块的工作流程示意图;
图4为对抗攻击模块的工作流程示意图;
图5为攻击评估和防御算法推荐模块的工作流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,本发明的智能防御算法推荐系统包括三大模块:原始数据清洗模块、对抗攻击模块和攻击评估和防御算法推荐模块,每个模块的功能如下:
1、原始数据清洗模块
本模块的主要工作是对用户数据进行清洗工作。一般场景下,用户在不同领域中收集的数据本身就可能存在噪音,在训练目标识别模型前,需要对噪音数据进行过滤,才能保证训练阶段训练所得模型的准确性。此外,在模型的学习阶段容易受到攻击者下毒攻击,攻击者利用对抗样例对训练数据进行下毒从而干扰模型的训练过程进而影响模型在推理预测阶段的表现。所以,在训练目标网络之前需要利用本模块中的创新技术手段对训练数据进行清洗,过滤数据集中已存在的对抗样例,为后续训练阶段训练得到高准确率的模型提供保障。原始数据模块的工作流程如图2所示,具体的数据清洗方法流程如下:
(1)利用ground-truth数据集(不包含对抗样例)训练一个生成对抗网络GR,学习原始数据的概率分布。
(2)利用由对抗样例构成的数据集训练一个对抗样例的生成对抗网络GA,学习对抗样例数据的概率分布。
生成对抗网络(GAN)由Goodfellow在2014年提出,包括一个生成器和判别器,生成器用于生成样本,判别器用于鉴别生成器生成样本的真伪。本发明的生成对抗网络工作流程如图3所示。
(3)将原始数据集中的测试样本Xt输入到生成对抗网络GR中,得到概率分布PR(Xt),并将概率转换成对应的似然
Figure BDA0001588600560000061
将测试样本Xt输入到生成对抗网络GA中,得到概率分布PA(Xt),并将概率转换成对应的似然
Figure BDA0001588600560000062
计算负对数似然比
Figure BDA0001588600560000063
如果
Figure BDA0001588600560000064
说明测试样本Xt的概率分布与GR学到的概率分布更接近,则该样本是干净样本,否则是对抗样本。
(4)剔除原始数据集中的对抗样本。
2、对抗攻击模块
本模块中提供了一种基于多种对抗样例攻击场景的对抗攻击方法,融合现有的关于对抗样例的研究以及对抗样例攻击在实际场景下的具体应用,实现了多种简单有效、攻击效果良好的对抗样例生成方法,结合不同的数据和不同目标识别模型(如人脸识别模型、手写体识别模型等)生成对抗样例,并对目标识别模型进行对抗性攻击。在此模块中,我们实现多种对抗样例生成算法,包括传统的梯度下降、牛顿法、BFGS、L-BFGS,Goodfellow提出的快速梯度符号法(FastGradientSignMethod)以及改进版的速梯度符号法,Papernot提出的雅可比显著图攻击(Jacobian Saliency Map Attack)方法,DeepFool、万能扰动(UniversalPerturbations)等。利用已实现的对抗样例生成方法生成对抗样例,对目标模型进行对抗样例攻击。如图4所示,对抗攻击方法的具体步骤如下:
(1)利用原始数据清洗模块清洗过的干净数据,针对用户的需求训练特定的识别模型M,作为对抗攻击目标攻击模型。
(2)从对抗攻击模块中的对抗样例攻击算法库中选取对抗样例攻击算法
Figure BDA0001588600560000071
利用清洗过的原始数据样本X生成对抗样例X′,
Figure BDA0001588600560000072
(3)分别利用每种不同的攻击算法
Figure BDA0001588600560000073
生成的对抗样例X′攻击目标攻击模型,得到对抗样例X′的分类结果
Figure BDA0001588600560000074
如果对抗样例X′的分类结果
Figure BDA0001588600560000075
不同于原始数据样本X的分类结果
Figure BDA0001588600560000076
Figure BDA0001588600560000077
则说明对抗样例X′攻击成功。
(4)针对每种不同的攻击算法
Figure BDA0001588600560000078
统计并记录结果。
3、攻击评估和防御算法推荐模块
本模块中融合了现有的所有在对抗样例攻击防御方向上的研究工作,实现了面向多种针对特定场景和特定攻击的防御算法,形成一个防御算法库。防御算法库中实现的防御算法如防御蒸馏(Defensive Distillation)、对抗训练(Adversarial Training)、PCA美白(PCA Whitening)、特征压缩(Feature squeezing)、生成对抗网络(GenerativeAdversarialNetworks)等。针对对抗攻击模块中的所有攻击算法,本模块中会对所有攻击进行一个统一的评估,并针对每一种攻击应用设计实现的防御算法,最终根据具体的防御表现从防御算法库中智能地给用户推荐防御算法。防御算法推荐模块工作流程如图5所示,具体流程如下:
(1)首先对对抗攻击模块中的攻击算法的攻击结果进行量化评估。对于规模为N的原始数据集,当采用对抗样例攻击算法
Figure BDA0001588600560000081
进行对抗样例攻击
Figure BDA0001588600560000082
后,有n条对抗样本X′满足
Figure BDA0001588600560000083
则攻击算法
Figure BDA0001588600560000084
的攻击成功率为
Figure BDA0001588600560000085
(2)针对攻击效果较好的对抗攻击算法,逐一应用对抗攻击防御算法。
(3)在每应用一个防御算法
Figure BDA0001588600560000086
重新计算攻击算法
Figure BDA0001588600560000087
的攻击成功率tA′,计算防御算法
Figure BDA0001588600560000088
的防御效果分数
Figure BDA0001588600560000089
结合攻击算法
Figure BDA00015886005600000810
的攻击效果tA和防御算法
Figure BDA00015886005600000811
的防御效果sD向用户推荐最佳的防御算法,从而最大限度的降低攻击成功率。
用户在使用本智能防御算法推荐系统时,只需要导入训练数据并根据自己的应用场景选用机器学习模型。以手写体识别为例,系统整个工作流程分为四个阶段:
(1)数据上传与模型设置阶段:用户导入手写体训练数据,设置用于训练的机器学习模型,如选择使用卷积神经网络完成目标识别模型的构建。
(2)数据清洗阶段:系统中的原始数据清洗模块对用户的训练数据进行清洗,剔除训练集中的对抗样本,并将此模块的输出作为对抗攻击模块的输入。
(3)对抗攻击阶段:在对抗攻击模块中,系统根据用户选定的模型(此例中为卷积神经网络)及其他相关设定,利用原始数据清洗模块清洗后的数据训练一个手写体识别模型M。同时,系统利用对抗攻击模块攻击算法库中的攻击算法对手写体识别模型M进行攻击并记录攻击结果。
(4)防御算法推荐阶段:在系统的攻击评估和防御算法推荐模块中,系统会对上一阶段的攻击效果进行评估,剔除掉无效攻击,同时针对有效的攻击,利用防御算法库中的防御算法逐一进行防御测试,最终对防御效果进行评估并根据评估的结果向用户推荐有效的防御算法。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种应用于图像识别的基于多种对抗样例攻击的智能防御算法推荐系统,其特征在于,包括:
原始数据清洗模块,对原始数据集进行清洗,剔除其中的对抗样本,得到训练集;对原始数据集中对抗样本的识别方法为:
(1-1)利用ground-truth数据集训练生成对抗网络GR,学习ground-truth数据的概率分布;
(1-2)利用对抗样例数据集训练生成对抗网络GA,学习对抗样例数据的概率分布;
(1-3)将原始数据集中的原始数据样本Xt输入到生成对抗网络GR中,得到概率分布PR(Xt),并将概率转换成对应的似然
Figure FDA0003080422550000011
将同一原始数据样本Xt输入到生成对抗网络GA中,得到概率分布PA(Xt),并将概率转换成对应的似然
Figure FDA0003080422550000012
计算负对数似然比
Figure FDA0003080422550000013
如果
Figure FDA0003080422550000014
则原始数据样本Xt为干净样本,否则原始数据样本Xt为对抗样本;
对抗攻击模块,包括对抗样例攻击算法库,逐一选取对抗样例攻击算法库中的对抗样例攻击算法攻击目标攻击模型,统计并记录攻击结果;
所述的目标攻击模型为通过训练集训练后的目标识别模型;
攻击评估和防御算法推荐模块,包括对抗攻击防御算法库,量化评估每种对抗样例攻击算法的攻击成功率,根据攻击成功率选择目标攻击算法;针对每种目标攻击算法,逐一应用对抗攻击防御算法库中的对抗攻击防御算法进行防御,统计并记录防御效果分数;根据防御结果向用户推荐相应的对抗攻击防御算法;
所述的图像识别为人脸识别、物体识别或手写体识别。
2.根据权利要求1所述的应用于图像识别的基于多种对抗样例攻击的智能防御算法推荐系统,其特征在于,对抗攻击模块的工作流程包括:
(3-1)选取对抗样例攻击算法
Figure FDA0003080422550000015
利用训练集中的训练样本X生成对抗样例X′,
Figure FDA0003080422550000016
(3-2)分别利用对抗样例X′攻击目标攻击模型,得到对抗样例X′的分类结果
Figure FDA0003080422550000021
如果
Figure FDA0003080422550000022
与训练集的分类结果
Figure FDA0003080422550000023
不同,则对抗样例X′对目标攻击模型攻击成功;
(3-3)记录对目标攻击模型攻击成功的对抗样例X′的数量。
3.根据权利要求1所述的应用于图像识别的基于多种对抗样例攻击的智能防御算法推荐系统,其特征在于,所述的对抗样例攻击算法为梯度下降法、牛顿法、BFGS算法、L-BFGS算法,快速梯度符号法、改进的速梯度符号法、雅可比显著图攻击方法、DeepFool或万能扰动法。
4.根据权利要求2所述的应用于图像识别的基于多种对抗样例攻击的智能防御算法推荐系统,其特征在于量化评估每种对抗样例攻击算法的攻击成功率的方法为:采用对抗样例攻击算法
Figure FDA0003080422550000024
攻击目标攻击模型时,对抗数据集中对抗样例的数量为N,满足
Figure FDA0003080422550000025
的对抗样例的数量为n,则对抗样例攻击算法
Figure FDA0003080422550000026
的攻击成功率为
Figure FDA0003080422550000027
5.根据权利要求4所述的应用于图像识别的基于多种对抗样例攻击的智能防御算法推荐系统,其特征在于,所述的防御效果分数的计算方法为:计算应用对抗攻击防御算法
Figure FDA0003080422550000028
进行防御后对抗样例攻击算法
Figure FDA0003080422550000029
的攻击成功率tA′,则防御效果分数
Figure FDA00030804225500000210
6.根据权利要求1所述的应用于图像识别的基于多种对抗样例攻击的智能防御算法推荐系统,其特征在于,所述的对抗攻击防御算法为防御蒸馏法、对抗训练法、PCA美白法、特征压缩法或生成对抗网络法。
CN201810180928.0A 2018-03-05 2018-03-05 基于多种对抗样例攻击的智能防御算法推荐方法及系统 Active CN108549940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810180928.0A CN108549940B (zh) 2018-03-05 2018-03-05 基于多种对抗样例攻击的智能防御算法推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810180928.0A CN108549940B (zh) 2018-03-05 2018-03-05 基于多种对抗样例攻击的智能防御算法推荐方法及系统

Publications (2)

Publication Number Publication Date
CN108549940A CN108549940A (zh) 2018-09-18
CN108549940B true CN108549940B (zh) 2021-10-29

Family

ID=63516543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810180928.0A Active CN108549940B (zh) 2018-03-05 2018-03-05 基于多种对抗样例攻击的智能防御算法推荐方法及系统

Country Status (1)

Country Link
CN (1) CN108549940B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109599109B (zh) * 2018-12-26 2022-03-25 浙江大学 针对白盒场景的对抗音频生成方法及系统
CN110097079B (zh) * 2019-03-29 2021-03-30 浙江工业大学 一种基于分类边界的用户隐私保护方法
CN110012019A (zh) * 2019-04-11 2019-07-12 鸿秦(北京)科技有限公司 一种基于对抗模型的网络入侵检测方法及装置
CN110163093B (zh) * 2019-04-15 2021-03-05 浙江工业大学 一种基于遗传算法的路牌识别对抗防御方法
CN110633655A (zh) * 2019-08-29 2019-12-31 河南中原大数据研究院有限公司 一种attention-attack人脸识别攻击算法
CN110990795A (zh) * 2019-11-22 2020-04-10 支付宝(杭州)信息技术有限公司 基于对抗样本的隐私信息保护方法、装置及电子设备
CN110910328B (zh) * 2019-11-26 2023-01-24 电子科技大学 一种基于对抗性样本分类等级的防御方法
CN110933504B (zh) * 2019-12-13 2022-07-08 北京达佳互联信息技术有限公司 视频推荐方法、装置、服务器和存储介质
CN111147518B (zh) * 2019-12-30 2021-08-13 论客科技(广州)有限公司 一种基于攻防对抗的电子邮件系统安全评价方法及装置
CN111310802B (zh) * 2020-01-20 2021-09-17 星汉智能科技股份有限公司 一种基于生成对抗网络的对抗攻击防御训练方法
CN111600835B (zh) * 2020-03-18 2022-06-24 宁波送变电建设有限公司永耀科技分公司 一种基于fgsm对抗攻击算法的检测与防御方法
CN111666985B (zh) * 2020-05-21 2022-10-21 武汉大学 一种基于dropout的深度学习对抗样本图像分类防御方法
CN111783083B (zh) * 2020-06-19 2023-08-22 浙大城市学院 一种防御算法的推荐方法及装置
CN111949993B (zh) * 2020-08-18 2021-07-09 北京瑞莱智慧科技有限公司 模型安全性评估方法、介质、装置和计算设备
CN112488321B (zh) * 2020-12-07 2022-07-01 重庆邮电大学 面向广义非负矩阵分解算法的对抗性机器学习防御方法
CN113179256B (zh) * 2021-04-12 2022-02-08 中国电子科技集团公司第三十研究所 一种时间同步系统时间信息安全融合方法及系统
CN113156440B (zh) * 2021-04-27 2024-03-26 浙江工业大学 一种基于雷达和图像数据融合检测的防御方法及系统
JP6971514B1 (ja) * 2021-07-13 2021-11-24 望 窪田 情報処理装置、情報処理方法及びプログラム
CN114143035B (zh) * 2021-11-04 2024-01-19 广州大学 知识图谱推荐系统的对抗攻击方法、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184364A (zh) * 2011-05-26 2011-09-14 南京财经大学 基于半监督学习的推荐系统托攻击检测方法
KR101587571B1 (ko) * 2014-12-10 2016-02-02 (주)아이티언 학습기법을 응용한 분산서비스거부 공격 방어시스템 및 방법
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184364A (zh) * 2011-05-26 2011-09-14 南京财经大学 基于半监督学习的推荐系统托攻击检测方法
KR101587571B1 (ko) * 2014-12-10 2016-02-02 (주)아이티언 학습기법을 응용한 분산서비스거부 공격 방어시스템 및 방법
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于非零和攻防博弈模型的主动防御策略选取方法;陈永强 等;《计算机应用》;20130501;第33卷(第5期);1347-1349 *

Also Published As

Publication number Publication date
CN108549940A (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN108549940B (zh) 基于多种对抗样例攻击的智能防御算法推荐方法及系统
Miller et al. Adversarial learning targeting deep neural network classification: A comprehensive review of defenses against attacks
Juuti et al. PRADA: protecting against DNN model stealing attacks
Yamin et al. Weaponized AI for cyber attacks
Papernot et al. Sok: Security and privacy in machine learning
US10944767B2 (en) Identifying artificial artifacts in input data to detect adversarial attacks
CN113627543A (zh) 一种对抗攻击检测方法
Li et al. Chronic poisoning against machine learning based IDSs using edge pattern detection
Heinrich et al. Fool me Once, shame on You, Fool me Twice, shame on me: a Taxonomy of Attack and de-Fense Patterns for AI Security.
US20210224688A1 (en) Method of training a module and method of preventing capture of an ai module
CN113255526A (zh) 基于动量的对人群计数模型的对抗样本生成方法及系统
Şeker Use of Artificial Intelligence Techniques/Applications in Cyber Defense
CN115719085B (zh) 一种深度神经网络模型反演攻击防御方法及设备
Vardhan et al. ExAD: An ensemble approach for explanation-based adversarial detection
Garcia-soto et al. Perd: Perturbation sensitivity-based neural trojan detection framework on nlp applications
Senzaki et al. Simple black-box adversarial examples generation with very few queries
Nami et al. Adversarial attacks and defense on deep learning models for big data and IoT
US20230376752A1 (en) A Method of Training a Submodule and Preventing Capture of an AI Module
CN115758337A (zh) 基于时序图卷积网络的后门实时监测方法、电子设备、介质
Ma et al. DIHBA: Dynamic, invisible and high attack success rate boundary backdoor attack with low poison ratio
Li et al. Bebp: an poisoning method against machine learning based idss
Wang et al. ADDITION: Detecting Adversarial Examples With Image-Dependent Noise Reduction
Zhu et al. Gradient shaping: Enhancing backdoor attack against reverse engineering
Vardhan An ensemble approach for explanation-based adversarial detection
Mori et al. Detection of cloned recognizers: a defending method against recognizer cloning attack

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant