CN112633309A - 基于贝叶斯优化的查询高效的黑盒对抗攻击 - Google Patents

基于贝叶斯优化的查询高效的黑盒对抗攻击 Download PDF

Info

Publication number
CN112633309A
CN112633309A CN202011007795.0A CN202011007795A CN112633309A CN 112633309 A CN112633309 A CN 112633309A CN 202011007795 A CN202011007795 A CN 202011007795A CN 112633309 A CN112633309 A CN 112633309A
Authority
CN
China
Prior art keywords
input
classifier
disturbance
candidate
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011007795.0A
Other languages
English (en)
Inventor
S·N·舒克拉
A·K·萨胡
D·维尔莫特
J·Z·柯尔特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN112633309A publication Critical patent/CN112633309A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

描述了对神经网络分类器实行对抗攻击。构造输入输出对的数据集,输入输出对的每个输入元素是从搜索空间中随机挑选的,输入输出对的每个输出元素指示针对对应输入元素的神经网络分类器的预测输出。在输入输出对的数据集上利用高斯过程来优化获取函数,以从数据集中找到最佳扰动输入元素。对最佳扰动输入元素进行上采样以生成经上采样的最佳输入元素。经上采样的最佳输入元素被添加到原始输入以生成候选输入。查询神经网络分类器,以确定针对候选输入的分类器预测。计算分类器预测的分数。响应于分类器预测为不正确的,接受候选输入作为成功的对抗攻击。

Description

基于贝叶斯优化的查询高效的黑盒对抗攻击
技术领域
本公开涉及对神经网络分类器实行对抗攻击,并且更具体地,涉及基于贝叶斯优化的查询高效的黑盒对抗攻击。
背景技术
黑盒对抗攻击是一个活跃的研究领域。下面的三个参考文献均描述了制作黑盒对抗示例的方法。在Ilyas,A.,Engstrom,L.,Athalye,A.,&Lin,J.(2018年7月)的“Black-box Adversarial Attacks with Limited Queries and Information”(发表在国际机器 学习大会(International Conference on Machine Learning中,arXiv:1804.08598)中找到了一种使用自然进化策略的方法。本参考文献定义了三个现实的威胁模型,它们可以更准确地表征许多现实世界的分类器:查询限制设置、部分信息设置和仅标签设置。该参考文献开发了新的攻击,这些攻击会欺骗这些限制性更强的威胁模型的情况下的分类器,而在这些模型的情况下先前的方法将是不切实际或无效的。该参考文献展示了,在我们提出的威胁模型下,我们的方法针对ImageNet分类器是有效的。该参考文献还展示了,针对商业分类器的有针对性的黑盒攻击,克服了受限查询访问、部分信息以及其他破坏Google CloudVision API的实际问题的挑战。
在Ilyas,A.,Engstrom,L.,&Madry,A.(2018)的“Prior convictions: Black-box adversarial attacks with bandits and priors”(arXiv预印本arXiv:1807.07978)中找到了一种利用梯度先验来估计梯度以及然后实行梯度下降的方法。该参考文献研究了在黑盒设置中生成对抗示例的问题,在黑盒设置中,只有对模型的损失预言访问是可用的。该参考文献介绍了一个框架,该框架从概念上统一了许多有关黑盒攻击的现有工作,并且展示了从自然意义上讲,当前的最新方法是最优的。尽管有这种最优性,该参考文献示出了如何通过将新元素带到问题中来改进黑盒攻击:梯度先验。该参考文献给出了基于强盗优化的算法,该算法允许无缝集成任何这样的先验,并且明确标识和并入两个示例。
可以在Moon,S.,An,G.,&Song,H.O. (2019)的“Parsimonious Black-BoxAdversarial Attacks via Efficient Combinatorial Optimization”(arXiv预印本 arXiv:1905.06635)中找到使用次模块优化的方法。该参考文献针对优化问题提出了一种有效的离散替代方案,该替代方案不需要估计梯度,并且因此变得没有第一阶更新超参数要调谐。与许多最近提出的方法相比,对Cifar-10和ImageNet的实验示出了其中所需查询方面具有显著降低的黑盒攻击性能。
发明内容
在一个或多个说明性示例中,一种用于对神经网络分类器实行对抗攻击的方法,包括:构造输入输出对的数据集,输入输出对的每个输入元素是从搜索空间中随机挑选的,输入输出对的每个输出元素指示对应输入元素的神经网络分类器的预测输出;在输入输出对的数据集上利用高斯过程来优化获取函数,以从数据集中找到最佳扰动输入元素;对最佳扰动输入元素进行上采样以生成经上采样的最佳输入元素;将经上采样的最佳输入元素添加到原始输入以生成候选输入;查询神经网络分类器,以确定针对候选输入的分类器预测;计算分类器预测的分数;以及响应于分类器预测为不正确的,接受候选输入作为成功的对抗攻击。
该方法可以进一步包括:响应于分类器预测为正确的,拒绝候选输入。该方法可以进一步包括:响应于拒绝候选输入,将候选输入和分类器输出添加到数据集,以及继续循环访问(iterate through)数据集以生成候选输入,直到经过了预定义数量的数据集查询为止。
在该方法中,神经网络分类器可以是图像分类器,原始输入可以是图像输入,扰动可以是图像扰动,以及候选输入可以是图像输入和图像扰动的逐像素总和,其中,图像扰动的每个像素都小于预定义的大小。
在该方法中,扰动输入元素的维度可以小于原始图像的维度。在该方法中,图像扰动的预定义大小可以不大于L 2 规范或
Figure DEST_PATH_IMAGE001
规范中的特定值。
在该方法中,神经网络分类器可以是音频分类器,原始输入可以是音频输入,扰动可以是音频扰动,候选输入可以是音频输入和音频扰动的总和,以及分类器的规范可以测量人类的听觉感知。
在该方法中,可以使用最近邻上采样来实行上采样。在该方法中,针对到分类器的输入,分类器可以输出针对多个可能的类别标签中的每一个的预测。或者,针对到分类器的输入,分类器可以仅输出多个可能的类别标签中的最可能的预测类别。
在一个或多个说明性示例中,一种用于对神经网络分类器实行对抗攻击的计算系统,包括:存储器,其存储软件程序的贝叶斯优化和降维算法的指令;以及处理器,其被编程成执行指令以实行操作,包括:构造输入输出对的数据集,输入输出对的每个输入元素是从搜索空间中随机挑选的,输入输出对的每个输出元素指示针对对应输入元素的神经网络分类器的预测输出;在输入输出对的数据集上利用高斯过程来优化获取函数,以从数据集中找到最佳扰动输入元素;对最佳扰动输入元素进行上采样以生成经上采样的最佳输入元素;将经上采样的最佳输入元素添加到原始输入以生成候选输入;查询神经网络分类器,以确定针对候选输入的分类器预测;计算分类器预测的分数;响应于分类器预测为不正确的,接受候选输入作为成功的对抗攻击;以及响应于分类器预测为正确的,拒绝候选输入,将候选输入和分类器输出添加到数据集;以及继续循环访问数据集以生成候选输入,直到经过了预定义数量的数据集查询为止。
在该系统中,神经网络分类器可以是图像分类器,原始输入可以是图像输入,扰动可以是图像扰动,以及候选输入可以是图像输入和图像扰动的逐像素总和,其中,图像扰动的每个像素可以小于预定义的大小。
在该系统中,扰动输入元素的维度可以小于原始图像的维度。在该系统中,图像扰动的预定义大小可以不大于L 2 规范或
Figure 997875DEST_PATH_IMAGE001
规范中的特定值。
在该系统中,神经网络分类器可以是音频分类器,原始输入可以是音频输入,扰动可以是音频扰动,候选输入可以是音频输入和音频扰动的总和,以及分类器的规范可以测量人类的听觉感知。
在该系统中,可以使用最近邻上采样来实行上采样。在该系统中,针对到分类器的多个输入,分类器可以输出针对多个可能的类别标签中的每一个的预测。或者,针对到分类器的输入,分类器可以仅输出多个可能的类别标签中的最可能的预测类别。
在一个或多个说明性示例中,一种非暂时性计算机可读介质包括:用于对神经网络分类器实行对抗攻击的指令,该指令在由处理器执行时使处理器构造输入输出对的数据集,输入输出对的每个输入元素是从搜索空间中随机挑选的,输入输出对的每个输出元素指示针对对应输入元素的神经网络分类器的预测输出;在输入输出对的数据集上利用高斯过程来优化获取函数,以从数据集中找到最佳扰动输入元素;对最佳扰动输入元素进行上采样以生成经上采样的最佳输入元素;将经上采样的最佳输入元素添加到原始输入以生成候选输入;查询神经网络分类器,以确定针对候选输入的分类器预测;计算分类器预测的分数;响应于分类器预测为不正确的,接受候选输入作为成功的对抗攻击;以及响应于分类器预测为正确的,拒绝候选输入,将候选输入和分类器输出添加到数据集;以及继续循环访问数据集以生成候选输入,直到经过了预定义数量的数据集查询为止。
对于介质,神经网络分类器可以是图像分类器,原始输入可以是图像输入,扰动可以是图像扰动,并且候选输入可以是图像输入和图像扰动的逐像素总和,其中,图像扰动的每个像素可以小于预定义的大小。
对于介质,神经网络分类器可以是音频分类器,原始输入可以是音频输入,扰动可以是音频扰动,候选输入可以是音频输入和音频扰动的总和,以及分类器的规范可以测量人类的听觉感知。
附图说明
图1是最近邻上采样的示例;
图2是用于实行基于贝叶斯优化的查询高效的黑盒对抗攻击的示例数据流程图;以及
图3是可以被用来实现基于贝叶斯优化的查询高效的黑盒对抗攻击的计算平台的示意图。
具体实施方式
在本文中描述了本公开的实施例。然而,要理解到,所公开的实施例仅仅是示例,并且其他实施例可以采取各种形式和替换形式。这些图不一定按比例绘制;一些功能可能会被放大或最小化以示出特定组件的详细信息。因此,本文中公开的特定结构和功能细节不要被解释为限制性的,而仅仅作为教导本领域技术人员以各种方式采用实施例的有代表性的基础。如本领域普通技术人员将理解的,参照任何一个附图图示和描述的各种特征可以与一个或多个其他图中图示的特征进行组合,以产生未明确图示或描述的实施例。所图示的特征的组合为典型的应用提供了有代表性的实施例。然而,对于特定的应用或实现方式,可能需要与本公开的教导相一致的特征的各种组合和修改。
本公开涉及一种用于对深度神经网络分类器进行对抗攻击的方法。即,本公开涉及一种方法,该方法获取现有图像并且发现对图像的微小扰动,该扰动对于人类来说是难以检测或不可能检测到的(即,所以地面真相标签保持不变),但是会使神经网络对图像进行错误分类。通常通过要求扰动的大小不大于特定值来使“小”的概念形式化,该特定值∈某个规范:L 2 规范或
Figure 852699DEST_PATH_IMAGE002
规范是常见的。
对抗攻击落入两个种类之一:白盒攻击,其中假设敌方完全了解神经网络架构和参数;以及黑盒攻击,其中不可获得对此类信息的访问。本公开更具体地涉及被认为困难得多的黑盒种类。
在黑盒攻击设置中,关于模型的信息可以只通过查询(即,通过为模型给出输入并且获得其预测)来获得,或者作为相对于一类别的单个预测,或者作为相对于多类别的概率分布。随着经由查询获得有关模型的更多信息,攻击准确性通常会提高;然而,在现实世界的攻击场景中,假设可以像想要查询的那么多地对模型进行查询是不现实的。照此,在评估黑盒攻击期间,经常假设将存在每次攻击的最大数量的允许查询,叫做查询预算。任务是要针对给定的查询预算来使攻击准确性最大化。然而,应该注意到,限制成给定数量的查询是实验中用来比较受限查询设置中的攻击成功率的一种惯例,但是固定限制可能实际上不是严格必须的:可以在一定数量的查询之后停止,或者(除非有某种外部限制),只要进行挑选,就可以自由地持续查询。
相对于上述方法,本公开中的方法被设计成实现高得多的攻击准确性,特别是当查询预算非常小(低于1000、或甚至低于100)时。因此,所公开的方法可以被用来检查可部署深度学习模型的弱点。作为另一个应用,所公开的方法可以被用来生成用于对深度神经网络进行对抗训练的数据,以提高模型的鲁棒性。因此,本文中公开的计算机系统、计算机可读介质和方法方面提供了相对于用于识别模型缺点以及解决那些缺点的已知方法的非抽象的技术改进。
为了这样做,使用了两种主要技术:贝叶斯优化和降维。贝叶斯优化是一种无梯度优化方法,被用于意图将对目标函数的查询数量保持较低的情况。在贝叶斯优化中,有目标函数
Figure 632436DEST_PATH_IMAGE003
和求解
Figure DEST_PATH_IMAGE004
的愿望。这是使用高斯过程完成的,该高斯过程定义了相对于从搜索空间X
Figure DEST_PATH_IMAGE006
的函数的概率分布,以及获取函数A,其测量了向数据集添加输入输出对(x,y)的潜在益处。
贝叶斯优化开始于数据集
Figure 713131DEST_PATH_IMAGE007
和高斯过程GP,其将D取作先验。然后,实行迭代如下:
对于
Figure DEST_PATH_IMAGE008
1)
Figure 465187DEST_PATH_IMAGE009
找到获取函数的最大化器x t
2)
Figure DEST_PATH_IMAGE010
x t 处查询f
3)
Figure 287649DEST_PATH_IMAGE011
将输入输出对添加到数据集
4)
Figure DEST_PATH_IMAGE012
挑选当前最佳的最小化器x *
5)利用新的数据点来更新高斯过程GP
该过程一直持续,直到达到查询预算f、时间用完或函数最小化器x * 变得足够为止。
贝叶斯优化的速度和准确性高度依赖于f的维度n;通常在n相当小的时候(经常小于10)时使用。然而,即使对于小型神经网络,输入的维度也经常达到数万或数十万。因此,为了贝叶斯优化是有用的,合期望的是具有一种减小输入维度的方法。
可以通过铺瓦扰动来实行该维度减小。例如,设试图找到一个6×6图像的扰动。如果每个维度都被独立对待,则这是一个36维优化问题;然而,如果代替地找到了3x3图像(9维问题),则可以实行最近邻上采样来产生6×6扰动。图1图示了最近邻上采样的示例100。这样的上采样操作可以被称为函数U
图2图示了用于实行基于贝叶斯优化的查询高效的黑盒对抗攻击的示例数据流程图。参照图2,设N是用于K类分类问题的图像分类器,并且(xy)是图像标签对。设攻击x被尝试。神经网络的输出N(x)K维向量,并且预测类别是N(x)的最大值的索引,由
Figure 741633DEST_PATH_IMAGE013
给出。可以假设x按N被正确分类,即,假设
Figure DEST_PATH_IMAGE014
目的是要找到将使Nx错误分类的扰动,其中该扰动的每个像素小于,并且其中查询预算为q。更具体地,期望找到较小图像的扰动
Figure 940533DEST_PATH_IMAGE015
,其将被上采样并且被添加到x以创建候选图像,其中N然后将对候选图像错误分类。从数学上讲,这意味着意图是要找到一个
Figure DEST_PATH_IMAGE016
,使得
Figure 547095DEST_PATH_IMAGE017
并且
Figure DEST_PATH_IMAGE018
,其中U是上采样函数(例如,上面关于图1示出了其示例)。
为此,实行贝叶斯优化,其中搜索空间
Figure 228874DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
,并且目标函数如下:
Figure 983204DEST_PATH_IMAGE021
为了直观地了解为什么使用这样的函数,注意到这是真实标签y的值与其他最大值之间的差,或者如果此值为负,则这是0。如果对于某个
Figure DEST_PATH_IMAGE022
Figure 657899DEST_PATH_IMAGE023
,则
Figure DEST_PATH_IMAGE024
是对N的一次成功的对抗攻击,因为当且仅当真实类别标签y上的网络
Figure 181284DEST_PATH_IMAGE025
的输出小于输出的某个其他元素时,这才能够发生。
首先,形成数据集
Figure DEST_PATH_IMAGE026
,其中每个
Figure 798079DEST_PATH_IMAGE027
是从搜索空间X内随机挑选的,并且
Figure DEST_PATH_IMAGE028
。由此,根据D形成了高斯过程GP。然后,它被迭代如下:
对于
Figure 39704DEST_PATH_IMAGE029
1)
Figure DEST_PATH_IMAGE030
找到获取函数的最大化器d t
2)
Figure 314828DEST_PATH_IMAGE031
查询f
3)如果
Figure 895982DEST_PATH_IMAGE032
,则打破;自
Figure DEST_PATH_IMAGE033
是成功的对抗攻击以后完成
4)否则,更新数据集和高斯过程:
a.
Figure 231148DEST_PATH_IMAGE034
将输入输出对添加到数据集
b. 利用
Figure DEST_PATH_IMAGE035
来更新高斯过程
如果在迭代t的步骤3期间实行了打破,则在对模型的t个查询的情况下,该攻击是成功的;否则,该攻击是不成功的。
可以以下面的方式改变以上算法。在一个变体中,形成了先验的数据集D的初始选择可以使用任何分布(高斯分布、均匀分布等)或甚至确定性地(例如,利用Sobol序列)完成。
作为另一个变体,尽管以上描述假设x是图像,并且该图像以
Figure 645556DEST_PATH_IMAGE036
规范形成边界,如果有适当的规范来测量扰动大小和适当的降维方案,则该方法可以在其他域中同样有效。例如,所描述的方法可以被转换成针对音频的分类器,其具有测量人类的听觉感知的规范。
作为另外的变体,这里的维度减小是通过使用维度小于贝叶斯优化循环中的原始图像的扰动,并且然后进行上采样以获得实际考虑的扰动来完成的。可以在一些变体中使用插值技术来实行上采样,其一些示例包括线性插值、双线性插值、三线性插值、双三次插值等等。降低维度的其他技术也是可能的,例如,通过训练自动编码器来产生扰动的低维表示。
作为又另外的变体,值得注意的是,该算法假设分类器N为每个可能的类别标签输出预测。与硬标签情况(例如,基于决策的)形成对照,这被称为软标签情况(例如,基于分数的),在硬标签情况下,网络仅输出所预测的类别(即,仅是软标签输出的最大类别的索引)。该方法可以被适配成用于硬标签情况,这通过在N预测了类别y的情况下使用目标函数
Figure DEST_PATH_IMAGE037
,以及在其他情况下使用目标函数
Figure 724370DEST_PATH_IMAGE038
0来进行。
如图3所示,一个或多个实施例的贝叶斯优化和降维算法和/或方法是使用计算平台实现的。计算平台300可以包括存储器302、处理器304和非易失性存储器306。处理器304可以包括一个或多个选自高性能计算(HPC)系统的设备,这些系统包括高性能核心、微处理器、微控制器、数字信号处理器、微型计算机、中央处理单元、现场可编程门阵列、可编程逻辑设备、状态机、逻辑电路、模拟电路、数字电路或任何其他基于驻留在存储器302中的计算机可执行指令来操纵信号(模拟或数字信号)的设备。存储器302可以包括单个存储器设备或多个存储器设备,包括但不限于随机存取存储器(RAM)、易失性存储器、非易失性存储器、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、闪速存储器、高速缓冲存储器或任何其他能够存储信息的设备。非易失性存储装置306可以包括一个或多个持久性数据存储设备,诸如硬盘驱动器、光盘驱动器、磁带驱动器、非易失性固态设备、云存储或任何其他能够持久存储信息的设备。
处理器304可以被配置成读入存储器302并且执行驻留在非易失性存储装置306的软件模块308中的计算机可执行指令,并且这些计算机可执行指令体现了一个或多个实施例的贝叶斯优化和降维算法和/或方法。软件模块308可以包括操作系统和应用程序。可以从使用各种编程语言和/或技术创建的计算机程序中编译或解译软件模块308,该编程语言和/或技术包括但不限于(并且单独地或以组合的形式):Java、C、C++、C#、Objective C、Fortran、Pascal、Java Script、Python、Perl和PL/SQL。
在由处理器304执行时,软件模块308的计算机可执行指令可以使计算平台300实现本文中所公开的贝叶斯优化和降维算法和/或方法中的一种或多种。非易失性存储装置306还可以包括支持本文中所描述的一个或多个实施例的功能、特征和过程的数据310。
体现本文中所描述的算法和/或方法的程序代码能够以各种不同的形式、作为程序产品单独地或共同地分发。可以使用其上具有用于使处理器执行一个或多个实施例的各方面的计算机可读程序指令的计算机可读存储介质来分发程序代码。计算机可读存储介质(其是固有地非暂时性的)可以包括用于存储信息的、在任何方法或技术中实现的易失性和非易失性、以及可移除和不可移除的有形介质,该信息诸如是计算机可读指令、数据结构、程序模块或其他数据。计算机可读存储介质可以进一步包括:RAM、ROM、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪速存储器或其他固态存储器技术、便携式紧凑盘只读存储器(CD-ROM),或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储设备,或任何其他可以被用来存储期望的信息并可以由计算机读取的介质。可以将计算机可读程序指令从计算机可读存储介质下载到计算机、另一类型的可编程数据处理装置或另一个设备,或者可以经由网络下载到外部计算机或外部存储设备。
存储在计算机可读介质中的计算机可读程序指令可以被用来指导计算机、其他类型的可编程数据处理装置、或其他设备以特定的方式起作用,使得存储在计算机可读介质中的指令产生包括指令的制造品,该指令实现流程图或示图中所指定的功能、动作和/或操作。在某些替换的实施例中,流程图或示图中所指定的功能、动作和/或操作可以被重新排序、串行地处理、和/或与一个或多个实施例一致地同时处理。此外,任何流程图和/或示图可以包括比与一个或多个实施例相一致地图示的节点或框更多或更少的节点或框。
尽管上面描述了示例性实施例,但是并不意图这些实施例描述了权利要求所涵盖的所有可能的形式。说明书中使用的词语是描述的词语而非限制的词语,并且理解的是,在不脱离本公开的精神和范围的情况下可以进行各种改变。如前所述,各种实施例的特征可以被组合以形成本发明的另外的实施例,这些实施例可能没有被明确地描述或图示。尽管可能已经将各种实施例描述为相对于一个或多个期望的特性提供优点或相对于其他实施例或现有技术实现方式是优选的,但是本领域普通技术人员意识到可以妥协一个或多个特征或特性来实现期望的总体系统属性,这取决于特定的应用和实现方式。这些属性可以包括但不限于成本、强度、耐用性、生命周期成本、可销售性、外观、包装、大小、可维修性、重量、可制造性、易于组装等。照此,就任何实施例被描述为相对于一个或多个特性而言,与其他实施例或现有技术实现方式相比不那么合期望的程度,这些实施例并不在本公开的范围之外,并且对于特定的应用而言可能是合期望的。

Claims (21)

1.一种对神经网络分类器实行对抗攻击的方法,包括:
构造输入输出对的数据集,输入输出对的每个输入元素是从搜索空间中随机挑选的,输入输出对的每个输出元素指示针对对应输入元素的神经网络分类器的预测输出;
在输入输出对的数据集上利用高斯过程来优化获取函数,以从数据集中找到最佳扰动输入元素;
对最佳扰动输入元素进行上采样以生成经上采样的最佳输入元素;
将经上采样的最佳输入元素添加到原始输入以生成候选输入;
查询神经网络分类器,以确定针对候选输入的分类器预测;
计算分类器预测的分数;以及
响应于分类器预测为不正确的,接受候选输入作为成功的对抗攻击。
2.根据权利要求1所述的方法,进一步包括:响应于分类器预测为正确的,拒绝候选输入。
3.根据权利要求2所述的方法,进一步包括:响应于拒绝候选输入:
将候选输入和分类器输出添加到数据集;以及
继续循环访问数据集以生成候选输入,直到经过了预定义数量的数据集查询为止。
4.根据权利要求1所述的方法,其中,神经网络分类器是图像分类器,原始输入是图像输入,扰动是图像扰动,并且候选输入是图像输入和图像扰动的逐像素总和,其中,图像扰动的每个像素小于预定义的大小。
5.根据权利要求4所述的方法,其中,扰动输入元素的维度小于原始图像的维度。
6.根据权利要求4所述的方法,其中,图像扰动的预定义的大小不大于L 2 规范或
Figure 994518DEST_PATH_IMAGE001
规范中的特定值。
7.根据权利要求1所述的方法,其中,神经网络分类器是音频分类器,原始输入是音频输入,扰动是音频扰动,候选输入是音频输入和音频扰动的总和,以及分类器的规范测量人类的听觉感知。
8.根据权利要求1所述的方法,其中,使用最近邻上采样来实行所述上采样。
9.根据权利要求1所述的方法,其中,针对到分类器的输入,分类器输出针对多个可能的类别标签中的每一个的预测。
10.根据权利要求1所述的方法,其中,针对到分类器的输入,分类器仅输出多个可能的类别标签中的最可能的预测类别。
11.一种用于对神经网络分类器实行对抗攻击的计算系统,所述系统包括:
存储器,其存储软件程序的贝叶斯优化和降维算法的指令;以及
处理器,其被编程成执行指令以实行操作,包括
构造输入输出对的数据集,输入输出对的每个输入元素是从搜索空间中随机挑选的,输入输出对的每个输出元素指示针对对应输入元素的神经网络分类器的预测输出;
在输入输出对的数据集上利用高斯过程来优化获取函数,以从数据集中找到最佳扰动输入元素;
对最佳扰动输入元素进行上采样以生成经上采样的最佳输入元素;
将经上采样的最佳输入元素添加到原始输入以生成候选输入;
查询神经网络分类器,以确定针对候选输入的分类器预测;
计算分类器预测的分数;
响应于分类器预测为不正确的,接受候选输入作为成功的对抗攻击;以及
响应于分类器预测为正确的,拒绝候选输入,将候选输入和分类器输出添加到数据集;以及继续循环访问数据集以生成候选输入,直到经过了预定义数量的数据集查询为止。
12.根据权利要求11所述的计算系统,其中,神经网络分类器是图像分类器,原始输入是图像输入,扰动是图像扰动,并且候选输入是图像输入和图像扰动的逐像素总和,其中,图像扰动的每个像素小于预定义的大小。
13.根据权利要求12所述的计算系统,其中,扰动输入元素的维度小于原始图像的维度。
14.根据权利要求12所述的计算系统,其中,图像扰动的预定义的大小不大于L 2 规范或
Figure 911659DEST_PATH_IMAGE001
规范中的特定值。
15.根据权利要求11所述的计算系统,其中,神经网络分类器是音频分类器,原始输入是音频输入,扰动是音频扰动,候选输入是音频输入和音频扰动的总和,以及分类器的规范测量人类的听觉感知。
16.根据权利要求11所述的计算系统,其中,使用最近邻上采样来实行所述上采样。
17.根据权利要求11所述的计算系统,其中,针对到分类器的输入,分类器输出针对多个可能的类别标签中的每一个的预测。
18.根据权利要求11所述的计算系统,其中,针对到分类器的输入,分类器仅输出多个可能的类别标签中的最可能的预测类别。
19.一种非暂时性计算机可读介质,其包括用于对神经网络分类器实行对抗攻击的指令,所述指令在由处理器执行时使处理器来:
构造输入输出对的数据集,输入输出对的每个输入元素是从搜索空间中随机挑选的,输入输出对的每个输出元素指示针对对应输入元素的神经网络分类器的预测输出;
在输入输出对的数据集上利用高斯过程来优化获取函数,以从数据集中找到最佳扰动输入元素;
对最佳扰动输入元素进行上采样以生成经上采样的最佳输入元素;
将经上采样的最佳输入元素添加到原始输入以生成候选输入;
查询神经网络分类器,以确定针对候选输入的分类器预测;
计算分类器预测的分数;
响应于分类器预测为不正确的,接受候选输入作为成功的对抗攻击;以及
响应于分类器预测为正确的,拒绝候选输入,将候选输入和分类器输出添加到数据集;以及继续循环访问数据集以生成候选输入,直到经过了预定义数量的数据集查询为止。
20.根据权利要求19所述的介质,其中,神经网络分类器是图像分类器,原始输入是图像输入,扰动是图像扰动,并且候选输入是图像输入和图像扰动的逐像素总和,其中,图像扰动的每个像素小于预定义的大小。
21.根据权利要求19所述的介质,其中,神经网络分类器是音频分类器,原始输入是音频输入,扰动是音频扰动,候选输入是音频输入和音频扰动的总和,以及分类器的规范测量人类的听觉感知。
CN202011007795.0A 2019-09-24 2020-09-23 基于贝叶斯优化的查询高效的黑盒对抗攻击 Pending CN112633309A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/580,587 US11494639B2 (en) 2019-09-24 2019-09-24 Bayesian-optimization-based query-efficient black-box adversarial attacks
US16/580587 2019-09-24

Publications (1)

Publication Number Publication Date
CN112633309A true CN112633309A (zh) 2021-04-09

Family

ID=74846722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011007795.0A Pending CN112633309A (zh) 2019-09-24 2020-09-23 基于贝叶斯优化的查询高效的黑盒对抗攻击

Country Status (3)

Country Link
US (1) US11494639B2 (zh)
CN (1) CN112633309A (zh)
DE (1) DE102020211851A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113804200A (zh) * 2021-04-12 2021-12-17 之江实验室 基于动态强化指令攻击模块的视觉语言导航系统及方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL270116A (en) * 2019-10-23 2021-04-29 De Identification Ltd A system and method for identifying and protecting against cyber attacks against classification systems
US11977632B2 (en) * 2020-04-23 2024-05-07 Booz Allen Hamilton Inc. Evaluating automatic malware classifiers in the absence of reference labels
US20220114259A1 (en) * 2020-10-13 2022-04-14 International Business Machines Corporation Adversarial interpolation backdoor detection
CN113052314B (zh) * 2021-05-27 2021-09-14 华中科技大学 一种认证半径引导攻击方法、优化训练方法及系统
CN113486736B (zh) * 2021-06-21 2024-04-02 南京航空航天大学 一种基于活跃子空间与低秩进化策略的黑盒对抗攻击方法
CN113271321B (zh) * 2021-07-20 2021-09-17 成都信息工程大学 一种基于网络异常攻击的传播预测处理方法及系统
CN113673581B (zh) * 2021-07-29 2023-08-01 厦门路桥信息股份有限公司 硬标签黑盒深度模型对抗样本的生成方法、存储介质
CN116204890B (zh) * 2023-04-28 2023-07-21 浙江鹏信信息科技股份有限公司 一种自适应增强人工智能算法安全的算法组件库

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11315012B2 (en) * 2018-01-12 2022-04-26 Intel Corporation Neural network training using generated random unit vector
US11275841B2 (en) * 2018-09-12 2022-03-15 Adversa Ai Ltd Combination of protection measures for artificial intelligence applications against artificial intelligence attacks
US20200250304A1 (en) * 2019-02-01 2020-08-06 Nec Laboratories America, Inc. Detecting adversarial examples
US20220180447A1 (en) * 2019-05-16 2022-06-09 Retrace Labs Artificial Intelligence Platform for Dental Claims Adjudication Prediction Based on Radiographic Clinical Findings
US11455515B2 (en) * 2019-09-24 2022-09-27 Robert Bosch Gmbh Efficient black box adversarial attacks exploiting input data structure

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113804200A (zh) * 2021-04-12 2021-12-17 之江实验室 基于动态强化指令攻击模块的视觉语言导航系统及方法
CN113804200B (zh) * 2021-04-12 2023-12-29 之江实验室 基于动态强化指令攻击模块的视觉语言导航系统及方法

Also Published As

Publication number Publication date
US20210089879A1 (en) 2021-03-25
DE102020211851A1 (de) 2021-03-25
US11494639B2 (en) 2022-11-08

Similar Documents

Publication Publication Date Title
CN112633309A (zh) 基于贝叶斯优化的查询高效的黑盒对抗攻击
US11455515B2 (en) Efficient black box adversarial attacks exploiting input data structure
US11657267B2 (en) Neural network apparatus, vehicle control system, decomposition device, and program
TWI740891B (zh) 利用訓練資料訓練模型的方法和訓練系統
US20190318256A1 (en) Method, apparatus and system for estimating causality among observed variables
US9761221B2 (en) Order statistic techniques for neural networks
CN111079780B (zh) 空间图卷积网络的训练方法、电子设备及存储介质
JP2015197702A (ja) 情報処理装置、情報処理方法
US11681922B2 (en) Performing inference and training using sparse neural network
US20180039824A1 (en) Clustering large database of images using multilevel clustering approach for optimized face recognition process
US10395146B2 (en) Face recognition in big data ecosystem using multiple recognition models
US20150186793A1 (en) System and method for distance learning with efficient retrieval
US9053434B2 (en) Determining an obverse weight
CN114091597A (zh) 基于自适应组样本扰动约束的对抗训练方法、装置及设备
CN110020957A (zh) 维修对象的定损方法及装置、电子设备
Wang et al. Feature selection using feature ranking, correlation analysis and chaotic binary particle swarm optimization
EP3012780A1 (en) A method and apparatus for encoding image features using a differentiable bag-of-words encoder
CN112966754A (zh) 样本筛选方法、样本筛选装置及终端设备
Kim et al. Tweaking deep neural networks
CN111783088A (zh) 一种恶意代码家族聚类方法、装置和计算机设备
US20200285914A1 (en) Multi-level deep feature and multi-matcher fusion for improved image recognition
CN111788582A (zh) 电子设备及其控制方法
US11699077B2 (en) Multi-layer neural network system and method
Haghighi et al. Extended decision template presentation for combining classifiers
US11295229B1 (en) Scalable generation of multidimensional features for machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination