CN114239685B - 评估神经网络图像分类模型鲁棒性的方法及装置 - Google Patents

评估神经网络图像分类模型鲁棒性的方法及装置 Download PDF

Info

Publication number
CN114239685B
CN114239685B CN202111371948.4A CN202111371948A CN114239685B CN 114239685 B CN114239685 B CN 114239685B CN 202111371948 A CN202111371948 A CN 202111371948A CN 114239685 B CN114239685 B CN 114239685B
Authority
CN
China
Prior art keywords
sample
image
neural network
image sample
sensitive area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111371948.4A
Other languages
English (en)
Other versions
CN114239685A (zh
Inventor
何召阳
靳宇馨
刘乃海
李乾坤
刘兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moyun Technology Co ltd
Original Assignee
Beijing Moyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moyun Technology Co ltd filed Critical Beijing Moyun Technology Co ltd
Priority to CN202111371948.4A priority Critical patent/CN114239685B/zh
Publication of CN114239685A publication Critical patent/CN114239685A/zh
Application granted granted Critical
Publication of CN114239685B publication Critical patent/CN114239685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了评估神经网络图像分类模型鲁棒性的方法及装置,该方法包括:S1:获取样本集,样本集内包括图像样本;S2:将样本集中任意的第一图像样本输入神经网络图像分类模型中,获取第一图像样本的特征图;S3:输入第一图像样本,通过热力图生成算法,基于神经网络图像分类模型和特征图,获取第一图像样本的热力图;S4:基于热力图,计算第一图像样本的敏感区域,并突出第一图像样本的敏感区域;S5:采用扰动算法对敏感区域进行扰动,得到第一对抗样本;S6:将第一对抗样本作为新的第一图像样本重复S3至S5得到最终第一对抗样本;S7:将最终第一对抗样本和初始第一图像样本组成样本对,用于评估神经网络图像分类模型的鲁棒性。

Description

评估神经网络图像分类模型鲁棒性的方法及装置
技术领域
本发明实施例涉及神经网络领域,具体涉及一种评估神经网络图像分类模型鲁棒性的方法及装置。
背景技术
随着深层神经网络(DNNs)模型的大规模应用,其安全性与稳定性也受到了广泛的关注。2013年,Szegedy等人研究发现深层神经网络模型容易受到对抗样本的攻击,这种攻击是基于在原始图像上添加微小的扰动,而这种扰动在人眼范围内不会产生较大影响,却可以干扰深层神经网络模型做出误判。于是,针对神经网络模型的安全性、鲁棒性评估也变得至关重要。
发明内容
为此,本发明实施例提供一种评估神经网络图像分类模型鲁棒性的方法及装置,以解决现有技术中用于检测鲁棒性的对抗样本针对性差、扰动较大且通用性差的问题。
为了实现上述目的,本发明的实施方式提供如下技术方案:
在本发明的实施方式的一个方面中,提供了一种评估神经网络图像分类模型鲁棒性的方法,所述方法包括:
步骤1:获取样本集,所述样本集内包括图像样本;
步骤2:将所述样本集中任意的第一图像样本输入所述神经网络图像分类模型中,获取所述第一图像样本的特征图;
步骤3:输入所述第一图像样本,通过热力图生成算法,基于所述神经网络图像分类模型和所述特征图,获取所述第一图像样本的热力图;
步骤4:基于所述热力图,计算所述第一图像样本的敏感区域,并突出所述第一图像样本的敏感区域;
步骤5:采用扰动算法对所述敏感区域进行扰动,得到第一对抗样本;
步骤6:将所述第一对抗样本作为新的第一图像样本重复步骤3至步骤5得到最终第一对抗样本;
步骤7:将所述最终第一对抗样本和初始所述第一图像样本组成样本对,用于评估神经网络图像分类模型的鲁棒性。
进一步地,将所述样本集中任意的第一图像样本输入所述神经网络图像分类模型中,获得softmax层之前最后一个连接层输出的特征图。
进一步地,所述热力图算法为LRP热力图生成算法,将所述第一图像样本与所述第一图像样本的原始分类标签作为LRP解释器的输入,以所述特征图为起点,利用所述神经网络图像分类模型的结构,反向传播其相关性R,生成预测类别的所述热力图。
进一步地,步骤4中计算所述第一图像样本的敏感区域具体为:
将生成的所述热力图的所有像素点求均值μ,将所述热力图中像素点的值大于所述均值μ的位置认为是所述第一图像样本的敏感区域z,其余位置认为是非敏感区域。
进一步地,步骤4中突出所述第一图像样本的敏感区域具体为:
设定二值化掩码m,将所述热力图中的敏感区域z的掩码值设置为1,其余区域的掩码值设置为0。
进一步地,步骤5具体为:
采用扰动算法,根据公式
Figure BDA0003362629850000021
更新所述第一图像样本中敏感区域z的像素值;
根据公式x′=x⊙(1-m)+z⊙m得到对抗样本图像x′;
其中,z表示敏感区域,x′表示第一对抗样本,x表示第一图像样本,y表示第一图像样本的原始分类标签,m表示二值化掩码,⊙表示哈达玛积,∈表示更新时的学习率,sign表示符号函数,值域为{+1,-1},J(x,y)表示神经网络模型的损失函数,
Figure BDA0003362629850000031
表示梯度算子。
进一步地,步骤6具体为:
重复步骤3至步骤5,直到达到迭代次数n,将此时的第一对抗样本作为最终的第一对抗样本;其中,n为正整数。
在本发明的实施方式的另一个方面中,提供了一种评估神经网络图像分类模型鲁棒性的装置,所述装置包括:
获取单元,用于获取样本集,所述样本集内包括图像样本;
第一生成单元,用于将所述样本集中任意的第一图像样本输入所述神经网络图像分类模型中,获取所述第一图像样本的特征图;
第二生成单元,用于输入所述第一图像样本,通过热力图生成算法,基于所述神经网络图像分类模型和所述特征图,获取所述第一图像样本的热力图;
计算单元,用于基于所述热力图,计算所述第一图像样本的敏感区域,并突出所述第一图像样本的敏感区域;
扰动单元,用于采用扰动算法对所述敏感区域进行扰动,得到第一对抗样本;
评估单元,用于将所述第一对抗样本作为新的第一图像样本依次重复所述第二生成单元、所述计算单元、所述扰动单元的操作得到最终第一对抗样本,将所述最终第一对抗样本和初始所述第一图像样本组成样本对,用于评估神经网络图像分类模型的鲁棒性。
在本发明的实施方式的另一个方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述方法。
在本发明的实施方式的另一个方面中,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述方法。
本发明的实施方式具有如下优点:
本发明实施例公开了一种评估神经网络图像分类模型鲁棒性的方法及装置,该方法采用LRP(Layer-wise Relevance Propagation)算法生成可显示出模型输入与预测类别的相关性的热力图,通过相关性热力图可确定图片的敏感区域,进而直接针对图像的敏感区域添加扰动。与传统对抗样本生成方法相比,本方案生成方式针对性更强,可减小扰动空间的范围,降低对人类视觉范围内的干扰。并且该方法生成的对抗样本具有一定的可迁移性,可评估实验中的神经网络图像分类模型鲁棒性的同时,也可迁移性的评估其他神经网络图像分类模型的鲁棒性。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明的实施例提供的一种评估神经网络图像分类模型鲁棒性的方法的流程示意图;
图2为本发明的实施例提供的一种评估神经网络图像分类模型鲁棒性的装置的结构示意图。
图中:102-获取单元、104-第一生成单元、106-第二生成单元、108-计算单元、110-扰动单元、112-评估单元。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
实施例
卷积神经网络(Convolutional Neural Network,CNN)作为深层神经网络模型中的典型代表,其在神经网络视觉模型中有着极为广泛的应用。同时模型的可解释性和可视化算法揭示了模型的输入与模型输出结果的相关性,因此模型的可解释性和可视化也具有重要的研究价值。
通过对抗样本攻击神经网络模型的方式主要有两种,即通过在整幅图像上添加扰动或在图片的特定区域添加扰动构造对抗补丁来生成对抗样本。传统的在整幅图像上添加扰动的方法,间接性的修改了图像中敏感区域的像素点,却无法直接对图片中的敏感区域添加扰动。同时全局添加扰动也可能会带来整体扰动空间变大,总体扰动值变大的问题。而采用对抗补丁的攻击方式将可能会造成较大的扰动,引起人来视觉上的注意,影响攻击效果。
虽然深层神经网络(DNNs)具有不同的结构和权重,但他们可能具有相似的语义特征。如果专注于注意力热力图,不同的DNNs将具有相似的结果。那么如果我们可以利用热力图生成算法确定图片的敏感区域直接进行攻击,那么这种攻击可能具有较大的通用性,生成的对抗样本可能也具有较大的可迁移性。
因此,我们希望可以提出一种攻击方法,可以通过利用深层神经网络模型的可解释性和可视化算法确定图像中的敏感区域,并直接针对图像中的敏感区域进行扰动,以便控制扰动空间,不对过多的像素点进行扰动,在人类视觉范围内不造成较大的影响,却可以愚弄深层神经网络模型,并可以迁移性的评估其他深层神经网络模型的鲁棒性。
基于此,如图1所示,本发明的实施例提供了一种评估神经网络图像分类模型鲁棒性的方法,该方法包括以下步骤:
步骤1:获取样本集,样本集内包括图像样本;
步骤2:将样本集中任意的第一图像样本输入神经网络图像分类模型中,获取第一图像样本的特征图;
步骤3:输入第一图像样本,通过热力图生成算法,基于神经网络图像分类模型和特征图,获取第一图像样本的热力图;
步骤4:基于热力图,计算第一图像样本的敏感区域,并突出第一图像样本的敏感区域;
步骤5:采用扰动算法对敏感区域进行扰动,得到第一对抗样本;
步骤6:将第一对抗样本作为新的第一图像样本重复步骤3至步骤5得到最终第一对抗样本;
步骤7:将最终第一对抗样本和初始第一图像样本组成样本对,用于评估神经网络图像分类模型的鲁棒性。在本实施例中,通过样本对,检测该神经网络分类模型的鲁棒性,由于本实施例样本对的通用性,生成的样本对也应用于检测其他神经网络模型的鲁棒性。
具体的,步骤2中,将样本集中任意的第一图像样本输入神经网络图像分类模型中,获得softmax层之前最后一个连接层输出的特征图。
进一步的,热力图算法为LRP热力图生成算法,将第一图像样本与第一图像样本的原始分类标签作为LRP解释器的输入,以特征图为起点,利用神经网络图像分类模型的结构,反向传播其相关性R,生成预测类别的热力图。LRP(Layer-wise RelevancePropagation)是一种基于深度泰勒分解的解释方法。该方法通过神经网络图像分类模型,使用网络权重和由前向传递创建的神经激活将输出传播回网络,直到输入层,并确定节点对分类的贡献。每个像素或中间神经元的贡献大小称为“相关性”,即通过计算从输出到输入的相邻层之间的相关性来获得热力图,并且解释器给出了与输入图像具有相同维数的像素级热图,从而可视化了输入图像中对所选类别有贡献的重要区域。
具体的,其中LRP算法在网络中反向传播相关性的规则为:
Figure BDA0003362629850000071
其中j和k是任意连续层的两个神经元,a表示各个神经元的激活,w是两个神经元之间的权重。
步骤4中计算第一图像样本的敏感区域具体为:
将生成的热力图的所有像素点求均值μ,将热力图中像素点的值大于均值μ的位置认为是第一图像样本的敏感区域z,其余位置认为是非敏感区域。
步骤4中突出第一图像样本的敏感区域具体为:
设定二值化掩码m,将热力图中的敏感区域z的掩码值设置为1,其余区域的掩码值设置为0。
步骤5具体为:
采用扰动算法,根据公式
Figure BDA0003362629850000072
更新第一图像样本中敏感区域z的像素值;
根据公式x′=x⊙(1-m)+z⊙m得到对抗样本图像x′;
其中,z表示敏感区域,x′表示第一对抗样本,x表示第一图像样本,y表示第一图像样本的原始分类标签,m表示二值化掩码,⊙表示哈达玛积,∈表示更新时的学习率,sign表示符号函数,值域为{+1,-1},J(x,y)表示神经网络模型的损失函数,
Figure BDA0003362629850000073
表示梯度算子。
其中,步骤6具体为:
重复步骤3至步骤5,直到达到迭代次数n,将此时的第一对抗样本作为最终的第一对抗样本;其中,n为正整数。例如,重复步骤3至步骤5,直到达到迭代次数10,将此时的对抗图像x′作为最终的对抗样本图像,即最终的第一对抗样本。并将最终的第一对抗样本图像与原始的第一图像样本组成样本对。通过样本对检测该实验中的神经网络模型的鲁棒性,通过样本对检测其他神经网络模型的鲁棒性。
在本发明的其他实施例中还提供了一种评估神经网络图像分类模型鲁棒性的装置,装置包括:获取单元102、第一生成单元104、第二生成单元106、计算单元108、扰动单元110和评估单元112。
获取单元102用于获取样本集,样本集内包括图像样本;
第一生成单元104用于将样本集中任意的第一图像样本输入神经网络图像分类模型中,获取第一图像样本的特征图;
第二生成单元106用于输入第一图像样本,通过热力图生成算法,基于神经网络图像分类模型和特征图,获取第一图像样本的热力图;
计算单元108用于基于热力图,计算第一图像样本的敏感区域,并突出第一图像样本的敏感区域;
扰动单元110用于采用扰动算法对敏感区域进行扰动,得到第一对抗样本;
评估单元112用于将第一对抗样本作为新的第一图像样本依次重复第二生成单元106、计算单元108、扰动单元110的操作得到最终第一对抗样本,将最终第一对抗样本和初始第一图像样本组成样本对,用于评估神经网络图像分类模型的鲁棒性。
本实施例提出了一种基于热力图生成算法的通用的评估神经网络图像分类模型鲁棒性的方法,该方法采用LRP(Layer-wise Relevance Propagation)算法生成可显示出模型输入与预测类别的相关性的热力图,通过相关性热力图可确定图片的敏感区域,进而直接针对图像的敏感区域添加扰动。与传统对抗样本生成方法相比,本方案生成方式针对性更强,可减小扰动空间的范围,降低对人类视觉范围内的干扰。并且该方法生成的对抗样本具有一定的可迁移性,可评估实验中的神经网络图像分类模型鲁棒性的同时,也可迁移性的评估其他神经网络图像分类模型的鲁棒性。
本说明书上述实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本说明书一个实施例提供的装置的具体工作过程,在此不复赘述。
根据另一方面的实施例,还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图1所描述的方法。
根据再一方面的实施例,还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图1所述的方法。
结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于服务器中。当然,处理器和存储介质也可以作为分立组件存在于服务器中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
虽然,上文中已经用一般性说明及具体实施例对本发明做了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (7)

1.一种评估神经网络图像分类模型鲁棒性的方法,其特征在于,所述方法包括:
步骤1:获取样本集,所述样本集内包括图像样本;
步骤2:将所述样本集中任意的第一图像样本输入所述神经网络图像分类模型中,获取所述第一图像样本的特征图;
步骤3:输入所述第一图像样本,通过热力图生成算法,基于所述神经网络图像分类模型和所述特征图,获取所述第一图像样本的热力图;
步骤4:基于所述热力图,计算所述第一图像样本的敏感区域,并突出所述第一图像样本的敏感区域;具体是:将生成的所述热力图的所有像素点求均值μ,将所述热力图中像素点的值大于所述均值μ的位置认为是所述第一图像样本的敏感区域z,其余位置认为是非敏感区域;设定二值化掩码m,将所述热力图中的敏感区域z的掩码值设置为1,其余区域的掩码值设置为0;
步骤5:采用扰动算法对所述敏感区域进行扰动,得到第一对抗样本;具体是:根据公式
Figure FDA0004122409580000011
更新所述第一图像样本中敏感区域z的像素值;根据公式x'=x⊙(1-m)+z⊙m得到对抗样本图像x';其中,z表示敏感区域,x'表示第一对抗样本,x表示第一图像样本,y表示第一图像样本的原始分类标签,m表示二值化掩码,⊙表示哈达玛积,∈表示更新时的学习率,sign表示符号函数,值域为{+1,-1},J(x,y)表示神经网络模型的损失函数,
Figure FDA0004122409580000012
表示梯度算子;
步骤6:将所述第一对抗样本作为新的第一图像样本重复步骤3至步骤5得到最终第一对抗样本;
步骤7:将所述最终第一对抗样本和初始所述第一图像样本组成样本对,用于评估神经网络图像分类模型的鲁棒性。
2.根据权利要求1所述的方法,将所述样本集中任意的第一图像样本输入所述神经网络图像分类模型中,其特征在于,
获得softmax层之前最后一个连接层输出的特征图。
3.根据权利要求1所述的方法,其特征在于,
所述热力图算法为LRP热力图生成算法,将所述第一图像样本与所述第一图像样本的原始分类标签作为LRP解释器的输入,以所述特征图为起点,利用所述神经网络图像分类模型的结构,反向传播其相关性R,生成预测类别的所述热力图。
4.根据权利要求1所述的方法,其特征在于,步骤6具体为:
重复步骤3至步骤5,直到达到迭代次数n,将此时的第一对抗样本作为最终的第一对抗样本;
其中,n为正整数。
5.一种评估神经网络图像分类模型鲁棒性的装置,其特征在于,所述装置包括:
获取单元(102),用于获取样本集,所述样本集内包括图像样本;
第一生成单元(104),用于将所述样本集中任意的第一图像样本输入所述神经网络图像分类模型中,获取所述第一图像样本的特征图;
第二生成单元(106),用于输入所述第一图像样本,通过热力图生成算法,基于所述神经网络图像分类模型和所述特征图,获取所述第一图像样本的热力图;
计算单元(108),用于基于所述热力图,计算所述第一图像样本的敏感区域,并突出所述第一图像样本的敏感区域;具体是:将生成的所述热力图的所有像素点求均值μ,将所述热力图中像素点的值大于所述均值μ的位置认为是所述第一图像样本的敏感区域z,其余位置认为是非敏感区域;设定二值化掩码m,将所述热力图中的敏感区域z的掩码值设置为1,其余区域的掩码值设置为0;
扰动单元(110),用于采用扰动算法对所述敏感区域进行扰动,得到第一对抗样本;具体是:根据公式
Figure FDA0004122409580000021
更新所述第一图像样本中敏感区域z的像素值;根据公式x'=x⊙1-m+z⊙m得到对抗样本图像x';其中,z表示敏感区域,x'表示第一对抗样本,x表示第一图像样本,y表示第一图像样本的原始分类标签,m表示二值化掩码,⊙表示哈达玛积,∈表示更新时的学习率,sign表示符号函数,值域为{+1,-1},Jx,y表示神经网络模型的损失函数,
Figure FDA0004122409580000031
表示梯度算子;
评估单元(112),用于将所述第一对抗样本作为新的第一图像样本依次重复所述第二生成单元(106)、所述计算单元(108)、所述扰动单元(110)的操作得到最终第一对抗样本,将所述最终第一对抗样本和初始所述第一图像样本组成样本对,用于评估神经网络图像分类模型的鲁棒性。
6.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-4中任一项所述的方法。
7.一种计算设备,其特征在于,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-4中任一项所述的方法。
CN202111371948.4A 2021-11-18 2021-11-18 评估神经网络图像分类模型鲁棒性的方法及装置 Active CN114239685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111371948.4A CN114239685B (zh) 2021-11-18 2021-11-18 评估神经网络图像分类模型鲁棒性的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111371948.4A CN114239685B (zh) 2021-11-18 2021-11-18 评估神经网络图像分类模型鲁棒性的方法及装置

Publications (2)

Publication Number Publication Date
CN114239685A CN114239685A (zh) 2022-03-25
CN114239685B true CN114239685B (zh) 2023-05-12

Family

ID=80750062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111371948.4A Active CN114239685B (zh) 2021-11-18 2021-11-18 评估神经网络图像分类模型鲁棒性的方法及装置

Country Status (1)

Country Link
CN (1) CN114239685B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742170B (zh) * 2022-04-22 2023-07-25 马上消费金融股份有限公司 对抗样本生成方法、模型训练方法、图像识别方法及装置
CN115083001B (zh) * 2022-07-22 2022-11-22 北京航空航天大学 基于图像敏感位置定位的对抗补丁生成方法与装置
CN116863279B (zh) * 2023-09-01 2023-11-21 南京理工大学 用于移动端模型轻量化的基于可解释指导的模型蒸馏方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909945A (zh) * 2017-03-01 2017-06-30 中国科学院电子学研究所 深度学习的特征可视化及模型评估方法
CN110210617B (zh) * 2019-05-15 2021-06-18 北京邮电大学 一种基于特征增强的对抗样本生成方法及生成装置
US11455515B2 (en) * 2019-09-24 2022-09-27 Robert Bosch Gmbh Efficient black box adversarial attacks exploiting input data structure
CN112215201B (zh) * 2020-10-28 2022-05-17 支付宝(杭州)信息技术有限公司 评估人脸识别模型、针对图像的分类模型的方法及装置
CN113378985A (zh) * 2021-07-06 2021-09-10 浙江工业大学 一种基于逐层相关性传播的对抗样本检测方法和装置

Also Published As

Publication number Publication date
CN114239685A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN114239685B (zh) 评估神经网络图像分类模型鲁棒性的方法及装置
Sun et al. Data poisoning attacks on federated machine learning
CN108615048B (zh) 基于扰动进化对图像分类器对抗性攻击的防御方法
CN107704877B (zh) 一种基于深度学习的图像隐私感知方法
CN110048827B (zh) 一种基于深度学习卷积神经网络的类模板攻击方法
CN110222831A (zh) 深度学习模型的鲁棒性评估方法、装置及存储介质
CN108171663B (zh) 基于特征图最近邻替换的卷积神经网络的图像填充系统
CN105741175A (zh) 一种对在线社交网络中账户进行关联的方法
Lacasa On the degree distribution of horizontal visibility graphs associated with Markov processes and dynamical systems: diagrammatic and variational approaches
CN111400452B (zh) 文本信息分类处理方法、电子设备及计算机可读存储介质
CN111754519B (zh) 一种基于类激活映射的对抗防御方法
CN109753797B (zh) 针对流式图的密集子图检测方法及系统
Kunze et al. A graph theoretical approach to monotonicity with respect to initial conditions
CN112580728B (zh) 一种基于强化学习的动态链路预测模型鲁棒性增强方法
Laptiev et al. The new method for detecting signals of means of covert obtaining information
Li et al. One-class knowledge distillation for face presentation attack detection
CN111814921A (zh) 对象特征信息获取、对象分类、信息推送方法及装置
CN113254927B (zh) 一种基于网络防御的模型处理方法、装置及存储介质
CN117201122A (zh) 基于视图级图对比学习的无监督属性网络异常检测方法及系统
CN113935496A (zh) 一种面向集成模型的鲁棒性提升防御方法
Khan et al. A hybrid defense method against adversarial attacks on traffic sign classifiers in autonomous vehicles
Xu et al. Adversarial robustness in graph-based neural architecture search for edge ai transportation systems
Jain et al. A computational numerical performance for solving the mathematical epidemiological model based on influenza disease
JP2020024513A (ja) 誤り判定装置、誤り判定方法、及びプログラム
CN116824334A (zh) 一种基于频域特征融合再构的模型后门攻击对抗方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant