CN111723865A

CN111723865A - 评估图像识别模型、攻击方法性能的方法、装置和介质

Info

Publication number: CN111723865A
Application number: CN202010566866.4A
Authority: CN
Inventors: 萧子豪; 高威; 董胤蓬; 田天; 朱军
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-09-29
Anticipated expiration: 2040-06-19
Also published as: CN111723865B

Abstract

本发明提供了一种评估图像识别模型、攻击方法性能的方法、装置和介质。该评估图像识别模型性能的方法，包括：获取原始样本及基于所述原始样本生成的对抗样本；采用待评估的图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果；根据识别结果中的目标数量和/或目标分类情况确定所述图像识别模型的性能。该评估图像识别模型攻击方法性能的方法，包括：获取原始样本及采用待评估的攻击方法基于所述原始样本生成的对抗样本；采用图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果；根据识别结果中的目标数量和/或目标分类情况确定所述待评估的攻击方法的性能。可以更好地评价攻击算法和待攻击模型的性能。

Description

评估图像识别模型、攻击方法性能的方法、装置和介质

技术领域

本发明的实施方式涉及图像处理领域，更具体地，本发明的实施方式涉及一种评估图像识别模型、攻击方法性能的方法、装置和介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

图像识别，是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，是应用深度学习算法的一种实践应用。现阶段图像识别技术一般分为人脸识别与商品识别，人脸识别主要运用在安全检查、身份核验与移动支付中；商品识别主要运用在商品流通过程中，特别是无人货架、智能零售柜等无人零售领域。

目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割，它将目标的分割和识别合二为一，其准确性和实时性是整个系统的一项重要能力。尤其是在复杂场景中，需要对多个目标进行实时处理时，目标自动提取和识别就显得特别重要。

随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行实时跟踪研究越来越热门，对目标进行动态实时跟踪定位在智能化交通系统、智能监控系统、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。

目前评价目标检测模型的识别能力和安全性大多是根据平均精度均值mAP(meanaverage percision)。mAP通过交并比IoU和平均准确率AP(average precision)来同时评估模型的定位和识别能力。定位是指模型检测出的物体的位置。识别是指模型预测物体的类别。

而评价图像分类模型的识别能力和安全性大多是根据分类准确率。

现有的基于AP/mAP的目标检测模型性能评估方法的主要缺点是对于定位的准确率很敏感。但在某些安全评估的场景，用户更关心物体是否能被识别出来，而对模型的定位精度不敏感。如图1所示，虽然检测框的定位不准，但物体大约也能被识别出来。在这种场景下，AP/mAP对模型的定位精度过于敏感，而无法准确地反映物体是否能被识别出来。

现有的评估图像分类模型的识别能力的分类准确率，只能处理每张图有一个识别结果或不统计每张图中每个识别类别的数目的情况。对于目标检测，每张图往往有多个识别结果，且每个类别可能有多个识别结果。分类准确率并不能直接延伸来处理这种情况。

发明内容

在本上下文中，本发明的实施方式期望提供一种评估图像识别模型性能、攻击方法性能的方法和装置。

在本发明实施方式的第一方面中，提供了一种评估图像识别模型性能的方法，包括：。

获取原始样本及基于所述原始样本生成的对抗样本；

采用待评估的图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果；

根据识别结果中的目标数量和/或目标分类情况确定所述图像识别模型的性能。

在本实施方式的一个实施例中，基于所述原始样本生成的对抗样本至少包括：

采用无定向攻击的方法基于所述原始样本生成的对抗样本；或

采用定向攻击的方法基于所述原始样本生成的对抗样本。

在本实施方式的一个实施例中，根据识别结果中的目标数量和/或目标分类情况确定所述图像识别模型的性能，包括：

根据识别结果中目标数量和/或目标分类的变化情况确定所述图像识别模型的性能。

在本实施方式的一个实施例中，采用无定向攻击的方法基于所述原始样本生成的对抗样本时，根据识别结果中的目标数量确定所述图像识别模型的性能，包括：

根据从所述对抗样本中识别出的目标数量与从所述原始样本中识别出的目标数量的比例，确定性能评估分数。

在本实施方式的一个实施例中，采用定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中的目标数量和目标分类情况确定所述图像识别模型的性能，包括：

根据识别结果中定向攻击的某一类目标数量的情况确定所述图像识别模型的性能。

在本实施方式的一个实施例中，根据识别结果中定向攻击的某一类目标数量的情况确定所述图像识别模型的性能，包括：

根据从所述对抗样本中识别出的识别结果中定向攻击的某一类目标数量与所有目标数量的比例确定性能评估分数。

在本实施方式的一个实施例中，采用定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中目标数量和目标分类的变化情况确定所述图像识别模型的性能，包括：

根据从所述原始样本和对抗样本中识别出的识别结果中定向攻击的某一类目标数量与所有目标数量的比例变化情况确定性能评估分数。

在本实施方式的一个实施例中，获取原始样本及基于所述原始样本生成的对抗样本，包括：

获取多个原始样本及基于所述多个原始样本生成的对抗样本；

所述方法还包括：

根据多个原始样本及对抗样本得到所述待评估的图像识别模型的多个性能评估分数；

基于所述多个性能评估分数得到最终的性能评估分数。

在本发明实施方式的第二方面中，提供了一种评估图像识别模型攻击方法性能的方法，包括：

获取原始样本及采用待评估的攻击方法基于所述原始样本生成的对抗样本；

采用图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果；

根据识别结果中的目标数量和/或目标分类情况确定所述待评估的攻击方法的性能。

在本实施方式的一个实施例中，所述待评估的攻击方法至少包括：

无定向攻击的方法；或

定向攻击的方法。

在本实施方式的一个实施例中，根据识别结果中的目标数量和/或目标分类情况确定所述待评估的攻击方法的性能，包括：

根据识别结果中的目标数量和/或目标分类的变化情况确定所述待评估的攻击方法的性能。

在本实施方式的一个实施例中，采用无定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中的目标数量情况确定所述待评估的攻击方法的性能，包括：

根据从所述对抗样本中识别出的目标数量与从所述原始样本中识别出的目标数量的比例，确定待评估的攻击方法的性能分数。

在本实施方式的一个实施例中，采用定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中的目标数量和目标分类情况确定所述待评估的攻击方法的性能，包括：

根据识别结果中定向攻击的某一类目标数量的情况确定所述待评估的攻击方法的性能。

在本实施方式的一个实施例中，根据识别结果中定向攻击的某一类目标数量的情况确定所述待评估的攻击方法的性能，包括：

根据从所述对抗样本中识别出的识别结果中定向攻击的某一类目标数量与所有目标数量的比例确定待评估的攻击方法的性能分数。

在本实施方式的一个实施例中，采用定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中目标数量和目标分类的变化情况确定所述待评估的攻击方法的性能，包括：

根据从所述原始样本和对抗样本中识别出的识别结果中定向攻击的某一类目标数量与所有目标数量的比例变化情况确定所述待评估的攻击方法的性能。

所述方法还包括：

根据多个原始样本及对抗样本得到所述待评估的攻击方法的多个性能分数；

基于所述多个性能分数得到最终的待评估的攻击方法的性能分数。

在本发明实施方式的第三方面中，提供了一种评估图像识别模型性能的装置，包括：

样本获取模块，被配置为获取原始样本及基于所述原始样本生成的对抗样本；

识别模块，被配置为采用待评估的图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果；

确定模块，被配置为根据识别结果确定所述图像识别模型的性能。

在本发明实施方式的第四方面中，提供了一种评估图像识别模型攻击方法性能的装置，包括：

样本提供模块，被配置为获取原始样本及采用待评估的攻击方法基于所述原始样本生成的对抗样本；

样本识别模块，被配置为采用图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果；

性能确定模块，被配置为根据识别结果确定所述待评估的攻击方法的性能。

在本发明实施方式的第五方面中，提供了一种介质，所述介质上存储有计算机程序，当所述计算机程序被处理器执行时，至少可以实现第一方面或第二方面中任一项所述的方法。

在本发明实施方式的第六方面中，提供了一种计算设备，包括处理器，其中，存储器上存储的计算机程序被所述处理器执行时，至少可以实现第一方面或第二方面中任一项的方法。

根据本发明实施方式的评估图像识别模型、攻击方法性能的方法和装置，根据图像识别模型遭受攻击前后的识别结果中目标数量和/或目标分类情况来确定图像识别模型或攻击方法的性能，更加适用于对定位精度不敏感的场景或图像识别模型，克服了目标检测模型常用评价方法中由于定位误差敏感而使得评估结果不够准确的问题，可以更好地评价攻击算法和待攻击模型的性能。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为本发明一实施例提供的一种图像识别模型分别识别原始样本和基于无定向攻击构建的对抗样本的结果示意图；

图2为本发明一实施例提供的评估图像识别模型性能的方法的流程示意图；

图3为本发明一实施例提供的一种图像识别模型分别识别原始样本和基于定向攻击构建的对抗样本的结果示意图；

图4为本发明一实施例提供的评估图像识别模型攻击方法性能的方法的流程示意图；

图5为本发明一实施例提供的评估图像识别模型性能的装置的结构示意图；

图6为本发明一实施例提供的评估图像识别模型攻击方法性能的装置的结构示意图；

图7示意性地示出了本发明实施例的一种介质的结构示意图；

图8示意性地示出了本发明实施例的一种计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种评估图像识别模型、攻击方法性能的方法、装置、介质和计算设备。

可以理解的是，本发明所指的图像识别模型指的是采用计算机视觉技术对图像中的对象进行处理(如识别、检测等)的模型，包括但不限于目标检测、图像分类、语义分割、实例分割、全景分割、模式识别、人脸识别等图像处理模型。同理，所述图像识别模型的攻击方法包括但不限于攻击以上所列举模型的一切针对图像处理模型的方法。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，目前评价目标检测模型的识别能力和性能大多是根据平均精度均值mAP(mean average percision)。mAP通过交并比IoU和平均准确率AP(averageprecision)来同时评估模型的定位和识别能力。定位是指模型检测出的物体的位置。识别是指模型预测物体的类别。

而评价图像分类模型的识别能力和性能大多是根据分类准确率。

现有的基于AP/mAP的目标检测模型性能评估方法的主要缺点是对于定位的准确率很敏感。但在某些安全评估的场景，用户更关心物体是否能被识别出来，而对模型的定位精度不敏感。如图1所示，虽然检测框的定位不准，但物体大约也能被识别出来。在这种场景下，AP/mAP对模型的定位精度过于敏感，而无法准确地反映物体是否能被识别出来，这会使得评估出的结果无法正确反映模型的识别能力和安全性。

现有技术中在评估图像分类模型的识别能力时主要依据模型的分类准确率，只能处理每张图有一个识别结果或不统计每张图中每个识别类别的数目的情况。而在进行目标检测时，每张图往往有多个识别结果，且每个类别可能有多个识别结果。分类准确率并不能直接延伸来处理这种情况。

基于以上考虑，发明人根据图像识别模型遭受攻击前后的识别结果中目标数量和/或目标分类情况来确定图像识别模型或攻击方法的性能，更加适用于对定位精度不敏感的场景，克服了目标检测模型常用评价方法中对定位误差敏感使得评估结果不够准确的问题，以及在评估图像分类模型的识别能力时主要依据模型的分类准确率而无法适用于目标检测的问题，可以更好地评价攻击算法和待评估的图像识别模型的性能

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施方式的评估图像识别模型、攻击方法性能的方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

本发明实施方式的第一方面提供了一种评估图像识别模型性能的方法，如图2所示，该方法包括：

步骤S110，获取原始样本及基于所述原始样本生成的对抗样本；

步骤S120，采用待评估的图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果；

步骤S130，根据识别结果中的目标数量和/或目标分类情况确定所述图像识别模型的性能。

在本实施方式的一个实施例中，原始样本可以是提前准备好的图像集中的一张或多张图像，在获取原始样本时，可以根据预定的规则进行，例如随机采样或按照图像集中各个图像的顺序依次获取，本实施方式对此不做限定，任何样本获取方式都不影响本发明的实施效果。

相应的，对抗样本也可以是提前准备好的对抗样本图像集中的一张或多张图像，获取方式与原始样本获取方式相同，只要与获取到的原始样本对应即可，任何样本获取方式都不影响本发明的实施效果。

或者所述对抗样本还可以是在获取到原始样本之后，按照预定的攻击图像识别模型的方法生成的，在本实施方式中，基于所述原始样本生成的对抗样本至少包括：

采用定向攻击的方法基于所述原始样本生成的对抗样本。

在本实施方式的一个实施例中，采用无定向攻击的方法基于所述原始样本生成的对抗样本，例如使用现有的基于优化的对抗样本生成技术(即所述攻击方法)来生成对抗样本，下面以基于动量的对抗样本生成方法为例，描述对抗样本的生成方法。假设基于动量的对抗样本生成方法的目标函数为：

X_adv＝argmax_xL(X),

s.t.|X-X_adv|_∞≤∈,

X_adv⊙(1-W^opt)＝X⊙(1-W^opt)

其中X是原始样本，X_adv是对抗样本，L(·)为任意描述攻击效果的、可导的目标函数(如分类的交叉熵)，|·|_∞是无穷范数，∈是最大可能的扰动值，⊙是向量逐元素乘积。W^opt来表示选择的叠加扰动的区域，其中W^opt的大小为(h,w)，h和w分别为图像X的高和宽；W^opt的每一个元素的定义域是{0,1}，记为1的元素标记了需要优化的像素位置，记为0的元素标记了不需要优化的像素位置。以上的公式中生成的对抗样本除选定的区域W^opt外，其他区域与原始样本一致。

为获取对抗样本，可以通过以下公式更新动量和迭代中的对抗样本：

X＝proj(X+W^opt⊙α·sign(g))

其中，g表示动量，μ表示动量的衰减速度，

表示所述目标函数相对模型输入X的梯度，|·|₁是L1范数，X为表示迭代中的对抗样本的变量，proj表示将变量投影回约束范围内，α表示梯度下降的步长，sign是符号函数。T(·)是任意数据增强手段，例如图像旋转、图像平移或图像翻转等。

可以理解的是，在进行迭代时，并不一定要采用本实施例所列举的方式，其他任意基于梯度的迭代方式如随机梯度法，批量梯度法或小批量梯度法都可以实现相同或相似的效果。

同样的道理，在进行对抗样本的生成时，也不一定必须本实施例所列举的方式，还可以采用快速梯度符号法、单像素攻击法等方式进行。本实施方式对此不做限定。

在获取到原始样本及基于所述原始样本生成的对抗样本之后，即可执行步骤S120，采用待评估的图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果，例如用待评估的图像识别模型来识别原始样本X，得到识别结果

其中N是待评估的图像识别模型从所述原始样本中识别出的目标(结果)数量，(x_i,y_i,w_i,h_i)是第i个识别结果的定位，K是识别结果的类别数量，

是第i个识别结果的第k个类别的预测概率。

同样的，用待评估的目标检测模型来识别对抗样本X_adv，得到识别结果

其中N^adv是在X_adv上识别结果的数量。

需要说明的是，在实际的应用场景是并不一定需要输出与上述识别结果完全一致的信息，在本实施方式的不同实施例中，评估图像识别模型和攻击方法所需要的识别结果信息并不相同，由此，识别结果信息只需要满足最低要求即可。

例如，在某个实施例中，识别结果中仅需包括目标数量即可实现对无定向攻击的图像模型的评估，具体而言，待评估的图像识别模型在原始样本上识别得到的目标数量为N，在对抗样本上得到的目标数量为N^adv，若由N→N^adv，产生了变化，则可以说明攻击产生了效果，待评估的图像识别模型的识别能力和安全性可能不够强，若N→N^adv并未产生变化，则可以说明攻击没有产生效果，评估的图像识别模型的识别能力和安全性可能比较好。可以理解的是，产生的变化越大，则待评估的图像识别模型的识别能力和安全性越弱。进一步地，在本实施例中，还可以根据N→N^adv的变化情况，确定具体的性能分数，例如根据从所述对抗样本中识别出的目标数量与从所述原始样本中识别出的目标数量的比例，确定性能评估分数：

其中f(x)可以是任意关于自变量单调递减的函数。I越低，待评估的图像识别模型对采用的无定向攻击算法的抗性越高，即识别能力越高，安全程度越高。具体而言，可以Clip(·,·,·)函数为例，

其中Clip(x,0,1)是指将自变量x投影到0和1之间。上述公式表现了模型能从图片中识别出来物体数目的减小程度。

为了验证本发明提出的方法相比于现有技术的优势，分别采用现有技术和本发明的方法对定位精度不敏感的场景下目标检测模型面对无定向攻击的性能进行评估，发明人在一张图片上进行试验。首先，Faster-RCNN模型(图像识别模型)能够正确地识别出图像中的人(图1中的左侧图片)。然后，攻击者对图片进行修改，生成对抗样本，所述Faster-RCNN模型仍然能在对抗样本中识别出画面中的人(图1中的右侧图片)，只是在定位上发生了偏差(即检测框发生了偏差，但是识别出的类别依然是正确的)。现有的基于mAP的评估方法得到的结果会由攻击前的1降到攻击后的0，认为攻击是成功的，所以待评估的图像识别模型面对这个攻击算法的安全性低。但在对定位精度需求不那么不敏感的场景下，这样的评测是不合适的，因为模型仍然能在对抗样本上正确地识别出画面中存在人(图1中的右侧图片)。与现有技术相反的是，本发明的识别结果在攻击前是0，在攻击后仍然是0，能够表明模型没有被攻破，所以模型面对这个攻击算法的安全性好。

在某个实施例中，识别结果中需要目标数量和目标分类情况才能确定定向攻击的图像识别模型的性能，具体而言，首先，在生成对抗样本时用任意定向攻击方法A来在原始样本X上添加对抗噪声，得到对抗样本X_adv。使用现有的基于优化的对抗样本生成技术来生成对抗样本。以基于动量的对抗样本生成方法为例，描述对抗样本的生成方法。假设基于动量的对抗样本生成方法的目标函数为：

X_adv＝argmax_xL_q(X),

s.t.|X-X_adv|_∞≤∈,

X_adv⊙(1-W^opt)＝X⊙(1-W^opt)

其中L_q(·,·)为任意描述攻击效果的、可导的目标函数(如分类的交叉熵)，q是某个攻击者想要模型误识别出的类别。

X＝proj(X+W^opt⊙α·sign(g))

本实施例中，采用的定向攻击方法A的实施细节与上一实施例中无定向攻击方法大致相同，除了需要定义特定的攻击类别，此处不再赘述。接下来，根据识别结果中的目标数量和目标分类情况确定所述图像识别模型的性能，具体来讲，可以根据识别结果中定向攻击的某一类目标数量的情况确定所述图像识别模型的性能，例如可以根据从所述对抗样本中识别出的识别结果中定向攻击的某一类目标数量与所有目标数量的比例进行阈值判断，对符合阈值区间的确定性能等级，例如10％-30％为低性能，代表模型安全性和识别能力弱，30％-60％为中性能，代表模型安全性和识别能力一般，60％-100％为高性能，代表模型安全性和识别能力一般强；再例如可以根据从所述对抗样本中识别出的识别结果中定向攻击的某一类目标数量与所有目标数量的比例确定性能评估分数，即

其中g(x)为任意随着自变量x单调递减的函数。I越低，待评估的图像识别模型对采用的无定向攻击算法的抗性越高，即识别能力越高，安全程度越高。以Clip(·,·,·)函数为例，

其中q是指攻击者想要模型误识别出的类别，N^q表示在原始样本X上识别出类别q的物体的数目，N^adv,q表示模型在对抗样本X^adv上识别出类别q的物体的数目。

在本实施方式的另外一个实施例中，根据识别结果中目标数量和目标分类的变化情况确定所述图像识别模型的性能，具体包括：

根据从所述原始样本和对抗样本中识别出的识别结果中定向攻击的某一类目标数量与所有目标数量的比例变化情况确定性能评估分数：

其中q是指攻击者想要模型误识别出的类别，N^q表示在原始样本X上识别出类别q的物体的数目，N^adv,q表示模型在对抗样本X^adv上识别出类别q的物体的数目。上述公式表现了模型能从图片中识别出来类别q的物体数目的减小程度。

为了验证采用本实施方式的方法对定位精度不敏感的场景评测目标检测模型安全性评估模型面对定向攻击的性能，发明进行了本实验，首先在一张图片上进行试验(图3中的左侧图像)，攻击者的意图是定向地让Faster-RCNN模型在图片中错误地识别出人的类别。首先，模型能够正确地识别出图像中的消防栓(图3中的左侧图像)。然后，攻击者对图片进行修改，生成对抗样本。模型能在对抗样本中错误地识别出画面中的人(图3中的右侧图像)。人类别的AP评估结果为：由于攻击前是0，攻击后仍然维持是0，认为攻击是不成功的，所以模型面对这个攻击算法的安全性高。但在对定位精度不敏感的场合，这样的评测是不合适的，因为模型已经能在对抗样本上错误地识别出画面中存在人(图3中的右侧图像)。与现有技术的方案相反，本发明的识别结果：在攻击前是0，在攻击后是1，表明模型已经被攻破，所以模型面对这个攻击算法的安全性差。

在某个实施例中，识别结果中仅需包括目标分类情况即可实现图像识别模型对定向攻击的抗性的评估(即图像识别模型的安全性和识别能力)，具体来说，可以根据待评估的识别模型从原始样本中识别出的目标分类情况与从对抗样本中识别出的目标分类情况作对比，若从原始样本中未识别出目标分类，而从对抗样本中识别出目标分类，则可以认为攻击成功，图像识别模型的安全性和识别能力弱。

为了使得最后得到的评估结果更加准确，在本实施方式的一个实施例中获取多个原始样本及基于所述多个原始样本生成的对抗样本；由此，根据多个原始样本及对抗样本得到所述待评估的图像识别模型的多个性能评估分数；最后，基于所述多个性能评估分数得到最终的性能评估分数。

具体来说，提供数据集

来评估图像识别模型的性能，其中M是数据集中图片个数，首先可以初始化评估分数I_A＝0，然后对于数据集中的每一张原始样本X_m，执行预定的攻击方法已生成相应的对抗样本，然后再根据上述任一实施例中的方法得到性能分数I，并累加在初始分数上

I_A＝I_A+I

最后，对性能分数取平均

由此，使得最终得到的图像识别模型的性能或安全性分数更加准确。

本实施方式的第二方面还提供一种评估图像识别模型攻击方法性能的方法，参照图4，该方法包括：

步骤S210，获取原始样本及采用待评估的攻击方法基于所述原始样本生成的对抗样本；

步骤S220，采用图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果；

步骤S230，根据识别结果中的目标数量和/或目标分类情况确定所述待评估的攻击方法的性能。

无定向攻击的方法；或

定向攻击的方法。

所述方法还包括：

可以理解的是，本实施方式中对攻击方法进行评估的步骤与对图像识别模型进行评估的步骤大同小异，具体实施细节在此不再赘述。

发明人为了验证本实施方式的方法对定位精度不敏感的场景评测目标检测模型的无定向攻击的性能相比原传统方式的优势，在一张图片上进行试验(图1，左)。首先，模型能够正确地识别出图像中的人(图1，左)。然厚，攻击者对图片进行修改，生成对抗样本。模型仍然能在对抗样本中识别出画面中的人(图1，右)，只是在定位上发生了偏差。现有的基于mAP的评估方式得出的结果会由攻击前的1降到攻击后的0，认为攻击是成功的，所以攻击算法攻击这个模型的效率高。但在对定位精度不敏感的场合，这样的评测是不合适的，因为模型仍然能在对抗样本上正确地识别出画面中存在人(图1，右)。相反，本发明的方法得出的结果在攻击前是0，在攻击后仍然是0，表明模型没有被攻破，所以攻击算法攻击这个模型的效率低。

发明人为了验证本实施方式的方法对定位精度不敏感的场景评测目标检测模型面对定向攻击的性能相比于传统方式的优势，在一张图片上进行试验(图3，左)，攻击者的意图是定向地让模型在图片中错误地识别出人的类别。首先，模型能够正确地识别出图像中的消防栓(图3，左)。然后，攻击者对图片进行修改，生成对抗样本。模型能在对抗样本中错误地识别出画面中的人(图3，右)。现有的基于人类别的AP评估方式得出的结果会由攻击前的0，攻击仍然维持是0，认为攻击是不成功的，所以攻击算法攻击这个模型的效率低。但在对定位精度不敏感的场合，这样的评测是不合适的，因为模型已经能在对抗样本上错误地识别出画面中存在人(图3，右)。相反，本发明的评估方法得出的结果在攻击前是0，在攻击后是1，表明模型已经被攻破，所以攻击算法攻击这个模型的效率高。

与第一方面的评估图像识别模型性能的方法不同的是，本实施方式的一个实施例中，可以更严苛地评估无定向攻击算法的性能，具体的，在无定向攻击中，攻击算法A在一张原始样本上成功攻击图像识别模型的判断依据是模型无法从图像中识别出任何物体，即

其中

是示性函数，当括号内的条件成立时为1，否则为0。

本实施方式的另一个实施例中，可以更严苛地评估定向攻击算法的性能。具体的，在定向攻击中，攻击算法A在一张原始样本上成功攻击图像识别模型的程度是模型识别出的所有物体都属于攻击者指定的类别q，且原先并没有识别出类别q的物体，即

其中∧表示逻辑算符与。

发明人为了验证本实施方式的方法对定位精度不敏感的场景评测图像识别模型安全性的评估相比于传统方式的优势，利用一个数据集合来评估模型面对无定向攻击的性能，本实验从MSCOCO数据集上随机抽取1000张图片，然后用黑盒迁移攻击算法来比较和评估攻击算法的性能和模型的安全性。具体地，利用Faster-RCNN作为替代模型，然后采用MIFGSM和DI-MIFGSM算法来生成扰动大小∈＝16的迁移攻击对抗样本。待评测模型包括Guided Anchoring Feature Pyramid Network(记为GA-FPN)、从随机初始化开始训练的Faster-RCNN(记为Scratch)、用网络架构搜索得到的模型NAS-FPN。评测结果如表1所示。在比较算法的攻击性能上，对于GA-FPN模型的结果，基于mAP的评估方式得出DI-MIFGSM算法的攻击效果弱于MIFGSM，而本发明的方法则得出相反的结论。这中间的差别是因为本发明的方法对于定位误差不敏感。

在比较模型的安全性上，对于Scratch和NAS-FPN模型，基于mAP的评估方式得出两个模型的安全性差不多，但本发明方法则得到NAS-FPN在DIFGSM攻击下的安全性差于Scratch。另外，本发明的方法提供了新的视角来分析和评估模型的安全性。

评估方式	攻击方法	GA-FPN	Scratch	NAS-FPN
					mAP↑	MIFGSM	0.252	0.845	0.81
	DI-MIFGSM	0.284444869	0.59298	0.547957
					本发明↓	MIFGSM	0.561	0.005	0.056
	DI-MIFGSM	0.683	0.072	0.275

表1用COCO数据集评测攻击算法效率和模型安全性。所有模型在攻击前mAP均为1，本发明的方法得出的结果均为0。表中展示的是攻击后的结果。mAP越高代表模型安全性越高，攻击算法越低效；而本发明的结果越低代表模型安全性越高，攻击算法越低效。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图5对本发明示例性实施方式的一种评估图像识别模型性能的装置进行说明，该装置包括：

样本获取模块310，被配置为获取原始样本及基于所述原始样本生成的对抗样本；

识别模块320，被配置为采用待评估的图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果；

确定模块330，被配置为根据识别结果中的目标数量和/或目标分类情况确定所述图像识别模型的性能。

采用定向攻击的方法基于所述原始样本生成的对抗样本。

在本实施方式的一个实施例中，所述确定模块还被配置为根据识别结果中目标数量和/或目标分类的变化情况确定所述图像识别模型的性能。

在本实施方式的一个实施例中，其中所述样本获取模块还被配置为获取多个原始样本及基于所述多个原始样本生成的对抗样本；

所述装置还包括：

平均计算模块，被配置为根据多个原始样本及对抗样本得到所述待评估的图像识别模型的多个性能评估分数；以及基于所述多个性能评估分数得到最终的性能评估分数。

本实施方式的另一个方面还提供一种评估图像识别模型攻击方法性能的装置，参照图6，该装置包括：

样本提供模块410，被配置为获取原始样本及采用待评估的攻击方法基于所述原始样本生成的对抗样本；

样本识别模块420，被配置为采用图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果；

性能确定模块430，被配置为根据识别结果中的目标数量和/或目标分类情况确定所述待评估的攻击方法的性能。

无定向攻击的方法；或

定向攻击的方法。

在本实施方式的一个实施例中，所述性能确定模块还被配置为根据识别结果中的目标数量和/或目标分类的变化情况确定所述待评估的攻击方法的性能。

在本实施方式的一个实施例中，所述样本提供模块还被配置为获取多个原始样本及基于所述多个原始样本生成的对抗样本；

所述装置还包括：

最终性能确定模块，被配置为根据多个原始样本及对抗样本得到所述待评估的攻击方法的多个性能分数；以及基于所述多个性能分数得到最终的待评估的攻击方法的性能分数。

示例性介质

在介绍了本发明示例性实施方式的方法、装置之后，接下来，参考图7对本发明示例性实施方式的计算机可读存储介质进行说明。

请参考图7，其示出的计算机可读存储介质为光盘50，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如：获取原始样本及基于所述原始样本生成的对抗样本；采用待评估的图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果；根据识别结果中的目标数量和/或目标分类情况确定所述图像识别模型的性能。或者，获取原始样本及采用待评估的攻击方法基于所述原始样本生成的对抗样本；采用图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果；根据识别结果中的目标数量和/或目标分类情况确定所述待评估的攻击方法的性能。各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、装置和介质之后，接下来，参考图8对本发明示例性实施方式的计算设备进行说明，图8示出了适于用来实现本发明实施方式的示例性计算设备60的框图，该计算设备60可以是计算机系统或服务器。图8显示的计算设备60仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算设备60的组件可以包括但不限于：一个或者多个处理器或者处理单元601，系统存储器602，连接不同系统组件(包括系统存储器602和处理单元601)的总线603。

计算设备60典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备60访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器602可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)6021和/或高速缓存存储器6022。计算设备60可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM6023可以用于读写不可移动的、非易失性磁介质(图8中未显示，通常称为“硬盘驱动器”)。尽管未在图8中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线603相连。系统存储器602中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块6024的程序/实用工具6025，可以存储在例如系统存储器602中，且这样的程序模块6024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块6024通常执行本发明所描述的实施例中的功能和/或方法。

计算设备60也可以与一个或多个外部设备604(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口605进行。并且，计算设备60还可以通过网络适配器606与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图8所示，网络适配器606通过总线603与计算设备60的其它模块(如处理单元601等)通信。应当明白，尽管图8中未示出，可以结合计算设备60使用其它硬件和/或软件模块。

处理单元601通过运行存储在系统存储器602中的程序，从而执行各种功能应用以及数据处理，例如，获取原始样本及基于所述原始样本生成的对抗样本；采用待评估的图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果；根据识别结果中的目标数量和/或目标分类情况确定所述图像识别模型的性能。或者，获取原始样本及采用待评估的攻击方法基于所述原始样本生成的对抗样本；采用图像识别模型对所述原始样本和对抗样本分别进行识别以得到各自的识别结果；根据识别结果中的目标数量和/或目标分类情况确定所述待评估的攻击方法的性能。

应当注意，尽管在上文详细描述中提及了评估图像识别模型性能或评估图像识别模型攻击方法性能的装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

通过上述的描述，本发明的实施例提供了以下的技术方案，但不限于此：

1.一种评估图像识别模型性能的方法，包括：

获取原始样本及基于所述原始样本生成的对抗样本；

2.如方案1所述的方法，其中，基于所述原始样本生成的对抗样本至少包括：

采用定向攻击的方法基于所述原始样本生成的对抗样本。

3.如方案1或2所述的方法，其中，根据识别结果中的目标数量和/或目标分类情况确定所述图像识别模型的性能，包括：

4.如方案1-3中任一所述的方法，其中，采用无定向攻击的方法基于所述原始样本生成的对抗样本时，根据识别结果中的目标数量确定所述图像识别模型的性能，包括：

5.如方案1-4中任一所述的方法，其中，采用定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中的目标数量和目标分类情况确定所述图像识别模型的性能，包括：

6.如方案1-5中任一所述的方法，其中，根据识别结果中定向攻击的某一类目标数量的情况确定所述图像识别模型的性能，包括：

7.如方案1-6中任一所述的方法，其中，采用定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中目标数量和目标分类的变化情况确定所述图像识别模型的性能，包括：

8.如方案1-7中任一所述的方法，其中，获取原始样本及基于所述原始样本生成的对抗样本，包括：

所述方法还包括：

基于所述多个性能评估分数得到最终的性能评估分数。

9.一种评估图像识别模型攻击方法性能的方法，包括：

10.如方案9所述的方法，其中，所述待评估的攻击方法至少包括：

无定向攻击的方法；或

定向攻击的方法。

11.如方案9或10所述的方法，其中，根据识别结果中的目标数量和/或目标分类情况确定所述待评估的攻击方法的性能，包括：

12.如方案9-11中任一所述的方法，其中，采用无定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中的目标数量情况确定所述待评估的攻击方法的性能，包括：

13.如方案9-12中任一所述的方法，其中，采用定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中的目标数量和目标分类情况确定所述待评估的攻击方法的性能，包括：

14.如方案9-13中任一所述的方法，其中，根据识别结果中定向攻击的某一类目标数量的情况确定所述待评估的攻击方法的性能，包括：

15.如方案9-14中任一所述的方法，其中，采用定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中目标数量和目标分类的变化情况确定所述待评估的攻击方法的性能，包括：

16.如方案9-15中任一所述的方法，其中，获取原始样本及基于所述原始样本生成的对抗样本，包括：

所述方法还包括：

根据多个原始样本及对抗样本得到所述待评估的攻击方法的多个的性能分数；

17.一种评估图像识别模型性能的装置，包括：

确定模块，被配置为根据识别结果中的目标数量和/或目标分类情况确定所述图像识别模型的性能。

18.如方案17所述的装置，其中，基于所述原始样本生成的对抗样本至少包括：

采用定向攻击的方法基于所述原始样本生成的对抗样本。

19.如方案17或18所述的装置，其中，所述确定模块还被配置为根据识别结果中目标数量和/或目标分类的变化情况确定所述图像识别模型的性能。

20.如方案17-19中任一所述的装置，其中，采用无定向攻击的方法基于所述原始样本生成的对抗样本时，根据识别结果中的目标数量确定所述图像识别模型的性能，包括：

21.如方案17-20中任一所述的装置，其中，采用定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中的目标数量和目标分类情况确定所述图像识别模型的性能，包括：

22.如方案17-21中任一所述的装置，其中，根据识别结果中定向攻击的某一类目标数量的情况确定所述图像识别模型的性能，包括：

23.如方案17-22中任一所述的装置，其中，采用定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中目标数量和目标分类的变化情况确定所述图像识别模型的性能，包括：

24.如方案17-23中任一所述的装置，其中所述样本获取模块还被配置为获取多个原始样本及基于所述多个原始样本生成的对抗样本；

所述装置还包括：

25.一种评估图像识别模型攻击方法性能的装置，包括：

性能确定模块，被配置为根据识别结果中的目标数量和/或目标分类情况确定所述待评估的攻击方法的性能。

26.如方案25所述的装置，其中，所述待评估的攻击方法至少包括：

无定向攻击的方法；或

定向攻击的方法。

27.如方案25或26所述的装置，其中，所述性能确定模块还被配置为根据识别结果中的目标数量和/或目标分类的变化情况确定所述待评估的攻击方法的性能。

28.如方案25-27中任一所述的装置，其中，采用无定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中的目标数量情况确定所述待评估的攻击方法的性能，包括：

29.如方案25-28中任一所述的装置，其中，采用定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中的目标数量和目标分类情况确定所述待评估的攻击方法的性能，包括：

30.如方案25-29中任一所述的装置，其中，根据识别结果中定向攻击的某一类目标数量的情况确定所述待评估的攻击方法的性能，包括：

31.如方案25-30中任一所述的装置，其中，采用定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中目标数量和目标分类的变化情况确定所述待评估的攻击方法的性能，包括：

32.如方案25-31中任一所述的装置，其中，所述样本提供模块还被配置为获取多个原始样本及基于所述多个原始样本生成的对抗样本；

所述装置还包括：

33.一种介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如方案1-8或9-16中任一项所述的方法。

34.一种计算设备，特征在于：所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如方案1-8或9-16中任一项所述的方法。

Claims

1.一种评估图像识别模型性能的方法，包括：

获取原始样本及基于所述原始样本生成的对抗样本；

2.如权利要求1所述的方法，其中，基于所述原始样本生成的对抗样本至少包括：

采用定向攻击的方法基于所述原始样本生成的对抗样本。

3.如权利要求2所述的方法，其中，根据识别结果中的目标数量和/或目标分类情况确定所述图像识别模型的性能，包括：

4.如权利要求2或3所述的方法，其中，采用无定向攻击的方法基于所述原始样本生成的对抗样本时，根据识别结果中的目标数量确定所述图像识别模型的性能，包括：

5.如权利要求2所述的方法，其中，采用定向攻击的方法基于所述原始样本生成对抗样本时，根据识别结果中的目标数量和目标分类情况确定所述图像识别模型的性能，包括：

6.一种评估图像识别模型攻击方法性能的方法，包括：

7.一种评估图像识别模型性能的装置，包括：

8.一种评估图像识别模型攻击方法性能的装置，包括：

9.一种介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-5或6中任一项所述的方法。

10.一种计算设备，特征在于：所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-5或6中任一项所述的方法。