CN116029950A - 图像处理方法、图像检测模型评估方法及装置 - Google Patents
图像处理方法、图像检测模型评估方法及装置 Download PDFInfo
- Publication number
- CN116029950A CN116029950A CN202111249005.4A CN202111249005A CN116029950A CN 116029950 A CN116029950 A CN 116029950A CN 202111249005 A CN202111249005 A CN 202111249005A CN 116029950 A CN116029950 A CN 116029950A
- Authority
- CN
- China
- Prior art keywords
- image
- detection model
- range
- pixel
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 222
- 238000011156 evaluation Methods 0.000 title claims abstract description 30
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 58
- 238000000034 method Methods 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 description 25
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 239000013598 vector Substances 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000002787 reinforcement Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 238000009399 inbreeding Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000001629 sign test Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了图像处理方法、图像检测模型评估方法及装置,该图像处理方法包括:获取第一图像和第二图像;该第一图像叠加于该第二图像得到用于攻击图像检测模型的第三图像;基于第二图像中的部分区域即第一区域确定像素坐标参数的范围和角度参数的范围,像素坐标参数的范围为该第一区域在第二图像中的像素坐标的集合;基于该像素坐标参数的范围和角度参数的范围确定第一像素坐标集合和第一角度;该第一像素坐标集合指示第一图像叠加在第二图像上的位置,该第一角度指示叠加在第二图像上的第一图像的旋转角度。采用本申请实施例,可以获取攻击性较强、实用性较好的对抗样本以用于有效评估图像检测模型的鲁棒性。
Description
技术领域
本申请涉及模型评估技术领域,尤其涉及一种图像处理方法、图像检测模型评估方法及装置。
背景技术
随着深度神经网络的快速发展,基于深度学习技术的视觉感知系统已经展现出其卓越的性能,被广泛应用于自动驾驶等实际生活的各项领域。视觉感知系统的关键是图像检测,可以通过对抗样本来评估图像检测模型的鲁棒性,以了解并优化图像检测模型的性能。
现有的方案中,可以通过在图像中添加像素级的噪声来生成对抗样本,但是这样生成的对抗样本攻击性较弱,无法有效地评估模型的鲁棒性;或者可以获知图像检测模型的参数和结构来生成对抗样本,但是在实际应用中,模型的参数等信息往往无法全面获取,因此也无法获得较好的对抗样本,实用性较差。
综上所述,如何获取攻击性较强、实用性较好的对抗样本以用于有效评估图像检测模型的鲁棒性是本领域技术人员需要解决的技术问题。
发明内容
本申请实施例公开一种图像处理方法、图像检测模型评估方法及装置,获取攻击性较强、实用性较好的对抗样本,更好的评估图像检测模型鲁棒性。
第一方面,本申请实施例提供了一种图像处理的方法,该方法包括:
获取第一图像和第二图像;所述第一图像用于叠加于所述第二图像得到第三图像,所述第三图像用于攻击图像检测模型;
基于第一区域构建第一参数空间;所述第一区域为所述第二图像中的部分区域,所述第一参数空间包括像素坐标参数的范围和角度参数的范围,所述像素坐标参数的范围为所述第一区域在所述第二图像中的像素坐标的集合;
基于所述像素坐标参数的范围确定第一像素坐标集合,并基于所述角度参数的范围确定第一角度;所述第一像素坐标集合指示所述第三图像中所述第一图像叠加在所述第二图像上的位置,所述第一角度指示所述第三图像中叠加在所述第二图像上的所述第一图像的旋转角度。
在本申请中,通过将干扰图像(上述第一图像)叠加到目标图像(上述第二图像)来生成对应的对抗样本,以用于评估图像检测模型的鲁棒性。具体的,可以通过目标图像的目标区域(上述第一区域)来确定干扰图像叠加到目标图像中的位置和旋转角度,从而可以生成对抗样本,相比于现有的方案,例如通过在图像中添加像素级的噪声来生成对抗样本的方案或者获知图像检测模型的参数和结构来生成对抗样本的方案,本申请结合干扰图像在目标图像中的位置和旋转角度来获得的对抗样本的攻击性较强并且实用性较好,从而用该生成的对抗样本可以更加有效地评估图像检测模型的鲁棒性。另外,本申请通过上述目标区域来确定干扰图像叠加到目标图像中的位置和旋转角度,由于该目标区域是目标图像中的部分区域,从而可以减少参数的搜索范围,提高参数的搜索效率,进而提高样本生成的处理效率。
在其中一种可能的实施方式中,所述获取第一图像和第二图像之前,还包括:构建第二参数空间,所述第二参数空间包括像素值的取值范围;所述获取第一图像,包括:基于所述像素值的取值范围确定所述第一图像的像素值,获得所述第一图像的像素矩阵。
本申请在通过上述目标图像的目标区域(上述第一区域)来确定干扰图像叠加到目标图像中的位置和旋转角度的基础上,还可以基于预设定的参数空间(上述第二参数空间)来生成干扰图像,结合这三者获得的对抗样本实现的攻击性更强,从而可以更加有效地评估图像检测模型的鲁棒性。
在其中一种可能的实施方式中,所述第一图像为物理环境中存在的贴纸的图像。
本申请通过使用物理环境中存在的贴纸的图像,更有助于在图像检测模型中检测出实际应用中可能存在的问题,为提升模型的鲁棒性提供帮助。
第二方面,本申请实施例提供了一种图像检测模型评估方法,该方法包括:
将N个对抗样本分别输入图像检测模型;所述N个对抗样本中的每个样本为采用上述第一方面任一项所述的方法获得的用于攻击所述检测模型的图像,所述N为正整数;
通过所述检测模型输出所述多个对抗样本的检测结果;
基于所述检测结果统计所述多个对抗样本中成功攻击所述检测模型的比例;
基于所述比例评估所述检测模型的鲁棒性。
在本申请中,结合上述第一方面获得多个对抗样本,并将这些对抗样本输入到图像检测模型中进行检测,然后基于检测结果来评估该图像检测模型的鲁棒性。由于获得的对抗样本攻击性强并且实用性好,从而可以有效且准确地评估出该图像检测模型的鲁棒性,进而可以在评估结果的基础上可以进一步完善优化该图像检测模型以提高模型的检测准确率,降低检测出错的概率。
在其中一种可能的实施方式中,所述N个对抗样本为基于M个图像生成的样本,所述M为正整数,M<N;
所述基于所述比例评估所述检测模型的鲁棒性,还包括:
基于所述比例和模型平均调用次数评估所述检测模型的鲁棒性,所述模型平均调用次数为M/N,所述模型平均调用次数指示所述M个图像中每个图像的对抗样本平均输入所述检测模型的次数。
本申请通过对抗样本的成功攻击比例和模型平均调用次数来评估检测模型的鲁棒性,进一步提高评估检测模型鲁棒性的准确性。
第三方面,本申请实施例提供了一种图像处理装置,该装置包括:
获取模块,用于获取第一图像和第二图像;所述第一图像用于叠加于所述第二图像得到第三图像,所述第三图像用于攻击图像检测模型;
处理模块,用于基于第一区域构建第一参数空间;所述第一区域为所述第二图像中的部分区域,所述第一参数空间包括像素坐标参数的范围和角度参数的范围,所述像素坐标参数的范围为所述第一区域在所述第二图像中的像素坐标的集合;基于所述像素坐标参数的范围确定所述第一像素坐标集合,并基于所述角度参数的范围确定所述第一角度;所述第一像素坐标集合指示所述第三图像中所述第一图像叠加在所述第二图像上的位置,所述第一角度指示所述第三图像中叠加在所述第二图像上的所述第一图像的旋转角度。
在其中一种可能的实施方式中,所述处理模块,还用于在所述获取模块获取第一图像和第二图像之前,构建第二参数空间,所述第二参数空间包括像素值的取值范围;
所述获取模块,具体用于:基于所述像素值的取值范围确定所述第一图像的像素值,获得所述第一图像的像素矩阵。
上述第三方面及其可能的实施方式中的有益效果对应参第一方面的描述,此处不再赘述。
第四方面,本申请实施例提供了一种评估图像检测模型的装置,所述装置包括:
输入模块,用于将N个对抗样本分别输入图像检测模型;所述N个对抗样本中的每个样本为采用上述第三方面任一项所述的装置获得的用于攻击所述检测模型的所述第三图像,所述N为正整数;
输出模块,用于通过所述检测模型输出所述N个对抗样本的检测结果;
处理模块,用于基于所述检测结果统计所述N个对抗样本中成功攻击所述检测模型的比例;并基于所述比例评估所述检测模型的鲁棒性。
在其中一种可能的实施方式中,所述N个对抗样本为基于M个不同的所述第二图像生成的样本,所述M为正整数,M<N;
所述处理模块,具体用于:基于所述比例和模型平均调用次数评估所述检测模型的鲁棒性,所述模型平均调用次数为M/N,所述模型平均调用次数指示所述M个图像中每个图像的对抗样本平均输入所述检测模型的次数。
上述第四方面及其可能的实施方式中的有益效果对应参第二方面的描述,此处不再赘述。
第五方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述第一方面所述的方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述第二方面所述的方法。
第七方面,本申请提供一种装置,包括处理器和存储器,用于实现上述第一方面及其可能的实施方式描述的方法。该存储器与处理器耦合,处理器执行存储器中存储的计算机程序时,可以使得该装置实现上述第一方面或第一方面任一种可能的实现方式所述的方法。
在一种可能的实现中,该装置可以包括:
存储器,用于存储计算机程序;
处理器,用于获取第一图像和第二图像;所述第一图像用于叠加于所述第二图像得到第三图像,所述第三图像用于攻击图像检测模型;基于第一区域构建第一参数空间;所述第一区域为所述第二图像中的部分区域,所述第一参数空间包括像素坐标参数的范围和角度参数的范围,所述像素坐标参数的范围为所述第一区域在所述第二图像中的像素坐标的集合;基于所述像素坐标参数的范围确定第一像素坐标集合,并基于所述角度参数的范围确定第一角度;所述第一像素坐标集合指示所述第三图像中所述第一图像叠加在所述第二图像上的位置,所述第一角度指示所述第三图像中叠加在所述第二图像上的所述第一图像的旋转角度。
第八方面,本申请提供一种装置,包括处理器和存储器,用于实现上述第一方面及其可能的实施方式描述的方法。该存储器与处理器耦合,处理器执行存储器中存储的计算机程序时,可以使得该装置实现上述第二方面或第二方面任一种可能的实现方式所述的方法。
在一种可能的实现中,该装置可以包括:
存储器,用于存储计算机程序;
处理器,用于将N个对抗样本分别输入图像检测模型;所述N个对抗样本中的每个样本为采用上述第一方面任一项所述的方法获得的用于攻击所述检测模型的所述第三图像,所述N为正整数;通过所述检测模型输出所述N个对抗样本的检测结果;基于所述检测结果统计所述N个对抗样本中成功攻击所述检测模型的比例;基于所述比例评估所述检测模型的鲁棒性。
需要说明的是,本申请中存储器中的计算机程序可以预先存储也可以使用该装置时从互联网下载后存储,本申请对于存储器中计算机程序的来源不进行具体限定。本申请实施例中的耦合是装置、单元或模块之间的间接耦合或连接,其可以是电性,机械或其它的形式,用于装置、单元或模块之间的信息交互。
综上所述,本申请实施例通过将干扰图像叠加到目标图像来生成攻击性较强并且实用性较好的对抗样本,从而用该生成的对抗样本可以更加有效地评估图像检测模型的鲁棒性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的场景的示意图;
图2是本申请实施例提供的图像检测模型评估方法的流程示意图;
图3A是本申请实施例提供的一种图像的示意图;
图3B是本申请实施例提供的一种图像的示意图;
图4A是本申请实施例提供的一种图像的示意图;
图4B是本申请实施例提供的一种图像的示意图;
图5A是本申请实施例提供的图像坐标系的示意图;
图5B是本申请实施例提供的图像坐标系中像素坐标集合的示意图;
图6是本申请实施例提供的图像坐标系中角度参数的示意图;
图6A是本申请实施例提供的学习模型的结构示意图;
图7是本申请实施例提供的一种贴纸图像的示意图;
图8A是本申请实施例提供的一种交通标识牌的示意图;
图8B是本申请实施例提供的一种交通标识牌图像的示意图;
图9是本申请实施例提供的一种交通标识牌图像的有效粘贴位置的示意图;
图10A是本申请实施例提供的一种交通标识牌的对抗样本的示意图;
图10B是本申请实施例提供的一种交通标识牌的另一种对抗样本的示意图;
图11是本申请实施例提供的实验获得的攻击成功率的对比结果示意图;
图12是本申请实施例提供的图像处理方法的流程示意图;
图13是本申请实施例提供的图像处理装置的示意图;
图14是本申请实施例提供的评估图像检测模型的装置的示意图;
图15是本申请实施例提供的装置的一种可能的硬件结构示意图。
具体实施方式
下面结合附图对本申请实施例中的技术方案进行描述。
为了便于理解本申请提供的方法,下面对涉及的术语进行介绍:
1、对抗样本
对抗样本是指在数据集中通过添加的细微的干扰所形成的输入样本,可以导致模型以高置信度给出一个错误的输出。
2、鲁棒性
鲁棒性指控制系统在一定(结构,大小)的参数摄动下,维持其它某些性能的特性。
3、掩膜
掩膜是由0和1组成的一个二进制图像。当在某一功能中应用掩模时,1值区域被处理,被屏蔽的0值区域不被包括在计算中。
为了更好的理解本申请实施例,下面对本申请实施例适用的场景进行示例性地描述,参见图1。
图1所示为本申请实施例提供的系统架构100,该系统架构100包括图像获取装置110和图像处理装置120。
图像获取装置110用于获取图像,并将获取的图像发送给图像处理装置120。图像处理装置120中包括图像检测模型,可以通过该图像检测模型检测获取的图像。
示例性地,图像获取装置110例如可以是摄像机、摄像头或者扫描仪等。
示例性地,图像处理装置120可以是终端设备或服务器。
例如,在自动驾驶的应用场景中,该图像获取装置110可以是安装在车辆上的摄像机、摄像头或者扫描仪等;该图像处理装置120可以是该车辆中的处理设备,或者可以是与所述车辆通信的服务器等等。
例如,在人脸识别的应用场景中,该图像获取装置110可以是摄像机、电子设备上的摄像头、相机,或者扫描仪、人脸识别器等;该图像处理装置120可以是电子设备、扫描仪、人脸识别器中的图像处理器等。
基于上述图1所述的系统架构可知,图像检测模型的性能是具体应用实现的关键。为了了解并优化图像检测模型的性能,可以通过对抗样本来评估图像检测模型的鲁棒性。但是现有的方案中生成的对抗样本攻击性较弱,或者实用性较差,为了获取攻击性较强、实用性较好的对抗样本以用于有效评估图像检测模型的鲁棒性,本申请实施例提供了一种图像检测模型评估方法,该方法可以由上述图1中所述的图像处理装置120执行。
参见图2,本申请提供的图像检测模型评估方法包括但不限于如下步骤:
S101:获取第一图像和第二图像;第一图像叠加于第二图像得到第三图像,第三图像用于攻击图像检测模型。
示例性地,上述第一图像可以是物理环境中存在的图像,图像处理装置可以通过用户界面接收用户输入的该第一图像,或者图像处理装置可以从其它设备接收该第一图像等等。
或者,示例性地,该第一图像可以是图像处理装置随机生成的图像。
一种可能的实施方式中,上述第二图像可以是自动驾驶领域中涉及到的交通标识牌的图像或者车道线的图像等等。这种情况下,上述图像检测模型为交通标识牌图像检测模型或者车道线图像检测模型。
另一种可能的实施方式中,上述第二图像可以是人脸图像、动物图像、风景图像、物品图像等。这种情况下,上述图像检测模型为对应类型的图像检测模型。
在具体实现中,图像获取装置(例如上述图1所示的图像获取装置110)获取到上述第二图像之后,将该第二图像发送给图像处理装置。
一种可能的实施方式中,图像处理装置从图像获取装置接收到的图像需要经过进一步处理才能获得上述第二图像。该进一步处理可以包括通过目标检测技术检测出目标区域,排除接收的图像中的背景区域,该获得的目标区域的图像即为上述第二图像。该目标检测技术可以是基于深度学习的检测模型等。例如,若图像处理装置从图像获取装置接收到的图像为包括交通标识牌的图像,示例性地参见图3A所示的图像,该图像包括限速40km/h的交通标识牌区域和背景区域,那么,图像处理装置可以先通过交通标识牌的深度学习检测模型检测并提取交通标识牌的区域,从而去掉了背景区域,以提取的交通标识牌区域的图像作为第二图像,提取得到的第二图像可以参加图3B所示的图像。
S102:确定上述第二图像中的第一区域,基于该第一区域构建第一参数空间;第一区域为第二图像中的部分区域,第一参数空间包括像素坐标参数的范围和角度参数的范围,像素坐标参数的范围为第一区域在第二图像中的像素坐标的集合。
在具体实现中,上述第二图像中的第一区域可以是该第二图像中非关键位置的区域,该非关键位置的区域被遮挡后人眼也能辨认出该第二图像指示的信息。即该第二图像的第一区域用于叠加上述第一图像以生成上述第三图像,即生成上述图像检测模型的对抗样本。
一种可能的实现方式中,在该第二图像中还包括关键位置的区域,示例性地,该关键位置的区域可以是以该第二图像的中心点为原点向周围发散的部分区域;该第二图像中关键位置的区域之外的部分或者全部区域为上述非关键位置的区域。
为了便于理解上述第二图像中的非关键位置的区域,举例说明,可以示例性地参见图4A和图4B。图4A中示出的第二图像为指示直行的交通标识牌的图像,图4B中示出的第二图像为指示限速40km/h的交通标识牌的图像,图4A和图4B中虚线框起来的区域为各自的关键位置的区域,那么,在图4A所示的图像中除了虚线框起来的区域之外的部分或全部区域为非关键位置的区域;同理,在图4B所示的图像中除了虚线框起来的区域之外的部分或全部区域为非关键位置的区域。
需要说明的是,上述非关键位置的区域仅为示例,不构成对本申请实施例的限制。
示例性地,在具体实现中,可以生成上述第二图像的掩膜MF∈Rr×v来标记该第二图像中的第一区域。该第二图像的掩膜是一个r*v的矩阵,该矩阵的大小与该第二图像的像素矩阵的大小相同,该r和v为正整数。具体的,可以通过对该第二图像中第一区域的像素标记为1,对该第一区域之外的区域的像素标记为0来生成该第二图像的掩膜。即通过该掩膜可以清楚地标记出该第二图像中的第一区域。
确定上述第二图像中的第一区域之后,基于该第一区域构建上述第一参数空间。如上所述,该第一参数空间包括像素坐标参数的范围和角度参数的范围,该像素坐标参数的范围为第一区域在第二图像中的像素坐标的集合。
一种可能的实施方式中,图像处理装置可以为该第二图像构建一个图像坐标系,该图像坐标系例如可以参见图5A。该图像坐标系以该第二图像左上角为原点O,构建以像素为单位的直角坐标系u-v。在该坐标系中像素的坐标表示为(u,v),原点O的像素坐标为(0,0),像素的横坐标u表示该像素在该第二图像的像素矩阵中的列数,像素的纵坐标v表示该像素在该第二图像的像素矩阵中的行数。例如,假设第二图像中的某个像素为该第二图像的像素矩阵中第i行第j列的像素,那么,该某个像素在该图像坐标系中的像素坐标为(i,j)。
基于上述为第二图像构建的图像坐标系,可以确定上述第二图像中的第一区域包括像素的坐标的集合,该集合即为上述像素坐标参数的范围。例如可以参见图5B,图5B中所示第一区域在第二图像中占据的像素坐标集合为{(u,v)|u∈(2,3),v∈(3,4)},该像素坐标集合为像素坐标参数的范围。
需要说明的是,图像处理装置为第二图像建立的图像坐标系不限于上述图5A所示的坐标系,还可以是以第二图像的任意一点例如中心点等为原点O建立的坐标系等等,本申请对为第二图像建立的图像坐标系不做限制。
上述角度参数的范围可以是0°至360°。示例性的,可以参见图6,该角度参数的范围可以是以该第二图像中的任意一点为原点在第二图像所在的平面中延伸的任意一个方向为0°,然后以该原点为旋转中心顺时针旋转或者逆时针旋转至360°的范围。或者,示例性的,该角度参数的范围可以是以上述第一区域中的任意一点为原点在第二图像所在的平面中延伸的任意一个方向为0°,然后以该原点为旋转中心顺时针旋转或者逆时针旋转至360°的范围。
S103:基于像素坐标参数的范围确定第一像素坐标集合,并基于角度参数的范围确定第一角度;第一像素坐标集合指示上述第三图像中第一图像叠加在第二图像上的位置,第一角度指示上述第三图像中叠加在第二图像上的第一图像的旋转角度;将基于该第一像素坐标集合和第一角度获得的第三图像输入上述图像检测模型进行检测,并输出检测结果。
在具体实施例中,图像处理装置获得上述第一参数空间之后,可以在该第一参数空间内搜索并确定具体的像素坐标集合(即上述第一像素坐标集合)和旋转角度(即上述第一角度),以确定上述第一图像叠加到上述第二图像的位置和旋转角度。
具体的,可以在第一参数空间包括的像素坐标参数的范围内搜索并确定该具体的像素坐标集合。示例性地,该具体的像素坐标集合可以是与第一图像的像素矩阵大小相同的像素矩阵。可以在第一参数空间包括的角度参数的范围内搜索并确定该具体的旋转角度。
可选的,可以通过差分进化算法、机器学习算法或深度学习算法等算法来搜索上述具体的像素坐标集合和具体的旋转角度。
示例性地,若通过差分进化算法来搜索参数的值,首先构建一个参数向量θ=(θ1,θ2);其中,θ1表示像素坐标集合的参数,其每次迭代搜索得到的是与第一图像的像素矩阵大小相同的像素矩阵的坐标的集合,具体的搜索范围为上述像素坐标参数的范围;θ2表示上述角度参数,其每次迭代搜索得到的是一个具体的角度值,具体的搜索范围为上述角度参数的范围,即[0°,360°)。
在差分进化算法中上述参数向量也称为一个种群。种群中的每个个体代表一个参数向量的可能取值,个体上的每个参数代表相应向量组内对应参数的取值。构建得到该种群之后,可以根据上述像素坐标参数的范围和角度参数的范围对上述种群进行初始化,即对上述参数向量进行随机初始化。初始化之后,即可得到一组θ1和θ2的具体取值,通过该组初始化的取值可以确定上述第一图像叠加到上述第二图像的一个位置和一个旋转角度。即该初始化得到的θ1的具体取值可以是上述第一像素坐标集合,该初始化得到的θ2的具体取值可以是上述第一角度。基于该确定的位置和旋转角度可以将第一图像叠加到第二图像上获得第三图像,即获得上述图像检测模型的一个对抗样本。然后,将该对抗样本输入到上述图像检测模型中进行检测,输出检测结果。
随机初始化上述种群之后,可以根据种群迭代的目标函数进行种群的迭代更新,每迭代一次都可以获得一组θ1和θ2的具体取值,每获得一组θ1和θ2的具体取值都可以确定上述第一图像叠加到上述第二图像的一个位置和一个旋转角度。即每迭代一次得到的θ1的具体取值都可以是上述第一像素坐标集合,每迭代一次得到的θ2的具体取值都可以是上述第一角度。同理,基于每次种群迭代确定的位置和旋转角度可以将第一图像叠加到第二图像上获得第三图像,即获得上述图像检测模型的一个对抗样本。然后,将该获得的对抗样本输入到上述图像检测模型中进行检测,输出检测结果。
示例性地,上述种群迭代的目标函数可以是:
g(x;s,θ)表示生成的对抗样本图像,也就是上述第三图像。其中x表示原图像(比如一个限速40的交通标识牌图像),s表示将上述第一图像叠加到上述第二图像以获得上述第三图像的过程,具体实现中表现为粘贴贴纸的过程,θ表示上述第一参数空间中的参数(包括上述像素坐标参数和角度参数)。g(x;s,θ)表示的就是针对原图x采用以θ为变换参数的图像变换操作s后得到的对抗样本图像。
f()函数表示图像检测模型,输入一个图像,输出这个图像检测的结果,例如输入限速40的交通标识牌图像,输出为检测到限速40的交通标识牌的概率。
L()代表损失函数,untarget代表非目标攻击,untarget和表示躲避攻击的dodging表示的意思相同。假如原图像是限速40的交通标识牌图像,将攻击后得到的对抗样本图像输入检测模型f(),图像检测模型f()检测到限速40的交通标识牌的概率变低,而检测为限速60或者禁止鸣笛的概率变高(除了限速40外其他任何一类交通标识牌的概率升高并且超过限速40的概率)。
上述目标函数表示的意思为:对于原图x,其标签类别是要找到一个参数θ,使得经过变换后得到的对抗样本图像g(x;s,θ)被图像检测模型f检测为的概率最小(也就是损失函数L()取值最小),而检测为其他类别的概率变大(只要类别概率变小,其他类别概率肯定会增大),这样就实现了非目标攻击。
此外,令种群内个体适应度评价指标J(θ)=L(θ)。J(θ)表示评判种群内个体的优劣程度的评价指标,对应的J(θ)值越小的个体越优。初始状态下,J(θ)与目标函数保持一致。
在具体实现中,上述将对抗样本输入图像检测模型中检测并输出检测结果后,可以基于检测结果判断该对抗样本对该图像检测模型的攻击是否成功。具体的,若图像检测模型正确识别出了对抗样本中包括的第二图像指示的信息,则攻击失败,若图像检测模型没有正确识别出了对抗样本中包括的第二图像指示的信息,则攻击成功。例如,若对抗样本中包括的第二图像为指示直行的交通标识牌图像,将该对抗样本输入图像检测模型后得到的检测结果为模型识别出该对抗样本为指示直行的交通标识牌,则攻击失败,反之,模型识别出该对抗样本不是指示直行的交通标识牌,则攻击成功。
若攻击成功,则结束上述种群的迭代,并记录迭代的次数。因为,每迭代一次可以获得一个对抗样本,每个对抗样本都调用一次图像检测模型来进行检测,那么该迭代的次数即为调用图像检测模型的次数。如果上述初始化的数值也获得一个对抗样本,并调用图像检测模型进行检测,那么调用图像检测模型的次数为迭代的次数再加上一次的数量。
一种可能的实施方式中,为了避免无限迭代下去浪费计算资源,可以为上述种群的迭代设置迭代次数的上限T,例如可以设置迭代次数的上限T为30次、40次或者100次等等,本申请对该T的具体取值不做限制。在具体实现中,若迭代次数达到上限T都没有成功攻击对上述图像检测模型,那么,也结束上述种群的迭代。这种情况下,调用图像检测模型的次数为T,如果上述初始化的数值也获得一个对抗样本,并调用图像检测模型进行检测,那么调用图像检测模型的次数为T+1。
示例性地,若基于机器学习算法或深度学习算法来搜索上述具体的像素坐标集合和具体的旋转角度,可以基于上述第一参数空间构建一个参数搜索模型,并根据上述像素坐标参数的范围和角度参数的范围随机初始化像素坐标参数和角度参数,并以初始化的参数为输入信息输入到参数搜索模型中进行参数值的搜索。参数搜索模型的输出即为搜索到的上述第一像素坐标集合和第一角度。基于搜索到的第一像素坐标集合和第一角度可以将第一图像叠加到第二图像上获得第三图像,即获得上述图像检测模型的一个对抗样本。然后,将该对抗样本输入到上述图像检测模型中进行检测,输出检测结果。该输出的检测结果又可以反向输入到上述参数搜索模型中以进行该参数搜索模型的参数的优化,然后,基于优化后的参数继续搜索新的第一像素坐标集合和第一角度。通过多次循环迭代后,若获得的对抗样本成功攻击上述图像检测模型,则参数搜索模型结束搜索,并记录该参数搜索模型迭代搜索的次数作为上述调用图像检测模型的次数。
S104,基于上述S101至S103的操作获得多个不同的对抗样本的检测结果,基于该多个对抗样本的检测结果评估上述图像检测模型的鲁棒性。
上述步骤S101至步骤S103是基于一个上述第二图像生成多个对抗样本来攻击上述图像检测模型,并记录了该多个样本是否对模型攻击成功的信息以及该多个对抗样本攻击图像检测模型的过程中调用该模型的次数。为了更好地,评估该图像检测模型的鲁棒性,可以使用多个上述第二图像来生成对抗样本攻击该图像检测模型,基于该多个第二图像中每个第二图像生成对抗样本来攻击图像检测模型的具体实现可以参见上述步骤S101至步骤S103中对应的描述。
完成该多个第二图像的对抗样本攻击图像检测模型的操作之后,可以获得该多个第二图像中每个图像对应的是否对模型攻击成功的信息以及调用图像检测模型的次数。然后,统计该多个第二图像生成的对抗样本成功攻击该图像模型的比例,通过该比例的大小来评估该图像检测模型的鲁棒性。例如,若该比例大于设定的第一阈值,则可以确定该图像检测模型的鲁棒性较差,若该比例小于该第一阈值,则可以确定该图像检测模型的鲁棒性较好。
一种可能的实施方式中,还可以统计该多个第二图像对应的调用图像检测模型的次数的平均值,该平均值可以称为模型平均调用次数。同理,可以将该模型平均调用次数与设定的第二阈值比较,若该模型平均调用次数大于该第二阈值,则可以确定该图像检测模型的鲁棒性较好,反之,若该模型平均调用次数小于该第二阈值,则可以确定该图像检测模型的鲁棒性较差。
一种可能的实施方式中,上述步骤S101中的获取第一图像可以是基于预先构建的像素值的取值范围获得。
在具体实现中,图像处理装置可以先构建第二参数空间,该第二参数空间包括上述像素值的取值范围,可以基于该像素值的取值范围确定该第一图像的像素值,获得该第一图像的像素矩阵。该像素值的取值范围可以是[0,255],可选的,可以将该像素值归一化,那么,该像素值的取值范围可以是[0,1]。
一种可能的实施方式中,上述步骤S103中基于机器学习算法或深度学习算法构建的参数搜索模型还可以结合该第二参数空间一起构建,构建得到的参数搜索模型可以联合搜索该第一图像的像素值、上述像素坐标参数的值和上述角度参数的值。然后,基于联合搜索到的第一图像的像素值生成第一图像,基于该联合搜索到的像素坐标参数的值和角度参数的值将该生成的第一图像叠加到上述第二图像中获得对抗样本第三图像,并用该第三图像来攻击上述图像检测模型。
为了便于理解,下面以基于深度强化学习模型来搜索参数空间确定该像素坐标参数的值和该第一图像的像素值为例进行介绍。
示例性地,假设第一图像叠加到第二图像获得的第三图像(即对抗样本)表示为:
示例性地,可以使用基于MI-FGSM算法的集成攻击模型来生成上述第一图像,该集成攻击模型即为上述深度强化学习模型。本申请采用的深度强化学习模型中可以包括n个学习子模型,该学习子模型也可以称为智能体(agent),或者称为代理模型(surrogatemodel)。对于包括该n个学习子模型的集成攻击模型,让pi表示每个学习子模型fi的权重,∈表示攻击步长,该攻击步长即为同一个参数中两次相邻搜索得到的值的差。该i的取值从1到n,n为大于0的整数。然后以非针对性攻击(或躲避攻击)为例,给定第二图像的真实标签y,让fi(x,y)表示模型fi将该第二图像x预测为标签y的置信度得分,那么可以通过迭代方式计算
对于有针对性的攻击(或者说模仿攻击),可以给定第二图像l可以简单替换为为了优化掩码矩阵A,固定对对抗样本的形状和大小(sh,sw),并改变其中心坐标(cx,cy)来调整掩码矩阵,对应的掩码定义为Ac。由此,对抗样本可以表示为:
本示例的攻击目标是优化第一图像的位置和内容,以生成良好的可转移对抗样本来攻击目标图像检测模型。因此,掩码Ac、等式(5)中的攻击步长∈和等式(4)中的权重pi设置为学习参数。为了使参数更适合目标图像检测模型,可以通过对目标模型的少量查询来动态优化参数。
具体的,基于学习子模型获得的参数是由查询目标图像检测模型返回的信息引导的,即将基于这些参数获得的对抗样本输入到图像检测模型进行检测,并将检测结果返回给该学习子模型以用于优化对应的参数,这个过程可以表示为学习子模型通过强化学习中与环境交互获得的奖励信号的学习,由此可以构建一个学习子模型学习攻击参数的选择策略。
示例性地,参数值定义为学习子模型在选择策略π指导下生成的动作,at表示第t个动作(即第t个参数的值)。输入到学习子模型的图像特征定义为状态s,威胁模型F(·)为目标图像检测模型。参数为θ的策略函数πθ(a|s)是学习子模型用来决定采取什么动作的规则,可以表述为状态s中动作a的概率分布。
奖励反映了当前生成的对抗样本在目标图像检测模型上的表现,学习子模型的训练目标是学习好的策略以最大化奖励信号。在图像识别中,躲避攻击的目标是生成尽可能远离目标图像即上述第二图像的图像,而模仿攻击的目标是生成与目标图形尽可能相似的图像。因此,奖励函数R被形式化为:
在迭代训练中,学习子模型首先根据策略π预测一组参数,然后根据预测参数生成对抗样本,将生成的对抗样本输入威胁模型以获得奖励值。经过多次训练,学习子模型将生成在威胁模型上表现良好的动作即参数,从而可以基于这些参数生成攻击性更强的对抗样本。
上述学习子模型需要学习位置、权重和攻击步长的策略。考虑到位置等参数的联合求解,学习子模型的设计采用了基于U-net的结构。假设学习子模型的数量为n,设计学习子模型以n个通道输出,且输出为与输入图像具有相同长度h和宽度w(即大小为n×h×w)的特征图。
在特征图M的每个通道Mi(i=1,..,n)中,每个像素点的相对值代表了每个位置对于学习子模型fi的重要性,通道的整体值反映了对应的学习子模型的重要性。上述第一图像子上述第二图像中的不同位置有不同的攻击强度,因此在学习子模型网络的顶层,使用全连接层将特征图M映射到表示不同攻击步长值的向量V。学习子模型的结构可以参见图6A所示。
图6A最左侧的方块里面代表的是U-Net的网络结构,每一个竖向方块代表一层网络,下面的数字代表通道数。
第一层是输入层,3表示输入层的通道数,由于彩色图像有RGB三个通道,输入层通道数自然就是3。
Conv3×3和Conv1×1代表卷积层,其对应的卷积核大小分别为3×3和1×1。
Max Pool 2×2代表2×2的最大池化层。
Up conv 2×2表示上采样层,每处理一次,特征图宽和高就扩大2倍。如:原来是大小128*32*32,经过上采样就变为128*64*64。32和64表示特征图的大小,也就是宽和高,128表示的是通道数。
FC layer表示全连接层。
上面这些都是神经网络的一些基本模块和基本操作。由上面这些基本操作组成的U-net网络可以实现需要的功能。即:输入一张图像,通过学习,可以输出上述像素坐标参数等信息参数。
整个U-Net网络结构从左到右所执行的操作为:
1.输入一个3通道图像;
2.进行一次3×3卷积操作,得到64通道的特征图;
3.然后进行最大池化操作下采样,得到64通道,但是大小减半的特征图;
4.之后3×3卷积操作得到128通道的特征图;
5.再进行最大池化操作下采样,得到128通道,但是大小减半的特征图;
6.进行3×3卷积操作,得到256通道的特征图;
7.上采样,特征图大小变大为2倍;
8.1×1卷积,通道数减为128;
9.上采样,特征图大小增大为两倍,和原图大小一样。这里的大小指的是长和宽;
10.1×1卷积,通道数减为128;
11.1×1卷积,通道数减为n。
完成上述操作之后可以得到的n*h*w的特征图,用于预测位置和权重。再后面进行了一次全连接层的处理,用于预测步长。
图6A右侧的方块表示对U-Net输出的特征图进一步处理,得到上述像素坐标参数等参数信息。
具体来说,对于位置参数,位置的可选范围是离散的,因此位置策略πθ1被设计为遵循分类分布。给定每个位置被选中的概率Pposition,位置参数(cx,cy)~Cat(Pposition)和Pposition可以计算为:
对于攻击步长参数,以0.01的间隔设置0.01到0.2范围内的20个值,并由于值的离散性采用分类分布作为步长策略πθ3。所以步长参数∈~Cat(pstep),每个候选值的概率pstep为:
pstep=softmax(FC(Ppostion)) (9)
通过从相应的分布中采样,可以得到位置参数(cx,cy)、权重参数ρi(i=1,...,n)和步长参数∈。
在上述迭代训练的过程中,可以使用策略梯度算法来指导学习子模型的策略更新。具体的,在学习子模型训练中,目标是让学习子模型hθ学习一个好的策略πθ。假设学习子模型有T个攻击参数需要确定,并且τ=(s,a1,a2,...,aT)是决策结果,那么最优策略参数θ*表示为:
其中Rn是第n次采样的奖励。当使用参数θ更新策略时,可以将奖励R视为步长。奖励越大,步长越大。如果奖励为负,则将向相反的方向发展。通过这种方式,学习子模型可以在增加奖励的方向上随着θ的更新学习到好的策略函数。
对于遵循分类分布的参数即位置参数和攻击步长参数,给定概率向量p(即等式(7)和等式(9)中的Pposition和pstep),让p(a)表示概率向量p中参数a的概率,然后对于πθ1和πθ3,在等式(11)中的可以计算为:
通过上述的示例,可以实现基于深度强化学习模型来搜索参数空间确定对应的参数以生成攻击性强的对抗样本。
为了便于理解上述图像检测模型评估方法,下面结合自动驾驶领域的交通标识牌图像检测模型为例进行示例性地描述。
本申请实施例的图像检测模型评估方法,适用于自动驾驶车辆中检测模型进行训练或评估的应用场景。本申请中的图像检测模型评估方法,可以由数据处理装置执行,该装置采用软件和/或硬件实现,并具体配置于电子设备中,该电子设备可以是终端设备或服务器。在一种可能的实施方式中,该电子设备可以是车载设备,可设置于车辆中。设置该电子设备的车辆可以是具备自动驾驶功能的车辆。交通标识牌图像检测模型评估方法可以包括但不限于如下步骤:
S201:获取贴纸图像和交通标识牌图像。
获取贴纸图像,该贴纸可以是物理环境中存在的贴纸或噪声贴纸。
在一种可能的实施方式中,贴纸可以是物理环境中存在的贴纸。图像处理装置可以通过用户界面接收用户输入的贴纸图像,或者图像处理装置可以从其它设备接收该贴纸图像等等。如,通过图像技术接收如图7所示的贴纸图像。
在另一种可能的实施方式中,贴纸图像可以是噪声贴纸图像。例如,可以使用随机噪声生成器生成多个噪声,再使用固定L步长得梯度下降法GD计算出最优噪声,从而生成噪声贴纸图像。噪声贴纸图像可以是基于预先构建的像素值的取值范围获得。基于噪声贴纸图像的像素值的取值范围确定噪声贴纸图像的像素值,获得噪声贴纸图像的像素矩阵。像素值的取值范围通常为[0,255],本申请实施例中,将像素值的取值范围归一化,对应为[0,1],如若像素值为255,本申请实施例中对应为1。
获取交通标识牌图像,借助目标检测技术检测出如图8A所示的交通标识牌的标识牌区域,该标识牌区域指示的信息为“限速100km/h”,获取标识牌区域200,排除背景区域210,得到如图8B所示的交通标识牌图像。
S202:确定交通标识牌图像的有效的贴纸粘贴坐标集合。
如图9所示,该交通标识牌图像中的关键位置区域为指示“限速100km/h”信息的区域220,确定交通标识牌图像中排除区域220的区域230为有效的贴纸粘贴位置。有效的贴纸粘贴位置为排除标识“100”的区域。基于该位置生成上述交通标识牌图像的掩膜MF∈Rr×v来标记该交通标识牌图像中的有效的贴纸粘贴位置坐标集合。该交通标识牌图像的掩膜是一个r*v的矩阵,该矩阵的大小与该交通标识牌图像的像素矩阵的大小相同,该r和v为正整数。具体的,可以通过对有效的贴纸粘贴位置230的像素标记为1,对除此之外的区域220的像素标记为0来生成该交通标识牌图像的掩膜。即通过该掩膜可以清楚地标记出该交通标识牌图像中的有效的贴纸粘贴位置坐标集合。
S203:选择攻击参数并确定各个攻击参数的取值范围,以此构建攻击参数空间。通过攻击算法搜索合适的攻击参数,依据攻击参数生成对抗样本,并输入到交通标识牌检测模型中进行检测,输出检测结果。
在一种可能的实施方式中,设攻击参数向量为θ=(θ1,...,θi,...,θd)1≤i≤d,令d=2,选定贴纸的粘贴位置(即θ1)、旋转角度(即θ2)作为攻击参数。确定各个参数的取值范围粘贴位置(θ1)的取值范围是包含有效粘贴位置的坐标集合,旋转角度θ2的取值范围为[0°,360°)。
以交通标识牌图像构建该图像坐标系,该图像坐标系以该交通标识牌图像左上角为原点O,以图像上侧为x轴,以图像左侧为y轴,建立坐标系,该粘贴位置的取值范围是有效粘贴位置的坐标集合。
以该交通标识牌图像中有效粘贴位置的左上角为原点,在该图像所在的平面右侧延伸的方向为0°,以该原点为旋转重心顺时针旋转360°。因此,旋转角度θ2的范围为[0°,360°)。
在另一种可能的实施方式中,设攻击参数向量为θ=(θ1,...,θi,...,θd)1≤i≤d,令d=3,选定贴纸的粘贴位置(即θ1)、旋转角度(即θ2)、像素矩阵(即θ3)作为攻击参数。确定各个参数的取值范围粘贴位置(θ1)的取值范围是包含有效粘贴位置的坐标集合,以及旋转角度θ2的取值范围为[0°,360°)不再赘述。像素矩阵θ3的取值范围归一化,对应为[0,1]以贴纸的粘贴位置θ1、旋转角度θ2为攻击参数时,通过差分进化算法来搜索贴纸的粘贴位置、旋转角度。给定种群规模P,令P=120,令X(k)表示第k代种群,种群由P组待选攻击参数向量构成,种群中的每个个体代表一组攻击参数向量的可能取值,个体上的每个参数代表相应向量组内对应参数的取值。令J(θ)表示评判种群内个体的优劣程度的评价指标,对应的J(θ)值越小的个体越优。初始状态下,J(θ)与对抗攻击的目标函数保持一致。首先在攻击参数的取值范围内对初代种群X(0)进行随机初始化。选定攻击方式为非目标攻击,确定其目标函数为:且令种群内个体适应度评价指标J(θ)=L(θ)。对对种群进行迭代进化更新,直到满足停止迭代的标准。第一步、设种群迭代进化次数的上限为T=30,stop=T,k=0。第二步、若k<T且X0(k)代表的攻击参数向量可以实现成功攻击,则令stop=k,结束迭代进化;否则以随机杂交和近亲繁殖两种方式进行下一步来生成候选种群C(k)。重复执行第二步,k=k+1,直到满足结束迭代进化的标准。
以X0(stop)为攻击参数生成当前标识牌图像的对抗样本,将该对抗样本输入交通标识牌图像检测模型中,获得检测结果。如图所示,若交通标识牌图像检测模型正确识别该对抗样本中包括的交通标识图像指示的信息“限速100km/h”,则攻击失败;如图所示,若交通标识牌图像检测模型没有正确识别出对抗样本中包括的交通标识图像指示的信息“限速100km/h”,则攻击成功。若攻击成功,则结束上述种群的迭代,并记录迭代的次数k。
S204:重复执行S201-S203的单张交通标识牌图像的对抗样本的生成过程,直至全部交通标识牌测试图像的对抗样本生成完毕;通过交通标识牌的检测模型输出所有对抗样本的检测结果,统计所有对抗样本中能实现成功攻击所述检测模型的比例和生成过程中对交通标识牌检测模型的平均查询次数,以此两项指标作为对交通标识牌检测模型的鲁棒性评估结果。
若所有对抗样本中能实现成功攻击所述检测模型的比例大于设定的第一阈值,则可以确定该图像检测模型的鲁棒性较差,若该比例小于该第一阈值,则可以确定该图像检测模型的鲁棒性较好。
将该检测模型平均调用次数与设定的第二阈值比较,若该检测模型平均调用次数大于该第二阈值,则可以确定该图像检测模型的鲁棒性较好,反之,若该检测模型平均调用次数小于该第二阈值,则可以确定该图像检测模型的鲁棒性较差。
交通标识牌的检测模型f(·)可以输出以上对抗样本攻击成功或攻击失败的检测结果;交通标识牌的检测模型f(·)还可以对输入到模型的标识牌图像x输出其相应的预测类别标签以及概率f(x,t)。
如图10A所示的对抗样本,检测模型输出预测类别标签以及概率为:限速100km/h,99%,如图10B所示的对抗样本,检测模型输出预测类别标签以及概率为:禁止机动车驶入,76%。
通过联合优化贴纸粘贴位置和旋转角度,可以减少对检测模型的调用次数,通过少量的模型调用次数动态调整攻击参数,有效提高攻击成功率和模型调用效率。
本申请提供的图像检测模型评估方法还可以应用在人脸识别模型中,具体评估的具体实现可以参见上述图2及其可能的实施方式中对应的描述,此处不再赘述。
为了体现本申请的图像检测模型评估方法相比于现有的方案可以生成攻击性更强的对抗样本从而更有效地实现图像检测模型的评估,本申请实施例通过实验获得了对应的实验数据证明了这一点。示例性地,该实验中的对抗样本可以是基于上述基于深度强化学习模型来搜索参数空间确定对应的参数生成的对抗样本。
示例性地,图11所示为实验获得的攻击成功率的对比结果示意图。在实验中,选定四种具有代表性的人脸识别模型作为待检测模型,这四种模型包括:
模型一、FaceNet人脸识别模型;
模型二、CosFace50人脸识别模型;
模型三、ArcFace34人脸识别模型;
模型三、ArcFace50人脸识别模型。
并且,从野外带标签的面孔(labeled faces in the Wild,LFW)和名人面孔属性(celeb Faces attribute,CelebA)中随机选择5752个不同的人脸图像构建人脸数据库。然后,基于该人脸数据库中的人脸图像生成对抗样本,可以通过三种方式来生成对抗样本:
方式一、只改变干扰图像(例如上述第一图像)叠加到这些人脸图像上的位置来生成对抗样本;
方式二、只改变叠加到这些人脸图像上的干扰图像的内容来生成对抗样本;
方式三、改变干扰图像叠加到这些人脸图像上的位置和叠加到这些人脸图像上的干扰图像的内容来生成对抗样本。
然后,将这些对抗样本分别输入到上述四中模型中进行检测,以成功攻击率和模型调用次数两个指标评估模型的鲁棒性。图11所示中包括两种对抗样本,一种是躲避对抗样本,该躲避对抗样本为尽可能远离目标图像(例如上述第二图像)的对抗样本;另一种是模仿对抗样本,该模仿对抗样本为与目标图像尽可能相似的对抗样本,结合该两种对抗样本是进行实验可以获得更准确的实验结果。结合图11中所示的数据可以看到,上述方式一和上述方式二对应的平均成功率分别为38.89%和48.38%,而方式三对应的平均成功率为78.81%,从而表明联合优化干扰图像叠加到这些人脸图像上的位置和叠加到这些人脸图像上的干扰图像的内容来生成不同的对抗样本的攻击模式具有更好的攻击效果。
基于上述的描述,本申请实施例还提供了一种图像处理方法,参见图12,该图像处理方法可以包括但不限于如下步骤:
S1201、获取第一图像和第二图像;该第一图像用于叠加于该第二图像得到第三图像,该第三图像用于攻击图像检测模型。
S1202、基于第一区域构建第一参数空间;该第一区域为该第二图像中的部分区域,该第一参数空间包括像素坐标参数的范围和角度参数的范围,该像素坐标参数的范围为该第一区域在该第二图像中的像素坐标的集合。
S1203、基于该像素坐标参数的范围确定第一像素坐标集合,并基于该角度参数的范围确定第一角度;该第一像素坐标集合指示该第三图像中该第一图像叠加在该第二图像上的位置,该第一角度指示该第三图像中叠加在该第二图像上的该第一图像的旋转角度。
在一种可能的实施方式中,上述获取第一图像和第二图像之前,还包括:构建第二参数空间,该第二参数空间包括像素值的取值范围;上述获取第一图像,包括:基于该像素值的取值范围确定该第一图像的像素值,获得该第一图像的像素矩阵。
上述图12所示图像处理方法及其可能的实施方式的具体实现和有益效果的描述可以参见上述图2所示图像检测模型评估方法及其可能的实现方式中对应的描述,此处不再赘述。
上述主要对本申请实施例提供的图像处理方法和图像检测模型评估方法进行了介绍。可以理解的是,各个设备,例如自动驾驶车辆等为了实现上述对应的功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对车辆等进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图13示出了一种图像处理装置300,该装置例如可以是上述方法实施例中所述的图像处理装置,或者可以是该图像处理装置中的芯片,或者可以是该图像处理装置中的处理系统等,该装置300包括:
获取模块310,用于获取第一图像和第二图像;该第一图像用于叠加于该第二图像得到第三图像,该第三图像用于攻击图像检测模型;
处理模块320,用于基于第一区域构建第一参数空间;该第一区域为该第二图像中的部分区域,该第一参数空间包括像素坐标参数的范围和角度参数的范围,该像素坐标参数的范围为该第一区域在该第二图像中的像素坐标的集合;基于该像素坐标参数的范围确定该第一像素坐标集合,并基于该角度参数的范围确定该第一角度;该第一像素坐标集合指示该第三图像中该第一图像叠加在该第二图像上的位置,该第一角度指示该第三图像中叠加在该第二图像上的该第一图像的旋转角度。
在其中一种实施方式中,该处理模块320,还用于在该获取模块获取第一图像和第二图像之前,构建第二参数空间,该第二参数空间包括像素值的取值范围;
该获取模块,具体用于:基于该像素值的取值范围确定该第一图像的像素值,获得该第一图像的像素矩阵。
在采用对应各个功能划分各个功能模块的情况下,图14示出了一种图像处理装置400,该装置例如可以是上述方法实施例中所述的图像处理装置,或者可以是该图像处理装置中的芯片,或者可以是该图像处理装置中的处理系统等,该装置400包括:
输入模块410,用于将N个对抗样本分别输入图像检测模型;N个对抗样本中的每个样本为采用上述图13所述的装置获得的用于攻击检测模型的第三图像,N为正整数;
输出模块420,用于通过检测模型输出N个对抗样本的检测结果;
处理模块430,用于基于检测结果统计N个对抗样本中成功攻击检测模型的比例;并基于比例评估检测模型的鲁棒性。
在具体实现中,该N个对抗样本可以是上述步骤S104中的多个不同的对抗样本。
在其中一种可能的实施方式中,该N个对抗样本为基于M个不同的第二图像生成的样本,M为正整数,M<N;
处理模块430,具体用于:基于比例和模型平均调用次数评估检测模型的鲁棒性,模型平均调用次数为M/N,模型平均调用次数指示M个图像中每个图像的对抗样本平均输入检测模型的次数。
在具体实现中,该M个不同的第二图像可以是上述步骤S104中的多个第二图像。
图15所示为本申请提供的装置的一种可能的硬件结构示意图,该装置可以是上述方法实施例所述的图像处理装置,或者可以是该图像处理装置中的芯片,或者可以是该图像处理装置中的处理系统等。该装置1500包括:处理器1501、存储器1502和通信接口1503。处理器1501、通信接口1503以及存储器1502可以相互连接或者通过总线1504相互连接。
示例性的,存储器1502用于存储装置1500的计算机程序和数据,存储器1502可以包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-onlymemory,ROM)、可擦除可编程只读存储器(erasable programmable read only memory,EPROM)或便携式只读存储器(compact disc read-only memory,CD-ROM)等。
通信接口1503包括发送接口和接收接口,通信接口1503的个数可以为多个,用于支持装置1500进行通信,例如接收或发送数据或消息等。
示例性的,处理器1501可以是中央处理器单元、通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。处理器1501可以用于读取上述存储器1502中存储的程序,使得装置1500执行如上述图2及其可能的实施例中所述的图像检测模型评估方法。
一种可能的实施方式中,处理器1501可以用于获取第一图像和第二图像;所述第一图像用于叠加于所述第二图像得到第三图像,所述第三图像用于攻击图像检测模型;基于第一区域构建第一参数空间;所述第一区域为所述第二图像中的部分区域,所述第一参数空间包括像素坐标参数的范围和角度参数的范围,所述像素坐标参数的范围为所述第一区域在所述第二图像中的像素坐标的集合;基于所述像素坐标参数的范围确定第一像素坐标集合,并基于所述角度参数的范围确定第一角度;所述第一像素坐标集合指示所述第三图像中所述第一图像叠加在所述第二图像上的位置,所述第一角度指示所述第三图像中叠加在所述第二图像上的所述第一图像的旋转角度。
图15所示装置1500中各个单元的具体操作以及有益效果可以参见上述图2及其可能的方法实施例中对应的描述,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现上述图2及其可能的方法实施例中任一实施例所述的方法。
本申请实施例还提供一种计算机程序产品,当该计算机程序产品被计算机读取并执行时,上述图2及其可能的方法实施例中任一实施例所述的方法。
综上所述,本申请实施例通过将干扰图像叠加到目标图像来生成攻击性较强并且实用性较好的对抗样本,从而用该生成的对抗样本可以更加有效地评估图像检测模型的鲁棒性。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (13)
1.一种图像处理方法,其特征在于,包括:
获取第一图像和第二图像;所述第一图像用于叠加于所述第二图像得到第三图像,所述第三图像用于攻击图像检测模型;
基于第一区域构建第一参数空间;所述第一区域为所述第二图像中的部分区域,所述第一参数空间包括像素坐标参数的范围和角度参数的范围,所述像素坐标参数的范围为所述第一区域在所述第二图像中的像素坐标的集合;
基于所述像素坐标参数的范围确定第一像素坐标集合,并基于所述角度参数的范围确定第一角度;所述第一像素坐标集合指示所述第三图像中所述第一图像叠加在所述第二图像上的位置,所述第一角度指示所述第三图像中叠加在所述第二图像上的所述第一图像的旋转角度。
2.根据权利要求1所述的方法,其特征在于,所述获取第一图像和第二图像之前,还包括:
构建第二参数空间,所述第二参数空间包括像素值的取值范围;
所述获取第一图像,包括:
基于所述像素值的取值范围确定所述第一图像的像素值,获得所述第一图像的像素矩阵。
3.根据权利要求1或2所述的方法,其特征在于,所述第一图像为物理环境中存在的贴纸的图像。
4.一种图像检测模型评估方法,其特征在于,所述方法包括:
将N个对抗样本分别输入图像检测模型;所述N个对抗样本中的每个样本为采用权利要求1-3任一项所述的方法获得的用于攻击所述检测模型的所述第三图像,所述N为正整数;
通过所述检测模型输出所述N个对抗样本的检测结果;
基于所述检测结果统计所述N个对抗样本中成功攻击所述检测模型的比例;
基于所述比例评估所述检测模型的鲁棒性。
5.根据权利要求4所述的方法,其特征在于,所述N个对抗样本为基于M个不同的所述第二图像生成的样本,所述M为正整数,M<N;
所述基于所述比例评估所述检测模型的鲁棒性,还包括:
基于所述比例和模型平均调用次数评估所述检测模型的鲁棒性,所述模型平均调用次数为M/N,所述模型平均调用次数指示所述M个图像中每个图像的对抗样本平均输入所述检测模型的次数。
6.一种图像处理装置,其特征在于,所述装置包括:
获取模块,用于获取第一图像和第二图像;所述第一图像用于叠加于所述第二图像得到第三图像,所述第三图像用于攻击图像检测模型;
处理模块,用于基于第一区域构建第一参数空间;所述第一区域为所述第二图像中的部分区域,所述第一参数空间包括像素坐标参数的范围和角度参数的范围,所述像素坐标参数的范围为所述第一区域在所述第二图像中的像素坐标的集合;基于所述像素坐标参数的范围确定所述第一像素坐标集合,并基于所述角度参数的范围确定所述第一角度;所述第一像素坐标集合指示所述第三图像中所述第一图像叠加在所述第二图像上的位置,所述第一角度指示所述第三图像中叠加在所述第二图像上的所述第一图像的旋转角度。
7.根据权利要求6所述的装置,其特征在于,所述处理模块,还用于在所述获取模块获取第一图像和第二图像之前,构建第二参数空间,所述第二参数空间包括像素值的取值范围;
所述获取模块,具体用于:
基于所述像素值的取值范围确定所述第一图像的像素值,获得所述第一图像的像素矩阵。
8.一种评估图像检测模型的装置,其特征在于,所述装置包括:
输入模块,用于将N个对抗样本分别输入图像检测模型;所述N个对抗样本中的每个样本为采用权利要求6或7所述的装置获得的用于攻击所述检测模型的所述第三图像,所述N为正整数;
输出模块,用于通过所述检测模型输出所述N个对抗样本的检测结果;
处理模块,用于基于所述检测结果统计所述N个对抗样本中成功攻击所述检测模型的比例;并基于所述比例评估所述检测模型的鲁棒性。
9.根据权利要求8所述的装置,其特征在于,所述N个对抗样本为基于M个不同的所述第二图像生成的样本,所述M为正整数,M<N;
所述处理模块,具体用于:
基于所述比例和模型平均调用次数评估所述检测模型的鲁棒性,所述模型平均调用次数为M/N,所述模型平均调用次数指示所述M个图像中每个图像的对抗样本平均输入所述检测模型的次数。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至3任意一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求4或5所述的方法。
12.一种装置,所述装置包括处理器和存储器,其特征在于,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述装置执行如权利要求1-3任一项所述的方法。
13.一种装置,所述装置包括处理器和存储器,其特征在于,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述装置执行如权利要求4或5所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111249005.4A CN116029950A (zh) | 2021-10-26 | 2021-10-26 | 图像处理方法、图像检测模型评估方法及装置 |
PCT/CN2022/125631 WO2023071841A1 (zh) | 2021-10-26 | 2022-10-17 | 图像处理方法、图像检测模型评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111249005.4A CN116029950A (zh) | 2021-10-26 | 2021-10-26 | 图像处理方法、图像检测模型评估方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116029950A true CN116029950A (zh) | 2023-04-28 |
Family
ID=86076533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111249005.4A Pending CN116029950A (zh) | 2021-10-26 | 2021-10-26 | 图像处理方法、图像检测模型评估方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116029950A (zh) |
WO (1) | WO2023071841A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222831B (zh) * | 2019-06-13 | 2022-05-17 | 百度在线网络技术(北京)有限公司 | 深度学习模型的鲁棒性评估方法、装置及存储介质 |
US20210300433A1 (en) * | 2020-03-27 | 2021-09-30 | Washington University | Systems and methods for defending against physical attacks on image classification |
CN111626925B (zh) * | 2020-07-24 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 一种对抗补丁的生成方法及装置 |
CN113361582A (zh) * | 2021-06-01 | 2021-09-07 | 珠海大横琴科技发展有限公司 | 一种对抗样本的生成方法和装置 |
CN113469873B (zh) * | 2021-06-25 | 2023-04-25 | 中国人民解放军陆军工程大学 | 对抗智能侦察识别系统的伪装贴片生成方法 |
-
2021
- 2021-10-26 CN CN202111249005.4A patent/CN116029950A/zh active Pending
-
2022
- 2022-10-17 WO PCT/CN2022/125631 patent/WO2023071841A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023071841A1 (zh) | 2023-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10210418B2 (en) | Object detection system and object detection method | |
Li et al. | Deep neural network for structural prediction and lane detection in traffic scene | |
CN109522942B (zh) | 一种图像分类方法、装置、终端设备和存储介质 | |
US10275719B2 (en) | Hyper-parameter selection for deep convolutional networks | |
CN111754519B (zh) | 一种基于类激活映射的对抗防御方法 | |
CN113066002A (zh) | 对抗样本的生成方法、神经网络的训练方法、装置及设备 | |
Alqahtani et al. | Pruning CNN filters via quantifying the importance of deep visual representations | |
CN113254927B (zh) | 一种基于网络防御的模型处理方法、装置及存储介质 | |
JP7192966B2 (ja) | 検索装置、学習装置、検索方法、学習方法及びプログラム | |
EP3671635B1 (en) | Curvilinear object segmentation with noise priors | |
CN116994236A (zh) | 一种基于深度神经网络的低质图像车牌检测方法 | |
CN110969104A (zh) | 基于二值化网络检测可行驶区域的方法、系统及存储介质 | |
CN111428567B (zh) | 一种基于仿射多任务回归的行人跟踪系统及方法 | |
EP3671634B1 (en) | Curvilinear object segmentation with geometric priors | |
CN116258877A (zh) | 土地利用场景相似度变化检测方法、装置、介质及设备 | |
CN116579985A (zh) | 一种基于RefineDet模型的晶圆缺陷检测方法 | |
CN116029950A (zh) | 图像处理方法、图像检测模型评估方法及装置 | |
CN113505648B (zh) | 行人检测方法、装置、终端设备及存储介质 | |
CN117409328B (zh) | 用于道路病害检测的无因果性目标检测模型、方法及应用 | |
CN114841983B (zh) | 一种基于决策分数的图像对抗样本检测方法和系统 | |
CN113409352B (zh) | 单帧红外图像弱小目标检测方法、装置、设备和存储介质 | |
Andersson et al. | Data Augmentation for Object Detection using Deep Reinforcement Learning | |
Taime et al. | Fast point matching using corresponding circles | |
Paolicelli | DEEP LEARNING FRAMEWORK FOR CHARACTER RECOGNITION IN LOW QUALITY LICENSE PLATE IMAGES | |
CN118279553A (zh) | 一种中小目标检测方法、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |