CN117853859A

CN117853859A - 图像处理方法、相关装置及存储介质

Info

Publication number: CN117853859A
Application number: CN202211216363.XA
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2024-04-09

Abstract

本申请实施例涉及计算机视觉领域，提供一种图像处理方法、相关装置及存储介质，该方法包括：基于图像处理模型和原始图像获取候选对抗图像；获取至少表示目标风格的目标语义特征，并基于所述候选对抗图像获取图像语义特征；获取目标特征距离，其中，所述目标特征距离包括第一特征距离和第二特征距离，所述第一特征距离基于所述图像语义特征与所述目标语义特征获取，所述第二特征距离基于所述候选对抗图像与对抗攻击方式获取；若所述目标特征距离不符合预设条件，则更新所述图像处理模型，并基于更新的图像处理模型获取更新的候选对抗图像，直至目标特征距离符合所述预设条件，并将目标特征距离符合所述预设条件时的候选对抗图像作为目标对抗图像。

Description

图像处理方法、相关装置及存储介质

技术领域

本申请实施例涉及计算机视觉领域，更具体地涉及一种图像处理方法、相关装置及存储介质。

背景技术

对抗攻击研究如何针对深度学习模型生成对抗图像，对抗图像可以输入深度学习模型，基于深度学习模型对对抗图像的识别结果可以确定模型是否安全。这有助于及时发现深度学习模型的脆弱性，评估深度学习模型的鲁棒性。一些对抗攻击方法在数字世界中生成添加较小对抗扰动的对抗图像，可以促使对抗样本无法被深度学习模型正确识别或将其识别为指定的标签。

然而，目前的对抗攻击方法生成的对抗图像往往仅考虑提升误导深度学习模型的能力，并未考虑对抗图像在实施对抗攻击的环境中是否融洽，即生成的对抗图像的图案和颜色等视觉表征不可控。由此，这些对抗图像虽然容易被深度学习模型识别错误，达成预设的攻击目标，但往往由于与周边环境差异明显，容易被人眼发现。基于上述原因，现有的对抗图像无法很好地融入攻击环境，在视觉伪装方面存在缺陷，容易被深度学习模型的防御策略发现，无法达成预定攻击目的，难以稳定完成对深度学习模型的安全性测试。

发明内容

本申请实施例提供一种图像处理方法、相关装置及存储介质,可以生成具有目标风格的目标对抗图像，具有良好的伪装效果，既可以针对深度学习模型发挥对抗攻击效果，又不容易被人眼发现，由此可以绕过深度学习模型的防御策略，更稳定地进行对抗攻击安全性测试。

第一方面，本申请实施例提供一种图像处理方法，该方法包括：

获取候选对抗图像，其中，所述候选对抗图像基于原始图像和图像处理模型生成；

获取目标语义特征，并基于所述候选对抗图像获取图像语义特征，其中，所述目标语义特征至少用于表示目标风格；

获取目标特征距离，其中，所述目标特征距离包括第一特征距离和第二特征距离，所述第一特征距离基于所述图像语义特征与所述目标语义特征获取，所述第二特征距离基于所述候选对抗图像与对抗攻击方式获取；以及

若所述目标特征距离不符合预设条件，则更新所述图像处理模型，并基于更新的图像处理模型获取更新的候选对抗图像，直至目标特征距离符合所述预设条件，并将目标特征距离符合所述预设条件时的候选对抗图像作为目标对抗图像。

第二方面，本申请实施例从搜索引擎角度提供一种数据处理方法，该方法包括：

获取图像查询指令，其中，所述图像查询指令至少指示查询目标风格和查询目标内容；

根据所述图像查询指令获取目标图像集合，其中，所述目标图像集合包括对抗图像，所述对抗图像与所述查询目标风格的风格语义特征距离小于第一预设阈值、且所述对抗图像与所述查询目标内容的内容相似度小于预设值。

第三方面，本申请实施例提供一种图像处理装置，具有实现对应于上述第一方面提供的图像处理方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

在一个实施方式中，所述图像处理装置包括：

输入输出模块，被配置为获取原始图像；

处理模块，被配置为获取候选对抗图像，其中，所述候选对抗图像基于所述原始图像和图像处理模型生成；

所述处理模块，还被配置获取候选对抗图像，其中，所述候选对抗图像基于原始图像和图像处理模型生成；

所述处理模块，被配置为获取目标语义特征，并基于所述候选对抗图像获取图像语义特征，其中，所述目标语义特征至少用于表示目标风格；

所述处理模块，被配置为获取目标特征距离，其中，所述目标特征距离包括第一特征距离和第二特征距离，所述第一特征距离基于所述图像语义特征与所述目标语义特征获取，所述第二特征距离基于所述候选对抗图像与对抗攻击方式获取；以及

第四方面，本申请实施例提供一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如第一方面所述的图像处理方法，或者执行如第二方面所述的数据处理方法。

第五方面，本申请实施例提供一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现第一方面所述的图像处理方法，或者执行如第二方面所述的数据处理方法。

相较于现有技术，本申请实施例中，采用基于候选对抗图像的图像语义特征与目标语义特征得到的第一特征距离以及基于候选对抗图像与目标图像得到的第二特征距离共同指导候选对抗图像的更新，使得最终得到的目标对抗图像既与目标图像的特征距离满足要求，能够实现对抗攻击目的，又与目标语义特征相似，能够融入目标位置，不易被人眼发现，从而绕过一些防御策略，更好地实施对抗攻击测试。相比于现有技术仅仅提高对抗图像与目标图像的识别相似度，本申请实施例还同时缩小对抗图像的语义特征与目标语义特征的特征距离，从而使得对抗图像可以具有与目标风格相似或一致的视觉表征，可以在视觉伪装应用中发挥良好作用，稳定地实现对抗攻击目的。另外，本申请实施例中基于目标特征距离指导候选对抗图像的更新，相当于至少基于候选对抗图像与目标风格的语义损失指导对抗图像的更新，相比于传统风格迁移模型基于图像的风格特征损失指导合成图像的更新，语义损失控制的视觉表征更加多样和全面，包括图案、颜色、形状、大小等各个视觉表征维度，而不仅仅是一种风格，由此，本申请实施例生成的目标对抗图像可以更好地融入目标位置，伪装性能更强，从而稳定地实施对抗攻击。

附图说明

通过参考附图阅读本申请实施例的详细描述，本申请实施例的目的、特征和优点将变得易于理解。其中：

图1为本申请实施例中图像处理方法的一种图像处理系统示意图；

图2为本申请实施例的图像处理方法的一种流程示意图；

图3为本申请实施例的图像进行风格迁移的一种对比示意图；

图4为本申请实施例的图像处理方法的一种更新图像处理模型的流程示意图；

图5为本申请实施例的用于执行图像处理方法的一种图像生成框架的结构示意图；

图6为本申请实施例的图像处理方法生成的人脸对抗扰动的示意图；

图7为现有技术生成的对抗贴纸与本申请实施例的图像处理方法生成的目标对抗贴纸的对比示意图；

图8为本申请实施例的图像处理装置的一种结构示意图；

图9为本申请实施例的计算设备的一种结构示意图；

图10为本申请实施例中手机的一种结构示意图；

图11为本申请实施例中服务器的一种结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如第一特征距离和第二特征距离分别表示为不同的特征距离，其他类似)，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合，通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

本申请实施例提供一种图像处理方法、相关装置及存储介质，可应用于图像处理系统，该图像处理系统可包括图像处理装置和图像识别装置，图像处理装置和图像识别装置可以集成部署，也可分离式部署。该图像处理装置至少用于基于图像处理模型生成候选对抗图像，获取目标风格的目标语义特征和候选对抗图像的图像语义特征的第一特征距离，以及基于图像识别装置反馈的识别结果获取候选对抗图像和目标图像的第二特征距离，基于融合第一特征距离和第二特征距离的目标特征距离确定候选对抗图像是否符合需求，并在其不符合需求时，更新图像处理模型，以更新候选对抗图像。该图像识别装置用于基于图像处理装置生成的候选对抗图像得到识别结果。其中，图像处理装置可用于基于图像处理模型生成候选对抗图像，获取目标语义特征和候选对抗图像的图像语义特征的第一特征距离，以及基于图像识别装置反馈的识别结果获取候选对抗图像和目标图像的第二特征距离，基于融合第一特征距离和第二特征距离的目标特征距离确定候选对抗图像是否符合需求，并在其不符合需求时，更新图像处理模型，以更新候选对抗图像的应用程序，或为安装了用于基于图像处理模型生成候选对抗图像，获取目标语义特征和候选对抗图像的图像语义特征的第一特征距离，以及基于图像识别装置反馈的识别结果获取候选对抗图像和目标图像的第二特征距离，基于融合第一特征距离和第二特征距离的目标特征距离确定候选对抗图像是否符合需求，并在其不符合需求时，更新图像处理模型，以更新候选对抗图像的应用程序的服务器；图像识别装置可为基于图像处理装置生成的候选对抗图像得到识别结果的识别程序，所述识别程序例如是图像识别模型，所述图像识别装置还可为部署了图像识别模型的终端设备。

本申请实施例提供的方案涉及人工智能(Artificial Intelligence，AI)、计算机视觉技术(Computer Vision，CV)、机器学习(Machine Learning，ML)等技术，具体通过如下实施例进行说明:

其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

CV是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括对抗扰动生成、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

现有技术中为了生成对抗图像，往往是设置使得对抗图像与原始图像的识别特征的距离最大化或最小化的目标函数。由于优化迭代候选对抗图像时只是以使该目标函数收敛为目的进行，因此，现有技术生成的对抗图像并未考虑是否能够与实施对抗攻击的环境融为一体，往往较为显眼或突兀，如图7a所示，条纹路障上用于实施对抗攻击的对抗贴纸(基于目标对抗图像实体化得到)为网纹，与条纹在视觉上差异较大，从而可能容易被人类肉眼发现，不具有视觉伪装效果。即现有技术生成的对抗图像可能容易被图像识别系统的防御策略发现，可能无法稳定地对图像识别模型进行对抗攻击测试。与现有技术相比，本申请实施例中在现有技术的基础上采用了目标风格相似约束，即在优化用于生成候选对抗图像的图像处理模型时，还基于候选对抗图像的图像语义特征和目标风格的目标语义特征，使得二者的特征距离符合要求。由于目标语义特征可以表示目标风格的视觉表征，因此，若对抗图像的图像语义特征与目标语义特征较为相似或一致，则其可以具有与目标风格相似或一致的视觉表征，或者能够自然地融入目标位置，不易被人类肉眼发现。本申请实施例中可以通过包括图像处理装置和图像识别装置的图像处理系统生成目标对抗图像。

一些实施方式中，图像处理装置和图像识别装置分离式部署，参照图1，本申请实施例提供的图像处理方法可基于图1所示的一种图像处理系统实现。该图像处理系统可以包括服务器01和终端设备02。

该服务器01可以是图像处理装置，其中可以部署图像处理程序。

该终端设备02可以是图像识别装置，其中可以部署有图像识别模型，例如基于机器学习的方法训练得到的图像识别模型。其中图像识别模型可以为人脸识别模型、路障识别模型、车辆识别模型等。

服务器01可以接收用户输入的原始图像，并以原始图像的图像内容为基础，基于图像处理模型生成具有目标风格的候选对抗图像，并将候选对抗图像向该终端设备02发送。终端设备02可以采用图像识别模型对候选对抗图像进行处理，得到识别结果，然后向服务器01反馈。服务器01可以基于识别结果获取候选对抗图像与目标图像(或原始图像)的第二特征距离；基于候选对抗图像的图像语义特征和目标语义特征获取第一特征距离；并基于第一特征距离和第二特征距离获取目标特征距离，基于目标特征距离，可以确定候选对抗图像是否能够满足要求，即不仅可以实现对抗攻击目的，还能够具有目标风格，或自然融入目标位置，若满足要求，则将其作为目标对抗图像。

需要说明的是，本申请实施例涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例涉及的终端设备，可以是指向用户提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。例如，个人通信业务(英文全称：Personal Communication Service，英文简称：PCS)电话、无绳电话、会话发起协议(SIP)话机、无线本地环路(Wireless Local Loop，英文简称：WLL)站、个人数字助理(英文全称：Personal Digital Assistant，英文简称：PDA)等设备。

参照图2，图2为本申请实施例提供的一种图像处理方法的流程示意图。该方法可由图像处理装置执行，对候选对抗图像进行更新，得到目标对抗图像，该目标对抗图像可具有与实施对抗攻击的环境相似或相同的视觉表征，不易被人眼或图像识别系统的防御策略发现，可以稳定地实现对抗攻击目的，更好地实施对抗攻击测试。所述图像处理方法包括：

步骤S110，获取候选对抗图像。

在本申请实施例中，所述候选对抗图像基于原始图像和图像处理模型生成。具体来说，本申请实施例中将所述原始图像输入所述图像处理模型，所述图像处理模型可以基于所述原始图像生成候选对抗图像，所述原始图像的图像内容即为生成的候选对抗图像在整体视觉上传达的图像内容。例如，若希望生成的目标对抗图像整体视觉上传达的图像内容为一个动物(例如猫)，则所述原始图像即可以是一只猫的图像。类似地，所述原始图像还可以是草丛图像、树木图像或者其他任意实体对象的图像，本申请实施例对此不做限定，所述原始图像的图像内容与希望生成的目标对抗图像的图像内容有关。

所述图像处理模型可以是任意图像生成模型。在一个可能的设计中，所述图像生成模型可以基于输入的原始图像以及自身初始化的隐向量生成数字图像，所述数字图像可以与所述原始图像具有相似或相同的内容，且具有不同的风格。即所述图像生成模型可以生成与所述原始图像的内容相似度大于预设值的候选对抗图像。例如所述图像生成模型可以是风格迁移模型CycleGAN、CartoonGan或AdaIN。

需要说明的是，本申请实施例中的图像生成模型并不限于风格迁移模型，其可以是任意能够基于输入的原始图像生成图像的机器学习模型，例如StackGAN、SAGAN和BigGAN等。

在图像处理模型基于隐变量和原始图像生成候选对抗图像的设计中，可以通过对隐变量的更新迭代，实现图像处理模型的更新迭代，从而使得候选对抗图像更新迭代，以得到目标对抗图像。例如，本申请实施例中，可以在初始阶段按照预设规则初始化得到一个初始隐向量，然后基于初始隐向量逐步迭代更新，得到目标隐向量，然后基于所述目标隐向量生成目标对抗图像。

在后续的生成目标对抗图像的过程中，则以历史隐向量为基础更新得到所述目标隐向量，基于所述目标隐向量生成目标对抗图像。即目标隐向量由上一个时间步长更新得到的隐向量更新得到，例如，假设基于初始隐向量a1进行3次更新得到了目标隐向量A，那么首先基于初始隐向量a1进行第一次更新得到隐向量a2，然后基于隐向量a2进行第二次更新得到隐向量a3，最后基于隐向量a3更新得到目标隐向量A，基于所述目标隐向量A可以生成目标对抗图像。可以理解的是，在上述生成目标对对抗图像的过程中，每个时间步长更新隐向量之后，均会在下一个时间步长基于更新后的所述隐向量生成候选对抗图像，并基于所述候选对抗图像确定是否生成了符合要求的目标对抗图像。

可以理解的是，在其他可能的设计中，所述图像处理模型并不初始化产生隐向量，即对所述图像处理模型的更新并不是对隐向量的更新，而是对所述图像处理模型的预设参数的更新，例如可以是所述图像处理模型的权重。

在本申请实施例中，生成的目标对抗图像在具有对抗攻击性能的基础上，不仅仅可以有与目标风格相似或一致的视觉表征，还可以具有目标内容的视觉表达。例如，可以生成具有对抗攻击性能的日落光照风格的草丛对抗图像，即目标对抗图像具有日落光照风格的视觉表征，且视觉整体上传达的图像内容为草丛。

在本申请实施例中，所述原始图像决定生成的图像(包括各个迭代轮次的候选对抗图像和目标对抗图像)的图像内容，二者之间具有相似或相同的图像内容，即每个迭代轮次生成的候选对抗图像与所述原始图像的内容相似度均大于预设值(例如90％)；所述图像处理模型可以决定生成的图像的语义视觉表征，即控制生成的目标对抗图像与目标风格具有相似或一致的视觉表征。由此，在本申请实施例中，可以基于所述图像处理模型和所述原始图像共同生成候选对抗图像，直到迭代更新出目标对抗图像(基于目标隐向量生成)。

在明确如何基于图像处理模型、原始图像生成候选对抗图像之后，下面继续介绍如何迭代更新得到具有与目标风格相似视觉表征的目标对抗图像。

步骤S120，获取目标语义特征，并基于所述候选对抗图像获取图像语义特征。

在本申请实施例中，所述目标语义特征至少用于表示目标风格，所述目标风格可以希望所述目标对抗图像具有的风格，也可以是实施对抗攻击的目标位置的环境图像的风格。所述风格可以是指所述环境图像在各种空间尺度上图像中的纹理，颜色和视觉图案，由图像的高级宏观特征决定。所述风格可以参照图3所示，正常环境图像在经过风格迁移之后，可以得到暗黑风格环境图像，该图像可以不改变原有图像内容，而使得图像具备暗黑风格。

需要说明的是，本申请实施例中的目标语义特征并不仅仅可以用于表示目标风格，还可以用于表示(目标位置)整体的视觉表征。即相比于单纯的风格，基于语义特征的特征距离更新的图像处理模型，对基于图像处理模型生成的图像的视觉表征有更加多样和全面的影响，包括图案、颜色、形状、大小等各个视觉表征维度。

在本申请实施例中，所述目标语义特征可以基于目标数据分析得到，所述目标数据可以由用户经终端设备输入或基于由用户经终端设备输入的指令在目标位置采集得到，所述目标数据的数据格式可以为文本、图像或视频。

具体来说，本申请实施例可以提供两种获取目标数据的方式，一种获取目标数据的方式是由用户提供。例如，本申请实施例可以提供数据上传接口和图形用户界面，用户可以借助终端设备基于所述图像用户界面经由所述数据上传接口上传符合预设数据格式的目标数据；在用户上传目标数据之后，图像处理装置即可获取到所述目标数据，然后对所述目标数据进行分析，得到目标语义特征，具体包括：接收所述终端设备发送的所述目标数据；基于所述目标数据获取目标风格图像；基于所述目标风格图像获取风格图像语义特征，并将所述风格图像语义特征作为所述目标语义特征。

在本申请实施例中，基于文本格式的目标数据获取目标语义特征可以采用预设的文本-图像映射模型，所述文本-图像映射模型可以事先训练好。在获取到所述目标数据之后，可以将所述目标数据输入所述文本-图像映射模型，所述文本-图像映射模型可以基于自身的文本特征提取器从所述目标数据提取文本语义特征，然后与图像库进行匹配，得到目标风格图像，然后采用自身的图像特征提取器从所述目标风格图像提取风格图像语义特征，作为所述目标语义特征。

另一种获取目标数据的方式可以是基于用户经终端设备输入的指令确定目标位置，然后控制图像采集设备或其他计算设备在目标位置获取所述目标数据，即本申请实施例中可以自动采集目标位置的图像或视频数据作为所述目标数据，然后基于所述目标数据分析得到目标语义特征。可以理解的是，所述目标位置可以是物理世界的真实位置，例如某个办公室、某个风景区或者某个建筑物的墙面等等；或者，所述目标位置也可以是数字世界的虚拟空间环境，例如游戏中的某个场景或者仿真测试环境中的某个场景。

可以理解的是，本申请实施例中，分析目标数据获取目标语义特征的方式可以根据目标数据的数据格式确定，例如，若目标数据为文本数据，则可以通过文本语义分析模型基于所述目标数据分析得到所述目标语义特征；若所述目标数据为图像数据或视频数据，则可以通过图像语义分析模型基于所述图像数据或所述视频数据的视频帧数据分析得到所述目标语义特征。具体来说，在一个可能的设计中，可以通过CLIP模型分析目标数据，获取所述目标语义特征。

需要说明的是，文本数据格式的目标数据可以由用户输入，例如，用户可以输入“暗黑”，表示用户希望生成暗黑风格的目标对抗图像。

可以理解的是，在本申请实施例中，可以仅在迭代更新候选对抗图像的第一个轮次基于目标数据获取目标语义特征，在之后的迭代轮次中，目标语义特征可以不再改变，即目标风格不再改变。由此，可以直接获取目标语义特征，而不用重新基于目标数据分析。

在明确目标语义特征的获取方式之后，即可进行后续生成目标对抗图像的步骤，使得生成的目标对抗图像的图像语义特征与所述目标语义特征相似或一致。

步骤S130，获取目标特征距离。

在本申请实施例中，所述目标特征距离包括第一特征距离和第二特征距离，所述第一特征距离基于所述图像语义特征与所述目标语义特征获取，所述第二特征距离基于所述候选对抗图像与对抗攻击方式获取。

在本申请实施例中，更新得到候选对抗图像之后，需要确定所述候选对抗图像是否符合要求，可否作为目标对抗图像。本申请实施例的根本目标即为生成能够融入目标位置且实现对抗攻击的目标对抗图像。为了保证目标对抗图像具有目标风格或能够较为自然地融入目标位置，本申请实施例在更新得到候选对抗图像之后，即获取所述候选对抗图像的图像语义特征与目标语义特征的第一特征距离，以确定候选对抗图像是否与目标位置具有相似或一致的视觉表征，从而能够自然地融入目标位置。

需要说明的是，本申请实施例中确定目标对抗图像是否能够融入目标位置的依据是语义特征的特征距离，而不是传统风格迁移模型的风格相似度。由此，本申请实施例中生成的目标对抗图像可以具有与目标位置更多相似或相同维度的视觉表征，而不是仅仅风格相似。

虽然在一些可能的设计中，可以基于风格迁移模型初始化隐向量，然后生成候选对抗图像，但是在更新所述隐向量时并不是基于风格迁移模型本身的风格迁移损失，而是所述目标特征距离(包括基于语义特征得到的第一特征距离)。由此，即使基于风格迁移模型生成目标对抗图像，所述目标对抗图像也可以具有与目标位置相似或一致的视觉表征，而不仅仅是风格相似或一致。

为了保证目标对抗图像能够维持良好的攻击效果，本申请实施例不仅仅获取更新得到的候选对抗图像的图像语义特征与目标语义特征的第一特征距离，还基于候选对抗图像确定与对抗攻击方式获取第二特征距离。

可以理解的是，对抗攻击方式可以包括有目标攻击或无目标攻击，即生成的所述目标对抗图像能够对目标模型进行有目标攻击或无目标攻击。其中，无目标攻击是指：目标模型对该对抗图像的识别结果与该目标模型对原始图像(也可以认为是目标图像)的识别结果不同。有目标攻击可以是指：目标模型对该对抗图像的识别结果为特定的识别结果，该特定的识别结果与目标模型对目标图像的识别结果相同或相差不大。

由此，本申请实施例中，在所述攻击方式为对目标模型进行有目标攻击时，所述第二特征距离基于所述候选对抗图像与目标图像获取；在所述攻击方式为对目标模型进行无目标攻击时，所述第二特征距离基于所述候选对抗图像与所述原始图像获取。

可以理解的是，各个特征距离的计算可以是基于相关对象之间的欧式距离计算，但是并不限于此，本领域的技术人员可以根据实际需要采取其他可行的相似度或距离计算方式，例如Lp范数距离、余弦相似度或切比雪夫距离等等。例如，计算候选对抗图像的图像语义特征和目标语义特征之间的第一特征距离，即可以是计算二者之间的L2范数距离。

在一个可能的设计中，所述候选对抗图像与目标图像(原始图像)之间的第二特征距离还可以是基于一个预先设置的替代模型获取，所述替代模型即为对抗攻击的目标模型的同类白盒模型。例如，若所述目标模型为人脸识别模型M1，则所述替代模型则可以是任意可以获知模型内部参数和结构的人脸识别模型M2。

步骤S140，若所述目标特征距离不符合预设条件，则更新所述图像处理模型，并基于更新的图像处理模型获取更新的候选对抗图像，直至目标特征距离符合所述预设条件，并将目标特征距离符合所述预设条件时的候选对抗图像作为目标对抗图像。

在本申请实施例中，一方面要求最终生成的目标对抗图像可以具有，目标风格或自然地融入目标位置，起到良好的视觉伪装效果；另一方面要求最终生成的目标对抗图像容易被目标模型混淆，例如识别为与目标图像具有相同的识别结果。因此，本步骤中需要确定所述目标特征距离是否符合所述预设条件，以确定候选对抗图像是否容易被目标模型混淆，例如错误识别为与目标图像具有相同的识别结果。

在本申请实施例中，可以通过第二特征距离确定所述候选对抗图像是否能够攻击成功。所述候选对抗图像与目标图像的第二特征距离可以通过预设的图像识别模型确定；例如，可以将所述的候选对抗图像输入图像识别模型，图像识别模型直接输出所述候选对抗图像与目标图像的识别特征距离(第二特征距离)。或者，考虑到图像识别模型通常是基于图像特征进行识别，由此可以提取所述候选对抗图像的特征，然后将提取到的特征与目标图像的特征进行特征距离对比，得到所述候选对抗图像与目标图像的特征距离，并将所述特征距离作为经过所述候选对抗图像与目标图像的识别特征距离(第二特征距离)。

在本申请实施例中，将基于原始图像和图像处理模型进行不断地迭代更新，直到得到符合要求的对抗图像，在迭代更新过程中，每次更新得到中间产物称之为候选对抗图像。在每次更新得到新的候选对抗图像之后，需要确定其是否符合要求，即判断所述候选对抗图像与目标图像的第二特征距离是否符合预设条件。

由于对抗攻击包括多种攻击方式，因此，所述预设条件具体内容与攻击方式有关。具体来说，在对抗攻击为有目标攻击时，本申请实施例可以要求对抗图像与目标图像的识别特征距离(第二特征距离)小于第二预设阈值(例如10％)，即所述预设条件可以包括所述第二特征距离小于第二预设阈值；在对抗攻击为无目标攻击时，本申请实施例可以要求对抗图像与目标图像(原始图像)的识别特征距离(第二特征距离)大于第三预设阈值(例如80％)，即所述预设条件可以包括第二特征距离大于第三预设阈值。

可以理解的是，由于本申请实施例中还希望生成的目标对抗图像可以具有目标风格或能够自然融入目标位置，由此，所述预设条件还包括对语义特征的约束；即目标对抗图像的图像语义特征与目标风格的目标语义特征的第一特征距离小于第一预设阈值(例如20％)。需要说明的是，虽然对抗攻击方式可以分为有目标攻击和无目标攻击，但是第一特征距离仅仅用于表示两个图像之间的语义特征距离，与对抗攻击性能无关，由此，无论是有目标攻击还是无目标攻击，所述预设条件均包括第一特征距离小于第一预设阈值。

基于上述对预设条件的介绍，可以得知，在所述攻击方式为对目标模型进行有目标攻击时，所述预设条件包括所述第一特征距离小于第一预设阈值、所述第二特征距离小于第二预设阈值；在所述攻击目的为对目标模型进行无目标攻击时，所述预设条件包括所述第一特征距离小于所述第一预设阈值、所述第二特征距离大于第三预设阈值。

在介绍了预设条件的几种可能之后，接下来介绍如何更新候选对抗图像，所述候选对抗图像的更新方式可以是基于所述目标特征距离确定损失值，然后基于损失值的偏导与候选对抗图像的待更新参数(例如是对抗扰动的像素点或候选对抗图像的像素点)的偏导的比值确定梯度，然后基于所述梯度对候选对抗图像的待更新参数进行更新，以更新所述候选对抗图像。

考虑到，本申请实施中通过对图像处理模型的更新迭代，从而实现候选对抗图像的更新迭代，参照图4，在一个可能的设计中，更新所述图像处理模型可以包括：

步骤S210，基于所述目标特征距离获取目标损失。

在本申请实施例中，所述目标损失可以表示候选对抗图像与目标图像之间的第一损失、所述候选对抗图像的图像语义特征与目标语义特征之间的第二损失；具体来说，所述目标损失可以是所述第一损失与所述第二损失之和，在后续优化和更新图像处理模型的过程中，可以以使得所述目标损失变小为目的进行。在获取所述目标损失时，可以基于任意现有的损失函数获取，例如L1损失函数、MSE损失函数或交叉熵损失函数，本领域的技术人员可以根据实际情况自行选择。

需要说明的是，获取所述目标损失之前，可以基于预设损失函数分别获取第一损失和第二损失，然后再将两个损失联合计算得到所述目标损失。由于两个所述损失相当于是计算两个图像或特征之间的差异或距离，即相当于是基于两个图像或特征之间的特征距离计算得到所述第一损失和第二损失。

步骤S220，基于所述目标损失以及所述图像处理模型的预设参数计算梯度变化信息。

在本申请实施例中，在获取到目标损失之后，可以基于目标损失的偏导与图像处理模型的预设参数的偏导的比值确定梯度变化信息，然后基于所述梯度变化信息对图像处理模型的预设参数进行更新，以实现更新所述候选对抗图像。

可以理解的是，在一个可能的设计中，获取到所述目标损失之后，还可以基于任意现有的梯度优化器优化更新所述预设参数，例如可以是梯度下降法(Gradient Descent)、动量法(Momentum)、共轭梯度法(Conjugate Gradient)和自然梯度法(NaturalGradient))，本领域的技术人员可以根据实际需要进行选择。

步骤S230，基于所述梯度变化信息更新所的预设参数。

在本申请实施例中，在获取到所述梯度变化信息之后，即可基于所述梯度变化信息更新所述预设参数；例如，可以基于所述梯度变化信息确定预设参数的更新方向，然后基于所述更新方向和预设步长，增减所述预设参数的数值；具体来说，若所述梯度变化信息为正，则可以基于所述预设步长增加所述预设参数量的数值；若所述梯度变化信息为负，则可以基于所述预设步长减小所述预设参数的数值。

可以理解的是，虽然本申请实施例以第一特征距离和第二特征距离的数值是否符合预设条件作为更新停止条件，但是并不限于此。在其他可能的设计中，还可以是更新迭代达到预设次数，例如100次。或者，在一些可能的设计中，也可以是所述目标损失收敛，不再变化，此时停止更新，并将当前时间步长生成的候选对抗图像作为目标对抗图像。

在本申请实施例中，所述预设参数可以是所述图像处理模型的隐向量或权重，具体可以根据所述图像处理模型的实际情况确定。

参照图5，本申请实施例中还提出一种图像生成框架，所述图像生成框架用于生成能够和目标风格具有相似或一致视觉表征的对抗图像，本申请实施例中的图像处理方法可以基于图5所示的图像生成框架实现。

所述图像生成框架可以包括图像生成模型、图像识别模型和语义分析模型，所述图像生成模型接收用户输入的原始图像，并基于所述原始图像以及自身初始化的隐向量生成候选对抗图像，所述候选对抗图像与所述原始图像的内容相似度大于预设值，所述隐向量至少影响所述候选对抗图像的风格视觉表征，所述图像生成模型生成候选对抗图像之后，可以将所述候选对抗图像分别输入图像识别模型和语义分析模型；所述语义分析模型接收所述候选对抗图像和用户输入的目标数据(用于描述目标风格)，然后对候选对抗图像进行分析，得到所述候选对抗图像的图像语义特征，所述语义分析模型还对所述目标数据进行分析，得到所述目标风格的目标语义特征，通过所述图像语义特征和所述目标语义特征可以计算二者之间的第一特征距离；所述图像识别模型接收所述候选对抗图像和对抗攻击的目标图像(在无目标攻击时，所述目标图像为所述原始图像)，然后对候选对抗图像和目标图像进行识别，以确定二者之间的第二特征距离；所述图像生成框架将第一特征距离和第二特征距离融合，得到目标特征距离，然后基于目标特征距离更新隐向量，直到基于隐向量生成的候选对抗图像符合预设要求，即基于所述候选对抗图像获取的目标特征距离符合预设条件，则将所述候选对抗图像作为目标对抗图像，以对目标模型进行对抗攻击测试。

所述图像生成框架中的图像生成模型、图像识别模型和语义分析模型均没有具体限制，本领域的技术人员可以根据实际场景进行选择。本申请实施例的关键之一在于，至少以生成的候选对抗图像的语义特征与目标风格的目标语义特征的特征距离为指导，更新图像生成模型，从而使得基于图像生成模型生成的目标对抗图像，可以具有与目标风格相似或一致的视觉表征，能够自然地融入目标位置，实现良好的视觉伪装效果，稳定地发挥对抗攻击性能。

在本申请实施例中，所述原始图像决定了生成的目标对抗图像的内容和实施对抗攻击的方式。即若所述原始图像为全局图像，例如一整张人脸图像，则生成的目标对抗图像的图像内容还是一整张人脸，可以直接在数字世界输入人脸识别系统进行对抗攻击测试；若所述原始图像为局部扰动图像，例如一个口罩，则生成的目标对抗图像的图像内容还是一个口罩(即对抗口罩)，可以基于攻击对象在数字世界或物理世界生成对抗攻击图像，以输入人脸识别系统进行对抗攻击测试，具体来说，可以在数字世界将所述对抗口罩覆盖在一个用户的人脸图像上(即人脸图像的口罩佩戴区域覆盖所述对抗口罩)，形成所述对抗攻击图像，然后输入人脸识别系统进行对抗攻击测试；或者可以将所述对抗口罩实体化，由用户佩戴所述对抗口罩，使得人脸识别系统采集所述用户的人脸图像时，得到的是包括所述对抗口罩的对抗攻击图像，以便对所述人脸识别系统进行对抗攻击测试。

可以理解的是，在所述原始图像为局部扰动图像时，所述目标对抗图像基于攻击对象生成对抗攻击图像的方式可以包括多种；例如在所述攻击对象为人时，所述目标对抗图像可以实体化为口罩、眼镜、面具，或者可以将所述目标对抗图像投影在全息膜等装置，所述攻击对象的人脸可以位于所述全息膜投射图像的背面，以基于所述攻击对象生成对抗攻击图像。

例如，可以将本申请实施例中生成的对抗图像用于衡量人脸识别系统的人脸识别模型的安全性。具体来说，可以采用本申请实施例的方法生成目标对抗图像，所述目标对抗图像可以是以有目标攻击的攻击方式生成的，即所述目标对抗图像中的人物为无权限者(即不合法)，且能够使得目标模型识别出所述目标对抗图像为特定的有权限者(即合法)；然后可以将所述目标对抗图像放置于人脸识别的测试场地，例如人脸识别门禁前，测试人脸识别门禁是否能够正确识别所述目标对抗图像(即所述目标对抗图像中的人物身份是否合法，具有权限)，从而不打开门禁，防止恶意攻击者进入。可以理解的是，由于人脸识别门禁采集到的图像受到周边环境因素(例如光照)的影响，而现有技术中生成的对抗图像往往只考虑影响对抗攻击性能的因素，而没有考虑是否和周边环境相似一致，在实体化被人脸识别门禁采集后可能会在图像中显得比较突兀，容易被肉眼或一些防御策略发现。因此，本申请实施例考虑到了这些影响对抗攻击实施的因素，能够生成可以自然融入周边环境的目标对抗图像(即所述目标对抗图像的风格语义特征与所述人脸识别系统所处位置的环境图像的风格语义特征的特征距离小于第二预设阈值)，更稳定地实施对抗攻击测试。

在生成用于测试人脸识别模型的目标对抗图像时，所述原始图像可以是攻击者的人脸图像，即基于所述原始图像和所述目标对抗图像可以得到目标对抗扰动，所述目标对抗扰动可以实体化为预设物体(例如口罩、面具或眼镜)后附着于所述攻击者人脸，在物理世界对人脸识别系统进行对抗攻击测试。参照图6，其中图6a、图6b和图6c均为采用本申请实施例生成的可以与目标位置具有相似视觉表征的对抗人脸面具(图示的三个对抗人脸面具具有与目标位置一致的暗黑风格视觉表征，即所述目标对抗图像的风格语义特征与所述人脸识别系统所处位置的环境图像的风格语义特征的特征距离小于第二预设阈值)，可以用于附着在攻击者人脸，在目标位置(例如商业楼宇的人脸识别系统附近)，对人脸识别模型进行对抗攻击测试。

再例如在所述攻击对象为车辆时，所述目标对抗图像可以实体化为贴纸，或者可以将所述目标对抗图像喷涂或印刷在所述车辆，以基于所述攻击对象生成对抗攻击图像。

在本申请实施例中，所述目标对抗图像可以用于在目标位置对目标模型实施对抗攻击测试，所述目标对抗图像与所述目标位置的环境图像至少满足以下项之一：

所述目标位置为自然环境时，所述目标对抗图像与所述环境图像的语义相似度大于预设数值。

在一些可能的设计中，所述目标对抗图像可以用于战场隐身，例如，可以将所述目标对抗图像实体化为伪装网或衣服(例如吉利服)，所述目标对抗图像既不容易被肉眼发现，也可以欺骗预定的电子识别系统(例如包括所述目标模型的电子设备)，实现更佳的伪装效果。

具体来说，可以将伪装网或衣服的图像作为原始图像，然后将目标位置的环境图像的语义特征作为目标语义特征，例如可以将沙漠、丛林或雪地这些环境的描述(文本或图像)作为目标数据，再基于本申请实施例的方法进行候选对抗图像的迭代更新，得到与上述环境具有相似视觉表征的目标对抗图像，例如生成沙漠迷彩对抗伪装网。所述沙漠迷彩对抗伪装网可以覆盖在需要隐身的物体上，例如可以是汽车或雷达等，覆盖所述沙漠迷彩对抗伪装网的物体既可以在沙漠环境中欺骗人类视觉，自然融入沙漠环境，实现人类视觉伪装和隐身，又可以在电子系统的扫描视觉中实现对抗攻击目的，使得所述电子系统无法正确识别所述物体，完成电子识别隐身。类似地，采用本申请实施例地方法，还可以生成能够自然融入周边环境的雪地对抗伪装网或吉利服、丛林迷彩对抗伪装网或吉利服以及海洋迷彩对抗伪装网或吉利服，此处不再一一列举。

所述目标位置为非自然环境时，所述目标对抗图像与所述目标对抗图像的有效对抗范围的环境图像的语义相似度大于预设数值。

例如可以基于路障的原始图像生成无目标攻击的路障对抗图像，即能够使得目标模型识别不出所述路障对抗图像；然后在模拟道路环境的自动驾驶测试系统中，将路障替换为所述路障对抗图像，测试自动驾驶汽车的路障识别模型是否能够正确识别出所述路障对抗图像，从而在行驶中规避，而不是与所述路障对抗图像发生碰撞。而且，由于所述路障对抗图像具有与周边环境(此处可以将所述目标对抗图像的有效对抗范围的环境图像设置为正常路障)相似的视觉表征，即所述目标对抗图像与所述实施对抗攻击的环境的语义特征距离大于预设数值(例如90％)，更不易被肉眼发现；因此，所述路障对抗图像可以起到良好的视觉伪装作用，不易被肉眼或其他防御策略发现，从而可以不受其他因素干扰地稳定地进行对抗攻击测试。

另外，还可以将一个贴纸图像作为原始图像，在基于所述原始图像采用本申请实施例的方法得到目标对抗图像之后，可以将所述目标对抗图像输出，作为所述对抗扰动，然后将所述对抗扰动实体化为贴纸，附着于原始的路障图像，以对自动驾驶系统的路障识别模型的安全性进行测试。如图7b所示，本申请实施例生成的路障对抗图像中的对抗贴纸与路障的纹路一致，均为斜条纹，不易被肉眼发现。由于实体化对抗扰动的体积显著小于实体化对抗图像，由此可以节省实体化时的材料，且实体化的工作量更少，节省时间。

本申请实施例的图像处理方法，采用基于候选对抗图像的图像语义特征与目标语义特征得到的第一特征距离以及基于候选对抗图像与目标图像得到的第二特征距离共同指导候选对抗图像的更新，使得最终得到的目标对抗图像既与目标图像的特征距离满足要求，能够实现对抗攻击目的，又与目标语义特征相似，能够融入目标位置，不易被人眼发现，从而绕过一些防御策略，更好地实施对抗攻击测试。相比于现有技术仅仅提高对抗图像与目标图像的识别特征距离，本申请实施例还同时提高对抗图像的语义特征与目标语义特征的特征距离，从而使得对抗图像可以具有与目标风格相似或一致的视觉表征，可以在视觉伪装应用中发挥良好作用，稳定地实现对抗攻击目的。另外，本申请实施例中基于目标特征距离指导候选对抗图像的更新，相当于至少基于候选对抗图像与目标风格的语义损失指导对抗图像的更新，相比于传统风格迁移模型基于图像的风格特征损失指导合成图像的更新，语义损失控制的视觉表征更加多样和全面，包括图案、颜色、形状、大小等各个视觉表征维度，而不仅仅是一种风格，由此，本申请实施例生成的目标对抗图像可以更好地融入目标位置，伪装性能更强，从而稳定地实施对抗攻击。

本申请实施例的目标对抗图像还可以用于对搜索引擎进行对抗攻击或对抗攻击测试，例如可以将所述目标对抗图像上传至网络公共平台，例如公司网页、社交媒体或开源数据集等。在用户基于搜索引擎进行图像查询时，可以通过终端设备向所述搜索引擎发送图像查询指令，其中，所述图像查询指令至少指示查询目标风格和查询目标内容，例如所述图像查询指令可以是搜索“梵高绘画”，则可以明确图像查询风格为梵高绘画风格，查询目标内容为梵高曾经绘制的画作，所述搜索引擎获取所述图像查询指令并基于所述图像查询指令在数据库中(例如网络公开数据或专用数据库)获取目标数据；具体来说，所述搜索引擎可以是通用搜索引擎，例如Google、百度、雅虎等，或者也可以是专用搜索引擎，例如专利数据搜索引擎、图像数据搜索引擎或期刊数据搜索引擎。

所述目标对抗图像可以是具有梵高绘画风格的生成图像(即与所述查询目标风格的风格语义特征距离小于第一预设阈值)，具体画作内容则不是梵高曾经绘画的作品(即与所述查询目标内容的内容相似度小于预设值)，例如可以是真实拍摄的照片或随机生成的无意义图像。所述目标对抗图像被上传至网络公开平台或收录入数据库中之后，可以被所述搜索引擎查询访问，所述搜索引擎可能基于所述目标对抗图像的梵高绘画风格，将所述目标对抗图像识别为梵高绘画，错误的输出给用户，从而误导其他用户。

在一个可能的设计中，所述目标对抗图像可以基于一些开源图像数据集生成，例如所述目标对抗图像具有与一个开源图像数据即不同的图像内容，但是具有相同的图像风格。例如在一个中国人脸图像集中，所述目标对抗图像可以具有与所述中国人脸图像集中的人脸图像相同的图像风格，且具有不同的图像内容，例如所述目标对抗图像的图像内容不是人脸图像。由此，可以将所述目标对抗图像混入所述中国人脸图像集，形成误导。在一些用户采用所述包括目标对抗图像的数据集进行模型训练或其他任务的工作时，则可能由于数据集混入了错误数据，而造成模型训练的错误或其他任务的失败。

以上对本申请实施例中一种图像处理方法进行说明，以下对执行上述图像处理方法的图像处理装置(例如服务器)进行介绍。

参阅图8，如图8所示的一种图像处理装置的结构示意图，其可应用于图1所示的服务器01中，用于对候选对抗图像进行更新，得到目标对抗图像，该目标对抗图像可具有与实施对抗攻击的环境相似或相同的视觉表征，不易被人眼或图像识别系统的防御策略发现，可以稳定地实现对抗攻击目的，更好地实施对抗攻击测试。在本申请实施例中的图像处理装置能够实现对应于上述图2、图4中任一所对应的实施例中所执行的图像处理方法的步骤。图像处理装置实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述模型构建的装置可包括输入输出模块601及处理模块602，所述装置还可以包括显示模块(图8中未标识出)，所述处理模块602、所述输入输出模块601的功能实现可参考图2、图4所对应的实施例中所执行的操作，此处不作赘述。例如，所述处理模块602可用于控制所述输入输出模块601的收发、获取等操作，以及控制所述显示模块的显示图像等操作。

所述输入输出模块601，还被配置为获取原始图像；

所述处理模块602，还被配置为获取候选对抗图像，其中，所述候选对抗图像基于所述原始图像和图像处理模型生成；

所述处理模块602，还被配置获取候选对抗图像，其中，所述候选对抗图像基于原始图像和图像处理模型生成；

所述处理模块602，还被配置为获取目标语义特征，并基于所述候选对抗图像获取图像语义特征，其中，所述目标语义特征至少用于表示目标风格；

所述处理模块602，还被配置为获取目标特征距离，其中，所述目标特征距离包括第一特征距离和第二特征距离，所述第一特征距离基于所述图像语义特征与所述目标语义特征获取，所述第二特征距离基于所述候选对抗图像与对抗攻击方式获取；以及

所述输入输出模块601，还被配置为将所述目标对抗图像实体化，以对物理世界的目标模型进行攻击测试。

所述输入输出模块601，还被配置为将基于目标对抗图像以及原始图像输出对抗扰动，并将所述对抗扰动实体化，以基于攻击对象生成对抗攻击图像，对物理世界的识别模型进行攻击测试。

在一些实施方式中，所述候选对抗图像与所述原始图像的内容相似度大于预设值。

在一些实施方式中，所述目标语义特征基于目标数据分析得到；

所述目标数据由用户经终端设备输入或基于由用户经终端设备输入的指令在目标位置采集得到；

其中，所述目标数据至少用于表示目标风格，所述目标数据的数据格式为文本、图像或视频。

在一些实施方式中，在所述目标数据的数据格式为文本且所述目标数据由用户经终端设备输入时，所述处理模块602，还被配置为接收所述终端设备发送的所述目标数据；基于所述目标数据获取目标风格图像；基于所述目标风格图像获取风格图像语义特征，并将所述风格图像语义特征作为所述目标语义特征。

在一些实施方式中，所述目标对抗图像用于对目标模型进行有目标攻击或无目标攻击；

在对目标模型进行有目标攻击时，所述第二特征距离基于所述候选对抗图像与目标图像获取，所述预设条件包括所述第一特征距离小于第一预设阈值、所述第二特征距离小于第二预设阈值；

在对目标模型进行无目标攻击时，所述第二特征距离基于所述候选对抗图像与所述原始图像获取，所述预设条件包括所述第一特征距离小于所述第一预设阈值、所述第二特征距离大于第三预设阈值。

在一些实施方式中，所述处理模块602，还被配置为基于所述目标特征距离获取目标损失；基于所述目标损失以及所述图像处理模型的预设参数计算梯度变化信息；基于所述梯度变化信息更新所述预设参数。

在一些实施方式中，所述原始图像为全局图像；

或者，所述原始图像为局部扰动图像，所述目标对抗图像用于基于攻击对象生成对抗攻击图像。

在一些实施方式中，所述目标对抗图像与所述目标位置的环境图像至少满足以下项之一：

所述目标位置为自然环境时，所述目标对抗图像与所述环境图像的语义相似度大于预设数值；

在一些实施方式中，所述原始图像为人脸图像，得到所述目标对抗图像之后，所述输入输出模块601，还被配置为将所述目标对抗图像输入人脸识别系统，其中，所述人脸识别系统基于所述目标对抗图像获取进行人脸识别，验证所述目标对抗图像中的人物身份是否合法；

所述目标对抗图像的风格语义特征与所述人脸识别系统所处位置的环境图像的风格语义特征的特征距离小于第二预设阈值。

本申请实施例的图像处理装置，采用基于候选对抗图像的图像语义特征与目标语义特征得到的第一特征距离以及基于候选对抗图像与目标图像得到的第二特征距离共同指导候选对抗图像的更新，使得最终得到的目标对抗图像既与目标图像的特征距离满足要求，能够实现对抗攻击目的，又与目标语义特征相似，能够融入目标位置，不易被人眼发现，从而绕过一些防御策略，更好地实施对抗攻击测试。相比于现有技术仅仅提高对抗图像与目标图像的识别特征距离，本申请实施例还同时提高对抗图像的语义特征与目标语义特征的特征距离，从而使得对抗图像可以具有与目标风格相似或一致的视觉表征，可以在视觉伪装应用中发挥良好作用，稳定地实现对抗攻击目的。另外，本申请实施例中基于目标特征距离指导候选对抗图像的更新，相当于至少基于候选对抗图像与目标风格的语义损失指导对抗图像的更新，相比于传统风格迁移模型基于图像的风格特征损失指导合成图像的更新，语义损失控制的视觉表征更加多样和全面，包括图案、颜色、形状、大小等各个视觉表征维度，而不仅仅是一种风格，由此，本申请实施例生成的目标对抗图像可以更好地融入目标位置，伪装性能更强，从而稳定地实施对抗攻击。

在介绍了本申请实施例的方法和装置之后，接下来，对本申请实施例的计算机可读存储介质进行说明，计算机可读存储介质可为光盘，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，获取候选对抗图像，其中，所述候选对抗图像基于原始图像和图像处理模型生成；获取目标语义特征，并基于所述候选对抗图像获取图像语义特征，其中，所述目标语义特征至少用于表示目标风格；获取目标特征距离，其中，所述目标特征距离包括第一特征距离和第二特征距离，所述第一特征距离基于所述图像语义特征与所述目标语义特征获取，所述第二特征距离基于所述候选对抗图像与对抗攻击方式获取；以及若所述目标特征距离不符合预设条件，则更新所述图像处理模型，并基于更新的图像处理模型获取更新的候选对抗图像，直至目标特征距离符合所述预设条件，并将目标特征距离符合所述预设条件时的候选对抗图像作为目标对抗图像。各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

上面从模块化功能实体的角度对本申请实施例中的图像处理装置60进行了描述，下面从硬件处理的角度分别对本申请实施例中的执行图像处理方法的服务器、终端设备进行描述。

需要说明的是，在本申请图像处理装置实施例的图8所示的输入输出模块601对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输入/输出(I/O)接口等，处理模块602对应的实体设备可以为处理器。图8所示的图像处理装置60可以具有如图9所示的结构，当图8所示的图像处理装置60具有如图9所示的结构时，图9中的处理器和收发器能够实现前述对应该装置的装置实施例提供的处理模块602和输入输出模块601相同或相似的功能，图9中的存储器存储处理器执行上述图像处理方法时需要调用的计算机程序。

本申请实施例还提供了一种终端设备，如图10所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图10示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图10，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General PacketRadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(LiquidCrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；可选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，可选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的处理器1080还具有控制执行以上由图像识别装置执行的基于输入的图像获取识别结果的方法流程；或者控制执行以上有图像处理装置执行的基于输入的原始图像生成目标对抗图像的方法流程。

本申请实施例还提供了一种服务器，请参阅图11，图11是本申请实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：central processing units，英文简称：CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图中未示出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1120，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows Server，Mac OS X，Unix,Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器1100的结构。例如，例如上述实施例中由图11所示的图像处理装置60所执行的步骤可以基于该图11所示的服务器结构。例如，所述中央处理器1122通过调用存储器1132中的指令，执行以下操作：

通过输入输出接口1158获取原始图像；

还可以通过输入输出接口1158将所述目标对抗图像输出，例如输出至数字世界的目标模型中，对目标模型进行对抗攻击测试，评估目标模型的安全性；或者可以通过输入输出接口1158将所述目标对抗图像实体化，在物理世界对目标模型进行攻击，衡量目标模型的安全性。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种图像处理方法，所述方法包括：

获取目标特征距离，其中，所述目标特征距离包括第一特征距离和第二特征距离，所述第一特征距离基于所述图像语义特征与所述目标语义特征获取，所述第二特征距离基于所述候选对抗图像与对抗攻击方式获取；

2.如权利要求1所述的方法，其中，所述候选对抗图像与所述原始图像的内容相似度大于预设值。

3.如权利要求1或2所述的方法，其中，所述目标语义特征基于目标数据分析得到；

4.如权利要求3所述的方法，其中，在所述目标数据的数据格式为文本且所述目标数据由用户经终端设备输入时，所述获取目标语义特征包括：

接收所述终端设备发送的所述目标数据；

基于所述目标数据获取目标风格图像；

基于所述目标风格图像获取风格图像语义特征，并将所述风格图像语义特征作为所述目标语义特征。

5.如权利要求1或2所述的方法，其中，所述目标对抗图像用于对目标模型进行有目标攻击或无目标攻击；

6.如权利要求1或2所述的方法，其中，所述更新所述图像处理模型，包括：

基于所述目标特征距离获取目标损失；

基于所述目标损失以及所述图像处理模型的预设参数计算梯度变化信息；

基于所述梯度变化信息更新所述预设参数。

7.如权利要求1或2所述的方法，其中，所述原始图像为全局图像；

8.如权利要求3所述的方法，其中，所述目标对抗图像与所述目标位置的环境图像至少满足以下项之一：

9.如权利要求1或2所述的方法，其中，所述原始图像为人脸图像，得到所述目标对抗图像之后，所述方法还包括：

将所述目标对抗图像输入人脸识别系统，其中，所述人脸识别系统基于所述目标对抗图像进行人脸识别，验证所述目标对抗图像中的人物身份是否合法；

10.一种数据处理方法，应用于搜索引擎，包括：

11.一种图像处理装置，包括：

输入输出模块，被配置为获取原始图像；

处理模块，被配置为获取候选对抗图像，其中，所述候选对抗图像基于原始图像和图像处理模型生成；

12.一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-9中任一项所述的方法，或者实现如权利要求10所述的方法。

13.一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-9中任一项所述的方法，或者执行如权利要求10所述的方法。