CN115019050A

CN115019050A - 图像处理方法、装置、设备及存储介质

Info

Publication number: CN115019050A
Application number: CN202110246305.0A
Authority: CN
Inventors: 卢少豪; 胡易; 鄢科; 杜俊珑; 朱城; 郭晓威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2022-09-06
Also published as: WO2022184019A1; US20230094206A1

Abstract

本申请公开了一种图像处理方法、装置、设备及存储介质，属于人工智能技术领域。该方法包括：获取原始图像，对原始图像进行特征编码处理，得到第一特征图；根据第一特征图，获取原始图像的第二特征图和第三特征图；其中，第二特征图指代待叠加到原始图像上的图像扰动，第三特征图上各个位置具有不同的特征值，各个特征值用于表征相应位置上图像特征的重要程度；根据第二特征图和第三特征图，生成噪声图像；将原始图像与噪声图像叠加，得到第一对抗样本。本申请能够生成优质的对抗样本，进而能够取得良好的攻击效果。

Description

图像处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种图像处理方法、装置、设备及存储介质。

背景技术

利用深度学习弊端破坏图像识别模型的图像识别能力的方法被统称为对抗攻击，即图像在添加人眼难以识别的噪声后，会使得基于深度学习的图像识别模型的图像识别任务失效。换言之，对抗攻击的目标是在原始图像上添加人眼难以察觉的扰动，进而使得模型输出的识别结果与原始图像的实际分类完全不一致。其中，添加有噪声且人眼看上去与原始图像一致的图像被称为对抗样本。

相关技术采用基于搜索或优化的方法进行对抗攻击。其中，基于搜索或优化的方法在生成对抗样本时涉及多次前向运算并且计算梯度，以此在一定的搜索空间中搜索使得图像识别模型的识别任务失效的扰动，这会导致生成一个对抗样本便需要花费大量时间，对于大量图片的场景下，这种对抗攻击方式所需的时间让人难以接受，时效性差。为了解决这个问题，基于对抗生成网络的对抗生成网络的方法被提出来。然而，训练对抗生成网络有一个生成器和判别器的博弈过程，这会使得生成的扰动不稳定，进而导致攻击效果不稳定。

基于以上描述可知，目前无法取得有效的攻击效果，为此如何进行图像处理，以生成优质的对抗样本，便成为了本领域技术人员亟待解决的一个难题。

发明内容

本申请实施例提供了一种图像处理方法、装置、设备及存储介质，能够生成优质的对抗样本，进而能够取得良好的攻击效果。所述技术方案如下：

一方面，提供了一种图像处理方法，所述方法包括：

获取原始图像，对所述原始图像进行特征编码处理，得到第一特征图；

根据所述第一特征图，获取所述原始图像的第二特征图和第三特征图；其中，所述第二特征图指代待叠加到所述原始图像上的图像扰动，所述第三特征图上各个位置具有不同的特征值，各个特征值用于表征相应位置上图像特征的重要程度；

根据所述第二特征图和所述第三特征图，生成噪声图像；

将所述原始图像与所述噪声图像叠加，得到第一对抗样本。

另一方面，提供了一种图像处理装置，所述装置包括：

编码模块，被配置为获取原始图像，对所述原始图像进行特征编码处理，得到第一特征图；

解码模块，被配置为根据所述第一特征图，获取所述原始图像的第二特征图和第三特征图；其中，所述第二特征图指代待叠加到所述原始图像上的图像扰动，所述第三特征图上各个位置具有不同的特征值，各个特征值用于表征相应位置上图像特征的重要程度；

第一处理模块，被配置为根据所述第二特征图和所述第三特征图，生成噪声图像；

第二处理模块，被配置为将所述原始图像与所述噪声图像叠加，得到第一对抗样本。

在一些实施例中，所述编码模块，被配置为：

将所述原始图像输入对抗攻击网络的特征编码器进行特征编码处理，得到所述第一特征图，所述第一特征图的尺寸小于所述原始图像；

其中，所述特征编码器包括卷积层和残差块，所述残差块在连接顺序上位于所述卷积层之后；任意一个残差块中均包括一个恒等映射和至少两个卷积层，所述任意一个残差块的恒等映射由所述任意一个残差块的输入端指向所述任意一个残差块的输出端。

在一些实施例中，所述解码模块包括第一解码单元，所述第一解码单元，被配置为：

将所述第一特征图输入对抗攻击网络的第一特征解码器进行第一特征解码处理，得到原始噪声特征图；

对所述原始噪声特征图上各个位置的噪声特征值进行抑制处理，得到所述第二特征图，所述第二特征图的尺寸与所述原始图像的尺寸一致；

其中，所述第一特征解码器包括反卷积层和卷积层，所述卷积层在连接顺序上位于所述反卷积层之后。

将所述原始噪声特征图上各个位置的噪声特征值与目标阈值进行比较；

对于所述原始噪声特征图上的任意位置，响应于所述任意位置的噪声特征值大于所述目标阈值，将所述任意位置的噪声特征值替换为所述目标阈值。

在一些实施例中，所述解码模块还包括第二解码单元，所述第二解码单元，被配置为：

将所述第一特征图输入对抗攻击网络的第二特征解码器进行第二特征解码处理，得到所述原始图像的第三特征图；

对所述第三特征图上各个位置的图像特征值进行归一化处理，所述第三特征图的尺寸与所述原始图像的尺寸一致；

其中，所述第二特征解码器包括反卷积层和卷积层，所述卷积层在连接顺序上位于所述反卷积层之后。

在一些实施例中，所述对抗攻击网络还包括图像识别模型；所述装置还包括：分类模块；所述分类模块，被配置为将所述第一对抗样本输入所述图像识别模型，得到所述图像识别模型输出的图像识别结果。

在一些实施例中，所述对抗攻击网络的训练过程包括：

获取训练数据集中包括的样本图像的第二对抗样本；

将所述样本图像和所述第二对抗样本一并输入所述图像识别模型进行特征编码处理，得到所述样本图像的特征数据和所述第二对抗样本的特征数据；

基于所述样本图像的特征数据和所述第二对抗样本的特征数据，分别构建第一损失函数和第二损失函数；

获取所述样本图像的第三特征图，所述样本图像的第三特征图上各个位置具有不同的特征值，各个特征值用于表征相应位置上图像特征的重要程度；

基于所述样本图像的第三特征图，构建第三损失函数；

基于所述第一损失函数、所述第二损失函数和所述第三损失函数进行端到端训练，得到所述对抗攻击网络。

在一些实施例中，所述对抗攻击网络的训练过程包括：

在所述样本图像的特征数据中，分离出所述样本图像的特征角度；

在所述第二对抗样本的特征数据中，分离出所述第二对抗样本的特征角度；

基于所述样本图像的特征角度和所述第二对抗样本的特征角度，构建所述第一损失函数，所述第一损失函数的优化目标是将所述样本图像与所述第二对抗样本之间的特征夹角变大。

在一些实施例中，所述对抗攻击网络的训练过程包括：

在所述样本图像的特征数据中，分离出所述样本图像的特征模值；

在所述第二对抗样本的特征数据中，分离出所述第二对抗样本的特征模值；

基于所述样本图像的特征模值和所述第二对抗样本的特征模值，构建所述第二损失函数，所述第二损失函数的优化目标是将所述样本图像与所述第二对抗样本之间的特征模值之差变小。

在一些实施例中，所述对抗攻击网络的训练过程包括：

获取所述第二损失函数和所述第三损失函数的第一和值；以及，获取目标常数与所述第一和值的乘积值；

将所述第一和值与所述乘积值的第二和值，作为最终的损失函数进行端到端训练，得到所述对抗攻击网络。

在一些实施例中，所述对抗攻击网络的第一特征解码器和第二特征解码器的结构相同。

另一方面，提供了一种计算机设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现上述的图像处理方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述的图像处理方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述图像处理方法。

本申请实施例提供的图像处理方案仅需一次前向运算即可生成对抗样本，详细来说，在对原始图像进行特征提取得到第一特征图后，会基于第一特征图，继续获取原始图像的第二特征图和第三特征图；其中，第二特征图指代待叠加到原始图像上且人眼难以识别的图像扰动，第三特征图上各个位置具有不同的特征值，各个特征值用于表征相应位置上图像特征的重要程度，之后，根据第二特征图和所述第三特征图生成噪声图像，进而将原始图像与噪声图像叠加即可得到对抗样本。由于该种图像处理方法能快速生成对抗样本，因此时效性较好。另外，生成的扰动稳定，且第三特征图的存在能够使得噪声更加集中在重要的区域，使得生成的对抗样本更加优质，进而能够有效提升攻击效果。

综上所述，本申请实施例在对抗攻击时能够取得良好的攻击效果。在应用方面，本申请实施例能够有效提升图像识别模型在面对对抗攻击时的抵抗性，即该种图像处理方案可以作为一种数据增强方式来优化已有的图像识别模型，进而提高已有的图像识别模型的分类准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法涉及的实施环境的示意图；

图2是本申请实施例提供的一种图像处理方法的流程图；

图3是本申请实施例提供的一种对抗攻击网络的结构示意图；

图4是本申请实施例提供的另一种对抗攻击网络的结构示意图；

图5是本申请实施例提供的一种残差块的结构示意图；

图6是本申请实施例提供的另一种图像处理方法的流程图；

图7是本申请实施例提供的另一种图像处理方法的流程图；

图8是本申请实施例提供的一种对抗攻击网络的训练过程示意图；

图9是本申请实施例提供的一种角度模分离优化损失函数的示意图；

图10是本申请实施例提供的一种对抗攻击结果的示意图；

图11是本申请实施例提供的另一种对抗攻击结果的示意图；

图12是本申请实施例提供的另一种对抗攻击结果的示意图；

图13是本申请实施例提供的另一种对抗攻击结果的示意图；

图14是本申请实施例提供的另一种对抗攻击结果的示意图；

图15是本申请实施例提供的一种图像处理装置的结构示意图；

图16是本申请实施例提供的一种计算机设备的结构示意图；

图17是本申请实施例提供的另一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。

这些术语只是用于将一个元素与另一个元素区别开。例如，在不脱离各种示例的范围的情况下，第一元素能够被称为第二元素，并且类似地，第二元素也能够被称为第一元素。第一元素和第二元素都可以是元素，并且在某些情况下，可以是单独且不同的元素。

其中，至少一个是指一个或一个以上，例如，至少一个元素可以是一个元素、两个元素、三个元素等任意大于等于一的整数个元素。而至少两个是指两个或者两个以上，例如，至少两个元素可以是两个元素、三个元素等任意大于等于二的整数个元素。

本申请实施例提供的图像处理方案涉及人工智能(Artificial Intelligence,AI)技术。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

可选地，本申请实施例涉及机器学习中的深度残差网络(ResNet)。

其中，神经网络的深度对其性能非常重要，因此在理想情况下，只要网络不过拟合，则深度应该是越深越好。但是在实际训练神经网络时会遇到的一个优化的难题，即随着神经网络的深度的不断加深，梯度越往后越容易消失(即梯度弥散)，难以优化模型，反而导致网络的准确率下降。换一种表达方式，在不断增加神经网络的深度时，会出现一个Degradation(再形成)的问题，即准确率会先上升然后达到饱和，再持续增加深度则会导致准确率下降。

基于上述描述可知，当网络层数达到一定的数目以后，网络的性能就会饱和，再增加深度网络的性能便会开始退化，但是这种退化并不是由过拟合引起的，因为训练精度和测试精度都在下降，这说明当网络达到一定深度以后，神经网络便难以训练了。而ResNet的出现便是为了解决网络深度在变深以后的性能退化问题。ResNet提出了一个深度残差学习(Deep Residual Learning,DRL)框架来解决这种因为深度增加而导致性能退化问题。

假设有一个比较浅的网络达到了饱和的准确率，那么在这个网络的后面再加上几个恒等映射(Identity mapping)层，起码误差不会增加，即更深的网络不应该带来训练集上误差的上升。而这里提到的使用恒等映射直接将前一层输出传到后面层的思想，便是ResNet的灵感来源。

其中，关于ResNet的更多解释说明请参见后文介绍。

下面对本申请实施例可能涉及到的一些关键术语或缩略语进行介绍。

对抗攻击(adversarial attacks)：图像(也称原始图像)在添加人眼难以识别的噪声后，会使得基于深度学习的图像识别模型的图像识别任务失效。换言之，对抗攻击的目标是在原始图像上添加人眼难以察觉的扰动，进而使得图像识别模型的识别结果与原始图像的实际分类完全不一致。其中，添加有噪声且人眼看上去与原始图像一致的图像被称为对抗样本或攻击图像。

换一种表达方式，原始图像与对抗样本在视觉上一致，二者具有视觉一致性，这种一致性使得人眼在观察这两幅图像时无法区分二者之间的细微差异。即，在视觉上一致的含义是：在原始图像上添加人眼难以察觉的扰动得到对抗样本后，原始图像和对抗样本在人眼看来是一致的，人眼无法区分出二者之间的细微差异。

下面对本申请实施例提供的图像处理方法涉及的实施环境进行介绍。

参见图1，该实施环境包括：训练设备110和应用设备120。

在训练阶段，训练设备110用于基于定义的损失函数进行端到端训练，得到用于进行对抗攻击的对抗攻击网络(也称自动编码器)。在应用阶段，应用设备120即可利用自动编码器生成输入的原始图像的对抗样本。换一种表达方式，在训练阶段通过端到端训练得到了用于生成对抗样本的自编码器；相应地，在应用阶段，对于一张输入的原始图像，经过自动编码器即可生成一个在人眼看上去和原始图像一致的对抗样本，进而用于攻击图像识别模型。

综上所述，本申请实施例提供的图像处理方案利用训练好的自动编码器来生成图像扰动(得到一个噪声图像)，然后将生成的图像扰动(即噪声图像)叠加到原始图像中生成对抗样本，从而使图像识别模型误识别该对抗样本。

可选地，上述训练设备110和应用设备120为计算机设备，比如，该计算机设备可以是终端或服务器。在一些实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在另一个实施例中，上述训练设备110和应用设备120可以是同一个设备，或者，训练设备110和应用设备120也可以是不同的设备。并且，当训练设备110和应用设备120是不同的设备时，训练设备110和应用设备120可以是同一类型的设备，比如训练设备110和应用设备120可以都是终端；或者，训练设备110和应用设备120也可以是不同类型的设备，比如训练设备110可以是服务器，而应用设备120可以是终端等。本申请在此不做限制。

下面通过如下实施方式对本申请实施例提供的图像处理方案进行介绍。

图2是本申请实施例提供的一种图像处理方法的流程图。参见图2，在应用阶段，本申请实施例提供的方法流程包括：

201、获取原始图像，对原始图像进行特征编码处理，得到第一特征图。

可选地，原始图像为RGB(Red Green Blue，红绿蓝)图像；另外，原始图像可以为包括人、物(比如动物或植物)的图像，本申请在此不做限制。其中，原始图像在本文中以符号I指代。

在一些实施例中，对原始图像进行特征编码处理，得到第一特征图，包括但不限于如下方式：将原始图像输入图3所示的对抗攻击网络的特征编码器301进行特征编码处理，得到第一特征图。其中，特征编码处理也被称为特征提取处理，第一特征图的尺寸小于原始图像。

可选地，参见图4，特征编码器301采用卷积神经网络，包括卷积层和残差块(ResBlock)，其中，残差块在连接顺序上位于卷积层之后。示例性地，如图4所示，特征编码器301包括依次相连的多个卷积层和依次相连的多个ResBlock，比如包括三个卷积层和六个ResBlock，本申请在此不做限制。另外，上述多个卷积层的卷积核大小既可以相同，也可以不同，本申请在此同样不做限制。

以图4所示的特征编码器结构为例，假设原始图像的输入尺寸为w*h，通道数为3，则经过第一个卷积层后，原始图像的宽(w)和高(h)变为原来的1/2，通道数从3变为32，形成一个w/2*h/2*128的特征图；经过第二个卷积层后，原始图像的宽(w)和高(h)变为原来的1/4，通道数从32变为64，形成一个w/4*h/4*64的特征图；经过第三个卷积层后，原始图像的宽(w)和高(h)变为原来的1/4，通道数从64变为128，形成一个w/2*h/2*128的特征图；之后，该特征图会再经过由六个ResBlock组成的子网络，生成新的特征图；换言之，经过六个ResBlock后，得到w/4*h/4*128的第一特征图，该第一特征图即为原始图像经过特征编码器301的特征编码处理后得到的特征图。

可选地，任意一个残差块中均包括一个恒等映射(identity mapping)层和至少两个卷积层，任意一个残差块的恒等映射由任意一个残差块的输入端指向任意一个残差块的输出端。其中，恒等映射，对任意集合A，如果映射f:A→A定义为f(a)＝a，即规定A中每个元素a与自身对应，则称f为A上的恒等映射。

接下来对深度残差网络进行详细地解释说明。

假设某段神经网络的输入是x，期望的网络层关系映射为H(x)，让堆叠非线性层拟合另一个映射F(x)＝H(x)-x,那么原先的映射H(x)则变成了F(x)+x。假设优化残差映射F(x)比优化原来的映射H(x)容易，这里我们首先求取残差映射F(x)，那么原先的映射便是F(x)+x，而F(x)+x可以通过Shortcut连接来实现。

图5示出了一个残差块的结构示意图。如图5所示，深度残差网络的任意一个残差块中均包括一个恒等映射和至少两个卷积层。其中，一个残差块的恒等映射由该残差块的输入端指向该残差块的输出端。

即，增加一个恒等映射，将原始所需要学的函数H(x)转换成F(x)+x。虽然这两种表达效果相同，但是优化的难度却并不相同，通过一个reformulation(再形成)，将一个问题分解成多个尺度直接的残差问题，能够很好地起到优化训练的效果。如图5所示，这个残差块通过Shortcut连接实现，通过Shortcut连接将这个残差块的输入和输出进行叠加，在不给网络增加额外的参数和计算量的前提下，大大增加了模型的训练速度、提高了训练效果，并且当模型的层数加深时，这个简单的结构能够很好地解决退化问题。

换一种表达方式，H(x)是期望的复杂潜在映射，学习难度大，如果直接通过图5的Shortcut连接将输入x传到输出作为初始结果，那么此时需要学习的目标便是F(x)＝H(x)-x，于是ResNet网络相当于将学习目标改变了，不再是学习一个完整的输出，而是需要学习最优解H(x)和恒等映射x的差值，即残差映射F(x)。需要说明的是，Shortcut原意指捷径，在本文中表示越层连接，ResNet网络中Shortcut连接没有权值，传递x后每个残差块仅学习残差映射F(x)。且由于网络稳定易于学习，随着网络深度的增加性能将逐渐变好，因此当网络层数够深时，优化残差映射F(x)＝H(x)-x，将易于优化一个复杂的非线性映射H(x)。

基于以上描述可知，ResNet网络相较于普通直连的卷积神经网络而言，有很多旁路的支线将输入直接连到后面的层，使得后面的层可以直接学习残差，这种结构即被称为Shortcut连接。其中，传统的卷积层或全连接层在信息传递时，或多或少会存在信息丢失、损耗等问题，ResNet网络在某种程度上解决了这个问题，通过直接将输入绕道传递到输出，保护信息的完整性，整个网络则仅需要学习输入和输出差别的那一部分即可，简化学习目标和难度。

需要说明的是，经过特征编码器301得到的第一特征图会分别输入对抗攻击网络的第一特征解码器(也称噪声解码器)302和第二特征解码器(也称显著性区域解码器)303。参加图3，由于第一特征解码器302和第二特征解码器303呈对称结构，且本文提出了显著性区域的概念，因此该对抗攻击网络也被称为基于显著性区域的对称自动编码器，详细请参见下述步骤202。

202、根据第一特征图，获取原始图像的第二特征图和第三特征图；其中，第二特征图指代待叠加到原始图像上的图像扰动，第三特征图上各个位置具有不同的特征值，各个特征值用于表征相应位置上图像特征的重要程度。

可选地，本步骤由图3所示的对抗攻击网络中的第一特征解码器302和第二特征解码器303执行。相应地，图2中的步骤202可以被替换为图6中的步骤2021至步骤2024。

2021、将第一特征图输入对抗攻击网络的第一特征解码器进行第一特征解码处理，得到原始噪声特征图。

在一些实施例中，参见图4，第一特征解码器302包括反卷积层和卷积层，其中，卷积层在连接顺序上位于反卷积层之后。比如，如图4所示，第一特征解码器302解码器包括两个3x3的反卷积层和一个7x7的卷积层。其中，反卷积层的作用是将输入尺寸较小的特征图变换为尺寸较大的特征图。

如图4所示，第一特征解码器302输入的特征图是由特征编码器301编码后得到的w/4*h/4*128的第一特征图，该第一特征图经过第一个3x3的反卷积层后变为w/2*h/2*64的特征图；经过第二个3x3的反卷积层后变为w*h*32的特征图；再经过一个7x7的卷积层后得到一个w*h*3的特征图，即原始噪声特征图。其中，原始噪声特征图在本文中以符号N₀指代。

2022、对原始噪声特征图上各个位置的噪声特征值进行抑制处理，得到原始图像的第二特征图。

可选地，为了避免噪声过大，本申请实施例会给原始噪声特征图的噪声特征值加一个限制，进而得到第二特征图。其中，对原始噪声特征图上各个位置的噪声特征值进行抑制处理，包括到但不限于：将原始噪声特征图上各个位置的噪声特征值与目标阈值进行比较；对于原始噪声特征图上的任意位置，响应于任意位置的噪声特征值大于目标阈值，将任意位置的噪声特征值替换为目标阈值。用公式进行表示，可以表示为下述公式：

N(I)＝min(|N₀(I)|，δ)

其中，min(a,b)指代取a和b中的最小者；δ是一个超参数，指代上述目标阈值，它用于限制噪声特征值的最大值；δ的值越小，所产生的噪声就越小，叠加到原始图像后就越不容易被人眼所察觉，最终生成的攻击图像的质量就越好。

第二特征图在本文中以符号N指代，原始图像I的第二特征图可以表示为N(I)。另外，第二特征图的尺寸与原始图像的尺寸一致。另外，该第二特征图即为待叠加到原始图像上的噪声，也即图像扰动。

2023、将第一特征图输入对抗攻击网络的第二特征解码器进行第二特征解码处理，得到原始图像的第三特征图。

在一些实施例中，第二特征解码器303包括反卷积层和卷积层，其中，卷积层在连接顺序上位于反卷积层之后。

可选地，如图4所示，第二特征解码器303和第一特征解码器302的结构相同。即，显著性区域解码器和噪声解码器的结构相同，也是由两个3x3的反卷积层和一个7x7的卷积层组成。其中，显著性区域解码器的输入也是第一特征编码器301的输出，显著性区域解码器的输出则是原始图像的显著性区域特征图。详细来说，如图4所示，第一特征解码器302输入的特征图是由特征编码器301编码后得到的w/4*h/4*128的第一特征图，该第一特征图经过第二特征解码器303的第一个3x3的反卷积层后变为w/2*h/2*64的特征图；经过第二个3x3的反卷积层后变为w*h*32的特征图；再经过一个7x7的卷积层后得到一个w*h*1的特征图，即显著性区域特征图。

2024、对第三特征图上各个位置的图像特征值进行归一化处理。

其中，第三特征图的尺寸与原始图像的尺寸一致，在本文中以符号M指代。

需要说明的是，设计显著性区域解码器的动机是，对于神经网络，输入图像中的部分区域是非常重要的，而除此之外的其他区域是相对不重要的。因此本文利用第二特征解码器对输入特征(第一特征图)进行解码，得到一个特征图M，称之为显著性区域特征图。之后，将该特征图上各个位置的图像特征值均归一化到[0,1]范围内。

203、根据第二特征图和第三特征图，生成噪声图像。

在一些实施例中，根据第二特征图和第三特征图，生成噪声图像，包括但不限于：将经过步骤2022处理后得到的第二特征图与经过步骤2024处理后得到的第三特征图进行按位置相乘处理，得到噪声图像。

需要说明的是，显著性区域特征图上任意位置的图像特征值越大，表明该位置的图像特征越重要，相应位置上的噪声特征值被保留的概率也就越大，这样可以让噪声更加集中在图像的重要区域，能够提高攻击成功率。

204、将原始图像与噪声图像叠加，得到第一对抗样本。

在一些实施例中，参见图3和图4，通过将原始图像I与噪声图像P进行按位置叠加，得到原始图像I的对抗样本，该对抗样本在本文中被称为第一对抗样本，以符号I′指代。

需要说明的是，原始图像与第一对抗样本在视觉上一致，即在原始图像上添加人眼难以察觉的扰动得到第一对抗样本后，原始图像和第一对抗样本在人眼看来是一致的，人眼无法区分出二者之间的细微差异。但是，原始图像与第一对抗样本在物理层面上是不一致的，即相较于原始图像，第一对抗样本中除了包括原始图像的全部图像信息之外，还包括人眼难以识别的噪声；换言之，第一对抗样本包括原始图像的全部图像信息和人眼难以识别的噪声信息。

进一步地，参见图3和图4，对抗攻击网络中还包括图像识别模型304，在得到第一对抗样本后，参见图7，本申请实施例提供的方法还包括下述步骤205。

205、将第一对抗样本输入图像识别模型，得到该图像识别模型输出的图像识别结果。

可选地，在得到第一对抗样本I′后，可以将第一对抗样本I′输入需要攻击的图像识别模型中，进而用于攻击该图像识别模型。

在另一些实施例中，在训练阶段，参见图8，上述对抗攻击网络的训练过程包括但不限于如下步骤。

801、获取训练数据集中包括的样本图像的第二对抗样本。

在本文中将样本图像的对抗样本统称为第二对抗样本。另外，训练数据集中包括的样本图像为多张，而每张样本图像均对应一个对抗样本，即第二对抗样本的数量也为多张。

可选地，与上述步骤201至步骤204所示的图像处理过程类似，对于任意一张样本图像，获取该样本图像的第二对抗样本，包括但不限于下述步骤：

8011、通过对抗攻击网络的特征编码器301对该样本图像进行特征编码处理，得到该样本图像的第一特征图。详细的实现方式可参考上述步骤201。

8012、将该样本图像的第一特征图分别输入对抗攻击网络的第一特征解码器302和第二特征解码器303。

8013、通过第一特征解码器303对该样本图像的第一特征图进行第一特征解码处理，得到该样本图像的原始噪声特征图；对该样本图像的原始噪声特征图上各个位置的噪声特征值进行抑制处理，得到该样本图像的第二特征图。

8014、通过第二特征解码器进行第二特征解码处理，得到该样本图像的第三特征图，并对该样本图像的第三特征图上各个位置的图像特征值进行归一化处理。

其中，步骤8012至步骤8014详细的实现方式可参考上述步骤202。

8015、根据该样本图像的第二特征图和第三特征图，生成该样本图像的噪声图像；将该样本图像和该样本图像的噪声图像叠加，得到该样本图像的第二对抗样本。

其中，步骤8015详细的实现方式可参考上述步骤203和步骤204。

802、将样本图像和第二对抗样本一并输入图像识别模型进行特征编码处理，得到样本图像的特征数据和第二对抗样本的特征数据。

参见图9，在训练阶段，本步骤即是将初始图像和相应的对抗赝本一起输入到需要攻击的图像识别模型中进行特征提取，得到特征数据。

803、基于样本图像的特征数据和第二对抗样本的特征数据，分别构建第一损失函数和第二损失函数；以及，基于该样本图像的第三特征图，构建第三损失函数。

对于神经网络，特征角度是影响图像分类结果的主要因素，特征模值是影响图像变化程度的主要因素。为此，参见图9，本文基于角度模优化损失函数。即，本申请实施例将特征角度和特征模值分开考虑，设计两个损失函数，分别为

和

如图9所示，针对模空间(高维空间模拟为一个球体)，

试图将初始图像的特征模值和相应的对抗样本的特征模值拉近。比如，该损失函数用于尽量将对抗样本的特征模值拉近为与初始图像的特征模值一致。针对角度空间(高维空间模拟为一个球体)，

试图将初始图像的特征和相应的对抗样本的特征之间的夹角θ变大。这样就可以达到在不改变输入的初始图像的外观的情况下，尽可能得改变图片分类结果。

相应地，基于样本图像的特征数据和第二对抗样本的特征数据，分别构建第一损失函数和第二损失函数，包括但不限于如下步骤：

8031、在样本图像的特征数据中，分离出样本图像的特征角度；以及，在第二对抗样本的特征数据中，分离出第二对抗样本的特征角度。

8032、基于样本图像的特征角度和第二对抗样本的特征角度，构建第一损失函数，其中，第一损失函数的优化目标是将样本图像与第二对抗样本之间的特征夹角变大。

8033、基于样本图像的特征模值和第二对抗样本的特征模值，构建第二损失函数，其中，第二损失函数的优化目标是将样本图像与第二对抗样本之间的特征模值之差变小。

可选地，第一损失函数和第二损失函数定义如下：

其中，i和j的取值均为正整数，j指代训练数据集中包括的样本图像数量；Γ指代图像识别模型的网络参数；I_i指代训练数据集中的第i个样本图像，P(I_i)指代I_i的噪声图像；I_i+P(I_i)指代I_i的对抗样本；∈为超参数。

可选地，第三损失函数定义如下：

其中，M(I_i)指代I_i的显著性区域特征图；tr指代矩阵的迹；

的作用是让显著性区域更加集中；T指代矩阵的秩。

需要说明的是，矩阵的迹定义为：一个n×n矩阵A的主对角线(从左上方至右下方的对角线)上各个元素的总和被称为矩阵A的迹，记作tr(A)。

804、基于第一损失函数、第二损失函数和第三损失函数进行端到端训练，得到对抗攻击网络。

可选地，基于第一损失函数、第二损失函数和第三损失函数进行端到端训练，得到对抗攻击网络，包括但不限于：获取第二损失函数和第三损失函数的第一和值；以及，获取目标常数与第一和值的乘积值；将第一和值与乘积值的第二和值，作为最终的损失函数进行端到端训练，得到对抗攻击网络。

其中，上述文字用公式进行表示，可以得到下述公式：

α指代目标常数。

需要说明的是，按照定义的损失函数进行端到端训练，即可得到用于对抗攻击的自动编码器，然后即可利用该自动编码器生成输入的原始图像的对抗样本，进而用于攻击图像识别模型。

在对抗攻击网络的训练过程中，本申请实施例基于角度模分离优化损失函数，能够达到在不改变原始图像或初始图像外观的情况下尽可能得改变图像分类结果，即生成的对抗样本更加优质，不但外观上与原始图像或初始图像更一致，而且能够取得良好的攻击效果，不易被攻击的图像识别模型正确分类。

下面对本申请实施例提供的图像处理方案的应用场景进行介绍。

基于自动编码器生成的对抗样本能够提升图像识别模型在面对对抗攻击时的抵抗性，因此本申请实施例提供的图像处理方案可以作为一种数据增强方式来优化已有的图像识别模型，进而提高已有的图像识别模型的分类准确率。比如，该种图像处理方案在多种识别任务中均取得了有效的攻击效果，甚至在黑盒攻击中也能取得不错的攻击效果。

示例一、在人脸识别领域，本申请实施例提供的图像处理方案可以作为一种数据增强方式来优化已有的人脸识别模型，进而提高已有人脸识别模型的分类准确率。这在安全检查、身份核验或移动支付等场景下具有重要意义。

示例二、在物品识别领域，本申请实施例提供的图像处理方案可以作为一种数据增强方式来优化已有的物品识别模型，进而提高已有物品识别模型的分类准确率。可选地，这在物品流通过程中，特别是无人货架、智能零售柜等无人零售领域具有重要意义。

另外，本申请实施例提供的图像处理方案也可以对一些已有的图像识别线上任务进行攻击，从而验证已有图像识别线上任务的抗攻击性。

需要说明的是，以上介绍的应用场景仅用于说明本申请实施例而非限定。在实际实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

下面通过图10至图14对本申请实施例提供的图像处理方案的攻击效果进行说明。

参见图10，其中图10中的左图为示例图片，图10中的右图为对某一图像识别线上服务进行攻击取得的图像识别结果。如图10所示，针对原始图像，被该图像识别线上服务识别为“食物”的概率高达85％；在基于本申请实施例提供的图像处理方法生成该原始图像的对抗样本后，该对抗样本被该图像识别线上服务识别为“食物”的概率骤降为25％。

参见图11，其中图11中的左图为示例图片，图11中的右图为对某一图像识别线上服务进行攻击取得的图像识别结果。如图11所示，针对原始图像，被该图像识别线上服务识别为“威尼斯刚朵拉”的概率高达98％；在基于本申请实施例提供的图像处理方法生成该原始图像的对抗样本后，该对抗样本被该图像识别线上服务识别为“威尼斯刚朵拉”的概率骤降为14％。相反地，被识别为“拼图”的概率却由0％提升至84％。

参见图12，其中图12中的左图为示例图片，图12中的右图为对某一图像识别线上服务进行攻击取得的图像识别结果。如图12所示，针对原始图像，被该图像识别线上服务识别为“孩童”的概率高达90％；在基于本申请实施例提供的图像处理方法生成该原始图像的对抗样本后，该对抗样本被该图像识别线上服务识别为“孩童”的概率骤降为14％。相反地，被识别为“相框”的概率却由13％提升至52％。

参见图13，其中图13中的左列为示例图片，图13中的右列为对某一图像识别线上服务进行攻击取得的图像识别结果。如图13所示，在进行对抗攻击处理之前，左列的三张图像均被识别为“面罩”，但是在进行对抗攻击处理之后，左列的三张图像均未被识别为“面罩”。

参见图14，其中图14中的左列为示例图片，图14中的右列为对某一图像识别线上服务进行攻击取得的图像识别结果。如图14所示，在进行对抗攻击处理之前，左列的三张图像均被识别为“背包”，但是在进行对抗攻击处理之后，左列的三张图像均未被识别为“背包”。

综上，结合图10至图14所示的图像识别结果可以看出，经过本申请实施例提供的图像处理方案生成对抗样本并对该图像识别线上服务进行攻击后，该图像识别线上服务对生成的对抗样本的图像识别准确性大幅度下降，会出现图像分类错误，比如无法将图13中所示的图像识别为“面罩”，又比如，无法将图14中所示的图像识别为“背包”，这直观地说明了本申请实施例提供的图像处理方案在进行对抗攻击时具有良好的攻击效果。进而在应用方面，本申请实施例提供的图像处理方案可以作为一种数据增强方式来优化图像识别模型或图像识别服务，进而用于提高已有的图像识别模型或图像识别服务的分类准确率。

图15是本申请实施例提供的一种图像处理装置的结构示意图。参见图15，该装置包括：

编码模块1501，被配置为获取原始图像，对所述原始图像进行特征编码处理，得到第一特征图；

解码模块1502，被配置为根据所述第一特征图，获取所述原始图像的第二特征图和第三特征图；其中，所述第二特征图指代待叠加到所述原始图像上的图像扰动，所述第三特征图上各个位置具有不同的特征值，各个特征值用于表征相应位置上图像特征的重要程度；

第一处理模块1503，被配置为根据所述第二特征图和所述第三特征图，生成噪声图像；

第二处理模块1504，被配置为将所述原始图像与所述噪声图像叠加，得到第一对抗样本。

在一些实施例中，所述编码模块，被配置为：

在一些实施例中，所述第一处理模块，被配置为将所述第二特征图与所述第三特征图进行按位置相乘处理，得到所述噪声图像。

在一些实施例中，所述对抗攻击网络的训练过程包括：

获取训练数据集中包括的样本图像的第二对抗样本；

基于所述样本图像的第三特征图，构建第三损失函数；

在一些实施例中，所述对抗攻击网络的训练过程包括：

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的图像处理装置在进行图像处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图16示出了本申请一个示例性实施例提供的计算机设备1600的结构框图。以计算机设备为终端为例，通常计算机设备1600包括有：处理器1601和存储器1602。

处理器1601包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1601可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1602中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1601所执行以实现本申请中方法实施例提供的图像处理方法。

在一些实施例中，计算机设备1600还可选包括有：外围设备接口1603和至少一个外围设备。处理器1601、存储器1602和外围设备接口1603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1603相连。具体地，外围设备包括：射频电路1604、显示屏1605、摄像头组件1606、音频电路1607、定位组件1608和电源1609中的至少一种。

外围设备接口1603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1601和存储器1602。在一些实施例中，处理器1601、存储器1602和外围设备接口1603被集成在同一芯片或电路板上；在一些其他实施例中，处理器1601、存储器1602和外围设备接口1603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1605是触摸显示屏时，显示屏1605还具有采集在显示屏1605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1601进行处理。此时，显示屏1605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1605可以为一个，设置在计算机设备1600的前面板；在另一些实施例中，显示屏1605可以为至少两个，分别设置在计算机设备1600的不同表面或呈折叠设计；在另一些实施例中，显示屏1605可以是柔性显示屏，设置在计算机设备1600的弯曲表面上或折叠面上。甚至，显示屏1605还可以设置成非矩形的不规则图形，也即异形屏。显示屏1605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(OrganicLight-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1606用于采集图像或视频。可选地，摄像头组件1606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1601进行处理，或者输入至射频电路1604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备1600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1601或射频电路1604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1607还可以包括耳机插孔。

定位组件1608用于定位计算机设备1600的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1608可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1609用于为计算机设备1600中的各个组件进行供电。电源1609可以是交流电、直流电、一次性电池或可充电电池。当电源1609包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备1600还包括有一个或多个传感器1610。该一个或多个传感器1610包括但不限于：加速度传感器1611、陀螺仪传感器1612、压力传感器1613、指纹传感器1614、光学传感器1615以及接近传感器1616。

加速度传感器1611可以检测以计算机设备1600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1611可以用于检测重力加速度在三个坐标轴上的分量。处理器1601可以根据加速度传感器1611采集的重力加速度信号，控制显示屏1605以横向视图或纵向视图进行用户界面的显示。加速度传感器1611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1612可以检测计算机设备1600的机体方向及转动角度，陀螺仪传感器1612可以与加速度传感器1611协同采集用户对计算机设备1600的3D动作。处理器1601根据陀螺仪传感器1612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1613可以设置在计算机设备1600的侧边框和/或显示屏1605的下层。当压力传感器1613设置在计算机设备1600的侧边框时，可以检测用户对计算机设备1600的握持信号，由处理器1601根据压力传感器1613采集的握持信号进行左右手识别或快捷操作。当压力传感器1613设置在显示屏1605的下层时，由处理器1601根据用户对显示屏1605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1614用于采集用户的指纹，由处理器1601根据指纹传感器1614采集到的指纹识别用户的身份，或者，由指纹传感器1614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1614可以被设置在计算机设备1600的正面、背面或侧面。当计算机设备1600上设置有物理按键或厂商Logo时，指纹传感器1614可以与物理按键或厂商Logo集成在一起。

光学传感器1615用于采集环境光强度。在一个实施例中，处理器1601可以根据光学传感器1615采集的环境光强度，控制显示屏1605的显示亮度。具体地，当环境光强度较高时，调高显示屏1605的显示亮度；当环境光强度较低时，调低显示屏1605的显示亮度。在另一个实施例中，处理器1601还可以根据光学传感器1615采集的环境光强度，动态调整摄像头组件1606的拍摄参数。

接近传感器1616，也称距离传感器，通常设置在计算机设备1600的前面板。接近传感器1616用于采集用户与计算机设备1600的正面之间的距离。在一个实施例中，当接近传感器1616检测到用户与计算机设备1600的正面之间的距离逐渐变小时，由处理器1601控制显示屏1605从亮屏状态切换为息屏状态；当接近传感器1616检测到用户与计算机设备1600的正面之间的距离逐渐变大时，由处理器1601控制显示屏1605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图16中示出的结构并不构成对计算机设备1600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图17是本申请实施例提供的一种计算机设备的结构示意图。以计算机设备为服务器为例，该服务器1700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1701和一个或一个以上的存储器1702，其中，所述存储器1702中存储有至少一条程序代码，所述至少一条程序代码由所述处理器1701加载并执行以实现上述各个方法实施例提供的图像处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由计算机设备中的处理器执行以完成上述实施例中的图像处理方法。例如，所述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述图像处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

根据所述第二特征图和所述第三特征图，生成噪声图像；

将所述原始图像与所述噪声图像叠加，得到第一对抗样本。

2.根据权利要求1所述的方法，其特征在于，所述对所述原始图像进行特征编码处理，得到第一特征图，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征图，获取所述原始图像的第二特征图和第三特征图，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述原始噪声特征图上各个位置的噪声特征值进行抑制处理，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征图，获取所述原始图像的第二特征图和第三特征图，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述第二特征图和所述第三特征图，生成噪声图像，包括：

将所述第二特征图与所述第三特征图进行按位置相乘处理，得到所述噪声图像。

7.根据权利要求2至6中任一项权利要求所述的方法，其特征在于，所述对抗攻击网络还包括图像识别模型；所述方法还包括：

将所述第一对抗样本输入所述图像识别模型，得到所述图像识别模型输出的图像识别结果。

8.根据权利要求7所述的方法，其特征在于，所述对抗攻击网络的训练过程包括：

获取训练数据集中包括的样本图像的第二对抗样本；

基于所述样本图像的第三特征图，构建第三损失函数；

9.根据权利要求8所述的方法，其特征在于，所述基于所述样本图像的特征数据和所述第二对抗样本的特征数据，分别构建第一损失函数和第二损失函数，包括：

10.根据权利要求8所述的方法，其特征在于，所述基于所述样本图像的特征数据和所述第二对抗样本的特征数据，分别构建第一损失函数和第二损失函数，包括：

11.根据权利要求8所述的方法，其特征在于，所述基于所述第一损失函数、所述第二损失函数和所述第三损失函数进行端到端训练，得到所述对抗攻击网络，包括：

12.根据权利要求7所述的方法，其特征在于，所述对抗攻击网络的第一特征解码器和第二特征解码器的结构相同。

13.一种图像处理装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至12中任一项权利要求所述的图像处理方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至12中任一项权利要求所述的图像处理方法。