CN109961444B

CN109961444B - 图像处理方法、装置及电子设备

Info

Publication number: CN109961444B
Application number: CN201910156437.7A
Authority: CN
Inventors: 李灏峰; 李冠彬; 刘婷婷; 黄婷婷
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2022-12-20
Anticipated expiration: 2039-03-01
Also published as: CN109961444A

Abstract

本发明的实施例提供了一种图像处理方法、装置及电子设备，属于计算机技术领域。该图像处理方法包括：获取待处理图像；生成所述待处理图像的超像素，并对所述待处理图像的超像素内的像素进行随机置换生成所述待处理图像的分段屏蔽图像；将所述待处理图像的分段屏蔽图像输入至深度神经网络生成所述待处理图像的粗糙显著图；将所述粗糙显著图和所述待处理图像输入至条件随机场模型生成所述待处理图像的细化显著图，以用于预测所述待处理图像中的显著物体。本发明实施例的技术方案能够增强显著物体检测的鲁棒性，提高显著物体识别的准确性。

Description

图像处理方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种图像处理方法、装置及电子设备。

背景技术

显著物体检测(salient object detection)旨在分割和定位图像或视频帧中对人类最具视觉特征的物体或者区域，在物体识别、图像显示、物体分割、目标检测等诸多计算机视觉领域中都有广泛运用。

由于在系统的早期阶段，通常采用显著物体检测技术进行初始化或预处理，因此显著物体检测的鲁棒性相当重要。

在图像处理领域，如何增强显著物体检测的鲁棒性是目前亟待解决的技术问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种图像处理方法、装置、计算机可读介质及电子设备，进而至少在一定程度上能够提高显著物体检测的鲁棒性。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的一个方面，提供了一种图像处理方法，所述方法包括：获取待处理图像；生成所述待处理图像的超像素，并对所述待处理图像的超像素内的像素进行随机置换生成所述待处理图像的分段屏蔽图像；将所述待处理图像的分段屏蔽图像输入至深度神经网络生成所述待处理图像的粗糙显著图；将所述粗糙显著图和所述待处理图像输入至条件随机场模型生成所述待处理图像的细化显著图，以用于预测所述待处理图像中的显著物体。

在本发明的一些实施例中，基于前述方案，生成所述待处理图像的超像素，并对所述待处理图像的超像素内的像素进行随机置换生成所述待处理图像的分段屏蔽图像，包括：将所述待处理图像划分为非重叠区域以形成多个超像素；保持同一超像素内的各像素的像素值不变，随机置换各像素在所述同一超像素内的位置生成所述待处理图像的分段屏蔽图像。

在本发明的一些实施例中，基于前述方案，将所述粗糙显著图和所述待处理图像输入至条件随机场模型生成所述待处理图像的细化显著图，包括：对所述待处理图像进行平滑滤波；将所述粗糙显著图和平滑滤波后的所述待处理图像输入至所述条件随机场模型生成所述细化显著图。

在本发明的一些实施例中，基于前述方案，所述方法还包括：获取第一训练集，所述第一训练集包括未受到对抗攻击的第一训练图像及用于标注所述第一训练图像中的显著物体的第一训练显著图；生成所述第一训练图像的超像素，并对所述第一训练图像的超像素内的像素进行随机置换生成所述第一训练图像的分段屏蔽图像；利用所述第一训练图像的分段屏蔽图像及其第一训练显著图一起训练所述深度神经网络和所述条件随机场模型。

在本发明的一些实施例中，基于前述方案，在利用所述第一训练图像的分段屏蔽图像及其第一训练显著图一起训练所述深度神经网络和所述条件随机场模型之前，所述方法还包括：获取第二训练集，所述第二训练集包括未受到对抗攻击的第二训练图像及用于标注所述第二训练图像中的显著物体的第二训练显著图；利用所述第二训练集训练所述深度神经网络。

在本发明的一些实施例中，基于前述方案，所述方法还包括：获取验证集，所述验证集中包括验证自然图像的对抗样本图像及用于标注所述验证自然图像中的显著物体的验证显著图；生成所述对抗样本图像的超像素，并对所述对抗样本图像的超像素内的像素进行随机置换生成所述对抗样本图像的分段屏蔽图像；利用所述对抗样本图像的分段屏蔽图像及其验证显著图对训练过的所述深度神经网络和所述条件随机场模型进行性能检测。

在本发明的一些实施例中，基于前述方案，获取验证集，包括：选择所述深度神经网络作为待攻击神经网络；基于迭代梯度的方法合成所述验证自然图像的对抗样本图像。

在本发明的一些实施例中，基于前述方案，所述深度神经网络为全卷积神经网络。

在本发明的一些实施例中，基于前述方案，所述待处理图像包括对抗噪声。

根据本发明实施例的一个方面，提供了一种图像处理装置，所述装置包括：分段屏蔽组件，用于对输入所述分段屏蔽组件的待处理图像进行处理，生成所述待处理图像的超像素，并对所述待处理图像的超像素内的像素进行随机置换生成所述待处理图像的分段屏蔽图像；深度神经网络，用于将所述分段屏蔽图像输入至深度神经网络生成所述待处理图像的粗糙显著图；条件随机场模型，用于根据输入至所述条件随机场模型的所述粗糙显著图和所述待处理图像生成所述待处理图像的细化显著图，以用于预测所述待处理图像中的显著物体。

在本发明的一些实施例中，基于前述方案，所述装置还包括：滤波器，用于对所述待处理图像进行平滑滤波，并将平滑滤波后的所述待处理图像输入至所述条件随机场模型。

在本发明的一些实施例中，基于前述方案，所述滤波器为双边滤波器。

根据本发明实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的图像处理方法。

在本发明的一些实施例所提供的技术方案中，一方面，通过对输入的待处理图像进行区域分割生成超像素，并对超像素内的像素进行随机置换生成所述待处理图像的分段屏蔽图像，可以有效地利用图像块的像素混洗折叠可能存在于所述待处理图像中的对抗噪声的结构模式，从而可以有效地减轻攻击效应，增强显著物体检测的鲁棒性，能够准确地定位出被对抗攻击后的待处理图像中的显著物体；另一方面，在深度神经网络之后，通过条件随机场模型可以利用所述待处理图像中的像素的上下文信息之间的相似性，来细化所述深度神经网络输出的粗糙显著图，从而可以提升显著物体检测的准确性和效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的图像处理方法或图像处理装置的示例性系统架构的示意图；

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本发明的一个实施例的图像处理方法的流程图；

图4示出了基于图3的步骤S320的一个实施例的流程图；

图5示意性示出了根据本发明的另一个实施例的图像处理方法的流程图；

图6示意性示出了根据本发明的又一个实施例的图像处理方法的流程图；

图7示意性示出了根据本发明的一个实施例的图像处理方法的架构示意图；

图8示意性示出了一种应用场景示意图；

图9示意性示出了根据本发明的一个实施例的图像处理装置的框图；

图10示意性示出了根据本发明的另一个实施例的图像处理装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的图像处理方法或图像处理装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)采集到了需要进行显著物体检测的图像，然后将该图像上传到服务器105。服务器105在接收到该图像之后，可以对该图像进行区域分割生成该图像的超像素，并可以对该图像的超像素内的像素进行随机置换生成该图像的分段屏蔽图像，之后，服务器105可以将该图像的分段屏蔽图像输入至训练好的深度神经网络，以生成该图像的粗糙显著图，然后，可以将该图像的粗糙显著图和该图像一并输入至训练好的条件随机场模型中，以输出该图像的细化显著图，服务器105可以根据该图像的细化显著图预测该图像中的显著物体。其中，服务器105在将该图像输入至该深度神经网络之前，对该图像进行了超像素内的像素混洗操作，可以有效地折叠该图像中可能存在的对抗噪声，进而能够有效减轻该图像中的对抗噪声对该深度神经网络的攻击效应，从而确保了显著物体检测的鲁棒性。

需要说明的是，本发明实施例所提供的图像处理方法一般由服务器105执行，相应地，图像处理装置一般设置于服务器105中。但是，在本发明的其它实施例中，终端也可以与服务器具有相似的功能，从而执行本发明实施例所提供的图像处理方案。

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图3、图4至图6所示的各个步骤。

以下对本发明实施例的技术方案的实现细节进行详细阐述：

图3示意性示出了根据本发明的一个实施例的图像处理方法的流程图，该图像处理方法可以适用于前述实施例中所述的电子设备。参照图3所示，该图像处理方法可以至少包括步骤S310至步骤S340。

在步骤S310中，获取待处理图像。

在示例性实施例中，所述待处理图像可以包括对抗噪声。这里的对抗噪声可以是攻击者加入至原始的自然图像中的任意类型的对抗噪声，可以是白盒攻击也可以是黑盒攻击，本发明对此不作限定。

可以理解的是，在另一些实施例中，所述待处理图像也可以不包括对抗噪声，对于不包括对抗噪声的待处理图像，利用本发明实施例提供的图像处理方法，也可以准确地识别出其中的显著物体。

在步骤S320中，生成所述待处理图像的超像素，并对所述待处理图像的超像素内的像素进行随机置换生成所述待处理图像的分段屏蔽图像。

本发明实施例中，可以预先构建一个分段屏蔽组件，将所述待处理图像输入至所述分段屏蔽组件中，所述分段屏蔽组件可以首先对所述待处理图像进行分段操作，即将所述待处理图像分解为多个超像素，每个超像素可以认为对应一“段”。之后，所述分段屏蔽组件可以在每个超像素(“段”)内部进行随机像素混洗，即对所述待处理图像中的某个特定超像素内的所有像素，保持它们的像素值(例如若所述待处理图像是RGB图像，则可以是像素的RGB值)不变，随机打乱它们在该特定超像素内的位置。随机像素混洗在每个超像素内部进行，每个超像素内的像素都进行随机混洗。这样的分段(分超像素)进行地随机像素混洗能起到很好的屏蔽对抗攻击的作用。

在步骤S330中，将所述待处理图像的分段屏蔽图像输入至深度神经网络生成所述待处理图像的粗糙显著图。

在示例性实施例中，所述深度神经网络可以为全卷积神经网络(FullyConvolutional Networks，FCN)。

近年来，深度神经网络(deep neural networks)的成功运用大大提高了显著物体检测的效果。由深度神经网络驱动的显著物体检测方法可分为两组：稀疏标签和密集标签。稀疏标签方法由于将区域作为计算单元，并且包含特征提取和显著值推断两个单独步骤，通常效率低并且需要大量空间用于特征存储。而基于FCN的密集标签方法通过引入跳接层结构的短连接，来适应整体嵌套边缘检测器结构，可以对图像进行像素级的分类，解决了语义级别的图像分割(semantic segmentation)问题，能很好地给出物体的具体轮廓、指出每个像素具体属于哪个物体。

然而，虽然全卷积神经网络在显著物体检测问题上得到了成功应用，相关技术中的密集标签方法存在一些弱点可能会降低它的性能。首先端到端可训练属性允许梯度容易地从监督目标传播到输入图像，这使得相关技术中的显著物体检测模型面临对抗攻击的风险。其次，密集标记模型没有明确地模拟不同图像部分之间的对比度，而是隐含地估计单个FCN中的显著性。一旦输入图像受到对抗噪声的污染，低层和高层特征都会受到影响。再次，与具有数百万个样本的图像分类任务相比，当前显著物体检测的训练集非常小，同时包括的显著对象类别也非常有限。因此在某种程度上相关技术中的模型是在数据内拟合偏差。例如，检测目标经常出现在训练集中而不是定位最显著的对象。相关技术中的方法可能依赖于捕获过多的高级语义，并且可能对低级扰动例如对抗噪声敏感。

本发明实施例中，所构建的显著物体检测模型的骨干网络可以被选择为任意基于全卷积神经网络的显著物体检测模型，全卷积神经网络作为骨干网络具有高效率和高准确性，其将上述步骤S320产生的所述待处理图像的分段屏蔽图像作为输入并产生密集标记的粗糙显著图，可以降低该全卷积神经网络在对抗噪声上的高敏感度。

在步骤S340中，将所述粗糙显著图和所述待处理图像输入至条件随机场模型生成所述待处理图像的细化显著图，以用于预测所述待处理图像中的显著物体。

本发明实施方式提供的图像处理方法，一方面，通过对输入的待处理图像进行区域分割生成超像素，并对超像素内的像素进行随机置换生成所述待处理图像的分段屏蔽图像，可以有效地利用图像块的像素混洗折叠可能存在于所述待处理图像中的对抗噪声的结构模式，从而可以有效地减轻攻击效应，增强显著物体检测的鲁棒性，能够准确地定位出被对抗攻击后的待处理图像中的显著物体；另一方面，在深度神经网络之后，通过条件随机场模型可以利用所述待处理图像中的像素的上下文信息之间的相似性，来细化所述深度神经网络输出的粗糙显著图，从而可以提升显著物体检测的准确性和效率。

图4示出了基于图3的步骤S320的一个实施例的流程图。

如图4所示，本发明实施例中上述步骤S320可以进一步包括以下步骤。

在步骤S321中，将所述待处理图像划分为非重叠区域以形成多个超像素。

本发明实施例中，若输入的待处理图像存在对抗噪声，由于对抗噪声是通过后向传播精确计算的，所以它本身是脆弱的，对抗噪声形成一些微妙的曲线状模式，可能在攻击显著物体检测过程中发挥重要作用，因此，消除这些曲线状模式可以减轻攻击效果。本发明实施例中，先验地考虑具有类似低层特征的临近像素具有相似的显著性值。基于区域分解方法，将输入的待处理图像划分为非重叠区域，即超像素。

例如，可以首先通过在规格网格步长上对像素进行采样，来初始化颜色和像素位置联合空间中的k(k为大于等于1的正整数)个聚类中心。然后以最小距离分配每个像素到聚类中心，并以迭代的方式将每个聚类中心更新为该聚类中所有像素的均值向量。当每个聚类中心的新位置与先前位置的L2范数误差收敛时迭代结束。

可以理解的是，关于超像素的计算方法，并不限于上述例举的像素迭代聚类方法，可以选用任意一个合适的超像素算法来对图像进行区域分解。

在步骤S322中，保持同一超像素内的各像素的像素值不变，随机置换各像素在所述同一超像素内的位置生成所述待处理图像的分段屏蔽图像。

对区域内即同一超像素内的像素进行混洗。例如，这里以RGB图像为例，假设一个超像素内有三个像素，它们的RGB值分别为(128，0，0)，(0，127，0)，(0，0，126)，且假设它们的空间坐标分别为(1，1)，(1，2)，(1，3)。在进行像素混洗之前，这个超像素内的像素值按空间坐标排序，可以表示成：(128，0，0)，(0，127，0)，(0，0，126)。经过随机置换后，这个超像素可能变成：(0，0，126)，(0，127，0)，(128，0，0)。即每个像素的RGB值没有发生改变，但对应的空间坐标发生了改变，即像素在图像中的位置发生了改变，且这种改变是完全随机的。对于每一个超像素，按上述例举的类似步骤进行像素混洗操作。

需要说明的是，上述实施例中是将同一超像素内的单个像素与单个像素之间进行随机置换，但本发明并不限定于此，可以选用任意一种合适的随机置换方式，例如，还可以随机选择同一超像素内的任意两个像素与另外两个像素之间进行位置置换。

本发明实施例中，在上述步骤S321后，可以随机地置换同一超像素内的所有像素，这种打乱操作会强烈地破坏对抗性扰动，同时还可以限制每个超像素内引入的新噪声。因此，这些超像素所遵循的目标边界不会被破坏，并且在后续步骤中，骨干网络输出的带有噪声的粗糙显著图也有可能被恢复。而相关技术中的FCN模型在视觉显著性数据中过度拟合了高级语义，本发明实施例通过随机置换使得捕获高级语义变得更加困难，并且强制深度神经网络在区域之间获得低级别对比，它还可以在增强数据集和减少过拟合问题方面发挥作用。

图5示意性示出了根据本发明的另一个实施例的图像处理方法的流程图，该图像处理方法适用于前述实施例中所述的电子设备。参照图5所示，该图像处理方法至少包括步骤S510至步骤S550。

在步骤S510中，获取待处理图像。

在步骤S520中，生成所述待处理图像的超像素，并对所述待处理图像的超像素内的像素进行随机置换生成所述待处理图像的分段屏蔽图像。

在步骤S530中，将所述待处理图像的分段屏蔽图像输入至深度神经网络生成所述待处理图像的粗糙显著图。

本发明实施例中，步骤S510-530的实现可以参照上述步骤S310-330。

在步骤S540中，对所述待处理图像进行平滑滤波。

例如，可以采用双边滤波器(bilateral filter)对所述待处理图像进行平滑处理，但本发明并不限定于此，也可以选用其他合适的滤波方法。

本发明实施例中，因为受到对抗攻击的待处理图像存在很多噪声，双边滤波可以一定程度上减轻噪声对下述步骤S550中的上下文感知恢复组件的影响。

在步骤S550中，将所述粗糙显著图和平滑滤波后的所述待处理图像输入至条件随机场模型生成所述待处理图像的细化显著图。

本发明实施例中，所述条件随机场模型也可以称之为上下文感知恢复组件，可以将经过上述步骤S540平滑滤波后的待处理图像作为该上下文感知恢复组件的一个输入，将基于全卷积的骨干网络输出的粗糙显著图作为该上下文感知恢复组件的另一个输入，该上下文感知恢复组件通过对上下文中的原始像素值(例如可以包括原始的RGB值和像素位置坐标值)进行对比建模，以此细化最终结果，获得所述待处理图像的细化显著图。

例如，这里的对比建模，可以指的是建立一个条件随机场模型，将基于全卷积的骨干网络的输出作为该条件随机场模型的第一个输入，将双边滤波后的该待处理图像该条件随机场模型的作为第二个输入，将这两个输入输入至该条件随机场模型进行求解，得到的输出就是该待处理图像的细化显著图。

本发明实施例中，上述步骤S520像素混洗操作会在该待处理图像中引入新的噪声，为了改进新引入噪声对显著物体检测结果的影响，步骤S550的上下文感知恢复组件利用像素之间的低级特征相似性和上下文来改善由骨干网络提供的密集标记的粗糙显著图中的各个像素的显著性分数。

对于未被对抗攻击过的图像而言，其标注的真实值是例如假设只有0和1两个数值，且假设0表示非显著，1表示显著。显著性分数是由模型预测出来的数值，在[0,1]范围内，通常是一个浮点数(小数)，真实值和显著性分数的关系是：模型在训练过程中，被训练来预测尽可能接近真实值的显著性分数。模型预测出的显著性分数越接近真实值，则预测结果越准确，模型越好。例如，若显著性分数在[0,1]范围内，显著性分数小于0.5的像素被预测为非显著，显著性分数大于等于0.5的像素被预测为显著。

由于先前的高级卷积特征已经被污染，本发明实施例衡量低级色彩空间(例如RGB空间就是一个三维的低级色彩空间)和空间位置中像素之间的相似性(即像素之间的上下文)，利用像素之间的低级特征相似性和上下文来改善骨干网络的显著性分数。其中，像素之间的相似性可以由成对能量函数中的一个高斯函数定义。

这里的高级卷积特征指的是，本发明实施例中骨干网络中的特征，是被两种噪声(对抗噪声和像素混洗新引入噪声)同时污染的。在一些实施例中，所述低级色彩空间可以是基于双边滤波器输出的RGB图像。

例如，上下文感知恢复组件可以通过最小化某些能量函数来调整骨干网络输出的粗糙显著图，以如下公式(1)所示的能量函数为例：

其中，上述公式(1)中，y是骨干网络输出的粗糙显著图，作为上下文感知恢复组件的其中一个输入图像；y^*是该上下文感知恢复组件输出的细化显著图；其中i，j的取值范围均是1至N，其中N是粗糙显著图或者细化显著图(在这里两个显著图中的像素数量假设是相等的)中的像素数量，即i和j分别表示第i个像素和第j个像素，N为大于等于1的正整数。E_u是unary函数(一元能量函数)，具体可以是平方差函数，即第i个位置两个像素差的平方。上述公式(1)中，第一项一元能量函数E_u衡量用y_i ^*和y_i指定i的代价，即第i个像素的代价，只和这个位置的粗糙显著图和细化显著图有关。第二项成对能量函数E_p衡量同时用y_i ^*和y_j ^*指定i和j的代价，即每对位置(i，j)都有一个代价，由这两个位置的粗糙显著图和细化显著图共同决定。

例如，成对能量函数可以用下述公式(2)定义：

其中，上述公式(2)中，p表示双边滤波后的待处理图像中的像素的位置，即p_i表示双边滤波后的待处理图像中第i个像素的坐标，p_j表示双边滤波后的待处理图像中第j个像素的坐标；x'表示经过双边滤波后的待处理图像，x'_i表示经过双边滤波后的待处理图像中的第i个像素的像素值，x'_j表示经过双边滤波后的待处理图像中的第j个像素的像素值；ω₁、θ_α、θ_β、ω₂、θ_γ为一些预设常数，例如ω₂和θ_γ均可以选为1，可以通过验证选择ω₁、θ_α和θ_β，即通过在验证集(可以是从下述实施例中的第一训练集划分出的一个子集)上尝试多种参数选择出来的。μ是一个可学习的标签兼容性函数，它惩罚使用不同的标签指定i和j，鼓励相似的邻近像素有相同的标记。

其中，若待处理图像是一个RGB图像，则x'_i表示经过双边滤波后的待处理图像中的第i个像素的色彩即其RGB值，取值可以是一个三维向量，例如(0，127，255)。

由上述公式(2)可知，E_p是根据双边滤波后的待处理图像来计算的。本发明实施例中的上下文感知恢复组件可以通过求解一个随机条件场问题，从而最小化上述能量函数，然后将满足能量最小化的y^*作为输出。

需要说明的是，虽然上述举例说明中对能量函数的选择，选取了如上述公式(1)的一元能量函数和上述公式(2)的成对能量函数，但本发明并不限定于此，一元能量函数和成对能量函数可以有多种合理的选择方案，都在本发明的保护范围之内。例如，除了在成对能量函数使用RGB色彩空间，还可以选择HSV颜色空间。

图6示意性示出了根据本发明的又一个实施例的图像处理方法的流程图。

如图6所示，本发明实施例提供的图像处理方法与上述其他实施例相比，其不同之处在于，还可以包括以下步骤。

在步骤S610中，获取第二训练集。其中，所述第二训练集可以包括未受到对抗攻击的第二训练图像及用于标注所述第二训练图像中的显著物体的第二训练显著图。

本发明实施例中，可以将未受到对抗攻击的图像均称之为干净图像。这里可以对第二训练集中的每一张第二训练图像进行人工标注生成每一张第二训练图像对应的第二训练显著图，即真实标注每一张第二训练图像中的各个像素的真实值，例如若某个像素为显著物体，则标记为1，若某个像素为非显著物体，则标记为0，具体的标记数值可以根据实际需求进行自主设定，本发明对此不作限定。

在步骤S620中，利用所述第二训练集训练深度神经网络。

本发明实施例中，还是以所述深度神经网络为基于FCN的骨干网络为例进行说明，可以预先构建一个显著物体检测模型，该显著物体检测模型可以包括分段屏蔽组件、基于FCN的骨干网络和上下文感知恢复组件。在利用下述的第一训练集训练整个显著物体检测模型之前，可以预先采用所述第二训练集训练该基于FCN的骨干网络，使该基于FCN的骨干网络经过预训练后，具备显著物体检测的功能，经过第二训练集训练后的骨干网络可以直接用于显著物体预测，因此也可以称之为预训练模型，将上述经过预训练步骤的基于FCN的骨干网络的参数拷贝进本发明实施例构建的显著物体检测模型的骨干网络。

在步骤S630中，获取第一训练集。所述第一训练集包括未受到对抗攻击的第一训练图像及用于标注所述第一训练图像中的显著物体的第一训练显著图。

本发明实施例中，可以对第一训练集中的每一张第一训练图像进行人工标注生成每一张第一训练图像对应的第一训练显著图，即真实标注每一张第一训练图像中的各个像素的真实值，例如若某个像素为显著物体，则标记为1，若某个像素为非显著物体，则标记为0。

在步骤S640中，生成所述第一训练图像的超像素，并对所述第一训练图像的超像素内的像素进行随机置换生成所述第一训练图像的分段屏蔽图像。

其中，生成第一训练图像的分段屏蔽图像的实现过程可以参照上述实施例中的待处理图像的分段屏蔽图像的内容。

在步骤S650中，利用所述第一训练图像的分段屏蔽图像及其第一训练显著图一起训练所述深度神经网络和所述条件随机场模型。

本发明实施例中，将基于FCN的骨干网络和上下文感知恢复组件的参数一起微调即一起训练。在该一起训练过程中，每对训练样本例如可以包括一张RGB图像(第一训练图像)和一张第一训练显著图(这张图上的每个像素都标注了真实值，例如0或1)。其中，RGB图像首先经过随机像素混洗，混洗后的分段屏蔽图像输入骨干网络，骨干网络输出一个粗糙显著图。同时原始的RGB图像也经过双边滤波输出一个平滑的RGB图像。然后粗糙显著图和平滑的RGB图像一起输入至该上下文感知恢复组件，该上下文感知恢复组件最小化能量函数(可以参照上述其他实施例的内容)，得到并输出细化显著图。这个细化显著图和标注真实值的第一训练显著图，通过损失函数(loss)得到一个损失值。在微调的过程中，将该损失值对于损失函数求导，并将得到的导数回传通过该上下文感知恢复组件，再将该上下文感知恢复组件的梯度回传通过骨干网络。因为骨干网络和该上下文感知恢复组件都是可导的。求导后，骨干网络和该上下文感知恢复组件的参数都有了对应的导数，基于这些导数，利用随机梯度下降，对骨干网络和该上下文感知恢复组件，一起微调。

本发明实施例的上下文感知恢复组件中包含有可调节(可训练、可学习的)参数，并且在训练过程中，上下文感知恢复组件和骨干网络一起训练，并且是使用带有像素混洗新引入噪声的图像进行训练的，因此，上下文感知恢复在训练过程中，其参数发生了调整，调整成为能够改进像素混洗新引入噪声的数值。由于对抗扰动的目的在于参数化骨干网络中的卷积滤波器，因此该上下文感知恢复组件完全采用图模型而不是CNN架构。这里的图模型指的是该上下文感知恢复组件内部的一个条件随机场模型。这里不能是CNN架构，因为CNN架构会被对抗噪声攻击。

需要说明的是，在模型训练过程中，可以不需要经过对抗攻击的对抗样本，可以直接利用未经过对抗攻击的干净图像训练模型即可，训练完成后，模型就具有鲁棒性，之后在预测阶段，进入模型的包括对抗噪声的待处理图像就能生成比较好的细化显著图。

本发明实施例中，基于FCN的骨干网络预训练完成后，具备了预测显著物体的功能。虽然，再将经过预训练的骨干网络和上下文感知恢复组件一起训练，使得整个显著物体检测模型能够在受到对抗攻击时，仍然能够准确地预测待处理图像中的显著物体，即提高了显著物体检测模型的鲁棒性。

在步骤S660中，获取验证集。所述验证集中包括验证自然图像的对抗样本图像及用于标注所述验证自然图像中的显著物体的验证显著图。

上述训练过程中，不需要对抗样本。为了验证上述训练的显著物体检测模型的防御对抗攻击的性能，可以采用包括对抗样本图像的验证集进行验证或者测试。

在示例性实施例中，所述获取验证集可以包括：选择所述深度神经网络作为待攻击神经网络；基于迭代梯度的方法合成所述验证自然图像的对抗样本图像。

具体的，在训练过程中，每间隔一定的迭代次数，都会保存一次模型参数。训练结束后，得到多个不同参数的模型。这些模型在验证集上测试其性能，并从中选择性能最佳的模型。验证集可以是从第一训练集中预先随机采样出来的一个子集，包括干净图像(即验证自然图像)，对应的对抗样本图像和对应的真实标注的验证显著图。

其中，生成对抗样本图像的思路可以分为白盒攻击和黑盒攻击。白盒对抗攻击方法是：攻击者想攻击某个已经训练好的全卷积模型F，并且能够获取到该模型F的所有参数，并利用这些参数来生成对抗样本来攻击F。而在黑盒对抗攻击方法中：攻击者被设定为无法获取F的参数，所有攻击者使用某个和F不一样的模型F’来生成对抗样本，生成的对抗样本用来攻击F，这就是黑盒攻击。

白盒攻击又主要包括基于迭代梯度的方法和基于迭代的方法。其中，FGSM(FastGradient Sign Method，快速梯度符号法)是一步梯度的方法中的其中一种。采用FGSM的好处是运行速度快，可以快速地生成对抗样本图像。

FGSM是在无穷范数阈值ε的约束下，计算一步梯度以最大化输出与真实值的损失函数。FSGM生成对抗样本图像的公式如下所示：

其中，上述公式(3)中，x^*、x和y分别表示对抗样本图像、原始的自然图像和该自然图像中各个像素标注的是否显著物体的真实值。L代表损失函数，可以是一个二元交叉熵函数。f(x,θ)表示参数为θ的神经网络模型，例如可以是指基于FCN的骨干网络。

其中，迭代方法以步长α多次进行FSGM，公式如下所示：

其中，上述公式(4)中，x_t ^*表示第t个时间步上产生的对抗样本图像。clip(x,ε)将x的每个元素x_i保持在[x_i-ε,x_i+ε]范围内。

本发明实施例中，可以实现一个基于迭代梯度的方法来合成对抗样本图像。在白盒攻击中，选择用于显著物体检测的骨干网络作为要攻击的神经网络。假设f(，θ)为具有参数θ的预训练模型，x^*、x和y分别表示对抗样本图像、原始的自然图像和该自然图像中各个像素标注的是否显著物体的真实值，y的每一个元素y_i属于{0,1}，可以假设0表示非显著，1表示显著。假设验证集中的自然图像本身是RGB图像，由于RGB值的取值范围在[0,255]之间，而在合成对抗样本图像过程中，图像一直是以浮点数的形式计算而不是整数，因此，在合成对抗样本图像之前，将x的每个位置的像素值分别减去平均像素值，其中所述平均像素值是对第一训练集中的干净图像计算出的一个固定数值。而在合成对抗样本图像后，再将x^*的每个位置的像素值加上该平均像素值，使每个位置的像素值的数值范围平移到[0,255]之间，并四舍五入为整数，即再次将合成的对抗样本图像转换为RGB图像。

为了确保对抗扰动不易察觉，将参数ε设置为L∞的上界，使得||x-x^*||≤ε。最大迭代次数T限制了整个运行时间成本。一旦完成T次迭代或达到L∞范数界限，迭代就会停止并返回在当前时间步获得的对抗样本图像。

在每次迭代t中，根据初始化或上一时间步的对抗样本x_t ^*按下式更新：

其中，上述公式(5)中，p_t是第t次迭代计算出的扰动。迭代的目标是使得x中所有像素的预测出错，即

其中，i表示x中的第i个像素，c表示两种分类：显著和非显著。为了确定p_t，梯度下降算法可以被用于下式：

其中，上述公式(6)中，S_t表示f仍然可以正确分类的像素集合。通过归一化获得p_t＝α·p'_t/||p'_t||_∞。其中α是固定的步长。

本发明实施例通过对真实的显著物体取反，得到错误的显著区域，即在生成对抗样本中，将真实的人工标注的显著图y取反后得到错误监督的变量，再用该错误的显著区域进行监督并生成对抗样本图像，其不同于相关技术中通过人工绘制或者指定固定的错误语义分割结果，再用该结果来监督生成对抗样本的方法。本发明实施例提供的生成对抗样本图像的方法，在生成对抗样本图像时，不需要人工参与调整参数，实现更为简洁方便。

在另一些实施例中，验证集中的对抗样本图像可以使用I-FGSM(Iterative FastGradient Sign Method，迭代式的FGSM)方法生成的。I-FGSM的攻击效果比FGSM更强。

需要说明的是，本发明并不对对抗样本图像的生成方法进行限定。虽然上述实施例例举了两种白盒对抗样本图像的生成方法，它可以直接转移到黑盒攻击，因为显著物体检测模型具有类似的基于全卷积的架构，并且通常由相同的生成对抗样本图像的模型初始化。

在步骤S670中，生成所述对抗样本图像的超像素，并对所述对抗样本图像的超像素内的像素进行随机置换生成所述对抗样本图像的分段屏蔽图像。

在步骤S680中，利用所述对抗样本图像的分段屏蔽图像及其验证显著图对训练过的所述深度神经网络和所述条件随机场模型进行性能检测。

本发明实施例中，可以选择经过验证性能最好的经过训练的显著物体检测模型作为最终用于预测显著物体的模型。对于当前待进行显著物体检测的待处理图像(可能被对抗攻击过，也可能没有)，依次输入至上述分段屏蔽组件、训练好的骨干网络和上下文感知恢复组件中，输出该待处理图像的细化显著图，确定该待处理图像中的显著物体或者显著区域。

本发明实施方式提供的图像处理方法，由于上下文感知恢复组件利用全局上下文(对于一张图像中的一个像素，这张图像中的其他像素的位置、色彩和显著性，是这个像素的全局上下文信息)来细化结果，因此在有限扰动强度(即ε)内通过对抗噪声来改变预测更加困难。攻击者为了影响某些像素位置的结果，可能需要改变远程特征向量，从而导致更大的扰动，而加大扰动会导致对抗扰动容易被察觉。本发明实施例中特征向量指的是骨干网络内的卷积特征向量。远程指的是距离远。假设图像有两个位置i和j，它们在图像中的空间坐标相距较远(具体的数值可以根据具体应用场景来设定)，那么第j个像素对应的特征向量，相对于第i个像素而言，是一个远程特征向量。

图7示意性示出了根据本发明的一个实施例的图像处理方法的架构示意图。

如图7所示，这里以基于FCN的骨干网络为例进行举例说明，将输入图像输入至分段屏蔽组件，分段屏蔽组件输出所述输入图像的分段屏蔽图像，再将所述输入图像的分段屏蔽图像输入至基于FCN的骨干网络，所述基于FCN的骨干网络输出所述输入图像的粗糙显著图，将所述输入图像还输入至双边滤波器，所述双边滤波器对所述输入图像进行平滑滤波，并输出平滑滤波后的所述输入图像。

将所述输入图像的粗糙显著图和所述平滑滤波后的所述输入图像均输入至上下文感知恢复组件，输出所述输入图像的细化显著图。在训练过程中，可以基于所述输入图像的细化显著图和对所述输入图像进行真实标注的显著图最小化损失函数，一起训练所述上下文感知恢复组件和所述基于FCN的骨干网络。

图8示意性示出了一种应用场景示意图。

显著物体检测的目的是在图像或视频帧中定位和分割对象，这些对象对人眼最具视觉特征。设计一个显著物体检测模型来模拟人类，不仅有助于理解人类视觉和心理的内在机制，而且有助于计算机视觉和计算机图形学的许多应用。

例如，可以将显著物体检测应用于上下文感知图像编辑、图像缩略图、目标分割和人物再识别。由于在系统的早期阶段通常采用显著的对象检测技术作为初始化或预处理，因此效率和鲁棒性非常重要。假设预处理阶段的性能受到一些精心设计的输入的严重影响，接下来的阶段可能会产生错误的结果，这可能是整个系统的灾难。通过将本发明实施例提出的显著物体检测模型结合到显著性检测的各个应用上，可以防御各种精心设计的对抗噪声输入，保证检测结果的可靠性。

以视频监控系统中的人物再识别为例，人物再识别要求在当前监控画面中找到过去监控画面中出现的人物。假定某种人物再识别方法使用显著物体检测模型作为预处理，该人物再识别方法先检测出当前监控画面的显著物体区域，再在该区域内进行人物再识别。如果某可疑人员希望不被视频监控系统发现，可针对显著物体检测模型进行计算，得到对应的对抗噪声模式(纹理)，再将对抗噪声纹理影印或者穿戴在衣物上。当输入显著物体检测模型的画面中存在上述对抗噪声纹理时，显著物体检测模型的输出结果会严重出错，比如本应属于显著物体的可疑人员不在其输出的显著物体区域内。当预处理结果严重出错时，该人物再识别方法无法再准确地识别出上述可疑人员。

如图8所示，(1)为真实图像，(2)为对应的对抗样本图像。(3)是相关技术中某个显著物体检测模型针对对抗样本预测的显著物体区域，可以看到，图中的人物从显著区域中消失了。(4)是应用本发明实施例提供的显著物体检测模型对对抗样本图像(2)所预测的显著物体区域，可以看到，本发明实施例的显著物体检测模型可以准确地生成对抗样本图像中动物和人物的区域。

本发明实施方式提出的图像处理方法，为了提高密集标记方法的鲁棒性并维持其效率，设计了一个准确、快速、稳定的显著物体检测模型用于显著物体检测任务中，公开了一个可以增强任意基于全卷积神经网络的显著物体检测模型鲁棒性的通用框架，它表现出针对对抗攻击的高稳健性，主要包括分段屏蔽组件和上下文感知恢复组件，可以将任何FCN作为骨干网络，主要原理是借助于超像素分割、随机像素混洗来折叠对抗噪声的曲线状模式，并引入一些新的噪声来保留边界。经过基于全卷积的骨干网络后，上下文感知恢复组件通过对上下文中的原始像素值进行对比建模来细化显著图。这两个组件相互补充，整个框架可以明显增强基于全卷积神经网络的显著物体检测模型的鲁棒性。

以下介绍本发明的装置实施例，可以用于执行本发明上述实施例中的图像处理方法。对于本发明装置实施例中未披露的细节，请参照本发明上述的图像处理方法的实施例。

图9示意性示出了根据本发明的一个实施例的图像处理装置的框图。

参照图9所示，根据本发明的一个实施例的图像处理装置900可以包括：分段屏蔽组件910、深度神经网络920以及条件随机场模型930。

其中，分段屏蔽组件910可以用于对输入所述分段屏蔽组件的待处理图像进行处理，生成所述待处理图像的超像素，并对所述待处理图像的超像素内的像素进行随机置换生成所述待处理图像的分段屏蔽图像。深度神经网络920可以用于将所述分段屏蔽图像输入至深度神经网络生成所述待处理图像的粗糙显著图。条件随机场模型930可以用于根据输入至所述条件随机场模型的所述粗糙显著图和所述待处理图像生成所述待处理图像的细化显著图，以用于预测所述待处理图像中的显著物体。

在示例性实施例中，分段屏蔽组件910可以包括：超像素形成单元，可以用于将所述待处理图像划分为非重叠区域以形成多个超像素；像素混洗单元，可以用于保持同一超像素内的各像素的像素值不变，随机置换各像素在所述同一超像素内的位置生成所述待处理图像的分段屏蔽图像。

在示例性实施例中，条件随机场模型930可以包括：滤波单元，可以用于对所述待处理图像进行平滑滤波；细化单元，可以用于将所述粗糙显著图和平滑滤波后的所述待处理图像输入至所述条件随机场模型生成所述细化显著图。

在示例性实施例中，图像处理装置900还可以包括：第一训练集获取单元和第一训练单元。其中，所述第一训练集获取单元可以用于获取第一训练集，所述第一训练集可以包括未受到对抗攻击的第一训练图像及用于标注所述第一训练图像中的显著物体的第一训练显著图。分段屏蔽组件910还可以用于生成所述第一训练图像的超像素，并对所述第一训练图像的超像素内的像素进行随机置换生成所述第一训练图像的分段屏蔽图像。所述第一训练单元可以利用所述第一训练图像的分段屏蔽图像及其第一训练显著图一起训练所述深度神经网络和所述条件随机场模型。

在示例性实施例中，图像处理装置900还可以包括第二训练集获取单元和第二训练单元。其中，所述第二训练集获取单元用于获取第二训练集，所述第二训练集包括未受到对抗攻击的第二训练图像及用于标注所述第二训练图像中的显著物体的第二训练显著图。所述第二训练单元用于在利用所述第一训练图像的分段屏蔽图像及其第一训练显著图一起训练所述深度神经网络和所述条件随机场模型之前，利用所述第二训练集训练所述深度神经网络。

在示例性实施例中，图像处理装置900还可以包括验证集获取单元和验证单元。其中，所述验证集获取单元可以用于获取验证集，所述验证集中可以包括验证自然图像的对抗样本图像及用于标注所述验证自然图像中的显著物体的验证显著图。分段屏蔽组件910还可以用于生成所述对抗样本图像的超像素，并对所述对抗样本图像的超像素内的像素进行随机置换生成所述对抗样本图像的分段屏蔽图像。所述验证单元可以用于利用所述对抗样本图像的分段屏蔽图像及其验证显著图对训练过的所述深度神经网络和所述条件随机场模型进行性能检测。

在示例性实施例中，所述验证集获取单元可以包括：待攻击对象选择单元，可以用于选择所述深度神经网络作为待攻击神经网络；对抗样本合成单元，可以用于基于迭代梯度的方法合成所述验证自然图像的对抗样本图像。

在示例性实施例中，所述深度神经网络可以为全卷积神经网络。

在示例性实施例中，所述待处理图像可以包括对抗噪声。

参照图10所示，根据本发明的另一个实施例的图像处理装置1000，在具有图9中所示的分段屏蔽组件910、深度神经网络920以及条件随机场模型930的基础上，还可以包括滤波器1010。

其中，滤波器1010可以用于对所述待处理图像进行平滑滤波，并将平滑滤波后的所述待处理图像输入至所述条件随机场模型。

在示例性实施例中，所述滤波器可以为双边滤波器。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待处理图像；

生成所述待处理图像的超像素，并对所述待处理图像的超像素内的像素进行随机置换生成所述待处理图像的分段屏蔽图像；

将所述待处理图像的分段屏蔽图像输入至深度神经网络生成所述待处理图像的粗糙显著图；

将所述粗糙显著图和所述待处理图像输入至条件随机场模型生成所述待处理图像的细化显著图，以用于预测所述待处理图像中的显著物体。

2.根据权利要求1所述的图像处理方法，其特征在于，生成所述待处理图像的超像素，并对所述待处理图像的超像素内的像素进行随机置换生成所述待处理图像的分段屏蔽图像，包括：

将所述待处理图像划分为非重叠区域以形成多个超像素；

保持同一超像素内的各像素的像素值不变，随机置换各像素在所述同一超像素内的位置生成所述待处理图像的分段屏蔽图像。

3.根据权利要求1所述的图像处理方法，其特征在于，将所述粗糙显著图和所述待处理图像输入至条件随机场模型生成所述待处理图像的细化显著图，包括：

对所述待处理图像进行平滑滤波；

将所述粗糙显著图和平滑滤波后的所述待处理图像输入至所述条件随机场模型生成所述细化显著图。

4.根据权利要求1至3中任一项所述的图像处理方法，其特征在于，所述方法还包括：

获取第一训练集，所述第一训练集包括未受到对抗攻击的第一训练图像及用于标注所述第一训练图像中的显著物体的第一训练显著图；

生成所述第一训练图像的超像素，并对所述第一训练图像的超像素内的像素进行随机置换生成所述第一训练图像的分段屏蔽图像；

利用所述第一训练图像的分段屏蔽图像及其第一训练显著图一起训练所述深度神经网络和所述条件随机场模型。

5.根据权利要求4所述的图像处理方法，其特征在于，在利用所述第一训练图像的分段屏蔽图像及其第一训练显著图一起训练所述深度神经网络和所述条件随机场模型之前，所述方法还包括：

获取第二训练集，所述第二训练集包括未受到对抗攻击的第二训练图像及用于标注所述第二训练图像中的显著物体的第二训练显著图；

利用所述第二训练集训练所述深度神经网络。

6.根据权利要求4所述的图像处理方法，其特征在于，所述方法还包括：

获取验证集，所述验证集中包括验证自然图像的对抗样本图像及用于标注所述验证自然图像中的显著物体的验证显著图；

生成所述对抗样本图像的超像素，并对所述对抗样本图像的超像素内的像素进行随机置换生成所述对抗样本图像的分段屏蔽图像；

利用所述对抗样本图像的分段屏蔽图像及其验证显著图对训练过的所述深度神经网络和所述条件随机场模型进行性能检测。

7.根据权利要求6所述的图像处理方法，其特征在于，获取验证集，包括：

选择所述深度神经网络作为待攻击神经网络；

基于迭代梯度的方法合成所述验证自然图像的对抗样本图像。

8.根据权利要求1所述的图像处理方法，其特征在于，所述深度神经网络为全卷积神经网络。

9.根据权利要求1所述的图像处理方法，其特征在于，所述待处理图像包括对抗噪声。

10.一种图像处理装置，其特征在于，所述装置包括：

分段屏蔽组件，用于对输入所述分段屏蔽组件的待处理图像进行处理，生成所述待处理图像的超像素，并对所述待处理图像的超像素内的像素进行随机置换生成所述待处理图像的分段屏蔽图像；

深度神经网络，用于将所述分段屏蔽图像输入至深度神经网络生成所述待处理图像的粗糙显著图；

条件随机场模型，用于根据输入至所述条件随机场模型的所述粗糙显著图和所述待处理图像生成所述待处理图像的细化显著图，以用于预测所述待处理图像中的显著物体。

11.根据权利要求10所述的图像处理装置，其特征在于，所述装置还包括：

滤波器，用于对所述待处理图像进行平滑滤波，并将平滑滤波后的所述待处理图像输入至所述条件随机场模型。

12.根据权利要求11所述的图像处理装置，其特征在于，所述滤波器为双边滤波器。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至9中任一项所述的图像处理方法。