CN112528900A

CN112528900A - 基于极致下采样的图像显著性物体检测方法及系统

Info

Publication number: CN112528900A
Application number: CN202011500724.4A
Authority: CN
Inventors: 程明明; 吴宇寰; 刘云
Original assignee: Nankai University
Current assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-03-19
Anticipated expiration: 2040-12-17
Also published as: CN112528900B

Abstract

本申请公开了基于极致下采样的图像显著性物体检测方法及系统，包括：获取待检测的目标图像；将待检测的目标图像，输入到训练后的基于极致下采样的神经网络模型中，输出目标图像中的显著性物体。基于本申请的新极致下采样技术设计了一个极致下采样模块，通过逐渐地更深层次地下采样，使得下采样后提取的特征变得更小和全局化，特征的空间大小逐渐变小直至变成特征向量，从而得到对整个自然图像的显著性物体的全局建模，也使得深度卷积神经网络可以更好地定位显著性物体的位置，从而不易漏检显著性物体，并在此基础上大大提升显著性物体检测的精度。

Description

基于极致下采样的图像显著性物体检测方法及系统

技术领域

本申请涉及计算机视觉技术领域，特别是涉及基于极致下采样的图像显著性物体检测方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

显著性物体检测的目标是检测并分割出给定自然图像中最显著的物体，它是计算机视觉领域中的一种十分重要的基本任务。它在计算机视觉具有举足轻重的地位，被应用于计算机视觉领域的多种子任务，如图像编辑、弱监督语义和实例分割、视觉目标跟踪等等，这些任务往往视显著性物体检测为一种重要的前置步骤，以用来增强他们的效果，或者更轻松地提取特征。此外，显著性物体检测也被直接应用实际生活中的各类场景，比如手机拍照中的AI背景虚化、智能图像增强等功能。

显著性物体检测发展了数十年，早年间处理该任务的方法往往基于手工设计的特征组合，这种设计方式过于繁琐，往往难以提取出自然图像中隐含但却十分重要的高层语义特征可靠性和精准度也不高，从而难以确认显著性物体的位置。今年来随着深度学习的发展，基于深度卷积神经网络进行特征提取的方法逐渐替代了早年间基于手工设计的特征组合的方法，并取得了很大的成功。

近年以来，这些基于深度卷积神经网络的显著性物体检测方法往往使用多尺度学习的方法去同时汲取高层语义特征和细粒化的低层特征的特征表达，这样即可利用高层语义特征较为容易定位显著性物体的位置的优势，也可以利用细粒化的低层特征更容易发现物体的细节和边缘的优势。许多显著性物体检测方法也想法设法改进多尺度学习的方式，并设计出各种各样的高级网络结构来改进多尺度学习的方式。

然而，目前这些基于多尺度学习的显著性物体检测方法主要想法设法地显式或隐式地改进低层特征学习的方式，从而获取更好的显著性物体细节和边缘。他们为了获取更好的显著性物体边缘，增强了方法本身对物体边缘的特征表达或者直接引入了额外的边缘信息作为训练监督信息。他们往往忽略了高层语义特征学习的重要性，他们更多地是直接应用语义分割中的ASPP或PSP模块或其他变种来增强高层语义特征的学习，显著性物体检测与语义分割不同，显著性物体检测更看重对整个显著性物体的建模，而语义分割更看重图像相邻像素之间的语义相关性。如上所述，高层语义特征学习在显著性物体检测任务中还没有被很好地探索，也使得各类方法虽然可以获取更好的显著性物体边缘，但却很容易丢失掉整个显著性物体。

发明内容

为了解决目前的显著性物体检测方法往往都忽视了高层语义特征的学习，从而使得他们预测出的显著性物体位置虽然具有较为清晰和合适的边缘，但很多复杂的场景下会丢失掉整个显著性物体。本申请提供了基于极致下采样的图像显著性物体检测方法及系统；本申请的目的是加强显著性物体检测方法的高层语义特征学习能力，基于本申请的新极致下采样技术设计了一个极致下采样模块，通过逐渐地更深层次地下采样，使得下采样后提取的特征变得更小和全局化，特征的空间大小逐渐变小直至变成特征向量，从而得到对整个自然图像的显著性物体的全局建模，也使得深度卷积神经网络可以更好地定位显著性物体的位置，从而不易漏检显著性物体，并在此基础上大大提升显著性物体检测的精度。

第一方面，本申请提供了基于极致下采样的图像显著性物体检测方法；

基于极致下采样的图像显著性物体检测方法，包括：

获取待检测的目标图像；

将待检测的目标图像，输入到训练后的基于极致下采样的神经网络模型中，输出目标图像中的显著性物体。

第二方面，本申请提供了基于极致下采样的图像显著性物体检测系统；

基于极致下采样的图像显著性物体检测系统，包括：

获取模块，其被配置为：获取待检测的目标图像；

输出模块，其被配置为：将待检测的目标图像，输入到训练后的基于极致下采样的神经网络模型中，输出目标图像中的显著性物体。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本申请的有益效果是：

该方法基于新型的极致下采样技术，并设计了一种全新的深度卷积神经网络，该网络可以准确地检测自然场景中的显著性物体。该网络以编码—解码网络为基础，即含有编码器结构和解码器结构。

特别地，本申请将本申请新设计的极致下采样技术对编码器结构进行改进，设计了一种极致下采样模块。本申请的编码器结构由一个自底向上网络和本申请新设计的极致下采样模块构成。自底向上网络以自然图像作为输入，极致下采样模块选择自底向上网络输出的最后一个特征作为输入。极致下采样模块通过逐渐地更深层次地下采样，使得下采样后提取的特征变得更小和全局化，从而得到对整个自然图像的显著性物体的全局建模，也使得深度卷积神经网络可以更好地定位显著性物体的位置，从而不易漏检显著性物体，并大大提升显著性物体检测的精度。

通过逐渐地更深层次地下采样，使得下采样后提取的特征变得更小和全局化，特征的空间大小逐渐变小直至变成特征向量，从而得到对整个自然图像的显著性物体的更好的全局建模，也使得深度卷积神经网络可以更好地定位显著性物体的位置，从而不易漏检显著性物体，并在此基础上大大提升显著性物体检测的精度。

本申请附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本申请的操作步骤。

图2为本申请的极致下采样模块的结构图。

图3(a)-图3(k)为本申请相对其他方法的比较图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了基于极致下采样的图像显著性物体检测方法；

基于极致下采样的图像显著性物体检测方法，包括：

S101：获取待检测的目标图像；

S102：将待检测的目标图像，输入到训练后的基于极致下采样的神经网络模型中，输出目标图像中的显著性物体。

作为一个或多个实施例，如图1所示，所述基于极致下采样的神经网络，网络结构包括：彼此连接的编码器和解码器；

所述编码器，包括：彼此连接的自底向上网络和极致下采样模块；

所述解码器，包括：自顶向下网络；

其中，极致下采样模块，将自底向上网络的最后一个特征作为输入值，对最后一个特征进行深层次的下采样，获得全局化的特征；

并将全局化的特征输入到自顶向下网络中进行特征融合，得到显著性物体的定位结果。

进一步地，所述自底向上网络，由VGG16网络去掉最后一个最大池化层、三个全连接层和softmax函数层得到。

进一步地，所述自底向上网络，包括：依次连接的第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层、第二最大池化层、第五卷积层、第六卷积层、第七卷积层、第三最大池化层、第八卷积层、第九卷积层、第十卷积层、第四最大池化层、第十一卷积层、第十二卷积层和第十三卷积层。

进一步地，如图2所示，所述极致下采样模块，包括：依次连接的第一串行下采样子模块、第二串行下采样子模块和全局特征提取子模块；

其中，第一串行下采样子模块，包括：依次连接的第一下采样单元、第十四卷积层和第十五卷积层；

其中，第二串行下采样子模块，包括：依次连接的第二下采样单元、第十六卷积层和第十七卷积层；

其中，全局特征提取子模块，包括：依次连接的全局平均池化层(GAP,GlobalAverage Pooling)和sigmoid函数层；

其中，第十五卷积层与第二下采样单元连接，第十七卷积层与全局平均池化层连接；

其中，sigmoid函数层的输出端的输出值与第十五卷积层的输出端的输出值进行乘积，得到乘积结果E6；

其中，sigmoid函数层的输出端的输出值与第十七卷积层的输出端的输出值进行乘积，得到乘积结果E7。

进一步地，所述极致下采样模块，工作原理包括：

自底向上网络的最后一个特征，先依次通过第一串行下采样子模块和第二串行下采样子模块进行下采样；

经过第一串行下采样子模块和第二串行下采样子模块后得到的下采样特征；再经全局特征提取子模块处理，得到全局特征向量；

将全局特征向量分别应用于第一串行下采样子模块和第二串行下采样子模块的输出特征，并将两个经全局化过滤的输出特征进行特征融合，得到极致下采样模块的全局特征输出。

进一步地，所述自顶向下网络，包括：依次连接的第一融合单元、第二融合单元、第三融合单元、第四融合单元、第五融合单元和第六融合单元；

其中，第一融合单元，用于将乘积结果E6与乘积结果E7进行融合得到融合结果D6；

其中，第二融合单元，用于将融合结果D6与第十三卷积层的输出值E5进行融合，得到融合结果D5；

其中，第三融合单元，用于将融合结果D5与第十卷积层的输出值E4进行融合，得到融合结果D4；

其中，第四融合单元，用于将融合结果D4与第七卷积层的输出值E3进行融合，得到融合结果D3；

其中，第五融合单元，用于将融合结果D3与第四卷积层的输出值E2进行融合，得到融合结果D2；

其中，第六融合单元，用于将融合结果D2与第二卷积层的输出值E1进行融合，得到融合结果D1。

作为一个或多个实施例，所述训练后的基于极致下采样的神经网络模型，训练步骤包括：

构建基于极致下采样的神经网络模型；

构建训练集；其中，所述训练集为已知图像中显著性物体标签的图像；

将训练集输入到基于极致下采样的神经网络模型中，对基于极致下采样的神经网络模型进行训练，得到训练后的基于极致下采样的神经网络模型。

本申请的编码器结构由一个自底向上网络和本申请新设计的极致下采样模块构成。自底向上网络以自然图像作为输入，极致下采样模块选择自底向上网络输出的最后一个特征作为输入。极致下采样模块通过逐渐地更深层次地下采样，使得下采样后提取的特征变得更小和全局化，从而得到对整个自然图像的显著性物体的全局建模，也使得深度卷积神经网络可以更好地定位显著性物体的位置。

应理解的，自底向上网络可以选择VGG16、ResNet18、ResNet50等常见的标准深度卷积神经网络。并不局限于VGG16网络，本申请只是以VGG16为例，将VGG16的最后一个池化层和所有全连接层去除，构成本方法的自底向上网络。

自底向上网络接收自然场景图片作为输入。自底向上网络依照自身的池化层被依次划分为5个阶段，每个阶段输出的最后一个特征被记录为自底向上网络的侧向输出特征，记为E1、E2、E3、E4、E5，它们分别为自然场景图片输入大小的1、1/2、1/4、1/8、1/16。

极致下采样模块接收中输出的E5作为输入，并生成更小的特征E6、E7，它们分别为自然场景图片输入大小的1/32、1/64。

极致下采样模块可选择图2的结构。它由2个串行的下采样子模块和1个全局特征提取子模块组成。第一个下采样子模块先从模块的输入特征E5中提取一个更小的特征，可由下式表示：

X₁＝Conv_3×3(Conv_3×3(Down(E₅)))，

其中，Conv_3×3表示卷积核大小为3×3、步长为1、pad为1的卷积以及紧跟着该卷积的Batch Normalization和ReLU层，Down表示将输入下采样为原始大小的1/2，这里的Down可以使用最大值池化或者平均值池化，E₅表示E5特征。在得到X₁特征后，第二个下采样子模块将X₁特征进一步地进行下采样，可由下式表示：

X₂＝Conv_3×3(Conv_3×3(Down(X₁)))，

在得到X₂特征后，全局特征提取子模块对X₂特征进行如下操作：

X₃＝σ(GAP(X₂))，

其中GAP代表全局平均池化操作，σ代表sigmoid操作，得到的X₃即为全局特征提取子模块提取出的全局特征向量，将X₃作用于X₁和X₂，具体可由下式来表示：

通过以上操作，可以得到经全局特征向量过滤后的特征E₆和E₇，即极致下采样模块输出的更小的特征E6、E7。

解码器接收产生的特征E1、E2、E3、E4、E5、E6、E7作为输入。这些特征从小到大依次输入到解码器网络中。

解码器具有6个阶段，每个阶段接收2个特征输入，其中第一个阶段接收E6、E7为输入，并输出与E6大小相同的特征D6，第二个阶段接收D6和E5作为输入，并输出与E5大小相同的D5。依次类推，解码器网络将生成特征D4、D3、D2、D1，其中特征D1作为解码器输出的最终特征。

进一步地，解码器的每个阶段含有一个特征聚合模块，特征聚合模块以2个不同大小的特征作为输入，先将更小尺寸的特征使用双线性插值的方法作上采样使得其大小与另外一个输入特征大小相同，紧接着，将经上采样的特征和另外一个未做上采样操作的特征按通道叠加在一起，组成一个通道数为两者之和的新特征。随后，使用一个卷积核大小为3×3、步长为1、pad为1、输出通道数与输入通道数相同的卷积，对新特征进行再次特征提取，得到该阶段的输出。

对解码器的最终特征D1，可使用一个卷积核大小为1×1的卷积及一个sigmoid操作进行显著性预测，请注意该卷积的输出通道数为1，得到网络模型的预测的取值范围为(0,1)之间的显著性图。通过将该预测图与人类标注的标准显著性图进行对比，计算出预测损失，同时进行梯度反传，从而更新网络的整体参数。

对解码器的最终特征使用一个卷积进行显著性预测，得到网络模型的预测的显著性图。通过将该预测图与人类标注的标准显著性图进行对比，计算出预测损失，同时进行梯度反传，从而更新网络的整体参数。

本申请设计了极致下采样模块，该模块通过逐渐地更深层次地下采样，使得下采样后提取的特征变得更小和全局化，特征的空间大小逐渐变小直至变成特征向量，从而得到对整个自然图像的显著性物体更好的全局建模，也使得深度卷积神经网络可以更好地定位显著性物体的位置，从而不易漏检显著性物体，并在此基础上大大提升显著性物体检测的精度。

请注意，以上步骤所述仅是本申请的优选实施方式。本申请应指出，对于本技术领域的普通技术人员来说，在不脱离本申请技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本申请的保护范围。

图3(a)-图3(k)是本申请与过去其他著名方法的比较，可以发现，图3(a)为原始自然图像；图3(b)为人类标注图像；图3(c)为本申请得到的图像；在本申请能够完整检测所有的显著性物体的前提下，其他的方法大都检测不到对应的显著性物体，体现了本申请的优越性。

实施例二

本实施例提供了基于极致下采样的图像显著性物体检测系统；

基于极致下采样的图像显著性物体检测系统，包括：

获取模块，其被配置为：获取待检测的目标图像；

此处需要说明的是，上述获取模块和输出模块对应于实施例一中的步骤S101至S102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于极致下采样的图像显著性物体检测方法，其特征是，包括：

获取待检测的目标图像；

2.如权利要求1所述的基于极致下采样的图像显著性物体检测方法，其特征是，所述基于极致下采样的神经网络，网络结构包括：彼此连接的编码器和解码器；

所述解码器，包括：自顶向下网络；

3.如权利要求2所述的基于极致下采样的图像显著性物体检测方法，其特征是，所述自底向上网络，由VGG16网络去掉最后一个最大池化层、三个全连接层和softmax函数层得到。

4.如权利要求2所述的基于极致下采样的图像显著性物体检测方法，其特征是，所述自底向上网络，包括：依次连接的第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层、第二最大池化层、第五卷积层、第六卷积层、第七卷积层、第三最大池化层、第八卷积层、第九卷积层、第十卷积层、第四最大池化层、第十一卷积层、第十二卷积层和第十三卷积层。

5.如权利要求2所述的基于极致下采样的图像显著性物体检测方法，其特征是，所述极致下采样模块，包括：依次连接的第一串行下采样子模块、第二串行下采样子模块和全局特征提取子模块；

其中，全局特征提取子模块，包括：依次连接的全局平均池化层和sigmoid函数层；

6.如权利要求2所述的基于极致下采样的图像显著性物体检测方法，其特征是，所述极致下采样模块，工作原理包括：

7.如权利要求2所述的基于极致下采样的图像显著性物体检测方法，其特征是，所述自顶向下网络，包括：依次连接的第一融合单元、第二融合单元、第三融合单元、第四融合单元、第五融合单元和第六融合单元；

8.基于极致下采样的图像显著性物体检测系统，其特征是，包括：

获取模块，其被配置为：获取待检测的目标图像；

9.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。