CN112906800A

CN112906800A - 基于图像组自适应的协同显著性检测方法

Info

Publication number: CN112906800A
Application number: CN202110220651.1A
Authority: CN
Inventors: 白臻; 刘志; 李恭杨; 吴勇
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-04
Anticipated expiration: 2041-02-26
Also published as: CN112906800B

Abstract

本发明公开了一种基于图像组自适应的协同显著性检测方法，具体步骤如下：构建一个图像组自适应协同显著性检测模型，包括确定一个显著对象检测网络，构建一个显著性相关网络和一个引导子网络，显著对象检测网络用以获取输入图像组的显著性图和显著性特征，显著性相关主干网络用来获取图像组的显著性相关信息并进行初步的协同显著性预测，引导子网络用来预测显著性相关主干网络的部分网络参数以及显著性图与初步协同显著性预测结果的融合权重，最后融合显著性图及初步协同显著性预测结果得到图像组的最终协同显著性图。

Description

基于图像组自适应的协同显著性检测方法

技术领域

本发明属于协同显著性检测技术领域，具体为基于图像组自适应的协同显著性检测方法。

背景技术

协同显著性检测是计算机图像处理中的基本操作，该任务基于人类生物视觉注意机制，旨在定位和分割图像组中公共的具有视觉吸引力的物体。近年来，它被广泛应用到各个领域，例如图像检索，视觉跟踪和语义分割等。计算机在进行相关图像处理操作前可以采用协同显著性检测技术过滤掉无关信息，提取能够代表多幅图像的有效目标信息，从而实现计算资源的优先分配，提高后续图像任务的执行效率。

现有的协同显著性检测方法可根据方法是否采用深度学习技术被分为两类。基于非深度学习的方法往往基于一些手工设计特征以及人为设置的相似性度量准则进行协同显著性检测，导致提取出来的特征与目标相关性信息限制了检测性能。另一类基于深度学习的协同显著性检测方法由于深度学习模型提取出来的特征更具代表性，大大提升了协同显著性检测性能。然而在现实场景中，待检测的图像组内的图像数量不可能一致，而现有的基于深度学习的协同显著性检测模型往往局限于网络框架的设计，要求测试与训练输入的待检测图像数量必须是固定的，因此检测前往往需要对待检测的图像组按照固定数量进行再分组。这样做不仅不符合实际场景需求，增加了图像预处理时间，还因为图像组合的不同导致检测性能不稳定。现有的协同显著性检测模型在检测时采用训练好的网络，参数都已固定，对于不同的图像组缺少自适应调节能力，尤其是一些与训练集的偏向性相差较多的图像组，性能急剧下降。

发明内容

为了解决现有技术问题，本发明的目的在于克服已有技术存在的不足，提供一种基于图像组自适应的协同显著性检测方法，提出了注意力相关模块，该模块可实现对任意数量的图像特征同时进行相关注意力信息的捕捉，因此依赖于该模块的图像组自适应协同检测模型适应于任意数量图像的图像组。本发明提出了引导子网络，根据输入图像组的不同为显著性相关主干网络中的三个层次特征对应的自适应归一化残差模块提供不同的参数，自适应的调整网络模型，增加模型的图像组自适应调节能力。

为达到上述发明创造目的，本发明采用如下技术方案：

一种基于图像组自适应的协同显著性检测方法，其步骤如下：

(1)构建一个图像组自适应协同显著性检测模型：

(1-1)该模型主要包括一个已训练好的基于深度学习的显著对象检测模型、一个显著性相关主干网络和一个引导子网络，三个网络联合对图像组进行端到端的协同显著性检测；

(1-2)显著对象先验知识获取：

确定一个显著对象检测模型，该模型为任意已经训练好参数的基于深度学习的显著对象检测模型，该显著对象检测模型用于生成任意图像组的显著对象检测结果及显著性浅层特征提取，为显著性相关主干网络提供先验知识；

(1-3)构建引导子网络：

该网络以VGG16为主干网络，由卷积块、线性全连接层和Relu激活层组成，输入与显著对象检测模型的输入相同，输出为显著性相关主干网络中自适应归一化残差模块所需的图像组归一化自适应参数γ和β，以及显著对象显著性图和初始显著性图协同显著性图的融合权重值ω；

(1-4)构建显著性相关主干网络：

该网络主要由特征提取模块、注意力相关模块、局部注意力模块、自适应归一化残差模块和解码器模块组成；将显著对象检测模型生成的图像组的显著结果及显著性浅层特征作为该主干网络的输入，进一步提取图像组的深层次特征，基于这些特征寻找图像组内多幅图像特征间的相关性信息，随后增强相关特征的局部注意力，把引导子网络预测的图像组的归一化参数赋给自适应归一化残差模块对特征进行归一化，然后在解码器中结合多层次特征进行初步协同显著性预测，最终利用引导子网络预测的自适应融合权重，将初步的协同显著性检测结果与显著对象检测结果进行自适应线性融合，得到最终的协同显著性检测结果；

(2)对图像组自适应协同显著性检测模型进行训练：

(2-1)采用语义分割数据集FSS-1000作为训练集，该公开的数据集中的图像组已按相同的语义目标类别分好；直接将图像组作为输入，图像组对应的语义真值图作为标签，端到端的训练图像组自适应协同显著性检测模型，使其自动学习原始图像与语义真值图之间的映射关系；

(2-2)显著对象检测模型为已经训练好的模型，训练过程中，为了保证模型的显著性检测能力，该模型参数固定不变，只更新显著性相关主干网络和引导子网络的模型参数；

(2-3)模型初始化参数，显著性相关主干网络和引导子网络中的卷积块的初始化参数为VGG16在分类任务中的参数，其他网络层的初始参数被随机初始化；

(2-4)模型训练采用的损失函数为二值交叉熵损失，梯度下降算法为随机梯度下降，学习率为10^-5，Batchsize大小不固定，由待检测图像组的图像数量决定，训练直到模型收敛一般需要迭代70个epoch；

(3)图像组自适应协同显著性检测：

检测采用协同显著性检测领域3个公开的常用数据集，分别为Cosal2015、iCoseg和MSRC；这3个公开数据集内的图像均已按公共的显著对象分好组；测试时，直接将图像组输入步骤(2)中训练好的图像组自适应协同显著性检测模型进行检测。

优选地，所述步骤(1-2)中，显著性先验知识获取：采用任意一个已经训练好参数的基于深度学习的显著对象检测模型，生成任意图像组

的显著对象检测结果

并提取显著性浅层特征

为显著性相关主干网络提供先验知识；

优选地，所述步骤(1-3)中，将显著对象检测网络输出的显著对象结果与其提取的显著性浅层特征逐像素点乘，消除浅层特征中非显著区域的干扰后，将该特征作为显著性相关主干网络的输入。

优选地，所述步骤(1-3)中，构建引导子网络GNet：该网络以VGG16为主干网络，由VGG的5个卷积块、一个平均池化层，三个全连接层和两个Relu层。输入与显著对象检测模型的输入相同，随后对经过5个卷积块后的特征采用平均池化操作，获得输入图像组中每幅图像的特征向量，将该组向量取均值，随后与每幅图像的特征向量相加，经过两次全连接层和Relu层结合的操作后，得到显著性相关主干网络中自适应归一化残差模块所需的每幅图像的归一化自适应参数向量γ和β，随后将自适应参数向量γ和β再经过一个全连接层得到每幅图像的一个权重值ω，该值用于融合初始显著性图协同显著性图

和显著性图ISM：γ,β,ω＝GNet(I)。

优选地，所述步骤(1-4)中的注意力相关模块，该模块直接将输入的一个批次的所有图像特征按长度拼接为一个总体特征，随后对该特征进行空间自注意力和通道自注意力，将两个注意力机制处理后的特征进行相加，并将其恢复为原始批次的特征尺寸大小，这种拼接手法使模型输入的图像数量随机，避免模型只能保持固定的图像数量输入，更符合真实检测场景需求。

优选地，所述步骤(1-4)中的局部自注意力模块采用多尺度膨胀卷积，对经注意力相关模块后的特征进行滤波，消减协同显著对象特征区域的空洞，保证检测目标的完整性。

优选地，所述步骤(1-4)中的自适应归一化残差模块，该模块中采用自适应归一化层及实例归一化层，其中归一化参数为引导子网络预测得到，因此该模型可随输入的图像组来自适应调节网络模型。

优选地，所述步骤(1-4)中的引导子网络总体采用VGG16的网络结构，该子网络将VGG的Softmax层替换为引导模块；其中引导模块包括一个全局平均池化层，三个线性全连接层和两个Relu层组成，按照自适应归一化残差模块所需的参数量，设定线性全连接层最终输出的向量维度。

优选地，所述步骤(1-4)中的解码器模块结合3个层次的特征生成初始协同显著性图，再利用引导子网络预测的自适应融合权重线性融合初始显著性图协同显著性图和显著性图，生成最终的协同显著性图。

优选地，于图像组自适应的协同显著性检测方法，具有如下步骤：

(1)显著性先验知识获取：采用任意一个已经训练好参数的基于深度学习的显著对象检测模型，生成任意图像组

的显著对象检测结果

并提取显著性浅层特征

为显著性相关主干网络提供先验知识；

(2)构建引导子网络GNet：该网络以VGG16为主干网络，由VGG的5个卷积块、一个平均池化层，三个全连接层和两个Relu层。输入与显著对象检测模型的输入相同，随后对经过5个卷积块后的特征采用平均池化操作，获得输入图像组中每幅图像的特征向量，将该组向量取均值，随后与每幅图像的特征向量相加，经过两次全连接层和Relu层结合的操作后，得到显著性相关主干网络中自适应归一化残差模块所需的每幅图像的归一化自适应参数向量γ和β，随后将自适应参数向量γ和β再经过一个全连接层得到每幅图像的一个权重值ω，该值用于融合初始显著性图协同显著性图

和显著性图ISM：

γ,β,ω＝GNet(I)；

(3)构建显著性相关主干网络CANet：

该网络主要由特征提取模块、局部注意力模块、注意力相关模块、自适应归一化残差模块和解码器组成；

(3-1)将显著对象检测模型生成的图像组内每幅图像的显著对象检测结果ISM及显著性浅层特征

进行逐像素点乘得到

将其作为该子网络的输入，随后经过两个卷积块Conv_4和Conv_5进一步提取图像组的两个层次的特征

F³＝ISM×SF，

F⁴＝Conv_4(F³)，

F⁵＝Conv_5(F⁴)；

(3-2)将步骤(3-1)得到的三个层次的特征分别输入一个注意力相关模块来捕捉多幅图像特征间的相关性信息，输入F∈R^C×H×W，得到相关性特征

该模块直接将图像组的所有图像特征按长度拼接为一个总体特征{GF_i}∈R^C×nH×W，随后对该特征进行空间自注意力SA和通道自注意力CA操作，将两个注意力操作处理后的特征进行相加，并将其恢复为原始图像组的特征尺寸

GF＝Reshape(F)，

CF＝Reshape(SA(GF)+CA(GF))；

(3-3)获取相关特征的局部注意力：这里采用三个尺度的膨胀卷积，膨胀尺度分别为3*3，5*5和7*7对每个层次的特征CF进行操作，将CF与三个尺度操作后的特征进行通道拼接，并采用卷积核为1的卷积层对拼接后的特征进行降维，得到

(3-4)利用自适应残差归一化模块增强特征：该模块包括两层自适应归一化层AdaIN和一层实例归一化层IN，将引导子网络预测的γ,β参数向量分为{γ₁，β₁}和{γ₂，β₂}赋给自适应残差归一化模块中的两个自适应归一化层AdaIN，使LF经过该模块获得增强后的特征EF，具体操作如下：

EF＝AdaIN(AdaIN(LF|γ₁,β₁)|γ₂,β₂)+IN(LF)；

(3-5)通过解码器来结合三个层次特征进行初步协同显著性预测：该采用空间分辨率逐层提高的方式结合三个层次的特征{EF³，EF⁴，EF⁵}得到初步协同显著性图

具体操作如下：

CS₁＝conv(up_conv2(up_conv1(EF⁵)+EF⁴)+EF³)，

其中up_conv表示包括双线性插值上采样，特征通道拼接和1*1卷积降维在内的操作过程；

(3-6)融合初步协同显著性图与显著性图：利用引导子网络得到的ω线性融合CS₁和ISM得到最终的协同显著性预测结果CS₂：

CS₂＝ω×CS₁+(1-ω)×ISM；

(4)训练图像组自适应协同显著性检测网络GAdaNet：利用FSS-1000数据集共1000个图像组对该网络进行训练，将每个图像组的RGB图像作为网络输入，对应图像组的真值图作为监督信息，通过最小化预测的最终显著性图协同显著性图CS₂与真值图GT间的二值交叉熵来训练网络，获得网络参数θ：

(5)利用训练好的网络GAdaNet进行协同显著性检测：把数据集Cosal2015，iCoseg和MSRC作为待检测图像，进行协同显著性检测。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

1.本发明提出的图像组自适应网络模型对输入的图像幅数没有限制，输入网络前不需要对图像组进行再分组，该能力的实现主要依赖于注意力相关模型的设计，其采用的特征长度拼接加自适应注意力机制的操作不止突破了现有基于深度学习的协同显著性检测模型的限制，还可有效提取整个图像组的相关性信息；

2.本发明利用引导子网络来根据图像组自身特性来调整注意力相关子网络，提高了检测的准确性及模型的鲁棒性，可达到极好的检测效果；

3.本发明方法效率高，成本低，易于实现。

附图说明

图1是本发明的基于图像组自适应的协同显著性检测流程图。

图2是本发明在协同显著性检测领域的公开数据集上取得的部分主观实验结果。

具体实施方式

以下结合具体的实施例子对上述方案做进一步说明，本发明的优选实施例详述如下：

实施例一：

在本实施例中，参见图1，一种基于图像组自适应的协同显著性检测方法，其步骤如下：

(1)构建一个图像组自适应协同显著性检测模型：

(1-2)显著对象先验知识获取：

(1-3)构建引导子网络：

(1-4)构建显著性相关主干网络：

(2)对图像组自适应协同显著性检测模型进行训练：

(3)图像组自适应协同显著性检测：

本实施例提出的图像组自适应网络模型对输入的图像幅数没有限制，输入网络前不需要对图像组进行再分组，该能力的实现主要依赖于注意力相关模型的设计，其采用的特征长度拼接加自适应注意力机制的操作不止突破了现有基于深度学习的协同显著性检测模型的限制，还可有效提取整个图像组的相关性信息。

实施例二：

本实施例与实施例一基本相同，特别之处在于：

在本实施例中，参见图1，所述步骤(1-3)中，将显著对象检测网络输出的显著对象结果与其提取的显著性浅层特征逐像素点乘，消除浅层特征中非显著区域的干扰后，将该特征作为显著性相关主干网络的输入。

在本实施例中，所述步骤(1-4)中的注意力相关模块，该模块直接将输入的一个批次的所有图像特征按长度拼接为一个总体特征，随后对该特征进行空间自注意力和通道自注意力，将两个注意力机制处理后的特征进行相加，并将其恢复为原始批次的特征尺寸大小，这种拼接手法使模型输入的图像数量随机，避免模型只能保持固定的图像数量输入，更符合真实检测场景需求。

在本实施例中，所述步骤(1-4)中的局部自注意力模块采用多尺度膨胀卷积，对经注意力相关模块后的特征进行滤波，消减协同显著对象特征区域的空洞，保证检测目标的完整性。

在本实施例中，所述步骤(1-4)中的自适应归一化残差模块，该模块中采用自适应归一化层及实例归一化层，其中归一化参数为引导子网络预测得到，因此该模型可随输入的图像组来自适应调节网络模型。

在本实施例中，所述步骤(1-4)中的引导子网络总体采用VGG16的网络结构，该子网络将VGG的Softmax层替换为引导模块；其中引导模块包括一个全局平均池化层，三个线性全连接层和两个Relu层组成，按照自适应归一化残差模块所需的参数量，设定线性全连接层最终输出的向量维度。

在本实施例中，所述步骤(1-4)中的解码器模块结合3个层次的特征生成初始协同显著性图，再利用引导子网络预测的自适应融合权重线性融合初始显著性图协同显著性图和显著性图，生成最终的协同显著性图。

本实施例方法材采用注意力相关模块，该模块可实现对任意数量的图像特征同时进行相关注意力信息的捕捉，因此依赖于该模块的图像组自适应协同检测模型适应于任意数量图像的图像组。本实施例采用引导子网络，根据输入图像组的不同为显著性相关主干网络中的三个层次特征对应的自适应归一化残差模块提供不同的参数，自适应的调整网络模型，增加模型的图像组自适应调节能力。

实施例三：

本实施例与上述实施例基本相同，特别之处在于：

在本实施例中，参见图1和图2，一种基于图像组自适应的协同显著性检测方法，其步骤如下：

的显著对象检测结果

并提取显著性浅层特征

为显著性相关主干网络提供先验知识；

(2)构建引导子网络GNet：该网络以VGG16为主干网络，由VGG的5个卷积块、一个平均池化层，三个全连接层和两个Relu层；输入与显著对象检测模型的输入相同，随后对经过5个卷积块后的特征采用平均池化操作，获得输入图像组中每幅图像的特征向量，将该组向量取均值，随后与每幅图像的特征向量相加，经过两次全连接层和Relu层结合的操作后，得到显著性相关主干网络中自适应归一化残差模块所需的每幅图像的归一化自适应参数向量γ和β，随后将自适应参数向量γ和β再经过一个全连接层得到每幅图像的一个权重值ω，该值用于融合初始显著性图协同显著性图

和显著性图ISM：

γ,β,ω＝GNet(I)；

(3)构建显著性相关主干网络CANet：

进行逐像素点乘得到

F³＝ISM×SF，

F⁴＝Conv_4(F³)，

F⁵＝Conv_5(F⁴)；

GF＝Reshape(F)，

CF＝Reshape(SA(GF)+CA(GF))；

EF＝AdaIN(AdaIN(LF|γ₁,β₁)|γ₂,β₂)+IN(LF)；

具体操作如下：

CS₁＝conv(up_conv2(up_conv1(EF⁵)+EF⁴)+EF³)，

CS₂＝ω×CS₁+(1-ω)×ISM；

本实施例基于图像组自适应的协同显著性检测方法，构建了图像组自适应协同显著性检测模型，包括确定显著对象检测网络，构建显著性相关网络和一个引导子网络，显著对象检测网络用以获取输入图像组的显著性图和显著性特征，显著性相关主干网络用来获取图像组的显著性相关信息并进行初步的协同显著性预测，引导子网络用来预测显著性相关主干网络的部分网络参数以及显著性图与初步协同显著性预测结果的融合权重，最后融合显著性图及初步协同显著性预测结果得到图像组的最终协同显著性图。

上面对本发明实施例结合附图进行了说明，但本发明不限于上述实施例，还可以根据本发明的发明创造的目的做出多种变化，凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本发明的发明目的，只要不背离本发明的技术原理和发明构思，都属于本发明的保护范围。

Claims

1.一种基于图像组自适应的协同显著性检测方法，其特征在于，其步骤如下：

(1)构建一个图像组自适应协同显著性检测模型：

(1-2)显著对象先验知识获取：

(1-3)构建引导子网络：

(1-4)构建显著性相关主干网络：

(2)对图像组自适应协同显著性检测模型进行训练：

(3)图像组自适应协同显著性检测：

2.根据权利要求1所述的基于图像组自适应的协同显著性检测方法，其特征在于，所述步骤(1-3)中，将显著对象检测网络输出的显著对象结果与其提取的显著性浅层特征逐像素点乘，消除浅层特征中非显著区域的干扰后，将该特征作为显著性相关主干网络的输入。

3.根据权利要求1所述的基于图像组自适应的协同显著性检测方法，其特征在于，所述步骤(1-4)中的注意力相关模块，该模块直接将输入的一个批次的所有图像特征按长度拼接为一个总体特征，随后对该特征进行空间自注意力和通道自注意力，将两个注意力机制处理后的特征进行相加，并将其恢复为原始批次的特征尺寸大小，这种拼接手法使模型输入的图像数量随机，避免模型只能保持固定的图像数量输入，更符合真实检测场景需求。

4.根据权利要求1所述的基于图像组自适应的协同显著性检测方法，其特征在于，所述步骤(1-4)中的局部自注意力模块采用多尺度膨胀卷积，对经注意力相关模块后的特征进行滤波，消减协同显著对象特征区域的空洞，保证检测目标的完整性。

5.根据权利要求1所述的基于图像组自适应的协同显著性检测方法，其特征在于，所述步骤(1-4)中的自适应归一化残差模块，该模块中采用自适应归一化层及实例归一化层，其中归一化参数为引导子网络预测得到，因此该模型可随输入的图像组来自适应调节网络模型。

6.根据权利要求1所述的基于图像组自适应的协同显著性检测方法，其特征在于，所述步骤(1-4)中的引导子网络总体采用VGG16的网络结构，该子网络将VGG的Softmax层替换为引导模块；其中引导模块包括一个全局平均池化层，三个线性全连接层和两个Relu层组成，按照自适应归一化残差模块所需的参数量，设定线性全连接层最终输出的向量维度。

7.根据权利要求1所述的基于图像组自适应的协同显著性检测方法，其特征在于，所述步骤(1-4)中的解码器模块结合3个层次的特征生成初始协同显著性图，再利用引导子网络预测的自适应融合权重线性融合初始显著性图协同显著性图和显著性图，生成最终的协同显著性图。