CN115294359A

CN115294359A - 一种基于深度学习的高分辨率图像显著性目标检测方法

Info

Publication number: CN115294359A
Application number: CN202210990986.6A
Authority: CN
Inventors: 费晓波; 周晓飞; 张继勇; 李世锋; 周振; 何帆
Original assignee: China Power Data Service Co ltd; Hangzhou Dianzi University
Current assignee: China Power Data Service Co ltd; Hangzhou Dianzi University
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-11-04
Anticipated expiration: 2042-08-17
Also published as: CN115294359B

Abstract

本发明涉及一种基于深度学习的高分辨率图像显著性目标检测方法，包括步骤一、低分辨率分支的特征提取；步骤二、中分辨率分支的特征提取；步骤三、高分辨率分支的特征提取；步骤四、多分辨率特征的融合；步骤五、残差解码网络得到预测图；步骤六、级联标签监督并进行端到端训练。本发明提供的网络模型是并行网络，可以在充分有效地利用语义信息和细节信息来实现对高分辨率图像中显著性目标的预测的同时，在网络中保持高分辨率。

Description

一种基于深度学习的高分辨率图像显著性目标检测方法

技术领域

本发明涉及一种基于深度学习的高分辨率图像显著性目标检测方法，属于计算机视觉技术领域。

背景技术

显著性检测是计算机视觉领域的一项非常重要的任务，受到广泛的研究和探讨，它旨在准确检测和分割场景中最独特的目标区域。人类视觉系统在面对自然场景时具有快速搜索和定位感兴趣目标的能力，这种视觉注意机制是人们日常生活中处理视觉信息的重要机制。随着互联网带来的大数据量的传播，如何从海量的图像和视频数据中快速地获取重要信息，已经成为计算机视觉领域一个关键的问题。通过在计算机视觉任务中引入这种视觉注意机制，即视觉显著性，可以为视觉信息处理任务带来一系列重大的帮助和改善。显著性物体检测的目的即是从图像中定位最有吸引力和视觉上独特的物体或区域，大量应用于图像分割、目标重定位、目标图像前景注释等领域。

随着大规模基准测试和深度学习的发展，基于神经网络的方法在显著性目标检测方面取得了重大突破。然而，现有的显著性目标检测方法通常仅限于低分辨率(400*400或更小)的输入图像。这一缺点阻碍了它们用于需要高分辨率、细节感知结果的高级实际应用。在处理高分辨率图像时，通常会缩小输入规模以提取语义信息，在这个过程中，许多细节不可避免地丢失了，会出现严重的遗传缺陷，即边界模糊。因此，现有的适用于低分辨率输入的显著性检测方法不适用于高分辨率显著性检测任务。同时，对于训练神经网络直接处理高分辨率图像中的显著目标分割的研究很少。然而，这项工作非常重要，因为它可以激发或实现许多实际任务，如医学图像分析、遥感图像分析等。因此，开展对处理高分辨率图像的显著性检测方法的研究是非常有意义和有必要的。

发明内容

本发明的目的是针对现有方法存在的不足，提供一种基于深度学习的高分辨率图像显著性目标检测方法。

为实现上述目的，本发明的技术方案是：

一种基于深度学习的高分辨率图像显著性目标检测方法，包括以下步骤：

步骤一、低分辨率分支的特征提取：利用卷积神经网络和金字塔池化模块(PPM)构建语义特征提取网络，使用低分辨率输入进行语义信息提取，得到低分辨率分支最终的粗略预测特征；所述卷积神经网络是在ResNet模型的基础上进行微调得到。

对原始图像X₁进行下采样操作得到新的图像X₄，下采样因子为0.25，如下：

X₄＝Downsampling(X₁)

进行语义特征提取网络的输入，考虑到直接使用经典的框架检测高分辨率图像输入是非常耗时的，为了克服这个困难，使用低分辨率输入进行语义信息提取，如下

M_{4_1}＝Conv_sub(X₄)

M_{4_i+1}＝resnet_layer_i(M_{4_i})

其中，i＝1，2，3，4；Conv_sub卷积块包括了3×3的卷积层，BN层，ReLU激活函数和3×3的最大池化层；

利用PPM模块，有效增大感受野，聚合不同区域的上下文信息，以提高网络获取全局信息的能力，得到低分辨率分支最终的粗略预测特征M_{4_5}，如下：

M_{4_5}＝PPM(M_{4_5})。

步骤二、中分辨率分支的特征提取：利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络，得到中分辨率支路的包含细节信息的粗略预测图；

利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络，高分辨率图像输入本身会带来网络的计算量和内存使用量大大增加的问题，加上采用多分支的结构，更会加剧这一问题，因此，考虑到这一问题，本发明的中分辨率分支采用低分辨率分支的前三层结构，以实现和低分辨率分支部分网络共享参数。

对原始图像X₁进行下采样操作得到新的图像X₂，下采样因子为0.5，如下：

X₂＝Downsampling(X₁)

进行中分辨率分支特征提取网络的输入，输出特征M_{2_3}，与低分辨率分支的输出特征M_{4_3}进行特征融合，使得较高分辨率的表示可以接收较低分辨率的表示信息，以实现多尺度的信息融合，从而得到丰富的高分辨率表示，如下：

M_{2_1}＝Conv_sub(X₂)

M_{2_i+1}＝resnet_layer_i(M_{2_i})

其中，i＝1，2；Conv_s2卷积块包括了3×3的卷积层，BN层和ReLU激活函数。

步骤三、高分辨率分支的特征提取：利用三个卷积块构造高分辨率分支特征提取网络，得到高分辨率支路的包含细节信息的粗略预测图；所述卷积块是由一个卷积层，一个批量归一化层和一个ReLU激活函数层组成。考虑到高分辨率图像输入会带来巨大的计算量和内存消耗，因此我们选择轻量级网络。

进行高分辨率分支特征提取网络的输入，输出特征是M_{1_3}，与中分辨率分支的卷积网络第二层的输出特征进行拼接卷积操作，使较高分辨率的表示可以接收较低分辨率的表示信息，以实现多尺度的信息融合，从而得到丰富的高分辨率表示。如下：

M_{1_i}＝Conv_ei(X₁)

其中i＝1，2，3；Conv_ei包括了3×3的卷积层，BN层和ReLU激活函数；Conv_s1包括了3×3的卷积层，BN层和ReLU激活函数。

步骤四、多分辨率特征的融合：构建多分辨率特征融合网络，得到融合后的最终预测图，所述多分辨率特征融合网络是由两个分支或三个分支构成；

进行第一个多分辨率特征融合网络的输入，低分辨率分支的输出特征M_{4_5}和中分辨率分支的输出特征M_{2_3}将分别作为低分辨率输入和高分辨率输入，对低分辨率输入特征进行上采样操作，上采样因子为2，使其与高分辨率输入具有相同的空间大小；对其进行空洞卷积操作以在不增加计算量的前提下改善特征信息；对高分辨率输入进行卷积操作，使得它的通道数同经过上述一系列操作后的低分辨率特征保持一致；后对这两个特征用批量归一化层进行归一化操作；将两个特征相加经过一个ReLU激活函数后得到最终的输出结果M₂₄，同时，将M₂₄送入到Sigmoid激活函数层，得到

原图大小的预测图pred_16，具体如下：

M_{4_51}＝Upsampling(M_{4_5})

M_{4_52}＝BN(DilatedConv(M_{4_51}))

M_{2_31}＝BN(Conv(M_{2_3}))

M₂₄＝ReLU(SUM(M_{4_51}+M_{2_31}))

pred_16＝Sigmoid(Conv_cls(M₂₄))。

进行第二个多分辨率特征融合网络的输入，低分辨率分支的输出特征M_{4_5}，第二个特征级联网络的输出特征M₂₄以及高分辨率分支的输出特征M_{1_3}将分别作为低分辨率输入，中分辨率输入和高分辨率输入，

对低分辨率输入特征进行上采样操作，上采样因子为4，使得它与高分辨率输入具有相同的空间大小；再对其进行空洞卷积操作以在不增加计算量的前提下改善特征信息；对中分辨率输入做与低分辨率输入同样的操作，先进行上采样操作，上采样因子为2，使得它与高分辨率输入具有相同的空间大小；再对其进行空洞卷积操作；接着对高分辨率输入进行卷积操作，使得它的通道数同经过上述一系列操作后的低、中分辨率特征保持一致；然后对这三个特征用批量归一化层进行归一化操作；最后，将三个特征相加经过一个ReLU激活函数后得到最终的输出结果M₁₂₄，同时，将M₁₂₄送入到Sigmoid激活函数层，得到

原图大小的预测图pred_8，具体如下：

M_{4_51}＝Upsampling(M_{4_5})

M_{4_52}＝BN(DilatedConv(M_{4_51}))

M_{24_1}＝Upsampling(M₂₄)

M_{24_2}＝BN(DilatedConv(M_{24_1}))

M_{1_31}＝BN(Conv(M_{1_3}))

M₁₂₄＝ReLU(SUM(M_{4_52}+M_{24_2}+M_{1_31}))

pred_8＝Sigmoid(Conv_cls(M₁₂₄))

其中，Conv_cls层是一个1×1的卷积层。

步骤五、残差解码网络得到预测图，残差解码网络包括四个由卷积层、批量归一化层、ReLU激活函数组成的卷积组，一个卷积层和一个sigmoid激活函数；构建解码网络。随着网络越来越深，训练变得越来越难，网络的优化变得越来越难，会导致在实际情况中，越深的网络训练效果会更差，即出现退化问题。考虑到这个原因，我们构建了残差解码网络。

进行残差解码网络的输入。将特征M₁₂₄输入到解码网络中，用高分辨率分支上的各层输出特征分别进行残差连接，得到最终的预测图pred，具体如下

I₁＝M₁₂₄

pred＝Sigmoid(Conv_cls(Conv_d4(I₄)))

其中，(i，j)组分别为(1，3)，(2，2)，(3，1)，上采样率为2；Conv_dj(j＝1，2，3，4)包括了3×3的卷积层，BN层和ReLU激活函数。

步骤六：级联标签监督并进行端到端训练：对两个级联特征输出结果以及最终结果进行端到端监督训练。

用SGD优化器对模型进行训练，其中初始学习率设置为0.001，权重衰减为0.00l，动量为0.9，对网络进行随机初始化，用不同尺寸的真值图来监督各分支的学习情况，损失函数采用交叉熵损失函数和IOU损失函数，具体如下：

L_i＝BCE(pred_i，target_i)+IOU(pred_i，target_i)

Loss＝L₁+0.4*L₂+0.4*L₃

其中，i＝1，2，3，分别表示计算原图大小，

原图大小，

原图大小的预测图和真值图之间的损失。

本发明方法包括高分辨率分支提取网络、中分辨率分支提取网络、低分辨率分支提取网络、多分辨率特征融合网络、残差解码网络。模型的输入是一张原始的高分辨率图像。首先，由三个分支网络分别提取不同分辨率的特征，同时用较低分辨率分支的特征强化较高分辨率分支的特征。然后，采用多分辨率特征融合网络模块，将不同分辨率的特征进行融合，有效利用低分辨率的语义信息和高分辨率的图像的细节信息。将融合得到的特征与高分辨率分支上的特征相结合输入到残差解码网络进行预测，得到高分辨率图像的最终预测图。本发明方法提供的网络模型是并行网络，可以在充分有效地利用语义信息和和细节信息来实现对高分辨率图像中显著性目标的预测的同时，在网络中保持高分辨率。

本发明主要优势在于两个方面：一方面，采用多分支结构，将高、中、低分辨率分支并行连接，并且将深度网络提取到的特征融合到浅层网络中，以增强高分辨率图像的特征表示。本发明在中低分辨率分支中采用深度的残差网络以提取语义信息，在高分辨率分支采用浅层网络以提取细节信息，在网络中保持高分辨率的同时，尽可能地减少计算成本和存储容量。另一方面，多分辨率特征融合网络与多分辨率标签监督一起，有效地利用了低分辨率的语义信息和高分辨率图像细节信息，并且可以以较低的计算成本逐步恢复和细化显著性目标预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于深度学习的高分辨率图像显著性目标检测方法的框架图；

图2为本发明基于深度学习的高分辨率图像显著性目标检测方法中多分辨率特征融合网络模块的示意图(1)；

图3为本发明基于深度学习的高分辨率图像显著性目标检测方法中多分辨率特征融合网络模块的示意图(2)；

图4为本发明基于深度学习的高分辨率图像显著性目标检测方法的结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例所提供的一种基于深度学习的高分辨率图像显著性目标检测方法，包括以下步骤：

X₄＝Downsampling(X₁)

M_{4_1}＝Conv_sub(X₄)

M_{4_i+1}＝resnet_layer_i(M_{4_i})

M_{4_5}＝PPM(M_{4_5})。

X₂＝Downsampling(X₁)

M_{2_1}＝Conv_sub(X₂)

M_{2_i+1}＝resnet_layer_i(M_{2_i})

M_{1_i}＝Conv_ei(X₁)

步骤四、多分辨率特征的融合：构建多分辨率特征融合网络，所述多分辨率特征融合网络是由两个分支或三个分支构成，得到融合后的最终预测图；

原图大小的预测图pred_16，具体如下：

M_{4_51}＝Upsampling(M_{4_5})

M_{4_52}＝BN(DilatedConv(M_{4_51}))

M_{2_31}＝BN(Conv(M_{2_3}))

M₂₄＝ReLU(SUM(M_{4_51}+M_{2_31}))

pred_16＝Sigmoid(Conv_cls(M₂₄))。

原图大小的预测图pred_8，具体如下：

M_{4_51}＝Upsampling(M_{4_5})

M_{4_52}＝BN(DilatedConv(M_{4_51}))

M_{24_1}＝Upsampling(M₂₄)

M_{24_2}＝BN(DilatedConv(M_{24_1}))

M_{1_31}＝BN(Conv(M_{1_3}))

M₁₂₄＝ReLU(SUM(M_{4_52}+M_{24_2}+M_{1_31}))

pred_8＝Sigmoid(Conv_cls(M₁₂₄))

其中，Conv_cls层是一个1×1的卷积层。

I₁＝M₁₂₄

pred＝Sigmoid(Conv_cls(Conv_d4(I₄)))

用SGD优化器对模型进行训练，其中初始学习率设置为0.001，权重衰减为0.001，动量为0.9，对网络进行随机初始化，用不同尺寸的真值图来监督各分支的学习情况，损失函数采用交叉熵损失函数和IOU损失函数，具体如下：

L_i＝BCE(pred_i，target_i)+IOU(pred_i，target_i)

Loss＝L₁+0.4*L₂+0.4*L₃

其中，i＝1，2，3，分别表示计算原图大小，

原图大小，

原图大小的预测图和真值图之间的损失。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于深度学习的高分辨率图像显著性目标检测方法，其特征在于：包括以下步骤：

步骤一、低分辨率分支的特征提取：利用卷积神经网络和金字塔池化模块构建语义特征提取网络，使用低分辨率输入进行语义信息提取，得到低分辨率分支最终的粗略预测特征；

步骤三、高分辨率分支的特征提取：利用三个卷积块构造高分辨率分支特征提取网络，得到高分辨率支路的包含细节信息的粗略预测图；

步骤五、残差解码网络得到预测图，残差解码网络包括四个由卷积层、批量归一化层、ReLU激活函数组成的卷积组，一个卷积层和一个sigmoid激活函数；

2.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法，其特征在于：所述步骤一中所述卷积神经网络是在ResNet模型的基础上进行微调得到。

3.根据权利要求2所述的一种基于深度学习的高分辨率图像显著性目标检测方法，其特征在于：所述步骤一具体包括：

X₄＝Downsampling(X₁)

进行语义特征提取网络的输入，使用低分辨率输入进行语义信息提取，如下

M_{4_1}＝Conv_sub(X₄)

M_{4_i+1}＝resnet_layer_i(M_{4_i})

其中，i＝1,2,3,4；Conv_sub卷积块包括了3×3的卷积层，BN层，ReLU激活函数和3×3的最大池化层；

利用PPM模块，聚合不同区域的上下文信息，得到低分辨率分支最终的粗略预测特征M_{4_5}，如下：

M_{4_5}＝PPM(M_{4_5})

所述PPM模块为金字塔池化模块。

4.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法，其特征在于：所述步骤二具体包括：

利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络，

X₂＝Downsampling(X₁)

进行中分辨率分支特征提取网络的输入，输出特征M_{2_3}，与低分辨率分支的输出特征M_{4_3}进行特征融合，使得较高分辨率的表示可以接收较低分辨率的表示信息，如下：

M_{2_1}＝Conv_sub(X₂)

M_{2_i+1}＝resnet_layer_i(M_{2_i})

M_{2_3}＝Conv_s2(M_{2_3}⊕Upsampling(M_{4_3}))

其中，i＝1,2；Conv_s2卷积块包括了3×3的卷积层，BN层和ReLU激活函数。

5.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法，其特征在于：所述步骤三中所述卷积块是由一个卷积层，一个批量归一化层和一个ReLU激活函数层组成。

6.根据权利要求5所述的一种基于深度学习的高分辨率图像显著性目标检测方法，其特征在于：所述步骤三具体包括：

进行高分辨率分支特征提取网络的输入，输出特征是M_{1_3}，与中分辨率分支的卷积网络第二层的输出特征进行拼接卷积操作，使较高分辨率的表示可以接收较低分辨率的表示信息，如下：

M_{1_i}＝Conv_ei(X₁)

M_{1_3}＝Conv_s1(M_{1_3}⊕M_{2_2})

其中i＝1,2,3；Conv_ei包括了3×3的卷积层，BN层和ReLU激活函数；Conv_s1包括了3×3的卷积层，BN层和ReLU激活函数。

7.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法，其特征在于：所述步骤四具体包括：

原图大小的预测图pred_16，具体如下：

M_{4_51}＝Upsampling(M_{4_5})

M_{4_52}＝BN(DilatedConv(M_{4_51}))

M_{2_31}＝BN(Conv(M_{2_3}))

M₂₄＝ReLU(SUM(M_{4_51}+M_{2_31}))

pred_16＝Sigmoid(Conv_cls(M₂₄))。

8.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法，其特征在于：所述步骤四具体包括：

原图大小的预测图pred_8，具体如下：

M_{4_51}＝Upsampling(M_{4_5})

M_{4_52}＝BN(DilatedConv(M_{4_51}))

M_{24_1}＝Upsampling(M₂₄)

M_{24_2}＝BN(DilatedConv(M_{24_1}))

M_{1_31}＝BN(Conv(M_{1_3}))

M₁₂₄＝ReLU(SUM(M_{4_52}+M_{24_2}+M_{1_31}))

pred_8＝Sigmoid(Conv_cls(M₁₂₄))

其中，Conv_cls层是一个1×1的卷积层。

9.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法，其特征在于：所述步骤五具体包括：

进行残差解码网络的输入，将特征M₁₂₄输入到解码网络中，用高分辨率分支上的各层输出特征分别进行残差连接，得到最终的预测图pred，具体如下

I₁＝M₁₂₄

I_i+1＝Upsampling(Conv_di(I_i⊕M_{1_j}))

pred＝Sigmoid(Conv_cls(Conv_d4(I₄)))

其中，(i,j)组分别为(1,3),(2,2),(3,1)，上采样率为2；Conv_dj(j＝1,2,3,4)包括了3×3的卷积层，BN层和ReLU激活函数。

10.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法，其特征在于：所述步骤六具体包括：

L_i＝BCE(pred_i,target_i)+IOU(pred_i,target_i)

Loss＝L₁+0.4＊L₂+0.4＊L₃

其中，i＝1,2,3，分别表示计算原图大小，

原图大小，

原图大小的预测图和真值图之间的损失。