CN115019068A

CN115019068A - 一种基于编解码架构的渐进式显著目标识别方法

Info

Publication number: CN115019068A
Application number: CN202210580683.7A
Authority: CN
Inventors: 周晓飞; 王灵波; 张继勇; 李世锋; 周振; 何帆; 颜成钢
Original assignee: China Power Data Service Co ltd; Hangzhou Dianzi University
Current assignee: China Power Data Service Co ltd; Hangzhou Dianzi University
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-09-06
Anticipated expiration: 2042-05-26
Also published as: CN115019068B

Abstract

本发明公开了一种基于编解码架构的渐进式显著目标识别方法，包括如下步骤：S1、图像数据预处理，并将预处理后的图像数据制作成训练集；S2、搭建目标识别网络并获取精确显著图像；S3、训练集中的图像数据输入至目标识别网络并训练。本发明通过在网络编码过程、解码过程中采用不同的渐进融合方式，有效减少了层间、尤其是间隔层之间的噪声污染保证了多尺度特征信息的有效利用，另外，通过渐进式连接方法取代传统模型中的简单跳跃连接、长连接，在保证多尺度特征信息能有效传递的同时，对不同特征层间的噪声信息进行筛除、提纯，使得伪装图像的显著目标检测模型性能得到巨大提升。

Description

一种基于编解码架构的渐进式显著目标识别方法

技术领域

本发明属于计算机视觉领域，涉及显著目标检测、伪装图像检测领域。具体指一种基于编解码架构的渐进式显著目标识别方法。

背景技术

随着深度学习、神经网络的飞速发展，计算机视觉领域实现了前所未有的跨越。目标检测作为计算机视觉领域一个经典大类，收到了广泛的研究和关注。伪装图像的显著目标检测作为目标检测，尤其是显著目标检测任务中的一类，拥有巨大的研究价值。

参考人类视觉行为模式，显著性物体检测的目标是从图像中定位最有吸引力和视觉上独特的物体或区域，传统的显著性物体检测模型已经大量应用于图像分割、目标重定位、目标图像前景注释等领域。具体的，由于伪装图像的特性，该任务模型可以广泛应用于动植物研究、医学图像处理、军事任务等多个领域。在伪装图像中，显著性物体就是图像中的拟态动物，包括水生动物如鱼类、虾蟹，陆生动物如昆虫、鹿、变色龙等，两栖类或爬行类动物如鳄鱼、蛇等。图像目标具有图像前景与背景几何相似度较高、图像对比度低、前景轮廓复杂等特点，对现有显著目标检测模型形成了较大挑战。

尤其，在医学图像任务、军事伪装任务等领域具有较强的应用能力，伪装图像的显著目标检测任务也渐渐为学者所重视。伪装图像的显著目标检测也从最初的手工特征提取演化至现在的深度学习方法。

在实际运用中，发现现有的基于深度学习的伪装图像显著目标检测模型在处理伪装图像时大多直接沿用自然场景显著目标检测模型，模型中大量的跳跃连接、长连接使得模型各个特征层间的噪声信息随着特征信息的融合传播而不断富集，模型很难得到较为洁净的检测结果。

发明内容

本发明根据现有技术的不足，提出一种基于编解码架构的渐进式显著目标识别方法，使得伪装图像的显著目标检测模型性能得到巨大提升。

为了解决上述技术问题，本发明的技术方案为：

一种基于编解码架构的渐进式显著目标识别方法，包括如下步骤：

S1、图像数据预处理，并将预处理后的图像数据制作成训练集；

S2、搭建目标识别网络并获取精确显著图像

S2-1、搭建编码网络、渐进融合模块、感受野块和解码网络，其中，编码网络采用ResNet-34作为主干网络，所述编码网络的第一层，输入的图像数据不经过池化操作直接输入至编码网络，

S2-2、将编码网络与3个结构相同的渐进融合模块进行连接，并通过渐进融合模块获取图像数据的特征信息，

S2-3、3个渐进融合模块处理后得到的图像特征分别输入3个感受野块，

S2-4、通过解码网络对经感受野块处理的特征信息进行解码，输出精确显著图像；

S3、训练集中的图像数据输入至目标识别网络并训练。

作为优选，所述图像数据的预处理方法为：对有明显噪声影响的图像数据进行筛除，对数据集中不同图像类别进行分类，分类的类别包括伪装目标类、非伪装目标类以及背景图像。

作为优选，所述ResNet-34包括5个编码块，5个所述编码块中的任意三个组成一组分别输入至渐进融合模块。

作为优选，所述渐进融合模块整体为残差结构，所述渐进融合模块包括初卷积块、适应卷积块、挖掘卷积块和输出卷积块，所述初卷积块、适应卷积块、挖掘卷积块和输出卷积块(各卷积块命名为表述方便起见命名，与附图中描述对应)均由3个3×3卷积、批标准化、ReLU激活函数复合层构成。

作为优选，所述渐进融合模块获取图像数据的特征信息的方法为：

通过初卷积块进一步提取对应编码块的特征信息；

通过适应卷积块调整各支路的特征信息的尺度使得各支路特征信息能够实现元素级相加后输入对应的挖掘卷积块中；

通过挖掘卷积块对调整后的不同尺度特征信息进行进一步挖掘；

通过输出卷积块调整使得渐进融合模块输出的特征尺度与中间层的编码块输入特征相同。

作为优选，所述解码网络包络部分解码块和渐进解码块，所述渐进解码块包括Convblock₁卷积块、Convblock₂卷积块、Convblock₃卷积块，其均有3个3×3卷积、批标准化、ReLU激活函数复合层构成。

作为优选，所述解码网络的解码方法为：

通过部分解码块对3条感受野块的输出特征进行部分解码，从而获得粗糙的显著图片；

而后通过插片操作后，将粗糙的显著图片进行复制，增加其通道数，与对应感受野块的输出特征进行连接，复制的通道数与该感受野块输出特征通道数相同；

送入对应的卷积块输出最终的精确显著图片。

作为优选，所述解码网络还包括多级监督模块，用于对部分解码块的输出、渐进解码块的输出加以监督。

作为优选，所述多级监督模块采用BCE、IoU、SSIM混合损失函数进行监督。

作为优选，所述目标识别网络的训练方法为：Adam优化器，学习率设置为0.001，beta＝(0.9,0.999),eps＝1e-8,weight_decay＝0，并且输入图像resize为256*256，epoch设置为400，batch size为8。

本发明具有以下的特点和有益效果：

本发明针对基于深度学习的伪装图像任务在特征提取、融合过程中噪声信息严重、多尺度特征信息间语义冲突较大等问题设计了一种基于编解码架构的渐进式显著目标识别方法，通过在网络编码过程、解码过程中采用不同的渐进融合方式，有效减少了层间、尤其是间隔层之间的噪声污染保证了多尺度特征信息的有效利用，另外，通过渐进式连接方法取代传统模型中的简单跳跃连接、长连接，在保证多尺度特征信息能有效传递的同时，对不同特征层间的噪声信息进行筛除、提纯，使得伪装图像的显著目标检测模型性能得到巨大提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中整体网络结构图。

图2本发明实施例中渐进融合模块结构图。

图3本发明实施例中感受野块结构图。

图4本发明实施例中模型与其他模型视觉比较显著图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明提供了一种基于编解码架构的渐进式显著目标识别方法，包括如下步骤：

S1、图像数据预处理，并将预处理后的图像数据制作成训练集，

具体的，所述图像数据的预处理方法为：对噪声明显的图像数据进行筛除，对数据集中不同图像类别进行分类，分类的类别包括伪装目标类、非伪装目标类以及背景图像。

需要说明的是，图像数据来自于COD1OK。

S2、搭建目标识别网络并获取精确显著图像

具体的，如图1-图3所示，

S2-3、3个渐进融合模块处理后得到的图像数据的特征信息分别输入3个感受野块，

可以理解的，通过感受野块增大网络感受野，获得更丰富的全局信息，对于每个支路，其结构相同如图3所示。

其中，所述ResNet-34包括5个编码块，5个所述编码块中的任意三个组成一组分别输入至渐进融合模块。其中5个编码块分别为Encoder₁、Encoder₂、Encoder₃、Encoder₄、Encoder₅。

具体的，如图2所示，所述渐进融合模块整体为残差结构，所述渐进融合模块包括初卷积块、适应卷积块、挖掘卷积块和输出卷积块，所述初卷积块、适应卷积块、挖掘卷积块和输出卷积块均由3个3×3卷积、批标准化、ReLU激活函数复合层构成。

具体的，包括3个初卷积块、3个适应卷积块、3个挖掘卷积块和1个输出卷积块。

其中，所述渐进融合模块获取图像数据的特征信息的方法为：

通过初卷积块进一步提取对应编码块的特征信息；

需要说明的是，中间层对编码块的限定，具体指说明书附图1中Encoder₃，三个输入特征中选择中间的编码块输入特征尺寸大小作为标准，而非新命名的编码块。

进一步的，所述解码网络包络部分解码块和渐进解码块，所述渐进解码块包括Convblock₁卷积块、Convblock₂卷积块、Convblock₃卷积块，其均有3个3×3卷积、批标准化、ReLU激活函数复合层构成。

进一步的，所述解码网络的解码方法为：

送入对应的卷积块输出最终的精确显著图片。

可以理解的，通过解码网络的设置，提取的特征在解码过程中不受污染，从而提高了显著图像的精度。

进一步的，所述解码网络还包括多级监督模块，用于对部分解码块的输出、渐进解码块的输出加以监督。

其中，所述多级监督模块采用BCE、IoU、SSIM混合损失函数进行监督。

具体的，混合损失函数如下：

l＝l_bce+1_ssim+l_i0u

其中G(x,y),T(x,y)分别为ground truth和预测结果在各个位置的数值。参数解释，μ和σ分别为均值和标准差，H,W为图片的高和宽，C1＝0.01²，C2＝0.03²，用于防止分母为零。

S3、训练集中的图像数据输入至目标识别网络并训练。

具体的，所述目标识别网络的训练方法为：Adam优化器，学习率设置为0.001，beta＝(0.9,0.999),eps＝1e-8,weight_decay＝0，并且将输入图像resize为256*256，epoch设置为400，batch size为8。

如图4所示，通过视觉比较图可以看出，通过本实施例提供的基于编解码架构的渐进式显著目标识别方法，在图像前景的辨识、前进目标的细节分割上均取得领先。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式包括部件进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于编解码架构的渐进式显著目标识别方法，其特征在于，包括如下步骤：

S2、搭建目标识别网络并获取精确显著图像

S3、训练集中的图像数据输入至目标识别网络并训练。

2.根据权利要求1所述的基于编解码架构的渐进式显著目标识别方法，其特征在于，所述图像数据的预处理方法为：对噪声明显的图像数据进行筛除，对数据集中不同图像类别进行分类，分类的类别包括伪装目标类、非伪装目标类以及背景图像。

3.根据权利要求1所述的基于编解码架构的渐进式显著目标识别方法，其特征在于，所述ResNet-34包括5个编码块，5个所述编码块中的任意三个组成一组分别输入至渐进融合模块。

4.根据权利要求3所述的基于编解码架构的渐进式显著目标识别方法，其特征在于，所述渐进融合模块整体为残差结构，所述渐进融合模块包括初卷积块、适应卷积块、挖掘卷积块和输出卷积块，所述初卷积块、适应卷积块、挖掘卷积块和输出卷积块均由3个3×3卷积、批标准化、ReLU激活函数复合层构成。

5.根据权利要求4所述的基于编解码架构的渐进式显著目标识别方法，其特征在于，所述渐进融合模块获取图像数据的特征信息的方法为：

通过初卷积块进一步提取对应编码块的特征信息；

6.根据权利要求1所述的基于编解码架构的渐进式显著目标识别方法，其特征在于，所述解码网络包络部分解码块和渐进解码块，所述渐进解码块包括Convblock₁卷积块、Convblock₂卷积块、Convblock₃卷积块，其均有3个3×3卷积、批标准化、ReLU激活函数复合层构成。

7.根据权利要求6所述的基于编解码架构的渐进式显著目标识别方法，其特征在于，所述解码网络的解码方法为：

送入对应的卷积块输出最终的精确显著图片。

8.根据权利要求7所述的基于编解码架构的渐进式显著目标识别方法，其特征在于，所述解码网络还包括多级监督模块，用于对部分解码块的输出、渐进解码块的输出加以监督。

9.根据权利要求8所述的基于编解码架构的渐进式显著目标识别方法，其特征在于，所述多级监督模块采用BCE、IoU、SSIM混合损失函数进行监督。

10.根据权利要求1-9任意一项所述的基于编解码架构的渐进式显著目标识别方法，其特征在于，所述目标识别网络的训练方法为：Adam优化器，学习率设置为0.001，beta＝(0.9,0.999),eps＝1e-8,weight_decay＝0，并且输入图像resize为256*256，epoch设置为400，batch size为8。