CN116091524B

CN116091524B - 一种针对复杂背景中目标的检测与分割方法

Info

Publication number: CN116091524B
Application number: CN202310364445.7A
Authority: CN
Inventors: 王涛; 王坚; 王丽; 吴旭光
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-06-13
Anticipated expiration: 2043-04-07
Also published as: CN116091524A

Abstract

本发明公开了一种针对复杂背景中目标的检测与分割方法，包括如下步骤：S1、制作训练集与测试集；S2、构建检测分割初始模型；S3、输入数据集通过编码器提取特征信息；S4、输入提取的特征信息由双线性插值上采样和拼接组成的网络通过自上向下的解码方式生成预测特征；S5、输入提取的特征信息通过倒三角解码器生成预测特征；S6、将预测特征和预测特征通过特征交叉融合网络生成最终预测图；S7、输入数据集训练检测分割初始模型，得到检测分割最终模型，该方法主要由编码器、双线性插值上采样、拼接、倒三角解码器和特征交叉融合网络组成，通过对神经网络进行训练，得到最优参数，实现对目标的自动检测与分割。

Description

一种针对复杂背景中目标的检测与分割方法

技术领域

本发明涉及图像处理技术领域，具体指一种基于深度学习并针对复杂背景中目标的检测与分割方法。

背景技术

复杂背景中的目标指的是难以被肉眼或传统计算机视觉技术识别出来的目标。其中，背景可能包括树木、草丛、花园、城市街道等，而目标可以是人、车、建筑、装备或其他任何物体。这些目标采用包括颜色伪装、纹理伪装、形状伪装等独特的伪装技术，将其融入到周围环境中，与背景融为一体，使其自身难以被发现，以避免被侦测或识别。通常这种目标的检测与分割方法用于隐蔽军事行动、犯罪活动、情报收集等领域，也被广泛用于生物学和生态学研究中，以帮助科学家研究野生动物的行为和生存策略。

目标的检测和分割是图像处理、计算机视觉和机器学习等领域中的一个重要研究课题，其目的是让计算机像人一样识别和理解视觉场景中的目标物体。显著性目标是指在一张图片中与背景显著不同的目标物体。目前，研究者在显著性目标检测和分割领域已经取得了很大的成功，并取得了许多优秀的成果。然而，由于显著性目标与伪装目标之间的差异，显著性目标检测模型并不能完美地应用于复杂背景中目标的检测。针对该目标和背景高度相似的特点，通常需要采用更加复杂和精细的方法，例如纹理分析、形状分析、特征匹配等技术，来识别和检测伪装目标，但是计算复杂，效率低下，并且成功率也非常不乐观。

目前针对复杂背景中目标检测与分割的研究仍不成熟。现有的工作主要模仿人类视觉系统，将检测和分割分为定位和聚焦两个阶段。首先，定位模块会大致确定目标的位置，然后聚焦模块会进一步细化目标的边缘和细节特征。但是，目前的模型不能深入分析各种特征之间的差别，也不能深入分析伪装目标前景和背景的特征差异。因此，研究人员无法根据伪装目标的特征针对性地构建模型以获得最佳效果。

本发明重点分析复杂背景中目标的相似特征并进行交叉融合，针对多场景、多物体种类、多隐藏模式的目标，分析出前景与背景的差异特征，而后围绕特征的异同性开展检测与分割工作。

发明内容

针对现有技术中存在的不足，本发明提出一种针对复杂背景中目标的检测与分割方法，该方法主要由Res2Net-50编码器、双线性插值上采样、拼接、倒三角解码器和特征交叉融合网络组成，通过对神经网络进行训练，得到最优参数，实现对目标的自动检测与分割。

为了解决上述技术问题，本发明的技术方案为：

一种针对复杂背景中目标的检测与分割方法，包括如下步骤：

S1、获取COOD10K数据集，所述COOD10K数据集包括原图与真值图，并制作训练集与测试集；

S2、构建检测分割初始模型，所述检测分割初始模型包括Res2Net-50编码器、双线性插值上采样、拼接、倒三角解码器和特征交叉融合网络；

所述的Res2Net-50编码器的结构与ResNet50一致，由50个基本块组成，但在每个基本块单个残差块内构造分层的残差类连接，以更细粒度表示多尺度特征，并增加每个网络层的感受野范围，该模块可提取5层包含不同层级信息的特征；

所述的自上向下的解码方式，由双线性插值上采样操作和拼接组成，对高层信息使用双线性插值上采样操作扩大尺寸后，与其下一级特征进行拼接，并缩减通道数。本操作使用高级特征指导低级特征，以增强相似特征，减弱相异特征。

所述的倒三角解码器为聚合特征金字塔结构，由双线性插值上采样、逐元素相乘、拼接等组成，本模块用于融合高级特征与低级特征，以保持不同层级的语义信息一致性并跨层级拼接上下文信息，定位隐藏对象，生成粗糙预测图。

所述的特征交叉融合网络，主要由逐元素相乘与Sigmoid操作组成。使用预测特征

与预测特征

互相交叉指导验证，将验证结果拼接后输出最终预测图，以进一步细化特征信息得到精确的显著图。

S3、输入数据集通过Res2Net-50编码器提取特征信息；

S4、输入提取的特征信息由双线性插值上采样和拼接组成的网络通过自上向下的解码方式生成预测特征

；

S5、输入提取的特征信息通过由双线性插值上采样和拼接组成的倒三角解码器生成预测特征

；

S6、将预测特征

和预测特征

通过特征交叉融合网络生成最终预测图；

S7、输入数据集训练检测分割初始模型，得到检测分割最终模型。

作为优选，所述Res2Net-50编码器是以ResNet50为主干网络，并且在ResNet50中每个基本块单个残差块内构造分层的残差类连接。

作为优选，所述步骤S3中提取特征信息的方法为：导入数据集中的训练数据提取5层特征

，其中，

和

为低级语义特征，包括图像的纹理信息和颜色信息；

、

和

层为高级语义特征，包括图像的位置信息和上下文内容语义信息；使用Conv3+BN+Relu操作将每层特征的通道数均降至64通道。

作为优选，所述步骤S4中生成预测特征

的方法为：输入由步骤S3提取的特征信息，每一次操作时，对上一层特征进行双线性插值上采样，使其尺寸与下一层特征相同，然后采用拼接操作获取特征

，随后进行降通道操作，得到预测特征

。

作为优选，所述步骤S5中生成预测特征

的方法为：输入由步骤S3提取的特征信息，使用双线性插值上采样扩大高级语义特征的尺寸，使其与下一级特征具有相同的尺寸，然后将两级特征进行逐元素相乘并与高级语义特征进行拼接，生成位置图，重复上述步骤得到多个位置图，多个位置图两两进行逐元素相乘，得到预测特征

。

具体的说，本模块共有3个输入，分别为

、

和

。首先对

使用双线性插值上采样操作，将其尺寸放大一倍，然后与

逐元素相乘，然后与上一层级信息进行拼接操作，得到

。对

和

使用同样的操作，得到

。最后对

与

进行逐元素相乘，得到预测特征

。

作为优选，所述步骤S6的具体方法为：将预测特征

和

进过Sigmoid操作，映射至0-1区间，经过交叉融合，进一步强化细节特征，然后使用拼接操作得到最终预测图

。

作为优选，所述步骤S7的具体方法：在训练过程中，使用Conv1的卷积层将中间特征

的通道数降为1，随后进行Sigmoid操作，生成中间预测图，监督中间预测图和最终预测图

的输出。

作为优选，所述监督的方法为：通过双线性插值上采样放大结果，使其输出的尺寸大小与输入图片相同，然后通过Sigmoid操作将预测图的数值输出映射到0-1，通过比较最终预测图和真值图的差异即损失值，观察损失值之和是否收敛来判断网络的训练过程。

本发明具有以下的特点和有益效果：

结合残差网络、双线性插值上采样和交叉融合等操作，使深度学习网络尽可能的准确识别并分割出复杂背景下的目标，又减轻了网络的训练负担。

Res2Net-50编码器在每个残差块的内部构建特征金字塔结构，进行多尺度的卷积，形成不同感受野，获得不同细粒度的5层特征。通过自上向下的解码方式，利用高级特征逐步指导细化低级特征，以增强相似特征，减弱相异特征。利用倒三角解码器融合高级特征与低级特征，保持不同层级的语义信息一致性并跨层级拼接上下文信息，定位隐藏对象，生成粗糙的预测图。

最后使用特征交叉融合解码器，进一步强化细节特征，生成最终准确的预测图。优异的网络结构，配合严谨的模型训练过程，可得到最优参数，进一步提升了目标预测的准确率。

另外，与已有公开发明相比，本发明具有网络结构简单明了，训练速度快等优点，并且本发明适用于多种复杂场景下的目标，对难以察觉的目标有着更好的观察效果。本发明结构简单，工程部署更为便利。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种针对复杂背景中目标的检测与分割方法的神经网络模型结构图。

图2为本发明实施例中倒三角解码器结构图。

图3为本发明实施例的测试效果图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

本发明提供了本发明提供了一种针对复杂背景中目标的检测与分割方法，如图1所示，包括如下步骤：

S2、构建针对复杂背景中目标检测与分割的模型；

所述模型包括Res2Net-50编码器、双线性插值上采样、拼接、倒三角解码器和特征交叉融合网络；

具体的，所述的Res2Net-50编码器的结构与ResNet50一致，由50个基本块组成，但在每个基本块单个残差块内构造分层的残差类连接，以更细粒度表示多尺度特征，并增加每个网络层的感受野范围，该模块可提取5层包含不同层级信息的特征。

如图2所示，所述的自上向下的解码方式，由双线性插值上采样操作和拼接组成，对高层信息使用双线性插值上采样操作扩大尺寸后，与其下一级特征进行拼接，并缩减通道数。本操作使用高级特征指导低级特征，以增强相似特征，减弱相异特征。

与预测特征

S3、通过编码器部分提取特征信息；

具体的，利用Res2Net-50编码器，导入数据集中预训练数据提取5层特征

，

和

为低级语义特征，包括图像的纹理、颜色等信息，

、

和

层为高级语义特征，包括图像的位置、上下文内容等语义信息。

具体的，本实施例中，输入图像尺寸为352×352，输出信息尺寸分别为原图像的1/2、1/2、1/4、1/8和1/16，即176×176、176×176、88×88、44×44和22×22，通道数分别为64、256、512、1024和2048，使用Conv3+BN+Relu操作将每层特征的通道数均降至64通道，分别标注为

。

S4、通过自上向下的解码方式生成预测特征

；

具体的，每一次操作时，对上一层特征进行双线性插值上采样，使其尺寸与下一层特征相同，然后采用拼接操作获取特征

，随后使用Conv3+BN+Relu进行降通道操作。

本实施例中，对于特征

，其尺寸为22×22，而特征

的尺寸为44×44。因此本发明使用双线性插值上采样，将特征

的尺寸扩大为44×44，后采用拼接操作，并使用Conv3+BN+Relu将通道数降为64得到特征

。同理，使用双线性插值上采样放大特征

，并与特征

进行拼接，并使用Conv3+BN+Relu将通道数降为64得到特征

。由于特征

与特征

之间具有相同的尺寸，在这一部分本发明不采用双线性插值上采样操作。本步骤使用高级特征逐步指导细化低级特征，以增强相似特征，减弱相异特征，以获得粗糙的预测特征

，其尺寸为176×176，通道数为64。本步骤融合细节特征，提高检测精度。

S5、通过倒三角解码器模块生成预测特征

；

具体的，本模块并使用双线性插值上采样扩大高级特征的尺寸，使其与下一级特征具有相同的尺寸，然后将两级特征进行逐元素相乘并与高级特征进行拼接，用于不同层级内的语义一致性并跨层级拼接上下文信息，定位隐藏对象，生成粗糙的位置图。

本实施例中，共有3个输入，分别为

、

和

。其中特征

的尺寸为44×44，其中特征

的尺寸为88×88，其中特征

的尺寸为176×176，三个特征均为64通道。首先对

使用双线性插值上采样操作，将其尺寸放大为88×88，然后与

进行逐元素相乘操作，并拼接经过上采样后的特征

，然后经过Conv3+BN+Relu操作将通道数降为64，得到

，其尺寸为88×88。同理，对

和

执行同样的操作，得到

，其尺寸为176×176，通道数为64。最后使用双线性插值上采样将

的尺寸放大至176×176，并与

进行逐元素相乘，使用Conv3+BN+Relu操作将通道数降为64，得到预测特征

，其尺寸为176×176。公式如下：

倒三角解码器：

，

其中CBR(‧)表示Conv3+BN+Relu操作，

表示双线性插值上采样2倍操作，Cat(‧)表示拼接操作，

表示逐元素相乘操作。

S6、通过特征交叉融合网络生成精确的最终预测图

具体的，将预测特征

和

进过Sigmoid操作，映射至0-1区间后，经过交叉融合，进一步强化细节特征。

本实施例中，对预测特征

使用Sigmoid操作得到的张量与预测特征

逐元素相乘，得到特征

，其尺寸为176×176，通道数为64。同理，对预测特征

使用Sigmoid操作得到的张量与预测特征

逐元素相乘，得到特征

，其尺寸为176×176，通道数为64。然后，将特征

与特征

拼接，随后是Conv3+BN+Relu降通道操作，得到最终的结果

，其尺寸为176×176，通道数为1，此为本神经网络的最终输出，公式如下：

特征交叉融合网络：

，

其中CBR(‧)表示Conv3+BN+Relu操作，

表示逐元素相乘操作，Cat(‧)表示拼接操作。

S7、训练构建好的针对复杂背景中目标检测与分割的模型

具体的，训练过程中，使用Conv1的卷积层将中间特征

的通道数降为1，随后进行Sigmoid操作，生成中间预测图，监督如附图1所示位置的中间预测图和最终预测图

的输出。对需要监督的部分，通过双线性插值上采样放大结果，使其输出的尺寸大小为352×352，与输入图片相同。然后通过Sigmoid运算将预测图的数值输出映射到0-1。通过比较预测图和真值图的差异，观察六个损失值之和是否收敛来判断网络的训练过程。

其中，预测图与GT图的差异对比采用BCE损失和SSIM损失计算。

其中，所述步骤S7中输入数据的尺寸统一调整为352×352×3，批处理大小设置为16，在训练过程中利用Adam优化器对模型参数进行更新操作，初始学习率设置为1e-3。

上述技术方案中，结合使用BCE损失和SSIM损失，SSIM损失度量区块级损失，考虑了每个像素的局部邻域，对细节有很好的监督作用。BCE是交叉熵损失，侧重于像素级，有助于网络收敛。SSIM损失考虑每个像素点的局部临近区域，对边界具有较好的监督作用。每张位置图的损失值为

，本训练过程中，通过观测6个损失值的和

是否收敛来判断网络的训练过程，若其值收敛，则此网络训练完成。

本发明重点分析复杂背景中目标的相似特征并进行交叉融合，针对多场景、多物体种类、多隐藏模式的目标，分析出前景与背景的差异特征，而后围绕特征的异同性开展检测与分割工作。本发明主要是采用自上向下的解码方式，同时采用特征交叉融合模块补充遗漏的细节信息。具体的说，当一张图片经过编码器提取特征后，其可提取出5层特征，分别为低级特征和高级特征，其中低级特征主要包括空间细节信息（如边缘信息、纹理信息等），高级特征主要包括语义信息（如位置信息等）。本发明首先采用双线性插值上采样、拼接等操作方法，利用高层语义信息指导低层语义信息，在这过程中，逐步增强高级特征与低级特征的相似特征，并检索相异特征，得到预测特征

。同时，使用倒三角解码器，同时将高级特征与低级特征进行解码输出，得到预测特征

。最后，使用特征交叉融合模块，充分挖掘预测特征

与预测特征

的相似特征，进一步细化边缘纹理信息，提高模型的检测精度与范围。

相比现有技术而言，结构更加简单，特征提取所占用内存小，大大提高了目标检测和分割的效率，同时，该方法对检测精度有明显的提升。

针对复杂背景中目标检测与分割的方法的意义不仅体现在学术研究中，还可以与现实生活相结合，具有实际工程应用价值。例如，可应用于在医学领域中病变部位的息肉也检测，区分并分割息肉与感染病灶。在农学领域的病害虫检测，以实现害虫控制。军事领域可用于伪装和隐藏士兵和军事设备的检测，以保护士兵安全，取得战场主动权。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式包括部件进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。