CN114627299B

CN114627299B - 一种模仿人类视觉系统对伪装目标检测与分割方法

Info

Publication number: CN114627299B
Application number: CN202210420891.0A
Authority: CN
Inventors: 周晓飞; 王涛; 张继勇; 李世峰
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2023-10-27
Anticipated expiration: 2042-04-21
Also published as: CN114627299A

Abstract

本发明公开了一种模仿人类视觉系统对伪装目标检测与分割方法，该包括如下步骤：S1、制作预训练数据集；S2、构建基于模仿人类视觉系统对伪装目标检测与分割的模型，所述模型包括编码器模块、桥接模块、邻域连接解码器模块和部分解码器模块；S3、通过编码器模块提取显著性信息；S4、通过桥接模块扩大全局感受野；S5、通过领域连接解码器模块生成粗糙位置图；S6、通过部分解码器模块生成精确的位置图；S7、训练构建好的基于模仿人类视觉系统对伪装目标检测与分割模型。方法主要由编码器模块，桥接模块，邻域连接解码器模块和部分解码器模块组成，通过对神经网络进行训练，得到最优参数，实现对伪装目标的自动检测与分割。

Description

一种模仿人类视觉系统对伪装目标检测与分割方法

技术领域

本发明涉及图像处理技术领域，具体指通过模仿人类视觉检测系统对复杂背景下的伪装目标进行检测与分割的方法。

背景技术

伪装是指动物或物体通过改变其自身颜色、纹理等手段，与周围环境达到完美的融合，使自身难以被发现，生物学家将这类伪装称为背景匹配。研究表明，这种伪装主要是通过欺骗观察者的视觉感知系统，达到伪装的目地，因此利用人工智能对伪装物体进行检测与分割需要大量的视觉感知知识。

伪装目标检测与分割是计算机视觉、图像处理与模式识别的重要研究课题，这是一种新兴的视觉检测任务，其主要目的是通过检测系统对复杂背景下的伪装目标进行定位和识别，获取目标的位置及特征，并将其与背景进行分割，从而进行高层次任务的开展。由于物体与背景之间具有高度的相似性，所以伪装目标检测与分割远比传统的显著物体检测更具挑战性。深度学习凭借其强大的学习能力，近年来越来越受到研究人员的青睐，基于深度学习对伪装目标检测与分割的研究，在计算机视觉邻域也受到越来越多的关注，研究者已经成功探索出一些伪装目标检测与分割模型。

但目前为止，针对带有伪装目标检测开展的工作尚未成熟，由于伪装目标与背景具有过于相似的特性，传统的目标检测与分割方法由于其局限性，不能提高检测精度和准确度，不能简单适用于解决这类问题，因此本发明主要针对伪装目标开展工作。

目前为止，已公开专利《基于信息挖掘的伪装目标图像分割方法》所使用的方法为PFNet，其主要由Resnet50特征提取模块，定位模块和聚焦模块组成，首先通过定位模块初步确定伪装目标位置，通过聚焦模块逐步去除干扰信息，最终确定伪装目标的边界。PFNet将定位与聚焦功能分为两部分，结构较为复杂，且由于使用Resnet50进行特征提取，所占用内存较大，同时，该方法对边缘处理的精细程度达不到较理想的效果。

发明内容

针对现有技术中存在的不足，本发明提出一种模仿人类视觉系统对伪装目标检测与分割方法，该方法主要由编码器模块，桥接模块，邻域连接解码器模块和部分解码器模块组成，通过对神经网络进行训练，得到最优参数，实现对伪装目标的自动检测与分割。

为了解决上述技术问题，本发明的技术方案为：

一种模仿人类视觉系统对伪装目标检测与分割方法，包括如下步骤：

S1、制作预训练数据集；

S2、构建基于模仿人类视觉系统对伪装目标检测与分割的模型，所述模型包括编码器模块、桥接模块、邻域连接解码器模块和部分解码器模块；

S3、通过编码器模块提取显著性信息；

S4、通过桥接模块扩大全局感受野；

S5、通过邻域连接解码器模块生成粗糙位置图；

S6、通过部分解码器模块生成精确的位置图；

S7、训练构建好的基于模仿人类视觉系统对伪装目标检测与分割模型。

作为优选，所述编码器模块包括34个基本块，每个所述基本块包括一个残差支路和短接支路，所述桥接模块包括3层基础层，每一层所述基础层由3×3的膨胀卷积层、BN层和ReLU函数组成，所述邻域连接解码器为聚合特征金字塔结构，所述邻域连接解码器模块包括3×3的卷积层、BN层，所述部分解码器模块包括卷积层、BN层和ReLU激活函数，所述部分解码器模块的结构与邻域连接解码器结构类似，为聚合特征金字塔结构。

作为优选，所述步骤S3的具体方法：使用预训练数据提取5层特征f_i(i＝1,2,3,4,5)，f₁和f₂为低级语义特征，包括图像的颜色、亮度，f₃、f₄和f₅层为高级语义特征，包括图像的纹理、位置、上下文内容。

作为优选，所述步骤S4的具体方法：仅对步骤S3提取的f₃,f₄,f₅层特征进行桥接处理，通过模仿人眼的全局观测能力，着重观察全局信息，得到f'₃,f'₄,f'₅，以进一步扩大模型对该3层全局感受野。

作为优选，所述步骤S5的具体方法：模仿人眼对f'₃,f'₄,f'₅3个信息进行初步处理，其具体操作为将高级特征与低级特征逐层进行逐元素相乘并拼接，用于保持层内的语义一致性并跨层拼接上下文信息，定位隐藏对象，生成粗糙的位置图。

作为优选，所述步骤S6的具体方法：将输出的粗糙位置图通过部分解码器模块逐元素相乘并与上层特征进行拼接处理，其目的是使得特征更加聚焦伪装目标区域。

作为优选，所述步骤S7的具体方法：训练过程中，分别对由编码器模块、桥接模块、邻域连接解码器模块和部分解码器模块得到的结果进行监督，将结果通过双线性插值上采样进行放大，使其与输入数据具有相同的尺寸，后经过sigmoid函数将结果映射至0-1，得到预测图，通过对比预测图与GT图的差异，观测4个损失值的和是否收敛来判断网络的训练过程。

作为优选，所述步骤S3中，使用由34个基本块组成的编码器，导入预训练数据，提取5层特征f_i(i＝1,2,3,4,5)，各层特征之间以最大池化的下采样连接，输出信息尺寸分别为原图像的1/1，1/2，1/4，1/8和1/16，通道数分别为64,128,256,512,512。

作为优选，所述步骤S7中输入数据的尺寸统一调整为224×224×3，批处理大小设置为8，在训练过程中利用Adam优化器对模型参数进行更新操作，初始学习率设置为1e-3。

本发明具有以下的特点和有益效果：

采用上述技术方案，结合了残差网络可以尽可能多的提取特征信息，又避免因为网络层数增加产生的梯度消失或爆炸等问题的优点，通过桥接模块扩大感受野，获取特征的全局信息，并将全局特征与原特征及上层特征进行解码，用于保持层内的语义一致性并跨层拼接上下文信息，提升了网络精度，具有使第一层解码结果更加精确的优点，以生成粗糙的位置图。最后将3个不同的解码结果通过部分解码器，细化特征，获取最终预测图。灵活的网络结构配合深监督，让参数量巨大的深度网络在可接受的精度范围内大幅度的缩减参数量，并得到较优的显著图。同时，与PFNet相比，本发明具有结构简单，训练速度快等优点，本发明对伪装目标的边缘处理更为精细，产生更好的效果。同时本发明构建的仿生模型，易于为工程实际应用人员理解，以便更快更好的进行工程部署。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的网络方法图。

图2为聚合特征金字塔结构。

图3为本发明的测试效果图及与PFNet效果对比。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

本发明提供了一种模仿人类视觉系统对伪装目标检测与分割方法，如图1所示，包括如下步骤：

S1、制作预训练数据集；

S2、构建基于模仿人类视觉系统对伪装目标检测与分割的模型

所述模型包括编码器模块、桥接模块、邻域连接解码器模块和部分解码器模块；

具体的，所述编码器模块包括34个基本块，每个所述基本块包括一个残差支路和短接支路，用于传递低层的信息并编码生成高层信息，该模块可提取5层包含不同层级信息的特征；

所述桥接模块包括3层基础层，每一层所述基础层由3×3的膨胀卷积层、BN层和ReLU函数组成，用于进一步扩大全局感受野，获取全局信息。

如图2所示，所述邻域连接解码器为聚合特征金字塔结构，所述邻域连接解码器模块包括上采样、3×3的卷积层、BN层和拼接，通过模仿人眼，用于保持层内的语义一致性并跨层拼接上下文信息，定位隐藏对象，生成粗糙的预测图。

所述部分解码器模块包括卷积层、BN层和ReLU激活函数，所述部分解码器模块的结构与邻域连接解码器结构类似，为聚合特征金字塔结构。其由在邻域解码器的BN层之后添加ReLU层修改而来，ReLU层可以引入非线性因素，减少参数之间相互依存关系，缓解模型的过拟合。本模块主要用于将来自三个邻域连接解码器输出的预测图进行特征融合，细化特征信息得到精确的显著图。

S3、通过编码器模块提取显著性信息

所述步骤S3的具体方法：使用预训练数据提取5层特征f_i(i＝1,2,3,4,5)，f₁和f₂为低级语义特征，包括图像的颜色、亮度，f₃、f₄和f₅层为高级语义特征，包括图像的纹理、位置、上下文内容。

具体的，使用由34个基本块组成的编码器，导入预训练数据，提取5层特征f_i(i＝1,2,3,4,5)，各层特征之间以最大池化的下采样连接，输出信息尺寸分别为原图像的1/1，1/2，1/4，1/8和1/16，通道数分别为64,128,256,512,512。

S4、通过桥接模块扩大全局感受野

另外，所述步骤S4的具体方法：仅对步骤S3提取的f₃,f₄,f₅层特征进行桥接处理，通过模仿人眼的全局观测能力，着重观察全局信息，得到f'₃,f'₄,f'₅，以进一步扩大模型对该3层的全局感受野。

可以理解的，由于编码器模块提取的前2层为低级语义特征，包含较多冗余信息，因此本桥接模块仅对编码器提取的f₃,f₄,f₅层特征进行桥接处理，通过模仿人眼的全局观测能力，着重观察全局信息，因此本发明仅对编码器模块提取的f₃,f₄,f₅层特征进行桥接处理，得到f'₃,f'₄,f'₅，进过桥接处理过的特征与原特征保持相同的尺寸，通道数统一降为128，即f'₃,f'₄,f'₅的图片尺寸为56×56，28×28，14×14，通道数为128,128,128，以进一步扩大模型对该3层全局感受野，提高分类精度。

S5、通过领域连接解码器模块生成粗糙位置图

进一步的，所述步骤S5的具体方法：模仿人眼对f'₃,f'₄,f'₅3个信息进行初步处理，其具体操作为将高级特征与低级特征逐层进行逐元素相乘并拼接，用于保持层内的语义一致性并跨层拼接上下文信息，定位隐藏对象，生成粗糙的位置图。

具体的说，以最后一个邻域解码器模块为例，共有3个输入，将f₅与f'₅逐元素相乘得到的结果与f₅拼接得到其尺寸为14×14，将f₅、f'₅和f₄逐元素相乘得到的结果/>与拼接处理得到最终的结果/>其尺寸为28×28，即为邻域连接解码器的最终输出。本步骤共输出粗糙的3张位置图l₁,l₂,l₃，公式如下：

邻域连接解码器模块：

其中BC(·)表示一个3×3的卷积层，然后是批量归一化操作，δ_↑(·)表示上采样。

S6、通过部分解码器模块生成精确的位置图

所述步骤S6的具体方法：

将3个邻域连接解码器模块输出的粗糙位置图，即将l₁,l₂,l₃通过部分解码器逐元素相乘并与上层特征进行拼接处理，进而进一步细化特征，生成精确的位置图。

具体的，将l₃与l₂逐元素相乘得到的结果与l₃拼接得到l'₂，其尺寸为28×28，将l₃、l₂和l₁逐元素相乘得到的结果与l₁拼接处理得到最终的结果d₁，其尺寸为56×56，即为邻域连接解码器的最终输出，公式如下：

部分解码器：

其中BCR(·)表示一个3×3的卷积层，然后是批量归一化与ReLU激活函数，δ_↑(·)表示上采样。

S7、训练构建好的基于模仿人类视觉系统对伪装目标检测与分割模型

具体的，所述步骤S7的具体方法：训练过程中，分别对由编码器模块、桥接模块、邻域连接解码器模块和部分解码器模块得到的结果进行监督，将结果通过双线性插值上采样进行放大，使其与输入数据具有相同的尺寸，后经过sigmoid函数将结果映射至0-1，得到预测图，通过对比预测图与GT图的差异，观测4个损失值的和是否收敛来判断网络的训练过程。

其中，预测图与GT图的差异对比采用BCE损失和SSIM损失计算。

其中，所述步骤S7中输入数据的尺寸统一调整为224×224×3，批处理大小设置为8，在训练过程中利用Adam优化器对模型参数进行更新操作，初始学习率设置为1e-3。

上述技术方案中，结合使用BCE损失和SSIM损失，BCE损失为交叉熵损失，侧重于像素层面，有助于网络收敛。SSIM损失是一个区块级损失的测度，其考虑每个像素点的局部临近区域，对边界具有较好的监督作用。每张位置图的损失值为本训练过程中，通过观测4个损失值的和/>是否收敛来判断网络的训练过程，若其值收敛，则此网络训练完成。

本发明重点围绕伪装目标的特征进行研究，分析出前景与背景的差异特征，而后围绕特征的差异性开展检测与分割工作，本发明主要目的是模仿人类视觉检测系统对复杂背景下的伪装目标进行定位和识别，具体的说，模仿人类观察伪装目标时，不同阶段会有不同的判断，即人类对目标观察的不同程度会有不同第一印象，以及再观察产生的第二印象，综合几次判断的结果得到最终的结论。具体的说，本发明的方法是通过编码器提取5层特征，此即第一印象，后使用3层桥接定位目标，此即第二印象，将同一层次的第一印象，第二印象与上一层次的第一印象一同进行解码处理，得到3个粗糙位置图。然后将3个粗糙位置图通过部分解码器进行最后解码处理，模仿人眼进行最终判断，得出目标的显著图。实验表明，如图3所示，由于本发明使用编码器进行特征提取，结合本发明特有的解码器结构，获得了比PFNet更好的效果，说明本发明所提出的结构，比PFNet更为优越，同时，本发明并未使用任何注意力机制，结构较简单，效果却较好，尤其是对边缘处理的精细程度，具有比PFNet更好的效果。

相比现有技术而言，结构更加简单，特征提取所占用内存小，大大提高了目标检测和分割的效率，同时，该方法对边缘处理的精细程度有明显的提升。

另外，由于其具有发现“无缝”嵌入其周围环境的伪装物体的能力，伪装目标检测与分割在军事、医学诊断、工业、农业、安全和监视、科学研究等不同邻域具有广泛的应用价值。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式包括部件进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种模仿人类视觉系统对伪装目标检测与分割方法，其特征在于，包括如下步骤：

S1、制作预训练数据集；

S2、构建基于模仿人类视觉系统对伪装目标检测与分割的模型，所述模型包括编码器模块、桥接模块、邻域连接解码器模块和部分解码器模块，

所述编码器模块包括34个基本块，每个所述基本块包括一个残差支路和短接支路，所述桥接模块包括3层基础层，每一层所述基础层由3×3的膨胀卷积层、BN层和ReLU函数组成，所述邻域连接解码器为聚合特征金字塔结构，所述邻域连接解码器模块包括上采样、3×3的卷积层、BN层和拼接，所述部分解码器模块包括卷积层、BN层和ReLU激活函数，所述部分解码器模块为聚合特征金字塔结构；

S3、通过编码器模块提取显著性信息，

使用预训练数据提取5层特征f_i(i＝1,2,3,4,5)，f₁和f₂为低级语义特征，包括图像的颜色、亮度，f₃、f₄和f₅层为高级语义特征，包括图像的纹理、位置、上下文内容；使用由34个基本块组成编码器，导入预训练数据，提取5层特征f_i(i＝1,2,3,4,5)，各层特征之间以最大池化的下采样连接，输出信息尺寸分别为原图像的1/1，1/2，1/4，1/8和1/16，通道数分别为64,128,256,512,512；

S4、通过桥接模块扩大全局感受野，

仅对步骤S3提取的f₃,f₄,f₅层特征进行桥接处理，通过模仿人眼的全局观测能力，着重观察全局信息，得到f₃',f₄',f₅'；

S5、通过邻域连接解码器模块生成粗糙位置图，

模仿人眼对f₃',f₄',f₅'3个信息进行初步处理，其具体操作是将高级特征与低级特征逐层进行逐元素相乘并拼接，用于保持层内的语义一致性并跨层拼接上下文信息，定位隐藏对象，生成粗糙的位置图；

S6、通过部分解码器模块生成精确的位置图，

将输出的粗糙位置图通过部分解码器模块逐元素相乘并与上层特征进行拼接处理

S7、训练构建好的基于模仿人类视觉系统对伪装目标检测与分割模型，

训练过程中，分别对由编码器模块、桥接模块、邻域连接解码器模块和部分解码器模块得到的结果进行监督，将结果通过双线性插值上采样进行放大，使其与输入数据具有相同的尺寸，后经过sigmoid函数将结果映射至0-1，得到预测图，通过对比预测图与GT图的差异，每张位置图的损失值为观测4个损失值的和是否收敛来判断网络的训练过程。

2.根据权利要求1所述的模仿人类视觉系统对伪装目标检测与分割方法，其特征在于，所述步骤S7中输入数据的尺寸统一调整为224×224×3，批处理大小设置为8，在训练过程中利用Adam优化器对模型参数进行更新操作，初始学习率设置为1e-3。