CN116452812A

CN116452812A - 一种伪装物体识别及语义分割方法

Info

Publication number: CN116452812A
Application number: CN202310548127.6A
Authority: CN
Inventors: 刘红霞; 刘星宇; 王祥泽
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-07-18

Abstract

本发明涉及图像数据处理技术领域，具体涉及一种伪装物体识别及语义分割方法，该方法包括：获取待检测区域对应的待检测图像；通过预先训练完成的伪装物体识别网络，对待检测图像进行伪装物体识别，其中，伪装物体识别网络包括：Swin‑Transformer、纹理增强模块、邻居连接解码器和群体逆向注意模块，Swin‑Transformer是伪装物体识别网络的骨干，群体逆向注意模块采用反向引导和群体引导两种操作进行残差学习，群体逆向注意模块包括预设数量个GRA块，每个GRA块有三个残差学习过程。本发明可以实现实时检测，提高了伪装物体识别的准确度。

Description

一种伪装物体识别及语义分割方法

技术领域

本发明涉及图像数据处理技术领域，具体涉及一种伪装物体识别及语义分割方法。

背景技术

伪装物体识别领域目前是深度学习的一个重点领域。尝试着将不同的方法用于伪装目标检测任务，以求获得好的效果。目前比较著名的模型有SiNET、SiNET V2、RCRNet和SLT-NET，不同的模型会关注于不同的领域，比如说伪装目标检测、伪装语义分割、伪装视频检测、息肉分割、轻量化伪装模型等。

然而，当采用现有伪装物体识别方式时，经常会存在如下技术问题：

模型过大，检测速度较慢，无法实现实时检测；

检测效果的准确度还有提升空间。

发明内容

本发明的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本发明的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

为了解决伪装物体识别的准确度较低的技术问题，本发明提出了一种伪装物体识别及语义分割方法。

本发明提供了一种伪装物体识别及语义分割方法，该方法包括：

获取待检测区域对应的待检测图像；

通过预先训练完成的伪装物体识别网络，对待检测图像进行伪装物体识别，其中，伪装物体识别网络包括：Swin-Transformer、纹理增强模块、邻居连接解码器和群体逆向注意模块，Swin-Transformer是伪装物体识别网络的骨干，群体逆向注意模块采用反向引导和群体引导两种操作进行残差学习，群体逆向注意模块包括预设数量个GRA块，每个GRA块有三个残差学习过程，第一个过程基于候选特征和使用群引导操作的反向引导，以产生提纯特征，第二个过程产生单通道残差引导图，第三个过程基于前两个过程输出优化后的引导图。

进一步地，所述伪装物体识别网络的训练过程，包括：

获取伪装物体图像集合和伪装物体图像集合中的每个伪装物体图像对应的伪装物体区域；

构建伪装物体识别网络；

将伪装物体图像集合确定为伪装物体识别网络的训练集，将伪装物体图像对应的伪装物体区域确定为伪装物体识别网络的训练标签，对构建的伪装物体识别网络进行训练，得到训练完成的伪装物体识别网络，其中，伪装物体识别网络训练过程的损失函数为：

其中，损失函数的右边是全局限制和局部限制的加权交叉熵损失和二进制交叉熵损失。

本发明具有如下有益效果：

本发明通过预先训练完成的伪装物体识别网络，对获取的待检测图像进行伪装物体识别，可以实现对待检测图像的伪装物体识别。并且伪装物体识别网络以Swin-Transformer作为骨干，还包括：纹理增强模块、邻居连接解码器和群体逆向注意模块。本发明使用Swin-Transformer方法，可以实现使用少量的训练数据轻松收敛到特定任务。引入TEM是为了模拟人类视觉系统中感受野的纹理结构。NCD负责在TEM的协助下找到候选对象。GRA模块再现了动物的识别阶段。使用群体逆向注意模块(Group-Reversal Attentionblock，GRA)采用反向引导和群体引导两种操作进行残差学习。它由多个GRA块组成，通过不同的特征金字塔逐步优化粗预测。每个GRA块有三个残差学习过程。第一个过程结合候选特征和使用群引导操作的反向引导，然后是残差阶段以产生精细特征。第二个过程产生单通道残余制导。第三个过程结合了精炼的特征和残差指导来产生最终的输出。这有助于通过在多个阶段细化预测来提高性能。因此本发明可以实现实时检测，并且提高了伪装物体识别的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为根据本发明的一种伪装物体识别及语义分割方法的流程图；

图2为根据本发明的伪装物体识别网络的整个架构的示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明提供了一种伪装物体识别及语义分割方法，该方法包括以下步骤：

获取待检测区域对应的待检测图像；

通过预先训练完成的伪装物体识别网络，对待检测图像进行伪装物体识别，其中，伪装物体识别网络包括：Swin-Transformer、纹理增强模块、邻居连接解码器和群体逆向注意模块，Swin-Transformer是伪装物体识别网络的骨干，群体逆向注意模块采用反向引导和群体引导两种操作进行残差学习，群体逆向注意模块包括预设数量个GRA块，每个GRA块有三个残差学习过程，第一个过程基于候选特征和使用群引导操作的反向引导，以产生精细特征，第二个过程产生单通道残余制导，第三个过程基于精炼的特征和残差指导来产生最终的输出。

下面对上述各个步骤进行详细展开：

参考图1，示出了根据本发明的一种伪装物体识别及语义分割方法的一些实施例的流程。该伪装物体识别及语义分割方法，包括以下步骤：

步骤S1，获取待检测区域对应的待检测图像。

在一些实施例中，可以获取待检测区域对应的待检测图像。

其中，待检测区域可以是待进行伪装物体识别的区域。待检测图像可以是待检测区域的表面图像。伪装物体可以是指与背景高度一致肉眼难以分辨出来的物体。例如，伪装物体可以是变色龙、组织的早期病变、身着迷彩服的士兵等。

作为示例，可以通过相机，获取待检测区域对应的待检测图像。

步骤S2，通过预先训练完成的伪装物体识别网络，对待检测图像进行伪装物体识别。

在一些实施例中，可以通过预先训练完成的伪装物体识别网络，对待检测图像进行伪装物体识别。

其中，伪装物体识别网络可以用于识别伪装物体。伪装物体识别网络也可以称伪装物体识别模型。伪装物体识别网络包括：Swin-Transformer、纹理增强模块(TEM)、邻居连接解码器(NCD)和群体逆向注意模块(又称分组方向注意力)(GRA)。Swin-Transformer、纹理增强模块、邻居连接解码器和群体逆向注意模块是伪装物体识别网络包括的四个基本组成部分。Swin-Transformer是伪装物体识别网络的骨干。即伪装物体识别网络是使用Swin-Transformer作为骨干设计的神经网络。群体逆向注意模块采用反向引导和群体引导两种操作进行残差学习。群体逆向注意模块包括预设数量个GRA块。预设数量可以是预先设置的数量。每个GRA块有三个残差学习过程，第一个过程基于候选特征和使用群引导操作的反向引导，以产生提纯特征；第二个过程产生单通道残差引导图；第三个过程基于前两步(这里的前两步为前两个过程)输出优化后的引导图，即视为残差预测图。伪装物体识别网络的整个架构可以如图2所示。

需要说明的是，视觉Transformer是一种体系结构，它使用自注意机制从输入序列中捕获全局上下文信息。它已被应用于计算机视觉领域，但计算成本高，收敛速度慢。提出了使Transformer更有效地执行视觉任务的方法，但这些方法中的大多数都需要大量的训练数据。本发明使用Swin-Transformer方法，可以实现使用少量的训练数据轻松收敛到特定任务。引入TEM是为了模拟人类视觉系统中感受野的纹理结构。NCD负责在TEM的协助下找到候选对象。GRA模块再现了动物的识别阶段。使用群体逆向注意模块(Group-ReversalAttention block，GRA)采用反向引导和群体引导两种操作进行残差学习。它由多个GRA块组成，通过不同的特征金字塔逐步优化粗预测。每个GRA块有三个残差学习过程。第一个过程结合候选特征和使用群引导操作的反向引导，然后是残差阶段以产生精细特征(又称提纯特征)。第二个过程产生单通道残余制导(又称单通道残差引导图)。第三个过程结合了精炼的特征(提纯特征)和残差指导(单通道残差引导图)来产生最终的输出。这有助于通过在多个阶段细化预测来提高性能。

可选地，伪装物体识别网络的训练过程可以包括以下步骤：

第一步，获取伪装物体图像集合和伪装物体图像集合中的每个伪装物体图像对应的伪装物体区域。

其中，伪装物体图像可以是已知伪装物体区域的图像。伪装物体区域可以是伪装物体所在的区域。

第二步，构建伪装物体识别网络。

例如，构建包括Swin-Transformer、纹理增强模块、邻居连接解码器和群体逆向注意模块的神经网络，作为训练前的伪装物体识别网络。其中，构建的伪装物体识别网络以Swin-Transformer作为骨干。

第三步，将伪装物体图像集合确定为伪装物体识别网络的训练集，将伪装物体图像对应的伪装物体区域确定为伪装物体识别网络的训练标签，对构建的伪装物体识别网络进行训练，得到训练完成的伪装物体识别网络。其中，伪装物体识别网络训练过程的损失函数为：

其中，损失函数的右边是全局限制和局部(像素级)限制的加权交叉熵损失和二进制交叉熵损失。由于伪装目标检测的独特性，因此加权IoU损耗增加了硬像素的权重。

标准的加权交叉熵(IoU)损失已被广泛地使用在分割任务上，针对伪装目标检测任务的特点，本发明加以权重和二进制交叉熵损失，以突出不同像素的权重，这些损失函数已经在范登平先生的研究“Concealed Object Detection”中证实是有效的。

需要说明的是，关于超参数设置，本发明可以在PyTorch中实现，并使用Adam优化器进行训练。在训练阶段，批量大小设置为36，学习率从1e-4开始，每50个epoch。整个训练时间只有4个小时。运行时间是在4.90GHz的12核心CPU和单个12GB显存的安培架构GPU上测量的。在推理过程中，每个图像的大小调整为352×352，然后馈送到建议的管道中，以获得最终预测，而无需任何后处理技术。在没有I/O时间的单个GPU上，推理速度为60fps，接近可以实时检测。

关于评估指标，平均绝对误差(MAE)通常用于语义对象检测任务，以评估预测地图与地面实况之间的像素级精度。但是，MAE不提供有关错误发生位置的信息。为了解决这个问题，提出了E-measure，它评估像素级匹配和图像级统计。S度量还用于评估结构相似性。加权F度量也被视为替代指标。这些指标提供对伪装物体检测结果的更全面的评估。

关于培训/测试协议，为了与以前的版本进行公平比较，本发明对基线采用了相同的训练设置。评估了整个CHAMELEON数据集以及CAMO和COD10K测试集上的模型。

本发明提供了CHAMELEON、CAMO和COD10K数据集的定量评估结果。模型的分析结果如表1所示。

表1

关于CHAMELEON，从表1可知，与SiNet相比。本发明的模型(伪装物体识别网络)在多个性能指标强于SiNet。

关于CAMO，可以在CAMO数据集上测试本发明的模型，其中包括各种伪装对象。根据表1中报告的整体性能，可以发现CAMO数据集比变色龙更具挑战性。本发明的模型实现了新的SOTA性能，进一步证明了其鲁棒性。

关于COD10K，可以通过COD10K数据集的测试集(2026张图像)，可以发现本发明的模型优于其他竞争对手。这是因为其专门设计的搜索和识别模块可以自动学习从粗到细的丰富多样的特征，这对于克服对象边界中具有挑战性的模糊性至关重要。

与SINet V2相比，本发明在不同的照明、外观变化和无法定义的边界方面进一步改善了视觉效果。对于这些具有挑战性的案例，本发明的模型能够通过精细的细节推断出真实的伪装对象，证明了框架的鲁棒性。

本发明设计了一个基于Swin-Transformer的伪装物体分割框架，本发明的模型效果超过了SiNet V2的模型，具体对比如表2所示。

表2

综上，本发明通过预先训练完成的伪装物体识别网络，对获取的待检测图像进行伪装物体识别，可以实现对待检测图像的伪装物体识别。并且伪装物体识别网络以Swin-Transformer作为骨干，还包括：纹理增强模块、邻居连接解码器和群体逆向注意模块。本发明使用Swin-Transformer方法，可以实现使用少量的训练数据轻松收敛到特定任务。引入TEM是为了模拟人类视觉系统中感受野的纹理结构。NCD负责在TEM的协助下找到候选对象。GRA模块再现了动物的识别阶段。使用群体逆向注意模块(Group-Reversal Attentionblock，GRA)采用反向引导和群体引导两种操作进行残差学习。它由多个GRA块组成，通过不同的特征金字塔逐步优化粗预测。每个GRA块有三个残差学习过程。第一个过程结合候选特征和使用群引导操作的反向引导，然后是残差阶段以产生精细特征。第二个过程产生单通道残余制导。第三个过程结合了精炼的特征和残差指导来产生最终的输出。这有助于通过在多个阶段细化预测来提高性能。因此本发明提高了伪装物体识别的准确度。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，均应包含在本发明的保护范围之内。

Claims

1.一种伪装物体识别及语义分割方法，其特征在于，包括以下步骤：

获取待检测区域对应的待检测图像；

2.根据权利要求1所述的一种伪装物体识别及语义分割方法，其特征在于，所述伪装物体识别网络的训练过程，包括：

构建伪装物体识别网络；