CN113468996B

CN113468996B - 一种基于边缘细化的伪装物体检测方法

Info

Publication number: CN113468996B
Application number: CN202110691277.3A
Authority: CN
Inventors: 胡晓; 谭湘粤; 向俊将; 杨佳信
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2023-07-11
Anticipated expiration: 2041-06-22
Also published as: CN113468996A

Abstract

本发明公开了一种基于边缘细化的伪装物体检测方法，首先，利用各类伪装物体的原始图像来构建伪装物体图像数据集，然后构建伪装物体检测网络，接着使用伪装物体图像数据集对构建的伪装物体检测网络进行迭代训练，该伪装物体检测网络将伪装物体检测任务分成两个阶段，第一阶段负责伪装物体检测，第二阶段负责细化伪装物体边缘；最后，以待预测的伪装物体原始图像作为训练完成后的伪装物体检测网络模型的输入，利用该伪装物体检测网络模型输出对应的有区分出图像背景和伪装物体的伪装图。本发明不仅能准确定位伪装物体，而且能保证伪装物体边缘的清晰，有效提高了伪装物体图像整体的检测精度。

Description

一种基于边缘细化的伪装物体检测方法

技术领域

本发明涉及伪装物体检测技术领域，特别是一种基于边缘细化的伪装物体检测方法。

背景技术

伪装是指物体根据环境的纹理，通过使自身的形态、质地和颜色等接近周围的环境来达到隐藏自己的目的。伪装物体的视觉特征与背景非常相似，它的强度或颜色接近其周围环境、纹理被破坏以与背景融合且边界模糊，这也使得伪装的物体不能被人类视觉系统充分地看见。随着人类社会的不断进步，伪装物体检测逐渐走进人们的生活中，它在保护野生动物、战场上探测敌人、医学图像分析等上都存在潜在应用。伪装物体检测就是从背景中提取目标，它能够区分前景物体和伪装物体。

近年来，基于各种视觉特征(例如，强度或颜色、纹理、梯度等)开发了各种算法，以实现在周围环境中检测伪装物体。强度或颜色特征可以检测出与环境背景纹理相似的伪装物体，但却无法检测到与环境背景颜色相似的伪装物体；而当物体的颜色与环境背景颜色相似时，纹理则被认为是区分物体与其周围环境的特征。如果物体和环境背景都包含相似的颜色和纹理，那么梯度信息则有助于从背景区域提取伪装目标。但是，所有特征，例如颜色、纹理和渐变等，都是手工制作的，可能不适用于所有类型的伪装物体。由于这种视觉特征的复杂性，这给伪装物体检测的突破带来了很大的阻碍，在这种背景下，基于深度学习的方法被提出来分析伪装物体。

在大多数情况下，人类仍然能够找到伪装对象，这是由于人类大脑中的语义信息有助于人类发现伪装对象，即使是在对象的底层特征被破坏的情况下。受人类视觉系统的启发，利用卷积神经网络从广泛的训练图像中学习得到的特征来检测伪装物体，这种学习到的深层特征与手工制作的特征相比更具普适性，整体检测的效果会更好。但是由于卷积神经网络的复杂性以及伪装物体的特殊性，现有的方法都有一定的局限性，比如现有的网络框架往往会存在边缘模糊、目标丢失等问题，这会给检测精度带来很大的影响，尤其是在医学影像中检测病变区域以及在军事领域检测敌人时发生的检测失误可能会产生不可估计的后果，因此伪装检测领域还存在巨大的进步空间。

发明内容

本发明的目的在于解决现有技术的不足，提出一种基于边缘细化的伪装物体检测方法，可以在准确定位伪装物体的情况下，保证边缘的清晰，提高整体的检测精度，提供应用于实际场景的更多可能性，给相关工作人员提供更可靠的帮助。

本发明的目的通过下述技术方案实现：

一种基于边缘细化的伪装物体检测方法，包括如下步骤：

S1、利用各类伪装物体的原始图像来构建伪装物体图像数据集；

S2、构建伪装物体检测网络；

S3、训练模型：使用伪装物体图像数据集对构建的伪装物体检测网络进行迭代训练，该伪装物体检测网络将伪装物体检测任务分成两个阶段，第一阶段负责伪装物体检测，第二阶段负责细化伪装物体边缘，训练完成后得到伪装物体检测模型；

S4、测试模型：以待预测的伪装物体原始图像作为训练完成后的伪装物体检测模型的输入，利用该伪装物体检测模型输出对应的有区分出图像背景和伪装物体的伪装图。

优选的，伪装物体检测网络包括特征提取模块、感受野模块、特征编码模块、特征解码模块以及边缘细化模块，其中，特征提取模块、感受野模块、特征编码模块、特征解码模块和边缘细化模块依次连接，感受野模块连接至边缘细化模块；

对于第一阶段：特征提取模块以原始图像作为输入，输出对应的一组特征，该组特征经感受野扩大搜索范围，再经特征编码模块和特征解码模块进行融合，特征解码模块输出初始的伪装图；

对于第二阶段：特征提取模块所获取到的特征中的较低层特征经感受野扩大搜索范围后，和初始伪装图同时作为边缘细化模块的输入，边缘细化模块输出最终的伪装图。

更进一步的，特征提取模块的处理过程如下：

对于输入图像I∈R^H×W×3，利用ResNet50网络从输入图像提取出一组多尺度特征{x₁,x₂,x₃,x₄}，该组多尺度特征中的低级特征保留了用于构建物体边缘的空间信息，高级特征保留了用于定位目标的语义信息；

然后，将多尺度特征按层次划分为低级特征组L:{x₁,x₂,x₃}和高级特征组H:{x₂,x₃,x₄}，其中，x₁为低级特征，x₂,x₃为中级特征，x₄为高级特征。

更进一步的，多尺度特征{x₁,x₂,x₃,x₄}中的每层特征分别经感受野模块扩大感受野的范围，过程具体如下：

感受野模块含有多个分支，对于前4个分支，每个分支首先应用1×1卷积来减小输入特征的通道维数，第k(k∈{2,3,4})个分支再应用核大小为2k-1、膨胀率为1的卷积运算，接着再应用另一个不同应用核大小、膨胀率为2k-1的卷积运算；

将该4个分支的输出拼接在一起，然后应用1×1卷积运算来减小拼接后的特征的通道数，再将处理后的特征与原输入特征形成一个残差连接，最终得到的特征表示为：

其中，j∈{1,2,3,4},C∈{c,e}，c表示伪装物体检测阶段，e表示细化伪装物体边缘阶段；F_RF(·)表示扩大感受野操作；

对于低级特征组L:{x₁,x₂,x₃}中的每层特征，按照上述过程完成扩大感受野操作，最终得到特征：

同理，对于高级特征组H:{x₂,x₃,x₄}中的每层特征，按照上述过程完成扩大感受野操作，最终得到特征：

更进一步的，特征编码模块的处理过程如下：

首先，对扩大感受野范围的低层特征组

进行双线性上采样，再进行卷积操作，表示为：

其中，UP(·)表示如果输入特征尺寸不一致，则进行双线性上采样操作,使尺寸为输入的最大尺寸；BConvN(·)是结合了标准的N×N卷积运算和批量归一化的顺序操作；

为处理后的特征，每个特征也相应是一张特征图像；

然后，采用逐像素相乘的方法来增强特征图像中的公共像素，并且消除部分模糊像素，再将增强后的特征

和特征/>

拼接起来，得到携带了较丰富的上下文信息的特征/>

其中，∏表示逐元素累乘符号，

表示通道间的拼接操作；

最后，对拼接后的特征

采用残差的思想进行卷积操作，从而获得编码后的低层特征图/>

其中，ConvN表示标准的N×N卷积操作；

表示逐元素加法操作，/>

表示ReLU激活函数；

同理，对于扩大感受野范围的高层特征组

按照上述过程完成特征编码操作，最终获得高层特征图/>

更进一步的，特征解码模块的处理过程如下：

首先，将高层特征图上采样到与低层特征图一样的尺寸，并采用卷积操作分别对低层特征图和高层特征图进行初步变换：

其中，l∈[low,high]；

然后，对变换后的高、低层特征图进行逐像素相乘操作来增强公共像素，并将增强后的特征图与变换后的低、高层特征图拼接起来：

其中，

表示逐元素相乘操作；

接着，采用注意力机制来消除

中无关特征的干扰，通过执行全局平均池化来压缩特征，再采用两个全连接层得到每个通道的权值，再对输入特征进行加权，来突显伪装物体目标区域，具体如下：

经注意力机制操作后得到的特征表示为：

其中，F_att(·)表示通道注意力机制操作；

然后，对获得的特征进行卷积变换降维，再分别与两个原初步变换后的特征进行逐像素相加，得到两组特征

最后，对两组特征经卷积操作后再拼接，使得具有区分性的特征组合到一起，再将通道降到1维输出，即得到初始的伪装图C₁：

其中，T表示连续的BConv和Conv操作，采用渐进降维的方式输出伪装图C₁。

更进一步的，边缘细化模块利用初始的伪装图C₁来细化边缘特征，即L:{x₁,x₂,x₃}，以获得更全面的特征，过程具体如下：

在边缘特征通过感受野模块进行增强来得到特征

后，将特征

上采样到与特征{rf₁ ^e,C₁}相同的尺寸；

然后将初始伪装图C₁与增强后且同尺寸的各个边缘特征进行逐像素相乘，再经卷积操作归一化像素值，得到处理后的特征ce_i：

其中，i∈{1,2,3}；

接着，采用拼接的方式将处理后的特征聚合起来，再对其降维以及与初始伪装图C₁逐像素相加，再利用1×1卷积降维得到最终的伪装图C₂：

更进一步的，在步骤S3训练模型的过程中，边缘细化模块还生成训练用的边缘图E₁：

将处理后的特征{ce₁,ce₂,ce₃}和增强后且同尺寸的边缘特征

逐像素相加，并采用卷积操作进行变换：

然后，采用从高到低逐级拼接的方式将特征e_i进行融合，最后，利用卷积操作逐步将通道数降至1维，以获得边缘图E₁：

训练模型所用的损失函数如下：

λ_ce(P,G)＝GlogP+(1-G)log(1-P) (14)

其中，L_total表示总体伪装损失；λ_ce表示二进制交叉熵损失；α∈[0,1]为控制因子，用于控制两部分损失之间的权衡；

C、E分别是C₂和E₁上采样后获得的伪装物体映射图；G_C为二元真值伪装图，G_E为二元真值边缘图，采用传统的边缘检测算法来获得；

G＝{G_C,G_E}，P为伪装物体检测网络预测的图，P＝{C,E}，也就是说，当G为G_C时，P对应为C，当G为G_E时，P对应为E。

优选的，使用随机梯度下降法训练伪装物体检测网络。

优选的，在步骤S1中，构建伪装物体图像数据集的步骤为：

先收集各种类别伪装物体的原始图像，然后将收集的原始图像按比例随机划分为用于训练模型的训练数据集和用于检测模型的测试数据集，最后对数据集中的图像进行分类，并对每张图像标注用于包围伪装物体的包围框。

本发明相对于现有技术具有如下的优点及效果：

1、本发明设计了伪装物体检测网络，能在准确定位伪装物体的情况下，保证边缘的清晰，提高整体的检测精度，由于该网络是在大规模的伪装物体数据集上进行训练而得到，因此，不仅仅是检测伪装的动物，它在检测人类等其他的物体时也可以取得很显著的效果，具有很好的鲁棒性和通用性，因此，本发明检测方法在计算机、军事、医学、农业等多个领域都存在明显的应用价值。

2、本发明充分利用了输入图像的高低级信息，由于低级特征保留了用于构建物体边缘的空间信息，高级特征保留了用于定位目标的语义信息，因此最终获得的伪装图可以很好地区分图像中背景和伪装物体，有利于定位及区分出伪装物体。

3、本发明伪装物体检测模型可基于深度学习技术来处理特征聚合和伪装物体边缘，而基于深度学习的方法学习到的深层特征具有更好的通用性，整体检测的精度也会更佳，这点是其他方法很难做到的。

4、本发明伪装物体检测网络是端对端训练的，比起现有的双流网络模型，其运行速度更快，在实时性方面存在着优势。

附图说明

图1为本发明实施例1中的伪装物体检测网络的整体结构图。

图2为本发明实施例1中的特征解码模块的结构图。

图3为本发明实施例1中的边缘细化模块的结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

本实施例提供了一种基于边缘细化的伪装物体检测方法，包括如下步骤：

S1、构建伪装物体图像数据集：

首先，从各个摄影学网站收集各种类别伪装物体的原始图像，伪装物体例如可以是昆虫、动植物、违禁物品等。

然后，将收集的原始图像按比例如(6:4)、(7:3)随机划分为用于训练模型的训练数据集和用于检测模型的测试数据集；

最后，对数据集中的图像进行分类，并对每张图像标注用于包围伪装物体的包围框。标注包围框有利于提高检测模型的检测能力。

S2、构建伪装物体检测网络，如图1所示，具体包括特征提取模块、感受野(Receptive Field，RF)模块、特征编码模块(Feature Encoder Module，FEM)、特征解码模块(Feature Decoder Module，FDM)以及边缘细化模块(Edge Refinement Moudel，ERM)，特征提取模块、感受野模块、特征编码模块、特征解码模块和边缘细化模块依次连接，感受野模块连接至边缘细化模块。

S3、训练模型：使用伪装物体图像数据集对构建的伪装物体检测网络进行迭代训练，该伪装物体检测网络将伪装物体检测任务分成两个阶段，第一阶段负责伪装物体检测，第二阶段负责细化伪装物体边缘，训练完成后可得到伪装物体检测模型。

其中，(1)特征提取模块采用ResNet50网络，其处理过程如下：

ResNet50网络从输入图像I∈R^H×W×3提取出一组多尺度特征{x₁,x₂,x₃,x₄}，其浅层网络可提取低级特征(也可称为低层特征)，该低级特征保留了用于构建物体边缘的空间信息，深层网络可提取高级特征(也可称为高层特征)，该高级特征保留了用于定位目标的语义信息。

由于伪装物体自身的复杂性，直接聚集多层次的特征通常会导致细节缺失或引入模糊的特征，这两者都会导致网络无法优化。因此，为了能够充分利用低级特征中的细节信息和高级特征中的语义信息的同时，又降低多层次的特征融合造成的信息混淆，这里还将多尺度特征按层次划分为低级特征组L:{x₁,x₂,x₃}和高级特征组H:{x₂,x₃,x₄}，从而实现分组保存相邻特征层的更多信息的同时，缩小不同层特征之间的差距，之后可再采用聚合策略来有效融合不同层特征。其中，x₁为低级特征，x₂,x₃为中级特征，x₄为高级特征。

(2)特征组{x₁,x₂,x₃,x₄}中的每层特征分别通过感受野模块来扩大感受野的范围，过程具体如下：

感受野模块含有多个分支，如图1所示，对于前4个分支，每个分支首先应用1×1卷积来减小输入特征的通道维数，第k(k∈{2,3,4})个分支再应用核大小为2k-1、膨胀率为1的卷积运算，接着再应用另一个3×3卷积运算，膨胀率为2k-1，以从多尺度特征中挖掘出全局上下文信息。

接下来，将该4个分支的输出拼接在一起，然后应用1×1卷积运算来将拼接后的特征的通道数减少到32，再将处理后的特征与原输入特征形成一个残差连接，最终得到的特征表示为：

其中，j∈{1,2,3,4},C∈{c,e}，c表示伪装物体检测阶段，e表示细化伪装物体边缘阶段；F_RF(·)表示扩大感受野操作。

(3)特征编码模块可有效地对上述两组多层次特征即低级特征组和高级特征组中的多尺度多层次信息分别进行整合。本实施例引入了一种轻量化的特征编码模块，利用相乘和拼接等操作来分别整合这两组多尺度多层次的特征，处理过程具体如下：

如图1所示，首先，对扩大感受野范围的低层特征组

进行双线性上采样，再进行卷积操作，可表示为：

为处理后的特征，每个特征也相应是一张特征图像。

和特征/>

拼接起来，得到携带了较丰富的上下文信息的特征/>

其中，∏表示逐元素累乘符号，

表示通道间的拼接操作；

最后，对拼接后的特征

其中，ConvN表示标准的N×N卷积操作；

表示逐元素加法操作，/>

表示ReLU激活函数；

同理，对于扩大感受野范围的高层特征组

按照上述过程完成特征编码操作，最终获得高层特征图/>

(4)特征解码模块可针对两个不同层次的特征，自适应地突显目标物体本身，其模型结构可参见图2，解码的过程如下：

其中，l∈[low,high]。

其中，

表示逐元素相乘操作。

在整合丰富的多层特征之后，采用一个有效的轻量级的注意力机制来消除

中无关特征的干扰，通过执行全局平均池化来压缩特征，再采用两个全连接层得到每个通道的权值，再对输入特征进行加权，来突显伪装目标区域，具体如下：

经注意力机制操作后得到的特征表示为：

其中，F_att(·)表示通道注意力机制操作。

如此可使与伪装目标相关的特征在每一组源特征中突出。

其中，T表示连续的BConv和Conv操作，卷积核大小分别为3×3和1×1，采用渐进降维的方式输出88×88×1的伪装图C₁。

(5)由于伪装物体往往存在边界模糊这一现象，因此，本实施例以此为出发点，从主干网络(即第一阶段的网络)引出边缘特征分支，边缘细化模块利用初始伪装图C₁来细化低层边缘细节特征，即L:{x₁,x₂,x₃}，以获得更全面的特征，如图3所示，边缘细化模块的处理过程具体如下：

51)在边缘特征通过感受野模块进行增强得到特征

后，将特征

上采样到与特征{rf₁ ^e,C₁}相同的尺寸。

52)然后将初始伪装图C₁与增强后且同尺寸的各个边缘特征进行逐像素相乘，再经卷积操作归一化像素值，得到处理后的特征ce_i：

其中，i∈{1,2,3}。

53)接着，采用拼接的方式将处理后的特征聚合起来，再对其降维以及与初始伪装图C₁逐像素相加，达到细化边缘的目的，再利用1×1卷积降维得到最终的有区分出图像背景和伪装物体的伪装图C₂：

54)同时，为了实现监督边缘分支达到优化网络架构的效果，边缘细化模块还将几个边缘分支聚合为一个边缘特征输出，并生成训练用的边缘图E₁：

将处理后的特征{ce₁,ce₂,ce₃}和增强后且同尺寸的边缘特征{rf₁ ^e,rf₂ ^e,rf₃ ^e}逐像素相加，并采用卷积操作进行变换：

基于伪装图C₂和边缘图E₁，即可相应地计算损失函数，进而根据损失函数来调整伪装物体检测网络。

损失函数如下：

λ_ce(P,G)＝GlogP+(1-G)log(1-P)(14)

C、E分别是C₂和E₁上采样后获得的伪装物体映射图；G_C为二元真值伪装图，G_E为二元真值边缘图，通常采用传统的边缘检测算法来获得，图像的分辨率均为：352×352；

在本实施例中，使用步骤S1划分好的训练数据集对步骤S2构建的伪装物体检测网络进行训练的实验细节具体如下：

1)训练时，将原始图像调整为352×352，使用随机梯度下降法(Stochasticgradient descent)以0.9的动量和0.0005的权重衰减训练网络，epoch为30，batch size为8，初始学习率为0.002，采用学习计划策略，在epoch达到20后学习率下降10％。

2)使用多尺度输入图像的大小来增加数据量，通常按照[0.75，1，1.25]的比例变换。

3)每10个epoch保存一次模型。

上述训练参数可根据实际情况设置。

S4、测试模型：使用步骤S1划分好的测试数据集对步骤S3)训练后的伪装物体检测模型进行检测，即以待预测的伪装物体原始图像作为训练完成后的伪装物体检测模型的输入，利用该伪装物体检测模型输出对应的有区分出图像背景和伪装物体的伪装图。检测人员根据该伪装图，可有效定位伪装物体及判断伪装物体类型。

可通过各种手段实施本发明描述的技术。举例来说，这些技术可实施在硬件、固件、软件或其组合中。对于硬件实施方案，处理模块可实施在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、可编程逻辑装置(PLD)、现场可编辑逻辑门阵列(FPGA)、处理器、控制器、微控制器、电子装置、其他经设计以执行本发明所描述的功能的电子单元或其组合内。

对于固件和/或软件实施方案，可用执行本文描述的功能的模块(例如，过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明创造的保护范围之内。