CN112733744B

CN112733744B - 一种基于边缘协同监督与多级约束的伪装物体检测模型

Info

Publication number: CN112733744B
Application number: CN202110048421.1A
Authority: CN
Inventors: 祝世平; 谢文韬
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2022-05-24
Anticipated expiration: 2041-01-14
Also published as: CN112733744A

Abstract

本发明公开了一种基于边缘协同监督与多级约束的伪装物体检测模型，基于该模型提出了一套成熟完备的伪装物体检测方法，通过图级和像素级的搜索初步查找目标潜在区域，再通过级联约束和注意力机制强化空间响应，同时建立一条边缘分割支路去指导模型预测更精准的轮廓，还利用了Frelu激活函数在基础卷积部分提取图像的空间活性，通过该模型能够有效且精准地进行伪装物体检测，为现有技术中伪装物体检测领域填补了空白。

Description

一种基于边缘协同监督与多级约束的伪装物体检测模型

技术领域

本发明涉及计算机视觉技术领域，更具体的说是涉及一种基于边缘协同监督与多级约束的伪装物体检测模型及其方法。

背景技术

伪装物体检测是近年来计算机视觉领域逐渐起步的任务，意在将伪装在场景中的目标物体与背景分割开，这种二分类语义分割技术与显著物体检测较为相似，但是由于伪装物体与背景在色彩和纹理上的高度相似性，以及所在场景的高度复杂性，因此伪装物体检测在难度上远远高于目前发展较为成熟的显著物体检测，相关的数据和算法更是极为稀少。

因此，如何提出一种一种基于边缘协同监督与多级约束的伪装物体检测模型及其方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于边缘协同监督与多级约束的伪装物体检测模型及其方法；

为了实现上述目的，本发明采用如下技术方案：

一种基于边缘协同监督与多级约束的伪装物体检测模型，包括：特征提取模块、图级搜索模块、第一像素级搜索模块、第一级联约束模块、空间注意力模块、第二像素级搜索模块、第二级联约束模块和边缘分割支路；

所述特征提取模块，用于将待检测的原始RGB图像进行特征提取，并将提取到的不同尺度大小的特征图输入至所述图级搜索模块；

所述图级搜索模块，用于接收所述特征图，并根据感受野的大小将所述特征图分组为低级特征图、中级特征图和高级特征图，将每个组内的特征图分别进行拼接后获取到的不同尺寸的特征图为图级搜索结果，并将所获取到的所述图级搜索结果输入至所述第一像素级搜索模块；

同时，将所述低级特征图和所述中级特征图中的特征图分别输入至所述边缘分割支路；

所述第一像素级搜索模块，用于对每个图级搜索结果的每一个像素均进行像素级区域搜索，获得第一像素级搜索结果，并将所述第一像素级搜索结果输送至所述第一级联约束模块；

所述第一级联约束模块，用于针对所述第一像素级搜索结果，进行伪装目标响应的过滤，剔除属于背景的干扰信号，并将剔除干扰信号后的特征图输送至所述空间注意力模块；

所述空间注意力模块，用于通过空间注意力机制获取应当重点关注的空间位置信号，并将重点关注的所述空间位置信号与所述中级特征图所对应得到的第一像素级搜索结果相结合，获取优化后的高分辨率特征图，并将所述高分辨率特征图输送至第二像素级搜索模块；

所述第二像素级搜索模块，用于对所述高级特征图所对应得到的第一像素级搜索结果以及所述高分辨率特征图分别进行像素级区域搜索，获取第二像素级搜索并输入至所述第二级联约束模块；

所述第二级联约束模块，用于针对第二像素级搜索结果，进行伪装目标响应的过滤，剔除属于背景的干扰信号，得到最终区域特征图；

所述边缘分割支路，用于对接收到的所述低级特征图和所述中级特征图中的特征图分别抓取轮廓信息获取边缘支路特征图，将所述边缘支路特征图进行拼接后输出伪装目标的边缘预测图；

同时，用于将每个边缘支路特征图分别与所述最终区域特征图进行基础卷积和上采样的整合，获取最终检测结果；

其中，基础卷积的激活函数为FRelu函数，用于将变量x先以自身为中心进行3*3的卷积，再将卷积后的结果x’和原本的变量x进行对比，取最大值作为结果。

优选的，所述特征提取模块采用resnet-50网络，获取到5个不同尺度大小的特征图P1、P2、P3、P4和P5，且5个特征图的尺寸按照顺序分别为原始RGB图像的1/4、1/4、1/8、1/16和1/32；

所述图级搜索模块将P1和P2作为低级特征图，将P3作为中级特征图，将P4和P5作为高级特征图；

将P1和P2进行通道上的拼接，获得图级搜索结果F1；

将P2直接作为图级搜索结果F2；

将P4和P5进行通道上的拼接，获得图级搜索结果F3。

优选的，所述第一像素级搜索模块内包括三个结构相同的像素级搜索单元，三个所述像素级搜索单元分别接收所述图级搜索结果F1、图级搜索结果F2和图级搜索结果F3并分别进行像素级区域搜索后依次获取第一像素级搜索结果：Fp1、Fp2和Fp3；

其中，每个所述像素级搜索单元包括4个感受野分支和1个残差分支，4个感受野分支的输出结果进行拼接和降维后与所述残差分支的输出进行图像相加；

4个感受野分支分别为第一感受野分支、第二感受野分支、第三感受野分支和第四感受野分支；

所述第一感受野分支依次包括：1*1卷积核、1*3卷积核和3*1卷积核，并前后相连；

所述第二感受野分支依次包括：1*1卷积核、1*5卷积核和5*1卷积核，并前后相连；

所述第三感受野分支依次包括：1*1卷积核、1*7卷积核和7*1卷积核，并前后相连；

所述第四感受野分支包括：1*1卷积核。

优选的，所述第一级联约束模块包括第一约束单元、第二约束单元和第三约束单元；

所述第一约束单元接收所述Fp1，所述第二约束单元接收所述Fp2，所述底单约束单元接收所述Fp3；

所述Fp3在所述第三约束单元内经过两次上采样和卷积后，在所述第二约束单元内与所述Fp2进行像素乘操作，并在输出结果与所述Fp2相加后再进行两次上采样和卷积后，在所述第一约束单元内与所述Fp1进行像素乘操作，输出结果与Fp1相加后输出剔除干扰信号后的特征图Fc。

优选的，所述第一级联约束模块还包括粗粒度结果输出单元，所述粗粒度结果的接收所述Fc，并对所述Fc进行基础卷积和上采样，输出粗粒度的区域预测输出结果CoarseOutput。

优选的，所述空间注意力模块包括高斯核卷积单元、sigmoid函数和乘法器；

所述高斯核卷积单元将可学习的卷积和与所述Fc进行高斯卷积操作后的结果输出至所述sigmoid函数，所述sigmoid函数将函数值限制在0-1内；

所述乘法器将所述sigmoid函数的函数值与所述Fp2相乘，得到优化的高分辨率特征图F_refine。

优选的，所述第二像素级搜索模块与所述第一像素级搜索模块的结构相同，所述第二像素级搜索模块中的三个所述像素级搜索单元分别接收所述F_refine、P4和P5并分别进行像素级区域搜索后依次获取第二像素级搜索结果：Fx1、Fx2和Fx3。

优选的，所述第二级联约束模块与所述第一级联约束模块结构相同；

所述第二级联约束模块中的第一约束单元、第二约束单元和第三约束单元分别对应接收Fx1、Fx2和Fx3；

所述Fx3在所述第三约束单元内经过两次上采样和卷积后，在所述第二约束单元内与所述Fx2进行像素乘操作，并在输出结果与所述Fx2相加后再进行两次上采样和卷积后，在所述第一约束单元内与所述Fx1进行像素乘操作，输出结果与Fx1相加后输出特征图F_region。

所述边缘分割支路中包括三个基础卷积部分，其中三个所述基础卷积部分分别接收P1、P2和P3；

所述P3经过基础卷积后得到边缘支路特征图F_edge1；

所述F_edge1进行两次上采样的输出与P2经过基础卷积后的输出进行拼接后得到边缘支路特征图F_edge2；

所述F_edge2进行两次上采样的输出与P1经过基础卷积后进行两次上采样的输出进行拼接，得到边缘支路特征图F_edge3；

所述F_edge3经过基础卷积后进行两次上采样的输出为伪装目标的边缘预测图Edge Output。

优选的，所述F_edge1与所述F_region拼接后经过基础卷积以及两次上采样后的输出结果与所述F_edge2进行拼接，再将拼接结果经过基础卷积以及两次上采样后与所述F_edge3进行拼接，将当前拼接结果进行反卷积后获取到最终检测结果Final Output。

经由上述的技术方案可知，与现有技术相比，本发明公开了一种基于边缘协同监督与多级约束的伪装物体检测模型，基于该模型提出了一套成熟完备的伪装物体检测方法，通过图级和像素级的搜索初步查找目标潜在区域，再通过级联约束和注意力机制强化空间响应，同时建立一条边缘分割支路去指导模型预测更精准的轮廓，还利用了Frelu激活函数在基础卷积部分提取图像的空间活性，通过该模型能够有效且精准地进行伪装物体检测，为现有技术中伪装物体检测领域填补了空白。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种基于边缘协同监督与多级约束的伪装物体检测模型对应的流程示意图；

图2附图为本发明提供的一种基于边缘协同监督与多级约束的伪装物体检测模型的整体结构示意图；

图3附图为本发明提供的一种基于边缘协同监督与多级约束的伪装物体检测模型中第一像素级搜索模块和第二像素级搜索模块的结构示意图；

图4附图为本发明提供的一种基于边缘协同监督与多级约束的伪装物体检测模型中第一级联约束模块和第二级联约束模块的结构示意图；

图5附图为本发明提供的三种基于Reluctant的非线性激活函数示意图；

图6附图为本发明具体实施方案提供的分割支路和FRelu激活函数的功能对比消融实验结果示意图；

图7附图为本发明提供的一种基于边缘协同监督与多级约束的伪装物体检测模型的算法和其他主流算法在COD10K测试集上的预测效果图；

图8附图为本发明提供的一种基于边缘协同监督与多级约束的伪装物体检测模型的算法和其他主流算法在CAMO测试集上的预测效果图；

图9附图为本发明提供的一种基于边缘协同监督与多级约束的伪装物体检测模型的算法和其他主流算法在CHAMELEON测试集上的预测效果图；

图10附图为本发明提供的一种基于边缘协同监督与多级约束的伪装物体检测模型应用于军事侦察领域的应用示意图；

图11附图为本发明提供的一种基于边缘协同监督与多级约束的伪装物体检测模型应用于农业治理领域的应用示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于边缘协同监督与多级约束的伪装物体检测模型，该模型对应的整个流程分为区域搜索、多级约束、边缘协同监督这三个部分，如图1所示，直观来说，针对(a)这个图片场景，要找到伪装目标首先需要对场景内进行不同范围的搜索(b)，找到目标可能存在的大致区域；接着重点关注特定位置如图(c)中可能暴露目标和背景的断裂区域，约束感兴趣的位置；后面再利用边缘的敏感性进一步细化目标所在区域如图(d)；最后找到伪装目标(e)。

该模型具体结构如图2所示，首先基于resnet-50作为主干网络得到不同尺度的特征图，利用不同尺寸的卷积核整合不同大小的感受野范围，进行初步的伪装目标搜索过程；接着利用得到的整合特征，进行空间注意力与级联约束的构建，指导模型应该对图像中的哪些位置赋予更高的关注并剔除不必要的干扰信号；在进行主分支的伪装目标区域检测同时，另一条分支进行伪装目标边缘的精确分割，并且利用较高分辨率的边缘特征去指导主分支进行区域分割，得到最终的检测结果。在整个过程中还利用了一种特殊的非线性激活函数FRelu，捕捉更好的空间上下文信息。

该模型包括：特征提取模块、图级搜索模块、第一像素级搜索模块、第一级联约束模块、空间注意力模块、第二像素级搜索模块、第二级联约束模块和边缘分割支路；

特征提取模块，用于将待检测的原始RGB图像进行特征提取，并将提取到的不同尺度大小的特征图输入至图级搜索模块；

图级搜索模块，用于接收特征图，并根据感受野的大小将特征图分组为低级特征图、中级特征图和高级特征图，将每个组内的特征图分别进行拼接后获取到的不同尺寸的特征图为图级搜索结果，并将所获取到的图级搜索结果输入至第一像素级搜索模块；

同时，将低级特征图和中级特征图中的特征图分别输入至边缘分割支路；

第一像素级搜索模块，用于对每个图级搜索结果的每一个像素均进行像素级区域搜索，获得第一像素级搜索结果，并将第一像素级搜索结果输送至第一级联约束模块；

第一级联约束模块，用于针对第一像素级搜索结果，进行伪装目标响应的过滤，剔除属于背景的干扰信号，并将剔除干扰信号后的特征图输送至空间注意力模块；

空间注意力模块，用于通过空间注意力机制获取应当重点关注的空间位置信号，并将重点关注的空间位置信号与中级特征图所对应得到的第一像素级搜索结果相结合，获取优化后的高分辨率特征图，并将高分辨率特征图输送至第二像素级搜索模块；

第二像素级搜索模块，用于对高级特征图所对应得到的第一像素级搜索结果以及高分辨率特征图分别进行像素级区域搜索，获取第二像素级搜索并输入至第二级联约束模块；

第二级联约束模块，用于针对第二像素级搜索结果，进行伪装目标响应的过滤，剔除属于背景的干扰信号，得到最终区域特征图；

边缘分割支路，用于对接收到的低级特征图和中级特征图中的特征图分别抓取轮廓信息获取边缘支路特征图，将边缘支路特征图进行拼接后输出伪装目标的边缘预测图；

同时，用于将每个边缘支路特征图分别与最终区域特征图进行基础卷积和上采样的整合，获取最终检测结果；

需要说明的是：

从生物学角度来说，一组多尺度的群感受野会对空间中的微小变化或者差异更加敏感，对于捕食者来说也更容易捕捉到对应的目标，这也就是对目标的区域搜索过程。对应到卷积神经网络中，多尺度的群感受野则是通过不同尺寸的卷积核来实现，而区域搜索则是在卷积神经网络模型的前端利用不同尺度的感受野进行初步的特征整合，因此本发明中将区域搜索分为图级和像素级。

为了进一步实施上述技术方案，特征提取模块采用resnet-50网络，获取到5个不同尺度大小的特征图P1、P2、P3、P4和P5，且5个特征图的尺寸按照顺序分别为原始RGB图像的1/4、1/4、1/8、1/16和1/32；

图级搜索模块将P1和P2作为低级特征图，将P3作为中级特征图，将P4和P5作为高级特征图；

将P1和P2进行通道上的拼接，获得图级搜索结果F1；

将P2直接作为图级搜索结果F2；

将P4和P5进行通道上的拼接，获得图级搜索结果F3。

需要说明的是：

P1，P2归为低级特征图，经过主干网络层数较浅，每个像素包含的感受野较小，有着较为精细的空间信息；P3为中级特征图；P4,P5归为高级特征图，经过主干网络层数较深，每个像素包含的感受野较大。将3组特征图按照上述特定方式进行通道上的拼接，综合不同感受野的目标信息，也就是图级搜索。

得到3组不同尺度感受野的特征F1,F2,F3，下面公式中concat代表通道拼接操作：

F₁＝Concat(P₁,P₂) (1)

F₂＝P₂ (2)

F₃＝Concat(P₄,P₅) (3)

这里的分组整合是图级的区域搜索操作，对于低级特征图，高分辨率下会强化诸如边缘、轮廓等高频信息；对于高级特征图，则会整合不同层次的语义，学习上下文信息。

为了进一步实施上述技术方案，如图3所示，第一像素级搜索模块内包括三个结构相同的像素级搜索单元，三个像素级搜索单元分别接收图级搜索结果F1、图级搜索结果F2和图级搜索结果F3并分别进行像素级区域搜索后依次获取第一像素级搜索结果：Fp1、Fp2和Fp3；

其中，每个像素级搜索单元包括4个感受野分支和1个残差分支，4个感受野分支的输出结果进行拼接和降维后与残差分支的输出进行图像相加；

第一感受野分支依次包括：1*1卷积核、1*3卷积核和3*1卷积核，并前后相连；

第二感受野分支依次包括：1*1卷积核、1*5卷积核和5*1卷积核，并前后相连；

第三感受野分支依次包括：1*1卷积核、1*7卷积核和7*1卷积核，并前后相连；

第四感受野分支包括：1*1卷积核。

需要说明的是：

对于图级区域搜索操作得到的不同尺度特征图，还需要对其每一张图像进行像素级的区域搜索，因此此处设置有第一像素级搜索模块。

需要说明的是：

第一像素级搜索模块与后文中的第二像素级搜索模块的结构均如图3所示，包含4个群感受野分支和一个残差分支，4个感受野分支首先利用1*1的卷积进行通道降维，接着分别利用3*3、5*5、7*7大小的卷积核进行卷积操作和不进行卷积，这样4个分支得到的特征图相比原本的输入特征图，每个像素所包含的感受野大小和抓取的空间信息量都是不同的，然后将4个分支结果进行拼接再降维，最终与残差分支的图像相加。

这一系列操作，相当于对输入特征图的每一个像素都进行了以其为中心的不同大小尺度搜索，获得了更丰富的空间布局信息。下面公式代表特征进行像素级搜索的过程，Fk代表第k个输入特征，conv代表卷积操作，后面的数字是卷积核大小，concat为通道拼接操作，最终得到的像素级搜索结果为Fpk；

Fp_k＝F_k+Concat(F_k,Conv(F_k,3*3),Conv(F_k,5*5),Conv(F_k,7*7)) (4)

值得一提的是，这里的3*3、5*5、7*7大小的卷积核采用的是分离卷积(separateconvolution)，将k*k的卷积分为k*1和1*k的两次卷积过程，将参数从k*k降低到了2k，同时保证了感受野内的信息采集，提高了效率。

为了进一步实施上述技术方案，如图4所示，第一级联约束模块包括第一约束单元、第二约束单元和第三约束单元；

第一约束单元接收Fp1，第二约束单元接收Fp2，底单约束单元接收Fp3；

Fp3在第三约束单元内经过两次上采样和卷积后，在第二约束单元内与Fp2进行像素乘操作，并在输出结果与Fp2相加后再进行两次上采样和卷积后，在第一约束单元内与Fp1进行像素乘操作，输出结果与Fp1相加后输出剔除干扰信号后的特征图Fc。

为了进一步实施上述技术方案，第一级联约束模块还包括粗粒度结果输出单元，粗粒度结果的接收Fc，并对Fc进行基础卷积和上采样，输出粗粒度的区域预测输出结果Coarse Output。

需要说明的是：

经过初步的区域搜索后，得到的特征会在空间上针对伪装物体产生不同的响应，而如何去提高目标位置的响应并减小背景位置的响应，就需要进行多级的约束。首先在得到经过图级和像素级区域搜索的特征图后，利用级联约束模块进行伪装目标响应的过滤。特征图经过relu激活函数，将负值置0，只留下正响应，接着将小尺寸特征图上采样到大尺寸特征图大小再进行像素乘的操作，通过乘法运算滤除负响应，再和大尺度特征图进行像素相加；下公式Fc为特征图经过级联约束得到的结果，up代表上采样操作，○代表点乘操作

Fc＝Conv(Fp₁+Fp₁⊙Up_×2((Fp₂+(Fp₂⊙Up_×2(Fp₃))))) (5)

这样只有在多个尺度特征图下都为正值的像素位置的响应才会得到保留，可以有效剔除属于背景的干扰信号，增强伪装目标位置的响应，得到置信度更高的空间信息。

为了进一步实施上述技术方案，空间注意力模块包括高斯核卷积单元、sigmoid函数和乘法器；

高斯核卷积单元将可学习的卷积和与Fc进行高斯卷积操作后的结果输出至sigmoid函数，sigmoid函数将函数值限制在0-1内；

乘法器将sigmoid函数的函数值与Fp2相乘，得到优化的高分辨率特征图F_refine。

需要的说明的是：

现有的研究表明，设置空间注意力机制可以让模型关注更有利于预测目标位置的区域，因此，经过级联约束模块后，本发明在这里设置一个可学习的高斯核卷积对得到的特征图进行卷积操作，再利用sigmoid函数将值限制在0-1内，成为一个空间注意力的模板(mask)，下面公式中mask为得到的空间注意力模板，attention为高斯卷积操作，kernel为可学习的卷积核

mask＝Sigmoid(attention(Fc,Kernel))∈(0,1) (6)

与经过像素级搜索的特征图Fp2相乘，加强在分辨率和语义平衡的尺度下下应当关注的空间位置信号，得到优化的高分辨率特征图。

F_refine＝mask⊙F_p2 (7)

将得到的注意力优化特征图再和P4,P5这些拥有高级语义特征的特征图再次进行像素级区域搜索，得到更细粒度的信息，再经过一次级联约束模块，得到最终的区域特征Fregion。值得注意的是，在送入空间注意力模块之前，进行卷积核上采样得到一个粗粒度的区域预测输出结果Coarse Output，用来监督前面的模块，防止误差反向传播的梯度过小，加速模型收敛。

为了进一步实施上述技术方案，如图4所示，第二像素级搜索模块与第一像素级搜索模块的结构相同，第二像素级搜索模块中的三个像素级搜索单元分别接收F_refine、P4和P5并分别进行像素级区域搜索后依次获取第二像素级搜索结果：Fx1、Fx2和Fx3。

为了进一步实施上述技术方案，第二级联约束模块与第一级联约束模块结构相同；

第二级联约束模块中的第一约束单元、第二约束单元和第三约束单元分别对应接收Fx1、Fx2和Fx3；

Fx3在第三约束单元内经过两次上采样和卷积后，在第二约束单元内与Fx2进行像素乘操作，并在输出结果与Fx2相加后再进行两次上采样和卷积后，在第一约束单元内与Fx1进行像素乘操作，输出结果与Fx1相加后输出特征图F_region。

边缘分割支路中包括三个基础卷积部分，其中三个基础卷积部分分别接收P1、P2和P3；

P3经过基础卷积后得到边缘支路特征图F_edge1；

F_edge1进行两次上采样的输出与P2经过基础卷积后的输出进行拼接后得到边缘支路特征图F_edge2；

F_edge2进行两次上采样的输出与P1经过基础卷积后进行两次上采样的输出进行拼接，得到边缘支路特征图F_edge3；

F_edge3经过基础卷积后进行两次上采样的输出为伪装目标的边缘预测图EdgeOutput。

为了进一步实施上述技术方案，F_edge1与F_region拼接后经过基础卷积以及两次上采样后的输出结果与F_edge2进行拼接，再将拼接结果经过基础卷积以及两次上采样后与F_edge3进行拼接，将当前拼接结果进行反卷积后获取到最终检测结果Final Output。

需要说明的是：

随着卷积神经网络层数的加深，越深层的特征图每个像素包含的感受野范围随着卷积次数的累加变得越来越大，会学习到高级的语义特征，但同时会丢失原始图像中边缘、轮廓灯较为精细的空间信息，这也让研究者们对浅层的特征有了进一步的重视，高分辨率的浅层特征图对视觉任务在高频细节上会提供更多信息。

基于这些条件，本发明中建立一条预测伪装目标物体边缘的支路，如图2所示，在进行伪装物体所在区域预测的主分支之外，本发明额外构建一个边缘编码器，利用P1,P2,P3这类较为浅层的特征抓取更精细的轮廓信息，输出伪装目标物体的边缘预测图，并利用groundtruth的边缘标注图进行监督。同时，将分辨率分别为原始图像1/8,1/4，1/2的边缘支路特征图F_edge1，F_edge2，F_edge3和主支路靠近输出端的区域预测特征图对应同尺寸分别进行整合，让边缘信息对预测的伪装目标区域进行约束，得到更准确的边缘信号。

这里由小尺寸向原图尺寸进行逼近时，为了获得更为精确的预测输出，并没有使用双线性插值进行上采样，而是使用了反卷积得到更大的尺寸，让模型去学习这一步操作。下面公式中，edge为边缘支路特征，F_region为前面得到的区域特征，deconv为反卷积，output为最终输出

output_1/4＝DeConv(Concat(Edge_1/8,F_region)) (8)

output_1/2＝DeConv(Concat(Edge_1/4,output_1/4)) (9)

output＝DeConv(Concat(Edge_1/2,Output_1/2)) (10)

需要进一步说明的是：

非线性激活函数是神经网络能够去拟合应对各种复杂任务的关键，为线性感知机带来了非线性的高级特性。最开始的非线性激活函数有tanh和sigmoid等，但是由于这些函数求导过于复杂，不利于损失梯度的反向传递，因此目前运用的最多的便是relu激活函数，max(0，x)的简单直接特性让其得到广泛运用，它的变体prelu则是把原先直接置零的操作改为一个p很小的px函数，如图5所示：

relu(x)＝max(0,x) (11)

Prelu(x)＝max(px,x) (12)

Relu虽然简单有效，激活了神经网络的非线性，但是却没有很好地利用卷积神经网络对空间信息的抓取能力，因此本发明在基础卷积部分采用了frelu，将原本直接将变量x和0对比的操作，改为x先以自身为中心进行一个3*3的卷积，再将卷积后的结果x’和原本的x进行对比，取最大值作为结果。

Frelu(x)＝max(Conv(x),x) (13)

这样每一次的激活函数在每个位置都进行了一个空间激活，进一步提取了图像的空间布局信息。

本发明中将frelu运用到了模型的基础卷积模块中，得到了比常规relu激活函数更好的结果，详细数据可见后面的实验数据。

下面将进一步说明该模型的其他相关内容：

1.损失函数设置

模型的损失分为3个部分：边缘分割损失、粗粒度输出损失、细粒度输出损失。3项损失都是由交叉熵函数构成，交叉熵函数如下图所示，r和c分别代表图像的行和列，S代表预测值，G代表真实值

提升支路的边缘提取能力；粗粒度输出损失为得到空间注意力mask前的输出结果和真实区域结果的损失，用于监督指导级联约束和注意力机制；细粒度输出损失为最终的输出与真实区域结果的损失，下面公式中p_edge代表边缘预测结果，g_edge代表边缘真实结果，p_coarse代表粗粒度输出，p_output代表最终输出，g代表区域真实结果。

loss＝l_bce(p_edge,g_edge)+l_bce(p_coarse,g)+l_bce(p_output,g) (15)

2.数据集

由于伪装物体检测任务并不像显著物体检测、语义分割等常见计算机视觉任务那样有着较为长久的发展，因此数据集的数量并不多，数据集规模也不大。本发明所用的训练集为COD10K数据集，这是目前质量和数量上最好的伪装物体检测数据集，包含10000张精细标注的图像(分别有原始RGB图像，对应的像素级区域标注图和边缘标注图)，其中包含5066张有伪装物体的图像、1934张无伪装物体的图像和3000张背景图像，具体到物体类别有10个超类和78个子类。COD10K数据集拥有着伪装物体检测领域极为宝贵的数据规模以及数据分布，不仅包含了伪装物体图像，还有1934张显著物体图像以及3000张无目标的背景，这样可以让模型不仅仅是对伪装物体图像进行过拟合，而是学到表达性更强的伪装物体语义，做到分辨伪装物体、显著物体和背景。

表1伪装物体检测测试数据集数量

Dataset	CHAMELEON	CAMO	COD10K
				Amount	76	250	2026

本发明的测试集用的是CAMO、CHAMELEON以及COD10K的测试集，CAMO数据集有着500张测试图片(其中包含250张无伪装物体的图片)，无伪装物体的图像来源于MS-COCO；CHAMELEON数据集则是只有76张图像，经过手工标注的对象级真值图；COD10K的测试集则是2026张图片，包含了多种类别的伪装物体。

3.训练设置

本发明基于pytorch深度学习框架进行训练，训练epochs设定为100次,每次送入图像数量batch为16,输入图像分辨率为352*352，weight_decay设置为0，初始学习率设置为1e-4，优化器选择的是Adam，处理器为英特尔的Intel I9-9900X CPU，内存为金士顿32GBDDR4 RAM，计算显卡为英伟达的NVIDIA Titan V GPU。

4.评测指标

本实验采用三种评价指标对模型的伪装物体检测结果进行评测。

MAE：

MAE指标侧重于真-负的像素情况，公式如下：

对模型预测图和真值图进行归一化处理，求出对应像素差的绝对值，对全局像素进行平均。这一传统的评测方法已经广泛运用到了伪装物体检测任务中，不过MAE只能表现图像的整体预测效果，并不能评估目标形状结构上的错误。

S-Measure：

S-Measure是一种不同于传统像素级预测图和真值图差距评价指标的方法。其更关注模型预测图与二值化的真值图之间的结构相似性，公式如下：

S＝α×S_o+(1-α)×S_r (17)

S-Measure主要分为对象结构So和区域结构Sr，而参数α表示两者的权重，考虑到目标与区域之间的相似性，α通常取值为0.5。

F-Measure：

F–Measure是通过对预测模型的精确率和召回率进行扩展得到的指标，具体公式如下：

公式中TP、TN、FP、FN分别表示真-正、真-负、假-正、假-负。首先，对模型预测图进行二值化处理，根据阈值不同得到多个F-measure值。选择目前大多数方法使用的maxF也就是其中最大的值来代表整个算法模型。

实验结果为：

模块组合表现

首先针对本发明提出的模型，对是否加入边缘分割支路和是否使用Frelu激活函数这两个较为独立的模块进行消融对比实验，实验结果示意图如图6所示，分为无边缘分割支路和无Frelu激活函数、无分割边缘支路有Frelu激活函数、有边缘分割支路无Frelu激活函数、两者都有，在3个指标上的对比结果在表上，

表2分割支路与Frelu激活函数模块相融实验评价指标对比

可以看到,无论是综合表征像素准确率和召回率的F-measure还是考察图像结构和区域准确性的S-measure指标,边缘分割支路和Frelu激活函数都对模型性能有着明显的提升，也使得代表整体相似性的MAE指标大幅减小,而两者都包含的最终模型拥有着最好的指标结果。

在预测图像结果上也可以看到，原始模型的输出结果会存在预测区域轮廓模糊的情况,而且会产生伪装目标和背景区域的混淆与误判；加入边缘分割支路后,给最终结果提供了更强的区域约束信号,使得预测的区域更加贴合伪装目标,比如图5中蜥蜴的脚趾由粘连变得分离,老虎躯干部分遮挡的杂草由完全模糊变得清晰；加入Frelu激活函数后，对每一个像素信号在基础卷积模块进行空间布局上的信息提取，使得对伪装区域和背景区域的鉴别更加准确，比如长颈鹿和野兔的纹理和周围环境极为相似，加入Frelu激活函数后使得模型对伪装目标区域进一步判别，剔除背景的树木和草丛，将属于目标的躯干部分精准的分割出来；最终的模型整合了边缘分割支路以及Frelu激活函数提取图像空间活性后,得到了最好的伪装目标预测结果。

测试集的模型表现

由于伪装物体检测目前仅有sinet算法为开源模型，考虑到显著物体检测任务与本任务在网络结构上含义的相似性，因此本发明将所提出的模型和sinet以及在COD10K这种大规模数据集上表现出色的最新显著物体检测模型相对比，在COD10K、CAMO、CHAMELEON三个测试集上分别验证效果，从表中可以看出，本发明提出模型在F-measure，S-measure以及MAE上取得了全面的领先优势，无论在图像整体预测还是目标结构信息上都得到了最好的结果。

表3本发明提出算法模型和目前在测试数据集上表现出色的主流数据集对比

接下来针对不同数据集的预测结果图像(如图7-9所示)进行分析：

1.COD10K

针对COD10K的测试集,可以看到本模型对于小鱼这样的小物体(a)(b)有着较好的分辨定位能力，并且相比于其他算法可以剔除无关非伪装物体比如水草的干扰；同时无论是平滑的形状(c)还是复杂的外形(d)，本模型相比现有模型都能够做到最好的分割效果。

2.CAMO

针对CAMO数据集，可以看到本模型对于螃蟹腿这样细碎的轮廓(a)做到了很好的分割，在其他算法有着不同程度断裂的情况下，本模型完整的保留了螃蟹的躯干和腿部区域；像潜藏在绿藻中的鳄鱼头或者树干中的白色猫头鹰(b)这种很难界定伪装目标边界的图像，本模型也做到了现有算法中最好的分割效果，很好的排除了背景的强干扰。

3.CHAMELEON

针对CHAMELEON数据集，本模型对于树蛙或者蜘蛛这类有着细小肢体轮廓的伪装目标，有着同类算法中最好的分割效果，并没有产生较大的断裂或者缺失；对于多个伪装目标的情况(c)，本算法也没有产生遗漏，对所有目标均完成了较好的区域分割；而对于杂草遮挡这种对于标注都十分困难的过程，本模型依然完成的很好，将遮挡狮子头的极细杂草清晰的分割了出来。

接下来对本发明所提出的模型的相关应用进行说明：

伪装物体检测与以往的大多数计算机视觉任务在应用上有着极大的差别，显著物体检测、语义分割、目标检测等都是让计算机去做到人眼可以分辨的视觉任务，或者尽可能比人眼做的精度更高，而伪装物体检测则是少数利用计算机去完成人眼难以分辨的视觉任务，因此在多种领域有着广泛的应用。

1.军事侦察

在军事领域,对于各种复杂战场场景上的敌军位置侦察都是十分重要的,面对身穿迷彩服伪装埋伏在草地/森林中的敌军,即便是士兵的绝佳视力也无法判断场景中隐藏敌人的位置,会让我方士兵陷入极为不利的局面.这时配备了本伪装物体检测模型的设备就可以快速找到场景中伪装目标的位置,让我方士兵在遭受伏击前完成敌军的侦察从而抢先发动进攻，如图10所示，可以看到,本模型清晰的找到了草地中和灌木中隐藏的伪装士兵。

2.农业除虫

在农业领域，病虫害的治理十分重要，如何在害虫大量生长繁殖之前就进行杀灭是治理的关键，而有害的昆虫往往随着自然演变其颜色和纹理非常接近本发明的农作物，依靠肉眼或者常规目标检测模型进行害虫的分辨十分困难，并不能得到隐藏在农作物中的害虫，如果大规模喷洒农药则会对没有被害虫侵害的农作物产生巨大的伤害。如果运用本伪装物体检测模型，那么便可以很快定位得到害虫所在位置，找到其隐藏的区域，精确杀灭害虫，保护农作物生长，如图11所示，可以看到，无论是灰色枝干上的蠕虫还是绿色叶片上的带翅昆虫，在这两种常见农业场景下，本发明提出的算法模型可以精确的定位到害虫位置，有效帮助智能化灭虫。

本发明提出了一套成熟完备的伪装物体检测算法模型，通过图级和像素级的搜索初步查找目标潜在区域，再通过级联约束和注意力机制强化空间响应，同时建立一条边缘分割支路去指导模型预测更精准的轮廓，还利用了Frelu激活函数在基础卷积部分提取图像的空间活性。在与现有性能最出色的一批算法在3种广泛应用的指标上进行评估，得到了最佳的成绩，为伪装物体检测领域提供了一种新的思路。在未来的工作中，本模型可能在视频结构化、视频编码等领域发挥作用，同时在伪装物体数据集标注难度极大的情况下，探索弱监督或者自监督学习在伪装物体检测领域的潜在可能性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本发明所示的这些实施例，而是要符合与本发明所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于边缘协同监督与多级约束的伪装物体检测模型，其特征在于，包括：特征提取模块、图级搜索模块、第一像素级搜索模块、第一级联约束模块、空间注意力模块、第二像素级搜索模块、第二级联约束模块和边缘分割支路；

2.根据权利要求1所述的一种基于边缘协同监督与多级约束的伪装物体检测模型，其特征在于，所述特征提取模块采用resnet-50网络，获取到5个不同尺度大小的特征图P1、P2、P3、P4和P5，且5个特征图的尺寸按照顺序分别为原始RGB图像的1/4、1/4、1/8、1/16和1/32；

将P1和P2进行通道上的拼接，获得图级搜索结果F1；

将P2直接作为图级搜索结果F2；

将P4和P5进行通道上的拼接，获得图级搜索结果F3。

3.根据权利要求2所述的一种基于边缘协同监督与多级约束的伪装物体检测模型，其特征在于，所述第一像素级搜索模块内包括三个结构相同的像素级搜索单元，三个所述像素级搜索单元分别接收所述图级搜索结果F1、图级搜索结果F2和图级搜索结果F3并分别进行像素级区域搜索后依次获取第一像素级搜索结果：Fp1、Fp2和Fp3；

所述第四感受野分支包括：1*1卷积核。

4.根据权利要求3所述的一种基于边缘协同监督与多级约束的伪装物体检测模型，其特征在于，所述第一级联约束模块包括第一约束单元、第二约束单元和第三约束单元；

所述第一约束单元接收所述Fp1，所述第二约束单元接收所述Fp2，所述第三约束单元接收所述Fp3；

5.根据权利要求4所述的一种基于边缘协同监督与多级约束的伪装物体检测模型，其特征在于，所述第一级联约束模块还包括粗粒度结果输出单元，所述粗粒度结果的接收所述Fc，并对所述Fc进行基础卷积和上采样，输出粗粒度的区域预测输出结果CoarseOutput。

6.根据权利要求4所述的一种基于边缘协同监督与多级约束的伪装物体检测模型，其特征在于，所述空间注意力模块包括高斯核卷积单元、sigmoid函数和乘法器；

7.根据权利要求6所述的一种基于边缘协同监督与多级约束的伪装物体检测模型，其特征在于，所述第二像素级搜索模块与所述第一像素级搜索模块的结构相同，所述第二像素级搜索模块中的三个所述像素级搜索单元分别接收所述F_refine、P4和P5并分别进行像素级区域搜索后依次获取第二像素级搜索结果：Fx1、Fx2和Fx3。

8.根据权利要求7所述的一种基于边缘协同监督与多级约束的伪装物体检测模型，其特征在于，所述第二级联约束模块与所述第一级联约束模块结构相同；

9.根据权利要求8所述的一种基于边缘协同监督与多级约束的伪装物体检测模型，其特征在于，所述边缘分割支路中包括三个基础卷积部分，其中三个所述基础卷积部分分别接收P1、P2和P3；

所述P3经过基础卷积后得到边缘支路特征图F_edge1；

所述F_edge3经过基础卷积后进行两次上采样的输出为伪装目标的边缘预测图EdgeOutput。

10.根据权利要求9所述的一种基于边缘协同监督与多级约束的伪装物体检测模型，其特征在于，所述F_edge1与所述F_region拼接后经过基础卷积以及两次上采样后的输出结果与所述F_edge2进行拼接，再将拼接结果经过基础卷积以及两次上采样后与所述F_edge3进行拼接，将当前拼接结果进行反卷积后获取到最终检测结果Final Output。