CN115311508A

CN115311508A - 一种基于深度u型网络的单帧图像红外弱小目标检测方法

Info

Publication number: CN115311508A
Application number: CN202210947869.1A
Authority: CN
Inventors: 王莉; 吴鑫; 费爱国; 徐连明; 许云鹏
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-11-08

Abstract

本发明公开了一种基于深度U型网络的单帧图像红外弱小目标检测方法，该方法包括构建基于深度监督U型网络及加入该深度监督U型网络中的密集特征编码模块的单帧图像红外弱小目标检测模型，其中，所述深度监督U型网络可提取得到的多层次、多尺度的图像特征并对其进行精度还原，密集特征编码模块可进行通道注意力交叉导向学习和空间注意力交互导向学习，在网络深度增加的同时不损失特征分辨率失，同时可提升目标的全局及局部上下文表征，实现像素特征之间的长距离依赖关系；且所述检测模型不依赖经典的分类骨干网络，可解决传统深度网络中弱小目标的深度语义特征可判性降低、无法关注目标的局部上下文信息等问题，实现精准的红外弱小目标检测。

Description

一种基于深度U型网络的单帧图像红外弱小目标检测方法

技术领域

本发明涉及单帧图像红外弱小目标检测的技术领域，特别涉及基于深度学习的红外弱小目标检测方法的技术领域。

背景技术

红外波段是频率介于微波与可见光之间的电磁波，在电磁波谱中的频率范围为0.3THz～400THz。由于该波段数据具有不受环境、光照、遮挡和其他条件干扰的优势，使其广泛应用在军事领域的应用中，如红外制导、预警等，但红外图像中的弱小目标一般不超过30个像素，通常覆盖在复杂的背景中，且缺乏颜色和纹理信息，检测难度较大。

目前，单帧图像的红外弱小的目标检测方法主要包括模型驱动方法和数据驱动方法。当红外图像中的弱小目标比背景的亮度高时，一些基于人类视觉系统的方法，如基于分块的方法，基于局部对比度策略的方法以及基于多尺度分块对比度的方法等，可以通过视觉关注机制较准确地筛选出亮目标所在区域，从而实现最终的检测。通常情况下，这类方法的特征表示能力要优于基于滤波和基于低秩稀疏分解的方法。但是，模型驱动的方法很容易受到杂波和噪声的影响，这大大限制了该方法在复杂场景下的单帧图像，或是视频序列图像中红外弱小目标的检测性能。

深度学习的快速发展使其广泛用于红外弱小目标检测中，但由于目前公开的红外数据有限，加之目标的尺寸较小，无法直接用于训练大规模的检测网络。因此，现有的大部分基于深度学习方法的红外弱小目标检测通常是采用直接迁移或微调基于自然场景图像生成的预训练模型来实现最终的检测。然而，由于红外弱小目标数据和自然场景数据的分布不同，导致检测模型的漏检率很高。实际上，将红外弱小目标检测建模为一个语义分割问题，而不是一个典型的目标检测问题，有助于更好地解决由目标的尺寸小而造成的模型检测性能受限的问题。但现有的网络几乎都依赖于具有经典下采样方案的适合于图像分类的网络架构，随着网络的深入，目标的特征的分辨率大大降低，甚至丢失，这对红外弱小目标的检测尤其不利。

总结上述现存问题，可以看出，针对红外弱小目标检测的问题，亟须构建一个深度多尺度、高分辨特征、且可以提升目标的全局和局部上下文信息的表征的学习的网络，该网络还需要适配样本量不足、目标尺寸弱小等情况。因此，本发明充分考虑了红外弱小目标检测任务中存在的上述问题，提出了一种基于深度U型网络的红外弱小目标检测方法。

发明内容

本发明的目的在于克服现有红外弱小目标检测方法中弱小目标在图像中的局部对比度较低，网络的深度与特征分辨率相矛盾等问题，提出一种面向单帧红外视频图像的深度U型网络红外弱小目标检测方法。该方法还可以解决红外弱小目标样本量不足难以支撑复杂深度网络模型训练的问题，同时具有提取多尺度、高可区分特征的能力，最终生成准确率高，低复杂度的检测模型。

本发明的技术方案如下：

一种基于深度U型网络的单帧图像红外弱小目标检测方法，其包括：

S1：构建基于深度U型网络的单帧图像红外弱小目标检测模型；

S2：通过标注后的单帧红外图像样本集或其经过增强处理后的增强样本集训练所述检测模型；

S3：通过训练完成的所述检测模型实现对视频序列图像集中的红外弱小目标的检测；

其中，所述深度U型网络包括深度监督U型网络及集成到该深度监督U型网络中的密集特征编码模块构建；

其中，所述深度监督U型网络包括获得多层次、多尺度图像提取特征的压缩路径网络，及进行多层次、多尺度下图像精度还原的扩展路径网络，所述密集特征编码模块位于所述压缩路径网络与所述扩展路径网络之间；

所述密集特征编码模块包括对所述压缩路径网络得到的多层次、多尺度提取特征的低层细节特征进行通道注意力交叉导向学习，得到多层次低层特征的第一编码模块；对所述低层特征进行空间注意力交互导向学习，得到多层次高层特征的第二编码模块；及将所述多层次低层特征与所述多层次高层特征进行级联融合得到密集编码特征的第三编码模块。

根据本发明的一些优选实施方式，所述深度U型网络依次包括输入层，所述压缩路径网络，所述密集特征编码模块，所述扩展路径网络及输出层。

根据本发明的一些优选实施方式，所述深度监督U型网络为由所述压缩路径网络及所述扩展路径网络组成的嵌套U型网络，其中，所述压缩路径网络包括依次相连的多层次、多尺度的提取压缩模块，除最后一个提取压缩模块仅含有1个残差U型块外，其余每个提取压缩模块均包括至少1个残差U型块和与其相连的至少1个降采样层；所述扩展路径网络包括依次相连的多层次、多尺度的扩展还原模块，每个扩展还原模块均包括至少1个上采样层和至少1个与其相连的残差U型块；其中，第一个提取压缩模块的残差U型块与所述输入层连接，最后一个提取压缩模块的降采样层与所述密集特征编码模块中的第一编码模块连接，其间每个提取压缩模块的残差U型块均与其上一个提取压缩模块的降采样层相连，第一个扩展还原模块的上采样层与所述密集特征编码模块的第三编码模块连接，最后一个扩展还原模块的残差U型块与所述输出层连接，其间每个扩展还原模块的上采样层均与其上一个扩展还原模块的残差U型块相连，且每个提取压缩模块的降采样层还与尺寸与其对应的扩展还原模块的上采样层相连，每个扩展还原模块的残差U型块还与所述密集特征编码模块中的所述第一编码模块相连。

根据本发明的一些优选实施方式，所述降采样层采用最大池化降采样。

根据本发明的一些优选实施方式，所述压缩路径网络包含6层网络结构，每层网络构成一个所述提取压缩模块，且每层中包含的残差U型块的扩张卷积的扩张率不同。

根据本发明的一些优选实施方式，所述扩展路径网络包含5层网络结构，每层网络构成一个所述扩展还原模块，且每层中包含的残差U型块的扩张卷积的扩张率不同。

根据本发明的一些优选实施方式，所述压缩路径网络的6层网络结构中，第1～第5层网络中每一层只包含多个扩张率为1的卷积层即传统卷积网络和一个扩张率为2的扩张卷积层，第6层网络包含4个扩张率分别为1、2、4、8的扩张卷积层。

根据本发明的一些优选实施方式，所述扩展路径网络的5层网络结构中，第1～第5层网络中每一层只包含多个扩张率为1的卷积层即传统卷积网络和一个扩张率为2的扩张卷积层。

根据本发明的一些优选实施方式，所述压缩路径网络的6层网络结构中，所述第1～第6层网络的残差U型块的深度依次为7、6、5、4、3、3。

根据本发明的一些优选实施方式，所述压缩路径网络的6层网络结构中，所述第1层网络中含有的残差U型块的输入通道数为3，第2层网络中含有的残差U型块的输入通道数为64，第3层网络中含有的残差U型块的输入通道数为128，第4层网络中含有的残差U型块的输入通道数为256，第5层网络中含有的残差U型块的输入通道数为512，第6层网络中含有的残差U型块的输入通道数为512。

根据本发明的一些优选实施方式，根据所述目标检测模型进行目标检测的方法如下：

S11根据所述压缩路径网络，获得单帧红外图像数据中弱小目标的多层次、多尺度的深度特征；

S12根据所述密集特征编码模块对所述优化后的多层次、多尺度深度特征进行所述通道注意力交叉导向学习、所述空间注意力交互导向学习及所述级联融合，获得密集编码特征；

S13根据所述扩展路径网络对所述密集编码特征进行多层次、多尺度深度监督解码，获得检测结果。

根据本发明的一些优选实施方式，所述检测方法还包括：由所述压缩路径网络进行第一卷积处理及第二卷积处理，其中，所述第一卷积处理包括残差U型块处理和线性整流函数激活处理，所述第二卷积处理包括残差U型块处理和最大池化降采样处理；由所述扩展路径网络进行第三卷积处理，其包括残差U型块处理和上采样处理。

根据本发明的一些优选实施方式，S13还包括对所述密集编码特征进行非线性特征表达激活，获得最终密集编码特征，根据对所述最终密集编码特征的所述多层次、多尺度深度监督解码，获得检测结果。

根据本发明的一些优选实施方式，所述深度特征通过以下计算模型得到：

其中，F^k表示经所述压缩路径网络第k层的所述残差U型块学习后得到的特征，σ(·)表示sigmoid激活函数。

其中，U_k(·)(k＝1,2,…,K)表示经所述压缩路径网络中第k层的所述残差U型块学习后的特征的展开表示，K表示所述残差U型块的最大层数。

根据本发明的一些优选实施方式，所述密集编码特征的获得包括：

将经所述压缩路径网络的第k层得到的特征输入所述密集特征编码模块，进行自适应平均池化，得到自适应平均池化后特征F_k′；

将所述自适应平均池化后特征F_k′输入一个权重、神经元数量不同的两层网络中，并将其送入到ReLu激活函数中，得到第一变换特征；

将所述第一变换特征经Sigmoid函数激活得到权重系数A₁，进一步获得通道注意力交叉导向学习的特征

如下：

将所述通道注意力交叉导向学习的特征

进行一个空间的全局最大池化和平均池化，得到两个通道数为1的两张特征图；

将所述两张特征图进行拼接，将所得拼接特征图经过一个进行通道变换的、含有ReLu激活函数的神经网络，得到第二变换特征；

将所述第二变换特征经过一个7×7的卷积层和一个Sigmoid函数激活，得到权重系数A₂，进一步获得空间注意力交互导向编码后的特征

如下：

根据本发明的一些优选实施方式，所述自适应平均池化后特征F_k′通过以下计算模型获得：

其中，F_k表示第k层压缩路径网络提取得到的特征，W、H表示该特征对应的图像的宽和高，i,j表示目标的位置坐标，其值为遍历图像中的所有位置。

根据本发明的一些优选实施方式，所述权重系数A₁通过以下计算模型得到：

A₁＝σ(Β(W₂δ(Β(W₁F_k′)))) (4)

其中，δ(·)，Β(·)分别表示线性整流函数ReLU和批标准化，

和

分别表示经过第一层神经元后通道的个数降低为初始的1/4和经过第二层神经元后通道恢复为初始通道数的权重系数，其中，C表示通道数，

表示通道压缩或伸展因子。

根据本发明的一些优选实施方式，所述权重系数A₂通过以下计算模型得到：

其中，

为所述通道注意力交叉导向学习的特征

进行通道变换后的所述变换特征，1×1，3×3表示卷积运算，P_avg和P_max分别表示平均池化和最大池化算子。

根据本发明的一些优选实施方式，所述最终的密集编码特征通过以下计算模型得到：

其中，F_DFE表示所述密集编码特征。

根据本发明的一些优选实施方式，所述训练中，设置所述检测模型的损失函数为：

其中，

表示所述深度监督U型网络中第m层的损失函数、

对应为第m层损失函数的权重，Loss_fuse表示最后的融合输出的损失函数、ω_fuse对应为融合输出损失函数的权重，M表示所述深度监督U型网络的总层数。

根据本发明的一些优选实施方式，所述检测模型的损失函数中每一项损失函数使用标准二进制交叉熵计算，如下：

其中，i,j代表图像中像素的坐标，H、W为图像的尺寸，p_G(i,j)和p_S(i,j)分别表示参考像素值和预测像素值的输出图的概率值。

根据本发明的一些优选实施方式，所述训练中，每经过一定数量的训练轮次后，对训练结果进行一次验证，并记录每一次验证中的最佳IoU和nIoU值，当前轮次的IoU和nIoU值大于已有的最佳值时，保存当前的学习率，网络的参数，以及IoU值和nIoU值。

根据本发明的一些优选实施方式，所述IoU值通过以下计算模型获得:

其中，M表示单帧图像中目标的个数，N表示总的样本个数，A_{int er}和A_all分别表示真实物体和预测物体的交集和并集，T、P、TP分别表示真实的标签、预测的结果以及正确检测的像素数量，i,m分别表示第i个样本、第m个物体。

根据本发明的一些优选实施方式，所述nIoU值通过以下计算模型获得:

其中，

表示每个样本的IoU值，T[i]，P[i]和TP[i]中的i表示第i个样本。

本发明具备以下有益效果：

本发明充分考虑了红外弱小目标检测中样本量不足、目标尺寸弱小，以及目标背景复杂多变的问题，提出了一种基于深度U型网络的红外弱小目标检测方法，其检测效率高、准确性高、泛化能力强。

本发明提出的基于残差U型块的深度监督U型网络结构相比基于经典的适合于图像分类的分割网络、检测网络等，不仅可以解决网络深度和特征分辨率之间的矛盾，间接提高目标的全局上下文表征，并且这种网络的同一层次之间，不同层次之间均可以学习目标的多尺度特征，有效缓解弱小目标深度特征的可区分性低以及解决深层次网络中目标容易丢失的问题。再者，残差块的深度可以根据特征图的尺寸以及下采样的个数动态调整，使得网络的结构以及对目标特征的学习能力达到最优。

本发明的低层细节特征的道注意力交叉导向学习和高层语义特征的空间注意力交互导向学习的结构设计，有效解决了红外弱小目标深层特征可区分性差，表征能力弱的问题，有效构建基于像素的目标之间的长距离依赖关系，提升目标的局部上下文表征。其中，通道注意力交叉导向学习通过自上而下的编码方法，有效地挖掘那些潜在的、隐含的、具有诊断性的目标的特征表示，传递高层语义信息进入低层特征中，优化低层特征。空间注意力交互导向学习集成了通道注意力交叉学习后的特征和空间注意力的上下文特征表示，通过自下而上的基于像素的编码方法，进一步丰富高层语义特征的细节表征，传递低层细节信息进入高层特征中，优化目标的局部上下文表征。

在进一步的具体实施方式中，本发明的损失函数区别于标准的网络末尾的一个二元交叉熵损失函数，深度U型网络的损失函数本质是多个损失函数相加，包括深度监督网络的各层输出结果加1个特征融合后的结果。不仅避免了深度网络特征单一输出对弱小目标的可判性低或者缺失，还解决深度神经网络训练梯度消失和收敛速度过慢等问题。

附图说明

图1为具体实施方式中基于深度U型网络的红外弱小目标检测方法流程图。

图2为具体实施方式中构建的深度U型网络的详细结构图。

图3为具体实施方式中基于残差U型块的深度监督U型网络的结构图。

图4为具体实施方式中密集特征编码模块示意图。

图5为实施例中深度U型网络检测方法在红外视频序列图像中的弱小目标检测流程图。

图6为实施例中深度U型网络检测方法在红外视频序列中的弱小目标检测的可视化结果。

具体实施方式

以下结合实施例和附图对本发明进行详细描述，但需要理解的是，所述实施例和附图仅用于对本发明进行示例性的描述，而并不能对本发明的保护范围构成任何限制。所有包含在本发明的发明宗旨范围内的合理的变换和组合均落入本发明的保护范围。

根据本发明的技术方案，一种具体的实施方式包括如附图1所示的检测识别流程，其具体包括以下步骤：

S1：构建基于深度U型网络的单帧图像红外弱小目标检测模型。

更具体的，参照附图2，所述检测模型基于深度监督U型网络及加入该深度监督U型网络中的密集特征编码模块构建。

该嫁接了密集特征编码模块的结构，可有效提升目标低层细节特征和高层语义特征之间的交互感知能力，进一步提高目标的上下文信息表征，解决红外小目标深度语义特征弱，目标与背景特征易混淆的问题。

进一步的，在图2所示的具体实施例中，该深度监督U型网络为一个经典的全卷积网络，包括输入层、压缩路径网络、密集特征编码模块、扩展路径网络及输出层。其中密集编码模块位于所述压缩路径和扩展路径之间。

进一步的，在图2所示的具体实施例中，所述压缩路径网络由6层网络模块组成，除最后一个模块不需要最大池化降采样外，每个模块均使用了残差U型块和1个基于最大池化的降采样，每次降采样之后特征图的尺寸下降1/2，其中，第一个模块中的残差U型块与所述输入层连接，剩余的其他模块的输入为上一个模块的输出。所述扩展路径网络由5层网络模块组成，每个模块开始之前首先通过反卷积(即上采样)将特征图的尺寸乘2，然后和左侧对称的压缩路径的特征图级联送入密集编码模块，变换后的特征即为该模块的输出。

进一步的，如上的基于多尺度残差U型块的结构可有效解决网络的深度和特征分辨率之间的矛盾，同时增强弱小目标的全局上下文信息的表征。该结构中，压缩路径的每个模块的特征图可作为残差U型块的输入，以获得压缩路径的每个模块的深度多尺度特征，得到多层次、多尺度的高分辨的弱小目标深度特征图。

其中，更进一步的，所述多层次、多尺度的压缩路径网络可包括1～4个不同扩张率的扩张卷积层，扩张卷积层的数量可根据目标特征图的尺寸选定。

进一步的，在如图3所示的具体实施例中，所述压缩路径网络包含6层网络，每层网络均为嵌套网络结构，每层网络的内部结构均包括1个残差U型块，包括不同扩张率的卷积、池化等操作，与其对应的，所述扩展路径网络包含5层网络。所述压缩路径网络和所述扩展路径网络中的残差U型块的扩张卷积的扩张率可进行不同设置，如压缩路径网络和扩展路径网络的第1～第5层中的残差U型块只包含多个扩张率为1的卷积层即传统卷积网络和一个扩张率为2的扩张卷积层，压缩路径的第6层中的残差U型块包含4个扩张率分别为1、2、4、8的扩张卷积层。进一步的，第1～第6层内部的残差U型块的深度可依次设定为7、6、5、4、3、3。

在更进一步的具体实施方式中，所述残差U型块可包含编码层和解码层两部分，其中编码部分的结构主要包含第一卷积操作(conv-1)和第二卷积操作(conv-2)。其中第一卷积操作表示该编码层使用了残差U型块和1个线性整流函数(ReLu)操作，第二卷积操作表示该编码层使用了残差U型块和1个基于最大池化的降采样操作，每次降采样之后特征图的尺寸下降1/2，解码部分的结构主要包含第三卷积操作(conv-3)，所述第三卷积操作表示扩展路径中的该解码层使用了残差U型块和1个上采样操作，每次上采样样之后特征图的尺寸上升2倍。

以上结构中引入了不同扩张率的扩张卷积，可在增加网络深度的同时实现对特征分辨率的保持，并降低网络的内存消耗，因为每层网络的内部结构都是经由下采样后又上采样回该层网络输入特征的分辨率。

进一步的，在一些具体实施例中，对于6层的压缩路径网络，其首层网络结构中含有的残差U型块的输入通道数为3，第二层中含有的残差U型块的输入通道数可设置为64，第三层中含有的残差U型块的输入通道数可设置为128，第四层中含有的残差U型块的输入通道数可设置为256，第五层中含有的残差U型块的输入通道数可设置为512，第六层中含有的残差U型块的输入通道数可设置为512。

进一步的，在一些具体实施例中，对于6层的压缩路径网络，在其中的浅层网络如第1～第5层网络中，于其含有的残差U型块后引入步长为2的最大池化操作即下采样操作，使图像的尺寸降低，从而减少网络的计算成本。

进一步的，所述密集特征编码模块包括对多层次、多尺度低层细节特征进行通道注意力交叉导向学习，得到多层次低层特征的第一编码模块；对所述低层特征进行空间注意力交互导向学习，得到多层次高层特征的第二编码模块；及将所述第一编码模块特征与所述第二编码模块特征进行级联得到密集编码特征的第三编码模块。

其中，

进一步的，所述密集特征编码模块的第一编码模块的输入为所述深层语义特征，输出为通道注意力交叉导向学习后的特征，该结构中，首先采用自适应平均池化作用于高层语义特征，以实现特征压缩并简化网络复杂度，并将其送入两层的神经网络，经过第一层神经元后通道的个数降低为初始的1/4，激活函数为线性整流函数ReLu,经过第二层神经元后通道恢复为初始通道数，计算通道注意力交叉导向学习的权重系数，最终加权后的特征即为第一编码模块的输出。

进一步的，所述密集特征编码模块的第二编码模块的输入为所述道注意力交叉导向编码后的特征，输出为空间注意力交互导向学习后的特征，该结构中，首先采用空间的全局最大池化和平均池化得到两个通道数为1的特征，并将两个特征拼接在一起，经过一层神经网络后，通道个数降低为初始的1/4，激活函数为线性整流函数ReLu，计算空间注意力交互导向学习的权重系数，最终加权后的特征即为第二编码模块的输出。

其中，更进一步的，所述密集特征编码模块的第三编码模块的输入为所述第一编码模块和所述第二编码模块，输出为最终的密集特征编码特征，该结构中，级联第二编码模块和第二编码模块后的特征，并将其送入到激活函数sigmoid中，得到最终的密集特征编码特征。

如在一些具体实施例中，所述密集特征编码模块包括对所述压缩路径得到的多层次、多尺度特征的低层细节特征进行通道注意力交叉导向学习，得到密集特征编码模块的第一编码模块

对所述低层特征进行空间注意力交互导向学习，得到密集特征编码模块的第二编码模块

及将所述多层次低层特征与多层次高层特征进行级联融合得到密集编码特征的第三编码模块

即最终的密集特征编码模块的输出。

其中，所述密集特征编码模块的第一编码模块的输入为从所述扩展路径网络(解码层)获得的深层语义特征

输出为通道注意力交叉导向学习后的特征

该结构中，首先采用自适应平均池化作用于高层语义特征，以实现特征压缩并简化网络复杂度，并将其送入两层的神经网络，经过第一层神经元后通道的个数降低为初始的1/4，激活函数为线性整流函数ReLu,经过第二层神经元后通道恢复为初始通道数，计算通道注意力交叉导向学习的权重系数，最终加权后的特征即为第一编码模块的输出。

进一步的，将所述道注意力交叉导向编码后的特征

作为第二编码模块的输入，得到的输出为空间注意力交互导向学习后的特征

该结构中，首先采用空间的全局最大池化和平均池化得到两个通道数为1的特征，并将两个特征拼接在一起，经过一层神经网络后，通道个数降低为初始的1/4，激活函数为线性整流函数ReLu，计算空间注意力交互导向学习的权重系数，最终加权后的特征即为第二编码模块的输出。

进一步的，将所述所述第一编码模块和所述第二编码模块的输出特征

作为第三编码模块的输入，级联第一编码模块和第二编码模块后的特征

并将其送入到激活函数sigmoid中，得到最终的密集特征编码特征。

通过上述结构，所述密集特征编码模块可通过低层细节特征的通道注意力交叉导向学习和高层语义特征的空间注意力交互导向学习，提升弱小目标的局部上下文表征。

在以上结构下，根据本发明的检测模型进行检测的过程如下：

S11根据所述压缩路径网络，获得单帧红外图像数据中弱小目标的多层次、多尺度的高分辨率深度特征，其中，所述压缩路径网络为6层的U型网络，每层网络中均含有1个残差U型块，以优化各层网络的深度多尺度特征，得到优化后的多层次、多尺度特征图。

S12将每层网络内的残差U型块根据网络输入图像的尺度，分别设定为7、6、5、4、3、3层结构，以丰富红外小目标的特征能力。

S13根据所述密集特征编码模块对所述优化后的多层次、多尺度特征图进行低层特征和高层特征交叉和交互融合、以及级联的方式，获得密集编码特征。

S14根据所述扩展路径网络对所述密集编码后的特征进行多层次、多尺度深度监督解码，获得检测结果。

在更具体的一些实施中，S11中，当输入的单帧红外图像数据为X_W×H×C时，其中，W、H、C分别表示输入图像的宽、高、和通道数量，W×H×C表示所述输入层的输入维度，输出的所述多层次、多尺度的高分辨率深度特征图O的一般性表示如下：

式中，F^k代表压缩路径网络中第k层提取得到的特征，σ(·)表示sigmoid激活函数。

在更具体的一些实施中，S11中，展开残差U型块的内部网络结构，输出的所述多层次、多尺度的高分辨率深度特征图O的表示如下：

式中，U_k(·)(k＝1,2,…,K)代表经压缩路径网络第k层残差U型块学习后的特征的展开形式，K表示残差U型块的最大层数。

在更具体的一些实施中，如图4所示，S13中所述密集特征编码模块进行的多尺度监督编码可包括：

(1)对低层细节特征进行通道注意力交叉导向学习，以丰富低层细节特征通道之间的交叉关系。

如根据一些具体的实施例，可输入一个压缩路径网络获得的像素大小为H、W，通道数量为C的H×W×C的高层语义特征F_k至密集编码模块的第一编码模块。

其后，将高层语义特征F_k执行自适应平均池化操作，得到特征F_k′；

其后，将所述特征F_k′分别送入一个两层的神经网络，经过第一层神经元后特征的通道个数降低为初始的1/4，激活函数为线性整流函数ReLu,经过第二层神经元后通道个数恢复为初始值，实现通道特征之间交互学习；

其后，将上述特征经过一个Sigmoid函数激活得到权重系数A₁，经通道注意力交叉导向学习后的特征

即为该权重系数和对应的特征F_k′相乘后的结果

即

(2)对通道注意力交叉导向学习后的特征

进行空间注意力交互导向学习，以提升高层语义特征对目标细节的感知，从而进一步丰富深层红外弱小目标的全局上下文特征中目标的局部上下文信息。

如根据一些具体的实施例，进一步包括：

将该特征

进行一个空间的全局最大池化和平均池化得到两个通道数为1的特征；并将两部分特征拼接在一起，然后经过一层网络后，特征通道的个数降低为初始的1/4，激活函数为线性整流函数ReLu的神经网络，得到变换特征；

将变换特征再经过一个7×7的卷积层和一个Sigmoid函数激活得到权重系数A₂，经空间注意力交互导向学习后的特征

即为权重系数和特征相乘后的结果

亦即

将通道注意力交叉导向学习后的特征

和空间注意力交互导向学习后的特征

级联，得到密集特征编码特征，并将其送入到激活函数sigmoid中，得到最终的网络的输出。

在更具体的一些实施例中，所述特征F_k′通过下式得到：

其中，F_k表示第k层的高层语义特征，W、H对应的图像的宽和高，i,j表示目标的位置坐标，它的值是遍历图像中的所有位置。

在更具体的一些实施例中，通过特征F_k′的通道注意力交叉机制得到的权重系数A₁通过下式得到：

A₁＝σ(Β(W₂δ(Β(W₁F_k′)))) (4)

式中，δ(·)，Β(·)分别表示线性整流函数(ReLu)和批标准化(BatchNormalization)。

和

分别表示C→C/r和C/r→C的激励(Excitation)算子，其中，

表示通道压缩或伸展因子，r优选为4。

在更具体的一些实施例中，所述特征

的空间注意力机制的权重系数A₂通过下式得到：

式中，

为特征

进行通道变换(C→C/r)后的特征，1×1，3×3表示卷积运算。P_avg和P_max分别表示平均池化和最大池化算子。

(3)通过对通道注意力交叉导向学习后的特征

与空间注意力交互导向学习后的特征

的级联及进一步地对其非线性特征表达的激活，输出最终网络的输出。

在更具体的一些实施例中，所述最终的网络的输出如下：

式中，F_DFE表示密集编码后的特征。

S2通过单帧红外视频图像数据训练所述检测模型。

进一步的，

所述单帧红外图像数据可通过无人机光电传感器等进行采集。

所述图像数据可包括进行过数据增强预处理的样本，所述数据增强的方式可采用镜像翻转、随机裁剪、随机对比度变化等方式。

如，在一些具体实施例中，检测模型的训练集可选择样本量不足600的红外图像弱小目标检测数据集，该数据集针对特定目标采集并标记，标记的格式可采取通用的labelme标记格式。

进一步的，在一些具体实施例中，可在训练中设置验证集对训练结果进行测试，如在样本量不足600的红外图像弱小目标检测数据集中，设置训练集样本的个数为400张，验证集样本的数量为100张，两者的尺寸均为320×320×3。

所述训练可包括将学习到的深度U型网络的参数送入训练好的检测模型进行保存，输入待预测的红外弱小目标图像，进行目标检测。

根据更具体的一些实施方式，训练中可设置深度U型网络的损失函数为7个损失函数相加，与标准的网络末尾单独设置一个二元交叉熵损失函数存在区别。所述7个损失函数包括针对6层压缩路径网络的输出结果的损失函数和扩展路径网络最后1层特征融合结果的损失函数。其不仅避免了深度网络特征单一输出对弱小目标的可判性低或者目标丢失，还解决了深度神经网络训练梯度消失和收敛速度过慢等问题。

进一步的，所述检测模型的损失函数可设置为：

其中，

是深度监督网络中间第m个隐藏层的损失函数、

对应为第m个隐藏层损失函数的权重，Loss_fuse是最后一层融合输出的损失函数、ω_fuse对应为融合输出损失函数的权重，M表示深度U型监督网络的总输出数量。

式(9)中的每一个损失函数项可进一步使用标准二进制交叉熵计算，如下：

其中，i,j代表像素的坐标，H，W为图像的尺寸，p_G(i,j)和p_S(i,j)分别表示参考像素值和预测像素值的输出图。

在一些具体实施例中，二元交叉熵损失函数采用小批次训练的方法，不断循环直至损失函数收敛，如设置最大训练轮次为500，每10轮进行一次验证，在验证中，网络中的所有参数切换至评价模式，将评价指标的IoU和nIoU作为参考值，记录每一次验证的最佳的IoU和nIoU值，如果当前轮次的IoU和nIoU大于已有的最佳值，则保存当前的学习率和网络的参数，对应训练的轮次以及IoU和nIoU值。

其中，IoU和nIoU值可进一步如下获得:

式中，M代表测试集中每幅图像中目标的个数，N代表测试集中总的样本个数。A_{int er}和A_all分别代表真实物体和预测物体的交集和并集。T，P，TP分别代表真实的标签，预测的结果以及正确检测的像素数量。

和

中的i,m代表第i个样本中的第m个物体。

式中，

代表每个样本的IoU值，T[i]，P[i]和TP[i]中的i代表第i个样本。

S3加载训练完成的所述检测模型，实现对视频序列图像集中的红外弱小目标的检测。

在一些具体实施例中，其可进一步包括如在NVIDIA GeForce GTX1080(8GB内存)计算机平台上加载训练生成的检测模型。视频序列图像可通过无人机光电传感器采集。

实施例1

对NVIDIA GeForce GTX1080(8GB内存)计算机平台上无人机拍摄的视频序列数据集中的红外弱小目标进行检测，实施流程如图5所示，具体过程包括：

步骤1：采集无人机拍摄的红外视频序列图像，经数据预处理后构建训练和测试样本集。

其中，数据的标注采用前景和背景区分的0、1标注法进行，数据预处理包括采用镜像翻转、随机裁剪、随机对比度变化的方式获得增强样本，经过预处理后的数据即为网络的真正的输入数据。

步骤2：通过训练样本集对根据具体实施方式所述的基于U型块的深度监督U型网络进行训练。

其具体包括：

通过该U型网络的压缩路径网络，提取输入图像的多尺度深度高分辨目标特征，同时提升目标的全局上下文表征。

例如，在该网络结构中输入尺寸为320×320×3的样本，经过6层的深度U型网络编码解码结构，分别得到160×160×64，80×80×128，40×40×256，20×20×512以及10×10×512的特征图，加权融合后输出，得到最终的检测结果。

通过该U型网络的密集特征编码模块，对经所述压缩路径网络得到的每层特征进行编码，提升目标的局部上下文表征。

例如，对于网络的第三层，编码结构和输出阶段的特征尺寸均为80×80×128，记作F_l ³和

首先对通过F_l ³进行通道注意力交叉编码，在此基础上，对编码后的特征进行空间注意力交互编码，最终联合两部分的特征作为最终的密集编码特征。

基于设置的损失函数对该U型网络进行训练和调整。

其中，所设置的损失函数包括7个部分的损失的累加和，具体包括6个深度监督网络的输出结果加1个特征融合后的结果。

在训练过程中进行不断循环迭代，直到损失函数收敛或达到模型设置的默认累加次数，如考虑到红外弱小目标训练数据受限，为避免模型过拟合，模型的最大训练次数设置为500。

在本实施例的训练中，batch size设置为3，初始学习率为1×10^-3，最终的学习率为1×10^-8，采用余弦退火的Adam迭代算法进行学习率调整。另外，由于红外弱小目标的尺寸小，且检测方法采用基于分割的网络，所以网络输出分割结果得阈值设置为0，其和真实值得重叠率设置为0.9。

在使用多损失累加后，由于红外弱小目标的尺寸较小，集成深度监督编码后得多层次损失函数，不仅可以避免深度网络特征单一输出对弱小目标的可判性低或者缺失，还可以解决深度神经网络训练梯度消失和收敛速度过慢等问题。

步骤3：加载训练完成后的深度监督U型网络模型，用其进行无人机红外序列图像中弱小目标的检测。

在本实施例中，检测结果的可视化结果如图6所示，为代表的红外序列图像，有单一目标场景，以及多目标场景，背景简单场景和背景复杂场景，图像中存在的目标主要是空中飞行的无人机。图中被圆圈包围框框定的目标即是本实施例检测到的目标。

由图可知，本发明提供的检测模型相比于现有的基于模型驱动的方法和基于数据驱动的方法，可以更准确地定位序列视频中的被测目标，检测精度高，模型泛化性能好，适应于多种复杂背景下的红外弱小目标检测任务。

以上实施例仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例。凡属于本发明思路下的技术方案均属于本发明的保护范围。应该指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下的改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度U型网络的单帧图像红外弱小目标检测方法，其特征在于，其包括：

其中，所述检测模型基于深度监督U型网络及加入该深度监督U型网络中的密集特征编码模块构建；

所述密集特征编码模块包括对所述压缩路径网络得到的多层次、多尺度提取特征的低层细节特征进行通道注意力交叉导向学习，得到多层次低层特征的第一编码模块；对所述低层特征进行空间注意力交互导向学习，得到多层次高层特征的第二编码模块；及将所述低层特征与所述高层特征进行级联得到密集编码特征的第三编码模块。

2.根据权利要求1所述的检测方法，其特征在于，所述深度U型网络包括输入层，所述压缩路径网络，所述密集特征编码模块，所述扩展路径网络，及输出层，其中，所述压缩路径网络包括依次相连的多层次、多尺度的提取压缩模块，除最后一个提取压缩模块仅含有1个残差U型块外，其余每个提取压缩模块均包括至少1个残差U型块和与其相连的至少1个降采样层；所述扩展路径网络包括依次相连的多层次、多尺度的扩展还原模块，每个扩展还原模块均包括至少1个上采样层和至少1个与其相连的残差U型块；其中，第一个提取压缩模块的残差U型块与所述输入层连接，最后一个提取压缩模块的降采样层与所述密集特征编码模块中的第一编码模块连接，其间每个提取压缩模块的残差U型块均与其上一个提取压缩模块的降采样层相连，第一个扩展还原模块的上采样层与所述密集特征编码模块的第三编码模块连接，最后一个扩展还原模块的残差U型块与所述输出层连接，其间每个扩展还原模块的上采样层均与其上一个扩展还原模块的残差U型块相连，且每个提取压缩模块的降采样层还与尺寸与其对应的扩展还原模块的上采样层相连，每个扩展还原模块的残差U型块还与所述密集特征编码模块中的所述第一编码模块相连，优选的，所述降采样层采用最大池化降采样。

3.根据权利要求2所述的检测方法，其特征在于，所述压缩路径网络包含6层网络结构，每层网络构成一个所述提取压缩模块，其中，第1～第5层网络中每一层只包含多个扩张率为1的卷积层和一个扩张率为2的扩张卷积层，第6层网络包含4个扩张率分别为1、2、4、8的扩张卷积层；优选的，所述第1～第6层网络的残差U型块的深度依次为7、6、5、4、3、3；优选的，所述第1层网络中含有的残差U型块的输入通道数为3，第2层网络中含有的残差U型块的输入通道数为64，第3层网络中含有的残差U型块的输入通道数为128，第4层网络中含有的残差U型块的输入通道数为256，第5层网络中含有的残差U型块的输入通道数为512，第6层网络中含有的残差U型块的输入通道数为512。

4.根据权利要求2所述的检测方法，其特征在于，所述扩展路径网络包含5层网络结构，其中，第1～第5层网络中每一层只包含多个扩张率为1的卷积层和一个扩张率为2的扩张卷积层。

5.根据权利要求1-4中任一项所述的检测方法，其特征在于，根据所述目标检测模型进行目标检测的过程如下：

S12根据所述密集特征编码模块对所述多层次、多尺度深度特征进行所述通道注意力交叉导向学习、所述空间注意力交互导向学习及所述级联融合，获得密集编码特征；

S13根据所述扩展路径网络对所述密集编码特征进行多层次、多尺度深度监督解码，获得检测结果；

优选的，S13还包括对所述密集编码特征进行非线性特征表达激活，获得最终密集编码特征，根据对所述最终密集编码特征的所述多尺度深度监督解码，获得检测结果。

6.根据权利要求5所述的检测方法，其特征在于，其中，所述多层次、多尺度的深度特征通过以下计算模型得到：