CN112949579A

CN112949579A - 一种基于密集卷积块神经网络的目标融合检测系统及方法

Info

Publication number: CN112949579A
Application number: CN202110340201.6A
Authority: CN
Inventors: 敬忠良; 押莹; 潘汉; 彭湃; 袁煜
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-06-11

Abstract

本发明公开了一种基于密集卷积块神经网络的目标融合检测系统及方法，涉及航空目标融合检测领域，包括编码器、融合层、解码器和检测网络四个部分，所述编码器用来提取图像特征，由两部分构成，分别是卷积层和密集块；所述融合层采用两种融合策略：1)特征图相加融合策略，2)L1‑范数softmax融合策略；所述解码器用来接收融合后的所述特征图，来重构最终融合图像；最后将所述最终融合图像送入YOLO‑v3目标检测网络来完成目标检测的任务。本发明从视觉效果上看，航拍图像中目标的边界更清晰了，提高了目标检测的准确率，在推理计算系统上证明了该目标检测系统较好的泛化能力，也验证了算法在困难样本上的有效性，在对地观测、安全监视等领域中有广泛应用。

Description

一种基于密集卷积块神经网络的目标融合检测系统及方法

技术领域

本发明涉及一种航空目标融合检测方法，尤其涉及基于密集卷积块神经网络的目标融合检测方法。

背景技术

目标检测是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉减少对人力资本的消耗，具有重要的现实意义。因此，目标检测成为了近年来理论和应用的研究热点，它是图像处理和计算机视觉学科的重要分支，也是智能监控系统的核心部分，同时目标检测也是目标识别的一个基础算法，对后续识别任务起着至关重要的作用。自从Hinton课题组构建的卷积神经网络(Convolutional Neural Networks,CNN)模型AlexNet在2012年的ImageNet图像识别比赛一举夺冠，CNN开始受到广泛的关注，目标检测算法得到了较为快速的发展。

空天遥感图像是重要的数据信息，因其实用性和时效性而被广泛应用于军事侦察、环境侦测、灾害监控、农业产量估计、土地规划、城市建设规划等领域，对于国家的国防安全、经济社会发展有着重要意义。由于，在许多情况下单模态图像可能存在分辨率低、缺乏局部特征，提供的信息不足以检测到目标的问题。需要尝试用多源图像融合来解决上述问题。在各种多源图像的融合中，红外和可见光在很多方面都具有优势。首先，它们的信号来自不同的模式，从而从不同的方面提供场景信息；红外数据反映目标的热辐射信息，可见光图像反映目标的反射信息，因此，这种组合比单模态信号更能提供信息。另外，红外和可见光图像呈现出几乎所有物体固有的特征。而且可以通过相对简单的设备获取，相比于像计算机断层成像(Computed Tomography,CT)那些需要严格的成像技术。红外图像和可见光图像具有互补的特性，从而生成鲁棒且信息丰富的融合图像。可见光图像一般空间分辨率比较高，图像中的细节比较多，与人类的视觉感知较为吻合。然而，这些图像很容易受到恶劣环境的影响，如光照差、雾和其他恶劣天气的影响。而反应物体热辐射的红外图像能够抵抗这些干扰，但通常分辨率较低，纹理较差。可见光图像和红外图像的融合技术可以比其他融合类型在更多的领域得到应用，因为利用的图像具有无处不在且互补的特点。目标识别、检测、图像增强、监视和遥感都是红外和可见光图像融合的典型应用。传统特征级融合方法的融合方式都比较简单，研究相对较少，以像素级与决策级融合方法居多。在深度学习被广泛关注之后，由于其端对端的思想，能够在高层语义空间中完成多模态特征的融合，取得了较好的效果。因此，对传统的计算机视觉技术来说较为复杂的融合检测任务，可以尝试用深度网络模型和多源图像模式来实现。

发明内容

本发明的目的在于克服单模态航拍图像存在分辨率低、缺乏局部特征，提供的信息不足以检测到目标的问题，提供一种可以融合多源图像信息后进行目标检测的方法，使得航拍图像中目标边界更清晰，提高目标检测的准确率，并验证算法在困难样本上的有效性。

为实现上述目的，本发明提供了一种基于密集卷积块神经网络的目标融合检测系统及方法，一种基于密集卷积块神经网络的目标融合检测系统，其特征在于，包括编码器、融合层、解码器和检测网络四个部分，所述编码器用来提取图像特征，由两部分构成，分别是卷积层和密集块；所述融合层采用两种融合策略：1)特征图相加融合策略，2)L1-范数融合策略；所述解码层用来接收融合后的所述特征图，来重构最终融合图像；最后将所述最终融合图像送入YOLO-v3目标检测网络来完成目标检测的任务。

本发明提供了一种基于密集卷积块神经网络的目标融合检测方法，其特征在于，所述方法包括以下步骤：

步骤1、编码器采用包含密集块神经网络的卷积结构作为编码阶段，获得可见光和红外航拍图像的有用特征；

步骤2、融合层采用两种融合策略：特征图相加融合策略和L1-范数融合策略，对所述编码层阶段得到的所述可见光和所述红外航拍图像的特征图进行融合；

步骤3、解码器采用卷积结构来重构所述步骤2得到的特征级融合图像；

步骤4、将所述步骤3的所述特征级融合图像送入YOLO-v3目标检测网络来完成目标检测任务。

进一步地，所述步骤1还包括以下步骤：

步骤1.1、首先通过一个3×3的卷积结构来提取所述可见光和所述红外航拍图像的粗糙特征，获得16个特征图；

步骤1.2、然后紧接着的是输出紧密相连的密集块。

进一步地，所述密集块包含三个卷积层，每个所述卷积层均为3×3的卷积结构，卷积核的大小取3×3以及卷积运算的步长取1。

进一步地，所述特征图相加融合策略是把所述特征图相加，融合公式如下式：

其中，

表示第k种数据的第m通道，m∈{1,...,64},k≥2,f_m为融合结果。

进一步地，所述L1-范数融合策略采用基于L1-范数和softmax运算的融合策略，特征图用

表示，作用程度的图像

是由L1-范数和基于块的平均算子计算得到的，f_m为融合后的特征图；L1-范数可以作为特征图的作用程度的度量，由下式计算的初始作用程度图：

然后根据下式进行范围内的平均：

其中r＝1决定了一个像素是由以其为中心的3×3的范围内进行平均得到，之后可以通过下式进行融合图的生成：

进一步地，所述解码器包含四个3×3的卷积层，所述解码器的输入是所述融合层的输出。

进一步地，编码器-解码器采用下式的损失函数，由像素损失函数L_p和结构相似性损失函数L_ssim加权得到：

L_p＝||O-I||₂

L_ssim＝1-SSIM(O,I)

L＝λL_ssim+L_p

其中O和I分别表示输出图像和输入图像，L_p是O和I之间的欧几里得距离，SSIM()表示结构相似性，它表示所述输出图像和所述输入图像的所述结构相似性；在训练阶段，由于所述像素损失函数和所述结构性损失函数之间存在三个数量级的差异，因此将λ的值分别设置为1、10、100和1000。

进一步地，测试阶段，固定所述编码器和所述解码器网络的权重，将成对的图像分别输入所述编码器，再采用所述步骤2两种融合策略融合所述编码器获得的特征图，再把融合后的特征图送入所述解码器网络进行重建。

进一步地，所述YOLO-v3的网络采用Darknet-53框架，在三种不同的尺寸预测目标框，所述目标框的学习采用逻辑回归；分类网络可进行多标签多分类，所述逻辑回归层用sigmoid函数来实现，其可将输入转变为0到1之间输出，所以，图像经过特征提取后的某一类输出在所述sigmoid函数作用后，输出值大于0.5，则属于该类；检测网络中运用了类似特征金字塔网络的上采样结构和融合方法，网络的最后融合三种尺寸的特征图(13×13，26×26和52×52)，且网络采用全卷积结构，用卷积的步长来实现下采样，同时引入了残差结构。

本发明的有益效果为：多源图像融合为提高航空目标检测性能提供了可能。本发明的融合检测框架将编码网络与卷积层、融合层和密集卷积块相结合，其中每一层的输出彼此相连，以此编码的过程中从源图像中获取更多有用的特征，并采用两种融合策略，之后，通过解码器重建融合图像来实现特征级融合，最后将特征及融合结果送入YOLO-v3目标检测网络，实现深度多模态融合检测。实验结果表明，该方法在检测性能方面，较单模态有显著的提升，比检测网络直接学习两种模态的特征更有效。

附图说明

图1是本发明的一个较佳实施例的基于密集卷积块神经网络的航空目标融合检测方法的流程原理图；

图2为本发明密集卷积块原理图；

图3为本发明训练阶段编码器-解码器网络结构；

图4为本发明在不同数据集和策略上检测结果AP和mAP评价指标值对比图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

请参阅图1，一种基于密集卷积块神经网络的航空目标融合检测方法，包括以下步骤：

(1)采用包含密集卷积块的卷积结构作为编码阶段，获得可见光和红外航拍图像的有用特征。首先编码阶段通过一个3×3的卷积提取红外和可见光航拍图像的粗糙特征，然后紧接着的密集卷积块包含三个卷积层，密集卷积块中每层的输出紧密相连，密集卷积块结构见图2，以此从源图像模态中获取更多有用的特征。

(2)采用两种融合策略：特征图相加融合策略和L1-范数融合策略，对编码阶段得到的红外和可见光模态航拍图像的特征图进行融合。特别需要说明的是，在训练阶段，只考虑编码器-解码器网络，融合层暂时不考虑，网络结构见图3，训练过程尝试训练编码器-解码器网络以重建输入图像。在网络训练好之后，测试阶段，固定编码器和解码器网络的权重，将成对的红外-可见光图像分别输入编码器，再采用两种融合策略对编码阶段获得的特征图进行融合。

(3)解码阶段采用卷积结构来重构步骤(2)得到的特征级融合图像。

(4)将(3)重构的融合后的图像送入YOLO-v3目标检测框架来完成目标检测任务。YOLO-v3目标检测框架属于一阶段目标检测框架，把检测问题作为回归问题处理，一次看一整张图，学习目标的泛化表达。YOLO-v3的网络采用Darknet-53框架，在三种不同的尺寸预测目标框，分类网络可进行多标签多分类，网络中运用了类似特征金字塔网络的上采样结构和融合方法，网络的最后融合三种尺寸的特征图(13×13，26×26和52×52)，在融合多个尺寸的特征图上做检测，因此检测小目标的效果更好，且网络采用全卷积结构，用卷积的步长来实现下采样，同时引入了残差结构，预测精度表现较好。

在本发明的较佳实施例中，上述方法测试所使用的为红外图像与可见光图像。

多源图像融合为提高航空目标检测性能提供了可能。本发明的融合检测框架将编码网络与卷积层、融合层和密集卷积块相结合，其中每一层的输出彼此相连，以此编码的过程中从源图像中获取更多有用的特征，并采用两种融合策略，之后，通过解码器重建融合图像来实现特征级融合，最后将特征及融合结果送入YOLO-v3目标检测网络，实现深度多模态融合检测。实验结果表明，该方法在检测性能方面，较单模态有显著的提升，比检测网络直接学习两种模态的特征更有效。

图4从目标融合检测性能方面对本发明的基于密集卷积块神经网络的航空目标融合检测方法与红外、可见光单模态以及混合数据集训练的检测网络进行比较。

在基于密集卷积块神经网络的航空目标融合检测方法中，采用VehicleDetection in Aerial Imagery机载图像目标检测的数据集，该数据集具有可见光和红外配准好的图像，包含9个类别：plane,boat,camping car,car,pick-up,tractor,truck,van,other。

进行了五组实验：(1)用可见光航拍数据集训练YOLO-v3检测框架，对可见光航拍数据集进行检测；(2)用红外航拍数据集训练YOLO-v3检测框架，对红外航拍数据集进行检测；(3)用可见光和红外数据集混合训练YOLO-v3检测框架，使得网络可以学得可见光和红外图像的特征，对两种数据均可实现检测；(4)采用基于密集卷积块神经网络的深度多模态融合检测框架，采用特征图相加融合策略，将特征级融合结果送入YOLO-v3目标检测框架实现目标检测；(5)采用基于密集卷积块的深度多模态融合检测框架，采用L1-范数融合策略，将特征级融合结果送入YOLO-v3目标检测框架实现目标检测。共进行了五组训练，并用这五个网络框架做了七组测试。其中可见光和红外混合训练的网络框架，分别对可见光和红外的混合数据集、可见光数据集、红外数据集做了测试。以此对本发明的融合检测框架进行评估。

本发明提出的基于密集卷积块神经网络的航空目标融合检测方法的检测结果如图4所示。其中，第一列为目标的类别，第二列为用可见光航拍数据集训练YOLO-v3检测框架，对可见光航拍数据集进行检测的结果，第三列为用红外航拍数据集训练YOLO-v3检测框架对红外航拍数据集进行检测的结果，第四列为用可见光和红外数据集混合训练YOLO-v3检测框架，对混合数据集进行检测的结果，第五列为用可见光和红外数据集混合训练YOLO-v3检测框架，对红外数据集进行检测的结果，第六列为用可见光和红外数据集混合训练YOLO-v3检测框架，对可见光数据集进行检测的结果，第七列为采用基于密集卷积块的深度多模态融合检测框架，采用特征图相加融合策略，将特征级融合结果送入YOLO-v3目标检测框架得到的检测结果，第八列为采用基于密集卷积块的深度多模态融合检测框架，采用L1-范数融合策略，将特征级融合结果送入YOLO-v3目标检测框架得到的检测结果。

对实验结果进行分析，图4中加粗的数据为表现明显突出的数据。可以看到，检测结果mAP值在仅有红外数据集训练的情况下为17.71％，而仅有可见光数据集训练的情况下为19.73％，而直接用检测网络训练混合数据集，期望使网络同时具备识别红外和可见光图像特征的效果并不理想，虽然这种训练方式得到的目标检测框架对红外和可见光图像的效果有一点点提升，但是提升较少，整体mAP稍有下降，而本发明提出的基于密集卷积块神经网络的航空目标融合检测方法，将红外和可见光两种模态的图像进行了特征级融合，从检测结果来看，相比于直接用检测网络训练混合数据集的方式，mAP的提升较为明显，虽然在plane这种样本上，检测准确率AP值有所下降，但是可以看到，红外情况下，plane的检测准确率为0，可见光数据集中plane的检测率为33.33％，采用基于密集卷积块神经网络的深度多模态融合检测方法，虽然检测准确率有所下降，但是也符合实际情况，因为有一些飞机表面的涂层可以使得飞机的辐射特性微乎其微，因此在红外情况下检测不到，但是可见光图像中飞机是容易观测到的，那么采用融合方法后，把检测不到目标存在的红外图像和可以看到目标的可见光图像融合了之后，其实是在一定程度上削弱了目标的特征，因此检测结果有所下降，但经过深度多模态融合后，目标的轮廓更清晰了、边界也更明确了，因此在检测推理步骤中，预测的目标框是更贴合目标的，那么在算法最后的非极大值抑制的过程中，融合后的图像中目标的边界框与真值接近，IoU值自然也更大，因此包含目标的框不会被抑制掉，从而检测的准确率比在单模态下有所提高。总体上，在推理计算系统上的实验验证了本发明提出的基于密集卷积块神经网络的航空目标融合检测方法在整体的检测效果mAP上比单模态有五到六个百分点的提升，也验证了算法在困难样本上的有效性。从原理层面来讲，因为数据集是白天拍摄，因此可见光模态受环境的干扰并不是特别多，如果讲算法应用在夜间或者恶劣天气下的数据集上，该算法的效果应该会有更为明显的优势。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于密集卷积块神经网络的目标融合检测系统，其特征在于，包括编码器、融合层、解码器和检测网络四个部分，所述编码器用来提取图像特征，由两部分构成，分别是卷积层和密集块；所述融合层采用两种融合策略：1)特征图相加融合策略，2)L1-范数融合策略；所述解码器用来接收融合后的所述特征图，来重构最终融合图像；最后将所述最终融合图像送入YOLO-v3目标检测网络来完成目标检测的任务。

2.一种基于密集卷积块神经网络的目标融合检测方法，其特征在于，所述方法包括以下步骤：

步骤2、融合层采用两种融合策略：特征图相加融合策略和L1-范数融合策略，对所述编码阶段得到的所述可见光和所述红外航拍图像的特征图进行融合；

3.如权利要求2所述的一种基于密集卷积块神经网络的目标融合检测方法，其特征在于，所述步骤1还包括以下步骤：

步骤1.2、然后紧接着的是输出紧密相连的密集块。

4.如权利要求3所述的一种基于密集卷积块神经网络的目标融合检测方法，其特征在于，所述密集块包含三个卷积层，每个所述卷积层均为3×3的卷积结构，卷积核的大小取3×3以及卷积运算的步长取1。

5.如权利要求2所述的一种基于密集卷积块神经网络的目标融合检测方法，其特征在于，所述特征图相加融合策略是把所述特征图相加，融合公式如下式：

其中，

表示第k种数据的第m通道，m∈{1,...,64},k≥2,f_m为融合结果。

6.如权利要求2所述的一种基于密集卷积块神经网络的目标融合检测方法，其特征在于，所述L1-范数融合策略采用基于L1-范数和softmax运算的融合策略，特征图用

表示，作用程度的图像

是由L1-范数和基于块的平均算子计算得到的，f_m为融合结果L1-范数可以作为特征图的作用程度的度量，由下式计算的初始作用程度图：

然后根据下式进行范围内的平均：

7.如权利要求2所述的一种基于密集卷积块神经网络的目标融合检测方法，其特征在于，所述解码器包含四个3×3的卷积层，所述解码器的输入是所述融合层的输出。

8.如权利要求2所述的一种基于密集卷积块神经网络的目标融合检测方法，其特征在于，编码器-解码器采用下式的损失函数，由像素损失函数L_p和结构相似性损失函数L_ssim加权得到：

L_p＝||O-I||₂

L_ssim＝1-SSIM(O,I)

L＝λL_ssim+L_p

9.如权利要求2所述的一种基于密集卷积块神经网络的目标融合检测方法，其特征在于，测试阶段，固定所述编码器和所述解码器的网络的权重，将成对的图像分别输入所述编码器，再采用所述步骤2两种融合策略融合所述编码器获得的特征图，再把融合后的特征图送入所述解码器网络进行重建。

10.如权利要求2所述的一种基于密集卷积块神经网络的目标融合检测方法，其特征在于，所述YOLO-v3的网络采用Darknet-53框架，在三种不同的尺寸预测目标框，所述目标框的学习采用逻辑回归；分类网络可进行多标签多分类，所述逻辑回归层用sigmoid函数来实现，其可将输入转变为0到1之间输出，所以，图像经过特征提取后的某一类输出在所述sigmoid函数作用后，输出值大于0.5，则属于该类；检测网络中运用了类似特征金字塔网络的上采样结构和融合方法，网络的最后融合三种尺寸的特征图(13×13，26×26和52×52)，且网络采用全卷积结构，用卷积的步长来实现下采样，同时引入了残差结构。