CN114092844A

CN114092844A - 一种基于生成对抗网络的多波段图像目标检测方法

Info

Publication number: CN114092844A
Application number: CN202111391796.4A
Authority: CN
Inventors: 马金磊; 孟浩; 余爱国; 石璐璐; 左艳辉
Original assignee: China Helicopter Research and Development Institute
Current assignee: China Helicopter Research and Development Institute
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-25

Abstract

本发明提供了一种基于生成对抗网络的多波段图像目标检测方法，所述方法包括：基于VGG16分类模型得到鉴别器，基于并行卷积神经网络的多波段目标检测网络构建生成器；基于所述生成器和所述鉴别器得到生成对抗网络，基于所述生成对抗网络检测目标；本发明提出的检测方法的检测效果好，容易识别出一些复杂场景下的难检测目标；且网络结构简单。

Description

一种基于生成对抗网络的多波段图像目标检测方法

技术领域

本发明属于态势感知技术领域，尤其涉及一种基于生成对抗网络的多波段图像目标检测方法。

背景技术

红外图像与可见光图像具有很多互补的特性。红外传感器通过捕捉物体的热辐射成像，受光线、天气等条件的影响较小，且能够识别出伪装、遮挡下的目标，但红外传感器的成像分辨率较低，缺乏场景的细节信息。可见光传感器成像分辨率较高，且细节丰富，但成像系统在光线较暗时成像较差，且较难检测到受遮挡、伪装的目标。为此，将红外与可见光多波段图像相结合用于目标检测可充分利用两者的优势，有效弥补单一传感器的不足。

卷积神经网络在自然图像目标检测任务中取得了很大的成功，这驱使研究者们将卷积神经网络应用于红外与可见光多波段图像目标检测任务中。在特征级检测中，一个很重要的部分是利用卷积神经网络对红外图像和可见光图像分别提取特征，基于提取的特征才可进行后续的检测。

目前，基于卷积神经网络的多波段目标检测方法，大多采用两个相同的神经网络来提取红外与可见光图像特征，然而红外图像与可见光图像中的特征信息往往是不同的且互补的，仅仅利用一种网络不能将这些互补特征有效地提取出来，导致检测精度的降低。

在红外与可见光图像中，一些目标是很难检测的。例如，一些目标的纹理和形状与背景非常相似，图像中感兴趣的目标经常会被遮挡等。一般来讲，基于卷积神经网络的目标检测方法常常采用两种策略来处理难检测的目标。第一种策略是收集大规模的数据集，使数据集中尽可能多的包含各种复杂条件下的目标实例。采集自然场景下的图像是相对容易的，然而采集大规模复杂场景下的红外与可见光图像却是非常困难的。第二种策略是采用更深更复杂的卷积神经网络来提高检测方法的识别能力。尽管这些网络可以产生更好的检测结果，但这将大大增加计算和内存消耗。

发明内容

针对上述技术问题，本发明提供了一种基于生成对抗网络的多波段图像目标检测方法，所述方法包括：

基于VGG16分类模型得到鉴别器，基于并行卷积神经网络的多波段目标检测网络构建生成器；

基于所述生成器和所述鉴别器得到生成对抗网络，基于所述生成对抗网络检测目标。

优选地，所述鉴别器包括：

卷积层，由VGG16网络中的13个卷积层构成；

全连接层，由一个神经元构成，用于输出概率值。

优选地，所述鉴别器用于区分真样本和假样本；所述鉴别器输出的是一个在[0,1]范围内的概率值；其中，1代表真样本，0代表假样本。

优选地，所述方法还包括：

将所述生成器输出的检测结果设定为假样本；

将输入图像中真实的目标设定为真样本。

优选地，所述基于并行卷积神经网络的多波段目标检测网络构建生成器，包括：

所述生成器采用的目标检测框架是Faster R-CNN；并将所述Faster R-CNN中的单个卷积网络替换为并行卷积神经网络。

优选地，所述并行卷积神经网络包括：

第一网络，用于提取红外图像中目标的语义特征；

第二网络，用于提取可见光图像中的细节信息。

优选地，所述基于所述生成对抗网络检测目标，包括：

经过所述生成器和所述鉴别器不断地对抗学习，使得所述生成对抗网络识别出目标。

优选地，所述生成对抗网络仅在训练阶段中使用。

本发明的有益技术效果：

本发明提出的检测方法的检测效果好，容易识别出一些复杂场景下的难检测目标；且网络结构简单。

附图说明

图1是本发明实施例提供的基于并行卷积神经网络的目标检测算法流程图；

图2是本发明实施例提供的并行卷积神经网络的网络结构示意图；

图3是本发明实施例提供的基于生成对抗网络的目标检测算法流程图；

图4是本发明实施例提供的检测方法的检测结果示意图。

具体实施方式

针对提取互补特征困难的问题，提出一种并行的卷积神经网络来有效提取红外与可见光图像中的互补特征。考虑到红外图像通常包含的是目标的粗糙轮廓信息，而可见光图像中的目标具有更加丰富的细节信息。为红外图像设计了一个相对较深的卷积神经网络来提取目标的语义特征，而为可见光图像设计了一个相对较浅的卷积神经网络来提取目标的细节信息。利用这种精心设计的并行卷积神经网络，可以有效地提取出多波段图像中的互补特征。然后，将并行的卷积神经网络嵌入到目标检测框架Faster R-CNN中，可实现快速准确的多波段图像目标检测。

为提高难检测样本的精度，提出一种基于生成对抗网络的红外与可见光图像目标检测方法。生成对抗网络由一个生成器和一个鉴别器组成。生成器设定为基于并行卷积神经网络的多波段目标检测网络。生成器输出的检测结果设定为假样本，输入图像中真实的目标设定为真样本。采用VGG16分类模型作为鉴别器，负责区分真假样本。经过生成器与鉴别器不断地对抗学习，最终可使检测网络鲁棒地识别出难检测目标。下面是具体描述：

一、并行卷积神经网络

图1显示了基于并行卷积神经网络的多波段目标检测方法流程图。检测网络采用的目标检测框架是Faster R-CNN。为了提取红外与可见光图像中的互补特征，将Faster R-CNN中的单个卷积网络替换为了并行卷积神经网络。如图1所示，相对较深的“网络1”被用来提取红外图像中目标的语义特征，相对较浅的“网络2”被用来提取可见光图像中丰富的细节信息。然后将“网络1”和“网络2”提取的特征按通道进行拼接与融合。融合的特征一方面用于候选区域网络以生成多尺度、多长宽比的候选区域，另一方面用于候选区域的分类与回归，经过分类与回归，网络可输出检测结果。

图2显示了并行卷积神经网络的网络结构，可以看出该网络主要包括四部分：输入、网络1和网络2、特征拼接、特征融合。

(1)输入：并行卷积网络有两个输入，即红外图像与可见光图像。两幅图像都是单通道的灰度图像。

(2)网络1和网络2：“网络1”被设计为具有较多的卷积层，以有效提取红外目标的语义特征。采用VGG16分类模型中的13个卷积层来创建“网络1”。如图2所示，“conv”表示一个卷积层后接一个ReLU激活函数。“33 33 64”表示卷积层的滤波核大小为33 3，输出的通道数目为64。最大池化(“maxpooling”)穿插在卷积层中实现特征图的下采样。“网络2”被设计为具有较少的卷积层，负责提取可见光图像中丰富的细节信息。“网络2”共包含5个卷积层，最大的输出通道个数为256(“网络1”最大输出通道个数的一半)。

网络中的候选区域网络、RoI池化、全连接、分类和回归与Faster RCNN检测方法中的定义相同。

二、生成对抗网络

在本申请实施例中，本发明引入生成对抗网络来检测红外与可见光图像中难检测的目标。生成对抗网络由一个生成器和一个鉴别器组成。生成器设定为基于并行卷积神经网络的目标检测网络。将生成器输出的检测结果设定为假样本，将输入图像中真实的目标设定为真样本。鉴别器采用VGG16分类网络，负责区分真假样本。只要生成器输出的检测结果不正确，那么鉴别器就可以很容易地区分出真假样本。这种情况下，检测网络(生成器)将得到一个大的损失，通过不断反向传播以促使检测网络产生更准确的检测结果。生成对抗网络仅在训练阶段使用，不在测试阶段使用，因而可以在不增加测试计算量的情况下有效提升目标检测的精度。

其中，图3显示了基于生成对抗网络的目标检测算法流程图。可以看出，检测算法由两部分构成，即生成器G和鉴别器D。

(1)生成器G：将基于并行卷积神经网络的多波段目标检测算法作为生成器G。生成器的输入为红外与可见光多波段图像，输出为多波段图像的目标检测结果(由图3中红色矩形框表示)，为简单起见，检测结果显示在红外图像上。

(2)鉴别器D：鉴别器D负责鉴别输入样本是真样本还是假样本。假样本为生成器G的检测结果，真样本为多波段图像中的真实目标。鉴别器输出的是一个概率值，在[0,1]范围内，1代表真样本，0代表假样本。对于已训练好的生成器来讲，其生成的假样本几乎与真样本相同，这种情况下，鉴别器也无法区分真假，从而输出的概率值为0.5。鉴别器D采用VGG16分类模型，VGG16网络中的13个卷积层作为鉴别器D的卷积层。鉴别器将每个输入图像都放缩224 224。

训练过程中，生成器G和鉴别器D被同时训练；在测试过程中，仅使用生成器G来产生多波段图像目标检测结果。

三、网络训练

训练过程中，每次输入5个假样本(真样本)到鉴别器中；如果假样本(真样本)数量不足5个，就将所有的假样本(真样本)输入到鉴别器中；如果假样本(真样本)数量多于5个，就随机采样5个假样本(真样本)输入到鉴别器中。

生成器训练：采用端到端的训练策略，随机梯度下降优化算法被用来更新网络权重。利用在ImageNet数据集上训练的VGG16分类网络来初始化网络1，网络2和其他的网络层使用Xavier算法初始化。动量设置为0.9，权重衰减设置为0.0005，批大小设置为2。

鉴别器训练：鉴别器D采用随机梯度下降来更新网络权重，其中动量设置为0.9，权重衰减设置为0.0005。采用在ImageNet数据集上训练好的VGG16分类网络初始化鉴别器的13个卷积层。生成器和鉴别器同时进行训练。生成器与鉴别器在深度学习框架Pytorch上运行实现。

四、数据集

TRICLOBS是一个动态多波段图像数据集，包含已经配准的可见光、近红外、远红外三波段图像。数据集共有3个场景下的16个视频序列。场景中包括静止、行走、奔跑以及携带各种物品的人，还包括车辆、树木、建筑物等。将数据集中的可见光图像和远红外图像作为算法训练和测试所使用的多波段图像。具体来讲，从TRICLOBS数据集中共选取了527对红外与可见光多波段图像，其中265对图像用于训练，262对图像用于测试。本算法仅检测数据集中的“人”目标，即共有人和背景2个目标类别。数据集中图像的尺寸为640×480。

对训练集进行数据增广以防止网络过拟合。采用两种数据增广策略：水平翻转和高斯模糊(标准差设置为2)。经过数据增广，训练集增加到了795对红外与可见光图像。

采用评价指标均值平均精度(mAP)来定量评估本发明提出的检测方法的检测效果，mAP值越高，代表检测效果越好。本发明的mAP值为88.5％，已能够满足使用要求。

图4显示了本发明的一些输出检测结果，从检测结果可以看出，本发明提出的方法准确检测出了多波段图像中的每一个目标。

Claims

1.一种基于生成对抗网络的多波段图像目标检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述鉴别器包括：

卷积层，由VGG16网络中的13个卷积层构成；

全连接层，由一个神经元构成，用于输出概率值。

3.根据权利要求2所述的方法，其特征在于，所述鉴别器用于区分真样本和假样本；所述鉴别器输出的是一个在[0,1]范围内的概率值；其中，1代表真样本，0代表假样本。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

将所述生成器输出的检测结果设定为假样本；

将输入图像中真实的目标设定为真样本。

5.根据权利要求4所述的方法，其特征在于，所述基于并行卷积神经网络的多波段目标检测网络构建生成器，包括：

6.根据权利要求5所述的方法，其特征在于，所述并行卷积神经网络包括：

第一网络，用于提取红外图像中目标的语义特征；

第二网络，用于提取可见光图像中的细节信息。

7.根据权利要求6所述的方法，其特征在于，所述基于所述生成对抗网络检测目标，包括：

8.根据权利要求7所述的方法，其特征在于，所述生成对抗网络仅在训练阶段中使用。