CN113627504B

CN113627504B - 基于生成对抗网络的多模态多尺度特征融合目标检测方法

Info

Publication number: CN113627504B
Application number: CN202110878261.3A
Authority: CN
Inventors: 孙雁飞; 叶鑫海; 亓晋; 许斌
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2022-06-14
Anticipated expiration: 2041-08-02
Also published as: CN113627504A

Abstract

本发明公开了基于生成对抗网络的多模态多尺度特征融合目标检测方法，将可见光摄像设备和红外光摄像设备生成的图像分别传入到并行的预训练Darknet53网络中，尽可能提取出各自图像中深层次的特征数据，并在最后三个残差网络中提取出三种不同尺度的特征图，将两种模态多尺度的特征图传递给特征融合模块；使用基于条件生成对抗网络中预训练出的生成器将多模态多尺度的特征图进行深层次融合，使原始可见光模态的特征图中注入更多的目标特征信息；最后将生成的多尺度多模态融合特征图依次级联并传递到各个YOLO层完成目标检测任务。本发明可以产生最大程度接近于真实状况下的融合特征向量，从而提高目标检测模型在夜间环境下的检测效果。

Description

基于生成对抗网络的多模态多尺度特征融合目标检测方法

技术领域

本发明属于深度学习目标检测领域，特别涉及一种基于条件生成对抗网络的多模态多尺度特征融合目标检测方法。

背景技术

目标检测是计算机视觉领域一个重要的研究方向，在无人驾驶、视频安防监控、商场人流量统计等实际生产生活领域具有不可或缺的应用价值。近年来随着深度学习技术的快速发展，越来越多能够学习图像中语义、高水平、深层次特征的检测算法不断涌现。主流的深度学习目标检测算法主要分为两类，一类是两阶段的目标检测方法，即先生成候选区域，然后对候选区域进行分类和回归，例如Faster R-CNN；另一类是单阶段的目标检测方法，这类方法直接从图像中回归出物体的类别和坐标，无需生成候选框，代表的方法有YOLO（You Look Only Once）、SSD（Single Shot MultiBox Detector）等。虽然这些算法能够在常规的物理环境中能够得到很好的检测效果，但是一旦环境恶化，尤其是在夜间场景下，单纯以可见光摄像设备输出的画面难以达到高有效、高可靠、高鲁棒性的实时目标检测标准。

一般而言，可见光摄像设备的输出对物体具有较好的分辨率，但只有在良好的光照条件下才能得到理想的成像效果。而另一方面，红外录像设备对环境中的温度敏感、能够在可见光不足的条件下对物体成像，不过一般图像对比度低，成像质量不高，视觉分辨能力差。一种能够融合可见光与红外光设备输出的多尺度图像特征的目标检测方法自然而然地成为了解决上述问题的有效途径。

中国专利申请号：CN202010639950.4，发明创造名称：一种基于改进YOLO模型的多模态行人目标检测方法，使用并行特征提取网络提取可见光模态和红外光模态的多尺度特征图，并采用加权特征融合层和CBAM（Convolutional Block Attention Module，卷积块注意力模块）机制使可见光和红外光特征图进行更好的融合，再将多尺度注意力加权融合特征图依次级联并送入YOLO层中进行行人检测，从而提高了在夜间环境下目标多尺度、目标相互遮挡和夜间光照不足情况下的检测效果。但是，由于红外图像自身存在大量的模糊视觉信息，并且纹理细节缺失严重，其与可见光模态特征数据的融合本就是一个动态处理的过程。因而仅仅通过注意力机制实现的多模态特征加权模块难以从各种复杂状况下的红外光模态特征中抽取出深层次的特征信息，最终可能干扰到后续目标检测模块对小目标物体的检测效果。

发明内容

本发明的目的在于提供基于生成对抗网络的多模态多尺度特征融合目标检测方法，基于条件生成对抗网络（Conditional Generative Adversarial Nets，CGAN）预训练的生成器，融合级联后的可见光模态和红外光模态特征图，生成更接近于真实情况下的特征向量，并借助YOLOv3目标检测算法对设备成像中的多尺度目标进行检测，提高网络模型在夜间光照不足情况下的检测效果。

本发明公开的基于生成对抗网络的多模态多尺度特征融合目标检测方法，采用的技术方案为：将可见光摄像设备和红外光摄像设备生成的图像分别传入到并行的预训练Darknet53网络中，尽可能提取出各自图像中深层次的特征数据，并在最后的3个残差网络中提取出三种不同尺度的特征图。并将两种模态多尺度的特征图传递给特征融合模块；使用基于条件生成对抗网络中预训练出的生成器将多模态多尺度的特征图进行深层次融合，使原始可见光模态的特征图中注入更多的目标特征信息；最后将生成的多尺度多模态融合特征图依次级联并传递到各个YOLO层完成目标检测任务。

本发明公开的基于生成对抗网络的多模态多尺度特征融合目标检测方法，包括以下步骤：

S1：使用两个并行的预训练Darknet53网络作为特征提取网络，将可见光摄像设备和红外光摄像设备生成的图像分别传入到并行的预训练Darknet53网络中，对可见光摄像设备输出的可见光图像和红外光摄像设备输出的红外光图像进行多尺度特征提取，对图像中的大尺度目标进行深层次的特征提取，对小尺度目标进行浅层次的特征提取，输出相应的特征图；

S2：构建基于条件生成对抗网络的特征融合层，并使用可见光和红外光模态的样本数据训练鉴别器和生成器，经训练后的多模态融合特征层会根据实际输入的可见光特征图和红外光特征图共同导出融合更多目标特征信息的多模态融合特征图；

S3：将生成的多模态融合特征图依次级联并传递到各个YOLO层完成目标检测任务。

进一步地，所述Darknet53网络由五个残差模块组成，每个所述残差模块内部包含一个网络结构最小组件CBL和若干个残差组件，每个所述残差模块根据其所包含的残差组件数量被记为ResX。每一个所述残差组件由两个网络结构中最小组件CBL和一个张量相加add操作组成。

进一步地，所述并行Darknet53网络的两个分支会在最后三个残差模块中分别输出提取三个多尺度特征图，根据所输入的图像类型，将可见光图像输出的特征图分别记作

，红外光图像输出的特征图分别记作

。

所述S2中生成多模态融合特征图，包括如下步骤：

S201: Darknet53中同一残差模块提取出的可见光模态和红外光模态特征图先输入到对应多模态特征融合层的DCL中，DCL将输入的可见光模态特征图压缩转换到一个指定维度，然后加权传递到Concat层，DCL将输入的红外光模态特征图压缩转换到一个指定维度，然后加权分别传递到Concat层和鉴别器；其中，红外光模态特征图经过DCL输出的特征图传递到鉴别器，作为其真实样本的特征输入；

S202: Concat层输出初步的多模态融合特征图，每个尺度输出的初步融合特征图为：

其中，

是级联拼接函数，

是DCL层的输出函数，

是指定权值；

S203: 训练条件生成对抗网络时，初步融合特征图与一个指定分布噪声源产生的同维度噪声进行张量相加，然后输入到生成器网络中，生成多模态融合特征图传递给鉴别器网络，作为其伪样本的特征输入。

进一步地，在对抗训练的过程中，生成器生成的多模态融合特征图会逐渐包含更多的红外信息以起到目标强化和提高融合效果的作用，训练过程的优化目标函数为：

其中，

是分布函数的期望值，

为真实数据分布，

为噪声分布，D是鉴别器，G是生成器，z是噪声。

经训练过后抽取出的生成器网络，输入经过DCL + Concat的初步融合特征图会生成接近于真实情况的多模态融合特征图，分别记为

，并传递到下面的YOLO层继续进行目标检测的工作。

进一步地，将三个多模态特征融合层输出的融合特征图输入到各自的YOLO层中进行目标检测任务，输出检测结果，包括以下步骤：

S301:将接近于真实情况的多模态融合特征图中内含大尺度目标的多模态融合特征图N₁通过五个网络结构最小组件CBL，传递给YOLO1，输出较大目标的检测结果；

S302:将S301中经过五个CBL输出的特征图进行上采样 + 一个CBL层处理，然后执行与接近于真实情况的多模态融合特征图中内含中等尺度目标的多模态融合特征图进行张量拼接Concat，拼接后的特征图经过五个CBL层处理，传递给YOLO2，输出中等尺度目标的检测结果；

S303: 将S302中五个CBL输出的特征图进行上采样+一个CBL层处理，然后执行与接近于真实情况的多模态融合特征图中内含小尺度目标的多模态融合特征图进行张量拼接Concat，拼接后的特征图经过五个CBL层处理，传递给YOLO3，输出小尺度目标的检测结果。

本发明的有益效果是：本发明在可见光模态与红外光模态特征图的融合过程中采用基于条件生成对抗网络，根据博弈论思想使生成其中的特征分布逐渐趋近于鉴别器网络输入的特征数据，从而产生最大程度接近于真实状况下的融合特征向量，从而提高目标检测模型在夜间环境下的检测效果。

附图说明

图1为本发明公开的多模态多尺度特征融合目标检测网络框架。

图2为本发明公开的特征融合层中的生成对抗网络的训练模型。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参见图1多模态多尺度特征融合目标检测网络框架，本发明公开的基于生成对抗网络的多模态多尺度特征融合目标检测方法，包括如下步骤：

S1：使用两个并行的预训练Darknet53网络作为特征提取网络，将可见光摄像设备和红外光摄像设备生成的图像分别传入到并行的预训练Darknet53网络中，对可见光摄像设备输出的可见光图像和红外光摄像设备输出的红外光图像进行多尺度特征提取，输出相应的特征图。

其中，上述所使用的Darknet53特征提取网络，由5个残差模块组成，该模块内部包含一个网络结构最小组件CBL（卷积层Conventional Layer + 批归一化层BatchNormalization Layer + Leaky Relu激活函数）和若干个残差组件（Res Unit）。每一个残差模块根据其所包含的残差组件数量被记为ResX，分别为Res1、Res2、Res8、Res8、Res4。

而每一个残差组件（Res Unit）又由两个网络结构中最小组件CBL和一个张量相加add操作组成。这些残差组件的存在可以使得特征提取网络构建的更深，从而提取出图像中更深层次的图像特征。

Darknet53特征提取网络借鉴了特征金字塔网络（FPN，Feature pyramidnetwork）的思想，对图像中的大尺度目标进行深层次的特征提取而对较小尺度目标进行浅层次的特征提取。因此，并行Darknet53提取网络两个分支会在最后三个残差模块中分别输出提取三个多尺度特征图，根据所输入的图像类型，将可见光图像输出的特征图分别记作

，红外光图像输出的特征图分别为

。

在本实施例中，其中一个并行的Darknet-53特征提取网络首先输入一张长、宽、通道数为608*608*3的可见光图像，经过第一CBL后输出长、宽、通道数为608*608*32的特征图，接着该特征图会通过剩下的5个残差单元Res1、Res2、Res8、Res8、Res4分别输出长、宽、通道数为304*304*64（Res1）、152*152*128（Res2），76*76*256（Res8）、38*38*512（Res8）和19*19*1024（Res4）的特征图。本发明所述的多模态特融合层只会选择最后三个特征图76*76*256（Res8）、38*38*512（Res8）和19*19*1024（Res4）作为输入，并设为

。同样的，另一个并行的Darknet53网络也会输入一个长、宽、通道数为576*576*3红的红外光模态图像，并经过相同的步骤得到最后三个大小为72*72*1024、36*36*1024、18*18*1024的特征图，并设为

。

S2：构建基于条件生成对抗网络的特征融合层，并使用可见光和红外光模态的样本数据训练鉴别器和生成器，经训练后的多模态融合特征层会根据实际输入的可见光特征图和红外光特征图共同导出融合更多目标特征信息的多模态融合特征图。参见图2为特征融合层中的生成对抗网络的训练模型。

具体生成多模态融合特征图流程如下：

S201:考虑到可见光和红外光成像特征输出维度并不一致，因此Darknet53中同一残差模块提取出的可见光模态和红外光模态特征图需要各自先输入到对应多模态特征融合层的DCL（Dimension Conversion Layer，维度转换层）中。DCL将输入的可见光模态特征图压缩转换到一个指定维度，然后加权传递到Concat（张量拼接）层。由于可见光模态特征图中包含的特征信息更为丰富，而红外光模态特征图中的特性信息较少，所以初步融合的特征图中可见光模态的特征比重较大。基于此，DCL将输入的红外光模态特征图压缩转换到一个指定维度，然后加权分别传递到Concat（张量拼接）层和鉴别器。红外光模态特征图经过DCL输出的特征图传递到鉴别器，作为其真实样本的特征输入。

S202: Concat（张量拼接）层输出初步的多模态融合特征图，每个尺度输出的初步融合特征图为：

其中，

是级联拼接函数，

是DCL层的输出函数，

是指定权值；

S203: 训练条件生成对抗网络时，初步融合特征图会与一个指定分布（一般为高斯分布）噪声源产生的同维度噪声进行张量相加，然后输入到生成器网络中。生成器网络会生成多模态融合特征图传递给鉴别器网络，作为其伪样本的特征输入。

根据生成对抗网络博弈论的思想，在对抗训练的过程中，生成器生成的多模态融合特征图会逐渐包含更多的红外信息以起到目标强化和提高融合效果的作用。训练过程的优化目标函数为：

其中，

是分布函数的期望值，

为真实数据分布，

为噪声分布，D是鉴别器，G是生成器，z是噪声。

，并传递到下面的YOLO层继续进行目标检测的工作。

为了方便和更多图像特征的保留，该实施例将维度转换DCL目标边长分别设置为76、38和19。以最小尺寸大小的特征图为例，它会经过其所对应的多模态特征融合层，输出长宽通道数为19*19*1024的融合特征图，设为

。

S3：将三个多模态特征融合层输出的融合特征图输入到各自的YOLO层中进行目标检测任务，输出检测结果，具体步骤如下：

S301：将多模态融合特征图中内含中等尺度目标的多模态融合特征图

通过五个网络结构最小组件CBL，因为该特征图感受野较大，所以传递给YOLO1，输出较大目标的检测结果；

S302：将步骤S301中经过五个CBL输出的特征图进行上采样 + 一个CBL层处理，然后执行与多模态融合特征图中内含中等尺度目标的多模态融合特征图N₂输出进行张量拼接Concat，拼接后的特征图经过五个CBL层处理，因为该输出特征图感受野中等，所以传递给YOLO2，输出中等尺度目标的检测结果；

S303：将步骤S302中五个CBL输出的特征图进行上采样+一个CBL层处理，然后执行与多模态融合特征图中内含小尺度目标的多模态融合特征图N₁行张量拼接Concat，拼接后的特征图经过五个CBL层处理，因为该输出特征图感受野较小，所以传递给YOLO3，输出小尺度目标的检测结果。

在本实施例中，特征图

会在后续经过一系列的卷积层后进入YOLO1层，通过大小为(4+1+80)×3的卷积核进行目标边界框预测，其中4表示描述边界框的参数数量，1表示目标置信度参数的个数，80表示检测类别数量，3表示默认预设边界框数量。最终该支路会输出大小为19*19*255的特征图。根据实施步骤S301，该实施例就可以从中对大尺度的目标进行相应的检测。

本发明在可见光模态与红外光模态特征图的融合过程中采用基于条件生成对抗网络，根据博弈论思想使生成其中的特征分布逐渐趋近于鉴别器网络输入的特征数据，从而产生最大程度接近于真实状况下的融合特征向量，从而提高目标检测模型在夜间环境下的检测效果。

本发明在具体实施时，做好各类型状况下可见光和红外光成像设备的输出图像数据准备，并训练好相应的特征提取网络、用于特征融合的生成对抗网络以及目标检测网络，之后在实际场景下同时输入可见光图像和红外光图像检测其中存在的目标。

本发明采用并行Darknet53特征提取网络，利用特征金字塔网络结构思想，从不同模态的图像中提取出具有尺度针对性的特征图。并基于条件生成对抗网络构建多模态多尺度的特征融合层，将图像相同尺度下的各个模态特征图进行融合，输出多模态融合特征图。最后利用YOLO目标检测算法对最大程度还原真实状况的融合特征图进行分类别检测，从中检测出多种尺度下的图像目标。该方法特别适合在夜间等恶劣环境下的目标检测工作，显著地解决了传统目标检测算法在类似场景下的不足。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.基于生成对抗网络的多模态多尺度特征融合目标检测方法，其特征在于，包括以下步骤：

S2：构建基于条件生成对抗网络的特征融合层，并使用可见光和红外光模态的样本数据训练鉴别器和生成器，经训练后的多模态融合特征层会根据实际输入的可见光特征图和红外光特征图共同导出融合更多目标特征信息的模态融合特征图，包括如下步骤：

S201: Darknet53网络中同一残差模块提取出的可见光模态和红外光模态特征图先输入到对应多模态特征融合层的维度转换层中，维度转换层将输入的可见光模态特征图压缩转换到一个指定维度，然后加权传递到Concat层，维度转换层将输入的红外光模态特征图压缩转换到一个指定维度，然后加权分别传递到Concat层和鉴别器；其中，红外光模态特征图经过维度转换层输出的特征图传递到鉴别器，作为其真实样本的特征输入；

其中，

是级联拼接函数，

是维度转换层的输出函数，

是指定权值，

是可见光图像输出的特征图，

红外光图像输出的特征图；

S203: 训练条件生成对抗网络时，初步融合特征图与一个指定分布噪声源产生的同维度噪声进行张量相加，然后输入到生成器网络中，生成多模态融合特征图传递给鉴别器网络，作为其伪样本的特征输入；

S3：将生成的多模态融合特征图依次级联并传递到各个YOLO层完成目标检测任务，包括如下步骤：

S301:将多模态融合特征图中内含大尺度目标的多模态融合特征图通过五个网络结构最小组件CBL，传递给YOLO1，输出较大目标的检测结果；

S302:将S301中经过五个CBL输出的特征图进行上采样+一个CBL层处理，然后执行与多模态融合特征图中内含中等尺度目标的多模态融合特征图进行张量拼接Concat，拼接后的特征图经过五个CBL层处理，传递给YOLO2，输出中等尺度目标的检测结果；

S303: 将S302中五个CBL输出的特征图进行上采样+一个CBL层处理，然后执行与多模态融合特征图中内含小尺度目标的多模态融合特征图进行张量拼接Concat，拼接后的特征图经过五个CBL层处理，传递给YOLO3，输出小尺度目标的检测结果。

2.根据权利要求1所述的基于生成对抗网络的多模态多尺度特征融合目标检测方法，其特征在于，所述Darknet53网络由五个残差模块组成，每个所述残差模块内部包含一个网络结构最小组件CBL和若干个残差组件，每个所述残差模块根据其所包含的残差组件数量被记为ResX。

3.根据权利要求2所述的基于生成对抗网络的多模态多尺度特征融合目标检测方法，其特征在于，每一个所述残差组件由两个网络结构中最小组件CBL和一个张量相加add操作组成。

4.根据权利要求1所述的基于生成对抗网络的多模态多尺度特征融合目标检测方法，其特征在于，所述并行的预训练Darknet53网络的两个分支会在最后三个残差模块中分别输出提取三个多尺度特征图，根据所输入的图像类型，将可见光图像输出的特征图分别记作

，红外光图像输出的特征图分别记作

。

5.根据权利要求1所述的基于生成对抗网络的多模态多尺度特征融合目标检测方法，其特征在于，在对抗训练的过程中，生成器生成的多模态融合特征图会逐渐包含更多的红外信息以起到目标强化和提高融合效果的作用，训练过程的优化目标函数为：

其中，

是分布函数的期望值，

为真实数据分布，

为噪声分布。

6.根据权利要求5所述的基于生成对抗网络的多模态多尺度特征融合目标检测方法，其特征在于，经训练过后抽取出的生成器网络，输入经过维度转换 + Concat的初步融合特征图会生成接近于真实情况的多模态融合特征图，并传递到下面的YOLO层继续进行目标检测的工作。