CN113850324A

CN113850324A - 一种基于Yolov4的多光谱目标检测方法

Info

Publication number: CN113850324A
Application number: CN202111122617.7A
Authority: CN
Inventors: 党佳; 焦战威; 董敏; 孙钢灿; 吴嫚
Original assignee: Zhengzhou Haiwei Optoelectronic Technology Co ltd; Zhengzhou University
Current assignee: Zhengzhou Haiwei Optoelectronic Technology Co ltd; Zhengzhou University
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-28
Anticipated expiration: 2041-09-24
Also published as: CN113850324B

Abstract

本发明提出了一种基于Yolov4的多光谱目标检测方法，用以解决照明不良情况下的检测效果不良的问题。其步骤为：首先，制作可见光数据集以及对应的红外数据集，并对数据集进行预处理、增强及融合操作；其次，利用改进后的Yolov4网络对得到的最终的可见光数据集和红外数据集进行训练，得到目标检测模型；最后，将实时采集的多光谱图像输入步骤五中的目标检测模型，输出预测的目标位置。本发明能够检测出更多的小目标，且目标测速度得到提升；通过TMDF模块能够提升特征图在夜间的检测效果；利用mobilenetV3代替了CSPdarknet53，极大的减少了模型所需的参数，减轻模型的计算量，减少了对硬件的依赖，提高了模型的训练检测效率。

Description

一种基于Yolov4的多光谱目标检测方法

技术领域

本发明涉及目标检测技术领域，特别是指一种基于Yolov4的多光谱目标检测方法。

背景技术

目标检测是一种基于目标几何和统计特征的图像分隔，即在图像中找出所感兴趣的物体，包括物体定位和物体分类，同时确定物体的类别与位置，在日常生活及工作中，它实现了图像与文字、数字等精细类别的交互，因此被广泛应用于智能化交通、监控及医疗等系统中。

早期目标检测是采用采用滑动窗口的方法在图像上选择不同尺寸的候选区域，然后采用手工设计的特征对候选区域进行特征提取，最后使用训练好的分类器进行分类。早在2001年，Paul Viola和Michael J.Jones利用哈尔特征描述人脸不同区域的特征，建立积分图像，并利用Adaboost算法进行分类训练，最后经过非极大值抑制算法(Non-maximumuppression，NMS)得到人脸的检测结果。2005年，Dalal等人设计了方向梯度直方图(Histogram of Oriented Gradient，HOG)来统计物体的梯度和边缘方向信息，应用于行人检测。之后，在HOG算法的基础上，Felzenszwalb等人提出了可变形组件模型用于行人检测，即DPM(Deformable Parts Model)算法，它利用一个较大的根滤波器和若干较小的组件滤波器分别获取目标的整体和部件响应图，并与模板匹配得到最终的行人检测结果。DMP作为传统目标检测在物体分割、行为分类等方面得到广泛应用与肯定。

然而，传统目标检测算法存在一些弊端，一方面滑动窗口的区域选择方法对整幅图片进行遍历，会产生较多的冗余窗口，因此该部分时间复杂度较高，无法满足实时的应用需求，另外基于手工设计的特征往往只针对特定场景的目标物体，因此模型泛化能力较差。随着计算机运算能力的不断提升，基于深度学习的目标检测算法也如雨后春笋般层出不穷，经典的基于深度学习的目标检测算法可大致分两阶段的目标检测算法及单阶段的目标检测算法，随着人们需求的增强，传统的单一模态RGB图像不能完成在复杂情况下的信息处理。这时，多模态输入就体现出了优势，因为光谱图像能够检测物质的光辐射，并揭示目标物体的基本颜色属性，以避免同色异谱模糊，热图像可以基于物体的热辐射差异来捕获，这不依赖于外部光源，而飞行时间传感器提供目标场景的额外深度信息，最常见的不平衡问题是前景对背景的不平衡。例如，在多任务损失最小化中，不平衡问题存在，因为梯度的规范不同，损失函数的范围也不同。常见的解决方案是在每个损失函数上添加系数，以指导平衡的优化过程。同样，多光谱检测中的模态不平衡问题对算法性能有很大影响。

Yolov算法实现了速度与精度的完美配合，它在目标检测中可以发挥巨大作用，它可以在一张图片中识别多个不同种类的物体及将每个物体分割处理，得到每个物体的大小及尺寸，简而言之就是快速从一张图片中准确获取目标，在yolov目标检测的基础上，yolov-4采用了最优化的策略，可以更加提高CNN的准确性。

发明内容

针对上述背景技术中的不足，本发明提出了一种基于Yolov4的多光谱目标检测方法，采用多模态特征融合的方法，解决照明不良情况下的检测效果不良的问题。

本发明的技术方案是这样实现的：

一种基于Yolov4的多光谱目标检测方法，其步骤如下：

步骤一：数据集的获取：利用多光谱摄像头获取并制作可见光数据集以及对应的红外数据集；

步骤二：图像预处理：分别对可见光数据集和红外数据集中的图像进行自适应图片分割，并将分割后的图像统一缩放到标准尺寸；

步骤三：数据增强：利用Mosaic数据增强方式对标准尺寸的图像进行增强操作，得到增强后的可见光数据集和红外数据集；

步骤四：数据融合：采用TMDF模块对增强后的可见光数据集和红外数据集进行融合，分别得到最终的可见光数据集和红外数据集；

步骤五：模型训练：利用改进后的Yolov4网络对步骤四中得到的最终的可见光数据集和红外数据集进行训练，得到目标检测模型；所述改进后的Yolov4网络是：将Yolov4网络中的CSPdarknet53替换为mobilenetV3，将Yolov4网络中的PANet替换为DSPANet；

步骤六：模型预测：将实时采集的多光谱图像输入步骤五中的目标检测模型，输出预测的目标位置。

优选地，所述采用TMDF模块对增强后的可见光数据集和红外数据集进行融合的方法为：

其中，F_l'为TMDF模块处理过的可见光图像，F_l为增强后的可见光图像，F_v为增强后的红外图像，F_v'为TMDF模块处理过的红外图像，F_D为可见光图像与红外图像的差异特征图，GSP(·)表示全局平均池化操作，

表示元素相加操作，⊙表示逐元素相乘操作。

优选地，所述mobilenetV3网络包括CSP-bneckI、CSP-bneckII、CSP-bneckIII和CSP-bneckIV，CSP-bneckI的输入与Conv2的输出相连接，Conv2的输入为输入图像，CSP-bneckI的输出与CSP-bneckII的输入相连接，CSP-bneckII的输出分别与DSPANet的输入、CSP-bneckIII的输入相连接，CSP-bneckIII的输出分别与DSPANet的输入、CSP-bneckIV的输入相连接，CSP-bneckIV的输出与第一卷积模块的输入相连接，第一卷积模块的输出与SPP的输入相连接，SPP的输出与Concat-I的输入相连接，Concat-I的输出与DSPANet的输入相连接。

优选地，所述CSP-bneckI、CSP-bneckII、CSP-bneckIII和CSP-bneckIV的结构均包括CBM-I、bneck组、CBM-II、Concat-II、CBM-III和CBM-IV；CBM-I与bneck组相连接，bneck组与CBM-II相连接，CBM-II、CBM-IV均与Concat-II相连接，Concat-II与CBM-III相连接；其中，CSP-bneckI和CSP-bneckIV中的bneck组包括三个级联的bneck；CSP-bneckII中的bneck组包括五个级联的bneck；CSP-bneckIII中的bneck组包括六个级联的bneck；所述CBM-I、CBM-II、CBM-III和CBM-IV的结构均为卷积层-BN归一化层-Mish激活函数。

优选地，所述第一卷积模块的结构为CBL-DW-CBL，其中，CBL的结构为卷积层-BN归一化层-LeakyReLu激活函数，DW为深度可分离卷积。

优选地，所述DSPANet的结构包括第二卷积模块I、第二卷积模块II、第三卷积模块I和第三卷积模块II，第二卷积模块I的输入分别与CSP-bneckII的输出、CBL-上采样层II相连接，第二卷积模块I的输出分别与Head-I、下采样层I相连接；第二卷积模块II的输入分别与CSP-bneckIII的输出、CBL-上采样层I相连接，第二卷积模块II的输出分别与CBL-上采样层II、第三卷积模块I的输入相连接，第三卷积模块I的输出分别与Head-II、下采样层II相连接；第三卷积模块II的输入分别与Concat-I的输出、下采样层II相连接，第三卷积模块II的输出与Head-III相连接；Concat-I的输出还与CBL-上采样层I相连接。

优选地，所述第二卷积模块I和第二卷积模块II的结构均为CBL-Concat-CBL-DW-CBL-DW-CBL；所述第三卷积模块I和第三卷积模块II的结构均为CBL-Concat-CBL-DW-CBL-DW。

优选地，模型训练的回归损失函数为：

其中，CIOU_Loss为损失值，CIOU表示回归损失函数，IOU表示交集并集比，Distance_2表示最小外接矩形的对角线距离，Distance_C表示两中心线距离，v为衡量长宽比一致性的参数。

优选地，所述衡量长宽比一致性的参数v的计算方法为：

其中，w^gt表示预测框的宽度，h^gt表示预测框的高度，w^p表示目标框的宽度，h^p表示目标框的高度。

与现有技术相比，本发明产生的有益效果为：

1)本发明通过图像预处理的方法，能够检测出更多的小目标，且目标测速度得到提升；

2)为了解决特征模态不平衡的问题，本发明用不同的模态信息来增强一个模态和另一个模态，即通过TMDF模块能够提升特征图在夜间的检测效果；

3)本发明利用mobilenetV3代替了CSPdarknet53，极大的减少了模型所需的参数，减轻模型的计算量，减少了对硬件的依赖，提高了模型的训练检测效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明在Pascal voc 2007标准化的数据集进行图像预处理的检测结果；

图2为本发明在自制数据集进行图像预处理的检测结果；

图3为TMDF的结构图；

图4为本发明加入TMDF后的夜间检测结果；

图5为本发明的改进后的YOLOV4的网络结构图；

图6为mobilenetV3的结构图；

图7为CSP-bneck的结构图。

图8为Bneck的结构图；

图9为本发明方法对红外图像的检测结果，其中，(a)为10米红外图像的检测图，(b)为30米红外图像的检测图，(c)为50米红外图像的检测图；

图10为本发明方法对可见光图像的检测结果，其中，(a)为30米可见光图像的检测图，(b)为50米可见光图像的检测图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种基于Yolov4的多光谱目标检测方法，具体步骤如下：

步骤一：数据集的获取：利用多光谱摄像头获取并制作可见光数据集以及对应的红外数据集；将多光谱摄像头设置于不同场景，获得不同场景、大小、姿态、种类的异物的可见光视频和红外视频，通过技术手段截取视频中的图片作为制作数据集的材料。

制作Pascal voc 2007标准化的数据集，利用工具标注训练集图像中的每个目标，得到每个目标的类别、标注中心、标注长宽和位置信息，并以xml格式储存，最后将标注完的信息转换为txt格式文件。将处理后的不同类型的可见光图像数据存放于JPEG Images文件夹中；将生成的模型可读的xm1文件存放在Annotations文件夹中；在Imagesets文件夹下建立Main文件夹，并在该Main文件夹中新建test.txt、train.txt、trainval.txt、va.txt四个文件，即测试集、训练集、训练和验证集、验证集。红外图像用相同方法制作类似的数据集。

步骤二：图像预处理：分别对可见光数据集和红外数据集中的图像进行自适应图片分割，并将分割后的图像统一缩放到标准尺寸；以网络的输入608×608为例，Yolov3、Yolov4，Yolov5中下采样都使用了5次，三个特征图中，最大的76×76负责检测小目标，而对应到608×608上，每个特征图的感受野是608/76＝8×8大小，假设输入图片为7920×2160。判断图片大小，设置阈值，再将608×608对应到7680×2160上，以最长边7680为例，7680/608×8＝101。即如果原始图像中目标的宽或高小于101像素，网络很难学习到目标的特征信息。很多图像分辨率很大，如果简单的进行下采样，下采样的倍数太大，容易丢失数据信息。但是倍数太小，网络前向传播需要在内存中保存大量的特征图，极大耗尽GPU资源，很容易发生显卡爆炸显存爆炸，无法正常的训练及推理。因此本发明采用了一种新方法，即对大分辨率图片先进行分割，变成一张张小图，再进行检测，这种方法极大提高了小物体的检测准确率，但是也极大的增加了计算量。为了避免两张小图之间，一些目标正好被分割截断，所以两个小图之间设置overlap重叠区域，每个小图检测完成后，再将所有的框放到大图上，对大图整体做一次nms操作，将重叠区域的很多重复框去除。这样操作，可以将很多小目标检出。检测效果如图1和图2所示。

将预处理图片输入模型，运用了自适应图片缩放的方法，在常用的目标检测算法中，不同的图片长宽都不相同，因此常用的方式是将原始图片统一缩放到一个标准尺寸，再送入检测网络中，比如Yolo算法中常用416×416，608×608等尺寸。在项目实际使用时，很多图片的长宽比不同。因此缩放填充后，两端的黑边大小都不同，而如果填充的比较多，则存在信息冗余，影响推理速度。因此在代码中函数中进行了修改，对原始图像自适应的添加最少的黑边。图像高度上两端的黑边变少了，在推理时，计算量也会减少，即目标测速度会得到提升。

步骤三：数据增强：利用Mosaic数据增强方式对标准尺寸的图像进行增强操作，得到增强后的可见光数据集和红外数据集；基于Mosaic数据增强的改进算法：Yolov4中使用的Mosaic是参考2019年底提出的CutMix数据增强的方式，但CutMix只使用了两张图片进行拼接，而Mosaic数据增强则采用了4张图片，随机缩放、随机裁剪、随机排布的方式进行拼接。在实际测试中，发现Mosaic的表现并不稳定，原因是在于随机缩放、随机裁剪、随机排布的方式有可能丢失原有的图像特征信息，并且加剧图像分布的不平衡，本发明直接用loss作为反馈信号，来指导拼接图的使用。采用了一种“缺啥补啥”的简单思路：如果上一个迭代中，小物体产生的loss不足(比例小于一个阈值)，则下一个迭代就用拼接图。

为了解决特征模态不平衡的问题，用不同的模态信息来增强一个模态和另一个模态。以前基于深度卷积网络的RGB-T融合模型通常采用双流架构，其中RGB和热模态是独立学习的。最直接的方法是在不同的层次上连接特征，例如早期融合、中期融合以及后期融合。然而，用传统的直接级联方案获取跨模态互补信息是不明确的。两种模态都有自己的特征表示，其中混合了有用的暗示和噪声。而简单的融合策略，如线性组合或串联，缺乏清晰性来提取跨模态互补。这两种模态之间的内在差异可以通过一个TMDF模块(双模态差分融合算法)的显式简单机制来利用。受到差分放大器电路的启发，在该电路中，共模信号被抑制，差模信号被放大。本发明的TMDF模块保留了原有的功能，并根据不同的功能进行补偿。RGB卷积特征图FRand和热卷积特征图可以用每个通道的公共模态部分和差分模态部分表示，如图3所示。

所述采用TMDF模块对增强后的可见光数据集和红外数据集进行融合的方法为：

表示元素相加操作，⊙表示表示逐元素相乘操作操作。

对每个resnet残差块都插入TMDF，其具体结构如图3所示，先对可见光和红外特征直接相减获取差异特征，然后对差异特征做全局平均池化->tanh激活->对原始特征进行通道级reweight->reweight后的特征加到另一模态特征上。如图4所示，可以看到加入TMDF后特征图在夜间的效果明显提升。

步骤五：模型训练：利用改进后的Yolov4网络对步骤四中得到的最终的可见光数据集和红外数据集进行训练，得到目标检测模型；如图5所示，所述改进后的Yolov4网络是：将Yolov4网络中的CSPdarknet53替换为mobilenetV3，将Yolov4网络中的PANet替换为DSPANet。

直接用mobilenetV3代替了CSPdarknet53，极大的减少了模型所需的参数，减轻模型的计算量，减少了对硬件的依赖，提高了模型的训练检测效率；map值仍然可以达到86％，但是计算量得到极大程度的降低。mobilenetV3的结构图如图6所示。图6中，第一列Input代表mobilenetV3每个特征层的shape变化；第二列Operator代表每次特征层即将经历的block结构，我们可以看到在MobileNetV3中，特征提取经过了许多的bneck结构；第三、四列分别代表了bneck内逆残差结构上升后的通道数、输入到bneck时特征层的通道数。第五列SE代表了是否在这一层引入注意力机制。第六列NL代表了激活函数的种类，HS代表h-swish，RE代表RELU。第七列s代表了每一次block结构所用的步长。对于Yolov4来讲，需要利用主干特征提取网络获得的三个有效特征进行加强特征金字塔的构建。利用上一步定义的MobilenetV3函数可以获得Mobilenet网络对应的三个有效特征层。利用这三个有效特征层替换原来Yolov4主干网络CSPdarknet53的有效特征层。

所述mobilenetV3网络包括CSP-bneckI、CSP-bneckII、CSP-bneckIII和CSP-bneckIV；CSP-bneckI的输入与Conv2的输出相连接，Conv2的输入为输入图像，CSP-bneckI的输出与CSP-bneckII的输入相连接，CSP-bneckII的输出分别与DSPANet的输入、CSP-bneckIII的输入相连接，CSP-bneckIII的输出分别与DSPANet的输入、CSP-bneckIV的输入相连接，CSP-bneckIV的输出与第一卷积模块的输入相连接，第一卷积模块的输出与SPP的输入相连接，SPP的输出与Concat-I的输入相连接，Concat-I的输出与DSPANet的输入相连接。

如图7所示，所述CSP-bneckI、CSP-bneckII、CSP-bneckIII和CSP-bneckIV的结构均包括CBM-I、bneck组、CBM-II、Concat-II、CBM-III和CBM-IV；CBM-I与bneck组相连接，bneck组与CBM-II相连接，CBM-II、CBM-IV均与Concat-II相连接，Concat-II与CBM-III相连接；其中，CSP-bneckI和CSP-bneckIV中的bneck组包括三个级联的bneck；bneck的结构图如图8所示；CSP-bneckII中的bneck组包括五个级联的bneck；CSP-bneckIII中的bneck组包括六个级联的bneck；所述CBM-I、CBM-II、CBM-III和CBM-IV的结构均为卷积层-BN归一化层-Mish激活函数。

所述第一卷积模块的结构为CBL-DW-CBL，其中，CBL的结构为卷积层-BN归一化层-LeakyReLu激活函数，DW为深度可分离卷积。

如图5所示，所述DSPANet的结构包括第二卷积模块I、第二卷积模块II、第三卷积模块I和第三卷积模块II，第二卷积模块I的输入分别与CSP-bneckII的输出、CBL-上采样层II相连接，第二卷积模块I的输出分别与Head-I、下采样层I相连接；第二卷积模块II的输入分别与CSP-bneckIII的输出、CBL-上采样层I相连接，第二卷积模块II的输出分别与CBL-上采样层II、第三卷积模块I的输入相连接，第三卷积模块I的输出分别与Head-II、下采样层II相连接；第三卷积模块II的输入分别与Concat-I的输出、下采样层II相连接，第三卷积模块II的输出与Head-III相连接；Concat-I的输出还与CBL-上采样层I相连接。

所述第二卷积模块I和第二卷积模块II的结构均为CBL-Concat-CBL-DW-CBL-DW-CBL；所述第三卷积模块I和第三卷积模块II的结构均为CBL-Concat-CBL-DW-CBL-DW。

模型训练过程中需要利用loss反向传播更新参数；loss值需要对三个特征层进行处理，这里以最小的特征层为例。

1、利用y_true取出该特征层中真实存在目标的点的位置(m,19,19,3,1)及其对应的种类(m,19,19,3,80)。

2、将prediction的预测值输出进行处理，得到reshape后的预测值y_pre，shape为(m,19,19,3,85)。还有解码后的xy，wh。

3、对于每一幅图，计算其中所有真实框与预测框的IOU，如果某些预测框和真实框的重合程度大于0.5，则忽略。

4、计算ciou作为回归的loss，这里只计算正样本的回归loss。

5、计算置信度的loss，其有两部分构成，第一部分是实际上存在目标的，预测结果中置信度的值与1对比；第二部分是实际上不存在目标的，在第四步中得到其最大IOU的值与0对比。

6、计算预测种类的loss，其计算的是实际上存在目标的，预测类与真实类的差距。

其实际上计算的总的loss是三个loss的和，这三个loss分别是：a)实际存在的框，CIOU LOSS；b)实际存在的框，预测结果中置信度的值与1对比；实际不存在的框，预测结果中置信度的值与0对比，该部分要去除被忽略的不包含目标的框；c)实际存在的框，种类预测结果与实际结果的对比。

模型训练的损失函数的计算公式为：

所述衡量长宽比一致性的参数v的计算方法为：

步骤六：模型预测：将实时采集的多光谱图像输入步骤五中的目标检测模型，输出预测的目标位置。由上述步骤可以获得三个特征层的预测结果，轮廓大小分别为(N,19,19,255)，(N,38,38,255)，(N,76,76,255)的数据，对应每个图分为19x19、38x38、76x76的网格上3个预测框的位置。但是这个预测结果并不对应着最终的预测框在图片上的位置，还需要解码才可以完成。预测原理：3个特征层分别将整幅图分为19x19、38x38、76x76的网格，每个网络点负责一个区域的检测。特征层的预测结果对应着三个预测框的位置，先将其轮廓大小重置一下，其结果为(N,19,19,3,85)，(N,38,38,3,85)，(N,76,76,3,85)。最后一个维度中的85包含了4+1+80，分别代表x_offset、y_offset、h和w、置信度、分类结果。解码过程就是将每个网格点加上它对应的x_offset和y_offset，加完后的结果就是预测框的中心，然后再利用先验框和h、w结合计算出预测框的长和宽。这样就得到整个预测框的位置，并利用非极大抑制对整个预测框的位置进行筛选，得到最终的预测结果，得到预测结果后在原图上进行绘制，绘制结果如图8和图9所示。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Yolov4的多光谱目标检测方法，其特征在于，其步骤如下：

2.根据权利要求1所述的基于Yolov4的多光谱目标检测方法，其特征在于，所述采用TMDF模块对增强后的可见光数据集和红外数据集进行融合的方法为：

其中，F′_l为TMDF模块处理过的可见光图像，F_l为增强后的可见光图像，F_v为增强后的红外图像，F′_v为TMDF模块处理过的红外图像，F_D为可见光图像与红外图像的差异特征图，GSP(·)表示全局平均池化操作，

表示元素相加操作，⊙表示逐元素相乘操作。

3.根据权利要求1所述的基于Yolov4的多光谱目标检测方法，其特征在于，所述mobilenetV3网络包括CSP-bneckI、CSP-bneckII、CSP-bneckIII和CSP-bneckIV，CSP-bneckI的输入与Conv2的输出相连接，Conv2的输入为输入图像，CSP-bneckI的输出与CSP-bneckII的输入相连接，CSP-bneckII的输出分别与DSPANet的输入、CSP-bneckIII的输入相连接，CSP-bneckIII的输出分别与DSPANet的输入、CSP-bneckIV的输入相连接，CSP-bneckIV的输出与第一卷积模块的输入相连接，第一卷积模块的输出与SPP的输入相连接，SPP的输出与Concat-I的输入相连接，Concat-I的输出与DSPANet的输入相连接。

4.根据权利要求3所述的基于Yolov4的多光谱目标检测方法，其特征在于，所述CSP-bneckI、CSP-bneckII、CSP-bneckIII和CSP-bneckIV的结构均包括CBM-I、bneck组、CBM-II、Concat-II、CBM-III和CBM-IV；CBM-I与bneck组相连接，bneck组与CBM-II相连接，CBM-II、CBM-IV均与Concat-II相连接，Concat-II与CBM-III相连接；其中，CSP-bneckI和CSP-bneckIV中的bneck组包括三个级联的bneck；CSP-bneckII中的bneck组包括五个级联的bneck；CSP-bneckIII中的bneck组包括六个级联的bneck；所述CBM-I、CBM-II、CBM-III和CBM-IV的结构均为卷积层-BN归一化层-Mish激活函数。

5.根据权利要求3所述的基于Yolov4的多光谱目标检测方法，其特征在于，所述第一卷积模块的结构为CBL-DW-CBL，其中，CBL的结构为卷积层-BN归一化层-LeakyReLu激活函数，DW为深度可分离卷积。

6.根据权利要求3所述的基于Yolov4的多光谱目标检测方法，其特征在于，所述DSPANet的结构包括第二卷积模块I、第二卷积模块II、第三卷积模块I和第三卷积模块II，第二卷积模块I的输入分别与CSP-bneckII的输出、CBL-上采样层II相连接，第二卷积模块I的输出分别与Head-I、下采样层I相连接；第二卷积模块II的输入分别与CSP-bneckIII的输出、CBL-上采样层I相连接，第二卷积模块II的输出分别与CBL-上采样层II、第三卷积模块I的输入相连接，第三卷积模块I的输出分别与Head-II、下采样层II相连接；第三卷积模块II的输入分别与Concat-I的输出、下采样层II相连接，第三卷积模块II的输出与Head-III相连接；Concat-I的输出还与CBL-上采样层I相连接。

7.根据权利要求6所述的基于Yolov4的多光谱目标检测方法，其特征在于，所述第二卷积模块I和第二卷积模块II的结构均为CBL-Concat-CBL-DW-CBL-DW-CBL；所述第三卷积模块I和第三卷积模块II的结构均为CBL-Concat-CBL-DW-CBL-DW。

8.根据权利要求1-7任一项所述的基于Yolov4的多光谱目标检测方法，其特征在于，模型训练的回归损失函数为：

9.根据权利要求8所述的基于Yolov4的多光谱目标检测方法，其特征在于，所述衡量长宽比一致性的参数v的计算方法为：