CN113902994A

CN113902994A - 基于无人机与英伟达开发板的目标检测方法、系统及装置

Info

Publication number: CN113902994A
Application number: CN202111191844.5A
Authority: CN
Inventors: 王冠博; 丁洪伟; 杨志军; 柳虔林; 杨俊东; 杨超
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2022-01-07

Abstract

本发明公开一种基于无人机与英伟达开发板的目标检测方法、系统及装置，方法包括：构建改进型YOLO v4‑tiny模型；所述改进型YOLO v4‑tiny模型包括：初始卷积模块、第一沙漏型池化模块、第二沙漏型池化模块、第三沙漏型池化模块、第一池化特征增强模块、第二池化特征增强模块、拼接模块、第一输出模块和第二输出模块；利用训练集对改进型YOLO v4‑tiny模型进行训练，获得最终目标检测模型；利用视频采集卡获取无人机机载摄像头采集的视频流；将视频流输入至部署在英伟达开发板上的最终目标检测模型进行目标检测，输出目标检测结果。本发明通过改进型YOLO v4‑tiny模型既实现了无人机视频流实时检测，又通过地面设备解决了目标检测网络的计算能力受限的问题。

Description

基于无人机与英伟达开发板的目标检测方法、系统及装置

技术领域

本发明涉及图像目标检测技术领域，特别是涉及一种基于无人机与英伟达开发板的目标检测方法、系统及装置。

背景技术

基于深度学习的目标检测是图像处理领域的重要研究方向，主要包括两个方向，双阶段目标检测和单阶段目标检测。

双阶段目标检测的准确率更好，适用于对检测的精细度较高的场景。但其高准确率是以计算量为代价的，两阶段的目标检测网络通常具有较大的网络参数，更适合部署在高性能计算机上，并不适用于本发明。

单阶段目标检测牺牲了部分准确率，达到了准确率与实时性的均衡。当前基于无人机的目标检测主要采取单阶段的目标检测。但当前较为主流的单阶段目标检测算法，如YOLO，SSD等，仍需要较大计算量，无法直接将其应用至无人机，因此，目前一些发明通过无人机采集图像，然后在高性能计算设备上来对图像进行处理，检测效率较低，极大的限制了无人机在实际中的应用。

目前，计算机视觉领域主流的单阶段目标检测算法为YOLO v4。与YOLO v3相比，YOLO v4采用了mish激活函数，SPP(Spatial Pyramid Pooling)-YOLO，PANet(PathAggregation Network)等技术，模型性能整体优于YOLO v3。YOLO v4-tiny是基于YOLO v4提出的最新的轻量级目标检测算法。该算法通过卷积神经网络对输入图像进行特征提取，得到一系列不同尺寸的预测框，并输出对应预测框的尺寸。最后根据预测框的概率进行非最大抑制，画出最终的检测框。由于该算法是为移动设备设计的，神经网络设计的较浅，模型的参数量为6.817BFLOPs，权重文件为23.7Mb。这种设计方案虽然可以大幅度提升模型的实时性，但由于未采用任何神经网络的训练技巧，因此模型的准确率损失较大。模型整体仅级联了三个不同尺度的CSPNet，这使得模型对不同尺度的目标搜索范围较大，同时也降低了模型对目标的敏感度。

中国专利文献《一种基于YOLO v3的无人机视角下的小目标快速检测方法》一文中公开了一种无人机与目标检测结合的方法，包括获取图像、建立小目标检测网络、网络训练、网络剪枝四个步骤。该方法为无人机视角下的小目标检测提供了新思路，但模型采用的是YOLO v3-tiny，与本专利的YOLO v4-tiny在准确度和实时性上均有差距。此外，该方法并未实现无人机视频流的实时检测，这也限制了该方法的实际应用。

中国专利文献《一种无人机低空目标精准检测识别方法》一文提出了基于全卷积网络的无人机图像的目标检测识别方法。该方法将无人机与现实世界相结合，建立了相机成像坐标系，可提升不同尺度目标的识别精度。但该方法并未搭载至无人机，也并未实现实时的目标检测。

中国专利文献《一种机载图像无人机目标自适应检测方法》一文提出将无人机机载计算机搭载目标检测网络进行实时检测的方法。该方法包括预训练初始模型、预训练检测模型、加载模型至无人机机载计算机三个步骤。该方法实现了无人机视频流的实时检测，但由于机载无人机计算能力有限，目标检测网络的实时性可能会受到影响。此外，机载计算机会增加无人机的负载；且机载无人机的目标检测计算功率较大，这些因素都会影响到无人机续航，限制了在现实中的应用。

另外，现有的对无人机视频进行检测的技术大致分为两类。一类是采用无人机进行数据采集，再将视频文件输入至计算机的目标检测网络。这种方法并未实现视频流的实时检测处理，时效性较低，现实意义不大。另一类方法是采用轻量级目标检测网络，通过无人机机载的微处理器来对视频流进行实时检测。这种方法时效性高，但也存在诸多问题。首先是机载微处理器的计算能力问题。目前的目标检测网络都是基于深度卷积神经网络(Deep Convolutional Neural Network，DNN)，对硬件设备的计算能力要求较高。受限于机载微处理器的低计算力，这种目标检测网络无法做深、做大，这会直接影响模型的性能。其次是无人机的续航问题。若采用机载微处理器，开发板的重量和神经网络的推理过程都会额外增加无人机系统的功耗，从而影响无人机的续航时间。

基于以上技术方案的缺陷，如何解决既能实现对无人机视频流实时检测，还能解决目标检测网络的计算能力受限的问题成为本领域亟需解决的技术问题。

发明内容

本发明的目的是提供一种基于无人机与英伟达开发板的目标检测方法、系统及装置，以解决目标检测网络的计算能力受限的问题。

为实现上述目的，本发明提供了一种基于无人机与英伟达开发板的目标检测方法，所述方法包括：

步骤S1：构建改进型YOLO v4-tiny模型；所述改进型YOLO v4-tiny模型包括：初始卷积模块、第一沙漏型池化模块、第二沙漏型池化模块、第三沙漏型池化模块、第一池化特征增强模块、第二池化特征增强模块、拼接模块、第一输出模块和第二输出模块；

步骤S2：利用训练集对改进型YOLO v4-tiny模型进行训练，获得最终目标检测模型；

步骤S3：利用视频采集卡获取无人机机载摄像头采集的视频流；所述视频流包括多张连续图像；

步骤S4：将所述视频流输入至部署在英伟达开发板上的最终目标检测模型进行目标检测，输出目标检测结果。

可选地，所述利用训练集对改进型YOLO v4-tiny模型进行训练，获得最终目标检测模型，具体包括：

步骤S21：将数据集Pascal VOC、数据集MS COCO和数据集Visdron中任意一个作为训练集时，则训练集中的图像输入至改进型YOLO v4-tiny模型进行训练，利用总损失函数计算损失值，直至满足第一终止条件，选取最小损失值或最大准确度对应的改进型YOLOv4-tiny模型作为最终目标检测模型。

步骤S21：将数据集Pascal VOC、数据集MS COCO和数据集Visdron中任意两个作为训练集时，则任意选取一个数据集中的图像输入至改进型YOLO v4-tiny模型进行训练，利用总损失函数计算损失值，直至满足第一终止条件，选取最小损失值或最大准确度对应的改进型YOLO v4-tiny模型作为第一目标检测模型；

步骤S22：将另一个数据集中的图像输入至第一目标检测模型进行训练，利用总损失函数计算损失值，直至满足第二终止条件，选取最小损失值或最大准确度对应的第一目标检测模型作为最终目标检测模型。

步骤S21：将数据集Pascal VOC、数据集MS COCO和数据集Visdron构成训练集时，则数据集Pascal VOC中的图像输入至改进型YOLO v4-tiny模型进行训练，利用总损失函数计算损失值，直至第一满足终止条件，选取最小损失值或最大准确度对应的改进型YOLOv4-tiny模型作为第一目标检测模型；

步骤S22：将数据集MS COCO中的图像输入至第一目标检测模型进行训练，利用总损失函数计算损失值，直至满足第二终止条件，选取最小损失值或最大准确度对应的第一目标检测模型作为第二目标检测模型；

步骤S23：将数据集Visdron中的图像输入至第二目标检测模型进行训练，利用总损失函数计算损失值，直至满足第三终止条件，选取最小损失值或最大准确度对应的第二目标检测模型作为最终目标检测模型。

可选地，所述总损失函数的具体计算公式为：

其中，L为总损失函数，L_DIOU为定位损失函数，L_cls为目标置信度损失函数，L_class为分类损失函数，ρ(B,B^gt)为对无人机图像预测框B中心点与真实框B^gt中心点的欧氏距离，c为无人机图像的预测框与真实框相距最远的顶点的距离，IOU为预测框和真实框的交并比。

可选地，所述第一沙漏型池化模块包含1个沙漏型CSPNet模块和1个最大池化层；其中沙漏型CSPNet模块包括：2个膨胀率为5的膨胀卷积层、2个卷积层、特征融合层add和特征融合层Concat；第2个卷积层采用1*1的卷积核，步长为1，滤波器数量为32；初始卷积模块与第1个膨胀卷积层连接，第1个膨胀卷积层分别与第1个卷积层和特征融合层Concat连接，第1个卷积层与第2个卷积层连接，第2个卷积层与和第1个卷积层分别与特征融合层add连接，特征融合层add与第2个膨胀卷积层连接，第2个膨胀卷积层与特征融合层Concat连接，特征融合层Concat与最大池化层连接；

所述第二沙漏型池化模块包含1个沙漏型CSPNet模块和1个最大池化层；其中沙漏型CSPNet模块包括：2个膨胀率为3的膨胀卷积层、2个卷积层、特征融合层add和特征融合层Concat；第2个卷积层采用1*1的卷积核，步长为1，滤波器数量为64；所述第一沙漏型池化模块中的最大池化层与所述第二沙漏型池化模块中的第1个膨胀卷积层连接，第1个膨胀卷积层分别与第1个卷积层和特征融合层Concat连接，第1个卷积层与第2个卷积层连接，第2个卷积层与和第1个卷积层分别与特征融合层add连接，特征融合层add与第2个膨胀卷积层连接，第2个膨胀卷积层与特征融合层Concat连接，特征融合层Concat与最大池化层连接；

所述第三沙漏型池化模块包含1个沙漏型CSPNet模块和1个最大池化层；其中沙漏型CSPNet模块包括：2个膨胀率为1的膨胀卷积层、2个卷积层、特征融合层add和特征融合层Concat；第2个卷积层采用1*1的卷积核，步长为1，滤波器数量为128；所述第二沙漏型池化模块中的最大池化层与所述第三沙漏型池化模块中的第1个膨胀卷积层连接，第1个膨胀卷积层分别与第1个卷积层和特征融合层Concat连接，第1个卷积层与第2个卷积层连接，第2个卷积层与和第1个卷积层分别与特征融合层add连接，特征融合层add与第2个膨胀卷积层连接，第2个膨胀卷积层与特征融合层Concat连接，特征融合层Concat与最大池化层连接；

所述第一池化特征增强模块包括：1个卷积层、1个最大池化层、1个平均池化层、1个上采样层和1个叠加层；卷积层的卷积核为1*1，步长为1，滤波器数量为128；最大池化层的尺寸为3*3，步长为2；卷积层与第一沙漏型池化模块中的最大池化层连接，卷积层分别与最大池化层和平均池化层连接，平均池化层与上采样层连接，上采样层和最大池化层分别与叠加层连接，叠加层与拼接模块连接；

所述第二池化特征增强模块包括：1个卷积层、1个最大池化层、1个平均池化层、1个上采样层和1个叠加层；卷积层的卷积核为1*1，步长为1，滤波器数量为256；最大池化层的尺寸为3*3，步长为1；卷积层与第二沙漏型池化模块中的最大池化层连接，卷积层分别与最大池化层和平均池化层连接，平均池化层与上采样层连接，上采样层和最大池化层分别与叠加层连接，叠加层与拼接模块连接。

本发明还提供一种基于无人机与英伟达开发板的目标检测系统，所述系统包括：

模型构建模块，用于构建改进型YOLO v4-tiny模型；所述改进型YOLO v4-tiny模型包括：初始卷积模块、第一沙漏型池化模块、第二沙漏型池化模块、第三沙漏型池化模块、第一池化特征增强模块、第二池化特征增强模块、拼接模块、第一输出模块和第二输出模块；

训练模块，用于利用训练集对改进型YOLO v4-tiny模型进行训练，获得最终目标检测模型；

视频流获取模块，用于利用视频采集卡获取无人机机载摄像头采集的视频流；所述视频流包括多张连续图像；

目标检测模块，用于将所述视频流输入至部署在英伟达开发板上的最终目标检测模型进行目标检测，输出目标检测结果。

可选地，所述训练模块，具体包括：

最终目标检测模型确定单元，用于将数据集Pascal VOC、数据集MS COCO和数据集Visdron中任意一个作为训练集时，则训练集中的图像输入至改进型YOLO v4-tiny模型进行训练，利用总损失函数计算损失值，直至满足终止条件，选取最小损失值或最大准确度对应的改进型YOLO v4-tiny模型作为最终目标检测模型。

可选地，所述总损失函数的具体计算公式为：

本发明还提供一种基于无人机与英伟达开发板的目标检测装置，所述装置包括：

无人机机载摄像头，用于采集视流；

视频采集卡，与所述无人机机载摄像头连接，用于将采集的图像流进行格式转换；

内部部署最终目标检测模块的发英伟达开发板，将所述视频流输入至最终目标检测模型进行目标检测，输出目标检测结果；所述最终目标检测模型包括：初始卷积模块、第一沙漏型池化模块、第二沙漏型池化模块、第三沙漏型池化模块、第一池化特征增强模块、第二池化特征增强模块、拼接模块、第一输出模块和第二输出模块。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明对轻量级目标检测网络YOLO v4-tiny重新进行了设计，并将其部署至地面设备(即英伟达Jetson Xavier NX开发板)上，通过英伟达Jetson Xavier NX开发板对无人机实时传回的视频流进行检测。本发明既实现了无人机视频流实时检测，又通过地面设备解决了目标检测网络的计算能力受限的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于无人机与英伟达开发板的目标检测方法流程图；

图2为原始的YOLO v4-tiny算法中池化模块结构图；

图3为原始的YOLO v4-tiny算法示意图；

图4为本发明改进的YOLO v4-tiny算法中沙漏型CSPNet模块结构图；

图5为本发明改进的YOLO v4-tiny算法示意图；

图6为本发明基于无人机与英伟达开发板的目标检测系统结构图；

图7为本发明实验结果对比示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

如图1所示，本发明公开一种基于无人机与英伟达开发板的目标检测方法，所述方法包括：

步骤S1：构建改进型YOLO v4-tiny模型；所述改进型YOLO v4-tiny模型包括：初始卷积模块、第一沙漏型池化模块、第二沙漏型池化模块、第三沙漏型池化模块、第一池化特征增强模块、第二池化特征增强模块、拼接模块、第一输出模块和第二输出模块，具体如图5所示。

步骤S2：利用训练集对改进型YOLO v4-tiny模型进行训练，获得最终目标检测模型。

步骤S3：利用视频采集卡获取无人机机载摄像头采集的视频流；所述视频流包括多张连续图像。

下面对各个步骤进行详细论述：

本发明在不考虑便携性的前提下，如需更高的检测精度和更高性能的模型，可将地面设备(英伟达Jetson Xavier NX开发板)替换为搭载大型目标检测模型的高性能计算机。

如图3所示，原始的YOLO v4-tiny算法是一个具有6个级联模块的卷积神经网络模型，其结构依次是：初始卷积模块→第一池化模块→第二池化模块→第三池化模块→第一输出模块→第二输出模块。

初始卷积模块包含三个卷积核，尺寸为3×3、步长为2、滤波器数量分别为32、64、64，对输入图像进行初步特征提取，输出特征图尺寸为104×104×64。

第一池化模块包含CSPNet模块和最大池化层MaxPool。图2给出了CSPNet模块的具体结构，包含4个级联的卷积层Conv和1个拼接层Concat。第一个卷积层卷积核尺寸为3×3，步长为1，滤波器数量为64；第二个卷积层卷积核尺寸为3×3，步长为1，滤波器数量为32；第三个卷积层卷积核尺寸为3×3，步长为1，滤波器数量为32；第四个卷积层卷积核尺寸为3×3，步长为1，滤波器数量为64。其中，CSPNet模块的4个卷积层采用了残差结构进行连接，第三个卷积层的输出特征图与第二个卷积层的输出特征图通过特征融合层Cocat采用特征融合的方式输出至第四个卷积层；第四个卷积层的输出特征图与第一个卷积层的输出特征图输入拼接层进行拼接后输出至最大池化层MaxPool。最大池化层的尺寸为2×2，步长为2，可减少输出特征的参数量，提高模型的处理速度，经过最大池化层输出后的特征图尺寸为52×52×128。

第二池化模块包含CSPNet模块和一个尺寸为2×2、步长为2的最大池化层MaxPool。其中，CSPNet模块与上一层的CSPNet模块的整体结构相同，仅在滤波器数量上有所区别。这层的CSPNet模块4个级联卷积层的滤波器数量分别为128、64、64、128，输出特征图尺寸为26×26×256。

第三池化模块包含CSPNet模块和一个尺寸为2×2、步长为2最大池化层MaxPool。其中，CSPNet模块与上一层的CSPNet模块的整体结构相同，仅在滤波器数量上有所区别。这层的CSPNet模块4个级联卷积层的滤波器数量分别为256、128、128、256，输出特征图尺寸为13×13×512。

第一个输出模块包含4个级联的卷积层Conv和1个检测层。第一个卷积层卷积核尺寸为3×3，步长为1，滤波器数量为512；第二个卷积层卷积核尺寸为3×3，步长为1，滤波器数量为256；第三个卷积层卷积核尺寸为3×3，步长为1，滤波器数量为256；第四个卷积层卷积核尺寸为1×1，步长为1，滤波器数量为18；检测层输出特征图尺寸为13×13×18。

第二个输出模块包含3个级联的卷积层Conv、1个上采样层Upsample和1个检测层。第一个卷积层卷积核尺寸为1×1，步长为1，滤波器数量为128；第二个卷积层卷积核尺寸为3×3，步长为1，滤波器数量为256；第三个卷积层卷积核尺寸为1×1，步长为1，滤波器数量为18；上采样层的上采样倍数为2。其中，第一个卷积层的输入特征图为第一个输出模块中第二个卷积层输出的特征图，经过第二个输出模块的第一个卷积层之后，进行一个上采样操作，与第二池化模块中的第四个卷积层进行特征融合后输出至第三个卷积层，最后经过检测层输出特征图尺寸为26×26×18。

本发明构建的改进型YOLO v4-tiny模型是针对原始的YOLO v4-tiny算法进行改进，主要包括三方面：1.损失函数的改进；2.引入不同尺度的沙漏型CSPNet模块；3.引入两个池化特征增强模块。

1.损失函数的改进。

YOLO v4-tiny的损失函数有三部分，可表示为：L_tiny＝L_ciou+L_cls+L_class。其中，L_ciou为定位损失函数，L_cls为目标置信度损失函数，L_class为分类损失函数。其中，定位损失函数可衡量预测的边界框位置和框大小的误差；目标置信度损失函数可反映检测过程中类别是否均衡；分类损失函数为每个类别的条件类别概率的平方误差。由于无人机航拍图像的特征尺度变化较大，在检测的过程中容易出现虚检、漏检的现象，因此本发明对定位损失函数进行改进，改进后的公式L_ciou如下：

L_ciou的表达式为：

其中，β为权重函数，ρ为本算法对无人机图像的预测框与真实框中心点的欧氏距离，w^gt、h^gt为真实框的宽和高，w、h为预测框的宽和高，c为无人机图像的预测框与真实框相距最远的顶点的距离，B为预测框面积B^gt为预测框和真实框的交并比，

模型将第一个输出模块(即第1个YOLO模块)和第二个输出模块(即第2个YOLO模块)的检测结果的预测框与真实框进行比较，得到相关参数。最终通过公式

计算得到本算法的定位损失。

CIOU考虑了预测框与真实框之间的欧氏距离、重叠率、尺度特征、预测框的宽高比。在对宽高比有一定规律的目标(比如人、汽车等)进行检测时，能获取目标真实框的宽高比，从而可提高目标检测的准确率。但无人机采集的图像特征较为复杂，且尺度变化较大，宽高比没有特定的规律。若采用CIOU使模型学习到部分类似大小真实框的宽高比，则可能使模型对其它宽高比的图像造成误判，反而会降低模型的鲁棒性。CIOU对应的英文详见表1。

综上，本发明采用DIOU(Distance-IoU)改进定位损失函数L_DIOU，具体公式为:

式中，L_DIOU为定位损失函数，ρ为预测框与真实框中心点的欧氏距离，c为包含预测框和真实框最小矩形框的对角线距离。DIOU包含了预测框和真实框中心点的欧氏距离、重叠度等特征，但没有考虑真实框的宽高比。因此，针对无人机采集的图像的宽高比没有固定比例的特点，DIOU能更好的反映预测框与真实框的关系，能有效增强模型的泛化能力。DIOU对应的英文详见表1。

综上可得，本发明改进后的总损失函数的具体计算公式为：

2.引入不同尺度的沙漏型CSPNet模块。

原始YOLO v4-tiny算法采用三个级联的池化模块。为获取更丰富的航拍图像细节特征，CSPNet模块采用残差结构进行连接。YOLO v4-tiny仅采用了传统的卷积级联结构，与其他目标检测算法相比，在检测速度上有较大的优势，但由于网络结构较为简单，无法适应多尺度的无人机航拍检测对象。针对该问题，本发明通过引入膨胀卷积，提出沙漏型CSPNet模块的结构。

膨胀卷积可在保持参数量和相同卷积核尺寸的情况下获取更高分辨率的特征。令F为满足

的离散函数，令

令k为尺寸为(2r+1)²的离散滤波器，满足

令l为膨胀卷积的膨胀系数，则膨胀卷积运算符*_l可定义为：

膨胀卷积既带有常规卷积层的卷积滤波功能，也具有池化层的泛化作用。此外，膨胀卷积不会随着stride的增加而减小特征图尺寸，可扩大模型的感受野，获取更高分辨率的特征图。将膨胀卷积应用于CSPNet的base layer和partialtransition，可以极小的计算代价，拓宽CSPResNet感受野。因此，本发明采用不同膨胀率的膨胀卷积，拓宽特征图尺寸，缓解梯度混淆的问题进而提升模型性能。

本发明改进算法采用三个不同膨胀率的沙漏型CSPNet模块来替换原始算法中的CSPNet模块，沙漏型CSPNet模块如图4所示，沙漏型CSPNet模块结构整体与CSPNet模块相同，采用残差结构。由于网络浅层的特征图尺寸较大，网络深层的特征图尺寸较小，因此本发明的改进算法在网络浅层采取较大的膨胀率，在网络深层采用较小的膨胀率。

第一个沙漏型池化模块包括：1个沙漏型CSPNet模块和1个最大池化层MaxPool；其中沙漏型CSPNet模块包括：2个膨胀卷积层、2个卷积层和1个特征融合层；初始卷积模块与第1个膨胀卷积层连接，第1个膨胀卷积层分别与第1个卷积层和特征融合层Concat连接，第1个卷积层与第2个卷积层连接，第2个卷积层与和第1个卷积层分别与特征融合层add连接，特征融合层add与第2个膨胀卷积层连接，第2个膨胀卷积层与特征融合层Concat连接，特征融合层Concat与最大池化层连接；其中，第一膨胀卷积层(即第1个膨胀卷积层)和第四膨胀卷积层(即第2个膨胀卷积层)的膨胀率为5，其他参数与原始模型对应的CSPNet模块的对应卷积层保持一致。第二卷积层(即第1个卷积层)的参数与原始模型的CSPNet模块对应卷积层保持一致，第三卷积层(即第2个卷积层)采用1*1的卷积核，步长为1，滤波器数量为32。沙漏型池化模块的4个卷积层采用了残差结构进行连接，第三卷积层的输出特征图与第二卷积层的输出特征图通过特征融合层add采用特征融合的方式输出至第四膨胀卷积层(即3*3膨胀Conv)；第四膨胀卷积层的输出特征图与第一膨胀卷积层的输出特征图通过特征融合层Cocat采用特征融合的方式输出至最大池化层MaxPool。最终输出特征图尺寸为52×52×128。

第二个沙漏型池化模块包括：1个沙漏型CSPNet模块和1个最大池化层MaxPool；其中沙漏型CSPNet模块包括：2个膨胀卷积层、2个卷积层和1个特征融合层，其中第一膨胀卷积层(即第1个膨胀卷积层)和第四膨胀卷积层(即第2个膨胀卷积层)的膨胀率为3。所述第一沙漏型池化模块中的最大池化层与所述第二沙漏型池化模块中的第1个膨胀卷积层连接，第1个膨胀卷积层分别与第1个卷积层和特征融合层Concat连接，第1个卷积层与第2个卷积层连接，第2个卷积层与和第1个卷积层分别与特征融合层add连接，特征融合层add与第2个膨胀卷积层连接，第2个膨胀卷积层与特征融合层Concat连接，特征融合层Concat与最大池化层连接；第二卷积层(即第1个卷积层)的参数与原始模型的CSPNet模块对应卷积层保持一致，第三卷积层(即第2个卷积层)采用1*1的卷积核，步长为1，滤波器数量为64。沙漏型CSPNet模块的2个卷积层和2个膨胀卷积层采用了残差结构进行连接，输出特征图尺寸为26×26×256。

第三个沙漏型池化模块包括：1个沙漏型CSPNet模块和1个最大池化层MaxPool；其中沙漏型CSPNet模块包括：2个膨胀卷积层、2个卷积层和1个特征融合层，其中第一个膨胀卷积层(即第1个膨胀卷积层)和第四个膨胀卷积层(即第2个膨胀卷积层)的膨胀率为1。所述第二沙漏型池化模块中的最大池化层与所述第三沙漏型池化模块中的第1个膨胀卷积层连接，第1个膨胀卷积层分别与第1个卷积层和特征融合层Concat连接，第1个卷积层与第2个卷积层连接，第2个卷积层与和第1个卷积层分别与特征融合层add连接，特征融合层add与第2个膨胀卷积层连接，第2个膨胀卷积层与特征融合层Concat连接，特征融合层Concat与最大池化层连接；第二卷积层(即第1个卷积层)的参数与原始模型的CSPNet模块对应卷积层保持一致，第三卷积层(即第2个卷积层)采用1*1的卷积核，步长为1，滤波器数量为128。沙漏型CSPNet模块的2个卷积层和2个膨胀卷积层采用了残差结构进行连接，输出特征图尺寸为13×13×512。

3.加入两个池化特征增强模块。

池化特征增强模块同时使用了最大池化操作和平均池化操作。平均池化操作可将通道特征的空间尺寸信息进行汇总，最大池化可将通道注意力进行细化，同时使用最大池化和平均池化可提高网络性能。

池化特征增强模块首先对特征进行最大池化

和平均池化

操作来对特征图进行初步整合，获取其空间信息。此外，为保持特征图维度一致，本发明人在平均池化层后加入了上采样层。然后将初步提取的特征I′传输至权重共享的卷积层，再经过一次池化操作，将输出元素进行合并即可得到输出特征

池化特征增强模块的计算过程可用下式表示：

其中，sigmoid为sigmoid函数，Conv为池化操作后权重共享的卷积层，

和W₁ ^Conv为共享权重，采用Relu激活函数，I表示输入的特征图，I_Avg表示平均池化层输入的特征图，I_Max表示最大池化层输入的特征图，AvgPool()表示平均池化层，MaxPool()表示最大池化层。

如图5所示，改进算法中两个池化特征增强模块分别与第一个沙漏型池化模块和第二个沙漏型池化模块级联；其中第一个池化特征增强模块包括1个卷积层Conv、1个最大池化层MaxPool、1个平均池化层AvgPool、1个上采样层Upsample和1个叠加层route。此卷积层Conv与第一沙漏型池化模块中的最大池化层MaxPool连接，卷积层Conv分别与最大池化层MaxPool和平均池化层AvgPool连接，平均池化层AvgPool与上采样层Upsample连接，上采样层Upsample和最大池化层MaxPool分别与叠加层连route接，叠加层route与拼接模块shorleut连接。其中，卷积层的卷积核为1*1，步长为1，滤波器数量为128；最大池化层的尺寸为3*3，步长为2，与平均池化层和上采样层采用并行连接方式；上采样层的上采样倍数为13。输入特征图尺寸为52×52×128，输出特征图尺寸为13×13×256。

第二个池化特征增强模块包括1个卷积层Conv、1个最大池化层MaxPool、1个平均池化层AvgPool、1个上采样层Upsample和1个叠加层route。此卷积层Conv与第二沙漏型池化模块中的最大池化层MaxPool连接，卷积层Conv分别与最大池化层MaxPool和平均池化层AvgPool连接，平均池化层AvgPool与上采样层Upsample连接，上采样层Upsample和最大池化层MaxPool分别与叠加层连route接，叠加层route与拼接模块shorleut连接。其中，卷积层的卷积核为1*1，步长为1，滤波器数量为256；最大池化层的尺寸为3*3，步长为1，与平均池化层和上采样层采用并行连接方式；上采样层的上采样倍数为13。输入特征尺寸为26×26×256，输出特征尺寸为13×13×512。

最终，第一个池化特征增强模块、第二个池化特征增强模块与第三个沙漏型池化模块的输出特征图通过拼接层shortcut进行拼接后输入至第一个输出模块。

为了进一步减少模型的计算量，本发明将改进型算法中第一输出模块的第2个3*3的卷积层的滤波器数量由原来512个调整为256个，将第二输出模块的第1个3*3的卷积层的滤波器数量由原来512个调整为256个。此外，本发明还对原始算法进行了模型压缩，以提高模型的检测效率。

步骤S2：利用训练集对改进型YOLO v4-tiny模型进行训练，获得最终目标检测模型，具体包括以下三种方式。

第一种方式步骤为：

步骤S21：将数据集Pascal VOC、数据集MSCOCO和数据集Visdron中任意一个作为训练集时，则训练集中的图像输入至改进型YOLO v4-tiny模型进行训练，利用总损失函数计算损失值，直至满足第一终止条件，选取最小损失值或最大准确度对应的改进型YOLOv4-tiny模型作为最终目标检测模型。

第二种方式步骤为：

步骤S21：将数据集Pascal VOC、数据集MS COCO和数据集Visdron中任意两个作为训练集时，则任意选取一个数据集中的图像输入至改进型YOLO v4-tiny模型进行训练，利用总损失函数计算损失值，直至满足第一终止条件，选取最小损失值或最大准确度对应的改进型YOLO v4-tiny模型作为第一目标检测模型。

第三种方式步骤为：

步骤S21：将数据集Pascal VOC、数据集MS COCO和数据集Visdron构成训练集时，则数据集Pascal VOC中的图像输入至改进型YOLO v4-tiny模型进行训练，利用总损失函数计算损失值，直至第一满足终止条件，选取最小损失值或最大准确度对应的改进型YOLOv4-tiny模型作为第一目标检测模型。

步骤S22：将数据集MS COCO中的图像输入至第一目标检测模型进行训练，利用总损失函数计算损失值，直至第二满足终止条件，选取最小损失值或最大准确度对应的第一目标检测模型作为第二目标检测模型。

本发明地3种方式模型采用多个数据集进行迁移学习训练，因此最终的模型具有较强的鲁棒性。

本实施例中，第一终止条件、第二终止条件和第三终止条件既可以相同，也可以不同，第一终止条件可以为迭代次数达到最大迭代次数，学习率小于某一设定阈值，或者相邻两次损失值之差小于某一阈值，或者连续几次损失值呈下降趋势均可以。

本实施例中，本发明采用RTX 2080Ti型号的训练平台对改进型YOLO v4-tiny模型进行训练，训练框架为Darknet，是一个基于C++语言的目标检测平台。学习率会直接影响梯度下降法的性能，因此本发明将学习率设为0.00261。本发明将最大迭代次数设为80000次。其中，在前1000次训练中，学习率保持不变；在训练至64000次和72000次时，模型的学习率分别下降10倍和100倍。模型的动量可加速模型的学习速度，特别是对于高曲率或者带噪声的梯度。由于无人机航拍图像的复杂性，因此本发明将模型的动量设为0.9。输入图像尺寸为416*416。

本实施例中由于改进型YOLO v4-tiny模型、第一目标检测模型以及第二目标检测模型的结构相同，仅仅权重不同，所以将数据集Pascal VOC、数据集MS COCO或数据集Visdron中的图像输入至改进型YOLO v4-tiny模型、第一目标检测模型以及第二目标检测模型中进行训练的方法相类似，因此本发明以将数据集Pascal VOC中的图像输入至改进型YOLOv4-tiny模型进行训练的具体过程如图5所示：

1、数据集Pascal VOC中的图像输入至初试卷积模块，通过三个3×3的卷积层对图像进行初步的特征提取，输出特征图A；其中，特征图A的尺寸为104×104×64。输入图像的尺寸为416*416。

2、特征图A输入至第一沙漏型模块中，通过膨胀率为5的膨胀卷积，提取到扩大感受野的特征，并将第一沙漏型模块输出的特征图通过一个2×2的最大池化层进行下采样，输出特征图B,特征图尺寸为52×52×128。

3、特征图B分别输出至第一个池化特征增强模块和第二沙漏型池化模块。输出至第一个池化特征增强模块的特征首先通过一个步长为4的1×1的卷积层进行初步的特征提取，之后分别输出至最大池化层和平均池化层进行特征，将上采样输出的特征图与最大池化层输出的特征图进行融合，输出特征图C，特征图C的尺寸为13×13×256。输出至第二沙漏型池化模块的特征图通过膨胀率为3的膨胀卷积，提取到更精细的扩大感受野的特征，并将该特征图通过一个2×2的最大池化层进行池化操作，输出特征图D，特征图D的尺寸为26×26×256。

4、特征图D分别输出至第二个池化特征增强模块和第三沙漏型池化模块。输出至第二个池化特征增强模块的特征首先通过一个步长为2的1×1的卷积层进行初步的特征提取，之后分别输出至最大池化层和平均池化层，将上采样后获得的特征图与与最大池化层输出的特征图进行融合，输出特征图E，特征图E的尺寸为13×13×512。输出至第三沙漏型模块的特征图通过膨胀率为1的膨胀卷积，提取到高分辨率的深层特征，并将该特征通过一个2×2的最大池化层进行池化操作，输出特征图F，特征图F尺寸为13×13×512。

5、特征图C、特征图E和特征图F通过Shortcut拼接层对特征图进行拼接，拼接后的特征G尺寸为13*13*512。

6、特征图G输出至第一个YOLO模块(即第一输出模块)，通过四个级联的卷积层和一个检测层，输出第一个检测结果，尺寸为13×13×18，包括预测框和输入图像的类别。之后将预测框与真实框进行对比，并通过改进的定位损失函数

计算定位损失。

7、特征图G通过1个3×3的卷积层和1个1×1的卷积层输出至第二个输出模块。通过一个步长为2的上采样层，得到特征图H。之后将特征图H与第二个沙漏型池化模块的输出特征图进行融合，通过两个级联的卷积层，输出至检测层，尺寸为26×26×18。检测层主要负责对输出特征进行类别判断和预测框的绘制。最后通过与真实图像的类别和真实框进行比较，通过公式L＝L_DIOU+L_cls+L_class得到模型的总损失。

本发明将训练好的最终目标检测模型部署至英伟达开发板，开发板搭载ubuntu操作系统，采用darknet环境进行编译，开发板性能最高的工作模式为15W 4Core，以该模式来对目标检测算法进行测试。

本发明将视频流通过HDMI连接线传输至英伟达开发板，最高可输出4k分辨率的视频流，通过开发板搭载的最终目标检测模型来实现无人机视频的实时检测，将实时视频流直接输出至开发板的显示设备，可以直观的观测到检测结果。另外，本发明采用图片、视频文件和摄像头实时画面三种的方式对该算法进行测试，并根据测试结果对开发板的功率和工作模式进行调整，使本发明公开的方法在该硬件环境下的性能达到最优。

表1英文表

实施例2

如图6所示，本发明还公开一种基于无人机与英伟达开发板的目标检测系统，所述系统包括：

模型构建模块601，用于构建改进型YOLO v4-tiny模型；所述改进型YOLO v4-tiny模型包括：初始卷积模块、第一沙漏型池化模块、第二沙漏型池化模块、第三沙漏型池化模块、第一池化特征增强模块、第二池化特征增强模块、拼接模块、第一输出模块和第二输出模块。

训练模块602，用于利用训练集对改进型YOLO v4-tiny模型进行训练，获得最终目标检测模型。

视频流获取模块603，用于利用视频采集卡获取无人机机载摄像头采集的视频流；所述视频流包括多张连续图像.

目标检测模块604，用于将所述视频流输入至部署在英伟达开发板上的最终目标检测模型进行目标检测，输出目标检测结果。

作为可选的实施方式，本发明所述训练模块602，具体包括：

最终目标检测模型确定单元，用于将数据集Pascal VOC、数据集MS COCO和数据集Visdron中任意一个作为训练集时，则训练集中的图像输入至改进型YOLO v4-tiny模型进行训练，利用总损失函数计算损失值，直至满足第一终止条件，选取最小损失值或最大准确度对应的改进型YOLO v4-tiny模型作为最终目标检测模型。

作为可选的实施方式，本发明所述训练模块602，具体包括：

第一训练单元，用于将数据集Pascal VOC、数据集MS COCO和数据集Visdron中任意两个作为训练集时，则任意选取一个数据集中的图像输入至改进型YOLO v4-tiny模型进行训练，利用总损失函数计算损失值，直至满足第一终止条件，选取最小损失值或最大准确度对应的改进型YOLO v4-tiny模型作为第一目标检测模型。

最终目标检测模型确定单元，用于将另一个数据集中的图像输入至第一目标检测模型进行训练，利用总损失函数计算损失值，直至满足第二终止条件，选取最小损失值或最大准确度对应的第一目标检测模型作为最终目标检测模型

作为可选的实施方式，本发明所述训练模块602，具体包括：

第一训练单元，用于将数据集Pascal VOC、数据集MS COCO和数据集Visdron构成训练集时，则数据集Pascal VOC中的图像输入至改进型YOLO v4-tiny模型进行训练，利用总损失函数计算损失值，直至第一满足终止条件，选取最小损失值或最大准确度对应的改进型YOLO v4-tiny模型作为第一目标检测模型。

第二训练单元，用于将数据集MS COCO中的图像输入至第一目标检测模型进行训练，利用总损失函数计算损失值，直至满足第二终止条件，选取最小损失值或最大准确度对应的第一目标检测模型作为第二目标检测模型；

最终目标检测模型确定单元，用于将数据集Visdron中的图像输入至第二目标检测模型进行训练，利用总损失函数计算损失值，直至满足第三终止条件，选取最小损失值或最大准确度对应的第二目标检测模型作为最终目标检测模型。

与实施例1相同的内容不再逐一论述，具体详见实施例1。

实施例3

无人机机载摄像头，用于采集视流。

视频采集卡，与所述无人机机载摄像头连接，用于将采集的图像流进行格式转换。

显示器，用于显示目标检测结果。

实施例4

表2为原始YOLO v4-tiny算法和改进型YOLO v4-tiny算法在Pascal VOC数据集上的性能对比。其中，参数量为模型所有模块的计算量，可衡量算法的复杂程度；权重尺寸为模型最终权重文件的大小，可反映模型所需的计算量，会直接影响模型的FPS(Frames PerSecond)；mAP(mean Average Precision)为检测准确度，是目标检测领域常用的衡量指标，包括识别的准确率和预测锚框与真实锚框的匹配程度。

表2在Pascal VOC数据集上算法性能对比。

	参数量	权重尺寸	mAP(％)
				原始算法	6.817	23.7Mb	62.57
改进算法	6.426	19Mb	66.7

如表2所示，由于对模型深层的卷积核进行了修剪，改进后算法的参数量和权重尺寸整体低于原始算法，改进后的算法对硬件设备的计算能力要求更低。改进后算法的mAP也优于原始算法，这证明本发明的改进是有效的。为进一步对比改进前后算法的性能，本发明在无人机Visdrone数据集上进行了进一步实验。

表3在Visdrone数据集上算法性能对比。

	参数量	权重尺寸	mAP(％)	Loss	FPS
						原始算法	6.817	23.7Mb	13.5	1.95	25.6
改进算法	6.426	19Mb	14.2	1.52	28.1

表3为YOLO v4-tiny算法和改进型YOLO v4-tiny算法在Visdrone数据集上的性能对比，如表3所示，改进算法的mAP和FPS均优于原始算法。此外，本发明加入了损失函数的改进。改进算法的损失函数值低于原始算法，这也进一步证明了本发明针对损失函数的改进是有效的。

将训练好的模型部署至英伟达开发板之后，图7中(a)为利用YOLO v4-tiny算法获得的检测效果图，图7中(b)为利用改进型YOLO v4-tiny算法获得的检测效果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于无人机与英伟达开发板的目标检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的于无人机与英伟达开发板的轻量级目标检测方法，其特征在于，所述利用训练集对改进型YOLO v4-tiny模型进行训练，获得最终目标检测模型，具体包括：

步骤S21：将数据集PascalVOC、数据集MS COCO和数据集Visdron中任意一个作为训练集时，则训练集中的图像输入至改进型YOLO v4-tiny模型进行训练，利用总损失函数计算损失值，直至满足第一终止条件，选取最小损失值或最大准确度对应的改进型YOLO v4-tiny模型作为最终目标检测模型。

3.根据权利要求1所述的于无人机与英伟达开发板的轻量级目标检测方法，其特征在于，所述利用训练集对改进型YOLO v4-tiny模型进行训练，获得最终目标检测模型，具体包括：

步骤S21：将数据集PascalVOC、数据集MS COCO和数据集Visdron中任意两个作为训练集时，则任意选取一个数据集中的图像输入至改进型YOLO v4-tiny模型进行训练，利用总损失函数计算损失值，直至满足第一终止条件，选取最小损失值或最大准确度对应的改进型YOLO v4-tiny模型作为第一目标检测模型；

4.根据权利要求1所述的于无人机与英伟达开发板的轻量级目标检测方法，其特征在于，所述利用训练集对改进型YOLO v4-tiny模型进行训练，获得最终目标检测模型，具体包括：

步骤S21：将数据集PascalVOC、数据集MS COCO和数据集Visdron构成训练集时，则数据集PascalVOC中的图像输入至改进型YOLO v4-tiny模型进行训练，利用总损失函数计算损失值，直至第一满足终止条件，选取最小损失值或最大准确度对应的改进型YOLO v4-tiny模型作为第一目标检测模型；

5.根据权利要求2-4任一项所述的于无人机与英伟达开发板的轻量级目标检测方法，其特征在于，所述总损失函数的具体计算公式为：

6.根据权利要求1所述的于无人机与英伟达开发板的轻量级目标检测方法，其特征在于，所述第一沙漏型池化模块包含1个沙漏型CSPNet模块和1个最大池化层；其中沙漏型CSPNet模块包括：2个膨胀率为5的膨胀卷积层、2个卷积层、特征融合层add和特征融合层Concat；第2个卷积层采用1*1的卷积核，步长为1，滤波器数量为32；初始卷积模块与第1个膨胀卷积层连接，第1个膨胀卷积层分别与第1个卷积层和特征融合层Concat连接，第1个卷积层与第2个卷积层连接，第2个卷积层与和第1个卷积层分别与特征融合层add连接，特征融合层add与第2个膨胀卷积层连接，第2个膨胀卷积层与特征融合层Concat连接，特征融合层Concat与最大池化层连接；

7.一种基于无人机与英伟达开发板的目标检测系统，其特征在于，所述系统包括：

8.根据权利要求7所述的于无人机与英伟达开发板的轻量级目标检测系统，其特征在于，所述训练模块，具体包括：

9.根据权利要求8所述的于无人机与英伟达开发板的轻量级目标检测系统，其特征在于，所述总损失函数的具体计算公式为：

10.一种基于无人机与英伟达开发板的目标检测装置，其特征在于，所述装置包括：

无人机机载摄像头，用于采集视流；