CN115082551A

CN115082551A - 一种基于无人机航拍视频的多目标检测的方法

Info

Publication number: CN115082551A
Application number: CN202210571926.0A
Authority: CN
Inventors: 毛天露; 黄英凡; 刘京尧; 王兆其
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2022-04-13
Filing date: 2022-05-24
Publication date: 2022-09-20

Abstract

本发明提供了一种基于无人机航拍视频的多目标检测的方法，包括：获取无人机航拍视频，提取其中各视频帧对应的图像；将各视频帧对应的图像按序输入根据本发明的用于无人机航拍图像的多目标检测模型的训练方法训练得到的多目标检测模型，得到连续的视频帧对应的目标检测结果；由此，可提高多目标检测模型进行目标检测的精度。

Description

一种基于无人机航拍视频的多目标检测的方法

技术领域

本发明涉及多目标跟踪领域，具体来说涉及基于无人机拍摄的视频中的图像进行多目标跟踪的技术领域，更具体地说，涉及一种基于无人机航拍视频的多目标检测的方法。

背景技术

多目标跟踪(Multiple Object Tracking,MOT)是指对视频中存在的若干个感兴趣目标进行定位，并在不同帧之间保持目标的ID不改变，以此记录每个目标的轨迹。这些目标的类型可以根据需要具体设置并训练相应的模型，例如，目标的类型可以是街道上的行人、道路上的车辆、球场上的体育运动员，或者一组动物(鸟、蝙蝠、蚂蚁、鱼等)。

随着科技的发展，无人机凭借其可获得大范围、多角度、高分辨率数据等优势和不受时间、地域限制的特性，已经广泛地应用在智慧城市、航空摄影、农业、科研等多个领域。在虚拟现实研究领域，无人机采集的数据可以作为基于实例的仿真建模算法的数据来源，同时可以作为仿真结果的评价依据。

近年来，深度学习在图片分类、物体检测、目标跟踪等领域取得了很大发展，但是这些算法不能很好地直接适用于无人机数据。因为无人机在高空动态飞行，其拍摄图像存在不稳定、视点动态变化等特点，导致视频中目标的纵横比、运动速度、尺度等的动态变化，以及目标遮挡和丢失等现象，给基于无人机航拍数据的多目标跟踪带来了很大的挑战。此外，由于多目标跟踪问题的复杂性，绝大多数现有算法无法做到实时的跟踪效果。然而在很多无人机相关的应用场景中，实时的多目标跟踪是必要的。因此，面向无人机航拍数据，开展实时多目标跟踪算法研究，具有较高的研究价值和应用前景。

与常规的多目标跟踪任务(例如MOT Challenge)相比，基于无人机数据的多目标跟踪任务有以下难点：

1、待检测目标数目多：与常规的目标检测或跟踪数据集不同，无人机拍摄数据集中每张图片可能包含上百个待检测目标，并且单张图片的分辨率很高。所以若使用对计算资源消耗较大的模型，可能会出现资源不够的情况。这就容易造成基于无人机航拍视频的多目标跟踪系统运行速度较低的问题。

2、部分目标过小：因为无人机拍摄数据集视角高离地面相对较远，因此图片中部分对象的标注框可能非常小，这对模型检测能力形成了一定的挑战，如何处理高分辨率的空间信息以产生高质量的候选区域是很大的挑战；在训练网络模型时，常用的方法会使用到经过第三方数据集预训练好的模型，常用于预训练的数据集包括COCO、OBJ365等。使用预训练好的模型来微调其他数据集可以加快网络的收敛速度，进而缩短训练时间。而无人机拍摄的数据集由于拍摄角度、拍摄环境的原因，数据的分布与广泛使用的图像数据集有较大差异，使得预训练所带来的效果可能不如预期；

3、提取目标的表观特征的能力不强：由于现有的多目标检测模型仅对目标的位置和分类进行检测，但实际上即使是同一分类的目标，其也有诸多不同的属性，比如两辆不同的车之间，其表观特征存在差异，比如：造型、轮廓、比例等外在形态的差异，而现有模型在训练时对此的关注度不够。

以上问题容易导致模型对无人机航拍数据检测精度不高的情况。因此，有必要对现有技术进行改进。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种基于无人机航拍视频的多目标检测的方法。

本发明的目的是通过以下技术方案实现的：

根据本发明的第一方面，提供一种用于无人机航拍图像的多目标检测模型的训练方法，包括：获取训练集，其包括基于航拍图像构建的多个训练样本，每个训练样本包括样本图像以及对应的标签，其中，标签包括对相应样本图像中目标所在位置、目标所属类别以及目标识别号的指示，目标识别号表示目标在训练集中的身份标识；利用训练集训练多目标检测模型检测目标所在位置、目标所属类别以及目标识别号，其中，根据检测结果与对应的标签计算的对目标所在位置、目标所属类别以及目标识别号的损失值更新多目标检测模型的参数。

在本发明的一些实施例中，所述多目标检测模型包括与检测目标所在位置相对应的卷积核、与检测目标所属类别相对应的卷积核以及与检测目标识别号相关的卷积核。

在本发明的一些实施例中，所述多目标检测模型中通过多种比例的检测框确定目标所在位置，其中，多种比例的检测框的比例大小根据训练集或者训练集所对应数据集的所有标签中指示目标所在位置的检测框的比例聚合得到。

在本发明的一些实施例中，所述多目标检测模型采用改进的YOLO模型，所述改进的YOLO模型是基于YOLO v1、v2、v3、v4或者v5模型进行改进得到，其中，改进的YOLO模型相比于原始的YOLO模型在预测层增加与检测目标识别号相关的卷积核。

在本发明的一些实施例中，所述改进的YOLO模型中通过多种比例的检测框确定目标所在位置，其中，多种比例的检测框的比例大小根据训练集的所有标签中指示目标所在位置的检测框的比例聚合得到。

在本发明的一些实施例中，所述改进的YOLO模型是基于YOLO v3 模型改进得到，改进的YOLO v3模型的预测层增加第三类卷积核，并且改进的YOLO v3模型所包含的9种比例的检测框的比例大小根据训练集或者训练集所对应数据集的所有标签中指示目标所在位置的检测框的比例聚合得到。

在本发明的一些实施例中，训练集经过图像数据增强处理得到，其包括对原有的图像进行移位、角度旋转、色彩变换、翻转、裁剪、拼接或者其组合的增强处理以得到新的图像以及添加新的图像对应的标签。

根据本发明的第二方面，提供一种基于无人机航拍视频的多目标检测的方法，包括：获取无人机航拍视频，提取其中各视频帧对应的图像；将各视频帧对应的图像按序输入根据第一方面所述的方法训练得到的多目标检测模型，得到连续的视频帧对应的目标检测结果。

根据本发明的第三方面，提供一种多目标检测跟踪方法，包括：获取根据第二方面所述的方法得到的连续的视频帧对应的目标检测结果；基于连续的视频帧对应的目标检测结果，根据多目标跟踪算法对无人机航拍视频中的多个目标进行跟踪。

根据本发明的第四方面，提供一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储可执行指令；所述一个或多个处理器被配置为经由执行所述可执行指令以实现第一方面、第二方面和/或第三方面所述方法的步骤。

与现有技术相比，本发明的优点在于：

本发明在训练集的标签中额外增加对目标识别号的指示，目标识别号表示目标在训练集中的身份标识，由此，在训练时，利用根据检测结果与对应的标签计算的对目标所在位置、目标所属类别以及目标识别号的损失值更新多目标检测模型的参数，以提高多目标检测模型的模型精度。由此，也可以提高基于该训练方法得到多目标检测模型的检测结果进行多目标检测跟踪的准确性。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为原始的YOLO v3模型的输出以及根据本发明实施例改进的 YOLO v3模型的输出的示意图；

图2为检测框的示意图；

图3为展示不同航拍图像的差异的示意图；

图4为根据本发明实施例的对数据集的图像进行增强处理后的多张图像的示意图；

图5为根据本发明实施例的用于无人机航拍图像的多目标检测模型的训练方法的流程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如在背景技术部分提到的，由于现有的多目标检测模型仅对目标的位置和分类进行检测，但实际上即使是同一分类的目标，其也有诸多不同的属性，比如两辆不同的车之间，其表观特征存在差异，比如：造型、轮廓、比例等外在形态的差异，而现有模型在训练时对此的关注度不够。为了解决该问题，提高模型的精度，本发明在训练集的标签中额外增加对目标识别号的指示，目标识别号表示目标在训练集中的身份标识，由此，在训练时，利用根据检测结果与对应的标签计算的对目标所在位置、目标所属类别以及目标识别号的损失值更新多目标检测模型的参数，以提高多目标检测模型的模型精度。由此，也可以提高基于该训练方法得到多目标检测模型的检测结果进行多目标检测跟踪的准确性。

根据本发明的一个实施例，多目标检测模型采用改进的YOLO模型，改进的YOLO模型包括：骨干层(Backbone)、颈部层(Neck)以及预测层(Prediction)，其中，预测层包括：与检测目标所在位置相对应的卷积核、与检测目标所属类别相对应的卷积核以及与检测目标识别号相关的卷积核。而原始的YOLO模型中，也有骨干层(Backbone)、颈部层(Neck) 以及预测层(Prediction)，但其预测层中含有与检测目标所在位置相对应的卷积核、与检测目标所属类别相对应的卷积核，而不含有与检测目标识别号相关的卷积核；因为其目的是检测目标的位置以及分类。而本发明为提高模型对表观特征的提取的能力，增加了与检测目标识别号相关的卷积核。进一步的，改进的YOLO模型可以是基于YOLO v1、v2、v3、v4或者v5模型进行改进得到，或者其他任何可以应用本发明技术方案的多目标检测模型，本发明对此不作任何限制；后续本发明的介绍主要以YOLO v3模型为例，由此来说明本发明的技术方案。

根据本发明的一个实施例，在改进的YOLO v3模型的预测层中，与检测目标识别号相关的卷积核设置在Conv 3x3的卷积模块以及Conv 1x1的卷积模块中，其中，每个卷积模块中增加的卷积核规模依据目标识别号的总数量确定。比如：如果目标识别号的总数量为100个，则预测层的Conv 3x3的卷积模块和Conv 1x1的卷积模块分别增加相应的卷积核，以使输出的预测的特征图的通道增加100个，增加的每个通道分别对应相应的目标识别号；应当理解，此处仅为示意，在具体应用时，实施者可以根据其采用数据集中所标注的目标识别号的总数量，按需在预测层中添加相应的卷积核。示意性的，原始的YOLOv3的预测层输入的检测结果如图1a所示，有三种尺度的特征图(13×13、26×26、52×52)，针对每种尺度的三种检测框，分别有对应的特征图，此处用Box1、Box2、Box3区分，以其中Box2 对应的特征为例，其仅包括t_x、t_y、t_w、t_h、p₀、p₁、…、p_c。其中，t_x表示模型预测的检测框中心在方向x上的偏移量、t_y表示模型预测的检测框中心在方向y上的偏移量、t_w表示宽度缩放因子、t_h表示高度缩放因子，p₀表示对象置信度(即这个位置存在目标的可能性)，p₁、…、p_c表示1-c分类的分类得分(Class Scores)。而改进的YOLO v3模型中，由于增加与检测目标识别号相关的卷积核，在原始的YOLO v3输出的特征之外，额外输出P₁、P₂、…、P_ID，表示目标的表观特征，分别对应于目标识别号为1- ID的目标标识号得分。由此，该实施例利用改进的YOLO v3模型实现多目标检测模型包括与检测目标所在位置相对应的卷积核、与检测目标所属类别相对应的卷积核以及与检测目标识别号相关的卷积核。该实施例的技术方案至少能够实现以下有益技术效果：本发明在模型中设置与检测目标识别号相关的卷积核，以利用不同目标识别号的目标的外在特征区别来训练模型对目标的表观特征进行识别的能力，提高模型的精度。

进一步的，多目标检测模型原有的检测框的比例并不能很好地适用于航拍图像中的目标识别，为了让模型更好地检测出航拍目标，根据本发明的一个实施例，多目标检测模型中通过多种比例的检测框确定目标所在位置，其中，多种比例的检测框的比例大小根据训练集的所有标签中指示目标所在位置的检测框的比例聚合得到。检测框的示意如图2所示，根据本发明的一个实施例，改进的YOLO v3模型可以采用原始YOLO v3模型的检测框的比例。或者，可选的，改进的YOLO v3模型所包含的9种比例的检测框的比例大小采用根据训练集或者训练集所对应数据集的所有标签中指示目标所在位置的检测框的比例聚合得到。训练集是数据集的子集，比如，实施者可以设置将数据集分为训练集和验证集，训练集：验证集＝8:2，应当理解，如何划分训练集和验证集(或者划分为训练集、验证集、测试集)可以根据实施者的需要设置，本发明对此不作任何限制。数据集可以采用相应的航拍图像数据集，聚类可以采用相应的聚类算法实现。例如，假设采用VisDrone2019数据集，利用聚类算法K-means进行聚类，聚类的数量设为9，则得到九种比例的检测框，分别为(6,10)、(6，14)、(9,18)、 (19,8)、(24,10)、(12,25)、(17,34)、(30,27)、(50,18)，相对于原始的 YOLO v3模型，改进的YOLO v3模型的预测层中最小尺度的特征图(大小为输入图像的1/32的特征图)对应的检测框替换比例为聚类得到的 (6,10)、(6，14)、(9,18)的检测框，中间尺度的特征图(大小为输入图像的1/16的特征图)对应的检测框替换比例为聚类得到的(19，8)、(24,10)、 (12,25)的检测框，最大尺度的特征图(大小为输入图像的1/8的特征图) 对应的检测框替换比例为聚类得到的(17,34)、(30,27)、(50,18)的检测框。该实施例的技术方案至少能够实现以下有益技术效果：由于航拍视频中物体的纵横比与普通数据集不同，航拍视频中物体具有相对特定的纵横比，因此本发明可针对训练集或者数据集的标签中指示目标所在位置的目标检测框(Anchor)进行聚类，使用聚类得到的默认检测框比例替代原本模型(如YOLO v3模型)中的固定比例，以更好地检测出航拍目标。应当理解，此处的聚类数量以及聚类出的检测框的分配方式仅为示意性的，针对不同的模型中设定的检测框的实际情况，可以根据实施者需要调整聚类数量以及聚类出的检测框的分配方式，本发明对此不作任何限制。

根据本发明的一个实施例，本发明采用的数据集为航拍图像数据集 (比如基于VisDrone2019数据集)。但是，由于现有的航拍图像数据集的标签没有对目标识别号的指示。因此，可以在现有的航拍图像数据集的标签中增加对目标识别号的指示(比如在VisDrone2019数据集的标签中增加对目标识别号的指示)；或者，也可以由实施者拍摄航拍图像数据，然后自制航拍图像数据集，以使航拍图像数据集包括基于航拍图像构建的多个训练样本，每个训练样本包括样本图像以及对应的标签，其中，标签包括对相应样本图像中目标所在位置、目标所属类别以及目标识别号的指示，目标识别号表示目标在训练集中的身份标识。例如，用无人机的摄像头拍摄地面的视频或者图像，将视频里的图像帧或者图像作为样本图像，然后利用打标签软件基于样本图像进行标注。应当理解，本发明的每个训练样本中的样本图像可以有对应的一个或者多个标签，以对样本图像中的一个或者多个目标对应的目标所在位置、目标所属类别以及目标识别号进行指示。

如图3a、图3b、图3c、图3d所示，不同视频或者图像中的数据属性相差很大，例如亮度、色彩等。进一步的，为了提高模型的精度，根据本发明的一个实施例，训练集或者训练集所对应数据集经过图像数据增强处理得到，其包括对原有的图像进行移位、角度旋转、色彩变换、翻转、裁剪、拼接或者其组合的增强处理以得到新的图像以及添加新的图像对应的标签。根据本发明的一个实施例，移位对应的增强处理方式例如包括将原有的图像中部分区域的位置进行变换；又或者，移位对应的增强处理方式例如包括将原有的图像缩放后或者原有的图像的部分区域放置到新的纯色背景(如灰色背景)中，并且移位后的目标像素位置与原有的图像中的目标像素位置存在偏移。根据本发明的一个实施例，角度旋转对应的增强处理方式例如包括：将原有的图像按照预设的角度旋转，比如旋转10°、 30°、45°、60°或者其组合。根据本发明的一个实施例，色彩变换对应的增强处理方式例如包括将RGB空间的图像转为HSV色彩空间的图像。根据本发明的一个实施例，翻转对应的增强处理方式例如包括：将原有的图像进行左右翻转和/或上下翻转。根据本发明的一个实施例，裁剪对应的增强处理方式例如包括：将原有的图像的部分区域裁剪掉。根据本发明的一个实施例，拼接对应的增强处理方式例如包括：将原有的一张或者多张图像中的部分区域或者整体区域拼接为一张新的图像。应当理解，以上对各个增强处理的方式仅为示意，实施者可以根据具体的情况进行改进或者组合，本发明对此不作任何限制。部分经增强处理后的样本图像如图4a、图4b、图4c、图4d、图4e、图4f、图4g、图4h所示。

根据本发明的一个实施例，如图5所示，提供一种用于无人机航拍图像的多目标检测模型的训练方法，包括：获取训练集，其包括从航拍视频中提取的图像构建的多个训练样本，每个训练样本包括样本图像以及对应的标签，其中，标签包括对相应样本图像中目标所在位置、目标所属类别以及目标识别号的指示，目标识别号表示目标在训练集中的身份标识；利用训练集训练多目标检测模型检测目标所在位置、目标所属类别以及目标识别号，根据检测结果与对应的标签计算的对目标所在位置、目标所属类别以及目标识别号的损失值更新多目标检测模型的参数。根据本发明的一个实施例，根据检测结果与对应的标签计算的对目标所在位置、目标所属类别以及目标识别号的损失值确定总损失，根据总损失求梯度后反向传播更新多目标检测模型的参数。总损失为目标所在位置的损失值、目标所属类别的损失值以及目标识别号的损失值的加权和。目标识别号的损失值可以为交叉熵损失。例如，可以参考现有技术中针对目标所属类别的损失值的计算方式。应当理解，本发明的根据检测结果与对应的标签计算的对目标所在位置、目标所属类别以及目标识别号的损失值更新多目标检测模型的参数是指至少根据检测结果与对应的标签计算的对目标所在位置、目标所属类别以及目标识别号的损失值更新多目标检测模型的参数，某些情况下或者模型中，在这三种损失之外还可以添加其他的损失值，比如对象置信度损失值(如YOLO v3模型中)，本发明对此不作任何限制。

根据本发明的一个实施例，多目标检测模型采用改进的YOLO v3模型，利用增强处理后的训练集对改进的YOLO v3模型进行训练。优选的，训练时，总损失的计算方式为：L＝(1-λ)L_yolov3+λL_emb，其中，L_yolov3表示YOLO v3模型原来的损失，L_emb表示目标识别号的损失值，λ表示L_emb的权重。应当理解，模型是利用训练集中的数据分批次训练的，一个批次中，总损失等于这批数据所有样本图像的结果的损失和。而且，每个样本图像中，针对不同的检测框，会单独计算损失，然后求和得到改样本图像的损失。示意性的，一个检测框的目标识别号的损失值L_emb按照以下方式计算：

其中，crossentropy(·)表示求交叉熵损失，exp(·)表示指数函数， embedding表示目标识别号对应的特征向量，其总长为ID，embedding[Id] 表示目标识别号对应的特征向量中的第Id个分量，embedding[id]表示迭代到的某个目标识别号的特征向量，ID表示目标识别号的总数量。

根据本发明的一个实施例，多目标检测模型也可以不采用增强处理后的训练集进行训练，而是直接利用标签包括对相应样本图像中目标所在位置、目标所属类别以及目标识别号的指示的训练集进行训练。

根据本发明的一个实施例，多目标检测模型在训练前，模型的参数可以随机初始化；或者，多目标检测模型在训练前，模型的参数可以采用经其他数据集(比如没有经增强处理和添加目标识别号的航拍图像数据集) 预训练好的参数，然后通过迁移学习的方式利用标签包括对相应样本图像中目标所在位置、目标所属类别以及目标识别号的指示的训练集进行微调。

根据本发明的一个实施例，提供一种基于无人机航拍视频的多目标检测的方法，其特征在于，包括：获取无人机航拍视频，提取其中各视频帧对应的图像；将各视频帧对应的图像按序输入根据前述实施例所述的用于无人机航拍图像的多目标检测模型的训练方法得到的多目标检测模型，得到连续的视频帧对应的目标检测结果。

根据本发明的一个实施例，提供一种基于无人机航拍视频的多目标检测跟踪方法，包括：获取无人机航拍视频，提取其中各视频帧对应的图像；将各视频帧对应的图像按序输入根据前述实施例所述的方法训练得到的多目标检测模型，得到检测结果；基于连续的视频帧对应的检测结果，根据多目标跟踪算法对无人机航拍视频中的多个目标进行跟踪。优选的，多目标跟踪算法可以利用现有的或者未来出现的任何多目标跟踪算法。比如，利用带有卡尔曼滤波算法进行目标轨迹预测以及带有匈牙利算法进行目标匹配的目标跟踪算法。

为了验证本发明的效果，发明人以改进的YOLO v3模型进行实验，在数据集VisDrone2019的标签中添加对目标识别号的指示，并对数据集进行增强处理后，用于训练改进的YOLO v3模型。实验结果显示，训练好的改进的YOLO v3模型在所有类别平均检测准确度指标mAP提升大约7.4％，并且，跟踪速度相比于DeepSort模型快约75％左右。另外，如果利用聚类的检测框替代原有YOLO v3模型的检测框，可以使得平均查准率提升大约38％。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于无人机航拍图像的多目标检测模型的训练方法，其特征在于，包括：

获取训练集，其包括基于航拍图像构建的多个训练样本，每个训练样本包括样本图像以及对应的标签，其中，标签包括对相应样本图像中目标所在位置、目标所属类别以及目标识别号的指示，目标识别号表示目标在训练集中的身份标识；

利用训练集训练多目标检测模型检测目标所在位置、目标所属类别以及目标识别号，其中，根据检测结果与对应的标签计算的对目标所在位置、目标所属类别以及目标识别号的损失值更新多目标检测模型的参数。

2.根据权利要求1所述的方法，其特征在于，所述多目标检测模型包括与检测目标所在位置相对应的卷积核、与检测目标所属类别相对应的卷积核以及与检测目标识别号相关的卷积核。

3.根据权利要求2所述的方法，其特征在于，所述多目标检测模型中通过多种比例的检测框确定目标所在位置，其中，多种比例的检测框的比例大小根据训练集或者训练集所对应数据集的所有标签中指示目标所在位置的检测框的比例聚合得到。

4.根据权利要求2所述的方法，其特征在于，所述多目标检测模型采用改进的YOLO模型，所述改进的YOLO模型是基于YOLO v1、v2、v3、v4或者v5模型进行改进得到，其中，改进的YOLO模型相比于原始的YOLO模型在预测层增加与检测目标识别号相关的卷积核。

5.根据权利要求4所述的方法，其特征在于，所述改进的YOLO模型中通过多种比例的检测框确定目标所在位置，其中，多种比例的检测框的比例大小根据训练集的所有标签中指示目标所在位置的检测框的比例聚合得到。

6.根据权利要求4所述的方法，其特征在于，所述改进的YOLO模型是基于YOLO v3模型改进得到，改进的YOLO v3模型的预测层增加第三类卷积核，并且改进的YOLO v3模型所包含的9种比例的检测框的比例大小根据训练集或者训练集所对应数据集的所有标签中指示目标所在位置的检测框的比例聚合得到。

7.根据权利要求1-6之一所述的方法，其特征在于，所述训练集经过图像数据增强处理得到，其包括对原有的图像进行移位、角度旋转、色彩变换、翻转、裁剪、拼接或者其组合的增强处理以得到新的图像以及添加新的图像对应的标签。

8.一种基于无人机航拍视频的多目标检测的方法，其特征在于，包括：

获取无人机航拍视频，提取其中各视频帧对应的图像；

将各视频帧对应的图像按序输入根据权利要求1-7之一所述的方法训练得到的多目标检测模型，得到连续的视频帧对应的目标检测结果。

9.一种多目标检测跟踪方法，其特征在于，包括：

获取根据权利要求8所述的方法得到的连续的视频帧对应的目标检测结果；

基于连续的视频帧对应的目标检测结果，根据多目标跟踪算法对无人机航拍视频中的多个目标进行跟踪。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序可被处理器执行以实现权利要求1-9之一所述方法的步骤。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

存储器，其中存储器用于存储可执行指令；

所述一个或多个处理器被配置为经由执行所述可执行指令以实现权利要求1-9之一所述方法的步骤。