CN113283411B

CN113283411B - 无人机目标检测方法、装置、设备和介质

Info

Publication number: CN113283411B
Application number: CN202110841118.7A
Authority: CN
Inventors: 康来; 陈辉; 魏迎梅; 万珊珊; 蒋杰; 谢毓湘
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2022-01-28
Anticipated expiration: 2041-07-26
Also published as: CN113283411A

Abstract

本申请涉及无人机目标检测方法、装置、设备和介质，方法包括：获取无人机的原数据集；原数据集包括可见光视频序列和红外视频序列；对可见光视频序列和红外视频序列进行图像匹配、图像裁剪与标签更新处理，得到图像配准且尺寸标准化后的标准数据集；利用CNN模型对标准数据集中的可见光图像和红外图像进行图像融合处理，得到融合图像集；利用训练好的YOLOv3模型对融合图像集进行无人机目标检测，得到无人机检测结果。在已有YOLOv3算法的基础上，增加可见光‑红外图像融合处理，对YOLOv3算法进行改进，得到了更优的基于图像融合的无人机红外目标检测手段，实现了无人机目标检测性能较强的技术效果。

Description

无人机目标检测方法、装置、设备和介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种无人机目标检测方法、装置、设备和介质。

背景技术

随着微电子技术和人工智能的飞速发展，无人机基础零部件呈现出了小型化、低成本和低功耗等特点，这促进了无人机技术的革新，也使小型无人机拥有重量轻、操作简单、机身灵活、生存能力强和价格低廉等众多优点，扩大了其应用领域。伴随着人工智能、5G通讯等新技术的发展和完善，由于无人机优越的性能，其应用规模也在不断扩大，广泛运用于民用与军用。随着无人机技术门槛和获得难度的不断降低，其也会带来新的挑战和威胁，因此，反无人机技术也应运而生。

反无人机技术首要任务就是无人机目标的检测，目前，反无人机技术多采用可见光图像或红外图像进行目标检测。然而，在实现本发明的过程中，发明人发现目前反无人机技术采用的检测技术，仍然存在着无人机目标检测性能较弱的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种无人机目标检测性能较强的无人机目标检测方法、一种无人机目标检测装置、一种计算机设备以及一种计算机可读存储介质。

为了实现上述目的，本发明实施例采用以下技术方案：

一方面，本发明实施例提供一种无人机目标检测方法，包括步骤：

获取无人机的原数据集；原数据集包括可见光视频序列和红外视频序列；

对可见光视频序列和红外视频序列进行图像匹配、图像裁剪与标签更新处理，得到图像配准且尺寸标准化后的标准数据集；

利用CNN模型对标准数据集中的可见光图像和红外图像进行图像融合处理，得到融合图像集；

利用训练好的YOLOv3模型对融合图像集进行无人机目标检测，得到无人机检测结果。

另一方面，还提供一种无人机目标检测装置，包括：

数据获取模块，用于获取无人机的原数据集；原数据集包括可见光视频序列和红外视频序列；

标准处理模块，用于对可见光视频序列和红外视频序列进行图像匹配、图像裁剪与标签更新处理，得到图像配准且尺寸标准化后的标准数据集；

图像融合模块，用于利用CNN模型对标准数据集中的可见光图像和红外图像进行图像融合处理，得到融合图像集；

目标检测模块，用于利用训练好的YOLOv3模型对融合图像集进行无人机目标检测，得到无人机检测结果。

又一方面，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现任一项的上述无人机目标检测方法的步骤。

再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现任一项的上述无人机目标检测方法的步骤。

上述技术方案中的一个技术方案具有如下优点和有益效果：

上述无人机目标检测方法、装置、设备和介质，通过获取输入的原数据集，其包括可见光视频序列和红外视频序列，然后对可见光视频序列和红外视频序列进行图像配准与标准化处理后，形成标准数据集；进而，利用CNN模型对标准数据集中的可见光图像和红外图像进行图像融合处理，得到融合图像集；最后利用训练好的YOLOv3模型对融合图像集进行无人机目标检测，得到无人机检测结果。如此，在已有YOLOv3深度学习目标检测算法的基础上，增加可见光-红外图像融合处理，对YOLOv3目标检测算法进行改进，得到了更优的基于图像融合的无人机红外目标检测手段，显著地改善了目标检测效果，大幅提升了全天候条件下无人机目标的检测精度，传统方法对比检测效率也更高，实现了无人机目标检测性能较强的技术效果。

附图说明

图1为一个实施例中无人机目标检测方法的流程示意图；

图2为一个实施例中图像匹配流程的示意图；

图3为一个实施例中基于深度学习的图像融合流程示意图；

图4为一个实施例中基于CNN的图像融合处理的流程示意图；

图5为一个实施例中基于CNN图像融合的相关各子图的示意图，其中，图（a）表示输入的可见光图像、图（b）表示输入的红外图像，图（c）表示生成的权重图，图（d）表示融合图像；

图6为一个实施例中无人机目标检测装置的模块结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

在计算机视觉领域，红外无人机检测也有许多的研究和方法，传统的检测方法已经形成了比较完备的体系，但是其精度和效率都比较低。反无人机技术首先需要实现的就是快速、实时并准确的发现并锁定无人机目标，以实现无人机目标跟踪，检测目标要基于探测手段和探测影像——探测类技术。其中，光学成像和热成像技术在计算机视觉领域研究较多。光学成像探测技术能够获取目标的更多细节信息，其图像分辨率高，但容易受到光强、天气和时间等条件影响，造成遮挡或过分曝光，甚至是不能成像。热成像技术是通过收集物体发射的红外波段能量来进行成像，红外图像反映了目标区域的热量布局情况，该成像效果主要由目标的发射率和传感器探测范围内的热量分布来决定。所以，红外图像具有透过云雾、障碍探测到目标的能力，同时，能够进行夜间成像，拥有全天候工作的特点。

对于现有的目标检测算法，从提出R-CNN（Region-CNN算法）开始，再到后面的SPP-Net、Fast R-CNN、Faster R-CNN、SSD和YOLO等算法，基于深度学习的目标检测算法发展迅速且其速度和精度都在得到不断地提升，Faster R-CNN、SSD和YOLO系列算法在开放目标检测数据集上的检测效果都很出色。然而在反无人机技术中的已有应用的检测技术中大多基于可见光图像或红外图像检测，其检测效果仍有待提高。

综上，本申请针对目前反无人机技术采用的检测技术，仍然存在着的无人机目标检测性能较弱的技术问题，研究给出了一种可面向反无人机的无人机目标检测方法。下面对本申请的方法进行详细展示说明。

请参阅图1，一方面，本发明提供一种无人机目标检测方法，包括如下步骤S12至S18：

S12，获取无人机的原数据集；原数据集包括可见光视频序列和红外视频序列。

可以理解，可见光视频序列可以包括输入的或者实时采集的可见光图像组成的视频流，其包括多帧可见光图像。相应的，红外视频序列可以包括输入的或者实时采集的红外图像组成的视频流，其包括多帧红外图像；每一帧可见光图像有相应帧的红外图像，也即，例如可以通过设备上搭载的可见光探测器和红外探测器同时对同一或者多个无人机目标进行拍摄跟踪，以获取可见光视频序列和红外视频序列。这些图像中记录了无人机目标，其可以放入专用的数据集中并且给出了其目标的位置标注文件。

S14，对可见光视频序列和红外视频序列进行图像匹配、图像裁剪与标签更新处理，得到图像配准且尺寸标准化后的标准数据集。

可以理解，原数据集由可见光视频序列和红外视频序列组成，其中可见光视频序列每一帧大小与红外视频序列每一帧大小会有不同，存在目标大小及其位置不匹配的问题。此外，在实践中还可以发现，可见光视频序列和红外视频序列之间还存在固定帧数的时间差，需要进行时间匹配。因此，在进行图像融合之前，需要对可见光视频序列和红外视频序列中的图像进行配准，完成上述两种图像在空间和时间上的匹配后，进行图像裁剪与相应的新标签制作，以消除这些原数据之间的空间和时间上的不匹配问题，从而得到标准化的标准数据集。

S16，利用CNN模型对标准数据集中的可见光图像和红外图像进行图像融合处理，得到融合图像集。

可以理解，CNN模型可以采用本领域中已有各型卷积神经网络模型。为确保目标检测的效果优化，在获得标准数据集后，可以利用CNN模型对标准数据集中的可见光图像和红外图像这两种图像，进行基于深度学习的图像融合处理，将标准化的各可见光图像及其相应红外图像进行融合，得到各相应的融合图像。这些融合图像组成的新数据集合即为所需的融合图像集。

S18，利用训练好的YOLOv3模型对融合图像集进行无人机目标检测，得到无人机检测结果。

可以理解，在目标检测框架中，本领域已有的YOLOv3模型具有高精度、实时目标检测的优点，因此，本申请采用YOLOv3模型进行目标检测。YOLOv3模型可以预先利用构建的无人机专用训练数据集进行训练，得到训练好的YOLOv3模型，也称目标检测模型，以使其适应本申请的无人机目标识别。无人机专用训练数据集可以采用预先构建的anti-AUVChallenge Dataset的test数据集，test数据集中包括各类无人机图像：如大与小、夜间与白天、有无遮挡、是否旋转、快速移动与缓慢移动、以云层为背景与以建筑为背景等类型的共150段视频序列，每一段视频序列均包含可见光和红外两种模态的图像，并且给出了这些图像中目标的位置标注文件。

在获得融合图像集后，将该融合图像集作为测试集输入训练好的YOLOv3模型进行无人机目标检测，即可得到无人机检测结果，如在每张融合图像上标识出无人机目标和/或给出无人机目标的位置、尺寸等信息。

上述无人机目标检测方法，通过首先获取输入的原数据集，其包括可见光视频序列和红外视频序列，然后对可见光视频序列和红外视频序列进行图像配准与标准化处理后，形成标准数据集；进而，利用CNN模型对标准数据集中的可见光图像和红外图像进行图像融合处理，得到融合图像集；最后利用训练好的YOLOv3模型对融合图像集进行无人机目标检测，得到无人机检测结果。如此，在已有YOLOv3深度学习目标检测算法的基础上，增加可见光-红外图像融合处理，对YOLOv3目标检测算法进行改进，得到了更优的基于图像融合的无人机红外目标检测手段，显著地改善了目标检测效果，大幅提升了全天候条件下无人机目标的检测精度，传统方法对比检测效率也更高，实现了无人机目标检测性能较强的技术效果。

在一个实施例中，关于上述步骤S14中对可见光视频序列和红外视频序列进行图像匹配的过程，具体可以包括如下处理过程：

对可见光视频序列中的可见光图像和红外视频序列中的红外图像进行空间匹配和时间匹配处理，得到可见光图像和红外图像的空间对应关系。

可以理解，因为可见光图像和红外图像存在目标大小和位置上的不匹配问题，本实施例根据本领域已有的基本图像匹配原理，见图2所示，构建出适合本实施例原始数据集的变换关系，实现图像匹配。空间匹配实质上就是找待匹配图像之间的空间对应关系。通过对图2进行分析可知，图像匹配首先要从源图像中提取出图像特征，且这些图像特征在源图像中能够精确对准，如此可更好的实现高质量的特征匹配。完成源图像的图像特征匹配后，根据特征点坐标计算出源图像的变换系数；然后根据变换系数实现图像匹配。

在一个实施例中，空间匹配的处理通过如下多项式完成：

（1）

其中，（

，

）表示可见光图像和红外图像之间变换后的坐标，

和

分别表示图像特征点的x和y方向上的缩放系数，（

，

）表示可见光图像和红外图像之间变换前的坐标，

和

分别表示图像特征点的x和y方向上的平移系数；

缩放系数和平移系数通过对可见光图像和红外图像上图像特征点的标签值进行直线拟合得到。

可以理解，图像匹配一般是根据图像特征点进行匹配。然而，原数据集中目标通常较小，特征不明显，无法较好地完成特征点提取。因此，在本实施例中，根据原数据集已有标签值，结合以往试验上的大量观察，可以判断其可见光图像与红外图像之间仅存在缩放和平移变换，且其无人机目标真实框的四个拐点坐标之间成线性关系。

根据可见光图像与红外图像之间仅存在缩放和平移变换这一判断，构建出二者（可见光图像与红外图像）坐标之间的变换关系如下：

（2）

用多项式表示即为上述的式（1）。

为了求解上述平移系数和缩放系数，需根据已知目标的特征点，求解变换系数。因为本实施例以无人机目标真实框的四个拐点坐标为特征点，所以，下一步需要将这些特征点的标签值取出，然后进行直线拟合得到线性关系，从而求解出平移系数和缩放系数。

具体的，将可见光图像的标签值

、

、

和

，以及红外图像的标签值

、

、

和

从原数据集的标签文件中取出，对应存放在各自的

、

两个坐标列表中，得到：

(3)

(4)

(5)

(6)

其中，坐标

与

、坐标

与

之间的元素按照顺序，一一对应。将

与

、

与

分别画出散点并拟合处理，得到这两种坐标之间线性关系可如下：

(7)

(8)

其中，

表示红外图像的坐标

向可见光图像的坐标

变换的缩放系数，

表示红外图像的坐标

向可见光图像的坐标

变换的平移系数，

表示红外图像的坐标

向可见光图像的坐标

变换的缩放系数，

表示红外图像的坐标

向可见光图像的坐标

变换的平移系数。

在一个实施例中，时间匹配的处理过程包括如下处理步骤：

确定可见光图像和红外图像的帧数差；

将可见光图像和红外图像的坐标对应关系以帧数差为间隔进行一一对应，得到时间对应关系校准后的可见光图像和红外图像。

可以理解，经实践分析发现，原数据集中每个视频子集的可见光视频序列与红外视频序列均存在固定帧数差，但不同视频子集之间帧数差不一致，帧数差小的数据集进行前一实施例中的拟合处理的效果较好，帧数差大的数据集拟合效果较差。因此，还需逐个视频进行分析，消除其帧数差。

图像的帧数差可以根据原图像的俯仰角变化节点直接得到，可以通过计算设备直接读取或者人工判读后输入计算设备。若假设红外视频的俯仰角变化时帧数为

，可见光视频的俯仰角变化时帧数为

，则其帧数差为：

(9)

因此，原

、

坐标对应关系变为：

与

、

与

之间的元素按照顺序，以帧数差

为间隔一一对应。例如，原有

与

对应，但其存在帧数差

，经过时间匹配后，

将与

对应，实现时间对应关系校准。各序列经过时间校准后，其空间拟合效果将会大幅提升，从而最终得到可见光图像和红外图像的空间对应关系。

在一个实施例中，关于上述步骤S14中对可见光视频序列和红外视频序列进行图像裁剪的过程，具体可以包括如下处理过程：

根据空间对应关系，结合可见光图像和红外图像的尺寸，将可见光图像和红外图像裁剪为尺寸大小一致的图像。

可以理解，找到可见光-红外图像的空间对应关系后，需要根据此变换，分别对相应两幅图像进行裁剪、重采样，使其大小一致且特征匹配。

具体的，根据变换关系，如上述的式（7）和式（8），结合图像尺寸，进行裁剪。经过图像变换，可将可见光图像与相应红外图像进行叠加，即可确定两图像的横向和纵向大小关系，从而进行相应的横向和/或纵向裁剪，如可见光图像在横向上大于红外图像，而可见光图像在纵向上小于红外图像，则需要对可见光图像进行横向裁剪，对红外图像进行纵向裁剪，然后，对可见光图像进行采样，使其大小与红外图像一致。其他大小差异情形的裁剪处理同理理解。

经过上述处理步骤，实现了可见光与红外图像匹配后的裁剪。

在一个实施例中，关于上述步骤S14中对可见光视频序列和红外视频序列进行标签更新的过程，具体可以包括如下处理过程：

根据目标转换关系对可见光视频序列和红外视频序列的原标签数值进行转换并设置各类别序号为设定值；设定值用于代表无人机，目标转换关系为：

（10）

（11）

其中，

表示标准数据集中图像目标框的归一化中心点坐标，

和

分别表示裁剪后图像的宽和高，（

，

）表示原数据集中图像目标框的最小中心点坐标，

表示可见光图像坐标

向红外图像坐标

变换的平移系数，

表示原数据集中图像目标框的宽度，h表示原数据集中图像目标框的高度。

可以理解，对于后期进入深度学习YOLOv3网络的标签，其按照从左至右的顺序依次存储了目标类别序号和目标框的归一化中心点坐标

、宽度

和高度

。由于原数据集所给标签保存在json文件中，其存储的是目标框的

、

、

和

，并且匹配后的图像经过裁剪，所以需要对原标签文件进行数值和文件形式的转换。

具体的，因为在图像匹配时，是按照裁剪后的红外图像进行重采样的，所以，红外图像对应的标签文件更易处理，其只需进行平移加减，而不涉及到伸缩变换。综上，匹配裁剪后，目标的标签转换关系如上式（10）和式（11）所示。

此外，由于本申请针对的是无人机进行的目标检测，不涉及多类别检测，因此，其类别序号均为设定值，例如但不限于“0”，用于代表无人机（AUV）。经过上述处理，得到了适合YOLOv3模型训练与使用的标签集。

在一个实施例中，如图3所示，关于上述的步骤S16，具体可以包括如下处理步骤：

S162，导入CNN模型并输入可见光图像和红外图像；

S164，通过CNN模型对可见光图像和红外图像的训练，生成权重图；

S166，对可见光图像、红外图像和权重图进行拉普拉斯分解处理后，对分解处理中的各层级分解系数进行系数融合；

S168，对系数融合后的融合系数进行拉普拉斯金字塔重建，生成融合图像并输出融合图像集。

可以理解，基于深度学习的图像融合算法的处理流程如图4所示，其具体步骤为：1）将已有CNN模型导入；2）输入可见光图像和红外图像；3）通过CNN模型对可见光图像和红外图像的训练，生成权重图，如图5所示，其中，（a）图表示输入的可见光图像，（b）图表示输入的红外图像，（c）图表示生成的权重图，（d）图表示融合图像。4）通过拉普拉斯变换，对源图像和权重图进行处理，然后对各个层级分解系数进行综合，最后通过与原拉普拉斯变换相反的方式，将融合系数进行转换，生成融合图像。5）输出结果图，将其保存在指定的fusion2文件夹。

通过上述处理步骤，即可获得可见光-红外的融合图像集。

应该理解的是，虽然图1至图4流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其他的顺序执行。而且图1至图4的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，为了更直观且全面地说明上述无人机目标检测，下面提供的是对上述无人机目标检测方法的其中一个应用验证示例。需要说明的是，本说明书中给出的实施示例仅为示意性的，并非为本发明具体实施例的唯一限定，本领域技术人员可以在本发明提供的实施示例的示意下，同理实现对不同无人机目标的检测。

YOLOv3模型有其训练好的网络模型和设置好的参数值，然而，在本示例中，针对于单类别无人机目标识别对其进行适应性的参数设置。

数据输入：

使用的输入数据集共包含7种背景（白天大目标、白天小目标、白天有遮挡、夜晚大目标、夜晚小目标、夜晚有遮挡、和白天渐入渐出）的图像数据，针对不同数据背景，每类背景图像均通过六种分类处理，下面对每类背景输入数据集进行介绍。

（1）RGB数据集：存放原始RGB（可见光）图像，其为未经过处理的RGB图像；

（2）IR数据集：存放IR（红外）图像，其为未经过处理的IR图像；

（3）IR1数据集：存放通过基于高频增强处理手段的目标检测方法得到的红外图像；

（4）IR2数据集：存放通过基于反锐化掩膜图像增强手段的目标检测方法得到的红外图像；

（5）fusion1数据集：存放通过基于小波变换图像融合手段的目标检测方法得到的图像；

（6）fusion2数据集：存放通过本申请基于CNN图像融合手段的目标检测方法得到的图像。

目标检测网络的输入数据集放置在data\ custom文件夹中，该文件夹包括images子文件夹、labels子文件夹、classes.name文件、train.txt文件和valid.txt文件。其中，images子文件夹存放所有图像数据，对于不同处理后的数据集，均放置在此文件夹，然后选取训练图像与测试图像，进行处理；labels子文件夹存放images图像数据对应的标签文件；classes.name文件存储待处理图像的类别标签，本示例只有一类无人机目标，其标签设为AUV；train.txt文件和valid.txt文件里面分别存储训练数据图像路径和评估（测试）图像路径，此二文件用于设置选取输入网络的训练、测试图像。

参数设置：

在对YOLOv3模型网络进行训练前，需要先对其配置文件里的固定参数进行调整，使其符合本示例测试的情况。其配置文件放置在其网络文件的data\config文件夹中，该文件夹包括custom.data文件和yolov3-custom.cfg文件。custom.data文件存储着类别数、train.txt文件的路径、valid.txt文件的路径和classes.name文件的路径，这里需要将类别数目修改为1，代表目标类别只有1种；同时需要修改yolov3-custom.cfg文件种yolo层参数，将classes值设为1，filters大小设为

。

调试好固定参数后，需要调试其训练代码文件，使其既能满足好的训练效果，又能保持各类数据处理的一致性。主要通过设置统一epoches参数、batch_size参数来实现数据处理的一致性，通过设置IoU阈值来评价其精度。本示例中YOLOv3模型的网络的学习率设置为默认的0.001，输入图像分辨率为416×416；训练的batch_size为2，epoches为100，采用的预训练权重为darknet53.conv.74；测试设置的置信度阈值为0.5，IoU阈值为0.5和0.75，非极大值抑制阈值为0.5。

通过对100*6*7=4200张各类别图像进行模型网络训练、900*6*7=37800张各类图像进行目标检测测试，得到最终实验结果，验证了通过本申请上述方法进行无人机目标检测是具有实际应用意义的，其通过对可见光图像和红外图像的融合处理，检测效果较好，大大提高了目标框位置的检测精度且检测效率较高，同时，在白天小目标、夜间小目标和夜间有遮挡这三类数据集中，检测效果均优于前述试验使用的其他检测方法。

请参阅图6，在一个实施例中，还提供了一种无人机目标检测装置100，包括数据获取模块11、标准处理模块13、图像融合模块15和目标检测模块17。其中，数据获取模块11用于获取无人机的原数据集；原数据集包括可见光视频序列和红外视频序列。标准处理模块13用于对可见光视频序列和红外视频序列进行图像匹配、图像裁剪与标签更新处理，得到图像配准且尺寸标准化后的标准数据集。图像融合模块15用于利用CNN模型对标准数据集中的可见光图像和红外图像进行图像融合处理，得到融合图像集。目标检测模块17用于利用训练好的YOLOv3模型对融合图像集进行无人机目标检测，得到无人机检测结果。

上述无人机目标检测装置100，通过各模块的协作，首先获取输入的原数据集，其包括可见光视频序列和红外视频序列，然后对可见光视频序列和红外视频序列进行图像配准与标准化处理后，形成标准数据集；进而，利用CNN模型对标准数据集中的可见光图像和红外图像进行图像融合处理，得到融合图像集；最后利用训练好的YOLOv3模型对融合图像集进行无人机目标检测，得到无人机检测结果。如此，在已有YOLOv3深度学习目标检测算法的基础上，增加可见光-红外图像融合处理，对YOLOv3目标检测算法进行改进，得到了更优的基于图像融合的无人机红外目标检测手段，显著地改善了目标检测效果，大幅提升了全天候条件下无人机目标的检测精度，传统方法对比检测效率也更高，实现了无人机目标检测性能较强的技术效果。

在一个实施例中，上述的图像融合模块15可以包括模型导入子模块、权重子模块、系数融合子模块和融合输出子模块。其中，模型导入子模块用于导入CNN模型并输入可见光图像和红外图像。权重子模块用于通过CNN模型对可见光图像和红外图像的训练，生成权重图。系数融合子模块用于对可见光图像、红外图像和权重图进行拉普拉斯分解处理后，对分解处理中的各层级分解系数进行系数融合。融合输出子模块用于对系数融合后的融合系数进行拉普拉斯金字塔重建，生成融合图像并输出融合图像集。

在一个实施例中，上述无人机目标检测装置100的各模块还可以用于实现上述无人机目标检测方法其他各实施例中增加的步骤或者子步骤。

关于无人机目标检测装置100的具体限定，可以参见上文中无人机目标检测方法的相应限定，在此不再赘述。上述无人机目标检测装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中，也可以软件形式存储于前述设备的存储器中，以便于处理器调用执行以上各个模块对应的操作，前述设备可以是但不限于本领域已有的各型检测跟踪系统或计算机终端。

又一方面，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时可以实现以下步骤：获取无人机的原数据集；原数据集包括可见光视频序列和红外视频序列；对可见光视频序列和红外视频序列进行图像匹配、图像裁剪与标签更新处理，得到图像配准且尺寸标准化后的标准数据集；利用CNN模型对标准数据集中的可见光图像和红外图像进行图像融合处理，得到融合图像集；利用训练好的YOLOv3模型对融合图像集进行无人机目标检测，得到无人机检测结果。

在一个实施例中，处理器执行计算机程序时还可以实现上述无人机目标检测方法各实施例中增加的步骤或者子步骤。

再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取无人机的原数据集；原数据集包括可见光视频序列和红外视频序列；对可见光视频序列和红外视频序列进行图像匹配、图像裁剪与标签更新处理，得到图像配准且尺寸标准化后的标准数据集；利用CNN模型对标准数据集中的可见光图像和红外图像进行图像融合处理，得到融合图像集；利用训练好的YOLOv3模型对融合图像集进行无人机目标检测，得到无人机检测结果。

在一个实施例中，计算机程序被处理器执行时，还可以实现上述无人机目标检测方法各实施例中增加的步骤或者子步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其他介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线式动态随机存储器（Rambus DRAM，简称RDRAM）以及接口动态随机存储器（DRDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可做出若干变形和改进，都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种无人机目标检测方法，其特征在于，包括步骤：

获取无人机的原数据集；所述原数据集包括可见光视频序列和红外视频序列；

对所述可见光视频序列和所述红外视频序列进行图像匹配、图像裁剪与标签更新处理，得到图像配准且尺寸标准化后的标准数据集；

利用CNN模型对所述标准数据集中的可见光图像和红外图像进行图像融合处理，得到融合图像集；

利用训练好的YOLOv3模型对所述融合图像集进行无人机目标检测，得到无人机检测结果；

所述利用训练好的YOLOv3模型对所述融合图像集进行无人机目标检测，得到无人机检测结果，包括：

将该融合图像集作为测试集输入训练好的YOLOv3模型进行无人机目标检测；

所述利用CNN模型对所述标准数据集中的可见光图像和红外图像进行图像融合处理，得到融合图像集的步骤，包括：

导入所述CNN模型并输入所述可见光图像和所述红外图像；

通过所述CNN模型对所述可见光图像和所述红外图像的训练，生成权重图；

对所述可见光图像、所述红外图像和所述权重图进行拉普拉斯分解处理后，对分解处理中的各层级分解系数进行系数融合；

对系数融合后的融合系数进行拉普拉斯金字塔重建，生成融合图像并输出所述融合图像集；

对所述可见光视频序列和所述红外视频序列进行图像匹配的过程，包括：

对所述可见光视频序列中的可见光图像和所述红外视频序列中的红外图像进行空间匹配和时间匹配处理，得到所述可见光图像和所述红外图像的空间对应关系；

所述空间匹配的处理通过如下多项式完成：

其中，（

，

）表示所述可见光图像和所述红外图像之间变换后的坐标，

和

分别表示图像特征点的x和y方向上的缩放系数，（

，

）表示所述可见光图像和所述红外图像之间变换前的坐标，

和

分别表示图像特征点的x和y方向上的平移系数；

所述缩放系数和所述平移系数通过对所述可见光图像和所述红外图像上所述图像特征点的标签值进行直线拟合得到；

所述时间匹配的处理过程包括：

确定所述可见光图像和所述红外图像的帧数差；

将所述可见光图像和所述红外图像的坐标对应关系以所述帧数差为间隔进行一一对应，得到时间对应关系校准后的所述可见光图像和所述红外图像；

对所述可见光视频序列和所述红外视频序列进行图像裁剪的过程，包括：

根据所述空间对应关系，结合所述可见光图像和所述红外图像的尺寸，将所述可见光图像和所述红外图像裁剪为尺寸大小一致的图像；

对所述可见光视频序列和所述红外视频序列进行标签更新的过程，包括：

根据目标转换关系对所述可见光视频序列和所述红外视频序列的原标签数值进行转换并设置各类别序号为设定值；所述设定值用于代表无人机，所述目标转换关系为：

其中，

表示所述标准数据集中图像目标框的归一化中心点坐标，

和

分别表示裁剪后图像的宽和高，（

，

）表示所述原数据集中图像目标框的最小中心点坐标，

表示可见光图像坐标

向红外图像坐标

变换的平移系数，

表示所述原数据集中图像目标框的宽度，h表示原数据集中图像目标框的高度。

2.一种无人机目标检测装置，其特征在于，包括：

数据获取模块，用于获取无人机的原数据集；所述原数据集包括可见光视频序列和红外视频序列；

标准处理模块，用于对所述可见光视频序列和所述红外视频序列进行图像匹配、图像裁剪与标签更新处理，得到图像配准且尺寸标准化后的标准数据集；

图像融合模块，用于利用CNN模型对所述标准数据集中的可见光图像和红外图像进行图像融合处理，得到融合图像集；

目标检测模块，用于利用训练好的YOLOv3模型对所述融合图像集进行无人机目标检测，得到无人机检测结果；

目标检测模块还用于将该融合图像集作为测试集输入训练好的YOLOv3模型进行无人机目标检测；

图像融合模块还用于导入所述CNN模型并输入所述可见光图像和所述红外图像；

标准处理模块还用于对所述可见光视频序列中的可见光图像和所述红外视频序列中的红外图像进行空间匹配和时间匹配处理，得到所述可见光图像和所述红外图像的空间对应关系；

所述空间匹配的处理通过如下多项式完成：

其中，（

，

）表示所述可见光图像和所述红外图像之间变换后的坐标，

和

分别表示图像特征点的x和y方向上的缩放系数，（

，

）表示所述可见光图像和所述红外图像之间变换前的坐标，

和

分别表示图像特征点的x和y方向上的平移系数；

所述时间匹配的处理过程包括：

确定所述可见光图像和所述红外图像的帧数差；

标准处理模块还用于根据所述空间对应关系，结合所述可见光图像和所述红外图像的尺寸，将所述可见光图像和所述红外图像裁剪为尺寸大小一致的图像；

标准处理模块还用于根据目标转换关系对所述可见光视频序列和所述红外视频序列的原标签数值进行转换并设置各类别序号为设定值；所述设定值用于代表无人机，所述目标转换关系为：

其中，

表示所述标准数据集中图像目标框的归一化中心点坐标，

和

分别表示裁剪后图像的宽和高，（

，

）表示所述原数据集中图像目标框的最小中心点坐标，

表示可见光图像坐标

向红外图像坐标

变换的平移系数，

3.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1所述无人机目标检测方法的步骤。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现权利要求1所述无人机目标检测方法的步骤。