CN114511792A

CN114511792A - 一种基于帧计数的无人机对地探测方法及系统

Info

Publication number: CN114511792A
Application number: CN202011285672.3A
Authority: CN
Inventors: 管乃洋; 苏龙飞; 王之元; 凡遵林; 张天昊; 王浩; 沈天龙; 黄强娟
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2022-05-17
Anticipated expiration: 2040-11-17
Also published as: CN114511792B

Abstract

本发明涉及一种基于帧计数的无人机对地探测方法及系统，包括：基于训练好的目标检测深度神经网络的模型文件和权重文件，按照帧计数设定规则对采集的视频帧进行划分，实现帧计数的检测跟踪，在无人机逐帧采集的视频数据上进行前向推理，获取目标的位置区域，并获取当前视频帧中目标的位置区域对应的候选区域以及下一视频帧中与当前视频帧对应的候选区域相一致的区域，判断是否跟踪成功，确定待检测目标的位置区域，将符合图像大小的目标的位置区域作为目标位置保存至目标位置集合并输出进而进行下一帧的处理；本发明提供的技术方案降低了无人机探测过程中的计算量，提高了计算的效率和准确度。

Description

一种基于帧计数的无人机对地探测方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于帧计数的无人机对地探测方法及系统。

背景技术

当前深度神经网络飞速发展，应用也越来越广泛，在视频或者图像上利用深度神经网络进行目标检测或者搜索的方法主要包含Faster R-CNN，R-CNN等为代表的两步法和以YOLO，SSD等为代表的一步法；尽管Faster R-CNN是两步法中优秀的算法，但是在K40 GPU强大计算能力支持下仅能达到5FPS处理速度，达不到实时性要求；虽然一步法中的YOLO和SSD目标检测的速度能够达到15FPS以上能够达到实时性要求，但是必须Titan X或者M40GPU的计算能力才能支持。目标跟踪算法中性能较好、速度较快的算法以相关滤波类算法为代表，这类算法跟踪稳定，速度较快，有限的计算能力下就能达到172FPS。

无人机是一种由无线电遥控操控或自主程序控制、无人驾驶的一种可重复使用的航空器，它具有结构简单、造价低廉、生存能力强、机动性能好并且可以完成多种类型任务的优点；但是无人机承载重量低使得它不能搭载计算性能强大的计算设备，从而使得部署基于深度神经网络的目标检测算法存在困难，而且小型无人机机载计算机如树莓派或者odroid的重量轻，计算能力有限；即使速度较快的一步法中的Tiny YOLO或者Mobilenets-SSD部署于odroid机载计算机上，目标检测速度也不超过3FPS，达不到实时性要求。已经退役的捕食者无人机主要是通过无人机的传感器获取数据回传地面，在地面人工判读；“全球鹰”改进型可携带信号传感器和用于探测地面移动目标的雷达，具备初步的机上目标探测监视能力(区分动静，探测移动目标)，探测技术不够成熟；彩虹无人机通过无人机的传感器获取数据回传地面，在地面人工判读，后端进一步处理；人工智能算法在“扫描鹰”上试验，试验开始仅几天，计算机对人员、车辆、建筑等物体的识别准确率便达到了60％，1周后提升到80％，然而，这种应用仍然是在地面完成的；由此来看，目前的技术仍然无法实现对无人机机载摄像头实时采集的数据中的目标进行跟踪检测以及进行下一步指示的处理操作。

发明内容

针对现有技术的不足，本发明的目的是提供一种基于帧计数的无人机对地探测方法及系统，利用基于深度神经网络的目标检测算法和跟踪算法相结合，在无人机飞行过程中实时从机载摄像头获取的数据中对视频帧计数，按照帧计数规则对视频帧检测特定目标并进行跟踪的方法，实现战术无人机对地面目标监视搜索、对移动目标的定向跟踪以及对空中目标的检测与跟踪。

本发明的目的是采用下述技术方案实现的：

本发明提供了一种基于帧计数的无人机对地探测方法，其改进之处在于，包括：

步骤(1)训练目标检测深度神经网络模型，获取模型文件和权重文件；

步骤(2)逐帧采集实时视频数据；

步骤(3)初始化帧数计数器h＝0；

步骤(4)h＝h+1；

步骤(5)判断h％N的结果是否为1，若是，则执行步骤(6)，若否，则执行步骤(8)；

步骤(6)基于训练好的目标检测深度神经网络的模型文件和权重文件，对逐帧采集的实时视频数据进行前向推理，获取第h个视频帧中检测的目标位置区域；

步骤(7)初始化目标跟踪器：将获取的第h个视频帧中检测的目标位置区域作为目标跟踪器的起点；

步骤(8)获取第h个视频帧中检测的目标位置区域对应的候选区域以及第h+1个视频帧中与第h个视频帧对应的候选区域相一致的区域，并将该区域作为第h+1个视频帧中检测的目标位置区域对应的候选区域，根据第h+1个视频帧中检测的目标位置区域对应的候选区域，获取该视频帧中跟踪的目标位置区域；

步骤(9)判断第h+1个视频帧中目标跟踪是否成功，若是，则执行步骤(10)，若否，则执行步骤(3)；

步骤(10)判断第h个视频帧中跟踪的目标位置区域图像的像素坐标是否超出预设的视频帧图像的坐标范围，若是，则执行步骤(3)，若否，则输出跟踪的目标位置区域，并执行步骤(4)。

优选的，所述步骤(1)包括：

对逐帧采集的历史视频数据中的各类目标进行逐帧标注；

利用逐帧标注后的历史视频数据构建训练数据，并利用训练数据训练目标检测深度神经网络模型；

获取训练好的目标检测深度神经网络的模型文件和权重文件。

优选的，所述步骤(6)包括：

利用前向推理框架依次读取目标对应的标签、训练好的目标检测深度神经网络的模型文件、权重文件和逐帧采集的实时视频数据，获取前向推理框架输出的目标的位置。

优选的，所述获取第h个视频帧中检测的目标位置区域对应的候选区域，包括：

将第h个视频帧中检测的目标位置区域扩大预设倍数。

进一步的，所述预设倍数的取值范围为[1.5,3]。

优选的，所述步骤(9)包括：

利用第h个视频帧的分类器对第h+1个视频帧中检测的目标位置区域对应的候选区域进行分析，获取第h+1个视频帧中检测的目标位置区域对应的候选区域的分值；

若第h+1个视频帧中检测的目标位置区域对应的候选区域的分值大于分类器分数的预设值，则目标跟踪成功，否则目标跟踪失败。

进一步的，所述第h个视频帧的分类器的训练过程包括：

将第h个视频帧中包含检测的目标位置区域对应的候选区域作为训练二分类器的正样本数据；

将第h个视频帧中不包含检测的目标位置区域对应的候选区域作为训练二分类器的负样本数据；

利用所述正样本数据和负样本数据构建训练二分类器的样本数据；

对训练二分类器的样本数据执行分类器算法，获取训练好的第h个视频帧的分类器。

本发明提供了一种基于帧计数的无人机对地探测系统，其改进之处在于，包括：

训练模块，用于训练目标检测深度神经网络模型，获取模型文件和权重文件；

采集模块，用于逐帧采集实时视频数据；

初始化模块Ⅰ，用于初始化帧数计数器h＝0；

赋值模块，用于h＝h+1；

判断模块a，用于判断h％N的结果是否为1，若是，则执行检测模块，若否，则执行跟踪模块；

检测模块，用于基于训练好的目标检测深度神经网络的模型文件和权重文件，对逐帧采集的实时视频数据进行前向推理，获取第h个视频帧中检测的目标位置区域；

初始化模块Ⅱ，用于初始化目标跟踪器：将获取的第h个视频帧中检测的目标位置区域作为目标跟踪器的起点；

跟踪模块，用于获取第h个视频帧中检测的目标位置区域对应的候选区域以及第h+1个视频帧中与第h个视频帧对应的候选区域相一致的区域，并将该区域作为第h+1个视频帧中检测的目标位置区域对应的候选区域，根据第h+1个视频帧中检测的目标位置区域对应的候选区域，获取该视频帧中跟踪的目标位置区域；

判断模块b，用于判断第h+1个视频帧中目标跟踪是否成功，若是，则执行判断模块c，若否，则执行初始化模块Ⅰ；

判断模块c，用于判断第h个视频帧中跟踪的目标位置区域图像的像素坐标是否超出预设的视频帧图像的坐标范围，若是，则执行初始化模块Ⅰ，若否，则输出跟踪的目标位置区域，并执行赋值模块。

优选的，所述训练模块，具体用于：

对逐帧采集的历史视频数据中的各类目标进行逐帧标注；

优选的，所述检测模块，具体用于：

将第h个视频帧中检测的目标位置区域扩大预设倍数。

进一步的，所述预设倍数的取值范围为[1.5,3]。

优选的，所述判断模块b，具体用于：

进一步的，所述第h个视频帧的分类器的训练过程包括：

与最接近的现有技术相比，本发明具有的有益效果：

本发明提供的技术方案中，基于训练好的目标检测深度神经网络的模型文件和权重文件，对采集的视频帧按照帧计数设定规则进行划分，实现帧计数的检测跟踪，在逐帧采集的视频数据上进行前向推理，获取目标的位置区域，并获取当前视频帧中目标的位置区域对应的候选区域以及下一视频帧中与当前视频帧对应的候选区域相一致的区域，判断是否跟踪成功，确定待检测目标的位置区域，将符合图像大小的待检测目标的位置区域作为目标位置保存至目标位置集合并输出进而进行下一帧的处理；本方案能够保持深度神经网络目标检测算法精度高的优势，同时能够克服深度神经网络目标检测算法速度慢的缺点，实时对采集的视频进行监视；在目标跟踪算法跟踪失败时，能够及时利用目标检测算法重新获得正确的目标位置；在视频中具有多个目标时，通过帧计数的方式能够避免目标检测算法目标框在不同目标的跳跃；而且该方法计算量小，不需要庞大计算能力如GPU显卡的支持，能够部署在小型无人机的机载电脑上，具有较高的实用性和推广价值。

附图说明

图1是一种基于帧计数的无人机对地探测方法的流程图；

图2是在本发明的实施例中基于帧计数的目标检测模型的训练流程图；

图3是在本发明的实施例中基于帧计数的目标实时检测流程图

图4是在本发明的实施例中基于帧计数的目标跟踪流程图；

图5是一种基于帧计数的无人机对地探测系统的结构图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供了一种基于帧计数的无人机对地探测方法，如图1所示，包括：

步骤(2)逐帧采集实时视频数据；

步骤(3)初始化帧数计数器h＝0；

步骤(4)h＝h+1；

优选的，步骤(1)包括：

对逐帧采集的历史视频数据中的各类目标进行逐帧标注；

优选的，步骤(6)包括：

在本发明的实施例中，对目标检测深度神经网络离线训练包括：

步骤A-1.针对需要检测跟踪的特定目标，对同类型视频数据进行标注，在GPU服务器或者性能较强的计算机上利用标注数据对深度神经网络进行离线训练；

步骤A-2.将无人机采集的同类型视频数据分解为图像，为避免过拟合提高泛化能力，图像数量尽量多，通常不少于1万张；对每张图像中的目标(汽车、人、坦克、无人机等)进行标注；具体来说：用一个矩形框将目标框住，将这个矩形框的左上角和右下角顶点的像素坐标或者左上角的顶点坐标及矩形框的长度和宽度及对应的目标标签按照特定格式记录下来；

步骤A-3.搭建深度深度神经网络训练平台(TensorFlow、Darknet、Caffe等)，设定训练path size，学习率等参数，读取深度神经网络的模型如Mobilenets-SSD，在标注好的数据上进行特定目标检测算法深度神经网络模型参数更新；

步骤A-4.训练特定数量的次数(10000轮以上)后，保存深度神经网络的训练模型，获取深度神经网络的训练模型的模型文件和权重文件。

其次对目标进行检测：

步骤B-1.载入视频数据，读取视频帧；

步骤B-2.初始化帧数计数器为0；

步骤B-3.帧计数器加1；

步骤B-4.判断帧数除以N的余数是否为1，若是则执行步骤B-5，否则执行步骤C-1；

步骤B-5.载入基于深度学习算法的预训练模型，利用深度学习前向推理机制在读取的视频帧上进行特定目标的检测：读取目标类别标签、预训练参数模型文件和权重文件、要检测的视频帧，在新的视频帧上进行前向推理，获取目标位置信息以及置信度；

步骤B-6.目标跟踪器以目标检测器检测到的目标位置为跟踪起点进行初始化；

最后对目标进行跟踪：

步骤C-1.跟踪算法进行目标跟踪，在新的视频帧上更新目标位置：确定当前帧的候选区域位置，提取候选区域的特征；在后续视频帧中寻找与候选区域特征最匹配的区域作为目标跟踪的对象，并获取该视频帧中跟踪的目标位置区域；

步骤C-2.通过预先设定的阈值判定跟踪是否成功，跟踪不成功执行步骤B-2，跟踪成功则执行下一步；

步骤C-3.判断输出的目标的位置区域的图像的像素坐标是否超出预设的视频帧图像的坐标范围，若是，则执行步骤B-2，若否，则输出目标位置执行步骤B-3。

优选的，获取第h个视频帧中检测的目标位置区域对应的候选区域，包括：

将第h个视频帧中检测的目标位置区域扩大预设倍数。

进一步的，预设倍数的取值范围为[1.5,3]。

优选的，利用第h个视频帧的分类器对第h+1个视频帧中检测的目标位置区域对应的候选区域进行分析，获取第h+1个视频帧中检测的目标位置区域对应的候选区域的分值；

进一步的，第h个视频帧的分类器的训练过程包括：

在本发明的实施例中，步骤C-2利用当前帧的候选区域作为模板，以是否包含真实目标框作为正负样本对分类算法进行训练，获得分类器；依据当前帧的真实目标框的模板在下一帧图像上获得预测模板，利用循环矩阵生成多个备选模板；在下一帧的图像上将备选模板作为样本运行当前帧生成的分类器，获得各个样本的标签，包含目标真实位置的标签对应的备选框作为下一帧中目标预测模板；比较下一帧预测模板和当前帧真实目标的放大模板的相对位置，即可获得目标的位置变化，进而获得下一帧中新的目标位置；比较分类器获得的分类值与预设值M，如果大于M则跟踪成功，如果小于M则跟踪失败。

基于本发明提供的技术方案，本发明的实施例中还提供了基于置信度的目标检测模型的训练流程图，如图2所示：

S1.离线训练目标检测模型：

S11.针对监视特定区域进行视频或者图像的采集，要求采集的图像或者视频场景尽量与实际无人机监视区域的场景相似；

S12.对采集的视频或者图像中的多类目标(车辆，人员，树木等)进行逐帧的标注，标注框优选矩形框，通过左上角和右下角顶点定位或者采用左上角和矩形的长宽边定位，并将标注的坐标和类别标签按照固定格式存储为xml或txt文件类型，建立索引文件将图像路径及文件名与xml或txt文件路径文件名称一一对应；

S13.选定一种深度神经网络的训练平台，该训练平台可以是caffe，tensorflow，pytorch，darknet，但是不局限于以上平台；

S14.选定一种目标检测深度神经网络包括但不限于Mobilenets-SSD目标检测神经网络，设定训练path size，学习率等参数，依据索引文件读取训练图像和相应的xml或txt文件，在S13所选的训练平台上利用所标注的数据进行训练；

S15.将S14的训练过程在采集的数据上进行N轮训练，通常N不小于10000，将得到的模型文件保存，以备后面的实时目标检测过程使用。

基于本发明提供的技术方案，本发明的实施例中还提供了基于置信度的目标实时检测流程图，如图3所示：

S2.在线实时目标检测：

S21.在无人机上逐帧实时读取摄像头视频或者图像数据；

S22.运行便于在移动平台上部署的轻量化的前向推理框架，包括但是不限于opencv DNN模块，TensorRT前向推理模块，腾讯NCNN前向推理模块，TEngine前向推理模块；

S23.读取S15中训练保存的模型权重文件，在逐帧读取的视频或者图像上对选定的目标进行检测，获得并输出相应的目标位置矩形框、置信度和类别标签等信息；

基于本发明提供的技术方案，本发明的实施例中还提供了基于置信度的目标跟踪流程图，如图4所示：

S3.目标跟踪的具体步骤：

S31.将S23中目标跟踪器保存的目标位置矩形框作为目标跟踪算法的初始值，在当前视频帧对跟踪算法进行初始化，跟踪算法优选KCF目标跟踪算法，同时将目标初始位置进行保存；

S33.KCF算法根据初始目标位置在当前帧中确定一个比目标框大的模板区域，通常取目标框大小的1.5-3倍，利用循环矩阵获得模板区域的不同位移模板；按照x和y轴轴移动，分别利用如下循环矩阵：

S34.提取不同位移模板的特征，将这些特征与汉宁窗口相乘得到目标模板，计算目标模板的高斯核；按此式确定汉宁窗口：

其中，N为窗口宽度；

S35.经过傅里叶变换，计算目标模板在图像中的目标位置，根据目标位置计算新的目标模板；计算新的目标模板的高斯响应图，在频域内对脊回归模型进行训练，更新目标模板和分类器参数值。

S36.输出目标位置，并保存；

S37.根据初始目标位置在新获取帧中确定一个比目标框大的模板区域，通常取目标框大小的1.5-3倍，利用循环矩阵获得模板区域的不同位移模板；

S38.提取不同位移模板的特征，将这些特征与汉宁窗口相乘得到目标模板；

S39.根据目标模板的大小计算高斯核，利用参数值计算响应图，得到目标位置；计算新的目标模板的高斯核，在频域内对脊回归模型进行训练，更新目标模板和分类器参数值；

S40.判断目标跟踪是否成功，若是则输出目标位置，否则对目标重新检测；

S41.判断目标位置是否超出图像范围，若是则对目标重新检测，否则进行下一帧目标跟踪。

本发明提供了一种基于帧计数的无人机对地探测系统，如图5所示，包括：

采集模块，用于逐帧采集实时视频数据；

初始化模块Ⅰ，用于初始化帧数计数器h＝0；

赋值模块，用于h＝h+1；

优选的，训练模块，具体用于：

对逐帧采集的历史视频数据中的各类目标进行逐帧标注；

优选的，检测模块，具体用于：

将第h个视频帧中检测的目标位置区域扩大预设倍数。

进一步的，预设倍数的取值范围为[1.5,3]。

优选的，判断模块b，具体用于：

进一步的，第h个视频帧的分类器的训练过程包括：

利用正样本数据和负样本数据构建训练二分类器的样本数据；

可以将本发明上述实施例提供的无人机对地探测系统或者将加载有无人机对地探测方法的电子设备部署到无人机上，以实现对目标的监测、跟踪。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于帧计数的无人机对地探测方法，其特征在于，所述方法包括：

步骤(2)逐帧采集实时视频数据；

步骤(3)初始化帧数计数器h＝0；

步骤(4)h＝h+1；

2.如权利要求1所述的方法，其特征在于，所述步骤(1)包括：

对逐帧采集的历史视频数据中的各类目标进行逐帧标注；

3.如权利要求1所述的方法，其特征在于，所述步骤(6)包括：

利用前向推理框架依次读取目标对应的标签、训练好的目标检测深度神经网络的模型文件、权重文件和逐帧采集的视频数据，获取前向推理框架输出的检测的目标位置区域。

4.如权利要求1所述的方法，其特征在于，所述获取第h个视频帧中检测的目标位置区域对应的候选区域，包括：

将第h个视频帧中检测的目标位置区域扩大预设倍数。

5.如权利要求4所述的方法，其特征在于，所述预设倍数的取值范围为[1.5,3]。

6.如权利要求1所述的方法，其特征在于，所述步骤(9)包括：

7.如权利要求6所述的方法，其特征在于，所述第h个视频帧的分类器的训练过程包括：

8.一种基于帧计数的无人机对地探测系统，其特征在于，所述系统包括：

采集模块，用于逐帧采集实时视频数据；

初始化模块Ⅰ，用于初始化帧数计数器h＝0；

赋值模块，用于h＝h+1；

9.如权利要求8所述的系统，其特征在于，所述训练模块，具体用于：

对逐帧采集的历史视频数据中的各类目标进行逐帧标注；

10.如权利要求8所述的系统，其特征在于，所述检测模块，具体用于：

11.如权利要求8所述的系统，其特征在于，所述获取第h个视频帧中检测的目标位置区域对应的候选区域，包括：

将第h个视频帧中检测的目标位置区域扩大预设倍数。

12.如权利要求11所述的系统，其特征在于，所述预设倍数的取值范围为[1.5,3]。

13.如权利要求8所述的系统，其特征在于，所述判断模块b，具体用于：

14.如权利要求13所述的系统，其特征在于，所述第h个视频帧的分类器的训练过程包括：