CN112734794B

CN112734794B - 一种基于深度学习的运动目标跟踪与定位方法

Info

Publication number: CN112734794B
Application number: CN202110047697.8A
Authority: CN
Inventors: 蔡志浩; 强祺昌; 赵江; 王英勋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2022-12-23
Anticipated expiration: 2041-01-14
Also published as: CN112734794A

Abstract

本发明公开了一种基于深度学习的运动目标跟踪与定位方法，利用深度神经网络YOLOv3‑Tiny算法检测目标的图像坐标，利用深度学习SORT跟踪算法预测目标的位置，利用SolvePnp位置估计算法计算目标的空间位置。YOLOv3检测算法与SORT跟踪算法可以在保证算法准确度的基础上，满足实际应用中的实时性要求；空间定位选用的SolvePnP算法，只需四个特征点即可获得摄像机的旋转矩阵，相比于其他算法运行速度快，基本能够达到与目标检测结果同步运算的效果。本发明可以有效降低对硬件性能的要求，提升算法的运算效率，减少人力财力的消耗，在实际应用中具体较好的应用价值。

Description

一种基于深度学习的运动目标跟踪与定位方法

技术领域

本发明涉及物体检测与跟踪技术领域，尤其涉及一种基于深度学习的运动目标跟踪与定位方法。

背景技术

目标检测与目标跟踪是计算机视觉领域的基本任务之一。近些年随着神经网络的火热发展，基于深度学习的目标检测与目标跟踪算法也蓬勃发展起来。

基于深度学习的目标检测与目标跟踪算法采用端到端的解决方式，即输入图像到输出任务结果一步完成，可以有效提高解决问题的效率。但在实际检测与跟踪运动目标的过程中，会存在硬件技术的限制，因此，在实时性上存在很大的提升空间。

发明内容

有鉴于此，本发明提供了一种基于深度学习的运动目标跟踪与定位方法，用以满足实际应用要求的准确性和实时性。

本发明提供的一种基于深度学习的运动目标跟踪与定位方法，包括如下步骤：

S1：利用飞行器搭载摄像头，采集视频图像；

S2：利用深度神经网络YOLOv3-Tiny算法，检测所述视频图像中当前帧图像的目标区域，输出当前帧图像的目标区域内运动目标的分类结果和目标区域的图像坐标；

S3：将深度神经网络YOLOv3-Tiny算法输出的当前帧图像的目标区域内运动目标的分类结果和目标区域的图像坐标，输入深度学习SORT跟踪算法，预测所述视频图像的下一帧图像中运动目标的位置，判断下一帧图像中运动目标的预测位置与当前帧图像的目标区域之间的IOU是否大于IOU1阈值；若是，则深度学习SORT跟踪算法输出下一帧图像中运动目标的预测位置；若否，则利用深度学习SORT跟踪算法重新预测下一帧图像中运动目标的位置；

S4：将深度学习SORT跟踪算法输出的下一帧图像中运动目标的预测位置，输入SolvePnp位置估计算法，根据三角形相似原理，计算下一帧图像中运动目标的世界坐标。

在一种可能的实现方式中，在本发明提供的上述基于深度学习的运动目标跟踪与定位方法中，在执行步骤S1，利用飞行器搭载摄像头，采集视频图像之后，在执行步骤S2，利用深度神经网络YOLOv3-Tiny算法，检测所述视频图像中当前帧图像的目标区域，输出当前帧图像的目标区域内运动目标的分类结果和目标区域的图像坐标之前，还包括：

对所述视频图像进行数据归一化处理：

输入：X＝x₁,...,x_m (1)

过程：

输出：

其中，X表示上一层深度神经网络的输出结果，x_i表示每层深度神经网络中的参数，i＝1,2,…,m；μ_β表示深度神经网络YOLOv3-Tiny算法训练批次均值，m表示深度神经网络YOLOv3-Tiny算法训练批次大小，

表示深度神经网络YOLOv3-Tiny算法训练批次方差，

为数据归一化处理中的中间参数，ε是防止式(4)中分母为0的正数；y_i表示本层深度神经网络的输出结果，γ和β表示学习参数。

在一种可能的实现方式中，在本发明提供的上述基于深度学习的运动目标跟踪与定位方法中，步骤S1，利用飞行器搭载摄像头，采集视频图像，具体包括：

利用四旋翼F450飞行器搭载单目摄像头，采集视频图像。

在一种可能的实现方式中，在本发明提供的上述基于深度学习的运动目标跟踪与定位方法中，步骤S2，利用深度神经网络YOLOv3-Tiny算法，检测所述视频图像中当前帧图像的目标区域，输出当前帧图像的目标区域内运动目标的分类结果和目标区域的图像坐标，具体包括：

利用深度神经网络YOLOv3-Tiny算法训练数据获得检测网络模型，通过深度神经网络YOLOv3-Tiny算法的Darknet-53网络结构对所述视频图像中的当前帧图像进行多尺度特征提取，利用所述检测网络模型对当前帧图像中运动目标的类别和位置进行预测，判断当前帧图像中运动目标的预测位置与当前帧图像的目标区域之间的IOU是否大于IOU2阈值；若是，则输出当前帧图像的目标区域内运动目标的分类结果和目标区域的图像坐标；若否，则利用深度神经网络YOLOv3-Tiny算法对下一帧图像进行检测。

在一种可能的实现方式中，在本发明提供的上述基于深度学习的运动目标跟踪与定位方法中，步骤S3，将深度神经网络YOLOv3-Tiny算法输出的当前帧图像的目标区域内运动目标的分类结果和目标区域的图像坐标，输入深度学习SORT跟踪算法，预测所述视频图像的下一帧图像中运动目标的位置，判断下一帧图像中运动目标的预测位置与当前帧图像的目标区域之间的IOU是否大于IOU1阈值；若是，则深度学习SORT跟踪算法输出下一帧图像中运动目标的预测位置；若否，则利用深度学习SORT跟踪算法重新预测下一帧图像中运动目标的位置，具体包括：

利用卡尔曼滤波算法对所述视频图像的下一帧图像中运动目标的位置进行预测：

其中，u表示当前帧图像中运动目标的中心横坐标，v表示当前帧图像中运动目标的中心纵坐标，s表示当前帧图像中目标区域的尺寸，r表示目标区域的长宽比，

表示预测的下一帧图像中运动目标的中心横坐标，

表示预测的下一帧图像中运动目标的中心纵坐标，

表示预测的下一帧图像中目标区域的尺寸；

将下一帧图像的预测结果与当前帧图像的检测结果进行比对，利用匈牙利关联算法引入代价矩阵，代价矩阵定义为下一帧图像中运动目标的预测位置与当前帧图像的目标区域之间的IOU，判断下一帧图像中运动目标的预测位置与当前帧图像的目标区域之间的IOU是否大于IOU1阈值，若是，则预测结果与检测结果比对成功，深度学习SORT跟踪算法输出下一帧图像中运动目标的预测位置；若否，则利用深度学习SORT跟踪算法重新预测下一帧图像中运动目标的位置。

在一种可能的实现方式中，在本发明提供的上述基于深度学习的运动目标跟踪与定位方法中，步骤S4，将深度学习SORT跟踪算法输出的下一帧图像中运动目标的预测位置，输入SolvePnp位置估计算法，根据三角形相似原理，计算下一帧图像中运动目标的世界坐标，具体包括：

对摄像头进行标定，获得摄像头的内参矩阵：

其中，f表示摄像头焦距参数，单位是mm；dx和dy表示图像像元尺寸；μ₀和v₀为图像中心；

准备世界坐标系下的任意四个目标特征点，在图像坐标系上找到与所述四个目标特征点对应的坐标，创建所述旋转矩阵和所述平移矩阵的变量作为输出变量，利用所述内参矩阵求解摄像头的旋转矩阵R和平移矩阵T；

将深度学习SORT跟踪算法输出的下一帧图像中运动目标的预测位置输入SolvePnp位置估计算法，利用所述旋转矩阵R和所述平移矩阵T，通过如下公式求解下一帧图像中运动目标的世界坐标：

其中，

表示摄像头的外参矩阵，

表示下一帧图像中运动目标的世界坐标，

表示下一帧图像中运动目标的预测位置的坐标，Z_c表示设定参数。

本发明提供的上述基于深度学习的运动目标跟踪与定位方法，面向实际应用场景的实时目标检测、跟踪与定位。首先，利用深度神经网络YOLOv3-Tiny算法检测目标的图像坐标，然后，利用深度学习SORT跟踪算法预测目标的位置，最后，利用SolvePnp位置估计算法计算目标的空间位置。YOLOv3检测算法与SORT跟踪算法可以在保证算法准确度的基础上，满足实际应用中的实时性要求；空间定位选用的SolvePnP算法，只需四个特征点即可获得摄像机的旋转矩阵，相比于其他算法运行速度快，基本能够达到与目标检测结果同步运算的效果。本发明提供的上述基于深度学习的运动目标跟踪与定位方法，可以有效降低对硬件性能的要求，提升算法的运算效率，减少人力财力的消耗，在实际应用中具体较好的应用价值。

附图说明

图1为本发明实施例1的流程示意图；

图2为本发明实施例1中深度学习SORT跟踪算法的流程示意图；

图3为本发明实施例1中SolvePnp位置估计算法的原理图。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整的描述，显然，所描述的实施方式仅仅是作为例示，并非用于限制本发明。

S1：利用飞行器搭载摄像头，采集视频图像；

S2：利用深度神经网络YOLOv3-Tiny算法，检测视频图像中当前帧图像的目标区域，输出当前帧图像的目标区域内运动目标的分类结果和目标区域的图像坐标；

具体地，YOLOv3是YOLO目标检测算法的第三个改进版本，具有小而精的特点，对硬件设备要求不高，约1GB显存大小即可，通过减少YOLOv3算法输出张量的尺度，可以有效减小运算量从而提高算法运行速度；与其他算法相比，YOLOv3算法在检测精度与检测速度方面都有大幅度的提升；

S3：将深度神经网络YOLOv3-Tiny算法输出的当前帧图像的目标区域内运动目标的分类结果和目标区域的图像坐标，输入深度学习SORT跟踪算法，预测视频图像的下一帧图像中运动目标的位置，判断下一帧图像中运动目标的预测位置与当前帧图像的目标区域之间的IOU是否大于IOU1阈值；若是，则深度学习SORT跟踪算法输出下一帧图像中运动目标的预测位置；若否，则利用深度学习SORT跟踪算法重新预测下一帧图像中运动目标的位置；

具体地，深度学习SORT跟踪算法在保证实时性的基础上，可以大大提升算法的准确性，能够满足实际应用条件，在低内存情况下也能达到实时检测的要求，有助于解决实际应用中功耗大、内存小等难题；

S4：将深度学习SORT跟踪算法输出的下一帧图像中运动目标的预测位置，输入SolvePnp位置估计算法，根据三角形相似原理，计算下一帧图像中运动目标的世界坐标；

具体地，空间定位是通过四个已知坐标的特征点以及它们在摄像机图像中的成像坐标，求解出摄像机位于坐标系内的坐标与旋转角度，其核心在于PnP问题，通过PnP方法求解运动目标的空间位置。

本发明提供的上述基于深度学习的运动目标跟踪与定位方法，属于深度学习下的计算机视觉方向，计算机视觉包括四个基本任务：图像分类、物体检测、语义分割和实例分割。本发明属于物体检测与跟踪领域，主要通过深度学习算法进行端到端的解决问题，即输入图像到输出结果一步完成。目标检测、跟踪与定位的流程为：识别图像中所需目标的类别并进行跟踪，获得此目标的图像坐标，通过定位算法解算出目标的世界坐标。

较佳地，为了提升网络模型的精度与收敛速度，在执行本发明提供的上述基于深度学习的运动目标跟踪与定位方法中的步骤S1，利用飞行器搭载摄像头，采集视频图像之后，在执行本发明提供的上述基于深度学习的运动目标跟踪与定位方法中的步骤S2，利用深度神经网络YOLOv3-Tiny算法，检测视频图像中当前帧图像的目标区域，输出当前帧图像的目标区域内运动目标的分类结果和目标区域的图像坐标之前，还可以对视频图像进行预处理，具体可以为数据归一化处理，处理过程如下：

输入：X＝x₁,...,x_m (1)

过程：

输出：

表示深度神经网络YOLOv3-Tiny算法训练批次方差，

为数据归一化处理中的中间参数，ε是防止式(4)中分母为0的正数，即ε是接近于0的很小的正数；y_i表示本层深度神经网络的输出结果，γ和β表示学习参数。

本发明提供的上述基于深度学习的运动目标跟踪与定位方法，可以通过四旋翼F450飞行器搭载Nvidia Xavier微型计算机、单目摄像头和导航系统等设备来实现，选择F450型号的原因是其负载能够满足飞行需求。上述试验平台可以简单分为以下三个模块：图像采集模块、图像处理模块和导航定位模块。四旋翼F450飞行器搭载单目摄像头采集地面或空中目标的视频图像，然后通过USB相机接口将采集的视频图像传输给图像处理模块，图像处理模块采用8-Core ARM的8核CPU、512-Core Volta的GPU加速单元、双深度学习加速器(DLA)引擎以及NVIDIA XAVIER嵌入式设备对视频图像进行处理，导航定位模块利用OptiTrack系统与图像处理模块进行数据融合，负责定位飞行器自身位置和目标所处的空间位置。

下面通过一个具体的实施例对本发明提供的上述基于深度学习的运动目标跟踪与定位方法的具体实施进行详细说明。

实施例1：

图1为整体试验流程，前期准备包括制作数据集和标定单目摄像头。四旋翼飞行器执行任务时，单目摄像头传入的视频图像，首先经过目标检测算法(即深度神经网络YOLOv3-Tiny算法)得到图像坐标，然后经过跟踪算法(即深度学习SORT跟踪算法)得到预测位置，最后将结果传给SolvePnp位置估计算法完成坐标转换，获得目标的实际位置。具体步骤如下：

第一步：利用飞行器搭载摄像头，采集视频图像。

具体地，可以利用四旋翼F450飞行器搭载单目摄像头，采集视频图像；采集的视频图像，可以为地面目标的视频图像，或者，也可以为空中目标的视频图像，在此不做限定。

第二步：利用深度神经网络YOLOv3-Tiny算法，检测视频图像中当前帧图像的目标区域，输出当前帧图像的目标区域内运动目标的分类结果和目标区域的图像坐标。

具体地，可以利用深度神经网络YOLOv3-Tiny算法训练数据获得检测网络模型，通过深度神经网络YOLOv3-Tiny算法的Darknet-53网络结构对视频图像中的当前帧图像进行多尺度特征提取，利用检测网络模型对当前帧图像中运动目标的类别和位置进行预测，然后通过评价指标筛选出预测的准确目标，具体是判断当前帧图像中运动目标的预测位置与当前帧图像的目标区域之间的IOU是否大于IOU2阈值；若是，则输出当前帧图像的目标区域内运动目标的分类结果和目标区域的图像坐标；若否，则利用深度神经网络YOLOv3-Tiny算法对下一帧图像进行检测。

第三步：将深度神经网络YOLOv3-Tiny算法输出的当前帧图像的目标区域内运动目标的分类结果和目标区域的图像坐标，输入深度学习SORT跟踪算法，预测视频图像的下一帧图像中运动目标的位置，判断下一帧图像中运动目标的预测位置与当前帧图像的目标区域之间的IOU是否大于IOU1阈值；若是，则深度学习SORT跟踪算法输出下一帧图像中运动目标的预测位置；若否，则利用深度学习SORT跟踪算法重新预测下一帧图像中运动目标的位置。深度学习SORT跟踪算法的流程如图2所示。

利用卡尔曼滤波算法对视频图像的下一帧图像中运动目标的位置进行预测：

其中，u表示当前帧图像中运动目标的中心横坐标，v表示当前帧图像中运动目标的中心纵坐标，s表示当前帧图像中目标区域的尺寸，r表示目标区域的长宽比(为一个常量)，

表示预测的下一帧图像中运动目标的中心横坐标，

表示预测的下一帧图像中运动目标的中心纵坐标，

表示预测的下一帧图像中目标区域的尺寸；

然后，将下一帧图像的预测结果与当前帧图像的检测结果进行关联，具体地，将下一帧图像的预测结果与当前帧图像的检测结果进行比对，利用匈牙利关联算法引入代价矩阵，代价矩阵定义为下一帧图像中运动目标的预测位置与当前帧图像的目标区域之间的IOU，判断下一帧图像中运动目标的预测位置与当前帧图像的目标区域之间的IOU是否大于IOU1阈值，若是，则预测结果与检测结果比对成功，深度学习SORT跟踪算法输出下一帧图像中运动目标的预测位置；若否，则利用深度学习SORT跟踪算法重新预测下一帧图像中运动目标的位置。

第四步：将深度学习SORT跟踪算法输出的下一帧图像中运动目标的预测位置，输入SolvePnp位置估计算法，根据三角形相似原理，计算下一帧图像中运动目标的世界坐标。SolvePnp位置估计算法的原理如图3所示，

代表摄像机坐标系，

代表平面法向量，P₀,P₁,P₂,P₃代表平面任取的四个点，d代表摄像机到平面的距离。

摄像头在实际使用过程中镜头会存在畸变参数，这样会导致结果与期望相差甚远，因此，为了获得准确的输出结果，需要对摄像头进行“校正”(即标定)。摄像头的标定过程可以参考张正友标定方法，目的是获得计算机视觉中摄像头的内参矩阵，具体的内参矩阵如下：

此时，还需要知道摄像头在世界坐标系下的位置(即外参矩阵)，首先准备世界坐标系下的任意四个目标特征点，在图像坐标系上找到与四个目标特征点对应的坐标，创建旋转矩阵和平移矩阵的变量作为输出变量，利用内参矩阵求解摄像头的旋转矩阵R和平移矩阵T；

将深度学习SORT跟踪算法输出的下一帧图像中运动目标的预测位置输入SolvePnp位置估计算法，利用旋转矩阵R和平移矩阵T，通过如下公式求解下一帧图像中运动目标的世界坐标：

其中，

表示摄像头的外参矩阵，

表示下一帧图像中运动目标的世界坐标，

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度学习的运动目标跟踪与定位方法，其特征在于，包括如下步骤：

S1：利用飞行器搭载摄像头，采集视频图像；

步骤S3，将深度神经网络YOLOv3-Tiny算法输出的当前帧图像的目标区域内运动目标的分类结果和目标区域的图像坐标，输入深度学习SORT跟踪算法，预测所述视频图像的下一帧图像中运动目标的位置，判断下一帧图像中运动目标的预测位置与当前帧图像的目标区域之间的IOU是否大于IOU1阈值；若是，则深度学习SORT跟踪算法输出下一帧图像中运动目标的预测位置；若否，则利用深度学习SORT跟踪算法重新预测下一帧图像中运动目标的位置，具体包括：

表示预测的下一帧图像中运动目标的中心横坐标，

表示预测的下一帧图像中运动目标的中心纵坐标，

表示预测的下一帧图像中目标区域的尺寸；

2.如权利要求1所述的基于深度学习的运动目标跟踪与定位方法，其特征在于，在执行步骤S1，利用飞行器搭载摄像头，采集视频图像之后，在执行步骤S2，利用深度神经网络YOLOv3-Tiny算法，检测所述视频图像中当前帧图像的目标区域，输出当前帧图像的目标区域内运动目标的分类结果和目标区域的图像坐标之前，还包括：

对所述视频图像进行数据归一化处理：

输入：X＝x₁,...,x_m (1)

过程：