CN116012422A

CN116012422A - 基于单目视觉的无人机6d位姿估计跟踪方法及其应用

Info

Publication number: CN116012422A
Application number: CN202310286417.8A
Authority: CN
Inventors: 郑业; 郑灿轮; 陈飞; 赵世钰
Original assignee: Westlake University
Current assignee: Westlake University
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-04-25
Anticipated expiration: 2043-03-23
Also published as: CN116012422B

Abstract

本申请提出了基于单目视觉的无人机6D位姿估计跟踪方法及其应用，包括以下步骤：收集数据集，在无人机坐标系下定义3D关键点并获取3D坐标和在图像中的2D投影坐标；构建关键点检测与定位网络并训练，通过关键点检测与定位网络预测2D坐标；根据3D坐标和2D坐标以及单目相机的内参，计算出目标无人机的6D位姿；根据3D姿态信息，利用卡尔曼跟踪器的无人机非线性处理模型估计目标无人机的位置和速度，根据3D空间位置信息，利用卡尔曼跟踪器的观测模型修正估计的目标无人机的位置和速度，并通过该卡尔曼跟踪器输出目标无人机的位置和速度。本申请可使观测无人机在不使用通信设备的情况下实时获取周围无人机的状态信息。

Description

基于单目视觉的无人机6D位姿估计跟踪方法及其应用

技术领域

本申请涉及无人机技术领域，特别是涉及基于单目视觉的无人机6D位姿估计跟踪方法及其应用。

背景技术

近年来，随着无人机技术的日益发展，无人机已经被广泛应用于各行各业，比如无人机物流，飞行表演，无人机测绘等等。

在多无人机系统中，传统的方案多是采用通信的方式，它们都基于一种假设，即每一个无人机可以通过通信的方式获取周围无人机的各项信息，如位置、姿态和速度等等。但是，该方案在实际实现过程中会遭受多项挑战，比如由于通信的带宽有限，无人机集群的规模只能保持在一定的数量。另外，通信会受到距离的约束，并且容易受到环境因素的干扰，这些因素会导致基于通信的方法无法实现远距离无人机集群作业。而基于视觉方法实现无人机集群则不易受到上述问题的困扰，即，每一个无人机都能利用自身携带的相机，通过算法估计出视野内协同飞行的无人机的状态。目前基于视觉的无人机集群的相关技术正在受到越来越多的关注。

视觉检测技术是基于视觉的无人机集群中的一项关键技术。当前的一些工作多研究使用视觉检测技术获得目标无人机在图像中的位置，然而检测无人机在图像中的位置通常不是最终目的，目标无人机的状态信息是研究者更想要获得的信息，包括它们的位置、速度和加速度等信息。目前基于通信的方式实现无人机集群存在诸多问题，而现有基于视觉实现无人机集群的工作多集中在研究检测目标无人机在2D图像中的位置，如中国专利CN114581480B公开的多无人机协同目标状态估计控制方法及其应用，均无法实现使观测无人机在不使用通信设备的情况下实时获取周围无人机的状态信息。

因此，亟待一种基于单目视觉的无人机6D位姿估计跟踪方法及其应用，以解决现有技术存在的问题。

发明内容

本申请实施例提供了基于单目视觉的无人机6D位姿估计跟踪方法及其应用，针对目前技术很难得到目标无人机的状态信息的问题。

本申请核心技术主要是基于关键点的6D位姿估计方法被申请出来用于估计图像中目标无人机的3D空间位置和3D姿态信息。而后，基于获得的目标无人机的位置信息和姿态信息，发明了一种基于目标6D位姿的卡尔曼跟踪器来估计、修正并跟踪目标无人机的状态信息，包括目标无人机的空间位置和速度。

第一方面，本申请提供了基于单目视觉的无人机6D位姿估计跟踪方法，所述方法包括以下步骤：

S00、收集数据集，该数据集包括无人机的图像和位姿数据，同时在无人机坐标系下定义3D关键点并获取3D坐标和在图像中的2D投影坐标；

S10、构建关键点检测与定位网络并采用数据集进行训练，而后通过该关键点检测与定位网络预测测试集的图像中的2D坐标；

S20、根据3D关键点的3D坐标和预测的2D坐标以及单目相机的内参，计算出目标无人机的6D位姿，该6D位姿包括3D空间位置信息和3D姿态信息；

S30、根据3D姿态信息，利用卡尔曼跟踪器的无人机非线性处理模型估计目标无人机的位置和速度，根据3D空间位置信息，利用卡尔曼跟踪器的观测模型修正估计的目标无人机的位置和速度，并通过该卡尔曼跟踪器输出目标无人机的位置和速度；

其中，将无人机非线性处理模型和观测模型代入卡尔曼滤波算法得到基于位姿的卡尔曼跟踪器。

进一步地，S00步骤中，利用室内定位系统VICON和单目相机收集数据集。

进一步地，S10步骤中，关键点检测与定位网络的构建步骤为：

以数据集的RGB图像作为输入，对该RGB图像进行特征提取和特征融合，输出多层特征图；

取中间层的特征图尺寸为基准，分别对上层和下层的特征图进行下采样和上采样，而后进行拼接得到拼接特征图；

经过多个卷积核处理得到关键点分类分支和关键点回收分支以及关键点置信度分支。

进一步地，S10步骤中，训练关键点检测与定位网络的损失函数包括回归损失、分类损失以及置信度损失，回归损失联合使用2D回归损失和3D回归损失。

进一步地，S20步骤中，通过PnP算法求解出目标无人机的6D位姿。

进一步地，S30步骤中，无人机非线性处理模型基于无人机的运动学模型构建，同时设推力大小等于无人机重力与零平均白噪声，在此基础上重新推导得到最终的无人机非线性处理模型。

进一步地，S30步骤中，观测模型将测量值作为S20步骤中的3D空间位置信息。

第二方面，本申请提供了一种基于单目视觉的无人机6D位姿估计跟踪系统，包括：

采集模块，用于收集数据集，该数据集包括无人机的图像和位姿数据，同时在无人机坐标系下定义3D关键点并获取3D坐标和在图像中的2D投影坐标；

训练模块，用于构建关键点检测与定位网络并采用数据集进行训练，而后通过该关键点检测与定位网络预测测试集的图像中的2D坐标；

计算模块，根据3D关键点的3D坐标和预测的2D坐标以及单目相机的内参，计算出目标无人机的6D位姿，该6D位姿包括3D空间位置信息和3D姿态信息；

估计修正跟踪模块，根据3D姿态信息，利用卡尔曼跟踪器的无人机非线性处理模型估计目标无人机的位置和速度，根据3D空间位置信息，利用卡尔曼跟踪器的观测模型修正估计的目标无人机的位置和速度，并通过该卡尔曼跟踪器输出目标无人机的位置和速度；

其中，将无人机非线性处理模型和观测模型代入卡尔曼滤波算法得到基于位姿的卡尔曼跟踪器；

输出模块，用于输出目标无人机的位置和速度。

第三方面，本申请提供了一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述的基于单目视觉的无人机6D位姿估计跟踪方法。

第四方面，本申请提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据上述的基于单目视觉的无人机6D位姿估计跟踪方法。

本申请的主要贡献和创新点如下：1、与现有技术（在先专利CN114581480B）相比，本申请通过观测无人机的单目相机进行图像识别和一系列计算计算出目标无人机的6D位姿，然后通过基于6D位姿的卡尔曼跟踪器估计修正并跟踪目标无人机，从而让观测无人机无需使用通信设备实时获取周围无人机的状态信息；

2、与现有技术相比，本申请由无人机6D位姿估计和基于6D位姿的卡尔曼跟踪器组成，这两部分分别经过验证性能超过了同类方法，并且能够在机载计算机上实时运行。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的基于单目视觉的无人机6D位姿估计跟踪方法的流程；

图2是本申请实施例所定义的无人机3D关键点在2D图像中的投影示意图；

图3是本申请实施例的关键点检测与定位网络结构图；

图4是关键点检测与定位网络结构图的输入图；

图5是关键点检测与定位网络结构图的输出图，其中实线框表示预测框；

图6是无人机6D位姿估计结果示意图一，其中虚线框表示真值框，实线框表示预测框；

图7是无人机6D位姿估计结果示意图二；

图8是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细的对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

基于通信的方式实现无人机集群存在诸多问题，而现有基于视觉实现无人机集群的工作多集中在研究检测目标无人机在2D图像中的位置，均无法使观测无人机在不使用通信设备的情况下实时获取周围无人机的状态信息。

由于无人机集群任务的目标无人机的各项信息（无人机的类别信息和尺寸信息等基本的硬件信息）都是可以提前获悉的。

基于此，本申请基于单目视觉的无人机6D位姿估计和基于6D位姿的无人机状态估计及跟踪，以解决现有技术存在的问题。

实施例一

本申请旨在提出一种基于单目视觉的无人机6D位姿估计跟踪方法，可以，具体地，参考图1，所述方法包括以下步骤：

在本实施例中，为了训练和评估关键点检测与定位网络，需要收集无人机6D位姿数据集。下面将介绍无人机6D位姿数据集的收集方法和收集的数据集。

数据集收集步骤如下：

1）相机标定，采用基于平面标定板的方法对观测无人机的单目相机进行标定，以获取相机的内参矩阵K和畸变系数D，即

和D=[k₁,k₂,p₁,p₂,k₃]；

2）将单目相机接入室内定位系统VICON（现有技术），并分别定义VICON坐标系Σ_w、相机坐标系Σ_c和无人机坐标系Σ_o；

3）在无人机上贴上marker（一般是指二维码或者类似于二维码的标记），分别使用VICON和相机读取这些marker在VICON坐标系下的坐标

以及在图像中的坐标p_i；

4）使用重投影误差最小化方法获得相机坐标系Σ_c与VICON坐标系Σ_w之间的变换矩阵

，即

；

5）由于VICON可以直接读取无人机坐标系相对于VICON坐标系的变换矩阵

，通过将VICON和相机的时间轴同步后，就可以实时输出无人机的图像以及无人机相对于相机的位姿信息

，

；

6）在目标无人机上定义9个3D关键点，如图2所示，并利用VIOCN读取9个关键点的3D坐标

。然后，通过

，可以获得9个关键点在无人机坐标系下的3D坐标

；

7）结合步骤5）中获得的各图像中目标无人机的位姿信息

，利于小孔成像模型（现有技术）将3D关键点投影到2D图像中，即

，就可以得到图像数据以及各图像中2D关键点的坐标。

优选地，使用上述数据集收集方法收集一个无人机6D位姿数据集。在该数据集中，使用DJI Phantom 4无人机作为目标无人机（不仅限于该种无人机）。在数据收集过程中，无人机通过专业飞手控制其飞行，它的滚转角（roll）、俯仰角（pitch）和偏航角（yaw）分布在[-30.0°,+32.2°]，[-28.2°,+32.0°]和[-179.8°,+179.2°]区间中。无人机与相机之间的最小距离为1.04 m，最大距离为5.82 m。无人机的平均速度为0.99 m/s，最大速度为5.10 m/s。该数据集中共计有16734张图像以及它们对应的标注文件。其中，11676张图像作为训练集，5058张图像作为测试集。

在本实施例中，为了实现关键点检测与定位，本申请提出了一个关键点检测与定位网络，其网络结构如图3-图5所示。

S11、该网络以RGB图像（训练集的图像）作为输入，使用EfficientRep骨干网络和Rep-PAN特征融合模块对图像进行特征提取和特征融合，输出特征图记为[F₃,F₄,F₅]。

S12、以F₄的特征图尺寸为基准，分别对F₃层和F₅层特征图进行下采样和上采样，并对三张特征图进行拼接，得到特征图

。

S13、使用1x1的卷积核对

进行处理后，得到特征图

。

S14、再使用两个3x3的卷积核分别对

进行处理后，得到特征图

和

。

S15、使用一个1x1的卷积核对

进行处理，得到关键点分类分支，使用两个1x1的卷积核分别对

进行处理，得到关键点回归分支关键点置信度分支；利用上述获得的图像数据和二维关键点对该网络进行训练。

关键点检测与定位网络实现细节如下：该网络采用尺寸为640x480的图像作为输入，它将图像分割成40x30个网格单元。每个网格单元中的中心关键点由输出层的3D张量中相应的网格单元负责预测，包括关键点的类别，位置，以及置信度。其余的角点关键点会与中心关键点捆绑在一起进行预测，并共享类别和置信度信息。在关键点回归中，中心关键点的位置设为(c_x,c_y)，它可以通过下式获得：

其中，x₀和y₀是网络关键点回归分支的输出值，b_x和b_y表示网格单元左上角的坐标，

表示sigmoid函数。

上式可以保证中心关键点落在网格单元中。其余关键点的位置可以直接将网络关键点回归分支的输出值加上网格单元左上角的坐标来获得。在关键点分类分支中，如果存在多种类型的无人机，每一种无人机都会被视为一个单独的类别，然后使用softmax函数对检测到的无人机进行分类。softmax函数定义为：

其中，ω_i表示每一个网格单元元素的值，k表示类别总数。在关键点置信度分支中，每一个网格单元向量只包含一个元素。该元素的值被用于预测中心点位于该网格内的一组关键点的置信度。

在本实施例中，本申请采用监督学习的方式训练关键点检测与定位网络，使用的损失函数包含了回归损失，分类损失和置信度损失。具体的损失函数如下所示：

其中，

，

，和

分别代表分类损失，置信度损失和回归损失；λ_cls，λ_conf，和λ_reg表示权重参数。

分类损失定义为交叉熵函数：

其中，

和

分别表示图像中检测到的无人机集合以及该集合的大小，C表示无人机的类别数量，t _i表示图像中检测到的第i个无人机；j表示当前无人机的真实类别为第j类；

置信度损失定义为：

其中，h_pr表示关键点检测与定位网络中关键点置信度分支的输出结果,

表示置信度，定义为：

其中，D(*)表示欧氏距离度量函数，

和

分别表示图像中关键点的预测位置和真值位置，D_thr表示距离阈值（设为80像素），只有当预测关键点与真值关键点之间的距离小于一个阈值D_thr时，才去计算该关键点的置信度损失；

由于图像中两点的距离无法反映它们在3D空间中的真值距离，因此，在关键点回归损失中，本申请联合使用了2D和3D回归损失：

其中，2D回归损失定义为：

3D回归损失定义为：

其中，I表示单位矩阵；

是投影点正交于相机视线的矩阵，

是预测的2D关键点坐标；

是真值点在相机坐标系下的坐标；smooth_L1(x)定义为：

如此，本申请采用上述的数据集和损失函数，对关键点检测与定位网络实施训练。在训练的早期，由于网络对于关键点的定位能力有限，在前15轮的训练中仅使用2D回归损失监督训练。之后，采用联合回归损失监督训练。当训练数据中只有一类无人机的时候，λ_cls设为0；否则，设为1。另外，λ_conf和λ_reg分别设为5和1。训练过程使用随机梯度下降（SGD）算法对参数进行优化，优化算法中的动量设为0.843，学习率的初始值设为0.1，该学习率服从s(i)=α+(1-α)cos(πi/N)的变化规律，其中，i表示当前的训练轮数，N表示训练的全部轮数，设为200，α是超参数，设为0.56。

为了防止网络在训练过程出现过拟合，同时提高模型的性能，本申请使用在对关键点检测与定位网络进行训练的过程中使用了关键点数据增强操作。具体来说，在训练过程中，所有图像的亮度，对比度和饱和度都会被分别施加比例因子在[0.7, 1.3]，[0.95,1.05]和[0.5, 1.5]之间的变化。另外，各图像也会被随机旋转[-30,+30]度和[-10,+10]像素。为了增加数据在深度方向的多样性，图像也会被施加比例因子在[0.8, 1.2]之间的缩放操作。

在本实施例中，利用3D关键点在无人机坐标系下的3D坐标、相机的内参矩阵K与畸变系数D、以及关键点检测与定位网络估计的关键点在图像中的2D坐标，根据PnP算法求解出目标无人机的6D位姿信息。

其中，PnP算法是一种通用的位姿求解方法。PnP (Perspective-n-Point) 方法是计算相机位姿的一种常用方法。它通过已知相机的内参矩阵，以及至少三个物体上已知点和它们在图像上的对应点，计算出相机在物体坐标系中的旋转和平移矩阵，从而确定相机的6D位姿。在无人机的应用中，PnP方法可以用来计算相机相对于无人机坐标系的位姿，从而实现对无人机的自主导航和控制。

优选地，需要对上述步骤得到的无人机6D位姿估计方法进行性能测试，测试结果如图6-图7所示。从图中可以看出，提出的方法在不同的观测视角和不同的观测距离下都能准确地估计出目标无人机的6D位姿。

更进一步地，为了充分体现本申请的性能优势，下面将本申请与其他同类型方法（YOLO6D和EfficientPose）在无人机6D位姿数据集上进行对比。

评价指标采用AP，ADD(0.5d),10°10cm和运行时间。AP表示平均准确度，ADD(0.5d)度量的是在所有测试样本中位姿估计算法对物体的3D定位误差小于物体直径50%的比例，10°10cm是指在测试样本中位姿估计算法估计的旋转误差小于10°，并且定位误差小于10cm的样本数占总样本的比例。

相关实验在装配有Nvidia RTX 2080Ti GPU和Intel(R) Xeon(R) Gold 5118 CPU的计算机上实施，结果下表1：

表1

从表1中可以看出，本申请所提出的方法在AP,ADD(0.5d),10°10cm和运行时间4个指标中都超过了其他方法，实现了高性能的目标。另外，为了突出本申请的高性能，申请人也在公开数据集LINEMOD上面与中国专利CN 115331301A公开的基于Transformer的6D位姿估计方法进行对比，并采用ADD作为评价指标。取LINEMOD数据集中的十三类物体进行训练和测试。实验结果表明，本申请的平均ADD可达到51.9%，超过了基于Transformer的6D位姿估计方法（49.1%）。

最后，将本申请所提出的无人机6D位姿估计方法部署到无人机的机载计算机（Nvidia Xavier）上，它的运行速度可以达到63 FPS，实现了在无人机上实时运行的目标。

其中，LINEMOD是一个公开的用于视觉目标识别的数据集，它由奥地利格拉茨工业大学的计算机视觉与模式识别研究组开发。该数据集包括15个不同物体的3D CAD模型，包括瓶子、鼠标、钥匙等常见物品。每个物体都有至少10个实例，总共有13,858个RGB-D图像。在LINEMOD数据集中，每个物体的图像被放置在黑色背景上，以便于物体的分割和识别。此外，该数据集还提供了相应的深度图像和物体的3D姿态（即物体在图像中的位置和方向），以便于训练机器学习模型进行物体识别和定位。

在本实施例中，无人机非线性处理模型的构建步骤为：

令P_w=[p_w,x,p_w,y,p_w,z]^T∈R³和V_w=[v _w,x,v _w,y,v _w,z]^T∈R³分别表示目标无人机在世界坐标系下的位置和速度。这里用欧拉角表示姿态信息，即

。坐标轴三个方向上的单位向量分别表示为e₁,e₂,e₃。那么，目标无人机的运动学模型可以构建为：

其中，a₀表示无人机在其自身坐标系下的加速度，g表示重力加速度，旋转矩阵

可以通过下式计算：

其中，s*=sin(*),c*=cos(*)。无人机6D位姿估计方法获得的目标无人机的姿态信息将会被应用到运动学模型中。

由于不知道目标无人机的推力方向，本申请假设推力的大小等于其重力加上零平均白噪声

。因此，目标无人机的非线性处理模型可以写为：

处理模型可以以紧凑的形式重写为：

其中，

那么，f(x,w)对x和w求偏导的雅可比矩阵可以写成：

通过计算可得：

在本实施例中，令观测模型的测量值为无人机6D位姿估计方法获得的目标无人机的位置P_w。因此，本申请中的观测模型写为：

Z=P_w=Hx+v

其中，H=[I_3x3,0_3x3]表示测量矩阵，v表示观测噪声，x表示状态，即

。

在本实施例中，该部分将提出一种新型的状态跟踪器，它是一种基于6D位姿信息的卡尔曼跟踪器，命名为Pose-KF。

将处理模型和观测模型代入卡尔曼滤波算法可以得到本发明提出的基于位姿的卡尔曼跟踪器。其预测方程和更新方程如下：

预测方程：

更新方程：

其中，△t表示采用时间，

和

分别表示先验状态估计和估计误差的协方差。

和

分别表示后验状态估计和估计误差的协方差，K_k+1是在k+1时刻的卡尔曼增益，Q=σ_qI_6x6和R_v=σ_γI_3x3分别表示系统误差的协方差矩阵和测量噪声协方差矩阵。Pose-KF给出估计的状态

和协方差矩阵

进行初始化。

更进一步地，为了体现本申请提出的Pose-KF的性能优势，在下面的实验中，将其与传统的卡尔曼跟踪器（KF）进行对比。实验数据采用前文所述无人机6D位姿数据集。

为了执行实验，一些参数需要被说明。Pose-KF的执行频率为10 Hz。预测方程和更新方程中的σ_q，σ_γ和△t分别设为0.01，0.1和0.1 s。

采用均方根误差（RMSE）作为评价指标，其中，估计位置评价公式为：

估计速度评价公式为：

其中，

和

表示估计的位置和速度，

和

表示真值位置和速度。

实验结果见下表2：

表2

方法	RMSE-p(m)	RMSE-v(m/s)
			KF	0.3461	1.6991
Pose-KF	0.1410	1.1522

从表中可以看出，与KF方法相比，本申请提出的Pose-KF在位置估计和速度跟踪方面具有更高的估计精度。

实施例二

基于相同的构思，本申请还提出了一种基于单目视觉的无人机6D位姿估计跟踪系统，包括：

输出模块，用于输出目标无人机的位置和速度。

实施例三

本实施例还提供了一种电子装置，参考图8，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意基于单目视觉的无人机6D位姿估计跟踪方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是跟踪指令等，输出的信息可以是标无人机的位置和速度等。

实施例四

本实施例还提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据实施例一的基于单目视觉的无人机6D位姿估计跟踪方法。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本申请的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本申请不限于此。尽管本申请的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本申请的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以作出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.基于单目视觉的无人机6D位姿估计跟踪方法，其特征在于，包括以下步骤：

S00、收集数据集，该数据集包括无人机的图像和位姿数据，同时在无人机坐标系下定义3D关键点并获取3D坐标和在所述图像中的2D投影坐标；

S10、构建关键点检测与定位网络并采用所述数据集进行训练，而后通过该关键点检测与定位网络预测测试集的图像中的2D坐标；

其中，将所述无人机非线性处理模型和所述观测模型代入卡尔曼滤波算法得到基于位姿的卡尔曼跟踪器。

2.如权利要求1所述的基于单目视觉的无人机6D位姿估计跟踪方法，其特征在于，S00步骤中，利用室内定位系统VICON和单目相机收集数据集。

3.如权利要求1所述的基于单目视觉的无人机6D位姿估计跟踪方法，其特征在于，S10步骤中，关键点检测与定位网络的构建步骤为：

以所述数据集的RGB图像作为输入，对该RGB图像进行特征提取和特征融合，输出多层特征图；

4.如权利要求3所述的基于单目视觉的无人机6D位姿估计跟踪方法，其特征在于，S10步骤中，训练关键点检测与定位网络的损失函数包括回归损失、分类损失以及置信度损失，所述回归损失联合使用2D回归损失和3D回归损失。

5.如权利要求1所述的基于单目视觉的无人机6D位姿估计跟踪方法，其特征在于，S20步骤中，通过PnP算法求解出目标无人机的6D位姿。

6.如权利要求1-5任一项所述的基于单目视觉的无人机6D位姿估计跟踪方法，其特征在于，S30步骤中，所述无人机非线性处理模型基于无人机的运动学模型构建，同时设推力大小等于无人机重力与零平均白噪声，在此基础上重新推导得到最终的无人机非线性处理模型。

7.如权利要求6所述的基于单目视觉的无人机6D位姿估计跟踪方法，其特征在于，S30步骤中，所述观测模型将测量值作为S20步骤中的3D空间位置信息。

8.一种基于单目视觉的无人机6D位姿估计跟踪系统，其特征在于，包括：

输出模块，用于输出目标无人机的位置和速度。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项所述的基于单目视觉的无人机6D位姿估计跟踪方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1至7任一项所述的基于单目视觉的无人机6D位姿估计跟踪方法。