CN114202701A

CN114202701A - 一种基于物体语义的无人机视觉重定位方法

Info

Publication number: CN114202701A
Application number: CN202111543367.4A
Authority: CN
Inventors: 王茂霖; 吕人力; 管祥民; 王红玉; 蔡惠宁
Original assignee: Civil Aviation Management Institute Of China; Zhejiang Jiande General Aviation Research Institute
Current assignee: Civil Aviation Management Institute Of China; Zhejiang Jiande General Aviation Research Institute
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-18

Abstract

本发明提供了一种基于物体语义的无人机视觉重定位方法，包括：构建无人机视觉重定位模型：图像处理与表示模块、场景匹配模块和重定位模块。由无人机相机拍摄当前场景，利用图像处理模块中的YOLOv3目标检测网络获取图片中包含的物体语义信息，并使用语义信息构建拓扑图作为对环境的稀疏描述；在有地图先验知识的情况下，构建待匹配图片的伴随图，采用随机游走算法进行语义特征和场景的匹配；利用EPnP算法求解出无人机的位姿，完成重定位。本发明在场景光照条件动态变化时，能够实现强鲁棒性的无人机实时重定位，尤其适用于工业巡检等自动化任务。

Description

一种基于物体语义的无人机视觉重定位方法

技术领域

本发明涉及视觉定位领域，特别涉及一种基于物体语义的无人机视觉重定位方法。

背景技术

定位问题是无人机领域中极为关键的一个问题，无人机在执行工业巡检等自动化任务时，需具备精确的自定位能力，并对工作过程中常见的干扰因素表现出一定的鲁棒性。随着计算机视觉的发展，基于相机传感器的视觉场景匹配技术愈渐成熟，可以为无人机自主飞行提供优质的服务。视觉传感器具有成本低、体积小、重量轻、能够提供丰富的在线环境信息、非接触等优点，且合适的视觉定位系统可以与GPS和INS系统相结合，作为无人机的补充定位系统。

无人机在工作过程中需要时刻跟踪位姿，当位姿跟踪失败时，需要进行重定位以恢复当前位姿。传统的视觉定位算法依赖于环境表象之间的相似性，采用人工设计的底层几何视觉特征作为图像相似度的计算依据，再利用特征匹配来实现场景匹配，在环境条件不变时可使无人机重定位取得不错的效果。然而，现实世界中往往存在着照明条件变换、天气变换和季节更替等复杂的环境变化，导致图像中的部分关键特征被强化或弱化，大大降低了特征匹配的准确度，此时，这传统方法的重定位精度将大幅下降，若想保持性能则需付出昂贵的地图维护代价。

发明内容

发明目的：本发明一种基于物体语义的无人机视觉重定位方法，以解决现有无人机视觉重定位方法无法很好地应对环境中光照变化导致重定位精度不足的技术问题。

本发明包括：步骤1，构建无人机视觉重定位模型，所述无人机视觉重定位模型包括图像处理与表示模块、场景匹配模块和重定位模块；

步骤2，通过图像处理与表示模块构建语义拓扑图；

步骤3，所述场景匹配模块基于待匹配图像对的共同语义信息构建伴随图，综合考虑待匹配图的语义信息差异、节点位置差异和拓扑结构差异，使用随机游走算法完成语义特征点对的映射，并计算相机传感器输入图像与地图库中图像的相似度，进而完成无人机的场景匹配；

步骤4，通过重定位模块求解出无人机的位姿，完成重定位。

步骤2包括：由无人机相机拍摄当前场景图片，所述图像处理与表示模块使用YOLOv3目标检测网络获取场景图片中包含的物体语义信息(包括物体类别标签及物体在图像中的像素位置信息)，所述物体语义信息包括物体语义标签以及物体在图像中的像素位置信息，以物体语义标签作为节点构建语义拓扑图，并建立场景地图库作为对环境的内部表示，用于与输入的视觉数据进行比较。

步骤3包括：利用语义拓扑图的权值矩阵W度量候选对之间的匹配程度，其中语义拓扑图对角线上的元素W_ia；ia代表节点之间的匹配权值，非对角线元素W_ia；jb代表边与边之间的匹配权值，权值越大代表匹配程度越高；概率转移矩阵P＝D^-1W，D是一个

的对角矩阵，其中D_ii是D的对角元素，W_ij代表权值矩阵W中的第i行第j列元素；

设定待匹配的两幅图为G^M和G^N，图

为G^M和G^N的伴随图，

是G^M中的节点，

是

之间的边，

是G^N中的节点，

是

之间的边；

令X^(t)T为t时刻随机游走器到达伴随图上各节点的概率分布，X^(t+1)T为t+1时刻随机游走器到达伴随图上各节点的概率分布，概率转移矩阵为P，则随机游走的马尔科夫链表示为：

X^(t+1)T＝X^(t)TP

在伴随图上进行随机游走，直至随机游走器到达伴随图上各节点的概率分布收敛，得到指派矩阵X'，从而确定待匹配的两幅图G^M和G^N中节点的匹配关系。

步骤3中，按以下方式综合考虑待匹配图的语义信息差异、节点位置差异和拓扑结构差异：

考虑语义信息差异：有相同语义标签的一对节点

和

将组成伴随图

中新的节点

语义标签不同的一对节点则被定义为冲突匹配对，将不会在伴随图中出现；在计算图像相似度时，考虑场景中物体的移动频率，移动频率低的物体在计算时被赋予更大的权重值。

考虑节点位置差异：记dis_ia为节点

与节点

之间的欧氏距离，dis_ia越小，

与节点

的匹配度越高；记dis_ij为节点

与节点

之间的欧氏距离，记dis_ij为节点

与节点

之间的欧氏距离，dis_ij与dis_ab相差越小，

与

的匹配度越高；

未冲突匹配对的权值矩阵和概率转移矩阵使用下式进行初始化：

其中，当i≠a且j≠b时，权值矩阵的元素W_ia；jb代表

和

的匹配权值，当i＝a且j＝b时，权值矩阵的元素W_ia；jb代表

和

的匹配权值，

为调整因子；

考虑拓扑结构差异：根据事先设定好的步长和伴随图

中每节点作为出发节点的次数，在图

上进行随机游走。

步骤3中，采用如下公式计算相机传感器输入图像与地图库中图像的相似度s：

其中，m_i为伴随图

中表示第i个匹配对的归一化权重，n_i的取值范围为(0,1)，n_i代表相机传感器输入图像与地图库中图像中第i个未匹配的物体权重，m_i的取值通过随机游走确定，n_i则根据场景中物体的移动频率确定，Δ_i是相机传感器输入图像与地图库中图像中第i对匹配对对应的物体像素位置偏差，q是匹配对个数，d是由图像中的物体个数和构建地图库时相机的采集频率决定的调整因子；取地图库中与输入图像相似度最高的图像作为场景匹配的结果。

步骤4包括：

将无人机摄像机设定为小孔模型且内参已知，设无人机当前捕获到的图像为G₁，经过场景匹配后对应地图库中的图像G₂，共有n(n≥4)个语义特征匹配对，G₁中语义特征点在相机坐标系下的2D位置是已知的，G₂中语义特征点在世界坐标系下的3D位置是已知的；利用EPnP算法，将n个3D点表示为4个非共面虚拟控制点的加权和，再计算4个虚拟控制点在相机坐标系下的坐标，恢复出无人机的位姿R、t，R为包含姿态信息的旋转矩阵，t为包含位置信息的平移向量；令4个虚拟控制点的世界坐标分别为

矩阵C为：

步骤4中，令G₂中语义特征点和4个虚拟控制点在世界坐标系下的3D坐标

和

分别为：

世界坐标系下的语义特征点坐标

表示为4个虚拟控制点坐标

的加权和：

其中，α_ij为加权因子。

步骤4中，令

表示第j个虚拟控制点在相机坐标系下的坐标，G₁中第i个语义特征点在相机坐标系下的坐标为

则它们之间的关系如下：

步骤4中，得到控制点在相机坐标系下的3D坐标后，通过分别计算语义特征点的世界坐标重心

和相机坐标重心

得到矩阵A、矩阵B和矩阵H：

H＝B^TA。

步骤4中，对H进行SVD奇异值分解，恢复出无人机的位姿R、t：

H＝U∑V^T，

R＝UV^T，

有益效果：本发明使用有分割前背景的能力的YOLOv3完成目标检测，能够获取场景图片中物体的语义信息，与几何视觉特征相比，这种物体级的语义属于高层特征，具有良好的稀疏性且对于环境中的光照变化具有较强的抗干扰能力，能够保证无人机重定位的鲁棒性。本发明将图片抽象为语义拓扑图，通过比较其结构来间接完成图像相似度的计算，简化了环境信息的对比过程，能够满足无人机实时视觉重定位的需求。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明提出的无人机视觉重定位模型示意图；

图2是本发明根据图1所述的重定位模型提出的基于物体语义的无人机视觉重定位方法的工作流程；

图3是本发明所述的图像相似度计算流程。

具体实施方式

图1所示为本发明提出的无人机视觉重定位模型：包括图像处理与表示模块、场景匹配模块和重定位模块。

本实施例提供了一种基于物体语义的无人机视觉重定位方法，该方法的执行流程如图2所示，包括以下步骤：

步骤1，构建无人机视觉重定位模型，所述无人机视觉重定位模型包括图像处理与表示模块、场景匹配模块和重定位模块；

步骤2，通过图像处理与表示模块构建语义拓扑图；

步骤4，通过重定位模块求解出无人机的位姿，完成重定位。

步骤2包括：由无人机相机拍摄当前场景图片，所述图像处理与表示模块使用YOLOv3目标检测网络获取场景图片中包含的物体语义信息，所述物体语义信息包括物体语义标签以及物体在图像中的像素位置信息，以物体语义标签作为节点构建语义拓扑图，并建立场景地图库作为对环境的内部表示，用于与输入的视觉数据进行比较。

设定待匹配的两幅图为G^M和G^N，图

为G^M和G^N的伴随图，

是G^M中的节点，

是

之间的边，

是G^N中的节点，

是

之间的边；

X^(t+1)T＝X^(t)TP

考虑语义信息差异：有相同语义标签的一对节点

和

将组成伴随图

中新的节点

语义标签不同的一对节点则被定义为冲突匹配对，将不会在伴随图中出现；

考虑节点位置差异：记dis_ia为节点

与节点

之间的欧氏距离，dis_ia越小，

与节点

的匹配度越高；记dis_ij为节点

与节点

之间的欧氏距离，记dis_ij为节点

与节点

之间的欧氏距离，dis_ij与dis_ab相差越小，

与

的匹配度越高；

其中，当i≠a且j≠b时，权值矩阵的元素W_ia；jb代表

和

的匹配权值，当i＝a且j＝b时，权值矩阵的元素W_ia；jb代表

和

的匹配权值，

为调整因子；

考虑拓扑结构差异：根据事先设定好的步长和伴随图

中每节点作为出发节点的次数，在图

上进行随机游走。

其中，m_i为伴随图

步骤4包括：

将无人机摄像机设定为小孔模型且内参已知，设无人机当前捕获到的图像为G₁，经过场景匹配后对应地图库中的图像G₂，共有n个语义特征匹配对，G₁中语义特征点在相机坐标系下的2D位置是已知的，G₂中语义特征点在世界坐标系下的3D位置是已知的；利用EPnP算法，将n个3D点表示为4个非共面虚拟控制点的加权和，再计算4个虚拟控制点在相机坐标系下的坐标，恢复出无人机的位姿R、t，R为包含姿态信息的旋转矩阵，t为包含位置信息的平移向量；世界坐标系下的4个虚拟控制点能够使矩阵C可逆即可，令4个虚拟控制点的世界坐标分别为

矩阵C为：

和

分别为：

为

在世界坐标系下的具体坐标；

为

在世界坐标系下的具体坐标；

世界坐标系下的语义特征点坐标

表示为4个虚拟控制点坐标

的加权和：

其中，α_ij为加权因子。

步骤4中，令

表示第j个虚拟控制点在相机坐标系下的坐标，

为4个虚拟控制点的世界坐标，G₁中第i个语义特征点在相机坐标系下的坐标为

则它们之间的关系如下：

和相机坐标重心

得到矩阵A、矩阵B和矩阵H：

H＝B^TA。

步骤4中，对H进行SVD(Singular Value Decomposition)奇异值分解，恢复出无人机的位姿R、t：

H＝U∑V^T，

R＝UV^T，

本发明所使用的无人机为大疆无人机M200，具体参数如下表1所示：

表1

本发明在Ubuntu18.04系统下进行实现基于YOLOv3的目标检测器，使用无人机在室内场景下以10fps的速率拍摄800张图片构建场景地图库。本发明所提基于物体语义的重定位方法的最佳图像相似度阈值为0.375，在场景光照条件不变时，其准确率和召回率可达99.23％和97.23％；在场景光照条件变化时，其准确率和召回率可达93.18％和87.23％，准确率比基于词袋模型的视觉重定位方法高出52.44％，召回率比基于词袋模型的视觉重定位方法高出54.88％。在相同场景地图库下，本发明所提方法完成单次场景匹配所需的平均运行时间比使用词袋模型算法快0.027s。本发明所提方法在场景光照条件动态变化时，能够实现强鲁棒性的无人机实时重定位，为无人机执行任务提供保障。

本发明提供了一种基于物体语义的无人机视觉重定位方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于物体语义的无人机视觉重定位方法，其特征在于，包括以下步骤：

步骤2，通过图像处理与表示模块构建语义拓扑图；

步骤3，所述场景匹配模块基于待匹配图像对的共同语义信息构建伴随图，完成无人机的场景匹配；

步骤4，通过重定位模块求解出无人机的位姿，完成重定位。

2.如权利要求1所述的方法，其特征在于，步骤2包括：由无人机相机拍摄当前场景图片，所述图像处理与表示模块使用YOLOv3目标检测网络获取场景图片中包含的物体语义信息，所述物体语义信息包括物体语义标签以及物体在图像中的像素位置信息，以物体语义标签作为节点构建语义拓扑图，并建立场景地图库作为对环境的内部表示，用于与输入的视觉数据进行比较。

3.如权利要求2所述的方法，其特征在于，步骤3包括：利用语义拓扑图的权值矩阵W度量候选对之间的匹配程度，其中语义拓扑图对角线上的元素W_ia；ia代表节点之间的匹配权值，非对角线元素W_ia；jb代表边与边之间的匹配权值；概率转移矩阵P＝D^-1W，D是一个

设定待匹配的两幅图为G^M和G^N，图

为G^M和G^N的伴随图，

是G^M中的节点，

是

之间的边，

是G^N中的节点，

是

之间的边；

X^(t+1)T＝X^(t)TP

4.如权利要求3所述的方法，其特征在于，步骤3中，按以下方式综合考虑待匹配图的语义信息差异、节点位置差异和拓扑结构差异：

考虑语义信息差异：有相同语义标签的一对节点

和

将组成伴随图

中新的节点

考虑节点位置差异：记dis_ia为节点

与节点

之间的欧氏距离，dis_ia越小，

与节点

的匹配度越高；记dis_ij为节点

与节点

之间的欧氏距离，记dis_ij为节点

与节点

之间的欧氏距离，dis_ij与dis_ab相差越小，

与

的匹配度越高；

其中，当i≠a且j≠b时，权值矩阵的元素W_ia；jb代表

和

的匹配权值，当i＝a且j＝b时，权值矩阵的元素W_ia；jb代表

和

的匹配权值，

为调整因子；

考虑拓扑结构差异：根据事先设定好的步长和伴随图

中每节点作为出发节点的次数，在图

上进行随机游走。

5.如权利要求4所述的方法，其特征在于，步骤3中，采用如下公式计算相机传感器输入图像与地图库中图像的相似度s：

其中，m_i为伴随图

6.如权利要求5所述的方法，其特征在于，步骤4包括：

将无人机摄像机设定为小孔模型且内参已知，设无人机当前捕获到的图像为G₁，经过场景匹配后对应地图库中的图像G₂，共有n个语义特征匹配对，G₁中语义特征点在相机坐标系下的2D位置是已知的，G₂中语义特征点在世界坐标系下的3D位置是已知的；利用EPnP算法，将n个3D点表示为4个非共面虚拟控制点的加权和，再计算4个虚拟控制点在相机坐标系下的坐标，恢复出无人机的位姿R、t，R为包含姿态信息的旋转矩阵，t为包含位置信息的平移向量；令4个虚拟控制点的世界坐标分别为