CN117893600A

CN117893600A - 一种支持场景表观差异的无人机图像视觉定位方法

Info

Publication number: CN117893600A
Application number: CN202311365902.0A
Authority: CN
Inventors: 周忠; 王骞仟; 熊源
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2024-04-16

Abstract

本发明公开了一种支持场景表观差异的无人机图像视觉定位方法。该方法包括虚拟图像合成和相机位姿计算两个阶段。在合成阶段，将以前重建的场景倾斜摄影模型和无人机拍摄的近期场景图像集作为输入，首先用近期场景图像投影到场景模型，然后在其视点附近渲染并通过空洞填补合成虚拟图像集，构造出虚拟图像检索数据库。在位姿计算阶段，首先在虚拟图像数据库中检索出与待定位图像高相似度的图像，然后通过特征匹配与反投影建立待定位图像与三维场景之间的2D‑3D匹配点对，最后使用RANSAC‑PnP算法求解相机位姿。本发明利用过时的倾斜摄影模型进行视觉定位，从而在GNSS拒止情况下为航空器自主飞行、遥感监测等提供导航定位支持。

Description

一种支持场景表观差异的无人机图像视觉定位方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种支持场景表观差异的无人机图像视觉定位方法。

背景技术

在无人机自主导航领域，计算拍摄图像相对于三维场景模型的六自由度相机位姿是无人机自主导航的关键步骤。全球卫星导航系统拒止条件下，在现有的三维地图中进行视觉定位是许多自主和半自主应用的基础。无人机在同步定位与测绘、结构检测、环境监测与军事安防等应用领域发挥着越来越重要的作用，这也带来了对视觉定位的鲁棒性和精度的更高要求。当前主流的视觉定位方法倾向于利用场景的三维信息，首先在二维待查询图像和三维场景之间通过特征匹配与反投影得到2D-3D匹配点对，然后使用这些点对的对应关系计算相机位姿。在上述过程中，位姿计算高度依赖足够多数量的正确匹配点对，所以特征点匹配是关键因素。然而，在实际工作中，无人机拍摄往往面临着和场景模型不同的季节、天气与时段，使得拍摄的图像和场景模型的已有纹理表观差异很大，特别是近地面时，由于常用的特征检测器对光照条件的变化十分敏感，光照和纹理的变化会导致特征点无法匹配，对视觉定位技术带来了很大挑战。

根据有限的离散图像生成连续的新视角图像是上述过程中的一个主要难题。在这个问题上，传统的方法倾向于直接使用二维的图像进行图像合成，但这种方法无法有效利用原始场景的深度信息，会在新视角合成错误的结果，进而影响后续视觉定位的精度。

发明内容

本发明解决的技术问题：鉴于现有的视觉定位方法难以支持大场景表观差异和大视差的高精度定位，且无法近地面的视觉定位精度差，本发明提出一种支持场景表观差异的无人机图像视觉定位方法，通过虚拟图像合成、空洞填补等方法提升上述图像的2D-3D配准质量，可为无人机等在GNSS拒止情况下提供高精度和鲁棒的导航定位支持。

本发明的技术解决方案为一种支持场景表观差异的无人机图像视觉定位方法，包含虚拟图像合成与位姿计算两个阶段。虚拟图像合成阶段利用已有场景倾斜摄影模型和无人机拍摄的近期场景图像集作为输入，这些场景图像与已有的倾斜模型往往具有较大的表观差异。首先用近期场景图像投影到倾斜摄影模型，然后在其视点附近渲染并通过空洞填补合成出虚拟图像集，虚拟图像与近期场景图像的表观差异小可以支持特征匹配，通过这种方式构造出虚拟图像检索数据库。其中，空洞填补使用基于Segnet框架改进的填补网络对图像合成部分遮挡产生的空洞进行填补。经过上述步骤，可以为接下来的位姿计算阶段提供更加丰富且视差相对较小的检索图像，以提取可靠性更高的匹配点对。该方法可以有效地减小场景表观差异对相机标定的影响，提高标定的精度和可靠性。

本发明的位姿计算阶段目的是计算待定位图像的6自由度相机位姿。该阶段的方法包括以下步骤：首先在小表观差异图像数据库中检索与待定位图像视角相近的图像。然后，使用特征匹配算法获取一系列2D-3D匹配点对。最后，在这些点对的基础上使用RANSAC-PnP的方法进行相机位姿矩阵求解。通过这些步骤，可以计算出待定位图像的相机位姿，从而在检索图像与倾斜摄影模型具有大表观差异的情况下提供高精度和鲁棒的导航定位支持。

本发明的一个方面，请求保护一种支持场景表观差异的无人机图像视觉定位方法，该方法包括虚拟图像合成和相机位姿计算两个阶段，虚拟图像合成阶段步骤为：

(d1)将近期场景图像投影到倾斜摄影模型，在其视点附近渲染得到待填补虚拟图像；

(d2)处理待填补虚拟图像视角重叠区域像素，平滑接缝区域颜色过渡；

(d3)在已有场景倾斜摄影模型中生成随机虚拟视点，在虚拟视点进行渲染，将得到的渲染结果作为空洞填补网络的训练图像数据集；

(d4)使用随机生成方法生成遮罩图像，作为训练图像的第四通道，辅助空洞填补网络识别填补区域；

(d5)切割待填补图像，使其满足空洞填补网络的输入分辨率；

(d6)使用步骤(d3)生成的训练图像数据集及(d4)生成的遮罩图像训练基于Segnet(语义分割网络)框架改进的空洞填补网络；

(d7)将步骤(d5)的切割图像输入到步骤(d6)训练完成的空洞填补网络中，输出空洞填补结果，使用该填补结果构造用于定位的虚拟图像检索数据库；

相机位姿计算阶段步骤为：

(t1)在虚拟图像检索数据库中检索与待定位图像高相似度的图像；

(t2)使用Superglue特征匹配算法提取待定位图像和检索结果图像之间的二维匹配点对，结合模型先验的深度信息反投影得到2D-3D匹配点对；

(t3)使用RANSAC-PnP算法对(t2)获得的匹配点对进行坏点剔除和相机位姿矩阵求解，实现图像视觉定位。

进一步地，所述步骤(d1)包括如下步骤：

(d1.1)对于每张跨季节图像，根据其相机矩阵M_i对已有场景倾斜模型渲染得到深度图；

(d1.2)选取新虚拟视点M_t，根据相机位姿矩阵M_i计算虚拟视点视景体内所有着色点经过M_i变换和透视除法后的Z值，与(d1.1)步骤中存储的深度值进行比较；

(d1.3)若(d1.2)步骤的比较结果符合要求，则累加该张跨季节图像在该片段采样的RGB值，否则就丢弃采样结果。

进一步地，所述步骤(d1.3)之前包括如下步骤：

设定深度偏差值为b＝max(α(1.0-n·l),β)，其中n为着色点法向量、l为投影仪到着色点的方向向量，b为计算获取的深度偏差值，α和β为用于计算深度偏差的常量，它们的取值分别为0.05与0.005；若所述(d1.3)步骤的比较结果为变换后的深度小于深度偏差值与采样深度的和，则累加待合成图像上的采样结果。

进一步地，所述步骤(d2)包括如下步骤：

(d2.1)根据(d1)得到的所有待合成图像的累加次数计算合成图像的RGB通道；

进一步地，所述(d2.1)具体为：

根据(d1.3)得到的所有待合成图像的累加结果，将合成图像累加次数小于1位置的像素RGB通道赋值为0；对累加次数大于等于1位置的像素，合成图像的RGB通道，如(1)式所示：

上式中，(x,y)为投影重叠区域的像素在屏幕空间的坐标，W和H分别为图像的宽和高，C_o(x,y)表示合成后的像素值，n表示待合成图像的数量，f_i(x,y)为表示第i张图像投影后是否有像素落在当前位置的指示函数，C_i(x,y)表示第i张图像经过投影后在(x,y)坐标位置的颜色值。

(d2.2)根据累加次数标记合成图像的待填补区域和有效区域。

进一步地，所述(d2.2)具体为：

将累加次数大于等于1的位置标记为有效区域，合成图像的A通道赋值为1，其余位置标记为待填补区域，合成图像的A通道赋值为0。

进一步地，所述步骤(d3)包括如下步骤：

(d3.1)计算三维场景底模包围盒，所述包围盒在x、y、z坐标轴上的范围分别为[x_min,x_max]、[y_min,y_max]、[z_min,z_max]；

(d3.2)在包围盒范围内生成随机坐标，为每个虚拟坐标生成随机偏转角(y,p,r)，计算虚拟视点变换矩阵M_v；

(d3.3)根据步骤(d3.2)得到的虚拟视点变换矩阵在倾斜摄影模型中生成渲染结果图像，若渲染结果图像中所有像素的A通道的值均不为0，则将其保存至训练图像数据集中；

(d3.4)重复步骤(d3.3)直到渲染预定数量的图像；

(d3.5)使用随机生成方法生成遮罩图像，作为训练图像的第四通道，辅助空洞填补网络识别填补区域。

所述步骤(d6)包括如下步骤：

(d6.1)使用Segnet(语义分割网络)框架，修改其损失函数，搭建空洞填补网络，该网络以一张大小为4×224×224的彩色图像作为输入，具有5个卷积层作为编码器和5个反卷积层作为解码器；

(d6.2)将步骤(d3)生成的训练图像数据集结合(d4)生成的遮罩图像作为(d6.1)的空洞填补网络的训练数据，得到网络训练结果模型。

所述网络的损失函数定义如式(2)所示：

上式⊙代表逐像素乘法，C(I,M)为函数形式的填补神经网络，I'是输出图像，I是输入图像，M是标识待填补区域的掩码，是衡量输出和输入图像之间的差异的损失函数。

进一步地，根据预测结果和原始输入图像的通道填补合成图像待填补区域，得到与待定位图像表观差异和视差小的合成图像。

其中，所述步骤(t2)包括如下步骤：

(t2.1)使用Superglue特征匹配算法提取待定位图像和检索结果图像之间的二维匹配点对，设定置信度阈值α，根据匹配点对置信度计算公式计算每对匹配点对置信度，抛弃置信度小于α的匹配点对；

(t2.2)根据检索结果图像的相机位姿矩阵M_i和模型深度信息，重建检索结果图像匹配点的世界坐标，构造2D-3D匹配点对。

本发明与现有技术相比的优点在于：通过将虚拟图像合成技术引入图像视觉定位流程中，仅需要少量近期场景图像就可以更新过时的倾斜摄影模型，从而构造出能够反映最新场景表观特征的虚拟图像检索数据库。与之前的方法相比，本发明的方案能够利用过时的倾斜摄影模型进行视觉定位，从而可在GNSS拒止情况下为航空器自主飞行、遥感监测等提供导航定位支持。

附图说明

图1是本发明的一种支持场景表观差异的无人机图像视觉定位方法流程图；

图2是本发明的一种基于倾斜摄影模型纹理投影的虚拟图像合成算法示意图；

图3是本发明的一种空洞填补网络模型的搭建与使用示意图；

图4本发明的一种相机定位过程示意图。

具体实施方式

下面结合附图详细描述本发明的具体实施：

如图1所示，本发明所述的一种支持场景表观差异的无人机图像视觉定位方法，包括以下步骤：

步骤一：如图2所示，将近期场景图像投影到已有场景倾斜摄影模型，在其视点附近渲染得到待填补虚拟图像。

1.1对于每张无人机拍摄的近期场景图像，根据其相机矩阵M_i对已有场景倾斜模型渲染得到深度图。

1.2选取新虚拟视点M_t，根据相机位姿矩阵M_i计算虚拟视点视景体内所有着色点经过M_i变换和透视除法后的Z值，与1.1步骤中存储的深度值进行比较。设定深度偏差值为b＝max(α(1.0-n·l),β)，避免Z-Fighting现象。其中n为着色点法向量、l为投影仪到着色点的方向向量，b为计算获取的深度偏差值，α和β为用于计算深度偏差的常量，它们的取值分别为0.05与0.005。

1.3若1.2步骤的比较结果为变换后的深度小于深度偏差值与采样深度的和，则累加待合成图像上的采样结果。

步骤二：处理待填补虚拟图像视角重叠区域像素，平滑接缝区域颜色过渡。

2.1根据1.3得到的所有待合成图像的累加结果，将合成图像累加次数小于1位置的像素RGB通道赋值为0；对累加次数大于等于1位置的像素，合成图像的RGB通道，如(1)式所示：

2.2将累加次数大于等于1的位置标记为有效区域，合成图像的A通道赋值为1，其余位置标记为待填补区域，合成图像的A通道赋值为0。

如图3所示空洞填补网络模型的搭建与使用示意图：

步骤三，生成训练图像，具体步骤如下：

3.1计算原始场景底模包围盒,包围盒在x、y、z坐标轴上的范围分别为[x_min,x_max]、[y_min,y_max]、[z_min,z_max]；

3.2在3.1步骤计算的包围盒范围内生成随机坐标，为每个虚拟坐标生成随机偏转角(y,p,r)，计算虚拟视点变换矩阵M_v；

3.3根据步骤3.2得到的虚拟视点变换矩阵和已有场景倾斜摄影模型，生成渲染结果图像，若渲染结果图像中所有像素的A通道的值均不为0，则将其保存至训练图像数据集中。

3.4重复步骤3.3直到渲染预定数量与待定位图像表观差异和视差小的图像。

3.5使用随机生成方法生成遮罩图像，作为训练图像的第四通道，辅助空洞填补网络识别填补区域。

步骤四：搭建并训练基于Segnet(语义分割网络)框架改进的填补网络，具体步骤如下：

4.1切割待填补图像为分辨率大小224×224，使其满足空洞填补网络的输入分辨率。

4.2使用基于Segnet的网络框架搭建空洞填补神经网络，该网络以一张大小为4×224×224的彩色图像作为输入，具有5个卷积层作为编码器和5个反卷积层作为解码器。网络的损失函数定义如式(2)所示：

4.3将步骤三生成的图像和遮罩作为训练数据，训练空洞填补神经网络，得到面向待定位图像的网络模型。

4.4将经过4.1步骤处理的待填补图像使用4.3步骤训练完成的神经网络进行预测，输出预测结果。

4.5根据预测结果和原始输入图像的通道填补合成图像待填补区域，合成用于定位的虚拟图像。

步骤五：如图4所示，计算相机位姿：

5.1在虚拟图像检索数据库中检索与待定位图像高相似度的图像；

5.2使用Superglue特征匹配算法提取待定位图像和检索结果图像之间的二维匹配点对，结合模型先验的深度信息反投影得到2D-3D匹配点对；

5.3使用RANSAC-PnP(基于随机采样一致性的位姿优化求解算法)对步骤5.2获得的匹配点对进行坏点剔除与相机位姿的计算，从而实现图像视觉定位。

本发明提出了一种支持场景表观差异的无人机图像视觉定位方法，使用虚拟图像合成的方法来克服不同季节、光照和视角条件下场景表观差异大的问题。构建了一个方法框架，对传统视觉定位方法的流程进行扩展，使用少量的无人机拍摄的近期场景图像进行虚拟图像合成，构造小表观差异图像检索数据库，解决传统方法场景光照和纹理差异大而引起的图像检索和特征匹配困难等问题。然而根据有限的离散图像生成连续的虚拟图像是上述过程的一个主要难题。在这个问题上，传统的方法倾向于直接使用二维的图像进行图像合成，但这种方法无法有效利用原始场景的深度信息，会在新视角合成错误的结果，进而影响后续视觉定位的精度。为了有效获取与利用深度信息，本发明提出了一种将无人机拍摄的近期场景图像与已有场景倾斜摄影模型进行融合的视角合成方法，该方法将近期场景图像投影到倾斜摄影模型再其视点附近进行渲染，利用已有场景倾斜摄影模型的几何信息和近期场景图像的纹理信息，生成了与待定位图像光照更一致、视角更相近的虚拟图像，提升了传统视觉定位方法的精度。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种支持场景表观差异的无人机图像视觉定位方法，其特征在于，该方法包括虚拟图像合成和相机位姿计算两个阶段，虚拟图像合成阶段步骤为：

(d3)在已有场景倾斜摄影模型中生成随机虚拟视点，在虚拟视点进行渲染，得到空洞填补网络的训练图像数据集；

(d4)使用随机方法生成遮罩图像，作为训练图像的第四通道，辅助空洞填补网络识别填补区域；

(d5)切割待填补图像，使其满足空洞填补网络的输入分辨率；

(d6)使用步骤(d3)生成的训练图像数据集及(d4)生成的遮罩图像训练基于语义分割网络Segnet框架改进的空洞填补网络；

相机位姿计算阶段步骤为：

(t2)使用基于图神经网络的特征匹配算法Superglue网络提取待定位图像与检索结果图像的二维匹配点对，结合模型先验的深度信息反投影得到2D-3D匹配点对；

(t3)使用随机采样一致性RANSAC-PnP算法对(t2)获得的匹配点对进行坏点剔除与相机位姿矩阵求解，实现图像视觉定位。

2.根据权利要求1所述的支持场景表观差异的无人机图像视觉定位方法，其特征在于，所述步骤(d1)包括如下步骤：

(d1.1)对于每张无人机拍摄的近期场景图像，根据其相机矩阵M_i对已有场景倾斜模型渲染得到深度图；

3.根据权利要求2所述的支持场景表观差异的无人机图像视觉定位方法，其特征在于，所述步骤(d1.3)之前包括如下步骤：

设定深度偏差值为b＝max(α(1.0-n·l),β)，其中，n为着色点法向量、l为投影仪到着色点的方向向量，b为计算获取的深度偏差值，α和β为用于计算深度偏差的常量。

4.根据权利要求1所述的支持场景表观差异的无人机图像视觉定位方法，其特征在于，所述步骤(d2)包括如下步骤：

(d2.1)根据得到的所有待合成图像的累加次数计算合成图像的RGB通道；

(d2.2)根据累加次数标记合成图像的待填补区域和有效区域；将累加次数大于等于1的位置标记为有效区域，合成图像的A通道赋值为1，其余位置标记为待填补区域，合成图像的A通道赋值为0。

5.根据权利要求4所述的支持场景表观差异的无人机图像视觉定位方法，其特征在于,计算合成图像RGB通道的方法如下：

上述公式(1)中，(x,y)为投影重叠区域的像素在屏幕空间的坐标，W和H分别为图像的宽和高，C_o(x,y)表示合成后的像素值，n表示待合成图像的数量，f_i(x,y)为表示第i张图像投影后是否有像素落在当前位置的指示函数，C_i(x,y)表示第i张图像经过投影后在(x,y)坐标位置的颜色值。

6.根据权利要求1所述的支持场景表观差异的无人机图像视觉定位方法，其特征在于，所述步骤(d3)包括如下步骤：

(d3.1)计算三维场景模型包围盒，所述包围盒在x、y、z坐标轴上的范围分别为[x_min,x_max]、y_min,y_max]、[z_min,z_max]；

(d3.3)根据步骤(d3.2)得到的虚拟视点变换矩阵，用倾斜摄影模型渲染生成图像，若渲染图像中所有像素的A通道的值均不为0，则将其保存至训练图像数据集中；

(d3.4)重复步骤(d3.3)直到渲染预定数量的图像。

7.根据权利要求1所述的支持场景表观差异的无人机图像视觉定位方法，其特征在于，所述步骤(d6)包括如下步骤：

(d6.1)使用语义分割网络Segnet框架，修改其损失函数，该网络以一张大小为4×224×224的彩色图像作为输入，具有5个卷积层作为编码器和5个反卷积层作为解码器；

(d6.2)使用步骤(d3)生成的训练图像数据集与(d4)生成的遮罩图像作为(d6.1)的空洞填补网络的输入输出，得到网络训练结果。

8.根据权利要求7所述的支持场景表观差异的无人机图像视觉定位方法，其特征在于，网络的损失函数定义如式(2)所示：

9.根据权利要求1所述的支持场景表观差异的无人机图像视觉定位方法，其特征在于，所述步骤(t2)包括如下步骤：

(t2.2)根据检索结果图像的相机位姿矩阵M_i和模型深度信息，重建检索结果图像匹配点的世界坐标，反投影得到2D-3D匹配点对。