CN114708321A

CN114708321A - 一种基于语义的相机位姿估计方法及系统

Info

Publication number: CN114708321A
Application number: CN202210033180.8A
Authority: CN
Inventors: 周忠; 陈虹睿; 熊源
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-07-05
Anticipated expiration: 2042-01-12

Abstract

本发明涉及一种基于语义的相机位姿估计方法及系统，其方法包括：S1：利用RGB图像序列构建图像数据库、语义特征数据库和全局特征数据库；S2：提取待估位姿RGB图像的全局特征向量进行RGB检索，得到RGB检索结果集合R₁；S3：提取待估位姿RGB图像的静态语义图的语义特征向量进行语义检索，得到检索结果集合R₂；S4：对R₁和R₂使用区间选择算法进行优化，得到集合R；步骤S5：将R中每幅图像与待估位姿RGB图像构成图像对，通过图像特征匹配和图像数据库的三维信息得到2D‑3D匹配对，输入位姿估计算法计算得到相机的位姿估计。本发明提供的方法，利用图像语义信息增强位姿估计算法的鲁棒性，使其在环境光照变化、动态物体遮挡情况下得到更准确的位姿估计结果。

Description

一种基于语义的相机位姿估计方法及系统

技术领域

本发明涉及自主导航和机器人领域，具体涉及一种基于语义的相机位姿估计方法及系统。

背景技术

对于增强现实、自主导航和智能机器人等诸多应用来说，精确的位姿估计对应用的体验和性能有着至关重要的影响。只有精确的估算出设备当前的位姿信息，才能在自动导航中准确的校准当前位置，才能在各种增强现实的场景中准确的融合虚拟物体。传统的民用GPS定位方法，水平误差往往在10m以内，存在信号波动时误差可能会达到20～30m，无法满足一些精确定位的需求；激光雷达定位方法需要配备专用的激光雷达设备，成本较高且便携性较差；射频识别定位方法需要在场景部署相应的无线通信设备，对环境和设备要求较高；利用相机的视觉定位方法，可以从图像数据中提取丰富的视觉特征信息进行精确的相机位姿估计，而且，相机作为最普遍的传感设备被广泛应用在各类应用和场景中，有着精度高、成本低、部署简单、适用范围广等优点，因此相机位姿估计技术具有广泛的应用场景和巨大的研究价值。

已有先驱者对相机位姿估计技术进行了不同程度的研究。Alex Kendall等人提出了利用深度神经网络直接回归出相机绝对位姿的方法，Laskar Z等人结合图像检索提出了利用深度神经网络回归出图像对间相对相机位姿的方法。以上基于机器学习的方法需要大量数据进行驱动，场景泛化能力不足。Shotton J等人通过场景坐标回归森林估计图像上任意一个像素的三维空间坐标，由此构建2D-3D匹配，再通过计算得到相机位姿。BrachmannE,Rother C等人利用全卷积网络对输入的图像进行坐标估计，得到每个像素的空间坐标，从而构建稠密的2D-3D匹配，计算得到相机位姿。Sarlin P.-E等人结合图像检索技术和图像局部特征提取匹配技术得到2D-3D匹配，计算得到相机位姿。以上构建2D-3D匹配的方法，利用多视几何的相关知识，通过数学方法计算得到相机位姿，位姿估计精度较高，但是2D-3D匹配的构建过于依赖图像的RGB视觉信息，因此在环境光照变化、动态物体遮挡等情况下位姿估计效果下降明显。Toft C等人提出了语义匹配一致性定位方法，利用语义匹配一致性评分调整位姿估计时RANSAC的采样过程，大概率的选中语义一致性较高的匹配点对集合，从语义层面优化位姿估计的结果。

J.L等人构建了体素级的3D语义地图，并将位姿估计任务与3D语义体素的匹配进行结合。以上基于语义的方法，都采用重投影的方式对语义信息进行处理，并且都使用图像语义信息进行精确的位姿估计，但是位姿估计的效果依赖于语义分割的精度，在现有技术条件下不具备优势。

发明内容

为了解决上述技术问题，本发明提供一种基于语义的相机位姿估计方法及系统。

本发明技术解决方案为：一种基于语义的相机位姿估计方法，包括：

步骤S1：通过相机预先获取RGB图像序列，用于恢复场景三维结构并构建包含三维信息的图像数据库；将所述RGB图像序列输入语义分割网络，得到语义分割结果序列，利用语义图修复方法对所述语义分割结果序列进行恢复，得到静态语义图序列，利用空间分布嵌入算法提取所述静态语义图序列的语义特征向量，构建语义特征数据库；提取所述RGB图像序列的全局特征向量，构建全局特征数据库；

步骤S2：获取一张相机拍摄的待估位姿RGB图像，提取所述待估位姿RGB图像的全局特征向量，计算所述全局特征向量与所述全局特征数据库中全局特征向量的欧几里得距离，使用最近邻匹配算法进行RGB检索，得到RGB检索结果集合R₁；

步骤S3：将所述待估位姿RGB图像输入所述语义分割网络，得到语义分割结果；利用语义图修复方法对所述语义分割结果进行恢复，得到静态语义图；获取所述待估位姿RGB图像的静态语义图的语义特征向量，计算所述语义特征向量与所述语义特征数据库中语义特征向量的欧几里得距离，使用最近邻匹配算法进行语义检索，得到语义检索结果集合R₂；

步骤S4：对R₁和R₂进行整合后使用区间选择算法进行优化，得到优化后的检索结果集合R；

步骤S5：将R中每幅图像与所述待估位姿RGB图像构成图像对，利用图像局部特征提取和匹配技术生成2D-2D匹配点对，并结合图像数据库中的三维信息转化为2D-3D匹配点对；将所述2D-3D匹配对输入位姿估计算法，得到所述相机的位姿估计。

本发明与现有技术相比，具有以下优点：

1、本发明公开了一种基于语义的相机位姿估计方法，对图像的语义分割结果进行修复，而不是对原始图像进行修复，从语义层面减少动态物体遮挡的影响，并恢复出稳定性更强的场景静态语义布局。语义图修复技术通过提供额外的附加信息，保证可利用的总像素信息量的一致，有利于对语义信息的进一步挖掘，并有利于对语义数据进行统一的处理。

2、针对修复的静态语义图，本发明提出了一种空间分布嵌入算法用于语义特征提取，可以有效对静态语义图进行编码，并用于图像检索。针对检索结果集合，本发明提出了一种区间选择算法，利用滑动窗口以优化检索结果，可以在不改变检索结果数量的情况下提高检索结果的相关性。

3、本发明利用静态语义图数据增强图像检索的性能，通过提供更相关的检索结果来提升位姿估计的效果。

附图说明

图1为本发明实施例中一种基于语义的相机位姿估计方法的流程图；

图2为本发明实施例中为本发明实施例的空间分布嵌入算法的一个计算示意图；

图3为本发明实施例中为区间选择算法的计算示意图；

图4为本发明实施例中一种基于语义的相机位姿估计系统的结构框图。

具体实施方式

本发明提供了一种基于语义的相机位姿估计方法，利用图像语义信息增强位姿估计算法的鲁棒性，提高其在环境光照变化、动态物体遮挡等情况下的表现，得到更加准确的位姿估计结果。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于语义的相机位姿估计方法，包括下述步骤：

步骤S1：通过相机预先获取RGB图像序列，用于恢复场景三维结构并构建包含三维信息的图像数据库；将RGB图像序列输入语义分割网络，得到语义分割结果序列，利用语义图修复方法对语义分割结果序列进行恢复，得到静态语义图序列，利用空间分布嵌入算法提取静态语义图序列的语义特征向量，构建语义特征数据库；提取RGB图像序列的全局特征向量，构建全局特征数据库；

步骤S2：获取一张相机拍摄的待估位姿RGB图像，提取待估位姿RGB图像的全局特征向量，计算全局特征向量与全局特征数据库中全局特征向量的欧几里得距离，使用最近邻匹配算法进行RGB检索，得到RGB检索结果集合R₁；

步骤S3：将待估位姿RGB图像输入语义分割网络，得到语义分割结果；利用语义图修复方法对语义分割结果进行恢复，得到静态语义图；获取待估位姿RGB图像的静态语义图的语义特征向量，计算语义特征向量与语义特征数据库中语义特征向量的欧几里得距离，使用最近邻匹配算法进行语义检索，得到语义检索结果集合R₂；

步骤S5：将R中每幅图像与待估位姿RGB图像构成图像对，利用图像局部特征提取和匹配技术生成2D-2D匹配点对，并结合图像数据库中的三维信息转化为2D-3D匹配点对；将2D-3D匹配对输入位姿估计算法，得到相机的位姿估计。

在一个实施例中，上述步骤S1：通过相机预先获取RGB图像序列，用于恢复场景三维结构并构建包含三维信息的图像数据库；将RGB图像序列输入语义分割网络，得到语义分割结果序列，利用语义图修复方法对语义分割结果序列进行恢复，得到静态语义图序列，利用空间分布嵌入算法提取静态语义图序列的语义特征向量，构建语义特征数据库；提取RGB图像序列的全局特征向量，构建全局特征数据库，具体包括：

步骤S11：通过相机预先获取RGB图像序列，用于恢复场景三维结构并构建包含三维信息的图像数据库；

按照RGB图像在RGB图像序列中的顺序为每张RGB图像分配一个图像ID，根据RGB图像恢复场景三维结构，并构建一个包含RGB图像三维信息的图像数据库；

步骤S12：将RGB图像序列输入语义分割网络，得到语义分割结果序列，利用语义图修复方法对语义分割结果序列进行恢复，得到静态语义图序列，利用空间分布嵌入算法提取静态语义图序列的语义特征向量，构建语义特征数据库，具体包括：

步骤S121：使用语义分割网络获取RGB图像序列的语义分割结果序列；

本发明实施例使用DeepLabv3语义分割网络得到输入RGB图像的语义分割结果，该结果与原输入图像的尺寸一致，描述了输入图像逐像素的语义标签分类，其中语义类别共分为其他、行人步道、建筑、墙和栅栏、电线杆和交通标识、植被、天空、道路等8个静态语义类别和动态物体这1个动态语义类别，动态物体包含行人、车辆、公交、摩托等动态物体；

步骤S122：利用语义图修复方法对语义分割结果序列进行恢复，将RGB图像中动态语义标签替换成静态语义标签，得到静态语义图序列；

在得到包含动态物体的语义分割结果后，使用传统图像修复技术(如Navier-Stokes)或基于机器学习的静态语义图修复技术(如SI-GAN)恢复出场景的静态语义图，从8个静态语义类别中选择合适的静态语义标签替换RGB图像的动态语义标签，得到静态语义图序列；

步骤S123：设定一个二维分布的评分图函数f(x，y)作为采样函数，其中，f(x，y)的定义域覆盖整幅静态语义图S；

步骤S124：利用f对静态语义图S进行打分，针对S中的每一个像素位置p，其在f中对应的函数值f(p)便为该位置的分值权重，其中，p＝(u，v)，代表S上的像素位置；

步骤S125：针对S中的每一个语义标签类c，根据f的打分结果，计算该语义类的总分值权重T_c＝∑_p∈S(I_pf(p))，其中，I_p为指示函数，当p处的标签与c相同时取1，否则取0；

步骤S126：针对S中的K种语义标签，按照预定的顺序将K个总分值权重T_k排列为一个K维向量，对其进行归一化操作，并将归一化后的结果作为静态语义图S的语义特征向量；

步骤S127：采用N个不同评分函数分别执行步骤S123～S126，得到N个不同的K维向量，最后将其按预定的顺序拼接为一个NK维的向量，对向量进行归一化操作，并将归一化后的结果作为S的最终静态语义特征向量；

步骤S128：重复步骤S123～S127，提取静态语义图序列中所有静态语义图的语义特征向量，得到语义特征数据库。

步骤S13：提取RGB图像序列的全局特征向量，构建全局特征数据库。

本发明实施例使用传统图像特征提取算法(如VLAD)或基于机器学习的图像特征提取算法(如NetVLAD)对RGB图像序列提取全局特征，得到一个高维向量作为图像的表示，从而构建全局特征数据库。

如图2所示，为本发明实施例的空间分布嵌入算法的一个计算示例，图2中静态语义图像的尺寸为7*5，一共有35个语义块，语义的类别一共有4种，分别以不同的颜色表示，评分图函数f设置为简单的三维平面函数方便演示。在算法运行阶段，将f的分值权重与静态语义图对应的语义块进行一一对应，得到附带评分的静态语义图。通过求和统计不同语义类的总评分，并将其拼接成一个向量。对向量进行归一化处理，得到最终的静态语义特征向量。

本发明设计的空间分布嵌入算法，可用于语义特征提取，可以有效对静态语义图进行编码，提取为一个向量，并用于图像检索。

在一个实施例中，上述步骤S2：获取一张相机拍摄的待估位姿RGB图像，提取所述待估位姿RGB图像的全局特征向量，计算所述全局特征向量与所述全局特征数据库中全局特征向量的欧几里得距离，使用最近邻匹配算法进行RGB检索，得到RGB检索结果集合R₁；

在位姿估计阶段，获取一张相机拍摄的待估位姿RGB图像，获取该图像的全局特征向量。将待估位姿RGB图像的全局特征向量与步骤S13构建的全局特征数据库中的每个全局特征向量分别计算欧几里得距离，使用最近邻匹配算法进行RGB检索，按距离差值大小排序，然后选择特定的全局特征向量，构建得到RGB检索结果集合R₁。

在一个实施例中，上述步骤S3：将所述待估位姿RGB图像输入所述语义分割网络，得到语义分割结果；利用语义图修复方法对所述语义分割结果进行恢复，得到静态语义图；获取所述待估位姿RGB图像的静态语义图的语义特征向量，计算所述语义特征向量与所述语义特征数据库中语义特征向量的欧几里得距离，使用最近邻匹配算法进行语义检索，得到语义检索结果集合R₂，具体包括：

将步骤S2中待估位姿RGB图像，执行步骤S121～S126，得到其静态语义特征向量。将待估位姿RGB图像的静态语义特征向量与步骤S12构建的语义特征数据库中的每个语义特征向量分别计算欧几里得距离，使用最近邻匹配算法进行RGB检索，按距离差值大小排序，然后选择特定的语义特征向量，构建得到语义检索结果集合R₂。

在一个实施例中，上述步骤S4：对R₁和R₂进行整合后使用区间选择算法进行优化，得到优化后的检索结果集合R，具体包括：

步骤S41：根据集合R₁和R₂中每张RGB图像ID，求取集合R₁和R₂的并集R_T＝R₁∪R₂，将R_T按升序或降序进行排列，得到排序后的图像序列T；

步骤S42：使用窗口尺寸固定为m的滑动窗口，从T的左侧滑动到右侧，针对每个滑动位置，计算该位置处的滑动窗口的区间绝对值，其中，m小于等于序列T的长度；滑动窗口的区间绝对值通过滑动窗口的右侧图像ID减去其左侧图像ID，再对结果取绝对值得到；

步骤S43：选择滑动窗口区间的绝对值最小的位置，并将处在该位置的窗口包含的m个图像作为优化后的检索结果集合R；

步骤S44：如若有多个位置的窗口区间绝对值并列为最小，则可以针对每一个位置生成一个优化后的检索结果集合R，然后从中选择一个或多个集合分别进行后续步骤。

如图3所示为区间选择算法的计算示例。图3下方的数字代表图像在序列数据中的相对位置。序列T共包含8张图像，通过将RGB检索的结果R₁和语义检索的结果R₂进行合并，然后按升序进行排序得到，采用的滑动窗口的尺寸为4。其中，起始位置的区间跨度为17，由窗口右侧图像的ID 122减去窗口左侧图像的ID 105计算得到。窗口由起始位置开始，从左向右依次滑过图像序列，计算窗口的区间跨度，并对最小子序列进行更新。区间跨度最小的子序列位于窗口的末尾处，区间跨度为5，由编号ID为125，127，128，130的四张图像构成，这四张图像便构成了优化后的检索结果集合R。

本发明设计的区间选择算法，利用滑动窗口以优化检索结果，可以在不改变检索结果数量的情况下提高检索结果的相关性。

在一个实施例中，上述步骤S5：将R中每幅图像与待估位姿RGB图像构成图像对，利用图像局部特征提取和匹配技术生成2D-2D匹配点对，并结合图像数据库中的三维信息转化为2D-3D匹配点对；将2D-3D匹配对输入位姿估计算法，得到相机的位姿估计，具体包括：

将步骤S4得到的集合R中的每一幅图像与待估位姿RGB图像构成图像对，利用图像局部特征提取技术(如SIFT、Orb、SuperPoint等)获得图像的局部特征，利用特征匹配得到待估位姿RGB图像和集合R中图像的2D-2D匹配对，再结合其有三维信息将其转化为2D-3D匹配对。将得到的所有2D-3D匹配对作为输入，使用位姿估计算法(如RANSAC-PnP算法)计算得到相机位姿。

如果步骤S4得到多个集合R，可以对每个集合分别进行位姿估计，选择内点数量最多的估计位姿作为最终的相机位姿。

本发明公开了一种基于语义的相机位姿估计方法，对图像的语义分割结果进行修复，而不是对原始图像进行修复，从语义层面减少动态物体遮挡的影响，并恢复出稳定性更强的场景静态语义布局。语义图修复技术通过提供额外的附加信息，保证可利用的总像素信息量的一致，有利于对语义信息的进一步挖掘，并有利于对语义数据进行统一的处理。

针对修复的静态语义图，本发明提出了一种空间分布嵌入算法用于语义特征提取，可以有效对静态语义图进行编码，并用于图像检索。针对检索结果集合，本发明提出了一种区间选择算法，利用滑动窗口以优化检索结果，可以在不改变检索结果数量的情况下提高检索结果的相关性。

本发明利用静态语义图数据增强图像检索的性能，通过提供更相关的检索结果来提升位姿估计的效果。

实施例二

如图4所示，本发明实施例提供了一种基于语义的相机位姿估计系统，包括下述模块：

数据预处理模块61：用于通过相机预先获取RGB图像序列，用于恢复场景三维结构并构建包含三维信息的图像数据库；将RGB图像序列输入语义分割网络，得到语义分割结果序列，利用语义图修复方法对语义分割结果序列进行恢复，得到静态语义图序列，利用空间分布嵌入算法提取静态语义图序列的语义特征向量，构建语义特征数据库；提取RGB图像序列的全局特征向量，构建全局特征数据库；

获取RGB检索结果模块62，用于获获取一张相机拍摄的待估位姿RGB图像，提取待估位姿RGB图像的全局特征向量，计算全局特征向量与全局特征数据库中全局特征向量的欧几里得距离，使用最近邻匹配算法进行RGB检索，得到RGB检索结果集合R₁；

获取语义检索结果模块63，用于将待估位姿RGB图像输入语义分割网络，得到语义分割结果；利用语义图修复方法对语义分割结果进行恢复，得到静态语义图；获取待估位姿RGB图像的静态语义图的语义特征向量，计算语义特征向量与语义特征数据库中语义特征向量的欧几里得距离，使用最近邻匹配算法进行语义检索，得到语义检索结果集合R₂；

优化检索结果模块64，用于对R₁和R₂进行整合后使用区间选择算法进行优化，得到优化后的检索结果集合R；

相机的位姿估计模块65，用于将R与其在将RGB图像序列中对应的图像构成图像对，利用图像局部特征提取和匹配技术生成2D-2D匹配点对，并结合图像数据库中的三维信息转化为2D-3D匹配点对；将2D-3D匹配对输入位姿估计算法，得到相机的位姿估计。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于语义的相机位姿估计方法，其特征在于，包括：

2.根据权利要求1所述的基于语义的相机位姿估计方法，其特征在于，所述步骤S1：通过相机预先获取RGB图像序列，用于恢复场景三维结构并构建包含三维信息的图像数据库；将所述RGB图像序列输入语义分割网络，得到语义分割结果序列，利用语义图修复方法对所述语义分割结果序列进行恢复，得到静态语义图序列，利用空间分布嵌入算法提取所述静态语义图序列的语义特征向量，构建语义特征数据库；提取所述RGB图像序列的全局特征向量，构建全局特征数据库，具体包括：

步骤S12：将所述RGB图像序列输入语义分割网络，得到语义分割结果序列，利用语义图修复方法对所述语义分割结果序列进行恢复，得到静态语义图序列，利用空间分布嵌入算法提取所述静态语义图序列的语义特征向量，构建语义特征数据库；

步骤S13：提取所述RGB图像序列的全局特征向量，构建全局特征数据库。

3.根据权利要求2所述的基于语义的相机位姿估计方法，其特征在于，所述步骤S12：将所述RGB图像序列输入语义分割网络，得到语义分割结果序列；利用语义图修复方法对所述语义分割结果序列进行恢复，得到静态语义图序列；利用空间分布嵌入算法提取所述静态语义图序列的语义特征向量，构建语义特征数据库，具体包括：

步骤S121：使用语义分割网络获取所述RGB图像序列的语义分割结果序列；

步骤S122：利用语义图修复方法对所述语义分割结果序列进行恢复，将RGB图像中动态语义标签替换成静态语义标签，得到静态语义图序列；

步骤S124：利用f对所述静态语义图S进行打分，针对S中的每一个像素位置p，其在f中对应的函数值f(p)便为该位置的分值权重，其中，p＝(u，v)，代表S上的像素位置；

步骤S126：针对S中的K种语义标签，按照预定的顺序将K个总分值权重T_k排列为一个K维向量，对其进行归一化操作，并将归一化后的结果作为所述静态语义图S的语义特征向量；

步骤S128：重复步骤S123～S127，提取所述静态语义图序列中所有静态语义图的语义特征向量，得到语义特征数据库。

4.根据权利要求1所述的基于语义的相机位姿估计方法，其特征在于，所述步骤S4：对R₁和R₂进行整合后使用区间选择算法进行优化，得到优化后的检索结果集合R，具体包括：

步骤S42：使用窗口尺寸固定为m的滑动窗口，从T的左侧滑动到右侧，针对每个滑动位置，计算该位置处的所述滑动窗口的区间绝对值，其中，m小于等于序列T的长度；所述滑动窗口的区间绝对值通过所述滑动窗口的右侧图像ID减去其左侧图像ID，再对结果取绝对值得到；

步骤S43：选择所述滑动窗口区间的绝对值最小的位置，并将处在该位置的窗口包含的m个图像作为优化后的检索结果集合R；

5.一种基于语义的相机位姿估计系统，其特征在于，包括下述模块：

数据预处理模块：用于通过相机预先获取RGB图像序列，用于恢复场景三维结构并构建包含三维信息的图像数据库；将所述RGB图像序列输入语义分割网络，得到语义分割结果序列，利用语义图修复方法对所述语义分割结果序列进行恢复，得到静态语义图序列，利用空间分布嵌入算法提取所述静态语义图序列的语义特征向量，构建语义特征数据库；提取所述RGB图像序列的全局特征向量，构建全局特征数据库；

获取RGB检索结果模块，用于获获取一张相机拍摄的待估位姿RGB图像，提取所述待估位姿RGB图像的全局特征向量，计算所述全局特征向量与所述全局特征数据库中全局特征向量的欧几里得距离，使用最近邻匹配算法进行RGB检索，得到RGB检索结果集合R₁；

获取语义检索结果模块，用于将所述待估位姿RGB图像输入所述语义分割网络，得到语义分割结果；利用语义图修复方法对所述语义分割结果进行恢复，得到静态语义图；获取所述待估位姿RGB图像的静态语义图的语义特征向量，计算所述语义特征向量与所述语义特征数据库中语义特征向量的欧几里得距离，使用最近邻匹配算法进行语义检索，得到语义检索结果集合R₂；

优化检索结果模块，用于对R₁和R₂进行整合后使用区间选择算法进行优化，得到优化后的检索结果集合R；

相机的位姿估计模块，用于将R与其在将所述RGB图像序列中对应的图像构成图像对，利用图像局部特征提取和匹配技术生成2D-2D匹配点对，并结合图像数据库中的三维信息转化为2D-3D匹配点对；将所述2D-3D匹配对输入位姿估计算法，得到所述相机的位姿估计。