CN114708321A - 一种基于语义的相机位姿估计方法及系统 - Google Patents
一种基于语义的相机位姿估计方法及系统 Download PDFInfo
- Publication number
- CN114708321A CN114708321A CN202210033180.8A CN202210033180A CN114708321A CN 114708321 A CN114708321 A CN 114708321A CN 202210033180 A CN202210033180 A CN 202210033180A CN 114708321 A CN114708321 A CN 114708321A
- Authority
- CN
- China
- Prior art keywords
- semantic
- sequence
- image
- rgb
- static
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 87
- 230000003068 static effect Effects 0.000 claims abstract description 71
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 54
- 230000011218 segmentation Effects 0.000 claims description 60
- 238000005516 engineering process Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 230000010354 integration Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 5
- 230000008859 change Effects 0.000 abstract description 3
- 230000007613 environmental effect Effects 0.000 abstract description 3
- 238000005286 illumination Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 4
- 230000002349 favourable effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于语义的相机位姿估计方法及系统,其方法包括:S1:利用RGB图像序列构建图像数据库、语义特征数据库和全局特征数据库;S2:提取待估位姿RGB图像的全局特征向量进行RGB检索,得到RGB检索结果集合R1;S3:提取待估位姿RGB图像的静态语义图的语义特征向量进行语义检索,得到检索结果集合R2;S4:对R1和R2使用区间选择算法进行优化,得到集合R;步骤S5:将R中每幅图像与待估位姿RGB图像构成图像对,通过图像特征匹配和图像数据库的三维信息得到2D‑3D匹配对,输入位姿估计算法计算得到相机的位姿估计。本发明提供的方法,利用图像语义信息增强位姿估计算法的鲁棒性,使其在环境光照变化、动态物体遮挡情况下得到更准确的位姿估计结果。
Description
技术领域
本发明涉及自主导航和机器人领域,具体涉及一种基于语义的相机位姿估计方法及系统。
背景技术
对于增强现实、自主导航和智能机器人等诸多应用来说,精确的位姿估计对应用的体验和性能有着至关重要的影响。只有精确的估算出设备当前的位姿信息,才能在自动导航中准确的校准当前位置,才能在各种增强现实的场景中准确的融合虚拟物体。传统的民用GPS定位方法,水平误差往往在10m以内,存在信号波动时误差可能会达到20~30m,无法满足一些精确定位的需求;激光雷达定位方法需要配备专用的激光雷达设备,成本较高且便携性较差;射频识别定位方法需要在场景部署相应的无线通信设备,对环境和设备要求较高;利用相机的视觉定位方法,可以从图像数据中提取丰富的视觉特征信息进行精确的相机位姿估计,而且,相机作为最普遍的传感设备被广泛应用在各类应用和场景中,有着精度高、成本低、部署简单、适用范围广等优点,因此相机位姿估计技术具有广泛的应用场景和巨大的研究价值。
已有先驱者对相机位姿估计技术进行了不同程度的研究。Alex Kendall等人提出了利用深度神经网络直接回归出相机绝对位姿的方法,Laskar Z等人结合图像检索提出了利用深度神经网络回归出图像对间相对相机位姿的方法。以上基于机器学习的方法需要大量数据进行驱动,场景泛化能力不足。Shotton J等人通过场景坐标回归森林估计图像上任意一个像素的三维空间坐标,由此构建2D-3D匹配,再通过计算得到相机位姿。BrachmannE,Rother C等人利用全卷积网络对输入的图像进行坐标估计,得到每个像素的空间坐标,从而构建稠密的2D-3D匹配,计算得到相机位姿。Sarlin P.-E等人结合图像检索技术和图像局部特征提取匹配技术得到2D-3D匹配,计算得到相机位姿。以上构建2D-3D匹配的方法,利用多视几何的相关知识,通过数学方法计算得到相机位姿,位姿估计精度较高,但是2D-3D匹配的构建过于依赖图像的RGB视觉信息,因此在环境光照变化、动态物体遮挡等情况下位姿估计效果下降明显。Toft C等人提出了语义匹配一致性定位方法,利用语义匹配一致性评分调整位姿估计时RANSAC的采样过程,大概率的选中语义一致性较高的匹配点对集合,从语义层面优化位姿估计的结果。J.L等人构建了体素级的3D语义地图,并将位姿估计任务与3D语义体素的匹配进行结合。以上基于语义的方法,都采用重投影的方式对语义信息进行处理,并且都使用图像语义信息进行精确的位姿估计,但是位姿估计的效果依赖于语义分割的精度,在现有技术条件下不具备优势。
发明内容
为了解决上述技术问题,本发明提供一种基于语义的相机位姿估计方法及系统。
本发明技术解决方案为:一种基于语义的相机位姿估计方法,包括:
步骤S1:通过相机预先获取RGB图像序列,用于恢复场景三维结构并构建包含三维信息的图像数据库;将所述RGB图像序列输入语义分割网络,得到语义分割结果序列,利用语义图修复方法对所述语义分割结果序列进行恢复,得到静态语义图序列,利用空间分布嵌入算法提取所述静态语义图序列的语义特征向量,构建语义特征数据库;提取所述RGB图像序列的全局特征向量,构建全局特征数据库;
步骤S2:获取一张相机拍摄的待估位姿RGB图像,提取所述待估位姿RGB图像的全局特征向量,计算所述全局特征向量与所述全局特征数据库中全局特征向量的欧几里得距离,使用最近邻匹配算法进行RGB检索,得到RGB检索结果集合R1;
步骤S3:将所述待估位姿RGB图像输入所述语义分割网络,得到语义分割结果;利用语义图修复方法对所述语义分割结果进行恢复,得到静态语义图;获取所述待估位姿RGB图像的静态语义图的语义特征向量,计算所述语义特征向量与所述语义特征数据库中语义特征向量的欧几里得距离,使用最近邻匹配算法进行语义检索,得到语义检索结果集合R2;
步骤S4:对R1和R2进行整合后使用区间选择算法进行优化,得到优化后的检索结果集合R;
步骤S5:将R中每幅图像与所述待估位姿RGB图像构成图像对,利用图像局部特征提取和匹配技术生成2D-2D匹配点对,并结合图像数据库中的三维信息转化为2D-3D匹配点对;将所述2D-3D匹配对输入位姿估计算法,得到所述相机的位姿估计。
本发明与现有技术相比,具有以下优点:
1、本发明公开了一种基于语义的相机位姿估计方法,对图像的语义分割结果进行修复,而不是对原始图像进行修复,从语义层面减少动态物体遮挡的影响,并恢复出稳定性更强的场景静态语义布局。语义图修复技术通过提供额外的附加信息,保证可利用的总像素信息量的一致,有利于对语义信息的进一步挖掘,并有利于对语义数据进行统一的处理。
2、针对修复的静态语义图,本发明提出了一种空间分布嵌入算法用于语义特征提取,可以有效对静态语义图进行编码,并用于图像检索。针对检索结果集合,本发明提出了一种区间选择算法,利用滑动窗口以优化检索结果,可以在不改变检索结果数量的情况下提高检索结果的相关性。
3、本发明利用静态语义图数据增强图像检索的性能,通过提供更相关的检索结果来提升位姿估计的效果。
附图说明
图1为本发明实施例中一种基于语义的相机位姿估计方法的流程图;
图2为本发明实施例中为本发明实施例的空间分布嵌入算法的一个计算示意图;
图3为本发明实施例中为区间选择算法的计算示意图;
图4为本发明实施例中一种基于语义的相机位姿估计系统的结构框图。
具体实施方式
本发明提供了一种基于语义的相机位姿估计方法,利用图像语义信息增强位姿估计算法的鲁棒性,提高其在环境光照变化、动态物体遮挡等情况下的表现,得到更加准确的位姿估计结果。
为了使本发明的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本发明进一步详细说明。
实施例一
如图1所示,本发明实施例提供的一种基于语义的相机位姿估计方法,包括下述步骤:
步骤S1:通过相机预先获取RGB图像序列,用于恢复场景三维结构并构建包含三维信息的图像数据库;将RGB图像序列输入语义分割网络,得到语义分割结果序列,利用语义图修复方法对语义分割结果序列进行恢复,得到静态语义图序列,利用空间分布嵌入算法提取静态语义图序列的语义特征向量,构建语义特征数据库;提取RGB图像序列的全局特征向量,构建全局特征数据库;
步骤S2:获取一张相机拍摄的待估位姿RGB图像,提取待估位姿RGB图像的全局特征向量,计算全局特征向量与全局特征数据库中全局特征向量的欧几里得距离,使用最近邻匹配算法进行RGB检索,得到RGB检索结果集合R1;
步骤S3:将待估位姿RGB图像输入语义分割网络,得到语义分割结果;利用语义图修复方法对语义分割结果进行恢复,得到静态语义图;获取待估位姿RGB图像的静态语义图的语义特征向量,计算语义特征向量与语义特征数据库中语义特征向量的欧几里得距离,使用最近邻匹配算法进行语义检索,得到语义检索结果集合R2;
步骤S4:对R1和R2进行整合后使用区间选择算法进行优化,得到优化后的检索结果集合R;
步骤S5:将R中每幅图像与待估位姿RGB图像构成图像对,利用图像局部特征提取和匹配技术生成2D-2D匹配点对,并结合图像数据库中的三维信息转化为2D-3D匹配点对;将2D-3D匹配对输入位姿估计算法,得到相机的位姿估计。
在一个实施例中,上述步骤S1:通过相机预先获取RGB图像序列,用于恢复场景三维结构并构建包含三维信息的图像数据库;将RGB图像序列输入语义分割网络,得到语义分割结果序列,利用语义图修复方法对语义分割结果序列进行恢复,得到静态语义图序列,利用空间分布嵌入算法提取静态语义图序列的语义特征向量,构建语义特征数据库;提取RGB图像序列的全局特征向量,构建全局特征数据库,具体包括:
步骤S11:通过相机预先获取RGB图像序列,用于恢复场景三维结构并构建包含三维信息的图像数据库;
按照RGB图像在RGB图像序列中的顺序为每张RGB图像分配一个图像ID,根据RGB图像恢复场景三维结构,并构建一个包含RGB图像三维信息的图像数据库;
步骤S12:将RGB图像序列输入语义分割网络,得到语义分割结果序列,利用语义图修复方法对语义分割结果序列进行恢复,得到静态语义图序列,利用空间分布嵌入算法提取静态语义图序列的语义特征向量,构建语义特征数据库,具体包括:
步骤S121:使用语义分割网络获取RGB图像序列的语义分割结果序列;
本发明实施例使用DeepLabv3语义分割网络得到输入RGB图像的语义分割结果,该结果与原输入图像的尺寸一致,描述了输入图像逐像素的语义标签分类,其中语义类别共分为其他、行人步道、建筑、墙和栅栏、电线杆和交通标识、植被、天空、道路等8个静态语义类别和动态物体这1个动态语义类别,动态物体包含行人、车辆、公交、摩托等动态物体;
步骤S122:利用语义图修复方法对语义分割结果序列进行恢复,将RGB图像中动态语义标签替换成静态语义标签,得到静态语义图序列;
在得到包含动态物体的语义分割结果后,使用传统图像修复技术(如Navier-Stokes)或基于机器学习的静态语义图修复技术(如SI-GAN)恢复出场景的静态语义图,从8个静态语义类别中选择合适的静态语义标签替换RGB图像的动态语义标签,得到静态语义图序列;
步骤S123:设定一个二维分布的评分图函数f(x,y)作为采样函数,其中,f(x,y)的定义域覆盖整幅静态语义图S;
步骤S124:利用f对静态语义图S进行打分,针对S中的每一个像素位置p,其在f中对应的函数值f(p)便为该位置的分值权重,其中,p=(u,v),代表S上的像素位置;
步骤S125:针对S中的每一个语义标签类c,根据f的打分结果,计算该语义类的总分值权重Tc=∑p∈S(Ipf(p)),其中,Ip为指示函数,当p处的标签与c相同时取1,否则取0;
步骤S126:针对S中的K种语义标签,按照预定的顺序将K个总分值权重Tk排列为一个K维向量,对其进行归一化操作,并将归一化后的结果作为静态语义图S的语义特征向量;
步骤S127:采用N个不同评分函数分别执行步骤S123~S126,得到N个不同的K维向量,最后将其按预定的顺序拼接为一个NK维的向量,对向量进行归一化操作,并将归一化后的结果作为S的最终静态语义特征向量;
步骤S128:重复步骤S123~S127,提取静态语义图序列中所有静态语义图的语义特征向量,得到语义特征数据库。
步骤S13:提取RGB图像序列的全局特征向量,构建全局特征数据库。
本发明实施例使用传统图像特征提取算法(如VLAD)或基于机器学习的图像特征提取算法(如NetVLAD)对RGB图像序列提取全局特征,得到一个高维向量作为图像的表示,从而构建全局特征数据库。
如图2所示,为本发明实施例的空间分布嵌入算法的一个计算示例,图2中静态语义图像的尺寸为7*5,一共有35个语义块,语义的类别一共有4种,分别以不同的颜色表示,评分图函数f设置为简单的三维平面函数方便演示。在算法运行阶段,将f的分值权重与静态语义图对应的语义块进行一一对应,得到附带评分的静态语义图。通过求和统计不同语义类的总评分,并将其拼接成一个向量。对向量进行归一化处理,得到最终的静态语义特征向量。
本发明设计的空间分布嵌入算法,可用于语义特征提取,可以有效对静态语义图进行编码,提取为一个向量,并用于图像检索。
在一个实施例中,上述步骤S2:获取一张相机拍摄的待估位姿RGB图像,提取所述待估位姿RGB图像的全局特征向量,计算所述全局特征向量与所述全局特征数据库中全局特征向量的欧几里得距离,使用最近邻匹配算法进行RGB检索,得到RGB检索结果集合R1;
在位姿估计阶段,获取一张相机拍摄的待估位姿RGB图像,获取该图像的全局特征向量。将待估位姿RGB图像的全局特征向量与步骤S13构建的全局特征数据库中的每个全局特征向量分别计算欧几里得距离,使用最近邻匹配算法进行RGB检索,按距离差值大小排序,然后选择特定的全局特征向量,构建得到RGB检索结果集合R1。
在一个实施例中,上述步骤S3:将所述待估位姿RGB图像输入所述语义分割网络,得到语义分割结果;利用语义图修复方法对所述语义分割结果进行恢复,得到静态语义图;获取所述待估位姿RGB图像的静态语义图的语义特征向量,计算所述语义特征向量与所述语义特征数据库中语义特征向量的欧几里得距离,使用最近邻匹配算法进行语义检索,得到语义检索结果集合R2,具体包括:
将步骤S2中待估位姿RGB图像,执行步骤S121~S126,得到其静态语义特征向量。将待估位姿RGB图像的静态语义特征向量与步骤S12构建的语义特征数据库中的每个语义特征向量分别计算欧几里得距离,使用最近邻匹配算法进行RGB检索,按距离差值大小排序,然后选择特定的语义特征向量,构建得到语义检索结果集合R2。
在一个实施例中,上述步骤S4:对R1和R2进行整合后使用区间选择算法进行优化,得到优化后的检索结果集合R,具体包括:
步骤S41:根据集合R1和R2中每张RGB图像ID,求取集合R1和R2的并集RT=R1∪R2,将RT按升序或降序进行排列,得到排序后的图像序列T;
步骤S42:使用窗口尺寸固定为m的滑动窗口,从T的左侧滑动到右侧,针对每个滑动位置,计算该位置处的滑动窗口的区间绝对值,其中,m小于等于序列T的长度;滑动窗口的区间绝对值通过滑动窗口的右侧图像ID减去其左侧图像ID,再对结果取绝对值得到;
步骤S43:选择滑动窗口区间的绝对值最小的位置,并将处在该位置的窗口包含的m个图像作为优化后的检索结果集合R;
步骤S44:如若有多个位置的窗口区间绝对值并列为最小,则可以针对每一个位置生成一个优化后的检索结果集合R,然后从中选择一个或多个集合分别进行后续步骤。
如图3所示为区间选择算法的计算示例。图3下方的数字代表图像在序列数据中的相对位置。序列T共包含8张图像,通过将RGB检索的结果R1和语义检索的结果R2进行合并,然后按升序进行排序得到,采用的滑动窗口的尺寸为4。其中,起始位置的区间跨度为17,由窗口右侧图像的ID 122减去窗口左侧图像的ID 105计算得到。窗口由起始位置开始,从左向右依次滑过图像序列,计算窗口的区间跨度,并对最小子序列进行更新。区间跨度最小的子序列位于窗口的末尾处,区间跨度为5,由编号ID为125,127,128,130的四张图像构成,这四张图像便构成了优化后的检索结果集合R。
本发明设计的区间选择算法,利用滑动窗口以优化检索结果,可以在不改变检索结果数量的情况下提高检索结果的相关性。
在一个实施例中,上述步骤S5:将R中每幅图像与待估位姿RGB图像构成图像对,利用图像局部特征提取和匹配技术生成2D-2D匹配点对,并结合图像数据库中的三维信息转化为2D-3D匹配点对;将2D-3D匹配对输入位姿估计算法,得到相机的位姿估计,具体包括:
将步骤S4得到的集合R中的每一幅图像与待估位姿RGB图像构成图像对,利用图像局部特征提取技术(如SIFT、Orb、SuperPoint等)获得图像的局部特征,利用特征匹配得到待估位姿RGB图像和集合R中图像的2D-2D匹配对,再结合其有三维信息将其转化为2D-3D匹配对。将得到的所有2D-3D匹配对作为输入,使用位姿估计算法(如RANSAC-PnP算法)计算得到相机位姿。
如果步骤S4得到多个集合R,可以对每个集合分别进行位姿估计,选择内点数量最多的估计位姿作为最终的相机位姿。
本发明公开了一种基于语义的相机位姿估计方法,对图像的语义分割结果进行修复,而不是对原始图像进行修复,从语义层面减少动态物体遮挡的影响,并恢复出稳定性更强的场景静态语义布局。语义图修复技术通过提供额外的附加信息,保证可利用的总像素信息量的一致,有利于对语义信息的进一步挖掘,并有利于对语义数据进行统一的处理。
针对修复的静态语义图,本发明提出了一种空间分布嵌入算法用于语义特征提取,可以有效对静态语义图进行编码,并用于图像检索。针对检索结果集合,本发明提出了一种区间选择算法,利用滑动窗口以优化检索结果,可以在不改变检索结果数量的情况下提高检索结果的相关性。
本发明利用静态语义图数据增强图像检索的性能,通过提供更相关的检索结果来提升位姿估计的效果。
实施例二
如图4所示,本发明实施例提供了一种基于语义的相机位姿估计系统,包括下述模块:
数据预处理模块61:用于通过相机预先获取RGB图像序列,用于恢复场景三维结构并构建包含三维信息的图像数据库;将RGB图像序列输入语义分割网络,得到语义分割结果序列,利用语义图修复方法对语义分割结果序列进行恢复,得到静态语义图序列,利用空间分布嵌入算法提取静态语义图序列的语义特征向量,构建语义特征数据库;提取RGB图像序列的全局特征向量,构建全局特征数据库;
获取RGB检索结果模块62,用于获获取一张相机拍摄的待估位姿RGB图像,提取待估位姿RGB图像的全局特征向量,计算全局特征向量与全局特征数据库中全局特征向量的欧几里得距离,使用最近邻匹配算法进行RGB检索,得到RGB检索结果集合R1;
获取语义检索结果模块63,用于将待估位姿RGB图像输入语义分割网络,得到语义分割结果;利用语义图修复方法对语义分割结果进行恢复,得到静态语义图;获取待估位姿RGB图像的静态语义图的语义特征向量,计算语义特征向量与语义特征数据库中语义特征向量的欧几里得距离,使用最近邻匹配算法进行语义检索,得到语义检索结果集合R2;
优化检索结果模块64,用于对R1和R2进行整合后使用区间选择算法进行优化,得到优化后的检索结果集合R;
相机的位姿估计模块65,用于将R与其在将RGB图像序列中对应的图像构成图像对,利用图像局部特征提取和匹配技术生成2D-2D匹配点对,并结合图像数据库中的三维信息转化为2D-3D匹配点对;将2D-3D匹配对输入位姿估计算法,得到相机的位姿估计。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。
Claims (5)
1.一种基于语义的相机位姿估计方法,其特征在于,包括:
步骤S1:通过相机预先获取RGB图像序列,用于恢复场景三维结构并构建包含三维信息的图像数据库;将所述RGB图像序列输入语义分割网络,得到语义分割结果序列,利用语义图修复方法对所述语义分割结果序列进行恢复,得到静态语义图序列,利用空间分布嵌入算法提取所述静态语义图序列的语义特征向量,构建语义特征数据库;提取所述RGB图像序列的全局特征向量,构建全局特征数据库;
步骤S2:获取一张相机拍摄的待估位姿RGB图像,提取所述待估位姿RGB图像的全局特征向量,计算所述全局特征向量与所述全局特征数据库中全局特征向量的欧几里得距离,使用最近邻匹配算法进行RGB检索,得到RGB检索结果集合R1;
步骤S3:将所述待估位姿RGB图像输入所述语义分割网络,得到语义分割结果;利用语义图修复方法对所述语义分割结果进行恢复,得到静态语义图;获取所述待估位姿RGB图像的静态语义图的语义特征向量,计算所述语义特征向量与所述语义特征数据库中语义特征向量的欧几里得距离,使用最近邻匹配算法进行语义检索,得到语义检索结果集合R2;
步骤S4:对R1和R2进行整合后使用区间选择算法进行优化,得到优化后的检索结果集合R;
步骤S5:将R中每幅图像与所述待估位姿RGB图像构成图像对,利用图像局部特征提取和匹配技术生成2D-2D匹配点对,并结合图像数据库中的三维信息转化为2D-3D匹配点对;将所述2D-3D匹配对输入位姿估计算法,得到所述相机的位姿估计。
2.根据权利要求1所述的基于语义的相机位姿估计方法,其特征在于,所述步骤S1:通过相机预先获取RGB图像序列,用于恢复场景三维结构并构建包含三维信息的图像数据库;将所述RGB图像序列输入语义分割网络,得到语义分割结果序列,利用语义图修复方法对所述语义分割结果序列进行恢复,得到静态语义图序列,利用空间分布嵌入算法提取所述静态语义图序列的语义特征向量,构建语义特征数据库;提取所述RGB图像序列的全局特征向量,构建全局特征数据库,具体包括:
步骤S11:通过相机预先获取RGB图像序列,用于恢复场景三维结构并构建包含三维信息的图像数据库;
步骤S12:将所述RGB图像序列输入语义分割网络,得到语义分割结果序列,利用语义图修复方法对所述语义分割结果序列进行恢复,得到静态语义图序列,利用空间分布嵌入算法提取所述静态语义图序列的语义特征向量,构建语义特征数据库;
步骤S13:提取所述RGB图像序列的全局特征向量,构建全局特征数据库。
3.根据权利要求2所述的基于语义的相机位姿估计方法,其特征在于,所述步骤S12:将所述RGB图像序列输入语义分割网络,得到语义分割结果序列;利用语义图修复方法对所述语义分割结果序列进行恢复,得到静态语义图序列;利用空间分布嵌入算法提取所述静态语义图序列的语义特征向量,构建语义特征数据库,具体包括:
步骤S121:使用语义分割网络获取所述RGB图像序列的语义分割结果序列;
步骤S122:利用语义图修复方法对所述语义分割结果序列进行恢复,将RGB图像中动态语义标签替换成静态语义标签,得到静态语义图序列;
步骤S123:设定一个二维分布的评分图函数f(x,y)作为采样函数,其中,f(x,y)的定义域覆盖整幅静态语义图S;
步骤S124:利用f对所述静态语义图S进行打分,针对S中的每一个像素位置p,其在f中对应的函数值f(p)便为该位置的分值权重,其中,p=(u,v),代表S上的像素位置;
步骤S125:针对S中的每一个语义标签类c,根据f的打分结果,计算该语义类的总分值权重Tc=∑p∈S(Ipf(p)),其中,Ip为指示函数,当p处的标签与c相同时取1,否则取0;
步骤S126:针对S中的K种语义标签,按照预定的顺序将K个总分值权重Tk排列为一个K维向量,对其进行归一化操作,并将归一化后的结果作为所述静态语义图S的语义特征向量;
步骤S127:采用N个不同评分函数分别执行步骤S123~S126,得到N个不同的K维向量,最后将其按预定的顺序拼接为一个NK维的向量,对向量进行归一化操作,并将归一化后的结果作为S的最终静态语义特征向量;
步骤S128:重复步骤S123~S127,提取所述静态语义图序列中所有静态语义图的语义特征向量,得到语义特征数据库。
4.根据权利要求1所述的基于语义的相机位姿估计方法,其特征在于,所述步骤S4:对R1和R2进行整合后使用区间选择算法进行优化,得到优化后的检索结果集合R,具体包括:
步骤S41:根据集合R1和R2中每张RGB图像ID,求取集合R1和R2的并集RT=R1∪R2,将RT按升序或降序进行排列,得到排序后的图像序列T;
步骤S42:使用窗口尺寸固定为m的滑动窗口,从T的左侧滑动到右侧,针对每个滑动位置,计算该位置处的所述滑动窗口的区间绝对值,其中,m小于等于序列T的长度;所述滑动窗口的区间绝对值通过所述滑动窗口的右侧图像ID减去其左侧图像ID,再对结果取绝对值得到;
步骤S43:选择所述滑动窗口区间的绝对值最小的位置,并将处在该位置的窗口包含的m个图像作为优化后的检索结果集合R;
步骤S44:如若有多个位置的窗口区间绝对值并列为最小,则可以针对每一个位置生成一个优化后的检索结果集合R,然后从中选择一个或多个集合分别进行后续步骤。
5.一种基于语义的相机位姿估计系统,其特征在于,包括下述模块:
数据预处理模块:用于通过相机预先获取RGB图像序列,用于恢复场景三维结构并构建包含三维信息的图像数据库;将所述RGB图像序列输入语义分割网络,得到语义分割结果序列,利用语义图修复方法对所述语义分割结果序列进行恢复,得到静态语义图序列,利用空间分布嵌入算法提取所述静态语义图序列的语义特征向量,构建语义特征数据库;提取所述RGB图像序列的全局特征向量,构建全局特征数据库;
获取RGB检索结果模块,用于获获取一张相机拍摄的待估位姿RGB图像,提取所述待估位姿RGB图像的全局特征向量,计算所述全局特征向量与所述全局特征数据库中全局特征向量的欧几里得距离,使用最近邻匹配算法进行RGB检索,得到RGB检索结果集合R1;
获取语义检索结果模块,用于将所述待估位姿RGB图像输入所述语义分割网络,得到语义分割结果;利用语义图修复方法对所述语义分割结果进行恢复,得到静态语义图;获取所述待估位姿RGB图像的静态语义图的语义特征向量,计算所述语义特征向量与所述语义特征数据库中语义特征向量的欧几里得距离,使用最近邻匹配算法进行语义检索,得到语义检索结果集合R2;
优化检索结果模块,用于对R1和R2进行整合后使用区间选择算法进行优化,得到优化后的检索结果集合R;
相机的位姿估计模块,用于将R与其在将所述RGB图像序列中对应的图像构成图像对,利用图像局部特征提取和匹配技术生成2D-2D匹配点对,并结合图像数据库中的三维信息转化为2D-3D匹配点对;将所述2D-3D匹配对输入位姿估计算法,得到所述相机的位姿估计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210033180.8A CN114708321B (zh) | 2022-01-12 | 一种基于语义的相机位姿估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210033180.8A CN114708321B (zh) | 2022-01-12 | 一种基于语义的相机位姿估计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114708321A true CN114708321A (zh) | 2022-07-05 |
CN114708321B CN114708321B (zh) | 2024-06-21 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455994A (zh) * | 2023-11-07 | 2024-01-26 | 暨南大学 | 一种相机位姿估计方法、系统、电子设备及可读介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190043203A1 (en) * | 2018-01-12 | 2019-02-07 | Intel Corporation | Method and system of recurrent semantic segmentation for image processing |
CN109658449A (zh) * | 2018-12-03 | 2019-04-19 | 华中科技大学 | 一种基于rgb-d图像的室内场景三维重建方法 |
WO2019237646A1 (zh) * | 2018-06-14 | 2019-12-19 | 清华大学深圳研究生院 | 一种基于深度学习和语义分割的图像检索方法 |
KR20200080970A (ko) * | 2018-12-27 | 2020-07-07 | 포항공과대학교 산학협력단 | 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법 |
CN111462135A (zh) * | 2020-03-31 | 2020-07-28 | 华东理工大学 | 基于视觉slam与二维语义分割的语义建图方法 |
CN112132897A (zh) * | 2020-09-17 | 2020-12-25 | 中国人民解放军陆军工程大学 | 一种基于深度学习之语义分割的视觉slam方法 |
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190043203A1 (en) * | 2018-01-12 | 2019-02-07 | Intel Corporation | Method and system of recurrent semantic segmentation for image processing |
WO2019237646A1 (zh) * | 2018-06-14 | 2019-12-19 | 清华大学深圳研究生院 | 一种基于深度学习和语义分割的图像检索方法 |
CN109658449A (zh) * | 2018-12-03 | 2019-04-19 | 华中科技大学 | 一种基于rgb-d图像的室内场景三维重建方法 |
KR20200080970A (ko) * | 2018-12-27 | 2020-07-07 | 포항공과대학교 산학협력단 | 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법 |
CN111462135A (zh) * | 2020-03-31 | 2020-07-28 | 华东理工大学 | 基于视觉slam与二维语义分割的语义建图方法 |
CN112132897A (zh) * | 2020-09-17 | 2020-12-25 | 中国人民解放军陆军工程大学 | 一种基于深度学习之语义分割的视觉slam方法 |
Non-Patent Citations (2)
Title |
---|
汪霖;曹建福;: "机器人三维视觉技术及其在智能制造中的应用", 自动化博览, no. 02, 15 February 2020 (2020-02-15) * |
王宪伦;张海洲;安立雄;: "基于图像语义分割的物体位姿估计", 机械制造与自动化, no. 02, 20 April 2020 (2020-04-20) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455994A (zh) * | 2023-11-07 | 2024-01-26 | 暨南大学 | 一种相机位姿估计方法、系统、电子设备及可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563442B (zh) | 基于激光雷达的点云和相机图像数据融合的slam方法及系统 | |
CN110956651B (zh) | 一种基于视觉和振动触觉融合的地形语义感知方法 | |
CN108665496B (zh) | 一种基于深度学习的端到端的语义即时定位与建图方法 | |
US20210390329A1 (en) | Image processing method, device, movable platform, unmanned aerial vehicle, and storage medium | |
CN110084850B (zh) | 一种基于图像语义分割的动态场景视觉定位方法 | |
US10043097B2 (en) | Image abstraction system | |
CN111862213A (zh) | 定位方法及装置、电子设备、计算机可读存储介质 | |
CN111652934A (zh) | 定位方法及地图构建方法、装置、设备、存储介质 | |
Wang et al. | A unified framework for mutual improvement of SLAM and semantic segmentation | |
Shi et al. | An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds | |
Budvytis et al. | Large scale joint semantic re-localisation and scene understanding via globally unique instance coordinate regression | |
CN112257668A (zh) | 主辅路判断方法、装置、电子设备及存储介质 | |
Xiao et al. | Geo-spatial aerial video processing for scene understanding and object tracking | |
CN114358133B (zh) | 一种基于语义辅助双目视觉slam检测回环帧的方法 | |
CN113592015B (zh) | 定位以及训练特征匹配网络的方法和装置 | |
CN113704276A (zh) | 地图更新方法、装置、电子设备及计算机可读存储介质 | |
CN111754388B (zh) | 一种建图方法及车载终端 | |
CN116843754A (zh) | 一种基于多特征融合的视觉定位方法及系统 | |
Li et al. | Road-network-based fast geolocalization | |
CN114708321B (zh) | 一种基于语义的相机位姿估计方法及系统 | |
Lee et al. | SAM-net: LiDAR depth inpainting for 3D static map generation | |
CN117011481A (zh) | 构建三维地图的方法、装置、电子设备及存储介质 | |
CN114708321A (zh) | 一种基于语义的相机位姿估计方法及系统 | |
CN111784798B (zh) | 地图生成方法、装置、电子设备和存储介质 | |
Porzi et al. | An automatic image-to-DEM alignment approach for annotating mountains pictures on a smartphone |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |