CN115393603A - 一种动态环境下基于改进SuperPoint的视觉SLAM方法 - Google Patents

一种动态环境下基于改进SuperPoint的视觉SLAM方法 Download PDF

Info

Publication number
CN115393603A
CN115393603A CN202210835231.9A CN202210835231A CN115393603A CN 115393603 A CN115393603 A CN 115393603A CN 202210835231 A CN202210835231 A CN 202210835231A CN 115393603 A CN115393603 A CN 115393603A
Authority
CN
China
Prior art keywords
descriptor
image
map
feature
conv3
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210835231.9A
Other languages
English (en)
Inventor
李福生
黄杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210835231.9A priority Critical patent/CN115393603A/zh
Publication of CN115393603A publication Critical patent/CN115393603A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于视觉SLAM技术领域,具体提供一种动态环境下基于改进SuperPoint的视觉SLAM方法,用以解决现有动态环境下的视觉SLAM方法鲁棒性不足的问题;本发明首先在SuperPoint网络的基础上,构建了添加残差权重分支的特征点及描述子提取网络,将网络残差权重分支输出与特征点分支输出进行加权融合,使构建的网络具有剔除动态特征点的功能;之后将构建的网络应用于ORB‑SLAM2的跟踪线程,代替ORB方法提取图像特征点和描述子;结合ORB‑SLAM2的局部建图和回环检测线程,实现了动态环境下鲁棒视觉SLAM系统,提高了视觉SLAM系统在动态环境下位姿估计的准确性和鲁棒性。

Description

一种动态环境下基于改进SuperPoint的视觉SLAM方法
技术领域
本发明属于视觉SLAM技术领域,具体提供一种动态环境下基于改进SuperPoint的视觉SLAM方法。
背景技术
同步定位与建图(Simultaneous Localization And Mapping,SLAM)作为机器人和计算机视觉领域的热点话题,广泛应用于增强现实、室内服务机器人以及无人驾驶;视觉SLAM使用相机图像作为输入,根据图像之间的变化,同时实现相机位姿的估计以及周边地图的构建。当前大多数视觉SLAM方法均是基于观测环境为静态的强假设,由于现实环境中的动态对象的存在,导致许多不稳定的数据关联,出现累计漂移甚至丢失。
当前针对动态环境的视觉SLAM系统中,基于语义的方法通过目标检测或者语义分割来获得先验动态对象的像素级掩码或边界框,对场景中运动的物体上的特征点当作“坏点”处理,剔除动态对象上的特征点,以减少动态对象对位姿估计的影响,提高了动态环境下的定位精度;同时,目前主流的视觉SLAM系统主要依靠人工设计的点特征进行图像间的匹配跟踪,在面对视角变化距离,光照环境变化大的环境下,易导致跟踪失败;近年来,基于深度学习特征点和描述子提取网络在光照和视角变化剧烈的场景下表现优异;因此,本发明提供一种动态环境下基于改进SuperPoint的视觉SLAM方法。
发明内容
本发明的目的在于针对现有动态环境下的视觉SLAM方法鲁棒性不足的问题,提出了一种动态环境下基于改进SuperPoint的视觉SLAM方法;本发明在特征点和描述子提取网络SuperPoint的基础上,加入了残差权重图,利用语义信息剔除动态特征点、引导SuperPoint检测稳定的静态特征点,显著改善视觉SLAM方法在动态场景下的准确性和鲁棒性。
为实现上述目的,本发明采用的技术方案如下:
一种动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,包括以下步骤:
步骤1、构建带标签数据集;
将无标签的真实图像作为输入,使用端到端的视觉重定位方法PixLoc生成输入图像的残差权重图作为残差权重标签,使用特征点自标注方法得到特征点伪标签;
步骤2、构建图像静态特征点及描述子提取网络,并在带标签数据集上完成离线训练;
所述图像静态特征点及描述子提取网络包括:共享编码器、残差权重分支、特征点分支及描述子分支,输入图像经过共享编码器进行进行下采样得到初步特征图,残差权重分支、特征点分支与描述子分支分别对初步特征图进行解码,得到残差权重图、特征点概率图与描述子特征图,其中,残差权重图与特征点概率图进一步加权融合得到特征点置信度图,再设定置信度阈值、并通过快速近似非极大值抑制算法得到特征点;对描述子特征图进行双三次线性插值,再通过L2归一化为单位长度,得到稠密描述子向量;
步骤3、将训练完成的图像静态特征点及描述子提取网络用于ORB-SLAM2的特征点和描述子提取过程,实现基于改进SuperPoint的视觉SLAM方法。
进一步的,所述共享编码器从的输入图像中得到初步特征图,具体由依次连接的Conv3×3×1×64/s2、Conv3×3×64×64、Conv3×3×64×128/s2、Conv3×3×128×128、Conv3×3×128×256/s2、Conv3×3×256×256构成,且每个卷积层后均设置非线性函数Relu层。
进一步的,所述残差权重分支中通过残差权重解码器对初步特征图进行解码,解码过程中使用PixelShuffle操作对残差权重图进行上采样、使其还原到输入图像的原始尺寸,最后通过Sigmoid函数将输出映射到[0,1]范围,得到残差权重图;所述残差权重解码器由依次连接的Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16、Conv1×1×4×1构成,且卷积层Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16后均设置非线性函数Relu层。
进一步的,所述特征点提取分支中通过特征点解码器对初步特征图进行解码得到输出,再通过Softmax操作丢弃回收通道,最后使用Reshape操作进行维度切换,得到特征点概率图;所述特征点解码器由Conv 3×3×256×256、Conv1×1×256×65构成,且Conv 3×3×256×256后设置非线性函数Relu层。
进一步的,所述描述子检测分支中通过描述子解码器对初步特征图进行解码,得到维度为(H/8)×(W/8)×256的描述子特征图,再进行双三次线性插值以及L2归一化得到单位长度的稠密描述子向量(维度为H×W×256);所述描述子解码器由Conv 3×3×256×256、Conv1×1×256×256构成,且Conv 3×3×256×256后设置非线性函数Relu层。
进一步的,所述离线训练具体为:
将带标签数据集中真实图像进行随机单应性变换得到副本图像,将真实图像与副本图像组成图像对、输入图像静态特征点及描述子提取网络;设置损失函数,对图像静态特征点及描述子提取网络进行离线训练;
所述损失函数L在SuperPoint损失函数中增加了残差权重损失,即损失函数由特征点损失Lp、描述子损失Ld与残差权重损失Lw三部分构成,具体为:
L(Xp,X′p,Xw,X′w,D,D′;Yp,Y′p,Yw,Y′w,S)=Lp(Xp,Yp)+Lp(X′p,Y′p)+λ1Lw(Xw,Yw)+λ1Lw(X′w,Y′w)+λ2Ld(D,D′,S)
其中,Xp与Yp为真实图像的特征点预测输出与标签值,X′p与Y′p为副本图像的特征点预测输出与标签值,Xw与Yw则为真实图像的残差权重预测输出与标签值,X′w与Y′w为副本图像的残差权重预测输出与标签值,D与D′为真实图像与副本图像输入网络后得到的描述子特征图,S表示D与D′的位置关系;λ1与λ2为超参数、用以平衡损失函数,具体为1.2和0.001;
Lp为特征点预测的损失函数,采用全卷积交叉熵损失,具体为:
Figure BDA0003747640750000031
其中,其中,Hc=H/8,Wc=W/8,H与W为图像的高和宽;(h,w)表示特征点概率图位置坐标,xhwk表示特征点概率图(维度为(H/8)×(W/8)×65)中第k通道(h,w)位置的预测值,
Figure BDA0003747640750000034
表示特征点概率图在特征点标签值yhw对应通道(h,w)位置的预测值;
Lw为残差权重预测损失函数,采用逐像素L1损失,具体为:
Figure BDA0003747640750000032
其中,xhw为残差权重图中(h,w)位置的预测值,yhw为残差权重标签图中(h,w)位置的标签值;
Ld为特征点描述损失函数,采用铰链损失,具体为:
Figure BDA0003747640750000033
其中,dhw表示描述子特征图D中(h,w)位置的描述子单元,d′h′w′表示描述子特征图D′中(h′,w′)位置的描述子单元;
shwh′w′用以表征dhw与d′h′w′位置是否相近:
Figure BDA0003747640750000041
phw表示描述子单元dhw在真实图像上的坐标位置,
Figure BDA0003747640750000042
表示将描述子单元位置phw进行相应单应性变换(与真实图像与副本图像间变换一致)后的描述子单元位置;ph′w′表示描述子单元dh′w′在副本图像的坐标位置;
ld为:ld(d,d′;s)=λd×s×max(0,mp-dTd′)+(1-s)×max(0,dTd′-mn),mp与mn为正裕度与负裕度,λd为超参数、用以平衡描述子损失中的正例损失和负例损失。
进一步的,所述步骤1中,使用特征点自标注方法得到特征点伪标签,具体为:将无标签的真实图像作为MagicPoint网络的输入,先对输入图像进行N次随机单应性变换操作得到图像副本,使用MagicPoint网络在变换后的图像副本上提取特征点,将包含了特征点的图像副本通过相应的逆向单应性变化还原,再与真实图像的特征点合并作为特征点伪标签。
进一步的,所述步骤3具体为:在ORB-SLAM2的Tracking线程中,采用训练完成的图像静态特征点及描述子提取网络代替ORB方法,对摄像头捕获的图像提取特征点和描述子。
与现有技术相比,本发明的有益效果在于:
本发明提供一种动态环境下基于改进SuperPoint的视觉SLAM方法,首先在SuperPoint网络中加入残差权重分支,制作特征点标签和残差权重图标签对构建的网络进行离线训练;将残差权重分支的输出与特征点分支输出加权融合,使网络具有剔除动态特征点的功能;之后将改进的网络应用于ORB-SLAM2的特征点及描述子提取过程,结合ORB-SLAM2的局部建图以及回环检测线程,实现了动态环境下鲁棒视觉SLAM系统,提高视觉SLAM系统在动态环境下位姿估计的鲁棒性。
附图说明
图1为本发明中动态环境下基于改进SuperPoint的视觉SLAM方法的流程示意图。
图2为本发明中结合残差权重的图像静态特征点及描述子提取网络的结构示意图。
具体实施方式
为使本发明的目的、技术方案与有益效果更加清楚明白,下面结合附图和实施例对本发明进行进一步详细说明。
本实施例提供一种动态环境下基于改进SuperPoint的视觉SLAM方法,其流程如图1所示,具体包括以下步骤:
步骤1、构建带标签数据集;
将无标签的真实图像作为输入,使用端到端的视觉重定位方法PixLoc生成输入图像的残差权重图作为残差权重标签,使用特征点自标注方法得到特征点伪标签;
具体而言,无标签的真实图像作为PixLoc算法的输入,生成残差权重标签图,残差权重ωh,w∈[0,1];PixLoc是一种端到端的视觉重定位方法,利用不确定性图产生的残差权重反映了不同特征对于定位的重要性,它更关注路标、轮廓或突出结构,对于汽车、落叶等动态对象,残差权重越接近于0;
无标签的真实图像作为输入,使用特征点自标注方法得到特征点伪标签,具体为:在由立方体、多边形、星形、棋盘和直线合成的虚拟数据集上训练忽略描述子分支的SuperPoint网络,使其具有角点提取能力,称这个网络为MagicPoint;无标签的真实图像作为MagicPoint网络的输入,为了检测到更多潜在特征点,先对输入图像进行N次随机单应性变换操作得到图像副本,使用MagicPoint网络在变换后的图像副本上提取特征点,将包含了特征点的图像副本通过相应的逆向单应性变化还原,再与原图(输入图像)的特征点合并作为后续工作的伪标签;
步骤2、构建图像静态特征点及描述子提取网络,并在带标签数据集上进行离线训练;具体为:
所述图像静态特征点及描述子提取网络如图2所示,能够实现特征点以及描述子提取同步进行,同时结合产生的残差权重预测对特征点概率图进行加权,实现剔除动态特征点的效果;具体包括:共享编码器、残差权重分支、特征点分支及描述子分支,输入图像经过共享编码器进行进行下采样得到初步特征图,残差权重分支、特征点分支与描述子分支分别对初步特征图进行解码,得到残差权重图、特征点概率图与描述子特征图,其中,残差权重图与特征点概率图进一步加权融合得到特征点置信度图,再设定置信度阈值、并通过快速近似非极大值抑制算法得到特征点;对得到的描述子特征图进行双三次线性插值,再通过L2归一化为单位长度,最终得到稠密描述子向量;
所述共享编码器由3×3卷积层和非线性Relu函数层组成,经过3个步长为2的3×3卷积层进行下采样,从H×W的输入图像得到(H/8)×(W/8)尺寸的初步特征图;具体由依次连接的Conv3×3×1×64/s2、Conv3×3×64×64、Conv3×3×64×128/s2、Conv3×3×128×128、Conv3×3×128×256/s2、Conv3×3×256×256构成,且每个卷积层后均设置非线性函数Relu层;
所述残差权重分支中通过残差权重解码器对初步特征图进行解码,解码过程中使用PixelShuffle操作对残差权重图进行采样尺度为2的3次上采样、使其还输入图像的原始尺寸H×W,最后通过Sigmoid函数将输出映射到[0,1]范围,得到残差权重图;残差权重图能够通过视觉先验引导兴趣点提取,使网络学会忽略汽车、落叶这样的动态对象;所述残差权重解码器由依次连接的Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16、Conv1×1×4×1构成,且卷积层Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16后均设置非线性函数Relu层;
所述特征点提取分支中通过特征点解码器对初步特征图进行解码,得到维度为(H/8)×(W/8)×65的输出,其中,通道数65对应输入图像中不重叠的局部8×8像素块区域、以及1个表示无特征点的回收通道;再通过Softmax操作丢弃回收通道,最后使用Reshape操作将输出从(H/8)×(W/8)×64维度转换回H×W×1维度,得到特征点概率图;所述特征点解码器由Conv 3×3×256×256、Conv1×1×256×65构成,且Conv 3×3×256×256后设置非线性函数Relu层;
所述描述子检测分支中通过描述子解码器对初步特征图进行解码,得到维度为(H/8)×(W/8)×256的描述子特征图,再进行双三次线性插值以及L2归一化得到单位长度的稠密描述子向量(维度为H×W×256);所述描述子解码器Conv3×3×256×256、Conv1×1×256×256构成,且Conv 3×3×256×256后设置非线性函数Relu层;
所述快速非极大值抑制算法具体为:先创建一个尺寸为H×W的网格,将经过置信度阈值筛选得到的特征点坐标作为输入;把网格中对应坐标的值设置为1,其余坐标的值设置为0;然后对网格中值为1的位置进行遍历,遍历过的网格对应值设置为-1,遍历位置领域坐标的值设置为0;遍历结束后得到网格中所有值为1的坐标,以实现特征点的快速非极大值抑制;
更为准确的讲:上述网络中所有卷积层如下表所示,其中,“a×a×b×c/s2”中“a×a”表示卷积核大小、“×b”表示输入通道数、“×c”表示输出通道数、“/s”表示步长;以“3×3×1×64/s2”为例进行说明,具体表示卷积核大小为3×3、输入通道数为1、输出通道数为64、步长为2的卷积层;并且,每个3×3卷积层后均设置非线性函数Relu层,未标注步长的其他卷积层默认步长设置为1;
共享编码器 特征点解码器 描述子解码器 残差权重解码器
3×3×1×64/s2 3×3×256×256 3×3×256×256 3×3×256×256
3×3×64×64 1×1×256×65 1×1×256×256 3×3×64×64
3×3×64×128/s2 3×3×16×16
3×3×128×128 1×1×4×1
3×3×128×256/s2
3×3×256×256
所述离线训练具体为:
将带标签数据集中真实图像进行随机单应性变换得到副本图像,将真实图像与副本图像组成图像对、输入图像静态特征点及描述子提取网络;设置损失函数,对图像静态特征点及描述子提取网络进行离线训练;
所述损失函数L在SuperPoint损失函数中增加了残差权重损失,即损失函数由特征点损失Lp、描述子损失Ld与残差权重损失Lw三部分构成,具体为:
L(Xp,X′p,Xw,X′w,D,D′;Yp,Yp′,Yw,Yw′,S)=
Lp(Xp,Yp)+Lp(X′p,Yp′)+λ1Lw(Xw,Yw)+λ1Lw(X′w,Yw′)+λ2Ld(D,D′,S)
其中,Xp与Yp为真实图像的特征点预测输出与标签值,Xp′与Yp′为副本图像的特征点预测输出与标签值,Xw与Yw则为真实图像的残差权重预测输出与标签值,X′w与Yw′为副本图像的残差权重预测输出与标签值,D与D′为真实图像与副本图像输入网络后得到的描述子特征图,S表示D与D′的位置关系;λ1与λ2为超参数、用来平衡损失函数,具体为1.2和0.001;
Lp为特征点预测的损失函数,采用全卷积交叉熵损失,具体为:
Figure BDA0003747640750000071
其中,Hc=H/8,Wc=W/8,H与W为图像的高和宽;(h,w)表示特征点概率图位置坐标,xhwk表示特征点概率图(维度为(H/8)×(W/8)×65)中第k通道(h,w)位置的预测值,
Figure BDA0003747640750000072
表示特征点概率图在特征点标签值yhw对应通道(h,w)位置的预测值;
Lw为残差权重预测损失函数,采用逐像素L1损失,具体为:
Figure BDA0003747640750000081
其中,xhw为残差权重图中(h,w)位置的预测值,yhw为每个残差权重标签图中(h,w)位置的标签值;
Ld为特征点描述损失函数,采用铰链损失,具体为:
Figure BDA0003747640750000082
其中,dhw表示描述子特征图D中(h,w)位置的描述子单元,d′h′w′表示描述子特征图D′中(h′,w′)位置的描述子单元;
shwh′w′用以表征dhw与d′h′w′位置是否相近:
Figure BDA0003747640750000083
phw表示描述子单元dhw在真实图像上的坐标位置,
Figure BDA0003747640750000084
表示将描述子单元位置phw进行相应单应性变换(与真实图像与副本图像间变换一致)后的描述子单元位置;ph′w′表示描述子单元dh′w′在副本图像的坐标位置;
ld为:ld(d,d′;s)=λd×s×max(0,mp-dTd′)+(1-s)×max(0,dTd′-mn),mp与mn为正裕度与负裕度,λd为超参数,用来平衡描述子损失中的正例损失和负例损失;
步骤3、将训练完成的图像静态特征点及描述子提取网络用于ORB-SLAM2的特征点和描述子提取过程,实现基于改进SuperPoint的视觉SLAM方法;具体为:
将摄像头捕获的图像作为输入,使用构建的静态特征点和描述子提取网络对图像提取特征点,即在ORB-SLAM2的Tracking线程中,视觉前端部分使用构建的静态特征点及描述子提取网络代替ORB提取特征点和描述子,通过最近邻匹配描述子实现相邻图像帧的特征点跟踪;结合ORB-SLAM2的Local Mapping、Loop Closing线程,实现动态环境下鲁棒视觉SLAM系统。
综上,本发明在SuperPoint网络基础上,结合残差权重建立图像静态特征点提取及描述子网络结构,并进行离线训练;再使用改进的网络得到图像特征点并进行跟踪,结合后端优化、回环检测以及地图构建构成完整的SLAM系统。本发明实现了在SLAM视觉前端环节使用深度学习提取特征点的同时有效剔除动态特征点,能够减少动态物体对于SLAM定位的影响,提高在光度变化场景下系统的鲁棒性。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (8)

1.一种动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,包括以下步骤:
步骤1、构建带标签数据集;
将无标签的真实图像作为输入,使用端到端的视觉重定位方法PixLoc生成输入图像的残差权重图作为残差权重标签,使用特征点自标注方法得到特征点伪标签;
步骤2、构建图像静态特征点及描述子提取网络,并在带标签数据集上完成离线训练;
所述图像静态特征点及描述子提取网络包括:共享编码器、残差权重分支、特征点分支及描述子分支,输入图像经过共享编码器进行进行下采样得到初步特征图,残差权重分支、特征点分支与描述子分支分别对初步特征图进行解码,得到残差权重图、特征点概率图与描述子特征图,其中,残差权重图与特征点概率图进一步加权融合得到特征点置信度图,再设定置信度阈值、并通过快速近似非极大值抑制算法得到特征点;对描述子特征图进行双三次线性插值,再通过L2归一化为单位长度,得到稠密描述子向量;
步骤3、将训练完成的图像静态特征点及描述子提取网络用于ORB-SLAM2的特征点和描述子提取过程,实现基于改进SuperPoint的视觉SLAM方法。
2.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述共享编码器从的输入图像中得到初步特征图,具体由依次连接的Conv3×3×1×64/s2、Conv3×3×64×64、Conv3×3×64×128/s2、Conv3×3×128×128、Conv3×3×128×256/s2、Conv3×3×256×256构成,且每个卷积层后均设置非线性函数Relu层。
3.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述残差权重分支中通过残差权重解码器对初步特征图进行解码,解码过程中使用PixelShuffle操作对残差权重图进行上采样、使其还原到输入图像的原始尺寸,最后通过Sigmoid函数将输出映射到[0,1]范围,得到残差权重图;所述残差权重解码器由依次连接的Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16、Conv1×1×4×1构成,且卷积层Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16后均设置非线性函数Relu层。
4.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述特征点提取分支中通过特征点解码器对初步特征图进行解码得到输出,再通过Softmax操作丢弃回收通道,最后使用Reshape操作进行维度切换,得到特征点概率图;所述特征点解码器由Conv3×3×256×256、Conv1×1×256×65构成,且Conv3×3×256×256后设置非线性函数Relu层。
5.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述描述子检测分支中通过描述子解码器对初步特征图进行解码,得到维度为(H/8)×(W/8)×256的描述子特征图,再进行双三次线性插值以及L2归一化得到单位长度的稠密描述子向量;所述描述子解码器由Conv3×3×256×256、Conv1×1×256×256构成,且Conv3×3×256×256后设置非线性函数Relu层。
6.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述离线训练具体为:
将带标签数据集中真实图像进行随机单应性变换得到副本图像,将真实图像与副本图像组成图像对、输入图像静态特征点及描述子提取网络;设置损失函数,对图像静态特征点及描述子提取网络进行离线训练;
所述损失函数L在SuperPoint损失函数中增加了残差权重损失,即损失函数由特征点损失Lp、描述子损失Ld与残差权重损失Lw三部分构成,具体为:
L(Xp,X′p,Xw,X′w,D,D′;Yp,Y′p,Yw,Y′w,S)=Lp(Xp,Yp)+Lp(X′p,Y′p)+λ1Lw(Xw,Yw)+λ1Lw(X′w,Y′w)+λ2Ld(D,D′,S)
其中,Xp与Yp为真实图像的特征点预测输出与标签值,X′p与Y′p为副本图像的特征点预测输出与标签值,Xw与Yw则为真实图像的残差权重预测输出与标签值,X′w与Y′w为副本图像的残差权重预测输出与标签值,D与D′为真实图像与副本图像输入网络后得到的描述子特征图,S表示D与D′的位置关系,λ1与λ2为超参数;
Lp为特征点预测的损失函数,采用全卷积交叉熵损失,具体为:
Figure FDA0003747640740000021
其中,其中,Hc=H/8,Wc=W/8,H与W为图像的高和宽;(h,w)表示位置坐标,xhwk表示特征点概率图(维度为(H/8)×(W/8)×65)中第k通道(h,w)位置的预测值,
Figure FDA0003747640740000022
表示特征点概率图在特征点标签值yhw对应通道(h,w)位置的预测值;
Lw为残差权重预测损失函数,采用逐像素L1损失,具体为:
Figure FDA0003747640740000023
其中,xhw为残差权重图中(h,w)位置的预测值,yhw为残差权重标签图中(h,w)位置的标签值;
Ld为特征点描述损失函数,采用铰链损失,具体为:
Figure FDA0003747640740000031
其中,dhw表示描述子特征图D中(h,w)位置的描述子单元,d′h′w′表示描述子特征图D′中(h′,w′)位置的描述子单元;
shwh′w′用以表征dhw与d′h′w′位置是否相近:
Figure FDA0003747640740000032
phw表示描述子单元dhw在真实图像的坐标位置,
Figure FDA0003747640740000033
表示将描述子单元位置phw进行相应单应性变换后的描述子单元位置;ph′w′表示描述子单元dh′w′在副本图像的坐标位置;
ld为:ld(d,d′;s)=λd×s×max(0,mp-dTd′)+(1-s)×max(0,dTd′-mn),mp与mn为正裕度与负裕度,λd为超参数。
7.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述步骤1中,使用特征点自标注方法得到特征点伪标签,具体为:将无标签的真实图像作为MagicPoint网络的输入,先对输入图像进行N次随机单应性变换操作得到图像副本,使用MagicPoint网络在变换后的图像副本上提取特征点,将包含了特征点的图像副本通过相应的逆向单应性变化还原,再与真实图像的特征点合并作为特征点伪标签。
8.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述步骤3具体为:在ORB-SLAM2的Tracking线程中,采用训练完成的图像静态特征点及描述子提取网络代替ORB方法,对摄像头捕获的图像提取特征点和描述子。
CN202210835231.9A 2022-07-15 2022-07-15 一种动态环境下基于改进SuperPoint的视觉SLAM方法 Pending CN115393603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210835231.9A CN115393603A (zh) 2022-07-15 2022-07-15 一种动态环境下基于改进SuperPoint的视觉SLAM方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210835231.9A CN115393603A (zh) 2022-07-15 2022-07-15 一种动态环境下基于改进SuperPoint的视觉SLAM方法

Publications (1)

Publication Number Publication Date
CN115393603A true CN115393603A (zh) 2022-11-25

Family

ID=84117183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210835231.9A Pending CN115393603A (zh) 2022-07-15 2022-07-15 一种动态环境下基于改进SuperPoint的视觉SLAM方法

Country Status (1)

Country Link
CN (1) CN115393603A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740488A (zh) * 2023-05-16 2023-09-12 北京交通大学 一种用于视觉定位的特征提取模型的训练方法及装置
CN117671022A (zh) * 2023-11-02 2024-03-08 武汉大学 一种室内弱纹理环境的移动机器人视觉定位系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740488A (zh) * 2023-05-16 2023-09-12 北京交通大学 一种用于视觉定位的特征提取模型的训练方法及装置
CN116740488B (zh) * 2023-05-16 2024-01-05 北京交通大学 一种用于视觉定位的特征提取模型的训练方法及装置
CN117671022A (zh) * 2023-11-02 2024-03-08 武汉大学 一种室内弱纹理环境的移动机器人视觉定位系统及方法

Similar Documents

Publication Publication Date Title
CN112435325B (zh) 基于vi-slam和深度估计网络的无人机场景稠密重建方法
CN111968129B (zh) 具有语义感知的即时定位与地图构建系统及方法
CN111862126B (zh) 深度学习与几何算法结合的非合作目标相对位姿估计方法
WO2022111219A1 (zh) 一种域自适应设备运检系统和方法
Chen et al. Convolutional neural network-based place recognition
CN115393603A (zh) 一种动态环境下基于改进SuperPoint的视觉SLAM方法
CN103325112B (zh) 动态场景中运动目标快速检测方法
CN110705344B (zh) 一种基于深度学习的人群计数模型及其实现方法
CN112115783A (zh) 基于深度知识迁移的人脸特征点检测方法、装置及设备
CN113657388B (zh) 一种融合图像超分辨率重建的图像语义分割方法
Nakajima et al. Fast and accurate semantic mapping through geometric-based incremental segmentation
JP7439153B2 (ja) 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み
CN116758130A (zh) 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法
CN109712071A (zh) 基于航迹约束的无人机图像拼接与定位方法
CN113610087B (zh) 一种基于先验超分辨率的图像小目标检测方法及存储介质
CN111160291A (zh) 基于深度信息与cnn的人眼检测方法
CN109657538B (zh) 基于上下文信息指导的场景分割方法和系统
CN115761734A (zh) 基于模板匹配和概率分布的物体位姿估计方法
CN104966274A (zh) 一种采用图像检测与区域提取的局部模糊复原方法
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
Gopal et al. Tiny object detection: Comparative study using single stage CNN object detectors
CN117710806A (zh) 一种基于语义分割和光流的语义视觉slam方法及系统
Li et al. Monocular 3-D Object Detection Based on Depth-Guided Local Convolution for Smart Payment in D2D Systems
CN116703996A (zh) 基于实例级自适应深度估计的单目三维目标检测算法
CN114066750B (zh) 一种基于域变换的自编码器去模糊方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination