CN115700781B

CN115700781B - 一种动态场景下基于图像补绘的视觉定位方法及系统

Info

Publication number: CN115700781B
Application number: CN202211391739.0A
Authority: CN
Inventors: 卢旭; 高翔; 刘军
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-05-05
Anticipated expiration: 2042-11-08
Also published as: CN115700781A

Abstract

本发明涉及一种动态场景下基于图像补绘的视觉定位方法及系统，方法包括以下步骤：S1、构建语义分割网络，对动态场景中的动态因素进行实时分割，生成掩膜图像；S2、将掩膜图像中包含的语义信息划分为低动态元素和高动态元素；S3、保留低动态元素信息，并将该元素信息添加到实时更新列表；S4、按照体型从小到大的顺序对高动态元素进行图像补绘；S5、使用点线特征方法进行实时定位；S6、若低动态元素发生状态信息变化，则更新定位信息。本发明通过使用实时语义分割技术和图像补绘技术的动态场景下的视觉定位方法，有效提高了定位的精度；通过在实时语义分割网络中引入新的轻量级卷积神经网络和新的注意力融合机制，提高了实时语义分割的效率和精度。

Description

一种动态场景下基于图像补绘的视觉定位方法及系统

技术领域

本发明涉及视觉同步定位与建图技术领域，尤其涉及一种动态场景下基于图像补绘的视觉定位方法及系统。

背景技术

近年来，静态环境下的视觉同步定位与建图技术已经较为成熟，但对于动态环境下的视觉同步定位与建图技术还有很大的进步空间。实时语义分割技术在动态环境中开始盛行，但目前的语义分割网络难以在分割精度和轻量化之间掌握平衡。

目前已有的动态环境下的视觉同步定位与建图技术仅将分割后的动态因素予以去除，使得图像中缺少了大量特征信息。面对这种问题，使用图像补绘技术将是一种可靠的方案，图像补绘技术能够将动态因素遮蔽的部分特征信息还原，以提高动态环境下视觉同步定位与建图的精度。

发明内容

为解决现有技术所存在的技术问题，本发明提供一种动态场景下基于图像补绘的视觉定位方法及系统，通过使用实时语义分割技术和图像补绘技术的动态场景下的视觉定位方法，有效提高了定位的精度；通过在实时语义分割网络中引入新的轻量级卷积神经网络和新的注意力融合机制，提高了实时语义分割的效率和精度。

为了达到上述发明目的，本发明采用以下技术方案：

第一方面，本发明提供了一种动态场景下基于图像补绘的视觉定位方法，包括以下步骤：

S1、构建语义分割网络，利用所述语义分割网络对动态场景中的动态因素进行实时分割，生成掩膜图像；所述语义分割网络包括多个语义编码模块，每个语义编码模块包括多个轻量级卷积神经网络，每个语义编码模块都添加一个注意力融合机制；所述轻量级卷积神经网络用于提取高分辨率特征，所述注意力融合机制用于对特征进行校正；

S2、将掩膜图像中包含的语义信息划分为运动频率较低的低动态元素和运动频率较高的高动态元素；

S3、保留低动态元素信息，并将该元素信息添加到实时更新列表；

S4、按照体型从小到大的顺序对高动态元素进行图像补绘；

S5、对补绘后的图像采用点线特征方法进行实时定位，所述点线特征方法是包括点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取；

S6、若实时更新列表中低动态元素发生状态信息变化，则采用所述点线特征方法更新定位信息。

作为优选的技术方案，所述步骤S1的具体过程如下：

S11、将图像张量输入语义分割网络进行语义分割，语义分割网络包含三个语义编码模块，每个语义编码模块都有四个单元的轻量级卷积神经网络ULC-Net，第一个单元的扩张率均为1，第二个单元的扩张率分别为[1,3,6,12]，第三个单元的扩张率分别[3,6,12,24]，第四个单元的扩张率分别为[5,8,16,32]；

S12、设置语义分割网络包含六次3×3卷积块，输入通道数为3，最终输出通道数为128；

S13、将语义编码模块的输出和六次3×3卷积块的输出串联并进行上采样，得到包含语义特征和空间特征的输出特征图；

S14、将每个语义编码模块都添加一个注意力融合机制SCF-AFM，同时计算每个位置语义编码模块的损失。

作为优选的技术方案，所述轻量级卷积神经网络包含以下步骤：

输入特征图通过1×1卷积和3×3卷积后进行通道分割，其中一个通道进行3×1深度卷积和1×3深度卷积，另一个通道进行1×5深度卷积、5×1深度卷积、1×5深度扩张卷积和5×1深度扩张卷积，再将两个通道的卷积结果串联进行1*1卷积，然后与输入特征图相加，再通过通道洗牌后获取包含语义特征的输出特征图。

作为优选的技术方案，所述语义编码模块都添加一个注意力融合机制，该机制包含空间注意力模块和通道注意力模块，具体包含以下步骤：

首先，将输入特征图表示为

其中，H、W和C分别表示高度、宽度和通道尺寸；

其次，对输入特征图I进行1×1卷积得到x，将x输入两个并行的扩张卷积进行处理，得到输出F₀和F₁，将F₀和F₁相乘，并应用softmax得到注意力图F₃；空间注意力的特征图FSA计算公式为：

其中，k_i表示评估第i个位置对当前位置的影响，F_i表示第i个位置的特征图；

通道注意力的特征图FCA计算公式为：

FCA＝Conv(Simgoid(Maxpool(Avgpool(I))))

对空间注意力特征图FSA和通道注意力特征图FCA分别进行1×1卷积，再相加后得到包含空间注意力特征和通道注意力特征的总注意力特征图。

作为优选的技术方案，还包括评估第i个位置对第j个位置的影响步骤，公式表达为：

其中，F_i和F_j表示第i个位置和第j个位置的特征图，输入特征图表示为

作为优选的技术方案，所述语义编码模块的损失计算公式为：

其中，L₁表示输出层损失，L_2i表示注意力融合机制第i位置损失；α表示输出层损失权重，β表示注意力融合机制损失的权重。

作为优选的技术方案，所述步骤S4的具体过程如下：

S41、对高动态元素进行二值化处理，按照体型从小到大进行图像补绘；

S42、根据二值化图像和原图像进行逐点相乘，去除动态因素后输入图像补绘网络，图像补绘网络采用快速傅里叶卷积网络；

S43、快速傅里叶卷积网络，采用局部联系全局上下文的方案，包括卷积核为3×3和5×5的卷积块，以及转换模块。

作为优选的技术方案，所述转换模块包含以下步骤：

将实二维傅里叶变换应用到输入张量，再将复数转为实数，并应用1×1卷积、BN优化和ReLU激活函数；其次，将实数转为复数，然后使用傅里叶逆变换恢复空间结构，最后应用3×3卷积，具体表示如下：

作为优选的技术方案，所述步骤S5中，对补绘后的图像采用点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取，将三种特征融合完成定位，其具体过程如下：

S51、通过使用点线特征方法对补绘后的图像进行特征提取，点特征的提取及匹配方法如下：使用KLT光流追踪算法追踪上一帧图像中的所有点特征，并使用基于基本矩阵模型的RANSAC技术对追踪成功的点特征进行异常值剔除，最后使用Shi-Tomasi角点检测器在图像中提取新的点特征；

S52、线特征的提取及匹配方法如下：使用LSD直线检测器提取线特征，并使用LBD描述符将这些视觉线特征与上一帧图像中的视觉线特征进行匹配，当线特征角度差或中点距离大于给定的阈值，则去除错误匹配的视觉线特征；

S53、地面投影形成的线特征提取方法如下：

其中，H表示上一帧与当前帧之间的单应矩阵，F表示上一帧图像的线特征，C表示相机的内参矩阵，R和P分别表示上一帧坐标系与当前帧坐标系之间的相对旋转与平移，

表示地面平面在上一帧坐标系下的齐次坐标，T表示对该矩阵进行转置。

第二方面，本发明还提了一种动态场景下基于图像补绘的视觉定位系统，应用于所述的基于一种动态场景下基于图像补绘的视觉定位方法，包括构建语义分割网络模块、语义信息划分模块、实时更新列表变更模块、图像补绘模块、实时定位模块以及更新定位信息模块；

所述构建语义分割网络模块，用于构建语义分割网络，利用所述语义分割网络对动态场景中的动态因素进行实时分割，生成掩膜图像；所述语义分割网络包括多个语义编码模块，每个语义编码模块包括多个轻量级卷积神经网络，每个语义编码模块都添加一个注意力融合机制；所述轻量级卷积神经网络用于提取高分辨率特征，所述注意力融合机制用于对特征进行校正；

所述语义信息划分模块，用于对分割出来的语义信息划分为低动态元素和高动态元素；

所述实时更新列表变更模块，用于保留低动态元素信息，并添加低动态元素实时更新标记；

所述图像补绘模块，用于按照体型从小到大的顺序对高动态元素进行图像补绘；

所述实时定位模块，用于对补绘后的图像采用点线特征方法进行实时定位，所述点线特征方法是包括点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取；

所述更新定位信息模块，用于若低动态元素发生状态信息变化，则采用所述点线特征方法更新定位信息。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明通过使用实时语义分割技术和图像补绘技术的动态场景下的视觉定位方法及系统，有效提高了动态环境下定位的精度。

2、本发明通过在实时语义分割网络中引入新的轻量级卷积神经网络和新的注意力融合机制，提高了实时语义分割的效率和精度。

3、本发明所使用的图像补绘网络采用了新的快速傅里叶卷积模块，有效扩大了感受野，提升了图像补绘的精度。

4、本发明通过对动态元素的划分，减小了图像处理过程中对硬件资源的依赖，保证了建图过程中帧率的提升。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明动态场景下基于图像补绘的视觉定位方法流程图；

图2是本发明实时语义分割网络采用的轻量级卷积神经网络ULC-Net结构图；

图3是本发明实时语义分割网络采用的注意力融合机制SCF-AFM结构图；

图4是本发明图像补绘网络采用的快速傅里叶卷积网络结构图；

图5是本发明一种动态场景下基于图像补绘的视觉定位系统方框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

如图1所示，本实施例提供了一种动态场景下基于图像补绘的视觉定位方法，包括以下步骤：

S4、按照体型从小到大的顺序对高动态元素进行图像补绘；

S6、若低动态元素发生状态信息变化，则采用所述点线特征方法更新定位信息。

具体地，本实施例中，步骤S1的具体过程如下：

S11、将图像张量输入语义分割网络进行语义分割，语义分割网络包含三个语义编码模块，每个模块都有四个单元的轻量级卷积神经网络ULC-Net，第一个单元的扩张率均为1，第二个单元的扩张率分别为[1,3,6,12]，第三个单元的扩张率分别

[3,6,12,24]，第四个单元的扩张率分别为[5,8,16,32]；

如图2所示，本实施例中，语义分割网络中采用的轻量级卷积神经网络ULC-Net，该网络包含以下步骤：输入特征图通过1×1卷积和3×3卷积后进行通道分割，其中一个通道进行3×1深度卷积和1×3深度卷积，另一个通道进行1×5深度卷积、5×1深度卷积、1×5深度扩张卷积和5×1深度扩张卷积，再将两个通道串联进行1*1卷积，然后与输入特征图相加，再通过通道洗牌后获取包含语义特征的输出特征图。

如图3所示，本实施例中，语义分割网络中采用的一种注意力融合机制SCF-AFM，该机制包含空间注意力模块和通道注意力模块，具体包含以下步骤：

首先，将输入特征图表示为

其中，H、W和C分别表示高度、宽度和通道尺寸；

其次，对输入特征图I进行1×1卷积得到x，x输入两个并行的扩张卷积进行处理，得到输出F₀和F₁，将F₀和F₁相乘，并应用softmax得到注意力图F₃；空间注意力的特征图公式如下所示：

通道注意力的特征图公式如下所示：

FCA＝Conv(Simgoid(Maxpool(Avgpool(I))))

对空间注意力特征图FSA和通道注意力特征图FCA分别进行1×1卷积，再相加后得到总注意力特征图。

具体地，本实施例中，评估第i个位置对第j个位置的影响公式如下所示：

具体地，本实施例中，每个位置语义编码模块的损失计算公式如下所示：

本实施例中，步骤S2中低动态元素可以包含椅子、桌子等运动频率较低的物体，高动态元素可以包含人、宠物等运动频率较高的物体。

如图4所示，本实施例中，步骤S4的具体过程如下：

S41、对高动态元素进行二值化处理，优先对宠物等体型较小的元素进行图像补绘，其次对人等体型较大的元素进行图像补绘；

具体地，转换模块包含以下步骤：首先将实二维傅里叶变换应用到输入张量，再将复数转为实数，并应用1×1卷积、BN优化和ReLU激活函数，其次，将实数转为复数，然后使用傅里叶逆变换恢复空间结构，最后应用3×3卷积，具体表示如下：

具体地，本实施例中，步骤S5中对补绘后的图像直接进行点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取，将三种特征融合即可完成定位，其具体过程如下：

S53、地面投影形成的线特征提取方法如下：

具体地，本实施例中，若低动态元素发生状态变化，则按照步骤S5中的点线特征方法重新更新定位信息。

本发明通过采用实时语义分割技术和图像补绘技术，使用CamVid和Cityscapes数据集对语义分割网络进行验证，两种数据集的训练集用于语义分割网络的训练过程，再对测试集进行预测，比较平均交并比和参数量；最后使用TUM数据集进行最后的补绘和定位，并与实际位置相比较，以完成定位效果验证。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的一种动态场景下基于图像补绘的视觉定位方法相同的思想，本发明还提供了一种动态场景下基于图像补绘的视觉定位系统，该系统可用于执行上述基于一种动态场景下基于图像补绘的视觉定位方法。为了便于说明，一种动态场景下基于图像补绘的视觉定位系统实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

请参阅图5，在本申请的另一个实施例中，提供了一种动态场景下基于图像补绘的视觉定位系统100，该系统包括构建语义分割网络模块101、语义信息划分模块102、实时更新列表变更模块103、图像补绘模块104、实时定位模块105以及更新定位信息模块106；

所述构建语义分割网络模块101，用于构建语义分割网络，利用所述语义分割网络对动态场景中的动态因素进行实时分割，生成掩膜图像；所述语义分割网络包括多个语义编码模块，每个语义编码模块包括多个轻量级卷积神经网络，每个语义编码模块都添加一个注意力融合机制；所述轻量级卷积神经网络用于提取高分辨率特征，所述注意力融合机制用于对特征进行校正；

所述语义信息划分模块102，将掩膜图像中包含的语义信息划分为低动态元素和高动态元素；

所述实时更新列表变更模块103，用于保留低动态元素信息，并将该元素信息添加到实时更新列表；

所述图像补绘模块104，用于按照体型从小到大的顺序对高动态元素进行图像补绘；

所述实时定位模块105，用于对补绘后的图像采用点线特征方法进行实时定位，所述点线特征方法是包括点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取；

所述更新定位信息模块106，用于若低动态元素发生状态信息变化，则采用所述点线特征方法更新定位信息。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchl ink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种动态场景下基于图像补绘的视觉定位方法，其特征在于，包括以下步骤：

S1、构建语义分割网络，利用所述语义分割网络对动态场景中的动态因素进行实时分割，生成掩膜图像；所述语义分割网络包括多个语义编码模块，每个语义编码模块包括多个轻量级卷积神经网络，每个语义编码模块都添加一个注意力融合机制；所述轻量级卷积神经网络用于提取高分辨率特征，所述注意力融合机制用于对特征进行校正；所述轻量级卷积神经网络包含以下步骤：

输入特征图通过1×1卷积和3×3卷积后进行通道分割，其中一个通道进行3×1深度卷积和1×3深度卷积，另一个通道进行1×5深度卷积、5×1深度卷积、1×5深度扩张卷积和5×1深度扩张卷积，再将两个通道的卷积结果串联进行1*1卷积，然后与输入特征图相加，再通过通道洗牌后获取包含语义特征的输出特征图；

所述语义编码模块都添加一个注意力融合机制，该机制包含空间注意力模块和通道注意力模块，具体包含以下步骤：

首先，将输入特征图表示为

其中，H、W和C分别表示高度、宽度和通道尺寸；

通道注意力的特征图FCA计算公式为：

FCA＝Conv(Simgoid(Maxpool(Avgpool(I))))

对空间注意力特征图FSA和通道注意力特征图FCA分别进行1×1卷积，再相加后得到包含空间注意力特征和通道注意力特征的总注意力特征图；

S4、按照体型从小到大的顺序对高动态元素进行图像补绘；所述步骤S4的具体过程如下：

S43、快速傅里叶卷积网络，采用局部联系全局上下文的方案，包括卷积核为3×3和5×5的卷积块，以及转换模块；

2.根据权利要求1所述的一种动态场景下基于图像补绘的视觉定位方法，其特征在于，所述步骤S1的具体过程如下：

3.根据权利要求1所述的一种动态场景下基于图像补绘的视觉定位方法，其特征在于，还包括评估第i个位置对第j个位置的影响步骤，公式表达为：

4.根据权利要求2所述的一种动态场景下基于图像补绘的视觉定位方法，其特征在于，所述语义编码模块的损失计算公式为：

5.根据权利要求1所述的一种动态场景下基于图像补绘的视觉定位方法，其特征在于，所述转换模块包含以下步骤：

6.根据权利要求1所述的一种动态场景下基于图像补绘的视觉定位方法，其特征在于，所述步骤S5中对补绘后的图像采用点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取，将三种特征融合完成定位，其具体过程如下：

S51、通过使用点线特征方法对补绘后的图像进行特征提取，点特征的提取及匹配方法如下：使用KLT光流追踪算法追踪上一帧图像中的所有点特征，并使用基于基本矩阵模型的RANSAC技术对追踪成功的点特征进行异常值剔除，最后使用Shi-Tomas i角点检测器在图像中提取新的点特征；

S53、地面投影形成的线特征提取方法如下：

7.一种动态场景下基于图像补绘的视觉定位系统，其特征在于，应用于权利要求1-6中任一项所述的基于一种动态场景下基于图像补绘的视觉定位方法，包括构建语义分割网络模块、语义信息划分模块、实时更新列表变更模块、图像补绘模块、实时定位模块以及更新定位信息模块；