CN115700781B - 一种动态场景下基于图像补绘的视觉定位方法及系统 - Google Patents

一种动态场景下基于图像补绘的视觉定位方法及系统 Download PDF

Info

Publication number
CN115700781B
CN115700781B CN202211391739.0A CN202211391739A CN115700781B CN 115700781 B CN115700781 B CN 115700781B CN 202211391739 A CN202211391739 A CN 202211391739A CN 115700781 B CN115700781 B CN 115700781B
Authority
CN
China
Prior art keywords
image
dynamic
semantic
convolution
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211391739.0A
Other languages
English (en)
Other versions
CN115700781A (zh
Inventor
卢旭
高翔
刘军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202211391739.0A priority Critical patent/CN115700781B/zh
Publication of CN115700781A publication Critical patent/CN115700781A/zh
Application granted granted Critical
Publication of CN115700781B publication Critical patent/CN115700781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及一种动态场景下基于图像补绘的视觉定位方法及系统,方法包括以下步骤:S1、构建语义分割网络,对动态场景中的动态因素进行实时分割,生成掩膜图像;S2、将掩膜图像中包含的语义信息划分为低动态元素和高动态元素;S3、保留低动态元素信息,并将该元素信息添加到实时更新列表;S4、按照体型从小到大的顺序对高动态元素进行图像补绘;S5、使用点线特征方法进行实时定位;S6、若低动态元素发生状态信息变化,则更新定位信息。本发明通过使用实时语义分割技术和图像补绘技术的动态场景下的视觉定位方法,有效提高了定位的精度;通过在实时语义分割网络中引入新的轻量级卷积神经网络和新的注意力融合机制,提高了实时语义分割的效率和精度。

Description

一种动态场景下基于图像补绘的视觉定位方法及系统
技术领域
本发明涉及视觉同步定位与建图技术领域,尤其涉及一种动态场景下基于图像补绘的视觉定位方法及系统。
背景技术
近年来,静态环境下的视觉同步定位与建图技术已经较为成熟,但对于动态环境下的视觉同步定位与建图技术还有很大的进步空间。实时语义分割技术在动态环境中开始盛行,但目前的语义分割网络难以在分割精度和轻量化之间掌握平衡。
目前已有的动态环境下的视觉同步定位与建图技术仅将分割后的动态因素予以去除,使得图像中缺少了大量特征信息。面对这种问题,使用图像补绘技术将是一种可靠的方案,图像补绘技术能够将动态因素遮蔽的部分特征信息还原,以提高动态环境下视觉同步定位与建图的精度。
发明内容
为解决现有技术所存在的技术问题,本发明提供一种动态场景下基于图像补绘的视觉定位方法及系统,通过使用实时语义分割技术和图像补绘技术的动态场景下的视觉定位方法,有效提高了定位的精度;通过在实时语义分割网络中引入新的轻量级卷积神经网络和新的注意力融合机制,提高了实时语义分割的效率和精度。
为了达到上述发明目的,本发明采用以下技术方案:
第一方面,本发明提供了一种动态场景下基于图像补绘的视觉定位方法,包括以下步骤:
S1、构建语义分割网络,利用所述语义分割网络对动态场景中的动态因素进行实时分割,生成掩膜图像;所述语义分割网络包括多个语义编码模块,每个语义编码模块包括多个轻量级卷积神经网络,每个语义编码模块都添加一个注意力融合机制;所述轻量级卷积神经网络用于提取高分辨率特征,所述注意力融合机制用于对特征进行校正;
S2、将掩膜图像中包含的语义信息划分为运动频率较低的低动态元素和运动频率较高的高动态元素;
S3、保留低动态元素信息,并将该元素信息添加到实时更新列表;
S4、按照体型从小到大的顺序对高动态元素进行图像补绘;
S5、对补绘后的图像采用点线特征方法进行实时定位,所述点线特征方法是包括点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取;
S6、若实时更新列表中低动态元素发生状态信息变化,则采用所述点线特征方法更新定位信息。
作为优选的技术方案,所述步骤S1的具体过程如下:
S11、将图像张量输入语义分割网络进行语义分割,语义分割网络包含三个语义编码模块,每个语义编码模块都有四个单元的轻量级卷积神经网络ULC-Net,第一个单元的扩张率均为1,第二个单元的扩张率分别为[1,3,6,12],第三个单元的扩张率分别[3,6,12,24],第四个单元的扩张率分别为[5,8,16,32];
S12、设置语义分割网络包含六次3×3卷积块,输入通道数为3,最终输出通道数为128;
S13、将语义编码模块的输出和六次3×3卷积块的输出串联并进行上采样,得到包含语义特征和空间特征的输出特征图;
S14、将每个语义编码模块都添加一个注意力融合机制SCF-AFM,同时计算每个位置语义编码模块的损失。
作为优选的技术方案,所述轻量级卷积神经网络包含以下步骤:
输入特征图通过1×1卷积和3×3卷积后进行通道分割,其中一个通道进行3×1深度卷积和1×3深度卷积,另一个通道进行1×5深度卷积、5×1深度卷积、1×5深度扩张卷积和5×1深度扩张卷积,再将两个通道的卷积结果串联进行1*1卷积,然后与输入特征图相加,再通过通道洗牌后获取包含语义特征的输出特征图。
作为优选的技术方案,所述语义编码模块都添加一个注意力融合机制,该机制包含空间注意力模块和通道注意力模块,具体包含以下步骤:
首先,将输入特征图表示为
Figure BDA0003932070310000021
其中,H、W和C分别表示高度、宽度和通道尺寸;
其次,对输入特征图I进行1×1卷积得到x,将x输入两个并行的扩张卷积进行处理,得到输出F0和F1,将F0和F1相乘,并应用softmax得到注意力图F3;空间注意力的特征图FSA计算公式为:
Figure BDA0003932070310000022
其中,ki表示评估第i个位置对当前位置的影响,Fi表示第i个位置的特征图;
通道注意力的特征图FCA计算公式为:
FCA=Conv(Simgoid(Maxpool(Avgpool(I))))
对空间注意力特征图FSA和通道注意力特征图FCA分别进行1×1卷积,再相加后得到包含空间注意力特征和通道注意力特征的总注意力特征图。
作为优选的技术方案,还包括评估第i个位置对第j个位置的影响步骤,公式表达为:
Figure BDA0003932070310000031
其中,Fi和Fj表示第i个位置和第j个位置的特征图,输入特征图表示为
Figure BDA0003932070310000032
作为优选的技术方案,所述语义编码模块的损失计算公式为:
Figure BDA0003932070310000033
其中,L1表示输出层损失,L2i表示注意力融合机制第i位置损失;α表示输出层损失权重,β表示注意力融合机制损失的权重。
作为优选的技术方案,所述步骤S4的具体过程如下:
S41、对高动态元素进行二值化处理,按照体型从小到大进行图像补绘;
S42、根据二值化图像和原图像进行逐点相乘,去除动态因素后输入图像补绘网络,图像补绘网络采用快速傅里叶卷积网络;
S43、快速傅里叶卷积网络,采用局部联系全局上下文的方案,包括卷积核为3×3和5×5的卷积块,以及转换模块。
作为优选的技术方案,所述转换模块包含以下步骤:
将实二维傅里叶变换应用到输入张量,再将复数转为实数,并应用1×1卷积、BN优化和ReLU激活函数;其次,将实数转为复数,然后使用傅里叶逆变换恢复空间结构,最后应用3×3卷积,具体表示如下:
Figure BDA0003932070310000041
作为优选的技术方案,所述步骤S5中,对补绘后的图像采用点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取,将三种特征融合完成定位,其具体过程如下:
S51、通过使用点线特征方法对补绘后的图像进行特征提取,点特征的提取及匹配方法如下:使用KLT光流追踪算法追踪上一帧图像中的所有点特征,并使用基于基本矩阵模型的RANSAC技术对追踪成功的点特征进行异常值剔除,最后使用Shi-Tomasi角点检测器在图像中提取新的点特征;
S52、线特征的提取及匹配方法如下:使用LSD直线检测器提取线特征,并使用LBD描述符将这些视觉线特征与上一帧图像中的视觉线特征进行匹配,当线特征角度差或中点距离大于给定的阈值,则去除错误匹配的视觉线特征;
S53、地面投影形成的线特征提取方法如下:
Figure BDA0003932070310000042
其中,H表示上一帧与当前帧之间的单应矩阵,F表示上一帧图像的线特征,C表示相机的内参矩阵,R和P分别表示上一帧坐标系与当前帧坐标系之间的相对旋转与平移,
Figure BDA0003932070310000043
表示地面平面在上一帧坐标系下的齐次坐标,T表示对该矩阵进行转置。
第二方面,本发明还提了一种动态场景下基于图像补绘的视觉定位系统,应用于所述的基于一种动态场景下基于图像补绘的视觉定位方法,包括构建语义分割网络模块、语义信息划分模块、实时更新列表变更模块、图像补绘模块、实时定位模块以及更新定位信息模块;
所述构建语义分割网络模块,用于构建语义分割网络,利用所述语义分割网络对动态场景中的动态因素进行实时分割,生成掩膜图像;所述语义分割网络包括多个语义编码模块,每个语义编码模块包括多个轻量级卷积神经网络,每个语义编码模块都添加一个注意力融合机制;所述轻量级卷积神经网络用于提取高分辨率特征,所述注意力融合机制用于对特征进行校正;
所述语义信息划分模块,用于对分割出来的语义信息划分为低动态元素和高动态元素;
所述实时更新列表变更模块,用于保留低动态元素信息,并添加低动态元素实时更新标记;
所述图像补绘模块,用于按照体型从小到大的顺序对高动态元素进行图像补绘;
所述实时定位模块,用于对补绘后的图像采用点线特征方法进行实时定位,所述点线特征方法是包括点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取;
所述更新定位信息模块,用于若低动态元素发生状态信息变化,则采用所述点线特征方法更新定位信息。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明通过使用实时语义分割技术和图像补绘技术的动态场景下的视觉定位方法及系统,有效提高了动态环境下定位的精度。
2、本发明通过在实时语义分割网络中引入新的轻量级卷积神经网络和新的注意力融合机制,提高了实时语义分割的效率和精度。
3、本发明所使用的图像补绘网络采用了新的快速傅里叶卷积模块,有效扩大了感受野,提升了图像补绘的精度。
4、本发明通过对动态元素的划分,减小了图像处理过程中对硬件资源的依赖,保证了建图过程中帧率的提升。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明动态场景下基于图像补绘的视觉定位方法流程图;
图2是本发明实时语义分割网络采用的轻量级卷积神经网络ULC-Net结构图;
图3是本发明实时语义分割网络采用的注意力融合机制SCF-AFM结构图;
图4是本发明图像补绘网络采用的快速傅里叶卷积网络结构图;
图5是本发明一种动态场景下基于图像补绘的视觉定位系统方框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
如图1所示,本实施例提供了一种动态场景下基于图像补绘的视觉定位方法,包括以下步骤:
S1、构建语义分割网络,利用所述语义分割网络对动态场景中的动态因素进行实时分割,生成掩膜图像;所述语义分割网络包括多个语义编码模块,每个语义编码模块包括多个轻量级卷积神经网络,每个语义编码模块都添加一个注意力融合机制;所述轻量级卷积神经网络用于提取高分辨率特征,所述注意力融合机制用于对特征进行校正;
S2、将掩膜图像中包含的语义信息划分为运动频率较低的低动态元素和运动频率较高的高动态元素;
S3、保留低动态元素信息,并将该元素信息添加到实时更新列表;
S4、按照体型从小到大的顺序对高动态元素进行图像补绘;
S5、对补绘后的图像采用点线特征方法进行实时定位,所述点线特征方法是包括点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取;
S6、若低动态元素发生状态信息变化,则采用所述点线特征方法更新定位信息。
具体地,本实施例中,步骤S1的具体过程如下:
S11、将图像张量输入语义分割网络进行语义分割,语义分割网络包含三个语义编码模块,每个模块都有四个单元的轻量级卷积神经网络ULC-Net,第一个单元的扩张率均为1,第二个单元的扩张率分别为[1,3,6,12],第三个单元的扩张率分别
[3,6,12,24],第四个单元的扩张率分别为[5,8,16,32];
S12、设置语义分割网络包含六次3×3卷积块,输入通道数为3,最终输出通道数为128;
S13、将语义编码模块的输出和六次3×3卷积块的输出串联并进行上采样,得到包含语义特征和空间特征的输出特征图;
S14、将每个语义编码模块都添加一个注意力融合机制SCF-AFM,同时计算每个位置语义编码模块的损失。
如图2所示,本实施例中,语义分割网络中采用的轻量级卷积神经网络ULC-Net,该网络包含以下步骤:输入特征图通过1×1卷积和3×3卷积后进行通道分割,其中一个通道进行3×1深度卷积和1×3深度卷积,另一个通道进行1×5深度卷积、5×1深度卷积、1×5深度扩张卷积和5×1深度扩张卷积,再将两个通道串联进行1*1卷积,然后与输入特征图相加,再通过通道洗牌后获取包含语义特征的输出特征图。
如图3所示,本实施例中,语义分割网络中采用的一种注意力融合机制SCF-AFM,该机制包含空间注意力模块和通道注意力模块,具体包含以下步骤:
首先,将输入特征图表示为
Figure BDA0003932070310000071
其中,H、W和C分别表示高度、宽度和通道尺寸;
其次,对输入特征图I进行1×1卷积得到x,x输入两个并行的扩张卷积进行处理,得到输出F0和F1,将F0和F1相乘,并应用softmax得到注意力图F3;空间注意力的特征图公式如下所示:
Figure BDA0003932070310000072
其中,ki表示评估第i个位置对当前位置的影响,Fi表示第i个位置的特征图;
通道注意力的特征图公式如下所示:
FCA=Conv(Simgoid(Maxpool(Avgpool(I))))
对空间注意力特征图FSA和通道注意力特征图FCA分别进行1×1卷积,再相加后得到总注意力特征图。
具体地,本实施例中,评估第i个位置对第j个位置的影响公式如下所示:
Figure BDA0003932070310000073
其中,Fi和Fj表示第i个位置和第j个位置的特征图,输入特征图表示为
Figure BDA0003932070310000081
具体地,本实施例中,每个位置语义编码模块的损失计算公式如下所示:
Figure BDA0003932070310000082
其中,L1表示输出层损失,L2i表示注意力融合机制第i位置损失;α表示输出层损失权重,β表示注意力融合机制损失的权重。
本实施例中,步骤S2中低动态元素可以包含椅子、桌子等运动频率较低的物体,高动态元素可以包含人、宠物等运动频率较高的物体。
如图4所示,本实施例中,步骤S4的具体过程如下:
S41、对高动态元素进行二值化处理,优先对宠物等体型较小的元素进行图像补绘,其次对人等体型较大的元素进行图像补绘;
S42、根据二值化图像和原图像进行逐点相乘,去除动态因素后输入图像补绘网络,图像补绘网络采用快速傅里叶卷积网络;
S43、快速傅里叶卷积网络,采用局部联系全局上下文的方案,包括卷积核为3×3和5×5的卷积块,以及转换模块。
具体地,转换模块包含以下步骤:首先将实二维傅里叶变换应用到输入张量,再将复数转为实数,并应用1×1卷积、BN优化和ReLU激活函数,其次,将实数转为复数,然后使用傅里叶逆变换恢复空间结构,最后应用3×3卷积,具体表示如下:
Figure BDA0003932070310000083
具体地,本实施例中,步骤S5中对补绘后的图像直接进行点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取,将三种特征融合即可完成定位,其具体过程如下:
S51、通过使用点线特征方法对补绘后的图像进行特征提取,点特征的提取及匹配方法如下:使用KLT光流追踪算法追踪上一帧图像中的所有点特征,并使用基于基本矩阵模型的RANSAC技术对追踪成功的点特征进行异常值剔除,最后使用Shi-Tomasi角点检测器在图像中提取新的点特征;
S52、线特征的提取及匹配方法如下:使用LSD直线检测器提取线特征,并使用LBD描述符将这些视觉线特征与上一帧图像中的视觉线特征进行匹配,当线特征角度差或中点距离大于给定的阈值,则去除错误匹配的视觉线特征;
S53、地面投影形成的线特征提取方法如下:
Figure BDA0003932070310000091
其中,H表示上一帧与当前帧之间的单应矩阵,F表示上一帧图像的线特征,C表示相机的内参矩阵,R和P分别表示上一帧坐标系与当前帧坐标系之间的相对旋转与平移,
Figure BDA0003932070310000092
表示地面平面在上一帧坐标系下的齐次坐标,T表示对该矩阵进行转置。
具体地,本实施例中,若低动态元素发生状态变化,则按照步骤S5中的点线特征方法重新更新定位信息。
本发明通过采用实时语义分割技术和图像补绘技术,使用CamVid和Cityscapes数据集对语义分割网络进行验证,两种数据集的训练集用于语义分割网络的训练过程,再对测试集进行预测,比较平均交并比和参数量;最后使用TUM数据集进行最后的补绘和定位,并与实际位置相比较,以完成定位效果验证。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
基于与上述实施例中的一种动态场景下基于图像补绘的视觉定位方法相同的思想,本发明还提供了一种动态场景下基于图像补绘的视觉定位系统,该系统可用于执行上述基于一种动态场景下基于图像补绘的视觉定位方法。为了便于说明,一种动态场景下基于图像补绘的视觉定位系统实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
请参阅图5,在本申请的另一个实施例中,提供了一种动态场景下基于图像补绘的视觉定位系统100,该系统包括构建语义分割网络模块101、语义信息划分模块102、实时更新列表变更模块103、图像补绘模块104、实时定位模块105以及更新定位信息模块106;
所述构建语义分割网络模块101,用于构建语义分割网络,利用所述语义分割网络对动态场景中的动态因素进行实时分割,生成掩膜图像;所述语义分割网络包括多个语义编码模块,每个语义编码模块包括多个轻量级卷积神经网络,每个语义编码模块都添加一个注意力融合机制;所述轻量级卷积神经网络用于提取高分辨率特征,所述注意力融合机制用于对特征进行校正;
所述语义信息划分模块102,将掩膜图像中包含的语义信息划分为低动态元素和高动态元素;
所述实时更新列表变更模块103,用于保留低动态元素信息,并将该元素信息添加到实时更新列表;
所述图像补绘模块104,用于按照体型从小到大的顺序对高动态元素进行图像补绘;
所述实时定位模块105,用于对补绘后的图像采用点线特征方法进行实时定位,所述点线特征方法是包括点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取;
所述更新定位信息模块106,用于若低动态元素发生状态信息变化,则采用所述点线特征方法更新定位信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchl ink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种动态场景下基于图像补绘的视觉定位方法,其特征在于,包括以下步骤:
S1、构建语义分割网络,利用所述语义分割网络对动态场景中的动态因素进行实时分割,生成掩膜图像;所述语义分割网络包括多个语义编码模块,每个语义编码模块包括多个轻量级卷积神经网络,每个语义编码模块都添加一个注意力融合机制;所述轻量级卷积神经网络用于提取高分辨率特征,所述注意力融合机制用于对特征进行校正;所述轻量级卷积神经网络包含以下步骤:
输入特征图通过1×1卷积和3×3卷积后进行通道分割,其中一个通道进行3×1深度卷积和1×3深度卷积,另一个通道进行1×5深度卷积、5×1深度卷积、1×5深度扩张卷积和5×1深度扩张卷积,再将两个通道的卷积结果串联进行1*1卷积,然后与输入特征图相加,再通过通道洗牌后获取包含语义特征的输出特征图;
所述语义编码模块都添加一个注意力融合机制,该机制包含空间注意力模块和通道注意力模块,具体包含以下步骤:
首先,将输入特征图表示为
Figure FDA0004148020920000011
其中,H、W和C分别表示高度、宽度和通道尺寸;
其次,对输入特征图I进行1×1卷积得到x,将x输入两个并行的扩张卷积进行处理,得到输出F0和F1,将F0和F1相乘,并应用softmax得到注意力图F3;空间注意力的特征图FSA计算公式为:
Figure FDA0004148020920000012
其中,ki表示评估第i个位置对当前位置的影响,Fi表示第i个位置的特征图;
通道注意力的特征图FCA计算公式为:
FCA=Conv(Simgoid(Maxpool(Avgpool(I))))
对空间注意力特征图FSA和通道注意力特征图FCA分别进行1×1卷积,再相加后得到包含空间注意力特征和通道注意力特征的总注意力特征图;
S2、将掩膜图像中包含的语义信息划分为运动频率较低的低动态元素和运动频率较高的高动态元素;
S3、保留低动态元素信息,并将该元素信息添加到实时更新列表;
S4、按照体型从小到大的顺序对高动态元素进行图像补绘;所述步骤S4的具体过程如下:
S41、对高动态元素进行二值化处理,按照体型从小到大进行图像补绘;
S42、根据二值化图像和原图像进行逐点相乘,去除动态因素后输入图像补绘网络,图像补绘网络采用快速傅里叶卷积网络;
S43、快速傅里叶卷积网络,采用局部联系全局上下文的方案,包括卷积核为3×3和5×5的卷积块,以及转换模块;
S5、对补绘后的图像采用点线特征方法进行实时定位,所述点线特征方法是包括点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取;
S6、若实时更新列表中低动态元素发生状态信息变化,则采用所述点线特征方法更新定位信息。
2.根据权利要求1所述的一种动态场景下基于图像补绘的视觉定位方法,其特征在于,所述步骤S1的具体过程如下:
S11、将图像张量输入语义分割网络进行语义分割,语义分割网络包含三个语义编码模块,每个语义编码模块都有四个单元的轻量级卷积神经网络ULC-Net,第一个单元的扩张率均为1,第二个单元的扩张率分别为[1,3,6,12],第三个单元的扩张率分别[3,6,12,24],第四个单元的扩张率分别为[5,8,16,32];
S12、设置语义分割网络包含六次3×3卷积块,输入通道数为3,最终输出通道数为128;
S13、将语义编码模块的输出和六次3×3卷积块的输出串联并进行上采样,得到包含语义特征和空间特征的输出特征图;
S14、将每个语义编码模块都添加一个注意力融合机制SCF-AFM,同时计算每个位置语义编码模块的损失。
3.根据权利要求1所述的一种动态场景下基于图像补绘的视觉定位方法,其特征在于,还包括评估第i个位置对第j个位置的影响步骤,公式表达为:
Figure FDA0004148020920000021
其中,Fi和Fj表示第i个位置和第j个位置的特征图,输入特征图表示为
Figure FDA0004148020920000022
4.根据权利要求2所述的一种动态场景下基于图像补绘的视觉定位方法,其特征在于,所述语义编码模块的损失计算公式为:
Figure FDA0004148020920000023
其中,L1表示输出层损失,L2i表示注意力融合机制第i位置损失;α表示输出层损失权重,β表示注意力融合机制损失的权重。
5.根据权利要求1所述的一种动态场景下基于图像补绘的视觉定位方法,其特征在于,所述转换模块包含以下步骤:
将实二维傅里叶变换应用到输入张量,再将复数转为实数,并应用1×1卷积、BN优化和ReLU激活函数;其次,将实数转为复数,然后使用傅里叶逆变换恢复空间结构,最后应用3×3卷积,具体表示如下:
Figure FDA0004148020920000031
6.根据权利要求1所述的一种动态场景下基于图像补绘的视觉定位方法,其特征在于,所述步骤S5中对补绘后的图像采用点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取,将三种特征融合完成定位,其具体过程如下:
S51、通过使用点线特征方法对补绘后的图像进行特征提取,点特征的提取及匹配方法如下:使用KLT光流追踪算法追踪上一帧图像中的所有点特征,并使用基于基本矩阵模型的RANSAC技术对追踪成功的点特征进行异常值剔除,最后使用Shi-Tomas i角点检测器在图像中提取新的点特征;
S52、线特征的提取及匹配方法如下:使用LSD直线检测器提取线特征,并使用LBD描述符将这些视觉线特征与上一帧图像中的视觉线特征进行匹配,当线特征角度差或中点距离大于给定的阈值,则去除错误匹配的视觉线特征;
S53、地面投影形成的线特征提取方法如下:
Figure FDA0004148020920000032
其中,H表示上一帧与当前帧之间的单应矩阵,F表示上一帧图像的线特征,C表示相机的内参矩阵,R和P分别表示上一帧坐标系与当前帧坐标系之间的相对旋转与平移,
Figure FDA0004148020920000033
表示地面平面在上一帧坐标系下的齐次坐标,T表示对该矩阵进行转置。
7.一种动态场景下基于图像补绘的视觉定位系统,其特征在于,应用于权利要求1-6中任一项所述的基于一种动态场景下基于图像补绘的视觉定位方法,包括构建语义分割网络模块、语义信息划分模块、实时更新列表变更模块、图像补绘模块、实时定位模块以及更新定位信息模块;
所述构建语义分割网络模块,用于构建语义分割网络,利用所述语义分割网络对动态场景中的动态因素进行实时分割,生成掩膜图像;所述语义分割网络包括多个语义编码模块,每个语义编码模块包括多个轻量级卷积神经网络,每个语义编码模块都添加一个注意力融合机制;所述轻量级卷积神经网络用于提取高分辨率特征,所述注意力融合机制用于对特征进行校正;
所述语义信息划分模块,用于对分割出来的语义信息划分为低动态元素和高动态元素;
所述实时更新列表变更模块,用于保留低动态元素信息,并添加低动态元素实时更新标记;
所述图像补绘模块,用于按照体型从小到大的顺序对高动态元素进行图像补绘;
所述实时定位模块,用于对补绘后的图像采用点线特征方法进行实时定位,所述点线特征方法是包括点特征提取及匹配、线特征提取及匹配和地面投影形成的线特征提取;
所述更新定位信息模块,用于若低动态元素发生状态信息变化,则采用所述点线特征方法更新定位信息。
CN202211391739.0A 2022-11-08 2022-11-08 一种动态场景下基于图像补绘的视觉定位方法及系统 Active CN115700781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211391739.0A CN115700781B (zh) 2022-11-08 2022-11-08 一种动态场景下基于图像补绘的视觉定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211391739.0A CN115700781B (zh) 2022-11-08 2022-11-08 一种动态场景下基于图像补绘的视觉定位方法及系统

Publications (2)

Publication Number Publication Date
CN115700781A CN115700781A (zh) 2023-02-07
CN115700781B true CN115700781B (zh) 2023-05-05

Family

ID=85121098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211391739.0A Active CN115700781B (zh) 2022-11-08 2022-11-08 一种动态场景下基于图像补绘的视觉定位方法及系统

Country Status (1)

Country Link
CN (1) CN115700781B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112802197A (zh) * 2021-03-19 2021-05-14 浙江农林大学 动态场景下基于全卷积神经网络的视觉slam方法及系统
CN114638794A (zh) * 2022-03-04 2022-06-17 南京理工大学 基于深度学习和slam技术的裂缝检测与三维定位方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11361470B2 (en) * 2019-05-09 2022-06-14 Sri International Semantically-aware image-based visual localization
KR102225024B1 (ko) * 2019-10-24 2021-03-08 연세대학교 산학협력단 이미지 채움 장치 및 방법
US11727587B2 (en) * 2019-11-12 2023-08-15 Geomagical Labs, Inc. Method and system for scene image modification
CN111696118B (zh) * 2020-05-25 2022-11-15 东南大学 动态场景下基于语义分割与图像修复的视觉回环检测方法
CN112734845B (zh) * 2021-01-08 2022-07-08 浙江大学 一种融合场景语义的室外单目同步建图与定位方法
CN112967218B (zh) * 2021-03-15 2022-03-18 复旦大学 一种基于线框和边缘结构的多尺度图像修复系统
CN112991447B (zh) * 2021-03-16 2024-04-05 华东理工大学 一种动态环境下视觉定位与静态地图构建方法及系统
CN113837233B (zh) * 2021-08-30 2023-11-17 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
CN114170422A (zh) * 2021-10-26 2022-03-11 煤炭科学研究总院 一种煤矿井下图像语义分割方法
CN114937083B (zh) * 2022-05-27 2024-04-02 山东大学 一种应用于动态环境的激光slam系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112802197A (zh) * 2021-03-19 2021-05-14 浙江农林大学 动态场景下基于全卷积神经网络的视觉slam方法及系统
CN114638794A (zh) * 2022-03-04 2022-06-17 南京理工大学 基于深度学习和slam技术的裂缝检测与三维定位方法

Also Published As

Publication number Publication date
CN115700781A (zh) 2023-02-07

Similar Documents

Publication Publication Date Title
CN114782691B (zh) 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备
CN110516541B (zh) 文本定位方法、装置、计算机可读存储介质和计算机设备
CN111696110B (zh) 场景分割方法及系统
CN109029363A (zh) 一种基于深度学习的目标测距方法
CN111161306B (zh) 一种基于运动注意力的视频目标分割方法
CN113421276B (zh) 一种图像处理方法、装置及存储介质
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN113095254B (zh) 一种人体部位关键点的定位方法及系统
CN113724379B (zh) 融合图像与激光点云的三维重建方法及装置
CN113808251B (zh) 一种基于语义分割的稠密重建的方法、系统、装置和介质
CN112802197A (zh) 动态场景下基于全卷积神经网络的视觉slam方法及系统
CN116310095A (zh) 一种基于深度学习的多视图三维重建方法
CN114048845B (zh) 点云修复方法、装置、计算机设备和存储介质
CN116091596A (zh) 一种自下而上的多人2d人体姿态估计方法及装置
Zhu et al. Semantic image segmentation with shared decomposition convolution and boundary reinforcement structure
CN116168158A (zh) 基于视角聚合的人体三维重建方法、装置、设备和介质
CN115760874A (zh) 一种基于联合空间域的多尺度U-Net医学图像分割方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN114359554A (zh) 一种基于多感受野上下文语义信息的图像语义分割方法
CN115700781B (zh) 一种动态场景下基于图像补绘的视觉定位方法及系统
CN117635444A (zh) 基于辐射差和空间距离的深度补全方法、装置和设备
CN117935088A (zh) 基于全尺度特征感知和特征重构的无人机图像目标检测方法、系统及存储介质
CN111274901B (zh) 一种基于深度门控递归单元的手势深度图像连续检测方法
CN117636298A (zh) 基于多尺度特征学习的车辆重识别方法、系统及存储介质
CN115830707A (zh) 一种基于超图学习的多视角人体行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant