CN116310799A - 语义信息与几何约束相结合的动态特征点剔除方法 - Google Patents
语义信息与几何约束相结合的动态特征点剔除方法 Download PDFInfo
- Publication number
- CN116310799A CN116310799A CN202310115772.9A CN202310115772A CN116310799A CN 116310799 A CN116310799 A CN 116310799A CN 202310115772 A CN202310115772 A CN 202310115772A CN 116310799 A CN116310799 A CN 116310799A
- Authority
- CN
- China
- Prior art keywords
- dynamic
- feature points
- semantic information
- points
- static
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 230000033001 locomotion Effects 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000008030 elimination Effects 0.000 claims abstract description 8
- 238000003379 elimination reaction Methods 0.000 claims abstract description 8
- 230000003068 static effect Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 2
- 230000003287 optical effect Effects 0.000 claims description 2
- 238000012795 verification Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及于图像处理技术领域,尤其涉及语义信息与几何约束相结合的动态特征点剔除方法,步骤包括:在ORB‑SLAM2系统框架中创建目标检测线程,设计了YOLOv5目标检测网络;提取图像ORB特征点,使用了对极几何约束的运动一致性检测算法判断特征点动态性;提出语义信息与几何约束相结合的动态特征点剔除模块,最终确定目标检测边界框中的动态物体,实现了动态特征点的有效剔除。本发明方法可以快速识别场景中的物体类别,通过验证证明,本发明方法在TUM数据集上其绝对轨迹误差、平移和旋转相对位姿误差的RMSE值与ORB‑SLAM2相比分别降低了97.71%、95.10%和91.97%。
Description
技术领域
本发明涉及于图像处理技术领域,尤其涉及语义信息与几何约束相结合的动态特征点剔除方法。
背景技术
同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术是指搭载特定传感器的移动机器人在未知环境中从任意位置出发,于运动过程中根据观测到的路标,然后计算视野内路标与机器人的距离和夹角,从而定位自身的位置和姿态,同时在自身定位基础上增量式地构建周围环境地图。SLAM技术是机器人感知自身状态和外部环境的关键技术,更是机器人完成环境感知、自主定位与导航、路径规划、人机交互等复杂任务的关键及基础。
视觉SLAM因视觉传感器成本低、能获取丰富的环境信息被广泛应用,在静态环境下能够保证其鲁棒性和高效性,然而在实际动态场景下,由于场景中动态物体的特征点干扰,使得视觉SLAM图像帧间特征点匹配时出现误匹配,进而估计的位姿信息误差较大,最终导致机器人的运动轨迹与地图构建出现严重偏差。目前国内外动态场景视觉SLAM技术在一定程度上剔除了运动物体的特征点,减少了动态特征点干扰,提升了定位精度,然而大多技术没有考虑潜在运动物体的特征点,如临时停放的车辆。若仅依据先验类别信息把物体的特征点判为动态特征点并给予剔除将,存在特征点“过剔除”问题,同样易导致视觉SLAM定位精度不高。此外,目前动态SLAM技术忽略了SLAM系统的实时性,增加了时间消耗,导致系统无法实时运行,机器人耗电量高。因此,进行语义信息与几何约束相结合的动态特征点剔除研究具有极其重要的实际应用价值,同时还可用语义信息构建三维语义地图,实现机器人对场景高层次的感知,有利于智能机器人完成人机交互等高级任务。
本发明的目的在于研究适用于动态场景下视觉SLAM的动态特征点剔除方法,从而实现机器人准确地估计位姿,获得精确的定位信息。本发明致力于从改进轻量级目标检测网络、特征点提取、运动一致性检测、动态特征点剔除等四方面开展了研究,力图提高动态场景视觉SLAM的定位精度,以满足移动机器人定位要求。
发明内容
本发明的目的是提供语义信息与几何约束相结合的动态特征点剔除方法,用于解决现有技术中忽略了SLAM系统的实时性,增加了时间消耗导致系统无法实时运行,机器人耗电量高的技术问题。
为了实现上述目的,本发明采用了如下技术方案:
本发明提供一种语义信息与几何约束相结合的动态特征点剔除方法,包括以下步骤:
S1:在ORB-SLAM2系统框架创建一个目标检测线程并行运行,并设计一轻量级的YOLOv5目标检测网络为视觉SLAM提供物体的语义信息;
S2:提取图像ORB特征点,使用对极几何约束的运动一致性检测算法判断特征点动态性;
S3:提出语义信息与几何约束相结合的动态特征点剔除模块,最终确定目标检测边界框中的动态物体,实现了动态特征点的有效剔除;
S4:利用保留的静态特征点进行位姿估计,提高动态场景中的SLAM定位精度。
进一步地,S1包括以下步骤:
S100:改进ORB-SLAM2系统框架的ShuffleNetv2网络:
在步长为1的基本单元块中引入了Ghost模块和SE模块;
在步长为2的基本单元块中增加SE模块;
并在步长为1和步长为2的两个基本单元块中均新增深度可分离卷积,得到改进后两个步长不同的基本单元块;
S101:使用改进后的ShuffleNetv2网络替换YOLOv5的骨干网络:
S102:骨干网络使用Hard-Swish激活函数代替ReLu;
颈部使用PAN结构获得三个不同尺度的特征图,并使用CSP结构对相邻特征图进行特征连接和融合;
S103:训练过程中使用SIoU损失函数;
S104:进行ShuffleNet-YOLOv5目标检测模型训练,使用数据集进行训练,得到语义信息。
进一步地,所述SIoU损失函数由4个Cost函数组成:Angle cost、Distance cost、Shape cost、IoU cost;
总的损失函数为:
Loss=WboxLbox+WclsLcls
其中,Lcls使用Focal Loss作为分类预测损失,Wbox、Wcls分别是边界框和分类损失的权重,Lbox是边界框的坐标预测损失,如下所示:
Δ=∑t=x,y(1-e-(2-Λ)ρt)
式中,Δ是添加了角度惩罚Angle cost的Distance cost函数,其中Angle cost的表达式如上式Λ所示Ω是Shape cost函数,IOU是IoU cost函数。
进一步地,S2中所述使用对极几何约束的运动一致性检测算法判断特征点动态性,包括:
S200:使用ORB特征提取算法提取特征点;
S201:设两帧图像I1、I2之间的运动中,O1和O2为两个相机的光心,空间点P在I1、I2中分别得到特征匹配点位置P1和P2;O1、O2、P三个点确定的平面称为极平面,O1O2称为基线,极平面与两个像平面I1、I2之间的相交线l1、l2即为极线;
特征点P1和P2的归一化坐标为P1=[u1,v1,1]T,P2=[u2,v2,1]T;
S202:计算极线:
通过以下等式可计算极线l1:
式中,基础矩阵F根据配对特征点的像素位置求出;
如果空间点P是静态点,则满足多视图几何中静态场景定义的标准约束公式P2 TFP1=0,而动态目标中所提取到的特征点则会违背以上约束,因此,根据特征点是否违背约束来区分匹配的正确性;
S203:判断特征点静动态:
通过下式计算点到极线的距离D:
如果D小于预设的阈值,则认为点P是静态的,否则是动态的。
进一步地,S3包括:
S300:根据S1所述方法获取物体的类别和边界框结果,根据S2所述方法记录潜在动态点,并提出动态特征剔除模块精确地剔除正在运动的物体的特征点;
S301:根据目标检测线程并行运行得到物体的预测结果,根据物体的运动属性,将物体根据类别标签分成高动态(人、车辆等自身具有运动属性)、低动态(书、椅子等具有被移动属性)和静态(桌子等静态属性)三大类;
S302:初判断:
若YOLOv5边界框中的特征点只位于低动态或静态物体上,则不对特征点进行细判断处理;只有在特征点处于高动态物体框内时才进行细判断;
S303:细判断:
此时对于高动态物体框中的特征点,要考虑之前运动一致性检测的潜在特征点是否也在高动态物体框中,若潜在特征点同时在高动态物体框中,并且其特征点数量大于一定阈值,则将该物体确定为移动状态,并丢弃该物体上所有特征点;
S304:使用场景中的静态特征点估计相机位姿,完成SLAM系统整体定位。
本发明至少具备以下有益效果:
本发明首先在开源框架ORB-SLAM2的基础上,在系统前端部分加入了设计的轻量级YOLOv5目标检测网络作为独立线程并行处理,该方法可以快速识别场景中的物体类别,为SLAM提供了物体类别的语义信息,同时在跟踪线程中提取图像的ORB特征点,并使用基于极线几何的运动一致性检测算法记录潜在动态点,然后在动态特征点剔除模块中将物体根据目标检测结果的类别标签分成高动态(人、车辆等)、低动态(书、椅子等)和静态三类,考虑之前运动一致性检测的潜在动态点落在分割物体内的数量,从而精确剔除正在运动的物体的特征点并有效地保留了静态特征点,进而利用保留的静态特征点进行位姿估计。该方法在TUM数据集上其绝对轨迹误差(ATE)、平移和旋转相对位姿误差(RPE)的RMSE值与ORB-SLAM2相比分别降低了97.71%、95.10%和91.97%。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的语义信息与几何约束相结合的动态特征点剔除方法的流程图;
图2(a)和(b)为改进的ShuffleNetv2基本单元块图;
图3为改进的ShuffleNet-YOLOv5网络结构图;
图4为对极几何约束关系图;
图5(a)和(b)为动态特征点剔除效果图;
图6(a)和(b)为在fr3_w_xyz序列上的轨迹对比图;
图7(a)和(b)为在fr3_w_half序列上的轨迹对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,为本发明公开的语义信息与几何约束相结合的动态特征点剔除方法流程图,包括以下步骤:
S1:在ORB-SLAM2系统框架中创建了一个目标检测线程并行运行,设计了轻量级的YOLOv5目标检测网络为视觉SLAM提供物体的语义信息;
S100:为了使得模型体积更加轻量、精度更高,在步长为1的ShuffleNetv2基本单元块的基础上引入了GhostNet网络中的Ghost模块和SE(Squeeze-and-ExcitationNetworks)模块,在步长为2的基本单元块中增加SE模块,并在两个单元块中均新增深度可分离卷积,得到改进后两个步长不同的ShuffleNetv2基本单元块。如图2为改进的ShuffleNetv2基本单元块图。
S101:使用改进后的轻量级ShuffleNetv2网络替换YOLOv5的骨干网络。
S102:骨干网络使用Hard-Swish激活函数代替ReLu,计算速度更快;颈部使用PAN(Path Aggregation Network)结构获得三个不同尺度的特征图,并使用CSP结构对相邻特征图进行特征连接和融合。图3为改进的ShuffleNet-YOLOv5网络结构图。
S103:目标检测其有效性在很大程度取决于损失函数的定义,在训练期间最小化损失可以将目标的预测框与相应的真实框进行匹配。在训练过程中使用一种新的损失函数SIoU,其中考虑到所需回归之间的向量角度,重新定义了惩罚指标。SIoU损失函数由4个Cost函数组成:Angle cost、Distance cost、Shape cost、I oU cost。总的损失函数为:
Loss=WboxLbox+WclsLcls
其中,Lcls使用Focal Loss作为分类预测损失,Wbox、Wcls分别是边界框和分类损失的权重,Lbox是边界框的坐标预测损失,如下所示:
Δ=∑t=x,y(1-e-(2-Λ)ρt)
式中,Δ是添加了角度惩罚Anglecost的Distance cost函数,其中Angle cost的表达式如上式Λ所示,Ω是Shape cost函数,IOU是IoU cost函数。SIoU损失添加角度惩罚函数有效地减少了损失的总自由度,提高了训练的速度和推理的准确性。
S104:在硬件平台为NVIDIA RTX8000 48G显卡上进行ShuffleNet-YOLOv5目标检测模型训练,使用Microsoft coco2017数据集进行训练,得到语义标签信息。
S2:同时在跟踪线程中提取图像ORB特征点,使用了对极几何约束的运动一致性检测算法判断特征点动态性;
具体实施时,基于对极几何约束的运动一致性算法包括以下具体步骤:
S200:使用ORB特征提取算法提取特征点。
S201:在S200提取ORB特征基础上,如图4的对极几何约束关系,设两帧图像I1、I2之间的运动,O1和O2为两个相机的光心,空间点P在I1、I2中分别得到特征匹配点位置P1和P2。O1、O2、P三个点确定的平面称为极平面,O1O2称为基线,极平面与两个像平面I1、I2之间的相交线l1、l2即为极线。特征点P1和P2的归一化坐标为P1=[u1,v1,1]T,P2=[u2,v2,1]T。
S202:计算极线。通过以下等式可计算极线l1。
式中,基础矩阵F可根据配对特征点的像素位置求出,如果空间点P是静态点,则满足多视图几何中静态场景定义的标准约束公式P2 TFP1=0,而动态目标中所提取到的特征点则会违背以上约束,因此可以根据特征点是否违背约束来区分匹配的正确性。
S203:判断特征点静动态。当特征点P2不在极线l2上,空间点P可能为动态特征点。计算点到极线的距离D,下式即为对极几何的极线约束公式。
如果D小于预设的阈值,则认为点P是静态的,否则是动态的。
S3:提出语义信息与几何约束相结合的动态特征点剔除模块,最终确定目标检测边界框中的动态物体,从而实现了动态特征点的有效剔除;
具体实施时,基于语义信息与几何约束的动态特征点剔除,利用目标检测获取物体的类别和边界框,直接移除所有落在边界框中的特征点是一种减少动态物体干扰的简单方式,但会移除某些包含在边界框中的静态特征点。当动态物体占据图像很大一部分时,直接剔除会使得系统跟踪的特征点过少,导致系统工作失效。此外,除了剔除运动物体本身,还需要判断潜在移动物体,比如被人移动的椅子,临时停放的车辆等。因此,结合权利3所述对极几何约束方法精确判断特征点动态性,从而达到动态环境中极大地提高了定位精度的目的。为此,综合考虑下,S3包括以下具体步骤:
S300:在S1所述方法获取物体的类别和边界框结果,S2所述方法记录潜在动态点的基础上提出动态特征剔除模块精确地剔除正在运动的物体的特征点。
S301:目标检测线程并行运行得到物体的预测结果,根据物体的运动属性,将物体根据类别标签分成高动态(人、车辆等自身具有运动属性)、低动态(书、椅子等具有被移动属性)和静态(桌子等静态属性)三大类。
S302:初判断。若YOLOv5边界框中的特征点只位于低动态或静态物体上,不对特征点进行细判断处理。只有在特征点处于高动态物体框内时才进行细判断。
S303:细判断。此时对于高动态物体框中的特征点,要考虑之前运动一致性检测的潜在特征点是否也在高动态物体框中,若潜在特征点同时在高动态物体框中,并且其特征点数量大于一定阈值,则将该物体确定为移动状态,并丢弃该物体上所有特征点。
S304:最后,使用场景中的静态特征点估计相机位姿,完成定位。
S4:利用保留的静态特征点进行位姿估计,从而提高动态场景中的SLAM定位精度。
验证本发明公开的语义信息与几何约束的动态特征点剔除方法:如图5(a)表示未剔除动态特征点效果图,图5(b)表示剔除动态特征点效果图,可以看到动态物体的特征点被成功剔除,图中部分红色的潜在动态物体没有被移动,有效的保留了静态特征点。
验证本发明公开的剔除动态特征点后SLAM系统在高动态场景下定位精度与鲁棒性及时间效率:在TUM数据集的动态对象类“walking”序列进行测试,该序列包括fr3_walking_static、fr3_walking_xyz、fr3_walking_rpy、fr3_walking_half 4组高动态场景,其中xyz、rpy、halfsphere、static则对应了相机的移动方式。通过TUM提供的在线测试工具评测计算结果,用以评估SLAM系统位姿估计的准确性。图6是本发明方法与ORB-SLAM2方法在fr3_walking_xyz序列上的可视化轨迹误差结果,图7是本发明方法与ORB-SLAM2方法在fr3_walking_half序列上的可视化轨迹误差结果。图中黑线表示相机轨迹的真实值,蓝线表示运动估计的相机轨迹,红线表示真实轨迹与估计轨迹之间的差别。本发明方法与ORB-SLAM2的绝对轨迹误差对比结果如表1所示。
在定量分析中使用绝对轨迹误差的均方根误差(RMSE)和标准差误差(S.D)用作评估指标,RMSE表示估计值与真实值之间的偏差,S.D.反映了估计的相机轨迹的分散性。从表1绝对轨迹误差可知,本发明方法在fr3_walking_xyz序列下的RMSE和S.D值比ORB-SLAM2分别降低了97.71%和97.81%,在其他序列中也有显著降低。
表1绝对轨迹误差ATE对比结果(单位:m)
验证本发明公开的剔除动态特征点后SLAM系统在高动态场景下的时间效率:在TUM数据集上的fr3_walking_xyz序列测试了跟踪线程处理所需的时间,从表2可知跟踪线程耗时数据。
表2跟踪线程的平均时间对比(单位:ms)
结合上述可知:在算法时间方面,SLAM系统中新增线程会使得时间消耗增加,本发明主要时间消耗用于目标检测线程。本发明设计的轻量级目标检测模型计算量小、精度高,且采用多线程并行操作,降低了部分时间消耗,系统整体上能达到20帧/s的处理速度,对系统实时性影响较小,能够满足算法的实时性要求。本发明方法在处理高动态场景时仅使用CPU便取得了出色的性能,表明更满足实时性的需求。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (5)
1.语义信息与几何约束相结合的动态特征点剔除方法,其特征在于,包括以下步骤:
S1:在ORB-SLAM2系统框架创建一个目标检测线程并行运行,并设计一轻量级的YOLOv5目标检测网络为视觉SLAM提供物体的语义信息;
S2:提取图像ORB特征点,使用对极几何约束的运动一致性检测算法判断特征点动态性;
S3:提出语义信息与几何约束相结合的动态特征点剔除模块,最终确定目标检测边界框中的动态物体,实现了动态特征点的有效剔除;
S4:利用保留的静态特征点进行位姿估计,提高动态场景中的SLAM定位精度。
2.根据权利要求1所述的语义信息与几何约束相结合的动态特征点剔除方法,其特征在于,S1包括以下步骤:
S100:改进ORB-SLAM2系统框架的ShuffleNetv2网络:
在步长为1的基本单元块中引入了Ghost模块和SE模块;
在步长为2的基本单元块中增加SE模块;
并在步长为1和步长为2的两个基本单元块中均新增深度可分离卷积,得到改进后两个步长不同的基本单元块;
S101:使用改进后的ShuffleNetv2网络替换YOLOv5的骨干网络:
S102:骨干网络使用Hard-Swish激活函数代替ReLu;
颈部使用PAN结构获得三个不同尺度的特征图,并使用CSP结构对相邻特征图进行特征连接和融合;
S103:训练过程中使用SIoU损失函数;
S104:进行ShuffleNet-YOLOv5目标检测模型训练,使用数据集进行训练,得到语义信息。
3.根据权利要求1所述的语义信息与几何约束相结合的动态特征点剔除方法,其特征在于,所述SIoU损失函数由4个Cost函数组成:Angle cost、Distance cost、Shape cost、IoU cost;
总损失函数为:
Loss=WboxLbox+WclsLcls
其中,Lcls使用Focal Loss作为分类预测损失,Wbox、Wcls分别是边界框和分类损失的权重,Lbox是边界框的坐标预测损失,如下所示:
Δ=∑t=x,y(1-e-(2-Λ)ρt)
式中,Δ是添加了角度惩罚Angle cost的Distance cost函数,其中Angle cost的表达式如上式Λ所示,Ω是Shape cost函数,IOU是IoU cost函数。
4.根据权利要求1所述的语义信息与几何约束相结合的动态特征点剔除方法,其特征在于,S2中所述使用对极几何约束的运动一致性检测算法判断特征点动态性,包括:
S200:使用ORB特征提取算法提取特征点;
S201:设两帧图像I1、I2之间的运动中,O1和O2为两个相机的光心,空间点P在I1、I2中分别得到特征匹配点位置P1和P2;O1、O2、P三个点确定的平面称为极平面,O1O2称为基线,极平面与两个像平面I1、I2之间的相交线l1、l2即为极线;
特征点P1和P2的归一化坐标为P1=[u1,v1,1]T,P2=[u2,v2,1]T;
S202:计算极线:
通过以下等式可计算极线l1:
式中,基础矩阵F根据配对特征点的像素位置求出;
如果空间点P是静态点,则满足多视图几何中静态场景定义的标准约束公式P2 TFP1=0,而动态目标中所提取到的特征点则会违背以上约束,因此,根据特征点是否违背约束来区分匹配的正确性;
S203:判断特征点静动态:
通过下式计算点到极线的距离D:
如果D小于预设的阈值,则认为点P是静态的,否则是动态的。
5.根据权利要求1所述的语义信息与几何约束相结合的动态特征点剔除方法,其特征在于,S3包括:
S300:根据S1所述方法获取物体的类别和边界框结果,根据S2所述方法记录潜在动态点,并提出动态特征剔除模块精确地剔除正在运动的物体的特征点;
S301:根据目标检测线程并行运行得到物体的预测结果,根据物体的运动属性,将物体根据类别标签分成高动态、低动态和静态三类;
S302:初判断:
若YOLOv5边界框中的特征点只位于低动态或静态物体上,则不对特征点进行细判断处理;只有在特征点处于高动态物体框内时才进行细判断;
S303:细判断:
此时对于高动态物体框中的特征点,要考虑之前运动一致性检测的潜在特征点是否也在高动态物体框中,若潜在特征点同时在高动态物体框中,并且其特征点数量大于一定阈值,则将该物体确定为移动状态,并丢弃该物体上所有特征点;
S304:使用场景中的静态特征点估计相机位姿,完成SLAM系统整体定位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310115772.9A CN116310799A (zh) | 2023-02-14 | 2023-02-14 | 语义信息与几何约束相结合的动态特征点剔除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310115772.9A CN116310799A (zh) | 2023-02-14 | 2023-02-14 | 语义信息与几何约束相结合的动态特征点剔除方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116310799A true CN116310799A (zh) | 2023-06-23 |
Family
ID=86826565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310115772.9A Pending CN116310799A (zh) | 2023-02-14 | 2023-02-14 | 语义信息与几何约束相结合的动态特征点剔除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310799A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315547A (zh) * | 2023-10-18 | 2023-12-29 | 哈尔滨理工大学 | 一种解决动态物体大占比的视觉slam方法 |
CN117553808A (zh) * | 2024-01-12 | 2024-02-13 | 中国民用航空飞行学院 | 基于深度学习的机器人定位导航方法、装置、设备及介质 |
-
2023
- 2023-02-14 CN CN202310115772.9A patent/CN116310799A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315547A (zh) * | 2023-10-18 | 2023-12-29 | 哈尔滨理工大学 | 一种解决动态物体大占比的视觉slam方法 |
CN117553808A (zh) * | 2024-01-12 | 2024-02-13 | 中国民用航空飞行学院 | 基于深度学习的机器人定位导航方法、装置、设备及介质 |
CN117553808B (zh) * | 2024-01-12 | 2024-04-16 | 中国民用航空飞行学院 | 基于深度学习的机器人定位导航方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | Dynamic scene semantics SLAM based on semantic segmentation | |
Alvarez et al. | Providing guidance for maintenance operations using automatic markerless augmented reality system | |
CN116310799A (zh) | 语义信息与几何约束相结合的动态特征点剔除方法 | |
CN111563442A (zh) | 基于激光雷达的点云和相机图像数据融合的slam方法及系统 | |
CN111797688A (zh) | 一种基于光流和语义分割的视觉slam方法 | |
CN116662600B (zh) | 一种基于轻量结构化线地图的视觉定位方法 | |
CN113393503A (zh) | 一种分割驱动形状先验变形的类别级物体6d位姿估计方法 | |
Chen et al. | Survey on 6D pose estimation of rigid object | |
CN113393524A (zh) | 一种结合深度学习和轮廓点云重建的目标位姿估计方法 | |
Singh et al. | Fusing semantics and motion state detection for robust visual SLAM | |
CN116051631A (zh) | 光斑标注方法及系统 | |
CN115457130A (zh) | 一种基于深度关键点回归的电动汽车充电口检测定位方法 | |
Yu et al. | Accurate and robust visual localization system in large-scale appearance-changing environments | |
Min et al. | Coeb-slam: A robust vslam in dynamic environments combined object detection, epipolar geometry constraint, and blur filtering | |
Wei et al. | An RGB-D SLAM algorithm based on adaptive semantic segmentation in dynamic environment | |
Lai et al. | 3D semantic map construction system based on visual SLAM and CNNs | |
CN113793250B (zh) | 位姿评价方法、位姿确定方法、对应装置和电子设备 | |
Liu et al. | Accurate RGB-D SLAM in dynamic environments based on dynamic visual feature removal | |
Yu et al. | SCP-SLAM: accelerating DynaSLAM with static confidence propagation | |
CN115031735A (zh) | 基于结构特征的单目视觉惯性里程计系统的位姿估计方法 | |
Wu et al. | OC-SLAM: steadily tracking and mapping in dynamic environments | |
Ji et al. | Robust rgb-d slam in dynamic environments for autonomous vehicles | |
CN111765892A (zh) | 一种定位方法、装置、电子设备及计算机可读存储介质 | |
Zhou et al. | Dynamic SLAM Algorithm Fusing Semantic Information and Geometric Constraints | |
Zheng et al. | Dyna VIO: Real-Time Visual-Inertial Odometry with Instance Segmentation in Dynamic Environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |