CN113223045B - 基于动态物体语义分割的视觉与imu传感器融合定位系统 - Google Patents
基于动态物体语义分割的视觉与imu传感器融合定位系统 Download PDFInfo
- Publication number
- CN113223045B CN113223045B CN202110544442.2A CN202110544442A CN113223045B CN 113223045 B CN113223045 B CN 113223045B CN 202110544442 A CN202110544442 A CN 202110544442A CN 113223045 B CN113223045 B CN 113223045B
- Authority
- CN
- China
- Prior art keywords
- tracking
- dynamic object
- dynamic
- imu
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 25
- 230000004927 fusion Effects 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 50
- 230000010354 integration Effects 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000010276 construction Methods 0.000 claims abstract description 3
- 238000001514 detection method Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000000007 visual effect Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000005259 measurement Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000003287 optical effect Effects 0.000 claims description 8
- 230000003068 static effect Effects 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 7
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003698 anagen phase Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000004087 circulation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20164—Salient point detection; Corner detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于动态物体语义分割的视觉与IMU传感器融合定位系统,包括前端算法,所述前端算法分为特征提取和跟踪模块是为获取特征点的数据关联,利用KLT法对相邻帧之间的特征点进行跟踪;实例分割和跟踪模块使用Deep SORT算法进行跟踪,用于提供语义信息的数据关联;动态物体处理模块通过动态物体处理算法对动态特征点进行识别,在定位和建图中进行剔除;IMU预积分模块是对IMU测量值进行积分,采用IMU预积分作为观测值,将世界坐标系转换为局部坐标系后,进行直接积分。本发明通过利用视觉传感器与IMU传感器的优势:IMU传感器改善了单目摄像头在运动较快时图像会出现模糊而导致的定位失败问题;同时视觉传感器改善了IMU累积误差较大的问题。
Description
技术领域
本发明涉及视觉定位技术领域,具体来说,涉及基于动态物体语义分割的视觉与IMU传感器融合定位系统。
背景技术
随着全球卫星导航系统的逐步完善、移动互联网和无线通信技术的快速发展,导航与位置服务 (Location-Based Services,LBS) 对应急、国防、物流、交通、广告和社交等领域均具有重要价值。据《2020中国卫星导航与位置服务产业发展白皮书》显示,我国每年导航与位置服务产业产值达到上千亿元。随着智能手机和穿戴设备的不断普及,导航与位置服务的需求目前仍处于爆炸式增长阶段。在室外无遮挡环境下,利用全球卫星导航系统(Global Navigation Satellite System,GNSS) 进行定位已基本可以满足日常使用需求。然而在森林、山地、城市高楼、建筑内部等复杂环境下,由于遮挡或多路径效应,基于导航卫星的定位技术会产生较大误差甚至失效。
传统的视觉定位方法主要利用单目摄像头的图像信息,根据多视角几何的原理对相机的位姿进行解算。
2015年Raul Mur-Artal等提出ORB-SLAM,ORB-SLAM分为三个线程:跟踪、局部优化和回环。在跟踪线程中首先会对图像提取ORB特征点并进行特征匹配,然后根据特征匹配结果计算相机位姿;局部优化部分负责对相机位姿和局部地图进行非线性优化;而回环线程使用词袋模型 (Bag of Words,BoW) 判断是否到达过先前的位置,然后根据回环检测结果进行位姿图优化,从而获得全局一致的轨迹和地图。此外,ORB-SLAM还在特征点提取、鲁棒初始化、关键帧选取策略等方面做了许多优化。许多研究工作在ORB-SLAM 基础上进行改进,在公开数据集上均取得了较好的效果。
慕尼黑工业大学Jakob等人提出LSD-SLAM算法。与特征点法SLAM不同,LSD-SLAM属于一种直接法SLAM系统。特征点法将数据关联和位姿估计分为两个部分进行,而直接法不用提取特征点,直接使用像素的光度误差作为损失函数进行优化,以更整体的方式计算得到位姿。这种方法节省了特征提取和特征匹配的时间,因此可实现半稠密甚至稠密地图的实时重建。由不依赖于特征点,直接法 SLAM在缺乏角点、重复纹理的环境下仍可正常使用。
在实际应用过程中,单目传感器定位往往存在问题:相机获取的图像易受外界环境干扰(遮挡、运动物体、无纹理场景、光照变化等);在运动较快时图像会出现模糊,从而导致定位失败;单目摄像头无法得到真实世界的尺度信息,因此相机坐标系无法与真实的世界坐标系进行对齐,具有尺度偏差;传统的基于单目摄像头的定位算法对动态场景没有处理能力,形成错误的数据关联,导致定位精度很差甚至定位丢失而无法定位。
视觉SLAM系统无法恢复尺度信息的缺点限制了进一步应用。然而通过将视觉和IMU进行结合,不仅可以恢复绝对尺度信息,还提高了系统的鲁棒性,近年来逐渐成为研究热点。视觉与IMU的融合方式分松耦合和紧耦合两种,松耦合表示将IMU定位与视觉定位位姿直接融合得到结果,而紧耦合将视觉约束信息与IMU约束联合解算,最终得到待求位姿。
Mourikis等于2007年提出MSCKF算法(Multi-State Constraint KalmanFilter),该算法同样使用扩展卡尔曼滤波作为后端,在预测阶段使用IMU数据进行系统状态传递,在更新阶段维护一个滑动窗口。MSCKF通过对路标点边缘化来给共视帧添加约束,从而实现在不丢失信息的同时大大降低计算复杂度。
VINS-Mono是香港科技大学团队于2017年开源的一个成熟的视觉惯性SLAM系统,其主要包括前端、初始化、后端优化、回环检测和全局位姿图优化五个部分,VINS-Mono前端使用Harris角点光流跟踪,而IMU部分使用预积分得到观测量。初始化部分采用松耦合方式进行,即首先通过运动恢复结构初始化,并以此为运动参考估计其他参数,再将视觉坐标系与世界坐标系对齐。后端部分进行一个滑动窗口优化,并采用一种边缘化策略来尽可能防止信息丢失或冗余:1) 当滑动窗口中第二新的图像帧为关键帧,则边缘化最老的帧,以及上面的路标点;2) 当滑动窗口中第二新的图像帧不是关键帧,则丢弃这一帧上的视觉测量信息,并将IMU预积分传给下一帧。此外,为提供全局一致地图,VINS-Mono还加入回环检测、重定位等功能,使整个系统更加完整、鲁棒。
视觉惯性SLAM的研究取得较大进展,在机器人、无人机、增强现实等领域已得到广泛应用。但现有的SLAM算法通常基于静态环境假设。而现实世界中往往存在大量运动物体,这些运动物体会造成特征点遮挡或误匹配,使得多数SLAM算法在动态环境下可靠性仍然较差。对动态场景没有处理能力,形成错误的数据关联,导致定位精度很差甚至定位丢失而无法定位。
同时定位与地图构建 (Simultaneous Localization and Mapping,SLAM)是一种起源于上个世纪80年代的机器人领域技术,可在未知环境中进行建图并确定自身位置。随着SLAM技术的不断发展,其定位精度和鲁棒性不断提高,目前已广泛应用于自动驾驶、深空探测和增强现实等领域。
动态环境是影响SLAM技术定位精度最重要的因素之一。SLAM通常基于静态环境假设,但在现实世界中,环境中往往存在大量动态物体,如车辆、行人、宠物等。动态环境下,数据关联时易出现误匹配,从而影响定位精度。此外,构建的点云或网格地图会出现重影,限制了地图定位、导航、避障、交互等应用功能。因此,为解决以上问题,动态环境下视觉惯性融合定位方法显得尤为重要。
本发明涉及多传感器辅助的融合定位前端方法,充分利用摄像头和惯性测量传感器 (Inertial Measurement Unit,IMU) 获得的多传感器信息进行动态环境中的定位,应用场景众多,具有很强的理论意义与实际应用价值。
发明内容
针对相关技术中的上述技术问题,本发明提出基于动态物体语义分割的视觉与IMU传感器融合定位系统,能够克服现有技术方法的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
基于动态物体语义分割的视觉与IMU传感器融合定位系统,包括前端算法,所述前端算法分为特征提取和跟踪模块、实例分割和跟踪模块、动态物体处理模块、IMU预积分模块,其中,
所述特征提取和跟踪模块是为获取特征点的数据关联,利用KLT法对相邻帧之间的特征点进行跟踪;
所述实例分割和跟踪模块使用Deep SORT算法进行跟踪,用于提供语义信息的数据关联;
所述动态物体处理模块通过动态物体处理算法对动态特征点进行识别,在定位和建图中进行剔除,通过将几何和语义信息进行结合,处理动态特征点;
所述IMU预积分模块是对IMU测量值进行积分,通过直接积分,当前状态量依赖于先前帧的状态量,采用IMU预积分作为观测值,将世界坐标系转换为局部坐标系后,进行直接积分。
进一步地,所述KLT法使用金字塔迭代的方法进行跟踪,是基于光流原理的一种特征点跟踪算法,与普通光流法直接比较像素点灰度值不同,KLT法比较像素点周围的窗口像素,以寻找最相似的像素点。
进一步地,所述Deep SORT算法分为四步骤包括:目标检测、特征提取、相似度计算和数据关联,所述目标检测是利用目标检测算法对原始图像进行处理,得到边界框;特征提取是对边界框图像裁剪后,利用卷积神经网络提取特征描述;相似度计算是计算每对检测和跟踪特征之间的成本矩阵;数据关联是计算出检测和跟踪目标之间最佳关联。
进一步地,在相似度计算阶段,需根据相似度或距离度量对每对检测和跟踪的目标特征进行评分,对较简单的目标跟踪算法,进行计算边界框交并比作为评价度量,而DeepSORT使用两种不同的指标,几何上,使用马氏距离用来衡量新检测目标的位置与已跟踪目标的位置间的差异;外观上,利用卷积神经网络对每个目标检测结果提取得到外观描述,利用外观描述之间的余弦距离表示目标外观上的相似程度,两种指标通过加权和结合起来,得到最终的相似度量。
进一步地,在数据关联阶段,Deep SORT使用成本矩阵匹配检测目标和跟踪目标,对于跟踪丢失的目标直接丢弃并未任何匹配的检测目标创建新的跟踪目标,匹配过程中使用匈牙利算法进行计算。
进一步地,所述动态物体处理模块中,基于几何约束的动态物体处理算法基于基础矩阵模型,利用RANSAC法对不符合该几何模型的特征点进行检测并剔除所述基础矩阵中表示了静态地图点在两张不同视角图像上的几何关系。
进一步地,所述基于几何约束的动态物体处理算法只能检测和剔除较小的运动特征点,而基于语义信息的动态物体算法利用先验信息检测动态物体,根据实例分割结果,进一步得到动态物体掩膜图像,根据动态掩膜图像,对每帧图像上的动态特征点进行剔除,Deep SORT算法在得到动态物体掩膜图像后,又对掩膜图像进行了膨胀图像学操作,以扩张掩膜边界。
本发明的有益效果:通过充分发挥IMU传感器和视觉传感器两者的优势,将纯单目视觉定位算法中的尺度不客观问题消除,同时利用视觉传感器与IMU传感器的优势,IMU传感器改善了单目摄像头在运动较快时图像会出现模糊而导致的定位失败问题;同时视觉传感器改善了IMU累积误差较大的问题,通过根据动态环境中的动态物体语义信息,提取、分割、跟踪动态物体,同时提出位于动态物体上的特征点,克服了动态环境中已出现的误匹配问题与错误数据关联问题,极大提高了定位的精度与鲁棒性;通过利用物体的语义信息,为后续模块提供了更高级的环境感知与语义信息;通过采用Mask R-CNN,类似的替代方法可能会利用不同的卷积神经网络模型进行物体语义分割。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的基于动态物体语义分割的视觉与IMU传感器融合定位系统的前端算法流程图。
图2是根据本发明实施例所述的基于动态物体语义分割的视觉与IMU传感器融合定位系统的基础矩阵示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围,为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
本发明以动态物体实例分割进行动态特征点剔除,并与IMU传感器数据进行融合作为视觉惯性定位算法的前端方法。
根据本发明实施例所述的基于动态物体语义分割的视觉与IMU传感器融合定位系统,包括前端算法,视觉和IMU融合定位方法均能够获得旋转和平移状态量,如图1所示,所述前端算法分为特征提取和跟踪模块、实例分割和跟踪模块、动态物体处理模块、IMU预积分模块。
所述特征提取和跟踪模块是为获取特征点的数据关联,利用KLT法对相邻帧之间的特征点进行跟踪;其中对于每张图像,前端提取Harris角点,为了保证具有足够多的特征点用于计算,同时为了防止计算量过大,需对图像上的特征点数量进行限制(100-300个)。此外,为了避免特征点分布过于集中,在提取特征点时,特征点间需要保证一定的距离。
其中所述KLT法是基于光流原理的一种特征点跟踪算法,与普通光流法直接比较像素点灰度值不同,KLT法比较像素点周围的窗口像素,以寻找最相似的像素点,由于不同特征点在相邻图像上产生的位移大小不同,从而增加了光流跟踪的难度。为此,KLT法使用金字塔迭代的方法进行跟踪。
由于目标检测领域的迅速发展,基于检测的跟踪已经成为多目标跟踪 (Multi-Object Tracking,MOT) 的主流方法。SORT在目标出现短暂遮挡时效果较差,会将跟踪目标识别为一个新的对象。为了解决该问题,Deep SORT在SORT算法基础上做了深度图像特征、级联匹配等改进,取得了较高的精度和实时性。因此,本发明实例分割和跟踪模块使用DeepSORT算法进行跟踪,用于提供语义信息的数据关联。
所述Deep SORT等MOT算法大致分为四个步骤:①目标检测:利用目标检测算法对原始图像进行处理,得到边界框;②特征提取:对边界框图像裁剪后,利用卷积神经网络提取特征描述;③相似度计算:计算每对检测和跟踪特征之间的成本矩阵;④数据关联:计算出检测和跟踪目标之间的最佳关联。
上述其中在相似度计算阶段,需要根据相似度或距离度量对每对检测和跟踪的目标特征进行评分。对于较简单的目标跟踪算法,会计算边界框交并比(Intersection overUnion, IOU)作为评价度量。而Deep SORT使用两种不同的指标。几何上,使用马氏距离用来衡量新检测目标的位置与已跟踪目标的位置间的差异。马氏距离提供了基于运动的目标位置信息,有助于短期预测,其计算公式如下:
其中,记(y𝑖, S𝑖)表示第𝑖个跟踪目标在测量空间的分布,用d𝑗表示第𝑗个检测的边界框。
外观上,利用卷积神经网络对每个目标检测结果提取得到外观描述子,利用外观描述子间的余弦距离表示目标外观上的相似程度。外观描述子的余弦距离有助于重识别遮挡后的跟踪目标,其计算公式为:
其中,对于每个边界框检测d𝑗,利用卷积神经网络对其计算一个单位外观描述子r𝑗。记R𝑖表示100个和第𝑖个跟踪目标相匹配的外观描述子集合。
两种指标通过加权和结合起来,得到最终的相似度量:
在数据关联阶段,Deep SORT使用成本矩阵匹配检测目标和跟踪目标。对于跟踪丢失的目标进行丢弃,并为任何未匹配的检测目标创建新的跟踪目标。匹配过程通常使用匈牙利算法计算,以找到一个最优的匹配结果。
1) 当一个检测目标和一个跟踪目标之间匹配成功后,需要依据新检测的目标,对已跟踪目标的状态信息进行更新。Deep SORT使用卡尔曼滤波不断进行预测和更新。目标跟踪过程中运动方程和观测方程可以由线性方程表示:
其中,下标𝑘表示不同的时刻,x为状态量,其协方差矩阵记为P。z为观测值,w和v为高斯白噪声,满足w ∼ N(0,R),v ∼ N(0,Q)。
在Deep SORT 中,目标的状态量表示为一个8维向量。卡尔曼滤波共分为两个阶段:1) 预测目标在下一时刻的位置,2) 基于目标检测结果对预测位置进行更新。
在预测阶段,基于跟踪目标在𝑘 − 1时刻的状态,Deep SORT采用匀速运动模型(Constant Velocity Model)来预测其在𝑘时刻的状态:
其中,x′和P′分别表示目标状态均值和协方差矩阵的预测值。
在更新阶段,Deep SORT基于k时刻检测到的目标,校正与其关联的跟踪目标的状态,以得到一个更精确的结果。首先计算卡尔曼增益K为:
卡尔曼增益表示测量值和当前状态估计值的相对权重。当处于高增益时,滤波器对最近的观测值赋予更高的权重,反之则降低观测值的权重。根据卡尔曼增益,对状态量进行更新为:
2) 当之前的跟踪目标匹配新检测目标识别时,Deep SORT对跟踪目标没有匹配的帧数进行统计。当未匹配帧数大于一定阈值后,则将该跟踪目标标记为丢失。另外,为了防止因遮挡而造成跟踪丢失,需要根据情况将该阈值设置稍大一些。
3) 当新检测的目标没有匹配时,则为其创建一个新的跟踪目标。在实际应用中,为了防止存在目标检测效果较差的情况,新跟踪目标在成功匹配一定数量后才予以确认。
所述动态物体处理模块通过动态物体处理算法对动态特征点进行识别,在定位和建图中进行剔除,基于几何约束的动态物体处理算法无需先验信息就可以检测动态特征点,但只能在动态物体较少的情况下使用。而基于语义信息的动态物体处理算法适用于高动态场景,但通常需要预先设定动态物体的类别,因此,通过将几何和语义信息进行结合,处理动态特征点。
如图2所示,基于几何约束的动态物体处理算法基于基础矩阵模型,利用RANSAC法对不符合该几何模型的特征点进行检测并剔除。基础矩阵表示了静态地图点在两张不同视角图像上的几何关系。三维空间中一点X在左右两个不同视角相机中成像坐标分别为x和x′,极线l′由极点e′和x′连接得到。记极线l′=Fx,则基础矩阵约束可以表示为:
其中,F 为3 × 3大小的基础矩阵,矩阵的自由度为7,至少需要7对匹配点求解。为方便计算,通常也会使用八点法线性求解。
理论上,静态特征点应满足基础矩阵模型,其余不满足模型的特征点即为动态特征点(或异常点)。因此,利用RANSAC法计算基础矩阵模型,并从所有特征点中区分出静态和动态特征点。以八点法为例,RANSAC法首先随机选择八对点,并据此计算得到基础矩阵。然后,根据距离阈值判断所有点中哪些点属于内点。通过多次循环,内点数最多的模型即为最终的基础矩阵模型,从而区分出静态和动态特征点。
基于几何约束的动态物体处理算法只能检测和剔除较小的运动特征点,而基于语义信息的动态物体处理算法利用先验信息检测动态物体,如常见的动态物体包括行人、动物、车辆等类别。根据实例分割结果,可进一步得到动态物体掩膜图像。动态物体掩膜图像与原相机图像大小一致,像素值为255表示动态物体,而像素值为0表示非动态物体。记D为动态物体类别的集合,则动态物体掩膜图像数学上可表示为:
根据动态物体掩膜图像,对每帧图像上的动态特征点进行剔除。另外,由于前景和背景之间的物体边界处往往具有明显的梯度变化,特征提取算法容易从动态对象的边缘处提取特征点。因此,本算法在得到动态物体掩膜图像后,又对掩膜图像进行了膨胀图形学操作,以扩张掩膜边界。
所述IMU预积分模块是对IMU测量值进行积分,𝑡时刻的IMU测量模型可以表示为:
通过直接积分,当前状态量依赖于先前帧的状态量,采用IMU预积分作为观测值,将世界坐标系转换为局部坐标系后,进行直接积分,直接积分模型表示为:
其中,
为预积分量。由于IMU测量值为离散数据,需要使用欧拉积分、中值积分、龙格-库塔法积分等数值积分方式得到预积分量。其中,中值积分计算量较小,且可以保证较好的逼近效果。因此算法选择使用中值积分,离散形式下预积分量为:
其中,
可得IMU预积分误差为:
综上所述,借助于本发明的上述技术方案,通过采用Mask R-CNN,类似的替代方法可能会利用不同的卷积神经网络模型进行物体语义分割,通过充分发挥IMU传感器和视觉传感器两者的优势,将纯单目视觉定位算法中的尺度不客观问题消除,同时利用视觉传感器与IMU传感器的优势,IMU传感器改善了单目摄像头在运动较快时图像会出现模糊而导致的定位失败问题;同时视觉传感器改善了IMU累积误差较大的问题,通过根据动态环境中的动态物体语义信息,提取、分割、跟踪动态物体,同时提出位于动态物体上的特征点,克服了动态环境中已出现的误匹配问题与错误数据关联问题,极大提高了定位的精度与鲁棒性;通过利用物体的语义信息,为后续模块提供了更高级的环境感知与语义信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.基于动态物体语义分割的视觉与IMU传感器融合定位系统,包括前端算法,所述前端算法分为特征提取和跟踪模块、实例分割和跟踪模块、动态物体处理模块、IMU预积分模块,其中,
所述特征提取和跟踪模块是为获取特征点的数据关联,利用KLT法对相邻帧之间的特征点进行跟踪;
所述KLT法使用金字塔迭代的方法进行跟踪,是基于光流原理的一种特征点跟踪算法,与普通光流法直接比较像素点灰度值不同,KLT法比较像素点周围的窗口像素,以寻找最相似的像素点;
所述实例分割和跟踪模块使用Deep SORT算法进行跟踪,用于提供语义信息的数据关联;
所述Deep SORT算法分为四步骤包括:目标检测、特征提取、相似度计算和数据关联,所述目标检测是利用目标检测算法对原始图像进行处理,得到边界框;特征提取是对边界框图像裁剪后,利用卷积神经网络提取特征描述;相似度计算是计算每对检测和跟踪特征之间的成本矩阵;数据关联是计算出检测和跟踪目标之间最佳关联;
所述动态物体处理模块通过动态物体处理算法对动态特征点进行识别,在定位和建图中进行剔除,通过将几何和语义信息进行结合,处理动态特征点;
所述IMU预积分模块是对IMU测量值进行积分,通过直接积分,当前状态量依赖于先前帧的状态量,采用IMU预积分作为观测值,将世界坐标系转换为局部坐标系后,进行直接积分;
所述动态物体处理模块中,基于几何约束的动态物体处理算法基于基础矩阵模型,利用RANSAC法对不符合几何模型的特征点进行检测并剔除所述基础矩阵中表示了静态地图点在两张不同视角图像上的几何关系;
所述基于几何约束的动态物体处理算法只能检测和剔除较小的运动特征点,而基于语义信息的动态物体算法利用先验信息检测动态物体,根据实例分割结果,进一步得到动态物体掩膜图像,根据动态掩膜图像,对每帧图像上的动态特征点进行剔除,Deep SORT算法在得到动态物体掩膜图像后,又对掩膜图像进行了膨胀图像学操作,以扩张掩膜边界。
2.根据权利要求1所述的基于动态物体语义分割的视觉与IMU传感器融合定位系统,在相似度计算阶段,需根据相似度或距离度量对每对检测和跟踪的目标特征进行评分,对较简单的目标跟踪算法,进行计算边界框交并比作为评价度量,而Deep SORT使用两种不同的指标,几何上,使用马氏距离用来衡量新检测目标的位置与已跟踪目标的位置间的差异;外观上,利用卷积神经网络对每个目标检测结果提取得到外观描述,利用外观描述之间的余弦距离表示目标外观上的相似程度,两种指标通过加权和结合起来,得到最终的相似度量。
3.根据权利要求1所述的基于动态物体语义分割的视觉与IMU传感器融合定位系统,在数据关联阶段,Deep SORT使用成本矩阵匹配检测目标和跟踪目标,对于跟踪丢失的目标直接丢弃并未任何匹配的检测目标创建新的跟踪目标,匹配过程中使用匈牙利算法进行计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110544442.2A CN113223045B (zh) | 2021-05-19 | 2021-05-19 | 基于动态物体语义分割的视觉与imu传感器融合定位系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110544442.2A CN113223045B (zh) | 2021-05-19 | 2021-05-19 | 基于动态物体语义分割的视觉与imu传感器融合定位系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113223045A CN113223045A (zh) | 2021-08-06 |
CN113223045B true CN113223045B (zh) | 2024-06-11 |
Family
ID=77093012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110544442.2A Active CN113223045B (zh) | 2021-05-19 | 2021-05-19 | 基于动态物体语义分割的视觉与imu传感器融合定位系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113223045B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610001B (zh) * | 2021-08-09 | 2024-02-09 | 西安电子科技大学 | 基于深度相机和imu组合的室内移动终端定位方法 |
CN114419073B (zh) * | 2022-03-09 | 2022-08-12 | 荣耀终端有限公司 | 一种运动模糊生成方法、装置和终端设备 |
TWI790957B (zh) * | 2022-04-06 | 2023-01-21 | 淡江大學學校財團法人淡江大學 | 一種多目標追蹤的高速數據關聯方法 |
KR102547347B1 (ko) * | 2022-08-19 | 2023-06-23 | 주식회사 핏투게더 | 객체의 궤적을 추적하기 위한 방법 |
CN115128655B (zh) * | 2022-08-31 | 2022-12-02 | 智道网联科技(北京)有限公司 | 自动驾驶车辆的定位方法和装置、电子设备和存储介质 |
CN115861957B (zh) * | 2023-01-19 | 2023-06-16 | 中国科学技术大学 | 一种基于传感器融合的新型动态物体分割方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109405824A (zh) * | 2018-09-05 | 2019-03-01 | 武汉契友科技股份有限公司 | 一种适用于智能网联汽车的多源感知定位系统 |
CN109465832A (zh) * | 2018-12-18 | 2019-03-15 | 哈尔滨工业大学(深圳) | 高精度视觉和imu紧融合定位方法与系统 |
CN109900265A (zh) * | 2019-03-15 | 2019-06-18 | 武汉大学 | 一种camera/mems辅助北斗的机器人定位算法 |
CN110030994A (zh) * | 2019-03-21 | 2019-07-19 | 东南大学 | 一种基于单目的鲁棒性视觉惯性紧耦合定位方法 |
WO2019190726A1 (en) * | 2018-03-09 | 2019-10-03 | TuSimple | System and method for vehicle wheel detection |
CN110378348A (zh) * | 2019-07-11 | 2019-10-25 | 北京悉见科技有限公司 | 视频实例分割方法、设备及计算机可读存储介质 |
CN111488795A (zh) * | 2020-03-09 | 2020-08-04 | 天津大学 | 应用于无人驾驶车辆的实时行人跟踪方法 |
CN112288773A (zh) * | 2020-10-19 | 2021-01-29 | 慧视江山科技(北京)有限公司 | 基于Soft-NMS的多尺度人体跟踪方法及装置 |
CN112308921A (zh) * | 2020-11-09 | 2021-02-02 | 重庆大学 | 一种基于语义和几何的联合优化动态slam方法 |
CN112348921A (zh) * | 2020-11-05 | 2021-02-09 | 上海汽车集团股份有限公司 | 一种基于视觉语义点云的建图方法及系统 |
CN112446882A (zh) * | 2020-10-28 | 2021-03-05 | 北京工业大学 | 一种动态场景下基于深度学习的鲁棒视觉slam方法 |
CN112486197A (zh) * | 2020-12-05 | 2021-03-12 | 哈尔滨工程大学 | 基于多源图像自适应选权的融合定位跟踪控制方法 |
CN112649016A (zh) * | 2020-12-09 | 2021-04-13 | 南昌大学 | 一种基于点线初始化的视觉惯性里程计方法 |
US10984290B1 (en) * | 2019-11-15 | 2021-04-20 | Zoox, Inc. | Multi-task learning for real-time semantic and/or depth aware instance segmentation and/or three-dimensional object bounding |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9904852B2 (en) * | 2013-05-23 | 2018-02-27 | Sri International | Real-time object detection, tracking and occlusion reasoning |
US10546387B2 (en) * | 2017-09-08 | 2020-01-28 | Qualcomm Incorporated | Pose determination with semantic segmentation |
US11906625B2 (en) * | 2018-01-08 | 2024-02-20 | The Regents Of The University Of California | Surround vehicle tracking and motion prediction |
US10812711B2 (en) * | 2018-05-18 | 2020-10-20 | Samsung Electronics Co., Ltd. | Semantic mapping for low-power augmented reality using dynamic vision sensor |
CN110009739B (zh) * | 2019-01-29 | 2023-03-24 | 浙江省北大信息技术高等研究院 | 移动摄像机的数字视网膜的运动特征的提取与编码方法 |
-
2021
- 2021-05-19 CN CN202110544442.2A patent/CN113223045B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019190726A1 (en) * | 2018-03-09 | 2019-10-03 | TuSimple | System and method for vehicle wheel detection |
CN109405824A (zh) * | 2018-09-05 | 2019-03-01 | 武汉契友科技股份有限公司 | 一种适用于智能网联汽车的多源感知定位系统 |
CN109465832A (zh) * | 2018-12-18 | 2019-03-15 | 哈尔滨工业大学(深圳) | 高精度视觉和imu紧融合定位方法与系统 |
CN109900265A (zh) * | 2019-03-15 | 2019-06-18 | 武汉大学 | 一种camera/mems辅助北斗的机器人定位算法 |
CN110030994A (zh) * | 2019-03-21 | 2019-07-19 | 东南大学 | 一种基于单目的鲁棒性视觉惯性紧耦合定位方法 |
CN110378348A (zh) * | 2019-07-11 | 2019-10-25 | 北京悉见科技有限公司 | 视频实例分割方法、设备及计算机可读存储介质 |
US10984290B1 (en) * | 2019-11-15 | 2021-04-20 | Zoox, Inc. | Multi-task learning for real-time semantic and/or depth aware instance segmentation and/or three-dimensional object bounding |
CN111488795A (zh) * | 2020-03-09 | 2020-08-04 | 天津大学 | 应用于无人驾驶车辆的实时行人跟踪方法 |
CN112288773A (zh) * | 2020-10-19 | 2021-01-29 | 慧视江山科技(北京)有限公司 | 基于Soft-NMS的多尺度人体跟踪方法及装置 |
CN112446882A (zh) * | 2020-10-28 | 2021-03-05 | 北京工业大学 | 一种动态场景下基于深度学习的鲁棒视觉slam方法 |
CN112348921A (zh) * | 2020-11-05 | 2021-02-09 | 上海汽车集团股份有限公司 | 一种基于视觉语义点云的建图方法及系统 |
CN112308921A (zh) * | 2020-11-09 | 2021-02-02 | 重庆大学 | 一种基于语义和几何的联合优化动态slam方法 |
CN112486197A (zh) * | 2020-12-05 | 2021-03-12 | 哈尔滨工程大学 | 基于多源图像自适应选权的融合定位跟踪控制方法 |
CN112649016A (zh) * | 2020-12-09 | 2021-04-13 | 南昌大学 | 一种基于点线初始化的视觉惯性里程计方法 |
Non-Patent Citations (4)
Title |
---|
Automated Process for Incorporating Drivable Path into Real-Time Semantic Segmentation;Wei Zhou等;《2018 IEEE International Conference on Robotics and Automation(ICRA)》;20180913;全文 * |
基于检测的多目标跟踪算法综述;李志华等;《物联网技术》;第11卷(第4期);第1.2节 * |
基于点云分割的运动目标跟踪与SLAM方法;王忠立等;《机器人》;20210331;第43卷(第2期);全文 * |
融合双目视觉里程计和惯导信息的SLAM算法研究;赵燕芳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113223045A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113223045B (zh) | 基于动态物体语义分割的视觉与imu传感器融合定位系统 | |
CN111462200B (zh) | 一种跨视频行人定位追踪方法、系统及设备 | |
CN112197770B (zh) | 一种机器人的定位方法及其定位装置 | |
CN112634451B (zh) | 一种融合多传感器的室外大场景三维建图方法 | |
CN108682027A (zh) | 基于点、线特征融合的vSLAM实现方法及系统 | |
CN110688905B (zh) | 一种基于关键帧的三维物体检测与跟踪方法 | |
CN113506318B (zh) | 一种车载边缘场景下的三维目标感知方法 | |
CN105160649A (zh) | 基于核函数非监督聚类的多目标跟踪方法及系统 | |
CN109579825A (zh) | 基于双目视觉和卷积神经网络的机器人定位系统及方法 | |
Jia et al. | A Survey of simultaneous localization and mapping for robot | |
CN104794737A (zh) | 一种深度信息辅助粒子滤波跟踪方法 | |
Kitt et al. | Detection and tracking of independently moving objects in urban environments | |
CN115936029A (zh) | 一种基于二维码的slam定位方法及装置 | |
CN116449384A (zh) | 基于固态激光雷达的雷达惯性紧耦合定位建图方法 | |
CN110490903B (zh) | 一种双目视觉测量中多目标快速捕获与跟踪方法 | |
CN114459467B (zh) | 一种未知救援环境中基于vi-slam的目标定位方法 | |
WO2024114119A1 (zh) | 一种基于双目相机引导的传感器融合方法 | |
CN112945233B (zh) | 一种全局无漂移的自主机器人同时定位与地图构建方法 | |
CN116468786B (zh) | 一种面向动态环境的基于点线联合的语义slam方法 | |
CN112731503A (zh) | 一种基于前端紧耦合的位姿估计方法及系统 | |
CN116862832A (zh) | 一种基于三维实景模型的作业人员定位方法 | |
CN116380079A (zh) | 一种融合前视声呐与orb-slam3的水下slam方法 | |
CN115797397A (zh) | 一种机器人全天候自主跟随目标人员的方法及系统 | |
CN116151320A (zh) | 一种抗动态目标干扰的视觉里程计方法及视觉里程计装置 | |
Kang et al. | A Visual SLAM Algorithm Based on Dynamic Feature Point Filtering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |