CN115719363A - 可进行二维动态检测和三维重建的环境感知方法与系统 - Google Patents
可进行二维动态检测和三维重建的环境感知方法与系统 Download PDFInfo
- Publication number
- CN115719363A CN115719363A CN202211346661.0A CN202211346661A CN115719363A CN 115719363 A CN115719363 A CN 115719363A CN 202211346661 A CN202211346661 A CN 202211346661A CN 115719363 A CN115719363 A CN 115719363A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- map
- dimensional
- feature
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 238000012216 screening Methods 0.000 claims abstract description 22
- 230000008447 perception Effects 0.000 claims abstract description 16
- 238000011084 recovery Methods 0.000 claims abstract description 10
- 238000012800 visualization Methods 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 210000001525 retina Anatomy 0.000 claims abstract description 7
- 230000006872 improvement Effects 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 16
- 230000000694 effects Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 238000002156 mixing Methods 0.000 claims description 6
- 230000003287 optical effect Effects 0.000 claims description 6
- 230000036544 posture Effects 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 description 13
- 238000005259 measurement Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000011897 real-time detection Methods 0.000 description 3
- 208000028752 abnormal posture Diseases 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及可进行二维动态检测和三维重建的环境感知方法与系统,将双目相机采集的图像分别输入增加树形特征融合模块的改进YOLOv3网络与加入带色彩恢复的多尺度视网膜增强算法和关键帧筛选机制的优化RTAB‑MAP算法,运行结果在机器人可视化平台实时显示,从而进行多维度环境感知,满足多任务需求。实验结果表明,动态目标检测中查准率与查全率较原算法分别提高1.78%和1.73%,检测耗时为16.57ms/f,平均定位误差为1.49%;改进后的RTAB‑MAP算法相较原算法各误差均显著下降,实际室内场景重建中三维点云地图质量更佳。
Description
技术领域
本发明专利属于环境感知技术领域,具体涉及可进行二维动态检测和三维重建的环境感知方法与系统。
背景技术
近年来,随着我国社会经济的逐步转型,以智能移动机器人为代表的现代智能制造行业依托国家红利得到了深远的布局和快速的发展。智能移动机器人在制造业、服务业、食品医药业、特种行业等均已逐步取代传统人工,节省了大量费用成本并提高了产品的现代化生产能力。当前在制造业中,移动机器人可以对生产物料、下线产品等进行搬送运输,尤其面对高温、高腐蚀性、高危险性等特殊制造环境,移动机器人往往可以承担人工无法完成的工作。如何保证移动机器人对工作环境高精度理解与感知是其能在制造业中应用的前提和难点,并且目前机器人对复杂环境的理解与感知能力相对不足,无法获得更丰富的环境信息去完成更精准的任务。其中运动目标检测与场景重建是环境感知任务中最重要的子问题,不仅是视频监控和三维地图构建的关键技术,同时也是实时导航避障与路径规划的基础,对扩展移动机器人的工作领域、提高工作效率具有重要意义。
运动目标检测有两种常用方法,分别为传统手工特征的目标检测算法和卷积神经网络(Convolutional Neural Networks,CNN)目标检测算法。CNN目标检测算法具有识别效果好,运算速度快等优势,其主要分为两类:一类为基于区域建议的结构,如R-CNN、Fast R-CNN、RPN和R-FCN等;另一类将目标位置检测作为回归问题,提取特征后直接进行区域回归及目标分类,如YOLO(You Only Look Once,YOLO)、SSD(Single ShotMultibox Detector,SSD)等。同时实现机器人高精度定位与导航离不开三维场景地图构建,在稠密点云重建(Multi-View System,MVS)领域有RGBD-SLAM、RTAB-MAP等方案。当前通常使用深度相机采集数据,但存在某些场景无法获得红外结构光的缺陷。而双目相机利用图像获取空间结构,使用场景更丰富,实现视觉即时定位与地图构建(visual Simultaneous LocalizationAndMapping,vSLAM)功能的方式更灵活,如今三维地图构建技术进入了从实验研究到日常应用的快车道。在实际应用方面,胡美玉等人采用并行技术,使用卷积网络像素级分割图像,实时获取场景中的对象信息;Niko Sünderhauf等人将SSD算法与vSLAM相结合,创建出以物体模型为中心实体的地图;Qi等人使用深度学习网络获得图像信息,利用图像标签和三维几何信息建立稠密语义地图。由此可见,现今感知单一维度环境信息的机器人仍为主流,上述各方法只能单一获取物体属性及位置信息或得到包含语义信息的地图,很难全方位多维度感知环境信息。目标检测时,很难获取其三维信息;场景重建时由于二维信息欠缺,较难理解重建场景。MVS只能得到无实际意义的点云,若辨别其是否为物体还需用聚类算法,仍无法知晓该物体的具体性质。
表1室内实验室环境与物流储仓环境复杂程度对比情况
为此,本发明一方面对YOLOv3网络结构改进以适应复杂室内场景中的动态目标实时检测;另一方面以RTAB-MAP算法为框架,对前端视觉里程计(Visual Odometry,VO)部分进行改进,增强双目相机输入图像的质量,同时添加基于特征相关性筛选关键帧的机制,以便快速、准确地实现室内环境三维地图构建,最终显示在机器人可视化平台(RobotVisualization tool,RVIZ),达到多维度全方位环境感知与理解的效果。
发明内容
为了达到上述技术效果,本发明通过以下技术方案实现的:可进行二维动态检测和三维重建的环境感知方法,具体包括一下步骤:
S1、先进行图像采集,以繁杂室内背景下,不同远近、姿态和重叠遮挡的各状态的人为检测目标进行图像采集;
S2、将图像分别输入运动目标检测模块与vSLAM前后端优化模块中;
S201、所述的运动目标检测模块,以繁杂室内背景下,不同远近、姿态和重叠遮挡的各状态的人为检测目标,将YOLOv3网络作为基本框架,针对原网络对运动目标不敏感、感受野较小、小目标检测精度低等问题,在其骨干网络添加以不同大小卷积核为构成的TFA结构与之前预测层结果融合得到不同细致程度的网格目标检测层来提高不同尺度动态行人的检测准确率,为后续滤除场景中的先验动态对象,构建无动态对象干扰的静态稠密点云地图打下基础;
S202、所述的vSLAM前后端优化模块,可使用带色彩恢复的多尺度视网膜增强算法MSRCR和基于特征相关性的关键帧筛选机制分别对RTAB-MAP算法前后端改进,通过增强输入图像的质量与优化筛选机制来获得结构清晰、全局一致的高精度三维场景地图;
S3、运行结果在机器人可视化平台实时显示,从而进行多维度环境感知。
进一步地,所述的S201中的YOLOv3网络改进方法具体包括:改进算法将原主干网络获取的特征图输入TFA,通过提取多尺度目标进行叠加扩展来扩大感受野,提高对场景中小目标检测的准确度;首先复制特征图作为两分支输入,其中一个分支保持原特征,另一分支用1×1、3×3及5×5卷积核获得不同特征尺度,在每层卷积运算后分别经过批处理标准化与ReLU层处理,层层获取不同尺度的特征图,然后通过级联将输出特征图与前级输出叠加,其展开式与叠加规则为:
On=fn(On-1) (1)
Rn(t)=z(Rn-1(t),On) (2)
式中:on为第n步操作输出;fn为第n步卷积;Rn为第n步后TFA的结果;t为输入特征;z为特征融合;
优化后的网络结构分别在原网络52×52、26×26输出特征图前引入TFA,三层不同大小卷积核构成的树状结构层层递进学习前层提取的特征,通过提取更多的语义特征,会比原网络独立多分支并行结构的检测效果更优,有利于复杂室内环境下多尺度动态目标的检测;
改进后的网络会分析每个预测层的特征生成不同大小的预测框,在训练时不断获取不同尺寸的细节特征图,将各特征图叠加融合,最终输出恰当的预测结果;
运动目标定位依据双目系统测距原理,两针孔相机水平放置且光心均在X轴,基线b为相机光心距离,空间点P的成像点为PL、PR,两光圈左右两侧坐标点为WL,-WR;
根据三角形相似原理△PPLPR∽△POLOR:
整理得:
式中:d=WL-WR为视差;l为相机与物体的距离;
通过改进的目标检测算法得到行人在图像的位置,结合对应SDK工具包与API在OpenCV中获取动态目标像素点位置,利用欧氏测距公式计算行人对于相机的距离。
进一步地,所述的S202中对RTAB-MAP算法前端的改进具体包括:在前端VO融合MSRCR的改进RTAB-MAP算法,将采集到质量不佳的图像帧先经过MSRCR算法优化,达到提升低亮度值降低高亮度值进而提升整幅图像的亮度对比度,降低色彩偏差,使图像细节清晰的目的,便于随后进行的相邻图像间同名点的提取与精确匹配,同时为保证程序实时性,利用CUDA核函数编写算法对其加速;
MSRCR是以Retinex理论以颜色恒常性为基础的图像增强算法,具体原理为:
S(x,y)=L(x,y)·R(x,y) (5)
式中:S(x,y)为生成的图像;L(x,y)为入射光;R(x,y)为反射光,
用MSRCR算法求解R(x,y):
式中:Ri MSRCR(x,y)为MSR算法在i通道的值;N为尺度数;Gn(x,y)为第n个高斯环绕函数;Wn为第n尺度的权值数值;Ci(x,y)为彩色恢复因子;
MSRCR算法使用形态学闭运算,处理亮度分量,通过提升低亮度值进而提升整幅图像的亮度对比度,极大程度上降低色彩偏差,为vSLAM后续处理提供先行条件。
进一步地,所述的S202中对RTAB-MAP算法后端的改进具体包括:采用一种基于特征相关性筛选的关键帧选取机制,由此构建的三维场景重建地图为后续转换成直接用于机器人导航与路径规划的3D Octomap地图打下基础。
进一步地,所述的一种基于特征相关性筛选的关键帧选取机制的关键帧提取步骤具体包括:当前帧为Fn,前一关键帧为Fi-1,下一关键帧为Fi,G=||t||+min(2π-||r||,||r||)为帧间旋转值t与位移值r的范数,为两帧间特征点数量比例;
S1、将G与Gs比较,当G≥Gs,两帧误差过大,舍去此帧;当G<Gs,利用H判定;
S2、将H与Hs比较,若H>Hs,两帧运动过小,不是关键帧;当H≤Hs,为关键帧并保存;
S3、重复步骤(1)和(2),得到所有关键帧,经相机位姿矩阵变换后用于拼接MVS地图。
上述进一步的,所述的可进行二维动态检测和三维重建的环境感知系统,包括:图像采集模块、运动目标检测模块、vSLAM前后端优化模块、机器人可视化平台;
所述的运动目标检测模块,可将双目相机获取的图像输入增加树形特征融合模块TFA的改进YOLOv3网络,通过扩大网络感受野与捕获多尺度对象来提高室内运动目标检测精度;
所述的vSLAM前后端优化模块,可使用带色彩恢复的多尺度视网膜增强算法MSRCR和基于特征相关性的关键帧筛选机制分别对RTAB-MAP算法前后端改进,通过增强输入图像的质量与优化筛选机制来获得结构清晰、全局一致的高精度三维场景地图;
所述的机器人可视化平台实时显示运行结果,从而进行多维度环境感知。
本发明的有益效果是:针对移动机器人在集成智能制造业应用中,面临的室内场景下运动目标检测效果差,光照弱难以高质量vSLAM三维重建的问题,本发明首先将TFA结构引入YOLOv3网络,用多尺寸卷积核对图像特征多次提取,提高多尺度运动目标的检测能力。实验结果显示,实验室条件下改进算法的查准率与查全率分别为95.73%、92.01%,相较原算法分别提高1.78%、1.73%,单帧检测时间达16.57ms,满足动态场景下实时检测的要求,为地图构建中动态物体剔除与建立全局一致三维场景地图打下基础。其次以RTAB-MAP算法作为SLAM基本框架,在前端VO融入MSRCR算法提高图像质量以减少累积误差,同时添加基于特征相关性的关键帧筛选机制,建立可靠且不冗余的三维场景重建地图。实验结果显示,相较于原算法不仅各误差值有不同程度的降低,其中Min、Std误差减少约50%,且构建的三维MVS地图更清晰的还原出场景真实样貌。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明中多维度环境感知系统架构;
图2是本发明中TFA与其扩展结构;
图3是本发明中改进的YOLOv3网络结构图;
图4是本发明中改进YOLOv3网络预测过程;
图5是本发明中测距原理图解;
图6是本发明中RTAB-MAP算法前端改进示意图;
图7是本发明中实际室内照明场景优化效果对比;
图8是本发明中关键帧提取流程图;
图9是本发明中改进前后目标检测算法损失函数曲线;
图10是本发明中改进前后目标检测算法Avg IOU曲线;
图11是本发明中改进YOLOv3模型室内环境动态行人检测结果;
图12是本发明中RTAB-MAP算法改进前后轨迹对比;
图13是本发明中算法改进前后三维场景重建效果;
图14是本发明中实际场景与三维场景重建效果细节对比图;
图15是本发明中RTAB-MAP算法改进前后三维重建地图导航精度对比;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
如图1至图8所示,可进行二维动态检测和三维重建的环境感知方法,具体包括一下步骤:
S1、先进行图像采集,以繁杂室内背景下,不同远近、姿态和重叠遮挡的各状态的人为检测目标进行图像采集;
S2、将图像分别输入运动目标检测模块与vSLAM前后端优化模块中;
S201、所述的运动目标检测模块,以繁杂室内背景下,不同远近、姿态和重叠遮挡的各状态的人为检测目标,将YOLOv3网络作为基本框架,针对原网络对运动目标不敏感、感受野较小、小目标检测精度低等问题,在其骨干网络添加以不同大小卷积核为构成的TFA结构与之前预测层结果融合得到不同细致程度的网格目标检测层来提高不同尺度动态行人的检测准确率,为后续滤除场景中的先验动态对象,构建无动态对象干扰的静态稠密点云地图打下基础;
S202、所述的vSLAM前后端优化模块,可使用带色彩恢复的多尺度视网膜增强算法MSRCR和基于特征相关性的关键帧筛选机制分别对RTAB-MAP算法前后端改进,通过增强输入图像的质量与优化筛选机制来获得结构清晰、全局一致的高精度三维场景地图;
S3、运行结果在机器人可视化平台实时显示,从而进行多维度环境感知。
所述的S201中的YOLOv3网络改进方法具体包括:改进算法将原主干网络获取的特征图输入TFA,通过提取多尺度目标进行叠加扩展来扩大感受野,提高对场景中小目标检测的准确度;首先复制特征图作为两分支输入,其中一个分支保持原特征,另一分支用1×1、3×3及5×5卷积核获得不同特征尺度,在每层卷积运算后分别经过批处理标准化与ReLU层处理,层层获取不同尺度的特征图,然后通过级联将输出特征图与前级输出叠加,其展开式与叠加规则为:
On=fn(On-1) (1)
Rn(t)=z(Rn-1(t),On) (2)
式中:on为第n步操作输出;fn为第n步卷积;Rn为第n步后TFA的结果;t为输入特征;z为特征融合;
优化后的网络结构分别在原网络52×52、26×26输出特征图前引入TFA,三层不同大小卷积核构成的树状结构层层递进学习前层提取的特征,通过提取更多的语义特征,会比原网络独立多分支并行结构的检测效果更优,有利于复杂室内环境下多尺度动态目标的检测;
改进后的网络会分析每个预测层的特征生成不同大小的预测框,在训练时不断获取不同尺寸的细节特征图,将各特征图叠加融合,最终输出恰当的预测结果;
运动目标定位依据双目系统测距原理,两针孔相机水平放置且光心均在X轴,基线b为相机光心距离,空间点P的成像点为PL、PR,两光圈左右两侧坐标点为WL,-WR;
根据三角形相似原理△PPLPR∽△POLOR:
整理得:
式中:d=WL-WR为视差;l为相机与物体的距离;
通过改进的目标检测算法得到行人在图像的位置,结合对应SDK工具包与API在OpenCV中获取动态目标像素点位置,利用欧氏测距公式计算行人对于相机的距离。
所述的S202中对RTAB-MAP算法前端的改进具体包括:在前端VO融合MSRCR的改进RTAB-MAP算法,将采集到质量不佳的图像帧先经过MSRCR算法优化,达到提升低亮度值降低高亮度值进而提升整幅图像的亮度对比度,降低色彩偏差,使图像细节清晰的目的,便于随后进行的相邻图像间同名点的提取与精确匹配,同时为保证程序实时性,利用CUDA核函数编写算法对其加速;
MSRCR是以Retinex理论以颜色恒常性为基础的图像增强算法,具体原理为:
S(x,y)=L(x,y)·R(x,y) (5)
式中:S(x,y)为生成的图像;L(x,y)为入射光;R(x,y)为反射光,
用MSRCR算法求解R(x,y):
式中:Ri MSRCR(x,y)为MSR算法在i通道的值;N为尺度数;Gn(x,y)为第n个高斯环绕函数;Wn为第n尺度的权值数值;Ci(x,y)为彩色恢复因子;
MSRCR算法使用形态学闭运算,处理亮度分量,通过提升低亮度值进而提升整幅图像的亮度对比度,极大程度上降低色彩偏差,为vSLAM后续处理提供先行条件。
所述的S202中对RTAB-MAP算法后端的改进具体包括:采用一种基于特征相关性筛选的关键帧选取机制,由此构建的三维场景重建地图为后续转换成直接用于机器人导航与路径规划的3D Octomap地图打下基础。
所述的一种基于特征相关性筛选的关键帧选取机制的关键帧提取步骤具体包括:当前帧为Fn,前一关键帧为Fi-1,下一关键帧为Fi,G=||t||+min(2π-||r||,||r||)为帧间旋转值t与位移值r的范数,为两帧间特征点数量比例;
S1、将G与Gs比较,当G≥Gs,两帧误差过大,舍去此帧;当G<Gs,利用H判定;
S2、将H与Hs比较,若H>Hs,两帧运动过小,不是关键帧;当H≤Hs,为关键帧并保存;
S3、重复步骤(1)和(2),得到所有关键帧,经相机位姿矩阵变换后用于拼接MVS地图。
实施例2
如图1所示,所述的可进行二维动态检测和三维重建的环境感知系统,包括:图像采集模块、运动目标检测模块、vSLAM前后端优化模块、机器人可视化平台;
所述的运动目标检测模块,可将双目相机获取的图像输入增加树形特征融合模块TFA的改进YOLOv3网络,通过扩大网络感受野与捕获多尺度对象来提高室内运动目标检测精度;
所述的vSLAM前后端优化模块,可使用带色彩恢复的多尺度视网膜增强算法MSRCR和基于特征相关性的关键帧筛选机制分别对RTAB-MAP算法前后端改进,通过增强输入图像的质量与优化筛选机制来获得结构清晰、全局一致的高精度三维场景地图;
所述的机器人可视化平台实时显示运行结果,从而进行多维度环境感知。
实施例3
本发明通过多组对比实验,显示多维度环境感知系统算法改进前后动态目标检测与定位精度、vSLAM轨迹误差及添加MSRCR算法与关键帧筛选机制的RTAB-MAP三维重建效果对比。数据集及实际场景实验分别在PC机与移动机器人平台进行,各设备性能参数如表2所示。
表2运行平台
该移动机器人平台正前方水平固定安装的双目采集设备是StereoLabs公司研发的ZED2双目相机,准备一个8×6的期盼标定板与5m×5m的无遮挡环境,安装依赖后在ROS系统下将标定板水平、上下左右倾斜移动标定板获取足够数据计算标定矩阵生成相机内参。随后分别对ZED2双目相机与内置的IMU标定,获取对应数据后进行联合标定得到该双目相机的相对外参。已标定好的双目相机每次开机时内外参数会被加载到设备内存里,作为计算前矫正的参数使用。
实施例4
运动目标检测与定位实验:开源双目数据集TUM-Dynamic Objects记录了动态复杂室内场景,其9个子序列涵盖多种状态的运动对象,适合通过对室内环境下缓慢与快速移动的不同尺度对象进行目标检测,全面测评改进前后运动目标检测算法的性能。
为适配YOLOv3框架与提高该网络动态目标检测精度,把输入的图像大小设置为416×416,批处理规模为64,动量参数、权值衰减正则项、初始学习速率分别设为0.9、0.0005、0.001。模型共训练150个epochs,分别在105、135个epochs时学习率降到原来的10%。
网络性能的评价指标选取采用查准率(Precision,P)、查全率(Recall,R)、loss函数曲线、Avg IOU曲线、调和平均值F1来评价改进后的YOLOv3网络性能[23]。优化前后的YOLOv3算法测试结果见表3,从实验结果看,改进网络在特征提取与检测精度方面相较原网络有所提高,P、R值分别提高1.78%、1.73%。其单帧耗时虽略有上升,但仍有16.57ms/f,满足低速室内环境下对动态目标实时检测的需求。
表3目标检测算法改进前后检测结果对比
本文对YOLOv3及改进YOLOv3进行对比实验,此时损失函数曲线如图9所示,改进YOLOv3算法在相同迭代轮次下收敛速度,回归效果均明显优于原网络,迭代150epochs后模型趋于稳定,最终损失值接近1.3,可见改进后的模型具有更高的鲁棒性。
运动目标网络识别过程中,Avg IOU值表示预测框与实际框的平均交并比,进一步来量化预测结果的准确度,算法改进前后Avg IOU曲线如图10所示。明显可见改进后的网络相较原网络Avg IOU值更集中于1.00附近并呈收敛趋势,表明改进后的目标检测网络对室内动态行人的检测更精确。
将训练后的算法移植到机器人平台,验证目标检测能力和定位精度。室内环境中动态目标检测结果如图11所示。
动态行人在不同状态下的目标检测结果见表4。
表4不同状态下的运动行人检测结果单位(%)
对表4分析可知,室内环境下运动行人的检测准确率与到双目相机的距离有关,并且随距离增大检测准确度会降低,同时人的不同状态也会对检测结果产生影响。原YOLOv3网络对小目标检测效果不佳,在多目标、非正常姿态及目标重叠情况下动态性人检测准确率均低于正常状态。加入TFA结构的改进网络通过对多次提取的图像特征进行融合,提升了对小目标和非正常姿态的行人检测能力,检测准确度分别提升1.54%和1.18%;其余类别检测精度小幅提升。
对于定位精度,采用人工测量取三次量值的平均值为参考,每隔0.5m进行1次距离测量且最远距离不大于20米,求测量数据的相对误差。实验结果见表5,最大相对误差为3.47%,平均相对误差为1.49%,可见该算法定位能力良好。
表5实际距离与检测距离误差对比表
实施例5
三维场景重建实验:将改进前后算法分别用公开数据集TUM子序列freiburg3_long_office_household测试并与数据集提供的实际轨迹groundturth相比,三者轨迹对比结果如图12所示。可知改进算法相较于原算法与真实轨迹更相符同时轨迹构成闭合,但部分轨迹仍有偏差。分析得知数据集中部分图像有过曝问题,MSRCR优化效果不明显,总体看改进算法更有优势。
表6为算法优化前后各误差对比数据,可直观看出改进算法各误差相较于原算法均有不同程度减少,其中最小值误差Min、标准差Std误差分别下降47.03%和49.55%。
表6算法改进前后各误差对比(m)
实验室环境往往包含实验区、工作区等不同区域,且存放设备较多、外形尺寸较复杂,其场景与生产制造场景较为相似。因此基于某实验室场景,将原RTAB-MAP算法与改进算法进行三维场景重建对比实验,算法改进前后的三维场景重建地图(俯视图)如图13所示。
从三维场景地图看出在光照不理想的室内场景中,改进算法获得的特征点较清晰,测量范围更广,图中黄色矩形框中书柜区域空缺面积被填充,未知区域面积明显减小。
实际室内场景图像与构建的MVS地图细节对比如图14所示,以不同颜色的矩形框标注同一物体在实际场景与重建场景中的状态,可直观感知利用改进后的RTAB-MAP算法进行的三维场景重建图细节清晰、点云密集不冗余,物体少有形变、纹理细致且精度高,能清楚展示物体轮廓与纹理信息,小尺寸物体如沙发靠垫也容易识别,可见三维场景重建地图清晰度与精确度有大幅提升。
实施例6
为进一步定量验证RTAB-MAP算法改进前后三维场景重建地图的精度,同时将该项技术拓展应用在制造业、服务业、食品医药业、特种行业中用于定点搬运、物流、服务等任务,以室内实验室环境代替处于室内的工厂车间流水线、仓储物流中心、家居场景等各式环境,将移动机器人RTAB-MAP算法改进前后生成的三维场景地图直接转换为用于导航的Octomap地图,利用ROS系统的Navigation导航功能实现自主导航,从而模拟生产生活中丰富的现实任务。
实验过程如下,将一定量书籍从实验室门口运送到内部的书柜位置(书柜前方设置一个20cm×20cm的方形指定区域),模拟工业生
产生活中物料的运输到某一定点的过程。分别用改进前后
RTAB-MAP算法定点导航重复十次;
依照三维场景重建地图定点导航过程中记录每次导航过程中对周围物体的碰撞次数与车体中心到指定区域中心的相对距离形成折线对比图15:
由图15可以看出,改进后的RTAB-MAP算法在该室内环境中与周围物体的碰撞次数与定点导航的相对位置精度明显优于原算法,反映了改进算法三维场景地图重建的高精度,为智能工业制造业、物流运输业、家居服务业等行业智能场景理解能力和自主作业能力提供相对优质可靠的解决方案。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (6)
1.可进行二维动态检测和三维重建的环境感知方法,其特征在于,具体包括一下步骤:
S1、先进行图像采集,以繁杂室内背景下,不同远近、姿态和重叠遮挡的各状态的人为检测目标进行图像采集;
S2、将图像分别输入运动目标检测模块与vSLAM前后端优化模块中;
S201、所述的运动目标检测模块,以繁杂室内背景下,不同远近、姿态和重叠遮挡的各状态的人为检测目标,将YOLOv3网络作为基本框架,针对原网络对运动目标不敏感、感受野较小、小目标检测精度低等问题,在其骨干网络添加以不同大小卷积核为构成的TFA结构与之前预测层结果融合得到不同细致程度的网格目标检测层来提高不同尺度动态行人的检测准确率,为后续滤除场景中的先验动态对象,构建无动态对象干扰的静态稠密点云地图打下基础;
S202、所述的vSLAM前后端优化模块,可使用带色彩恢复的多尺度视网膜增强算法MSRCR和基于特征相关性的关键帧筛选机制分别对RTAB-MAP算法前后端改进,通过增强输入图像的质量与优化筛选机制来获得结构清晰、全局一致的高精度三维场景地图;
S3、运行结果在机器人可视化平台实时显示,从而进行多维度环境感知。
2.根据权利要求1所述的可进行二维动态检测和三维重建的环境感知方法,其特征在于:所述的S201中的YOLOv3网络改进方法具体包括:改进算法将原主干网络获取的特征图输入TFA,通过提取多尺度目标进行叠加扩展来扩大感受野,提高对场景中小目标检测的准确度;首先复制特征图作为两分支输入,其中一个分支保持原特征,另一分支用1×1、3×3及5×5卷积核获得不同特征尺度,在每层卷积运算后分别经过批处理标准化与ReLU层处理,层层获取不同尺度的特征图,然后通过级联将输出特征图与前级输出叠加,其展开式与叠加规则为:
On=fn(On-1) (1)
Rn(t)=z(Rn-1(t),On) (2)
式中:on为第n步操作输出;fn为第n步卷积;Rn为第n步后TFA的结果;t为输入特征;z为特征融合;
优化后的网络结构分别在原网络52×52、26×26输出特征图前引入TFA,三层不同大小卷积核构成的树状结构层层递进学习前层提取的特征,通过提取更多的语义特征,会比原网络独立多分支并行结构的检测效果更优,有利于复杂室内环境下多尺度动态目标的检测;
改进后的网络会分析每个预测层的特征生成不同大小的预测框,在训练时不断获取不同尺寸的细节特征图,将各特征图叠加融合,最终输出恰当的预测结果;
运动目标定位依据双目系统测距原理,两针孔相机水平放置且光心均在X轴,基线b为相机光心距离,空间点P的成像点为PL、PR,两光圈左右两侧坐标点为WL,-WR;
根据三角形相似原理△PPLPR∽△POLOR:
整理得:
式中:d=WL-WR为视差;l为相机与物体的距离;
通过改进的目标检测算法得到行人在图像的位置,结合对应SDK工具包与API在OpenCV中获取动态目标像素点位置,利用欧氏测距公式计算行人对于相机的距离。
3.根据权利要求1所述的可进行二维动态检测和三维重建的环境感知方法,其特征在于:所述的S202中对RTAB-MAP算法前端的改进具体包括:在前端VO融合MSRCR的改进RTAB-MAP算法,将采集到质量不佳的图像帧先经过MSRCR算法优化,达到提升低亮度值降低高亮度值进而提升整幅图像的亮度对比度,降低色彩偏差,使图像细节清晰的目的,便于随后进行的相邻图像间同名点的提取与精确匹配,同时为保证程序实时性,利用CUDA核函数编写算法对其加速;
MSRCR是以Retinex理论以颜色恒常性为基础的图像增强算法,具体原理为:
S(x,y)=L(x,y)·R(x,y) (5)
式中:S(x,y)为生成的图像;L(x,y)为入射光;R(x,y)为反射光,
用MSRCR算法求解R(x,y):
式中:Ri MSRCR(x,y)为MSR算法在i通道的值;N为尺度数;Gn(x,y)为第n个高斯环绕函数;Wn为第n尺度的权值数值;Ci(x,y)为彩色恢复因子;
MSRCR算法使用形态学闭运算,处理亮度分量,通过提升低亮度值进而提升整幅图像的亮度对比度,极大程度上降低色彩偏差,为vSLAM后续处理提供先行条件。
4.根据权利要求1所述的可进行二维动态检测和三维重建的环境感知方法,其特征在于:所述的S202中对RTAB-MAP算法后端的改进具体包括:采用一种基于特征相关性筛选的关键帧选取机制,由此构建的三维场景重建地图为后续转换成直接用于机器人导航与路径规划的3D Octomap地图打下基础。
6.根据权利要求1至5任意一项所述的可进行二维动态检测和三维重建的环境感知系统,其特征在于,包括:图像采集模块、运动目标检测模块、vSLAM前后端优化模块、机器人可视化平台;
所述的运动目标检测模块,可将双目相机获取的图像输入增加树形特征融合模块TFA的改进YOLOv3网络,通过扩大网络感受野与捕获多尺度对象来提高室内运动目标检测精度;
所述的vSLAM前后端优化模块,可使用带色彩恢复的多尺度视网膜增强算法MSRCR和基于特征相关性的关键帧筛选机制分别对RTAB-MAP算法前后端改进,通过增强输入图像的质量与优化筛选机制来获得结构清晰、全局一致的高精度三维场景地图;
所述的机器人可视化平台实时显示运行结果,从而进行多维度环境感知。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211346661.0A CN115719363B (zh) | 2022-10-31 | 2022-10-31 | 可进行二维动态检测和三维重建的环境感知方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211346661.0A CN115719363B (zh) | 2022-10-31 | 2022-10-31 | 可进行二维动态检测和三维重建的环境感知方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115719363A true CN115719363A (zh) | 2023-02-28 |
CN115719363B CN115719363B (zh) | 2024-02-02 |
Family
ID=85254487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211346661.0A Active CN115719363B (zh) | 2022-10-31 | 2022-10-31 | 可进行二维动态检测和三维重建的环境感知方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115719363B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372628A (zh) * | 2023-12-01 | 2024-01-09 | 北京渲光科技有限公司 | 单视图室内场景三维重建方法、系统及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509230A (zh) * | 2018-11-13 | 2019-03-22 | 武汉大学 | 一种应用于多镜头组合式全景相机的slam方法 |
CN110243370A (zh) * | 2019-05-16 | 2019-09-17 | 西安理工大学 | 一种基于深度学习的室内环境三维语义地图构建方法 |
CN111968129A (zh) * | 2020-07-15 | 2020-11-20 | 上海交通大学 | 具有语义感知的即时定位与地图构建系统及方法 |
CN112525202A (zh) * | 2020-12-21 | 2021-03-19 | 北京工商大学 | 一种基于多传感器融合的slam定位导航方法及系统 |
-
2022
- 2022-10-31 CN CN202211346661.0A patent/CN115719363B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509230A (zh) * | 2018-11-13 | 2019-03-22 | 武汉大学 | 一种应用于多镜头组合式全景相机的slam方法 |
CN110243370A (zh) * | 2019-05-16 | 2019-09-17 | 西安理工大学 | 一种基于深度学习的室内环境三维语义地图构建方法 |
CN111968129A (zh) * | 2020-07-15 | 2020-11-20 | 上海交通大学 | 具有语义感知的即时定位与地图构建系统及方法 |
CN112525202A (zh) * | 2020-12-21 | 2021-03-19 | 北京工商大学 | 一种基于多传感器融合的slam定位导航方法及系统 |
Non-Patent Citations (3)
Title |
---|
T. W. YANG等: "Moving Target Tracking and Measurement with a Binocular Vision System", 《15TH INTERNATIONAL CONFERENCE ON MECHATRONICS AND MACHINE VISION IN PRACTICE (M2VIP08)》 * |
TIANYI WU等: "Tree-Structured_Kronecker_Convolutional_Network_for_Semantic_Segmentation", 《2019 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 * |
胡章芳: "基于改进闭环检测算法的视觉同时定位与地图构建", 《计算机应用》, vol. 38, no. 3 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372628A (zh) * | 2023-12-01 | 2024-01-09 | 北京渲光科技有限公司 | 单视图室内场景三维重建方法、系统及设备 |
CN117372628B (zh) * | 2023-12-01 | 2024-02-23 | 北京渲光科技有限公司 | 单视图室内场景三维重建方法、系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115719363B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798475B (zh) | 一种基于点云深度学习的室内环境3d语义地图构建方法 | |
Guerry et al. | Snapnet-r: Consistent 3d multi-view semantic labeling for robotics | |
Vaudrey et al. | Differences between stereo and motion behaviour on synthetic and real-world stereo sequences | |
CN102236794B (zh) | 3d场景中3d对象的识别和姿态确定 | |
CN111563442A (zh) | 基于激光雷达的点云和相机图像数据融合的slam方法及系统 | |
CN111738344A (zh) | 一种基于多尺度融合的快速目标检测方法 | |
Pound et al. | A patch-based approach to 3D plant shoot phenotyping | |
CN113160275B (zh) | 一种基于多个视频的自动目标跟踪和轨迹计算的方法 | |
CN106530407A (zh) | 一种用于虚拟现实的三维全景拼接方法、装置和系统 | |
Cheng et al. | Road mapping and localization using sparse semantic visual features | |
CN115330734A (zh) | 一种基于三维目标检测和点云缺陷补全的自动化机器人补焊系统 | |
Agresti et al. | Stereo and ToF data fusion by learning from synthetic data | |
CN115719363B (zh) | 可进行二维动态检测和三维重建的环境感知方法与系统 | |
CN117274515A (zh) | 基于ORB和NeRF映射的视觉SLAM方法及系统 | |
CN115100294A (zh) | 基于直线特征的事件相机标定方法、装置及设备 | |
CN114298151A (zh) | 一种基于点云数据与图像数据融合的3d目标检测方法 | |
Zhang et al. | Improved feature point extraction method of ORB-SLAM2 dense map | |
CN110516527A (zh) | 一种基于实例分割的视觉slam回环检测改进方法 | |
Fehr et al. | Reshaping our model of the world over time | |
Liu et al. | 360ST-mapping: An online semantics-guided topological mapping module for omnidirectional visual SLAM | |
Shao | A Monocular SLAM System Based on the ORB Features | |
Lai et al. | 3D semantic map construction system based on visual SLAM and CNNs | |
Gao et al. | Optimization of greenhouse tomato localization in overlapping areas | |
CN114140524A (zh) | 一种多尺度特征融合的闭环检测系统及方法 | |
Džijan et al. | Towards fully synthetic training of 3D indoor object detectors: Ablation study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |