CN117830991B - 一种基于多模融合的四足机器人复杂场景感知方法及系统 - Google Patents
一种基于多模融合的四足机器人复杂场景感知方法及系统 Download PDFInfo
- Publication number
- CN117830991B CN117830991B CN202410238784.5A CN202410238784A CN117830991B CN 117830991 B CN117830991 B CN 117830991B CN 202410238784 A CN202410238784 A CN 202410238784A CN 117830991 B CN117830991 B CN 117830991B
- Authority
- CN
- China
- Prior art keywords
- map
- terrain
- robot
- super
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000004927 fusion Effects 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 230000008447 perception Effects 0.000 claims abstract description 15
- 230000009286 beneficial effect Effects 0.000 claims abstract description 11
- 230000007613 environmental effect Effects 0.000 claims abstract description 11
- 239000010410 layer Substances 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 23
- 239000003086 colorant Substances 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000012876 topography Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 206010034701 Peroneal nerve palsy Diseases 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000002344 surface layer Substances 0.000 claims description 3
- 244000025254 Cannabis sativa Species 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/05—Geographic models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Biodiversity & Conservation Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Remote Sensing (AREA)
- Computer Graphics (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提出了一种基于多模融合的四足机器人复杂场景感知方法及系统,包括:获取多模态传感器数据;基于获取的数据,通过深度神经网络编码‑解码对前方地形进行重构,去除3D传感器的环境噪声,得到更利于机器人运动规划的地形实际支撑面信息;通过对RGB图像聚类获取超像素图像,结合重构的实际支撑面信息经多层感知器网络处理生成图像坐标系下的可通行区域,进而生成代价地图。
Description
技术领域
本发明属于机器人信息化处理技术领域,尤其涉及一种基于多模融合的四足机器人复杂场景感知方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
近年来,随着机器人和人工智能技术的快速发展,行业对智能机器人的需求提高,提升机器人智能化水平是急需解决的问题。相比于轮式机器人,腿足式机器人具有在崎岖地形中机动的能力,具有更高的灵活性。腿足式机器人的高敏捷性使其能够在崎岖的室外环境中运行。在这些场景下,关于地形的几何知识是实现安全移动的立足点规划的关键。
目前,四足机器人通常通过配备多线激光雷达和深度相机等外感传感器感知3D环境结构,并且将感知结果存储在2D栅格占用地图、2.5D高程图或3D体素图中,其中高程图由于平衡了感知精度和算力得到了更广泛的应用。
但是基于激光雷达和深度相机等深度传感器的感知方案只能在支撑面可见的地形下有着比较准确的感知,上述传感器原理为发射激光并接收返回信号,根据时间差计算距离,在可穿透或者高度柔软的地形(如草地)上,传感器会受到草的遮挡,无法穿透草看到真实的地面即可支撑面,进而影响对四足机器人的运动控制。
具体的,传统的2.5D高程图只依赖激光雷达、深度相机等外部传感器而忽略了四足机器人自身力传感器感知,在穿越草丛、雪地等非刚性地面时无法获取真实的可支撑地面高度,进而影响四足机器人的运动规划。
发明内容
为克服上述现有技术的不足,本发明提供了一种基于多模融合的四足机器人复杂场景感知方法,在穿越复杂地形时,融合多传感器信息,识别地形种类,在可穿透地形合理估计支撑面,最终融合生成真实的估计平面,帮助机器人平稳安全地穿行于复杂地形。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了一种基于多模融合的四足机器人复杂场景感知方法,包括:
获取多模态传感器数据;
基于获取的数据,通过深度神经网络编码-解码对前方地形进行重构,去除3D传感器的环境噪声,得到更利于机器人运动规划的地形实际支撑面信息;
通过对RGB图像聚类获取超像素图像,结合重构的实际支撑面信息经多层感知器网络处理生成图像坐标系下的可通行区域,进而生成代价地图。
作为进一步的技术方案,获取多模态传感器数据,包括:
将采集的深度相机点云生成以机器人为中心的的高程图;
将采集的深度相机RGB图像的RGB像素投影到BEV视角下并与高程图对齐,得到高程图、颜色图层;
将采集的四足机器人落脚点位置,通过高斯过程回归估计支撑平面。
作为进一步的技术方案,得到高程图颜色图层的具体过程为:
将深度相机设置为深度对齐模式,实现RGB像素与深度点云的一一对应,而后将深度相机生成的深度点云由相机坐标系经坐标变换变换到地图坐标系下;
将点云在地图坐标系下的坐标投影到地图坐标系X-Y平面得到BEV视图,进一步将点云按照高程图分辨率进行栅格化处理;
对投影到相同单元格的多个像素RGB通道取均值作为该单元格的颜色信息,最终得到颜色高程图层。
作为进一步的技术方案,将采集的四足机器人落脚点位置,通过高斯过程回归估计支撑平面,具体为:
实时采集四足机器人足端力传感器数据,当受力达到阈值时认为该足处于触地支撑状态,获取该足端在地图坐标系下的三维坐标,送入缓存队列;
取出缓存队列中所有落脚点坐标,以落脚点X,Y作为输入,Z作为输出,训练高斯过程回归超参数;
生成以机器人为中心的位置采样,将所有采样位置通过坐标变换变换至地图坐标系下,并经高斯过程回归处理得到所有采样点的Z坐标,即为预测的支撑面。
作为进一步的技术方案,高斯过程回归中核函数的选择,该核函数由3个具有不同特征的核函数组合而成:
核函数共包括三项:
第一项RBF核函数用于捕捉输入间的平滑关系,保证拟合平面的平滑性;
第二项指数核函数捕捉输入的指数衰减,弥补RBF核函数在不连续处的过分平滑;
第三项核函数捕捉输入间的线性关系,捕捉地形起伏较大的情况,更好地适用于楼梯、台阶场景的平面拟合。
作为进一步的技术方案,还包括:
结合高程图与颜色图层计算不同颜色的方差,方差大小代表该颜色下的地形起伏信息;
将高程图形状、生成的高程图颜色图层形状的通道合并为特征向量,而后执行DBSCAN聚类方法,将4通道特征向量聚类为n类;
对每一类聚类结果的RGB三通道的m个像素分别进行均值滤波得到每一类的颜色信息:
计算每一类的高程通道方差作为该类的方差,最终得到n个颜色对应的方差;
将每个类别对应的方差映射回高程图,得到颜色方差层用于表示不同颜色下的地形起伏信息,辅助地形编码。
作为进一步的技术方案,通过深度神经网络编码-解码对前方地形进行重构,包括:
将高程图、拟合支撑面、颜色方差送入深度神经网络,用于融合三通道感知信息,生成可靠的地形编码;
深度神经网络包含三个模块:特征提取模块、特征融合模块、地形编码模块;
特征提取模块由卷积神经网络和自注意力模块构成,用于提取各个模态输入自身特征;
特征融合模块由交叉注意力模块构成,分别提取颜色方差层与高程图层、高程图层与拟合支撑面层的共同特征;
地形编码模块采用编码器-解码器网络架构,该模块对多模提取特征做地形编码最终去除3D传感器的环境噪声,得到更利于机器人运动规划的地形实际支撑面信息。
作为进一步的技术方案,生成代价地图的具体步骤为:
将RGB图像分割为k个超像素块,对每个像素块做均值滤波作为该超像素块的颜色信息:
将各超像素块赋值回RGB图像得到超像素图像,将超像素图像与获取的地形重构后的实际支撑面输入卷积神经网络提取特征后,输入多层感知器,得到k个超像素的可通行性;
将每个像素对应的可通行性信息投影到地图坐标系下得到可通行区域,进而可生成栅格化代价地图,用于后续导航模块做路径规划与躲避障碍物。
第二方面,公开了一种基于多模融合的四足机器人复杂场景感知系统,包括:
地形编码模块,被配置为:获取多模态传感器数据,包括高程图、RGB图像以及足迹拟合平面;
基于获取的数据,通过深度神经网络编码-解码对前方地形进行重构,去除3D传感器的环境噪声,得到更利于机器人运动规划的地形实际支撑面信息;
可通行区域分割与导航模块,被配置为:通过对RGB图像聚类获取超像素图像,结合重构的实际支撑面信息经多层感知器网络处理生成图像坐标系下的可通行区域,进而生成代价地图。
以上一个或多个技术方案存在以下有益效果:
本发明技术方案在穿越复杂地形时,融合多传感器信息,识别地形种类,在可穿透地形合理估计支撑面,最终融合生成真实的估计平面,帮助机器人平稳安全地穿行于复杂地形。
具体的,本发明技术方案融合2.5D高程图、RGB图像以及足迹拟合平面等多模感知结果,通过深度神经网络编码-解码对前方地形进行重构,去除3D传感器的环境噪声(草、雪、光照等),得到更利于机器人运动规划的地形实际支撑面信息。通过对RGB图像聚类获取超像素图像,结合地形编码模块重构的实际支撑面信息经多层感知器网络处理生成图像坐标系下的可通行区域,进而生成代价地图,可输入后续导航模块,指导机器人前进方向。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例系统整体框架图;
图2为本发明实施例方法流程图;
图3为本发明实施例地形重构编码网络结构图;
图4为本发明实施例可通行区域分割网络结构图;
图5为本发明实施例高斯过程回归RBF核函数。
图6为本发明实施例高斯过程回归指数核函数。
图7为本发明实施例高斯过程回归开方指数核函数。
图8为本发明实施例RBF核函数和指数核函数加权效果。
图9为本发明实施例RBF核函数和开方指数核函数加权效果。
图10为本发明实施例综合三项核函数加权效果。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
参见附图2所示,本实施例公开了一种基于多模融合的四足机器人复杂场景感知方法,该方法包括下列顺序的步骤:
步骤一:该方法在四足机器人头部安装两部深度相机分别采集近景与远景图像信息,具体地,远景深度正视前方安装以获得更广视野,而近景相机采取45°向下倾斜安装以更好地关注脚底地形情况。采集近景深度相机的深度点云,生成以机器人为中心的的高程图。
步骤二:采集近景深度相机RGB图像,将RGB像素投影到BEV视角下并与高程图对齐,得到颜色图层。
具体地,首先将深度相机设置为深度对齐模式,实现RGB图像的RGB像素与深度点云的一一对应,而后将深度相机生成的深度点云由相机坐标系经坐标变换变换到地图坐标系下:
上式中,左侧、/>、/>表示点云在地图坐标系下的坐标,右侧/>、/>、/>表示点云在相机坐标系下的坐标,/>等参数表示相机坐标系到地图坐标系的旋转关系,/>表示两坐标系间的平移关系,旋转与平移关系组合构成两坐标系间的变换矩阵。
将点云在地图系下的坐标投影到地图坐标系X-Y平面得到BEV视图,进一步将点云按照高程图分辨率r进行栅格化处理:
上式中、/>表示点云在地图坐标下的坐标,该坐标除以高程图分辨率/>并取整得到点云所对应高程图的单元格索引。
对投影到相同单元格的多个像素RGB通道取均值作为该单元格的颜色信息,最终得到颜色图层。
上式中为落在该单元格的像素数量,/>、/>、/>分别为落在第i个单元格的第/>个像素的R、G、B三个颜色通道值,/>、/>、/>为均值滤波后第i个单元格的R、G、B三个颜色通道值。
步骤三:采集四足机器人落脚点位置,通过高斯过程回归估计支撑平面。
高斯过程回归是一种非参数化的回归方法,使用高斯过程来建模随机过程中的关系,在拟合平面上具有较强的表现。在高斯过程回归中,假设待建模的函数是一个高斯过程,给定一组输入数据点和对应的输出值,可以使用高斯过程的先验分布和观测数据来获得后验分布,进而得到对未知数据点的预测。
设有一组数据点,对应的输出为/>。高斯过程的先验分布可以表示为:
其中,为均值函数,/>为协方差函数。
当给定观测数据,可以使用贝叶斯定理得到高斯过程的后验分布。后验分布的均值和协方差矩阵取决于先验分布和观测数据。
通过后验分布可以预测新的未知数据点分布。给定新的输入,对应预测分布为:
对于拟合二维平面,设拟合区域为(n,n)的方形区域,输入对应高程图2D栅格的坐标位置,输出对应高程图各栅格位置的高度。通过历史观测数据更新建模参数,可以实现对二维平面的拟合与预测。
具体实现如下:
首先实时采集四足机器人足端力传感器数据,当受力达到阈值时认为该足处于触地支撑状态,获取该足端在地图坐标系下的三维坐标,送入缓存队列。
取出缓存队列中所有落脚点坐标/>,其中,以落脚点X,Y作为输入,Z作为输出,训练高斯过程回归超参数。具体地,(x,y,z)代表的是地图坐标系下的三维坐标,四足机器人的落脚点是在三维地图坐标系下记录的,反映了地图坐标系下水平面坐标为(x,y)的这个位置,支撑面高度为z。
生成以机器人为中心的x/>矩形位置采样/>,将所有采样位置通过坐标变换变换至地图坐标系下,并经高斯过程回归处理得到所有采样点的Z坐标,即为预测的支撑面。
高斯过程回归拟合效果关键在于核函数的选择,本发明提出一种新的核函数,来更好地拟合二维平面,该核函数由3个具有不同特征的核函数组合而成:
核函数共包括三项,第一项RBF核函数用于捕捉输入间的平滑关系,保证拟合平面的平滑性;第二项指数核函数捕捉输入的指数衰减,可以弥补RBF核函数在不连续处的过分平滑,第三项核函数捕捉输入间的线性关系,捕捉地形起伏较大的情况,更好地适用于楼梯、台阶等场景的平面拟合。
其中、/>、/>、/>、/>为超参数,其中/>为信号方差参数、/>为长度尺度,/>、/>、/>为三种核函数的组合比例参数,单核函数形状及组合效果见附图5-10。
步骤四:结合高程图与颜色图层/>计算不同颜色的方差,方差大小代表该颜色下的地形起伏信息。设高程图/>形状为/>,步骤二生成的颜色图层/>形状为/>,将二者通道合并为/>的特征向量/>,而后执行DBSCAN聚类方法,将4通道特征向量聚类为n类/>。
对每一类聚类结果的RGB三通道的m个像素分别进行均值滤波得到每一类的颜色信息:
计算每一类的高程通道方差作为该类的方差,最终得到n个颜色对应的方差。
将每个类别对应的方差映射回高程图,得到颜色方差层用于表示不同颜色下的地形起伏信息,辅助地形编码。
步骤五:将高程图、拟合支撑面、颜色方差送入深度神经网络进行编码-解码,获取真实的可支撑地形信息,可送入后续控制模块,控制机器人安全平稳穿行于多种复杂地形。
本发明设计了多地形生成网络MTG-NET(Muiti-Terrain-Generator -Network),用于融合三通道感知信息,生成可靠的地形编码,具体的,多地形生成网络属于感知网络部分,输入为颜色方差层、高程图、拟合支撑面;经网络处理后得到更可靠的支撑面地形信息。MTG-NET包含三个模块:特征提取模块、特征融合模块、地形编码模块。
特征提取模块由卷积神经网络和自注意力模块(self-attention)构成用于提取各个模态输入自身特征。
特征融合模块由交叉注意力模块(cross-attention)构成,分别提取颜色方差层与高程图层/>、高程图层/>与拟合支撑面层/>的共同特征。
地形编码模块采用编码器-解码器网络架构,该架构可以采用Unet或者Transformer等常见的编码-解码架构。该模块对多模提取特征做地形编码最终去除3D传感器的环境噪声(草、雪、光照等),得到更利于机器人运动规划的地形实际支撑面信息。
具体网络结构见说明书附图3。
步骤六:用SLIC方法对远景深度相机采集到的RGB图像进行颜色聚类,将聚类色块结合步骤五得到的重构后的地形实际支撑面信息经多层感知器网络处理,得到每个色块的可通行性,进而获取在图像坐标系下的可通行区域,将可通行区域投影到地面获取可通行区域,进而生成代价地图,指导导航模块进行路径规划与躲避障碍物。
具体地,首先使用SLIC超像素分割方法将RGB图像分割为k个超像素块,对每个像素块做均值滤波作为该超像素块的颜色信息:
将各超像素块赋值回RGB图像得到超像素图像,将超像素图像与步骤五获取的地形重构后的实际支撑面输入卷积神经网络提取特征后,输入多层感知器(MLP),得到k个超像素的可通行性。可通行区域分割网络结构图见附图4。
类似步骤二的过程,将每个像素对应的可通行性信息投影到地图坐标系下得到可通行区域,进而可生成栅格化代价地图,可用于后续导航模块做路径规划与躲避障碍物。
本发明将通过融合深度点云获取的高程图信息、相机采集的RGB图像信息、力传感器获取的足底拟合平面信息经神经网络进行地图编码,最终滤除传感器环境噪声,得到更适合机器人运动规划的实际地形支撑面信息,可以帮助机器人穿越草地、雪地等可穿透地形;本发明通过融合多模感知结果分割可通行区域,进而生成代价地图,可以帮助机器人实现复杂场景下的导航与路径规划。本算法对色彩信息的处理使用了DBSCAN以及SLIC的聚类方法,一方面可以提高处理效率,另一方面将像素聚类为色块处理降低了算法对感知精度的依赖,便于在仿真环境中的训练模型,降低了算法从仿真到现实迁移的难度。
实施例二
本实施例的目的是提供一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述方法的步骤。
实施例四
如图1所示,本实施例的目的是提供一种基于多模融合的四足机器人复杂场景感知系统,包括:地形编码模块以及可通行区域分割与导航模块。
地形编码模块融合2.5D高程图、RGB图像以及足迹拟合平面等多模感知结果,通过深度神经网络编码-解码对前方地形进行重构,去除3D传感器的环境噪声(草、雪、光照等),得到更利于机器人运动规划的地形实际支撑面信息。可通行区域分割与导航模块通过对RGB图像聚类获取超像素图像,结合地形编码模块重构的实际支撑面信息经多层感知器网络处理生成图像坐标系下的可通行区域,进而生成代价地图,可输入后续导航模块,指导机器人前进方向。
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.一种基于多模融合的四足机器人复杂场景感知方法,其特征是,包括:
获取多模态传感器数据;
包括:
将采集的深度相机点云生成以机器人为中心的的高程图;
将采集的深度相机RGB图像的RGB像素投影到BEV视角下并与高程图对齐,得到高程图、颜色图层;
将采集的四足机器人落脚点位置,通过高斯过程回归估计支撑平面;
结合高程图与颜色图层计算不同颜色的方差,方差大小代表该颜色下的地形起伏信息;
将高程图形状、生成的颜色图层形状的通道合并为特征向量,而后执行DBSCAN聚类方法,将4通道特征向量聚类为n类;
对每一类聚类结果的RGB三通道的m个像素分别进行均值滤波得到每一类的颜色信息:
计算每一类的高程通道方差作为该类的方差,最终得到n个颜色对应的方差;
将每个类别对应的方差映射回高程图,得到颜色方差层用于表示不同颜色下的地形起伏信息,辅助地形编码;
基于获取的数据,通过深度神经网络编码-解码对前方地形进行重构,去除3D传感器的环境噪声,得到更利于机器人运动规划的地形实际支撑面信息;
通过深度神经网络编码-解码对前方地形进行重构,包括:
将高程图、拟合支撑面、颜色方差送入深度神经网络,用于融合三通道感知信息,生成可靠的地形编码;
深度神经网络包含三个模块:特征提取模块、特征融合模块、地形编码模块;
特征提取模块由卷积神经网络和自注意力模块构成,用于提取各个模态输入自身特征;
特征融合模块由交叉注意力模块构成,分别提取颜色方差层与高程图层、高程图层与拟合支撑面层的共同特征;
地形编码模块采用编码器-解码器网络架构,该模块对多模提取特征做地形编码最终去除3D传感器的环境噪声,得到更利于机器人运动规划的地形实际支撑面信息;
通过对RGB图像聚类获取超像素图像,结合重构的实际支撑面信息经多层感知器网络处理生成图像坐标系下的可通行区域,进而生成代价地图。
2.如权利要求1所述的一种基于多模融合的四足机器人复杂场景感知方法,其特征是,得到颜色图层的具体过程为:
将深度相机设置为深度对齐模式,实现RGB像素与深度点云的一一对应,而后将深度相机生成的深度点云由相机坐标系经坐标变换变换到地图坐标系下;
将点云在地图坐标系下的坐标投影到地图坐标系X-Y平面得到BEV视图,进一步将点云按照高程图分辨率进行栅格化处理;
对投影到相同单元格的多个像素RGB通道取均值作为该单元格的颜色信息,最终得到颜色图层。
3.如权利要求1所述的一种基于多模融合的四足机器人复杂场景感知方法,其特征是,将采集的四足机器人落脚点位置,通过高斯过程回归估计支撑平面,具体为:
实时采集四足机器人足端力传感器数据,当受力达到阈值时认为该足处于触地支撑状态,获取该足端在地图坐标系下的三维坐标,送入缓存队列;
取出缓存队列中所有落脚点坐标,以落脚点X,Y作为输入,Z作为输出,训练高斯过程回归超参数;
生成以机器人为中心的位置采样,将所有采样位置通过坐标变换变换至地图坐标系下,并经高斯过程回归处理得到所有采样点的Z坐标,即为预测的支撑面。
4.如权利要求1所述的一种基于多模融合的四足机器人复杂场景感知方法,其特征是,高斯过程回归中核函数的选择,该核函数由3个具有不同特征的核函数组合而成:
核函数共包括三项:
第一项RBF核函数用于捕捉输入间的平滑关系,保证拟合平面的平滑性;
第二项指数核函数捕捉输入的指数衰减,弥补RBF核函数在不连续处的过分平滑;
第三项核函数捕捉输入间的线性关系,捕捉地形起伏较大的情况,更好地适用于楼梯、台阶场景的平面拟合。
5.如权利要求1所述的一种基于多模融合的四足机器人复杂场景感知方法,其特征是,生成代价地图的具体步骤为:
将RGB图像分割为k个超像素块,对每个像素块做均值滤波作为该超像素块的颜色信息:
将各超像素块赋值回RGB图像得到超像素图像,将超像素图像与获取的地形重构后的实际支撑面输入卷积神经网络提取特征后,输入多层感知器,得到k个超像素的可通行性;
将每个像素对应的可通行性信息投影到地图坐标系下得到可通行区域,进而可生成栅格化代价地图,用于后续导航模块做路径规划与躲避障碍物。
6.一种基于如权利要求1-5任一项所述方法的多模融合的四足机器人复杂场景感知系统,其特征是,包括:
地形编码模块,被配置为:获取多模态传感器数据,包括高程图、RGB图像以及足迹拟合平面;
基于获取的数据,通过深度神经网络编码-解码对前方地形进行重构,去除3D传感器的环境噪声,得到更利于机器人运动规划的地形实际支撑面信息;
可通行区域分割与导航模块,被配置为:通过对RGB图像聚类获取超像素图像,结合重构的实际支撑面信息经多层感知器网络处理生成图像坐标系下的可通行区域,进而生成代价地图。
7.一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1-5任一所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时执行上述权利要求1-5任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410238784.5A CN117830991B (zh) | 2024-03-04 | 2024-03-04 | 一种基于多模融合的四足机器人复杂场景感知方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410238784.5A CN117830991B (zh) | 2024-03-04 | 2024-03-04 | 一种基于多模融合的四足机器人复杂场景感知方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117830991A CN117830991A (zh) | 2024-04-05 |
CN117830991B true CN117830991B (zh) | 2024-05-24 |
Family
ID=90522905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410238784.5A Active CN117830991B (zh) | 2024-03-04 | 2024-03-04 | 一种基于多模融合的四足机器人复杂场景感知方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117830991B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101813475A (zh) * | 2010-04-24 | 2010-08-25 | 上海交通大学 | 远距离障碍的自适应检测方法 |
WO2022160430A1 (en) * | 2021-01-27 | 2022-08-04 | Dalian University Of Technology | Method for obstacle avoidance of robot in the complex indoor scene based on monocular camera |
CN115639823A (zh) * | 2022-10-27 | 2023-01-24 | 山东大学 | 崎岖起伏地形下机器人地形感知与移动控制方法及系统 |
CN115830469A (zh) * | 2022-11-25 | 2023-03-21 | 中国科学院空天信息创新研究院 | 基于多模态特征融合的滑坡与周边地物识别方法及系统 |
CN116797787A (zh) * | 2023-05-22 | 2023-09-22 | 中国地质大学(武汉) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 |
CN117246425A (zh) * | 2023-11-02 | 2023-12-19 | 中国科学技术大学 | 四足机器人导航避障与攀爬楼梯方法及系统 |
CN117612135A (zh) * | 2023-11-29 | 2024-02-27 | 霞智科技有限公司 | 一种基于transform的点云和图像融合的行驶区域判断方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12062174B2 (en) * | 2020-09-15 | 2024-08-13 | Sri International | Fully automated multimodal system architecture for semantic segmentation of large-scale 3D outdoor point cloud data |
-
2024
- 2024-03-04 CN CN202410238784.5A patent/CN117830991B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101813475A (zh) * | 2010-04-24 | 2010-08-25 | 上海交通大学 | 远距离障碍的自适应检测方法 |
WO2022160430A1 (en) * | 2021-01-27 | 2022-08-04 | Dalian University Of Technology | Method for obstacle avoidance of robot in the complex indoor scene based on monocular camera |
CN115639823A (zh) * | 2022-10-27 | 2023-01-24 | 山东大学 | 崎岖起伏地形下机器人地形感知与移动控制方法及系统 |
CN115830469A (zh) * | 2022-11-25 | 2023-03-21 | 中国科学院空天信息创新研究院 | 基于多模态特征融合的滑坡与周边地物识别方法及系统 |
CN116797787A (zh) * | 2023-05-22 | 2023-09-22 | 中国地质大学(武汉) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 |
CN117246425A (zh) * | 2023-11-02 | 2023-12-19 | 中国科学技术大学 | 四足机器人导航避障与攀爬楼梯方法及系统 |
CN117612135A (zh) * | 2023-11-29 | 2024-02-27 | 霞智科技有限公司 | 一种基于transform的点云和图像融合的行驶区域判断方法 |
Non-Patent Citations (8)
Title |
---|
A New Floor Region Estimation Algorithm Based on Deep Learning Networks with Improved Fuzzy Integrals for UGV Robots;Sun, CC (Sun, Chi-Chia); Lin, HE (Lin, Hou-En);Journal of Imaging Science and Technology;20190531;全文 * |
Shigemichi Matsuzaki ; Hiroaki Masuzawa ; Jun Miura.Image-Based Scene Recognition for Robot Navigation Considering Traversable Plants and Its Manual Annotation-Free Training.IEEE.2022,全文. * |
四足机器人地形识别与路径规划算法;张慧;荣学文;李贻斌;李彬;丁超;张俊文;张勤;;机器人;20150915(第05期);全文 * |
四足机器人室外环境建图与自主导航研究;陈欣;信息科技辑;20240115;全文 * |
四足机器人的环境感知及行为决策研究;梁蓝月;信息科技辑;20240215;全文 * |
基于局部可通过性地图构建的四足机器人避障研究;吴陈成;信息科技辑;20230215;全文 * |
移动机器人基于多传感器信息融合的室外场景理解;闫飞;庄严;王伟;;控制理论与应用;20110815(第08期);全文 * |
野外环境下基于稀疏点云的四足机器人可通过性分析;付应东;信息科技辑;20240115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117830991A (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3520076B1 (en) | Computer vision systems and methods for detecting and modeling features of structures in images | |
CN109766878B (zh) | 一种车道线检测的方法和设备 | |
CN106940704B (zh) | 一种基于栅格地图的定位方法及装置 | |
CN113819890B (zh) | 测距方法、装置、电子设备及存储介质 | |
CN111753698B (zh) | 一种多模态三维点云分割系统和方法 | |
CN114424250A (zh) | 结构建模 | |
CN113359782B (zh) | 一种融合lidar点云与图像数据的无人机自主选址降落方法 | |
CN109740604A (zh) | 一种行驶区域检测的方法和设备 | |
KR20200075727A (ko) | 깊이 맵 산출 방법 및 장치 | |
KR102695522B1 (ko) | 이미지 인식 모델을 트레이닝시키는 장치 및 방법과 이미지 인식 장치 및 방법 | |
CN113112491B (zh) | 一种悬崖检测方法、装置、机器人及存储介质 | |
CN112154448A (zh) | 目标检测方法、设备及可移动平台 | |
CN114219855A (zh) | 点云法向量的估计方法、装置、计算机设备和存储介质 | |
CN112907625A (zh) | 应用于四足仿生机器人的目标跟随方法及系统 | |
CN114859938A (zh) | 机器人、动态障碍物状态估计方法、装置和计算机设备 | |
CN115147798A (zh) | 可行驶区域预测方法、模型、装置及车辆 | |
CN117470246A (zh) | 路径规划方法、装置、存储介质及电子设备 | |
CN115147564A (zh) | 一种三维模型构建方法、神经网络训练方法以及装置 | |
CN117423102A (zh) | 点云数据处理方法以及相关设备 | |
CN117830991B (zh) | 一种基于多模融合的四足机器人复杂场景感知方法及系统 | |
CN115729250A (zh) | 一种无人机的飞行控制方法、装置、设备及存储介质 | |
Salah et al. | Summarizing large scale 3D mesh for urban navigation | |
CN118323195B (zh) | 无人车的控制方法以及装置 | |
WO2024199378A1 (zh) | 障碍物特征识别模型的训练方法、装置、设备及存储介质 | |
CN118537507A (zh) | 图像渲染方法与相关方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |