CN111975775B - 基于多角度视觉感知的自主机器人导航方法及系统 - Google Patents
基于多角度视觉感知的自主机器人导航方法及系统 Download PDFInfo
- Publication number
- CN111975775B CN111975775B CN202010813033.3A CN202010813033A CN111975775B CN 111975775 B CN111975775 B CN 111975775B CN 202010813033 A CN202010813033 A CN 202010813033A CN 111975775 B CN111975775 B CN 111975775B
- Authority
- CN
- China
- Prior art keywords
- robot
- index
- intersection
- navigation
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
- B25J9/1666—Avoiding collision or forbidden zones
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/292—Multi-camera tracking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明属于机器人导航领域,提供了一种基于多角度视觉感知的自主机器人导航方法及系统。其中,基于多角度视觉感知的自主机器人导航方法包括实时获取机器人前进方向图像以及左右两侧的图像并输入至多任务网络;经多任务网络预测出机器人自由可驱动区域、交叉口位置及交叉口转向;利用机器人自由可驱动区域生成局部导航指标,交叉口位置及交叉口转向生成全局导航指标,根据局部导航指标和全局导航指标生成组合指标,再结合预先构建的地图中映射出来的转向命令,得到机器人控制指令。
Description
技术领域
本发明属于机器人导航领域,尤其涉及一种基于多角度视觉感知的自主机器人导航方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
对于自主机器人导航,在一个非结构化的环境中,设计一个将目标导向导航与避障集成在一起的导航系统仍然具有挑战性,例如校园站点和一条挤满了行人和汽车的街道。这就要求机器人能够根据对周围环境的足够感知来处理不同的场景。
随着深度学习在各种视觉任务中表现出最先进的性能和RGB相机的低成本,基于视觉的导航方法受到了广泛的关注。基于视觉的自主导航有两大范式:中介感知和数据驱动的行为反射。前者适用于结构化环境,并主要基于中介表示作出决策,包括与自主导航相关的子任务,如分割、目标检测和深度估计。与RGB图像相比,该方法提供了更抽象和决策友好的特征。然而,它可能会增加驱动模型的不必要的复杂性,因为中介感知是一个高维的世界表示,可能包含与低维驾驶命令相比更加冗余的信息。
相反,行为反射方法避免手工制作的规则,并使用端到端模型通过学习人类驾驶演示从原始RGB图像映射到命令。现有的方法显示了在特定任务中的良好表现。然而,这样的模型工作起来就像一个黑匣子,在一个步骤内完成一个复杂的映射,这可能会降低模型的可解释性,并且可能不被人类信任或自信地使用。此外,不同的人类驾驶员在面对相同的情况时可能会受到不同的关注,这将混淆模型训练。除了上述两种范式外,还可采用直接感知方法进行自主导航,它直接预测环境的低维中间表示,例如到障碍物的距离和距离车道标记,而不是对整个场景进行复杂的解析,然后将这些表示输入到设计的驱动控制器中来控制车辆。然而,由于直接感知方法的中间表示形式多样,在实践中难以获得,大多数研究仅限于模拟环境。
现有的大多数方法,都是基于单一的前瞻性相机,而多摄像机系统在为决策提供更广泛的视野方面起着至关重要的作用在导航任务中。发明人发现,目前利用神经网络构建从多个摄像机图像和路由映射到行为的直接映射的方法存在图像输入的增加可能导致信息冗余,增加模型训练的难度的问题,而直接整合所有的相机功能可能会导致过度依赖的问题。
发明内容
为了解决上述问题,本发明提供一种基于多角度视觉感知的自主机器人导航方法及系统,其采用多任务学习方法,将行为反射、中介感知和直接感知结合起来,生成最优的控制策略,能够提高机器人的路径规划和避障能力。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于多角度视觉感知的自主机器人导航方法。
一种基于多角度视觉感知的自主机器人导航方法,包括:
实时获取机器人前进方向图像以及左右两侧的图像并输入至多任务网络;
经多任务网络预测出机器人自由可驱动区域、交叉口位置及交叉口转向;
利用机器人自由可驱动区域生成局部导航指标,交叉口位置及交叉口转向生成全局导航指标,根据局部导航指标和全局导航指标生成组合指标,再结合预先构建的地图中映射出来的转向命令,得到机器人控制指令。
本发明的第二个方面提供一种基于多角度视觉感知的自主机器人导航系统。
一种基于多角度视觉感知的自主机器人导航系统,包括:
图像获取模块,其用于实时获取机器人前进方向图像以及左右两侧的图像并输入至多任务网络;
导航预测模块,其用于经多任务网络预测出机器人自由可驱动区域、交叉口位置及交叉口转向;
控制指令生成模块,其利用机器人自由可驱动区域生成局部导航指标,交叉口位置及交叉口转向生成全局导航指标,根据局部导航指标和全局导航指标生成组合指标,再结合预先构建的地图中映射出来的转向命令,得到机器人控制指令。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的多角度视觉感知的自主机器人导航方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的多角度视觉感知的自主机器人导航方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明将获取的机器人前进方向图像以及左右两侧的图像,经多任务网络预测出机器人自由可驱动区域、交叉口位置及交叉口转向;利用机器人自由可驱动区域生成局部导航指标,交叉口位置及交叉口转向生成全局导航指标,根据局部导航指标和全局导航指标生成组合指标,再结合预先构建的地图中映射出来的转向命令,得到机器人控制指令,通过多任务学习方法,将行为反射、中介感知和直接感知结合起来,生成最优的控制策略,使机器人在现实世界中能够顺利,安全地自主导航,大大提高了机器人的路径规划和避障能力。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的自主机器人导航方法流程图;
图2是本发明实施例的网络体系结构;
图3(a)是监测机器人前部和左侧的状态;
图3(b)是利用滑动窗口查找横向机器人运动的最佳区域;
图4是本发明实施例的自主机器人导航的物理系统;
图5是本发明实施例的自主机器人导航方法应用于校园环境测试;
图6(a)-图6(e)是本发明实施例的自主机器人导航测试结果图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
参照图1,本实施例的基于多角度视觉感知的自主机器人导航方法,包括:
步骤1:实时获取机器人前进方向图像以及左右两侧的图像并输入至多任务网络。
在具体实施过程中,可采用设置在机器人正前位置以及机器人两侧的相机或摄像机来进行图像采集获取相应视觉信息。
步骤2:经多任务网络预测出机器人自由可驱动区域、交叉口位置及交叉口转向。
结合图2可知,本实施例的多任务网络包括编码器、底点检测网络、转角与路口推断网络;所述编码器用于提取机器人前进方向图像以及左右两侧的图像中的特征并共享输入至底点检测网络和转角与路口推断网络,由底点检测网络输出自由可驱动区域,由路口推断网络输出交叉口位置及交叉口转向。
考虑到使用多个摄像机部署车载平台的效率,本实施例使用移动网络V2分支在第五个“瓶颈”作为编码器,并将解码器部分替换为一个单一的密集上采样卷积。
在本实施例中,底点检测网络包括ReLU激活的卷积层、上采样层和Softmax层,基于提取的特征来定位包含该特征像素的列对应的障碍物的底部像素来检测可遍历区域。
所述转角与路口推断网络包括一个平均池层、两个具有RELU激活的卷积层和一个完全连接的层,在网络的末端使用乙状结肠层对于交叉口检测。
所述预先构建的地图中映射出来的转向命令由Map Net网络生成,所述Map Net用于从路由映射中对高级命令进行分类。其中,Map Net是一个结构上类似于多任务网络的简单网络,用于转向和交叉推理,而Softmax层用于对高级命令进行分类。
具体地,使用二元交叉熵损失(BCE)和均方损失(MSE)对检测交叉口和预测转向的网络进行了训练。Softmax交叉熵损失(SCE)用于底层像素检测和高层命令分类。损失函数如下所示:
其中,L_BCE为二元交叉损失函数;L_MSE为均方损失函数;L_SCE为softmax交叉熵损失函数;t是训练数据集的标签,y是网络的输出,N是样本数。k是多类分类任务中的类标签数。对于Bottompixel检测任务,K是输入图像的高度,而对于高级命令分类,K是3。在多任务网络的训练过程中,由于不同任务产生的损失梯度不同,简单的联合优化会导致收敛问题。此外,在不同损失之间找到适当的权重是一项复杂而困难的任务。因此,本实施例分别训练任务。首先训练底部像素检测任务,然后冻结参数作为初始化特征提取器来训练其他任务。
在实现中,使用分辨率分别为160*128和50*50的图像和批量大小为32的图像来训练所提出的多任务网络和MapNet。对于数据增强,使用随机亮度,并在所有相机数据上添加盐和胡椒噪声。此外,在底部像素检测数据上使用水平翻转。使用亚当优化器来训练本实施例的模型,初始学习率为0.0001。
步骤3:利用机器人自由可驱动区域生成局部导航指标,交叉口位置及交叉口转向生成全局导航指标,根据局部导航指标和全局导航指标生成组合指标,再结合预先构建的地图中映射出来的转向命令,得到机器人控制指令。
机器人应能在遵循路线命令的同时继续沿道路行驶,并避免行人和机器人等障碍物。为了满足现实机器人运行的要求,设置了以下规则来生成导航指标:
(a)如果前方没有障碍物,机器人在道路中间移动;
(b)当到达交叉口时,机器人能够按照高级命令转弯;
(c)机器人能够在观察周围环境的情况下选择最佳方向绕过障碍物。
根据上述规则,本实施例主要采用预测转向进行沿路行驶。此外,还提出了全球和地方导航的两种指标。最后,将这两类指标集成到组合指标中,然后用于最后两条规则。
(1)局部导航指标:基于底像素信息提取局部指标,以评估机器人周围的环境。
根据窗口和归一化底像素,基于前进方向图像的纵向安全指标来评估局部纵向运动的安全状态;基于前进方向图像和左右两侧图像,采用两种横向安全指标来评价局部横向运动的安全状态。
具体地,使用底像素的位置作为对障碍物的近似距离测量。先把它归一化为[0,1]。在归一化中,不考虑上1/4的图像,因为它通常被偏远的建筑物或天空覆盖。然后,将图像分成一系列重叠的窗口。如图3(a)所示,中心图像的左半部和左图像一起用于描述左侧的整体可遍历区域。Wc,和分别是中央、左和右窗口中的归一化底部像素集。此外,如图3(b)所示,利用滑动窗口,根据对应窗口中归一化的底点像素集合中的最大均值找到横向机器人运动的最佳区域。是对应于输出窗口的归一化底部像素集。相似的,在右侧定义有和和在左侧定义有ils和irs代表对应滑动窗口的下标。
根据窗口和归一化底像素,提出一个基于中央摄像机的纵向安全指示器(Lc)来评估局部纵向运动的安全状态。此外,基于中央摄像机和侧摄像机,提出了两种横向安全指标,分别为左侧横向安全指标Lls和右侧横向安全指标Lrs,用于评价局部横向运动的安全状态。考虑到最接近机器人的障碍物将带来最高的风险,这些指标定义如下:
在实验中,经验性地设置了α=20,β=0.25和γ=0.15。其中,α是函数的形状参数,β与γ都是函数的位置参数,v是机器人车辆的速度。纵向安全指示器只与距离最近的障碍物有关,而横向安全指示器也与机器人的速度v有关,因为允许车辆在低速、周围有障碍物时小心转弯。
(2)全局导航指标:用P(IS)表示交叉口检测结果,这是一个概率,它表示相应的横向方向是交叉口的可能性。然后,从规划好的地图中映射出来的高级命令包括向左转,向前,向右转,用于选择交叉口的转动方向。左右两侧的全局指标设置如下:
其中,Gls表示全局导航左转指标;Grs表示全局导航右转指标;cmd表示从地图中提取出的高级指令,包括左转、右转、直行。
(3)组合指标:将这两种类型的指标结合起来,并提出以下三种组合指标:
其中的和分别是Wc、和的平均值。表示中间相机的正中间2/5宽度的图片的底点的平均值;M_c表示中间相机计算出的碰撞概率;Mls表示左侧相机计算得到的碰撞概率;Mrs表示右侧相机计算得到的碰撞概率;表示左侧相机得到的图片里右边2/5宽度的底点的平均值;表示右侧相机得到的图片里左边2/5宽度的底点的平均值;Wc表示中间相机的正中间2/5宽度的图片的的底点的集合。
因此,上述综合指标既考虑了机器人的局部安全性,也考虑了机器人的全局运动方向。由于这些指标是低维的,因此很容易根据它们设计控制器。
其中,指标与预测的转向s输入到设计的驱动控制器中,以生成控制策略,包括速度v(m/s)和最终的转角s(rad/s)。根据这些指标,控制器对不同的情况产生不同的控制策略。这允许安全的导航和更可解释的决策,选择向期望的方向移动或具有最大数量的可遍历空间。
机器人速度v被定义为与纵向运动Lc的局部指标成正比。Vmax表示机器人的最大速度。在每个时间步骤中,控制器根据不同摄像机的组合指标判断是否需要侧摄像机来辅助决策。在侧摄像机的帮助下,使用一种运动规划方法来生成转向命令,作为在特定情况下的初始转向的替代方法,如到达交叉口或面临障碍。首先根据组合指标构造一组向量没有使用固定窗口和像这样的矢量角,而是使用最优滑动窗口的索引ils和irs来调整矢量的角度,以进行运动平滑。这些向量向左、中、右方向,分别对应于[-90°、-30°]、0°和[30°、90°]。如果纵向安全指标Lc小于0.5,选择避障方向作为基于和最可遍历区域的方向。否则,方向由最大组合指标决定。作为预测转向的替代方案,st是由从和导出的合成矢量的角度决定的。在其他情况下,使用预测的转向sp来控制机器人沿道路移动。同时,横向安全指标Lls和Lrs用于调整转向以防止横向碰撞。
下面利用机器人导航在现实环境中的实验,以证明所提出的模型方法。
物理设置:物理系统如图4图所示。除遥控器外,所有部件都安装在车辆上,AGILESCOUT。在NVIDIA Jetson TX2上运行机器人操作系统(ROS)和Ubuntu。为小车配备了三个由J20模块驱动的树莓派RGB相机。这三个摄像机的视场都是60度,相邻的角度也是60度。此外,还使用第三方地图API来获得基于GPS信息的具有导航路线的二维地图。为了去除冗余信息,对地图进行裁剪和二值化。
测试场景:如图5所示,用在校园环境中运行的车辆作为机器人来测试本实施例的方法。从人类演示中收集来自所有三个摄像机的总共45K图像的数据,以及提供路线信息的相应地图图像。这些图像用于底部像素检测、高级命令分类和转向预测,这些图像只使用来自中央摄像机的图像。由于缺乏交叉口检测的正样本,还通过包括来自中央摄像机的一些图像来扩展正样本,导致用于交叉口检测的总共12K图像。在每个任务中,20%的数据用于验证。
使用不同的网络作为骨干,在那里它们被修改以满足上采样的尺寸要求。为了比较不同编码器网络在精度和速度方面的模型变体,在表I中报告了均方根误差(RMSE)、平均精度、平均绝对误差(MAE)和帧每秒(FPS)。
使用RMSE来执行转向预测。对于交叉口检测和高级命令分类,采用平均分类精度来评价性能。对于底层像素检测任务,采用MAE度量,它表示地面真相与预测之间的平均像素位移。机载板子上的FPS的数量用于反映模型的计算效率。
如表I所示,由于更深的网络结构和剩余模块,ResNet-50和Inception-ResNetV2获得了更好的性能,但计算效率低下使它们难以部署在移动平台上。高的计算效率对于机器人导航至关重要,因为它确保车辆能够及时响应紧急情况。虽然ResNet-8是一个计算效率较高的残差网络,但其浅层网络结构不适合于复杂的像素级检测任务。考虑到计算效率和性能之间的平衡,最终使用移动网V2作为编码器。
在实验中,将本实施例的方法与三种最先进的方法进行了比较:DroNet、PilotNet和MVE2E。DroNet和PilotNet都是单视图模型。值得一提的是,PilotNet使用三个相机进行训练,而只有中央相机用于导航。MVE2E是一个多视图模型,它是PilotNet的一个更新版本。然而,与本实施例的方法不同,它以一种天真的方式将三个摄像机的图像合并在一起,即直接融合三个摄像机的图像特征,从而导致对中心图像的过度依赖。此外,还介绍了本实施例的方法的消融版本SV。唯一的区别是SV只使用中央摄像机进行训练和测试。为了训练PilotNet和MVE2E的避障模型,还收集了一些带有障碍物的图像和相应的转向以绕过障碍物。同时,这些附加数据也被用来训练DroNet的碰撞推理模型。为了进行比较,定义了以下两个任务来评估基线和本实施例的方法的性能。
没有地图任务:没有计划的路线,终止条件是发生碰撞或达到预设的最大持续时间(120s)。
使用地图任务:路由地图被添加为额外的导航信息,这需要机器人根据计划的路线到达指定的目的地。上述两项任务都是在简单和复杂的场景中进行的。简单的场景只包含环境中的一些静态障碍,而复杂的场景包括行人或人为添加的路障等动态障碍。这两项任务都进行了10次测试,并报告了平均性能。评估无地图任务在驱动长度和时间方面的性能。对于Map Task,增加了两个额外的度量:用户干预和错过的交集。用户干预的数量是指测试过程中发生错误的时间,例如:击中一个需要手动复位的障碍。错过交叉口表示错过的交叉口数量。
表I使用不同度量的各种骨干的比较
主干 | Resnet8 | Resnet50 | Inception-ResNet-V2 | MobileNetV2 |
均方根误差 | 0.168 | 0.099 | 0.102 | 0.108 |
平均准确率 | 91.72% | 96.68% | 96.17% | 94.74% |
平均绝对误差 | 4.83 | 2.33 | 2.65 | 2.88 |
每秒传输帧数 | 13.52 | 4.97 | 3.88 | 8.92 |
表II本实施例的方法和基线之间的定量比较
其中,No.UI和No.MI分别表示用户干预的数量和错过的交叉口。如表II所示,在无地图任务中,当道路中间没有障碍物时,本实施例的方法和基线都可以驱动很长的距离,表明所有的方法都可以在简单的环境中很好地完成保持车道的任务。然而,当遇到动态障碍时,DroNet、PilotNet和SV受到狭窄视野的限制,并且经常遇到障碍。他们的驾驶长度和时间比本实施例的该方法少。由于三个摄像机的图像天真地合并,MVE2E也无法避免动态障碍,因此无法长距离驱动。
在“使用地图任务”中,添加了地图信息作为高级计划器来完成点对点导航任务。然而,如表II所示,由于GPS定位的偏差,DroNet、PilotNet和SV经常错过一些转弯交叉口。这些方法依赖于GPS定位的高精度,因为单个摄像机提供的视觉信息不足以找到交叉口。MVE2E从多个摄像机中受益,因此错过了较少的交叉口。本实施例的方法不仅使用多个摄像机拍摄图像,而且还包括一个特定的网络处理侧摄像机捕获的图像以进行交叉口检测。因此,本实施例的方法需要最少的干预,错过了最少的交叉点。
图6(a)表示,当机器人只需继续前进时,所有的方法都运行良好。然而,如图6(b)和图6(c)所示,只有本实施例的方法才能使机器人在交叉口准确转动,而其他的方法显然错过了交叉口。在图6(d),机器人前面有一个动态障碍,而两边都有可通过的区域。面对障碍时,DroNet经常陷入停顿。由于视野狭窄,PilotNet以不断左右摇摆而结束。由MVE2E预测的转向角度太小,无法避免障碍物,因为它无法决定通过哪一边。在图6(e)中,初始位置有障碍物阻挡机器人的前部和右侧,但左侧有一个可通过的区域。同样,DroNet和PilotNet都遇到了障碍,因为由于缺乏两边的信息,它们无法检测可通过区域。由于MVE2E的多摄像机设置,MVE2E不能准确地估计转弯角并引起碰撞,找到可通过的区域。相反,本实施例的方法可以准确地识别哪一边是可访问的,并成功地绕过障碍物。值得注意的是,本实施例的方法不适用恒定的速度来避障,而是可以根据车辆的安全状态产生适当的速度。
此外,为了评估每个摄像机的信息对最终决策的贡献,定义了决策比率,这是每个摄像机的全局导航指标与它们之和的比率。在不同的场景下,所有三个摄像机的贡献对决策具有不同的权重,表明每个摄像机都生效。例如,在图6(a)中,由于道路上没有障碍物,两侧摄像机的贡献为0,因此车辆只能依靠中央照相机提供的信息行驶。作为对比,在图6(d)中,由于行人阻挡道路,本实施例的方法根据侧摄像机收集的信息做出左转的决定,其中左侧摄像机的贡献略高,因为它比右侧具有更多的可遍历区域(L:0.5、R:0.48)。
本实施例基于多摄像机感知的深度学习框架,采用多任务学习方法,将行为反射、中介感知和直接感知结合起来,生成最优的控制策略,使机器人在现实世界中能够顺利,安全地自主导航,大大提高了机器人的路径规划和避障能力。
实施例二
本实施例提供了一种基于多角度视觉感知的自主机器人导航系统,其包括:
(1)图像获取模块,其用于实时获取机器人前进方向图像以及左右两侧的图像并输入至多任务网络。
在具体实施过程中,可采用设置在机器人正前位置以及机器人两侧的相机或摄像机来进行图像采集获取相应视觉信息。
(2)导航预测模块,其用于经多任务网络预测出机器人自由可驱动区域、交叉口位置及交叉口转向。
结合图2可知,本实施例的多任务网络包括编码器、底点检测网络、转角与路口推断网络;所述编码器用于提取机器人前进方向图像以及左右两侧的图像中的特征并共享输入至底点检测网络和转角与路口推断网络,由底点检测网络输出自由可驱动区域,由路口推断网络输出交叉口位置及交叉口转向。
考虑到使用多个摄像机部署车载平台的效率,本实施例使用移动网络V2分支在第五个“瓶颈”作为编码器,并将解码器部分替换为一个单一的密集上采样卷积。
在本实施例中,底点检测网络包括ReLU激活的卷积层、上采样层和Softmax层,基于提取的特征来定位包含该特征像素的列对应的障碍物的底部像素来检测可遍历区域。
所述转角与路口推断网络包括一个平均池层、两个具有RELU激活的卷积层和一个完全连接的层,在网络的末端使用乙状结肠层对于交叉口检测。
所述预先构建的地图中映射出来的转向命令由Map Net网络生成,所述Map Net用于从路由映射中对高级命令进行分类。其中,Map Net是一个结构上类似于多任务网络的简单网络,用于转向和交叉推理,而Softmax层用于对高级命令进行分类。
具体地,使用二元交叉熵损失(BCE)和均方损失(MSE)对检测交叉口和预测转向的网络进行了训练。Softmax交叉熵损失(SCE)用于底层像素检测和高层命令分类。损失函数如下所示:
其中,L_BCE为二元交叉损失函数;L_MSE为均方损失函数;L_SCE为softmax交叉熵损失函数;t是训练数据集的标签,y是网络的输出,N是样本数。k是多类分类任务中的类标签数。对于Bottompixel检测任务,K是输入图像的高度,而对于高级命令分类,K是3。在多任务网络的训练过程中,由于不同任务产生的损失梯度不同,简单的联合优化会导致收敛问题。此外,在不同损失之间找到适当的权重是一项复杂而困难的任务。因此,本实施例分别训练任务。首先训练底部像素检测任务,然后冻结参数作为初始化特征提取器来训练其他任务。
在实现中,使用分辨率分别为160*128和50*50的图像和批量大小为32的图像来训练所提出的多任务网络和MapNet。对于数据增强,使用随机亮度,并在所有相机数据上添加盐和胡椒噪声。此外,在底部像素检测数据上使用水平翻转。使用亚当优化器来训练本实施例的模型,初始学习率为0.0001。
(3)控制指令生成模块,其利用机器人自由可驱动区域生成局部导航指标,交叉口位置及交叉口转向生成全局导航指标,根据局部导航指标和全局导航指标生成组合指标,再结合预先构建的地图中映射出来的转向命令,得到机器人控制指令。
机器人应能在遵循路线命令的同时继续沿道路行驶,并避免行人和机器人等障碍物。为了满足现实机器人运行的要求,设置了以下规则来生成导航指标:
(a)如果前方没有障碍物,机器人在道路中间移动;
(b)当到达交叉口时,机器人能够按照高级命令转弯;
(c)机器人能够在观察周围环境的情况下选择最佳方向绕过障碍物。
根据上述规则,本实施例主要采用预测转向进行沿路行驶。此外,还提出了全球和地方导航的两种指标。最后,将这两类指标集成到组合指标中,然后用于最后两条规则。
(1)局部导航指标:基于底像素信息提取局部指标,以评估机器人周围的环境。
根据窗口和归一化底像素,基于前进方向图像的纵向安全指标来评估局部纵向运动的安全状态;基于前进方向图像和左右两侧图像,采用两种横向安全指标来评价局部横向运动的安全状态。
具体地,使用底像素的位置作为对障碍物的近似距离测量。先把它归一化为[0,1]。在归一化中,不考虑上1/4的图像,因为它通常被偏远的建筑物或天空覆盖。然后,将图像分成一系列重叠的窗口。如图3(a)所示,中心图像的左半部和左图像一起用于描述左侧的整体可遍历区域。Wc,和分别是中央、左和右窗口中的归一化底部像素集。此外,如图3(b)所示,利用滑动窗口,根据对应窗口中归一化的底点像素集合中的最大均值找到横向机器人运动的最佳区域。是对应于输出窗口的归一化底部像素集。相似的,在右侧定义有和和在左侧定义有ils和irs代表对应滑动窗口的下标。
根据窗口和归一化底像素,提出一个基于中央摄像机的纵向安全指示器(Lc)来评估局部纵向运动的安全状态。此外,基于中央摄像机和侧摄像机,提出了两种横向安全指标,分别为左侧横向安全指标Lls和右侧横向安全指标Lrs,用于评价局部横向运动的安全状态。考虑到最接近机器人的障碍物将带来最高的风险,这些指标定义如下:
在实验中,经验性地设置了α=20,β=0.25和γ=0.15。其中,α是函数的形状参数,β与γ都是函数的位置参数,v是机器人车辆的速度。纵向安全指示器只与距离最近的障碍物有关,而横向安全指示器也与机器人的速度v有关,因为允许车辆在低速、周围有障碍物时小心转弯。
(2)全局导航指标:用P(IS)表示交叉口检测结果,这是一个概率,它表示相应的横向方向是交叉口的可能性。然后,从规划好的地图中映射出来的高级命令包括向左转,向前,向右转,用于选择交叉口的转动方向。左右两侧的全局指标设置如下:
其中,Gls表示全局导航左转指标;Grs表示全局导航右转指标;cmd表示从地图中提取出的高级指令,包括左转、右转、直行。
(3)组合指标:将这两种类型的指标结合起来,并提出以下三种组合指标:
其中的和分别是Wc、和的平均值。表示中间相机的正中间2/5宽度的图片的底点的平均值;M_c表示中间相机计算出的碰撞概率;Mls表示左侧相机计算得到的碰撞概率;Mrs表示右侧相机计算得到的碰撞概率;表示左侧相机得到的图片里右边2/5宽度的底点的平均值;表示右侧相机得到的图片里左边2/5宽度的底点的平均值;Wc表示中间相机的正中间2/5宽度的图片的的底点的集合。
因此,上述综合指标既考虑了机器人的局部安全性,也考虑了机器人的全局运动方向。由于这些指标是低维的,因此很容易根据它们设计控制器。
其中,指标与预测的转向s输入到设计的驱动控制器中,以生成控制策略,包括速度v(m/s)和最终的转角s(rad/s)。根据这些指标,控制器对不同的情况产生不同的控制策略。这允许安全的导航和更可解释的决策,选择向期望的方向移动或具有最大数量的可遍历空间。
机器人速度v被定义为与纵向运动Lc的局部指标成正比。Vmax表示机器人的最大速度。在每个时间步骤中,控制器根据不同摄像机的组合指标判断是否需要侧摄像机来辅助决策。在侧摄像机的帮助下,使用一种运动规划方法来生成转向命令,作为在特定情况下的初始转向的替代方法,如到达交叉口或面临障碍。首先根据组合指标构造一组向量没有使用固定窗口和像这样的矢量角,而是使用最优滑动窗口的索引ils和irs来调整矢量的角度,以进行运动平滑。这些向量向左、中、右方向,分别对应于[-90°、-30°]、0°和[30°、90°]。如果纵向安全指标Lc小于0.5,选择避障方向作为基于和最可遍历区域的方向。否则,方向由最大组合指标决定。作为预测转向的替代方案,st是由从和导出的合成矢量的角度决定的。在其他情况下,使用预测的转向sp来控制机器人沿道路移动。同时,横向安全指标Lls和Lrs用于调整转向以防止横向碰撞。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的多角度视觉感知的自主机器人导航方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的多角度视觉感知的自主机器人导航方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于多角度视觉感知的自主机器人导航方法,其特征在于,包括:
实时获取机器人前进方向图像以及左右两侧的图像并输入至多任务网络;
经多任务网络预测出机器人自由可驱动区域、交叉口位置及交叉口转向;
利用机器人自由可驱动区域生成局部导航指标,交叉口位置及交叉口转向生成全局导航指标,根据局部导航指标和全局导航指标生成组合指标,再结合预先构建的地图中映射出来的转向命令,得到机器人控制指令;生成局部导航指标、全局导航指标以及组合指标的前提条件为:
(1)如果前方没有障碍物,机器人在道路中间移动;
(2)当到达交叉口时,机器人能够按照高级命令转弯;
(3)机器人能够在观察周围环境的情况下选择最佳方向绕过障碍物;
所述组合指标,具体设置为:
其中的和分别是Wc、和的平均值;表示中间相机的正中间2/5宽度的图片的底点的平均值;Mc表示中间相机计算出的碰撞概率;Mls表示左侧相机计算得到的碰撞概率;Mrs表示右侧相机计算得到的碰撞概率;表示左侧相机得到的图片里右边2/5宽度的底点的平均值;表示右侧相机得到的图片里左边2/5宽度的底点的平均值;Wc表示中间相机的正中间2/5宽度的图片的底点的集合;Lc为基于中央摄像机的纵向安全指示器;Lls为左侧横向安全指标;Lrs为右侧横向安全指标;Gls表示全局导航左转指标;Grs表示全局导航右转指标;
所述预先构建的地图中映射出来的转向命令由MapNet网络生成,所述MapNet用于从路由映射中对高级命令进行分类。
2.如权利要求1所述的基于多角度视觉感知的自主机器人导航方法,其特征在于,多任务网络包括编码器、底点检测网络、转角与路口推断网络;所述编码器用于提取机器人前进方向图像以及左右两侧的图像中的特征并共享输入至底点检测网络和转角与路口推断网络,由底点检测网络输出自由可驱动区域,由路口推断网络输出交叉口位置及交叉口转向。
3.如权利要求2所述的基于多角度视觉感知的自主机器人导航方法,其特征在于,所述底点检测网络包括ReLU激活的卷积层、上采样层和Softmax层,基于提取的特征来定位包含该特征的像素的列对应的障碍物的底部像素来检测可遍历区域。
4.如权利要求2所述的基于多角度视觉感知的自主机器人导航方法,其特征在于,所述转角与路口推断网络包括一个平均池层、两个具有RELU激活的卷积层和一个完全连接的层,在网络的末端使用Sigmoid层对于交叉口检测。
5.如权利要求1所述的基于多角度视觉感知的自主机器人导航方法,其特征在于,根据窗口和归一化底像素,基于前进方向图像的纵向安全指标来评估局部纵向运动的安全状态;基于前进方向图像和左右两侧图像,采用两种横向安全指标来评价局部横向运动的安全状态。
6.一种基于多角度视觉感知的自主机器人导航系统,其特征在于,包括:
图像获取模块,其用于实时获取机器人前进方向图像以及左右两侧的图像并输入至多任务网络;
导航预测模块,其用于经多任务网络预测出机器人自由可驱动区域、交叉口位置及交叉口转向;
控制指令生成模块,其利用机器人自由可驱动区域生成局部导航指标,交叉口位置及交叉口转向生成全局导航指标,根据局部导航指标和全局导航指标生成组合指标,再结合预先构建的地图中映射出来的转向命令,得到机器人控制指令;生成局部导航指标、全局导航指标以及组合指标的前提条件为:
(1)如果前方没有障碍物,机器人在道路中间移动;
(2)当到达交叉口时,机器人能够按照高级命令转弯;
(3)机器人能够在观察周围环境的情况下选择最佳方向绕过障碍物;
所述组合指标,具体设置为:
其中的和分别是Wc、和的平均值;表示中间相机的正中间2/5宽度的图片的底点的平均值;Mc表示中间相机计算出的碰撞概率;Mls表示左侧相机计算得到的碰撞概率;Mrs表示右侧相机计算得到的碰撞概率;表示左侧相机得到的图片里右边2/5宽度的底点的平均值;表示右侧相机得到的图片里左边2/5宽度的底点的平均值;Wc表示中间相机的正中间2/5宽度的图片的底点的集合;Lc为基于中央摄像机的纵向安全指示器;Lls为左侧横向安全指标;Lrs为右侧横向安全指标;Gls表示全局导航左转指标;Grs表示全局导航右转指标;
所述预先构建的地图中映射出来的转向命令由MapNet网络生成,所述MapNet用于从路由映射中对高级命令进行分类。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的多角度视觉感知的自主机器人导航方法中的步骤。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述的多角度视觉感知的自主机器人导航方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010813033.3A CN111975775B (zh) | 2020-08-13 | 2020-08-13 | 基于多角度视觉感知的自主机器人导航方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010813033.3A CN111975775B (zh) | 2020-08-13 | 2020-08-13 | 基于多角度视觉感知的自主机器人导航方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111975775A CN111975775A (zh) | 2020-11-24 |
CN111975775B true CN111975775B (zh) | 2022-05-27 |
Family
ID=73434321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010813033.3A Active CN111975775B (zh) | 2020-08-13 | 2020-08-13 | 基于多角度视觉感知的自主机器人导航方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111975775B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114454162B (zh) * | 2022-01-10 | 2023-05-26 | 广东技术师范大学 | 一种移动机器人复杂路口防碰撞方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007316018A (ja) * | 2006-05-29 | 2007-12-06 | Denso Corp | 車両用ナビゲーション装置 |
CN106802954A (zh) * | 2017-01-18 | 2017-06-06 | 中国科学院合肥物质科学研究院 | 无人车语义地图模型构建方法及其在无人车上的应用方法 |
CN107402018A (zh) * | 2017-09-21 | 2017-11-28 | 北京航空航天大学 | 一种基于连续帧的导盲仪组合路径规划方法 |
CN107797555A (zh) * | 2017-10-30 | 2018-03-13 | 奇瑞汽车股份有限公司 | 一种游览车自动驾驶控制方法及装置 |
CN110427827A (zh) * | 2019-07-08 | 2019-11-08 | 辽宁工程技术大学 | 一种多尺度感知及全局规划下的自主驾驶网络 |
-
2020
- 2020-08-13 CN CN202010813033.3A patent/CN111975775B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007316018A (ja) * | 2006-05-29 | 2007-12-06 | Denso Corp | 車両用ナビゲーション装置 |
CN106802954A (zh) * | 2017-01-18 | 2017-06-06 | 中国科学院合肥物质科学研究院 | 无人车语义地图模型构建方法及其在无人车上的应用方法 |
CN107402018A (zh) * | 2017-09-21 | 2017-11-28 | 北京航空航天大学 | 一种基于连续帧的导盲仪组合路径规划方法 |
CN107797555A (zh) * | 2017-10-30 | 2018-03-13 | 奇瑞汽车股份有限公司 | 一种游览车自动驾驶控制方法及装置 |
CN110427827A (zh) * | 2019-07-08 | 2019-11-08 | 辽宁工程技术大学 | 一种多尺度感知及全局规划下的自主驾驶网络 |
Also Published As
Publication number | Publication date |
---|---|
CN111975775A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7532615B2 (ja) | 自律型車両の計画 | |
US20230367318A1 (en) | End-To-End Interpretable Motion Planner for Autonomous Vehicles | |
Pfeiffer et al. | From perception to decision: A data-driven approach to end-to-end motion planning for autonomous ground robots | |
Codevilla et al. | End-to-end driving via conditional imitation learning | |
Guldenring et al. | Learning local planners for human-aware navigation in indoor environments | |
Drews et al. | Aggressive deep driving: Combining convolutional neural networks and model predictive control | |
US20190092318A1 (en) | Systems and methods for rear signal identification using machine learning | |
CN111868641B (zh) | 用于产生用于训练车辆控制设备的人工智能模块的训练数据组的方法 | |
Sales et al. | Adaptive finite state machine based visual autonomous navigation system | |
Drews et al. | Aggressive deep driving: Model predictive control with a cnn cost model | |
US11814072B2 (en) | Method and system for conditional operation of an autonomous agent | |
Sales et al. | Vision-based autonomous navigation system using ann and fsm control | |
CN112106060A (zh) | 控制策略确定方法和系统 | |
CN113433937A (zh) | 基于启发式探索的分层导航避障系统、分层导航避障方法 | |
Zhu et al. | Autonomous robot navigation based on multi-camera perception | |
Qin et al. | Deep imitation learning for autonomous navigation in dynamic pedestrian environments | |
Morales et al. | Towards predictive driving through blind intersections | |
CN111975775B (zh) | 基于多角度视觉感知的自主机器人导航方法及系统 | |
Seiya et al. | End-to-end navigation with branch turning support using convolutional neural network | |
Bhaggiaraj et al. | Deep Learning Based Self Driving Cars Using Computer Vision | |
Lee et al. | Learning Vehicle Dynamics from Cropped Image Patches for Robot Navigation in Unpaved Outdoor Terrains | |
Souza et al. | Template-based autonomous navigation and obstacle avoidance in urban environments | |
EP4124995A1 (en) | Training method for training an agent for controlling a controlled device, control method for controlling the controlled device, computer program(s), computer readable medium, training system and control system | |
Natan et al. | DeepIPC: Deeply integrated perception and control for an autonomous vehicle in real environments | |
Chang et al. | Real-Time Visual-Servo Navigation for Map-Free Self-Driving in Unstructured Outdoor Environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |