CN117246425A

CN117246425A - 四足机器人导航避障与攀爬楼梯方法及系统

Info

Publication number: CN117246425A
Application number: CN202311462521.4A
Authority: CN
Inventors: 高洪波; 严驰; 江磊; 王鑫淼; 刘宇飞; 唐超
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2023-12-19

Abstract

本发明提供了一种四足机器人导航避障与攀爬楼梯方法及系统，包括：步骤S1：建立四足机器人预设非结构化环境场景模型；步骤S2：机载双目相机获取并分析周围环境信息，建立包含语义信息的全局地图及以机器人为中心的高精度局部高程地图；步骤S3：四足机器人根据全局地图和A*路径规划算法实现四足机器人自主导航避障；步骤S4：四足机器人根据非对称Actor‑Critic网络训练，并结合全局地图和局部高程地图规划落足点，从而实现四足机器人运动控制和攀爬楼梯。本发明避免了四足机器人在非结构环境中运动可能出现的失稳、摔倒等问题，有效解决了四足机器人复杂地形下运动的安全隐患，提高了四足机器人的运动能力，确保了特定任务执行的安全及效率。

Description

四足机器人导航避障与攀爬楼梯方法及系统

技术领域

本发明涉及四足机器人技术领域，具体地，涉及四足机器人导航避障与攀爬楼梯方法及系统，更为具体地，涉及一种非结构化环境下四足机器人导航避障与攀爬楼梯方法及系统。

背景技术

四足机器人作为一种典型的足式机器人，相较其他足式机器人，在机械结构稳定性和运动速度方面均有较好的表现，同时具有强大的负载能力。四足机器人有潜力在非结构化环境中协助或替代人类完成探索、搜救、运输等复杂任务，极大增加了人类探索未开发区域的机会。四足机器人因具有良好的稳定性和通用性，目前得到了广泛的关注。

然而，四足机器人作为移动机器人的一种，由于其自身机械耦合结构的复杂性，面向其运动学与动力学系统仿真设计存在着操作难点：从动力学角度来看，四足机器人是一个复杂的动力学耦合系统，在对其动力学建模过程中需要考虑机体-单腿的耦合效应；从运动学角度来看，四足机器人可以被认为是将多个串联机械臂并联而成的移动平台。此外，还需要考虑四足机器人各种外部传感设备。

自主导航与动态避障是四足机器人安全移动与运动的基础与前提。自主导航是实现实时定位与自主地图构建，在非结构化的室内环境中，存在拱形通道、窄巷、草坪、楼梯等复杂场景，使得四足机器人需要在短时间、近距离约束下实时准确地探测到不同障碍物，并及时做出路径调整，这无疑加大了动态避障的难度；而室内光线不均匀，存在多处阴影区域，导致各个障碍物表面曝光度有差异，由于摄像机采集信息时易受光线干扰，甚至在光线条件不好的情况下无法正常工作，这就给四足机器人的视觉导航带来了挑战。虽然激光导航可以解决对室内光线敏感的难题，但激光传感器大部分部署在顶端，导致增加机身高度，同时还可能对低矮障碍物存在探测盲区。融合视觉导航和激光导航的策略提供了新的思路，但具体的融合策略，又必须要结合室内环境的复杂性，有针对性地设计，这也是四足机器人自主导航的又一挑战。

对于四足机器人攀爬楼梯的场景，构建高精度局部高程地图是一个重要的环节。对于攀爬楼梯的场景，目前存在着容易踏到楼梯边缘造成失稳和同一台阶多次踏步等问题，为实现四足机器人平稳自然的攀爬楼梯，需要精确的估计台阶的宽度和高度；对于一些松软崎岖地形，足-地动态接触过程中极易出现明显的足底打滑和地面凹陷等现象，这会造成估计的高度短暂失效等问题，为实现四足机器人整体姿态的稳定，在这些情况下，如何从相机和激光雷达获得的信息中实时有效的构建出高精度的局部高程地图也是一个关键问题。

专利文献CN115840453B(申请号：202310098617.0)公开了一种四足机器人自适应足端避障方法、装置、电子设备及介质，其中，方法包括以下步骤：获取所有参考地面点的地形高度，并基于预设的轨迹方程类型获取四足机器人足端的摆动轨迹；根据所述参考地面点的地形高度和所述摆动轨迹实时调整所述四足机器人足端的移动轨迹，使所述四足机器人足端不与地面碰撞。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种四足机器人导航避障与攀爬楼梯方法及系统。

根据本发明提供的一种四足机器人导航避障与攀爬楼梯方法，包括：

步骤S1：建立四足机器人预设非结构化环境场景模型；

步骤S2：机载双目相机获取并分析周围环境信息，建立包含语义信息的全局地图及以机器人为中心的高精度局部高程地图；

步骤S3：四足机器人根据全局地图和A*路径规划算法实现四足机器人自主导航避障；

步骤S4：四足机器人根据非对称Actor-Critic网络训练，并结合全局地图和局部高程地图规划落足点，从而实现四足机器人运动控制和攀爬楼梯。

优选地，所述步骤S2采用：

步骤S2.1：利用机载双目相机获取周围环境RGB图像和深度图像；

步骤S2.2：基于初始地图模板利用机器学习的方式和人工的方式进行分类、标注和验证，得到包含语义信息的全局地图；

步骤S2.3：根据机器人运动数据对所有单元进行更新建立以机器人为中心的高精度局部高程地图。

优选地，所述步骤S2.2采用：

步骤S2.2.1：对传感器数据进行包括整理、分类以及清洗处理，得到没有任何语义信息或注释的初始地图模板；

步骤S2.2.2：利用机器学习和/或人工的方式检测静态对象并对其进行分类和标注，包括：障碍物和楼梯；

步骤S2.2.3：通过人工纠错排查确保地图自动创建过程正确性；

步骤S2.2.4：发布包含语义信息的全局地图。

优选地，所述步骤S2.3采用：

步骤S2.3.1：根据距离传感器数据对有新测量值的单元进行更新得到各单元估计高度和高度方差；

步骤S2.3.2：根据机器人运动数据对所有单元进行更新，保持局部地图始终以机器人为中心，得到各单元估计高度和高度协方差；

步骤S2.3.3：对目标单元进行地图数据融合，得到各单元估计高度和上下置信界限。

优选地，所述步骤S2.3.1采用：

来自传感器的新测量值会作为一个个点映射到高程地图上；具体的某一个点会导致高程地图中的一个单元(x,y)拥有一个新的高度值在地图坐标系{M}中，高度测量值通过高斯概率分布来估计；对于传感器坐标系{S}下的某一点P的位置_Sr_SP，一个单个的测量值可以被转换成地图坐标系{M}下对应的高度测量值；

其中，投影矩阵P＝[0 0 1]将三维测量值映射成高度测量值；为了获得高度测量值的方差推导传感器测量值和传感器坐标框架旋转量的雅可比矩阵J_S和J_Φ为

其中：

假设则

方差的传播误差为

其中，∑_S为距离传感器模型的协方差矩阵；表示传感器旋转量的协方差矩阵；

使用一维卡尔曼滤波将高度测量值和现有的高程地图估计值融合：

其中，上标+表示估计值是在更新之后得到的，上标-表示估计值是在更新之前得到的。

当多个不同高度的测量值落在同一个栅格时，将基于马氏距离融合最高的测量值，并丢弃低于当前估计值一定距离的测量值；当某一区域一直被测量或被重新穿过时，这种融合多个高度测量值的方法仍然有效。

优选地，所述步骤S2.3.2采用：

当栅格单元i收到一个测量更新值时，将其协方差设定为

其中，和是栅格离散化产生的水平不确定性的近似值；对于边长为d的正方形栅格单元，

当栅格单元没有接收到新的测量值时，机器人将根据前一个位姿到当前位姿的变换不断更新协方差矩阵在时间k时，地图参考坐标系{M_k}通过位姿变换可以得到机器人当前参考坐标系在时间k＝2时，点P在地图坐标系{M₂}下的位置估计值由k＝1时的点P在地图坐标系{M₁}下的位置估计值表示

将坐标统一到参考坐标系{M₂}下表示为

不失一般性的，设定参考坐标系{M₂}的位姿为

通过如下定义，对齐参考坐标系{M₂}和{M₁}

此时，定义一个公共参考坐标系{M}，坐标系{M₁}和{M₂}被统一在一个坐标系{M}下；这样在地图更新时，不必再移动地图中每个栅格的数据，仅需随着机器人的运动改变地图的中心位置即可；

对于协方差从k＝1到k＝2的传播为

其中在k＝1时，协方差∑_P,1通过初始化赋值或根据上一次的更新赋值；协方差∑_r和∑_Φ表示坐标系和的运动估计不确定性，即

计算得到雅可比矩阵

对于地图坐标系统一的情况下，需要改写误差传播式；对于公共参考坐标系{M}，从时刻k到时刻k+1，地图中每个栅格i上点P_i的协方差为

其中

优选地，所述步骤S2.3.3采用：

当需要用到地图时，将每个栅格的高程地图数据转换为h_i,max和h_i,min表示高度估计值的上下置信区间；h_i,max和h_i,min的值是从周围的栅格单元数据推断得到，这些栅格单元数据落在满足预设条件的2σ椭圆置信区间内；平均高度估计值通过置信区间范围内的高度值加权平均得到

其中，h_k表示第k个栅格单元未融合前的高度值，I表示第i个栅格单元满足预设条件的2σ椭圆置信区间内栅格单元的集合；ω_k表示第k个栅格单元的概率权重。

优选地，所述步骤S4采用：

步骤M4.1：使用非对称Actor-Critic强化学习网络训练四足机器人运动和攀爬楼梯，实现落足点规划，并通过PPO算法优化；

步骤M4.2：使用一个上下文辅助估计网络架构来学习状态估计和环境推断的潜在表示信息。

优选地，所述步骤S4.2采用：

上下文辅助估计网络CENet使用混合损失函数进行优化，定义如下：

L_CE＝L_est+L_VAE

其中，L_est表示身体速度估计量，L_VAE表示VAE损失值；对于身体速度状态估计，采用身体速度估计值和真实值v_t之间的均方误差损失函数，即

VAE网络是通过标准的β-VAE损失进行训练的，其中包括了重建损失和潜在损失；采用均方误差作为重建损失，KL散度作为潜在损失；因此，VAE损失定义为

其中，是下一个本体感知重建观测值，是潜在状态z_t的后验分布值。给定的和p(z_t)是由高斯分布参数化的上下文先验分布；因为所有观测值都是经过归一化的，所以选择选择标准正态分布作为先验分布。

根据本发明提供的一种四足机器人导航避障与攀爬楼梯系统，包括：

模块M1：建立四足机器人预设非结构化环境场景模型；

模块M2：机载双目相机获取并分析周围环境信息，建立包含语义信息的全局地图及以机器人为中心的高精度局部高程地图；

模块M3：四足机器人根据全局地图和A*路径规划算法实现四足机器人自主导航避障；

模块M4：四足机器人根据非对称Actor-Critic网络训练，并结合全局地图和局部高程地图规划落足点，从而实现四足机器人运动控制和攀爬楼梯。

与现有技术相比，本发明具有如下的有益效果：

1、本发明构建了包含语义信息的全局地图和以机器人为中心的高精度局部高程地图，实现了对周围环境的精确感知理解，避免了因为地图精度误差导致的碰撞、摔倒等问题，进而辅助四足机器人实现非结构化环境下的导航运动；

2、本发明针对四足机器人复杂结构设计了非对称Actor-Crit ic强化学习网络，隐式学习了各种地形特征，提高了四足机器人非结构化环境下运动的鲁棒性，有效解决了四足机器人复杂地形下运动的安全隐患，提高了四足机器人的运动能力，确保了特定任务执行的安全及效率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为四足机器人典型非结构化环境场景图。

图2为一种非结构化环境下四足机器人导航避障与攀爬楼梯方法的流程示意图。

图3为构建以机器人为中心的高精度局部高程地图的流程示意图。

图4为四足机器人运动控制和攀爬楼梯的流程示意图。

图5为四足机器人攀爬楼梯示意图。

图6为四足机器人穿越软垫示意图。

图7为四足机器人穿越窄巷示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1

步骤S1：建立四足机器人典型非结构化环境场景模型；

具体地，所述步骤S1包括：

在四足机器人典型非结构化环境场景模型下，具体模型有：宇树Go1四足机器人、拱形门、草坪、楼梯、窄巷、软垫、空水池；

所述草坪在场景模型正中间；宇树Go1四足机器人在草坪右侧；拱形门在宇树Go1四足机器人正前方；楼梯在草坪上方；窄巷在草坪左侧；软垫和空水池在草坪下方；软垫在空水池左侧。

具体地，所述步骤S2包括：

步骤S2.1：双目相机获取周围环境RGB图像和深度图像；

步骤S2.2：建立包含语义信息的全局地图；

具体地，所述步骤S2.2包括：

步骤S2.2.1：数据处理。对传感器数据进行整理、分类以及清洗从而获得没有任何语义信息或注释的初始地图模板；

步骤S2.2.2：对象检测。利用机器学习的方式，检测大部分常见的静态对象并对其进行分类，包括障碍物、楼梯等。利用人工的方式，标注少量复杂的对象；

步骤S2.2.3：手动验证。通过人工纠错排查，确保地图自动创建过程正确并及时发现问题；

步骤S2.2.4：地图发布。发布包含语义信息的全局地图。

步骤S2.3：建立以机器人为中心的高精度局部高程地图。

具体地，所述步骤S2.3包括：

步骤S2.3.1：根据距离传感器数据对有新测量值的单元进行更新，得到各单元估计高度和高度方差；

具体地，所述步骤S2.3.1包括：

来自传感器的新测量值会作为一个个点映射到高程地图上。具体的某一个点会导致高程地图中的一个单元(x,y)拥有一个新的高度值在地图坐标系{M}中，高度测量值通过高斯概率分布来估计。对于传感器坐标系{S}下的某一点P的位置_Sr_SP，一个单个的测量值可以被转换成地图坐标系{M}下对应的高度测量值

其中投影矩阵P＝[001]将三维测量值映射成高度测量值。为了获得高度测量值的方差推导传感器测量值和传感器坐标框架旋转量的雅可比矩阵J_S和J_Φ为

其中：

假设则

方差的传播误差为

其中，∑_S为距离传感器模型的协方差矩阵。表示传感器旋转量的协方差矩阵(∑_IS的子矩阵)。

使用一维卡尔曼滤波可以将高度测量值和现有的高程地图估计值融合：

当多个不同高度的测量值落在同一个栅格时(比如垂直的墙壁)，将基于马氏距离融合最高的测量值，并丢弃低于当前估计值一定距离的测量值。当某一区域一直被测量或被重新穿过时(比如机器人转弯或反向移动时)，这种融合多个高度测量值的方法仍然有效。

具体地，所述步骤S2.3.2包括：

当栅格单元i收到一个测量更新值时，将其协方差设定为

其中和是栅格离散化产生的水平不确定性的近似值，即对于边长为d的正方形栅格单元，

当栅格单元没有接收到新的测量值时，机器人将根据前一个位姿到当前位姿的变换不断更新协方差矩阵在时间k时，地图参考坐标系{M_k}通过位姿变换可以得到机器人当前参考坐标系在时间k＝2时，点P在地图坐标系{M₂}下的位置估计值可以由k＝1时的点P在地图坐标系{M₁}下的位置估计值表示

将坐标统一到参考坐标系{M₂}下可以表示为

不失一般性的，可以设定参考坐标系{M₂}的位姿为

通过如下定义，即可对齐参考坐标系{M₂}和{M₁}

此时，可以定义一个公共参考坐标系{M}，即坐标系{M₁}和{M₂}被统一在一个坐标系{M}下。这样在地图更新时，不必再移动地图中每个栅格的数据，仅需随着机器人的运动改变地图的中心位置即可。

对于协方差从k＝1到k＝2的传播为

其中在k＝1时，协方差∑_P,1通过初始化赋值或根据上一次的更新赋值。协方差∑_r和∑_Φ表示坐标系和的运动估计不确定性，即

计算得到雅可比矩阵

对于地图坐标系统一的情况下，需要改写误差传播式。对于公共参考坐标系{M}，从时刻k到时刻k+1，地图中每个栅格i上点P_i的协方差为

其中

具体地，所述步骤S2.3.3包括：

地图融合即当需要用到地图时，将每个栅格的高程地图数据转换为h_i,max和h_i,min表示高度估计值的上下置信区间。h_i,max和h_i,min的值是从周围的栅格单元数据推断得到，这些栅格单元数据落在95％的2σ椭圆置信区间内。平均高度估计值通过置信区间范围内的高度值加权平均得到

其中，h_k表示第k个栅格单元未融合前的高度值，I表示第i个栅格单元95％的2σ椭圆置信区间内栅格单元的集合。ω_k表示第k个栅格单元的概率权重。

步骤S3：四足机器人根据全局地图和A*路径规划算法实现自主导航避障；

具体地，所述步骤S3包括：

步骤S3.1：设置导航目标点位置；

步骤S3.2：根据全局地图信息计算周围地图单元对应的路径代价；

步骤S3.3：使用A*算法计算最优路径，实现导航避障。

步骤S4：四足机器人根据非对称Actor-Critic网络训练，并结合全局地图和局部地图规划落足点，从而实现四足机器人运动控制和攀爬楼梯；

具体地，所述步骤S4包括：

步骤S4.1：使用非对称Actor-Critic强化学习网络训练四足机器人运动和攀爬楼梯，实现落足点规划，并通过PPO算法优化；

具体地，所述步骤S4.1包括：

采用了一个非对称的Actor-Critic架构来隐式学习地形特征。通过策略和价值网络之间的相互作用来学习一个鲁棒的运动策略，该策略在给定时间内可以隐式地想象特权信息。策略(Actor)接收部分观测值作为输入，而价值网络(Critic)接收完整状态s_t。此外，使用了近端策略优化(PPO)算法对策略进行了优化。

使用了一个受游戏启发的课程学习，从而实现复杂地形下的渐进式运动策略学习。地形由平滑、粗糙、离散化和楼梯地形组成，坡度在[0°，22°]以内。此外，利用网格自适应课程进行低速运动，进一步提高了转弯的速度和稳定性。

步骤S4.2：使用一个上下文辅助估计网络(CENet)架构来学习状态估计和环境推断的潜在表示信息。

具体地，所述步骤S4.2包括：

L_CE＝L_est+L_VAE

其中L_est表示身体速度估计量，L_VAE表示VAE损失值。对于身体速度状态估计，采用身体速度估计值和真实值v_t之间的均方误差损失函数，即

VAE网络是通过标准的β-VAE损失进行训练的，其中包括了重建损失和潜在损失。采用均方误差作为重建损失，KL散度作为潜在损失。因此，VAE损失定义为

其中是下一个本体感知重建观测值，是潜在状态z_t的后验分布值。给定的和p(z_t)是由高斯分布参数化的上下文先验分布。因为所有观测值都是经过归一化的，所以选择选择标准正态分布作为先验分布。

所述四足机器人典型非结构化环境场景模型包括四足机器人本体模型、环境中的特定场景模型、及运行情况。

首先根据周围环境的三维信息提出了一个全局环境地图，而局部高程地图是根据距离传感器信息和机器人本体运动学数据更新融合得到的，两者结合实现了非结构化环境下的精确导航避障。

基于非对称Actor-Critic强化学习算法，本发明实现了四足机器人的鲁棒控制。本发明最终目的是通过周围环境地图和强化学习算法，完成对周围环境的理解，并有针对性地选择相应的运动控制方案。

本发明还提供一种四足机器人导航避障与攀爬楼梯系统，所述四足机器人导航避障与攀爬楼梯系统可以通过执行所述四足机器人导航避障与攀爬楼梯方法的流程步骤予以实现，即本领域技术人员可以将所述四足机器人导航避障与攀爬楼梯方法理解为所述四足机器人导航避障与攀爬楼梯系统的优选实施方式。

实施例2

实施例2是实施例1的优选例

以下优选例对本发明做进一步详细说明：

如图2所示，本实施例公开了一种非结构化环境下四足机器人导航避障与攀爬楼梯方法，包括如下步骤S00～S30：

S00、建立四足机器人典型非结构化环境场景，如图1所示，即楼梯、窄巷、草坪、软垫等场景；

S10、分析周围环境信息，建立包含语义信息的全局地图及以机器人为中心的高精度局部高程地图；

S20、根据全局地图进行路径规划，实现四足机器人自主导航避障；

S30、通过强化学习算法规划落足点，实现四足机器人运动控制和攀爬楼梯。

具体来说，所述建立四足机器人典型非结构化环境场景为：

需要说明的是，如图1所示，所述草坪在场景模型正中间；宇树Go1四足机器人在草坪右侧；拱形门在宇树Go1四足机器人正前方；楼梯在草坪上方；窄巷在草坪左侧；软垫和空水池在草坪下方；软垫在空水池左侧。

具体来说，所述分析周围环境信息过程为：

四足机器人上的双目相机扫描周围环境的三维信息，结合机器人自带的编码器和惯性传感器，采集位姿信息，用于机器人实现地图构建。

需要说明的是，四足机器人的双目相机可用于获取周围环境的RGB图像和点云图像，进而可以获取周围物体的深度信息。

具体来说，如图3所示，所述实现以机器人为中心的高精度局部高程地图，包括如下步骤S100～S102：

S100、根据距离传感器数据对有新测量值的单元进行更新，得到各单元估计高度和高度方差，包括：

其中：

假设则

方差的传播误差为

需要说明的是，当多个不同高度的测量值落在同一个栅格时(比如垂直的墙壁)，将基于马氏距离融合最高的测量值，并丢弃低于当前估计值一定距离的测量值。当某一区域一直被测量或被重新穿过时(比如机器人转弯或反向移动时)，这种融合多个高度测量值的方法仍然有效。

S101、根据机器人运动数据对所有单元进行更新，保持局部地图始终以机器人为中心，得到各单元估计高度和高度协方差，包括：

当栅格单元i收到一个测量更新值时，将其协方差设定为

当栅格单元没有接收到新的测量值时，机器人将根据前一个位姿到当前位姿的变换不断更新协方差矩阵在时间k时，地图参考坐标系{Mk}通过位姿变换可以得到机器人当前参考坐标系在时间k＝2时，点P在地图坐标系{M₂}下的位置估计值可以由k＝1时的点P在地图坐标系{M₁}下的位置估计值表示

将坐标统一到参考坐标系{M₂}下可以表示为

不失一般性的，可以设定参考坐标系{M₂}的位姿为

通过如下定义，即可对齐参考坐标系{M₂}和{M₁}

对于协方差从k＝1到k＝2的传播为

计算得到雅可比矩阵

其中

S102、对目标单元进行地图数据融合，得到各单元估计高度和上下置信界限，包括：

需要说明的是，其中，h_k表示第k个栅格单元未融合前的高度值，I表示第i个栅格单元95％的2σ椭圆置信区间内栅格单元的集合。ω_k表示第k个栅格单元的概率权重。

具体来说，如图4所示，所述实现四足机器人运动控制和攀爬楼梯，包括如下步骤S200～S304：

S200、根据全局地图进行路径规划，实现四足机器人定位导航，包括：

首先设置导航目标点位置，再根据全局地图信息计算周围地图单元对应的路径代价，从而使用A*算法计算最优路径，实现导航避障。

S103、根据语义地图判断面前障碍物类型，选择相应运动模式，包括：

对传感器数据进行整理、分类以及清洗从而获得没有任何语义信息或注释的初始地图模板。利用机器学习的方式，检测大部分常见的静态对象并对其进行分类，包括障碍物、楼梯等。利用人工的方式，标注少量复杂的对象。通过人工纠错排查，确保地图自动创建过程正确并及时发现问题。最后，发布包含语义信息的全局地图。

需要说明的是，根据语义地图信息，四足机器人会选择不同的运动模式，从而有针对性的适应不同的地形。

S300、可跨越障碍物，如：草坪、楼梯、软垫等，包括：

对于可跨越障碍物，四足机器人将选择直接穿越，通过自适应的控制算法保持机器人运动过程中的姿态稳定。

如图5所示，四足机器人攀爬楼梯。如图6所示，四足机器人穿越软垫。

需要说明的是，对于楼梯等复杂障碍物，四足机器人在运动过程中会调整自身躯干角度，使其与坡面平行，提高攀爬速度。

S301、采用非对称Actor-Critic强化学习网络实现四足机器人实现落足点规划，包括：

需要说明的是，使用了一个受游戏启发的课程学习，从而实现复杂地形下的渐进式运动策略学习。地形由平滑、粗糙、离散化和楼梯地形组成，坡度在[0°，22°]以内。此外，利用网格自适应课程进行低速运动，进一步提高了转弯的速度和稳定性。

S302、使用上下文辅助估计网络架构学习状态估计和环境推断的潜在表示信息，包括：

L_CE＝L_est+L_VAE

需要说明的是，其中L_est表示身体速度估计量，L_VAE表示VAE损失值。对于身体速度状态估计，采用身体速度估计值和真实值v_t之间的均方误差损失函数，即

需要说明的是，其中是下一个本体感知重建观测值，是潜在状态z_t的后验分布值。给定的和p(z_t)是由高斯分布参数化的上下文先验分布。因为所有观测值都是经过归一化的，所以选择选择标准正态分布作为先验分布。

S303、不可跨越障碍物，如墙体等，包括：

不可跨越的障碍物远高于机器人自身高度，导致四足机器人无法通过攀爬通过。

如图7所示，四足机器人避开墙体穿越窄巷。

需要说明的是，四足机器人在接近该障碍物时，双目相机通常难以完整获得该物体全部信息，故根据语义地图标注信息进行判别。

S304、使用A*算法计算最优路径，实现动态导航避障，包括：

A*算法计算每个节点优先级的公式为：

f(n)＝g(n)+h(n)

需要说明的是，f(n)是节点n的综合优先级。当选择下一个要遍历的节点时，总会选取综合优先级最高(值最小)的节点。g(n)是节点n距离起点的代价。h(n)是节点n距离终点的预计代价，即A*算法的启发函数。

需要进一步说明的是，A*算法在运算过程中，每次从优先队列中选取f(n)值最小(优先级最高)的节点作为下一个待遍历的节点。

本发明通过对四足机器人典型非结构化环境场景模型建模，构建了四足机器人导航避障与攀爬楼梯系统，通过全局地图和局部地图的构建，进一步提高了四足机器人对周围环境的感知能力，从而有针对的对不同环境场景采用不同的运动模式。因此，本发明有效识别了四足机器人周围环境场景模型，为四足机器人鲁棒运动提供了可靠的算法支持，有效解决了四足机器人复杂地形下的运动隐患，提高了四足机器人的运动能力和效率。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

在本申请的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种四足机器人导航避障与攀爬楼梯方法，其特征在于，包括：

步骤S1：建立四足机器人预设非结构化环境场景模型；

2.根据权利要求1所述的四足机器人导航避障与攀爬楼梯方法，其特征在于，所述步骤S2采用：

3.根据权利要求2所述的四足机器人导航避障与攀爬楼梯方法，其特征在于，所述步骤S2.2采用：

步骤S2.2.4：发布包含语义信息的全局地图。

4.根据权利要求2所述的四足机器人导航避障与攀爬楼梯方法，其特征在于，所述步骤S2.3采用：

5.根据权利要求4所述的四足机器人导航避障与攀爬楼梯方法，其特征在于，所述步骤S2.3.1采用：

其中，投影矩阵P＝[001]将三维测量值映射成高度测量值；为了获得高度测量值的方差推导传感器测量值和传感器坐标框架旋转量的雅可比矩阵J_S和J_Φ为

其中：

假设则

方差的传播误差为

6.根据权利要求4所述的四足机器人导航避障与攀爬楼梯方法，其特征在于，所述步骤S2.3.2采用：

当栅格单元i收到一个测量更新值时，将其协方差设定为

将坐标统一到参考坐标系{M₂}下表示为

不失一般性的，设定参考坐标系{M₂}的位姿为

通过如下定义，对齐参考坐标系{M₂}和{M₁}

对于协方差从k＝1到k＝2的传播为

计算得到雅可比矩阵

其中

7.根据权利要求4所述的四足机器人导航避障与攀爬楼梯方法，其特征在于，所述步骤S2.3.3采用：

8.根据权利要求1所述的四足机器人导航避障与攀爬楼梯方法，其特征在于，所述步骤S4采用：

9.根据权利要求8所述的四足机器人导航避障与攀爬楼梯方法，其特征在于，所述步骤S4.2采用：

L_CE＝L_est+L_VAE

10.一种四足机器人导航避障与攀爬楼梯系统，其特征在于，包括：

模块M1：建立四足机器人预设非结构化环境场景模型；