CN113110459A

CN113110459A - 一种多足机器人运动规划方法

Info

Publication number: CN113110459A
Application number: CN202110423988.2A
Authority: CN
Inventors: 高岳
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-13

Abstract

本发明公开了一种多足机器人运动规划方法包括：采集常见障碍物的图像信息；根据图像信息获取常见障碍物的三角网状图；基于三角网状图构建常见障碍物的模型库，并将模型库导入虚拟环境中构建虚拟运动规划实验场景；在所述虚拟环境中构建虚拟多足机器人，并根据深度强化学习算法设计虚拟多足机器人的状态空间和动作空间；根据状态空间和动作空间设计基于深度强化学习算法的神经网络结构和奖励函数；在所述虚拟运动规划实验场景中对所述虚拟多足机器人进行运动规划任务的仿真训练，获取运动规划神经网络模型；采用无线通信的方式将实体多足机器人与上位机连接后，将虚拟环境下的网络模型应用于实体多足机器人上，并根据实际情况微调相关参数。

Description

一种多足机器人运动规划方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种从虚拟到现实的多足机器人运动规划方法。

背景技术

随着科技的发展和探索，人类生产生活对机器人的使用越来越多，而多足机器人作为移动机器人的一种，具有的地形适应能力强、运动方式多样和稳定性好等优点，在多种领域都有着广泛的应用。

其中，对于多足机器人运动规划方法的研究一直是领域内的热点。但是目前的研究方法中，对机器人及障碍物的数学建模过程和相关约束条件的数学化均较为繁琐，且针对不同的足式机器人和不同的研究场景，需要进行复杂的参数调整。虽然能够实现避障和目标可达，但是该类算法的复杂度较高，通用性较差，且一旦障碍物发生变化，参数的实时调整难度较大，因此算法的灵活性较差。

目前传统的算法中，对包含障碍物场景的复杂度普遍较低，而实际场景中，障碍物类别更多，随机性更大。在面对障碍物种类繁多、障碍物可移动的场景时，目前的多足机器人运动规划算法有着应用场景相对简单、算法迁移性较差等局限性。

在进行多足机器人的运动规划方法研究时，从虚拟到现实是一种可行性较强的研究思路。在传统的相关研究中，对仿真环境的运用，多为机器人进行一比一建模后对已经设计好的算法进行测试和调整。虽然能避免直接采用实体机器人进行实验所具有的潜在的风险，但是并未完全发挥出虚拟环境的特点与优势。随着多足机器人的发展，搭载的传感器种类越来越多，机器人结构的复杂度越来越高，对其运动规划算法的性能要求也日益增高。因此，现有算法复杂度高，灵活性差，应用场景简单，算法迁移难度大是目前有待解决的问题。

发明内容

本发明要解决的技术问题是如何降低算法难度，丰富应用场景，提高不同场景的通用性，提供一种多足机器人运动规划方法。

本发明是通过下述技术方案来解决上述技术问题：

一种多足机器人运动规划方法，所述运动规划方法包括：

采集常见障碍物的图像信息；

根据所述图像信息获取所述常见障碍物的三角网状图；

基于所述三角网状图构建所述常见障碍物的模型库，并将所述常见障碍物的模型库导入虚拟仿真软件中构建虚拟运动规划实验场景；

在所述虚拟运动规划实验场景中构建虚拟多足机器人，并根据深度强化学习算法设计所述虚拟多足机器人的状态空间和动作空间；

根据所述状态空间和所述动作空间设计基于所述深度强化学习算法的神经网络结构和奖励函数；

在所述虚拟运动规划实验场景中对所述虚拟多足机器人进行运动规划任务的仿真训练，获取运动规划神经网络模型；

实体多足机器人将实际状态信息无线传输至上位机，所述上位机根据所述实际状态信息和训练后的所述运动规划神经网络模型返回相应的动作信息至所述实体多足机器人，并由所述实体多足机器人的下位机执行。

进一步地，根据所述深度强化学习算法设计所述虚拟多足机器人的所述状态空间包括：

获取所述虚拟多足机器人前方部分地形范围内的二维地形信息；

获取所述虚拟多足机器人的每个足尖坐标；

获取所述虚拟多足机器人的运动规划目标点坐标。

更进一步地，根据所述深度强化学习算法设计所述虚拟多足机器人的所述动作空间包括：

根据所述虚拟多足机器人的基本步态，设计以所述虚拟多足机器人步长，步高，转角为参数的三维动作；

所述神经网络结构输出所述三维动作后，基于相关步态函数进行步态规划。

更进一步地，所述进行运动规划任务的仿真训练包括：

在所述虚拟运动规划实验场景中随机生成任务场景，获取起始位置处的状态信息，并将所述起始位置处的状态信息输入至所述神经网络结构中；

所述神经网络结构输出当前时刻采取动作的均值，随机探索动作分量与所述动作的均值相加后确定当前时刻采取的动作，所述虚拟多足机器人在所述虚拟运动规划实验场景中执行该动作；

若达到所述运动规划目标点坐标，则结束本次仿真；

若未达到所述运动规划目标点坐标，则更新所述神经网络结构的网络参数并计算损失函数，继续仿真直至达到所述运动规划目标点坐标为止。

进一步地，所述图像信息包括3D点云图像和深度图像。

进一步地，包括通过贪心三角形算法获取所述三角网状图，并根据所述三角网状图构建所述常见障碍物的模型库。

进一步地，所述奖励函数包括：

当所述虚拟多足机器人在位置远离和/或前进方向偏离所述运动规划目标点坐标时奖励值为负；

当所述虚拟多足机器人在位置接近和/或前进方向朝向所述运动规划目标点坐标时奖励值为正；

当所述虚拟多足机器人碰撞和/或到达所述运动规划目标点坐标时有特殊的奖励值。

进一步地，所述神经网络结构包括卷积神经网络和全连接层，所述二维地形信息输入至所述卷积神经网络并经卷积和池化后输出的特征与所述每个足尖坐标及所述运动规划目标点坐标重新结合后输入至所述全连接层，最终输出当前时间步内基于当前状态信息的最佳动作。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：本发明研究思路简单，无需大量的关于机器人的运动学与动力学建模；本发明具有普适性，对于不同的多足机器人研究思路相同；本发明中对障碍物库进行搭建的过程有效地对常见障碍物种类进行了归类与虚拟环境重建，保证了虚拟环境训练的真实性；本发明中，深度神经网络对运动规划中的路径规划和轨迹规划函数进行了统一与有效的拟合，实现了端到端的运动规划策略；本发明中采用的传感器均为常见的传感器，无需巨额花费。

附图说明

图1为本发明一种多足机器人运动规划方法一实施例中的方法流程图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的首选实施例。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本申请的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示为本发明一实施例中的方法流程图：

S01：采集常见障碍物的图像信息；

在一个示例中，选用合适的激光雷达与双目相机，安放在合适的位置，对常见障碍物进行3D点云图像与深度图像的采集。目前所用的传感器均为常见的传感器，且信息采集的对象为椅子、桌子、柜子等常见障碍物。

S02：根据所述图像信息获取所述常见障碍物的三角网状图；

在一个示例中，基于上一步中采集到的3D点云图像信息，通过贪心三角化算法得到常见障碍物的三角网状图；结合基于深度学习的语义分割方法，对常见障碍物进行分割与标记。

S03：基于所述三角网状图构建所述常见障碍物的模型库，并将所述常见障碍物的模型库导入虚拟仿真软件中构建虚拟运动规划实验场景；

在一个示例中，基于前两步的工作，构建出基于三角网状图的包含多种常见障碍物模型的模型库，该模型库的格式为在虚拟环境可导入与识别的格式。选用具有精确物理引擎的合适的虚拟仿真软件，目前选用的是V-rep仿真软件。将所搭建的模型库导入该虚拟环境中后，可以在该库中调用任意数量的障碍物，其大小可以调整，并将其与该虚拟环境中自带的简单的障碍物组合使用，作为运动规划实验场景设计与搭建的基本元素。

S04：在所述虚拟运动规划实验场景中构建虚拟多足机器人，并根据深度强化学习算法设计所述虚拟多足机器人的状态空间和动作空间；

在一个示例中，基于六足机器人的结构原理，在虚拟环境中精确搭建出虚拟六足机器人的仿真模型，确保仿真模型包含了深度相机、陀螺仪等必须的传感器，且虚拟六足机器人的数据形式与实体六足机器人中传感器的数据形式一致。

据深度强化学习算法需要，设计虚拟六足机器人的状态空间和动作空间。以机器人前方部分范围内的地形信息、足尖的坐标信息和运动规划目标点的信息构成状态空间，以与虚拟六足机器人步态控制相关的参数作为动作空间。具体内容为：首先利用视觉传感器采集机器人前方部分地形范围内的深度图，并通过坐标转换将其转换为2.5D栅格地图，得到机器人前方一定范围内的地形高度图，作为状态空间的第一部分，记为S1；其次获取机器人每个足尖在机器人自身坐标系下的坐标，作为状态空间的第二部分，记为S2；最后，将运动规划的目标点坐标作为状态空间的第三部分，记为S3。最终，构成由三部分共同组成的状态空间，并将S2与S3压缩为一维向量的形式进行储存。

以六足机器人实际拓扑结构为依据，对机器人的动作空间进行设计。具体方式为将动作空间设计为以机器人常用基本步态为基础，以步长、步高和转角为参数的三维空间，神经网络结构输出该三维动作后，基于相关步态函数进行步态规划。

S05：根据所述状态空间和所述动作空间设计基于所述深度强化学习算法的神经网络结构和奖励函数；

在一个示例中，根据状态空间和动作空间的形式，对神经网络结构进行设计。由于状态空间包含了二维地形信息S1以及一维向量信息S2和S3，因此采用卷积神经网络和全连接层网络相结合的神经网络结构，将状态信息S1输入卷积神经网络，并经过卷积与池化后输出的特征与状态信息S2和S3进行重新结合后输入全连接层网络，最终输出当前时间步内基于当前状态信息的最佳动作。

在一个示例中，奖励函数设计是强化学习的关键部分，为了保证机器人在位置远离与前进方向偏离目标点时奖励值为负，在位置接近与前进方向偏向目标点时奖励值为正，且在发生碰撞和到达目标点时分别有特殊的奖励值，将奖励函数设计为以负指数函数和三角函数为核心的多项式相加的形式，本实例中的奖励函数具体设计如下式所示：

l_max是可以调整的超参，d是到目标点的距离，α是和目标点的夹角

S06：在所述虚拟运动规划实验场景中对所述虚拟多足机器人进行运动规划任务的仿真训练，获取运动规划神经网络模型；

在一个示例中，基于深度强化学习算法，在虚拟环境中进行运动规划任务的仿真训练，得到从传感器信息到动作输出的端到端的运动规划神经网络模型。考虑到将算法迁移到实体多足机器人上，可能会出现的因模型误差和环境变化产生的噪声，在训练时，碰撞检测的范围留有一定阈值，且在场景中加入了移动型障碍物，来对对算法的鲁棒性进行提升。

S07：实体多足机器人将实际状态信息无线传输至上位机，所述上位机根据所述实际状态信息和训练后的所述运动规划神经网络模型返回相应的动作信息至所述实体多足机器人，并由所述实体多足机器人的下位机执行。

在一个示例中，实体多足机器人与上位机通过远程通信方式进行连接，实体机器人通过深度相机采集到地形深度信息，将其发送到上位机进行图像分析与处理；利用运动学正解原理可以得到六条腿足尖的坐标；而目标点在机器人自身坐标系下的坐标则可以通过位移计算与坐标系转换来得到。最后，基于经由虚拟环境训练得到的神经网络模型，对每一个时间步内的状态信息都输出一个该状态下的最佳动作发送回实体多足机器人端，并通过相关步态函数在与实体多足机器人相连接的下位机中实现相应的步态动作，最终实现实体多足机器人的运动规划。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种多足机器人运动规划方法，其特征在于，所述运动规划方法包括：

采集常见障碍物的图像信息；

根据所述图像信息获取所述常见障碍物的三角网状图；

2.如权利要求1所述的一种多足机器人运动规划方法，其特征在于，根据所述深度强化学习算法设计所述虚拟多足机器人的所述状态空间包括：

获取所述虚拟多足机器人的每个足尖坐标；

获取所述虚拟多足机器人的运动规划目标点坐标。

3.如权利要求2所述的一种多足机器人运动规划方法，其特征在于，根据所述深度强化学习算法设计所述虚拟多足机器人的所述动作空间包括：

4.如权利要求3所述的一种多足机器人运动规划方法，其特征在于，所述进行运动规划任务的仿真训练包括：

若达到所述运动规划目标点坐标，则结束本次仿真；

5.如权利要求4所述的一种多足机器人运动规划方法，其特征在于，所述图像信息包括3D点云图像和深度图像。

6.如权利要求4所述的一种多足机器人运动规划方法，其特征在于，包括通过贪心三角形算法获取所述三角网状图，并根据所述三角网状图构建所述常见障碍物的模型库。

7.如权利要求4所述的一种多足机器人运动规划方法，其特征在于，所述奖励函数包括：

8.如权利要求1至7任一项所述的一种多足机器人运动规划方法，其特征在于，所述神经网络结构包括卷积神经网络和全连接层，所述二维地形信息输入至所述卷积神经网络并经卷积和池化后输出的特征与所述每个足尖坐标及所述运动规划目标点坐标重新结合后输入至所述全连接层，最终输出当前时间步内基于当前状态信息的最佳动作。