CN108536011A

CN108536011A - 一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法

Info

Publication number: CN108536011A
Application number: CN201810226656.3A
Authority: CN
Inventors: 吴贺俊; 林小强
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-03-19
Filing date: 2018-03-19
Publication date: 2018-09-14

Abstract

本发明提供了一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法，该方法相较于传统的通过预先编程实现机器人的运动控制的方式，本发明使用了深度强化学习，让机器人能够根据环境的复杂变化情况，自适应的调整运动策略，提高了在复杂环境下的“存活率”和适应能力；同时，相较于单一的actor‑critic深度强化学习架构，本方法实现了多actor‑多critic的深度强化学习架构，在训练深度神经网络时，能够加快训练，更快的收敛神经网络。

Description

一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法

技术领域

本发明涉及机器学习领域和机器人运动控制技术领域，更具体地，涉及一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法。

背景技术

随着时代的发展，移动机器人在现实生活中充当的角色越来越重要，在各个领域发挥着作用，比如在搜救、灾难应对、医疗保健、交通等。现实世界是一个非结构化，动态化的环境，而机器人运动控制又是一个多维度的控制问题，创造出能够在这样的环境下自适应运动的机器人，一直是机器人领域的一大挑战。

传统的六足机器人运动控制方法都是通过预先编程的方式，即把六足机器人的各种运动步态编码在六足机器人的运动控制芯片当中。但是在地形复杂多样的环境下，六足机器人传统的预先编程方式的运动控制方法，在编程实现上存在着很大的难度且需要花费大量的时间。同时，六足机器人传统的预先编程方式的运动控制方法都是基于六足机器人机体结构完整的情况下设计的。但是，现实世界环境总是会出现各种意外的情况，比如六足机器人的某条或者多条机械腿出现问题，包括机械腿从机器人主体上断裂分离、机械腿的运动控制单元失效等，这时六足机器人还是按照预设的步态运动，就会导致重心不稳而摔倒在地。

发明内容

本发明的目的是解决现有技术当六足机器人处在复杂环境或者自身腿部结构出现问题时，容易出现的六足机器人因重心不稳而摔倒在地的技术问题，提供了一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法。该方法通过深度强化学习自适应的调整运动控制策略，提高六足机器人的复杂环境适应能力和“生存”能力。

为实现以上发明目的，采用的技术方案是：

一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法，包括以下步骤：

S1.由四轴飞行器通过俯视摄像头获取复杂环境的地形信息，并根据环境地形信息，以六足机器人当前的所在位置为起点，设置一个终点，规划运动轨迹，并传递给六足机器人；

S2.六足机器人通过安装在机体上的RGB摄像头获取机体周围的环境照片，记为D1，以及通过六足机器人机体上装有的传感器获取机体当前的状态信息，包括线速度、角速度、六足机器人在三维空间中的姿态表示四元数、还有每个腿部关节自由度的角度，记为D2；

S3.六足机器人通过预先训练过的基于行动-评价架构的深度神经网络对机体周围的复杂地形环境照片和六足机器人自身当前的状态信息进行数据融合、降维和特征的提取；

S4. 六足机器人根据数据融合、降维和特征提取的结果得出六足机器人的运动控制策略，然后在整体运动轨迹的基础上，根据控制策略来控制六足机器人每条腿上每个正常工作的关节驱动机构来完成关节的自由度运动，从而实现六足机器人即使一两个关节自由度出现问题的情况下，也能完成复杂地形环境的自适应运动。

优选地，所述基于行动-评价架构的深度神经网络包括神经网络actor和神经网络critic，神经网络actor用于制定六足机器人的运动控制策略，输出六足机器人每个关节的运动控制信号；神经网络critic用于对神经网络actor输出的运动控制信号进行评价，并进行反馈，从而让神经网络actor不断调整运动控制策略，达到六足机器人自适应复杂环境运动控制。

优选地，所述神经网络actor包括两个输入层L_in1和L_in2，还有若干的卷积层，若干的池化层，一层全连接层和一层输出层；其中，两个输入层L_in1的输入是复杂地形环境信息，然后经过卷积层和池化层的图像特征提取和生存，进入全连接层；输入层L_in2的输入是机器人自身的状态信息，然后到达全连接层；全连接层和输出层组合构成一个深层网络，最终输出机器人运动控制信号。

优选地，神经网络critic包括一个输入层L_in3，两个全连接层，一个输出层；其中输入层L_in3的输入信息包括机器人当前自身状态信息以及神经网络actor输出的运动控制信号，经过全连接层后，输出反馈信号。

与现有技术相比，本发明的有益效果是：

相较于传统的通过预先编程实现机器人的运动控制的方式，本发明使用了深度强化学习，让机器人能够根据环境的复杂变化情况，自适应的调整运动策略，提高了在复杂环境下的“存活率”和适应能力；同时，相较于单一的actor-critic深度强化学习架构，本方法实现了多actor-多critic的深度强化学习架构，在训练深度神经网络时，能够加快训练，更快的收敛神经网络。

附图说明

图1为方法的流程示意图。

图2为基于行动-评价架构的深度神经网络的示意图。

图3为神经网络actor的示意图。

图4为神经网络critic的示意图。

图5为基于行动-评价架构的深度神经网络的训练示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示，本发明提供了一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法，包括以下步骤：

本实施例中，如图2所示，所述基于行动-评价架构的深度神经网络包括神经网络actor和神经网络critic，神经网络actor用于制定六足机器人的运动控制策略，输出六足机器人每个关节的运动控制信号；神经网络critic用于对神经网络actor输出的运动控制信号进行评价，并进行反馈，从而让神经网络actor不断调整运动控制策略，达到六足机器人自适应复杂环境运动控制。

本实施例中，如图3所示，所述神经网络actor包括两个输入层L_in1和L_in2，还有若干的卷积层，若干的池化层，一层全连接层和一层输出层；其中，两个输入层L_in1的输入是复杂地形环境信息，然后经过卷积层和池化层的图像特征提取和生存，进入全连接层；输入层L_in2的输入是机器人自身的状态信息，然后到达全连接层；全连接层和输出层组合构成一个深层网络，最终输出机器人运动控制信号。

本实施例中，如图4所示，神经网络critic包括一个输入层L_in3，两个全连接层，一个输出层；其中输入层L_in3的输入信息包括机器人当前自身状态信息以及神经网络actor输出的运动控制信号，经过全连接层后，输出反馈信号。

步骤S3中，要预先训练基于行动-评价(Actor-Critic)架构的深度神经网络，训练的具体步骤如下：

首先在动力学仿真平台上实现复杂地形环境，并且加入六足机器人模型，然后通过六足机器人获取复杂地形环境信息和自身的状态信息，存入缓存池中，供神经网络获取训练。

本发明实现了多actor神经网络和多critic神经网络结合的模型，如图5所示，多个actor网络同时去从缓存池中去获取训练数据，然后经过critic网络评价后，输出最好的运动控制策略，这样做加快了训练使得网络收敛的更快。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于深度强化学习的六足机器人复杂地形自适应运动控制方法，其特征在于：所述基于行动-评价架构的深度神经网络包括神经网络actor和神经网络critic，神经网络actor用于制定六足机器人的运动控制策略，输出六足机器人每个关节的运动控制信号；神经网络critic用于对神经网络actor输出的运动控制信号进行评价，并进行反馈，从而让神经网络actor不断调整运动控制策略，达到六足机器人自适应复杂环境运动控制。

3.根据权利要求2所述的基于深度强化学习的六足机器人复杂地形自适应运动控制方法，其特征在于：所述神经网络actor包括两个输入层L_in1和L_in2，还有若干的卷积层，若干的池化层，一层全连接层和一层输出层；其中，两个输入层L_in1的输入是复杂地形环境信息，然后经过卷积层和池化层的图像特征提取和生存，进入全连接层；输入层L_in2的输入是机器人自身的状态信息，然后到达全连接层；全连接层和输出层组合构成一个深层网络，最终输出机器人运动控制信号。

4.根据权利要求2所述的基于深度强化学习的六足机器人复杂地形自适应运动控制方法，其特征在于：神经网络critic包括一个输入层L_in3，两个全连接层，一个输出层；其中输入层L_in3的输入信息包括机器人当前自身状态信息以及神经网络actor输出的运动控制信号，经过全连接层后，输出反馈信号。