CN113093779A

CN113093779A - 基于深度强化学习的机器人运动控制方法及系统

Info

Publication number: CN113093779A
Application number: CN202110319484.6A
Authority: CN
Inventors: 张伟; 宋然; 谭文浩; 方兴; 陈腾; 郑宇�; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-07-09
Anticipated expiration: 2041-03-25
Also published as: CN113093779B

Abstract

本发明公开了一种基于深度强化学习的机器人运动控制方法及系统，包括：获取外部环境反馈信息和机器人当前运动状态反馈信息；上述信息经过深度强化学习网络，输出下一时刻的机器人运动控制参数；中枢模式发生器基于下一时刻的机器人运动控制参数以及机器人当前运动状态的反馈信息，输出下一时刻的机器人运动控制信号。本发明使用分层控制模式，高级别的环境理解与参数输出能够以较低频率运行，能够适应深度强化学习网络的运算速度并节约计算资源。

Description

基于深度强化学习的机器人运动控制方法及系统

技术领域

本发明涉及四足机器人运动控制技术领域，尤其涉及一种基于深度强化学习的机器人运动控制方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

灵活高效的运动控制是各类移动机器人特定功能得以实现的基础与前提。为此，机器人领域的学者们不断探索、优化机器人运动控制算法，致力于实现对复杂机器人可靠、精准与高效的控制。相比于轮式或履带式机器人，以四足仿生机器人为代表的腿足式机器人由于自身机械结构复杂等固有特点，其运动稳定性与环境适应性均有待提升。而步态规划作为腿足式机器人运动控制过程的重要一环，一直以来都是四足仿生机器人领域的研究热点，也是本方案的重点研究问题。

四足仿生机器人以模仿生物为出发点，而所谓“仿生”不仅存在于形态层面，其控制方法也在很大程度上借鉴了生物体的部分运动控制机制，其中最具代表性的便是中枢模式发生器(Central Pattern Generator，CPG)算法。现有技术采用基于CPG神经网络的步态控制策略，相继开发了具备行走、跳跃能力的Patrush、Tekken、Kotetsu等多个系列的四足机器人。但由于CPG算法缺乏周期性反馈，无法对CPG输出的节律行为进行实时调整，导致四足机器人在面对新环境时难以进行适应性的变化，环境适应能力弱。

近年来兴起的深度强化学习兼备深度网络的感知能力与强化学习的决策能力，可以使机器人在无需专家对环境及机器人本体建模的情况下，通过环境交互自主学习经验与行动策略，因而展现出了强大的环境适应能力。利用深度强化学习实现四足仿生机器人步态控制即让其在环境中通过不断试错学习到合适的步态控制策略，考虑到试错成本等因素，此过程通常在仿真环境中进行。但由于仿真精度有限，缺乏足够的系统数据用于严格还原真实场景，导致步态控制策略训练困难。此外，相比于基于模型的步态控制方法，基于学习的步态控制难以高频率控制四足机器人行为。

综上所述，传统仿生步态控制与基于学习的步态控制各有利弊，如何在四足仿生机器人步态规划过程中充分发挥两类方法的优势，寻求控制效果平稳高且环境适应性强的步态控制策略，仍然是四足仿生机器人运动控制领域亟待解决的关键性问题。

发明内容

为了解决上述问题，本发明提出了一种基于深度强化学习的机器人运动控制方法及系统，以四足仿生机器人的步态控制问题为研究对象，通过模仿生物神经系统，构建与“脑-脊髓”对应的“深度强化学习网络-中枢模式发生器”运动控制架构。

在一些实施方式中，采用如下技术方案：

一种基于深度强化学习的机器人运动控制方法，包括：

获取外部环境反馈信息和机器人当前运动状态反馈信息；

上述信息经过深度强化学习网络，输出下一时刻的机器人运动控制参数；

中枢模式发生器基于下一时刻的机器人运动控制参数以及机器人当前运动状态的反馈信息，输出下一时刻的机器人运动控制信号。

在另一些实施方式中，采用如下技术方案：

一种基于深度强化学习的机器人运动控制系统，包括：

信息获取模块，用于获取外部环境反馈信息和机器人当前运动状态反馈信息；

深度强化学习网络模块，用于根据上述信息输出下一时刻的机器人运动控制参数；

中枢模式发生器，用于基于下一时刻的机器人运动控制参数以及机器人当前运动状态的反馈信息，输出下一时刻的机器人运动控制信号。

在另一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述的基于深度强化学习的机器人运动控制方法。

在另一些实施方式中，采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述的基于深度强化学习的机器人运动控制方法。

与现有技术相比，本发明的有益效果是：

本发明使用分层控制模式，高级别的环境理解与参数输出能够以较低频率运行，能够适应深度强化学习网络的运算速度并节约计算资源。

低级别的CPG控制方法可以高速执行以满足四足仿生机器人控制的实时需求并对微小的干扰进行实时响应。

本发明通过在深度强化学习网络与实际动作之间插入CPG算法增加了系统的稳定性，约束了动作空间并提高强化学习方法的收敛性，由于最终输出的控制信号为连续的变化值，不会出现强化学习方法中易出现的突变信号，也有利于降低机械冲击，降低磨损，提高机器人使用寿命。

本发明的其他特征和附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本方面的实践了解到。

附图说明

图1为本发明实施例中仿生节律运动控制架构；

图2为本发明实施例中基于深度强化学习的机器人运动控制方法流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

正如背景技术中对于现有技术的阐述，传统机器人控制中的CPG方法缺乏反馈与自调节能力，难以实时调整CPG输出的节律行为，导致四足仿生机器人面对新的未知环境时无法作出适应性变化并生成合理步态。虽然部分带有反馈的方法尝试利用各类优化模型调整CPG参数，用于提高CPG的环境适应性，但他们只能在一定程度上改善步态控制效果，依旧无法使机器人像动物一样针对不同的环境产生相应的控制信号。

基于此，本实施例中，通过模仿生物神经系统，构建与“脑-脊髓”对应的“深度强化学习网络-中枢模式发生器”运动控制架构，具体架构参照图1。

其中，中枢模式发生器(Central Pattern Generator，CPG)是一类广泛存在于生物体内中枢神经系统中的神经元电路，它由脊髓和脑干的中间神经元网络组成，通过神经元之间的相互抑制，产生稳定的相位锁定的周期信号，控制躯体相关部位的节律性运动，例如呼吸、行走、飞行等。

而深度强化学习方法模仿动物尝试与学习的过程被认为与大脑的学习与决策过程较为类似。

本实施例通过结合两者的优势，构建仿生运动控制架构。

上述架构采用深度强化学习网络模仿脑对环境的理解与归纳能力，产生低频控制信号，使模仿脊髓的CPG产生能够适应环境变化的高频运动控制信号，之后将编码器输出的电机位置、速度信息以及imu、深度相机等传感器信号作为反馈量输入控制系统，使深度强化学习网络能够根据相关信息判断当前行进状态，输出运动控制参数，同时CPG利用反馈信息协调各条腿之间的动作，根据当前时刻状态及各电子振荡器上一时刻的输出状态变量计算并输出下一时刻的运动控制信号。

该架构也可使用多种方法加入额外的控制目标。可通过增加深度学习网络额外输入的方法使上层网络调控CPG方法产生不同的行为，也可为几种差异较大的节律行为提前设定不同的CPG结构与超参数等。

在一个或多个实施方式中，公开了一种基于深度强化学习的机器人运动控制方法，参照图2，具体包括以下过程：

(1)获取外部环境反馈信息和机器人当前运动状态反馈信息；

通过IMU(Inertial measurement unit)传感器测量机器人三轴姿态角及加速度，通过深度相机扫描得到的每一帧数据不仅包括了场景中的点的彩色RGB图像，还包括每个点到深度相机所在的垂直平面的距离值。这个距离值被称为深度值(depth)，这些深度值共同组成了这一帧的深度图像，即外界的远程信息。通过深度相机获取当前外界环境深度信息，将外界深度信息输入神经网络可使深度强化学习网络可以提前检测环境中的悬崖、深坑等障碍，从而改变运动模式避开障碍。

除深度信息外，通过机器人与外界环境进行互动，机器人腿部与地形接触过程中获得的反馈信息(例如解算后的反馈力等)也会作为外部环境反馈信息输入神经网络，作为神经网络的输入信号的一部分使强化学习方法输出适应环境的CPG参数。

机器人当前运动状态反馈信息主要包含机器人关节位置、速度、机器人姿态、速度以及加速度等信息，可通过传感器直接获得或解算后得到，其中部分会作为当前状态信息输入强化学习网络进而输出适应环境的CPG参数。

(2)上述信息经过深度强化学习网络，输出下一时刻的机器人运动控制参数；

强化学习指控制目标通过不断试错来积累经验，探索优化状态到动作之间的映射，最终得到最优策略，同时最大化累积收益的过程。马尔可夫决策过程(Markov DecisionProcess,MDP)是序贯决策问题的经典表达形式,是通过交互学习实现最终目标的理论框架。

MDP一般被描述为五元组(S,A,P,R,γ)，其中S代表状态空间，A代表动作空间，P代表状态转移概率，R奖励函数，γ代表计算过程中累计收益的折扣因子。

标准强化学习方法通过最大化奖励累积的期望获得更好的策略，我们使用Soft-AC强化学习方法，在最大化奖励累积期望的同时，提高策略网络的信息量以提高策略探索效率。

训练完成后，在应用过程中，使用机器人内部信息(包括CPG控制参数与各关节位置速度等)与外部信息(外部传感器直接获取信息与解算后获得外部信息)作为状态信息，将之加以筛选与调整，输入动作网络后，动作网络可直接输出执行动作。在本方法中，深度强化学习的动作网络输出下一时刻的机器人运动控制参数，控制低级CPG网络生成最终动作。

本实施例中，采用Soft-AC强化学习方法用于环境理解与CPG控制参数生成，Soft-AC网络输入为当前阶段CPG控制参数以及处理后的传感器信号，经特征提取与计算，输出下一阶段的CPG控制参数。

从生物学角度讲，中枢模式发生器(Central Pattern Generators，CPG)是指一类存在于无脊椎动物和脊椎动物体内中枢神经系统中的神经元电路。它由脊髓和脑干的中间神经元网络组成，通过神经元之间的相互抑制，产生稳定的相位锁定的周期信号，控制躯体相关部位的节律性运动，例如呼吸、行走、飞行等。

CPG是由中间神经元构成的具有多个震荡中心分布网络系统，通过神经元之间的相互抑制作用实现自激震荡，产生具有稳定相位互锁关系的多路或者单路周期信号。我们在机器人控制中使用的CPG模型是使用非线性振荡器即Hopf谐波振荡器模型模仿神经元产生稳定的周期性振荡信号。

由于我们使用Hopf振荡器作为CPG基本单元，其参数直接影响机器人动作行为模式，因此可将其参数结合外部传感器信号作为深度强化学习网络的输入深度强化学习网络以进行下一步决策，因此深度强化学习网络可获取当前自身的运动模式信息与通过与环境互动得来的传感器信息，通过结合内部与外部信息，深度强化学习网络经过特征提取与计算，输出下一时刻CPG振荡器的参数，CPG利用这些参数，产生适应性的行为。

(3)中枢模式发生器基于下一时刻的机器人运动控制参数以及机器人当前运动状态的反馈信息，输出下一时刻的机器人运动控制信号。

本实施例中，中枢模式发生器采用Hopf振荡器，其接收Soft-AC计算得来的CPG控制参数、编码器输出的电机位置、速度信息以及当前时刻状态，输出下一时刻的运动控制信号并交由电机执行。

Soft-AC强化学习方法通过最大化奖励值期望与策略熵的和而不是仅最大化奖励期望获得了更强的探索能力，如公式(1)所示：

其中，J(π)表示行为策略π从t＝0时刻开始到时刻T所获得的目标值；s_t与a_t为在时刻t时策略网络获取的环境状态与最终输出的动作；r(s_t,a_t)为在状态s_t时执行动作a_t所获得的奖励值；H(π(·|s_t))为策略π在面对状态s_t时的信息熵，用以衡量策略π的行为的不确定性；α为平衡r(s_t,a_t)与H(π(·|s_t))之间比例的超参数。

通过最大化J(π)，机器人可以兼顾策略的探索性能与完成任务的能力，从而使机器人能够好的完成任务。为鼓励机器人完成例如行走等任务，需要多种策略组合来设计奖励值以生成r(s_t,a_t)，其主要元素有：

其中，v_b、ω_b表示机器人躯干的线速度与角速度，v_g、ω_g表示机器人目标线速度与角速度，r₁、r₂用于鼓励机器人按照目标指令进行活动；v₀、v₁表示与v_g正交的机器人线速度分量，ω₀、ω₁表示与ω_g正交的机器人角速度分量，r₃用于惩罚机器人的非指令运动；最终，r(s_t,a_t)由r₁、r₂与r₃按比例组合而成。

因此，该结构利用Soft-AC的探索与学习能力在仿真环境中对自身的动作模式进行试探与总结，通过收到的各类数据判断当前行动状态与地形，生成CPG控制参数完成前进任务。同时，所选用的Hopf振荡器在保证输出稳定震荡信号的前提下，有着形式简单、参数较少、计算量小、便于分析、易于实现等特点，其基本形式如公式(2)所示：

其中，x、y为振荡器输出状态变量，

为其导数；r为中间变量；μ决定振荡器的幅值，在μ>0时，幅值

ω为震荡器频率，α控制振荡器收敛到极限环的速度；ω_sw为摆动相频率，

为支撑相频率；u₁、u₂为外部反馈项，可控制振荡器偏置；参数a决定了ω在ω_st与ω_sw之间变化的速度；β为负载因子。

其中，x，y作为振荡器输出，在不同初值情况下均可收敛至右图所示极限环，用于控制关节电机位置产生动作，μ、ω_sw、u₁、u₂等参数可由深度强化学习网络学习并提供用以调控振荡器行为，最终产生适合环境的CPG信号输出。

通过Hopf振荡器输出基本节律运动控制信号，后将控制信号通过PD方法转化为电机的电信号。

由于Hopf振荡器参数物理意义明确，通过对参数的人工选择与调整，避免了使用其他振荡器模型的前期参数优化学习过程，使得参数可以人工分析进行调整，利于后期与强化学习方法进行联合学习时的调整。

本实施例通过在深度强化学习网络与底层电机控制之间加入CPG方法作为缓冲，使得输出的指令并非直接作用于电机而是用作指导CPG方法。经过提前调整的CPG方法可以很好的适应现实环境，从而使得仿真中学习的方法也能够较好的适应现实环境。而且本方法通过结合强化学习方法与传统控制方法，可以降低学习难度、提高学习速度，所以在学习出的方法能够较好适应现实环境的情况下，可花费少量时间在现实环境中进行适应性调整，以实现现实中的运动控制。

另外，基于学习的四足仿生机器人步态控制方法的学习过程多数处于仿真环境之中，在现实中训练的训练时长与人工干预需求也较为夸张，难以满足实际需要；而在仿真中进行学习训练的控制算法在现实中进行应用时的Sim-to-Real问题现在并没有一个完美的解决方案；Sim-to-Real问题是由于仿真环境对现实环境进行了简化与近似，导致控制算法在现实应用中遇到各种问题。

因此，作为一种可选的实施方式，基于中枢模式发生器和深度强化学习的联合运动控制方法，可通过仿真环境与实体机器人验证其可行性与有效性。通过将其应用于模仿Cheetah机器人搭建的四足仿生机器人平台，在仿真环境训练过程学习步态控制策略，使得真实场景中的四足仿生机器人具备复杂地形下的稳定行走能力、面对不规则障碍物的越障能力以及对不同场景的自适应能力。相比于传统强化学习方法，本方法可降低学习难度，提高学习效率以及最终的指令的平滑性，可提高机器人使用寿命并可将学习方法应用于更多环境当中。而且本方法能够综合考虑环境与自身信息故能在环境适应性上优于传统方法。

实施例二

在一个或多个实施方式中，公开了一种基于深度强化学习的机器人运动控制系统，包括：

上述各模块的具体实现方式参照实施例一中的方法实现，不再赘述。

实施例三

在一个或多个实施方式中，公开了一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中的基于深度强化学习的机器人运动控制方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的基于深度强化学习的机器人运动控制方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

在一个或多个实施方式中，公开了一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并实施例一中所述的基于深度强化学习的机器人运动控制方法。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于深度强化学习的机器人运动控制方法，其特征在于，包括：

获取外部环境反馈信息和机器人当前运动状态反馈信息；

2.如权利要求1所述的一种基于深度强化学习的机器人运动控制方法，其特征在于，上述信息经过深度强化学习网络，输出下一时刻的机器人运动控制参数；具体过程包括：

将外部环境反馈信息和机器人当前运动状态反馈信息作为状态信息，输入深度强化学习网络，通过最大化奖励累积的期望获得更好的策略，输出下一时刻的机器人运动控制参数，控制中枢模式发生器生成最终动作。

3.如权利要求1所述的一种基于深度强化学习的机器人运动控制方法，其特征在于，所述深度强化学习网络选用Soft-AC强化学习方法用于环境理解与中枢模式发生器控制参数的生成。

4.如权利要求3所述的一种基于深度强化学习的机器人运动控制方法，其特征在于，Soft-AC强化学习方法通过最大化奖励值与策略熵的和的期望，得到机器人运动控制参数；所述Soft-AC强化学习方法具体为：

其中，J(π)表示行为策略π从t＝0时刻开始到时刻T所获得的目标值；s_t与a_t分别为在时刻t时策略网络获取的环境状态与最终输出的动作；r(s_t,a_t)为在状态s_t时执行动作a_t所获得的奖励值；H(π(·|s_t))为策略π在面对状态s_t时的信息熵，用以衡量策略π的行为的不确定性；α为平衡r(s_t,a_t)与H(π(·|s_t))之间比例的超参数。

5.如权利要求1所述的一种基于深度强化学习的机器人运动控制方法，其特征在于，所述中枢模式发生器通过Hopf振荡器输出基本节律运动控制信号，然后将运动控制信号通过PD方法转化为电机的电信号，以控制机器人运动。

6.如权利要求5所述的一种基于深度强化学习的机器人运动控制方法，其特征在于，所述Hopf振荡器具体为：

其中，x、y为振荡器输出状态变量，

ω为震荡器频率，α控制振荡器收敛到极限环的速度；β为负载因子，ω_sw为摆动相频率，u₁、u₂为外部反馈项。

7.如权利要求1所述的一种基于深度强化学习的机器人运动控制方法，其特征在于，还包括：将所述运动控制方法在模仿Cheetah机器人搭建的四足仿生机器人平台，在仿真环境训练过程学习步态控制策略。

8.一种基于深度强化学习的机器人运动控制系统，其特征在于，包括：

9.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行权利要求1-7任一项所述的基于深度强化学习的机器人运动控制方法。

10.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行权利要求1-7任一项所述的基于深度强化学习的机器人运动控制方法。