CN111552301A

CN111552301A - 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法

Info

Publication number: CN111552301A
Application number: CN202010570039.2A
Authority: CN
Inventors: 方勇纯; 张学有; 郭宪; 朱威
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2020-06-21
Filing date: 2020-06-21
Publication date: 2020-08-18
Anticipated expiration: 2040-06-21
Also published as: CN111552301B

Abstract

一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法。针对蝾螈仿生机器人的路径跟踪问题，建立了分层控制框架，包括基于强化学习的上层控制器和基于逆运动学的底层控制器，实现了蝾螈仿生机器人跟踪目标路径。具体地，对于上层控制器，在softActor‑Critic(演员‑评论)算法的基础上设计了状态空间表示、动作空间表示和奖励函数，可以提高跟踪精度，消除静态误差。对于底层控制器，建立了基于逆运动学腿部控制器和脊柱控制器。最终，将机器人在仿真环境中训练好的控制器迁移到真实环境中，来验证算法的可行性与泛化能力。实验结果表明，本发明能够较好的完成控制目标，在仿真到实际的迁移性与泛化性方面表现出了更好的控制效果。

Description

一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法

技术领域

本发明属于仿生机器人路径跟踪控制的技术领域，特别是涉及一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法。

背景技术

开发用于野外搜索和救援的机器人已成为一个热门的机器人研究领域，搜救场景通常很狭小，并且地形复杂，这些地方很危险，救援人员很难到达，利用机器人来辅助救援队进行探索获取信息，可以提高救援的效率。动物的一个关键特征是它们在环境中有效移动的能力，这种基本但令人惊叹的能力是数百万年进化的结果，它的灵活性和能源利用效率远远超过机器人的水平。所以仿生机器人根据动物的身体构造来设计结构，希望可以实现相同的控制效果，仿生机器人正是为了完成非常具有挑战性的野外任务而开发的，例如在灾难后的废墟中进行搜救，在不适合人类和其他普通机器人的危险环境中进行勘测探索。

对于在地面执行任务，蝾螈机器人在结构上具有四只腿和可以摆动的脊柱，所以具有穿越复杂环境的能力，同时重心较低，不容易倾倒，通过脊柱摆动配合四条腿的运动可以提高运动速度并且保持稳定性。

国内外相关领域的学者对仿生机器人开展了大量的研究工作，其中一大类是多关节仿生类机器人的研究。针对仿生类蝾螈机器人，早期开发的蝾螈仿生机器人没有腿，因此限制了它们的运动能力，后来提出的机器人，比如Salamandra robotica II，它具有四条腿和一个可以摆动的躯干，能够在借助腿在地面和浅水区运动，但是它的腿部结构只有一个关节，这严重限制了在更复杂地形运动的能力，只能在一个平面运动。下一代提出的蝾螈机器人Pleurobot与生物学上的结构极为相似，每条腿都有四个关节，具备高度的运动灵活性，这极大提高了它在复杂地形运动的能力。

众所周知，蝾螈类机器人由于其冗余度高，控制起来非常困难，在各种控制方法中，采用信息融合和平滑输出信号的中央模式发生器是一种有效的控制方法，但由于其复杂的耦合关系，所涉及的参数的优化比较复杂，难以获得比较合适的震荡参数。另一种方法是通过逆运动学规划机器人的轨迹，利用力反馈设计机器人的控制律。此外，有学者提出了一种实时的脊柱腿协调控制算法，该算法消耗大量的计算资源，在研究转弯运动时没有考虑左右步幅长度差值对转弯半径的影响。后来也有团队使用IMU和相机来收集环境信息，但是在将传感器融合算法的输出用来实现闭环控制时并没有成功。

发明内容

本发明的目的是解决现有蝾螈类机器人控制方法涉及的参数优化比较复杂、算法消耗大量的计算资源等问题，提供一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法。

本发明为了解决蝾螈机器人路径跟踪的问题采用了分层控制的方法，上层的策略网络用强化学习训练，提供复杂的全局决策，而底层的传统控制器实现来自上层控制器的命令。与其他控制算法相比，本发明的分层控制框架充分利用了强化学习和传统控制算法的特点，也就是说，上层控制器通常适合于处理缓慢变化的、高维的信息来做出全局决策，而底层的传统控制器则擅长于跟踪特定的命令。此外，针对直线路径跟踪的具体任务，将状态积分补偿引入到soft Actor-Critic算法中，实验结果表明，与普通soft Actor-Critic算法相比，该算法取得了明显的改进。

本发明的技术方案

一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法，该方法采用分层控制框架，所述蝾螈机器人跟踪路径根据任务不同分为两层控制器，分别是基于强化学习的上层控制器和基于逆运动学的底层控制器，其中基于强化学习的上层控制器包括状态空间的设计、动作空间的设计和奖励函数的设计，底层控制器包括脊柱控制器和腿部控制器，腿部控制器由轨迹生成模块和逆运动学求解模块构成。具体地，蝾螈机器人在t时刻的状态和动作分别表示为s_t,a_t，上一时刻得到的奖励表示为r(s_t-1,a_t-1)，在训练阶段，上层控制器在t时刻输入r(s_t-1,a_t-1)和s_t，然后输出动作a_t，动作a_t作为底层控制器的输入，底层控制器根据输入的指令输出蝾螈机器人19个关节的位置，并在仿真环境中执行，根据执行指令后机器人的状态，生成下一时刻的奖励r(s_t,a_t)，再将r(s_t,a_t)和s_t+1反馈给上层控制器，依次循环。在实验阶段，上层控制器的输入和环境的反馈只有状态s_t，中间步骤相同。两层控制器的具体设计方法如下：

第1、基于强化学习的上层控制器的设计：

蝾螈机器人跟踪路径的问题建模为一个马尔可夫决策过程(Markov decisionprocess)，通过一个元组来定义

其中

是连续的状态空间，

表示连续的动作空间，p表示状态转移概率，r是在每次状态转移过程中来自环境的奖励。π(a_t|s_t)表示策略，在状态为s_t时采取动作a_t，用ρ_π(s_t,a_t)表示状态-动作的轨迹分布边际，soft Actor-Critic强化学习算法的目标是学习一个最优策略π(a_t|s_t)使得奖励与交叉熵的累积加权和最大，即

其中，α是超参数，权衡奖励与交叉熵的重要性，最大熵目标可以有效地扩大探索范围，加快强化学习的收敛速度。

第1.1、状态空间的设计

对于路径跟踪问题，本发明将目标路径离散为一系列散点，用一个滑动窗口从路径起点滑向终点，将滑动窗口中的n个散点在机器人坐标系中的坐标作为状态，即

其中，^RP_i ^t表示滑动窗口中第i个散点在机器人坐标系中的坐标。滑动窗口的移动取决于窗口中第一个点与机器人之间的距离，如果距离小于设定的阈值，则滑动窗口向前移动一步，滑动窗口中第一个点将被移除，在队列末尾将增加一个点。当扫描完目标路径上的所有点后，路径跟踪任务就完成了，变化较快的传感器数据不被选择作为状态的一部分，从而使训练好的网络更容易应用到真实的机器人上。

在路径跟踪任务中容易出现稳态误差，为了有效地消除跟踪的稳态误差，引入状态积分补偿项，即

其中，

是积分补偿项，表示滑动窗口中第一个点的坐标的累积求和。

第1.2、动作空间设计

在分层控制框架中，上层控制器输出的动作作为底层控制器的输入，动作是一个抽象的命令，包括向前、向左、向右运动一个很小的距离，而不是具体的关节位置或者速度，这样做的优点是能够对任何路径有效，即任何路径的跟踪可以转化为机器人向前、向左、向右运动一个很小的距离。在本发明中，对于蝾螈机器人跟踪路径，动作是左腿的步长、右腿的步长和脊柱的偏置，如果左腿的步长比右腿的步长大，机器人则向右运动，脊柱偏置对转弯有一定的影响，动作空间设计如下:

其中，l_left表示左腿步长，l_right表示右腿步长，

表示脊柱偏置。

第1.3、奖励函数的设计

强化学习利用奖励来引导机器人学习到一个最优的策略，在机器人跟踪路径的任务中，机器人与滑动窗口内所有散点的距离的加权和的相反数作为奖励函数，直观意义是距离越小，奖励越大，即

其中，k_i是权重系数，用来调整每个目标点的重要性，随着i的增加，相应的目标点距离机器人越远，所以权重系数越小，注意到滑动窗口中的n个目标点表示跟踪路径的前视距离，机器人可以据此决定前进的方向，将奖励定义为负值，以激励机器人以最少的控制步数到达目标位置。

第2、基于逆运动学的底层控制器的设计

第2.1、腿部控制器设计

每条腿有四个关节，通过解逆运动学得到每个关节的角度，使末端执行器按照给定的轨迹运动。这四条腿的参数相同，所以下面的分析适用于每条腿，下面对一条腿建立运动学模型，从腿部末端点到基座的四个坐标变换矩阵如下：

其中sθ＝sin(θ),cθ＝cos(θ)腿部末端点在第四个坐标系下的位置为⁴P＝[0 -960 1]^T,则末端点在基座坐标系下的位置为

如此便找到了四个关节角与腿部末端点在基坐标系的对应关系，基坐标系固定在机器人上，通过改变四个关节角就可以改变末端点的位置。腿部的控制是通过在基坐标系下给定一条轨迹，让末端点跟踪这条轨迹。末端点相对地面静止，利用腿部末端与地面的反作用力推动身体前进，轨迹通过贝塞尔曲线生成，通过改变控制点可以改变轨迹的步幅长度和高度。在每条轨迹上等间隔取样100个点p_i＝[x_i y_i z_i]^T作为腿部末端点的目标位置，通过逆运动学求解出所对应的四个关节角，以固定频率向四个舵机发送求解出的目标角度便可以让腿部走出对应的轨迹。

机器人腿部末端在基坐标系下的笛卡尔空间坐标为：

机器人腿部末端点的速度

与四个关节角速度

满足:

其中，

雅可比矩阵J是3×4阶的矩阵不可以对其求逆，否则利用雅可比逆矩阵，通过给定腿部末端点的目标位置与当前位置的误差项，便可以求出控制项关节角速度。现在将求解关节角转换为一个优化问题：

其中Δq＝q_t-q表示目标角度与当前角度的误差；

Δp＝p_t-p表示腿部末端点在笛卡尔空间下目标位置与当前的误差；

J是雅可比矩阵，λ是常数阻尼项，目的是避免关节角进入极点，转速太快，损坏舵机。

令

f(Δq)＝||Δp-JΔq||²+λ||Δq||²

＝tr[(Δp-JΔq)(Δp-JΔq)^T]+λtr(ΔqΔq^T) (19)

＝tr(ΔpΔp^T-ΔpΔq^TJ^T-JΔqΔp^T+JΔqΔq^T)+λtr(ΔqΔq^T)

再求导

得到目标角度和当前角度的误差的最优解如下

Δq＝(J^TJ+λI)^-1J^TΔp (21)

根据公式(21)得到当前角度与目标角度的差值，通过积分得到当前角度，再运用正运动学公式(13)得到当前腿部末端点在基坐标系下的位置，计算腿部末端点的目标位置与当前位置的误差项Δp，如果误差项大于给定的阈值，则将误差项Δp继续带入公式(21)求解Δq，如果误差项小于给定的阈值，则将当前角度作为当前目标位置的解，然后更新下一个目标位置和雅可比矩阵，重新计算位置误差项Δp作为公式(21)的输入项，得到目标角度和当前角度的误差Δq，如此迭代计算可以求解出所有样本目标位置所对应的四个舵机的目标角度，如果计算机性能允许，可以实现在线规划腿部末端位置，再求解得到所对应的舵机角度。

与蝾螈爬行相似，本文考虑了四足蝾螈机器人以静态稳定、规则对称的爬行步态行走，先放下空中的腿，再抬起地面上的腿，至少有三条腿始终接地。在走路的过程中，前腿从摆动阶段切换到站立阶段，然后后腿的相对一侧切换到摆动阶段，然后前腿进入摆动阶段。

四只腿的相位如下所示：

ψ_RF＝0,ψ_LH＝0.25,ψ_LF＝0.5,ψ_RH＝0.75 (22)

其中RF、LH、LF、RH分别代表右前肢、左后肢、左前肢、右后肢。

第2.2、脊柱控制器设计

脊柱的运动可以改变重心的位置，增加运动的平稳性，还可以增大腿迈出的步幅长度，从而加快运动的速度。脊柱按照正弦信号摆动控制器设置如下

其中b_i是脊柱第i个舵机按正弦信号摆动的振幅，f是摆动的频率，通过与腿部运动频率配合能够改变运动速度，φ_i是第i个舵机正弦信号的初相位，

是第i个舵机正弦信号的偏置项。

由于脊柱关节数目较少，中间关节的运动幅度较大。脊柱的正弦信号周期的四分之一是一个相位，有四个相位，因此

φ₁＝0,φ₂＝π,φ₃＝0 (24)

在公式(24)中给出了偏置项的选取原则，当机器人直行的时候，偏置项为零，脊柱按照正弦信号摆动，当机器人需要转弯的时候，脊柱向转弯相反的方向弯曲，偏置项的大小与转弯的半径成正比。

本发明的优点和有益效果：

本发明提出一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法。针对蝾螈仿生机器人的路径跟踪问题，建立了分层控制框架，包括基于强化学习的上层控制器和基于逆运动学的底层控制器，实现了蝾螈仿生机器人跟踪目标路径。具体地，首先构建蝾螈机器人的仿真环境，对于上层控制器，在soft Actor-Critic(演员-评论)算法的基础上引入状态积分补偿，可以提高跟踪精度，消除静态误差，此外，提出更为紧凑的机器人状态表示和更为抽象的动作表示。最终，将机器人在仿真环境中训练好的控制器迁移到真实环境中，来验证算法的可行性与泛化能力。实验结果表明，本发明能够较好的完成控制目标，在仿真到实际的迁移性与泛化性方面表现出了更好的控制效果。

附图说明

图1是基于强化学习的分层控制框架图；

图2是蝾螈机器人的仿真和实际模型；

图3是蝾螈机器人路径跟踪的实验环境；

图4是蝾螈机器人的动作空间表示示意图；

图5是蝾螈机器人在真实环境中跟踪直线的结果图；

图6是蝾螈机器人在真实环境中跟踪正弦曲线的结果图。

具体实施方式

一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法，该方法采用分层控制框架(如图1所示)，

将蝾螈机器人跟踪路径根据任务不同分为两层控制器，分别是基于强化学习的上层控制器和基于逆运动学的底层控制器，其中基于强化学习的上层控制器包括状态空间的设计、动作空间的设计和奖励函数的设计，底层控制器包括脊柱控制器和腿部控制器，腿部控制器由轨迹生成模块和逆运动学求解模块构成。具体地，机器人在t时刻的状态和动作分别为s_t,a_t，上一时刻得到的奖励为r(s_t-1,a_t-1)，在训练阶段，上层控制器在t时刻输入r(s_t-1,a_t-1)和s_t，然后输出动作a_t，动作a_t作为底层控制器的输入，底层控制器根据输入的指令输出蝾螈机器人19个关节的位置，并在仿真环境中执行，根据执行指令后机器人的状态，生成下一时刻的奖励r(s_t,a_t)，再将r(s_t,a_t)和s_t+1反馈给上层控制器，依次循环。在实验阶段，高层控制器的输入和环境的反馈只有状态s_t，中间流程相同。两层控制器的具体设计方法如下：

第1、基于强化学习的上层控制器的设计

蝾螈机器人跟踪路径的问题建模为一个Markov decision process(马尔可夫决策过程)，通过一个元组来定义

其中

是连续的状态空间，

第1.1、状态空间的设计

其中，

第1.2、动作空间设计

在分层控制框架中，上层控制器输出的动作作为底层控制器的输入，动作是一个抽象的命令，比如向前、向左、向右运动一个很小的距离，而不是具体的关节位置或者速度，这样做的优点是能够对任何路径有效，即任何路径的跟踪可以转化为机器人向前、向左、向右运动一个很小的距离。在本发明中，对于蝾螈机器人跟踪路径，动作是左腿的步长、右腿的步长和脊柱的偏置，如果左腿的步长比右腿的步长大，机器人则向右运动，脊柱偏置对转弯有一定的影响，动作空间设计如下:

其中，l_left表示左腿步长，l_right表示右腿步长，

表示脊柱偏置。

第1.3、奖励函数的设计

第2、基于逆运动学的底层控制器的设计

第2.1、腿部控制器设计

其中sθ＝sin(θ),cθ＝cos(θ)腿部末端点在第四个坐标系下的位置为⁴P=[0 -960 1]^T,则末端点在基座坐标系下的位置为

如此便找到了四个关节角与腿部末端点在基坐标系的对应关系，基坐标系固定在机器人上，通过改变四个关节角就可以改变末端点的位置。腿部的控制是通过在基坐标系下给定一条轨迹，让末端点跟踪这条轨迹。末端点相对地面静止，利用腿部末端与地面的反作用力推动身体前进，轨迹通过贝塞尔曲线生成，通过改变控制点可以改变轨迹的步幅长度和高度。在每条轨迹上等间隔取样100个点p_i=[x_i y_i z_i]^T作为腿部末端点的目标位置，通过逆运动学求解出所对应的四个关节角，以固定频率向四个舵机发送求解出的目标角度便可以让腿部走出对应的轨迹。

机器人腿部末端在基坐标系下的笛卡尔空间坐标为：

机器人腿部末端点的速度

与四个关节角速度

满足:

其中，

其中Δq＝q_t-q表示目标角度与当前角度的误差；

令

f(Δq)＝||Δp-JΔq||²+λ||Δq||²

＝tr[(Δp-JΔq)(Δp-JΔq)^T]+λtr(ΔqΔq^T) (19)

＝tr(ΔpΔp^T-ΔpΔq^TJ^T-JΔqΔp^T+JΔqΔq^T)+λtr(ΔqΔq^T)

再求导

得到目标角度和当前角度的误差的最优解如下

Δq＝(J^TJ+λI)^-1J^TΔp (21)

四只腿的相位如下所示：

ψ_RF＝0,ψ_LH＝0.25,ψ_LF＝0.5,ψ_RH＝0.75 (22)

第2.2、脊柱控制器设计

是第i个舵机正弦信号的偏置项。

φ₁＝0,φ₂＝π,φ₃＝0 (24)

在公式(25)中给出了偏置项的选取原则，当机器人直行的时候，偏置项为零，脊柱按照正弦信号摆动，当机器人需要转弯的时候，脊柱向转弯相反的方向弯曲，偏置项的大小与转弯的半径成正比。

第3、仿真与实验效果描述

第3.1、仿真结果

如图2所示，在机器人物理仿真引擎Gazebo中设计了完整的机器人模型，并在此基础上进行了上层控制器的策略训练，策略函数和值函数都用全连通神经网络表示，在执行允许的步数或机器人到达目标位置时训练过程结束，蝾螈机器人的动作空间可以用图4表示。

为了测试训练后的上层控制器的性能，首先在仿真环境中跟踪直线路径。进一步，考虑到神经网络通常对不同的状态输入敏感，由于机器人的宽度为0.467m，且机器人中心与直线路径的最大距离小于0.3m，因此在不同的状态输入下，机器人都能很好地沿目标路径运动。事实上，腿足式机器人依靠腿与地面之间的摩擦力向前移动，在移动过程中有一个身体摆动，即使有这些因素，机器人也不会偏离目标路径。

为了进一步测试控制器的泛化能力，我们尝试将在直线目标路径上训练的上层控制器转移到其他更复杂的路径上。为此，利用正弦路径作为目标曲线进行跟踪，即使正弦曲线呈现出更陡峭的斜率，并且上层控制器从未经过这样一个数据集的训练，它仍然能够产生令人满意的跟踪性能。仍进行三次不同的测试，机器人成功地跟踪目标路径，它可以将跟踪急剧变化的目标路径，验证了分层控制框架提供了良好的泛化能力，目标路径可以拆分成许多小线段作为上层控制器的状态。

第3.2、实验结果

将在仿真环境中训练的上层控制器迁移到实际环境中验证算法的可行性，实验环境如图3所示，其中我们使用了一个运动捕捉系(Qualysis)测量机器人的位置和姿态，从而通过位姿变换得到目标点在机器人坐标系中的坐标，作为上层控制器的输入。上层控制器在PC机上运行，底层控制器在TX2上运行，高级网络的操作输出通过无线网络发布到底层系统。

在第一组实验中，利用设计的基于强化学习的层次控制算法控制蝾螈机器人沿给定的直线运动。考虑到前面描述的稳态误差问题，我们对路径跟踪任务分别采用了普通的soft Actor-Critic算法和针对直线路径设计的带积分补偿的soft Actor-Critic算法，同时，采用比例积分控制器进行实验对比，三种方法的结果如图5所示。从跟踪结果曲线上可以看出，三种算法都能使机器人成功地沿着给定的直线运动，而SAC-IC算法由于有积分补偿成分，其性能明显优于其他两种算法。

在第二组实验中，我们仍然利用设计的基于强化学习的控制算法和比较比例积分控制器使机器人沿正弦曲线运动，为简洁起见，采用无积分补偿的soft Actor-Critic算法作为基于强化学习的方法。为了得到最好的结果，比例积分控制器的参数进行了重新调整，得到的值与第一次实验的值不同。然而，对于基于强化学习的方法，系统的结构和参数与第一次实验完全相同，这表明该方法的方便性，实验的结果如图6所示，从这可以看出，基于强化学习的方法的真实轨迹显然更接近目标路径，主要是由于神经网络可以输入大量的信息，并且输入的一组目标点对跟踪控制可以起到预测作用。除了直线路径和正弦曲线外，所提出的基于强化学习的分层控制算法还可以使机器人无需再训练就可以跟踪其他路径，这清楚地表明了所提出的分层控制框架的可行性。

参考文献

[1]Ijspeert A J,Crespi A,Cabelguen J M.Simulation and roboticsstudies of salamander locomotion[J].Neuroinformatics,2005,3(3):171-195.

[2]Karakasiliotis K,Ijspeert A J.Analysis of the terrestriallocomotion of a salamander robot[C]//2009IEEE/RSJ International Conference onIntelligent Robots and Systems.IEEE,2009:5015-5020.

[3]Crespi A,Karakasiliotis K,Guignard A,et al.Salamandra robotica II:an amphibious robot to study salamander-like swimming and walking gaits[J].IEEE Transactions on Robotics,2013,29(2):308-320.

[4]Karakasiliotis K,Thandiackal R,Melo K,et al.From cineradiographyto biorobots:an approach for designing robots to emulate and study animallocomotion[J].Journal of The Royal Society Interface,2016,13(119):20151089.

[5]Horvat T,Karakasiliotis K,Melo K,et al.Inverse kinematics andreflex based controller for body-limb coordination of a salamander-like robotwalking on uneven terrain[C]//2015IEEE/RSJ International Conference onIntelligent Robots and Systems(IROS).IEEE,2015:195-201.

[6]Horvat T,Melo K,Ijspeert A J.Spine controller for a sprawlingposture robot[J].IEEE Robotics and Automation Letters,2017,2(2):1195-1202.

[7]Parsapour M,Melo K,Horvat T,et al.Challenges in visual andinertial information gathering for a sprawling posture robot[C]//2017 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS).IEEE,2017:2691-2697.

[8]John R Rebula,Peter D Neuhaus,Brian V Bonnlander,Matthew JJohnson,and Jerry E Pratt.A controller for the littledog quadruped walking on roughterrain.In Proceedings 2007 IEEE International Conference on Robotics andAutomation,pages 1467–1473.IEEE,2007.

[9]J Zico Kolter,Mike P Rodgers,and Andrew Y Ng.A controlarchitecture for quadruped locomotion over rough terrain.In 2008 IEEEInternational Conference on Robotics and Automation,pages 811–818.IEEE,2008.

[10]Mrinal Kalakrishnan,Jonas Buchli,Peter Pastor,Michael Mistry,andStefan Schaal.Learning,planning,and control for quadruped locomotion overchallenging terrain.The International Journal of Robotics Research,30(2):236–258,2011.

[11]Matt Zucker,Nathan Ratliff,Martin Stolle,Joel Chestnutt,J AndrewBagnell,Christopher G Atkeson,and James Kuffner.Optimization and learning forrough terrain legged locomotion.The International Journal of RoboticsResearch,30(2):175–191,2011.

[12]J Zico Kolter,Pieter Abbeel,and Andrew Y Ng.Hierarchicalapprenticeship learning with application to quadruped locomotion.In Advancesin Neural Information Processing Systems,pages 769–776,2008.

[13]Alexander Winkler,Ioannis Havoutis,Stephane Bazeille,Jesus Ortiz,Michele Focchi,Rudiger Dillmann,Darwin Caldwell,and Claudio Semini.Pathplanning with force-based foothold adaptation and virtual model control fortorque controlled quadruped robots.In2014 IEEE International Conference onRobotics and Automation(ICRA),pages6476–6482.IEEE,2014.

[14]Farbod Farshidian,Edo Jelavic,Asutosh Satapathy,MarkusGiftthaler,and Jonas Buchli.Real-time motion planning of legged robots:Amodel predictive control approach.In 2017IEEE-RAS 17^th InternationalConference on Humanoid Robotics(Humanoids),pages577–584.IEEE,2017.

[15]Alexander W Winkler,Carlos Mastalli,Ioannis Havoutis,MicheleFocchi,Darwin G Caldwell,and Claudio Semini.Planning and execution of dynamicwhole-body locomotion for a hydraulic quadruped on challenging terrain.In2015 IEEE International Conference on Robotics and Automation(ICRA),pages5148–5154.IEEE,2015.

[16]Timothy P.Lillicrap,Jonathan J.Hunt,Alexander Pritzel,NicolasHeess,Tom Erez,Yuval Tassa,David Silver,and Daan Wierstra.Continuous controlwith deep reinforcement learning.In 4th International Conference on LearningRepresentations,ICLR 2016,San Juan,Puerto Rico,May 2-4,2016,Conference TrackProceedings,2016.

[17]John Schulman,Filip Wolski,Prafulla Dhariwal,Alec Radford,andOleg Klimov.Proximal policy optimization algorithms.CoRR,abs/1707.06347,2017.

[18]Jie Tan,Tingnan Zhang,Erwin Coumans,Atil Iscen,Yunfei Bai,DanijarHafner,Steven Bohez,and Vincent Vanhoucke.Sim-toreal:Learning agilelocomotion for quadruped robots.In Robotics:Science and Systems XIV,CarnegieMellon University,Pittsburgh,Pennsylvania,USA,June 26-30,2018,2018.

[19]Jemin Hwangbo,Joonho Lee,Alexey Dosovitskiy,Dario Bellicoso,Vassilios Tsounis,Vladlen Koltun,and Marco Hutter.Learning agile and dynamicmotor skills for legged robots.Science Robotics,4(26):eaau5872,2019.

[20]Tuomas Haarnoja,Sehoon Ha,Aurick Zhou,Jie Tan,George Tucker,andSergey Levine.Learning to walk via deep reinforcement learning.arXiv preprintarXiv:1812.11103,2018.

[21]Dong Jin Hyun,Sangok Seok,Jongwoo Lee,and Sangbae Kim.High speedtrot-running:Implementation of a hierarchical controller using proprioceptiveimpedance control on the mit cheetah.The International Journal of RoboticsResearch,33(11):1417–1445,2014.

Claims

1.一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法，其特征在于该方法采用

分层控制框架，所述蝾螈机器人跟踪路径根据任务不同分为两层控制器，分别是基于强化学习的上层控制器和基于逆运动学的底层控制器；其中，基于强化学习的上层控制器包括状态空间的设计、动作空间的设计和奖励函数的设计，底层控制器包括脊柱控制器和腿部控制器，腿部控制器由轨迹生成模块和逆运动学求解模块构成；具体地，蝾螈机器人在t时刻的状态和动作分别表示为s_t,a_t，上一时刻得到的奖励为表示r(s_t-1,a_t-1)，在训练阶段，上层控制器在t时刻输入r(s_t-1,a_t-1)和s_t，然后输出动作表示为a_t，动作a_t作为底层控制器的输入，底层控制器根据输入的指令输出蝾螈机器人19个关节的位置，并在仿真环境中执行，根据执行指令后机器人的状态，生成下一时刻的奖励r(s_t,a_t)，再将r(s_t,a_t)和s_t+1反馈给上层控制器，依次循环；在实验阶段，上层控制器的输入和环境的反馈只有状态s_t，中间步骤相同。

2.根据权利要求1所述的基于强化学习的蝾螈机器人路径跟踪的分层控制方法，其特征在于，

基于强化学习的上层控制器的设计如下：

其中

是连续的状态空间，

表示连续的动作空间，p表示状态转移概率，r是在每次状态转移过程中来自环境的奖励；π(a_t|s_t)表示策略，在状态为s_t时采取动作a_t，用ρ_π(s_t,a_t)表示状态-动作的轨迹分布边际，soft Actor-Critic强化学习算法的目标是学习一个最优策略π(a_t|s_t)使得奖励与交叉熵的累积加权和最大，即

其中，α是超参数，权衡奖励与交叉熵的重要性，最大熵目标可以有效地扩大探索范围，加快强化学习的收敛速度；上层控制器包括状态空间的设计、动作空间的设计和奖励函数的设计，这三部分的设计保证了最终训练的控制器收敛，三部分属于并列关系；

(1)、状态空间的设计

对于路径跟踪问题，将目标路径离散为一系列散点，用一个滑动窗口从路径起点滑向终点，将滑动窗口中的n个散点在机器人坐标系中的坐标作为状态，即

其中，^RP_i ^t表示滑动窗口中第i个散点在机器人坐标系中的坐标；滑动窗口的移动取决于窗口中第一个点与机器人之间的距离，如果距离小于设定的阈值，则滑动窗口向前移动一步，滑动窗口中第一个点将被移除，在队列末尾将增加一个点；当扫描完目标路径上的所有点后，路径跟踪任务就完成了，变化较快的传感器数据不被选择作为状态的一部分，从而使训练好的网络更容易应用到真实的机器人上；

其中，

是积分补偿项，表示滑动窗口中第一个点的坐标的累积求和；

(2)、动作空间设计

在分层控制框架中，上层控制器输出的动作作为底层控制器的输入，动作是一个抽象的命令，包括向前、向左、向右运动一个很小的距离，而不是具体的关节位置或者速度，这样做的优点是能够对任何路径有效，即任何路径的跟踪可以转化为机器人向前、向左、向右运动一个很小的距离；对于蝾螈机器人跟踪路径，动作是左腿的步长、右腿的步长和脊柱的偏置，如果左腿的步长比右腿的步长大，机器人则向右运动，脊柱偏置对转弯有一定的影响，动作空间设计如下:

其中，l_left表示左腿步长，l_right表示右腿步长，

表示脊柱偏置；

(3)、奖励函数的设计

3.根据权利要求1所述的基于强化学习的蝾螈机器人路径跟踪的分层控制方法，其特征在于，基于逆运动学的底层控制器的设计如下：

(1)、腿部控制器设计

每条腿有四个关节，通过解逆运动学得到每个关节的角度，使末端执行器按照给定的轨迹运动；这四条腿的参数相同，所以下面的分析适用于每条腿，下面对一条腿建立运动学模型，从腿部末端点到基座的四个坐标变换矩阵如下：

其中sθ＝sin(θ),cθ＝cos(θ)腿部末端点在第四个坐标系下的位置为⁴P＝[0 -96 0 1]^T,则末端点在基座坐标系下的位置为

如此便找到了四个关节角与腿部末端点在基坐标系的对应关系，基坐标系固定在机器人上，通过改变四个关节角就可以改变末端点的位置；腿部的控制是通过在基坐标系下给定一条轨迹，让末端点跟踪这条轨迹；末端点相对地面静止，利用腿部末端与地面的反作用力推动身体前进，轨迹通过贝塞尔曲线生成，通过改变控制点可以改变轨迹的步幅长度和高度；在每条轨迹上等间隔取样100个点p_i＝[x_i y_i z_i]^T作为腿部末端点的目标位置，通过逆运动学求解出所对应的四个关节角，以固定频率向四个舵机发送求解出的目标角度便可以让腿部走出对应的轨迹；

机器人腿部末端在基坐标系下的笛卡尔空间坐标为：

机器人腿部末端点的速度

与四个关节角速度

满足:

其中，

雅可比矩阵J是3×4阶的矩阵不可以对其求逆，否则利用雅可比逆矩阵，通过给定腿部末端点的目标位置与当前位置的误差项，便可以求出控制项关节角速度；现在将求解关节角转换为一个优化问题：

其中Δq＝q_t-q表示目标角度与当前角度的误差；

J是雅可比矩阵，λ是常数阻尼项，目的是避免关节角进入极点，转速太快，损坏舵机；

令

再求导

得到目标角度和当前角度的误差的最优解如下

Δq＝(J^TJ+λI)^-1J^TΔp (21)

根据公式(21)得到当前角度与目标角度的差值，通过积分得到当前角度，再运用正运动学公式(13)得到当前腿部末端点在基坐标系下的位置，计算腿部末端点的目标位置与当前位置的误差项Δp，如果误差项大于给定的阈值，则将误差项Δp继续带入公式(21)求解Δq，如果误差项小于给定的阈值，则将当前角度作为当前目标位置的解，然后更新下一个目标位置和雅可比矩阵，重新计算位置误差项Δp作为公式(21)的输入项，得到目标角度和当前角度的误差Δq，如此迭代计算可以求解出所有样本目标位置所对应的四个舵机的目标角度；

与蝾螈爬行相似，考虑四足蝾螈机器人以静态稳定、规则对称的爬行步态行走，先放下空中的腿，再抬起地面上的腿，至少有三条腿始终接地；在走路的过程中，前腿从摆动阶段切换到站立阶段，然后后腿的相对一侧切换到摆动阶段，然后前腿进入摆动阶段；四只腿的相位如下所示：

ψ_RF＝0,ψ_LH＝0.25,ψ_LF＝0.5,ψ_RH＝0.75 (22)

其中RF、LH、LF、RH分别代表右前肢、左后肢、左前肢、右后肢；

(2)、脊柱控制器设计

脊柱的运动可以改变重心的位置，增加运动的平稳性，还可以增大腿迈出的步幅长度，从而加快运动的速度；脊柱按照正弦信号摆动控制器设置如下

是第i个舵机正弦信号的偏置项；

由于脊柱关节数目较少，中间关节的运动幅度较大；脊柱的正弦信号周期的四分之一是一个相位，有四个相位，因此

φ₁＝0,φ₂＝π,φ₃＝0 (24)

在公式(25)中给出了偏置项的选取原则，当机器人直行的时候，偏置项为零，脊柱按照正弦信号摆动，当机器人需要转弯的时候，脊柱向转弯相反的方向弯曲，偏置项的大小与转弯的半径的大小成正比。