CN115951580A

CN115951580A - 一种四足机器人自主运动控制学习方法

Info

Publication number: CN115951580A
Application number: CN202310005616.7A
Authority: CN
Inventors: 张晓平; 吴宜通; 王力; 郑远鹏; 孟祥鹏; 张嘉林; 冯辉; 马新雨
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-04-11

Abstract

本发明公开一种四足机器人自主运动控制学习方法，涉及四足机器人领域。使用余弦振荡器作为中枢模式发生器单元，用于四足机器人单腿运动规划；采用深度强化学习方法对中枢模式发生器网络的参数进行训练，将当前运动状态下中枢模式发生器网络的最佳参数输入中枢模式发生器网络，即可得到四足机器人每个关节的角度信号，机器人按照角度信号直线运动。本发明将中枢模式发生器与深度强化学习的方法进行结合，克服了经典控制方法和无模型控制方法缺点，使用到机器人的先验知识但不需要进行建模，也不需要像Hopf振荡器一样进行耦合，同时将先验知识加入到深度强化学习训练之中，减少机器人与环境的交互次数，实现了四足机器人平稳运动自主学习。

Description

一种四足机器人自主运动控制学习方法

技术领域

本发明涉及四足机器人领域，特别是涉及一种四足机器人自主运动控制学习方法。

背景技术

目前，用于四足机器人控制的方法主要分为三大类，即基于模型的经典控制方法、无模型的深度强化学习方法和模仿学习，其中，经典控制方法主要有CPG(Central PatternGenerators，中枢模式发生器)、ZMP(Zero Moment Point，零力矩点理论)、MPC(模型预测控制)、VMP(虚拟模型控制)以及SLIP(springloadedinvegedpendulum，弹簧倒立摆模型)。其中与本发明相关的是CPG(中枢模式发生器)控制。

CPG(中枢模式发生器)主要特征有：

(1)可以在无节律信号输入、无反馈信息及缺少高层控制命令的情况下产生稳定的节律信号。

(2)通过相位滞后及相位锁定，可以产生多种稳定的相位关系，实现机器人多样的运动模态。

(3)易于集成环境反馈信号，形成反馈控制系统。

(4)结构简单，具有很强的鲁棒性和适应能力。

目前用于机器人控制的CPG模型分为两大类，即基于神经元的模型和基于非线性振荡器的模型，基于神经元的模型有Matsuoka神经元振荡器模型和Kimura模型，基于非线性振荡器的模型有Kumamoto相位振荡器、Hopf谐波振荡器和Van der Pol松弛振荡器，其中Hopf谐波振荡器与本发明的技术最为接近，下面将详细介绍Hopf谐波振荡器构成的CPG(中枢模式发生器)模型。

Hopf谐波振荡器是一种简单的谐波振荡器，数学表达式如下式(1)所示：

式中，x,y是状态变量，μ决定振荡器的幅值，

μ＞0；ω为振荡器频率；α用于控制振荡器收敛到极限环的速度。

引入反馈的CPG单元模型数学表达式如式(2)所示：

其中，μ₁,μ₂为外部反馈项；β为负载因子；ω_st为支撑项频率；参数a为摆动相频率和支撑项频率之间的变化速度。

从式(2)中可以看到一个CPG单元有x,y两个状态变量，因此最多能控制四足机器人一条腿的两个关节，要想控制一个8自由度的四足机器人也就是每条腿有两个关节的四足机器人就需要4个CPG单元，因此，需要将4个CPG单元进行耦合后的CPG网络模型数学表达式如式(3)所示：

其中右端第二项为耦合项；

是旋转矩阵，描述了各振荡器之间的相位耦合关系；θ_hi为髋关节角度控制信号；θ_ki为膝关节角度控制信号；A_h是髋关节幅值；A_k是膝关节幅值。

除了经典控制方法以外，深度强化学习也被应用于四足机器人的运动控制。目前常用于四足机器人运动学习的深度强化学习方法有DDPG、SAC和PPO，常用的做法有两种，一种是使用深度强化学习直接训练四足机器人的各个关节，输出各关节的角度，通过控制四足机器人的关节角度直接控制四足机器人。其中深度强化学习的观测空间选取的是四足机器人运动过程中较为重要的量，比如机器人的俯仰角、横滚角、偏航角、四足机器人各关节的角度以及角加速度等等；动作空间为四足机器人各关节角度；奖励函数的设立是根据四足机器人期望的状态而定；状态空间与观测空间是一样的。第二种方法与第一种不同，首先建立四足机器人的正逆运动学模型；其次，选取较为合适的轨迹曲线；最后，使用深度强化学习对轨迹曲线进行优化，使四足机器人能够按照较优的轨迹曲线进行稳定运动；最后将足端轨迹点输入逆前面建立的运动模型，得到机器人的各关节运动角度，将关节角度输送给四足机器人各关节就能使机器人按照较优的轨迹进行稳定运动。

其中，基于模型的经典控制方法依赖于建立的模型，模型建立的越精确控制效果越好，但是四足机器人的结构是非线性的，建立模型较为复杂，一般为了简单化会将部分非线性结构近似线性化，这就会导致建立的模型与实际模型存在一定的差距，从而就会影响最终的控制效果。并且经典控制适应性较差，一旦环境发生变化，建立的模型可能就不再适用，此外，从以上CPG控制可以看出，其参数较多，手动调试比较麻烦，需要耗费大量的时间精力。而端到端的深度强化学习则需要机器人和环境做大量交互，数据量较大，迁移到物理机器人较为困难，对内存要求较高。

发明内容

本发明的目的是提供一种四足机器人自主运动控制学习方法，将CPG与深度强化学习的方法进行结合，可实现四足机器人平稳运动自主学习。

为实现上述目的，本发明提供了如下方案：

一种四足机器人自主运动控制学习方法，包括：

由余弦振荡器构成用于控制四足机器人所有关节角度的中枢模式发生器网络；

根据四足机器人的运动状态，采用深度强化学习方法对中枢模式发生器网络的参数进行训练，输出四足机器人在当前运动状态下中枢模式发生器网络的最佳参数；

将所述最佳参数输入中枢模式发生器网络，输出四足机器人每个关节的角度信号；

四足机器人根据每个关节的角度信号进行直线运动。

可选的，所述由余弦振荡器构成用于控制四足机器人所有关节角度的中枢模式发生器网络，具体包括：

四足机器人的每条腿有两个关节，一个关节由一个余弦振荡器控制，令一个中枢模式发生器单元控制四足机器人的一条腿，则由两个余弦振荡器构成的一个中枢模式发生器单元的数学表达式为

其中，每条腿的两个关节分别为髋关节和膝关节；

由四个中枢模式发生器单元构成的中枢模式发生器网络的数学模型为

式中，y₀、y₁分别对应髋关节和膝关节处的余弦振荡器输出，A₀、A₁分别是两个余弦振荡器的幅值，T是周期，

分别是髋关节和膝关节的初始相位；

式中，

分别表示左前腿髋关节、左前腿膝关节、左后腿髋关节、左后腿膝关节、右前腿髋关节、右前腿膝关节、右后腿髋关节和右后腿膝关节的角度；A_h、A_k分别是髋关节和膝关节的幅值；t₀,…,t₇分别是各关节的时差，2πt₀/T,…,2πt₇/T分别是各关节之间的相位差，t表示时间。

可选的，所述深度强化学习的观测空间选取的是四足机器人运动过程中的17个状态量，包括：四足机器人的俯仰角、横滚角和偏航角；四足机器人重心相对于地球坐标系的x,y,z坐标位置；四足机器人8个关节的角度；以及四足机器人在x,y,z坐标系方向上的运动速度V_x,V_y,V_z；

动作空间：动作空间是n维的，n的大小与中枢模式发生器网络参数的个数相同；动作空间直接输出中枢模式发生器网络的参数，包括：A_h、A_k、T、t₀,…,t₇；

状态空间：状态空间与观测空间选取相同；

奖励函数：

其中，reward表示总奖励函数；reward_step表示每走一步的奖励，reward_step＝10；reward_x表示x轴方向运动奖励，reward_x＝w₂(x-x_last)，ω₂表示第二权重，x表示当前时刻机体重心x坐标，x_last表示前一时刻机体重心x坐标；reward_y表示y轴方向运动奖励，reward_y＝w₁(y-y_last)，ω₁表示第一权重，y表示当前时刻机体重心y坐标，y_last表示前一时刻机体重心y坐标；reward_pitch表示机器人的俯仰角奖励，reward_pitch＝w₃α，ω₃表示第三权重，α表示俯仰角；reward_roll表示机器人的横滚角奖励，reward_roll＝w₃β，β表示横滚角；reward_yaw表示机器人的偏航角奖励，reward_yaw＝w₄γ，ω₄表示第四权重，γ表示偏航角；reward_yaw表示机器人摔倒奖励，

f表示机器人摔倒奖励函数。

可选的，所述深度强化学习方法为柔性致动评价算法。

一种四足机器人自主运动控制学习系统，包括：

中枢模式发生器网络构成模块，用于由余弦振荡器构成用于控制四足机器人所有关节角度的中枢模式发生器网络；

参数训练模块，用于根据四足机器人的运动状态，采用深度强化学习方法对中枢模式发生器网络的参数进行训练，输出四足机器人在当前运动状态下中枢模式发生器网络的最佳参数；

角度信号输出模块，用于将所述最佳参数输入中枢模式发生器网络，输出四足机器人每个关节的角度信号；

运动模块，用于四足机器人根据每个关节的角度信号进行直线运动。

一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前述的四足机器人自主运动控制学习方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如前述的四足机器人自主运动控制学习方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开一种四足机器人自主运动控制学习方法，首先使用余弦振荡器作为中枢模式发生器单元，用于四足机器人单腿运动规划；然后采用深度强化学习方法对中枢模式发生器网络的参数进行训练，最后将当前运动状态下中枢模式发生器网络的最佳参数输入中枢模式发生器网络，即可得到四足机器人每个关节的角度信号，机器人按照角度信号直线运动。本发明将中枢模式发生器与深度强化学习的方法进行结合，既结合了经典控制方法的优点又结合了无模型控制方法的优点，同时克服了经典控制方法和无模型控制方法缺点，既使用到机器人的先验知识但是不需要进行建模，也不需要像Hopf振荡器一样进行耦合，同时将先验知识加入到深度强化学习训练之中，减少机器人与环境的交互次数，实现了四足机器人平稳运动自主学习。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种四足机器人自主运动控制学习方法的流程图；

图2为本发明实施例提供的一种四足机器人自主运动控制学习方法的框架图；

图3为本发明实施例提供的四足机器人仿真运动示意图；

图4为本发明实施例提供的四足机器人运动过程重心移动位置示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

CPG(中枢模式发生器)：中枢模式发生器是一种生物控制方法，不需要传感器反馈就能产生节律模式输出的神经网络。一般而言，产生节律运动活动的神经环路被称为中枢模式发生器。

余弦振荡器：CPG的一种模式，具体数学形式为一组余弦函数。

本发明提出一种基于余弦振荡器和深度强化学习的四足机器人运动控制方法，既不需要像经典控制一样进行精准建模或者像CPG一样需要耦合项，也不需要像单纯的深度强化学习一样，从头开始和环境做大量的数据交互，即结合了基于模型控制的优点又结合了无模型控制的优点，克服模型控制和无模型控制的缺点。

如图1所示，本发明实施例提供的一种四足机器人自主运动控制学习方法，包括：

步骤S1，由余弦振荡器构成用于控制四足机器人所有关节角度的中枢模式发生器网络。

本发明采用的CPG网络由余弦振荡器构成，由于一个余弦函数只有一个输出量，因此一个余弦函数只能控制四足机器人的一个关节。对于8自由度机器人而言，每条腿有两个关节，即髋关节和膝关节，因此要控制一条腿需要两个余弦函数，故本发明中，一个CPG单元由两个余弦函数构成，其数学表达式如(4)所示：

其中，y₀、y₁分别对应髋关节和膝关节处的余弦振荡器输出，A₀,A₁是振荡器的幅值；T是周期；

是髋关节和膝关节的初始相位。

从表达式(4)可以看到，一个CPG单元只能控制四足机器人的一条腿，要控制四足机器人的四条腿就需要4个CPG单元，所以由余弦振荡器构成的CPG网络数学模型如式(5)所示：

其中，

分别表示的是左前腿髋关节、左前腿膝关节、左后腿髋关节、左后腿膝关节、右前腿髋关节、右前腿膝关节、右后腿髋关节和右后腿膝关节的角度；A_h,A_k是髋关节和膝关节的幅值，所有髋关节的幅值均为A_h，所有膝关节的幅值均为A_k；T表示的是震荡周期；t₀,…,t₇是时差，对应的2πt₇/T,…,2πt₇/T是各关节之间的相位差。通过该CGP网络就能够控制四足机器人8个关节，从而控制四足机器人进行稳定的运动。

步骤S2，根据四足机器人的运动状态，采用深度强化学习方法对中枢模式发生器网络的参数进行训练，输出四足机器人在当前运动状态下中枢模式发生器网络的最佳参数。

主要是利用深度强化学习对CPG网络的参数进行训练，使各参数之间能够达到最好的配合，从而使CPG网络产生能够使四足机器人进行快速稳定运动的各关节角度，本发明采用的是现有的SAC(Soft Actor Critic，柔性致动评价)算法。

深度强化学习的观测空间选取的是四足机器人运动过程中对运动较为重要的17个状态量：四足机器人的俯仰角、横滚角和偏航角；四足机器人重心相对于地球坐标系的x,y,z坐标位置；四足机器人8个关节的角度；以及四足机器人在x,y,z坐标系方向上的运动速度V_x,V_y,V_z；

动作空间：动作空间是n维的，其中n的大小与CPG参数的多少是对应的，动作空间直接输出CPG的各个参数即A_h、A_k、T、t₀,…,t₇；

状态空间：状态空间与观测空间选取一样；

奖励函数：

每一步奖励为10，即每走一步

reward_step＝10 (6)

y轴方向运动奖励为当前时刻机体重心y坐标的位置减前一时刻机体重心y坐标的位置，也即

reward_y＝w₁(y-y_last) (7)

x轴方向运动奖励为当前时刻机体重心x坐标的位置减前一时刻机体重心x坐标的位置，也即

reward_x＝w₂(x-x_last)(8)

机器人的俯仰角奖励，也即

reward_pitch＝w₃α(9)

机器人的横滚角奖励，也即

reward_roll＝w₃β(10)

机器人的偏航角奖励，也即

reward_yaw＝w₄γ(11)

机器人摔倒奖励，如果机器人摔倒，奖励为-100，否则奖励为0，故奖励为：

因此，奖励函数设置为：

以上式中，reward表示总奖励函数；reward_step表示每走一步的奖励；reward_x表示x轴方向运动奖励，ω₂表示第二权重，x表示当前时刻机体重心x坐标，x_last表示前一时刻机体重心x坐标；reward_y表示y轴方向运动奖励，ω₁表示第一权重，y表示当前时刻机体重心y坐标，y_last表示前一时刻机体重心y坐标；reward_pitch表示机器人的俯仰角奖励，ω₃表示第三权重，α表示俯仰角；reward_roll表示机器人的横滚角奖励，β表示横滚角；reward_yaw表示机器人的偏航角奖励，ω₄表示第四权重，γ表示偏航角；reward_yaw表示机器人摔倒奖励，f表示机器人摔倒奖励函数。

步骤S3，将所述最佳参数输入中枢模式发生器网络，输出四足机器人每个关节的角度信号。

步骤S4，四足机器人根据每个关节的角度信号进行直线运动。

参照图2，本发明基于余弦振荡器和深度强化学习实现四足机器人行走技能自主习得。方法具体分为两部分：一是采用余弦振荡器构成的CPG网络，CPG网络产生的信号直接控制四足机器人的各个关节；二是通过深度强化学习学习CPG网络的参数，进而控制CPG的输出信号。

深度强化学习算法的动作空间输出的是CPG的各个参数，通过不断地学习，最终匹配出在机器人每一状态下的最佳参数，将参数传递给CPG网络，CPG网络接收参数后输出机器人各个关节的角度，机器人接收到关节角度后就可以进行运动，机器人通过与环境不断进行交互，返回其当前状态和奖励给深度强化学习，深度强化学习不断进行策略更新，直到最终训练结束。

仿真结果:

本发明的控制算法的有效性在仿真软件上进行验证，仿真软件使用的v-rep，编程使用的是python。

图3是四足机器人仿真运动的部分图片，其中Curve是机器人运动过程中足端点的轨迹，从上图可以看出，通过学习，机器人能够进行稳定的直线运动。

图4是四足机器人运动过程中重心在x，y轴上的坐标变化，其中，虚线为机器人重心随时间在y轴上的坐标变化，实线为机器人重心随时间在x轴上的坐标变化，从图中可以看到，在y轴方向上机器人刚开始有一个加速度，但是很快就基本达到匀速运动，在x轴方向上机器人会存在一点点偏移。从图2和图3可以证明，本发明对四足机器人的运动学习是有效的。

目前用于四足机器人控制的主流方法，其中经典控制方法需要进行精准建模，建模对控制影响较大，且经典控制方法大部分需要手动调试参数，手动调试参数主要依靠的是先验知识或者一点点实验，这是一个非常麻烦的工作，需要耗费大量的时间。而端到端的深度强化学习则需要机器人与环境做大量的数据交互，数据量较大，不易迁移到物理实体机器人中，且对内存要求较大。而本发明结合经典控制和无模型控制的方法，将CPG与深度强化学习的方法进行结合，即结合了经典控制方法的优点又结合了无模型控制方法的优点，同时克服了经典控制方法和无模型控制方法缺点，即使用到机器人的先验知识但是不需要对进行建模，也不需要像Hopf振荡器一样进行耦合，同时将先验知识加入到深度强化学习训练之中，减少机器人与环境的交互次数。

本发明还提供了一种四足机器人自主运动控制学习系统，包括：

本发明实施例提供的四足机器人自主运动控制学习系统与上述实施例所述的四足机器人自主运动控制学习方法，其工作原理和有益效果类似，故此处不再详述，具体内容可参见上述方法实施例的介绍。

本发明还提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前述的四足机器人自主运动控制学习方法。

此外，上述的存储器中的计算机程序通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如前述的四足机器人自主运动控制学习方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种四足机器人自主运动控制学习方法，其特征在于，包括：

四足机器人根据每个关节的角度信号进行直线运动。

2.根据权利要求1所述的四足机器人自主运动控制学习方法，其特征在于，所述由余弦振荡器构成用于控制四足机器人所有关节角度的中枢模式发生器网络，具体包括：

其中，每条腿的两个关节分别为髋关节和膝关节；

分别是髋关节和膝关节的初始相位；

式中，

3.根据权利要求2所述的四足机器人自主运动控制学习方法，其特征在于，所述深度强化学习的观测空间选取的是四足机器人运动过程中的17个状态量，包括：四足机器人的俯仰角、横滚角和偏航角；四足机器人重心相对于地球坐标系的x,y,z坐标位置；四足机器人8个关节的角度；以及四足机器人在x,y,z坐标系方向上的运动速度V_x,V_y,V_z；

状态空间：状态空间与观测空间选取相同；

奖励函数：

f表示机器人摔倒奖励函数。

4.根据权利要求1所述的四足机器人自主运动控制学习方法，其特征在于，所述深度强化学习方法为柔性致动评价算法。

5.一种四足机器人自主运动控制学习系统，其特征在于，包括：

6.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的四足机器人自主运动控制学习方法。

7.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被执行时实现如权利要求1至4中任一项所述的四足机器人自主运动控制学习方法。