CN114047697B

CN114047697B - 一种基于深度强化学习的四足机器人平衡倒立摆控制方法

Info

Publication number: CN114047697B
Application number: CN202111307449.9A
Authority: CN
Inventors: 吴上玉; 雷贤卿; 李伟; 李明; 李道玉
Original assignee: Henan University of Science and Technology
Current assignee: Henan University of Science and Technology
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2023-08-25
Anticipated expiration: 2041-11-05
Also published as: CN114047697A

Abstract

本发明涉及一种基于深度强化学习的四足机器人平衡倒立摆控制方法，首先搭建具有神经网络训练能力的四足机器人平衡倒立摆虚拟仿真环境；对深度确定性策略梯度（DDPG）算法中的演员‑评论家网络进行设计；根据四足机器人逆运动学及深度强化学习奖励规则，设计了分层奖励函数；演员‑评论家网络获取回放经验池中的数据进行训练，输出优化的四足机器人动作控制参数到仿真环境中，执行控制操作；对深度强化学习网络迭代训练，最终得到优化的四足机器人平衡倒立摆控制网络。本发明采用改进的DDPG算法，缓解了因奖励稀疏带来的算法收敛速度缓慢问题，在仿真环境中对所述深度强化学习网络进行训练学习，增强了四足机器人的平衡控制能力及稳定性。

Description

一种基于深度强化学习的四足机器人平衡倒立摆控制方法

技术领域

本发明属于四足机器人稳定控制技术领域，特别是涉及基于深度强化学习的四足机器人平衡倒立摆控制方法。

背景技术

根据仿生学原理制造的四足机器人在复杂地形侦察、野外物资运输等方面有巨大潜力,成为机器人研究的热点。在四足机器人的所有研究领域中，稳定性是四足机器人在实际环境中应对复杂地形和抗扰动能力的关键因素，如果没有稳定的状态，机器人就不能在各种地形中行走或完成特定的复杂任务。

现有的四足机器人平衡控制方法多数是基于模型的控制，然而实际中很难获得四足机器人系统的精确的数学模型，这样就会因模型的误差给四足机器人的平衡控制带来性能的极限。另外，传统的控制方法如PID控制、LQR控制对模型参数较为敏感，且参数较多，难以实现整定，往往需要人工进行大量的参数调整工作，从而加大了控制的难度。

发明内容

本发明的目的是为了解决现有四足机器人平衡控制中，难以获得四足机器人系统的精确的数学模型，以及控制参数较多，难以实现整定的问题，提供一种基于深度强化学习的四足机器人平衡倒立摆的控制方法，采用改进的DDPG算法实现四足机器人自动平衡倒立摆，以此来增强四足机器人的稳定性和算法的鲁棒性。

为了实现上述目的，本发明所采用的技术方案是：一种基于深度强化学习的四足机器人平衡倒立摆控制方法，根据所获取的四足机器人平衡倒立摆系统的状态数据判断系统是否达到设定的平衡要求，如果未达到平衡要求，则将四足机器人平衡倒立摆系统的状态数据传入DDPG算法训练模块继续迭代训练，直至达到平衡要求；其中的迭代训练方法如下：

（1）结合四足机器人逆运动学设计分层奖励函数，

第1层奖励：R ₁=－L，d≥0.05；

第2层奖励：R ₂=R ₁+3，0＜d＜0.05；

其中，L为四足机器人平衡倒立摆系统中的倒立摆竖杆与垂直方向夹角的绝对值，d为四足机器人几何中心与四足机器人原始几何中心的距离；

将得到的奖励数据和所述的四足机器人平衡倒立摆系统的状态数据存储到回放经验池中；

（2）构建演员-评论家网络，通过获取回放经验池中的奖励数据和状态数据进行控制策略函数和评价函数的拟合，经演员网络输出优化后的四足机器人动作控制参数，具体为：设计演员网络拟合控制策略函数，输出四足机器人平衡倒立摆系统动作控制参数；设计评论家网络拟合评价函数，输出四足机器人平衡倒立摆系统的动作控制参数评价Q值；演员网络和评论家网络之间通过策略梯度更新动作控制参数，直至得到优化后的四足机器人动作控制参数；

（3）将优化后的四足机器人动作控制参数输入四足机器人平衡倒立摆系统中，执行控制操作，并重新判断系统是否达到设定的平衡要求，如果未达到平衡要求，则按照步骤（1）和（2）继续进行迭代训练，直至最后四足机器人平衡倒立摆系统达到平衡要求，获得优化的四足机器人平衡倒立摆深度强化学习控制网络。

所述四足机器人平衡倒立摆系统为建立在仿真软件中的背部连接有倒立摆竖杆的四足机器人模型，倒立摆竖杆通过被动枢轴关节与四足机器人模型的背部连接。

四足机器人平衡倒立摆系统的状态为S，，x为四足机器人向前或向后的位移，v为四足机器人移动的速度，c为倒立摆竖杆与垂直方向的夹角，w为倒立摆竖杆的角速度。

在所述步骤（2）中，将四足机器人平衡倒立摆系统的状态数据输入到演员网络，采用全连接层神经网络进行训练，输出2个位置控制动作参数，运用仿真软件中的逆运动学模块，根据所输出的2个位置控制动作参数，自动计算出四足机器人腿部12个关节所需的关节变量，从而控制四足机器人运动。

进一步的，在演员网络输出所述的2个位置控制动作参数后，再加入均值回归噪声N进行探索，得到的控制策略a _t为：；其中，u为策略函数，S _t为系统的当前状态，/>为策略函数内参数。

更进一步的，向评论家网络输入四足机器人平衡倒立摆系统的状态数据和演员网络输出的2个位移控制动作参数，采用全连接层神经网络输出评价值，评价值的更新公式为：

其中，y _j为目标评价值；/>、/>分别为当前和目标评价函数；/>、/>分别为当前和目标策略函数；/>是策略函数和评价函数的内参数；/>为折扣因子；n为迭代次数；/>为当前奖励，通过最小化损失函数H更新评价值；S _j、S _j+1分别是两个连续时点下的状态；a _j是当前的控制策略，a _j=u（S _t｜θ ^u）。

再进一步的，在演员网络和评论家网络之间通过策略梯度更新动作控制参数时，策略梯度更新公式为：

其中，为评价梯度；/>为动作梯度；n为迭代次数；S为系统状态；a为状态S下输出的动作；/>策略函数和评价函数的内参数。

本发明的有益效果是：本发明可以在搭建的四足机器人平衡倒立摆系统中通过对深度强化学习网络进行训练学习，从而获得有效的四足机器人平衡控制策略，再部署到真实的四足机器人上进行平衡控制，具有高效灵活的特点，增强了四足机器人的平衡控制能力和复杂地形的适应能力。

附图说明

图1为本发明所述基于深度强化学习的四足机器人平衡倒立摆控制方法流程图。

图2为四足机器人平衡倒立摆系统的仿真模型示意图。

图中标记：1、四足机器人模型，2、髋关节，3、肘关节，4、腕关节、5、倒立摆竖杆，6、被动枢轴关节，7、大腿，8、小腿。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明，但并不作为对发明做任何限制的依据。

实施例1：如图1所示，本发明所述基于深度强化学习的四足机器人平衡倒立摆控制方法包括如下步骤：

步骤一，在V-REP仿真软件中搭建四足机器人平衡倒立摆系统的仿真模型，如图2所示。四足机器人模型1主要由一个身体和连接在身体上的四条腿组成，每条腿有三个关节，包括可以髋关节2、肘关节3和腕关节4，其中髋关节2可以外展和内收，肘关节3和腕关节4可以屈曲和伸展。每条腿包括两部分：大腿7和小腿8，大腿7通过用于侧移的髋关节2和用于前后移动的肘关节3连接到身体，小腿8通过用于前后移动的腕关节4与大腿7连接。四足机器人模型1的背部与倒立摆竖杆5通过一个被动枢轴关节6相连接。我们的目标是通过控制四足机器人的前后移动，来防止倒立摆竖杆5倒下。

本实施例中四足机器人模型和倒立摆竖杆的机械参数如下表：

步骤二，在每次训练开始时，在V-REP仿真软件中运用重置模块将四足机器人平衡倒立摆系统中的各个关节值恢复到初始关节参数。

对深度强化学习网络的输入和输出进行定义，四足机器人平衡倒立摆系统的输入和输出分别为状态和动作，进一步的，将四足机器人向前和向后移动定义为四足机器人平衡倒立摆系统的动作，记为，/>为四足机器人的位置增量，本实施例中规定位置增量为［-0.001m，0.001m］；四足机器人平衡倒立摆系统的状态为S，/>，x为四足机器人向前或向后的位移，v为四足机器人移动的速度，c为倒立摆竖杆与垂直方向的夹角，w为倒立摆竖杆的角速度。

步骤三，获取四足机器人平衡倒立摆系统的状态数据，并判断是否达到所设定的平衡要求。本实施例中规定如果连续100个训练回合，倒立摆竖杆与垂直方向的夹角都在±12°之间，则认为已经达到平衡要求。如果达到平衡要求，则认为系统已经获得了较好的平衡控制策略，结束训练。如果没有达到平衡要求，则将四足机器人平衡倒立摆系统的状态数据传入DDPG算法训练模块继续迭代训练。

步骤四，在进行迭代训练时，按照以下方法进行：

（1）结合四足机器人逆运动学设计分层奖励函数，可有效缓解传统DDPG算法存在的奖励稀疏问题。

倒立摆竖杆与垂直方向的夹角的绝对值为，四足机器人几何中心与四足机器人原始几何中心的距离为 />，则：

其中，为倒立摆竖杆与垂直方向的夹角, />为四足机器人的几何中心坐标， />为四足机器人几何中心原始坐标。

因此，分层奖励函数设置如下：

第1层奖励：R ₁=－L，d≥0.05；

第2层奖励：R ₂=R ₁+3，0＜d＜0.05；

本实例中第1层奖励以倒立摆竖杆与垂直方向夹角的绝对值的相反数作为角度奖励。第2层奖励为控制精度奖励函数，当距离0＜d＜0.05时，给当前奖励加3，以提高平衡控制精度。第1层奖励为训练前期奖励，当距离d稳定在0.05m以内时，以第2层奖励作为后期的奖励。此处是结合四足机器人逆运动学设计的分层奖励函数，进行算法的奖励反馈，可基于低层奖励函数提高算法的收敛速度，基于高层奖励函数提高四足机器人的平衡控制精度。此方法的优点为可以缓解传统的DDPG算法存在的奖励稀疏问题。

进一步的，将得到的奖励数据和所述的四足机器人平衡倒立摆系统的状态数据存储到回放经验池中。

（2）构建演员-评论家网络进行策略函数和评价函数的拟合，本实例采用Keras+Pytorch的框架设计算法网络，通过获取回放经验池中的奖励数据和状态数据进行训练。具体为：设计演员网络拟合控制策略函数，输出四足机器人平衡倒立摆系统动作控制参数；设计评论家网络拟合评价函数，输出四足机器人平衡倒立摆系统的动作控制参数评价Q值。

进一步的，将四足机器人平衡倒立摆系统的4维状态数据输入到演员网络，采用全连接层神经网络进行训练，输出2个位置控制动作参数，运用V-REP仿真软件中的逆运动学模块，根据输出的2个位置控制动作参数，自动计算出四足机器人腿部12个关节所需的关节变量，从而控制四足机器人运动。

再进一步的，在演员网络输出所述的2个位置控制动作参数后，再加入均值回归噪声N进行探索，得到的控制策略a _t为：；其中，u为策略函数，S _t为系统的当前状态，/>为策略函数内参数。即状态为S时，相同策略的动作a是唯一确定的。

更进一步的，向评论家网络输入四足机器人平衡倒立摆系统的4维状态数据和所述的2个位置控制动作参数，采用全连接层神经网络输出1维的评价值。评价值的更新公式为：

其中，y _j为目标评价值；/>、/>分别为当前和目标评价函数；/>、/>分别为当前和目标策略函数；本实施例中策略网络和评价网络的学习率均设置为10^-4，/>是策略函数和评价函数的内参数；/>为折扣因子，/>，本实施例中/>=0.99；n为迭代次数；/>为当前奖励，通过最小化损失函数H更新评价值；S _j、S _j+1分别是两个连续时点下的状态；a _j是当前的控制策略，a _j=u（S _t｜θ ^u）。

再进一步的，演员网络和评论家网络之间通过策略梯度更新动作控制参数，直至演员网络输出优化后的四足机器人动作控制参数。策略梯度更新公式为：

其中，为评价梯度；/>为动作梯度；n为迭代次数；S为系统状态；a为状态S下输出的动作；/>是策略函数和评价函数的内参数。

（3）优化后的四足机器人动作控制参数输入四足机器人平衡倒立摆系统中，执行控制操作，并重新判断系统是否达到设定的平衡要求，如果未达到平衡要求，则按照步骤（1）和（2）继续进行迭代训练，经过大量的迭代训练后，DDPG算法将逐渐收敛，最后四足机器人平衡倒立摆系统达到平衡要求，获得优化的四足机器人平衡倒立摆深度强化学习控制网络。

进一步地，研究人员可根据不同的四足机器人平衡倒立摆系统模型参数来调整网络参数，以获得更好的控制策略。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，所属领域的普通技术人员应当理解，参照上述实施例可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换均在申请待批的权利要求保护范围之内。

Claims

1.一种基于深度强化学习的四足机器人平衡倒立摆控制方法，其特征在于：根据所获取的四足机器人平衡倒立摆系统的状态数据判断系统是否达到设定的平衡要求，如果未达到平衡要求，则将四足机器人平衡倒立摆系统的状态数据传入DDPG算法训练模块继续迭代训练，直至达到平衡要求；其中的迭代训练方法如下：

（1）结合四足机器人逆运动学设计分层奖励函数，

第1层奖励：R ₁=－L，d≥0.05；

第2层奖励：R ₂=R ₁+3，0＜d＜0.05；

（3）将优化后的四足机器人动作控制参数输入四足机器人平衡倒立摆系统中，执行控制操作，并重新判断系统是否达到设定的平衡要求，如果未达到平衡要求，则按照步骤（1）和（2）继续进行迭代训练，直至最后四足机器人平衡倒立摆系统达到平衡要求，获得优化的四足机器人平衡倒立摆深度强化学习控制网络；

在所述步骤（2）中，将四足机器人平衡倒立摆系统的状态数据输入到演员网络，采用全连接层神经网络进行训练，输出2个位置控制动作参数，运用仿真软件中的逆运动学模块，根据所输出的2个位置控制动作参数，自动计算出四足机器人腿部12个关节所需的关节变量，从而控制四足机器人运动；

在演员网络输出所述的2个位置控制动作参数后，再加入均值回归噪声N进行探索，得到的控制策略a _t为：；其中，u为策略函数，S _t为系统的当前状态，/>为策略函数内参数；

向评论家网络输入四足机器人平衡倒立摆系统的状态数据和演员网络输出的2个位移控制动作参数，采用全连接层神经网络输出评价值，评价值的更新公式为：

其中，y _j为目标评价值；/>、/>分别为当前和目标评价函数；/>、/>分别为当前和目标策略函数；/>是策略函数和评价函数的内参数；/>为折扣因子；n为迭代次数；/>为当前奖励，通过最小化损失函数H更新评价值；S _j、S _j+1分别是两个连续时点下的状态；a _j是当前的控制策略，a _j=u（S _t｜θ ^u）；

在演员网络和评论家网络之间通过策略梯度更新动作控制参数时，策略梯度更新公式为：

2.根据权利要求1所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法，其特征在于：所述四足机器人平衡倒立摆系统为建立在仿真软件中的背部连接有倒立摆竖杆的四足机器人模型，倒立摆竖杆通过被动枢轴关节与四足机器人模型的背部连接。

3.根据权利要求2所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法，其特征在于：四足机器人平衡倒立摆系统的状态为S，，x为四足机器人向前或向后的位移，v为四足机器人移动的速度，c为倒立摆竖杆与垂直方向的夹角，w为倒立摆竖杆的角速度。