CN112749515A

CN112749515A - 融合生物启发和深度强化学习的损伤机器人步态自学习

Info

Publication number: CN112749515A
Application number: CN202110122585.4A
Authority: CN
Inventors: 曾明; 马煜; 王芷菁; 李祺; 王湘晖
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-05-04

Abstract

本发明提供了一种融合生物启发和深度强化学习的损伤状态机器人步态自学习方法，步骤包括：六足机器人建模及强化学习控制系统搭建；设置状态值和动作值；设置奖励函数；搭建Actor‑Critic神经网络；选取强化学习算法进行网络参数优化；六足机器人模型仿生特征约束；典型损伤状态下的六足机器人步态训练。该方法通过使用融合生物启发和深度强化学习的方法来生成机器人步态，使机器人在受到损伤后能够通过步态自学习进行步态调整，这对提高机器人在复杂环境下的生存能力具有重要意义。

Description

融合生物启发和深度强化学习的损伤机器人步态自学习

技术领域

本发明涉及一种损伤状态六足机器人步态自学习方法，尤其是一种融合生物启发和深度强化学习的损伤状态机器人步态自学习方法。

背景技术

仿生六足机器人运动功能丰富、环境适应能力强，特别适合在恶劣的野外环境中执行搜救、侦察和物资输送等任务。在复杂危险环境中作业的机器人极易遭受各种伤害，导致出现不同程度的损伤。通常情况下，机器人损伤后其移动和控制能力将迅速减弱。如能使受损机器人在短时间内调整和学习出新的高效运动步态，这对于受损机器人自救及提升生存能力至关重要。

使用基于模型的传统方法进行机器人控制时，开发者首先需要对机器人进行运动学和动力学建模，依照建立的机器人模型，再针对某一个具体任务来编程。这种方法无疑存在短板，一旦机器人受到损伤，自身的状态发生变化时，原本建立的机器人模型将不再适用，开发者也无法预先建立涵盖机器人所有损伤类型的机器人模型。

深度强化学习是解决上述问题的一种有效方法，该方法可以在无模型的情况下通过机器人与环境的不断交互训练来完成机器人的步态自学习。尤其是当机器人遇到受损情况，自身状态发生改变时，可以使用这种方法完成步态的重新学习和调整，更好地进行自救。此外，通过借鉴自然界中六足动物的身体结构与步态特征，将其与强化学习进行融合，这对于提高机器人的训练效率有很大的帮助。因此，研究融合生物启发和深度强化学习的损伤状态机器人步态自学习具有很大的意义和实用价值。

发明内容

本发明的目的在于：提供一种融合生物启发和深度强化学习的损伤状态机器人步态自学习方法，能够使机器人在受到损伤后通过步态自学习进行步态调整，提高机器人在复杂环境下的生存能力。

为了实现上述发明目的，本发明提供了一种融合生物启发和深度强化学习的损伤状态机器人步态自学习方法，包括如下步骤：

步骤1，建立六足机器人仿真模型，搭建六足机器人强化学习控制系统；

步骤2，建立强化学习智能体；

步骤3，参照六足动物身体结构特征和步态特征对六足机器人模型各关节运动范围进行约束；

步骤4，设置六足机器人典型损伤状态，使用融合生物启发和深度强化学习的方法训练损伤状态下的六足机器人。

作为本发明的进一步限定方案，步骤1中，使用SolidWorks进行六足机器人的机械结构设计和装配，并生成URDF格式的文件，将该URDF格式的文件导入到MATLAB，通过Simscape Multibody工具箱生成六足机器人3D仿真模型，并在Simulink中搭建六足机器人强化学习控制系统。

作为本发明的进一步限定方案，步骤2中，所建立的强化学习智能体通过将采集到的观测值进行奖励函数的计算，并输出动作值，同时在机器人训练过程中利用强化学习算法不断优化神经网络参数，以得到更高的奖励值，具体步骤为：

步骤2.1，选取机器人关节角度、机器人关节角速度，机器人机身欧拉角(Yaw、Pitch、Roll)、机器人机身位移(P_x、P_y、P_z)、机器人机身速度(v_x、v_y、v_z)以及机器人机身角速度(ω_x、ω_y、ω_z)作为观测值。选取Actor网络的转矩输出作为动作值。

步骤2.2，进行奖励函数的设置，设置机器人质心在x轴方向的位移P_x和速度v_x为正向奖励，以此鼓励机器人沿x正方向前进；设置机器人质心在y方向的位移P_y、机器人的航向角Yaw为惩罚项，以此对机器人前进过程中偏离x正方向进行惩罚；设置机器人质心高度偏离初始高度的大小

为惩罚项，以此对机器人前进过程中质心高度偏离初始高度进行惩罚。

步骤2.3，搭建Actor-Critic类型的神经网络。

进一步地，步骤2.3中，Actor网络具有1个输入路径和1个输出路径，包括1个featureInputLayer，3个fullyConnectedLayer，2个reluLayer，1个tanhLayer。

进一步地，步骤2.3中，Critic网络具有2个输入路径和1个输出路径，输入路径分别为状态输入路径和动作输入路径，其中状态输入路径具有1个featureInputLayer，2个fullyConnectedLayer，1个reluLayer；动作输入路径具有1个featureInputLayer，1个fullyConnectedLayer。两个输入路径通过additionLayer进行路径合并后，经过1个reluLayer和1个tanhLayer后输出价值估计。

步骤2.4，强化学习算法根据Actor输出动作得到的实际奖励和Critic网络计算的价值估计进行对比会得到一个误差值，根据该误差可以判断Critic网络应该怎样调整参数才能够得到更加准确的价值估计，同时也能够判断当前的动作好坏如何，以此进行Actor网络参数的更新。在智能体与环境交互的过程当中，这两个神经网络的参数将得到不断的更新，直到最后能够收敛到一个比较理想的情况。

进一步地，步骤2.4中，选取的强化学习算法为深度确定性策略梯度(DDPG)。

作为本发明的进一步限定方案，步骤3中，参照蚂蚁的身体结构特征和步态特征，将六足机器人每条腿水平方向的摆动角度范围设置为(-18°～18°)，同时将每条腿竖直方向的摆动角度设置为(-1°～15°)，设置-1°的运动空间是为了使机器人在移动过程中能够产生对地面的压力，保证足够的摩擦力来使机器人移动，将抬升角度限制在15°以内是为了尽可能减小机器人腿部抬升高度，提高运动效率。

作为本发明的进一步限定方案，步骤4中，首先对机器人的六条腿进行编号，并针对机器人最常见的断腿损伤情况，设置了机器人缺失一条腿和缺失两条腿的损伤状态。

进一步地，机器人缺失一条腿的情况又设置为缺失1号腿和缺失2号腿两种损伤情况；

进一步地，机器人缺失两条腿的情况又设置为同时缺失1号腿和2号腿以及同时缺失1号腿和5号腿两种损伤情况。

附图说明

图1 六足机器人强化学习控制系统

图2 所提方法流程图

图3 Actor-Critic神经网络架构

图4 Actor网络结构图

图5 Critic网络结构图

图6 六足机器人模型仿生特征约束

图7 六足机器人典型损伤状态

具体实施方式

为使本发明的技术方案更加清楚，下面结合附图对本发明做进一步阐述。图1给出了所提方法的六足机器人强化学习控制系统，图2给出了所提方法的流程图。包括：

1、六足机器人建模及强化学习控制系统搭建

首先使用SolidWorks进行六足机器人的机械结构设计和装配，并生成URDF格式的文件。再将该URDF格式的文件导入到MATLAB，通过Simscape Multibody工具箱生成六足机器人3D仿真模型。完成机器人3D模型建立后，在Simulink中搭建六足机器人强化学习控制系统(图1)，并对控制系统相关参数进行设置，具体参数如表1所示。

表1

2、设置状态值和动作值

本发明所选取的状态值信息包括：机器人关节角度、机器人关节角速度，机器人机身欧拉角(Yaw、Pitch、Roll)、机器人机身位移(P_x、P_y、P_z)、机器人机身速度(v_x、v_y、v_z)以及机器人机身角速度(ω_x、ω_y、ω_z)。本发明所选取的动作值信息为Actor网络的转矩输出，大小为-10N*m至10N*m。

3、设置奖励函数

设机器人初始位置为坐标系原点，机器人运动的平面为xoy平面，为了鼓励机器人沿x轴正方向前进并且不偏离x轴，本发明设置的奖励函数为：

其中：

P_x是机器人沿x方向的位移，设置此奖励项为鼓励机器人沿x正方向移动；

v_x是机器人沿x方向的速度，设置此奖励项为鼓励机器人尽可能快速地沿x正方向移动；

P_y是机器人在y方向的位移，设置此惩罚项为抑制机器人移动过程中偏离x轴；

yaw是机器人的偏航角，设置此惩罚项为抑制机器人在移动过程中方向偏离x轴正方向；

是机器人质心标准化高度，为机器人实际质心高度与机器人初始质心高度的差，设置此项为抑制机器人偏离初始高度；

u是来自上一个时间步的关节转矩，设置此项为用尽可能小的转矩来进行机器人驱动；

T_s是采样时间，T_f是仿真时间，为了避免机器人触发训练终止条件提前进入终止状态，添加一个固定奖励

表示如果机器人能够顺利完成一次训练，这一项的累计值将达到最大，否则只能得到其中的一部分。

4、搭建Actor-Critic神经网络

本发明采用的是图3所示的Actor-Critic类型的神经网络结构，该网络由Actor网络(图4)和Critic网络(图5)构成。Actor网络负责根据机器人状态决定动作输出，Critic网络将根据Actor网络输出的动作，结合机器人完成该动作后的下一个状态来判断这个动作的价值如何。强化学习算法根据Actor输出动作得到的实际奖励和Critic网络计算的价值估计进行对比会得到一个误差值，根据该误差可以判断Critic网络应该怎样调整参数才能够得到更加准确的价值估计，同时也能够判断当前的动作好坏如何，以此进行Actor网络参数的更新。在机器人与环境不断交互的训练过程当中，这两个神经网络的参数将得到不断的更新，直到最后能够收敛到一个比较理想的情况。

如图4所示，本发明采用的Actor网络具有1个输入路径和1个输出路径，网络输入为机器人状态，网络输出为相应的动作值信息。Actor网络包括1个featureInputLayer，用于将机器人状态特征数据输入网络并应用数据归一化；3个fullyConnectedLayer，用于将输入乘以权重矩阵，然后添加一个偏差矢量；2个reluLayer，用于对输入的每个元素执行阈值运算，其中任何小于零的值都设置为零；1个tanhLayer，将tanh函数应用于层输入。

如图5所示，本发明采用的Critic网络具有2个输入路径和1个输出路径。输入路径分别为状态输入路径和动作输入路径，其中状态输入路径具有1个featureInputLayer，用于将机器人状态特征数据输入网络并应用数据归一化；2个fullyConnectedLayer，用于将输入乘以权重矩阵，然后添加一个偏差矢量；1个reluLayer，用于对输入的每个元素执行阈值运算，其中任何小于零的值都设置为零；动作输入路径具有1个featureInputLayer，用于将机器人动作特征数据输入网络并应用数据归一化；1个fullyConnectedLayer，用于将输入乘以权重矩阵，然后添加一个偏差矢量。两个输入路径通过additionLayer进行路径合并后，经过1个reluLayer和1个tanhLayer后输出价值估计。

5、选取强化学习算法

本发明选用的是强化学习算法是深度确定性策略梯度(DDPG)，用于进行神经网络参数的更新。DDPG是一种Actor-Critic类型的算法，分别将θ^μ和θ^Q作为神经网络的参数来表示确定性策略a＝μ(s|θ^μ)和值函数Q(s，a|θ^Q)。其中，策略网络被用来更新策略，值函数网络被用来对动作进行评价，并提供梯度信息。

策略网络的更新过程为：

值函数网络的更新过程为：

δ_t＝r_t+γQ′(s_t+1，μ′(s_t+1|θ^μ′)|θ^Q′)-Q(s_t，a_t|θ^Q) (4)

其中，α_μ和α_Q表示学习率，θ^μ′和θ^Q′表示目标网络的参数，更新方法为：

θ^Q′←τθ^Q+(1-τ)θ^Q′ (6)

θ^μ′←τθ^μ+(1-τ)θ^μ′ (7)

其中，τ表示更新率，其值远小于1。

6、六足机器人模型仿生特征约束

如图6所示，本发明对六足机器人的六条腿进行了编号，并通过借鉴六足动物的身体结构特征和步态特征，对六足机器人各关节的运动范围进行了角度约束，具体约束方式为：将每条腿水平方向的摆动角度范围设置为-18°～18°，同时将每条腿竖直方向的摆动角度设置为-1°～15°，设置-1°的运动空间是为了使机器人在移动过程中能够产生对地面的压力，保证足够的摩擦力来使机器人移动。将抬升角度限制在15°以内是为了尽可能减小机器人腿部抬升高度，提高运动效率。

7、典型损伤状态下的六足机器人步态训练

本发明针对六足机器人最常见的缺腿损伤情况进行了设置。如图7所示，(1)为六足机器人缺失1号腿的损伤情况；(2)为六足机器人缺失2号腿的损伤情况；(3)为六足机器人同时缺失1号和2号腿的损伤情况；(4)为六足机器人同时缺失1号和5号腿的损伤情况。上述4种情况代表了六足机器人缺腿损伤的典型状态，本发明所能解决的机器人损伤状态不仅限于上述四种情况。在完成六足机器人损伤状态的设置后，对损伤状态下的六足机器人模型进行步骤6中的仿生特征约束，再使用强化学习对损伤状态下的六足机器人进行步态训练。经过实验测试，在相同训练次数下，加以仿生特征约束下的机器人训练出来的步态平均速度分别是：缺失1号腿0.11m/s；缺失2号腿0.13m/s；同时缺失1号和2号腿0.06m/s；同时缺失1号和5号腿0.08m/s。不加仿生特征约束下的机器人训练出来的步态平均速度分别是：缺失1号腿0.07m/s；缺失2号腿0.01m/s；同时缺失1号和2号腿0.03m/s；同时缺失1号和5号腿0.03m/s。由此可见，加入仿生特征约束对机器人步态的训练效果要远优于不加仿生特征约束。

Claims

1.一种融合生物启发和深度强化学习的损伤状态机器人步态自学习方法，其特征在于，包括如下步骤：

步骤2，建立强化学习智能体；

2.根据权利要求1所述的融合生物启发和深度强化学习的损伤状态机器人步态自学习方法，其特征在于，步骤1中，使用SolidWorks进行六足机器人的机械结构设计和装配，并生成URDF格式的文件，将该URDF格式的文件导入到MATLAB，通过Simscape Multibody工具箱生成六足机器人3D仿真模型，并在Simulink中搭建六足机器人强化学习控制系统。

3.根据权利要求1所述的融合生物启发和深度强化学习的损伤状态机器人步态自学习方法，其特征在于，步骤2中，所建立的强化学习智能体通过将采集到的观测值进行奖励函数的计算，并输出动作值，同时在机器人训练过程中利用强化学习算法不断优化神经网络参数，以得到更高的奖励值，具体步骤为：

步骤2.1，选取机器人关节角度、机器人关节角速度，机器人机身欧拉角(Yaw、Pitch、Roll)、机器人机身位移(P_x、P_y、P_z)、机器人机身速度(v_x、v_y、v_z)以及机器人机身角速度(ω_x、ω_y、ω_z)作为观测值，选取Actor网络的转矩输出作为动作值；

步骤2.2，进行奖励函数的设置，设置机器人质心在x轴方向的位移P_x和速度v_x为正向奖励，以此鼓励机器人沿x正方向前进，设置机器人质心在y方向的位移P_y、机器人的航向角Yaw为惩罚项，以此对机器人前进过程中偏离x正方向进行惩罚，设置机器人质心高度偏离初始高度的大小

为惩罚项，以此对机器人前进过程中质心高度偏离初始高度进行惩罚；

步骤2.3，搭建Actor-Critic类型的神经网络；

进一步地，步骤2.3中，Actor网络具有1个输入路径和1个输出路径，包括1个featureInputLayer，3个fullyConnectedLayer，2个reluLayer，1个tanhLayer；

进一步地，步骤2.3中，Critic网络具有2个输入路径和1个输出路径，输入路径分别为状态输入路径和动作输入路径，其中状态输入路径具有1个featureInputLayer，2个fullyConnectedLayer，1个reluLayer，动作输入路径具有1个featurelnputLayer，1个fullyConnectedLayer，两个输入路径通过additionLayer进行路径合并后，经过1个reluLayer和1个tanhLayer后输出价值估计；

步骤2.4，强化学习算法根据Actor输出动作得到的实际奖励和Critic网络计算的价值估计进行对比会得到一个误差值，根据该误差可以判断Critic网络应该怎样调整参数才能够得到更加准确的价值估计，同时也能够判断当前的动作好坏如何，以此进行Actor网络参数的更新，在智能体与环境交互的过程当中，这两个神经网络的参数将得到不断的更新，直到最后能够收敛到一个比较理想的情况；

4.根据权利要求1所述的融合生物启发和深度强化学习的损伤状态机器人步态自学习方法，其特征在于，步骤3中，参照蚂蚁的身体结构特征和步态特征，将六足机器人每条腿水平方向的摆动角度范围设置为(-18°～18°)，同时将每条腿竖直方向的摆动角度设置为(-1°～15°)，设置-1°的运动空间是为了使机器人在移动过程中能够产生对地面的压力，保证足够的摩擦力来使机器人移动，将抬升角度限制在15°以内是为了尽可能减小机器人腿部抬升高度，提高运动效率。

5.根据权利要求1所述的融合生物启发和深度强化学习的损伤状态机器人步态自学习方法，其特征在于，步骤4中，首先对机器人的六条腿进行编号，并针对机器人最常见的断腿损伤情况，设置了机器人缺失一条腿和缺失两条腿的损伤状态；