CN112140098B

CN112140098B - 基于近端策略优化的水下蛇形机器人高速步态生成方法

Info

Publication number: CN112140098B
Application number: CN202010966202.7A
Authority: CN
Inventors: 马书根; 李汕; 任超
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2022-06-21
Anticipated expiration: 2040-09-15
Also published as: CN112140098A

Abstract

一种基于近端策略优化的水下蛇形机器人高速步态生成方法，包括：搭建强化学习的训练环境，包括reset()函数、step()函数；在强化学习的训练环境下实现近端策略优化算法；将策略网络得到的权值利用正弦函数为基函数去拟合，从而转换为水下蛇形机器人运动步态参数。本发明有益效果如下：本发明步态生成方法以高速作为优化目标，水下蛇形机器人在该步态生成方法下优化得到的步态运动时，其前向运动速度比在对传统步态方法优化得到的最优步态运动时的前向运动速度更快；本发明步态生成方法在寻优过程中，会在比蛇形步态方程更大的范围寻找，其得到步态方程形式往往会不同于蛇形步态方程，是一种新型的运动步态。

Description

基于近端策略优化的水下蛇形机器人高速步态生成方法

技术领域

本发明涉及一种机器人高速步态生成方法。特别是涉及一种基于近端策略优化的水下蛇形机器人高速步态生成方法。

背景技术

由于水下环境复杂多变，传统的水下探测机器人通常难以应对，且普遍存在续航时间短的问题。近年来，基于仿生学设计的机器人在复杂环境适应的问题上表现十分突出，其运动方式源于生物机理，因此能效比远高于传统机器人。本发明研究的水下蛇形机器人设计理念源于生物蛇，同生物蛇一样具有冗余的关节结构，灵活性极高，能够在各种环境下运动，且运动效率较高，故在水环境检测、水下救援和对水下设备检修等方面具有广阔的应用前景。然而，冗余的关节结构和水环境的复杂多变，导致水下蛇形机器人的步态生成和优化成为了极具挑战力的热点问题。

针对蛇形机器人的步态生成和优化问题，国内外已经有众多学者进行了研究，如洛桑联邦理工大学、挪威科技大学、日本东京工业大学、中国科学院沈阳自动化研究所。传统的步态和优化方法主要包括基于蛇形曲线的方法、基于模型的方法和基于CPG的方法。日本东京工业大学的Hirose Fukushima Lab实验室通过大量实验反复观察生物蛇的运动提出了serpenoid曲线和serpentine曲线(文章题目：Biologically Inspired Robots:Snake-Like Locomotors and Manipulators；会议：International Conference onRobotics and Automation；著者：S.G.Ma；出版年月：1999)；挪威科技大学研究人员基于无约束的动力学模型设计了路径跟踪控制器(会议：In proceedings of IEEE Conferenceon Decision and Control；著者：P.Liljeback,I.U.Haugstuen,K.Y.Pettersen；出版年月：2010；会议：In proceedings of IEEE Conference on Decision and Control；著者：P.Liljeback,K.Y.Pettersen；出版年月：2011)；洛桑联邦理工的仿生机器人实验室学者基于CPG(central pattern generator)模型实现了蛇形机器人在陆地和水中的运动控制(文章题目：Online optimization of swimming and crawling in an amphibious snakerobot；页码：75-87)。前面这些方法都是在蛇形步态方程的基础上对步态参数进行优化，优化的范围仅在蛇形步态方程范围内。而由于人工智能的迅速发展的推动，强化学习在蛇形机器人步态研究上也有所发展，该方法能在比蛇形步态方程范围更大的空间去寻找满足回报函数设置的目标的步态。针对陆地蛇形机器人的传统步态在非结构化环境运动控制的不足，卡耐基梅隆大学研究人员采用分布式框架下的异步优势演员-评论家(asynchronousadvantage actor-critic,A3C)的强化学习算法，分别在线地和离线地实现了蛇形机器人在非结构化地形上的运动，并且提升了40％的运动效率，但是该方法仍然用到传统步态方程的先验知识。(文章题目：Distributed Learning of Decentralized Control Policiesfor Articulated Mobile Robots；页码：1109-1122)。

发明内容

本发明所要解决的技术问题是，提供一种前向运动速度更快的基于近端策略优化的水下蛇形机器人高速步态生成方法。

本发明所采用的技术方案是：一种基于近端策略优化的水下蛇形机器人高速步态生成方法，包括如下步骤：

1)搭建强化学习的训练环境，包括reset()函数、step()函数；

2)在强化学习的训练环境下实现近端策略优化算法；

3)将策略网络得到的权值利用正弦函数为基函数去拟合，从而转换为水下蛇形机器人运动步态参数。

本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法，有益效果如下：

(1)本发明步态生成方法以高速作为优化目标，水下蛇形机器人在该步态生成方法下优化得到的步态运动时，其前向运动速度比在对传统步态方法优化得到的最优步态运动时的前向运动速度更快；

(2)本发明步态生成方法在寻优过程中，会在比蛇形步态方程更大的范围寻找，其得到步态方程形式往往会不同于蛇形步态方程，是一种新型的运动步态。

附图说明

图1是本发明方法所需要的仿真平台和实验平台示意图；

图2是本发明实验平台上位机人机操作界面示意图；

图3是本发明建模部分N+1模块水下蛇形机器人及其运动学参数；

图4是为本发明建模部分第i个连杆的力和力矩；

图5a是训练完成之后运动40s后30s到40s的水下蛇形机器人前四个关节的关节角变化曲线图；

图5b是训练完成之后运动40s后30s到40s的水下蛇形机器人后四个关节的关节角变化曲线图；

图6是常见的蜿蜒步态、仿鳗步态和训练生成步态的运动轨迹。

具体实施方式

下面结合实施例和附图对本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法做出详细说明。

图1为本发明采用方法所需要的仿真平台和实验平台示意图，仿真平台用于完成强化学习算法的离线训练过程，利用函数拟合的方式将训练结果转换为运动步态参数作为上位机给定参数，实验平台实现对水下蛇形机器人的运动控制。

本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法的实现需要上位机、水下蛇形机器人硬件系统共同完成。其中，上位机基于软件实现近端策略优化的强化学习算法的离线训练，采用以正弦函数为基函数拟合的方式将训练结果转换为步态参数。本发明中所述的水下蛇形机器人采用专利申请号为201811257468.3的水下蛇形机器人，硬件控制系统包括：依次连接的通信模块1、主控制单元、通信模块2以及分别与所述通信模块2相连接的子控制单元1、子控制单元2、....子控制单元n。其中，所述的通信模块1和通讯模块2分别采用的是串口通信和CAN总线通信方式，主控制单元采用型号为STM32F427的芯片，所述子控制单元1、子控制单元2、....子控制单元n结构相同，均采用采用型号为STM32F103的芯片。

在实验平台的上位机设定前面仿真环境得到的运动步态参数，上位机设定前面函数拟合得到的运动步态参数，利用通信模块1将参数传输至主控单元，主控单元计算出每个模块所需数据，并通过通信模块2传输至每个用于控制关节的子控制单元，经过处理后的信号用于控制关节舵机使蛇形机器人运动，并将舵机角度以及摄像头拍摄到蛇形机器人运动轨迹传输至上位机，图2是Qt编写好的上位机界面，包括输入部分的步态参数和步态变化曲线，以及输出部分的蛇形机器人运动轨迹显示界面、前向运动速度变化曲线。子控制单元用于接收头部单片机关节角度信息、控制关节舵机转动指定角度以及传输舵机反馈的角度信息。通信模块用于实现硬件系统内部通信、以及硬件系统与上位机间的通信。关节舵机设置在蛇形机器人的每个关节处，用于实现蛇形机器人的关节动作。

本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法主要包括两个步骤：

(1)在仿真平台采用迭代牛顿-欧拉的数值方法搭建准确水下蛇形机器人环境，设定回报函数、策略网络和值函数网络的学习率、批处理个数、折扣因子以及每次试验采集数据的上限个数，利用近端策略优化的强化学习算法训练得到一种高速运动步态的策略网络，并将策略网络得到的权重采用正弦函数拟合的方式转换为蛇形机器人运动步态的参数α、ω、β、γ。

(2)上位机设定前面函数拟合得到的运动步态参数，利用通信模块1将参数传输至头部单片机，主控单元计算出每个模块所需数据，并通过通信模块2传输至关节控制器，经过处理后的信号用于控制舵机，最终实现蛇形机器人的高速步态运动，并将舵机实际偏转角度以及摄像头拍摄到蛇形机器人运动轨迹传输至上位机显示。

本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法，具体包括如下步骤：

1)搭建强化学习的训练环境，包括reset()函数、step()函数；其中所述的：

(1.1).reset()函数：初始化状态，采样产生数据时每次试验的起始状态，采用随机初始化的方式，增加在初始位置的探索率；

(1.2).step()函数：用于得到马尔科夫决策过程，首先是采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型，然后设置状态空间、动作空间和回报函数，其中，

(1.2.1)所述的采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型，包括：

如图3所示，水下蛇形机器人是由N+1个连杆和N个关节组成，ρ是水的流体密度，连杆的附加质量m_a＝C_aρπr²l，连杆的附加力矩惯量

连杆的转动惯量

其中，C_a为附加质量系数，l是单个连杆长度，r是模块横截面半径，m是单个连杆质量；

附加质量矩阵

附加力矩惯量矩阵

对应的形状阻力和粘滞阻力的系数矩阵

C_f和C_d分别表示切向和法向阻力系数；旋量变换矩阵

惯量矩阵

其中，

为一个3×3的旋转矩阵，表示关节坐标系∑i-1相对于关节坐标系∑i的表示；

为一个的平移矩阵，表示关节坐标系∑i的原点相对于关节坐标系∑i-1的位置；

为关节坐标系∑i的原点相对于关节坐标系∑i-1中坐标的叉乘矩阵；I₃为3×3的单位矩阵；M_i为第i个连杆的质量；S_i表示第i个关节到第i个连杆质心的向量；

表示第i个关节在第i个关节坐标系∑i中坐标的叉乘矩阵；

水下蛇形机器人在水下所受到的水动力包括附加质量力和水阻力，在第i个连杆的关节坐标系∑i下，施加在第i个连杆上的水阻力由线性阻力和非线性阻力构成，为：

其中，

为第i个连杆在第i个连杆的关节坐标系下的线速度向量；

在第i个连杆的坐标系∑i下，施加在第i个连杆上的附加质量力为：

其中，

表示第i个连杆在第i个连杆的关节坐标系下的角速度向量；

为角速度向量

的斜对称矩阵，S_i表示第i个关节到第i个连杆质心的向量；

作用在第i个连杆上的线性阻力矩和非线性阻力矩为：

其中，

作用在第i个连杆上的附加质量力矩为：

相邻的第i-1个关节确定的坐标系∑i-1传递到第i个关节的确定的坐标系∑i速度表示为：

其中，

为第i个连杆的关节坐标系∑i的旋转角速度；参数

其中，0_3×1为一个3×1全为零的矩阵，水下蛇形机器人在二维运动时，

相邻的第i-1个关节确定的坐标系∑i-1传递到第i个关节的确定的坐标系∑i的加速度表示为：

其中，

为第i个连杆的关节坐标系∑i的旋转角加速度；

根据牛顿欧拉方程，得到第i个关节总的外部力旋量为：

其中，

为第i个关节坐标系下第i个连杆所受的总外力；

为第i个关节坐标系下第i个连杆绕着第i个连杆质心旋转的总外力矩；

如图4所示，力的平衡方程为：

其中，

表示在第i个关节坐标系下第i-1个连杆施加在第i个连杆的力旋量；

表示在第i个关节坐标系下第i-1个连杆施加在第i个连杆的外部力旋量；

采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型的实现过程需要依次进行下面三个迭代过程：

Step1，前向迭代，利用公式(5)～公式(8)得到每个关节的速度、加速度和合外力，同时引入参数

Steps2，后向迭代：得到头部加速度，

其中，

得到头部加速度为：

Steps3：前向迭代，得到每个关节加速度和力矩为

(1.2.2)设置状态空间

包括头部连杆在世界坐标系下的角度θ₀、关节角

头部连杆的角速度

关节角速度

头部沿x轴方向的速度v_x和头部沿y轴方向的速度v_y，考虑水下蛇形机器人自身约束，这里将关节角约束条件设定在-0.5π～0.5π区间内；

(1.2.3)设置动作空间

是关节角加速度

(1.2.4)设置回报函数：若水下蛇形机器人的关节角在设定的约束范围内，则回报函数为reward＝-r_v+time_bonus，其中参数r_v＝100v_x,参数time_bonus＝0.01；若关节角超过设定的约束条件，则回报函数为-10。

2)在强化学习的训练环境下实现近端策略优化算法；包括：

近端策略优化算法的网络结构包括一个值函数网络和一个策略网络，值函数网络的输入是状态，输出是状态值函数；策略网络的输入是状态，输出是动作；

近端策略优化算法的目标函数L(θ)为：

其中，θ表示策略网络的网络参数；s_t为第t时刻的状态；a_t为第t时刻的动作；

π_θ(a_t|s_t)表示在当前策略网络参数θ下在状态s_t下动作a_t的评估；

表示在当前参数更新前的策略网络参数θ_old下在状态s_t下动作a_t的评估；

为第t步的优势函数；ε表示裁剪系数，设置为0.2；

依据下式对值函数网络进行更新：

其中，ψ为值函数网络的网络参数；T为终止时刻；R_t为第t时刻的立即回报；V_ψ为值函数

网络在网络参数为ψ下的值函数；

近端策略优化算法每采样一条轨迹或者多条轨迹达到设定的数据量，值函数网络和策略网络的权值更新一次，权值每更新一次包括以下3步：

(2.1)采样：在步骤2)的基础上，当前的策略网络π_θ根据状态s_t得到用高斯策略表示的动作a_t～N(μ,σ²；θ)，其中，μ为高斯分布的均值；σ为高斯分布的方差；与环境进行交互得到下一个时刻的状态s_t+1，得到此时刻的立即回报R_t，然后根据下一个时刻的状态s_t+1，利用当前的策略网络π_θ得到下一时刻的动作a_t+1；重复该采样过程，得到序列数据，构成一条轨迹

(2.2)对值函数网络更新：采用蒙特卡罗的方法估计值函数，得到折扣累计回报：

其中t'为第t'时刻，γ为折扣因子；

再利用均方误差作为值函数网络的损失函数进行更新：

将所述的轨迹τ分为若干个批处理数，对损失函数求梯度：

其中α^ψ是值函数网络的学习率；n为采集数据的轨迹数；

为第i条轨迹在第t时刻的状态；

(2.3)对策略网络更新：即对近端策略优化算法的目标函数L(θ)求梯度：

其中，α^θ是策略网络的学习率。

为了更好地说明强化学习训练的结果，这里添加了render()函数，用于将图像引擎和物理引擎联系起来，展现水下蛇形机器人的运动状态。

为了验证本发明所提出步态生成方法的优越性，下面以8个关节为例，建立N＝8的水下蛇形机器人的数值模型，相关物理量的设置如下，单个模块的长度l＝0.18m，半径r＝0.0375m，单个模块的质量m＝0.816kg，流体相关参数的设置：流体环境密度ρ＝1000kg/m³，附加质量系数C_a＝1，切向水阻力系数C_f＝0.03，法向水阻力系数C_d＝2。

近端策略优化算法的值函数网络采用包含两层隐含层的全连接神经网络，神经元个数为200个，隐含层的激活函数为ReLU，输出层不用激活函数；近端策略优化算法的策略网络采用包含两层隐含层的全连接神经网络，神经元个数为400个，隐含层的激活函数为ReLU，输出层的激活函数为tanh。在通过蒙特卡罗采样时每次都采集几个路径的数据，使得采集的数据达到4000组之后，打乱其顺序随机分批训练值函数网络和策略网络。PPO算法的超参数设置如表1.

表1近端策略优化算法的超参数设置

图5a、图5b分别是近端策略优化算法训练完成之后运动40s后30s到40s的蛇形机器人各关节角变化。图6是常见的蜿蜒步态、仿鳗步态和训练生成步态的运动轨迹。在三种不同步态方式下运动40s后，近端策略优化算法生成的步态在x负方向最远可以运动25.55m，仿鳗步态最多可以运动19.68m，蜿蜒步态最多可以运动18.72m，显然，近端策略优化算法自动生成的步态在x方向上运动的距离最远。近端策略优化算法生成的步态，其关节角度变化的频率、幅值等相关参数都是在网格搜索范围内，但是该步态的运动速度比步态搜索得到的速度更快，进一步验证了本专利中的基于近端策略优化算法的步态生成方法的优越性。