CN112140098B - 基于近端策略优化的水下蛇形机器人高速步态生成方法 - Google Patents

基于近端策略优化的水下蛇形机器人高速步态生成方法 Download PDF

Info

Publication number
CN112140098B
CN112140098B CN202010966202.7A CN202010966202A CN112140098B CN 112140098 B CN112140098 B CN 112140098B CN 202010966202 A CN202010966202 A CN 202010966202A CN 112140098 B CN112140098 B CN 112140098B
Authority
CN
China
Prior art keywords
ith
joint
coordinate system
connecting rod
gait
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010966202.7A
Other languages
English (en)
Other versions
CN112140098A (zh
Inventor
马书根
李汕
任超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010966202.7A priority Critical patent/CN112140098B/zh
Publication of CN112140098A publication Critical patent/CN112140098A/zh
Application granted granted Critical
Publication of CN112140098B publication Critical patent/CN112140098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/06Programme-controlled manipulators characterised by multi-articulated arms
    • B25J9/065Snake robots
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J17/00Joints
    • B25J17/02Wrist joints
    • B25J17/0258Two-dimensional joints
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B63SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
    • B63CLAUNCHING, HAULING-OUT, OR DRY-DOCKING OF VESSELS; LIFE-SAVING IN WATER; EQUIPMENT FOR DWELLING OR WORKING UNDER WATER; MEANS FOR SALVAGING OR SEARCHING FOR UNDERWATER OBJECTS
    • B63C11/00Equipment for dwelling or working underwater; Means for searching for underwater objects
    • B63C11/52Tools specially adapted for working underwater, not otherwise provided for

Abstract

一种基于近端策略优化的水下蛇形机器人高速步态生成方法,包括:搭建强化学习的训练环境,包括reset()函数、step()函数;在强化学习的训练环境下实现近端策略优化算法;将策略网络得到的权值利用正弦函数为基函数去拟合,从而转换为水下蛇形机器人运动步态参数。本发明有益效果如下:本发明步态生成方法以高速作为优化目标,水下蛇形机器人在该步态生成方法下优化得到的步态运动时,其前向运动速度比在对传统步态方法优化得到的最优步态运动时的前向运动速度更快;本发明步态生成方法在寻优过程中,会在比蛇形步态方程更大的范围寻找,其得到步态方程形式往往会不同于蛇形步态方程,是一种新型的运动步态。

Description

基于近端策略优化的水下蛇形机器人高速步态生成方法
技术领域
本发明涉及一种机器人高速步态生成方法。特别是涉及一种基于近端策略优化的水下蛇形机器人高速步态生成方法。
背景技术
由于水下环境复杂多变,传统的水下探测机器人通常难以应对,且普遍存在续航时间短的问题。近年来,基于仿生学设计的机器人在复杂环境适应的问题上表现十分突出,其运动方式源于生物机理,因此能效比远高于传统机器人。本发明研究的水下蛇形机器人设计理念源于生物蛇,同生物蛇一样具有冗余的关节结构,灵活性极高,能够在各种环境下运动,且运动效率较高,故在水环境检测、水下救援和对水下设备检修等方面具有广阔的应用前景。然而,冗余的关节结构和水环境的复杂多变,导致水下蛇形机器人的步态生成和优化成为了极具挑战力的热点问题。
针对蛇形机器人的步态生成和优化问题,国内外已经有众多学者进行了研究,如洛桑联邦理工大学、挪威科技大学、日本东京工业大学、中国科学院沈阳自动化研究所。传统的步态和优化方法主要包括基于蛇形曲线的方法、基于模型的方法和基于CPG的方法。日本东京工业大学的Hirose Fukushima Lab实验室通过大量实验反复观察生物蛇的运动提出了serpenoid曲线和serpentine曲线(文章题目:Biologically Inspired Robots:Snake-Like Locomotors and Manipulators;会议:International Conference onRobotics and Automation;著者:S.G.Ma;出版年月:1999);挪威科技大学研究人员基于无约束的动力学模型设计了路径跟踪控制器(会议:In proceedings of IEEE Conferenceon Decision and Control;著者:P.Liljeback,I.U.Haugstuen,K.Y.Pettersen;出版年月:2010;会议:In proceedings of IEEE Conference on Decision and Control;著者:P.Liljeback,K.Y.Pettersen;出版年月:2011);洛桑联邦理工的仿生机器人实验室学者基于CPG(central pattern generator)模型实现了蛇形机器人在陆地和水中的运动控制(文章题目:Online optimization of swimming and crawling in an amphibious snakerobot;页码:75-87)。前面这些方法都是在蛇形步态方程的基础上对步态参数进行优化,优化的范围仅在蛇形步态方程范围内。而由于人工智能的迅速发展的推动,强化学习在蛇形机器人步态研究上也有所发展,该方法能在比蛇形步态方程范围更大的空间去寻找满足回报函数设置的目标的步态。针对陆地蛇形机器人的传统步态在非结构化环境运动控制的不足,卡耐基梅隆大学研究人员采用分布式框架下的异步优势演员-评论家(asynchronousadvantage actor-critic,A3C)的强化学习算法,分别在线地和离线地实现了蛇形机器人在非结构化地形上的运动,并且提升了40%的运动效率,但是该方法仍然用到传统步态方程的先验知识。(文章题目:Distributed Learning of Decentralized Control Policiesfor Articulated Mobile Robots;页码:1109-1122)。
发明内容
本发明所要解决的技术问题是,提供一种前向运动速度更快的基于近端策略优化的水下蛇形机器人高速步态生成方法。
本发明所采用的技术方案是:一种基于近端策略优化的水下蛇形机器人高速步态生成方法,包括如下步骤:
1)搭建强化学习的训练环境,包括reset()函数、step()函数;
2)在强化学习的训练环境下实现近端策略优化算法;
3)将策略网络得到的权值利用正弦函数为基函数去拟合,从而转换为水下蛇形机器人运动步态参数。
本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法,有益效果如下:
(1)本发明步态生成方法以高速作为优化目标,水下蛇形机器人在该步态生成方法下优化得到的步态运动时,其前向运动速度比在对传统步态方法优化得到的最优步态运动时的前向运动速度更快;
(2)本发明步态生成方法在寻优过程中,会在比蛇形步态方程更大的范围寻找,其得到步态方程形式往往会不同于蛇形步态方程,是一种新型的运动步态。
附图说明
图1是本发明方法所需要的仿真平台和实验平台示意图;
图2是本发明实验平台上位机人机操作界面示意图;
图3是本发明建模部分N+1模块水下蛇形机器人及其运动学参数;
图4是为本发明建模部分第i个连杆的力和力矩;
图5a是训练完成之后运动40s后30s到40s的水下蛇形机器人前四个关节的关节角变化曲线图;
图5b是训练完成之后运动40s后30s到40s的水下蛇形机器人后四个关节的关节角变化曲线图;
图6是常见的蜿蜒步态、仿鳗步态和训练生成步态的运动轨迹。
具体实施方式
下面结合实施例和附图对本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法做出详细说明。
图1为本发明采用方法所需要的仿真平台和实验平台示意图,仿真平台用于完成强化学习算法的离线训练过程,利用函数拟合的方式将训练结果转换为运动步态参数作为上位机给定参数,实验平台实现对水下蛇形机器人的运动控制。
本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法的实现需要上位机、水下蛇形机器人硬件系统共同完成。其中,上位机基于软件实现近端策略优化的强化学习算法的离线训练,采用以正弦函数为基函数拟合的方式将训练结果转换为步态参数。本发明中所述的水下蛇形机器人采用专利申请号为201811257468.3的水下蛇形机器人,硬件控制系统包括:依次连接的通信模块1、主控制单元、通信模块2以及分别与所述通信模块2相连接的子控制单元1、子控制单元2、....子控制单元n。其中,所述的通信模块1和通讯模块2分别采用的是串口通信和CAN总线通信方式,主控制单元采用型号为STM32F427的芯片,所述子控制单元1、子控制单元2、....子控制单元n结构相同,均采用采用型号为STM32F103的芯片。
在实验平台的上位机设定前面仿真环境得到的运动步态参数,上位机设定前面函数拟合得到的运动步态参数,利用通信模块1将参数传输至主控单元,主控单元计算出每个模块所需数据,并通过通信模块2传输至每个用于控制关节的子控制单元,经过处理后的信号用于控制关节舵机使蛇形机器人运动,并将舵机角度以及摄像头拍摄到蛇形机器人运动轨迹传输至上位机,图2是Qt编写好的上位机界面,包括输入部分的步态参数和步态变化曲线,以及输出部分的蛇形机器人运动轨迹显示界面、前向运动速度变化曲线。子控制单元用于接收头部单片机关节角度信息、控制关节舵机转动指定角度以及传输舵机反馈的角度信息。通信模块用于实现硬件系统内部通信、以及硬件系统与上位机间的通信。关节舵机设置在蛇形机器人的每个关节处,用于实现蛇形机器人的关节动作。
本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法主要包括两个步骤:
(1)在仿真平台采用迭代牛顿-欧拉的数值方法搭建准确水下蛇形机器人环境,设定回报函数、策略网络和值函数网络的学习率、批处理个数、折扣因子以及每次试验采集数据的上限个数,利用近端策略优化的强化学习算法训练得到一种高速运动步态的策略网络,并将策略网络得到的权重采用正弦函数拟合的方式转换为蛇形机器人运动步态的参数α、ω、β、γ。
(2)上位机设定前面函数拟合得到的运动步态参数,利用通信模块1将参数传输至头部单片机,主控单元计算出每个模块所需数据,并通过通信模块2传输至关节控制器,经过处理后的信号用于控制舵机,最终实现蛇形机器人的高速步态运动,并将舵机实际偏转角度以及摄像头拍摄到蛇形机器人运动轨迹传输至上位机显示。
本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法,具体包括如下步骤:
1)搭建强化学习的训练环境,包括reset()函数、step()函数;其中所述的:
(1.1).reset()函数:初始化状态,采样产生数据时每次试验的起始状态,采用随机初始化的方式,增加在初始位置的探索率;
(1.2).step()函数:用于得到马尔科夫决策过程,首先是采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型,然后设置状态空间、动作空间和回报函数,其中,
(1.2.1)所述的采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型,包括:
如图3所示,水下蛇形机器人是由N+1个连杆和N个关节组成,ρ是水的流体密度,连杆的附加质量ma=Caρπr2l,连杆的附加力矩惯量
Figure BDA0002682417810000031
连杆的转动惯量
Figure BDA0002682417810000032
其中,Ca为附加质量系数,l是单个连杆长度,r是模块横截面半径,m是单个连杆质量;
附加质量矩阵
Figure BDA0002682417810000033
附加力矩惯量矩阵
Figure BDA0002682417810000034
对应的形状阻力和粘滞阻力的系数矩阵
Figure BDA0002682417810000041
Cf和Cd分别表示切向和法向阻力系数;旋量变换矩阵
Figure BDA0002682417810000042
惯量矩阵
Figure BDA0002682417810000043
其中,
Figure BDA0002682417810000044
为一个3×3的旋转矩阵,表示关节坐标系∑i-1相对于关节坐标系∑i的表示;
Figure BDA0002682417810000045
为一个的平移矩阵,表示关节坐标系∑i的原点相对于关节坐标系∑i-1的位置;
Figure BDA0002682417810000046
为关节坐标系∑i的原点相对于关节坐标系∑i-1中坐标的叉乘矩阵;I3为3×3的单位矩阵;Mi为第i个连杆的质量;Si表示第i个关节到第i个连杆质心的向量;
Figure BDA0002682417810000047
表示第i个关节在第i个关节坐标系∑i中坐标的叉乘矩阵;
Figure BDA0002682417810000048
Figure BDA0002682417810000049
水下蛇形机器人在水下所受到的水动力包括附加质量力和水阻力,在第i个连杆的关节坐标系∑i下,施加在第i个连杆上的水阻力由线性阻力和非线性阻力构成,为:
Figure BDA00026824178100000410
其中,
Figure BDA00026824178100000411
为第i个连杆在第i个连杆的关节坐标系下的线速度向量;
在第i个连杆的坐标系∑i下,施加在第i个连杆上的附加质量力为:
Figure BDA00026824178100000412
其中,
Figure BDA00026824178100000413
表示第i个连杆在第i个连杆的关节坐标系下的角速度向量;
Figure BDA00026824178100000414
为角速度向量
Figure BDA00026824178100000415
的斜对称矩阵,Si表示第i个关节到第i个连杆质心的向量;
作用在第i个连杆上的线性阻力矩和非线性阻力矩为:
Figure BDA00026824178100000416
其中,
Figure BDA00026824178100000417
作用在第i个连杆上的附加质量力矩为:
Figure BDA00026824178100000418
相邻的第i-1个关节确定的坐标系∑i-1传递到第i个关节的确定的坐标系∑i速度表示为:
Figure BDA0002682417810000051
其中,
Figure BDA0002682417810000052
Figure BDA0002682417810000053
为第i个连杆的关节坐标系∑i的旋转角速度;参数
Figure BDA0002682417810000054
其中,03×1为一个3×1全为零的矩阵,水下蛇形机器人在二维运动时,
Figure BDA0002682417810000055
相邻的第i-1个关节确定的坐标系∑i-1传递到第i个关节的确定的坐标系∑i的加速度表示为:
Figure BDA0002682417810000056
其中,
Figure BDA0002682417810000057
Figure BDA0002682417810000058
为第i个连杆的关节坐标系∑i的旋转角加速度;
根据牛顿欧拉方程,得到第i个关节总的外部力旋量为:
Figure BDA0002682417810000059
其中,
Figure BDA00026824178100000510
Figure BDA00026824178100000511
为第i个关节坐标系下第i个连杆所受的总外力;
Figure BDA00026824178100000512
为第i个关节坐标系下第i个连杆绕着第i个连杆质心旋转的总外力矩;
如图4所示,力的平衡方程为:
Figure BDA00026824178100000513
其中,
Figure BDA00026824178100000514
表示在第i个关节坐标系下第i-1个连杆施加在第i个连杆的力旋量;
Figure BDA00026824178100000515
表示在第i个关节坐标系下第i-1个连杆施加在第i个连杆的外部力旋量;
采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型的实现过程需要依次进行下面三个迭代过程:
Step1,前向迭代,利用公式(5)~公式(8)得到每个关节的速度、加速度和合外力,同时引入参数
Figure BDA00026824178100000516
Figure BDA00026824178100000517
Steps2,后向迭代:得到头部加速度,
Figure BDA00026824178100000518
其中,
Figure BDA00026824178100000519
得到头部加速度为:
Figure BDA00026824178100000520
Steps3:前向迭代,得到每个关节加速度和力矩为
Figure BDA00026824178100000521
(1.2.2)设置状态空间
Figure BDA0002682417810000061
包括头部连杆在世界坐标系下的角度θ0、关节角
Figure BDA0002682417810000062
头部连杆的角速度
Figure BDA0002682417810000063
关节角速度
Figure BDA0002682417810000064
头部沿x轴方向的速度vx和头部沿y轴方向的速度vy,考虑水下蛇形机器人自身约束,这里将关节角约束条件设定在-0.5π~0.5π区间内;
(1.2.3)设置动作空间
Figure BDA0002682417810000065
是关节角加速度
Figure BDA0002682417810000066
(1.2.4)设置回报函数:若水下蛇形机器人的关节角在设定的约束范围内,则回报函数为reward=-rv+timebonus,其中参数rv=100vx,参数timebonus=0.01;若关节角超过设定的约束条件,则回报函数为-10。
2)在强化学习的训练环境下实现近端策略优化算法;包括:
近端策略优化算法的网络结构包括一个值函数网络和一个策略网络,值函数网络的输入是状态,输出是状态值函数;策略网络的输入是状态,输出是动作;
近端策略优化算法的目标函数L(θ)为:
Figure BDA0002682417810000067
其中,θ表示策略网络的网络参数;st为第t时刻的状态;at为第t时刻的动作;
Figure BDA0002682417810000068
πθ(at|st)表示在当前策略网络参数θ下在状态st下动作at的评估;
Figure BDA0002682417810000069
表示在当前参数更新前的策略网络参数θold下在状态st下动作at的评估;
Figure BDA00026824178100000610
为第t步的优势函数;ε表示裁剪系数,设置为0.2;
依据下式对值函数网络进行更新:
Figure BDA00026824178100000611
其中,ψ为值函数网络的网络参数;T为终止时刻;Rt为第t时刻的立即回报;Vψ为值函数
网络在网络参数为ψ下的值函数;
近端策略优化算法每采样一条轨迹或者多条轨迹达到设定的数据量,值函数网络和策略网络的权值更新一次,权值每更新一次包括以下3步:
(2.1)采样:在步骤2)的基础上,当前的策略网络πθ根据状态st得到用高斯策略表示的动作at~N(μ,σ2;θ),其中,μ为高斯分布的均值;σ为高斯分布的方差;与环境进行交互得到下一个时刻的状态st+1,得到此时刻的立即回报Rt,然后根据下一个时刻的状态st+1,利用当前的策略网络πθ得到下一时刻的动作at+1;重复该采样过程,得到序列数据,构成一条轨迹
Figure BDA00026824178100000612
(2.2)对值函数网络更新:采用蒙特卡罗的方法估计值函数,得到折扣累计回报:
Figure BDA00026824178100000613
其中t'为第t'时刻,γ为折扣因子;
再利用均方误差作为值函数网络的损失函数进行更新:
Figure BDA0002682417810000071
将所述的轨迹τ分为若干个批处理数,对损失函数求梯度:
Figure BDA0002682417810000072
其中αψ是值函数网络的学习率;n为采集数据的轨迹数;
Figure BDA0002682417810000073
为第i条轨迹在第t时刻的状态;
(2.3)对策略网络更新:即对近端策略优化算法的目标函数L(θ)求梯度:
Figure BDA0002682417810000074
其中,αθ是策略网络的学习率。
3)将策略网络得到的权值利用正弦函数为基函数去拟合,从而转换为水下蛇形机器人运动步态参数。
为了更好地说明强化学习训练的结果,这里添加了render()函数,用于将图像引擎和物理引擎联系起来,展现水下蛇形机器人的运动状态。
为了验证本发明所提出步态生成方法的优越性,下面以8个关节为例,建立N=8的水下蛇形机器人的数值模型,相关物理量的设置如下,单个模块的长度l=0.18m,半径r=0.0375m,单个模块的质量m=0.816kg,流体相关参数的设置:流体环境密度ρ=1000kg/m3,附加质量系数Ca=1,切向水阻力系数Cf=0.03,法向水阻力系数Cd=2。
近端策略优化算法的值函数网络采用包含两层隐含层的全连接神经网络,神经元个数为200个,隐含层的激活函数为ReLU,输出层不用激活函数;近端策略优化算法的策略网络采用包含两层隐含层的全连接神经网络,神经元个数为400个,隐含层的激活函数为ReLU,输出层的激活函数为tanh。在通过蒙特卡罗采样时每次都采集几个路径的数据,使得采集的数据达到4000组之后,打乱其顺序随机分批训练值函数网络和策略网络。PPO算法的超参数设置如表1.
表1近端策略优化算法的超参数设置
Figure BDA0002682417810000075
图5a、图5b分别是近端策略优化算法训练完成之后运动40s后30s到40s的蛇形机器人各关节角变化。图6是常见的蜿蜒步态、仿鳗步态和训练生成步态的运动轨迹。在三种不同步态方式下运动40s后,近端策略优化算法生成的步态在x负方向最远可以运动25.55m,仿鳗步态最多可以运动19.68m,蜿蜒步态最多可以运动18.72m,显然,近端策略优化算法自动生成的步态在x方向上运动的距离最远。近端策略优化算法生成的步态,其关节角度变化的频率、幅值等相关参数都是在网格搜索范围内,但是该步态的运动速度比步态搜索得到的速度更快,进一步验证了本专利中的基于近端策略优化算法的步态生成方法的优越性。

Claims (2)

1.一种基于近端策略优化的水下蛇形机器人高速步态生成方法,其特征在于,包括如下步骤:
1)搭建强化学习的训练环境,包括reset()函数、step()函数;其中所述的:
(1.1).reset()函数:初始化状态,采样产生数据时每次试验的起始状态,采用随机初始化的方式,增加在初始位置的探索率;
(1.2).step()函数:用于得到马尔科夫决策过程,首先是采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型,然后设置状态空间、动作空间和回报函数;其中,
(1.2.1)所述的采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型,包括:
水下蛇形机器人是由N+1个连杆和N个关节组成,ρ是水的流体密度,连杆的附加质量ma=Caρπr2l,连杆的附加力矩惯量
Figure FDA0003592613750000011
连杆的转动惯量
Figure FDA0003592613750000012
其中,Ca为附加质量系数,l是单个连杆长度,r是模块横截面半径,m是单个连杆质量;
附加质量矩阵
Figure FDA0003592613750000013
附加力矩惯量矩阵
Figure FDA0003592613750000014
对应的形状阻力和粘滞阻力的系数矩阵
Figure FDA0003592613750000015
Cf和Cd分别表示切向和法向阻力系数;旋量变换矩阵
Figure FDA0003592613750000016
惯量矩阵
Figure FDA0003592613750000017
其中,
Figure FDA0003592613750000018
为一个3×3的旋转矩阵,表示关节坐标系∑i-1相对于关节坐标系∑i的表示;
Figure FDA0003592613750000019
为一个的平移矩阵,表示关节坐标系∑i的原点相对于关节坐标系∑i-1的位置;
Figure FDA00035926137500000110
为关节坐标系∑i的原点相对于关节坐标系∑i-1中坐标的叉乘矩阵;I3为3×3的单位矩阵;Mi为第i个连杆的质量;Si表示第i个关节到第i个连杆质心的向量;
Figure FDA00035926137500000111
表示第i个关节在第i个关节坐标系∑i中坐标的叉乘矩阵;
Figure FDA00035926137500000112
是第i个连杆相对于坐标系∑i的一阶惯量,转动惯量矩阵
Figure FDA00035926137500000113
水下蛇形机器人在水下所受到的水动力包括附加质量力和水阻力,在第i个连杆的关节坐标系∑i下,施加在第i个连杆上的水阻力由线性阻力和非线性阻力构成,为:
Figure FDA00035926137500000114
其中,
Figure FDA00035926137500000115
为第i个连杆在第i个连杆的关节坐标系下的线速度向量;
在第i个连杆的坐标系∑i下,施加在第i个连杆上的附加质量力为:
Figure FDA0003592613750000021
其中,
Figure FDA0003592613750000022
表示第i个连杆在第i个连杆的关节坐标系下的角速度向量;
Figure FDA0003592613750000023
为角速度向量
Figure FDA0003592613750000024
的斜对称矩阵,Si表示第i个关节到第i个连杆质心的向量;
作用在第i个连杆上的线性阻力矩和非线性阻力矩为:
Figure FDA0003592613750000025
其中,
Figure FDA0003592613750000026
作用在第i个连杆上的附加质量力矩为:
Figure FDA0003592613750000027
相邻的第i-1个关节确定的坐标系∑i-1传递到第i个关节的确定的坐标系∑i速度表示为:
Figure FDA0003592613750000028
其中,
Figure FDA0003592613750000029
Figure FDA00035926137500000210
为第i个连杆的关节坐标系∑i的旋转角速度;参数
Figure FDA00035926137500000211
其中,03×1为一个3×1全为零的矩阵,水下蛇形机器人在二维平面运动时,
Figure FDA00035926137500000212
相邻的第i-1个关节确定的坐标系∑i-1传递到第i个关节的确定的坐标系∑i的加速度表示为:
Figure FDA00035926137500000213
其中,
Figure FDA00035926137500000214
Figure FDA00035926137500000215
为第i个连杆的关节坐标系∑i的旋转角加速度;
根据牛顿欧拉方程,得到第i个关节总的外部力旋量为:
Figure FDA00035926137500000216
其中,
Figure FDA00035926137500000217
Figure FDA00035926137500000218
为第i个关节坐标系下第i个连杆所受的总外力向量;
Figure FDA00035926137500000219
为第i个关节坐标系下第i个连杆绕着第i个连杆质心旋转的总外力矩向量;
力的平衡方程为:
Figure FDA0003592613750000031
其中,
Figure FDA0003592613750000032
表示在第i个关节坐标系下第i-1个连杆施加在第i个连杆的力旋量;
Figure FDA0003592613750000033
表示在第i个关节坐标系下第i-1个连杆施加在第i个连杆的外部力旋量;
采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型的实现过程需要依次进行下面三个迭代过程:
Step1,前向迭代,利用公式(5)~公式(8)得到每个关节的速度、加速度和合外力,同时引入参数
Figure FDA0003592613750000034
Figure FDA0003592613750000035
Steps2,后向迭代:得到头部加速度,
Figure FDA0003592613750000036
其中,
Figure FDA0003592613750000037
得到头部加速度为:
Figure FDA0003592613750000038
Steps3:前向迭代,得到每个关节加速度和力矩为
Figure FDA0003592613750000039
(1.2.2)所述的设置状态空间
Figure FDA00035926137500000310
包括头部连杆在世界坐标系下的角度θ0、关节角
Figure FDA00035926137500000311
头部连杆的角速度
Figure FDA00035926137500000312
关节角速度
Figure FDA00035926137500000313
头部沿x轴方向的速度vx和头部沿y轴方向的速度vy,考虑水下蛇形机器人自身约束,这里将关节角约束条件设定在-0.5π~0.5π区间内;
(1.2.3)所述的设置动作空间
Figure FDA00035926137500000314
是关节角加速度
Figure FDA00035926137500000315
(1.2.4)所述的设置回报函数:若水下蛇形机器人的关节角在设定的约束范围内,则回报函数为reward=-rv+timebonus,其中参数rv=100vx,参数timebonus=0.01;若关节角超过设定的约束条件,则回报函数为-10;
2)在强化学习的训练环境下实现近端策略优化算法;
3)将策略网络得到的权值利用正弦函数为基函数去拟合,从而转换为水下蛇形机器人运动步态参数。
2.根据权利要求1所述的基于近端策略优化的水下蛇形机器人高速步态生成方法,其特征在于,步骤2)包括:
近端策略优化算法的网络结构包括一个值函数网络和一个策略网络,值函数网络的输入是状态,输出是状态值函数;策略网络的输入是状态,输出是动作;
近端策略优化算法的目标函数L(θ)为:
Figure FDA00035926137500000316
其中,θ表示策略网络的网络参数;st为第t时刻的状态;at为第t时刻的动作;
Figure FDA0003592613750000041
πθ(at|st)表示在当前策略网络参数θ下在状态st下动作at的评估;
Figure FDA0003592613750000042
表示在当前参数更新前的策略网络参数θold下在状态st下动作at的评估;
Figure FDA0003592613750000043
为第t步的优势函数;ε表示裁剪系数,设置为0.2;
依据下式对值函数网络进行更新:
Figure FDA0003592613750000044
其中,ψ为值函数网络的网络参数;T为终止时刻;Rt为第t时刻的立即回报;Vψ为值函数网络在网络参数为ψ下的值函数;
近端策略优化算法每采样一条轨迹或者多条轨迹达到设定的数据量,值函数网络和策略网络的权值更新一次,权值每更新一次包括以下3步:
(2.1)采样:在步骤2)的基础上,当前的策略网络πθ根据状态st得到用高斯策略表示的动作at~N(μ,σ2;θ),其中,μ为高斯分布的均值;σ为高斯分布的方差;与环境进行交互得到下一个时刻的状态st+1,得到此时刻的立即回报Rt,然后根据下一个时刻的状态st+1,利用当前的策略网络πθ得到下一时刻的动作at+1;重复该采样过程,得到序列数据,构成一条轨迹
Figure FDA0003592613750000045
(2.2)对值函数网络更新:采用蒙特卡罗的方法估计值函数,得到折扣累计回报:
Figure FDA0003592613750000046
其中t'为第t'时刻,γ为折扣因子;
再利用均方误差作为值函数网络的损失函数进行更新:
Figure FDA0003592613750000047
将所述的轨迹τ分为若干个批处理数,对损失函数求梯度:
Figure FDA0003592613750000048
其中αψ是值函数网络的学习率;n为采集数据的轨迹数;
Figure FDA0003592613750000049
为第i条轨迹在第t时刻的状态;
(2.3)对策略网络更新:即对近端策略优化算法的目标函数L(θ)求梯度:
Figure FDA00035926137500000410
其中,αθ是策略网络的学习率。
CN202010966202.7A 2020-09-15 2020-09-15 基于近端策略优化的水下蛇形机器人高速步态生成方法 Active CN112140098B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010966202.7A CN112140098B (zh) 2020-09-15 2020-09-15 基于近端策略优化的水下蛇形机器人高速步态生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010966202.7A CN112140098B (zh) 2020-09-15 2020-09-15 基于近端策略优化的水下蛇形机器人高速步态生成方法

Publications (2)

Publication Number Publication Date
CN112140098A CN112140098A (zh) 2020-12-29
CN112140098B true CN112140098B (zh) 2022-06-21

Family

ID=73892647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010966202.7A Active CN112140098B (zh) 2020-09-15 2020-09-15 基于近端策略优化的水下蛇形机器人高速步态生成方法

Country Status (1)

Country Link
CN (1) CN112140098B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113084787B (zh) * 2021-03-29 2022-08-30 东莞理工学院 仿生蛇形机器人运动步态规划方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009090406A (ja) * 2007-10-05 2009-04-30 Kawasaki Heavy Ind Ltd ロボットのターゲット位置検出装置
CN203779496U (zh) * 2014-03-19 2014-08-20 苏州大学 一种水下蛇形机器人
CN106054599A (zh) * 2016-05-25 2016-10-26 哈尔滨工程大学 一种主从式水下机械臂的延时控制方法
CN108710302A (zh) * 2018-06-20 2018-10-26 天津大学 无源性全方位移动机器人轨迹跟踪自抗扰控制方法
CN111251294A (zh) * 2020-01-14 2020-06-09 北京航空航天大学 一种基于视觉位姿感知和深度强化学习的机器人抓取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009090406A (ja) * 2007-10-05 2009-04-30 Kawasaki Heavy Ind Ltd ロボットのターゲット位置検出装置
CN203779496U (zh) * 2014-03-19 2014-08-20 苏州大学 一种水下蛇形机器人
CN106054599A (zh) * 2016-05-25 2016-10-26 哈尔滨工程大学 一种主从式水下机械臂的延时控制方法
CN108710302A (zh) * 2018-06-20 2018-10-26 天津大学 无源性全方位移动机器人轨迹跟踪自抗扰控制方法
CN111251294A (zh) * 2020-01-14 2020-06-09 北京航空航天大学 一种基于视觉位姿感知和深度强化学习的机器人抓取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Curved path following control for planar eel robots;Zhang Anfan, 等;《Robotics and Autonomous Systems》;20181031;第108卷;129-139 *
基于无源性的全方位移动机器人自抗扰控制;马书根,等;《控制与决策》;20180630;第33卷(第6期);1081-1086 *

Also Published As

Publication number Publication date
CN112140098A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN108115681B (zh) 机器人的模仿学习方法、装置、机器人及存储介质
CN112904728B (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
Grzeszczuk et al. Neuroanimator: Fast neural network emulation and control of physics-based models
Miyamoto et al. A kendama learning robot based on bi-directional theory
CN104331547B (zh) 一种基于可操作性的空间机械臂结构参数优化方法
Wang et al. Target tracking control of a biomimetic underwater vehicle through deep reinforcement learning
CN101520857B (zh) 一种基于神经网络的永磁球形电动机逆运动学求解方法
Liu et al. Distance-directed target searching for a deep visual servo sma driven soft robot using reinforcement learning
CN107610208B (zh) 一种颗粒介质环境下动画角色的运动仿真方法
CN112462792A (zh) 一种基于Actor-Critic算法的水下机器人运动控制方法
CN112140098B (zh) 基于近端策略优化的水下蛇形机器人高速步态生成方法
Wang et al. Learn to swim: Online motion control of an underactuated robotic eel based on deep reinforcement learning
Zhang et al. A Redundant fault-tolerant aviation control system based on deep neural network
Wochner et al. Learning with muscles: Benefits for data-efficiency and robustness in anthropomorphic tasks
CN114792028A (zh) 基于物理的高性能仿生水下机器人仿真训练平台构建方法
CN114170454A (zh) 基于关节分组策略的智能体元动作学习方法
CN114077258A (zh) 一种基于强化学习ppo2算法的无人艇位姿控制方法
Zhong et al. A General Kinematic Model of Fish Locomotion Enables Robot Fish to Master Multiple Swimming Motions
Hasan et al. Neural networks’ based inverse kinematics solution for serial robot manipulators passing through singularities
Wen et al. Consensus protocol based attitudes coordination control for Underwater Glider formation
Qi et al. Reinforcement learning control for robot arm grasping based on improved DDPG
El-Fakdi et al. Autonomous underwater vehicle control using reinforcement learning policy search methods
CN111158238B (zh) 一种基于粒子群算法的力反馈设备动力学参数估计算法
Zhou et al. Intelligent Control of Manipulator Based on Deep Reinforcement Learning
CN109719721A (zh) 一种仿蛇搜救机器人适应性步态自主涌现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant