CN112140098B - 基于近端策略优化的水下蛇形机器人高速步态生成方法 - Google Patents
基于近端策略优化的水下蛇形机器人高速步态生成方法 Download PDFInfo
- Publication number
- CN112140098B CN112140098B CN202010966202.7A CN202010966202A CN112140098B CN 112140098 B CN112140098 B CN 112140098B CN 202010966202 A CN202010966202 A CN 202010966202A CN 112140098 B CN112140098 B CN 112140098B
- Authority
- CN
- China
- Prior art keywords
- ith
- joint
- coordinate system
- connecting rod
- gait
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/06—Programme-controlled manipulators characterised by multi-articulated arms
- B25J9/065—Snake robots
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J17/00—Joints
- B25J17/02—Wrist joints
- B25J17/0258—Two-dimensional joints
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B63—SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
- B63C—LAUNCHING, HAULING-OUT, OR DRY-DOCKING OF VESSELS; LIFE-SAVING IN WATER; EQUIPMENT FOR DWELLING OR WORKING UNDER WATER; MEANS FOR SALVAGING OR SEARCHING FOR UNDERWATER OBJECTS
- B63C11/00—Equipment for dwelling or working underwater; Means for searching for underwater objects
- B63C11/52—Tools specially adapted for working underwater, not otherwise provided for
Abstract
一种基于近端策略优化的水下蛇形机器人高速步态生成方法,包括:搭建强化学习的训练环境,包括reset()函数、step()函数;在强化学习的训练环境下实现近端策略优化算法;将策略网络得到的权值利用正弦函数为基函数去拟合,从而转换为水下蛇形机器人运动步态参数。本发明有益效果如下:本发明步态生成方法以高速作为优化目标,水下蛇形机器人在该步态生成方法下优化得到的步态运动时,其前向运动速度比在对传统步态方法优化得到的最优步态运动时的前向运动速度更快;本发明步态生成方法在寻优过程中,会在比蛇形步态方程更大的范围寻找,其得到步态方程形式往往会不同于蛇形步态方程,是一种新型的运动步态。
Description
技术领域
本发明涉及一种机器人高速步态生成方法。特别是涉及一种基于近端策略优化的水下蛇形机器人高速步态生成方法。
背景技术
由于水下环境复杂多变,传统的水下探测机器人通常难以应对,且普遍存在续航时间短的问题。近年来,基于仿生学设计的机器人在复杂环境适应的问题上表现十分突出,其运动方式源于生物机理,因此能效比远高于传统机器人。本发明研究的水下蛇形机器人设计理念源于生物蛇,同生物蛇一样具有冗余的关节结构,灵活性极高,能够在各种环境下运动,且运动效率较高,故在水环境检测、水下救援和对水下设备检修等方面具有广阔的应用前景。然而,冗余的关节结构和水环境的复杂多变,导致水下蛇形机器人的步态生成和优化成为了极具挑战力的热点问题。
针对蛇形机器人的步态生成和优化问题,国内外已经有众多学者进行了研究,如洛桑联邦理工大学、挪威科技大学、日本东京工业大学、中国科学院沈阳自动化研究所。传统的步态和优化方法主要包括基于蛇形曲线的方法、基于模型的方法和基于CPG的方法。日本东京工业大学的Hirose Fukushima Lab实验室通过大量实验反复观察生物蛇的运动提出了serpenoid曲线和serpentine曲线(文章题目:Biologically Inspired Robots:Snake-Like Locomotors and Manipulators;会议:International Conference onRobotics and Automation;著者:S.G.Ma;出版年月:1999);挪威科技大学研究人员基于无约束的动力学模型设计了路径跟踪控制器(会议:In proceedings of IEEE Conferenceon Decision and Control;著者:P.Liljeback,I.U.Haugstuen,K.Y.Pettersen;出版年月:2010;会议:In proceedings of IEEE Conference on Decision and Control;著者:P.Liljeback,K.Y.Pettersen;出版年月:2011);洛桑联邦理工的仿生机器人实验室学者基于CPG(central pattern generator)模型实现了蛇形机器人在陆地和水中的运动控制(文章题目:Online optimization of swimming and crawling in an amphibious snakerobot;页码:75-87)。前面这些方法都是在蛇形步态方程的基础上对步态参数进行优化,优化的范围仅在蛇形步态方程范围内。而由于人工智能的迅速发展的推动,强化学习在蛇形机器人步态研究上也有所发展,该方法能在比蛇形步态方程范围更大的空间去寻找满足回报函数设置的目标的步态。针对陆地蛇形机器人的传统步态在非结构化环境运动控制的不足,卡耐基梅隆大学研究人员采用分布式框架下的异步优势演员-评论家(asynchronousadvantage actor-critic,A3C)的强化学习算法,分别在线地和离线地实现了蛇形机器人在非结构化地形上的运动,并且提升了40%的运动效率,但是该方法仍然用到传统步态方程的先验知识。(文章题目:Distributed Learning of Decentralized Control Policiesfor Articulated Mobile Robots;页码:1109-1122)。
发明内容
本发明所要解决的技术问题是,提供一种前向运动速度更快的基于近端策略优化的水下蛇形机器人高速步态生成方法。
本发明所采用的技术方案是:一种基于近端策略优化的水下蛇形机器人高速步态生成方法,包括如下步骤:
1)搭建强化学习的训练环境,包括reset()函数、step()函数;
2)在强化学习的训练环境下实现近端策略优化算法;
3)将策略网络得到的权值利用正弦函数为基函数去拟合,从而转换为水下蛇形机器人运动步态参数。
本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法,有益效果如下:
(1)本发明步态生成方法以高速作为优化目标,水下蛇形机器人在该步态生成方法下优化得到的步态运动时,其前向运动速度比在对传统步态方法优化得到的最优步态运动时的前向运动速度更快;
(2)本发明步态生成方法在寻优过程中,会在比蛇形步态方程更大的范围寻找,其得到步态方程形式往往会不同于蛇形步态方程,是一种新型的运动步态。
附图说明
图1是本发明方法所需要的仿真平台和实验平台示意图;
图2是本发明实验平台上位机人机操作界面示意图;
图3是本发明建模部分N+1模块水下蛇形机器人及其运动学参数;
图4是为本发明建模部分第i个连杆的力和力矩;
图5a是训练完成之后运动40s后30s到40s的水下蛇形机器人前四个关节的关节角变化曲线图;
图5b是训练完成之后运动40s后30s到40s的水下蛇形机器人后四个关节的关节角变化曲线图;
图6是常见的蜿蜒步态、仿鳗步态和训练生成步态的运动轨迹。
具体实施方式
下面结合实施例和附图对本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法做出详细说明。
图1为本发明采用方法所需要的仿真平台和实验平台示意图,仿真平台用于完成强化学习算法的离线训练过程,利用函数拟合的方式将训练结果转换为运动步态参数作为上位机给定参数,实验平台实现对水下蛇形机器人的运动控制。
本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法的实现需要上位机、水下蛇形机器人硬件系统共同完成。其中,上位机基于软件实现近端策略优化的强化学习算法的离线训练,采用以正弦函数为基函数拟合的方式将训练结果转换为步态参数。本发明中所述的水下蛇形机器人采用专利申请号为201811257468.3的水下蛇形机器人,硬件控制系统包括:依次连接的通信模块1、主控制单元、通信模块2以及分别与所述通信模块2相连接的子控制单元1、子控制单元2、....子控制单元n。其中,所述的通信模块1和通讯模块2分别采用的是串口通信和CAN总线通信方式,主控制单元采用型号为STM32F427的芯片,所述子控制单元1、子控制单元2、....子控制单元n结构相同,均采用采用型号为STM32F103的芯片。
在实验平台的上位机设定前面仿真环境得到的运动步态参数,上位机设定前面函数拟合得到的运动步态参数,利用通信模块1将参数传输至主控单元,主控单元计算出每个模块所需数据,并通过通信模块2传输至每个用于控制关节的子控制单元,经过处理后的信号用于控制关节舵机使蛇形机器人运动,并将舵机角度以及摄像头拍摄到蛇形机器人运动轨迹传输至上位机,图2是Qt编写好的上位机界面,包括输入部分的步态参数和步态变化曲线,以及输出部分的蛇形机器人运动轨迹显示界面、前向运动速度变化曲线。子控制单元用于接收头部单片机关节角度信息、控制关节舵机转动指定角度以及传输舵机反馈的角度信息。通信模块用于实现硬件系统内部通信、以及硬件系统与上位机间的通信。关节舵机设置在蛇形机器人的每个关节处,用于实现蛇形机器人的关节动作。
本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法主要包括两个步骤:
(1)在仿真平台采用迭代牛顿-欧拉的数值方法搭建准确水下蛇形机器人环境,设定回报函数、策略网络和值函数网络的学习率、批处理个数、折扣因子以及每次试验采集数据的上限个数,利用近端策略优化的强化学习算法训练得到一种高速运动步态的策略网络,并将策略网络得到的权重采用正弦函数拟合的方式转换为蛇形机器人运动步态的参数α、ω、β、γ。
(2)上位机设定前面函数拟合得到的运动步态参数,利用通信模块1将参数传输至头部单片机,主控单元计算出每个模块所需数据,并通过通信模块2传输至关节控制器,经过处理后的信号用于控制舵机,最终实现蛇形机器人的高速步态运动,并将舵机实际偏转角度以及摄像头拍摄到蛇形机器人运动轨迹传输至上位机显示。
本发明的基于近端策略优化的水下蛇形机器人高速步态生成方法,具体包括如下步骤:
1)搭建强化学习的训练环境,包括reset()函数、step()函数;其中所述的:
(1.1).reset()函数:初始化状态,采样产生数据时每次试验的起始状态,采用随机初始化的方式,增加在初始位置的探索率;
(1.2).step()函数:用于得到马尔科夫决策过程,首先是采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型,然后设置状态空间、动作空间和回报函数,其中,
(1.2.1)所述的采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型,包括:
如图3所示,水下蛇形机器人是由N+1个连杆和N个关节组成,ρ是水的流体密度,连杆的附加质量ma=Caρπr2l,连杆的附加力矩惯量连杆的转动惯量其中,Ca为附加质量系数,l是单个连杆长度,r是模块横截面半径,m是单个连杆质量;
附加质量矩阵附加力矩惯量矩阵对应的形状阻力和粘滞阻力的系数矩阵Cf和Cd分别表示切向和法向阻力系数;旋量变换矩阵惯量矩阵其中,为一个3×3的旋转矩阵,表示关节坐标系∑i-1相对于关节坐标系∑i的表示;为一个的平移矩阵,表示关节坐标系∑i的原点相对于关节坐标系∑i-1的位置;为关节坐标系∑i的原点相对于关节坐标系∑i-1中坐标的叉乘矩阵;I3为3×3的单位矩阵;Mi为第i个连杆的质量;Si表示第i个关节到第i个连杆质心的向量;表示第i个关节在第i个关节坐标系∑i中坐标的叉乘矩阵;
水下蛇形机器人在水下所受到的水动力包括附加质量力和水阻力,在第i个连杆的关节坐标系∑i下,施加在第i个连杆上的水阻力由线性阻力和非线性阻力构成,为:
在第i个连杆的坐标系∑i下,施加在第i个连杆上的附加质量力为:
作用在第i个连杆上的线性阻力矩和非线性阻力矩为:
作用在第i个连杆上的附加质量力矩为:
相邻的第i-1个关节确定的坐标系∑i-1传递到第i个关节的确定的坐标系∑i速度表示为:
相邻的第i-1个关节确定的坐标系∑i-1传递到第i个关节的确定的坐标系∑i的加速度表示为:
根据牛顿欧拉方程,得到第i个关节总的外部力旋量为:
如图4所示,力的平衡方程为:
采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型的实现过程需要依次进行下面三个迭代过程:
Steps2,后向迭代:得到头部加速度,
Steps3:前向迭代,得到每个关节加速度和力矩为
(1.2.2)设置状态空间包括头部连杆在世界坐标系下的角度θ0、关节角头部连杆的角速度关节角速度头部沿x轴方向的速度vx和头部沿y轴方向的速度vy,考虑水下蛇形机器人自身约束,这里将关节角约束条件设定在-0.5π~0.5π区间内;
(1.2.4)设置回报函数:若水下蛇形机器人的关节角在设定的约束范围内,则回报函数为reward=-rv+timebonus,其中参数rv=100vx,参数timebonus=0.01;若关节角超过设定的约束条件,则回报函数为-10。
2)在强化学习的训练环境下实现近端策略优化算法;包括:
近端策略优化算法的网络结构包括一个值函数网络和一个策略网络,值函数网络的输入是状态,输出是状态值函数;策略网络的输入是状态,输出是动作;
近端策略优化算法的目标函数L(θ)为:
其中,θ表示策略网络的网络参数;st为第t时刻的状态;at为第t时刻的动作;πθ(at|st)表示在当前策略网络参数θ下在状态st下动作at的评估;表示在当前参数更新前的策略网络参数θold下在状态st下动作at的评估;为第t步的优势函数;ε表示裁剪系数,设置为0.2;
依据下式对值函数网络进行更新:
其中,ψ为值函数网络的网络参数;T为终止时刻;Rt为第t时刻的立即回报;Vψ为值函数
网络在网络参数为ψ下的值函数;
近端策略优化算法每采样一条轨迹或者多条轨迹达到设定的数据量,值函数网络和策略网络的权值更新一次,权值每更新一次包括以下3步:
(2.1)采样:在步骤2)的基础上,当前的策略网络πθ根据状态st得到用高斯策略表示的动作at~N(μ,σ2;θ),其中,μ为高斯分布的均值;σ为高斯分布的方差;与环境进行交互得到下一个时刻的状态st+1,得到此时刻的立即回报Rt,然后根据下一个时刻的状态st+1,利用当前的策略网络πθ得到下一时刻的动作at+1;重复该采样过程,得到序列数据,构成一条轨迹
(2.2)对值函数网络更新:采用蒙特卡罗的方法估计值函数,得到折扣累计回报:
其中t'为第t'时刻,γ为折扣因子;
再利用均方误差作为值函数网络的损失函数进行更新:
将所述的轨迹τ分为若干个批处理数,对损失函数求梯度:
(2.3)对策略网络更新:即对近端策略优化算法的目标函数L(θ)求梯度:
其中,αθ是策略网络的学习率。
3)将策略网络得到的权值利用正弦函数为基函数去拟合,从而转换为水下蛇形机器人运动步态参数。
为了更好地说明强化学习训练的结果,这里添加了render()函数,用于将图像引擎和物理引擎联系起来,展现水下蛇形机器人的运动状态。
为了验证本发明所提出步态生成方法的优越性,下面以8个关节为例,建立N=8的水下蛇形机器人的数值模型,相关物理量的设置如下,单个模块的长度l=0.18m,半径r=0.0375m,单个模块的质量m=0.816kg,流体相关参数的设置:流体环境密度ρ=1000kg/m3,附加质量系数Ca=1,切向水阻力系数Cf=0.03,法向水阻力系数Cd=2。
近端策略优化算法的值函数网络采用包含两层隐含层的全连接神经网络,神经元个数为200个,隐含层的激活函数为ReLU,输出层不用激活函数;近端策略优化算法的策略网络采用包含两层隐含层的全连接神经网络,神经元个数为400个,隐含层的激活函数为ReLU,输出层的激活函数为tanh。在通过蒙特卡罗采样时每次都采集几个路径的数据,使得采集的数据达到4000组之后,打乱其顺序随机分批训练值函数网络和策略网络。PPO算法的超参数设置如表1.
表1近端策略优化算法的超参数设置
图5a、图5b分别是近端策略优化算法训练完成之后运动40s后30s到40s的蛇形机器人各关节角变化。图6是常见的蜿蜒步态、仿鳗步态和训练生成步态的运动轨迹。在三种不同步态方式下运动40s后,近端策略优化算法生成的步态在x负方向最远可以运动25.55m,仿鳗步态最多可以运动19.68m,蜿蜒步态最多可以运动18.72m,显然,近端策略优化算法自动生成的步态在x方向上运动的距离最远。近端策略优化算法生成的步态,其关节角度变化的频率、幅值等相关参数都是在网格搜索范围内,但是该步态的运动速度比步态搜索得到的速度更快,进一步验证了本专利中的基于近端策略优化算法的步态生成方法的优越性。
Claims (2)
1.一种基于近端策略优化的水下蛇形机器人高速步态生成方法,其特征在于,包括如下步骤:
1)搭建强化学习的训练环境,包括reset()函数、step()函数;其中所述的:
(1.1).reset()函数:初始化状态,采样产生数据时每次试验的起始状态,采用随机初始化的方式,增加在初始位置的探索率;
(1.2).step()函数:用于得到马尔科夫决策过程,首先是采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型,然后设置状态空间、动作空间和回报函数;其中,
(1.2.1)所述的采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型,包括:
水下蛇形机器人是由N+1个连杆和N个关节组成,ρ是水的流体密度,连杆的附加质量ma=Caρπr2l,连杆的附加力矩惯量连杆的转动惯量其中,Ca为附加质量系数,l是单个连杆长度,r是模块横截面半径,m是单个连杆质量;
附加质量矩阵附加力矩惯量矩阵对应的形状阻力和粘滞阻力的系数矩阵Cf和Cd分别表示切向和法向阻力系数;旋量变换矩阵惯量矩阵其中,为一个3×3的旋转矩阵,表示关节坐标系∑i-1相对于关节坐标系∑i的表示;为一个的平移矩阵,表示关节坐标系∑i的原点相对于关节坐标系∑i-1的位置;为关节坐标系∑i的原点相对于关节坐标系∑i-1中坐标的叉乘矩阵;I3为3×3的单位矩阵;Mi为第i个连杆的质量;Si表示第i个关节到第i个连杆质心的向量;表示第i个关节在第i个关节坐标系∑i中坐标的叉乘矩阵;是第i个连杆相对于坐标系∑i的一阶惯量,转动惯量矩阵
水下蛇形机器人在水下所受到的水动力包括附加质量力和水阻力,在第i个连杆的关节坐标系∑i下,施加在第i个连杆上的水阻力由线性阻力和非线性阻力构成,为:
在第i个连杆的坐标系∑i下,施加在第i个连杆上的附加质量力为:
作用在第i个连杆上的线性阻力矩和非线性阻力矩为:
作用在第i个连杆上的附加质量力矩为:
相邻的第i-1个关节确定的坐标系∑i-1传递到第i个关节的确定的坐标系∑i速度表示为:
相邻的第i-1个关节确定的坐标系∑i-1传递到第i个关节的确定的坐标系∑i的加速度表示为:
根据牛顿欧拉方程,得到第i个关节总的外部力旋量为:
力的平衡方程为:
采用迭代牛顿-欧拉的方法建立水下蛇形机器人的动力学模型的实现过程需要依次进行下面三个迭代过程:
Steps2,后向迭代:得到头部加速度,
Steps3:前向迭代,得到每个关节加速度和力矩为
(1.2.2)所述的设置状态空间包括头部连杆在世界坐标系下的角度θ0、关节角头部连杆的角速度关节角速度头部沿x轴方向的速度vx和头部沿y轴方向的速度vy,考虑水下蛇形机器人自身约束,这里将关节角约束条件设定在-0.5π~0.5π区间内;
(1.2.4)所述的设置回报函数:若水下蛇形机器人的关节角在设定的约束范围内,则回报函数为reward=-rv+timebonus,其中参数rv=100vx,参数timebonus=0.01;若关节角超过设定的约束条件,则回报函数为-10;
2)在强化学习的训练环境下实现近端策略优化算法;
3)将策略网络得到的权值利用正弦函数为基函数去拟合,从而转换为水下蛇形机器人运动步态参数。
2.根据权利要求1所述的基于近端策略优化的水下蛇形机器人高速步态生成方法,其特征在于,步骤2)包括:
近端策略优化算法的网络结构包括一个值函数网络和一个策略网络,值函数网络的输入是状态,输出是状态值函数;策略网络的输入是状态,输出是动作;
近端策略优化算法的目标函数L(θ)为:
其中,θ表示策略网络的网络参数;st为第t时刻的状态;at为第t时刻的动作;πθ(at|st)表示在当前策略网络参数θ下在状态st下动作at的评估;表示在当前参数更新前的策略网络参数θold下在状态st下动作at的评估;为第t步的优势函数;ε表示裁剪系数,设置为0.2;
依据下式对值函数网络进行更新:
其中,ψ为值函数网络的网络参数;T为终止时刻;Rt为第t时刻的立即回报;Vψ为值函数网络在网络参数为ψ下的值函数;
近端策略优化算法每采样一条轨迹或者多条轨迹达到设定的数据量,值函数网络和策略网络的权值更新一次,权值每更新一次包括以下3步:
(2.1)采样:在步骤2)的基础上,当前的策略网络πθ根据状态st得到用高斯策略表示的动作at~N(μ,σ2;θ),其中,μ为高斯分布的均值;σ为高斯分布的方差;与环境进行交互得到下一个时刻的状态st+1,得到此时刻的立即回报Rt,然后根据下一个时刻的状态st+1,利用当前的策略网络πθ得到下一时刻的动作at+1;重复该采样过程,得到序列数据,构成一条轨迹
(2.2)对值函数网络更新:采用蒙特卡罗的方法估计值函数,得到折扣累计回报:
其中t'为第t'时刻,γ为折扣因子;
再利用均方误差作为值函数网络的损失函数进行更新:
将所述的轨迹τ分为若干个批处理数,对损失函数求梯度:
(2.3)对策略网络更新:即对近端策略优化算法的目标函数L(θ)求梯度:
其中,αθ是策略网络的学习率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010966202.7A CN112140098B (zh) | 2020-09-15 | 2020-09-15 | 基于近端策略优化的水下蛇形机器人高速步态生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010966202.7A CN112140098B (zh) | 2020-09-15 | 2020-09-15 | 基于近端策略优化的水下蛇形机器人高速步态生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112140098A CN112140098A (zh) | 2020-12-29 |
CN112140098B true CN112140098B (zh) | 2022-06-21 |
Family
ID=73892647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010966202.7A Active CN112140098B (zh) | 2020-09-15 | 2020-09-15 | 基于近端策略优化的水下蛇形机器人高速步态生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112140098B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113084787B (zh) * | 2021-03-29 | 2022-08-30 | 东莞理工学院 | 仿生蛇形机器人运动步态规划方法、系统、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009090406A (ja) * | 2007-10-05 | 2009-04-30 | Kawasaki Heavy Ind Ltd | ロボットのターゲット位置検出装置 |
CN203779496U (zh) * | 2014-03-19 | 2014-08-20 | 苏州大学 | 一种水下蛇形机器人 |
CN106054599A (zh) * | 2016-05-25 | 2016-10-26 | 哈尔滨工程大学 | 一种主从式水下机械臂的延时控制方法 |
CN108710302A (zh) * | 2018-06-20 | 2018-10-26 | 天津大学 | 无源性全方位移动机器人轨迹跟踪自抗扰控制方法 |
CN111251294A (zh) * | 2020-01-14 | 2020-06-09 | 北京航空航天大学 | 一种基于视觉位姿感知和深度强化学习的机器人抓取方法 |
-
2020
- 2020-09-15 CN CN202010966202.7A patent/CN112140098B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009090406A (ja) * | 2007-10-05 | 2009-04-30 | Kawasaki Heavy Ind Ltd | ロボットのターゲット位置検出装置 |
CN203779496U (zh) * | 2014-03-19 | 2014-08-20 | 苏州大学 | 一种水下蛇形机器人 |
CN106054599A (zh) * | 2016-05-25 | 2016-10-26 | 哈尔滨工程大学 | 一种主从式水下机械臂的延时控制方法 |
CN108710302A (zh) * | 2018-06-20 | 2018-10-26 | 天津大学 | 无源性全方位移动机器人轨迹跟踪自抗扰控制方法 |
CN111251294A (zh) * | 2020-01-14 | 2020-06-09 | 北京航空航天大学 | 一种基于视觉位姿感知和深度强化学习的机器人抓取方法 |
Non-Patent Citations (2)
Title |
---|
Curved path following control for planar eel robots;Zhang Anfan, 等;《Robotics and Autonomous Systems》;20181031;第108卷;129-139 * |
基于无源性的全方位移动机器人自抗扰控制;马书根,等;《控制与决策》;20180630;第33卷(第6期);1081-1086 * |
Also Published As
Publication number | Publication date |
---|---|
CN112140098A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108115681B (zh) | 机器人的模仿学习方法、装置、机器人及存储介质 | |
CN112904728B (zh) | 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法 | |
Grzeszczuk et al. | Neuroanimator: Fast neural network emulation and control of physics-based models | |
Miyamoto et al. | A kendama learning robot based on bi-directional theory | |
CN104331547B (zh) | 一种基于可操作性的空间机械臂结构参数优化方法 | |
Wang et al. | Target tracking control of a biomimetic underwater vehicle through deep reinforcement learning | |
CN101520857B (zh) | 一种基于神经网络的永磁球形电动机逆运动学求解方法 | |
Liu et al. | Distance-directed target searching for a deep visual servo sma driven soft robot using reinforcement learning | |
CN107610208B (zh) | 一种颗粒介质环境下动画角色的运动仿真方法 | |
CN112462792A (zh) | 一种基于Actor-Critic算法的水下机器人运动控制方法 | |
CN112140098B (zh) | 基于近端策略优化的水下蛇形机器人高速步态生成方法 | |
Wang et al. | Learn to swim: Online motion control of an underactuated robotic eel based on deep reinforcement learning | |
Zhang et al. | A Redundant fault-tolerant aviation control system based on deep neural network | |
Wochner et al. | Learning with muscles: Benefits for data-efficiency and robustness in anthropomorphic tasks | |
CN114792028A (zh) | 基于物理的高性能仿生水下机器人仿真训练平台构建方法 | |
CN114170454A (zh) | 基于关节分组策略的智能体元动作学习方法 | |
CN114077258A (zh) | 一种基于强化学习ppo2算法的无人艇位姿控制方法 | |
Zhong et al. | A General Kinematic Model of Fish Locomotion Enables Robot Fish to Master Multiple Swimming Motions | |
Hasan et al. | Neural networks’ based inverse kinematics solution for serial robot manipulators passing through singularities | |
Wen et al. | Consensus protocol based attitudes coordination control for Underwater Glider formation | |
Qi et al. | Reinforcement learning control for robot arm grasping based on improved DDPG | |
El-Fakdi et al. | Autonomous underwater vehicle control using reinforcement learning policy search methods | |
CN111158238B (zh) | 一种基于粒子群算法的力反馈设备动力学参数估计算法 | |
Zhou et al. | Intelligent Control of Manipulator Based on Deep Reinforcement Learning | |
CN109719721A (zh) | 一种仿蛇搜救机器人适应性步态自主涌现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |