CN110909859B - 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 - Google Patents

基于对抗结构化控制的仿生机器鱼运动控制方法、系统 Download PDF

Info

Publication number
CN110909859B
CN110909859B CN201911199839.1A CN201911199839A CN110909859B CN 110909859 B CN110909859 B CN 110909859B CN 201911199839 A CN201911199839 A CN 201911199839A CN 110909859 B CN110909859 B CN 110909859B
Authority
CN
China
Prior art keywords
steering engine
control
bionic robot
robot fish
fish
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911199839.1A
Other languages
English (en)
Other versions
CN110909859A (zh
Inventor
吴正兴
喻俊志
闫帅铮
王健
谭民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201911199839.1A priority Critical patent/CN110909859B/zh
Publication of CN110909859A publication Critical patent/CN110909859A/zh
Priority to PCT/CN2020/085045 priority patent/WO2021103392A1/zh
Priority to US17/094,820 priority patent/US10962976B1/en
Application granted granted Critical
Publication of CN110909859B publication Critical patent/CN110909859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B63SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
    • B63CLAUNCHING, HAULING-OUT, OR DRY-DOCKING OF VESSELS; LIFE-SAVING IN WATER; EQUIPMENT FOR DWELLING OR WORKING UNDER WATER; MEANS FOR SALVAGING OR SEARCHING FOR UNDERWATER OBJECTS
    • B63C11/00Equipment for dwelling or working underwater; Means for searching for underwater objects
    • B63C11/52Tools specially adapted for working underwater, not otherwise provided for

Abstract

本发明属于仿生机器人控制领域,具体涉及了一种基于对抗结构化控制的仿生机器鱼运动控制方法、系统,旨在解决现有仿生鱼控制方法训练难度高、运动效率低、鲁棒性差的问题。本发明包括:以运动至目标点的精度与速度为奖励项,以舵机功率和为损失项,构建优化目标函数;优化产生舵机全局控制量的中枢模式发生器模型的参数,固化其参数后优化舵机补偿控制模型的参数;迭代进行模型的参数优化;通过训练好的模型获取仿生机器鱼全局控制和补偿控制信号,并将两组输出信号的线性组合作为机器鱼舵机的控制信号,实现机器鱼的运动控制。本发明结合全局控制信号与局部补偿控制信号,进行模型对抗训练,训练难度低,仿生机器鱼运动精确、能耗低。

Description

基于对抗结构化控制的仿生机器鱼运动控制方法、系统
技术领域
本发明属于仿生机器人控制领域,具体涉及了一种基于对抗结构化控制的仿生机器鱼运动控制方法、系统。
背景技术
仿生机器鱼作为一种典型的水下机器人,在科普教育、水文监测、生物运动分析等诸多领域发挥着愈发重要的作用。其中,良好的运动控制能够帮助机器鱼实现水下快速、稳定与节能的游动,更好地完成复杂任务。因此,近年来针对仿生机器鱼的运动优化方法的研究成果层出不穷。
在研究初期,通常针对机器鱼仿生对象的差异建立不同动力学模型来提高机器鱼游动性能,如基于Kane方法的机器鱼波状游动动力学建模[1]等,为机器鱼运动控制研究提供重要理论支撑;利用广义循环神经网络辨识机器鱼游动控制的强非线性关系,并依据此关系对机器鱼稳速直游进行运动优化[2];利用粒子群算法优化中枢模式发生器(CPG,Central Pattern Generator)参数的方法来提高仿生机器鱼正游、倒游游速与稳定性[3]。
除此之外,日趋火热的深度强化学习(DRL,Deep Reinforcement Learning)方法为高维连续控制下的多目标优化问题提供了较好的算法方案,但其应用于真实世界机器人的可行性和准确性备受质疑,仍有待进一步的研究。在DRL算法的实际应用中,Levine等人建立了一个手眼机器人训练的大规模数据采集的案例[4];Ebert等人采用基于自监督模型的方法来教机械臂学习新技能[5];Pong等人将基于模型和非模型的训练方法相结合,提出了学习效率高、性能稳定的时域差分模型[6];Srouji等人研究了利用结构化控制网络提高归纳偏差来提高真实机器人训练中的采样效率[7]。但是对于专注于高机动性运动机制研究的仿生机器鱼来说,数据量缺乏、视觉反馈实时性低以及计算资源的限制使得这些大规模数据采集方法无法充分发挥其优势。同时,利用神经网络训练非线性控制系统的难度较大,实际应用中鲁棒性较差。因此,仿生机器鱼的实际运动控制大多采用传统控制或简单智能控制,如比例-积分-微分控制器(PID)、反步滑膜控制、模糊控制等。
总的来说,现有技术直接采用深度强化学习方法学习仿生机器鱼的非线性控制律,由于数据量缺乏、视觉反馈实时性低以及计算资源的限制,训练难度高,而传统方法中仿生鱼采用的运动控制或简单智能控制,运动效率低、鲁棒性差。
以下文献是与本发明相关的技术背景资料:
[1]夏丹、陈维山、刘军考、韩路辉,基于Kane方法的仿鱼机器人波状游动的动力学建模,机械工程学报,20090615.
[2]郭顺利、朱其新、谢广明,基于GRNN的机器鱼直游稳态速度建模,兵工自动化期刊,20101115.
[3]汪明、喻俊志、谭民,胸鳍推进型机器鱼的CPG控制及实现,机器人期刊,20100315.
[4]Levine S,Pastor P,Krizhevsky A,Ibarz J,Quillen D.Learning hand-eyecoordination for robotic grasping with deep learning and large-scale datacollection[J].The International Journal of Robotics Research,2018,37(4-5):421-436.
[5]Ebert F,Finn C,Lee A X,Levine S.Self-supervised visual planningwith temporal skip connections[J].arXiv preprint arXiv:1710.05268,2017.
[6]Pong V,Gu S,Dalal M,Levine S.Temporal difference models:Model-freedeep rl for model-based control[J].arXiv preprint arXiv:1802.09081,2018.
[7]Srouji M,Zhang J,Salakhutdinov R.Structured control nets for deepreinforcement learning[J].arXiv preprint arXiv:1802.08311,2018.
发明内容
为了解决现有技术中的上述问题,即现有仿生鱼控制方法训练难度高、运动效率低、鲁棒性差的问题,本发明提供了一种基于对抗结构化控制的仿生机器鱼运动控制方法,该仿生机器鱼运动控制方法包括:
步骤S10,获取仿生机器鱼游动路径,并将所述游动路径划分为顺次连接的基本子路径集合;
步骤S20,顺次基于所述子路径集合中每一个子路径的起点与终点,通过训练好的舵机全局控制模型,获取t时刻仿生机器鱼各舵机全局控制量;
步骤S30,基于获取的t时刻仿生机器鱼位姿信息、t时刻仿生机器鱼各舵机全局控制量,通过训练好的舵机补偿控制模型,获取t时刻仿生机器鱼各舵机补偿控制量;
步骤S40,对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机补偿控制量求和,获取t+1时刻仿生机器鱼各舵机控制量,并通过所述t+1时刻仿生机器鱼各舵机控制量进行t+1时刻仿生机器鱼运动控制;
步骤S50,令t=t+1,跳转步骤S20,直至所述仿生机器鱼到达所述游动路径终点。
在一些优选的实施例中,所述舵机全局控制模型、舵机补偿控制模型分别包括一一对应的针对不同类型子路径构建的舵机全局控制子模型与舵机补偿控制子模型对的集合。
在一些优选的实施例中,所述舵机全局控制子模型与舵机补偿控制子模型对分别基于CPG模型、DDPG网络构建,并通过迭代对抗方法进行训练,其训练方法为:
步骤B10,构建所述舵机全局控制子模型与舵机补偿控制子模型对的优化目标函数;
步骤B20,通过ES算法按照预设第一梯度函数梯度下降方向进行舵机全局控制子模型的参数优化,直至所述优化目标函数的值不再增加或增加值低于设定第一阈值,获得第一舵机全局控制子模型;
步骤B30,基于所述第一舵机全局控制子模型的参数,按照预设第二梯度函数梯度下降方向进行舵机补偿控制子模型中动作策略网络与动作价值网络的参数优化,直至所述优化目标函数的值不再增加或增加值低于设定第一阈值,获得第一舵机补偿控制子模型;
步骤B40,基于所述第一舵机补偿控制子模型的参数,跳转步骤B20,迭代进行舵机全局控制子模型、舵机补偿控制子模型的参数优化,直至所述优化目标函数的值不再增加或增加值低于设定第一阈值,获得训练好的舵机全局控制子模型与舵机补偿控制子模型。
在一些优选的实施例中,所述目标函数为:
Figure BDA0002295588310000041
其中,ψ表示通过目标函数优化的对象,即CPG模型参数、DDPG网络参数;θe表示仿生机器鱼与目标点偏航角度,θe∈(-π,π]为其设定范围;
Figure BDA0002295588310000042
表示仿生机器鱼在世界参考系下的速度矢量;/>
Figure BDA0002295588310000043
表示该速度矢量的模,v0是为保证能耗优化效果预先设定的速度上限;
Figure BDA0002295588310000044
分别表示仿生机器鱼舵机的力矩矢量、角速度矢量;β为正值,表示奖励与损耗之间的相关系数。
在一些优选的实施例中,所述第一梯度函数为:
Figure BDA0002295588310000051
其中,F(·)代表优化目标函数,θ代表CPG模型参数,σ表示参数扰动的步长,ε表示参数扰动的梯度方向,
Figure BDA0002295588310000052
代表仿生机器鱼在向n个从标准正态分布采样得到梯度方向更新后的θ控制下运动得到的优化目标函数的数学期望。
在一些优选的实施例中,所述第二梯度函数为:
Figure BDA0002295588310000053
其中,Q(s,a|θQ)表示动作状态价值函数,μ(s|θμ)表示动作策略函数,N代表批处理更新方法中样本的个数,i代表从经验池中采样得到的第i个样本,a代表控制量,si代表第i个样本的状态,J代表动作策略网络的目标函数,
Figure BDA0002295588310000057
代表动作策略网络对网络内参数的梯度。
在一些优选的实施例中,步骤S40中“对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机控制量的调整量求和”,其方法为:
Figure BDA0002295588310000054
其中,at表示仿生机器鱼舵机控制信号,st
Figure BDA0002295588310000055
分别表示t时刻仿生机器鱼的状态与期望状态,/>
Figure BDA0002295588310000056
分别表示与仿生机器鱼状态相关的舵机全局控制量和舵机补偿控制量。
本发明的另一方面,提出了一种基于对抗结构化控制的仿生机器鱼运动控制系统,该仿生机器鱼运动控制系统包括路径获取模块、舵机全局控制模块、舵机补偿控制模块、舵机控制量获取模块、运动控制模块;
所述路径获取模块,配置为获取仿生机器鱼游动路径,并将所述游动路径划分为顺次连接的基本子路径集合;
所述舵机全局控制模块,配置为顺次基于所述子路径集合中每一个子路径的起点与终点,通过训练好的舵机全局控制模型,获取t时刻仿生机器鱼各舵机全局控制量;
所述舵机补偿控制模块,配置为基于获取的t时刻仿生机器鱼位姿信息、t时刻仿生机器鱼各舵机全局控制量,通过训练好的舵机补偿控制模型,获取t时刻仿生机器鱼各舵机补偿控制量;
所述舵机控制量获取模块,配置为对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机补偿控制量求和,获取t+1时刻仿生机器鱼各舵机控制量;
所述运动控制模块,配置为通过所述t+1时刻仿生机器鱼各舵机控制量进行t+1时刻仿生机器鱼运动控制。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于对抗结构化控制的仿生机器鱼运动控制方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于对抗结构化控制的仿生机器鱼运动控制方法。
本发明的有益效果:
(1)本发明基于对抗结构化控制的仿生机器鱼运动控制方法,结合鱼类周期性运动的先验知识,通过进化策略(ES,Evolutionary Strategy)优化CPG模型产生的节律信号作为机器鱼的基准控制信号,结合利用深度强化学习算法学习在基准控制信号附近的补偿控制信号来进行仿生机器鱼的共同控制,生成的控制律符合鱼体波的类正弦信号,从而保证了机器鱼游动的高效率,并且相较于直接用深度强化学习复杂的非线性控制律,训练优化CPG模型涉及的参数较少,降低了优化训练的难度。
(2)本发明基于对抗结构化控制的仿生机器鱼运动控制方法,针对节能式运动优化任务提出了相应的目标函数来实现机器鱼完成运动目标的同时降低运动损耗的复杂要求;又通过对抗式训练方法来改善传统启发式优化算法易陷入局部最优值的缺陷,进一步提高机器鱼的运动效率与鲁棒性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于对抗结构化控制的仿生机器鱼运动控制方法的流程示意图;
图2是本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的算法结构示意图;
图3是本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的Mujoco机器鱼仿真训练示意图;
图4是本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的真实机器鱼数值仿真训练示意图;
图5是本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的对一组较差初始状态优化后的真实四连杆仿生机器鱼的直游示例图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的一种基于对抗结构化控制的仿生机器鱼运动控制方法,该仿生机器鱼运动控制方法包括:
步骤S10,获取仿生机器鱼游动路径,并将所述游动路径划分为顺次连接的基本子路径集合;
步骤S20,顺次基于所述子路径集合中每一个子路径的起点与终点,通过训练好的舵机全局控制模型,获取t时刻仿生机器鱼各舵机全局控制量;
步骤S30,基于获取的t时刻仿生机器鱼位姿信息、t时刻仿生机器鱼各舵机全局控制量,通过训练好的舵机补偿控制模型,获取t时刻仿生机器鱼各舵机补偿控制量;
步骤S40,对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机补偿控制量求和,获取t+1时刻仿生机器鱼各舵机控制量,并通过所述t+1时刻仿生机器鱼各舵机控制量进行t+1时刻仿生机器鱼运动控制;
步骤S50,令t=t+1,跳转步骤S20,直至所述仿生机器鱼到达所述游动路径终点。
为了更清晰地对本发明基于对抗结构化控制的仿生机器鱼运动控制方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。
本发明一种实施例的基于对抗结构化控制的仿生机器鱼运动控制方法,包括步骤S10-步骤S50,各步骤详细描述如下:
步骤S10,获取仿生机器鱼游动路径,并将所述游动路径划分为顺次连接的基本子路径集合。
如图1所示,为本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的算法结构示意图,仿生机器鱼最终的控制信号分别由全局基准控制和局部补偿控制产生。全局基准控制就是一个经过参数优化的CPG模型,负责生成节律性信号作为全局基准控制信号;局部补偿控制是通过DDPG训练得到的一个实时性系统,输入为仿生机器鱼的实时位姿信息,输出为与基于位置控制的舵机个数相同的补偿控制量。在全局基准信号的控制下,仿生机器鱼产生一个全局性的运动趋势,而补偿信号在基准信号的基础上帮助机器鱼根据当前状态进行微调,从而校准路径,提高运动精度并降低运动损耗。
仿生机器鱼的整个游动任务可以划分为一个个相对简单的子任务,每个子任务对应一种简单的游动路径,比如左拐、右拐、直行等等。相邻子任务间,上一个路径的终止点与下一个路径的起始点为同一点。通过简单的游动路径的各种组合,最终实现仿生机器鱼的复杂游动任务的运动控制。
步骤S20,顺次基于所述子路径集合中每一个子路径的起点与终点,通过训练好的舵机全局控制模型,获取t时刻仿生机器鱼各舵机全局控制量。
步骤S30,基于获取的t时刻仿生机器鱼位姿信息、t时刻仿生机器鱼各舵机全局控制量,通过训练好的舵机补偿控制模型,获取t时刻仿生机器鱼各舵机补偿控制量。
舵机全局控制模型、舵机补偿控制模型分别包括一一对应的针对不同类型子路径构建的舵机全局控制子模型与舵机补偿控制子模型对的集合。
舵机全局控制子模型与舵机补偿控制子模型对分别基于CPG模型、DDPG网络构建,并通过迭代对抗方法进行训练,其训练方法为:
步骤B10,构建所述舵机全局控制子模型与舵机补偿控制子模型对的优化目标函数,如式(1)所示:
Figure BDA0002295588310000101
其中,ψ表示通过目标函数优化的对象,即CPG模型参数、DDPG网络参数;θe表示仿生机器鱼与目标点偏航角度,θe∈(-π,π]为其设定范围;
Figure BDA0002295588310000102
表示仿生机器鱼在世界参考系下的速度矢量;/>
Figure BDA0002295588310000103
表示该速度矢量的模,v0是为保证能耗优化效果预先设定的速度上限;
Figure BDA0002295588310000104
分别表示仿生机器鱼舵机的力矩矢量、角速度矢量;β为正值,表示奖励与损耗之间的相关系数。
本发明提出的运动优化方法分别针对了两个不同的模型,为了保证优化效果的一致性,提出的优化目标函数具有泛化性。
步骤B20,通过ES算法按照预设第一梯度函数梯度下降方向进行舵机全局控制子模型的参数优化,直至所述优化目标函数的值不再增加或增加值低于设定第一阈值,获得第一舵机全局控制子模型。
通常来说,生物CPG是位于脊髓的专用神经网络,它有能力产生协调的节律活动模式,如呼吸、咀嚼或行走时的腿部运动。特别地,CPG模型可以在没有任何来自反馈或更高控制中心的输入的情况下产生节律信号。基于CPG模型的控制被广泛用于生成各种机器鱼的游动策略。与传统的鱼体波拟合方法相比,CPG模型作为在线步态发生器,简单地改变输出信号的特征,即使参数突然改变,也能保持平稳连续。因此,本发明的全局基准控制也采用基于CPG模型构建的舵机全局控制模型产生机器鱼全局控制信号。
训练阶段,本发明以全局基准控制作为初始优化对象,利用ES算法对CPG模型的参数进行优化。采用强化学习中ES算法通过生成镜像随机梯度的方法扰动CPG模型中的参数,控制机器鱼在环境中运动并得到大小不同的奖励反馈,最后根据奖励排序按不同权重更新CPG模型参数,其第一梯度函数如式(2)所示:
Figure BDA0002295588310000111
其中,F(·)代表优化目标函数,θ代表CPG模型参数,σ表示参数扰动的步长,ε表示参数扰动的梯度方向,
Figure BDA0002295588310000112
代表仿生机器鱼在向n个从标准正态分布采样得到梯度方向更新后的θ控制下运动得到的优化目标函数的数学期望。
对于每段子路径Li,根据机器鱼初始位姿
Figure BDA0002295588310000114
与目标点Pi关系,经验性给定一组训练初值,训练至目标函数得分收敛,记录训练最优结果对应的CPG模型参数与机器鱼终止位姿/>
Figure BDA0002295588310000113
如图3所示,为本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的Mujoco机器鱼仿真训练示意图,图3左图、图3右图分别是ES算法对一个较差和较好的初始CPG模型参数优化数值仿真图,短线段曲线Train score代表优化目标函数值在不同训练回合下的变化,点曲线Joint power(W)代表每个episode内单位时间的功率总和在不同训练回合下的变化,连续曲线Speed(×1000)代表直游任务中机器鱼的头部线速度在不同训练回合下的变化,横坐标round代表训练回合数,纵坐标value代表优化目标函数值,无论CPG初始参数的优劣,ES算法都能有效地进行优化,其中,机器鱼游动过程中的能量损耗由于游动路径与姿态的优化呈现明显的下降。
步骤B30,基于所述第一舵机全局控制子模型的参数,按照预设第二梯度函数梯度下降方向进行舵机补偿控制子模型中动作策略网络与动作价值网络的参数优化,直至所述优化目标函数的值不再增加或增加值低于设定第一阈值,获得第一舵机补偿控制子模型。
在全局基准控制经过第一轮优化后,本发明方法锁定模块输出的全局基准控制信号,即固定CPG模型参数,然后转换训练对象,更新DDPG中动作策略网络与动作价值网络的参数,其第二梯度函数如式(3)所示:
Figure BDA0002295588310000121
其中,Q(s,a|θQ)表示动作状态价值函数,μ(s|θμ)表示动作策略函数,N代表批处理更新方法中样本的个数,i代表从经验池中采样得到的第i个样本,a代表控制量,si代表第i个样本的状态,J代表动作策略网络的目标函数,
Figure BDA0002295588310000122
代表动作策略网络对网络内参数的梯度。
本发明提出运用DDPG算法产生实时控制的局部补偿控制信号,主要源于残差神经网络的核心思想:在已取得较优结果的控制信号上训练其残差的补偿控制信号,其最差的结果只是残差控制网络输出为零,等价于仅通过全局基准控制信号控制机器鱼的运动。因此,本发明设定DDPG动作策略网络的权重与偏置均为0,同时根据机器鱼搭载舵机的单位时间最大转角θmax的限制,本发明方法设置动作策略网络输出如式(4)所示:
Figure BDA0002295588310000123
其中,at代表每个时刻局部补偿控制的输出动作信号,
Figure BDA0002295588310000131
表示动作策略网络输出层的输出,非线性激活函数tanh将输出范围限制在[-1,1],K代表根据θmax设置的补偿信号微调量的上限值。
本发明方法设计的动作策略网络包括两个隐藏层,每层包含64个节点。输入状态维度与多连杆机器鱼的实际舵机数量有关,其物理含义主要有:当前位置与目标点Pi的距离、当前位置与目标点Pi的偏差角、当前航向角、各舵机旋转角度、各舵机旋转角速度。动作价值网络同样设置了两层隐藏层,每层包含节点64个。其中状态和动作采用向量拼接的方式共同组成价值网络的输入,价值网络的输出即为动作状态价值函数Qπ(s,a)。
训练阶段,DDPG与ES采用同样的优化目标函数,但是ES采用蒙特·卡洛方法,将一段Episode的总奖励作为反馈得分;DDPG采用时间差分方法,每一步运动都对网络参数进行更新。当最终目标函数得分收敛时停止DDPG的训练。
步骤B40,基于所述第一舵机补偿控制子模型的参数,跳转步骤B20,迭代进行舵机全局控制子模型、舵机补偿控制子模型的参数优化,直至所述优化目标函数的值不再增加或增加值低于设定第一阈值,获得训练好的舵机全局控制子模型与舵机补偿控制子模型。
本发明方法在对抗结构化控制的训练中,除了训练得到初始的全局基准控制外,后续通过ES算法更新CPG模型参数同样要求固定DDPG网络参数再进行优化。本发明方法提出的这种对抗式的训练方法能够有效的避免CPG模型参数和DDPG网络参数在优化过程中陷入局部最优值的情况。如图4所示,为本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的真实机器鱼数值仿真训练示意图,灰色曲线Cost Curve代表优化目标函数中损耗项在不同对抗训练回合下的变化,黑色曲线Reward Curve代表优化目标函数中奖励项在不同对抗训练回合下的变化,1st ES、2nd ES、3rd ES分别代表第一次、第二次、第三次通过进化策略算法更新CPG模型参数,1st RL、2nd RL、3rd RL分别代表第一次、第二次、第三次更新DDPG模型参数,横坐标round代表对抗训练回合数,纵坐标value代表优化目标函数值,每一轮经过ES算法优化收敛的基准控制叠加上补偿控制后,目标函数得分再次提升。在本发明一个实施例中,经过三轮对抗训练后目标函数得分已趋于稳定,不再提升。同时,如图4中阴影部分展示,给定不同的初始条件,本发明方法都能为仿生机器鱼带来明显的运动优化效果,并获得较高的任务完成度。
步骤S40,对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机补偿控制量求和,获取t+1时刻仿生机器鱼各舵机控制量,并通过所述t+1时刻仿生机器鱼各舵机控制量进行t+1时刻仿生机器鱼运动控制。
基于传统控制理论提出的控制算法如PID、自抗扰控制技术(ADRC,ActiveDisturbance Rejection Control)等在解决仿生机器鱼路径跟踪问题时,通常只能注重降低跟踪误差的单一目的。通过理论推导的方法求解高性能、低功耗相结合的控制律是非常困难的。因此,本发明方法将求解控制律的问题转化为目标优化问题,从而实现兼顾高跟踪精度与低功耗的任务要求。直观地,根据仿生机器鱼节律性运动的先验知识,我们将基准控制信号设定为经过优化的节律信号。因此,全局基准控制被设计为利用ES优化CPG模型参数,而补偿控制被设计为通过DDPG算法进一步优化与稳定基准控制的局部运动,两个信号线性组合为最终的控制律,如式(5)所示:
Figure BDA0002295588310000141
其中,at表示仿生机器鱼舵机控制信号,st
Figure BDA0002295588310000142
分别表示t时刻仿生机器鱼的状态与期望状态,/>
Figure BDA0002295588310000143
分别表示与仿生机器鱼状态相关的舵机全局控制量和舵机补偿控制量。
步骤S50,令t=t+1,跳转步骤S20,直至所述仿生机器鱼到达所述游动路径终点。
如图5所示,为本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的对一组较差初始状态优化后的真实四连杆仿生机器鱼的直游示例图,从图5(a)可以看出,实验开始时,机器鱼静止于水中,然后以一个较差的游动姿态实现直游任务。图5(b)展示出虽然机器鱼仅在基于CPG模型的控制下完成了直游目标,但机器鱼摆动幅度非常大,全局视觉系统记录的路径呈现锯齿状波动。因此,该运动姿态带来的水阻力非常大,运动效率很低,同时仿生机器鱼的游动速度较低,而能量损耗非常高。图5(c)、(d)展示的是采用本发明方法优化后的机器鱼直游运动路径,直观上可以看出全局视觉系统记录的路径近乎一条直线,波动极小。我们也可以看出在保证速度不降低甚至提升的要求下,能量也得到了很好的保存。
本发明第二实施例的基于对抗结构化控制的仿生机器鱼运动控制系统,该仿生机器鱼运动控制系统包括路径获取模块、舵机全局控制模块、舵机补偿控制模块、舵机控制量获取模块、运动控制模块;
所述路径获取模块,配置为获取仿生机器鱼游动路径,并将所述游动路径划分为顺次连接的基本子路径集合;
所述舵机全局控制模块,配置为顺次基于所述子路径集合中每一个子路径的起点与终点,通过训练好的舵机全局控制模型,获取t时刻仿生机器鱼各舵机全局控制量;
所述舵机补偿控制模块,配置为基于获取的t时刻仿生机器鱼位姿信息、t时刻仿生机器鱼各舵机全局控制量,通过训练好的舵机补偿控制模型,获取t时刻仿生机器鱼各舵机补偿控制量;
所述舵机控制量获取模块,配置为对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机补偿控制量求和,获取t+1时刻仿生机器鱼各舵机控制量;
所述运动控制模块,配置为通过所述t+1时刻仿生机器鱼各舵机控制量进行t+1时刻仿生机器鱼运动控制。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于对抗结构化控制的仿生机器鱼运动控制系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于对抗结构化控制的仿生机器鱼运动控制方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于对抗结构化控制的仿生机器鱼运动控制方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (7)

1.一种基于对抗结构化控制的仿生机器鱼运动控制方法,其特征在于,该仿生机器鱼运动控制方法包括:
步骤S10,获取仿生机器鱼游动路径,并将所述游动路径划分为顺次连接的基本子路径集合;
步骤S20,顺次基于所述子路径集合中每一个子路径的起点与终点,通过训练好的舵机全局控制模型,获取t时刻仿生机器鱼各舵机全局控制量;
步骤S30,基于获取的t时刻仿生机器鱼位姿信息、t时刻仿生机器鱼各舵机全局控制量,通过训练好的舵机补偿控制模型,获取t时刻仿生机器鱼各舵机补偿控制量;
步骤S40,对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机补偿控制量求和,获取t+1时刻仿生机器鱼各舵机控制量,并通过所述t+1时刻仿生机器鱼各舵机控制量进行t+1时刻仿生机器鱼运动控制;
步骤S50,令t=t+1,跳转步骤S20,直至所述仿生机器鱼到达所述游动路径终点;
其中,所述舵机全局控制模型、舵机补偿控制模型分别包括一一对应的针对不同类型子路径构建的舵机全局控制子模型与舵机补偿控制子模型对的集合,所述舵机全局控制子模型与舵机补偿控制子模型对分别基于CPG模型、DDPG网络构建,并通过迭代对抗方法进行训练,其训练方法为:
步骤B10,构建所述舵机全局控制子模型与舵机补偿控制子模型对的优化目标函数:
Figure FDA0003979483380000021
其中,ψ表示通过目标函数优化的对象,即CPG模型参数、DDPG网络参数;θe表示仿生机器鱼与目标点偏航角度,θe∈(-π,π]为其设定范围;
Figure FDA0003979483380000022
表示仿生机器鱼在世界参考系下的速度矢量;
Figure FDA0003979483380000023
表示该速度矢量的模,v0是为保证能耗优化效果预先设定的速度上限;
Figure FDA0003979483380000024
分别表示仿生机器鱼舵机的力矩矢量、角速度矢量;β为正值,表示奖励与损耗之间的相关系数;
步骤B20,通过ES算法按照预设第一梯度函数梯度下降方向进行舵机全局控制子模型的参数优化,直至所述优化目标函数的值不再增加或增加值低于设定第一阈值,获得第一舵机全局控制子模型;
步骤B30,基于所述第一舵机全局控制子模型的参数,按照预设第二梯度函数梯度下降方向进行舵机补偿控制子模型中动作策略网络与动作价值网络的参数优化,直至所述优化目标函数的值不再增加或增加值低于设定第一阈值,获得第一舵机补偿控制子模型;
步骤B40,基于所述第一舵机补偿控制子模型的参数,跳转步骤B20,迭代进行舵机全局控制子模型、舵机补偿控制子模型的参数优化,直至所述优化目标函数的值不再增加或增加值低于设定第一阈值,获得训练好的舵机全局控制子模型与舵机补偿控制子模型。
2.根据权利要求1所述的基于对抗结构化控制的仿生机器鱼运动控制方法,其特征在于,所述第一梯度函数为:
Figure FDA0003979483380000025
其中,F(·)代表优化目标函数,θ代表CPG模型参数,σ表示参数扰动的步长,ε表示参数扰动的梯度方向,
Figure FDA0003979483380000026
代表仿生机器鱼在向n个从标准正态分布采样得到梯度方向更新后的θ控制下运动得到的优化目标函数的数学期望。
3.根据权利要求1所述的基于对抗结构化控制的仿生机器鱼运动控制方法,其特征在于,所述第二梯度函数为:
Figure FDA0003979483380000031
其中,Q(s,a|θQ)表示动作状态价值函数,μ(s|θμ)表示动作策略函数,N代表批处理更新方法中样本的个数,i代表从经验池中采样得到的第i个样本,a代表控制量,si代表第i个样本的状态,J代表动作策略网络的目标函数,
Figure FDA0003979483380000032
代表动作策略网络对网络内参数的梯度。
4.根据权利要求1所述的基于对抗结构化控制的仿生机器鱼运动控制方法,其特征在于,步骤S40中“对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机控制量的调整量求和”,其方法为:
Figure FDA0003979483380000033
其中,at表示仿生机器鱼舵机控制信号,st
Figure FDA0003979483380000034
分别表示t时刻仿生机器鱼的状态与期望状态,
Figure FDA0003979483380000035
分别表示与仿生机器鱼状态相关的舵机全局控制量和舵机补偿控制量。
5.一种基于对抗结构化控制的仿生机器鱼运动控制系统,其特征在于,该仿生机器鱼运动控制系统包括路径获取模块、舵机全局控制模块、舵机补偿控制模块、舵机控制量获取模块、运动控制模块;
所述路径获取模块,配置为获取仿生机器鱼游动路径,并将所述游动路径划分为顺次连接的基本子路径集合;
所述舵机全局控制模块,配置为顺次基于所述子路径集合中每一个子路径的起点与终点,通过训练好的舵机全局控制模型,获取t时刻仿生机器鱼各舵机全局控制量;
所述舵机补偿控制模块,配置为基于获取的t时刻仿生机器鱼位姿信息、t时刻仿生机器鱼各舵机全局控制量,通过训练好的舵机补偿控制模型,获取t时刻仿生机器鱼各舵机补偿控制量;
所述舵机控制量获取模块,配置为对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机补偿控制量求和,获取t+1时刻仿生机器鱼各舵机控制量;
所述运动控制模块,配置为通过所述t+1时刻仿生机器鱼各舵机控制量进行t+1时刻仿生机器鱼运动控制;
其中,所述舵机全局控制模型、舵机补偿控制模型分别包括一一对应的针对不同类型子路径构建的舵机全局控制子模型与舵机补偿控制子模型对的集合,所述舵机全局控制子模型与舵机补偿控制子模型对分别基于CPG模型、DDPG网络构建,并通过迭代对抗方法进行训练,其训练方法为:
步骤B10,构建所述舵机全局控制子模型与舵机补偿控制子模型对的优化目标函数:
Figure FDA0003979483380000041
其中,ψ表示通过目标函数优化的对象,即CPG模型参数、DDPG网络参数;θe表示仿生机器鱼与目标点偏航角度,θe∈(-π,π]为其设定范围;
Figure FDA0003979483380000042
表示仿生机器鱼在世界参考系下的速度矢量;
Figure FDA0003979483380000043
表示该速度矢量的模,v0是为保证能耗优化效果预先设定的速度上限;
Figure FDA0003979483380000044
分别表示仿生机器鱼舵机的力矩矢量、角速度矢量;β为正值,表示奖励与损耗之间的相关系数;
步骤B20,通过ES算法按照预设第一梯度函数梯度下降方向进行舵机全局控制子模型的参数优化,直至所述优化目标函数的值不再增加或增加值低于设定第一阈值,获得第一舵机全局控制子模型;
步骤B30,基于所述第一舵机全局控制子模型的参数,按照预设第二梯度函数梯度下降方向进行舵机补偿控制子模型中动作策略网络与动作价值网络的参数优化,直至所述优化目标函数的值不再增加或增加值低于设定第一阈值,获得第一舵机补偿控制子模型;
步骤B40,基于所述第一舵机补偿控制子模型的参数,跳转步骤B20,迭代进行舵机全局控制子模型、舵机补偿控制子模型的参数优化,直至所述优化目标函数的值不再增加或增加值低于设定第一阈值,获得训练好的舵机全局控制子模型与舵机补偿控制子模型。
6.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-4任一项所述的基于对抗结构化控制的仿生机器鱼运动控制方法。
7.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-4任一项所述的基于对抗结构化控制的仿生机器鱼运动控制方法。
CN201911199839.1A 2019-11-29 2019-11-29 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 Active CN110909859B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911199839.1A CN110909859B (zh) 2019-11-29 2019-11-29 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
PCT/CN2020/085045 WO2021103392A1 (zh) 2019-11-29 2020-04-16 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
US17/094,820 US10962976B1 (en) 2019-11-29 2020-11-11 Motion control method and system for biomimetic robotic fish based on adversarial structured control

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911199839.1A CN110909859B (zh) 2019-11-29 2019-11-29 基于对抗结构化控制的仿生机器鱼运动控制方法、系统

Publications (2)

Publication Number Publication Date
CN110909859A CN110909859A (zh) 2020-03-24
CN110909859B true CN110909859B (zh) 2023-03-24

Family

ID=69820684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911199839.1A Active CN110909859B (zh) 2019-11-29 2019-11-29 基于对抗结构化控制的仿生机器鱼运动控制方法、系统

Country Status (2)

Country Link
CN (1) CN110909859B (zh)
WO (1) WO2021103392A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10962976B1 (en) 2019-11-29 2021-03-30 Institute Of Automation, Chinese Academy Of Sciences Motion control method and system for biomimetic robotic fish based on adversarial structured control
CN110909859B (zh) * 2019-11-29 2023-03-24 中国科学院自动化研究所 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
CN111443605B (zh) * 2020-04-01 2021-03-23 西安交通大学 构建仿生波动鳍推进运动控制方程及其参数整定优化方法
CN111666846B (zh) * 2020-05-27 2023-05-30 厦门大学 一种人脸属性识别方法和装置
CN111830832B (zh) * 2020-07-27 2021-08-31 中国科学院自动化研究所 仿生滑翔机器海豚平面路径跟踪方法及系统
CN115390442A (zh) * 2021-01-26 2022-11-25 西湖大学 深度强化学习的仿生机器鱼控制方法、装置及存储介质
CN113095463A (zh) * 2021-03-31 2021-07-09 南开大学 一种基于进化强化学习的机器人对抗方法
CN113753209B (zh) * 2021-08-18 2022-09-06 中国科学院自动化研究所 基于仿生机器鱼的仿生波动控制方法及系统
CN113868115B (zh) * 2021-08-30 2024-04-16 天津大学 基于多目标优化与深度强化学习的游戏软件自动测试方法
CN113561187B (zh) * 2021-09-24 2022-01-11 中国科学院自动化研究所 机器人控制方法、装置、电子设备及存储介质
CN114065663B (zh) * 2021-11-15 2024-04-19 中国海洋大学 一种基于cfd和mlp的仿生鱼水动力预测方法
CN113867156A (zh) * 2021-12-02 2021-12-31 湖南工商大学 融合bp-rbf神经网络的机器鱼路径跟踪方法及装置
CN114216466B (zh) * 2021-12-09 2023-12-29 中国电子科技集团公司第五十四研究所 一种基于动态信任机制的群体智能仿生导航方法
CN114800487B (zh) * 2022-03-14 2024-02-02 中国科学院自动化研究所 基于扰动观测技术的水下机器人作业控制方法
CN115808931B (zh) * 2023-02-07 2023-06-02 中国科学院自动化研究所 水下机器人运动控制方法、装置、系统、设备和存储介质
CN116050304B (zh) * 2023-03-15 2024-03-26 重庆交通大学 一种智能鱼流场模拟控制方法、系统、设备及存储介质
CN116300473B (zh) * 2023-04-14 2023-09-22 清华大学深圳国际研究生院 一种基于cpg模型的软体仿生机器鱼游动优化方法
CN116700015B (zh) * 2023-07-28 2023-10-31 中国科学院自动化研究所 水下航行器主动增稳控制方法及装置
CN117452806B (zh) * 2023-12-18 2024-03-19 广东海洋大学 水下仿生鱼机器人的航向控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN110374804A (zh) * 2019-07-03 2019-10-25 西安交通大学 一种基于深度确定性策略梯度补偿的变桨距控制方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100520049B1 (ko) * 2003-09-05 2005-10-10 학교법인 인하학원 자율이동로봇을 위한 경로계획방법
JP5052013B2 (ja) * 2005-03-17 2012-10-17 ソニー株式会社 ロボット装置及びその制御方法
US8073659B2 (en) * 2007-11-13 2011-12-06 Honeywell International Inc. Decomposition of nonlinear dynamics using multiple model approach and gap metric analysis
CN101916071B (zh) * 2010-08-04 2012-05-02 中国科学院自动化研究所 仿生机器鱼运动的cpg反馈控制方法
CN102320223B (zh) * 2011-05-10 2013-05-08 中国科学院自动化研究所 基于液位传感反馈的两栖仿生机器人运动控制装置
KR20120138295A (ko) * 2011-06-14 2012-12-26 한국과학기술원 로봇물고기의 유영을 위한 제어 방법
KR101317761B1 (ko) * 2011-12-13 2013-10-11 한국과학기술원 안정적인 이족 보행을 위한 수직 방향과 로봇 정면, 측면 방향의 허리 중심과 발의 움직임 생성 방법
CN103558856A (zh) * 2013-11-21 2014-02-05 东南大学 动态环境下服务动机器人导航方法
CN104002948B (zh) * 2014-06-06 2016-04-06 西北工业大学 二自由度仿生机器鱼携带目标的控制方法
CN104142688B (zh) * 2014-08-06 2017-02-15 深圳乐智机器人有限公司 一种水下机器人平台
CN104881045A (zh) * 2015-06-17 2015-09-02 中国科学院自动化研究所 嵌入式视觉引导下仿生机器鱼三维追踪控制方法
CN105437232B (zh) * 2016-01-11 2017-07-04 湖南拓视觉信息技术有限公司 一种控制多关节移动机器人避障的方法及装置
CN109906132B (zh) * 2016-09-15 2022-08-09 谷歌有限责任公司 机器人操纵的深度强化学习
CN110869174B (zh) * 2017-07-10 2023-12-05 海别得公司 用于生成材料处理机器人工具路径的计算机实现的方法和系统
CN107918391A (zh) * 2017-11-17 2018-04-17 上海斐讯数据通信技术有限公司 一种移动机器人导航纠偏方法及装置
CN108549237B (zh) * 2018-05-16 2020-04-28 华南理工大学 基于深度增强学习的预观控制仿人机器人步态规划方法
CN108958241B (zh) * 2018-06-21 2020-09-04 北京极智嘉科技有限公司 机器人路径的控制方法、装置、服务器和存储介质
CN108931988B (zh) * 2018-08-14 2021-04-23 清华大学深圳研究生院 一种基于中枢模式发生器的四足机器人的步态规划方法、中枢模式发生器及机器人
CN109405843B (zh) * 2018-09-21 2020-01-03 北京三快在线科技有限公司 一种路径规划方法及装置和移动设备
CN109605377B (zh) * 2019-01-21 2020-05-22 厦门大学 一种基于强化学习的机器人关节运动控制方法及系统
CN109816315B (zh) * 2019-02-22 2023-07-21 拉扎斯网络科技(上海)有限公司 路径规划方法、装置、电子设备及可读存储介质
CN110286592B (zh) * 2019-06-28 2022-11-01 山东建筑大学 一种基于bp神经网络的机器鱼多模态运动方法及系统
CN110333739B (zh) * 2019-08-21 2020-07-31 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN110488611B (zh) * 2019-09-02 2022-03-11 山东建筑大学 一种仿生机器鱼运动控制方法、控制器及仿生机器鱼
CN110909859B (zh) * 2019-11-29 2023-03-24 中国科学院自动化研究所 基于对抗结构化控制的仿生机器鱼运动控制方法、系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN110374804A (zh) * 2019-07-03 2019-10-25 西安交通大学 一种基于深度确定性策略梯度补偿的变桨距控制方法

Also Published As

Publication number Publication date
WO2021103392A1 (zh) 2021-06-03
CN110909859A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN110909859B (zh) 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
US10962976B1 (en) Motion control method and system for biomimetic robotic fish based on adversarial structured control
CN109176532B (zh) 一种机械臂路径规划方法、系统及装置
Cully et al. Behavioral repertoire learning in robotics
CN110597058A (zh) 一种基于增强学习的三自由度自主水下航行器控制方法
US20160147201A1 (en) Methods and systems for nonlinear adaptive control and filtering
CN112405542B (zh) 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统
CN111783994A (zh) 强化学习的训练方法和装置
Huang et al. Connecting model-based and model-free control with emotion modulation in learning systems
CN114326722B (zh) 六足机器人自适应步态规划方法、系统、装置及介质
Praczyk Using evolutionary neural networks to predict spatial orientation of a ship
CN114037050A (zh) 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法
Pan et al. Learning for depth control of a robotic penguin: A data-driven model predictive control approach
CN111531543A (zh) 基于生物启发式神经网络的机器人自适应阻抗控制方法
Hercus et al. Control of an unmanned aerial vehicle using a neuronal network
CN116663637A (zh) 一种多层级智能体同步嵌套训练方法
CN115755603A (zh) 船舶运动模型参数智能灰箱辨识方法、船舶运动控制方法
CN112621760B (zh) 基于神经元增益基元组合优化的机器人运动控制方法
Brosseit et al. Distilled domain randomization
Vianna et al. Neural Network Based Model Predictive Control for an Autonomous Vehicle
CN114529010A (zh) 一种机器人自主学习方法、装置、设备及存储介质
Zhang et al. Gliding control of underwater gliding snake-like robot based on reinforcement learning
CN113967909A (zh) 基于方向奖励的机械臂智能控制方法
CN110515297B (zh) 基于冗余肌肉骨骼系统的阶段式运动控制方法
Lutfy A wavelet functional link neural network controller trained by a modified sine cosine algorithm using the feedback error learning strategy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant