CN115390442A - 深度强化学习的仿生机器鱼控制方法、装置及存储介质 - Google Patents
深度强化学习的仿生机器鱼控制方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115390442A CN115390442A CN202210507310.7A CN202210507310A CN115390442A CN 115390442 A CN115390442 A CN 115390442A CN 202210507310 A CN202210507310 A CN 202210507310A CN 115390442 A CN115390442 A CN 115390442A
- Authority
- CN
- China
- Prior art keywords
- network
- deep reinforcement
- reinforcement learning
- fish
- bionic robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/80—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
Abstract
本发明提供了一种深度强化学习的仿生机器鱼控制方法、装置及其存储介质,属于仿生机器人控制技术领域。它解决了现有技术中的缺少针对仿生机器鱼的关节游动控制的深度强化学习CPG网络的仿生机器鱼关节运动控制方法等问题。本发明包括S1:通过深度学习构建外层仿生机器鱼信息网,通过与环境的交互给出初步指令;S2:针对初步指令构建内层CPG网络,通过构建基于中枢模式发生器的运动模型给出具体关节运动指令。本发明具有能够复杂水下环境中调节仿生鱼等优点。
Description
技术领域
本发明属于仿生机器人控制技术领域,特别涉及一种深度强化学习的仿生机器鱼控制方法、装置及其存储介质。
背景技术
深度强化学习,主要由深度学习(Deep Learning)与强化学习 (ReinforcementLearning)两部分组成。深度学习的概念最早源于人工神经网络(Artificial NeuralNetwork,ANN)。其模型通常由多层的非线性运算单元组合而成,并将较低层的输出作为更高一层的输入,从而实现从大量训练数据中学习抽象的特征表示,进而发现数据的分布式特征。深度学习理论能够有效挖掘数据的深层次特征,其一个重要分支图神经网络凭借其特性可以有效地打破传统神经网络对处理图像要求的桎梏,成为了当下最值得重视的研究方向之一。而CPG(中央模式发生器)是一种能够产生节奏活动的协调模式,且无需来自感官反馈或上级控制中心的任何节奏输入的神经网络。由于其良好的性能,基于CPG的控件已被广泛用于生成各种游泳模式,例如向前游泳,向后游泳和转动。尽管已有较多CPG模型方法提出,但该类方法较为简单,很难应对复杂水下环境中,此外该类控制方法的智能化程度较低,当前融合深度强化学习的 CPG的仿生机器鱼运动控制研究尚处于起步阶段,缺少针对仿生机器鱼的关节游动控制的深度强化学习CPG网络的仿生机器鱼关节运动控制方法,且很多研究缺少明确的具体实施方案。
发明内容
本发明的目的是针对现有技术中存在的上述问题,提供了一种深度强化学习的仿生机器鱼控制方法、装置及其存储介质。
本发明的第一个目的可通过下列技术方案来实现:一种深度强化学习的仿生机器鱼控制方法,其特征在于,包括以下步骤:
S1:通过深度学习构建外层仿生机器鱼信息网,通过与环境的交互给出初步指令;
S2:针对初步指令构建内层CPG网络,通过构建基于中枢模式发生器的运动模型给出具体关节运动指令;
本发明的工作原理:本发明对在复杂水下环境具有多关节或多自由度的仿生机器鱼关节运动控制有良好的适用性,本发明的方法结深度强化学习网络,提出了融合外层仿生机器鱼信息网与内层CPG网络模型相的仿生机器鱼关节运动共控制方法,利用该方法能够实现仿生机器鱼的智能化自主高效游动控制。
在上述的一种深度强化学习的仿生机器鱼控制方法中,所述的外层仿生机器鱼信息网包含采用协同转换方法处理后的输入信息,所述的输入信息用于生成初步指令的深度强化学习网络以及内层CPG网络传输接口。
在上述的一种深度强化学习的仿生机器鱼控制方法中,所述的协同转换方法包括将仿生机器鱼外部传感器采集的连续4帧图像与深度、距离及两种以上数据相关联并标签化,所述的协同转换方法将多元数据打包为可供深度网络直接处理的结构化数据作为后续深度强化学习网络输入。
在上述的一种深度强化学习的仿生机器鱼控制方法中,所述的深度强化学习网络采用深度强化Q学习网络构建深度网络,通过所述的深度强化Q学习网络良好的处理机制以及与外部环境的良好交互能力生成仿生机器鱼运动的初步指令,所述的深度网络生成初步指令后输入内层CPG网络接口。
在上述的一种深度强化学习的仿生机器鱼控制方法中,所述的深度强化学习网络利用DQN算法构建有深度强化学习框架,将所述的多元数据输入至所述的深度强化学习框架中,所述的深度强化学习框架通过设定目标奖励值生成输入的多元数据的对应Q值,所述的Q值生成公式如式(1)所示:
Q*(s,a)=∑pa(s,s′)(Ra(s,s′)+γmaxa′Q*(s′,a′)) (1)
其中Pa(s,s,)表示从当前状态s转移到下一状态s’的概率,R(s,s')表示当前状态下执行动作后的奖励,为γ衰减系数,maxQ*(s′,a′)表示选择当前最大的 Q值操作,通过深度网络生成Q的估计值,并通过Q值和Q估计值的差距来完成深度网络的参数更新,如式(2):
L(θ)=E((R+γmaxa′(s′,a′,θ)-Q(s,a,θ))2) (2)
其中L(θ)表示损失函数,E表示取期望操作。
在上述的一种深度强化学习的仿生机器鱼控制方法中,所述的内层CPG网络接口能够将所述的初步指令转化并将所述的初步指令传入内层CPG网络实现仿生机器鱼的具体关节运动,所述的仿生机器鱼的具体关节运动模型的生成式如式(3):
其中t为方向控制参数,θ为神经元间相位差,表示第i 个神经元的不同相位,εi,ω表示神经元的振幅与频率,此外,Pu,Pv为扰动项,其中Pv=c2ui+ 1sinθ+c1ui+1cosθ,Pu=c1ui-1cosθ-c2vi-1sinθ,c1,c2为神经元耦合系数,完成CPG模型构建后,将相位输出转化后输入到仿生机器鱼的各关节,如式(4):
Γi=ζivi+Θi (4)
其中Γi表示第i个关节的输入,ζi为关节对应转化系数,由对应的电机决定,Θi为上层网络生成的初步指令系数,最终通过外层深度强化学习网络与内层CPG 网络协同合作完成仿生机器鱼在复杂环境中的交互与智能化高效游动控制。
在上述的一种深度强化学习的仿生机器鱼控制方法中,所述的内层CPG网络接口包含初步指令的分解、标定与传输机制。
在上述的一种深度强化学习的仿生机器鱼控制方法中,所述的内层CPG网络包括基于中枢模式发生器的运动模型以及具体关节运动指令转化传输机制。
本发明的第二个目的可通过下列技术方案来实现:一种深度强化学习CPG 网络的仿生机器鱼关节运动控制装置,包括:
计算机端;
控制器;
一个或多个处理器;
存储器;
以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述的程序包括用于执行如上述的一种深度强化学习CPG网络的仿生机器鱼关节运动控制方法。
本发明的第三个目的可通过下列技术方案来实现:一种存储介质,存储有与计算机端、显示器结合使用的计算机程序,所述的计算机程序可被处理器执行完成如上述的一种深度强化学习CPG网络的仿生机器鱼关节运动控制方法。
与现有技术相比,本发明具有能够在复杂水下环境中调节仿生鱼,调节灵敏等优点。
附图说明
图1是本发明深度强化学习CPG的仿生机器鱼关节运动控制示意图。
图2是本发明内层基于CPG网络的仿生机器鱼角度输入示意图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
如图1-2所示,本深度强化学习的仿生机器鱼控制方法,其特征在于,包括以下步骤:
S1:通过深度学习构建外层仿生机器鱼信息网,通过与环境的交互给出初步指令;
S2:针对初步指令构建内层CPG网络,通过构建基于中枢模式发生器的运动模型给出具体关节运动指令;
外层仿生机器鱼信息网通过构深度强化学习的仿生机器鱼信息网络与环境交互产生仿生机器鱼关节运动初步指令,内层CPG网络通过构建基于CPG的节律运动网络将初步指令转化为仿生机器鱼具体关节的运动角度,从而实现仿生机器鱼的关节运动控制。
进一步细说,外层仿生机器鱼信息网包含采用协同转换方法处理后的输入信息,输入信息用于生成初步指令的深度强化学习网络以及内层CPG网络传输接口,采用协同转换方法处理后作为输入,并通过采用DQN算法框架实现仿生机器鱼的初步运动指令,并将其输入到下层接口通过构建基于CPG的节律运动网络实现仿生机器鱼具体关节的运动角度。
进一步细说,协同转换方法包括将仿生机器鱼外部传感器采集的连续4帧图像与深度、距离及两种以上数据相关联并标签化,协同转换方法将多元数据打包为可供深度网络直接处理的结构化数据作为后续深度强化学习网络输入,将图像信息与深度、距离等传感采集数据相关联,将其打包为可供深度网络处理的结构化数据,从而作为深度强化学习网络输入信息进行处理。
进一步细说,深度强化学习网络采用深度强化Q学习网络构建深度网络,通过深度强化Q学习网络良好的处理机制以及与外部环境的良好交互能力生成仿生机器鱼运动的初步指令,深度网络生成初步指令后输入内层CPG网络接口。
进一步细说,深度强化学习网络利用DQN算法构建有深度强化学习框架,将多元数据输入至深度强化学习框架中,深度强化学习框架通过设定目标奖励值生成输入的多元数据的对应Q值,Q值生成公式如式(1)所示:
Q*(s,a)=∑pa(s,s′)(Ra(s,s′)+γmaxa′Q*(s′,a′)) (1)
其中Pa(s,s,)表示从当前状态s转移到下一状态s’的概率,R(s,s')表示当前状态下执行动作后的奖励,为γ衰减系数,maxQ*(s′,a′)表示选择当前最大的Q值操作,通过深度网络生成Q的估计值,并通过Q值和Q估计值的差距来完成深度网络的参数更新,如式(2):
L(θ)=E((R+γmaxa′(s′,a′,θ)-Q(s,a,θ))2) (2)
其中L(θ)表示损失函数,E表示取期望操作,并且网络构架还采用了记忆回放,目标网络等机制。
进一步细说,内层CPG网络接口能够将初步指令转化并将初步指令传入内层CPG网络实现仿生机器鱼的具体关节运动,仿生机器鱼的具体关节运动模型的生成式如式(3):
其中t为方向控制参数,θ为神经元间相位差,表示第i 个神经元的不同相位,εi,ω表示神经元的振幅与频率,此外,Pu,Pv为扰动项,其中Pv=c2ui+ 1sinθ+c1ui+1cosθ,Pu=c1ui-1cosθ-c2vi-1sinθ,c1,c2为神经元耦合系数,完成CPG模型构建后,将相位输出转化后输入到仿生机器鱼的各关节,如式(4):
Γi=ζivi+Θi (4)
其中Γi表示第i个关节的输入,ζi为关节对应转化系数,由对应的电机决定,Θi为上层网络生成的初步指令系数,最终通过外层深度强化学习网络与内层CPG 网络协同合作完成仿生机器鱼在复杂环境中的交互与智能化高效游动控制。
进一步细说,内层CPG网络接口包含初步指令的分解、标定与传输机制,例如将“向右快速转动”分解为“向右转动”,“快速”传入内层CPG网络。
进一步细说,内层CPG网络包括基于中枢模式发生器的运动模型以及具体关节运动指令转化传输机制。
本发明的第二个目的可通过下列技术方案来实现:一种深度强化学习CPG 网络的仿生机器鱼关节运动控制装置,包括:
计算机端;
控制器;
一个或多个处理器;
存储器;
以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,程序包括用于执行如上述的一种深度强化学习CPG网络的仿生机器鱼关节运动控制方法。
本发明的第三个目的可通过下列技术方案来实现:一种存储介质,存储与有机算机端、显示器结合使用的计算机程序,计算机程序可被处理器执行完成如上述的一种深度强化学习CPG网络的仿生机器鱼关节运动控制方法。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了大量术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。
Claims (8)
1.一种深度强化学习的仿生机器鱼控制方法,其特征在于,包括以下步骤:
S1:通过深度学习构建外层仿生机器鱼信息网,通过与环境的交互给出初步指令;
S2:针对初步指令构建内层CPG网络,通过构建基于中枢模式发生器的运动模型给出具体关节运动指令;
所述的内层CPG网络接口能够将所述的初步指令转化并将所述的初步指令传入内层CPG网络实现仿生机器鱼的具体关节运动,所述的仿生机器鱼的具体关节运动模型的生成式如式(3):
其中t为方向控制参数,θ为神经元间相位差,表示第i个神经元的不同相位,εi,ω表示神经元的振幅与频率,此外,Pu,Pv为扰动项,其中Pv=c2ui+1sinθ+c1ui+1cosθ,Pu=c1ui-1cosθ-c2vi-1sinθ,c1,c2为神经元耦合系数,完成CPG模型构建后,将相位输出转化后输入到仿生机器鱼的各关节,如式(4):
Γi=ζivi+Θi (4)
其中Γi表示第i个关节的输入,ζi为关节对应转化系数,由对应的电机决定,θi为上层网络生成的初步指令系数,最终通过外层深度强化学习网络与内层CPG网络协同合作完成仿生机器鱼在复杂环境中的交互与智能化高效游动控制。
2.根据权利要求1所述的一种深度强化学习的仿生机器鱼控制方法,其特征在于:所述的外层仿生机器鱼信息网包含采用协同转换方法处理后的输入信息,所述的输入信息用于生成初步指令的深度强化学习网络以及内层CPG网络传输接口。
3.根据权利要求1所述的一种深度强化学习的仿生机器鱼控制方法,其特征在于:所述的协同转换方法包括将仿生机器鱼外部传感器采集的连续4帧图像与深度、距离及两种以上数据相关联并标签化,所述的协同转换方法将多元数据打包为可供深度网络直接处理的结构化数据作为后续深度强化学习网络输入。
4.根据权利要求1所述的一种深度强化学习的仿生机器鱼控制方法,其特征在于:所述的深度强化学习网络采用深度强化Q学习网络构建深度网络,通过所述的深度强化Q学习网络良好的处理机制以及与外部环境的良好交互能力生成仿生机器鱼运动的初步指令,所述的深度网络生成初步指令后输入内层CPG网络接口。
5.根据权利要求1所述的一种深度强化学习的仿生机器鱼控制方法,其特征在于:所述的内层CPG网络接口包含初步指令的分解、标定与传输机制。
6.根据权利要求1所述的一种深度强化学习的仿生机器鱼控制方法,其特征在于:所述的内层CPG网络包括基于中枢模式发生器的运动模型以及具体关节运动指令转化传输机制。
7.如上述权利要求1-6任意一项所述的一种深度强化学习的仿生机器鱼控制装置,其特征在于:包括:
计算机端;
控制器;
一个或多个处理器;
存储器;
以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述的程序包括用于执行如上述的一种深度强化学习CPG网络的仿生机器鱼关节运动控制方法。
8.如上述权利要求1-6任意一项所述的一种储存介质,其特征在于:存储有与计算机端、显示器结合使用的计算机程序,所述的计算机程序可被处理器执行完成如上述的一种深度强化学习CPG网络的仿生机器鱼关节运动控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210507310.7A CN115390442A (zh) | 2021-01-26 | 2021-01-26 | 深度强化学习的仿生机器鱼控制方法、装置及存储介质 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210507310.7A CN115390442A (zh) | 2021-01-26 | 2021-01-26 | 深度强化学习的仿生机器鱼控制方法、装置及存储介质 |
CN202110110948.2A CN112904873B (zh) | 2021-01-26 | 2021-01-26 | 基于深度强化学习的仿生机器鱼控制方法及装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110110948.2A Division CN112904873B (zh) | 2021-01-26 | 2021-01-26 | 基于深度强化学习的仿生机器鱼控制方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115390442A true CN115390442A (zh) | 2022-11-25 |
Family
ID=76118857
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210507310.7A Pending CN115390442A (zh) | 2021-01-26 | 2021-01-26 | 深度强化学习的仿生机器鱼控制方法、装置及存储介质 |
CN202110110948.2A Active CN112904873B (zh) | 2021-01-26 | 2021-01-26 | 基于深度强化学习的仿生机器鱼控制方法及装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110110948.2A Active CN112904873B (zh) | 2021-01-26 | 2021-01-26 | 基于深度强化学习的仿生机器鱼控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN115390442A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114609925B (zh) * | 2022-01-14 | 2022-12-06 | 中国科学院自动化研究所 | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916071B (zh) * | 2010-08-04 | 2012-05-02 | 中国科学院自动化研究所 | 仿生机器鱼运动的cpg反馈控制方法 |
CN110286592B (zh) * | 2019-06-28 | 2022-11-01 | 山东建筑大学 | 一种基于bp神经网络的机器鱼多模态运动方法及系统 |
CN110488611B (zh) * | 2019-09-02 | 2022-03-11 | 山东建筑大学 | 一种仿生机器鱼运动控制方法、控制器及仿生机器鱼 |
CN110909859B (zh) * | 2019-11-29 | 2023-03-24 | 中国科学院自动化研究所 | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 |
CN110989399A (zh) * | 2019-12-16 | 2020-04-10 | 山东建筑大学 | 一种融合Spiking神经网络和CPG的机器鱼仿生控制方法及系统 |
CN111176116B (zh) * | 2020-01-02 | 2021-05-28 | 西安交通大学 | 一种基于cpg模型的机器鱼闭环反馈控制方法 |
CN111158385B (zh) * | 2020-01-10 | 2023-06-30 | 南京工程学院 | 仿生机器鱼的运动控制方法、装置、设备及可读存储介质 |
-
2021
- 2021-01-26 CN CN202210507310.7A patent/CN115390442A/zh active Pending
- 2021-01-26 CN CN202110110948.2A patent/CN112904873B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112904873B (zh) | 2022-08-26 |
CN112904873A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220212342A1 (en) | Predictive robotic controller apparatus and methods | |
US20190184556A1 (en) | Apparatus and methods for online training of robots | |
US10962976B1 (en) | Motion control method and system for biomimetic robotic fish based on adversarial structured control | |
CN112454359B (zh) | 基于神经网络自适应的机器人关节跟踪控制方法 | |
CN112904873B (zh) | 基于深度强化学习的仿生机器鱼控制方法及装置 | |
Ghadirzadeh et al. | Bayesian meta-learning for few-shot policy adaptation across robotic platforms | |
CN112171669A (zh) | 一种脑-机协作数字孪生强化学习控制方法及系统 | |
CN116533249A (zh) | 基于深度强化学习的机械臂控制方法 | |
CN116061173A (zh) | 一种带电作业的机械臂六自由度冗余任务轨迹规划方法 | |
Chao et al. | Learning robotic hand-eye coordination through a developmental constraint driven approach | |
Kim et al. | Learning and generalization of dynamic movement primitives by hierarchical deep reinforcement learning from demonstration | |
Fidelman et al. | Learning ball acquisition on a physical robot | |
Mohan et al. | How past experience, imitation and practice can be combined to swiftly learn to use novel “tools”: Insights from skill learning experiments with baby humanoids | |
CN105467841B (zh) | 一种类人机器人上肢运动的类神经控制方法 | |
CN113325720B (zh) | 具有运动速度决策的康复训练机器人自适应跟踪控制方法 | |
CN111950690A (zh) | 一种具有自适应能力的高效强化学习策略模型 | |
JP2669626B2 (ja) | ロボット制御方式 | |
CN114310974B (zh) | 一种基于六维力信号的机器人遥操作方法和装置 | |
Chen et al. | A Cerebellum-Inspired Control Scheme for Kinematic Control of Redundant Manipulators | |
Luo et al. | Diffusion-based learning theory for organizing visuo-motor coordination | |
CN117697769B (zh) | 一种基于深度学习的机器人控制系统和方法 | |
Yu et al. | CPG-Based Swimming Control | |
Saito et al. | Tracker: Model-based Reinforcement Learning for Tracking Control of Human Finger Attached with Thin McKibben Muscles | |
Nanayakkara et al. | Evolving obstacle avoidance skill of a seven-link manipulator subject to constraints using an evolutionary algorithm | |
CN115877760A (zh) | 一种操作场景相关的机器人操作交互过程共享自主控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |