CN115390442A

CN115390442A - 深度强化学习的仿生机器鱼控制方法、装置及存储介质

Info

Publication number: CN115390442A
Application number: CN202210507310.7A
Authority: CN
Inventors: 李伟琨; 陈浩; 崔维成; 宋长会; 陈林柯
Original assignee: Westlake University
Current assignee: Westlake University
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2022-11-25
Also published as: CN112904873B; CN112904873A

Abstract

本发明提供了一种深度强化学习的仿生机器鱼控制方法、装置及其存储介质，属于仿生机器人控制技术领域。它解决了现有技术中的缺少针对仿生机器鱼的关节游动控制的深度强化学习CPG网络的仿生机器鱼关节运动控制方法等问题。本发明包括S1：通过深度学习构建外层仿生机器鱼信息网，通过与环境的交互给出初步指令；S2：针对初步指令构建内层CPG网络，通过构建基于中枢模式发生器的运动模型给出具体关节运动指令。本发明具有能够复杂水下环境中调节仿生鱼等优点。

Description

深度强化学习的仿生机器鱼控制方法、装置及存储介质

技术领域

本发明属于仿生机器人控制技术领域，特别涉及一种深度强化学习的仿生机器鱼控制方法、装置及其存储介质。

背景技术

深度强化学习，主要由深度学习(Deep Learning)与强化学习 (ReinforcementLearning)两部分组成。深度学习的概念最早源于人工神经网络(Artificial NeuralNetwork，ANN)。其模型通常由多层的非线性运算单元组合而成，并将较低层的输出作为更高一层的输入，从而实现从大量训练数据中学习抽象的特征表示，进而发现数据的分布式特征。深度学习理论能够有效挖掘数据的深层次特征，其一个重要分支图神经网络凭借其特性可以有效地打破传统神经网络对处理图像要求的桎梏，成为了当下最值得重视的研究方向之一。而CPG(中央模式发生器)是一种能够产生节奏活动的协调模式，且无需来自感官反馈或上级控制中心的任何节奏输入的神经网络。由于其良好的性能，基于CPG的控件已被广泛用于生成各种游泳模式，例如向前游泳，向后游泳和转动。尽管已有较多CPG模型方法提出，但该类方法较为简单，很难应对复杂水下环境中，此外该类控制方法的智能化程度较低，当前融合深度强化学习的 CPG的仿生机器鱼运动控制研究尚处于起步阶段，缺少针对仿生机器鱼的关节游动控制的深度强化学习CPG网络的仿生机器鱼关节运动控制方法，且很多研究缺少明确的具体实施方案。

发明内容

本发明的目的是针对现有技术中存在的上述问题，提供了一种深度强化学习的仿生机器鱼控制方法、装置及其存储介质。

本发明的第一个目的可通过下列技术方案来实现：一种深度强化学习的仿生机器鱼控制方法，其特征在于，包括以下步骤：

S1：通过深度学习构建外层仿生机器鱼信息网，通过与环境的交互给出初步指令；

S2：针对初步指令构建内层CPG网络，通过构建基于中枢模式发生器的运动模型给出具体关节运动指令；

本发明的工作原理：本发明对在复杂水下环境具有多关节或多自由度的仿生机器鱼关节运动控制有良好的适用性，本发明的方法结深度强化学习网络，提出了融合外层仿生机器鱼信息网与内层CPG网络模型相的仿生机器鱼关节运动共控制方法，利用该方法能够实现仿生机器鱼的智能化自主高效游动控制。

在上述的一种深度强化学习的仿生机器鱼控制方法中，所述的外层仿生机器鱼信息网包含采用协同转换方法处理后的输入信息，所述的输入信息用于生成初步指令的深度强化学习网络以及内层CPG网络传输接口。

在上述的一种深度强化学习的仿生机器鱼控制方法中，所述的协同转换方法包括将仿生机器鱼外部传感器采集的连续4帧图像与深度、距离及两种以上数据相关联并标签化，所述的协同转换方法将多元数据打包为可供深度网络直接处理的结构化数据作为后续深度强化学习网络输入。

在上述的一种深度强化学习的仿生机器鱼控制方法中，所述的深度强化学习网络采用深度强化Q学习网络构建深度网络，通过所述的深度强化Q学习网络良好的处理机制以及与外部环境的良好交互能力生成仿生机器鱼运动的初步指令，所述的深度网络生成初步指令后输入内层CPG网络接口。

在上述的一种深度强化学习的仿生机器鱼控制方法中，所述的深度强化学习网络利用DQN算法构建有深度强化学习框架，将所述的多元数据输入至所述的深度强化学习框架中，所述的深度强化学习框架通过设定目标奖励值生成输入的多元数据的对应Q值，所述的Q值生成公式如式(1)所示：

Q^*(s，a)＝∑p_a(s，s′)(R_a(s，s′)+γmax_a′Q^*(s′，a′)) (1)

其中P_a(s,s,)表示从当前状态s转移到下一状态s’的概率，R(s,s')表示当前状态下执行动作后的奖励，为γ衰减系数，maxQ^*(s′,a′)表示选择当前最大的 Q值操作，通过深度网络生成Q的估计值，并通过Q值和Q估计值的差距来完成深度网络的参数更新，如式(2)：

L(θ)＝E((R+γmax_a′(s′，a′，θ)-Q(s，a，θ))²) (2)

其中L(θ)表示损失函数，E表示取期望操作。

在上述的一种深度强化学习的仿生机器鱼控制方法中，所述的内层CPG网络接口能够将所述的初步指令转化并将所述的初步指令传入内层CPG网络实现仿生机器鱼的具体关节运动，所述的仿生机器鱼的具体关节运动模型的生成式如式(3)：

其中

t为方向控制参数，θ为神经元间相位差，

表示第i 个神经元的不同相位，ε_i，ω表示神经元的振幅与频率，此外，P_u，P_v为扰动项，其中P_v＝c₂u_i+ ₁sinθ+c₁u_i+1cosθ，P_u＝c₁u_i-1cosθ-c₂v_i-1sinθ，c₁，c₂为神经元耦合系数，完成CPG模型构建后，将相位输出转化后输入到仿生机器鱼的各关节，如式(4)：

Γ_i＝ζ_iv_i+Θ_i (4)

其中Γ_i表示第i个关节的输入，ζ_i为关节对应转化系数，由对应的电机决定，Θ_i为上层网络生成的初步指令系数，最终通过外层深度强化学习网络与内层CPG 网络协同合作完成仿生机器鱼在复杂环境中的交互与智能化高效游动控制。

在上述的一种深度强化学习的仿生机器鱼控制方法中，所述的内层CPG网络接口包含初步指令的分解、标定与传输机制。

在上述的一种深度强化学习的仿生机器鱼控制方法中，所述的内层CPG网络包括基于中枢模式发生器的运动模型以及具体关节运动指令转化传输机制。

本发明的第二个目的可通过下列技术方案来实现：一种深度强化学习CPG 网络的仿生机器鱼关节运动控制装置，包括：

计算机端；

控制器；

一个或多个处理器；

存储器；

以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述的程序包括用于执行如上述的一种深度强化学习CPG网络的仿生机器鱼关节运动控制方法。

本发明的第三个目的可通过下列技术方案来实现：一种存储介质，存储有与计算机端、显示器结合使用的计算机程序，所述的计算机程序可被处理器执行完成如上述的一种深度强化学习CPG网络的仿生机器鱼关节运动控制方法。

与现有技术相比，本发明具有能够在复杂水下环境中调节仿生鱼，调节灵敏等优点。

附图说明

图1是本发明深度强化学习CPG的仿生机器鱼关节运动控制示意图。

图2是本发明内层基于CPG网络的仿生机器鱼角度输入示意图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

如图1-2所示，本深度强化学习的仿生机器鱼控制方法，其特征在于，包括以下步骤：

外层仿生机器鱼信息网通过构深度强化学习的仿生机器鱼信息网络与环境交互产生仿生机器鱼关节运动初步指令，内层CPG网络通过构建基于CPG的节律运动网络将初步指令转化为仿生机器鱼具体关节的运动角度，从而实现仿生机器鱼的关节运动控制。

进一步细说，外层仿生机器鱼信息网包含采用协同转换方法处理后的输入信息，输入信息用于生成初步指令的深度强化学习网络以及内层CPG网络传输接口，采用协同转换方法处理后作为输入，并通过采用DQN算法框架实现仿生机器鱼的初步运动指令，并将其输入到下层接口通过构建基于CPG的节律运动网络实现仿生机器鱼具体关节的运动角度。

进一步细说，协同转换方法包括将仿生机器鱼外部传感器采集的连续4帧图像与深度、距离及两种以上数据相关联并标签化，协同转换方法将多元数据打包为可供深度网络直接处理的结构化数据作为后续深度强化学习网络输入，将图像信息与深度、距离等传感采集数据相关联，将其打包为可供深度网络处理的结构化数据，从而作为深度强化学习网络输入信息进行处理。

进一步细说，深度强化学习网络采用深度强化Q学习网络构建深度网络，通过深度强化Q学习网络良好的处理机制以及与外部环境的良好交互能力生成仿生机器鱼运动的初步指令，深度网络生成初步指令后输入内层CPG网络接口。

进一步细说，深度强化学习网络利用DQN算法构建有深度强化学习框架，将多元数据输入至深度强化学习框架中，深度强化学习框架通过设定目标奖励值生成输入的多元数据的对应Q值，Q值生成公式如式(1)所示：

Q^*(s，a)＝∑p_a(s，s′)(R_a(s，s′)+γmax_a′Q^*(s′，a′)) (1)

其中P_a(s,s,)表示从当前状态s转移到下一状态s’的概率，R(s,s')表示当前状态下执行动作后的奖励，为γ衰减系数，maxQ^*(s′,a′)表示选择当前最大的Q值操作，通过深度网络生成Q的估计值，并通过Q值和Q估计值的差距来完成深度网络的参数更新，如式(2)：

L(θ)＝E((R+γmax_a′(s′，a′，θ)-Q(s，a，θ))²) (2)

其中L(θ)表示损失函数，E表示取期望操作，并且网络构架还采用了记忆回放，目标网络等机制。

进一步细说，内层CPG网络接口能够将初步指令转化并将初步指令传入内层CPG网络实现仿生机器鱼的具体关节运动，仿生机器鱼的具体关节运动模型的生成式如式(3)：

其中

t为方向控制参数，θ为神经元间相位差，

Γ_i＝ζ_iv_i+Θ_i (4)

进一步细说，内层CPG网络接口包含初步指令的分解、标定与传输机制，例如将“向右快速转动”分解为“向右转动”，“快速”传入内层CPG网络。

进一步细说，内层CPG网络包括基于中枢模式发生器的运动模型以及具体关节运动指令转化传输机制。

计算机端；

控制器；

一个或多个处理器；

存储器；

以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，程序包括用于执行如上述的一种深度强化学习CPG网络的仿生机器鱼关节运动控制方法。

本发明的第三个目的可通过下列技术方案来实现：一种存储介质，存储与有机算机端、显示器结合使用的计算机程序，计算机程序可被处理器执行完成如上述的一种深度强化学习CPG网络的仿生机器鱼关节运动控制方法。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了大量术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种深度强化学习的仿生机器鱼控制方法，其特征在于，包括以下步骤：

所述的内层CPG网络接口能够将所述的初步指令转化并将所述的初步指令传入内层CPG网络实现仿生机器鱼的具体关节运动，所述的仿生机器鱼的具体关节运动模型的生成式如式(3)：

其中

t为方向控制参数，θ为神经元间相位差，

表示第i个神经元的不同相位，ε_i，ω表示神经元的振幅与频率，此外，P_u，P_v为扰动项，其中P_v＝c₂u_i+1sinθ+c₁u_i+1cosθ，P_u＝c₁u_i-1cosθ-c₂v_i-1sinθ，c₁，c₂为神经元耦合系数，完成CPG模型构建后，将相位输出转化后输入到仿生机器鱼的各关节，如式(4)：

Γ_i＝ζ_iv_i+Θ_i (4)

其中Γ_i表示第i个关节的输入，ζ_i为关节对应转化系数，由对应的电机决定，θ_i为上层网络生成的初步指令系数，最终通过外层深度强化学习网络与内层CPG网络协同合作完成仿生机器鱼在复杂环境中的交互与智能化高效游动控制。

2.根据权利要求1所述的一种深度强化学习的仿生机器鱼控制方法，其特征在于：所述的外层仿生机器鱼信息网包含采用协同转换方法处理后的输入信息，所述的输入信息用于生成初步指令的深度强化学习网络以及内层CPG网络传输接口。

3.根据权利要求1所述的一种深度强化学习的仿生机器鱼控制方法，其特征在于：所述的协同转换方法包括将仿生机器鱼外部传感器采集的连续4帧图像与深度、距离及两种以上数据相关联并标签化，所述的协同转换方法将多元数据打包为可供深度网络直接处理的结构化数据作为后续深度强化学习网络输入。

4.根据权利要求1所述的一种深度强化学习的仿生机器鱼控制方法，其特征在于：所述的深度强化学习网络采用深度强化Q学习网络构建深度网络，通过所述的深度强化Q学习网络良好的处理机制以及与外部环境的良好交互能力生成仿生机器鱼运动的初步指令，所述的深度网络生成初步指令后输入内层CPG网络接口。

5.根据权利要求1所述的一种深度强化学习的仿生机器鱼控制方法，其特征在于：所述的内层CPG网络接口包含初步指令的分解、标定与传输机制。

6.根据权利要求1所述的一种深度强化学习的仿生机器鱼控制方法，其特征在于：所述的内层CPG网络包括基于中枢模式发生器的运动模型以及具体关节运动指令转化传输机制。

7.如上述权利要求1-6任意一项所述的一种深度强化学习的仿生机器鱼控制装置，其特征在于：包括：

计算机端；

控制器；

一个或多个处理器；

存储器；

8.如上述权利要求1-6任意一项所述的一种储存介质，其特征在于：存储有与计算机端、显示器结合使用的计算机程序，所述的计算机程序可被处理器执行完成如上述的一种深度强化学习CPG网络的仿生机器鱼关节运动控制方法。