CN115303455A

CN115303455A - 水下仿生机器人运动控制方法、装置、设备及存储介质

Info

Publication number: CN115303455A
Application number: CN202211125997.4A
Authority: CN
Inventors: 喻俊志; 潘杰; 孔诗涵
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-11-08
Anticipated expiration: 2042-09-16
Also published as: CN115303455B

Abstract

本发明涉及水下机器人控制领域，并公开了一种水下仿生机器人运动控制方法、装置、设备及存储介质，该方法包括：获取采集的尾部构建数据，根据所述尾部构建数据构建尾部运动学模型，并根据所述尾部运动学模型构建所述水下仿生机器人的目标动力学模型；获取预设的设计数据，根据所述设计数据构建所述水下仿生机器人的运动观测器和导航策略，根据所述目标动力学模型对构建后的所述水下仿生机器人进行训练，得到最优策略信息；将所述最优策略信息对应的最优策略部署到所述水下仿生机器人，以实现精确运动控制。本发明实现了水下仿生机器人的精准运动控制。

Description

水下仿生机器人运动控制方法、装置、设备及存储介质

技术领域

本发明涉及水下机器人控制领域，尤其涉及一种水下仿生机器人运动控制方法、装置、设备及存储介质。

背景技术

近年来，丰富的海洋资源促使研究人员通过能够远程操作和自主运动的水下机器人来探索未知的水下环境。其中，通过模拟海洋生物的外貌、运动特性发明的水下仿生机器人，具备低噪声、高机动性和良好的隐蔽性等特征。因而，水下仿生机器人受到了广泛的关注。

传统的水下仿生机器人运动控制方式是通过根据大量人工经验设计运动控制的控制流程，进而根据人工经验实现仿生机器人运动控制，这种水下仿生机器人运动控制方式存在很大的缺陷，会存在根据人工经验进行设置会使控制方案的确定时间较长以及无法保证方案最优的问题，即，这种水下仿生机器人运动控制方式会由于耗时时间过长进而无法保证运动控制开发效率，而且还会因为无法保证方案最优进而造成运动控制的精准度不高。

发明内容

本发明的主要目的在于提出一种水下仿生机器人运动控制方法、装置、设备及存储介质，旨在解决如何实现水下仿生机器的精准运动控制的技术问题。

为实现上述目的，本发明提供一种水下仿生机器人运动控制方法，所述水下仿生机器人运动控制方法步骤，包括：

获取采集的尾部构建数据，根据所述尾部构建数据构建尾部运动学模型，并根据所述尾部运动学模型构建所述水下仿生机器人的目标动力学模型；

获取预设的设计数据，根据所述设计数据构建所述水下仿生机器人的运动观测器和导航策略，根据所述目标动力学模型对构建后的所述水下仿生机器人进行训练，得到最优策略信息；

将所述最优策略信息对应的最优策略部署到所述水下仿生机器人，以实现精确运动控制。

可选地，根据所述尾部构建数据构建尾部运动学模型的步骤，包括：

确定所述尾部构建数据中的坐标系数据，并确定所述坐标系数据对应的旋转矩阵，将所述旋转矩阵输入预设的角度计算公式进行计算得到角度变化数据，并确定所述角度变化数据对应的运动学数据；

确定所述尾部构建数据中的PWM波信号，并将所述运动学数据与所述PWM波信号进行拟合，得到尾部运动学关系数据，并构建所述尾部运动学关系数据对应的尾部运动学模型。

可选地，根据所述尾部运动学模型构建所述水下仿生机器人的目标动力学模型的步骤，包括：

确定所述水下仿生机器人对应的参数数据，并确定所述参数数据中的攻角、侧滑角和尾部水动力，计算所述攻角和所述侧滑角与所述尾部水动力之间的动力关系；

确定所述参数数据中的准稳态升阻力模型，基于所述动力学关系对所述尾部运动学模型和所述准稳态升阻力模型进行模型训练得到尾部动力学模型，并根据所述尾部动力学模型和所述参数数据构建目标动力学模型。

可选地，根据所述尾部动力学模型和所述参数数据构建目标动力学模型的步骤，包括：

确定所述参数数据中的左翼推力和右翼推力，计算所述左翼推力和所述右翼推力之间的推力数据，并确定所述尾部动力学模型对应的尾部推力数据；

确定所述参数数据中的作用力数据和力矩数据，基于所述推力数据、所述尾部推力数据、所述作用力数据和所述力矩数据计算得到机体速度和机体角速度，并根据所述机体速度和所述机体角速度构建所述水下仿生机器人的目标动力学模型。

可选地，根据所述机体速度和所述机体角速度构建所述水下仿生机器人的目标动力学模型的步骤，包括：

确定所述水下仿生机器人对应的高维空间线性系统，对所述高维空间线性系统进行函数值设置得到目标线性系统；

确定所述目标线性系统中的算子数值，并基于所述算子数值确定所述目标线性系统的迭代数据，并基于所述迭代数据、所述机体速度和所述机体角速度进行模型训练构建目标动力学模型。

可选地，根据所述设计数据构建所述水下仿生机器人的运动观测器和导航策略的步骤，包括：

确定所述设计数据中的导航确定数据，基于所述导航确定数据构建所述水下仿生机器人的导航策略；

确定所述水下仿生机器人的状态观测器，并对所述状态观测器进行线性扩张并滤波，得到运动观测器。可选地，根据所述目标动力学模型对构建后的所述水下仿生机器人进行训练，得到最优策略信息的步骤，包括：

确定构建后的所述水下仿生机器人对应的线性状态方程，并将所述线性状态方程展开得到目标线性方程；

基于所述目标线性方程构建对应的优化训练算法，并基于所述优化训练算法和所述目标动力学模型对设计后的所述水下仿生机器人在不同场景下进行优化训练，得到不同场景的最优策略，并将各所述最优策略汇总得到最优策略信息。

此外，为实现上述目的，本发明还提供一种水下仿生机器人运动控制装置，包括：

构建模块，用于获取采集的尾部构建数据，根据所述尾部构建数据构建尾部运动学模型，并根据所述尾部运动学模型构建所述水下仿生机器人的目标动力学模型；

训练模块，用于获取预设的设计数据，根据所述设计数据构建所述水下仿生机器人的运动观测器和导航策略，根据所述目标动力学模型对构建后的所述水下仿生机器人进行训练，得到最优策略信息；

处理模块，用于将所述最优策略信息对应的最优策略部署到所述水下仿生机器人，以实现精确运动控制。

此外，为实现上述目的，本发明还提供一种水下仿生机器人运动控制设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的水下仿生机器人运动控制程序，所述水下仿生机器人运动控制程序被所述处理器执行时实现上所述的水下仿生机器人运动控制方法的步骤。

此外，为实现上述目的，本发明还提供一种水下仿生机器人运动控制存储介质，所述存储介质上存储有水下仿生机器人运动控制程序，所述水下仿生机器人运动控制程序被处理器执行时实现如上所述的水下仿生机器人运动控制方法的步骤。

本发明通过获取采集的尾部构建数据，根据所述尾部构建数据构建尾部运动学模型，并根据所述尾部运动学模型构建所述水下仿生机器人的目标动力学模型；获取预设的设计数据，根据所述设计数据构建所述水下仿生机器人的运动观测器和导航策略，根据所述目标动力学模型对构建后的所述水下仿生机器人进行训练，得到最优策略信息；将所述最优策略信息对应的最优策略部署到所述水下仿生机器人，以实现精确运动控制。通过构建目标动力学模型进而进行训练，得到最优策略信息，从而避免了现有技术中水下仿生机器人运动控制需要根据人工经验进行设置会使控制方案的确定时间较长以及无法保证方案最优的现象发生，这种水下仿生机器人运动控制方式不仅缩短了耗时时间进而提高了运动控制开发效率，而且还可以通过软体属性动力学模型进行训练得到最优策略信息进而可以提高水下仿生机器人运动控制的精准度。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的水下仿生机器人运动控制设备结构示意图；

图2为本发明水下仿生机器人运动控制方法第一实施例的流程示意图；

图3为本发明水下仿生机器人运动控制的装置模块示意图；

图4为本发明水下仿生机器人运动控制的系统坐标系示意图；

图5为本发明水下仿生机器人运动控制的实际内部结构图；

图6为本发明水下仿生机器人运动控制的实际外部结构图；

图7为本发明水下仿生机器人运动控制的外部反光球安装示意图；

图8为本发明水下仿生机器人运动控制的光学运动捕捉系统的实验图；

图9为本发明水下仿生机器人运动控制的实物图；

图10为本发明水下仿生机器人运动控制技术方案流程示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的水下仿生机器人运动控制设备结构示意图。

如图1所示，该水下仿生机器人运动控制设备可以包括：处理器0003，例如中央处理器（CentralProcessingUnit，CPU），通信总线0001、获取接口0002，处理接口0004，存储器0005。其中，通信总线0001用于实现这些组件之间的连接通信。获取接口0002可以包括信息采集装置、获取单元比如计算机，可选获取接口0002还可以包括标准的有线接口、无线接口。处理接口0004可选的可以包括标准的有线接口、无线接口。存储器0005可以是高速的随机存取存储器（RandomAccessMemory，RAM），也可以是稳定的非易失性存储器（Non-VolatileMemory，NVM），例如磁盘存储器。存储器0005可选的还可以是独立于前述处理器0003的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对水下仿生机器人运动控制设备的一种限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器0005中可以包括操作系统、获取接口模块、处理接口模块以及水下仿生机器人运动控制程序。

在图1所示的水下仿生机器人运动控制设备中，通信总线0001主要用于实现组件之间的连接通信；获取接口0002主要用于连接后台服务器，与后台服务器进行数据通信；处理接口0004主要用于连接部署端（用户端），与部署端进行数据通信；本发明水下仿生机器人运动控制设备中的处理器0003、存储器0005可以设置在水下仿生机器人运动控制设备中，所述水下仿生机器人运动控制设备通过处理器0003调用存储器0005中存储的水下仿生机器人运动控制程序，并执行本发明实施例提供的水下仿生机器人运动控制方法。

基于上述硬件结构，提出本发明水下仿生机器人运动控制方法实施例。

本发明实施例提供了一种水下仿生机器人运动控制方法，参照图2，图2为本发明水下仿生机器人运动控制方法第一实施例的流程示意图。

本实施例中，所述水下仿生机器人运动控制方法包括：

步骤S10，获取采集的尾部构建数据，根据所述尾部构建数据构建尾部运动学模型，并根据所述尾部运动学模型构建所述水下仿生机器人的目标动力学模型；

在本实施例中，水下仿生机器人是指具有软体属性的水下仿生机器人，主要通过待构建数据对水下仿生机器人动力学模块进行构建，待构建数据是指跟构建模型有关的各种参数以及公式等，参照图4，图4为水下仿生机器人运动控制的系统坐标系示意图，C_g =o_gx_gy_gz_g和C_b = o_bx_by_bz_b分别代表惯性坐标系与机体坐标系，C_i= o_ix_iy_iz_i (i = h, t, l,r)分别代表可动关节的联体坐标系，h, t, l, r分别对应头部、尾部、左翼和右翼的坐标系，o为原点。其次，参照图5，图5为,水下仿生机器人运动控制的实际内部结构图，内部由尾部的尾部脊柱和尾部舵机构成，头部就包括了开关、充电口、电机、深度传感器和惯导传感器，还包括了头部舵机和安装在头部的摄像头。最后，参照图6，图6为水下仿生机器人运动控制的实际外部结构图，主要部分包括了可以是具有软体属性的线驱动头部和线驱动尾部和脚蹼，具有刚体属性的翼，这个水下仿生机器人可以是企鹅水下仿生机器人。在确定待构建数据之后，就会通过运动捕捉系统、计算流体力学等设备与方法收集数据，构建可靠的学习环境，其中，根据所述待构建数据确定软体属性动力学信息的步骤，包括：

步骤C11，确定所述尾部构建数据中的坐标系数据，并确定所述坐标系数据对应的旋转矩阵，将所述旋转矩阵输入预设的角度计算公式进行计算得到角度变化数据，并确定所述角度变化数据对应的运动学数据；

在本实施例中，通过确定尾部构建数据中的坐标系信息，并确定坐标系信息确定对应的旋转矩阵，最后将旋转矩阵输入预设的角度计算公式进行计算得到角度变化数据信息，就会得到角度变化数据对应的运动学数据，其中，尾部构建数据是指构建尾部相关模型的数据，可以包括坐标和输入PWM波等，坐标系信息是指图4中的水下仿生机器人上的几种坐标系，旋转矩阵是指运动捕捉系统的利用惯性坐标系与机体坐标系得到的矩阵为旋转矩阵，角度变化数据是指水下仿生机器人的角度变化，运动学数据依据角度变化数据对应的运行学数据。参照图7，图7为,水下仿生机器人运动控制的外部反光球安装示意图，参照图8，图8为,水下仿生机器人运动控制的光学运动捕捉系统的实验图，首先，参照图7将三个不共线的反光球安装在机体上构建体坐标系，从而得到三维光学运动捕捉系统的惯性坐标系与机体坐标系的旋转矩阵^bR_g。然后，在线驱动尾部上安装多个用于运动拟合的反光球，以及一个用于计算运动变化的固定反光球，各位置的角度变化∆θ_ij即可计算得到：

其中，P代表反光球之间的相对位置，^bR_g代表从惯性坐标系到机体坐标系的旋转矩阵，^gP_i， ^gP_j代表关节i和j上反光球在惯性坐标系的位置，（）_z代表其在z方向上的投影，（）_x代表其在x轴方向的投影，参照图8中间位置的1,2,3就表示拟合的反光球，0表示固定反光球，相对位置是指两个光球之间的相对位置，θ_c是指PWM的控制角度，g表示惯性坐标，ij表示反光球序号，可以为四个反光球的的坐标参数。最后就会确定角度变化∆θ_ij对应的运动学，最终就会得到整个水下仿生机器人的动力学模型。

步骤C12，确定所述尾部构建数据中的PWM波信号，并将所述运动学数据与所述PWM波信号进行拟合，得到尾部运动学关系数据，并构建所述尾部运动学关系数据对应的尾部运动学模型。

在本实施例中，通过确定尾部构建数据中的PWM波信号，运动学数据与所述PWM波信号进行拟合，得到尾部运动学关系数据，最后就会构建尾部运动学关系数据对应的尾部运动学模型，PWM波信号是指整个水下仿生机器人的输入信号，尾部运动学关系数据是指PWM波信号与运动学之间关系，这里是指输入跟实际运动之间的关系，尾部运动学模型是指尾部对应的运动学模型。也就是利用反向传播神经网络拟合得到线驱动尾部舵机PWM波信号与运动学（角度变化信息对应的）之间的关系：

其中，w代表神经元权值，b代表神经元偏置，h代表隐含层，o代表输出层，f代表Sigmoid函数，k,i是隐含层神经元序号,w_h ^k,i代表隐含层神经元k，在上一层隐含层神经元i里的权值，θ_i代表关节i的角度。就可以确定运动学与输入PWM波信号之间的关系，便于确定后续目标动力学模型。其中，根据所述尾部运动学模型构建所述水下仿生机器人的目标动力学模型的步骤，包括：

步骤C13，确定所述水下仿生机器人对应的参数数据，并确定所述参数数据中的攻角、侧滑角和尾部水动力，计算所述攻角和所述侧滑角与所述尾部水动力之间的动力关系；

步骤C14，确定所述参数数据中的准稳态升阻力模型，基于所述动力关系对所述尾部运动学模型和所述准稳态升阻力模型进行模型训练得到尾部动力学模型，并根据所述尾部动力学模型和所述参数数据构建目标动力学模型。

在本实施例中，通过确定水下仿生机器人对应的参数数据，并确定参数数据中的攻角、侧滑角和尾部水动力，最后计算攻角和侧滑角与尾部水动力之间的动力学关系，参数数据就包括了攻角和侧滑角等，动力学关系是指通过计算流体力学计算攻角、侧滑角与先确定尾部水动力之间的关系，同时还会确定参数数据中的准稳态升阻力模型，可以根据之前得到动力学关系结合线驱动部位的运动学模型（尾部运动学模型）以及准稳态升阻力模型进行模型训练得到尾部动力学模型，最后就会根据尾部动力学模型和参数数据构建目标动力学模型。其中准稳态升阻力模型是参数数据中预设的模型，尾部动力学模型如下：

其中，β代表侧滑角，R_y代表绕y轴的旋转矩阵,R_z代表绕z轴的旋转矩阵,ρ代表密度，S_j代表沿关节坐标系轴线的投影面积，U_j代表关节速度，T代表转置，α_j代表角度攻角，β_j代表的侧滑角，C_s，j代表对应方向的水动力系数,D表示阻力，L表示升力。最后还会根据尾部动力学模型和参数数据确定刚体以及头部的动力学模型，最终实现整个水下仿生机器人的模型构建。

步骤S20，获取预设的设计数据，根据所述设计数据构建所述水下仿生机器人的运动观测器和导航策略，根据所述目标动力学模型对构建后的所述水下仿生机器人进行训练，得到最优策略信息；

在本实施例中，通过获取预设的设计数据，根据设计数据构建水下仿生机器人的运动观测器和导航策略，运动观测器是指目标水下仿生机器人中的观测器的相关信息，导航策略是指目标水下仿生机器人中的导航相关信息，数据数据是指关于运动观测器和导航策略的相关构建数据及方法。其中，根据所述设计数据构建所述水下仿生机器人的运动观测器和导航策略的步骤，包括：步骤C21，确定所述设计数据中的导航确定数据，基于所述导航确定数据构建所述水下仿生机器人的导航策略；

在本实施例中，复杂水下任务目标状态的确立对于水下仿生机器人的运动控制至关重要，其决定了控制器中的状态误差项，从而影响水下任务的表现。因此，本方案结合贝塞尔曲线和视线导航法，实现水下仿生机器人的导航，导航确定数据是指结合贝塞尔曲线和视线导航法的相关数据及设计数据，如下式所示

其中，

，

k_i代表待学习参数，N_p代表控制时域，（k-i|k）代表在时间k时，对k+i时刻x位置的预测，X_t，Y_t，Z_t，θ_t，Ψ_t代表机器人目标状态，d代表理想状态，k_i（i=p,l,q,r,Ψ,具体可参照图4的O_b坐标）都是待学习参数，e代表状态误差。同时，由于水下仿生机器人运动中横滚运动较弱，且横滚方向一般不可控，因此忽略这个自由度的运动。此外，将水下仿生机器人定义的X-Y平面内的运动控制简化为对偏航角的追踪，将竖直面内的运动控制简化为对俯仰角的追踪，以降低控制器的复杂度。最后对所述训练水下仿生机器人进行训练，得到最优策略信息。

步骤C22，确定所述设计数据中的状态观测器，并对所述状态观测器进行线性扩张并滤波，得到运动观测器。

在本实施例中，通过确定设计数据中的状态观测器，这里也可以是指水下仿生机器人的状态观测器，并对状态观测器进行线性扩张并滤波，得到运动观测器，线性扩张并滤波是指一个估计速度和窗函数滤波的过程，运动观测器是指需要构建的观测器，也是线性扩张并滤波的观测器。本方案利用线性扩张状态观测器估计速度，其可简化为：

表示水下机器人的状态，

表示模型不确定性和外扰，R表示旋转矩阵，W_b表示观测器的带宽，m_i表示刚体惯性矩阵，F表示输入力与力矩,E代表矩阵，A,δ代表系数。同时，利用窗函数对p进行均值滤波，以减少节律运动带来的影响。最后将得到运动观测器信息和导航策略信息的目标水下仿生机器人作为训练水下仿生机器人，就会对训练水下仿生机器人进行训练得到不同工作环境的最优策略信息，以便于在水下仿生机器人部署提高控制准确率。

步骤S30，将所述最优策略信息对应的最优策略部署到所述水下仿生机器人，以实现精确运动控制。

在本实施例中，根据目标动力学模型的训练得到最优策略信息，并将最优策略信息对应的最优策略部署到训练水下仿生机器人，以实现精确运动控制，最优策略信息是指最优的运动控制策略的相关信息，最优策略是指运动控制策略。参照图9，图9为,水下仿生机器人运动控制的实物图，为实际经过部署最优策略信息的水下仿生机器人在深度为0.3m下的工作反向图，通过模型构建以及优化算法训练可以保证水下仿生机器人工作的最优策略，进而提高了水下仿生机器人的工作效率。

进一步，为本实施例还提供了一种水下仿生机器人运动控制技术方案示流程意图，参照图10，在本实施例中，水下仿生机器人运动控制技术方案主要是通过三步进行实现的，分别通过第一步：构建仿真环境，第二步：训练控制器，第三步：策略部署。在第一步时，通过运动捕捉系统确定角度变化，以及通过反向传播网络拟合得到输入pwm信号与运动学之间的关系，并根据确定的关系以及角度变化基于计算流动力学的方式得到部分关于水下仿生机器人的动力学模型。另一方面就是通过数据采样（m是指数据采样的数据），并基于基函数确定该模型的上升动力学，最后将上升动力学加入之前得到的部分关于水下仿生机器人的动力学模型就得到整个水下仿生机器人的动力学模型。就进入第二步，对该模型进行训练，通过该模型的动作和状态进行优化训练。首先需要确定观测器，通过扩张状态观测器，并使用窗函数对其进行滤波得到需要的观测器，并使用该需要的观测器对整个模型进行观测，其次就会通过经验池进行深度强化学习，这里的深度强化学习就是一个数据输入以及采样输出不断优化的过程，同时还会建立模型预测控制，通过目标要求对过去现在以及未来进行预测进而得到不同工作环境下，该模型的最优策略，确定最优策略的动作合作同并部署至该水下仿生机器人，以实现不同物理场景的最优策略的运动控制。通过软体属性动力学模型进行训练得到最优策略信息进而可以提高运动控制的精准度。

本实施例通过获取采集的尾部构建数据，根据所述尾部构建数据构建尾部运动学模型，并根据所述尾部运动学模型构建所述水下仿生机器人的目标动力学模型；获取预设的设计数据，根据所述设计数据构建所述水下仿生机器人的运动观测器和导航策略，根据所述目标动力学模型对构建后的所述水下仿生机器人进行训练，得到最优策略信息；将所述最优策略信息对应的最优策略部署到所述水下仿生机器人，以实现精确运动控制。通过构建目标动力学模型进而进行训练，得到最优策略信息，从而避免了现有技术中水下仿生机器人运动控制需要根据人工经验进行设置会使控制方案的确定时间较长以及无法保证方案最优的现象发生，这种水下仿生机器人运动控制方式不仅缩短了耗时时间进而提高了运动控制开发效率，而且还可以通过软体属性动力学模型进行训练得到最优策略信息进而可以提高运动控制的精准度。

进一步地，基于本发明水下仿生机器人运动控制方法第一实施例，提出本发明水下仿生机器人运动控制方法第二实施例，水下仿生机器人运动控制方法包括：

进一步的，根据所述尾部动力学模型和所述参数数据构建目标动力学模型的步骤，包括：

步骤a，确定所述参数数据中的左翼推力和右翼推力，计算所述左翼推力和所述右翼推力之间的推力数据，并确定所述尾部动力学模型对应的尾部推力数据;

步骤b，确定所述参数数据中的作用力数据和力矩数据，基于所述推力数据、所述尾部推力数据、所述作用力数据和所述力矩数据计算得到机体速度和机体角速度，并根据所述机体速度和所述机体角速度构建所述水下仿生机器人的目标动力学模型。

在本实施例中，水下仿生机器人的动力学其主要包括刚体动力学、关节动力学以及软体动力学。通过确定待构建数据中的刚体阻力公式（下述液体和刚体之间的相互作用主要产生阻力）和侧翼推力公式（下述液体与翼之间的相互作用主要产生推力），通过确定参数数据中的作用力数据和力矩数据，这里的作用力数据是指下式中的F_D和F_L,力矩数据是指下式终端M_D。作用力数据和力矩数据分别是指液体和刚体之间推力和推力的力矩。首先，液体和刚体之间的相互作用主要产生阻力，可描述为：

其中，ρ代表流体密度，α代表攻角，U_b代表体速度，C代表水动力系数，S_b代表机体沿速度方向的投影面积，W_b表示角速度，D表示阻力，L表示升力，F表示力，M表示力矩。确定参数数据中的左翼推力和右翼推力，计算左翼推力和右翼推力之间的推力数据，并确定尾部动力学模型对应的尾部推力数据，左翼推力和右翼推力分别是指液体与翼之间的推力，推力数据是指两翼推力数据的总和，尾部推力数据是指尾部动力学模型对应的力F_j。其次，液体与翼之间的相互作用主要产生推力，可利用Morison方程描述为：

其中，c_a代表不同运动的惯性系数，c_d代表不同运动的阻力系数，ϕ_i代表翼绕X轴的运动，θ_i代表翼绕Y轴的运动，i = l, r分别代表左翼和右翼，V和A分别代表翼的体积和面积，γ代表翼型角，ⁱU_b代表体速度在关节坐标系的表示，κ₁和

代表翼重心到旋转轴的距离，κ₂和

代表翼绕旋转轴的惯性力矩，字母上面一点代表一阶导，两点代表二阶导，C_dp,i,C_dh,i,C_db,i，C_ap,i, C_ah,i,C_ab,i代表翼i在俯仰运动，拍动运动，随体运动的惯性系数，K=[0,0,1], i=[1,0,0],ⁱR_b代表从机体坐标系到关节i坐标系的旋转矩阵，ⁱU_b代表集体速度在关节i坐标系的投影。同时还会确定尾部动力学模型对应的尾部动力学模型公式，尾部动力学模型公式是指上文以及的F_j。

在确定推力数据和尾部推力数据以及作用力数据和力矩数据之后，就会基于推力数据、尾部推力数据、作用力数据和力矩数据计算得到机体速度和机体角速度。通过联立求解，即可得到具备软体属性水下机器人的动力学：

其中，U_b代表机体速度，W_b代表机体角速度，m代表机体质量，J代表惯性矩阵，^bR_i代表从关节i坐标系到机体坐标系的旋转矩阵,符号倒v代表斜对矩阵，为叉乘的简易表示，P_i代表关节i的位置。得到软体属性动力学公式（具备软体属性水下机器人的动力学），并将所述软体属性动力学公式对应的仿真环境作为软体属性动力学信息，这里的软体属性动力学信息根据软体属性动力学公式进行控制的动力学模型。

在本实施例中，通过确定所述参数数据中的左翼推力和右翼推力，计算所述左翼推力和所述右翼推力之间的推力数据，并确定所述尾部动力学模型对应的尾部推力数据，确定所述参数数据中的作用力数据和力矩数据，基于所述推力数据、所述尾部推力数据、所述作用力数据和所述力矩数据计算得到机体速度和机体角速度，并根据所述机体速度和所述机体角速度构建所述水下仿生机器人的目标动力学模型，可以准确的确定水下仿生机器人的动力学模型，进而可以为后续训练提供准确的训练环境。

进一步的，根据所述机体速度和所述机体角速度构建所述水下仿生机器人的目标动力学模型的步骤，包括：

步骤e，确定所述水下仿生机器人对应的高维空间线性系统，对所述高维空间线性系统进行函数值设置得到目标线性系统;

在本实施例中，为实现软体属性头部的显示动力学，用以视觉控制。提供基于线性Koopman算子确定所述水下仿生机器人在高维空间的线性系统（也就是通过无限维的线性Koopman算子K，可在高维空间将非线性系统表示为如下式所示的线性系统）

其中，x∈Rⁿ代表系统状态，u∈R^m代表系统输入，g:R^m+n→R^∞代表上升函数。然而，在实际系统中，无限维的上升函数难以实现，因此利用有限维的扩张动态模式分解，可以基于数据辨识算子K。此外，为了便于使用基于模型的线性控制算法，将上升函数的前n个值设置为x，且输入u只以线性状态出现在上升函数中，由此对线性系统进行函数设置得到的目标线性系统表示为

其中

g_x（x）=[x_i……x_ng_n+1（x）……g_N（x）]^。

代表上升函数并只与系统状态相关。

步骤f，确定所述目标线性系统中的算子数值，并基于所述算子数值确定所述目标线性系统的迭代数据，并基于所述迭代数据、所述机体速度和所述机体角速度进行模型训练构建目标动力学模型。

得到目标线性系统之后，就会确定目标线性系统中的算子数值，算子是指K，算子K可由最小二乘解得

其中，

G^I代表伪逆。由此可基于实验数据估计K_xx和K_xu，得到离散动力学的迭代公式

最终得到具备软体属性头部的显示离散动力学，并将迭代公式作为头部动力学信息，也就是将迭代公式的参数控制作为头部动力学的模型。

在本实施例中，确定所述水下仿生机器人对应的高维空间线性系统，对所述高维空间线性系统进行函数值设置得到目标线性系统，确定所述目标线性系统中的算子数值，并基于所述算子数值确定所述目标线性系统的迭代数据，并基于所述迭代数据、所述机体速度和所述机体角速度进行模型训练构建目标动力学模型，可以准确对头部动力学的模型进行准确构建，进而可以保证整个模型的准确构建，保证后续训练结果的准确性。

进一步的，根据所述目标动力学模型对构建后的所述水下仿生机器人进行训练，得到最优策略信息的步骤，包括：

步骤m，确定构建后的所述水下仿生机器人对应的线性状态方程，并将所述线性状态方程展开得到目标线性方程；

在本实施例中，在确定水下机器人最优控制策略的学习时，由于水下仿生机器人的运动具备高延迟以及强非线性等特性，因此，本方案提出了基于强化学习的模型预测控制框架。从模型预测控制的角度出发，所提框架可利用模型与环境的交互数据来减少模型不确定性和外部干扰的影响，从而提高闭环性能。在强化学习的角度出发，所提框架利用模型预测控制作为策略估计器，在扩展应用域的同时，保持了闭环稳定性和系统安全性。

首先，确定训练水下仿生机器人对应的线性状态方程信息，并基于泰勒展开线性状态方程信息中的线性化状态方程得到目标线性方程，线性状态方程信息内部原有的线性状态方程，目标线性方程是基于泰勒展开的线性状态方程，可降低计算负载的参数化线性模型预测控制的代价函数具有如下形式

其中，

其中，Ω_Δτ，Ω_τ，代表约束集合，N_c代表控制时域，x(k|k)=[P_e(k|k),τ_e(k|k)]^T,D₁=[I₃,0_3×2]^T,ξ=[Ψ,θ]^T，Q = diag{q1, q2}，P = diag{p1, p2}，R = diag{r1, r2}，ξ（k+i|k）代表k时刻下对于k+i时刻的预测状态，τ代表控制量，T代表采样时间。

步骤n，基于所述目标线性方程构建对应的优化训练算法，并基于所述优化训练算法和所述目标动力学模型对设计后的所述水下仿生机器人在不同场景下进行优化训练，得到不同场景的最优策略，并将各所述最优策略汇总得到最优策略信息。

得到目标线性方程之后，就会根据目标线性方程构建对应的优化训练算法，使数据驱动的模型预测控制具备在不同场景任务探索最优策略的能力。根据优化训练算法对训练水下仿生机器人在不同场景下进行优化训练，得到最优策略信息。其中，优化训练算法包括状态空间、动作空间、奖励设计。状态空间可以表示为

S={z-z_d,θ-θ_d,Ψ-Ψ_d,u,v,w,q,r}

其中，将平面的跟踪简化为偏航角ψ的追踪。动作空间主要由参数化的模型预测控制器决定，其定义为

a={Q,P,R,k_p,k_i,k_Ψ,k_r,k_q}

一般来说，奖励设计决定了训练后控制器的效果。因此，考虑到普适性，将奖励分为两阶段设计，第一阶段主要针对跟踪误差与跟踪时间，主要以跟踪偏航角θ与Z方向空间位置z为主，如下式所示

r₁=-c₁|Ψ-Ψ_d|-c₂|z-z_d|

r₂=c₃/T₀

第二阶段主要针对任务完成速度、削弱超调以及减少能源消耗展开

其中，c_i为对应的系数。

其次，与螺旋桨推进的水下机器人不同，水下仿生机器人的运动具备节律特性，并与运动的频率和幅值相关。该特性不仅增加控制器求解的难度，同时会导致训练的控制器更加敏感且性能更差，因此对状态空间进行均值滤波。此外，水下仿生机器人还具有高延时特性，使得参数调整无法得到及时的奖励回馈，因此基于强化学习的参数整定频率不能过快。同时，运动控制频率与控制效果息息相关，其过大易导致超调。因此，为了兼顾以上因素，优化算法选择控制周期与参数整定周期异步来实现良好的训练效果，其中奖励塑形如下式公式所示

其中，n代表一个参数整定周期内的控制周期数。最后，根据本发明步骤S10构建的动力学模型，可得到具备软体属性的最优策略并表示为

其中，u₀为数据驱动模型预测控制解序列的第一个元素,μ为常数,s是指观测器，

表示训练参数。进而得到不同场景下的最优策略，将所有场景的最优策略汇总得到最优策略信息。

在本实施例中，通过确定构建后的所述水下仿生机器人对应的线性状态方程，并将所述线性状态方程展开得到目标线性方程，基于所述目标线性方程构建对应的优化训练算法，并基于所述优化训练算法和所述目标动力学模型对设计后的所述水下仿生机器人在不同场景下进行优化训练，得到不同场景的最优策略，并将各所述最优策略汇总得到最优策略信息，进而可以保证水下仿生机器人在不同场景运动控制可以控制于最优策略，进而可以保证控制的准确性和效率性。

本发明还提供一种水下仿生机器人运动控制的装置模块示意图，参照图3，所述水下仿生机器人运动控制装置包括：

构建模块A01，用于获取采集的尾部构建数据，根据所述尾部构建数据构建尾部运动学模型，并根据所述尾部运动学模型构建所述水下仿生机器人的目标动力学模型；

训练模块A02，用于获取预设的设计数据，根据所述设计数据构建所述水下仿生机器人的运动观测器和导航策略，根据所述目标动力学模型对构建后的所述水下仿生机器人进行训练，得到最优策略信息；

处理模块A03，用于将所述最优策略信息对应的最优策略部署到所述水下仿生机器人，以实现精确运动控制。

可选地，所述构建模块A01，还用于：

确定所述参数数据中的准稳态升阻力模型，基于所述动力关系对所述尾部运动学模型和所述准稳态升阻力模型进行模型训练得到尾部动力学模型，并根据所述尾部动力学模型和所述参数数据构建目标动力学模型。

可选地，所述构建模块A01，还用于：

可选地，所述训练模块A02，还用于：

确定所述设计数据中的状态观测器，并对所述状态观测器进行线性扩张并滤波，得到运动观测器。

可选地，所述训练模块A02，还用于：

上述各程序模块所执行的方法可参照本发明水下仿生机器人运动控制方法各个实施例，此处不再赘述。

本发明还提供一种水下仿生机器人运动控制设备。

本发明设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的水下仿生机器人运动控制程序，所述水下仿生机器人运动控制程序被处理器执行时实现如上所述的水下仿生机器人运动控制方法的步骤。

本发明还提供一种存储介质。

本发明存储介质上存储有水下仿生机器人运动控制程序，所述水下仿生机器人运动控制程序被处理器执行时实现如上所述的水下仿生机器人运动控制方法的步骤。

其中，在所述处理器上运行的水下仿生机器人运动控制程序被执行时所实现的方法可参照本发明水下仿生机器人运动控制方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种水下仿生机器人运动控制方法，其特征在于，所述水下仿生机器人运动控制方法，包括以下步骤：

2.如权利要求1所述水下仿生机器人运动控制方法，其特征在于，所述根据所述尾部构建数据构建尾部运动学模型的步骤，包括：

3.如权利要求1所述水下仿生机器人运动控制方法，其特征在于，所述根据所述尾部运动学模型构建所述水下仿生机器人的目标动力学模型的步骤，包括：

4.如权利要求3所述水下仿生机器人运动控制方法，其特征在于，所述根据所述尾部动力学模型和所述参数数据构建目标动力学模型的步骤，包括：

5.如权利要求4所述水下仿生机器人运动控制方法，其特征在于，所述根据所述机体速度和所述机体角速度构建所述水下仿生机器人的目标动力学模型的步骤，包括：

6.如权利要求1所述水下仿生机器人运动控制方法，其特征在于，所述根据所述设计数据构建所述水下仿生机器人的运动观测器和导航策略的步骤，包括：

7.如权利要求1所述水下仿生机器人运动控制方法，其特征在于，所述根据所述目标动力学模型对构建后的所述水下仿生机器人进行训练，得到最优策略信息的步骤，包括：

8.一种水下仿生机器人运动控制装置，其特征在于，所述水下仿生机器人运动控制装置包括：

9.一种水下仿生机器人运动控制设备，其特征在于，所述水下仿生机器人运动控制设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的水下仿生机器人运动控制程序，所述水下仿生机器人运动控制程序被所述处理器执行时实现如权利要求1至7中任一项所述水下仿生机器人运动控制方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有水下仿生机器人运动控制程序，所述水下仿生机器人运动控制程序被处理器执行时实现如权利要求1至7中任一项所述水下仿生机器人运动控制方法的步骤。