CN117590756B

CN117590756B - 水下机器人的运动控制方法、装置、设备和存储介质

Info

Publication number: CN117590756B
Application number: CN202410078787.7A
Authority: CN
Inventors: 杜军; 米唯实; 任勇; 李宗霖; 侯向往; 门伟; 王子源
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-04-19
Anticipated expiration: 2044-01-19
Also published as: CN117590756A

Abstract

本申请涉及一种水下机器人的运动控制方法、装置、设备、存储介质。所述方法包括：根据控制系统的动力学输入确定水下机器人的期望模型状态信息；采集水下机器人的当前模型状态信息，并基于所述期望模型状态信息、当前模型状态信息构建若干组参数序列；其中，所述参数序列包括水下机器人在目标时间窗对应的模型状态信息，以及对应的模型控制参数；将若干组所述参数序列配置为机器人控制模型的输入参数，获取所述机器人控制模型输出的在当前时间窗下所述期望模型状态信息对应的模型控制参数。本方法能够在不同水流环境下保证对水下机器人的稳定控制效果。

Description

水下机器人的运动控制方法、装置、设备和存储介质

技术领域

本申请涉及自动控制技术领域，特别是涉及一种水下机器人的运动控制方法、装置、设备和存储介质。

背景技术

随着水下机器人技术的不断发展，水下机器人可以应用海洋环境探索、危险水下作业等众多场景。在水下机器人控制领域，自主水下机器人运动控制方法主要包括常用控制方法和智能控制方法两方面，常用传统控制方法主要包括PID（Proportional IntegralDerivative，比例积分微分）控制和最优控制等方式；智能控制方法主要包括滑模控制，模糊控制及自抗扰控制等方式。在相关技术中，对水下机器人的控制方案仍存在一定的问题。基于现有的水下机器人应用实践来看，常用传统控制方法在实验室环境表现较好，但是当PID控制等方法应用到真实海洋环境中时，其往往由于海洋环境的波动，导致其在某一种特定环境下制定的PID参数在时变环境中的控制效果差。对于智能控制方案来说，由于控制模型的设计原因，也存在对于水下时变环境的适应性差、在波动较为剧烈的环境中控制效果不稳定、控制存在滞后性、对算力要求成本高等缺陷。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在不同水流环境下保证稳定控制效果的水下机器人的运动控制方法、装置、设备和存储介质。

第一方面，本申请提供了一种水下机器人的运动控制方法，所述方法包括：

根据控制系统的动力学输入确定水下机器人的期望模型状态信息；

采集水下机器人的当前模型状态信息，并基于所述期望模型状态信息、当前模型状态信息构建若干组参数序列；其中，所述参数序列包括水下机器人在目标时间窗对应的模型状态信息，以及对应的模型控制参数；

将若干组所述参数序列配置为机器人控制模型的输入参数，获取所述机器人控制模型输出的在当前时间窗下所述期望模型状态信息对应的模型控制参数。

在其中一个实施例中，所述模型控制参数包括：

水下机器人对应的执行器参数、动力学控制参数；

所述参数序列包括模型状态信息、执行器参数、动力学控制参数。

在其中一个实施例中，所述方法还包括：

基于所述期望模型状态信息，利用所述水下机器人的动力学模型确定对应的所述动力学控制参数，以用于构建所述参数序列。

在其中一个实施例中，所述方法还包括：

采集当前水流环境对应的水流场参数；

将所述水流场参数输入已训练的水流判别模型，以获取当前水流类型识别结果；

将所述当前水流类型识别结果配置为所述机器人控制模型的输入参数，以用于所述机器人控制模型结合所述当前水流类型识别结果计算所述模型控制参数。

在其中一个实施例中，所述方法还包括：

基于所述水下机器人对应机器人性能参数，结合机器人控制参数确定时间窗超参数；

根据所述时间窗超参数配置所述机器人控制模型的输入参数维度信息。

在其中一个实施例中，所述方法还包括：

确定所述时间窗超参数对应的约束条件；其中，所述约束条件包括机器人性能参数；

根据所述约束条件构建时间窗超参数优化模型，并利用所述时间窗超参数优化模型基于所述机器人控制参数确定所述时间窗超参数。

在其中一个实施例中，所述约束条件包括：所述水下机器人的硬件性能参数、通信信道参数；

所述机器人控制参数包括：控制精度参数、采样间隔参数、能耗控制参数中的至少一项。

在其中一个实施例中，所述方法还包括：

构建所述水下机器人对应的动力学模型，定义所述水下机器人的模型状态和执行器动作；

采集样本数据；所述样本数据包括水下机器人在不同水流环境下的模型控制参数；

建立所述水下机器人的模型状态-执行器参数-动力学控制参数的参数序列，并定义所述水下机器人对应的自注意力机制神经网络模型；

利用样本数据构建所述参数序列，并对所述自注意力机制神经网络模型进行离线训练以获取训练完成的机器人控制模型。

在其中一个实施例中，所述方法还包括：

根据所述机器人模型的训练任务建立元学习优化目标；

构建基于编码器的水流判别模型，并利用所述样本数据中水流环境与模型控制参数之间的参数对应关系，对所述元学习优化目标进行离线学习，以用于对所述机器人控制模型进行优化。

第二方面，本申请还提供了一种水下机器人的运动控制装置，所述装置包括：

模型状态信息获取模块，用于根据控制系统的动力学输入确定水下机器人的期望模型状态信息；

参数序列构建模块，用于采集水下机器人的当前模型状态信息，并基于所述期望模型状态信息、当前模型状态信息构建若干组参数序列；其中，所述参数序列包括水下机器人在目标时间窗对应的模型状态信息，以及对应的模型控制参数；

模型控制参数确定模块，用于将若干组所述参数序列配置为机器人控制模型的输入参数，获取所述机器人控制模型输出的在当前时间窗下所述期望模型状态信息对应的模型控制参数。

第三方面，本申请还提供了一种电子设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述水下机器人的运动控制方法。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现水下机器人的运动控制方法。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现水下机器人的运动控制方法。

上述水下机器人的运动控制方法、装置、计算机设备和存储介质，通过根据控制系统的动力学输入确定水下机器人在当前时间窗的期望的模型状态信息，并结合当前模型状态信息来构建模型控制参数，从而可以将连续的多组参数序列作为输入参数，利用机器人控制模型确定当前时间窗对应的模型控制参数。通过利用多组参数序列来计算当前时间窗下水下机器人的模型控制参数，并利用基于运动学的运动状态观测结果来构建模型参数序列，能够实现对水下机器人进行精准控制，提升对水下机器人控制的鲁棒性。

附图说明

图1为一个实施例中水下机器人的运动控制方法的流程示意图；

图2为一个实施例中水流环境类型判别方法的流程示意图；

图3为一个实施例中机器人控制模型的训练方法的流程示意图；

图4为一个实施例中模型优化方法的流程示意图；

图5为一个实施例中构建时间窗超参数优化模型的方法的流程示意图；

图6为一个实施例中水下机器人的运动控制装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的水下机器人的运动控制方法，可以应用于水下机器人的抗干扰运动控制。

在一个实施例中，如图1所示，提供了一种水下机器人的运动控制方法，包括以下步骤：

步骤S101，根据控制系统的动力学输入确定水下机器人的期望模型状态信息。

其中，控制系统可以是水下机器人的上层控制系统，可以在该控制系统提供一交互界面或通信接口，用户可以在交互界面中，或通过键盘等输入设备输入对水下机器人的控制信息。例如，控制信息可以是水下机器人的坐标信息、航行速度、运行时间、运行深度等信息。

在利用机器人控制模型对水下机器人进行运动控制时，可以在交互界面中或者利用其他的输入设备输入对机器人模型的控制信息。根据该动力学输入，利用水下机器人的动力学模型，可以确定水下机器人的期望模型状态信息。

示例性的，上述的水下机器人可以是任意动力形式，任意一种外观形态的水下机器人。举例来说，水下机器人可以是螺旋桨推进器架构水下机器人、混合式潜航机器人、仿生水下机器人等等。对于水下机器人来说，可以预先根据动力形式、动力学特征来构建对应的动力学模型。通过动力学模型，可以表示水下机器人的模型执行器与模型运动状态之间的数据关系。

步骤S102，采集水下机器人的当前模型状态信息，并基于所述期望模型状态信息、当前模型状态信息构建若干组参数序列；其中，所述参数序列包括水下机器人在目标时间窗对应的模型状态信息，以及对应的模型控制参数。

示例性的，可以是响应控制系统的动力学输入，触发采集水下机器人的当前状态，作为当前模型状态信息。其中，当前模型状态信息可以包括水下机器人的运动方向、加速度、角速度等特征参数。基于采集的当前模型状态信息，当前的模型控制参数，以及在目标时间窗期望的模型状态信息、模型控制参数，以及对应的历史数据，可以构建多组连续的参数序列。其中，参数序列可以是模型控制参数-模型状态信息。例如，第一参数序列为目标时间窗对应的期望模型状态信息-模型控制参数；第二参数序列为利用当前采集的数据构建的当前时间窗对应的当前模型状态-当前模型控制参数；第三参数序列为基于历史数据确定的前一时间窗对应的模型状态信息-模型控制参数。

步骤S103，将若干组所述参数序列配置为机器人控制模型的输入参数，获取所述机器人控制模型输出的在当前时间窗下所述期望模型状态信息对应的模型控制参数。

示例性的，可以将构建的连续的多组参数序列，作为机器人控制模型的输入参数，输入已训练的机器人控制模型，从而得到模型输出的当前时刻的模型控制参数。利用该模型控制参数控制水下机器人进行运动。

具体的，机器人控制模型可以是预先训练的基于自注意力学习（self-attention）机制的transformer模型。基于自注意力学习机制的编码器网络的架构可以包括依次连接的三个编码器层。编码器层的架构可以包括依次设置的self-attention块、第一残差网络层、归一化层，全向网络层、第二残差网络层、归一化层。可以利用编码器网络对输入的参数序列进行掩码处理，对最后一个循环序列的模型执行器输入进行掩码

通过根据控制系统的给出的一个期望的动力学输入，随后对系统本身的状态量测与记录下来的时间窗内水下机器人模型状态-模型控制参数进行组合形成参数序列，并对需要预测的输入进行模型前向操作，最终得到一个预测值，并对产生的运动学量进行观测并替换掉期望输入，从而得到一个新的模型状态-模型控制参数序列，并迭代执行。利用期望的运动学输入进行“序列引导”，并对现在时间的动作进行掩码，并通过transformer模型对其进行动作生成，从而实现对运动的实时控制，并且具备响应时间短的优点。

在一个实施例中，所述模型控制参数包括：水下机器人对应的执行器参数、动力学控制参数；所述参数序列包括模型状态信息、执行器参数、动力学控制参数。

在一个实施例中，所述方法还包括：基于所述期望模型状态信息，利用所述水下机器人的动力学模型确定对应的所述动力学控制参数，以用于构建所述参数序列。

具体的，对于不同动力类型、驱动形式的水下机器人来说，可以利用动力学控制参数来表示机器人模型驱动力的控制参数，利用执行器参数来表示动力组件时的实际控制参数，利用模型状态信息来表示水下机器人的实际运动状态。由于水下机器人的动力学控制参数与执行器参数之间存在必然的函数关系，通过在将其作为参数序列的一部分，可以在模型的训练过程中使模型学习到更准确的数据关系；进而在实际控制过程中能够输出更精确的执行器参数，实现对水下机器人的稳定控制。

在一个实施例中，还可以利用水流判别模型对当前的水流环境类型进行识别；如图2所示，所述方法还包括：

步骤S201，采集当前水流环境对应的水流场参数；

步骤S202，将所述水流场参数输入已训练的水流判别模型，以获取当前水流类型识别结果；

步骤S203，将所述当前水流类型识别结果配置为所述机器人控制模型的输入参数，以用于所述机器人控制模型结合所述当前水流类型识别结果计算所述模型控制参数。

具体来说，在对水下机器人进行实时控制时，还可以利用预先训练的水流判别模型对当前的水流环境进行实时的判别，识别水流类型。对于水流判别模型来说，可以包括与机器人控制模型相同的编码器层，通过一层编码器encoder元层并连接一个分类输出层组成水流判别模型，其输入参数可以为当前采集模型状态信息，输出为水流环境类型的判别结果。水流判别模型基于水下机器人的运动状态，识别当前的水流环境类型。并可以将水流环境类型作为机器人控制系统的输入，影响机器人控制系统的输出，辅助机器人控制系统，使得水下机器人控制系统可以结合机器人控制模型的输出、水流类型识别结果，输出针对当前水流环境的更精准的控制结果，实现对水下机器人的抗干扰运动控制。

本方法通过transformer架构神经网络来感知时序信息，从而实现对水下机器人的高速响应，具备优秀的鲁棒性和抵御水流干扰的控制能力。

在一个实施例中，提供了一种水下机器人的运动控制方法，可以预先训练针对水下机器人的机器人控制模型。如图3所示，水下机器人的机器人控制模型的训练方法可以包括以下步骤：

步骤S301，构建所述水下机器人对应的动力学模型，定义所述水下机器人的模型状态和执行器动作。

其中，可以根据水下机器人的基础属性特征、动力学特征来构建对应的动力学模型。其中，基础属性特征可以包括水下机器人的重量、长度、高度、体积、形态样式中的一项或多项类型的参数，或者，还可以包括其他的参数类型。水下机器人的动力学特征可以包括：动力装置类型、动力源类型、质量、阻力、螺旋桨推力等类型的参数。

其中，水下机器人的模型状态可以是指水下机器人的运动学状态，例如：位置坐标、运动朝向、加速度、角速度等特征。执行器可以是水下机器人动力装置。执行器动作可以是动力装置的控制动作。例如，螺旋桨推进器架构水下机器人的执行器为螺旋桨。

具体的，对于水下机器人来说，在构建对应的动力学模型之后，可以对动力学模型进行运动解耦，实现对动力学模型的简化，得到简化的动力学模型；并定义水下机器人的模型的运动状态和模型的执行器动作。通过对水下机器人的运动状态进行分析并进行运动解耦，有利于后续网络的搭建，以及提升训练数据的利用效率。

示例性地，以一种经典的8螺旋桨推进器架构水下机器人为例，对本方案的方法进行示例性说明。

举例来说，8螺旋桨推进器架构水下机器人，可以布置有水平方向成麦科勒姆布局的四个螺旋桨，并使得整个机器人的重心位于四个螺旋桨形成的力平面内，用以控制水下机器人坐标系在水平面内的全向运动，也即控制水下机器人的偏航角，偏航角速度以及沿水平x/y方向的加速度。在竖直方向呈矩形布置了四个螺旋桨，并使得矩形的中心为机器人重心到该力作用点平面的投影点，用以控制水下机器人正常前进时机器人体坐标系与世界坐标系的Z方向平行，也即控制机器人本体的俯仰角和横滚角为0，并同时控制机器人的沿Z轴的线性运动。

对于8螺旋桨推进器架构水下机器人，对其进行运动学分析；可以将水下机器人水平方向螺旋桨控制和竖直方向螺旋桨控制进行控制解耦，从而简化动力学模型。考虑到水流场常常以水平分量为主，因此对于水下机器人的控制可以进一步简化为水平水层中的抗水流干扰控制问题。对于水下机器人在平面内的控制，可以定义水下机器人的状态为水下机器人在xy平面内的位置，偏航角，沿x轴速度分量和沿y轴速度分量，输入量为沿xy轴加速度以及偏航角角速度；而对于执行器而言，控制系统给予的信号只有四个螺旋桨的电机速度，常常以输入螺旋桨的PWM（Pulse Width Modulation，脉冲宽度调制）波表示。基于上述内容，可以将8螺旋桨推进器架构水下机器人运动的六个自由度简化为三个自由度。其中，u表示该类型水下机器人的前进方向速度，v为横向移动速度，θ为俯仰角，φ为桶滚角，ψ为偏航角。两个坐标系之间存在以下关系：

公式（1）

基于对水下机器人的运动学分析结构，可以构建对应的动力学模型，包括：

公式（2）

其中，m为水下机器人的质量；T为螺旋桨水射流的推力；m_x和m_y分别为纵向和横向附加质量；I_zz和J_zz 分别为围绕重心的转动惯量和附加转动惯量；X_u、Y_v、 Y_r 、 Y_r和 Y_v 为线性水动力导数；X_uu、 X_vv 、X_rr 、Y_|v|v|v|v、N_|v|v|v|v、N_|r|r|r|r为非线性水动力导数。水动力导数通常由平面运动试验（Planar Motion Mechanism，PMM）测试来捕获。特别地，L_pp表示垂直线之间的真实AUV的长度，C_AUV是真实AUV与模型AUV之间的比例因子的倒数。、、/>表示波的扰动。其中，该动力学模型可以由神经网络进行学习获取。

当然，在本公开的其他示例性实时方式中，上述的水下机器人也可以是其他规格、动力形式的水下机器人。例如，可以是仿生机器人。例如仿生式多关节水下机器人。对于不同类型、样式的水下机器人，可以构建不同的动力学模型。

步骤S302，采集样本数据；所述样本数据包括水下机器人在不同水流环境下的模型控制参数。

具体的，可以在实验室环境下制造不同的水流环境，在不同的水流环境中配置不同的流速、流量、水流方向，采集水下机器人在不同的水流环境中的模型控制参数。其中，在每个参数的水流环境中，可以按照预设的时间间隔，采集水下机器人在xy平面内的位置/偏航角/沿x轴速度分量和沿y轴速度分量信息；以及，采集螺旋桨的PWM信息，作为模执行器控制信息；还可以采集x、y轴加速度以及偏航角角速度和对应的时间戳，作为模型的动力学参数。

步骤S303，建立所述水下机器人的模型状态-执行器参数-动力学控制参数的参数序列，并定义所述水下机器人对应的自注意力机制神经网络模型。

具体的，对于采集的数据，可以建立水下机器人模型状态参数、模型执行器控制参数、动力学控制参数，与水流环境参数之间的数据对应关系。根据采集的样本数据建立离线的样本数据集合。

另外，可以将水下机器人的控制方法定义为一个时间窗内的马尔可夫决策过程；并利用采集的样本数据进行离线学习。具体的，对于水下机器人的控制系统期望的运动学输出，可以由水下机器人的动力学模型给出。对于水下机器人的动力学模型的执行，可以将模型状态-模型执行器参数-模型动力学控制参数组成参数序列，可以将特定时间窗口的循环序列作为学习序列。

步骤S304，利用样本数据构建所述参数序列，并对所述自注意力机制神经网络模型进行离线训练以获取训练完成的机器人控制模型。

示例性的，对于参数序列，可以进行基于采集数据时间的time embedding（时间嵌入）。其中，时间嵌入是将时间特征转化为模型能够理解的形式，在时序预测加timeembedding能够帮助模型在处理时间序列数据时更好地建立时间依赖关系，并捕捉到时间的演化规律。

对于时间嵌入处理后的参数序列，可以传入一个基于自注意力学习（self-attention）机制的神经网络进行自注意力学习。基于自注意力学习机制的神经网络可以是包括一个self-attention块，并通过残差连接后进行层归一化，再通过一个基于位置的全向网络以及对应的残差连接和层归一化，最终得到一个编码器encoder层。编码器网络可以包括依次连接的三个编码器encoder层。即，基于自注意力学习机制的编码器网络可以包括依次连接的三个编码器层。编码器层可以包括依次设置的self-attention块、第一残差网络层、归一化层，全向网络层、第二残差网络层、归一化层。

在模型训练时，可以利用编码器网络对输入的参数序列进行掩码处理，对最后一个循环序列的模型执行器输入进行掩码，通过预测值与真实值的误差进行模型的反向传播，从而更新网络参数。最终可以获取训练完成的基于自注意力机制神经网络模型的机器人控制模型。

举例来说，水下机器人的模型运动状态可以包括在二维平面的位置坐标、加速度、偏航旋转角速度。在t₀时刻，将t₀时刻的时间戳信息、运动状态信息、执行器信号，进行时间嵌入处理，利用一掩码模块进行掩码处理；得到t₀时刻的参数序列。对于t_n时刻，将t_n时刻的时间戳信息、运动状态信息、执行器信号，进行时间嵌入处理，利用一掩码模块进行掩码处理，得到t_n时刻的参数序列。

在一个实施例中，如图4所示，所述方法还包括：

步骤S401，根据所述机器人模型的训练任务建立元学习优化目标；

步骤S402，构建基于编码器的水流判别模型，并利用所述样本数据中水流环境与模型控制参数之间的参数对应关系，对所述元学习优化目标进行离线学习，以用于对所述机器人控制模型进行优化。

具体的，为了防止深层网络对于训练数据集不足产生的过拟合问题，还可以提供一个水流判别模型作为辅助模型，用于水流情况识别。具体的，水流判别模型可以采用如上述的编码器层，在编码器层后连接一个分类输出层组成。水流类型的判别标签由收集数据的情况决定，如平面内的水流情况可以由一个二维向量表示，由一个标量表示。通过水流判别模型对水流情况的预测和实际标签值计算损失，并由此对网络进行反向传播。

举例来说，对于水流判别模型，采集的水下机器人的模型运动状态可以包括在二维平面的位置坐标、加速度、偏航旋转角速度。在t₀时刻，将t₀时刻的时间戳信息、运动状态信息、执行器信号，进行时间嵌入处理，得到t₀时刻的时间嵌入后的参数。对于t_n时刻，将t_n时刻的时间戳信息、运动状态信息、执行器信号，进行时间嵌入处理，得到t_n时刻的时间嵌入后的参数。将n个时刻的参数输入自注意力模型，输出水流环境的判别结果。

在模型训练时，可以将机器人控制模型和水流判别模型定义为两个函数。假设系统状态x∈Rⁿ；c用于表示环境变化的隐藏状态，即水流环境的类型。具体的，需要学习函数f(x(t),c(t))；其中该函数可以包括：

其中，包含c变体的部分；/>是隐藏状态c(t)的隐式函数；d(t)为残差噪声项。元学习的目的是学习/>，使其不包含任何关于c的信息。为了实现这个目标，我们引入另一个神经网络h，利用/>尝试预测c。

损失函数定义为：

公式（3）

示例性的，在模型训练时，可以包括：

步骤1），数据采样；对于上述的样本集合，可以抽样c，和B+K个数据点。

步骤2），估算a值并进行规范化；可以使用最小二乘法估算a值并进行规范化；具体的，可以从相同的水流场条件c中采样K个数据点用于计算a；可以是使用最小二乘法进行自适应运算，公式可以包括：

公式（4）

对应的，解为：。其中，a为隐式函数，用于表征水动力学部分，包括黏性类水动力/惯性类水动力等等。

步骤3），固定判别网络并训练预测网络；使用上述a值，以及另外的B个具有相同的c值数据点用于计算梯度下降，并使用以下损失函数：

公式（5）

步骤4），固定预测网络并训练判别网络；利用B个数据点再次用于计算判别网络的梯度下降，并使用以下损失函数：

公式（6）

在离线情况下，对元学习优化目标进行离线学习。通过使用元学习架构能够防止水下机器人在训练时过度拟合而对水下机器人控制产生不良影响，并且可以对不同环境进行系统辨识并应用于水下机器人集群中，以实现对水下环境的参数化流场重建。

在一个实施例中，如图5所示，所述方法还包括：

步骤S501，确定所述时间窗超参数对应的约束条件；其中，所述约束条件包括机器人性能参数；

步骤S502，根据所述约束条件构建时间窗超参数优化模型，并利用所述时间窗超参数优化模型基于所述机器人控制参数确定所述时间窗超参数。

具体的，对于机器人控制模型，还可以配置一时间窗超参数，利用该时间窗超参数决定控制系统在进行动作预测时，需要利用多少组参数序列来作为输入，也决定了网络输入维度。对于时间超参数的确定，可以被定义为一个在约束条件下的多目标优化问题，其优化目标是在最大化控制精度的同时进行能量和鲁棒性优化。基于确定的约束条件构建时间窗超参数优化模型。

在一个实施例中，时间窗超参数优化模型对应约束条件包括：所述水下机器人的硬件性能参数、通信信道参数；所述机器人控制参数包括：控制精度参数、采样间隔参数、能耗控制参数中的至少一项。

具体的，在时间窗超参数优化模型的优化条件为符合水下机器人的具体硬件性能和最大信道频率，计算公式可以包括：

公式（7）

其中，为待优化的时间窗超参数；/> 表示由/>决定的控制精度；/> 表示由/>决定的能量消耗；/> 表示由/>决定的每次采样的采样间隔数据的方差，用以表征采样鲁棒性；k、m作为归一化函数，用于表示优化权重。该优化的约束条件为𝜏的取值要符合硬件限制和通信限制。

在机器人控制模型运行时，便可以根据该时间窗超参数来确定模型输入参数的数据维度。满足机器人控制模型对于控制精度、灵敏度的要求。

本申请实施例提供一种基于自注意力机制元学习算法的水下机器人抗干扰运动控制方法，通过结合自身时间窗内水下机器人的模型运动状态进行观测，对水下机器人的运动进行鲁棒稳定的动力学控制。通过对模型离线学习、训练的方式，解决水下机器人在线优化神经网络的算力缺乏和工程困难问题，以及克服现有方法在线强化学习的响应滞后问题。在对水下机器人的控制过程中，通过对于机器人系统运动状态的观测，该时刻动力学执行器的输入和下一时刻获得的运动学输入建立一个参数序列，并利用自注意力机制和元学习的方法进行序列学习，从而根据任务获得的对于下一时间点运动状态的期望输入，利用训练好的模型，对系统在本时刻的动力学执行器输入进行预测输出，最终达到控制机器人的目的。本方法在清华大学天津电子研究院的水池中进行了工程化验证，减小了网络前向传播时间，从而减小了离散控制的响应时间，提高了上位机对下位控制板的通信频率，提高了最终控制效果的鲁棒性和稳定性。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的方法的水下机器人的运动控制装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个水下机器人的运动控制装置实施例中的具体限定可以参见上文中对于医疗影像的分析方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种水下机器人的运动控制装置600包括：

模型状态信息获取模块601，用于根据控制系统的动力学输入确定水下机器人的期望模型状态信息；

参数序列构建模块602，用于采集水下机器人的当前模型状态信息，并基于所述期望模型状态信息、当前模型状态信息构建若干组参数序列；其中，所述参数序列包括水下机器人在目标时间窗对应的模型状态信息，以及对应的模型控制参数；

模型控制参数确定模块603，用于将若干组所述参数序列配置为机器人控制模型的输入参数，获取所述机器人控制模型输出的在当前时间窗下所述期望模型状态信息对应的模型控制参数。

在其中一个实施例中，所述模型控制参数包括：水下机器人对应的执行器参数、动力学控制参数；所述参数序列包括模型状态信息、执行器参数、动力学控制参数。

在其中一个实施例中，所述参数序列构建模块602，还用于：基于所述期望模型状态信息，利用所述水下机器人的动力学模型确定对应的所述动力学控制参数，以用于构建所述参数序列。

在其中一个实施例中，所述装置还包括：水流类型判别模块，用于采集当前水流环境对应的水流场参数；将所述水流场参数输入已训练的水流判别模型，以获取当前水流类型识别结果；将所述当前水流类型识别结果配置为所述机器人控制模型的输入参数，以用于所述机器人控制模型结合所述当前水流类型识别结果计算所述模型控制参数。

在其中一个实施例中，所述装置还包括：时间窗超参数配置模块，用于基于所述水下机器人对应机器人性能参数，结合机器人控制参数确定时间窗超参数；根据所述时间窗超参数配置所述机器人控制模型的输入参数维度信息。

在其中一个实施例中，所述时间窗超参数配置模块，还用于：确定所述时间窗超参数对应的约束条件；其中，所述约束条件包括机器人性能参数；根据所述约束条件构建时间窗超参数优化模型，并利用所述时间窗超参数优化模型基于所述机器人控制参数确定所述时间窗超参数。

在其中一个实施例中，所述装置还包括：模型训练模块，用于构建所述水下机器人对应的动力学模型，定义所述水下机器人的模型状态和执行器动作；采集样本数据；所述样本数据包括水下机器人在不同水流环境下的模型控制参数；建立所述水下机器人的模型状态-执行器参数-动力学控制参数的参数序列，并定义所述水下机器人对应的自注意力机制神经网络模型；利用样本数据构建所述参数序列，并对所述自注意力机制神经网络模型进行离线训练以获取训练完成的机器人控制模型。

在其中一个实施例中，所述装置还包括：模型优化模块，用于根据所述机器人模型的训练任务建立元学习优化目标；构建基于编码器的水流判别模型，并利用所述样本数据中水流环境与模型控制参数之间的参数对应关系，对所述元学习优化目标进行离线学习，以用于对所述机器人控制模型进行优化。

上述水下机器人的运动控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种医疗影像的分析方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magneto resistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种水下机器人的运动控制方法，其特征在于，所述方法包括：

将若干组所述参数序列配置为机器人控制模型的输入参数，获取所述机器人控制模型输出的在当前时间窗下所述期望模型状态信息对应的模型控制参数；

基于所述水下机器人对应机器人性能参数，结合机器人控制参数确定时间窗超参数；根据所述时间窗超参数配置所述机器人控制模型的输入参数维度信息；其中，所述时间窗超参数的约束条件包括机器人性能参数。

2.根据权利要求1所述的方法，其特征在于，所述模型控制参数包括：

水下机器人对应的执行器参数、动力学控制参数；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采集当前水流环境对应的水流场参数；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述时间窗超参数对应的约束条件；

6.根据权利要求5所述的方法，其特征在于，所述约束条件包括：所述水下机器人的硬件性能参数、通信信道参数；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

根据所述机器人模型的训练任务建立元学习优化目标；

9.一种水下机器人的运动控制装置，其特征在于，所述装置包括：

模型控制参数确定模块，用于将若干组所述参数序列配置为机器人控制模型的输入参数，获取所述机器人控制模型输出的在当前时间窗下所述期望模型状态信息对应的模型控制参数；

时间窗超参数配置模块，用于基于所述水下机器人对应机器人性能参数，结合机器人控制参数确定时间窗超参数；根据所述时间窗超参数配置所述机器人控制模型的输入参数维度信息；其中，所述时间窗超参数的约束条件包括机器人性能参数。

10.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。