CN117806364B

CN117806364B - 航行器路径跟踪控制器的对抗学习架构、控制方法和装置

Info

Publication number: CN117806364B
Application number: CN202311785947.3A
Authority: CN
Inventors: 向先波; 王召; 杨少龙; 向巩; 张嘉磊
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-05-28
Anticipated expiration: 2043-12-22
Also published as: CN117806364A

Abstract

本发明公开了航行器路径跟踪控制器的对抗学习架构、控制方法和装置，属于航行器自动控制领域。本发明使控制器适应性学习未知扰动作用下产生的状态分布，实现三维空间目标路径鲁棒跟踪控制。本发明采用长短期记忆神经网络与多层感知机构建控制器与对抗深度网络，通过深度强化学习方法训练控制器将高频采样的状态信息序列转换为控制量。训练过程中通过引入对抗体输出对抗控制量使航行器产生不同的状态分布，提高控制器的泛化能力。上述控制器与对抗学习架构部署于航行器的艇载/机载计算机上，对传感器反馈的状态数据高频采样，通过实时训练控制执行机构，实现未知扰动作用下航行器对三维空间目标路径的鲁棒跟踪控制。

Description

航行器路径跟踪控制器的对抗学习架构、控制方法和装置

技术领域

本发明属于航行器自动控制领域，更具体地，涉及航行器路径跟踪控制器的对抗学习架构、控制方法和装置。

背景技术

水下航行器在海洋调查和水下作业方面发挥着至关重要的作用，如资源勘探、海底测绘、水下打捞和海洋结构维护等。然而，水下环境存在的不确定、难观测的扰流作用，对水下航行器保持高精度作业提出重大挑战。特别是，对于水下航行器路径跟踪任务，需要同时保证水平面与深度面的控制精度。在一些特定场景下，水下航行器还需要在其他作业机构的扰动作用下开展作业，此时基于非线性观测器的经典水下航行器路径跟踪控制算法在水下航行器水动力模型不确定性与强非线性耦合扰动作用条件下，很难保证路径跟踪控制精度，导致航行器艇体振荡。因此，如何使控制器适应水下航行器不同的状态分布，提高强扰动作用下控制器的路径跟踪鲁棒性是解决问题的关键。

发明内容

针对现有技术的缺陷，本发明的目的在于提供航行器路径跟踪控制器的对抗学习架构、控制方法和装置，旨在解决当前航行器在作业环境中复杂扰动作用下路径跟踪精度难以保障的问题，提高航行器路径跟踪的抗扰能力。

为实现上述目的，第一方面，本发明提供了一种航行器路径跟踪控制器的对抗学习方法，所述航行器路径跟踪控制器解耦为水平面控制器与深度面控制器，所述方法包括：

确定水平面/深度面控制器当前状态元组，输入至水平面/深度面控制器学习架构，得到水平面/深度面控制向量，再映射为水平面/深度面真实控制向量；

确定水平面/深度面控制对抗体当前状态元组，输入至水平面/深度面控制对抗体学习架构，得到水平面/深度面对抗控制向量，再映射为水平面/深度面真实对抗控制向量；

叠加水平面/深度面真实控制量和真实对抗控制向量，得到水平面/深度面最终控制量，反馈给航行器，并添加新的状态元组；

按照上述方式进行训练，直至满足停止条件，得到训练好的水平面控制器与深度面控制器，其中，

所述水平面/深度面控制器学习架构基于TD3算法构建，其中，actor网络为水平面/深度面控制器网络，由长短期记忆神经网络与多层感知机级联构成，用于将输入的水平面/深度面状态信息序列转换为水平面/深度面控制向量；评判网络均采用多层感知机；

所述水平面/深度面控制对抗体学习架构基于TD3算法构建，其中，actor网络为水平面/深度面控制对抗体网络，其由多层感知机构成，用于将输入的水平面/深度面状态信息序列转换为水平面/深度面对抗控制向量；评判网络均采用多层感知机。

优选地，在每一个控制周期分别从状态记忆缓冲区随机采样批量状态元组，水平面控制器状态元组为({s_r},a_r,R_r,{s_r}′)，水平面控制对抗体状态元组为深度面控制器状态元组为({s_s},a_s,R_s,{s_s}′)，深度面控制对抗体状态元组为

其中，{s_r}为上一个控制周期时状态向量序列，d_r为水平面控制向量，R_r为基于水平面控制代价函数计算的代价值，{s_r}′为新的控制周期采样更新的状态向量序列；为上一个控制周期时状态向量序列{s_r}的最后一行状态向量，/>为水平面控制对抗向量，/>为基于水平面控制对抗代价函数计算的代价值，/>为新的控制周期采样更新的状态向量序列{s_r}′的最后一行状态向量；{s_s}为上一个控制周期时状态向量序列，a_s为深度面控制向量，R_s为基于深度面控制代价函数计算的代价值，{s_s}′为新的控制周期采样更新的状态向量序列；/>为上一个控制周期时状态向量序列{s_s}的最后一行状态向量，/>为深度面控制对抗向量，/>为基于深度面控制对抗代价函数计算的代价值，/>为新的控制周期采样更新的状态向量序列{s_s}′的最后一行状态向量。

优选地，

a_r＝{δ_r,Ω_rh,Ω_rs}

a_s＝{δ_s,Ω_sh,Ω_ss}

其中，y_e为航行器与目标路径在水平面投影相对位置偏距，ψ_e为航行器艏向偏差角，为航行器横滚角，u为航行器前向速度，v为航行器侧向速度，w为航行器垂向速度，p为航行器横滚角速度，q为航行器纵倾角速度，r为航行器艏向角速度；δ_r为航行器转向舵舵角，Ω_rh为航行器艏部侧向辅助推进器转速，Ω_rs为航行器艉部侧向辅助推进器转速，对于未布置辅助推进器的欠驱动航行器，水平面控制输出仅包含δ_r；z_e为航行器与目标路径在深度面投影相对位置偏距；δ_s为航行器升降舵舵角，Ω_sh为航行器艏部垂向辅助推进器转速，Ω_ss为航行器艉部垂向辅助推进器转速，对于未布置辅助推进器的欠驱动航行器，深度面控制输出仅包含δ_s；/>为目标路径水平面相对位置偏距代价权重，/>为航行器艏向角偏差，/>为航行器横滚角代价权重，k_p为航行器横滚角速度代价权重，k_r为航行器艏向角速度代价权重，k_z为目标路径深度误差代价权重，/>为航行器横滚角代价权重，k_p为航行器横滚角速度代价权重，k_q为航行器纵倾角速度代价权重。

优选地，水平面/深度面控制器学习架构中，将状态元组中的上一个控制周期时状态向量序列输入给actor网络，将新的控制周期采样更新的状态向量序列输入给目标actor网络，将状态向量序列的一维展开向量和控制向量作为各评判网络的输入。

优选地，水平面/深度面控制对抗体学习架构中，将状态元组中的上一个控制周期时状态向量序列的最后一行状态向量输入给actor网络，将新的控制周期时状态向量序列的最后一行状态向量输入给目标actor网络，将上一个控制周期时状态向量序列的最后一行状态向量的一维展开向量和控制向量作为各评判网络的输入。

优选地，所述映射的具体方式如下：先经过双曲正切函数映射至(-1,1)区间，再经过线性放大器将控制量映射至各对抗控制量的阈值区间。

为实现上述目的，第二方面，本发明提供了一种航行器路径跟踪控制方法，包括：

采样航行器的状态信息，转化为水平面和深度面状态信息序列；

将水平面和深度面状态信息序列分别输入至训练好的水平面控制器与深度面控制器，得到水平面和深度面控制向量；

将水平面和深度面控制量分别映射为真实控制向量，反馈给航行器；

所述水平面控制器与深度面控制器采用如第一方面所述的方法训练。

为实现上述目的，第三方面，本发明提供了一种航行器路径跟踪控制器的对抗学习装置，包括：至少一个存储器，用于存储程序；至少一个处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如第一方面所述的方法。

为实现上述目的，第四方面，本发明提供了一种航行器路径跟踪控制装置，包括：至少一个存储器，用于存储程序；至少一个处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如第二方面所述的方法。

为实现上述目的，第五方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在处理器上运行时，使得所述处理器执行如第一方面或者第二方面所述的方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种航行器路径跟踪控制器的对抗学习架构、控制方法和装置，使控制器适应性学习未知扰动作用下产生的状态分布，实现三维空间目标路径鲁棒跟踪控制。采用长短期记忆神经网络与多层感知机构建控制器与对抗深度网络，通过深度强化学习方法训练控制器将高频采样的状态信息序列转换为控制量。训练过程中通过引入对抗体输出对抗控制量使航行器产生不同的状态分布，提高控制器的泛化能力。上述控制器与对抗学习架构部署于航行器的艇载/机载计算机上，对传感器反馈的状态数据高频采样，通过实时训练控制执行机构，实现未知扰动作用下航行器对三维空间目标路径的鲁棒跟踪控制。

附图说明

图1是本发明实施例提供的面向水下航行器路径跟踪鲁棒控制的对抗学习方法流程示意图。

图2是本发明实施例提供的面向水下航行器路径跟踪鲁棒控制的对抗学习方法的控制器架构图之一。

图3是本发明实施例提供的面向水下航行器路径跟踪鲁棒控制的对抗学习方法的控制器架构图之二。

图4是本发明实施例提供的典型欠驱动水下航行器示意图。

图5是本发明实施例提供的半实物仿真试验的路径跟踪曲线图。

图6是本发明实施例提供的半实物仿真对比试验的深度跟踪曲线图。

图7是本发明实施例提供的面向水下航行器路径跟踪鲁棒控制的对抗学习系统的结构示意图。

图8是本发明实施例提供的水下航行器艇载工控机的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

接下来，结合图1至图8对本发明实施例中提供的技术方案进行介绍。

图1是本发明实施例提供的水下航行器自主对接过程中的定位方法的流程示意图之一，如图1所示，该方法的执行主体为水下航行器艇载工控机，至少包括以下步骤：

S101、设计水平面控制器与深度面控制器的状态输入与控制输出，通过高频采样获取水下航行器的状态信息序列，采用长短期记忆神经网络与多层感知机构建控制器，将状态信息序列转换为控制量。

S102、根据所述设计的水平面控制器与深度面控制器的状态输入与控制输出，采用多层感知机构建控制器对抗体，将状态信息向量转换为对抗控制量。

S103、构建水平面控制器与深度面控制器的目标行为网络、评判网络以及目标评判网络，构建水平面控制器对抗体与深度面控制器对抗体的目标行为网络、评判网络以及目标评判网络。

S104、训练初始化时建立水平面控制器、深度面控制器、水平面控制器对抗体以及深度面控制器对抗体的状态记忆缓冲区。

S105、基于构建控制学习架构，结合所述控制器目标行为网络、评判网络与目标评判网络，从所述状态记忆缓冲区随机采样训练控制器。

S106、基于双延迟深度确定性策略梯度算法构建对抗学习架构，结合所述对抗体目标行为网络、评判网络与目标评判网络，从所述状态记忆缓冲区随机采样训练控制对抗体。

S107、结合所述控制学习架构与对抗学习架构同步训练控制器及对抗体。在对抗控制作用下，控制器学习最优控制策略提高对不确定状态分布的泛化能力并实现对状态变化趋势的预测，实现三维空间目标路径鲁棒跟踪控制。

在一些实施例中，控制器的状态输入与控制输出，以及控制器深度网络维度按照如下流程确定：

水下航行器路径跟踪控制器解耦为水平面控制器与深度面控制器，分别设计状态输入与控制输出。其中，水平面控制器状态输入为状态向量s_r的序列{s_r}：

其中，y_e为航行器与目标路径在水平面投影相对位置偏距，ψ_e为航行器艏向偏差角，为航行器横滚角，u为航行器前向速度，v为航行器侧向速度，w为航行器垂向速度，p为航行器横滚角速度，q为航行器纵倾角速度，r为航行器艏向角速度。

水平面控制器控制输出为所示控制向量a_r：

a_r＝{δ_r,Ω_rh,Ω_rs}

其中，δ_r为航行器转向舵舵角，Ω_rh为航行器艏部侧向辅助推进器转速，Ω_rs为航行器艉部侧向辅助推进器转速。对于未布置辅助推进器的欠驱动水下航行器，水平面控制输出仅包含δ_r。

深度面控制器状态输入为状态向量s_s的序列{s_s}：

其中，z_e为航行器与目标路径在深度面投影相对位置偏距，为航行器横滚角，u为航行器前向速度，v为航行器侧向速度，w为航行器垂向速度，p为航行器横滚角速度，q为航行器纵倾角速度，r为航行器艏向角速度。

深度面控制器控制输出为所示控制向量a_s：

a_s＝{δ_s,Ω_sh,Ω_ss}

其中，δ_s为航行器升降舵舵角，Ω_sh为航行器艏部垂向辅助推进器转速，Ω_ss为航行器艉部垂向辅助推进器转速。对于未布置辅助推进器的欠驱动水下航行器，深度面控制输出仅包含δ_s。

在一些实施例中，如图2所示，采用长短期记忆网络与多层感知机构建控制器深度网络。具体为：

长短期记忆网络与多层感知机级联组成深度网络，分别构建水平面控制器与深度面控制器。对于水平面控制器深度网络长短期记忆网络部分的输入维度与所述状态向量s_r的序列{s_r}一致，输出维度与所述状态向量s_r一致，多层感知机部分的输入维度与所述状态向量s_r一致，输出维度与所述控制向量a_r一致；对于深度面控制器/>长短期记忆网络部分的输入维度与所述状态向量s_s的序列{s_s}一致，输出维度与所述状态向量s_s一致，多层感知机部分的输入维度与所述状态向量s_s一致，输出维度与所述控制向量a_s一致。

在一些实施例中，对抗体的状态输入与对抗控制输出，以及对抗体深度网络维度按照如下流程确定：

根据水平面控制器与深度面控制器的状态输入与控制输出，采用多层感知机分别构建水平面控制器与深度面控制器的对抗体深度网络与/>其中，水平面控制器对抗体状态输入为状态向量s_r，对抗控制输出为所示控制对抗向量/>

其中，为对抗转向舵舵角，/>为艏部侧向辅助推进器对抗转速，/>为艉部侧向辅助推进器对抗转速。对于未布置辅助推进器的欠驱动水下航行器，对抗控制输出仅包含

深度面控制器对抗体状态输入为状态向量s_s，对抗控制输出为所示控制对抗向量

其中，为对抗升降舵舵角，/>为艏部垂向辅助推进器对抗转速，/>为艉部垂向辅助推进器对抗转速。对于未布置辅助推进器的欠驱动水下航行器，对抗控制输出仅包含

在一些实施例中，控制器目标行为网络、评判网络以及目标评判网络的构建流程为：

分别从水平面控制器与深度面控制器拷贝深度网络参数构建目标行为网络与采用多层感知机构建水平面控制器评判网络/>与/>水平面控制器目标评判网络与/>以及深度面控制器评判网络/>与/>深度面控制器目标评判网络/>与/>其中，水平面控制器评判网络与目标评判网络输出为一个评价数值/>输入为所示状态向量序列{s_r}的一维展开向量{s_r}_f和控制向量：

其中，为状态向量序列{s_r}的第一行状态向量，/>为状态向量序列{s_r}的最后一行状态向量，n表示状态向量序列{s_r}的采样数，即序列包含状态向量的个数。

深度面控制器评判网络与目标评判网络输出为一个评价数值输入为所示状态向量序列{s_s}的一维展开向量{s_s}_f：

其中，为状态向量序列{s_s}的第一行状态向量，/>为状态向量序列{s_s}的最后一行状态向量，n表示状态向量序列{s_s}的采样数，即序列包含状态向量的个数。

在一些实施例中，对抗体目标行为网络、评判网络以及目标评判网络构建流程具体为：

分别从水平面控制器与深度面控制器的对抗体拷贝深度网络参数构建目标行为网络与/>采用多层感知机构建水平面控制器对抗体评判网络/>与/>水平面控制器对抗体目标评判网络/>与/>以及深度面控制器对抗体评判网络/>与/>深度面控制器对抗体目标评判网络/>与/>其中，水平面控制器对抗体评判网络与目标评判网络输入为所述状态向量序列{s_r}的最后一行状态向量/>与控制对抗向量/>输出为一个评价数值/>深度面控制器对抗体评判网络与目标评判网络输入为所述状态向量序列{s_r}的最后一行状态向量/>与控制对抗向量/>输出为一个评价数值/>

在一些实施例中，训练初始化时建立水平面控制器、深度面控制器、水平面控制器对抗体以及深度面控制器对抗体的状态记忆缓冲区。具体为：

对抗学习初始化时，建立水平面控制器、深度面控制器、水平面控制器对抗体以及深度面控制器对抗体的状态记忆缓冲区B_r,B_s,在每一个新的控制周期，B_r添加一个新的元组：

({s_r},a_r,R_r,{s_r}′)

其中，R_r为基于水平面控制代价函数计算的代价值，{s_r}为上一个控制周期时状态向量序列，a_r为水平面控制向量，{s_r}′为新的控制周期采样更新的状态向量序列。

B_s添加一个新的元组：

({s_s},a_s,R_s,{s_s}′)

其中，R_s为基于深度面控制代价函数计算的代价值，{s_s}为上一个控制周期时状态向量序列，a_s为深度面控制向量，{s_s}′为新的控制周期采样更新的状态向量序列。

添加一个新的元组：

其中，为基于水平面控制对抗代价函数计算的代价值，/>为上一个控制周期时状态向量序列{s_r}的最后一行状态向量，/>为水平面控制对抗向量，/>为新的控制周期采样更新的状态向量序列{s_r}′的最后一行状态向量。

添加一个新的元组：

其中，为基于深度面控制对抗代价函数计算的代价值，/>为上一个控制周期时状态向量序列{s_s}的最后一行状态向量，/>为深度面控制对抗向量，/>为新的控制周期采样更新的状态向量序列{s_s}′的最后一行状态向量。

在训练过程中的一个控制周期，控制器与对抗体代价值的计算过程具体如下：

水平面控制器代价值计算公式如下：

其中，为目标路径水平面相对位置偏距代价权重，/>为航行器艏向角偏差，/>为航行器横滚角代价权重，k_p为航行器横滚角速度代价权重，k_r为航行器艏向角速度代价权重。

深度面控制器代价值计算公式如下：

其中，k_z为目标路径深度误差代价权重，为航行器横滚角代价权重，k_p为航行器横滚角速度代价权重，k_q为航行器纵倾角速度代价权重。

水平面控制对抗体代价值计算公式如下：

深度面控制对抗体代价值计算公式如下：

在一些实施例中，如图3所示深度面控制器为例，基于双延迟深度确定性策略梯度算法构建控制学习架构，结合所述控制器目标行为网络、评判网络与目标评判网络，从所述状态记忆缓冲区随机采样训练控制器。具体训练过程为：

训练过程中，在每一个控制周期分别从状态记忆缓冲区B_r,B_s随机采样批量元组，数量为N。将状态向量序列{s_r}′与{s_s}′分别输入水平面控制器目标行为网络与深度面控制器目标行为网络/>添加随机噪声ε后得到目标控制向量/>与/>

将状态向量序列{s_r}′与{s_s}′按一维展开得到向量{s′_r}_f与{s′_s}_f，分别输入水平面控制器目标评判网络与/>以及深度面控制器目标评判网络/>与/>结合记忆缓冲区采样元组的代价值，得到目标控制向量的评价值/>与/>

其中，γ表示折扣系数。

将状态向量序列{s_r}与{s_s}按一维展开得到向量{s_r}_f与{s_s}_f，结合记忆缓冲区采样元组的控制向量，更新控制器评判网络参数：

其中，N表示随机采样批量元组的数量。

基于确定性策略梯度，更新控制器深度网络参数：

其中，表示梯度计算符号，φ_r表示水平面控制器网络参数，φ_s表示深度面控制器网络参数。

更新控制器目标行为网络参数：

φ′_r＝kφ_r+(1-k)φ′_r

φ′_s＝kφ_s+(1-k)φ′_s

其中，k为目标行为网络参数拷贝的更新率，φ′_r表示水平面控制器目标行为网络参数，φ′_s表示深度面控制器目标行为网络参数。

更新控制器目标评判网络参数：

其中，k为目标评判网络参数拷贝的更新率，θ′_i ^r表示水平面控制器目标评判网络参数，θ′_i ^s表示深度面控制器目标评判网络参数。

在一些实施例中，如图3所示深度面控制对抗体为例，基于双延迟深度确定性策略梯度算法构建对抗学习架构，结合所述对抗体目标行为网络、评判网络与目标评判网络，从所述状态记忆缓冲区随机采样训练控制器。具体训练过程为：

训练过程中，在每一个控制周期分别从状态记忆缓冲区随机采样批量元组，数量为N。将状态向量s′_r ⁿ与s′_s ⁿ分别输入水平面控制对抗体目标行为网络/>与深度面控制对抗体目标行为网络/>添加随机噪声ε后得到目标控制对抗向量/>与/>

将状态向量s′_r ⁿ输入水平面控制对抗体目标评判网络与/>状态向量s′_s ⁿ输入深度面控制对抗体目标评判网络/>与/>结合记忆缓冲区采样元组的代价值得到目标控制对抗向量的评价值/>与/>

将状态向量输入水平面控制对抗体评判网络/>与/>状态向量/>输入深度面控制对抗体目标评判网络/>与/>结合记忆缓冲区采样元组的控制对抗向量更新对抗体评判网络参数：

基于确定性策略梯度更新对抗体深度网络参数：

其中，为梯度计算符号，/>表示水平面控制对抗体网络参数，/>表示深度面控制对抗体网络参数。

更新对抗体目标行为网络参数：

其中，k为目标行为网络参数拷贝的更新率，φ′_r表示水平面控制对抗体目标行为网络参数，φ′_s表示深度面控制对抗体目标行为网络参数。

更新对抗体目标评判网络参数：

其中，k为目标评判网络参数拷贝的更新率，表示水平面控制对抗体目标评判网络参数，/>表示深度面控制对抗体目标评判网络参数。

在一些实施例中，结合所述控制学习架构与对抗学习架构同步训练控制器及对抗体。在对抗控制作用下，控制器学习最优控制策略提高对不确定状态分布的泛化能力并实现对状态变化趋势的预测，实现三维空间目标路径鲁棒跟踪控制。具体为：

对于训练过程中的每一个控制周期，控制器网络输出的控制向量中各控制量经过双曲正切函数映射至(-1,1)区间，再经过线性放大器将控制量映射至各控制量的阈值区间，得到真实控制量。

对于水平面控制器有：

δ_r←δ_rmaxtanh(δ_r)

Ω_rh←Ω_rhmaxtanh(Ω_rh)

Ω_rs←Ω_rsmaxtanh(Ω_rs)

其中，tanh表示双曲正切函数，δ_rmax为航行器转向舵最大舵角的绝对值，Ω_rhmax为航行器艏部侧向辅助推进器最大转速的绝对值，Ω_rsmax为航行器艉部侧向辅助推进器最大转速的绝对值。对于未布置辅助推进器的欠驱动水下航行器，水平面控制输出仅包含δ_r。

对于深度面控制器有：

δ_s←δ_smaxtanh(δ_s)

Ω_sh←Ω_shmaxtanh(Ω_sh)

Ω_ss←Ω_ssmaxtanh(Ω_ss)

其中，δ_smax为航行器升降舵最大舵角的绝对值，Ω_shmax为航行器艏部垂向辅助推进器最大转速的绝对值，Ω_ssmax为航行器艉部垂向辅助推进器最大转速的绝对值。对于未布置辅助推进器的欠驱动水下航行器，深度面控制输出仅包含δ_s。

对于训练过程中的每一个控制周期，对抗体网络输出的控制对抗向量中各对抗控制量经过双曲正切函数映射至(-1,1)区间，再经过线性放大器将控制量映射至各对抗控制量的阈值区间，得到真实对抗控制量。

对于水平面控制对抗体有：

其中，为对抗转向舵最大舵角的绝对值，/>为航行器艏部侧向辅助推进器最大对抗转速的绝对值，/>为航行器艉部侧向辅助推进器最大对抗转速的绝对值。对于未布置辅助推进器的欠驱动水下航行器，水平面控制对抗输出仅包含/>

对于深度面控制对抗体有：

其中，为对抗升降舵最大舵角的绝对值，/>为航行器艏部垂向辅助推进器最大对抗转速的绝对值，/>为航行器艉部垂向辅助推进器最大对抗转速的绝对值。对于未布置辅助推进器的欠驱动水下航行器，深度面控制对抗输出仅包含/>

结合所述真实控制量与真实对抗控制量，得到作用于水下航行器执行机构的最终控制量：

其中，为航行器执行转向舵，/>为艏部侧向辅助推进器执行转速，/>为艉部侧向辅助推进器执行转速，/>为航行器执行转向舵，/>为艏部垂向辅助推进器执行转速，/>为艉部垂向辅助推进器执行转速。对于未布置辅助推进器的欠驱动水下航行器，最终控制量仅包含/>与/>本发明在训练过程中通过引入对抗体输出对抗控制量使水下航行器产生不同的状态分布，提高控制器的泛化能力。

本发明的整套方法不仅适用于水下航行器，同样适用于空中航行器。

为验证本发明方法的路径跟踪效果和抗扰能力，使用如图4所示的一种典型的欠驱动水下航行器的艇载工控机与数字模型作为半实物仿真试验平台。该水下航行器在深度面运动只有推进器提供推力，升降舵提供纵倾控制力矩，控制力数量小于自由度数量，具有欠驱动特性。仿真平台具有反馈六自由度位置、速度及姿态等状态信息的能力，适合构成半实物仿真系统用以验证面向水下航行器路径跟踪鲁棒控制的对抗学习方法。

图5是本发明实施例提供的半实物仿真试验的路径跟踪曲线图，半实物仿真环境中航行器初始位置相对于目标跟踪路径的水平面偏距约为90m，期望艏向角约1.4°，目标跟踪路径深度15.8m，且航行器受到随机外部扰动作用影响路径跟踪。从图5可以看出，在经过对抗学习后，水平面控制器在53.5s后目标跟踪路径偏距收敛至0.3m，在外部扰动作用下水平面稳态误差≤0.15m；深度面控制器在25.3s后目标跟踪路径深度误差收敛至0.1m，在外部扰动作用下深度面稳态误差≤0.1m。

图6是本发明实施例提供的半实物仿真对比试验的深度跟踪曲线图，对比对象为典型的自抗扰控制算法。半实物仿真环境中航行器初始位置位于水面，目标跟踪路径深度设置为阶跃变化的曲线。任务时间0-125s目标跟踪路径深度为2m，任务时间125-175s目标跟踪路径深度为3m，175s至250s目标跟踪路径深度为1.5m，且航行器受到强非线性时变外部扰动作用影响路径跟踪。从图6可以看出，自抗扰控制器在扰动作用下难以保持目标路径深度面的稳定跟踪，稳态下目标路径深度跟踪误差>0.4m。在经过对抗训练后的深度面控制器能够在相同的时变扰动作用下根据控制周期内艇体状态变化进行预测控制，保持稳定的目标路径深度跟踪与切换，稳态下目标路径深度跟踪误差≤0.15m。

图7是本发明实施例提供的面向水下航行器路径跟踪鲁棒控制的对抗学习系统的结构示意图，如图7所示，该系统至少包括：

高频状态采样单元：用于在控制周期内高频采集水下航行器艇体状态信息，输出水平面控制器、深度面控制器、水平面控制对抗体以及深度面控制对抗体各网络的输入状态向量及状态向量序列；

状态序列展开单元：用于将高频状态采样单元输出的状态向量序列按一维展开并输入所述控制器的评判网络与目标评判网络，计算控制器与控制器目标行为网络的评价值；

水平面控制单元：用于构建长短记忆神经网络与多层感知机的级联深度网络，结合双曲正切函数与线性放大器将级联深度网络输出转换为真实水平面控制量；

深度面控制单元：用于构建长短记忆神经网络与多层感知机的级联深度网络，结合双曲正切函数与线性放大器将级联深度网络输出转换为真实深度面控制量；

水平面对抗单元：用于构建多层感知机网络，结合双曲正切函数与线性放大器将级联深度网络输出转换为真实水平面对抗控制量；

深度面对抗单元：用于构建多层感知机网络，结合双曲正切函数与线性放大器将级联深度网络输出转换为真实深度面对抗控制量；

状态记忆缓冲区单元：用于构建所述控制器与对抗体的状态记忆缓冲区，在训练过程中随机批量采样状态元组，为各训练单元提供所需状态输入与控制输出；

水平面控制训练单元：用于初始化水平面控制器目标行为网络、评判网络以及目标评判网络，基于双延迟深度确定性策略梯度算法结合所述控制器目标行为网络、评判网络与目标评判网络，从所述状态记忆缓冲区随机采样训练水平面控制器；

深度面控制训练单元：用于初始化深度面控制器目标行为网络、评判网络以及目标评判网络，基于双延迟深度确定性策略梯度算法结合所述控制器目标行为网络、评判网络与目标评判网络，从所述状态记忆缓冲区随机采样训练深度面控制器；

水平面对抗训练单元：用于初始化水平面控制对抗体目标行为网络、评判网络以及目标评判网络，基于双延迟深度确定性策略梯度算法结合所述对抗体目标行为网络、评判网络与目标评判网络，从所述状态记忆缓冲区随机采样训练水平面控制对抗体；

深度面对抗训练单元：用于初始化深度面控制对抗体目标行为网络、评判网络以及目标评判网络，基于双延迟深度确定性策略梯度算法结合所述对抗体目标行为网络、评判网络与目标评判网络，从所述状态记忆缓冲区随机采样训练深度面控制对抗体；

执行机构控制单元：用于结合所述真实控制量与真实对抗控制量，得到作用于执行机构的最终控制量。

可以理解的是，上述各个单元/模块的详细功能实现可参见前述方法实施例中的介绍，在此不做赘述。

应当理解的是，上述系统用于执行上述实施例中的方法，系统中相应的程序模块，其实现原理和技术效果与上述方法中的描述类似，该系统的工作过程可参考上述方法中的对应过程，此处不再赘述。

基于上述实施例中的方法，本发明实施例提供了一种工控机。该设备可以包括：至少一个用于存储程序的存储器和至少一个用于执行存储器存储的程序的处理器。其中，当存储器存储的程序被执行时，处理器用于执行上述实施例中所描述的方法。

图8是本发明实施例提供的工控机的结构示意图，如图8所示，该工控机可以包括：处理器(processor)801、通信接口(Communications Interface)802、存储器(memory)803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信。处理器801可以调用存储器803中的软件指令，以执行上述实施例中所描述的方法。

基于上述实施例中的方法，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序在处理器上运行时，使得处理器执行上述实施例中的方法。

基于上述实施例中的方法，本发明实施例提供了一种计算机程序产品，当计算机程序产品在处理器上运行时，使得处理器执行上述实施例中的方法。

可以理解的是，本发明实施例中的处理器可以是中央处理单元(CentralProcessing Unit,CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本发明实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。

可以理解的是，在本发明实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本发明的实施例的范围。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种航行器路径跟踪控制器的对抗学习方法，其特征在于，所述航行器路径跟踪控制器解耦为水平面控制器与深度面控制器，所述方法包括：

2.如权利要求1所述的方法，其特征在于，在每一个控制周期分别从状态记忆缓冲区随机采样批量状态元组，水平面控制器状态元组为({s_r},a_r,R_r,{s_r}′)，水平面控制对抗体状态元组为深度面控制器状态元组为({s_s},a_s,R_s,{s_s}′)，深度面控制对抗体状态元组为/>

其中，{s_r}为上一个控制周期时状态向量序列，a_r为水平面控制向量，R_r为基于水平面控制代价函数计算的代价值，{s_r}′为新的控制周期采样更新的状态向量序列；为上一个控制周期时状态向量序列{s_r}的最后一行状态向量，/>为水平面控制对抗向量，/>为基于水平面控制对抗代价函数计算的代价值，/>为新的控制周期采样更新的状态向量序列{s_r}′的最后一行状态向量；{s_s}为上一个控制周期时状态向量序列，a_s为深度面控制向量，R_s为基于深度面控制代价函数计算的代价值，{s_s}′为新的控制周期采样更新的状态向量序列；/>为上一个控制周期时状态向量序列{s_s}的最后一行状态向量，/>为深度面控制对抗向量，/>为基于深度面控制对抗代价函数计算的代价值，/>为新的控制周期采样更新的状态向量序列{s_s}′的最后一行状态向量。

3.如权利要求2所述的方法，其特征在于，

a_r＝{δ_r,Ω_rh,Ω_rs}

a_s＝{δ_s,Ω_sh,Ω_ss}

4.如权利要求2所述的方法，其特征在于，水平面/深度面控制器学习架构中，将状态元组中的上一个控制周期时状态向量序列输入给actor网络，将新的控制周期采样更新的状态向量序列输入给目标actor网络，将状态向量序列的一维展开向量和控制向量作为各评判网络的输入。

5.如权利要求2所述的方法，其特征在于，水平面/深度面控制对抗体学习架构中，将状态元组中的上一个控制周期时状态向量序列的最后一行状态向量输入给actor网络，将新的控制周期时状态向量序列的最后一行状态向量输入给目标actor网络，将上一个控制周期时状态向量序列的最后一行状态向量的一维展开向量和控制向量作为各评判网络的输入。

6.如权利要求1至5任一项所述的方法，其特征在于，所述映射的具体方式如下：先经过双曲正切函数映射至(-1,1)区间，再经过线性放大器将控制量映射至各对抗控制量的阈值区间。

7.一种航行器路径跟踪控制方法，其特征在于，包括：

所述水平面控制器与深度面控制器采用如权利要求1至6任一项所述的方法训练。

8.一种航行器路径跟踪控制器的对抗学习装置，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求1至6任一项所述的方法。

9.一种航行器路径跟踪控制装置，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求7所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在处理器上运行时，使得所述处理器执行如权利要求1至7任一项所述的方法。