CN113050420B

CN113050420B - 基于s面控制和td3的auv路径跟踪方法及系统

Info

Publication number: CN113050420B
Application number: CN202110239801.3A
Authority: CN
Inventors: 李沂滨; 李茹; 缪旭弘; 魏征; 尤岳; 周广礼; 贾磊; 庄英豪; 宋艳
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2022-02-18
Anticipated expiration: 2041-03-04
Also published as: CN113050420A

Abstract

本发明公开一种基于S面控制和TD3的AUV路径跟踪方法及系统，包括：根据AUV运行状态和执行动作基于TD3算法构建AUV路径跟踪仿真模型；在控制时间步长内，通过S面控制和TD3算法控制得到AUV执行动作向量，以此获取每个控制时间步的AUV运行状态转移向量，并将其分别存入S面控制经验缓存空间库和交互控制经验缓存空间库；根据S面控制经验缓存空间库和交互控制经验缓存空间库对AUV路径跟踪仿真模型进行训练，以训练后的AUV路径跟踪仿真模型根据当前运行状态输出执行动作，以此控制AUV的路径跟踪。解决AUV路径跟踪方法中存在的抗干扰能力弱、自适应能力差、收敛效果差的问题。

Description

基于S面控制和TD3的AUV路径跟踪方法及系统

技术领域

本发明涉及AUV路径跟踪技术领域，特别是涉及一种基于S面控制和TD3的AUV路径跟踪方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

自主水下航行器(Autonomous underwater vehicle,AUV)配备一系列化学和生物传感器，可以在无人干预的情况下，在海洋环境中稳定地运行，执行任务。AUV由于成本低、机动性好、控制灵活等优点，在海洋环境监测、资源勘探、油气工程、军事领海巡逻等领域得到了广泛的应用。

当AUV在执行海底管道检测维护以及领海巡逻等任务时，对AUV在复杂多变的海洋环境下的跟踪能力提出了更高的要求。目前来说大多数AUV采用传统控制算法，如PID控制、模糊控制等。传统的控制算法结构简单，具有易于实现、可靠性高的优点；然而，PID控制、模糊逻辑控制等的参数需要事先设定，考虑到海洋环境的复杂性和不确定性，AUV在海洋环境中执行路径跟踪任务时将受到各种干扰因素的影响，如海洋洋流或由于AUV自身负载、重心、浮心的变化等，需要对PID参数进行重新调整，其抗干扰能力弱，自适应能力差，很难适应复杂多变的海洋环境。

目前深度强化学习(Deep Reinforcement Learning，DRL)将深度学习和强化学习结合，形成端对端的感知与控制系统，目前在机器人控制、优化调度和游戏博弈等领域得到广泛的应用，并取得很好的效果。然而，深度强化学习中的神经网络在训练更新参数时需要大量的训练数据，应用到AUV运动控制领域时，在训练前期需要进行大量的探索才能找到正确的策略；并且，在训练初期存在很大的随机性，训练的收敛速度极慢甚至难以收敛；虽然有许多研究者使用专家数据来加速DRL的训练过程，然而大量专家数据的获取耗时耗力，并且泛化能力较差。

发明内容

为了解决上述问题，本发明提出了一种基于S面控制和TD3的AUV路径跟踪方法及系统，针对AUV路径跟踪方法中存在的抗干扰能力弱、自适应能力差、收敛效果差的问题，本发明基于S面控制方法和基于深度强化学习的双延迟深度确定性策略梯度(Twin DelayedDeep Deterministic policy gradient algorithm，TD3)算法的结合，完成AUV的路径跟踪任务。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于S面控制和TD3的AUV路径跟踪方法，包括：

根据AUV运行状态和执行动作基于TD3算法构建AUV路径跟踪仿真模型；

在控制时间步长内，通过S面控制和TD3算法控制得到AUV执行动作向量，以此获取每个控制时间步的AUV运行状态转移向量，并将其分别存入S面控制经验缓存空间库和交互控制经验缓存空间库；

根据S面控制经验缓存空间库和交互控制经验缓存空间库对AUV路径跟踪仿真模型进行训练，以训练后的AUV路径跟踪仿真模型根据当前运行状态输出执行动作，以此控制AUV的路径跟踪。

第二方面，本发明提供一种基于S面控制和TD3的AUV路径跟踪系统，包括：

仿真模块，被配置为根据AUV运行状态和执行动作基于TD3算法构建AUV路径跟踪仿真模型；

经验获取模块，被配置为在控制时间步长内，通过S面控制和TD3算法控制得到AUV执行动作向量，以此获取每个控制时间步的AUV运行状态转移向量，并将其分别存入S面控制经验缓存空间库和交互控制经验缓存空间库；

路径跟踪模块，被配置为根据S面控制经验缓存空间库和交互控制经验缓存空间库对AUV路径跟踪仿真模型进行训练，以训练后的AUV路径跟踪仿真模型根据当前运行状态输出执行动作，以此控制AUV的路径跟踪。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明基于S面控制方法和TD3算法的结合，完成AUV的路径跟踪任务。针对现有深度强化学习控制算法在训练过程中存在的收敛速度太慢或难以收敛的问题；本发明在训练前期使用S面控制方法获取示范数据，并存入S面控制经验缓存空间库中，丰富经验库，以提高TD3强化学习算法的训练速度；然后将智能体AUV与任务环境交互得到的交互数据，存入交互控制经验缓存空间库中；最后通过这两个经验库中的数据不断训练更新神经网络的参数，显著提升深度强化学习算法收敛速度。

针对传统的控制算法抗干扰能力弱、自适应能力差的问题；在复杂的海洋仿真环境下，本发明结合TD3算法控制AUV的动作输出，在面对各种干扰因素时有很强的自适应调整能力，提高抗干扰能力，适应复杂多变的海洋环境。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于S面控制和TD3的AUV路径跟踪方法流程图；

图2为本发明实施例1提供的AUV的动力学模型示意图；

图3为本发明实施例1提供的AUV路径跟踪任务环境示意图；

图4为本发明实施例1提供的AUV直线路径跟踪示意图；

图5为本发明实施例1提供的actor神经网络结构图；

图6为本发明实施例1提供的critic神经网络结构图。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

如图1所示，本实施例提供一种基于S面控制和TD3的AUV路径跟踪方法，包括：

S1：根据AUV运行状态和执行动作基于TD3算法构建AUV路径跟踪仿真模型；

S2：在控制时间步长内，通过S面控制和TD3算法控制得到AUV执行动作向量，以此获取每个控制时间步的AUV运行状态转移向量，并将其分别存入S面控制经验缓存空间库和交互控制经验缓存空间库；

S3：根据S面控制经验缓存空间库和交互控制经验缓存空间库对AUV路径跟踪仿真模型进行训练，以训练后的AUV路径跟踪仿真模型根据当前运行状态输出执行动作，以此控制AUV的路径跟踪。

在AUV路径跟踪仿真模型中，本实施例采用如图2所示的AUV动力学模型，该AUV动力学模型基于牛顿-欧拉运动方程推导，对长度为2.38米、直径为0.32米、重量为167千克的流线型AUV进行六自由度的动力学建模，本实施例定义了两个坐标系，即惯性坐标系E-ξηζ和载体坐标系O-xyz；

其中，所述惯性坐标系以海平面上的某一点为坐标原点E，以南北方向为ξ轴，以东西方向为η轴，以垂直向下方向为ζ轴建立；在仿真环境中，基于惯性坐标系采用六维向量组x表示AUV运动时的位置信息与姿态信息，即x＝{ξ,η,ζ,φ,θ,ψ}，其中位置参数向量η₁＝{ξ,η,ζ}，姿态参数向量

θ、ω分别为横倾角、纵倾角、艏向角；

所述载体坐标系的原点固联于AUV的重心上，用于表示AUV的速度和角速度信息，其中速度向量为v₁＝{u,v,w}，分别表示纵向速度、横向速度、垂直向速度；角速度向量v₂＝{p,q,r}，表示横倾角速度、纵倾角速度、偏航角速度；采用上述两组向量能够完整地描述AUV的运动状态信息。

在AUV的运动过程中，采用上述建立的AUV动力学模型，根据t时刻AUV位置、姿态信息、推进器力以及垂直舵和水平舵的角度，使用四阶龙格库塔法得到t+1时刻的运动状态，以此仿真AUV的运动过程；其中，在AUV艉部位置设置推进器，推进器的力表示为F，在AUV的艉部设置垂直舵和水平舵用来改变AUV的方向。

在AUV路径跟踪仿真模型中，本实施例采用如图3所示的AUV路径跟踪仿真环境，整个路径跟踪任务在二维仿真环境上进行，在惯性坐标系E-ξηζ中，将路径设置在ζ＝20深度的二维平面上，路径方程设置为η＝50。

在AUV路径跟踪仿真模型中，本实施例基于TD3算法构建，设置TD3算法的学习参数，包括路径跟踪任务环境中的状态空间S(观测量空间)、动作空间A和奖励函数R；

具体地，在状态空间S内，本实施例设置两类状态观测量，即对任务环境的观察和对航向器自身状态的观察；如图4所示，对任务环境的观察包括：AUV距离当前路线的距离d和当前艏向角度c；对AUV自身的观察量包括：AUV自身推进器的力F和艉部水平舵的舵角D_θ；为了平衡各个观测量对神经网络训练过程中的影响，对以上的状态空间进行归一化处理，得到状态向量为：S＝{d,c,F,D_θ}。

在动作空间A内，由于仿真环境中的AUV是一个运动在三维空间下、具有六个自由度、三个执行机构的动力学模型；而本实施例的路径跟踪任务是在二维环境中训练，所以本实施例只涉及艉部推进器和艉部水平舵，定义动作空间A＝{F,D_θ}。

所述奖励函数包括以下奖励项和惩罚项，具体为：

(1)根据AUV与规定路径距离的改变，设置靠近奖励，该靠近奖励分量为每个仿真时间步长AUV到规定路径距离的减小值，即：r_d＝d_old-d_new；

(2)根据AUV沿着路径前进距离的改变，设置前进奖励，该前进奖励分量为每个仿真时间步长AUV沿着直线路径前进的距离，即：r_forward＝η_old-η_new；

(3)将AUV当前航向角和期望航向角的和设为待调整的航向角度；

令，在长度L＝80的距离使得AUV重回轨迹，则期望艏向角为：c_d＝arctan(d/L)；

待调整的航向角度为当前艏向角与期望艏向角之和，即：c_tocahnge＝c+c_d；

根据期望航向角角度的减小值，设置航向角奖励，即：

r_{course_angle}＝c_{tochange_old}-c_{tochange_new}。

(4)考虑AUV完成路径跟踪任务的时间限制，设置时间惩罚项为：r_time＝-1，且当一个训练回合所使用的仿真步长超出1500个，或者到达仿真环境边界时，任务环境反馈is_done＝true，此次任务回合结束；

综上，奖励函数设置为：r＝r_d+r_forward+r_{course_angle}+r_time。

所述步骤S2中，本实施例采用S面控制方法结合TD3算法控制方法完成AUV路径跟踪任务，包括：

S2-1：初始化TD3算法中六个神经网络的参数；TD3算法模型包括actor部分和critic部分，actor部分包括actor网络和actor_target网络，其输出分别是π(s|θ^π)和π′(s|θ^π′)，其中，s为状态向量，θ^π和θ^π′分别是这两个神经网络的网络参数；critic部分包括四个神经网络，即：critic1网络，critic_target1网络，critic2网络和cirtic_target2网络，其输出分别是

其中，s为状态向量，a为动作向量，

分别是这四个神经网络的网络参数；

在本实施例中，如图5-6所示分别为actor部分网络的网络结构和critic部分网络的网络结构，隐藏层神经元均为128个，隐藏层的激活函数使用relu函数，输出层使用tanh函数；actor网络输入当前任务环境的状态量，输出在此状态下的动作向量，critic网络输入状态量和动作量，输出在此状态下执行该动作的价值Q，价值Q用来评价actor部分输出动作的优劣。

初始化相关超参数，包括：S面控制方法的总时间步长数M＝10⁴，S面控制经验缓存空间库尺寸N＝10⁴，交互控制经验缓存空间库尺寸D＝10⁴，每个时间步从经验回放缓存空间库采样时的转移过程总数为batch＝256，奖励折损率γ＝0.99，目标网络软更新频率参数τ＝5*10^-3，actor网络延迟更新频率参数σ＝2，critic目标网络更新频率参数C＝2，最大时间步数T＝4*10⁵。

S2-2：采用S面控制方法得到经验数据；S面控制算法公式如下：

其中，e和e′为控制的输入信息，包括归一化处理后的偏差和偏差变化率，u为控制输出，k₁和k₂分别为对应偏差和偏差变化率的控制参数；经S面控制输出动作向量值，驱动AUV艉部推进器和水平舵动作。

在预设的控制时间步长内M，获取每一个时间步的状态转移向量，即：{s_t,a_t,r_t,s_t+1,is_done}，并将该五元组存入S面控制经验缓存空间库，其中s_t为t时刻的状态向量，a_t为t时刻实施的动作向量，r_t为执行动作后的奖励值，s_t+1为t+1时刻的状态向量，is_done标志回合是否结束，直到S面控制方法的时间步长数达到M。

S2-3：采用TD3算法得到经验数据；具体包括：

S2-3-1：初始化AUV位置，AUV初始位置在目标路径的起始位置附近，获取初始状态向量为s，初始时间步数i＝0；

S2-3-2：基于当前状态s采用actor网络得到执行动作a＝π(s|θ^π)+noise，其中，noise是使用正态分布产生的噪声，以模拟海洋环境下的干扰，使训练后的actor网络更具有鲁棒性；

S2-3-3：在仿真环境中执行动作a，得到AUV新姿态和动作状态信息，以此通过四阶龙格库塔法得到新状态s′，通过奖励函数得到奖励值r和是否终止状态is_done，并令i＝i+1；

S2-3-4：将AUV运行状态转移向量{s,a,r,s′,is_done}存入交互控制经验缓存空间库中；

S2-3-5：令s＝s′；如果当前时间步数小于1000，重复上述步骤，以填充交互控制经验缓存空间库，否则进入训练阶段。

在所述步骤S3中，根据S面控制经验缓存空间库和交互控制经验缓存空间库对AUV路径跟踪仿真模型进行训练，具体包括：

S3-1：在S面控制经验缓存空间库和交互控制经验缓存空间库中各采样batch/2个样本{s_j,a_j,r_j,s′_j,is_done_j},j＝1,2,...batch，计算当前目标Q值y_j：

S3-2：采用均方差损失函数

通过神经网络的梯度反向传播更新critic1网络和critic2网络中的所有参数

和

S3-3：如果i％σ＝0，采用损失函数：

通过神经网络的梯度反向传播更新actor网络的参数θ^π；

S3-4：如果i％C＝0，更新actor_target网络、critic_taget1网络和critic_taget2网络中的参数，即：

S3-5：如果is_done不是终止状态，则进入步骤S2-3-2；如果is_done是终止状态，且i≤T，此回合结束，进入步骤S2-3-1，如果时间步数i>T，则训练结束。

直至达到预设的仿真步数，完成以上迭代训练，根据每回合的奖励收敛情况和路径跟踪任务的完成效果判断算法的控制性能，采用训练后的TD3模型算法作为AUV路径跟踪控制算法完成直线路径跟踪任务。

本实施例创新性地提出了一种结合S面控制的双延迟深度确定性策略梯度算法的自主水下航行器路径跟踪方法，解决传统控制方法抗干扰性差的问题，并明显提高了双延迟深度确定性策略梯度算法训练时的收敛速度。

实施例2

本实施例提供一种基于S面控制和TD3的AUV路径跟踪系统，包括：

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于S面控制和TD3的AUV路径跟踪方法，其特征在于，包括：

所述S面控制根据归一化处理后的偏差和偏差变化率，得到AUV执行动作向量，以此驱动AUV艉部推进器和水平舵动作，得到执行动作后的奖励值和运行状态，并将其存入S面控制经验缓存空间库；

所述TD3算法控制根据AUV初始运行状态采用actor网络得到AUV执行动作向量，根据AUV执行动作向量得到AUV新运行状态和奖励值，并将其存入交互控制经验缓存空间库；

2.如权利要求1所述的一种基于S面控制和TD3的AUV路径跟踪方法，其特征在于，根据AUV运行状态构建状态空间，所述状态空间包括：AUV距离当前路线的距离、当前艏向角度、AUV自身推进器的力和艉部水平舵的舵角。

3.如权利要求1所述的一种基于S面控制和TD3的AUV路径跟踪方法，其特征在于，根据执行动作构建动作空间，动作空间包括艉部推进器的力和艉部水平舵的舵角。

4.如权利要求1所述的一种基于S面控制和TD3的AUV路径跟踪方法，其特征在于，所述AUV路径跟踪仿真模型根据路径跟踪任务定义奖励函数，所述奖励函数包括：AUV与规定路径距离减小时的靠近奖励、AUV沿着路径前进时的前进奖励、航向角奖励和时间惩罚项。

5.如权利要求1所述的一种基于S面控制和TD3的AUV路径跟踪方法，其特征在于，所述AUV路径跟踪仿真模型包括actor网络、actor_target网络、critic1网络、critic2网络、critic_taget1网络和critic_taget2网络；在S面控制经验缓存空间库和交互控制经验缓存空间库抽样后计算当前actor网络的价值Q，采用均方差损失函数通过梯度反向传播更新各个网络的参数。

6.一种基于S面控制和TD3的AUV路径跟踪系统，其特征在于，包括：

经验获取模块，被配置为在控制时间步长内，通过S面控制和TD3算法控制得到AUV执行动作向量，以此获取每个控制时间步的AUV运行状态转移向量，并将其分别存入S面控制经验缓存空间库和交互控制经验缓存空间库；所述S面控制根据归一化处理后的偏差和偏差变化率，得到AUV执行动作向量，以此驱动AUV艉部推进器和水平舵动作，得到执行动作后的奖励值和运行状态，并将其存入S面控制经验缓存空间库；所述TD3算法控制根据AUV初始运行状态采用actor网络得到AUV执行动作向量，根据AUV执行动作向量得到AUV新运行状态和奖励值，并将其存入交互控制经验缓存空间库；

7.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-5任一项所述的方法。