CN113534668B - 基于最大熵的演员-评论家框架的auv运动规划方法 - Google Patents

基于最大熵的演员-评论家框架的auv运动规划方法 Download PDF

Info

Publication number
CN113534668B
CN113534668B CN202110930108.0A CN202110930108A CN113534668B CN 113534668 B CN113534668 B CN 113534668B CN 202110930108 A CN202110930108 A CN 202110930108A CN 113534668 B CN113534668 B CN 113534668B
Authority
CN
China
Prior art keywords
auv
motion planning
target point
reward
maximum entropy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110930108.0A
Other languages
English (en)
Other versions
CN113534668A (zh
Inventor
孙玉山
于鑫
张国成
罗孝坤
薛源
张红星
柴璞鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202110930108.0A priority Critical patent/CN113534668B/zh
Publication of CN113534668A publication Critical patent/CN113534668A/zh
Application granted granted Critical
Publication of CN113534668B publication Critical patent/CN113534668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了基于最大熵的演员‑评论家框架的AUV运动规划方法,包括以下步骤:S1:构建AUV操纵性模型;S2:确定AUV的状态空间与动作空间;S3:基于MDP决策过程,提出基于最大熵的强化学习算法,构建神经网络结构,搭建AUV运动规划系统;S4:设置一个综合的奖励函数来评估AUV决策的优劣,指导AUV完成运动规划任务的目标:在躲避障碍物到达目标点的同时,航行路程及所用时间达到最优;S5:通过自交互训练获得最优策略,保存训练好的神经网络参数,将最优策略对应的具体指令传递给下位机,最终实现感知‑规划‑控制的运动规划过程;本发明能够发现到达目标位置的多种策略,在应对各种突发态势时有较好的鲁棒性,且能在多约束的条件下顺利完成指定任务。

Description

基于最大熵的演员-评论家框架的AUV运动规划方法
技术领域
本发明涉及水下机器人的运动规划领域,特别是一种基于最大熵的演员-评论家框架的AUV运动规划方法。
背景技术
伴随着人工智能技术在近现代的不断发展,自主水下机器人(AutonomousUnderwater Vehicle,AUV)凭借其灵活性在海床测绘、海洋监测、水底结构物勘察、收集情报、水下排雷等方面扮演着重要的角色。运动规划技术是AUV能够自主航行、完成各类任务的基础。
AUV运动规划是以全局路径规划为指导,利用传感设备在线得到的局部环境信息,通过控制水下机器人执行机构的输出力(矩),从而规划出机器人运动过程中的位置、速度及加速度。AUV运动规划作为一个多目标的优化问题,通常来说需要满足两个条件:(1)完整性:在AUV满足各类约束条件时,能够成功规划出一条无碰撞且能到达目标点的路线。(2)最优性:在完成基本的规划任务的同时,使系统规划的路线最短、所用时间最少或是耗能最低,在某些情况下需要指标中的一个或多个达到最优。由于海洋环境的不确定性以及AUV自身的系统动力学约束,加之避障声呐等传感器设备对海洋环境感知的局限性,AUV在航行中运动规划成为十分困难的问题,它不仅关系到远程AUV是否能顺利完成作业使命,还直接关系到AUV自身的安全。
强化学习(Reinforcement Learning,RL)技术在AUV运动规划研究中的应用,可以充分发挥强化学习在无样本学习中的优势。通过自交互训练,可以生成一系列考虑长期影响的决策序列,可以大大提高AUV的鲁棒性和对复杂环境的适应性。
发明内容
为解决现有技术中存在的问题,本发明提供了基于最大熵的演员-评论家框架的AUV运动规划方法,本发明能够发现到达目标位置的多种策略,在应对各种突发态势时有较好的鲁棒性,且能在多约束的条件下顺利完成指定任务。
本发明提供了基于最大熵的演员-评论家框架的AUV运动规划方法,包括以下步骤:
S1:考虑系统的动力学约束,构建AUV操纵性模型;
S2:将运动规划问题公式化,确定AUV的状态空间与动作空间;
S3:基于MDP决策过程,提出基于最大熵的强化学习算法,构建神经网络结构,搭建AUV运动规划系统;
S4:设置一个综合的奖励函数来评估AUV决策的优劣,指导AUV完成运动规划任务的目标:在躲避障碍物到达目标点的同时,使得航行路程及所用时间达到最优;
S5:通过自交互训练获得最优策略,保存训练好的神经网络参数,将最优策略对应的具体指令传递给下位机,最终实现感知-规划-控制的运动规划过程。
优选地,S1的模型为:
Figure BDA0003210269300000021
Figure BDA0003210269300000023
其中,R(ψ)是AUV水平运动的三自由度坐标转换矩阵
Figure BDA0003210269300000022
C(v)代表科氏向心力矩阵,D(v)为AUV所受的水动力阻力矩阵,τ表示控制输入,以欠驱动类型的AUV为例,系统输入数目小于运动自由度数,只需要输出纵向推力与偏航力矩,即:
τ=[τu 0 τr]。
优选地,S3包括以下子步骤:
S31:基于马尔可夫决策过程来搭建AUV运动规划系统;
S32:基于最大熵的演员-评论家即SAC的框架,提出本发明中强化学习的训练目标;
S33:构建本发明中系统的神经网络结构。
优选地,S5包括以下子步骤:
S51:基于以上AUV模型及提出的SAC算法,搭建仿真平台;
S52:在训练达到收敛后,保存训练好的神经网络参数,将具体的控制指令传递给下位机来指导AUV的实际航行过程。
本发明基于最大熵的演员-评论家框架的AUV运动规划方法的有益效果如下:
1.SAC是一种离线学习的算法,这意味着该算法可以重用之前的经验进行多次学习更新,以提高AUV的学习效率。
2.该算法的性能对超参数的敏感性低于其他强化学习算法,大大减少了因为调节超参数所耗费的时间。
3.对于确定性策略,策略的分布通常具有很小的方差,其中心靠近导致高回报的特定行为。在SAC的目标函数中,熵的出现会增加策略分布的方差。对于策略来说,分布方差的增加意味着策略有更多不同的动作可供选择。因此,基于本发明的AUV具有较强的环境探索能力,在水下这种复杂多变的环境中也可以寻找到规划的最优解,避免陷入局部最优,且能在多约束的条件下顺利完成指定任务。与其他方法相比,AUV能够发现到达目标位置的多种策略,在应对各种突发态势时有较好的鲁棒性。
4.本发明设计了一个与航行位置、速度、艏向角等有关的综合的奖励函数,可以避免奖励值稀疏的问题。即使AUV在复杂的环境中难以获得终端奖励,在每航行一步的过程中也可以获得奖励或惩罚,可以对AUV的艏向、速度及加速度进行规范,进而影响航行路线,使规划路程和所用时间尽可能达到最优。
附图说明
图1为AUV运动坐标系图。
图2为AUV声纳模型。
图3为马尔可夫决策过程图。
图4为神经网络结构示意图。
图5为奖励值获取流程图。
图6为AUV运动规划过程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
步骤一:考虑系统的动力学约束,构建AUV操纵性模型
首先构建AUV的操纵性模型,本发明仅考虑了AUV的平面运动,AUV的水平面运动可以看作由进退、横移以及偏航三部分运动组成。AUV平面运动参考坐标如图所示,AUV的状态可以由向量v=[u,v,r]T和η=[x,y,ψ]表示,它们分别代表了AUV的速度信息和位置信息,ψ代表了AUV的艏向角,[x,y]是AUV在大地坐标系下的位置,线速度[u,v,r]T对应AUV自身坐标系下的纵向速度、横向速度和转艏角速度。在这种情况下,AUV的非线性运动方程可以被描述为:
Figure BDA0003210269300000041
Figure BDA0003210269300000052
其中,R(ψ)是AUV水平运动的三自由度坐标转换矩阵
Figure BDA0003210269300000051
惯性矩阵M为附加质量矩阵和刚体自身矩阵的结合,C(v)代表科氏向心力矩阵,D(v)为AUV所受的水动力阻力矩阵。gη表示重力和浮力所产生的力和力矩,本发明只考虑AUV的平面运动,所以将其忽略。τ表示控制输入,以欠驱动类型的AUV为例,系统输入数目小于运动自由度数,只需要输出纵向推力与偏航力矩,即:
τ=[τu 0 τr] (4)
步骤二:将运动规划问题公式化,确定AUV的状态空间与动作空间
接下来需要对AUV运动规划过程进行公式化处理,AUV的运动规划是一个复杂的多约束问题,其基本任务是在到达目标点的同时避开障碍物。在实际运动过程中,需要传感器将环境和自身状态的信息st传递给AUV,然后输出规划策略。根据AUV的动力学方程可以看出,推进器输出纵向推力和偏航力矩来控制AUV的航行。因此,本发明提出的端到端AUV运动规划系统将状态信息st直接映射到AUV每一时刻的动作at=(τur)∈A2。可以表示为:
at=(τur)=f(st)∈A2 (5)
st=(xt,vt,ot) (6)
AUV运动规划的输入信息st包括目标点和AUV的位置信息xt、AUV的实际速度信息vt以及通过避障声纳检测到的障碍物信息ot
将运动规划问题公式化后,首先确定AUV的状态空间。位置信息xt=(xd,xr)∈R3不仅要包含AUV与目标点的距离信息xd,还要包含它们的相对位置信息xr
xr=(xgoal-xAUV,ygoal-yAUV)∈R2 (7)
其中(xAUV,yAUV),(xgoal,ygoal)分别表示AUV和目标点在世界坐标系中的坐标。
其次,从AUV的操纵性方程可以看出,AUV规划的轨迹与其自身的速度有很大关系,因此将其作为观察向量引入到神经网络中。AUV的速度信息可以通过DVL结合惯性导航系统获得,速度信息vt=(vs,vψ)∈R4应该包括AUV速度的大小vs以及运动的方向vψ。vs=(u,v,r)∈R3中包含的信息只包括速度的大小,速度的方向也会影响AUV运动规划任务的成败。可以用以下公式表示速度的方向:
vψ=Angle(u,xr) (8)
其中u代表AUV的纵向速度向量,xr代表AUV位置指向目标位置的向量。Angle(u,xr)表示两个向量之间的角度。
最后,为了使AUV实时避障,需要利用避障声纳获得障碍物的位置信息ot,声纳的最大探测距离为20m。如图2为AUV传感器模型,AUV共搭载10个避障声纳,因此可以探测到十个方向的障碍物距离信息,ot∈R10这是一个10维的状态空间。
下一步,为了使神经网络的收敛速度更快,需要将观察向量的值归一化到范围[-1,+1]或[0,1]。
由于水下环境的不确定性,AUV难免会遇到目标位置不明确、探测设备故障、跟踪目标丢失等情况。这对运动规划任务来说是一个很大的挑战。规划系统收到的部分观察结果通常包含不完整的信息。为了克服这一点,本发明通过“堆叠”的方法向代理提供有限的“记忆”,而无需添加一个复杂的循环神经网络(recurrentneural network,RNN)。堆叠意味着重复上一步的观察结果作为一个更大的观察向量作为神经网络的输入。例如,AUV执行四个步骤,得到的观测向量经过堆叠后的效果如下:
表1观测向量堆叠后的效果
Figure BDA0003210269300000071
在这里我们设置堆叠的大小为3
通过这种方式,神经网络可以对比前后几次观测值中AUV的行为以及奖赏值发生的变化,以便于神经网络更好提取观测向量的特征。通过AUV前后几步的距离差及速度差等信息变化时奖励值的不同,神经网络可以更好地更新其参数,实现训练目标。
接下来确定AUV的动作空间,由前面可以得到,推进器可以输出的外力只包括纵向推力以及偏航力矩,不包含横向推力。它们可以控制AUV的纵向速度以及转艏角速度,进而改变其运动轨迹。因此,这里描述的运动规划问题的动作空间是一个2维的动作空间。在本发明中,将神经网络输出的动作值控制在(-1,1)之间,而后对其进行简单的线性变换:
τu=clip(-1,1)*201+10 (9)
τr=clip(-1,1)*30 (10)
动作向量τu∈(-10,30)和τr∈(-30,30)是两个浮点数,符号表示力的方向,绝对值表示力和力矩的大小。变换的目的是根据实际物理模型选择合适的动作边界,避免遗漏动作并去除无关动作。τu∈(-10,30)目的是对动作输出的减速度施加一定的限制,减少AUV向后的运动状态。
步骤三:基于MDP决策过程,提出基于最大熵的强化学习算法,构建神经网络结构,搭建AUV运动规划系统。
下一步基于马尔可夫决策过程(Markov decisionprocess,MDP)来搭建AUV运动规划系统。如图3所示,在这个过程中,规划系统根据行为的好坏给予AUV一定的奖励值rt,以此来调整执行每一个动作的概率,AUV将处于下一状态st+1。对于深度强化学习来说就是通过调整神经网络的权重wi来更新策略πθ,重复以上过程,AUV与环境不断地进行交互,直至得到最优策略
Figure BDA0003210269300000081
通过一系列的状态-动作序列,AUV可以得到一条完整的光滑轨迹Trajectory=(s0,a0,s1,a1,......,send),在这里send代表终端状态。
接下来基于最大熵的演员-评论家(SoftActorCritic,SAC)框架,提出本发明中强化学习的训练目标,因为SAC是基于Actor-Critic框架的最大熵强化学习方法,它将策略的熵度量纳入奖励以鼓励探索,训练的目的不仅最大化预期的回报总和,而且最大化策略的熵。因此目标函数定义为:
Figure BDA0003210269300000082
Figure BDA0003210269300000083
其中π是更新以找到最大熵增回报的策略。α是温度参数,可以根据回报调节熵项,α越大,策略的随机性越强,H(π(·|st))表示熵。
下一步构建本发明中系统的神经网络结构,如图4所示。它与一般的Actor-Critic框架相同。Actor负责执行决策,Critic负责指导Actor的决策是否正确。Actor由一个策略网络组成,在实际过程中输出高斯分布的均值和方差。Critic借用DDQN的思想来减少政策改进步骤中的正偏差。在实际设计过程中,使用了两个软Q函数网络,参数为θ1,θ2,更新的目标函数为:
Figure BDA0003210269300000091
两个Q值中的最小值用于训练策略网络,训练公式为:
Figure BDA0003210269300000092
同时有两个目标Q网络用于更新Q值函数,它们各自的参数
Figure BDA0003210269300000093
通过下式进行小幅度的更新:
Figure BDA0003210269300000094
除了训练软Q函数和策略,通过最小化下式中的目标函数来学习α:
Figure BDA0003210269300000095
在训练的过程中,AUV与环境之间的不断地交互收集经验,将经验以转换元组的形式即(st,at,rt,st+1)存储在记忆库D中,然后每次都从记忆库中采样小批量经验。最后,使用随机梯度下降的方法来训练神经网络参数。
本发明中基于最大熵演员-评论家框架的深度强化学习算法流程如下:
Figure BDA0003210269300000101
步骤四:设置一个综合的奖励函数来评估AUV决策的优劣,指导AUV完成运动规划任务的目标:在躲避障碍物到达目标点的同时,使得航行路程及所用时间达到最优
下一步设置奖励函数,如图5所示为AUV在训练过程中奖励值获取流程图
当AUV到达目标点时获得正的奖励值r1,回合结束;当AUV碰撞到障碍物时,给予其负的奖励值r2,同时回合结束,这些统称为终端奖励值;其余情况下,AUV继续航行,即:
Figure BDA0003210269300000102
但运动规划任务本身为奖励值稀疏的任务,因为能到达目标点的次数在样本中的数量屈指可数,仅依靠终端奖励是不够的,为了鼓励AUV接近目标点,设计了距离奖励项:
Figure BDA0003210269300000111
在上述公式中,dold与dnew分别代表上一时刻与当前时刻AUV与目标点的距离,AUV上一时刻与目标点的距离大于当前时刻,则意味着AUV在不断靠近目标点,给予其正向的奖励值,反之给予其负向的惩罚,k1和k2分别代表奖励值的权重。实验过程中k1>k2,这样做是为了避免AUV在训练过程中产生异常行为。如果k1≤k2,智能体会变得更加“贪婪”,对于AUV来说收益最高的选择不是尽快抵达终点,而是不断重复“靠近-远离”的动作,如此地累加,收益远超过直接抵达目标点的行为,所以k1>k2的目的即为督促AUV尽快到达目标点。
接下来,根据AUV运动规划任务的目标:要设置一个奖励项,鼓励AUV在到达目标点与避障的同时,还要尽可能的使规划的路程和时间最少。但在实际过程想使其全部达到最优是及其困难的,不仅受到环境条件的限制,还要考虑AUV的系统动力学的因素。所以本发明对AUV的运动状态进行如下约束,我们希望AUV在行进过程中,当AUV前方无障碍物阻挡时,AUV艏向方向可以指向目标点,并沿着直线航行,当航行方向准确且固定后,速度u尽可能大一些可以保证快速到达目标点,所以下一步设置了与纵向速度u以及艏向角度有关的奖励项:
rs=k3·|u|·cos(Angle(u,xr)) (19)
在这里,k3为奖励值权重,Angle(u,xr)∈[0,π]为向量u与xr的夹角,u与xr具体含义与状态空间中的相同。当两个向量的夹角为
Figure BDA0003210269300000112
时,奖励为正,且夹角为0时,即AUV的艏向指向目标点时,奖励最大,且随着u的增大而升高,这会鼓励AUV选择合适的速度与艏向角,尽快到达目标点;当夹角为
Figure BDA0003210269300000121
时,奖励为负,即AUV远离目标点时系统将给予其惩罚。
其次,在AUV实际规划过程中,不鼓励AUV进行长时间的倒退运动,因为此时控制难度高、航行阻力大、推进器效率低,所以设置了一个惩罚项限制这种运动,但有时短暂的倒退可以使AUV运动更加灵活、运行路程短,所以此奖励项的数值应协调好以上问题,既要防止AUV长时间的倒退,又要避免使其丢失这种运动状态,即
ru=r3 if u<0 (20)
因此最终这个综合性的奖励函数设置为:
Figure BDA0003210269300000122
步骤五:通过自交互训练获得最优策略,保存训练好的神经网络参数,将策略的具体指令传递给下位机,最终实现感知-规划-控制的运动规划过程
基于以上AUV模型及提出的SAC算法,搭建仿真平台。实验利用Unity软件进行可视化的仿真,基于C#及python语言完成程序的编写,利用torch搭建神经网络,采用GPU对模型进行训练。具体的训练过程为:训练过程中,在每一回合的开始,重置AUV与目标点的位置,AUV的初始位置始终位于坐标系的原点。为了避免AUV仅学会在单一环境的策略,而是可以在多种环境下完成任务,目标点的位置并不是固定不变地,而是随机出现在地图范围内。除了AUV到达目标点或与障碍物碰撞导致的回合终止外,实验为了加快训练,避免AUV在探索过程中陷入死区的状况,还限制了其每回合训练最大步数,当超过此数值时,回合同样结束。
在训练达到收敛后,保存训练好的神经网络参数,将具体的控制指令传递给下位机来指导AUV的实际航行过程。AUV实际的规划过程如图6所示,AUV通过各类传感器获取环境与自身的状态信息,通过观测向量的形式传递给运动规划系统,运动规划系统基于训练好的神经网络模型,将输入的状态信息映射为输出指令,即确定每一时刻状态下最优的动作选择,而后由控制器控制AUV实现航行,最终完成感知-规划-控制的整个过程。在训练期间,AUV与环境之间不断地进行信息交互,策略不断地进行优化调整,最终得到躲避障碍物、到达目标点的最优策略,同时实现AUV对与航行路径、航行速度、艏向角及加速度的规划。本发明基于最大熵强化学习的运动规划系统在训练达到收敛后,基于训练好的策略,AUV不仅可以发现多条到达目标位置的安全路径,而且可以选择使AUV航行最优的速度和加速度控制指令,从而获得最短的航行路径和航行时间,正是因为最大熵强化学习算法的引入,AUV具有了较强的环境探索能力,在水下这种复杂多变的环境中也可以寻找到规划的最优解,且能在多约束的条件下顺利完成指定任务,在遇到突发态势时具有很好的环境鲁棒性和迁移性。

Claims (3)

1.基于最大熵的演员-评论家框架的AUV运动规划方法,其特征在于,包括以下步骤:
S1:考虑系统的动力学约束,构建AUV操纵性模型;
S2:将运动规划问题公式化,确定AUV的状态空间与动作空间;
S3:基于MDP决策过程,提出基于最大熵的强化学习算法,构建神经网络结构,搭建AUV运动规划系统;
S4:设置一个综合的奖励函数来评估AUV决策的优劣,指导AUV完成运动规划任务的目标:在躲避障碍物到达目标点的同时,航行路程及所用时间达到最优;
其中,综合的奖励函数设置为
Figure FDA0003540588970000011
如果获得目标,则奖励为r1,r1表示获得正的奖励值;
如果当AUV碰撞到障碍物时,给予其负的奖励值r2
dold代表上一时刻AUV与目标点的距离,dnew为当前时刻AUV与目标点的距离,AUV上一时刻与目标点的距离大于当前时刻,则意味着AUV在不断靠近目标点,给予其正向的奖励值;反之给予其负向的惩罚,k1和k2分别代表奖励值的权重;
k3为奖励值权重,Angle(u,xr)∈[0,π]为向量u与xr的夹角,u与xr具体含义与状态空间中的相同,当两个向量的夹角为
Figure FDA0003540588970000012
时,奖励为正,且夹角为0时,即AUV的艏向指向目标点时,奖励最大,且随着u的增大而升高,这会鼓励AUV选择合适的速度与艏向角,尽快到达目标点;当夹角为
Figure FDA0003540588970000021
时,奖励为负,即AUV远离目标点时系统将给予其惩罚;
如果向量u小于0,则奖励值为r3
S5:通过自交互训练获得最优策略,保存训练好的神经网络参数,将最优策略对应的具体指令传递给下位机,最终实现感知-规划-控制的运动规划过程;
所述S1的模型为:
Figure FDA0003540588970000022
Figure FDA0003540588970000023
其中,M表示惯性矩阵;
R(ψ)是AUV水平运动的三自由度坐标转换矩阵
Figure FDA0003540588970000024
C(v)代表科氏向心力矩阵,D(v)为AUV所受的水动力阻力矩阵;
欠驱动类型的AUV,该系统输入数目小于运动自由度数,只需要输出纵向推力与偏航力矩,即:
τ=[τu 0 τr]。
2.根据权利要求1所述的基于最大熵的演员-评论家框架的AUV运动规划方法,其特征在于,所述S3包括以下子步骤:
S31:基于马尔可夫决策过程来搭建AUV运动规划系统;
S32:基于最大熵的演员-评论家即SAC的框架,提出强化学习的训练目标;
S33:构建系统的神经网络结构。
3.根据权利要求1所述的基于最大熵的演员-评论家框架的AUV运动规划方法,其特征在于,所述S5包括以下子步骤:
S51:基于以上AUV模型及提出的SAC算法,搭建仿真平台;
S52:在训练达到收敛后,保存训练好的神经网络参数,将具体的控制指令传递给下位机来指导AUV的实际航行过程。
CN202110930108.0A 2021-08-13 2021-08-13 基于最大熵的演员-评论家框架的auv运动规划方法 Active CN113534668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110930108.0A CN113534668B (zh) 2021-08-13 2021-08-13 基于最大熵的演员-评论家框架的auv运动规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110930108.0A CN113534668B (zh) 2021-08-13 2021-08-13 基于最大熵的演员-评论家框架的auv运动规划方法

Publications (2)

Publication Number Publication Date
CN113534668A CN113534668A (zh) 2021-10-22
CN113534668B true CN113534668B (zh) 2022-06-10

Family

ID=78091064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110930108.0A Active CN113534668B (zh) 2021-08-13 2021-08-13 基于最大熵的演员-评论家框架的auv运动规划方法

Country Status (1)

Country Link
CN (1) CN113534668B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114326438B (zh) * 2021-12-30 2023-12-19 北京理工大学 基于控制障碍函数的安全强化学习四旋翼控制系统及方法
CN114859899B (zh) * 2022-04-18 2024-05-31 哈尔滨工业大学人工智能研究院有限公司 移动机器人导航避障的演员-评论家稳定性强化学习方法
CN115493595A (zh) * 2022-09-28 2022-12-20 天津大学 一种基于局部感知与近端优化策略的auv路径规划方法
CN115826621B (zh) * 2022-12-27 2023-12-01 山西大学 一种基于深度强化学习的无人机运动规划方法及系统
CN115790608B (zh) * 2023-01-31 2023-05-30 天津大学 基于强化学习的auv路径规划算法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5559757A (en) * 1991-12-18 1996-09-24 Catipovic; Josko A. Spatial diversity processing for underwater acoustic telemetry
JPH10143205A (ja) * 1996-11-12 1998-05-29 Yamatake Honeywell Co Ltd Sacコントローラ
CN107416154A (zh) * 2017-05-11 2017-12-01 江苏科技大学 一种水路装置、水囊调节水下无人航行器及其控制系统
CN107776859A (zh) * 2017-09-28 2018-03-09 哈尔滨工程大学 Auv大潜深运动浮力补偿控制方法
CN110209152A (zh) * 2019-06-14 2019-09-06 哈尔滨工程大学 智能水下机器人垂直面路径跟随的深度强化学习控制方法
CN110472738A (zh) * 2019-08-16 2019-11-19 北京理工大学 一种基于深度强化学习的无人艇实时避障算法
CN111308890A (zh) * 2020-02-27 2020-06-19 大连海事大学 一种带有指定性能的无人船数据驱动强化学习控制方法
CN111679585A (zh) * 2020-07-03 2020-09-18 大连海事大学 一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法
CN111897224A (zh) * 2020-08-13 2020-11-06 福州大学 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112558465A (zh) * 2020-12-03 2021-03-26 大连海事大学 一种带有输入限制的未知无人船有限时间强化学习控制方法
AU2021100503A4 (en) * 2020-12-04 2021-04-15 East China Jiaotong University Method and system for controlling heavy-haul train based on reinforcement learning

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5559757A (en) * 1991-12-18 1996-09-24 Catipovic; Josko A. Spatial diversity processing for underwater acoustic telemetry
JPH10143205A (ja) * 1996-11-12 1998-05-29 Yamatake Honeywell Co Ltd Sacコントローラ
CN107416154A (zh) * 2017-05-11 2017-12-01 江苏科技大学 一种水路装置、水囊调节水下无人航行器及其控制系统
CN107776859A (zh) * 2017-09-28 2018-03-09 哈尔滨工程大学 Auv大潜深运动浮力补偿控制方法
CN110209152A (zh) * 2019-06-14 2019-09-06 哈尔滨工程大学 智能水下机器人垂直面路径跟随的深度强化学习控制方法
CN110472738A (zh) * 2019-08-16 2019-11-19 北京理工大学 一种基于深度强化学习的无人艇实时避障算法
CN111308890A (zh) * 2020-02-27 2020-06-19 大连海事大学 一种带有指定性能的无人船数据驱动强化学习控制方法
CN111679585A (zh) * 2020-07-03 2020-09-18 大连海事大学 一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法
CN111897224A (zh) * 2020-08-13 2020-11-06 福州大学 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112558465A (zh) * 2020-12-03 2021-03-26 大连海事大学 一种带有输入限制的未知无人船有限时间强化学习控制方法
AU2021100503A4 (en) * 2020-12-04 2021-04-15 East China Jiaotong University Method and system for controlling heavy-haul train based on reinforcement learning

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Autonomous Decision-Making Generation of UAV based on Soft Actor-Critic Algorithm;Yan Cheng, Yong Song;《Proceedings of the 39th Chinese Control Conference》;20201231;第7350-7355页 *
Bo Xu ; Xiaoyu Wang.Maximum Correntropy Extend Kalman Filter for Multiple AUVs Cooperative Localization.《2019 Chinese Control And Decision Conference (CCDC)》.2019, *
Haarnoja, T. ; Zhou, A. ; Abbeel, P. ; Levine, S..Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor.《 In Proceedings of the PMLR》.2018, *
The Design and Analysis of Variable Buoyancy System of AUV;Qinggang Sun, Rong Zheng, Fulin Ren, Mozhu Li, Hongguang Liang;《2017 2nd Asia-Pacific Conference on Intelligent Robot Systems (ACIRS)》;20171231;第259-263页 *
Trajectory Planning for Hypersonic Vehicles with Reinforcement Learning;Haihong Chi, Mingxin Zhou;《2021 40th Chinese Control Conference (CCC)》;20210731;第3721-3726页 *
基于分层强化学习的AUV路径跟踪技术研究;潘昕等;《海军工程大学学报》;20210630;第106-112页 *
基于深度强化学习的移动机器人避碰规划方法研究;何姗姗;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210515;第I140-254页 *
智能水下机器人运动的强化学习控制方法研究;白德乾;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20210415;第C036-127页 *

Also Published As

Publication number Publication date
CN113534668A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN113534668B (zh) 基于最大熵的演员-评论家框架的auv运动规划方法
CN112241176B (zh) 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
JP6854549B2 (ja) 強化学習に基づくauv行動計画及び動作制御の方法
Sun et al. Mapless motion planning system for an autonomous underwater vehicle using policy gradient-based deep reinforcement learning
Statheros et al. Autonomous ship collision avoidance navigation concepts, technologies and techniques
CN109765929B (zh) 一种基于改进rnn的uuv实时避障规划方法
Hadi et al. Deep reinforcement learning for adaptive path planning and control of an autonomous underwater vehicle
CN112925319B (zh) 一种基于深度强化学习的水下自主航行器动态避障方法
CN108319293B (zh) 一种基于lstm网络的uuv实时避碰规划方法
CN110362089A (zh) 一种基于深度强化学习和遗传算法的无人船自主导航的方法
CN109784201B (zh) 基于四维风险评估的auv动态避障方法
CN111930141A (zh) 一种水下机器人三维路径可视化跟踪方法
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN109240091A (zh) 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法
CN111240345A (zh) 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN108334677A (zh) 一种基于gru网络的uuv实时避碰规划方法
CN117590867B (zh) 基于深度强化学习的水下自主航行器接驳控制方法和系统
Zhou et al. An improved beetle swarm optimization algorithm for the intelligent navigation control of autonomous sailing robots
CN116069023A (zh) 一种基于深度强化学习的多无人车编队控制方法和系统
CN116257067A (zh) 无人艇集群的协同编队多层次规划控制方法
Hadi et al. Adaptive formation motion planning and control of autonomous underwater vehicles using deep reinforcement learning
Amendola et al. Navigation in restricted channels under environmental conditions: Fast-time simulation by asynchronous deep reinforcement learning
CN114943168B (zh) 一种水上浮桥组合方法及系统
CN114942643B (zh) 一种usv无人艇路径规划模型的构建方法及应用
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant