CN110716574A - 一种基于深度q网络的uuv实时避碰规划方法 - Google Patents

一种基于深度q网络的uuv实时避碰规划方法 Download PDF

Info

Publication number
CN110716574A
CN110716574A CN201910934428.6A CN201910934428A CN110716574A CN 110716574 A CN110716574 A CN 110716574A CN 201910934428 A CN201910934428 A CN 201910934428A CN 110716574 A CN110716574 A CN 110716574A
Authority
CN
China
Prior art keywords
uuv
network
environment
deep
collision avoidance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910934428.6A
Other languages
English (en)
Other versions
CN110716574B (zh
Inventor
王宏健
袁建亚
陈涛
林常见
于丹
李成凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201910934428.6A priority Critical patent/CN110716574B/zh
Publication of CN110716574A publication Critical patent/CN110716574A/zh
Application granted granted Critical
Publication of CN110716574B publication Critical patent/CN110716574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/04Control of altitude or depth
    • G05D1/06Rate of change of altitude or depth
    • G05D1/0692Rate of change of altitude or depth specially adapted for under-water vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明属于UUV控制技术领域,具体涉及一种基于深度Q网络的UUV实时避碰规划方法。本发明使网络体系在复杂环境的局部避碰规划时具有自我学习的能力实现端到端模型,不对输入的声呐数据进行人工提取特征和特征匹配,直接从原始数据集上学习状态与动作的映射关系,将深度学习和强化学习相结合应用到避碰规划问题的解决上。本发明使用深度强化学习,无需像深度学习那样进行大规模的采样和做标签,也不像传统的方法需建立环境和UUV本身的数学模型,无需环境的模型,采用强化学习不会因为路径过于复杂而无法执行策略,使其在实际应用中缩短了项目的开发周期、实施更加简洁、高效、鲁棒性高。

Description

一种基于深度Q网络的UUV实时避碰规划方法
技术领域
本发明属于UUV控制技术领域,具体涉及一种基于深度Q网络的UUV实时避碰规划方法。
背景技术
海洋环境的复杂性、不确定性因素的影响,使得UUV的局部路径规划有其特殊性,对于水下机器人的自适应性有更高的要求。UUV工作在这种环境下,很难获取环境的精确数学模型。要想安全、可靠地完成指定任务,UUV必须具备逐渐适应环境和处理各种突发情况的能力,这就要求UUV具有较强的灵活性和适应性。对于处理未知、变化的环境下UUV局部路径规划方法已经取得大量成果,比如基于模型的反应式方法,如人工势场法和沿障碍物边缘行走法基于行为的反应式、模糊逻辑控制方法、神经网络法和遗传算法等方法。而对于UUV在动态的未知环境下的规划,这些方法很多时候都无能为力,让UUV自主地学习并作出决策成为了一个新的研究方向。
发明内容
本发明的目的在于提供使UUV在未知的环境下,通过与环境进行交互并利用反馈的奖励信号进行学习,最终实现在复杂未知环境下的路径规划的一种基于深度Q网络的UUV实时避碰规划方法。
本发明的目的通过如下技术方案实现:包括以下步骤:
步骤1:初始化环境及UUV;根据UUV的环境感知模型,将观测的数据经预处理后作为深度Q网络的输入量
Figure BDA0002221200810000011
步骤2:通过伪随机法选取动作at,设定UUV速度为恒定值v,计算深度Q网络的输出动作的Q值;
步骤3:将UUV的速度v和动作at输入UUV的模型,根据导引算法得到UUV下一时刻的期望路径点;
步骤4:检测UUV下一时刻的期望路径点是否碰到障碍物;若碰到障碍物,则返回步骤1;若没有碰到障碍物,则从环境中返回奖励值,更新网络中的权值wi
步骤5:重复步骤2至步骤4,直到学习完成;
步骤6:将UUV实际环境及自身状态信息输入学习完成后的模型中,实现UUV的实时避碰规划。
本发明还可以包括:
所述的步骤2中Q值的计算方法具体为:
Figure BDA0002221200810000021
其中r为奖励值;π为状态对动作的映射。
所述的步骤4中更新网络中的权值wi的方法具体为:采用长短时记忆的循环神经网络结构LSTM-RNN代替传统的神经网络,使用损失函数最小化来训练网络,具体公式为:
Figure BDA0002221200810000022
其中
Figure BDA0002221200810000023
为函数网络权值wi求偏导;不用直接计算上式的期望值,而是通过随机梯度下降不断地优化损失函数;若在每个时间步更新权值w,那么期望值可用从行为分布和环境中进行采样得到。
所述的步骤3中的导引算法具体为:
Figure BDA0002221200810000024
e=||pc-p||2-R
Figure BDA0002221200810000025
其中,p(xt,yt)表示AUV的当前位置;pc(xc,yc)表示过渡弧的中心位置,R是过渡弧的半径;θr(e)是前视矢量Δ和矢量之间的角度,Δ是与下一个期望轨迹平行的前视矢量;e表示当前AUV的交叉跟踪误差;θd(e)代表期望的角度;θ(t)是矢量
Figure BDA0002221200810000027
和X轴之间的角度。
本发明的有益效果在于:
本发明中UUV通过与环境之间不断地试错交互,利用成功或失败的经验,产生奖励或惩罚的信号不断地改进UUV的性能,让其具有自我学习的能力,当时间趋于无穷远时,UUV的策略将取得理论上的最优策略。本发明使网络体系在复杂环境的局部避碰规划时具有自我学习的能力实现端到端模型,不对输入的声呐数据进行人工提取特征和特征匹配,直接从原始数据集上学习状态与动作的映射关系,将深度学习和强化学习相结合应用到避碰规划问题的解决上。本发明使用深度强化学习,无需像深度学习那样进行大规模的采样和做标签,也不像传统的方法需建立环境和UUV本身的数学模型,无需环境的模型,采用强化学习不会因为路径过于复杂而无法执行策略,使其在实际应用中缩短了项目的开发周期、实施更加简洁、高效、鲁棒性高。
附图说明
图1是UUV环境感知模型示意图。
图2是基于DQN的UUV避碰规划网络结构图。
图3是DQN网络学习过程中的损失函数收敛曲线图。
图4是UUV视线导引系统示意图。
图5是DQN算法的避碰示意图。
图6是DQN算法在方形障碍里的避碰示意图。
图7是本发明的总体流程图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明的目的是提供一种使UUV在未知的环境下,通过与环境进行交互并利用反馈的奖励信号进行学习,最终实现在复杂未知环境下的路径规划。UUV通过与环境之间不断地试错交互,利用成功或失败的经验,产生奖励或惩罚的信号不断地改进UUV的性能,让其具有自我学习的能力,当时间趋于无穷远时,UUV的策略将取得理论上的最优策略。
本发明的关键点:
1、奖励函数的设定2、输出转艏角的合理设计3、网络结构的设计
步骤1:初始化环境及UUV;根据UUV的环境感知模型,将观测的数据经预处理后作为深度Q(Deep Q-Network(DQN))网络的输入量
Figure BDA0002221200810000031
在本实施例中M=13;
步骤2:通过伪随机法选取动作at,设定UUV速度为恒定值v,计算深度Q网络的输出动作的Q值;本实施例里输出对应的是离散转艏角(-10,-5,-3,0,3,5,10),根据算法选取其中的最大值所对应的转艏角;
步骤3:将UUV的速度v和动作at输入UUV的模型,根据导引算法得到UUV下一时刻的期望路径点;
步骤4:检测UUV下一时刻的期望路径点是否碰到障碍物;若碰到障碍物,则返回步骤1;若没有碰到障碍物,则从环境中返回奖励值,更新网络中的权值wi;到达目标点时,给予正的奖励值并初始化环境;
步骤5:重复步骤2至步骤4,直到学习完成;
步骤6:将UUV实际环境及自身状态信息输入学习完成后的模型中,实现UUV的实时避碰规划。
建立UUV的环境感知模型如图1所示全局坐标系XOY和船体坐标系XRORYR,UUV的速度指向YR轴,将声呐的探测区域分为13个单元,求得每个单元到障碍的距离di(i=0,1,2,....12)将该值预处理后得到网络的输入量。UUV的当前艏向为θ,目标与UUV的夹角为θg,得到UUV的趋向目标点的转角为θtg=θ-θg,将改角度加入状态空间中,可增大UUV到达目标点的概率。
设定奖励值函数
Figure BDA0002221200810000041
其中,d表示UUV与障碍得距离。
策略选取模块的实现:
伪随机法:给定状态s,具有最高值的动作被选择的初始概率为Ps,如果该动作没有被选中,则Agent在所有可能的动作中随机地选择下一个动作。
算法的实现原理:
Q-Learning可以用各种神经网络来实现,网络的输入为状态矢量
Figure BDA0002221200810000042
每个网络的输出对应于一个动作的Q值,即Q(st,ai)。用神经网络实现的关键是算法的确定。动作值函数应用在很多强化学习算法,在st执行动作at并在此后遵循此策略π(π是状态对动作的映射)得到的期望返回累积期望奖励值Rt,根据Q函数的定义得:
Figure BDA0002221200810000043
最优的Q值也满足Bellman公式:
Figure BDA0002221200810000044
Bellman公式的意思是如果Qπ(st+1,at+1)在状态st+1下所有可能动作at+1的Q值都是已知的,那么最优的策略就是选取使期望值最大化的动作。强化学习的基本思想就是通过不断地迭代公式(3)得到动作值函数的估计值。
假设目标策略是确定性的用函数π来表示:则可去掉内部的期望符号,得到:
Figure BDA0002221200810000052
上式的期望值仅依赖于环境,可以从策略π产生的不同随机行为转换中学习到离策略的Qμ
Q-learning最普遍的离策略算法,若使用贪婪策略则π(s)=argmaxa Q(s,a),在实际中,由于动作值函数是在独立的序列上进行估计,并没有形成一般性。相反普遍使用值函数逼近器去估计动作值函数Q(s,a;θ)≈Q*(s,a),其中Q*(s,a)代表最优值。在强化学习中,线性函数逼近器仅能解决简单的问题,后来又发展出非线性的函数逼近器,比如神经网络。在本专利中采用长短时记忆(Long Short-Term Memory,LSTM)的循环神经网络(Recurrent Neural Networks,RNN)结构LSTM-RNN代替了传统的神经网络。使用损失函数最小化来训练网络:
其中,yi=r(st,at)+γQ(st+1,π(st+1)|wi-1)是第i次迭代的目标值,当优化损失函数Li(wi)时,上次迭代的参数wi-1保持不变,值得注意的是,目标值依赖于网络的参数w为神经网络的权值,与监督学习中目标值是固定的不同之处。
损失函数Li(wi)对网络权值wi求偏导:
不用直接计算上式的期望值,而是通过随机梯度下降不断地优化损失函数。若在每个时间步更新权值w,那么期望值可用从行为分布和环境中进行采样得到,这与基本的Q学习类似。注意此算法是无模型的:它直接从环境中采样而不用构造明确的环境估计器,来解决强化学习任务。它也是离策略的,从行为分布中学习到贪婪策略以确保对状态空间有足够的探索。
在UUV导航过程中,当两个转向控制命令不一致时发生轨迹切换。为了使轨迹更平滑并实现精确的跟踪控制,本专利使用视线方法来解决这个问题,具有引导算法的UUV可以完美地跟踪所需的轨迹。通过检查图4得到以下公式:
Figure BDA0002221200810000055
e=||pc-p||2-R (7)
Figure BDA0002221200810000061
其中,p(xt,yt)表示AUV的当前位置,pc(xc,yc)表示过渡弧的中心位置,R是其半径。θr(e)是前视矢量Δ和矢量之间的角度,其中Δ是与下一个期望轨迹平行的前视矢量,e表示当前AUV的交叉跟踪误差,θd(e)代表期望的角度,θ(t)是矢量
Figure BDA0002221200810000063
和X轴之间的角度。
将上述学习的网络模型保存后应用于测试环境来测试算法的性能。在仿真环境中学习完之后,将学好的模型应用到随机生成的测试环境中,观测UUV的局部路径规划能力。
本发明使网络体系在复杂环境的局部避碰规划时具有自我学习的能力实现端到端模型,不对输入的声呐数据进行人工提取特征、特征匹配,直接从原始数据集上学习状态与动作的映射关系,将深度学习和强化学习相结合应用到避碰规划问题的解决上,使用深度强化学习,无需像深度学习那样进行大规模的采样、做标签。也不像传统的方法需建立环境和UUV本身的数学模型。它无需环境的模型,采用强化学习不会因为路径过于复杂而无法执行策略,使其在实际应用中缩短了项目的开发周期、算法实现更加简洁、高效、算法鲁棒性高。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于深度Q网络的UUV实时避碰规划方法,其特征在于,包括以下步骤:
步骤1:初始化环境及UUV;根据UUV的环境感知模型,将观测的数据经预处理后作为深度Q网络的输入量
Figure FDA0002221200800000011
步骤2:通过伪随机法选取动作at,设定UUV速度为恒定值v,计算深度Q网络的输出动作的Q值;
步骤3:将UUV的速度v和动作at输入UUV的模型,根据导引算法得到UUV下一时刻的期望路径点;
步骤4:检测UUV下一时刻的期望路径点是否碰到障碍物;若碰到障碍物,则返回步骤1;若没有碰到障碍物,则从环境中返回奖励值,更新网络中的权值wi
步骤5:重复步骤2至步骤4,直到学习完成;
步骤6:将UUV实际环境及自身状态信息输入学习完成后的模型中,实现UUV的实时避碰规划。
2.根据权利要求1所述的一种基于深度Q网络的UUV实时避碰规划方法,其特征在于:所述的步骤2中Q值的计算方法具体为:
Figure FDA0002221200800000012
其中r为奖励值;π为状态对动作的映射。
3.根据权利要求2所述的一种基于深度Q网络的UUV实时避碰规划方法,其特征在于:所述的步骤4中更新网络中的权值wi的方法具体为:采用长短时记忆的循环神经网络结构LSTM-RNN代替传统的神经网络,使用损失函数最小化来训练网络,具体公式为:
其中
Figure FDA0002221200800000014
为函数网络权值wi求偏导;不用直接计算上式的期望值,而是通过随机梯度下降不断地优化损失函数;若在每个时间步更新权值w,那么期望值可用从行为分布和环境中进行采样得到。
4.根据权利要求1或2或3所述的一种基于深度Q网络的UUV实时避碰规划方法,其特征在于:所述的步骤3中的导引算法具体为:
Figure FDA0002221200800000015
e=||pc-p||2-R
Figure FDA0002221200800000021
其中,p(xt,yt)表示AUV的当前位置;pc(xc,yc)表示过渡弧的中心位置,R是过渡弧的半径;θr(e)是前视矢量Δ和矢量
Figure FDA0002221200800000022
之间的角度,Δ是与下一个期望轨迹平行的前视矢量;e表示当前AUV的交叉跟踪误差;θd(e)代表期望的角度;θ(t)是矢量
Figure FDA0002221200800000023
和X轴之间的角度。
CN201910934428.6A 2019-09-29 2019-09-29 一种基于深度q网络的uuv实时避碰规划方法 Active CN110716574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910934428.6A CN110716574B (zh) 2019-09-29 2019-09-29 一种基于深度q网络的uuv实时避碰规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910934428.6A CN110716574B (zh) 2019-09-29 2019-09-29 一种基于深度q网络的uuv实时避碰规划方法

Publications (2)

Publication Number Publication Date
CN110716574A true CN110716574A (zh) 2020-01-21
CN110716574B CN110716574B (zh) 2023-05-02

Family

ID=69211151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910934428.6A Active CN110716574B (zh) 2019-09-29 2019-09-29 一种基于深度q网络的uuv实时避碰规划方法

Country Status (1)

Country Link
CN (1) CN110716574B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340868A (zh) * 2020-02-26 2020-06-26 大连海事大学 基于视觉深度估计的无人水下航行器自主决策控制方法
CN112015081A (zh) * 2020-06-18 2020-12-01 浙江大学 Siso紧格式无模型控制器基于pso-lstm协同算法的参数自整定方法
CN112947421A (zh) * 2021-01-28 2021-06-11 西北工业大学 一种基于强化学习的auv自主避障方法
CN113052372A (zh) * 2021-03-17 2021-06-29 哈尔滨工程大学 一种基于深度强化学习的动态auv追踪路径规划方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100256909A1 (en) * 2004-06-18 2010-10-07 Geneva Aerospace, Inc. Collision avoidance for vehicle control systems
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
US20180231985A1 (en) * 2016-12-22 2018-08-16 TCL Research America Inc. System and method for vision-based flight self-stabilization by deep gated recurrent q-networks
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109283842A (zh) * 2018-08-02 2019-01-29 哈尔滨工程大学 一种无人艇航迹跟踪智能学习控制方法
CN109298712A (zh) * 2018-10-19 2019-02-01 大连海事大学 一种基于自适应航行态势学习的无人驾驶船舶自主避碰决策方法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN109828458A (zh) * 2019-02-26 2019-05-31 中国海洋大学 一种波浪滑翔器路径跟踪控制方法
CN109828570A (zh) * 2019-02-18 2019-05-31 哈尔滨工程大学 一种自适应边界层水面无人艇控制导引方法
US20200293883A1 (en) * 2017-10-27 2020-09-17 Deepmind Technologies Limited Distributional reinforcement learning for continuous control tasks

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100256909A1 (en) * 2004-06-18 2010-10-07 Geneva Aerospace, Inc. Collision avoidance for vehicle control systems
US20180231985A1 (en) * 2016-12-22 2018-08-16 TCL Research America Inc. System and method for vision-based flight self-stabilization by deep gated recurrent q-networks
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
US20200293883A1 (en) * 2017-10-27 2020-09-17 Deepmind Technologies Limited Distributional reinforcement learning for continuous control tasks
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109283842A (zh) * 2018-08-02 2019-01-29 哈尔滨工程大学 一种无人艇航迹跟踪智能学习控制方法
CN109298712A (zh) * 2018-10-19 2019-02-01 大连海事大学 一种基于自适应航行态势学习的无人驾驶船舶自主避碰决策方法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN109828570A (zh) * 2019-02-18 2019-05-31 哈尔滨工程大学 一种自适应边界层水面无人艇控制导引方法
CN109828458A (zh) * 2019-02-26 2019-05-31 中国海洋大学 一种波浪滑翔器路径跟踪控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曾江峰等: "基于切换视线法的欠驱动无人艇鲁棒自适应", 《兵工学报》 *
陈霄等: "欠驱动无人艇自适应滑模航迹跟踪控制", 《国防科技大学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340868A (zh) * 2020-02-26 2020-06-26 大连海事大学 基于视觉深度估计的无人水下航行器自主决策控制方法
CN111340868B (zh) * 2020-02-26 2023-06-02 大连海事大学 基于视觉深度估计的无人水下航行器自主决策控制方法
CN112015081A (zh) * 2020-06-18 2020-12-01 浙江大学 Siso紧格式无模型控制器基于pso-lstm协同算法的参数自整定方法
CN112015081B (zh) * 2020-06-18 2021-12-17 浙江大学 Siso紧格式无模型控制器基于pso-lstm协同算法的参数自整定方法
CN112947421A (zh) * 2021-01-28 2021-06-11 西北工业大学 一种基于强化学习的auv自主避障方法
CN113052372A (zh) * 2021-03-17 2021-06-29 哈尔滨工程大学 一种基于深度强化学习的动态auv追踪路径规划方法
CN113052372B (zh) * 2021-03-17 2022-08-02 哈尔滨工程大学 一种基于深度强化学习的动态auv追踪路径规划方法

Also Published As

Publication number Publication date
CN110716574B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
Zhou et al. Learn to navigate: cooperative path planning for unmanned surface vehicles using deep reinforcement learning
Jiang et al. Path planning for intelligent robots based on deep Q-learning with experience replay and heuristic knowledge
CN110333739B (zh) 一种基于强化学习的auv行为规划及动作控制方法
Chiang et al. RL-RRT: Kinodynamic motion planning via learning reachability estimators from RL policies
CN110716574B (zh) 一种基于深度q网络的uuv实时避碰规划方法
CN109241552B (zh) 一种基于多约束目标的水下机器人运动规划方法
CN108873687B (zh) 一种基于深度q学习的智能水下机器人行为体系结规划方法
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
Lin et al. An improved recurrent neural network for unmanned underwater vehicle online obstacle avoidance
Zhao et al. A novel direct trajectory planning approach based on generative adversarial networks and rapidly-exploring random tree
Grigorescu et al. Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles
CN109784201B (zh) 基于四维风险评估的auv动态避障方法
CN113052372B (zh) 一种基于深度强化学习的动态auv追踪路径规划方法
CN110716575A (zh) 基于深度双q网络强化学习的uuv实时避碰规划方法
Bansal et al. A hamilton-jacobi reachability-based framework for predicting and analyzing human motion for safe planning
JP2006320997A (ja) ロボット行動選択装置及びロボット行動選択方法
Zhou et al. Obstacle avoidance strategy for an autonomous surface vessel based on modified deep deterministic policy gradient
Fan et al. Learning resilient behaviors for navigation under uncertainty
Yan et al. Reinforcement learning-based autonomous navigation and obstacle avoidance for USVs under partially observable conditions
CN114485673B (zh) 基于深度强化学习的服务机器人人群感知导航方法及系统
Jin et al. Soft formation control for unmanned surface vehicles under environmental disturbance using multi-task reinforcement learning
Vibhute Adaptive dynamic programming based motion control of autonomous underwater vehicles
Hamad et al. Path Planning of Mobile Robot Based on Modification of Vector Field Histogram using Neuro-Fuzzy Algorithm.
Borquez et al. Parameter-conditioned reachable sets for updating safety assurances online
Guo et al. Optimal navigation for AGVs: A soft actor–critic-based reinforcement learning approach with composite auxiliary rewards

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant