CN112698646A - 一种基于强化学习的航行器路径规划方法 - Google Patents

一种基于强化学习的航行器路径规划方法 Download PDF

Info

Publication number
CN112698646A
CN112698646A CN202011418107.XA CN202011418107A CN112698646A CN 112698646 A CN112698646 A CN 112698646A CN 202011418107 A CN202011418107 A CN 202011418107A CN 112698646 A CN112698646 A CN 112698646A
Authority
CN
China
Prior art keywords
aircraft
network
action
value
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011418107.XA
Other languages
English (en)
Other versions
CN112698646B (zh
Inventor
彭星光
刘硕
王童豪
宋保维
潘光
张福斌
高剑
李乐
张立川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202011418107.XA priority Critical patent/CN112698646B/zh
Publication of CN112698646A publication Critical patent/CN112698646A/zh
Application granted granted Critical
Publication of CN112698646B publication Critical patent/CN112698646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Databases & Information Systems (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Algebra (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于强化学习的航行器路径规划方法。该方法通过接入电子海图中障碍物的信息构建了虚拟力场,设定虚拟力场的奖励函数,然后将状态转移五元组引入航行器路径规划任务中,最后通过结合虚拟力场思想的确定性策略强化学习算法引导航行器通过最优路径到达目标点。该方法接入了实时海图信息,航行器能够应对不同地形情景下进行避障,具有良好的扩展性和自适应性。

Description

一种基于强化学习的航行器路径规划方法
技术领域
本发明属于航行器技术领域,具体涉及一种路径规划方法。
背景技术
路径规划是航行器实施任务的前提条件之一。以海洋航行器为例,在其执行任务时,由于洋流及地形复杂,为保障作业的安全性,航行器需要具备路径规划的能力。同时,路径规划也是确保航行器能开展探测环境、采集资源、布放设施等后续任务的前提。因此,研究航行器的路径规划技术尤为重要。
强化学习是一种让智能体通过“试错”方式进行学习的机器学习算法。强化学习利用大量的交互数据,让智能体从经历中学习,并最终采取最大化预期利益的行动策略。航行器在实际场景下的移动可视为一个马尔科夫链,因此,该路径规划问题可建模为一个马尔科夫决策问题,适用于利用强化学习方法对路径进行优化。
在航行器路径规划问题中,路径应具备安全性和节能性。安全性体现在给航行器下达任务后,航行器应远离危险区域、威胁区域,从而保障自身安全,并保证后续任务的顺利开展。节能性体现在航迹路径应尽可能短,能够给航行器节约储备能源。此外,规划的路径应满足航行器的运动特性,能够应用于实际场景。综上所述,规划的路径应使得航行器能在远离障碍物和威胁区域的前提下,尽可能快速到达目标点。
发明内容
为了克服现有技术的不足,本发明提供了一种基于强化学习的航行器路径规划方法。该方法通过接入电子海图中障碍物的信息构建了虚拟力场,设定虚拟力场的奖励函数,然后将状态转移五元组引入航行器路径规划任务中,最后通过结合虚拟力场思想的确定性策略强化学习算法引导航行器通过最优路径到达目标点。该方法接入了实时海图信息,航行器能够应对不同地形情景下进行避障,具有良好的扩展性和自适应性。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:设定航行器路径规划的任务奖励函数;
设定航行器远离威胁区域时受到虚拟斥力的奖励函数如下:
Figure BDA0002819203720000021
式中,
Figure BDA0002819203720000022
是航行器的纬度,
Figure BDA0002819203720000023
是第i个威胁区域中心的纬度,ψvsl是航行器的经度,
Figure BDA0002819203720000024
是第i个威胁区域中心的经度,N是威胁区域数量,t是时间步;
设定航行器与威胁区域保持安全距离的奖励函数如下:
Figure BDA0002819203720000025
式中,dsafety是航行器距离威胁区域的最小距离;
设定航行器受到目标点的虚拟吸引力的奖励函数如下:
Figure BDA0002819203720000026
式中,
Figure BDA0002819203720000027
是目标点的纬度,ψtar是目标点的经度,λ是虚拟吸引力系数;
设定航行器到达目标点的奖励函数设置如下:
Figure BDA0002819203720000028
综合式(1)到式(4),每个时间步内航行器采取动作时受到环境反馈的总奖励值rtotal为上述总和,公式如下:
rtotal=rrepulsion+rsafety+rattract+rarrival (5)
步骤2:将航行器的路径规划任务对应马尔科夫决策过程进行五元组建模,得到状态转移五元组如下:
<S,A,P,R,γ>
其中,S为航行器的策略网络输入状态的集合,在每一个时间步内,S包括航行器地理位置坐标即纬度
Figure BDA0002819203720000029
和经度ψ、当前航向角θ、距离威胁区域中心的距离总和dobs和距离目标点的距离dtar,S由航行器传感器联合电子海图系统进行获取;当前航向角θ是航行器的艏向与地理正北的矢量夹角;A是航行器动作的集合,在每一个时间步内,A是一个舵角值δ,即航向改变量;航行器在t时间步航向改变δt舵角后,t+1时间步航行器的航向角θt+1计算方式如下:
θt+1=θtt (6)
P是航行器的状态转移概率;R是总奖励值rtotal;γ是奖励折扣因子;
步骤3:构建结合虚拟力场思想的确定性策略强化学习算法;
步骤3-1:确定性策略强化学习算法的演员网络包括优化器、航行器动作策略网络和策略网络目标网络,用于接收环境信息,并做出应答;
确定性策略强化学习算法的评论家网络包括优化器、航行器动作价值Q网络和动作价值网络目标网络,用于更新航行器动作策略网络的参数;
确定性策略强化学习算法的航行环境为地图实际场景,航行器数据经验池用于储存状态转移五元组,航行器数据经验池容量为固定值;
步骤3-2:随机初始化航行器动作策略网络、策略网络目标网络、航行器动作价值Q网络和动作价值网络目标网络的网络参数,并每间隔一定时间步将航行器动作策略网络的网络参数复制给策略网络目标网络,每间隔一定时间步将航行器动作价值Q网络的网络参数复制给动作价值网络目标网络;
步骤3-3:在训练时,航行器通过传感器收集来自航行环境的信息,作为航行器动作策略网络的输入,并结合航行器状态作为航行器动作价值Q网络的输入;
策略网络目标网络将当前时间步的状态转移五元组输入给航行器数据经验池;
航行器动作价值Q网络的输出通过梯度下降回传给航行器动作策略网络;
优化器对航行器动作策略网络、航行器动作价值Q网络进行梯度更新;
航行器动作策略网络输出一个动作即舵角,并添加舵角噪声得到实际舵角值,航行器根据实际舵角值进行航向角调整,完成一次航行器与航行环境的交互;
当航行器数据经验池中的状态转移五元组达到指定数目后开始采样并训练,输出目标动作价值Q值给动作价值网络目标网络;当训练达到指定次数后,航行器能够避开威胁区域,得到最优路径;
步骤4:航行器在路径规划任务中的航速为固定值,步骤3的算法通过修正每个时间步内航行器的舵角,来改变航行器的航向,引导航行器到达目标点。
优选地,所述θ∈[0°,360°),δ∈[-35°,+35°],γ∈[0,1]。
由于采用了本发明提出了一种基于强化学习的航行器路径规划方法,带来了如下有益效果:
1、本发明方法不易陷入局部极值而导致路径规划任务失败。
2、本发明方法考虑长期回报总和最高,能够有效避开威胁区域以及快速到达目标点。
3、本发明方法对应不同的地图场景均适用,具有良好的泛化性、拓展性。
4、本发明方法通过改变舵角对航行器进行控制,符合实际场景下航行器的操纵机动规律。
附图说明
图1是本发明方法的结构框图。
图2是本发明方法的仿真验证图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提供一种基于强化学习的航行器路径规划方法,包括以下步骤:
步骤1:设定航行器路径规划的任务奖励函数;
设定航行器远离威胁区域时受到虚拟斥力的奖励函数如下:
Figure BDA0002819203720000041
式中,
Figure BDA0002819203720000042
是航行器的纬度,
Figure BDA0002819203720000043
是第i个威胁区域中心的纬度,ψvsl是航行器的经度,
Figure BDA0002819203720000044
是第i个威胁区域中心的经度,N是威胁区域数量,t是时间步;
设定航行器与威胁区域保持安全距离的奖励函数如下:
Figure BDA0002819203720000045
式中,dsafety是航行器距离威胁区域的最小距离;
设定航行器受到目标点的虚拟吸引力的奖励函数如下:
Figure BDA0002819203720000046
式中,
Figure BDA0002819203720000051
是目标点的纬度,ψtar是目标点的经度,λ是虚拟吸引力系数;
设定航行器到达目标点的奖励函数设置如下:
Figure BDA0002819203720000052
综合式(1)到式(4),每个时间步内航行器采取动作时受到环境反馈的总奖励值rtotal为上述总和,公式如下:
rtotal=rrepulsion+rsafety+rattract+rarrival (5)
步骤2:将航行器的路径规划任务对应马尔科夫决策过程进行五元组建模,得到状态转移五元组如下:
<S,A,P,R,γ>
其中,S为航行器的策略网络输入状态的集合,在每一个时间步内,S包括航行器地理位置坐标即纬度
Figure BDA0002819203720000053
和经度ψ、当前航向角θ、距离威胁区域中心的距离总和dobs和距离目标点的距离dtar,S由航行器传感器联合电子海图系统进行获取;当前航向角θ是航行器的艏向与地理正北的矢量夹角;A是航行器动作的集合,在每一个时间步内,A是一个舵角值δ,即航向改变量;航行器在t时间步航向改变δt舵角后,t+1时间步航行器的航向角θt+1计算方式如下:
θt+1=θtt (6)
P是航行器的状态转移概率;R是总奖励值rtotal;γ是奖励折扣因子;至此,路径规划任务的马尔科夫决策过程建模完成,对于每个时间步内的舵角值,本发明用一种结合虚拟力场思想的确定性策略强化学习算法来确定。当达到一定的神经网络训练次数后,该方法能够得到航行器对于每一个时间步的唯一策略动作,即最优的航迹。
步骤3:构建结合虚拟力场思想的确定性策略强化学习算法;算法框图如图1所示。通过图1的框架,对航行器的动作策略网络进行训练,最终得到最优的策略,即最优航迹。
步骤3-1:确定性策略强化学习算法的演员网络包括优化器、航行器动作策略网络和策略网络目标网络,用于接收环境信息,并做出应答;
确定性策略强化学习算法的评论家网络包括优化器、航行器动作价值Q网络和动作价值网络目标网络,用于更新航行器动作策略网络的参数;
确定性策略强化学习算法的航行环境为地图实际场景,航行器数据经验池用于储存状态转移五元组;
步骤3-2:随机初始化航行器动作策略网络、策略网络目标网络、航行器动作价值Q网络和动作价值网络目标网络的网络参数,并每间隔一定时间步将航行器动作策略网络的网络参数复制给策略网络目标网络,每间隔一定时间步将航行器动作价值Q网络的网络参数复制给动作价值网络目标网络;初始化容量为一定数值的航行器数据经验池。
步骤3-3:在训练时,航行器通过传感器收集来自航行环境的信息,作为航行器动作策略网络的输入,并结合航行器状态作为航行器动作价值Q网络的输入;
策略网络目标网络将当前时间步的状态转移五元组输入给航行器数据经验池;
航行器动作价值Q网络的输出通过梯度下降回传给航行器动作策略网络;
优化器对航行器动作策略网络、航行器动作价值Q网络进行梯度更新;
航行器动作策略网络输出一个动作即舵角,并添加舵角噪声得到实际舵角值,航行器根据实际舵角值进行航向角调整,完成一次航行器与航行环境的交互;
当航行器数据经验池中的状态转移五元组达到指定数目后开始采样并训练,输出目标动作价值Q值给动作价值网络目标网络;当训练达到指定次数后,航行器能够避开威胁区域,得到最优路径;
步骤4:航行器在路径规划任务中的航速为固定值,步骤3的算法通过修正每个时间步内航行器的舵角,来改变航行器的航向,引导航行器到达目标点。
优选地,所述θ∈[0°,360°),δ∈[-35°,+35°],γ∈[0,1]。
在本方法中,通过强化学习得到的最优策略,就对应了路径规划的最优路径。如图2所示,航行器的起点设定为白色点,终点设定为黑色点,圆形灰色区域为航行环境中的潜在威胁点,白色的路径即为本方法规划出的最优路径。此外,本方法可用于推广到运载车辆、飞行器等航行器的路径规划。

Claims (2)

1.一种基于强化学习的航行器路径规划方法,其特征在于,包括以下步骤:
步骤1:设定航行器路径规划的任务奖励函数;
设定航行器远离威胁区域时受到虚拟斥力的奖励函数如下:
Figure FDA0002819203710000011
式中,
Figure FDA0002819203710000012
是航行器的纬度,
Figure FDA0002819203710000013
是第i个威胁区域中心的纬度,ψvsl是航行器的经度,
Figure FDA0002819203710000014
是第i个威胁区域中心的经度,N是威胁区域数量,t是时间步;
设定航行器与威胁区域保持安全距离的奖励函数如下:
Figure FDA0002819203710000015
式中,dsafety是航行器距离威胁区域的最小距离;
设定航行器受到目标点的虚拟吸引力的奖励函数如下:
Figure FDA0002819203710000016
式中,
Figure FDA0002819203710000017
是目标点的纬度,ψtar是目标点的经度,λ是虚拟吸引力系数;
设定航行器到达目标点的奖励函数设置如下:
Figure FDA0002819203710000018
综合式(1)到式(4),每个时间步内航行器采取动作时受到环境反馈的总奖励值rtotal为上述总和,公式如下:
rtotal=rrepulsion+rsafety+rattract+rarrival (5)
步骤2:将航行器的路径规划任务对应马尔科夫决策过程进行五元组建模,得到状态转移五元组如下:
<,A,P,R,γ>
其中,S为航行器的策略网络输入状态的集合,在每一个时间步内,S包括航行器地理位置坐标即纬度
Figure FDA0002819203710000021
和经度ψ、当前航向角θ、距离威胁区域中心的距离总和dobs和距离目标点的距离dtar,S由航行器传感器联合电子海图系统进行获取;当前航向角θ是航行器的艏向与地理正北的矢量夹角;A是航行器动作的集合,在每一个时间步内,A是一个舵角值δ,即航向改变量;航行器在t时间步航向改变δt舵角后,t+1时间步航行器的航向角θt+1计算方式如下:
θt+1=θtt (6)P是航行器的状态转移概率;R是总奖励值rtotal;γ是奖励折扣因子;
步骤3:构建结合虚拟力场思想的确定性策略强化学习算法;
步骤3-1:确定性策略强化学习算法的演员网络包括优化器、航行器动作策略网络和策略网络目标网络,用于接收环境信息,并做出应答;
确定性策略强化学习算法的评论家网络包括优化器、航行器动作价值Q网络和动作价值网络目标网络,用于更新航行器动作策略网络的参数;
确定性策略强化学习算法的航行环境为地图实际场景,航行器数据经验池用于储存状态转移五元组,航行器数据经验池容量为固定值;
步骤3-2:随机初始化航行器动作策略网络、策略网络目标网络、航行器动作价值Q网络和动作价值网络目标网络的网络参数,并每间隔一定时间步将航行器动作策略网络的网络参数复制给策略网络目标网络,每间隔一定时间步将航行器动作价值Q网络的网络参数复制给动作价值网络目标网络;
步骤3-3:在训练时,航行器通过传感器收集来自航行环境的信息,作为航行器动作策略网络的输入,并结合航行器状态作为航行器动作价值Q网络的输入;
策略网络目标网络将当前时间步的状态转移五元组输入给航行器数据经验池;
航行器动作价值Q网络的输出通过梯度下降回传给航行器动作策略网络;
优化器对航行器动作策略网络、航行器动作价值Q网络进行梯度更新;
航行器动作策略网络输出一个动作即舵角,并添加舵角噪声得到实际舵角值,航行器根据实际舵角值进行航向角调整,完成一次航行器与航行环境的交互;
当航行器数据经验池中的状态转移五元组达到指定数目后开始采样并训练,输出目标动作价值Q值给动作价值网络目标网络;当训练达到指定次数后,航行器能够避开威胁区域,得到最优路径;
步骤4:航行器在路径规划任务中的航速为固定值,步骤3的算法通过修正每个时间步内航行器的舵角,来改变航行器的航向,引导航行器到达目标点。
2.根据权利要求1所述的一种基于强化学习的航行器路径规划方法,其特征在于,所述θ∈[0°,360°),δ∈[-35°,+35°],γ∈[0,1]。
CN202011418107.XA 2020-12-05 2020-12-05 一种基于强化学习的航行器路径规划方法 Active CN112698646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011418107.XA CN112698646B (zh) 2020-12-05 2020-12-05 一种基于强化学习的航行器路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011418107.XA CN112698646B (zh) 2020-12-05 2020-12-05 一种基于强化学习的航行器路径规划方法

Publications (2)

Publication Number Publication Date
CN112698646A true CN112698646A (zh) 2021-04-23
CN112698646B CN112698646B (zh) 2022-09-13

Family

ID=75506327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011418107.XA Active CN112698646B (zh) 2020-12-05 2020-12-05 一种基于强化学习的航行器路径规划方法

Country Status (1)

Country Link
CN (1) CN112698646B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641192A (zh) * 2021-07-06 2021-11-12 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法
CN114089762A (zh) * 2021-11-22 2022-02-25 江苏科技大学 一种基于强化学习的水空两栖无人航行器路径规划方法
CN114721409A (zh) * 2022-06-08 2022-07-08 山东大学 一种基于强化学习的水下航行器对接控制方法
CN115001855A (zh) * 2022-07-18 2022-09-02 南京理工大学 基于轨迹逼近的深度强化学习智能体选择攻击方法
CN115493595A (zh) * 2022-09-28 2022-12-20 天津大学 一种基于局部感知与近端优化策略的auv路径规划方法
CN117606490A (zh) * 2024-01-23 2024-02-27 吉林大学 一种水下自主航行器协同搜索路径规划方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803313A (zh) * 2018-06-08 2018-11-13 哈尔滨工程大学 一种基于海流预测模型的路径规划方法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN111142522A (zh) * 2019-12-25 2020-05-12 北京航空航天大学杭州创新研究院 一种分层强化学习的智能体控制方法
US20200175364A1 (en) * 2017-05-19 2020-06-04 Deepmind Technologies Limited Training action selection neural networks using a differentiable credit function
CN111829527A (zh) * 2020-07-23 2020-10-27 中国石油大学(华东) 一种基于深度强化学习且顾及海洋环境要素的无人船路径规划方法
CN111880535A (zh) * 2020-07-23 2020-11-03 上海交通大学 一种基于强化学习的无人艇混合感知自主避障方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200175364A1 (en) * 2017-05-19 2020-06-04 Deepmind Technologies Limited Training action selection neural networks using a differentiable credit function
CN108803313A (zh) * 2018-06-08 2018-11-13 哈尔滨工程大学 一种基于海流预测模型的路径规划方法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN111142522A (zh) * 2019-12-25 2020-05-12 北京航空航天大学杭州创新研究院 一种分层强化学习的智能体控制方法
CN111829527A (zh) * 2020-07-23 2020-10-27 中国石油大学(华东) 一种基于深度强化学习且顾及海洋环境要素的无人船路径规划方法
CN111880535A (zh) * 2020-07-23 2020-11-03 上海交通大学 一种基于强化学习的无人艇混合感知自主避障方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PENG XINGGUANG: "A Multi-Task Algorithm for Autonomous Underwater Vehicles 3D path planning", 《2020 3RD INTERNATIONAL CONFERENCE ON UNMANNED SYSTEMS (ICUS)》 *
彭星光: "无人水下航行器的发展现状与关键技术", 《宇航总体技术》 *
随博文等: "基于深度Q网络的水面无人艇路径规划算法", 《上海海事大学学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641192A (zh) * 2021-07-06 2021-11-12 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法
CN113641192B (zh) * 2021-07-06 2023-07-18 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法
CN114089762A (zh) * 2021-11-22 2022-02-25 江苏科技大学 一种基于强化学习的水空两栖无人航行器路径规划方法
CN114089762B (zh) * 2021-11-22 2024-06-21 江苏科技大学 一种基于强化学习的水空两栖无人航行器路径规划方法
CN114721409A (zh) * 2022-06-08 2022-07-08 山东大学 一种基于强化学习的水下航行器对接控制方法
CN115001855A (zh) * 2022-07-18 2022-09-02 南京理工大学 基于轨迹逼近的深度强化学习智能体选择攻击方法
CN115493595A (zh) * 2022-09-28 2022-12-20 天津大学 一种基于局部感知与近端优化策略的auv路径规划方法
CN117606490A (zh) * 2024-01-23 2024-02-27 吉林大学 一种水下自主航行器协同搜索路径规划方法
CN117606490B (zh) * 2024-01-23 2024-05-14 吉林大学 一种水下自主航行器协同搜索路径规划方法

Also Published As

Publication number Publication date
CN112698646B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN112698646B (zh) 一种基于强化学习的航行器路径规划方法
CN110850861B (zh) 基于注意的分层变道深度强化学习
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
CN111507501B (zh) 通过强化学习来执行个性化路径规划的方法及装置
CN110850854A (zh) 自动驾驶员代理和为自动驾驶员代理提供策略的策略服务器
CN109460015A (zh) 用于自主驾驶应用的无监督学习代理
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
CN113044064B (zh) 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN106959700B (zh) 一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法
CN109144049A (zh) 用于控制感测装置视场的系统和方法
CN110472738A (zh) 一种基于深度强化学习的无人艇实时避障算法
CN112034887A (zh) 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN117093009B (zh) 一种基于机器视觉的物流agv小车导航控制方法及系统
CN113561986A (zh) 自动驾驶汽车决策方法及装置
CN111813144B (zh) 一种基于改进羊群算法的多无人机协同航路规划方法
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
CN116405111A (zh) 一种基于深度强化学习的海上无人机辅助光数据收集方法
CN111338375A (zh) 基于混合策略的四旋翼无人机移动降落的控制方法及系统
CN111580526B (zh) 面向固定车辆编队场景的协同驾驶方法
CN115031753B (zh) 基于安全势场和dqn算法的行车工况局部路径规划方法
CN116679711A (zh) 一种基于有模型与无模型强化学习的机器人避障方法
Xing et al. Neuromodulated patience for robot and self-driving vehicle navigation
CN118149817A (zh) 一种基于改进避障算法的飞行器航路规划方法
CN117170408A (zh) 基于无人机的光伏板场地巡检路径智能规划系统及方法
CN116679710A (zh) 一种基于多任务学习的机器人避障策略训练与部署方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant