CN112180950A - 一种基于强化学习的智能船舶自主避碰及路径规划方法 - Google Patents

一种基于强化学习的智能船舶自主避碰及路径规划方法 Download PDF

Info

Publication number
CN112180950A
CN112180950A CN202011222017.3A CN202011222017A CN112180950A CN 112180950 A CN112180950 A CN 112180950A CN 202011222017 A CN202011222017 A CN 202011222017A CN 112180950 A CN112180950 A CN 112180950A
Authority
CN
China
Prior art keywords
ship
collision avoidance
collision
optimal
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011222017.3A
Other languages
English (en)
Other versions
CN112180950B (zh
Inventor
万程鹏
赵银祥
崔一帆
张笛
张金奋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202011222017.3A priority Critical patent/CN112180950B/zh
Publication of CN112180950A publication Critical patent/CN112180950A/zh
Application granted granted Critical
Publication of CN112180950B publication Critical patent/CN112180950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles

Abstract

本发明公开了一种基于强化学习的智能船舶自主避碰及路径规划方法,包括以下步骤:1)获取本船周围的环境信息以及本船信息,感知环境状态空间;2)根据环境状态空间内的障碍物位置、航速,航向在内的相关信息计算避碰参数,判断是否存在碰撞风险;3)如果无碰撞风险,则直接进行路径规划;如果存在碰撞风险,则建立融合LSTM和强化学习原理搭建的智能船避碰模型,寻找避让的最佳避碰策略,获取对应的本船避碰所需的航速和航向;4)避碰策略执行结束之后,根据设定条件确定碰撞风险消失的临界位置点作为新的起点,然后利用路径规划算法重新进行路径规划。本发明引入了LSTM神经网络,运用Bellman方程更新最优策略,实现避碰动作的连续性。

Description

一种基于强化学习的智能船舶自主避碰及路径规划方法
技术领域
本发明涉及路径规划技术,尤其涉及一种基于强化学习的智能船舶自主避碰及路径规划方法。
背景技术
随着人工智能技术的发展,船舶智能化、自动化的发展已经成为一个主流趋势。目前对于智能船舶避碰和路径规划的研究有很多,如果采用现有的方法进行避碰和路径规划,往往会造成分析量大、不符合避碰规则以及路径规划不及时、不智能等结果,难以实现快速的避碰决策以及路径规划。为了保障智能船舶航行安全,亟需一种能够实现自主避碰以及实时路径规划的方法。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于强化学习的智能船舶自主避碰及路径规划方法。
本发明解决其技术问题所采用的技术方案是:一种基于强化学习的智能船舶自主避碰及路径规划方法,包括以下步骤:
1)获取本船周围的环境信息以及本船信息,感知环境状态空间;
所述环境信息为本船周围的船舶信息包括周围船舶的经度、纬度、航速、航向、船长、船宽、真方位、相对方位、MMSI信息;
所述本船信息包括船速、航向、吃水深度、经度、纬度信息;
2)根据环境状态空间内的障碍物位置、航速,航向在内的相关信息计算DCPA、TCPA和SDA避碰参数,判断是否存在碰撞风险;
3)如果无碰撞风险,则直接(利用Dijkstra算法)进行路径规划;如果存在碰撞风险,则建立融合LSTM和强化学习原理搭建的智能船避碰模型,寻找避让的最佳避碰策略,获取对应的本船避碰所需的航速和航向;
5)避碰策略执行结束之后,根据设定条件确定碰撞风险消失的临界位置点作为新的起点,然后利用Dijkstra算法重新进行路径规划。
按上述方案,所述步骤2)中避碰参数DCPA、TCPA、SDA计算如下:
DCPA计算公式:
Figure BDA0002762364310000021
TCPA计算公式:
Figure BDA0002762364310000022
其中(x,y)表示本船的位置,(x0,y0)表示障碍物的位置,
Figure BDA0002762364310000023
表示相对航向,αt目标船真方位,vr表示相对航速;
SDA计算公式:
Figure BDA0002762364310000031
其中Rf、Ra、Rp、Rs分别为图2船舶领域模型的纵向半径的前后半径,横向半径的左右半径,q为障碍物方位。
按上述方案,所述步骤3)中建立融合LSTM和强化学习原理搭建的智能船避碰模型,具体如下:
3.1)根据对环境的感知构建Markov决策过程E=<S,R,P,A>,其中,S为状态空间,R为奖励空间,P为状态转移概率,A为动作空间;
3.2)数据准备:对船舶的静态数据和动态参数进行预处理,包括:
数据核验,对数据的完整性和准确性进行审核,删除错误的数据,并对缺失的数据进行补充;
数据去重,删除同一MMSI船舶、同一时刻的重复数据;
数据降噪,删除异常数据;
3.3)模型训练:将准备好的数据输入融合LSTM和强化学习原理搭建的模型进行训练;
所述模型的结构如下:LSTM神经网络具有若干层计算单元,包括有输入门、输出门和遗忘门,利用LSTM神经网络对数据进行训练,根据智能船的观察值输出避碰动作,可达到记忆避碰动作的目的。然后基于强化学习的原理,根据奖励值的大小评价当前避碰策略的优劣程度。
3.4)根据训练得到可行的避碰策略更新本船的位置、航向、航速信息,同时返回奖励值,然后把奖励值代入动作价值函数,通过求解Bellman最优方程确定最有价值,从而确定最优避碰策略,然后根据最优避碰策略确定本船的航向和航速,并更新奖励值;
利用Bellman方程不断更新价值函数,直到最优价值收敛,从而获取最优避碰策略,即航速和航向;
状态价值函数
vπ(s)=∑a∈Aπ(a|s)qπ(s,a),s∈S
vπ(s):状态价值函数
qπ(s,a):动作价值函数
S:表示状态空间;
s:表示状态;
a:表示动作;
动作价值函数:
qπ(s,a)=r(s,a)+γ∑s′∈Sp(s′|s,a)vπ(s′),s∈S,a∈A
p(s′|s,a):状态转移概率;
r(s,a):“状态-动作”的期望奖励;
γ:折扣系数;
A:表示动作空间;
s′:表示下一状态;
最优状态价值和最优动作价值满足Bellman最优方程:
Figure BDA0002762364310000051
q*(s,a)=r(s,a)+γ∑s′∈Sp(s′|s,a)v*(s′),s∈S,a∈A
用Bellman最优方程求解出最优价值后,采用
Figure BDA0002762364310000052
s∈S确定出一个确定性的最优策略。
按上述方案,所述步骤3.4)中所述的奖励值包括:
Figure BDA0002762364310000053
Roffcourse=-woffcourse*Doffcourse
Figure BDA0002762364310000054
Rt=Rdistance+Roffcourse+Rcollision
其中,Rdistance表示接近目的地的奖励值,Roffcourse表示偏离航向的奖励值,Rcollision表示避碰的奖励值,wdistance、woffcourse、wcollision分别表示距离、偏离航线、避碰对激励函数的影响权重,Z0表示本船到障碍物的距离,(x0,y0)表示障碍物的位置,(xgoal,ygoal)表示目的地的位置,Rt则表示在t时刻奖励值的总和。
按上述方案,所述步骤5)中设定条件为本船到障碍物的距离大于等于安全会遇距离时的最小值。
当本船与障碍物之间的距离大于等于安全会遇距离时,即碰撞风险消失,船舶重新启动路径规划,把碰撞风险消失的位置作为路径规划的起点,以目的地作为终点,利用Dijkstra算法重新进行路径规划。
本发明产生的有益效果是:
1、本发明引入了LSTM神经网络,运用Bellman方程更新最优策略,采用强化学习所学习到的策略进行避碰,实现避碰动作的连续性;
2、本发明将强化学习和Dijkstra最短路径算法相结合,在实现智能船自主避碰的同时对智能船的路径进行规划,提升智能船航行安全。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的结构示意图;
图2是本发明实施例的船舶领域模型图;
图3是本发明实施例的强化学习方法的原理图;
图4是本发明实施例的LSTM神经网络结构图;
图5是本发明实施例的路径规划的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提出了一种基于强化学习的智能船舶自主避碰及路径规划方法,包括以下步骤:
1)通过雷达、AIS等设备获取本船周围的环境信息以及本船信息,感知环境状态空间;
所获取的信息主要包括本船的信息和障碍物的信息;所述本船信息包括船速、航向、吃水、经度、纬度等信息,所述障碍物信息包括经度、纬度、航速、航向、船长、船宽、真方位、相对方位、MMSI等信息;
2)计算避碰参数DCPA、TCPA、SDA;
DCPA计算公式:
Figure BDA0002762364310000081
TCPA计算公式:
Figure BDA0002762364310000082
其中(x,y)表示本船的位置,(x0,y0)表示障碍物的位置,
Figure BDA0002762364310000084
表示相对航向,αt目标船真方位,vr表示相对航速
SDA计算公式:
Figure BDA0002762364310000083
其中Rf、Ra、Rp、Rs分别为图2中船舶领域模型的纵向半径的前后半径,横向半径的左右半径,q为障碍物方位。
3)根据计算的避碰参数判断是否有碰撞风险,当TCPA>0,并且DCPA<SDA时,则判断会发生碰撞风险;如存在碰撞风险,则运用强化学习方法学习避碰策略;
如果没有碰撞风险,则根据Dijkstra算法进行路径规划;
4)利用融合LSTM和强化学习原理搭建的智能船避碰训练模型来学习避碰策略。具体包括以下子步骤:
步骤4.1)根据对环境的感知构建Markov决策过程E=<S,R,P,A>,其中S为状态空间,R为奖励空间,P为状态转移概率,A为动作空间;
步骤4.2)对船舶的静态数据和动态参数进行预处理,数据准备阶段;
步骤4.3)将准备好的数据输入融合LSTM和强化学习原理搭建的模型进行训练;
模型的结构如图3和图4:LSTM神经网络具有若干层计算单元,包括有输入门、输出门和遗忘门,利用LSTM神经网络对数据进行训练,根据智能船的观察值输出避碰动作,可达到记忆避碰动作的目的。然后基于强化学习的原理,根据奖励值的大小评价当前避碰策略的优劣程度。
根据奖励函数并返回一个奖励值,用来评价避碰策略的好坏;奖励函数包括:
Figure BDA0002762364310000091
Roffcourse=-woffcourse*Doffcourse
Figure BDA0002762364310000092
Rt=Rdistance+Roffcourse+Rcollision
其中Rdistance表示接近目的地的奖励值,Roffcourse表示偏离航向的奖励值,Rcollision表示避碰的奖励值,wdistance、woffcourse、wcollision分别表示距离、偏离航线、避碰对激励函数的影响权重,Z0表示本船到障碍物的距离,(x0,y0)表示障碍物的位置,(xgoal,ygoal)表示目的地的位置。Rt则表示在t时刻奖励值的总和。
步骤4.5)利用Bellman方程不断的更新价值函数,直到最优价值改变很小,从而获取最优避碰策略,即航速和航向;
状态价值函数:
vπ(s)=∑a∈Aπ(a|s)qπ(s,a),s∈S
动作价值函数:
qπ(s,a)=r(s,a)+γ∑s′∈Sp(s′|s,a)vπ(s′),s∈S,a∈A
最优状态价值和最优动作价值满足Bellman最优方程:
Figure BDA0002762364310000101
q*(s,a)=r(s,a)+γ∑s′∈Sp(s′|s,a)v*(s′),s∈S,a∈A
用Bellman最优方程求解出最优价值后,可以用
Figure BDA0002762364310000102
s∈S确定出一个确定性的最优策略。
5)根据最优策略计算船和障碍物之间碰撞风险消失的临界点,即本船到障碍物的距离大于等于安全会遇距离时的最小值,然后启动路径规划程序,利用Dijkstra算法重新进行路径规划,如图5。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.一种基于强化学习的智能船舶自主避碰及路径规划方法,其特征在于,包括以下步骤:
1)获取本船周围的环境信息以及本船信息,感知环境状态空间;
所述环境信息为本船周围的船舶信息包括周围船舶的经度、纬度、航速、航向、船长、船宽、真方位、相对方位、MMSI信息;
所述本船信息包括船速、航向、吃水深度、经度、纬度信息;
2)根据环境状态空间内的障碍物位置、航速,航向在内的相关信息计算避碰参数,判断是否存在碰撞风险;
3)如果无碰撞风险,则直接进行路径规划;如果存在碰撞风险,则建立融合LSTM和强化学习原理搭建的智能船避碰模型,寻找避让的最佳避碰策略,获取对应的本船避碰所需的航速和航向;
4)避碰策略执行结束之后,根据设定条件确定碰撞风险消失的临界位置点作为新的起点,然后利用路径规划算法重新进行路径规划。
2.根据权利要求1所述的基于强化学习的智能船舶自主避碰及路径规划方法,其特征在于,所述步骤3)中进行路径规划是利用Dijkstra算法进行路径规划。
3.根据权利要求1所述的基于强化学习的智能船舶自主避碰及路径规划方法,其特征在于,所述步骤2)中避碰参数包括:DCPA、TCPA、SDA,计算如下:
DCPA计算公式:
Figure FDA0002762364300000021
TCPA计算公式:
Figure FDA0002762364300000022
其中(x,y)表示本船的位置,(x0,y0)表示障碍物的位置,
Figure FDA0002762364300000024
表示相对航向,αt目标船真方位,vr表示相对航速;
SDA计算公式:
Figure FDA0002762364300000023
其中,Rf、Ra、Rp、Rs分别船舶领域模型的纵向半径的前后半径,横向半径的左右半径,q为障碍物方位。
4.根据权利要求1所述的基于强化学习的智能船舶自主避碰及路径规划方法,其特征在于,所述步骤3)中建立融合LSTM和强化学习原理搭建的智能船避碰模型,具体如下:
3.1)根据对环境的感知构建Markov决策过程E=<S,R,P,A>,其中,S为状态空间,R为奖励空间,P为状态转移概率,A为动作空间;
3.2)数据准备:对船舶的静态数据和动态参数进行预处理,包括:
数据核验,对数据的完整性和准确性进行审核,删除错误的数据,并对缺失的数据进行补充;
数据去重,删除同一MMSI船舶、同一时刻的重复数据;
数据降噪,删除异常数据;
3.3)模型训练:将准备好的数据输入融合LSTM和强化学习原理搭建的模型进行训练;
3.4)根据训练得到可行的避碰策略更新本船的位置、航向、航速信息,同时返回奖励值,然后把奖励值代入动作价值函数,通过求解Bellman最优方程确定最有价值,从而确定最优避碰策略,然后根据最优避碰策略确定本船的航向和航速,并更新奖励值;
利用Bellman方程不断更新价值函数,直到最优价值收敛,从而获取最优避碰策略,即航速和航向;
状态价值函数:
vπ(s)=∑a∈Aπ(a|s)qπ(s,a),s∈S
其中,vπ(s)为状态价值函数,qπ(s,a)为动作价值函数,S表示状态空间,s表示状态,a表示动作;
动作价值函数:
qπ(s,a)=r(s,a)+γ∑s′∈Sp(s′|s,a)vπ(s′),s∈S,a∈A
其中,p(s′|s,a)为状态转移概率,r(s,a)为“状态-动作”的期望奖励,γ为折扣系数,A表示动作空间,s′表示下一状态;
最优状态价值和最优动作价值满足Bellman最优方程:
Figure FDA0002762364300000041
q*(s,a)=r(s,a)+γ∑s′∈Sp(s′|s,a)v*(s′),s∈S,a∈A
用Bellman最优方程求解出最优价值后,采用
Figure FDA0002762364300000042
Figure FDA0002762364300000043
确定出一个确定性的最优策略。
5.根据权利要求4所述的基于强化学习的智能船舶自主避碰及路径规划方法,其特征在于,所述步骤3.4)中所述的奖励值包括:
Figure FDA0002762364300000044
Roffcourse=-woffcourse*Doffcourse
Figure FDA0002762364300000045
Rt=Rdistance+Roffcourse+Rcollision
其中,Rdistance表示接近目的地的奖励值,Roffcourse表示偏离航向的奖励值,Rcollision表示避碰的奖励值,wdistance、woffcourse、wcollision分别表示距离、偏离航线、避碰对激励函数的影响权重,Z0表示本船到障碍物的距离,(x0,y0)表示障碍物的位置,(xgoal,ygoal)表示目的地的位置,Rt则表示在t时刻奖励值的总和。
6.根据权利要求1所述的基于强化学习的智能船舶自主避碰及路径规划方法,其特征在于,所述步骤5)中设定条件为本船到障碍物的距离大于等于安全会遇距离时的最小值。
CN202011222017.3A 2020-11-05 2020-11-05 一种基于强化学习的智能船舶自主避碰及路径规划方法 Active CN112180950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011222017.3A CN112180950B (zh) 2020-11-05 2020-11-05 一种基于强化学习的智能船舶自主避碰及路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011222017.3A CN112180950B (zh) 2020-11-05 2020-11-05 一种基于强化学习的智能船舶自主避碰及路径规划方法

Publications (2)

Publication Number Publication Date
CN112180950A true CN112180950A (zh) 2021-01-05
CN112180950B CN112180950B (zh) 2022-07-08

Family

ID=73917308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011222017.3A Active CN112180950B (zh) 2020-11-05 2020-11-05 一种基于强化学习的智能船舶自主避碰及路径规划方法

Country Status (1)

Country Link
CN (1) CN112180950B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947431A (zh) * 2021-02-03 2021-06-11 海之韵(苏州)科技有限公司 一种基于强化学习的无人船路径跟踪方法
CN113985876A (zh) * 2021-10-27 2022-01-28 广州大学 基于仿生鱼类觅食的海洋垃圾回收路径规划方法及系统
CN114387822A (zh) * 2021-12-20 2022-04-22 中船航海科技有限责任公司 船舶避碰方法
CN115331486A (zh) * 2022-08-12 2022-11-11 河海大学 一种船舶碰撞风险评估与预测方法及装置
CN117195564A (zh) * 2023-09-12 2023-12-08 中国船舶集团有限公司第七零七研究所九江分部 水下航行器三维避碰模型的构建方法和安全距离计算方法
CN117433540A (zh) * 2023-12-20 2024-01-23 北京海兰信数据科技股份有限公司 船舶的航行方法、终端设备及可读存储介质
CN117195564B (zh) * 2023-09-12 2024-05-14 中国船舶集团有限公司第七零七研究所九江分部 水下航行器三维避碰模型的构建方法和安全距离计算方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108820157A (zh) * 2018-04-25 2018-11-16 武汉理工大学 一种基于强化学习的船舶智能避碰方法
CN109263826A (zh) * 2018-08-30 2019-01-25 武汉理工大学 基于操纵性建模的船舶智能避碰系统及方法
CN111063218A (zh) * 2019-06-24 2020-04-24 武汉理工大学 一种船舶避碰决策方法
CN111679585A (zh) * 2020-07-03 2020-09-18 大连海事大学 一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法
CN111694365A (zh) * 2020-07-01 2020-09-22 武汉理工大学 一种基于深度强化学习的无人船艇编队路径跟踪方法
CN111829527A (zh) * 2020-07-23 2020-10-27 中国石油大学(华东) 一种基于深度强化学习且顾及海洋环境要素的无人船路径规划方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108820157A (zh) * 2018-04-25 2018-11-16 武汉理工大学 一种基于强化学习的船舶智能避碰方法
CN109263826A (zh) * 2018-08-30 2019-01-25 武汉理工大学 基于操纵性建模的船舶智能避碰系统及方法
CN111063218A (zh) * 2019-06-24 2020-04-24 武汉理工大学 一种船舶避碰决策方法
CN111694365A (zh) * 2020-07-01 2020-09-22 武汉理工大学 一种基于深度强化学习的无人船艇编队路径跟踪方法
CN111679585A (zh) * 2020-07-03 2020-09-18 大连海事大学 一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法
CN111829527A (zh) * 2020-07-23 2020-10-27 中国石油大学(华东) 一种基于深度强化学习且顾及海洋环境要素的无人船路径规划方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王程博: ""基于多目标深度增强学习的无人驾驶船舶行为决策"", 《中国优秀博硕士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947431A (zh) * 2021-02-03 2021-06-11 海之韵(苏州)科技有限公司 一种基于强化学习的无人船路径跟踪方法
CN113985876A (zh) * 2021-10-27 2022-01-28 广州大学 基于仿生鱼类觅食的海洋垃圾回收路径规划方法及系统
CN113985876B (zh) * 2021-10-27 2023-09-26 广州大学 基于仿生鱼类觅食的海洋垃圾回收路径规划方法及系统
CN114387822A (zh) * 2021-12-20 2022-04-22 中船航海科技有限责任公司 船舶避碰方法
CN114387822B (zh) * 2021-12-20 2023-09-12 中船航海科技有限责任公司 船舶避碰方法
CN115331486A (zh) * 2022-08-12 2022-11-11 河海大学 一种船舶碰撞风险评估与预测方法及装置
CN115331486B (zh) * 2022-08-12 2023-06-13 河海大学 一种船舶碰撞风险评估与预测方法及装置
CN117195564A (zh) * 2023-09-12 2023-12-08 中国船舶集团有限公司第七零七研究所九江分部 水下航行器三维避碰模型的构建方法和安全距离计算方法
CN117195564B (zh) * 2023-09-12 2024-05-14 中国船舶集团有限公司第七零七研究所九江分部 水下航行器三维避碰模型的构建方法和安全距离计算方法
CN117433540A (zh) * 2023-12-20 2024-01-23 北京海兰信数据科技股份有限公司 船舶的航行方法、终端设备及可读存储介质
CN117433540B (zh) * 2023-12-20 2024-04-02 北京海兰信数据科技股份有限公司 船舶的航行方法、终端设备及可读存储介质

Also Published As

Publication number Publication date
CN112180950B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN112180950B (zh) 一种基于强化学习的智能船舶自主避碰及路径规划方法
Michelmore et al. Uncertainty quantification with statistical guarantees in end-to-end autonomous driving control
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
CN108820157B (zh) 一种基于强化学习的船舶智能避碰方法
Koren et al. Efficient autonomy validation in simulation with adaptive stress testing
Ulbrich et al. Towards tactical lane change behavior planning for automated vehicles
EP3933713A1 (en) Distributional reinforcement learning
Zinchenko et al. Automatic collision avoidance with multiple targets, including maneuvering ones
CN111709517B (zh) 一种基于置信度预测系统的冗余融合定位增强的方法和装置
CN106970648A (zh) 城市低空环境下无人机多目标路径规划联合搜索方法
CN112034887A (zh) 无人机躲避柱状障碍物到达目标点的最优路径训练方法
Wang et al. Autonomous ramp merge maneuver based on reinforcement learning with continuous action space
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
CN111045445B (zh) 一种基于强化学习的飞行器智能避撞方法、设备、介质
CN113033118B (zh) 一种基于示范数据强化学习技术的水下航行器自主上浮控制方法
CN114199248B (zh) 一种基于混合元启发算法优化anfis的auv协同定位方法
CN114386599B (zh) 训练轨迹预测模型和轨迹规划的方法和装置
CN116476863A (zh) 基于深度强化学习的自动驾驶横纵向一体化决策方法
Liu et al. Reinforcement learning-based collision avoidance: Impact of reward function and knowledge transfer
US20230040006A1 (en) Agent trajectory planning using neural networks
CN117406756B (zh) 一种运动轨迹参数的确定方法、装置、设备和存储介质
US10935938B1 (en) Learning from operator data for practical autonomy
CN117075621A (zh) 无人机安全规避方法、装置、电子设备及存储介质
CN114701517A (zh) 基于强化学习的多目标复杂交通场景下自动驾驶解决方法
EP3920070A1 (en) Testing and simulation in autonomous driving

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant