CN113074738A - 一种基于Dyna框架的混合智能路径规划方法及装置 - Google Patents

一种基于Dyna框架的混合智能路径规划方法及装置 Download PDF

Info

Publication number
CN113074738A
CN113074738A CN202110353938.1A CN202110353938A CN113074738A CN 113074738 A CN113074738 A CN 113074738A CN 202110353938 A CN202110353938 A CN 202110353938A CN 113074738 A CN113074738 A CN 113074738A
Authority
CN
China
Prior art keywords
ship
action
state
dyna
path planning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110353938.1A
Other languages
English (en)
Inventor
周春辉
王理征
朱曼
文元桥
黄亚敏
陶威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202110353938.1A priority Critical patent/CN113074738A/zh
Publication of CN113074738A publication Critical patent/CN113074738A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • G01C21/203Specially adapted for sailing ships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于Dyna框架的混合智能路径规划方法,包括:S1、根据马尔科夫决策过程构建决策模型;S2、采用栅格法对船舶航行环境建立环境模型,确定初始位置及目标位置;S3、根据船舶当前位置及目标位置,采用Dyna‑H算法对所述决策模型进行更新,对船舶当前可能的动作分别进行评估,确定当前最优动作;S4、执行当前最优动作a,并重复S3直到到达目标位置,生成最优路径。本发明提供的基于Dyna框架的混合智能路径规划方法,既在局部避障上保留了栅格法带来的航行的高自由度,又确保了路线规划始终趋向于最短,有利于提高船舶的运输效率与经济效益。

Description

一种基于Dyna框架的混合智能路径规划方法及装置
技术领域
本发明涉及船舶控制与决策技术领域,特别是涉及一种基于Dyna框架的混合智能路径规划方法及装置。
背景技术
有效的路径规划是支持保障智能航行器自主安全航行的核心关键技术之一。但当面对存在未知障碍物等不确定性影响时,路径规划则成为一项复杂并具较大挑战的任务。目前,研究与应用较多的包括传统算法、启发式算法和机器学习等。传统算法如可视图法、人工势场法等缺乏灵活性,易于陷入局部最优值。启发式算法是相对于最优化算法提出的,是一种搜索式算法,在离散路径拓扑结构中得到了很好的应用。以上两类算法都是基于样本的监督学习算法,即算法需要完备的环境信息。因此,在未知环境(即系统中没有新环境的先验信息)环境采用这两类算法智能航行器很难有效地进行路径规划。
强化学习算法是由美国学者Minsky在1954年提出的。目前常用的强化学习算法包括Q-Learning,Sarsa,TD和自适应动态规划算法等。通过智能体与环境进行大量的交互,经过不断试错获取未知环境的信息反馈,从而优化路径规划策略。该类学习算法不依赖模型和环境的先验信息,是一种自主学习和在线学习算法,具有较强的不确定环境自适应能力,可以借助相应传感器感知障碍物信息进行实时在线路径规划。基于Q-Learning的路径规划方法,将强化学习应用于路径规划领域,利用强化学习具有自主决策的特点来选择策略最终完成自主避障和路径规划。然而,传统的Q-Learning存在学习效率低、收敛速度慢等缺点。
发明内容
本发明的目的是针对克服现有技术中传统的Q-Learning存在学习效率低、收敛速度慢等缺点的问题,提供一种基于Dyna框架的混合智能路径规划方法。
本发明采用的技术方案为:一种基于Dyna框架的混合智能路径规划方法,包括以下步骤:
S1、根据马尔科夫决策过程构建决策模型;
S2、采用栅格法对船舶航行环境建立环境模型,确定初始位置及目标位置;
S3、根据船舶当前位置及目标位置,采用Dyna-H算法对所述决策模型进行更新,并根据船舶当前位置及目标位置及决策模型对船舶当前可能的动作a分别进行评估,确定当前最优动作;
S4、执行当前最优动作,并重复S3直到到达目标位置,生成最优路径。
进一步的,步骤S1具体包括:
马尔可夫决策由(S,A,r,Psa)组成,其中,S={s1,s2,L,st}是状态空间,A={a1,a2,L,at}是动作空间,at∈A表示在t时刻执行的动作,r是奖励函数,Psa是状态转移函数,它满足马尔可夫属性:Psa(st+1|s1,a1,L,st,at)=Psa(st+1|st,at);st表示在t时刻的状态,at表示在t时刻的动作;
强化学习的回报函数Gt表示从t时刻开始后的奖励折扣和,回报函数表达式为:
Figure BDA0003007942220000021
其中,折扣因子γ∈(0,1)。
进一步的,步骤S2包括:
S21、将船舶航行水域用大小相同的栅格进行均匀划分;
S22、判断栅格是否被碍航物占据,将栅格分为无障碍物的自由栅格和被碍航物占据的障碍栅格,船舶航行的环境由自由栅格和障碍栅格构成;
S23、确定船舶的初始位置及目标位置。
进一步的,步骤S3具体包括:
S31、先初始化船舶的状态s及其任意动作a所对应的状态价值函数Q(s,a)以及初始化模型Model(s,a);
S32、根据当前状态和Q(s,a)用ε-greedy的方式得到新状态st和奖励r;
S33、用Q-Learning更新价值函数Q(s,a),计算公式为:
Q(st+1,at+1)←Q(st-1,at-1)+a[r+γmaxatQ(st,at)-Q(st-1,at-1)]
其中,st为t时刻状态,at为t时刻所选动作,r为当前状态下反馈的奖励,α为学习率,γ为折扣因子,max表示取最大值,←表示更新;
S34、用新状态st和奖励r更新模型Model(s,a);
S35、在于真实环境交互后,进行N次模拟;每次模拟前更新动作a,动作a由启发式动作ha获得,ha(s,H)=argmaxH(s,a),H(s,a)=||s'-goal||2,其中,H(s,a)为启发函数;s'为查询Model的结果状态;goal为目标位置。如果s,
Figure BDA0003007942220000032
就随机选择一个之前出现过的状态s,并在此基础上随机选择一个动作a;如果s,a∈Model,基于模型Model(s,a)得到st和r;再更新价值函数Q(s,a),公式为:Q(st+1,at+1)←Q(st-1,at-1)+a[r+γmaxatQ(st,at)-Q(st-1,at-1)];执行at,更新状态st
其中,st为t时刻状态,at为t时刻所选动作,r为当前状态下反馈的奖励,α为学习率,γ为折扣因子,max表示取最大值,←表示更新。
进一步的,步骤S32中所述的∈-greedy动作选择策略为:
Figure BDA0003007942220000031
其中,argmax表示取Q(s,a)最大值时对应的动作,ε为随机探索概率,ε∈[0,1]。
进一步的,步骤S33中的r的获取步骤包括以下步骤:
S331、获取路径长度奖励函数R1,其公式为:
Figure BDA0003007942220000041
其中,α1、RD、xN、xG、yN和yG分别代表加权因子、当前位置与目标位置距离、当前位置横坐标、目标点位置横坐标、当前位置纵坐标和目标位置纵坐标;
S332、获取最近会遇距离DCPA、最近会遇时间TCPA,安全时间,在路径规划过程中,为了保证安全,船舶还应当与障碍物保持一定的安全距离和时间,在船舶领域,安全距离被称为最近会遇距离,计算公式如下:
Figure BDA0003007942220000042
其中,DCPA、RT
Figure BDA0003007942220000043
Figure BDA0003007942220000044
分别代表最近会遇距离、当前位置与障碍物间距离、障碍物方向、障碍物与船舶相对方向。
安全时间被称为最近会遇时间,计算公式如下:
Figure BDA0003007942220000045
其中,VR表示船舶与障碍物间相对速度;
S333、根据会遇距离DCPA、最近会遇时间TCPA获取安全奖励函数R2,安全奖励函数R2公式为:
R2=β·DCPA+μ·TCPA,
其中,β和μ代表加权因子;
S334、获取航行安全奖励函数R3,其公式为:
R3=η·times+θ·angle
其中,η,θ代表加权系数,times为转向次数,angle为转向角度;
S335、根据路径长度奖励函数R1、安全奖励函数R2、航行安全奖励函数R3获取奖励r:
1、当到达目标位置时获得的奖励r为100;
2、其余情况奖励r如下:
r=R1+R2+R3
一种路径规划装置,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述的基于Dyna框架的混合智能路径规划方法。
一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如上述的基于Dyna框架的混合智能路径规划方法。
本发明提供的基于Dyna框架的混合智能路径规划方法,既在局部避障上保留了栅格法带来的航行的高自由度,又确保了路线规划始终趋向于最短,有利于提高船舶的运输效率与经济效益。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为本发明提供的一种基于Dyna框架的混合智能路径规划方法的流程图;
图2所示为强化学习流程图;
图3所示为船舶可选取的动作的示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“或/及”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
下面结合附图介绍本发明提供的基于Dyna框架的混合智能路径规划方法:
请参阅图1,为本发明提供的一种基于Dyna框架的混合智能路径规划方法,包括以下步骤:
S1、根据马尔科夫决策过程构建决策模型;
S2、采用栅格法对船舶航行环境建立环境模型,确定初始位置及目标位置;
S3、根据船舶当前位置及目标位置,采用Dyna-H算法对所述决策模型进行更新,并根据船舶当前位置及目标位置及决策模型对船舶当前可能的动作a分别进行评估,确定当前最优动作;
S4、执行当前最优动作,并重复S3直到到达目标位置,生成最优路径。
本发明采用Dyna框架,结合Q-Learning和启发式算法,实现无模型和有模型的结合,加快Dyna-H的收敛速度。
优选地,步骤S1具体包括:
马尔可夫决策由(S,A,r,Psa)组成,其中,S={s1,s2,L,st}是状态空间,A={a1,a2,L,at}是动作空间,at∈A表示在t时刻执行的动作,r是奖励函数,Psa是状态转移函数,它满足马尔可夫属性:Psa(st+1|s1,a1,L,st,at)=Psa(st+1|st,at);
请参阅图2,强化学习的回报函数Gt表示从t时刻开始后的奖励折扣和,回报函数表达式为:
Figure BDA0003007942220000071
其中,折扣因子γ∈(0,1)。
优选地,步骤S2具体包括:
S21、将船舶航行水域用大小相同的栅格进行均匀划;
S22、判断栅格是否被碍航物占据,将栅格分为无障碍物的自由栅格和被碍航物占据的障碍栅格,船舶航行的环境由自由栅格和障碍栅格构成;
S23、确定船舶的初始位置及目标位置。
优选地,步骤S3具体包括:
S31、先初始化船舶的状态s及其任意动作a所对应的状态价值函数Q(s,a)以及初始化模型Model(s,a);
S32、根据当前状态和Q(s,a)用ε-greedy的方式得到新状态st和奖励r;
S33、用Q-Learning更新价值函数Q(s,a),计算公式为:
Q(st+1,at+1)←Q(st-1,at-1)+a[r+γmaxatQ(st,at)-Q(st-1,at-1)]
其中,st为t时刻状态,at为t时刻所选动作,r为当前状态下反馈的奖励,α为学习率,γ为折扣因子,max表示取最大值,←表示更新;
S34、用新状态st和奖励r更新模型Model(s,a);
S35、在于真实环境交互后,进行N次模拟;每次模拟前更新动作a,动作a由启发式动作ha获得,ha(s,H)=argmaxH(s,a),H(s,a)=||s'-goal||2,其中,H(s,a)为启发函数;s'为查询Model的结果状态;goal为目标位置。如果s,
Figure BDA0003007942220000072
就随机选择一个之前出现过的状态s,并在此基础上随机选择一个动作a;如果s,a∈Model,基于模型Model(s,a)得到st和r;再更新价值函数Q(s,a),公式为:Q(st+1,at+1)←Q(st-1,at-1)+a[r+γmaxatQ(st,at)-Q(st-1,at-1)];执行at,更新状态st
其中,st为t时刻状态,at为t时刻所选动作,r为当前状态下反馈的奖励,α为学习率,γ为折扣因子,max表示取最大值,←表示更新。
请参阅图3,优选地,步骤S31中的动作a包括:N、E、S、W、NE、SE、SW、NW。
优选地,步骤S32中所述的∈-greedy动作选择策略为:
Figure BDA0003007942220000081
其中,argmax表示取Q(s,a)最大值时对应的动作,ε为随机探索概率,ε∈[0,1]。
优选地,步骤S33中的r的获取步骤包括以下步骤:
S331、获取路径长度奖励函数R1,其公式为:
Figure BDA0003007942220000082
其中,α1、RD、xN、xG、yN和yG分别代表加权因子、当前位置与目标位置距离、当前位置横坐标、目标点位置横坐标、当前位置纵坐标和目标位置纵坐标;
S332、获取最近会遇距离DCPA、最近会遇时间TCPA,安全时间,在路径规划过程中,为了保证安全,船舶还应当与障碍物保持一定的安全距离和时间,在船舶领域,安全距离被称为最近会遇距离,计算公式如下:
Figure BDA0003007942220000083
其中,DCPA、RT
Figure BDA0003007942220000084
Figure BDA0003007942220000085
分别代表最近会遇距离、当前位置与障碍物间距离、障碍物方向、障碍物与船舶相对方向。
安全时间被称为最近会遇时间,计算公式如下:
Figure BDA0003007942220000091
其中,VR表示船舶与障碍物间相对速度;
S333、根据会遇距离DCPA、最近会遇时间TCPA获取安全奖励函数R2,安全奖励函数R2公式为:
R2=β·DCPA+μ·TCPA,
其中,β和μ代表加权因子;
S334、获取航行安全奖励函数R3,其公式为:
R3=η·times+θ·angle
其中,η,θ代表加权系数,times为转向次数,angle为转向角度;
S335、根据路径长度奖励函数R1、安全奖励函数R2、航行安全奖励函数R3获取奖励r:
1、当到达目标位置时获得的奖励r为100;
2、其余情况奖励r如下:
r=R1+R2+R3
优选地,步骤S4具体包括:
S41、若未到达目标点,但此时已达到最大训练次数,终止路径规划;
S42、若已到达终点,此时若未达到最大训练次数,则完成路径规划,根据所有最优动作a生成最优路径。
本发明提供的基于Dyna框架,并结合启发式算法的船舶路径规划方法,弥补了背景技术中提到的传统方法学习效率低、收敛速度慢等不足,仅需要较少的环境先验知识,即可加快规划速度。
与背景技术中提到的现有技术相比,本发明提供的路径规划方法的优势则体现在无需由船舶实时对障碍物进行复杂建模,对船舶传感系统需求低,不同功能条件的传感系统可根据采集信息类型的不同,建立适合于船舶自身功能条件的状态集再进行学习,具有一定的普适性。
传统的Q-learning算法应用于栅格地图中普遍存在状态空间大,收敛速度慢,规划航迹随机性较大的问题,而背景技术中所提及的可视图法、人工势场法作为奖励策略作为价值导向仍然不能较好地解决这些问题。本发明提供的基于Dyna框架的混合智能路径规划方法,既在局部避障上保留了栅格法带来的航行的高自由度,又确保了路线规划始终趋向于最短,有利于提高船舶的运输效率与经济效益。
基于上述理由,本发明提供的基于Dyna框架的混合智能路径规划方法可以为船舶导航提供有效参考。
实施例2
本发明的实施例2提供了路径规划装置,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现实施例1提供的混合智能路径规划方法。
本发明实施例提供的路径规划装置,用于实现船舶混合智能路径规划方法,因此,船舶混合智能路径规划方法所具备的技术效果,船舶自主导航装置同样具备,在此不再赘述。
实施例3
本发明的实施例3提供了计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现实施例1提供的混合智能路径规划方法。
本发明实施例提供的计算机存储介质,用于实现船舶混合智能路径规划方法,因此,船舶混合智能路径规划方法所具备的技术效果,计算机存储介质同样具备,在此不再赘述。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于Dyna框架的混合智能路径规划方法,其特征在于,包括以下步骤:
S1、根据马尔科夫决策过程构建决策模型;
S2、采用栅格法对船舶航行环境建立环境模型,确定初始位置及目标位置;
S3、根据船舶当前位置及目标位置,采用Dyna-H算法对所述决策模型进行更新,并根据船舶当前位置及目标位置及决策模型对船舶当前可能的动作a分别进行评估,确定当前最优动作;
S4、执行当前最优动作,并重复S3直到到达目标位置,生成最优路径。
2.如权利要求1所述的基于Dyna框架的混合智能路径规划方法,其特征在于,步骤S1具体包括:
马尔可夫决策由(S,A,r,Psa)组成,其中,S={s1,s2,L,st}是状态空间,A={a1,a2,L,at}是动作空间,at∈A表示在t时刻执行的动作,r是奖励函数,Psa是状态转移函数,它满足马尔可夫属性:Psa(st+1|s1,a1,L,st,at)=Psa(st+1|st,at),st为t时刻状态,at为t时刻所选动作;
强化学习的回报函数Gt表示从t时刻开始后的奖励折扣和,回报函数表达式为:
Figure FDA0003007942210000011
其中,折扣因子γ∈(0,1)。
3.如权利要求1所述的基于Dyna框架的混合智能路径规划方法,其特征在于,步骤S2包括:
S21、将船舶航行水域用大小相同的栅格进行均匀划分;
S22、判断栅格是否被碍航物占据,将栅格分为无障碍物的自由栅格和被碍航物占据的障碍栅格,船舶航行的环境由自由栅格和障碍栅格构成;
S23、确定船舶的初始位置及目标位置。
4.如权利要求1所述的基于Dyna框架的混合智能路径规划方法,其特征在于,步骤S3具体包括:
S31、先初始化船舶的状态s及其任意动作a所对应的状态价值函数Q(s,a)以及初始化模型Model(s,a);
S32、根据当前状态和Q(s,a)用ε-greedy的方式得到新状态st和奖励r;
S33、用Q-Learning更新价值函数Q(s,a),计算公式为:
Q(st+1,at+1)←Q(st-1,at-1)+a[r+γmaxatQ(st,at)-Q(st-1,at-1)]
其中,st为t时刻状态,at为t时刻所选动作,r为当前状态下反馈的奖励,α为学习率,γ为折扣因子,max表示取最大值,←表示更新;
S34、用新状态st和奖励r更新模型Model(s,a);
S35、在于真实环境交互后,进行N次模拟;每次模拟前更新动作a,动作a由启发式动作ha获得,ha(s,H)=arg max H(s,a),H(s,a)=||s'-goal||2,其中,H(s,a)为启发函数;s'为查询Model的结果状态;goal为目标位置。如果
Figure FDA0003007942210000021
就随机选择一个之前出现过的状态s,并在此基础上随机选择一个动作a;如果s,a∈Model,基于模型Model(s,a)得到st和r;再更新价值函数Q(s,a),公式为:Q(st+1,at+1)←Q(st-1,at-1)+a[r+γmaxatQ(st,at)-Q(st-1,at-1)];执行at,更新状态st
其中,st为t时刻状态,at为t时刻所选动作,r为当前状态下反馈的奖励,α为学习率,γ为折扣因子,max表示取最大值,←表示更新。
5.如权利要求4所述的基于Dyna框架的混合智能路径规划方法,其特征在于,步骤S32中所述的∈-greedy动作选择策略为:
Figure FDA0003007942210000022
其中,argmax表示取Q(s,a)最大值时对应的动作,ε为随机探索概率,ε∈[0,1]。
6.如权利要求1所述的基于Dyna框架的混合智能路径规划方法,其特征在于,步骤S33中的r的获取步骤包括以下步骤:
S331、获取路径长度奖励函数R1,其公式为:
Figure FDA0003007942210000031
其中,α1、RD、xN、xG、yN和yG分别代表加权因子、当前位置与目标位置距离、当前位置横坐标、目标点位置横坐标、当前位置纵坐标和目标位置纵坐标;
S332、获取最近会遇距离DCPA、最近会遇时间TCPA,安全时间,在路径规划过程中,为了保证安全,船舶还应当与障碍物保持一定的安全距离和时间,在船舶领域,安全距离被称为最近会遇距离,计算公式如下:
Figure FDA0003007942210000032
其中,DCPA、RT
Figure FDA0003007942210000033
Figure FDA0003007942210000034
分别代表最近会遇距离、当前位置与障碍物间距离、障碍物方向、障碍物与船舶相对方向。
安全时间被称为最近会遇时间,计算公式如下:
Figure FDA0003007942210000035
其中,VR表示船舶与障碍物间相对速度;
S333、根据会遇距离DCPA、最近会遇时间TCPA获取安全奖励函数R2,安全奖励函数R2公式为:
R2=β·DCPA+μ·TCPA,
其中,β和μ代表加权因子;
S334、获取航行安全奖励函数R3,其公式为:
R3=η·times+θ·angle
其中,η,θ代表加权系数,times为转向次数,angle为转向角度;
S335、根据路径长度奖励函数R1、安全奖励函数R2、航行安全奖励函数R3获取奖励r:
1、当到达目标位置时获得的奖励r为100;
2、其余情况奖励r如下:
r=R1+R2+R3
7.一种路径规划装置,其特征在于,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-6任一项所述的基于Dyna框架的混合智能路径规划方法。
8.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如权利要求1-6任一项所述的基于Dyna框架的混合智能路径规划方法。
CN202110353938.1A 2021-04-06 2021-04-06 一种基于Dyna框架的混合智能路径规划方法及装置 Pending CN113074738A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110353938.1A CN113074738A (zh) 2021-04-06 2021-04-06 一种基于Dyna框架的混合智能路径规划方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110353938.1A CN113074738A (zh) 2021-04-06 2021-04-06 一种基于Dyna框架的混合智能路径规划方法及装置

Publications (1)

Publication Number Publication Date
CN113074738A true CN113074738A (zh) 2021-07-06

Family

ID=76614512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110353938.1A Pending CN113074738A (zh) 2021-04-06 2021-04-06 一种基于Dyna框架的混合智能路径规划方法及装置

Country Status (1)

Country Link
CN (1) CN113074738A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113639755A (zh) * 2021-08-20 2021-11-12 江苏科技大学苏州理工学院 一种基于深度强化学习的火灾现场逃生-救援联合系统
CN114185354A (zh) * 2022-02-15 2022-03-15 中国科学院微电子研究所 一种基于dqn的agv全局路径规划方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190025851A1 (en) * 2017-07-21 2019-01-24 AI Incorporated Polymorphic path planning for robotic devices
CN109740828A (zh) * 2019-02-28 2019-05-10 广州中国科学院沈阳自动化研究所分所 船舶航行路径规划方法、系统、介质和设备
CN111275249A (zh) * 2020-01-15 2020-06-12 吉利汽车研究院(宁波)有限公司 基于dqn神经网络和高精度定位的驾驶行为优化方法
CN111896006A (zh) * 2020-08-11 2020-11-06 燕山大学 一种基于强化学习和启发式搜索的路径规划方法及系统
CN112237403A (zh) * 2020-09-07 2021-01-19 安克创新科技股份有限公司 用于清扫设备的覆盖路径生成方法和清扫设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190025851A1 (en) * 2017-07-21 2019-01-24 AI Incorporated Polymorphic path planning for robotic devices
CN109740828A (zh) * 2019-02-28 2019-05-10 广州中国科学院沈阳自动化研究所分所 船舶航行路径规划方法、系统、介质和设备
CN111275249A (zh) * 2020-01-15 2020-06-12 吉利汽车研究院(宁波)有限公司 基于dqn神经网络和高精度定位的驾驶行为优化方法
CN111896006A (zh) * 2020-08-11 2020-11-06 燕山大学 一种基于强化学习和启发式搜索的路径规划方法及系统
CN112237403A (zh) * 2020-09-07 2021-01-19 安克创新科技股份有限公司 用于清扫设备的覆盖路径生成方法和清扫设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MATILDE SANTOS 等: "Dyna-H: A heuristic planning reinforcement learning algorithm applied to role-playing game strategy decision systems", 《KNOWLEDGE-BASED SYSTEMS》 *
TENG LIU 等: "A Heuristic Planning Reinforcement Learning-Based Energy Management for Power-Split Plug-in Hybrid Electric Vehicles", 《IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS》 *
XIAOGONG LIN 等: "Path Planning of Unmanned Surface Vehicle Based on Improved Q-Learning Algorithm", 《2019 3RD INTERNATIONAL CONFERENCE ON ELECTRONIC INFORMATION TECHNOLOGY AND COMPUTER ENGINEERING (EITCE)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113639755A (zh) * 2021-08-20 2021-11-12 江苏科技大学苏州理工学院 一种基于深度强化学习的火灾现场逃生-救援联合系统
CN114185354A (zh) * 2022-02-15 2022-03-15 中国科学院微电子研究所 一种基于dqn的agv全局路径规划方法和系统
CN114185354B (zh) * 2022-02-15 2022-05-17 中国科学院微电子研究所 一种基于dqn的agv全局路径规划方法和系统

Similar Documents

Publication Publication Date Title
Du et al. Safe deep reinforcement learning-based adaptive control for USV interception mission
CN108279692B (zh) 一种基于lstm-rnn的uuv动态规划方法
CN102819264B (zh) 移动机器人路径规划q学习初始化方法
CN108762281A (zh) 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
CN109726866A (zh) 基于q学习神经网络的无人船路径规划方法
CN113074738A (zh) 一种基于Dyna框架的混合智能路径规划方法及装置
Fahimi Non-linear model predictive formation control for groups of autonomous surface vessels
CN111079936B (zh) 基于强化学习的波动鳍推进水下作业机器人追踪控制方法
Zhang et al. AUV path tracking with real-time obstacle avoidance via reinforcement learning under adaptive constraints
Qu et al. Pursuit-evasion game strategy of USV based on deep reinforcement learning in complex multi-obstacle environment
Zhou et al. Obstacle avoidance strategy for an autonomous surface vessel based on modified deep deterministic policy gradient
Li et al. Navigation of mobile robots based on deep reinforcement learning: Reward function optimization and knowledge transfer
Etemad et al. Using deep reinforcement learning methods for autonomous vessels in 2d environments
Rosenblatt Optimal selection of uncertain actions by maximizing expected utility
Jin et al. Soft formation control for unmanned surface vehicles under environmental disturbance using multi-task reinforcement learning
Yan et al. Path Planning for Mobile Robot's Continuous Action Space Based on Deep Reinforcement Learning
Yao et al. Multi-USV cooperative path planning by window update based self-organizing map and spectral clustering
Yu et al. Hierarchical reinforcement learning combined with motion primitives for automated overtaking
Wei et al. Deep hierarchical reinforcement learning based formation planning for multiple unmanned surface vehicles with experimental results
CN117387635B (zh) 一种基于深度强化学习和pid控制器的无人机导航方法
Zheng et al. DDPG based LADRC trajectory tracking control for underactuated unmanned ship under environmental disturbances
Zhu et al. Improved PER-DDPG based nonparametric modeling of ship dynamics with uncertainty
Yuan et al. Deep reinforcement learning-based controller for dynamic positioning of an unmanned surface vehicle
Zhang et al. Multi-agent policy learning-based path planning for autonomous mobile robots
CN113485323A (zh) 一种级联多移动机器人灵活编队方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210706