CN113074738A

CN113074738A - 一种基于Dyna框架的混合智能路径规划方法及装置

Info

Publication number: CN113074738A
Application number: CN202110353938.1A
Authority: CN
Inventors: 周春辉; 王理征; 朱曼; 文元桥; 黄亚敏; 陶威
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-07-06

Abstract

本发明涉及一种基于Dyna框架的混合智能路径规划方法，包括：S1、根据马尔科夫决策过程构建决策模型；S2、采用栅格法对船舶航行环境建立环境模型，确定初始位置及目标位置；S3、根据船舶当前位置及目标位置，采用Dyna‑H算法对所述决策模型进行更新，对船舶当前可能的动作分别进行评估，确定当前最优动作；S4、执行当前最优动作a，并重复S3直到到达目标位置，生成最优路径。本发明提供的基于Dyna框架的混合智能路径规划方法，既在局部避障上保留了栅格法带来的航行的高自由度，又确保了路线规划始终趋向于最短，有利于提高船舶的运输效率与经济效益。

Description

一种基于Dyna框架的混合智能路径规划方法及装置

技术领域

本发明涉及船舶控制与决策技术领域，特别是涉及一种基于Dyna框架的混合智能路径规划方法及装置。

背景技术

有效的路径规划是支持保障智能航行器自主安全航行的核心关键技术之一。但当面对存在未知障碍物等不确定性影响时，路径规划则成为一项复杂并具较大挑战的任务。目前，研究与应用较多的包括传统算法、启发式算法和机器学习等。传统算法如可视图法、人工势场法等缺乏灵活性，易于陷入局部最优值。启发式算法是相对于最优化算法提出的，是一种搜索式算法，在离散路径拓扑结构中得到了很好的应用。以上两类算法都是基于样本的监督学习算法，即算法需要完备的环境信息。因此，在未知环境(即系统中没有新环境的先验信息)环境采用这两类算法智能航行器很难有效地进行路径规划。

强化学习算法是由美国学者Minsky在1954年提出的。目前常用的强化学习算法包括Q-Learning,Sarsa,TD和自适应动态规划算法等。通过智能体与环境进行大量的交互，经过不断试错获取未知环境的信息反馈，从而优化路径规划策略。该类学习算法不依赖模型和环境的先验信息，是一种自主学习和在线学习算法，具有较强的不确定环境自适应能力，可以借助相应传感器感知障碍物信息进行实时在线路径规划。基于Q-Learning的路径规划方法，将强化学习应用于路径规划领域，利用强化学习具有自主决策的特点来选择策略最终完成自主避障和路径规划。然而，传统的Q-Learning存在学习效率低、收敛速度慢等缺点。

发明内容

本发明的目的是针对克服现有技术中传统的Q-Learning存在学习效率低、收敛速度慢等缺点的问题，提供一种基于Dyna框架的混合智能路径规划方法。

本发明采用的技术方案为：一种基于Dyna框架的混合智能路径规划方法，包括以下步骤：

S1、根据马尔科夫决策过程构建决策模型；

S2、采用栅格法对船舶航行环境建立环境模型，确定初始位置及目标位置；

S3、根据船舶当前位置及目标位置，采用Dyna-H算法对所述决策模型进行更新，并根据船舶当前位置及目标位置及决策模型对船舶当前可能的动作a分别进行评估，确定当前最优动作；

S4、执行当前最优动作，并重复S3直到到达目标位置，生成最优路径。

进一步的，步骤S1具体包括：

马尔可夫决策由(S,A,r,P_sa)组成，其中，S＝{s₁,s₂,L,s_t}是状态空间，A＝{a₁,a₂,L,a_t}是动作空间，a_t∈A表示在t时刻执行的动作，r是奖励函数，P_sa是状态转移函数，它满足马尔可夫属性：P_sa(s_t+1|s₁,a₁,L,s_t,a_t)＝P_sa(s_t+1|s_t,a_t)；s_t表示在t时刻的状态，a_t表示在t时刻的动作；

强化学习的回报函数G_t表示从t时刻开始后的奖励折扣和，回报函数表达式为：

其中，折扣因子γ∈(0,1)。

进一步的，步骤S2包括：

S21、将船舶航行水域用大小相同的栅格进行均匀划分；

S22、判断栅格是否被碍航物占据，将栅格分为无障碍物的自由栅格和被碍航物占据的障碍栅格，船舶航行的环境由自由栅格和障碍栅格构成；

S23、确定船舶的初始位置及目标位置。

进一步的，步骤S3具体包括：

S31、先初始化船舶的状态s及其任意动作a所对应的状态价值函数Q(s,a)以及初始化模型Model(s,a)；

S32、根据当前状态和Q(s,a)用ε-greedy的方式得到新状态s_t和奖励r；

S33、用Q-Learning更新价值函数Q(s,a)，计算公式为：

Q(s_t+1,a_t+1)←Q(s_t-1,a_t-1)+a[r+γmax_atQ(s_t,a_t)-Q(s_t-1,a_t-1)]

其中，s_t为t时刻状态，a_t为t时刻所选动作，r为当前状态下反馈的奖励，α为学习率，γ为折扣因子，max表示取最大值，←表示更新；

S34、用新状态s_t和奖励r更新模型Model(s,a)；

S35、在于真实环境交互后，进行N次模拟；每次模拟前更新动作a，动作a由启发式动作h_a获得，h_a(s,H)＝argmaxH(s,a)，H(s,a)＝||s'-goal||²，其中，H(s,a)为启发函数；s'为查询Model的结果状态；goal为目标位置。如果s,

就随机选择一个之前出现过的状态s,并在此基础上随机选择一个动作a；如果s,a∈Model,基于模型Model(s,a)得到s_t和r；再更新价值函数Q(s，a)，公式为：Q(s_t+1,a_t+1)←Q(s_t-1,a_t-1)+a[r+γmax_atQ(s_t,a_t)-Q(s_t-1,a_t-1)]；执行a_t，更新状态s_t；

其中，s_t为t时刻状态，a_t为t时刻所选动作，r为当前状态下反馈的奖励，α为学习率，γ为折扣因子，max表示取最大值，←表示更新。

进一步的，步骤S32中所述的∈-greedy动作选择策略为：

其中，argmax表示取Q(s,a)最大值时对应的动作，ε为随机探索概率，ε∈[0,1]。

进一步的，步骤S33中的r的获取步骤包括以下步骤：

S331、获取路径长度奖励函数R₁，其公式为：

其中，α₁、R_D、x_N、x_G、y_N和y_G分别代表加权因子、当前位置与目标位置距离、当前位置横坐标、目标点位置横坐标、当前位置纵坐标和目标位置纵坐标；

S332、获取最近会遇距离DCPA、最近会遇时间TCPA，安全时间，在路径规划过程中，为了保证安全，船舶还应当与障碍物保持一定的安全距离和时间，在船舶领域，安全距离被称为最近会遇距离，计算公式如下：

其中，DCPA、R_T、

和

分别代表最近会遇距离、当前位置与障碍物间距离、障碍物方向、障碍物与船舶相对方向。

安全时间被称为最近会遇时间，计算公式如下：

其中，V_R表示船舶与障碍物间相对速度；

S333、根据会遇距离DCPA、最近会遇时间TCPA获取安全奖励函数R₂，安全奖励函数R₂公式为：

R₂＝β·DCPA+μ·TCPA，

其中，β和μ代表加权因子；

S334、获取航行安全奖励函数R₃，其公式为：

R₃＝η·times+θ·angle

其中，η，θ代表加权系数，times为转向次数，angle为转向角度；

S335、根据路径长度奖励函数R₁、安全奖励函数R₂、航行安全奖励函数R₃获取奖励r：

1、当到达目标位置时获得的奖励r为100；

2、其余情况奖励r如下：

r＝R₁+R₂+R₃。

一种路径规划装置，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述的基于Dyna框架的混合智能路径规划方法。

一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机该程序被处理器执行时，实现如上述的基于Dyna框架的混合智能路径规划方法。

本发明提供的基于Dyna框架的混合智能路径规划方法，既在局部避障上保留了栅格法带来的航行的高自由度，又确保了路线规划始终趋向于最短，有利于提高船舶的运输效率与经济效益。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1所示为本发明提供的一种基于Dyna框架的混合智能路径规划方法的流程图；

图2所示为强化学习流程图；

图3所示为船舶可选取的动作的示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“或/及”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例1

下面结合附图介绍本发明提供的基于Dyna框架的混合智能路径规划方法：

请参阅图1，为本发明提供的一种基于Dyna框架的混合智能路径规划方法，包括以下步骤：

S1、根据马尔科夫决策过程构建决策模型；

本发明采用Dyna框架，结合Q-Learning和启发式算法，实现无模型和有模型的结合，加快Dyna-H的收敛速度。

优选地，步骤S1具体包括：

马尔可夫决策由(S,A,r,P_sa)组成，其中，S＝{s₁,s₂,L,s_t}是状态空间，A＝{a₁,a₂,L,a_t}是动作空间，a_t∈A表示在t时刻执行的动作，r是奖励函数，P_sa是状态转移函数，它满足马尔可夫属性：P_sa(s_t+1|s₁,a₁,L,s_t,a_t)＝P_sa(s_t+1|s_t,a_t)；

请参阅图2，强化学习的回报函数G_t表示从t时刻开始后的奖励折扣和，回报函数表达式为：

其中，折扣因子γ∈(0,1)。

优选地，步骤S2具体包括：

S21、将船舶航行水域用大小相同的栅格进行均匀划；

S23、确定船舶的初始位置及目标位置。

优选地，步骤S3具体包括：

S33、用Q-Learning更新价值函数Q(s,a)，计算公式为：

Q(s_t+1,a_t+1)←Q(s_t-1,a_t-1)+a[r+γmax_atQ(s_t,a_t)-Q(st-1,at-1)]

S34、用新状态s_t和奖励r更新模型Model(s,a)；

请参阅图3，优选地，步骤S31中的动作a包括：N、E、S、W、NE、SE、SW、NW。

优选地，步骤S32中所述的∈-greedy动作选择策略为：

优选地，步骤S33中的r的获取步骤包括以下步骤：

S331、获取路径长度奖励函数R₁，其公式为：

其中，DCPA、R_T、

和

安全时间被称为最近会遇时间，计算公式如下：

其中，V_R表示船舶与障碍物间相对速度；

R₂＝β·DCPA+μ·TCPA，

其中，β和μ代表加权因子；

S334、获取航行安全奖励函数R₃，其公式为：

R₃＝η·times+θ·angle

1、当到达目标位置时获得的奖励r为100；

2、其余情况奖励r如下：

r＝R₁+R₂+R₃。

优选地，步骤S4具体包括：

S41、若未到达目标点，但此时已达到最大训练次数，终止路径规划；

S42、若已到达终点，此时若未达到最大训练次数，则完成路径规划，根据所有最优动作a生成最优路径。

本发明提供的基于Dyna框架，并结合启发式算法的船舶路径规划方法，弥补了背景技术中提到的传统方法学习效率低、收敛速度慢等不足，仅需要较少的环境先验知识，即可加快规划速度。

与背景技术中提到的现有技术相比，本发明提供的路径规划方法的优势则体现在无需由船舶实时对障碍物进行复杂建模，对船舶传感系统需求低，不同功能条件的传感系统可根据采集信息类型的不同，建立适合于船舶自身功能条件的状态集再进行学习，具有一定的普适性。

传统的Q-learning算法应用于栅格地图中普遍存在状态空间大，收敛速度慢，规划航迹随机性较大的问题，而背景技术中所提及的可视图法、人工势场法作为奖励策略作为价值导向仍然不能较好地解决这些问题。本发明提供的基于Dyna框架的混合智能路径规划方法，既在局部避障上保留了栅格法带来的航行的高自由度，又确保了路线规划始终趋向于最短，有利于提高船舶的运输效率与经济效益。

基于上述理由，本发明提供的基于Dyna框架的混合智能路径规划方法可以为船舶导航提供有效参考。

实施例2

本发明的实施例2提供了路径规划装置，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现实施例1提供的混合智能路径规划方法。

本发明实施例提供的路径规划装置，用于实现船舶混合智能路径规划方法，因此，船舶混合智能路径规划方法所具备的技术效果，船舶自主导航装置同样具备，在此不再赘述。

实施例3

本发明的实施例3提供了计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现实施例1提供的混合智能路径规划方法。

本发明实施例提供的计算机存储介质，用于实现船舶混合智能路径规划方法，因此，船舶混合智能路径规划方法所具备的技术效果，计算机存储介质同样具备，在此不再赘述。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于Dyna框架的混合智能路径规划方法，其特征在于，包括以下步骤：

S1、根据马尔科夫决策过程构建决策模型；

2.如权利要求1所述的基于Dyna框架的混合智能路径规划方法，其特征在于，步骤S1具体包括：

马尔可夫决策由(S,A,r,P_sa)组成，其中，S＝{s₁,s₂,L,s_t}是状态空间，A＝{a₁,a₂,L,a_t}是动作空间，a_t∈A表示在t时刻执行的动作，r是奖励函数，P_sa是状态转移函数，它满足马尔可夫属性：P_sa(s_t+1|s₁,a₁,L,s_t,a_t)＝P_sa(s_t+1|s_t,a_t)，s_t为t时刻状态，a_t为t时刻所选动作；