CN115107948B

CN115107948B - 一种高效强化学习自主船舶避碰方法

Info

Publication number: CN115107948B
Application number: CN202210731061.XA
Authority: CN
Inventors: 张新宇; 王程博; 郑康洁; 王警; 崔浩; 刘震生; 齐怀远
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2023-08-25
Anticipated expiration: 2042-06-24
Also published as: CN115107948A

Abstract

本发明提供一种高效强化学习自主船舶避碰方法，解决不确定环境下采用强化学习算法实现自主船舶避碰过程中易陷入局部迭代和收敛速度过慢问题。本发明针对实际航行环境下船舶避让决策考虑的会遇态势变化和转向率问题，构建综合考虑外部收益信号与内部激励信号结合的全新奖励函数，鼓励自主船舶对状态迁移概率较低的环境进行搜索。在内部激励信号与外部收益信号协同驱动训练的过程中，利用学习经验复用，挖掘历史训练数据的隐藏特征，保存累计回报期望值较大的策略，并利用随机概率模型对好的策略迁移应用，减少强化学习在自主船舶搜索过程中刻意学习和盲目性学习问题，进一步提高了自主船舶避碰方法的学习效率。

Description

一种高效强化学习自主船舶避碰方法

技术领域

本发明涉及自主船舶避碰和强化学习技术领域，具体而言，尤其涉及一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法。

背景技术

传统的海上安全保障是指以视觉航标、海图、VHF语音发布助航信息等手段进行的航标服务、测绘服务、海上通信服务等，以保障船舶航行安全和海上安全。然而，随着自主船舶的时代来临，取而代之的海上安全保障与航海保障技术应该是根据自主船舶的智能导航系统技术标准、航行特征来提供的相应服务及技术。船舶自主航行技术是一项海上安全保障关键技术，其融合了智能感知、智能避碰、决策、控制及通信等高新技术。在实际海上航行环境下，智能避碰是船舶自主航行技术中最为重要的部分，其作为自主航行系统最能体现智能化的模块，以决策与规划层融入航行大脑中，在障碍环境下实现自主船从转向点航行至另一转向点或是港-港无碰撞的安全航行。

近年来，随着新一代人工智能技术的发展，以强化学习(Reinforcementlearning,RL)为代表的智能学习方法逐渐成熟应用至机器人、无人机、无人车、无人船等领域，并在智能优化调度、决策规划及预测等领域取得了可观的成果。RL是一种基于人工智能的优化学习方法。与传统的优化或规划算法相比，该方法不依赖先验知识和监督信息，通过与环境交互“试错”，平衡探索与利用，最终实现学习优化与规划。依据这一优势，其在自主船决策、规划与控制领域得到了越来越多的关注和研究。

在不确定环境中“连续状态空间-连续动作空间”的高维强化学习避碰问题中，现有众多研究将状态空间与动作空间离散化处理，而基于值函数的强化学习方法是解决离散化处理后的避碰规划问题的主流方法。现有的一些强化学习避碰算法的基本步骤是先评估随机动作下的值函数，在利用值函数改善当前状态-行为下对应的策略。其中值函数的评估是关键，目前并没有刻意保证收敛到全局最优的状态值函数估计方法。为了尽可能的达到全局较优，就需要对全局状态进行大量的采样学习与交互，进而导致了算法迭代速度慢且易陷入局部迭代。

事实上，迭代速度慢、学习效率低是强化学习解决优化问题的典型缺点。现有的一种基本方法是融合其他算法实现对强化学习的改进。引入人工势场就需要知道确切的环境信息和需要很特定的场景数学模型，这也与采用强化学习解决不确定环境中避障及规划问题的初衷所违背。但是近年来一些学者将人工势场的思想融入强化学习的激励函数中，也可以较好的提高强化学习的样本搜索和迭代效率。另外一种有效提高学习效率的途径是更充分地利用学习经验，目前在其他领域有一些成功的应用实例。与常规的Q学习相比，该算法显著加快了学习速度，但由于其仍然是基于值函数的搜索方法，因此在复杂环境下的探索与利用难以较好的平衡，收敛性难以保证。

发明内容

根据上述提出的技术问题，提供一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法。本发明针对不确定环境中的多船智能避碰问题，将学习经验复用(Learning experience reuse，LER)思想引入到强化学习算法中，提出一种新的直接策略搜索快速强化学习自主船避碰方法。首先，本发明引入学习经验复用改进强化学习自主船舶避碰方法，有效地利用经验信息，使状态值函数的近似过程有更快的收敛速度；然后，从外部收益信号奖励和内部激励信号奖励两方面设计奖励函数。外部收益信号奖励主要考虑了位置、速度、目标和塑造等奖励；另一方面，通过内部激励信号提高算法对环境探索的利用。

本发明采用的技术手段如下：

一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法，包括：

S1、根据自适应语义演化算法构建航行态势判别网络，获取自主船舶在不确定环境下可行域与障碍域的航行环境状态；

S2、结合国际海上避碰规则与自主船舶会遇局面特征创建自主船舶避碰决策动作空间，采用罗经点法构建以转向为主的避让方式；

S3、设计外部收益信号网络；

S4、设计内部激励信号网络；

S5、对步骤S3设计的外部收益信号网络和步骤S4设计的内部激励信号网络进行强化学习高效采样训练；

S6、基于随机传输控制误差矩阵逼近最优近似策略，避碰学习经验复用，得到高效强化学习自主船舶避碰模型。

进一步地，所述步骤S1中，构建的航行态势判别网络是用于检测和判别自主船舶航行水域所处什么环境状态域，用于初始化自主船舶环境状态；具体为：

在自主船舶航行过程中，将水域划分为障碍域、运动可达域多个环境状态域；当判别为运动可达域时自主船通过与环境交互、探索，在采取行为u₁后，环境状态由x₀随机迁移为x₁并获得奖赏反馈r₁，即：r₁＝R(x₀,u₁,x₁)，直到搜索至自主船达到运动目标位置，并使得这一过程的累计回报值最大，所对应的策略即自主船智能最优避碰策略。

进一步地，所述步骤S2中，创建自主船舶避碰决策动作空间，具体为：

根据航海实践及国际海上避碰规则要求，选择以转向为主的避让方式进行船舶避障，采用罗经点法构建避碰动作空间，主要包括四个基点、四个偶点、八个三字点以及平分相邻基点或偶点与三字点之间的十六个偏点，如下：

U＝{E,…,NE,…,NNE,…,N/E，…，NW/N}。

进一步地，所述步骤S3中，设计外部收益信号网络是监督学习距离目标点位置、与动态障碍船舶之间相对速度、自主船舶航向角变化量，舵向角变化量与环境势场函数，得到外部收益信号的初始化参数；具体的设计过程如下：

S31、设计包括距离目标点位置、与动态障碍船舶之间相对速度、自主船舶航向角变化量，舵向角变化量与环境势场函数等方面的单项奖励函数，生成位置奖励r_pos、速度奖励r_vel、目标奖励r_target、塑造奖励r_shaping；其中：

位置奖励r_pos，具体为：

上式中，d_target为自主船与目标点之间的相对距离，d_obstacle为自主船距离障碍物之间的相对距离；

速度奖励r_vel，具体为：

r_vel＝-ω_spe|Δv_spe|+ω_couΔv_cou ²-δ

上式中，Δv_spe为自主船与障碍物相对速度变化量，||表示绝对值计算符号，Δv_cou为航向角变化量，ω_spe、ω_cou分别为航速与航向角所对应的奖励权重，δ为航向角变化激励值求和常数；

目标奖励r_target，具体为：

塑造奖励r_shaping，具体为：

r_shaping＝γΦ(x_t+1)-Φ(x_t)

S32、求和计算外部收益信号奖励值：

进一步地，所述步骤S4中，设计的内部激励信号网络，负责驱动自主船舶对状态迁移概率较低的航行环境进行搜索采样，得到环境搜索-利用值函数网络的初始化参数；具体为：

上式中，f为环境状态在当前的行为选择为O_t下由x_t转移到x_t+1的概率。

进一步地，所述步骤S5中，对步骤S3设计的外部收益信号网络和步骤S4设计的内部激励信号网络进行强化学习高效采样训练的具体方式为：

创建强化学习自主避碰的奖励函数，奖励函数为外部收益信号奖励与内部激励信号奖励之和：

其中，外部收益信号奖励为

进一步地，所述步骤S6的具体实现过程如下：

S61、通过对历史训练数据的隐藏特征挖掘，将第t次较优的值函数V_t(x,u)进行保存，并作为避碰算法在第t+1次利用阶段与计算值函数更新表的初始值；

S62、同时，在专家策略π_exp的作用下，将动作-状态迁移集合(x,u,r,x′)存入RLCA算法当前值网络中的记忆回放单元，复用算法的学习经验，以供随机赋于值函数初始值，以便于算法在训练过程中的迭代收敛效果发生客观的改进。

较现有技术相比，本发明具有以下优点：

1、针对海上不确定环境下自主船舶的环境感知不全面问题，本发明解决了传统方法无法获取全局完备航行环境状态的问题，设计网络用以判别自主船舶当前所处于障碍域或是运动可达域。

2、针对传统强化学习在搜索采样效率低及刻意学习等问题，本发明提出了一种考虑内部激励信号和外部收益信号协同驱动的全新奖励函数，提高避碰算法在搜索期间的采样效率。

3、在强化学习避碰过程中，提出一种由势函数构成的塑造奖励，减少强化学习在探索过程中的盲目性导致的坏策略过多的问题。

4、在训练后期通过经验复用，提高算法的收敛速度，使得自主船舶能够学到更好的避碰策略。

基于上述理由本发明可在自主船舶避碰和强化学习等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图。

图2为本发明方法总体理论架构图。

图3为本发明实施例提供的航行态势判别示意图。

图4为本发明实施例提供的外部收益信号奖励组成示意图。

图5为本发明实施例提供的高效强化学习自主船舶避碰轨迹示意图。

图6为本发明实施例提供的采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰训练迭代效果图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当清楚，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任向具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在本发明的描述中，需要理解的是，方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，在未作相反说明的情况下，这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制：方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件，仅仅是为了便于对相应零部件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本发明保护范围的限制。

如图1、2所示，本发明提供了一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法，包括：

S3、设计外部收益信号网络；

S4、设计内部激励信号网络；

具体实施时，作文本发明优选的实施方式，所述步骤S1中，构建的航行态势判别网络是用于检测和判别自主船舶航行水域所处什么环境状态域，用于初始化自主船舶环境状态；具体为：

如图3所示，为航行态势判别示意图，在自主船舶航行过程中，将水域划分为障碍域、运动可达域多个环境状态域；当判别为运动可达域时自主船通过与环境交互、探索，在采取行为u₁后，环境状态由x₀随机迁移为x₁并获得奖赏反馈r₁，即：r₁＝R(x₀,u₁,x₁)，直到搜索至自主船达到运动目标位置，并使得这一过程的累计回报值最大，所对应的策略即自主船智能最优避碰策略。

具体实施时，作文本发明优选的实施方式，所述步骤S2中，创建自主船舶避碰决策动作空间，具体为：

U＝{E,…,NE,…,NNE,…,N/E，…，NW/N}。

另外，本实施例中，在设计避碰动作空间时考虑了第13-15条国际海上避碰规则，主要限定了追越、对遇、交叉相遇局面的避让行为。

具体实施时，作文本发明优选的实施方式，所述步骤S3中，设计外部收益信号网络是监督学习距离目标点位置、与动态障碍船舶之间相对速度、自主船舶航向角变化量，舵向角变化量与环境势场函数，得到外部收益信号的初始化参数；具体的设计过程如下：

S31、设计包括距离目标点位置、与动态障碍船舶之间相对速度、自主船舶航向角变化量，舵向角变化量与环境势场函数等方面的单项奖励函数，生成位置奖励r_pos、速度奖励r_vel、目标奖励r_target、塑造奖励r_shaping；如图4所示，其中：

位置奖励r_pos，采用指数形式旨在防止船舶在目标点周围转圈，加快位置收益信号收敛，具体为：

速度奖励r_vel，主要考虑了与动态障碍物之间的相对速度、自主船航向角变化量以及舵向角变化量，具体为：

r_vel＝-ω_spe|Δv_spe|+ω_couΔv_cou ²-δ

目标奖励r_target，指自主船完成避碰任务所获得的收益奖励，具体为：

塑造奖励r_shaping，具体为：

r_shaping＝γΦ(x_t+1)-Φ(x_t)

本实施例中，为了减少自主船在避碰决策模型求解过程陷入局部迭代，并加快算法求解收敛，本发明引入势函数(Potential Function,PF)约束的塑造奖励r_shaping，其中势函数Φ(x)越大，环境状态越接近目标点，给定每个状态一个势能，从势能低的环境状态迁移到势能高的环境状态给正奖励，而从势能高的环境状态回到势能低的环境状态给负奖励。

S32、求和计算外部收益信号奖励值：

具体实施时，作文本发明优选的实施方式，所述步骤S4中，设计的内部激励信号网络，主要是为了提高算法对环境探索的利用，在选择随机行为时采用环境状态信号反馈提高目标搜索能力，鼓励自主船舶对状态迁移概率较低的环境进行搜索，负责驱动自主船舶对状态迁移概率较低的航行环境进行搜索采样，得到环境搜索-利用值函数网络的初始化参数；具体为：

具体实施时，作文本发明优选的实施方式，所述步骤S5中，对步骤S3设计的外部收益信号网络和步骤S4设计的内部激励信号网络进行强化学习高效采样训练的具体方式为：

其中，外部收益信号奖励为

采样搜索网络包括当前实际值网络、预测值网络和目标值网络，当前实际值网络主要基于强化学习构建自主船舶避碰的马尔科夫决策过程模型，对环境采样后，通过奖励函数训练获得经验。同时采用梯度下降的方法对比预测值和目标值，进而完成避碰模型的迭代训练。最终生成累计回报值期望最大的策略，提取样本状态信息生成Known状态集并保存于记忆池网络，得到初始化动作-状态值表更新的初始值。如图5所示，为高效强化学习自主船舶避碰轨迹示意图。

具体实施时，作文本发明优选的实施方式，所述步骤S6的具体实现过程如下：

在自主船舶避碰自然策略梯度估计过程中，将前期学习到的经验存入记忆池中，并传递给初始化值函数表，替代传统的将初始值设置为0或是数值区间的方法，并且选取期望值较大的状态转移变化传递给记忆回放单元，对算法新一轮搜索阶段提供方向诱导作用，极大地提高了强化学习自主船舶避碰算法收敛效率。如图6所示，为采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰训练迭代效果图。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法，其特征在于，包括：

S3、设计外部收益信号网络；

S4、设计内部激励信号网络；

S6、基于随机传输控制误差矩阵逼近最优近似策略，避碰学习经验复用，得到高效强化学习自主船舶避碰模型；

所述步骤S6的具体实现过程如下：

2.根据权利要求1所述的采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法，其特征在于，所述步骤S1中，构建的航行态势判别网络是用于检测和判别自主船舶航行水域所处什么环境状态域，用于初始化自主船舶环境状态；具体为：

3.根据权利要求1所述的采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法，其特征在于，所述步骤S2中，创建自主船舶避碰决策动作空间，具体为：

U＝{E,…,NE,…,NNE,…,N/E，…，NW/N}。

4.根据权利要求1所述的采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法，其特征在于，所述步骤S3中，设计外部收益信号网络是监督学习距离目标点位置、与动态障碍船舶之间相对速度、自主船舶航向角变化量，舵向角变化量与环境势场函数，得到外部收益信号的初始化参数；具体的设计过程如下：

位置奖励r_pos，具体为：

速度奖励r_vel，具体为：

r_vel＝-ω_spe|Δv_spe|+ω_couΔv_cou ²-δ

目标奖励r_target，具体为：

塑造奖励r_shaping，具体为：

r_shaping＝γΦ(x_t+1)-Φ(x_t)

S32、求和计算外部收益信号奖励值：

5.根据权利要求1所述的采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法，其特征在于，所述步骤S4中，设计的内部激励信号网络，负责驱动自主船舶对状态迁移概率较低的航行环境进行搜索采样，得到环境搜索-利用值函数网络的初始化参数；具体为：

6.根据权利要求1所述的采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法，其特征在于，所述步骤S5中，对步骤S3设计的外部收益信号网络和步骤S4设计的内部激励信号网络进行强化学习高效采样训练的具体方式为：

其中，外部收益信号奖励为