CN117928548A

CN117928548A - 一种基于深度强化学习的港口水域的船舶自主导航方法

Info

Publication number: CN117928548A
Application number: CN202410041138.XA
Authority: CN
Inventors: 韩凤磊; 赵毅铭; 韩端锋; 彭潇; 赵望源; 吴禹良; 张嘉伟; 杨健峰; 林琪
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-04-26

Abstract

本发明涉及水域自主导航技术领域，特别涉及一种基于深度强化学习的港口水域的船舶自主导航方法，初始化船舶入港地理节点，按照港口海图生成0.1海里*0.1海里的栅格化网格，构建地图节点信息矩阵M；将船舶位置从纬度坐标系转换为通用横轴墨卡托坐标系；根据电子海图统计该港口区域的浮标数量、类型、和相对位置；根据禁航区域、他船信息和浮标信息，得到更新后的地图信息矩阵G；使用深度强化学习算法进行导航，直至生成最安全的可航路线；本发明将数据触发器作为控制输出中心的方法，解决了船舶在航行过程中通讯故障或仪器失灵条件下，自主系统的控制中心缺少信号输入的问题，为自主船舶导航提供了新的解决方案，保障了港口和船舶的生命财产安全。

Description

一种基于深度强化学习的港口水域的船舶自主导航方法

技术领域

本发明涉及水域自主导航技术领域，特别涉及一种基于深度强化学习的港口水域的船舶自主导航方法。

背景技术

近些年如自主水面船、自动驾驶货船等自主船舶在安全性和可持续性方面展现了巨大潜力，然而自主决策系统在面对不同航行场景时仍存在较大局限性，无法紧跟自主船的高速发展，导致自主船的可航行水域受限，可航场景不足等情况。港口场景相对于其他航行水域，存在更多的船只、航标、码头设施和其他障碍物，实时的地图数据、水深数据、天气数据等需要实现高度统一。并且，港口区域的船舶交通一般受到严格的安全规定和法规约束，自适应导航系统需要满足这些法规，同时确保船只的安全操作。另外，一旦系统发生故障，也会威胁港口和自主船的财产安全。此时，提高系统的智能性，在自主导航过程中设置安全性触发器是十分必要的。

当前自主导航系统大多都是通过A*和蚁群等启发式算法实现的，而在船舶航行的局部未知环境中，这种启发式算法都需要完全了解环境，在面对港口中的多类型障碍时将导致计算量爆炸或者无法实时搜寻到最优路径的问题。并且，船舶的航行是一种连续状态空间的高维模型，上述算法无法对航行中的控制和跟踪起到很好的约束作用。

随着船舶定位设备和视觉融合技术的不断发展，在已知本船位置与港口信息的前提下，通过计算机对进港后安全路径的导航与避碰变得可行，目前的导航算法大都是在全局下的离散规划算法，这些算法在面对港口复杂环境时，无法生成不同种类障碍的避碰策略。所以如何设计出行之有效的导航算法来引导自主船在港口中航行至泊位的过程，成为当前自主系统在港口场景中进行自主导航的重要基础。

深度强化学习算法是一种与环境互动来生成最优策略的算法，该算法可以将船舶自身视为智能体，并在包含各种障碍的港口中进行约束性训练，避免了启发式算法只能在全局下进行规划的缺陷，能够将障碍视为互动对象的特点，与船舶自主导航有着极高的适配性；深度强化学习法兼具很高的设计性，可以将航行法规等约束嵌入到训练环境中，对求解包含港口法规环境下的最优航线，有着很高的协调性。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种基于深度强化学习的港口水域的船舶自主导航方法，解决了动/静态船舶、山体、浮标和其他可观测障碍的类型；同时考虑了港口浮标规则下，在遭遇不同浮标时，船舶的可航行水道的实时变化，有效地提高了港内航行的安全性；另外在算法输出与控制输入之间插入了安全性触发器，保证了港口和自主船的生命财产安全。

为了解决上述技术问题，本发明提供了如下的技术方案：

在本发明的第一方面，提供一种基于深度强化学习的港口水域的船舶自主导航方法，所述方法具体包括以下步骤：

步骤1、初始化船舶入港地理节点，按照港口海图生成0.1海里*0.1海里的栅格化网格，并对其进行编码；采用网格法对海洋静态环境进行建模，主要包括三个方面：图表栅格化，临时障碍物光栅化，障碍物膨化；生成矩阵M来存储栅格化的图表环境信息；将船舶位置从纬度坐标系转换为通用横轴墨卡托坐标系，根据雷达和自动识别系统获取附近船舶相对于本船的最近点距离DCPA和最近点时间TCPA；根据电子海图统计该港口区域的浮标数量、类型、和相对位置；

步骤2、更新栅格化的图表环境信息M，港内及附近的危险沉船区、对船舶安全构成威胁的浅滩礁石区、军事演习区、临时限制航行区等组成临时障碍区域矩阵R；在环境矩阵M中将临时障碍区域R设置为禁航区域；

对于其他的动/静态船舶，进一步通过DCPA和TCPA判断其移动方向，利用速度障碍法判断与本船的碰撞风险；

对于港内的浮标，通过红外视觉摄像机和港口海图信息计算与本船的相对距离和相对角度，并进一步判断安全航道的航向；

根据禁航区域、他船信息和浮标信息，得到更新后的地图信息矩阵G；

步骤3、使用深度强化学习算法进行导航；

通过步骤2中更新的地图信息矩阵G和本船的航行信息，计算本船与目标码头的距离和偏离航向，同时以本船为中心更新附近的障碍物信息，计算所有与本船有碰撞风险的动态船舶，通过深度强化学习算法生成最安全的可航路线；

步骤4、在步骤3的导航规划和避碰决策结果中，排除危险区域的地图中仍存在其他动态船舶，实时更新在本船四海里内的动态船，面对存在碰撞风险的船舶，对TCPA和DCPA进行碰撞检测并分析本船是否承担让路船责任，本船需要采取避让措施的情况中，对步骤3中的路径进行更新，生成的二次优化路径同样根据后续浮标指示信息进行实时调整；

步骤5、随着导航的进行，自主船根据环境信息不断调整避碰策略，根据触发器对舵机发送操纵指令，直至在距离目标码头0.1海里时完成整个导航任务，并记录导航过程中的航路节点。

作为本发明的一种优选技术方案，在步骤2中，判断风险的速度障碍法为：

当DCPA≤1海里并且TCPA≤20分钟时，目标船被判定为与本船可能存在碰撞风险，但当本船的速度向量侵犯目标船的速度障碍区域时，需要根据海上避碰规则来判定让路责任，当目标船出现在本船正前方或者右方时，本船需要给目标船让路，采取的操纵需要从目标船的船尾驶过；

通过浮标判断安全航道的规则为：

根据国际灯塔管理协会规定的浮标系统，安全水域标志表示进入港口附近的安全水域；推荐航道位于左侧面标志的右侧，右侧面标志的左侧；危险区域位于北方位标志南侧，南方位标志北侧，东方位标志西侧，西方位标志东侧；另外，危险水域标志和限制区域标志根据港口海图的指示进行限制，根据规则中的危险区域更新地图信息矩阵G。

作为本发明的一种优选技术方案，在步骤3中，所述深度强化学习算法具体包括以下步骤：

S1、将步骤1中得到的矩阵M作为环境信息，并根据步骤2中的危险区域划定，将可航行区域进行缩减，得到更新后的环境信息矩阵G，开始根据浮标和其他船舶进行导航和避碰决策的生成；

深度强化学习算法中评价函数的总计算公式为r＝r(t)+r(g)+r(s)+r(m)；

r(t)为从起始点到目标点的导航奖励r(t)＝-exp[d(t)+ψ(t)]；

r(g)为与静态障碍物之间的碰撞奖励r(g)＝-exp[d(g)]；

r(s)为动态船之间的碰撞奖励r(s)＝-exp[d(s)]；

r(m)为浮标指示信息奖励r(m)＝r_pl+r_sl+r_nc+r_wc+r_sc+r_ec；

d()表示距离函数，ψ()表示角度函数；t表示目标点的地图节点，g表示步骤2中障碍区域和静态船舶的地图节点集合，s表示动态船舶的地图节点，m表示浮标的地图节点；

S2、从进港起始点出发，根据S1的导航奖励、静态碰撞奖励和浮标奖励生成初步的可航路径，系统在靠近动态船舶时给出是否采取避碰措施的决策，对于可航路径中所有出现的动态船舶，重复验证在该局部环境中的航行安全性，并实时对可航路径进行更新；

S3、循环S2直至到达目标点t。

作为本发明的一种优选技术方案，在步骤4中，二次优化导航路径根据后续浮标指示信息进行实时调整，根据浮标的类型，对浮标指示的安全航道进行判定，和本船相距离d(m)的浮标，通过相对方位θ计算奖励值的大小，总奖励越趋近于0则路线越安全；

港口海图内的浮标设置规定为不超过0.75海里，因此当d(m)≤0.75海里时，具有指示性的浮标奖励被触发；

左侧面标志的计算公式为：

右侧面标志的计算公式为：

北方位标志的计算公式为：

西方位标志的计算公式为：

南方位标志的计算公式为：

东方位标志的计算公式为：

通过上述公式对不同方位计算浮标奖励，并在多条线路下选择最优奖励值线路；出现多条奖励值相近的最优线路时，输出至人机交互界面提示，并且选择计算量最小的最优线路。

作为本发明的一种优选技术方案，通过数据触发器进行控制信号的输出；

在步骤5中，通过深度强化学习生成了最优导航路径，仍需要利用控制系统对船舶的舵机输出操纵指令，控制系统在收到命令后将数字信号转换为速度或/和舵力的电流；

控制系统除通信状态信号外，额外向自主决策系统提供一个执行反馈信号，当设备/通讯故障或导航任务结束时，立即向自动驾驶仪发出“停止”信号并执行，如果设备工作正常且导航任务未完成，则数据触发器根据障碍物信息输出两种情况：

(1)存在障碍物，输出操纵指令；

(2)存在障碍物且不输出新命令；

情况(2)表明根据当前环境得出结论，保持航向/速度是最佳策略，并将“保持”信号发送到自动驾驶仪并执行；

如果没有检测到障碍物信息，则存在三种情况：

(1)向目标点航行；

(2)未驶向目标点，输出操纵指令；

(3)未向目标点航行且不输出新命令；

在情况(3)中，浮标的指示信息使得保持航向/速度成为最佳策略。

在本发明的第二方面，提供一种基于深度强化学习的港口水域的船舶自主导航系统，所述系统包括环境感知器，数据处理器和控制触发器；

环境感知器用于收集算法所需的障碍物地图信息，数据处理器用于分类障碍物类型并根据其类型输出不同的决策信号，控制触发器用于接收调用处理器根据深度强化学习生成的决策信号，能够在没有新指令的输出前提下保证航行的精度。

在本发明的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据本发明的第一方面的方法的步骤或者根据本发明的第二方面的系统的功能。

在本发明的第四方面，提供一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现根据本发明的第一方面的方法的步骤或者根据本发明的第二方面的系统的功能。

与现有技术相比，本发明的有益效果如下：

1：本发明根据不同港口内的规范准则进行地理式更新，并生成新的计算结果，可为自主船舶的港内导航提供高效可靠的策略考量；同时将数据触发器作为控制输出中心的方法，解决了船舶在航行过程中通讯故障或仪器失灵条件下，自主系统的控制中心缺少信号输入的问题，为自主船舶导航提供了新的解决方案，保障了港口和船舶的生命财产安全，同时后续可作为数字孪生、高技术船舶的技术基础。

2：本发明通过对港口航线处的优化设计，通过深度学习形成多条不同的优化线路，并基于线路的实际运算量和线路的简易程度，按照指示性的浮标奖励产生抉择以及线路排列，构成了对自动航线以及半自动控制航行状态下的最优控制选择。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是基于深度强化学习的自主系统流程图，

图2为本发明的安全触发器流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

结合图1和图2，一种基于深度强化学习的港口水域的船舶自主导航算法，方法具体包括以下步骤：

步骤1、初始化船舶入港地理节点，按照港口海图生成“0.1海里*0.1海里”的栅格化网格，并对其进行编码。采用网格法对海洋静态环境进行建模，主要包括三个方面：图表栅格化；临时障碍物光栅化；障碍物膨化。生成矩阵M来存储栅格化的图表环境信息；将船舶位置从纬度坐标系转换为通用横轴墨卡托坐标系，根据雷达和自动识别系统获取附近船舶相对于本船的最近点距离(DCPA)和最近点时间(TCPA)；根据电子海图统计该港口区域的浮标数量、类型、和相对位置；

具体实施时，根据传感器显示信息得到图1中的障碍物感知信息。

步骤2、更新栅格化的图表环境信息M；

港内及附近的危险沉船区、对船舶安全构成威胁的浅滩礁石区、军事演习区、临时限制航行区等组成临时障碍区域矩阵R；在环境矩阵M中将临时障碍区域R设置为禁航区域；

步骤3、使用深度强化学习算法进行导航；

进一步地，在步骤2中，判断风险的速度障碍法为：

当DCPA≤1海里并且TCPA≤20分钟时，目标船被判定为与本船可能存在碰撞风险，但当本船的速度向量侵犯目标船的速度障碍区域时，需要根据《海上避碰规则》来判定让路责任，当目标船出现在本船正前方或者右方时，本船需要给目标船让路，采取的操纵需要从目标船的船尾驶过。

进一步地，在步骤2中，通过浮标判断安全航道的规则为：

根据国际灯塔管理协会规定的浮标系统，中国采取A区域的规则为，安全水域标志表示进入港口附近的安全水域；推荐航道位于左侧面标志的右侧，右侧面标志的左侧；危险区域位于北方位标志南侧，南方位标志北侧，东方位标志西侧，西方位标志东侧；另外，危险水域标志和限制区域标志根据港口海图的指示进行限制，根据规则中的危险区域更新地图信息矩阵G。

进一步地，在步骤3中，所述深度强化学习算法具体包括以下步骤：

r(t)为从起始点到目标点的导航奖励r(t)＝-exp[d(t)+ψ(t)]；

r(g)为与静态障碍物之间的碰撞奖励r(g)＝-exp[d(g)]；

r(s)为动态船之间的碰撞奖励r(s)＝-exp[d(s)]；

r(m)为浮标指示信息奖励r(m)＝r_pl+r_sl+r_nc+r_wc+r_sc+r_ec；

S3、循环S2直至到达目标点t。

进一步地，在步骤4中，二次优化导航路径根据后续浮标指示信息进行实时调整，根据浮标的类型，对浮标指示的安全航道进行判定，和本船相距离d(m)的浮标，通过相对方位θ计算奖励值的大小，总奖励越趋近于0则路线越安全；

左侧面标志的计算公式为：

右侧面标志的计算公式为：

北方位标志的计算公式为：

西方位标志的计算公式为：

南方位标志的计算公式为：

东方位标志的计算公式为：

进一步地，在步骤5中，通过深度强化学习生成了最优导航路径，仍需要利用控制系统对船舶的舵机输出操纵指令，控制系统在收到命令后将数字信号转换为速度或/和舵力的电流。

(1)存在障碍物，输出操纵指令；

(2)存在障碍物且不输出新命令；

如果没有检测到障碍物信息，则存在三种情况：

(1)向目标点航行；

(2)未驶向目标点，输出操纵指令；

(3)未向目标点航行且不输出新命令；

具体实施时，根据图2对输出和输出信号进行判别。

进一步的，本发明还能够基于步骤上下的整体步骤，或仅基于步骤4下的奖励计算步骤，形成多条路径规划，即针对步骤3-5的流程构建导航程序计算，通过对水域导航的操作线路复杂程度和复杂步骤，基于LDA分类算法排列路径流程，并通过人机交互平台的设定对自动导航的设定调节，例如针对步骤流程较多、船体步骤动作更多的优先级排列后，自动导航以及自动航行时，采用步骤流程最少，以及船体步骤动作最少的路径，以保障自动导航或自动航行下的可控安全性；在半自动导航或人工控制情况下，排列可选的导航步骤，通过人工选择或延时选择的方式，形成对水域导航的选择作用。

在另一实施例中，本发明提供一种基于深度强化学习的船舶自主导航系统，所述系统包括环境感知器，数据处理器和控制触发器，环境感知器用于收集算法所需的障碍物地图信息，数据处理器用于分类障碍物类型并根据其类型输出不同的决策信号，控制触发器用于接收调用处理器根据深度强化学习生成的决策信号，能够在没有新指令的输出前提下保证航行的精度。

在另一实施例中，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现结合图1和图2所示和所述的方法实施例或其它相应系统实施例的功能，在此不再赘述。

在另一实施例中，本发明提供一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现结合图1和图2所示和所述的方法实施例或其它相应系统实施例的功能，在此不再赘述。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的港口水域的船舶自主导航方法，其特征在于：

所述方法具体包括以下步骤：

步骤3、使用深度强化学习算法进行导航；

2.根据权利要求1所述方法，其特征在于：在步骤2中，判断风险的速度障碍法为：

通过浮标判断安全航道的规则为：

3.根据权利要求2所述方法，其特征在于：

在步骤3中，所述深度强化学习算法具体包括以下步骤：

r(t)为从起始点到目标点的导航奖励r(t)＝-exp[d(t)+ψ(t)]；

r(g)为与静态障碍物之间的碰撞奖励r(g)＝-exp[d(g)]；

r(s)为动态船之间的碰撞奖励r(s)＝-exp[d(s)]；

r(m)为浮标指示信息奖励r(m)＝t_pl+r_sl+r_nc+r_wc+r_sc+r_ec；

S3、循环S2直至到达目标点t。

4.根据权利要求1或3所述方法，其特征在于：

在步骤4中，二次优化导航路径根据后续浮标指示信息进行实时调整，根据浮标的类型，对浮标指示的安全航道进行判定，和本船相距离d(m)的浮标，通过相对方位θ计算奖励值的大小，总奖励越趋近于0则路线越安全；

左侧面标志的计算公式为：

右侧面标志的计算公式为：

北方位标志的计算公式为：

西方位标志的计算公式为：

南方位标志的计算公式为：

东方位标志的计算公式为：

5.根据权利要求4所述方法，其特征在于：通过数据触发器进行控制信号的输出；

(1)存在障碍物，输出操纵指令；

(2)存在障碍物且不输出新命令；

如果没有检测到障碍物信息，则存在三种情况：

(1)向目标点航行；

(2)未驶向目标点，输出操纵指令；

(3)未向目标点航行且不输出新命令；

6.一种基于深度强化学习的港口水域的船舶自主导航系统，其特征在于，所述系统包括环境感知器，数据处理器和控制触发器；

7.一种计算机可读存储介质，可读介质上存储有计算机程序，所述计算机程序执行时，实现权利要求1-5中任意一项所述的基于深度强化学习的港口水域的船舶自主导航方法。

8.一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现根据权利要求1-5任一所述的方法的步骤或者根据权利要求6所述的系统的功能。