CN113221449B

CN113221449B - 一种基于最优策略学习的船舶航迹实时预测方法及系统

Info

Publication number: CN113221449B
Application number: CN202110460136.0A
Authority: CN
Inventors: 郑潇; 彭晓东; 解靖怡; 郭志远; 强惠敏; 乔笑宁
Original assignee: National Space Science Center of CAS
Current assignee: National Space Science Center of CAS
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2024-03-15
Anticipated expiration: 2041-04-27
Also published as: CN113221449A

Abstract

本发明公开了一种基于最优策略学习的船舶航迹实时预测方法及系统，该方法包括：接收目标船舶T0时刻前具有时序性的航迹数据，经预处理后得到航迹特征矩阵；航迹数据包括目标船舶不同时刻的经纬度数据；将航迹特征矩阵输入预先训练好的航迹预测模型，得到目标船舶T0时刻后具有时序性的Z个时刻船舶位置变化量，进而得到一系列预测船舶位置，实现航迹预测；航迹预测模型基于马尔科夫决策过程对船舶航迹预测过程进行形式化描述，引入深度强化学习方法求解航行最优决策策略问题，得到预测结果。本发明无需对目标船舶建立精确的动力学模型，充分挖掘目标运动时空域规律，根据航行策略长期累计回报最优实现连续时序预测，具有良好的序贯性和泛化性。

Description

一种基于最优策略学习的船舶航迹实时预测方法及系统

技术领域

本发明涉及船舶航迹预测领域，具体涉及一种基于最优策略学习的船舶航迹实时预测方法及系统。

背景技术

近年来，随着全球经济的不断发展，海上运输约占全球贸易量的90％，成为国内和国际贸易的重要手段。随着船舶航速和运载能力的不断增加，加强船舶航行的安全和安保管理已成为全球各国的当务之急。

在航行安全领域，为了降低船舶在航行中发生意外的概率，我们可以将航迹预测与航行安全预警相结合，指导船舶驾驶员提前做出避障等安全驾驶行为，保障船舶的航行安全；在船舶监控领域，天基观测是监测船舶的重要手段，但很难对特定船舶实现长期和连续监测，为了实现卫星对目标船舶的有效搜索，有必要将卫星轨道调度与船舶航迹预测相结合；在交通管理领域，要实现海上交通的调度和规划，就要预测特定海域或港口的交通流量，这也与船舶的航迹预测密不可分。因此，船舶轨迹预测是航行危险预警、船舶实时监控、交通流量估计的关键技术，对实现海上交通系统智能化管理具有重要意义，在民用与商用领域都有广泛的应用。

船舶航迹预测仍面临许多问题，船舶航行不仅受自身动力学和运动学的约束，也受到海域环境因素的影响，作用关系复杂，难以建立精确的船舶动力学方程模型，同时由于海面活动范围广，航行自由度高，因此海上船舶的位置预测，尤其是中长期预测，仍是一个具有挑战性的问题。因此，本发明主要研究船舶的中长期位置预测问题，即根据目标船舶的历史航迹，对未来多小时的船舶位置进行预测估计。

针对船舶航迹预测问题，国内外学者展开了一系列研究。按照预测方法分类，现有的预测方法包括基于传统统计理论的航迹预测和基于神经网络的航迹预测。

大部分的传统统计学模型需要在在建立目标船舶的运动模型的基础上，采用数理统计的方法实现对船舶航迹的预测。常用的预测模型包括卡尔曼滤波、多模型预测方法、曲线拟合外推预测与支持向量机方法。学者汤新民等运用多种卡尔曼滤波器(KalmanFilter，KF)辨识目标的运动学模型，并将获得辨识结果加权平均。章涛等学者在等角航迹推测模型的基础上，运用KF和拓展卡尔曼滤波(Extended Kalman Filter，EKF)对目标航空器的地速进行辨识，以此完成预测时间预测任务。马社祥等学者在交互式多模型算法的解算过程中，引用期望最大值算法来估计船舶分别在匀速运动和匀转弯运动时的位置。姜佰辰等学者根据船舶的位置信息，利用多项式卡尔曼算法预测船舶的未来走向。SANG L等学者运用贝叶斯网络通过概率推理来预测船舶行为。文献QIAO S利用高斯过程对船舶航行轨迹进行回归预测。

上述预测方法均为需要构建船舶运动数学方程的线性预测方法。因为有很多外界环境(例如天气、风速等因素)对船舶运动有较大的影响，随机和多样的干扰使得实时准确的运动数学方程很难构建，大多只适用于理想状态。并且船舶轨迹信息一般是非线性的。因此众多学者考虑引入神经网络的方法，对航迹预测问题进行求解。

徐婷婷等学者利用BP(back propagation)神经网络对船舶航迹进行预测，根据船舶的方向和行驶速度特征来预测船舶的经度差和纬度差，进而预测船舶航迹。甄荣等学者设计基于AIS信息和三层BP神经网络模型来预测船舶航迹，根据船舶过去和当前的航行状态特征来预测船舶未来的航行状态。Toon Bogaer等采用卷积神经网络(convolutionalneural network，CNN)提取交通流量的空间特征，并利用LSTM单元实现交通流量的短期预测与长期预测。刘姗姗等学者根据船舶航行的轨迹特征，构建了基于CNN和双向长短期记忆网络(bidirectional long short term memory，Bi-LSTM)的预测混合模型，通过训练网络模型得到最优的输入输出映射关系。

综上所述，以卡尔曼滤波为代表的经典的统计理论方法存在模型稳定、算法实时性强的优点，但存在对数据源的质量要求较高、预测目标运动模式较复杂时预测精度降低等问题。通过建立简单的神经网络模型，BP为代表的神经网络方法能够对目标船舶航迹的拟合，从而完成航迹预测任务，但由于BP网络没有考虑航迹数据的先后时序，因此不适用于航迹变化较复杂的问题。以LSTM方法为代表的神经网络方法构建了含有多个隐藏层的神经网络，因此可以挖掘数据在时间轴上的规律，但该方法存在模型复杂、需要大量训练样本数据、训练耗时长、适用于分钟级的短期航迹预测任务等缺点。

发明内容

现有的船舶航迹预测方法主要是根据船舶历史航迹进行曲线拟合外推，从而实现目标船舶未来航迹预测，对航迹数据质量要求较高，一般适用于单一线性运动模式，难以适应复杂运动模式，同时无法挖掘长期时序关联规律，当预测时长较长时，预测精度下降明显，中长期航迹预测效果不佳。此外现有方法模型可能存在训练样本量大、训练耗时长的问题。本发明的目的在于克服上述现有技术缺陷，提出了一种基于最优策略学习的船舶航迹实时预测方法及系统。

为了实现上述目的，本发明提出了一种基于最优策略学习的船舶航迹实时预测方法，所述方法包括：

接收目标船舶T0时刻前具有时序性的航迹数据，经预处理后得到航迹特征矩阵；所述航迹数据包括目标船舶不同时刻的经度数据和纬度数据；

将航迹特征矩阵输入预先训练好的航迹预测模型，得到目标船舶T0时刻后具有时序性的Z个时刻船舶位置的变化量，进而得到一系列预测的船舶位置，实现船舶航迹预测；

所述航迹预测模型基于马尔科夫决策过程对船舶航迹预测过程进行形式化描述，引入深度强化学习的方法求解船舶航行最优决策策略问题，得到预测结果。

作为上述方法的一种改进，所述预处理具体包括：

对T0时刻前航迹数据进行清洗，剔除小间隔时刻数据和异常航速数据，降低噪声数据的影响；

以预设的时长为时间间隔，对清洗后的航迹数据进行均匀采样，按照预设的序列长度对采样的航迹数据进行分割，得到T0时刻前长度为N的航迹序列段；

根据航迹序列段的经度和纬度提取航行状态特征图，按时序堆叠，生成航迹特征矩阵。

作为上述方法的一种改进，所述根据航迹序列段的经度和纬度提取航行状态特征图，按时序堆叠，生成航迹特征矩阵；具体包括：

根据目标船舶的潜在活动范围确定栅格图的尺寸，从航迹序列段依次提取两个相邻时刻的经度和纬度映射到栅格图中，以目标船舶前一时刻的位置为栅格图中心，根据目标船舶当前时刻相对前一时刻的位置变化，计算当前时刻目标船舶在栅格图中的坐标位置，将坐标位置处的特征值置为1，其余坐标位置的特征值均置为0，得到的栅格图即为一张航行状态特征图；

重复以上步骤，依次获得航迹序列段若干张航行状态特征图，按时序堆叠，生成航迹特征矩阵。

作为上述方法的一种改进，所述航迹预测模型基于马尔科夫决策过程对船舶航迹预测过程进行形式化描述，具体为：

采用马尔可夫决策过程对船舶航迹预测过程进行形式化描述，设定五元组记为：<状态，策略，状态转移概率，即时回报函数，折扣因子>，其中，

状态为航迹特征矩阵s_i，表示第i时刻船舶的航行状态特征；

策略为表示第i时刻的决策策略，为所述航迹预测模型第i时刻到第i+1时刻船舶的经纬度变化量，用下式表示：

其中，π(s_i)表示第i时刻在船舶航位状态s_i下的决策策略，Δlat_i,Δlon_i分别表示第i时刻到第i+1时刻的经度变化量和纬度变化量，并且{Δlat_i,Δlon_i}∈[-0.5,0.5]；

状态转移概率为表示在状态s_i下执行策略/>到达新的状态s_i+1的概率；

即时回报函数为满足下式：

其中，dist_i为第i时刻预测值和船舶实际航位的距离误差；

折扣因子为γ，用于计算累积回报；

马尔可夫决策过程的状态值函数v^π(s_i)表示累计回报在状态s_i的期望值，定义为：

其中，为马尔可夫决策过程的状态-行为值函数，表示累计回报在状态s_i和策略/>的期望值，定义为：

其中，v^π(s_i+1)表示累计回报在状态s_i+1的期望值，A表示决策策略集，S表示航迹状态集。

作为上述方法的一种改进，所述航迹预测模型的输入为航迹特征矩阵，输出为目标船舶在下一时刻的经度变化量与纬度变化量，所述航迹预测模型为Actor-Critic结构，其中，

所述Actor网络为策生成略网络，实现策略函数π(s_i)的建模，输入为第i时刻的船舶航位状态s_i，输出为第i时刻的决策策略即第i时刻到第i+1时刻船舶的经纬度变化量{Δlat_i,Δlon_i}，结合第i时刻的船舶位置，从而得到第i时刻的预测船舶位置；

所述Critic网络为策略评价网络，对第i时刻船舶航位状态s_i的累计回报期望值v^π(s_i)进行估计，Actor网络再根据v^π(s_i)更新Actor网络的参数；损失函数Loss(φ)为：

其中，φ表示Critic网络参数，L为航迹序列长度，b为第i时刻以后的时刻，R_b为第b时刻的即时回报函数，v_φ(s_i)为第i时刻Critic网络输出的累计回报期望估计值。

作为上述方法的一种改进，所述方法还包括航迹预测模型的训练步骤，具体包括：

步骤1)建立训练集，所述训练集包括若干个由航迹序列段样本提取特征得到的航迹特征矩阵；

步骤2)依据时序性，从训练集中批量取出航迹特征矩阵，依次输入航迹预测模型根据损失函数进行训练；

步骤3)判断训练迭代次数是否达到设置的迭代次数参数，判断为否，转至步骤2)；判断为是，转至步骤4)；

步骤4)得到训练好的航迹预测模型。

作为上述方法的一种改进，所述建立训练集具体包括：

对目标船舶的历史航迹数据进行清洗，剔除小间隔时刻数据和异常航速数据，降低噪声数据的影响；

以1小时为时间间隔，对清洗后的历史航迹数据进行均匀采样，按照预设的序列长度对采样的历史航迹数据进行分割，得到若干个历史航迹序列段；

根据历史航迹序列段的经度和纬度提取航行状态特征图，按时序堆叠，生成航迹特征矩阵。

一种基于最优策略学习的船舶航迹实时预测系统，其特征在于，所述系统包括：训练好的航迹预测模型、预处理模块和预测输出模块；其中，

所述预处理模块，用于接收目标船舶T0时刻前具有时序性的航迹数据，经预处理后得到航迹特征矩阵；所述航迹数据包括目标船舶不同时刻的经度数据和纬度数据；

所述预测输出模块，用于将航迹特征矩阵输入预先训练好的航迹预测模型，得到目标船舶T0时刻后具有时序性的Z个时刻船舶位置的变化量，进而得到一系列预测的船舶位置，实现船舶航迹预测；

与现有技术相比，本发明的优势在于：

1、本发明提出的航迹实时预测方法不需要对目标船舶建立精确的动力学模型，而是采用免模型的强化学习方法，根据船舶的历史航迹数据对目标船舶未来时刻的位置进行预测；

2、本发明提出的航迹预测模型构建了航迹特征矩阵进行航迹空间关联规律提取，并采用马尔科夫决策过程描述建模，学习航迹时序关联规律，并引入深度强化学习方法求解最优策略使得长期累积回报最大，实现连续时序预测，适应中长期预测需求；

3、本发明提出的航迹预测模型具有良好的序贯性和泛化性，基于预测1小时的航迹数据进行训练，训练好的模型能够用于2小时、3小时等时刻的目标位置预测，能够满足多时刻多尺度的预测需求；

4、本发明提出的航迹预测模型具有训练收敛快、预测实时性高的优点。

附图说明

图1为本发明的基于最优策略学习的船舶航迹实时预测方法的总体思路图；

图2为本发明的基于航迹特征矩阵的航行状态特征建模流程图；

图3为本发明的航行状态特征图的示例图；

图4为本发明的航迹特征矩阵的示例图

图5为本发明的基于最优策略学习的船舶航迹实时预测方法的总体方案框图；

图6为本发明的航迹预测模型的网络结构图；

图7为本发明的航迹预测模型的测试流程图。

具体实施方式

本发明首先将目标船舶的历史航迹预处理为航迹特征矩阵，实现航行状态特征建模，其次将整个航迹预测过程描述为马尔科夫决策过程，最后引入深度强化学习方法对预测模型的最优策略结果进行求解，从而实现对目标船舶未来多个时刻的高精度的航迹预测。

本发明旨在建立一种新的船舶航迹预测模型，该模型能够兼备统计理论方法和神经网络方法的优点，一方面，该预测模型具有算法实时性强，模型泛化能力强的优点，另一方面，该模型不需要建立目标运动学方程，并且能够挖掘航迹数据的时空规律，拟合目标船舶的复杂运动。深度强化学习方法近年来在许多充满挑战的领域取得了巨大的成功，该方法成功结合了深度学习和强化学习的优势，即深度学习对未知的环境数据具有较强的感知能力，而强化学习能够学习到任务的最优策略，在时间轴上做出最优的序贯决策。因此本文考虑从最优航行策略学习的角度出发，学习目标船舶的航行规律，建立一种基于最优策略学习的船舶航迹预测模型。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

如图1所示，本发明的实施例1提出了一种基于最优策略学习的船舶航迹实时预测方法，根据目标的历史航迹学习航行策略，并且根据学习到的航行策略对未来时刻的船舶航迹进行预测。

由上所述，本方法主要有三部分内容，首先是根据目标船舶的历史航迹挖掘行为特征，进行航行状态的特征建模；其次是基于马尔可夫决策过程对船舶航迹预测过程进行建模描述，将航迹预测问题转化为最优航行策略求解问题；最后建立了基于深度强化学习的航迹预测模型，模型以航行策略累计回报最大为训练目标，利用目标船舶的历史航迹数据，学习目标船舶的航行策略，实现最优策略生成，进而完成航迹预测任务。

下面分别对三部分内容进行介绍。

1、基于航迹特征矩阵的航行状态特征建模

本发明的船舶航迹预测问题可以具体描述为，已知前N个时刻的位置数据，预测第N+1到N+4时刻的位置信息。显然，船舶前N个时刻的位置数据并不是相互独立的，而是有先后时序关系的，因此，本发明拟挖掘目标船舶的航迹数据在时间、空间上的关联变化信息，从而建立航迹数据的多维特征矩阵，最大限度的挖掘原始数据特征，具体的航行状态的特征设计流程如图2所示，主要包括航迹数据清洗、航迹数据均匀采样、航迹数据分割、航行状态特征图计算、航迹特征矩阵构建五部分。

航迹数据清洗：船舶航迹数据是基于观测设备获取的以经纬度表示的目标位置数据，考虑到观测设备本身具有一定的观测误差，因此需要对数据进行预处理，以剔除航迹异常点，从而提高模型预测精度，清洗航迹数据的方式主要包括清洗小间隔时刻数据和清洗异常航速数据。

航迹数据均匀采样：由于目标船舶的历史航迹数据具有时序不均的特点，采用恒向线墨卡托算法进行航迹推算，认为相邻时刻船舶按照恒定航速、航向行驶，通过航迹推算得到等时间间隔的航迹点，以1小时为时间间隔进行均匀采样；

航迹数据分割：按照N＝6的序列长度对均匀采样的航迹数据进行分割，得到航迹序列段；

航行状态特征图计算：根据航迹序列段的经度和纬度提取航行状态特征图，将海图栅格化表示，根据目标船舶的潜在活动范围确定栅格图的尺寸，将船舶的航行状态映射到栅格图中，以目标船舶前一时刻的位置为栅格图中心，根据目标当前时刻相对前一时刻的位置变化，计算当前时刻目标在栅格图中的坐标位置，将该处特征值置1，其余特征值均置0，如图3所示，该栅格图即为计算得到的航行状态特征图，则每两个相邻时刻即可计算得到一张航行状态特征图；

航迹特征矩阵：按航迹序列段计算得到的若干张航行状态特征图按时序堆叠，生成航迹特征矩阵，如图4所示。

2、基于马尔可夫决策过程的航迹预测问题建模

本发明将航迹预测问题描述如下：如图5所示，在船舶航行策略学习阶段，给定一个目标船舶与一个智能体，智能体需要根据当前时刻系统的输入信息对船舶航迹的位置变化量进行决策，并且决策结果会影响下一时刻目标船舶的航迹状态；决策命令和航迹状态信息以动态的方式逐小时提交到系统；决策的奖励在完成该时刻决策任务后才能获知；到达终止时刻时整个序列的决策过程结束，而航行策略学习的目标是在整个序列决策过程结束时，智能体获得的奖励值最高，即智能体学习到的船舶航迹越来越接近于目标船舶的真实航迹，则视作完成了最优航行策略学习。在船舶航迹预测阶段，船舶的航行状态会逐时刻的输入给智能体，而智能体需要根据学习到的船舶航行策略求解输入时刻航行状态下的最优决策(即船舶的位置变化量)，而这个最优决策结果便是船舶航迹的预测结果。

有鉴于此，采用马尔可夫决策过程对船舶航迹预测过程进行形式化描述。马尔可夫决策过程包括五元组(S，A，T，R，γ)，即＜状态，策略，状态转移概率，即时回报函数，折扣因子>，其中，

下面对五元组给出具体的定义。

状态为航迹特征矩阵s_i，表示第i时刻船舶的航行状态特征；

其中，π(s_i)表示第i时刻在船舶航位状态s_i下的决策策略，Δlat_i，Δlon_i分别表示第i时刻到第i+1时刻的经度变化量和纬度变化量，并且{Δlat_i，Δlon_i}∈[-0.5，0.5]；

即时回报函数为满足下式：

其中，dist_i为第i时刻预测值和船舶实际航位的距离误差；

折扣因子为γ，用于计算累积回报；

在本发明中，我们以小时为时间单位对船舶航迹进行预测，并且假设船舶航行的最大速度为30节(即1海里/小时)，根据换算公式1海里＝1.852公里，我们可知目标船舶一小时最大航行距离为55.56千米，由此我们规定{Δlat_i,Δlon_i}∈[-0.5,0.5]。

3、基于深度强化学习的船舶航迹预测模型

如果船舶航迹预测问题可以用精确的数学模型来描述，那么可以引入最优控制理论的方法迭代求解目标函数，从而获得马尔可夫决策过程中的最优策略。但在实际求解过程中，由于船舶预测问题的复杂性，难以精确建立系统的动力学模型。因此，本文采用一种免模型(model-free)的强化学习方法求解船舶航迹预测问题的最优决策策略问题。

本文采用神经网络实现强化学习的策略/值函数的建模，具体地，构建了具有多层卷积神经网络和全连接层的网络模型，实现对策略/值函数的逼近，具体模型结构如图6所示，采用Actor-Critic结构框架，主要由Actor网络和Critic网络两部分构成，其中Actor网络是策略生成网络，实现决策策略建模，输入是目标船舶的航行状态，即航迹特征矩阵，输出决策策略，即在经度方向与纬度方向的位置变化量；Critic网络是策略评价网络，实现状态累积回报期望值函数建模。Critic网络对Actor网络输出的策略进行评分，Actor网络再根据Critic网络给出的评分调整决策策略。

基于Actor-Critic结构的航迹预测模型的具体训练过程为：

步骤1)建立训练集，所述训练集包括若干由航迹序列段样本提取特征得到的航迹特征矩阵；

步骤2)依据时序性，从训练集中批量取出1～L时刻的航迹特征矩阵，以第i时刻的航迹特征矩阵s_i为例，输入Actor网络，输出决策策略，即下一时刻的经度变化预测值Δlon_i和纬度变化预测值Δlat_i；由Critic网络对状态的累计回报期望值函数进行估计，输出状态期望值v^π(s_i+1)；由Actor网络根据Critic网络输出的状态值v^π(s_i+1)进行Actor网络参数更新，Critic网络参数φ更新的损失函数Loss(φ)为：

其中，φ表示Critic网络参数，L为航迹序列长度，b为第i时刻以后的时刻，R_b为第b时刻的即时回报函数，v_φ(s_i)为第i时刻Critic网络输出的累计回报期望估计值；

步骤4)得到训练好的航迹预测模型。

基于Actor-Critic结构的航迹预测模型在预测阶段的工作流程如图7所示：首先采用第一部分所提出的船舶航行状态特征建模的方法，对目标船舶的航迹数据进行预处理，并生成航迹特征矩阵，然后将航迹特征矩阵输入到策略生成网络中，并输出决策策略，即下一时刻船舶位置的变化量，并对船舶的航迹信息进行更新，最后判断是否到达终止状态，结束本次预测任务。

由此，本部分建立了基于卷积神经网络的航行策略生成网络，该网络能够根据船舶的航行状态特征，给出最优决策策略，将其作为位置变化量的预测结果，实现目标位置预测，并利用马尔可夫过程的序贯性，得到一系列预测船舶位置，实现航迹预测。

4、实验效果

为了验证本文方法在航迹预测问题中的预测性能，开展方法对比实验，将本文方法与拟合外推法、灰色预测法及BP网络、LSTM网络两种神经网络模型的预测结果进行比较，实验结果如表1所示。其中拟合外推法采用多项式拟合，灰色预测和自回归预测首先进行样条插值获得等间隔数据，并对等时间间隔数据进行预测。3层BP方法以本文提出的航迹特征矩阵作为输入特征，LSTM方法以时间作为输入，以位置信息作为输出。实验结果为1小时预测的最终统计结果。

表1不同模型预测误差对比

模型	经度预测误差(度)	纬度预测误差(度)	距离预测误差(km)
				拟合外推	0.1575	0.1598	24.8101
灰色预测	0.1617	0.0709	19.8075
				3层BP神经网络	0.2068	0.1348	23.5913
LSTM网络	0.2461	0.0998	29.1804
				航行策略学习	0.1060	0.0276	12.1801

本发明的创新点：

(1)本发明提出了一种船舶航迹的特征表达方式，该方法采用栅格图对航行状态进行特征描述，计算航行状态特征图，按照时序堆叠，建立航迹特征矩阵，将航迹特征在时空域上进行了表达。

(2)现有的方法的研究方法主要是从曲线拟合的角度，根据船舶的历史航迹信息拟合船舶的运动轨迹，然后对未来的航迹进行预测。然而本发明所提出的方法创新性的将船舶航迹预测过程描述为一个马尔科夫决策过程，然后从学习目标船舶最优航行策略的角度出发，完成航迹预测任务。

(3)本发明提出了一种基于航行策略学习的船舶航迹预测方法，该方法结合了卷积神经网络与强化学习的优势，能够对船舶的历史航迹特征具有较强的感知能力，并且更好的利用船舶数据的时序特性，能够对目标船舶未来多个连续时刻的位置进行序贯预测，预测模型具有预测精度高、实时性高、适用于中长期预测等优势。

本申请从应用上的发明目的：当船舶在海上航行时，尤其在交通密度较大、障碍物密集、通航环境复杂多变的海域，发生海上交通事故的风险增大；机载、船载或岸基传感器受到地球曲率的影响，难以实现对远海船舶的观测，采用卫星过境监测也需要较长的间隔时间，无法对目标船舶进行连续观测；要实现船舶交通规划设计与调度提供实时准确的管理，就要对未来交通流量进行预测。因此，船舶轨迹预测是航行危险预警、船舶实时监控、交通流量估计的关键技术之一。

实施例2

基于上述方法，本发明的实施例2提出了基于最优策略学习的船舶航迹实时预测系统。系统包括：训练好的航迹预测模型、预处理模块和预测输出模块；其中，

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于最优策略学习的船舶航迹实时预测方法，所述方法包括：

所述航迹预测模型基于马尔科夫决策过程对船舶航迹预测过程进行形式化描述，引入深度强化学习的方法求解船舶航行最优决策策略问题，得到预测结果；

所述预处理具体包括：

根据航迹序列段的经度和纬度提取航行状态特征图，按时序堆叠，生成航迹特征矩阵；

所述根据航迹序列段的经度和纬度提取航行状态特征图，按时序堆叠，生成航迹特征矩阵；具体包括：

重复以上步骤，依次获得航迹序列段若干张航行状态特征图，按时序堆叠，生成航迹特征矩阵；

所述航迹预测模型基于马尔科夫决策过程对船舶航迹预测过程进行形式化描述，具体为：

状态为航迹特征矩阵s_i，表示第i时刻船舶的航行状态特征；

即时回报函数为满足下式：

其中，dist_i为第i时刻预测值和船舶实际航位的距离误差；

折扣因子为γ，用于计算累积回报；

其中，v^π(s_i+1)表示累计回报在状态s_i+1的期望值，A表示决策策略集，S表示航迹状态集；

所述航迹预测模型的输入为航迹特征矩阵，输出为目标船舶在下一时刻的经度变化量与纬度变化量，所述航迹预测模型为Actor-Critic结构，其中，

所述Actor网络为策略生成网络，实现策略函数π(s_i)的建模，输入为第i时刻的船舶航位状态s_i，输出为第i时刻的决策策略即第i时刻到第i+1时刻船舶的经纬度变化量{Δlat_i,Δlon_i}，结合第i时刻的船舶位置，从而得到第i时刻的预测船舶位置；

2.根据权利要求1所述的基于最优策略学习的船舶航迹实时预测方法，其特征在于，所述方法还包括航迹预测模型的训练步骤，具体包括：

步骤4)得到训练好的航迹预测模型。

3.根据权利要求2所述的基于最优策略学习的船舶航迹实时预测方法，其特征在于，所述建立训练集具体包括：

4.一种基于权利要求1的基于最优策略学习的船舶航迹实时预测方法的预测系统，其特征在于，所述系统包括：训练好的航迹预测模型、预处理模块和预测输出模块；其中，

所述预测输出模块，用于将航迹特征矩阵输入预先训练好的航迹预测模型，得到目标船舶T0时刻后具有时序性的Z个船舶位置的变化量，进而得到一系列预测的船舶位置，实现船舶航迹预测；