CN117312891A

CN117312891A - 一种基于船舶数据的轨迹预测方法

Info

Publication number: CN117312891A
Application number: CN202210678993.2A
Authority: CN
Inventors: 杨卫东; 张家乐; 雷斯元
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2023-12-29

Abstract

本发明公开了一种基于船舶数据的轨迹预测方法：步骤1，对于原始船舶数据中包含的噪声，通过数据清洗和数据压缩对原始船舶数据进行预处理，同时对时间跨度大的轨迹点之间进行插值处理；步骤2，利用长短时时间序列相似性度量方法将处理后的船舶数据进行局部缩放，计算轨迹时序相似度，使用DBSCAN聚类算法对船舶轨迹时序数据进行聚类分析，得到船舶轨迹信息；步骤3，设计长短期记忆网络和注意力机制构建面向船舶轨迹数据的轨迹预测模型，模型采用编码器‑解码器结构，编码器用于读入船舶轨迹信息并进行特征提取，解码器用于输出最终的预测值，实现对船舶数据的轨迹预测。本发明相较于基于长短期记忆网络的基线模型具有更好的轨迹预测效果。

Description

一种基于船舶数据的轨迹预测方法

技术领域

本发明涉及轨迹预测技术领域，具体涉及一种基于船舶数据的轨迹预测方法。

背景技术

海上运输是长远距离运输系统中能源消耗最少、经济利益最高的运输方式，相比于航空运输和铁路运输具有成本低、载货量大的优势。海上运输方式是全球运输系统中无比重要的一环，并且已经变成了世界各国的贸易运输中最为关键的运输方式。在如此大量的贸易系统背景下，加强对海上运输系统的安全保障变得十分重要。

为了保障海上运输交通安全，各个国家政府的相关部门都要求海上船舶安装信息收集、助航设备用于分析船舶海上行驶行为，从而规避潜在风险，其中，船舶交通管理系统(Vessel Traffic Service，VTS)为重中之重。VTS使用雷达、船舶自动识别系统(AutomaticIdentification System，AIS)以及全球定位系统等多种技术手段构建了一个海上信息系统。伴随着船舶数量与船舶信息设备数量的快速发展，船舶相关的数据也开始大规模产生。船舶管理的目标是提升海上港口的运输安全和效率，以减少海上船舶航行交通事故的出现概率。海上工作人员在实际工作中，根据经验规定船舶进出港的安全速度和安全间距。但随着海上运输行业的快速发展，港口进出流量的急剧增大，这种凭借人为设定港口的安全航速和距离的方式已无法满足目前的需要，必须引入自动化、智能化的方法来辅助相关决策。

船舶数据是依赖于各个端的硬件传感器构建的时序数据，海量的时序数据为挖掘分析船舶的行为模式提供有力的支持，通过探究海量数据中的数据关联性，挖掘潜在的价值，并在热点领域中应用挖掘到的有价值信息，指导和辅助决策相关的海事活动，具有较强的现实意义和经济价值。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种基于船舶数据的轨迹预测方法。

本发明提供了一种基于船舶数据的轨迹预测方法，具有这样的特征，包括以下步骤：步骤1，对于原始船舶数据中包含的噪声问题，通过数据清洗和数据压缩对原始船舶数据进行预处理，同时对时间跨度大的轨迹点之间进行插值处理，得到处理后的船舶数据；步骤2，利用长短时时间序列相似性度量方法将处理后的船舶数据进行局部缩放，计算轨迹时序相似度，使用DBSCAN聚类算法对船舶轨迹时序数据进行聚类分析，得到船舶轨迹信息；步骤3，设计长短期记忆网络和注意力机制构建面向船舶轨迹数据的轨迹预测模型，模型采用编码器-解码器结构，编码器用于读入船舶轨迹信息并进行特征提取，解码器用于输出最终的预测值，实现对船舶数据的轨迹预测。

在本发明提供的基于船舶数据的轨迹预测方法中，还可以具有这样的特征：其中，步骤1包括以下步骤：步骤1-1，船舶轨迹提取，船舶轨迹的定义如下公式(1)所示，

式中，代表轨迹段，/>表示时间戳t_m所对应的位置；步骤1-2，船舶轨迹点数量过滤，具体过程为：将原始船舶数据按海上移动业务标识码进行分类，将同一个海上移动业务标识码的数据按以时间递增的方式排序，统计轨迹剩余轨迹点的数量，并把轨迹点数量大于轨迹点数量阈值的轨迹序列的数据保留；步骤1-3，船舶航向航速过滤，具体过程为：通过航向与航速对数据进行过滤，船舶对地航速的变化速率记作CRS，船舶对地航向的变化速率记作CRC，计算公式如(2)(3)所示：

式中，为行驶到/>时的对地航速，/>为行驶到/>时的对地航向，为CRS和CRC设定阈值区间，CRS的区间记作[a_min，a_max]，CRC的区间记作[b_min，b_max]，当两个值均大于区间最大值时表示航向状态的变化非常剧烈不适合轨迹的提取，将该轨迹点删除；步骤1-4，船舶轨迹插值，具体过程为：对于船舶轨迹数据中的轨迹点，若存在时间间隔过大的问题，则对该间隔进行轨迹插值处理，处理过程为：结合移动目标在行为学上的特征，获取两个特征值，计算缺失值到观测点的时间差作为权重进行插值，设需要插值的相邻的轨迹点是C(t₁，x₁，y₁，v₁，w₁)和D(t₂，x₂，y₂，v₂，w₂)，轨迹插值计算公式如(4)(5)(6)(7)所示，V和w分别代表航速和航向：

在本发明提供的基于船舶数据的轨迹预测方法中，还可以具有这样的特征：其中，在进行插值处理之前先识别是否需要插值，搜寻轨迹点，计算连续轨迹点之间的时间间隔Δt_i当做辨别的依据，当Δt_i＞Δt_max时，表示需要插值。

在本发明提供的基于船舶数据的轨迹预测方法中，还可以具有这样的特征：其中，步骤2包括以下步骤：步骤2-1，使用基于长短时时间序列相似性度量方法计算轨迹相似度，具体过程为：假定两条轨迹序列A＝[a₁，...，a_n]和B＝[b₁，...，b_m]，距离公式如(8)所示：

式中，n、m分别代表两个轨迹点中的数量，dist代表两点之间的距离，Rest代表移除轨迹点后剩余的轨迹，子轨迹之间的距离为两个起点相距的距离加上两个终点相距的距离，两条轨迹为S₁和S₂，设ST_1i为S₁第i个轨迹段，ST_2j为S₂第j个轨迹，计算公式如(9)所示：

D(ST_1i，ST_2j)＝d(ST_1is，ST_2is)+d(ST_1ie，ST_2ie)#(9)

式中，ST_1is和ST_1ie分别为ST_1i轨迹的起终点，ST_2is和ST_2ie分别为ST_2i轨迹的起终点，d(ST_1is，ST_2is)为地球面之间的距离，计算公式如(10)所示：

C(i，j)＝sina(i，j)+cosa(i，j)*slno(i，j)#(11)

sina(i，j)＝sin²((lat_i-lat_j)/2)#(12)

cosa(i，j)＝cos(lat_i)*cos(lat_j)#(13)

sino(i，j)＝sin²((lon_i-lon_j)/2)#(14)

式(11)中，C指两个点和中心的夹角，d(pointi，pointj)指两个点之间的弧形距离，R_c指地球半径。式(12)～(14)中，lat_i为pointi的纬度，lon_i为pointi的经度。轨迹相似度为所有匹配的子轨迹距离的求和平均值，计算公式如(15)(16)所示。

D_i(S₁，S₂)＝D(ST_1i，ST_2i)#(16)；

步骤2-2，基于轨迹相似度，使用DBSCAN聚类算法对船舶轨迹进行聚类分析。

在本发明提供的基于船舶数据的轨迹预测方法中，还可以具有这样的特征：其中，步骤2-2分为以下子步骤：步骤2-2-1，从数据集中任意选取一个数据对象点p；步骤2-2-2，如果对于参数Eps和MinPts，所选取的数据对象点p为核心点，则找出所有从p密度可达的数据对象点，形成一个簇；步骤2-2-3，如果选取的数据对象点p是边缘点，选取另一个数据对象点；步骤2-2-4，重复步骤2-2-2、步骤2-2-3步，直到所有点被处理。

在本发明提供的基于船舶数据的轨迹预测方法中，还可以具有这样的特征：其中，步骤3中，编码器使用双向长短期记忆网络模型，长短期记忆网络的内部有三种门结构：遗忘门、输入门和输出门，三个门分别控制前一个状态的信息遗忘、候选状态信息的保留和内部状态信息的输出，三个门的计算方式如下公式(17)(18)(19)所示：

i_t＝σ(W_ix_t+U_th_t-1+b_i)#(17)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)#(18)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)#(19)

双向长短期记忆网络将船舶轨迹序列数据分别进行正向输入和反向输入，获得轨迹序列前后方向的深层次信息，充分学习轨迹特征，设输入序列为{x₁，x₂，...，x_l}长度为2，正向隐藏层序列为反向隐藏层序列为/>其中/>和h_t表示如公式(20)(21)(22)所示：

预测模型引入注意力机制，注意力计算公式如(23)(24)所示：

在本发明提供的基于船舶数据的轨迹预测方法中，还可以具有这样的特征：其中，步骤3中，解码层使用单向长短期记忆网络和全连接层网络结构，设轨迹预测的轨迹序列为y＝{y₁，y₂，...，y_h}，计算公式如(25)(26)所示，其中W_y和b_y为训练参数：

u_j＝LSTM(γ_t，u_j-1)#(25)

y_j＝W_yu_j+b_y#(26)

发明的作用与效果

根据本发明所涉及的基于船舶数据的轨迹预测方法，因为具体过程为：步骤1，对于原始船舶数据中包含的噪声问题，通过数据清洗和数据压缩对原始船舶数据进行预处理，同时对时间跨度大的轨迹点之间进行插值处理，得到处理后的船舶数据；步骤2，利用长短时时间序列相似性度量方法将处理后的船舶数据进行局部缩放，计算轨迹时序相似度，使用DBSCAN聚类算法对船舶轨迹时序数据进行聚类分析，得到船舶轨迹信息；步骤3，设计长短期记忆网络和注意力机制构建面向船舶轨迹数据的轨迹预测模型，模型采用编码器-解码器结构，编码器用于读入船舶轨迹信息并进行特征提取，解码器用于输出最终的预测值，实现对船舶数据的轨迹预测。

因此，本发明的基于船舶数据的轨迹预测方法以轨迹时序数据为基础，研究船舶航行时的行为特征以及行为背后隐藏的信息。在经度、纬度、航速、航向四个特征相较于基准模型均具有优势，相较于基于长短期记忆网络的基线模型具有更好的轨迹预测效果。

附图说明

图1是本发明的实施例中基于船舶数据的轨迹预测方法的轨迹插值示意图；

图2是本发明的实施例中基于船舶数据的轨迹预测方法的轨迹匹配示意图；

图3是本发明的实施例中基于船舶数据的轨迹预测方法的预测模型示意图；

图4是本发明的实施例中基于船舶数据的轨迹预测方法的LSTM-Cell示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下实施例结合附图对本发明一种基于船舶数据的轨迹预测方法作具体阐述。

在本实施例中，提供了一种基于船舶数据的轨迹预测方法。

本实施例所涉及的基于船舶数据的轨迹预测方法包括以下步骤：

步骤S1，原始的船舶数据由于受到外部环境的干扰、人员的错误操作、和设备之间的传输故障以及设备自身故障等多方面的因素，导致采集的数据与实际数据存在误差。因此，将其作为网络模型的输入会导致结果不准确，这些不完整、有误差的数据会严重影响实验结果，因此要对原始数据进行数据预处理操作。

由于船舶数据中的异常数据会导致连续时间内运动轨迹点之间出现很大的偏差，不利于研究海域内的船舶轨迹点之间关系，降低分析的准确度，对后期轨迹预测分析带来不好的影响。为了提高后期分析的准确度，需要在分析之前对原始数据进行数据清洗，以此将明显异常的数据剔除掉。

对于原始船舶数据中包含的噪声问题，通过数据清洗和数据压缩对原始船舶数据进行预处理，同时对时间跨度大的轨迹点之间进行插值处理，得到处理后的船舶数据。具体包括以下步骤：

步骤S1-1，船舶轨迹提取，轨迹可定义为移动物体的移动路径上，所有轨迹点的集合，船舶轨迹的定义如下公式(1)所示，

式中，/>代表轨迹段，/>表示时间戳t_m所对应的位置。

步骤S1-2，船舶轨迹点数量过滤，具体过程为：

将原始船舶数据按海上移动业务标识码进行分类，将同一个海上移动业务标识码的数据按以时间递增的方式排序，统计轨迹剩余轨迹点的数量，若某一条轨迹的轨迹点的数量小于给定的数量阈值，则需要对其轨迹则删除，并把轨迹点数量大于轨迹点数量阈值的轨迹序列的数据保留。

步骤S1-3，船舶航向航速过滤，具体过程为：

通过航向与航速对数据进行过滤，船舶对地航速的变化速率记作CRS，船舶对地航向的变化速率记作CRC，计算公式如(2)(3)所示：

式中，为行驶到/>时的对地航速，/>为行驶到/>时的对地航向，为CRS和CRC设定阈值区间，CRS的区间记作[a_min，a_max]，CRC的区间记作[b_min，b_max]，当两个值均大于区间最大值时表示航向状态的变化非常剧烈不适合轨迹的提取，将该轨迹点删除。

步骤S1-4，船舶轨迹插值，具体过程为：

轨迹点可能存在时间间隔过大的问题，为了将轨迹点间隔缩小，对提取后的数据进行插值处理。

图1是本发明的实施例中基于船舶数据的轨迹预测方法的轨迹插值示意图。

如图1所示，在图中A轨迹点和B轨迹点之间的时间差的绝对值相比于其他点过大，可以在两点之间加入一个C轨迹点。在普通的线性插值方法上进行改进，结合移动目标在行为学上的特征，获取两个特征值，计算缺失值到观测点的时间差作为权重进行插值，设需要插值的相邻的轨迹点是C(t₁，x₁，y₁，v₁，w₁)和D(t₂，x₂，y₂，v₂，w₂)，得到两组预测值如下公式(4)、(5)所示。

V和w分别代表航速和航向。将两个预测值求平均，权值由时间差确定，插值越小权值越大，权值公式(6)所示。

最后的插值坐标如下所示。

步骤S2，利用长短时时间序列相似性度量方法将处理后的船舶数据进行局部缩放，计算轨迹时序相似度，使用DBSCAN聚类算法对船舶轨迹时序数据进行聚类分析，得到船舶轨迹信息。

同一类型的船舶在海洋的行驶路径会存在许多相似轨迹，比如对某一货船如果起点和终点固定，其不同的航行轨迹往往具有高度的相似性。船舶轨迹聚类使用聚类分析手段获得具有相近的轨迹行为的船舶轨迹，将相似性较高的轨迹聚合，从而得到船舶的运动行为模式。

其本实施例中，步骤S2包括以下步骤：

步骤S2-1，使用基于长短时时间序列相似性度量方法计算轨迹相似度，具体过程为：

长短时时间序列相似性度量(Dynamic Time Warping，DTW)可以将数据进行局部的缩放，使计算相似度的两个轨迹有相等的长度。在解决离散时间匹配的问题上，DTW有很好的效果。船舶信息数据采集时间不同，采集数量也不同，所以有很多长度不等的时间序列，很适合用DTW进行处理。

DTW算法的核心是找到轨迹点的对应关系，实现轨迹序列的缩放。假定两条轨迹序列A＝[a₁,…,a_n]和B＝[b₁,…,b_m]，距离公式如(8)所示：

式中，n、m分别代表两个轨迹点中的数量，dist代表两点之间的距离，Rest代表移除轨迹点后剩余的轨迹。

图2是本发明的实施例中基于船舶数据的轨迹预测方法的轨迹匹配示意图。

如图2所示，假设需要计算相似度两条轨迹T1和T2，其中，S1的子轨迹有TS11，TS12，TS13，S2的子轨迹有TS21，TS22，TS23，TS24。子轨迹相连代表着成功匹配的轨迹段，T1被分为了3个子轨迹，T2被分为了4个子轨迹。

子轨迹之间的距离为两个起点相距的距离加上两个终点相距的距离，两条轨迹为S₁和S₂，设ST_1i为S₁第i个轨迹段，ST_2j为S₂第j个轨迹，计算公式如(9)所示：

D(ST_1i，ST_2j)＝d(ST_1is，ST_2is)+d(ST_1ie，ST_2ie)#(9)

C(i，j)＝sina(i，j)+cosa(i，j)*sino(i，j)#(11)

sina(i，j)＝sin²((lat_i-lat_j)/2)#(12)

cosa(i，j)＝cos(lat_i)*cos(lat_j)#(13)

sino(i，j)＝sin²((lon_i-lon_j)/2)#(14)

式(11)中，C指两个点和中心的夹角，d(pointi，pointj)指两个点之间的弧形距离，R_c指地球半径。式(12)～(14)中，lat_i为pointi的纬度，lon_i为pointi的经度。

轨迹相似度为所有匹配的子轨迹距离的求和平均值，计算公式如(15)(16)所示。

D_i(S₁，S₂)＝D(ST_1i，ST_2i)#(16)。

步骤S2-2，基于轨迹相似度，使用DBSCAN聚类算法对船舶轨迹进行聚类分析。分为以下子步骤：

步骤S2-2-1，从数据集中任意选取一个数据对象点p。

步骤S2-2-2，如果对于参数Eps和MinPts，所选取的数据对象点p为核心点，则找出所有从p密度可达的数据对象点，形成一个簇。

步骤S2-2-3，如果选取的数据对象点p是边缘点，选取另一个数据对象点。

步骤S2-2-4，重复步骤2-2-2、步骤2-2-3步，直到所有点被处理。

步骤S3，设计长短期记忆网络和注意力机制构建面向船舶轨迹数据的轨迹预测模型，模型采用编码器-解码器结构，编码器用于读入船舶轨迹信息并进行特征提取，解码器用于输出最终的预测值，实现对船舶数据的轨迹预测。船舶轨迹预测通过分析历史轨迹特征，挖掘船舶轨迹规律，对船舶未来一段时间的轨迹进行预测。

图3是本发明的实施例中基于船舶数据的轨迹预测方法的预测模型示意图。

如图3所示，提出基于长短时记忆网络和注意力的船舶轨迹预测模型，模型采用Encoder-Decoder结构，模型包括两个部分：编码层和解码层。编码层读入聚类后的船舶轨迹信息，进行特征提取。解码层利用长短时记忆网络输出最终的预测值。同时，在模型中加入了Attention机制，因为不同的时刻的轨迹点的数据对当前轨迹点的状态的关系并不一样，越近的时刻对当前轨迹状态的影响会更大。

如图4所示，长短时记忆网络是在普通循环神经网络的基础上进行了改造，可以较好解决梯度消失和爆炸的问题。它通过将目前时刻的隐藏层作为下个时间的输入来记住之前的内容。长短时记忆网络引进了一个新的内部候选状态c_t进行信息的传递，在长短时记忆网络的内部有三种门结构：遗忘门、输入门和输出门，三个门分别控制前一个状态的信息遗忘、候选状态信息的保留和内部状态信息的输出，三个门的计算方式如下公式(17)(18)(19)所示：

i_t＝σ(W_ix_t+U_th_t-1+b_i)#(17)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)#(18)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)#(19)

式中，σ为logistic函数，输出的范围为(0，1)，x_t为当前时刻的输入，h_t-1为上一个时刻的外部状态。

时刻t的候选状态的结果包括了t时刻输入的一部分和之前状态信息的部分。x_t和h_t-1在经过激活函数后可以得到t时刻下的输入信息。对t-1时刻的记忆信息和t时刻的输入信息进行调整经过遗忘门和输入门，获得当前时刻的候选状态的值，如下公式(20)所示。

c_t＝f_t⊙c_t-1+i_ttanh W_cx_t+U_ch_t-1#(20)

输出门t时刻的结果值如下，如下公式(21)所示。

h_t＝o_t⊙tanh(c_t)#(21)

编码层使用Bi-LSTM网络结构，将预处理后的轨迹序列数据分别进行正向输入和反向输入，以此充分获得轨迹序列前后方向的深层次信息。

设输入序列为{x₁，x₂，...，x_l}长度为l。正向隐藏层序列为反向隐藏层序列为/>其中/>和/>表示如下公式(22)、(23)所示。

由于不同时刻的船舶轨迹点对预测影响不同，因此对模型中添加注意力机制，对重要信息分配更高的注意力权重，对无关信息分配更低的注意力权重，基于注意力的神经网络已经证实其在处理时间序列上的有效性。设注意力层的输出为z，其计算公式如(25)所示。其中α_jt代表注意力的权重，通过softmax得到，计算公式如(26)所示。

设轨迹预测的轨迹序列为y＝{y₁，y₂，...，y_h}，y_i由聚合层的输出，在i之前的输出序列{y₁，y₂，...，y_i-1}确定。其中对于第j步时，隐藏层序列定义为u_j由上一个输出y_j-1。具体公式(27)、(28)、(29)如下。

γ_t＝[y_j-1，z_j]#(27)

u_j＝LSTM(γ_t，u_j-1；θ_D)#(28)

y_j＝W_yu_j+b_y#(29)

具体实施时，除在本实施例里面提出的一些步骤，还需要进行下面的算法。

(1)DTW算法

算法1DTW算法

输入：序列X，序列Y，距离度量c

输出：DTW矩阵

(2)DBSCAN算法

算法2DBSCAN算法

输入：D,eps,MinPts

输出：聚类结果

本实施例中进行了对比实验，实验的评价指标使用平均绝对误差(MeanAbsoluteError，MAE)、均方误差(Mean Square Error，MSE)指标来评价预测模型的效果。其中MSE和MAE两个误差值越小代表模型预测的结果越准确，指标的计算公式(30)、(31)如下。其中y_i为真实值，为预测值，n为样本数量。

使用的船舶轨迹数据集由雷达、船舶自动识别系统(Automatic IdentificationSystem，AIS)以及全球定位系统等多种技术手段采集得到，这些技术手段能够产生船舶运动的轨迹点，船舶的轨迹信息本质上就是大量的运动轨迹点的组合。数据集样本中包含船舶的经度、纬度、航速、航向等信息。

模型损失函数为MSE，优化器使用随机梯度下降。本文使用LSTM轨迹预测模型作为基准进行对比实验，表1为实验结果表，实验结果如下表1所示。

表1为对比实验结果表。

表1

通过实验结果可知，本实施例在经度、纬度、航速、航向四个特征相较于基准模型均具有优势。

实施例的作用与效果

根据本实施例所涉及的基于船舶数据的轨迹预测方法，因为具体过程为：步骤1，对于原始船舶数据中包含的噪声问题，通过数据清洗和数据压缩对原始船舶数据进行预处理，同时对时间跨度大的轨迹点之间进行插值处理，得到处理后的船舶数据；步骤2，利用长短时时间序列相似性度量方法将处理后的船舶数据进行局部缩放，计算轨迹时序相似度，使用DBSCAN聚类算法对船舶轨迹时序数据进行聚类分析，得到船舶轨迹信息；步骤3，设计长短期记忆网络和注意力机制构建面向船舶轨迹数据的轨迹预测模型，模型采用编码器-解码器结构，编码器用于读入船舶轨迹信息并进行特征提取，解码器用于输出最终的预测值，实现对船舶数据的轨迹预测。

因此，本实施例的基于船舶数据的轨迹预测方法以轨迹时序数据为基础，研究船舶航行时的行为特征以及行为背后隐藏的信息。在经度、纬度、航速、航向四个特征相较于基准模型均具有优势，相较于基于长短期记忆网络的基线模型具有更好的轨迹预测效果。

上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

Claims

1.一种基于船舶数据的轨迹预测方法，其特征在于，包括以下步骤：

步骤1，对于原始船舶数据中包含的噪声问题，通过数据清洗和数据压缩对所述原始船舶数据进行预处理，同时对时间跨度大的轨迹点之间进行插值处理，得到处理后的船舶数据；

步骤2，利用长短时时间序列相似性度量方法将所述处理后的船舶数据进行局部缩放，计算轨迹时序相似度，使用DBSCAN聚类算法对船舶轨迹时序数据进行聚类分析，得到船舶轨迹信息；

步骤3，设计长短期记忆网络和注意力机制构建面向船舶轨迹数据的轨迹预测模型，所述模型采用编码器-解码器结构，所述编码器用于读入所述船舶轨迹信息并进行特征提取，所述解码器用于输出最终的预测值，实现对所述船舶数据的轨迹预测。

2.根据权利要求1所述的基于船舶数据的轨迹预测方法，其特征在于：

其中，步骤1包括以下步骤：

步骤1-1，船舶轨迹提取，船舶轨迹的定义如下公式(1)所示，

式中，代表轨迹段，/>表示时间戳t_m所对应的位置；

步骤1-2，船舶轨迹点数量过滤，具体过程为：

将所述原始船舶数据按海上移动业务标识码进行分类，将同一个海上移动业务标识码的数据按以时间递增的方式排序，统计轨迹剩余轨迹点的数量，并把轨迹点数量大于轨迹点数量阈值的轨迹序列的数据保留；

步骤1-3，船舶航向航速过滤，具体过程为：

式中，为行驶到/>时的对地航速，/>为行驶到/>时的对地航向，为CRS和CRC设定阈值区间，CRS的区间记作[a_min，a_max]，CRC的区间记作[b_min，b_max]，当两个值均大于区间最大值时表示航向状态的变化非常剧烈不适合轨迹的提取，将该轨迹点删除；

步骤1-4，船舶轨迹插值，具体过程为：

对于船舶轨迹数据中的轨迹点，若存在时间间隔过大的问题，则对该间隔进行轨迹插值处理，处理过程为：

结合移动目标在行为学上的特征，获取两个特征值，计算缺失值到观测点的时间差作为权重进行插值，设需要插值的相邻的轨迹点是C(y₁，x₁，y₁，v₁，w₁)和D(t₂，x₂，y₂，v₂，w₂)，轨迹插值计算公式如(4)(5)(6)(7)所示，V和w分别代表航速和航向：

3.根据权利要求2所述的基于船舶数据的轨迹预测方法，其特征在于：

其中，在进行所述插值处理之前先识别是否需要插值，搜寻轨迹点，计算连续轨迹点之间的时间间隔Δt_i当做辨别的依据，当Δt_i>Δt_max时，表示需要插值。

4.根据权利要求1所述的基于船舶数据的轨迹预测方法，其特征在于：

其中，步骤2包括以下步骤：

步骤2-1，使用基于所述长短时时间序列相似性度量方法计算轨迹相似度，具体过程为：

假定两条轨迹序列A＝[a₁，…，a_n]和B＝[b₁，…，b_m]，距离公式如(8)所示：

式中，n、m分别代表两个轨迹点中的数量，dist代表两点之间的距离，Rest代表移除轨迹点后剩余的轨迹，

D(ST_1i，ST_2j)＝d(ST_1is，ST_2is)+d(ST_1ie，ST_2ie)#(9)

C(i，j)＝sina(i，j)+cosa(i，j)*sino(i，j)#(11)

sina(i，j)＝sin²((lat_i-lat_j)/2)#(12)

cosa(i，j)＝cos(lat_i)*cos(lat_j)#(13)

sino(i，j)＝sin²((lon_i-lon_j)/2)#(14)

式(11)中，C指两个点和中心的夹角，d(pointi，pointj)指两个点之间的弧形距离，R_c指地球半径，

式(12)～(14)中，lat_i为pointi的纬度，lon_i为pointi的经度，

D_i(S₁，S₂)＝D(ST_1i，ST_2i)#(16)；

步骤2-2，基于轨迹相似度，使用所述DBSCAN聚类算法对船舶轨迹进行聚类分析。

5.根据权利要求1所述的基于船舶数据的轨迹预测方法，其特征在于：

其中，步骤2-2分为以下子步骤：

步骤2-2-1，从数据集中任意选取一个数据对象点p；

步骤2-2-2，如果对于参数Eps和MinPts，所选取的数据对象点p为核心点，则找出所有从p密度可达的数据对象点，形成一个簇；

步骤2-2-3，如果选取的数据对象点p是边缘点，选取另一个数据对象点；

步骤2-2-4，重复步骤2-2-2、步骤2-2-3步，直到所有点被处理。

6.根据权利要求1所述的基于船舶数据的轨迹预测方法，其特征在于：

其中，步骤3中，所述编码器使用双向长短期记忆网络模型，

所述长短期记忆网络的内部有三种门结构：遗忘门、输入门和输出门，三个门分别控制前一个状态的信息遗忘、候选状态信息的保留和内部状态信息的输出，三个门的计算方式如下公式(17)(18)(19)所示；

i_t＝σ(W_ix_t+U_th_t-1+b_i)#(17)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)#(18)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)#(19)

所述双向长短期记忆网络将船舶轨迹序列数据分别进行正向输入和反向输入，获得轨迹序列前后方向的深层次信息，充分学习轨迹特征，

设输入序列为{x₁，x₂，...，x_l}长度为l，正向隐藏层序列为反向隐藏层序列为/>其中/>和h_t表示如公式(20)(21)(22)所示：

所述预测模型引入注意力机制，注意力计算公式如(23)(24)所示：

7.根据权利要求1所述的基于船舶数据的轨迹预测方法，其特征在于：

其中，步骤3中，解码层使用单向长短期记忆网络和全连接层网络结构，设轨迹预测的轨迹序列为y＝{y₁，y₂，...，y_h}，计算公式如(25)(26)所示，其中W_y和b_y为训练参数：

u_j＝LSTM(γ_t，u_j-1)#(25)

y_j＝W_yu_j+b_y#(26) 。