CN115456258A

CN115456258A - 竞争对手船舶运力预测方法、计算机可读介质

Info

Publication number: CN115456258A
Application number: CN202211035116.XA
Authority: CN
Inventors: 詹昊林
Original assignee: Cosco Shipping Technology Beijing Co Ltd
Current assignee: Cosco Shipping Technology Beijing Co Ltd
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-12-09
Also published as: NL2034325A; ZA202212329B

Abstract

本发明公开了竞争对手船舶运力预测方法、计算机可读介质；该预测方法包括步骤S1：获取竞争对手船舶定位AIS历史数据；S2：通过船舶定位AIS数据获得船舶在码头靠泊后吃水量的变化；并对获取的竞争对手船舶定位AIS历史数据进行特征工程和数据标注；S3：利用获得的批量标注数据集训练KNN最近邻模型和LightGBM模型，获得竞争对手船舶潜在目的地预测模型；S4：基于实时数据和获得的竞争对手船舶目的地预测模型，预测竞争对手船舶运力；其中，所述船舶运力包括船舶前往各个目的地的概率、船舶在目的地码头的装卸货量。利用该预测模型能够实时、有效地监测并预测竞争对手船舶运力走向。误判率低，耗时短，实时性强，节省人力，提高监测效率。

Description

竞争对手船舶运力预测方法、计算机可读介质

技术领域

本申请属于数据处理技术领域，具体涉及竞争对手船舶运力预测方法、计算机可读介质。

背景技术

竞争对手分析在商业决策流程中是不可或缺的重要组成部分，在单次载货量以万吨为单位的远洋海运行业，竞争对手分析尤为重要，因为竞争对手的船舶运力走向蕴含着大量的商业信息，这些信息可协助本公司决策层作出运力跟随和运力避让等重大战略决策。

现有技术中，在识别竞争对手运力走向时，通常把AIS动态数据分时间段整合成半静态数据，通过人工识别船舶在特定时间段内是否出现在前往特定目的地必须经过的特定区域并判断船舶在此特定区域的前行方向来判断船舶潜在的目的地。这种方法由于使用半静态数据，存在误判率高，耗时长，实时性欠缺等问题，且相对自动监测算法而言会消耗更多人力。

发明内容

有鉴于此，一方面，一些实施例公开了竞争对手船舶运力预测方法，用于自动识别竞争对手船舶的运力走向及判定其潜在目的地；该预测方法包括步骤：

S1：获取竞争对手船舶定位AIS历史数据；

S2：通过定位AIS数据获得船舶在码头靠泊后吃水量的变化；并对获取的竞争对手船舶定位AIS历史数据进行特征工程和数据标注；

S3：利用获得的批量标注数据集训练KNN最近邻模型和LightGBM模型，获得竞争对手船舶潜在目的地预测模型；

S4：基于实时数据和获得的竞争对手船舶目的地预测模型，预测竞争对手船舶运力；其中，所述船舶运力包括船舶前往各个目的地的概率、船舶在目的地码头的装卸货量。

进一步，一些实施例公开的竞争对手船舶运力预测方法，步骤S2具体包括：

S201：对AIS历史数据集进行预处理；

S202：构建除AIS历史数据集以外的额外特征，并对AIS历史数据集进行标注；

S203：根据船舶靠泊前和靠泊后距靠泊点设定距离内的船舶吃水变化量分别估算货量变化量，进而估算装/卸货量；其中，货量变化量＝(靠泊前船舶吃水均值-靠泊后船舶吃水均值)×船舶每厘米吃水吨数TPC；若货量变化量为正，则为卸货，若货物变化量为负，则为装货。

一些实施例公开的竞争对手船舶运力预测方法，步骤S201具体包括：对AIS历史数据中各船舶位置信息进行等距处理，分别对各船舶的位置信息进行插值得到航行路径，然后根据球面距离等距取航行路径的经纬度坐标。

一些实施例公开的竞争对手船舶运力预测方法，步骤S202具体包括：

为船舶构建额外特征X_1,t、X_2,t和X_3,t；其中，记X_1,t为t时刻船舶距目的地的距离，设置额外变量X_2,t标记船舶航向，若X_1,t-X_1,t-1<0，则，船舶在靠近目的地，标记X_2,t为1；若X_1,t-X_1,t-1＞0，则船舶在远离目的地，标记X_2,t为-1；对X_2,t按时间进行有界累加得到新变量X_3,t＝max(min(X_3,t-1+X_2,t,B),A)，并使用移动平均方法对X_3,t作平滑处理；其中，A、B分别表示累加下边界和上边界；

若该船舶在t时刻在目的地码头靠泊且在靠泊前后出现显著吃水量变化，则从t时刻向前搜索最大的时间段k，使得k满足在[t-k,t)内X_3,t为连续正序列，并将该船舶在此时间段内的数据标记为正样本，即把Y_1,t-k,…,Y_1,t都标记为1；若有N个特定目的地，则分别进行上述操作，Y的第一个下标从1到n分别取值得Y_1,t,…,Y_N,t，X的第一个下标从1,2,3到3N-2,3N-1,3N分别取值得X_1,t,X_2,t,X_3,t,…,X_3N-2,t,X_3N-1,t,X_3N,t即可，其中，N为目的地数量，Y为目标变量；Y_n,t为预测值，Y_n,t为1说明t时刻船舶正在去往第n个目的地；X_3n,t大于0表明船舶在t时刻属于在持续靠近第n个目的地的状态。

一些实施例公开的竞争对手船舶运力预测方法，步骤S3利用获得的批量标注数据集训练KNN最邻近模型和LightGBM模型的过程具体包括：

S301：将批量标注数据集划分为四部分；其中，第一部分用于获得历史航线数据以及作为KNN最邻近模型的训练集，第二部分作为KNN最邻近模型的验证集以及LightGBM模型的训练集，第三部分作为LightGBM模型的验证集，第四部分作为LightGBM的测试集；

S302：使用批量标注AIS历史数据的KNN训练集构建KNN最近邻模型，自变量为按最佳时间长度C切分后的经纬度序列L_*,t，*表示所有的历史航线，因变量为经纬度序列L_*,t对应的目的地标注Y_·,t，·表示所有的目的地，其中C为最佳时间长度参数；

S303：将LightGBM训练集中的数据按最佳时间长度C切分后，比对切分后的航行路径与距离最近的若干条历史航线的经纬度序列，通过求点线距离获得当前船舶在最佳时间长度C内的经纬度偏差序列e_t，使用额外特征X_1,t,X_2,t,X_3,t,…,X_3N-2,t,X_3N-1,t,X_3N,t、经纬度偏差序列e_t以及额外特征X_1,t,X_2,t,X_3,t,…,X_3N-2,t,X_3N-1,t,X_3N,t的差分数据与经纬度偏差序列e_t的差分数据，经过随机森林筛选特征，用特征贡献度排名前80％的特征以及LightGBM的额外特征来训练LightGBM模型并使用验证集数据预测竞争对手当前船舶去往各个潜在目的地的预测值

并基于验证集的误差调整LightGBM模型的超参数；最后，基于LightGBM测试数据集对LightGBM模型进行测试，从而得到已完成训练和超参数调优的LightGBM模型在预测训练集和验证集以外的数据时的表现；其中，LightGBM的额外特征为M_L,1和M_(L,U),2，M_L,1为输入L时KNN的预测值，M_(L,U),2表示输入L匹配到的U所在的航线是否经过LightGBM模型本次需要预测的那个潜在目的地，经过则M_(L,U),2＝1，否则为M_(L,U),2＝0；其中，L_*,t为历史航线段，是按最佳序列长度C切分历史航线得到的经纬度序列；U为一组集合，集合内元素由KNN训练集的历史航线构造，第k个集合包含来源于KNN训练集第k条历史航线的所有被切分后的历史航线段。

一些实施例公开的竞争对手船舶运力预测方法，步骤S303中，在使用LightGBM测试数据集测试LightGBM模型时，若选出的若干条历史航线中有部分航线的目的地相同，则以目的地为分组维度对预测概率求平均值，得到竞争对手船舶去该目的地的最终预测概率。

一些实施例公开的竞争对手船舶运力预测方法，步骤S4中，预测竞争对手船舶运力具体包括：

S401：竞争对手船舶潜在目的地预测模型中，传入任一船舶的定位AIS数据，经过与训练阶段相同的流程对数据进行处理，并取最新的最佳时间长度C内的航行路径；其中，所述流程不包括数据标注和模型训练调优；

S402：模型给出预测概率后，对任一船舶在t时刻的由K条历史航线得到的预测概率以目的地为分组维度求平均值，得到它在t时刻的去往N个目的地的预测值向量

其中，K取值自然数，N取值自然数；

S403：将预测值向量

与向量[sign(sign([X_3,t,X_6,t,…,X_3N,t])+1)]求内积得新向量Z_t，用Z_t除以其自身的1-范数

即得去往各目的地的概率

其中：

sign([X_3,t,X_6,t,…,X_3N,t])为符号函数；

一些实施例公开的竞争对手船舶运力预测方法，步骤S3中，批量标注数据集包括步骤S1获得的船舶定位AIS历史数据和对船舶定位AIS数据进行特征工程和数据标注得到的数据。

一些实施例公开的竞争对手船舶运力预测方法，步骤S3中，省略使用KNN最邻近模型对历史航线数据进行初步筛选的步骤，将所有历史航线数据都参与模型构建和目的地预测。

另一方面，一些实施例公开了包含计算机执行指令的计算机可读介质，该计算机执行指令经由数据处理设备处理时，该数据处理设备执行本发明实施例公开的竞争对手船舶运力预测方法。

本发明实施例公开的竞争对手船舶运力预测方法，通过对公开的AIS船舶位置数据进行处理，采用KNN最近邻模型和LightGBM模型进行训练得到了能够准确识别船舶潜在目的地的竞争对手船舶潜在目的地预测模型，利用该预测模型能够实时、有效地监测并预测竞争对手船舶运力走向。相比于传统的人工识别方法而言，使用动态数据的自动预测方法，误判率低，耗时短，实时性强，同时能大大节省监测竞争对手船舶运力所需要的人力，提高监测效率。

附图说明

图1实施例1竞争对手船舶运力预测方法流程示意图。

具体实施方式

在这里专用的词“实施例”，作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。本申请实施例中性能指标测试，除非特别说明，采用本领域常规试验方法。应理解，本申请中所述的术语仅仅是为描述特别的实施方式，并非用于限制本申请公开的内容。

除非另有说明，否则本文使用的技术和科学术语具有本申请所属技术领域的普通技术人员通常理解的相同含义；作为本申请中其它未特别注明的试验方法和技术手段均指本领域内普通技术人员通常采用的实验方法和技术手段。

本文所用的术语“基本”和“大约”用于描述小的波动。例如，它们可以是指小于或等于±5％，如小于或等于±2％，如小于或等于±1％，如小于或等于±0.5％，如小于或等于±0.2％，如小于或等于±0.1％，如小于或等于±0.05％。在本文中以范围格式表示或呈现的数值数据，仅为方便和简要起见使用，因此应灵活解释为不仅包括作为该范围的界限明确列举的数值，还包括该范围内包含的所有独立的数值或子范围。例如，“1～5％”的数值范围应被解释为不仅包括1％至5％的明确列举的值，还包括在所示范围内的独立值和子范围。因此，在这一数值范围中包括独立值，如2％、3.5％和4％，和子范围，如1％～3％、2％～4％和3％～5％等。这一原理同样适用于仅列举一个数值的范围。此外，无论该范围的宽度或所述特征如何，这样的解释都适用。

在本文中，包括权利要求书中，连接词，如“包含”、“包括”、“带有”、“具有”、“含有”、“涉及”、“容纳”等被理解为是开放性的，即是指“包括但不限于”。只有连接词“由……构成”和“由……组成”是封闭连接词。

为了更好的说明本申请内容，在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在实施例中，对于本领域技术人员熟知的一些方法、手段、仪器、设备等未作详细描述，以便凸显本申请的主旨。

在不冲突的前提下，本申请实施例公开的技术特征可以任意组合，得到的技术方案属于本申请实施例公开的内容。

在一些实施方式中，竞争对手船舶运力预测方法包括步骤：

S1：获取竞争对手船舶定位AIS历史数据；

进一步，作为可选实施例，竞争对手船舶运力预测方法中，步骤S2具体包括：

S201：对AIS历史数据集进行预处理；例如，分别对AIS数据中各船舶位置信息进行等距处理，即分别对各船舶的位置信息进行插值后根据球面距离等距取航行路径的经纬度坐标，得到的经纬度序列的取值间隔只与距离有关，与时间和速度无关，从而每组相邻两个点之间的点点距离可设为1个单位长度；因经纬度序列的取值间隔只与距离有关，与时间和速度无关，为了在表述中更方便体现两点之间的先后顺序，下文均假设船舶以单位速度运行，从而相邻两点的时间间隔就可以假设为1个单位时间。

S202：构建除AIS历史数据集以外的额外特征，并对AIS历史数据集进行标注；例如，为船舶构建额外特征X_1,t、X_2,t和X_3,t；其中，记X_1,t为t时刻船舶距目的地的距离，设置额外变量X_2,t标记船舶航向，若X_1,t-X_1,t-1<0，则，船舶在靠近目的地，标记X_2,t为1；若X_1,t-X_1,t-1＞0，则船舶在远离目的地，标记X_2,t为-1；对X_2,t按时间进行有界累加得到新变量X_3,t＝max(min(X_3,t-1+X_2,t,B),A)，并使用移动平均方法对X_3,t作平滑处理；其中，A、B分别表示累加下边界和上边界；

若该船舶在t时刻在目的地码头靠泊且在靠泊前后出现显著吃水量变化，则从t时刻向前搜索最大的时间段k，使得k满足在[t-k,t)内X_3,t为连续正序列，并将该船舶在此时间段内的数据标记为正样本，即把Y_1,t-k,…,Y_1,t都标记为1；若有N个特定目的地，则分别进行上述操作，Y的第一个下标从1到N分别取值得Y_1,t,…,Y_N,t，X的第一个下标从1,2,3到3N-2,3N-1,3N分别取值得X_1,t,X_2,t,X_3,t,…,X_3N-2,t,X_3N-1,t,X_3N,t即可，其中，N为目的地数量，Y为目标变量，；Y_n,t为预测值，Y_n,t为1说明t时刻船舶正在去往第n个目的地；X_3n,t大于0表名船舶在t时刻属于在持续靠近第n个目的地的状态。

S203：根据船舶靠泊前和靠泊后距靠泊点设定距离内的船舶吃水变化量分别估算货量变化量，进而估算装/卸货量；其中，货量变化量＝(靠泊前船舶吃水均值-靠泊后船舶吃水均值)×船舶每厘米吃水吨数TPC；若货量变化量为正，则为卸货，若货物变化量为负，则为装货。通常地，估算船舶吃水变化量时的设定距离根据历史经验值确定，例如可以确定为100海里。

作为可选实施例，利用获得的批量标注数据集训练KNN最邻近模型和LightGBM模型的过程中，可以分别利用KNN最邻近模型和LightGBM模型进行分层训练，得到预测模型，具体包括：

S301：将批量标注数据集划分为四部分；其中，第一部分用于获得历史航线数据以及作为KNN最邻近模型的训练集，对历史航线进行初步筛选，第二部分作为KNN最邻近模型的验证集以及LightGBM模型的训练集，第三部分作为LightGBM模型的验证集，第四部分作为LightGBM的测试集；

S302：使用批量标注AIS历史数据的KNN训练集构建KNN最近邻模型，自变量为按最佳时间长度C切分后的经纬度序列L_*,t，*表示所有的历史航线，因变量为经纬度序列对应的目的地标注Y_·,t，·表示所有的目的地；其中，C为最佳时间长度参数，可根据历史经验值确定，如100个单位时间；或通过交叉验证查找C的最优值，寻优的目标是最大化预测Y_t的正确率；然后使用KNN的验证集找出KNN预测时所用的历史航线的最佳数量即KNN的参数K的最佳值；

S303：然后将LightGBM训练集中的数据按最佳时间长度C切分后，基于KNN最近邻模型，比对切分后的航行路径与距离最近的若干条历史航线的经纬度序列，获得当前船舶在最佳时间长度C内的经纬度偏差序列e_t；航行路径通常以经纬度序列表示，航行路径偏差序列通常用当前航行路径各点到历史航线的点线距离得到；仅考虑与潜在目的地相同且由KNN模型得到的距离当前航行路径距离最近的K条历史航线，以降低不平衡数据集和异常历史航线带来的影响，并降低计算量；通常，分类数据集的因变量中1和0的数量悬殊即为不平衡数据；使用额外特征X_1,t,X_2,t,X_3,t,…,X_3N-2,t,X_3N-1,t,X_3N,t、经纬度偏差序列e_t以及额外特征X_1,t,X_2,t,X_3,t,…,X_3N-2,t,X_3N-1,t,X_3N,t的差分数据与经纬度偏差序列e_t的差分数据，经过随机森林筛选特征，用特征贡献度排名前80％的特征以及LightGBM的额外特征来训练LightGBM模型并使用验证集数据预测竞争对手当前船舶去往各个潜在目的地的预测值

并基于验证集的误差调整LightGBM模型的超参数；然后，基于LightGBM测试数据集对LightGBM模型进行测试，从而得到已完成训练和超参数调优的LightGBM模型在预测训练集和验证集以外的数据时的表现。最后以目的地为分组标识对船舶去往各个潜在目的地概率求分组平均值。其中，LightGBM的额外特征为M_L,1和M_(L,U),2，M_L,1为输入L时KNN的预测值，M_(L,U),2表示输入L匹配到的U所在的航线是否经过LightGBM模型本次需要预测的那个潜在目的地，经过则M_(L,U),2＝1，否则为M_(L,U),2＝0。换言之，在预测同一个潜在目的地时，对于同一个L，M_L,1相等，对于根据L确定出的每个U，它们各自对应的M_(L,U),2也是确定的；其中，L_*,t为历史航线段，是按最佳序列长度C来切分历史航线得到的经纬度序列；U为一组集合，集合内元素由KNN训练集的历史航线构造，第k个集合包含来源于KNN训练集第k条历史航线的所有被切分后的历史航线段，且构造U时使用的KNN训练集比其余部分数据集具有更细的粒度，换言之，U内包含的历史航线段是由粒度最细的经纬度序列构造的。

作为可选实施例，省略使用KNN最邻近模型对历史航线数据进行初步筛选的步骤，将所有历史航线数据都参与模型构建和目的地预测。

作为可选实施例，竞争对手船舶运力预测方法的步骤S303中，在使用LightGBM测试数据集测试LightGBM模型时，若选出的若干条历史航线中有部分航线的目的地相同，则以目的地为分组维度对预测概率求平均值，得到竞争对手船舶去该目的地的概率。

作为可选实施例，竞争对手船舶运力预测方法的步骤S4中，预测竞争对手船舶运力具体包括：

S401：竞争对手船舶潜在目的地预测模型中，传入任一船舶的定位AIS数据，经过与训练阶段相同的流程对数据进行处理，并取最新的最佳时间长度C内的航行路径；其中，流程不包括数据标注和模型训练调优；

其中，K取值自然数，N取值自然数；

S403：将预测值向量

即得去往各目的地的概率

其中：

sign([X_3,t,X_6,t,…,X_3N,t])为符号函数；

一些实施例公开的竞争对手船舶运力预测方法包括：

利用获得的批量标注数据集信息训练LightGBM模型，获得竞争对手船舶潜在目的地识别模型；

LightGBM模型的具体细节包括：

LightGBM(Light Gradient Boosting Machine)是一种实现GBDT(GradientBoosting Decision Tree)的框架，主要用于解决GBDT不适合海量数据的问题，从而使GBDT能够支持高效率的并行训练和分布式训练来获得更快的训练速度、更低的内存消耗、更好的准确率；

GBDT模型通过堆叠弱分类器(即决策树)得到强分类器模型，每个弱分类器都是用于校正上一个弱分类器的预测残差；层次足够深的LightGBM理论上可以拟合任何复杂的函数，非常适合学习样本数据的内在规律和表示层次；

LightGBM可以公式化表达如下：

式中，J为弱分类器(决策树)个数，M_j为第j棵决策树对样本空间划分的单元数，

为第j棵决策树在第m_j个单元的输出值，

是示性函数，若样本在第m_j个单元内，则取值为1，否则为0；第j棵决策树的输出值f(x)取决于第j-1棵决策树的预测误差；

利用获得的LightGBM模型预测竞争对手船舶去往各个潜在目的地的概率。通常，将训练好的LightGBM模型加载到模型实例中，传入AIS实时数据；通过LightGBM计算出船舶去往各个目的地的得分；得分是指船舶去往各个潜在目的地的预测概率，若目的地不是潜在目的地，该船舶的预测概率会被调整为0，最后所有预测概率将被校正以确保预测概率之和为1；具体包括：

训练好的LightGBM模型中，传入任一船舶的定位AIS数据；通常定位AIS数据经过特征工程处理，例如特征构建、数据预处理、特征选择、数据分布变换等；

对任一船舶在t时刻的由K条历史航线得到的预测概率以目的地为分组维度求平均值，得到它在t时刻的去往N个目的地的预测值向量

将预测值向量

即得去往各目的地的可能性概率

其中：

sign([X_3,t,X_6,t,…,X_3N,t])为符号函数；

再一方面，一些实施例公开了包含计算机执行指令的计算机可读介质，该计算机执行指令经由数据处理设备处理时，该数据处理设备执行本发明实施例公开的竞争对手船舶运力预测方法。

一般地，可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序指令或代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

以下结合实施例对技术细节做进一步示例性说明。

实施例1

实施例1公开竞争对手船舶运力预测方法包括：

收集AIS船舶定位数据；

对数据进行预处理；包括但不限于对AIS数据中各船舶位置信息进行插值后等距取值；同时构建用于识别潜在目的地以及用于训练模型的额外特征；

使用AIS船舶定位数据集原有特征与构建的额外特征对数据集标注，并将数据集划分为KNN训练集、KNN验证集(同时为LightGBM训练集)，LightGBM验证集和LightGBM测试集四部分；

用KNN验证集选出KNN的超参数K最合适的值后，用LightGBM训练集对LightGBM模型进行多轮次的训练，生成了一个竞争对手船舶潜在目的地预测模型；

将训练好的LightGBM模型，加载竞争对手分析系统中；对AIS数据进行实时分析，若有船舶去往潜在目的地的概率连续T次大于预先设置的阈值，信息系统可以将这些信息保存并提醒相关人员，便于监测人员查看和核验。

本实施例1实现了竞争对手船舶运力的实时监测。

实施例2

本实施例2以两个目的地为例，举例说明竞争对手船舶运力预测方法。

对AIS历史数据中各船舶位置信息进行等距处理，分别对各船舶的位置信息进行插值得到航行路径，然后根据球面距离等距取航行路径的经纬度坐标；

为船舶的AIS数据集构建额外特征，额外特征X_1,t、X_2,t和X_3,t用于目的地1，额外特征X_4,t、X_5,t和X_6,t用于目的地2；其中X_1,t和X_4,t分别为t时刻船舶分别距目的地1和目的地2的距离，X_2,t＝sign(X_1,t-X_1,t-1)，X_5,t＝sign(X_4,t-X_4,t-1)分别表示船舶的航向；对X_2,t、X_5,t分别按时间进行有界累加得到新变量X_3,t＝max(min(X_3,t-1+X_2,t,B),A)，X_6,t＝max(min(X_6,t-1+X_5,t,B),A)；并使用移动平均方法对X_3,t、X_6,t作平滑处理；其中，A、B分别表示累加下边界和上边界；

例如，X_1,t为[1,2,3,2,3,4,5,4,3,2,3,4,5,6]，

则X_2,t为[null,1,1,-1,1,1,1,-1,-1,-1,1,1,1,1]，

设A＝0，B＝2,则X_3,t为[null,1,2,1,2,2,2,1,0,0,1,2,2,2]；

使用KNN的训练数据集，通过交叉验证方法或者历史经验找出最佳序列长度C，并使用KNN的训练集数据构建KNN模型，使用KNN验证集数据搜寻KNN模型参数K的最佳值，最大化KNN预测验证集的Y_·,t的正确率，·表示所有的目的地。

KNN的训练集、验证集和测试集中的数据均需进行以下转换：

若最佳序列长度为C＝3，则第i条历史航线的完整时间区间为[1,T]的经纬度序列J_i,T＝[J_i,1,J_i,2,J_i,3,…,J_i,T]需被整理为第i条历史航线的航线段经纬度序列L_i,3＝[J_i,1,J_i,2,J_i,3]，L_i,4＝[J_i,2,J_i,3,J_i,4]，L_i,3＝[J_i,3,J_i,4,J_i,5]，…，L_i,T＝[J_i,T-2,J_i,T-1,J_i,T]，其中J为二元向量[经度，纬度]，且t时刻的自变量L_i,t＝[J_i,t-2,J_i,t-1,J_i,t],其中t＝3,4,…,T，L_i,t对应的因变量为Y_·,t，·表示所有的目的地。为方便本文后续表述，对于KNN的训练集数据，把L_i,t去除时间下标后统一放入航线段经纬度序列集合U_i＝{[L_i,t-2,L_i,t-1,L_i,t]}_t∈[C,T]；KNN模型使用的距离为点线距离，通常，使用近似方法求点线距离，即KNN训练集的L要比验证集和测试集的L具有更细的粒度，细粒度可以通过插值方法获得，比如以最佳序列长度C＝3为例，在构建KNN训练数据的U_i时，应先通过对J_i,T插值得到J_i,T′＝[J_i,1,J_i,1.5,J_i,2,J_i,2.5,J_i,3,…,J_i,T-1,J_i,T-0.5,J_i,T]，再把插值后的J_i′_,T转换为L_i,t＝[J_i,t-2,J_i,t-1,J_i,t],其中t＝3,3.5,4,4.5…,T-0.5,T，若插值后当t有小数时，L_i,t对应的Y_·,t＝Y_·,round(t)，·表示所有的目的地，round(t)为t的四舍五入，从而得到U_i＝{[L_i,t-2,L_i,t-1,L_i,t]}_t∈[C,T]即可。需要注意的是把插值后的J_i,T′转换为L_i,t时，需保证L_i,t中的时间间隔为单位时间，即L_i,t＝[J_i,t-2,J_i,t-1,J_i,t]中相邻的J的第二个下标的差值为1而不是0.5；当预测验证集或测试集的L_*,t时，其中*表示所有的历史航线，以验证集的第i条航线为例在计算L_i,t到第k条历史航线的距离时应分别算L_i,t和KNN训练集中第k个集合U_k中所有向量的点-点距离，并用最小的点-点距离来近似L_i,t和第k条历史航线的点线距离即可。

使用LightGBM的训练数据集，对每条数据都按最佳长度C转换，以时间区间为[1,T]的第i条历史航线为例，转换后记为L_i,t,t＝3,4,…,T，并用KNN选出K个距离最近的历史航线，对于第k条历史航线，取KNN训练集中第k个集合U_k中所有向量分别与L_i,t求点-点距离，并取U_k中与L_i,t的点-点距离最小的单个向量记为U_k′，得到L_i,t-U_k′＝[l_i,t-C-1-u_k,1,l_i,t-C-2-u_k,2,…,l_i,t-u_k,C]，从而得到该时刻的经纬度偏差序列e_t＝L_i,t-U_k′，用e_t、X_1,t、X_2,t、X_3,t和e_t、X_1,t、X_2,t、X_3,t的差分数据以及LightGBM的额外特征M_L,1和M_(L,U),2作为自变量，Y_1,t作为因变量训练第一个LightGBM模型，再用e_t、X_4,t、X_5,t、X_6,t和e_t、X_4,t、X_5,t、X_6,t的差分数据以及LightGBM的额外特征M_L,1和M_(L,U),2作为自变量，Y_2,t作为因变量训练第二个LightGBM模型；其中，LightGBM的额外特征为M_L,1和M_(L,U),2，M_L,1为输入L时KNN的预测值，M_(L,U),2表示输入L匹配到的U所在的航线是否经过LightGBM模型本次需要预测的那个潜在目的地，经过则M_(L,U),2＝1，否则为M_(L,U),2＝0。换言之，在预测同一个潜在目的地时，对于同一个L，M_L,1相等，对于根据L确定出的每个U，它们各自对应的M_(L,U),2也是确定的。

用LightGBM的验证集分别优化两个LightGBM模型的超参数得到最终模型；

自变量集合可以通过特征选择方法进行筛选，从而去除冗余变量，提高模型效果；

预测时，对于一条新的船舶i的经纬度序列数据，需按上述步骤进行数据预处理(等距处理)、构建额外特征X_1,t、X_2,t和X_3,t用于目的地1，构建额外特征X_4,t、X_5,t和X_6,t用于目的地2，并取经纬度序列最新的C个数据点，C取值同训练时的最优值C＝3，L_i,t＝[J_i,t-2,J_i,t-1,J_i,t]，并用KNN选出K个距离最近的历史航线，对于第k条历史航线，取KNN储存的U_k中的各向量分别与L_i,t求点点距离，并取U_k中与L_i,t的点点距离最小的单个向量记为U_k′，得到L_i,t-U_k′＝[l_i,t-C-1-u_k,1,l_i,t-C-2-u_k,2,…,l_i,t-u_k,C]，从而得到该时刻的经纬度偏差序列e_t＝L_i,T-U_k′。然后用e_t、X_1,t、X_2,t、X_3,t和e_t、X_1,t、X_2,t、X_3,t的差分数据以及M_L,1和M_(L,U),2作为自变量用第一个LightGBM模型预测

并用e_t、X_4,t、X_5,t、X_6,t和e_t、X_4,t、X_5,t、X_6,t的差分数据以及M_L,1和M_(L,U),2作为自变量用第一个LightGBM模型预测

对该条新的经纬度序列数据，用KNN选出K个距离最近的历史航线后，则一条历史数据会扩充成K条，此时需以目的地为分组标识分别对船舶去往目的地1的预测值

和船舶去往目的地2的预测值

分别求平均值；

最后预测竞争对手船舶运力，求去往两个目的地的概率向量

其中

为船舶去往目的地1的概率，

为船舶去往目的地2的概率。

的公式为：

其中，

本申请公开的技术方案和实施例中公开的技术细节，仅是示例性说明本申请的发明构思，并不构成对本申请技术方案的限定，凡是对本申请公开的技术细节所做的常规改变、替换或组合等，都与本申请具有相同的发明构思，都在本申请权利要求的保护范围之内。

Claims

1.竞争对手船舶运力预测方法，其特征在于，该方法包括步骤：

S1：获取竞争对手船舶定位AIS历史数据；

2.根据权利要求1所述的竞争对手船舶运力预测方法，所述步骤S2具体包括：

S201：对AIS历史数据集进行预处理；

3.根据权利要求2所述的竞争对手船舶运力预测方法，其特征在于，所述步骤S201具体包括：对AIS历史数据中各船舶位置信息进行等距处理，分别对各船舶的位置信息进行插值得到航行路径，然后根据球面距离等距取航行路径的经纬度坐标。

4.根据权利要求2所述的竞争对手船舶运力预测方法，其特征在于，所述步骤S202具体包括：

若该船舶在t时刻在目的地码头靠泊且在靠泊前后出现显著吃水量变化，则从t时刻向前搜索最大的时间段k，使得k满足在[t-k,t)内X_3,t为连续正序列，并将该船舶在此时间段内的数据标记为正样本，即把Y_1,t-k,…,Y_1,t都标记为1；若有N个特定目的地，则分别进行上述操作，Y的第一个下标从1到n分别取值得Y_1,t,…,Y_n,t，X的第一个下标从1,2,3到3N-2,3N-1,3N分别取值得X_1,t,X_2,t,X_3,t,…,X_3N-2,t,X_3N-1,t,X_3N,t，其中，N为目的地数量，Y为目标变量；Y_n,t为目的地预测值，Y_n,t为1说明t时刻船舶正在去往第n个目的地；X_3n,t大于0表明船舶在t时刻属于在持续靠近第n个目的地的状态。

5.根据权利要求1所述的竞争对手船舶运力预测方法，其特征在于，所述步骤S3中，利用获得的批量标注数据集训练KNN最邻近模型和LightGBM模型的过程具体包括：

S302：使用批量标注AIS历史数据的KNN训练集构建KNN最近邻模型，自变量为按最佳时间长度C切分后的经纬度序列L_*,t，*表示所有的历史航线，因变量为经纬度序列L_*,t对应的目的地标注Y_·,t，其中，·表示所有的目的地，其中C为最佳长度参数；

6.根据权利要求5所述的竞争对手船舶运力预测方法，其特征在于，步骤S303中，在使用LightGBM测试数据集测试LightGBM模型时，若选出的若干条历史航线中有部分航线的目的地相同，则以目的地为分组维度对预测概率求平均值，得到竞争对手船舶去该目的地的最终预测概率。

7.根据权利要求1所述的竞争对手船舶运力预测方法，其特征在于，所述步骤S4中，预测竞争对手船舶运力具体包括：

S402：模型给出预测概率后，对所述任一船舶在t时刻的由K条历史航线得到的预测概率以目的地为分组维度求平均值，得到它在t时刻的去往N个目的地的预测值向量

其中，K取值自然数，N取值自然数；

S403：将预测值向量

即得去往各目的地的概率

其中：

sign([X_3,t,X_6,t,…,X_3N,t])为符号函数；

8.根据权利要求1所述的竞争对手船舶运力预测方法，其特征在于，步骤S3中，所述批量标注数据集包括步骤S1获得的船舶定位AIS历史数据和对船舶定位AIS数据进行特征工程和数据标注得到的数据。

9.根据权利要求1所述的竞争对手船舶运力预测方法，其特征在于，步骤S3中，省略使用KNN最邻近模型对历史航线数据进行初步筛选的步骤，将所有历史航线数据都参与模型构建和目的地预测。

10.包含计算机执行指令的计算机可读介质，其特征在于，所述计算机执行指令经由数据处理设备处理时，该数据处理设备执行权利要求1～9任一项所述的竞争对手船舶运力预测方法。