CN114490913A

CN114490913A - 一种船舶进港状态的确定方法、确定装置和电子设备

Info

Publication number: CN114490913A
Application number: CN202210135874.2A
Authority: CN
Inventors: 熊建军; 何渝君; 许振乾; 程明; 何丹; 郭子豪; 刘维; 王超; 段奇; 邬明罡
Original assignee: Hanyun Technology Co Ltd
Current assignee: Hanyun Technology Co Ltd
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2022-05-13

Abstract

本申请提供了一种船舶进港状态的确定方法、确定装置和电子设备，该确定方法包括：确定出待预测船舶的目标经纬度坐标；确定出第一行驶数据和第一报港数据；将根据每个第一行驶数据确定出行驶时长，根据与该第一行驶数据具有相同采集时间的第一报港数据确定出的停泊时长，确定为用于判断待预测船舶是否处于异常行驶状态的时长信息组；针对于每个时长信息组，将不符合正态分布需求的时长信息组对应的时间区间确定为待预测船舶的异常行驶时间段；并将待预测船舶在异常行驶时间段内的异常行驶数据输入至报港行为预测模型中，确定待预测船舶在异常行驶时间段内的进港状态。根据所述确定方法和确定装置，可以提高船舶进港状态预测结果的准确性。

Description

一种船舶进港状态的确定方法、确定装置和电子设备

技术领域

本申请涉及数据处理领域，具体而言，涉及一种船舶进港状态的确定方法、确定装置和电子设备。

背景技术

报港指的是船舶在进出港口时向海事部门进行上报的行为，当船舶在抵达港口或驶离港口时，应通过报港系统进行报港，以使海事部门根据报港数据来进行相关信息的统计。

在实际行驶过程中，有的船舶在进出港口时存在不上报进港或离港数据的情况，这将会导致海事部门所获取到的报港数据不准确，因此，需要人工地进行甄别与判断，确定船舶是否进港口。人工甄别需要港航管理人员根据船舶的行驶数据，人工地筛选出异常船舶，进而，通过联系异常船舶的相关人员，确定该异常船舶是否进入港口。但是，由于在港口内作业的船舶数量较多，人工甄别的方式会消耗掉大量的人力资源，并且，还会存在遗漏统计的情况，致使进港状态的预测结果不够准确。

发明内容

有鉴于此，本申请的目的在于提供一种船舶进港状态的确定方法、确定装置和电子设备，可根据待预测船舶的历史行驶数据和历史报港数据，对该待预测船舶的进港状态进行预测，可以有效提高船舶进港状态预测结果的准确性。

本申请实施例提供了一种船舶进港状态的确定方法，所述确定方法包括：

基于待预测船舶的至少一条历史行驶数据中的行驶经纬度坐标和至少一条历史报港数据中的泊位经纬度坐标，确定出所述待预测船舶有进港趋势的目标经纬度坐标；

根据所述目标经纬度坐标，从所述至少一条历史行驶数据中确定出至少一条第一行驶数据，以及从所述至少一条历史报港数据中确定出至少一条第一报港数据；

针对于每条第一行驶数据，从所述至少一条第一报港数据中确定出与该第一行驶数据具有相同采集时间的第一报港数据；

将根据该第一行驶数据确定出的行驶时长，以及根据与该第一行驶数据具有相同采集时间的第一报港数据确定出的停泊时长，确定为用于判断所述待预测船舶是否处于异常行驶状态的时长信息组；

针对于每个时长信息组，对该时长信息组进行正态分布分析，将不符合正态分布需求的时长信息组对应的时间区间确定为所述待预测船舶的异常行驶时间段；

根据所述待预测船舶的船舶类型获取训练好的报港行为预测模型，并将所述待预测船舶在异常行驶时间段内的异常行驶数据输入至所述报港行为预测模型中，确定所述待预测船舶在所述异常行驶时间段内的进港状态。

进一步的，所述基于待预测船舶的至少一条历史行驶数据的行驶经纬度坐标和至少一条历史报港数据的泊位经纬度坐标，确定出所述待预测船舶有进港趋势的目标经纬度坐标，包括：

针对于每个行驶经纬度坐标，确定该行驶经纬度坐标对应的地点所位于目标港口区域内的第一目标网格区域；

将所述第一目标网格区域对应的网格编码确定为该行驶经纬度坐标对应的轨迹网格编码；

针对于每个泊位经纬度坐标，确定该泊位经纬度坐标对应的地点所位于所述目标港口区域内的第二目标网格区域，以及位于所述第二目标网格区域周围的多个第三目标网格区域；

将所述第二目标网格区域对应的网格编码和所述多个第三目标网格区域对应的网格编码确定为该泊位经纬度坐标对应的泊位网格编码；

针对于每个轨迹网格编码，判断该轨迹网格编码与多个泊位网格编码中的任意一个泊位网格编码是否相同；

若是，则将该轨迹网格编码对应的行驶经纬度坐标确定为所述目标经纬度坐标。

进一步的，通过以下步骤判断该时长信息组是否符合所述正态分布需求：

针对于该时长信息组中的行驶时长，判断该行驶时长是否符合所述正态分布需求；

若否，则认为该时长信息组不符合所述正态分布需求；

若是，则针对于该时长信息组中的停泊时长，判断该停泊时长是否符合所述正态分布需求；

若否，则认为该时长信息组不符合所述正态分布需求；

若是，则认为该时长信息组符合所述正态分布需求；

或者，

针对于该时长信息组中的停泊时长，判断该停泊时长是否符合所述正态分布需求；

若否，则认为该时长信息组不符合所述正态分布需求；

若是，则针对于该时长信息组中的行驶时长，判断该行驶时长是否符合所述正态分布需求；

若否，则认为该时长信息组不符合所述正态分布需求；

若是，则认为该时长信息组符合所述正态分布需求；

或者，

分别判断该时长信息组中的行驶时长和停泊时长是否符合所述正态分布需求；

若所述行驶时长和所述停泊时长中任一信息不符合所述正态分布需求，则认为该时长信息组不符合所述正态分布需求。

进一步的，通过以下步骤判断该行驶时长是否符合所述正态分布需求：

确定多个行驶时长之间的第一标准差；

判断该行驶时长与所述第一标准差之间的比值是否达到第一阈值；

若是，则认为该行驶时长不符合所述正态分布需求。

进一步的，通过以下步骤判断该停泊时长是否符合所述正态分布需求：

确定多个停泊时长之间的第二标准差；

判断该停泊时长与所述第二标准差之间的比值是否达到第二阈值；

若是，则认为该停泊时长不符合所述正态分布需求。

进一步的，通过以下方式训练所述报港行为预测模型：

针对于每种船舶类型，获取该船舶类型对应的样本数据，其中，所述样本数据包括该船舶类型对应的每条船舶的船舶静态数据、原始行驶数据以及原始报港数据，其中，所述原始报港数据中包括原始进港状态；

基于该种船舶类型对应的样本数据训练基于xgboost算法的原始分类模型，以得到该船舶类型对应的报港行为预测模型。

进一步的，所述基于该种船舶类型对应的样本数据训练基于xgboost算法的原始分类模型，以得到该船舶类型对应的报港行为预测模型，包括：

确定出每个数据特征与预测结果之间的负相关程度，并从多个数据特征中确定出负相关程度最高的第一数据特征；其中，所述预测结果为待预测船舶的进场状态；

确定出每个数据特征的重要指数，并从多个数据特征中确定出重要指数最低的第二数据特征；

将所述第一数据特征和所述第二数据特征所对应的特征样本数据从所述样本数据中删除，以得到删除后的样本数据；

根据所述删除后的样本数据确定出训练样本集和测试样本集；

基于所述训练样本集构建所述原始分类模型；

根据所述测试样本集，利用网格搜索对所述原始分类模型进行超参数学习，直到所述原始分类模型的得分达到得分阈值，则将得分达到得分阈值时的原始分类模型确定为该船舶类型对应的报港行为预测模型。

第二方面，本申请实施例还提供了一种船舶进港状态的确定装置，所述确定装置包括：

经纬度坐标确定模块，用于基于待预测船舶的至少一条历史行驶数据的行驶经纬度坐标和至少一条历史报港数据的泊位经纬度坐标，确定出所述待预测船舶有进港趋势的目标经纬度坐标；

第一数据确定模块，用于根据所述目标经纬度坐标，从所述至少一条历史行驶数据中确定出至少一条第一行驶数据，以及从所述至少一条历史报港数据中确定出至少一条第一报港数据；

第二数据确定模块，针对于每条第一行驶数据，从所述至少一条第一报港数据中确定出与该第一行驶数据具有相同采集时间的第一报港数据；

时长信息组确定模块，用于将根据该第一行驶数据确定出的行驶时长，以及根据与该第一行驶数据具有相同采集时间的第一报港数据确定出的停泊时长，确定为用于判断所述待预测船舶是否处于异常行驶状态的时长信息组；

异常行驶时间段确定模块，用于针对于每个时长信息组，对该时长信息组进行正态分布分析，将不符合正态分布需求的时长信息组对应的时间区间确定为所述待预测船舶的异常行驶时间段；

进港状态预测模块，用于根据所述待预测船舶的船舶类型获取训练好的报港行为预测模型，并将所述待预测船舶在异常行驶时间段内的异常行驶数据输入至所述报港行为预测模型中，确定所述待预测船舶在所述异常行驶时间段内的进港状态。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的船舶进港状态的确定方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的船舶进港状态的确定方法的步骤。

本申请实施例提供的船舶进港状态的确定方法，基于待预测船舶的行驶经纬度坐标和泊位经纬度坐标，确定出有进港趋势的目标经纬度坐标，再根据目标经纬度坐标，确定出至少一条第一行驶数据和至少一条第一报港数据。针对于每条第一行驶数据，和与该第一行驶数据的采集时间相同的第一报港数据确定出驾驶时长和停泊时长，进而确定出时长信息组。针对于每个时长信息组，对该时长信息组进行正态分布分析，确定出待预测船舶的异常行驶时间段，采用正态分布离群值检查方式查找异常区间，可以减少报港数据和行驶数据之间进行融合的数据范围，并且准确筛选出异常行驶船舶的异常行驶时间段，并且最终在预测待预测船舶的进港状态时仅对异常行驶时间段进行预测。将待预测船舶在异常行驶时间段内的异常行驶数据输入至训练好的报港行为预测模型中，确定出待预测船舶在异常行驶时间段内的进港状态。根据本申请提供的船舶进港状态的确定方法，与现有技术中的确定方法相比，大大提高了船舶进港状态预测结果的准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种船舶进港状态的确定方法的流程图；

图2为本申请实施例所提供的目标经纬度坐标的确定方法的流程图；

图3为本申请实施例所提供的一种船舶进港状态的确定装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

在实际行驶过程中，有的船舶在进出港口时存在不上报进港或离港数据的情况，这将会导致海事部门所获取到的报港数据不准确。因此，有两种方法来判断船舶是否进港，第一种是人工地进行甄别与判断，第二种是利用算法统计来进行甄别与判断，确定船舶是否进港口。在人工甄别时，需要港航管理人员根据船舶的行驶数据，人工地筛选出异常船舶，进而，通过联系异常船舶的相关人员，确定该异常船舶是否进入港口。但是，由于在港口内作业的船舶数量较多，人工甄别的方式会消耗掉大量的人力资源，并且，还会存在遗漏统计的情况，致使进港状态的预测结果不够准确。

在算法统计时，需要提前人为设定的多个临界值参数，例如上下两条时间戳、停泊点经纬度与港口码头距离等，理论上行驶数据无法直接根据船速为0和上下两条轨迹数据大于某值来判断船舶是否处于在港状态，而且不同船舶的在港时间都有差异化和个性化。比如小船非常灵活，停靠时间非常短暂，有的船则停靠时间很长，因此在判断是否进港时经常会存在误判的情况。

基于此，本申请实施例提供了一种船舶进港状态的确定方法，解决了现有技术中对于船舶进港状态的预测不准确的问题。

请参阅图1，图1为本申请实施例所提供的一种船舶进港状态的确定方法的流程图。如图1中所示，本申请实施例提供的船舶进港状态的确定方法，包括：

S101，基于待预测船舶的至少一条历史行驶数据中的行驶经纬度坐标和至少一条历史报港数据中的泊位经纬度坐标，确定出所述待预测船舶有进港趋势的目标经纬度坐标。

需要说明的是，船舶是能航行或停泊于水域进行运输或作业的交通工具，按不同的使用要求而具有不同的技术性能、装备和结构型式。待预测船舶指的是需要进行预测的某一船舶。历史行驶数据指的是待预测船舶在历史行驶过程中所产生的行驶数据。具体的，历史行驶数据可以包括AIS数据。AIS系统是船舶自动识别系统(AutomaticIdentificationSystem)的简称，由岸基(基站)设施和船载设备共同组成，是一种新型的集网络技术、现代通讯技术、计算机技术、电子信息显示技术为一体的数字助航系统和设备。通过AIS系统，船舶能够在公用无线信道上向附近船舶和岸上主管机关持续发送其身份、位置、航向等AIS数据，AIS数据可以包括船舶的航速、经度、纬度、位置准确度、AIS时间戳等。行驶经纬度坐标即为历史行驶数据中的经度和纬度。历史报港数据指的是待预测船舶在历史进出港时，报到海事部门的相关数据，历史报港数据可以包括船舶标识号、船舶MMSI(Maritime Mobile Service Identify，水上移动通信业务标识码)、进港标识、进港时间、出港时间、港口、港口泊位经度、港口泊位纬度等。泊位经纬度坐标即为历史报港数据中的港口泊位经度和港口泊位纬度。有进港趋势的目标经纬度坐标指的是待预测船舶将要近邻目标港口时的经纬度坐标。目标港口即是待预测港口即将抵达的港口。这里，在具体实施时，每条历史行驶数据和每条历史报港数据都携带有船舶标识号，每个不同的船舶标识号代表不同的船舶。在具体实施时，每条船舶都会有各自的船舶标识号，船舶标识号是指用于永久识别船舶的唯一代码，为便于船舶识别，加强船舶管理，维护水上交通安全，保护水环境。获取到的每条历史行驶数据和历史报港数据都会携带有船舶标识号，用于区分哪条历史数据属于哪条船舶。

这里，应注意，上述对历史行驶数据和历史报港数据中所包含的数据的举例仅为实例，实际中，历史行驶数据历史报港数据中所包含的数据不限于上述例子。

针对上述步骤S101，在具体实施时，获取在历史时间内待预测船舶在历史行驶过程中所产生的至少一条历史行驶数据中的行驶经纬度坐标和至少一条历史报港数据中的泊位经纬度坐标，这里，可以获取过去五年内待预测船舶所产生的历史行驶数据和历史报港数据，也可以获取过去三个月内待预测船舶所产生的历史行驶数据和历史报港数据，对此本申请不做具体限定。然后，基于行驶经纬度坐标和泊位经纬度坐标，确定出待预测船舶有进港趋势的目标经纬度坐标。

请参阅图2，图2为本申请实施例所提供的目标经纬度坐标的确定方法的流程图。如图2中所示，所述基于待预测船舶的至少一条历史行驶数据的行驶经纬度坐标和至少一条历史报港数据的泊位经纬度坐标，确定出所述待预测船舶有进港趋势的目标经纬度坐标，包括：

S201，针对于每个行驶经纬度坐标，确定该行驶经纬度坐标对应的地点所位于目标港口区域内的第一目标网格区域。

需要说明的是，目标港口指的是待预测船舶预计抵达的目标港口，目标港口区域即为目标港口所处的位置在一定范围内所对应的区域。根据本申请提供的实施例，在具体实施时，待预测船舶会存在一个预计抵达的目标港口，但是在实际行驶过程中可能由于某种原因停泊到了非目标港口，当停泊到非目标港口时并不能算做待预测船舶处于进港状态，因此需要确定出来待预测船舶的目标港口和目标港口区域。第一目标网格区域指的是行驶经纬度坐标对应的地点所处的网格区域。

针对上述步骤S201，在具体实施时，首先需要确定待预测船舶的目标港口，进而确定目标港口所处的目标港口区域。然后，针对于每个行驶经纬度坐标，首先判断该行驶经纬度坐标是否位于目标港口区域内，若是，则根据行驶经纬度坐标确定所位于目标港口区域内的第一目标网格区域。这里，需要对目标范围内的经纬度范围按空间进行网格化划分，这里，目标范围可以是一个城市，也可以是一个海域范围，对此本申请不做具体限定。在进行网格化划分时，可以预设一个网格精度，例如网格精度为一千米，这样一个网格所对应的区域就是一千米*一千米的范围。若行驶经纬度坐标位于目标港口区域内，针对于目标港口区域内的所有网格区域，判断该行驶经纬度坐标位于哪一个网格区域，将落入的网格区域确定为第一目标网格区域。

S202，将所述第一目标网格区域对应的网格编码确定为该行驶经纬度坐标对应的轨迹网格编码。

需要说明的是，网格编码指的是网格区域对应的一个网格编码。作为一种可选的实施方式，可以采用GEOHASH开源编码规范进行对每个网格区域进行网格编码，编码长度为6位，每一个网格区域都有一个唯一的网格编码。使用GEOHASH对每个网格区域进行网格编码的方法在现有技术中详细说明，在此不再过多赘述。

这里，应注意，上述对网格编码方法的举例仅为实例，实际上，网格编码方法不限于上述例子。

针对上述步骤S202，在具体实施时，在确定出第一目标网格区域后，确定出该第一目标网格区域对应的网格编码，将该网格编码确定该行驶经纬度坐标对应的轨迹网格编码。

S203，针对于每个泊位经纬度坐标，确定该泊位经纬度坐标对应的地点所位于所述目标港口区域内的第二目标网格区域，以及位于所述第二目标网格区域周围的多个第三目标网格区域。

需要说明的是，第二目标网格区域即为泊位经纬度坐标对应的地点所处的网格区域。第三目标网格区域为位于第二目标网格区域周围的网格区域。

针对上述步骤S203，如何确定泊位经纬度坐标对应的地点所位于所述目标港口区域内的第二目标网格区域的描述与步骤S201中的描述相同，并且能达到相同的技术效果，对此不再赘述。在确定出第二目标网格区域后，还需确定位于第二目标网格区域周围的网格区域作为第三目标网格区域，例如，可以选择位于第二目标网格区域周围的八个网格区域作为第三目标网格区域，对此本申请不做具体限定。

S204，将所述第二目标网格区域对应的网格编码和所述多个第三目标网格区域对应的网格编码确定为该泊位经纬度坐标对应的泊位网格编码。

针对上述步骤S204，在具体实施时，在确定出第二目标网格区域和多个第三目标网格区域后，确定出第二目标网格区域对应的网格编码和多个第三目标网格区域对应的网格编码，将确定出的网格编码确定该行驶经纬度坐标对应的轨迹网格编码。

S205，针对于每个轨迹网格编码，判断该轨迹网格编码与多个泊位网格编码中的任意一个泊位网格编码是否相同。

针对上述步骤S205，在每个行驶经纬度坐标对应的轨迹网格编码和每个泊位经纬度坐标对应的泊位网格编码确定出后，针对于每个轨迹网格编码，判断该轨迹网格编码与多个泊位网格编码中的任意一个泊位网格编码是否相同，如果是，则执行步骤S206，相当于对应的行驶经纬度坐标与泊位经纬度坐标处于同一目标港口对应的区域内。

S206，若是，则将该轨迹网格编码对应的行驶经纬度坐标确定为所述目标经纬度坐标。

针对上述步骤S206，在具体实施时，若判断该轨迹网格编码与多个泊位网格编码中的任意一个泊位网格编码相同，则将轨迹网格编码对应的行驶经纬度坐标确定为目标经纬度坐标。

S102，根据所述目标经纬度坐标，从所述至少一条历史行驶数据中确定出至少一条第一行驶数据，以及从所述至少一条历史报港数据中确定出至少一条第一报港数据。

需要说明的是，第一行驶数据指的是历史行驶数据中经纬度坐标与目标经纬度坐标相同的行驶数据。第一报港数据指的是历史报港数据中经纬度坐标与目标经纬度坐标相同的报港数据。

针对上述步骤S102，由于历史行驶数据和历史报港数据中均带有经纬度坐标，因此在步骤S101中确定出目标经纬度坐标后，从至少一条历史行驶数据中确定出带有目标经纬度坐标的至少一条第一行驶数据。从至少一条历史报港数据中确定出带有目标经纬度坐标的至少一条第一报港数据。

S103，针对于每条第一行驶数据，从所述至少一条第一报港数据中确定出与该第一行驶数据具有相同采集时间的第一报港数据。

需要说明的是，采集时间指的是采集到行驶数据或报港数据的时间。这里，待预测船舶在行驶过程中所产生的行驶数据和报港数据均会带有采集时间。

针对上述步骤S103，在具体实施时，针对于每条第一行驶数据，判断该第一行驶数据的采集时间与每条第一报港数据中任意一条第一报港数据的采集时间是否相同，若相同，则从至少一条第一报港数据中确定出与该第一行驶数据具有相同采集时间的第一报港数据。

S104，将根据该第一行驶数据确定出的行驶时长，以及根据与该第一行驶数据具有相同采集时间的第一报港数据确定出的停泊时长，确定为用于判断所述待预测船舶是否处于异常行驶状态的时长信息组。

需要说明的是，行驶时长指的是待预测船舶在某次航行中的累积行驶时间。停泊时长指的是待预测船舶进入某个港口时的停留时间。时长信息组指的是包含行驶时长和停泊时长的一个数据组。异常行驶状态指的是待预测船舶在行驶过程中异常状态，例如在目标进港时刻未进港的状态。

针对上述步骤S104，在具体实施时，历史行驶数据中携带有待预测船舶在行驶过程中的行驶时长，历史报港数据中携带有待预测船舶在港口停泊的停泊时长，并且第一行驶数据是从历史行驶数据中确定出的，第一报港数据是从历史报港数据中确定出的。因此针对于每条第一行驶数据，即可确定出行驶时长，针对于每条与该第一行驶数据的采集时间相同的第一报港数据，即可确定出停泊时长。并且将确定出的第一行驶数据对应的行驶时长和与该第一行驶数据具有相同采集时间的第一报港数据对应的停泊时长确定用于判断待预测船舶是否处于异常行驶状态的时长信息组。

S105，针对于每个时长信息组，对该时长信息组进行正态分布分析，将不符合正态分布需求的时长信息组对应的时间区间确定为所述待预测船舶的异常行驶时间段。

需要说明的是，正态分布分析是对每个时长信息组进行数据分析。正态分布需求指的是预设的用于判断时长信息组是否处于异常的一个要求。异常行驶时间段指的是待预测船舶未正常行驶或未正常进港时对应的一个时间段。

针对上述步骤S105，在具体实施时，针对于每个时间信息组，对该时长信息组进行正态分布分析，判断该时间信息组是否符合正态分布需求，若不符合，则将不符合正态分布需求的时长信息组对应的时间区间确定为待预测船舶的异常行驶时间段。这里，可以根据不符合正态分布需求的时长信息组对应的时间区间来确定异常行驶的开始时间点和结束时间点，再根据开始时间点和结束时间点确定异常行驶时间段。

作为一种可选的实施方式，针对上述步骤S105，由于时长信息组中包括两个时长数据，如果其中一个时长数据不符合正态分布需求，则认为该时长信息组不符合正态分布需求。因此在判断该时长信息组是否符合所述正态分布需求时，包括以下三种方法：

方法一：针对于该时长信息组中的行驶时长，判断该行驶时长是否符合所述正态分布需求；若否，则认为该时长信息组不符合所述正态分布需求；若是，则针对于该时长信息组中的停泊时长，判断该停泊时长是否符合所述正态分布需求；若否，则认为该时长信息组不符合所述正态分布需求；若是，则认为该时长信息组符合所述正态分布需求。

在方法一中，先判断该时长信息组中的行驶时长是否符合正态分布需求，若不符合正态分布需求，则直接判定该时长信息组不符合正态分布需求，无需在对该时长信息组中的停泊时长进行判断。若行驶时长符合正态分布需求，则判断停泊时长是否符合正态分布需求。若停泊时长不符合正态分布需求，则判定该时长信息组不符合正态分布需求，若停泊时长符合正态分布需求，则认为该时长信息组符合正态分布需求。

方法二：针对于该时长信息组中的停泊时长，判断该停泊时长是否符合所述正态分布需求；若否，则认为该时长信息组不符合所述正态分布需求；若是，则针对于该时长信息组中的行驶时长，判断该行驶时长是否符合所述正态分布需求；若否，则认为该时长信息组不符合所述正态分布需求；若是，则认为该时长信息组符合所述正态分布需求；

在方法二中，先判断该时长信息组中的停泊时长是否符合正态分布需求，若不符合正态分布需求，则直接判定该时长信息组不符合正态分布需求，无需在对该时长信息组中的行驶时长进行判断。若停泊时长符合正态分布需求，则判断行驶时长是否符合正态分布需求。若行驶时长不符合正态分布需求，则判定该时长信息组不符合正态分布需求，若行驶时长符合正态分布需求，则认为该时长信息组符合正态分布需求。

方法三：分别判断该时长信息组中的行驶时长和停泊时长是否符合所述正态分布需求；若所述行驶时长和所述停泊时长中任一信息不符合所述正态分布需求，则认为该时长信息组不符合所述正态分布需求。

在方法三中，分别判断判断该时长信息组中的行驶时长和停泊时长是否符合正态分布需求，若其中一个信息不符合正态分布需求，行驶时长不符合正态分布需求或停泊时长不符合正态分布需求，则认为该时长信息组不符合正态分布需求。

作为一种可选的实施方式，通过以下步骤判断该行驶时长是否符合所述正态分布需求：

A：确定多个行驶时长之间的第一标准差。

需要说明的是，标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。

针对上述步骤A，由于确定出了多个第一行驶数据，也就存在多个行驶时长，根据确定出的多个行驶时长确定第一标准差。这里，如何计算多个数据之间的标准差在现有技术中详细说明，在此不再赘述。

B：判断该行驶时长与所述第一标准差之间的比值是否达到第一阈值。

需要说明的是，第一阈值指的是提前预设好的，用于判断行驶时长是否符合正态分布需求的阈值。例如，第一阈值可以设定为3，对此本申请不做具体限定。

针对上述步骤B，在具体实施时，在确定出第一标准差后，判断该行驶时长与第一标准差之间的比值是否达到了第一阈值，也就是判断行驶时长是否达到了第一标准差的预设倍数，若是，则执行步骤C。

C：若是，则认为该行驶时长不符合所述正态分布需求。

针对上述步骤C，在具体实施时，若判断出该行驶时长与第一标准差之间的比值达到了第一阈值，则认为该行驶时长不符合所述正态分布需求。

作为一种可选的实施方式，通过以下步骤判断该停泊时长是否符合所述正态分布需求：

a：确定多个停泊时长之间的第二标准差。

针对上述步骤a，由于确定出了多个第一停泊数据，也就存在多个停泊时长，根据确定出的多个停泊时长确定第二标准差。这里，如何计算多个数据之间的标准差在现有技术中详细说明，在此不再赘述。

b：判断该停泊时长与所述第二标准差之间的比值是否达到第二阈值。

需要说明的是，第二阈值指的是提前预设好的，用于判断停泊时长是否符合正态分布需求的阈值。例如，第一阈值可以设定为3，对此本申请不做具体限定。

针对上述步骤b，在具体实施时，在确定出第二标准差后，判断该停泊时长与第二标准差之间的比值是否达到了第二阈值，也就是判断停泊时长是否达到了第二标准差的预设倍数，若是，则执行步骤C。

c：若是，则认为该停泊时长不符合所述正态分布需求。

针对上述步骤c，在具体实施时，若判断出该停泊时长与第二标准差之间的比值达到了第二阈值，则认为该行驶时长不符合所述正态分布需求。

S106，根据所述待预测船舶的船舶类型获取训练好的报港行为预测模型，并将所述待预测船舶在异常行驶时间段内的异常行驶数据输入至所述报港行为预测模型中，确定所述待预测船舶在所述异常行驶时间段内的进港状态。

需要说明的是，船舶类型指的是待预测船舶所属的船舶种类。按不同的分类方法也会存在不同的船舶类型，例如按用途分，有民用船和军用船；按船体材料，有木船、钢船、水泥船和玻璃钢船等；按航行的区域分，有远洋船、近洋船、沿海船和内河船等；按动力装置分，有蒸汽机船、内燃机船、汽轮船和核动力船等；按推进方式分，有明轮船、螺旋桨船、平旋推进器船和风帆助航船等；按航进方式分，有自航船和非自航船；按航行状态分，有排水型船和非排水型船。异常行驶数据指的是待预测船舶在异常行驶时间段内的历史行驶数据。报港行为预测模型指的是用来预测待预测船舶的进港状态的模型。进港状态可以包括待预测船舶已经进港和待预测船舶未进港。

针对上述步骤S106，在具体实施时，在步骤S105中确定出了待预测船舶的异常行驶时间段后，从历史行驶数据中获取在该异常行驶时间段中该待预测船舶的异常行驶数据。再根据待预测船舶的船舶类型获取与该船舶类型对应的报港行为预测模型，并将待预测船舶在异常行驶时间段内的异常行驶数据输入至该报港行为预测模型中，以确定出该待预测船舶在异常行驶时间段内的进港状态。这里，在进行模型构建和训练的过程中，样本数据中既包含行驶数据，又包含报港数据，这样可以使行驶数据和报港数据进行融合，使用船舶进出港的行为特征和船舶本身的机械特征进行模型训练，能更精准的对报港临界值进行学习，更准确的对报港行为进行判断。

作为一种可选的实施方式，通过以下方式训练所述报港行为预测模型：

步骤1061，针对于每种船舶类型，获取该船舶类型对应的样本数据。

需要说明的是，样本数据指的是用于构建和训练报港行为预测模型的每一条训练数据。根据本申请提供的实施例，样本数据中可以包括该船舶类型对应的每条船舶的船舶静态数据、原始行驶数据以及原始报港数据。这里，船舶静态数据指的是船舶的信息数据，例如船舶吨位、船舶长度和发动机功率等数据。原始行驶数据指的是船舶在行驶状态下的行驶数据，原始行驶数据中包含的数据类型与本申请上述实施例中提到的历史行驶数据中包含的数据类型相同，在此不再过多赘述。原始报港数据指的是船舶在正常进出港的状态下的报港数据，原始报港数据中包含的数据类型与本申请上述实施例中提到的历史报港数据中包含的数据类型相同，在此不再过多赘述。原始报港数据中还包括原始进港状态，也就是船舶在正常进出港的状态下是否进港。

针对上述步骤1061，针对每种船舶类型，获取用于训练报港行为预测模型的、该船舶类型对应的所有样本数据，包括该船舶类型对应的每条船舶的船舶静态数据、原始行驶数据以及原始报港数据。

步骤1062，基于该种船舶类型对应的样本数据训练基于xgboost算法的原始分类模型，以得到该船舶类型对应的报港行为预测模型。

需要说明的是，原始分类模型指的是用于预测待预测船舶的进港状态的原始模型。

针对上述步骤1062，在具体实施时，利用该种船舶类型对应的样本数据训练基于xgboost算法的原始分类模型，以得到该船舶类型对应的报港行为预测模型。作为一种可选的实施方式，所述基于该种船舶类型对应的样本数据训练基于xgboost算法的原始分类模型，以得到该船舶类型对应的报港行为预测模型，包括：

步骤10621，确定出每个数据特征与预测结果之间的负相关程度，并从多个数据特征中确定出负相关程度最高的第一数据特征。

需要说明的是，预测结果指的是待预测船舶的进场状态。数据特征指的是样本数据中所包含的各种数据特征，例如船舶长度、船舶航速、船舶航向等。负相关程度指的是数据特征与预测结果之间的负相关性。第一数据特征指的是在样本数据的所有数据特征中，与预测结果之间负相关性最高的数据特征。

针对上述步骤10621，在具体实施时，针对于样本数据中的每个数据特征，确定出该数据特征与预测结果之间的负相关程度，具体的，可以利用数据探索分析的方法计算数据特征的负相关程度。首先计算每个数据特征平均值，中位数，众数，最小值，最大值，四分位数，标准差；然后再计算两个数据特征间皮尔逊相关系数相关性系数；并计算样本数据中类别特征进行各个特征出现的频数和占比，最终从多个数据特征中确定出负相关程度最高的第一数据特征。

这里，应注意，上述对于计算负相关程度的方法的描述仅为举例。实际中，计算负相关程度的方法不限于上述例子。

步骤10622，确定出每个数据特征的重要指数，并从多个数据特征中确定出重要指数最低的第二数据特征。

需要说明的是，重要指数指的是数据特征对于预测结果的重要程度。第二数据特征指的是在样本数据的所有数据特征中，与对于预测结果的重要程度最低的数据特征。

针对上述步骤10622，在具体实施时，针对于样本数据中的每个数据特征，确定出该数据特征的重要指数。具体的，可以利用特征重要性评估的方法计算数据特征的重要指数。XBG提供3种方式进行特征重要性评估，weight(特征重要性使用特征在所有树中作为划分属性的次数)、gain(特征重要性使用特征在作为划分属性时loss平均的降低量)、cover(特征重要性使用特征在作为划分属性时对样本的覆盖度。根据本申请提供的实施例，需要采用cover：XGBRFClassifier(importance_type＝'cover')进行数据特征重要性评估，计算出数据特征的重要指数。最终从多个数据特征中确定出重要指数最低的第二数据特征。

这里，应注意，上述对于计算重要指数的方法的描述仅为举例。实际中，计算重要指数的方法不限于上述例子。

步骤10623，将所述第一数据特征和所述第二数据特征所对应的特征样本数据从所述样本数据中删除，以得到删除后的样本数据。

针对上述步骤10623，在第一数据特征和第二数据特征确定出后，将第一数据特征和第二数据特征所对应的特征样本数据从样本数据中删除，以得到删除后的样本数据。这样得到的删除后的样本数据中，排除了对预测结果不相关且不敏感的数据特征，这样在后续建立和训练模型时，可以提高模型训练的准确性。

步骤10624，根据所述删除后的样本数据确定出训练样本集和测试样本集。

需要说明的是，训练样本集指的是用于构建模型的样本数据。测试样本集指的是用于训练模型的样本数据。

针对上述步骤10624，在具体实施时，确定出删除后的样本数据后，根据删除后的样本数据确定出训练样本集和测试样本集。作为一种可选的实施方式，可以将删除后的样本数据进行比例划分，例如进行7:3的比例划分，也就是70％的删除后的样本数据作为训练样本集，30％的删除后的样本数据作为测试样本集。

步骤10625，基于所述训练样本集构建所述原始分类模型。

针对上述步骤10625，在具体实施时，基于步骤10624确定出的训练样本集，构建基于xgboost算法的原始分类模型。这里，如何使用样本数据构建基于xgboost算法的原始分类模型在现有技术中详细说明，在此不再过多赘述。

步骤10626，根据所述测试样本集，利用网格搜索对所述原始分类模型进行超参数学习，直到所述原始分类模型的得分达到得分阈值，则将得分达到得分阈值时的原始分类模型确定为该船舶类型对应的报港行为预测模型。

需要说明的是，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，在机器学习过程中需要对超参数进行优化，给学习器选择一组最优超参数，以提高学习的性能和效果。比如，树的数量或树的深度，学习率(多种模式)、正则化权重以及调节样本均衡度等都是超参数。超参数学习指的是在模型训练过程中的参数最优化，一般都是对参数的可能值进行有效搜索，然后用评价函数选取出最优参数。评价指标可以根据需要选择accuracy、f1-score、f-beta、percision、recall等，对此本申请不做具体限定。网格搜索指的是在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果得分阈值指的是提前预设好的，用于判断原始分类模型是否达到训练标准的一个数值。

针对上述步骤10626，在具体实施时，基于步骤10624确定出的测试样本集，利用网格搜索的方法对原始分类模型进行超参数学习，并使用评价函数计算原始分类模型的得分，直到原始分类模型的得分达到了得分阈值，这时认为原始分类模型得到达到了训练标准，并将得分达到得分阈值时的原始分类模型确定为该船舶类型对应的报港行为预测模型。

这样，在报港行为预测模型训练好后，即可将待预测船舶在异常行驶时间段内的异常行驶数据输入至训练好的报港行为预测模型中，即可预测出待预测船舶在异常行驶时间段内的进港状态。

请参阅图3，图3为本申请实施例所提供的一种船舶进港状态的确定装置的结构示意图。如图3所示，所述确定装置300包括：

经纬度坐标确定模块301，用于基于待预测船舶的至少一条历史行驶数据的行驶经纬度坐标和至少一条历史报港数据的泊位经纬度坐标，确定出所述待预测船舶有进港趋势的目标经纬度坐标；

第一数据确定模块302，用于根据所述目标经纬度坐标，从所述至少一条历史行驶数据中确定出至少一条第一行驶数据，以及从所述至少一条历史报港数据中确定出至少一条第一报港数据；

第二数据确定模块303，用于针对于每条第一行驶数据，从所述至少一条第一报港数据中确定出与该第一行驶数据具有相同采集时间的第一报港数据；

时长信息组确定模块304，用于将根据该第一行驶数据确定出的行驶时长，以及根据与该第一行驶数据具有相同采集时间的第一报港数据确定出的停泊时长，确定为用于判断所述待预测船舶是否处于异常行驶状态的时长信息组；

异常行驶时间段确定模块305，用于针对于每个时长信息组，对该时长信息组进行正态分布分析，将不符合正态分布需求的时长信息组对应的时间区间确定为所述待预测船舶的异常行驶时间段；

进港状态预测模块306，用于根据所述待预测船舶的船舶类型获取训练好的报港行为预测模型，并将所述待预测船舶在异常行驶时间段内的异常行驶数据输入至所述报港行为预测模型中，确定所述待预测船舶在所述异常行驶时间段内的进港状态。

进一步的，所述经纬度坐标确定模块301在用于基于待预测船舶的至少一条历史行驶数据的行驶经纬度坐标和至少一条历史报港数据的泊位经纬度坐标，确定出所述待预测船舶有进港趋势的目标经纬度坐标时，所述经纬度坐标确定模块301用于：

进一步的，所述异常行驶时间段确定模块305通过以下步骤判断该时长信息组是否符合所述正态分布需求：

若否，则认为该时长信息组不符合所述正态分布需求；

若是，则认为该时长信息组符合所述正态分布需求；

或者，

若否，则认为该时长信息组不符合所述正态分布需求；

若是，则认为该时长信息组符合所述正态分布需求；

或者，

进一步的，所述异常行驶时间段确定模块305通过以下步骤判断该行驶时长是否符合所述正态分布需求：

确定多个行驶时长之间的第一标准差；

若是，则认为该行驶时长不符合所述正态分布需求。

进一步的，所述异常行驶时间段确定模块305通过以下步骤判断该停泊时长是否符合所述正态分布需求：

确定多个停泊时长之间的第二标准差；

若是，则认为该停泊时长不符合所述正态分布需求。

进一步的，所述进港状态预测模块306通过以下方式训练所述报港行为预测模型：

进一步的，所述进港状态预测模块306在用于基于该种船舶类型对应的样本数据训练基于xgboost算法的原始分类模型，以得到该船舶类型对应的报港行为预测模型时，所述进港状态预测模块306还用于：

基于所述训练样本集构建所述原始分类模型；

请参阅图4，图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示，所述电子设备400包括处理器410、存储器420和总线430。

所述存储器420存储有所述处理器410可执行的机器可读指令，当电子设备400运行时，所述处理器410与所述存储器420之间通过总线430通信，所述机器可读指令被所述处理器410执行时，可以执行如上述图1以及图2所示方法实施例中的船舶进港状态的确定方法的步骤，解决了现有技术中对于船舶进港状态的预测不准确的问题，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的船舶进港状态的确定方法的步骤，解决了现有技术中对于船舶进港状态的预测不准确的问题，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种船舶进港状态的确定方法，其特征在于，所述确定方法包括：

2.根据权利要求1所述的确定方法，其特征在于，所述基于待预测船舶的至少一条历史行驶数据的行驶经纬度坐标和至少一条历史报港数据的泊位经纬度坐标，确定出所述待预测船舶有进港趋势的目标经纬度坐标，包括：

3.根据权利要求1所述的确定方法，其特征在于，通过以下步骤判断该时长信息组是否符合所述正态分布需求：

若否，则认为该时长信息组不符合所述正态分布需求；

若是，则认为该时长信息组符合所述正态分布需求；

或者，

若否，则认为该时长信息组不符合所述正态分布需求；

若是，则认为该时长信息组符合所述正态分布需求；

或者，

4.根据权利要求3所述的确定方法，其特征在于，通过以下步骤判断该行驶时长是否符合所述正态分布需求：

确定多个行驶时长之间的第一标准差；

若是，则认为该行驶时长不符合所述正态分布需求。

5.根据权利要求3所述的确定方法，其特征在于，通过以下步骤判断该停泊时长是否符合所述正态分布需求：

确定多个停泊时长之间的第二标准差；

若是，则认为该停泊时长不符合所述正态分布需求。

6.根据权利要求1所述的确定方法，其特征在于，通过以下方式训练所述报港行为预测模型：

7.根据权利要求6所述的确定方法，其特征在于，所述基于该种船舶类型对应的样本数据训练基于xgboost算法的原始分类模型，以得到该船舶类型对应的报港行为预测模型，包括：

基于所述训练样本集构建所述原始分类模型；

8.一种船舶进港状态的确定装置，其特征在于，所述确定装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的船舶进港状态的确定方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的船舶进港状态的确定方法的步骤。