CN113326976B

CN113326976B - 一种基于时空关联的港口货运量在线预测方法及系统

Info

Publication number: CN113326976B
Application number: CN202110500422.5A
Authority: CN
Inventors: 鲍香台; 苏竹勋; 刘磊
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2022-11-15
Anticipated expiration: 2041-05-08
Also published as: CN113326976A

Abstract

本发明还公开了一种基于时空关联的港口短期货运量在线预测方法，包含如下步骤：首先获取目标港口和其他港口的过去预设时间段内的货运量数据，并对数据进行均值处理；接着目标港口和其他港口的货运量数据进行灰度关联分析，计算各港口关联度，选取相关度高于关联度阈值的其他港口划分数据并构建货运量时空预测模型；然后将划分好的训练数据输入模型中进行模型训练，训练后的模型用于预测目标港口的短期货运量。所述方法考虑相关港口的时空相关性，可以提高短期货运量预测的准确性，同时采用的GBDT在预测模型中具有最高的预测精度。

Description

一种基于时空关联的港口货运量在线预测方法及系统

技术领域

本发明涉及港口货运量预测领域，具体涉及一种基于时空关联的港口货运量在线预测方法及系统。

背景技术

港口货运量是指一定时期内港口实际运输的吨位，它是到达量和交付量的总和，是揭示港口经济状况以及港口地区经济活力的重要指标。货运量的预测可以根据不同的标准进行分类。按运输范围可分为全国货运需求预测，全国货运需求预测和各部门货运需求。关于预测内容，可以分为交货预测，到达预测和货运量预测。关于预测时间的长短，可以分为长期预测，中期预测和短期预测。但是，长期预测和短期预测之间没有明显的区别。通常，短期预测主要集中于每小时、每天、每周的货运量预测，可用于港口管理以管理人力资源和物质资源。相比之下，长期预测主要集中在年度货运量的预测上，可用于分析港口的长期目标以及港口基础设施的建设和规划。由于这两种预测的影响因素不同，并且它们的数据源也不同，因此预测方法也有所不同。

港口货运量的预测方法主要分为两类：一类是考虑港口货运量影响因素的预测模型，另一种是基于港口本身过去预设时间段内数据的时间序列预测。后者货运量预测方法可进一步分为基于移动平均的自回归模型和基于机器学习的方法。经过对多元线性回归模型、季节自回归移动平均模型(seasonal autoregressive integrated movingaverage， SARIMA)、人工神经网络(artificial neural network，ANN)和支持向量机(support vector machine，SVM)模型在货运量时间序列预测中的有效性进行对比研究，发现以SVM和 ANN表现最优，即机器学习的方法优于基于移动平均的方法。然而，目前预测方法中存在的不足，体现在两个方面：一是机器学习预测中没有充分考虑增强学习算法的预测方法；二是当前的方法主要还是依据时间序列的预测模型，没有考虑港口货运量空间上的关联性。基于此，本发明提出了一种基于时空关联的港口货运量在线预测方法及系统。

发明内容

发明目的：考虑港口货运量是空间关联特征，通过线上采集多个港口的过去预设时间段内的货运量数据，采用增强学习的方法来构建港口货运量预测模型，从而在提高港口货运量预测的准确性的基础上，实现对目标港口的下一阶段货运量的在线预测。

技术方案：为了实现上述目的，本发明采用如下技术方案：一种基于时空关联的港口货运量在线预测方法，该方法包括以下步骤：

步骤1，货运量数据准备，用于港口货运量时空关联分析及货运量预测的多个港口P＝[P₁,P₂,…,P_n]，过去预设时间段内的货运量数据

其中n为港口标识总数P_n表示第n个港口，i＝1,2,3,...,n，

表示第i个港口在k阶段的货运量， k＝1,2,3,...,t，t表示获取货运量数据的时间段，目标港口P₀的货运量数据用

表示，其中

表示目标港口在k阶段的货运量，k＝1,2,3,...,t，首次选择其他港口可根据其他港口距离目标港口的距离以及其他港口的等级进行选择，之后在完成一次关联分析和预测结果分析之后，可根据关联分析和预测结果分析进行差异选取；

步骤2，根据目标港口和其他港口过去预设时间段内的货运量数据，对目标港口和其他港口的货运量数据进行灰度关联分析，计算出各港口与目标港口的关联度，并设置关联度阈值δ，选取相关度高于关联度阈值的其他港口P′＝[P₁′,P₂′,…,P_l′]，其中l≤n，表示从n个港口中筛选出的用于预测的l个港口，并结合目标港口自身货运量数据

用于构建货运量时空预测模型；

步骤3，划分其他港口P′＝[P₁′,P₂′,…,P_l′]和目标港口P₀的数据，得到的训练样本用于训练模型；

步骤4，以GBDT模型构建货运量时空预测模型，并通过实验确定模型参数；

步骤5，训练模型，将划分好的训练数据输入模型中进行模型训练，完成相关港口与目标港口之间货运量关系的映射；

步骤6，以选取的其他港口P'和目标港口P₀过去预设时间段内的货运量数据为输入数据，输入训练完成的预测模型中，得到目标港口P₀下一阶段的货运量预测值。

进一步的：所述步骤2中，灰度关联分析包括以下五个步骤：

步骤2.1，确定反映系统行为的参考序列和影响系统行为的比较序列，港口货运量预测中，目标港口货运量时间序列数据

是参考序列，要分析的其他港口货运量时间序列数据

是比较序列；

步骤2.2，对于维度不同的各类系统数据，执行数据无量纲处理，即采用均值化方法处理所有货运量数据；

步骤2.3，计算相关系数，假设Δ_i(t)＝|y(t)-x_i(t)|，其中，t表示时间，i表示港口序列，则根据公式(1)计算港口P_i和目标港口P₀相关系数：

式中，ρ是分辨率系数，ρ越小则分辨率越强，ρ被设定为0.5；

步骤2.4，根据计算出的港口相关度，对港口进行相关性排序。

进一步的：所述步骤2.4中，在计算出目标港口P₀与其他港口P＝[P₁,P₂,…,P_n]之间的相关度之后，设置相关联度阈值δ以选择关联度高于阈值的港口 P′＝[P₁′,P₂′,…,P_l′]。关联度阈值可通过各个港口与目标港口的关联度分析结果获得，通过改变δ分析最后预测结果的变换情况来确定，δ＝0.85。

进一步的，所述步骤3中，对筛选过后的关联港口P′＝[P′₁,P′₂,…,P′_l]和目标港口 P′＝[P′₁,P′₂,…,P′_l]的过去预设时间段内货运量数据进行划分，确定模型时间维度

并据此将训练数据划分得到W个样本数据(x_j,y_j)，

j＝1,2,...,W，其中，T表示

中的数据长度，floor表示向下取整函数，(x_j,y_j)中x_j表示训练样本的输入数据，y_j表示训练样本的输出数据，其中，

表示第j个样本中第z个用于预测的港口P' 时间维度

内第

阶段的货运量数据，

表示第j个样本中第z个用于预测的港口P'时间维度

内第

阶段的货运量数据，z＝1,2,3...,l，l表示从n个港口中筛选出的用于预测的l个港口；

表示第j个样本中目标港口P₀时间维度

内第

阶段的货运量数据，

表示第j个样本中目标港口P₀时间维度

内第

阶段的货运量数据。

进一步的：所述步骤4中，具体地，假设货运量时空预测预测模型以函数F(x,P)表示，其中x表示模型输入数据，包含了模型输入的时空维度，P表示P′＝[P₁′,P₂′,…,P_l′] 和目标港口P₀的集合，用于表征输入到预测模型的港口，则目标港口P₀的货运量y'预测函数可表示为：

其中，

表示模型预测所确定的时间维度，

表示第z个用于预测的港口P'过去

时间内第

个阶段的货运量，

表示第z个用于预测的港口P'过去

时间内第t个阶段的货运量，

表示目标港口P₀过去

时间第

个阶段的货运量，

表示目标港口 P₀过去

时间第t个阶段的货运量。

进一步的：所述步骤5中，选择相关度不小于关联度阈值的关联港口过去预设时间段内的货运量训练样本

为输入，目标港口货运量训练样本

为预期输出进行GBDT预测模型训练，首先以公式(3)初始化弱学习器：

其中，L表示损失函数，y_j即为训练数据中目标港口货运量的值，γ表示拟合值，可通过对所有y_j取均值的方式计算，作为初始学习器；

接着对m＝1,2,...,M个分类器，对每个样本{x_j,y_j}^W，j＝1,2,...,W，以公式(4)计算负梯度，即残差r_jm：

将上步得到的残差r_jm作为样本新的真实值，并将数据(x_j,r_jm),j＝1,2,...,W作为下个回归树的训练数据，得到一棵新的回归树f_m(x)，其对应的叶子结点区域R_km,k＝1,2,...,K，其中，K为回归树的叶子节点的个数，对叶子区域k＝1,2,...,K以公式(5)计算最佳拟合值γ_km：

之后以公式(6)更新强学习器，式子中I表示单位矩阵：

最后得到最终学习器如公式(7)所示：

f(x)的值即为目标港口的货运量预测结果。

进一步的：所述步骤6中，具体地，以

表示用于预测的港口货运量数据集合，输入到货运量预测模型中，输出y′表示目标港口下一阶段的货运量预测结果。

本发明还提出一种基于时空关联的港口短期货运量在线预测系统，该系统包括数据采集模块、数据分析与预测模块、货运量预测结果图形可视化模块：

数据采集模块：采集用于港口货运量时空关联分析及货运量预测的多个港口 P＝[P₁,P₂,…,P_n]过去预设时间段内的货运量数据

其中，n为港口标识，即P_n表示第n个港口，i＝1,2,3,...,n，

表示第i个港口在k阶段的货运量， k＝1,2,3,...,t，目标港口P₀的货运量数据用

表示，其中，

表示目标港口在k阶段的货运量，k＝1,2,3,...,t；

数据分析与预测模块：对获得的各个港口原始货运量数据进行均值化处理，对处理后的各个港口货运量数据与目标港口货运量数据进行灰度关联分析，确定其他港口货运量与目标港口货运量之间的关联度，之后根据关联度阈值δ选择相关度高于关联度阈值的其他港口P′＝[P₁′,P₂′,…,P_l′]，并用P′中港口和目标港口的过去预设时间段内的货运量数据构建GBDT货运量时空预测模型，并根据港口对应的货运量数据对预测模型进行训练，最后根据预测模型的时空维度、P′中港口和目标港口对目标港口下一阶段货运量进行预测；

货运量预测结果图形可视化模块：通过图形结合数据展示货运量预测结果，同时展示目标港口和其他港口关联度分析结果，并将与目标港口货运量的关联度较高的其他港口反馈至数据采集模块，用于确定优先获取的港口货运量数据。

有益效果：相较于现有技术，本发明具有以下有益效果：

本发明提出的一种基于时空关联的港口货运量在线预测方法，利用目标港口和关联港口的时空相关性构建时空关联预测模型对目标港口货运量进行预测，克服了现有方法中对未能充分利用空间相关性的不足，有助于提高港口货运量预测的准确性。

附图说明

图1为本发明基于时空关联的港口短期货运量在线预测系统组成模块；

图2为本发明基于时空关联的港口短期货运量在线预测流程；

图3为本发明港口短期货运量预测模型示意；

图4为本发明GBDT预测模型训练过程；

图5为本发明实例中港口位置分布示意；

图6为本发明实例中重庆港和武汉港连续周货运量曲线；

图7为本发明实例中武汉港与其他港口的相关度曲线；

图8为本发明实例中GBDT模型参数的实验结果；

图9为本发明实例中四种模型预测结果的比较。

具体实施方式

下面结合附图将对本发明中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于时空关联的港口货运量在线预测系统，包括数据采集模块、数据分析与预测模块、货运量预测结果图形可视化模块；具体地：

其中，n为港口标识，即P_n表示第n个港口，i＝1,2,3,...,n，

表示，其中，

表示目标港口在k阶段的货运量，k＝1,2,3,...,t；

根据图2所示的基于时空关联的港口短期货运量在线预测流程，通过数据采集获取目标港口和相关港口的空间位置数据和过去预设时间段内的货运量数据，对数据均值处理后进行时空关联分析，选择不小于关联度阈值的关联港口和目标港口构建GBDT预测模型，并选取货运量数据进行GBDT模型训练，最终利用训练后的GBDT模型对目标港口进行货运量预测，并能够反馈预测和分析结果以优化原始数据的获取。由于本发明重点在于基于时空关联的港口短期货运量在线预测方法，因此对该方法流程进行详述。

其中n为港口标识总数P_n表示第n个港口，i＝1,2,3,...,n，

表示，其中

表示目标港口在k阶段的货运量，k＝1,2,3,...,t，初次选择其他港口可根据其他港口距离目标港口的距离以及其他港口的等级进行选择，之后在完成一次关联分析和预测结果分析之后，可根据关联分析和预测结果分析进行差异选取；

步骤2：根据目标港口和其他港口过去预设时间段内的货运量数据，对目标港口和其他港口的货运量数据进行灰度关联分析，计算出各港口与目标港口的关联度，并设置关联度阈值δ，选取相关度高于关联度阈值的其他港口P′＝[P₁′,P₂′,…,P_l′]，其中l≤n，并结合目标港口自身货运量数据

用于构建货运量时空预测模型；

进行灰度关联分析是根据一定的规则建立随时间变化的主序列，将每个评估对象随时间的变化作为子序列，从而得出各子序列与主序列之间的相关度。

首先确定反映系统行为的参考序列和影响系统行为的比较序列，港口货运量预测中，目标港口货运量时间序列数据

是参考序列，要分析的其他港口货运量时间序列数据

是比较序列；

进一步地，对于维度不同的各类系统数据，执行数据无量纲处理，即采用均值化方法处理所有货运量数据；

进一步地，计算相关系数，假设Δ_i(t)＝|y(t)-x_i(t)|，其中t表示时间，i表示港口序列，则根据公式(1)计算港口P_i和目标港口P₀相关系数：

式中，ρ是分辨率系数，ρ越小则分辨率越强，通常ρ被设定为0.5。

进一步地，根据计算出的港口相关度，对港口进行相关性排序。在计算出目标港口P₀与其他港口P＝[P₁,P₂,…,P_n]之间的相关度之后，设置相关联度阈值δ以选择关联度高于阈值的港口P′＝[P₁′,P₂′,…,P_l′]。关联度阈值可通过各个港口与目标港口的关联度分析结果获得，通过改变δ分析最后预测结果的变换情况来确定，本方法中根据实验推荐设定δ＝0.85。

步骤3：对筛选过后的关联港口P′＝[P′₁,P′₂,…,P′_l]和目标港口P′＝[P′₁,P′₂,…,P′_l] 的过去预设时间段内货运量数据进行划分，确定模型预测的时间维度

并据此将训练数据划分得到W

个样本数据(x_j,y_j)，j＝1,2,...,W，其中T表示

中数据长度，floor表示向下取整函数，(x_j,y_j)中x_j表示训练样本的输入数据，y_j表示训练样本的输出数据，其中，

表示第j个样本中第z个用于预测的港口P'时间维度

内第

阶段的货运量数据，

表示第j个样本中第z个用于预测的港口P'时间维度

内第

表示第j个样本中目标港口P₀时间维度

内第

阶段的货运量数据，

表示第j 个样本中目标港口P₀时间维度

内第

阶段的货运量数据。

步骤4：以GBDT模型构建货运量时空预测模型，预测模型示意图如图3所示，并通过实验确定模型参数；具体地，设货运量时空预测预测模型以函数F(x,P)表示，其中 x表示输入数据，包含了模型输入的时空维度，P表示由P′＝[P₁′,P₂′,…,P_l′]和目标港口 P₀的集合，用于表征输入到预测模型的港口，则目标港口P₀的货运量y'预测函数可表示为：

其中

表示模型预测所确定的时间维度，

表示第z个用于预测的港口P'过去

时间内第

个阶段的货运量，

表示第z个用于预测的港口P'过去

时间内第t个阶段的货运量，

表示目标港口P₀过去

时间第

个阶段的货运量，

表示目标港口 P₀过去

时间第t个阶段的货运量。

步骤5：训练模型，将划分好的训练数据输入模型中进行模型训练，完成相关港口与目标港口之间货运量关系的映射。具体地，选择相关度不小于关联度阈值的关联港口过去预设时间段内的货运量训练样本

为输入，目标港口货运量训练样本

其中，L表示损失函数，y_j即为训练数据中目标港口货运量的值，γ表示拟合值，可通过对所有y_j取均值的方式计算，作为初始学习器。

将上步得到的残差r_jm作为样本新的真实值，并将数据(x_j,r_jm),j＝1,2,...,W作为下个回归树的训练数据，得到一棵新的回归树f_m(x)，其对应的叶子结点区域R_km,k＝1,2,...,K，其中K为回归树的叶子节点的个数，对叶子区域k＝1,2,...,K以公式(5)计算最佳拟合值γ_km：

之后以公式(6)更新强学习器，式子中I表示单位矩阵：

最后得到最终学习器如公式(7)所示：

f(x)的值即为目标港口的货运量预测结果。

步骤6：以

表示用于预测的港口货运量数据集合，输入到得到的预测模型中，输出y′表示目标港口下一阶段的货运量预测结果。

为了让本领域技术人员进一步了解本发明所提出的一种基于时空关联的港口短期货运量在线预测方法，下面结合具体实施例作详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程。

步骤1：基础数据准备。

获取原始数据。以武汉港为研究对象，根据武汉港上下游几个港口2012年1月至2014年11月的货运量数据，预测2014年12月至2015年1月的周货运量数据。港口位置如图5所示。长江上游至下游分别为重庆港、宜昌港、沙石港、城陵矶港、武汉港、黄石港、福池港、武穴港、九江港、湖口港、通龙港、芜湖港。原始数据包含2012年1 月至2015年1月的157组数据，每组包括本周各港口进港上传货物和装货离港数据，将两种数据相加，得到各港口的周货运量数据。重庆港2014年1月20日至27日数据见表1。

表1原始数据示例

步骤2：灰度关联分析。

1)数据特征分析。选择重庆港和武汉港连续周货运量数据，见图6。可见，两个港口之间货运量的变化具有较强的相似性。例如，武汉港货运量2014年1月至3月变化时，重庆港货运量同时发生变化，变化趋势相同。因此，可以推断出两个港口之间可能存在货运空间关联。

2)港口货运量相关性计算。选取武汉港货运量数据作为参考数据，其他港口货运量数据作为对比数据进行灰度相关计算，相关度结果如图7所示。结果表明，武汉港与其他11个相关港口的相关系数均超过0.7，图7中大部分相关系数均在0.85以上，进一步证明了港口货运量之间存在关联性。重庆港、铜陵港、湖口港和黄石港的相关度均大于0.9，而相关度小于0.85的港口分别为武穴港、福池港和沙市港。结合图5中的港口分布，可以推断出货运量与港口距离的关联度没有明显的关系。考虑到港口自身连续周货运量的关系，根据以上相关结果，得到相关度为0.85以上的港口数据，包括城陵矶港、重庆港、宜昌港、九江港、铜陵港、湖口港、黄石港、芜湖港，初步选取这些港口及武汉港自身数据进行武汉港货运量预测模型构建。

步骤3：模型构建与训练。

GBDT模型的参数包括基本分类器的最大迭代次数、学习率和决策树的最大深度。通过实验确定了参数，将两个参数设置为固定，并更改另一个参数。将预测结果进行比较，得到预测值。图8显示了实验结果。在此基础上，决策树的最大迭代次数为60，学习率为0.3，最大深度为5。

进一步地，为评价GBDT模型预测精度，此处构建ARIMA模型、多元线性回归模型和BP神经网络模型用于对比分析。首先设置模型评价指标，选择平均绝对百分比误差(MAPE)、RMSE(根均方误差)和确定系数来评价不同模型的预测结果。评价参数定义为公式(8)，

x_i,

分别为实测值的平均值、第i个实测值和第i个预测值。

接着分别构建ARIMA模型、多元线性回归模型和BP神经网络模型。

①ARIMA模型。ARIMA模型中的参数p，q是自回归项和移动平均项，需要确定。基于BIC(Bayesian Information Criterion，贝叶斯信息准则)和实验得到p和q的值。最后通过分析得出p和q值均为1。

②多元线性回归模型。在对武汉港货运量的预测中，有8个相关港口和武汉港本身。因此，需要计算它们各自的参数和截距。通过对训练数据进行拟合，得到回归结果如公式(9)所示，其中y表示目标港口即武汉港的预测值，x₁，x₂,...,x₈表示与武汉港相关的其他8个港口的上一阶段货运量的实际值：

③BP神经网络模型。将8个相关性较强的港口与武汉港上周的货运量作为BP神经网络的输入，武汉港本周的货运量作为BP神经网络的输出。中间的隐藏节点数在

处确定，s和l分别是输入层和输出层的节点数。最后，将隐藏层模式的数目设置为18。选择函数relu作为输入层到隐藏层的激活函数，选择函数sigmoid作为隐藏层到输出层的激活函数。

步骤4：货运量预测。

训练集包括2012年1月至2014年12月的153组数据，测试数据包括2014年12 月至2015年1月的4组数据。采用这四种模型对武汉港货运量数据进行了预测，预测结果见图9，预测结果评价指标见表2。可以看出，时间序列模型和多元线性回归的预测精度较低，而BP神经网络和GBDT的预测效果较好，这表明这些港口之间的货运量没有线性关系。在基于时空相关的货运量预测中，GBDT优于BP神经网络。

表2四个模型预测结果评价指标

Claims

1.一种基于时空关联的港口货运量在线预测方法，其特征在于：该方法包括以下步骤：

其中n为港口标识总数P_n表示第n个港口，i＝1,2,3,...,n，

表示第i个港口在k阶段的货运量，k＝1,2,3,...,t，t表示获取货运量数据的时间段，目标港口P₀的货运量数据用

表示，其中

用于构建货运量时空预测模型；

2.根据权利要求1所述的基于时空关联的港口短期货运量在线预测方法，其特征在于：所述步骤2中，灰度关联分析包括以下五个步骤：

是参考序列，要分析的其他港口货运量时间序列数据

是比较序列；

3.根据权利要求2所述的一种基于时空关联的港口短期货运量在线预测方法，其特征在于：所述步骤2.4中，在计算出目标港口P₀与其他港口P＝[P₁,P₂,…,P_n]之间的相关度之后，设置相关联度阈值δ以选择关联度高于阈值的港口P′＝[P₁′,P₂′,…,P_l′]；关联度阈值可通过各个港口与目标港口的关联度分析结果获得，通过改变δ分析最后预测结果的变换情况来确定，δ＝0.85。

4.根据权利要求3所述的一种基于时空关联的港口短期货运量在线预测方法，其特征在于，所述步骤3中，对筛选过后的关联港口P′＝[P₁′,P₂′,…,P_l′]和目标港口P′＝[P₁′,P₂′,…,P_l′]的过去预设时间段内货运量数据进行划分，确定模型时间维度

并据此将训练数据划分得到W个样本数据(x_j,y_j)，

j＝1,2,...,W，其中，T表示

表示第j个样本中第z个用于预测的港口P'时间维度

内第

阶段的货运量数据，

表示第j个样本中第z个用于预测的港口P'时间维度

内第

表示第j个样本中目标港口P₀时间维度

内第

阶段的货运量数据，

表示第j个样本中目标港口P₀时间维度

内第

阶段的货运量数据。

5.根据权利要求1所述的一种基于时空关联的港口短期货运量在线预测方法，其特征在于：所述步骤4中，具体地，假设货运量时空预测预测模型以函数F(x,P)表示，其中x表示模型输入数据，包含了模型输入的时空维度，P表示P′＝[P₁′,P₂′,…,P_l′]和目标港口P₀的集合，用于表征输入到预测模型的港口，则目标港口P₀的货运量y'预测函数可表示为：