CN117494908A

CN117494908A - 基于大数据的港口货物吞吐量预测方法及系统

Info

Publication number: CN117494908A
Application number: CN202311840712.XA
Authority: CN
Inventors: 黄昂涛; 夏侃; 汪先波; 贺伟国; 周桢挺; 吕作印; 郝恩蔚; 赵泽华; 周吉; 赵世浩
Original assignee: NINGBO PORT INFORMATION COMMUNICATION CO Ltd
Current assignee: NINGBO PORT INFORMATION COMMUNICATION CO Ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-02-02
Anticipated expiration: 2043-12-29
Also published as: CN117494908B

Abstract

本发明提供一种基于大数据的港口货物吞吐量预测方法及系统，涉及大数据处理技术领域，包括将港口货物吞吐量的历史数据输入频率分解层，通过残差带宽适应度调节算法，得到最优解，结合频率分量函数，筛选并重组成时间序列数据；根据时间序列数据，绘制时序图，评估时序图的平稳性，通过差分操作，得到平稳时间序列数据，通过绘制自相关图和偏自相关图，初始化第一预测模型，通过评估和更新，拟合出最终第一预测模型，得到第一预测结果；对时间序列数据执行双向操作，筛选出当前隐藏状态，重复操作直到完成双向操作，得到双向隐藏状态序列，经过输出层处理，得到第二预测结果；将第一预测结果和第二预测结果相结合，得到最终预测结果。

Description

基于大数据的港口货物吞吐量预测方法及系统

技术领域

本发明涉及大数据处理领域技术，尤其涉及一种基于大数据的港口货物吞吐量预测方法及系统。

背景技术

集装箱吞吐量是一个港口在一段时间内进出口集装箱数量总和，反映了港口在物流运输中的能力，也是港口规划和基本建设的重要依据。随着国际航运业的发展，适合集装箱货物的比例不断提高，集装箱航运业的蓬勃发展对其自身的数据管理和响应效率提出了更高要求。

CN202210477224.6，公开了一种基于变分自编码器的港口吞吐量预测方法，根据港口历史作业数据和未来作业计划，提供未来数小时集装箱吞吐量的预测结果，为港口调度人力设备等资源提供重要的决策依据，具体分为如下：数据预处理；通过对港口历史作业数据进行预处理，得到港口过去一段时间内的作业计划数据、集装箱特征；构建基于变分自编码器的神经网络模型，在代价函数的约束下，将特征提取阶段得到的数据输入到神经网络模型中进行训练；预测；使用训练得到的神经网络模型预测每个集装箱装卸耗时，并以此推断港口在未来数小时内的集装箱吞吐量。

综上所述，准确、稳定的港口集装箱吞吐量预测，有助于港口管理者和运营机构合理规划港口的船舶布局、设施配套以及进行高效的货物作业区分布，可以有效缓解目前的困境和提高效率，而现有技术对于复杂的港口吞吐量数据的预测还不够准确稳定，本发明的应用至少能够解决现有技术的部分问题。

发明内容

本发明实施例提供一种基于大数据的港口货物吞吐量预测方法及系统，至少能够解决现有技术中部分问题。

本发明实施例的第一方面，

提供一种基于大数据的港口货物吞吐量预测方法，包括：

获取港口货物吞吐量的历史数据，输入频率分解层，基于所述历史数据的趋势，初始化频率分量函数、频率带宽和残差信息，通过残差带宽适应度调节算法，得到所述频率带宽和所述残差信息的最优解，结合所述频率分量函数，得到频率分解结果，筛选并重组成时间序列数据；

根据所述时间序列数据，绘制时序图，评估所述时序图的平稳性，当所述平稳性不符合预设阈值时，通过差分操作，得到平稳时间序列数据，使用所述平稳时间序列数据，通过绘制自相关图和偏自相关图，初始化第一预测模型，通过对所述第一预测模型的评估和更新，拟合出符合预设目标的最终第一预测模型，使用所述最终第一预测模型，得到第一预测结果；

基于第二预测模型，对所述时间序列数据执行双向操作，基于前一时间步的隐藏状态，计算出当前记忆单元，从所述当前记忆单元中筛选出当前隐藏状态，传递所述当前隐藏状态，重复操作直到完成所述双向操作，得到双向隐藏状态序列，连接所述双向隐藏状态序列相同时间步的隐藏状态，经过输出层处理，得到所述第二预测模型的第二预测结果；将第一预测结果和第二预测结果相结合，得到最终预测结果。

在一种可选的实施例中，

获取港口货物吞吐量的历史数据，输入频率分解层，基于所述历史数据的趋势，初始化频率分量函数、频率带宽和残差信息，通过残差带宽适应度调节算法，得到所述频率带宽和所述残差信息的最优解，结合所述频率分量函数，得到频率分解结果，筛选并重组成时间序列数据包括：

获取港口货物吞吐量的历史数据，输入频率分解层；

对所述历史数据进行解析，识别所述历史数据包含的趋势特征，根据所述趋势特征初始化频率分量函数，设置初始频率带宽，并计算残差信息；

通过残差带宽适应度调节算法，对所述频率带宽和所述残差信息进行迭代操作，直到满足预设的适应度值，得到所述频率带宽和所述残差信息的最优解；

利用所述频率带宽和所述残差信息的最优解，结合所述频率分量函数，计算得到频率分量，根据预设的筛选规则，对所述频率分量进行筛选，对筛选结果进行重组，得到频率分解结果，从所述频率分解结果中提取与所述历史数据的时间相对应的时间序列数据。

在一种可选的实施例中，

通过残差带宽适应度调节算法，对所述频率带宽和所述残差信息进行迭代操作，直到满足预设的适应度值，得到所述频率带宽和所述残差信息的最优解包括：

以使频率带宽和残差信息最小化为结果，构建适应度函数；

确定与所述频率带宽和所述残差信息的更新相关联的调整参数，对所述调整参数进行二进制编码，生成基因组，一个所述基因组对应种群中的一个个体，使用随机选择的所述个体初始化种群，执行以下迭代：

使用所述适应度函数，计算每个所述个体的适应度值，根据适应度值降序排列，选择适应度值排名符合预设筛选阈值的入围个体，对所述入围个体进行交叉操作，生成子代个体，对所述入围个体进行变异操作，生成变异个体，使用所述入围个体、子代个体和变异个体，构建更新种群；

重复执行所述迭代，直到所述更新种群的适应度值全部满足预设的最优适应度阈值，停止迭代，得到最优种群；

从所述最优种群中，选择适应度最大值对应的最优个体，提取所述最优个体对应的调整参数，得到所述频率带宽和所述残差信息的最优解。

在一种可选的实施例中，

根据所述时间序列数据，绘制时序图，评估所述时序图的平稳性，当所述平稳性不符合预设阈值时，通过差分操作，得到平稳时间序列数据，使用所述平稳时间序列数据，通过绘制自相关图和偏自相关图，初始化第一预测模型，通过对所述第一预测模型的评估和更新，拟合出符合预设目标的最终第一预测模型，使用所述最终第一预测模型，得到第一预测结果包括：

根据所述时间序列数据，绘制所述时间序列数据的时序图，评估所述时序图的平稳性；当所述时序图不平稳时，通过差分操作，得到平稳时间序列数据；

基于所述平稳时间序列数据，使用Python的统计模型库，绘制自相关图和偏自相关图，通过对所述自相关图和所述偏自相关图的分析，识别模型参数，使用所述模型参数，构建第一预测模型，其中，所述模型参数包括自回归阶数、差分阶数、移动平均阶数和季节性阶数；

使用所述第一预测模型进行预测，得到预测值，求解预测值和实际值之间的差异，对所述差异进行检测，得到检测表现结果；

当所述检测表现结果不符合预设的白噪声标准时，使用最小二乘法，更新所述模型参数，重新拟合所述第一预测模型，重复执行检测、更新和拟合，直到所述第一预测模型的检测表现结果符合预设的白噪声标准，得到最终第一预测模型；

经过所述最终第一预测模型的预测，得到第一预测结果；

在一种可选的实施例中，

基于第二预测模型，对所述时间序列数据执行双向操作，基于前一时间步的隐藏状态，计算出当前记忆单元，从所述当前记忆单元中筛选出当前隐藏状态，传递所述当前隐藏状态，重复操作直到完成所述双向操作，得到双向隐藏状态序列，连接所述双向隐藏状态序列相同时间步的隐藏状态，经过输出层处理，得到所述第二预测模型的第二预测结果包括：

将所述时间序列数据作为第二预测模型的输入数据，对所述输入数据进行双向操作，其中，所述双向操作包括正向操作和逆向操作；

设置初始的隐藏状态和初始的记忆单元，按照从第一时间步到最后时间步的顺序，对所述输入数据的每个时间步进行操作：

基于前一时间步的隐藏状态，计算输入比、遗忘比和候选记忆单元，根据所述输入比，确定所述候选记忆单元中的更新记忆单元；根据所述遗忘比，确定前一时间步的记忆单元中的保留记忆单元，将所述更新记忆单元和所述保留记忆单元相结合，得到当前时间步的当前记忆单元，计算输出比，根据所述输出比，确定所述当前记忆单元中的当前隐藏状态；

重复操作，直到所述输入数据的所述最后时间步操作完成，得到正向隐藏状态序列；

按照从最后时间步到第一时间步的顺序，对所述输入数据的每个时间步进行操作，直到所述输入数据的所述第一时间步操作完成，得到逆向隐藏状态序列；

连接正向隐藏状态序列与逆向隐藏状态序列相应时间步的隐藏状态，经过输出层处理，得到所述第二预测模型的第二预测结果。

在一种可选的实施例中，

对所述输入数据的每个时间步进行操作，还包括：

通过计算输入比、遗忘比、输出比和候选记忆单元，基于前一时间步的隐藏状态，对所述输入数据进行操作，其公式如下：

；

其中，Ff _t表示在时间步t的正向遗忘比，σ表示sigmoid激活函数，FW _f表示正向遗忘比的权重，Fh _t-1表示前一个时间步的正向隐藏状态，x _t表示当前时间步的输入，Fb _f表示正向遗忘比的偏置；

Fi _t表示在时间步t的正向输入比，FW _i表示正向输入比的权重，Fb _i表示正向输入比的偏置；

FC' _t表示在时间步t的正向候选记忆单元，FW _C表示正向记忆单元权重，Fb _C表示正向记忆单元的偏置；

FC _t表示在时间步t的正向记忆单元，FC _t-1表示前一个时间步的正向记忆单元；

Fo _t表示在时间步t的正向输出比，FW _o表示正向输出比的权重，Fb _o表示正向输出比的偏置；

Fh _t表示当前时间步t的正向隐藏状态；

在一种可选的实施例中，

按照从最后时间步到第一时间步的顺序，对所述输入数据的每个时间步进行操作，直到所述输入数据的所述第一时间步操作完成，得到逆向隐藏状态序列包括：

通过计算输入比、遗忘比、输出比和候选记忆单元，基于后一时间步的隐藏状态，对所述输入数据进行操作，其公式如下：

；

其中，Bf _t表示在时间步t的逆向遗忘比，BW _f表示逆向遗忘比的权重，Bh _t+1表示后一个时间步的逆向隐藏状态，Bb _f表示逆向遗忘比的偏置；

Bi _t表示在时间步t的逆向输入比，BW _i表示逆向输入比的权重，Bb _i表示逆向输入比的偏置；

BC' _t表示在时间步t的逆向候选记忆单元，BW _C表示逆向记忆单元权重，Bb _C表示逆向记忆单元的偏置；

BC _t表示在时间步t的逆向记忆单元，BC _t+1表示后一个时间步的逆向记忆单元；

Bo _t表示在时间步t的逆向输出比，BW _o表示逆向输出比的权重，Bb _o表示逆向输出比的偏置；

Bh _t表示当前时间步t的逆向隐藏状态。

本发明实施例的第二方面，

提供一种基于大数据的港口货物吞吐量预测系统，包括：

第一单元，用于获取港口货物吞吐量的历史数据，输入频率分解层，基于所述历史数据的趋势，初始化频率分量函数、频率带宽和残差信息，通过残差带宽适应度调节算法，得到所述频率带宽和所述残差信息的最优解，结合所述频率分量函数，得到频率分解结果，筛选并重组成时间序列数据；

第二单元，用于根据所述时间序列数据，绘制时序图，评估所述时序图的平稳性，当所述平稳性不符合预设阈值时，通过差分操作，得到平稳时间序列数据，使用所述平稳时间序列数据，通过绘制自相关图和偏自相关图，初始化第一预测模型，通过对所述第一预测模型的评估和更新，拟合出符合预设目标的最终第一预测模型，使用所述最终第一预测模型，得到第一预测结果；

第三单元，用于基于第二预测模型，对所述时间序列数据执行双向操作，基于前一时间步的隐藏状态，计算出当前记忆单元，从所述当前记忆单元中筛选出当前隐藏状态，传递所述当前隐藏状态，重复操作直到完成所述双向操作，得到双向隐藏状态序列，连接所述双向隐藏状态序列相同时间步的隐藏状态，经过输出层处理，得到所述第二预测模型的第二预测结果；将第一预测结果和第二预测结果相结合，得到最终预测结果。

本发明实施例的第三方面，

提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行前述所述的方法。

本发明实施例的第四方面，

提供一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现前述所述的方法。

在本发明中，通过频域分析和频率分解，更好地捕捉港口货物吞吐量时间序列中的复杂频率成分和模式，有助于提高预测模型的精度，使其能够更准确地反映数据的变化趋势；频域分析提供了不同频率下的波动模式，为数据提供了更全面的视角，有助于揭示数据中可能存在的隐藏规律和模式；通过平稳性分析，确保时间序列的平稳性，有助于建模的准确性；利用第一预测模型进行预测，得到预测值，通过检测差异，可以评估模型的表现，及时发现模型的不足之处；确保模型残差序列符合白噪声标准，表明模型的残差是随机的，没有包含更多的信息，提高了模型的可靠性；残差带宽适应度调节算法通过交叉和变异操作保持个体群体的多样性，不容易受到初始值选择的影响，防止算法陷入局部最优解，更好地探索解空间，提高算法的鲁棒性；通过对时间序列数据执行双向操作，捕捉序列中正向和逆向的时间依赖关系，有助于更全面地理解和利用序列中的信息，提高模型对动态模式的感知能力。

附图说明

图1为本发明实施例基于大数据的港口货物吞吐量预测方法的流程示意图；

图2为本发明实施例基于大数据的港口货物吞吐量预测系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例基于大数据的港口货物吞吐量预测方法的流程示意图，如图1所示，所述方法包括：

S101.获取港口货物吞吐量的历史数据，输入频率分解层，基于所述历史数据的趋势，初始化频率分量函数、频率带宽和残差信息，通过残差带宽适应度调节算法，得到所述频率带宽和所述残差信息的最优解，结合所述频率分量函数，得到频率分解结果，筛选并重组成时间序列数据；

所述频率分量函数具体是指港口货物吞吐量数据中，在不同时间尺度上波动的模式和振荡的形式，每个频率分量函数对应了数据中的一个特定频率成分，描述了该频率下数据的变化；

所述频率带宽具体是指每个频率分量函数所包含的频率范围，表示在该频率下信号的变化范围，频率带宽的设定可以影响信号分解的精度，其决定了模型对信号的分辨能力；

所述残差信息具体是指通过频率分解未能被解释和分解的成分，在港口货物吞吐量数据中，包含噪音、异常值或其他无法用选择的频率分量函数表示的复杂成分；

获取港口货物吞吐量的历史数据，将其输入到频率分解层，其中，频率分解层尝试将历史数据分解成多个频率分量函数，基于历史数据的趋势，初始化频率分量函数、频率带宽和残差信息；

通过对历史数据进行趋势分析，确定数据中存在的周期性或趋势性变化，其中，趋势性信息被用来初始化频率分量函数，使模型捕捉到数据的动态特征，通过数据分析设置频率带宽的初始值，使模型依据适当的频率分辨率进行频率分解。

使用残差带宽适应度调节算法，通过迭代操作，调整残差信息和频率带宽的参数，使残差信息和频率带宽的更新适应度逐渐接近预设值，其中，适应度函数用于评估残差信息和频率带宽的更新，适应度函数的构建要使频率带宽尽可能小、残差信息尽可能小；完成整个迭代过程，得到最优的频率带宽和残差信息。

结合最终得到的频率带宽和残差信息，根据频率分量函数的计算结果，得到频率分解结果，所述频率分解结果反映原始数据在不同频率下的成分；

按照预设的筛选规则，频率分解结果进行筛选，保留具有显著影响力的频率成分，同时滤除噪音或不显著的成分，根据筛选后的频率分量，重组成最终的时间序列数据；

在本实施例中，通过频域分析和频率分解，更好地捕捉港口货物吞吐量时间序列中的复杂频率成分和模式，有助于提高预测模型的精度，使其能够更准确地反映数据的变化趋势；残差信息的引入允许频率分解层捕捉数据中未能被频率分解的噪音或异常值，有助于提高模型的鲁棒性，使其在面对数据中的不确定性时表现更好；利用残差带宽适应度调节算法，模型能够自适应地调整频率带宽和残差信息，更好地适应不同数据特征，自适应性可以提高模型的通用性，在不同数据集和不同场景中都能表现良好；

在一种可选的实施例中，获取港口货物吞吐量的历史数据，输入频率分解层，基于所述历史数据的趋势，初始化频率分量函数、频率带宽和残差信息，通过残差带宽适应度调节算法，得到所述频率带宽和所述残差信息的最优解，结合所述频率分量函数，得到频率分解结果，筛选并重组成时间序列数据包括：

获取港口货物吞吐量的历史数据，输入频率分解层；

从数据源中获取港口货物吞吐量的历史数据，确保数据的完整性和准确性，将历史数据输入到频率分解层，为后续的分析做准备；

其中港口货物吞吐量的历史数据，例如：

2023年1月2日吞吐量1243；

2023年1月3日吞吐量1200；

2023年1月4日吞吐量1275；

2023年1月5日吞吐量1396；

2023年1月6日吞吐量1450；

2023年1月7日吞吐量1372；

2023年1月8日吞吐量1310；

……；

2023年1月31日吞吐量1320等，按照天为单位的数据；

对历史数据进行解析，识别历史数据的趋势特征，其中包括长期性趋势、季节性趋势、波动性趋势和无序性趋势，基于这些趋势特征，初始化频率分量函数设定模型初始的频率成分，同时设置初始频率带宽，决定模型对不同频率的分辨率，根据原始的历史数据与初始化的频率分量函数之间的差异，计算残差信息，其中，识别历史数据的趋势特征，例如，历史数据呈现每周变化的趋势，通过计算数据中按周平均的均值，用原始数据减去均值，得到去趋势数据，通过例如傅里叶变换，将时域的数据转换为频域的频谱信息，展示数据的振幅和相位，得到频率成分；

引入残差带宽适应度调节算法，通过迭代操作调整频率带宽和残差信息，在重复迭代中使适应度值逐渐接近预设的值，适应度的考虑包括每个模态函数的频率带宽应该尽量小、更新后的残差信号应该尽可能地小，最终得到最优的频率带宽和残差信息；

利用得到的最优频率带宽和最优残差信息，结合频率分量函数，计算得到频率分量，应用预设的筛选规则，例如，选择保留具有显著影响力的频率成分，同时滤除噪音或不显著的成分；根据筛选后的频率分量，进行重组，得到最终的频率分解结果，从重组后的频率分解结果中提取与历史数据时间相对应的时间序列数据；

在本实施例中，通过频率分解，模型能够更全面地捕捉港口货物吞吐量时间序列中的频域信息，包括不同频率成分的波动和趋势，有助于更好地理解数据的动态特征；利用趋势特征的识别，能够更精确地初始化频率分量函数，使模型能够更好地适应数据中的趋势性变化，有助于提高后续预测的准确性；引入残差带宽适应度调节算法，使分解能够自适应地调整频率带宽和残差信息，以适应不同数据特征，提高了分解的灵活性和适应性；通过迭代操作和适应度调节，能够减小残差信息中的噪音影响，提高模型的鲁棒性，使分解在面对复杂数据时更为稳健；通过适应度调节和迭代过程，最终得到最优的频率带宽和残差信息，优化模型的参数，更好地拟合实际数据；频域分析提供了不同频率下的波动模式，为数据提供了更全面的视角，有助于揭示数据中可能存在的隐藏规律和模式；

在一种可选的实施例中，通过残差带宽适应度调节算法，对所述频率带宽和所述残差信息进行迭代操作，直到满足预设的适应度值，得到所述频率带宽和所述残差信息的最优解包括：

以使频率带宽和残差信息最小化为结果，构建适应度函数；

以使频率带宽和残差信息尽可能的小为目标，构建适应度函数；

频率带宽和残差信息的更新，会涉及到参数的调整，确定这些调整参数，并对调整参数进行二进制编码，形成编码字符串，一组编码字符串够成一个基因组，一个基因组在种群中对应一个个体；

随机选择一定数量的个体初始化种群，其中，随机选择的个体是具有不同二进制编码的基因组，代表了不同的频率带宽和残差信息的更新相关的解；

执行以下迭代操作：

使用适应度函数，计算种群中每个个体的适应度值，代表频率带宽和残差信息更新的适应度；

预设排名筛选阈值，如前60%或前30个，根据计算得到的适应度值降序排列，选择适应度值排名符合排名筛选阈值的个体，形成入围个体集合；

入围个体集合作为父代个体集合，从中随机选取一定数量的父代个体，对其中的二进制编码段进行随机交叉交换，产生子代个体集合；

从入围个体集合中随机选取一定数量的入围个体，对其中的二进制编码段进行随机改变，产生变异个体集合；

将入围个体集合、子代个体集合和变异个体集合取并集，形成更新种群；

将更新种群继续所述迭代操作，直到更新种群的适应度值全部满足预设的最优适应度阈值，停止迭代，得到最优种群；

从最优种群中选择适应度最大值对应的个体，作为最优个体，将最优个体的基因组转换回最优调整参数，得到频率带宽和残差信息的最优解；

在本实施例中，残差带宽适应度调节算法具有较强的全局搜索能力，能够在大范围内搜索解空间，找到最优解，有助于调整残差带宽和适应度值的参数，更好地适应实际数据；算法通过交叉和变异操作保持个体群体的多样性，不容易受到初始值选择的影响，防止算法陷入局部最优解，更好地探索解空间，提高算法的鲁棒性；算法天然适合并行化处理，可以同时评估多个个体的适应度，加速算法的执行过程；适应度函数的设计可以充分考虑频率带宽和残差信息的最小化目标，确保算法朝着优化的方向进行迭代，适应度评估的准确性有助于算法快速收敛到最优解。

S102.根据所述时间序列数据，绘制时序图，评估所述时序图的平稳性，当所述平稳性不符合预设阈值时，通过差分操作，得到平稳时间序列数据，使用所述平稳时间序列数据，通过绘制自相关图和偏自相关图，初始化第一预测模型，通过对所述第一预测模型的评估和更新，拟合出符合预设目标的最终第一预测模型，使用所述最终第一预测模型，得到第一预测结果；

所述差分操作具体是指处理非平稳时间序列的技术，通过计算相邻时间点之间的差异，得到一个新的序列，差分操作的一阶差分表示当前时间点与前一个时间点之间的差值，二阶差分表示一阶差分的再次差分操作；

所述自相关图具体是指用于显示时间序列与其自身在不同时间滞后下的相关性；

所述偏自相关图具体是指用于显示时间序列在剔除了其它时间滞后的影响后，与自身在某个特定时间滞后的相关性；

对输入时间序列数据进行时序图绘制，观察整体趋势和变化；通过观察时序图，评估时间序列的平稳性；如果时间序列不平稳，进行差分操作，直到得到平稳时间序列；

对平稳时间序列数据绘制自相关图和偏自相关图，确定时间序列的阶数，所述阶数是指用于建模的滞后阶数；根据时间序列的阶数，作为模型参数，初始化第一预测模型，开始对模型进行更新迭代：

通过模型的评估指标来检查模型的拟合效果，当拟合效果不符合预设要求时，更新模型参数，重新拟合第一预测模型；

直到拟合效果符合预设要求，得到最终预测模型；

使用拟合的最终第一预测模型，对未来的时间步进行预测，得到第一预测结果；

在本实施例中，通过差分操作，将非平稳时间序列转化为平稳序列，有助于更好地适应统计模型的要求；通过绘制自相关图和偏自相关图，能够识别时间序列的阶数，使模型能够更好地拟合数据；对模型进行评估，通过评估结果，能够及时更新模型的参数，提高模型的预测性能。

在一种可选的实施例中，根据所述时间序列数据，绘制时序图，评估所述时序图的平稳性，当所述平稳性不符合预设阈值时，通过差分操作，得到平稳时间序列数据，使用所述平稳时间序列数据，通过绘制自相关图和偏自相关图，初始化第一预测模型，通过对所述第一预测模型的评估和更新，拟合出符合预设目标的最终第一预测模型，使用所述最终第一预测模型，得到第一预测结果包括：

经过所述最终第一预测模型的预测，得到第一预测结果；

绘制所述时间序列数据的时序图，观察整体趋势和变化，经过评估时序图的平稳性，如果不平稳，执行差分操作，得到平稳时间序列数据，通常一阶差分操作就足够得到平稳时间序列数据；

利用计算机软件，使用Python的统计模型库，绘制差分后的平稳时间序列数据的自相关图和偏自相关图；通过分析自相关图和偏自相关图，识别适当的自回归阶数、差分阶数、移动平均阶数，如果时间序列数据包含季节性特征，需要进一步考虑季节性阶数，其中，季节性阶数包括季节性自回归阶数、季节性差分阶数、季节性移动平均阶数和季节周期；

使用自回归阶数、差分阶数、移动平均阶数和季节性阶数，初始化第一预测模型；

利用初始化的第一预测模型对时间序列进行预测，得到预测值；求解预测值与实际值之间的差异，进行检测，如果检测表现结果不符合白噪声标准，使用最小二乘法更新模型参数，重新拟合第一预测模型，通过反复执行检测、更新和拟合的步骤，直到第一预测模型的检测表现结果符合预设的白噪声标准，其中，当预测值与实际值之间的差异都是白噪音时，说明差异部分与预测结果无相关性，体现了预测值与实际值的接近程度；

经过迭代调优，得到最终第一预测模型，使用最终第一预测模型进行预测，得到第一预测结果；

在本实施例中，通过平稳性分析，确保时间序列的平稳性，有助于建模的准确性；通过自相关图和偏自相关图的分析，成功初始化模型的参数，建立了第一预测模型的基础；利用第一预测模型进行预测，得到预测值，通过检测差异，可以评估模型的表现，及时发现模型的不足之处；确保模型残差序列符合白噪声标准，表明模型的残差是随机的，没有包含更多的信息，提高了模型的可靠性；通过不断的检测、更新和拟合，得到最终符合白噪声标准的预测模型，确保模型的质量，最终得到的预测结果更具可靠性；

S103.基于第二预测模型，对所述时间序列数据执行双向操作，基于前一时间步的隐藏状态，计算出当前记忆单元，从所述当前记忆单元中筛选出当前隐藏状态，传递所述当前隐藏状态，重复操作直到完成所述双向操作，得到双向隐藏状态序列，连接所述双向隐藏状态序列相同时间步的隐藏状态，经过输出层处理，得到所述第二预测模型的第二预测结果；将第一预测结果和第二预测结果相结合，得到最终预测结果。

所述隐藏状态具体是指预测模型在给定时间步的主要输出，其中包含了模型对时间序列数据的学习信息，隐藏状态是模型在当前时间步对过去信息的一种表示；

所述记忆单元具体是指用于存储和传递网络在时间序列中学到的长期信息，记忆单元会根据输入数据和控制比计算结果，决定存储和更新哪些信息；

所述双向操作具体是指在每个时间步，同时考虑正向和逆向的信息，当正向时通过学习当前时间步的输入和前一个时间步的隐藏状态来更新隐藏状态和记忆单元；逆向时则通过学习当前时间步的输入和后一个时间步的隐藏状态来更新隐藏状态和记忆单元，将正向和逆向信息连接的目的是捕捉序列中正反两个方向的依赖关系；

迭代地计算正向和逆向各自的隐藏状态和记忆单元，每个时间步的计算都会利用前一时间步的隐藏状态和记忆单元，通过门控机制和输入信息更新当前时间步的隐藏状态和记忆单元，一直重复迭代，直到完成所有时间步的计算，得到正向隐藏状态序列和逆向隐藏状态序列；

在双向操作的每个时间步，正向操作和逆向操作都会计算出一个隐藏状态，将这两个方向的隐藏状态在相同时间步上进行连接，得到一个新的隐藏状态序列，其中，连接操作通过将正向隐藏状态和逆向隐藏状态在特定维度上进行拼接而实现;

连接后的双向隐藏状态序列将被传递到输出层，其中输出层按照经典神经网络模型构建，在输出层中，每个神经元都有与之相关联的权重和偏差，这些参数是模型在训练过程中学习得到的，通过反向传播算法和优化算法进行调整，以最小化模型的损失函数为目标，通过这些权重和偏差进行线性变换，再通过激活函数进行非线性映射，映射到最终的预测结果；

将通过第一预测模型得到的预测结果和通过第二预测模型得到的预测结果加权结合起来，获得最终的预测结果；

在本实施例中，通过对时间序列数据执行双向操作，捕捉序列中正向和逆向的时间依赖关系，有助于更全面地理解和利用序列中的信息，提高模型对动态模式的感知能力；双向隐藏状态序列的建立使模型能够同时考虑过去和未来的信息，提高对序列全局信息的捕捉能力；输出层的权重和偏差通过训练学习，以最小化模型的损失函数，反映了模型通过反向传播算法优化参数，使得模型的预测更接近实际标签；第一预测结果和第二预测结果相结合，更全面地考虑两个模型的贡献，提高最终预测结果的准确性和稳定性；

在一种可选的实施例中，基于第二预测模型，对所述时间序列数据执行双向操作，基于前一时间步的隐藏状态，计算出当前记忆单元，从所述当前记忆单元中筛选出当前隐藏状态，传递所述当前隐藏状态，重复操作直到完成所述双向操作，得到双向隐藏状态序列，连接所述双向隐藏状态序列相同时间步的隐藏状态，经过输出层处理，得到所述第二预测模型的第二预测结果包括：

所述输入比具体是指在每个时间步，通过计算输入比，模型按照比值决定从当前时间步的输入中更新记忆单元的程度，输入比的高低影响候选记忆单元的选择，从而影响了当前记忆单元的更新；

所述遗忘比具体是指用于决定在当前时间步应该保留多少前一时间步的记忆，高遗忘比表示更多的过去信息得以保留，低遗忘比则意味着模型更多地依赖于当前输入；

所述输出比具体是指用于确定当前记忆单元中的隐藏状态，通过计算输出比，模型决定从当前记忆单元中提取多少信息作为当前时间步的隐藏状态，以供连接和最终预测使用；

在时间序列的第一个时间步，设定初始的隐藏状态和记忆单元，从第一个时间步开始，按顺序对每个时间步执行以下正向操作：

基于前一时间步的隐藏状态，计算输入比、遗忘比和候选记忆单元；

根据输入比和遗忘比，更新当前记忆单元；

基于当前记忆单元，计算输出比；

根据输出比，确定当前记忆单元中的当前隐藏状态；

重复执行所述正向操作，直到完成对所有时间步的操作，形成正向隐藏状态序列；

在执行所述正向操作的同时，根据时间序列的倒序，从序列的最后一个时间步开始，设定初始的隐藏状态和记忆单元，基于后一时间步的隐藏状态,按逆序对每个时间步执行与正向操作相同的步骤，得到逆向隐藏状态序列；

将正向隐藏状态序列与逆向隐藏状态序列在相应时间步上的隐藏状态连接起来；

将连接后的双向隐藏状态序列传递到输出层，在输出层中，每个神经元都有与之相关联的权重和偏差，通过权重和偏差进行线性变换，再通过激活函数进行非线性映射，映射到最终的预测结果；

在本实施例中，双向操作允许模型同时考虑时间序列数据的正向和逆向依赖关系，更全面地捕捉序列中的动态特征，有助于提高对序列中复杂模式和长期依赖关系的建模能力；引入了输入比、遗忘比和输出比，使模型在每个时间步对记忆单元进行动态更新，有助于网络更好地处理长期和短期的序列信息；通过连接正向和逆向隐藏状态，实现信息的融合，有助于模型更好地理解正向和逆向方向上的序列模式，提高对全局信息的感知能力；

在一种可选的实施例中，对所述输入数据的每个时间步进行操作，还包括：

；

Fh _t表示当前时间步t的正向隐藏状态；

在一种可选的实施例中，按照从最后时间步到第一时间步的顺序，对所述输入数据的每个时间步进行操作，直到所述输入数据的所述第一时间步操作完成，得到逆向隐藏状态序列包括：

；

Bh _t表示当前时间步t的逆向隐藏状态。

通过计算前一个时间步的记忆单元需要保留的比例，以及当前时间步输入内容的影响程度，对记忆单元做更新，通过计算提取隐藏状态的比例，得到当前时间步的正向隐藏状态结果，同时并行执行逆向操作，按照以上正向操作的步骤，结合后一时间步的记忆单元，计算当前时间步的逆向隐藏状态结果。

在所述公式中，遗忘比、输入比、输出比的引入使得模型能够根据输入和过去信息动态地调整记忆单元的状态，有助于处理长序列和变化模式，实现了对时间序列的建模和动态特征捕捉，使得记忆单元能够动态地根据输入和过去信息更新，有助于处理长期和短期依赖关系，增加了网络的灵活性，使其适应不同任务和序列的特征。

图2为本发明实施例基于大数据的港口货物吞吐量预测系统的结构示意图，如图2所示，所述系统包括：

本发明实施例的第三方面，

提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

本发明实施例的第四方面，

本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本发明的各个方面的计算机可读程序指令。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于大数据的港口货物吞吐量预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获取港口货物吞吐量的历史数据，输入频率分解层，基于所述历史数据的趋势，初始化频率分量函数、频率带宽和残差信息，通过残差带宽适应度调节算法，得到所述频率带宽和所述残差信息的最优解，结合所述频率分量函数，得到频率分解结果，筛选并重组成时间序列数据包括：

获取港口货物吞吐量的历史数据，输入频率分解层；

3.根据权利要求2所述的方法，其特征在于，通过残差带宽适应度调节算法，对所述频率带宽和所述残差信息进行迭代操作，直到满足预设的适应度值，得到所述频率带宽和所述残差信息的最优解包括：

以使频率带宽和残差信息最小化为结果，构建适应度函数；

4.根据权利要求1所述的方法，其特征在于，根据所述时间序列数据，绘制时序图，评估所述时序图的平稳性，当所述平稳性不符合预设阈值时，通过差分操作，得到平稳时间序列数据，使用所述平稳时间序列数据，通过绘制自相关图和偏自相关图，初始化第一预测模型，通过对所述第一预测模型的评估和更新，拟合出符合预设目标的最终第一预测模型，使用所述最终第一预测模型，得到第一预测结果包括：

经过所述最终第一预测模型的预测，得到第一预测结果。

5.根据权利要求1所述的方法，其特征在于，基于第二预测模型，对所述时间序列数据执行双向操作，基于前一时间步的隐藏状态，计算出当前记忆单元，从所述当前记忆单元中筛选出当前隐藏状态，传递所述当前隐藏状态，重复操作直到完成所述双向操作，得到双向隐藏状态序列，连接所述双向隐藏状态序列相同时间步的隐藏状态，经过输出层处理，得到所述第二预测模型的第二预测结果包括：

6.根据权利要求5所述的方法，其特征在于，对所述输入数据的每个时间步进行操作，还包括：

；

Fh _t表示当前时间步t的正向隐藏状态。

7.根据权利要求5所述的方法，其特征在于，按照从最后时间步到第一时间步的顺序，对所述输入数据的每个时间步进行操作，直到所述输入数据的所述第一时间步操作完成，得到逆向隐藏状态序列包括：

；

Bh _t表示当前时间步t的逆向隐藏状态。

8.一种基于大数据的港口货物吞吐量预测系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至7中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。