CN114692999A

CN114692999A - 一种基于集成学习的海水表层温度预测方法

Info

Publication number: CN114692999A
Application number: CN202210447842.6A
Authority: CN
Inventors: 戴昊; 商少平; 雷发美; 章伟婕; 杨帅
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-07-01

Abstract

一种基于集成学习的海水表层温度预测方法，涉及海水表层温度预测。将海表温度历史数据作为训练验证数据集作高斯归一化处理；按时间先后顺序将训练验证数据集在时间上的前一半数据作为留存训练验证子集一，后一半数据作为留存训练验证子集二；分别划分训练集和验证集；选取MLP、LSTM、CNN和CNNLSTM作为初级模型，在留存训练验证子集一上进行每个初级模型的训练和验证，保存通过验证的四个初级模型；选取ConvLSTM作为次级模型，分别加载保存的四个初级模型，在留存训练验证子集二上预测，以预测值作为次级模型的训练输入样本，训练和验证次级模型；用通过验证的次级模型进行海表温度新数据预测。提高预测能力和精度。

Description

一种基于集成学习的海水表层温度预测方法

技术领域

本发明涉及海水表层温度(以下简称“海表温度”)预测，特别是涉及一种基于集成学习的海水表层温度预测方法。

背景技术

准确预测海表温度可以帮助了解几个月前的降雨模式，还有助于跟踪旋风的发生和规划海洋生态系统(如：监视海洋微生物生长等)。同时，对理解全球或局地气候变化、计划各种海上活动(如：渔业和采矿业，海洋环境保护，海洋军事事务等)、提前识别潜在的极端天气并尽可能减轻损失等科学研究和应用至关重要(Frank J.Wentz,ChelleGentemann,Deborah Smith,and Dudley Chelton,2000.Satellite measurements of seasurface temperature through clouds.Science,288(5467),847-850)。

当前，海表温度预测方法主要有数值模型方法和数据驱动方法两类。

(1)数值模型方法

基于复杂的物理过程，数值模型方法获取大空间的平均信息建立数学模型，从大气-海洋的热传递过程描述海表温度变化。主要技术有：马尔科夫模型(Yan Xue and AntsLeetmaa,2000.Forecasts of tropical Pacific SST and sea level using a Markovmodel.Geophysical Research Letters,27(17),2701-2704)、规范相关分析(D.C.Collins,C.J.C.Reason,and F.Tangang,2004.Predictability of Indian Oceansea surface temperature using canonical correlation analysis.ClimateDynamics,22,481-497)、统计预测模型(Jong-Seong Kug,In-Sik Kang,June-Yi Lee,andJong-Ghap Jhun,2004.A statistical approach to Indian Ocean sea surfacetemperature prediction using a dynamical ENSO prediction.Geophysical ResearchLetters,31(9),L09212)、季节性预报技术(T.N.Krishnamurti,Arindam Chakraborty,Ruby Krishnamurti,William K.Dewar,and Carol Anne Clayson,2006.SeasonalPrediction of Sea Surface Temperature Anomalies Using a Suite of 13CoupledAtmosphere–Ocean Models.Journal of Climate,19,6069-6088)等。由于对海表温度发生发展的机理尚不能给出清晰的物理解释，解决局部区域物理子过程的难度较大，故这类模型的构建一般并不准确，且相对复杂，计算成本高，比较适合用于大范围海表温度预测，分辨率粗糙。

(2)数据驱动方法

数据驱动方法研究数据本身特性及内部规律，预测海表温度。主要方法有：支持向量机(Isis Didier Lins,Moacyr Araujo,Márcio das Chagas Moura,Marcus AndréSilva,and Enrique López Droguett,2013.Prediction of sea surface temperaturein the tropical Atlantic by support vector machines.Computational Statisticsand Data Analysis,61,187-198)、遗传算法(Neetu,Rashmi Sharma,S2016.Multilevelvector autoregressive prediction of sea surface temperature in the NorthTropical Atlantic Ocean and the Caribbean Sea.Climate Dynamics,47,95-106)、多级向量自回归模型和神经网络(张韧,2000.非线性BP网络映射与赤道太平洋海温预测.海洋通报,19(4),1-7；Aiming Wu,William W.Hsieh,and Benyang Tang,2006.Neuralnetwork forecasts of the tropical Pacific sea surface temperatures.NeuralNetworks,19,145-154)。这类方法绕过海表温度复杂的形成、变化机制，通过对大量已知样本进行训练，让计算机从数据中自行学习规则，进行预测。

上述文献中的数据驱动方法一般涉及单一机器学习模型，而集成学习是机器学习的一种通用元方法，它通过组合来自多个单一模型的预测来寻求更好的预测表现。集成学习技术中的堆叠法试图在同一数据集上拟合多种不同的模型类型，并使用另一个模型在另一数据集上来学习如何更好地组合预测。

发明内容

本发明的目的在于针对现有技术存在的上述问题，提供将集成学习技术中的堆叠法引入海表温度预测，可有效提高海表温度的短期预测精度的一种基于集成学习的海水表层温度预测方法。

一种基于集成学习的海水表层温度预测方法，包括以下步骤：

步骤1、将海表温度历史数据作为训练验证数据集，作高斯归一化处理；

步骤2、根据时间先后顺序，将归一化处理后的训练验证数据集在时间上的前一半数据作为留存训练验证子集一，归一化后训练验证数据集在时间上的后一半数据作为留存训练验证子集二；

步骤3、根据时间先后顺序，对于留存训练验证子集一和留存训练验证子集二，分别划分训练集和验证集；

步骤4、分别选取多层感知器(Multilayer Perceptron,MLP)、长短时记忆(LongShort-Term Memory,LSTM)、卷积神经网络(Convolutional Neural Network,CNN)和卷积神经网络-长短时记忆(Convolutional Neural Network Long Short-Term Memory,CNNLSTM)作为初级模型，在留存训练验证子集一上进行每个初级模型的训练和验证，并保存通过验证的四个初级模型；

步骤5、选取卷积长短时记忆(Convolutional LSTM,ConvLSTM)作为次级模型，分别加载保存的四个初级模型，在留存训练验证子集二上进行预测，以预测值作为次级模型的训练输入样本，训练和验证次级模型，并保存通过验证的次级模型；

步骤6、使用通过验证的次级模型进行海表温度新数据的预测。

在步骤1中，所述高斯归一化处理的公式为：

其中，y和y^*分别表示高斯归一化前后海表温度训练验证数据，y_mean表示海表温度训练验证数据平均值，y_std表示海表温度训练验证数据标准差；高斯归一化处理后的训练验证数据集符合标准正态分布。

在步骤3中，所述根据时间先后顺序，对于留存训练验证子集一和留存训练验证子集二，分别划分训练集和验证集的具体步骤可为：对于留存训练验证子集一，划分训练集和验证集，训练集用于训练每个初级模型，验证集用于评估每个初级模型的训练情况，并以此调整每个初级模型的网络参数；对于留存训练验证子集二，划分训练集和验证集，训练集用于训练次级模型，验证集用于评估次级模型的训练情况，并以此调整次级模型的网络参数；针对留存训练验证子集一和留存训练验证子集二，根据时间先后顺序分别进行训练集和验证集的划分，训练集和验证集的数据量比例可为4︰1。

在步骤4中，所述在留存训练验证子集一上进行每个初级模型的训练和验证，并保存通过验证的四个初级模型的具体步骤可为：对于每种初级模型，首先为海表温度留存训练验证子集一构建监督学习关系，即：设在时间t进行某天海表温度的观测，那么t-n(n为正整数)代表其n天前观测的海表温度历史数据，以t-n，…，t-1，t的海表温度历史数据作为输入，而海表温度观测数据t+m(m为正整数)作为目标输出，从而构建监督学习关系；然后从网络关键参数经验范围中，通过网格搜索确定每个初级模型的关键参数值，对于MLP和LSTM主要有参数：隐藏层层数，每层神经元个数，训练迭代周期，每批次送入网络进行训练的样本数量，对应的网格搜索范围分别为(1，2，3)层，(10，20，30)个，(100，200，300，400)次和(32，64，128，256)个；对于CNN和CNNLSTM主要有参数：隐藏层层数，每层神经元个数，训练迭代周期，每批次送入网络进行训练的样本数量，滤波器个数，卷积核大小，对应的网格搜索范围分别为(1，2，3)层，(10，20，30)个，(100，200，300，400)次，(32，64，128，256)个，(16，32，64，128)个，和(1，3，5)；最后进行每个初级模型的训练，根据每个初级模型在留存训练验证子集一中验证集上的表现来评估模型，调整模型参数，并保存通过验证的四个初级模型。

在步骤5中，所述选取卷积长短时记忆(Convolutional LSTM,ConvLSTM)作为次级模型，分别加载保存的四个初级模型，在留存训练验证子集二上进行预测，以预测值作为次级模型的训练输入样本，训练和验证次级模型，并保存通过验证的次级模型的具体步骤可为：

首先分别加载保存的四个初级模型，按照时间序列海表温度留存训练验证子集一的监督学习关系构建方法，对留存训练验证子集二进行监督学习关系构建，并进行预测，形成次级模型的训练输入样本；然后从网络关键参数经验范围中，通过网格搜索确定次级模型ConvLSTM的网络关键参数，主要有隐藏层层数，训练迭代周期，每批次送入网络进行训练的样本数量，滤波器个数，卷积核大小等，对应的网格搜索范围分别为(1，2，3)层，(100，200，300，400)次，(32，64，128，256)个，(16，32，64，128)个，和(1，3，5)，使用四个初级模型在留存训练验证子集二上的预测值作为样本输入特征，留存训练验证子集二的海表温度观测值作为目标输出，进行训练，根据次级模型在留存训练验证子集二中验证集上的表现来评估模型，调整模型参数，并保存通过验证的次级模型。

本发明将集成学习中的堆叠法引入海表温度预测，首先对海表温度历史数据进行高斯归一化处理，然后在留存训练验证子集一上训练、验证每个初级模型，最后在留存训练验证子集二上使用通过验证的每个初级模型进行预测，形成次级模型的训练样本，训练并验证次级模型；以均方根误差指标来评估堆叠后次级模型ConvLSTM的预测能力，本发明可提升初级模型海表温度的预测能力，实现海表温度短期预测精度0.367℃。

相对于现有技术，本发明技术方案取得的有益效果是：对初级模型进行堆叠集成，训练次级模型进行预测，能够较好组合各种初级模型，发挥每种初级模型的优势，同时规避每种初级模型的缺点，实现集成后次级模型更好的预测表现。

附图说明

图1为某海域某位置1982-2019年海表温度的原始日平均数据；

图2为该海域位置海表温度历史数据高斯归一化处理后数据；

图3为初级模型MLP在该海域位置2020年海表温度预测结果(预测时间步长1天)；

图4为初级模型LSTM在该海域位置2020年海表温度预测结果(预测时间步长1天)；

图5为初级模型CNN在该海域位置2020年海表温度预测结果(预测时间步长1天)；

图6为初级模型CNNLSTM在该海域位置2020年海表温度预测结果(预测时间步长1天)；

图7为次级模型ConvLSTM在该海域位置2020年海表温度预测结果(预测时间步长1天)。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚，以下结合附图和实施例，对本发明做进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

本发明实施例包括以下步骤：

步骤1、将海表温度历史数据作为训练验证数据集，作高斯归一化处理。在本实施例中，具体为：

(1)本实施例中选取1982-2019年某海域某位置卫星反演的海表温度原始数据作为训练验证数据。

(2)对该海域位置1982-2019年海表温度原始数据进行高斯归一化处理。高斯归一化处理前后海表温度数据分别如图1和2所示。

步骤2、根据时间先后顺序，将归一化后的该海域位置1982-2019年共38年的训练验证数据集在时间上的前一半数据，即1982-2000年共19年的数据作为留存训练验证子集一，在时间上的后一半数据，即2001-2019年共19年的数据作为留存训练验证子集二。

步骤3、根据时间先后顺序，对于留存训练验证子集一，按照数据量4︰1划分训练集和验证集，同样地，对于留存训练验证子集二，也按照数据量4︰1划分训练集和验证集。

步骤4、在此实施例中，具体如下：

(1)设在时间t进行某天海表温度的观测，令n＝3，m＝1，即以t-3，t-2，t-1，和t的海表温度历史数据作为输入，而预测时间步长设置为1天，即海表温度数据t+1作为目标输出，为每种初级模型构建监督学习关系；

(2)使用网格搜索方法确定每种初级模型的关键参数如下：对于MLP，有隐藏层层数1层，每层神经元个数30，训练迭代周期300次，每批次送入网络进行训练的样本数量128个；对于LSTM，有隐藏层层数1层，每层神经元个数10个，训练迭代周期400次，每批次送入网络进行训练的样本数量64个；对于CNN，有隐藏层层数2层，每层神经元个数10个，训练迭代周期400次，每批次送入网络进行训练的样本数量64个，滤波器个数128个，卷积核大小3；对于CNNLSTM，有隐藏层层数2层，每层神经元个数20个，训练迭代周期300次，每批次送入网络进行训练的样本数量64个，滤波器个数64个，卷积核大小3；

(3)进行每个初级模型的训练，根据每个初级模型在留存训练验证子集一中验证集上的表现来评估模型，调整模型参数，并保存通过验证的四个初级模型。

步骤5、在此实施例中，具体如下：

(1)分别加载保存的四个初级模型；

(2)按照时间序列海表温度留存训练验证子集一的监督学习关系构建方法，对留存训练验证子集二进行监督学习关系构建，即：对于留存训练验证子集二以t-3，t-2，t-1，和t的海表温度历史数据作为输入，而海表温度数据t+1作为目标输出；

(3)使用每种初级模型进行预测，形成次级模型的训练输入样本；

(4)使用网格搜索方法确定次级模型ConvLSTM的关键参数如下：隐藏层层数2层，训练迭代周期400次，每批次送入网络进行训练的样本数量128个，滤波器个数64个，卷积核大小3；

(5)使用四个初级模型在留存训练验证子集二上的预测值作为样本输入特征，留存训练验证子集二的海表温度观测作为目标输出，进行训练，根据次级模型ConvLSTM在留存训练验证子集二中验证集上的表现来评估模型，调整模型参数，并保存通过验证的次级模型。

步骤6、以和步骤4和步骤5中相同的方式对某海域位置2020年海表温度日平均数据构建监督学习关系，使用通过验证的次级模型ConvLSTM进行预测。

根据实施例中步骤1-6，将训练验证的初级模型MLP、LSTM、CNN、CNNLSTM和次级模型ConvLSTM对某海域位置2020年海表温度日平均数据预测值与相应海表温度观测值分别进行比较，结果分别如图3～7所示。

使用均方根误差(Root Mean Square Error,RMSE)指标来评估初级模型MLP、LSTM、CNN、CNNLSTM，和堆叠后次级模型ConvLSTM在该海域位置2020年海表温度数据上的预测能力，RMSE计算公式如下：

其中，X表示海表温度观测值，Y表示海表温度预测值，N表示海表温度数据个数。

表2初级模型和次级模型的预测精度(预测时长1天)

从表2中指标RMSE可知，相比于各种初级模型的预测表现，次级模型ConvLSTM的预测RMSE更小，表明：使用堆叠法对初级模型进行集成，堆叠后模型ConvLSTM的预测能力得到提升，预测精度更高。

上述实施例仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种基于集成学习的海水表层温度预测方法，其特征在于包括以下步骤：

步骤4、分别选取MLP、LSTM、CNN和CNNLSTM作为初级模型，在留存训练验证子集一上进行每个初级模型的训练和验证，并保存通过验证的四个初级模型；

步骤5、选取ConvLSTM作为次级模型，分别加载保存的四个初级模型，在留存训练验证子集二上进行预测，以预测值作为次级模型的训练输入样本，训练和验证次级模型，并保存通过验证的次级模型；

2.如权利要求1所述一种基于集成学习的海水表层温度预测方法，其特征在于在步骤1中，所述高斯归一化处理的公式为：

3.如权利要求1所述一种基于集成学习的海水表层温度预测方法，其特征在于在步骤3中，所述根据时间先后顺序，对于留存训练验证子集一和留存训练验证子集二，分别划分训练集和验证集的具体步骤为：对于留存训练验证子集一，划分训练集和验证集，训练集用于训练每个初级模型，验证集用于评估每个初级模型的训练情况，并以此调整每个初级模型的网络参数；对于留存训练验证子集二，划分训练集和验证集，训练集用于训练次级模型，验证集用于评估次级模型的训练情况，并以此调整次级模型的网络参数；针对留存训练验证子集一和留存训练验证子集二，根据时间先后顺序分别进行训练集和验证集的划分。

4.如权利要求3所述一种基于集成学习的海水表层温度预测方法，其特征在于所述训练集和验证集的数据量比例为4︰1。

5.如权利要求1所述一种基于集成学习的海水表层温度预测方法，其特征在于在步骤4中，所述在留存训练验证子集一上进行每个初级模型的训练和验证，并保存通过验证的四个初级模型的具体步骤为：对于每种初级模型，首先为海表温度留存训练验证子集一构建监督学习关系，即：设在时间t进行某天海表温度的观测，那么t-n(n为正整数)代表其n天前观测的海表温度历史数据，以t-n，…，t-1，t的海表温度历史数据作为输入，而海表温度观测数据t+m(m为正整数)作为目标输出，从而构建监督学习关系；然后从网络关键参数经验范围中，通过网格搜索确定每个初级模型的关键参数值，对于MLP和LSTM包括参数：隐藏层层数、每层神经元个数、训练迭代周期、每批次送入网络进行训练的样本数量，对应的网格搜索范围分别为(1，2，3)层，(10，20，30)个，(100，200，300，400)次和(32，64，128，256)个；对于CNN和CNNLSTM包括参数：隐藏层层数、每层神经元个数、训练迭代周期、每批次送入网络进行训练的样本数量、滤波器个数、卷积核大小，对应的网格搜索范围分别为(1，2，3)层，(10，20，30)个，(100，200，300，400)次，(32，64，128，256)个，(16，32，64，128)个，和(1，3，5)；最后进行每个初级模型的训练，根据每个初级模型在留存训练验证子集一中验证集上的表现来评估模型，调整模型参数，并保存通过验证的四个初级模型。

6.如权利要求1所述一种基于集成学习的海水表层温度预测方法，其特征在于在步骤5中，所述选取ConvLSTM作为次级模型，分别加载保存的四个初级模型，在留存训练验证子集二上进行预测，以预测值作为次级模型的训练输入样本，训练和验证次级模型，并保存通过验证的次级模型的具体步骤为：

首先分别加载保存的四个初级模型，按照时间序列海表温度留存训练验证子集一的监督学习关系构建方法，对留存训练验证子集二进行监督学习关系构建，并进行预测，形成次级模型的训练输入样本；然后从网络关键参数经验范围中，通过网格搜索确定次级模型ConvLSTM的网络关键参数，包括隐藏层层数、训练迭代周期、每批次送入网络进行训练的样本数量、滤波器个数、卷积核大小，对应的网格搜索范围分别为(1，2，3)层，(100，200，300，400)次，(32，64，128，256)个，(16，32，64，128)个，和(1，3，5)，使用四个初级模型在留存训练验证子集二上的预测值作为样本输入特征，留存训练验证子集二的海表温度观测值作为目标输出，进行训练，根据次级模型在留存训练验证子集二中验证集上的表现来评估模型，调整模型参数，并保存通过验证的次级模型。