CN111353633A

CN111353633A - 基于机器学习的密跃层预测方法

Info

Publication number: CN111353633A
Application number: CN202010089350.5A
Authority: CN
Inventors: 杨嘉琛; 吕彩云
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2020-06-30

Abstract

本发明涉及一种基于机器学习的密跃层预测方法，包括以下步骤：(1)选定数据源，确定密度跃层，将数据格式化存储；确定训练集的选取比例，利用三次样条插值平滑温度、盐度数据：训练集的选取比例确定为0.45，采用三次样条曲线插值方法对盐度和温度数据进行插值平滑预处理，从而获得均匀分布的盐度、温度数据；利用特征缩放加快梯度收敛；优化SVM算法参数及进行特征排序。

Description

基于机器学习的密跃层预测方法

技术领域

本发明属海水密度跃层检测领域，涉及基于机器学习的密跃层预测方法。

背景技术

随着海洋数据呈现爆炸式增长，利用海洋观测资料对海洋密度跃层进行数据分析对军事领域具有重要意义。但是，由于自然环境因素，很多时候得到的海洋水文数据并不完整。在此情况下，如何通过部分数据预测待分析的海洋水文数据成为了海洋科学研究的热点。

发明内容

本发明提出一种基于机器学习的密跃层预测方法。技术方案如下：

一种基于机器学习的密跃层预测方法，方法包括以下步骤：

(1)选定数据源，确定密度跃层，将数据格式化存储：选取包括海洋温度、盐度数据的海洋数据集，从中选取0-500m深度范围内的数据作为训练集与测试集，根据海洋密度算法计算所需要的密度数据，将密度梯度定义为G，根据G与密度D、深度d以及层数n之间的关系求出密度梯度G，设立一个标记号flag，用来记录在某层密度是否有较大变化，如果有则将该列设为1，从而根据设立的标记号flag确定密度跃层，形成包含深度，压力，温度，盐度，密度，经度，纬度，日期，密度梯度G，标记号flag的数据集进行存储；

(2)确定训练集的选取比例，利用三次样条插值平滑温度、盐度数据：训练集的选取比例确定为0.45，采用三次样条曲线插值方法对盐度和温度数据进行插值平滑预处理，从而获得均匀分布的盐度、温度数据；

(3)利用特征缩放加快梯度收敛；

(4)优化SVM算法参数及进行特征排序：利用基于变步长网格搜索算法来确定SVM模型的超参数C和gamma，在作为第一次搜索的粗搜步骤下得到的最优解满足局部最优解的超参数C和gamma；从第二次搜索开始，将寻优起始点设定为上一次得到的最优解处，步长设定为上一次步长的百分之20。如此往复，直至找到满足全局最优解的超参数C和gamma；采取高斯核RBF作为核函数，针对每个单独的特征和响应变量结合得到的超参数建立预测模型，分别让每个特征与响应变量做模型分析并得到误差率，最后对每个特征的分数进行排序，从而能够的到对密度跃层影响最大的特征数据。

对比传统的对于密度跃层的选择，利用机器学习的方法可以使用较少的已知数据对密度跃层进行预测。本发明所提出的基于机器学习的密跃层预测方法，结合机器学习的多项式回归模型及Kernel-SVM算法对海洋水文数据进行训练并预测，得到了良好的精准度。

附图说明

图1本发明整体框架图

图2多项式回归曲线

具体实施方式

本发明提出一种基于机器学习的密跃层预测方法，其整体框架如图1所示。具体方法包括以下步骤：

第一步：选择Argo数据集，根据海洋密度算法计算海洋密度。本发明采用中国Argo实时数据中心发布的2004-2010年范围内的Argo3d网格数据集，根据海洋密度的分布特征，选取0-500m深度范围内的数据作为训练集与测试集(因为海洋密度在深度大于500米以后趋于稳定，密度梯度变化小)。根据海洋密度算法计算海洋密度(ρ，kg/m³)，计算方式如公式(1)

其中，ρ表示海洋密度，S表示盐度，t表示温度，P表示压力，ρ＝(S,t,0)表示在标准大气压P＝0下的海水密度。K(S,t,P)表示正割体积模量。

ρ(S,t,0)＝ρw+At×S+Bt×S³²+C×S²

ρw＝999.842594+6.793952×10^-2t-9.095290×10^-3t²+1.001685×10^-4t³-1.120083×10^-6t⁴+6.536332×10^-9t⁵

At＝8.24493×10^-1-4.0899×10^-3t+7.6438×10^-5t²-8.2467×10^-7t³+5.3875×10^-9t⁴

Bt＝-5.72466×10^-3+1.0227×10^-4t-1.6546×10^-6t²

K(S,t,P)＝K(S,t,0)+As+(Bs)²

K(S,t,0)＝kw+Et×S+Ft×S³²

其中，ρw表示标准平均海水密度，At，Bt表示随时间变化的盐度系数，C表示常量，C＝4.8314×10^-4，K(S,t,0)表示在标准大气压P＝0时的正割体积模量，As，Bs，Aw，Bw均表示时间和盐度的函数，kw，Et，Ft表示随时间变化的方程。

As＝Aw+(2.2838×10^-3-1.0981×10^-5t-1.6078×10^-6t²)S+1.91075×10^-4S²³

Bs＝Bw+(-9.9348×10^-7+2.0816×10^-8t+9.1697×10^-10t²)S

Aw＝3.239908+1.43713×10^-3t+1.16092×10^-4t²-5.77905×10^-7t³

Bw＝8.50935×10^-5-6.12293×10^-6t+5.2787×10^-8t²

kw＝19652.21+148.4206t+1.3360477×10^-2t³-5.155288×10^-5t⁴

Et＝54.6746-0.603459t+1.09987×10^-2t²-6.1670×10^-5t³

Ft＝7.994×10^-2+1.6483×10^-2t-5.3009×10^-4t²

第二步：确定密跃层，格式化存储海洋数据。本发明根据《中国海洋调查规范规定》中采用的垂向梯度法确定密度跃层。本发明将密度梯度定义为G，密度梯度G与密度D、深度d(或压力)以及层数n之间的关系如公式(2)。在水深大于200米时定义G≥0.015、水深小于200米时G≥0.1处即为密度跃层。本发明设立了一个标记号flag，用来记录在该层(深度)密度是否有较大变化，如果有则将该列设为1，从而确定密度跃层，形成一个如表1所示的12列数据格式的数据进行存储。

表1预处理数据格式

预处理行数	预处理特征
		1	深度(m)
2	压力(dbar)
		3	温度(摄氏度)
4	盐度
		5	密度(kg/m<sup>3</sup>)
6	经度
		7	纬度
8	年
		9	月
10	日
		11	密度梯度G
12	标记号flag

G可以是正的，也可以是负的，对于密跃层，简化为G＝|G|＞0

当计算深度为第一层时，定义密度梯度G＝0。密度梯度的选择如表2所示。

表2密度梯度选择

第三步：利用多项式回归确定训练集比例，三次样条插值平滑数据。

通过多项式回归进行训练集的比例选择，选取测试集与训练集之间的比例为自变量X，精确度为因变量Y进行多项式回归，并引入混淆矩阵来代表判定误差及精确度，获取最佳的训练集比例0.45。本发明引入混淆矩阵来代表判定误差及精确度。混淆矩阵的每一列代表了预测类别，每一列的总数表示预测为该类别的数据的数目；每一行代表了数据的真实归属类别，每一行的数据总数表示该类别的数据实例的数目。本发明为在最大程度上保证预测模型不会出现过拟合现象，通过多项式回归进行训练集的比例选择。本发明选取测试集与训练集之间的比例为自变量X，精确度为因变量Y进行多项式回归。在拟合曲线时，为了更精确同时也防止过拟合，使用了7次方为最佳比例，得到如图(2)所示的多项式回归曲线。从回归曲线可知，当训练集比例为0.45时，密跃层预测达到最佳精准度，因此，本发明将训练集与测试集的比值设为0.45，即在3500个样本中随机抽取1925个样本作为训练集，1575个样本为测试集。

本发明采用三次样条曲线插值方法对温度和盐度数据进行插值平滑预处理，从而获得均匀分布的盐度、温度数据。首先，本发明将0-500m的温度、盐度数据分成4000份，但是4000份数据不一定是均匀分布的，然后利用Python的样条插值函数得到平滑曲线。具体来说，我们需要找到一个三项式多项式来近似每一对数据点之间的曲线。三次样条函数f(x)是一个分段三次多项式，其表达式如公式(3)

第四步：利用特征缩放加快梯度收敛。本发明在训练过程中，发现深度这一列数据的数量级为0-500，而其它列数据只有0-50数量级。所以在做训练及拟合过程中，数值较大的特征值将影响计算欧式距离的长度，这导致了程序运行时间较长，梯度的收敛过程变得极其缓慢。因此本发明对数据集的进行预处理，将所用到的数据进行特征缩放，利用python自带的StandardScaler函数库中的sc.transform()函数，并利用公式(4)寻找中心，并将大部分数据缩放到-3至3之间，加快梯度收敛的速度。

其中，X_n表示第n个特性，即X的第n维特征，μ_n表示平均值特性，δ表示标准偏差。

第五步：基于变步长网格搜索算法的SVM参数寻优过程。本发明采用了一种变步长的网格搜索算法来确定超参数C和gamma。变步长网格搜索算法在传统基础上将寻优过程分为粗搜和细搜两步。首先通过设定较大的搜索步距进行初步搜索，该粗搜步骤下的最优解将得到满足局部最优解的超参数C和gamma。若同时有不同的C值和gamma值使得最后的准确率维持在同一水平时，我们将会在保证gamma值变动不大条件下选择C值较大的那一组。从第二次搜索开始，我们将寻优起始点设定为上一次得到的最优解处，步长设定为上一次步长的百分之20。搜索范围变动为新的局部最优解C和gamma左右相邻5个步长范围内。如此往复，直至找到满足全局最优解的超参数C和gamma。核支持向量机的核函数有多项式核、Sigmoid核、高斯核RBF三种形式。

多项式核函数：K(X,Y)＝(γ·X^TY+r)^d,γ＞0

Sigmoid核函数：K(X,Y)＝tanh(γ·X^TY+r)

高斯RBF核函数：

本发明采取高斯核RBF作为核函数，因其相比于多项式核函数具有参数少、相比于Sigmoid核函数具有计算速度快的优点，对于数据中的噪音还有着较好的抗干扰能力。

第六步：基于学习模型的特征排序。本发明针对每个单独的特征和响应变量结合得到的超参数建立预测模型，随后分别让每个特征与响应变量做模型分析并得到误差率，最后对每个特征的分数进行排序，排序结果如表3所示。

表3基于学习模型的特征排序

从表中可以看出，在密度未知的情况下，深度(压力)和温度是与密度跃层最相关的特征变量。

第七步：模型对比与分析。本发明选取了对密度影响最大的深度和温度作为输入特征，将基于变步长网格搜索SVM算法、传统SVM方法(C＝1，gamma＝1/10)、传统NuSVC算法、KNN算法、Logistic算法、朴素贝叶斯算法进行了对比，得到如表(4)所示，从而分析出基于变步长网格搜索SVM算法能够在密度数据未知的情况下较好的预测密度跃层的位置。

表4模型准确度对比

本发明在现阶段对密度跃层研究的基础上，将核函数与SVM结合拓展为非线性学习器，并基于此来训练已知密度跃层训练集，从而得到一个精确地模型来预测未知领域内的密度跃层。本发明利用海洋密度算法对原始的温盐数据进行密度计算，并且将原始开源的Argo数据结构进行特征提取。本发明将分类问题与回归问题进行了结合，用多项式回归确定了训练集、测试集比例。本发明对温度、盐度数据进行特征缩放加快梯度收敛，并且提出了一种变步长的网格搜索算法来确定SVM模型的超参数C和gamma。本发明提出基于学习的特征排序算法，在海洋密度数据未知的情况下，分析各特征对海洋密度跃层影响程度。

Claims

1.一种基于机器学习的密跃层预测方法，方法包括以下步骤：

(1)选定数据源，确定密度跃层，将数据格式化存储：选取包括海洋温度、盐度数据的海洋数据集，从中选取0-500m深度范围内的数据作为训练集与测试集，根据海洋密度算法计算所需要的密度数据，将密度梯度定义为G，根据G与密度D、深度d以及层数n之间的关系求出密度梯度G，设立一个标记号flag，用来记录在某层密度是否有较大变化，如果有则将该列设为1，从而根据设立的标记号flag确定密度跃层，形成包含深度，压力，温度，盐度，密度，经度，纬度，日期，密度梯度G，标记号flag的数据集进行存储。

(3)利用特征缩放加快梯度收敛；