CN111353633A - 基于机器学习的密跃层预测方法 - Google Patents
基于机器学习的密跃层预测方法 Download PDFInfo
- Publication number
- CN111353633A CN111353633A CN202010089350.5A CN202010089350A CN111353633A CN 111353633 A CN111353633 A CN 111353633A CN 202010089350 A CN202010089350 A CN 202010089350A CN 111353633 A CN111353633 A CN 111353633A
- Authority
- CN
- China
- Prior art keywords
- data
- density
- salinity
- temperature
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000010801 machine learning Methods 0.000 title claims abstract description 11
- 238000009499 grossing Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000010845 search algorithm Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000013535 sea water Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于机器学习的密跃层预测方法,包括以下步骤:(1)选定数据源,确定密度跃层,将数据格式化存储;确定训练集的选取比例,利用三次样条插值平滑温度、盐度数据:训练集的选取比例确定为0.45,采用三次样条曲线插值方法对盐度和温度数据进行插值平滑预处理,从而获得均匀分布的盐度、温度数据;利用特征缩放加快梯度收敛;优化SVM算法参数及进行特征排序。
Description
技术领域
本发明属海水密度跃层检测领域,涉及基于机器学习的密跃层预测方法。
背景技术
随着海洋数据呈现爆炸式增长,利用海洋观测资料对海洋密度跃层进行数据分析对军事领域具有重要意义。但是,由于自然环境因素,很多时候得到的海洋水文数据并不完整。在此情况下,如何通过部分数据预测待分析的海洋水文数据成为了海洋科学研究的热点。
发明内容
本发明提出一种基于机器学习的密跃层预测方法。技术方案如下:
一种基于机器学习的密跃层预测方法,方法包括以下步骤:
(1)选定数据源,确定密度跃层,将数据格式化存储:选取包括海洋温度、盐度数据的海洋数据集,从中选取0-500m深度范围内的数据作为训练集与测试集,根据海洋密度算法计算所需要的密度数据,将密度梯度定义为G,根据G与密度D、深度d以及层数n之间的关系求出密度梯度G,设立一个标记号flag,用来记录在某层密度是否有较大变化,如果有则将该列设为1,从而根据设立的标记号flag确定密度跃层,形成包含深度,压力,温度,盐度,密度,经度,纬度,日期,密度梯度G,标记号flag的数据集进行存储;
(2)确定训练集的选取比例,利用三次样条插值平滑温度、盐度数据:训练集的选取比例确定为0.45,采用三次样条曲线插值方法对盐度和温度数据进行插值平滑预处理,从而获得均匀分布的盐度、温度数据;
(3)利用特征缩放加快梯度收敛;
(4)优化SVM算法参数及进行特征排序:利用基于变步长网格搜索算法来确定SVM模型的超参数C和gamma,在作为第一次搜索的粗搜步骤下得到的最优解满足局部最优解的超参数C和gamma;从第二次搜索开始,将寻优起始点设定为上一次得到的最优解处,步长设定为上一次步长的百分之20。如此往复,直至找到满足全局最优解的超参数C和gamma;采取高斯核RBF作为核函数,针对每个单独的特征和响应变量结合得到的超参数建立预测模型,分别让每个特征与响应变量做模型分析并得到误差率,最后对每个特征的分数进行排序,从而能够的到对密度跃层影响最大的特征数据。
对比传统的对于密度跃层的选择,利用机器学习的方法可以使用较少的已知数据对密度跃层进行预测。本发明所提出的基于机器学习的密跃层预测方法,结合机器学习的多项式回归模型及Kernel-SVM算法对海洋水文数据进行训练并预测,得到了良好的精准度。
附图说明
图1本发明整体框架图
图2多项式回归曲线
具体实施方式
本发明提出一种基于机器学习的密跃层预测方法,其整体框架如图1所示。具体方法包括以下步骤:
第一步:选择Argo数据集,根据海洋密度算法计算海洋密度。本发明采用中国Argo实时数据中心发布的2004-2010年范围内的Argo3d网格数据集,根据海洋密度的分布特征,选取0-500m深度范围内的数据作为训练集与测试集(因为海洋密度在深度大于500米以后趋于稳定,密度梯度变化小)。根据海洋密度算法计算海洋密度(ρ,kg/m3),计算方式如公式(1)
其中,ρ表示海洋密度,S表示盐度,t表示温度,P表示压力,ρ=(S,t,0)表示在标准大气压P=0下的海水密度。K(S,t,P)表示正割体积模量。
ρ(S,t,0)=ρw+At×S+Bt×S32+C×S2
ρw=999.842594+6.793952×10-2t-9.095290×10-3t2+1.001685×10-4t3-1.120083×10-6t4+6.536332×10-9t5
At=8.24493×10-1-4.0899×10-3t+7.6438×10-5t2-8.2467×10-7t3+5.3875×10-9t4
Bt=-5.72466×10-3+1.0227×10-4t-1.6546×10-6t2
K(S,t,P)=K(S,t,0)+As+(Bs)2
K(S,t,0)=kw+Et×S+Ft×S32
其中,ρw表示标准平均海水密度,At,Bt表示随时间变化的盐度系数,C表示常量,C=4.8314×10-4,K(S,t,0)表示在标准大气压P=0时的正割体积模量,As,Bs,Aw,Bw均表示时间和盐度的函数,kw,Et,Ft表示随时间变化的方程。
As=Aw+(2.2838×10-3-1.0981×10-5t-1.6078×10-6t2)S+1.91075×10-4S23
Bs=Bw+(-9.9348×10-7+2.0816×10-8t+9.1697×10-10t2)S
Aw=3.239908+1.43713×10-3t+1.16092×10-4t2-5.77905×10-7t3
Bw=8.50935×10-5-6.12293×10-6t+5.2787×10-8t2
kw=19652.21+148.4206t+1.3360477×10-2t3-5.155288×10-5t4
Et=54.6746-0.603459t+1.09987×10-2t2-6.1670×10-5t3
Ft=7.994×10-2+1.6483×10-2t-5.3009×10-4t2
第二步:确定密跃层,格式化存储海洋数据。本发明根据《中国海洋调查规范规定》中采用的垂向梯度法确定密度跃层。本发明将密度梯度定义为G,密度梯度G与密度D、深度d(或压力)以及层数n之间的关系如公式(2)。在水深大于200米时定义G≥0.015、水深小于200米时G≥0.1处即为密度跃层。本发明设立了一个标记号flag,用来记录在该层(深度)密度是否有较大变化,如果有则将该列设为1,从而确定密度跃层,形成一个如表1所示的12列数据格式的数据进行存储。
表1预处理数据格式
预处理行数 | 预处理特征 |
1 | 深度(m) |
2 | 压力(dbar) |
3 | 温度(摄氏度) |
4 | 盐度 |
5 | 密度(kg/m<sup>3</sup>) |
6 | 经度 |
7 | 纬度 |
8 | 年 |
9 | 月 |
10 | 日 |
11 | 密度梯度G |
12 | 标记号flag |
G可以是正的,也可以是负的,对于密跃层,简化为G=|G|>0
当计算深度为第一层时,定义密度梯度G=0。密度梯度的选择如表2所示。
表2密度梯度选择
第三步:利用多项式回归确定训练集比例,三次样条插值平滑数据。
通过多项式回归进行训练集的比例选择,选取测试集与训练集之间的比例为自变量X,精确度为因变量Y进行多项式回归,并引入混淆矩阵来代表判定误差及精确度,获取最佳的训练集比例0.45。本发明引入混淆矩阵来代表判定误差及精确度。混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。本发明为在最大程度上保证预测模型不会出现过拟合现象,通过多项式回归进行训练集的比例选择。本发明选取测试集与训练集之间的比例为自变量X,精确度为因变量Y进行多项式回归。在拟合曲线时,为了更精确同时也防止过拟合,使用了7次方为最佳比例,得到如图(2)所示的多项式回归曲线。从回归曲线可知,当训练集比例为0.45时,密跃层预测达到最佳精准度,因此,本发明将训练集与测试集的比值设为0.45,即在3500个样本中随机抽取1925个样本作为训练集,1575个样本为测试集。
本发明采用三次样条曲线插值方法对温度和盐度数据进行插值平滑预处理,从而获得均匀分布的盐度、温度数据。首先,本发明将0-500m的温度、盐度数据分成4000份,但是4000份数据不一定是均匀分布的,然后利用Python的样条插值函数得到平滑曲线。具体来说,我们需要找到一个三项式多项式来近似每一对数据点之间的曲线。三次样条函数f(x)是一个分段三次多项式,其表达式如公式(3)
第四步:利用特征缩放加快梯度收敛。本发明在训练过程中,发现深度这一列数据的数量级为0-500,而其它列数据只有0-50数量级。所以在做训练及拟合过程中,数值较大的特征值将影响计算欧式距离的长度,这导致了程序运行时间较长,梯度的收敛过程变得极其缓慢。因此本发明对数据集的进行预处理,将所用到的数据进行特征缩放,利用python自带的StandardScaler函数库中的sc.transform()函数,并利用公式(4)寻找中心,并将大部分数据缩放到-3至3之间,加快梯度收敛的速度。
其中,Xn表示第n个特性,即X的第n维特征,μn表示平均值特性,δ表示标准偏差。
第五步:基于变步长网格搜索算法的SVM参数寻优过程。本发明采用了一种变步长的网格搜索算法来确定超参数C和gamma。变步长网格搜索算法在传统基础上将寻优过程分为粗搜和细搜两步。首先通过设定较大的搜索步距进行初步搜索,该粗搜步骤下的最优解将得到满足局部最优解的超参数C和gamma。若同时有不同的C值和gamma值使得最后的准确率维持在同一水平时,我们将会在保证gamma值变动不大条件下选择C值较大的那一组。从第二次搜索开始,我们将寻优起始点设定为上一次得到的最优解处,步长设定为上一次步长的百分之20。搜索范围变动为新的局部最优解C和gamma左右相邻5个步长范围内。如此往复,直至找到满足全局最优解的超参数C和gamma。核支持向量机的核函数有多项式核、Sigmoid核、高斯核RBF三种形式。
多项式核函数:K(X,Y)=(γ·XTY+r)d,γ>0
Sigmoid核函数:K(X,Y)=tanh(γ·XTY+r)
本发明采取高斯核RBF作为核函数,因其相比于多项式核函数具有参数少、相比于Sigmoid核函数具有计算速度快的优点,对于数据中的噪音还有着较好的抗干扰能力。
第六步:基于学习模型的特征排序。本发明针对每个单独的特征和响应变量结合得到的超参数建立预测模型,随后分别让每个特征与响应变量做模型分析并得到误差率,最后对每个特征的分数进行排序,排序结果如表3所示。
表3基于学习模型的特征排序
从表中可以看出,在密度未知的情况下,深度(压力)和温度是与密度跃层最相关的特征变量。
第七步:模型对比与分析。本发明选取了对密度影响最大的深度和温度作为输入特征,将基于变步长网格搜索SVM算法、传统SVM方法(C=1,gamma=1/10)、传统NuSVC算法、KNN算法、Logistic算法、朴素贝叶斯算法进行了对比,得到如表(4)所示,从而分析出基于变步长网格搜索SVM算法能够在密度数据未知的情况下较好的预测密度跃层的位置。
表4模型准确度对比
本发明在现阶段对密度跃层研究的基础上,将核函数与SVM结合拓展为非线性学习器,并基于此来训练已知密度跃层训练集,从而得到一个精确地模型来预测未知领域内的密度跃层。本发明利用海洋密度算法对原始的温盐数据进行密度计算,并且将原始开源的Argo数据结构进行特征提取。本发明将分类问题与回归问题进行了结合,用多项式回归确定了训练集、测试集比例。本发明对温度、盐度数据进行特征缩放加快梯度收敛,并且提出了一种变步长的网格搜索算法来确定SVM模型的超参数C和gamma。本发明提出基于学习的特征排序算法,在海洋密度数据未知的情况下,分析各特征对海洋密度跃层影响程度。
Claims (1)
1.一种基于机器学习的密跃层预测方法,方法包括以下步骤:
(1)选定数据源,确定密度跃层,将数据格式化存储:选取包括海洋温度、盐度数据的海洋数据集,从中选取0-500m深度范围内的数据作为训练集与测试集,根据海洋密度算法计算所需要的密度数据,将密度梯度定义为G,根据G与密度D、深度d以及层数n之间的关系求出密度梯度G,设立一个标记号flag,用来记录在某层密度是否有较大变化,如果有则将该列设为1,从而根据设立的标记号flag确定密度跃层,形成包含深度,压力,温度,盐度,密度,经度,纬度,日期,密度梯度G,标记号flag的数据集进行存储。
(2)确定训练集的选取比例,利用三次样条插值平滑温度、盐度数据:训练集的选取比例确定为0.45,采用三次样条曲线插值方法对盐度和温度数据进行插值平滑预处理,从而获得均匀分布的盐度、温度数据;
(3)利用特征缩放加快梯度收敛;
(4)优化SVM算法参数及进行特征排序:利用基于变步长网格搜索算法来确定SVM模型的超参数C和gamma,在作为第一次搜索的粗搜步骤下得到的最优解满足局部最优解的超参数C和gamma;从第二次搜索开始,将寻优起始点设定为上一次得到的最优解处,步长设定为上一次步长的百分之20。如此往复,直至找到满足全局最优解的超参数C和gamma;采取高斯核RBF作为核函数,针对每个单独的特征和响应变量结合得到的超参数建立预测模型,分别让每个特征与响应变量做模型分析并得到误差率,最后对每个特征的分数进行排序,从而能够的到对密度跃层影响最大的特征数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089350.5A CN111353633A (zh) | 2020-02-12 | 2020-02-12 | 基于机器学习的密跃层预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089350.5A CN111353633A (zh) | 2020-02-12 | 2020-02-12 | 基于机器学习的密跃层预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111353633A true CN111353633A (zh) | 2020-06-30 |
Family
ID=71194251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010089350.5A Pending CN111353633A (zh) | 2020-02-12 | 2020-02-12 | 基于机器学习的密跃层预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353633A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116595806A (zh) * | 2023-07-14 | 2023-08-15 | 江西师范大学 | 一种自适应温度数据补全方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063563A (zh) * | 2014-07-16 | 2014-09-24 | 国家海洋局第一海洋研究所 | 多线段最小二乘拟合计算海洋跃层特征值的方法 |
-
2020
- 2020-02-12 CN CN202010089350.5A patent/CN111353633A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063563A (zh) * | 2014-07-16 | 2014-09-24 | 国家海洋局第一海洋研究所 | 多线段最小二乘拟合计算海洋跃层特征值的方法 |
Non-Patent Citations (3)
Title |
---|
JIACHEN YANG ET AL: "Prediction of Marine Pycnocline Based on Kernel Support Vector Machine and Convex Optimization Technology", 《SENSORS》 * |
勾毓: "基于Argo海洋数据的温跃层处理方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》 * |
王健等: "基于支持向量机的机械零件剩余寿命区间估计", 《东北大学学报(自然科学版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116595806A (zh) * | 2023-07-14 | 2023-08-15 | 江西师范大学 | 一种自适应温度数据补全方法 |
CN116595806B (zh) * | 2023-07-14 | 2023-10-10 | 江西师范大学 | 一种自适应温度数据补全方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321957B (zh) | 融合三元组损失和生成对抗网络的多标签图像检索方法 | |
CN108985335B (zh) | 核反应堆包壳材料辐照肿胀的集成学习预测方法 | |
CN111639878B (zh) | 一种基于知识图谱构建的滑坡风险预测方法及系统 | |
CN107528824B (zh) | 一种基于二维度稀疏化的深度信念网络入侵检测方法 | |
Schirmann et al. | Data-driven models for vessel motion prediction and the benefits of physics-based information | |
CN111259943A (zh) | 基于机器学习的温跃层预测方法 | |
CN113807562A (zh) | 海洋表面温度的预测方法 | |
CN116484747A (zh) | 一种基于自适应优化算法与深度学习的污水智能监控方法 | |
CN111353633A (zh) | 基于机器学习的密跃层预测方法 | |
CN109146007B (zh) | 一种基于动态深度置信网络的固体废弃物智能处理方法 | |
CN116486285B (zh) | 一种基于类别掩码蒸馏的航拍图像目标检测方法 | |
CN116993548A (zh) | 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统 | |
CN114972959B (zh) | 深度学习中样本生成和类内排序损失的遥感图像检索方法 | |
He et al. | Improving BP neural network for the recognition of face direction | |
CN113779287B (zh) | 基于多阶段分类器网络的跨域多视角目标检索方法及装置 | |
CN115238577A (zh) | 基于材料基因工程的描述符筛选及晶体材料物性预测方法 | |
CN115457269A (zh) | 一种基于改进DenseNAS的语义分割方法 | |
CN114298160A (zh) | 一种基于孪生知识蒸馏与自监督学习的小样本分类方法 | |
Kavipriya et al. | Adaptive weight deep convolutional neural network (AWDCNN) classifier for predicting student’s performance in job placement process | |
CN115393388A (zh) | 一种基于位置不确定性估计的单目标跟踪方法 | |
Hidayanto et al. | Oceanographic features selection to predict the tuna potential fishing zones using SFFS method | |
CN116424508B (zh) | 基于gd加权融合rbfnn和随机森林的船舶稳性预报方法和系统 | |
CN117421562B (zh) | 海洋溶解氧含量时空分布预测方法、系统、介质及设备 | |
Ma | Parameter tuning using gaussian processes | |
Semenikhin et al. | Learning to rank based on modified genetic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200630 |