CN114139566A - 基于机器学习加权平均融合特征提取提高测高精度的方法 - Google Patents

基于机器学习加权平均融合特征提取提高测高精度的方法 Download PDF

Info

Publication number
CN114139566A
CN114139566A CN202110992190.XA CN202110992190A CN114139566A CN 114139566 A CN114139566 A CN 114139566A CN 202110992190 A CN202110992190 A CN 202110992190A CN 114139566 A CN114139566 A CN 114139566A
Authority
CN
China
Prior art keywords
fusion
model
regression model
machine learning
time delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110992190.XA
Other languages
English (en)
Inventor
郑伟
吴凡
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Space Technology CAST
Original Assignee
China Academy of Space Technology CAST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Space Technology CAST filed Critical China Academy of Space Technology CAST
Priority to CN202110992190.XA priority Critical patent/CN114139566A/zh
Publication of CN114139566A publication Critical patent/CN114139566A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

本发明公开了一种基于机器学习加权平均融合特征提取提高测高精度的方法,利用全球导航卫星系统反射计进行海面测高,能通过增加海洋表面观测的空间覆盖来改进海洋中尺度过程的观测和反演。为了弥补传统反演方法的不足,本发明基于机器学习融合模型结合特征提取的原理构建了以机载时延波形数据为输入,海面高度为输出的新型机器学习加权平均融合特征提取法。同时,基于时延波形数据集构建了HALF、DER两个与海面高度变化敏感的特征,并分析了不同信息细节的特征集对海面高度反演精度的影响。采用新型机器学习加权平均融合特征提取法能有效提高海面高度的反演精度,精度提高了约61%。

Description

基于机器学习加权平均融合特征提取提高测高精度的方法
技术领域
本发明属于卫星测高学、海洋测绘学等交叉技术领域,尤其涉及一种基于机器学习加权平均融合特征提取提高测高精度的方法。
背景技术
海面高度作为一种重要的海洋参数,对于全球潮汐模型的建立、观测大尺度海洋环流以及全球海平面变化监测等都具有重要作用。传统星载雷达高度计通过连续向地球发射雷达脉冲并接收海面回波的方式来获取海洋物理参数信息,具有覆盖率低、重复周期长、卫星成本较高等不足。GNSS-R技术是近年来海面测高中的新兴遥感技术,通过测量经海面的反射信号与直射信号之间的时延进行海面高度反演。1993年,Martin-Neira首次提出了PARIS(Passive reflectometry and interferometry system)概念,指出了利用GPS反射信号进行测高的可能性。与传统的遥感技术相比,GNSS-R海洋遥感技术以其信号源丰富、低成本、低功耗、全天候及高实时性的优点,在较大程度上弥补了现有海洋遥感技术的缺陷。目前,该技术已被用于海面高度、海风、海冰、土壤湿度等参数的探测。
近年来,英国TDS-1,美国CYGNSS和中国捕风号A/B双星的先后成功发射,标志着GNSS-R技术步入了探测全球地表参数的新阶段。作为被动接收遥感的星载GNSS-R技术具有低成本和全球范围监测等优点,在海面高度反演领域具有较大的发展前景。然而,目前世界上发射的星载GNSS-R接收卫星主要用途并非海面高度反演,卫星接收机并未对高度反演进行优化,因此限制了高精度星载GNSS-R海面高度反演的研究。而机载测高技术被视为星载测高技术的预研技术正在被广泛研究。根据天线装置不同,GNSS-R测高可分为基于单天线的自相关模式和基于双天线的互相关干涉模式。相比于单天线模式,双天线模式对观测平台的高度没有严格要求,应用场景和范围更广泛。通过分析2011 年CSIC-IEEC在芬兰波罗的海的GNSS-R机载实验数据,理论和试验结果均表明互相关干涉模式的测高精度比CA码自相关模式测高精度高。利用加利福尼亚州蒙特利湾的机载实验数据,分析了HALF、DER和PARA3三种重跟踪方法的测量精度,并建立了机载GNSS-R高度反演过程中涉及到的各种误差模型,结果表明,HALF方法产生了最精确的测量结果,相较于DTU平均海面高度的误差为1-4m。通过分析2011年11月11日CSIC-IEEC在芬兰波罗的海GNSS-R 机载实验数据,针对不同仰角下的实验数据进行反演,得出仰角大小会对测高结果精度产生较大影响的结论。利用2015年12月3日CSIC-IEEC在波罗的海采集的机载数据进行了海面高度反演,针对Z-V模型拟合法进行时延估计复杂度高的特点,提出了7-β模型和相应的时延估计方法。在以往的研究中通常采用HALF、DER、FIT等重跟踪方法进行GNSS-R海面高度反演,并通过分析反演模型中涉及到的各类误差,建立相应的误差模型来提高测高反演精度。 HALF、DER、FIT等重跟踪方法多为经验模型,往往依赖于有限的标量时延- 多普勒图(DDM)观测值,只能利用DDM的部分信息反演海面高度,影响测高估算精度。同时,建立各种误差模型使得反演模型较为复杂不宜实现。
相较于以往的反演模型,机器学习算法简单,可以建立多个观测量与海面高度关系,能够充分利用与海面高度反演相关的物理量且操作简单,在一定程度上弥补了传统反演方法的不足。机器学习(ML)是当今发展最快的技术领域之一,融合了计算机科学和统计学等多门学科,用于解决如何通过经验自动建立计算模型的问题。目前,机器学习算法也已经逐步融入到GNSS-R领域并取得了极佳效果。采用机器学习中的树模型算法建立了TDS-1(TechDemoSat-1) 观测数据到欧洲中期天气预报中心(ECMWF)分析场数据的映射模型,所得结果明显优于传统GNSS-R风速反演方法。将多隐层神经网络用于风速反演,并利用模拟数据和真实数据分析了DDM平均值(DDMA)、时延波形的前沿斜率(LES)以及入射角等特征对反演精度的影响。采用了XGBoost算法和GNSS-R 技术来反演土壤水分特征,并评估了高度角、信噪比、接收机增益等输入特征对于土壤水分反演模型的重要性。
然而,机器学习模型需要大量标记的观察来训练和构建模型。星载GNSS-R 接收机可以提供海量观测数据,但相应的高精度海面高度难以获得。同时,由于GNSS-R信号较弱,如何构建对SSH变化敏感的特征是机器学习融合模型进行SSH反演的另一个主要因素。
发明内容
本发明的技术解决问题:克服现有技术的不足,提供一种基于机器学习加权平均融合特征提取提高测高精度的方法,旨在提高海面测高精度。
为了解决上述技术问题,本发明公开了一种基于机器学习加权平均融合特征提取提高测高精度的方法,包括:
通过海面机载实验,获取机载时延波形数据;
根据机载时延波形数据,构建得到融合特征输入样本集,并确定融合特征输入样本集中各融合特征输入样本对应的融合特征输出样本;
根据融合特征输入样本集和融合特征输入样本集中各融合特征输入样本对应的融合特征输出样本,对各回归模型进行超参数的寻优,并得到各回归模型的最优输出;
根据各回归模型的最优输出与对应的融合特征输出样本的比较结果,筛选得到N个最优回归模型;
根据N个最优回归模型,构建得到R2-Ranking融合模型;
将获取的待测区域的机载时延波形数据作为R2-Ranking融合模型的输入,通过R2-Ranking融合模型对海面高度进行反演,输出相应的海面高度值。
在上述基于机器学习加权平均融合特征提取提高测高精度的方法中,根据机载时延波形数据,构建得到融合特征输入样本集,并确定融合特征输入样本集中各融合特征输入样本对应的融合特征输出样本,包括:
将机载时延波形数据与经潮汐改正后的DTU全球平均海面数据通过时间、经纬度进行时空匹配,得到原始样本集;其中,原始样本集中包括:原始输入样本、原始输出样本、原始输入样本与原始输出样本之间的对应关系;DTU全球平均海面数据由DTU模型提供;
采用皮尔逊相关系数法,对机载时延波形数据进行筛选,剔除掉与DTU全球平均海面数据相关系数小于0.1的特征,得到一次筛选输入样本;
采用主成分分析法,从一次筛选输入样本中提取得到累计贡献率不小于 98%的样本,作为二次筛选输入样本;
引入HALF特征和DER特征,将得到的若干个二次筛选输入样本、HALF 特征和DER特征作为融合特征输入样本,构建得到融合特征输入样本集;
根据原始样本集中原始输入样本与原始输出样本之间的对应关系,确定各融合特征输入样本对应的融合特征输出样本。
在上述基于机器学习加权平均融合特征提取提高测高精度的方法中, HALF特征是指归一化时延波形峰值τspec前沿70%能量值处的点所对应的时延位置;其中,归一化时延波形峰值τspec定义如下:
Figure RE-GDA0003486089080000041
其中,τ表示反射信号时延,W(τ)表示反射信号相关功率时延波形。
在上述基于机器学习加权平均融合特征提取提高测高精度的方法中,DER 特征是指时延波形前缘微分波形峰值τder处的点所对应的时延位置;其中,时延波形前缘微分波形峰值τder定义如下:
Figure RE-GDA0003486089080000042
其中,τ表示反射信号时延,W(τ)表示反射信号相关功率时延波形。
在上述基于机器学习加权平均融合特征提取提高测高精度的方法中,回归模型,包括:单一回归模型和集成树回归模型;
单一回归模型,包括:线性回归模型、ElasticNet回归模型和支持向量机 SVR回归模型;其中,线性回归模型,包括:Lasso回归模型和Ridge回归模型;
集成树回归模型,包括:基于Boost集成思想的梯度提升决策树GBDT回归模型、极限梯度提升决策树XGBoost回归模型、轻梯度提升机集成树LightGBM回归模型和基于Bagging集成思想的随机森林集成树RF回归模型。
在上述基于机器学习加权平均融合特征提取提高测高精度的方法中,采用网格搜索和K折交叉验证法,对各回归模型进行超参数的寻优。
在上述基于机器学习加权平均融合特征提取提高测高精度的方法中,根据各回归模型的最优输出与对应的融合特征输出样本的比较结果,筛选得到N个最优回归模型,包括:
根据各回归模型的最优输出与对应的融合特征输出样本的比较结果,确定个回归模型的可决系数;
根据确定的各回归模型的可决系数,筛选得到反演效果最好的N个不同类别的最优回归模型。
在上述基于机器学习加权平均融合特征提取提高测高精度的方法中,根据 N个最优回归模型,构建得到R2-Ranking融合模型,包括:
确定各最优回归模型在融合特征输入样本集上的可决系数;
根据确定的各最优回归模型对应的可决系数,确定各最优回归模型的权重;
根据确定的各最优回归模型的权重,构建得到得到R2-Ranking融合模型。
在上述基于机器学习加权平均融合特征提取提高测高精度的方法中, R2-Ranking融合模型表式如下:
Figure RE-GDA0003486089080000051
其中,H(x)表示R2-Ranking融合模型的输出结果,ML_modeli表示第i个最优回归模型的输出结果序列,Feateure_set表示融合特征输入样本,Wi表示第i个最优回归模型对应的权重。
在上述基于机器学习加权平均融合特征提取提高测高精度的方法中,
Figure RE-GDA0003486089080000052
其中,
Figure RE-GDA0003486089080000053
表示第i个最优回归模型对应的可决系数;
Figure RE-GDA0003486089080000061
其中,ML_modeli,mean表示第i个最优回归模型的输出结果序列的均值,A表示DTU模型提供的SSH值验证序列。
本发明具有以下优点:
(1)本发明公开了一种基于机器学习加权平均融合特征提取提高测高精度的方法,与以往的反演模型相比,本发明基于机器学习加权平均融合模型进行海面高度的反演,模型算法简单,且无需建立多个误差模型。
(2)本发明公开了一种基于机器学习加权平均融合特征提取提高测高精度的方法,可以建立多个观测量与海面高度关系,能够充分利用与海面高度反演相关的物理量,以提高反演精度。
(3)本发明公开了一种基于机器学习加权平均融合特征提取提高测高精度的方法,与传统的反演方法相比,本发明采用的机器学习加权平均融合模型,反演效果更好,精度更高。
附图说明
图1是本发明实施例中一种基于机器学习加权平均融合特征提取提高测高精度的方法的步骤流程图;
图2是本发明实施例中一种飞行轨迹及相应的海面高度示意图;
图3是本发明实施例中一种不同回归模型预报结果的误差曲线示意图;
图4是本发明实施例中一种XGBoost回归模型、RF回归模型和Ridge回归模型预报结果与相关性散点的示意图;
图5是本发明实施例中一种融合模型预报结果与相关性散点示意图;
图6是本发明实施例中一种Averaging融合模型在不同数据集的实验结果示意图;
图7是本发明实施例中一种R2-Ranking融合模型在不同数据集的实验结果示意图;
图8是本发明实施例中一种Stacking融合模型在不同数据集的实验结果示意图;
图9是本发明实施例中一种融合模型预测性能的极坐标图;
图10是本发明实施例中一种R2-Ranking融合模型和HALF、DER单点跟踪方法的实验结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明公开的实施方式作进一步详细描述。
本发明的核心思想之一在于:引入机器学习中融合模型辅助GNSS-R进行延迟重跟踪和海面高度反演,并通过增加DDM可利用信息来提高测高精度。基于机器学习海面高度的反演本质是监督式学习的非线性回归问题,本发明首先分析了单一回归模型(如,线性回归模型、ElasticNet回归模型和支持向量机 SVR回归模型等)和集成树回归模型(如,GBDT回归模型、XGBoost回归模型、LightGBM回归模型、RF回归模型)等机器学习中常用回归模型的高度反演精度。在此基础上,选择高度反演效果较佳且相关度较低的回归模型(如 RandomForests、XGBoost和Ridge模型)进行融合,以提升融合模型的高度反演精度。进一步的,融合方式采用R2-Ranking方法进行加权融合,权重通过各回归模型在融合特征输入样本集上交叉验证的可决系数分配。此外,为了得到更适合海面高度反演模型的融合特征输入样本集,采用特征构建的方法构建了包含HALF和DER两个与海面高度变化敏感的特征的融合特征输入样本集,并分析了不同信息细节的特征的融合特征输入样本集对海面高度反演精度的影响。
采用机器学习算法建立海面高度预测模型,本质是监督学习回归问题,即用带有标签的测高数据集作为训练集训练模型,观察训练好的模型在测试集上的表现效果来对模型进行优化,最后实现对未知数据的预测。
如图1,在本实施例中,该基于机器学习加权平均融合特征提取提高测高精度的方法主要由特征优化、模型融合和模型应用三部分组成,具体实现流程如下:
步骤101,通过海面机载实验,获取机载时延波形数据。
例如,在一具体实例中,可以选择2015年12月3日西班牙IEEC在波罗的海开展的海面机载实验所获得的数据作为机载时延波形数据,DW数据。
步骤102,根据机载时延波形数据,构建得到融合特征输入样本集,并确定融合特征输入样本集中各融合特征输入样本对应的融合特征输出样本。
在本实施例中,特征优化是指通过使用特征工程中的方法筛选和构建与海面高度相关的特征,进而构建得到融合特征输入样本集。具体的:
a)数据匹配
可以将机载时延波形数据与经潮汐改正后的DTU全球平均海面数据通过时间、经纬度进行时空匹配,进而得到原始样本集。其中,原始样本集中具体可以包括:原始输入样本、原始输出样本、原始输入样本与原始输出样本之间的对应关系。DTU全球平均海面数据由DTU模型提供。
b)特征优化
由于机载时延波形数据存在特征维度大、冗余度高、相邻特征间相关性较强、存在大量特征与DTU模型相关性较差等问题,故需要对机载时延波形数据进行优化处理:采用皮尔逊相关系数法,对机载时延波形数据进行筛选,剔除掉与DTU全球平均海面数据相关系数小于0.1的特征,得到一次筛选输入样本;采用主成分分析法,从一次筛选输入样本中提取得到累计贡献率不小于98%的样本,作为二次筛选输入样本;进一步的,为了提取到包含足够信息的特征,在DW数据的基础上构造了HALF和DER两个与海面高度变化敏感的特征来提升融合模型的精度,即,引入HALF特征和DER特征,将得到的若干个二次筛选输入样本、HALF特征和DER特征作为融合特征输入样本,构建得到融合特征输入样本集。
HALF特征是指归一化时延波形峰值τspec前沿70%能量值处的点所对应的时延位置。归一化时延波形峰值τspec定义如下:
Figure RE-GDA0003486089080000081
DER特征是指时延波形前缘微分波形峰值τder处的点所对应的时延位置。时延波形前缘微分波形峰值τder定义如下:
Figure RE-GDA0003486089080000091
其中,τ表示反射信号时延,W(τ)表示反射信号相关功率时延波形。
c)最后,根据原始样本集中原始输入样本与原始输出样本之间的对应关系,确定各融合特征输入样本对应的融合特征输出样本。
步骤103,根据融合特征输入样本集和融合特征输入样本集中各融合特征输入样本对应的融合特征输出样本,对各回归模型进行超参数的寻优,并得到各回归模型的最优输出。
在本实施例中,考虑到海面高度反演主要使用了机器学习中监督学习的回归方法,故选择了线性回归模型和集成树回归模型等回归模型进行后续的模型融合。其中,回归模型具体可以包括:单一回归模型和集成树回归模型。单一回归模型具体可以包括:线性回归模型(如,Lasso回归模型和Ridge回归模型)、 ElasticNet回归模型和支持向量机SVR(Support Vector Regression,SVR)回归模型。集成树回归模型具体可以包括:基于Boost集成思想的梯度提升决策树 GBDT(Gradient Boosting Decision Tree,GBDT)回归模型、极限梯度提升决策树XGBoost(Extreme Gradient Boosting,XGBoost)回归模型、轻梯度提升机集成树LightGBM(Light Gradient Boosting Machine,LightGBM)回归模型和基于Bagging集成思想的随机森林集成树RF(Random Forests,RF)回归模型。
步骤104,根据各回归模型的最优输出与对应的融合特征输出样本的比较结果,筛选得到N个最优回归模型。.
在本实施例中,可以采用网格搜索和K折交叉验证法,对各回归模型进行超参数的寻优。进一步的,根据各回归模型的最优输出与对应的融合特征输出样本的比较结果,确定个回归模型的可决系数;根据确定的各回归模型的可决系数,筛选得到反演效果最好的N个不同类别的最优回归模型。
步骤105,根据N个最优回归模型,构建得到R2-Ranking融合模型。
在本实施例中,R2-Ranking融合模型即:基于回归模型(学习器)在融合特征输入样本集上的交叉验证误差改进的一种加权平均融合模型。型采用准确性较高的、相关度较低的单一回归模型进行融合,以提升模型的测高精度。
优选的,R2-Ranking融合模型的具体过程构建如下:
a)确定各最优回归模型在融合特征输入样本集上的可决系数。其中,可决系数是机器学习回归模型中常用的性能评价指标,反映了机器学习回归模型对输入数据的拟合程度,可决系数越接近1表示机器学习回归模型对输入数据的拟合优度越好。
b)根据确定的各最优回归模型对应的可决系数,确定各最优回归模型的权重。根据可决系数确定权重的方法可以理解为,在不发生过拟合的前提下,可决系数越大,融合模型的效果越好,测高精度越高。
c)根据确定的各最优回归模型的权重,构建得到得到R2-Ranking融合模型。
优选的,R2-Ranking融合模型可以表式如下:
Figure RE-GDA0003486089080000101
其中,H(x)表示R2-Ranking融合模型的输出结果,ML_modeli表示第i个最优回归模型的输出结果序列,Feateure_set表示融合特征输入样本,Wi表示第i个最优回归模型对应的权重。
进一步的,
Figure RE-GDA0003486089080000102
其中,
Figure RE-GDA0003486089080000104
表示第i个最优回归模型对应的可决系数,有:
Figure RE-GDA0003486089080000103
其中,ML_modeli,mean表示第i个最优回归模型的输出结果序列的均值,A表示DTU模型提供的SSH值验证序列。
步骤106,将获取的待测区域的机载时延波形数据作为R2-Ranking融合模型的输入,通过R2-Ranking融合模型对海面高度进行反演,输出相应的海面高度值。
在上述实施例的基础上,下面对R2-Ranking融合模型的精度评定进行说明。
在本实施例中,可以将通过R2-Ranking融合模型得到的输出结果(预测值) 与DTU模型提供的SSH值验证序列(真实值)进行比较,采用平均绝对误差 (MAD)、均方根误差(RMSE)和皮尔逊相关系数(CC)对R2-Ranking融合模型的精度进行评定。其中,MAD和RMSE值越小,表明预测值与真实值拟合程度越好,两者的误差越小;CC越接近1表明R2-Ranking融合模型与DTU 模型的相关性越好。
其中:
Figure RE-GDA0003486089080000111
Figure RE-GDA0003486089080000112
Figure RE-GDA0003486089080000113
其中,T表示R2-Ranking融合模型得到的输出结果(预测值);Tj表示 R2-Ranking融合模型的第j个的预测值,Aj表示与Tj对应的DTU模型的第j个真实值;预测值与真实值的数量相同,均为n;Cov(T,A)表示预测值与验证值的协方差;σT表示预测的方差,σA表示真实值的方差。
在上述实施例的基础上,下面对该基于机器学习加权平均融合特征提取提高测高精度的方法的验证和应用进行说明。
验证
1、数据集
(1.1)机载时延波形数据
机载时延波形数据来自2015年12月3日西班牙IEEC在波罗的海开展的机载实验。实验期间,飞行高度约3km,速度约50m/s。直射和反射的GNSS 信号分别通过安装在飞机顶部的RHCP(Right Handed Circular Polarization)和腹部的LHCP(Left Handed CircularPolarization)的8阵元天线接收,并通过射频模块下变频到19.42MHz的中频信号后进行1bit量化和存储。通过互相关干涉的方法将GPS直射和海面反射信号互相关得到一维时延波形。
本发明采用了2015年12月3日10:52:42-11:21:41的GPS PRN1号卫星。为了避免飞机转向所造成的影响,去除了飞机转向的数据,只选取飞机沿直线飞行时的数据作为本次实验分析。图2给出飞机在两个时间段的飞行轨迹。共分析了两个时间段的飞行数据,第一个实验数据时间段为GPS时间 384702s-385121s(图2中的B-C段),第二个实验数据时间段为GPS时间 385542s-386501s(图2中的A-D段)。
(2)DTU模型
在进行机载GNSSS-R海面高度反演时,需要与实测海面数据进行对比验证,确定机载海面高度反演精度。由于缺乏实测数据,故应用验证模型来验证海面高度反演精度。本发明使用由丹麦技术大学开发的全球平均海面模型 DTU15与俄勒冈州立大学(OSU)提供的TPXO8全球海潮模型组成的DTU15 模型作为验证模型。由验证模型得到的海面高度(SSH)可表示为:
SSH=DTU15+TPXOtide
其中,TPXOtide表示由TPXO8全球海潮模型计算的潮汐改正。
(3)数据集匹配与划分
机载时延波形数据是连续的时变数据集,而DTU15平均海面模型则是一个经纬度均为1′的网格数据。因此,需要先将机载时延波形数据与DTU15平均海面模型进行时空间(经纬度)匹配,提取与机载时延波形数据对应的DTU15 平均海面值,然后利用TPXO8全球海潮模型计算与机载时延波形相同时间和经纬度的潮汐改正,并叠加到DTU15平均海平面上得到DTU15验证模型的海面高度值SSH。机载时延波形数据与相应的海面高度值SSH构成原始样本集。将原始样本集划分为训练集、验证集和测试集三部分,以第二个时间段(GPST:385542s-386501s)实验数据中80%的数据作为训练数据进行模型训练;以剩下的20%的数据作为验证数据,用于模型超参数的优选和对模型的性能进行初步评估。以第一个时间段(GPST:384702s-385121s)实验数据作为测试数据用于评估最终模型的泛化能力。
2、不同机器学习回归模型的测高精度分析
(2.1)不同机器学习回归模型的训练结果分析
本发明使用多种机器学习回归模型(如,线性回归模型和集成树回归模型等),建立了机载时延波形数据到DTU15验证模型之间的映射关系,通过各机器学习回归模型在验证集上的可决系数来优选超参数并初步评估模型的性能。经过5折交叉验证训练后得到以上各机器学习回归模型训练汇总,可以看出集成树回归模型的拟合优度明显高于线性回归模型。
在本实施例的具体实例中,XGBoost回归模型获得最高的拟合优度0.95,说明经过XGBoost回归模型训练后,模型能从输入因子中发掘到解释目标因子变化95%的解释信息。而在线性回归模型中,Ridge回归模型获得最高的模型拟合优度0.78,说明经过线性回归训练后,模型能从输入因子中发掘到解释目标因子变化78%的解释信息。
(2.2)不同机器学习回归模型的泛化能力分析
采用测试集中的数据对训练好的机器学习回归模型的泛化能力进行评估,来验证各机器学习回归模型的最终效果。各机器学习回归模型的高度反演结果经过曲线拟合后与相应的DTU15模型提供的海面高度值做差得到如图3所示的误差曲线图。由图3可以看到,集成树回归模型的预报误差整体较小,其中XGBoost回归模型的预报结果最好;在线性回归模型中,Ridge回归模型的反演结果最好。同时可以看到不同类型回归模型的反演误差具有较大的差异性,集成树回归模型的预报误差在时间轴360-410s之间具有明显向下的凸起,而线性回归模型误差则有一个明显向上的凸起。这主要是由于训练数据中有一段数据的缺失导致了数据阶跃所产生。同时集成树回归模型和线性回归模型不同的算法规则也会导致两种回归模型对数据信息挖掘的侧重点不同。
3、机器学习融合模型的测高精度分析
(3.1)单一模型与融合模型精度的对比分析
融合模型采用准确性较高的、相关度较低的XGBoost回归模型、RF回归模型和Ridge回归模型三种回归模型进行融合以进一步提升模型效果。使用三种模型融合方法Averaging、Stacking和R2-Ranking;其中,Averaging和 R2-Ranking只是对多个模型结果进行融合,而Stacking需要对多个模型结果采用次学习器学习,需要指定次学习器。本发明Stacking融合模型的基学习器采用XGBoost回归模型、RF回归模型学习器,次学习器采用Ridge回归模型学习器。
如图4和图5,给出了XGBoost回归模型、RF回归模型和Ridge回归模型三种回归模型及其融合模型的预报结果对比图(左图),以及预报结果与DTU15 模型的海面高度值的相关性散点图(右图)。从图4和图5中可以看出,三种回归模型相较于单一回归模型都表示出良好的预测效果,R2-Ranking和Stacking 的预测结果与DTU15模型较接近,反演误差较小,R2-Ranking和Averaging模型的反演结果与DTU15模型的相关性较好分别为0.74和0.75。综上所述,就本发明而言R2-Ranking融合模型的反演效果最好。
为了验证融合模型的鲁棒性,更换三次五折交叉验证种子数,重新进行实验。更换随机种子数相当于重新切分原始数据集,在新的数据集上再次训练基学习器。最后通过仍在测试集上的反演结果对比三种融合方法的效果。计算不同模型三次预测结果的性能指标,看出三种融合模型的鲁棒性都较好,三次实验各模型的MAD、RMSE和PCC基本未发生明显变化,三次实验的结果基本一致。Averaging、R2-Ranking和Stacking融合模型的反演效果几乎总是优于单一模型,说明融合进一步提升了模型效果。
4、不同特征对模型精度的影响
在数据挖掘与机器学习领域,一般认为数据和特征决定机器学习的上限,模型只能无限逼近该上限。因此,为了选取与海面高度敏感的特征,使用了六组具有不同信息细节的特征集进行模型训练,并在测试集上验证其精度。如图 6、图7和图8,分别为Averaging、R2-Ranking和Stacking融合模型在六组不同特征集的预报结果(经曲线拟合后)对比图。由图可以看出,三种融合模型在包含最多特征信息的特征集6并没有取得最优的反演效果,而在由DW数据、 HALF和DER特征组成的特征集5上表现出最好的反演效果。说明特征集为5 的机器学习融合模型能更好地学习原始输入特征之间的复杂关系,从而准确地反演高度。
计算三种融合模型在六组数据集上性能指标,可以看出特征集5的MAD 和RMSE均为所有数据集中最小的,即三种融合模型在数据集5上的反演结果最精确。同时,数据集5的反演结果与DTU15模型的相关性也是六组数据集中最好的。为了更直观地对比三种模型在各数据集上的反演精度,利用极坐标系的方式对实验结果进行了可视化,如图9所示。
应用
基于机器学习融合模型和特征优化的新型GNSS-R海面高度反演模型利用了整个时延波形的信息进行高度反演。传统单点跟踪法则是通过确定反射波形特征点在时延窗内的位置估计时延,已被用于海面测高的波形特征点有微分波形峰值(DER)和0.7分位点(HALF)。为了验证新型机器学习加权平均融合特征提取法相对于传统海面反演方法的优越性,本发明对比了新型机器学习加权平均融合特征提取法和传统单点重跟踪法的反演精度。传统单点跟踪法分别利用DER和HALF特征点估计了反射信号相对于直射信号的时延差,并采用海面高度反演方法,校正了测量时延中对流层延迟以及天线之间距离误差。图 10给出了HALF、DER重跟踪方法和机器学习R2-Ranking融合模型反演的海面高度。由图10可以看出机器学习融合模型的反演结果明显优于HALF、DER 单点重跟踪方法。同时,机器学习融合模型并不需要考虑时延中的各种误差校正,在一定程度上简化了高度反演的复杂度。机器学习融合模型在MAD、RMSE 和CC上均明显优于HALF和DER单点重跟踪法。应用新型机器学习加权平均融合特征提取法有效提高了海面高度反演精度,其中MAD和RMSE约提高了61%;CC约提高了44%。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

Claims (10)

1.一种基于机器学习加权平均融合特征提取提高测高精度的方法,其特征在于,包括:
通过海面机载实验,获取机载时延波形数据;
根据机载时延波形数据,构建得到融合特征输入样本集,并确定融合特征输入样本集中各融合特征输入样本对应的融合特征输出样本;
根据融合特征输入样本集和融合特征输入样本集中各融合特征输入样本对应的融合特征输出样本,对各回归模型进行超参数的寻优,并得到各回归模型的最优输出;
根据各回归模型的最优输出与对应的融合特征输出样本的比较结果,筛选得到N个最优回归模型;
根据N个最优回归模型,构建得到R2-Ranking融合模型;
将获取的待测区域的机载时延波形数据作为R2-Ranking融合模型的输入,通过R2-Ranking融合模型对海面高度进行反演,输出相应的海面高度值。
2.根据权利要求1所述的基于机器学习加权平均融合特征提取提高测高精度的方法,其特征在于,根据机载时延波形数据,构建得到融合特征输入样本集,并确定融合特征输入样本集中各融合特征输入样本对应的融合特征输出样本,包括:
将机载时延波形数据与经潮汐改正后的DTU全球平均海面数据通过时间、经纬度进行时空匹配,得到原始样本集;其中,原始样本集中包括:原始输入样本、原始输出样本、原始输入样本与原始输出样本之间的对应关系;DTU全球平均海面数据由DTU模型提供;
采用皮尔逊相关系数法,对机载时延波形数据进行筛选,剔除掉与DTU全球平均海面数据相关系数小于0.1的特征,得到一次筛选输入样本;
采用主成分分析法,从一次筛选输入样本中提取得到累计贡献率不小于98%的样本,作为二次筛选输入样本;
引入HALF特征和DER特征,将得到的若干个二次筛选输入样本、HALF特征和DER特征作为融合特征输入样本,构建得到融合特征输入样本集;
根据原始样本集中原始输入样本与原始输出样本之间的对应关系,确定各融合特征输入样本对应的融合特征输出样本。
3.根据权利要求2所述的基于机器学习加权平均融合特征提取提高测高精度的方法,其特征在于,HALF特征是指归一化时延波形峰值τspec前沿70%能量值处的点所对应的时延位置;其中,归一化时延波形峰值τspec定义如下:
Figure FDA0003232757960000021
其中,τ表示反射信号时延,W(τ)表示反射信号相关功率时延波形。
4.根据权利要求2所述的基于机器学习加权平均融合特征提取提高测高精度的方法,其特征在于,DER特征是指时延波形前缘微分波形峰值τder处的点所对应的时延位置;其中,时延波形前缘微分波形峰值τder定义如下:
Figure FDA0003232757960000022
其中,τ表示反射信号时延,W(τ)表示反射信号相关功率时延波形。
5.根据权利要求1所述的基于机器学习加权平均融合特征提取提高测高精度的方法,其特征在于,回归模型,包括:单一回归模型和集成树回归模型;
单一回归模型,包括:线性回归模型、ElasticNet回归模型和支持向量机SVR回归模型;其中,线性回归模型,包括:Lasso回归模型和Ridge回归模型;
集成树回归模型,包括:基于Boost集成思想的梯度提升决策树GBDT回归模型、极限梯度提升决策树XGBoost回归模型、轻梯度提升机集成树LightGBM回归模型和基于Bagging集成思想的随机森林集成树RF回归模型。
6.根据权利要求1所述的基于机器学习加权平均融合特征提取提高测高精度的方法,其特征在于,采用网格搜索和K折交叉验证法,对各回归模型进行超参数的寻优。
7.根据权利要求1所述的基于机器学习加权平均融合特征提取提高测高精度的方法,其特征在于,根据各回归模型的最优输出与对应的融合特征输出样本的比较结果,筛选得到N个最优回归模型,包括:
根据各回归模型的最优输出与对应的融合特征输出样本的比较结果,确定个回归模型的可决系数;
根据确定的各回归模型的可决系数,筛选得到反演效果最好的N个不同类别的最优回归模型。
8.根据权利要求1所述的基于机器学习加权平均融合特征提取提高测高精度的方法,其特征在于,根据N个最优回归模型,构建得到R2-Ranking融合模型,包括:
确定各最优回归模型在融合特征输入样本集上的可决系数;
根据确定的各最优回归模型对应的可决系数,确定各最优回归模型的权重;
根据确定的各最优回归模型的权重,构建得到得到R2-Ranking融合模型。
9.根据权利要求8所述的基于机器学习加权平均融合特征提取提高测高精度的方法,其特征在于,R2-Ranking融合模型表式如下:
Figure FDA0003232757960000031
其中,H(x)表示R2-Ranking融合模型的输出结果,ML_modeli表示第i个最优回归模型的输出结果序列,Feateure_set表示融合特征输入样本,Wi表示第i个最优回归模型对应的权重。
10.根据权利要求9所述的基于机器学习加权平均融合特征提取提高测高精度的方法,其特征在于,
Figure FDA0003232757960000032
其中,
Figure FDA0003232757960000033
表示第i个最优回归模型对应的可决系数;
Figure FDA0003232757960000034
其中,ML_modeli,mean表示第i个最优回归模型的输出结果序列的均值,A表示DTU模型提供的SSH值验证序列。
CN202110992190.XA 2021-08-27 2021-08-27 基于机器学习加权平均融合特征提取提高测高精度的方法 Pending CN114139566A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110992190.XA CN114139566A (zh) 2021-08-27 2021-08-27 基于机器学习加权平均融合特征提取提高测高精度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110992190.XA CN114139566A (zh) 2021-08-27 2021-08-27 基于机器学习加权平均融合特征提取提高测高精度的方法

Publications (1)

Publication Number Publication Date
CN114139566A true CN114139566A (zh) 2022-03-04

Family

ID=80393671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110992190.XA Pending CN114139566A (zh) 2021-08-27 2021-08-27 基于机器学习加权平均融合特征提取提高测高精度的方法

Country Status (1)

Country Link
CN (1) CN114139566A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115308386A (zh) * 2022-07-18 2022-11-08 中国科学院地理科学与资源研究所 一种基于cygnss卫星数据的土壤盐分反演方法和系统
CN115508867A (zh) * 2022-09-07 2022-12-23 湖北第二师范学院 Gnss-r接收机双天线信号协同相关处理系统及方法
CN117272843A (zh) * 2023-11-22 2023-12-22 中国石油大学(华东) 基于随机森林的gnss-r海面风速反演方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115308386A (zh) * 2022-07-18 2022-11-08 中国科学院地理科学与资源研究所 一种基于cygnss卫星数据的土壤盐分反演方法和系统
CN115308386B (zh) * 2022-07-18 2023-04-07 中国科学院地理科学与资源研究所 一种基于cygnss卫星数据的土壤盐分反演方法和系统
CN115508867A (zh) * 2022-09-07 2022-12-23 湖北第二师范学院 Gnss-r接收机双天线信号协同相关处理系统及方法
CN115508867B (zh) * 2022-09-07 2023-06-09 湖北第二师范学院 Gnss-r接收机双天线信号协同相关处理系统及方法
CN117272843A (zh) * 2023-11-22 2023-12-22 中国石油大学(华东) 基于随机森林的gnss-r海面风速反演方法及系统
CN117272843B (zh) * 2023-11-22 2024-02-02 中国石油大学(华东) 基于随机森林的gnss-r海面风速反演方法及系统

Similar Documents

Publication Publication Date Title
CN114139566A (zh) 基于机器学习加权平均融合特征提取提高测高精度的方法
CN106355151B (zh) 一种基于深度置信网络的三维sar图像目标识别方法
JP7438655B2 (ja) 気象解析装置、気象解析方法、およびプログラム
CN103743402B (zh) 一种基于地形信息量的水下智能自适应地形匹配方法
Bao et al. Detection of ocean internal waves based on Faster R-CNN in SAR images
WO2018168165A1 (ja) 気象予測装置、気象予測方法、およびプログラム
CN112946784B (zh) 一种基于深度学习的SuperDARN雷达对流图短期预报方法
Wang et al. A new GNSS-R altimetry algorithm based on machine learning fusion model and feature optimization to improve the precision of sea surface height retrieval
CN104280566A (zh) 基于空时幅相估计的低空风切变风速估计方法
CN103235890A (zh) 卫星短时临近降水预报系统及降水预报方法
Fan et al. A comparative study of four merging approaches for regional precipitation estimation
CN114187533A (zh) 一种基于随机森林时序分类的GB-InSAR大气改正方法
CN114594440A (zh) 基于双并行网络的雷达高分辨率一维距离像目标识别方法及系统
CN114511061A (zh) 基于深度神经网络的岸滨地区海雾能见度预报方法
Alqudah et al. Investigating rainfall estimation from radar measurements using neural networks
Hristova-Veleva et al. Assimilation of DAWN Doppler wind lidar data during the 2017 Convective Processes Experiment (CPEX): Impact on precipitation and flow structure
Zhang et al. Wind direction retrieval from CYGNSS L1 level sea surface data based on machine learning
CN115421220A (zh) 一种基于深度学习的多因子局部降水指示方法及系统
Nagarajan Explorations into machine learning techniques for precipitation nowcasting
Guo et al. Exploring photon-counting laser altimeter ICESat-2 in retrieving LAI and correcting clumping effect
CN114063063A (zh) 基于合成孔径雷达和点状传感器的地质灾害监测方法
Liu et al. A machine learning framework for real data GNSS-R wind speed retrieval
CN117592381B (zh) 一种大气波导参数反演模型训练方法、装置、设备及介质
Liu et al. GNSS-R global sea surface wind speed retrieval based on deep learning
Zhang et al. Research on sea surface wind speed FM based on CYGNSS and HY-2B microwave scatterometer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination