CN112380781B - 基于再分析资料和不平衡学习的卫星观测补全方法 - Google Patents

基于再分析资料和不平衡学习的卫星观测补全方法 Download PDF

Info

Publication number
CN112380781B
CN112380781B CN202011373173.XA CN202011373173A CN112380781B CN 112380781 B CN112380781 B CN 112380781B CN 202011373173 A CN202011373173 A CN 202011373173A CN 112380781 B CN112380781 B CN 112380781B
Authority
CN
China
Prior art keywords
data
model
function
completion
satellite
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011373173.XA
Other languages
English (en)
Other versions
CN112380781A (zh
Inventor
任开军
卢竞择
李小勇
赵延来
邓科峰
任小丽
赵文朋
黄丽蓝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202011373173.XA priority Critical patent/CN112380781B/zh
Publication of CN112380781A publication Critical patent/CN112380781A/zh
Application granted granted Critical
Publication of CN112380781B publication Critical patent/CN112380781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于再分析资料和不平衡学习的卫星观测补全方法,本方法中提出了R2S框架,用再分析资料中的相关变量模拟卫星观测,从而填补卫星观测的空缺,在R2S框架下,利用STM方法构建R‑S数据集,得到适用于热带气旋海面风速的卫星观测补全模型,R2S框架可显著提高卫星观测的空间覆盖率和时间分辨率;本发明还提出了SIMBA方法,通过不平衡学习来提高补全模型在高风速下的性能,并与常规机器学习结合,得到混合补全模型,混合模型在高风速补全方面优于常规机器学习模型,在中低风速补全方面优于不平衡学习模型,且混合模型的补全结果接近现场观测值,补全结果准确。

Description

基于再分析资料和不平衡学习的卫星观测补全方法
技术领域
本发明涉及卫星观测技术领域,尤其涉及一种基于再分析资料和不平衡学习的卫星观测补全方法。
背景技术
卫星观测,指低轨道人造地球卫星使用遥感方法,对地球表面观察并测量所得到的数据。科学卫星和气象卫星大多在低轨道上运行,低轨道卫星遥感影像的空间分辨率高,轨道周期更短,能够在短的时间内覆盖全球,有较强的全球观测能力。但是,低轨道卫星的观测刈幅有限,某一时间只能观测部分地球表面,无法连续观测全球。因此,低轨道卫星观测中,空间覆盖度和时间分辨率的不足,且存在大量的空缺。这些卫星观测的空缺,会导致无法连续观测海面风场等在全球范围内广泛分布的地球表面现象。对于热带气旋(Tropical Cyclones,TC)这一分布范围广、变化速度快的天气系统的海面风场,现有的卫星观测更难以满足对其时空连续性的需求。
现有技术中,土壤水分主被动(SoilMoisture Active Passive,SMAP)卫星携带了一个低频L波段辐射计,能够观测风暴条件下的海面风速。虽然SMAP有大约1000公里宽的连续扫描范围,但覆盖全球仍需两三天时间。TC等极端天气系统的变化迅速,SMAP的空间覆盖和时间分辨率仍不能满足实际需求。如图1所示,从2018年9月10日22:09到2018年9月11日10:14,SMAP仅观测到飓风FLORENCE两次,反映了时间分辨率的不足。同时,SMAP只观测到FLORENCE风场的一部分,说明其对TC的空间覆盖不足。
为了解决卫星观测空间覆盖度和时间分辨率的不足,研究人员提出了各种方法来填补卫星数据的空白。现有补全技术可以分为两类,即单源法和多源法,前者只使用目标卫星的观测数据,后者还引入了其他来源的数据作为辅助。绝大多数方法不能显著提高卫星观测的空间覆盖率和时间分辨率。此外,它们也不适合填补TC风速等空间分布不均匀和快速变化的对象的观测空缺。
目前的卫星观测补全研究,大多忽视了卫星遥感观测数据的不平衡问题,在使用机器学习等数据驱动的研究方法时,会得到不平衡的模型。为了解决不平衡问题,学者们提出了不平衡学习技术,提高了预测模型对罕见域的预测能力,取得了比不考虑不平衡问题时更好的效果。处理不平衡问题基本策略有两种:预处理方法和损失敏感学习方法。
预处理方法可分为两种,第一种是重采样方法,第二种是特征选择和提取方法。重采样方法比较灵活和简洁,具有较好的通用性,但最优采样频率难以确定,有些重采样方法需要设置不止一个超参数,和后续训练时所需的超参数叠加后会形成更大的超参数空间,加大模型训练的时间开销。特征选择是从整个特征空间中选取一部分特征来训练模型的方法。其优点是降低特征空间的维度,简化模型,减缓过拟合,加快训练速度,特别适用于少量高维的数据集;缺点是引入了特征提取操作的复杂性,彻底损失了部分特征维度,其降维比较粗糙。
损失敏感学习的核心思想是增大罕见域损失相比于常见域损失的比例,迫使模型将更多注意力集中在罕见域,具体方法包括修改决策阈值、改变目标函数、优化学习算法。敏感损失学习的主要局限性在于难以确定损失矩阵的值、损失函数的具体形式等关键元素。
发明内容
本发明的目的是为了解决现有技术中由于测量设备的限制、环境的干扰以及数据更新的延迟或丢失等各种因素,大多数卫星观测存在数据空白的问题,而提出的一种基于再分析资料和不平衡学习的卫星观测补全方法,以提高地球表面监测的空间覆盖率和时间分辨率,并通过不平衡学习,提高卫星观测数据的准确性。
为了实现上述目的,本发明采用了如下技术方案:
基于再分析资料和不平衡学习的卫星观测补全方法包括以下步骤:
步骤一:构建再分析到卫星(Reanalysis to Satellite,R2S)框架,使用再分析资料中的变量模拟卫星观测来实现补全;
步骤二:在R2S框架中,结合时空匹配(Spatial Temporal Match,STM)的通用方法,以构建再分析-卫星(Reanalysis-Satellite,R-S)数据集,然后通过匹配再分析资料和卫星观测数据,训练补全模型;
步骤三:基于R-S数据集,利用半不平衡(Semi-imbalanced,SIMBA)的新方法,将传统的机器学习与不平衡学习相结合,解决补全中的数据不平衡问题。
在上述步骤进行前,需要对R2S框架、STM方法以及SIMBA方法中的问题进行定义。
(1)R2S框架问题设定
本发明中只考虑靠近地球表面的再分析资料和卫星观测,因为将二者在空间上都视为二维的。首先,本发明形式化定义卫星观测。卫星观测可以看作一个时间序列
Figure BDA0002807409140000021
卫星观测的平面格网可以定义为一个二维矩阵:
Figure BDA0002807409140000022
其中sr和sc分别表示卫星观测格网的行数和列数。
卫星观测的值是连续的数值,其大小是时间坐标和空间二维坐标的函数:
Figure BDA0002807409140000031
不同的卫星观测数据有不同的物理含义和取值范围。TC海面风速的物理含义是指在海拔10米处的等效中性风速,根据历史记录,TC海面风速的范围为0m/s至100m/s左右。
在时刻的卫星观测值的平面格网也是一个二维矩阵:
Figure BDA0002807409140000032
整个卫星观测数据集可以看作一个时间序列
Figure BDA0002807409140000033
进一步的,接着形式化定义再分析资料。再分析资料的变量是一个向量Vall=[v1,...,vw],其中w是变量的数量。用户可以从Vall中选择m个和卫星观测有关的变量,记作Vrele={vi|vi∈Vall,vi与s相关}(|Vrele|=m)。这些相关变量是影响卫星所观测物体的环境变量。
它们具有不同的物理含义和取值范围。例如,对于TC海面风速,海面温度(SST)是再分析资料中的相关变量之一。海面温度的物理含义是指接近海面的水温。一般情况下,TC需要在SST至少约26.5℃的情况下存在.再分析资料的时刻也可以表示为时间序列
Figure BDA0002807409140000034
Figure BDA0002807409140000035
的元素。和卫星观测类似,其平面格网也可以定义为一个二维矩阵:
Figure BDA0002807409140000036
其中,rr和rc分别表示再分析资料格网中行和列的数量。对于任何一个再分析资料变量,它可以是分类变量,也可以是离散数值变量,还可以是连续数值变量。其值是时间、横纵坐标和具体变量的函数。
Figure BDA0002807409140000037
在特定时刻和地点的再分析资料是一个包含所有被选择变量的向量rijk=[rijk1,...,rijkm]。
Figure BDA0002807409140000038
时刻的再分析资料的平面格网也是一个二维矩阵:
Figure BDA0002807409140000041
整个再分析资料数据集是一个时间序列
Figure BDA0002807409140000042
最后,本发明定义使用再分析资料推测并补全卫星观测的问题,即学习从R到S的函数f。这个函数使用同一时刻和地点的再分析资料推算卫星观测。
s(t,y,x)=f(r(t,y,x)) 公式7
(2)STM方法问题设定
为了学习从R到S的函数f,需要匹配R和S来构建训练数据集,才能使用监督学习方法学到函数f,本发明将该数据集称为R-S数据集。
首先,本发明建立R-S数据集的时间序列和平面坐标网络。由于本发明的目标是用再分析资料模拟卫星观测,因此本发明建立的R-S数据集,其时间序列和平面坐标网络与卫星观测相同。其次,本发明将STM方法的目标定义为函数g,该函数可以将再分析资料插值到卫星观测的同一时刻和位置。
Figure BDA0002807409140000043
其中,
Figure BDA0002807409140000044
属于
Figure BDA0002807409140000045
Figure BDA0002807409140000046
属于Gs
然后,本发明定义R-S数据集。假设R-S数据集共有n个样本。对于第i′个样本,它的特征和标签分别是
Figure BDA0002807409140000047
Figure BDA0002807409140000048
因此,R-S数据集可以被定义为:
Figure BDA0002807409140000049
(3)SIMBA方法问题设定
为了使用不平衡学习中的重采样方法,本发明需要将R-S数据集分为两部分。本发明将众多且不重要的样本命名为常见域样本,将稀少且重要的样本命名为稀有域样本。由于类别标签的离散性,在分类问题中比在回归问题中更容易区分常见域和稀有域。在回归问题中,连续标签的特定范围内的值往往比其他范围内的值更重要。在实践中,重要的样本往往是稀疏的,而大部分数据集是由不重要的样本组成的,从而导致数据集的不平衡。例如,TC附近的高风速样本比中低风速样本更稀少,更重要。重采样法通过合成罕见域样本,减少常见域样本,来缓解数据集的不平衡性。
因此,为了根据重要性划分标签值的范围,本发明需要定义重要性函数,即
Figure BDA0002807409140000051
它将数据集的标签范围映射到重要性范围,其中0对应最小重要性,1对应最大重要性。凭借重要性函数θ(y)和重要性阈值σR,本发明可以定义两类不平衡样本集,即罕见域
Figure BDA0002807409140000052
Figure BDA0002807409140000053
和常见域
Figure BDA0002807409140000054
本发明将在后文中详细讨论θ(y)和σR的设置。
通过定义常见域
Figure BDA0002807409140000055
和罕见域
Figure BDA0002807409140000056
本发明将常规机器学习和不平衡学习的结合问题定义为在保持函数f在常见域
Figure BDA0002807409140000057
上性能不变的情况下,改进函数f在罕见域
Figure BDA0002807409140000058
上的性能。具体性能度量标准应根据实际应用场景确定。
完成上述问题的定义后,本实施例开始建立R2S框架。
本发明提出了R2S框架,用再分析资料中的相关变量推算相应的卫星观测,来填补卫星观测的空白。如前文R2S问题定义所示,利用再分析资料填补卫星观测数据的空白,是R2S框架中的一个回归问题,由于没有现成的数据集,本发明需要通过将再分析资料与卫星观测数据进行时空匹配来构建R-S数据集。
如前文所述,R-S数据集是作为再分析资料点和卫星观测点之间的一对一对应关系构建的。因此,R-S数据集可以结构化地用表格表示数据。为了训练基于结构化R-S数据集的模型,考虑到决策树算法在涉及中小结构化数据的预测问题上的突出表现,本发明选择了决策树算法。梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法,是一种基于决策树和集成学习的机器学习算法,在现实应用场景和数据挖掘竞赛中展现了其强大的性能。XGBoost是GBDT的著名变种之一,本发明以它为例解释GBDT的原理。
“GBDT”中的“DT”指的是决策树(Decision Tree),决策树可分为两类,分类树和回归树,分别解决分类问题和数值预测问题。XGBoost以回归树作为其基函数,回归树的每个叶子结点上,都会有一个表示预测的数值。
“GBDT”中的“B”指的是提升(Boosting)方法,使用加法模型和前向分布算法做预测。加法模型指基函数的线形组合,在XGBoost中即为回归树的线形组合;前向分布算法指,一次学习一个基函数(基分类器),只针对这个基分类器进行优化。使用回归树作为基函数的提升方法称为树提升(Boosting Tree),XGBoost使用的就是树提升方法。
接下来使用形式化的方法介绍树提升模型的结构。一个有着m个特征和n个样本的给定数据集,可以描述为
Figure BDA0002807409140000059
其中x为问题的输入值,y为问题的输出值。
Figure BDA00028074091400000510
上的提升树模型可以表示为:
Figure BDA0002807409140000061
Figure BDA0002807409140000062
其中K是回归树的数量,
Figure BDA0002807409140000063
是回归树空间。T是回归树中叶子结点的数量。w是表示叶子结点得分的向量,wi表示第i个叶子结点的得分值。q表示回归树的结构,把输入值映射到叶子结点。wq(x)即表示样本x落在树的叶子结点q(x)上。公式10中的每个fk,对应一个树结构q和相应的叶子结点得分向量w。因此,对于一个给定的样本,根据每棵树的规则(由q给出)把它分到每棵树各自的叶子结点上,再将这些叶子结点上的得分(由w给出)累加,得到该样本最终的预测值。
为了学习公式10中的每个fk,需要设立目标函数。与传统GBDT不同,XGBoost引入了正则化项来约束模型的复杂度,以保证较好的泛化性能。
Figure BDA0002807409140000064
Figure BDA0002807409140000065
其中,l是一个计算预测值和真实输出值之间的差异的损失函数,Ω惩罚回归树模型的复杂度。
“GBDT”中的“GB”指的是梯度提升(Gradient Boosting),是学习回归树的算法。公式12将函数作为参数,无法使用传统的参数优化方法,因此XGBoost使用累加性方法训练模型。设第i个样本在第t次迭代的预测值为
Figure BDA0002807409140000066
本发明在其基础上加上ft来最小化目标函数。
Figure BDA0002807409140000067
即采用贪心算法,在每一次迭代中,都加上对公式12改进幅度最大的ft。与传统GBDT不同,XGBoost使用泰勒展开对目标函数做了二阶近似。
Figure BDA0002807409140000068
其中,
Figure BDA0002807409140000071
Figure BDA0002807409140000072
分别为第个样本损失函数的一阶和二阶导数(梯度)。通过去除常数项,可以得到简化后的第t次迭代时的目标函数:
Figure BDA0002807409140000073
通过把被分到叶子结点j的样本集Ii={i|q(xi)=j},本发明可以把公式16重写为:
Figure BDA0002807409140000074
通过定义
Figure BDA0002807409140000075
Figure BDA0002807409140000076
可以把目标函数进一步简化为:
Figure BDA0002807409140000077
其中,
Figure BDA0002807409140000078
是二次多项式。因此,对于给定的树结构,最佳的wj和目标函数值为:
Figure BDA0002807409140000079
Figure BDA00028074091400000710
公式20可用于计算树结构q的质量,因为一棵树的目标函数值越小,说明其结构越好。
结合公式10、公式11可以确定树结构q,就可以计算w,预测样本的输出值,而公式20可以测量q有多好,从而学习q。理想状态是遍历所有可能的树结构,选出最优的一个,但在实际应用中显然不可行。XGBoost采用贪心策略,从一个单独的叶子结点开始,一次学习一层树结构(即决定该层的结点如何分裂)。
Figure BDA00028074091400000711
上式可分解为1)分裂之后左叶子结点的得分;2)分裂之后右叶子结点的得分;3)被分裂的叶子结点的得分;4)对新增叶子结点的正则化项。最后一项的作用在于,如果分裂的增益小于阈值γ,则不做分裂,相当于剪枝。最后,和普通的基于树的模型一样,XGBoost将样本按叶子结点得分排序,从左至右扫描,遍历所有可能的分裂,并计算相应树结构的增益,从而找到最佳分裂,确定树结构。
为了以数据驱动的方式训练利用再分析资料模拟卫星观测的模型,本发明首先需要构建反映它们关系的R-S数据集。R-S数据集由STM方法构建,如图2所示,蓝色正方形代表再分析资料,红色正方形代表卫星观测。本发明需要定义空间窗口和时间窗口,空间窗口控制匹配的地理范围,时间窗口控制匹配的时间范围。
参考图2,本发明将空间窗口定义为经纬度矩形,根据卫星观测对象的运动状态,空间窗口可以是固定的,也可以是移动的。空间窗口的纬度和经度跨度分别为M和N。时间窗口定义为长度为L的区间,沿一维时间轴滑动。
空间窗口和时间窗口的大小都需要根据卫星观测结果进行调整。空间窗口至少需要覆盖观测对象的地理分布。时间窗口的大小集需要至少考虑两种速度:观测对象的移动速度和变化速度。如果观测对象移动,即使一对再分析资料和卫星观测数据的像素在空间上是重合的,它们的相似度也会随着时间差的增大而降低。因此,STM法要求时间窗口的大小要满足以下条件:
max(dL)<ep 公式22
其中,dL指观测目标在L时间间隔内移动的空间距离,ep表示卫星观测正方形像素的边长。使用公式22确定的时间窗口大小,记作Lmov
值得注意的是,公式22在卫星观测对象静止时并不会限制时间窗口的大小。但是,STM方法会根据卫星观测对象本身数值上的变化速度来限制时间窗口的大小:
max(cL)<σc 公式23
其中,cL指卫星观测对象的数值在时间间隔
Figure BDA0002807409140000081
里变化的百分比,σc指用户设定的阈值。由公式23确定的时间窗口大小被记作Lchg。因此,STM方法将最终的时间窗口大小设置为:
L=min(Lmov,Lchg) 公式24
在设置空间窗口和时间窗口后,STM方法在空间和时间上对再分析资料和卫星观测数据进行匹配。STM方法将卫星观测的像素值设置为R-S数据集的标签。由于卫星观测数据是回归问题的标签,所以卫星观测数据比再分析资料要求更保真。因此,为了保证卫星观测数据在空间匹配中的准确性,STM法将再分析资料内插到卫星观测数据的位置。
假设再分析资料中一共有m个变量和卫星观测有关,每个变量都被空间插值到卫星观测所在的精确位置,得到m个特征,可以表示为v1,v2,v3,...,vm。在时间上,STM方法用卫星观测时刻的偏差TS减去再分析资料的时刻TR,并记录为t。如果时间窗口设置正确,且|t|≤L,则再分析资料与卫星观测数据之间的差异可以控制在一个可接受的水平。因此,STM方法将t记录为R-S数据集中的一个特征,而不是沿时间轴进行内插。
本发明将R-S数据集的特征定义为x=[t,v1,v2,...,vm-1],将标签定义为y=vs。所以,R-S数据集可以表示为
Figure BDA0002807409140000091
接下来引入不平衡学习后构建的不平衡学习模型,将二者相结合,通过SIMBA方法,得到优化后的混合补全模型(HYBRID补全模型),其流程如图3所示。
由于重采样方法灵活简洁,本发明使用预处理方法中SMOGN方法来缓解R-S数据集的不平衡性。SMOGN方法结合了SMOTER和引入高斯噪声,性能优于两者。SMOTER是著名的SMOTE算法的变体,用于解决回归问题。它通过插值策略将随机欠采样和稀缺样本的合成相结合。高斯噪声引入,通过在原始稀缺样本上叠加正态分布噪声来合成稀缺域样本。
常规机器学习和不平衡学习的结合问题中提到的重要性函数θ(y)是依赖于领域的,理想情况下应该由领域专家提供。因此本发明不需要自己定义θ(y)来划分正常域
Figure BDA0002807409140000092
和罕见域
Figure BDA0002807409140000093
此外,本发明将σR视为超参数,在设定目标函数和超参数优化后,可以在实践中计算出σR。以卫星观测的TC风速为例,本发明可以先定义一个目标函数,该目标函数关注高风速区间的误差。然后,本发明设置σR作为重采样方法的超参数。之后,本发明在原始训练集上优化重采样方法的超参数,得到一个相对最优的σR。接下来,本发明用这个σR来分割正常域和稀有域。将优化的重采样方法应用于训练集后,本发明在预处理后的训练集上训练模型。因此,σR不是预先设定的,它是在实践中用数据驱动方法优化的一个超参数。
在预处理阶段对数据集进行平衡后,本发明在训练阶段继续解决不平衡问题。在回归问题中,一般采用均方误差(MSE)等均匀加权损失函数。
Figure BDA0002807409140000094
然而,当数据不平衡时,预测倾向于偏向正常域,以获得更好的全局评价指标。本发明需要定义一个新的损失函数,增加模型在罕见域的偏向损失,迫使其将注意力从正常域转移到本发明指定的罕见域。受Focal Loss函数的启发,本发明基于MSE定义GapFilling Loss(GPL)函数:
Figure BDA0002807409140000101
Figure BDA0002807409140000102
其中
Figure BDA0002807409140000103
是模型对卫星观测的估计值,yi是卫星观测的实际值。θ和β是可调整的超参数。
MSE是回归任务下的一个通用有效的损失函数。因此本发明建立了基于MSE的GPL函数。为了克服使用MSE作为损失函数时,模型在稀有域上的性能下降,本发明增加一个可变系数来增加损失或保持损失不变,得到公式26。公式26是一个分段函数,它使用可调变量β作为阈值来控制增加损耗的区间。当yi的值大于β时,损失会增加。如果实际情况正好相反,即当yi的值小于β时需要增加损失时,可以将yi的符号反过来适用于公式26。
当yi大于β时,本发明在MSE中加入一个调制系数
Figure BDA0002807409140000104
其中可调聚焦参数θ≥0。因此,当yi大于β时,样本的损失系数(xi,yi)随着yi的增加而增加,提高了模型对重要区域的敏感性。当yi不大于β时,损失系数为常数,与MSE相同。因此,GPL在不重要的情况下保持样本的损失不变,在关键的情况下增加样本的损失,迫使模型对相对重要的情况更加敏感。
SIMBA方法训练了两个回归器。第一个是常规回归器,它是基于MSE损失函数的,没有使用任何不平衡学习方法。第二个是不平衡回归器,使用SMOGN对训练集进行预处理,并基于GPL函数进行损失敏感学习。本发明认为这两种回归器中的一种并不能完胜另一种,因为常规回归器是使用均匀加权的损失函数进行训练的,并且倾向于在常见域获得稳定的性能,而不平衡回归器则专注于罕见域。因此,将两个回归器结合起来可能会获得更好的性能。
以下为本发明涉及得SIMBA算法(算法1)。
Figure BDA0002807409140000105
Figure BDA0002807409140000111
本发明首先在验证集上找到两个回归器的性能分界点yd,如算法1所示。算法1输入中的偏差数组是一个数组
Figure BDA0002807409140000112
其中
Figure BDA0002807409140000113
nV是验证集的样本量。第1~4行是搜索性能分界点yd之前的准备工作。在第1~2行中,本发明将验证集上的最小和最大标签值分别记录为ymin和ymax。在第3行中,本发明将ymax分配给yd作为其默认值。在第4行中,本发明计算Y的最大-最小区间内的步数N。
第5~19行是一个循环,最多可以执行N+1次。在每次迭代中,第6行设置当前迭代的候选性能阈值t。本发明将其中y小于或等于t的样本称为左侧样本。同理,将y大于t的样本称为右侧样本。在第7~8行中,本发明将常规回归器的偏差数组Bnr划分为左侧样本的偏差数组Bnr-left和右侧样本的偏置数组Bnr-right在第9~10行中,本发明对不平衡回归器的偏差数组Bir进行同样的操作,得到左侧样本的偏差数组Bir-left和右侧样本的偏差数组Bir-right。在第11行中,本发明通过Bnr-left的中位数和四分位距(IQR)之和来计算正常回归器在左侧样本上的得分Snr-left。由于分数反映了中位数水平和分布偏差的紧凑性,所以分数越小表示性能越好。在第12~14行中,本发明使用与第11行相同的方法来计算Snr-right、Sir-left和Sir-right
在第15行中,本发明比较两个回归器在左侧样本和右侧样本上的得分。当满足第15行的条件时,意味着常规回归器在左侧样本上的表现优于不平衡回归器,而在右侧样本上的表现则相反。算法1的前提与GPL函数相同,即样本的y越大,其稀缺性和重要性越大。如果在实际操作中恰恰相反,则应将y的符号反过来适用于算法1。
在y较小的样本上,常规回归器可能优于不平衡回归器,而在y较大的样本上则相反。因此,如果满足第15行的条件,就可以找到性能分界点yd。本发明在第16行将t赋值给yd,并在第17行跳出循环。在第20行,如果没有满足第15行条件的t,则返回第3行给出的ymax。这意味着在搜索过程中,常规回归器的性能总是优于不平衡回归器。因此,本发明将只使用常规回归器。
接下来,本发明将预处理训练集的标签由连续值转化为二分类标签,代表原来的连续值标签y是否大于性能分界点yd。然后,本发明根据转化后的训练集,用Focal Loss函数训练一个不平衡分类器:
FL(pt)=-αt(1-pt)γlog(pt) 公式28
其中,pt是模型对于y大于yd的概率的估计,αt和γ是可调的超参数。
最后,本发明用SIMBA方法建立HYBRID模型。不平衡分类器用于判断样本的标签y是否大于性能分界点yd。如果是,HYBRID模型就选用不平衡回归器模拟。否则,HYBRID模型用常规回归器模拟样本的标签。
本发明重点比较基于同一机器学习算法的不同策略。首先,本发明使用流行的均匀加权损失函数,如MSE,来训练一个正常的模型,代表了大多数现有研究的方法。其次,本发明再利用不平衡学习方法训练一个专注于罕见域的不平衡模型。第三,本发明将前两步的两个模型结合起来,建立HYBRID模型。这三个模型都是使用LightGBM框架进行训练的,但每个模型都有不同的策略。
整体而言,首先,本发明利用STM方法建立基于真实数据的R-S数据集,并将其分为训练集、验证集和测试集。然后,本发明在训练集上构建模型并优化超参数,得到使用用流行的均匀加权损失函数训练的基线模型,然后使用不平衡学习方法训练不平衡模型。之后,本发明使用算法1在验证集上计算性能分割点yd,建立HYBRID模型。接下来,本发明在测试集上比较基线模型、不平衡模型和HYBRID模型。最后,本发明用高质量的现场观测数据对HYBRID模型进行验证,以评估HYBRID模型的实际适用性。
本发明首次提出了再分析到卫星(Reanalysis to Satellite,R2S)框架,使用再分析资料中的变量模拟卫星观测来实现补全。在R2S框架中,本发明提出了一种称为时空匹配(Spatial Temporal Match,STM)的通用方法。以构建再分析-卫星(Reanalysis-Satellite,R-S)数据集,通过匹配再分析资料和卫星观测数据,训练补全模型。基于R-S数据集,本发明提出了一种名为半不平衡(Semi-imbalanced,SIMBA)的新方法,将传统的机器学习与不平衡学习相结合,解决补全中的数据不平衡问题。
综上所述,本发明提供了以下贡献:
1、本发明首次提出了一个名为R2S的框架,使用再分析资料中相关变量模拟并补全卫星观测,该框架显著提高了卫星观测的空间覆盖率和时间分辨率。
2、本发明提出了一种名为STM的通用方法,用于匹配再分析资料和卫星观测数据,构建数据集以训练补全模型。
3、本发明提出了一种名为SIMBA的新型方法来处理补全的数据不平衡问题,该方法结合了常规机器学习和不平衡学习。据本实施例所知,这是在补全领域首次处理不平衡问题。
由此,本发明的有益效果为:本发明提出了R2S框架,用再分析资料中的相关变量模拟卫星观测,从而填补卫星观测的空缺。在R2S框架下,针对SMAP卫星观测的TC风速构建了补全模型。补全模型可以模拟SMAP卫星对北大西洋的TC风速的观测,时间分辨率为一分钟。本发明可将研究区域扩展到全球海洋,利用STM方法构建更大的R-S数据集,就可以得到适用于全球海洋的补全模型。R2S框架可显著提高卫星观测的空间覆盖率和时间分辨率。
不仅如此,本发明提出了SIMBA方法,通过不平衡学习来提高补全模型在高风速下的性能,并与常规机器学习结合,得到混合补全模型。大量的实验表明,混合模型在高风速补全方面优于常规机器学习模型,在中低风速补全方面优于不平衡学习模型,且混合模型的补全结果接近现场观测值,补全结果准确。
本发明的应用场景之一是自然灾害的卫星观测补全。热带气旋的海面风速、风暴降雪、山火导致的PM2.5浓度等现象的卫星观测值比正常状态下的卫星观测值更加稀缺和重要。此外,卫星观测的时间分辨率必须更高,才能提供更多时间上的精细化数据,便于研究自然灾害的演变。本发明提出的SIMBA方法可以改善这些极端事件的补全,R2S框架可以显著提高补全结果的时间分辨率。
附图说明
图1为2018年SMAP观测到飓风FLORENCE风速时的数据空白图;
图2为STM方法示意图;
图3为SIMBA方法示意图;
图4为MSE回归器、SMOGN-FL回归器和HYBRID模型在测试集上的模拟结果的二维密度散点图;
图5为MSE回归器、SMOGN-TCL回归器和HYBRID模型在验证集上的模拟偏差图;
图6为HYBRID模型对2018年飓风FLORENCE的SMAP观测的部分补全结果图;
图7为2002年至2019年模拟SMAP-重采样SFMR匹配的二维密度散点图;
图8为模拟SMAP-重采样SFMR匹配统计的热力图。
具体实施方式
下面将结合本实施例实施例中的附图,对本实施例实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本实施例的一部分实施例,而不是全部的实施例。
首先,本实施例利用STM方法建立基于真实数据的R-S数据集,并将其分为训练集、验证集和测试集。然后,本实施例在训练集上构建模型并优化超参数,得到用流行的均匀加权损失函数训练的基和用不平衡学习训练的不平衡模型。之后,本实施例使用算法1在验证集上计算性能分割点,建立HYBRID模型。接下来,本实施例在测试集上比较基线、不平衡模型和HYBRID模型。最后,本实施例用高质量的原地观测数据对HYBRID模型进行验证,以评估HYBRID模型的实际适用性。
(一)原始数据来源
TC轨迹数据方面,本实施例使用的是国际气候管理最佳轨迹档案(1BTrACS)第4版(https://www.ncdc.noaa.gov/ibtracs/)。它是TC点数据的集合,其属性包括TC的时间、中心经纬度、风速半径、中心气压等变量。对于某个TC,IBTrACS提供的点数据覆盖了其整个生命周期,是理想的TC轨迹数据源。
卫星观测海面风速数据,本研究上使用的是来自SMAP卫星(http://www.remss.com/missions/smap/winds/)的观测。SMAP卫星于2015年1月31日发射,自2015年4月开始提供科学数据。SMAP的辐射计可以观测到高达65米/秒的TC风速,而且几乎不受降雨的影响。本实施例采用的是海平面以上10m处等效中性风速的SMAP的逐日观测,空间分辨率为0.25°×0.25°。再分析资料方面,本研究使用的是欧洲中尺度天气预报中心(ECMWF)的ERA5再分析资料。ERA5采用四维变化(4DVar)方法,考虑到观测的准确时间和模型在时间窗口内的演变,实现了全球范围内每天逐小时的再分析,对TC等极端天气现象进行了时间上的详细描述。本实施例选择“ERA5单层变量的小时估计值”的再分析资料产品(https://cds.climate.copernicus.eu/cdsapp#!/dataset/reanalysis-era5-single-levels,以下简称为″单层再分析资料″)和″ERA5气压层变量的每小时估计″(https://cds.climate.copernicus.eu/cdsapp#!/dataset/reanalysis-era5-pressure-levels},以下简称为“气压层再分析资料”)。单层再分析资料有两种空间分辨率:适用于大气层的0.25°×0.25°和适用于海浪的0.5°×0.5°,而气压层再分析资料的空间分辨率统一为0.25°×0.25°。此外,ERA5没有同化SMAP卫星观测到的海面风速。
现场海面风速观测方面,本实施例使用的是SFMR海面风速(https://www.aoml.noaa.gov/hrd/data_sub/hurr.html)。美国国家海洋和大气管理局(NOAA)和美国空军后备司令部(AFRC)定期派出飞机通过大西洋和东太平洋的TC来获取机载SFMR数据。它结合了6个间隔紧密的C波段通道,提高了对风和雨信号的分辨能力,可以同时获取海面风速和降雨率。Klotz和Uhlhorn创立的SFMR在宽广的风速范围内与下投式探空雷达的风速有很强的相关性,最高可达70m/s。本实施例没有采用风速低于15m/s的SFMR观测数据,因为在低风速范围内SFMR观测具有较低的信噪比。
(二)数据预处理和数据集分割
IBTrACS的3小时时间分辨率不够高,无法与足够数量的再分析和卫星观测的海面风速相匹配。因此,本实施例把TC的位置从3小时的时间分辨率内插到每小时的时间分辨率。在ERA5中,有57个空气-海洋变量可能对TC海面风速有比较大的影响,记录为Rs。单层再分析资料中变量的具体选择见表1,因为ERA5单层再分析资料原始来源的变量名称为英文,翻译为中文会难以查找对应,不利于复现,因此表格保持英文原名。ERA5的气压层再分析资料包含37个1000hPa至1hPa范围内的等压面,每个等压面有相同的16个大气变量。对于ERA5的每一个网格点,本实施例通过ERA5单层再分析资料中的″平均海平面压力″变量,选择37个等压面中最接近网格点压力的一个。在气压层再分析资料中,所有16个大气变量都被选择并记录为Rp。因此,对于ERA5网格来说,57+16=73的变量被用作辅助数据。
表1单层再分析变量
Figure BDA0002807409140000151
Figure BDA0002807409140000161
Figure BDA0002807409140000171
本实施例将空间窗口的边长M和N都设置为34节风速平均半径的两倍,因为34节风的半径比最大风速半径大得多,在这个范围内,中低风速样本比高风速样本多得多。据统计,2015年至2019年北大西洋TC的34节风平均半径为222km,约为2度。因此,本实施例将空间窗口的大小设置为4°×4°。本实施例通过公式22、公式23和公式24来确定时间窗口的大小。2015~2019年北大西洋TC的平均移动速度为21.7km/h,SMAP的空间分辨率为0.25°×0.25°。
因此,Lm约为1小时。TC最大持续风速的平均变化速度为每小时0.06%,即使本实施例将σc设为很小的0.1%,Lc也大于Lm。因此,时间窗口的大小被设置为Lm。考虑到ERA5的时间分辨率为1小时,30分钟的时间窗口可以在时间上匹配所有ERA5变量和SMAP风速。因此,本实施例将时间窗口的大小设置为30分钟。
在TC中心周围4°×4°的正方形区域内,本实施例在时间和空间上匹配ERA5再分析和SMAP风速来构建数据集。对于给定时刻的TC在hTC整点时刻,本实施例将hTC处的ERA5再分析与hTC处30分钟内的SMAP风速进行匹配。此外,本实施例将SMAP风速相对于hTC整点时刻的时间偏差记录为一个新的辅助变量t=tSMAP-hTC,单位为分钟。
以TC为原点,以东、北为正x轴和正y轴方向,建立二维笛卡尔坐标系。本实施例用这个坐标系来确定SMAP风速网格点在空间窗口中的相对位置,以0.25°为单位长度。
水平坐标和垂直坐标分别表示为cx和cy。将SMAP风速记录为s后,本实施例得到回归模型的特征向量为x=[t,cx,cy,Rs,Rp],其维度为76,标签y=s为标量值。
本实施例匹配了2015年4月1日至2019年12月31日北大西洋流域78个TC的SMAP-ERA5数据共122326条,将训练集和测试集以4:1的比例进行分割。此外,为了保证训练集和测试集中y的分布与原始数据集的分布相似,本实施例采用层次分割法。本实施例不按时间顺序对数据集进行拆分,比如将2015年至2018年的数据作为训练集,将2019年的数据作为测试集。因为在2019年之前有15个{x,y}的y大于60,而2019年的数量为0。如果本实施例使用2019年的数据作为测试集,模型填补SMAP风速高于60m/s的空白的能力将无法评估。为了验证模型的性能,本实施例取训练集的五分之一作为验证集,并保持其SMAP风速分布与原始数据集相似。因此,训练集、验证集和测试集的大小比例为16:4:5。
(三)实验验证
本实施例在实验中直接训练了两个回归器和一个分类器。它们都在SIMBA方法中描述,并在LightGBM框架中进行训练。两个回归器分别是正常回归器和不平衡回归器,而分类器是一个二元分类器。
本实施例以正常回归器作为基线,在原始训练集上进行训练。它的损失函数是均匀加权的,即在相同的预测偏差下,常见域样本和罕见域样本的损失相同。本实施例选择MSE作为基线损失函数,是因为MSE是机器学习回归任务中常用且性能良好的损失函数,并且是均匀加权的,如公式25所定义。MSE衡量的是参数估计值和参数值之间的平方差的期望值。因此MSE值越小,预测模型越好。为了反映正常回归器使用的损失函数,本实施例将基线命名为MSE回归器。
本实施例基于重采样法和损失敏感学习法来训练不平衡回归器。在SMOGN中,重要性函数θ(y)可以被设置为对标签的高或低极端值赋予较高的重要性。因此,本实施例可以不考虑低风速区间,只隔离高风速区间。除了在使用重采样方法预处理的训练集上训练不平衡回归器外,本实施例还将不平衡回归器的损失函数设置为GPL函数。要尽量避免低估高风速。因此,本实施例修改公式27,只有当风速被低估且大于阈值β时才增加损失:
Figure BDA0002807409140000191
结合公式26,这个新的损失函数被命名为热带气旋损失(Tropical CycloneLoss,TCL)函数。因此,由于采用了预处理方法和损失函数,本实施例将不平衡回归器命名为SMOGN-TCL回归器。同样,由于不平衡分类器的损失函数是公式28中定义的Focal Loss(FL)函数,本实施例将不平衡分类器命名为FL分类器。本发明的模型是在LightGBM框架中建立的,使用2.3GHz四核英特尔酷睿i5的MacBook Pro进行训练。SMOGN的超参数很多,与TCL函数和LightGBM的超参数组合在一起会形成一个巨大的超参数空间,增加了模型优化的开销。因此,本实施例首先对SMOGN的超参数进行优化。在优化SMOGN时,损失函数设置为MSE,LightGBM的超参数设置为默认值。然后根据SMOGN预处理的训练集,优化TCL函数和LightGBM超参数。本研究使用hyperopt包中的fmin函数对超参数进行优化,所有优化均进行100次。在训练完上述三个模型后,本实施例使用SIMBA方法建立基于FL分类器、MSE回归器和SMOGN-TCL回归器的HYBRID模型。
(四)实验评价标准
本实施例使用MBE误差(MBE)、均方根误差(RMSE)作为评价指标来衡量模型的性能。它们的定义如下。
Figure BDA0002807409140000192
Figure BDA0002807409140000193
其中N为样本数,
Figure BDA0002807409140000201
表示模拟的SMAP风速,yi表示实际的SMAP风速。
MBE是平均模拟误差,代表模拟器低估或高估实际值的系统误差。本实验的目标之一是改善基线对高风速的低估。因此,有必要检查模型在一般情况下和特定风速区间内是否高估或低估了实际风速。与MSE、平均绝对误差(MAE)、RMSE等从不为负的指标不同,MBE反映的是平均模拟误差,可能为正也可能为负。因此,本实施例认为MBE是一个合适的评价指标。
RMSE是MSE的平方根,代表模拟值
Figure BDA0002807409140000202
与观测值yi之间差异的样本标准差。RMSE比MAE给予最大误差更多的权重,当大误差特别不理想时,RMSE更有用。本实验中的基线可能会低估高风速,而且随着风速的增加,低估程度可能更严重。但是,高风速时的样本比中低风速时的样本要小得多。本实施例需要对高风速下的大误差给予更大的重视。因此,对于高风速下可能出现的大误差,RMSE是一个合适的评价指标。
(五)R-S数据集上的结果和分析
(1)超参数的优化
SMOGN的最终超参数设置如下:稀有样本间插值时的最近邻量(k)=7,高斯噪声的扰动(pert)=0.02,抽样方法(samp_method)=″extreme″,重要性阈值(rel_threshold)=0.9。要性函数矩阵设置为5、20、35附近为0,50附近为1。
MSE回归器、SMOGN-TCL回归器的超参数设置如表2所示。它们是LightGBM框架中Booster类的超参数。对于SMOGN-TCL回归器,公式29中θ和β分别为3和50。本实施例使用算法1,设定pace=1,从MSE回归器和SMOGN-TCL回归器的偏置数组中计算出验证集上的yd=45。然后本实施例对预处理后的训练集进行转化,并训练FL分类器。公式28中的αt和γ分别为0.70和0.54。FL分类器的其余超参数如表2所示。
表2超参数优化结果
Figure BDA0002807409140000203
Figure BDA0002807409140000211
(2)MSE模型和SMOGN-TCL模型的对比
参考图4和表3的显示,SMOGN-TCL回归器的总体全局性能比MSE回归器差。MSE回归器的RMSE和MBE相对较小,其在所有风速范围内的偏差波动都不大于SMOGN-TCL回归器。MSE模型在上述指标上优于SMOGN-TCL模型并不奇怪,因为MSE回归器是以MSE作为目标函数进行训练的,目的是使全局平均误差最小。
相比之下,SMOGN-TCL回归器对高风速的低估使用了额外的惩罚,导致目标函数梯度较大,训练步骤较少。如表2所示,SMOGN-TCL回归器的叶子数只有MSE回归器的七分之一。因此,SMOGN-TCL模型在结构上要比MSE模型简单得多,在中低风速时波动较大。此外,虽然SMOGN-TCL模型对高风速的低估幅度较小,但在中低风速时产生了高估风速的倾向,特别是在30~45m/s的风速范围内最接近高风速(>45m/s)。
然而,SMOGN-TCL模型对高风速比MSE模型更敏感。如图4中的红框和图5中的箱图部分所示,当风速高于45m/s时,SMOGN-TCL回归器比MSE回归器更准确。图4中灰色的对角线代表完美的模拟,红色框表示实际SMAP风速高于45m/s的模拟。偏差是通过从模拟的SMAP风速中减去实际的SMAP风速得到的。图5中小提琴状的颜色斑块代表偏差分布的核密度估计。粗黑线是四分位距(IQR),IQR上的白点是中位数。细黑线表示在75百分位数以上或25百分位数以下的1.5倍IQR内的偏差。而且,随着实际风速的增大,MSE回归器对风速的低估比SMOGN-TCL回归器更为严重。因此,在表3中,SMOGN-TCL回归器的线性拟合优于MSE回归器。
表3 MSE回归器、SMOGN-TCL回归器和HYBRID模型在测试集上的统计比较
Figure BDA0002807409140000212
由于测试集上中低风速的样本远多于高风速的样本,因此HYBRID模型和MSE回归器的总体统计量非常接近,如表3所示。HYBRID模型在高风速范围(>45m/s)的表现与SMOGN-TCL回归器非常接近,低估风速的可能性较小。因此HYBRID模型模拟与实际SMAP风速的线性拟合斜率比MSE回归器更接近1,而HYBRID模型的MBE比MSE模型更接近0。因此,HYBRID模型显著提高了高风速(>45m/s)下的性能,而全局性能指标下降的代价非常小。
在图中45~60m/s的风速范围内,HYBRID模型的偏差分布下限比MSE回归器和SMOGN-TCL回归器都要低一些,这意味着它综合了两个回归器对风速的低估。例如,给定20个样本,MSE回归器低估了前10个样本,高估了后10个样本,而SMOGN-TCL回归器则相反。在最坏的情况下,FL分类器完全错误,HYBRID模型将综合MSE回归器和SMOGN-TCL回归器的所有低估或高估结果。虽然HYBRID模型在45~60m/s风速范围内的偏差分布下限方面比这两个模型略差,但从该风速范围内的偏差中位数和IQR方面来看,它的表现优于MSE回归器。
(六)基于合成数据的实用性检验
本实施例利用机载SFMR观测到的风速来验证HYBRID模型模拟的SMAP风速对实际应用的价值。
由于SMAP风速的模拟不受SMAP卫星本身寿命的限制,本实施例将实验时期回溯到2002年。匹配的方法与Meissner等人的方法类似。不同的是使用空间窗口和时间窗口来构建R-S数据集,以代替对TC的移动距离和强度变化的限制。对SFMR风速沿其轨迹进行重新采样,并将其平均到0.25°×0.25°空间分辨率,这与模拟的SMAP风速相同,如图6(b)所示。其中,实心黑线为携带SFMR的飞机轨迹,沿实心黑线的圆圈表示重新采样的SFMR风速数据。
值得注意的是,SMAP的观测时间是分钟级的,这意味着在R-S数据集上训练的模型具有分钟级的时间分辨率。基于和数据预处理中相同的变量定义,当HYBRID模型在每一个hTC处遍历t从-30到29的所有可能值时,它产生的风速具有分钟级的时间分辨率。如图6(a)和图6(d)所示,HYBRID模型顺利地填补了图1所示的空间空白,增加了SMAP卫星观测的空间覆盖率。HYBRID模型还模拟了其他时间不存在的SMAP观测数据,如图6(b)和图6(c)所示,提高了SMAP卫星观测数据的时间分辨率。此外,这些模拟结果经SFMR风速验证,精度较高。在TC中心附近,HYBRID模型的模拟结果高于SFMR风速,但这不仅仅是HYBRID模型本身的原因。
沿SFMR轨迹的一维平均,与SMAP卫星天线的二维平均相比,在气旋眼附近将赋予低风速更大的权重。如图6(b)和图6(c)所示,虽然在气旋眼外的8个匹配点上,模拟的SMAP风速都非常接近SFMR风速,但由于重新采样,气旋眼附近的SFMR风速似乎系统性地降低了。因此,本实施例排除了气旋眼附近的匹配点,即相对水平坐标x和垂直坐标y为零的网格点。
匹配的二维密度散点图如图7所示。其中,灰色对角线代表完美模拟,红色方框表示实际SMAP风速高于45m/s的模拟。统计参数N、μ和RMSE是模拟的SMAP-重采样SFMR匹配次数、MBE和均方根误差。图中给出了模拟SMAP风速与重采样SFMR风速之间的MBE和RMSE的统计指标。模拟SMAP风速对重采样SFMR风速的线性回归系数达到0.988,意味着模拟SMAP风速几乎没有低估真实的海面风速,这与已有研究一致。
表4将图7中的匹配分为不同的风速区间,并显示每个区间的统计数据。表4中的风速区间是指重新采样的SFMR的风速,第一列中是重新采样的SFMR风速范围,不包括低于15m/s的重新采样的SFMR风速。从25~35m/s的风速范围开始,随着风速的增大,模拟SMAP风速的低估量逐渐增大。
随着风速的增大,同样的误差波动将导致更大的RMSE。为了消除这种数值干扰,本实施例将每个风速范围的RMSE除以该范围内重新采样的SFMR风速的平均值,得到归一化RMSE。从归一化RMSE可以看出,随着风速的增大,模拟SMAP风速的误差波动幅度惊人地减小,反映了HYBRID模型在高风速下的良好稳定性。
表4 MSE回归器、SMOGN-TCL回归器和HYBRID模型在测试集上的统计比较
Figure BDA0002807409140000231
图8中显示了模拟SMAP-采样SFMR匹配的计数、MBE和RMSE的空间分布,TC中心的匹配被移除,热力图边缘的空白区域表示该位置没有匹配。具体来说,图8(a)显示匹配次数,TC中心附近的匹配数量最大,置信度最高。图8(b)显示MBE的空间分布,绝大部分的MBE较小,模拟的SMAP风速在大部分地区略微高估,在外围地区低估。同时,大部分4°×4°地区的MBE的绝对值不超过2m/s。图8(c)显示均方根误差的空间分布,大部分区域的RMSE低于5m/s。然而,考虑到采样误差,大误差在空间上高度集中在TC中心附近。MBE和RMSE的空间分布均为近似同心圆,说明HYBRID模型高估了TC中心附近的风速,误差波动较大,而空间窗口边缘则相反。
SMAP模拟风速与重新采样的SFMR风速之间的偏差至少是SMAP本身的观测误差和HYBRID模型的模拟误差的结合。SMAP本身的观测误差体现在对高风速的低估上,因为SMAP的0.25°×0.25°分辨率的辐射计难以捕捉到最大风速随TC强度增加而缩小的区域。因此,即使本实施例的模型很好地逼近了SMAP卫星观测到的海面风速,但SMAP本身的低空间分辨率仍然造成了高风速时的低估。HYBRID模型在高风速范围(>45/m/s)的误差也可能是由于R-S数据集缺乏高风速样本造成的。在高风速下模型的训练和验证可能并不充分,限制了HYBRID模型在一些R-S数据集没有覆盖的情况下的性能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.基于再分析资料和不平衡学习的卫星观测补全方法,其特征在于,包括以下步骤:
步骤一,构建再分析资料到卫星观测(Reanalysis to Satellite,R2S)的框架,使用再分析资料中的变量模拟卫星观测来实现补全;
步骤二:在R2S框架中,提出时空匹配(Spatial Temporal Match,STM)的通用方法,构建再分析-卫星(Reanalysis-Satellite,R-S)数据集,用于训练补全模型;
步骤三:基于R-S数据集,提出名为半不平衡(Semi-imbalanced,SIMBA)学习的新方法,结合传统的机器学习与不平衡学习,解决补全中的数据不平衡问题;
所述步骤三中的半不平衡学习方法,包括以下操作:
(21)将R-S数据集分为常见域和罕见域两部分,众多且不重要的样本为常见域样本,稀少且重要的样本为罕见域样本;
(22)为了根据重要性划分标签值的范围,定义重要性函数,即θ:
Figure FDA0003635694760000011
将数据集的标签范围映射到重要性范围,其中0对应最小重要性,1对应最大重要性;
(23)凭借重要性函数θ(y)和重要性阈值σR,定义两类不平衡样本集,即罕见域
Figure FDA0003635694760000012
Figure FDA0003635694760000013
和常见域
Figure FDA0003635694760000014
其中
Figure FDA0003635694760000015
为R-S数据集。
2.根据权利要求1所述的基于再分析资料和不平衡学习的卫星观测补全方法,其特征在于,所述步骤一中,包括卫星观测的形式定义步骤和再分析资料的形式定义步骤;
所述卫星观测的形式定义步骤包括以下操作:
所述卫星观测看作一个时间序列
Figure FDA0003635694760000016
卫星观测的平面格网定义为一个二维矩阵:
Figure FDA0003635694760000017
其中sr和sc分别表示卫星观测格网的行数和列数;
卫星观测的值是连续的数值,其大小是时间坐标和空间二维坐标的函数:
Figure FDA0003635694760000018
不同的卫星观测数据有不同的物理含义和取值范围,
Figure FDA0003635694760000019
时刻的卫星观测值的平面格网也是一个二维矩阵:
Figure FDA00036356947600000110
整个卫星观测数据集看作一个时间序列
Figure FDA00036356947600000111
所述再分析资料的形式定义步骤包括以下操作:
再分析资料的时刻表示为时间序列
Figure FDA0003635694760000021
的元素,其平面格网定义为一个二维矩阵:
Figure FDA0003635694760000022
其中,rr和rc分别表示再分析资料格网中行和列的数量;对于任何一个再分析资料变量,其值为时间、横纵坐标和具体变量的函数:
Figure FDA0003635694760000023
在特定时刻和地点的再分析资料是一个包含所有被选择变量的向量rijk=[rijk1,…,rijkm],
Figure FDA0003635694760000024
时刻的再分析资料的平面格网也是一个二维矩阵:
Figure FDA0003635694760000025
整个再分析资料数据集是一个时间序列
Figure FDA0003635694760000026
最后,步骤一中对再分析资料推算卫星观测的函数进行了定义,所述函数为学习从R到S的函数f,所述函数f为:
s(t,y,x)=f(r(t,y,x,v))。
3.根据权利要求2所述的基于再分析资料和不平衡学习的卫星观测补全方法,其特征在于,所述步骤二中,包括以下操作:
(11)建立R-S数据集的时间序列和平面坐标网络;
将STM方法的目标定义为函数g,函数g将再分析资料插值到卫星观测的时刻和位置,所述函数g为:
Figure FDA0003635694760000027
其中,
Figure FDA0003635694760000028
属于
Figure FDA0003635694760000029
Figure FDA00036356947600000210
属于Gs
(12)定义R-S数据集;
假设R-S数据集共有n个样本,对于第i'个样本,它的特征和标签分别是
Figure FDA00036356947600000211
Figure FDA00036356947600000212
Figure FDA00036356947600000213
因此,R-S数据集被定义为:
Figure FDA0003635694760000031
4.根据权利要求3所述的基于再分析资料和不平衡学习的卫星观测补全方法,其特征在于,所述步骤二中,选择梯度提升决策树训练基于结构化R-S数据集的模型,其中x为问题的输入值,y为问题的输出值,
Figure FDA0003635694760000032
上的提升树模型表示为:
Figure FDA0003635694760000033
Figure FDA0003635694760000034
其中K是回归树的数量,
Figure FDA0003635694760000035
是回归树空间,T是回归树中叶子结点的数量,w是表示叶子结点得分的向量,wi表示第i个叶子结点的得分值,q表示回归树的结构,把输入值映射到叶子结点,wq(x)即表示样本x落在树的叶子结点q(x)上;
每个fk对应一个树结构q和相应的叶子结点得分向量w,为了学习每个fk,引入正则化项来约束模型的复杂度设立目标函数:
Figure FDA0003635694760000036
Figure FDA0003635694760000037
其中,l是一个计算预测值和真实输出值之间的差异的损失函数,Ω惩罚回归树模型的复杂度;
为使用传统的参数优化方法,使用累加性方法训练模型,设第i个样本在第t次迭代的预测值为
Figure FDA0003635694760000038
其基础上加上ft来最小化目标函数:
Figure FDA0003635694760000039
然后,使用泰勒展开对目标函数做了二阶近似:
Figure FDA00036356947600000310
其中,
Figure FDA00036356947600000311
Figure FDA00036356947600000312
分别为第i个样本损失函数的一阶和二阶导数,通过去除常数项,得到简化后的第t次迭代时的目标函数:
Figure FDA0003635694760000041
通过把被分到叶子结点j的样本集定义为Ij={i|q(xi)=j},上述目标函数写为:
Figure FDA0003635694760000042
通过定义
Figure FDA0003635694760000043
Figure FDA0003635694760000044
把目标函数进一步简化为:
Figure FDA0003635694760000045
其中,
Figure FDA0003635694760000046
是二次多项式,因此,对于给定的树结构,最佳的wj和目标函数值为:
Figure FDA0003635694760000047
Figure FDA0003635694760000048
5.根据权利要求4所述的基于再分析资料和不平衡学习的卫星观测补全方法,其特征在于,所述步骤三中,使用预处理方法SMOGN来缓解R-S数据集的不平衡性。
6.根据权利要求5所述的基于再分析资料和不平衡学习的卫星观测补全方法,其特征在于,所述步骤三中,在预处理阶段对数据集进行平衡后,在训练阶段继续解决不平衡问题,在回归问题中,结合Focal Loss函数,基于MSE定义新的损失函数Gap Filling Loss(GPL)函数,所述Gap Filling Loss(GPL)函数计算公式如下:
Figure FDA0003635694760000049
Figure FDA00036356947600000410
其中,
Figure FDA00036356947600000411
是模型对卫星观测的估计值,yi是卫星观测的实际值,θ和β是可调整的超参数。
7.根据权利要求6所述的基于再分析资料和不平衡学习的卫星观测补全方法,其特征在于,所述步骤三中还包括以下操作步骤:
(31)分别构建基于提升树模型的常规补全模型和基于不平衡学习的不平衡补全模型,在验证集上找到两个模型的性能分界点;
(32)根据训练集标签和分界点的大小关系,将训练集由标签为连续值的回归任务的数据集转化为标签为布尔值的二分类任务数据集;
(33)基于该二分类任务数据集和Focal Loss函数,训练不平衡分类器,所述不平衡分类器用于判断样本属于常规域还是罕见域;
(34)通过一个分类器和两个补全模型的结合,构造出混合补全模型,若样本属于常规域,则使用常规补全模型,若样本属于罕见域,则使用不平衡学习补全模型。
CN202011373173.XA 2020-11-30 2020-11-30 基于再分析资料和不平衡学习的卫星观测补全方法 Active CN112380781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011373173.XA CN112380781B (zh) 2020-11-30 2020-11-30 基于再分析资料和不平衡学习的卫星观测补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011373173.XA CN112380781B (zh) 2020-11-30 2020-11-30 基于再分析资料和不平衡学习的卫星观测补全方法

Publications (2)

Publication Number Publication Date
CN112380781A CN112380781A (zh) 2021-02-19
CN112380781B true CN112380781B (zh) 2022-10-18

Family

ID=74588777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011373173.XA Active CN112380781B (zh) 2020-11-30 2020-11-30 基于再分析资料和不平衡学习的卫星观测补全方法

Country Status (1)

Country Link
CN (1) CN112380781B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800169B (zh) * 2021-04-15 2021-07-13 航天宏图信息技术股份有限公司 同步带卫星的数据匹配方法、装置、设备及存储介质
CN115334005B (zh) * 2022-03-31 2024-03-22 北京邮电大学 基于剪枝卷积神经网络和机器学习的加密流量识别方法
CN115392073A (zh) * 2022-08-09 2022-11-25 湖南国天电子科技有限公司 一种非对称热带气旋海面风场的构造方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583516A (zh) * 2018-12-24 2019-04-05 天津珞雍空间信息研究院有限公司 一种基于地基和卫星观测的时空连续pm2.5反演方法
CN110083977A (zh) * 2019-05-14 2019-08-02 南京大学 一种基于深度学习的大气湍流监测方法
CN110442937A (zh) * 2019-07-24 2019-11-12 武汉大学 一种融合卫星遥感和机器学习技术的流域水文模拟方法
CN110909491A (zh) * 2019-12-11 2020-03-24 新亚优华科技有限公司 一种基于风云气象卫星的海面盐度反演算法
CN111723524A (zh) * 2020-06-23 2020-09-29 南通大学 一种基于日变化约束的pm2.5卫星遥感反演方法
CN111832828A (zh) * 2020-07-17 2020-10-27 国家卫星气象中心(国家空间天气监测预警中心) 基于风云四号气象卫星的智能降水预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107807371B (zh) * 2017-09-14 2019-10-01 北京航空航天大学 基于北斗卫星观测数据的数据相关性处理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583516A (zh) * 2018-12-24 2019-04-05 天津珞雍空间信息研究院有限公司 一种基于地基和卫星观测的时空连续pm2.5反演方法
CN110083977A (zh) * 2019-05-14 2019-08-02 南京大学 一种基于深度学习的大气湍流监测方法
CN110442937A (zh) * 2019-07-24 2019-11-12 武汉大学 一种融合卫星遥感和机器学习技术的流域水文模拟方法
CN110909491A (zh) * 2019-12-11 2020-03-24 新亚优华科技有限公司 一种基于风云气象卫星的海面盐度反演算法
CN111723524A (zh) * 2020-06-23 2020-09-29 南通大学 一种基于日变化约束的pm2.5卫星遥感反演方法
CN111832828A (zh) * 2020-07-17 2020-10-27 国家卫星气象中心(国家空间天气监测预警中心) 基于风云四号气象卫星的智能降水预测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Neural networks technique for filling gaps in satellite measurements:: Application to ocean color observations;Krasnopolsky V等;《Comput Intell Neurosci 》;20160131;第1089-1104页 *
Spatio-temporal estimation of climatic variables for gap filling and record extension using Reanalysis data;David Morales-Moraga等;《Theoretical and Applied Climatology》;20181009;第1-9页 *
两种海面风场的对比及对海浪模拟的影响;周凯等;《海洋预报》;20120615(第03期);第9-14页 *
基于卫星遥感和气象再分析资料的北京市PM_(2.5)浓度反演研究;邵琦等;《地理与地理信息科学》;20180515(第03期);第32-38页 *
青藏高原遥感地表温度的时间序列建模与分析;温馨;《中国优秀硕士学位论文全文数据库 基础科学辑》;20200715(第07期);第A009-32页 *
高分辨率卫星资料同化关键技术研究;余意;《中国优秀博士学位论文全文数据库 工程科技Ⅱ辑 》;20200215(第02期);第C028-10页 *

Also Published As

Publication number Publication date
CN112380781A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN112380781B (zh) 基于再分析资料和不平衡学习的卫星观测补全方法
CN111859800B (zh) 用于pm2.5浓度分布的时空估算和预测方法
Callens et al. Using Random forest and Gradient boosting trees to improve wave forecast at a specific location
Ayet et al. Nowcasting solar irradiance using an analog method and geostationary satellite images
CN106779137A (zh) 一种根据海况与操纵条件预测船舶油耗的方法
CN112464746A (zh) 一种卫星影像和机器学习的水质监测方法及系统
Usharani ILF-LSTM: Enhanced loss function in LSTM to predict the sea surface temperature
Su et al. A convection nowcasting method based on machine learning
Singh et al. Deep learning for improved global precipitation in numerical weather prediction systems
CN116148796A (zh) 一种基于雷达图像外推的强对流天气临近预报方法
Kong et al. A deep spatio-temporal forecasting model for multi-site weather prediction post-processing
Sahoo et al. Estimating atmospheric motion winds from satellite image data using space‐time drift models
CN114511061A (zh) 基于深度神经网络的岸滨地区海雾能见度预报方法
Zhang et al. Merging multisatellite precipitation products using stacking method and the censored-shifted gamma ensemble model output statistics in china's Beimiaoji basin
Lu et al. From reanalysis to satellite observations: gap-filling with imbalanced learning
CN117114168A (zh) 一种长时间尺度的海面温度智能预报方法
CN114994800B (zh) 一种大气细颗粒物的反演方法及装置
CN113933915B (zh) 一种基于时空扰动信息交互集成嵌套的短临外推预报方法
Zhou et al. A station-data-based model residual machine learning method for fine-grained meteorological grid prediction
Liu et al. Distribution preserving multi-task regression for spatio-temporal data
Xu et al. Monthly NDVI prediction using spatial autocorrelation and nonlocal attention networks
Kaparakis et al. WF-UNet: Weather data fusion using 3d-unet for precipitation nowcasting
Kruse et al. Recreating observed convection-generated gravity waves from weather radar observations via a neural network and a dynamical atmospheric model
Bose et al. Simulation of atlantic hurricane tracks and features: A deep learning approach
Xu et al. Fuxi-DA: A Generalized Deep Learning Data Assimilation Framework for Assimilating Satellite Observations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant