CN112380781B

CN112380781B - 基于再分析资料和不平衡学习的卫星观测补全方法

Info

Publication number: CN112380781B
Application number: CN202011373173.XA
Authority: CN
Inventors: 任开军; 卢竞择; 李小勇; 赵延来; 邓科峰; 任小丽; 赵文朋; 黄丽蓝
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2022-10-18
Anticipated expiration: 2040-11-30
Also published as: CN112380781A

Abstract

本发明公开了一种基于再分析资料和不平衡学习的卫星观测补全方法，本方法中提出了R2S框架，用再分析资料中的相关变量模拟卫星观测，从而填补卫星观测的空缺，在R2S框架下，利用STM方法构建R‑S数据集，得到适用于热带气旋海面风速的卫星观测补全模型，R2S框架可显著提高卫星观测的空间覆盖率和时间分辨率；本发明还提出了SIMBA方法，通过不平衡学习来提高补全模型在高风速下的性能，并与常规机器学习结合，得到混合补全模型，混合模型在高风速补全方面优于常规机器学习模型，在中低风速补全方面优于不平衡学习模型，且混合模型的补全结果接近现场观测值，补全结果准确。

Description

基于再分析资料和不平衡学习的卫星观测补全方法

技术领域

本发明涉及卫星观测技术领域，尤其涉及一种基于再分析资料和不平衡学习的卫星观测补全方法。

背景技术

卫星观测，指低轨道人造地球卫星使用遥感方法，对地球表面观察并测量所得到的数据。科学卫星和气象卫星大多在低轨道上运行，低轨道卫星遥感影像的空间分辨率高，轨道周期更短，能够在短的时间内覆盖全球，有较强的全球观测能力。但是，低轨道卫星的观测刈幅有限，某一时间只能观测部分地球表面，无法连续观测全球。因此，低轨道卫星观测中，空间覆盖度和时间分辨率的不足，且存在大量的空缺。这些卫星观测的空缺，会导致无法连续观测海面风场等在全球范围内广泛分布的地球表面现象。对于热带气旋(Tropical Cyclones，TC)这一分布范围广、变化速度快的天气系统的海面风场，现有的卫星观测更难以满足对其时空连续性的需求。

现有技术中，土壤水分主被动(SoilMoisture Active Passive，SMAP)卫星携带了一个低频L波段辐射计，能够观测风暴条件下的海面风速。虽然SMAP有大约1000公里宽的连续扫描范围，但覆盖全球仍需两三天时间。TC等极端天气系统的变化迅速，SMAP的空间覆盖和时间分辨率仍不能满足实际需求。如图1所示，从2018年9月10日22：09到2018年9月11日10:14，SMAP仅观测到飓风FLORENCE两次，反映了时间分辨率的不足。同时，SMAP只观测到FLORENCE风场的一部分，说明其对TC的空间覆盖不足。

为了解决卫星观测空间覆盖度和时间分辨率的不足，研究人员提出了各种方法来填补卫星数据的空白。现有补全技术可以分为两类，即单源法和多源法，前者只使用目标卫星的观测数据，后者还引入了其他来源的数据作为辅助。绝大多数方法不能显著提高卫星观测的空间覆盖率和时间分辨率。此外，它们也不适合填补TC风速等空间分布不均匀和快速变化的对象的观测空缺。

目前的卫星观测补全研究，大多忽视了卫星遥感观测数据的不平衡问题，在使用机器学习等数据驱动的研究方法时，会得到不平衡的模型。为了解决不平衡问题，学者们提出了不平衡学习技术，提高了预测模型对罕见域的预测能力，取得了比不考虑不平衡问题时更好的效果。处理不平衡问题基本策略有两种：预处理方法和损失敏感学习方法。

预处理方法可分为两种，第一种是重采样方法，第二种是特征选择和提取方法。重采样方法比较灵活和简洁，具有较好的通用性，但最优采样频率难以确定，有些重采样方法需要设置不止一个超参数，和后续训练时所需的超参数叠加后会形成更大的超参数空间，加大模型训练的时间开销。特征选择是从整个特征空间中选取一部分特征来训练模型的方法。其优点是降低特征空间的维度，简化模型，减缓过拟合，加快训练速度，特别适用于少量高维的数据集；缺点是引入了特征提取操作的复杂性，彻底损失了部分特征维度，其降维比较粗糙。

损失敏感学习的核心思想是增大罕见域损失相比于常见域损失的比例，迫使模型将更多注意力集中在罕见域，具体方法包括修改决策阈值、改变目标函数、优化学习算法。敏感损失学习的主要局限性在于难以确定损失矩阵的值、损失函数的具体形式等关键元素。

发明内容

本发明的目的是为了解决现有技术中由于测量设备的限制、环境的干扰以及数据更新的延迟或丢失等各种因素，大多数卫星观测存在数据空白的问题，而提出的一种基于再分析资料和不平衡学习的卫星观测补全方法，以提高地球表面监测的空间覆盖率和时间分辨率，并通过不平衡学习，提高卫星观测数据的准确性。

为了实现上述目的，本发明采用了如下技术方案：

基于再分析资料和不平衡学习的卫星观测补全方法包括以下步骤：

步骤一：构建再分析到卫星(Reanalysis to Satellite，R2S)框架，使用再分析资料中的变量模拟卫星观测来实现补全；

步骤二：在R2S框架中，结合时空匹配(Spatial Temporal Match，STM)的通用方法，以构建再分析-卫星(Reanalysis-Satellite，R-S)数据集，然后通过匹配再分析资料和卫星观测数据，训练补全模型；

步骤三：基于R-S数据集，利用半不平衡(Semi-imbalanced，SIMBA)的新方法，将传统的机器学习与不平衡学习相结合，解决补全中的数据不平衡问题。

在上述步骤进行前，需要对R2S框架、STM方法以及SIMBA方法中的问题进行定义。

(1)R2S框架问题设定

本发明中只考虑靠近地球表面的再分析资料和卫星观测，因为将二者在空间上都视为二维的。首先，本发明形式化定义卫星观测。卫星观测可以看作一个时间序列

卫星观测的平面格网可以定义为一个二维矩阵：

其中s_r和s_c分别表示卫星观测格网的行数和列数。

卫星观测的值是连续的数值，其大小是时间坐标和空间二维坐标的函数：

不同的卫星观测数据有不同的物理含义和取值范围。TC海面风速的物理含义是指在海拔10米处的等效中性风速，根据历史记录，TC海面风速的范围为0m/s至100m/s左右。

在时刻的卫星观测值的平面格网也是一个二维矩阵：

整个卫星观测数据集可以看作一个时间序列

进一步的，接着形式化定义再分析资料。再分析资料的变量是一个向量V_all＝[v₁，...，v_w]，其中w是变量的数量。用户可以从V_all中选择m个和卫星观测有关的变量，记作V_rele＝{v_i|v_i∈V_all，v_i与s相关}(|V_rele|＝m)。这些相关变量是影响卫星所观测物体的环境变量。

它们具有不同的物理含义和取值范围。例如，对于TC海面风速，海面温度(SST)是再分析资料中的相关变量之一。海面温度的物理含义是指接近海面的水温。一般情况下，TC需要在SST至少约26.5℃的情况下存在.再分析资料的时刻也可以表示为时间序列

的元素。和卫星观测类似，其平面格网也可以定义为一个二维矩阵：

其中，r_r和r_c分别表示再分析资料格网中行和列的数量。对于任何一个再分析资料变量，它可以是分类变量，也可以是离散数值变量，还可以是连续数值变量。其值是时间、横纵坐标和具体变量的函数。

在特定时刻和地点的再分析资料是一个包含所有被选择变量的向量r_ijk＝[r_ijk1，...，r_ijkm]。

时刻的再分析资料的平面格网也是一个二维矩阵：

整个再分析资料数据集是一个时间序列

最后，本发明定义使用再分析资料推测并补全卫星观测的问题，即学习从R到S的函数f。这个函数使用同一时刻和地点的再分析资料推算卫星观测。

s(t，y，x)＝f(r(t，y，x)) 公式7

(2)STM方法问题设定

为了学习从R到S的函数f，需要匹配R和S来构建训练数据集，才能使用监督学习方法学到函数f，本发明将该数据集称为R-S数据集。

首先，本发明建立R-S数据集的时间序列和平面坐标网络。由于本发明的目标是用再分析资料模拟卫星观测，因此本发明建立的R-S数据集，其时间序列和平面坐标网络与卫星观测相同。其次，本发明将STM方法的目标定义为函数g，该函数可以将再分析资料插值到卫星观测的同一时刻和位置。

其中，

属于

属于G_s。

然后，本发明定义R-S数据集。假设R-S数据集共有n个样本。对于第i′个样本，它的特征和标签分别是

和

因此，R-S数据集可以被定义为：

(3)SIMBA方法问题设定

为了使用不平衡学习中的重采样方法，本发明需要将R-S数据集分为两部分。本发明将众多且不重要的样本命名为常见域样本，将稀少且重要的样本命名为稀有域样本。由于类别标签的离散性，在分类问题中比在回归问题中更容易区分常见域和稀有域。在回归问题中，连续标签的特定范围内的值往往比其他范围内的值更重要。在实践中，重要的样本往往是稀疏的，而大部分数据集是由不重要的样本组成的，从而导致数据集的不平衡。例如，TC附近的高风速样本比中低风速样本更稀少，更重要。重采样法通过合成罕见域样本，减少常见域样本，来缓解数据集的不平衡性。

因此，为了根据重要性划分标签值的范围，本发明需要定义重要性函数，即

它将数据集的标签范围映射到重要性范围，其中0对应最小重要性，1对应最大重要性。凭借重要性函数θ(y)和重要性阈值σ_R，本发明可以定义两类不平衡样本集，即罕见域

和常见域

本发明将在后文中详细讨论θ(y)和σ_R的设置。

通过定义常见域

和罕见域

本发明将常规机器学习和不平衡学习的结合问题定义为在保持函数f在常见域

上性能不变的情况下，改进函数f在罕见域

上的性能。具体性能度量标准应根据实际应用场景确定。

完成上述问题的定义后，本实施例开始建立R2S框架。

本发明提出了R2S框架，用再分析资料中的相关变量推算相应的卫星观测，来填补卫星观测的空白。如前文R2S问题定义所示，利用再分析资料填补卫星观测数据的空白，是R2S框架中的一个回归问题，由于没有现成的数据集，本发明需要通过将再分析资料与卫星观测数据进行时空匹配来构建R-S数据集。

如前文所述，R-S数据集是作为再分析资料点和卫星观测点之间的一对一对应关系构建的。因此，R-S数据集可以结构化地用表格表示数据。为了训练基于结构化R-S数据集的模型，考虑到决策树算法在涉及中小结构化数据的预测问题上的突出表现，本发明选择了决策树算法。梯度提升决策树(Gradient Boosting Decision Tree，GBDT)算法，是一种基于决策树和集成学习的机器学习算法，在现实应用场景和数据挖掘竞赛中展现了其强大的性能。XGBoost是GBDT的著名变种之一，本发明以它为例解释GBDT的原理。

“GBDT”中的“DT”指的是决策树(Decision Tree)，决策树可分为两类，分类树和回归树，分别解决分类问题和数值预测问题。XGBoost以回归树作为其基函数，回归树的每个叶子结点上，都会有一个表示预测的数值。

“GBDT”中的“B”指的是提升(Boosting)方法，使用加法模型和前向分布算法做预测。加法模型指基函数的线形组合，在XGBoost中即为回归树的线形组合；前向分布算法指，一次学习一个基函数(基分类器)，只针对这个基分类器进行优化。使用回归树作为基函数的提升方法称为树提升(Boosting Tree)，XGBoost使用的就是树提升方法。

接下来使用形式化的方法介绍树提升模型的结构。一个有着m个特征和n个样本的给定数据集，可以描述为

其中x为问题的输入值，y为问题的输出值。

上的提升树模型可以表示为：

其中K是回归树的数量，

是回归树空间。T是回归树中叶子结点的数量。w是表示叶子结点得分的向量，w_i表示第i个叶子结点的得分值。q表示回归树的结构，把输入值映射到叶子结点。w_q(x)即表示样本x落在树的叶子结点q(x)上。公式10中的每个f_k，对应一个树结构q和相应的叶子结点得分向量w。因此，对于一个给定的样本，根据每棵树的规则(由q给出)把它分到每棵树各自的叶子结点上，再将这些叶子结点上的得分(由w给出)累加，得到该样本最终的预测值。

为了学习公式10中的每个f_k，需要设立目标函数。与传统GBDT不同，XGBoost引入了正则化项来约束模型的复杂度，以保证较好的泛化性能。

其中，l是一个计算预测值和真实输出值之间的差异的损失函数，Ω惩罚回归树模型的复杂度。

“GBDT”中的“GB”指的是梯度提升(Gradient Boosting)，是学习回归树的算法。公式12将函数作为参数，无法使用传统的参数优化方法，因此XGBoost使用累加性方法训练模型。设第i个样本在第t次迭代的预测值为

本发明在其基础上加上f_t来最小化目标函数。

即采用贪心算法，在每一次迭代中，都加上对公式12改进幅度最大的f_t。与传统GBDT不同，XGBoost使用泰勒展开对目标函数做了二阶近似。

其中，

和

分别为第个样本损失函数的一阶和二阶导数(梯度)。通过去除常数项，可以得到简化后的第t次迭代时的目标函数：

通过把被分到叶子结点j的样本集I_i＝{i|q(x_i)＝j}，本发明可以把公式16重写为：

通过定义

和

可以把目标函数进一步简化为：

其中，

是二次多项式。因此，对于给定的树结构，最佳的w_j和目标函数值为：

公式20可用于计算树结构q的质量，因为一棵树的目标函数值越小，说明其结构越好。

结合公式10、公式11可以确定树结构q，就可以计算w，预测样本的输出值，而公式20可以测量q有多好，从而学习q。理想状态是遍历所有可能的树结构，选出最优的一个，但在实际应用中显然不可行。XGBoost采用贪心策略，从一个单独的叶子结点开始，一次学习一层树结构(即决定该层的结点如何分裂)。

上式可分解为1)分裂之后左叶子结点的得分；2)分裂之后右叶子结点的得分；3)被分裂的叶子结点的得分；4)对新增叶子结点的正则化项。最后一项的作用在于，如果分裂的增益小于阈值γ，则不做分裂，相当于剪枝。最后，和普通的基于树的模型一样，XGBoost将样本按叶子结点得分排序，从左至右扫描，遍历所有可能的分裂，并计算相应树结构的增益，从而找到最佳分裂，确定树结构。

为了以数据驱动的方式训练利用再分析资料模拟卫星观测的模型，本发明首先需要构建反映它们关系的R-S数据集。R-S数据集由STM方法构建，如图2所示，蓝色正方形代表再分析资料，红色正方形代表卫星观测。本发明需要定义空间窗口和时间窗口，空间窗口控制匹配的地理范围，时间窗口控制匹配的时间范围。

参考图2，本发明将空间窗口定义为经纬度矩形，根据卫星观测对象的运动状态，空间窗口可以是固定的，也可以是移动的。空间窗口的纬度和经度跨度分别为M和N。时间窗口定义为长度为L的区间，沿一维时间轴滑动。

空间窗口和时间窗口的大小都需要根据卫星观测结果进行调整。空间窗口至少需要覆盖观测对象的地理分布。时间窗口的大小集需要至少考虑两种速度：观测对象的移动速度和变化速度。如果观测对象移动，即使一对再分析资料和卫星观测数据的像素在空间上是重合的，它们的相似度也会随着时间差的增大而降低。因此，STM法要求时间窗口的大小要满足以下条件：

max(d_L)＜e_p 公式22

其中，d_L指观测目标在L时间间隔内移动的空间距离，e_p表示卫星观测正方形像素的边长。使用公式22确定的时间窗口大小，记作L_mov。

值得注意的是，公式22在卫星观测对象静止时并不会限制时间窗口的大小。但是，STM方法会根据卫星观测对象本身数值上的变化速度来限制时间窗口的大小：

max(c_L)＜σ_c 公式23

其中，c_L指卫星观测对象的数值在时间间隔

里变化的百分比，σ_c指用户设定的阈值。由公式23确定的时间窗口大小被记作L_chg。因此，STM方法将最终的时间窗口大小设置为：

L＝min(L_mov，L_chg) 公式24

在设置空间窗口和时间窗口后，STM方法在空间和时间上对再分析资料和卫星观测数据进行匹配。STM方法将卫星观测的像素值设置为R-S数据集的标签。由于卫星观测数据是回归问题的标签，所以卫星观测数据比再分析资料要求更保真。因此，为了保证卫星观测数据在空间匹配中的准确性，STM法将再分析资料内插到卫星观测数据的位置。

假设再分析资料中一共有m个变量和卫星观测有关，每个变量都被空间插值到卫星观测所在的精确位置，得到m个特征，可以表示为v₁，v₂，v₃，...，v_m。在时间上，STM方法用卫星观测时刻的偏差T_S减去再分析资料的时刻T_R，并记录为t。如果时间窗口设置正确，且|t|≤L，则再分析资料与卫星观测数据之间的差异可以控制在一个可接受的水平。因此，STM方法将t记录为R-S数据集中的一个特征，而不是沿时间轴进行内插。

本发明将R-S数据集的特征定义为x＝[t，v₁，v₂，...，v_m-1]，将标签定义为y＝v_s。所以，R-S数据集可以表示为

接下来引入不平衡学习后构建的不平衡学习模型，将二者相结合，通过SIMBA方法，得到优化后的混合补全模型(HYBRID补全模型)，其流程如图3所示。

由于重采样方法灵活简洁，本发明使用预处理方法中SMOGN方法来缓解R-S数据集的不平衡性。SMOGN方法结合了SMOTER和引入高斯噪声，性能优于两者。SMOTER是著名的SMOTE算法的变体，用于解决回归问题。它通过插值策略将随机欠采样和稀缺样本的合成相结合。高斯噪声引入，通过在原始稀缺样本上叠加正态分布噪声来合成稀缺域样本。

常规机器学习和不平衡学习的结合问题中提到的重要性函数θ(y)是依赖于领域的，理想情况下应该由领域专家提供。因此本发明不需要自己定义θ(y)来划分正常域

和罕见域

此外，本发明将σ_R视为超参数，在设定目标函数和超参数优化后，可以在实践中计算出σ_R。以卫星观测的TC风速为例，本发明可以先定义一个目标函数，该目标函数关注高风速区间的误差。然后，本发明设置σ_R作为重采样方法的超参数。之后，本发明在原始训练集上优化重采样方法的超参数，得到一个相对最优的σ_R。接下来，本发明用这个σ_R来分割正常域和稀有域。将优化的重采样方法应用于训练集后，本发明在预处理后的训练集上训练模型。因此，σ_R不是预先设定的，它是在实践中用数据驱动方法优化的一个超参数。

在预处理阶段对数据集进行平衡后，本发明在训练阶段继续解决不平衡问题。在回归问题中，一般采用均方误差(MSE)等均匀加权损失函数。

然而，当数据不平衡时，预测倾向于偏向正常域，以获得更好的全局评价指标。本发明需要定义一个新的损失函数，增加模型在罕见域的偏向损失，迫使其将注意力从正常域转移到本发明指定的罕见域。受Focal Loss函数的启发，本发明基于MSE定义GapFilling Loss(GPL)函数：

其中

是模型对卫星观测的估计值，y_i是卫星观测的实际值。θ和β是可调整的超参数。

MSE是回归任务下的一个通用有效的损失函数。因此本发明建立了基于MSE的GPL函数。为了克服使用MSE作为损失函数时，模型在稀有域上的性能下降，本发明增加一个可变系数来增加损失或保持损失不变，得到公式26。公式26是一个分段函数，它使用可调变量β作为阈值来控制增加损耗的区间。当y_i的值大于β时，损失会增加。如果实际情况正好相反，即当y_i的值小于β时需要增加损失时，可以将y_i的符号反过来适用于公式26。

当y_i大于β时，本发明在MSE中加入一个调制系数

其中可调聚焦参数θ≥0。因此，当y_i大于β时，样本的损失系数(x_i，y_i)随着y_i的增加而增加，提高了模型对重要区域的敏感性。当y_i不大于β时，损失系数为常数，与MSE相同。因此，GPL在不重要的情况下保持样本的损失不变，在关键的情况下增加样本的损失，迫使模型对相对重要的情况更加敏感。

SIMBA方法训练了两个回归器。第一个是常规回归器，它是基于MSE损失函数的，没有使用任何不平衡学习方法。第二个是不平衡回归器，使用SMOGN对训练集进行预处理，并基于GPL函数进行损失敏感学习。本发明认为这两种回归器中的一种并不能完胜另一种，因为常规回归器是使用均匀加权的损失函数进行训练的，并且倾向于在常见域获得稳定的性能，而不平衡回归器则专注于罕见域。因此，将两个回归器结合起来可能会获得更好的性能。

以下为本发明涉及得SIMBA算法(算法1)。

本发明首先在验证集上找到两个回归器的性能分界点y_d，如算法1所示。算法1输入中的偏差数组是一个数组

其中

n_V是验证集的样本量。第1～4行是搜索性能分界点y_d之前的准备工作。在第1～2行中，本发明将验证集上的最小和最大标签值分别记录为y_min和y_max。在第3行中，本发明将y_max分配给y_d作为其默认值。在第4行中，本发明计算Y的最大-最小区间内的步数N。

第5～19行是一个循环，最多可以执行N+1次。在每次迭代中，第6行设置当前迭代的候选性能阈值t。本发明将其中y小于或等于t的样本称为左侧样本。同理，将y大于t的样本称为右侧样本。在第7～8行中，本发明将常规回归器的偏差数组B_nr划分为左侧样本的偏差数组B_nr-left和右侧样本的偏置数组B_nr-right在第9～10行中，本发明对不平衡回归器的偏差数组B_ir进行同样的操作，得到左侧样本的偏差数组B_ir-left和右侧样本的偏差数组B_ir-right。在第11行中，本发明通过B_nr-left的中位数和四分位距(IQR)之和来计算正常回归器在左侧样本上的得分S_nr-left。由于分数反映了中位数水平和分布偏差的紧凑性，所以分数越小表示性能越好。在第12～14行中，本发明使用与第11行相同的方法来计算S_nr-right、S_ir-left和S_ir-right。

在第15行中，本发明比较两个回归器在左侧样本和右侧样本上的得分。当满足第15行的条件时，意味着常规回归器在左侧样本上的表现优于不平衡回归器，而在右侧样本上的表现则相反。算法1的前提与GPL函数相同，即样本的y越大，其稀缺性和重要性越大。如果在实际操作中恰恰相反，则应将y的符号反过来适用于算法1。

在y较小的样本上，常规回归器可能优于不平衡回归器，而在y较大的样本上则相反。因此，如果满足第15行的条件，就可以找到性能分界点y_d。本发明在第16行将t赋值给y_d，并在第17行跳出循环。在第20行，如果没有满足第15行条件的t，则返回第3行给出的y_max。这意味着在搜索过程中，常规回归器的性能总是优于不平衡回归器。因此，本发明将只使用常规回归器。

接下来，本发明将预处理训练集的标签由连续值转化为二分类标签，代表原来的连续值标签y是否大于性能分界点y_d。然后，本发明根据转化后的训练集，用Focal Loss函数训练一个不平衡分类器：

FL(p_t)＝-α_t(1-p_t)γlog(p_t) 公式28

其中，p_t是模型对于y大于y_d的概率的估计，α_t和γ是可调的超参数。

最后，本发明用SIMBA方法建立HYBRID模型。不平衡分类器用于判断样本的标签y是否大于性能分界点y_d。如果是，HYBRID模型就选用不平衡回归器模拟。否则，HYBRID模型用常规回归器模拟样本的标签。

本发明重点比较基于同一机器学习算法的不同策略。首先，本发明使用流行的均匀加权损失函数，如MSE，来训练一个正常的模型，代表了大多数现有研究的方法。其次，本发明再利用不平衡学习方法训练一个专注于罕见域的不平衡模型。第三，本发明将前两步的两个模型结合起来，建立HYBRID模型。这三个模型都是使用LightGBM框架进行训练的，但每个模型都有不同的策略。

整体而言，首先，本发明利用STM方法建立基于真实数据的R-S数据集，并将其分为训练集、验证集和测试集。然后，本发明在训练集上构建模型并优化超参数，得到使用用流行的均匀加权损失函数训练的基线模型，然后使用不平衡学习方法训练不平衡模型。之后，本发明使用算法1在验证集上计算性能分割点y_d，建立HYBRID模型。接下来，本发明在测试集上比较基线模型、不平衡模型和HYBRID模型。最后，本发明用高质量的现场观测数据对HYBRID模型进行验证，以评估HYBRID模型的实际适用性。

本发明首次提出了再分析到卫星(Reanalysis to Satellite，R2S)框架，使用再分析资料中的变量模拟卫星观测来实现补全。在R2S框架中，本发明提出了一种称为时空匹配(Spatial Temporal Match，STM)的通用方法。以构建再分析-卫星(Reanalysis-Satellite，R-S)数据集，通过匹配再分析资料和卫星观测数据，训练补全模型。基于R-S数据集，本发明提出了一种名为半不平衡(Semi-imbalanced，SIMBA)的新方法，将传统的机器学习与不平衡学习相结合，解决补全中的数据不平衡问题。

综上所述，本发明提供了以下贡献：

1、本发明首次提出了一个名为R2S的框架，使用再分析资料中相关变量模拟并补全卫星观测，该框架显著提高了卫星观测的空间覆盖率和时间分辨率。

2、本发明提出了一种名为STM的通用方法，用于匹配再分析资料和卫星观测数据，构建数据集以训练补全模型。

3、本发明提出了一种名为SIMBA的新型方法来处理补全的数据不平衡问题，该方法结合了常规机器学习和不平衡学习。据本实施例所知，这是在补全领域首次处理不平衡问题。

由此，本发明的有益效果为：本发明提出了R2S框架，用再分析资料中的相关变量模拟卫星观测，从而填补卫星观测的空缺。在R2S框架下，针对SMAP卫星观测的TC风速构建了补全模型。补全模型可以模拟SMAP卫星对北大西洋的TC风速的观测，时间分辨率为一分钟。本发明可将研究区域扩展到全球海洋，利用STM方法构建更大的R-S数据集，就可以得到适用于全球海洋的补全模型。R2S框架可显著提高卫星观测的空间覆盖率和时间分辨率。

不仅如此，本发明提出了SIMBA方法，通过不平衡学习来提高补全模型在高风速下的性能，并与常规机器学习结合，得到混合补全模型。大量的实验表明，混合模型在高风速补全方面优于常规机器学习模型，在中低风速补全方面优于不平衡学习模型，且混合模型的补全结果接近现场观测值，补全结果准确。

本发明的应用场景之一是自然灾害的卫星观测补全。热带气旋的海面风速、风暴降雪、山火导致的PM2.5浓度等现象的卫星观测值比正常状态下的卫星观测值更加稀缺和重要。此外，卫星观测的时间分辨率必须更高，才能提供更多时间上的精细化数据，便于研究自然灾害的演变。本发明提出的SIMBA方法可以改善这些极端事件的补全，R2S框架可以显著提高补全结果的时间分辨率。

附图说明

图1为2018年SMAP观测到飓风FLORENCE风速时的数据空白图；

图2为STM方法示意图；

图3为SIMBA方法示意图；

图4为MSE回归器、SMOGN-FL回归器和HYBRID模型在测试集上的模拟结果的二维密度散点图；

图5为MSE回归器、SMOGN-TCL回归器和HYBRID模型在验证集上的模拟偏差图；

图6为HYBRID模型对2018年飓风FLORENCE的SMAP观测的部分补全结果图；

图7为2002年至2019年模拟SMAP-重采样SFMR匹配的二维密度散点图；

图8为模拟SMAP-重采样SFMR匹配统计的热力图。

具体实施方式

下面将结合本实施例实施例中的附图，对本实施例实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本实施例的一部分实施例，而不是全部的实施例。

首先，本实施例利用STM方法建立基于真实数据的R-S数据集，并将其分为训练集、验证集和测试集。然后，本实施例在训练集上构建模型并优化超参数，得到用流行的均匀加权损失函数训练的基和用不平衡学习训练的不平衡模型。之后，本实施例使用算法1在验证集上计算性能分割点，建立HYBRID模型。接下来，本实施例在测试集上比较基线、不平衡模型和HYBRID模型。最后，本实施例用高质量的原地观测数据对HYBRID模型进行验证，以评估HYBRID模型的实际适用性。

(一)原始数据来源

TC轨迹数据方面，本实施例使用的是国际气候管理最佳轨迹档案(1BTrACS)第4版(https：//www.ncdc.noaa.gov/ibtracs/)。它是TC点数据的集合，其属性包括TC的时间、中心经纬度、风速半径、中心气压等变量。对于某个TC，IBTrACS提供的点数据覆盖了其整个生命周期，是理想的TC轨迹数据源。

卫星观测海面风速数据，本研究上使用的是来自SMAP卫星(http：//www.remss.com/missions/smap/winds/)的观测。SMAP卫星于2015年1月31日发射，自2015年4月开始提供科学数据。SMAP的辐射计可以观测到高达65米/秒的TC风速，而且几乎不受降雨的影响。本实施例采用的是海平面以上10m处等效中性风速的SMAP的逐日观测，空间分辨率为0.25°×0.25°。再分析资料方面，本研究使用的是欧洲中尺度天气预报中心(ECMWF)的ERA5再分析资料。ERA5采用四维变化(4DVar)方法，考虑到观测的准确时间和模型在时间窗口内的演变，实现了全球范围内每天逐小时的再分析，对TC等极端天气现象进行了时间上的详细描述。本实施例选择“ERA5单层变量的小时估计值”的再分析资料产品(https：//cds.climate.copernicus.eu/cdsapp#！/dataset/reanalysis-era5-single-levels，以下简称为″单层再分析资料″)和″ERA5气压层变量的每小时估计″(https：//cds.climate.copernicus.eu/cdsapp#！/dataset/reanalysis-era5-pressure-levels}，以下简称为“气压层再分析资料”)。单层再分析资料有两种空间分辨率：适用于大气层的0.25°×0.25°和适用于海浪的0.5°×0.5°，而气压层再分析资料的空间分辨率统一为0.25°×0.25°。此外，ERA5没有同化SMAP卫星观测到的海面风速。

现场海面风速观测方面，本实施例使用的是SFMR海面风速(https：//www.aoml.noaa.gov/hrd/data_sub/hurr.html)。美国国家海洋和大气管理局(NOAA)和美国空军后备司令部(AFRC)定期派出飞机通过大西洋和东太平洋的TC来获取机载SFMR数据。它结合了6个间隔紧密的C波段通道，提高了对风和雨信号的分辨能力，可以同时获取海面风速和降雨率。Klotz和Uhlhorn创立的SFMR在宽广的风速范围内与下投式探空雷达的风速有很强的相关性，最高可达70m/s。本实施例没有采用风速低于15m/s的SFMR观测数据，因为在低风速范围内SFMR观测具有较低的信噪比。

(二)数据预处理和数据集分割

IBTrACS的3小时时间分辨率不够高，无法与足够数量的再分析和卫星观测的海面风速相匹配。因此，本实施例把TC的位置从3小时的时间分辨率内插到每小时的时间分辨率。在ERA5中，有57个空气-海洋变量可能对TC海面风速有比较大的影响，记录为R_s。单层再分析资料中变量的具体选择见表1，因为ERA5单层再分析资料原始来源的变量名称为英文，翻译为中文会难以查找对应，不利于复现，因此表格保持英文原名。ERA5的气压层再分析资料包含37个1000hPa至1hPa范围内的等压面，每个等压面有相同的16个大气变量。对于ERA5的每一个网格点，本实施例通过ERA5单层再分析资料中的″平均海平面压力″变量，选择37个等压面中最接近网格点压力的一个。在气压层再分析资料中，所有16个大气变量都被选择并记录为R_p。因此，对于ERA5网格来说，57+16＝73的变量被用作辅助数据。

表1单层再分析变量

本实施例将空间窗口的边长M和N都设置为34节风速平均半径的两倍，因为34节风的半径比最大风速半径大得多，在这个范围内，中低风速样本比高风速样本多得多。据统计，2015年至2019年北大西洋TC的34节风平均半径为222km，约为2度。因此，本实施例将空间窗口的大小设置为4°×4°。本实施例通过公式22、公式23和公式24来确定时间窗口的大小。2015～2019年北大西洋TC的平均移动速度为21.7km/h，SMAP的空间分辨率为0.25°×0.25°。

因此，L_m约为1小时。TC最大持续风速的平均变化速度为每小时0.06％，即使本实施例将σ_c设为很小的0.1％，L_c也大于L_m。因此，时间窗口的大小被设置为L_m。考虑到ERA5的时间分辨率为1小时，30分钟的时间窗口可以在时间上匹配所有ERA5变量和SMAP风速。因此，本实施例将时间窗口的大小设置为30分钟。

在TC中心周围4°×4°的正方形区域内，本实施例在时间和空间上匹配ERA5再分析和SMAP风速来构建数据集。对于给定时刻的TC在h_TC整点时刻，本实施例将h_TC处的ERA5再分析与h_TC处30分钟内的SMAP风速进行匹配。此外，本实施例将SMAP风速相对于h_TC整点时刻的时间偏差记录为一个新的辅助变量t＝t_SMAP-h_TC，单位为分钟。

以TC为原点，以东、北为正x轴和正y轴方向，建立二维笛卡尔坐标系。本实施例用这个坐标系来确定SMAP风速网格点在空间窗口中的相对位置，以0.25°为单位长度。

水平坐标和垂直坐标分别表示为c_x和c_y。将SMAP风速记录为s后，本实施例得到回归模型的特征向量为x＝[t，c_x，c_y，R_s，R_p]，其维度为76，标签y＝s为标量值。

本实施例匹配了2015年4月1日至2019年12月31日北大西洋流域78个TC的SMAP-ERA5数据共122326条，将训练集和测试集以4：1的比例进行分割。此外，为了保证训练集和测试集中y的分布与原始数据集的分布相似，本实施例采用层次分割法。本实施例不按时间顺序对数据集进行拆分，比如将2015年至2018年的数据作为训练集，将2019年的数据作为测试集。因为在2019年之前有15个{x，y}的y大于60，而2019年的数量为0。如果本实施例使用2019年的数据作为测试集，模型填补SMAP风速高于60m/s的空白的能力将无法评估。为了验证模型的性能，本实施例取训练集的五分之一作为验证集，并保持其SMAP风速分布与原始数据集相似。因此，训练集、验证集和测试集的大小比例为16：4：5。

(三)实验验证

本实施例在实验中直接训练了两个回归器和一个分类器。它们都在SIMBA方法中描述，并在LightGBM框架中进行训练。两个回归器分别是正常回归器和不平衡回归器，而分类器是一个二元分类器。

本实施例以正常回归器作为基线，在原始训练集上进行训练。它的损失函数是均匀加权的，即在相同的预测偏差下，常见域样本和罕见域样本的损失相同。本实施例选择MSE作为基线损失函数，是因为MSE是机器学习回归任务中常用且性能良好的损失函数，并且是均匀加权的，如公式25所定义。MSE衡量的是参数估计值和参数值之间的平方差的期望值。因此MSE值越小，预测模型越好。为了反映正常回归器使用的损失函数，本实施例将基线命名为MSE回归器。

本实施例基于重采样法和损失敏感学习法来训练不平衡回归器。在SMOGN中，重要性函数θ(y)可以被设置为对标签的高或低极端值赋予较高的重要性。因此，本实施例可以不考虑低风速区间，只隔离高风速区间。除了在使用重采样方法预处理的训练集上训练不平衡回归器外，本实施例还将不平衡回归器的损失函数设置为GPL函数。要尽量避免低估高风速。因此，本实施例修改公式27，只有当风速被低估且大于阈值β时才增加损失：

结合公式26，这个新的损失函数被命名为热带气旋损失(Tropical CycloneLoss，TCL)函数。因此，由于采用了预处理方法和损失函数，本实施例将不平衡回归器命名为SMOGN-TCL回归器。同样，由于不平衡分类器的损失函数是公式28中定义的Focal Loss(FL)函数，本实施例将不平衡分类器命名为FL分类器。本发明的模型是在LightGBM框架中建立的，使用2.3GHz四核英特尔酷睿i5的MacBook Pro进行训练。SMOGN的超参数很多，与TCL函数和LightGBM的超参数组合在一起会形成一个巨大的超参数空间，增加了模型优化的开销。因此，本实施例首先对SMOGN的超参数进行优化。在优化SMOGN时，损失函数设置为MSE，LightGBM的超参数设置为默认值。然后根据SMOGN预处理的训练集，优化TCL函数和LightGBM超参数。本研究使用hyperopt包中的fmin函数对超参数进行优化，所有优化均进行100次。在训练完上述三个模型后，本实施例使用SIMBA方法建立基于FL分类器、MSE回归器和SMOGN-TCL回归器的HYBRID模型。

(四)实验评价标准

本实施例使用MBE误差(MBE)、均方根误差(RMSE)作为评价指标来衡量模型的性能。它们的定义如下。

其中N为样本数，

表示模拟的SMAP风速，y_i表示实际的SMAP风速。

MBE是平均模拟误差，代表模拟器低估或高估实际值的系统误差。本实验的目标之一是改善基线对高风速的低估。因此，有必要检查模型在一般情况下和特定风速区间内是否高估或低估了实际风速。与MSE、平均绝对误差(MAE)、RMSE等从不为负的指标不同，MBE反映的是平均模拟误差，可能为正也可能为负。因此，本实施例认为MBE是一个合适的评价指标。

RMSE是MSE的平方根，代表模拟值

与观测值y_i之间差异的样本标准差。RMSE比MAE给予最大误差更多的权重，当大误差特别不理想时，RMSE更有用。本实验中的基线可能会低估高风速，而且随着风速的增加，低估程度可能更严重。但是，高风速时的样本比中低风速时的样本要小得多。本实施例需要对高风速下的大误差给予更大的重视。因此，对于高风速下可能出现的大误差，RMSE是一个合适的评价指标。

(五)R-S数据集上的结果和分析

(1)超参数的优化

SMOGN的最终超参数设置如下：稀有样本间插值时的最近邻量(k)＝7，高斯噪声的扰动(pert)＝0.02，抽样方法(samp_method)＝″extreme″，重要性阈值(rel_threshold)＝0.9。要性函数矩阵设置为5、20、35附近为0，50附近为1。

MSE回归器、SMOGN-TCL回归器的超参数设置如表2所示。它们是LightGBM框架中Booster类的超参数。对于SMOGN-TCL回归器，公式29中θ和β分别为3和50。本实施例使用算法1，设定pace＝1，从MSE回归器和SMOGN-TCL回归器的偏置数组中计算出验证集上的y_d＝45。然后本实施例对预处理后的训练集进行转化，并训练FL分类器。公式28中的α_t和γ分别为0.70和0.54。FL分类器的其余超参数如表2所示。

表2超参数优化结果

(2)MSE模型和SMOGN-TCL模型的对比

参考图4和表3的显示，SMOGN-TCL回归器的总体全局性能比MSE回归器差。MSE回归器的RMSE和MBE相对较小，其在所有风速范围内的偏差波动都不大于SMOGN-TCL回归器。MSE模型在上述指标上优于SMOGN-TCL模型并不奇怪，因为MSE回归器是以MSE作为目标函数进行训练的，目的是使全局平均误差最小。

相比之下，SMOGN-TCL回归器对高风速的低估使用了额外的惩罚，导致目标函数梯度较大，训练步骤较少。如表2所示，SMOGN-TCL回归器的叶子数只有MSE回归器的七分之一。因此，SMOGN-TCL模型在结构上要比MSE模型简单得多，在中低风速时波动较大。此外，虽然SMOGN-TCL模型对高风速的低估幅度较小，但在中低风速时产生了高估风速的倾向，特别是在30～45m/s的风速范围内最接近高风速(>45m/s)。

然而，SMOGN-TCL模型对高风速比MSE模型更敏感。如图4中的红框和图5中的箱图部分所示，当风速高于45m/s时，SMOGN-TCL回归器比MSE回归器更准确。图4中灰色的对角线代表完美的模拟，红色框表示实际SMAP风速高于45m/s的模拟。偏差是通过从模拟的SMAP风速中减去实际的SMAP风速得到的。图5中小提琴状的颜色斑块代表偏差分布的核密度估计。粗黑线是四分位距(IQR)，IQR上的白点是中位数。细黑线表示在75百分位数以上或25百分位数以下的1.5倍IQR内的偏差。而且，随着实际风速的增大，MSE回归器对风速的低估比SMOGN-TCL回归器更为严重。因此，在表3中，SMOGN-TCL回归器的线性拟合优于MSE回归器。

表3 MSE回归器、SMOGN-TCL回归器和HYBRID模型在测试集上的统计比较

由于测试集上中低风速的样本远多于高风速的样本，因此HYBRID模型和MSE回归器的总体统计量非常接近，如表3所示。HYBRID模型在高风速范围(＞45m/s)的表现与SMOGN-TCL回归器非常接近，低估风速的可能性较小。因此HYBRID模型模拟与实际SMAP风速的线性拟合斜率比MSE回归器更接近1，而HYBRID模型的MBE比MSE模型更接近0。因此，HYBRID模型显著提高了高风速(＞45m/s)下的性能，而全局性能指标下降的代价非常小。

在图中45～60m/s的风速范围内，HYBRID模型的偏差分布下限比MSE回归器和SMOGN-TCL回归器都要低一些，这意味着它综合了两个回归器对风速的低估。例如，给定20个样本，MSE回归器低估了前10个样本，高估了后10个样本，而SMOGN-TCL回归器则相反。在最坏的情况下，FL分类器完全错误，HYBRID模型将综合MSE回归器和SMOGN-TCL回归器的所有低估或高估结果。虽然HYBRID模型在45～60m/s风速范围内的偏差分布下限方面比这两个模型略差，但从该风速范围内的偏差中位数和IQR方面来看，它的表现优于MSE回归器。

(六)基于合成数据的实用性检验

本实施例利用机载SFMR观测到的风速来验证HYBRID模型模拟的SMAP风速对实际应用的价值。

由于SMAP风速的模拟不受SMAP卫星本身寿命的限制，本实施例将实验时期回溯到2002年。匹配的方法与Meissner等人的方法类似。不同的是使用空间窗口和时间窗口来构建R-S数据集，以代替对TC的移动距离和强度变化的限制。对SFMR风速沿其轨迹进行重新采样，并将其平均到0.25°×0.25°空间分辨率，这与模拟的SMAP风速相同，如图6(b)所示。其中，实心黑线为携带SFMR的飞机轨迹，沿实心黑线的圆圈表示重新采样的SFMR风速数据。

值得注意的是，SMAP的观测时间是分钟级的，这意味着在R-S数据集上训练的模型具有分钟级的时间分辨率。基于和数据预处理中相同的变量定义，当HYBRID模型在每一个h_TC处遍历t从-30到29的所有可能值时，它产生的风速具有分钟级的时间分辨率。如图6(a)和图6(d)所示，HYBRID模型顺利地填补了图1所示的空间空白，增加了SMAP卫星观测的空间覆盖率。HYBRID模型还模拟了其他时间不存在的SMAP观测数据，如图6(b)和图6(c)所示，提高了SMAP卫星观测数据的时间分辨率。此外，这些模拟结果经SFMR风速验证，精度较高。在TC中心附近，HYBRID模型的模拟结果高于SFMR风速，但这不仅仅是HYBRID模型本身的原因。

沿SFMR轨迹的一维平均，与SMAP卫星天线的二维平均相比，在气旋眼附近将赋予低风速更大的权重。如图6(b)和图6(c)所示，虽然在气旋眼外的8个匹配点上，模拟的SMAP风速都非常接近SFMR风速，但由于重新采样，气旋眼附近的SFMR风速似乎系统性地降低了。因此，本实施例排除了气旋眼附近的匹配点，即相对水平坐标x和垂直坐标y为零的网格点。

匹配的二维密度散点图如图7所示。其中，灰色对角线代表完美模拟，红色方框表示实际SMAP风速高于45m/s的模拟。统计参数N、μ和RMSE是模拟的SMAP-重采样SFMR匹配次数、MBE和均方根误差。图中给出了模拟SMAP风速与重采样SFMR风速之间的MBE和RMSE的统计指标。模拟SMAP风速对重采样SFMR风速的线性回归系数达到0.988，意味着模拟SMAP风速几乎没有低估真实的海面风速，这与已有研究一致。

表4将图7中的匹配分为不同的风速区间，并显示每个区间的统计数据。表4中的风速区间是指重新采样的SFMR的风速，第一列中是重新采样的SFMR风速范围，不包括低于15m/s的重新采样的SFMR风速。从25～35m/s的风速范围开始，随着风速的增大，模拟SMAP风速的低估量逐渐增大。

随着风速的增大，同样的误差波动将导致更大的RMSE。为了消除这种数值干扰，本实施例将每个风速范围的RMSE除以该范围内重新采样的SFMR风速的平均值，得到归一化RMSE。从归一化RMSE可以看出，随着风速的增大，模拟SMAP风速的误差波动幅度惊人地减小，反映了HYBRID模型在高风速下的良好稳定性。

表4 MSE回归器、SMOGN-TCL回归器和HYBRID模型在测试集上的统计比较

图8中显示了模拟SMAP-采样SFMR匹配的计数、MBE和RMSE的空间分布，TC中心的匹配被移除，热力图边缘的空白区域表示该位置没有匹配。具体来说，图8(a)显示匹配次数，TC中心附近的匹配数量最大，置信度最高。图8(b)显示MBE的空间分布，绝大部分的MBE较小，模拟的SMAP风速在大部分地区略微高估，在外围地区低估。同时，大部分4°×4°地区的MBE的绝对值不超过2m/s。图8(c)显示均方根误差的空间分布，大部分区域的RMSE低于5m/s。然而，考虑到采样误差，大误差在空间上高度集中在TC中心附近。MBE和RMSE的空间分布均为近似同心圆，说明HYBRID模型高估了TC中心附近的风速，误差波动较大，而空间窗口边缘则相反。

SMAP模拟风速与重新采样的SFMR风速之间的偏差至少是SMAP本身的观测误差和HYBRID模型的模拟误差的结合。SMAP本身的观测误差体现在对高风速的低估上，因为SMAP的0.25°×0.25°分辨率的辐射计难以捕捉到最大风速随TC强度增加而缩小的区域。因此，即使本实施例的模型很好地逼近了SMAP卫星观测到的海面风速，但SMAP本身的低空间分辨率仍然造成了高风速时的低估。HYBRID模型在高风速范围(＞45/m/s)的误差也可能是由于R-S数据集缺乏高风速样本造成的。在高风速下模型的训练和验证可能并不充分，限制了HYBRID模型在一些R-S数据集没有覆盖的情况下的性能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于再分析资料和不平衡学习的卫星观测补全方法，其特征在于，包括以下步骤：

步骤一，构建再分析资料到卫星观测(Reanalysis to Satellite，R2S)的框架，使用再分析资料中的变量模拟卫星观测来实现补全；

步骤二：在R2S框架中，提出时空匹配(Spatial Temporal Match，STM)的通用方法，构建再分析-卫星(Reanalysis-Satellite，R-S)数据集，用于训练补全模型；

步骤三：基于R-S数据集，提出名为半不平衡(Semi-imbalanced，SIMBA)学习的新方法，结合传统的机器学习与不平衡学习，解决补全中的数据不平衡问题；

所述步骤三中的半不平衡学习方法，包括以下操作：

(21)将R-S数据集分为常见域和罕见域两部分，众多且不重要的样本为常见域样本，稀少且重要的样本为罕见域样本；

(22)为了根据重要性划分标签值的范围，定义重要性函数，即θ:

将数据集的标签范围映射到重要性范围，其中0对应最小重要性，1对应最大重要性；

(23)凭借重要性函数θ(y)和重要性阈值σ_R，定义两类不平衡样本集，即罕见域

和常见域

其中

为R-S数据集。

2.根据权利要求1所述的基于再分析资料和不平衡学习的卫星观测补全方法，其特征在于，所述步骤一中，包括卫星观测的形式定义步骤和再分析资料的形式定义步骤；

所述卫星观测的形式定义步骤包括以下操作：

所述卫星观测看作一个时间序列

卫星观测的平面格网定义为一个二维矩阵：

其中s_r和s_c分别表示卫星观测格网的行数和列数；

不同的卫星观测数据有不同的物理含义和取值范围，

在

时刻的卫星观测值的平面格网也是一个二维矩阵：

整个卫星观测数据集看作一个时间序列

所述再分析资料的形式定义步骤包括以下操作：

再分析资料的时刻表示为时间序列

的元素，其平面格网定义为一个二维矩阵：

其中，r_r和r_c分别表示再分析资料格网中行和列的数量；对于任何一个再分析资料变量，其值为时间、横纵坐标和具体变量的函数：

在特定时刻和地点的再分析资料是一个包含所有被选择变量的向量r_ijk＝[r_ijk1,…,r_ijkm]，

时刻的再分析资料的平面格网也是一个二维矩阵：

整个再分析资料数据集是一个时间序列

最后，步骤一中对再分析资料推算卫星观测的函数进行了定义，所述函数为学习从R到S的函数f，所述函数f为：

s(t,y,x)＝f(r(t,y,x,v))。

3.根据权利要求2所述的基于再分析资料和不平衡学习的卫星观测补全方法，其特征在于，所述步骤二中，包括以下操作：

(11)建立R-S数据集的时间序列和平面坐标网络；

将STM方法的目标定义为函数g，函数g将再分析资料插值到卫星观测的时刻和位置，所述函数g为：

其中，

属于

属于G_s；

(12)定义R-S数据集；

假设R-S数据集共有n个样本，对于第i'个样本，它的特征和标签分别是

和

因此，R-S数据集被定义为：

4.根据权利要求3所述的基于再分析资料和不平衡学习的卫星观测补全方法，其特征在于，所述步骤二中，选择梯度提升决策树训练基于结构化R-S数据集的模型，其中x为问题的输入值，y为问题的输出值，

上的提升树模型表示为：

其中K是回归树的数量，

是回归树空间，T是回归树中叶子结点的数量，w是表示叶子结点得分的向量，w_i表示第i个叶子结点的得分值，q表示回归树的结构，把输入值映射到叶子结点，w_q(x)即表示样本x落在树的叶子结点q(x)上；

每个f_k对应一个树结构q和相应的叶子结点得分向量w，为了学习每个f_k，引入正则化项来约束模型的复杂度设立目标函数：

其中，l是一个计算预测值和真实输出值之间的差异的损失函数，Ω惩罚回归树模型的复杂度；

为使用传统的参数优化方法，使用累加性方法训练模型，设第i个样本在第t次迭代的预测值为

其基础上加上f_t来最小化目标函数：

然后，使用泰勒展开对目标函数做了二阶近似：

其中，

和

分别为第i个样本损失函数的一阶和二阶导数，通过去除常数项，得到简化后的第t次迭代时的目标函数：

通过把被分到叶子结点j的样本集定义为I_j＝{i|q(x_i)＝j}，上述目标函数写为：

通过定义

和

把目标函数进一步简化为：

其中，

是二次多项式，因此，对于给定的树结构，最佳的w_j和目标函数值为：

5.根据权利要求4所述的基于再分析资料和不平衡学习的卫星观测补全方法，其特征在于，所述步骤三中，使用预处理方法SMOGN来缓解R-S数据集的不平衡性。

6.根据权利要求5所述的基于再分析资料和不平衡学习的卫星观测补全方法，其特征在于，所述步骤三中，在预处理阶段对数据集进行平衡后，在训练阶段继续解决不平衡问题，在回归问题中，结合Focal Loss函数，基于MSE定义新的损失函数Gap Filling Loss(GPL)函数，所述Gap Filling Loss(GPL)函数计算公式如下：

其中，

是模型对卫星观测的估计值，y_i是卫星观测的实际值，θ和β是可调整的超参数。

7.根据权利要求6所述的基于再分析资料和不平衡学习的卫星观测补全方法，其特征在于，所述步骤三中还包括以下操作步骤：

(31)分别构建基于提升树模型的常规补全模型和基于不平衡学习的不平衡补全模型，在验证集上找到两个模型的性能分界点；

(32)根据训练集标签和分界点的大小关系，将训练集由标签为连续值的回归任务的数据集转化为标签为布尔值的二分类任务数据集；

(33)基于该二分类任务数据集和Focal Loss函数，训练不平衡分类器，所述不平衡分类器用于判断样本属于常规域还是罕见域；

(34)通过一个分类器和两个补全模型的结合，构造出混合补全模型，若样本属于常规域，则使用常规补全模型，若样本属于罕见域，则使用不平衡学习补全模型。