CN111597494A

CN111597494A - 一种基于非平稳时间序列分解的统计降尺度方法

Info

Publication number: CN111597494A
Application number: CN202010376317.0A
Authority: CN
Inventors: 李欣桐; 张晓东; 王曙光
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-08-28
Anticipated expiration: 2040-05-07
Also published as: CN111597494B

Abstract

本发明涉及一种基于非平稳时间序列分解的统计降尺度方法，该方法的具体步骤包括：S1.降尺度数据准备；S2.非平稳时间序列分解；S3.最优时间序列分解结果的选择；S4.随机森林模型训练；S5.训练后时间序列分解分量的合成；S6.模型评估；S7.未来情景的降尺度。该方法在稳态的分量之间寻找统计关系，进而解决统计降尺度中有关统计关系一致性假设的问题，解决了气候模型和水文模型之间的一直存在的尺度不匹配问题，也为利用水文模型进行未来气候变化等一系列研究中的流域响应提供了一种更为可靠的途径。

Description

一种基于非平稳时间序列分解的统计降尺度方法

技术领域

本发明涉及一种基于非平稳时间序列分解的统计降尺度方法，属于气候和水文交叉领域。

背景技术

气候变化是全球变化的先驱和重要组成部分，数据分析表明，随着社会的发展，人类活动，土地利用以及城市化进程的加快，气候变化产生了多尺度、全方位、多层次的影响。气候变化通过气温、降水、蒸发等因素的改变来影响陆地水循环系统,导致不同时空尺度的水资源重新分布。全球气候模式的出现及其提供的大尺度气候因素的模拟结果为利用水文模型研究区域尺度的水资源的未来和过去的时空特征变化提供了可能。通常，全球气候模型具有较粗的空间分辨率(几百千米),而水文模型的尺度往往在几十千米甚至几千米的范围内，全球气候模型的输出分辨率太低以至于水文模型和全球气候模型之间往往存在尺度差异的问题。全球气候模型的输出无法直接驱动水文模型，也无法直接用于区域水环境或气候环境相关的应用研究。另外，由于气候模型模拟的全球尺度，考虑到计算成本和时间成本，全球气候模型无法抓住全部的区域地势特征细节，比如复杂的地形、水文条件、土地利用情况等等。而某些局部地势特征对当地水文环境的影响是十分显著的，在区域水文气候研究中无法忽视。这种全球气候模型和水文模型之间尺度不匹配的问题限制了全球气候模型输出数据在水文模型中的应用，解决尺度不匹配问题对于利用全球气候模型和水文模型研究水文环境在过去和未来对气候变化的响应是十分重要的。

为此，许多研究致力于发展降尺度技术来弥补这一尺度差距的问题。降尺度技术主要分为三类：动态降尺度、统计降尺度和混合降尺度技术。动态降尺度技术主要指利用区域气候模型来实现尺度下延。区域气候模型具有与全球气候模型相似的物理机制，但是拥有比全球气候模型更细的格网化方案，所以能在模型中刻画更多的区域细节特征，但是区域气候场景仍需要较高时间成本和计算成本。尽管动态降尺度技术已经得到广泛的认可，但是对于更大的研究区域，更紧急的模拟需求，区域气候模型很难快速的产生多种气候场景响应。区域气候模型复杂的物理数学基础也使得动态气候模型的应用受到限制。另外，动态降尺度技术直接依赖全球气候模型的输出作为区域气候模型的边界条件和输入，因此全球气候模型的错误模拟结果往往会被区域气候模型继承，从而导致错误的降尺度结果。

统计降尺度模型由于较高的计算精度和计算效率，简单的建立原理被广泛应用。通常的统计降尺度技术往往是寻找一种大尺度气候序列和小尺度气候序列之间的统计关系。小尺度气候序列往往是地面真实的观测值，统计降尺度技术也可以视为一种对全球气候模型输出的校正，往往与动态降尺度技术连用发展成为一种混合降尺度技术-统计-动态降尺度技术。统计降尺度快速校正了全球气候模型输出的偏倚，防止了区域气候模型继承这种误差。建立一种统计关系的方法多种多样的，例如多个变量和降尺度目标变量之间的线性/非线性的统计关系或者是基于某种分布的统计关系。Wilby等人提出的统计降尺度模型就是一种基于多元线性回归和随机天气发生器的统计降尺度模型，而随机天气发生器是一种基于温度/降水分布的统计方法。Themeβl等人提出了一种分位数映射方法，以纠正从历史降水记录得出的区域气候模型未来降水的经验分布。此外，建立这样统计关系的方法还有典型相关分析、主成分分析、奇异值分解、广义线性模型等。随着机器学习的流行，人工神经网络、支持向量机，深度学习包括长短时记忆人工神经网络、递归神经网络也被纷纷用于统计降尺度模型中。

然而现有的统计降尺度技术往往基于一种假设：气候模型和地面真实气候时间序列之间存在一种一致性的统计关系，即大尺度和小尺度之间的统计关系在未来不会发生改变。但是由于气候自身内部的变率以及人类活动的影响，这种假设是无法成立的。气候系统的高度非线性、非稳态性使得基于过去十几年甚至几十年建立的经验统计关系未来可能不会完全重现。这种假设使得统计降尺度模型在应用到未来场景降尺度的时候备受质疑，然而统计降尺度快速的降尺度能力在目前仍然是无可替代的。

发明内容

针对现有技术的不足，本发明提供一种基于非平稳时间序列分解的统计降尺度方法，将非平稳的气候序列分解为平稳的气候分量，通过寻找平稳分量之间的统计关系克服统计降尺度方法的非一致性假设的问题。

本发明的技术方案为：

一种基于非平稳时间序列分解的统计降尺度方法，具体步骤包括：

S1.降尺度数据准备：

收集全球气候模型GCM的大尺度数据和地面观测的小尺度数据，形成数据集；所述大尺度数据包括降水时间序列、最大温度时间序列、最小温度时间序列；小尺度数据也包括降水时间序列、最大温度时间序列、最小温度时间序列；

大尺度数据作为待降尺度数据；同一变量对应的小尺度数据作为真实值用于大尺度数据的降尺度模型的训练；所述变量包括降水、最大温度、最小温度；小尺度数据是针对小尺度系统来说的，在小尺度系统中，水平尺度约为20km以下，如城市尺度，流域尺度等；大尺度数据是针对大尺度系统来说的，在大尺度系统中，水平尺度约为2000km以上、如全球洋流循环系统、碳循环、氮循环等；

并将数据集划分为训练数据集和测试数据集；训练数据集和测试数据集经过非平稳时间序列分解和最优时间序列选取处理后，训练数据集用于训练降尺度模型，测试数据集用于对降尺度模型进行评估；

S2.非平稳时间序列分解：

使用双变量经验模态分解(BEMD)算法对步骤S1中同一变量对应的大尺度数据和小尺度数据进行非平稳时间序列分解，分别得到本征模态函数(IMF)分量组和一项残差分量，即一组分解结果；大尺度数据分解得到分量的时间尺度和小尺度数据分解得到的分量的时间尺度具有同步性；

通过调整BEMD算法中的投影方向的数量N_dir和迭代停止条件，获得多组分解结果；

通过经验模态分解(Empirical mode decomposition，EMD)算法可以实现非平稳时间序列分解。EMD算法假设原始信号由一组简单的、被认为是稳态的震荡模式叠加而成，这些震荡模式被称为本征模态函数。通过步骤S2实现非平稳气候序列的分解，寻找GCM大尺度和地面观测小尺度数据不同时间尺度的稳态分量之间的对应关系，要求保持GCM和地面观测稳态分量之间时间尺度的同步性。但是，尽管EMD算法可以实现非平稳时间序列分解，但是无法实现两个变量的同时分解，具体表现为对于同一时期同一变量同一站点的GCM和地面观测序列，其分解结果可能会包含不同的分量个数，从而无法直接寻找一种时间尺度的对应关系，而保持大尺度数据和小尺度数据分解的同尺度性是本方法建立降尺度模型的关键。所以，如果在建立模型阶段使用EMD分解将会导致GCM和地面观测值在分解中失去时间尺度的同步性。

本发明中，在建立统计降尺度模型的阶段，非平稳时间序列的分解采用了双变量经验模态分解(BEMD，Bivariate empirical mode decomposition)。BEMD是一种基于EMD(Empirical mode decomposition)的双变量经验模态分解算法，使用多方向投影解决二维数据的分解问题；BEMD算法可以将两个非平稳的时间序列同时分解成两组平稳的、具有规律振荡周期的分量组，保持时间尺度的对应性。

S3.最优时间序列分解结果的选择：

利用正交性指数OI从步骤S2得到的多组分解结果中选择最优时间序列分解结果，即确定最优N_dir值，具体为：

对于降水时间序列、最大温度时间序列、最小温度时间序列的任一组分解结果，分别计算GCM分解结果的正交指数OI_GCM和地面观测分解结果的正交指数OI_OB，将两个正交指数相加即得到一组分解结果的正交性指标OI_T，即OI_T＝OI_GCM+OI_OB；

从多组分解结果的正交性指标OI_T中，选择正交性指标OI_T最低时对应的N_dir，即为最优N_dir值；

正交性指标OI_T越低，意味着该组分解结果分量之间的正交性越强，同时也意味着存在较少的模态混合；从而可以确定投影方向，选择出最优的分解结果对应S2(2)中的N_dir。确定N_dir的分解结果即最优的分解结果，用于训练RF模型。

S4.随机森林(RF)模型训练：

采用最优时间序列分解结果中大尺度数据和小尺度数据的每一IMF分量对和残差分量对训练降尺度模型，降尺度模型为RF模型；GCM的IMF分量和和残差分量是训练的自变量，地面观测的IMF分量和残差分量是训练的因变量；由于经过S2非平稳时间序列分解，GCM的IMF分量与地面观测的IMF分量及GCM的残差分量与地面观测的残差分量具有残差具有时间相关性，两类数据的IMF分量的数量相同，残差分量数量也相同，GCM和地面观测的分解结果形成IMF分量对和残差分量对；

所述RF模型中树的个数为500，最大的叶子节点数为20，节点可分的最小样本数为2；采用MSE、MAE评价一次分裂的结果，最小不纯度为1e-7，叶子节点最小的样本权重和为0；

RF模型是一种树形结构的集成式机器学习模型，由多个彼此独立的决策树组成，利用集体决策的优势降低过拟合的问题。RF模型的优势之一是随机性，主要来源于两个方面：用于训练独立决策树的训练子集是随机的；用于节点分割的数据属性是随机的。这种随机性确保了决策树之间是相互独立的，从而使得误差均匀的分布在整个森林中，而这种误差最终会随着RF模型的集体投票策略而消除，通过集成多个弱决策来实现强的集成。RF模型因为参数简单，预测结果可靠等优点已经得到广泛应用。

S5.训练后时间序列分解分量的合成：

训练后的各个时间尺度的IMF分量和残差分量重新进行逆合成，以获得正常的降尺度降水时间序列、最大温度时间序列、最小温度时间序列；

所述逆合成是将所有分量重新相加，即按照r+IMF_i+IMF_i-1+…+IMF₃+IMF₂+IMF₁，其中，r代表残差分量，i代表第i个IMF分量；

S6.模型评估：

利用均方根误差、相关性系数、拟合优度对降尺度结果进行精度验证和模型评估；降尺度结果包括步骤S5得到的降水时间序列、最大温度时间序列、最小温度时间序列；

S7.未来情景的降尺度：

S7-1.获得未来情景的GCM的大尺度数据；

S7-2.进行EMD分解得到与已训练RF模型相对应的不同时间尺度的分量结果；

S7-3.利用步骤S4中训练好的RF模型进行对应时间尺度分量的降尺度，获得降尺度后的各时间尺度分量；

S7-4.将RF模型输出的降尺度分量按照步骤S5中的合成方法进行重新合成，从而获得未来的降尺度结果，用于未来区域的水文研究或者气候研究。

根据本发明优选的，步骤S2中，非平稳时间序列分解采用的BEMD算法的具体步骤为：

(1)将某一变量对应的GCM的大尺度数据和地面观测的小尺度数据组成一个二维数据x(t)，t表示时间，所述变量包括最大温度、最小温度和降水；

(2)根据公式

确定二维数据x(t)的投影方向

其中1≤n≤N_dir；N_dir表示投影方向的数量，n表示第n个投影方向；

(3)对二维数据x(t)进行投影，得到未分解的原始气候序列x(t)在方向

上的投影

二维数据采用处理复数投影的方式计算投影，即二维数据x(t)的两个维度标记为a(t)，b(t)，a(t)和b(t)代表大尺度和小尺度的气候序列；对以x(t)＝a(t)+b(t)j复数形式的数组进行复数向量的投影，即采用

进行数据投影，其中，j表示虚数单位，Re(·)代表数据的实数部分，

中

依据欧拉公式e^iθ＝cosθ+i·sinθ计算；

(4)提取投影

的局部极值

记录极值位置为

(5)使用三次样条插值算法插值步骤(4)中极值，获取包络线，提取的极值数据集

获取投影方向

上的极值包络线

(6)重复步骤(3)-(5)获取所有投影方向上的包络线；

(7)计算所有投影方向上包络线的均值m(t)，

(8)二维数据x(t)减去m(t)获得h(t)，IMF本质上是一组具有简单振荡周期的函数，二维数据x(t)减去均值m(t)，相当于去平均化，然后可获得震荡变化的高频成分h(t)，高频成分h(t)即潜在的IMF分量；

判断h(t)是否满足以下条件之一：

8-a、h(t)满足IMF的物理意义，满足IMF的物理意义包括IMF分量极值的个数和过零点的个数之差的绝对值小于1；IMF分量极大值插值的包络线与极小值插值的包络线的均值为0；

8-b、满足迭代停止条件；

8-c、达到最大迭代次数；迭代次数的确定根据数据量和计算资源决定，最大迭代次数是为了防止分解无法收敛，造成内存泄漏；

如果满足上述条件，则进行步骤(9)；

如果不满足上述条件，则令x(t)＝h(t)，重复步骤(2)-(7)，进行迭代运算，直到h(t)满足条件；

(9)将步骤(8)最终得到的h(t)标记为c_i(t)，c_i(t)即为第i个IMF分量；从x(t)中减去第i个IMF分量，得到第i个IMF分量提取后的剩余r_i(t)，即r_i(t)＝x(t)-c_i(t)；将得到的r_i(t)作为新的x(t)；

(10)重复(3)-(9)，直至满足下列条件之一：

10-a、无法再提取IMF分量，即最终得到的残差分量r_i+1(t)除两端端点外无极大值和极小值，无法再插值极值成包络线执行(4)之后的步骤进行IMF分量的提取；

10-b、满足迭代停止条件；

10-c、达到最大的迭代次数；

最后提取到第i+1个IMF分量标记为c_i+1(t)，提取后的残差分量标记为r_i+1(t)＝r_i(t)-c_i+1(t)；

(11)最终原始的二维数据被表示为

K为IMF分量的总数，c_k(t)是第k个IMF，r_k+1(t)是最终的残差分量，即趋势项。

根据发明优选的，步骤S2中，投影方向的数量N_dir为大于等于2的整数。

N_dir越大，二元信息投影的次数越多，信息保留越丰富，推荐根据计算机的计算能力和应用精度需求设置一组参数值便于进行分解结果的筛选。在不同的N_dir参数的控制下，会得到多组分解结果。

根据本法发明优选的，所述S3中，正交性指数OI的计算公式为：

式(I)中，N_IMF是本征模态函数IMF的个数；N为IMF的长度，即原始时间序列的长度；IMF_ik是第i个IMF分量中的第k个值,IMF_jK表示第j个IMF分量中的第k个值，x_k是未分解的原始气候序列，r_k是分解最终得到的残差分量。

根据本发明优选的，步骤S7-2中，进行EMD分解得到与已训练RF模型相对应的不同时间尺度的分量结果，具体步骤为：

(a)提取x(t)极值，此处x(t)是由GCM输出的未来情景大尺度数据组成的一维数组；

(b)采用三次样条插值算法插值获取极值包络线；

(c)计算包络线均值m(t)；

(d)计算h(t)＝x(t)-m(t)，判断h(t)是否满足以下条件之一：

d-1、h(t)满足IMF的物理意义，满足IMF的物理意义包括IMF分量极值的个数和过零点的个数之差的绝对值小于1；IMF分量极大值插值的包络线与极小值插值的包络线的均值为0；

d-2、满足迭代停止条件；

d-3、达到最大迭代次数；

若不满足，则x(t)＝h(t)重复步骤(a)-(d)；

若满足，则执行步骤(e)；

(e)将得到的h(t)标记为c_i(t)，c_i(t)即为第i个IMF分量；从x(t)中减去第i个IMF分量，得到第i个IMF分量提取后的剩余r_i(t)，即r_i(t)＝x(t)-c_i(t)；将得到的r_i(t)作为新的x(t)；

(f)重复(a)-(e)，直到无法继续提取IMF分量或满足迭代停止条件或达到最大的迭代次数；

最终提取到第i+1个IMF分量标记为c_i+1(t)，提取后的残差项标记为r_i+1(t)＝r_i(t)-c_i+1(t)；

(g)最终GCM输出的气候序列被表示为

根据发明优选的，步骤S2及S7-2中迭代停止条件为：对于(1-α)％的数据，α为0到1之间的常数，δ(t)<sd；对于剩下的α％的数据，δ(t)<sd2；δ(t)是迭代的目标函数，且

其中m(t)为每次迭代剩余的残差；a(t)为平均振幅，且

e_max表示极大值插值得到的包络线；e_min表示极小值插值得到的包络线；

迭代条件决定了分解算法的结果精度，迭代条件宽松会导致BEMD和EMD分解不彻底，即所有的IMF无法被完全提取出来，最终的残差项仍包含震荡信息。

进一步优选的，sd＝0.05，sd2＝10×sd＝0.5，α＝0.05。

根据本发明优选的，步骤S1中，所述数据集的前80％的数据为训练数据集，用于训练降尺度模型；所述数据集的后20％的数据为测试数据集，用于验证降尺度模型。

本发明的有益效果为：

1.本发明提供的统计降尺度方法旨在通过将非稳态的数据分解为稳态分量，在稳态的分量之间寻找统计关系，进而解决统计降尺度中有关统计关系一致性假设的问题，解决了气候模型和水文模型之间的一直存在的尺度不匹配问题，也为利用水文模型进行未来气候变化等一系列研究中的流域响应提供了一种更为可靠的途径。

2.本发明提供的统计降尺度方法能够有效提取非稳态时间序列中的稳态分量，这些稳态分量具有不同的周期，对应不同时间尺度上的气候循环。相比于无非平稳时间序列分解的普通RF模型、线性回归模型，本发明提供方法得到的温度和降水尺度下延结果具有明显的优势。

3.本发明提供的统计降尺度方法对两个完全不同地形的站点位置的模拟结果显示，该方法具有空间尺度上的强泛化能力，可实现忽略地形因素带来的外在影响。另外，仅仅利用GCM大尺度数据也降低了统计降尺度模型中多源数据带来的输入不确定性。

附图说明

图1是实施例1提供一种基于非平稳时间序列分解的统计降尺度方法的流程示意图。

图2是实施例1采用BEMD对站点1的GCM和地面观测的最小温度时间序列的分解结果示意图。

图3-1是实施例1中站点1的地面观测最小温度时间序列分解结果的显著性检验结果。

图3-2是实施例1中站点1的GCM分解结果最小温度的时间序列的显著性检验结果。

图4是实施例1提供的分解站点1得到的正交性指数OI结果。

图5-1是实施例1提供的站点1最小温度降尺度结果对比示意图。

图5-2是实施例1提供的站点2最小温度降尺度结果对比示意图。

图6-1是实施例1提供的站点1最大温度降尺度结果对比示意图。

图6-2是实施例1提供的站点2最大温度降尺度结果对比示意图。

图7-1是实施例1提供的站点1降水降尺度结果对比示意图。

图7-2是实施例1提供的站点2降水降尺度结果对比示意图。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明，但不限于此。

实施例1

本实施例以位于平原站点1和高山站点2的月平均最大温度、最小温度、降水的降尺度为例来说明一种基于非平稳时间序列分解的统计降尺度方法。站点1为平原站点，平均海拔高度为18.1m，为某城市一农场附近的固定气象观测站；站点2为高山站点，平均海拔高度为1890.9m，为某湖泊固定气象观测站。站点1为典型的地中海式气候，冬季温和潮湿，夏季炎热干燥；由于站点2海拔较高，该地区为地中海大陆性气候，夏季温暖干燥。降尺度方法的技术路线图如图1所示，具体步骤包括：

S1.降尺度数据准备：

分别收集站点1和站点2在1950年至2005年期间的CMIP5全球气候模型GCM的大尺度数据和地面观测的小尺度月平均数据，形成数据集；所述大尺度数据包括降水时间序列、最大温度时间序列、最小温度时间序列；小尺度数据也包括降水时间序列、最大温度时间序列、最小温度时间序列；

CMIP5：国际耦合模式比较计划第5阶段，有来自全球20多个研究组，气候模式有24个，其中13个模式包含大气化学模式分量；地球系统模式有11个，其中5个包含完整的陆地、海洋碳循环以及大气化学过程，5个只包含海洋和陆地碳循环，1个只包含海洋碳循环。中国参与CMIP5的气候系统模式有5个。这里以CMIP5包括的模型之一CanESM2为例来进行说明。CanESM2是一个完整的地球系统模型，包括了耦合大气海洋的CanCM4、耦合陆地和大气的碳循环的CTEM以及海洋碳循环模块CMOC，以重现大气、海洋和陆地之间的碳循环过程。

步骤S1中，所述数据集的前80％的数据为训练数据集，用于训练模型；所述数据集的后20％的数据为测试数据集，用于验证模型。

S2.非平稳时间序列分解：

使用双变量经验模态分解(BEMD)算法分别对步骤S1中站点1和站点2同一变量对应的大尺度数据和小尺度数据进行非平稳时间序列分解，分别得到本征模态函数(IMF)分量组和一项残差分量，即一组分解结果；大尺度数据分解得到分量的时间尺度和小尺度数据分解得到的分量的时间尺度具有同步性；

本发明中，在建立统计降尺度模型的阶段，非平稳时间序列的分解采用了双变量经验模态分解(BEMD，Bivariate empirical mode decomposition)。BEMD是一种基于EMD(Empirical mode decomposition)的双变量经验模态分解算法，核心算法一致，区别在于使用多方向投影解决二维数据的分解问题；BEMD算法可以将两个非平稳的时间序列同时分解成两组平稳的、具有规律振荡周期的分量组，保持时间尺度的对应性。

步骤S2中，投影方向的数量N_dir为大于等于2的整数。

步骤S2中迭代停止条件为：对于(1-α)％的数据，δ(t)<sd；对于剩下的α％的数据，δ(t)<sd2；δ(t)是迭代的目标函数，且

其中m(t)为每次迭代剩余的残差；a(t)为平均振幅，且

e_max表示极大值插值得到的包络线；e_mi+表示极小值插值得到的包络线；

本实施例中，sd＝0.05，sd2＝10×sd＝0.5，α＝0.05。

步骤S2中，非平稳时间序列分解采用的BEMD算法的具体步骤为：

(2)根据公式

确定二维数据x(t)的投影方向

上的投影

进行数据投影，其中，j表示虚数单位，5e(·)代表数据的实数部分，

中

依据欧拉公式e^iθ＝cosθ+i·sinθ计算；

(4)提取投影

的局部极值

记录极值位置为

获取投影方向

上的极值包络线

(6)重复步骤(3)-(5)获取所有投影方向上的包络线；

(7)计算所有投影方向上包络线的均值m(t)，

判断h(t)是否满足以下条件之一：

8-b、满足迭代停止条件；迭代停止条件为：对于(1-α)％的数据，δ(t)<sd；对于剩下的α％的数据，δ(t)<sd2；δ(t)是迭代的目标函数，且

其中m(t)为每次迭代剩余的残差；a(t)为平均振幅，且

如果满足上述条件，则进行步骤(9)；

(10)重复(3)-(9)，直至满足下列条件之一：

10-b、满足迭代停止条件；

10-c、达到最大的迭代次数；

(11)最终原始的二维数据被表示为

经过步骤S2，原始的气候序列(非平稳时间)序列被分解成一组不定数量的IMF分量和一个残差分量，采用BEMD分解大尺度数据和小尺度数据的IMF分量有着不同的时间周期，在物理上对应着相应时间尺度(小时/日/月/季/年/十年/百年)上的气候循环信息。残差分量代表一种趋势，如果残差分量不是常量的话意味着原始时间序列是非稳态的。通常气候信息分解得到的残差项一般都是非稳态的，因为气候系统不是一成不变的。经过分解可以得到的例如最大温度/最小温度/降水的分解分量，一组分解结果由同一变量的GCM的分解和地面观测值的两组分解的结果组成，来自GCM和地面观测的每对IMF在时间尺度上保持一致，即代表着同一时间尺度的气候循环。

如图2中的分解结果所示，针对站点1的GCM和地面观测的最小温度时间序列，左图为地面观测对应的分解结果，右图为GCM对应的分解结果，经过步骤S2、S3处理后，初始非平稳的最小温度时间序列被分解成10对稳态分量对，其中前9对为IMF分量对，最后一对为残差分量对(趋势项对)，则需要分别训练10个RF模型用于实现未来相应时间尺度分量的降尺度。

表1为站点1最小温度的地面观测的小尺度数据和GCM的大尺度数据分解得到9对IMF分量对的分解周期；

表1

最小温度	IMF1	IMF2	IMF3	IMF4	IMF5	IMF6	IMF7	IMF8	IMF9
										地面站点分解周期	2.6	4	6.9	12	19.2	29	56	134.4	224
GCM分解周期	2.6	4	6.7	12	20.4	32	74.7	134.4	224

由如表1可知，图2中的9对IMF分量对，左右IMF分量相互对应，具有相同的时间周期，保持了时间尺度上的同步性。

由图2和表1的结果可知，GCM的大尺度数据和地面观测的小尺度数据被同步分解为稳态分量，保持了时间尺度上的一致性。排列靠前的分量变化频率较高通常代表较短时间尺度内的变化，例如图2中的1至3分量对应表1周期2.6至6.9不等，属于季节内变化；排列靠后的分量变化频率较低，代表更长时间尺度的变化，比如图2中的4至9分量，对应周期12至224不等，属于年际范围的变化。最后一对分量对为残差对，代表着变量的变化趋势，图2中的第10个分量，该分量表明GCM模拟的大尺度最小温度和地面观测最小温度都存在一个逐渐升高的趋势，暗示最小温度的时间序列是一个非稳态的时间变化序列。

经验模态分解的分解结果通常存在着不同程度的模态混合问题。BEMD的核心算法与EMD相同，因此BEMD也存在着明显的模态混合问题，具体如图2中第3分量和第4分量在第300个月和第500个月的位置存在明显的互补部分。模态混合是一种某个IMF混合了一个或多个其他IMF部分信号的现象。由于不同时间尺度的气候信息具有明显的间歇性(比如明显的季节变化)，模态混合在GCM和地面观测的分解中是无法避免的。模态混合会使IMF失去应有物理意义。经过显著性检验，能够剔除存在显著性不明显的结果，确保每个分量的物理意义明确。根据IMF的能量密度和周期对步骤S2得到的分解结果进行显著性检验，具体步骤包括为：A、计算IMF的能量密度

C_n(j)表示IMF分量；

B、计算IMF的平均周期为T_n，

C、当IMF的能量密度与IMF的平均周期之间的关系满足：lnE_n+lnT_n＝0，则步骤S2得到的分解结果具有显著性，确保大部分分解结果的能量密度有至少90％的置信度。

显著性检验的结果如图3-1和图3-2所示，大部分的分解结果都位于90％的置信线以上，证明大部分分解结果都具有物理意义。

S3.最优时间序列分解结果的选择：

从多组分解结果的正交性指标OI_T中，选择正交性指标OI_T最低时对应的N_dir，即为最优的最优N_dir值；

所述S3中，正交性指数OI的计算公式为：

式(I)中，N_IMF是本征模态函数IMF的个数；N为IMF的长度，即原始时间序列的长度；IMF_ik是第i个IMF分量中的第k个值,IMF_jk表示第j个IMF分量中的第k个值，x_k是未分解的原始气候序列，r_k是分解最终得到的残差分量。r_k即步骤S2中(11)得到的r_k+1(t)。

如图4所示，针对站点1最小温度时间序列的多组分解结果，相应的正交指数指标OI结果列在图4，根据OI_T可以选择适合最小温度分解的N_dir＝40。

S4.随机森林(RF)模型训练：

S5.训练后时间序列分解分量的合成：

训练后的各个时间尺度的IMF分量组和残差分量重新进行逆合成，以获得正常的降尺度降水时间序列、最大温度时间序列、最小温度时间序列；

所述逆合成是将所有分量重新相加，即按照r+IMF_i+IMF_i-1+…+IMF₃+IMF₂+IMF₁，其中，r代表残差分量；

S6.模型评估：

利用均方根误差、相关性系数、拟合优度对降尺度结果进行精度验证和模型评估；降尺度结果包括步骤S5得到的两个站点的降水时间序列、最大温度时间序列、最小温度时间序列；

本实施例中，将测试数据集中的大尺度数据中的同一变量的各时间尺度分解分量输入训练好的对应尺度的RF模型，进行逆合成后得到测试数据集的大尺度数据对应的降尺度后的最小温度/最大温度/降水时间序列，再和测试数据集中的小尺度对应的最小温度/最大温度/降水时间序列进行评估，评估不同时间尺度下两种最小温度/最大温度/降水数据的拟合优度、均方根误差以及地面观测相关性。

同时对比未经过分解的RF模型、普通的线性回归模型的降尺度结果的拟合优度、均方根误差以及地面观测相关性。

对进行模型的评价，表2、3、4分别为某平原站点1最小温度/最大温度/降水的降尺度的对比评估结果；

表2

变量-最小温度(℃)	拟合优度R<sup>2</sup>	均方根误差RMSE	与地面观测相关性r
				本发明	0.94	1.35	0.93
无分解的RF模型	0.84	1.50	0.91
				线性回归	0.79	1.99	0.88

表3

变量-最大温度(℃)	拟合优度R<sup>2</sup>	均方根误差RMSE	与地面观测相关性r
				本发明	0.96	2.19	0.97
无分解的RF模型	0.94	2.00	0.92
				线性回归	0.87	2.99	0.90

表4

变量-降水(mm)	拟合优度R<sup>2</sup>	均方根误差RMSE	与地面观测相关性r
				本发明	0.53	1.82	0.68
无分解的RF模型	0.41	1.65	0.57
				线性回归	0.33	2.97	0.36

由表2、3、4可知，本发明提供的方法对地面站点位置的降尺度结果进行评估：拟合优度越接近于1表示所构建模型的稳定性越高，本发明建立的基于非平稳时间序列分解的降尺度模型稳定性皆优于未进行分解的机器学习模型RF和简单的线性回归模型；相关性系数越接近1，均方根误差越小，说明拟合的结果越接近真实的地面观测值，而本方法的相关性系数和均方根误差仍优于未分解的RF模型和简单的线性回归模型。本发明提供的采用非平稳时间序列分解的RF模型在均方根误差、相关性系数、拟合优度上均优于不采用非平稳时间序列分解的RF模型以及采用线性回归对地面站点位置的降尺度结果的预测。由于GCM对降水的模拟结果较差，温度的降尺度结果明显优于降水的降尺度结果。

S7.未来情景的降尺度：

S7-1.获得未来情景的GCM的大尺度数据；

步骤S7-2中，进行EMD分解得到与已训练RF模型相对应的不同时间尺度的分量结果，具体步骤为：

(a)提取x(t)极值，此处x(t)是由GCM输出的大尺度数据组成的一维数组；

(b)采用三次样条插值算法插值获取极值包络线；

(c)计算包络线均值m(t)；

(d)计算h(t)＝x(t)-m(t)，判断h(t)是否满足以下条件之一：

d-2、满足迭代停止条件；

d-3、达到最大迭代次数；

若不满足，则x(t)＝h(t)重复步骤(a)-(d)；

若满足，则执行步骤(e)；

(g)最终GCM输出的气候序列被表示为

利用本发明提供的基于非平稳时间序列分解的统计降尺度方法，获取某平原站点1和高山站点2最小温度/最大温度/降水的降尺度结果：图5-1是站点1最小温度的降尺度结果、GCM大尺度数据及地面观测对比图；图5-2是站点2最小温度的降尺度结果、GCM大尺度数据及地面观测对比图；图6-1是站点1最大温度的降尺度结果、GCM大尺度数据及地面观测对比图；图6-2是站点2最大温度的降尺度结果、GCM大尺度数据及地面观测对比图；图7-1是站点1降水的降尺度结果、GCM大尺度数据及地面观测对比图；图7-2是站点2降水的降尺度结果、GCM大尺度数据及地面观测对比图。图5、6、7中，地面观测值由虚线表示，GCM大尺度数据由实线表示，降尺度结果由点状线表示。对于平原站点1的最小温度(图5-1)，GCM输出的大尺度数据对该站点冬季的最小温度存在明显的低估，同时也低估了该站夏季的最小温度，但是对夏季高温时期的低估程度要低于该站冬季的低温时期。对于平原站点1的最大温度(图6-1)，GCM的大尺度结果依旧存在低估，尤其是GCM模拟的冬季最大温度偏低。可能的原因是GCM中没有充分考虑部分下垫面信息，而该站点位于某城区附近的一个农场内(海拔高度18.1m)，站点附近受人类活动影响下垫面信息较为复杂，GCM没有对下垫面及人类活动进行充分的描述导致冬季模拟的温度偏低。降尺度后的站点1的最小温度序列和最大温度纠正了被GCM低估的冬季最小温度和GCM模拟偏低的冬季最大温度。对于高山站点2的最小温度(图5-2)和最大温度(图6-2)，大尺度的GCM的模拟结果存在明显的高估：GCM模拟结果高估了站点2夏季的最大温度，大尺度GCM与地面观测的最大温度差距将近10℃；同时对于最小温度，无论是夏季还是冬季都存在严重的高估。这种高估可能是GCM并没有充分考虑站点2所在地区的高山信息。降尺度后的高山站点2的最大温度和最小温度更接近于实际观测值。对于降水(图7)，无论是平原站点1还是高山站点2，GCM的大尺度数据与地面观测的降雨数据存在较大的偏差，经过降尺度后，两个站点的降水时间序列和地面观测值的相关性系数上升。但是，由于GCM对降水的模拟效果较差，降水的降尺度结果明显不如温度的降尺度结果。图5、6、7中竖线的左侧训练阶段，右侧为测试阶段，训练阶段和测试阶段，降尺度结果出现没有很大偏差，也说明了所建降尺度模型性能稳定可靠。站点1和站点2的最小温度/最大温度/降水的降尺度结果也显示本发明提出的基于非平稳时间序列分解的降尺度方法，可以不用额外考虑地势因素的影响，例如传统的简单线性回归往往需要考虑包括海拔高度等在内的地势信息和包括植被归一化指数在内的下垫面等土地利用信息，具有较强的区域泛化能力，同时也减少了统计降尺度方法中多源数据所带来的输入不确定性。