CN116701974A

CN116701974A - 气候变化下的降水多要素时空变化分析及归因识别方法

Info

Publication number: CN116701974A
Application number: CN202310732938.1A
Authority: CN
Inventors: 李昕阳; 刘为锋; 郭旭宁; 陈飞; 史文龙; 刘昀竺; 何奇峰; 唱彤
Original assignee: China Renewable Energy Engineering Institute
Current assignee: China Renewable Energy Engineering Institute
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-09-05

Abstract

本发明公开了一种气候变化下的降水多要素时空变化分析及归因识别方法，包括如下步骤：划定研究区域范围和研究时期范围，采集研究数据并提取降水特性、聚类与子流域之间的映射关系；基于各个子流域的降水特征进行聚类，读取研究区域中的各个子流域并概化为点，构建点模式分析方法，并进行空间分布格局分析；构建降水变化驱动因子集和基于GA超参数优化的GBDT模型，针对研究区域的各个研究时期，筛选敏感的降水变化驱动因子作为关键驱动因子；基于降水变化影响因子对研究区域的子流域进行聚类分析，获得各个降水影响因子的空间分布特征，对降水空间分布格局演变进行归因分析。本发明能够提高多要素时空变化分析的效率及归因识别的准确率。

Description

气候变化下的降水多要素时空变化分析及归因识别方法

技术领域

本发明涉及降水分析技术，尤其是气候变化下的降水多要素时空变化分析及归因识别方法。

背景技术

降水是水文循环的重要组成部分，也是影响地表水资源、生态环境和人类社会活动的重要因素。降水的时空变化特征及其影响因素的识别，对于揭示气候变化下的水文过程、评估水资源可持续利用和防灾减灾等方面具有重要意义。

目前，对于降水时空变化特征及其影响因素的研究主要采用以下几种方法：基于统计分析的方法，如趋势分析、回归分析等；基于统计分析的方法虽然能够反映降水的变化特征，但不能揭示其内在机理和影响因素。基于聚类分析的方法，如系统聚类法、K-均值聚类法、模糊聚类法等，主要用于划分降水的空间分布区域和类型，并分析其空间分布格局和位置规律；这种方法的缺点在于不能考虑降水特征之间的相互关系和影响因子之间的耦合作用。基于模型模拟的方法，如神经网络模型、支持向量机模型等，主要用于建立降水与影响因子之间的映射关系，并预测未来降水的变化情况。虽然能够建立降水与影响因子之间的映射关系，但不能充分利用多源数据和多尺度信息，并且存在参数优化和泛化能力不足等问题。

故，需要进一步研究创新。

发明内容

发明目的：提供一种气候变化下的降水多要素时空变化分析及归因识别方法，以解决现有技术存在的上述问题。

技术方案：提供一种气候变化下的降水多要素时空变化分析及归因识别方法，包括如下步骤：

步骤S1、划定研究区域范围和研究时期范围，采集研究数据并提取降水信息、聚类与子流域之间的映射关系；其中每个研究区域包括至少两个子流域，每个研究时期包括至少两个研究时段；

步骤S2、基于各个子流域的降水特征进行聚类，读取研究区域中的各个子流域并概化为点，构建点模式分析方法，并进行空间分布格局分析；

步骤S3、构建降水变化驱动因子集和基于GA超参数优化的GBDT模型，针对研究区域的各个研究时期，筛选敏感的降水变化驱动因子作为关键驱动因子；

步骤S4、基于降水变化影响因子对研究区域的子流域进行聚类分析，获得各个降水影响因子的空间分布特征，对降水空间分布格局演变进行归因分析。

根据本申请的一个方面，所述步骤S1进一步为：

步骤S11、读取研究区域的地理信息，提取分水岭数据并将研究区域划分为a个子流域；采集研究区域内每一子流域的研究数据并预处理，形成降水信息的时间序列数据；a为大于2的自然数；

步骤S12、构建趋势分析方法集合，针对每一子流域，并逐一采用趋势分析方法对时间序列数据进行趋势检验和突变检验，获得趋势数据和突变点数据，根据突变点数据将研究时期划分为b个研究时段；b为大于2的自然数。

根据本申请的一个方面，所述步骤S11进一步为：

步骤S11a、获取研究区域的数字高程模型数据，采用ArcGIS分析工具对数字高程模型进行预处理，直至数字高程模型数据的质量符合标准；

步骤S11b、调用预配置的水文分析工具从数字高程模型数据中提取分水岭数据，根据地形特征和水流方向确定研究区域的边界和出口点，生成分水岭图层；对所述分水岭图层进行子流域划分，生成子流域图层；

步骤S11c、构建研究区域的降水特征集合，所述降水特征包括极端性、强度、雨量、时间和空间；采集研究区域各个子流域内每一站点的降水信息，利用GIS模块或预配置的统计分析模块进行预处理；

步骤S11d、利用GIS模块或插值模块对降水信息进行空间插值，生成降水栅格图层，基于降水栅格图层，通过GIS或时间序列分析模块根据不同的时间尺度计算每一子流域的降水量，形成降水信息的时间序列数据。

根据本申请的一个方面，所述步骤S1b进一步为：

读取数字高程模型数据，生成研究区域图，将研究区域图中相邻且相似的像素聚合为一个区域，转换为超像素，并作为神经网络分析模块的节点；

根据超像素之间的空间距离、颜色相似度和梯度方向，确定每个节点之间的连接关系，构建神经网络分析模块的边；

根据邻接矩阵和上一层的特征向量来计算新的特征向量，以此确定更新每个节点和边的特征向量；

构建神经网络分析模块的损失函数和优化方法，形成神经网络分析模块，分析并获得输出结果，得到分水岭图层。

根据本申请的一个方面，所述步骤S12进一步为：

步骤S12a、构建趋势分析方法集合，所述趋势分析方法包括MK、预置白MK、去趋势预置白MK、方差修正MK、自举法MK、TS分析法和创新型趋势分析法；

步骤S12b、针对每一子流域，逐一采用各趋势分析方法对时间序列数据中的每一降水特征进行趋势检验和突变检验，形成降水特征的趋势数据集合和突变点数据集合；

步骤S12c、综合各个方法获得的每一降水特征的趋势数据，生成各个降水特征最终的趋势数据和突变点数据；

步骤S12d、根据突变点数据将研究时期分段，并判断相邻研究时段的序列长度是否小于阈值，若小于，则对相邻研究时段的各个降水特征进行聚类分析，根据相邻研究时段各个降水特征的相似度是否大于阈值，决定是否将其合并为一个研究时段；对聚类后的各个研究时段的每一降水特征进行趋势分析，确定趋势方向和幅度。

根据本申请的一个方面，所述步骤S2进一步为：

步骤S21、读取研究区域中的各个子流域的边界数据，计算各个子流域的形心坐标，将每个子流域概化为一个点；

步骤S22、选择降水特征作为聚类指标，对各个子流域进行标准化处理，消除指标之间的量纲差异；采用系统聚类法对各个子流域进行聚类，选择欧氏距离作为聚类标准，选择最长距离法作为类间距离计算方法，绘制系统聚类图，确定类别数目，得到各个类别包含的子流域；

步骤S23、采用R-O函数法对各个类别的子流域进行空间分布格局分析，选择距离尺度范围和间隔，计算各个类别在不同距离尺度下的R-O函数值，绘制随机分布的R-O函数曲线和实际的R-O函数曲线，判断各个类别的空间分布类型，获得空间分布的位置规律。

根据本申请的一个方面，所述步骤S3进一步为：

步骤S31、采用荟萃分析方法，收集研究区域的降水变化驱动因子，构建降水变化驱动因子集；

步骤S32、针对研究区域的各个研究时段，构建基于GA超参数优化的GBDT模型，以降水变化驱动因子作为输入，降水参数作为输出，对研究区域的降水进行模拟，获得研究区域降水变化的敏感因子，并将敏感因子作为关键驱动因子；

步骤S33、构建综合判别准则，对关键驱动因子进行量化并降序排列。

根据本申请的一个方面，所述步骤S4进一步为：

步骤S41、基于每个子流域内k个关键驱动因子的值作为子流域在k维空间中的坐标值，通过欧式距离计算各个子流域之间的距离，对子流域进行聚类；k为自然数；

步骤S42、检验降水空间分布状况与关键驱动因子空间分布状况的相关性，利用驱动因子与降水映射关系模型模拟各个关键驱动因子单独或联合作用下的降水变化程度，根据降水变化程度对各个子流域进行聚类，并计算各类受关键驱动因子的比例；

步骤S43、若相关性程度高于阈值，则结合关键影响因子的空间分布，针对降水演变过程中存在的空间差异性，对不同大小级别、不同变化程度的降水演变进行归因分析。

根据本申请的一个方面，对不同大小级别的降水演变进行归因分析过程，具体包括：

在第i个时段内各子流域的降水特性共分为l类，各类之间的区别在于降水量大小不同，对l类降水分别进行演变格局中所呈现特征的归因分析，以受主导影响的面积为度量指标，确定影响因子对其影响程度，

，

式中：α ⁱ _C,p为第i时段内第p类大小级别的降水在接下来的降水演变过程中受气象因素中的关键影响因子主导的比例；A_j为第j个子流域的面积；n为流域内子流域的个数；m为研究期内包含的时段数；l为第i个时段内基于降水大小级别的子流域聚类数目，i=1,2，…，m-1，p=1,2,…,l。

根据本申请的一个方面，不同变化程度的降水演变进行归因分析过程，具体包括：

从第i个时段到第i+1个时段各子流域的降水变化特性共分为k类，各类之间的区别在于降水量变化程度的不同，对k类降水分别进行演变格局中所呈现特征的归因分析，以受主导影响的面积为度量指标，确定影响因子对其影响程度，

，

β ⁱ _C,q为从第i时段到第i+1时段第q类变化程度的降水在其演变过程中受某一关键影响因子主导的比例；A_j为第j个子流域的面积；n为流域内子流域的个数；m为研究期内包含的时段数；k为从第i时段到第i+1时段基于降水变化程度的子流域聚类数目，i=1,2，…，m-1，q=1,2,…,k。

根据本申请的一个方面，所述步骤S12a进一步为：

获取趋势分析方法，及每一趋势分析方法的适用性信息；

逐一分析每个子流域各个研究时段的研究数据的特点，基于适用性信息建立子流域、研究时段和趋势分析方法的映射关系，并为每一子流域的各个时期的趋势分析方法赋予权重；

读取测试数据集合，对映射关系进行验证，获得每一子流域各个研究时段的趋势分析方法，以及研究时期整体的趋势分析方法；

基于每一子流域各个研究时段的趋势分析方法以及研究时期整体的趋势分析方法，构建趋势分析方法集合。

根据本申请的一个方面，所述步骤S22还包括：

步骤S22a、读取研究区域各个子流域内每一站点的降水数据，并分析获得每一降水过程的降水中心和降水边界；

步骤S22b、获取位于降水边界内的各个站点距离降水中心的距离以及距离降水边界的距离；

步骤S22c、将距离降水中心最近的站点的降水数据作为标准数据，计算降水边界内各个站点的降水数据与标准数据的比例，绘制相似降水过程分布变化图。

有益效果：本申请能够综合分析降水的多个特征，如极端性、强度、雨量、时间和空间等，从多角度反映降水的时空变化特征；利用多源数据和多尺度信息，如数字高程模型数据、降水数据、影响因子数据等，从多层次揭示降水的影响因素；采用多种数据处理和分析技术，如趋势分析、聚类分析、R-O函数法、神经网络分析模块、基于GA超参数优化的GBDT模型等，从多方法识别降水的归因因素。通过多角度聚类，对流域进行归因，大大提高了准确率。

附图说明

图1是本申请的流程图。

图2是本申请步骤S1的流程图。

图3是本申请步骤S2的流程图。

图4是本申请步骤S3的流程图。

图5是本申请步骤S4的流程图。

图6是本申请考虑空间差异的研究对象示意图。

具体实施方式

如图1所示，提供一种气候变化下的降水多要素时空变化分析及归因识别方法，包括如下步骤：

步骤S1、划定研究区域范围和研究时期范围，采集研究数据并提取降水特性、聚类与子流域之间的映射关系；其中每个研究区域包括至少两个子流域，每个研究时期包括至少两个研究时段；

其中，降水特征包括极端性、强度、雨量、时间、空间。其中，极端性包括：单站最大日降水量、单站最大累计降水量和降水区最大日降水量，强度包括降水区平均日降水量、分区平均日降水量，雨量包括降水区累计降水量和分区累计降水量，时间包括降水日数和降水月份，空间包括50mm以上面积、100mm以上面积、250mm以上面积、降水中心位置和降水集中度。降水中心位置在本实施例中采用打网格的方式，将研究区划分成N×N个网格，分别记作WG=1,2,…, N×N，降水中心落在哪个网格，降水中心位置WG就等于几。

步骤S2、基于各个子流域的降水特征进行聚类，读取研究区域中的各个子流域并概化为点，构建点模式分析方法，并进行空间分布格局分析；采用点模式分析方法，能够更好地反映研究区域内各个子流域之间的空间关系和格局，并为后续归因识别提供基础数据支持。

步骤S3、构建降水变化驱动因子集和基于GA超参数优化的GBDT模型，针对研究区域的各个研究时期，筛选敏感的降水变化驱动因子作为关键驱动因子；采用基于GA超参数优化的GBDT模型，能够更加精准地挖掘和筛选出影响降水变化的重要因素，并为后续归因识别提供可靠数据支持。能够利用遗传算法对模型参数进行自适应优化，提高模型的精度和稳定性。

步骤S4、基于降水变化影响因子对研究区域的子流域进行聚类分析，获得各个降水影响因子的空间分布特征，对降水空间分布格局演变进行归因分析。通过对降水空间分布格局演变进行归因分析，能够更加准确地识别出不同因素对降水变化的影响程度和作用机制，对降水空间分布格局演变进行归因分析，为水文水资源管理和决策提供科学依据。

总之，通过采用多要素时空变化分析方法，能够全面、系统地研究气候变化下的降水特征及其影响因素，有助于深入了解降水变化规律和趋势。通过对子流域进行聚类分析，并提取子流域之间的映射关系，能够更加准确地刻画研究区域内不同子流域之间的差异性和联系性，反映出降水的空间分布格局和演变规律。

根据本申请的一个方面，所述步骤S1进一步为：

在本实施例中，降水演变特征不仅体现在时程变化上，还体现在空间差异上。研究区各处的气象条件不尽相同，故降水特性也存在差异。根据分水岭划分子流域，将每个子流域作为一个空间单元，研究各子流域降水的特性。需考虑空间差异的研究对象包括两类，一是各时段内降水特特征的空间分布，二是各时段间降水变化特性的空间分布。

比如研究区内共有a个子流域，研究期共划分为b个时段，在第i个时段(i=1,2,…,b)内第j个子流域(j=1,2,…,a)的降水特性记为S_j ⁱ，在第i个时段与第i+1个时段(i=1,2,…,b-1)之间第j个子流域(j=1,2,…,a)的降水特性记为ΔS_j ^(i→i+1)。于是，第i时段(i=1,2,…,b)内降水的空间分布特征可以记为G_i (S₁ ⁱ,S₂ ⁱ,…S_a ⁱ)，从第i时段到第i+1时段(i=1,2,…,b-1)降水变化程度的空间分布特征可以记为H_i,i+1 (ΔS₁ ^(i→i+1),S₂ ^(i→i+1),…S_a ^(i→i+1))，G_i(i=1,2,…,b)和H_i,i+1(i=1,2,…,b-1)即为分析流域降水演变规律时需考虑空间差异的研究对象。

根据本申请的一个方面，所述步骤S11进一步为：

步骤S11c、构建研究区域的降水特征集合，所述降水特征包括极端性、强度、雨量、时间和空间；采集研究区域各个子流域内每一站点的降水数据，利用GIS模块或预配置的统计分析模块进行预处理；

步骤S11d、利用GIS模块或插值模块对降水数据进行空间插值，生成降水栅格图层，基于降水栅格图层，通过GIS或时间序列分析模块根据不同的时间尺度计算每一子流域的降水量，形成降水信息的时间序列数据。

根据本申请的一个方面，所述步骤S1b进一步为：

根据本申请的一个方面，所述步骤S12进一步为：

在本实施例中，使用Mann-Kendall（MK）、预置白MK（Pre-Whitening，PW-MK）、去趋势预置白MK（(Mann-Kendall test with trend-free pre-whitening, TFPW-MK)）、方差修正MK（MMK）、自举法MK、Theil-Sen和创新型趋势分析（ITA）7种方法分析研究区上述降水特征要素的年尺度变化趋势。M-K检验检测出多个降水突变点。对于足够长降水时间序列，时间序列分析方法依据其变化特征有时能够检测出多个突变点，每阶段表现出不同的降水特征，本发明采用M-K检验对上述降水要素分别进行趋势检验和突变检验，并根据每个要素的突变检验将研究期划分成不同时间段，每个时间段每个要素仅包含一种变化趋势状态。当每个细分阶段划分较短时（小于10），根据多要素对相邻阶段进行聚类，增加细分时段的序列长度，满足细分时段的序列变化检验的最小长度要求，同时也减少因过多细分时间段带来的不必要的工作量。

所述步骤S12a进一步为：

获取趋势分析方法，及每一趋势分析方法的适用性信息；

在一些研究中发现，不同的方法，其使用条件和场景是不同的，比如，TFPW-MK仅能体现整体雨量变化趋势，不能直接体现大或小雨量的趋势变化。ITA可以同时检测低、中、高雨量的趋势变化，并体现雨量变化范围，但该方法不能量化整体变化趋势。受气候差异和地理分异性的影响，不同区域解决序列自相关性问题的适用方法也有所不同。MMK能够克服时间序列相关导致方差分布(S)离散度变化的问题。因此，对于同一研究区域的不同子流域和不同研究时段，如果采用相同的趋势分析法，则会造成分析的失准。

为了更加全面地解析降水变化规律，给出了上述实施例。

具体地，在上述实施例中，首先采用文献研究法，收集各种趋势分析方法，并列举每一种趋势分析方法的使用范围、使用条件和优缺点数据，即获得其适用性信息。在此基础上，按照上述实施例，将研究区域分成若干个研究子流域，将研究时期分成若干个研究时段，针对每一子流域的每个时段，分析研究数据的特点，进而建立起子流域各个研究时段的趋势分析方法映射关系。比如一共有11个子流域，每个子流域具有4个研究时段（在其他实施例中，各个子流域的研究时段可以是不同的），那么针对每个子流域的每个时段，建立趋势分析方法，比如在第3个子流域的第2个时段，具有3种可行的趋势分析方法，根据现有的研究数据或者通过测试数据进行分析，获得每种趋势分析方法在该子流域的该研究时段的准确性，根据准确性计算数据，为趋势分析方法设置权重。如果采用神经网络方法进行赋权，则可以将每种趋势分析方法的权重设置为初始值，然后经过训练数据集合训练，获得相应的权重。在本实施例中，在获得权重后，通过测试数据集合，对映射关系和权重进行验证，将每个子流域的每个研究时段对应的趋势分析方法集合确定下来，在后续的过程中，使用趋势分析方法进行分析。

需要注意的是，由于有的趋势分析方法更适合整体趋势的分析，因此针对研究时期整体，给出趋势分析方法，构建整体趋势分析方法集合。通过上述过程，形成总的趋势分析方法集合。

在后续分析过程中，针对每一子流域的每一研究时段，通过加权法计算分析结果，并对分析结果进行归一化，从而给出趋势分析的最终结论。从而避免了各种分析方法的缺陷，以及不同分析方法在同一场景下，分析结果不同的缺陷。提高了分析的精度。采用验证集对映射关系和权重进行验证，其主要是为了解决当前使用场景的数据与文献资料的数据存在不同，按照经验选取的趋势分析方法，并不适用于当前的场景，其准确率会存在一定的问题。因此通过校正，能够提高方法的适用性和准确率。

总之，在上述实施例中，首先根据不同子流域和研究时段的数据特点，选择最合适的趋势分析方法，提高分析效率和准确度。其次通过赋予权重，反映不同子流域和研究时段的趋势分析方法在整体趋势分析中的重要性，增加分析灵活性和可靠性。再次通过验证测试数据集合，评估映射关系和权重设置的合理性和有效性，优化分析参数和结果。最后通过构建趋势分析方法集合，综合利用多种趋势分析方法的优势，提高分析精度和鲁棒性。

根据本申请的一个方面，在上述实施例中，读取测试数据集合，对映射关系进行验证的过程具体包括：

采集预定子流域的预定研究时段的研究数据，作为标准数据；

基于所述标准数据，通过异常数据生成方法，生成异常数据；

通过所述标准数据和异常数据对趋势分析方法进行验证。

所述异常数据生成方法，包括：

①、选取另一子流域的趋势不同的研究数据，随机插入所述预定子流域的预定研究时段的研究数据中，

②、将预定子流域的预定研究时段的研究数据分成若干段，并选择其中一段替换为常数；

③、选取预定子流域的预定研究时段的研究数据中的一段数据，倒序，然后重新插入。

通过这一方法，不仅能够提高趋势分析方法的适用性和趋势计算的准确率，也可以提高趋势分析的弹性，检验相关趋势分析方法是否具有异常值检测的能力。

根据本申请的一个方面，所述步骤S2进一步为：

聚类的基本思想是先将子流域各成一类，将距离最短的两类合并成一个新类，再计算新类与其余类之间的距离，将距离最短的两类再合为一个新类，以此类推，直到合并为一个大类为止。在计算各类之间的距离时，还可采用的方法有最短距离法、最长距离法、重心法、类平均法、离差平方和法。

由若干个子流域组成的类Y_a与类Y_b之间的距离D_ab可按照下式进行计算：

D_ab=max ( d_ij) X_i∈Y_a,X_j∈Y_b；

式中：X_i与X_j分别表示第i个、第j个子流域，它们分别属于类Y_a与类Y_b；d_ij表示X_i与X_j之间的距离。

可见，距离D_ab即为两类中的子流域之间的距离最大值。按照流程循环计算类之间的距离并进行类合并，在类的个数为1时，绘制各子流域的系统聚类图，并根据图形结构确定最终结果中类的个数，统计各个类所包含子流域的最终结果，完成系统聚类。

步骤S23、采用R-O函数法对各个类别的子流域进行空间分布格局分析，选择距离尺度范围和间隔，计算各个类别在不同距离尺度下的R-O函数值，绘制随机分布的R-O函数曲线和实际的R-O函数曲线，判断各个类别的空间分布类型，获得空间分布的位置规律。R-O函数表示Ripley L和O-ring函数的组合，在其他实施例中，也可以单独使用Ripley L或O-ring函数，或者使用Ripley's K函数。

对子流域进行系统聚类后，得到了降水特性不同的多个类，各个类包含降水特性相似的若干个子流域。以类为单位描述降水的空间差异性，对降水特性不同的各个类分别进行空间分布格局分析，然后基于其空间分布格局总结概括空间分布的位置规律。

将每个子流域概化为一个点，于是流域降水空间分布的问题可以被抽象为点模式问题，通过点模式分析的方法描述空间分布格局。首先根据各子流域的几何形状，确定其形心位置，将每个子流域概化为形心处的一个点，然后选择合适的点模式分析方法，对各类子流域分别进行空间分布格局分析。

基于R-O函数对各类子流域分别进行空间分布格局分析，将子流域形心点作为点事件，根据流域面积选取若干距离尺度计算相应的R-O函数值，绘制随机分布的R-O函数曲线与实际的R-O函数曲线，由此判断各类子流域的空间分布类型，并总结空间分布的位置规律。

需要注意的是，在上述实施例中，降水特征包括极端性、强度、雨量、时间和空间，对于降水过程而言，要求是较为严格的，实际是上是将降水过程限制在一个较小的空间范围内。在研究中发现，对于某一区域的降水过程，采用上述实施例会出现仅对降雨中心站点数据或者降雨中心外围站点数据进行趋势分析，其结果可能出现偏差较大的情况。对于由多个降水过程组成的区域降水趋势而言，可以将区域整体的降水过程分解为若干个独立的降水过程，对于每个降水过程进行分析，然后叠加，即可获得整体的趋势分析结构。对于每个降水过程而言，采用如下实施例提供的方法。

根据本申请的一个方面，所述步骤S22还包括：

在上述实施例中，实际上是通过现有的降水数据，获得降水中心和降水范围数据，从而提取降水过程相似的区域，换句话说，在某场降水过程中，位于降水中心的降水趋势变化过程与外周区域的降水变化过程在强度上可能存在差别，但是在降水过程演变是相似的，假设在某些情况下，可以类比于三维高斯分布，因此可以根据将该降水过程覆盖的范围纳入到相似子区域，从而弥补子区域聚类不够准确的问题。当然实际情况下降水分布是相当复杂的。

如果存在多个降水过程，可以分解为独立的降水过程，然后在时间上和空间上叠加，比如某几个子流域在一端时间内，同时经历了两个降水过程，则可以通过降水数据分析，获得在每个降水过程中的比例，然后叠加。总的叠加数据应该同该子流域的降水趋势是相同的，因此通过采集降水中心及周围相似子区域的数据，对其进行聚类，可以获得更为准确的结果。换言之，如果叠加后的结果与整体趋势计算出的结果不同，则说明数据采集或受到其他因素影响，出现了一些非预期的问题。具体而言，可以根据距中心点的距离以及降水数据的相似程度，设置阈值，使降水过程相似的子流域归为一类。在后续的聚类过程中，能够提高准确率，或者通过与聚类的结果进行比较，判断是否存在趋势分析不一致的子流域，对子流域的趋势分析结果进行二次验证。

根据本申请的一个方面，所述步骤S3进一步为：

采用荟萃分析，从现有文献中、报告、历史记录等资料中，从产生机理、统计规律、间接影响等方面，初筛降水变化驱动因子，形成降水变化驱动因子集。

Meta-analysis是指用统计学方法对收集的多个研究资料进行分析和概括，以提供量化的平均效果来回回答研究的答问题。其优点是通过增大样本含量来增加结论的可信度，解决研究结果的不一致性。荟萃分析是对同一课题的多项独立研究的结果进行系统的、定量的综合性分析。指标进行挖掘与初筛的主要步骤如下：

（1）相关文献搜索：在知网、Web of Science等的检索库中搜索有序流动对防洪安全、供水安全、水环境生态安全影响与适配的相关文章；对文献进行筛选，从中筛选具有定量响应关系，且可以获得平均数、标准差与样方数的文章用于后续分析。

（2）效应值计算：通过已搜集的数据，提取可以用于荟萃分析的指标，并选择logresponse ratio计算效应值，使用最大似然模型分析不同文章之间的变异，使用最大似然模型与随机模型计算总变异值。

（3）统计学处理：通过发表偏倚计算与敏感性分析，来检测数据的可靠性。所有计算由R语言中Metafor package完成。

降水变化驱动因子包括北半球极涡面积指数（NHPVA）、北半球极涡强度指数（NHPVI）、北半球极涡中心经向位置指数（NHPVCLON）、北半球极涡中心纬向位置指数（NHPVCLAT）、西太副高面积指数（WPSHA）、西太副高强度指数（WPSHI）、西太副高脊线位置指数（WPSHRP）、西太副高西伸脊点指数（WPSHWRP）、西太副高北界位置指数（WPSHNBP）、欧亚纬向环流指数（EZC）、欧亚经向环流指数（EMC）、东亚槽位置指数（EATP）、东亚槽强度指数（EATI）、Nino1+2区海温指数、Nino3区海温指数、Nino4区海温指数、Nino3.4区海温指数、槽（T）、脊（R）、高空急流（HJ）、切变线（SL）、低涡（VO）、气旋（CL）、锋面（FS）、台风（TY）、冷空气（CA）、低空急流（LJ）。

在本实施例中，由于挖掘出来的驱动因子很多，部分驱动因子存在较高的相关性，指标的相关性会对预报结果产生影响：由于初筛步骤中所挖掘的驱动因子之间难以避免地存在不同程度的相关性而无法满足驱动因子相互独立性要求，并且高度相关的驱动因子所反映的信息存在大量冗余和干扰，使得同一降水要素的趋势得到线性增强或减弱，容易导致预报结果失真。另一方面，驱动因子的规模也随着降水要素数目的增长而成指数增长，增加了预报的复杂性，甚至可能产生“维数灾”使得预报难以实施。因此，考虑到不同研究区降水变化的关键驱动因子不尽相同，本步骤基于研究区域历史降水资料采用基于GA超参数优化的GBDT模型，对上一步挖掘的降水变化驱动因子进行二次筛选，进一步识别出研究区域降水变化关键驱动因子。

模型计算出来的输出和样本真实结果的偏差被称为训练误差，它影响着模型的精度。如何提高模型精度，使得模型预测结果尽可能地接近真实值，是构建模型的重要一环。在不改变模型结构前提下，参数寻优就是让模型减小偏差、提高精度的主要手段。

为了得到良好的模拟效果，往往需要调整参数，让模型尽可能学习样本中隐藏的普适规律。但模型并不能判断哪些规律是所有数据普遍的，哪些规律是样本特有的。学习得太差，会导致模型不能够把握总体规律，产生欠拟合（underfitting）问题；学习得太好，会让模型把样本自身特点当成一般规律，产生过拟合（overfitting）问题。

泛化能力是评价模型模拟好坏的指标。最理想的方式就是对不同模型（指的是不同参数的GBDT模型）的泛化误差进行评估，然后选择泛化误差最小的参数。在机器学习中，在测试之前为了得到泛化误差，通常会将样本集划分为两个部分，训练集（training set）和验证集（validation set）。训练集用来训练模型，模型建好后，使用验证集数据自变量作为输入，得到模型预测结果，再计算预测结果与验证集实际输出之间的验证误差。如果验证样本是从样本总体中随机独立抽样而得，那么验证集和样本总体就服从独立同分布，验证集的验证误差可以近似作为泛化误差。为了让模型在验证集上的验证误差尽可能代表泛化误差，选择合适的验证集就显得尤为重要。

交叉验证（cross validation）将样本集D划分成k个大小相同的互斥子集D₁,D₂,…,D_k，其中D₁∪D₂∪…∪D_k=D,对任意D_i∩D_j=空集(i≠j)。每次选择其中k-1份作为训练集，剩下的一份作为验证集，经过k次循环后得到k个验证误差，取所有验证误差的均值作为泛化能力的表征。如果划分的子集个数太少，训练集就很小，模型不能代表样本总体；划分的子集太多，计算量会增大，同时验证集变小，从而近似泛化能力变差。通常k取10，此时又被称为10折交叉验证。

GBDT主要包括两个部分的参数：Boosting框架参数和弱学习器参数。前者包括弱学习器最大迭代次数、每个弱学习器权重缩减系数和损失函数等；后者包括最大深度、叶子节点最少样本数等。本技术主要关注其中两个敏感性参数：弱学习器最大迭代次数和弱学习器权重缩减系数（也称学习率）。弱学习器数量过多可能导致过拟合，太少又会欠拟合，一般选择适中的个数。正则化可以有效降低模型过拟合，而学习率就是考虑正则化的结果，选择合适的学习率可以降低模型的过拟合，提高精度。根据GBDT算法流程容易看出，较小的学习率意味着需要更多的弱学习器，两者互相制约。所以通常情况下，将弱学习器的最大个数和学习率这两个参数一起优化调整。

根据GA算法原理，将弱学习器最大个数Estimators和学习率Rate作为目标变量输入，在一定范围内离散，形成解空间；适应度函数选择模型的泛化误差，利用交叉验证得到的平均验证误差来近似。在循环一定的次数后Estimators和Rate趋向于稳定的值，此时模型参数达到最优，模型泛化能力最强。

根据本申请的一个方面，所述步骤S4进一步为：

为分析降水与影响因子的相关关系，首先需确定各影响因子的空间分布格局，具体包括各时段内影响因子特性、各时段间影响因子变化特性的空间分布。以子流域为单位，根据影响因子的特性对子流域进行聚类，进而结合子流域的空间位置描述各影响因子的空间分布特征。为减少影响因子空间分布分析的工作量，采用概化的手段，将流域内全部子流域按照影响因子的特性进行聚类，以类的形式描述影响因子的空间分布特征。

基于时段内影响因子特性进行聚类时，将各因子值抽象为欧氏空间点，以此作为特性指标。假设共选定n种因子进行分析，根据第i个子流域内n个因子的值x _i1, x _i2,…，x _in，将该子流域视为n维空间中的点X _i（x _i1, x _i2,…，x _in），以点的位置为子流域特性指标，以各点之间的欧氏距离为聚类标准，进行子流域聚类。对下垫面因子的处理方式与此相类似，其中，欧氏空间点的位置是由子流域内各土地利用类型的面积占比确定的。

基于时段间影响因子变化特性进行聚类时，将各因子变化值抽象为欧氏空间中的向量，以此作为特性指标。以因子为例进行说明：假设共选定n种因子进行分析，按照上文所述方法确定第i个子流域在变化前、变化后的n维空间点位置，分别记为点X _i（x _i1, x _i2,…，x _in）和点Y _i（y _i1, y _i2,…，y _in），构造由点X _i指向点Y _i的n维向量Z ^- _t=（y _i1 - x _i1, y _i2- x _i2,…，y _in- x _in）；为统一比较各子流域所对应的向量，将向量Z ^- _t平移至以坐标原点为起点的位置，于是向量Z ^- _t的终点可记为点Z _i=（y _i1 - x _i1, y _i2- x _i2,…，y _in- x _in）；对于各子流域，统一将坐标原点作为向量起点，以向量终点的位置为子流域特性指标，以各终点之间的欧氏距离为聚类标准，进行子流域聚类。

在进行流域降水演变归因分析时，侧重于空间差异方面的探究。首先检验降水空间分布状况与影响因子空间分布状况的相关性，若相关性程度较高，则结合影响因子的空间分布格局，针对降水演变过程中存在的空间差异性，对不同大小级别、不同变化程度的降水演变进行归因分析。研究两个变量之间的相关关系时，分两种情况：对于定量变量，可采用回归分析的方法，如散点图绘制、相关系数计算、残差分析；对于分类变量，可采用独立性检验的方法。本技术对降水及其影响因子分别进行了聚类处理，统一以类的形式进行分析，于是降水及其影响因子均被视为分类变量，故通过独立性检验的方法分析其相关性。

在分析降水空间分布与影响因子的相关性时，基于各时段内的静态分布格局和各时段间的动态变化格局分别展开独立性检验。将流域内的全部子流域作为样品，将降水和影响因子作为分类变量，设研究期共包含m个时段，独立性检验的对象包括：

（1）第i个时段(i=1,2,…,m)内降水特性与影响因子特性的独立性检验；

（3）第i个时段与第i+1个时段(i=1,2,…,m-1)间降水变化特性与影响因子变化特性的独立性检验；

根据上述2m-1组独立性检验的结果，可对降水空间分布与影响因子的相关性程度做出综合评价。

参照独立性检验的结果，确定降水空间分布与影响因子之间的相关性程度，将具有较高相关性的因子作为影响因子，进行降水演变的归因分析。首先分析降水演变特性空间分布格局的成因，确定不同空间位置降水演变特性的主导因素，然后对各大小级别、各变化程度的降水演变进行归因分析。

为分析影响因子对降水演变特性空间分布的影响程度，首先需确定各因子单独影响下的子流域降水演变特性。与上文一致，设全流域共划分为n个子流域，研究期共包含m个时段，将第j个子流域(j=1,2,…,n)在第i个时段(i=1,2,…,m-1)内的降水量记为R_j ⁱ，在第i+1个时段(i=1,2,…,m-1)内的降水量记为R_j ⁱ⁺¹。令第i个时段的其他驱动因子条件保持不变，将第X个因子替换为第i+1个时段的相应数值，代入驱动因子与降水映射关系模型模拟降水，将第j个子流域的降水量记为R_C,j ⁱ⁺¹；令第i个时段的流域X个因子保持不变，将下垫面条件替换为第i+1个时段的相应数值，代入驱动因子与降水映射关系模型模拟降水，将第j个子流域的降水量记为R_L,j ⁱ⁺¹。计算第j个子流域从第i个时段到第i+1个时段的降水变化程度ΔR_j ⁱ、由X因子变化引起的降水变化程度ΔR_C,j ⁱ。

ΔR_j ⁱ=(R_j ⁱ⁺¹-R_j ⁱ)/(R_j ⁱ ) (i=1,2,…,m-1;j=1,2,…,n) ，

ΔR_C,j ⁱ=(R_C,j ⁱ⁺¹-R_j ⁱ)/(R_j ⁱ) (i=1,2,…,m-1;j=1,2,…,n) ，

其他影响因子类推。

根据ΔR_j ⁱ、ΔR_C,j ⁱ和其他影响因子引起的降水变化程度值分别对全部子流域进行聚类，三次聚类采用相同的聚类数目。设聚类数目为k，则分别根据各子流域的ΔR_j ⁱ值、ΔR_C,j ⁱ值和其他影响因子引起的降水变化程度值，将各子流域归入不同降水演变程度的k个类中。

引入降水演变类型编号的概念，将不同降水演变程度的k个类的降水演变类型编号定义为数值为1~k的正整数。各个类的降水演变类型编号按照ΔR值从小到大的顺序依次记为1~k，降水减少程度最大的类的降水演变类型编号为1，降水增加程度最大的类的降水演变类型编号为k。

将根据ΔR_j ⁱ值聚类后的各类子流域的降水演变类型编号记为Num，将根据ΔR_C,j ⁱ值聚类后的各类子流域的降水演变类型编号记为NumC。对于第j个子流域从第i个时段到第i+1个时段的降水变化：NumC_j ⁱ与Num_j ⁱ的值越接近，则表明该子流域的降水演变程度与因子X变化引起的降水演变程度越类似，即在降水演变空间分布格局中该子流域受因子X的影响越大根据下式进行主导影响因素的判断：

θ_j ⁱ=|NumC_j ⁱ-Num_j ⁱ | (i=1,2,…,m-1;j=1,2,…,n)

式中：θ_j ⁱ为第j个子流域从第i个时段到第i+1个时段的降水变化主导因素指示变量；其余变量的含义与上文一致。

根据θ_j ⁱ (i=1,2,…,m-1;j=1,2,…,n)的计算结果，可对各时段间流域降水演变特性的空间分布特征进行归因分析，以子流域为研究单元，明确其在流域降水演变格局中所呈现特征的主导影响因素。

，

δ _j,p ⁱ=1，第i时段内第j个子流域的降雨大小不属于第p类；

δ _j,p ⁱ=0，第i时段内第j个子流域的降雨大小不属于第p类。

η _j,C ⁱ=1，从第i时段到第i+1时段第j个子流域的降雨演变受因素X主导。

η _j,C ⁱ=0，从第i时段到第i+1时段第j个子流域的降雨演变不是受因素X主导。

式中：α ⁱ _C,p为第i时段内第p类大小级别的降水在接下来的降水演变过程中受气象因素中的关键影响因子主导的比例；A_j为第j个子流域的面积；n为流域内子流域的个数；m为研究期内包含的时段数；l为第i个时段内基于降水大小级别的子流域聚类数目，i=1,2,…,m-1，p=1,2,…,l。

在本实施例中，各时段内的流域降水特性存在空间差异，各子流域的降水量分属不同的大小级别。各级别的降水在时段间演变时所受的主导影响因素不尽相同，故分别展开不同大小级别的降水演变归因分析。

，

δ _j,q ⁱ=1，从第i时段到第i+1时段第j个子流域的降雨变化程度属于第q类；

δ _j,q ⁱ=0，从第i时段到第i+1时段第j个子流域的降雨变化程度不属于第q类；

η_j,C ⁱ=1，从第i时段到第i+1时段第j个子流域的降雨演变受因素X主导；

η_j,C ⁱ=0，从第i时段到第i+1时段第j个子流域的降雨演变不是受因素X主导。

在本实施例中，各时段间的流域降水演变特性也存在空间差异，各子流域的降水变化程度分属不同级别。各变化程度的降水在演变时所受的主导影响因素不尽相同，故分别展开不同变化程度的降水演变归因分析。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

1.气候变化下的降水多要素时空变化分析及归因识别方法，其特征在于，包括如下步骤：

步骤S4、基于作为关键驱动因子的降水变化驱动因子对研究区域的子流域进行聚类分析，获得各个降水变化驱动因子的空间分布特征，对降水空间分布格局演变进行归因分析。

2.如权利要求1所述的气候变化下的降水多要素时空变化分析及归因识别方法，其特征在于，所述步骤S1进一步为：

3.如权利要求2所述的气候变化下的降水多要素时空变化分析及归因识别方法，其特征在于，所述步骤S11进一步为：

步骤S11d、利用GIS模块或插值模块对降水信息进行空间插值，生成降水栅格图层，基于降水栅格图层，通过GIS模块或时间序列分析模块根据不同的时间尺度计算每一子流域的降水量，形成降水信息的时间序列数据。

4.如权利要求3所述的气候变化下的降水多要素时空变化分析及归因识别方法，其特征在于，所述步骤S11b进一步为：

5.如权利要求3所述的气候变化下的降水多要素时空变化分析及归因识别方法，其特征在于，所述步骤S12进一步为：

6.如权利要求5所述的气候变化下的降水多要素时空变化分析及归因识别方法，其特征在于，所述步骤S2进一步为：

7.如权利要求6所述的气候变化下的降水多要素时空变化分析及归因识别方法，其特征在于，所述步骤S3进一步为：

8.如权利要求7所述的气候变化下的降水多要素时空变化分析及归因识别方法，其特征在于，所述步骤S4进一步为：

9.如权利要求8所述的气候变化下的降水多要素时空变化分析及归因识别方法，其特征在于，对不同大小级别的降水演变进行归因分析过程，具体包括：

，

10.如权利要求8所述的气候变化下的降水多要素时空变化分析及归因识别方法，其特征在于，不同变化程度的降水演变进行归因分析过程，具体包括：

，

11.如权利要求5所述的气候变化下的降水多要素时空变化分析及归因识别方法，其特征在于，所述步骤S12a进一步为：

获取趋势分析方法，及每一趋势分析方法的适用性信息；

12.如权利要求6所述的气候变化下的降水多要素时空变化分析及归因识别方法，其特征在于，所述步骤S22还包括：