CN114358167A

CN114358167A - 一种基于主成分分析和极限学习机的滑坡易发性预测模型

Info

Publication number: CN114358167A
Application number: CN202111636445.5A
Authority: CN
Inventors: 黄发明; 李金凤; 潘李含; 陶思玉; 毛达熊
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-15

Abstract

本发明涉及地质灾害预测技术领域，具体涉及一种基于主成分分析和极限学习机的滑坡易发性预测模型，包括如下步骤：S1：获取研究区滑坡编录及滑坡易发性建模相关环境因子；S2：利用主成分分析对环境因子进行降维，计算主成分得分作为初始滑坡易发性值，并划分不同的易发性区间；S3：将极高易发区与遥感影像进行叠加，通过目视解译确定滑坡隐患点作为扩充滑坡样本，滑坡编录与扩充滑坡样本共同组成滑坡样本；S4：从极低易发区随机选取栅格单元作为非滑坡样本；S5：建立极限学习机预测模型。可以消除环境因子之间的相关性以及其在进行综合评价时所反映的重复信息。主成分分析降维后的数据，其冗余性大大降低，为后续计算节省时间。

Description

一种基于主成分分析和极限学习机的滑坡易发性预测模型

技术领域

本发明涉及地质灾害预测技术领域，具体涉及一种基于主成分分析和极限学习机的滑坡易发性预测模型。

背景技术

山体滑坡作为一类常见的地质灾害，严重威胁着我国人民的生命及财产安全。在进行滑坡易发性预测建模时通常选取数量较多的环境因子，某些环境因子之间有较强的相关性，使得模型受重复信息的影响。另一方面，通常使用滑坡编录作为滑坡样本，但野外获取滑坡样本数据难度较大且不完整；而选择非滑坡样本时多从滑坡点之外的研究区随机选择，缺乏滑坡和非滑坡先验知识的引导，在整个研究区随机选取非滑坡样本则会造成大量误差，建模准确性难以保证。

为解决此问题，本发明公开了一种基于主成分分析和极限学习机的滑坡易发性预测模型。主成分分析是考察多个定量(数值)变量间相关性的一种多元统计方法。它是研究如何通过少数几个主分量(即原始变量的线性组合)来解释多变量的方差—协方差结构。具体地说，是导出少数几个主分量，使它们尽可能多地保留原始变量的信息，且彼此间不相关。假设有n个样本，每个样本测得p项指标(p<n)。由于这p项指标之间往往具有相关关系，且每个样本各指标取值的单位和数量大小不同，使我们较难求利用这p项指标的信息区别这n个样本。设x＝(x1，x2，…，xp)是一个p维随机向量，且E(x)＝μ，协差阵D(x)＝v。考虑它的线性变换：

Z₁＝l′₁X＝l′₁₁X₁+l'₂₁X₂+...+l'_p1X_p

...

Z_p＝l'_pX＝l′_1pX₁+l'_2pX₂+...+l'_ppX_p

则有Var(Z_i)＝l′₁Vl_i,cov＝(Z_iZ_j)＝l′_iVl_j(i≠j)

若Z₁＝l′₁X满足

则称Z₁是X的第一主成分。Z₁是在X的所有线性组合中最能综合p个变量信息的一个特殊的线性组合。如果一个主成分不足以代表原p个变量所包含的信息，就考虑采用Z₂。为了最有效地代表原变量的信息，Z₁已有的信息就不需要出现在Z₂中，即满足cov(Z₁,Z₂)，以此类推。

主成分个数的选取一般按照x％准则，即前k个主成分的累计方差贡献率

不小于x％。当x取80～85时能够使用较少个数的主成分表达较充分的信息。

在利用主成分进行综合评价时常使用主成分方差贡献率法确定权重系数，即主成分得分为

极限学习机从单隐藏层前馈神经网络发展而来并继承了其良好的自组织和自适应能力，具有更快的学习速度和良好的泛化能力。极限学习机模型由输入层、隐藏层和输出层三层组成，各层之间采用全连接方式。

假设样本数为Q，变量数为n，隐藏层神经元l个，输出变量m个；则输入X_n×Q，输入层到隐含层的连接权值W_l×n，隐藏层阈值b_l×1和隐藏层与输出层连接权值β_l×m。

激励函数g(x)，该前馈神经网络的输出：

上式可简化为：Hβ＝T。

式中，H为隐藏层输出矩阵。

发明内容

为了解决现有技术的不足，本文提供一种基于主成分分析和极限学习机的滑坡易发性预测模型。

本发明的目的主要通过以下技术方案实现：

本发明为一种基于主成分分析和极限学习机的滑坡易发性预测模型，包括以下步骤：

S1：获取研究区滑坡编录及滑坡易发性建模相关环境因子；

S2：利用主成分分析对环境因子进行降维，计算主成分得分作为初始滑坡易发性值，并划分不同的易发性区间；

S3：将极高易发区与遥感影像进行叠加，通过目视解译确定滑坡隐患点以扩充滑坡样本，滑坡编录与扩充滑坡样本共同组成滑坡样本；

S4：从极低易发区随机选取栅格单元作为非滑坡样本；

S5：建立极限学习机预测模型。

所述步骤S1中的滑坡编录可从研究区历史滑坡编录资料和地质勘探报告获得。环境因子可通过查询地理信息平台或通过ArcGIS软件对相关环境因子进一步处理获得，一般可分为地形地貌、地层岩性、地表覆盖和水文环境四类。

所述步骤S2中的主成分分析是基于环境因子的频率比值(frequency ratio,FR)进行的。滑坡频率比代表着滑坡灾害的分布与相关环境因子之间的关系，揭示滑坡灾害的发生与各孕灾环境因子的相关程度，频率比的计算公式为：

FR>1表明环境因子在该属性空间内有利于滑坡发育，FR<1表明环境因子在该属性区间内不利于滑坡发育。

所述步骤S2中的主成分分析方法是在力保数据信息丢失最少的原则下，对高维空间进行降维处理的一种方法，可以大幅降低环境因子之间的相关性和冗余性，提高建模效率。环境因子是否适合主成分分析需经“KMO检验”和“球形检验”确定。

所述“KMO检验”是用于比较变量间简单相关系数和偏相关系数的指标。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时，KMO值接近1。KMO值越接近于1,意味着变量间的相关性越强，原有变量越适用于主成分分析；当所有变量间的简单相关系数平方和接近0时，KMO值接近0。KMO值越接近于0,意味着变量间的相关性越弱，原有变量越不适合作因子分析。对于主成分分析，KMO值0.9以上表示非常适合；0.8表示适合；0.7表示一般；0.6表示不太适合；0.5以下表示极不适合。

所述“球形检验”是根据相关系数矩阵的行列式得到的，如果该值较大，且其对应的相伴概率值小于用户心中的显著性水平，那么应该拒绝零假设，认为相关系数矩阵不可能是单位阵，即原始变量之间存在相关性，适合于做主成份分析；相反，如果该统计量比较小，且其相对应的相伴概率大于显著性水平，则不能拒绝零假设，认为相关系数矩阵可能是单位阵，不宜于做主成分分析。

所述主成分个数的选取一般按照x％准则，即前k个主成分的累计方差贡献率

不小于x％。当x取80～85时能够使用较少个数的主成分表达较充分的信息。当x取值继续增大时，主成分个数进一步增多，将使得综合评价的进行更为麻烦；当x取值过小时，主成分所反映的原始信息不足，原始信息的损失过大。

每个主成分的构成可根据主成分载荷阵确定，通过主成分载荷阵可以得出环境因子与主成分之间的线性关系，并对每个主成分所表示的含义有较为合理的解释。

所述主成分应满足如下原则：(1)数据变异最大原则，即主成分取数据最大方向，使主成分包含尽可能多的原始信息；(2)最小二乘原则，从几何观点看，原样本点与新的空间中主超平面上投影的距离平方和达到最小，才能使原始信息的损失达到最小；(3)群点相似性改变最小原则，要使主成分分析的信息损失最小，就要使各数据间的相似性改变最小。

一般主成分分析的目的由两点组成:(1)将多个有相关关系的变量压缩成少数几个不相关的主成分,并保留绝大部分信息；(2)给出各主成分的具有实际背景和意义的解释。

所述步骤S2中的主成分得分在计算时使用主成分方差贡献率法确定权重系数，即

需要说明的是，在得出主成分得分后应对其进行归一化处理，得到处于0～1之间的概率值，该值越大，表示该点发生滑坡的概率越大，反之亦然。

主成分得分可作为初始滑坡易发性值，并通过ArcGIS软件绘制初始滑坡易发性图。

所述步骤S2在划分易发性区间时，应采用自然间断分级法，将研究区划分为5类滑坡易发性级别：极低易发区、低易发区、中易发区、高易发区和极高易发区。

所述自然间断分级法中的“自然间断点”类别是基于数据中固有的自然分组。通过对分类间隔加以识别，可对相似值进行最恰当地分组，并可使各个类之间的差异最大化。要素将被划分为多个类，对于这些类，会在数据值的差异相对较大的位置处设置其边界。

所述步骤S3中滑坡样本的扩充可通过以下方法得到：将初始滑坡易发性图与高分辨率遥感影像进行叠加，目视解译极高易发区内的地物和地形地貌特征。通过对研究区历史滑坡形态和色调等特征的分析来建立区域滑坡遥感解译标志；最后根据滑坡遥感解译标志并基于人机交互式目视解译出极高易发区内的滑坡隐患点。在ArcGIS软件中标记出滑坡隐患点并从中随机选取一定数量的栅格单元以扩充滑坡样本。

所述步骤S4中所述非滑坡样本选取的数量应与步骤S3中选取的滑坡样本相同，并利用SPSS软件随机选取。等量的滑坡样本与非滑坡样本共同组成样本点。

所述样本点中的滑坡点应赋值为1，代表该点发生滑坡，非滑坡点赋值为0，代表该点不发生滑坡。之后，应按照7:3的比例将样本点随机划分为训练集和测试集。

本发明提供一种基于主成分分析和极限学习机的滑坡易发性预测模型，具有以下有益效果：

(1)在进行滑坡易发性预测建模时通常选取数量较多的环境因子，导致某些环境因子之间可能存在较强的相关性。主成分分析可以消除环境因子之间的相关性以及其在进行综合评价时所反映的重复信息。主成分分析降维后的数据，其冗余性大大降低，为后续计算节省时间。

(2)本发明使用主成分分析得到初始滑坡易发性值，并从其低和极低易发区随机选择非滑坡样本。在初始建模中使用无标样本，能够最大效率地利用无标样本信息，提升易发性建模精度。

(3)滑坡样本的选择不仅包括了滑坡编录，还将初始建模的滑坡易发性图与高分辨率遥感影像进行叠加，通过人机交互式目视解译从极高易发区选取滑坡隐患点扩充滑坡样本，使得滑坡样本选择客观、准确且合理。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的含义。

图1为基于主成分分析和极限学习机的滑坡易发性预测模型流程图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，公开了一种滑坡地灾风险区划图生成方法，流程图如图1所示，该方法包括以下步骤：

S1：获取研究区滑坡编录及滑坡易发性建模相关环境因子；

具体地，可以从研究区历史滑坡编录资料和地质勘探报告获得滑坡编录。环境因子可通过地理信息平台下载，并依据具体用途选择合适的分辨率。此外，一些环境因子如坡度、坡向等可以通过ArcGIS软件对相关环境因子进一步处理获得。环境因子一般可分为地形地貌、地层岩性、地表覆盖和水文环境四类。

具体地，将所得环境因子导入ArcGIS软件中，提取出不同属性区间的频率比并赋给该环境因子已达到正向化的目的。滑坡频率比代表着滑坡灾害的分布与相关环境因子之间的关系，揭示滑坡灾害的发生与各孕灾环境因子的相关程度，频率比的计算公式为：

具体地，S2可以分为如下步骤：

S21：使用主成分分析方法对环境因子进行分析；

具体地，将基于频率比的环境因子导入SPSS软件，“分析(Analyze)-降维(DataReduction)-因子分析(Factor Analysis)”功能对选取的环境因子进行主成分分析，并勾选“KMO检验”和“球形检验”选项。

主成分分析方法是在力保原始数据信息丢失最少的原则下，对高维空间进行降维处理的一种方法，可以大幅降低初始环境因子之间的相关性和冗余性，提高建模效率。

S22：选取主成分个数并对主成分进行合理的解释；

确定主成分个数的方法很多，在实际中用的比较多的有第一主成分法、x％准则、特征根均值准则、斯格里准则和巴特莱特准则等。

示例性地，本发明主成分个数的选取按照x％准则，即前k个主成分的累计方差贡献率

不小于x％。当x处于80～85之间时能够使用较少个数的主成分表达较充分的信息。当x取值继续增大时，主成分个数进一步增多，使综合评价的进行更为麻烦；当x取值过小时，主成分所反映的原始信息不足，对原始信息的损失过大。

具体地，每个主成分的构成可根据主成分载荷阵确定，通过主成分载荷阵可以得出环境因子与主成分之间的线性关系，并对每个主成分所表示的含义有较为合理的解释。

一般主成分分析的目的由两点组成:(1)将多个有相关关系的变量压缩成少数几个不相关的主成分,并保留绝大部分信息；(2)给出各主成分的具有实际背景和意义的解释。当主成分的解释能力不明显时，可将载荷矩阵进行旋转，使各主成分易于解释。

S23：计算出各主成分的得分，归一化后作为初始易发性值，并使用自然分级间断点法划分不同易发性区间；

示例性地，主成分得分在计算时使用主成分方差贡献率法确定权重系数，即

优选地，在划分易发性区间时，应采用自然分级间断点法，将研究区划分为5类滑坡易发性级别：极低易发区、低易发区、中易发区、高易发区和极高易发区。

滑坡样本的扩充可通过以下方法得到：将初始滑坡易发性图与高分辨率遥感影像进行叠加，目视解译极高易发区内的地物和地形地貌特征。通过对研究区历史滑坡形态和色调等特征的分析来建立区域滑坡遥感解译标志；最后根据滑坡遥感解译标志并基于人机交互式目视解译出极高易发区内的滑坡隐患点。在ArcGIS软件中标记出滑坡隐患点并从中随机选取一定数量的栅格单元以扩充滑坡样本。

S4：从低和极低易发区随机选取栅格单元作为非滑坡样本；

具体地，将处于低和极低易发区的属性点导入SPSS软件中，随机选取和滑坡样本相同数量的点作为非滑坡样本。滑坡样本和非滑坡样本共同组成样本点。其中，滑坡样本的易发性赋值为1，代表该点发生滑坡；非滑坡样本的易发性赋值为0，代表该点不发生滑坡。

S5：建立极限学习机预测模型。

具体地，步骤S5可分为如下步骤：

S51：建立极限学习机预测模型；

具体地，利用SPSS软件将样本点以7:3的比例随机划分为训练集和测试集。之后，使用极限学习机模型进行滑坡易发性预测建模。其输出变量为0～1之间的概率值，值越大，表示该点越容易发生滑坡；值越小，表示该点越不容易发生滑坡。一般概率值大于0.5则视为该点发生滑坡，小于0.5，则视为不发生滑坡。

S52：对易发性建模精度和不确定性进行评价。

具体地，易发性建模精度一般使用采用受试者工作特征曲线(ReceiverOperation Characteristics)下的面积AUC(Area Under ROC)值评价。ROC曲线的横纵坐标分别为假阳率和真阳率。在滑坡易发性预测中式中TP(真阳性)为能够正确判断为滑坡类的滑坡点数量，TN(真阴性)为正确判断为非滑坡类的非滑坡点数量，FN(假阳性)为被错误判断为滑坡类的非滑坡点数量，FP(假阴性)为被错误判断为非滑坡类的滑坡点数量。AUC作为衡量机器学习分类和预测性能的重要工具在建模精度评价中应用广泛。机器学习模型算法预测精度通常随AUC值的增大而提升。

易发性指数分布可以评价易发性建模的不确定性。指数分布的两个重要特征分别为集中趋势和离散趋势。集中趋势表示数据集中在某一数值或范围的聚集，常用均值表示；离散趋势表示数据的离散程度，常用标准差进行描述。滑坡易发性指数的均值越小标准差越大，表明易发性越多集中在低或极低易发区且易发性差异越大，能够使用较少的数据预测较多的高或极高易发区的滑坡情况，模型的不确定性越低。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于主成分分析和极限学习机的滑坡易发性预测模型，其特征在于，包括以下步骤：

S1：获取研究区滑坡编录及滑坡易发性建模相关环境因子；

S3：将极高易发区与遥感影像进行叠加，通过目视解译确定滑坡隐患点作为扩充滑坡样本，滑坡编录与扩充滑坡样本共同组成滑坡样本；

S4：从极低易发区随机选取栅格单元作为非滑坡样本；

S5：建立极限学习机预测模型。

2.根据权利要求1所述的一种基于主成分分析和极限学习机的滑坡易发性预测模型，其特征在于：所述步骤S1中的滑坡编录通过研究区历史滑坡编录资料和地质勘探报告获得；环境因子通过查询地理信息平台或通过ArcGIS软件对相关环境因子进一步处理获得，分为地形地貌、地层岩性、地表覆盖和水文环境四类。

3.根据权利要求1所述的一种基于主成分分析和极限学习机的滑坡易发性预测模型，其特征在于：所述步骤S2中的主成分分析是基于环境因子的频率比值(frequency ratio,FR)进行的；

滑坡频率比代表着滑坡灾害的分布与相关环境因子之间的关系，揭示滑坡灾害的发生与各孕灾环境因子的相关程度，频率比的计算公式为：

4.根据权利要求1所述的一种基于主成分分析和极限学习机的滑坡易发性预测模型，其特征在于：所述步骤S2中的主成分分析方法是在力保数据信息丢失最少的原则下，对高维空间进行降维处理的一种方法，能够大幅降低环境因子之间的相关性和冗余性，提高建模效率；环境因子是否适合主成分分析需经“KMO检验”和“球形检验”确定；

所述“KMO检验”是用于比较变量间简单相关系数和偏相关系数的指标，当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时，KMO值接近1；KMO值越接近于1,意味着变量间的相关性越强，原有变量越适用于主成分分析；当所有变量间的简单相关系数平方和接近0时，KMO值接近0；KMO值越接近于0,意味着变量间的相关性越弱，原有变量越不适合作因子分析；对于主成分分析，KMO值0.9以上表示非常适合；0.8表示适合；0.7表示一般；0.6表示不太适合；0.5以下表示极不适合；

5.根据权利要求4所述的一种基于主成分分析和极限学习机的滑坡易发性预测模型，其特征在于：所述主成分个数的选取一般按照x％准则，即前k个主成分的累计方差贡献率

不小于x％；当x取80～85时能够使用较少个数的主成分表达较充分的信息；当x取值继续增大时，主成分个数进一步增多，将使得综合评价的进行更为麻烦；当x取值过小时，主成分所反映的原始信息不足，原始信息的损失过大；

6.根据权利要求5所述的一种基于主成分分析和极限学习机的滑坡易发性预测模型，其特征在于：所述主成分应满足如下原则：(1)数据变异最大原则，即主成分取数据最大方向，使主成分包含尽可能多的原始信息；(2)最小二乘原则，从几何观点看，原样本点与新的空间中主超平面上投影的距离平方和达到最小，才能使原始信息的损失达到最小；(3)群点相似性改变最小原则，要使主成分分析的信息损失最小，就要使各数据间的相似性改变最小。

主成分分析的目的由两点组成:(1)将多个有相关关系的变量压缩成少数几个不相关的主成分,并保留绝大部分信息；(2)给出各主成分的具有实际背景和意义的解释。

7.根据权利要求1所述的一种基于主成分分析和极限学习机的滑坡易发性预测模型，其特征在于：所述步骤S2中的主成分得分在计算时使用主成分方差贡献率法确定权重系数，即

需要说明的是，在得出主成分得分后应对其进行归一化处理，得到处于0～1之间的概率值，该值越大，表示该点发生滑坡的概率越大，反之亦然；主成分得分能够作为初始滑坡易发性值，并通过ArcGIS软件绘制初始滑坡易发性图。

8.根据权利要求1所述的一种基于主成分分析和极限学习机的滑坡易发性预测模型，其特征在于：所述步骤S2在划分易发性区间时，应采用自然间断分级法，将研究区划分为5类滑坡易发性级别：极低易发区、低易发区、中易发区、高易发区和极高易发区；所述自然间断分级法中的“自然间断点”类别是基于数据中固有的自然分组，通过对分类间隔加以识别，可对相似值进行最恰当地分组，并可使各个类之间的差异最大化；要素将被划分为多个类，对于这些类，会在数据值的差异相对较大的位置处设置其边界。

9.根据权利要求1所述的一种基于主成分分析和极限学习机的滑坡易发性预测模型，其特征在于：所述步骤S3中滑坡样本的扩充可通过以下方法得到：将初始滑坡易发性图与高分辨率遥感影像进行叠加，目视解译极高易发区内的地物和地形地貌特征，通过对研究区历史滑坡形态和色调等特征的分析来建立区域滑坡遥感解译标志；最后根据滑坡遥感解译标志并基于人机交互式目视解译出极高易发区内的滑坡隐患点；在ArcGIS软件中标记出滑坡隐患点并从中随机选取一定数量的栅格单元以扩充滑坡样本。

10.根据权利要求1所述的一种基于主成分分析和极限学习机的滑坡易发性预测模型，其特征在于：所述步骤S4中所述非滑坡样本选取的数量应与步骤S3中选取的滑坡样本相同，并利用SPSS软件随机选取；等量的滑坡样本与非滑坡样本共同组成样本点，所述样本点中的滑坡点应赋值为1，代表该点发生滑坡，非滑坡点赋值为0，代表该点不发生滑坡；之后，应按照7:3的比例将样本点随机划分为训练集和测试集。