CN114580260B

CN114580260B - 一种基于机器学习和概率理论的滑坡区间预测方法

Info

Publication number: CN114580260B
Application number: CN202111172467.0A
Authority: CN
Inventors: 李龙起; 姚忠劭; 黄杨; 王梦云; 徐雷; 胡忠良
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2023-04-28
Anticipated expiration: 2041-10-08
Also published as: CN114580260A

Abstract

本发明涉及一种基于机器学习和概率理论的滑坡区间预测方法，包括以下步骤，使用VMD分解技术将滑坡累计监测位移时间序列数据分解为多个IMF分项和一个残余项R，将各IMF分项叠加得到位移波动项，R视为位移趋势项；对位移趋势项进行多项式拟合，并采用最小二乘法对其进行预测；根据Copula模型选取位移波动项的有效影响因子，所得有效影响因子作输入参数，所得位移波动项作输出参数，建立KELM模型，对位移波动项进行预测；分别计算位移趋势项与位移波动项的滑坡位移预测误差；确立各位移项最符合其真实分布的先验分布概率密度函数，根据确定的先验分布概率密度函数求取对应的累积概率分布函数，以此计算得到各位移项被预测时刻对应的参数法预测区间。

Description

一种基于机器学习和概率理论的滑坡区间预测方法

技术领域

本发明涉及一种滑坡数据处理方法，具体涉及一种基于机器学习和概率理论的滑坡区间预测方法。

背景技术

滑坡是一种常见的自然地质灾害，尤其在我国西南山区较为常见，给该地区人民的生命和财产安全带来了巨大的威胁。国内外专家学者针对滑坡的防治和治理工作开展了多方面的研究，实践证明对滑坡位移变化进行预测预报仍是滑坡灾害预警的最有效手段之一。近年来，针对滑坡位移预测的研究已经从最初的物理模型发展到后来的抽象模型，且抽象模型经过不断深入研究，已经从确定性模型发展到位移-时间序列统计分析模型，再到今天被广泛采用的机器学习模型。其中，机器学习方法作为目前主流的非线性预测手段被引入滑坡位移预测领域，极大地丰富了滑坡位移的点预测手段。然而对滑坡这一复杂的非线性动态系统而言，存在多种不确定性因素影响预测结果的可靠程度，要想对位移预测效果进行全面评价，必须在评价点预测精度的基础上对预测结果的可靠程度进行量化与评估。现有研究往往集中在如何提高位移预测结果的精度，即通过一些方法改进机器学习模型，例如将SVR中的核函数引入ELM中代替其原本的随机映射，增强其模型自身的鲁棒性；或采用一些常用的优化算法(遗传算法(GA)、蝙蝠算法(BA)、粒子群算法(PSO)等)对模型的参数进行寻优以提高预测准确性。然而，要使位移预测结果真正运用到实际中来，单纯地提高精度远远不够，其可靠性程度的大小更该受到广泛关注。区间预测作为一种直观地评价自身结果可靠程度的方法被用来解决当前滑坡预测局限于提高自身精度而忽略对结果的可靠程度进行量化与评价的弊端。

发明内容

本发明针对目前滑坡预测研究仅针对预测结果的精度进行提高而忽略对预测结果的可靠程度进行研究的不足，将一种基于机器学习与概率统计理论结合的滑坡位移区间预测方法引入滑坡预测科学，旨在对滑坡位移预测结果的可靠程度进行科学合理的量化，以此为滑坡灾害的预警防治提供更有价值的参考信息。

本发明的目的是这样实现的：一种基于机器学习和概率理论的滑坡区间预测方法，包括以下步骤，S001、使用VMD分解技术将滑坡累计监测位移时间序列数据分解为多个IMF分项和一个残余项R，将各IMF分项叠加得到位移波动项，R视为位移趋势项；

S002、对位移趋势项进行多项式拟合，并采用最小二乘法对其进行预测；

S003、根据Copula模型选取位移波动项的有效影响因子，所得有效影响因子作输入参数，所得位移波动项作输出参数，建立KELM模型，对位移波动项进行预测；

S004、根据S002以及S003的预测结果，分别计算位移趋势项与位移波动项的滑坡位移预测误差；

S005、确立各位移项最符合其真实分布的先验分布概率密度函数，根据确定的先验分布概率密度函数求取对应的累积概率分布函数，以此计算得到各位移项被预测时刻对应的参数法预测区间；

S006、根据趋势项和波动项误差数据拟合真实概率分布，以真实概率密度函数求取对应的累积分布函数，以此计算各分项位移被预测时刻对应的非参数法预测区间；

S007、将S005与S006得到的各位移项预测区间利用差分进化算法进行组合，以此得到趋势项和波动项各项最终预测区间，将趋势项最终预测区间与波动项最终预测区间叠加，得到累计位移预测区间。

S001中对滑坡累计位移时间序列进行VMD分解时，分解过程中所涉及的参数模态数K，首先从小到大预设其取值，重复实验，当最后一层IMF分项的中心频率保持相对稳定时，此时K值最佳；惩罚因子α可根据样本熵值最小原则进行选择。

S002中按8:4的比例将趋势项位移时间序列数据划分为训练样本集和备用样本集，将备用集最后12组样本视为测试集，其余数据皆为误差生成集，利用多项式对训练集样本进行拟合，然后利用最小二乘法对备用集样本进行预测。

S003中收集滑坡位移监测期对应的降雨与库水位高程数据，首先对数据进行预处理，通过计算得到前两个月降雨量J1，前一个月降雨量J2，当前月降雨量J3；前两个月库水位变化值K1，前一个库水位变化值K2，当月库水位变化值K3，将以上六个影响因子作为初选因子分别与对应的位移波动项建立不同的Copula模型，Copula函数包括正态Copula和t-Copula；Gumbel Copula、Clayton Copula和Frank Copula函数，采用AIC信息准则法和BIC信息准则法分别为各因子与波动项选择最优的Copula函数。

S003中选择Gumbel Copula作为相关性分析的模型函数。

S003中按8:4的比例将波动项位移时间序列数据划分为训练样本集和误差生成样本集，再将备用样本集中最后12组样本作为测试集，其他样本作为误差生成集，首先利用训练样本集建立KELM模型，采用径向基函数作为本实施例的核函数，将误差生成集中各样本的影响因子数据输入经过训练后的KELM模型对其进行预测。

S005中假设趋势项和波动项误差均符合混合高斯-t分布，采用最小二乘法拟合各分项位移预测误差的混合概率密度函数，以拟合的概率密度函数与真实分布概率密度直方图间残差最小为原则，确定各分项位移误差对应的最优混合分布模型参数，以此确立最符合其真实分布的先验分布概率密度函数。

S007中以能够使预测区间同时达到最高的覆盖率和最窄的带宽为原则，分别为各位移项寻找确定其最优的组合区间参数。

S007中以区间评价综合指标CWC作为适应度对组合区间参数进行寻优，确定能够最大化区间预测性能的权重取值。

采用工程类比法对S004中预测误差进行补充。

本发明通过对滑坡数据误差的概率分布函数进行估计，并在此基础上预测区间范围，该方法能够更加稳定、系统地反映不确定性对预测结果的影响。预测区间的可靠性取决于能否对误差的分布进行准确估计，而建立在数学方法上的误差分布估计相对于前两种方法更加节约计算成本且具有更加充分的理论依据，同时将最优窗宽核密度估计法引入预测模型中与PM结合，从而实现先验信息和真实数据的有效结合。本专利提供的滑坡位移区间预测方法，在滑坡点预测的基础上，通过概率统计理论中的参数法与非参数法来估计预测误差的分布，并在此基础上构造滑坡位移预测区间。由于参数法与非参数法在对预测误差分布进行估计时各有优劣，将两者所得区间结合起来通过互补以得到性能更优的预测区间，以此来量化预测结果的可靠程度。区间预测在点预测的基础上为滑坡灾害的预测防治提供了更为有效的参考信息。

下面结合附图和具体实施例对本发明作进一步说明。

附图说明

图1为本发明的流程图；

图2为实施例中ZG326监测点位移的VMD分解结果图；

图3为ZG326监测点波动项位移以及趋势项位移叠加结果图；

图4为趋势项位移的预测结果图；

图5为波动项位移的预测结果图；

图6为预测误差概率密度拟合曲线图；

图7为参数法预测区间图；

图8为非参数法预测区间图；

图9为组合预测区间图；

图10为不同预测方法的区间评价指标；

图11为白家坡的平面图；

图12为累计位移的变化与库区水位高程及降雨量的直接关系图。

具体实施方式

参照附图，将详细描述本发明的具体实施方案。

在对滑坡位移进行预测的过程中，存在着很多的不确定性。首先，岩土工程系统存在着固有的可变性，是一个不断变化的动态系统，其本身就是一大不确定性来源；其次，对滑坡变形进行监测时，由于监测系统自身的局限性以及人工测量的偶然性都会给监测数据带来一定的误差，从而导致数据来源具有不确定性；同时，我们用来进行预测的模型也具有一定的局限性，例如：模型系统稳定性较低，预测性能受参数的影响较大等。以上这些因素使位移的点预测结果始终与实际情况存在一定误差，难以实现精准预测。工程相关人员在仅掌握点预测结果的情况下，很难确定其是否可信以及可信程度的大小，因此难以做出精准有效的决策。若能够通过一定方法将预测结果的不确定性进行量化，以更加直观的方式呈现出预测的可靠程度，就能够为滑坡治理防治的决策者提供更多的有效参考信息，帮助其做出更加高质高效的决策。近年来，区间预测已经在不同领域中得到了广泛应用，目前常用的区间预测方法有以下几种：利用神经网络输出层的两个节点直接得到预测区间的上下限；利用Bootstrap结合机器学习方法计算不确定性造成的系统误差和随机误差，从而构造预测区间；在点预测的基础上，结合预测误差概率分布进行分析得到位移的预测区间。

第一类方法通常基于某种输出层具有两个节点的神经网络模型，如文献，其网络参数的设置对预测区间性能的影响尤为重要。然而该模型在进行参数寻优时不仅需要大量的计算，且其参数极有可能陷入局部最优，从而使得到的预测区间无法准确描述点预测的不确定性。第二类方法采用Bootstrap对样本数据进行抽样从而构造不同的伪样本数据集并建立相应的预测模型，根据各模型预测结果计算系统误差和随机误差，抽样次数以及抽样规模对预测区间的影响较大，一旦选取不当将会大大降低预测区间的可信度。同时经过抽样处理后的伪样本数据不可避免地会存在信息丢失问题，从而影响预测性能。而且对多个预测模型进行训练将消耗大量时间，计算成本过高。

通过对误差的概率分布函数进行估计，并在此基础上预测区间范围。相对于前两种预测方法，该方法能够更加稳定、系统地反映不确定性对预测结果的影响。预测区间的可靠性取决于能否对误差的分布进行准确估计，而建立在数学方法上的误差分布估计相对于前两种方法更加节约计算成本且具有更加充分的理论依据。

当采用PM对样本误差分布进行估计时，误差的分布对统计样本分布的特性具有较高的依赖性，一旦样本本身分布特性超出所采用先验分布模型的描述范围，则会对预测结果的精度产生较大影响。因此，为了降低预测风险，本发明提供一种方法，以克服先验分布拟合误差的局限性并提高模型的适用性和准确性，将最优窗宽核密度估计法引入预测模型中与PM结合，从而实现先验信息和真实数据的有效结合。

基于此，本发明提供一种基于机器学习和概率理论的滑坡区间预测方法，包括以下步骤：

S001、使用VMD分解技术将滑坡累计监测位移时间序列数据分解为多个IMF分项和一个残余项R，将各IMF分项叠加得到位移波动项，R视为位移趋势项；VMD利用分解技术将复杂非平稳信号分解为中心频率为ωk的不同模态分项μk。该算法首先将原始信号分解为具有不同带宽的子序列，基于一系列的变换以及带宽之和最小原则建立约束变分模型。采用二次惩罚和拉格朗日数乘法将约束问题转化为非约束问题，然后使用乘子交替方向法不断更新各模态及其中心频率，最终实现信号的自适应分解。VMD可以有效克服EMD分解过程中的模态混叠现象并通过镜像延拓处理端点效应，过滤掉噪声的同时能保留原始信号中的有用成分，分解效果更佳。滑坡的发生通常伴随着位移的大幅度突变，若直接利用原始序列对模型进行训练，当模型训练集包含突变位移时，模型在训练过程中可能会将其错误识别为异常数据，难以对数据进行正确地学习，从而影响预测效果。同时，在对误差进行估计时，距离待测时刻越近的点预测误差对待测点的影响越大，第一个突变时刻的到来伴随着外界环境的剧烈变化，根据前期较平稳变形阶段的预测误差分布对突变点误差进行估计也会出现较大偏差；同时，模型点预测效果不佳导致突变时刻预测值与实际值严重不符、误差突增，第一个突变点预测误差的异常增加势必会对其后各点预测误差的估计产生较大影响，造成突变阶段各点估计误差的可靠性显著降低，从而影响区间预测模型的性能。采用VMD将滑坡位移分解为一系列比原始数据更具规律性的分项位移，提取位移的局部特征。分解后的位移分项各自拥有特定的中心频率，同样的预测模型对频率特征显著的分项位移具有更高的学习能力，且每一分项的预测误差较为稳定，寻找特定的误差分布可以有效估计分项位移待测点的误差。分别建立模型对各分项位移进行学习和预测能够大大提高预测效果。

S003中选择Gumbel Copula作为相关性分析的模型函数。

采用工程类比法对S004中预测误差进行补充。

本发明通过对滑坡数据误差的概率分布函数进行估计，并在此基础上预测区间范围。相对于前两类预测方法，该方法能够更加稳定、系统地反映不确定性对预测结果的影响。预测区间的可靠性取决于能否对误差的分布进行准确估计，而建立在数学方法上的误差分布估计相对于前两种方法更加节约计算成本且具有更加充分的理论依据，同时将最优窗宽核密度估计法引入预测模型中与PM结合，从而实现先验信息和真实数据的有效结合。

同时，现有的滑坡位移预测大多是确定性的点预测，研究方向也多局限于提高点预测结果的精度，无法为滑坡的预测与防治提供足够有效的信息。本专利提供的滑坡位移区间预测方法，在滑坡点预测的基础上，通过概率统计理论中的参数法与非参数法来估计预测误差的分布，并在此基础上构造滑坡位移预测区间。由于参数法与非参数法在对预测误差分布进行估计时各有优劣，将两者所得区间结合起来通过互补以得到性能更优的预测区间，以此来量化预测结果的可靠程度。区间预测在点预测的基础上为滑坡灾害的预测防治提供了更为有效的参考信息。

具体实施例中，选取白家包滑坡ZG323～ZG326四个监测点自2006年9月至2020年8月共168组累计位移数据进行研究。白家包滑坡位于湖北省秭归县，沿香溪河右岸展布。滑坡后缘以基岩为界，高程为275m，前缘只抵香溪河，剪出口高程在125m～135m之间，左侧以山底下部基岩为界，右侧以山梁为界。滑坡上窄下宽，前缘宽500m，后缘300m，纵长约550m，面积为22×10⁴m²。深层滑体平均厚度为45m，前缘厚20～30m，中部厚47m，后缘厚10～40m，体积为990×10⁴m³。浅层滑体平均厚度为30m，前缘厚10～20m，中部厚35m，后缘厚10～40m。体积为660×10⁴m³。整体地势西高东低，西部坡角较大，35～50°，东部稍缓，0～25°。滑体前缘坡度为20°，中部较为平缓，为10～12°，平均坡度为15°左右。白家坡的平面图如图11所示。

引起滑坡变形的因素有很多。坡体的地质构造、地层岩性等内部因素决定了滑坡自身固有变形的特点；周期性的降雨以及库水位高程的变动等外部环境的变化致使滑坡产生周期变形；而地震、人类工程活动等无规律的外界活动则会造成滑坡的随机变形。白家包滑坡的变形也主要受到库水位的调动以及雨季强降雨的影响。该滑坡从2006至2020年累计位移的变化与库区水位高程及降雨量的直接关系如图12所示。

根据图11、12监测数据显示，每年5～8月，滑坡所在地区的库水位均由高位下降到低位，对应时间段内的累计位移出现大幅变动；而每年9月至次年4月，库水位呈大幅上升趋势，但累计位移曲线却趋于平缓。由此可见，该滑坡的变形与库水位的下降呈正相关，具有典型的“阶跃型”特征。滑坡在2009年、2012年、2015年及2018年7月均发生较大变形，而该地区大气降雨在5～6月为全年最高，表明降雨与滑坡密切相关且其对滑坡的影响可能具有滞后性。此外，同一滑坡在不同的演化阶段，其内部岩土体结构及物理力学性质处于不断变化中，相同的外界条件在不同时期作用于同一滑坡，其响应机制存在较大差异。因此，在对滑坡影响因素进行分析时，必须要考虑前期位移的影响。白家包滑坡的变形也主要受到库水位的调动以及雨季强降雨的影响。

由图11可知，近年来，ZG326监测点位移变化最为显著，以该点监测数据为例进行详细分析。S001、首先收集滑坡累计位移监测资料与数据，对收集到的数据进行预处理，去除数据中的噪声，以预处理后的数据为研究对象，使用VMD(变分模态分解)对其进行分解，得到多个IMF分项和一个残余项R。将多个IMF分项相加得到位移波动项，残余项R即视为趋势项位移。

本实施例中，对滑坡累计位移时间序列进行VMD分解时，分解过程中所涉及的参数模态数K，首先从小到大预设其取值，重复实验，当最后一层IMF分项的中心频率保持相对稳定时，认为此时K值最佳；惩罚因子α可根据样本熵值最小原则进行选择，本实例经过实验后确定K＝4，α＝2000，相关系数阈值τ选取默认值0.2，收敛次数ε取2000，白家包滑坡ZG326监测点累计位移时间序列经过VMD分解后的各IMF项和R项如图2所示；如图3所示，将各IMF项叠加得到波动项位移，残余项R视为位移趋势项。

S002、由于趋势项位移较为平缓且接近线性，直接利用多项式对其进行拟合，然后利用最小二乘法对其进行预测，以此建立滑坡趋势项位移预测模型。按8:4的比例将本实施例中趋势项位移时间序列划分为训练样本集和备用样本集，将备用集最后12组样本数据视为测试集，其余数据皆为误差生成集，利用多项式对训练集样本进行拟合，然后利用最小二乘法对误差生成集样本进行预测，预测结果如图4所示。本实施例中所有预测均为动态预测，即每次只针对一个预测时刻进行预测，在对下一时刻进行预测前，将上一时刻监测到的实际位移数据纳入训练集，重新对模型进行训练，利用重新训练后的模型对下一时刻位移进行预测。

S003、收集滑坡位移监测期对应的降雨与库水位高程数据，首先对数据进行预处理，通过计算得到前两个月降雨量J1，前一个月降雨量J2，当前月降雨量J3；前两个月库水位变化值K1，前一个库水位变化值K2，当月库水位变化值K3，本实施例只考虑库水位下降的情况，当库水位上升时视为0。将以上六个影响因子作为初选因子分别与对应的位移波动项建立不同的Copula模型，典型的Copula函数主要包括正态Copula和t-Copula；GumbelCopula、Clayton Copula和Frank Copula函数。采用AIC信息准则法和BIC信息准则法分别为各因子与波动项选择最优的Copula函数，本实施例中，对于每组变量建立的模型，GumbelCopula函数的AIC与BIC值最小，因此，本实施例选择Gumbel Copula作为相关性分析的模型函数。

在Matlab软件中计算基于Gumbel Copula函数建立各初选因子与波动项间的相关性系数如表1所示。

表1 Gumbel Copula模型相关系数

根据表1可知，六项初选因子均与波动项间具有一定的相关性，根据相关性越大越优原则，选择前一个库水位变化值K2，当月库水位变化值K3、前两个月降雨量J1、前一个月降雨量J2作为最终确定的有效影响因子。

将所得有效影响因子作输入参数，将所得位移波动项作输出参数，建立KELM模型，对位移波动项进行预测。核极限学习机是在极限学习机的基础上引入支持向量机中核函数的技术，使用稳定的核映射代替原本的随机映射，增强了模型的稳定性和泛化能力。将数据按8:4的比例划分为训练样本集和误差生成样本集，再将备用样本集中最后12组样本作为测试集，其他样本作为误差生成集。首先利用训练样本集建立KELM模型，采用径向基函数作为本实施例的核函数。将误差生成集中各样本的影响因子数据输入经过训练后的KELM模型对其进行预测。计算的到波动项位移预测结果如图5所示，选用拟合度R²以及均方根误差RMSE为评价指标对KELM预测结果进行评价，计算得到R²为0.884，RMSE为12.6732，以此证明KELM对波动项位移的预测效果较好。

S004、以误差＝实际值-预测值来计算各项的预测误差，定义滑坡位移预测误差ε为某一时间点滑坡位移实际测量值y和预测值

之间的偏差与实际位移值的比值：

分别根据S002步和S003预测的滑坡位移值计算各分项位移误差生成集中对应各点的预测误差。由于得到的误差样本量太小，采用工程类比法对S004中预测误差进行补充。该滑坡中与ZG326监测点相邻的ZG323、ZG324及ZG325监测点，其布置时间、监测手段及外界影响因素皆与ZG326监测点相同，即四个监测点各分项位移预测结果具有相同的不确定来源，即处于同一岩土工程系统、监测系统相同、预测模型相同，因此可以对其他三个监测点位移采取同样的方法进行预测，并利用其对应各位移分项误差生成集的预测误差对ZG326监测点各位移分项误差生成集进行补充。

本实施例中，各监测点点获得的样本数据大小为156，按8:4进行划分，备用数据集大小为52，其中误差生成集大小为40,。经过补充后的ZG326监测点误差生成集大小为160。

S005、高斯分布概率密度函数为：

式中，x为样本点，μ为样本均值，σ²为样本方差；

t分布概率密度函数为：

式中，ν为自由度，μ，σ分别为期望和标准差，若

y服从自由度为ν的t分布。

两者进行混合后的模型概率密度函数为：

采用高斯-t混合分布对经过补充后的各分项位移误差概率密度函数进行最小二乘法拟合，从而确定先验分布中有关参数的取值，拟合结果如图6所示，得到其相应的组合概率密度函数。利用KELM对该滑坡各分项位移进行预测时，预测结果的误差总体上符合高斯分布，但其拟合程度与高斯-t混合分布相比不够高，因此，本文选用高斯-t混合分布作为误差的先验分布模型。

根据拟合后得到的先验分布概率密度函数来求取对应的累计概率分布函数：

由此来计算下一预测时刻预测点各分项位移在95％置信水平下的参数法预测区间：

另外，将所得趋势项位移预测区间与波动项位移预测区间叠加起来得到ZG326监测点总位移的参数法预测区间，结果如图7所示。

S006、由于滑坡位移变化存在较大的随机性且预测过程也有一定的偶然性，位移的预测误差分布很难完全符合先验分布的形式，假设预测误差服从某种特定先验分布的区间预测方法具有局限性，预测精度不佳。核密度估计，对误差分布进行估计时不增加任何先验假设，而是直接根据真实的误差数据对其概率密度函数进行拟合，具有更强的适用性。

考虑到核密度估计主要是依靠一个移动窗口进行，窗口宽度直接决定核密度估计的精度，若不考虑窗口宽度的大小则会严重影响该预测方法的性能。若窗口宽度过小，则会造成分布结果极其不稳定；反之，若宽度较大，就会降低结果的判别率，丢失数据包含的一些信息。正常情况下，窗宽会随着总样本数量的增加而减小，在给定样本数量的情况下，必须找到最佳的窗宽使该方法的稳定性和判别率同时达到最优。

根据误差生成集的真实误差数据利用核密度估计法对各分项预测位移误差进行概率密度函数估计，

式中，n为总样本数量，h为窗宽，X_i为给定的样本，K(·)为核函数。选择高斯函数作为核函数，采用改进后的插入法对h进行选择，

式中k₂＝∫t²K(t)dt。

根据得到的概率密度函数计算对应的累计概率分布函数，以此计算下一预测时刻各分项位移在95％置信水平下的非参数法预测区间，

另外，将所得趋势项位移预测区间与波动项位移预测区间叠加起来得到ZG326监测点总位移的非参数法预测区间，结果如图8所示，该结果用于与本发明的准确性进行对比。

S007、根据公式，

将得到的各位移项的参数法预测区间与得到的非参数法预测区间进行组合，该步骤中，采用差分进化算法，以区间评价宽度范围综合指标CWC：

CWC＝PINAW[1+γPICPe^-η(PICp-μ)]

式中，PINAW为预测区间平均宽度；PICP为预测区间覆盖率；γ为布尔型变量，当PICP＞μ时，γ＝0，此时消除指数项，反之γ＝1，保留指数项；η为控制参数，为放大PICP与的μ区别，η一般取较大值，本实施例取30；μ为置信区间，本实施例取95％。将CWC作为适应度对λ进行寻优，设置种群规模为40，放大因子为1，最大迭代数为100，其他参数为默认值，在Matlab2014b中运行，经过100次迭代得到最优权系数为0.448。将分别组合后的趋势项预测区间与波动项预测区间叠加，得到累计位移预测区间。以此计算得到最终的组合预测区间，并如图9所示。

通过比对图7、图8以及图9，参数预测区间虽然覆盖率较高，但其带宽也相对较大，区间预测的准确性较低。而非参数预测的区间带宽明显较窄，具有较高的准确度，但其对实际位移的覆盖率较低，即预测区间可靠性较差。两者均无法在实现准确性的同时保证预测区间的可靠性，且存在较为突出的互补特征。而通过差分进化算法将两者进行结合得到的组合预测区间比参数法预测区间具有更高准确性的同时且比非参数法预测区间更为可靠，以此证明该方法具有较大的实际意义。

为进一步讨论各模型的预测性能，更加直观地体现本发明的预测的优势。以PINAW、PICP、CWC为评价指标对上述三种方法所得预测区间进行评价，对比结果如图10所示。可知，组合法预测区间较参数法预测区间带宽更窄的同时较非参数法预测区间覆盖率更高，即在对滑坡位移的预测误差分布进行估计时，参数法和非参数法各有优劣，且能够在一定程度上进行互补，将两者所得区间进行有效结合能够大大提高区间性能。

以上所述仅为本发明的优选实施例，并不用于限制本发明，显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于机器学习和概率理论的滑坡区间预测方法，其特征在于：包括以下步骤，S001、使用VMD分解技术将滑坡累计监测位移时间序列数据分解为多个IMF分项和一个残余项R，将各IMF分项叠加得到位移波动项，R视为位移趋势项；

S005、确立各位移项最符合其真实分布的先验分布概率密度函数，根据确定的先验分布概率密度函数求取对应的累积概率分布函数，以此计算得到各位移项被预测时刻对应的参数法预测区间；具体为，

高斯分布概率密度函数为：

，

式中，x为样本点，μ为样本均值，σ²为样本方差；

t分布概率密度函数为：

，

式中，为自由度，，分别为期望和标准差，若，y服从自由度为ν的t分布，

两者进行混合后的模型概率密度函数为：

，

采用高斯-t混合分布对经过补充后的各分项位移误差概率密度函数进行最小二乘法拟合，从而确定先验分布中有关参数的取值，

，

由此来计算下一预测时刻预测点各分项位移在95%置信水平下的参数法预测区间：

[，]=[]；

S006、根据趋势项和波动项误差数据拟合真实概率分布，以真实概率密度函数求取对应的累积分布函数，以此计算各分项位移被预测时刻对应的非参数法预测区间；具体为，根据误差生成集的真实误差数据利用核密度估计法对各分项预测位移误差进行概率密度函数估计，

，

式中，n为总样本数量，h为窗宽，为给定的样本，K（）为核函数，选择高斯函数作为核函数，采用改进后的插入法对h进行选择，

，

式中，

根据得到的概率密度函数计算对应的累计概率分布函数，以此计算下一预测时刻各分项位移在95%置信水平下的非参数法预测区间，

[，]=[]；

S007、将S005与S006得到的各位移项预测区间利用差分进化算法进行组合，以此得到趋势项和波动项各项最终预测区间，将趋势项最终预测区间与波动项最终预测区间叠加，得到累计位移预测区间；具体为，根据公式，

，

式中，PINAW为预测区间平均宽度；PICP为预测区间覆盖率；为布尔型变量，当时，，此时消除指数项，反之，保留指数项；为控制参数；为置信区间，将分别组合后的趋势项预测区间与波动项预测区间叠加，得到累计位移预测区间。

2.根据权利要求1所述的一种基于机器学习和概率理论的滑坡区间预测方法，其特征在于： S001中对滑坡累计位移时间序列进行VMD分解时，分解过程中所涉及的参数模态数K，首先从小到大预设其取值，重复实验，当最后一层IMF分项的中心频率保持相对稳定时，此时K值最佳；惩罚因子α根据样本熵值最小原则进行选择。

3.根据权利要求1所述的一种基于机器学习和概率理论的滑坡区间预测方法，其特征在于： S002中按8:4的比例将趋势项位移时间序列数据划分为训练样本集和备用样本集，将备用集最后12组样本视为测试集，其余数据皆为误差生成集，利用多项式对训练集样本进行拟合，然后利用最小二乘法对备用集样本进行预测。

4.根据权利要求1所述的一种基于机器学习和概率理论的滑坡区间预测方法，其特征在于：S003中收集滑坡位移监测期对应的降雨与库水位高程数据，首先对数据进行预处理，通过计算得到前两个月降雨量J1，前一个月降雨量J2，当前月降雨量J3；前两个月库水位变化值K1，前一个库水位变化值K2，当月库水位变化值K3，将以上六个影响因子作为初选因子分别与对应的位移波动项建立不同的Copula模型， Copula函数包括正态Copula和t-Copula；Gumbel Copula、Clayton Copula和Frank Copula函数，采用AIC信息准则法和BIC信息准则法分别为各因子与波动项选择最优的Copula函数。

5.根据权利要求1所述的一种基于机器学习和概率理论的滑坡区间预测方法，其特征在于： S003中选择Gumbel Copula作为相关性分析的模型函数。

6.根据权利要求1所述的一种基于机器学习和概率理论的滑坡区间预测方法，其特征在于：S003中按8:4的比例将波动项位移时间序列数据划分为训练样本集和误差生成样本集，再将备用样本集中最后12组样本作为测试集，其他样本作为误差生成集，首先利用训练样本集建立KELM模型，采用径向基函数作为核函数，将误差生成集中各样本的影响因子数据输入经过训练后的KELM模型对其进行预测。

7.根据权利要求1所述的一种基于机器学习和概率理论的滑坡区间预测方法，其特征在于：S007中以能够使预测区间同时达到最高的覆盖率和最窄的带宽为原则，分别为各位移项寻找确定其最优的组合区间参数。

8.根据权利要求7所述的一种基于机器学习和概率理论的滑坡区间预测方法，其特征在于：S007中以区间评价综合指标CWC作为适应度对组合区间参数进行寻优，确定能够最大化区间预测性能的权重取值。

9.根据权利要求1所述的一种基于机器学习和概率理论的滑坡区间预测方法，其特征在于：采用工程类比法对S004中预测误差进行补充。