CN116205318A - 一种基于lstm的时间序列滑坡数据预测方法 - Google Patents
一种基于lstm的时间序列滑坡数据预测方法 Download PDFInfo
- Publication number
- CN116205318A CN116205318A CN202111551420.5A CN202111551420A CN116205318A CN 116205318 A CN116205318 A CN 116205318A CN 202111551420 A CN202111551420 A CN 202111551420A CN 116205318 A CN116205318 A CN 116205318A
- Authority
- CN
- China
- Prior art keywords
- landslide
- data
- network
- lstm
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
本发明公开了一种基于LSTM的时间序列滑坡数据预测方法。该发明在时间序列数据上具有一定的通用性,该专利以滑坡数据为说明案例。滑坡数据主要包括地表压力、比湿度、地表径流、降雨、根位土壤湿度、平均温度、蒸腾作用、风速、纵横面、坡度和高程,针对滑坡数据的预测,其准确度比较低的情况,使用长期短期神经网络(LSTM)对某地区的滑坡进行了预测,其所开发的模型准确率超过了95%。针对模型中存在的泛化问题,收集更多的真实滑坡事件数据,从而提高模型的泛化能力。
Description
技术领域
本发明涉及深度学习关于时间序列预测领域,针对滑坡地质灾害数据预测技术。
背景技术
滑坡属于突发自然灾害类,其所产生的破坏不仅局限于山区,还进入了邻近的建筑,如房屋和道路。该灾难会夺取许多人的生命,其中一些人无家可归,影响他们的生计。山体滑坡造成的破坏的激增,引起了全球许多研究人员对开发滑坡灾害早期预测系统的关注。通过适当开发的监测系统,可以预先预测滑坡发生的可能性。它将有助于采取必要的措施来控制和减轻山体滑坡对人类生命和经济造成的破坏。滑坡评价系统主要解决了两个问题:滑坡发生的时间、地点。然而,研究人员仍然难以准确预测即将到来的山体滑坡的时间和地点。这是因为山体滑坡是由几个因素引发的,如暴雨、地震、雪融化、洪水、火山或任何其他自然原因都会导致斜坡不稳定。此外,土壤和岩石的各种地形条件也增加了边坡的破坏。
计算机技术的发展,使得深度学习神经网络被广泛地应用到各个时间序列领域。现有的基于传统滑坡预测方法主要分为:
(1)基于知识的方法。利用分析层次结构过程开发滑坡预测模型,使用经验方法,如双变量、多变量和频率比等。
(2)基于主成分分析的方法。基于判别分析、确定因子和熵指数的滑坡预测。
(3)基于机器学习的方法。基于机器学习的方法主要为传统的机器学习算法。
大多数研究人员将滑坡预测视为一个静态回归问题。然而,滑坡的发生是由于各种影响因素的渐进变形和不稳定的结果,因此,简单地将其视为一个静态回归的问题并不是一个非常好的预测方法。随着深度学习的不断进步和发展,其在工业领域的应用越来越广泛,包括在时间序列数据预测方面,如交通流量的预测、空气污染的预测和金融数据的预测等。但是关于深度学习在滑坡数据方面的预测上的研究并不是非常多,另外,预测结果的精度一直以来也是长期关注的问题。
本发明就是着力于解决时间序列滑坡数据的预测和预测结果的精度问题。本发明在时间序列数据预测领域有一定的通用性,并针对LSTM网络的泛化能力做出了改进。
发明内容
为了克服上述现有技术的不足,本发明提出了一种基于LSTM的时间序列滑坡数据预测方法。该技术引用了深度学习中的关于时间序列数据预测比较常用的长短期记忆神经网络(如附图1所示),并针对模型的泛化问题对LSTM进行了进一步的改进。
本发明所采用的技术方案是:
步骤1:数据预处理。消除异常值:将不符合标准的滑坡事件数据从数据集中删除。特征缩放:需要将所有特征带到相同的规模,这样一个特征就不会仅仅因为它的大小而比另一个更影响学习过程。类权重:训练过程中将权重设置为 50。
步骤2:数据的窗口化。为了充分利用时间序列数据的潜力,将数据转换为一个有监督的学习问题的形式
步骤3:数据分割。将数据集分成70%的训练集和15%的验证集,剩下15%的数据用于测试网络的性能。
步骤4:LSTM网络参数的选择。层数是根据一个可能的经验法则选择的。隐藏层可以是推广神经网络性能的一个决定因素。
步骤5:山体滑坡预测有两类:山体滑坡正类,和没有山体滑坡负类。使用骰子系数和计算模型的精度。
步骤6:评价指标。采用平均绝对误差和最大绝对误差来计算预测值和真实值之间的误差。
与现有技术相比,本发明的有益效果是:
(1)在滑坡数据预测精度上,能够达到更高的预测精度;
(2)对于网络的泛化问题,增加更多的滑坡事件数据能提高网络的泛化能力。
附图说明
图1为:长短期神经网络结构示意图。
图2为:网络参数细节图。
图3为:LSTM网络训练准确性的曲线
图4为:骰子系数的学习曲线
图5为:不同的评估指标图
具体实施方式
下面结合附图和公式对本发明进一步说明。
数据预处理。消除异常值:在收集的数据集中,很少有地点出现异常值,据报告显示,大多数夜间滑坡发生在中午12点左右。异常值通过仔细检查后,并通过在滑坡发生前设置9-12小时的降雨阈值来消除,将不符合标准的滑坡事件数据从数据集中删除。特征缩放。特征缩放是在向神经网络呈现数据之前的关键步骤之一。在机器学习中,需要将所有特征带到相同的规模,这样一个特征就不会仅仅因为它的大小而比另一个更影响学习过程。为了实现这一目标,使用 python中的sklearn预处理库缩放了所有参数。类权重。获得的数据集出现不平衡,大多数类值为“0”或没有滑坡。因此,为了避免在大多数类上的学习,我们在训练过程中将权重设置为50。
数据的窗口化。为了充分利用时间序列数据的潜力,将数据转换为一个有监督的学习问题的形式。每个窗口包括来自先前时间段的数据和要做的预测。对于实验,将时间延迟设置为6。这种数据安排使网络学习了6个时间段,并预测第7个时间段。以此类推,下一次数据输入为第2至第8个时间段,并预测第9 个时间段。
数据分割。将数据集分成70%的训练集和15%的验证集,剩下15%的数据用于测试网络的性能。
LSTM网络参数的选择。层数是根据一个可能的经验法则选择的。隐藏层可以是推广神经网络性能的一个决定因素。因此,应仔细决定隐藏层的数量。隐层数应为输入和输出单位之和的2/3倍,它复制到使用输入层作为过去的几小时,输出作为预测未来的时间(网络参数细节见附图2)。例如,如果必须用过去的24 小时来预测未来的一个小时的数据,则将使用(2/3)*25=17,17则可以是最优的选择。
山体滑坡预测有两类:山体滑坡正类,和没有山体滑坡负类。混淆矩阵的2x2 维数,真正数表示为TP,真阴性表示为TN,误报表示为FP和假负数FN(如附图5所示)。使用这些指标,我们可以使用骰子系数和计算模型的精度。骰子系数是使用公式1计算的,而精度使用公式2计算。
使用不同的时间滞后值包括2小时,4小时,6小时,8小时,16小时和24 小时。但是,对于所有的实验,未来预测时间设置为1。使用不同的批量大小,包括8,16,32和64。
回归损失函数在用于预测和预测,采用平均绝对误差(MAE),用于计算预测值和真实值的绝对差值,如公式3所示。
这里,y表示真实值,y^表示预测值,N代表实验数据的总数。mse是另一种常见的采用损失函数,如公式4所示。均方根损失函数计算公式如5所示。
二元分类损失的选择如公式6所示,骰子系数中的二元交叉熵系数损失函数如公式7所示,使用骰子系数损失来训练网络是是因为二元交叉熵损失不考虑阶级失衡。对于实验,进行测试和验证,使用70%的数据集用来训练,15%的进行验证和15%进行测试。
参数batch大小为8,time lag为24。通过设定参数后的LSTM网络进行训练和验证,达到了95.89%的准确率,而ANN只有95.26%
训练和验证的学习曲线如附图3和附图4所示.训练从95%的准确率开始,并且在训练过程中获得细微的改进。同样,训练骰子也以几乎80%开始,并且改善至82%左右。在测试验证的情况下,精度达到了95.89%。学习过程中,可以将更多山体滑坡事件添加到数据中。添加更多阳性案例将减少类不平衡以及提高 LSTM模型泛化性,从而更精确地描述滑坡演变的基本模式。提取的数据集来自包括NASA、TRMM、航天飞机雷达地形任务和全球土地数据同化系统在内的各种来源的山体滑坡预测,共12个参数包括表面压力、比湿度、表面径流、降雨、根部土壤湿度、平均温度、蒸腾作用、风速、坡度和海拔。其中,数据集有158 个山体滑坡事件,添加更多山体滑坡事件将进一步提高性能网络。
以上所述,仅为本发明的具体实施方式,本说明中所公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征或/和步骤外,均可以任何方式组合。
Claims (4)
1.一种基于LSTM的时间序列滑坡数据预测方法,其特征在于,包括以下步骤:
步骤1:数据预处理。消除异常值:在收集的数据集中,很少有地点出现异常值,据报告显示,大多数夜间滑坡发生在中午12点左右。异常值通过仔细检查后,并通过在滑坡发生前设置9-12小时的降雨阈值来消除,将不符合标准的滑坡事件数据从数据集中删除。特征缩放。特征缩放是在向神经网络呈现数据之前的关键步骤之一。在机器学习中,需要将所有特征带到相同的规模,这样一个特征就不会仅仅因为它的大小而比另一个更影响学习过程。为了实现这一目标,使用python中的sklearn预处理库缩放了所有参数。类权重。获得的数据集出现不平衡,大多数类值为“0”或没有滑坡。因此,为了避免在大多数类上的学习,我们在训练过程中将权重设置为50。
步骤2:数据的窗口化。为了充分利用时间序列数据的潜力,将数据转换为一个有监督的学习问题的形式。每个窗口包括来自先前时间段的数据和要做的预测。对于实验,将时间延迟设置为6。这种数据安排使网络学习了6个时间段,并预测第7个时间段。以此类推,下一次数据输入为第2至第8个时间段,并预测第9个时间段。
步骤3:数据分割。将数据集分成70%的训练集和15%的验证集,剩下15%的数据用于测试网络的性能。
步骤4:LSTM网络参数的选择。层数是根据一个可能的经验法则选择的。隐藏层可以是推广神经网络性能的一个决定因素。因此,应仔细决定隐藏层的数量。隐层数应为输入和输出单位之和的2/3倍,它复制到使用输入层作为过去的几小时,输出作为预测未来的时间(网络参数细节见附图2)。例如,如果必须用过去的24小时来预测未来的一个小时的数据,则将使用(2/3)*25=17,17则可以是最优的选择。
步骤5:山体滑坡预测有两类:山体滑坡正类,和没有山体滑坡负类。混淆矩阵的2x2维数,真正数表示为TP,真阴性表示为TN,误报表示为FP和假负数FN(如附表1所示)。使用这些指标,我们可以使用骰子系数和计算模型的精度。骰子系数是使用公式1计算的,而精度使用公式2计算。
步骤6:回归损失函数在用于预测和预测,采用平均绝对误差(MAE),用于计算预测值和真实值的绝对差值,如公式3所示。
步骤7:二元分类损失的选择如公式6所示,骰子系数中的二元交叉熵系数损失函数如公式7所示,使用骰子系数损失来训练网络是是因为二元交叉熵损失不考虑阶级失衡。对于实验,进行测试和验证,使用70%的数据集用来训练,15%的进行验证和15%进行测试。
步骤8:添加更多阳性案例即发生滑坡的数据将减少类不平衡以及提高LSTM模型泛化性,从而更精确地描述滑坡演变的基本模式,数据集中,其中有158个山体滑坡事件,添加更多山体滑坡事件将进一步提高性能网络。
2.如权利要求1所述方法,其特征在于,步骤5中的将滑坡事件进行划分的方法。
3.如权利要求1所述方法,其特征在于,步骤7中的采用二元交叉熵系数计算损失函数的方法。
4.如权利要求1所述方法,其特征在于,步骤8中的添加更多的负样本即真实的滑坡案例提高LSTM网络的泛化能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111551420.5A CN116205318A (zh) | 2021-12-21 | 2021-12-21 | 一种基于lstm的时间序列滑坡数据预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111551420.5A CN116205318A (zh) | 2021-12-21 | 2021-12-21 | 一种基于lstm的时间序列滑坡数据预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116205318A true CN116205318A (zh) | 2023-06-02 |
Family
ID=86508285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111551420.5A Pending CN116205318A (zh) | 2021-12-21 | 2021-12-21 | 一种基于lstm的时间序列滑坡数据预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116205318A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680647A (zh) * | 2023-08-04 | 2023-09-01 | 中科星图测控技术股份有限公司 | 一种用预处理数据建lstm网络进行卫星数据检测方法 |
-
2021
- 2021-12-21 CN CN202111551420.5A patent/CN116205318A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680647A (zh) * | 2023-08-04 | 2023-09-01 | 中科星图测控技术股份有限公司 | 一种用预处理数据建lstm网络进行卫星数据检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280553B (zh) | 基于gis-神经网络集成的山洪灾害风险区划及预测方法 | |
Farmani et al. | Pipe failure prediction in water distribution systems considering static and dynamic factors | |
CN111242351A (zh) | 基于自编码器和gru神经网络的热带气旋轨迹预测方法 | |
CN117009735A (zh) | 一种结合BiLSTM与核密度估计的高强度森林火灾发生概率计算方法 | |
CN114399235B (zh) | 一种基于雨情数据判定灾害风险等级的方法及系统 | |
CN116777079A (zh) | 一种基于贝叶斯层间结构模型的沙漠化侵扰灾害预测方法 | |
CN117152918A (zh) | 一种应用于区域滑坡灾害的危险性动态预警方法 | |
CN113985496B (zh) | 一种基于lstm-gm神经网络模型的风暴潮智能预报方法 | |
CN116205318A (zh) | 一种基于lstm的时间序列滑坡数据预测方法 | |
CN116227365A (zh) | 一种基于改进vmd-tcn的滑坡位移预测方法 | |
CN115688032A (zh) | 基于多源数据融合的台风灾害下电网风险预警方法及系统 | |
CN115877483A (zh) | 一种基于随机森林和gru的台风路径预报方法 | |
CN112434887A (zh) | 一种结合网络核密度估计和svm的供水管网风险预测方法 | |
CN111026790A (zh) | 一种基于数据挖掘的结构安全评估及预报方法 | |
CN116933920A (zh) | 一种矿山井下泥石流的预测预警方法及系统 | |
CN116415724A (zh) | 一种光伏电站运维检修时间的预测方法及装置 | |
Huang et al. | Landslide susceptibility evaluation using different slope units based on BP neural network | |
Ishfaque et al. | Trend analysis of hydro-climatological parameters and assessment of climate impact on dam seepage using statistical and machine learning models | |
Kalayathankal et al. | Ordered intuitionistic fuzzy soft model of flood alarm | |
CN113808370A (zh) | 一种面向滑坡的多指标耦合监测预警方法 | |
Tang et al. | Displacement prediction of rainfall induced landslide based on AdaBoost BP neural network | |
CN115018110A (zh) | 一种基于XGBoost的公路阻断损失预测方法及系统 | |
Wang et al. | Prediction of air particulate matter in Beijing, China, based on the improved particle swarm optimization algorithm and long short-term memory neural network | |
Ye et al. | Study on Dynamic Stability Prediction Model of Slope in Eastern Tibet Section of Sichuan‐Tibet Highway | |
Li et al. | Inverse analysis of deformation moduli for high arch dams using the displacement reconstruction technique and multi‐objective optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |