CN114970688A - 基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法 - Google Patents
基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法 Download PDFInfo
- Publication number
- CN114970688A CN114970688A CN202210508339.7A CN202210508339A CN114970688A CN 114970688 A CN114970688 A CN 114970688A CN 202210508339 A CN202210508339 A CN 202210508339A CN 114970688 A CN114970688 A CN 114970688A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- training
- lstmad
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
本发明公开了一种基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法。步骤包括:用S‑G滤波器对信号序列进行平滑处理;标准化消除数据量纲;利用LSTM模型训练深度神经网络参数及预测;选择[μ‑3σ,μ+3σ]范围内的数据作为异常数据并剔除;缺失值利用Hermite插值法对数据进行进一步的整理和修正。本发明通过将LSTMAD算法和Hermite插值法相结合,应用于岩土工程中滑坡监测数据预处理领域,一方面考虑到监测数据的不完备、噪声大的特点;另一方法弥补了已有传统方法所得数据缺失或误差性较大的缺点,为构建更为可靠的滑坡监测系统提供基础数据,有利于完善现有水库区滑坡智能安全监管系统。
Description
技术领域
本发明属于滑坡监测数据预处理技术领域,具体涉及一种基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法。
背景技术
水动力型滑坡是指在冰川融雪、降雨、水位变动、地表径流及地下水活动等水动力因素驱动下而发生的斜坡岩土体失稳灾害。基于水动力滑坡等带来的地质灾害已成为制约我国经济及社会可持续发展的一个重大问题,滑坡的危险性评价、后果影响分析和灾害防治工作是备受重视的热点研究课题之一。
实际工程针对滑坡变形开展现场监测的过程中,由于地质因素、人工干扰、仪器设备等其他外界因素的干扰,实际监测数据常常含有较多噪声。同时,受到气象、仪器等偶然环境因素及监测方案调整的影响,监测数据时间序列可能出现缺失、非等距等问题。此类问题会影响后续时间序列分析,对安全稳定分析工作造成影响。
针对现场监测数据筛除异常点、去除噪声,完善数据插值是开展后续研究的重要基础工作。
发明内容
本发明的目的在于提供一种基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法,解决现有技术中滑坡监测数据的不准确的技术问题。
为了解决上述技术问题,本发明采用如下方案实现:
基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法,包括如下步骤:
(1)利用S-G滤波器,结合工程实际构建相应的滤波函数,对信号序列进行平滑处理;
(2)在实际滑坡监测问题中,监测变量种类繁多且测量单位常有不同。因此利用无量纲化处理方法中的标准化处理方法,将原始数据转换为无量纲、无数量级差异的标准数据,从而使得数据更具有可比性;
(3)在训练LSTM模型前,为提高预测精度和降低对数据的依赖程度,对原始时间序列进行预处理,基于LSTM模型训练深度神经网络参数及预测;
(4)利用步骤(3)所得的已训练后的模型进行数据筛查,构建正态分布模型,为保证数据准确度大于95%,选择[μ-3σ,μ+3σ]范围外的数据作为异常数据并剔除,其中μ为模型均值(数据样本通过训练所得训练值与实际观测值之差,即预测误差值error的均值),σ为模型标准差;
(5)缺失值利用分段三次Hermite插值法对数据进行进一步的整理和修正。
具体的,步骤(1)中,其中,假定一列数据以矩阵的形式,构建X[x],X=[-n,-n+1,…,0,…,n-1,n],该样本有2n+1个数据。从k=0开始,采用k次多次式依次拟合计算,拟合关系为:
其中,P(x)为该数据拟合后的关系式,M为该数据集中数据总个数(即M=2n+1)。对数据进行拟合时,假定该数据是一个关于x的多次多项式,ak为拟合时x的k次项的系数。
利用最小二乘法求得拟合残差:
其中,εN为拟合残差。
若数据残差满足设定要求,则输出滤波后结果:
y[x]=p(x)=ax;
其中,y[x]为输出结果,即滤波后输出的每一个新的拟合数据为拟合关系式中对应项的系数ak。
上述步骤(3)中,该模型主要参数包括:神经网络层数、每一层神经网络中的细胞单元个数、用于划分数据集的滑动窗口长度等。
对LSTM模型进行训练:用一个长度为L的滑动窗口对数据集进行划分,利用其中一个子序列STSj,STSj=[tj,tj+1,…,tj+L-2,tj+L-1],将序列中的最后一个数据点作为期望值用于优化模型的预测误差,即认为所预测的第j+L-1数据近似为训练所得对应数据Y*。
具体关系为:xj+L-1≈Y*=F(STSj(1:L-1)),
其中,j表示该数据为训练数据集中的第j个数据。
上述步骤(4)中,异常数据的计算步骤:分割测试集数据,同时计算预测误差和拟合误差;将序列片段输入到已经训练好的模型中(依据上述具体关系)进行预测计算,得到相对于观测值的预测结果并计算预测误差值;将预测误差值较小的数据剔除,剩余值拟合为正态分布模型,保证95%的准确度,选择[μ-3σ,μ+3σ]范围外的数据作为异常数据并剔除,其中μ是模型均值,σ是模型的标准差。
现有技术相比,本发明的有益效果如下:
本发明通过将LSTMAD算法和Hermite插值法相结合,应用于岩土工程中滑坡监测数据预处理领域,一方面考虑到监测数据的不完备、噪声大的特点;另一方法弥补了已有传统方法所得数据缺失或误差性较大的缺点,为构建更为可靠的滑坡监测系统提供基础数据,有利于完善现有水库区滑坡智能安全监管系统。
附图说明
图1为本发明所述基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法的流程图;
图2为LSTMAD算法流程图;
图3为观测值与预测值的比较图;
图4为day-error关系图;
图5为训练进度示意图。
具体实施例方式
下面结合附图和实例对本发明做进一步描述。
本实施例获取某滑坡某一点从2016年9月5日起连续500天的监测数据,建立相应的数据集,其中以每天对应的水平位移作为所需处理的数据。
如图1所示,一种基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法,包括以下步骤:
步骤1,利用S-G滤波器,结合工程实际构建相应的滤波函数,对信号序列进行平滑处理。
步骤2,标准化消除数据量纲。
将实施例数据集yssj以矩阵的形式导入MATLAB,yssj包含一个序列,其时间序列对应于天数,数值对应于水平位移。将数据重构为行向量。由于监测数据是离散的散点数据,为了降低由于单位和性质不统一导致的数据过分离散情况,将观测值标准化为零均值和单位方差。在预测时,使用与观测值相同参数来标准化测试数据。
步骤3,构建异常数据处理模型。
步骤3.1,定义LSTM网络架构:
制定LSTM层有200个隐含单元,将求解器设置为adam,并进行200训练,指定初始学习率为0.005,在100轮训练后通过乘以因子0.2来降低学习率。
步骤3.2,训练LSTM网络。
使用MATLAB中的trainNetwork命令以指定的训练选项训练LSTM网络,其中对训练数据和测试数据进行分区,序列的前90%用于训练,后10%作为测试数据,用于测试。对于大型数据集合、长序列或大型网络,在GPU上进行预测计算效率更高。其他情况下,在CPU上效率更高。在本实施例中,采用CPU。
利用工程实际观测值,推测数据规律,拟合出初始预测值,通过MATLAB自带的数据分析和优化功能,对初始数据进行简单修正后,再借助初始预测值和观测值优化该训练模型,多次循环,最终输出观测值和预测误差值。分析通过模型训练得到预测值YPred、观测值YTest、均方根误差rmse和预测误差值error。其中预测误差值error与预测值YPred、观测值YTest有以下关系:
error=YPred-YTest;
训练进程图见图5,该图整体可以分为左右两个部分,其中左侧上部图为均方根误差rmse与循环训练次数对应的关系曲线,其中,横轴为循环训练次数,纵轴为均方根误差rmse值。
左侧下部图为损失值与循环训练次数对应的关系曲线,其中,横轴为循环训练次数,纵轴为损失值。
图5中右侧以数据和文字的形式直观反映该训练进行时的循环所在轮数、开始时间、总计时间、周期、进程等数据,本实施例中进行200轮循环训练。
步骤3.3,通过MATLAB将预测值YPred与测试数据进行比较,从而得出预测误差值error。其中图3包含两条折线,实折线为观测值,点折线为预测值,图3横坐标为参与训练的数据天数day,由下文可知异常点为day=14点,即取前100号点展示,利用空间距离较为直观的反应同一时间两个数据间的差距;图4为预测误差值error,(图3同一时间对应点的残值),在数值上直观的反应预测值和观测值间的数量关系。通过图4可以初步判断异常数据,其中error数值绝对值较大的点异常的可能性较大。
步骤4,筛选并剔除异常数据。
预测误差值error代表了模型预测值与实际观测值的偏离程度,依据预测误差值构建正态分布模型,为保证数据准确度大于95%,选择[μ-3σ,μ+3σ]范围内的数据作为异常数据并剔除,其中μ是模型均值,σ是模型的标准差。通过LSTM模型得,本实施例中的day=14点为异常数据点。由于数据集较为庞大,只展示前五十天数据(预测值YPred、观测值YTest、预测误差值error)如下表1所示,其中YPred、YTest为标准化后数据。
表格1部分数据
步骤5,利用Hermite插值法完善数据。
将剔除异常数据后的原始监测数据定义为一个新的数据集,并以列向量的形式导入MATLAB中,进行分段三次Hermite插值(PCHIP)。在本实施例中,day=14点为异常数据点,因此取[10,20]区间进行插值计算,其中以0.2为插值间隔,得到一个新的测试集集合YTest,确定day=14点的新预测值,该值与预测值的误差符合要求。
以上所述的实施例仅用于说明本发明的技术思想和特点,其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施,不能仅以本实施例来限定本发明的专利范围,即凡本发明所揭示的精神所作的同等变化或修饰,仍落在本发明的专利范围。
Claims (6)
1.基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法,其特征在于,包括以下步骤:
步骤(1):利用S-G滤波器,结合工程实际构建相应的滤波函数,对监测数据信号序列进行平滑处理;
步骤(2):对经过平滑处理的监测数据进行标准化消除数据量纲;
步骤(3):构建异常数据处理模型并进行训练;
步骤(4):筛选并剔除异常数据;
步骤(5):利用Hermite插值法完善数据。
2.根据权利要求1所述的基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法,其特征在于,所述步骤(1)中,设定一列数据以矩阵的形式,构建X[x],X=[-n,-n+1,…,0,…,n-1,n],该样本有2n+1个数据,n为正整数;
从k=0开始,采用k次多次式依次拟合计算,拟合关系为:
其中,P(x)为该数据拟合后的关系式,M为该数据集中数据总个数,即M=2n+1;
对数据进行拟合时,假定该数据是一个关于x的多次多项式,ak为拟合时x的k次项的系数;
利用最小二乘法求得拟合残差:
其中,εN为拟合残差;
若数据残差满足设定要求,则输出滤波后结果:
y[x]=p(x)=ax;
其中,y[x]为输出结果,即滤波后输出的每一个新的拟合数据为拟合关系式中对应项的系数ak。
3.根据权利要求1所述的基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法,其特征在于,所述步骤(3)中,包括:
步骤3.1:定义LSTM网络架构,对原始时间序列进行简单处理;
步骤3.2:利用LSTM模型训练深度神经网络参数及预测,该模型主要参数包括:神经网络层数、每一层神经网络中的细胞单元个数和用于划分数据集的滑动窗口长度;
用一个长度为L的滑动窗口对数据集进行划分,分为不同的子序列,利用其中一个子序列STSj进行训练,STSj=[tj,tj+1,…,tj+L-2,tj+L-1],将序列中的最后一个数据点作为期望值用于优化模型的预测误差,即认为所预测的第j+L-1数据近似为训练所得对应数据Y*;其中,j表示该数据为训练数据集中的第j个数据,j为正整数。
4.根据权利要求3所述的基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法,其特征在于,所述步骤3.2中,使用MATLAB中的trainNetwork命令以指定的训练选项训练LSTM网络,其中对训练数据和测试数据进行分区,序列的前90%用于训练,后10%用于测试;
利用工程实际观测值,推测数据规律,拟合出初始预测值,通过MATLAB自带的数据分析和优化功能,对初始数据进行简单修正后,再借助初始预测值和观测值优化该训练模型,多次循环,最终输出观测值和预测误差值;分析通过模型训练得到预测值YPred、观测值YTest、均方根误差rmse和预测误差值error;其中预测误差值error与预测值YPred、观测值YTest有以下关系:
error=YPred-YTest。
5.根据权利要求1所述的基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法,其特征在于,所述步骤(4)中,利用步骤(3)将序列片段输入到已经训练好的模型中进行预测计算,得到相对于观测值的预测结果,并计算预测误差值;依据预测误差值拟合正态分布模型,选择[μ-3σ,μ+3σ]范围外的数据作为异常数据并剔除,其中μ是模型均值,σ是模型的标准差。
6.根据权利要求1所述的基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法,其特征在于,所述步骤(5)中,将剔除异常数据后的原始监测数据定义为一个新的数据集,并以列向量的形式导入MATLAB中,进行分段三次Hermite插值PCHIP。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210508339.7A CN114970688A (zh) | 2022-05-10 | 2022-05-10 | 基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210508339.7A CN114970688A (zh) | 2022-05-10 | 2022-05-10 | 基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114970688A true CN114970688A (zh) | 2022-08-30 |
Family
ID=82981200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210508339.7A Pending CN114970688A (zh) | 2022-05-10 | 2022-05-10 | 基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970688A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116165353A (zh) * | 2023-04-26 | 2023-05-26 | 江西拓荒者科技有限公司 | 一种工业污染物监测数据处理方法及系统 |
CN117421937A (zh) * | 2023-12-18 | 2024-01-19 | 山东利恩斯智能科技有限公司 | 基于s-g算法抑制传感器随机振动信号零漂趋势的方法 |
CN117743808A (zh) * | 2024-02-20 | 2024-03-22 | 中铁西南科学研究院有限公司 | 一种隧道变形预测方法、系统、设备及介质 |
CN117789999A (zh) * | 2024-02-27 | 2024-03-29 | 济宁医学院附属医院 | 一种医疗健康大数据优化采集方法 |
-
2022
- 2022-05-10 CN CN202210508339.7A patent/CN114970688A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116165353A (zh) * | 2023-04-26 | 2023-05-26 | 江西拓荒者科技有限公司 | 一种工业污染物监测数据处理方法及系统 |
CN117421937A (zh) * | 2023-12-18 | 2024-01-19 | 山东利恩斯智能科技有限公司 | 基于s-g算法抑制传感器随机振动信号零漂趋势的方法 |
CN117421937B (zh) * | 2023-12-18 | 2024-03-29 | 山东利恩斯智能科技有限公司 | 基于s-g算法抑制传感器随机振动信号零漂趋势的方法 |
CN117743808A (zh) * | 2024-02-20 | 2024-03-22 | 中铁西南科学研究院有限公司 | 一种隧道变形预测方法、系统、设备及介质 |
CN117743808B (zh) * | 2024-02-20 | 2024-05-14 | 中铁西南科学研究院有限公司 | 一种隧道变形预测方法、系统、设备及介质 |
CN117789999A (zh) * | 2024-02-27 | 2024-03-29 | 济宁医学院附属医院 | 一种医疗健康大数据优化采集方法 |
CN117789999B (zh) * | 2024-02-27 | 2024-05-03 | 济宁医学院附属医院 | 一种医疗健康大数据优化采集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114970688A (zh) | 基于LSTMAD算法和Hermite插值法的滑坡监测数据预处理方法 | |
CN111508216B (zh) | 一种大坝安全监测数据智能预警方法 | |
CN101863088B (zh) | 一种橡胶混炼过程中门尼粘度的预报方法 | |
CN111639783A (zh) | 一种基于lstm神经网络的线损预测方法及系统 | |
CN110569566B (zh) | 一种板带力学性能预测方法 | |
CN105571645A (zh) | 一种大坝自动化监测方法 | |
CN115034129B (zh) | 一种面向火电厂脱硝装置的NOx排放浓度软测量方法 | |
WO2021114320A1 (zh) | 一种oica和rnn融合模型的污水处理过程故障监测方法 | |
CN113988210A (zh) | 结构监测传感网失真数据修复方法、装置及存储介质 | |
CN111754034A (zh) | 一种基于混沌优化神经网络模型的时间序列预测方法 | |
CN112100574A (zh) | 一种基于重采样的aakr模型不确定度计算方法及系统 | |
CN111860839A (zh) | 基于多信号融合及Adam优化算法的岸桥故障监测方法 | |
CN114358435A (zh) | 双阶段时空注意力机制的污染源-水质预测模型权重影响计算方法 | |
CN110990938B (zh) | 一种掌子面在掘岩体状态软测量方法 | |
CN117029968A (zh) | 一种流量数据的诊断方法、系统、存储介质和电子设备 | |
CN114548494B (zh) | 一种可视化造价数据预测智能分析系统 | |
CN115099464A (zh) | 一种基于油嘴模型流量系数预测的油井产量预测方法 | |
CN1996192A (zh) | 基于仿生智能的工业软测量仪表及软测量方法 | |
CN114139446A (zh) | 一种用于特殊精馏过程组分在线检测软测量方法 | |
CN110196456A (zh) | 一种基于相似年灰色关联分析的中长期降雨径流预报方法 | |
CN108204997A (zh) | 常一线油闪点在线软测量方法 | |
CN117743782A (zh) | 一种基于时变系数的大坝结构性态平稳性分析方法及系统 | |
CN117874655A (zh) | 考虑多重影响因素的动态大坝安全监控指标拟定方法 | |
CN110909492B (zh) | 一种基于极端梯度提升算法的污水处理过程软测量方法 | |
CN112949816A (zh) | 一种基于ann的静力水准仪异常数据识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |