CN108647772A - 一种用于边坡监测数据粗差剔除的方法 - Google Patents
一种用于边坡监测数据粗差剔除的方法 Download PDFInfo
- Publication number
- CN108647772A CN108647772A CN201810443688.9A CN201810443688A CN108647772A CN 108647772 A CN108647772 A CN 108647772A CN 201810443688 A CN201810443688 A CN 201810443688A CN 108647772 A CN108647772 A CN 108647772A
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- telm
- model
- particle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012544 monitoring process Methods 0.000 title claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 65
- 239000002245 particle Substances 0.000 claims description 61
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 25
- 238000007781 pre-processing Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 8
- 230000008030 elimination Effects 0.000 abstract description 8
- 238000003379 elimination reaction Methods 0.000 abstract description 8
- 239000010410 layer Substances 0.000 description 27
- 238000002474 experimental method Methods 0.000 description 23
- 238000005457 optimization Methods 0.000 description 12
- 210000002569 neuron Anatomy 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000002356 single layer Substances 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于边坡监测技术领域,尤其涉及一种用于边坡监测数据粗差剔除的方法,包括如下步骤:S1、数据预处理:对需要粗差剔除的边坡检测数据进行预处理,获取特征数据;S2、建立预测矩阵:将S1中获取的特征数据分别输入m个PSO‑TELM模型,根据所述m个PSO‑TELM模型的输出结果,获得预测矩阵T;S3、剔除粗差数据:对预测矩阵T按列求均值得到新的矩阵T′=(a1,a2,…,an)1×n,再对矩阵T′求均值s和方差d;若T′中元素满足:ai‑s>d,(i=1,2,…n),则该剔除ai所对应的特征数据,反之,则保留ai所对应的特征数据,获得精确的边坡监测数据。本发明提供的用于边坡监测数据粗差剔除的方法,具有粗差剔除正确率高的有益效果。
Description
技术领域
本发明属于边坡监测技术领域,尤其涉及一种用于边坡监测数据粗差剔除的方法。
背景技术
为了保证边坡安全监测工作的质量和水平,监测数据分析是边坡工程安全监测工作中必不可少、不可分割的组成部分,进行安全监控、指导施工和改进设计方法的一个重要和关键性环节,在各类边坡工程的施工、运行等不同阶段都将发挥重要作用。本课题先通过对传统的粗差剔除方法,例如拉伊达法则,聚类分析法等进行分析,发现传统的处理方法存在明显的缺陷。同时基于传统方法的剔除思想,提出了ELM分类算法进行粗差剔除。首先通过对原始数据的均方误差进行分析,给原始的监测数据添加标签;随后通过监督训练的方式训练单层ELM模型,并用其他监测数据验证ELM模型的精确性和实用性。仿真结果表明,单层ELM分类算法具有比传统的粗差剔除方法更高的精度和准确度。但是通过多组数据的交叉验证发现,单层ELM模型的准确度达不到工业要求的标准。
发明内容
(一)要解决的技术问题
针对现有存在的技术问题,本发明提供一种用于边坡测量数据粗差剔除的方法,具有粗差剔除正确率高得到有益效果。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
一种用于边坡监测数据粗差剔除的方法,包括如下步骤:
S1、数据预处理:对需要粗差剔除的边坡检测数据进行预处理,获取特征数据;
S2、建立预测矩阵:将S1中获取的特征数据分别输入m个PSO-TELM模型,根据所述m个PSO-TELM模型的输出结果,获得预测矩阵T;所述预测矩阵T如下式所示:
所述预测矩阵T中每一行代表一个模型的预测输出,a为PSO-TELM模型的输出数据;
S3、剔除粗差数据:对预测矩阵T按列求均值得到新的矩阵T′=(a1,a2,…,an)1×n,再对矩阵T′求均值s和方差d;
若T′中元素满足:ai-s>d,(i=1,2,…n),则该剔除ai所对应的特征数据,反之,则保留ai所对应的特征数据,获得精确的边坡监测数据。
优选地,所述步骤S1包括:
运用欧几里得算法计算采集到的原始数据的所有变量数据间距离,其中,所述原始数据矩阵如下:
在d维数据向量空间中,给定具有N个数据变量X1,X2,...,XN,其中Xi={x1i,x2i,...,xdi}(i=1,2,…,N)写成数据矩阵形式:
Xi中每个数据到同一列向量中其它数据间的距离用dji表示;dqi和dhi是考虑多变量时的数据间的距离;
单变量情况时:xj,i表示数据矩阵Xd×N中第j行第i列的数据;
两个变量情况时:m为任意一个和q不相同的行,q和h代表数据矩阵的第q行和第h行,k代表数据矩阵的第k列;
三个变量情况时:
经过以上处理得到特征数据的数据矩阵如下式所示:
其中,d′为处理后数据的维度。
优选地,所述步骤S1还包括:
将特征数据矩阵X'd×N输入到由n个RBM限制玻尔兹曼机组成的DBN网络中进行进一步的特征提取,得到优化的特征数据。
优选地,所述步骤S1之前还包括:
S001、获取优化TELM模型参数:通过粒子群算法计算获得优化TELM模型参数;
S002、建立PSO-TELM模型:将S1中获取的参数对TELM模型进行优化,建立m个PSO-TELM模型,其中m为自然数。
优选地,所述步骤S001还包括如下子步骤:
S00101、初始化:随机训练得到权值和阈值,将权值和阈值范围作为粒子速度和位置寻优范围;
S00102、选择参数:种群规模M=12,最大迭代次数T=100,惯性权值ω=1,学习因子c1、c2,其中c1=c2=2,粒子维数D=3;
S00103、确定适值函数,计算每个粒子的适值,求出每个粒子的个体极值和全局极值;
S00104、更新粒子的速度和位置;
S00105、迭代,直到满足停止条件T=100时退出,得到最优TELM模型参数。
优选地,所述步骤S00104中的粒子通过下面的公式来更新速度和位置;
vi=vi+c1×rand()×(pbesti-xi)+c2×rand()×(gbesti-xi) (1)
xi=xi+vi (2)
公式(2)中,左边xi为更新后的粒子位置,右边xi为更新前粒子的位置;公式(1)和(2)中,i=1,2,3……N,N为此群中粒子的总数,vi为粒子速度,xi为粒子位置,c1和c2为学习因子,pbest为粒子的最优位置,gbest为整个种群的最优位置。
(三)有益效果
本发明的有益效果是:本发明提供的一种用于边坡检测数据粗差剔除的方法,具有粗差剔除正确率高得到有益效果。
具体地,本发明的数据粗差剔除方法解决了数据中误差的分布对剔除结果的影响、克服了传统方法针对多变量数据粗差剔除的精度不高的问题。因此,选用这种方法就能够更加方便地从大量的变量数据中把过失误差和正常的数据分离开来。对于ELM和TELM模型中随机初始化的输入权值和阈值对结果精度的影响的问题,本发明提出基于粒子群优化的TELM模型,粒子群优化具有相当快的逼近最优解的速度,可以有效的对系统的参数进行优化。粒子群算法的本质是利用当前位置、全局极值和个体极值3个信息,指导粒子下一步迭代位置。其个体充分利用自身经验和群体经验调整自身的状态是粒子群算法具有优异特性的关键。新的PSO-TELM模型解决了随机初始化问题对结果的影响,提高了算法的稳定性。
此外,粒子群优化具有良好的全局优化性能和收敛性能,保证了TELM的全局学习能力和新学习算法的收敛能力,更好地发挥TELM模型的优势。实际仿真的实验结果表明,基于粒子群优化的PSO-TELM模型具有更好的预测精度:粗差剔除正确率达到98%以上,平均误报率不超过3%。
附图说明
图1为本发明实施例中粒子群优化TELM算法流程图;
图2为本发明实施例中实验1中的测试集输出图;
图3为本发明实施例中实验1中的交叉集输出图;
图4为本发明实施例中实验1中的交叉集d1输出图;
图5为本发明实施例中实验1中的交叉集d2输出图;
图6为本发明实施例中实验2中的测试集输出图;
图7为本发明实施例中实验2中的交叉集输出图;
图8为本发明实施例中实验2中的交叉集d1输出图;
图9为本发明实施例中实验2中的交叉集d2输出图;
图10为本发明实施例中实验3中的测试集输出图;
图11为本发明实施例中实验3中的交叉集输出图;
图12为本发明实施例中实验3中的交叉集d1输出图;
图13为本发明实施例中实验3中的交叉集d2输出图;
图14为本发明实施例中一种用于边坡测量数据粗差剔除的方法的流程示意图。
图15为本发明实施例中DBN网络进行特征转换结构图;
图16为本发明实施例中RBM训练流程图;
图17为本发明实施例中实验4中的测试集输出图;
图18为本发明实施例中实验4中的交叉集输出图;
图19为本发明实施例中实验4中的交叉集d1输出图;
图20为本发明实施例中实验4中的交叉集d2输出图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
(一)方法
如图14所示:本实施例公开了一种用于边坡监测数据粗差剔除的方法,包括如下步骤:
S1、数据预处理:对需要粗差剔除的边坡检测数据进行预处理,获取特征数据;
本步骤中将会对从边坡监测设备中获取的监测数据进行初步的处理,将数据中的特征数据提取出来,用于进一步地数据粗差剔除。
S2、建立预测矩阵:将S1中获取的特征数据分别输入m个PSO-TELM模型,根据所述m个PSO-TELM模型的输出结果,获得预测矩阵T;该预测矩阵T如下式所示:
预测矩阵T中每一行代表一个模型的预测输出,a为PSO-TELM模型的输出数据;
本步骤中的模型为经过粒子群算法优化过的PSO-TELM模型,
S3、剔除粗差数据:对预测矩阵T按列求均值得到新的矩阵T′=(a1,a2,…,an)1×n,再对矩阵T′求均值s和方差d;
若T′中元素满足:ai-s>d,(i=1,2,…n),则剔除ai所对应的特征数据,反之,则保留ai所对应的特征数据,获得精确的边坡监测数据。
接下来本实施例还将提供详细地说明上述方法中步骤S1的详细方法步骤,具体如下所述:
所述步骤S1还包括:
运用欧几里得算法计算采集到的原始数据的所有变量数据间距离,其中,所述原始数据矩阵如下:
在d维数据向量空间中,给定具有N个数据变量X1,X2,...,XN,其中Xi={x1i,x2i,...,xdi}(i=1,2,…,N)写成数据矩阵形式:
Xi中每个数据到同一列向量中其他数据间的距离用dji表示;dqi和dhi是考虑多变量时的数据间的距离;
单变量情况时:xj,i表示数据矩阵Xd×N中第j行第i列的数据;
两个变量情况时:m为任意一个和q不相同的行,q和h代表数据矩阵的第q行和第h行,k代表数据矩阵的第k列;
三个变量情况时:
经过以上处理得到特征数据的数据矩阵如下所示:
其中,d′为处理后数据的维度。
为了获得更好的粗差剔除效果,这里还提供一种数据预处理的优化方案,具体如下所述:
将特征数据的数据矩阵X'd×N输入到由n个RBM限制玻尔兹曼机组成的DBN网络中进行进一步的特征提取,得到优化的特征数据。
详细地,DBN由RBM若干堆叠和一层神经网络结构组成,其模型结构如图15所示。训练时通过由底层到高层的逐层训练RBM来完成,首先RBM用原始特征输入数据训练,然后将底部抽取的特征作为上一层输入进行训练,重复以上过程,(其中,训练过程如图16所示:)训练结束后,还可以通过顶层反向传播算法对该模型进行微调。
这里还提供一个RBM限制玻尔兹曼机训练过程:(训练样本x0,权重矩阵W,显层偏置量a,隐层偏置量b,学习率ε,最大训练周期T)
p(vi=1|h)=sigmoid(ai+Wih)
其中,
步骤1、初始化显层神经元初始状态v1=x0,W,a,b为随机较小的数字。
步骤2、迭代训练周期t。
步骤3、通过显层v1计算隐层h1,具体为循环计算P(h1j=1|v1)值,并以该概率值为隐层第j个神经元取值为1的概率。(h1j代表第一个隐含层的第j个神经元)
步骤4、通过隐层h1计算显层v2,具体为循环计算P(v2i=1|h1)值,并以该概率值为显层第i个神经元取值为1的概率。(v2i代表第二个显层的第i个神经元)
步骤5、通过显层v2计算隐层h2,具体为循环计算P(h2j=1|v2)值,并以该概率值为隐层第j个神经元取值为1的概率。(h2j代表第二个隐含层的第j个神经元)
步骤6、按以下更新参数,公式如下:
a←a+ε(v1-v2)
b←b+ε(p(h1=1|v1)-p(h2=1v2))
步骤7、判断是否达到迭代次数,是则输出参数W,a,b,否转回步骤2。
通过上述方法优化后的特征数据输入模型能够提高粗差剔除的准确率和降低误报率。
综上,通过上述方法能够很简单地提取出本实施例中边坡监测数据的特征数据。
此外,在这里还提供一种上述方法步骤S2中PSO-TELM模型的建立方法具体如下所述:
本方法在实施例中应位于所述步骤S1之前,因此所述步骤S1之前还包括:
S001、获取优化TELM模型参数:通过粒子群算法计算获得优化TELM模型参数;
S002、建立PSO-TELM模型:将S1中获取的参数对TELM模型进行优化,建立m个PSO-TELM模型,其中m为自然数。
在这里通过上述方法步骤能够获得本实施例中需要的PSO-TELM模型。
另外需要说明的是:这里还提供一种详细的通过粒子群算法优化所述TELM模型参数的方法,具体步骤如下所示:
所述步骤S001还包括如下子步骤:
S00101、初始化:随机训练得到权值和阈值,将权值和阈值范围作为粒子速度和位置寻优范围;
S00102、选择参数:种群规模M=12,最大迭代次数T=100,惯性权值ω=1,学习因子c1、c2,其中c1=c2=2,粒子维数D=3;
S00103、确定适值函数,计算每个粒子的适值,求出每个粒子的个体极值和全局极值;
S00104、更新粒子的速度和位置;
S00105、迭代,直到满足停止条件T=100时退出,得到最优TELM模型参数。
通过上述方法步骤获取最优的TELM模型参数。
此外应说明的是:所述步骤S00104中的粒子通过下面的公式来更新速度和位置;
vi=vi+c1×rand( )×(pbesti-xi)+c2×rand( )×(gbesti-xi) (1)
xi=xi+vi (2)
公式(2)中,左边xi为更新后的粒子位置,右边xi为更新前粒子的位置;公式(1)和(2)中,i=1,2,3……N,N为此群中粒子的总数,vi为粒子速度,xi为粒子位置,c1和c2为学习因子,pbest为粒子的最优位置,gbest为整个种群的最优位置。
(二)对照实验
实验1、单独采用粒子群算法优化后的PSO-TELM模型
本实施例中用粒子群算法优化TELM的输入权值和阈值,将TELM的输入权值和阈值作为粒子群算法的粒子,以训练样本的均方误差(MSE)作为粒子群算法的适值函数,适值越小,预测值越精确,寻找到的输入权值和阈值就越优。粒子群算法优化TELM的算法步骤如下:
1)初始化,随机训练得到权值和阈值,参考权值和阈值范围作为粒子速度和位置寻优范围;
2)选择合适的参数,包括种群规模M(取12),最大迭代次数T(取100),惯性权值ω(取1),学习因子c1、c2(取c1=c2=2),粒子维数D(取3);
3)确定适值函数,计算每个粒子的适值,求出每个粒子的个体极值和全局极值;
4)更新粒子的速度和位置;
5)迭代,直到满足停止条件(到达最大循环次数)退出,得到最优TELM参数。算法流程如图1所示。
同样采用前面的训练和测试的数据,同时增加一些交叉验证数据,进行PSO-TELM建模训练和预测,下面列出正常预测和交叉验证的结果图的预测结果图。具体如图2至图5所示:
这里采用ELM的学习算法,利用最小二乘法快速求解输出权值矩阵而不是利用迭代调整的算法;同时采用PSO算法优化输入权值矩阵和隐含层偏差;该算法综合了ELM和PSO的优点:参数调整简单、全局最优性、泛化能力强。
表1优化模型测试集、验证集精度对比表
通过表1可以发现,PSO优化的TELM模型在训练时间和测试时间上相差不大,但是粗差剔除的正确率和模型的稳定性相比TELM模型差距不大。在误报率和数据均方误差方面,PSO-TELM模型明显低于传统的TELM模型。粒子群优化(PSO)是一种新兴的基于群体智能的启发式全局随机搜索算法,具有易理解、易实现、全局搜索能力强等特点。实验结果表明了该算法对于露天矿山边坡监测数据粗差剔除问题的可行性。
实验2、对边坡监测数据预处理后再采用PSO-TELM模型
在d维数据向量空间中,给定具有N个数据变量X1,X2,...,XN,写成数据矩阵形式:
欧几里得算法计算所有变量数据间距离。将矩阵中列向量表示为Xi={x1i,x2i,...,xdi}(i=1,2,...,N)。Xi中每个数据到同一列向量中其他数据间的距离用dji表示:
上述xji、xki表示同一列向量中两两互不相同的数据。
1)考虑单变量的影响:运用欧几里得公式求原始数据矩阵X(xi,yi,zi)中每一个维度数据的欧氏距离,得到一个新的矩阵X1(x′i,y′i,z′i)。
2)考虑多变量的影响:运用欧几里得公式求原始数据矩阵X(xi,yi,zi)中任意两个维度数据的欧氏距离,得到一个新的矩阵X2(x″i,y″i,z″i)。最后运用欧几里得公式求原始数据矩阵X(xi,yi,zi)中任意三个个维度数据的欧氏距离,得到一个新的矩阵X3(x″′i)。
最后将经过以上处理得到的3个数据矩阵合并成一个新的矩阵X′(x′i,y′i,z′i,x″i,y″i,z″i,x″′i)并替代原始的矩阵作为一下模型的输入。
同样采用前面的训练和测试的数据进行PSO-TELM建模训练,下面列出正常预测和交叉验证的结果图的预测结果图。具体如图6至图9:从图中可以看出,优化之后的模型的粗差剔除精度达到98%以上,平均误报率不超过3%。其中图8数据是不含有粗差的数据集。
表2预处理的优化模型测试集、验证集精度对比表
通过表2与表1的对比可以发现,带有边坡监测数据经过预处理后输入PSO-TELM模型后将拥有更高的粗差剔除的正确率和较低的误报率。由此可见,基于欧氏距离的数据预处理模型能够较好的消除数据在数量级上的差距并且将不同维度之间的关联体现的更加明显。
下表列出在60个不同模型中不同数据集的最优模型位置:
表3测试集和验证集的最优模型位置
从表3中可以看出,不同距离下的数据集对60个模型的适应度各不相同,因此在以后验证无标签的数据时可能得不到最优结果,因此需要对输出结果进行处理。因此本发明最后提出带有数据预处理的PSO-TELM的均值方差模型。
实验3、对边坡监测数据预处理后再采用PSO-TELM模型+均方差模型
由于不同数据集(监测点斜距存在差别)对模型的适应度不同,本实施例中采取同时优化训练60个PSO-TELM模型,应用这60个模型进行预测会得到预测矩阵每一行代表一个模型的预测输出。对预测矩阵T按列求均值得到新的矩阵T′=(a1,a2,…,an)1×n,再对矩阵T′求均值s和方差d,若T′中元素满足:ai-s>d,(i=1,2,…n),则该数据为需要剔除的特征数据,标签为2;其余不满足条件的特征数据为保留数据,标签为1。
同样采用前面的训练和测试的数据进行PSO-TELM建模训练,下面列出正常预测和交叉验证的60组平均-方差的预测结果图。具体如图10至图13所示:通过实验2和实验3中附图的对比可以看出,经过均值-方差处理后的粗差剔除精度依旧可以达到98%,误报率不超过3%。但是对于不含粗差数据的数据集该方法的误报率会明显提高,因此可以在数据集输入到模型之前进行数据集的均方误差检验,这样可以大幅度减小模型的误报率。数据集具体的时间、正确率和误报率如表4所示。图12中的数据不含有粗差。
表4预处理的优化模型测试集、验证集精度对比表
通过表3和表2的对比发现,带有数据预处理的PSO-TELM的均值方差处理模型拥有更高的准确率和适用性。只要最开始判断一组数据是否含有粗差,就可以避免图12的效果出现。
实验4、对边坡监测数据预处理后通过DBN网络进行特征转换再采用PSO-TELM模型+均方差模型
经过多次的模型测试,本实施例最终采用的DBN数据预处理模型是由2个RBM神经网络构成的,整个预处理的网络输入为经过范数处理的数据矩阵X′。第一个RBM神经网络的可见层节点数为7,隐含层节点数为12;第二个RBM神经网络可见层节点数为12,隐含层节点数为7。选取了5个不同监测点的监测数据,并且经过人工添加标签和数据范数处理形成DBN-PSO-TELM模型的输入。其中任意选取一点作为训练数据,剩余四个点的数据分别作为测试集数据和多个验证集数据用来测试模型的适用性。按照RBM和DBN网络的训练方法训练模型,模型最终的输出效果图如图17至图20所示:
从图17至图20中可以看出,带有DBN进行数据预处理的粗差剔除模型经过训练之后,粗差剔除的准确率达到100%,最大误报率为15%,平均误报率为5.6%,粗差剔除效果优于PSO-TELM模型。
表5 DBN预处理的优化模型测试集、验证集精度对比表
通过表5和表4之间的对比,可以看出:DBN预处理的优化模型无论在训练时间上或者是在正确率方面,都要明显优于其他粗差剔除模型;在误报率方面,也与其他模型大致相同。
最后应说明的是,表中的正确率=(被模型剔除且实际应该被剔除的点的个数)/(实际应该被剔除的点的个数);误报率=(被模型剔除且实际不需要剔除的点的个数)/(实际不需要剔除的点的个数)。
以上结合具体实施例描述了本发明的技术原理,这些描述只是为了解释本发明的原理,不能以任何方式解释为对本发明保护范围的限制。基于此处解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。
Claims (6)
1.一种用于边坡监测数据粗差剔除的方法,其特征在于,包括如下步骤:
S1、数据预处理:对需要粗差剔除的边坡检测数据进行预处理,获取特征数据;
S2、建立预测矩阵:将S1中获取的特征数据分别输入m个PSO-TELM模型,根据所述m个PSO-TELM模型的输出结果,获得预测矩阵T;所述预测矩阵T如下式所示:
所述预测矩阵T中每一行代表一个模型的预测输出,a为PSO-TELM模型的输出数据;
S3、剔除粗差数据:对预测矩阵T按列求均值得到新的矩阵T′=(a1,a2,…,an)1×n,再对矩阵T′求均值s和方差d;
若T′中元素满足:ai-s>d,(i=1,2,…n),则剔除ai所对应的特征数据,反之,则保留ai所对应的特征数据,获得精确的边坡监测数据。
2.如权利要求1所述的方法,其特征在于,
所述步骤S1包括:
运用欧几里得算法计算采集到的原始数据的所有变量数据间距离,其中,所述原始数据矩阵如下:
在d维数据向量空间中,给定具有N个数据变量X1,X2,...,XN,其中Xi={x1i,x2i,...,xdi}(i=1,2,…,N)写成数据矩阵形式:
Xi中每个数据到同一列向量中其他数据间的距离用dji表示;dqi和dhi是考虑多变量时的数据间的距离;
单变量情况时:xj,i表示数据矩阵Xd×N中第j行第i列的数据;
两个变量情况时:m为任意一个和q不相同的行,q和h代表数据矩阵的第q行和第h行,k代表数据矩阵的第k列;
三个变量情况时:
经过以上处理得到特征数据的数据矩阵如下式所示:
其中,d′为处理后数据的维度。
3.如权利要求2所述的方法,其特征在于,所述步骤S1还包括:
将特征数据矩阵X′d×N输入到由n个RBM限制玻尔兹曼机组成的DBN网络中进行进一步的特征提取,得到优化的特征数据。
4.如权利要求1所述的方法,其特征在于,所述步骤S1之前还包括:
S001、获取优化TELM模型参数:通过粒子群算法计算获得优化TELM模型参数;
S002、建立PSO-TELM模型:将S1中获取的参数对TELM模型进行优化,建立m个PSO-TELM模型,其中m为自然数。
5.如权利要求4所述的方法,其特征在于,所述步骤S001还包括如下子步骤:
S00101、初始化:随机训练得到权值和阈值,将权值和阈值范围作为粒子速度和位置寻优范围;
S00102、选择参数:种群规模M=12,最大迭代次数T=100,惯性权值ω=1,学习因子c1、c2,其中c1=c2=2,粒子维数D=3;
S00103、确定适值函数,计算每个粒子的适值,求出每个粒子的个体极值和全局极值;
S00104、更新粒子的速度和位置;
S00105、迭代,直到满足停止条件T=100时退出,得到最优TELM模型参数。
6.如权利要求5所述的方法,其特征在于,所述步骤S00104中的粒子通过下面的公式更新速度和位置;
vi=vi+c1×rand()×(pbesti-xi)+c2×rand()×(gbesti-xi) (1)
xi=xi+vi (2)
公式(2)中,左边xi为更新后的粒子位置,右边xi为更新前粒子的位置;公式(1)和(2)中,i=1,2,3……N,N为此群中粒子的总数,vi为粒子速度,xi为粒子位置,c1和c2为学习因子,pbest为粒子的最优位置,gbest为整个种群的最优位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810443688.9A CN108647772B (zh) | 2018-05-10 | 2018-05-10 | 一种用于边坡监测数据粗差剔除的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810443688.9A CN108647772B (zh) | 2018-05-10 | 2018-05-10 | 一种用于边坡监测数据粗差剔除的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108647772A true CN108647772A (zh) | 2018-10-12 |
CN108647772B CN108647772B (zh) | 2020-12-25 |
Family
ID=63754473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810443688.9A Expired - Fee Related CN108647772B (zh) | 2018-05-10 | 2018-05-10 | 一种用于边坡监测数据粗差剔除的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108647772B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446726A (zh) * | 2018-11-26 | 2019-03-08 | 泉州装备制造研究所 | 基于大数据分析的获取边坡变形三维数据的边坡监测系统 |
CN111931863A (zh) * | 2020-09-15 | 2020-11-13 | 深圳追一科技有限公司 | 误标注数据筛选方法、装置及计算机存储介质 |
CN112485829A (zh) * | 2020-10-15 | 2021-03-12 | 中铁四局集团第五工程有限公司 | 一种电阻率法计算动态含水量方法 |
CN117609710A (zh) * | 2024-01-24 | 2024-02-27 | 中国电建集团西北勘测设计研究院有限公司 | 监测数据正常跳变防剔除方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110225479A1 (en) * | 2010-03-11 | 2011-09-15 | Microsoft Corporation | Fast and reliable wireless communication |
CN104050277A (zh) * | 2014-06-27 | 2014-09-17 | 东北大学 | 一种基于聚类分析的3mad-mmmd过失误差侦破方法 |
CN104200268A (zh) * | 2014-09-03 | 2014-12-10 | 辽宁大学 | 一种基于粒子群优化极限学习机的带钢出口厚度预测方法 |
CN105046374A (zh) * | 2015-08-25 | 2015-11-11 | 华北电力大学 | 一种基于核极限学习机模型的功率区间预测方法 |
CN107122861A (zh) * | 2017-04-28 | 2017-09-01 | 辽宁工程技术大学 | 一种基于pca‑pso‑elm的瓦斯涌出量预测方法 |
-
2018
- 2018-05-10 CN CN201810443688.9A patent/CN108647772B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110225479A1 (en) * | 2010-03-11 | 2011-09-15 | Microsoft Corporation | Fast and reliable wireless communication |
CN104050277A (zh) * | 2014-06-27 | 2014-09-17 | 东北大学 | 一种基于聚类分析的3mad-mmmd过失误差侦破方法 |
CN104200268A (zh) * | 2014-09-03 | 2014-12-10 | 辽宁大学 | 一种基于粒子群优化极限学习机的带钢出口厚度预测方法 |
CN105046374A (zh) * | 2015-08-25 | 2015-11-11 | 华北电力大学 | 一种基于核极限学习机模型的功率区间预测方法 |
CN107122861A (zh) * | 2017-04-28 | 2017-09-01 | 辽宁工程技术大学 | 一种基于pca‑pso‑elm的瓦斯涌出量预测方法 |
Non-Patent Citations (3)
Title |
---|
KEFENG NING ETAL.: "Two Efficient Twin ELM Methods With Prediction Interval", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 * |
李骅锦 等: "WA联合ELM与OS-ELM滑坡位移预测模型", 《工程地质学报》 * |
毛亚纯: "基于测量机器人的变形监测系统研究", 《中国博士学位论文全文数据库 工程科技Ⅱ辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446726A (zh) * | 2018-11-26 | 2019-03-08 | 泉州装备制造研究所 | 基于大数据分析的获取边坡变形三维数据的边坡监测系统 |
CN109446726B (zh) * | 2018-11-26 | 2023-03-24 | 泉州装备制造研究所 | 基于大数据分析的获取边坡变形三维数据的边坡监测系统 |
CN111931863A (zh) * | 2020-09-15 | 2020-11-13 | 深圳追一科技有限公司 | 误标注数据筛选方法、装置及计算机存储介质 |
CN112485829A (zh) * | 2020-10-15 | 2021-03-12 | 中铁四局集团第五工程有限公司 | 一种电阻率法计算动态含水量方法 |
CN112485829B (zh) * | 2020-10-15 | 2023-05-09 | 中铁四局集团第五工程有限公司 | 一种电阻率法计算动态含水量方法 |
CN117609710A (zh) * | 2024-01-24 | 2024-02-27 | 中国电建集团西北勘测设计研究院有限公司 | 监测数据正常跳变防剔除方法及装置 |
CN117609710B (zh) * | 2024-01-24 | 2024-04-12 | 中国电建集团西北勘测设计研究院有限公司 | 监测数据正常跳变防剔除方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108647772B (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647772B (zh) | 一种用于边坡监测数据粗差剔除的方法 | |
CN105975573B (zh) | 一种基于knn的文本分类方法 | |
CN109034194B (zh) | 基于特征分化的交易欺诈行为深度检测方法 | |
CN111563706A (zh) | 一种基于lstm网络的多变量物流货运量预测方法 | |
CN112581263A (zh) | 一种基于灰狼算法优化广义回归神经网络的信用评估方法 | |
CN110321361B (zh) | 基于改进的lstm神经网络模型的试题推荐判定方法 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN111899254A (zh) | 基于半监督学习自动标注工业产品外观缺陷图像的方法 | |
CN103927550B (zh) | 一种手写体数字识别方法及系统 | |
CN108446214B (zh) | 基于dbn的测试用例进化生成方法 | |
CN108596327A (zh) | 一种基于深度学习的地震速度谱人工智能拾取方法 | |
CN108879732B (zh) | 电力系统暂态稳定评估方法及装置 | |
CN114548591A (zh) | 一种基于混合深度学习模型和Stacking的时序数据预测方法及系统 | |
CN109145685B (zh) | 基于集成学习的果蔬高光谱品质检测方法 | |
CN113179276B (zh) | 基于显式和隐含特征学习的智能入侵检测方法和系统 | |
CN111723523A (zh) | 一种基于级联神经网络的河口余水位预测方法 | |
Jaiswal et al. | Investigation on the effect of L1 an L2 regularization on image features extracted using restricted boltzmann machine | |
CN111046961A (zh) | 基于双向长短时记忆单元和胶囊网络的故障分类方法 | |
CN104732067A (zh) | 一种面向流程对象的工业过程建模预测方法 | |
CN112149884A (zh) | 一种面向大规模学员的学业预警监测方法 | |
CN116400168A (zh) | 一种基于深度特征聚类的电网故障诊断方法及系统 | |
CN112529684A (zh) | 一种基于fwa_dbn的客户信用评估方法及系统 | |
CN116993548A (zh) | 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统 | |
CN116720743A (zh) | 基于数据聚类和机器学习的碳排放测算方法 | |
CN114186646A (zh) | 区块链异常交易识别方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201225 |