CN108647772A

CN108647772A - 一种用于边坡监测数据粗差剔除的方法

Info

Publication number: CN108647772A
Application number: CN201810443688.9A
Authority: CN
Inventors: 肖冬; 张盛永; 毛亚纯; 柳小波
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2018-10-12
Anticipated expiration: 2038-05-10
Also published as: CN108647772B

Abstract

本发明属于边坡监测技术领域，尤其涉及一种用于边坡监测数据粗差剔除的方法，包括如下步骤：S1、数据预处理：对需要粗差剔除的边坡检测数据进行预处理，获取特征数据；S2、建立预测矩阵：将S1中获取的特征数据分别输入m个PSO‑TELM模型，根据所述m个PSO‑TELM模型的输出结果，获得预测矩阵T；S3、剔除粗差数据：对预测矩阵T按列求均值得到新的矩阵T′＝(a₁,a₂,…,a_n)_1×n，再对矩阵T′求均值s和方差d；若T′中元素满足：a_i‑s＞d,(i＝1,2,…n)，则该剔除a_i所对应的特征数据，反之，则保留a_i所对应的特征数据，获得精确的边坡监测数据。本发明提供的用于边坡监测数据粗差剔除的方法，具有粗差剔除正确率高的有益效果。

Description

一种用于边坡监测数据粗差剔除的方法

技术领域

本发明属于边坡监测技术领域，尤其涉及一种用于边坡监测数据粗差剔除的方法。

背景技术

为了保证边坡安全监测工作的质量和水平，监测数据分析是边坡工程安全监测工作中必不可少、不可分割的组成部分，进行安全监控、指导施工和改进设计方法的一个重要和关键性环节，在各类边坡工程的施工、运行等不同阶段都将发挥重要作用。本课题先通过对传统的粗差剔除方法，例如拉伊达法则，聚类分析法等进行分析，发现传统的处理方法存在明显的缺陷。同时基于传统方法的剔除思想，提出了ELM分类算法进行粗差剔除。首先通过对原始数据的均方误差进行分析，给原始的监测数据添加标签；随后通过监督训练的方式训练单层ELM模型，并用其他监测数据验证ELM模型的精确性和实用性。仿真结果表明，单层ELM分类算法具有比传统的粗差剔除方法更高的精度和准确度。但是通过多组数据的交叉验证发现，单层ELM模型的准确度达不到工业要求的标准。

发明内容

(一)要解决的技术问题

针对现有存在的技术问题，本发明提供一种用于边坡测量数据粗差剔除的方法，具有粗差剔除正确率高得到有益效果。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

一种用于边坡监测数据粗差剔除的方法，包括如下步骤：

S1、数据预处理：对需要粗差剔除的边坡检测数据进行预处理，获取特征数据；

S2、建立预测矩阵：将S1中获取的特征数据分别输入m个PSO-TELM模型，根据所述m个PSO-TELM模型的输出结果，获得预测矩阵T；所述预测矩阵T如下式所示：

所述预测矩阵T中每一行代表一个模型的预测输出，a为PSO-TELM模型的输出数据；

S3、剔除粗差数据：对预测矩阵T按列求均值得到新的矩阵T′＝(a₁,a₂,…,a_n)_1×n，再对矩阵T′求均值s和方差d；

若T′中元素满足：a_i-s＞d,(i＝1,2,…n)，则该剔除a_i所对应的特征数据，反之，则保留a_i所对应的特征数据，获得精确的边坡监测数据。

优选地，所述步骤S1包括：

运用欧几里得算法计算采集到的原始数据的所有变量数据间距离，其中，所述原始数据矩阵如下：

在d维数据向量空间中，给定具有N个数据变量X₁,X₂,...,X_N，其中X_i＝{x_1i,x_2i,...,x_di}(i＝1,2,…,N)写成数据矩阵形式：

X_i中每个数据到同一列向量中其它数据间的距离用d_ji表示；d_qi和d_hi是考虑多变量时的数据间的距离；

单变量情况时：x_j,i表示数据矩阵X_d×N中第j行第i列的数据；

两个变量情况时：m为任意一个和q不相同的行，q和h代表数据矩阵的第q行和第h行，k代表数据矩阵的第k列；

三个变量情况时：

经过以上处理得到特征数据的数据矩阵如下式所示：

其中，d′为处理后数据的维度。

优选地，所述步骤S1还包括：

将特征数据矩阵X＇_d×N输入到由n个RBM限制玻尔兹曼机组成的DBN网络中进行进一步的特征提取，得到优化的特征数据。

优选地，所述步骤S1之前还包括：

S001、获取优化TELM模型参数：通过粒子群算法计算获得优化TELM模型参数；

S002、建立PSO-TELM模型：将S1中获取的参数对TELM模型进行优化，建立m个PSO-TELM模型，其中m为自然数。

优选地，所述步骤S001还包括如下子步骤：

S00101、初始化：随机训练得到权值和阈值，将权值和阈值范围作为粒子速度和位置寻优范围；

S00102、选择参数：种群规模M＝12，最大迭代次数T＝100，惯性权值ω＝1，学习因子c₁、c₂，其中c₁＝c₂＝2，粒子维数D＝3；

S00103、确定适值函数，计算每个粒子的适值，求出每个粒子的个体极值和全局极值；

S00104、更新粒子的速度和位置；

S00105、迭代，直到满足停止条件T＝100时退出，得到最优TELM模型参数。

优选地，所述步骤S00104中的粒子通过下面的公式来更新速度和位置；

v_i＝v_i+c₁×rand()×(pbest_i-x_i)+c₂×rand()×(gbest_i-x_i) (1)

x_i＝x_i+v_i (2)

公式(2)中，左边x_i为更新后的粒子位置，右边x_i为更新前粒子的位置；公式(1)和(2)中，i＝1,2,3……N，N为此群中粒子的总数，v_i为粒子速度，x_i为粒子位置，c₁和c₂为学习因子，pbest为粒子的最优位置，gbest为整个种群的最优位置。

(三)有益效果

本发明的有益效果是：本发明提供的一种用于边坡检测数据粗差剔除的方法，具有粗差剔除正确率高得到有益效果。

具体地，本发明的数据粗差剔除方法解决了数据中误差的分布对剔除结果的影响、克服了传统方法针对多变量数据粗差剔除的精度不高的问题。因此，选用这种方法就能够更加方便地从大量的变量数据中把过失误差和正常的数据分离开来。对于ELM和TELM模型中随机初始化的输入权值和阈值对结果精度的影响的问题，本发明提出基于粒子群优化的TELM模型，粒子群优化具有相当快的逼近最优解的速度，可以有效的对系统的参数进行优化。粒子群算法的本质是利用当前位置、全局极值和个体极值3个信息，指导粒子下一步迭代位置。其个体充分利用自身经验和群体经验调整自身的状态是粒子群算法具有优异特性的关键。新的PSO-TELM模型解决了随机初始化问题对结果的影响，提高了算法的稳定性。

此外，粒子群优化具有良好的全局优化性能和收敛性能，保证了TELM的全局学习能力和新学习算法的收敛能力，更好地发挥TELM模型的优势。实际仿真的实验结果表明，基于粒子群优化的PSO-TELM模型具有更好的预测精度：粗差剔除正确率达到98％以上，平均误报率不超过3％。

附图说明

图1为本发明实施例中粒子群优化TELM算法流程图；

图2为本发明实施例中实验1中的测试集输出图；

图3为本发明实施例中实验1中的交叉集输出图；

图4为本发明实施例中实验1中的交叉集d1输出图；

图5为本发明实施例中实验1中的交叉集d2输出图；

图6为本发明实施例中实验2中的测试集输出图；

图7为本发明实施例中实验2中的交叉集输出图；

图8为本发明实施例中实验2中的交叉集d1输出图；

图9为本发明实施例中实验2中的交叉集d2输出图；

图10为本发明实施例中实验3中的测试集输出图；

图11为本发明实施例中实验3中的交叉集输出图；

图12为本发明实施例中实验3中的交叉集d1输出图；

图13为本发明实施例中实验3中的交叉集d2输出图；

图14为本发明实施例中一种用于边坡测量数据粗差剔除的方法的流程示意图。

图15为本发明实施例中DBN网络进行特征转换结构图；

图16为本发明实施例中RBM训练流程图；

图17为本发明实施例中实验4中的测试集输出图；

图18为本发明实施例中实验4中的交叉集输出图；

图19为本发明实施例中实验4中的交叉集d1输出图；

图20为本发明实施例中实验4中的交叉集d2输出图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

(一)方法

如图14所示：本实施例公开了一种用于边坡监测数据粗差剔除的方法，包括如下步骤：

本步骤中将会对从边坡监测设备中获取的监测数据进行初步的处理，将数据中的特征数据提取出来，用于进一步地数据粗差剔除。

S2、建立预测矩阵：将S1中获取的特征数据分别输入m个PSO-TELM模型，根据所述m个PSO-TELM模型的输出结果，获得预测矩阵T；该预测矩阵T如下式所示：

预测矩阵T中每一行代表一个模型的预测输出，a为PSO-TELM模型的输出数据；

本步骤中的模型为经过粒子群算法优化过的PSO-TELM模型，

若T′中元素满足：a_i-s＞d,(i＝1,2,…n)，则剔除a_i所对应的特征数据，反之，则保留a_i所对应的特征数据，获得精确的边坡监测数据。

接下来本实施例还将提供详细地说明上述方法中步骤S1的详细方法步骤，具体如下所述：

所述步骤S1还包括：

X_i中每个数据到同一列向量中其他数据间的距离用d_ji表示；d_qi和d_hi是考虑多变量时的数据间的距离；

单变量情况时：x_j,i表示数据矩阵X_d×N中第j行第i列的数据；

三个变量情况时：

经过以上处理得到特征数据的数据矩阵如下所示：

其中，d′为处理后数据的维度。

为了获得更好的粗差剔除效果，这里还提供一种数据预处理的优化方案，具体如下所述：

将特征数据的数据矩阵X＇_d×N输入到由n个RBM限制玻尔兹曼机组成的DBN网络中进行进一步的特征提取，得到优化的特征数据。

详细地，DBN由RBM若干堆叠和一层神经网络结构组成，其模型结构如图15所示。训练时通过由底层到高层的逐层训练RBM来完成，首先RBM用原始特征输入数据训练，然后将底部抽取的特征作为上一层输入进行训练，重复以上过程，(其中，训练过程如图16所示：)训练结束后，还可以通过顶层反向传播算法对该模型进行微调。

这里还提供一个RBM限制玻尔兹曼机训练过程：(训练样本x₀，权重矩阵W，显层偏置量a，隐层偏置量b，学习率ε，最大训练周期T)

p(v_i＝1|h)＝sigmoid(a_i+W_ih)

其中，

步骤1、初始化显层神经元初始状态v₁＝x₀，W，a，b为随机较小的数字。

步骤2、迭代训练周期t。

步骤3、通过显层v₁计算隐层h₁，具体为循环计算P(h_1j＝1|v₁)值，并以该概率值为隐层第j个神经元取值为1的概率。(h_1j代表第一个隐含层的第j个神经元)

步骤4、通过隐层h₁计算显层v₂，具体为循环计算P(v_2i＝1|h₁)值，并以该概率值为显层第i个神经元取值为1的概率。(v_2i代表第二个显层的第i个神经元)

步骤5、通过显层v₂计算隐层h₂，具体为循环计算P(h_2j＝1|v₂)值，并以该概率值为隐层第j个神经元取值为1的概率。(h_2j代表第二个隐含层的第j个神经元)

步骤6、按以下更新参数，公式如下：

a←a+ε(v₁-v₂)

b←b+ε(p(h₁＝1|v₁)-p(h₂＝1v₂))

步骤7、判断是否达到迭代次数，是则输出参数W，a，b，否转回步骤2。

通过上述方法优化后的特征数据输入模型能够提高粗差剔除的准确率和降低误报率。

综上，通过上述方法能够很简单地提取出本实施例中边坡监测数据的特征数据。

此外，在这里还提供一种上述方法步骤S2中PSO-TELM模型的建立方法具体如下所述：

本方法在实施例中应位于所述步骤S1之前，因此所述步骤S1之前还包括：

在这里通过上述方法步骤能够获得本实施例中需要的PSO-TELM模型。

另外需要说明的是：这里还提供一种详细的通过粒子群算法优化所述TELM模型参数的方法，具体步骤如下所示：

所述步骤S001还包括如下子步骤：

S00104、更新粒子的速度和位置；

通过上述方法步骤获取最优的TELM模型参数。

此外应说明的是：所述步骤S00104中的粒子通过下面的公式来更新速度和位置；

v_i＝v_i+c₁×rand( )×(pbest_i-x_i)+c₂×rand( )×(gbest_i-x_i) (1)

x_i＝x_i+v_i (2)

(二)对照实验

实验1、单独采用粒子群算法优化后的PSO-TELM模型

本实施例中用粒子群算法优化TELM的输入权值和阈值，将TELM的输入权值和阈值作为粒子群算法的粒子，以训练样本的均方误差(MSE)作为粒子群算法的适值函数，适值越小，预测值越精确，寻找到的输入权值和阈值就越优。粒子群算法优化TELM的算法步骤如下：

1)初始化，随机训练得到权值和阈值，参考权值和阈值范围作为粒子速度和位置寻优范围；

2)选择合适的参数，包括种群规模M(取12)，最大迭代次数T(取100)，惯性权值ω(取1)，学习因子c₁、c₂(取c₁＝c₂＝2)，粒子维数D(取3)；

3)确定适值函数，计算每个粒子的适值，求出每个粒子的个体极值和全局极值；

4)更新粒子的速度和位置；

5)迭代，直到满足停止条件(到达最大循环次数)退出，得到最优TELM参数。算法流程如图1所示。

同样采用前面的训练和测试的数据，同时增加一些交叉验证数据，进行PSO-TELM建模训练和预测，下面列出正常预测和交叉验证的结果图的预测结果图。具体如图2至图5所示：

这里采用ELM的学习算法，利用最小二乘法快速求解输出权值矩阵而不是利用迭代调整的算法；同时采用PSO算法优化输入权值矩阵和隐含层偏差；该算法综合了ELM和PSO的优点：参数调整简单、全局最优性、泛化能力强。

表1优化模型测试集、验证集精度对比表

通过表1可以发现，PSO优化的TELM模型在训练时间和测试时间上相差不大，但是粗差剔除的正确率和模型的稳定性相比TELM模型差距不大。在误报率和数据均方误差方面，PSO-TELM模型明显低于传统的TELM模型。粒子群优化(PSO)是一种新兴的基于群体智能的启发式全局随机搜索算法，具有易理解、易实现、全局搜索能力强等特点。实验结果表明了该算法对于露天矿山边坡监测数据粗差剔除问题的可行性。

实验2、对边坡监测数据预处理后再采用PSO-TELM模型

在d维数据向量空间中，给定具有N个数据变量X₁,X₂,...,X_N，写成数据矩阵形式：

欧几里得算法计算所有变量数据间距离。将矩阵中列向量表示为X_i＝{x_1i,x_2i,...,x_di}(i＝1,2,...,N)。X_i中每个数据到同一列向量中其他数据间的距离用d_ji表示：

上述x_ji、x_ki表示同一列向量中两两互不相同的数据。

1)考虑单变量的影响：运用欧几里得公式求原始数据矩阵X(x_i,y_i,z_i)中每一个维度数据的欧氏距离，得到一个新的矩阵X₁(x′_i,y′_i,z′_i)。

2)考虑多变量的影响：运用欧几里得公式求原始数据矩阵X(x_i,y_i,z_i)中任意两个维度数据的欧氏距离，得到一个新的矩阵X₂(x″_i,y″_i,z″_i)。最后运用欧几里得公式求原始数据矩阵X(x_i,y_i,z_i)中任意三个个维度数据的欧氏距离，得到一个新的矩阵X₃(x″′_i)。

最后将经过以上处理得到的3个数据矩阵合并成一个新的矩阵X′(x′_i,y′_i,z′_i,x″_i,y″_i,z″_i,x″′_i)并替代原始的矩阵作为一下模型的输入。

同样采用前面的训练和测试的数据进行PSO-TELM建模训练，下面列出正常预测和交叉验证的结果图的预测结果图。具体如图6至图9：从图中可以看出，优化之后的模型的粗差剔除精度达到98％以上，平均误报率不超过3％。其中图8数据是不含有粗差的数据集。

表2预处理的优化模型测试集、验证集精度对比表

通过表2与表1的对比可以发现，带有边坡监测数据经过预处理后输入PSO-TELM模型后将拥有更高的粗差剔除的正确率和较低的误报率。由此可见，基于欧氏距离的数据预处理模型能够较好的消除数据在数量级上的差距并且将不同维度之间的关联体现的更加明显。

下表列出在60个不同模型中不同数据集的最优模型位置：

表3测试集和验证集的最优模型位置

从表3中可以看出，不同距离下的数据集对60个模型的适应度各不相同，因此在以后验证无标签的数据时可能得不到最优结果，因此需要对输出结果进行处理。因此本发明最后提出带有数据预处理的PSO-TELM的均值方差模型。

实验3、对边坡监测数据预处理后再采用PSO-TELM模型+均方差模型

由于不同数据集(监测点斜距存在差别)对模型的适应度不同，本实施例中采取同时优化训练60个PSO-TELM模型，应用这60个模型进行预测会得到预测矩阵每一行代表一个模型的预测输出。对预测矩阵T按列求均值得到新的矩阵T′＝(a₁,a₂,…,a_n)_1×n，再对矩阵T′求均值s和方差d，若T′中元素满足：a_i-s＞d,(i＝1,2,…n)，则该数据为需要剔除的特征数据，标签为2；其余不满足条件的特征数据为保留数据，标签为1。

同样采用前面的训练和测试的数据进行PSO-TELM建模训练，下面列出正常预测和交叉验证的60组平均-方差的预测结果图。具体如图10至图13所示：通过实验2和实验3中附图的对比可以看出，经过均值-方差处理后的粗差剔除精度依旧可以达到98％，误报率不超过3％。但是对于不含粗差数据的数据集该方法的误报率会明显提高，因此可以在数据集输入到模型之前进行数据集的均方误差检验，这样可以大幅度减小模型的误报率。数据集具体的时间、正确率和误报率如表4所示。图12中的数据不含有粗差。

表4预处理的优化模型测试集、验证集精度对比表

通过表3和表2的对比发现，带有数据预处理的PSO-TELM的均值方差处理模型拥有更高的准确率和适用性。只要最开始判断一组数据是否含有粗差，就可以避免图12的效果出现。

实验4、对边坡监测数据预处理后通过DBN网络进行特征转换再采用PSO-TELM模型+均方差模型

经过多次的模型测试，本实施例最终采用的DBN数据预处理模型是由2个RBM神经网络构成的，整个预处理的网络输入为经过范数处理的数据矩阵X′。第一个RBM神经网络的可见层节点数为7，隐含层节点数为12；第二个RBM神经网络可见层节点数为12，隐含层节点数为7。选取了5个不同监测点的监测数据，并且经过人工添加标签和数据范数处理形成DBN-PSO-TELM模型的输入。其中任意选取一点作为训练数据，剩余四个点的数据分别作为测试集数据和多个验证集数据用来测试模型的适用性。按照RBM和DBN网络的训练方法训练模型，模型最终的输出效果图如图17至图20所示：

从图17至图20中可以看出，带有DBN进行数据预处理的粗差剔除模型经过训练之后，粗差剔除的准确率达到100％，最大误报率为15％，平均误报率为5.6％，粗差剔除效果优于PSO-TELM模型。

表5 DBN预处理的优化模型测试集、验证集精度对比表

通过表5和表4之间的对比，可以看出：DBN预处理的优化模型无论在训练时间上或者是在正确率方面，都要明显优于其他粗差剔除模型；在误报率方面，也与其他模型大致相同。

最后应说明的是，表中的正确率＝(被模型剔除且实际应该被剔除的点的个数)/(实际应该被剔除的点的个数)；误报率＝(被模型剔除且实际不需要剔除的点的个数)/(实际不需要剔除的点的个数)。

以上结合具体实施例描述了本发明的技术原理，这些描述只是为了解释本发明的原理，不能以任何方式解释为对本发明保护范围的限制。基于此处解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种用于边坡监测数据粗差剔除的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的方法，其特征在于，

所述步骤S1包括：

单变量情况时：x_j,i表示数据矩阵X_d×N中第j行第i列的数据；

三个变量情况时：

经过以上处理得到特征数据的数据矩阵如下式所示：

其中，d′为处理后数据的维度。

3.如权利要求2所述的方法，其特征在于，所述步骤S1还包括：

将特征数据矩阵X′_d×N输入到由n个RBM限制玻尔兹曼机组成的DBN网络中进行进一步的特征提取，得到优化的特征数据。

4.如权利要求1所述的方法，其特征在于，所述步骤S1之前还包括：

5.如权利要求4所述的方法，其特征在于，所述步骤S001还包括如下子步骤：

S00104、更新粒子的速度和位置；

6.如权利要求5所述的方法，其特征在于，所述步骤S00104中的粒子通过下面的公式更新速度和位置；

v_i＝v_i+c₁×rand()×(pbest_i-x_i)+c₂×rand()×(gbest_i-x_i) (1)

x_i＝x_i+v_i (2)