CN107153843B

CN107153843B - 基于支持向量机的地面沉降预测系统和方法

Info

Publication number: CN107153843B
Application number: CN201710303112.8A
Authority: CN
Inventors: 孔宪光; 常建涛; 王佩; 冯尓磊; 刘尧
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-05-03
Filing date: 2017-05-03
Publication date: 2020-07-10
Anticipated expiration: 2037-05-03
Also published as: CN107153843A

Abstract

本发明公开了一种基于支持向量机的地面沉降预测系统和方法，主要用于解决配套系统无法应对盾构施工过程中对海量数据的分析需求。系统包括Hadoop大数据分析平台、数据收集模块、数据预处理模块、模型构建模块、沉降预测模块，预测方法中，对预处理的去噪提出了基于置信度区间估计和拉依达准则的聚类算法进行异常点检测；构建预测模型时，权重向量的迭代计算过程是用N个分区的平均值进行更新，此策略和随机梯度下降相结合，提升了训练速度。本发明具备海量数据的存储和分析能力以及高性能的冗余能力，数据分析具有实时性和高效性，用于盾构施工过程的地面沉降量预测，为工程管理人员和施工操作人员提供参考和调整依据。

Description

基于支持向量机的地面沉降预测系统和方法

技术领域

本发明属于工业大数据技术领域，尤其涉及地铁盾构施工领域的地面沉降预测，具体是一种基于支持向量机的地面沉降预测系统和方法，可用于对盾构施工过程中地面沉降量的预测。

背景技术

城市化建设是我国基础建设重要组成部分。近年来，随着经济的发展，我国城市化建设进程不断加快，城市地下空间开发和利用发展迅速，隧道工程项目大批量产生，以盾构施工工法为代表的地下工程已成为城市地下建设的主要方式。

所谓的地面沉降预测是指，对以盾构法施工的地下空间工程为背景的施工过程中因地层移动而导致地面隆起或沉降程度的预测，施工过程中的地面沉降量是施工质量监测的重要指标。但是受施工环境和水文条件的限制，以及盾构机自身机构的复杂性，及时对盾构施工过程中的沉降量进行准确、智能的预测是目前亟需解决的难点。

地下工程施工过程必然会造成地层的初始应力状态、岩土体的物理力学性能的改变，进而影响周围的环境。当地层移位和变形超过一定的限度时，就会危机周围邻近建筑物及其基础和地下管线的安全，引起一系列的岩土环境工程问题，如塌陷、涌水、涌砂现象，可能造成地表建筑物损坏，地面管线断裂等。由于盾构法施工主要针对地铁工程建设，工程穿过的地区多是城市繁华地段，对环境影响的要求较高，最大限度降低施工对周围土体的影响，减小施工对邻近建筑物及管线的影响，合理控制施工引起的地表沉降，及时准确、智能的预测地面沉降量具有重大的工程意义。

现有的地面沉降预测都是在单机下用R或MATLAB等进行建模分析，数据分析效率慢，遇到数据量增大时时常会宕机，导致系统无法运行，从而影响工程质量和施工进度。

在地铁施工过程中，需要利用机器运行数据、施工地质数据和施工环境数据对施工线路的地面沉降量做出预测，用于判断当前施工操作的合理性。传统地面沉降分析方式都是在单机、串行模式下训练模型，当面对海量数据时暴露出的速度慢、效率低以及容错性差等问题，直接影响地面沉降量的预测，并带来施工风险。

发明内容

针对背景技术所阐述的问题和现有技术的不足，本发明提出一种具有海量数据存储、冗余能力和实时、高效的基于支持向量机的地面沉降预测系统和方法。

本发明是一种基于支持向量机的地面沉降预测系统，其特征在于，包括Hadoop大数据分析平台、数据收集模块、数据预处理模块、模型构建模块、沉降预测模块，数据收集模块、数据预处理模块、模型构建模块、沉降预测模块均是基于Hadoop大数据分析平台进行运行，所述Hadoop大数据分析平台主要包括有HDFS分布式文件系统子模块，MapReduce计算框架子模块；数据存储模块是将采集的原数据分别存储到HDFS分布式文件系统子模块中；数据预处理模块和模型构建模块是依据MapReduce计算框架子模块的分析模式进行数据预处理和模型构建；沉降预测模块是将构建的预测模型进行与Hadoop平台兼容的接口封装，接口以API的形式提供应用链接，将预测结果输出。

本发明还是一种基于支持向量机的地面沉降预测方法，在权利要求1-5所述的基于支持向量机的地面沉降预测系统上运行，其特征在于，实现地面沉降预测过程包括有如下步骤：

(1)搭建Hadoop大数据平台：根据盾构施工分析业务需求确定Hadoop大数据平台规模，包括节点数目和节点间的拓扑结构，然后在各节点安装配套工作环境，包括linux系统安装、节点网络配置、SSH无密码验证配置、Java环境安装、Hadoop集群安装；安装完成后，通过主节点控制其他从节点的启动、运行和管理，主节点实现任务的提交和分发，从节点具体运行实施；

(2)收集构建模型所需的数据：数据主要分为三类，盾构机的运行数据由部署在机器上的传感器获取，依次传入下位机，上位机，以及本地存储中心，最后存储到HDFS分布式文件系统子模块中，地质数据通过地质勘探报告获取，施工环境数据由现场施工人员采集获得；

(3)对数据进行预处理：对模型的输入数据进行清洗处理、去噪处理、归一化处理和降维处理，填充数据中的缺失值，剔除异常记录，消除量纲差异，降低数据维度；

(4)构建地面沉降预测模型：在Hadoop大数据分析平台的MapReduce计算框架下，利用支持向量机算法，以特征向量矩阵作为输入，沉降量作为输出训练地面沉降预测模型，训练完成，地面沉降预测模型构建完毕；

(5)封装沉降模型接口：将训练好的地面沉降预测模型保存到HDFS分布式文件系统，并以API的形式提供地面沉降预测模型调用的接口。

从以前的数据枯竭到现在的海量数据，传统的分析手段已经无法满足盾构施工的实际分析需求，客观上需要对各种机器学习或数据挖掘算法进行并行化设计和开发，本发明在大数据分析平台处理施工过程中产生的海量数据，挖掘隐含的信息，从而产生更加实用的工程价值。

本发明与现有技术相比，具有以下优点：

(1)目前盾构施工越来越广泛，施工过程中产生的数据呈指数级增长，单机以及配套的处理系统难以胜任日益增长的盾构施工分析需求。本发明采用主节点和多从节点结构的Hadoop大数据平台作为海量盾构施工数据存储和计算的基础，解决了单机情况下“高维海量数据”难以处理的问题。主节点负责分析任务的分发和协调，从节点负责具体任务的执行。Hadoop大数据平台的数据存储不但提高了存储能力，而且具有对海量数据的冗余能力，确保数据安全性。Hadoop大数据平台的MapReduce计算框架为构建快速、高效和实时的预测模型提供了基础，提高预测效率，避免单机情况下分析海量数据出现运行异常，如宕机等。同时，海量盾构施工数据为预测模型的准确性提供了基础，提高了预测的准确性，保障了施工顺利、安全进行。

(2)数据预处理是数据建模分析的必要过程，但目前对盾构施工数据分析的预测方式不尽相同，本发明根据盾构施工的特点，提出了完整的针对海量盾构施工数据进行预处理的机制，通过清洗处理、去噪处理、归一化处理和降维处理，完成对盾构施工数据的预处理。其中去噪处理是对数据中的异常值进行剔除，而在机器学习或数据挖掘领域对异常点的评判并没有标准。本发明提出的基于置信度区间估计和依达拉准则的聚类算法进行异常点检测。利用聚类算法的无监督学习特点，用置信度区间估计和拉依达准则求出不同的数据区间进行对比，选择相对合适的评判区间对数据进行异常点剔除，完善目前异常点检测时人为自定义异常检测区间的检测方式，并且使用自学习的方式得到不同异常检测区间，具有自学习对比的优势，降低人为主观因素对剔除“噪声”数据的干扰。

(3)本发明构建预测模型时，在常规并行化策略的基础上为进一步提升训练速度，提出了并行化局部优化的迭代计算模式，迭代过程中的权重向量是用N个分区的平均值进行更新，此策略和随机梯度下降相结合，避免权值向量陷入局部最优，也避免了一次性计算全部数据集而带来的较高的计算复杂度。

(4)本发明在沉降预测模块中设计了封装函数接口，提高了技术的重用性和可移植性，可跨平台使用。

附图说明

图1是本发明的系统架构示意图；

图2是本发明中盾构施工地面沉降预测技术方案图

图3是本发明数据去噪处理流程图；

图4是本发明中基于支持向量机构建预测模型的流程图；

图5是本发明模型构建时权重向量并行化迭代的计算流程图；

图6是本发明中预测模型验证时真实值与预测值的对比图；

图7是本发明中预测模型验证时的误差变化图。

具体实施方式

下面结合附图对本发明进行详细说明，

实施例1

盾构施工需要利用机器运行数据、施工地质数据和施工环境数据对施工线路的地面沉降量做出预测，传统地面沉降分析方式都是在单机、串行模式下训练模型，当面对海量数据时暴露出的速度慢、效率低以及容错性差等问题，直接影响地面沉降量的预测精度，进而带来施工风险。

针对此现状和问题，本发明展开了研究，提出了一种基于支持向量机的地面沉降预测系统，参见图1，在本发明的基于支持向量机的地面沉降预测系统中包括Hadoop大数据分析平台、数据收集模块、数据预处理模块、模型构建模块、沉降预测模块，数据收集模块、数据预处理模块、模型构建模块、沉降预测模块均是基于Hadoop大数据分析平台进行运行。本发明的Hadoop大数据分析平台主要包括有HDFS分布式文件系统子模块、MapReduce计算框架子模块。本发明中数据存储模块是将采集的原数据存储到HDFS分布式文件系统子模块中，数据文件格式可以是csv或txt等，数据预处理模块可以从中读取数据，数据预处理模块、模型构建模块和沉降预测模块计算的中间结果也是在HDFS分布式文件系统子模块中缓存、归约，最终的预测模型和沉降量预测值同样保存在HDFS分布式文件系统子模块中。数据预处理模块和模型构建模块是依据MapReduce计算框架子模块的分析模式进行数据预处理和模型构建，MapReduce计算框架是依附主、从节点进行map/reduce计算。沉降预测模块是将构建的预测模型进行与Hadoop平台兼容的接口封装，接口以API的形式提供应用链接，将地面沉降预测结果输出。

由于盾构施工过程中产生的数据呈指数级增长，单机以及配套的处理系统难以胜任日益增长的盾构施工分析需求。本发明采用主节点和多从节点结构的Hadoop大数据平台作为海量盾构施工数据存储和计算的基础，解决了单机情况下“高维海量数据”难以处理的问题。主节点负责分析任务的分发和协调，从节点负责具体任务的执行。Hadoop大数据平台的数据存储不但提高了存储能力，而且具有对海量数据的冗余能力，确保数据安全性。Hadoop大数据平台的MapReduce计算框架为构建快速、高效和实时的预测模型提供了基础，提高预测效率，避免单机情况下分析海量数据出现运行异常，如宕机等。同时，海量盾构施工数据为预测模型的准确性提供了基础，提高了预测的准确性，保障了施工顺利、安全进行。

实施例2

基于支持向量机的地面沉降预测系统的总体构成同实施例1，参见图1，本发明的数据收集模块包括数据收集范围确定子模块和数据存储子模块，数据收集范围确定子模块是通过对盾构施工过程中的机理分析，确定特征变量，采集相应的机器运行数据、施工地质数据和施工环境数据，并确定与沉降量有关的特征数据；数据收集模块的数据存储子模块是将已经采集的地面沉降数据，即特征数据存储到Hadoop大数据分析平台的分布式文件系统上。

实施例3

基于支持向量机的地面沉降预测系统的总体构成同实施例1-2，参见图1，本发明的数据预处理模块包括清洗处理子模块、去噪处理子模块、归一化处理子模块和降维处理子模块。清洗处理子模块是检测并填充原数据中的空值，避免构建模型时因数据缺失引起异常。去噪处理子模块是对清洗处理子模块处理后的数据中的异常点进行剔除，减少“噪声”数据对模型精度的影响。归一化处理子模块是将清洗处理子模块、去噪处理子模块处理后的数据映射到[0,1]区间内，消除不同特征之间数据单位不一致带来的量纲影响，使得所有数据在同一参考系下。降维处理子模块是将清洗处理子模块、去噪处理子模块、归一化处理子模块处理后的高维特征映射成低维特征，降低模型复杂度。

数据预处理是数据建模分析的必要过程，但目前对盾构施工数据分析的预测方式不尽相同，本发明根据盾构施工的特点，提出了完整的针对海量盾构施工数据进行预处理的机制，通过清洗处理、去噪处理、归一化处理和降维处理，完成对盾构施工数据的预处理。其中去噪处理是对数据中的异常值进行剔除，而机器学习或数据挖掘领域对异常点的评判并没有标准。本发明提出基于置信度区间估计和依达拉准则的聚类算法进行异常点检测。利用聚类算法的无监督学习特点，用置信度区间估计和拉依达准则求出不同的数据区间进行对比，选择相对合适的评判区间对数据进行异常点剔除，完善目前异常点检测时人为自定义异常检测区间的检测方式，并且使用自学习的方式得到不同异常检测区间，具有自学习对比的优势，降低人为主观因素对剔除“噪声”数据的干扰。

实施例4

基于支持向量机的地面沉降预测系统的总体构成同实施例1-3，参见图1，本发明的模型构建模块是基于数据收集模块的海量数据和Hadoop平台计算框架，利用批量并行化梯度下降算法对支持向量机的权值向量进行迭代求解，构建出地面沉降预测模型。

本发明构建预测模型时，在常规并行化策略的基础上为进一步提升训练速度，提出了并行化局部优化的迭代计算模式，迭代过程中的权重向量是用N个分区的平均值进行更新，此策略和随机梯度下降相结合，避免权值向量陷入局部最优，也避免了一次性计算全部数据集而带来的较高的计算复杂度。

实施例5

基于支持向量机的地面沉降预测系统的总体构成同实施例1-4，本发明的地面沉降预测模型是，

其中x是输入变量，ω是权值向量，m是特征变量的个数，

是截距值，权值向量ω是在支持向量机算法中用批量并行化梯度下降策略迭代计算获得。

实施例6

本发明还是一种基于支持向量机的地面沉降预测方法，在上述的基于支持向量机的地面沉降预测系统上运行，参见图2，实现地面沉降预测过程包括有如下步骤：

(1)搭建Hadoop大数据平台：根据盾构施工分析业务需求确定Hadoop大数据平台规模，包括确定初始节点数目和节点间的拓扑结构，然后在各节点安装配套工作环境，包括linux系统安装、节点网络配置、SSH无密码验证配置、Java环境安装、Hadoop集群安装，确定主节点与从节点，主节点只有一个，从节点可以弹性扩展和缩减；安装完成后，通过主节点控制其他从节点的启动、运行和管理，主节点实现任务的提交和分发，从节点具体运行实施。

(2)收集构建模型所需的数据，数据主要分为三类，参见表4，盾构机的机器运行数据由部署在机器上的传感器获取，依次传入下位机，上位机，以及本地存储中心，最后到达远程计算中心，存储到HDFS分布式文件系统子模块中，地质数据通过地质勘探报告获取，施工环境数据由现场施工人员采集获得。

(3)对数据进行预处理：对模型的输入数据进行清洗处理、去噪处理、归一化处理和降维处理，参见图1和图2，填充数据中的缺失值，剔除异常记录，消除量纲差异，降低数据维度。

模型预测精度的高低除了与模型所采用的算法有关外，更重要的是与数据质量有关，包括数据中的缺失值、异常值、量纲差异和高维性等。

(4)构建地面沉降预测模型：参见图4，在Hadoop大数据分析平台的MapReduce计算框架下，利用支持向量机算法，以特征向量矩阵作为输入，沉降量作为输出，训练地面沉降预测模型，训练完成，地面沉降预测模型构建完毕。

盾构施工数据通过光纤实时传输，依次经过下位机、上位机、以及本地存储中心，最后到达远程计算中心，存储到HDFS分布式文件系统子模块中。本发明的地面沉降预测模块执行是在远程计算中心的集群上进行计算运行，地面沉降预测结果通过网络传输，将结果及时返回到盾构机控制室或操作工人的配套移动客户端，为盾构施工过程提供参考和调整依据便于工程管理人员和施工人员做出合理决策。

本发明通过结合Hadoop大数据分析平台提供盾构施工地面沉降量的远程、实时预测，改变单机情况下离线处理模式，大幅提高盾构数据的利用价值。

实施例7

基于支持向量机的地面沉降预测系统和预测方法同实施例1-6，步骤(3)的数据预处理包括如下步骤：

(3a)数据清洗是利用平均值方法进行缺失值处理，计算各个特征的平均值，对特征中的空值用平均值进行填充。

(3b)对数据进行去噪处理，参见图3：

3b1利用聚类算法迭代计算样本数据的中心点；

3b2计算每条样本数据与样本中心点之间的距离集D；

3b3计算距离集D的样本均值和样本方差；

3b4根据概率学的置信度区间估计和拉依达准则分别求解区间C₁和C₂，具体是根据概率学的置信度区间估计求得区间C₁，根据拉依达准则求得区间C₂；

3b5比较区间C₁和C₂，选取其中较大区间为异常点评判准则，剔除超出区间的异常记录，得到去噪后的数据。

(3c)数据归一化是利用离差标准化对去噪后的数据进行线性变换，将特征值归一化映射到[0,1]区间，消除特征间的量纲差异，得到归一化数据。

(3d)数据降维是利用主成分算法对归一化数据进行降维处理，将原高维特征变量映射成低维特征变量，以主成分的累计贡献率达到85％选取低维特征变量的个数，得到构建模型的最终输入数据。

本发明数据预处理中的去噪处理提出了基于置信度区间估计和依达拉准则的聚类算法进行异常点检测。利用聚类算法的无监督学习特点，用置信度区间估计和拉依达准则求出不同的数据区间进行对比，从而选择了相对合适的评判区间对数据进行异常点剔除，完善目前异常点检测时人为自定义异常检测区间的检测方式，并且使用自学习的方式得到不同异常检测区间，具有自学习对比的优势，降低人为主观因素的对剔除“噪声”数据的干扰。

实施例8

基于支持向量机的地面沉降预测系统和预测方法同实施例1-6，步骤(5)的数据预处理包括如下步骤：

(4a)定义数据映射函数parseLine，依托InputFormat类实现；定义损失函数和正则化函数。

(4b)设置master节点——初始化Hadoop环境，读取数据文本文件，设置迭代次数numIter，步长stepSize和优化参数regGaram。

(4c)对数据进行map操作，通过parseLine函数指定数据文件的输入位置以及以何种方式将数据样本转换为key/value对的形式。

(4d)对支持向量回归机的求解转变为一个凸优化问题，即找到凸函数的最小值，凸函数是依赖于向量变量的函数，使用随机梯度下降函数对优化函数进行迭代计算，求解权值向量。

(4e)在权值向量迭代过程中，每次迭代都需要执行一次map/reduce操作，而reduce操作比较耗时，为进一步降低训练耗时，让分区数据先迭代一定次数后更新本分区权重向量ω_i，然后对N个分区的权重求均值得出权重向量ω，用新计算的权重向量更新每个分区的权重向量，重复此过程直到满足迭代次数。

(4f)根据迭代计算出的权重向量构造决策函数f(x)，得到预测模型

其中x是输入变量，ω是权重向量，m是特征变量的个数，

是截距值，权重向量ω在支持向量机算法中用批量并行化梯度下降策略迭代计算获得。

本发明中提出了并行化局部优化的迭代计算模式求解权值向量ω，迭代过程中的权重向量是用N个分区的平均值进行更新，此策略和随机梯度下降相结合，避免权值向量陷入局部最优，也避免了一次性计算全部数据集而带来的较高的计算复杂度。

下面给出结合具体的分析计算的更详尽的例子，对本发明进一步说明。

实施例9

基于支持向量机的地面沉降预测系统和预测方法同实施例1-8，盾构施工地面沉降预测的基本流程如图2所示：首先搭建基于Hadoop计算框架的大数据分析平台，然后对盾构施工过程中地面沉降进行机理分析，确定对应的特征变量，采集相应的机器运行数据、施工地质数据和施工环境数据，其次对数据进行预处理，包括清洗处理、去噪处理、归一化处理和降维处理，再构建基于支持向量机算法的预测模型对沉降量进行预测，将预测结果及时反馈给工程管理人员和施工人员做出合理决策，如果沉降量异常，则根据沉降量异常程度采取相应的应对措施。

Step1：构建Hadoop大数据分析平台

根据盾构施工分析业务需求确定Hadoop大数据平台规模，包括确定节点数目和节点间的拓扑结构，然后在各节点安装配套工作环境，包括linux系统安装、节点网络配置、SSH无密码验证配置、Java环境安装、Hadoop集群安装，确定主节点与从节点，主节点只有一个，从节点个数可以弹性扩展和缩减；安装完成后，通过主节点控制其他从节点的启动、运行和管理，主节点实现任务的提交和分发，从节点具体运行实施。

本例中设计的Hadoop大数据平台规模及硬件配置参见表1。

表1 Hadoop大数据平台规模及硬件配置

项目	配置信息
		CPU	4Core Intel 2.2GHz
内存	1G
		硬盘	20G
系统版本	CentOS-Linux-6.3-x86_64
		JVM版本	Java1.8.0
Hadoop版本	Hadoop2.6.0

Hadoop大数据平台的节点信息参见表2，master节点是主节点，其他节点是从节点。

表2 Hadoop大数据平台的节点信息

节点	IP	属性	备注
				master	192.168.72.20	NameNode	SecondaryNameNode
slaver1	192.168.72.21	DataNode
				slaver2	192.168.72.22	DataNode
slaver3	192.168.72.23	DataNode

本例中的Hadoop大数据分析平台包括如下子项目参见表3：

表3 Hadoop大数据平台的子项目

·Core：分布式文件系统和通用I/O组件和接口；

·Avro：提供高效、跨语言RPC的数据序列系统，持久化数据存储；

·HDFS：分布式文件系统，用于实现大规模数据的分块存储；

·MapReduce：分布式数据处理框架和执行环境；

·Zookeeper：高可用性的分布式协调服务；

·Pig：数据流语言和运行环境，用以检索大规模数据集；

·Chukwa：运行HDFS中存储数据的收集器，使用MapReduce生成分析报告；

·Mahout：机器学习算法库；

·Flume：日志收集系统；

·Sqoop：数据同步工具，用于传统数据和Hadoop之间传输数据。

分布式并行化计算框架MapReduce中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。

Step2：分析地面沉降的机理

盾构开挖引起的地表沉降主要分为五个历程：初期沉降、开挖面前沉降、盾构通过沉降、盾尾脱空沉降以及蠕变、次固结等后续沉降。施工过程中对土体的扰动是地面沉降发生的直接原因，盾构法施工中包括如下行为：施工对土体的直接破坏、施工荷载的施加与消除、孔隙水压力的升降及其所引起的岩土体性质变化，进而导致地表的隆起与沉降。地面沉降的主要诱因集中在两点：1)地层损失，主要指盾构掘进所引起的岩土损失；2)扰动后土体的再固结及其蠕变性。

Step3：确定特征变量

本发明的特征数据主要包括机器运行数据、施工地质数据和施工环境数据参见表4：

表4 盾构施工地面沉降预测数据特征

表中，盾构机的机器运行数据由部署在机器上的传感器获取，施工地质数据通过地质勘探报告获取，施工环境数据由现场施工人员采集获得。

Step4：数据预处理

Step4.1：对原数据中各个特征的数据进行清洗处理，对记录中的缺失值进行填充，采取的填充策略是用各个特征的样本均值进行填充。

Step4.2：参见图3，对清洗后数据进行去噪处理，首先利用聚类算法迭代计算清洗后样本数据的中心点，其次计算每条样本数据与样本中心点之间的距离集D，然后计算距离集的样本均值和样本方差，其次根据概率学的置信度区间估计和拉依达准则分别求解得到区间C₁和C₂，置信度区间估计的计算公式如下：

其中是

数据的样本均值，S是数据的样本方差，n是样本数据的个数，α是置信度水平，t是分布类型。

最后比较区间C₁和C₂，选取其中较大区间为异常点评判准则，剔除超出区间的异常记录。

Step4.3：对去噪后的数据进行归一化处理，消除不同特征之间数据单位不一致带来的量纲影响，使得所有的数据在同一参考系下。本发明采用min-max标准化，也称为离差标准化，对原数据进行线性变化，使结果映射到[0-1]之间，计算公式如下：

x^*＝(x-x_min)/(x_max-x_min) (2)

Step4.4：然后使用主成分分析算法将归一化后的高维特征变量{X₁,X₂,…,X_n}映射成低维特征变量，取主成分累计贡献率ψ_m达到85％以上低维特征变量{X′₁,X′₂,…,X′_m}(m≤n)。

其中

是主成分{X′₁,X′₂,…,X′_m}的总方差tr′(∑)分解成m个相互独立的变量的方差之和，

是原始变量{X₁,X₂,…,X_n}的总方差tr(∑)分解成n个相互独立的变量的方差之和。

Step5：参见图4，建立支持向量机地面沉降预测模型

Step5.1：定义数据映射函数parseLine，依托InputFormat类实现。

Step5.2：设置master节点——初始化Hadoop环境，读取数据文本文件，设置优化regGaram，迭代次数numIter，步长stepSize。

Step5.3：对数据进行map操作，通过parseLine函数将指定数据文件的输入位置以及以何种方式将数据样本转换为key/value对的形式。

Step5.4：定义所求解的目标函数

支持向量机预测地面沉降是回归问题，对非线性的回归问题求解采用基于间隔最大原则构建的ε-支持向量回归机构建目标函数

其中为C惩罚因子，l_ε是不敏感函数

引入松弛变量ξ_i和

代入公式(4)得到下式：

根据公式(5)所示的目标函数是一个凸优化问题，通过引入拉格朗日乘子

并对其中的ω,b,

求偏导数得最终的优化目标函数为公式(6)

其中为K(x_i,x_j)核函数，

选择核函数K(x_i，x_j)＝tanh(b(x_i·x_j)+c)，b和c是常数。

对支持向量回归机的求解转变为一个凸优化问题，即找到凸函数的最小值，目标是依赖于向量变量α的函数，使用随机梯度下降函数对优化函数进行迭代计算，求解权值向量α。

在训练迭代时，首先选取数据集数据形成一个子集S，对公式(6)计算每个数据点的子梯度，求出均值偏导

然后带入公式(7)求出新的α，继续迭代计算。

α_t+1＝α_t-γf′_0(α,i)＝α_t-γ(L'_α,i+Cα_t) (7)

其中，γ：步长。

拉格朗日乘子α并行化迭代计算具体执行：

1)迭代计算代码：

2)迭代计算流程：

权重迭代计算优化过程中采取局部迭代优化的过程，参见图5，避免了每次迭代都执行map/reduce操作，降低训练中reduce操作的耗时。训练数据集在分区之后，在各个分区根据初始权重α₀分别计算本地权重

经过一定的本地训练轮数后更新本地权重为

系统再对n个分区的权重求均值得出α₁，并将α₁作为新的初始权重作为输入，继续迭代优化，直至满足迭代次数。然后根据迭代计算出的权重α构造决策函数f(x)，得到地面沉降预测模型

其中

Step5.5：读取预测数据文本文件，并对数据进行预处理。

Step5.6：调用地面沉降预测模型接口，对预处理后的数据进行map操作，将数据文本转化为key/value对的形式。

Step5.7：对转换后的数据进行沉降量预测，并将预测结果进行saveAsTextFile操作，保存到labelFile文件中。

将预测结果及时反馈给管理人员和施工人员。根据预测结果和现场情况，结合人工经验，对施工参数及时做出调整，做出合理决策。如果异常工况发生，提前针对不同的异常工况采取对应得措施，如：加入添加剂或调整添加剂数量改良土体流动性；调整机器操作参数等。

下面通过实验及其数据对本发明的技术效果再作说明

实施例10

基于支持向量机的地面沉降预测系统和预测方法同实施例1-9，通过实际施工样本数据进行本发明的技术效果说明及验证。

实例验证

下面利用从施工现场采集的数据证明本发明的可行性和准确性。该数据来自上海地铁9号线三期(东延伸)工程1标段，金桥站～申江路站SCK52+150.200～SCK53+662.560，数据共有65条，样本数据划分，表5给出了地面沉降预测训练数据集，表6给出了地面沉降预测测试数据集，表5中共有45条训练数据，表6中共有20条测试数据，训练集数据量和测试集数据量的比值为7：3。

表5 地面沉降预测训练数据集

注：P：土仓平均压力；F：千斤顶平均推力；n：刀盘转速；T：刀盘扭矩；v：掘进速度；P'：平均注浆压力；H：盾构机埋深；ρ：土的比重；e：孔隙比；E：压缩模量；c：粘聚力；

内摩擦角；S：沉降量。

表6 地面沉降预测测试数据集

注：表中参数意义见表5注释。

表7 真实值与预测值对比分析表

总结：在建立地面沉降预测模型时，对地面沉降预测训练数据总共迭代了200次，地面沉降预测测试集相对误差的具体值参见表7，平均误差是0.0193。通过测试集真实值和预测值对比图，参见图6可见通过本发明获得的预测值和真实值在各个样本点上相差无几，许多点几乎重合。再参见图7，图7是图6的相对误差曲线图，由图7可见预测模型的效果良好，正负相对误差在5％以内，并且样本区间内的整个相对误差值稳定，微小的误差也在合理接受范围之内。

简而言之，本发明公开的一种基于支持向量机的地面沉降预测系统和方法，主要用于解决目前单机及配套系统无法应对盾构施工过程中对海量数据的分析需求。基于支持向量机的地面沉降预测系统包括Hadoop大数据分析平台、数据收集模块、数据预处理模块、模型构建模块、沉降预测模块，基于支持向量机的地面沉降预测方法中，在数据预处理的去噪处理中提出了基于置信度区间估计和依达拉准则的聚类算法进行异常点检测。利用聚类算法的无监督学习特点，用置信度区间估计和拉依达准则求出不同的数据区间进行对比，选择相对合适的评判区间对数据进行异常点剔除，完善目前异常点检测时人为自定义异常检测区间的检测方式，并且使用自学习的方式得到不同异常检测区间，具有自学习对比的优势，降低人为主观因素对剔除“噪声”数据的干扰。同时在构建预测模型时，在常规并行化策略的基础上为进一步提升训练速度，提出了并行化局部优化的迭代计算模式，迭代过程中的权重向量是用N个分区的平均值进行更新，此策略和随机梯度下降相结合，避免权值向量陷入局部最优，也避免了一次性计算全部数据集而带来的较高的计算复杂度。本发明具备海量数据的存储和分析能力以及高性能的冗余能力，数据分析具有实时性和高效性，用于盾构施工过程的地面沉降量预测，为工程管理人员和施工操作人员提供参考和调整依据。

Claims

1.一种基于支持向量机的地面沉降预测系统，其特征在于，包括Hadoop大数据分析平台、数据收集模块、数据预处理模块、模型构建模块、沉降预测模块；

所述数据收集模块包括确定数据收集范围子模块和数据存储子模块，数据收集范围子模块是通过对盾构施工过程中的机理分析，确定特征变量，采集相应的机器运行数据、施工地质数据和施工环境数据；数据存储子模块是将已经采集的特征数据存储到Hadoop平台的分布式文件系统上；

所述数据预处理模块包括清洗处理子模块、去噪处理子模块、归一化处理子模块和降维处理子模块；清洗处理子模块是检测并填充原数据中的空值；去噪处理子模块是对清洗处理子模块处理后数据中的异常点进行剔除；归一化处理子模块是将清洗处理子模块、去噪处理子模块处理后的数据映射到[0,1]区间内；降维处理子模块是将清洗处理子模块、去噪处理子模块、归一化处理子模块处理后的高维特征映射成低维特征；

所述模型构建模块是基于数据收集模块的海量数据和Hadoop平台计算框架，利用批量并行化梯度下降算法对支持向量机的权值向量进行迭代求解，构建出地面沉降预测模型；

数据收集模块、数据预处理模块、模型构建模块、沉降预测模块均是基于Hadoop大数据分析平台进行运行，所述Hadoop大数据分析平台主要包括有HDFS分布式文件系统子模块、MapReduce计算框架子模块；数据存储模块是将采集的原数据分别存储到HDFS分布式文件系统子模块中；数据预处理模块和模型构建模块是依据MapReduce计算框架子模块的分析模式进行数据预处理和模型构建；沉降预测模块是将构建的预测模型进行与Hadoop平台兼容的接口封装，接口以API的形式提供应用链接，将预测结果输出；

数据预处理包括如下步骤：

(a)数据清洗是利用平均值方法进行缺失值处理，计算各个特征的平均值，对特征中的空值用平均值进行填充；

(b)对数据进行“去噪”处理，

b1利用聚类算法迭代计算样本数据的中心点；

b2计算每条样本数据与样本中心点之间的距离集D；

b3计算距离集的样本均值和样本方差；

b4根据概率学的置信度区间估计和拉依达准则分别求解区间C₁和C₂；

b5比较区间C₁和C₂，选取其中较大区间为异常点评判准则，剔除超出区间的异常记录，得到去噪后的数据；

(c)数据归一化是利用离差标准化对去噪后的数据进行线性变换，将特征值归一化到[0,1]区间，消除特征间的量纲差异，得到归一化数据；

(d)数据降维是利用主成分算法对归一化数据进行降维处理，将原高维特征映射成低维特征，以主成分的累计贡献率达到85％选取低维特征的个数，最终得到构建模型的输入数据。

2.根据权利要求1所述的基于支持向量机的地面沉降预测系统，其特征在于，所述的地面沉降预测模型是，

其中x是输入变量，ω是权值向量，m是特征变量的个数，

3.一种基于支持向量机的地面沉降预测方法，在权利要求1-2所述的基于支持向量机的地面沉降预测系统上运行，其特征在于，实现地面沉降预测过程包括有如下步骤：

(1)搭建Hadoop大数据平台：根据盾构施工分析业务需求确定Hadoop大数据平台规模，包括确定节点数目和节点间的拓扑结构，然后在各节点安装配套工作环境，包括linux系统安装、节点网络配置、SSH无密码验证配置、Java环境安装、Hadoop集群安装，确定主节点与从节点，主节点只有一个；安装完成后，通过主节点控制其他从节点的启动、运行和管理，主节点实现任务的提交和分发，从节点具体运行实施；

(2)收集构建模型所需的数据，数据主要分为三类，盾构机的运行数据由部署在机器上的传感器获取，依次传入下位机，上位机，以及本地存储中心，最后存储到HDFS分布式文件系统子模块中，地质数据通过地质勘探报告获取，施工环境数据由现场施工人员采集获得；

数据预处理包括如下步骤：

(3a)数据清洗是利用平均值方法进行缺失值处理，计算各个特征的平均值，对特征中的空值用平均值进行填充；

(3b)对数据进行“去噪”处理，

3b1利用聚类算法迭代计算样本数据的中心点；

3b2计算每条样本数据与样本中心点之间的距离集D；

3b3计算距离集的样本均值和样本方差；

3b4根据概率学的置信度区间估计和拉依达准则分别求解区间C₁和C₂；

3b5比较区间C₁和C₂，选取其中较大区间为异常点评判准则，剔除超出区间的异常记录，得到去噪后的数据；

(3c)数据归一化是利用离差标准化对去噪后的数据进行线性变换，将特征值归一化到[0,1]区间，消除特征间的量纲差异，得到归一化数据；

(3d)数据降维是利用主成分算法对归一化数据进行降维处理，将原高维特征映射成低维特征，以主成分的累计贡献率达到85％选取低维特征的个数，最终得到构建模型的输入数据；

4.根据权利要求3所述的基于支持向量机的地面沉降预测方法，其特征在于，步骤(4)所述的构建地面沉降预测模型包括如下步骤：

(4a)定义数据映射函数parseLine，依托InputFormat类实现；定义损失函数和正则化函数；

(4b)设置master节点——初始化Hadoop环境，读取数据文本文件，设置迭代次数numIter，步长stepSize及优化参数regGaram；

(4c)对数据进行map操作，通过parseLine函数将指定数据文件的输入位置以及以何种方式将数据样本转换为key/value对的形式；

(4d)对支持向量回归机的求解转变为一个凸优化问题，即找到凸函数的最小值，凸函数是依赖于向量变量的函数，使用随机梯度下降函数对优化函数进行迭代计算，求解权值向量；

(4e)在权值向量迭代过程中，每次迭代都需要执行一次map/reduce操作，而reduce操作比较耗时，采用分区数据先迭代一定次数后更新本分区权重向量ω_i，然后对N个分区的权重求均值得出权重向量ω，用新计算的权重向量更新每个分区的权重向量，重复此过程直到满足迭代次数；

(4f)根据迭代计算出的权重向量ω构造决策函数f(x)，得到预测模型

其中x是输入变量，ω是权值向量，m是特征变量的个数，