CN112700622A

CN112700622A - 一种基于storm的铁路地质灾害监测大数据预处理方法及系统

Info

Publication number: CN112700622A
Application number: CN202011519895.1A
Authority: CN
Inventors: 王珣; 陆鑫; 袁焦; 伏坤; 金劭南; 杨科; 刘勇; 潘兆马; 邹文露; 余博; 杨俊超; 杨学锋; 徐鑫; 杨森; 姚书琴; 裴起帆
Original assignee: China Railway Eryuan Engineering Group Co Ltd CREEC
Current assignee: China Railway Eryuan Engineering Group Co Ltd CREEC
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-04-23
Anticipated expiration: 2040-12-21
Also published as: CN112700622B

Abstract

本发明公开了一种基于storm的铁路地质灾害监测大数据预处理方法及系统，包括：基于开源流计算storm框架为每个监测点的每个传感器数据提供并行的子计算模块，在每个子计算模块中实现铁路地质灾害监测大数据ETL处理，实现对不同监测点的多种传感器数据的实时并行预处理，有效提高数据处理效率、提高数据清洗质量；有效解决传统方法串行处理执行效率不高、不能满足监测大数据的处理需求的问题，能够满足铁路地质灾害监测数据预处理的实时性、时效性、高精度等要求，适用于复杂铁路地质灾害监测大数据实时分析与预警应用场景；同时，本发明所提供的基于storm的ELT处理方法同样也适用于其它存在多个工程监测点、多种监测数据的复杂工程。

Description

一种基于storm的铁路地质灾害监测大数据预处理方法及系统

技术领域

本发明涉及设备监测分析应用领域，特别涉及一种基于storm的铁路地质灾害监测大数据预处理方法及系统。

背景技术

在进行大数据分析应用中，数据预处理的数据质量是关系到数据分析与挖掘是否可信的关键因素。同样，数据预处理的高效性和实时性对很多应用也是很重要的。在铁路沿线地质灾害监测预警应用中，传感器采集的大量监测数据以快速方式实时到达监测处理平台，对监测处理平台如何实现快速的数据抽取、数据转换、数据清洗面临诸多挑战，因此，实现高数据质量的、快速的数据预处理是十分必要的。铁路地质灾害监测大数据具有如下的特点：(1)数据量大：铁路沿线长、需要部署的监测点多，每个监测点又有各类实时监测传感器，因而铁路地质监测会产生大量数据。(2)数据多样化：铁路沿线每个工点都部署了多种类型的地质监测传感器，对于各个工点的地质灾害监测，其数据来源于每个工点上的多种地质活动物理量变化数据。由于每种监测物理量数据类型形式不同，从而形成多种类型的地质监测数据。(3)数据快速化：各种监测传感器要求采样频率高，使得每个工点上各种类型监测数据需要快速采集与传输处理。同时为保证大数据实时分析的可操作性，需要对这些实时监测数据进行快速地预处理。(4)数据价值密度低：虽然从工点监测传感器获取到了海量的实时地质监测数据，但对于地质灾害预警分析，其有价值信息隐藏在这些海量监测数据中。必须从这些海量监测数据中，通过大数据挖掘分析处理，才能获取到有地质灾害发生的模式信息。

传统地质灾害监测预警数据分析方法大都只针对单一影响地质灾害的物理量(如当日雨量)进行处理，其监测预警精度不太高。此外，传统地质灾害监测预警数据分析方法多采用ETL进行数据处理，但传统ETL是一种串行处理方式，对于海量数据而言，采用串行处理方式存在处理效率低下、精度较低的问题。因此，传统地质灾害监测预警数据分析方法不适用于对复杂工程地质监测数据(如川藏铁路沿线复杂情况的地质灾害监测工程)的分析处理，其数据预处理方法也难以满足多源异构与海量监测流数据的实时处理性能要求。

综上所述，传统ETL方法在处理铁路地质灾害监测的海量大数据时存在处理效率低、数据清洗质量不高，难以满足大规模实时灾害预警分析需求。授权公开号为CN105608758B的中国专利公开了一种用于电力系统的基于Hadoop的分布式监测数据计算构思，但其中并不涉及到如何结合分布式的计算框架与传统串行数据处理工具如ETL，使其分布式构思。大数据ETL串行数据处理方法。

发明内容

本发明的目的在于克服现有技术中所存在的传统ETL数据处理方法只能对单一监测数据进行准确分析、串行数据处理效率低下、数据清洗质量较低、导致监测预警精度较低，无法适用于复杂铁路地质灾害监测大数据处理的缺陷，提供一种基于storm的铁路地质灾害监测大数据预处理方法及系统，本发明结合分布式流计算处理技术特点，提出一种基于开源流计算框架的铁路地质灾害监测大数据预处理方法，利用storm流计算框架及分布式并行计算技术对铁路沿线地质灾害监测海量大数据进行实时ETL预处理，改进传统地质灾害监测大数据ETL方法在数据处理效率、数据清洗质量等方面的局限；该方法不仅可以实现铁路工程地质灾害监测大数据的ETL快速预处理，同时也为监测预警分析提供高质量的基础数据；本发明方法同样也适用于其它铁路工程领域多个工程监测点的大数据分析的ETL预处理。

为了实现上述发明目的，本发明提供了以下技术方案：

一种基于storm的铁路地质灾害监测大数据预处理方法，包括：

A、遍历多个监测工点、获取每个监测工点的传感器类型，根据所述监测工点的数量及每个监测工点的传感器数量在storm集群中分别构造多个并行的topology作业，构造所述storm集群的拓扑结构、并配置各个组件所需要的线程数；

B、通过每个所述topology作业中的spout组件、Bolt组件对来自每个监测工点的每种传感器数据进行数据抽取、数据清洗、数据转换与同步整合，并将同步整合后的传感器数据输出至数据库，由数据库进行数据存储；

其中，所述spout组件用于调用数据输入类的运行逻辑，获取来自某个监测工点的某种传感器数据、定时将所获取的传感器数据进行输出至下一Bolt组件，所述Bolt组件用于调用ETL组件的运行逻辑对所述传感器数据进行数据清洗、数据转换、同步整合。

优选的，上述基于storm的铁路地质灾害监测大数据预处理方法中，每个所述监测工点的传感器类型包括：雨量仪、静力水准仪、深孔测斜仪、震动仪。

优选的，上述基于storm的铁路地质灾害监测大数据预处理方法中，所述数据清洗包括：异常数据点的检测与处理、周期性噪声数据点的检测与处理、缺失数据点的检测与处理；

优选的，上述基于storm的铁路地质灾害监测大数据预处理方法中，所述异常数据点的检测与处理，包括：

接收来自spout组件的传感器数据，计算接收到的传感器数据的均值及标准差；

根据所述均值及标准差计算所述传感器数据的置信区间，根据所述置信区间找到所述传感器数据中的异常数据点，其中，所述异常数据点为不在所述置信区间内的数据点；

对找到的异常数据点进行修正，得到第一传感器数据，再进入周期性噪声数据点的检测与处理流程。

优选的，上述基于storm的铁路地质灾害监测大数据预处理方法中，所述周期性噪声数据点的检测与处理，包括：

计算所述第一传感器数据的速度及加速度；对所得速度及加速度进行密度聚类，根据密度聚类结果找到所述第一传感器数据中的周期性噪声数据点，其中，所述周期性噪声数据点为速度-加速度偏离点；

对找到的周期性噪声数据点进行修正，得到第二传感器数据，再进入缺失数据点的检测与处理流程。

优选的，上述基于storm的铁路地质灾害监测大数据预处理方法中，所述缺失数据点的检测与处理，包括：

基于预设频率判断所述第二传感器数据是否在每个时间点均有独立的数据点，若是、不存在缺失数据，则数据清洗结束、进入数据转换，若否，则采用前序时间序列推算并插入数据补足的方法对所述缺失数据进行拟合补足，得到第三传感器数据，数据清洗结束。其中，所述采用前序时间序列推算并插入数据补足的方法具体为：以存在缺失的时间点对应的前一个时间点(为每个传感器的时间周期频率)与周期的数据为参考、拟合当前时间点的数据，并将拟合得到的数据插入传感器数据中，

优选的，上述基于storm的铁路地质灾害监测大数据预处理方法中，采用非线性平滑处理对所述异常数据点和/或周期性噪声数据点进行修正：

对传感器数据进行非线性回归的平滑处理，得到数据平滑曲线，并将所述异常数据点和/或周期性噪声数据点对应的时间代入所述数据平滑曲线计算得到平滑值，利用所述平滑值替换所述异常数据点和/或所述周期噪声数据点，得到处理后的传感器数据。

优选的，上述基于storm的铁路地质灾害监测大数据预处理方法中，所述数据转换，包括：

采用最大最小规格纲量转换法对传感器数据进行线性转化，将所述传感器数据统一转换为预置数据区间范围内的纯数值。

优选的，上述基于storm的铁路地质灾害监测大数据预处理方法中，所述同步整合，包括：将数据转换后的每个所述监测工点的多种传感器数据整合到一起，基于标准监测时间判断每个所述监测工点对应的多种传感器数据是否均有数据，若是，则数据同步、将数据存储在数据库中；若否，则数据不同步、找到缺失的传感器数据，对缺失的传感器数据采用前序时间序列推算并插入数据补足的方法对缺失数据进行拟合补足，补足后存储在所述数据库中。

其中，所述标准监测时间由每个所述监测工点对应的多个传感器的采集频率共同决定。

在本发明进一步的实施例中，还提供一种基于storm的铁路地质灾害监测大数据预处理系统，包括：

主计算模块，用于遍历多个监测工点、获取每个监测工点的传感器类型，根据监测工点的数量及每个监测工点的传感器数量在storm集群中分别构造多个并行子计算模块，构造所述storm集群的拓扑结构、并配置各个组件所需要的线程数；其中，所述并行子计算模块为storm集群中的topology作业；

所述并行子计算模块包括：spout组件、Bolt组件；其中，所述spout组件用于对来自每个监测工点的每种传感器数据进行定时抽取、并输出至bolt组件，所所述bolt组件用于对接收的传感器数据进行数据清洗、数据转换与同步整合，并将同步整合后的传感器数据输出至存储模块；

存储模块，用于将同步整合后的数据存储在数据库中。

与现有技术相比，本发明的有益效果：

1、本发明提出一种基于分布式并行计算处理的地质灾害监测大数据ETL方法，基于开源流计算storm框架实现铁路地质灾害监测大数据ETL处理，能够对不同监测点的多种传感器数据进行实时并行预处理，有效提高数据处理效率、提高数据清洗质量；有效解决传统方法串行处理执行效率不高、不能满足监测大数据的处理需求的问题，能够满足铁路地质灾害监测数据预处理的实时性、时效性、高精度等要求，适用于复杂铁路地质灾害监测大数据实时分析与预警应用场景；同时，本发明所提供的基于storm的ELT处理方法同样也适用于其它存在多个工程监测点、多种监测数据的复杂工程。本发明所提供的分布式ETL处理方法实现了对多种类型传感器的地质灾害监测数据ETL流数据预处理，支持监测预警大数据分析，相较于传统地质灾害监测单一物理量(雨量监测)的处理分析，解决了地质灾害监测预警分析的数据单一的问题。

2、在数据清洗方面，本方法能够实现地质灾害监测异常数据的多因素过滤清洗，通过对地质灾害监测数据中的缺失数据、孤立点数据、噪声数据等因素导致的异常数据进行有针对性的过滤清洗，并对异常数据进行修正，满足了地质灾害监测大数据预警分析的数据预处理质量要求。

3、在数据转换与整合方面，本方法能够实现对各类监测传感器数据的转换处理，对数据进行了规范化及必要的量纲转换，满足了大数据分析的数据质量要求；同时对同一监测工点的各个传感器监测数据在监测时间点进行数据同步整合处理，以便于在监测时间点上进行关联数据分析。

附图说明：

图1是本发明示例性实施例的基于storm的铁路地质灾害监测大数据ETL预处理系统架构图；

图2是本发明示例性实施例的基于storm流计算框架的铁路地质灾害监测大数据ETL预处理原理图；

图3是本发明示例性实施例的地质灾害监测大数据实时并行抽取原理图；

图4是本发明示例性实施例的异常数据过滤与修正流程图；

图5是本发明示例性实施例的周期噪声数据筛选流程图；

图6是本发明示例性实施例的缺失数据修补流程图；

图7是本发明示例性实施例的数据转换流程图；

图8是本发明示例性实施例的监测数据同步整合流程图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

图1示出了本发明示例性实施例的基于storm的铁路地质灾害监测大数据预处理计算框架，如图1所示，本发明针对铁路地质灾害监测大数据预处理提出一种基于storm的铁路地质灾害监测大数据预处理方法，该方法基于开源大数据平台Storm流计算框架，在Storm计算框架中运行ETL方法实现对海量监测大数据的实时并行预处理。如图1所示，本发明所提供的地质灾害监测大数据ETL预处理系统首先从铁路地质灾害监测平台的多个数据源并行抽取传感器监测流数据，然后进行多任务调度的分布式并行流数据清洗、分布式并行流数据转换处理，并将转换后数据存储到流数据仓库中，为后续大数据地质灾害预警分析提供数据集。为了满足实时监测预警分析的处理要求，本应用需要能够快速地对地质监测数据进行ETL处理，本发明将传统的ETL串行处理方式转为ETL分布式并行处理方式。首先，铁路地质灾害监测平台会从铁路沿线现场多个监测工点的雨量仪、静力水准仪、深孔测斜仪、震动仪等类型传感器中实时采集监测数据，并将数据存入地质灾害监测平台的分布式数据库集群进行统一存储管理与计算处理，以备后续监测预警分析处理。采用分布式并行流数据抽取：根据地质灾害监测业务需求，监测预警分析系统需实时地从多个数据源中抽取传感器监测数据，并进行传感器监测大数据分析处理。由于铁路地质灾害监测数据来源于不同工点的多类传感器，需要对监测平台上各个传感器监测数据源进行数据抽取。对于实时到达监测平台的各类传感器监测数据，应采用分布式并行流数据方式进行抽取处理，以满足实时监测数据预处理需要。为提高数据抽取处理速度和效率，按工点对各类传感监测数据源进行流数据并行任务抽取。分布式并行流数据清洗：对抽取的每类传感器监测数据，还需进行清洗预处理。为解决流数据清洗的时效性，本发明采用分布式多任务方式来实现并行流数据清洗预处理，以提高处理速度。通过并发任务调度器来调度处理任务，对抽取的各类监测数据进行必要的异常数据过滤处理，同时对存在异常问题的数据进行补充修正。分布式并行流数据转换与整合：将清洗后的监测数据按照大数据分析处理要求，进行必要的数据转换，如数据重新格式化、数据转换计算、数据整合处理等，并将整合后数据存储到分析系统的数据仓库中。针对传感器监测流数据的转换与整合处理，同样需采用分布式并行任务方式来实现。一、铁路地质灾害监测大数据的ETL预处理并行计算架构

为实现这种针对地质监测大数据的分布式并行ETL处理方式，本发明在大数据分析平台中部署了基于storm流处理框架的集群，利用不同集群节点分别实现不同监测工点、不同传感器监测数据ETL作业多任务并行处理。在本发明中，针对不同工点的不同监测传感器分别建立流数据处理的topology作业，在每个topology作业中，实现对监测数据的并行ETL预处理，在每天工程监测开始时(传感器开始工作、且稳定工作后)，由系统中的总服务器遍历多个监测工点、获取每个监测工点的传感器类型，storm集群根据监测工点的数量及每个监测工点的传感器数量分别构造多个topology作业，构造storm的拓扑结构、以及配置各个组件所需要的线程数。具体的，Storm流处理框架的并行分布式处理机制主要依靠以下组件和进程共同协调工作完成：

1.topology作业：topology作业是storm流数据框架处理数据的应用单元，由开发者根据不同的业务需求进行编写。本应用中的topology作业将实现对地质监测数据的数据抽取、数据清洗、数据转换等环节的任务处理。

2.Nimbus进程：Nimbus进程是Storm集群主节点部署的守护进程，它负责对topology作业进行任务分解，并制定任务分配方案。在本发明中，将创建多个topology数据预处理作业，提交给Nimbus进程。Nimbus进程将topology作业分解成为多个任务并制定相应topology作业的任务分配方案发送给zookeeper任务调度器进行任务分发管理。

3.Supervisor进程：在storm集群中的每一个工作节点上，都有一个监管进程supervisor运行。它负责响应Zookeeper发来的任务处理请求，然后创建worker进程进行任务执行。supervisor进程还负责记录自己所属工作节点的工作运行状态，将工作节点运行状态信息发送给任务调度器zookeeper。

4.Zookeeper任务调度器：Zookeeper是storm集群中的任务调度器，在本应用中负责接收Nimbus制定的任务分配方案，然后将任务请求按照一定策略分发给相应工作节点上的supervisor进程。supervisor进程会对这些请求进行响应并创建worker进程执行相关任务。同时Zookeeper还负责接收的Supervisor进程发送来的工作节点的当前工作状态信息，对分派任务的执行情况进行监控。

5.Worker进程：Worker进程是Supervisor进程创建的子进程，worker进程中的executor线程将会执行具体的任务程序。在本应用中，每个topology作业将会分解成多个任务，并对每个任务建立worker进程进行处理。这些worker进程在storm集群中可并行处理。

6.Executors线程：Executor是worker进程中的一个线程，它具体执行任务程序。在本应用中，每个executors线程将用于执行监测数据预处理中的一个task任务程序。这些任务包括数据抽取、数据清洗、数据转换等。此外，task任务根据任务类型可分为spout任务或者bolt任务。具体的，由spout组件调用数据输入类的运行逻辑，获取来自某个监测工点的某种传感器数据、对所获取的传感器数据定时进行数据抽取，将抽取得到的传感器数据输出至数据清洗Bolt组件，由Bolt组件调用ETL组件的运行逻辑对所述传感器数据进行数据清洗、并将清洗后的传感器数据进行输出至数据整合Bolt组件，由数据整合Bolt组件执行后续数据转换。

7.task任务：task任务是实际执行数据处理的最小单元。task任务由executor线程来执行实现。task任务分为spout和bolt两类任务。在本应用中，spout任务用来采集数据，如执行地质灾害监测数据的抽取。bolt任务用于监测数据清洗与转换处理。每个topology数据预处理作业中会包含多个task任务，这些task将被分配在不同的worker进程中并行处理。

8.tuple容器：tuple容器是一种封装数据的容器。在本应用中，将spout抽取到的传感器监测数据进行封装。tuple将以数据流的形式传递给后面需要进行数据处理计算的bolt任务

其中各组件协调工作原理如图2所示。

本发明针对不同的工点、不同类型的传感器分别创建一个topology作业，如针对工点A的雨量仪、静力水准仪、深孔测斜仪、震动仪传感器，分别创建topology作业A1、topology作业A2、topology作业A3、topology作业A4。每个作业对一个监测传感器流数据进行数据ETL处理。不同的topology作业在storm集群中是在不同节点分布式并行处理。这些创建topology作业会被提交到storm集群中的Nimbus中。Nimbus将会对提交的这些监测数据预处理topology作业进行任务分解并分配到各工作节点上执行。Nimbus首先需要从Zookeeper中获取到各个节点的工作状态信息，Nimbus根据各节点当前工作状态并制定出相应作业任务分配方案，然后将任务分配方案发送给Zookeeper进行任务分派管理。storm集群各工作节点上的Supervisor进程会对Zookeeper进行任务监听。当Supervisor进程接收到Zookeeper的任务处理请求后，它将对任务处理请求作出响应。Supervisor将在本工作节点中创建一个worker任务，如处理数据抽取、数据清洗、数据转换。此外，Supervisor进程还将自己工作节点的工作状态发送给Zookeeper进行反馈。创建worker进程后，worker进程将会启动executor线程将会执行task任务。在本应用中，task任务分为spout任务、bolt任务两类。spout任务将实现传感器监测数据的抽取，bolt任务将实现数据清洗、数据转换处理。这些worker进程在storm集群中实现并行运行处理。

在每个spout/bolt任务执行后，得到的结果数据需要进行封装，将结果数据封装到tuple容器。Tuple容器将以数据流的形式传递给下一个需要执行的任务。例如，工点A雨量传感器数据抽取任务spout将雨量监测数据封装成tuple，然后传递给执行工点A雨量监测数据清洗任务的数据清洗bolt。工点A雨量监测数据清洗任务bolt将会接收到该tuple数据，并对其进行数据清洗处理。执行清洗处理后，数据清洗bolt任务再将处理数据封装成tuple，传递给工点A雨量传感器数据对应的转换处理任务bolt，实现了数据以数据流的形式在各任务间进行传递处理。

与传统的铁路地质灾害监测ETL处理方法所需要的数据源不同。除了抽取雨量监测数据源外，本发明还将同时抽取铁路沿线现场多种类型的地质活动物理量监测数据源，如监测岩土振动情况的震动传感器数据、监测土地深层内部活动的深孔测斜仪传感器数据、监测岩土表面变化的静力水准仪传感器数据。各类监测数据源的抽取方案如图3所示：

(1)地质监测平台获取现场监测数据。铁路地质灾害监测平台从监测现场获取各类传感器监测数据，并将它们存入不同的数据源中。(2)创建多个Topology作业。本发明在storm集群中，针对监测工点的各类传感器监测数据分别建立不同的Topology作业A1、A2、A3、B1、B2、B3等。这些Topology作业将针对监测工点的各类传感器进行监测数据ETL预处理。(3)提交Topology作业。将创建的多个用于对监测数据预处理的Topology作业提交到storm集群中的Nimbus中去。Nimbus通过获取Zookeeper中记录的各节点工作状态信息来制定各工作节点任务分配方案，并将任务分配的方案提交给Zookeeper进行任务分派管理。(4)Supervisor进程创建子worker进程。Storm集群中各工作节点上的Supervisor进程会持续监控Zookeeper。接收到Zookeeper任务处理请求后，Supervisor进程便会响应其请求，创建Worker子进程，执行Zookeeper任务调度器分派给自己的任务。这些worker进程将在集群中并行处理。(5)执行spout数据抽取任务。Worker进程启动executor线程执行监测数据抽取的spout任务。本发明中创建了多个topology并行作业，每个作业中的spout任务都会对监测工点的不同类型传感器数据进行数据抽取。(6)监测数据封装。在Storm流数据框架中，使用tuple容器对监测数据进行封装，以便从spout任务传递流数据到下一bolt任务。(7)发送tuple。将封装好的tuple以数据流的形式传递给下一个bolt，以便执行后续的数据清洗环节bolt任务，再由清洗bolt传递至数据转换bolt。最后，每个监测工点对应的多个数据转换bolt会将数据统一传输至该监测工点对应的数据同步整合bolt，以监测工点A为例，监测工点A雨量传感器数据对应的转换处理任务bolt会与工点A其他传感器(静力水准仪、深孔测斜仪、震动仪等)对应的转换处理任务bolt一起将数据传递至工点A的数据整合bolt，由数据整合bolt将工点A对应的多种传感器数据进行同步整合。

在本发明进一步的实施例中，提供一种基于storm的铁路地质灾害监测大数据预处理系统，包括：主计算模块，用于遍历多个监测工点、获取每个监测工点的传感器类型，根据监测工点的数量及每个监测工点的传感器数量在storm集群中分别构造多个并行子计算模块(与每个独立的传感器形成一一对应的关系)，构造所述storm集群的拓扑结构、并配置各个组件所需要的线程数；其中，所述并行子计算模块为storm集群中的topology作业；所述并行子计算模块包括：spout组件、Bolt组件；其中，所述spout组件用于对来自每个监测工点的每种传感器数据进行定时抽取、并输出至bolt组件，所所述bolt组件用于对接收的传感器数据进行数据清洗、数据转换与同步整合，并将同步整合后的传感器数据输出至存储模块；存储模块，用于将同步整合后的数据存储在数据库中。

本领域技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

综上，在本实施例中，本发明针对诸如川藏铁路沿线复杂地质情况特点，设计了一种新的铁路沿线地质灾害监测大数据ETL预处理方法及系统，本系统能够对采集的地质灾害监测传感器数据应同步实时进行ETL流数据预处理，以确保监测预警分析的时效性；并且本系统能够对来源于监测工点的不同传感器采集数据，进行实时并行ETL预处理，提高数据处理效率，同时对监测工点的各类传感器监测数据进行同步整合处理，为地质灾害监测预警大数据分析提供可关联分析的数据集。

实施例2

在本发明进一步的实施例中，我们对ETL工具的处理算法进行设计与选择，通过本发明提供的数据清洗算法对监测数据中的噪声数据、缺失数据能够进行有效的筛选过滤，并对监测数据进行数据修补，为后续数据分析与挖掘提供高质量的数据集；具体的，所述数据清洗包括：异常数据点的检测与处理、周期性噪声数据点的检测与处理、缺失数据点的检测与处理：

1.异常孤立点数据过滤与修正处理

当铁路沿线监测工点传感器受外界事件干扰时，它会产生一些异常数据，即一些孤立点数据。异常孤立点对数据分析影响精度或产生预警误报，因此，本发明需要将这种类型的异常数据筛选出来，并对其进行修正。

为了能对这类孤点异常数据进行有效筛选过滤，本发明采用统计学的3σ数学方法对异常孤点数据进行判断并筛选过滤。为避免将正常数据被误判定为异常孤立点数据，本发明以监测时间点一天周期内的监测数据分组计算本组监测数据中的位移偏量均值μ及标准差σ，并得到一个监测数据的有效区间(μ-3σ,μ+3σ)。在此基础上本发明将判断监测数据是否在该有效区间中。若在该区间中，则证明该数据并非异常孤立点数据，不需过滤处理。若不在该有效区间中，即可判定为本条数据为异常孤立点数据，需要对其进行异常数据修正处理。具体执行流程如图4所示。

1)输入监测数据

2)计算监测数据的均值及标准差。监测数据的均值μ计算方法参见公式6-1，标准差σ的计算方法参见公式6-2：

其中μ为监测数据的位移均值偏量，Xn为时间点的位移偏量，σ为监测数据的标准差。

3)根据步骤2计算出的均值μ及标准差σ可得到监测数据的有效区间(μ-3σ，μ+3σ)。判断监测数据是否在有效区间(μ-3σ，μ+3σ)之中，若在该区间中，则表示该数据为正常数据，直接执行步骤5。若不在该有效区间中，即可判定为本条数据为异常数据，执行步骤4的异常数据修正处理。

4)异常孤立点数据修正处理。对于不在置信区间中的异常孤立点数据进行数据修正处理。将整组监测数据进行非线性回归的平滑处理，得到时间t随位移X的二次变化曲线，并将异常点的时间代入曲线计算得到平滑值，去替代异常值。二次曲线计算公式参见公式6-3所示：

f(t)＝at²+bt+c

其中abc满足

其中ti表示时间变量，Xi表示计算的位移参量。F(t)表示根据监测数据位移随时间变化的关系。

5)异常数据处理结束，进入下一步，对周期噪声数据点进行过滤筛选与处理。

2.周期噪声数据过滤筛选

在工点的传感器监测数据中，会出现一些周期性噪声数据，如铁路沿线经常会有火车经过，对监测传感器产生了有干扰数据。因此，在数据清洗过程中需要将这类的周期噪声数据进行过滤并修正。结合地质物理运动规律，地质的运动呈现阶段性，不会出现突增的速度和加速度。而火车经过的情况会产生地质监测数据速度-加速度的突变。本发明采用了基于密度的速度-加速度聚类方法对监测数据进行分析，将不在聚类簇群中的点筛选出来，并将这些噪声数据进行过滤处理，具体实现流程如图5所示。

1)输入监测数据。

2)计算监测时间点数据的速度及加速度。速度V的计算方法参见公式6-4，加速度a的计算方法参见公式6-5：

其中Vi表示当前点速度，Xi表示当前时刻实时数据的位移偏量，Xi-1表示上一时刻数据的位移偏量。Ti表示当前实时数据的记录时间，Ti-1表示上一监测数据的记录时间。

3)对输入的监测数据进行密度聚类。聚类的依据为步骤2所计算得到的速度v与加速度a。本发明采用密度聚类的思想，这种密度聚类的方法首先需要计算速度-加速度的欧氏距离，欧式距离计算方法见公式6-6所示：

基于密度的聚类方法给定邻域e，如果距离d(X,Y)满足邻域e，即可表示为X、Y直接密度可达。对于样本集合N，给定样本点X1，X2，X3……Xn，如果Xp到Xq和Xt都密度可达，那么Xq和Xt密度相连。本发明计算密度区域，找到依据速度-加速度参量中距离簇中心不可达的点。这些点的速度-加速度数值偏离预设e，即可筛选出其速度-加速度偏离较大的点。这些偏离的点即可认定为周期噪声数据点。

4)通过步骤3的方法对本组监测数据进行聚类，将密度可达的点聚为一类，最终得到一个簇群，在簇群中的监测点为监测数据速度-加速度较为接近，这些点之间密度可达，符合铁路沿线地质活动的运动规律。这些在簇群中的点为正常有效数据，执行步骤6。同时还会有一些脱离簇群散列在外部的点，这些点相较于正常有效的数据有会有较大的速度、加速度，不符合地质活动的运动规律，存在外界火车经过的干扰。在本发明中将这些不在簇群中的点判定为周期噪声数据，需要执行步骤5对周期噪声数据进行数据修正处理。

5)噪声数据修正，将步骤4筛选出的周期噪声数据进行修正，修正方法同异常数据过滤与修正方法中的步骤4、步骤5(平滑曲线替换)。

6)周期噪声数据清洗处理结束，进入缺失数据处理流程。

具体的，地质灾害监测现场部署的传感器可能因网络通信错误、设备断电等原因导致数据并未从现场传到监测平台中，造成了部分时间点数据的缺失。缺失数据会对后续地质灾害监测大数据分析结果产生影响。因此我们需要对缺失点数据进行补充，本发明根据预设频率(预设频率由每个传感器设备的采集频率决定)验证时间戳判断是否存在缺失数据，设计了一种快速缺失数据处理的方法。如图6所示，铁路地质灾害监测大数据缺失数据处理流程包括：

1)输入监测数据。

2)判断监测时间点是否存在相应时间的地质监测数据。

3)根据步骤3找到的缺失数据，本步骤要进行缺失数据补充处理。针对数据存在缺失数据情况，为避免缺失数据处理开销过大采用前序时间序列推算并插入数据补足的方法，具体为：以存在缺失的时间点对应的前一个时间点的数据为参考、拟合当前时间点的数据，并将拟合得到的数据插入传感器数据中，例如：当前传感器的时间周期间隔是一分钟，对应的序列为7:10的数据、7:11的数据，7:12的数据，7：14的数据……，那么缺失的序列为7:13的序列，那么以7:12的数据序列为参考进行补足。一条缺失数据快速补充Tnew和Xnew的计算方法参见公式6-8，公式6-9：

其中，f_system为时间周期频率，T_i为T_new对应的前一个时间间隔。

4)缺失数据处理结束。

最后，进入铁路地质灾害监测大数据的ETL数据转换与整合处理步骤，具体包括：

1.监测数据转换

铁路地质灾害监测平台监采集到的传感器监测数据为不同量纲值，不易于直接分析。为保证清洗后的监测数据满足大数据分析处理要求，需进行必要的数据转换处理。本发明采用了最大最小规格化方法将地质监测位移偏量数据进行线性转化，其目的是为了解决各种地质灾害监测数据单位不统一的问题，并将较为离散监测位移变化量转化为0-1区间范围内的纯数值，以便进行大数据分析处理。具体实现步骤如图7所示。

1)输入监测数据。

2)监测数据最大-最小值规格纲量转换。获取到监测数据中位移偏量的最大值以及最小值作为规格化的参考。将输入监测数据对其进行最大-最小值规格化纲量转换。将离散的地质监测数据转化为预设区间(本实施例预设区间为0-1内的标准变量。监测数据转化方法参见公式6-10：

其中X’表示经过最大最小值规格化转换后的结果，Xi表示当前监测数据的位移偏量，Xmax表示监测数据中最大的位移偏量，Xmin表示监测数据中最小的位移偏量。例如，输入至本步骤的一组数据为：10、11、12、18、19、25、30；那么10为其中的最小的位移偏量、30为本组数据中的最大位移偏量，将10、30代入公式6-10中，对每个数据进行量纲转换，得到0-1之间的标准数值，从而得到该组数据对应的标准变量，通过量纲转换为后续大数据分析提供了极大的便利、简化大数据分析的计算量。

3)数据转换处理结束，将数据输出至对应的同步整合bolt进行同步整合。

2.监测数据整合

同一监测工点的各类型传感器采集数据频率不同，这会导致某一时间点相关类型监测数据不同步问题，这不利于大数据关联分析处理。为了解决传感器监测数据不同步的问题，需要对监测数据进行同步整合处理，实现标准监测时刻具有各类传感器的监测数据，以便对这些监测数据进行大数据关联分析。

为了满足这一需求，本发明实现一种数据同步整合的方法。这种方法的主要思想是针对标准监测时间的传感器监测数据进行检查，判断该时刻是否存在监测数据。若某时刻不存在数据，将对该时刻进行数据拟合处理，以便分析处理有相应数据。具体执行流程如图8所示。其中，所述标准监测时间由每个所述监测工点对应的多个传感器的采集频率共同决定。

1)接收监测工点对应的全部传感器数据。

2)判断监测工点在标准监测时刻是否每种传感器监测数据均存在，即每种传感器均有数据输入。

3)若每种传感器在该时刻均存在监测数据，不需进行数据同步处理，直接执行步骤6

4)若该时刻不存在监测数据，需要执行步骤5进行监测数据拟合补充。

5)针对缺失的监测测数据进行拟合处理，其方法同数据清洗中的缺失数据处理流程，即采用前序时间序列推算并插入数据补足的方法对缺失数据进行拟合补足。例如，第一传感器频率为每10分钟采集、而第二传感器为每20分钟采集，第三传感器为每30分钟采集，那么就设定标准监测时间为10分钟，在每个十分钟进行判断确保数据同步性。在补足时，以前一个十分钟的传感器数据为参考，对缺失的后一个十分钟的数据进行拟合。

6)数据同步整合处理结束，传输至数据库进行存储。

以上所述，仅为本发明具体实施方式的详细说明，而非对本发明的限制。相关技术领域的技术人员在不脱离本发明的原则和范围的情况下，做出的各种替换、变型以及改进均应包含在本发明的保护范围之内。

Claims

1.一种基于storm的铁路地质灾害监测大数据预处理方法，其特征在于，包括：

其中，所述spout组件用于调用数据输入类的运行逻辑，获取来自某个监测工点的某种传感器数据、定时将所获取的传感器数据进行输出至下一Bolt组件，所述Bolt组件用于调用ETL组件的运行逻辑对所述传感器数据依次进行数据清洗、数据转换与同步整合。

2.如权利要求1所述的方法，其特征在于，每个所述监测工点的传感器类型包括：雨量仪、静力水准仪、深孔测斜仪、震动仪。

3.如权利要求1所述的方法，其特征在于，所述数据清洗包括：异常数据点的检测与处理、周期性噪声数据点的检测与处理、缺失数据点的检测与处理。

4.如权利要求3所述的方法，其特征在于，所述异常数据点的检测与处理，包括：

5.如权利要求4所述的方法，其特征在于，所述周期性噪声数据点的检测与处理，包括：

6.如权利要求5所述的方法，其特征在于，所述缺失数据点的检测与处理，包括：

基于预设频率判断所述第二传感器数据是否在每个时间点均有独立的数据点：若是，不存在缺失数据，则数据清洗结束、进入数据转换；若否，则采用前序时间序列推算并插入数据补足的方法对缺失数据进行拟合补足，得到第三传感器数据，数据清洗结束。

7.如权利要求5所述的方法，其特征在于，采用非线性平滑处理对所述异常数据点和/或周期性噪声数据点进行修正：

8.如权利要求1-6任一所述的方法，其特征在于，所述数据转换包括：

9.如权利要求8所述的方法，其特征在于，所述同步整合包括：将数据转换后的每个所述监测工点的多种传感器数据整合到一起，基于标准监测时间判断每个所述监测工点对应的多种传感器数据是否均有数据；

若是，则数据同步、将数据存储在数据库中；若否，则数据不同步、找到缺失的传感器数据，对缺失的传感器数据采用前序时间序列推算并插入数据补足的方法对缺失数据进行拟合补足，补足后存储在所述数据库中。

10.一种基于storm的铁路地质灾害监测大数据预处理系统，其特征在于，包括：

存储模块，用于将同步整合后的数据存储在数据库中。