CN105243140B

CN105243140B - 一种面向高速列车实时监控的海量数据管理方法

Info

Publication number: CN105243140B
Application number: CN201510652571.8A
Authority: CN
Inventors: 郭皓明; 魏闫艳; 郭黎敏; 徐怀野; 王之欣; 田霂
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2015-10-10
Filing date: 2015-10-10
Publication date: 2018-07-06
Anticipated expiration: 2035-10-10
Also published as: CN105243140A

Abstract

本发明提出了一种面向高速列车实时监控的海量数据管理方法。该方法以分布式文件系统和关系数据库构成二级存储架构，其上层基于关系数据库建立面向里程触发的窗口数据管理机制，实现监控数据的组织；利用底层分布式文件系统实现海量数据的平衡存储管理。在这一基础上，结合对象动态耦合的存储模型实现数据的有序组织；同时，利用全局‑局部属性传递管理的方式，针对列车建立里程累积触发，满足列车监控、分析的需求。本发明针对高速列车实时监控，提供了大数据背景下海量、跨专业数据管理的核心技术，在交通、物流、智慧城市等领域具有积极的应用价值。

Description

一种面向高速列车实时监控的海量数据管理方法

技术领域

本发明属于海量异构感知数据高性能存储管理研究与应用领域，具体涉及一种面向高速列车实时监控与综合分析的海量数据管理方法。针对高速列车实时监控采集数据以及其领域特点，本发明基于松耦合的信息组织模型，以分布式文件系统以及关系数据库构成两层结合的存储结构。通过关系数据库建立面向里程触发的窗口缓存；同时，利用分布式文件数据库，基于key-value的模式实现海量、异构数据的高性能存储与组织，并利用属性传递实现动态耦合下对象基于累计里程的数据窗口管理。通过本发明提出的数据管理技术可以有效实现海量、异构实时数据的存储管理以及基于KV-RDB高性能查询。这一方法在大型复杂装备监控、交通、物流、智慧城市以及环境保护等方面同样具有积极的应用价值。

背景技术

近年来，随着铁路建设的推进，高速列车逐渐在我国国民经济发展中发挥着越来越重要作用。以CRH380III型车为例，其是一个由多专业构成的复杂系统，组成部分涵盖机械、电气电路、控制网络、信号等。在日常运营中，高速列车根据调度，在特定线路上承担高速客运的任务。因此，安全性成为高速列车建设与发展的重点之一。围绕列车，在运营过程中实时采集各种子系统的状态数据，针对这些增量数据开展高性能存储管理成为高铁运营保障的重要需求。在这一基础上可以为实时监控、列车健康分析评估、故障数据挖掘等工作提供数据资源以及分析决策的依据。

高速列车是一个由多种子系统构成并高速运行的复杂系统。在日常运营中，列车通常根据调度安排在固定的线路行驶。这一线路跨越较大区域范围。列车在行驶过程中其负载情况变化较为复杂，受到外部天气环境、铁路沉降以及轨道状态、地形地貌、周边电磁信号以及承载乘客数量等多种因素的影响。因此，为实现对列车整体、实时、全面的监控通常需要针对不同子系统的特点布设大量传感器，采集不同专业的设备状态数据。由于列车行驶高速性，通常这些传感器采用相对较高的频率采集数据。另一方面，由于列车行驶的空间范围较为广阔，不同地区线路状态、气象条件、电磁环境差异较大。同时，也是导致累积性健康劳损的主要原因之一。因此地域位置就构成列车监控数据组织与管理的主要属性之一。在这一基础上，针对列车开展各种分析挖掘活动。

如上所述，与其他复杂系统的监控相比，高速列车监控数据具有以下特点：

1.数据海量性与时序性：列车是一个综合整体，针对其中不同子系统\设备布设大量传感器，由于列车高速性，这些传感器需要以相对较高频率采集数据。因此，在增量过程中形成较大规模的数据集。以转向架振动传感器为例，其单点数据日增量达到10M以上，整列日增量达到500M；全网整体增量达到5GB；同时，这些数据具有明确的时序性。在数据组织过程中，需要根据时序先后顺序组织，同时也为各种分析处理活动的查询业务提供组织基础；

2.列车数据管理空间与里程相关性：如前所述，列车沿着固定路线行驶；所覆盖空间范围较为广阔。一方面，列车行驶路线的不同分段的外部环境对于列车健康以及故障发展具有不同的程度的影响；这一情况导致列车空间位置属性对于列车的采集数据的查询具有重要意义。因此，在列车数据组织过程中，需要将列车空间属性与采样数据之间建立关联关系；另一方面，根据管理规定，列车在行驶固定里程数后开展各种检修、分析工作，判断列车的健康状态，排除各种故障与潜在风险；因此列车数据管理活动中，需要在空间属性累积增量的基础上，依据里程对列车各种采集数据完整提取，开展综合分析；

3.列车对象关系动态性：列车由一组车厢构成。子系统\设备安装、附着在不同车厢中。各种传感器围绕子系统\设备开展数据采集与监控工作；列车由于其特点，在实际运营中其车厢编组具有一定的动态性，在不同时期根据运管要求加入或离开列车编组。这一情况导致采集数据与列车空间属性之间的关系具有动态性；在列车累积里程数据提取过程中，不能简单以车厢当前所属编组的列车里程作为车厢真实行驶里程；

4.数据提取复杂性：列车数据管理系统一方面承担各种采集数据存储管理的任务。另一方面，面向实时监控、综合分析等业务系统提供数据查询、提取的接口；在这些业务支撑过程中，一方面提供数据多值查询的接口；另一个方面往往针对传感器，提供单点数据查询的接口。因此，数据管理系统在组织结构上需要同时满足关系-键值查询结合的存储管理模型；

5.数据增量多样性：列车在行驶过程中，路况以及通信情况较为复杂。同时，各种传感器在采集数据的过程中，受网络、工况以及能量等方面的约束，不能全部以实时网络传输的方式，实现全部数据上报；部分数据通过本地缓存、阶段性上报的方式实现数据的接入增量；

高速列车是一个高速运行的复杂系统。由于其上述特点导致传统的数据存储管理系统在应对海量时序数据高性能存储、动态编组对象数据建模、面向列车的时空组织与复杂数据查询与提取等方面存在较大的不足，无法适应未来高速列车全网、全域范围内综合监控网络建设与发展的需求；针对上述问题，本发明提出一种面向高速列车实时监控数据海量数据管理技术。这一技术底层以分布式文件系统为基础，结合关系数据库构成基础数据存储管理支撑环境；在数据接入过程中，结合流式数据窗口管理、列车数据存储模型等手段满足高速列车海量监控数据管理的需求。

发明内容

针对目前高速列车实时监控工作采集的海量、异构感知数据高性能存储管理的需求，结合高速列车里程触发、动态编组等业务特点，本发明提出了一种面向高速列车实时监控的海量数据管理技术。这一技术以分布式文件系统和关系数据库构成二级存储架构。其上层基于关系数据库建立面向里程触发的窗口数据管理机制，实现监控数据的组织；利用底层分布式文件系统实现海量数据的平衡存储管理。在这一基础上，结合对象动态耦合的存储模型实现数据的有序组织。同时，利用全局-局部属性传递管理的方式，针对列车建立里程累积触发。满足列车监控、分析的需求。

本发明的一种面向高速列车实时监控的海量数据管理方法，其步骤包括：

1)基于关系数据库与分布式文件存储系统建立一体化流数据存储架构。

1-1)这一存储架构针对海量流数据存储以及高性能查询的需求，以分布式文件系统实现底层IO存储，利用文件的方式，实现单点传感器数据记录的存储；

1-2)在上述分布式文件存储系统存储传感器采集的数据的过程中，全部存储节点参与传感器数据的存储，在节点中建立与传感器标识对应的数据文件目录，通过目录的名字实现传感器数据文件的快速索引与定位；

1-3)在利用上述分布式文件系统存储单点传感器的数据记录的过程中，在存储节点与采样数据对应时段之间建立映射关系，根据传感器采集数据的时间所对应的时段位置绑定存储节点，实现定向存储，降低单点存储与查询瓶颈的限制；

1-4)在利用上述分布式文件存储系统存储采集的数据记录的过程中，在节点存储文件的内部以时间增量的顺序排序，便于基于时间约束的感知数据快速检索；

1-5)在上述存储架构中，以关系数据库构建存储缓存；这一缓存用于存储里程窗口内的感知数据；同时，这一关系数据库也为窗口内数据的基于关系代数的查询提供基础；

1-7)利用上述关系数据库的存储缓存实现窗口数据管理以及累计里程触发响应操作；

1-8)在采样数据增量过程中，关系数据库中的数据与分布式文件系统中的数据同步。

2)围绕高速列车的对象组织以及数据管理的特点，提出一种数据存储模型。这一模型通过松耦合的方式在不同层次的对象之间建立动态的组织关系。同时，基于这一动态组织关系，在全局时空属性以及局部时空属性之间建立传导。

2-1)在这一存储模型中，根据动态分组、传感器布设信息构造独立的组织模型。利用组织模型实现列车-车厢-传感器信息的动态聚合，解耦不同层次对象的信息组织关系，适应列车实际运行需要；

2-2)在这一模型中针对不同层次的对象建立全局属性(时空\里程)以及局部(时空\里程)信息组织模型，分别记录列车、车厢等级别对象的属性动态信息；

2-3)在数据增量的过程中，基于上述存储模型，利用对象之间的组织模型实现耦合期间不同层次对象之间全局属性(时空\里程)对局部属性(时空\里程)的传导。

3)在列车行驶过程中，传感器采样数据增量，基于上述存储架构以及存储模型的基础上，开展列车海量监控数据的存储管理。

3-1)列车传感器采样数据增量过程中，根据当前采样数据时间对应时段进行哈希处理，形成哈希值；

3-2)将底层分布式文件系统的全部存储节点首尾相接构成“环”，将其中的节点标识进行哈希处理，获得节点的哈希值；

3-3)将3-1与3-2所述的哈希值对应，为当前数据存储绑定节点；

3-4)在绑定节点中检索与当前传感器标识一致的目录，如果不存在则创建对应的目录；

3-5)在当前存储节点的对应目录下检索与当前时间段一致名称的数据文件，如果不存在则创建该文件；

3-6)将当前数据记录存储在上述文件中，存储过程中，依据采样时间排序；

3-7)将当前数据缓存在关系数据库的采样数据表中。

4)在列车行驶过程中，列车GPS数据增量(GPS是指全局属性)，根据上述存储模型实现里程窗口的管理以及阈值触发操作。

4-1)在上述过程中，将列车GPS数据的最新增量，插入全局属性(时空\里程)表中；

4-2)根据组织模型，获取当前列车编组中实时运行的车厢对象信息；

4-3)将当前列车GPS数据与这些车厢的局部属性(时空\里程)表中数据进行迭代，实现列车时空属性对车厢时空属性的传导；

4-5)在上述过程中属性、车厢里程迭代达到约束阈值时，触发窗口操作；

4-6)窗口触发操作启动，将当前车厢的全部传感器数据打包推送给业务系统；同时，将关系数据缓存中当前车厢的全部窗口中的数据清除，实现窗口的更新。

本发明针对高速列车动态分组、数据海量以及业务操作里程累计相关等特点建立一种数据管理技术。其在数据存储模型的基础上，基于二层关系数据库-分布式文件系统结合的存储架构，实现列车实时监控数据的高性能存储管理。与传统的数据存储技术相比具有以下特点：

1、本发明提出了一种混合存储架构，这一架构利用分布式文件系统实现数据的快速存储，利用关系数据库实现窗口数据集的组织管理，实现了海量数据的性能存储；同时，兼顾了高速列车实时监控以及数据分析、挖掘等业务高性能查询的要求；

2、本发明提出一种基于动态耦合的属性传导存储模型。这一模型利用组织信息模型实现多层次对象之间的动态聚合；同时，基于这一聚合模式，实现全局属性与对象局部属性的传导；这一方式降低了数据管理的复杂度，同时，减少了数据存储开销，一定程度上提高存储响应效率；

3、本发明提出的累积里程窗口触发方法在上述存储架构以及动态耦合的对象属性传递技术基础上，针对列车-车厢里程窗口数据进行统一管理；利用这一方法，可以根据列车行驶状态，快速响应到车厢级别的对象里程触发操作，能够提高列车监控与分析业务的精度与响应响应效率；

4、在基于380H型列车的实际感知数据管理实验中表明，相对传统的数据管理方法，本发明所提供的技术存储效率整体提高50％以上，查询响应效率提高20％，窗口触发效率提高50％。

综上，本发明针对高速列车实时监控，提供了大数据背景下海量、跨专业数据管理的核心技术，在交通、物流、智慧城市等领域具有积极的应用价值。

附图说明

图1是一种面向高速列车实时监控海量数据的存储管理技术架构图。

图2是分层属性传导的动态耦合存储模型图。

图3是数据管理组织架构图。

图4是采样数据接入与存储整体流程图。

图5是累积里程窗口整体管理流程图。

图6是实时增量触发管理的基本流程图。

图7是非实时续传增量触发管理基本流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步说明。

针对高速列车的特点，本发明提出一种面向高速列车实时监控海量数据的存储管理技术。这一技术的架构如图1所示。如图所示，其整体由模型层、数据管理层、数据分布组织层以及IO管理层等几个部分构成，其中：

模型层：其围绕高速列车车组动态性、数据时空性、监控增量分析累积性等特点建立数据模型。其主要由列车模型、全局属性增量存储模型、编组动态信息管理模型、车厢信息与里程增量累积管理模型、传感器布设信息、传感器采样增量数据管理模型等几个部分构成。其利用列车模型以及全局属性增量存储模型实现列车对象的创建以及以列车为对象的行驶轨迹GPS全局属性的存储管理。通过这一全局属性实现各个车厢不同编组时期的累积里程计算；同时，以车厢为组织，实现各种传感器信息以及采样数据的存储管理。

数据管理层：这一层中通过数据接入部分实现各个传感器数据的接入。在接入过程中依据数据流的特点，以累积里程数建立窗口，将里程窗口中的数据存储在关系数据库构成的缓存中，供实时监控等业务系统开展实时数据查询等业务支撑；同时，根据列车特点当车厢累积里程达到阶段性阈值设置时(例如：5000公里)，实现窗口触发，将缓存中当前车厢所包含的传感器数据整体提取，打包发送给列车健康分析等业务系统；另一方面，在列车增量数据缓存的过程中，将数据同步以分布式文件的方式存储。

数据分布组织层：这一层次主要对底层分布式文件存储系统的节点资源进行管理，通过哈希的方式，将底层分布式文件存储节点形成收尾相接的圆环，并将其与时段相对应。当数据管理层中有增量数据需要写入文件时，其根据该数据采样时间与底层特定文件存储节点建立映射关系，将其定向写入该节点与当前传感器和时段对应的数据文件中。

IO管理层：这一层次主要承担底层数据磁盘IO读写功能。其由一组分布式存储节点构成。每个节点依据哈希分配特定的时段的数据存储。不同传感器在节点中建立以传感器ID(全局唯一标识)为文件名的目录。该传感器特定时段中的数据存储在该目录下；不同时段的数据形成对应的数据文件。

本发明方法的主要步骤包括：1)传感器采集数据接入，将其缓存在窗口缓存中；2)根据采集数据时间获取其时段，将其哈希处理后形成timeKey。将timeKey与底层存储节点哈希值映射实现IO定向存储绑定；3)在绑定存储节点中创建与当前传感器标识对应的存储目录以及与当前数据时段对应的存储文件；4)将数据存储在文件中，并按照时间顺序排序；5)当列车全局属性(GPS)数据更新时，根据车厢与列车动态编组信息获取当前列车全部车厢；6)根据车厢加入编组的时间计算当前车厢的累计里程，并同步更新其属性数据记录；7)当车厢累计里程达到窗口阈值设置时(5000km)，触发操作；8)获取当前车厢全部传感器数据，将实时增量传感器处于窗口期中的数据打包，并清空其缓存中的数据记录；9)将续传增量触发传感器接入的数据根据窗口期分集，将属于窗口期的数据与已经缓存的数据打包，并维护窗口期数据的更新；10)完成车厢全部传感器数据的提取，形成累计里程数据集，推送给其他业务系统。

1.基于动态耦合的属性传导存储模型

围绕高速列车实时监控工作中数据增量、对象组织结构等方面的特点，本发明提出列车数据存储模型，依赖这一存储模型实现窗口缓存的数据存储并面向实时监控等业务提供基于关系模型的多值数据查询服务以及增量累积窗口触发操作。图2中展示了这一数据存储模型的基本结构。

列车模型定义如下：

train＝{ID,GPSList,groupInfoList}

其中，ID为列车标示，这一标示为全局唯一；GPSList为列车GPS轨迹点队列，这一队列中用于存储作为全局属性的列车GPS增量数据，这一数据一方面记录列车的轨迹，一方面为车厢时空属性的里程累积计算应用；groupInfoList为列车编组信息，这一编组信息用于记录列车的车厢编组历史信息，通过其可以查询车厢在不同时段的编组情况。

列车GPS轨迹点队列GPSList的定义如下：

GPSList＝{tID,{pos_i|i＝1,2,...n}}

pos＝{lx,ly,lz,time,v,railcode,a,mile}

其中：tID为列车标示，其与列车模型中的标示对应；lx,ly,lz为列车在某一时刻的空间位置；time为该时刻对应的时间值；v，a为该时刻列车的速度与加速度；railceode为列车在该时刻所行驶的路段编号；mile为列车在该时刻累积里程数。

列车编组信息groupInfoList的定义如下：

groupInfoList＝{tID,{carryJob_i|i＝1,2,...n}}

carryJob＝{carryID,jobIn,time}

其中，tID为列车标示，其与列车模型中标示定义映射；carryID为车厢ID，其与车厢模型中的车厢标示映射；jobIn为列车加入/退出当前编组信息，其取值为boolean型，取值为true表示车厢在该操作中加入当前列车编组；取值为false则表示车厢在该操作中退出当前列车编组；time为该编组操作时间；

车厢模型的定义如下：

carry＝{ID,info,carryGPSList}

carryGPSList＝{cID,lx,ly,lz,v,a,railcode,time,mile}

其中，ID为车厢标示，这一标示为全局唯一；Info为车厢基本信息，用于记录车厢基本信息；carryGPSList为车厢局部属性，用于记录车厢的行驶信息以及累积里程。

围绕车厢模型建立传感器信息模型以及数据流管理模型，其中传感器信息模型定义如下

sensor＝{ID,cID,deployInfo,sensorDataflow}

sensorDataflow＝{{value,time,timestamp}i|i＝1,2,...n}

其中，ID为当前传感器的标示，这一标示全局唯一；cID为该该传感器所部署车厢的标示，其与车厢模型中的标示对应；delployInfo为该传感器的部署信息；sensorDataflow为该传感器的采样增量数据流管理集，其中value为采样值，time为采样时间，timestamp为采样数据入库的时间戳。

在以上列车数据建模中通过编组信息实现列车、车厢、传感器三级对象以松耦合的方式组织与对应。同时，分别利用全局属性与局部属性实现对象动态关系下里程增量信息的随态自适应管理。利用这一模型，为列车各种数据建立全面的管理机制，满足列车综合分析的要求。

本发明建立了面向列车对象组织关系动态耦合以及属性传导的存储模型，该存储模型将对象之间组织关系以一个独立的信息模型存储，记录上级对象组织下级对象分组的加入与撤销过程信息(上级对象会根据情况添加或者撤销下级对象的分组信息)，同时对不同级别对象建立对应的属性存储模型，记录其时空数据。

2.一体化流式数据存储管理架构

如前所述，本发明所提出的数据管理技术是一种结合关系数据库与分布式文件系统的混合存储管理架构。这一架构针对流式数据的特点，以关系数据库形成窗口，面向实时性较高的业务系统提供查询支撑；以文件系统形成原始数据的同一存储。在存储过程中，以传感器标示为目录实现数据的规约存储。同时，根据数据增量的特点，以时段(例如：24小时)为基础实现数据的分集与分布存储。通过这一方式，减少数据存储节点的IO吞吐压力，同时，实现基于键值关系的数据存储，为海量数据的高性能端点数据查询提供基础。图3中展示了这一存储架构的基本结构：

如图3所示，这一数据管理架构由两个层次构成：基于关系数据库的里程窗口缓存与基于分布式文件系统的原始数据文件存储目录。系统以前述的存储模型实现列车各类数据的整体存储管理。增量数据的存储由两个部分构成：

里程累积窗口缓存：里程累积窗口缓存由关系数据库构成。在关系数据库中依据上述数据存储管理模型建立库表。其增量数据主要包括列车GPS数据与传感器采集数据两个部分。在这些数据增量过程中，系统将其存储在对应的关系数据表中。同时，在GPS数据增量过程中，分别计算列车与车厢的累积里程。当车厢的累积里程达到窗口阈值设置(5000公里)时，其触发窗口调用操作。这一操作将当前数据库中该车厢所布设全部传感器数据进行提取，打包并推送给其他业务系统开展增量分析；同时，将缓存中这些数据清除，开展下一个窗口数据的累积。

原始数据文件存储：原始数据文件存储依托分布式文件系统。在数据增量过程中，其与缓存数据库存储同步，将增量的传感器采集数据写入文件系统。系统首先在全部存储节点中创建与当前传感器标识(全局唯一)对应的存储目录。该传感器所有采样数据均存储在这些存储节点中与该标识对应的目录下。同时，系统将节点构造收尾相接的“环”，环中每个节点用于存储特定时段(某天)该传感器的全部采样数据；在数据增量过程中，系统根据采样时间选择对应的节点，并将该时段中的数据全部存在对应的数据文件中。随着时间变更，系统选择“环”中下一个节点，在其与传感器标示对应的目录下，创建与该时间段对应的文件继续存储；其中，分布式环境中的存储节点定义如下：

fileCache＝{dataNode_i|i＝1,2,...n}

datanode＝{ID,addr,{sIDdir_j|j＝1,2,...n}}

sIDdir＝{sID,{timeKey_k|k＝1,2,...n}}

其由一组节点dataNode构成，dataNode的定义包括：

ID为节点标示，系统通过对其ID的哈希处理实现数据存储的映射；

addr为节点地址；

sIDdir为传感器的数据文件存储目录。每一个传感器的全部数据文件都存在该传感器标示(sID)对应的目录下，其由一组时间段命名的文件timeKey(时间分段标识)构成。每一个文件用于存储一个特定时段内(通常为24小时)，该传感器的采样数据。

在前述过程中，系统需要根据传感器采样数据的时间time，在分布式存储环境中，确定IO文件的存储节点位置，并写入。针对这过程本发明提出的技术如下：

i)获取当前传感器采样数据time

time∈data_i,data∈sensorDataflow_j,sensorDataflow∈sensor_k

ii)确定当前time所对应的时段T，

timeKey＝HASH(getTimeSpan(time)),T_i-1≤time≤T_i

iii)将分布式环境中的存储节点dataNode进行哈希处理，与timekey建立映射关系：

getNode(fileCache,timeKey)＝iif(Map(HASH(dataNode_i))＝＝true)

then result＝dataNode_i

dataNode_i∈fileCache

iv)映射关系建立后，系统既可以在绑定的存储节点dataNode中传感器标示对应目录下与当前timekey对应的文件：

saveDataIO(dataNode_i,data,timeKey,sID)＝

iif(exist(dataNode_i,sID))

then saveFile(dataNode_i,sID,data,timeKey)

else create(dataNode_i,sID),saveFile(dataNode_i,sID,data,timeKey)

create(dataNode_i,sID)＝newDir(sID)→{sIDdir}@dataNode_i

saveFile(dataNode_i,sID,data,timeKey)＝

iif(exist(timeKey,sID)＝true)then putData(data,timeKey)

else createFile(sIDdir,timeKey),putData(data,timeKey)

sID＝Name(sIDdir_j),sIDdir_j∈dataNode

timeKey＝Name(timeKeyFile_k),timeKeyFile_k∈sIDdir_j

v)在数据的存储过程中，数据data需要存储在当前存储节点dataNode中与传感器标示sID对应目录下的timeKey对应的文件中。在文件存储过程中，需要根据采样数据的时间在文件中的数据序列时间对比，确定序列化关系后存在合适的位置：

putData(data,timeKey)＝data→timeKeyFile_k,timeKey＝Name(timeKeyFile_k)

data∈timeKeyFile_k,time∈data,

time_j≤time≤time_j+1,time_j∈data_j,time_j+1∈data_j+1

本发明提出的采样数据接入与存储整体流程如图4所示，其整体步骤如下：

1)传感器数据汇入数据接入模块，系统连接IO分布组织模块，创建逻辑IO存储访问；

2)获取当前数据对应的分布式环境中存储节点以及节点中的IO存储指针；

3)根据当前传感器数据接入的模式，写入数据，完成IO存储；

4)将当前数据存储在数据缓存中，完成里程窗口的缓存；

5)结束当前数据插入操作，返回。

3.窗口管理与里程累积触发

高速列车在日常监控中，需要围绕列车、车厢收集跨专业、海量感知数据。同时，根据管理规定，当车辆行驶达到一定里程后，对前期阶段性采集的数据进行统一的分析。在这一过程中，需要针对累积里程建立触发机制。当车辆行驶累积里程达到累积里程阈值设置时，将车厢中全部的数据统一打包，为后续的数据分析提供服务。由于列车具有动态分组的特点，在多数情况下，累积里程不能简单地以列车的里程作为车厢窗口分析的依据。针对这一情况，本发明提出的里程管理总体流程如图5所示，这一流程如下：

1、系统获取列车GPS数据；

2、通过列车历史GPS轨迹数据获取最后一次的GPS位置信息；

3、根据步骤1,2的数据计算列车这一时段的累积里程数；

4、更新列车累积里程数以及GPS数据；

5、获取列车当前编组信息；

6、领i＝1，获取当前编组中第i个车厢；

7、根据当前车厢在列车编组中的加入时间，计算当前车辆这一阶段的累积里程；

8、更新当前车厢累积里程以及GPS数据；

9、当前车厢累积里程达到窗口触发阈值(5000公里)则执行步骤10，否则执行步骤11；

10、领i＝1+1，获取第i个车厢，如果获取成功则执行步骤7，否则执行步骤11；

11、结束当前更新操作。

本发明在上级对象属性(GPS)更新过程中，根据列车存储模型识别当前上下级对象的构成关系；根据下级对象加入上级对象分组的时间计算上级对象属性(GPS)对其属性(GPS)的传导(列车对象的行驶里程数据更新过程中，下级对象会通过插值计算更新传感器采样时间对应的里程信息)，以获得正确的累计里程。在属性数据增量过程中，根据属性传导实现下级对象属性的累计更新；当累计达到窗口阈值设置时，设置当前对象窗口触发状态，从窗口缓存中获取该对象的全部传感器采样数据集打包推送。

列车行驶过程中需要采集大量数据。这些数据以多种方式实现上报与汇总。总体而言，包括以下两种主要的方式：

实时增量触发管理：这一增量触发管理主要针对通过网络实时传输的采样数据。

续传增量触发管理：这一增量触发管理主要针对通过文件交换的方式实现增量存储的采样数据。

由于存在非实时的数据增量过程。因此，在一定情况，列车的累积里程触发时会出现数据增量与里程累积不同步的情况，需要针对不同的增量方式区别建立触发数据提取操作，满足列车数据管理的要求。

图6中展示了实时增量管理的基本流程。这一基本流程如下：

1.车厢累积里程达到触发阈值，触发操作；

2.获取当前车厢全部传感器安装部署信息；

3.获取全部传感器信息；

4.当前传感器为实时增量触发管理传感器则执行步骤7，构造执行步骤5；

5.执行续传增量触发管理模式；

6.传感器增量触发操作，执行步骤11；

7.从缓存数据库中提取当前timestamp对应的全部数据记录

8.从缓存数据库中删除上述提取的数据记录；

9.将数据记录转存在中间缓存中；

10.提取下一个传感器，完成全部传感器提取则执行步骤11，否则执行步骤4；

11.当前车厢中间缓存中全部传感器数据收集完毕则执行步骤12，否则等待；

12.提取当前车厢全部数据，删除中间缓存，开展后续疲劳分析；

13.结束。

非实时续传增量触发传感器的流程如图7所示，包括如下步骤：

1、非实时数据接入处理流程启动；

2、上传并获取数据文件；

3、查看当前传感器所部署的车厢是否处于触发状态，如果否则执行步骤4，否则执行步骤5；

4、数据存储入库，结束；

5、提取增量数据中累积里程区间中的采样数据子集；

6、将子集中的数据存入缓存，并通知检查当前车厢是否完成全部数据集的提取；

7、子集数据文件更新；

8、非子集中的数据正常入库；

9、结束。

通过以上的方式，实现实时与非实时数据的触发同步，满足多种模式下列车累积里程自动数据处理与分析的要求。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种面向高速列车实时监控的海量数据管理方法，其步骤包括：

第一步：基于分布式文件系统与关系数据库构建存储架构，利用关系数据库实现窗口数据的缓存管理，称为窗口缓存；利用分布式文件系统实现海量传感器采样数据的高性能存储，该分布式文件系统由一组存储节点{dataNode₁，dataNode₂，....dataNode_n}构成；

第二步：在分布式文件系统中，将一个传感器的全部数据分储在不同的存储节点dataNode中，每个dataNode的根目录下建立与传感器标识对应的目录，该目录下以文件的形式存储特定时段内该传感器的采样数据；

第三步：对列车-车厢-传感器建立层次化的存储模型，不同层级对象之间建立动态组织信息模型以及全局与局部时空属性数据模型；

第四步：在单点传感器数据增量过程中，接收传感器上报的采样数据data＝{value,time}，该采样数据作为新增数据存储在关系数据库构造的缓存中，同时将其作为基础数据同步存储在分布式文件系统中；

第五步：在第四步所描述的过程中，根据采样数据的时间time，获取其所对应的时间段，并进行哈希处理，获得该数据的时间分段标识timeKey：

timeKey＝HASH(getTimeSpan(time)),time∈data；其中getTimeSpan为获取时间分段标识操作；

第六步：在第四步所描述的过程中，将分布式系统中的全部存储节点dataNode构成首尾相接的环，并将其做哈希处理，将获取的哈希值与第五步中所述的timeKey建立映射，以得到当前数据选择存储的节点dataNode；

第七步：判断第六步得到的当前数据选择存储的节点dataNode中是否存在与当前传感器标识对应的目录，如果不存在则创建与该传感器标识对应的目录；

第八步：在当前dataNode中传感器对应目录下寻找与当天timeKey名称一致的存储文件，如果不存在则创建该文件；

第九步：将当前数据写入与timeKey对应的文件中，在写入的过程中按照时间排序；

第十步：完成数据的文件存储同步，结束当前传感器采集数据的写入；

第十一步：在列车GPS数据更新时，系统接收当前列车的GPS数据，并根据最后一次GPS数据计算增量时段内的累计里程数，完成其在全局属性表中的存储；

第十二步：通过动态组织信息表获取当前列车编组信息，获取参与列车当前编组的全部车厢对象{carry₁，carry₂，....carry_n}；将当前列车GPS数据与这些车厢对象的局部时空属性表进行GPS数据更新，同时根据其加入编组时间以及最近一次属性GPS设计记录更新累计里程；

第十三步：如果车厢carry_i的累计里程达到触发阈值，则将该车厢的窗口状态设置为触发状态，提取其全部传感器{sensor₁，sensor₂，.....sensor_m}在缓存中的数据打包，并清空缓存中的数据记录；

第十四步：在第十三步中，如果sensor_k是实时增量触发管理类型传感器，则从窗口缓存中提取其在当前里程窗口中的全部数据记录，并放置在中间缓存中，清除窗口缓存中该传感器的全部数据记录；

第十五步：在第十三步中，如果sensor_j是续传增量触发管理类型传感器，则将缓存中现有的数据记录打包；同时，将后续上传的数据进行分集处理，所述分集处理是将后续上传数据中采样时间在当前里程窗口中的数据子集作为窗口数据与前述打包数据合并，放置在中间缓存中，其他数据作为新增量数据在窗口缓存中存储；同时，上述新增数据在分布式文件系统中同步；

第十六步：当当前传感器车厢carry_i的全部传感器数据完成窗口触发操作响应后，将打包的数据推送给业务分析系统，从而完成里程窗口触发操作。

2.如权利要求1所述的方法，其特征在于，所述分布式文件系统以传感器标识作为存储节点中的对象存储目录，以时间段作为特定时期采样数据集的存储文件。

3.如权利要求2所述的方法，其特征在于，所述分布式文件系统在数据文件存储过程中，将传感器采样时间对应的特定分段作为文件名标识timeKey，将这一标识哈希处理后形成全局唯一的哈希码，将其与分布式文件系统存储节点的哈希值映射实现一对一的IO定向绑定。

4.如权利要求2所述的方法，其特征在于，所述分布式文件系统在文件存储的过程中，文件内部根据采样数据的时间time先后顺序排序，形成有序的数据流组织。

5.如权利要求1所述的方法，其特征在于，将增量数据在关系数据库与分布式文件系统中同步存储；窗口缓存中的数据根据当前列车行驶里程设置触发阈值，当对象属性累计到一定阈值时，从缓存中提取这一时期对象的全部传感器采样数据集，开展后续处理与分析。

6.如权利要求1所述的方法，其特征在于，第三步建立面向列车对象组织关系动态耦合以及属性传导的存储模型，该存储模型将对象之间组织关系以一个独立的信息模型存储，记录上级对象组织下级对象分组的加入与撤销过程信息，同时对不同级别对象建立对应的属性存储模型，记录其时空数据。

7.如权利要求6所述的方法，其特征在于，在上级对象属性更新过程中根据列车存储模型识别当前上下级对象的构成关系；根据下级对象加入上级对象分组的时间计算上级对象属性对其属性的传导，获得正确的累计里程。

8.如权利要求7所述的方法，其特征在于，在属性数据增量过程中，根据属性传导实现下级对象属性的累计更新；当累计达到窗口阈值设置时，设置当前对象窗口触发状态，从窗口缓存中获取该对象的全部传感器采样数据集打包推送。

9.如权利要求8所述的方法，其特征在于，如果传感器为实时增量触发管理类型传感器，则在完成所述打包推送后清空窗口缓存；如果传感器为续传增量触发管理类型传感器，则在上传新的数据时，从数据集中获取当前窗口所覆盖时期的数据并与窗口缓存中的已有数据合并，形成窗口数据集打包推送，完成上述操作后清空窗口缓存，并将新增数据缓存。

10.如权利要求1或9所述的方法，其特征在于，当一个对象的全部传感器窗口中数据完成提取后，形成完整数据集，打包推动给其他业务系统，完成一个对象累计窗口触发操作管理。