CN115374101A - 轨道交通站段级数据管理系统 - Google Patents

轨道交通站段级数据管理系统 Download PDF

Info

Publication number
CN115374101A
CN115374101A CN202110700210.1A CN202110700210A CN115374101A CN 115374101 A CN115374101 A CN 115374101A CN 202110700210 A CN202110700210 A CN 202110700210A CN 115374101 A CN115374101 A CN 115374101A
Authority
CN
China
Prior art keywords
data
station
level data
target
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110700210.1A
Other languages
English (en)
Inventor
付哲
肖骁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Traffic Control Technology TCT Co Ltd
Original Assignee
Traffic Control Technology TCT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Traffic Control Technology TCT Co Ltd filed Critical Traffic Control Technology TCT Co Ltd
Publication of CN115374101A publication Critical patent/CN115374101A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • G06Q50/40

Abstract

本发明提供一种轨道交通站段级数据管理系统,包括:感知单元,用于采集站段级城轨系统中的站段级数据;承载单元,用于扩展站段级数据的中心容量、确保站段级数据的可用性、自动部署站段级数据的采集任务、跟踪采集任务以及实时监控所述站段级数据的采集进程;数据单元,用于对不同站段级城轨系统的站段级数据进行共享和汇聚,并存储感知单元采集的站段级数据,以及对存储的站段级数据进行数据处理;智能单元,用于对数据处理后的站段级数据进行标定处理以及特征工程处理。本发明通过构建基于海量数据的采集、汇聚、分析和服务体系的轨道交通站段级数据管理系统,能够满足智慧城市轨道交通建设的数字化、网络化和智能化需求。

Description

轨道交通站段级数据管理系统
技术领域
本发明涉及轨道交通技术领域,尤其涉及一种轨道交通站段级数据管理系统。
背景技术
随着“互联网+城市轨道交通”战略的推进,信息化建设也已进入到大规模开发和应用阶段。云计算、大数据等信息计划在城市轨道交通行业逐渐得到应用,城市轨道交通系统性能的提升有赖于系统在设计、开发、生产、测试、安装、验证、维护、维修等全生命周期过程的持续研发投入、数据积累和设计改进。
但是,目前城市轨道交通缺少一套“云基础设施+终端连接+数据分析+应用服务”等端到端的解决方案。
发明内容
本发明提供的轨道交通站段级数据管理系统及构建方法,用于克服现有技术中存在的上述至少一个问题,通过构建基于海量数据的采集、汇聚、分析和服务体系的轨道交通站段级数据管理系统,能够满足智慧城市轨道交通建设的数字化、网络化和智能化需求。
本发明提供的一种轨道交通站段级数据管理系统,包括:
感知单元,包括数据采集模块,所述数据采集模块用于采集站段级城轨系统中各轨道交通站点的站段级数据;
承载单元,与所述数据采集模块连接,用于扩展站段级数据的中心容量、确保所述站段级数据的可用性、自动部署所述站段级数据的采集任务、跟踪所述采集任务以及实时监控所述站段级数据的采集进程;
数据单元,与所述承载单元连接,用于基于不同的目标数据总线对不同站段级城轨系统的所述站段级数据进行共享和汇聚,并存储所述感知单元采集的所述站段级数据,以及对存储的所述站段级数据进行数据处理;
智能单元,与所述数据单元连接,用于对数据处理后的站段级数据进行标定处理以及特征工程处理。
根据本发明提供的一种轨道交通站段级数据管理系统,所述数据采集模块,包括:
实时结构化数据采集子模块,用于基于预设的Restful接口和ProtoBuf接口采集结构化的第一站段级数据;
事务型数据采集子模块,用于基于目标ElasticSearch集群和数据仓库采集事务型数据库中的第二站段级数据;
业务系统接口数据采集子模块,用于根据所述站段级城轨系统的接口地址、采样周期和权限验证信息,采集所述站段级城轨系统中的第三站段级数据;
视频数据采集子模块,用于基于预设视频流协议采集视频类的第四站段级数据。
根据本发明提供的一种轨道交通站段级数据管理系统,所述承载单元,包括:
站段超融合模块,用于通过将目标物理服务器资源转化为统一管理、调度和分配的逻辑资源,并基于所述逻辑资源在所述目标物理服务器上构建预设数量个虚拟机,以确保所述站段级数据的可用性;以及
通过将所述虚拟机与所述目标物理服务器进行通信连接,以实现对所述站段级数据的中心容量进行扩展;
容器模块,用于基于目标Kubernetes对所述站段级数据的采集任务部署对应的任务节点,并根据所述任务节点的部署状态来对所述采集任务进行跟踪,以及通过实时采集所述任务节点所使用的所述逻辑资源来对所述站段级数据的采集进程进行实时监控。
根据本发明提供的一种轨道交通站段级数据管理系统,所述容器模块,还用于:
若所述任务节点和所述目标Kubernetes的基本调度单元所使用的所述逻辑资源中目标资源指标之和大于预设阈值时,则进行阈值报警。
根据本发明提供的一种轨道交通站段级数据管理系统,所述数据单元,包括:
数据总线模块,用于提供包括单网域数据总线和跨网数据总线在内的目标数据总线,并基于所述单网域数据总线对同一网域内的所述站段级城轨系统中的站段级数据进行汇聚和共享,以及基于所述跨网数据总线对不同网域内的所述站段级城轨系统中站段级数据进行汇聚和共享;
站段级数据存储模块,用于基于内存数据库集群或对象存储模式集群存储所述感知单元采集的所述站段级城轨系统中的站段级数据;
数据治理模块,对所述内存数据库集群存储的目标站段级数据进行数据整合、维度建模以及指标管理。
根据本发明提供的一种轨道交通站段级数据管理系统,所述站段级数据存储模块,还用于:
存储所述轨道交通站段级管理系统产生的热数据;
其中,所述热数据是根据数据的存储时长与预设过期时长之间的大小关系确定的。
根据本发明提供的一种轨道交通站段级数据管理系统,所述数据治理模块,包括:
数据整合子模块,用于通过对所述目标站段级数据进行数据清洗、数据聚合以及数据去重处理;
维度建模子模块,用于对所述目标站段级数据进行维度建模;
指标管理子模块,用于对所述目标站段级数据进行指标设计、指标目录管理以及指标固化使用;
其中,所述数据清洗包括过滤所述目标站段级数据中的脏数据、对所述目标站段级数据中的格式化数据进行整理以及对所述目标站段级数据进行裁剪合并;
所述数据聚合是通过对不同的目标站段级数据进行关联合并,以确定所述不同的目标站段级数据之间的关联关系,并根据所述关联关系对所述不同的目标站段级数据进行聚合。
本发明还提供一种轨道交通站段级数据管理系统,所述智能单元,包括:
异常检测模块,用于确定所述数据处理后的站段级数据中与正常站段级数据相似度低的异常样本;
异常检索模块,用于基于预设时序检索算法对所述数据处理后的站段级数据进行故障样本检索,并根据检索结果中的故障样本对所述异常样本进行标定处理;
特征工程处理模块,用于对所述数据处理后的站段级数据进行特征变换、特征重要性评估、特征选择和特征生成。
根据本发明提供的一种轨道交通站段级数据管理系统,所述维度建模子模块,包括:
预处理工具,用于对所述目标站段级数据进行如下数据预处理中的至少一种:
采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列和派生列;
ETL工具,用于以工作流的形式提取所述目标站段级数据的语义,并根据所述语义构建语义一致性和完整性的数据模型。
根据本发明提供的一种轨道交通站段级数据管理系统,所述数据采集模块,还包括:
文件采集子系统,用于基于目标Flume配置文件,分别将所述第一站段级数据、所述第二站段级数据、所述第三站段级数据和所述第四站段级数据采集到不同的文件目录下。
本发明提供的轨道交通站段级数据管理系统,通过构建基于海量数据的采集、汇聚、分析和服务体系的轨道交通站段级数据管理系统,能够满足智慧城市轨道交通建设的数字化、网络化和智能化需求。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的轨道交通站段级数据管理系统的结构示意图;
图2是本发明提供的基于单网域数据总线进行数据汇集和共享的结构示意图;
图3是本发明提供的基于跨网域数据传输总线进行数据汇集和共享的结构示意图;
图4是本发明提供的数据持久化保存的结构示意图;
图5是本发明提供的模型训练的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
面向智慧城市轨道交通建设的数字化、网络化、智能化需求,构建基于海量数据的采集、汇聚、分析和服务体系,支撑资源的泛在连接、弹性供给、高效配置的城市轨道交通站段级数据管理系统。
该系统可以提供系统承载、数据共享和智能化分析赋能等能力,所有站段级城轨业务系统都通过站段级天枢云平台实现集成。基于统一数据源开发应用服务,应用大数据和人工智能技术打造城市轨道交通智能业务模型,助力城轨业务从自动化向智能化的演进,构建状态感知-实时分析-科学决策-精准执行的闭环智能。具体实现如下:
图1是本发明提供的轨道交通站段级数据管理系统的结构示意图,如图1所示,系统包括:
感知单元10,包括数据采集模块,数据采集模块用于采集站段级城轨系统中的站段级数据;
承载单元11,与数据采集模块连接,用于扩展站段级数据的中心容量、确保站段级数据的可用性、自动部署站段级数据的采集任务、跟踪采集任务以及实时监控站段级数据的采集进程;
数据单元12,与承载单元11连接,用于基于不同的目标数据总线对不同站段级城轨系统的站段级数据进行共享和汇聚,并存储感知单元10采集的站段级数据,以及对存储的站段级数据进行数据处理;
智能单元13,与数据单元12连接,用于对数据处理后的站段级数据进行标定处理以及特征工程处理。
可选地,本发明提供的轨道交通站段级数据管理系统可以具体包括感知单元10、承载单元11、数据单元12和智能单元13,其中,感知单元10包括有数据采集系统,数据采集系统可以容纳城轨系统全部子系统中的站段级数据的收集需求,包括对既有的生产网维护子系统的数据管理、对企业生产过程数据及人员绩效的收集、基于物联网的设备工况数据等城轨系统中的站段级数据的高精度采集。
其中,站段级数据可以具体包括如下数据:机务段数据、直属站数据、车务段数据、动车段数据、动车所、客运段、供电段、工务段、车辆段、电务段等数据。
需要说明的是,本发明提供的感知单元10还可以通过对物理网关IoT的开发,使得感知单元10支持数据校核、离线服务自定义配置、统一权限管理、消费管理、在线服务插件化等功能,具体地:
IoT网关既可以用于广域网互连,也可以用于局域网互连。此外IoT网关还需要具备设备管理功能,用户通过IoT网关设备可以管理底层的各感知节点,了解各节点的相关信息,并实现远程控制。物联网网关的功能主要包括以下三个方面:
协议转换能力:从不同的感知单元到接入网络的协议转换、将下层的标准格式的数据统一封装、保证不同的感知单元的协议能够变成统一的数据和信令;将上层下发的数据包解析成感知单元协议可以识别的信令和控制指令。常见感知单元协议包括:MQTT、CoAp、Modbus、Profinet等。
可管理能力:首先要对网关进行管理,如注册管理、权限管理、状态监管等。网关实现子网内的节点的管理,如获取节点的标识、状态、属性、能量等,以及远程实现唤醒、控制、诊断、升级和维护等。由于子网的技术标准不同,协议的复杂性不同,网关具有的管理能力有所不同。
广泛的接入能力:支持wifi、4G、5G等通信协议接入。
承载单元11,用于最大限度的扩展站段级数据的中心容量、确保站段级数据的可用性、自动部署站段级数据的采集任务、跟踪采集任务以及实时监控站段级数据的采集进程。
数据单元12,通过对不同目标数据总线的研发可以实现对采集的不同站段级城轨系统的站段级数据进行共享和汇聚,并对已采集的各类站段级数据进行存储,以为后续的数据处理和数据智能分析提供基础。
智能单元13,用于对数据处理后的站段级数据进行标定以及特征工程处理。
本发明提供的轨道交通站段级数据管理系统,通过构建基于海量数据的采集、汇聚、分析和服务体系的轨道交通站段级数据管理系统,能够满足智慧城市轨道交通建设的数字化、网络化和智能化需求。
进一步地,在一个实施例中,数据采集模块,可以具体包括:
实时结构化数据采集子模块,用于基于预设的Restful接口和ProtoBuf接口采集结构化的第一站段级数据;
事务型数据采集子模块,用于基于目标ElasticSearch集群和数据仓库采集事务型数据库中的第二站段级数据;
业务系统接口数据采集子模块,用于根据站段级城轨系统的接口地址、采样周期和权限验证信息,采集站段级城轨系统中的第三站段级数据;
视频数据采集子模块,用于基于预设视频流协议采集视频类的第四站段级数据。
可选地,本发明提供的轨道交通站段级数据管理系统,支持实时结构化数据接入,具体地,基于实时结构化数据采集子模块,将实时结构化的第一站段级数据通过预设的Restful类型的接口和字节压缩后的ProtoBuf类型的接口接入,为高并发的实时数据采集建立接口基础。
本发明提供的轨道交通站段级数据管理系统还提供事务型数据转换接入,基于事务型数据采集子模块,通过轨道交通站段级数据管理系统提供的数据转换工具,把事务型数据库的第二站段级数据接入目标ElasticSearch集群以及数据仓库中。
本发明提供的轨道交通站段级数据管理系统,基于业务系统接口数据采集子模块中离线配置的站段级城轨系统的接口地址、采样周期以及相关的权限验证信息,主动周期或定期性的从站段级城轨系统给定的接口地址或权限验证信息鉴权Token获取站段级城轨系统的第三站段级数据,接入到数据仓库中。
本发明提供的轨道交通站段级数据管理系统,基于视频数据采集子模块,提供视频流拉取和推送服务,基于RTMP、RTSP等预设视频流协议从视频采集方获取视频类的第四站段级数据,并为视频订阅方推送视频数据。
本发明提供的轨道交通站段级数据管理系统,基于构建的精准、实时、高效的数据采集体系,能够适应多源异构数据的采集需求。
进一步地,在一个实施例中,承载单元11,可以具体包括:
站段超融合模块,用于通过将目标物理服务器资源转化为统一管理、调度和分配的逻辑资源,并基于逻辑资源在目标物理服务器上构建预设数量个虚拟机,以确保站段级数据的可用性;以及
通过将虚拟机与目标物理服务器进行通信连接,以实现对站段级数据的中心容量进行扩展;
容器模块,用于基于目标Kubernetes对站段级数据的采集任务部署对应的任务节点,并根据任务节点的部署状态来对采集任务进行跟踪,以及通过实时采集任务节点所使用的逻辑资源来对站段级数据的采集进程进行实时监控。
可选地,站段超融合模块是以目标物理服务器(硬件服务器)为基础,最大限度实现对站段级数据中心容量的扩展性和数据的可用性。站段超融合模块以虚拟机为核心,提升集群的运算效能和存储空间,具有简单、高效、高性能、易部署等优势。在站段超融合模块模式下,用户所使用的虚拟机和存储空间是利用软件构建的,这样就使得底层物理设备与用户之间保持隔离的状态,实现了硬件资源与虚拟化平台的完整融合,具体实现如下:
计算资源池由目标物理服务器虚拟化软件提供,采用如裸金属架构的X86虚拟化技术,实现对目标服务器物理资源的抽象,将CPU、内存、I/O等服务器物理资源转化为一组可统一管理、调度和分配的逻辑资源,并基于这些逻辑资源在单个目标物理服务器上构建多个同时运行、相互隔离的虚拟机执行环境,实现更高的资源利用率,同时满足应用更加灵活的资源动态分配需求,譬如提供热迁移、HA等高可用特性,实现更低的运营成本、更高的灵活性和更快速的业务响应速度。
基于集群设计,将目标物理服务器上的硬盘存储空间组织起来形成一个统一的虚拟共享存储资源池,进行数据的高可靠、高性能存储。分布式存储系统在功能上与独立共享存储完全一致;一份数据会同时存储在多个不同的目标物理服务器硬盘上,提升数据可靠性;此外,再通过SSD缓存,可以大幅提升服务器硬盘的IO性能,实现高性能存储。
在虚拟机和物理网络之间,提供一整套完整的逻辑网络设备、连接和服务,包括分布式虚拟交换机、虚拟路由器、虚拟下一代防火墙、虚拟应用交付、虚拟vSSL VPN、虚拟广域网优化vWOC等虚拟网络、安全设备;然后,还可以支持VXLAN等增强网络协议,实现虚拟机与目标物理服务器的无缝对接,简化网络的配置管理;此外,还可以通过虚拟化管理平台,实现网络拓扑部署、网络故障探测等网络管理功能。
从而,虚拟网络可以快速完成不同应用系统的网络部署,网络配置的自动化调整,网络故障排查等工作,提升网络的管理运维效率,提升网络就绪、对站段级数据的中心容量进行扩展,降低数据中心物理网络的建设成本。
超融合的高性能I/O能力会在虚拟机进行数据写操作时对写入数据的数据分割为若干KB级别的数据块,并把这些数据块进行一定的计算后缓存到当前主机的缓存盘中。由于SSD的高速随机读写性能的特性,上层的业务可以快速的完成而不需要等待底层的物理磁盘的读写确认,从而大大的提升了虚拟机的读写性能。超融合的缓存机制把保证读写的操作都可以保存到缓存盘中,而大量的顺序读写操作则可以提交给底层机械磁盘进行处理。
容器提供了在计算机上的隔离环境中安装和运行应用程序的方法。在容器内运行的应用程序仅可使用于为该容器分配的资源,例如:CPU、内存、磁盘、进程空间、用户、网络、共享卷等。在使用有限的容器资源的同时,并不与其他容器冲突。在使用过程中,可以将容器视为简易计算机上运行应用程序的隔离沙箱,容器模块具体实现如下:
镜像仓库主要是对docker镜像进行统一管理。用户可以推送docker镜像到镜像仓库,也可以拉取仓库中的docker镜像到本地。通过项目进行组织管理docker镜像,并可以配置访问级别和储存容量。
基于目标Kubernetes在线部署前端服务、后台服务、Ingress网关、MySQL(单节点)、Kafka(单节点)、Redis(单节点)等服务。用户可以使用内置的部署模板来执行部署任务,实现服务的自动化部署。另外,用户在登陆后可以查看任务的执行记录、任务的执行日志信息。并提供Web SSH登录服务器,链接到目标Kubernetes管理界面以及Harbor镜像仓库的功能。
集成目标Kubernetes的参数模板后,用户可以添加对站段级数据的采集任务,填写对应的模板表单,进行保存后就创建了对应的部署任务。其中自研服务对应服务的前端和后台,网关对应Ingress,中间件对应MySQL、Redis、Kafka这些基础服务。保存后的任务将会处于待执行状态,可以查看采集任务、修改采集任务参数,检查无误后可以执行自动化部署任务。任务执行后,可以查看采集任务的执行状态以及任务日志。
执行部署任务后,需要查看任务的执行状态,查看Kubernetes是否成功拉取镜像、调度到对应的节点上并创建服务,以便确定服务是否部署成功。平台提供部署任务跟踪功能,可以查看任务的执行记录,查看Kubernetes部署服务的关键配置信息是否正确,任务的执行日志,以及service、基本调度单元pod的调度状态。如果有部署失败,可以及时调整参数信息重新部署服务。另外技术人员可以登录到系统提供的Web SSH终端,在服务器中自行手动查看服务状态。
节点资源监控是针对主机的监控,通过节点资源监控可以及时了解主机的资源使用情况、趋势和告警,使用这些信息可以快速响应,保证主机流畅运行,合理利用目标物理服务器资源。节点资源监控可以实时采集每个任务节点的所使用的逻辑资源例如CPU、内存、磁盘、IO、网络下行速率、上行速率等数据持久化存储,并通过报表可视化展示任务节点所占用的逻辑资源数据,例如可以通过曲线图、数字图、TopN图表等,进而全面、深入地实时监控站段级数据的采集进程,更直观的查看任务节点的状态。
本发明提供的轨道交通站段级数据管理系统,通过计算、网络、存储等资源的虚拟化,实现信息资源基础设施的池化,提供海量数据处理能力。
进一步地,在一个实施例中,容器模块,还可以用于:
若任务节点和目标Kubernetes的基本调度单元所使用的逻辑资源中目标资源指标之和大于预设阈值时,则进行阈值报警。
可选地,容器模块支持微服务监控功能,在微服务的架构下,大部分功能模块都是单独部署运行的,彼此通过总线交互,这种架构下,前后台的业务流会经过很多个微服务中间件的处理和传递。目标Kubernetes也需要根据数据指标来采集相关数据,从而完成对集群服务的监控状况进行监测。服务监控主要是采集目标Kubernetes部署的service以及基本调度单元pod的所占用的逻辑资源如内存、CPU、磁盘、网络、部署过程、副本数量、状态信息、健康状态等数据,并通过可视化图表进行展示。
对于重点关注的逻辑资源的目标资源指标(例如CPU、磁盘使用情况)可以创建阈值规则,当任务节点和目标Kubernetes的基本调度单元pod所占用的目标资源指标大于预设阈值时,会产生阈值报警,以便运维人员可在第一时间发现异常及其根因。接收客户端发来的警报,之后通过分组、删除重复的任务节点等处理,将它们通过路由发送给正确的接收器。
其中,报警方式可以按照不同的规则发送给不同的模块负责人,支持Email报警方式,也可以通过Webhook接入钉钉、企业微信等国内即时通讯工具进行报警。
本发明提供的轨道交通站段级数据管理系统,能够根据数据采集任务的资源占用状况,及时报警,以使得可以及时通过合理调配资源完成对数据的采集。
进一步地,在一个实施例中,数据单元12,可以具体包括:
数据总线模块,用于提供包括单网域数据总线和跨网数据总线在内的目标数据总线,并基于单网域数据总线对同一网域内的站段级城轨系统中的站段级数据进行汇聚和共享,以及基于跨网数据总线对不同网域内的站段级城轨系统中站段级数据进行汇聚和共享;
站段级数据存储模块,用于基于内存数据库集群或对象存储模式集群存储感知单元采集的站段级城轨系统中的站段级数据;
数据治理模块,对内存数据库集群存储的目标站段级数据进行数据整合、维度建模以及指标管理。
可选地,通过单网域数据总线,实现同一网域的站段级城轨系统的站段级数据的共享与汇聚;通过不同网域数据总线之间关联,实现不同网域的站段级城轨系统(例如安全生产、内部管理和外部服务)数据的共享与汇聚;通过不同地域数据总线之间关联,实现列车、车站、中心数据平台互通,实现低层平台价值数据向高层平台汇聚。
大容量传输总线基于实时多节点集群服务,并使用分布式消息队列集群和内存队列集群处理实时数据,具备高并发、高吞吐、高可用的总线特征,为海量数据的实时采集汇入提供支撑。
通过单网域数据总线,实现同一网域的多个站段级城轨系统(站段级城轨系统A至站段级城轨系统E)的站段级数据共享与汇聚,具体如图2所示。
通过跨网域数据总线(由不同单网域数据总线如数据总线I、数据总线II以及数据总线III构成),实现配置数据库中不同网域内(安全生产(系统A和系统B)、内部管理(系统C和系统D)和外部服务(系统E和系统F)三个网域)的站段级数据的共享与汇聚,具体如图3所示。
本发明提供的轨道交通站段级数据管理系统为各个站段级城轨系统传输命令数据提供了可靠性通道。发送命令的站段级城轨系统在轨道交通站段级数据管理系统的后台配置通道,定义好命令的接收方,将会自动根据生产方的配置创建可靠性传输队列。
命令接收方只需根据提示,绑定自己对应的队列,生产消息发送命令至轨道交通站段级数据管理系统的时候,队列自动会将命令消息主动推送到所有命令接收方的队列。
站段级数据存储模块承接已采集的各类数据,并为数据治理和数据智能分析提供基础。站段级数据存储模块应具备以下功能:
实时数据存储系统由内存数据库集群(例如MySQL集群)构成,满足多用户同时消费数据的实时数据队列。
高可用的内存数据库集群,满足多个站段级城轨系统实时消费场景。不同业务基于实时内存数据库集群分组不同队列,保证每个消费实时有序。实时数据存储可以基于redis进行实施。
对于数据治理模块进行处理后的数据,使用目标Elasticsearch集群进行存储,以实现对结构化的数据的大容量分主题存储,利用其内部特性,可以更好的对结构化数据进行数据挖掘与分析。
另外其优秀的水平扩展能力可以对集群的升级扩容提供良好的支撑,达到更高量级的存储要求。结合其优秀的索引能力和丰富的接口,实现对亿级数据的短时间搜索查询。通过其JDBC的支持,统一对外提供更方便的SQL语言接口,实现对数据的统一操作,利于人机间友好的交互。
将视频、图片、PDF等静态非结构化的站段级数据使用对象存储模式集群存储。适合大型客户在自建私有云环境中提供多租户的大容量存储服务,目前对象存储的部署级别基本都在PB级以上。此外由于对象存储对读取的支持要好于写入,因此对象存储模式更适合于静态数据的存放。
数据治理模块,包括数据整合、维度建模和指标管理三大类内容,用于对内存数据库集群存储的目标站段级数据进行数据整合、维度建模以及指标管理。
本发明提供的轨道交通站段级数据管理系统,为海量数据的实时采集汇入提供支撑,并可以实现对海量数据的存储以及治理。
进一步地,在一个实施例中,站段级数据存储模块,还可以具体用于:
存储轨道交通站段级管理系统产生的热数据;
其中,热数据是根据数据的存储时长与预设过期时长之间的大小关系确定的。
可选地,站段级数据存储模块还提供冷热数据调度服务,轨道交通站段级管理系统产生的热数据会存储到目标Elasticsearch集群中,通过目标Elasticsearch集群的查询接口可以快速获取热数据。具体过程如图4所示:
冷热数据调度服务会根据数据的存储时长与预设过期时长之间的大小关系,判断目标Elasticsearch集群中的热数据状态是否过期,如果为过期状态,冷热数据调度服务会把热数据标记为冷数据,数据调度服务会在空闲时间定时的去删除存储在目标Elasticsearch集群中的冷数据。
冷热数据调度服务会定时的对热数据进行导出并定时备份到冷数据ftp服务器中,实现所有数据的持久化保存。
本发明提供的轨道交通站段级数据管理系统,能够确保目标Elasticsearch集群中数据都为热数据,避免出现冷热数据堆积的情况,保证目标Elasticsearch集群可以提供更高效进行热数据查询服务,减少冷数据过多导致的服务器查询计算压力。
进一步地,在一个实施例中,数据治理模块,可以具体包括:
数据整合子模块,用于通过对目标站段级数据进行数据清洗、数据聚合以及数据去重处理;
维度建模子模块,用于对目标站段级数据进行维度建模;
指标管理子模块,用于对目标站段级数据进行指标设计、指标目录管理以及指标固化使用;
其中,数据清洗包括过滤目标站段级数据中的脏数据、对目标站段级数据中的格式化数据进行整理以及对目标站段级数据进行裁剪合并;
数据聚合是通过对不同的目标站段级数据进行关联合并,以确定不同的目标站段级数据之间的关联关系,并根据关联关系对不同的目标站段级数据进行聚合。
可选地,对数据整合是通过将多来源的异构数据,进行整合处理后得到具备完整性、一致性的数据模型。对数据整合主要包括数据清洗、数据聚合、数据去重三个步骤。
数据清洗:过滤脏数据、整理格式化数据、数据裁剪合并字段。
数据聚合:是对内存数据库集群采集的目标站段级数据(存储在不同的数据表)进行关联合并,根据其关联关系形成新的描述字段,通过实现不同数据表之间相关的数据表字段进行关联和运算操作实现对数据的更全面的描述字段并且形成固化字段进行聚合并存储。
数据去重是除去数据中的重复记录数据,保证数据的唯一性和可靠性,可以实现如下去重操作:单个数据表中完全相同行数据除去,主键相同行按照指定的保留最早,保留最新,保留指定规则的方式除去。不同数据表之间进行主键对比保留指定数据表的单一主键数据。
基于维度建模子模块,对目标站段级数据进行维度建模,以及基于指标管理子模块,对目标站段级数据进行指标设计、指标目录管理以及指标固化使用。
指标管理包括指标目录管理、指标设计和指标固化使用三个过程。
指标目录管理是对指标体系的增删改查功能,提供对指标的目录管理功能。
指标设计是通过脚本和可视化工具实现指标的具体算法,支持通过SQL脚本定义指标的运算关系,支持通过可视化方式定义指标计算方式。
指标固化使用是将设计好的指标保存并且在各个数据分析和数据挖掘中使用,其实质是形成相关的业务宽表的过程。
本发明提供的轨道交通站段级数据管理系统,能够实现对站段级的数据整合、数据建模以及数据指标管理,为后续数据挖掘及数据分析奠定了基础。
进一步地,在一个实施例中,智能单元13,可以具体包括:
异常检测模块,用于确定数据处理后的站段级数据中与正常站段级数据相似度低的异常样本;
异常检索模块,用于基于预设时序检索算法对数据处理后的站段级数据进行故障样本检索,并根据检索结果中的故障样本对异常样本进行标定处理;
特征工程处理模块,用于对数据处理后的站段级数据进行特征变换、特征重要性评估、特征选择和特征生成。
可选地,对数据处理后的站段级数据进行标定处理主要由异常检测模块和异常检索模块实现,其中,异常检测模块找出在与正常站段级数据的模式相似度低的一系列的数据,作为可能的异常样本的数据,并由异常检索模块借助高效的预设时序检索算法对数据处理后的站段级数据进行故障样本检索,并根据检索结果中的故障样本,将异常样本推送至运维人员进行标定。
特征工程处理模块,用于对数据处理后的站段级数据进行特征变换、特征重要性评估、特征选择和特征生成,以将原始的经数据处理后的站段级数据转换为后续模型训练时所用到的训练样本,并基于训练样本对模型训练,以获取更好的训练样本的数据特征,使其更加适合模型的分析,提高数据分析的质量。
特征变换主要包括:特征尺度变换、特征异常平滑、特征离散、生成统计类特征、奇异值分解(SVD)和主成分分析(PCA);特征重要性评估为:基于预设线性回归模型与随机森林模型对数据处理后的站段级数据的重要性进行比较;特征选择是通过过滤算法剔除不相关或冗余的特征;特征生成:包括特征编码和One-Hot编码。
在实际应用中,通过打造面向城轨业务场景的通用化AI引擎,提供常见算法并预置在系统中,使得用户或内部开发者可以不关注模型编码和调试,直接选择此算法用于训练作业即可,模型训练的结构示意图如图5所示:
模型训练过程主要包括:数据准备、构建模型、监管模型和部署模型四个部分。训练好的模型具备如下特点:
训练作业的管理,针对不同算法开发场景,选择不同的方式构建模型;
支持各级别算法人员共同使用:自己开发算法或从既有框架中选择引用算法;
无需编码,直接使用预置算法训练模型;
支持常用框架(如TensorFlow、PyTorch等),无需用户自行配置算法框架,节省开发成本。
需要说明的是,智能单元13还包括有性能监控模块,其中,性能监控模块包括具体的产品封装、自动部署、性能监控、访问接口管理、模型更新和发布测试等,性能监控模块是整个算法中台的管理和监督界面,它为算法和数据工程师提供了可视化、整体化的把控能力。
具体如下:产品封装,对外提供API和SDK、接口安全管理、资源占用指标分析、接收者操作特征曲线ROC监测以及模型漂移检测。
本发明提供的轨道交通站段级数据管理系统,能够解决轨道交通智能应用开发过程中在数据标签制作过程中浪费大量人力的情况,将既有的人工标注转变为自动化标注,大大提升了轨道交通智能应用开发效率,同时通过对数据特征分析为打造面向城轨业务场景的通用化AI引擎奠定了基础。
进一步地,在一个实施例中,维度建模子模块,包括:
预处理工具,用于对目标站段级数据进行如下数据预处理中的至少一种:
采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列和派生列;
ETL工具,用于以工作流的形式提取目标站段级数据的语义,并根据语义构建语义一致性和完整性的数据模型。
可选地,维度建模子模基于上述预处理工具中的一种或多种对目标站段级数据进行数据预处理,以及基于ETL工具(例如DataPipeline、Kettle、Talend和Informatica)提取目标站段级数据的语义,并根据语义构建语义一致性和完整性的数据模型。
本发明提供的轨道交通站段级数据管理系统,能够实现对站段级数据的多维度建模和分析。
进一步地,在一个实施例中,数据采集模块,还可以具体包括:
文件采集子系统,用于基于目标Flume配置文件,分别将第一站段级数据、第二站段级数据、第三站段级数据和第四站段级数据采集到不同的文件目录下。
可选地,数据采集模块还配置有文件采集子系统,通过文件采集子系统使用Flume目标配置文件(可以是通过Flume配置好的文件采集目录),将第一站段级数据、第二站段级数据、第三站段级数据和第四站段级数据采集到不同的目标下,对目录下的文件实时监听,并接入到轨道交通站段级数据管理系统的数据仓库。
此外,还可以通过Filebeat植入到需要获取服务日志的计算节点,实时获取日志数据后,自动写入轨道交通站段级数据管理系统的日志分析系统。
本发明提供的轨道交通站段级数据管理系统,能够实现对同类型数据的统一管理。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种轨道交通站段级数据管理系统,其特征在于,包括:
感知单元,包括数据采集模块,所述数据采集模块用于采集站段级城轨系统中的站段级数据;
承载单元,与所述数据采集模块连接,用于扩展站段级数据的中心容量、确保所述站段级数据的可用性、自动部署所述站段级数据的采集任务、跟踪所述采集任务以及实时监控所述站段级数据的采集进程;
数据单元,与所述承载单元连接,用于基于不同的目标数据总线对不同站段级城轨系统的所述站段级数据进行共享和汇聚,并存储所述感知单元采集的所述站段级数据,以及对存储的所述站段级数据进行数据处理;
智能单元,与所述数据单元连接,用于对数据处理后的站段级数据进行标定处理以及特征工程处理。
2.根据权利要求1所述的轨道交通站段级数据管理系统,其特征在于,所述数据采集模块,包括:
实时结构化数据采集子模块,用于基于预设的Restful接口和ProtoBuf接口采集结构化的第一站段级数据;
事务型数据采集子模块,用于基于目标ElasticSearch集群和数据仓库采集事务型数据库中的第二站段级数据;
业务系统接口数据采集子模块,用于根据所述站段级城轨系统的接口地址、采样周期和权限验证信息,采集所述站段级城轨系统中的第三站段级数据;
视频数据采集子模块,用于基于预设视频流协议采集视频类的第四站段级数据。
3.根据权利要求1所述的轨道交通站段级数据管理系统,其特征在于,所述承载单元,包括:
站段超融合模块,用于通过将目标物理服务器资源转化为统一管理、调度和分配的逻辑资源,并基于所述逻辑资源在所述目标物理服务器上构建预设数量个虚拟机,以确保所述站段级数据的可用性;以及
通过将所述虚拟机与所述目标物理服务器进行通信连接,以实现对所述站段级数据的中心容量进行扩展;
容器模块,用于基于目标Kubernetes对所述站段级数据的采集任务部署对应的任务节点,并根据所述任务节点的部署状态来对所述采集任务进行跟踪,以及通过实时采集所述任务节点所使用的所述逻辑资源来对所述站段级数据的采集进程进行实时监控。
4.根据权利要求3所述的轨道交通站段级数据管理系统,其特征在于,所述容器模块,还用于:
若所述任务节点和所述目标Kubernetes的基本调度单元所使用的所述逻辑资源中目标资源指标之和大于预设阈值时,则进行阈值报警。
5.根据权利要求1所述的轨道交通站段级数据管理系统,其特征在于,所述数据单元,包括:
数据总线模块,用于提供包括单网域数据总线和跨网数据总线在内的目标数据总线,并基于所述单网域数据总线对同一网域内的所述站段级城轨系统中的站段级数据进行汇聚和共享,以及基于所述跨网数据总线对不同网域内的所述站段级城轨系统中站段级数据进行汇聚和共享;
站段级数据存储模块,用于基于内存数据库集群或对象存储模式集群存储所述感知单元采集的所述站段级城轨系统中的站段级数据;
数据治理模块,对所述内存数据库集群存储的目标站段级数据进行数据整合、维度建模以及指标管理。
6.根据权利要求5所述的轨道交通站段级数据管理系统,其特征在于,所述站段级数据存储模块,还用于:
存储所述轨道交通站段级管理系统产生的热数据;
其中,所述热数据是根据数据的存储时长与预设过期时长之间的大小关系确定的。
7.根据权利要求5所述的轨道交通站段级数据管理系统,其特征在于,所述数据治理模块,包括:
数据整合子模块,用于通过对所述目标站段级数据进行数据清洗、数据聚合以及数据去重处理;
维度建模子模块,用于对所述目标站段级数据进行维度建模;
指标管理子模块,用于对所述目标站段级数据进行指标设计、指标目录管理以及指标固化使用;
其中,所述数据清洗包括过滤所述目标站段级数据中的脏数据、对所述目标站段级数据中的格式化数据进行整理以及对所述目标站段级数据进行裁剪合并;
所述数据聚合是通过对不同的目标站段级数据进行关联合并,以确定所述不同的目标站段级数据之间的关联关系,并根据所述关联关系对所述不同的目标站段级数据进行聚合。
8.根据权利要求1所述的轨道交通站段级数据管理系统,其特征在于,所述智能单元,包括:
异常检测模块,用于确定所述数据处理后的站段级数据中与正常站段级数据相似度低的异常样本;
异常检索模块,用于基于预设时序检索算法对所述数据处理后的站段级数据进行故障样本检索,并根据检索结果中的故障样本对所述异常样本进行标定处理;
特征工程处理模块,用于对所述数据处理后的站段级数据进行特征变换、特征重要性评估、特征选择和特征生成。
9.根据权利要求7所述的轨道交通站段级数据管理系统,其特征在于,所述维度建模子模块,包括:
预处理工具,用于对所述目标站段级数据进行如下数据预处理中的至少一种:
采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列和派生列;
ETL工具,用于以工作流的形式提取所述目标站段级数据的语义,并根据所述语义构建语义一致性和完整性的数据模型。
10.根据权利要求2所述的轨道交通站段级数据管理系统,其特征在于,所述数据采集模块,还包括:
文件采集子系统,用于基于目标Flume配置文件,分别将所述第一站段级数据、所述第二站段级数据、所述第三站段级数据和所述第四站段级数据采集到不同的文件目录下。
CN202110700210.1A 2021-05-21 2021-06-23 轨道交通站段级数据管理系统 Pending CN115374101A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021105595136 2021-05-21
CN202110559513 2021-05-21

Publications (1)

Publication Number Publication Date
CN115374101A true CN115374101A (zh) 2022-11-22

Family

ID=84058833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110700210.1A Pending CN115374101A (zh) 2021-05-21 2021-06-23 轨道交通站段级数据管理系统

Country Status (1)

Country Link
CN (1) CN115374101A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116192535A (zh) * 2023-04-25 2023-05-30 航天宏图信息技术股份有限公司 一种跨等级跨网域的数据传输方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116192535A (zh) * 2023-04-25 2023-05-30 航天宏图信息技术股份有限公司 一种跨等级跨网域的数据传输方法和装置
CN116192535B (zh) * 2023-04-25 2023-08-08 航天宏图信息技术股份有限公司 一种跨等级跨网域的数据传输方法和装置

Similar Documents

Publication Publication Date Title
CN111327681A (zh) 一种基于Kubernetes的云计算数据平台构建方法
CN103400246B (zh) 一种基于云架构的核电厂风险监测系统及监测方法
CN108335075B (zh) 一种面向物流大数据的处理系统及方法
CN112698953A (zh) 一种基于微服务的电网智能运检平台
CN112925646A (zh) 一种电力数据边缘计算系统以及计算方法
CN111258978B (zh) 一种数据存储的方法
CN112600891A (zh) 一种基于信息物理融合的边云协同系统及工作方法
CN103955510A (zh) 基于etl云平台上传的海量电力营销数据整合方法
CN109213752A (zh) 一种基于cim的数据清洗转换方法
CN111274223A (zh) 一种一键部署大数据和深度学习容器云平台及其构建方法
CN113377344B (zh) 一种复杂信息系统综合集成方法
CN111966289A (zh) 基于Kafka集群的分区优化方法和系统
CN114153920A (zh) 大数据边平台与方法
CN105260426A (zh) 基于大数据的飞机综合健康管理系统和方法
CN104573428A (zh) 一种提高服务器集群资源有效性的方法及系统
CN109657000B (zh) 一种轨道交通综合监控系统的实时数据同步方法及装置
CN115374101A (zh) 轨道交通站段级数据管理系统
CN109951370B (zh) 多大数据中心分层互联互通方法及装置
CN113900810A (zh) 分布式图处理方法、系统及存储介质
CN111538720B (zh) 电力行业基础数据清理的方法及系统
CN115439015B (zh) 基于数据中台的局域电网数据管理方法、装置及设备
Tang et al. Big data sensing information processing platform for intelligent traffic
CN116226067A (zh) 日志管理方法、日志管理装置、处理器和日志平台
CN106202585B (zh) 电力多场景多态数据系统及管理方法
CN104503846B (zh) 一种基于云计算系统的资源管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination