CN116629802A - 一种用于铁路港口站的大数据平台系统 - Google Patents

一种用于铁路港口站的大数据平台系统 Download PDF

Info

Publication number
CN116629802A
CN116629802A CN202310637640.2A CN202310637640A CN116629802A CN 116629802 A CN116629802 A CN 116629802A CN 202310637640 A CN202310637640 A CN 202310637640A CN 116629802 A CN116629802 A CN 116629802A
Authority
CN
China
Prior art keywords
data
station
big
storage
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310637640.2A
Other languages
English (en)
Inventor
王宏嘉
马滨博
刘青
王晶
冯晓杰
徐永梅
田宇
何占元
姚宇峰
李瑞辰
蒋元华
甘露
许展瑛
王振宏
白鹏飞
余淮
虎强
吴翠雅
刘朋飞
余立伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Signal and Communication Research Institute of CARS
Guoneng Shuohuang Railway Development Co Ltd
Beijing Huatie Information Technology Co Ltd
Original Assignee
Signal and Communication Research Institute of CARS
Guoneng Shuohuang Railway Development Co Ltd
Beijing Huatie Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Signal and Communication Research Institute of CARS, Guoneng Shuohuang Railway Development Co Ltd, Beijing Huatie Information Technology Co Ltd filed Critical Signal and Communication Research Institute of CARS
Publication of CN116629802A publication Critical patent/CN116629802A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于铁路港口站的大数据平台系统,涉及轨道交通技术领域,所述系统包括:数据采集模块用于根据数据源的数据存储方式和数据类型特征,使用大数据分布采集技术对数据进行实时收集;存储管理模块用于对采集的数据通过建立统一的数据标准,汇总存储和集中管理得到数据资产目录;数据分析模块用于提供机器学习算法和数据分析工具,解析、挖掘存储数据的规律并用于数据应用;本发明能够将多维数据自动填报数据报表,对外提供数据接口;本发明系统将车站内各系统的数据通过采,存,管,算,用的流程,将所有作业系统数据和作业设备自动采集的信息通过大数据平台进行汇总加工,并根据车站需求进行多元化应用。

Description

一种用于铁路港口站的大数据平台系统
技术领域
本发明公开一种用于铁路港口站的大数据平台系统,涉及轨道交通技术领域。
背景技术
大数据产业作为以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业,是激活数据要素潜能的关键支撑,是加快经济社会发展质量变革、效率变革、动力变革的重要引擎。当前大数据技术主要应用在互联网,电信,旅游,零售等行业,多采用云中心的模式,通过网络的方式,将行业内的数据进行汇集,分析,根据需求形成自身的大数据平台系统。港口站的生产作业系统组网一般采用局域网或者铁路内网的方式,出于安全考虑难以接入互联网,互联网技术应用受到很大局限,对于铁路港口站的大数据平台系统建设不能照搬互联网的模式,应当根据铁路港口站的实际情况进行单独的方案设计和实施。
故为解决铁路港口站内各系统数据无法共享,数据保存时间短,港口站内各系统数据应用形式单薄,数据利用率低的问题,填补铁路港口站大数据平台系统缺失的空白,先发明一种用于铁路港口站的大数据平台系统,以解决上述问题。
发明内容
本发明针对现有技术的问题,提供一种用于铁路港口站的大数据平台系统,所采用的技术方案为:
一种用于铁路港口站的大数据平台系统,所述系统包括:
数据采集模块用于根据数据源的数据存储方式和数据类型特征,使用大数据分布采集技术对数据进行实时收集;
存储管理模块用于对采集的数据通过建立统一的数据标准,汇总存储和集中管理得到数据资产目录;
数据分析模块用于提供机器学习算法和数据分析工具,解析、挖掘存储数据的规律并用于数据应用;
数据应用模块用于根据铁路港口站需求,通过车站BIM建筑信息模型和GIS地理数据综合展示车站站场作业情况,将多维数据自动填报数据报表,对外提供数据接口。
在一些实现方式中,所述数据采集模块用于根据数据源的数据特征将数据源分类为结构化数据、非结构化数据和实时流数据,并基于所述结构化数据、所述非结构化数据和所述实时流数据分布对所述数据进行采集。
在一些实现方式中,所述存储管理模块基于MapReduce分布式计算框架,包括:
第一数据存储单元用于通过HDFS分布式存储系统对分类采集的结构化数据进行存储;
第一数据管理储单元用于通过Hadoop资源管理器对存储的数据进行资源管理和调度。
在一些实现方式中,所述第一数据管理储单元用于通过Hadoop资源管理器中的YARN资源管理器对存储的数据进行资源管理和调度。
在一些实现方式中,所述第一数据管理储单元用于通过Hadoop资源管理器,利用Hive数据仓库工具进行数据提取,转化和加载。
在一些实现方式中,所述存储管理模块基于Spark大数据处理框架,包括:
第二数据存储单元用于通过Storm大规模流式数据处理系统处理分布采集的数据;
第二数据管理储单元用于通过Solr企业级搜索应用服务器对存储的数据进行分布式集群部署方式、分布式文件系统存储索引管理。
在一些实现方式中,所述存储管理模块用于通过开源数据库对达标数据进行存储。
在一些实现方式中,所述数据分析模块用于通过模型算法、分类算法、聚类算法、联合算法和时间序列算法对存储数据进行解析,得到车站多维数据模型,包括:
风险评估单元用于通过模型算法对所述存储的数据进行风险决策,趋势预算;
数据处理单元用于通过分类算法对所述存储的数据进行数据统计和行为预测,文本分析;
标签构建单元用于通过聚类算法对所述存储的数据进行使用者行为分析,构建数据标签;
数据融合单元用于通过关联算法对所述存储的数据进行数据融合,数据血缘分析;
数据预测单元用于通过时间序列算法对所述存储的数据进行趋势、需求和维修预测。
在一些实现方式中,所述数据分析模块用于通过机器学习对存储的数据进行特征提取、模型选择和参数调节,得到车站多维数据模型。
在一些实现方式中,所述数据应用模块用于根据铁路港口站需求,通过BIM建筑信息模型和GIS地理数据对车站全场进行建模,将车站实时数据叠加到建模中,形成实体车站的孪生数字系统,对外提供数据接口;
其中实时数据包括现车系统数据、作业过程控制数据和室外人员定位数据。
本发明的一个或多个实施例至少能够带来如下有益效果:
本发明通过建立大数据平台系统,在大数据平台系统中通过数据采集模块、存储管理模块、数据分析模块配合,对各作业系统数据进行集中存储和管理,通过数据清洗,提取,上传的处理过程;通过数据应用模块建立数据资产目录,延长了数据保存周期,实现了数据的综合查询,保全了数据的根本价值;
本发明采用集群和虚拟化技术相结合的方式,使用较少的硬件,在虚拟机搭建系统必要的服务节点设定本发明系统,从而降低本发明系统的搭建成本、节省本发明系统的空间占用;
本发明利用大数据平台通过各系统数据的综合分析,能够实现数据的跨专业,跨部门,跨系统的综合性应用,实现统计报表自动填充,多元数据综合展示,系统设备维护智能预测,调度与控制系统智能执行等功能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种用于铁路港口站的大数据平台系统的数据流节点示意图;
图2是本发明实施例提供的一种用于铁路港口站的大数据平台系统的车站大数据平台系统总体框架;
图3是本发明实施例提供的一种用于铁路港口站的大数据平台系统的机柜组成示意图;
图4是本发明实施例提供的一种用于铁路港口站的大数据平台系统的系统硬件连接示意图;
图5是本发明实施例提供的一种用于铁路港口站的大数据平台系统的大数据平台系统关键技术组成图;
图6是本发明实施例提供的一种用于铁路港口站的大数据平台系统的大数据平台数据采集流程图;
图7是本发明实施例提供的一种用于铁路港口站的大数据平台系统的大数据平台数据存储技术架构图;
图8是本发明实施例提供的一种用于铁路港口站的大数据平台系统的大数据平台数据存储流程图;
图9是本发明实施例提供的一种用于铁路港口站的大数据平台系统的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
图1示出了一种用于铁路港口站的大数据平台系统的数据流节点示意图,图9示出了一种用于铁路港口站的大数据平台系统的结构示意图,如图1、9所示,本实施例提供的用于铁路港口站的大数据平台系统,包括:
数据采集模块100,用于根据数据源的数据存储方式和数据类型特征,使用大数据分布采集技术对数据进行实时收集;
存储管理模块200,用于对采集的数据通过建立统一的数据标准,汇总存储和集中管理得到数据资产目录;
数据分析模块300,用于提供机器学习算法和数据分析工具,解析、挖掘存储数据的规律并用于数据应用;
数据应用模块400,用于根据铁路港口站需求,通过车站BIM(BuildingInformation Modeling)建筑信息模型和GIS(Geographic Information System或Geo-Information system,GIS地理信息系统,又称地学信息系统)地理数据综合展示车站站场作业情况,自动填报车站统计报表、对外提供数据接口以及为车站作业过程管理和决策提供深层次的数据支持;
在一些实现方式中,所述数据采集模块用于根据数据源的数据特征将数据源分类为结构化数据、非结构化数据和实时流数据,并基于所述结构化数据、所述非结构化数据和所述实时流数据分布对所述数据进行采集;
其中,结构化数据:对于数据库类型的结构化数据,使用Sqoop架构,该技术的作用是在Hadoop和关系数据库之间传输数据。通过Sqoop,用户可以方便的将数据从关系数据库(如MySQL、Oracle等)导入到HDFS(Hadoop Distributed File System分布式文件系统),或者将数据从HDFS导出到关系数据库;
其中,非结构化数据:对于非结构化的文本,日志等文件用Flume用来进行日志文件收集,Flume是一个分布式、高可靠、高可用的文件收集技术,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化的数据存储系统中;
其中,流数据:对于语音,视频实时流数据利用Kafka架构据进行采集,Kafka是一种分布式的“消息发布—订阅”系统。它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性;
如图6所示的大数据平台数据采集流程图,当本发明系统通过网络访问Oracle和MySQL数据库表时,系统判别访问是结构化数据或半结构化数据,DCT工具调用Sqoop模块,将源数据库中的数据与大数据平台的HDFS建立连接通道,采集的数据通常是数据库中表,Sqoop工具接收到客户端的系统定时任务命令后,通过sqoop的任务翻译器将命令转换为对应的MapReduce(一种编程模型,用于大规模数据集的并行运算)任务,之后将源数据和HDFS中的数据进行相互转移,将一行行的表数据写入到HDFS数据存储中,进而完成数据的拷贝收集。根据用户设置可以控制导入的特定行范围或列范围,也可以指定使用的文件格式、分隔符或转移字符。
当系统采集数据对象是文本、邮件等非结构化数据时,DCT(资料收集器)工具调用Flume模块,用来进行日志等文档的收集。各个数据源客户端根据系统设置的事件,当文档或文本生成时,触发数据采集事件,通过Flume的Agent通道将客户端本地文档收集到HDFS中,一个客户端可以对应一个或多个Agent的通道,Flume是一个分布式、高可靠、高可用的文件收集技术。
当系统采集的是语音、视频等实时消息流数据时,DCT工具调用Kafka模块对流数据进行采集。数据源端生成消息流数据后,Kafka根据不同的消息主题,将各主题组中的消息按队列的形式进行收集并汇聚于HDFS系统,每条消息流数据都是“消息发布”,行成“主题队列”,“消息订阅”的分布式过程。它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性。
在一些实现方式中,根据车站作业过程中收集的各种数据,将车站的作业过程包括:列车接车、解体、转线、对位、卸车、清煤、编组、排空、发车等建立数学模型。将数据代入车站作业数据模型中,训练后可以优化系统特征参数,降低系统噪声,从而实现对车站作业风险决策,趋势预测等功能。系统内置常用的可视化模型算法模块包括二分类算法、多分类算法、聚类算法、关联算法、回归算法等。
所述数据分析模块用于通过模型算法、分类算法、聚类算法、联合算法和时间序列算法对存储数据进行解析,得到车站多维数据模型,包括:
风险评估单元用于通过模型算法对所述存储的数据进行风险决策,趋势预算;
数据处理单元用于通过分类算法对所述存储的数据进行数据统计和行为预测,文本分析;
标签构建单元用于通过聚类算法对所述存储的数据进行使用者行为分析,构建数据标签;
数据融合单元用于通过关联算法对所述存储的数据进行数据融合,数据血缘分析;
数据预测单元用于通过时间序列算法对所述存储的数据进行趋势、需求和维修预测。
在一些实现方式中,所述数据分析模块用于通过机器学习对存储的数据进行特征提取、模型选择和参数调节,得到车站多维数据模型。
机器学习是人工智能的核心,研究计算机模拟或实现车站作业人员的行为,建立学习模型,从中获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。通过大量的人工干预数据,进行特征提取、模型选择、参数调节。将这些与特征、模型、优化、评价有关的重要步骤进行自动化地学习,使得机器学习模型无需人工干预即可实现人工的效果,同时避免人工因疲劳或者情绪而导致的不稳定风险。
数据挖掘是从车站各系统中采集大量不完整和有噪声的随机数据,然后识别出对应用有效和可用的数据,最后进行分析处理的过程。利用数据挖掘技术对海量数据进行清洗和归并,形成各种主题的多维数据,存储为车站数据资产,同时通过建模的方式为作业过程管理和决策提供深层次的数据支持。
在一些实现方式中,通过VCenter(VMware vCenterTMServer构建私有云基础架构的软件)虚拟化管理中心可以为大数据平台系统的虚拟机提供高可靠、安全、容错、易用的集群管理能力,支持系统集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级、补丁等。
ZooKeeper可为大数据平台应用的分布式计算提供分布式配置服务、同步服务和命名注册等功能。目标是封装复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给使用者。
在一些实现方式中,所述数据应用模块用于根据铁路港口站需求,通过BIM建筑信息模型和GIS地理数据对车站全场进行建模,将车站实时数据叠加到建模中,形成实体车站的孪生数字系统,对外提供数据接口;
其中实时数据包括现车系统数据、作业过程控制数据和室外人员定位数据;
车站大数据综合展示:利用BIM及GIS技术对车站全场进行建模,将现车系统数据,作业过程控制数据,室外人员定位数据等实时数据叠加到建模中,形成实体车站的孪生数字系统,在室内还原真实场景。
数据共享:向外部提供多种数据接口包括API(Application ProgrammingInterface应用程序编程接口)方式,Webservice方式,消息,下载等多种数据共享及发布技术,这样可以供车站平级和上级单位的系统进行数据调用和提取。
智能报表:将海量数据进行筛选,利用智能算法,依据车站需求智能填写报表,减少人工填报工作量的同时避免了人工因素的错误。
智能维护:通过摄像头,雷达,红外等智能感知设备,对车站内所有设备实时监测,危险提前预警,设备生命周期全称监测,提高设备维修效率,减少刻板维修工期带来的工时浪费和风险因子。
智能调度与控制:通过海量数据挖掘,人工智能分析,建立机器学习模型,实现日班计划智能编制,阶段计划智能编制,提高计划兑现率,联锁,停车器和翻车机等作业过程实现无人化智能控制。
本发明系统利用互联网行业的大数据技术,结合铁路港口站的生产作业系统特性,建立铁路港口站大数据平台系统,弥补当前的系统缺失,为未来港口站发展做技术储备。
本发明系统通过搭建统一的车站中心网络,打通车站内各系统网路独立的现状,通过大数据分布式存储技术,对站内各系统的数据进行集中采集和存储,对数据进行二次发掘,以解决铁路港口站内各系统数据无法共享,数据保存时间短的问题。
本发明系统通过对港口站内跨系统,跨专业,跨部门的数据进行汇集和融合,对数据进行深度挖掘,利用机器学习算法,找出数据内部的潜在规律。对数据分析结果进行综合性展示,实现各种报表的自动生成,通过统计数据反馈指导车站未来运输作业,保证运输安全,提高运输效率;以解决港口站内各系统数据应用形式单薄,数据利用率低的问题。
实施例二:
在实施例一的基础上,所述存储管理模块基于MapReduce分布式计算框架,包括:
第一数据存储单元用于通过HDFS分布式存储系统对分类采集的结构化数据进行存储;
第一数据管理储单元用于通过Hadoop资源管理器对存储的数据进行资源管理和调度。
在一些实现方式中,所述第一数据管理储单元用于通过Hadoop资源管理器,利用Hive数据仓库工具进行数据提取,转化和加载。
所述MapReduce是一个分布式计算框架,主要由两部分组成:编程模型和运行时环境。其中,编程模型为用户提供了非常易用的编程接口,用户只需要像编写程序一样实现几个简单函数即可实现一个分布式程序,而其他比较复杂的工作,如节点间的通信、节点失效、数据切分等,全部由MapReduce运行时环境完成,用户无须关心这些细节。
所述HDFS是Hadoop分布式文件系统,大数据平台存储技术架构详细如图7所示,所示大数据平台的数据存储是基于HDFS技术(Hadoop分布式文件系统)的数据存储方式,该技术可以将车站各种不同型号的服务器组成集群,将采集的大量数据分散地存储在所有设备上形成大量数据节点(保障系统可靠性和数据的安全性,所有数据做3份副本),再通过元数据(元数据是用于描述系统所收集数据属性和地址的数据)目录树的方式形成名称节点来管理这些数据节点,最后在系统HDFS客端户上通过查询名称节点的方式快速定位目标数据,从而实现对海量数据的存储和管理。运用HDFS进行数据存储,特点就是像流水一样,数据不是一次过来,而是一点一点“流”过来,处理数据也是一点一点处理。如果是数据全部过来之后才处理,那么延迟就会很大,而且会消耗很大的内存。这种方式能够提供高吞吐量的数据访问,专为海量数据提供存储。同时,HDFS是一个高度容错性的系统,适合车站利旧原则部署在廉价的服务器上;能提供高吞吐量的数据访问,非常适合大规模数据集上的应用;提供了高可用(HA)架构保证了集群的稳定可靠。
大数据存储技术将数据按车站不同专业、不同系统、不同部门、不同级别的数据通过HDFS分布存储到大数据平台数据仓库中,如图8所示,存储过程如下:
数据清洗抽取:将采集后的数据中不完整的数据、错误的数据、重复的数据进行筛选,只抽取可用的、完整的、准确的数据。
数据质量标准化:结合车站各系统作业数据特性,按基本、单位、时间、组织和其他五个维度建立数据质量标准,统一各维度的数据格式和形式。
多元数据融合:将标准化后的数据,按数据的性质(数据所属系统、专业、类型、属性等),进行标签标注。同时,依据车站作业流程顺序,利用数据的时间维度和数据性质标签,将不同维度的数据进行融合与建立血缘关系,形成数据的完整传递链条。
数据安全管理:针对有加密要求的数据,通过特定转化规则算法实现对数据的脱敏操作,避免直接使用和查询到敏感数据。
数据分域存储:将标准化后的数据按技术和工具、数据、应用、安全、管理分域存储在对应的数据仓库中。
数据资产目录:通过对数据的清洗、标准化、分域、融合、脱敏等一系列操作所得到的数据将是车站的一种无形资产,即数据资产。通过数据仓库的方式和数据标签形成一套铁路港口站大数据资产目录。
其中,所述YARN是一种Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度。YARN对可伸缩性、可靠性和集群利用率进行了提升。目前Insight HD中所有计算组件都通过YARN来进行统一的资源管理和调度。
所述Hive是建立在Hadoop之上的数据仓库,提供类似于SQL的HQL语言,封装了底层的MapReduce过程,有SQL基础的业务人员,也可以直接利用Hadoop进行大数据的操作。
所述HBase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库。HBase在Hadoop之上提供了存储大表数据的能力,并且对大表数据的读、写访问可以达到实时级别。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
实施例三:
在实施例一的基础上,所述存储管理模块基于Spark大数据处理框架,包括:
第二数据存储单元用于通过Storm大规模流式数据处理系统处理分布采集的数据;
第二数据管理储单元用于通过Solr企业级搜索应用服务器对存储的数据进行分布式集群部署方式、分布式文件系统存储索引管理。
在一些实现方式中,所述存储管理模块用于通过开源数据库对达标数据进行存储。
其中,所述Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。除了Map和Reduce操作之外,它还支持SQL查询,流数据,机器学习和图表数据处理。Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。
所述Storm是一种分布式的、高可靠、可容错的针对大规模流式数据处理的系统,可以帮助用户实现从各种数据来源中连续捕获和实时处理海量数据,为应用提供流式计算任务的分解、执行、管理、监控等全套解决方案。
所述Solr提供一种稳定可靠、弹性伸缩、开箱即用的全文搜索服务,用户不必了解底层技术实现即可轻松使用、扩展信息检索系统。Solr是为实现高流量和低等待时间而构建,提供了分布式集群部署方式、分布式文件系统存储索引,克服了海量数据检索的瓶颈,并提供自动容错,自动负载均衡,保证了服务实例的稳定性和高效性。
所述HBase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库。HBase在Hadoop之上提供了存储大表数据的能力,并且对大表数据的读、写访问可以达到实时级别。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
实施例四:
基于上述任一实施方式,本实施例提供一种铁路港口站铁路大数据系统平台目前处在实施过程中,系统硬件机柜图如图3所示;机柜内部系统连接图如图4所示;
系统包络两台万兆交换机组成堆叠,一台网闸防火墙,两套服务器集群,一台KVM(键盘,视频,鼠标)套件,一套磁盘存储阵列,一台光纤交换机。所有设备装备在一台机柜中。
其中,平台系统连接图如图5所示。
两套服务器集群:实现大数据系统平台的主体功能,集群内部通过虚拟机的方式搭建系统服务各功能节点,两套集群互为灾备,增加系统的可靠性,提供系统性能。
磁盘阵列:用于数据存储,大数据系统平台所有数据集中存储在该磁盘阵列中,磁盘阵列易于扩展,方便维护。
光联交换机:连接服务器集群与存储磁盘阵列用。
KVM(Keyboard Video Mouse,键盘、视频或鼠标)套件:KVM套件连接服务器集群,为管理服务器集群提供人机接口。
网闸防火墙:用于隔断大数据平台系统与外部系统,保证网络访问安全。
两台万兆交换机:两台万兆交换机组成堆叠,实现大数据平台系统网络与外部系统之间的连接。
如图2所示,大数据平台系统与站内各作业系统实现网络打通,接入车站中心网络。
车站调度系统,联锁控制系统,翻车机控制系统,货运管理系统,调机自动驾驶系统,视频监控系统,5G通信系统等通过防火墙或网闸接入车站中心网络,打通车站内各系统的数据流通问题。
港口站大数据平台系统通过防火墙接入车站中心网络,实现网内各系统数据的采集、管理、存储、应用。
车站内设置综合展示大屏,结合站内地理数据,将站场内的作业过程数据,视频监控数据,数据统计结果等集中展示在大屏上。
除综合展示大屏外,还设置大数据应用终端,接入车站中心网络的PC机可以访问和管理大数据平台系统,在应用终端上可以进行大数据的综合查询,查看统计信息,报表自动填报等功能。
该系统可以将车站内各系统的数据通过采,存,管,算,用的流程,将所有作业系统产生的数据和作业设备自动采集的信息通过大数据平台进行汇总加工,并根据车站需求进行多元化应用。同时通过对海量数据的统计和分析,实现车站大数据综合展示、数据报表自动填充、数据综合查询,利用机器学习技术建立系统训练模型,实现系统调度计划智能生成、控制命令智能执行、故障时间智能预警等功能。铁路港口站大数据平台系统最终将作为车站的智能大脑,为车站的作业生产提供最佳的决策方案。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的系统,也可以通过其它的方式实现。以上所描述的系统和方法实施例仅仅是示意性的。
需要说明的是,在本文中,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种用于铁路港口站的大数据平台系统,其特征在于,所述系统包括:
数据采集模块用于根据数据源的数据存储方式和数据类型特征,使用大数据分布采集技术对数据进行实时收集;
存储管理模块用于对采集的数据通过建立统一的数据标准,汇总存储和集中管理得到数据资产目录;
数据分析模块用于提供机器学习算法和数据分析工具,解析、挖掘存储数据的规律并用于数据应用;
数据应用模块用于根据铁路港口站需求,通过车站BIM建筑信息模型和GIS地理数据综合展示车站站场作业情况,自动填报车站统计报表将多维数据自动填报数据报表,对外提供数据接口。
2.根据权利要求1所述的大数据平台系统,其特征在于,所述数据采集模块用于根据数据源的数据特征将数据源分类为结构化数据、非结构化数据和实时流数据,并基于所述结构化数据、所述非结构化数据和所述实时流数据分布对所述数据进行采集。
3.根据权利要求1所述的大数据平台系统,其特征在于,所述存储管理模块基于MapReduce分布式计算框架,包括:
第一数据存储单元用于通过HDFS分布式存储系统对分类采集的结构化数据进行分布存储;
第一数据管理储单元用于通过Hadoop资源管理器对存储的数据进行资源管理和调度。
4.根据权利要求3所述的大数据平台系统,其特征在于,所述第一数据管理储单元用于通过Hadoop资源管理器中的YARN资源管理器对存储的数据进行资源管理和调度。
5.根据权利要求3所述的大数据平台系统,其特征在于,所述第一数据管理储单元用于通过Hadoop资源管理器,利用Hive数据仓库工具进行数据提取,转化和加载。
6.根据权利要求1所述的大数据平台系统,其特征在于,所述存储管理模块基于Spark大数据处理框架,包括:
第二数据存储单元用于通过Storm大规模流式数据处理系统处理分布采集的数据;
第二数据管理储单元用于通过Solr企业级搜索应用服务器对存储的数据进行分布式集群部署方式、分布式文件系统存储索引管理。
7.根据权利要求3或6所述的大数据平台系统,其特征在于,所述存储管理模块用于通过开源数据库对达标数据进行存储。
8.根据权利要求1所述的大数据平台系统,其特征在于,所述数据分析模块用于通过模型算法、分类算法、聚类算法、联合算法和时间序列算法对存储数据进行解析,得到车站多维数据模型,包括:
风险评估单元用于通过模型算法对所述存储的数据进行风险决策,趋势预算;
数据处理单元用于通过分类算法对所述存储的数据进行数据统计和行为预测,文本分析;
标签构建单元用于通过聚类算法对所述存储的数据进行使用者行为分析,构建数据标签;
数据融合单元用于通过关联算法对所述存储的数据进行数据融合,数据血缘分析;
数据预测单元用于通过时间序列算法对所述存储的数据进行趋势、需求和维修预测。
9.根据权利要求1所述的大数据平台系统,其特征在于,所述数据分析模块用于通过机器学习对存储的数据进行特征提取、模型选择和参数调节,得到车站多维数据模型。
10.根据权利要求1所述的大数据平台系统,其特征在于,所述数据应用模块用于根据铁路港口站需求,通过BIM建筑信息模型和GIS地理数据对车站全场进行建模,将车站实时数据叠加到建模中,形成实体车站的孪生数字系统,对外提供数据接口;
其中实时数据包括现车系统数据、作业过程控制数据和室外人员定位数据。
CN202310637640.2A 2023-02-17 2023-05-31 一种用于铁路港口站的大数据平台系统 Pending CN116629802A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202310132211X 2023-02-17
CN202310132211 2023-02-17

Publications (1)

Publication Number Publication Date
CN116629802A true CN116629802A (zh) 2023-08-22

Family

ID=87597148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310637640.2A Pending CN116629802A (zh) 2023-02-17 2023-05-31 一种用于铁路港口站的大数据平台系统

Country Status (1)

Country Link
CN (1) CN116629802A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076521A (zh) * 2023-08-28 2023-11-17 宁波指量科技有限公司 基于大数据的运营数据分析方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076521A (zh) * 2023-08-28 2023-11-17 宁波指量科技有限公司 基于大数据的运营数据分析方法及系统

Similar Documents

Publication Publication Date Title
CN112685385B (zh) 一种用于智慧城市建设的大数据平台
CN110549336B (zh) 一种变电站巡检机器人集控主站系统
CN107315776B (zh) 一种基于云计算的数据管理系统
CN109410650B (zh) 面向全系统信息管理的基于情景与语义的信息聚合方法
CN112687097A (zh) 一种高速公路路段级数据中台系统
CN105339941B (zh) 针对etl映射设计使用投影器和选择器组件类型
CN113179173B (zh) 一种用于高速公路系统的运维监控系统
CN112668841A (zh) 一种基于数据融合的综合交通监测系统及方法
Chen et al. A big data analysis and application platform for civil aircraft health management
Bellini et al. Data flow management and visual analytic for big data smart city/IOT
KR20220072311A (ko) 지능형 종합물류 플랫폼 설계 방법
CN112148578A (zh) 基于机器学习的it故障缺陷预测方法
CN116629802A (zh) 一种用于铁路港口站的大数据平台系统
CN112651872A (zh) 一种基于数据中台的社区综合治理的系统和方法
Hsu Big data analysis and optimization and platform components
CN111125450A (zh) 一种多层拓扑网络资源对象的管理方法
Talebkhah et al. Comprehensive Review on Development of Smart Cities Using Industry 4.0 Technologies
CN116450620B (zh) 面向多源多域时空基准数据的数据库设计方法及系统
CN115439015B (zh) 基于数据中台的局域电网数据管理方法、装置及设备
CN117112702A (zh) 一种用于长大桥隧场景的业务快速处理系统
Ribeiro et al. A scalable data integration architecture for smart cities: implementation and evaluation
CN115374101A (zh) 轨道交通站段级数据管理系统
Luo et al. Design of data classification and classification management system for big data of hydropower enterprises based on data standards
CN112784129A (zh) 一种泵站设备运维数据监管平台
KR101878291B1 (ko) 에너지 빅데이터 관리 시스템 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination