CN112711594A - 一种轨道交通数据集成方法 - Google Patents

一种轨道交通数据集成方法 Download PDF

Info

Publication number
CN112711594A
CN112711594A CN202110056879.1A CN202110056879A CN112711594A CN 112711594 A CN112711594 A CN 112711594A CN 202110056879 A CN202110056879 A CN 202110056879A CN 112711594 A CN112711594 A CN 112711594A
Authority
CN
China
Prior art keywords
data
rail transit
integration method
layer
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110056879.1A
Other languages
English (en)
Inventor
陈思恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tech Valley Xiamen Information Technology Co ltd
Original Assignee
Tech Valley Xiamen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tech Valley Xiamen Information Technology Co ltd filed Critical Tech Valley Xiamen Information Technology Co ltd
Priority to CN202110056879.1A priority Critical patent/CN112711594A/zh
Publication of CN112711594A publication Critical patent/CN112711594A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种轨道交通数据集成方法,包括如下步骤:S1、从各轨道交通业务系统中抽取原始数据,构建基础数据层;S2、将存在于不同业务数据中的同一实体通过数据地图进行关联;S3、对数据进行萃取,生成可复用的萃取数据层。本发明构建完整的基础数据层,并采用数据地图实现数据的关联,有利于数据的分门别类、查找和维护;此外,还通过数据的标签化,实现数据的生命周期管理,从而提升数据价值。

Description

一种轨道交通数据集成方法
技术领域
本发明涉及数据处理技术领域,特别涉及一种轨道交通数据集成方法。
背景技术
目前,轨道交通数据存在如下问题:1、数据分散在各个部门,每个部门的数据存储在单独的数据库中,难以实现数据汇聚;2、数据的标准和模型不一致,数据治理难度大;3、缺乏有效处理多种类型、不同格式数据的能力,导致数据读取和数据汇聚效率低下。正是由于缺乏统一的数据管理,导致无法发挥数据的价值,无法通过数据为轨道交通决策提供理论依据,难以满足决策的需求,更无法实现基于数据的创新和增值。
发明内容
为解决上述问题,本发明提供了一种轨道交通数据集成方法。
本发明采用以下技术方案:
一种轨道交通数据集成方法,其特征在于:包括如下步骤:
S1、从各轨道交通业务系统中抽取原始数据,构建基础数据层;
S2、将存在于不同业务数据中的同一实体通过数据地图进行关联;
S3、对数据进行萃取,生成可复用的萃取数据层。
进一步地,在所述构建基础数据层之前,先对所述原始数据进行清洗加工。
进一步地,所述原始数据的抽取包括批量数据抽取和流式数据抽取。
进一步地,所述批量数据抽取是通过数据集成工件Flink主动拉取并直接写入到所述基础数据层。
进一步地,所述流式数据抽取具体为:先通过Flink进行数据接入,后进入Kafka消息列队,Kafka列队根据主题分类对消息进行保存,每个主题被分成若干个区,每个区的存储层面是append log文件,发布到区的消息均被直接追加到log文件的尾部。
进一步地,所述主题分类包括消息发送者和消息接收者。
进一步地,所述Kafka列队还配置区需要备份的个数,每个区均被备份到若干台机器上。
进一步地,所述基础数据层内含有数据库,所述数据库类型包括Oracle、Mysql、SQLServer、HDFS以及Hbase中的一种或几种。
进一步地,所述数据地图通过数据表的形式对数据进行管理,各数据表之间建立表级血缘关系,并根据数据的类别分别将数据表指定对应的类目下,所述数据表内包括基本信息和数据,所述基本信息包括表名、物理存储量、生命周期、是否分区表、字段名称、字段类型和分区信息。
进一步地,所述萃取是根据所述数据表的信息进行标签可视化配置。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
1、本发明的原始数据全部从轨道交通业务系统中抽取,数据比较完整,能够构建完整的基础数据层,不依赖其他的数据平台,当业务系统的数据结构发生变化时,能够自主可控地进行更新;
2、采用数据地图实现数据的关联,有利于数据的分门别类,便于后续的查找和维护;
3、萃取数据层实现数据的标签化,可实现数据的创建、编辑、删除等功能,便于数据的生命周期管理,从而提升数据价值。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
一种轨道交通数据集成方法,其特征在于:包括如下步骤:
S1、从各轨道交通业务系统中抽取原始数据,构建基础数据层;
S2、将存在于不同业务数据中的同一实体通过数据地图进行关联;
S3、对数据进行萃取,生成可复用的萃取数据层。
在所述构建基础数据层之前,先对所述原始数据进行清洗加工。
所述原始数据的抽取包括批量数据抽取和流式数据抽取。
所述批量数据抽取是通过数据集成工件Flink主动拉取并直接写入到所述基础数据层。
所述流式数据抽取具体为:先通过Flink进行数据接入,后进入Kafka消息列队,Kafka列队根据主题分类对消息进行保存,每个主题被分成若干个区,每个区的存储层面是append log文件,发布到区的消息均被直接追加到log文件的尾部。所述主题分类包括消息发送者和消息接收者。所述Kafka列队还配置区需要备份的个数,每个区均被备份到若干台机器上。
Kafka能够充分保证数据的高吞吐量,可以支持每秒数百万的消息,且制成并行加载数据、数以TB的消息存储也能够保持长时间的稳定性能。
所述基础数据层内含有数据库,所述数据库类型包括Oracle、Mysql、SQLServer、HDFS以及Hbase中的一种或几种。
所述数据地图通过数据表的形式对数据进行管理,各数据表之间建立表级血缘关系,并根据数据的类别分别将数据表指定对应的类目下,所述数据表内包括基本信息和数据,所述基本信息包括表名、物理存储量、生命周期、是否分区表、字段名称、字段类型和分区信息。
所述萃取是根据所述数据表的信息进行标签可视化配置。标签生产提供透明化、交互式的操作方式,能实时展示数据的变化,达到所见即所得。进行标签可视化配置前,需要提供数据处理算子组件,包括数据过滤、字段处理、数据横链接、数据众链接、字段赋值、排序、汇总、分档等数据处理算子,然后对数据处理算子进行优化,通过可视化配置参数即可完成标签的生成。
其中,字段赋值提供字符函数、数值函数、日期函数、转换函数、运输函数等常用函数;字段处理提供操作历史记录,可清晰查看处理的轨迹,支持回退等操作;字段处理时支持增加列、删除列等操作。
当管理者或开发人员需要使用数据时,可以通过标签直接从萃取数据层调用、查看数据,实现数据的统一调配、溯源,克服数据孤岛的问题,提升数据价值,让数据变为可用的资产,为决策提供参考和依据。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种轨道交通数据集成方法,其特征在于:包括如下步骤:
S1、从各轨道交通业务系统中抽取原始数据,构建基础数据层;
S2、将存在于不同业务数据中的同一实体通过数据地图进行关联;
S3、对数据进行萃取,生成可复用的萃取数据层。
2.如权利要求1所述的一种轨道交通数据集成方法,其特征在于:在所述构建基础数据层之前,先对所述原始数据进行清洗加工。
3.如权利要求2所述的一种轨道交通数据集成方法,其特征在于:所述原始数据的抽取包括批量数据抽取和流式数据抽取。
4.如权利要求3所述的一种轨道交通数据集成方法,其特征在于:所述批量数据抽取是通过数据集成工件Flink主动拉取并直接写入到所述基础数据层。
5.如权利要求4所述的一种轨道交通数据集成方法,其特征在于:所述流式数据抽取具体为:先通过Flink进行数据接入,后进入Kafka消息列队,Kafka列队根据主题分类对消息进行保存,每个主题被分成若干个区,每个区的存储层面是append log文件,发布到区的消息均被直接追加到log文件的尾部。
6.如权利要求5所述的一种轨道交通数据集成方法,其特征在于:所述主题分类包括消息发送者和消息接收者。
7.如权利要求6所述的一种轨道交通数据集成方法,其特征在于:所述Kafka列队还配置区需要备份的个数,每个区均被备份到若干台机器上。
8.如权利要求7所述的一种轨道交通数据集成方法,其特征在于:所述基础数据层内含有数据库,所述数据库类型包括Oracle、Mysql、SQLServer、HDFS以及Hbase中的一种或几种。
9.如权利要求8所述的一种轨道交通数据集成方法,其特征在于:所述数据地图通过数据表的形式对数据进行管理,各数据表之间建立表级血缘关系,并根据数据的类别分别将数据表指定对应的类目下,所述数据表内包括基本信息和数据,所述基本信息包括表名、物理存储量、生命周期、是否分区表、字段名称、字段类型和分区信息。
10.如权利要求9所述的一种轨道交通数据集成方法,其特征在于:所述萃取是根据所述数据表的信息进行标签可视化配置。
CN202110056879.1A 2021-01-15 2021-01-15 一种轨道交通数据集成方法 Pending CN112711594A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110056879.1A CN112711594A (zh) 2021-01-15 2021-01-15 一种轨道交通数据集成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110056879.1A CN112711594A (zh) 2021-01-15 2021-01-15 一种轨道交通数据集成方法

Publications (1)

Publication Number Publication Date
CN112711594A true CN112711594A (zh) 2021-04-27

Family

ID=75549170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110056879.1A Pending CN112711594A (zh) 2021-01-15 2021-01-15 一种轨道交通数据集成方法

Country Status (1)

Country Link
CN (1) CN112711594A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567492A (zh) * 2011-12-22 2012-07-11 哈尔滨工程大学 一种海陆矢量地图数据集成与融合的方法
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN104301431A (zh) * 2014-10-29 2015-01-21 深圳先进技术研究院 一种基于多源大数据gis的重点人群实时监控系统
CN106802954A (zh) * 2017-01-18 2017-06-06 中国科学院合肥物质科学研究院 无人车语义地图模型构建方法及其在无人车上的应用方法
WO2020038447A1 (zh) * 2018-08-23 2020-02-27 比亚迪股份有限公司 一种轨道交通系统综合网管方法、装置及系统
CN111008197A (zh) * 2019-11-20 2020-04-14 王锦志 一种电力营销服务系统数据中台设计方法
CN111968011A (zh) * 2020-08-18 2020-11-20 国网江苏省电力有限公司泰州供电分公司 一种电力规划多源数据集成的方法
CN112000636A (zh) * 2020-08-31 2020-11-27 民生科技有限责任公司 基于Flink流式处理的用户行为统计分析方法
CN112115314A (zh) * 2020-09-16 2020-12-22 江苏开拓信息与系统有限公司 一种政务通用大数据聚合检索系统及构建方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567492A (zh) * 2011-12-22 2012-07-11 哈尔滨工程大学 一种海陆矢量地图数据集成与融合的方法
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN104301431A (zh) * 2014-10-29 2015-01-21 深圳先进技术研究院 一种基于多源大数据gis的重点人群实时监控系统
CN106802954A (zh) * 2017-01-18 2017-06-06 中国科学院合肥物质科学研究院 无人车语义地图模型构建方法及其在无人车上的应用方法
WO2020038447A1 (zh) * 2018-08-23 2020-02-27 比亚迪股份有限公司 一种轨道交通系统综合网管方法、装置及系统
CN111008197A (zh) * 2019-11-20 2020-04-14 王锦志 一种电力营销服务系统数据中台设计方法
CN111968011A (zh) * 2020-08-18 2020-11-20 国网江苏省电力有限公司泰州供电分公司 一种电力规划多源数据集成的方法
CN112000636A (zh) * 2020-08-31 2020-11-27 民生科技有限责任公司 基于Flink流式处理的用户行为统计分析方法
CN112115314A (zh) * 2020-09-16 2020-12-22 江苏开拓信息与系统有限公司 一种政务通用大数据聚合检索系统及构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李先波: "基础地理实体数据整合技术研究", 《北京测绘》 *

Similar Documents

Publication Publication Date Title
CN101651576B (zh) 告警信息处理方法和系统
CN104933112A (zh) 分布式互联网交易信息存储处理方法
WO2015109250A1 (en) CREATING NoSQL DATABASE INDEX FOR SEMI-STRUCTURED DATA
CN103164490B (zh) 一种不固定长度数据的高效存储实现方法和装置
CN104598376A (zh) 一种数据驱动的分层自动化测试系统和方法
CN111639082B (zh) 基于Ceph的十亿级节点规模知识图谱的对象存储管理方法及系统
CN112148718A (zh) 一种用于城市级数据中台的大数据支撑管理系统
CN107229688A (zh) 一种数据库水平分库分表方法及系统、服务器
WO2011091708A1 (zh) 多维数据库存储及查询的方法
Troiano et al. A time-efficient breadth-first level-wise lattice-traversal algorithm to discover rare itemsets
CN110096509A (zh) 大数据环境下实现历史数据拉链表存储建模处理的系统及方法
CN112732680A (zh) 一种数据仓库设计方法
CN110851663B (zh) 管理元数据的方法和装置
CN109885642B (zh) 面向全文检索的分级存储方法及装置
CN105224663A (zh) 一种基于多个数据源的数据访问任务管理方法及装置
CN106161193A (zh) 一种邮件处理方法、装置和系统
CN103678608B (zh) 日志管理方法和装置
CN109189726B (zh) 一种读写日志的处理方法及装置
CN110737729A (zh) 基于知识图谱理念和技术的工程图谱数据信息管理方法
CN110134511A (zh) 一种OpenTSDB共享存储优化方法
CN112711594A (zh) 一种轨道交通数据集成方法
CN108197192A (zh) 用于实现企业内部数据标准化的主数据系统
CN114895875B (zh) 一种零代码可视化信息系统元数据的生产应用方法及系统
CN101750085A (zh) 基于履历信息的导航电子地图差分数据生成方法及装置
CN116541403A (zh) 一种实时捕获数据库数据变更的方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination