CN112711594A - 一种轨道交通数据集成方法 - Google Patents
一种轨道交通数据集成方法 Download PDFInfo
- Publication number
- CN112711594A CN112711594A CN202110056879.1A CN202110056879A CN112711594A CN 112711594 A CN112711594 A CN 112711594A CN 202110056879 A CN202110056879 A CN 202110056879A CN 112711594 A CN112711594 A CN 112711594A
- Authority
- CN
- China
- Prior art keywords
- data
- rail transit
- integration method
- layer
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2291—User-Defined Types; Storage management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2358—Change logging, detection, and notification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种轨道交通数据集成方法,包括如下步骤:S1、从各轨道交通业务系统中抽取原始数据,构建基础数据层;S2、将存在于不同业务数据中的同一实体通过数据地图进行关联;S3、对数据进行萃取,生成可复用的萃取数据层。本发明构建完整的基础数据层,并采用数据地图实现数据的关联,有利于数据的分门别类、查找和维护;此外,还通过数据的标签化,实现数据的生命周期管理,从而提升数据价值。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种轨道交通数据集成方法。
背景技术
目前,轨道交通数据存在如下问题:1、数据分散在各个部门,每个部门的数据存储在单独的数据库中,难以实现数据汇聚;2、数据的标准和模型不一致,数据治理难度大;3、缺乏有效处理多种类型、不同格式数据的能力,导致数据读取和数据汇聚效率低下。正是由于缺乏统一的数据管理,导致无法发挥数据的价值,无法通过数据为轨道交通决策提供理论依据,难以满足决策的需求,更无法实现基于数据的创新和增值。
发明内容
为解决上述问题,本发明提供了一种轨道交通数据集成方法。
本发明采用以下技术方案:
一种轨道交通数据集成方法,其特征在于:包括如下步骤:
S1、从各轨道交通业务系统中抽取原始数据,构建基础数据层;
S2、将存在于不同业务数据中的同一实体通过数据地图进行关联;
S3、对数据进行萃取,生成可复用的萃取数据层。
进一步地,在所述构建基础数据层之前,先对所述原始数据进行清洗加工。
进一步地,所述原始数据的抽取包括批量数据抽取和流式数据抽取。
进一步地,所述批量数据抽取是通过数据集成工件Flink主动拉取并直接写入到所述基础数据层。
进一步地,所述流式数据抽取具体为:先通过Flink进行数据接入,后进入Kafka消息列队,Kafka列队根据主题分类对消息进行保存,每个主题被分成若干个区,每个区的存储层面是append log文件,发布到区的消息均被直接追加到log文件的尾部。
进一步地,所述主题分类包括消息发送者和消息接收者。
进一步地,所述Kafka列队还配置区需要备份的个数,每个区均被备份到若干台机器上。
进一步地,所述基础数据层内含有数据库,所述数据库类型包括Oracle、Mysql、SQLServer、HDFS以及Hbase中的一种或几种。
进一步地,所述数据地图通过数据表的形式对数据进行管理,各数据表之间建立表级血缘关系,并根据数据的类别分别将数据表指定对应的类目下,所述数据表内包括基本信息和数据,所述基本信息包括表名、物理存储量、生命周期、是否分区表、字段名称、字段类型和分区信息。
进一步地,所述萃取是根据所述数据表的信息进行标签可视化配置。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
1、本发明的原始数据全部从轨道交通业务系统中抽取,数据比较完整,能够构建完整的基础数据层,不依赖其他的数据平台,当业务系统的数据结构发生变化时,能够自主可控地进行更新;
2、采用数据地图实现数据的关联,有利于数据的分门别类,便于后续的查找和维护;
3、萃取数据层实现数据的标签化,可实现数据的创建、编辑、删除等功能,便于数据的生命周期管理,从而提升数据价值。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
一种轨道交通数据集成方法,其特征在于:包括如下步骤:
S1、从各轨道交通业务系统中抽取原始数据,构建基础数据层;
S2、将存在于不同业务数据中的同一实体通过数据地图进行关联;
S3、对数据进行萃取,生成可复用的萃取数据层。
在所述构建基础数据层之前,先对所述原始数据进行清洗加工。
所述原始数据的抽取包括批量数据抽取和流式数据抽取。
所述批量数据抽取是通过数据集成工件Flink主动拉取并直接写入到所述基础数据层。
所述流式数据抽取具体为:先通过Flink进行数据接入,后进入Kafka消息列队,Kafka列队根据主题分类对消息进行保存,每个主题被分成若干个区,每个区的存储层面是append log文件,发布到区的消息均被直接追加到log文件的尾部。所述主题分类包括消息发送者和消息接收者。所述Kafka列队还配置区需要备份的个数,每个区均被备份到若干台机器上。
Kafka能够充分保证数据的高吞吐量,可以支持每秒数百万的消息,且制成并行加载数据、数以TB的消息存储也能够保持长时间的稳定性能。
所述基础数据层内含有数据库,所述数据库类型包括Oracle、Mysql、SQLServer、HDFS以及Hbase中的一种或几种。
所述数据地图通过数据表的形式对数据进行管理,各数据表之间建立表级血缘关系,并根据数据的类别分别将数据表指定对应的类目下,所述数据表内包括基本信息和数据,所述基本信息包括表名、物理存储量、生命周期、是否分区表、字段名称、字段类型和分区信息。
所述萃取是根据所述数据表的信息进行标签可视化配置。标签生产提供透明化、交互式的操作方式,能实时展示数据的变化,达到所见即所得。进行标签可视化配置前,需要提供数据处理算子组件,包括数据过滤、字段处理、数据横链接、数据众链接、字段赋值、排序、汇总、分档等数据处理算子,然后对数据处理算子进行优化,通过可视化配置参数即可完成标签的生成。
其中,字段赋值提供字符函数、数值函数、日期函数、转换函数、运输函数等常用函数;字段处理提供操作历史记录,可清晰查看处理的轨迹,支持回退等操作;字段处理时支持增加列、删除列等操作。
当管理者或开发人员需要使用数据时,可以通过标签直接从萃取数据层调用、查看数据,实现数据的统一调配、溯源,克服数据孤岛的问题,提升数据价值,让数据变为可用的资产,为决策提供参考和依据。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种轨道交通数据集成方法,其特征在于:包括如下步骤:
S1、从各轨道交通业务系统中抽取原始数据,构建基础数据层;
S2、将存在于不同业务数据中的同一实体通过数据地图进行关联;
S3、对数据进行萃取,生成可复用的萃取数据层。
2.如权利要求1所述的一种轨道交通数据集成方法,其特征在于:在所述构建基础数据层之前,先对所述原始数据进行清洗加工。
3.如权利要求2所述的一种轨道交通数据集成方法,其特征在于:所述原始数据的抽取包括批量数据抽取和流式数据抽取。
4.如权利要求3所述的一种轨道交通数据集成方法,其特征在于:所述批量数据抽取是通过数据集成工件Flink主动拉取并直接写入到所述基础数据层。
5.如权利要求4所述的一种轨道交通数据集成方法,其特征在于:所述流式数据抽取具体为:先通过Flink进行数据接入,后进入Kafka消息列队,Kafka列队根据主题分类对消息进行保存,每个主题被分成若干个区,每个区的存储层面是append log文件,发布到区的消息均被直接追加到log文件的尾部。
6.如权利要求5所述的一种轨道交通数据集成方法,其特征在于:所述主题分类包括消息发送者和消息接收者。
7.如权利要求6所述的一种轨道交通数据集成方法,其特征在于:所述Kafka列队还配置区需要备份的个数,每个区均被备份到若干台机器上。
8.如权利要求7所述的一种轨道交通数据集成方法,其特征在于:所述基础数据层内含有数据库,所述数据库类型包括Oracle、Mysql、SQLServer、HDFS以及Hbase中的一种或几种。
9.如权利要求8所述的一种轨道交通数据集成方法,其特征在于:所述数据地图通过数据表的形式对数据进行管理,各数据表之间建立表级血缘关系,并根据数据的类别分别将数据表指定对应的类目下,所述数据表内包括基本信息和数据,所述基本信息包括表名、物理存储量、生命周期、是否分区表、字段名称、字段类型和分区信息。
10.如权利要求9所述的一种轨道交通数据集成方法,其特征在于:所述萃取是根据所述数据表的信息进行标签可视化配置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110056879.1A CN112711594A (zh) | 2021-01-15 | 2021-01-15 | 一种轨道交通数据集成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110056879.1A CN112711594A (zh) | 2021-01-15 | 2021-01-15 | 一种轨道交通数据集成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112711594A true CN112711594A (zh) | 2021-04-27 |
Family
ID=75549170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110056879.1A Pending CN112711594A (zh) | 2021-01-15 | 2021-01-15 | 一种轨道交通数据集成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112711594A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567492A (zh) * | 2011-12-22 | 2012-07-11 | 哈尔滨工程大学 | 一种海陆矢量地图数据集成与融合的方法 |
CN103955531A (zh) * | 2014-05-12 | 2014-07-30 | 南京提坦信息科技有限公司 | 基于命名实体库的在线知识地图 |
CN104301431A (zh) * | 2014-10-29 | 2015-01-21 | 深圳先进技术研究院 | 一种基于多源大数据gis的重点人群实时监控系统 |
CN106802954A (zh) * | 2017-01-18 | 2017-06-06 | 中国科学院合肥物质科学研究院 | 无人车语义地图模型构建方法及其在无人车上的应用方法 |
WO2020038447A1 (zh) * | 2018-08-23 | 2020-02-27 | 比亚迪股份有限公司 | 一种轨道交通系统综合网管方法、装置及系统 |
CN111008197A (zh) * | 2019-11-20 | 2020-04-14 | 王锦志 | 一种电力营销服务系统数据中台设计方法 |
CN111968011A (zh) * | 2020-08-18 | 2020-11-20 | 国网江苏省电力有限公司泰州供电分公司 | 一种电力规划多源数据集成的方法 |
CN112000636A (zh) * | 2020-08-31 | 2020-11-27 | 民生科技有限责任公司 | 基于Flink流式处理的用户行为统计分析方法 |
CN112115314A (zh) * | 2020-09-16 | 2020-12-22 | 江苏开拓信息与系统有限公司 | 一种政务通用大数据聚合检索系统及构建方法 |
-
2021
- 2021-01-15 CN CN202110056879.1A patent/CN112711594A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567492A (zh) * | 2011-12-22 | 2012-07-11 | 哈尔滨工程大学 | 一种海陆矢量地图数据集成与融合的方法 |
CN103955531A (zh) * | 2014-05-12 | 2014-07-30 | 南京提坦信息科技有限公司 | 基于命名实体库的在线知识地图 |
CN104301431A (zh) * | 2014-10-29 | 2015-01-21 | 深圳先进技术研究院 | 一种基于多源大数据gis的重点人群实时监控系统 |
CN106802954A (zh) * | 2017-01-18 | 2017-06-06 | 中国科学院合肥物质科学研究院 | 无人车语义地图模型构建方法及其在无人车上的应用方法 |
WO2020038447A1 (zh) * | 2018-08-23 | 2020-02-27 | 比亚迪股份有限公司 | 一种轨道交通系统综合网管方法、装置及系统 |
CN111008197A (zh) * | 2019-11-20 | 2020-04-14 | 王锦志 | 一种电力营销服务系统数据中台设计方法 |
CN111968011A (zh) * | 2020-08-18 | 2020-11-20 | 国网江苏省电力有限公司泰州供电分公司 | 一种电力规划多源数据集成的方法 |
CN112000636A (zh) * | 2020-08-31 | 2020-11-27 | 民生科技有限责任公司 | 基于Flink流式处理的用户行为统计分析方法 |
CN112115314A (zh) * | 2020-09-16 | 2020-12-22 | 江苏开拓信息与系统有限公司 | 一种政务通用大数据聚合检索系统及构建方法 |
Non-Patent Citations (1)
Title |
---|
李先波: "基础地理实体数据整合技术研究", 《北京测绘》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101651576B (zh) | 告警信息处理方法和系统 | |
CN104933112A (zh) | 分布式互联网交易信息存储处理方法 | |
WO2015109250A1 (en) | CREATING NoSQL DATABASE INDEX FOR SEMI-STRUCTURED DATA | |
CN103164490B (zh) | 一种不固定长度数据的高效存储实现方法和装置 | |
CN104598376A (zh) | 一种数据驱动的分层自动化测试系统和方法 | |
CN111639082B (zh) | 基于Ceph的十亿级节点规模知识图谱的对象存储管理方法及系统 | |
CN112148718A (zh) | 一种用于城市级数据中台的大数据支撑管理系统 | |
CN107229688A (zh) | 一种数据库水平分库分表方法及系统、服务器 | |
WO2011091708A1 (zh) | 多维数据库存储及查询的方法 | |
Troiano et al. | A time-efficient breadth-first level-wise lattice-traversal algorithm to discover rare itemsets | |
CN110096509A (zh) | 大数据环境下实现历史数据拉链表存储建模处理的系统及方法 | |
CN112732680A (zh) | 一种数据仓库设计方法 | |
CN110851663B (zh) | 管理元数据的方法和装置 | |
CN109885642B (zh) | 面向全文检索的分级存储方法及装置 | |
CN105224663A (zh) | 一种基于多个数据源的数据访问任务管理方法及装置 | |
CN106161193A (zh) | 一种邮件处理方法、装置和系统 | |
CN103678608B (zh) | 日志管理方法和装置 | |
CN109189726B (zh) | 一种读写日志的处理方法及装置 | |
CN110737729A (zh) | 基于知识图谱理念和技术的工程图谱数据信息管理方法 | |
CN110134511A (zh) | 一种OpenTSDB共享存储优化方法 | |
CN112711594A (zh) | 一种轨道交通数据集成方法 | |
CN108197192A (zh) | 用于实现企业内部数据标准化的主数据系统 | |
CN114895875B (zh) | 一种零代码可视化信息系统元数据的生产应用方法及系统 | |
CN101750085A (zh) | 基于履历信息的导航电子地图差分数据生成方法及装置 | |
CN116541403A (zh) | 一种实时捕获数据库数据变更的方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |