CN110019466A - 基于元数据的大数据集成系统 - Google Patents

基于元数据的大数据集成系统 Download PDF

Info

Publication number
CN110019466A
CN110019466A CN201711238609.2A CN201711238609A CN110019466A CN 110019466 A CN110019466 A CN 110019466A CN 201711238609 A CN201711238609 A CN 201711238609A CN 110019466 A CN110019466 A CN 110019466A
Authority
CN
China
Prior art keywords
data
layer
metadata
mart modeling
publication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711238609.2A
Other languages
English (en)
Inventor
周峻松
徐继峰
祁建明
陈墩金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ming - Collar Gene Technology Co Ltd
Original Assignee
Guangzhou Ming - Collar Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ming - Collar Gene Technology Co Ltd filed Critical Guangzhou Ming - Collar Gene Technology Co Ltd
Priority to CN201711238609.2A priority Critical patent/CN110019466A/zh
Publication of CN110019466A publication Critical patent/CN110019466A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于元数据的大数据集成系统,该系统包括:数据采集层、数据加工层和数据发布层;其中,所述数据采集层位于整个系统的最底层,完成数据的采集和获取工作;所述数据加工层是整个系统中最为核心的业务层,根据服务需求对所述数据发布层提交的查询请求进行响应;所述数据发布层向所述数据加工层发送查询请求,并将处理结果数据反馈至物联网应用终端。本发明方案引入XML编程技术,利用该语言的内容自描述性、跨平台性及可扩展性的特点,实现了静态结构化异构基础数据与动态非结构化异构数据的有效集成。

Description

基于元数据的大数据集成系统
技术领域
本发明属于大数据集成技术领域,涉及一种基于元数据的大数据集成系统。
背景技术
随着交通建设工作的全面快速推进,交通问题日益突出,交通基础设施利用率不均导致的高能耗和高污染等问题愈演愈烈。
智能交通系统(Intelligent Traffic System,ITS)是“互联网+交通”的核心解决方案之一,ITS应用物联网、互联网和自动化控制等现代化技术,建立了以车、路、人为核心的信息化和智能化的综合交通信息管理系统。
综合智能交通系统能够为城市交通提供智慧决策参考,但智慧决策的计算需要大量的交通基础数据,且这些交通数据不仅具有较短的时效性,同时类型也多种多样,由此引入了新的问题:在满足智能交通系统时效性和移动性的前提下,如何将海量异构数据进行合理有效的集成,并为交通系统的运行提供及时有效的服务。
发明内容
本发明目的在于提供一种基于元数据的大数据集成系统,针对如何及时并有效地对综合智能交通系统所采集的多源异构数据进行有效集成的问题,引入XML编程技术,利用该语言的内容自描述性、跨平台性及可扩展性的特点,将综合智能交通系统中两类重要数据:静态结构化异构基础数据与动态非结构化异构数据进行有效集成,实现了为综合智能交通系统提供多维度及多层面的智慧决策信息,从而提高了城市交通基础设施的有效利用率。
为解决上述技术问题,本发明采用如下的技术方案:一种基于元数据的大数据集成系统,该系统包括:数据采集层、数据加工层和数据发布层;其中,所述数据采集层位于整个系统的最底层,完成数据的采集和获取工作;所述数据加工层是整个系统中最为核心的业务层,根据服务需求对所述数据发布层提交的查询请求进行响应;所述数据发布层向所述数据加工层发送查询请求,并将处理结果数据反馈至物联网应用终端。
进一步地,所述数据采集层所采集的数据分为两类,静态结构化异构数据和动态非结构化异构数据;其中,所述静态结构化异构数据来源于不同交通部门现有的异构静态交通数据库;所述动态非结构化异构数据来源于交通节点上所使用的传感器,从数据格式到存储方法都存在较大差异。
进一步地,所述数据加工层由数据组织子模块与数据查询子模块两部分组成。
进一步地,所述数据组织子模块基于XML技术,对所有数据源数据建立元数据库形式的全局字典。
进一步地,所述数据查询子模块用于接收所述数据发布层提交的查询请求,对查询结果进行数据合成,并将结果返回给所述数据发布层。
进一步地,所述数据发布层负责接收用户终端发送的服务需求,将需求转换成为查询请求,提交到所述数据加工层,待所述数据加工层返回封装好的结果数据后,通过多渠道发送至用户终端上。
本发明与现有技术相比具有以下的有益效果:
本发明方案针对如何及时并有效地对综合智能交通系统所采集的多源异构数据进行有效集成的问题,引入XML编程技术,利用该语言的内容自描述性、跨平台性及可扩展性的特点,将综合智能交通系统中的静态结构化异构基础数据与动态非结构化异构数据进行有效集成,为综合智能交通系统提供多维度及多层面的智慧决策信息,提高了城市交通基础设施的有效利用率。
附图说明
图1是基于元数据的大数据集成系统的整体框架图。
图2是基于元数据的大数据集成系统中数据加工层所使用的异构数据集成框架图。
图3是数据库映射成XML Schema文件的步骤流程图。
具体实施方式
下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。
参照图1,本发明的一种基于元数据的大数据集成系统,该系统包括:数据采集层、数据加工层和数据发布层。
其中,所述数据采集层位于整个综合智能交通系统最底层,完成数据的采集和获取工作;与单一数据源不同,由于综合智能交通系统提供服务的多样性,其采集的数据分为两类:静态结构化异构数据和动态非结构化异构数据;静态结构化异构数据来源于不同交通部门现有的异构静态交通数据库,动态非结构化异构数据来源于交通节点上所使用的传感器,由于传感器的多样性,导致采集的数据内容不同,且具有不同的时间或空间粒度,从数据格式到存储方法都存在较大差异。
所述数据加工层是整个系统中最为核心的业务层,该层根据服务需求对所有异构数据进行集成,并执行数据发布层所提交的查询请求。
所述数据发布层向数据加工层发送查询请求,之后将数据加工层返回的结果数据通过多渠道、多形式发布至物联网应用终端。
数据集成的目标是将多源、异构的数据进行有机整合,既不影响现有系统的正常运行,又能够为扩展系统提供全面的数据共享。参照图2,本发明所提出的数据加工层所使用的异构数据集成框架通过元数据库方式建立系统数据全局字典,以全局字典的形式将异构多源数据在系统内实现全局、统一的共享,并建立专用的查询模块对用户提交的查询请求进行管理,包括将请求转化为各数据源可执行的子查询、查询结果的整合等。根据所完成功能不同,可将该框架可以分为两个大模块,左半部分的数据组织子模块与右半部分的数据查询子模块。
1、数据组织子模块
数据组织子模块基于XML技术,对所有数据源数据建立元数据库形式的全局字典。具体步骤如下:
1)动态数据源数据抽取与清洗
本发明所提出的异构数据集成框架中,动态非结构化数据在采集后不能直接进行集成,需将其预处理,结构化后储存到动态数据专用数据库中,与静态数据一同进行集成。综合智能交通系统所采集的动态数据具有如下特点:数据源分散、数据量大、数据冗余、数据获取时间不一致、数据处理方法多样等,故在数据集成前,需对动态数据进行预处理,预处理主要包括:数据完整性校验、时间区间校验、数据内容校验、冗余数据筛除等,最后提取关键数据存入动态数据专用数据库中。
2)将数据库映射为XML Schema文件
为建立全局字典,需将所有数据源数据库映射成为XML文件,同时生成XML Schema文件。参见图3,映射过程共分为两个步骤:①从源数据库中提取关系模式;②将扁平的关系模式转换成为有向图形式描述;③将有向图结构转换为XML Schema描述。
定义1:关系模式R是从源数据库中提取的一个五元组R=(T,C,H,PK,FK)。其中T为数据表的名称,C为列的集合;H为每列的类型映射,H(c)=(t,l,u,n,d),其中,t表示数据类型,l表示长度,u表示是否唯一,n表示是否为空,d表示缺省值;PK和FK分别表示主键约束和外键约束。
定义2:关系模式有向图G对应于关系模式R,G=<V,E>,其中V为二维节点的结合,取vi(x,y)∈V,其中x代表节点类型,y代表节点名称或取值;E为边集合,取ei∈E代表集合中的每一条边。
3)建立元数据库
元数据库负责存储全局信息,包括局部数据源的链接信息、数据类型映射关系等。具体实现采用XML Schema作为数据集成的全局模式,每添加一个数据源,系统将会生成一个针对此局部数据源的XML Schema,最后系统根据所有数据源的XML Schema动态生成全局的XML Schema。
2、数据查询子模块
数据查询子模块接收数据发布层提交的查询请求,执行查询后将查询结果进行数据合成,将结果返回给数据发布层。
1)查询请求
查询模块先对接收到的查询请求进行验证,验证包括规范性校验、有效性验证等;查询分析对通过验证的查询进行规范化和关键查询内容的提取;查询分解,将规范化后的查询请求,按数据源内数据的分布进行拆解,并生成子查询;查询转换,将子查询转换成为可执行的SQL语句,以全局字典为依据,提交到对应的数据源上进行查询。
2)结果数据整合
接收多数据源传回的查询结果集,以查询分解的原则为依据,对结果数据进行整合;整合完成后,将结果数据按查询所请求的格式进行封装,返回给数据发布层。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.基于元数据的大数据集成系统,其特征在于,所述系统包括:数据采集层、数据加工层和数据发布层;其中,所述数据采集层位于整个系统的最底层,完成数据的采集和获取工作;所述数据加工层是整个系统中最为核心的业务层,根据服务需求对所述数据发布层提交的查询请求进行响应;所述数据发布层向所述数据加工层发送查询请求,并将处理结果数据反馈至物联网应用终端。
2.根据权利要求1所述的基于元数据的大数据集成系统,其特征在于,所述数据采集层所采集的数据分为两类,静态结构化异构数据和动态非结构化异构数据;其中,所述静态结构化异构数据来源于不同交通部门现有的异构静态交通数据库;所述动态非结构化异构数据来源于交通节点上所使用的传感器,从数据格式到存储方法都存在较大差异。
3.根据权利要求1所述的基于元数据的大数据集成系统,其特征在于,所述数据加工层由数据组织子模块与数据查询子模块两部分组成。
4.根据权利要求3所述的基于元数据的大数据集成系统,其特征在于,所述数据组织子模块基于XML技术,对所有数据源数据建立元数据库形式的全局字典。
5.根据权利要求3所述的基于元数据的大数据集成系统,其特征在于,所述数据查询子模块用于接收所述数据发布层提交的查询请求,对查询结果进行数据合成,并将结果返回给所述数据发布层。
6.根据权利要求1所述的基于元数据的大数据集成系统,其特征在于,所述数据发布层负责接收用户终端发送的服务需求,将需求转换成为查询请求,提交到所述数据加工层,待所述数据加工层返回封装好的结果数据后,通过多渠道发送至用户终端上。
CN201711238609.2A 2017-12-01 2017-12-01 基于元数据的大数据集成系统 Pending CN110019466A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711238609.2A CN110019466A (zh) 2017-12-01 2017-12-01 基于元数据的大数据集成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711238609.2A CN110019466A (zh) 2017-12-01 2017-12-01 基于元数据的大数据集成系统

Publications (1)

Publication Number Publication Date
CN110019466A true CN110019466A (zh) 2019-07-16

Family

ID=67186538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711238609.2A Pending CN110019466A (zh) 2017-12-01 2017-12-01 基于元数据的大数据集成系统

Country Status (1)

Country Link
CN (1) CN110019466A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527895A (zh) * 2020-11-30 2021-03-19 吉林农业大学 一种智慧城市数据共享方法
CN113051249A (zh) * 2021-03-22 2021-06-29 江苏杰瑞信息科技有限公司 一种基于多源异构大数据融合的云服务平台设计方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527895A (zh) * 2020-11-30 2021-03-19 吉林农业大学 一种智慧城市数据共享方法
CN112527895B (zh) * 2020-11-30 2023-12-15 吉林农业大学 一种智慧城市数据共享方法
CN113051249A (zh) * 2021-03-22 2021-06-29 江苏杰瑞信息科技有限公司 一种基于多源异构大数据融合的云服务平台设计方法

Similar Documents

Publication Publication Date Title
CN106372114B (zh) 一种基于大数据的联机分析处理系统和方法
CN103491187B (zh) 一种基于云计算的大数据统一分析处理方法
CN103412897B (zh) 一种基于分布式结构的并行数据处理方法
CN101546325B (zh) 基于soa的网格异构数据集成方法
CN103064875B (zh) 一种服务化空间数据分布式查询方法
CN103631870B (zh) 一种用于大规模分布式数据处理的系统及其方法
Bellini et al. Smart city architecture for data ingestion and analytics: Processes and solutions
CN104200402A (zh) 一种电网多个数据源的源数据发布方法及系统
CN104346377A (zh) 一种基于唯一标识的数据集成和交换方法
CN102841889A (zh) 一种基于orm架构的高效数据库访问的实现方法及装置
CN103324629B (zh) 面向城市智能交通的语义传感器网络系统及语义传感方法
CN100594497C (zh) 一种实现网络查询缓存的系统和查询方法
CN104361221A (zh) 基于异构系统数据映射模板的医疗数据采集系统及方法
CN102651020A (zh) 一种海量传感器数据存储与查询方法
CN103678665A (zh) 一种基于数据仓库的异构大数据整合方法和系统
CN103970902A (zh) 一种大量数据情况下的可靠即时检索方法及系统
CN105956029A (zh) 混合存储架构下的数据访问方法
CN105808853A (zh) 一种面向工程应用的本体构建管理与本体数据自动获取方法
Bakli et al. Distributed moving object data management in MobilityDB
CN110019466A (zh) 基于元数据的大数据集成系统
CN104636265B (zh) 一种cimxml文档的高效内存模型组织的访问方法
CN104765763B (zh) 一种基于概念格的异构空间信息服务分类的语义匹配方法
CN116795859A (zh) 数据分析方法、装置、计算机设备和存储介质
Bertino et al. An object-relational approach to the representation of multi-granular spatio-temporal data
Gao et al. Research on heterogeneous data access and integration model based on OGSA-DAI

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190716

WD01 Invention patent application deemed withdrawn after publication