CN106557542A - 一种大数据异源异构数据的联合访问与快速互转系统 - Google Patents

一种大数据异源异构数据的联合访问与快速互转系统 Download PDF

Info

Publication number
CN106557542A
CN106557542A CN201610897103.1A CN201610897103A CN106557542A CN 106557542 A CN106557542 A CN 106557542A CN 201610897103 A CN201610897103 A CN 201610897103A CN 106557542 A CN106557542 A CN 106557542A
Authority
CN
China
Prior art keywords
data
heterologous
interface
data source
subsystem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610897103.1A
Other languages
English (en)
Inventor
郭丽娟
尹立群
高文胜
陶松梅
陈云
张炜
黄志都
张玉波
邬蓉蓉
吴秋莉
裴蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Electric Power Research Institute of Guangxi Power Grid Co Ltd
Original Assignee
Tsinghua University
Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Electric Power Research Institute of Guangxi Power Grid Co Ltd filed Critical Tsinghua University
Priority to CN201610897103.1A priority Critical patent/CN106557542A/zh
Publication of CN106557542A publication Critical patent/CN106557542A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种大数据异源异构数据的联合访问与快速互转系统,包括:异源异构数据源、数据联合访问接口、数据快速互转接口、数据描述及标记子系统、权限管理及加密子系统、数据库通用接口、分布式文件系统通用接口,所述异源异构数据源与数据联合访问接口和数据快速互转接口连接,所述数据联合访问接口和数据快速互转接口分别与数据描述及标记子系统连接,所述数据加解密子系统一端与数据描述及标记子系统连接,另一端与数据库通用接口和分布式文件系统通用接口连接,本发明实现了异源异构数据的联合访问和快速互转,为大数据在复杂数据源场景下的数据访问、互转和管理提供了一种新的便捷高效的解决方案。

Description

一种大数据异源异构数据的联合访问与快速互转系统
技术领域
本发明涉及计算机信息存储与处理技术领域,具体涉及一种大数据异源异构数据的联合访问与快速互转系统。
背景技术
近几年来,随着科学技术的发展和信息技术的普及,各行各业的电子化已相当成熟,全球各地的电子产品已成爆炸式增长态势。随着各种电子产品数量的增长,全世界的数据生产量也越来越大,单个行业应用产生的数据动辄达到数百TB甚至PB、上百PB的规模,并且这种行业及企业在越来越多,传统的数据处理能力以及远远无法满足现有的需求。因此,寻求有效的大数据存储、分析、处理、价值挖掘方法,是所有行业共同面对的机遇和挑战。
在大数据的技术领域,数据的存储和快速访问,是对数据进行进一步分析的基石,是大数据计算的依托,在探寻数据的价值中扮演着重要的角色。而当下的众多企业应用中,很多系统起建较早,所使用的系统更新不及时,或者因为安全和稳定考虑,难以在短时间更新至新的不稳定技术,因此许多企业依旧使用着相对保守的系统,难以在短时间全面升级换代应用,往往采用的是新旧技术并行使用的方法,以解决大数据分析带来的计算压力。因此,很多行业及企业的应用系统中,往往是传统的数据库和大数据技术背景下的分布式文件系统及非关系型数据库结合使用的,这也带来了数据源复杂化,难以统一化管理,难以将异源异构数据进行联合分析和快速转换的难题。
发明内容
为了解决上述现有技术中存在的问题,本发明提出了一种大数据异源异构数据的联合访问与快速互转系统,其将传统的数据源和大数据的新型数据源进行统一化管理,清晰且高效地描述和标记了数据源之间的逻辑关系,实现复杂数据源的联合分析支持,和跨平台异源异构数据的快速转存支持。
本发明采取的具体技术方案是:
一种大数据异源异构数据的联合访问与快速互转系统,包括:异源异构数据源、数据联合访问接口、数据快速互转接口、数据描述及标记子系统、权限管理及加密子系统、数据库通用接口、分布式文件系统通用接口,所述异源异构数据源与数据联合访问接口和数据快速互转接口连接,所述数据联合访问接口和数据快速互转接口分别与数据描述及标记子系统连接,所述数据加解密子系统一端与数据描述及标记子系统连接,另一端与数据库通用接口和分布式文件系统通用接口连接;
所述数据联合访问接口,用于提供数据访问服务,验证用户身份,接收并管理来自用户的数据读写请求;
所述数据快速互转接口,用于提供数据快速互转服务,验证用户身份,接收来自用户的数据相互转换存储请求;
所述数据描述及标记子系统,用于识别来自数据联合访问接口和数据快速互转接口的请求,并根据其内部记录并管理的异源异构数据信息,分析数据源的结构和关联关系,将请求转换为对应的数据访问和操作指令,下达至数据加解密子系统,实现异源异构数据的统一化访问和管理;
所述权限管理及加密子系统,用于将通信数据加解密,并通过各接口进行交互;
进一步的:所述的关系型数据库通用接口,连接一个或多个主流关系型数据库。
进一步的:所述主流关系型数据库,包括Oracle、MySQL、SQL Server、DB2。
进一步的:所述非关系型数据库通用接口,连接一个或多个主流非关系型数据库。
进一步的:所述主流非关系型数据库,包括HBase、Cassandra 。
进一步的:所述分布式文件系统通用接口,连接一个或多个主流分布式文件系统,包括HDFS、Lustre、MogileFs。
进一步的:所述主流分布式文件系统,包括HDFS、Lustre、MogileFs。
进一步的:所述的数据资源统一标记表,用于存储记录所有现有异源异构数据的概况信息,所述概况信息包括数据源的类型、数据源名称、数据源的说明性描述、数据源访问地址、数据源唯一ID、数据源大小或记录条数、数据源最后修改日期、数据源关联标记、及数据源其它概要信息;
进一步的:所述的数据源关联标记,记录数据源之间的关联关系,所述关联关系包括数据源等价关系、数据源之间某几列的主外键关系、数据源之间潜在的联系。
进一步的:所述的数据源之间的关联关系根据修改自动更新。
本发明的有益效果是:本系统为现今各大行业内部,运行的信息系统新旧混杂,数据源错综复杂,导致数据的分析挖掘困难的问题,提供了一种新的高效解决方案,让各行各业能够在新的大数据技术更新换代的过程中,能够低成本高效率管理异源异构数据,实现平稳过渡。
附图说明
附图1为本发明提出的一种大数据异源异构数据联合访问和快速互转系统结构图;
附图2为本发明提出的一种大数据异源异构数据联合访问和快速互转系统中数据描述及标记子系统结构图。
具体实施方式
下面将结合附图,详细说明本发明提出的方案。
如图1所示,一种大数据异源异构数据的联合访问与快速互转系统,包括:异源异构数据源、数据联合访问接口、数据快速互转接口、数据描述及标记子系统、权限管理及加密子系统、数据库通用接口、分布式文件系统通用接口,所述异源异构数据源与数据联合访问接口和数据快速互转接口连接,所述数据联合访问接口和数据快速互转接口分别与数据描述及标记子系统连接,所述数据加解密子系统一端与数据描述及标记子系统连接,另一端与数据库通用接口和分布式文件系统通用接口连接;
所述数据联合访问接口,用于提供数据访问服务,验证用户身份,接收并管理来自用户的数据读写请求;
所述数据快速互转接口,用于提供数据快速互转服务,验证用户身份,接收来自用户的数据相互转换存储请求;
所述数据描述及标记子系统,用于识别来自数据联合访问接口和数据快速互转接口的请求,并根据其内部记录并管理的异源异构数据信息,分析数据源的结构和关联关系,将请求转换为对应的数据访问和操作指令,下达至数据加解密子系统,实现异源异构数据的统一化访问和管理;
所述权限管理及加密子系统,用于将通信数据加解密,并通过各接口进行交互;
所述的关系型数据库通用接口,连接一个或多个主流关系型数据库。
所述主流关系型数据库,包括Oracle、MySQL、SQL Server、DB2。
所述非关系型数据库通用接口,连接一个或多个主流非关系型数据库。
所述主流非关系型数据库,包括HBase、Cassandra 。
所述分布式文件系统通用接口,连接一个或多个主流分布式文件系统,包括HDFS、Lustre、MogileFs。
所述主流分布式文件系统,包括HDFS、Lustre、MogileFs。
所述的数据资源统一标记表,用于存储记录所有现有异源异构数据的概况信息,所述概况信息包括数据源的类型、数据源名称、数据源的说明性描述、数据源访问地址、数据源唯一ID、数据源大小或记录条数、数据源最后修改日期、数据源关联标记、及数据源其它概要信息;
所述的数据源关联标记,记录数据源之间的关联关系,所述关联关系包括数据源等价关系、数据源之间某几列的主外键关系、数据源之间潜在的联系。
所述的数据源之间的关联关系根据修改自动更新。
上述技术方案中:
数据联合访问接口和数据快速互转接口可由主流网络服务器编程语言编写,如Java,并部署至企业服务器系统上,设定访问权限,并侦听来自用户的请求。
数据描述及标记子系统,可由主流网络服务器语言编写如Java,并内嵌高速小型数据库,如SQLServer,并设定较大缓存,并与接口共同部署至专用服务器,开始运行。运行初始化阶段可由人工编辑其内部的数据资源统一标记表及其各描述表,形成初始资源记录,从而开始管理并控制数据源信息。
数据加解密系统则可由简单的数据通道和加解密机构成,可根据实际网络安全需求进行设定,亦可无密码直接运行。
各个通用接口则可用主流的网络服务器编程语言编写,如Java,并整合其对应的主流数据连接访问所需的库文件,如JDBC、Hadoop库、HBase库等,并一同部署至企业服务器,实现对主流的数据存储系统的访问支持。
上述实施例仅为说明发明而举例,并非实施方式的限定。对于所述技术领域的普通技术来说,可以根据实际情况进行不同的实现和部署方式,做出其它不同形式的变化或变动,但这些响应的改变和变形都应属于本发明的权利要求的保护范围。

Claims (10)

1.一种大数据异源异构数据的联合访问与快速互转系统,其特征在于,包括:异源异构数据源、数据联合访问接口、数据快速互转接口、数据描述及标记子系统、权限管理及加密子系统、数据库通用接口、分布式文件系统通用接口,所述异源异构数据源与数据联合访问接口和数据快速互转接口连接,所述数据联合访问接口和数据快速互转接口分别与数据描述及标记子系统连接,所述数据加解密子系统一端与数据描述及标记子系统连接,另一端与数据库通用接口和分布式文件系统通用接口连接;
所述数据联合访问接口,用于提供数据访问服务,验证用户身份,接收并管理来自用户的数据读写请求;
所述数据快速互转接口,用于提供数据快速互转服务,验证用户身份,接收来自用户的数据相互转换存储请求;
所述数据描述及标记子系统,用于识别来自数据联合访问接口和数据快速互转接口的请求,并根据其内部记录并管理的异源异构数据信息,分析异源异构数据源的结构和关联关系,将请求转换为对应的数据访问和操作指令,下达至数据加解密子系统;
所述权限管理及加密子系统,用于将通信数据加解密,并通过各个接口进行交互。
2.根据权利要求1所述的一种大数据异源异构数据的联合访问与快速互转系统,其特征在于:所述的关系型数据库通用接口,连接一个或多个主流关系型数据库。
3.根据权利要求2所述的种大数据异源异构数据的联合访问与快速互转系统,其特征在于:所述主流关系型数据库,包括Oracle、MySQL、SQL Server、DB2。
4.根据权利要求1所述的一种大数据异源异构数据的联合访问与快速互转系统,其特征在于:所述非关系型数据库通用接口,连接一个或多个主流非关系型数据库。
5.根据权利要求4所述的一种大数据异源异构数据的联合访问与快速互转系统,其特征在于:所述主流非关系型数据库,包括HBase、Cassandra 。
6.根据权利要求1所述的一种大数据异源异构数据的联合访问与快速互转系统,其特征在于:所述分布式文件系统通用接口,连接一个或多个主流分布式文件系统,包括HDFS、Lustre、MogileFs。
7.根据权利要求6所述的一种大数据异源异构数据的联合访问与快速互转系统,其特征在于:所述主流分布式文件系统,包括HDFS、Lustre、MogileFs。
8.根据权利要求1所述的系统,其特征在于所述的数据资源统一标记表,用于存储记录所有现有异源异构数据的概况信息,所述概况信息包括异源异构数据源的类型、异源异构数据源名称、异源异构数据源的说明性描述、异源异构数据源访问地址、异源异构数据源唯一ID、异源异构数据源大小或记录条数、异源异构数据源最后修改日期、异源异构数据源关联标记、及异源异构数据源其它概要信息。
9.根据权利要求1所述的系统,其特征在于所述的数据源关联标记,记录数据源之间的关联关系,所述关联关系包括异源异构数据源等价关系、异源异构数据源之间某几列的主外键关系、异源异构数据源之间潜在的联系。
10.根据权利要求9所述的系统,其特征在于所述的异源异构数据源之间的关联关系根据修改自动更新。
CN201610897103.1A 2016-10-14 2016-10-14 一种大数据异源异构数据的联合访问与快速互转系统 Pending CN106557542A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610897103.1A CN106557542A (zh) 2016-10-14 2016-10-14 一种大数据异源异构数据的联合访问与快速互转系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610897103.1A CN106557542A (zh) 2016-10-14 2016-10-14 一种大数据异源异构数据的联合访问与快速互转系统

Publications (1)

Publication Number Publication Date
CN106557542A true CN106557542A (zh) 2017-04-05

Family

ID=58443101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610897103.1A Pending CN106557542A (zh) 2016-10-14 2016-10-14 一种大数据异源异构数据的联合访问与快速互转系统

Country Status (1)

Country Link
CN (1) CN106557542A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341198A (zh) * 2017-06-16 2017-11-10 云南电网有限责任公司信息中心 一种基于主题实例的电力海量数据存储和查询方法
CN107832463A (zh) * 2017-11-28 2018-03-23 中国银行股份有限公司 一种金融数据服务平台

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101165683A (zh) * 2006-10-19 2008-04-23 维豪信息技术有限公司 异构异源异平台数据的整合方法及交换方法
CN103955541A (zh) * 2014-05-19 2014-07-30 江苏易图地理信息工程有限公司 一种基于acad的异源异构数据的整合系统及其工作方法
CN105159951A (zh) * 2015-08-17 2015-12-16 成都中科大旗软件有限公司 一种开放式的旅游多源异构数据融合方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101165683A (zh) * 2006-10-19 2008-04-23 维豪信息技术有限公司 异构异源异平台数据的整合方法及交换方法
CN103955541A (zh) * 2014-05-19 2014-07-30 江苏易图地理信息工程有限公司 一种基于acad的异源异构数据的整合系统及其工作方法
CN105159951A (zh) * 2015-08-17 2015-12-16 成都中科大旗软件有限公司 一种开放式的旅游多源异构数据融合方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341198A (zh) * 2017-06-16 2017-11-10 云南电网有限责任公司信息中心 一种基于主题实例的电力海量数据存储和查询方法
CN107832463A (zh) * 2017-11-28 2018-03-23 中国银行股份有限公司 一种金融数据服务平台

Similar Documents

Publication Publication Date Title
CN110799960B (zh) 数据库租户迁移的系统和方法
US10241896B2 (en) Formation and manipulation of test data in a database system
US11301419B2 (en) Data retention handling for data object stores
US9063960B2 (en) Systems and methods for performing customized large-scale data analytics
US10643181B2 (en) System and method for a big data analytics enterprise framework
CN110659259B (zh) 数据库迁移方法、服务器以及计算机存储介质
CN105227672B (zh) 数据存储及访问的方法和系统
US20150331690A1 (en) Method and apparatus for associating information
CN112912870A (zh) 租户标识符的转换
CN106557542A (zh) 一种大数据异源异构数据的联合访问与快速互转系统
US11947949B2 (en) Techniques for data package generation
WO2021022274A1 (en) Deduplication based on consolidation of data fingerprints
US9053100B1 (en) Systems and methods for compressing database objects
CN110019440A (zh) 数据的处理方法及装置
US12008012B2 (en) Data transfer in a computer-implemented database
US10019383B2 (en) Rotatable-key encrypted volumes in a multi-tier disk partition system
US20160140117A1 (en) Asynchronous sql execution tool for zero downtime and migration to hana
US9678983B1 (en) Systems and methods for automatically passing hints to a file system
US11677852B2 (en) Cross-application data migration
CN116933247A (zh) 工业大数据沙箱系统及工业大数据系统
US11500749B2 (en) Distributed data store for testing data center services
US11436349B2 (en) Method and system for implementing a cloud machine learning environment
US9864790B1 (en) Systems and methods for facilitating analytics on data sets stored in remote monolithic files
US11954531B2 (en) Use of relational databases in ephemeral computing nodes
US12147400B1 (en) Relational database migration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170405