CN113010499A - 一种用于大数据治理平台数据库构建方法 - Google Patents

一种用于大数据治理平台数据库构建方法 Download PDF

Info

Publication number
CN113010499A
CN113010499A CN202110417210.0A CN202110417210A CN113010499A CN 113010499 A CN113010499 A CN 113010499A CN 202110417210 A CN202110417210 A CN 202110417210A CN 113010499 A CN113010499 A CN 113010499A
Authority
CN
China
Prior art keywords
data
layer
module
dsl
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110417210.0A
Other languages
English (en)
Inventor
陈平物
张光胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongkeyuan Information Security Technology Jiangsu Co ltd
Original Assignee
Zhongkeyuan Information Security Technology Jiangsu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongkeyuan Information Security Technology Jiangsu Co ltd filed Critical Zhongkeyuan Information Security Technology Jiangsu Co ltd
Priority to CN202110417210.0A priority Critical patent/CN113010499A/zh
Publication of CN113010499A publication Critical patent/CN113010499A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Abstract

本发明公开了一种用于大数据治理平台数据库构建方法,属于大数据系统技术领域,包括如下步骤:建立包括有辅助分析工具、数据仓库、计算层、调度层以及数据采集层;建立大数据治理平台的架构;数据源、数据仓库以及数据应用之间采用元数据进行互通,且从生成到消费的整个数据链都被元数据记录下来;采用自行开发编译的DSL描述语言将至少两种不同计算引擎语法相互匹配和接入;数据从来源端经过抽取、转换、加载至目的端的过程中经过数据仓库技术的描述;搭建DSL管理器用于多应用与服务总线以及调度层之间的数据分析;本申请采用DSL管理器对应用与服务层之间进行分析查询,拓展性好,复用率高,开发效率高,不会出现大量重复开发的现象。

Description

一种用于大数据治理平台数据库构建方法
技术领域
本发明属于大数据系统技术领域,具体涉及一种用于大数据治理平台数据库构建方法。
背景技术
当下的大数据治理平台架构似乎连接了各种大数据组件并实现了集成管理,但这种裸架构业务数据开发需要注意许多基本工具的使用,在实际的使用中仍存在很多不便,包括长期过程无法管理和维护批计算和流量计算两套计算模型,难以启动开发,且大多数数据查询都是由需求驱动的。为每个需求开发一个或多个接口,并编写对业务方开放的接口文档,在大数据系统下,这种模式存在很多问题包括灵活性不高,扩展性差等,为此我们提出一种用于大数据治理平台数据库构建方法。
发明内容
本发明的目的在于提供一种用于大数据治理平台数据库构建方法,以解决上述背景技术中提出的问题。
为了实现上述目的,本发明采用了如下技术方案:一种用于大数据治理平台数据库构建方法,其特征在于,包括如下步骤:
A、建立包括有辅助分析工具、数据仓库、计算层、调度层、储存层、数据传输层以及数据采集层;
B、采用lambda架构或kappa架构建立大数据治理平台的架构;
C、数据源、数据仓库以及数据应用之间采用元数据进行互通,且从生成到消费的整个数据链都被元数据记录下来;
D、采用自行开发编译的DSL描述语言将至少两种不同计算引擎语法相互匹配和接入;
E、数据从来源端经过抽取、转换、加载至目的端的过程中经过数据仓库技术的描述;
F、搭建DSL管理器用于多应用与服务总线以及调度层之间的数据分析。
进一步地,DSL管理器位于服务层内。
进一步地,所述DSL管理器包括DSL解析模块、资源寻址模块、DSL语法管理模块、ETL能力模块、DSL执行计划模块、数据合并层、元数据管理模块以及结果缓存模块。
进一步地,所述服务层包括基础层。
进一步地,所述基础层包括权限校验模块、限流模块、熔断模块、降级模块、资源管理模块、监控模块、安全校验模块以及服务管理模块。
进一步地,所述元数据包含静态表、列和分区信息,动态任务与表的依赖映射,数据仓库模型定义,数据生命周期。
进一步地,所述元数据还用于ETL任务调度信息、输入和输出元数据是数据管理、数据内容和数据应用的基础。
进一步地,计算引擎包括Spark和Hadoop以及Flink。
相比于现有技术,本发明的有益效果在于:
本申请采用DSL管理器对应用与服务层之间进行分析查询,拓展性好,复用率高,开发效率高,不会出现大量重复开发的现象;利用整个大数据流由元数据管理,方便数据跟踪、权限控制、资源管理和数据共享等,且DSL描述语言将至少两种不同计算引擎语法相互匹配和接入。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明的流程图;
图2为本发明DSL管理器的原理图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
参照图1,本发明提出的技术方案:一种用于大数据治理平台数据库构建方法,包括如下步骤:
首先,建立包括有辅助分析工具、数据仓库、计算层、调度层、储存层、数据传输层以及数据采集层;
本实施例中,辅助分析工具包括Druid、Kylin、Avro;调度层包括K8s、mesos、yarn。
其次,采用lambda架构或kappa架构建立大数据治理平台的架构;
然后将数据源、数据仓库以及数据应用之间采用元数据进行互通,且从生成到消费的整个数据链都被元数据记录下来,元数据是打通数据源、数据仓库、数据应用,记录了数据从产生到消费的完整链路,元数据包含静态的表、列、分区信息,动态的任务、表依赖映射关系;数据仓库的模型定义、数据生命周期;以及ETL任务调度信息、输入输出等元数据是数据管理、数据内容、数据应用的基础,例如可以利用元数据构建任务、表、列、用户之间的数据图谱;构建任务DAG依赖关系,编排任务执行序列;构建任务画像,进行任务质量治理;提供个人或BU的资产管理、计算资源消耗概览等,可以认为整个大数据流动都是依靠元数据来管理的,没有一套完整的元数据设计,就会出现上面的数据难以追踪、权限难以把控、资源难以管理、数据难以共享等等问题;
再采用自行开发编译的DSL描述语言将Spark和Hadoop计算引擎语法相互匹配和接入;
数据从来源端经过抽取、转换、加载至目的端的过程中经过数据仓库技术的描述;
最后搭建DSL管理器用于多应用与服务总线以及调度层之间的数据分析,DSL管理器位于服务层内,DSL管理器包括DSL解析模块、资源寻址模块、DSL语法管理模块、ETL能力模块、DSL执行计划模块、数据合并层、元数据管理模块以及结果缓存模块,本申请采用DSL管理器对应用与服务层之间进行分析查询,拓展性好,复用率高,开发效率高,不会出现大量重复开发的现象。
本实施例中,服务层包括基础层,基础层包括权限校验模块、限流模块、熔断模块、降级模块、资源管理模块、监控模块、安全校验模块以及服务管理模块。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种用于大数据治理平台数据库构建方法,其特征在于,包括如下步骤:
A、建立包括有辅助分析工具、数据仓库、计算层、调度层、储存层、数据传输层以及数据采集层;
B、采用lambda架构或kappa架构建立大数据治理平台的架构;
C、数据源、数据仓库以及数据应用之间采用元数据进行互通,且从生成到消费的整个数据链都被元数据记录下来;
D、采用自行开发编译的DSL描述语言将至少两种不同计算引擎语法相互匹配和接入;
E、数据从来源端经过抽取、转换、加载至目的端的过程中经过数据仓库技术的描述;
F、搭建DSL管理器用于多应用与服务总线以及调度层之间的数据分析。
2.根据权利要求1所述的一种用于大数据治理平台数据库构建方法,其特征在于:DSL管理器位于服务层内。
3.根据权利要求2所述的一种用于大数据治理平台数据库构建方法,其特征在于:所述DSL管理器包括DSL解析模块、资源寻址模块、DSL语法管理模块、ETL能力模块、DSL执行计划模块、数据合并层、元数据管理模块以及结果缓存模块。
4.根据权利要求1所述的一种用于大数据治理平台数据库构建方法,其特征在于:所述服务层包括基础层。
5.根据权利要求4所述的一种用于大数据治理平台数据库构建方法,其特征在于:所述基础层包括权限校验模块、限流模块、熔断模块、降级模块、资源管理模块、监控模块、安全校验模块以及服务管理模块。
6.根据权利要求1所述的一种用于大数据治理平台数据库构建方法,其特征在于:所述元数据包含静态表、列和分区信息,动态任务与表的依赖映射,数据仓库模型定义,数据生命周期。
7.根据权利要求1所述的一种用于大数据治理平台数据库构建方法,其特征在于:所述元数据还用于ETL任务调度信息、输入和输出元数据是数据管理、数据内容和数据应用的基础。
8.根据权利要求1所述的一种用于大数据治理平台数据库构建方法,其特征在于:计算引擎包括Spark和Hadoop以及Flink。
CN202110417210.0A 2021-04-19 2021-04-19 一种用于大数据治理平台数据库构建方法 Withdrawn CN113010499A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110417210.0A CN113010499A (zh) 2021-04-19 2021-04-19 一种用于大数据治理平台数据库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110417210.0A CN113010499A (zh) 2021-04-19 2021-04-19 一种用于大数据治理平台数据库构建方法

Publications (1)

Publication Number Publication Date
CN113010499A true CN113010499A (zh) 2021-06-22

Family

ID=76388692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110417210.0A Withdrawn CN113010499A (zh) 2021-04-19 2021-04-19 一种用于大数据治理平台数据库构建方法

Country Status (1)

Country Link
CN (1) CN113010499A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691784A (zh) * 2022-06-01 2022-07-01 杭州量之智能科技有限公司 数据治理的共享平台、共享方法、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691784A (zh) * 2022-06-01 2022-07-01 杭州量之智能科技有限公司 数据治理的共享平台、共享方法、设备及存储介质
CN114691784B (zh) * 2022-06-01 2022-08-23 杭州量之智能科技有限公司 数据治理的共享平台、共享方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN104573115B (zh) 支持多类型数据库操作的集成接口的实现方法及系统
CN105893593B (zh) 一种数据融合的方法
CN102841889A (zh) 一种基于orm架构的高效数据库访问的实现方法及装置
CN111625510A (zh) 一种基于云映射的多源数据共享系统及方法
CN111488332B (zh) 一种ai服务开放中台及方法
CN102708203A (zh) 一种基于xml元数据的数据库动态管理方法
CN109446252A (zh) 一种用于电网调控的统一访问方法及系统
CN112632025A (zh) 一种基于paas平台的电网企业管理决策支持应用系统
CN110706125A (zh) 水利大数据分析信息服务系统和平台服务系统
CN102193958A (zh) 基于互联网的空间决策支持系统的实现方法
CN113609141B (zh) 一种基于api拼接的无侵入式跨库数据融合方法
CN113010499A (zh) 一种用于大数据治理平台数据库构建方法
CN117033504A (zh) 国土空间基础信息平台海量数据分布式管理系统
CN114154825A (zh) 一种二维电网分布式缓存服务系统
Pan et al. An open sharing pattern design of massive power big data
Xin Urban planning and management information systems analysis and design based on GIS
CN111753000A (zh) 一种供水管网信息系统
Guo et al. Better realization of mobile cloud computing using mobile network computers
Qu Application of Java Technology in Dynamic Web Database Technology
CN113031923A (zh) 一种集成管理系统及其应用
Ke Construction of Virtual Simulation Training Platform for Enterprise Operation Based on Workflow
Wang et al. An intelligent customer service representative operating system
CN113159551A (zh) 一种开放式技术资源池管理方法及装置
Shi Remote Digital Management Resource Base Mode Based on Cloud Computing
Li et al. Analysis and Design of Integrated Service Platform for Carbon Assets of Multi-energy Entities Based on Data-driven

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210622