CN110990368A

CN110990368A - 一种全链路数据管理系统及其管理方法

Info

Publication number: CN110990368A
Application number: CN201911205388.8A
Authority: CN
Inventors: 谢菁; 陆冰芳; 翁小云; 马玉林; 梁仲峰; 韦宗慧; 张希翔; 陶镇威; 万义飞
Original assignee: Guangxi Power Grid Co Ltd
Current assignee: Guangxi Power Grid Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-10

Abstract

本发明公开了一种全链路数据管理系统，包括：数据源，其包括流式数据、批量的文件数据、数据库；离线处理平台，其包括数据采集和离线批处理引擎，所述数据采集包括实时数据采集系统和批量采集系统，所述离线批处理引擎用于实现高性能的离线批处理作业运行；所述离线批处理引擎包括：Hive、MapReduce、Spark SQL、Spark、Yarn、HDFS；业务应用，其用于查询并使用批处理结果的业务应用；本发明能很好提高海量数据下数据的使用效率，解决异构数据库数据的关联使用问题，还可以很好的管控数据权限。

Description

一种全链路数据管理系统及其管理方法

技术领域

本发明属于计算机科学技术领域，具体涉及一种全链路数据管理系统及其管理方法。

背景技术

目前国内外采用的数据基础管理技术大多是通过传统关系型数据库，例如Oracle，mysql，postgresql等进行数据存储，通过数据库管理软件，例如Navicat等进行数据管理与使用。传统关系型数据库采用表格的储存方式,数据以行和列的方式进行存储,采用结构化查询语言(即SQL)来对数据库进行查询。这种方案在面对海量数据时会出现查询很慢，对服务器配置要求过高等问题，另外也无法实现异构数据库数据关联使用。在数据安全方面，这种方案也无法很好管控用户数据使用权限。为此，我们提出一种全链路数据管理系统及其管理方法，以解决上述背景技术中提到的问题。

发明内容

本发明的目的在于提供一种全链路数据管理系统及其管理方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种全链路数据管理系统，包括：

数据源，其包括流式数据、批量的文件数据、数据库；

离线处理平台，其包括数据采集和离线批处理引擎，所述数据采集包括实时数据采集系统和批量采集系统，所述离线批处理引擎用于实现高性能的离线批处理作业运行；

所述离线批处理引擎包括：Hive、MapReduce、Spark SQL、Spark、Yarn、HDFS；

业务应用，其用于查询并使用批处理结果的业务应用，由ISV开发。

优选的，所述流式数据包括Socket流、OGG日志流、日志文件。

优选的，所述实时数据采集系统用于实时采集流式数据，可能的形式包括：

Flume：用于Socket流或者日志文件等的数据采集；

第三方采集工具：第三方或者定制开发的数据采集工具或程序；

所述批量采集系统：用于采集批量数据，可能的形式包括：

Flume：用于批量采集数据文件日志文件；

Sqoop：用于批量采集数据库数据；

第三方采集/ET工具：第三方数据采集、加载、处理工具。

优选的，所述Hive：传统SQL批处理引擎，用于处理SQL类批处理作业，使用广泛海量数据下表现稳定，但是处理速度较慢；

所述MapReduce：传统批处理引擎，用于处理非SQL类，尤其是数据挖掘和机器学习类批处理作业，使用广泛，海量数据下表现稳定，但是处理速度较慢；

所述Spark SQL：新型SQL批处理引擎，用于处理SQL类批处理作业，适合海量数据，处理速度高效；

所述Spark：新型批处理引擎，用于处理非SQL类，尤其是数据挖掘和机器学习类批处理作业，适合海量数据，处理速度高效；

所述Yarn：资源调度引擎，为各种批处理引擎提供资源调度能力，是多租户资源分配的基础；

所述HDFS：分布式文件系统，为各种批处理引擎提供数据存储，可以存储各种文件格式数据。

本发明还提供了一种全链路数据管理系统的管理方法，具体包括以下步骤：

S1、使用sqoop，datax或其他第三方ETL工具同步异构数据库数据至大数据平台；

S2、数据文件存储采用HDFS(分布式文件存储系统)存储；

S3、使用GaussDB 200企业级大规模并行处理关系型数据库；GaussDB 200采用MPP(Massively Parallel Processing)架构，支持行存储与列存储，提供PB(Petabyte，2的50次方字节)级别数据量的处理能力；

S4、使用MapReduce、Hive、Pig等批处理工具，以支持大数据计算作业；

S5、建立基于LDAP(Lightweight Directory Access Protocol)技术的用户、用户组、项目的用户管理体系。

与现有技术相比，本发明的有益效果是：本发明提供的一种全链路数据管理系统及其管理方法，本发明解决传统关系型数据库面对海量数据时查询过慢问题；解决异构数据库数据关联使用问题；提供一种更优的数据权限管理方案。本发明能很好提高海量数据下数据的使用效率，解决异构数据库数据的关联使用问题，还可以很好的管控数据权限，

附图说明

图1为本发明的全链路数据管理系统示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，实施例如下：

本发明提供如下技术方案：一种全链路数据管理系统，包括：

数据源，其包括流式数据、批量的文件数据、数据库；

具体的，所述流式数据包括Socket流、OGG日志流、日志文件。

具体的，所述实时数据采集系统用于实时采集流式数据，可能的形式包括：

Flume：用于Socket流或者日志文件等的数据采集；

所述批量采集系统：用于采集批量数据，可能的形式包括：

Flume：用于批量采集数据文件日志文件；

Sqoop：用于批量采集数据库数据；

第三方采集/ET工具：第三方数据采集、加载、处理工具。

具体的，所述Hive：传统SQL批处理引擎，用于处理SQL类批处理作业，使用广泛海量数据下表现稳定，但是处理速度较慢；

S2、数据文件存储采用HDFS(分布式文件存储系统)存储；

综上所述，与现有技术相比，本发明能很好提高海量数据下数据的使用效率，解决异构数据库数据的关联使用问题，还可以很好的管控数据权限，本发明解决传统关系型数据库面对海量数据时查询过慢问题；解决异构数据库数据关联使用问题；提供一种更优的数据权限管理方案。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种全链路数据管理系统，其特征在于，包括：

数据源，其包括流式数据、批量的文件数据、数据库；

2.根据权利要求1所述的一种全链路数据管理系统，其特征在于：所述流式数据包括Socket流、OGG日志流、日志文件。

3.根据权利要求1所述的一种全链路数据管理系统，其特征在于：所述实时数据采集系统用于实时采集流式数据，可能的形式包括：

Flume：用于Socket流或者日志文件等的数据采集；

所述批量采集系统：用于采集批量数据，可能的形式包括：

Flume：用于批量采集数据文件日志文件；

Sqoop：用于批量采集数据库数据；

第三方采集/ET工具：第三方数据采集、加载、处理工具。

4.根据权利要求1所述的一种全链路数据管理系统，其特征在于：所述Hive：传统SQL批处理引擎，用于处理SQL类批处理作业，使用广泛海量数据下表现稳定，但是处理速度较慢；

5.一种权利要求1所述的全链路数据管理系统的管理方法，其特征在于：具体包括以下步骤：

S2、数据文件存储采用HDFS存储；

S3、使用GaussDB 200企业级大规模并行处理关系型数据库；GaussDB 200采用MPP架构，支持行存储与列存储，提供PB级别数据量的处理能力；

S5、建立基于LDAP技术的用户、用户组、项目的用户管理体系。