CN112527856A

CN112527856A - 用于电网数据的统一数据源管理系统及方法

Info

Publication number: CN112527856A
Application number: CN202011276961.7A
Authority: CN
Inventors: 冯歆尧; 彭泽武; 谢瀚阳; 梁盈威
Original assignee: Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-03-19

Abstract

本发明公开了一种用于电网数据的统一数据源管理系统和方法，所述统一数据源管理系统以分布式文件系统为存储，通过Hive和Hawq引擎对外提供上层应用且根据业务场景自动适配读取不同数据源，该系统包括：统一写数据模块，其从数据导出节点将数据写入到HDFS文件，创建与该HDFS文件相关联的Hive表结构和Hawq表结构，以及这两种表结构的关联信息和用户的表权限；统一读数据模块，其预先为每个用户创建统一的数据源，并授权给用户相关库的表权限，根据业务场景自动适配进行Hive数据库和Hawq数据库的切换；统一权限管控模块，其在进行数据写入和读出时，判别当前用户是否具有表权限。本发明能够提高数据分析效率、节约成本。

Description

用于电网数据的统一数据源管理系统及方法

技术领域

本发明涉及电网技术领域，尤其涉及一种用于电网数据的统一数据源管理系统及方法。

背景技术

随着电网规模的高速发展，信息化技术手段已广泛应用于电网的各个层面，取得了显著效果，为满足国民经济和社会发展的需要，提高客户服务质量做出了有力支撑。电力企业的计量自动化、采集系统也在不断完善普及，从而产生了海量的用电数据。

当前电网采集的用电数据实时性高且数据量巨大，在大数据分析的实施过程中，处于上层应用的数据分析人员并不清楚底层数据存储的逻辑、不同存储方式及数据执行引擎的性能，这导致不同的数据分析工具之间数据的应用容易产生冲突，进而导致数据分析的工作质量、效率太低。

发明内容

本发明所要解决的技术问题之一是需要提供一种提高数据分析效率、节约成本的用于电网数据的统一数据源管理系统。

为了解决上述技术问题，本申请的实施例首先提供了一种用于电网数据的统一数据源管理系统，所述统一数据源管理系统以分布式文件系统为存储，通过Hive和Hawq引擎对外提供上层应用且根据业务场景自动适配读取不同数据源，该系统包括：统一写数据模块，其从数据导出节点将数据写入到HDFS文件，创建与该HDFS文件相关联的Hive表结构和Hawq表结构，以及这两种表结构的关联信息和用户的表权限；统一读数据模块，其预先为每个用户创建统一的数据源，并授权给用户相关库的表权限，根据业务场景自动适配进行Hive数据库和Hawq数据库的切换；统一权限管控模块，其在进行数据写入和读出时，判别当前用户是否具有表权限。

在一个实施例中，所述统一写数据模块，其在创建Hive表结构和Hawq表结构的关联信息时，配置Hawq++数据源和Hive数据源的对应关系、Hawq++表名和Hive表名的适配关系、以及表字段类型的适配关系。

在一个实施例中，所述统一读数据模块，其在根据业务场景自动适配进行Hive数据库和Hawq数据库的切换时，根据预先配置好的Hawq++数据源和Hive数据源的对应关系、Hawq++表名和Hive表名的适配关系、以及表字段类型的适配关系进行数据库切换。

在一个实施例中，所述业务场景包括SQL统计分析场景和数据挖掘场景；

进一步，所述统一读数据模块，其在SQL统计分析场景中，选择配置好的作为统一数据源的Hawq++数据源，进行SQL代码编写；若是数据挖掘场景中，则选择配置好的Hawq++数据源，在读取的时候，自动切换成为读取Hive表的数据。

根据本发明的另一方面，还提供了一种用于电网数据的统一数据源管理方法，在该方法中以分布式文件系统为存储，通过Hive和Hawq引擎对外提供上层应用且根据业务场景自动适配读取不同数据源，该方法包括：统一写数据步骤，从数据导出节点将数据写入到HDFS文件，创建与该HDFS文件相关联的Hive表结构和Hawq表结构，以及这两种表结构的关联信息和用户的表权限；统一读数据步骤，预先为每个用户创建统一的数据源，并授权给用户相关库的表权限，根据业务场景自动适配进行Hive数据库和Hawq数据库的切换；统一权限管控步骤，在进行数据写入和读出时，判别当前用户是否具有表权限。

在一个实施例中，在所述统一写数据中，在创建Hive表结构和Hawq表结构的关联信息时，配置Hawq++数据源和Hive数据源的对应关系、Hawq++表名和Hive表名的适配关系、以及表字段类型的适配关系。

在一个实施例中，在统一读数据步骤中，在根据业务场景自动适配进行Hive数据库和Hawq数据库的切换时，根据预先配置好的Hawq++数据源和Hive数据源的对应关系、Hawq++表名和Hive表名的适配关系、以及表字段类型的适配关系进行数据库切换。

在一个实施例中，所述业务场景包括SQL统计分析场景和数据挖掘场景；进一步，在所述统一读数据中，若在SQL统计分析场景中，选择配置好的作为统一数据源的Hawq++数据源，进行SQL代码编写；若是数据挖掘场景中，则选择配置好的Hawq++数据源，在读取的时候，自动切换成为读取Hive表的数据。

根据本发明的另一方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述方法的步骤。

根据本发明的另一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述方法的步骤。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

本发明实施例通过基于HDFS的存储，将Hive表和Hawq++表统一适配，实现统一读、统一写和统一权限管控，可通过不同的分析工具进行数据源的动态适配，提高数据分析的效率，既做到适配用户无感知，又提高数据读写性能，提高用户体验效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为本申请实施例的用于电网数据的统一数据源管理系统的组成架构示意图。

图2为本申请实施例的用于电网数据的统一数据源管理系统的功能结构图。

图3(a)和图3(b)分别为本申请实施例的用于电网数据的统一数据源管理方法的统一读数据和统一写数据的流程示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例提供一种以分布式文件系统(简称“HDFS”)为存储，通过数据仓库工具(简称“Hive”)和云时代大数据管理引擎(简称“HAWQ++”)对外提供上层应用且根据业务场景自动适配读取不同数据源的技术方案。

本发明的发明人在研发阶段发现：在大数据体系建设中，传统数据存储都在PB级别，以数据云平台系统为例，目前该云平台系统是基于不同的存储方式向外提供服务的，由于在该平台存储中存在多份数据资料，将会大大的浪费存储资源。因此，发明人通过仔细研究得到本申请的统一数据源管理系统，该系统基于统一数据源的建设，在HDFS的基础之上实现HAWQ++和Hive的对外提供服务，减少了数据源存储数量，节约了成本，同时也减少了数据同步的时间和人力成本。

在说明本实施例之前，先对涉及到的专业用语进行描述。

HDFS：是Hadoop应用程序中主要的分布式储存系统，HDFS集群包含了一个NameNode(主节点)，这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点，可以有很多)。HDFS针对海量数据所设计，所以相比传统文件系统在大批量小文件上的优化，HDFS优化的则是对小批量大型文件的访问和存储。

Hive：Apache Hive是Hadoop的一个数据仓库系统，促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。

Hawq++：Hawq是一个Hadoop原生大规模并行SQL分析引擎，针对的是分析性应用。和其他关系型数据库类似，接受SQL，返回结果集。但它具有大规模并行处理很多传统数据库以及其他数据库没有的特性及功能。

如图1所示，在该架构中，除了统一数据源管理系统以外，还包括存储层、服务层和应用层。其中，存储层采用HDFS的分布式文件系统来统一存储数据，保证数据的一致性。服务层提供多种不同的计算引擎，包括Hawq++和Hive计算引擎，实现数据的预处理、数据分析和数据挖掘等。应用层为使用数据的入口，用于提供应用模块，实现对数据的查询和管理。在应用层包括SQL查询服务和敏捷挖掘工作流的挖掘服务。在本例中，Hawq++数据库面向应用的SQL查询服务，Hive数据库面向敏捷挖掘工作流的挖掘服务。

概括来说，通过该统一数据源管理系统实现对Hawq++数据库和Hive数据库的统一数据源配置管理和权限管理，且该系统还可以根据应用场景来自动适配实现数据库的切换。在将数据从节点导出时，会将该系统的执行结果进行持久化存储，在数据量较大的情况下，支持统一存储到HDFS上。将这些数据存储在HDFS上的同时，还建立相应的Hive和Hawq++表结构。这样实现自动适配Hawq++引擎和Hive引擎，并授权给该创建用户。

图2为本申请实施例的用于电网数据的统一数据源管理系统的功能结构图。下面参考图2来说明该系统的各个组成模块。如图2所示，该系统20包括统一写数据模块20a、统一读数据模块20b和统一权限管控模块20c。概括来说，统一写数据模块20a，其从数据导出节点将数据写入到HDFS文件，创建与该HDFS文件相关联的Hive表结构和Hawq表结构，以及这两种表结构的关联信息和用户的表权限。统一读数据模块20b，其预先为每个用户创建统一的数据源，并授权给用户相关库的表权限，根据业务场景自动适配进行Hive数据库和Hawq数据库的切换。统一权限管控模块20c，其在进行数据写入和读出时，判别当前用户是否具有表权限。

(一)统一读数据模块20b

(数据源统一配置)

统一读数据模块20b先进行数据源同一配置，在数据源的统一配置过程中，为每个用户创建统一的数据源(如Hawq++数据源)。如，将某地市局的相关库表授权给到某用户，该用户管理自己数据库的表授权工作。

在建立好统一的数据源之后，要创建该统一数据源与其他类数据源之间的对应关系，例如，以Hawq++数据源为例，Hawq++数据源和Hive数据源的对应关系如下表1所示：

表1(数据源对应关系)

Hawq++数据源	Hive数据源
		Jdbc:postgresql://IP:port/gpods	Jdbc:hive2://IP:port/

需要说明的是，除了前面预先建立好数据源之间的对应关系之后还要建立适配关系，如下面表2的表名适配关系和表3的表字段类型的适配关系，这样，就可以根据预先建立的对应关系进行数据库的转换。

表2(表名适配)

Hawq++表名	Hive表名
		模式名.npmis_kh_ydkh	库名.npmis_kh_ydkh

需要注意的是，Hawq++的表对应的是事实表，而Hive的表对应的是视图，表名一致。

表3(表字段类型适配)

(数据库切换)

接下来，统一读数据模块20b，其根据场景自动适配进行数据库切换。在根据业务场景自动适配进行Hive数据库和Hawq数据库的切换时，根据预先配置好的Hawq++数据源和Hive数据源的对应关系、Hawq++表名和Hive表名的适配关系、以及表字段类型的适配关系进行数据库切换。

在本例中，设置的应用服务为SQL查询服务和敏捷挖掘工作流的挖掘服务，因此，以这两种场景来进行说明，当然，还可以选择其他的场景进行数据库的适配性切换。

若是SQL统计分析场景，则通过SQL查询工具，选择配置好的Hawq++数据源，进行SQL代码编写，在这过程中自动使用的是Hawq++数据源。若是数据挖掘场景，则通过敏捷挖掘工具，进入到挖掘模块，选用SmartDI节点作为数据源，选择在数据管理下配置的Hawq++数据源，在读取的时候，内部会自动切换成为读取Hive表。

(二)统一写数据模块20a

统一写数据模块20a，其在进行统一写数据处理时，首先要将数据源导出节点。例如，使用SmartDI节点(作为敏捷挖掘工具的一个数据节点，主要用于加载储存的数据到内存中进行运算)，将其数据写到用户选择的数据库。通过识别用户选择的数据库的用户名账号和信息，决定结构表存储到Hive数据库还是Hawq++数据库上。

在确定将结构表所存储的数据库后，先将该节点数据写HDFS文件，然后创建表结构和表权限，授权给创建的用户。当将数据写入到HDFS之后，这个数据会有一个文件的访问地址，那么要将该访问地址和Hive表或Hawq++表建立关联，就会在Hive数据库或Hawq++数据库中创建一个表，同时数据文件的地址指向这个HDFS的文件地址。

在将该节点数据写入HDFS文件后，还需要进行HDFS路径配置，按照不同的库名来创建，每个数据库都有自己的库名，如yxxt(代表“营销系统”)，zcxt(代表“资产系统”)，具体配置对应如下表4：

表4

数据库	实际HDFS路径
		识别该用户的数据源	/user/hive/warehouse/{数据库名}.db

在自动创建表结构时，需要新建Hive表结构和Hawq外部表，例如通过建表语句“create table(字段名)ROW FORMAT DELIMITED LOCATION数据路径”的方式创建。

统一写数据模块20a，其在创建Hive表结构和Hawq表结构的关联信息时，还要配置Hawq++数据源和Hive数据源的对应关系、Hawq++表名和Hive表名的适配关系、以及表字段类型的适配关系。

在自动创建表授权时，授权该用户数据库账号的表权限，例如，通过授权语句：“create user usenme with password xxx；grant all on schema to username”进行实现。

在应用数据库时，自动添加表，并授权给该用户。

下面以图3所示的例子来说明该管理系统是如何进行统一读数据、统一写数据的操作的。

如图3(a)所示，在执行统一读数据处理中，该系统首先读取数据源，判断当前用户是否具有读权限，若没有，则进行提示并结束操作；否则进入下一步骤——判断当前的业务场景，若在SQL统计分析场景中，选择配置好的作为统一数据源的Hawq++数据源，进行SQL代码编写；若是数据挖掘场景中，则选择配置好的Hawq++数据源，在读取的时候，自动切换成为读取Hive表的数据。使用例如SmartDBM工具帮助用户读取Hawq++表。

如图3(b)所示，在执行统一读数据处理中，首次导出数据，判断当前用户是否有写权限，若没有，则进行提示并结束操作；否则进入下一步骤——放入HDFS中，用例如SmartDBM工具将该数据源导出到Hive数据库中，创建Hive表结构，并配置建立Hawq外部表，将Hawq外部表通过thrift协议连接到Hive数据库中，然后用户可以通过本数据源管理系统添加该表。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时至少用于执行图3所示方法的步骤。所述计算机可读存储介质具体可以为存储器。

本申请实施例还提供一种电子设备，该设备包括：至少一个处理器和用于存储能够在处理器上运行的计算机程序的存储器。其中，所述处理器执行所述计算机程序时至少执行图3所示方法的步骤。

本发明实施例通过基于HDFS的存储，将Hive表和Hawq++表统一适配，涉及三大功能模块开发，统一读、统一写和统一权限管控，既做到适配用户无感知，又提高数据读写性能，提升用户体验效果和数据分析的效率。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种用于电网数据的统一数据源管理系统，其特征在于，所述统一数据源管理系统以分布式文件系统为存储，通过Hive和Hawq引擎对外提供上层应用且根据业务场景自动适配读取不同数据源，该系统包括：

统一写数据模块，其从数据导出节点将数据写入到HDFS文件，创建与该HDFS文件相关联的Hive表结构和Hawq表结构，以及这两种表结构的关联信息和用户的表权限；

统一读数据模块，其预先为每个用户创建统一的数据源，并授权给用户相关库的表权限，根据业务场景自动适配进行Hive数据库和Hawq数据库的切换；

统一权限管控模块，其在进行数据写入和读出时，判别当前用户是否具有表权限。

2.根据权利要求1所述的统一数据源管理系统，其特征在于，

所述统一写数据模块，其在创建Hive表结构和Hawq表结构的关联信息时，配置Hawq++数据源和Hive数据源的对应关系、Hawq++表名和Hive表名的适配关系、以及表字段类型的适配关系。

3.根据权利要求2所述的统一数据源管理系统，其特征在于，

所述统一读数据模块，其在根据业务场景自动适配进行Hive数据库和Hawq数据库的切换时，根据预先配置好的Hawq++数据源和Hive数据源的对应关系、Hawq++表名和Hive表名的适配关系、以及表字段类型的适配关系进行数据库切换。

4.根据权利要求1～3中任一项所述的统一数据源管理系统，其特征在于，

所述业务场景包括SQL统计分析场景和数据挖掘场景；

5.一种用于电网数据的统一数据源管理方法，其特征在于，在该方法中以分布式文件系统为存储，通过Hive和Hawq引擎对外提供上层应用且根据业务场景自动适配读取不同数据源，该方法包括：

统一写数据步骤，从数据导出节点将数据写入到HDFS文件，创建与该HDFS文件相关联的Hive表结构和Hawq表结构，以及这两种表结构的关联信息和用户的表权限；

统一读数据步骤，预先为每个用户创建统一的数据源，并授权给用户相关库的表权限，根据业务场景自动适配进行Hive数据库和Hawq数据库的切换；

统一权限管控步骤，在进行数据写入和读出时，判别当前用户是否具有表权限。

6.根据权利要求1所述的统一数据源管理方法，其特征在于，

在所述统一写数据中，在创建Hive表结构和Hawq表结构的关联信息时，配置Hawq++数据源和Hive数据源的对应关系、Hawq++表名和Hive表名的适配关系、以及表字段类型的适配关系。

7.根据权利要求6所述的统一数据源管理方法，其特征在于，

在统一读数据步骤中，在根据业务场景自动适配进行Hive数据库和Hawq数据库的切换时，根据预先配置好的Hawq++数据源和Hive数据源的对应关系、Hawq++表名和Hive表名的适配关系、以及表字段类型的适配关系进行数据库切换。

8.根据权利要求5～7中任一项所述的统一数据源管理方法，其特征在于，

所述业务场景包括SQL统计分析场景和数据挖掘场景；

进一步，在所述统一读数据中，若在SQL统计分析场景中，选择配置好的作为统一数据源的Hawq++数据源，进行SQL代码编写；若是数据挖掘场景中，则选择配置好的Hawq++数据源，在读取的时候，自动切换成为读取Hive表的数据。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求5至8任一所述方法的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求5至8任一所述方法的步骤。