CN107766541A

CN107766541A - 配用电全局全量数据传输及存储方法、装置、电子设备

Info

Publication number: CN107766541A
Application number: CN201711041209.2A
Authority: CN
Inventors: 吴新玲; 谢伟; 张书翰; 田传波; 乔克; 闫爱梅; 佘家驹; 郭乃网; 苏运; 黄芙蓉
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Shanghai Electric Power Co Ltd; Beijing Guodiantong Network Technology Co Ltd; Beijing Fibrlink Communications Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Shanghai Electric Power Co Ltd; Beijing Guodiantong Network Technology Co Ltd; Beijing Fibrlink Communications Co Ltd
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2018-03-06
Anticipated expiration: 2037-10-30
Also published as: CN107766541B

Abstract

本发明公开了一种配用电全局全量数据传输及存储方法、装置、电子设备；所述方法包括：将电力系统配电网中各业务系统的第一原始数据迁移到大数据平台的数据仓库；使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗，将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库，获得用于被应用场景作为分析数据的第二原始数据；将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库，生成用于检索索引的结果数据。本发明在保证数据的完整性和准确性的情况下，尽可能地将数据进行压缩，减少数据冗余和空间浪费，节省存储空间，同时保证数据的解码和查找速度，实现整型数据压缩率与检索速度的协调兼顾。

Description

配用电全局全量数据传输及存储方法、装置、电子设备

技术领域

本发明涉及数据处理技术领域，特别是指一种配用电全局全量数据传输及存储方法、装置、电子设备。

背景技术

基于配用电全局全量数据的采集、传输、存储与高级分析应用研究，在现有的电网数据处理应用领域中已经有一定的应用，其目的是对于各电力相关业务系统所积累的数据，通过大数据手段进行采集、集成、处理、分析与应用来实现小电流接地故障选线，综合故障分析，电网量测数据评价等具体的应用场景。这些应用场景的展示对于数据的检索速度和数据质量有着很高的要求，只有高效的将数据检索并抽取出来，才能实现应用场景的展示。现有的配用电全局全量数据传输及存储技术无法达到上述使用要求。

发明内容

有鉴于此，本发明的目的在于提出一种配用电全局全量数据传输及存储方法、装置、电子设备，在保证数据的完整性和准确性的情况下，尽可能地将数据进行压缩，减少数据冗余和空间浪费，节省存储空间，同时保证数据的解码和查找速度，实现整型数据压缩率与检索速度的协调兼顾。

基于上述目的本发明提供的一种配用电全局全量数据传输及存储方法，应用于电力系统配电网，包括：

将电力系统配电网中各业务系统的第一原始数据迁移到大数据平台的数据仓库；

使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗，将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库，获得用于被应用场景作为分析数据的第二原始数据；

将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库，生成用于检索索引的结果数据。

在一些实施方式中，所述第一原始数据包括：orcale数据库数据、txt/excel文件和cim/svg文件。

在一些实施方式中，对于所述orcale数据库数据，其迁移到所述大数据平台的数据仓库后，还需要创建基于Inceptor数据仓库的orc线性表将生成的HDFS文件写入所述大数据平台的数据仓库。

在一些实施方式中，对于所述txt/excel文件；当所述txt/excel文件的格式固定时，将所述txt/excel文件通过ftp方式传输到所述大数据平台的指定目录下，同时在创建inceptor表的时候指定与所述txt/excel文件通过一样的列分隔符；当所述txt/excel文件的格式不固定时，通过写java程序的方式逐条处理，再加载到所述inceptor数据仓库。

在一些实施方式中，对于所述cim/svg文件，通过写java程序的方式逐条处理，再加载到所述inceptor数据仓库。

在一些实施方式中，所述数据处理和数据清洗包括：合并操作、关联操作、去重操作、行列转置操作。

另一方面，本发明还提供了一种配用电全局全量数据传输及存储装置，应用于电力系统配电网，包括：

第一执行模块，用于将电力系统配电网中各业务系统的第一原始数据迁移到大数据平台的数据仓库；

第二执行模块，用于使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗，将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库，获得用于被应用场景作为分析数据的第二原始数据；

第三执行模块，用于将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库，生成用于检索索引的结果数据。

再一方面，本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一项所述的方法。

从上面所述可以看出，本发明提供的配用电全局全量数据传输及存储方法、装置、电子设备，能够使得配用电大数据进行有条理的传输及存储。在本发明的技术方案下，能够在保证数据的完整性和准确性的情况下通过在三个库之间的流转将数据进行最大程度的压缩，减少数据冗余和空间浪费，节省存储空间，同时保证数据的解码和查找速度，实现数据的高线检索，满足实际应用场景的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的配用电全局全量数据传输及存储方法流程图；

图2为本发明实施例的配用电全局全量数据传输及存储装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

本发明实施例提供了一种配用电全局全量数据传输及存储方法，在本发明的技术方案中，需要确认数据的流转方式，即数据在采集库、原始库、中间库和结果库之间的处理流程。就数据在采集库到原始库之间需要确定数据的迁移方式。在原始库到中间库之间需要确定数据的处理方式(包括数据的清洗、插值、合并、关联、移植等)。在中间库与结果库之间通过脚本将数据迁移来实现增加检索速度。

具体的，参考图1，所述配用电全局全量数据传输及存储方法，包括以下步骤：

步骤101、将电力系统配电网中各业务系统的第一原始数据迁移到大数据平台的数据仓库。

本步骤为数据从采集库到原始库的过程。具体的，采集库中原始数据的数据存储格式大体可分为orcale数据库存储、txt/excel文件格式和cim/svg文件三种格式。

对于orcale数据库数据，是通过编写sqoop脚本将数据库数据倒进到大数据平台的HDFS文件。数据被迁移到大数据平台后还需要创建Inceptor的orc线性表将生成的HDFS文件写入数据仓库。其中，Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql)间进行数据的传递，可以将一个关系型数据库(例如MySQL，Oracle等)中的数据导进到Hadoop(Hadoop分布式文件系统，Hadoop的框架最核心的设计包括：HDFS和MapReduce；HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。)的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

对于格式固定的txt文件数据需要先将文件ftp到大数据平台的指定目录下，同时在创建inceptor表的时候指定与该文本文件一样的列分隔符，这样就可以直接把指定路径下的文本文件数据load到inceptor表；但是对于格式不统一的文本文件(如SCADA系统的10kV出线电流数据，文件中的每行数据列数均不确定)，则是通过写java程序的方式逐条处理，最后再加载到inceptor数据库。

对于cim/svg等类xml格式的数据，也是通过写java程序的方式完成数据迁移的。

下面，通过表1给出一个从采集库到原始库的实例参考。

表1采集库到原始库实例

步骤102、使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗，将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库，获得用于被应用场景作为分析数据的第二原始数据。

本步骤为数据从为原始库到中间库的过程。具体的，该过程利用大数据平台强大的分布式处理能力，对原始数据进行关联，合并，去重、行列转置等操作，形成更利于数据分析和前台展示的新数据。

在数据清洗过程中，清洗算法需要的初始数据格式更加多变，对于不便于用InceptorSQL处理的数据需要编写java程序实现。一般先生成一个格式化的文本文件再通过FTP将文件加载到大数据平台，清理之后的数据仍为格式化的文本文件，用同样的方式将文本文件加载到大数据平台。

所有处理完的数据会完整保存到中间库，用于各场景的数据分析。

下面，通过表2给出一个从原始库到中间库的实例参考。

表2原始库到中间库实例

步骤103、将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库，生成用于检索索引的结果数据。

本步骤为数据从中间库到结果库的过程。具体的，在数据清洗过程中，之所以将数据放在Inceptor中处理，一是因为该数据库支持事务，能实现分布式数据的增删查改，另一方面可以用SQL的方式操作数据，用更简单的方式执行MapReduce(MapReduce一种编程模型，用于大规模数据集的并行运算)操作，降低现场开发人员的学习成本。但是当面对海量数据且需要频繁与前台实时交互时，Inceptor的查询效率(特别是模糊查询和范围查询)就无法满足我们的需求。

为此我们将中间库所有需要与前台交互的Inceptor表全部迁移到Hyperbase数据库，并为常用的作为查询条件的列创建全文索引，这样便大大加快了检索速度。

下面，通过表3给出一个从中间库到结果库的实例参考。

表3中间库到结果库实例

由上述实施例可见，本发明的配用电全局全量数据传输及存储方法、装置、电子设备，能够使得配用电大数据进行有条理的处理。在本发明处理方式下，能够在保证数据的完整性和准确性的情况下通过在三个库之间的流转将数据进行最大程度的压缩，减少数据冗余和空间浪费，节省存储空间，同时保证数据的解码和查找速度，实现数据的高线检索，满足实际应用场景的需求。

基于同一发明构思，本发明实施例还提供了一种配用电全局全量数据传输及存储装置。所述装置应用于电力系统配电网，参考图2，其包括：

第一执行模块201，用于将电力系统配电网中各业务系统的第一原始数据迁移到大数据平台的数据仓库；

第二执行模块202，用于使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗，将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库，获得用于被应用场景作为分析数据的第二原始数据；

第三执行模块203，用于将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库，生成用于检索索引的结果数据。

进一步的，所述第一原始数据包括：orcale数据库数据、txt/excel文件和cim/svg文件。对于所述orcale数据库数据，其迁移到所述大数据平台的数据仓库后，还需要创建基于Inceptor数据仓库的orc线性表将生成的HDFS文件写入所述大数据平台的数据仓库。对于所述txt/excel文件；当所述txt/excel文件的格式固定时，将所述txt/excel文件通过ftp方式传输到所述大数据平台的指定目录下，同时在创建inceptor表的时候指定与所述txt/excel文件通过一样的列分隔符；当所述txt/excel文件的格式不固定时，通过写java程序的方式逐条处理，再加载到所述inceptor数据仓库。对于所述cim/svg文件，通过写java程序的方式逐条处理，再加载到所述inceptor数据仓库。

进一步的，所述数据处理和数据清洗包括：合并操作、关联操作、去重操作、行列转置操作。

基于同一发明构思，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述实施例的配用电全局全量数据传输及存储方法。

上述实施例的装置和电子设备用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种配用电全局全量数据传输及存储方法，应用于电力系统配电网，其特征在于，包括：

2.根据权利要求1所述的配用电全局全量数据传输及存储方法，其特征在于，所述第一原始数据包括：orcale数据库数据、txt/excel文件和cim/svg文件。

3.根据权利要求2所述的配用电全局全量数据传输及存储方法，其特征在于，对于所述orcale数据库数据，其迁移到所述大数据平台的数据仓库后，还需要创建基于Inceptor数据仓库的orc线性表将生成的HDFS文件写入所述大数据平台的数据仓库。

4.根据权利要求2所述的配用电全局全量数据传输及存储方法，其特征在于，对于所述txt/excel文件；当所述txt/excel文件的格式固定时，将所述txt/excel文件通过ftp方式传输到所述大数据平台的指定目录下，同时在创建inceptor表的时候指定与所述txt/excel文件通过一样的列分隔符；当所述txt/excel文件的格式不固定时，通过写java程序的方式逐条处理，再加载到所述inceptor数据仓库。

5.根据权利要求2所述的配用电全局全量数据传输及存储方法，其特征在于，对于所述cim/svg文件，通过写java程序的方式逐条处理，再加载到所述inceptor数据仓库。

6.根据权利要求1所述的配用电全局全量数据传输及存储方法，其特征在于，所述数据处理和数据清洗包括：合并操作、关联操作、去重操作、行列转置操作。

7.一种配用电全局全量数据传输及存储装置，应用于电力系统配电网，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。