CN107766541A - 配用电全局全量数据传输及存储方法、装置、电子设备 - Google Patents
配用电全局全量数据传输及存储方法、装置、电子设备 Download PDFInfo
- Publication number
- CN107766541A CN107766541A CN201711041209.2A CN201711041209A CN107766541A CN 107766541 A CN107766541 A CN 107766541A CN 201711041209 A CN201711041209 A CN 201711041209A CN 107766541 A CN107766541 A CN 107766541A
- Authority
- CN
- China
- Prior art keywords
- data
- inceptor
- somebody
- electricity consumption
- overall situation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种配用电全局全量数据传输及存储方法、装置、电子设备;所述方法包括:将电力系统配电网中各业务系统的第一原始数据迁移到大数据平台的数据仓库;使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗,将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库,获得用于被应用场景作为分析数据的第二原始数据;将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库,生成用于检索索引的结果数据。本发明在保证数据的完整性和准确性的情况下,尽可能地将数据进行压缩,减少数据冗余和空间浪费,节省存储空间,同时保证数据的解码和查找速度,实现整型数据压缩率与检索速度的协调兼顾。
Description
技术领域
本发明涉及数据处理技术领域,特别是指一种配用电全局全量数据传输及存储方法、装置、电子设备。
背景技术
基于配用电全局全量数据的采集、传输、存储与高级分析应用研究,在现有的电网数据处理应用领域中已经有一定的应用,其目的是对于各电力相关业务系统所积累的数据,通过大数据手段进行采集、集成、处理、分析与应用来实现小电流接地故障选线,综合故障分析,电网量测数据评价等具体的应用场景。这些应用场景的展示对于数据的检索速度和数据质量有着很高的要求,只有高效的将数据检索并抽取出来,才能实现应用场景的展示。现有的配用电全局全量数据传输及存储技术无法达到上述使用要求。
发明内容
有鉴于此,本发明的目的在于提出一种配用电全局全量数据传输及存储方法、装置、电子设备,在保证数据的完整性和准确性的情况下,尽可能地将数据进行压缩,减少数据冗余和空间浪费,节省存储空间,同时保证数据的解码和查找速度,实现整型数据压缩率与检索速度的协调兼顾。
基于上述目的本发明提供的一种配用电全局全量数据传输及存储方法,应用于电力系统配电网,包括:
将电力系统配电网中各业务系统的第一原始数据迁移到大数据平台的数据仓库;
使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗,将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库,获得用于被应用场景作为分析数据的第二原始数据;
将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库,生成用于检索索引的结果数据。
在一些实施方式中,所述第一原始数据包括:orcale数据库数据、txt/excel文件和cim/svg文件。
在一些实施方式中,对于所述orcale数据库数据,其迁移到所述大数据平台的数据仓库后,还需要创建基于Inceptor数据仓库的orc线性表将生成的HDFS文件写入所述大数据平台的数据仓库。
在一些实施方式中,对于所述txt/excel文件;当所述txt/excel文件的格式固定时,将所述txt/excel文件通过ftp方式传输到所述大数据平台的指定目录下,同时在创建inceptor表的时候指定与所述txt/excel文件通过一样的列分隔符;当所述txt/excel文件的格式不固定时,通过写java程序的方式逐条处理,再加载到所述inceptor数据仓库。
在一些实施方式中,对于所述cim/svg文件,通过写java程序的方式逐条处理,再加载到所述inceptor数据仓库。
在一些实施方式中,所述数据处理和数据清洗包括:合并操作、关联操作、去重操作、行列转置操作。
另一方面,本发明还提供了一种配用电全局全量数据传输及存储装置,应用于电力系统配电网,包括:
第一执行模块,用于将电力系统配电网中各业务系统的第一原始数据迁移到大数据平台的数据仓库;
第二执行模块,用于使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗,将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库,获得用于被应用场景作为分析数据的第二原始数据;
第三执行模块,用于将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库,生成用于检索索引的结果数据。
再一方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一项所述的方法。
从上面所述可以看出,本发明提供的配用电全局全量数据传输及存储方法、装置、电子设备,能够使得配用电大数据进行有条理的传输及存储。在本发明的技术方案下,能够在保证数据的完整性和准确性的情况下通过在三个库之间的流转将数据进行最大程度的压缩,减少数据冗余和空间浪费,节省存储空间,同时保证数据的解码和查找速度,实现数据的高线检索,满足实际应用场景的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的配用电全局全量数据传输及存储方法流程图;
图2为本发明实施例的配用电全局全量数据传输及存储装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
本发明实施例提供了一种配用电全局全量数据传输及存储方法,在本发明的技术方案中,需要确认数据的流转方式,即数据在采集库、原始库、中间库和结果库之间的处理流程。就数据在采集库到原始库之间需要确定数据的迁移方式。在原始库到中间库之间需要确定数据的处理方式(包括数据的清洗、插值、合并、关联、移植等)。在中间库与结果库之间通过脚本将数据迁移来实现增加检索速度。
具体的,参考图1,所述配用电全局全量数据传输及存储方法,包括以下步骤:
步骤101、将电力系统配电网中各业务系统的第一原始数据迁移到大数据平台的数据仓库。
本步骤为数据从采集库到原始库的过程。具体的,采集库中原始数据的数据存储格式大体可分为orcale数据库存储、txt/excel文件格式和cim/svg文件三种格式。
对于orcale数据库数据,是通过编写sqoop脚本将数据库数据倒进到大数据平台的HDFS文件。数据被迁移到大数据平台后还需要创建Inceptor的orc线性表将生成的HDFS文件写入数据仓库。其中,Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql)间进行数据的传递,可以将一个关系型数据库(例如MySQL,Oracle等)中的数据导进到Hadoop(Hadoop分布式文件系统,Hadoop的框架最核心的设计包括:HDFS和MapReduce;HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。)的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
对于格式固定的txt文件数据需要先将文件ftp到大数据平台的指定目录下,同时在创建inceptor表的时候指定与该文本文件一样的列分隔符,这样就可以直接把指定路径下的文本文件数据load到inceptor表;但是对于格式不统一的文本文件(如SCADA系统的10kV出线电流数据,文件中的每行数据列数均不确定),则是通过写java程序的方式逐条处理,最后再加载到inceptor数据库。
对于cim/svg等类xml格式的数据,也是通过写java程序的方式完成数据迁移的。
下面,通过表1给出一个从采集库到原始库的实例参考。
表1采集库到原始库实例
步骤102、使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗,将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库,获得用于被应用场景作为分析数据的第二原始数据。
本步骤为数据从为原始库到中间库的过程。具体的,该过程利用大数据平台强大的分布式处理能力,对原始数据进行关联,合并,去重、行列转置等操作,形成更利于数据分析和前台展示的新数据。
在数据清洗过程中,清洗算法需要的初始数据格式更加多变,对于不便于用InceptorSQL处理的数据需要编写java程序实现。一般先生成一个格式化的文本文件再通过FTP将文件加载到大数据平台,清理之后的数据仍为格式化的文本文件,用同样的方式将文本文件加载到大数据平台。
所有处理完的数据会完整保存到中间库,用于各场景的数据分析。
下面,通过表2给出一个从原始库到中间库的实例参考。
表2原始库到中间库实例
步骤103、将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库,生成用于检索索引的结果数据。
本步骤为数据从中间库到结果库的过程。具体的,在数据清洗过程中,之所以将数据放在Inceptor中处理,一是因为该数据库支持事务,能实现分布式数据的增删查改,另一方面可以用SQL的方式操作数据,用更简单的方式执行MapReduce(MapReduce一种编程模型,用于大规模数据集的并行运算)操作,降低现场开发人员的学习成本。但是当面对海量数据且需要频繁与前台实时交互时,Inceptor的查询效率(特别是模糊查询和范围查询)就无法满足我们的需求。
为此我们将中间库所有需要与前台交互的Inceptor表全部迁移到Hyperbase数据库,并为常用的作为查询条件的列创建全文索引,这样便大大加快了检索速度。
下面,通过表3给出一个从中间库到结果库的实例参考。
表3中间库到结果库实例
由上述实施例可见,本发明的配用电全局全量数据传输及存储方法、装置、电子设备,能够使得配用电大数据进行有条理的处理。在本发明处理方式下,能够在保证数据的完整性和准确性的情况下通过在三个库之间的流转将数据进行最大程度的压缩,减少数据冗余和空间浪费,节省存储空间,同时保证数据的解码和查找速度,实现数据的高线检索,满足实际应用场景的需求。
基于同一发明构思,本发明实施例还提供了一种配用电全局全量数据传输及存储装置。所述装置应用于电力系统配电网,参考图2,其包括:
第一执行模块201,用于将电力系统配电网中各业务系统的第一原始数据迁移到大数据平台的数据仓库;
第二执行模块202,用于使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗,将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库,获得用于被应用场景作为分析数据的第二原始数据;
第三执行模块203,用于将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库,生成用于检索索引的结果数据。
进一步的,所述第一原始数据包括:orcale数据库数据、txt/excel文件和cim/svg文件。对于所述orcale数据库数据,其迁移到所述大数据平台的数据仓库后,还需要创建基于Inceptor数据仓库的orc线性表将生成的HDFS文件写入所述大数据平台的数据仓库。对于所述txt/excel文件;当所述txt/excel文件的格式固定时,将所述txt/excel文件通过ftp方式传输到所述大数据平台的指定目录下,同时在创建inceptor表的时候指定与所述txt/excel文件通过一样的列分隔符;当所述txt/excel文件的格式不固定时,通过写java程序的方式逐条处理,再加载到所述inceptor数据仓库。对于所述cim/svg文件,通过写java程序的方式逐条处理,再加载到所述inceptor数据仓库。
进一步的,所述数据处理和数据清洗包括:合并操作、关联操作、去重操作、行列转置操作。
基于同一发明构思,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述实施例的配用电全局全量数据传输及存储方法。
上述实施例的装置和电子设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种配用电全局全量数据传输及存储方法,应用于电力系统配电网,其特征在于,包括:
将电力系统配电网中各业务系统的第一原始数据迁移到大数据平台的数据仓库;
使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗,将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库,获得用于被应用场景作为分析数据的第二原始数据;
将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库,生成用于检索索引的结果数据。
2.根据权利要求1所述的配用电全局全量数据传输及存储方法,其特征在于,所述第一原始数据包括:orcale数据库数据、txt/excel文件和cim/svg文件。
3.根据权利要求2所述的配用电全局全量数据传输及存储方法,其特征在于,对于所述orcale数据库数据,其迁移到所述大数据平台的数据仓库后,还需要创建基于Inceptor数据仓库的orc线性表将生成的HDFS文件写入所述大数据平台的数据仓库。
4.根据权利要求2所述的配用电全局全量数据传输及存储方法,其特征在于,对于所述txt/excel文件;当所述txt/excel文件的格式固定时,将所述txt/excel文件通过ftp方式传输到所述大数据平台的指定目录下,同时在创建inceptor表的时候指定与所述txt/excel文件通过一样的列分隔符;当所述txt/excel文件的格式不固定时,通过写java程序的方式逐条处理,再加载到所述inceptor数据仓库。
5.根据权利要求2所述的配用电全局全量数据传输及存储方法,其特征在于,对于所述cim/svg文件,通过写java程序的方式逐条处理,再加载到所述inceptor数据仓库。
6.根据权利要求1所述的配用电全局全量数据传输及存储方法,其特征在于,所述数据处理和数据清洗包括:合并操作、关联操作、去重操作、行列转置操作。
7.一种配用电全局全量数据传输及存储装置,应用于电力系统配电网,其特征在于,包括:
第一执行模块,用于将电力系统配电网中各业务系统的第一原始数据迁移到大数据平台的数据仓库;
第二执行模块,用于使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗,将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库,获得用于被应用场景作为分析数据的第二原始数据;
第三执行模块,用于将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库,生成用于检索索引的结果数据。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711041209.2A CN107766541B (zh) | 2017-10-30 | 2017-10-30 | 配用电全局全量数据传输及存储方法、装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711041209.2A CN107766541B (zh) | 2017-10-30 | 2017-10-30 | 配用电全局全量数据传输及存储方法、装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107766541A true CN107766541A (zh) | 2018-03-06 |
CN107766541B CN107766541B (zh) | 2021-10-29 |
Family
ID=61271034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711041209.2A Active CN107766541B (zh) | 2017-10-30 | 2017-10-30 | 配用电全局全量数据传输及存储方法、装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107766541B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563770A (zh) * | 2018-04-20 | 2018-09-21 | 南京邮电大学 | 一种基于场景的kpi及多维度网络数据清洗方法 |
CN109213752A (zh) * | 2018-08-06 | 2019-01-15 | 国网福建省电力有限公司信息通信分公司 | 一种基于cim的数据清洗转换方法 |
CN110597891A (zh) * | 2018-06-12 | 2019-12-20 | 武汉斗鱼网络科技有限公司 | MySQL聚合为PostgreSQL数据库的设备、系统、方法、存储介质 |
CN111339221A (zh) * | 2018-12-18 | 2020-06-26 | 中兴通讯股份有限公司 | 数据处理方法、系统及存储介质 |
CN113127449A (zh) * | 2021-04-25 | 2021-07-16 | 东北大学 | 一种铝/铜板带材生产全流程数据仓库构建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820670A (zh) * | 2015-03-13 | 2015-08-05 | 国家电网公司 | 一种电力信息大数据的采集和存储方法 |
US20170220944A1 (en) * | 2016-01-29 | 2017-08-03 | Peter P. Nghiem | Best trade-off point on an elbow curve for optimal resource provisioning and performance efficiency |
-
2017
- 2017-10-30 CN CN201711041209.2A patent/CN107766541B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820670A (zh) * | 2015-03-13 | 2015-08-05 | 国家电网公司 | 一种电力信息大数据的采集和存储方法 |
US20170220944A1 (en) * | 2016-01-29 | 2017-08-03 | Peter P. Nghiem | Best trade-off point on an elbow curve for optimal resource provisioning and performance efficiency |
Non-Patent Citations (2)
Title |
---|
星环科技: "电力行业敏捷BI大数据应用", 《HTTPS://JZ.DOCIN.COM/P-1297485356.HTML》 * |
胡敏等: "探索大数据技术在商业银行信用风险监控领域的应用", 《中国金融电脑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563770A (zh) * | 2018-04-20 | 2018-09-21 | 南京邮电大学 | 一种基于场景的kpi及多维度网络数据清洗方法 |
CN108563770B (zh) * | 2018-04-20 | 2022-05-17 | 南京邮电大学 | 一种基于场景的kpi及多维度网络数据清洗方法 |
CN110597891A (zh) * | 2018-06-12 | 2019-12-20 | 武汉斗鱼网络科技有限公司 | MySQL聚合为PostgreSQL数据库的设备、系统、方法、存储介质 |
CN109213752A (zh) * | 2018-08-06 | 2019-01-15 | 国网福建省电力有限公司信息通信分公司 | 一种基于cim的数据清洗转换方法 |
CN111339221A (zh) * | 2018-12-18 | 2020-06-26 | 中兴通讯股份有限公司 | 数据处理方法、系统及存储介质 |
CN111339221B (zh) * | 2018-12-18 | 2024-04-26 | 中兴通讯股份有限公司 | 数据处理方法、系统及存储介质 |
CN113127449A (zh) * | 2021-04-25 | 2021-07-16 | 东北大学 | 一种铝/铜板带材生产全流程数据仓库构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107766541B (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766541A (zh) | 配用电全局全量数据传输及存储方法、装置、电子设备 | |
CN104820670B (zh) | 一种电力信息大数据的采集和存储方法 | |
Kaur et al. | Modeling and querying data in NoSQL databases | |
Liang et al. | Express supervision system based on NodeJS and MongoDB | |
US10924551B2 (en) | IRC-Infoid data standardization for use in a plurality of mobile applications | |
CN114416855A (zh) | 一种基于电力大数据的可视化平台及方法 | |
CN111159180A (zh) | 一种基于数据资源目录构建的数据处理方法及系统 | |
CN104700190A (zh) | 一种用于项目与专业人员匹配的方法和装置 | |
Caldarola et al. | Big data: A survey-the new paradigms, methodologies and tools | |
Mostajabi et al. | A systematic review of data models for the big data problem | |
TWI436222B (zh) | Real - time multi - dimensional analysis system and method on cloud | |
Chen et al. | Multi-source and heterogeneous data integration model for big data analytics in power DCS | |
CN115062028B (zh) | 一种OLTP领域多表join查询的方法 | |
Ye et al. | A benchmark for performance evaluation of a multi-model database vs. polyglot persistence | |
CN116303336A (zh) | 一种基于数据编织架构的数据管理方法 | |
Cuddihy et al. | FDC cache: semantics-driven federated caching and querying for big data | |
Wang | RETRACTED: Research on Big Data Integration Method for Investment Statistics Based on Artificial Intelligence Technology | |
Liu et al. | Design and Implementation of a Microblog Public Opinion Visualization System Based on Flask and ECharts | |
Li | Research on Personalized Recommendation System Based on Big Data Mining Technology | |
Behan et al. | Comparative analysis of RDBMS and NoSQL databases | |
Wang et al. | Research on Construction Technology of Multi Heterogeneous Data Resource Graph of Power Grid Corporation | |
Yang et al. | Construction of Engineering Material Demand Data Space Integrating Macroeconomic Data | |
Fu et al. | Development, Design and Application of Intelligent Report | |
Su et al. | Elasticsearch-based heterogeneous data migration method of enterprise information system | |
Zhang et al. | Design of Enterprise Economic Dynamic Management System Based on Spark Technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |