CN104820670B - 一种电力信息大数据的采集和存储方法 - Google Patents

一种电力信息大数据的采集和存储方法 Download PDF

Info

Publication number
CN104820670B
CN104820670B CN201510109843.XA CN201510109843A CN104820670B CN 104820670 B CN104820670 B CN 104820670B CN 201510109843 A CN201510109843 A CN 201510109843A CN 104820670 B CN104820670 B CN 104820670B
Authority
CN
China
Prior art keywords
data
storage
acquisition
distributed
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510109843.XA
Other languages
English (en)
Other versions
CN104820670A (zh
Inventor
杨建华
白顺明
魏庆海
高春成
肖达强
刘定宜
樊爱军
陶力
代勇
方印
史述红
王蕾
李守保
王清波
丁鹏
袁明珠
任东明
刘杰
赵显�
谭翔
汪涛
袁晓鹏
张雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Beijing Kedong Electric Power Control System Co Ltd
Central China Grid Co Ltd
Original Assignee
State Grid Corp of China SGCC
Beijing Kedong Electric Power Control System Co Ltd
Central China Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Beijing Kedong Electric Power Control System Co Ltd, Central China Grid Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201510109843.XA priority Critical patent/CN104820670B/zh
Publication of CN104820670A publication Critical patent/CN104820670A/zh
Application granted granted Critical
Publication of CN104820670B publication Critical patent/CN104820670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于电力信息大数据采集存储领域。涉及一种电力信息大数据采集存储方法,解决电力信息大数据采集和存储过程的问题。所述方法包括数据采集、数据存储管理以及数据分析三个过程。本发明的有益效果在于:本发明提出了一种电力信息大数据的采集存储方法,能够很好的解决由于电力用户基数大,信息量大,业务系统响应速度慢,用户等待耗时长的问题。同时,针对基与电力数据的交易系统产生的海量信息,本方法比传统数据库能更好地完成数据的扩展和分析功能。并且能够采集、存储并处理海量网络媒体数据,更好地了解行业动态,在操作过程中,本方法的存储方法具有高效地查询功能,在数据量激增的同时能够快速完成检索。

Description

一种电力信息大数据的采集和存储方法
技术领域
本发明属于电力信息大数据采集存储领域。涉及一种电力信息大数据采集存储方法,解决电力信息大数据采集和存储过程的问题。
背景技术
信息技术的飞速发展以及广泛应用,使得电力生产企业、交易部门及用户使用物联网和互联网积累了大量的数据。随着数据库应用的规模、范围不断地扩大,电力管理部门及相关企业利用计算机管理事务能力的增强,产生了庞大的大规模数据集,将如此庞大的数据集采集并存储到服务器上是非常复杂的。原本很多数据采集算法在数据集规模较小时尚能取得不错的采集效果,但是针对大规模数据集,计算量太大以至于不能在可接受的时间内获得很好的结果。
电力系统是指由发电、输电、变电、配电和用电等环节共同组成的电能生产与消费系统。为实现电能的生产和供销,同时保证电网安全稳定运行,电力系统在各个环节和不同层次分别配置了相应的信息与控制系统,这些系统由各种采集传感器、监测设备、通信设备、安全保护装置、自动控制装置以及监控自动化、调度自动化系统组成,并采集、传输和存储海量数据。电力大数据是以业务趋势预测、数据价值挖掘为目标,利用数据集成管理、数据存储、数据计算、分析挖掘等方面核心关键技术,实现面向典型业务场景的模式创新及应用提升。电力大数据涉及到发电、输电、变电、配电、用电、调度各环节,是跨单位、跨专业、跨业务的数据分析与挖掘,以及数据可视化。电力大数据通过信息化服务平台,驱动电力价值链的改变,从传统的以电力生产为核心,最终落到以人为中心的根本任务上,而让数据创造价值的理念,可以推动电力从传统的高耗能、高排放、低效率的粗放式发展,转向新型的低能耗、低排放、高效率的可持续发展。
电力大数据超过了传统技术数据处理技术能力,为了获得数据中的价值,必须建立新支撑体系以进行电力大数据的管理和应用,这需要大规模并行处理的数据管理及处理能力。云计算技术能够通过网络将分散的信息资源,包括计算、存储、软件等,集中起来形成共享的资源池,并以动态按需和可度量的方式向用户提供服务,实现大规模计算的信息处理方式。云计算为大数据处理提供丰富的计算和存储资源,动态按需地分配调整,为电力大数据建设与应用提供IT资源。电力大数据的技术研究以云计算为基础,建立具有电力行业特点的电力云计算数据中心,研究适合电力大数据的价值规律、应用场景的大数据系统框架、数据分析方法是电力大数据的发展方向。电力大数据的内在价值规律体现在更大范围内的最大限度共享和创造新的价值。电力大数据的应用价值根本体现在其共享及价值外延,总的来说:电力大数据价值=数据原始应用价值+数据共享应用衍射价值。
目前具有电力大数据特征的典型业务如用电信息采集系统,电力用户基数大,每天产生的数据量庞大,导致业务系统在统计分析业务上出现了响应缓慢,用户等待时间较长的问题,基于电力大数据的交易系统产生的海量信息,使用传统的数据库已经无法完成数据的扩展和分析功能。为了更好地了解行业动态,如何有效地解决海量的网络媒体数据的采集,存储,数据量的激增导致数据检索操作速度缓慢。
发明内容
本发明的目的,就是要解决基于电力大数据的采集、存储以及分析,提高效率。
本发明的技术方案如下:
本发明对于电力相关的数据,主要电力结构化数据和非结构化数据两种情况。目前电力市场统一交易平台上的数据属于结构化数据,底层的DB数据库一般为Oracle、DB2、SQL Server、MySQL等,通过Sqoop API工具自定义数据表中的字段和属性,把结构化的数据表抽取到基于Hadoop架构的分布式数据仓库Hive中,底层为分布式文件系统HDFS,支持数据表的亿条级别记录存储扩展,基于HQL查询语言,支持部分SQL查询语言;电力非结构化的数据一般为互联网的客户端,Web、App、电力传感器等采集的网页信息,包括文本、图片、音频、视频、JSP动态数据等,通过Nutch工具定义正则表达式,把电力市场交易相关的经济指标、环境气象、社会统计、电力政策等方面的网页爬取到本地服务器,从网络客户端爬取的信息数据一般为数值、符号、文本等形式,都以文档的形式存储到基于Hadoop架构的分布式数据库HBase中。
一、电力大数据分类
1.业务层面,电力大数据大致分为三类:一是电力企业管理数据,如协同办公、财务、物资等数据;二是电网运行和设备检测、监测数据,如电网及设备运行状态数据;三是电力企业运营数据,如电力交易、用电客户、电费、电量等方面的数据。
2.时间层面,电网大数据大致分为二类:一是实时/准实时数据,主要是调度自动化系统、电网广域监测系统、用电采集、雷电监测数据、故障录波数据、微机保护、状态监测等与智能电网运行直接相关的数据,这类应用的特点是实时性较强,有些每秒都有数据传输,可靠性要求较高,与计费相关的数据对安全性有特殊要求,体现了电网系统的特点。二是非实时数据,主要指ERP、一体化平台、协同办公等企业经营管理方面的数据,这类应用的特点是没有实时要求,但有的传输量较大,具有随机性和突发性。
3.数据存储结构,电网大数据大致分为三类:一是结构化数据,可以用二维表结构来逻辑表达实现的数据,主要存储在关系数据库中,目前电网企业系统中的大部分数据是这种形式;二是半结构化数据,具有一定结构,但语义不够确定,典型的如HTML网页、邮件、档案等;三是非结构化数据,数据,杂乱无章,很难按照一个概念去进行抽取,无规律性。主要包括视频监控、图形图像处理等产生的数据,今后非结构化数据在智能电网数据中的比重将越来越大。非结构化数据不方便用数据库二维逻辑表来存储和展示的数据。
二、大数据采集处理
数据采集主要应用多源异构数据采集技术。针对电力结构化数据和非结构化数据两种情况,目前电力市场统一交易平台上的数据属于结构化数据,底层的DB数据库一般为Oracle、DB2、SQL Server、MySQL等,通过Sqoop API工具自定义数据表中的字段和属性,把结构化的数据表抽取到基于Hadoop架构的分布式数据仓库Hive中,底层为分布式文件系统HDFS,支持数据表的亿条级别(Billion)记录存储扩展,基于HQL查询语言,支持部分SQL查询语言;非结构化的数据一般为互联网的客户端(Web、App、电力传感器等)采集的网页信息,包括文本、图片、音频、视频、JSP动态数据等,通过Nutch工具定义正则表达式,把电力市场交易相关的经济指标、环境气象、社会统计、电力政策等方面的网页爬取到本地服务器,从网络客户端爬取的信息数据一般为数值、符号、文本等形式,都以文档的形式存储到基于Hadoop架构的分布式数据库HBase中。
三、数据存储管理
电力交易的结构化和非结构化的大数据经过抽取后,都以文件形式存储在分布式文件系统HDFS中。其中,结构化的大数据存储在分布式数据仓库Hive中,从网络客户端得到的非结构化数据存储在分布式数据库HBase中,以列族为组织形式,一个列族里的所有列成员都将最终存储在同一个HDFS文件中,而不同的列族有着各自对应的HDFS文件。存储在HDFS上的文档支持超大文件,它通常为数百GB、甚至数百TB大小的文件。虽然采集端本身有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也可以在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别,对于结构化的数据来说,以行存储的方式存储在数据库表中,而对于非结构的数据,则以列存储的方式存储数据,在数据预处理过程需要统一数据存储方式,以分布式数据库作为存储的技术基础,完全能够胜任统一电力市场交易的数据存储,为下一步数据分析提供数据基础。
HDFS是一个高容错性的分布式文件系统,适合部署在廉价的机器上,能够提供高吞吐量的数据访问,适合大规模数据集上的应用。电力市场大量的非结构化数据可以存储在分布式文件系统HDFS上,供分析使用。
HDFS系统由Client、NameNode、DataNode构成。
(1)Client通过与NameNode和DataNode交互访问HDFS中的文件。提供了一个类似POSIX文件系统的接口供用户调用。
(2)NameNode是整个文件系统管理者,负载管理HDFS的目录树和相关的文件元数据信息,负责监控各个DataNode的健康状态,一旦发现DataNode挂掉,则将该DataNode移出HDFS并重新备份上面的数据,保证系统的高容错性。
(3)DataNode负责实际的数据存储,并将数据信息定期汇报给NameNode。DataNode以固定大小的block块为基本单位组织文件内容,默认情况下block大小为64M。当客户端上传一个大的文件到HDFS上时,文件会被分割成若干个block,分别存储在不同的DataNode。同时为了数据局的可靠性会将每个block写到若干个不同的DataNode上,这种文件切割后存储的过程对用户是透明的。四、数据统计与分析
数据统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。华中电力市场交易涉及的原始信息覆盖范围广泛,发布频度高,能够满足电力市场的需求,以此为基础开展深入、系统的分析,可以揭示市场运行状态、规律和趋势,发现市场风险,指导市场成员有策略、有效率地参与市场交易。研究构建电力市场大数据通道的关键技术,提出构建大数据统一采集存储的方案,按全国统一电力市场建设要求,实现技术支撑平台、信息服务平台、调度及财务等业务系统问数据的横纵向传输需求。
如图1所示,本发明的整体流程模型建立如下:
1、数据采集
电力市场的大数据采集流程图如图2所示。主要针对电力结构化数据和非结构化数据两种情况,目前电力市场统一交易平台上的数据属于结构化数据,底层的DB数据库一般为Oracle、DB2、SQL Server、MySQL等,通过Sqoop API工具自定义数据表中的字段和属性,把结构化的数据表抽取到基于Hadoop架构的分布式数据仓库Hive中,底层为分布式文件系统HDFS,支持数据表的亿条级别(Billion)记录存储扩展,基于HQL查询语言,支持部分SQL查询语言;华中电力非结构化的数据一般为互联网的客户端(Web、App、电力传感器等)采集的网页信息,包括文本、图片、音频、视频、JSP动态数据等,通过Nutch工具定义正则表达式,把电力市场交易相关的经济指标、环境气象、社会统计、电力政策等方面的网页爬取到本地服务器,从网络客户端爬取的信息数据一般为数值、符号、文本等形式,都以文档的形式存储到基于Hadoop架构的分布式数据库HBase中。
对电力市场大数据的非结构化数据采集,需要定义爬虫字段变量格式如下:
各字段变量的解释如下:
#Name:爬虫名称,queue是任务队列,所有的爬虫共用同一个任务队列,从中取出一个任务项进行运行,每个任务项是一个要下载网页的URL。
#Result:是一个队列,将下载的网页中包含的URL放入该队列中。
#Inittime:仅为以后扩展用。
#Downloadway:下载的网页存放路径。
#Configfile:配置文件,存放网页的URL和下载下后的路径。
#Maxnum:每个爬虫的最大下载量,当下载了一定数量的网页后,爬虫生命周期结束(dead)。
定义的爬虫字段变量一般应用于网页采集程序(Python,Perl,Java等),基于分布式MapReduce框架,采集的网页信息存储在HBase中,按照定义正则表达式抽取有用数据保存在HBase和Hive中,用于数据分析。
2、数据存储管理
电力交易的结构化和非结构化的大数据经过抽取后,都以文件形式存储在分布式文件系统HDFS中。其中,Oracle、DB2、SQL Server、MySQL等结构化的大数据存储在分布式数据仓库Hive中,从网络客户端得到的非结构化数据存储在分布式数据库HBase中,以列族为组织形式,一个列族里的所有列成员都将最终存储在同一个HDFS文件中,而不同的列族有着各自对应的HDFS文件。存储在HDFS上的文档支持超大文件,它通常为数百GB、甚至数百TB大小的文件。
HBase解决传统数据库无法解决的可伸缩性问题。它自底向上进行构建,能够简单地通过增加节点来达到线性扩展。HBase不是关系型数据库,不支持SQL。但在特定的问题空间里,它能完成传统数据库不能做的功能,即在廉价硬件构成的集群上管理超大规模的稀疏表。
3、数据分析
数据统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。华中电力市场交易涉及的原始信息覆盖范围广泛,发布频度高,能够满足电力市场的需求,以此为基础开展深入、系统的分析,可以揭示市场运行状态、规律和趋势,发现市场风险,指导市场成员有策略、有效率地参与市场交易。研究构建电力市场大数据通道的关键技术,提出构建大数据统一采集存储的方案,按全国统一电力市场建设要求,实现技术支撑平台、信息服务平台、调度及财务等业务系统间数据的横纵向传输需求。
本发明的有益效果在于:本发明提出了一种电力信息大数据的采集存储方法,能够很好的解决由于电力用户基数大,信息量大,业务系统响应速度慢,用户等待耗时长的问题。同时,针对基与电力数据的的交易系统产生的海量信息,本方法比传统数据库能更好地完成数据的扩展和分析功能。并且能够采集、存储并处理海量网络媒体数据,更好地了解行业动态,在操作过程中,本方法的存储方法具有高效地查询功能,在数据量激增的同时能够快速完成检索。
附图说明
图1是本发明的整体流程示意图。
图2是本发明的数据采集流程示意图。
图3是本发明的具体实施例中华中电力市场大数据采集存储框架。
图4是本发明的具体实施例中华中电力数据转换器体系结构。
图5是本发明的具体实施例中大数据综合存储过程示意图。
图6是本发明的具体实施例中基于Hadoop和HBase的存储方案架构图。
图7是本发明的具体实施例中StoreFile的分裂过程示意图。
具体实施方式
本实例以华中电力市场的电力大数据的采集存储为例。
华中电力市场大数据采集存储框架如图3所示。
1.信息分类
华中电力市场大数据中,数据源主要分为两类:电网数据源和政府社会公共信息源。电网数据源称为内部数据源,一般为结构化数据,采用传统的数据库存储方式;政府社会公共信息源称为外部数据源,一般为非结构化数据,采用分布式数据库存储方式。
华中电力市场综合信息包括:提供华中电网电力市场中的原数据库中记录的各类原始数据(如交易计划数据、每日的电力曲线、检修计划、电煤价格等);提供在原始数据基础上经过分析技术加工后的数据(如电力电量负荷预测、阻塞情况、电力电量供需平衡、计划执行、电煤价格走势等)。
电网数据源包括交易中心掌握的信息、电网掌握的信息、电厂掌握的信息以及大用户掌握的信息。其中交易中心作为信息发布者,所掌握的信息较全面,与交易相关的数据交易中心均能获得;电厂、电网与大用户掌握的信息大部分都能够由交易中心提供,但有部分信息是他们各自掌握的私有信息(各自参与交易而获得的数据,例如报价策略);而公众掌握的信息为公开的信息(部分交易结果的公布,宏观总量数据)。
政府社会公共信息源包括政府财经、产业发展、企业经营、环境气象与宏观政策等数据。这类信息是从电网外部获得。其具体包含如下:
政府财经类:地区GDP,居民消费价格指数(CPI),生产者物价指数(PPI)。
产业发展:产业生产总值增长率,产业结构。
企业经营:盈利能力,偿债能力,发展能力。
环境气象:气温,降水,自然灾害等。
2.大数据采集处理
网页、电力生产传感器、电力仿真数据等为非结构化/半结构化的数据,使用Nutch网络爬虫,结合Python程序语言,根据电力数据结构定义统一数据表格式,即列族存储格式,定义电力数据爬虫字段,正则表达式,对非结构化(网页、XML文档、脚本等)数据进行采集抽取。
对华中电力市场大数据的非结构化数据采集,需要定义爬虫字段变量格式。
3.数据转换器
华中电力市场大数据从电力交易市场及网络上获取后,需要对其进行转化。华中电力市场的转换器以软件jar包的方式嵌入在HBase和Hive之间,基于Hadoop HDFS之上,通过MapReduce框架为华中电力市场交易统一平台提供技术支撑和大数据分析服务。
1)华中电力市场大数据转换器体系结构
数据转换器用到ETL技术,ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。
(1)数据抽取:从源数据源系统抽取目的数据源系统需要的数据。
(2)数据转换:将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工。
(3)数据加载:将转换后的数据装载到目的数据源。
ETL原本是作为构建数据仓库的一个环节,负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。现在也越来越多地将ETL应用于一般信息系统中数据的迁移、交换和同步。华中电力市场大数据的数据转换器体系结构如图4所示。
4.华中电力市场大数据存储架构
由于HBase底层数据都是以Bytes数组来存储,电力市场大数据非结构化的对象可以较为容易的转化为Bytes数组存入HBase数据库。而对于电力市场交易大数据结构化的数据也可通过转化为Bytes数组进行存储。电力市场大数据的综合存储过程如图5所示。
基于Hadoop和HBase的华中电网大数据综合存储方案架构如图6所示。Zookeeper作为集群协调工具,在其中存储了ROOT表的地址和Master的地址,Region Server也会注册到Zookeeper中,使得Master可随时感知到各Region Server的健康状态。Client包含着访问HBase的接口并且维护着一些cache来加快对HBase的访问,如Region的位置信息等。Master负责Region Server的负载均衡,为Region Server分配Region;并且能够发现失效的Region Server并重新分配其上的Region。Region Server维护Master分配给它的Region,处理对这些Region的I/O请求,负责切分在运行过程中变得过大的Region。
2)华中电力市场大数据HBase存储服务
作为HBase的存储核心部分,Store由内存存储区域(MemStore)和存储在HDFS上的StoreFile两部分组成。MemStore是排序内存缓冲区(Sorted Memory Buffer),数据在存入HBase时先存入MemStore,当MemStore数据满了以后会形成一个StoreFile,而StoreFile文件数量增长到一定阈值会触发Compact合并操作,将多个StoreFile合并成一个StoreFile,合并过程中会进行版本合并和数据的删除。
随着数据的存入,会逐渐形成越来越大的StoreFile,当单个StoreFile文件的大小超过某一阈值后,会触发分裂(Split)操作,同时把当前Region分裂为2个Region,父Region会下线,新形成的2个子Region会被Master分配到相应的Region Server上,使得原有一个Region的压力得以分流到2个Region上。某一个StoreFile的分裂过程如图7所示。
在每一个Region Server中都有一个实现预写日志(WAL)的对象HLog,在数据存入MemStore的同时会写一份数据到HLog中,HLog文件会定期删除已持久化到StoreFile中的数据对应的旧文件并滚动出新的文件。当Region Server意外终止后,Master则通过HLog完成不同Region的Log数据的拆分、重新分配,最终完成数据的恢复。
HDFS适用于大文件的存储但并不是一个通用的文件系统,不能够提供文件单条记录的快速查询。而HBase建立在HDFS之上并且能够提供对大数据表的快速查询。HBase将数据存储在分布式文件系统HDFS的索引StoreFiles上,以便高速查询。

Claims (2)

1.一种电力信息大数据的采集和存储方法,其特征在于,所述方法包括数据采集、数据存储管理以及数据分析三个过程;
数据采集的具体步骤如下:
(1)对于电力大数据,首先判断其是结构化数据还是非结构化数据,属于结构化数据,则进入步骤(2);对于非结构化数据则进入步骤(3);
(2)对于结构化数据,进一步判断其是否属于交易数据;如果属于交易数据,则进行Sqoop批处理;如果不属于交易数据,则先根据电力数据结构定义统一数据表格式,即列族存储格式方式生产数据;再与经Sqoop批处理后的交易数据共同进入数据转换器,把结构化的数据表抽取到基于Hadoop架构的分布式数据仓库Hive中;
(3)对于非结构化数据,进一步判断其是否属于网页数据;如果属于网页数据,则进行Nutch爬虫抓取;如果不属于网页数据,而是通过下载工具或人工导入获得的其他数据;再与经Nutch爬虫抓取的网页数据共同进入数据转换器,以文档的形式存储到基于Hadoop架构的分布式数据库HBase中;
(4)MapReduce;
MapReduce框架主要用于完成统计编程和数据转换器Etl的抽取计算, MapReduce具有高性能的计算能力,对处理后的数据进行存储分配;
(5)Hadoop HDFS;
Hadoop HDFS(Hadoop Distributed File System,分布式文件系统)为HBase提供了高可靠性的底层存储支持,应用HBase将结构化和非结构化电力数据存储在分布式文件系统HDFS的索引StoreFiles上,以便高速查询;
(6)结束;将所有采集的数据分类,转换后采集和存储完成后,此过程结束;
数据存储管理具体方法如下:
电力交易的结构化和非结构化的大数据经过抽取后,都以文件形式存储在分布式文件系统HDFS中;其中,结构化的大数据存储在分布式数据仓库Hive中,从网络客户端得到的非结构化数据存储在分布式数据库HBase中,以列族为组织形式,一个列族里的所有列成员都将最终存储在同一个HDFS文件中,而不同的列族有着各自对应的HDFS文件;对于结构化的数据来说,以行存储的方式存储在数据库表中,而对于非结构的数据,则以列存储的方式存储数据,在数据预处理过程需要统一数据存储方式,以分布式数据库作为存储的技术基础;
数据统计与分析具体方法如下:
数据统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总,以满足大多数常见的分析需求;在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
2.根据权利要求1所述的方法,其特征在于:所述步骤(3)中,对于非结构化数据,定义爬虫字段变量格式如下:
其中,各字段变量的解释如下:
#Name:爬虫名称,queue是任务队列,所有的爬虫共用同一个任务队列,从中取出一个任务项进行运行,每个任务项是一个要下载网页的URL;
#Result:是一个队列,将下载的网页中包含的URL放入该队列中;
#Inittime:仅为以后扩展用;
#Downloadway:下载的网页存放路径;
#Configfile:配置文件,存放网页的URL和下载下后的路径;
#Maxnum:每个爬虫的最大下载量,当下载了一定数量的网页后,爬虫生命周期结束。
CN201510109843.XA 2015-03-13 2015-03-13 一种电力信息大数据的采集和存储方法 Active CN104820670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510109843.XA CN104820670B (zh) 2015-03-13 2015-03-13 一种电力信息大数据的采集和存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510109843.XA CN104820670B (zh) 2015-03-13 2015-03-13 一种电力信息大数据的采集和存储方法

Publications (2)

Publication Number Publication Date
CN104820670A CN104820670A (zh) 2015-08-05
CN104820670B true CN104820670B (zh) 2018-11-06

Family

ID=53730967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510109843.XA Active CN104820670B (zh) 2015-03-13 2015-03-13 一种电力信息大数据的采集和存储方法

Country Status (1)

Country Link
CN (1) CN104820670B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227899A (zh) * 2016-08-31 2016-12-14 北京京航计算通讯研究所 一种面向物联网大数据的存储和查询方法

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069703B (zh) * 2015-08-10 2018-08-28 国家电网公司 一种电网海量数据管理方法
CN105139281A (zh) * 2015-08-20 2015-12-09 北京中电普华信息技术有限公司 一种电力营销大数据的处理方法及系统
CN105303292A (zh) * 2015-09-17 2016-02-03 国网北京市电力公司 配电数据存储方法和装置
CN105320746A (zh) * 2015-09-25 2016-02-10 北京北信源软件股份有限公司 一种基于大数据的索引获取方法及系统
CN105426482B (zh) * 2015-11-20 2018-08-14 华东交通大学 一种图库一体的铁路10kV配电网海量监控信息HBase转存方法
CN106933913B (zh) * 2015-12-31 2020-05-08 北京国双科技有限公司 数据处理方法和装置
WO2017113280A1 (zh) * 2015-12-31 2017-07-06 华为技术有限公司 分布式存储系统及管理元数据的方法
CN105516355B (zh) * 2016-01-13 2018-07-17 国家电网公司 基于喷泉码的智能电能表误差大数据安全存储装置及方法
WO2017128365A1 (zh) * 2016-01-30 2017-08-03 深圳市博信诺达经贸咨询有限公司 基于大数据的自动化信息分析方法及系统
CN105786996A (zh) * 2016-02-18 2016-07-20 国网智能电网研究院 一种用电信息数据质量分析系统
CN105761164A (zh) * 2016-02-25 2016-07-13 南京信息工程大学 一种基于Hadoop的电力系统事故追忆的方法
CN105701649A (zh) * 2016-02-26 2016-06-22 广州品唯软件有限公司 一种数据管控系统
CN105824892A (zh) * 2016-03-11 2016-08-03 广东电网有限责任公司电力科学研究院 一种数据池对数据同步和处理的方法
CN105824945A (zh) * 2016-03-21 2016-08-03 中国电力科学研究院 一种全球能源互联网技术资源数据收集方法
CN105930381A (zh) * 2016-04-13 2016-09-07 国家海洋局第二海洋研究所 基于混合数据库架构的全球Argo数据存储与更新方法
CN106655483A (zh) * 2016-04-26 2017-05-10 北京科东电力控制系统有限责任公司 一种支撑互动化用电信息采集系统
CN106095796A (zh) * 2016-05-30 2016-11-09 中国邮政储蓄银行股份有限公司 分布式数据存储方法、装置及系统
CN106126553B (zh) * 2016-06-16 2020-02-14 西安科技大市场有限公司 一种基于科技资源大数据的存储方法
CN107544984B (zh) * 2016-06-27 2020-07-31 北京京东尚科信息技术有限公司 一种数据处理的方法和装置
CN106250432A (zh) * 2016-07-26 2016-12-21 浪潮软件股份有限公司 一种基于持久化MQ的hbase容错方法
CN107682382A (zh) * 2016-08-01 2018-02-09 汇仕电子商务(上海)有限公司 一种互联网大数据采集系统及其使用方法
CN106202566A (zh) * 2016-08-02 2016-12-07 山东鲁能软件技术有限公司 一种基于大数据的海量用电数据混合存储系统及方法
CN106227885A (zh) * 2016-08-08 2016-12-14 星河互联集团有限公司 一种大数据的处理方法、装置及终端
CN106412036B (zh) * 2016-09-18 2019-06-25 国电南瑞科技股份有限公司 一种用于电力调度自动化系统的混合多源数据采集方法
CN106487886A (zh) * 2016-09-30 2017-03-08 广州特道信息科技有限公司 大数据信息发布系统及方法
CN106294886A (zh) * 2016-10-17 2017-01-04 北京集奥聚合科技有限公司 一种从HBase中全量抽取数据的方法及系统
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统
CN106649679A (zh) * 2016-12-15 2017-05-10 咪咕文化科技有限公司 一种基于HBase的网页日访问次数获得方法及装置
CN106844496B (zh) * 2016-12-26 2020-04-10 山东中创软件商用中间件股份有限公司 基于企业服务总线的数据传输调度方法、装置及服务器
CN106709035B (zh) * 2016-12-29 2019-11-26 贵州电网有限责任公司电力科学研究院 一种电力多维全景数据的预处理系统
CN106951913A (zh) * 2017-02-13 2017-07-14 上海优刻得信息科技有限公司 进行数据交换的方法,云平台和系统
CN106951497A (zh) * 2017-03-15 2017-07-14 深圳市德信软件有限公司 一种基于Hadoop架构数据分析图表展示的方法及系统
CN107220360A (zh) * 2017-06-07 2017-09-29 云南电网有限责任公司信息中心 一种基于海量电力监测数据的统一模型化存储接入方法
CN107330017A (zh) * 2017-06-16 2017-11-07 云南电网有限责任公司信息中心 一种基于主题实例的电力海量数据存储和查询统计分析方法及其系统
CN107273524A (zh) * 2017-06-23 2017-10-20 国网上海市电力公司 一种智能配电大数据应用系统
CN107329410B (zh) * 2017-06-23 2019-10-25 唐山钢铁集团微尔自动化有限公司 一种工业过程控制的快速数据存储方法
CN107341241A (zh) * 2017-07-05 2017-11-10 深圳市樊溪电子有限公司 一种基于云计算的风电大数据分析系统
CN107463664A (zh) * 2017-08-01 2017-12-12 山东浪潮云服务信息科技有限公司 一种基于政务数据采集的etl处理方法及装置
CN107566785B (zh) * 2017-08-02 2021-05-25 重庆菲莫科技有限公司 一种面向大数据的视频监控系统及方法
CN107656995A (zh) * 2017-09-20 2018-02-02 温州市鹿城区中津先进科技研究院 面向大数据的数据管理系统
CN110019453A (zh) * 2017-10-19 2019-07-16 航天信息股份有限公司 一种基于分布式系统基础架构平台对税务数据进行处理的方法及系统
CN107832354B (zh) * 2017-10-23 2021-07-20 珠海许继芝电网自动化有限公司 一种分布式缓存的配电网智能运维管控系统
CN107958158A (zh) * 2017-10-27 2018-04-24 国网辽宁省电力有限公司 一种大数据平台的动态数据脱敏方法及系统
CN107766541B (zh) * 2017-10-30 2021-10-29 北京国电通网络技术有限公司 配用电全局全量数据传输及存储方法、装置、电子设备
CN110019209A (zh) * 2017-11-16 2019-07-16 国网新源控股有限公司 一种基于水电企业业务数据的大数据融合系统及方法
CN107908794A (zh) * 2017-12-15 2018-04-13 广东工业大学 一种数据挖掘的方法、系统、设备及计算机可读存储介质
CN108133041A (zh) * 2018-01-11 2018-06-08 四川九洲电器集团有限责任公司 基于网络爬虫和数据转移技术的数据采集系统及方法
CN108804606B (zh) * 2018-05-29 2021-08-31 上海欣能信息科技发展有限公司 一种电力量测类数据迁移到HBase的方法及系统
CN108763583A (zh) * 2018-06-11 2018-11-06 山东汇贸电子口岸有限公司 一种基于关键字搜索的微博热门话题提取方法及系统
CN108959608A (zh) * 2018-07-13 2018-12-07 中国建设银行股份有限公司 历史交易信息查询方法以及装置
CN109471837A (zh) * 2018-10-08 2019-03-15 国网经济技术研究院有限公司 电力基础设施数据的分布式存储方法
CN109189752A (zh) * 2018-10-12 2019-01-11 国网山东省电力公司电力科学研究院 基于智能检索技术的电力营销知识库系统
CN109582667A (zh) * 2018-10-16 2019-04-05 中国电力科学研究院有限公司 一种基于电力调控大数据的多数据库混合存储方法及系统
CN111190949B (zh) * 2018-11-15 2023-09-26 杭州海康威视数字技术股份有限公司 数据存储及处理方法、装置、设备、介质
CN110543464B (zh) * 2018-12-12 2023-06-23 广东鼎义互联科技股份有限公司 一种应用于智慧园区的大数据平台及操作方法
CN109783716B (zh) * 2019-01-21 2020-02-21 贵州黔源电力股份有限公司 一种电力供需数据自动提取和处理系统及方法
CN109815219B (zh) * 2019-02-18 2021-11-23 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN110046294A (zh) * 2019-03-04 2019-07-23 国网浙江省电力有限公司经济技术研究院 一种基于电力大数据的能源资讯系统
CN109918438A (zh) * 2019-03-11 2019-06-21 北京天润新能投资有限公司西北分公司 一种风电企业综合同业对标的统计方法及统计系统
CN109977125A (zh) * 2019-04-09 2019-07-05 福建奇点时空数字科技有限公司 一种基于网络安全的大数据安全分析平台系统
CN110188093A (zh) * 2019-05-21 2019-08-30 江苏锐天信息科技有限公司 一种基于大数据平台针对ais信息源的数据挖掘系统
CN112015952A (zh) * 2019-06-03 2020-12-01 食亨(上海)科技服务有限公司 数据处理系统及方法
CN110688386A (zh) * 2019-09-29 2020-01-14 浙江大学 面向新型供电轨道交通大数据的分布式列族数据索引方法
CN110908999A (zh) * 2019-11-18 2020-03-24 北京明略软件系统有限公司 数据采集方式的确定方法及装置、存储介质、电子装置
CN111125094A (zh) * 2019-11-25 2020-05-08 怀化建南电子科技有限公司 基于区块链的电力数据存储系统
CN112925772A (zh) * 2019-12-06 2021-06-08 北京沃东天骏信息技术有限公司 一种数据动态拆分方法和装置
CN111143294B (zh) * 2019-12-25 2023-08-01 宁波三星医疗电气股份有限公司 电力采集终端数据检索方法、装置和电子设备
CN111125152B (zh) * 2019-12-26 2023-10-13 积成电子股份有限公司 一种基于数据处理过程模型的全链路数据管控方法
CN111586091B (zh) * 2020-03-25 2021-03-19 光控特斯联(重庆)信息技术有限公司 一种实现算力组配的边缘计算网关系统
CN111525934B (zh) * 2020-04-14 2022-04-29 深圳智造谷工业互联网创新中心有限公司 基于5g的无线传感器
CN111737325A (zh) * 2020-05-25 2020-10-02 南京华盾电力信息安全测评有限公司 一种基于大数据技术的电力数据分析方法和装置
CN111711672B (zh) * 2020-06-03 2023-05-16 成都中科大旗软件股份有限公司 大数据共享方法及系统
CN113806611A (zh) * 2020-06-17 2021-12-17 海信集团有限公司 一种存储搜索引擎结果的方法及设备
CN111859073A (zh) * 2020-07-27 2020-10-30 广西美立方工程咨询有限公司 基于Python的非结构化数据实时爬取系统以及其使用方法
CN112015733A (zh) * 2020-08-04 2020-12-01 国家电网有限公司客户服务中心 一种电力客服营配业务海量数据存储及快速查询方法
CN112084144A (zh) * 2020-08-14 2020-12-15 陕西千山航空电子有限责任公司 一种通用飞参数据分布式存储方法
CN112540987A (zh) * 2020-12-08 2021-03-23 湖州中朔信息技术有限公司 一种基于数据集市的配用电大数据管理系统
US11983193B2 (en) 2020-12-25 2024-05-14 Boe Technology Group Co., Ltd. Data processing method, platform, computer-readable storage medium and electronic device
CN112817958A (zh) * 2021-02-25 2021-05-18 广东电网有限责任公司 电力规划数据采集方法、装置及智能终端
CN113051499B (zh) * 2021-03-23 2023-11-21 北京智慧星光信息技术有限公司 数据采集量的监测方法、系统、电子设备及存储介质
CN113159731A (zh) * 2021-05-12 2021-07-23 河南雪城软件有限公司 污染源自动监控数据智能分析系统及方法
CN113297276A (zh) * 2021-06-17 2021-08-24 长春市吉佳通达信息技术有限责任公司 一种基于生产线结构的数据处理方法和系统
CN113761237A (zh) * 2021-09-11 2021-12-07 黄冈师范学院 一种用于云计算系统的数据处理方法
CN114064997A (zh) * 2021-11-08 2022-02-18 国网江苏省电力有限公司南京供电分公司 一种基于大数据的人工智能电力调度决策系统
CN114201537B (zh) * 2022-02-17 2022-05-13 深圳市聚能优电科技有限公司 储能数据的采集存储方法、系统、设备及存储介质
CN114827938B (zh) * 2022-05-03 2023-03-24 陈青晴 一种基于大数据的电力通讯效果分析系统及设备
CN117033004B (zh) * 2023-10-10 2024-02-09 苏州元脑智能科技有限公司 负载均衡方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103532744A (zh) * 2013-09-29 2014-01-22 国网辽宁省电力有限公司信息通信分公司 一种智能电网信息通信一体化支撑平台
CN103955509A (zh) * 2014-04-30 2014-07-30 广西电网公司电力科学研究院 一种海量电力计量数据的快速检索方法
CN103984782A (zh) * 2014-06-11 2014-08-13 国家电网公司 一种基于数据库技术的变电设备大数据分析系统
US9141251B2 (en) * 2011-12-29 2015-09-22 Teradata Us, Inc. Techniques for guided access to an external distributed file system from a database management system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9141251B2 (en) * 2011-12-29 2015-09-22 Teradata Us, Inc. Techniques for guided access to an external distributed file system from a database management system
CN103532744A (zh) * 2013-09-29 2014-01-22 国网辽宁省电力有限公司信息通信分公司 一种智能电网信息通信一体化支撑平台
CN103955509A (zh) * 2014-04-30 2014-07-30 广西电网公司电力科学研究院 一种海量电力计量数据的快速检索方法
CN103984782A (zh) * 2014-06-11 2014-08-13 国家电网公司 一种基于数据库技术的变电设备大数据分析系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227899A (zh) * 2016-08-31 2016-12-14 北京京航计算通讯研究所 一种面向物联网大数据的存储和查询方法

Also Published As

Publication number Publication date
CN104820670A (zh) 2015-08-05

Similar Documents

Publication Publication Date Title
CN104820670B (zh) 一种电力信息大数据的采集和存储方法
CN109684352B (zh) 数据分析系统、方法、存储介质及电子设备
CN104767813B (zh) 基于openstack的公众行大数据服务平台
CN107145586B (zh) 一种基于电力营销数据的标签产出方法和装置
CN104331435B (zh) 一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法
CN105139281A (zh) 一种电力营销大数据的处理方法及系统
CN109272155A (zh) 一种基于大数据的企业行为分析系统
CN106339509A (zh) 一种基于大数据技术的电网运营数据共享系统
CN113064866B (zh) 一种电力业务数据整合系统
CN103678665A (zh) 一种基于数据仓库的异构大数据整合方法和系统
Liang et al. Express supervision system based on NodeJS and MongoDB
Mohammed et al. A review of big data environment and its related technologies
CN103699660A (zh) 一种大规模网络流式数据缓存写入的方法
CN111159180A (zh) 一种基于数据资源目录构建的数据处理方法及系统
Caldarola et al. Big data: A survey-the new paradigms, methodologies and tools
Ceci et al. Big data techniques for supporting accurate predictions of energy production from renewable sources
CN105956932A (zh) 配用电数据融合方法和系统
CN109977125A (zh) 一种基于网络安全的大数据安全分析平台系统
CN109446230A (zh) 一种光伏发电影响因素的大数据分析系统及方法
CN107766541A (zh) 配用电全局全量数据传输及存储方法、装置、电子设备
Lv et al. Design of cloud data warehouse and its application in smart grid
CN112507006A (zh) 基于云端的电网企业运行数据整合系统
CN115934856A (zh) 一种构造综合能源数据资产的方法和系统
Li et al. Deep-level quality management based on big data analytics with case study
Huang et al. Constructing knowledge graph from big data of smart grids

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
CB02 Change of applicant information

Address after: 430077 No. 47 East Main Street, Hubei, Wuhan

Applicant after: Huazhong Electric Power Network Co., Ltd.

Applicant after: State Grid Corporation of China

Applicant after: Beijing Kedong Power Control System Co., Ltd.

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant before: State Grid Corporation of China

Applicant before: Beijing Kedong Power Control System Co., Ltd.

Applicant before: Huazhong Electric Power Network Co., Ltd.

COR Change of bibliographic data
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant