CN106844556A - 一种基于HBase的智能电网时标量测数据存储方法 - Google Patents

一种基于HBase的智能电网时标量测数据存储方法 Download PDF

Info

Publication number
CN106844556A
CN106844556A CN201611265634.5A CN201611265634A CN106844556A CN 106844556 A CN106844556 A CN 106844556A CN 201611265634 A CN201611265634 A CN 201611265634A CN 106844556 A CN106844556 A CN 106844556A
Authority
CN
China
Prior art keywords
data
storage
time scale
loading
hbase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611265634.5A
Other languages
English (en)
Inventor
王远
谢玉波
唐胜
包建国
曹健
陈辛明
程飞飞
何世春
孔炜
李强
秦鹏飞
陶霞
王乐之
王为明
韦程
张操政
张巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA REALTIME DATABASE Co Ltd
Original Assignee
CHINA REALTIME DATABASE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA REALTIME DATABASE Co Ltd filed Critical CHINA REALTIME DATABASE Co Ltd
Priority to CN201611265634.5A priority Critical patent/CN106844556A/zh
Publication of CN106844556A publication Critical patent/CN106844556A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于HBase的智能电网时标量测数据存储方法,包括以下步骤:根据量测点的时标和业务模型建立时标量测数据存储模型;采用WAL技术完成对数据记录的加载从而实现将请求加载的数据全部加载到存储模型中;根据量测点规模和数据产生频率,建立数据分区机制,当存储模型中数据量达到分区条件时,实现动态预分区;针对数据规模大、数据产生持续性强的时标量测数据,实现数据高速加载,满足时标量测数据快速加载;采用WAL技术,确保系统异常崩溃时,可通过日志文件快速恢复数据,提升数据加载的可靠性;根据量测点规模和数据产生频率,建立灵活的数据分区机制,确保大量数据分布式访问,提升数据访问性能。

Description

一种基于HBase的智能电网时标量测数据存储方法
技术领域
本发明涉及一种智能电网时标量测数据的存储方法,具体是涉及一种基于HBase的智能电网时标量测数据存储方法。
背景技术
智能电网时标量测数据是电网应用中十分重要的数据,作为智能电网四大数据类型的重要组成部分,是智能电网设备状态监测、辅助决策分析、大数据挖掘等的重要基础。当前,智能电网时标量测数据存储的主要特点是:(1)时标量测数据量大,存储周期跨度长;(2)数据格式固定;(3)数据加载吞吐量要求高;(4)访问模式以断面和批量查询为主;(5)对于数据存储稳定性要求高;(6)历史数据规模不断增大,应用的丰富性和互动性不断增强,对历史数据的访问需求越来越高。
针对时标量测数据的以上特征,需要提出一种新型的智能电网时标量测数据存储方法。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于HBase的智能电网时标量测数据存储方法,可以大幅度提升时标量测数据的加载和访问性能,同时提升数据存储的可靠性,目的在于解决:(1)数据规模大、数据产生持续性强的时标量测数据的高速加载;(2)以时间为维度的断面数据(多个量测点在同一个时刻上的数据集合)和批量数据(单个量测点在多个时刻上的数据集合)的快速访问;(3)高可靠的数据加载方法。
技术方案:为实现上述目的,本发明的一种基于HBase的智能电网时标量测数据存储方法,包括以下步骤:
S1根据量测点的时标和业务模型建立时标量测数据存储模型;
S2采用WAL(Write-Ahead Logging)技术—预写式日志技术完成对数据记录的加载从而实现将请求加载的数据全部加载到存储模型中;
S3根据量测点规模和数据产生频率,建立数据分区机制,当存储模型中数据量达到分区条件时,实现动态预分区。
进一步地,所述步骤S1包括以下步骤:基于分布式列式数据库HBase存储结构,设计行键结构为<CC+DT+YMDHMS+MT>,其中CC为地市编码,DT为变电站编码,YMDHMS为年月日时分秒,MT为量测类型;设计列键结构为<MID>,其中MID为设备编码。
进一步地,所述步骤S2包括以下步骤:
首先完成数据记录的加载过程,将请求加载的数据记录顺序写入一个日志文件中;
然后再将请求加载的数据加载至存储模型进行存储操作;
当在数据加载过程中,出现断电、崩溃和其他异常时,通过重新扫描所述日志文件实现将内存中未成功写入数据存储模型的数据进行重新加载。
有益效果:本发明与现有技术比较,具有的优点是:
针对数据规模大、数据产生持续性强的时标量测数据,实现数据高速加载,满足时标量测数据快速加载;
采用WAL技术,确保系统异常崩溃时,可通过日志文件快速恢复数据,提升数据加载的可靠性;
设计了一种智能电网时标量测数据的列式存储模型,采用聚簇思想,根据时标和业务模型建立存储单元,确保少量数据连续访问,同时进行数据压缩,减少磁盘I/O,提升数据访问性能;
根据量测点规模和数据产生频率,建立灵活的数据分区机制,确保大量数据分布式访问,提升数据访问性能。
附图说明
图1是存储模型结构示意图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
本发明针对智能电网时标量测数据存储特点,提出了一种基于HBase的智能电网时标量测数据存储方法,主要包括以下步骤:
根据量测点的时标和业务模型建立时标量测数据存储模型;
采用WAL(Write-Ahead Logging)技术即预写式日志技术完成对数据记录的加载从而实现将请求加载的数据全部加载到内存中的存储模型文件中;
根据量测点规模和数据产生频率,建立数据分区机制,当内存中存储模型文件中存储数据量达到分区条件时,即实现动态预分区。
下面分别对上述步骤进行具体说明:
根据量测点的时标和业务模型建立时标量测数据存储模型:
本发明方法基于分布式列式数据库HBase存储结构,如图1所示,设计Row Key即行键结构为<CC+DT+YMDHMS+MT>,其中CC表示地市编码,DT表示变电站编码,YMDHMS表示年月日时分秒,MT表示量测类型;设计Column Key列键结构为<MID>,其中MID表示设备编码,图1中Value表示数据值,即量测点量测数据值;
采用WAL技术完成对数据记录的加载从而实现将请求加载的数据全部加载到存储模型中:
为了保证数据加载的可靠性,本方法采用WAL(Write-Ahead Logging)技术即预写式日志技术;首先完成数据记录的加载过程,将请求加载的数据数据记录顺序写入一个日志文件中;然后再将请求加载的数据加载至内存的存储模型中进行相关存储操作;当在数据加载过程中,出现断电、崩溃等异常时,通过重新扫描日志文件实现将内存中未成功写入数据存储模型的数据进行重新加载,由于日志文件时按照顺序写入,因此数据记载效率是可以得到保证的,同时确保了数据加载的可靠性;
根据量测点规模和数据产生频率,建立数据分区机制,当存储模型中数据量达到分区条件时,实现动态预分区:
本发明方法通过对存储模型—基于分布式列式数据库HBase存储结构中Row Key行键进行散列的方式建立数据自适应分区策略,在数据加载过程中,首先对Row Key按照字典顺序进行排序,以确保数据加载过程中数据按照Row Key顺序加载至存储模型中,当存储模型中数据量达到分区条件时,该分区提交是指配置指定单区最大存储容量,根据Row Key分布进行分区操作,同时支持通过指定分区的起止Row Key实现动态预分区,再次参照图1,在存储模型中Row Key按照字典顺序排序,排序规则为从Row Key1开始,依次按照RowKey2、Row Key3往下,同样对于Colunm Key按照顺序排序,包括Colunm Key1,ColunmKey2,…,Colunm KeyN,数据加载过程中数据按照Row Key顺序和Colunm Key顺序加载至存储模型中,Value指数据值,当存储模型中数据量达到3×N条时,从Row Key1开始至RowKey3截止实现第一个分区的动态预分区,同样道理,依次实现分区二、分区三至分区N的动态预分区;例如,某地区用电信息采集系统时标量测点为3600万,其数据采样频率均为15分钟,若以一天分一个区的分区机制,则每个分区的数据量达到条,当存储模型中数据量达到3240000000条时,则进行动态预分区。
实施例:
以下将某地区用电信息采集系统时标量测数据的实例来描述本发明方法的具体实施方式,并采用分布式列式数据库HBase实现上述存储模型;
服务器硬件配置如表1所示:
表1
服务器软件配置如表2所示:
操作系统 数据库
CentOS 6.5 HBase-1.2.0
表2
HBase服务参数配置如表3所示:
参数名 备注
hbase.regionserver.handler.count 10 RegionServer的请求处理IO线程数
hbase.hregion.max.filesize 4G 单个Reigon的最大存储空间
hfile.block.cache.size 0.2 storefile读缓存占用Heap的百分比
hbase.hstore.blockingStoreFiles 7 storefile compaction阈值
表3
数据表结构如表4所示:
表4
数据模型编码如表5所示:
表5
设该地区用电信息采集数据量测点规模约为3600万,数据产生周期为15分钟,数据库分表为按天分表,数据分区阈值为4GB,则每个分区的数据量达到 条,当存储模型中数据量达到3240000000条时,则进行动态预分区,根据以上参数的配置,通过本发明方法设计的存储模型,数据加载与访问效率如表6所示:
操作类型 加载 访问
效率(万/秒) 19 38
表6
如上表,本发明方法数据加载效率为19万/秒,本发明方法数据访问效率为38万/秒,其中,单位“万/秒”表示:每一秒钟加载/访问多少万条数据值,在该实例(设该地区用电信息采集数据量测点规模约为3600万,数据产生周期为15分钟,数据库分表为按天分表,数据分区阈值为4GB)的场景下,数据加载的需求大于 因此,本发明方法高效地满足了该地区用电信息采集系统时标量测数据应用需求。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于HBase的智能电网时标量测数据存储方法,其特征在于:包括以下步骤:
S1根据量测点的时标和业务模型建立时标量测数据存储模型;
S2采用WAL技术完成对数据记录的加载从而实现将请求加载的数据全部加载到存储模型中;
S3根据量测点规模和数据产生频率,建立数据分区机制,当存储模型中数据量达到分区条件时,实现动态预分区。
2.根据权利要求1所述的基于HBase的智能电网时标量测数据存储方法,其特征在于:所述步骤S1包括以下步骤:基于分布式列式数据库HBase存储结构,设计行键结构为<CC+DT+YMDHMS+MT>,其中CC为地市编码,DT为变电站编码,YMDHMS为年月日时分秒,MT为量测类型;设计列键结构为<MID>,其中MID为设备编码。
3.根据权利要求1所述的基于HBase的智能电网时标量测数据存储方法,其特征在于:所述步骤S2包括以下步骤:
首先完成数据记录的加载过程,将请求加载的数据记录顺序写入一个日志文件中;
然后再将请求加载的数据加载至存储模型进行存储操作;
当在数据加载过程中,出现断电、崩溃和其他异常时,通过重新扫描所述日志文件实现将内存中未成功写入数据存储模型的数据进行重新加载。
4.根据权利要求1所述的基于HBase的智能电网时标量测数据存储方法,其特征在于:所述步骤S3包括以下步骤:
首先对数据存储模型基于分布式列式数据库HBase存储结构中行键按照字典顺序进行排序;
在数据加载过程中,数据按照行键顺序加载至存储模型中;
当存储模型中数据量达到分区条件时,该分区条件是指配置指定单区最大存储容量,根据行键分布进行分区操作,同时支持通过指定分区的起止行键实现动态预分区。
CN201611265634.5A 2016-12-30 2016-12-30 一种基于HBase的智能电网时标量测数据存储方法 Pending CN106844556A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611265634.5A CN106844556A (zh) 2016-12-30 2016-12-30 一种基于HBase的智能电网时标量测数据存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611265634.5A CN106844556A (zh) 2016-12-30 2016-12-30 一种基于HBase的智能电网时标量测数据存储方法

Publications (1)

Publication Number Publication Date
CN106844556A true CN106844556A (zh) 2017-06-13

Family

ID=59117442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611265634.5A Pending CN106844556A (zh) 2016-12-30 2016-12-30 一种基于HBase的智能电网时标量测数据存储方法

Country Status (1)

Country Link
CN (1) CN106844556A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656971A (zh) * 2017-09-02 2018-02-02 国网辽宁省电力有限公司 一种基于Redis的智能电网采集监测数据存储方法
CN109241143A (zh) * 2018-09-13 2019-01-18 中国建设银行股份有限公司 一种数据查询方法及系统
CN109657009A (zh) * 2018-12-21 2019-04-19 北京锐安科技有限公司 数据预分区存储周期表创建方法、装置、设备和存储介质
CN110807032A (zh) * 2019-10-10 2020-02-18 江苏瑞中数据股份有限公司 一种基于HBase的智能电网采集监测数据存储系统及存储方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391903A (zh) * 2014-11-14 2015-03-04 广州科腾信息技术有限公司 一种基于分布存储和并行计算的电网数据质量检测方法
CN104850640A (zh) * 2015-05-26 2015-08-19 华北电力大学(保定) 一种基于HBase的电网设备状态监测数据存储和查询方法及系统
WO2016032548A1 (en) * 2014-08-25 2016-03-03 Hewlett Packard Enterprise Development Lp Providing transactional support to a data storage system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016032548A1 (en) * 2014-08-25 2016-03-03 Hewlett Packard Enterprise Development Lp Providing transactional support to a data storage system
CN104391903A (zh) * 2014-11-14 2015-03-04 广州科腾信息技术有限公司 一种基于分布存储和并行计算的电网数据质量检测方法
CN104850640A (zh) * 2015-05-26 2015-08-19 华北电力大学(保定) 一种基于HBase的电网设备状态监测数据存储和查询方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘博伟等: "基于HBase的金融时序数据存储系统", 《中国科技论文》 *
王建军等: "基于HBase的钻井数据存储研究", 《软件导刊》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656971A (zh) * 2017-09-02 2018-02-02 国网辽宁省电力有限公司 一种基于Redis的智能电网采集监测数据存储方法
CN109241143A (zh) * 2018-09-13 2019-01-18 中国建设银行股份有限公司 一种数据查询方法及系统
CN109657009A (zh) * 2018-12-21 2019-04-19 北京锐安科技有限公司 数据预分区存储周期表创建方法、装置、设备和存储介质
CN109657009B (zh) * 2018-12-21 2021-03-12 北京锐安科技有限公司 数据预分区存储周期表创建方法、装置、设备和存储介质
CN110807032A (zh) * 2019-10-10 2020-02-18 江苏瑞中数据股份有限公司 一种基于HBase的智能电网采集监测数据存储系统及存储方法

Similar Documents

Publication Publication Date Title
CN106844556A (zh) 一种基于HBase的智能电网时标量测数据存储方法
CN104346357B (zh) 一种嵌入式终端的文件存取方法及系统
CN101216821B (zh) 数据采集系统的存储管理方法
CN106844555A (zh) 一种用于电网wams系统的时序数据存储方法
CN102722582B (zh) 基于逆向清理的数据整合系统及方法
CN103325074B (zh) 电力系统实时数据处理方法
CN103914449A (zh) 一种多源时间序列数据压缩存储方法
CN112632127B (zh) 设备运行实时数据采集及时序的数据处理方法
CN104714753A (zh) 一种数据访问存储方法及装置
CN108108517A (zh) 一种基于大数据的电网规划智能辅助分析方法
CN108009290A (zh) 一种轨道交通指挥中心线网大数据的数据建模和存储方法
CN102497450B (zh) 一种基于两级体系的分布式数据压缩处理方法
CN107798062A (zh) 一种变电站历史数据统一存储方法和系统
CN103198150A (zh) 一种大数据索引方法及系统
CN110413624A (zh) 一种基于列存的多列联合存储的方法
CN104991741B (zh) 一种基于键值模型的情境适配电网大数据存储方法
Hongxun et al. Data quality assessment for on-line monitoring and measuring system of power quality based on big data and data provenance theory
CN201797568U (zh) 一种基于节能磁盘阵列的视频监控系统
CN107895017A (zh) 一种基于大数据技术的电能质量监测系统构建方法
CN106548412A (zh) 一种变电站在线监测时序数据的高效压缩存储方法
CN107491495A (zh) 空间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法
CN103020077A (zh) 一种电力系统实时数据库内存管理方法
CN103699688A (zh) 一种支撑终端用户供电可靠性管理的终端模型
CN107894875A (zh) 一种rtu数据存储方法
CN202795333U (zh) 服务器中磁盘冗余阵列高速读写控制电路结构

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170613