CN110807032A - 一种基于HBase的智能电网采集监测数据存储系统及存储方法 - Google Patents
一种基于HBase的智能电网采集监测数据存储系统及存储方法 Download PDFInfo
- Publication number
- CN110807032A CN110807032A CN201910957072.8A CN201910957072A CN110807032A CN 110807032 A CN110807032 A CN 110807032A CN 201910957072 A CN201910957072 A CN 201910957072A CN 110807032 A CN110807032 A CN 110807032A
- Authority
- CN
- China
- Prior art keywords
- data
- column
- monitoring data
- hbase
- storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 52
- 238000013500 data storage Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 9
- 238000000638 solvent extraction Methods 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 230000005611 electricity Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Water Supply & Treatment (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Remote Monitoring And Control Of Power-Distribution Networks (AREA)
Abstract
本发明提供一种基于HBase的智能电网采集监测数据存储系统及存储方法,其中设置若干储存单元,每个储存单元中存储数据的数据格式包括表名、行键、列族、列名、采集检测点采样值;其中,行键由设备编码及采集监测点类型数据组成;单列族由单个字符“I”组成;列名由日时分秒数据组成。本发明中将行键、列族的部分信息转移存储,缩短行键、列族长度,精简非必要信息,降低冗余,提高空间利用率,提高采集监测数据的加载和访问性能。同时,合理充分的考虑行键(RowKey)的分布,采用预分区的方式,提高采集监测数据的加载性能。
Description
技术领域
本申请涉及数据库技术领域,特别涉及智能电网采集监测数据存储系统及存储方法。
背景技术
智能电网采集监测数据是电网应用中十分重要的数据,作为智能电网四大数据类型的重要组成部分,是智能电网用电信息采集、设备状态监测、辅助决策分析、离线挖掘分析等的重要基础。当前,智能电网采集监测数据存储的主要特点:(1)采集监测数据量大,存储周期跨度长;(2)数据格式固定;(3)数据加载吞吐量要求高;(4)访问模式以断面查询和批量查询为主;(5)历史数据规模不断增大,应用的丰富性和互动性不断增强,对历史数据的访问需求越来越高。
现有技术方案:
现有智能电网采集监测数据的存储模型是基于HBase数据库的。HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。HBase利用HadoopHDFS作为其文件存储系统,利用Hadoop MapReduce来处理海量数据,利用Zookeeper作为协同服务。
现有智能电网采集监测数据的存储模型包括行键(RowKey),列族(ColumnFamily),列名(ColumnId),采集监测点采样值(Value)的存储结构,表名的结构为<BT_PC_MTTYPE_yyyyMM>,行键的结构为<CC.TG.TIMESTAMP.MT>,列族的结构为<DATA>,列名的结构为<MID>,其中BT为业务类型编码,PC为网省编码,MTTYPE为设备类型编码,yyyyMM为年月,CC为城市编码,TG为台区编码,MT为采集监测点类型,MID为设备编码,Value为采集监测点采样值。
上述现有的基于HBase的智能电网采集监测数据的存储模型信息存储冗余、存储了较多非必要信息,并且没有进行合理的预分区,空间利用率和资源利用率较低,随着采集监测数据的加载和访问性能无法适应系统数据规模不断增大,应用的丰富性和互动性不断增强的情况,数据的加载和访问性能没法满足业务的实际需求。
故,需要一种新的技术方案以解决上述问题。
发明内容
发明目的:本发明提出了一种基于HBase的智能电网采集监测数据存储系统及存储方法,目的是为了合理存储信息,充分利用资源,以提升采集监测数据的加载和访问性能。
技术方案:为达到上述目的,本发明基于HBase的智能电网采集监测数据存储系统采用如下技术方案:
一种基于HBase的智能电网采集监测数据存储系统,包括若干储存单元,每个储存单元中存储数据的数据格式包括表名、行键、列族、列名、采集检测点采样值;其中,行键由设备编码及采集监测点类型数据组成;列族由单个字符“I”组成;列名由日时分秒数据组成。
进一步的,表名由业务类型编码、网省编码、设备类型编码、年月数据组成。
进一步的,对存储系统预分区为多个储存单元,提高采集监测数据的加载性能。
达到上述目的,本发明基于HBase的智能电网采集监测数据存储方法采用如下技术方案:
一种基于HBase的智能电网采集监测数据存储方法,包括以下步骤:
(1)、建立若干储存单元,每个储存单元中存储数据的数据格式设置表名、行键、列族、列名、采集检测点采样值;
(2)将行键设置为由设备编码及采集监测点类型数据组成;将列族设置为由单个字符“I”组成;将列名设置为由日时分秒数据组成。
进一步的,步骤(2)中,将表名设置为由业务类型编码、网省编码、设备类型编码、年月数据组成。
进一步的,通过预分区方式预设值多个储存单元,提高采集监测数据的加载性能。
有益效果:相对于现有技术,本发明的有益效果包括:
1、将数据信息合理分离,充分利用HBase各个存储字段,提高采集监测数据的加载性能。
2、采用聚类思想,根据时标和业务模型建立存储单元,提升采集监测数据的访问性能。
3、将行键、列族的部分信息转移存储,缩短行键、列族长度,精简非必要信息,降低冗余,提高空间利用率,提高采集监测数据的加载和访问性能。
4、合理充分的考虑行键(RowKey)的分布,采用预分区的方式,提高采集监测数据的加载性能。
附图说明
图1为本发明基于HBase的智能电网采集监测数据存储系统的结构示意图。
具体实施方式
请结合图1所示,本发明提供的一种基于HBase的智能电网采集监测数据存储系统的实施例,包括若干储存单元,每个储存单元中存储数据的数据格式包括表名(TableName),行键(RowKey),列族(ColumnFamily),列名(ColumnId),采集监测点采样值(Value);其中,行键由设备编码及采集监测点类型数据组成;列族由单个字符“I”组成;列名由日时分秒数据组成。表名由业务类型编码、网省编码、设备类型编码、年月数据组成。
该存储单元的模型如下表所示
其中,该实施例关键点为将数据信息合理分离,将行键、列族的部分信息转移存储,缩短行键、列族长度,精简非必要信息,降低冗余,提高空间利用率,充分利用HBase各个存储字段,同时采用聚类思想根据时标和业务模型建立存储单元,提高采集量测数据的加载和访问性能。
进一步的,为了提升数据的加载性能,本系统在存储时采用预分区的方式,如果在建表时没有进行预分区,那么这张表将只有一个region,当一个region的大小超过阈值时会自动split成两个,而split操作会带来资源消耗,同时,region个数太少时,数据的加载压力只会分担在一台机器上,会造成较大的资源浪费,在数据量大、访问量大,或被批处理程序读写情况下会产生两个问题:1、会有写热点问题,2、性能可能会很差。所以,本熊充分考虑行键的分布,采用预分区的方式,避免不必要的split操作,同时也能利用到HBase分布式的特性,将数据加载的压力均匀的分担到各个机器上,充分发挥多台机器的性能,提升数据的加载效率。
部署在硬件上的实施效果:
以下将以某省份用电信息采集系统采集监测数据的实例来描述本系统的具体实施方式在硬件上的效果,并采用本发明中的新模型作为历史数据库HBase的存储模型。
服务器硬件配置:
服务器软件配置:
操作系统 | 数据库 |
CentOS 6.6 | HBase 1.2.0 |
根据以上参数的配置,该地区用电信息采集量测点规模约为3600万、数据产生周期为15分钟、数据为按天分片。通过本方法设计的存储模型,数据加载与访问的效率如下:
操作类型 | 效率(万/秒) |
加载 | 22 |
访问 | 170(最高效率) |
如上表,本方法数据加载与访问效率分别为:22万/秒、170万/秒(最高效率)。其中,单位“万/秒”表示:每一秒钟加载/访问多少万条数据值。在该实际的场景下,数据加载的性能相对比现有模型的17万/秒大概有百分之三十的性能提升。
对应上述存储系统的实施例,本发明中提供的基于HBase的智能电网采集监测数据存储方法的实施例,采用如下技术方案:
一种基于HBase的智能电网采集监测数据存储方法,包括以下步骤:
(1)、建立若干储存单元,每个储存单元中存储数据的数据格式设置表名、行键、列族、列名、采集检测点采样值;
(2)将行键设置为由设备编码及采集监测点类型数据组成;将列族设置为由单个字符“I”组成;将列名设置为由日时分秒数据组成;将表名设置为由业务类型编码、网省编码、设备类型编码、年月数据组成。
而同样的,该存储方法中,也通过预分区方式预设值多个储存单元,提高采集监测数据的加载性能。
另外,本发明的具体实现方法和途径很多,以上所述仅是本发明的优选实施方式。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (6)
1.一种基于HBase的智能电网采集监测数据存储系统,其特征在于,包括若干储存单元,每个储存单元中存储数据的数据格式包括表名、行键、列族、列名、采集检测点采样值;其中,行键由设备编码及采集监测点类型数据组成;列族由单个字符“I”组成;列名由日时分秒数据组成。
2.根据权利要求1所述的智能电网采集监测数据存储系统,其特征在于:表名由业务类型编码、网省编码、设备类型编码、年月数据组成。
3.根据权利要求1或2所述的智能电网采集监测数据存储系统,其特征在于:对存储系统预分区为多个储存单元,提高采集监测数据的加载性能。
4.一种基于HBase的智能电网采集监测数据存储方法,其特征在于,包括以下步骤:
(1)、建立若干储存单元,每个储存单元中存储数据的数据格式设置表名、行键、列族、列名、采集检测点采样值;
(2)将行键设置为由设备编码及采集监测点类型数据组成;将列族设置为由单个字符“I”组成;将列名设置为由日时分秒数据组成。
5.根据权利要求4所述的智能电网采集监测数据存储方法,其特征在于:步骤(2)中,将表名设置为由业务类型编码、网省编码、设备类型编码、年月数据组成。
6.根据权利要求4或5所述的智能电网采集监测数据存储方法,其特征在于:通过预分区方式预设值多个储存单元,提高采集监测数据的加载性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910957072.8A CN110807032A (zh) | 2019-10-10 | 2019-10-10 | 一种基于HBase的智能电网采集监测数据存储系统及存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910957072.8A CN110807032A (zh) | 2019-10-10 | 2019-10-10 | 一种基于HBase的智能电网采集监测数据存储系统及存储方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110807032A true CN110807032A (zh) | 2020-02-18 |
Family
ID=69488113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910957072.8A Pending CN110807032A (zh) | 2019-10-10 | 2019-10-10 | 一种基于HBase的智能电网采集监测数据存储系统及存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807032A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140258296A1 (en) * | 2013-03-11 | 2014-09-11 | Dell Products L.P. | System and method for management of network monitoring information |
CN106557561A (zh) * | 2016-11-16 | 2017-04-05 | 贵州大学 | 基于HBase的海量传感器数据存储系统及方法 |
CN106844556A (zh) * | 2016-12-30 | 2017-06-13 | 江苏瑞中数据股份有限公司 | 一种基于HBase的智能电网时标量测数据存储方法 |
-
2019
- 2019-10-10 CN CN201910957072.8A patent/CN110807032A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140258296A1 (en) * | 2013-03-11 | 2014-09-11 | Dell Products L.P. | System and method for management of network monitoring information |
CN106557561A (zh) * | 2016-11-16 | 2017-04-05 | 贵州大学 | 基于HBase的海量传感器数据存储系统及方法 |
CN106844556A (zh) * | 2016-12-30 | 2017-06-13 | 江苏瑞中数据股份有限公司 | 一种基于HBase的智能电网时标量测数据存储方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021091489A1 (en) | Method and apparatus for storing time series data, and server and storage medium thereof | |
CN105608223A (zh) | 针对kafka的Hbase数据库的入库方法和系统 | |
CN103268336A (zh) | 一种快数据和大数据结合的数据处理方法及其系统 | |
CN103116595B (zh) | 面向电网的scada历史数据分布式存储的实现方法 | |
CN103390038A (zh) | 一种基于HBase的构建和检索增量索引的方法 | |
CN104317800A (zh) | 一种海量智能用电数据混合存储系统及方法 | |
CN107766529B (zh) | 一种用于污水处理行业的海量数据存储方法 | |
CN105912609A (zh) | 一种数据文件处理方法和装置 | |
Ceci et al. | Big data techniques for supporting accurate predictions of energy production from renewable sources | |
CN105912601A (zh) | 能量管理系统分布式实时内存数据库的分区存储方法 | |
CN109669975B (zh) | 一种工业大数据处理系统及方法 | |
CN104572505A (zh) | 一种保证海量数据缓存最终一致性的系统及方法 | |
CN107656971A (zh) | 一种基于Redis的智能电网采集监测数据存储方法 | |
CN104991741B (zh) | 一种基于键值模型的情境适配电网大数据存储方法 | |
CN105574074A (zh) | 一种基于智能电网wams的时序大数据存储方法 | |
CN106844556A (zh) | 一种基于HBase的智能电网时标量测数据存储方法 | |
CN112131214A (zh) | 数据写入、数据查询的方法、系统、设备和存储介质 | |
CN104035522A (zh) | 大数据库一体机 | |
CN113849499A (zh) | 数据的查询方法、装置、存储介质及电子装置 | |
CN110674080B (zh) | 一种基于NiFi的大数据量非结构文件采集方法及系统 | |
CN103246695A (zh) | 海迅实时数据库与ies600p系统的集成方法 | |
CN108920110A (zh) | 一种基于内存计算模式的并行处理大数据存储系统及方法 | |
CN110807032A (zh) | 一种基于HBase的智能电网采集监测数据存储系统及存储方法 | |
CN104714956A (zh) | 一种异构记录集对比方法及装置 | |
CN106951442A (zh) | 一种异构数据库间的数据交互方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |