CN104216989A - 一种基于HBase的输电线路综合数据存储方法 - Google Patents
一种基于HBase的输电线路综合数据存储方法 Download PDFInfo
- Publication number
- CN104216989A CN104216989A CN201410454492.1A CN201410454492A CN104216989A CN 104216989 A CN104216989 A CN 104216989A CN 201410454492 A CN201410454492 A CN 201410454492A CN 104216989 A CN104216989 A CN 104216989A
- Authority
- CN
- China
- Prior art keywords
- data
- hbase
- file
- transmission line
- power transmission
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003491 array Methods 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000003860 storage Methods 0.000 claims description 23
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000005194 fractionation Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000012212 insulator Substances 0.000 description 7
- 230000005611 electricity Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000004992 fission Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 201000007094 prostatitis Diseases 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Computing Systems (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Remote Monitoring And Control Of Power-Distribution Networks (AREA)
Abstract
本发明公开了一种基于HBase的输电线路综合数据存储方法,包括:采集输电线路综合数据,所述输电线路综合数据包括结构化数据及非结构化数据;将所述输电线路综合数据进行分类处理;根据分类结果构建HBase表;将所述HBase表内的输电线路综合数据转换为字节数组;将所述字节数组按照HBase表格式,依次存储至HBase分布式数据库,所述HBase分布式数据库构建于HDFS上。采用本发明,将输电线路综合数据与HDFS、HBase相结合,解决了原有数据信息共享性差、信息呈孤岛、非结构化数据难以处理等问题。
Description
技术领域
本发明涉及电力信息化技术领域,尤其涉及一种基于HBase的输电线路综合数据存储方法。
背景技术
信息和能源始终是世界关注的两大焦点话题。随着电网智能化、信息化、集成化程度的不断加深和提高,由此产生的大量数据为电网的发展带来了新的挑战和机遇。在电力系统的整个生产过程中,包括发、输、变、配、用、调度、协调等各个环节都伴随着各种各样的信息流。输电线路作为保障电网安全可靠运行的重要组成部分,在实际运行中会产生种类繁多、数量巨大的各类数据,包括线路自身的属性信息、各种状态监测数据、投运前离线实验数据、电网运行数据、地理信息数据、公共安全信息数据、线路自身的运维记录数据等结构化和非结构化数据。并且随着测量采集点越来越多,电网运行和设备检/监测产生的数据量呈指数增长,构成了当今信息学界所关注的大数据。
早在2011年全球知名的咨询公司麦肯锡发布了一份关于大数据的详尽报告,就大数据的影响、关键技术和应用领域等都做了详尽的分析,阐明了大数据研究的地位以及蕴含的巨大的社会价值。中国电机工程学会信息化专委会于2013年3月出版发布了《中国电力大数据发展白皮书》,该书对电力大数据的起源、内涵、特征、价值分析、应用前景、发展挑战、关机技术以及发展策略给出了详细的解释和说明。
输电线路分为架空线和电力电缆两种。输电线路分布地域广、跨度大,与其相关的数据分散、类型繁杂,如:架空线和电缆的生产日期、规格型号、离线实验、家族缺陷等属性信息类数据;架空线杆塔坐标、电缆标识球位置坐标、电缆某段敷设方式等地理信息类数据;微气象、雷击、覆冰、外力破坏、塔基滑坡等公共安全类数据;导线温度、弧垂、架空线绝缘子泄漏电流、架空线视频监测、电缆护层环流等在线监测类数据;线路运行电流值等电网运行类数据;线路的运行维护记录等运维数据等。输电线路综合数据种类繁多并呈现多样化,数据对实时性的要求也不一致,如线路的运行电流值对于系统的调度影响重大,要求数据实时、一致、准确;而其他类型的数据的如状态检测类数据对实时性的要求则较低。因此,有区别的对数据规范化采集管理和科学、有效的处理非常必要。
另一方面,架空线和电缆的架设方式、结构特性、环境影响差别大,导致两者的数据类型和数据源不尽相同,如:覆冰数据、微气象、弧垂、视频监测、绝缘子泄漏电流是架空线才有的数据,而电缆护层环流、电缆敷设方式则是电缆独有的数据,因此,在数据的采集、清洗、转换和存储过程中要区别对待。其中,数据的多源性体现为数据来源于不同的子系统。中山供电局的输电线路管理水平走在全国的前列,目前,在输电管理所装有电缆环流在线检测系统、电缆可视化子系统、绝缘子泄露电流在线检测系统、架空线路视频检测系统、输电线路智能故障诊断系统、塔基滑坡灾害监测系统、线路弧垂在线监测系统、生产管理信息系统,各类型的数据大部分来源于以上各系统。还有一些如线路的属性信息是来自生产厂家,线路运行电流值则来自EMS系统。以中山供电局为例,在图1中给出了输电线路综合数据的详细数据信息。
输电线路数据的异构性是建立在其复杂性和多源性的基础之上。复杂性和多源性一定程度上决定了数据内在结构的不同,这些复杂的、多源的数据可以进一步细分为结构化数据和非结构化数据。输电线路综合数据中结构化数据与非结构化数据的构成与划分如图2所示。
结构化数据是指存储在关系数据库中的数据,输电线路综合数据中的大部分数据是这种形式,如:微气象、弧垂、绝缘子泄漏电流、电缆护层环流等,随着信息技术的发展和智能电网建设的逐步推进,测量采集装置的增多以及采样频率的提高,这部分数据将会很快地增长。
相对于结构化数据而言,不方便用数据库二维逻辑表来存储和展示的数据即称为非结构化数据。这部分数据增长非常迅速,互联网数据中心的一项调查报告指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。在输电线路综合数据中,电缆可视化子系统中的图片图像数据、架空线路视频监测的视频图像数据都是属于非结构化数据。目前,大多数的电缆可视化系统均为“静态”系统,在电缆敷设时,对电缆的名称、敷设类型(电缆槽、电缆沟、埋管、顶管)、与该段电缆相连的标识球编号等静态数据进行记录并存储,只在显示时进行调用。在电缆可视化系统中重要的是标识球位置图,在敷设和更新时对标识球位置现场的环境拍摄图片,当电缆发生故障需要维护检修时就要借助电缆可视化系统中的标识球位置图帮助检修人员快速、准确的找到电缆实际的位置。
现在较为常用的架空线视频监控方法是通过终端摄像头采集图像并编码后通过MESH无线网络将数据接入供电企业的电力光纤通信网络,通过TCP/IP协议将数据传输到线路监测中心。以中山供电局架空线路视频监测为例,说明该部分非结构化数据的规模和体量问题。中山局供电局输电管理所现下辖38个视频监测点,这些监测点安装在比较重要的和易受外力破坏的杆塔上,若摄像机采用8路、512 Kbps定码率录像,每天采集视频图像12 h,则每小时产生的数据量为512×3 600/8/1 024=225 MB,每年所有的摄像头采集到的数据量为38×365×12×225 MB=36 571.29 GB=35.71 TB,数据体量巨大,具有电网大数据中规模大的特点,并且随着监测点的增多,数据量会越来越大。
因此,现有的关系数据库已经无法满足大数据的存储需求,表现在以下4个方面:
(1)大数据的数据体量为TB或PB级,关系数据库已无法处理;
(2)数据访问时输入输出耗时,数据响应速度受到关系数据库的制约,导致大数据快速访问能力较低;
(3)针对视频图像、图片、文档等非结构化数据缺乏处理能力;
(4)对海量数据处理的可扩展性差。
发明内容
本发明所要解决的技术问题在于,提供一种基于HBase的输电线路综合数据存储方法,可解决原有数据信息共享性差、信息呈孤岛、非结构化数据难以处理等问题。
为了解决上述技术问题,本发明提供了一种基于HBase的输电线路综合数据存储方法,包括:采集输电线路综合数据,所述输电线路综合数据包括结构化数据及非结构化数据;将所述输电线路综合数据进行分类处理;根据分类结果构建HBase表;将所述HBase表内的输电线路综合数据转换为字节数组;将所述字节数组按照HBase表格式,依次存储至HBase分布式数据库,所述HBase分布式数据库构建于HDFS上。
作为上述方案的改进,所述HBase 表的列定义由多个列族构成,每个列族可以包含多个列,且列可以动态增加;所述HBase表包括关键字、时标、元数据,所述时标用于表示元数据的采集时间;所述关键字由MAC地址及路号的字符串连接构成,所述MAC地址用于表示采集设备,路号用于表示通道号。
作为上述方案的改进,所述HBase分布式数据库包括RegionServer,所述RegionServer上分布有多个Region,所述Region上分布有多个Store,所述Store由MemSotre及存储在HDFS上的StoreFile组成,所述MemStore为排序内存缓冲区;字节数组存入所述HBase分布式数据库时,先存入所述MemStore,当所述MemStore满载后,形成一个StoreFile文件,当所形成的StoreFile文件数量到达预设阈值时,则触发合并操作,将多个StoreFile文件合并成一个StoreFile文件,合并过程中进行版本合并及数据删除。
作为上述方案的改进,所述StoreFile文件内的字节数组的存储通过HFile文件实现,所述字节数组存储在所述HFile文件之中;所述HFile文件依次包括Data、Meta、Data Index、Meta Index及Trailer,所述Data Index记录了Data的偏移,所述Meta Index记录了Meta的偏移,所述Trailer包括指向File Info的指针、指向Data Index的指针、指向Meta Index的指针。
作为上述方案的改进,所述合并操作包括“文件触发”、“文件选取”、“文件合并”三个阶段,所述“文件触发”阶段决定触发合并的时机与方式,所述“文件选取”阶段决定合并文件的选择,所述“文件合并”决定合并的方式;所述触发合并的时机与方式包括客户端触发、RegjonServer进行周期检查时触发、MemStore清空时触发。
作为上述方案的改进,当单个StoreFile文件的大小超过预设阈值,则触发分裂操作,并把所述StoreFile文件所处的当前Region分裂为两个独立的Region,新形成的两个Region会被分配到相应的RegionServer上。
作为上述方案的改进,所述RegionServer上还分布有一个实现预写日志的对象HLog;当字节数组存入MemStore时,同时写入到所述HLog中,所述HLog定期删除已持久化到StoreFile中的字节数组所对应的旧文件并滚动出新文件;当RegionServer意外终止后,则根据所述HLog进行不同Region的字节数组的拆分、重新分配,实现字节数组的恢复。
实施本发明,具有如下有益效果:
由上可知,将输电线路综合数据与HDFS、HBase相结合,从而构建基于HBase的输电线路综合数据存储方法。其中,通过HBase对海量的输电线路综合数据进行存储及高速读写,使结构化数据及非结构化数据经分类、转换后均能得到有效的处理。
相应地,通过强大的合并功能,使StoreFile得到有效的合并,实现过期数据的删除、提供读的性能;通过强大的分裂功能,使得原有一个Region的压力得以分流到两个Region上,使资源空间得到最高效的利用;通过设置对象HLog,实现数据恢复,保证数据的稳定性。解决了原有数据信息共享性差、信息呈孤岛、非结构化数据难以处理等问题。
附图说明
图1是输电线路综合数据的详细数据信息表;
图2是输电线路综合数据中结构化数据与非结构化数据的构成与划分示意图;
图3是本发明基于HBase的输电线路综合数据存储方法的实施例流程图;
图4是HDFS的结构体系示意图;
图5是基于HBase和HDFS的存储架构示意图;
图6是HFile文件的结构组成示意图;
图7是HFile的分裂过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
图3是本发明基于HBase的输电线路综合数据存储方法的实施例流程图,包括:
S101,采集输电线路综合数据。
所述输电线路综合数据包括结构化数据及非结构化数据。
如图1所示,输电线路综合数据来源于不同的子系统,可根据实际情况与各子系统建立连接,采集各子系统中的输电线路综合数据。
S102,将所述输电线路综合数据进行分类处理。
对采集到的输电线路综合数据按照数据的具体内容进行分类处理,例如,可划分为:绝缘子泄漏电流、架空线杆塔地理坐标、出厂试验数据等等……
S103,根据分类结果构建HBase表。
更佳地,所述HBase 表的列定义由多个列族构成,每个列族可以包含多个列,且列可以动态增加;所述HBase表包括关键字、时标、元数据,所述时标用于表示元数据的采集时间;所述关键字由MAC地址及路号的字符串连接构成,所述MAC地址用于表示采集设备,路号用于表示通道号。
例如,以绝缘子泄漏电流为例进行说明。
绝缘子泄漏电流数据一般包含设备节点物理地址、采集时刻、产生通道、微气候记录(包括环境温度、湿度等)以及若干个周期长度的数据(默认值,在采样率固定的情况下每个采样点的时间都可计算),具体如表1所示:
构建相应的HBase表,如表2所示:
其中,RowKey表示关键字,Time stamp表示时标,一个采集设备有可能采集多个通道。上述HBase表设计了两个列族,分别描述采集时刻的微气候值(温度、相对湿度)以及采样数据采样点的值,分别对应表2 中的Climate 和leakage currents。
S104,将所述HBase表内的输电线路综合数据转换为字节数组。
需要说明的是,HBase底层数据都是以Bytes数组来进行存储,转换时,结构化数据及非结构化数据需要分别进行转换,以存入HBase数据库,解决了原有数据信息共享性差、信息呈孤岛、非结构化数据难以处理等问题。
S105,将所述字节数组按照HBase表格式,依次存储至HBase分布式数据库,所述HBase分布式数据库构建于HDFS上。
HBase是能够提供高可靠性、高性能、列存储、可伸缩的面向列的分布式数据库。能通过主键(RowKey)和主键的Range来检索数据,支持单行事务,主要用来存储非结构化和半结构化的松散数据,解决关系型数据库在处理海量数据时的理论和实现上的局限性。
Hadoop文件系统即HDFS(Hadoop Distributed File System),HDFS其具有高容错性、可部署在低成本硬件上的特点,并且能够提供高吞吐量的数据访问,适合于大规模数据集(large data set)的应用程序。HDFS放宽了对一部分POSIX的约束,可以实现流的形式访问文件系统中的数据,并具有高可靠性、经济性、有效性、高可扩展性以及负载均衡等能力。
如图4所示,HDFS的结构体系中名称节点(NameNode)上存有控制数据节点(DataNode)信息的元数据。客户端Client可以通过NameNode对元数据进行操作,也可以直接对DataNode进行读和写操作。HDFS是一种主从结构,通常一个HDFS集群由一个名称节点(NameNode)节点和多个数据节点(DataNode)组成,NameNode主要负责管理包括名字空间、文件到文件块的映射、文件块到数据节点的映射三部分元数据信息,管理文件系统的命名空间,任何对文件系统元数据产生修改的操作NameNode都会记录下来存储在EditLog中。此外NameNode负责监听客户端事件和DataNode事件。数据节点DataNode的主要功能是对数据块的读写,向NameNode报告状态以便NameNode获取到工作集群中DataNode节点状态的全局视图,从而掌握其状态。
如图5所示,所述HBase分布式数据库包括RegionServer,所述RegionServer上分布有多个Region,所述Region上分布有多个Store,所述Store由MemSotre及存储在HDFS上的StoreFile组成,所述MemStore为排序内存缓冲区。
需要说明的是,HBase建立在HDFS之上,并且能够提供对大数据表的快速查询。HBase将字节数组存储在分布式文件系统HDFS的索引StoreFiles上,以便高速查询。
Zookeeper作为集群协调工具,在其中存储了-ROOT-表的地址和Master的地址,RegionServer也会注册到Zookeeper中,使得Master可随时感知各RegionServer的健康状态。客户端Client包含着访问HBase的接口并且维护着一些cache来加快对HBase的访问,如Regione的位置信息等。Master负责region server的负载均衡,为RegionServer分配region;并且能够发现失效的RegionServer并重新分配其上的region。RegionServer维护Master分配给它的region,处理对这些region的I/O请求,负责切分在运行过程中变得过大的region。
更佳地,字节数组存入所述HBase分布式数据库时,先存入所述MemStore,当所述MemStore满载后,形成一个StoreFile文件,当所形成的StoreFile文件数量到达预设阈值时,则触发合并操作,将多个StoreFile文件合并成一个StoreFile文件,合并过程中进行版本合并及数据删除。
如图6所示,所述StoreFile文件内的字节数组的存储通过HFile文件实现,所述字节数组存储在所述HFile文件之中;所述HFile文件依次包括Data、Meta、Data Index、Meta Index及Trailer,所述Data Index记录了Data的偏移,所述Meta Index记录了Meta的偏移,所述Trailer包括指向File Info的指针、指向Data Index的指针、指向Meta Index的指针。
需要说明的是,实际的数据文件存储是通过HFile来实现的,主要是为了高效存储HBase数据,每个Family的数据存储在同一个HFile文件之中,
更佳地, 所述合并操作包括“文件触发”、“文件选取”、“文件合并”三个阶段,所述“文件触发”阶段决定触发合并的时机与方式,所述“文件选取”阶段决定合并文件的选择,所述“文件合并”决定合并的方式;
所述触发合并的时机与方式包括客户端触发、RegjonServer进行周期检查时触发、MemStore清空时触发。
需要说明的是,每个RegjonServer有一个Compact检查线程周期性的运行,运行间隔默认值为10000 秒。始运行后,Compact检查线程会询问所有上线Region的所有Store是否需要合并操作,它会把需要合并的Store列表转给对应的HRegion去执行合并操作。
另外,由MemStore 清空所发起的合并,在向HBase写数据的时候,当客户端向Region端插入数据时,Region会判断当前的MemStore的大小是否大于某个参数值,如果大于,则执行清空操作,将Region上的MemStore中的数据输出到StoreRles文件里。而在清空数据时,会先判断当前的Region是否满足一定条件从而决定对Region进行合并还是分裂操作。
如图7所示,当单个StoreFile文件的大小超过预设阈值,则触发分裂操作,并把所述StoreFile文件所处的当前Region分裂为两个独立的Region,新形成的两个Region会被分配到相应的RegionServer上。
需要说明的是,随着数据的存入,会逐渐形成越来越大的StoreFile,当单个StoreFile文件的大小超过某一阈值后,会触发分裂操作,同时把当前Region分裂为两个Region,父Region会下线,新形成的两个子Region会被Master分配到原来的RegionServer上,使得原有一个Region的压力得以分流到两个Region上。
更佳地,所述RegionServer上还分布有一个实现预写日志的对象HLog;当字节数组存入MemStore时,同时写入到所述HLog中,所述HLog定期删除已持久化到StoreFile中的字节数组所对应的旧文件并滚动出新文件;当RegionServer意外终止后,则根据所述HLog进行不同Region的字节数组的拆分、重新分配,实现字节数组的恢复。
由上可知,将输电线路综合数据与HDFS、HBase相结合,从而构建基于HBase的输电线路综合数据存储方法。其中,通过HBase对海量的输电线路综合数据进行存储及高速读写,使结构化数据及非结构化数据经分类、转换后均能得到有效的处理。相应地,通过强大的合并功能,使StoreFile得到有效的合并,实现过期数据的删除、提供读的性能;通过强大的分裂功能,使得原有一个Region的压力得以分流到两个Region上,使资源空间得到最高效的利用;通过设置对象HLog,实现数据恢复,保证数据的稳定性。解决了原有数据信息共享性差、信息呈孤岛、非结构化数据难以处理等问题。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种基于HBase的输电线路综合数据存储方法,其特征在于,包括:
采集输电线路综合数据,所述输电线路综合数据包括结构化数据及非结构化数据;
将所述输电线路综合数据进行分类处理;
根据分类结果构建HBase表;
将所述HBase表内的输电线路综合数据转换为字节数组;
将所述字节数组按照HBase表格式,依次存储至HBase分布式数据库,所述HBase分布式数据库构建于HDFS上。
2.如权利要求1所述的基于HBase的输电线路综合数据存储方法,其特征在于,所述HBase 表的列定义由多个列族构成,每个列族可以包含多个列,且列可以动态增加;
所述HBase表包括关键字、时标、元数据,所述时标用于表示元数据的采集时间;
所述关键字由MAC地址及路号的字符串连接构成,所述MAC地址用于表示采集设备,路号用于表示通道号。
3.如权利要求1所述的基于HBase的输电线路综合数据存储方法,其特征在于,所述HBase分布式数据库包括RegionServer,所述RegionServer上分布有多个Region,所述Region上分布有多个Store,所述Store由MemSotre及存储在HDFS上的StoreFile组成,所述MemStore为排序内存缓冲区;
字节数组存入所述HBase分布式数据库时,先存入所述MemStore,当所述MemStore满载后,形成一个StoreFile文件,当所形成的StoreFile文件数量到达预设阈值时,则触发合并操作,将多个StoreFile文件合并成一个StoreFile文件,合并过程中进行版本合并及数据删除。
4.如权利要求3所述的基于HBase的输电线路综合数据存储方法,其特征在于,所述StoreFile文件内的字节数组的存储通过HFile文件实现,所述字节数组存储在所述HFile文件之中;
所述HFile文件依次包括Data、Meta、Data Index、Meta Index及Trailer,所述Data Index记录了Data的偏移,所述Meta Index记录了Meta的偏移,所述Trailer包括指向File Info的指针、指向Data Index的指针、指向Meta Index的指针。
5.如权利要求3所述的基于HBase的输电线路综合数据存储方法,其特征在于, 所述合并操作包括“文件触发”、“文件选取”、“文件合并”三个阶段,所述“文件触发”阶段决定触发合并的时机与方式,所述“文件选取”阶段决定合并文件的选择,所述“文件合并”决定合并的方式;
所述触发合并的时机与方式包括客户端触发、RegjonServer进行周期检查时触发、MemStore清空时触发。
6.如权利要求3所述的基于HBase的输电线路综合数据存储方法,其特征在于,当单个StoreFile文件的大小超过预设阈值,则触发分裂操作,并把所述StoreFile文件所处的当前Region分裂为两个独立的Region,新形成的两个Region会被分配到相应的RegionServer上。
7.如权利要求3所述的基于HBase的输电线路综合数据存储方法,其特征在于,所述RegionServer上还分布有一个实现预写日志的对象HLog;
当字节数组存入MemStore时,同时写入到所述HLog中,所述HLog定期删除已持久化到StoreFile中的字节数组所对应的旧文件并滚动出新文件;
当RegionServer意外终止后,则根据所述HLog进行不同Region的字节数组的拆分、重新分配,实现字节数组的恢复。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410454492.1A CN104216989B (zh) | 2014-09-09 | 2014-09-09 | 一种基于HBase的输电线路综合数据存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410454492.1A CN104216989B (zh) | 2014-09-09 | 2014-09-09 | 一种基于HBase的输电线路综合数据存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104216989A true CN104216989A (zh) | 2014-12-17 |
CN104216989B CN104216989B (zh) | 2018-05-08 |
Family
ID=52098479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410454492.1A Active CN104216989B (zh) | 2014-09-09 | 2014-09-09 | 一种基于HBase的输电线路综合数据存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104216989B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005617A (zh) * | 2015-07-21 | 2015-10-28 | 领航动力信息系统有限公司 | 一种时间序列数据的存储方法及装置 |
CN105023108A (zh) * | 2015-07-29 | 2015-11-04 | 中建材国际装备有限公司 | 一种对标数据的获取方法及系统 |
CN105187498A (zh) * | 2015-08-10 | 2015-12-23 | 携程计算机技术(上海)有限公司 | HBase表的Region分配方法及系统 |
CN105320755A (zh) * | 2015-10-14 | 2016-02-10 | 夏君 | 一种安全高速数据传输方法 |
CN106503166A (zh) * | 2016-10-31 | 2017-03-15 | 百度在线网络技术(北京)有限公司 | 数据存储方法和装置 |
CN107391765A (zh) * | 2017-09-01 | 2017-11-24 | 云南电网有限责任公司电力科学研究院 | 一种电网自然灾害数据仓库模型实现方法 |
CN107566785A (zh) * | 2017-08-02 | 2018-01-09 | 深圳微品时代网络技术有限公司 | 一种面向大数据的视频监控系统及方法 |
CN107832354A (zh) * | 2017-10-23 | 2018-03-23 | 珠海许继芝电网自动化有限公司 | 一种分布式缓存的配电网智能运维管控系统 |
CN108090219A (zh) * | 2014-12-24 | 2018-05-29 | 北京奇虎科技有限公司 | 数据库内置数据的处理方法及装置 |
CN108280170A (zh) * | 2018-01-19 | 2018-07-13 | 杭州博烁晟斐智能科技有限公司 | 一种通信铁塔故障维护数据库结构 |
CN108280449A (zh) * | 2018-02-06 | 2018-07-13 | 国网山西省电力公司电力科学研究院 | 基于多光谱传感器组的电力设备影像采集方法 |
CN110019528A (zh) * | 2017-12-26 | 2019-07-16 | 中国移动通信集团湖北有限公司 | 数据库操作负载均衡方法、装置、设备及介质 |
CN110019168A (zh) * | 2017-12-26 | 2019-07-16 | 浙江宇视科技有限公司 | 文件合并方法和系统 |
CN110059631A (zh) * | 2019-04-19 | 2019-07-26 | 中铁第一勘察设计院集团有限公司 | 接触网非接触式监测缺陷识别方法 |
CN110135273A (zh) * | 2019-04-19 | 2019-08-16 | 中铁第一勘察设计院集团有限公司 | 接触网视频图像云端智能监测与故障识别方法 |
CN112131216A (zh) * | 2020-07-31 | 2020-12-25 | 国电南瑞科技股份有限公司 | 一种基于物模型的输电线路自适应数据库创建方法及装置 |
CN112749153A (zh) * | 2020-12-30 | 2021-05-04 | 工业互联网创新中心(上海)有限公司 | 一种工业网络数据管理系统 |
CN112817958A (zh) * | 2021-02-25 | 2021-05-18 | 广东电网有限责任公司 | 电力规划数据采集方法、装置及智能终端 |
CN112988703A (zh) * | 2019-12-18 | 2021-06-18 | 中国移动通信集团四川有限公司 | 一种读写请求的均衡方法及装置 |
CN116345699A (zh) * | 2023-05-30 | 2023-06-27 | 国网湖北省电力有限公司 | 一种基于互联网的输电电路信息采集系统及采集方法 |
-
2014
- 2014-09-09 CN CN201410454492.1A patent/CN104216989B/zh active Active
Non-Patent Citations (1)
Title |
---|
于恒友等: "基于HBase的输电线路综合数据存储方案设计", 《电力科学与技术学报》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090219B (zh) * | 2014-12-24 | 2021-08-20 | 北京奇虎科技有限公司 | 数据库内置数据的处理方法及装置 |
CN108090219A (zh) * | 2014-12-24 | 2018-05-29 | 北京奇虎科技有限公司 | 数据库内置数据的处理方法及装置 |
CN105005617B (zh) * | 2015-07-21 | 2018-10-12 | 领航动力信息系统有限公司 | 一种时间序列数据的存储方法及装置 |
CN105005617A (zh) * | 2015-07-21 | 2015-10-28 | 领航动力信息系统有限公司 | 一种时间序列数据的存储方法及装置 |
CN105023108A (zh) * | 2015-07-29 | 2015-11-04 | 中建材国际装备有限公司 | 一种对标数据的获取方法及系统 |
CN105023108B (zh) * | 2015-07-29 | 2018-10-09 | 中建材智慧工业科技有限公司 | 一种对标数据的获取方法及系统 |
CN105187498B (zh) * | 2015-08-10 | 2018-05-08 | 携程计算机技术(上海)有限公司 | HBase表的Region分配方法及系统 |
CN105187498A (zh) * | 2015-08-10 | 2015-12-23 | 携程计算机技术(上海)有限公司 | HBase表的Region分配方法及系统 |
CN105320755A (zh) * | 2015-10-14 | 2016-02-10 | 夏君 | 一种安全高速数据传输方法 |
CN106503166A (zh) * | 2016-10-31 | 2017-03-15 | 百度在线网络技术(北京)有限公司 | 数据存储方法和装置 |
CN107566785A (zh) * | 2017-08-02 | 2018-01-09 | 深圳微品时代网络技术有限公司 | 一种面向大数据的视频监控系统及方法 |
CN107391765A (zh) * | 2017-09-01 | 2017-11-24 | 云南电网有限责任公司电力科学研究院 | 一种电网自然灾害数据仓库模型实现方法 |
CN107832354A (zh) * | 2017-10-23 | 2018-03-23 | 珠海许继芝电网自动化有限公司 | 一种分布式缓存的配电网智能运维管控系统 |
CN110019528A (zh) * | 2017-12-26 | 2019-07-16 | 中国移动通信集团湖北有限公司 | 数据库操作负载均衡方法、装置、设备及介质 |
CN110019168B (zh) * | 2017-12-26 | 2021-04-20 | 浙江宇视科技有限公司 | 文件合并方法和系统 |
CN110019168A (zh) * | 2017-12-26 | 2019-07-16 | 浙江宇视科技有限公司 | 文件合并方法和系统 |
CN108280170A (zh) * | 2018-01-19 | 2018-07-13 | 杭州博烁晟斐智能科技有限公司 | 一种通信铁塔故障维护数据库结构 |
CN108280449A (zh) * | 2018-02-06 | 2018-07-13 | 国网山西省电力公司电力科学研究院 | 基于多光谱传感器组的电力设备影像采集方法 |
CN110135273A (zh) * | 2019-04-19 | 2019-08-16 | 中铁第一勘察设计院集团有限公司 | 接触网视频图像云端智能监测与故障识别方法 |
CN110059631B (zh) * | 2019-04-19 | 2020-04-03 | 中铁第一勘察设计院集团有限公司 | 接触网非接触式监测缺陷识别方法 |
CN110059631A (zh) * | 2019-04-19 | 2019-07-26 | 中铁第一勘察设计院集团有限公司 | 接触网非接触式监测缺陷识别方法 |
CN112988703A (zh) * | 2019-12-18 | 2021-06-18 | 中国移动通信集团四川有限公司 | 一种读写请求的均衡方法及装置 |
CN112988703B (zh) * | 2019-12-18 | 2022-09-16 | 中国移动通信集团四川有限公司 | 一种读写请求的均衡方法及装置 |
CN112131216A (zh) * | 2020-07-31 | 2020-12-25 | 国电南瑞科技股份有限公司 | 一种基于物模型的输电线路自适应数据库创建方法及装置 |
CN112749153A (zh) * | 2020-12-30 | 2021-05-04 | 工业互联网创新中心(上海)有限公司 | 一种工业网络数据管理系统 |
CN112817958A (zh) * | 2021-02-25 | 2021-05-18 | 广东电网有限责任公司 | 电力规划数据采集方法、装置及智能终端 |
CN116345699A (zh) * | 2023-05-30 | 2023-06-27 | 国网湖北省电力有限公司 | 一种基于互联网的输电电路信息采集系统及采集方法 |
CN116345699B (zh) * | 2023-05-30 | 2023-08-08 | 国网湖北省电力有限公司 | 一种基于互联网的输电电路信息采集系统及采集方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104216989B (zh) | 2018-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104216989B (zh) | 一种基于HBase的输电线路综合数据存储方法 | |
CN106934014B (zh) | 一种基于Hadoop的网络数据挖掘与分析平台及其方法 | |
CN105069703B (zh) | 一种电网海量数据管理方法 | |
CN104820670B (zh) | 一种电力信息大数据的采集和存储方法 | |
Yang et al. | On construction of an energy monitoring service using big data technology for the smart campus | |
CN108446293A (zh) | 一种基于城市多源异构数据构建城市画像的方法 | |
CN108964996B (zh) | 城乡一体化信息栅格系统及基于其的信息共享方法 | |
CN107730394A (zh) | 基于大数据的全景电网多元异构数据融合方法 | |
Wang et al. | A flexible spatio-temporal indexing scheme for large-scale GPS track retrieval | |
CN102902813B (zh) | 日志收集系统 | |
CN105162627B (zh) | 发现与呈现网络应用访问信息的方法和系统 | |
CN109508363A (zh) | 基于gis的水利大数据服务平台及其工作方法 | |
CN109391629A (zh) | 轨道交通综合监控系统数据处理方法 | |
CN104486116A (zh) | 多维度查询流量数据的方法及系统 | |
CN102937984B (zh) | 一种收集数据的系统、客户端和方法 | |
CN107798062A (zh) | 一种变电站历史数据统一存储方法和系统 | |
CN106372256A (zh) | 一种面向海量Argo数据的分布式存储方法 | |
CN111949638A (zh) | 一种数据管理系统、方法及存储介质 | |
CN104298669A (zh) | 一种基于社交网络的人员地理信息挖掘模型 | |
Xianglan | Digital construction of coal mine big data for different platforms based on life cycle | |
CN109446167A (zh) | 一种日志数据存储、提取方法及装置 | |
CN109189873A (zh) | 一种气象服务大数据监测分析系统平台 | |
St-Hilaire et al. | Geocoding and mapping historical census data: The geographical component of the Canadian Century Research Infrastructure | |
Wu et al. | Research on data sharing architecture for ecological monitoring using Iot streaming data | |
CN110377757A (zh) | 一种实时知识图谱构建系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |