CN110297827A - 一种集合Lucene和Hbase的电力数据检索系统 - Google Patents

一种集合Lucene和Hbase的电力数据检索系统 Download PDF

Info

Publication number
CN110297827A
CN110297827A CN201910469141.0A CN201910469141A CN110297827A CN 110297827 A CN110297827 A CN 110297827A CN 201910469141 A CN201910469141 A CN 201910469141A CN 110297827 A CN110297827 A CN 110297827A
Authority
CN
China
Prior art keywords
cluster
data
hbase
lucene
electric power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910469141.0A
Other languages
English (en)
Inventor
郭乃网
吴力波
周阳
马戎
施政昱
陈伟
苏运
田英杰
瞿海妮
张琪祁
时志雄
宋岩
庞天宇
沈泉江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
State Grid Shanghai Electric Power Co Ltd
Original Assignee
Fudan University
State Grid Shanghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University, State Grid Shanghai Electric Power Co Ltd filed Critical Fudan University
Priority to CN201910469141.0A priority Critical patent/CN110297827A/zh
Publication of CN110297827A publication Critical patent/CN110297827A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种集合Lucene和Hbase的电力数据检索系统,该系统包括HBase集群、Lucene集群和设于二者之间的协处理器,根据项目对时间的需求,所述的Lucene集群作为第一层检索单元存储30*24小时内的数据,并存储对该时间段内的数据建立的索引,所述的HBase集群作为第二层检索单元,存储335*24小时内的数据以及HBase对该时间段历史数据建立的二级索引,客户端根据查询条件将实时数据发送至Lucene集群,并将历史数据发送至HBase集群,Lucene集群将过期数据迁移至协处理器,协处理器将二级索引及过期数据发送至HBase集群,经过计算、处理后,Lucene集群、HBase集群输出检索返回结果到客户端。与现有技术相比,本发明可提高检索日志数据的实时性。

Description

一种集合Lucene和Hbase的电力数据检索系统
技术领域
本发明涉及电力数据检索技术领域,尤其是涉及一种集合Lucene和Hbase的电力数据检索系统。
背景技术
数据存储环节实现对数据的分布式存储。原则上,采集量测数据存入大数据平台分布式列式数据数据库(HBase)中,并将近期数据(当前半天或者一天内)缓存在大数据平台分布式内存数据库中,便于对于实时性要求较高的应用进行处理。
在现有的存储机制中,HBase以Key-Value的形式存储大规模数据的高可靠、可伸缩性能要高于Lucene,但无法像Lucene一样对于中等数据量也具有良好的存储及全文检索性能。电力数据检索若想要进行可视化展示或者进行数据预测,检索日志数据需要高实时性,现有的检索系统的实时性较差,且时间成本较高。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种集合Lucene和Hbase的电力数据检索系统。
本发明的目的可以通过以下技术方案来实现:
一种集合Lucene和Hbase的电力数据检索系统,包括HBase集群、Lucene集群和设于二者之间的协处理器,根据项目对时间的需求,所述的Lucene集群作为第一层检索单元存储30*24小时内的数据,并存储对该时间段内的数据建立的索引,所述的HBase集群作为第二层检索单元,存储335*24小时内的数据以及HBase对该时间段历史数据建立的二级索引。
当Lucene集群的数据过期时,该数据作为历史数据移入HBase集群,HBase集群更新二级索引,当HBase集群的数据过期时,HBase集群自动删除并更新自身二级索引,若有新数据输入,新数据插入Lucene集群中,且Lucene集群更新自身索引。
该系统的使用流程为:
客户端根据查询条件将实时数据发送至Lucene集群,并将历史数据发送至HBase集群,Lucene集群将过期数据迁移至协处理器,协处理器将二级索引及过期数据发送至HBase集群,经过计算、处理后,Lucene集群、HBase集群输出检索返回结果到客户端。
该系统采用Impala和Hive两个检索工具。
优选地,所述的Impala采用商用并行关系数据库中的分布式查询引擎,该引擎包括Query Exec Engine、Query Coordinator和Query Planner。
与现有技术相比,本发明将HBase集群与Lucene集群结合进行优劣互补,结合项目需求及具体细节,若进行可视化展示或者做数据预测,可提高检索日志数据的实时性,为后续数据计算以及进行可视化展示节约时间。
附图说明
图1为本发明系统的数据检索引擎架构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
如图1所示,本发明涉及一种集合Lucene和Hbase的电力数据检索系统,包括Lucene集群和HBase集群。
本发明的存储引擎改进就是基于HBase与Lucene结合(称之为LBase存储引擎)的方式对二级索引对检索流程进行优化。数据检索引擎架构如图1所示。客户端根据查询条件将实时数据发送至Lucene集群,并将历史数据发送至HBase集群。Lucene集群将过期数据迁移至协处理器,协处理器将二级索引及过期数据发送至HBase集群。经过计算、处理后,Lucene集群、HBase集群输出检索返回结果到客户端。
本发明的检索架构中有两个主要部分,一个是第一层Lucene用来存储两部分数据:(1)根据项目对时间的需求,存储30*24小时内的数据,因为最新的数据具有更大的被检索的可能性;2、Lucene对该30*24小时内的数据建立的索引。HBase中存储两部分数据:335*24小时内的数据和HBase对该时间段历史数据建立的二级索引。当Lucene数据过期时,会被当做历史数据移入HBase,HBase会更新二级索引,由于HBase有较好的数据更新功能,所以即便索引数据较大时,也不会占用过多资源而对整个引擎性能造成更大的影响;当HBase数据过期时,会被HBase自动删除并更新自身二级索引。新数据只会插入Lucene中,当有新数据插入时,Lucene更新自身索引。
为了更好的支持SQL语句在LBase存储引擎中的使用,本发明将在LBase存储引擎中添加Impala和Hive两个检索工具。采取二者结合的方式在优化性能上面是因为,Impala通过使用商用并行关系数据库中类似的分布式查询引擎(由Query Exec Engine查询执行引擎、Query Coordinator查询协调器、Query Planner查询计划程序三部分组成),可以直接从HBase中使用统计函数、JOIN以及SELECT查询数据,从而保证其实时交互性,与Hive相比突出实时带来的交互性。Impala与Hive相比:它为每次查询生成一个执行计划树,在分配执行计划后,Impala使用拉取数据的方式获取结果,后续节点通过getNext函数方法主动向前面节点拉取数据,再将结果数据汇集成执行计划树流式返回给客户端,且只要有一条数据被处理完就会被立即展示出来,而非等全部数据处理完成,省略了将中间结果写入外存的步骤以及再次从磁盘读取数据的开销,更加符合SQL交互式查询的特性。Impala使用服务的方式避免每次执行查询的MapReduce启动时间。对于项目有一部分需求是,用户要求查看可视化后的实时的数据计算值时,此时查询数据量小,直接使用Impala会具有较快的反馈。但Impala具有较严格的容错机制,查询失败直接返回错误信息,严重的会直接丢失此次查询。
本发明系统将HBase与Lucene结合是对其进行优劣的互补,结合项目需求及具体细节,如果进行可视化展示或者做数据预测的话,检索日志数据需要高实时性,为后续数据计算以及进行可视化展示节约时间。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (5)

1.一种集合Lucene和Hbase的电力数据检索系统,其特征在于,该系统包括HBase集群、Lucene集群和设于二者之间的协处理器,根据项目对时间的需求,所述的Lucene集群作为第一层检索单元存储30*24小时内的数据,并存储对该时间段内的数据建立的索引,所述的HBase集群作为第二层检索单元,存储335*24小时内的数据以及HBase对该时间段历史数据建立的二级索引。
2.根据权利要求1所述的一种集合Lucene和Hbase的电力数据检索系统,其特征在于,当Lucene集群的数据过期时,该数据作为历史数据移入HBase集群,HBase集群更新二级索引,当HBase集群的数据过期时,HBase集群自动删除并更新自身二级索引,若有新数据输入,新数据插入Lucene集群中,且Lucene集群更新自身索引。
3.根据权利要求2所述的一种集合Lucene和Hbase的电力数据检索系统,其特征在于,该系统的使用流程为:
客户端根据查询条件将实时数据发送至Lucene集群,并将历史数据发送至HBase集群,Lucene集群将过期数据迁移至协处理器,协处理器将二级索引及过期数据发送至HBase集群,经过计算、处理后,Lucene集群、HBase集群输出检索返回结果到客户端。
4.根据权利要求1所述的一种集合Lucene和Hbase的电力数据检索系统,其特征在于,该系统采用Impala和Hive两个检索工具。
5.根据权利要求4所述的一种集合Lucene和Hbase的电力数据检索系统,其特征在于,所述的Impala采用商用并行关系数据库中的分布式查询引擎,该引擎包括Query ExecEngine、Query Coordinator和Query Planner。
CN201910469141.0A 2019-05-31 2019-05-31 一种集合Lucene和Hbase的电力数据检索系统 Pending CN110297827A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910469141.0A CN110297827A (zh) 2019-05-31 2019-05-31 一种集合Lucene和Hbase的电力数据检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910469141.0A CN110297827A (zh) 2019-05-31 2019-05-31 一种集合Lucene和Hbase的电力数据检索系统

Publications (1)

Publication Number Publication Date
CN110297827A true CN110297827A (zh) 2019-10-01

Family

ID=68027428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910469141.0A Pending CN110297827A (zh) 2019-05-31 2019-05-31 一种集合Lucene和Hbase的电力数据检索系统

Country Status (1)

Country Link
CN (1) CN110297827A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078731A (zh) * 2019-11-25 2020-04-28 国网冀北电力有限公司 基于Hbase的电网运行数据协同查询方法、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140195558A1 (en) * 2013-01-07 2014-07-10 Raghotham Murthy System and method for distributed database query engines
CN106682073A (zh) * 2016-11-14 2017-05-17 上海轻维软件有限公司 基于ElasticSearch的HBase模糊检索系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140195558A1 (en) * 2013-01-07 2014-07-10 Raghotham Murthy System and method for distributed database query engines
CN106682073A (zh) * 2016-11-14 2017-05-17 上海轻维软件有限公司 基于ElasticSearch的HBase模糊检索系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛荷: "大数据存储优化及快速检索技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078731A (zh) * 2019-11-25 2020-04-28 国网冀北电力有限公司 基于Hbase的电网运行数据协同查询方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109299102B (zh) 一种基于Elastcisearch的HBase二级索引系统及方法
US10289718B2 (en) Partition access method for query optimization
CN104090889B (zh) 数据处理方法及系统
CN109726174A (zh) 数据归档方法、系统、设备以及存储介质
CN103246749B (zh) 面向分布式计算的矩阵数据库系统及其查询方法
CN110196871A (zh) 数据入库方法和系统
CN102722582B (zh) 基于逆向清理的数据整合系统及方法
CN110162528A (zh) 海量大数据检索方法及系统
CN111258978B (zh) 一种数据存储的方法
CN103561133A (zh) 一种ip地址归属信息索引方法及快速查询方法
CN109947729B (zh) 一种实时数据分析方法及装置
CN103617276A (zh) 一种分布式层次化的rdf数据的存储方法
CN105138679A (zh) 一种基于分布式缓存的数据处理系统及处理方法
US20140229427A1 (en) Database management delete efficiency
CN105405070A (zh) 一种分布式内存电网系统构建方法
CN104731969A (zh) 分布式环境下海量数据连接聚集查询方法、装置和系统
CN116048817B (zh) 数据处理控制方法、装置、计算机设备和存储介质
CN114610588A (zh) 一种数据库性能分析方法、装置、电子设备和存储介质
CN105550332A (zh) 一种基于双层索引结构的起源图查询方法
CN105138676A (zh) 基于高级语言并发聚合计算的分库分表merge查询方法
CN115017159A (zh) 数据处理方法及装置、存储介质及电子设备
CN110297827A (zh) 一种集合Lucene和Hbase的电力数据检索系统
US20160125095A1 (en) Lightweight temporal graph management engine
KR101955376B1 (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
WO2015049734A1 (ja) 検索システム及び検索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191001