CN105740410A - 一种基于Hbase二级索引的数据统计方法 - Google Patents

一种基于Hbase二级索引的数据统计方法 Download PDF

Info

Publication number
CN105740410A
CN105740410A CN201610062000.3A CN201610062000A CN105740410A CN 105740410 A CN105740410 A CN 105740410A CN 201610062000 A CN201610062000 A CN 201610062000A CN 105740410 A CN105740410 A CN 105740410A
Authority
CN
China
Prior art keywords
data
hbase
secondary index
startrow
data statistics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610062000.3A
Other languages
English (en)
Inventor
牛硕
周正德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201610062000.3A priority Critical patent/CN105740410A/zh
Publication of CN105740410A publication Critical patent/CN105740410A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于Hbase二级索引的数据统计方法,涉及一种大数据统计的技术,1)通过Coprocessor的Observer模式,在Hbase新增数据时,实时创建该表的二级索引数据,格式为Date_TableName_RowKey;2)将时间作为StartRow与StartRow,书写MR任务,进行数据统计,并删除7日之前的所有索引数据;3)通过crontab设置定时任务,每日自动执行进行数据统计。本方法有着环境易搭建、数据统计及时、准确并且拥有良好的可扩展性。

Description

一种基于Hbase二级索引的数据统计方法
技术领域
本发明涉及一种大数据统计的技术,尤其涉及一种基于Hbase二级索引的数据统计方法。
背景技术
随着信息数据量的几何增长,Hbase表数据量越来越大,对数据进行各个维度的统计的难度也随之变大。目前传统是通过写MapReduce或者使用Hive、Pig等工具的方法,传统方法均是对全表进行扫描,对集群性能消耗与网络带宽的占用较大,在超大规模数据量的场景下不适用。仅仅靠升级物理硬件或者优化代码,已经不能适应信息的增长速度和信息处理效率的需求,研究者开始探索新的数据统计方法。如何解决此问题成为难点。
发明内容
为了解决该问题,本发明提出了一种基于Hbase二级索引的数据统计方法,在对Hadoop集群不造成较大压力的情况下,对Hbase数据库的每日新增数据与总量进行统计;本方法具有如下特点:1)二级索引表创建简易2)索引文件与数据文件同时写入,保证一致性3)数据统计时间大大减少。
本发明的技术方案是:
一种基于Hbase二级索引的数据统计方法,具体步骤为:
1)通过Coprocessor的Observer模式,在Hbase新增数据时,实时创建该表的二级索引数据,格式为Date_TableName_RowKey;
2)将时间作为StartRow与StartRow,书写MR任务,进行数据统计,并删除7日之前的所有索引数据;
3)通过crontab设置定时任务,每日自动执行进行数据统计。
所述的步骤1)中,通过Coprocessor的Observer模式,在Hbase新增数据时,实时创建该表的二级索引数据,格式为Date_TableName_RowKey。使协处理器与业务进行有机结合。
所述的步骤2)中,将时间作为StartRow与StartRow,书写MR任务,进行数据统计,并删除7日之前的所有索引数据。通过MapReduce的分布式处理优势,快速处理数据,并清除掉无用数据以减轻集群存储压力。
本发明的有益效果:
通过Hbase二级索引的引入,每次的数据操作,仅仅是寥寥几个Region,从根本上减小了集群的压力,减轻了网络通信的负担,使对高性能服务器的依赖性降低,增强了工作的效率和稳定性,且拥有较好的可扩展性,具有很好的推广使用价值。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
一种基于Hbase二级索引的数据统计方法,
i.建立二级索引表。
ii.通过Coprocessor的Observer模式,在Hbase新增数据时,实时创建该表的二级索引数据,格式为Date_TableName_RowKey。
iii.将时间作为StartRow与StartRow,书写MR任务,进行数据统计,并删除7日之前的所有索引数据。
iv.通过crontab设置定时任务,每日自动执行进行数据统计。
本发明解决了两个主要的问题:1)运行MapReduce任务时,扫描全表对集群造成较大压力并消耗较多时间;2)当数据量较大时,MapReduce任务将过度占用网络带宽,可能对正常网络通信产生较大影响。通过使用Hbase二级索引技术,对索引表,参照业务时间设置Scan的setStartRow、setStopRow两个属性,扫描出所需数据,进而开始计数统计,此举使操作集中在某几个Region上而不是整个集群上,可较大程度的减轻集群压力。

Claims (3)

1.一种基于Hbase二级索引的数据统计方法,其特征在于,具体步骤为:
1)通过Coprocessor的Observer模式,在Hbase新增数据时,实时创建该表的二级索引数据,格式为Date_TableName_RowKey;
2)将时间作为StartRow与StartRow,书写MR任务,进行数据统计,并删除7日之前的所有索引数据;
3)通过crontab设置定时任务,每日自动执行进行数据统计。
2.根据权利要求1所述的基于Hbase二级索引的数据统计方法,其特征在于,所述的步骤1)中,通过Coprocessor的Observer模式,在Hbase新增数据时,实时创建该表的二级索引数据,格式为Date_TableName_RowKey,使协处理器与业务进行有机结合。
3.根据权利要求1所述的针对基于Hbase二级索引的数据统计方法,其特征在于,所述的步骤2)中,将时间作为StartRow与StartRow,书写MR任务,进行数据统计,并删除7日之前的所有索引数据是以通过MapReduce的分布式处理优势,快速处理数据,并清除掉无用数据以减轻集群存储压力。
CN201610062000.3A 2016-01-29 2016-01-29 一种基于Hbase二级索引的数据统计方法 Pending CN105740410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610062000.3A CN105740410A (zh) 2016-01-29 2016-01-29 一种基于Hbase二级索引的数据统计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610062000.3A CN105740410A (zh) 2016-01-29 2016-01-29 一种基于Hbase二级索引的数据统计方法

Publications (1)

Publication Number Publication Date
CN105740410A true CN105740410A (zh) 2016-07-06

Family

ID=56247027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610062000.3A Pending CN105740410A (zh) 2016-01-29 2016-01-29 一种基于Hbase二级索引的数据统计方法

Country Status (1)

Country Link
CN (1) CN105740410A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294814A (zh) * 2016-08-16 2017-01-04 上海欣方软件有限公司 基于内存数据库的HBase二级索引构建与查询的装置及方法
CN106326374A (zh) * 2016-08-15 2017-01-11 北京集奥聚合科技有限公司 一种从HBase中增量抽取数据的方法及系统
CN106570126A (zh) * 2016-11-02 2017-04-19 北京集奥聚合科技有限公司 一种收集HBase热点数据块信息的方法及系统
CN106649461A (zh) * 2016-09-26 2017-05-10 浪潮电子信息产业股份有限公司 一种自动化清理维护ElasticSearch日志索引文件的方法
CN106777343A (zh) * 2017-01-16 2017-05-31 百融(北京)金融信息服务股份有限公司 增量分布式索引系统和方法
CN107463637A (zh) * 2016-09-21 2017-12-12 广州特道信息科技有限公司 一种分布式NewSQL数据库系统和数据储存方法
CN108153805A (zh) * 2017-11-17 2018-06-12 广东睿江云计算股份有限公司 一种高效清理Hbase时序数据的方法、系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279855A1 (en) * 2013-03-15 2014-09-18 International Business Machines Corporation Differentiated secondary index maintenance in log structured nosql data stores
CN104112013A (zh) * 2014-07-17 2014-10-22 浪潮(北京)电子信息产业有限公司 HBase二级索引方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279855A1 (en) * 2013-03-15 2014-09-18 International Business Machines Corporation Differentiated secondary index maintenance in log structured nosql data stores
CN104112013A (zh) * 2014-07-17 2014-10-22 浪潮(北京)电子信息产业有限公司 HBase二级索引方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
平利强: "基于云计算的海量时空数据存储及挖掘方法的研究和应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326374A (zh) * 2016-08-15 2017-01-11 北京集奥聚合科技有限公司 一种从HBase中增量抽取数据的方法及系统
CN106294814A (zh) * 2016-08-16 2017-01-04 上海欣方软件有限公司 基于内存数据库的HBase二级索引构建与查询的装置及方法
CN106294814B (zh) * 2016-08-16 2019-09-20 上海欣方软件有限公司 基于内存数据库的HBase二级索引构建与查询的装置及方法
CN107463637A (zh) * 2016-09-21 2017-12-12 广州特道信息科技有限公司 一种分布式NewSQL数据库系统和数据储存方法
CN106649461A (zh) * 2016-09-26 2017-05-10 浪潮电子信息产业股份有限公司 一种自动化清理维护ElasticSearch日志索引文件的方法
CN106570126A (zh) * 2016-11-02 2017-04-19 北京集奥聚合科技有限公司 一种收集HBase热点数据块信息的方法及系统
CN106777343A (zh) * 2017-01-16 2017-05-31 百融(北京)金融信息服务股份有限公司 增量分布式索引系统和方法
CN108153805A (zh) * 2017-11-17 2018-06-12 广东睿江云计算股份有限公司 一种高效清理Hbase时序数据的方法、系统

Similar Documents

Publication Publication Date Title
CN105740410A (zh) 一种基于Hbase二级索引的数据统计方法
CN110209728B (zh) 一种分布式异构数据库同步方法、电子设备及存储介质
US9047330B2 (en) Index compression in databases
CN109857803B (zh) 数据同步方法、装置、设备、系统及计算机可读存储介质
CN105975502A (zh) 一种基于cdc方式实现增量抽取数据的方法
CN107025242A (zh) 数据库间数据的复制方法及装置
CN108536745A (zh) 基于Shell的数据表提取方法、终端、设备及存储介质
CN104850611A (zh) 一种使用kettle从关系型数据库向非关系型数据库定时增量更新数据的方法
CN104572505A (zh) 一种保证海量数据缓存最终一致性的系统及方法
CN106919697B (zh) 一种将数据同时导入多个Hadoop组件的方法
CN104239470A (zh) 一种面向分布式环境的空间数据复合处理系统和方法
US8600990B2 (en) Interacting methods of data extraction
CN102136004B (zh) 工作流系统中业务的获取方法
CN106055646A (zh) 一种并发哈希表的无锁操作方法
CN105653680A (zh) 一种基于文档型数据库的存储数据的方法及系统
CN104731716A (zh) 一种数据存储方法
CN106599113A (zh) 用于网管系统海量性能数据的数据库读写方法
CN116226086A (zh) 一种数据迁移过程中分段数据的顺序维护与校验方法
CN104794129A (zh) 一种基于查询日志的数据处理方法和系统
CN107656992B (zh) 面向多插入源的快照版本管理方法
WO2016169322A1 (zh) 数据库的查询方法和装置、计算机存储介质
CN106096824B (zh) 一种主配网一体化图形资源共享方法
CN109063201B (zh) 一种基于混合存储方案的impala在线交互式查询方法
CN104376054B (zh) 一种持久化实例对象的处理方法及装置
CN103744899A (zh) 一种基于分布式环境的海量数据快速分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160706

RJ01 Rejection of invention patent application after publication