CN105740410A - 一种基于Hbase二级索引的数据统计方法 - Google Patents
一种基于Hbase二级索引的数据统计方法 Download PDFInfo
- Publication number
- CN105740410A CN105740410A CN201610062000.3A CN201610062000A CN105740410A CN 105740410 A CN105740410 A CN 105740410A CN 201610062000 A CN201610062000 A CN 201610062000A CN 105740410 A CN105740410 A CN 105740410A
- Authority
- CN
- China
- Prior art keywords
- data
- hbase
- secondary index
- startrow
- data statistics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种基于Hbase二级索引的数据统计方法,涉及一种大数据统计的技术,1)通过Coprocessor的Observer模式,在Hbase新增数据时,实时创建该表的二级索引数据,格式为Date_TableName_RowKey;2)将时间作为StartRow与StartRow,书写MR任务,进行数据统计,并删除7日之前的所有索引数据;3)通过crontab设置定时任务,每日自动执行进行数据统计。本方法有着环境易搭建、数据统计及时、准确并且拥有良好的可扩展性。
Description
技术领域
本发明涉及一种大数据统计的技术,尤其涉及一种基于Hbase二级索引的数据统计方法。
背景技术
随着信息数据量的几何增长,Hbase表数据量越来越大,对数据进行各个维度的统计的难度也随之变大。目前传统是通过写MapReduce或者使用Hive、Pig等工具的方法,传统方法均是对全表进行扫描,对集群性能消耗与网络带宽的占用较大,在超大规模数据量的场景下不适用。仅仅靠升级物理硬件或者优化代码,已经不能适应信息的增长速度和信息处理效率的需求,研究者开始探索新的数据统计方法。如何解决此问题成为难点。
发明内容
为了解决该问题,本发明提出了一种基于Hbase二级索引的数据统计方法,在对Hadoop集群不造成较大压力的情况下,对Hbase数据库的每日新增数据与总量进行统计;本方法具有如下特点:1)二级索引表创建简易2)索引文件与数据文件同时写入,保证一致性3)数据统计时间大大减少。
本发明的技术方案是:
一种基于Hbase二级索引的数据统计方法,具体步骤为:
1)通过Coprocessor的Observer模式,在Hbase新增数据时,实时创建该表的二级索引数据,格式为Date_TableName_RowKey;
2)将时间作为StartRow与StartRow,书写MR任务,进行数据统计,并删除7日之前的所有索引数据;
3)通过crontab设置定时任务,每日自动执行进行数据统计。
所述的步骤1)中,通过Coprocessor的Observer模式,在Hbase新增数据时,实时创建该表的二级索引数据,格式为Date_TableName_RowKey。使协处理器与业务进行有机结合。
所述的步骤2)中,将时间作为StartRow与StartRow,书写MR任务,进行数据统计,并删除7日之前的所有索引数据。通过MapReduce的分布式处理优势,快速处理数据,并清除掉无用数据以减轻集群存储压力。
本发明的有益效果:
通过Hbase二级索引的引入,每次的数据操作,仅仅是寥寥几个Region,从根本上减小了集群的压力,减轻了网络通信的负担,使对高性能服务器的依赖性降低,增强了工作的效率和稳定性,且拥有较好的可扩展性,具有很好的推广使用价值。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
一种基于Hbase二级索引的数据统计方法,
i.建立二级索引表。
ii.通过Coprocessor的Observer模式,在Hbase新增数据时,实时创建该表的二级索引数据,格式为Date_TableName_RowKey。
iii.将时间作为StartRow与StartRow,书写MR任务,进行数据统计,并删除7日之前的所有索引数据。
iv.通过crontab设置定时任务,每日自动执行进行数据统计。
本发明解决了两个主要的问题:1)运行MapReduce任务时,扫描全表对集群造成较大压力并消耗较多时间;2)当数据量较大时,MapReduce任务将过度占用网络带宽,可能对正常网络通信产生较大影响。通过使用Hbase二级索引技术,对索引表,参照业务时间设置Scan的setStartRow、setStopRow两个属性,扫描出所需数据,进而开始计数统计,此举使操作集中在某几个Region上而不是整个集群上,可较大程度的减轻集群压力。
Claims (3)
1.一种基于Hbase二级索引的数据统计方法,其特征在于,具体步骤为:
1)通过Coprocessor的Observer模式,在Hbase新增数据时,实时创建该表的二级索引数据,格式为Date_TableName_RowKey;
2)将时间作为StartRow与StartRow,书写MR任务,进行数据统计,并删除7日之前的所有索引数据;
3)通过crontab设置定时任务,每日自动执行进行数据统计。
2.根据权利要求1所述的基于Hbase二级索引的数据统计方法,其特征在于,所述的步骤1)中,通过Coprocessor的Observer模式,在Hbase新增数据时,实时创建该表的二级索引数据,格式为Date_TableName_RowKey,使协处理器与业务进行有机结合。
3.根据权利要求1所述的针对基于Hbase二级索引的数据统计方法,其特征在于,所述的步骤2)中,将时间作为StartRow与StartRow,书写MR任务,进行数据统计,并删除7日之前的所有索引数据是以通过MapReduce的分布式处理优势,快速处理数据,并清除掉无用数据以减轻集群存储压力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610062000.3A CN105740410A (zh) | 2016-01-29 | 2016-01-29 | 一种基于Hbase二级索引的数据统计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610062000.3A CN105740410A (zh) | 2016-01-29 | 2016-01-29 | 一种基于Hbase二级索引的数据统计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105740410A true CN105740410A (zh) | 2016-07-06 |
Family
ID=56247027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610062000.3A Pending CN105740410A (zh) | 2016-01-29 | 2016-01-29 | 一种基于Hbase二级索引的数据统计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105740410A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294814A (zh) * | 2016-08-16 | 2017-01-04 | 上海欣方软件有限公司 | 基于内存数据库的HBase二级索引构建与查询的装置及方法 |
CN106326374A (zh) * | 2016-08-15 | 2017-01-11 | 北京集奥聚合科技有限公司 | 一种从HBase中增量抽取数据的方法及系统 |
CN106570126A (zh) * | 2016-11-02 | 2017-04-19 | 北京集奥聚合科技有限公司 | 一种收集HBase热点数据块信息的方法及系统 |
CN106649461A (zh) * | 2016-09-26 | 2017-05-10 | 浪潮电子信息产业股份有限公司 | 一种自动化清理维护ElasticSearch日志索引文件的方法 |
CN106777343A (zh) * | 2017-01-16 | 2017-05-31 | 百融(北京)金融信息服务股份有限公司 | 增量分布式索引系统和方法 |
CN107463637A (zh) * | 2016-09-21 | 2017-12-12 | 广州特道信息科技有限公司 | 一种分布式NewSQL数据库系统和数据储存方法 |
CN108153805A (zh) * | 2017-11-17 | 2018-06-12 | 广东睿江云计算股份有限公司 | 一种高效清理Hbase时序数据的方法、系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279855A1 (en) * | 2013-03-15 | 2014-09-18 | International Business Machines Corporation | Differentiated secondary index maintenance in log structured nosql data stores |
CN104112013A (zh) * | 2014-07-17 | 2014-10-22 | 浪潮(北京)电子信息产业有限公司 | HBase二级索引方法及装置 |
-
2016
- 2016-01-29 CN CN201610062000.3A patent/CN105740410A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279855A1 (en) * | 2013-03-15 | 2014-09-18 | International Business Machines Corporation | Differentiated secondary index maintenance in log structured nosql data stores |
CN104112013A (zh) * | 2014-07-17 | 2014-10-22 | 浪潮(北京)电子信息产业有限公司 | HBase二级索引方法及装置 |
Non-Patent Citations (1)
Title |
---|
平利强: "基于云计算的海量时空数据存储及挖掘方法的研究和应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326374A (zh) * | 2016-08-15 | 2017-01-11 | 北京集奥聚合科技有限公司 | 一种从HBase中增量抽取数据的方法及系统 |
CN106294814A (zh) * | 2016-08-16 | 2017-01-04 | 上海欣方软件有限公司 | 基于内存数据库的HBase二级索引构建与查询的装置及方法 |
CN106294814B (zh) * | 2016-08-16 | 2019-09-20 | 上海欣方软件有限公司 | 基于内存数据库的HBase二级索引构建与查询的装置及方法 |
CN107463637A (zh) * | 2016-09-21 | 2017-12-12 | 广州特道信息科技有限公司 | 一种分布式NewSQL数据库系统和数据储存方法 |
CN106649461A (zh) * | 2016-09-26 | 2017-05-10 | 浪潮电子信息产业股份有限公司 | 一种自动化清理维护ElasticSearch日志索引文件的方法 |
CN106570126A (zh) * | 2016-11-02 | 2017-04-19 | 北京集奥聚合科技有限公司 | 一种收集HBase热点数据块信息的方法及系统 |
CN106777343A (zh) * | 2017-01-16 | 2017-05-31 | 百融(北京)金融信息服务股份有限公司 | 增量分布式索引系统和方法 |
CN108153805A (zh) * | 2017-11-17 | 2018-06-12 | 广东睿江云计算股份有限公司 | 一种高效清理Hbase时序数据的方法、系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105740410A (zh) | 一种基于Hbase二级索引的数据统计方法 | |
CN110209728B (zh) | 一种分布式异构数据库同步方法、电子设备及存储介质 | |
US9047330B2 (en) | Index compression in databases | |
CN109857803B (zh) | 数据同步方法、装置、设备、系统及计算机可读存储介质 | |
CN105975502A (zh) | 一种基于cdc方式实现增量抽取数据的方法 | |
CN107025242A (zh) | 数据库间数据的复制方法及装置 | |
CN108536745A (zh) | 基于Shell的数据表提取方法、终端、设备及存储介质 | |
CN104850611A (zh) | 一种使用kettle从关系型数据库向非关系型数据库定时增量更新数据的方法 | |
CN104572505A (zh) | 一种保证海量数据缓存最终一致性的系统及方法 | |
CN106919697B (zh) | 一种将数据同时导入多个Hadoop组件的方法 | |
CN104239470A (zh) | 一种面向分布式环境的空间数据复合处理系统和方法 | |
US8600990B2 (en) | Interacting methods of data extraction | |
CN102136004B (zh) | 工作流系统中业务的获取方法 | |
CN106055646A (zh) | 一种并发哈希表的无锁操作方法 | |
CN105653680A (zh) | 一种基于文档型数据库的存储数据的方法及系统 | |
CN104731716A (zh) | 一种数据存储方法 | |
CN106599113A (zh) | 用于网管系统海量性能数据的数据库读写方法 | |
CN116226086A (zh) | 一种数据迁移过程中分段数据的顺序维护与校验方法 | |
CN104794129A (zh) | 一种基于查询日志的数据处理方法和系统 | |
CN107656992B (zh) | 面向多插入源的快照版本管理方法 | |
WO2016169322A1 (zh) | 数据库的查询方法和装置、计算机存储介质 | |
CN106096824B (zh) | 一种主配网一体化图形资源共享方法 | |
CN109063201B (zh) | 一种基于混合存储方案的impala在线交互式查询方法 | |
CN104376054B (zh) | 一种持久化实例对象的处理方法及装置 | |
CN103744899A (zh) | 一种基于分布式环境的海量数据快速分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160706 |
|
RJ01 | Rejection of invention patent application after publication |