CN111061725B - 一种可进行大量数据处理的存储结构 - Google Patents
一种可进行大量数据处理的存储结构 Download PDFInfo
- Publication number
- CN111061725B CN111061725B CN201911102683.0A CN201911102683A CN111061725B CN 111061725 B CN111061725 B CN 111061725B CN 201911102683 A CN201911102683 A CN 201911102683A CN 111061725 B CN111061725 B CN 111061725B
- Authority
- CN
- China
- Prior art keywords
- data
- database
- hbase
- storage structure
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001939 inductive effect Effects 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 10
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000007418 data mining Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 abstract description 2
- 238000013179 statistical model Methods 0.000 abstract 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000010485 coping Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/289—Object oriented databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于大数据存储技术领域,尤其是涉及一种可进行大量数据处理的存储结构,包括列数据库,所述大量数据来源多个系统,且数据可能是文件、可能是其他关系型数据库中的交易数据,所述列数据库需要多个维度建立数据统计模型,且存储的数据来自于历史的,存档的,归纳的和计算的数据,所述列数据库需要访问大量的记录才能统计出结果,所述列数据库更新数据很少并且都是添加数据和查询数据。本发明提出一个新的思路来解决线上业务能够在服务非常大量用户的同时,具体的,利用分布式列式数据库和SSD硬盘对业务场景进行优化,在提升服务性能的同时,降低硬件使用成本。
Description
技术领域
本发明涉及大数据存储技术领域,尤其涉及一种可进行大量数据处理的存储结构。
背景技术
线上服务对于响应的延迟是十分敏感的,任何过长的查询或操作时间,都会导致服务使用的体验严重下降,并造成用户的流失。然而随着目前业务的扩展,数据量越来越大,传统的关系型数据库很难再满足日益增长的需求,所以需要使用一种更加现代和新型的存储模型。
此时列式数据库在应对上述的情况时,能够在非常大量的数据时,依然通过主键能够提供性能远远大于传统关系型数据库的行式结构。
本文提出一个新的思路来解决线上业务能够在服务非常大量用户的同时,提供低延迟的服务并且控制整体成本。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种可进行大量数据处理的存储结构。
为了实现上述目的,本发明采用了如下技术方案:
一种可进行大量数据处理的存储结构,包括列数据库,所述大量数据来源多个系统,且数据可能是文件、可能是其他关系型数据库中的交易数据,所述列数据库需要多个维度建立数据统计模型,且存储的数据来自于历史的,存档的,归纳的和计算的数据,所述列数据库需要访问大量的记录才能统计出结果,所述列数据库更新数据很少并且都是添加数据和查询数据;
大量数据在存储时的方法大致包括以下步骤:
A1、选用优秀的数据库工具,并选用HBase X-Pack分布式列式数据库;
A2、对海量数据进行分区操作,并建立广泛的索引,建立缓存机制;
A3、采样数据,进行数据挖掘,海量数据关联存储;
A4、由HBase X-Pack向外提供高性能的随机读写操作;
A5、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库。
在上述的一种可进行大量数据处理的存储结构中,所述步骤A1 中选用的HBaseX-Pack是基于HBase及HBase生态构建的低成本一站式数据处理平台,且HBase X-Pack支持HBase API(包括 RestServerThriftServer)、关系Phoenix SQL、时序OpenTSDB、全文Solr、时空GeoMesa、图HGraph和分析Spark on HBase,所述HBase X-Pack能够实现数据从处理、存储到分析全流程闭环。
在上述的一种可进行大量数据处理的存储结构中,所述步骤A2 中在建立索引是通过Key来实现的,所述HBase表设计中最重要的就是定义Row-Key的结构,且定义Row-Key的结构时需要考虑表的接入样本。
在上述的一种可进行大量数据处理的存储结构中,所述HBase表是通过Row Key的字典序来对一行行的数据来进行排序的,且表中每一块区域的划分都是通过开始Row Key和结束Row Key来决定的,所述HBase表中的所有存储数据都是二进制的字节并没有数据类型。
在上述的一种可进行大量数据处理的存储结构中,所述步骤A3 中使用SSD硬盘来作为硬件用于存储业务数据并提供良好性能。
在上述的一种可进行大量数据处理的存储结构中,所述步骤A4 中Hbase X-Pack读写操作采用get方法,提供了批量获取数据方法,通过组装一个list<Get>gets即可实现。
在上述的一种可进行大量数据处理的存储结构中,所述步骤A5 中的低价数据库选用MySQL数据库,且MySQL数据库具有双节点架构、自动容灾的特点。
与现有技术相比,本一种可进行大量数据处理的存储结构的优点在于:
根据业务需求发现有低延迟随机读写要求的数据,基本集中在最近7天,所以使用开源的分布式面向列的数据库Hbase在存储数据的同时,根据行键Row Key读写能够提供优异的性能,同时因为只需要一定量的数据,所以在使用价格昂贵但性能优秀的SSD硬盘时,成本也能很好的得到控制。
利用分布式列式数据库和SSD硬盘对业务场景进行优化,在提升服务性能的同时,降低硬件使用成本。
附图说明
图1为本发明提出的一种可进行大量数据处理的存储结构的列数据库结构原理图;
图2为本发明提出的一种可进行大量数据处理的存储结构的 HBase X-Pack的说明结构图;
图3为本发明提出的一种可进行大量数据处理的存储结构的数据说明示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-3,一种可进行大量数据处理的存储结构,包括列数据库,所述大量数据来源多个系统,且数据可能是文件、可能是其他关系型数据库中的交易数据,所述列数据库需要多个维度建立数据统计模型,且存储的数据来自于历史的,存档的,归纳的和计算的数据,所述列数据库需要访问大量的记录才能统计出结果,所述列数据库更新数据很少并且都是添加数据和查询数据;
大量数据在存储时的方法大致包括以下步骤:
A1、选用优秀的数据库工具,并选用HBase X-Pack分布式列式数据库;
A2、对海量数据进行分区操作,并建立广泛的索引,建立缓存机制;
A3、采样数据,进行数据挖掘,海量数据关联存储;
A4、由HBase X-Pack向外提供高性能的随机读写操作;
A5、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库。
其中,所述步骤A1中选用的HBase X-Pack是基于HBase及 HBase生态构建的低成本一站式数据处理平台,且HBase X-Pack支持HBase API(包括RestServerThriftServer)、关系Phoenix SQL、时序OpenTSDB、全文Solr、时空GeoMesa、图HGraph和分析Spark onHBase,所述HBase X-Pack能够实现数据从处理、存储到分析全流程闭环。
其中,所述步骤A2中在建立索引是通过Key来实现的,所述 HBase表设计中最重要的就是定义Row-Key的结构,且定义Row-Key 的结构时需要考虑表的接入样本,具体的,所述HBase表是通过Row Key的字典序来对一行行的数据来进行排序的,且表中每一块区域的划分都是通过开始Row Key和结束Row Key来决定的,所述HBase表中的所有存储数据都是二进制的字节并没有数据类型,另外,当开始设计HBase中的表的时候需要考虑以下的几个问题:
1.Row Key的结构该如何设置,而Row Key中又该包含什么样的信息(这个很重要,下面的例子会有说明)
2.表中应该有多少的列族
3.列族中应该存储什么样的数据
4.每个列族中存储多少列数据
5.列的名字分别是什么,因为操作API的时候需要这些信息
6.单元中(cell)应该存储什么样的信息
7.每个单元中存储多少个版本信息
其中,所述步骤A3中使用SSD硬盘来作为硬件用于存储业务数据并提供良好性能,同时因只保存少量的热点数据,降低硬件带来的成本。
其中,所述步骤A4中Hbase X-Pack读写操作采用get方法,提供了批量获取数据方法,通过组装一个list<Get>gets即可实现。
其中,所述步骤A5中的低价数据库选用MySQL数据库,且MySQL 数据库具有双节点架构、自动容灾的特点,能够相对的节约使用的成本。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种可进行大量数据处理的存储结构,其特征在于,包括列数据库,所述大量数据来源多个系统,且数据是文件或者是其他关系型数据库中的交易数据,所述列数据库需要多个维度建立数据统计模型,且存储的数据来自于历史的,存档的,归纳的和计算的数据,所述列数据库需要访问大量的记录才能统计出结果,所述列数据库更新数据很少并且都是添加数据和查询数据;
大量数据在存储时的方法包括以下步骤:
A1、选用优秀的数据库工具,并选用HBaseX-Pack分布式列式数据库;
A2、对海量数据进行分区操作,并建立广泛的索引,建立缓存机制;
A3、采样数据,进行数据挖掘,海量数据关联存储;
A4、由HBaseX-Pack向外提供高性能的随机读写操作;
A5、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库;
所述步骤A1中选用的HBaseX-Pack是基于HBase及HBase生态构建的低成本一站式数据处理平台,且HBaseX-Pack支持HBaseAPI、关系PhoenixSQL、时序OpenTSDB、全文Solr、时空GeoMesa、图HGraph和分析SparkonHBase,所述HBaseX-Pack能够实现数据从处理、存储到分析全流程闭环。
2.根据权利要求1所述的一种可进行大量数据处理的存储结构,其特征在于,所述步骤A2中在建立索引是通过Key来实现的,所述HBase表设计中最重要的就是定义Row-Key的结构,且定义Row-Key的结构时需要考虑表的接入样本。
3.根据权利要求2所述的一种可进行大量数据处理的存储结构,其特征在于,所述HBase表是通过RowKey的字典序来对一行行的数据来进行排序的,且表中每一块区域的划分都是通过开始RowKey和结束RowKey来决定的,所述HBase表中的所有存储数据都是二进制的字节并没有数据类型。
4.根据权利要求1所述的一种可进行大量数据处理的存储结构,其特征在于,所述步骤A3中使用SSD硬盘来作为硬件用于存储业务数据并提供良好性能。
5.根据权利要求1所述的一种可进行大量数据处理的存储结构,其特征在于,所述步骤A4中HbaseX-Pack读写操作采用get方法,提供了批量获取数据方法,通过组装一个list<Get>gets即可实现。
6.根据权利要求1所述的一种可进行大量数据处理的存储结构,其特征在于,所述步骤A5中的低价数据库选用MySQL数据库,且MySQL数据库具有双节点架构、自动容灾的特点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911102683.0A CN111061725B (zh) | 2019-11-12 | 2019-11-12 | 一种可进行大量数据处理的存储结构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911102683.0A CN111061725B (zh) | 2019-11-12 | 2019-11-12 | 一种可进行大量数据处理的存储结构 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061725A CN111061725A (zh) | 2020-04-24 |
CN111061725B true CN111061725B (zh) | 2024-01-30 |
Family
ID=70297740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911102683.0A Active CN111061725B (zh) | 2019-11-12 | 2019-11-12 | 一种可进行大量数据处理的存储结构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061725B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930817A (zh) * | 2020-07-28 | 2020-11-13 | 银盛支付服务股份有限公司 | 一种基于大数据的分布式非结构化数据库关联查询方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912666A (zh) * | 2016-04-12 | 2016-08-31 | 中国科学院软件研究所 | 一种面向云平台的混合结构数据高性能存储、查询方法 |
CN106202207A (zh) * | 2016-06-28 | 2016-12-07 | 中国电子科技集团公司第二十八研究所 | 一种基于HBase‑ORM的索引及检索系统 |
CN109271437A (zh) * | 2018-09-27 | 2019-01-25 | 智庭(北京)智能科技有限公司 | 一种海量房租信息的实时查询方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014031618A2 (en) * | 2012-08-22 | 2014-02-27 | Bitvore Corp. | Data relationships storage platform |
US11164239B2 (en) * | 2018-03-12 | 2021-11-02 | Ebay Inc. | Method, system, and computer-readable storage medium for heterogeneous data stream processing for a smart cart |
-
2019
- 2019-11-12 CN CN201911102683.0A patent/CN111061725B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912666A (zh) * | 2016-04-12 | 2016-08-31 | 中国科学院软件研究所 | 一种面向云平台的混合结构数据高性能存储、查询方法 |
CN106202207A (zh) * | 2016-06-28 | 2016-12-07 | 中国电子科技集团公司第二十八研究所 | 一种基于HBase‑ORM的索引及检索系统 |
CN109271437A (zh) * | 2018-09-27 | 2019-01-25 | 智庭(北京)智能科技有限公司 | 一种海量房租信息的实时查询方法 |
Non-Patent Citations (5)
Title |
---|
周伟 ; 刘希 ; 陈浩 ; .HBase分布式二级索引通用方案研究.软件导刊.2018,(03),全文. * |
景晗 ; 郑建生 ; 陈鲤文 ; 许朝威 ; .基于MapReduce和HBase的海量网络数据处理.科学技术与工程.2015,(34),全文. * |
毛林 ; 成维莉 ; .智慧农业大数据平台构建的研究.农业网络信息.2018,(06),全文. * |
许杰 ; 冷冰 ; 李明桂 ; 丁文超 ; .大数据处理技术在安全审计系统中的应用.通信技术.2016,(03),全文. * |
饶小康 ; .水利工程灌浆大数据平台设计与实现.长江科学院院报.2019,(06),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111061725A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8255398B2 (en) | Compression of sorted value indexes using common prefixes | |
EP3812915B1 (en) | Big data statistics at data-block level | |
US7689574B2 (en) | Index and method for extending and querying index | |
EP2467791B1 (en) | Method for performing transactions on data and a transactional database | |
CN101782922B (zh) | 一种面向海量数据检索的多级桶哈希索引方法 | |
US20100179855A1 (en) | Large-Scale Behavioral Targeting for Advertising over a Network | |
US10296497B2 (en) | Storing a key value to a deleted row based on key range density | |
CN103390038A (zh) | 一种基于HBase的构建和检索增量索引的方法 | |
CN106682148A (zh) | 一种基于Solr数据搜索的方法及装置 | |
US10824612B2 (en) | Key ticketing system with lock-free concurrency and versioning | |
US20140032568A1 (en) | System and Method for Indexing Streams Containing Unstructured Text Data | |
CN110096509A (zh) | 大数据环境下实现历史数据拉链表存储建模处理的系统及方法 | |
CN109684327B (zh) | 一种数据库外部链接的数据获取方法 | |
CN111159176A (zh) | 一种海量流数据的存储和读取的方法和系统 | |
CN110858210A (zh) | 数据查询方法及装置 | |
CN113821573A (zh) | 海量数据快速检索服务构建方法、系统、终端及存储介质 | |
CN111061725B (zh) | 一种可进行大量数据处理的存储结构 | |
CN114116827B (zh) | 一种用户画像数据的查询系统及方法 | |
CN110287430B (zh) | 一种基于Redis缓存技术实现商品信息缓存加载的方法 | |
US20170235779A1 (en) | Processing query of database and data stream | |
US20180300377A1 (en) | Handling temporal data in append-only databases | |
CN112463837B (zh) | 一种关系型数据库数据存储查询方法 | |
CN108984720B (zh) | 基于列存储的数据查询方法、装置、服务器及存储介质 | |
CN109033271B (zh) | 基于列存储的数据插入方法、装置、服务器及存储介质 | |
CN101458707A (zh) | 一种大数据量记录的存储方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |