CN111061725B - 一种可进行大量数据处理的存储结构 - Google Patents

一种可进行大量数据处理的存储结构 Download PDF

Info

Publication number
CN111061725B
CN111061725B CN201911102683.0A CN201911102683A CN111061725B CN 111061725 B CN111061725 B CN 111061725B CN 201911102683 A CN201911102683 A CN 201911102683A CN 111061725 B CN111061725 B CN 111061725B
Authority
CN
China
Prior art keywords
data
database
hbase
storage structure
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911102683.0A
Other languages
English (en)
Other versions
CN111061725A (zh
Inventor
冯报安
杨晶生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Microphone Culture Media Co ltd
Original Assignee
Shanghai Microphone Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Microphone Culture Media Co ltd filed Critical Shanghai Microphone Culture Media Co ltd
Priority to CN201911102683.0A priority Critical patent/CN111061725B/zh
Publication of CN111061725A publication Critical patent/CN111061725A/zh
Application granted granted Critical
Publication of CN111061725B publication Critical patent/CN111061725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/289Object oriented databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据存储技术领域,尤其是涉及一种可进行大量数据处理的存储结构,包括列数据库,所述大量数据来源多个系统,且数据可能是文件、可能是其他关系型数据库中的交易数据,所述列数据库需要多个维度建立数据统计模型,且存储的数据来自于历史的,存档的,归纳的和计算的数据,所述列数据库需要访问大量的记录才能统计出结果,所述列数据库更新数据很少并且都是添加数据和查询数据。本发明提出一个新的思路来解决线上业务能够在服务非常大量用户的同时,具体的,利用分布式列式数据库和SSD硬盘对业务场景进行优化,在提升服务性能的同时,降低硬件使用成本。

Description

一种可进行大量数据处理的存储结构
技术领域
本发明涉及大数据存储技术领域,尤其涉及一种可进行大量数据处理的存储结构。
背景技术
线上服务对于响应的延迟是十分敏感的,任何过长的查询或操作时间,都会导致服务使用的体验严重下降,并造成用户的流失。然而随着目前业务的扩展,数据量越来越大,传统的关系型数据库很难再满足日益增长的需求,所以需要使用一种更加现代和新型的存储模型。
此时列式数据库在应对上述的情况时,能够在非常大量的数据时,依然通过主键能够提供性能远远大于传统关系型数据库的行式结构。
本文提出一个新的思路来解决线上业务能够在服务非常大量用户的同时,提供低延迟的服务并且控制整体成本。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种可进行大量数据处理的存储结构。
为了实现上述目的,本发明采用了如下技术方案:
一种可进行大量数据处理的存储结构,包括列数据库,所述大量数据来源多个系统,且数据可能是文件、可能是其他关系型数据库中的交易数据,所述列数据库需要多个维度建立数据统计模型,且存储的数据来自于历史的,存档的,归纳的和计算的数据,所述列数据库需要访问大量的记录才能统计出结果,所述列数据库更新数据很少并且都是添加数据和查询数据;
大量数据在存储时的方法大致包括以下步骤:
A1、选用优秀的数据库工具,并选用HBase X-Pack分布式列式数据库;
A2、对海量数据进行分区操作,并建立广泛的索引,建立缓存机制;
A3、采样数据,进行数据挖掘,海量数据关联存储;
A4、由HBase X-Pack向外提供高性能的随机读写操作;
A5、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库。
在上述的一种可进行大量数据处理的存储结构中,所述步骤A1 中选用的HBaseX-Pack是基于HBase及HBase生态构建的低成本一站式数据处理平台,且HBase X-Pack支持HBase API(包括 RestServerThriftServer)、关系Phoenix SQL、时序OpenTSDB、全文Solr、时空GeoMesa、图HGraph和分析Spark on HBase,所述HBase X-Pack能够实现数据从处理、存储到分析全流程闭环。
在上述的一种可进行大量数据处理的存储结构中,所述步骤A2 中在建立索引是通过Key来实现的,所述HBase表设计中最重要的就是定义Row-Key的结构,且定义Row-Key的结构时需要考虑表的接入样本。
在上述的一种可进行大量数据处理的存储结构中,所述HBase表是通过Row Key的字典序来对一行行的数据来进行排序的,且表中每一块区域的划分都是通过开始Row Key和结束Row Key来决定的,所述HBase表中的所有存储数据都是二进制的字节并没有数据类型。
在上述的一种可进行大量数据处理的存储结构中,所述步骤A3 中使用SSD硬盘来作为硬件用于存储业务数据并提供良好性能。
在上述的一种可进行大量数据处理的存储结构中,所述步骤A4 中Hbase X-Pack读写操作采用get方法,提供了批量获取数据方法,通过组装一个list<Get>gets即可实现。
在上述的一种可进行大量数据处理的存储结构中,所述步骤A5 中的低价数据库选用MySQL数据库,且MySQL数据库具有双节点架构、自动容灾的特点。
与现有技术相比,本一种可进行大量数据处理的存储结构的优点在于:
根据业务需求发现有低延迟随机读写要求的数据,基本集中在最近7天,所以使用开源的分布式面向列的数据库Hbase在存储数据的同时,根据行键Row Key读写能够提供优异的性能,同时因为只需要一定量的数据,所以在使用价格昂贵但性能优秀的SSD硬盘时,成本也能很好的得到控制。
利用分布式列式数据库和SSD硬盘对业务场景进行优化,在提升服务性能的同时,降低硬件使用成本。
附图说明
图1为本发明提出的一种可进行大量数据处理的存储结构的列数据库结构原理图;
图2为本发明提出的一种可进行大量数据处理的存储结构的 HBase X-Pack的说明结构图;
图3为本发明提出的一种可进行大量数据处理的存储结构的数据说明示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-3,一种可进行大量数据处理的存储结构,包括列数据库,所述大量数据来源多个系统,且数据可能是文件、可能是其他关系型数据库中的交易数据,所述列数据库需要多个维度建立数据统计模型,且存储的数据来自于历史的,存档的,归纳的和计算的数据,所述列数据库需要访问大量的记录才能统计出结果,所述列数据库更新数据很少并且都是添加数据和查询数据;
大量数据在存储时的方法大致包括以下步骤:
A1、选用优秀的数据库工具,并选用HBase X-Pack分布式列式数据库;
A2、对海量数据进行分区操作,并建立广泛的索引,建立缓存机制;
A3、采样数据,进行数据挖掘,海量数据关联存储;
A4、由HBase X-Pack向外提供高性能的随机读写操作;
A5、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库。
其中,所述步骤A1中选用的HBase X-Pack是基于HBase及 HBase生态构建的低成本一站式数据处理平台,且HBase X-Pack支持HBase API(包括RestServerThriftServer)、关系Phoenix SQL、时序OpenTSDB、全文Solr、时空GeoMesa、图HGraph和分析Spark onHBase,所述HBase X-Pack能够实现数据从处理、存储到分析全流程闭环。
其中,所述步骤A2中在建立索引是通过Key来实现的,所述 HBase表设计中最重要的就是定义Row-Key的结构,且定义Row-Key 的结构时需要考虑表的接入样本,具体的,所述HBase表是通过Row Key的字典序来对一行行的数据来进行排序的,且表中每一块区域的划分都是通过开始Row Key和结束Row Key来决定的,所述HBase表中的所有存储数据都是二进制的字节并没有数据类型,另外,当开始设计HBase中的表的时候需要考虑以下的几个问题:
1.Row Key的结构该如何设置,而Row Key中又该包含什么样的信息(这个很重要,下面的例子会有说明)
2.表中应该有多少的列族
3.列族中应该存储什么样的数据
4.每个列族中存储多少列数据
5.列的名字分别是什么,因为操作API的时候需要这些信息
6.单元中(cell)应该存储什么样的信息
7.每个单元中存储多少个版本信息
其中,所述步骤A3中使用SSD硬盘来作为硬件用于存储业务数据并提供良好性能,同时因只保存少量的热点数据,降低硬件带来的成本。
其中,所述步骤A4中Hbase X-Pack读写操作采用get方法,提供了批量获取数据方法,通过组装一个list<Get>gets即可实现。
其中,所述步骤A5中的低价数据库选用MySQL数据库,且MySQL 数据库具有双节点架构、自动容灾的特点,能够相对的节约使用的成本。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种可进行大量数据处理的存储结构,其特征在于,包括列数据库,所述大量数据来源多个系统,且数据是文件或者是其他关系型数据库中的交易数据,所述列数据库需要多个维度建立数据统计模型,且存储的数据来自于历史的,存档的,归纳的和计算的数据,所述列数据库需要访问大量的记录才能统计出结果,所述列数据库更新数据很少并且都是添加数据和查询数据;
大量数据在存储时的方法包括以下步骤:
A1、选用优秀的数据库工具,并选用HBaseX-Pack分布式列式数据库;
A2、对海量数据进行分区操作,并建立广泛的索引,建立缓存机制;
A3、采样数据,进行数据挖掘,海量数据关联存储;
A4、由HBaseX-Pack向外提供高性能的随机读写操作;
A5、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库;
所述步骤A1中选用的HBaseX-Pack是基于HBase及HBase生态构建的低成本一站式数据处理平台,且HBaseX-Pack支持HBaseAPI、关系PhoenixSQL、时序OpenTSDB、全文Solr、时空GeoMesa、图HGraph和分析SparkonHBase,所述HBaseX-Pack能够实现数据从处理、存储到分析全流程闭环。
2.根据权利要求1所述的一种可进行大量数据处理的存储结构,其特征在于,所述步骤A2中在建立索引是通过Key来实现的,所述HBase表设计中最重要的就是定义Row-Key的结构,且定义Row-Key的结构时需要考虑表的接入样本。
3.根据权利要求2所述的一种可进行大量数据处理的存储结构,其特征在于,所述HBase表是通过RowKey的字典序来对一行行的数据来进行排序的,且表中每一块区域的划分都是通过开始RowKey和结束RowKey来决定的,所述HBase表中的所有存储数据都是二进制的字节并没有数据类型。
4.根据权利要求1所述的一种可进行大量数据处理的存储结构,其特征在于,所述步骤A3中使用SSD硬盘来作为硬件用于存储业务数据并提供良好性能。
5.根据权利要求1所述的一种可进行大量数据处理的存储结构,其特征在于,所述步骤A4中HbaseX-Pack读写操作采用get方法,提供了批量获取数据方法,通过组装一个list<Get>gets即可实现。
6.根据权利要求1所述的一种可进行大量数据处理的存储结构,其特征在于,所述步骤A5中的低价数据库选用MySQL数据库,且MySQL数据库具有双节点架构、自动容灾的特点。
CN201911102683.0A 2019-11-12 2019-11-12 一种可进行大量数据处理的存储结构 Active CN111061725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911102683.0A CN111061725B (zh) 2019-11-12 2019-11-12 一种可进行大量数据处理的存储结构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911102683.0A CN111061725B (zh) 2019-11-12 2019-11-12 一种可进行大量数据处理的存储结构

Publications (2)

Publication Number Publication Date
CN111061725A CN111061725A (zh) 2020-04-24
CN111061725B true CN111061725B (zh) 2024-01-30

Family

ID=70297740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911102683.0A Active CN111061725B (zh) 2019-11-12 2019-11-12 一种可进行大量数据处理的存储结构

Country Status (1)

Country Link
CN (1) CN111061725B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930817A (zh) * 2020-07-28 2020-11-13 银盛支付服务股份有限公司 一种基于大数据的分布式非结构化数据库关联查询方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912666A (zh) * 2016-04-12 2016-08-31 中国科学院软件研究所 一种面向云平台的混合结构数据高性能存储、查询方法
CN106202207A (zh) * 2016-06-28 2016-12-07 中国电子科技集团公司第二十八研究所 一种基于HBase‑ORM的索引及检索系统
CN109271437A (zh) * 2018-09-27 2019-01-25 智庭(北京)智能科技有限公司 一种海量房租信息的实时查询方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014031618A2 (en) * 2012-08-22 2014-02-27 Bitvore Corp. Data relationships storage platform
US11164239B2 (en) * 2018-03-12 2021-11-02 Ebay Inc. Method, system, and computer-readable storage medium for heterogeneous data stream processing for a smart cart

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912666A (zh) * 2016-04-12 2016-08-31 中国科学院软件研究所 一种面向云平台的混合结构数据高性能存储、查询方法
CN106202207A (zh) * 2016-06-28 2016-12-07 中国电子科技集团公司第二十八研究所 一种基于HBase‑ORM的索引及检索系统
CN109271437A (zh) * 2018-09-27 2019-01-25 智庭(北京)智能科技有限公司 一种海量房租信息的实时查询方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
周伟 ; 刘希 ; 陈浩 ; .HBase分布式二级索引通用方案研究.软件导刊.2018,(03),全文. *
景晗 ; 郑建生 ; 陈鲤文 ; 许朝威 ; .基于MapReduce和HBase的海量网络数据处理.科学技术与工程.2015,(34),全文. *
毛林 ; 成维莉 ; .智慧农业大数据平台构建的研究.农业网络信息.2018,(06),全文. *
许杰 ; 冷冰 ; 李明桂 ; 丁文超 ; .大数据处理技术在安全审计系统中的应用.通信技术.2016,(03),全文. *
饶小康 ; .水利工程灌浆大数据平台设计与实现.长江科学院院报.2019,(06),全文. *

Also Published As

Publication number Publication date
CN111061725A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
US8255398B2 (en) Compression of sorted value indexes using common prefixes
EP3812915B1 (en) Big data statistics at data-block level
US7689574B2 (en) Index and method for extending and querying index
EP2467791B1 (en) Method for performing transactions on data and a transactional database
CN101782922B (zh) 一种面向海量数据检索的多级桶哈希索引方法
US20100179855A1 (en) Large-Scale Behavioral Targeting for Advertising over a Network
US10296497B2 (en) Storing a key value to a deleted row based on key range density
CN103390038A (zh) 一种基于HBase的构建和检索增量索引的方法
CN106682148A (zh) 一种基于Solr数据搜索的方法及装置
US10824612B2 (en) Key ticketing system with lock-free concurrency and versioning
US20140032568A1 (en) System and Method for Indexing Streams Containing Unstructured Text Data
CN110096509A (zh) 大数据环境下实现历史数据拉链表存储建模处理的系统及方法
CN109684327B (zh) 一种数据库外部链接的数据获取方法
CN111159176A (zh) 一种海量流数据的存储和读取的方法和系统
CN110858210A (zh) 数据查询方法及装置
CN113821573A (zh) 海量数据快速检索服务构建方法、系统、终端及存储介质
CN111061725B (zh) 一种可进行大量数据处理的存储结构
CN114116827B (zh) 一种用户画像数据的查询系统及方法
CN110287430B (zh) 一种基于Redis缓存技术实现商品信息缓存加载的方法
US20170235779A1 (en) Processing query of database and data stream
US20180300377A1 (en) Handling temporal data in append-only databases
CN112463837B (zh) 一种关系型数据库数据存储查询方法
CN108984720B (zh) 基于列存储的数据查询方法、装置、服务器及存储介质
CN109033271B (zh) 基于列存储的数据插入方法、装置、服务器及存储介质
CN101458707A (zh) 一种大数据量记录的存储方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant