CN111061725B

CN111061725B - 一种可进行大量数据处理的存储结构

Info

Publication number: CN111061725B
Application number: CN201911102683.0A
Authority: CN
Inventors: 冯报安; 杨晶生
Original assignee: Shanghai Microphone Culture Media Co ltd
Current assignee: Shanghai Microphone Culture Media Co ltd
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2024-01-30
Anticipated expiration: 2039-11-12
Also published as: CN111061725A

Abstract

本发明属于大数据存储技术领域，尤其是涉及一种可进行大量数据处理的存储结构，包括列数据库，所述大量数据来源多个系统，且数据可能是文件、可能是其他关系型数据库中的交易数据，所述列数据库需要多个维度建立数据统计模型，且存储的数据来自于历史的，存档的，归纳的和计算的数据，所述列数据库需要访问大量的记录才能统计出结果，所述列数据库更新数据很少并且都是添加数据和查询数据。本发明提出一个新的思路来解决线上业务能够在服务非常大量用户的同时，具体的，利用分布式列式数据库和SSD硬盘对业务场景进行优化，在提升服务性能的同时，降低硬件使用成本。

Description

一种可进行大量数据处理的存储结构

技术领域

本发明涉及大数据存储技术领域，尤其涉及一种可进行大量数据处理的存储结构。

背景技术

线上服务对于响应的延迟是十分敏感的，任何过长的查询或操作时间，都会导致服务使用的体验严重下降，并造成用户的流失。然而随着目前业务的扩展，数据量越来越大，传统的关系型数据库很难再满足日益增长的需求，所以需要使用一种更加现代和新型的存储模型。

此时列式数据库在应对上述的情况时，能够在非常大量的数据时，依然通过主键能够提供性能远远大于传统关系型数据库的行式结构。

本文提出一个新的思路来解决线上业务能够在服务非常大量用户的同时，提供低延迟的服务并且控制整体成本。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种可进行大量数据处理的存储结构。

为了实现上述目的，本发明采用了如下技术方案：

一种可进行大量数据处理的存储结构，包括列数据库，所述大量数据来源多个系统，且数据可能是文件、可能是其他关系型数据库中的交易数据，所述列数据库需要多个维度建立数据统计模型，且存储的数据来自于历史的，存档的，归纳的和计算的数据，所述列数据库需要访问大量的记录才能统计出结果，所述列数据库更新数据很少并且都是添加数据和查询数据；

大量数据在存储时的方法大致包括以下步骤：

A1、选用优秀的数据库工具，并选用HBase X-Pack分布式列式数据库；

A2、对海量数据进行分区操作，并建立广泛的索引，建立缓存机制；

A3、采样数据，进行数据挖掘，海量数据关联存储；

A4、由HBase X-Pack向外提供高性能的随机读写操作；

A5、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库。

在上述的一种可进行大量数据处理的存储结构中，所述步骤A1 中选用的HBaseX-Pack是基于HBase及HBase生态构建的低成本一站式数据处理平台，且HBase X-Pack支持HBase API(包括 RestServerThriftServer)、关系Phoenix SQL、时序OpenTSDB、全文Solr、时空GeoMesa、图HGraph和分析Spark on HBase，所述HBase X-Pack能够实现数据从处理、存储到分析全流程闭环。

在上述的一种可进行大量数据处理的存储结构中，所述步骤A2 中在建立索引是通过Key来实现的，所述HBase表设计中最重要的就是定义Row-Key的结构，且定义Row-Key的结构时需要考虑表的接入样本。

在上述的一种可进行大量数据处理的存储结构中，所述HBase表是通过Row Key的字典序来对一行行的数据来进行排序的，且表中每一块区域的划分都是通过开始Row Key和结束Row Key来决定的，所述HBase表中的所有存储数据都是二进制的字节并没有数据类型。

在上述的一种可进行大量数据处理的存储结构中，所述步骤A3 中使用SSD硬盘来作为硬件用于存储业务数据并提供良好性能。

在上述的一种可进行大量数据处理的存储结构中，所述步骤A4 中Hbase X-Pack读写操作采用get方法，提供了批量获取数据方法，通过组装一个list<Get>gets即可实现。

在上述的一种可进行大量数据处理的存储结构中，所述步骤A5 中的低价数据库选用MySQL数据库，且MySQL数据库具有双节点架构、自动容灾的特点。

与现有技术相比，本一种可进行大量数据处理的存储结构的优点在于：

根据业务需求发现有低延迟随机读写要求的数据，基本集中在最近7天，所以使用开源的分布式面向列的数据库Hbase在存储数据的同时，根据行键Row Key读写能够提供优异的性能，同时因为只需要一定量的数据，所以在使用价格昂贵但性能优秀的SSD硬盘时，成本也能很好的得到控制。

利用分布式列式数据库和SSD硬盘对业务场景进行优化，在提升服务性能的同时，降低硬件使用成本。

附图说明

图1为本发明提出的一种可进行大量数据处理的存储结构的列数据库结构原理图；

图2为本发明提出的一种可进行大量数据处理的存储结构的 HBase X-Pack的说明结构图；

图3为本发明提出的一种可进行大量数据处理的存储结构的数据说明示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1-3，一种可进行大量数据处理的存储结构，包括列数据库，所述大量数据来源多个系统，且数据可能是文件、可能是其他关系型数据库中的交易数据，所述列数据库需要多个维度建立数据统计模型，且存储的数据来自于历史的，存档的，归纳的和计算的数据，所述列数据库需要访问大量的记录才能统计出结果，所述列数据库更新数据很少并且都是添加数据和查询数据；

大量数据在存储时的方法大致包括以下步骤：

A3、采样数据，进行数据挖掘，海量数据关联存储；

A4、由HBase X-Pack向外提供高性能的随机读写操作；

其中，所述步骤A1中选用的HBase X-Pack是基于HBase及 HBase生态构建的低成本一站式数据处理平台，且HBase X-Pack支持HBase API(包括RestServerThriftServer)、关系Phoenix SQL、时序OpenTSDB、全文Solr、时空GeoMesa、图HGraph和分析Spark onHBase，所述HBase X-Pack能够实现数据从处理、存储到分析全流程闭环。

其中，所述步骤A2中在建立索引是通过Key来实现的，所述 HBase表设计中最重要的就是定义Row-Key的结构，且定义Row-Key 的结构时需要考虑表的接入样本，具体的，所述HBase表是通过Row Key的字典序来对一行行的数据来进行排序的，且表中每一块区域的划分都是通过开始Row Key和结束Row Key来决定的，所述HBase表中的所有存储数据都是二进制的字节并没有数据类型，另外，当开始设计HBase中的表的时候需要考虑以下的几个问题：

1.Row Key的结构该如何设置，而Row Key中又该包含什么样的信息(这个很重要，下面的例子会有说明)

2.表中应该有多少的列族

3.列族中应该存储什么样的数据

4.每个列族中存储多少列数据

5.列的名字分别是什么，因为操作API的时候需要这些信息

6.单元中(cell)应该存储什么样的信息

7.每个单元中存储多少个版本信息

其中，所述步骤A3中使用SSD硬盘来作为硬件用于存储业务数据并提供良好性能，同时因只保存少量的热点数据，降低硬件带来的成本。

其中，所述步骤A4中Hbase X-Pack读写操作采用get方法，提供了批量获取数据方法，通过组装一个list<Get>gets即可实现。

其中，所述步骤A5中的低价数据库选用MySQL数据库，且MySQL 数据库具有双节点架构、自动容灾的特点，能够相对的节约使用的成本。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种可进行大量数据处理的存储结构，其特征在于，包括列数据库，所述大量数据来源多个系统，且数据是文件或者是其他关系型数据库中的交易数据，所述列数据库需要多个维度建立数据统计模型，且存储的数据来自于历史的，存档的，归纳的和计算的数据，所述列数据库需要访问大量的记录才能统计出结果，所述列数据库更新数据很少并且都是添加数据和查询数据；

大量数据在存储时的方法包括以下步骤：

A1、选用优秀的数据库工具，并选用HBaseX-Pack分布式列式数据库；

A3、采样数据，进行数据挖掘，海量数据关联存储；

A4、由HBaseX-Pack向外提供高性能的随机读写操作；

A5、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库；

所述步骤A1中选用的HBaseX-Pack是基于HBase及HBase生态构建的低成本一站式数据处理平台，且HBaseX-Pack支持HBaseAPI、关系PhoenixSQL、时序OpenTSDB、全文Solr、时空GeoMesa、图HGraph和分析SparkonHBase，所述HBaseX-Pack能够实现数据从处理、存储到分析全流程闭环。

2.根据权利要求1所述的一种可进行大量数据处理的存储结构，其特征在于，所述步骤A2中在建立索引是通过Key来实现的，所述HBase表设计中最重要的就是定义Row-Key的结构，且定义Row-Key的结构时需要考虑表的接入样本。

3.根据权利要求2所述的一种可进行大量数据处理的存储结构，其特征在于，所述HBase表是通过RowKey的字典序来对一行行的数据来进行排序的，且表中每一块区域的划分都是通过开始RowKey和结束RowKey来决定的，所述HBase表中的所有存储数据都是二进制的字节并没有数据类型。

4.根据权利要求1所述的一种可进行大量数据处理的存储结构，其特征在于，所述步骤A3中使用SSD硬盘来作为硬件用于存储业务数据并提供良好性能。

5.根据权利要求1所述的一种可进行大量数据处理的存储结构，其特征在于，所述步骤A4中HbaseX-Pack读写操作采用get方法，提供了批量获取数据方法，通过组装一个list<Get>gets即可实现。

6.根据权利要求1所述的一种可进行大量数据处理的存储结构，其特征在于，所述步骤A5中的低价数据库选用MySQL数据库，且MySQL数据库具有双节点架构、自动容灾的特点。