CN110990340B

CN110990340B - 一种大数据多层次存储架构

Info

Publication number: CN110990340B
Application number: CN201911103255.XA
Authority: CN
Inventors: 冯报安; 杨晶生
Original assignee: Shanghai Microphone Culture Media Co ltd
Current assignee: Shanghai Microphone Culture Media Co ltd
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2024-04-12
Anticipated expiration: 2039-11-12
Also published as: CN110990340A

Abstract

本发明属于大数据存储技术领域，尤其是涉及一种大数据多层次存储系统，包括三个层次，三个所述层次分别为层级一、层级二和层级三；所述层级一包括以下步骤：只保存热点数据；使用Hbase来提供低延迟的随机读写；使用SSD硬盘来作为硬件提供良好性能；所述层级二包括以下步骤：保存相对热门数据；使用Spark来提供高效的大规模分析计算；使用开源的ApacheHadoop分布式文件系统来存储数据；数据存储使用Parquet格式，来提升Spark计算效率。本发明提出利用不同大数据框架和技术搭建多层次的大数据架构平台，针对不同的使用场景运用不同的技术和解决方案，提升业务性能和降低计算时间以及硬件成本。

Description

一种大数据多层次存储架构

技术领域

本发明涉及大数据存储技术领域，尤其涉及一种大数据多层次存储架构。

背景技术

随着业务和时间的不断发展，用户以及产品相关的数据量的持续扩大，传统的单数据库或者单模型存储的方式已经无法满足日益增长的大数据需求，如：即需要在短的延迟内从大量的数据中读出特定用户相关的个人数据，又要对大范围的用户数据进行批量的长时间跨度的分析运算等等。

另外，以前的传统关系型数据库当单表的数据量不断增大之后，会对读写的性能有着极大的性能的负面影响，最终导致的服务的不可用。然而现代的大数据工具也有着各自的使用场景的限制，如适合随机读写的存储不适合批量大范围读写，反之亦然。同时因为数据量的增大，随之而来的存储设备所带来的成本的上升，这也是当下不可忽视的问题。

因此，现在需要一个新的架构满足不同的使用场景下的数据随机读写和批量读写的性能要求。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种大数据多层次存储架构。

为了实现上述目的，本发明采用了如下技术方案：

一种大数据多层次存储架构，包括三个层次，三个所述层次分别为层级一、层级二和层级三；

所述层级一包括以下步骤：

S1、只保存热点数据(如7天)；

S2、使用Hbase来提供低延迟的随机读写；

S3、使用SSD硬盘来作为硬件提供良好性能；

所述层级二包括以下步骤：

A1、保存相对热门数据(如180天)；

A2、使用Spark来提供高效的大规模分析计算；

A3、使用开源的ApacheHadoop分布式文件系统(HDFS)来存储数据；

A4、数据存储使用Parquet格式，来提升Spark计算效率；

所述层级三包括以下步骤：

B1、使用Hive，HDFS来保存全部的数据；

B2、数据按照日期进行分组，方便查询某一个时间段内的数据。

在上述的一种大数据多层次存储架构中，所述层级一内设置有后台服务模块，所述后台服务模块与外部的前台服务模块连接，且后台服务模块与Hbase和SSD硬盘之间双向连接，所述后台服务模块受制于外部的Kafka分布式消息系统。

在上述的一种大数据多层次存储架构中，所述层级二中的数据以一定的方式进行索引分组，以提升查询效率，并且层级二使用性能相对较好，价格适中的混合硬盘来作为硬件，所述层级二中包含Spark框架，所述后台服务模块的输出端与Spark框架连接，所述Spark框架与外部的分析服务模块连接，且Spark框架与HDFS、Parquet格式和混合硬盘之间双向连接。

在上述的一种大数据多层次存储架构中，所述层级三使用价格低但价格与存储比高的HDD盘作为硬件，所述Spark框架的输出端分别与HDFS、Hive和HDD硬盘连接。

在上述的一种大数据多层次存储架构中，所述分析服务模块包括布隆过滤器、散列法、索引法、字典树和并行计算的分析方法。

在上述的一种大数据多层次存储架构中，所述大数据分析根据实时要求分为实时分析和离线分析，大数据分析按照层次的不同分为内存级分析、BI分析和海量分析。

与现有技术相比，本一种大数据多层次存储架构的优点在于：

1、创新之处在于将数据分为三类：冷、温和热，分别对应：

1.十分低频访问的历史数据。

2.相对热点但只用于批量计算，无需实时访问读取的随机数据。

3.最热点最新的数据。需要对线上服务提供低延迟的随机读写。同时对于不同的数据进行分层，不同的层次通过使用不同的技术框架和硬件设备，来解决不同的需求。

2、对于需要随机读写的热点数据，使用Hbase和SSD硬盘来提供平均20ms的随机读性能，对于大规模分析计算，使用Spark、Parquet和混合硬盘，对比单一使用Hbase存储同样规模的数据，将性能提升了几十倍。保护点在于利用不同大数据框架和技术搭建多层次的大数据架构平台，针对不同的使用场景运用不同的技术和解决方案，提升业务性能和降低计算时间以及硬件成本。

附图说明

图1为本发明提出的一种大数据多层次存储架构的方法步骤图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1，一种大数据多层次存储架构，包括三个层次，三个层次分别为层级一、层级二和层级三；

层级一包括以下步骤：

S1、只保存热点数据(如7天)；

S2、使用Hbase来提供低延迟的随机读写；

S3、使用SSD硬盘来作为硬件提供良好性能；

层级二包括以下步骤：

A1、保存相对热门数据(如180天)；

A2、使用Spark来提供高效的大规模分析计算；

A3、使用开源的ApacheHadoop分布式文件系统(HDFS)来存储数据；

A4、数据存储使用Parquet格式，来提升Spark计算效率；

层级三包括以下步骤：

B1、使用Hive，HDFS来保存全部的数据；

其中，层级一内设置有后台服务模块，后台服务模块与外部的前台服务模块连接，且后台服务模块与Hbase和SSD硬盘之间双向连接，后台服务模块受制于外部的Kafka分布式消息系统。

其中，层级二中的数据以一定的方式进行索引分组，以提升查询效率，并且层级二使用性能相对较好，价格适中的混合硬盘来作为硬件，层级二中包含Spark框架，后台服务模块的输出端与Spark框架连接，Spark框架与外部的分析服务模块连接，且Spark框架与HDFS、Parquet格式和混合硬盘之间双向连接。

具体的，分析服务模块包括布隆过滤器、散列法、索引法、字典树和并行计算的分析方法，更具体的，布隆过滤器是由一个位数组和一系列的哈希函数组成。布隆过滤器的原理是通过利用位数组来存储数据本身之外的数据的哈希值。位数组本质上是使用哈希函数来进行数据的有损压缩，从而存储其位图索引。布隆过滤器算法的核心思想：利用多个不同的哈希函数来解决“冲突”；散列法是一种将数据变换为较短的固定长度数值或索引值的基本方法。特点：快速读取、快速写入和高查询速度；索引法是减少磁盘读取和写入成本的有效方法。索引法能够提高插入、删除、修改和查询速度，索引一般分为两类：聚集索引和非聚集索引。例子是索引类似于书籍的目录；字典树又称单词查找树，是一种哈希树的变体，它主要应用于快速检索和字频统计，主要思想是：利用字符串的常见前缀来最大限度地减少字符串的比较，从而提高查询效率；并行计算是指利用若干计算资源来完成计算任务，其基本思想是：分解一个问题并将其分配给几个独立的进程，以便独立完成，从而实现协同处理，另外，大数据分析可以根据实时要求分为实时分析和离线分析，大数据分析按照层次的不同还可以分为内存级分析、BI分析和海量分析。

其中，层级三使用价格低但价格与存储比高的HDD盘作为硬件，Spark框架的输出端分别与HDFS、Hive和HDD硬盘连接。

本发明解决了之前利用单一结构或者单一数据库导致无法满足不同使用场景的局限性以及因为数据量的大规模，单一数据库无法使用不用类型的硬盘，从而不得不统一使用价格昂贵的高性能硬盘，导致硬件成本的上升。

通过将数据分类，根据不同的使用场景，热点数据小而性能要求高，则使用价格高同时性能也好的SSD硬盘，这样在性能大幅度提升的同时，成本也得到了控制；对于需要进行大规模分析计算的相对热的数据，使用价格适中的混合硬盘，来存储一部分的数据，同时运用Parquet数据格式提升分析的性能；最后使用性能低但是价格低廉的HDD硬盘来存储全量的数据，是考虑到历史数据的访问频率是非常低频的。

最终取得了即能满足线上服务对于最新数据的高性能读写的要求，也能满足线下的分析计算的性能提升，同时也降低了整个存储集群的硬件消耗成本。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其实用新型构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种大数据多层次存储系统，其特征在于，包括三个层次，三个所述层次分别为层级一、层级二和层级三；

所述层级一包括以下步骤：

S1、只保存热点数据或者只保存7天内的热点数据；

S2、使用Hbase来提供低延迟的随机读写；

S3、使用SSD硬盘来作为硬件提供良好性能；

所述层级二包括以下步骤：

A1、保存相对热门数据或者保存180天内的相对热门数据；

A2、使用Spark来提供高效的大规模分析计算；

A3、使用开源的ApacheHadoop分布式文件系统HDFS来存储数据；

A4、数据存储使用Parquet格式，来提升Spark计算效率；

所述层级三包括以下步骤：

B1、使用Hive，HDFS来保存全部的数据；

2.根据权利要求1所述的一种大数据多层次存储系统，其特征在于，所述层级一内设置有后台服务模块，所述后台服务模块与外部的前台服务模块连接，且后台服务模块与Hbase和SSD硬盘之间双向连接，所述后台服务模块受制于外部的Kafka分布式消息系统。

3.根据权利要求2所述的一种大数据多层次存储系统，其特征在于，所述层级二中的数据按照索引分组，以提升查询效率，并且层级二使用混合硬盘来作为硬件，所述层级二中包含Spark框架，所述后台服务模块的输出端与Spark框架连接，所述Spark框架与外部的分析服务模块连接，且Spark框架与HDFS、Parquet格式和混合硬盘之间双向连接。

4.根据权利要求3所述的一种大数据多层次存储系统，其特征在于，所述层级三使用价格低但价格与存储比高的HDD盘作为硬件，所述Spark框架的输出端分别与HDFS、Hive和HDD硬盘连接。

5.根据权利要求3所述的一种大数据多层次存储系统，其特征在于，所述分析服务模块包括布隆过滤器、散列法、索引法、字典树和并行计算的分析方法。

6.根据权利要求5所述的一种大数据多层次存储系统，其特征在于，所述大数据分析根据实时要求分为实时分析和离线分析，大数据分析按照层次的不同分为内存级分析、BI分析和海量分析。