CN110990340B - 一种大数据多层次存储架构 - Google Patents
一种大数据多层次存储架构 Download PDFInfo
- Publication number
- CN110990340B CN110990340B CN201911103255.XA CN201911103255A CN110990340B CN 110990340 B CN110990340 B CN 110990340B CN 201911103255 A CN201911103255 A CN 201911103255A CN 110990340 B CN110990340 B CN 110990340B
- Authority
- CN
- China
- Prior art keywords
- level
- data
- analysis
- big data
- service module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 238000013500 data storage Methods 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 12
- 238000007405 data analysis Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000010223 real-time analysis Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1727—Details of free space management performed by the file system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于大数据存储技术领域,尤其是涉及一种大数据多层次存储系统,包括三个层次,三个所述层次分别为层级一、层级二和层级三;所述层级一包括以下步骤:只保存热点数据;使用Hbase来提供低延迟的随机读写;使用SSD硬盘来作为硬件提供良好性能;所述层级二包括以下步骤:保存相对热门数据;使用Spark来提供高效的大规模分析计算;使用开源的ApacheHadoop分布式文件系统来存储数据;数据存储使用Parquet格式,来提升Spark计算效率。本发明提出利用不同大数据框架和技术搭建多层次的大数据架构平台,针对不同的使用场景运用不同的技术和解决方案,提升业务性能和降低计算时间以及硬件成本。
Description
技术领域
本发明涉及大数据存储技术领域,尤其涉及一种大数据多层次存储架构。
背景技术
随着业务和时间的不断发展,用户以及产品相关的数据量的持续扩大,传统的单数据库或者单模型存储的方式已经无法满足日益增长的大数据需求,如:即需要在短的延迟内从大量的数据中读出特定用户相关的个人数据,又要对大范围的用户数据进行批量的长时间跨度的分析运算等等。
另外,以前的传统关系型数据库当单表的数据量不断增大之后,会对读写的性能有着极大的性能的负面影响,最终导致的服务的不可用。然而现代的大数据工具也有着各自的使用场景的限制,如适合随机读写的存储不适合批量大范围读写,反之亦然。同时因为数据量的增大,随之而来的存储设备所带来的成本的上升,这也是当下不可忽视的问题。
因此,现在需要一个新的架构满足不同的使用场景下的数据随机读写和批量读写的性能要求。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种大数据多层次存储架构。
为了实现上述目的,本发明采用了如下技术方案:
一种大数据多层次存储架构,包括三个层次,三个所述层次分别为层级一、层级二和层级三;
所述层级一包括以下步骤:
S1、只保存热点数据(如7天);
S2、使用Hbase来提供低延迟的随机读写;
S3、使用SSD硬盘来作为硬件提供良好性能;
所述层级二包括以下步骤:
A1、保存相对热门数据(如180天);
A2、使用Spark来提供高效的大规模分析计算;
A3、使用开源的ApacheHadoop分布式文件系统(HDFS)来存储数据;
A4、数据存储使用Parquet格式,来提升Spark计算效率;
所述层级三包括以下步骤:
B1、使用Hive,HDFS来保存全部的数据;
B2、数据按照日期进行分组,方便查询某一个时间段内的数据。
在上述的一种大数据多层次存储架构中,所述层级一内设置有后台服务模块,所述后台服务模块与外部的前台服务模块连接,且后台服务模块与Hbase和SSD硬盘之间双向连接,所述后台服务模块受制于外部的Kafka分布式消息系统。
在上述的一种大数据多层次存储架构中,所述层级二中的数据以一定的方式进行索引分组,以提升查询效率,并且层级二使用性能相对较好,价格适中的混合硬盘来作为硬件,所述层级二中包含Spark框架,所述后台服务模块的输出端与Spark框架连接,所述Spark框架与外部的分析服务模块连接,且Spark框架与HDFS、Parquet格式和混合硬盘之间双向连接。
在上述的一种大数据多层次存储架构中,所述层级三使用价格低但价格与存储比高的HDD盘作为硬件,所述Spark框架的输出端分别与HDFS、Hive和HDD硬盘连接。
在上述的一种大数据多层次存储架构中,所述分析服务模块包括布隆过滤器、散列法、索引法、字典树和并行计算的分析方法。
在上述的一种大数据多层次存储架构中,所述大数据分析根据实时要求分为实时分析和离线分析,大数据分析按照层次的不同分为内存级分析、BI分析和海量分析。
与现有技术相比,本一种大数据多层次存储架构的优点在于:
1、创新之处在于将数据分为三类:冷、温和热,分别对应:
1.十分低频访问的历史数据。
2.相对热点但只用于批量计算,无需实时访问读取的随机数据。
3.最热点最新的数据。需要对线上服务提供低延迟的随机读写。同时对于不同的数据进行分层,不同的层次通过使用不同的技术框架和硬件设备,来解决不同的需求。
2、对于需要随机读写的热点数据,使用Hbase和SSD硬盘来提供平均20ms的随机读性能,对于大规模分析计算,使用Spark、Parquet和混合硬盘,对比单一使用Hbase存储同样规模的数据,将性能提升了几十倍。保护点在于利用不同大数据框架和技术搭建多层次的大数据架构平台,针对不同的使用场景运用不同的技术和解决方案,提升业务性能和降低计算时间以及硬件成本。
附图说明
图1为本发明提出的一种大数据多层次存储架构的方法步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种大数据多层次存储架构,包括三个层次,三个层次分别为层级一、层级二和层级三;
层级一包括以下步骤:
S1、只保存热点数据(如7天);
S2、使用Hbase来提供低延迟的随机读写;
S3、使用SSD硬盘来作为硬件提供良好性能;
层级二包括以下步骤:
A1、保存相对热门数据(如180天);
A2、使用Spark来提供高效的大规模分析计算;
A3、使用开源的ApacheHadoop分布式文件系统(HDFS)来存储数据;
A4、数据存储使用Parquet格式,来提升Spark计算效率;
层级三包括以下步骤:
B1、使用Hive,HDFS来保存全部的数据;
B2、数据按照日期进行分组,方便查询某一个时间段内的数据。
其中,层级一内设置有后台服务模块,后台服务模块与外部的前台服务模块连接,且后台服务模块与Hbase和SSD硬盘之间双向连接,后台服务模块受制于外部的Kafka分布式消息系统。
其中,层级二中的数据以一定的方式进行索引分组,以提升查询效率,并且层级二使用性能相对较好,价格适中的混合硬盘来作为硬件,层级二中包含Spark框架,后台服务模块的输出端与Spark框架连接,Spark框架与外部的分析服务模块连接,且Spark框架与HDFS、Parquet格式和混合硬盘之间双向连接。
具体的,分析服务模块包括布隆过滤器、散列法、索引法、字典树和并行计算的分析方法,更具体的,布隆过滤器是由一个位数组和一系列的哈希函数组成。布隆过滤器的原理是通过利用位数组来存储数据本身之外的数据的哈希值。位数组本质上是使用哈希函数来进行数据的有损压缩,从而存储其位图索引。布隆过滤器算法的核心思想:利用多个不同的哈希函数来解决“冲突”;散列法是一种将数据变换为较短的固定长度数值或索引值的基本方法。特点:快速读取、快速写入和高查询速度;索引法是减少磁盘读取和写入成本的有效方法。索引法能够提高插入、删除、修改和查询速度,索引一般分为两类:聚集索引和非聚集索引。例子是索引类似于书籍的目录;字典树又称单词查找树,是一种哈希树的变体,它主要应用于快速检索和字频统计,主要思想是:利用字符串的常见前缀来最大限度地减少字符串的比较,从而提高查询效率;并行计算是指利用若干计算资源来完成计算任务,其基本思想是:分解一个问题并将其分配给几个独立的进程,以便独立完成,从而实现协同处理,另外,大数据分析可以根据实时要求分为实时分析和离线分析,大数据分析按照层次的不同还可以分为内存级分析、BI分析和海量分析。
其中,层级三使用价格低但价格与存储比高的HDD盘作为硬件,Spark框架的输出端分别与HDFS、Hive和HDD硬盘连接。
本发明解决了之前利用单一结构或者单一数据库导致无法满足不同使用场景的局限性以及因为数据量的大规模,单一数据库无法使用不用类型的硬盘,从而不得不统一使用价格昂贵的高性能硬盘,导致硬件成本的上升。
通过将数据分类,根据不同的使用场景,热点数据小而性能要求高,则使用价格高同时性能也好的SSD硬盘,这样在性能大幅度提升的同时,成本也得到了控制;对于需要进行大规模分析计算的相对热的数据,使用价格适中的混合硬盘,来存储一部分的数据,同时运用Parquet数据格式提升分析的性能;最后使用性能低但是价格低廉的HDD硬盘来存储全量的数据,是考虑到历史数据的访问频率是非常低频的。
最终取得了即能满足线上服务对于最新数据的高性能读写的要求,也能满足线下的分析计算的性能提升,同时也降低了整个存储集群的硬件消耗成本。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其实用新型构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种大数据多层次存储系统,其特征在于,包括三个层次,三个所述层次分别为层级一、层级二和层级三;
所述层级一包括以下步骤:
S1、只保存热点数据或者只保存7天内的热点数据;
S2、使用Hbase来提供低延迟的随机读写;
S3、使用SSD硬盘来作为硬件提供良好性能;
所述层级二包括以下步骤:
A1、保存相对热门数据或者保存180天内的相对热门数据;
A2、使用Spark来提供高效的大规模分析计算;
A3、使用开源的ApacheHadoop分布式文件系统HDFS来存储数据;
A4、数据存储使用Parquet格式,来提升Spark计算效率;
所述层级三包括以下步骤:
B1、使用Hive,HDFS来保存全部的数据;
B2、数据按照日期进行分组,方便查询某一个时间段内的数据。
2.根据权利要求1所述的一种大数据多层次存储系统,其特征在于,所述层级一内设置有后台服务模块,所述后台服务模块与外部的前台服务模块连接,且后台服务模块与Hbase和SSD硬盘之间双向连接,所述后台服务模块受制于外部的Kafka分布式消息系统。
3.根据权利要求2所述的一种大数据多层次存储系统,其特征在于,所述层级二中的数据按照索引分组,以提升查询效率,并且层级二使用混合硬盘来作为硬件,所述层级二中包含Spark框架,所述后台服务模块的输出端与Spark框架连接,所述Spark框架与外部的分析服务模块连接,且Spark框架与HDFS、Parquet格式和混合硬盘之间双向连接。
4.根据权利要求3所述的一种大数据多层次存储系统,其特征在于,所述层级三使用价格低但价格与存储比高的HDD盘作为硬件,所述Spark框架的输出端分别与HDFS、Hive和HDD硬盘连接。
5.根据权利要求3所述的一种大数据多层次存储系统,其特征在于,所述分析服务模块包括布隆过滤器、散列法、索引法、字典树和并行计算的分析方法。
6.根据权利要求5所述的一种大数据多层次存储系统,其特征在于,所述大数据分析根据实时要求分为实时分析和离线分析,大数据分析按照层次的不同分为内存级分析、BI分析和海量分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911103255.XA CN110990340B (zh) | 2019-11-12 | 2019-11-12 | 一种大数据多层次存储架构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911103255.XA CN110990340B (zh) | 2019-11-12 | 2019-11-12 | 一种大数据多层次存储架构 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110990340A CN110990340A (zh) | 2020-04-10 |
CN110990340B true CN110990340B (zh) | 2024-04-12 |
Family
ID=70084117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911103255.XA Active CN110990340B (zh) | 2019-11-12 | 2019-11-12 | 一种大数据多层次存储架构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990340B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112051968B (zh) * | 2020-08-07 | 2021-10-22 | 东北大学 | 基于Kafka的分布式数据流分级缓存自动迁移方法 |
CN113407577B (zh) * | 2021-06-29 | 2023-06-23 | 成都新潮传媒集团有限公司 | 一种kafka数据的查询方法、装置及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103713861A (zh) * | 2014-01-09 | 2014-04-09 | 浪潮(北京)电子信息产业有限公司 | 一种基于层次划分的文件处理方法及系统 |
CN104133909A (zh) * | 2014-08-08 | 2014-11-05 | 浪潮电子信息产业股份有限公司 | 一种多层次文件系统 |
WO2017096941A1 (zh) * | 2015-12-11 | 2017-06-15 | 深圳市华讯方舟软件技术有限公司 | 一种基于Spark-SQL大数据处理平台的后台刷新方法 |
-
2019
- 2019-11-12 CN CN201911103255.XA patent/CN110990340B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103713861A (zh) * | 2014-01-09 | 2014-04-09 | 浪潮(北京)电子信息产业有限公司 | 一种基于层次划分的文件处理方法及系统 |
CN104133909A (zh) * | 2014-08-08 | 2014-11-05 | 浪潮电子信息产业股份有限公司 | 一种多层次文件系统 |
WO2017096941A1 (zh) * | 2015-12-11 | 2017-06-15 | 深圳市华讯方舟软件技术有限公司 | 一种基于Spark-SQL大数据处理平台的后台刷新方法 |
Non-Patent Citations (2)
Title |
---|
张骁 ; 应时 ; 张韬 ; .应用软件运行日志的收集与服务处理框架.计算机工程与应用.2017,(10),全文. * |
郭慈 ; 廖振松 ; .基于Spark核心架构的大数据平台技术研究与实践.电信工程技术与标准化.2016,(10),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110990340A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11741053B2 (en) | Data management system, method, terminal and medium based on hybrid storage | |
US20200117661A1 (en) | Large scale application specific computing system architecture and operation | |
US8819335B1 (en) | System and method for executing map-reduce tasks in a storage device | |
CN102222085B (zh) | 一种基于相似性与局部性结合的重复数据删除方法 | |
CN103106249B (zh) | 一种基于Cassandra的数据并行处理系统 | |
CN103246616B (zh) | 一种长短周期访问频度的全局共享缓存替换方法 | |
WO2019109732A1 (zh) | 一种基因变异数据分布式存储方法及架构 | |
CN102521405A (zh) | 支持高速加载的海量结构化数据存储、查询方法和系统 | |
CN102622434B (zh) | 数据存储方法、查找方法及装置 | |
CN103246749A (zh) | 面向分布式计算的矩阵数据库系统及其查询方法 | |
CN104361113A (zh) | 一种内存-闪存混合存储模式下的olap查询优化方法 | |
CN110990340B (zh) | 一种大数据多层次存储架构 | |
Veeraiah et al. | An efficient data duplication system based on hadoop distributed file system | |
CN104765575A (zh) | 信息存储处理方法 | |
WO2012083754A1 (zh) | 处理脏数据的方法及装置 | |
CN109783441A (zh) | 基于Bloom Filter的海量数据查询方法 | |
CN113268457B (zh) | 一种支持高效写的自适应学习索引方法和系统 | |
CN110888861A (zh) | 一种新型大数据存储方法 | |
CN116089414B (zh) | 基于海量数据场景的时序数据库写入性能优化方法及装置 | |
Zhang et al. | Oceanrt: Real-time analytics over large temporal data | |
El Alami et al. | Supply of a key value database redis in-memory by data from a relational database | |
CN109471864A (zh) | 一种面向并行文件系统双层索引方法和系统 | |
US20130041887A1 (en) | Adding entries to an index based on use of the index | |
CN103841168B (zh) | 数据副本更新方法及元数据服务器 | |
CN103995869A (zh) | 一种基于Apriori算法的数据缓存方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |