CN111026918A

CN111026918A - 一种温数据大规模分析架构

Info

Publication number: CN111026918A
Application number: CN201911102665.2A
Authority: CN
Inventors: 冯报安; 杨晶生
Original assignee: Shanghai Microphone Culture Media Co ltd
Current assignee: Shanghai Microphone Culture Media Co ltd
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-04-17

Abstract

本发明属于温数据处理技术领域，尤其时涉及一种温数据大规模分析架构，包括数据采集模块，对数据的录入存储实现采集；数据分析模块，使用Spark来提供高效的大规模分析计算；数据索引分组模块，数据以一定的方式进行索引分组，例如按日期，再类型等，依据查询条件的频繁程度，依次序和层级进行，以提升查询效率；数据存储模块，采用开源的Apache Hadoop分布式文件系统来存储数据；数据定期清除模块，对数据采进行定期清除处理，支持分布式文件系统、行式数据库、列式数据库及对象存储系统存储。本发明能够在保证计算速度的同时，也控制了硬件的成本。

Description

一种温数据大规模分析架构

技术领域

本发明涉及温数据处理技术领域，尤其涉及一种温数据大规模分析架构。

背景技术

当前架构方案下，是将全部数据存储在单一的数据库中，然而传统的数据库为了满足一些特定的需求，比如：强一致性，事务性，大数据量下的高性能读写等等，往往对于大范围大批量的分析处理无法得到很好的优化，从而导致数据库会需要进行全表扫描的操作，从而耗费大量的时间。

另外根据业务场景，大部分的离线分析计算不会需要使用到全部的数据量，往往时间跨度在半年至一年之间，所以只保存需要范围内的数据，也可以提升分析计算的效率并且控制硬件的使用成本。

为此，我们提出一种温数据大规模分析架构来解决上述问题。

发明内容

1、发明目的。

本发明提出了一种温数据大规模分析架构，可以在提升大范围数据的读取速度的同时，能够减少住数据存储的用量。

2、本发明所采用的技术方案。

一种温数据大规模分析架构，包括：

数据采集模块，对数据的录入存储实现采集；

数据分析模块，使用Spark来提供高效的大规模分析计算；

数据索引分组模块，数据以一定的方式进行索引分组，例如按日期，再类型等，依据查询条件的频繁程度，依次序和层级进行，以提升查询效率；

数据存储模块，采用开源的Apache Hadoop分布式文件系统来存储数据；

数据定期清除模块，对数据采进行定期清除处理，支持分布式文件系统、行式数据库、列式数据库及对象存储系统存储。

在上述一种温数据大规模分析架构中，所述数据存储模块中数据存储使用Parquet格式。

在上述一种温数据大规模分析架构中，所述数据分析模块采用DPI/DFI相结合的技术，对数据包的流特征和有效载荷进行分析，实现流量分类和有效载荷信息提取。

在上述一种温数据大规模分析架构中，所述数据采集模块中对于录入的数据根据日期n来进行关联。

在上述一种温数据大规模分析架构中，所述数据定期清除模块包括当日的日期m，通过设置阈值a，通过对比(m-n)和阈值a，从而判定是否对数据进行清除。

3、本发明所产生的技术效果。

本发明解决了之前由于使用传统数据库对于大数据无法进行很好的支持，或者由于使用Hbase这样的列式分布式数据库，虽然能够根据主键提供单条数据的高性能读写，但是对于大范围的全用户数据的读取，性能是十分低下，同时在大规模读取数据时，也会影响到原本的单数据的读写性能。

同时，由于使用了Snappy压缩算法能够很大的降低存储空间，另外在使用Parquet时，通过进行根据读取方式，将数据进行分组，能够很大的提升数据查询的速度。然后，根据业务需求，只选择保存近半年或者一年的数据，可以控制存储的空间大小。最后，选择混合硬盘也能够在性能得到提升。

最终取得了，即能满足大规模离线分析计算的性能提升，并且还能将硬件整体的成本消耗得到很好的控制。

附图说明

图1为本发明提出的一种温数据大规模分析架构的整体架构图。

具体实施方式

以下实施例仅处于说明性目的，而不是想要限制本发明的范围。

实施例

一种温数据大规模分析架构，包括：

数据采集模块，对数据的录入存储实现采集；

数据分析模块，使用Spark来提供高效的大规模分析计算；

其中，所述数据存储模块中数据存储使用Parquet格式。

其中，所述数据分析模块采用DPI/DFI相结合的技术，对数据包的流特征和有效载荷进行分析，实现流量分类和有效载荷信息提取。

其中，所述数据采集模块中对于录入的数据根据日期n来进行关联。

其中，所述数据定期清除模块包括当日的日期m，通过设置阈值a，通过对比(m-n)和阈值a，从而判定是否对数据进行清除。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种温数据大规模分析架构，其特征在于，包括：

数据采集模块，对数据的录入存储实现采集；

数据分析模块，使用Spark来提供高效的大规模分析计算；

2.根据权利要求1所述的一种温数据大规模分析架构，其特征在于，所述数据存储模块中数据存储使用Parquet格式。

3.根据权利要求1所述的一种温数据大规模分析架构，其特征在于，所述数据分析模块采用DPI/DFI相结合的技术，对数据包的流特征和有效载荷进行分析，实现流量分类和有效载荷信息提取。

4.根据权利要求1所述的一种温数据大规模分析架构，其特征在于，所述数据采集模块中对于录入的数据根据日期n来进行关联。

5.根据权利要求4所述的一种温数据大规模分析架构，其特征在于，所述数据定期清除模块包括当日的日期m，通过设置阈值a，通过对比(m-n)和阈值a，从而判定是否对数据进行清除。