CN111026918A - 一种温数据大规模分析架构 - Google Patents
一种温数据大规模分析架构 Download PDFInfo
- Publication number
- CN111026918A CN111026918A CN201911102665.2A CN201911102665A CN111026918A CN 111026918 A CN111026918 A CN 111026918A CN 201911102665 A CN201911102665 A CN 201911102665A CN 111026918 A CN111026918 A CN 111026918A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- storage
- scale analysis
- index grouping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 22
- 238000007405 data analysis Methods 0.000 claims abstract description 12
- 238000013500 data storage Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 230000000737 periodic effect Effects 0.000 claims description 2
- 238000013480 data collection Methods 0.000 claims 1
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000034 method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
Abstract
本发明属于温数据处理技术领域,尤其时涉及一种温数据大规模分析架构,包括数据采集模块,对数据的录入存储实现采集;数据分析模块,使用Spark来提供高效的大规模分析计算;数据索引分组模块,数据以一定的方式进行索引分组,例如按日期,再类型等,依据查询条件的频繁程度,依次序和层级进行,以提升查询效率;数据存储模块,采用开源的Apache Hadoop分布式文件系统来存储数据;数据定期清除模块,对数据采进行定期清除处理,支持分布式文件系统、行式数据库、列式数据库及对象存储系统存储。本发明能够在保证计算速度的同时,也控制了硬件的成本。
Description
技术领域
本发明涉及温数据处理技术领域,尤其涉及一种温数据大规模分析架构。
背景技术
当前架构方案下,是将全部数据存储在单一的数据库中,然而传统的数据库为了满足一些特定的需求,比如:强一致性,事务性,大数据量下的高性能读写等等,往往对于大范围大批量的分析处理无法得到很好的优化,从而导致数据库会需要进行全表扫描的操作,从而耗费大量的时间。
另外根据业务场景,大部分的离线分析计算不会需要使用到全部的数据量,往往时间跨度在半年至一年之间,所以只保存需要范围内的数据,也可以提升分析计算的效率并且控制硬件的使用成本。
为此,我们提出一种温数据大规模分析架构来解决上述问题。
发明内容
1、发明目的。
本发明提出了一种温数据大规模分析架构,可以在提升大范围数据的读取速度的同时,能够减少住数据存储的用量。
2、本发明所采用的技术方案。
一种温数据大规模分析架构,包括:
数据采集模块,对数据的录入存储实现采集;
数据分析模块,使用Spark来提供高效的大规模分析计算;
数据索引分组模块,数据以一定的方式进行索引分组,例如按日期,再类型等,依据查询条件的频繁程度,依次序和层级进行,以提升查询效率;
数据存储模块,采用开源的Apache Hadoop分布式文件系统来存储数据;
数据定期清除模块,对数据采进行定期清除处理,支持分布式文件系统、行式数据库、列式数据库及对象存储系统存储。
在上述一种温数据大规模分析架构中,所述数据存储模块中数据存储使用Parquet格式。
在上述一种温数据大规模分析架构中,所述数据分析模块采用DPI/DFI相结合的技术,对数据包的流特征和有效载荷进行分析,实现流量分类和有效载荷信息提取。
在上述一种温数据大规模分析架构中,所述数据采集模块中对于录入的数据根据日期n来进行关联。
在上述一种温数据大规模分析架构中,所述数据定期清除模块包括当日的日期m,通过设置阈值a,通过对比(m-n)和阈值a,从而判定是否对数据进行清除。
3、本发明所产生的技术效果。
本发明解决了之前由于使用传统数据库对于大数据无法进行很好的支持,或者由于使用Hbase这样的列式分布式数据库,虽然能够根据主键提供单条数据的高性能读写,但是对于大范围的全用户数据的读取,性能是十分低下,同时在大规模读取数据时,也会影响到原本的单数据的读写性能。
同时,由于使用了Snappy压缩算法能够很大的降低存储空间,另外在使用Parquet时,通过进行根据读取方式,将数据进行分组,能够很大的提升数据查询的速度。然后,根据业务需求,只选择保存近半年或者一年的数据,可以控制存储的空间大小。最后,选择混合硬盘也能够在性能得到提升。
最终取得了,即能满足大规模离线分析计算的性能提升,并且还能将硬件整体的成本消耗得到很好的控制。
附图说明
图1为本发明提出的一种温数据大规模分析架构的整体架构图。
具体实施方式
以下实施例仅处于说明性目的,而不是想要限制本发明的范围。
实施例
一种温数据大规模分析架构,包括:
数据采集模块,对数据的录入存储实现采集;
数据分析模块,使用Spark来提供高效的大规模分析计算;
数据索引分组模块,数据以一定的方式进行索引分组,例如按日期,再类型等,依据查询条件的频繁程度,依次序和层级进行,以提升查询效率;
数据存储模块,采用开源的Apache Hadoop分布式文件系统来存储数据;
数据定期清除模块,对数据采进行定期清除处理,支持分布式文件系统、行式数据库、列式数据库及对象存储系统存储。
其中,所述数据存储模块中数据存储使用Parquet格式。
其中,所述数据分析模块采用DPI/DFI相结合的技术,对数据包的流特征和有效载荷进行分析,实现流量分类和有效载荷信息提取。
其中,所述数据采集模块中对于录入的数据根据日期n来进行关联。
其中,所述数据定期清除模块包括当日的日期m,通过设置阈值a,通过对比(m-n)和阈值a,从而判定是否对数据进行清除。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种温数据大规模分析架构,其特征在于,包括:
数据采集模块,对数据的录入存储实现采集;
数据分析模块,使用Spark来提供高效的大规模分析计算;
数据索引分组模块,数据以一定的方式进行索引分组,例如按日期,再类型等,依据查询条件的频繁程度,依次序和层级进行,以提升查询效率;
数据存储模块,采用开源的Apache Hadoop分布式文件系统来存储数据;
数据定期清除模块,对数据采进行定期清除处理,支持分布式文件系统、行式数据库、列式数据库及对象存储系统存储。
2.根据权利要求1所述的一种温数据大规模分析架构,其特征在于,所述数据存储模块中数据存储使用Parquet格式。
3.根据权利要求1所述的一种温数据大规模分析架构,其特征在于,所述数据分析模块采用DPI/DFI相结合的技术,对数据包的流特征和有效载荷进行分析,实现流量分类和有效载荷信息提取。
4.根据权利要求1所述的一种温数据大规模分析架构,其特征在于,所述数据采集模块中对于录入的数据根据日期n来进行关联。
5.根据权利要求4所述的一种温数据大规模分析架构,其特征在于,所述数据定期清除模块包括当日的日期m,通过设置阈值a,通过对比(m-n)和阈值a,从而判定是否对数据进行清除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911102665.2A CN111026918A (zh) | 2019-11-12 | 2019-11-12 | 一种温数据大规模分析架构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911102665.2A CN111026918A (zh) | 2019-11-12 | 2019-11-12 | 一种温数据大规模分析架构 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111026918A true CN111026918A (zh) | 2020-04-17 |
Family
ID=70205614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911102665.2A Pending CN111026918A (zh) | 2019-11-12 | 2019-11-12 | 一种温数据大规模分析架构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111026918A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506915A (zh) * | 2020-10-27 | 2021-03-16 | 百果园技术(新加坡)有限公司 | 一种应用数据的管理系统以及处理方法、装置和服务器 |
CN112506915B (zh) * | 2020-10-27 | 2024-05-10 | 百果园技术(新加坡)有限公司 | 一种应用数据的管理系统以及处理方法、装置和服务器 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105528367A (zh) * | 2014-09-30 | 2016-04-27 | 华东师范大学 | 基于开源大数据对时间敏感数据的存储和近实时查询方法 |
CN106484877A (zh) * | 2016-10-14 | 2017-03-08 | 东北大学 | 一种基于hdfs的文件检索系统 |
CN106649636A (zh) * | 2016-12-08 | 2017-05-10 | 北京锐安科技有限公司 | 一种基于移动终端的人员流动性分析方法及装置 |
CN107133342A (zh) * | 2017-05-16 | 2017-09-05 | 广州舜飞信息科技有限公司 | 一种IndexR实时数据分析库 |
US20190147086A1 (en) * | 2016-09-26 | 2019-05-16 | Splunk Inc. | Generating a subquery for an external data system using a configuration file |
CN109947729A (zh) * | 2017-07-17 | 2019-06-28 | 普天信息技术有限公司 | 一种实时数据分析方法及装置 |
-
2019
- 2019-11-12 CN CN201911102665.2A patent/CN111026918A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105528367A (zh) * | 2014-09-30 | 2016-04-27 | 华东师范大学 | 基于开源大数据对时间敏感数据的存储和近实时查询方法 |
US20190147086A1 (en) * | 2016-09-26 | 2019-05-16 | Splunk Inc. | Generating a subquery for an external data system using a configuration file |
CN106484877A (zh) * | 2016-10-14 | 2017-03-08 | 东北大学 | 一种基于hdfs的文件检索系统 |
CN106649636A (zh) * | 2016-12-08 | 2017-05-10 | 北京锐安科技有限公司 | 一种基于移动终端的人员流动性分析方法及装置 |
CN107133342A (zh) * | 2017-05-16 | 2017-09-05 | 广州舜飞信息科技有限公司 | 一种IndexR实时数据分析库 |
CN109947729A (zh) * | 2017-07-17 | 2019-06-28 | 普天信息技术有限公司 | 一种实时数据分析方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506915A (zh) * | 2020-10-27 | 2021-03-16 | 百果园技术(新加坡)有限公司 | 一种应用数据的管理系统以及处理方法、装置和服务器 |
CN112506915B (zh) * | 2020-10-27 | 2024-05-10 | 百果园技术(新加坡)有限公司 | 一种应用数据的管理系统以及处理方法、装置和服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102222085B (zh) | 一种基于相似性与局部性结合的重复数据删除方法 | |
CN104380267B (zh) | 数据解压/压缩装置 | |
US9846711B2 (en) | LSM cache | |
CN103488709B (zh) | 一种索引建立方法及系统、检索方法及系统 | |
CN102968390B (zh) | 基于预先解码分析的配置信息缓存管理方法及系统 | |
CN102024047B (zh) | 数据检索方法及装置 | |
CN101782922B (zh) | 一种面向海量数据检索的多级桶哈希索引方法 | |
CN101996250A (zh) | 一种基于Hadoop的海量流数据存储和查询方法及系统 | |
WO2012174888A1 (zh) | 一种分布式缓存系统中的数据写入及读取方法及装置 | |
CN101819509A (zh) | 一种固态硬盘读写方法 | |
CN110825748A (zh) | 利用差异化索引机制的高性能和易扩展的键值存储方法 | |
CN113836084A (zh) | 一种数据存储方法、装置和系统 | |
CN112953550A (zh) | 数据压缩的方法、电子设备及存储介质 | |
CN103020317A (zh) | 基于重复数据删除的数据压缩方法和装置 | |
CN103853766A (zh) | 一种面向流式数据的在线处理方法及系统 | |
CN102158349A (zh) | 一种日志管理装置及方法 | |
CN102314697A (zh) | 基于数据类型的数值型数据压缩及解压缩方法 | |
Chandra et al. | Sibyl: a system for large scale machine learning | |
CN102880615A (zh) | 一种数据存储方法和装置 | |
CN105956128A (zh) | 一种基于简单再生码的自适应编码存储容错方法 | |
CN105630810A (zh) | 一种对于海量小文件在分布式存储系统中上载的方法 | |
CN101576856A (zh) | 一种基于长短周期访问频度的缓存数据替换方法 | |
CN103390045A (zh) | 一种用于监控系统的时间序列存储方法及装置 | |
CN104050103A (zh) | 一种用于数据恢复的缓存替换方法与系统 | |
CN104050057B (zh) | 一种历史感知的数据去重碎片消除方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200417 |