CN111026721A

CN111026721A - 一种温数据存储方法

Info

Publication number: CN111026721A
Application number: CN201911102664.8A
Authority: CN
Inventors: 冯报安; 杨晶生
Original assignee: Shanghai Microphone Culture Media Co ltd
Current assignee: Shanghai Microphone Culture Media Co ltd
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-04-17

Abstract

本发明属于温数据存储领域，尤其时涉及一种温数据存储方法，包括：每日通过服务器以及相关平台录入数据；根据录入数据时的日期对数据赋值n；对当日日期进行赋值，设置成m，通过算法算出(m‑n)的值，即为数据关联的关键词，将关键词关联数据；设置阈值a；将数据关联的关键词(m‑n)与阈值a进行大小比较，当出现(m‑n)较大时，对数据进行清除处理，当出现a较大时，不对数据进行处理；通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。本发明使用Parquet格式和Snappy压缩算法在提升大范围数据的读取速度的同时，能够减少住数据存储的用量。

Description

一种温数据存储方法

技术领域

本发明涉及温数据存储领域，尤其涉及一种温数据存储方法。

背景技术

当前架构的存储方案下，是将全部数据存储在单一的数据库中，然而传统的数据库为了满足一些特定的需求，比如：强一致性，事务性，大数据量下的高性能读写等等，往往对于大范围大批量的分析处理无法得到很好的优化，从而导致数据库会需要进行全表扫描的操作，从而耗费大量的时间。

另外根据业务场景，大部分的离线分析计算不会需要使用到全部的数据量，往往时间跨度在半年至一年之间，所以只保存需要范围内的数据，也可以提升分析计算的效率并且控制硬件的使用成本。

为此，我们提出一种温数据存储方法来解决上述问题。

发明内容

1、发明目的。

本发明提出了一种温数据存储方法，可以定期对数据进行清理，同时便于对数据进行索引和分组，对于硬件的需求较低。

2、本发明所采用的技术方案。

一种温数据存储方法，具体包括以下步骤：

S1、每日通过服务器以及相关平台录入数据；

S2、根据录入数据时的日期对数据赋值n；

S3、将数据以Parquet格式存入HDFS；

S4、对当日日期进行赋值，设置成m，通过算法算出(m-n)的值，即为数据关联的关键词，将关键词关联数据；

S5、设置阈值a；

S6、将数据关联的关键词(m-n)与阈值a进行大小比较，当出现(m-n)较大时，对数据进行清除处理，当出现a较大时，不对数据进行处理；

S7、通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。

在上述的一种温数据存储方法中，在进行所述S1步骤前先对数据进行检测，检测数据中是否有与现有数据相重复的，检测到重复的数据不予录入。

在上述的一种温数据存储方法中，在检测到重复数据后，根据当日的日期重新对存储中的现有数据进行m的赋值。

在上述的一种温数据存储方法中，在进行所述S8步骤时，根据数据的索引次数得出数据的得分值，将数据的得分值进行加权处理，得到每个物品排序权重值，根据权重值对数据进行分组。

3、本发明所产生的技术效果。

通过将开源的集群运算框架Spark和开源的面向列的格式Parquet进行配合，再将数据以一定的方式进行索引分组，让大范围的数据读取的性能得到大幅度的提升；与此同时，数据只保存业务需求的时间长度，如半年，那么数据规模相对适中，所以使用价格和性能都相对适中的混合硬盘进行存储，从而控制成本。

附图说明

图1为本发明提出的一种温数据存储方法的步骤图。

具体实施方式

以下实施例仅处于说明性目的，而不是想要限制本发明的范围。

实施例

一种温数据存储方法，具体包括以下步骤：

S1、每日通过服务器以及相关平台录入数据；

S2、根据录入数据时的日期对数据赋值n；

S3、将数据以Parquet格式存入HDFS；

S5、设置阈值a；

其中，在进行S1步骤前先对数据进行检测，检测数据中是否有与现有数据相重复的，检测到重复的数据不予录入。

其中，在检测到重复数据后，根据当日的日期重新对存储中的现有数据进行m的赋值。

其中，在进行S8步骤时，根据数据的索引次数得出数据的得分值，将数据的得分值进行加权处理，得到每个物品排序权重值，根据权重值对数据进行分组。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种温数据存储方法，其特征在于，具体包括以下步骤：

S1、每日通过服务器以及相关平台录入数据；

S2、根据录入数据时的日期对数据赋值n；

S3、将数据以Parquet格式存入HDFS；

S5、设置阈值a；

2.根据权利要求1所述的一种温数据存储方法，其特征在于，在进行所述S1步骤前先对数据进行检测，检测数据中是否有与现有数据相重复的，检测到重复的数据不予录入。

3.根据权利要求2所述的一种温数据存储方法，其特征在于，在检测到重复数据后，根据当日的日期重新对存储中的现有数据进行m的赋值。

4.根据权利要求1所述的一种温数据存储方法，其特征在于，在进行所述S8步骤时，根据数据的索引次数得出数据的得分值，将数据的得分值进行加权处理，得到每个物品排序权重值，根据权重值对数据进行分组。