CN111026721A - 一种温数据存储方法 - Google Patents
一种温数据存储方法 Download PDFInfo
- Publication number
- CN111026721A CN111026721A CN201911102664.8A CN201911102664A CN111026721A CN 111026721 A CN111026721 A CN 111026721A CN 201911102664 A CN201911102664 A CN 201911102664A CN 111026721 A CN111026721 A CN 111026721A
- Authority
- CN
- China
- Prior art keywords
- data
- keyword
- storage method
- value
- data storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013500 data storage Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 230000003203 everyday effect Effects 0.000 claims abstract description 4
- 238000001514 detection method Methods 0.000 claims 1
- 230000006835 compression Effects 0.000 abstract 1
- 238000007906 compression Methods 0.000 abstract 1
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Abstract
本发明属于温数据存储领域,尤其时涉及一种温数据存储方法,包括:每日通过服务器以及相关平台录入数据;根据录入数据时的日期对数据赋值n;对当日日期进行赋值,设置成m,通过算法算出(m‑n)的值,即为数据关联的关键词,将关键词关联数据;设置阈值a;将数据关联的关键词(m‑n)与阈值a进行大小比较,当出现(m‑n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。本发明使用Parquet格式和Snappy压缩算法在提升大范围数据的读取速度的同时,能够减少住数据存储的用量。
Description
技术领域
本发明涉及温数据存储领域,尤其涉及一种温数据存储方法。
背景技术
当前架构的存储方案下,是将全部数据存储在单一的数据库中,然而传统的数据库为了满足一些特定的需求,比如:强一致性,事务性,大数据量下的高性能读写等等,往往对于大范围大批量的分析处理无法得到很好的优化,从而导致数据库会需要进行全表扫描的操作,从而耗费大量的时间。
另外根据业务场景,大部分的离线分析计算不会需要使用到全部的数据量,往往时间跨度在半年至一年之间,所以只保存需要范围内的数据,也可以提升分析计算的效率并且控制硬件的使用成本。
为此,我们提出一种温数据存储方法来解决上述问题。
发明内容
1、发明目的。
本发明提出了一种温数据存储方法,可以定期对数据进行清理,同时便于对数据进行索引和分组,对于硬件的需求较低。
2、本发明所采用的技术方案。
一种温数据存储方法,具体包括以下步骤:
S1、每日通过服务器以及相关平台录入数据;
S2、根据录入数据时的日期对数据赋值n;
S3、将数据以Parquet格式存入HDFS;
S4、对当日日期进行赋值,设置成m,通过算法算出(m-n)的值,即为数据关联的关键词,将关键词关联数据;
S5、设置阈值a;
S6、将数据关联的关键词(m-n)与阈值a进行大小比较,当出现(m-n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;
S7、通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。
在上述的一种温数据存储方法中,在进行所述S1步骤前先对数据进行检测,检测数据中是否有与现有数据相重复的,检测到重复的数据不予录入。
在上述的一种温数据存储方法中,在检测到重复数据后,根据当日的日期重新对存储中的现有数据进行m的赋值。
在上述的一种温数据存储方法中,在进行所述S8步骤时,根据数据的索引次数得出数据的得分值,将数据的得分值进行加权处理,得到每个物品排序权重值,根据权重值对数据进行分组。
3、本发明所产生的技术效果。
通过将开源的集群运算框架Spark和开源的面向列的格式Parquet进行配合,再将数据以一定的方式进行索引分组,让大范围的数据读取的性能得到大幅度的提升;与此同时,数据只保存业务需求的时间长度,如半年,那么数据规模相对适中,所以使用价格和性能都相对适中的混合硬盘进行存储,从而控制成本。
附图说明
图1为本发明提出的一种温数据存储方法的步骤图。
具体实施方式
以下实施例仅处于说明性目的,而不是想要限制本发明的范围。
实施例
一种温数据存储方法,具体包括以下步骤:
S1、每日通过服务器以及相关平台录入数据;
S2、根据录入数据时的日期对数据赋值n;
S3、将数据以Parquet格式存入HDFS;
S4、对当日日期进行赋值,设置成m,通过算法算出(m-n)的值,即为数据关联的关键词,将关键词关联数据;
S5、设置阈值a;
S6、将数据关联的关键词(m-n)与阈值a进行大小比较,当出现(m-n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;
S7、通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。
其中,在进行S1步骤前先对数据进行检测,检测数据中是否有与现有数据相重复的,检测到重复的数据不予录入。
其中,在检测到重复数据后,根据当日的日期重新对存储中的现有数据进行m的赋值。
其中,在进行S8步骤时,根据数据的索引次数得出数据的得分值,将数据的得分值进行加权处理,得到每个物品排序权重值,根据权重值对数据进行分组。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.一种温数据存储方法,其特征在于,具体包括以下步骤:
S1、每日通过服务器以及相关平台录入数据;
S2、根据录入数据时的日期对数据赋值n;
S3、将数据以Parquet格式存入HDFS;
S4、对当日日期进行赋值,设置成m,通过算法算出(m-n)的值,即为数据关联的关键词,将关键词关联数据;
S5、设置阈值a;
S6、将数据关联的关键词(m-n)与阈值a进行大小比较,当出现(m-n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;
S7、通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。
2.根据权利要求1所述的一种温数据存储方法,其特征在于,在进行所述S1步骤前先对数据进行检测,检测数据中是否有与现有数据相重复的,检测到重复的数据不予录入。
3.根据权利要求2所述的一种温数据存储方法,其特征在于,在检测到重复数据后,根据当日的日期重新对存储中的现有数据进行m的赋值。
4.根据权利要求1所述的一种温数据存储方法,其特征在于,在进行所述S8步骤时,根据数据的索引次数得出数据的得分值,将数据的得分值进行加权处理,得到每个物品排序权重值,根据权重值对数据进行分组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911102664.8A CN111026721A (zh) | 2019-11-12 | 2019-11-12 | 一种温数据存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911102664.8A CN111026721A (zh) | 2019-11-12 | 2019-11-12 | 一种温数据存储方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111026721A true CN111026721A (zh) | 2020-04-17 |
Family
ID=70205519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911102664.8A Pending CN111026721A (zh) | 2019-11-12 | 2019-11-12 | 一种温数据存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111026721A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017072963A (ja) * | 2015-10-07 | 2017-04-13 | Necソリューションイノベータ株式会社 | 情報分析装置及び情報分析方法 |
CN108647266A (zh) * | 2018-04-28 | 2018-10-12 | 重庆沐信润喆网络科技有限公司 | 一种异构数据快速分布存储、交互方法 |
CN109947729A (zh) * | 2017-07-17 | 2019-06-28 | 普天信息技术有限公司 | 一种实时数据分析方法及装置 |
-
2019
- 2019-11-12 CN CN201911102664.8A patent/CN111026721A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017072963A (ja) * | 2015-10-07 | 2017-04-13 | Necソリューションイノベータ株式会社 | 情報分析装置及び情報分析方法 |
CN109947729A (zh) * | 2017-07-17 | 2019-06-28 | 普天信息技术有限公司 | 一种实时数据分析方法及装置 |
CN108647266A (zh) * | 2018-04-28 | 2018-10-12 | 重庆沐信润喆网络科技有限公司 | 一种异构数据快速分布存储、交互方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2263180B1 (en) | Indexing large-scale gps tracks | |
RU2663358C2 (ru) | Устройство и способ кластерного хранения | |
US8977623B2 (en) | Method and system for search engine indexing and searching using the index | |
WO2013152678A1 (zh) | 元数据查询方法和装置 | |
CN105117502A (zh) | 一种基于大数据的检索方法 | |
US9262511B2 (en) | System and method for indexing streams containing unstructured text data | |
US20110225288A1 (en) | Method and system for efficient storage and retrieval of analytics data | |
US20240126817A1 (en) | Graph data query | |
CN103955514A (zh) | 一种基于Lucene倒排索引的图像特征索引方法 | |
CN105630934A (zh) | 一种数据统计方法及系统 | |
CN104834650A (zh) | 一种有效查询任务生成方法及系统 | |
CN105630810A (zh) | 一种对于海量小文件在分布式存储系统中上载的方法 | |
CN110858210B (zh) | 数据查询方法及装置 | |
JP2019512124A (ja) | インデックス情報を生成するデータベースのアーカイビング方法及び装置、インデックス情報を含むアーカイビングされたデータベースの検索方法及び装置 | |
US20110179013A1 (en) | Search Log Online Analytic Processing | |
CN110309143A (zh) | 数据相似度确定方法、装置及处理设备 | |
CN104636401A (zh) | 一种scada系统数据回滚的方法及装置 | |
CN110019017B (zh) | 一种基于访问特征的高能物理文件存储方法 | |
CN112364033B (zh) | 一种数据检索系统 | |
CN110990340B (zh) | 一种大数据多层次存储架构 | |
CN111190896B (zh) | 数据处理方法、装置、存储介质和计算机设备 | |
CN107430633B (zh) | 用于数据存储的系统及方法和计算机可读介质 | |
CN110020001A (zh) | 字符串数据的存储、查询方法以及相应的设备 | |
CN107133334A (zh) | 基于高带宽存储系统的数据同步方法 | |
CN111026721A (zh) | 一种温数据存储方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200417 |