CN111026721A - 一种温数据存储方法 - Google Patents

一种温数据存储方法 Download PDF

Info

Publication number
CN111026721A
CN111026721A CN201911102664.8A CN201911102664A CN111026721A CN 111026721 A CN111026721 A CN 111026721A CN 201911102664 A CN201911102664 A CN 201911102664A CN 111026721 A CN111026721 A CN 111026721A
Authority
CN
China
Prior art keywords
data
keyword
storage method
value
data storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911102664.8A
Other languages
English (en)
Inventor
冯报安
杨晶生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Microphone Culture Media Co ltd
Original Assignee
Shanghai Microphone Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Microphone Culture Media Co ltd filed Critical Shanghai Microphone Culture Media Co ltd
Priority to CN201911102664.8A priority Critical patent/CN111026721A/zh
Publication of CN111026721A publication Critical patent/CN111026721A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Abstract

本发明属于温数据存储领域,尤其时涉及一种温数据存储方法,包括:每日通过服务器以及相关平台录入数据;根据录入数据时的日期对数据赋值n;对当日日期进行赋值,设置成m,通过算法算出(m‑n)的值,即为数据关联的关键词,将关键词关联数据;设置阈值a;将数据关联的关键词(m‑n)与阈值a进行大小比较,当出现(m‑n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。本发明使用Parquet格式和Snappy压缩算法在提升大范围数据的读取速度的同时,能够减少住数据存储的用量。

Description

一种温数据存储方法
技术领域
本发明涉及温数据存储领域,尤其涉及一种温数据存储方法。
背景技术
当前架构的存储方案下,是将全部数据存储在单一的数据库中,然而传统的数据库为了满足一些特定的需求,比如:强一致性,事务性,大数据量下的高性能读写等等,往往对于大范围大批量的分析处理无法得到很好的优化,从而导致数据库会需要进行全表扫描的操作,从而耗费大量的时间。
另外根据业务场景,大部分的离线分析计算不会需要使用到全部的数据量,往往时间跨度在半年至一年之间,所以只保存需要范围内的数据,也可以提升分析计算的效率并且控制硬件的使用成本。
为此,我们提出一种温数据存储方法来解决上述问题。
发明内容
1、发明目的。
本发明提出了一种温数据存储方法,可以定期对数据进行清理,同时便于对数据进行索引和分组,对于硬件的需求较低。
2、本发明所采用的技术方案。
一种温数据存储方法,具体包括以下步骤:
S1、每日通过服务器以及相关平台录入数据;
S2、根据录入数据时的日期对数据赋值n;
S3、将数据以Parquet格式存入HDFS;
S4、对当日日期进行赋值,设置成m,通过算法算出(m-n)的值,即为数据关联的关键词,将关键词关联数据;
S5、设置阈值a;
S6、将数据关联的关键词(m-n)与阈值a进行大小比较,当出现(m-n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;
S7、通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。
在上述的一种温数据存储方法中,在进行所述S1步骤前先对数据进行检测,检测数据中是否有与现有数据相重复的,检测到重复的数据不予录入。
在上述的一种温数据存储方法中,在检测到重复数据后,根据当日的日期重新对存储中的现有数据进行m的赋值。
在上述的一种温数据存储方法中,在进行所述S8步骤时,根据数据的索引次数得出数据的得分值,将数据的得分值进行加权处理,得到每个物品排序权重值,根据权重值对数据进行分组。
3、本发明所产生的技术效果。
通过将开源的集群运算框架Spark和开源的面向列的格式Parquet进行配合,再将数据以一定的方式进行索引分组,让大范围的数据读取的性能得到大幅度的提升;与此同时,数据只保存业务需求的时间长度,如半年,那么数据规模相对适中,所以使用价格和性能都相对适中的混合硬盘进行存储,从而控制成本。
附图说明
图1为本发明提出的一种温数据存储方法的步骤图。
具体实施方式
以下实施例仅处于说明性目的,而不是想要限制本发明的范围。
实施例
一种温数据存储方法,具体包括以下步骤:
S1、每日通过服务器以及相关平台录入数据;
S2、根据录入数据时的日期对数据赋值n;
S3、将数据以Parquet格式存入HDFS;
S4、对当日日期进行赋值,设置成m,通过算法算出(m-n)的值,即为数据关联的关键词,将关键词关联数据;
S5、设置阈值a;
S6、将数据关联的关键词(m-n)与阈值a进行大小比较,当出现(m-n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;
S7、通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。
其中,在进行S1步骤前先对数据进行检测,检测数据中是否有与现有数据相重复的,检测到重复的数据不予录入。
其中,在检测到重复数据后,根据当日的日期重新对存储中的现有数据进行m的赋值。
其中,在进行S8步骤时,根据数据的索引次数得出数据的得分值,将数据的得分值进行加权处理,得到每个物品排序权重值,根据权重值对数据进行分组。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种温数据存储方法,其特征在于,具体包括以下步骤:
S1、每日通过服务器以及相关平台录入数据;
S2、根据录入数据时的日期对数据赋值n;
S3、将数据以Parquet格式存入HDFS;
S4、对当日日期进行赋值,设置成m,通过算法算出(m-n)的值,即为数据关联的关键词,将关键词关联数据;
S5、设置阈值a;
S6、将数据关联的关键词(m-n)与阈值a进行大小比较,当出现(m-n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;
S7、通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。
2.根据权利要求1所述的一种温数据存储方法,其特征在于,在进行所述S1步骤前先对数据进行检测,检测数据中是否有与现有数据相重复的,检测到重复的数据不予录入。
3.根据权利要求2所述的一种温数据存储方法,其特征在于,在检测到重复数据后,根据当日的日期重新对存储中的现有数据进行m的赋值。
4.根据权利要求1所述的一种温数据存储方法,其特征在于,在进行所述S8步骤时,根据数据的索引次数得出数据的得分值,将数据的得分值进行加权处理,得到每个物品排序权重值,根据权重值对数据进行分组。
CN201911102664.8A 2019-11-12 2019-11-12 一种温数据存储方法 Pending CN111026721A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911102664.8A CN111026721A (zh) 2019-11-12 2019-11-12 一种温数据存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911102664.8A CN111026721A (zh) 2019-11-12 2019-11-12 一种温数据存储方法

Publications (1)

Publication Number Publication Date
CN111026721A true CN111026721A (zh) 2020-04-17

Family

ID=70205519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911102664.8A Pending CN111026721A (zh) 2019-11-12 2019-11-12 一种温数据存储方法

Country Status (1)

Country Link
CN (1) CN111026721A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017072963A (ja) * 2015-10-07 2017-04-13 Necソリューションイノベータ株式会社 情報分析装置及び情報分析方法
CN108647266A (zh) * 2018-04-28 2018-10-12 重庆沐信润喆网络科技有限公司 一种异构数据快速分布存储、交互方法
CN109947729A (zh) * 2017-07-17 2019-06-28 普天信息技术有限公司 一种实时数据分析方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017072963A (ja) * 2015-10-07 2017-04-13 Necソリューションイノベータ株式会社 情報分析装置及び情報分析方法
CN109947729A (zh) * 2017-07-17 2019-06-28 普天信息技术有限公司 一种实时数据分析方法及装置
CN108647266A (zh) * 2018-04-28 2018-10-12 重庆沐信润喆网络科技有限公司 一种异构数据快速分布存储、交互方法

Similar Documents

Publication Publication Date Title
EP2263180B1 (en) Indexing large-scale gps tracks
RU2663358C2 (ru) Устройство и способ кластерного хранения
US8977623B2 (en) Method and system for search engine indexing and searching using the index
WO2013152678A1 (zh) 元数据查询方法和装置
CN105117502A (zh) 一种基于大数据的检索方法
US9262511B2 (en) System and method for indexing streams containing unstructured text data
US20110225288A1 (en) Method and system for efficient storage and retrieval of analytics data
US20240126817A1 (en) Graph data query
CN103955514A (zh) 一种基于Lucene倒排索引的图像特征索引方法
CN105630934A (zh) 一种数据统计方法及系统
CN104834650A (zh) 一种有效查询任务生成方法及系统
CN105630810A (zh) 一种对于海量小文件在分布式存储系统中上载的方法
CN110858210B (zh) 数据查询方法及装置
JP2019512124A (ja) インデックス情報を生成するデータベースのアーカイビング方法及び装置、インデックス情報を含むアーカイビングされたデータベースの検索方法及び装置
US20110179013A1 (en) Search Log Online Analytic Processing
CN110309143A (zh) 数据相似度确定方法、装置及处理设备
CN104636401A (zh) 一种scada系统数据回滚的方法及装置
CN110019017B (zh) 一种基于访问特征的高能物理文件存储方法
CN112364033B (zh) 一种数据检索系统
CN110990340B (zh) 一种大数据多层次存储架构
CN111190896B (zh) 数据处理方法、装置、存储介质和计算机设备
CN107430633B (zh) 用于数据存储的系统及方法和计算机可读介质
CN110020001A (zh) 字符串数据的存储、查询方法以及相应的设备
CN107133334A (zh) 基于高带宽存储系统的数据同步方法
CN111026721A (zh) 一种温数据存储方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200417