CN104731794A - 一种冷热数据分片挖掘存储方法 - Google Patents

一种冷热数据分片挖掘存储方法 Download PDF

Info

Publication number
CN104731794A
CN104731794A CN201310705213.XA CN201310705213A CN104731794A CN 104731794 A CN104731794 A CN 104731794A CN 201310705213 A CN201310705213 A CN 201310705213A CN 104731794 A CN104731794 A CN 104731794A
Authority
CN
China
Prior art keywords
data
field
cold
hot
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310705213.XA
Other languages
English (en)
Other versions
CN104731794B (zh
Inventor
解皇伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING HUAYI INTERACTIVE TECHNOLOGY Co Ltd
Original Assignee
BEIJING HUAYI INTERACTIVE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING HUAYI INTERACTIVE TECHNOLOGY Co Ltd filed Critical BEIJING HUAYI INTERACTIVE TECHNOLOGY Co Ltd
Priority to CN201310705213.XA priority Critical patent/CN104731794B/zh
Publication of CN104731794A publication Critical patent/CN104731794A/zh
Application granted granted Critical
Publication of CN104731794B publication Critical patent/CN104731794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种冷热数据分片挖掘存储方法。本方法为:1)从数据库中获取一组待分离的数据记录,并将其提交给冷热数据分离模块;2)对于每一数据记录,冷热数据分离模块计算单位时间段内该数据记录中每一字段的热度值P,如果该字段的热度值大于该字段对应的热度阈值,则将该字段放入设定的热数据区,否则将该字段放入设定的冷数据区;3)将热数据区和冷数据区的数据提交给数据分片模块,将热数据区和冷数据区的数据分别映射至对应的存储器。本发明将热数据保存在等级最高的存储资源上,以保证最高的性能、可用性和安全性;而对冷数据(不重要的数据)放在代价较小的存储资源上,减轻主存的容量压力,提升系统性能,节省数据存储成本。

Description

一种冷热数据分片挖掘存储方法
技术领域
本发明涉及一种冷热数据分片挖掘存储方法,尤其涉及一种基于Mongodb数据库的冷热数据分片挖掘存储方法,属于计算机安全存储领域。
背景技术
随着大数据的快速发展,大数据的应用已经深入到各个领域,大数据发展逐渐从物理转为虚拟,现正步入云时代,但是数据的价值并非全都一样,也不是一成不变的,因此,对冷热数据(不同级别的数据)的有效处理和存储愈发重要,同时也需要更好地对冷热数据存储有着更为智能的策略。
目前主流操作系统(如LINUX等),数据库系统(如REDIS,MONGODB等)都有对冷热数据进行分离的策略和算法,大多数都是基于LRU(近期最少使用算法)的经典算法,即节省利用容量有限的内存为最多的进程提供资源,但是当热数据变得很大时,继续使用该策略,就会消耗很大的系统资源,需要高昂成本,同时也影响系统性能,降低响应速度,比如MONGODB,由于应用数据量大,在启动时就占用了83G的内存,然后这其中的部分数据(部分字段数据)是可以分离出来的,它们相对而言属于偏冷的数据。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种更高效的冷热数据分片挖掘存储方法。本发明将由系统(如MONGODB)已经分离了的数据进行数据字段信息提纯和再分离,然后再分片,将热数据(价值最大的数据)保存在等级最高的存储资源上,以保证最高的性能、可用性和安全性。而对冷数据(不重要的数据),就放在代价较小的存储资源上,这样就可减轻主存的容量压力,提升系统性能,提高应用响应的速度,节省数据存储成本。
本发明改良了原先基于LRU算法的冷热数据分离方法,数据分离颗粒度更小,将需要分离的数据提交给数据分离模块,数据分离模块将数据冷热分离,然后将分离的冷热数据提交到数据分片模块,数据分片模块将数据映射到对应存储器,然后进行存储。
本发明的技术方案为:
一种更高效的冷热数据分片挖掘存储方法,其步骤为:
1)从数据库(比如MongoDb)中获取待分离的数据,并将其提交给数据分离模块;
2)冷热数据分离模块对提交过来的数据进行冷热数据分离:
21)首先设置每个数据字段各自的热度阀值;
22)计算每条数据字段的热度值;用内存数据库如memcached记录每个字段的访问量和访问开始时间S,每访问一次,访问量累加一,然后在时刻E提取各个字段单位时间内T(比如每15分钟)的访问量Q,则热度值P=Q*(E-S)/T;
23)将数据的热度和热度阀值进行比较;
24)将超过热度阀值的数据放入热数据区,其余数据放入冷数据区;
3)将多条记录分离后的热数据区和冷数据区的数据提交给数据分片模块,数据分片模块将冷热数据分别映射至对应的存储器:
31)分片模块通过HASH算法分别对每条记录的热数据和冷数据进行散列,使其映射到对应的存储器,比如可用的HASH算法有取模,位偏移,字符串哈希等等;
4)将冷热数据存储到分片处理后对应的存储系统。
与现有技术相比,本发明的积极效果为:
本发明创造性的提出了热度阀值和数据字段的概念,对数据用数据字段区分,减小了冷热数据区分的颗粒度,提纯了热数据,热度阀值的调整,可以方便调整热数据大小和存储器的容量匹配,最大限度的利用了当前可用资源。并通过分片加强分布式处理,提升了数据存储容量,方便后期的扩容和调整,既保证了数据的精确度,提高了系统的性能,又充分利用了存储资源,节省了成本,整体方案的性能较现有的方案相比有较大的性能提升。
附图说明
图1为本发明的系统结构图。
图2为本发明的冷热数据分片挖掘存储流程图。
具体实施方式
1.从数据库Mongodb中提取序号为Ai,Bi的两条数据记录A,B,分别包含字段name,address。
2.冷热数据分离模块设置A,B数据各个字段的热度阀值namea,addressa,nameb,addressb
用内存数据库(memcached)记录每个字段的开始访问时间Saname,Saaddress,Sbname,Sbaddress,和访问量Qaname,Qaaddress,Qbname,Qbaddress,在时刻E取单位时间T(1800秒)根据公式P=Q*(E-S)/T计算每个字段的热度值Paname,Paaddress,Pbname,Pbaddress
3.比较每个字段的热度值Paname,Paaddress,Pbname,Pbaddress和对应的热度阀值namea,addressa,nameb,addressb的大小,将小于热度阀值的数据Ai中的name和Bi中的address放入冷数据区,将大于热度阀值的数据Ai中的address和Bi中的name放入热数据区。
4.通过哈希算法分别对每条记录的热数据和冷数据进行散列,使其映射到对应的N台存储服务器,根据每条数据记录序号Ai,Bi和字段对应的数据值Vaname,Vaaddress,Vbname,Vbaddress,通过SHA-1分别处理热数据和冷数据计算散列值,然后取模散列至对应的存储服务器I,I=SHA1(Ai+Vaname)%N。

Claims (7)

1.一种冷热数据分片挖掘存储方法,其步骤为:
1)从数据库中获取一组待分离的数据记录,并将其提交给冷热数据分离模块;
2)对于每一数据记录,冷热数据分离模块计算单位时间段内该数据记录中每一字段的热度值P,如果该字段的热度值大于该字段对应的热度阈值,则将该字段放入设定的热数据区,否则将该字段放入设定的冷数据区;
3)将热数据区和冷数据区的数据提交给数据分片模块,数据分片模块将热数据区和冷数据区的数据分别映射至对应的存储器。
2.如权利要求1所述的方法,其特征在于所述冷热数据分离模块根据字段的访问量,计算每一字段的热度阀值P。
3.如权利要求2所述的方法,其特征在于所述冷热数据分离模块初始化一条链表Li用于记录同一数据记录中各个字段的访问量,每出现一次,对应的访问量加一。
4.如权利要求2或3所述的方法,其特征在于所述冷热数据分离模块通过公式P=Q*(E-S)/T计算每一字段的热度值P;其中,S为该字段的访问开始时间,E为该字段的访问结束时间,Q为该字段从时刻S到时刻E的访问量,T为设定的单位时间长度。
5.如权利要求1或2或3所述的方法,其特征在于所述数据分片模块通过HASH算法分别对每条数据记录的热数据和冷数据进行散列,使其映射到对应的存储器。
6.如权利要求5所述的方法,其特征在于所述HASH算法为取模HASH算法,或位偏移HASH算法,或字符串HASH算法。
7.如权利要求1所述的方法,其特征在于所述冷热数据分离模块根据系统性能和资源利用情况调整对字段的热度阀值进行调整。
CN201310705213.XA 2013-12-19 2013-12-19 一种冷热数据分片挖掘存储方法 Active CN104731794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310705213.XA CN104731794B (zh) 2013-12-19 2013-12-19 一种冷热数据分片挖掘存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310705213.XA CN104731794B (zh) 2013-12-19 2013-12-19 一种冷热数据分片挖掘存储方法

Publications (2)

Publication Number Publication Date
CN104731794A true CN104731794A (zh) 2015-06-24
CN104731794B CN104731794B (zh) 2018-07-06

Family

ID=53455691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310705213.XA Active CN104731794B (zh) 2013-12-19 2013-12-19 一种冷热数据分片挖掘存储方法

Country Status (1)

Country Link
CN (1) CN104731794B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156331A (zh) * 2016-07-06 2016-11-23 益佳科技(北京)有限责任公司 冷热温数据服务器系统及其处理方法
CN106201906A (zh) * 2016-07-11 2016-12-07 浪潮(北京)电子信息产业有限公司 一种用于闪存的冷热数据分离方法及系统
CN107179878A (zh) * 2016-03-11 2017-09-19 伊姆西公司 基于应用优化的数据存储的方法和装置
CN107979636A (zh) * 2017-11-10 2018-05-01 上海华讯网络系统有限公司 冷热数据分介质存储平台设计系统及方法
CN108319654A (zh) * 2017-12-29 2018-07-24 中国银联股份有限公司 计算系统、冷热数据分离方法及装置、计算机可读存储介质
CN109947373A (zh) * 2019-03-28 2019-06-28 北京大道云行科技有限公司 一种数据处理方法和装置
CN110543279A (zh) * 2018-05-29 2019-12-06 杭州海康威视数字技术股份有限公司 一种数据存储、处理方法、装置及系统
CN111930837A (zh) * 2020-07-21 2020-11-13 银盛支付服务股份有限公司 一种基于前置分布式数据库的海量数据处理方法及系统
CN112700021A (zh) * 2021-01-14 2021-04-23 树根互联技术有限公司 一种远程设备的维保方法、装置、存储介质及电子设备
CN113254477A (zh) * 2021-06-04 2021-08-13 威讯柏睿数据科技(北京)有限公司 一种基于内存的数据获取方法和设备
CN113535673A (zh) * 2020-04-17 2021-10-22 北京京东振世信息技术有限公司 生成配置文件及数据处理的方法和装置
CN114817425A (zh) * 2022-06-28 2022-07-29 成都交大大数据科技有限公司 一种冷热数据分类的方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937319A (zh) * 2009-06-29 2011-01-05 联发科技股份有限公司 存储器系统及其映射方法
CN101989999A (zh) * 2010-11-12 2011-03-23 华中科技大学 一种分布式环境中的分级存储系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937319A (zh) * 2009-06-29 2011-01-05 联发科技股份有限公司 存储器系统及其映射方法
CN101989999A (zh) * 2010-11-12 2011-03-23 华中科技大学 一种分布式环境中的分级存储系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUSTIN J. LEVANDOSKI,PER-AKE LARSON,RADU STOICA: "Identifying Hot and Cold Data in Main-Memory Databases", 《IEEE ICDE CONFERENCE》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179878A (zh) * 2016-03-11 2017-09-19 伊姆西公司 基于应用优化的数据存储的方法和装置
US10860245B2 (en) 2016-03-11 2020-12-08 EMC IP Holding Company, LLC Method and apparatus for optimizing data storage based on application
CN106156331A (zh) * 2016-07-06 2016-11-23 益佳科技(北京)有限责任公司 冷热温数据服务器系统及其处理方法
CN106201906A (zh) * 2016-07-11 2016-12-07 浪潮(北京)电子信息产业有限公司 一种用于闪存的冷热数据分离方法及系统
CN106201906B (zh) * 2016-07-11 2019-01-18 浪潮(北京)电子信息产业有限公司 一种用于闪存的冷热数据分离方法及系统
CN107979636B (zh) * 2017-11-10 2020-10-16 上海华讯网络系统有限公司 冷热数据分介质存储平台设计系统及方法
CN107979636A (zh) * 2017-11-10 2018-05-01 上海华讯网络系统有限公司 冷热数据分介质存储平台设计系统及方法
CN108319654A (zh) * 2017-12-29 2018-07-24 中国银联股份有限公司 计算系统、冷热数据分离方法及装置、计算机可读存储介质
CN108319654B (zh) * 2017-12-29 2021-12-21 中国银联股份有限公司 计算系统、冷热数据分离方法及装置、计算机可读存储介质
CN110543279A (zh) * 2018-05-29 2019-12-06 杭州海康威视数字技术股份有限公司 一种数据存储、处理方法、装置及系统
CN109947373A (zh) * 2019-03-28 2019-06-28 北京大道云行科技有限公司 一种数据处理方法和装置
CN109947373B (zh) * 2019-03-28 2022-05-13 北京大道云行科技有限公司 一种数据处理方法和装置
CN113535673A (zh) * 2020-04-17 2021-10-22 北京京东振世信息技术有限公司 生成配置文件及数据处理的方法和装置
CN113535673B (zh) * 2020-04-17 2023-09-26 北京京东振世信息技术有限公司 生成配置文件及数据处理的方法和装置
CN111930837A (zh) * 2020-07-21 2020-11-13 银盛支付服务股份有限公司 一种基于前置分布式数据库的海量数据处理方法及系统
CN112700021A (zh) * 2021-01-14 2021-04-23 树根互联技术有限公司 一种远程设备的维保方法、装置、存储介质及电子设备
CN113254477A (zh) * 2021-06-04 2021-08-13 威讯柏睿数据科技(北京)有限公司 一种基于内存的数据获取方法和设备
CN114817425A (zh) * 2022-06-28 2022-07-29 成都交大大数据科技有限公司 一种冷热数据分类的方法、装置、设备及可读存储介质
CN114817425B (zh) * 2022-06-28 2022-09-02 成都交大大数据科技有限公司 一种冷热数据分类的方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN104731794B (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN104731794A (zh) 一种冷热数据分片挖掘存储方法
US10101930B2 (en) System and method for supporting atomic writes in a flash translation layer
US8838936B1 (en) System and method for efficient flash translation layer
CN102629258B (zh) 重复数据删除方法和装置
EP3361409B1 (en) Data deduplication method and apparatus
CN102158349B (zh) 一种日志管理装置及方法
US10254989B2 (en) Method and apparatus of data deduplication storage system
CN105183839A (zh) 一种基于Hadoop的小文件分级索引的存储优化方法
WO2017054000A1 (en) Techniques to recover data using exclusive or (xor) parity information
CN103927145B (zh) 一种基于混合内存的系统休眠、唤醒方法及装置
WO2018140228A1 (en) Thermal and reliability based cache slice migration
EP2845105A1 (en) Prearranging data to commit to non-volatile memory
CN106407224A (zh) 一种键值存储系统中文件压实的方法和装置
CN112346647B (zh) 数据存储方法、装置、设备和介质
US20160378621A1 (en) Apparatus, system, and method of storage and retrieval of local volatile memory content of non-volatile storage memory
CN103295632A (zh) 防止意外掉电引起线性累计数据突变的方法
CN104951403A (zh) 一种低开销且无差错的冷热数据识别方法
CN103778120A (zh) 全局文件标识生成方法、生成装置及相应的分布式文件系统
US10831369B2 (en) System and method for synchronizing caches after reboot
CN111291083B (zh) 网页源码数据处理方法、装置及计算机设备
CN101031898B (zh) 使用分离事务处理来实现无缓冲器dma控制器
IL186952A0 (en) System and method for restoring data on demand for instant volume restoration
WO2017019079A1 (en) Storing data in a deduplication store
CN105095101A (zh) 向存储器写入数据的方法及装置、智能卡
CN107894932A (zh) 保持系统重启前后数据一致性的方法及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant