CN104731794A - 一种冷热数据分片挖掘存储方法 - Google Patents
一种冷热数据分片挖掘存储方法 Download PDFInfo
- Publication number
- CN104731794A CN104731794A CN201310705213.XA CN201310705213A CN104731794A CN 104731794 A CN104731794 A CN 104731794A CN 201310705213 A CN201310705213 A CN 201310705213A CN 104731794 A CN104731794 A CN 104731794A
- Authority
- CN
- China
- Prior art keywords
- data
- field
- cold
- hot
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种冷热数据分片挖掘存储方法。本方法为:1)从数据库中获取一组待分离的数据记录,并将其提交给冷热数据分离模块;2)对于每一数据记录,冷热数据分离模块计算单位时间段内该数据记录中每一字段的热度值P,如果该字段的热度值大于该字段对应的热度阈值,则将该字段放入设定的热数据区,否则将该字段放入设定的冷数据区;3)将热数据区和冷数据区的数据提交给数据分片模块,将热数据区和冷数据区的数据分别映射至对应的存储器。本发明将热数据保存在等级最高的存储资源上,以保证最高的性能、可用性和安全性;而对冷数据(不重要的数据)放在代价较小的存储资源上,减轻主存的容量压力,提升系统性能,节省数据存储成本。
Description
技术领域
本发明涉及一种冷热数据分片挖掘存储方法,尤其涉及一种基于Mongodb数据库的冷热数据分片挖掘存储方法,属于计算机安全存储领域。
背景技术
随着大数据的快速发展,大数据的应用已经深入到各个领域,大数据发展逐渐从物理转为虚拟,现正步入云时代,但是数据的价值并非全都一样,也不是一成不变的,因此,对冷热数据(不同级别的数据)的有效处理和存储愈发重要,同时也需要更好地对冷热数据存储有着更为智能的策略。
目前主流操作系统(如LINUX等),数据库系统(如REDIS,MONGODB等)都有对冷热数据进行分离的策略和算法,大多数都是基于LRU(近期最少使用算法)的经典算法,即节省利用容量有限的内存为最多的进程提供资源,但是当热数据变得很大时,继续使用该策略,就会消耗很大的系统资源,需要高昂成本,同时也影响系统性能,降低响应速度,比如MONGODB,由于应用数据量大,在启动时就占用了83G的内存,然后这其中的部分数据(部分字段数据)是可以分离出来的,它们相对而言属于偏冷的数据。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种更高效的冷热数据分片挖掘存储方法。本发明将由系统(如MONGODB)已经分离了的数据进行数据字段信息提纯和再分离,然后再分片,将热数据(价值最大的数据)保存在等级最高的存储资源上,以保证最高的性能、可用性和安全性。而对冷数据(不重要的数据),就放在代价较小的存储资源上,这样就可减轻主存的容量压力,提升系统性能,提高应用响应的速度,节省数据存储成本。
本发明改良了原先基于LRU算法的冷热数据分离方法,数据分离颗粒度更小,将需要分离的数据提交给数据分离模块,数据分离模块将数据冷热分离,然后将分离的冷热数据提交到数据分片模块,数据分片模块将数据映射到对应存储器,然后进行存储。
本发明的技术方案为:
一种更高效的冷热数据分片挖掘存储方法,其步骤为:
1)从数据库(比如MongoDb)中获取待分离的数据,并将其提交给数据分离模块;
2)冷热数据分离模块对提交过来的数据进行冷热数据分离:
21)首先设置每个数据字段各自的热度阀值;
22)计算每条数据字段的热度值;用内存数据库如memcached记录每个字段的访问量和访问开始时间S,每访问一次,访问量累加一,然后在时刻E提取各个字段单位时间内T(比如每15分钟)的访问量Q,则热度值P=Q*(E-S)/T;
23)将数据的热度和热度阀值进行比较;
24)将超过热度阀值的数据放入热数据区,其余数据放入冷数据区;
3)将多条记录分离后的热数据区和冷数据区的数据提交给数据分片模块,数据分片模块将冷热数据分别映射至对应的存储器:
31)分片模块通过HASH算法分别对每条记录的热数据和冷数据进行散列,使其映射到对应的存储器,比如可用的HASH算法有取模,位偏移,字符串哈希等等;
4)将冷热数据存储到分片处理后对应的存储系统。
与现有技术相比,本发明的积极效果为:
本发明创造性的提出了热度阀值和数据字段的概念,对数据用数据字段区分,减小了冷热数据区分的颗粒度,提纯了热数据,热度阀值的调整,可以方便调整热数据大小和存储器的容量匹配,最大限度的利用了当前可用资源。并通过分片加强分布式处理,提升了数据存储容量,方便后期的扩容和调整,既保证了数据的精确度,提高了系统的性能,又充分利用了存储资源,节省了成本,整体方案的性能较现有的方案相比有较大的性能提升。
附图说明
图1为本发明的系统结构图。
图2为本发明的冷热数据分片挖掘存储流程图。
具体实施方式
1.从数据库Mongodb中提取序号为Ai,Bi的两条数据记录A,B,分别包含字段name,address。
2.冷热数据分离模块设置A,B数据各个字段的热度阀值namea,addressa,nameb,addressb。
用内存数据库(memcached)记录每个字段的开始访问时间Saname,Saaddress,Sbname,Sbaddress,和访问量Qaname,Qaaddress,Qbname,Qbaddress,在时刻E取单位时间T(1800秒)根据公式P=Q*(E-S)/T计算每个字段的热度值Paname,Paaddress,Pbname,Pbaddress。
3.比较每个字段的热度值Paname,Paaddress,Pbname,Pbaddress和对应的热度阀值namea,addressa,nameb,addressb的大小,将小于热度阀值的数据Ai中的name和Bi中的address放入冷数据区,将大于热度阀值的数据Ai中的address和Bi中的name放入热数据区。
4.通过哈希算法分别对每条记录的热数据和冷数据进行散列,使其映射到对应的N台存储服务器,根据每条数据记录序号Ai,Bi和字段对应的数据值Vaname,Vaaddress,Vbname,Vbaddress,通过SHA-1分别处理热数据和冷数据计算散列值,然后取模散列至对应的存储服务器I,I=SHA1(Ai+Vaname)%N。
Claims (7)
1.一种冷热数据分片挖掘存储方法,其步骤为:
1)从数据库中获取一组待分离的数据记录,并将其提交给冷热数据分离模块;
2)对于每一数据记录,冷热数据分离模块计算单位时间段内该数据记录中每一字段的热度值P,如果该字段的热度值大于该字段对应的热度阈值,则将该字段放入设定的热数据区,否则将该字段放入设定的冷数据区;
3)将热数据区和冷数据区的数据提交给数据分片模块,数据分片模块将热数据区和冷数据区的数据分别映射至对应的存储器。
2.如权利要求1所述的方法,其特征在于所述冷热数据分离模块根据字段的访问量,计算每一字段的热度阀值P。
3.如权利要求2所述的方法,其特征在于所述冷热数据分离模块初始化一条链表Li用于记录同一数据记录中各个字段的访问量,每出现一次,对应的访问量加一。
4.如权利要求2或3所述的方法,其特征在于所述冷热数据分离模块通过公式P=Q*(E-S)/T计算每一字段的热度值P;其中,S为该字段的访问开始时间,E为该字段的访问结束时间,Q为该字段从时刻S到时刻E的访问量,T为设定的单位时间长度。
5.如权利要求1或2或3所述的方法,其特征在于所述数据分片模块通过HASH算法分别对每条数据记录的热数据和冷数据进行散列,使其映射到对应的存储器。
6.如权利要求5所述的方法,其特征在于所述HASH算法为取模HASH算法,或位偏移HASH算法,或字符串HASH算法。
7.如权利要求1所述的方法,其特征在于所述冷热数据分离模块根据系统性能和资源利用情况调整对字段的热度阀值进行调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310705213.XA CN104731794B (zh) | 2013-12-19 | 2013-12-19 | 一种冷热数据分片挖掘存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310705213.XA CN104731794B (zh) | 2013-12-19 | 2013-12-19 | 一种冷热数据分片挖掘存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104731794A true CN104731794A (zh) | 2015-06-24 |
CN104731794B CN104731794B (zh) | 2018-07-06 |
Family
ID=53455691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310705213.XA Active CN104731794B (zh) | 2013-12-19 | 2013-12-19 | 一种冷热数据分片挖掘存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104731794B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156331A (zh) * | 2016-07-06 | 2016-11-23 | 益佳科技(北京)有限责任公司 | 冷热温数据服务器系统及其处理方法 |
CN106201906A (zh) * | 2016-07-11 | 2016-12-07 | 浪潮(北京)电子信息产业有限公司 | 一种用于闪存的冷热数据分离方法及系统 |
CN107179878A (zh) * | 2016-03-11 | 2017-09-19 | 伊姆西公司 | 基于应用优化的数据存储的方法和装置 |
CN107979636A (zh) * | 2017-11-10 | 2018-05-01 | 上海华讯网络系统有限公司 | 冷热数据分介质存储平台设计系统及方法 |
CN108319654A (zh) * | 2017-12-29 | 2018-07-24 | 中国银联股份有限公司 | 计算系统、冷热数据分离方法及装置、计算机可读存储介质 |
CN109947373A (zh) * | 2019-03-28 | 2019-06-28 | 北京大道云行科技有限公司 | 一种数据处理方法和装置 |
CN110543279A (zh) * | 2018-05-29 | 2019-12-06 | 杭州海康威视数字技术股份有限公司 | 一种数据存储、处理方法、装置及系统 |
CN111930837A (zh) * | 2020-07-21 | 2020-11-13 | 银盛支付服务股份有限公司 | 一种基于前置分布式数据库的海量数据处理方法及系统 |
CN112700021A (zh) * | 2021-01-14 | 2021-04-23 | 树根互联技术有限公司 | 一种远程设备的维保方法、装置、存储介质及电子设备 |
CN113254477A (zh) * | 2021-06-04 | 2021-08-13 | 威讯柏睿数据科技(北京)有限公司 | 一种基于内存的数据获取方法和设备 |
CN113535673A (zh) * | 2020-04-17 | 2021-10-22 | 北京京东振世信息技术有限公司 | 生成配置文件及数据处理的方法和装置 |
CN114817425A (zh) * | 2022-06-28 | 2022-07-29 | 成都交大大数据科技有限公司 | 一种冷热数据分类的方法、装置、设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937319A (zh) * | 2009-06-29 | 2011-01-05 | 联发科技股份有限公司 | 存储器系统及其映射方法 |
CN101989999A (zh) * | 2010-11-12 | 2011-03-23 | 华中科技大学 | 一种分布式环境中的分级存储系统 |
-
2013
- 2013-12-19 CN CN201310705213.XA patent/CN104731794B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937319A (zh) * | 2009-06-29 | 2011-01-05 | 联发科技股份有限公司 | 存储器系统及其映射方法 |
CN101989999A (zh) * | 2010-11-12 | 2011-03-23 | 华中科技大学 | 一种分布式环境中的分级存储系统 |
Non-Patent Citations (1)
Title |
---|
JUSTIN J. LEVANDOSKI,PER-AKE LARSON,RADU STOICA: "Identifying Hot and Cold Data in Main-Memory Databases", 《IEEE ICDE CONFERENCE》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107179878A (zh) * | 2016-03-11 | 2017-09-19 | 伊姆西公司 | 基于应用优化的数据存储的方法和装置 |
US10860245B2 (en) | 2016-03-11 | 2020-12-08 | EMC IP Holding Company, LLC | Method and apparatus for optimizing data storage based on application |
CN106156331A (zh) * | 2016-07-06 | 2016-11-23 | 益佳科技(北京)有限责任公司 | 冷热温数据服务器系统及其处理方法 |
CN106201906A (zh) * | 2016-07-11 | 2016-12-07 | 浪潮(北京)电子信息产业有限公司 | 一种用于闪存的冷热数据分离方法及系统 |
CN106201906B (zh) * | 2016-07-11 | 2019-01-18 | 浪潮(北京)电子信息产业有限公司 | 一种用于闪存的冷热数据分离方法及系统 |
CN107979636B (zh) * | 2017-11-10 | 2020-10-16 | 上海华讯网络系统有限公司 | 冷热数据分介质存储平台设计系统及方法 |
CN107979636A (zh) * | 2017-11-10 | 2018-05-01 | 上海华讯网络系统有限公司 | 冷热数据分介质存储平台设计系统及方法 |
CN108319654A (zh) * | 2017-12-29 | 2018-07-24 | 中国银联股份有限公司 | 计算系统、冷热数据分离方法及装置、计算机可读存储介质 |
CN108319654B (zh) * | 2017-12-29 | 2021-12-21 | 中国银联股份有限公司 | 计算系统、冷热数据分离方法及装置、计算机可读存储介质 |
CN110543279A (zh) * | 2018-05-29 | 2019-12-06 | 杭州海康威视数字技术股份有限公司 | 一种数据存储、处理方法、装置及系统 |
CN109947373A (zh) * | 2019-03-28 | 2019-06-28 | 北京大道云行科技有限公司 | 一种数据处理方法和装置 |
CN109947373B (zh) * | 2019-03-28 | 2022-05-13 | 北京大道云行科技有限公司 | 一种数据处理方法和装置 |
CN113535673A (zh) * | 2020-04-17 | 2021-10-22 | 北京京东振世信息技术有限公司 | 生成配置文件及数据处理的方法和装置 |
CN113535673B (zh) * | 2020-04-17 | 2023-09-26 | 北京京东振世信息技术有限公司 | 生成配置文件及数据处理的方法和装置 |
CN111930837A (zh) * | 2020-07-21 | 2020-11-13 | 银盛支付服务股份有限公司 | 一种基于前置分布式数据库的海量数据处理方法及系统 |
CN112700021A (zh) * | 2021-01-14 | 2021-04-23 | 树根互联技术有限公司 | 一种远程设备的维保方法、装置、存储介质及电子设备 |
CN113254477A (zh) * | 2021-06-04 | 2021-08-13 | 威讯柏睿数据科技(北京)有限公司 | 一种基于内存的数据获取方法和设备 |
CN114817425A (zh) * | 2022-06-28 | 2022-07-29 | 成都交大大数据科技有限公司 | 一种冷热数据分类的方法、装置、设备及可读存储介质 |
CN114817425B (zh) * | 2022-06-28 | 2022-09-02 | 成都交大大数据科技有限公司 | 一种冷热数据分类的方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104731794B (zh) | 2018-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104731794A (zh) | 一种冷热数据分片挖掘存储方法 | |
US10101930B2 (en) | System and method for supporting atomic writes in a flash translation layer | |
US8838936B1 (en) | System and method for efficient flash translation layer | |
CN102629258B (zh) | 重复数据删除方法和装置 | |
EP3361409B1 (en) | Data deduplication method and apparatus | |
CN102158349B (zh) | 一种日志管理装置及方法 | |
US10254989B2 (en) | Method and apparatus of data deduplication storage system | |
CN105183839A (zh) | 一种基于Hadoop的小文件分级索引的存储优化方法 | |
WO2017054000A1 (en) | Techniques to recover data using exclusive or (xor) parity information | |
CN103927145B (zh) | 一种基于混合内存的系统休眠、唤醒方法及装置 | |
WO2018140228A1 (en) | Thermal and reliability based cache slice migration | |
EP2845105A1 (en) | Prearranging data to commit to non-volatile memory | |
CN106407224A (zh) | 一种键值存储系统中文件压实的方法和装置 | |
CN112346647B (zh) | 数据存储方法、装置、设备和介质 | |
US20160378621A1 (en) | Apparatus, system, and method of storage and retrieval of local volatile memory content of non-volatile storage memory | |
CN103295632A (zh) | 防止意外掉电引起线性累计数据突变的方法 | |
CN104951403A (zh) | 一种低开销且无差错的冷热数据识别方法 | |
CN103778120A (zh) | 全局文件标识生成方法、生成装置及相应的分布式文件系统 | |
US10831369B2 (en) | System and method for synchronizing caches after reboot | |
CN111291083B (zh) | 网页源码数据处理方法、装置及计算机设备 | |
CN101031898B (zh) | 使用分离事务处理来实现无缓冲器dma控制器 | |
IL186952A0 (en) | System and method for restoring data on demand for instant volume restoration | |
WO2017019079A1 (en) | Storing data in a deduplication store | |
CN105095101A (zh) | 向存储器写入数据的方法及装置、智能卡 | |
CN107894932A (zh) | 保持系统重启前后数据一致性的方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |