CN109344092A - 一种提高冷存储数据读取速度的方法和系统 - Google Patents

一种提高冷存储数据读取速度的方法和系统 Download PDF

Info

Publication number
CN109344092A
CN109344092A CN201811057423.1A CN201811057423A CN109344092A CN 109344092 A CN109344092 A CN 109344092A CN 201811057423 A CN201811057423 A CN 201811057423A CN 109344092 A CN109344092 A CN 109344092A
Authority
CN
China
Prior art keywords
buffer area
file
data buffer
prediction
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811057423.1A
Other languages
English (en)
Other versions
CN109344092B (zh
Inventor
何晓楠
田耘坤
张凡
李涛
苏世伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN YIHUALU INFORMATION TECHNOLOGY Co Ltd
Original Assignee
TIANJIN YIHUALU INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN YIHUALU INFORMATION TECHNOLOGY Co Ltd filed Critical TIANJIN YIHUALU INFORMATION TECHNOLOGY Co Ltd
Priority to CN201811057423.1A priority Critical patent/CN109344092B/zh
Publication of CN109344092A publication Critical patent/CN109344092A/zh
Application granted granted Critical
Publication of CN109344092B publication Critical patent/CN109344092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0866Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache
    • G06F12/0871Allocation or management of cache space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0877Cache access modes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0625Power saving in storage systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种提高冷存储数据读取速度的方法和系统,将系统存储空间分为热存储区和冷存储区,将热存储区分为热存储中的其它区间和热存储区中的缓存区,将热存储区中的缓存区分为历史数据缓存区和预测加载数据缓存区;根据当前访问的文件,通过文件之间的相关性判断下一步可能访问的文件,如果文件不在当前的缓存中,则提前将文件从所述冷存储区中读取出来,写入预测加载数据缓存区;动态调整历史数据缓存区和预测加载数据缓存区的容量大小。本发明可以通过预测加载数据的方法预测并提前缓存将要访问的冷存储数据,明显提升冷数据访问的速度,改善用户体验。

Description

一种提高冷存储数据读取速度的方法和系统
技术领域
本发明涉及控制计算机技术领域,尤其涉及一种提高冷存储数据读取速度的方法和系统。
背景技术
近年来,随着信息化技术的飞速发展,特别是网络视频监控业务的极速膨胀,数字化信息量呈现出爆炸性增长态势,全球每年产生的数据量以50%的速度递增,大数据存储以及大数据分析的需求越来越强烈。据Gartner研究显示,未来5年全球数据存储需求年增长率约为35%至65%,到2018年,整个世界的数据总量将会达到44ZB(1ZB=10亿TB),到2025年中国数据总量将超过13000EB,中国将成为大数据存储需求最大的国家。大量的数据需要安全、海量、便捷、绿色节能和低成本的存储方案。
伴随着数据量的剧增,数据的存储和访问策略也开始分化。业界根据数据的访问频度将数据分为热数据、温数据和冷数据。统计显示,热数据、温数据和冷数据占总数据量的比例约为5%、15%、80%。Facebook对图片数据访问分析显示,82%的访问都集中在近三个月内产生的8%的新数据上,绝大部分数据在迅速变“冷”。随着全世界冷数据量不断增多,冷数据的存取技术成为存储领域的一个重要发展方向。
冷存储是指存储冷数据的容量大、性能要求不高、成本低廉的永久在线的存储介质。目前常见的存储方式包括磁盘存储、磁带存储、闪存存储、光盘存储等等,从成本和能耗的角度考虑,最适合做冷数据存储的方式是光盘存储和磁带存储,其共同的特点是存储容量大、成本低、能耗低,但是读写速度较慢,明显低于常用的磁盘和闪存等热存储媒体。另外,光存储还有防电磁冲击,不可擦写等特点。
冷数据并非失去价值,但以热数据的存储方式保存冷数据必将消耗大量资源。蓝光光盘库的应用将解决冷数据消耗资源的问题,以“冷技术”保存冷数据,使冷、热数据得以完美结合,将成为大数据时代数据存储的最优方案。
为了提高数据存储系统的性能,冷存储和热存储通常会搭配使用,通过一定的算法对冷热数据进行分层,即将不常用的数据作为冷数据保存在光盘或磁带中,将常用的数据保存在磁盘或闪存中,同时还可以利用热存储作为冷存储的缓存,通过算法自动在冷热存储之间交换数据,即将常用或可能很快用到的数据置换到热存储中,将不常用的数据置换到冷存储中。这种冷热数据分层的算法类似于计算机虚拟内存的缓存机制,但是由于应用领域不同,需要结合业务场景开发更高效的数据分层算法以及数据读写算法。
当前常见的数据缓存算法包括FIFO方法、LRU方法、LFU方法以及综合两种的ARC自适应算法。其中FIFO是简单的先进先出算法,LRU是Least Recently Used的缩写,即最近最少使用文件置换算法,其算法思路是淘汰当前缓存中最长时间未被使用的文件,LFU是Least Frequently Used的缩写,即最低频率文件置换算法,其思路是淘汰当前缓存中一段时间内使用频率最低的文件。ARC是Adaptive Replacement Cache的缩写,它通过动态调整LFU和LRU的链表长度来提高算法的适应能力,根据工作负载自动调整优化策略。
以上几种缓存算法都最是将新访问的文件保存在缓存区内并删除当前缓存中最长时间未被访问的文件,或者过去一段时间内访问频率最低的文件。这种缓存方法可以在一定情况下可以提高存储读写速度,尤其是在短期内反复读写同一批文件的情况下,可以直接访问缓存的文件,明显减少低速存储的读取次数,即可以一定程度上提升存储读写速度。但是这种基于历史访问内容的算法缺陷也很明显,其共同的缺点是缺少预测能力,即只能被动保存最近一段时间内读取过的文件,而不能够通过预测算法提前判断可能将要读取的新文件,提前进行缓存,从而提升文件访问速度。对于冷存储的应用场景而言,经常需要访问保存在冷存储中时间比较久远,应用频率很低的数据,而且访问之后的一段时间不一定会频繁访问,因此仅仅通过缓存历史数据不足以提升足够的读取速度。
发明内容
本发明要解决以上技术问题,提供一种提高冷存储数据读取速度的方法和系统,可解决现有数据缓存技术中存在的预测能力不足的问题。
为解决上述技术问题,本发明采用的技术方案是:一种提高冷存储数据读取速度的方法,将计算机存储系统分为冷存储区和热存储区两部分,热存储空间中的一部分定义为热存储区中的缓存区用于缓存冷存储区数据以及基于存储系统中的数据关联性预测下一步可能访问的数据,并将冷存储区中的数据预加载到热存储区中的缓存区。
将所述热存储区中的缓存区分为历史数据缓存区和预测加载数据缓存区,所述历史数据缓存区用来保存过去一段时间访问次数较多的数据;所述预测加载数据缓存区用来提前加载通过基于文件关联度的预测算法预测下一步要访问的数据。
所述预测加载数据缓存区用来提前加载通过基于文件关联度的预测算法,具体包括以下步骤:
(1)定义所述历史数据缓存区的大小为Sh,定义所述预测加载数据缓存区的大小为Sp,假设存储系统中总共保存m个文件,F1,F2,…,Fm,假设当前访问的文件为Fj,则下一步访问文件i的概率为:P(Fi|Fj),存储系统中全部文件被访问的条件概率为:P(F1|Fj),P(F2|Fj),…,P(Fm|Fj);
(2)将条件概率按从大到小的顺序排队,则队列的前k个文件为预测载入的文件,即可组成预测加载的数据文件,k个文件所占存储空间应小于预测加载存储更新容量的阈值;
(3)将预测加载的数据文件列表与当前缓存中的文件列表对比,去除其重复的部分,即为实际需要载入的文件列表,其所占存储空间为Sr;
(4)将当前所述预测加载数据缓存区的文件按条件概率排序,按照从小到大的顺序选取其中的l个文件,保证次l个文件所占用的空间大于实际需要载入的文件所需空间,Sl>=Sr;
(5)载入实际需要载入的文件,写入预测加载数据缓存区,并覆盖其中条件概率较小的l个文件,即可将预测加载数据缓存区更新为预测加载文件写入后的缓存且已经覆盖掉关联度较低的缓存区间。
根据实际的读取文件的命中率动态调整所述历史数据缓存区和所述预测加载数据缓存区的容量大小,如果预测加载数据缓存区的命中率高于历史数据缓存区的命中率,则加大预测加载数据缓存区容量,减少历史数据缓存区容量;如果预测加载数据缓存区的命中率低于历史数据缓存区的命中率,则减少预测加载数据缓存区容量,加大历史数据缓存区容量。
一种提高冷存储数据读取速度的系统,将计算机存储系统分为冷存储区和热存储区两部分,所述热存储区空间中的一部分定义为热存储区中的缓存区用于缓存冷存储区数据以及基于存储系统中的数据关联性预测下一步可能访问的数据,并将冷存储区中的数据预加载到热存储区中的缓存区。
将所述热存储区中的缓存区分为历史数据缓存区和预测加载数据缓存区,所述历史数据缓存区用来保存过去一段时间访问次数较多的数据;所述预测加载数据缓存区用来提前加载通过基于文件关联度的预测算法预测下一步要访问的数据。
根据实际的读取文件的命中率动态调整所述历史数据缓存区和所述预测加载数据缓存区的容量大小,如果预测加载数据缓存区的命中率高于历史数据缓存区的命中率,则加大预测加载数据缓存区容量,减少历史数据缓存区容量;如果预测加载数据缓存区的命中率低于历史数据缓存区的命中率,则减少预测加载数据缓存区容量,加大历史数据缓存区容量。
本发明具有的优点和积极效果是:一种提高冷存储数据读取速度的方法和系统,可以通过预测加载数据的方法预测并提前缓存将要访问的冷存储数据,明显提升冷数据访问的速度,改善用户体验。需要预加载的文件根据文件之间的关联性进行判断,根据实际运行效果动态调整预加载部分缓存的大小,从而实现自适应的高效率缓存算法。
附图说明
图1是系统存储空间示意图;
图2是基于文件关联度的预测算法流程示意图。
图中:
1、冷存储区; 2、热存储区中的缓存区; 3、热存储中的其它区间;
4、预测加载数据文件中已经在缓存区存在的部分;
5、预测加载的数据文件去除已经缓存的部分;
6、预测加载文件写入后的缓存,已经覆盖掉关联度较低的缓存区间;
7、历史数据缓存区; 8、预测加载数据缓存区。
具体实施方式
下面结合附图对本发明的具体实施例做详细说明。
如图1-2所示,一种提高冷存储数据读取速度的方法,将计算机存储系统分为冷存储区和热存储区两部分,热存储空间中的一部分定义为热存储区中的缓存区用于缓存冷存储区数据以及基于存储系统中的数据关联性预测下一步可能访问的数据,并将冷存储区中的数据预加载到热存储区中的缓存区。
将所述热存储区中的缓存区分为历史数据缓存区和预测加载数据缓存区,所述历史数据缓存区用来保存过去一段时间访问次数较多的数据;所述预测加载数据缓存区用来提前加载通过基于文件关联度的预测算法预测下一步要访问的数据。
所述预测加载数据缓存区用来提前加载通过基于文件关联度的预测算法,具体包括以下步骤:
(1)定义所述历史数据缓存区的大小为Sh,定义所述预测加载数据缓存区的大小为Sp,假设存储系统中总共保存m个文件,F1,F2,…,Fm,假设当前访问的文件为Fj,则下一步访问文件i的概率为:P(Fi|Fj),存储系统中全部文件被访问的条件概率为:P(F1|Fj),P(F2|Fj),…,P(Fm|Fj);
(2)将条件概率按从大到小的顺序排队,则队列的前k个文件为预测载入的文件,即可组成预测加载的数据文件,k个文件所占存储空间应小于预测加载存储更新容量的阈值;
(3)将预测加载的数据文件列表与当前缓存中的文件列表对比,去除其重复的部分,即为实际需要载入的文件列表,其所占存储空间为Sr;
(4)将当前所述预测加载数据缓存区的文件按条件概率排序,按照从小到大的顺序选取其中的l个文件,保证次l个文件所占用的空间大于实际需要载入的文件所需空间,Sl>=Sr;
(5)载入实际需要载入的文件,写入预测加载数据缓存区,并覆盖其中条件概率较小的l个文件,即可将预测加载数据缓存区更新为预测加载文件写入后的缓存且已经覆盖掉关联度较低的缓存区间。
根据实际的读取文件的命中率动态调整所述历史数据缓存区和所述预测加载数据缓存区的容量大小,如果预测加载数据缓存区的命中率高于历史数据缓存区的命中率,则加大预测加载数据缓存区容量,减少历史数据缓存区容量;如果预测加载数据缓存区的命中率低于历史数据缓存区的命中率,则减少预测加载数据缓存区容量,加大历史数据缓存区容量。
一种提高冷存储数据读取速度的系统,将计算机存储系统分为冷存储区和热存储区两部分,所述热存储区空间中的一部分定义为热存储区中的缓存区用于缓存冷存储区数据以及基于存储系统中的数据关联性预测下一步可能访问的数据,并将冷存储区中的数据预加载到热存储区中的缓存区。
将所述热存储区中的缓存区分为历史数据缓存区和预测加载数据缓存区,所述历史数据缓存区用来保存过去一段时间访问次数较多的数据;所述预测加载数据缓存区用来提前加载通过基于文件关联度的预测算法预测下一步要访问的数据。
根据实际的读取文件的命中率动态调整所述历史数据缓存区和所述预测加载数据缓存区的容量大小,如果预测加载数据缓存区的命中率高于历史数据缓存区的命中率,则加大预测加载数据缓存区容量,减少历史数据缓存区容量;如果预测加载数据缓存区的命中率低于历史数据缓存区的命中率,则减少预测加载数据缓存区容量,加大历史数据缓存区容量。一种提高冷存储数据读取速度的方法和系统,其核心思路是利用热存储作为冷存储的缓存,通过算法提高冷存储数据读取速度。如图1所示,整个系统的存储空间由热存储和冷存储两部分组成,其中热存储的一部分作为冷存储的缓存,用来提高冷存储的读取速度。热存储包括但不限于磁盘存储、闪存、内存,冷存储包括但不限于光存储、磁带存储。
热存储的缓存区又可以分为历史数据缓存区和预测加载数据缓存区两部分,其中历史缓存区用来保存过去一段时间访问次数较多的数据,采用常用的LFU、LRU等算法实现;预测加载数据缓存区用来提前加载通过预测算法预测下一步要访问的数据,预测加载数据采用基于文件关联度的预测算法实现。历史数据缓存区和预测加载数据缓存区的大小可以根据实际的访问文件的命中率进行动态调整。
预测加载数据的算法是根据最近一段时间读取的文件与存储中的其它文件的相关性来判断未来一段时间可能会访问到的文件,根据预测的结果调整缓存中的文件,从而减少等待时间,提高数据读取的速度。该技术方案的科学依据在于,在实际应用中,很多冷存储中保存的文件具有较强的相关性,很可能会被连续访问,根据文件直接关联性的大小可以计算文件读取的条件概率,提前将下一步访问概率较高的文件载入热存储的预测加载缓存中,则实际访问文件时可以直接从热存储中读取,从而提高访问数度。
历史数据缓存区和预测加载数据缓存区的大小可以根据实际的读取文件的命中率进行动态调整。如果预测加载缓存区的命中率高于历史数据缓存区,则加大预测加载缓存区,减少历史数据缓存区,反之亦然。
将存储系统中热存储的一部分用于冷存储的缓存,包括历史数据缓存和预测数据缓存,其中历史数据缓存区的大小为Sh,预测加载数据的缓存区大小为Sp。假设存储系统中总共保存m个文件,F1,F2,…,Fm,假设当前访问的文件为Fj,则下一步访问文件i的概率为:P(Fi|Fj),存储系统中全部文件被访问的条件概率为:P(F1|Fj),P(F2|Fj),…,P(Fm|Fj)。将条件概率按从大到小的顺序排队,则队列的前k个文件为预测载入的文件,即可组成附图2中的第3部分,k个文件所占存储空间应小于预测加载存储更新容量的阈值。将预测载入的文件列表与当前缓存中的文件列表对比,去除其重复的部分,即为实际需要载入的文件列表,其所占存储空间为Sr。将当前预测加载缓存区的文件按条件概率排序,按照从小到大的顺序选取其中的l个文件,保证次l个文件所占用的空间大于实际需要载入的文件所需空间,Sl>=Sr。载入实际需要载入的文件,写入预测加载数据缓存区,并覆盖其中条件概率较小的l个文件,即可将预测加载数据缓存区更新为图2中的第6部分。与此同时,历史数据缓存区按照常见的LFU、LRU或类似算法进行更新。在系统运行每隔一段实际,可以通过命中率来比较历史数据缓存区与预测加载缓存区的命中率,再根据命中率的高低调整历史数据缓存区与预测加载缓存区的大小,从而实现更高的系统性能。命中率的计算方法为一段时间内访问文件位于缓存内部的次数与缓存容量的比值。
以智能交通领域的视频监控数据为例,交通领域的监控、卡口、电子警察等视频数据通常以几分钟为一个时间段保存在文件夹中,相邻时间的视频数据和相邻地段的视频数据显然会有更高的相关度,在分析事故原因时可能会被同时访问。因此,可以将视频文件被调用的条件概率作为视频文件间相隔的时间和距离的函数,在调用视频文件Fj之后调用视频文件Fi的条件概率可表示为:P(Fi|Fj)=f(Δt,Δd),其中Δt代表Fi和Fj两个视频之间的间隔时间,Δd代表Fi和Fj两个视频文件所属摄像设备的物理距离,显然P(Fi|Fj) 会随着Δt和Δd的增大而减小,函数f可以通过二阶多项式或神经网络等方式根据实际的访问概率进行参数拟合,即可得到不同视频文件之间的条件概率计算方法。
通常来说,热存储中的视频文件最多保存几周到几个月的时间,超过此时间的视频文件会自动转存到冷存储中。当访问冷存储中的视频数据文件Fj 时,即可按照以下步骤更新预测加载缓存空间:
1、计算冷存储中的所有视频文件与当前访问的视频文件之间的条件概率,并按照从大到小的顺序排序;
2、设定一个条件概率的阈值Pt,读取相关概率P(Fi|Fj)>Pt的所有文件列表Lt,并计算其文件大小总和,如果文件列表Lt中文件大小总和大于预设的预测加载存储更新容量的阈值,则依次排除Lt中条件概率最小的文件,直到Lt中文件大小总和小于或等于预设的预测加载存储更新容量的阈值(此阈值不超过预测加载缓存区的最大容量);
3、获取当前缓存中的文件列表Lc,将Lt与Lc进行比较,去除两个文件列表中重复的部分得到更新后的Lt和Lc;
4、计算Lt中的文件大小总和Sr,将Lc中的文件按照相关概率从小到大的顺序排序,并依次将相关概率最小的l个文件加入待删除文件列表Ld 中,直至Ld中文件大小的总容量Sl大于Lt中文件大小的总容量Sr;
5、删除预测加载缓存中Ld列表内的文件,写入Lt列表中的文件,即可完成预测加载缓存中的内容更新;
6、每隔一段时间计算历史数据缓存和预测加载缓存的命中率,减少命中率低的缓存区容量,增加命中率高的缓存区容量。
一种提高冷存储数据读取速度的方法和系统,可以通过预测加载数据的方法预测并提前缓存将要访问的冷存储数据,明显提升冷数据访问的速度,改善用户体验。需要预加载的文件根据文件之间的关联性进行判断,根据实际运行效果动态调整预加载部分缓存的大小,从而实现自适应的高效率缓存算法。
以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明范围所作的均等变化与改进等,均应仍归属于本专利涵盖范围之内。

Claims (7)

1.一种提高冷存储数据读取速度的方法,其特征在于:将计算机存储系统分为冷存储区和热存储区两部分,热存储空间中的一部分定义为热存储区中的缓存区用于缓存冷存储区数据以及基于存储系统中的数据关联性预测下一步可能访问的数据,并将冷存储区中的数据预加载到热存储区中的缓存区。
2.根据权利要求1所述的一种提高冷存储数据读取速度的方法,其特征在于:将所述热存储区中的缓存区分为历史数据缓存区和预测加载数据缓存区,所述历史数据缓存区用来保存过去一段时间访问次数较多的数据;所述预测加载数据缓存区用来提前加载通过基于文件关联度的预测算法预测下一步要访问的数据。
3.根据权利要求2所述的一种提高冷存储数据读取速度的方法,其特征在于:所述预测加载数据缓存区用来提前加载通过基于文件关联度的预测算法,具体包括以下步骤:
(1)定义所述历史数据缓存区的大小为Sh,定义所述预测加载数据缓存区的大小为Sp,假设存储系统中总共保存m个文件,F1,F2,…,Fm,假设当前访问的文件为Fj,则下一步访问文件i的概率为:P(Fi|Fj),存储系统中全部文件被访问的条件概率为:P(F1|Fj),P(F2|Fj),…,P(Fm|Fj);
(2)将条件概率按从大到小的顺序排队,则队列的前k个文件为预测载入的文件,即可组成预测加载的数据文件,k个文件所占存储空间应小于预测加载存储更新容量的阈值;
(3)将预测加载的数据文件列表与当前缓存中的文件列表对比,去除其重复的部分,即为实际需要载入的文件列表,其所占存储空间为Sr;
(4)将当前所述预测加载数据缓存区的文件按条件概率排序,按照从小到大的顺序选取其中的l个文件,保证次l个文件所占用的空间大于实际需要载入的文件所需空间,Sl>=Sr;
(5)载入实际需要载入的文件,写入预测加载数据缓存区,并覆盖其中条件概率较小的l个文件,即可将预测加载数据缓存区更新为预测加载文件写入后的缓存且已经覆盖掉关联度较低的缓存区间。
4.根据权利要求2所述的一种提高冷存储数据读取速度的方法,其特征在于:根据实际的读取文件的命中率动态调整所述历史数据缓存区和所述预测加载数据缓存区的容量大小,如果预测加载数据缓存区的命中率高于历史数据缓存区的命中率,则加大预测加载数据缓存区容量,减少历史数据缓存区容量;如果预测加载数据缓存区的命中率低于历史数据缓存区的命中率,则减少预测加载数据缓存区容量,加大历史数据缓存区容量。
5.一种提高冷存储数据读取速度的系统,其特征在于:将计算机存储系统分为冷存储区和热存储区两部分,所述热存储区空间中的一部分定义为热存储区中的缓存区用于缓存冷存储区数据以及基于存储系统中的数据关联性预测下一步可能访问的数据,并将冷存储区中的数据预加载到热存储区中的缓存区。
6.根据权利要求5所述的一种提高冷存储数据读取速度的系统,其特征在于:将所述热存储区中的缓存区分为历史数据缓存区和预测加载数据缓存区,所述历史数据缓存区用来保存过去一段时间访问次数较多的数据;所述预测加载数据缓存区用来提前加载通过基于文件关联度的预测算法预测下一步要访问的数据。
7.根据权利要求5所述的一种提高冷存储数据读取速度的系统,其特征在于:根据实际的读取文件的命中率动态调整所述历史数据缓存区和所述预测加载数据缓存区的容量大小,如果预测加载数据缓存区的命中率高于历史数据缓存区的命中率,则加大预测加载数据缓存区容量,减少历史数据缓存区容量;如果预测加载数据缓存区的命中率低于历史数据缓存区的命中率,则减少预测加载数据缓存区容量,加大历史数据缓存区容量。
CN201811057423.1A 2018-09-11 2018-09-11 一种提高冷存储数据读取速度的方法和系统 Active CN109344092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811057423.1A CN109344092B (zh) 2018-09-11 2018-09-11 一种提高冷存储数据读取速度的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811057423.1A CN109344092B (zh) 2018-09-11 2018-09-11 一种提高冷存储数据读取速度的方法和系统

Publications (2)

Publication Number Publication Date
CN109344092A true CN109344092A (zh) 2019-02-15
CN109344092B CN109344092B (zh) 2023-06-23

Family

ID=65304838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811057423.1A Active CN109344092B (zh) 2018-09-11 2018-09-11 一种提高冷存储数据读取速度的方法和系统

Country Status (1)

Country Link
CN (1) CN109344092B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442309A (zh) * 2019-07-24 2019-11-12 广东紫晶信息存储技术股份有限公司 一种基于光存储的冷热数据交换方法及系统
CN111209414A (zh) * 2020-01-03 2020-05-29 四川新网银行股份有限公司 基于影像资料调用业务场景实现资料冷热分离存储的方法
CN111813740A (zh) * 2019-04-11 2020-10-23 中国移动通信集团四川有限公司 一种文件分层存储方法及服务器
CN112416820A (zh) * 2020-11-04 2021-02-26 国网山东省电力公司信息通信公司 一种数据包分类存储方法及系统
WO2021036689A1 (zh) * 2019-08-26 2021-03-04 华为技术有限公司 一种缓存空间的管理方法及装置
CN112559459A (zh) * 2020-12-15 2021-03-26 跬云(上海)信息科技有限公司 一种基于云计算的自适应存储分层系统及方法
CN112764692A (zh) * 2021-02-19 2021-05-07 浪潮云信息技术股份公司 一种提升Cache Tire缓存命中率的方法
CN113377287A (zh) * 2021-04-26 2021-09-10 深圳云宣科技有限公司 一种大数据多维智能存储系统及方法
WO2022156649A1 (zh) * 2021-01-19 2022-07-28 华为技术有限公司 一种容量调整的方法以及相关装置
CN115334158A (zh) * 2022-07-29 2022-11-11 重庆蚂蚁消费金融有限公司 一种缓存管理方法、装置、存储介质及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098064A (en) * 1998-05-22 2000-08-01 Xerox Corporation Prefetching and caching documents according to probability ranked need S list
CN104794004A (zh) * 2015-03-17 2015-07-22 中国石油天然气集团公司 信息预加载的方法
CN105022697A (zh) * 2015-05-19 2015-11-04 江苏蓝深远望系统集成有限公司 基于磁盘缓存的虚拟光盘库存储系统替换算法
CN105426411A (zh) * 2015-10-31 2016-03-23 南京南瑞继保电气有限公司 基于访问趋势预测的时间序列数据库缓存管理方法
US20160239423A1 (en) * 2015-02-17 2016-08-18 Linkedln Corporation Managed memory cache with application-layer prefetching
WO2018054200A1 (zh) * 2016-09-26 2018-03-29 上海泓智信息科技有限公司 文件读取方法和装置
CN107911711A (zh) * 2017-10-24 2018-04-13 北京邮电大学 一种考虑分区的边缘缓存替换改进方法
US20180121601A1 (en) * 2016-10-28 2018-05-03 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
CN108416620A (zh) * 2018-02-08 2018-08-17 杭州浮云网络科技有限公司 一种基于大数据的画像数据的智能社交广告投放平台

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098064A (en) * 1998-05-22 2000-08-01 Xerox Corporation Prefetching and caching documents according to probability ranked need S list
US20160239423A1 (en) * 2015-02-17 2016-08-18 Linkedln Corporation Managed memory cache with application-layer prefetching
CN104794004A (zh) * 2015-03-17 2015-07-22 中国石油天然气集团公司 信息预加载的方法
CN105022697A (zh) * 2015-05-19 2015-11-04 江苏蓝深远望系统集成有限公司 基于磁盘缓存的虚拟光盘库存储系统替换算法
CN105426411A (zh) * 2015-10-31 2016-03-23 南京南瑞继保电气有限公司 基于访问趋势预测的时间序列数据库缓存管理方法
WO2018054200A1 (zh) * 2016-09-26 2018-03-29 上海泓智信息科技有限公司 文件读取方法和装置
US20180121601A1 (en) * 2016-10-28 2018-05-03 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
CN107911711A (zh) * 2017-10-24 2018-04-13 北京邮电大学 一种考虑分区的边缘缓存替换改进方法
CN108416620A (zh) * 2018-02-08 2018-08-17 杭州浮云网络科技有限公司 一种基于大数据的画像数据的智能社交广告投放平台

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813740A (zh) * 2019-04-11 2020-10-23 中国移动通信集团四川有限公司 一种文件分层存储方法及服务器
CN110442309A (zh) * 2019-07-24 2019-11-12 广东紫晶信息存储技术股份有限公司 一种基于光存储的冷热数据交换方法及系统
WO2021036689A1 (zh) * 2019-08-26 2021-03-04 华为技术有限公司 一种缓存空间的管理方法及装置
US11899580B2 (en) 2019-08-26 2024-02-13 Huawei Technologies Co., Ltd. Cache space management method and apparatus
CN111209414A (zh) * 2020-01-03 2020-05-29 四川新网银行股份有限公司 基于影像资料调用业务场景实现资料冷热分离存储的方法
CN111209414B (zh) * 2020-01-03 2023-08-11 四川新网银行股份有限公司 基于影像资料调用业务场景实现资料冷热分离存储的方法
CN112416820B (zh) * 2020-11-04 2022-05-27 国网山东省电力公司信息通信公司 一种数据包分类存储方法及系统
CN112416820A (zh) * 2020-11-04 2021-02-26 国网山东省电力公司信息通信公司 一种数据包分类存储方法及系统
WO2022126839A1 (zh) * 2020-12-15 2022-06-23 跬云(上海)信息科技有限公司 一种基于云计算的自适应存储分层系统及方法
CN112559459A (zh) * 2020-12-15 2021-03-26 跬云(上海)信息科技有限公司 一种基于云计算的自适应存储分层系统及方法
CN112559459B (zh) * 2020-12-15 2024-02-13 跬云(上海)信息科技有限公司 一种基于云计算的自适应存储分层系统及方法
WO2022156649A1 (zh) * 2021-01-19 2022-07-28 华为技术有限公司 一种容量调整的方法以及相关装置
CN112764692A (zh) * 2021-02-19 2021-05-07 浪潮云信息技术股份公司 一种提升Cache Tire缓存命中率的方法
CN113377287A (zh) * 2021-04-26 2021-09-10 深圳云宣科技有限公司 一种大数据多维智能存储系统及方法
CN115334158A (zh) * 2022-07-29 2022-11-11 重庆蚂蚁消费金融有限公司 一种缓存管理方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN109344092B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN109344092A (zh) 一种提高冷存储数据读取速度的方法和系统
CN107193646B (zh) 一种基于混合主存架构的高效动态页面调度方法
CN105653591B (zh) 一种工业实时数据分级存储及迁移方法
KR101726824B1 (ko) 캐시 아키텍처에서 하이브리드 미디어의 효율적인 사용
US7386675B2 (en) Systems and methods for using excitement values to predict future access to resources
CN104794064B (zh) 一种基于区域热度的缓存管理方法
US20170371807A1 (en) Cache data determining method and apparatus
US20020056025A1 (en) Systems and methods for management of memory
CN106528451B (zh) 针对小文件的二级缓存预取的云存储框架及构建方法
CN111309650B (zh) 缓存控制方法、装置、存储介质及设备
CN104503703B (zh) 缓存的处理方法和装置
CN107247675B (zh) 一种基于分类预测的缓存选择方法和系统
KR20080021623A (ko) 메모리 페이지 관리
CN110888600B (zh) 一种面向nand闪存的缓冲区管理方法
CN103902260A (zh) 一种对象文件系统的预取方法
CN110555001A (zh) 数据处理方法、装置、终端及介质
CN110147331A (zh) 缓存数据处理方法、系统及可读存储介质
RU2525752C2 (ru) Способ и устройство хранения, чтения и записи составного документа
JPH10124396A (ja) バッファ交換方法
CN110377572A (zh) 一种缓存空间管理方法、装置、设备及介质
CN110795363A (zh) 一种存储介质的热页预测方法和页面调度方法
CN105630413B (zh) 一种磁盘数据的同步回写方法
CN112685337B (zh) 一种存储集群中分级缓存读写数据的方法
US20130086325A1 (en) Dynamic cache system and method of formation
CN112051968B (zh) 基于Kafka的分布式数据流分级缓存自动迁移方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant