CN109344092A

CN109344092A - 一种提高冷存储数据读取速度的方法和系统

Info

Publication number: CN109344092A
Application number: CN201811057423.1A
Authority: CN
Inventors: 何晓楠; 田耘坤; 张凡; 李涛; 苏世伟
Original assignee: TIANJIN YIHUALU INFORMATION TECHNOLOGY Co Ltd
Current assignee: TIANJIN YIHUALU INFORMATION TECHNOLOGY Co Ltd
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2019-02-15
Anticipated expiration: 2038-09-11
Also published as: CN109344092B

Abstract

本发明提供一种提高冷存储数据读取速度的方法和系统，将系统存储空间分为热存储区和冷存储区，将热存储区分为热存储中的其它区间和热存储区中的缓存区，将热存储区中的缓存区分为历史数据缓存区和预测加载数据缓存区；根据当前访问的文件，通过文件之间的相关性判断下一步可能访问的文件，如果文件不在当前的缓存中，则提前将文件从所述冷存储区中读取出来，写入预测加载数据缓存区；动态调整历史数据缓存区和预测加载数据缓存区的容量大小。本发明可以通过预测加载数据的方法预测并提前缓存将要访问的冷存储数据，明显提升冷数据访问的速度，改善用户体验。

Description

一种提高冷存储数据读取速度的方法和系统

技术领域

本发明涉及控制计算机技术领域，尤其涉及一种提高冷存储数据读取速度的方法和系统。

背景技术

近年来，随着信息化技术的飞速发展，特别是网络视频监控业务的极速膨胀，数字化信息量呈现出爆炸性增长态势，全球每年产生的数据量以50％的速度递增，大数据存储以及大数据分析的需求越来越强烈。据Gartner研究显示,未来5年全球数据存储需求年增长率约为35％至65％，到2018年，整个世界的数据总量将会达到44ZB(1ZB＝10亿TB),到2025年中国数据总量将超过13000EB,中国将成为大数据存储需求最大的国家。大量的数据需要安全、海量、便捷、绿色节能和低成本的存储方案。

伴随着数据量的剧增，数据的存储和访问策略也开始分化。业界根据数据的访问频度将数据分为热数据、温数据和冷数据。统计显示，热数据、温数据和冷数据占总数据量的比例约为5％、15％、80％。Facebook对图片数据访问分析显示，82％的访问都集中在近三个月内产生的8％的新数据上，绝大部分数据在迅速变“冷”。随着全世界冷数据量不断增多，冷数据的存取技术成为存储领域的一个重要发展方向。

冷存储是指存储冷数据的容量大、性能要求不高、成本低廉的永久在线的存储介质。目前常见的存储方式包括磁盘存储、磁带存储、闪存存储、光盘存储等等，从成本和能耗的角度考虑，最适合做冷数据存储的方式是光盘存储和磁带存储，其共同的特点是存储容量大、成本低、能耗低，但是读写速度较慢，明显低于常用的磁盘和闪存等热存储媒体。另外，光存储还有防电磁冲击，不可擦写等特点。

冷数据并非失去价值,但以热数据的存储方式保存冷数据必将消耗大量资源。蓝光光盘库的应用将解决冷数据消耗资源的问题,以“冷技术”保存冷数据,使冷、热数据得以完美结合,将成为大数据时代数据存储的最优方案。

为了提高数据存储系统的性能，冷存储和热存储通常会搭配使用，通过一定的算法对冷热数据进行分层，即将不常用的数据作为冷数据保存在光盘或磁带中，将常用的数据保存在磁盘或闪存中，同时还可以利用热存储作为冷存储的缓存，通过算法自动在冷热存储之间交换数据，即将常用或可能很快用到的数据置换到热存储中，将不常用的数据置换到冷存储中。这种冷热数据分层的算法类似于计算机虚拟内存的缓存机制，但是由于应用领域不同，需要结合业务场景开发更高效的数据分层算法以及数据读写算法。

当前常见的数据缓存算法包括FIFO方法、LRU方法、LFU方法以及综合两种的ARC自适应算法。其中FIFO是简单的先进先出算法，LRU是Least Recently Used的缩写，即最近最少使用文件置换算法，其算法思路是淘汰当前缓存中最长时间未被使用的文件，LFU是Least Frequently Used的缩写，即最低频率文件置换算法，其思路是淘汰当前缓存中一段时间内使用频率最低的文件。ARC是Adaptive Replacement Cache的缩写，它通过动态调整LFU和LRU的链表长度来提高算法的适应能力，根据工作负载自动调整优化策略。

以上几种缓存算法都最是将新访问的文件保存在缓存区内并删除当前缓存中最长时间未被访问的文件，或者过去一段时间内访问频率最低的文件。这种缓存方法可以在一定情况下可以提高存储读写速度，尤其是在短期内反复读写同一批文件的情况下，可以直接访问缓存的文件，明显减少低速存储的读取次数，即可以一定程度上提升存储读写速度。但是这种基于历史访问内容的算法缺陷也很明显，其共同的缺点是缺少预测能力，即只能被动保存最近一段时间内读取过的文件，而不能够通过预测算法提前判断可能将要读取的新文件，提前进行缓存，从而提升文件访问速度。对于冷存储的应用场景而言，经常需要访问保存在冷存储中时间比较久远，应用频率很低的数据，而且访问之后的一段时间不一定会频繁访问，因此仅仅通过缓存历史数据不足以提升足够的读取速度。

发明内容

本发明要解决以上技术问题，提供一种提高冷存储数据读取速度的方法和系统，可解决现有数据缓存技术中存在的预测能力不足的问题。

为解决上述技术问题，本发明采用的技术方案是：一种提高冷存储数据读取速度的方法，将计算机存储系统分为冷存储区和热存储区两部分，热存储空间中的一部分定义为热存储区中的缓存区用于缓存冷存储区数据以及基于存储系统中的数据关联性预测下一步可能访问的数据，并将冷存储区中的数据预加载到热存储区中的缓存区。

将所述热存储区中的缓存区分为历史数据缓存区和预测加载数据缓存区，所述历史数据缓存区用来保存过去一段时间访问次数较多的数据；所述预测加载数据缓存区用来提前加载通过基于文件关联度的预测算法预测下一步要访问的数据。

所述预测加载数据缓存区用来提前加载通过基于文件关联度的预测算法，具体包括以下步骤：

(1)定义所述历史数据缓存区的大小为Sh，定义所述预测加载数据缓存区的大小为Sp，假设存储系统中总共保存m个文件，F1,F2,…,Fm,假设当前访问的文件为Fj，则下一步访问文件i的概率为：P(Fi|Fj)，存储系统中全部文件被访问的条件概率为：P(F1|Fj),P(F2|Fj),…,P(Fm|Fj)；

(2)将条件概率按从大到小的顺序排队，则队列的前k个文件为预测载入的文件，即可组成预测加载的数据文件,k个文件所占存储空间应小于预测加载存储更新容量的阈值；

(3)将预测加载的数据文件列表与当前缓存中的文件列表对比，去除其重复的部分，即为实际需要载入的文件列表,其所占存储空间为Sr；

(4)将当前所述预测加载数据缓存区的文件按条件概率排序，按照从小到大的顺序选取其中的l个文件，保证次l个文件所占用的空间大于实际需要载入的文件所需空间，Sl>＝Sr；

(5)载入实际需要载入的文件，写入预测加载数据缓存区，并覆盖其中条件概率较小的l个文件，即可将预测加载数据缓存区更新为预测加载文件写入后的缓存且已经覆盖掉关联度较低的缓存区间。

根据实际的读取文件的命中率动态调整所述历史数据缓存区和所述预测加载数据缓存区的容量大小，如果预测加载数据缓存区的命中率高于历史数据缓存区的命中率，则加大预测加载数据缓存区容量，减少历史数据缓存区容量；如果预测加载数据缓存区的命中率低于历史数据缓存区的命中率，则减少预测加载数据缓存区容量，加大历史数据缓存区容量。

一种提高冷存储数据读取速度的系统，将计算机存储系统分为冷存储区和热存储区两部分，所述热存储区空间中的一部分定义为热存储区中的缓存区用于缓存冷存储区数据以及基于存储系统中的数据关联性预测下一步可能访问的数据，并将冷存储区中的数据预加载到热存储区中的缓存区。

本发明具有的优点和积极效果是：一种提高冷存储数据读取速度的方法和系统，可以通过预测加载数据的方法预测并提前缓存将要访问的冷存储数据，明显提升冷数据访问的速度，改善用户体验。需要预加载的文件根据文件之间的关联性进行判断，根据实际运行效果动态调整预加载部分缓存的大小，从而实现自适应的高效率缓存算法。

附图说明

图1是系统存储空间示意图；

图2是基于文件关联度的预测算法流程示意图。

图中：

1、冷存储区； 2、热存储区中的缓存区； 3、热存储中的其它区间；

4、预测加载数据文件中已经在缓存区存在的部分；

5、预测加载的数据文件去除已经缓存的部分；

6、预测加载文件写入后的缓存，已经覆盖掉关联度较低的缓存区间；

7、历史数据缓存区； 8、预测加载数据缓存区。

具体实施方式

下面结合附图对本发明的具体实施例做详细说明。

如图1-2所示，一种提高冷存储数据读取速度的方法，将计算机存储系统分为冷存储区和热存储区两部分，热存储空间中的一部分定义为热存储区中的缓存区用于缓存冷存储区数据以及基于存储系统中的数据关联性预测下一步可能访问的数据，并将冷存储区中的数据预加载到热存储区中的缓存区。

根据实际的读取文件的命中率动态调整所述历史数据缓存区和所述预测加载数据缓存区的容量大小，如果预测加载数据缓存区的命中率高于历史数据缓存区的命中率，则加大预测加载数据缓存区容量，减少历史数据缓存区容量；如果预测加载数据缓存区的命中率低于历史数据缓存区的命中率，则减少预测加载数据缓存区容量，加大历史数据缓存区容量。一种提高冷存储数据读取速度的方法和系统，其核心思路是利用热存储作为冷存储的缓存，通过算法提高冷存储数据读取速度。如图1所示，整个系统的存储空间由热存储和冷存储两部分组成，其中热存储的一部分作为冷存储的缓存，用来提高冷存储的读取速度。热存储包括但不限于磁盘存储、闪存、内存，冷存储包括但不限于光存储、磁带存储。

热存储的缓存区又可以分为历史数据缓存区和预测加载数据缓存区两部分，其中历史缓存区用来保存过去一段时间访问次数较多的数据，采用常用的LFU、LRU等算法实现；预测加载数据缓存区用来提前加载通过预测算法预测下一步要访问的数据，预测加载数据采用基于文件关联度的预测算法实现。历史数据缓存区和预测加载数据缓存区的大小可以根据实际的访问文件的命中率进行动态调整。

预测加载数据的算法是根据最近一段时间读取的文件与存储中的其它文件的相关性来判断未来一段时间可能会访问到的文件，根据预测的结果调整缓存中的文件，从而减少等待时间，提高数据读取的速度。该技术方案的科学依据在于，在实际应用中，很多冷存储中保存的文件具有较强的相关性，很可能会被连续访问，根据文件直接关联性的大小可以计算文件读取的条件概率，提前将下一步访问概率较高的文件载入热存储的预测加载缓存中，则实际访问文件时可以直接从热存储中读取，从而提高访问数度。

历史数据缓存区和预测加载数据缓存区的大小可以根据实际的读取文件的命中率进行动态调整。如果预测加载缓存区的命中率高于历史数据缓存区，则加大预测加载缓存区，减少历史数据缓存区，反之亦然。

将存储系统中热存储的一部分用于冷存储的缓存，包括历史数据缓存和预测数据缓存，其中历史数据缓存区的大小为Sh，预测加载数据的缓存区大小为Sp。假设存储系统中总共保存m个文件，F1,F2,…,Fm,假设当前访问的文件为Fj，则下一步访问文件i的概率为：P(Fi|Fj)，存储系统中全部文件被访问的条件概率为：P(F1|Fj),P(F2|Fj),…,P(Fm|Fj)。将条件概率按从大到小的顺序排队，则队列的前k个文件为预测载入的文件，即可组成附图2中的第3部分,k个文件所占存储空间应小于预测加载存储更新容量的阈值。将预测载入的文件列表与当前缓存中的文件列表对比，去除其重复的部分，即为实际需要载入的文件列表,其所占存储空间为Sr。将当前预测加载缓存区的文件按条件概率排序，按照从小到大的顺序选取其中的l个文件，保证次l个文件所占用的空间大于实际需要载入的文件所需空间，Sl>＝Sr。载入实际需要载入的文件，写入预测加载数据缓存区，并覆盖其中条件概率较小的l个文件，即可将预测加载数据缓存区更新为图2中的第6部分。与此同时，历史数据缓存区按照常见的LFU、LRU或类似算法进行更新。在系统运行每隔一段实际，可以通过命中率来比较历史数据缓存区与预测加载缓存区的命中率，再根据命中率的高低调整历史数据缓存区与预测加载缓存区的大小，从而实现更高的系统性能。命中率的计算方法为一段时间内访问文件位于缓存内部的次数与缓存容量的比值。

以智能交通领域的视频监控数据为例，交通领域的监控、卡口、电子警察等视频数据通常以几分钟为一个时间段保存在文件夹中，相邻时间的视频数据和相邻地段的视频数据显然会有更高的相关度，在分析事故原因时可能会被同时访问。因此，可以将视频文件被调用的条件概率作为视频文件间相隔的时间和距离的函数，在调用视频文件Fj之后调用视频文件Fi的条件概率可表示为：P(Fi|Fj)＝f(Δt，Δd)，其中Δt代表Fi和Fj两个视频之间的间隔时间，Δd代表Fi和Fj两个视频文件所属摄像设备的物理距离，显然P(Fi|Fj) 会随着Δt和Δd的增大而减小，函数f可以通过二阶多项式或神经网络等方式根据实际的访问概率进行参数拟合，即可得到不同视频文件之间的条件概率计算方法。

通常来说，热存储中的视频文件最多保存几周到几个月的时间，超过此时间的视频文件会自动转存到冷存储中。当访问冷存储中的视频数据文件Fj 时，即可按照以下步骤更新预测加载缓存空间：

1、计算冷存储中的所有视频文件与当前访问的视频文件之间的条件概率，并按照从大到小的顺序排序；

2、设定一个条件概率的阈值Pt，读取相关概率P(Fi|Fj)>Pt的所有文件列表Lt，并计算其文件大小总和，如果文件列表Lt中文件大小总和大于预设的预测加载存储更新容量的阈值，则依次排除Lt中条件概率最小的文件，直到Lt中文件大小总和小于或等于预设的预测加载存储更新容量的阈值(此阈值不超过预测加载缓存区的最大容量)；

3、获取当前缓存中的文件列表Lc,将Lt与Lc进行比较，去除两个文件列表中重复的部分得到更新后的Lt和Lc；

4、计算Lt中的文件大小总和Sr，将Lc中的文件按照相关概率从小到大的顺序排序，并依次将相关概率最小的l个文件加入待删除文件列表Ld 中，直至Ld中文件大小的总容量Sl大于Lt中文件大小的总容量Sr；

5、删除预测加载缓存中Ld列表内的文件，写入Lt列表中的文件，即可完成预测加载缓存中的内容更新；

6、每隔一段时间计算历史数据缓存和预测加载缓存的命中率，减少命中率低的缓存区容量，增加命中率高的缓存区容量。

一种提高冷存储数据读取速度的方法和系统，可以通过预测加载数据的方法预测并提前缓存将要访问的冷存储数据，明显提升冷数据访问的速度，改善用户体验。需要预加载的文件根据文件之间的关联性进行判断，根据实际运行效果动态调整预加载部分缓存的大小，从而实现自适应的高效率缓存算法。

以上对本发明的实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明范围所作的均等变化与改进等，均应仍归属于本专利涵盖范围之内。

Claims

1.一种提高冷存储数据读取速度的方法，其特征在于：将计算机存储系统分为冷存储区和热存储区两部分，热存储空间中的一部分定义为热存储区中的缓存区用于缓存冷存储区数据以及基于存储系统中的数据关联性预测下一步可能访问的数据，并将冷存储区中的数据预加载到热存储区中的缓存区。

2.根据权利要求1所述的一种提高冷存储数据读取速度的方法，其特征在于：将所述热存储区中的缓存区分为历史数据缓存区和预测加载数据缓存区，所述历史数据缓存区用来保存过去一段时间访问次数较多的数据；所述预测加载数据缓存区用来提前加载通过基于文件关联度的预测算法预测下一步要访问的数据。

3.根据权利要求2所述的一种提高冷存储数据读取速度的方法，其特征在于：所述预测加载数据缓存区用来提前加载通过基于文件关联度的预测算法，具体包括以下步骤：

4.根据权利要求2所述的一种提高冷存储数据读取速度的方法，其特征在于：根据实际的读取文件的命中率动态调整所述历史数据缓存区和所述预测加载数据缓存区的容量大小，如果预测加载数据缓存区的命中率高于历史数据缓存区的命中率，则加大预测加载数据缓存区容量，减少历史数据缓存区容量；如果预测加载数据缓存区的命中率低于历史数据缓存区的命中率，则减少预测加载数据缓存区容量，加大历史数据缓存区容量。

5.一种提高冷存储数据读取速度的系统，其特征在于：将计算机存储系统分为冷存储区和热存储区两部分，所述热存储区空间中的一部分定义为热存储区中的缓存区用于缓存冷存储区数据以及基于存储系统中的数据关联性预测下一步可能访问的数据，并将冷存储区中的数据预加载到热存储区中的缓存区。

6.根据权利要求5所述的一种提高冷存储数据读取速度的系统，其特征在于：将所述热存储区中的缓存区分为历史数据缓存区和预测加载数据缓存区，所述历史数据缓存区用来保存过去一段时间访问次数较多的数据；所述预测加载数据缓存区用来提前加载通过基于文件关联度的预测算法预测下一步要访问的数据。

7.根据权利要求5所述的一种提高冷存储数据读取速度的系统，其特征在于：根据实际的读取文件的命中率动态调整所述历史数据缓存区和所述预测加载数据缓存区的容量大小，如果预测加载数据缓存区的命中率高于历史数据缓存区的命中率，则加大预测加载数据缓存区容量，减少历史数据缓存区容量；如果预测加载数据缓存区的命中率低于历史数据缓存区的命中率，则减少预测加载数据缓存区容量，加大历史数据缓存区容量。