CN103795781A

CN103795781A - 一种基于文件预测的分布式缓存模型

Info

Publication number: CN103795781A
Application number: CN201310703851.8A
Authority: CN
Inventors: 陈莉君; 张胜利
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2013-12-10
Filing date: 2013-12-10
Publication date: 2014-05-14
Anticipated expiration: 2033-12-10
Also published as: CN103795781B

Abstract

本发明涉及一种基于文件预测的分布式缓存模型，建立在分布式文件系统之上，每个客户端维护本机之上的DLS(double last successor)文件预测数据，每次读请求时，同时预读DLS文件预测模型中预测的读请求目标文件之后的两个文件；服务器端维护两个队列：读请求队列和预读请求队列。DLSDCM(DLS based distributed cache model)的实现分为两部分：客户端的实现和服务器端的实现；每个客户端独立维护一份文件预测数据；服务器端负责客户端的读请求调度和预读请求调度。本发明模型以客户端文件预测模型为基础进行文件预测，从服务器角度对分布式网络中所有用户请求进行统筹调度，在提高客户端吞吐量和数据访问的同时又不会影响其它客户的数据访问。

Description

一种基于文件预测的分布式缓存模型

技术领域

本发明涉及一种基于文件预测的分布式缓存模型，属于计算机技术领域。

背景技术

随着处理器的高速发展，I/O与处理器之间的鸿沟越来越大，低下的I/O速度严重影响了分布式存储的性能，缓存与预取技术的发展从软件角度提升了I/O性能。预取可改善系统I/O的两个主要性能指标：利用异步预取在程序使用文件之前将文件准备就绪，可对应用程序隐藏磁盘I/O延时；将小粒度读取合并为大粒度读取，可提高磁盘有效利用率和I/O吞吐量。

利用大量廉价PC搭起来的分布式存储系统中，同时具备了单机中的磁盘I/O瓶颈和网络带宽的瓶颈，从数据库中查找数据也是一个重要延时因素。典型的分布式缓存系统如Oracle coherence，Memcached，Terracotta，此类分布式缓存对网格中的缓存资源进行统一管理，支持在线扩展以及数据分布均衡等功能，从数据管理方面来讲可认为是从系统层面对时间局部性强的数据进行缓存。缓存也可以从应用程序角度对数据的读取操作进行优化，根据应用程序使用文件的规律，预测将要使用的文件并提前异步读入，在程序使用文件时便可降低访问延时，一种基于用户的LNS文件预测模型、一种识别I_OFeature的文件预测模型就属于此类型缓存策略。

数据的访问请求并非完全随机，它是由用户或程序的行为驱动，用户执行某种应用程序去访问数据，连续访问的不同文件之间必然存在一定的关联。可构造一种文件预测模型，通过对数据本体间的内在联系或者历史访问记录进行分析并构造出预测数据库，依预测数据对文件进行异步预读取并缓存，当应用程序使用这些数据时，便可大幅度减少数据的访问延时，同时也减少了网络空闲时间，提升了网络使用效率。

发明内容

本发明的目的在于提供一种基于文件预测的分布式缓存模型DLSDCM(DLS baseddistribute cache model)，此模型以客户端文件预测模型为基础进行文件预测，从服务器角度对分布式网络中所有用户请求进行统筹调度，在提高客户端吞吐量和数据访问的同时又不会影响其它客户的数据访问。

为了实现上述目的，本发明的技术方案如下。

一种基于文件预测的分布式缓存模型，所述缓存模型建立在分布式文件系统之上，每个客户端维护本机之上的DLS文件预测数据，每次读请求时，同时预读DLS文件预测模型中预测的读请求目标文件之后的两个文件；服务器端维护两个队列：读请求队列和预读请求队列，其中读请求队列的优先级高于预读请求队列，即只要读请求队列不为空，预读请求队列就处于等待状态；

DLSDCM的实现分为两部分：客户端的实现和服务器端的实现；每个客户端独立维护一份文件预测数据，预测数据中每个数据节点包括文件名、两个预读文件名以及每个预读文件所命中的次数，每次读请求时都根据文件预测数据节点中预测的文件进行异步预读；服务器端负责客户端的读请求调度和预读请求调度；

其中，所述DLSDCM客户端的实现是根据DLS文件预测模型所预测的数据进行文件的预读，并将过大的数据存储于本地磁盘；一次读请求的系统执行过程如下：

①读取存储于磁盘的DLS文件预测数据；

②申请大小数据一定量(大小视具体软硬件而定，能手动修改)内存作为读请求缓存和预读请求缓存，在磁盘上创建缓存目录；

⑧遍历DLS文件预测数据节点：若数据节点中无本次读请求文件对应的数据则向服务器发送读请求，创建数据节点并插入文件预读数据，并将本次读请求文件名写入上一次读请求文件名对应的预测数据节点中，并替换其中命中次数较少的预测文件；若预测数据中存在本次读请求文件，则检查读请求文件是否存在于预读请求缓存或磁盘缓存目录中：

A、读请求文件存在于缓存并且数据仍未传输完成，则向服务器发送信号把该文件预读请求改为读请求，终止另一个预读文件的数据传输，并将预测数据中上一次读请求文件对应的预读数据节点中本次读请求文件的命中次数+1操作；

B、读请求文件存在于缓存并且文件已传输完毕，则将预测数据中上一次读请求文件对应的预读数据节点中本次读请求文件的命中次数+1操作；

C、读请求文件不存在于缓存中且预读文件正在传输，则向服务器发信号中断正在传输的数据，将缓存空间清零并发送本次读请求和预读请求；

D、读请求文件不存在于缓存中且预读文件已传输完毕，则将缓存空间清零并发送本次读请求和预读请求；

④当预读文件大于内存缓存大小时，将预读文件写入磁盘缓存目录：

读请求缓存区和预读请求缓存区在一次读请求结束后会保留一段时间，若长时间无新读请求则回收读请求缓存区和预读请求缓存区；磁盘缓存目录中数据长时间保留，当缓存目录中数据将要达到规定值时采用先存放先回收的策略回收最早存放的数据；

所述DLSDCM服务器端的实现过程为：

服务器视所有客户端为平等优先级，按照传统的先来先服务策略进行调度，服务器响应读请求和数据传输的执行过程如下：

①将读请求加入读请求队列，将预读请求加入预读请求队列；

②若读请求队列不为空，则依次传输读请求数据；若读请求队列为空，则传输预读请求数据；

③若收到预读请求转读请求的信号，则将对应文件加入读请求队列队尾；若收到预读终止信号则终止数据传输并将对应文件从预读请求对于删除。

所述DLSDCM需要进行性能测试，所述DLSDCM的性能测试以HDFS(HadoopDistributed File System)为例进行测试，首先单独使用HDFS进行文件的读操作，然后使用DLSDCM基于HDFS对同样的目标文件进行重复的读操作，对比二者的访问延时，可得出使用DLSDCM模型后的HDFS是否有I/O性能的提高；所述测试环境如下：①硬件环境：3台PC机搭建而成的后台集群和1台客户端pc机，硬件配置为Pentium E5800双核，3.20GHz主频CPU；2G内存；7200转硬盘；②软件环境：操作系统为ubuntu11.10，hadoop版本为1.0.4；③读操作对象文件：大小介于10K至120k之间总计46434个文件；所述测试过程为：首先单独使用HDFS对文件进行读操作10分钟，计算平均读操作延时，然后使用DLSDCM基于HDFS对文件进行重复读操作一小时(因为DLSDCM是一个针对长期读操作的缓存模型，重复读1小时是为了创造一个已经进行了长期读操作的环境)，然后再运行10分钟，计算这10分钟之内的平均读操作延时。

该发明的有益效果在于：本发明技术基于文件预测的分布式缓存模型DLSDCM(DLS based distribute cache model)，此模型以客户端文件预测模型为基础进行文件预测，从服务器角度对分布式网络中所有用户请求进行统筹调度，在提高客户端吞吐量和数据访问的同时又不会影响其它客户的数据访问。

附图说明

图1是本发明实施例中DLS文件预测模型图。

图2是本发明实施例中DLSDCM缓存模型图。

具体实施方式

下面结合附图和实施例对本发明的具体实施方式进行描述，以便更好的理解本发明。

实施例

一种基于文件预测的分布式缓存模型，具体包括：

(1)LS文件预测模型：

当用户访问一系列数据时，或多或少会重复上一次的访问顺序，因此LS(lastsuccessor)模型是最常用也最简单的文件预测模型，被多数预测系统采用。但是LS文件预测模型在交替访问文件时就会完全失效，例如第一次访问顺序为文件A，文件B；第二次访问顺序为文件A，文件I；第三次又重复第一次顺序：文件A，文件B。对于这样的交替访问，使用LS模型预测文件A的后继便完全失败。若将预测的文件数扩大为两个，即对于每个文件同时预读其上一次访问的后继文件和上上一次访问的后继文件，便可避免交替访问的预测失效，据此本实施例提出一种DLS(double last successor)文件预测模型。

(2)DLS文件预测模型：

预测命中率是文件预测的关键，LS预测模型严重依赖于用户的访问顺序，访问顺序稍有差异，预测便未命中，错误的预测不但无法提高访问延时，还会增加I/O和缓存区的浪费。DLS文件预测模型一次预测两个文件：上一次访问顺序中的后继和上上一次访问顺序的后继，两个文件命中的概率比预测单一文件会有大约两倍的提高。图1所示为DLS模型对文件A后继的预测，图中文件A，B，I，U，d代表独立的文件，而非顺序文件。

由于一次预测两个文件，因此数据传输时也会有两个文件同时传输，参考使用概率图来预测未来文件访问的文件预测模型[6]，分别记录文件B和I的预测命中次数，并依命中次数来决定两个文件传输时各自占用的带宽比例，例如记录中文件B命中了40次，文件I命中了60次，此时文件B占40％带宽，文件I占60％的带宽比例进行传输。

(3)LS和DLS两种文件预测模型对比：

文件预测算法很多，每种预测算法都有其最适用的场合。下面从理论上来对比LS文件预测模型和DLS文件预测模型在DLSDCM中的适用性，以图1为例来对比LS文件预测模型和DLS文件预测模型的命中率和有效使用率：现假设文件B和I命中率相等都是20％，文件B和I的大小均为1M。表1为网络空闲时间不大于传输1M数据所用时间的情况。

表1网络空闲时间不大于传输1M时DLS与LS的对比

模型	命中率	传输总数据量	传输有效数据量
				LS	20％	1M	200K
DLS	20％+20％	500K+500K	100K+100K

此时使用LS文件预测模型和DLS文件预测模型的有效传输数据量相同，但是使用DLS文件预测模型却有40％的概率传输有用数据。即在网络空闲时间少于等于传输1M数据时间的情况下，DLS文件预测模型比LS文件预测模型优势在于稳定性高，如表2所示。

表2为网络空闲时间可传输2M数据时的情况下DLS与LS的对比

模型	命中率	传输总数据量	传输有效数据量
				LS	20％	1M	200K
DLS	20％+20％	1M+IM	200K+200K

此时两种模型的预测命中率不变，DLS文件预测模型传输总数据量为LS文件预测模型的两倍，而传输有效数据量也是LS文件预测模型的两倍。由于DLSDCM是使用空闲网络时间进行数据的预传输，并不占用必要请求数据的传输时间，因此网络空闲时间大于空闲临界值(传输LS预测文件全部数据的时间)时，DLS文件预测模型相对于LS文件预测模型有较大的优势。

综上所述，在DLSDCM中DLS文件预测模型较之LS文件预测模型在服务器网络空闲时间不大于空闲临界值时，具有命中稳定性高的优势；而在服务器网络空闲时间大于当空闲临界值时，DLS文件预测模型优势就逐渐明显，这个优势在服务器空闲时间足够传输DLS文件预测模型所预测的两个文件时达到最大，

(4)DLSDCM设计原理：

(4a)缓存模型理论基础：

缓存是传输速率相差较大的两种实体(硬件或软件)之间的存储区域，用于存储低速实体中的热点数据或预读数据，以提升系统的反应速度。由数据访问的局部性，在短时间内重复访问的数据就是热点数据，对这些数据进行缓存，可减少数据再次被访问时的延时，缓存热点数据的策略收效在数据更新频繁度越来越高时收效就会越来越小。使用预取技术的前提是文件可预测并且磁盘I/O在整个使用的时间轴上有空闲时间，如果一个程序需要读取磁盘上无穷大的数据，则在读取过程中任何缓存技术都无用，因为整个读过程中磁盘I/O没有空闲时间。

分布式存储相对于单机存储，网络传输速度的制约也是I/O性能的一个瓶颈。在分布式存储中，一个服务器可能要同时相应数个客户读请求，这些读请求并不会按照时间顺序平坦出现，因此响应客户读请求的数据传输也会使网络有时繁忙有时空闲，这种数据传输在时间上的不均衡造成了网络资源的拥塞与浪费。使用文件预测模型，在服务器网络空闲时提前传输客户端将要访问的数据，可减少数据的访问延时，提高网络使用率。

(4b)DLSDCM的构建：

DLSDCM建立在分布式文件系统之上，每个客户端维护本机之上的DLS文件预测数据，每次读请求时，同时预读DLS文件预测模型中预测的读请求目标文件之后的两个文件。服务器端维护两个队列：读请求队列和预读请求队列，其中读请求队列的优先级高于预读请求队列，即只要读请求队列不为空，预读请求队列就处于等待状态。DLSDCM结构如图2所示。

(4c)DLSDCM的实现：

DLSDCM的实现分为两部分：客户端的实现和服务器端的实现。每个客户端独立维护一份文件预测数据，预测数据中每个数据节点包括文件名、两个预读文件名以及每个预读文件所命中的次数，每次读请求时都根据文件预测数据节点中预测的文件进行异步预读。服务器端负责客户端的读请求调度和预读请求调度。

其中，DLSDCM客户端的实现是根据DLS文件预测模型所预测的数据进行文件的预读，并将过大的数据存储于本地磁盘。一次读请求的系统执行过程如下：

①读取存储于磁盘的DLS文件预测数据。

②申请一定量(大小视具体软硬件而定，可手动修改)内存作为读请求缓存和预读请求缓存，在磁盘上创建缓存目录。

③遍历DLS文件预测数据节点：若数据节点中无本次读请求文件对应的数据则向服务器发送读请求，创建数据节点并插入文件预读数据，并将本次读请求文件名写入上一次读请求文件名对应的预测数据节点中，并替换其中命中次数较少的预测文件；若预测数据中存在本次读请求文件，则检查读请求文件是否存在于预读请求缓存或磁盘缓存目录中：

D、读请求文件不存在于缓存中且预读文件已传输完毕，则将缓存空间清零并发送本次读请求和预读请求。

④当预读文件大于内存缓存大小时，将预读文件写入磁盘缓存目录。

读请求缓存区和预读请求缓存区在一次读请求结束后会保留一段时间，若长时间无新读请求则回收读请求缓存区和预读请求缓存区。磁盘缓存目录中数据长时间保留，当缓存目录中数据将要达到规定值时采用先存放先回收的策略回收最早存放的数据。

其中，DLSDCM服务器端的实现：

①将读请求加入读请求队列，将预读请求加入预读请求队列。

②若读请求队列不为空，则依次传输读请求数据；若读请求队列为空，则传输预读请求数据。

(4d)DLSDCM性能测试：

DLSDCM的性能测试以HDFS(Hadoop Distributed File System)为例进行测试，首先单独使用HDFS进行文件的读操作，然后使用DLSDCM基于HDFS对同样的目标文件进行重复的读操作，对比二者的访问延时，可得出使用DLSDCM模型后的HDFS是否有I/O性能的提高。

测试环境如下：

①硬件环境：3台PC机搭建而成的后台集群和1台客户端pc机，硬件配置为Pentium E5800双核，3.20GHz主频CPU；2G内存；7200转硬盘。

②软件环境：操作系统为ubuntu11.10，hadoop版本为1.0.4。

③读操作对象文件：大小介于10K至120k之间总计46434个文件。

试验过程：首先单独使用HDFS对文件进行读操作10分钟，计算平均读操作延时，然后使用DLSDCM基于HDFS对文件进行重复读操作一小时(因为DLSDCM是一个针对长期读操作的缓存模型，重复读1小时是为了创造一个已经进行了长期读操作的环境)，然后再运行10分钟，计算这10分钟之内的平均读操作延时。测试结果如表3所示：

表3测试结果对比

由结果可知，在模拟实验中，使用DLSDCM的HDFS比不使用时降低了大约11.1％的访问延时。

每种模型都有其最适用的环境和不适用的环境，DLSDCM最适用于客户访问规律性强的环境比如电视剧集，在播放电视剧时，多数客户都会选择顺序播放，此时DLSDCM的效果就会很好。对于随机性访问强或者更新速度过快的场合，DLSDCM作用就会变小。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于文件预测的分布式缓存模型，其特征在于：所述缓存模型建立在分布式文件系统之上，每个客户端维护本机之上的DLS文件预测数据，每次读请求时，同时预读DLS文件预测模型中预测的读请求目标文件之后的两个文件；服务器端维护两个队列：读请求队列和预读请求队列，其中读请求队列的优先级高于预读请求队列，即只要读请求队列不为空，预读请求队列就处于等待状态；

DLSDCM的实现分为两部分：客户端的实现和服务器端的实现；每个客户端独立维护一份文件预测数据，预测数据中每个数据节点包括文件名、两个预读文件名以及每个预读文件所命中的次数，每个读请求操作同时对文件预测数据节点中预测的文件进行预读操作；服务器端负责客户端的读请求调度和预读请求调度；

①读取存储于磁盘的DLS文件预测数据；

③查询DLS文件预测数据节点：若数据节点中无本次读请求文件对应的数据则向服务器发送读请求，创建本次读请求文件数据节点并写入文件预读数据，将本次读请求文件名写入上一次读请求文件名对应的预测数据节点中，并替换其中命中次数较少的预测文件；若预测数据中存在本次读请求文件，则检查读请求文件是否存在于预读请求缓存或磁盘缓存目录中：

A、读请求文件存在于缓存并且数据传输仍未结束，则向服务器发送信号把该文件的预读请求转为读请求，并发送信号终止另一个预读文件的数据传输，同时将预测数据中上一次读请求文件对应的预读数据节点中本次读请求文件的命中次数+1操作；；

C、读请求文件不存在于缓存中且预读文件正在传输，则向服务器发送信号中断正在传输的数据，将缓存空间清零并发送本次读请求和预读请求；

所述DLSDCM服务器端的实现过程为：

服务器端主要负责响应客户端的请求信号和对读请求队列与预读请求队列的调度；在调度方面，服务器视所有客户端为平等优先级(默认为平等优先级，可对特定客户端优先级进行修改)，按照传统的先来先服务策略分别对读请求和预读请求进行调度，预读请求队列每个节点中包含两个文件信息，在被调度传输时同时传输两个文件，并根据相应的比例来分配传输带宽；响应请求信号方面，主要响应客户端的五种请求信号：读请求，预读请求，预读请求转读请求，预读终止以及读终止；对于五种信号的处理如下：

①「收到读请求信号，将响应的读请求文件加入读请求队列的队尾，读请求队列为空则直接加入并抢占正在被调度的预读请求的数据传输；

②「收到预读请求信号，将预读请求文件加入预读请求队列，并标记两个预读请求文件在传输时占据的带宽比例，队列中两个文件占用一个节点，在被调度时根据比例传输两个文件数据；

③「收到预读请求转读请求信号，则将对应文件加入读请求队列队尾；将文件所在的预读请求队列节点删除；

④「收到预读终止信号，则终止数据传输，将预读文件所在节点从预读队列中删除；

⑤「收到读终止信号，结束文件传输，将文件节点从读请求队列删除。

2.根据权利要1所述的一种基于文件预测的分布式缓存模型，其特征在于：所述DLSDCM需要进行性能测试，所述DLSDCM的性能测试以HDFS(Hadoop Distributed FileSystem)为例进行测试，首先单独使用HDFS进行文件的读操作，然后使用DLSDCM基于HDFS对同样的目标文件进行重复的读操作，对比二者的访问延时，可得出使用DLSDCM模型后的HDFS是否有I/O性能的提高；所述测试环境如下：①硬件环境：3台PC机搭建而成的后台集群和1台客户端pc机，硬件配置为Pentium E5800双核，3.20GHz主频CPU；2G内存；7200转硬盘；②软件环境：操作系统为ubuntu11.10，hadoop版本为1.0.4；⑧读操作对象文件：大小介于10K至120k之间总计46434个文件；所述测试过程为：首先单独使用HDFS对文件进行读操作10分钟，计算平均读操作延时，然后使用DLSDCM基于HDFS对文件进行重复读操作一小时(因为DLSDCM是一个针对长期读操作的缓存模型，重复读1小时是为了创造一个已经进行了长期读操作的环境)，然后再运行10分钟，计算这10分钟之内的平均读操作延时。