CN102609508A

CN102609508A - 一种面向网络存储的文件高速访问方法

Info

Publication number: CN102609508A
Application number: CN2012100242726A
Authority: CN
Inventors: 李涛; 龚勋; 刘晓洁; 梁刚; 陈文�
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2012-02-05
Filing date: 2012-02-05
Publication date: 2012-07-25
Anticipated expiration: 2032-02-05
Also published as: CN102609508B

Abstract

本发明提出了一种面向网络存储的文件高速访问方法。本方法的基本思想是：首先设置一个元数据服务器，用来存储各种元数据。每过一个时间段，元数据收集各文件的在该时间段被访问的次数，开始文件选择的步骤。该步骤应用文件访问频率进行文件受欢迎程度和趋势计算，选出热点和过时文件。然后，通过网络通信收益计算，寻找最合适的服务器，拷贝热点文件的新副本或者删除过时文件的相应副本。之后，根据文件读和写频率，淘汰有害文件副本，增加文件访问速度。同时，本发明的数据一致性机制利用更新顺序号，确保在高延迟，高丢包率的情况下，数据依然具有一致性。在网络存储环境下，提高文件访问速度的方法具有广阔的研究和应用前景。

Description

一种面向网络存储的文件高速访问方法

技术领域

本发明提出了一种面向网络存储的文件高速访问方法，属于网络存储领域。

背景技术

随着网络技术的发展，越来越多的IT公司通过互联网或者专用网络为用户提供大规模存储系统，来满足企业或者个人用户对存储空间呈指数态增长的需求。因此，如何充分利用网络带宽资源，高效的组织、管理用户的文件，让用户能够快速的访问其所需文件，成为人们最为关注的话题。目前，比较成熟的方法是将文件冗余复制到多台服务器或高速缓存上，通过分布用户的访问请求，来减少源文件服务器的负荷，提高文件的访问速度。然而目前所采用的方法大都比较死板，没有良好的机制来智能地管理不同的文件，合理的分配网络资源。中国专利公开号为CN101253488的专利，通过将拥有文件拷贝的高速缓存移至网络的边缘，来分布整个网络的通信量，减少文件访问时间。然而这种方法存在以下不足：

1) 对热点文件和过时文件统一对待，将过多的网络资源浪费在过时文件上，使得整体文件访问效率低下。

2) 没有查找最优服务器的相关机制，无法最大化利用网络资源。

3) 没有文件淘汰机制，无法淘汰影响文件访问速度的文件副本。

本发明提出了一种面向网络存储的文件高速访问方法，首先利用文件访问频率，选出热点文件和过时文件；其次通过网络通信收益计算，找到最合适的服务器，拷贝热点文件或者删除过时文件的相应副本；然后，根据文件读写频率，淘汰降低文件访问速度的文件副本。同时，本发明通过数据一致性步骤，来维护文件内容一致。本发明具有以下优点：

1) 区别对待热点文件和过时文件，分配更多的网络和存储资源给热点文件，提高整体文件访问效率。

2) 利用网络通信收益计算，选择各个文件的最优服务器进行相应操作，来最大化网络带宽利用率，减少网络堵塞的可能性。

3) 主动淘汰浪费网络资源的文件，减少文件访问时间。

4) 利用数据一致性步骤，确保同一个文件的副本是内容一致的。

发明内容

本发明提出了一种面向网络存储的文件高速访问方法。本方法的基本思想是：首先设置一个元数据服务器，用来存储各种元数据，如各服务器间单位传输数据成本。当每过一个固定时间段，元数据通过各服务器收集各文件的在该时间段被访问的次数，开始文件选择的步骤。该步骤应用文件访问频率进行文件受欢迎程度和趋势计算，选出热点文件和过时文件。然后，通过网络通信收益计算，寻找最合适的服务器，拷贝热点文件的新副本或者删除过时文件的相应副本。之后，根据文件读和写频率，淘汰有害文件副本，提高文件访问速度。同时，为了保证数据的一致性，本发明中所有文件的更新都会先在源文件服务器上更新，并对每次更新分配一个更新号。当文件更新好后，源文件服务器将更新数据和更新号发送到拥有相应文件副本的服务器上，这些服务器按照更新号的顺序更新文件。

在详细阐述本发明前，先做如下的术语定义：

1) M代表非元数据服务器的数量，N代表文件的总数。

2) 服务器

，指第i个服务器。

3) 文件

，指第k个文件。

4)

代表文件

的源文件服务器。

5)

代表第n个时间段。

6)

代表服务器和

之间的单位传输数据成本。

7)

代表服务器

拥有文件

的网络通信收益。

8)

代表服务器

上文件

在时间段中被读取的次数，

代表服务器上文件在时间段

中被写的次数。

9)

代表文件

在时间段

中被读取的总次数，

代表文件

在时间段

中被写的总次数。

10) 代表文件

的受欢迎程度，

代表所有文件的平均受欢迎程度。

11)

代表离服务器

最近的拥有文件

的服务器。

12)

代表文件

的读写比，

代表所有文件的平均读写比。

13)

代表文件

的读取次数的变化趋势，

、

代表两个阈值，用来判断文件

的读取趋势是增加还是减少。

14)

代表文件之前某个时间段被读取的次数，作为基值，用来计算文件

的读取次数的变化趋势。

附图说明

图1是本发明的工作原理图。

图2初始化元数据服务器的步骤。

图3文件选择的步骤。

图4寻找合适服务器的步骤。

图5淘汰有害文件副本的步骤。

图6保持数据一致性的步骤。

具体实施方式

以下结合附图详细说明本发明的具体方法。

图1是本发明的工作原理图。

图1是本发明的工作原理图，图中介绍了本发明的具体流程。首先设置一个元数据服务器，用来存储各种元数据，如各服务器间单位传输数据成本。当每过一个固定时间段，元数据通过各服务器收集各文件的在该时间段被访问的次数，开始文件选择的步骤。该步骤应用文件访问频率进行文件受欢迎程度和趋势计算，选出热点文件和过时文件。然后，通过网络通信收益计算，寻找最合适的服务器，拷贝热点文件的新副本或者删除过时文件在其上副本。之后，根据文件读和写频率，选出读写比小于平均值的文件，通过网络通信收益计算，找出并淘汰有害文件副本，提高文件访问速度。同时，为了保证数据的一致性，本方法中所有文件的更新都会先在源文件服务器上更新，并对每次更新分配一个更新号。当文件更新好后，源文件服务器将更新数据和更新号发送到拥有相应文件的服务器上，这些服务器按照更新号的顺序更新文件。

具体地，本发明提出的一种面向网络存储的文件高速访问方法，包括以下步骤：

1）初始化元数据服务器的步骤；

2）文件选择的步骤；

3）寻找合适服务器的步骤；

4）淘汰有害文件副本的步骤；

5）保持数据一致性的步骤。

图2是初始化元数据服务器的步骤。

图2给出了初始化元数据服务器的步骤。该步骤首先建立一台元数据服务器，来维护整个分布式环境的元数据，然后初始化部分元数据。具体步骤如下：

1) 设置元数据服务器的步骤：从所有的服务器中，选择拥有最大带宽的服务器作为元数据服务器；

2) 计算单位传输数据成本的步骤：根据各个服务器之间的带宽计算各个服务器之间的单位传输数据成本

，将这些数据存储到元数据服务器中；

3) 初始化部分元数据的步骤：初始化

、

、

和

、

；设置一个固定的时间段。

图3是文件选择的步骤。

图3是文件选择的步骤。该步骤应用当前时间段中文件的访问次数进行计算，来找出热点文件和过时的文件。首先，算出各个文件的受欢迎程度，其代表的是文件在最近的一段时间内是否被访问的次数是否超过其他文件。其次，算出各个文件访问次数的变化趋势。最后，通过这2个值选择出热点文件和过时文件。具体步骤如下：

1) 等待设定时间的步骤：当设定的时间段结束，通知各服务器开始收集数据；若没有，则等待；

2) 收集文件访问频率的步骤：各个服务器收集其所拥有的文件被访问的读写次数，发送给元数据服务器；

3) 计算文件读写频率的步骤：元数据服务器根据收集信息，计算出

和

，

，；若n=1，

；

4) 根据文件受欢迎程度对文件进行分类的步骤：计算每个文件的受欢迎程度

以及所有文件的平均受欢迎程度

，如果

，则认为文件

是受欢迎文件，如果

；则认为文件

是不受欢迎文件，具体步骤如下：

a) 计算单个文件受欢迎程度的步骤：计算每个文件的受欢迎程度

，

；

b) 计算文件平均受欢迎程度的步骤：计算所有文件的平均受欢迎程度

，

；

c) 分类文件的步骤：根据计算结果，将文件分为两类：受欢迎文件和不受欢迎文件。

5) 计算文件读取次数的变化趋势的步骤：计算文件读取次数的变化趋势

，

。如果

，则认为文件的读取次数是增加的；若，则认为文件

的读取次数是减少的；

6) 选择热点和过时文件的步骤：进行文件选择，如果文件

的读取次数是增加，又是受欢迎文件，则认为该文件是热点文件；如果文件

的读取次数是减少，又是不受欢迎文件，则认为该文件是过时文件。若文件

被选中，则

，重置。

图4是寻找合适服务器的步骤。

图4是寻找合适服务器的步骤。该步骤根据文件选择步骤的结果，通过网络通信收益计算，找出热点文件的最大网络通信收益服务器，将热点文件复制到其上；同时，找出过时文件的最小网络通信收益服务器，删除该服务器上的文件副本。具体步骤如下：

1) 网络通信收益计算的步骤：对选择出的文件，每台服务器进行网络通信收益计算，

；

2) 复制热点文件的步骤：找出所有热点文件的最大网络通信收益服务器，将热点文件复制到其上；

3) 删除过时文件副本的步骤：找出过时文件的最小网络通信收益服务器，删除该服务器上的文件副本。

图5是淘汰有害文件副本的步骤。

图5是淘汰有害文件副本的步骤。该步骤通过计算读写比，找出影响文件访问速度的文件副本进行删除。首先，计算每个文件对应的读写比

和所有文件的平均读写比进行比较，找出需要删除的文件。然后，通过网络通信收益计算，找出该文件网络通信收益最小的服务器，删除其上的文件副本。具体步骤如下：

1) 计算读写比的步骤：计算每个文件的读写比，；计算所有文件的读写比

，；

2) 选择淘汰文件的步骤：如果

Figure 2012100242726100002DEST_PATH_IMAGE078

，那么选定文件

；

3) 删除有害文件副本的步骤：计算拥有选定文件的所有网络通信收益

，找出拥有最小网络通信收益的服务器，删除该服务器上的相应文件备份。

图6是保持数据一致性的步骤。

图6是保持数据一致性的步骤。该步骤首先将更新的数据发送到各个文件的源文件服务器。然后，源文件服务器对文件进行更新，并为每次更新的数据分配一个更新号。之后，源文件服务器将更新数据和更新号发送给拥有此文件的服务器，这些服务器信息在元数据服务器中维护。最后，服务器根据更新号的顺序对文件进行更新。具体步骤如下：

1) 更新源文件的步骤：更新数据先发送到相应的源文件服务器；

2) 分配更新号的步骤：源文件服务器进行更新并分配更新号；

3) 获取服务器列表的步骤：源文件服务器从元数据服务器获取拥有该文件的服务器列表；

4) 发送更新数据和更新号的步骤：源文件服务器发送更新数据和更新号到列表中的服务器；

5) 数据更新的步骤：各服务器根据更新号对文件进行更新。

Claims

1.一种面向网络存储的文件高速访问方法，其特征在于，所述方法包括以下步骤：

(1) 初始化元数据服务器的步骤；

(2) 文件选择的步骤，包括以下步骤：

1) 等待设定时间的步骤；

2) 收集文件访问频率的步骤；

3) 计算文件读写频率的步骤；

4) 根据文件受欢迎程度对文件进行分类的步骤；

5) 计算文件读取次数的变化趋势的步骤；

6) 选择热点和过时文件的步骤；

(3) 寻找合适服务器的步骤，包括以下步骤：；

1) 网络通信收益计算的步骤；

2) 复制热点文件的步骤；

3) 删除过时文件副本的步骤；

(4) 淘汰有害文件副本的步骤；

(5) 保持数据一致性的步骤。

2.根据权利要求1所述的一种面向网络存储的文件高速访问方法，其特征是，所述的初始化元数据服务器的步骤包括以下步骤：

(1) 设置元数据服务器的步骤；

(2) 计算单位传输数据成本的步骤；

(3) 初始化部分元数据的步骤。

3.根据权利要求1所述的一种面向网络存储的文件高速访问方法，其特征是，所述的淘汰有害文件副本包括以下步骤：

(1) 计算读写比步骤；

(2) 选择淘汰文件的步骤；

(3) 删除有害文件副本的步骤。

4.根据权利要求1所述的一种面向网络存储的文件高速访问方法，其特征是，所述的保持数据一致性的步骤包括以下步骤：

(1) 更新源文件的步骤；

(2) 分配更新号的步骤；

(3) 获取服务器列表的步骤；

(4) 发送更新数据和更新号的步骤；

(5) 数据更新的步骤。

5.根据权利要求1所述的一种面向网络存储的文件高速访问方法，其特征是，所述的根据文件受欢迎程度对文件进行分类的步骤包括以下步骤：

(1) 计算单个文件受欢迎程度的步骤；

(2) 计算文件平均受欢迎程度的步骤；

(3) 分类文件的步骤。