CN102609508A - 一种面向网络存储的文件高速访问方法 - Google Patents

一种面向网络存储的文件高速访问方法 Download PDF

Info

Publication number
CN102609508A
CN102609508A CN2012100242726A CN201210024272A CN102609508A CN 102609508 A CN102609508 A CN 102609508A CN 2012100242726 A CN2012100242726 A CN 2012100242726A CN 201210024272 A CN201210024272 A CN 201210024272A CN 102609508 A CN102609508 A CN 102609508A
Authority
CN
China
Prior art keywords
file
server
network
copy
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100242726A
Other languages
English (en)
Other versions
CN102609508B (zh
Inventor
李涛
龚勋
刘晓洁
梁刚
陈文�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN 201210024272 priority Critical patent/CN102609508B/zh
Publication of CN102609508A publication Critical patent/CN102609508A/zh
Application granted granted Critical
Publication of CN102609508B publication Critical patent/CN102609508B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出了一种面向网络存储的文件高速访问方法。本方法的基本思想是:首先设置一个元数据服务器,用来存储各种元数据。每过一个时间段,元数据收集各文件的在该时间段被访问的次数,开始文件选择的步骤。该步骤应用文件访问频率进行文件受欢迎程度和趋势计算,选出热点和过时文件。然后,通过网络通信收益计算,寻找最合适的服务器,拷贝热点文件的新副本或者删除过时文件的相应副本。之后,根据文件读和写频率,淘汰有害文件副本,增加文件访问速度。同时,本发明的数据一致性机制利用更新顺序号,确保在高延迟,高丢包率的情况下,数据依然具有一致性。在网络存储环境下,提高文件访问速度的方法具有广阔的研究和应用前景。

Description

一种面向网络存储的文件高速访问方法
技术领域
本发明提出了一种面向网络存储的文件高速访问方法,属于网络存储领域。
背景技术
    随着网络技术的发展,越来越多的IT公司通过互联网或者专用网络为用户提供大规模存储系统,来满足企业或者个人用户对存储空间呈指数态增长的需求。因此,如何充分利用网络带宽资源,高效的组织、管理用户的文件,让用户能够快速的访问其所需文件,成为人们最为关注的话题。目前,比较成熟的方法是将文件冗余复制到多台服务器或高速缓存上,通过分布用户的访问请求,来减少源文件服务器的负荷,提高文件的访问速度。然而目前所采用的方法大都比较死板,没有良好的机制来智能地管理不同的文件,合理的分配网络资源。中国专利公开号为CN101253488的专利,通过将拥有文件拷贝的高速缓存移至网络的边缘,来分布整个网络的通信量,减少文件访问时间。然而这种方法存在以下不足:
1) 对热点文件和过时文件统一对待,将过多的网络资源浪费在过时文件上,使得整体文件访问效率低下。
2) 没有查找最优服务器的相关机制,无法最大化利用网络资源。
3) 没有文件淘汰机制,无法淘汰影响文件访问速度的文件副本。
本发明提出了一种面向网络存储的文件高速访问方法,首先利用文件访问频率,选出热点文件和过时文件;其次通过网络通信收益计算,找到最合适的服务器,拷贝热点文件或者删除过时文件的相应副本;然后,根据文件读写频率,淘汰降低文件访问速度的文件副本。同时,本发明通过数据一致性步骤,来维护文件内容一致。本发明具有以下优点:
1) 区别对待热点文件和过时文件,分配更多的网络和存储资源给热点文件,提高整体文件访问效率。
2) 利用网络通信收益计算,选择各个文件的最优服务器进行相应操作,来最大化网络带宽利用率,减少网络堵塞的可能性。
3) 主动淘汰浪费网络资源的文件,减少文件访问时间。
4) 利用数据一致性步骤,确保同一个文件的副本是内容一致的。
发明内容
本发明提出了一种面向网络存储的文件高速访问方法。本方法的基本思想是:首先设置一个元数据服务器,用来存储各种元数据,如各服务器间单位传输数据成本。当每过一个固定时间段,元数据通过各服务器收集各文件的在该时间段被访问的次数,开始文件选择的步骤。该步骤应用文件访问频率进行文件受欢迎程度和趋势计算,选出热点文件和过时文件。然后,通过网络通信收益计算,寻找最合适的服务器,拷贝热点文件的新副本或者删除过时文件的相应副本。之后,根据文件读和写频率,淘汰有害文件副本,提高文件访问速度。同时,为了保证数据的一致性,本发明中所有文件的更新都会先在源文件服务器上更新,并对每次更新分配一个更新号。当文件更新好后,源文件服务器将更新数据和更新号发送到拥有相应文件副本的服务器上,这些服务器按照更新号的顺序更新文件。
在详细阐述本发明前,先做如下的术语定义:
1) M代表非元数据服务器的数量,N代表文件的总数。
2) 服务器                                                
Figure 830349DEST_PATH_IMAGE002
,指第i个服务器。
3) 文件
Figure 747490DEST_PATH_IMAGE004
,指第k个文件。
4) 
Figure 996068DEST_PATH_IMAGE006
代表文件
Figure DEST_PATH_IMAGE007
的源文件服务器。
5) 
Figure DEST_PATH_IMAGE009
代表第n个时间段。
6) 
Figure DEST_PATH_IMAGE011
代表服务器
Figure DEST_PATH_IMAGE013
之间的单位传输数据成本。
7) 
Figure DEST_PATH_IMAGE015
代表服务器
Figure 143333DEST_PATH_IMAGE002
拥有文件
Figure 965795DEST_PATH_IMAGE016
的网络通信收益。
8) 
Figure 232829DEST_PATH_IMAGE018
代表服务器
Figure 149838DEST_PATH_IMAGE002
上文件
Figure 818717DEST_PATH_IMAGE016
在时间段中被读取的次数,
Figure DEST_PATH_IMAGE021
代表服务器上文件在时间段
Figure 772263DEST_PATH_IMAGE009
中被写的次数。
9) 
Figure DEST_PATH_IMAGE023
代表文件
Figure 764490DEST_PATH_IMAGE007
在时间段
Figure 194334DEST_PATH_IMAGE019
中被读取的总次数,
Figure DEST_PATH_IMAGE025
代表文件
Figure 435960DEST_PATH_IMAGE016
在时间段
Figure 179925DEST_PATH_IMAGE019
中被写的总次数。
10) 代表文件
Figure 823396DEST_PATH_IMAGE007
的受欢迎程度,
Figure DEST_PATH_IMAGE029
代表所有文件的平均受欢迎程度。
11) 
Figure DEST_PATH_IMAGE031
代表离服务器
Figure 876671DEST_PATH_IMAGE002
最近的拥有文件
Figure 605593DEST_PATH_IMAGE016
的服务器。
12) 
Figure DEST_PATH_IMAGE033
代表文件
Figure 153249DEST_PATH_IMAGE007
的读写比,
Figure DEST_PATH_IMAGE035
代表所有文件的平均读写比。
13) 
Figure DEST_PATH_IMAGE037
代表文件
Figure 120068DEST_PATH_IMAGE007
的读取次数的变化趋势,
Figure DEST_PATH_IMAGE039
Figure DEST_PATH_IMAGE041
代表两个阈值,用来判断文件
Figure 891715DEST_PATH_IMAGE016
的读取趋势是增加还是减少。
14) 
Figure DEST_PATH_IMAGE043
代表文件之前某个时间段被读取的次数,作为基值,用来计算文件
Figure 193700DEST_PATH_IMAGE016
的读取次数的变化趋势。
附图说明
图1是本发明的工作原理图。
图2初始化元数据服务器的步骤。 
图3文件选择的步骤。
图4寻找合适服务器的步骤。
图5淘汰有害文件副本的步骤。
图6保持数据一致性的步骤。
具体实施方式
以下结合附图详细说明本发明的具体方法。
 
图1是本发明的工作原理图。
图1是本发明的工作原理图,图中介绍了本发明的具体流程。首先设置一个元数据服务器,用来存储各种元数据,如各服务器间单位传输数据成本。当每过一个固定时间段,元数据通过各服务器收集各文件的在该时间段被访问的次数,开始文件选择的步骤。该步骤应用文件访问频率进行文件受欢迎程度和趋势计算,选出热点文件和过时文件。然后,通过网络通信收益计算,寻找最合适的服务器,拷贝热点文件的新副本或者删除过时文件在其上副本。之后,根据文件读和写频率,选出读写比小于平均值的文件,通过网络通信收益计算,找出并淘汰有害文件副本,提高文件访问速度。同时,为了保证数据的一致性,本方法中所有文件的更新都会先在源文件服务器上更新,并对每次更新分配一个更新号。当文件更新好后,源文件服务器将更新数据和更新号发送到拥有相应文件的服务器上,这些服务器按照更新号的顺序更新文件。
具体地,本发明提出的一种面向网络存储的文件高速访问方法,包括以下步骤:
1) 初始化元数据服务器的步骤;
2) 文件选择的步骤;
3) 寻找合适服务器的步骤;
4) 淘汰有害文件副本的步骤;
5) 保持数据一致性的步骤。
图2是初始化元数据服务器的步骤。
图2给出了初始化元数据服务器的步骤。该步骤首先建立一台元数据服务器,来维护整个分布式环境的元数据,然后初始化部分元数据。具体步骤如下:
1) 设置元数据服务器的步骤:从所有的服务器中,选择拥有最大带宽的服务器作为元数据服务器;
2) 计算单位传输数据成本的步骤:根据各个服务器之间的带宽计算各个服务器之间的单位传输数据成本
Figure 264293DEST_PATH_IMAGE011
,将这些数据存储到元数据服务器中;
3) 初始化部分元数据的步骤:初始化
Figure 206842DEST_PATH_IMAGE039
Figure 644776DEST_PATH_IMAGE041
Figure 65393DEST_PATH_IMAGE044
Figure 6804DEST_PATH_IMAGE006
Figure 120254DEST_PATH_IMAGE031
;设置一个固定的时间段。
图3是文件选择的步骤。
图3是文件选择的步骤。该步骤应用当前时间段中文件的访问次数进行计算,来找出热点文件和过时的文件。首先,算出各个文件的受欢迎程度,其代表的是文件在最近的一段时间内是否被访问的次数是否超过其他文件。其次,算出各个文件访问次数的变化趋势。最后,通过这2个值选择出热点文件和过时文件。具体步骤如下:
1) 等待设定时间的步骤:当设定的时间段结束,通知各服务器开始收集数据;若没有,则等待;
2) 收集文件访问频率的步骤:各个服务器收集其所拥有的文件被访问的读写次数,发送给元数据服务器;
3) 计算文件读写频率的步骤:元数据服务器根据收集信息,计算出
Figure 45485DEST_PATH_IMAGE023
Figure 269793DEST_PATH_IMAGE025
Figure 800131DEST_PATH_IMAGE046
;若n=1
Figure 497009DEST_PATH_IMAGE050
4) 根据文件受欢迎程度对文件进行分类的步骤:计算每个文件的受欢迎程度
Figure DEST_PATH_IMAGE051
以及所有文件的平均受欢迎程度
Figure 993849DEST_PATH_IMAGE029
,如果
Figure DEST_PATH_IMAGE053
,则认为文件
Figure DEST_PATH_IMAGE055
是受欢迎文件,如果
Figure DEST_PATH_IMAGE057
;则认为文件
Figure 893541DEST_PATH_IMAGE055
是不受欢迎文件,具体步骤如下:
a) 计算单个文件受欢迎程度的步骤:计算每个文件的受欢迎程度
Figure 83214DEST_PATH_IMAGE051
Figure DEST_PATH_IMAGE059
b) 计算文件平均受欢迎程度的步骤:计算所有文件的平均受欢迎程度
Figure 451878DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE061
c) 分类文件的步骤:根据计算结果,将文件分为两类:受欢迎文件和不受欢迎文件。
5) 计算文件读取次数的变化趋势的步骤:计算文件读取次数的变化趋势
Figure 17989DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE063
。如果
Figure DEST_PATH_IMAGE065
,则认为文件的读取次数是增加的;若,则认为文件
Figure 149073DEST_PATH_IMAGE055
的读取次数是减少的;
6) 选择热点和过时文件的步骤:进行文件选择,如果文件
Figure 5033DEST_PATH_IMAGE068
的读取次数是增加,又是受欢迎文件,则认为该文件是热点文件;如果文件
Figure 374835DEST_PATH_IMAGE068
的读取次数是减少,又是不受欢迎文件,则认为该文件是过时文件。若文件
Figure 265430DEST_PATH_IMAGE055
被选中,则
Figure 780594DEST_PATH_IMAGE070
重置。
图4是寻找合适服务器的步骤。
图4是寻找合适服务器的步骤。该步骤根据文件选择步骤的结果,通过网络通信收益计算,找出热点文件的最大网络通信收益服务器,将热点文件复制到其上;同时,找出过时文件的最小网络通信收益服务器,删除该服务器上的文件副本。具体步骤如下:
1) 网络通信收益计算的步骤:对选择出的文件,每台服务器进行网络通信收益计算,
Figure 573604DEST_PATH_IMAGE072
2) 复制热点文件的步骤:找出所有热点文件的最大网络通信收益服务器,将热点文件复制到其上;
3) 删除过时文件副本的步骤:找出过时文件的最小网络通信收益服务器,删除该服务器上的文件副本。
图5是淘汰有害文件副本的步骤。
图5是淘汰有害文件副本的步骤。该步骤通过计算读写比,找出影响文件访问速度的文件副本进行删除。首先,计算每个文件对应的读写比
Figure 10401DEST_PATH_IMAGE033
和所有文件的平均读写比进行比较,找出需要删除的文件。然后,通过网络通信收益计算,找出该文件网络通信收益最小的服务器,删除其上的文件副本。具体步骤如下:
1) 计算读写比的步骤:计算每个文件的读写比;计算所有文件的读写比
Figure 683325DEST_PATH_IMAGE035
2) 选择淘汰文件的步骤:如果
Figure 2012100242726100002DEST_PATH_IMAGE078
,那么选定文件
Figure 291024DEST_PATH_IMAGE055
3) 删除有害文件副本的步骤:计算拥有选定文件的所有网络通信收益
Figure 874452DEST_PATH_IMAGE015
,找出拥有最小网络通信收益的服务器,删除该服务器上的相应文件备份。
图6是保持数据一致性的步骤。
图6是保持数据一致性的步骤。该步骤首先将更新的数据发送到各个文件的源文件服务器。然后,源文件服务器对文件进行更新,并为每次更新的数据分配一个更新号。之后,源文件服务器将更新数据和更新号发送给拥有此文件的服务器,这些服务器信息在元数据服务器中维护。最后,服务器根据更新号的顺序对文件进行更新。具体步骤如下:
1) 更新源文件的步骤:更新数据先发送到相应的源文件服务器;
2) 分配更新号的步骤:源文件服务器进行更新并分配更新号;
3) 获取服务器列表的步骤:源文件服务器从元数据服务器获取拥有该文件的服务器列表;
4) 发送更新数据和更新号的步骤:源文件服务器发送更新数据和更新号到列表中的服务器;
5) 数据更新的步骤:各服务器根据更新号对文件进行更新。

Claims (5)

1.一种面向网络存储的文件高速访问方法,其特征在于,所述方法包括以下步骤:
(1) 初始化元数据服务器的步骤;
(2) 文件选择的步骤,包括以下步骤:
1) 等待设定时间的步骤;
2) 收集文件访问频率的步骤;
3) 计算文件读写频率的步骤;
4) 根据文件受欢迎程度对文件进行分类的步骤;
5) 计算文件读取次数的变化趋势的步骤;
6) 选择热点和过时文件的步骤;
(3) 寻找合适服务器的步骤,包括以下步骤:;
1) 网络通信收益计算的步骤;
2) 复制热点文件的步骤;
3) 删除过时文件副本的步骤;
(4) 淘汰有害文件副本的步骤;
(5) 保持数据一致性的步骤。
2.根据权利要求1所述的一种面向网络存储的文件高速访问方法,其特征是,所述的初始化元数据服务器的步骤包括以下步骤:
(1) 设置元数据服务器的步骤;
(2) 计算单位传输数据成本的步骤;
(3) 初始化部分元数据的步骤。
3.根据权利要求1所述的一种面向网络存储的文件高速访问方法,其特征是,所述的淘汰有害文件副本包括以下步骤:
(1) 计算读写比步骤;
(2) 选择淘汰文件的步骤;
(3) 删除有害文件副本的步骤。
4.根据权利要求1所述的一种面向网络存储的文件高速访问方法,其特征是,所述的保持数据一致性的步骤包括以下步骤:
(1) 更新源文件的步骤;
(2) 分配更新号的步骤;
(3) 获取服务器列表的步骤;
(4) 发送更新数据和更新号的步骤;
(5) 数据更新的步骤。
5.根据权利要求1所述的一种面向网络存储的文件高速访问方法,其特征是,所述的根据文件受欢迎程度对文件进行分类的步骤包括以下步骤:
(1) 计算单个文件受欢迎程度的步骤;
(2) 计算文件平均受欢迎程度的步骤;
(3) 分类文件的步骤。
CN 201210024272 2012-02-05 2012-02-05 一种面向网络存储的文件高速访问方法 Expired - Fee Related CN102609508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210024272 CN102609508B (zh) 2012-02-05 2012-02-05 一种面向网络存储的文件高速访问方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201210024272 CN102609508B (zh) 2012-02-05 2012-02-05 一种面向网络存储的文件高速访问方法

Publications (2)

Publication Number Publication Date
CN102609508A true CN102609508A (zh) 2012-07-25
CN102609508B CN102609508B (zh) 2013-12-25

Family

ID=46526880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201210024272 Expired - Fee Related CN102609508B (zh) 2012-02-05 2012-02-05 一种面向网络存储的文件高速访问方法

Country Status (1)

Country Link
CN (1) CN102609508B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103780426A (zh) * 2014-01-13 2014-05-07 南京邮电大学 云存储数据的一致性维护方法及云存储系统
CN106201363A (zh) * 2016-07-26 2016-12-07 四川大学 视频流像素级数据随机实时访问的存储器及存储方法
CN106933868A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 一种调整数据分片分布的方法及数据服务器
CN111372095A (zh) * 2018-12-25 2020-07-03 深圳市茁壮网络股份有限公司 一种计算热度的方法及装置
CN113111329A (zh) * 2021-06-11 2021-07-13 四川大学 基于多序列长短期记忆网络的口令字典生成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1480850A (zh) * 2002-12-04 2004-03-10 联想(北京)有限公司 动态迁移数据的方法及其存储系统
CN101236569A (zh) * 2008-02-01 2008-08-06 浙江大学 一种基于ContextFS上下文文件系统的高效动态路径解析方法
CN101470733A (zh) * 2007-12-27 2009-07-01 中国移动通信集团公司 数据块副本数量调整方法及分布式文件系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1480850A (zh) * 2002-12-04 2004-03-10 联想(北京)有限公司 动态迁移数据的方法及其存储系统
CN101470733A (zh) * 2007-12-27 2009-07-01 中国移动通信集团公司 数据块副本数量调整方法及分布式文件系统
CN101236569A (zh) * 2008-02-01 2008-08-06 浙江大学 一种基于ContextFS上下文文件系统的高效动态路径解析方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103780426A (zh) * 2014-01-13 2014-05-07 南京邮电大学 云存储数据的一致性维护方法及云存储系统
CN106933868A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 一种调整数据分片分布的方法及数据服务器
CN106933868B (zh) * 2015-12-30 2020-04-24 阿里巴巴集团控股有限公司 一种调整数据分片分布的方法及数据服务器
CN106201363A (zh) * 2016-07-26 2016-12-07 四川大学 视频流像素级数据随机实时访问的存储器及存储方法
CN111372095A (zh) * 2018-12-25 2020-07-03 深圳市茁壮网络股份有限公司 一种计算热度的方法及装置
CN113111329A (zh) * 2021-06-11 2021-07-13 四川大学 基于多序列长短期记忆网络的口令字典生成方法及系统
CN113111329B (zh) * 2021-06-11 2021-08-13 四川大学 基于多序列长短期记忆网络的口令字典生成方法及系统

Also Published As

Publication number Publication date
CN102609508B (zh) 2013-12-25

Similar Documents

Publication Publication Date Title
US11169710B2 (en) Method and apparatus for SSD storage access
US20150227603A1 (en) Asynchronous namespace maintenance
CN107249035B (zh) 一种等级动态可变的共享重复数据存储和读取方法
CN102609508A (zh) 一种面向网络存储的文件高速访问方法
CN108776690B (zh) 基于分层治理的hdfs分布式与集中式混合数据存储系统的方法
JP2005031987A (ja) コンテンツ配信システムにおけるコンテンツ配置管理システム及びコンテンツ配置管理プログラム
CN111159176A (zh) 一种海量流数据的存储和读取的方法和系统
Moharir et al. Serving content with unknown demand: the high-dimensional regime
CN104391961A (zh) 千万级小文件数据的一种读写解决策略
CN111491175A (zh) 一种基于视频内容特征的边缘网络缓存方法和装置
Irie et al. A novel automated tiered storage architecture for achieving both cost saving and qoe
CN101483668A (zh) 热点数据的网络存储和访问方法、设备及系统
CN105207993A (zh) 一种cdn中数据的访问、调度方法和系统
Abdi et al. The Impact of Data Replicatino on Job Scheduling Performance in Hierarchical data Grid
WO2023179784A1 (zh) 数据处理方法以及装置
US10078642B1 (en) Dynamic memory shrinker for metadata optimization
CN107689876A (zh) 分布式对象存储系统中元数据的分布管理方法
JP7318899B2 (ja) 二次ストレージにコンテンツアイテムを格納するためのシステムおよび方法
KR101718739B1 (ko) 이기종 하둡을 위한 동적 데이터 복제 시스템 및 방법
Chen et al. A greedy approach for caching in distributed data stores
Rasool et al. A load balancing replica placement strategy in Data Grid
Jolfaei et al. Improvement of job scheduling and tow level data replication strategies in data grid
Chandrakala et al. Efficient Heuristic Replication Techniques for High Data Availability in Cloud.
Sathya et al. Replication strategies for data grids
Jian et al. A HDFS dynamic load balancing strategy using improved niche PSO algorithm in cloud storage

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131225

Termination date: 20190205

CF01 Termination of patent right due to non-payment of annual fee