CN102523279A - 一种分布式文件系统及其热点文件存取方法 - Google Patents

一种分布式文件系统及其热点文件存取方法 Download PDF

Info

Publication number
CN102523279A
CN102523279A CN2011104122201A CN201110412220A CN102523279A CN 102523279 A CN102523279 A CN 102523279A CN 2011104122201 A CN2011104122201 A CN 2011104122201A CN 201110412220 A CN201110412220 A CN 201110412220A CN 102523279 A CN102523279 A CN 102523279A
Authority
CN
China
Prior art keywords
client
focus file
file
focus
location information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104122201A
Other languages
English (en)
Other versions
CN102523279B (zh
Inventor
吴棣章
谢伟汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Anyun Information Technology Co., Ltd.
Original Assignee
SHENZHEN CHUANGXINKE INFORMATION TECHNOLOGY Co Ltd
Clouds Creators Information Technology (wuxi) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN CHUANGXINKE INFORMATION TECHNOLOGY Co Ltd, Clouds Creators Information Technology (wuxi) Co Ltd filed Critical SHENZHEN CHUANGXINKE INFORMATION TECHNOLOGY Co Ltd
Priority to CN201110412220.1A priority Critical patent/CN102523279B/zh
Publication of CN102523279A publication Critical patent/CN102523279A/zh
Application granted granted Critical
Publication of CN102523279B publication Critical patent/CN102523279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种分布式文件系统中热点文件存取方法,A、主服务器通过收集计算分布式文件系统中每个被访问的数据块在单位时间内被访问的频率确定热点文件,并记录热点文件位置信息;B、第一客户端向主服务器请求获取热点文件,主服务器向第一客户端发送热点文件位置信息;C、第一客户端根据收到的热点文件位置信息,选择第二客户端作为目标客户端,创建与目标客户端的连接,向目标客户端读取热点文件并缓存于本地;D、主服务器更新热点文件位置信息,在其中添加保存了热点文件的第一客户端的位置信息。

Description

一种分布式文件系统及其热点文件存取方法
技术领域
本发明涉及网络存储技术领域,尤其涉及一种分布式文件系统及其热点文件存取方法。
背景技术
谷歌文件系统(GFS,Google File System)是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,它可以给大量的用户提供总体性能较高的服务,也可以提供容错功能。
GFS文件系统为分布式结构,它是一个高度容错网络文件系统,主要由一个主服务器(master)和众多存储节点服务器(chunkserver)构成。
GFS文件系统的工作过程如图1所示,包括如下步骤:
步骤101:客户端使用固定大小的块将应用程序指定的文件名和字节偏移转换成文件的一个块索引,向主服务器发送包含文件名和块索引的请求。
步骤102:主服务器收到客户端发来的请求,向存储节点服务器发出包含文件名和块索引的指示,同时时刻监控众多存储节点服务器的状态。
步骤103:存储节点服务器缓存主服务器发送来的文件名和块索引等信息。
步骤104:主服务器和存储节点服务器进行交互后,向客户端发送块操作信息(chunk-handle)和副本位置。
其中文件被分成若干个块,而每个块都是由一个不变的,全局唯一的64位的chunk-handle标识。Handle是由主服务器在块创建时分配的。而出于安全性考虑,每一个文件块都要被复制到多个存储节点服务器上,一般默认3个副本。
步骤105:客户端向其中的一个副本所在的存储节点服务器发出请求,请求指定了chunk handle(chunkserver以chunk handle标识chunk)和块内的一个字节区间。
步骤106:客户端从所述存储节点服务器获得块数据,任务完成。
在GFS或者与之类似的各种分布式文件系统中,客户端的数量成千上万,当大量客户端并发读取同一文件时,客户端会同时与数量一定的存储节点服务器即节点服务器建立连接,被访问的节点服务器网络负荷、磁盘IO将升至最大。节点服务器带宽平均分摊到大量并发客户端上,体现的结果是客户端读取该文件的网络速度严重下降。
发明内容
本发明提供了一种分布式文件系统及其热点文件存取方法,可以有效缓解热点文件并发访问导致的分布式文件系统性能下降现象。
本发明实施例提供的一种分布式文件系统中热点文件存取方法,包括如下步骤:
A、主服务器通过收集计算分布式文件系统中每个被访问的数据块在单位时间内被访问的频率,进行冒泡排序,选取一定比例的数据块作为热点文件,并记录热点文件位置信息;所述热点文件位置信息记录每一个热点文件所在的存储位置;
B、第一客户端向主服务器请求获取热点文件,主服务器向第一客户端发送热点文件位置信息;
C、第一客户端根据收到的热点文件位置信息,选择第二客户端作为目标客户端,创建与目标客户端的连接,向目标客户端读取热点文件并缓存于本地;
D、主服务器更新热点文件位置信息,在其中添加保存了热点文件的第一客户端的位置信息。
较佳地,步骤C包括:
第一客户端根据收到的热点文件位置信息,判断是否可以创建与目标客户端的连接,若是,则选择第二客户端作为目标客户端,创建与目标客户端的连接,向目标客户端读取热点文件并缓存于本地;否则,创建与存储节点服务器的连接,向存储节点服务器读取热点文件并缓存于本地。
较佳地,该方法进一步包括:
如果主服务器发现热点文件被修改,则通知缓存该热点文件的客户端,并向所述客户端发送热点文件更新位置信息;
所述客户端通过热点文件更新位置信息与存储节点服务器建立连接,向存储节点服务器读取热点数据块,并缓存于本地,原数据块如失效则将其删除。
较佳地,该方法进一步包括:
缓存热点文件的客户端正常关闭前,主动通知主服务器;主服务器接到通知后,从所保存的热点位置位置信息中删除该客户端的位置信息。
较佳地,该方法进一步包括:
如缓存热点文件的客户端非法关闭,主服务器通过传输控制协议TCP长连接心跳机制获知该客户端被关闭,从所保存的热点位置位置信息中删除该客户端的位置信息。
较佳地,该方法进一步包括:
主服务器向在线客户端发送热点文件位置信息,客户端根据该热点文件位置信息创建与存储节点服务器的连接,向存储节点服务器读取热点文件,并缓存于本地;主服务器更新热点文件位置信息,在其中添加保存了热点文件的客户端位置信息。
较佳地,该方法进一步包括:
主服务器每隔一段时间通过热点文件冒泡排序,重新确定热点文件,如果热点文件退化为非热点文件,主服务器通知缓存已退化的热点文件的客户端删除该已退化的热点文件;如果非热点文件变为热点文件,主服务器向客户端发送新的热点文件位置信息,客户端根据热点文件位置信息建立与存储节点服务器的连接,并读取新的热点文件数据块缓存于本地。
本发明实施例还提供一种分布式文件系统,包括主服务器、一个以上存储节点服务器,以及一个以上的客户端;
所述主服务器通过收集计算分布式文件系统中每个被访问的数据块在单位时间内被访问的频率,进行冒泡排序,选取一定比例的数据块作为热点文件,并记录热点文件位置信息;所述热点文件位置信息记录每一个热点文件所在的存储位置;判断客户端所要获取的数据块为热点文件,向客户端发送热点文件位置信息;在客户端缓存热点文件后,更新热点文件位置信息,在其中添加保存了热点文件的客户端的位置信息;
所述客户端用于向主服务器请求获取热点文件,根据收到的热点文件位置信息,选择其他客户端作为目标客户端,创建与目标客户端的连接,向目标客户端读取热点文件并缓存于本地。
较佳地,所述主服务器进一步用于向在线的客户端发送热点文件位置信息;在线的客户端缓存热点文件后,主服务器更新热点文件位置信息,在其中添加保存了热点文件的客户端位置信息;
客户端根据接收的热点文件位置信息创建与存储节点服务器的连接,向存储节点服务器读取热点文件,并缓存于本地。
较佳地,所述主服务器进一步用于每隔一段时间通过热点文件冒泡排序,重新确定热点文件,如果热点文件退化为非热点文件,主服务器通知缓存已退化的热点文件的客户端删除该已退化的热点文件;如果非热点文件变为热点文件,主服务器向客户端发送新的热点文件位置信息。
从以上技术方案可以看出,根据数据块被访问的次数确定热点数据块,热点文件数据块与及其位置信息将被按照策略分配到各个客户端之中。在客户端的应用程序要求读取热点文件数据时,客户端将根据现有热点数据块位置信息对其它客户端发起访问,要求读取相对应的数据块,在获取到热点文件后,也将该热点文件提供给其他客户端访问。该方案可以避免大量客户端并发访问热点文件时造成网络速度下降的情况。
附图说明
图1为现有技术中的GFS文件系统的工作过程示意图;
图2为本发明提供的分布式文件系统中热点文件的存取方法流程示意图;
图3为本发明实施例提供的分布式文件系统中热点文件存取的流程示意图。
具体实施方式
本发明的基本思想如下:文件被分割成多个定长的数据块,按分布式文件系统策略存储在单个或多个存储节点服务器之中,所有数据块都有参数标记单位时期内被访问的次数,数据块参数存储在主服务器之中,热点文件将按照被访问次数进行排序,以被确认热点文件范围。新客户端启动将获得主服务器提供热点文件的部分数据块,以及其它热点数据块在其它客户端的位置。在多个客户端的分布式文件系统中,热点文件数据块与及其位置信息将被按照策略分配到各个客户端之中。在客户端的应用程序要求读取热点文件数据时,客户端将根据现有热点数据块位置信息对其它客户端发起访问,要求读取相对应的数据块,在获取到热点文件后,也将该热点文件提供给其他客户端访问。
本发明提供的分布式文件系统中热点文件的存取方法如图2所示,包括如下步骤:
步骤201:主服务器通过收集计算分布式文件系统中每个被访问的数据块在单位时间内被访问的频率,进行冒泡排序,选取一定比例的数据块作为热点文件,并记录热点文件位置信息;所述热点文件位置信息记录每一个热点文件所在的存储位置;
步骤202:第一客户端向主服务器请求获取热点文件,主服务器向第一客户端发送热点文件位置信息;
步骤203:第一客户端根据收到的热点文件位置信息,选择第二客户端作为目标客户端,创建与目标客户端的连接,向目标客户端读取热点文件并缓存于本地;
步骤204:主服务器更新热点文件位置信息,在其中添加保存了热点文件的第一客户端的位置信息。
在文件最初被上传到分布式文件系统时(或者分布式文件系统初始运行时),文件分割成的数据块都存储在存储节点服务器中,但此时数据块被访问的较少,也不会形成热点文件,因此客户端仍然按照现有的数据块获取方式从存储节点服务器中获取数据块。在应用本发明方法的过程中,第一客户端有可能无法从其他客户端那里获取到热点文件,仍然需要从存储节点服务器处获取热点文件,则第一客户端需要根据收到的热点文件位置信息,判断是否可以创建与目标客户端的连接,若是,则选择第二客户端作为目标客户端,创建与目标客户端的连接,向目标客户端读取热点文件并缓存于本地;否则,创建与存储节点服务器的连接,向存储节点服务器读取热点文件并缓存于本地。
除了本身需要获取热点文件的客户端可以将自身缓存的热点文件提供给其他客户端下载以外,为了使热点文件能尽快在客户端中传播,还可以让一部分在线客户端充当热点文件的“载体”:主服务器向在线客户端发送热点文件位置信息,客户端根据该热点文件位置信息创建与存储节点服务器的连接,向存储节点服务器读取热点文件,并缓存于本地;主服务器更新热点文件位置信息,在其中添加保存了热点文件的客户端位置信息。
为使本发明方案的技术原理、优点以及技术效果更加清楚,以下通过具体实施例对本发明进行详细阐述。
图3为本发明实施例提供的分布式文件系统中热点文件存取的流程,包括如下步骤:
步骤301:主服务器负责管理存储节点服务器保存的所有数据块信息,通过收集计算每个被访问的数据块在单位时间内被访问的频率,进行冒泡排序,根据当前在线客户端数量与每个客户端的软硬件资源,选取一定比例的数据块作为热点文件,并记录热点文件位置信息。
当前在线客户端数量有两方面的作用,一方面,当前在线客户端数量可以作为是否启用热点文件机制的触发条件。当在线客户端数目很少时,无须启用该机制,只有当在线客户端数目达到一定值后,才需要启动该机制。另一方面,当前在线客户端数量可以和客户端的软硬件资源共同确定热点文件的数目。其中,根据客户端的软硬件资源可以估算出该客户端可以缓存的数据块数目,结合当前在线客户端数量可以估算出可以缓存的数据块总数,再结合每个热点文件需要缓存的份数,则可以估算出热点文件的数目。
所述热点文件位置信息记录了每一个热点文件所在的存储位置。所述存储位置在最初可能仅包括存储节点服务器地址,随着本发明流程的运行,还会包括客户端地址。
步骤302:主服务器向在线客户端发送热点文件位置信息,客户端根据该热点文件位置信息创建与存储节点服务器的连接,向存储节点服务器读取热点文件,并缓存于本地。主服务器更新热点文件位置信息,在其中添加保存了热点文件的客户端位置信息。
如果该客户端本身并未请求该热点文件,为了减轻客户端的存储压力,每一个客户端可以仅保存一定数目而不是全部的热点文件,所保存的热点文件数目可以是根据客户端剩余资源按照一定比例确定。例如,客户端当前剩余存储空间为2G,则存储的热点文件所占空间不得大于剩余存储空间的10%,即300M。
本发明方案并不限定于接入该分布式文件系统的所有客户端都缓存热点文件。主服务器可以根据接入的客户端的可用软硬件资源,选择一定数目的客户端来缓存热点文件。
步骤303:如果主服务器发现热点文件被修改,则通知缓存该热点文件的客户端,并向所述客户端发送热点文件更新位置信息。
步骤304:所述客户端通过热点文件更新位置信息与存储节点服务器建立连接,向存储节点服务器读取热点数据块,并缓存于本地,原数据块如失效则将其删除。
步骤305:客户端要求访问热点文件时,主服务器将向其发送缓存该热点文件的客户端位置信息,客户端根据此信息建立与目标客户端的连接,并从目标客户端处读取热点文件。其中,目标客户端的数目可以不止一个。
步骤306:缓存热点文件的客户端正常关闭前,主动通知主服务器;主服务器接到通知后,从所保存的热点位置位置信息中删除该客户端的位置信息。
如缓存热点文件的客户端非法关闭,主服务器通过传输控制协议(TCP,Transmission Control Protocol)长连接心跳机制获知该客户端被关闭,从所保存的热点位置位置信息中删除该客户端的位置信息。
步骤307:主服务器根据在线客户端数量与客户端软硬件资源,指导其它客户端接管该热点文件。
主服务器可以判断任一热点文件被缓存的份数是否达到预定值(或预定取值范围),若是,则不做调整,否则,选取在线客户端缓存该热点文件,使得该热点文件被缓存的份数达到预定值(或预定取值范围)。
步骤208:主服务器每隔一段时间通过热点文件冒泡排序,重新确定热点文件。
如果热点文件退化为非热点文件,主服务器通知缓存已退化的热点文件的客户端删除该已退化的热点文件。当非热点文件变为热点文件时,主服务器向客户端发送新的热点文件位置信息。客户端根据热点文件位置信息建立与存储节点服务器的连接,并读取新的热点文件数据块缓存于本地。
本发明实施例还提供一种分布式文件系统,包括主服务器、一个以上存储节点服务器,以及一个以上的客户端;
所述主服务器通过收集计算分布式文件系统中每个被访问的数据块在单位时间内被访问的频率,进行冒泡排序,选取一定比例的数据块作为热点文件,并记录热点文件位置信息;所述热点文件位置信息记录每一个热点文件所在的存储位置;判断客户端所要获取的数据块为热点文件,向客户端发送热点文件位置信息;在客户端缓存热点文件后,更新热点文件位置信息,在其中添加保存了热点文件的客户端的位置信息;
所述客户端用于向主服务器请求获取热点文件,根据收到的热点文件位置信息,选择其他客户端作为目标客户端,创建与目标客户端的连接,向目标客户端读取热点文件并缓存于本地。
较佳地,所述主服务器进一步用于向在线的客户端发送热点文件位置信息;在线的客户端缓存热点文件后,主服务器更新热点文件位置信息,在其中添加保存了热点文件的客户端位置信息;
客户端根据接收的热点文件位置信息创建与存储节点服务器的连接,向存储节点服务器读取热点文件,并缓存于本地。
较佳地,所述主服务器进一步用于每隔一段时间通过热点文件冒泡排序,重新确定热点文件,如果热点文件退化为非热点文件,主服务器通知缓存已退化的热点文件的客户端删除该已退化的热点文件;如果非热点文件变为热点文件,主服务器向客户端发送新的热点文件位置信息。
所述主服务器包括一致性模块和可靠性模块。
一致性模块的功能是:当热点文件被改变时,主服务器重发相关热点文件位置信息给相关客户端,客户端自行对比旧的数据块信息,并创建与存储节点服务器的连接,如果相关数据块信息改变,客户端即删除该数据块,重新向对应的存储节点服务器读取新的数据块并缓存至本地;当客户端非法关闭,主服务器根据长连接心跳包获悉并根据指派给该客户端的数据块的热度,即这些数据块(以下简称待处理数据块)所归属的文件在主服务器热点文件排序的先后程度和当时系统环境,决定做出以下多种动作之一:(1)待处理数据块热度靠后,并且在没有新的客户端加入的情况下,不作处理;(2)待处理数据块热度靠前,并且在没有新的客户端加入的情况下,主服务器将待处理数据块位置信息发送给在线的并且持有较低热度数据块的客户端,由该客户端删除原持有的底热度数据块缓存,重新向相关存储节点服务器请求待处理数据块信息,并缓存至本地。(3)有新的客户端加入,主服务器把待处理数据块位置信息发送给新客户端,新客户端向相关存储节点服务器请求待处理数据块信息,并缓存至本地。此模块让本方法能够保证客户端读取的热点文件是最新的。
可靠性模块主要是保证热点文件在存取时的系统的可靠性能。有访问需求的客户端自身持有一定数量的热点文件数据块位置信息和热点数据块,其在发起访问时首先告知主服务器将要访问哪些文件节点,主服务器根据文件标识的哈希(hash)值快速定位内存中的该文件节点信息,并读取是否是热点文件的字段,若是即发送缓存该节点数据块的客户端的信息与及节点最近一次被修改的时间给有访问需求的客户端,有访问需求的客户端对比自身持有的热点数据块位置信息,如果相同,即比较最近修改时间,如果再次相同即从自身缓存直接返回给上层应用;如果数据块位置相同,最近修改时间不同,说明主服务器在一致性模块告知数据块改变,该客户端正在向相关存储节点服务器读取新的数据块,当该读取动作完成即直接返回给上层应用;如果数据块位置不相同,有访问需求的客户端发起与目标客户端的连接,并读取相关数据块信息,如果目标客户端异常,有访问需求的客户端立即告知主服务器,不再等待一致性模块的执行,向主服务器获得该热点文件数据块所在的存储节点服务器信息,并与其建立连接,读取相关数据块至本地,返回给上层应用。当大量客户端在线,正在被其它客户端访问并异常退出的机率相对还是很低的,因此为保证热点文件存取的可靠性,最坏的情况才会读取存储节点服务器,但是只要能保证大部份热点文件的读取是在客户端之间完成,就能极大缓解存储节点服务器的压力,达到缓解热点文件并发访问造致存储节点服务器性能下降的目的。
以下给出本发明的一个具体示例。假定分布式文件系统所基于的网络架构为master1台(命名为M1)、chunkserver20台(命名为CK1至CK20)、客户端1000台(命名为C1至C1000,内存大小为2GB),共同处于同一个千兆局域网内。假定客户端只有C1在线,C1要求向系统写入256M大小的文件F0,master通知C1分别顺序向CK1、CK2、CK3、CK4各写入64M的文件,并记录文件F0储存在这几台chunkserver的硬盘内。由于master仅有一个文件节点记录,F0热度排序最高,所以认定F0为热点文件,master给C1发送CK1、CK2、CK3、CK4的数据块位置信息,C1与CK1、CK2、CK3、CK4建立连接并分别读取64M数据块缓存至本地。当C1需要读取F0时,C1告知master需要读取F0,master通过F0的节点号hash值定位到F0的节点数据结构体,得知F0为热点文件,于是把C1的位置信息与F0的上一次修改时间发给C1,C1得知F0缓存于本地,并且F0没有被修改,即把缓存于本地的F0返回给上层。在本例中,在F0没有被修改的情况下,C1对F0的多次读取在采用本发明方法后,在后面大部份的读取次数都是本地存取。现假定C2、C3上线,C2修改了F0,F0大小变为200M,数据块在CK1、CK2、CK3、CK4分别变为储存64M、64M、64M、8M,master主动将此情况告知C1,C1检查此前缓存的来自CK1、CK2、CK3、CK4的每个数据块的上一次修改时间,发现只有CK4的数据块变动了,于是把原来自CK4的数据块从内存删除,并且重新建立与CK4的连接,把CK4对应的8M数据块读取且缓存至本地。假定在C1尚未完成读取新的CK4的8M数据块,C3要求读取F1,master将指示C3向C1读取除CK4发给C1的8M数据块外的其余3个64M的数据块,又指示C3向CK4读取剩下的8M数据块,此举保证了热点文件读取的一致性。假定C1非法关闭,C4上线且要求读取F0,在master未获悉C1退出的情况下,master会指示C4向C1读取F0,但C4发现与C1连不上,并告知master,master将会指示C4向CK1、CK2、CK3、CK4读取,master最终通过长连接心跳包获悉C1退出将通知C2向CK1、CK2各读取64M的F0数据块,C3向CK3、CK4各读取64M的F0数据块,也就是说F0将由C2和C3各自缓存一部份数据块。此后C4若再次要求读取F0,master将指示其分别向C2和C3读取,此举保证了热点文件存取的可靠性。现假定C1至C1000全部上线,系统中被写入了100万个文件节点,F0热度退化,master将通知C2和C3删除缓存在本地的F0数据块,并且根据客户端的内存总和按以下公式算出客户端总共可以缓存热点文件数据块的大小总和2G*1000*0.25=500G;master选择热度靠前的文件节点,直至热度文件总数接近500G且不超过500G为止,并标记这些文件为热点文件(现假定这些文件名为F1至F500,文件大小为512M),且分发这些热点文件数据块位于chunkserver的位置信息给这1000个客户端,这些客户端分别建立与相关chunkserver的连接,并读取不大于256M的热点文件数据块缓存至本地。本例中,在F1至F500没有被修改的情况下,当有C1至C500分别访问F1至F500时,chunkserver的网络压力为0,这是最理想的情况,即使有部份热点文件被频繁修改,大部份的chunkserver压力还是很小的,这就保证了C501至C1000能够顺畅访问非热点文件。
本发明方法与P2P文件系统主要区别:P2P文件系统本地保存大量文件数据,占用大量客户端用户资源,当热点退化后造成资源浪费;本方法文件数据主要保存在存储节点服务器,仅占用少量客户端资源来缓存热点文件数据块,当热点退化后,原热点数据块即从客户端上移除。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种分布式文件系统中热点文件存取方法,其特征在于,包括如下步骤:
A、主服务器通过收集计算分布式文件系统中每个被访问的数据块在单位时间内被访问的频率,进行冒泡排序,选取一定比例的数据块作为热点文件,并记录热点文件位置信息;所述热点文件位置信息记录每一个热点文件所在的存储位置;
B、第一客户端向主服务器请求获取热点文件,主服务器向第一客户端发送热点文件位置信息;
C、第一客户端根据收到的热点文件位置信息,选择第二客户端作为目标客户端,创建与目标客户端的连接,向目标客户端读取热点文件并缓存于本地;
D、主服务器更新热点文件位置信息,在其中添加保存了热点文件的第一客户端的位置信息。
2.根据权利要求1所述的方法,其特征在于,步骤C包括:
第一客户端根据收到的热点文件位置信息,判断是否可以创建与目标客户端的连接,若是,则选择第二客户端作为目标客户端,创建与目标客户端的连接,向目标客户端读取热点文件并缓存于本地;否则,创建与存储节点服务器的连接,向存储节点服务器读取热点文件并缓存于本地。
3.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
如果主服务器发现热点文件被修改,则通知缓存该热点文件的客户端,并向所述客户端发送热点文件更新位置信息;
所述客户端通过热点文件更新位置信息与存储节点服务器建立连接,向存储节点服务器读取热点数据块,并缓存于本地,原数据块如失效则将其删除。
4.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
缓存热点文件的客户端正常关闭前,主动通知主服务器;主服务器接到通知后,从所保存的热点位置位置信息中删除该客户端的位置信息。
5.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
如缓存热点文件的客户端非法关闭,主服务器通过传输控制协议TCP长连接心跳机制获知该客户端被关闭,从所保存的热点位置位置信息中删除该客户端的位置信息。
6.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
主服务器向在线客户端发送热点文件位置信息,客户端根据该热点文件位置信息创建与存储节点服务器的连接,向存储节点服务器读取热点文件,并缓存于本地;主服务器更新热点文件位置信息,在其中添加保存了热点文件的客户端位置信息。
7.根据权利要求6所述的方法,其特征在于,该方法进一步包括:
主服务器每隔一段时间通过热点文件冒泡排序,重新确定热点文件,如果热点文件退化为非热点文件,主服务器通知缓存已退化的热点文件的客户端删除该已退化的热点文件;如果非热点文件变为热点文件,主服务器向客户端发送新的热点文件位置信息,客户端根据热点文件位置信息建立与存储节点服务器的连接,并读取新的热点文件数据块缓存于本地。
8.一种分布式文件系统,其特征在于,包括主服务器、一个以上存储节点服务器,以及一个以上的客户端;
所述主服务器通过收集计算分布式文件系统中每个被访问的数据块在单位时间内被访问的频率,进行冒泡排序,选取一定比例的数据块作为热点文件,并记录热点文件位置信息;所述热点文件位置信息记录每一个热点文件所在的存储位置;判断客户端所要获取的数据块为热点文件,向客户端发送热点文件位置信息;在客户端缓存热点文件后,更新热点文件位置信息,在其中添加保存了热点文件的客户端的位置信息;
所述客户端用于向主服务器请求获取热点文件,根据收到的热点文件位置信息,选择其他客户端作为目标客户端,创建与目标客户端的连接,向目标客户端读取热点文件并缓存于本地。
9.根据权利要求8所述的分布式文件系统,其特征在于,
所述主服务器进一步用于向在线的客户端发送热点文件位置信息;在线的客户端缓存热点文件后,主服务器更新热点文件位置信息,在其中添加保存了热点文件的客户端位置信息;
客户端根据接收的热点文件位置信息创建与存储节点服务器的连接,向存储节点服务器读取热点文件,并缓存于本地。
10.根据权利要求9所述的分布式文件系统,其特征在于,
所述主服务器进一步用于每隔一段时间通过热点文件冒泡排序,重新确定热点文件,如果热点文件退化为非热点文件,主服务器通知缓存已退化的热点文件的客户端删除该已退化的热点文件;如果非热点文件变为热点文件,主服务器向客户端发送新的热点文件位置信息。
CN201110412220.1A 2011-12-12 2011-12-12 一种分布式文件系统及其热点文件存取方法 Active CN102523279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110412220.1A CN102523279B (zh) 2011-12-12 2011-12-12 一种分布式文件系统及其热点文件存取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110412220.1A CN102523279B (zh) 2011-12-12 2011-12-12 一种分布式文件系统及其热点文件存取方法

Publications (2)

Publication Number Publication Date
CN102523279A true CN102523279A (zh) 2012-06-27
CN102523279B CN102523279B (zh) 2015-09-23

Family

ID=46294068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110412220.1A Active CN102523279B (zh) 2011-12-12 2011-12-12 一种分布式文件系统及其热点文件存取方法

Country Status (1)

Country Link
CN (1) CN102523279B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236989A (zh) * 2013-04-25 2013-08-07 青岛海信传媒网络技术有限公司 一种内容分发网络中的缓存控制方法、设备及系统
CN103338249A (zh) * 2013-06-26 2013-10-02 优视科技有限公司 缓存方法及装置
CN103595761A (zh) * 2013-10-15 2014-02-19 北京航空航天大学 基于分布式文件系统的数据处理方法和服务器
CN103885901A (zh) * 2012-12-21 2014-06-25 联想(北京)有限公司 文件读取方法、存储设备和电子设备
CN103902473A (zh) * 2012-12-31 2014-07-02 华为技术有限公司 一种数据处理方法及数据缓存系统
CN104158902A (zh) * 2014-08-27 2014-11-19 浙江宇视科技有限公司 一种基于请求数的Hbase数据块分配方法及装置
CN104168335A (zh) * 2014-09-02 2014-11-26 东软熙康健康科技有限公司 一种数据同步方法和装置
CN104424361A (zh) * 2013-09-04 2015-03-18 国际商业机器公司 自动定义热存储和大工作负载
CN104572754A (zh) * 2013-10-24 2015-04-29 北大方正集团有限公司 一种数据库系统、数据库系统访问方法及装置
CN105138416A (zh) * 2014-06-05 2015-12-09 中兴通讯股份有限公司 磁盘休眠处理方法及装置
US9332025B1 (en) * 2013-12-23 2016-05-03 Symantec Corporation Systems and methods for detecting suspicious files
CN105808451A (zh) * 2014-12-29 2016-07-27 华为技术有限公司 一种数据缓存方法以及相关装置
WO2016184199A1 (zh) * 2015-05-15 2016-11-24 中兴通讯股份有限公司 一种文件管理的方法、设备和系统
CN106202070A (zh) * 2015-04-29 2016-12-07 中国电信股份有限公司 文件存储处理方法与系统
CN106354433A (zh) * 2016-08-30 2017-01-25 北京航空航天大学 分布式内存存储系统的热点数据挖掘方法及装置
CN106452878A (zh) * 2016-10-19 2017-02-22 北京悦畅科技有限公司 一种局域网中服务切换方法、装置和系统
CN106708833A (zh) * 2015-08-03 2017-05-24 腾讯科技(深圳)有限公司 基于位置信息获取数据的方法和装置
CN107153662A (zh) * 2016-03-04 2017-09-12 华为技术有限公司 一种数据处理方法及装置
CN107623702A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 一种数据缓存方法、装置及系统
CN108156193A (zh) * 2016-12-02 2018-06-12 阿里巴巴集团控股有限公司 一种热点确定方法及系统
CN109002301A (zh) * 2018-08-02 2018-12-14 合肥联宝信息技术有限公司 一种软件安装方法及系统
CN110263010A (zh) * 2019-05-31 2019-09-20 广东睿江云计算股份有限公司 一种缓存文件自动更新方法及装置
CN110572445A (zh) * 2019-08-23 2019-12-13 深圳华工能源技术有限公司 配用电数据采集存储空间管理方法、终端及存储介质
CN110602026A (zh) * 2018-06-13 2019-12-20 阿里巴巴集团控股有限公司 文件访问方法、控制节点、客户端和电子设备
CN111813740A (zh) * 2019-04-11 2020-10-23 中国移动通信集团四川有限公司 一种文件分层存储方法及服务器
CN112311826A (zh) * 2019-07-30 2021-02-02 贵州白山云科技股份有限公司 内容分发系统中访问请求的处理方法、装置及系统
CN113918603A (zh) * 2021-10-11 2022-01-11 平安国际智慧城市科技股份有限公司 散列缓存生成方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020112023A1 (en) * 2001-02-14 2002-08-15 Christos Karamanolis Separate read and write servers in a distributed file system
CN101137042A (zh) * 2006-09-29 2008-03-05 中兴通讯股份有限公司 一种集群式流媒体系统中静态节目的分发和服务方法
CN101236569A (zh) * 2008-02-01 2008-08-06 浙江大学 一种基于ContextFS上下文文件系统的高效动态路径解析方法
CN101520805A (zh) * 2009-03-25 2009-09-02 中兴通讯股份有限公司 一种分布式文件系统及其文件处理方法
CN101841556A (zh) * 2010-02-23 2010-09-22 中国科学院计算技术研究所 Cdn-p2p网络中放置资源副本的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020112023A1 (en) * 2001-02-14 2002-08-15 Christos Karamanolis Separate read and write servers in a distributed file system
CN101137042A (zh) * 2006-09-29 2008-03-05 中兴通讯股份有限公司 一种集群式流媒体系统中静态节目的分发和服务方法
CN101236569A (zh) * 2008-02-01 2008-08-06 浙江大学 一种基于ContextFS上下文文件系统的高效动态路径解析方法
CN101520805A (zh) * 2009-03-25 2009-09-02 中兴通讯股份有限公司 一种分布式文件系统及其文件处理方法
CN101841556A (zh) * 2010-02-23 2010-09-22 中国科学院计算技术研究所 Cdn-p2p网络中放置资源副本的方法及系统

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103885901A (zh) * 2012-12-21 2014-06-25 联想(北京)有限公司 文件读取方法、存储设备和电子设备
CN103885901B (zh) * 2012-12-21 2019-06-25 联想(北京)有限公司 文件读取方法、存储设备和电子设备
CN103902473A (zh) * 2012-12-31 2014-07-02 华为技术有限公司 一种数据处理方法及数据缓存系统
CN103902473B (zh) * 2012-12-31 2018-07-03 华为技术有限公司 一种数据处理方法及数据缓存系统
CN103236989A (zh) * 2013-04-25 2013-08-07 青岛海信传媒网络技术有限公司 一种内容分发网络中的缓存控制方法、设备及系统
CN103338249A (zh) * 2013-06-26 2013-10-02 优视科技有限公司 缓存方法及装置
CN104424361B (zh) * 2013-09-04 2017-12-19 国际商业机器公司 自动定义热存储和大工作负载
CN104424361A (zh) * 2013-09-04 2015-03-18 国际商业机器公司 自动定义热存储和大工作负载
CN103595761B (zh) * 2013-10-15 2017-01-04 北京航空航天大学 基于分布式文件系统的数据处理方法和服务器
CN103595761A (zh) * 2013-10-15 2014-02-19 北京航空航天大学 基于分布式文件系统的数据处理方法和服务器
CN104572754B (zh) * 2013-10-24 2018-06-05 北大方正集团有限公司 一种数据库系统、数据库系统访问方法及装置
CN104572754A (zh) * 2013-10-24 2015-04-29 北大方正集团有限公司 一种数据库系统、数据库系统访问方法及装置
US9332025B1 (en) * 2013-12-23 2016-05-03 Symantec Corporation Systems and methods for detecting suspicious files
CN105138416A (zh) * 2014-06-05 2015-12-09 中兴通讯股份有限公司 磁盘休眠处理方法及装置
CN104158902A (zh) * 2014-08-27 2014-11-19 浙江宇视科技有限公司 一种基于请求数的Hbase数据块分配方法及装置
CN104158902B (zh) * 2014-08-27 2017-09-19 浙江宇视科技有限公司 一种基于请求数的Hbase数据块分配方法及装置
CN104168335B (zh) * 2014-09-02 2018-08-03 宁波(东软熙康)智慧健康研究院有限公司 一种数据同步方法和装置
CN104168335A (zh) * 2014-09-02 2014-11-26 东软熙康健康科技有限公司 一种数据同步方法和装置
CN105808451A (zh) * 2014-12-29 2016-07-27 华为技术有限公司 一种数据缓存方法以及相关装置
CN106202070A (zh) * 2015-04-29 2016-12-07 中国电信股份有限公司 文件存储处理方法与系统
WO2016184199A1 (zh) * 2015-05-15 2016-11-24 中兴通讯股份有限公司 一种文件管理的方法、设备和系统
US11144609B2 (en) 2015-08-03 2021-10-12 Tencent Technology (Shenzhen) Company Limited Method and apparatus for obtaining data based on location information
CN106708833A (zh) * 2015-08-03 2017-05-24 腾讯科技(深圳)有限公司 基于位置信息获取数据的方法和装置
CN106708833B (zh) * 2015-08-03 2020-04-07 腾讯科技(深圳)有限公司 基于位置信息获取数据的方法和装置
CN107153662A (zh) * 2016-03-04 2017-09-12 华为技术有限公司 一种数据处理方法及装置
CN107153662B (zh) * 2016-03-04 2020-04-28 华为技术有限公司 一种数据处理方法及装置
CN107623702A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 一种数据缓存方法、装置及系统
CN106354433A (zh) * 2016-08-30 2017-01-25 北京航空航天大学 分布式内存存储系统的热点数据挖掘方法及装置
CN106354433B (zh) * 2016-08-30 2019-09-10 北京航空航天大学 分布式内存存储系统的热点数据挖掘方法及装置
CN106452878A (zh) * 2016-10-19 2017-02-22 北京悦畅科技有限公司 一种局域网中服务切换方法、装置和系统
CN106452878B (zh) * 2016-10-19 2019-09-10 北京悦畅科技有限公司 一种局域网中服务切换方法、装置和系统
CN108156193B (zh) * 2016-12-02 2022-08-19 阿里巴巴集团控股有限公司 一种热点确定方法及系统
CN108156193A (zh) * 2016-12-02 2018-06-12 阿里巴巴集团控股有限公司 一种热点确定方法及系统
CN110602026A (zh) * 2018-06-13 2019-12-20 阿里巴巴集团控股有限公司 文件访问方法、控制节点、客户端和电子设备
CN110602026B (zh) * 2018-06-13 2021-12-14 阿里巴巴集团控股有限公司 文件访问方法、控制节点、客户端和电子设备
CN109002301A (zh) * 2018-08-02 2018-12-14 合肥联宝信息技术有限公司 一种软件安装方法及系统
CN111813740A (zh) * 2019-04-11 2020-10-23 中国移动通信集团四川有限公司 一种文件分层存储方法及服务器
CN110263010A (zh) * 2019-05-31 2019-09-20 广东睿江云计算股份有限公司 一种缓存文件自动更新方法及装置
CN110263010B (zh) * 2019-05-31 2023-05-02 广东睿江云计算股份有限公司 一种缓存文件自动更新方法及装置
CN112311826A (zh) * 2019-07-30 2021-02-02 贵州白山云科技股份有限公司 内容分发系统中访问请求的处理方法、装置及系统
CN112311826B (zh) * 2019-07-30 2022-05-03 贵州白山云科技股份有限公司 内容分发系统中访问请求的处理方法、装置及系统
US11606415B2 (en) 2019-07-30 2023-03-14 Guizhou Baishancloud Technology Co., Ltd. Method, apparatus and system for processing an access request in a content delivery system
CN110572445B (zh) * 2019-08-23 2022-05-17 深圳华工能源技术有限公司 配用电数据采集存储空间管理方法、终端及存储介质
CN110572445A (zh) * 2019-08-23 2019-12-13 深圳华工能源技术有限公司 配用电数据采集存储空间管理方法、终端及存储介质
CN113918603A (zh) * 2021-10-11 2022-01-11 平安国际智慧城市科技股份有限公司 散列缓存生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN102523279B (zh) 2015-09-23

Similar Documents

Publication Publication Date Title
CN102523279A (zh) 一种分布式文件系统及其热点文件存取方法
US9882975B2 (en) Method and apparatus for buffering and obtaining resources, resource buffering system
US11347651B2 (en) Cache warming: agility for a stateful service
CN103338242B (zh) 一种基于多级缓存的混合云存储系统和方法
CN102708165B (zh) 分布式文件系统中的文件处理方法及装置
CN103647797A (zh) 一种分布式文件系统及其数据访问方法
US20160226931A9 (en) Virtual multi-cluster clouds
US9547706B2 (en) Using colocation hints to facilitate accessing a distributed data storage system
US20070179981A1 (en) Efficient data management in a cluster file system
CN106506587A (zh) 一种基于分布式存储的Docker镜像下载方法
CN102164160B (zh) 支持大并发量文件下载的方法、装置及系统
CN105549905A (zh) 一种多虚拟机访问分布式对象存储系统的方法
CN105005611B (zh) 一种文件管理系统及文件管理方法
CN107832423B (zh) 一种用于分布式文件系统的文件读写方法
CN104184812B (zh) 一种基于私有云的多点数据传输方法
CN104050250A (zh) 一种分布式键-值查询方法和查询引擎系统
CN105760556A (zh) 低延时高吞吐量的多副本文件读写优化方法
US10503693B1 (en) Method and system for parallel file operation in distributed data storage system with mixed types of storage media
US20100161585A1 (en) Asymmetric cluster filesystem
CN104079600B (zh) 文件存储方法、装置、访问客户端及元数据服务器系统
CN107181773A (zh) 分布式存储系统的数据存储及数据管理方法、设备
CN106020713A (zh) 一种基于缓冲区的文件存储方法
EP3555767B1 (en) Partial storage of large files in distinct storage systems
US9667735B2 (en) Content centric networking
CN111966742A (zh) 数据迁移方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 214135 Jiangsu New District of Wuxi, Taihu international science and Technology Parks Linghu Road No. 200 Chinese micro nano sensor network of International Innovation Park Building No. 1

Applicant after: Clouds creators information technology (Wuxi) Co., Ltd.

Applicant after: Shenzhen Anyun Information Technology Co., Ltd.

Address before: 214135 Jiangsu New District of Wuxi, Taihu international science and Technology Parks Linghu Road No. 200 Chinese micro nano sensor network of International Innovation Park Building No. 1

Applicant before: Clouds creators information technology (Wuxi) Co., Ltd.

Applicant before: Shenzhen Chuangxinke Information Technology Co., Ltd.

ASS Succession or assignment of patent right

Free format text: FORMER OWNER: SHENZHEN ANYUN INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20150710

Owner name: SHENZHEN ANYUN INFORMATION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: COOL CLOUDZ INFORMATION TECHNOLOGY (WUXI) CO., LTD.

Effective date: 20150710

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150710

Address after: 518057 Guangdong city of Shenzhen province Nanshan District Hing Road two No. 6 Shenzhen building B403 - III University Wuhan University

Applicant after: Shenzhen Anyun Information Technology Co., Ltd.

Address before: 214135 Jiangsu New District of Wuxi, Taihu international science and Technology Parks Linghu Road No. 200 Chinese micro nano sensor network of International Innovation Park Building No. 1

Applicant before: Clouds creators information technology (Wuxi) Co., Ltd.

Applicant before: Shenzhen Anyun Information Technology Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant