CN102394922A - 分布式集群文件系统及文件访问方法 - Google Patents

分布式集群文件系统及文件访问方法 Download PDF

Info

Publication number
CN102394922A
CN102394922A CN201110330419XA CN201110330419A CN102394922A CN 102394922 A CN102394922 A CN 102394922A CN 201110330419X A CN201110330419X A CN 201110330419XA CN 201110330419 A CN201110330419 A CN 201110330419A CN 102394922 A CN102394922 A CN 102394922A
Authority
CN
China
Prior art keywords
engine unit
file
engine
read
write requests
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201110330419XA
Other languages
English (en)
Inventor
安然
谈川玉
卢宝丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WENGUANG INTERDYANMIC TV CO Ltd SHANGHAI
Original Assignee
WENGUANG INTERDYANMIC TV CO Ltd SHANGHAI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WENGUANG INTERDYANMIC TV CO Ltd SHANGHAI filed Critical WENGUANG INTERDYANMIC TV CO Ltd SHANGHAI
Priority to CN201110330419XA priority Critical patent/CN102394922A/zh
Publication of CN102394922A publication Critical patent/CN102394922A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种分布式集群文件系统及文件访问方法,包括:复数个引擎单元,用于提供文件系统的逻辑功能,复数个存储单元,用于存储文件;所述引擎单元通过直连或交换网络与所述存储单元全互联,任一引擎单元连接所有存储单元的双控端口。由于采用了本发明的一种分布式集群文件系统及文件访问方法,实现了任何一个引擎单元都能够访问到任何一个存储单元,任何引擎单元故障后,都可以把该单元负责任务转移到其他任何引擎单元上,具有可靠性强、资源利用率高、响应速度快、成本低的优点。

Description

分布式集群文件系统及文件访问方法
技术领域
本发明涉及一种文件系统及文件访问方法,尤指一种分布式集群文件系统及文件访问方法。
背景技术
随着非结构化数据的海量增长,越来越多的企业面临数据管理的难题。现有文件系统,不能从任何一个引擎单元访问任何一个存储单元;不支持文件内的细粒度的全局锁,不可并发读写,访问性能低,容易出现存储负荷热点问题。另外,如果某一引擎单元出现故障,该引擎单元对应的存储空间就得不到利用,资源利用率低。
发明内容
本发明的目的在于克服现有技术的缺陷,而提供一种分布式集群文件系统及文件访问方法,实现了任何一个引擎单元都能够访问到任何一个存储单元,任何引擎单元故障后,都可以把该单元负责任务转移到其他任何引擎单元上,具有可靠性强、资源利用率高、响应速度快、成本低的优点。
实现上述目的的技术方案是:
本发明的一种分布式集群文件系统,包括:
复数个引擎单元,用于提供文件系统的逻辑功能,
复数个存储单元,用于存储文件;
所述引擎单元通过直连或交换网络与所述存储单元全互联,任一引擎单元连接所有存储单元的双控端口。
上述引擎单元之间全互联且通过双信道通信,
上引擎单元之间采用低延迟运输协议和组成员服务原子广播协议通信,且在所述低延迟运输协议与组成员服务原子广播协议基础上构建集群锁。
上述文件系统的逻辑功能分为复数个类型,所述每个引擎单元负责不同类型的逻辑功能。
当一上述引擎单元故障后,该引擎单元的逻辑功能任务转移给其他正常引擎单元。
上述存储单元对所述任一引擎单元提供同一卷设备名称。
本发明的一种文件访问方法,包括步骤:
一或复数个引擎单元对一目标文件的一或复数个区域发出读写请求;
判断所述区域是否存在先前读写请求;
若一区域不存在先前读写请求,允许最先对所述区域发出读写请求的一引擎单元访问;
否则,通知所有对所述区域发出读写请求的引擎单元等待,并在先前读写操作完成后,通知所有对所述区域发出读写请求的引擎单元。
当一上述引擎单元故障后,所述引擎单元的逻辑功能任务转移给其他正常引擎单元。
本发明由于采用了以上技术方案,使其具有以下有益效果是:
引擎单元与每一存储单元的两控制端口通信连接,实现引擎单元与存储单元的全互联;从任何一个引擎单元都能够访问到任何一个存储单元,从而保证数据通道的畅通无阻,并且提供冗余路径实现高可靠性。引擎单元之间通过双信道通信,并采用低延迟运输协议和组成员服务原子广播协议,保证了数据处理的一致性,且提供了备用链路,即使一条链路故障时,也能保证通信链路的可靠性。当一上述引擎单元故障后,该引擎单元的逻辑功能任务转移给其他正常引擎单元,实现对称式的元数据处理,元数据处理的负载均衡,提高元数据处理的效率。引擎单元采用群集锁技术,保证了不同引擎单元访问相同文件系统相同文件并发访问的一致性,存储单元对所述引擎单元提供同一卷设备名称。实现了全局的存储空间管理,保证了块设备访问的一致性。本发明实现了任何一个引擎单元都能够访问到任何一个存储单元,任何引擎单元故障后,都可以把该单元负责任务转移到其他任何引擎单元上,具有可靠性强、资源利用率高、响应速度快、成本低的优点。
附图说明
图1为本发明分布式集群文件系统的结构示意图;
图2为本发明分布式集群文件系统的引擎单元通信结构示意图;
图3为本发明分布式集群文件系统实施例的结构示意图;
图4为本发明分布式集群文件系统实施例的的引擎单元通信结构示意图;
图5为本发明分布式集群文件系统的引擎单元逻辑功能处理原理图;
图6为本发明分布式集群文件系统的多引擎单元并发访问原理图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
请参阅图1,本发明的一种分布式集群文件系统,包括:
本发明的一种分布式集群文件系统,包括:
复数个引擎单元1,用于提供文件系统的逻辑功能,
复数个存储单元2,用于存储文件;
引擎单元1通过直连或交换网络与存储单元2全互联,任一引擎单元1连接所有存储单元2的双控端口21。从任何一个引擎单元1都能够访问到任何一个存储单元2,从而保证数据通道的畅通无阻,并且提供冗余路径实现高可靠性。存储单元2对引擎单元1提供同一卷设备名称。
文件系统形成全局名字空间,系统的每个引擎单元1都能够读写相同的文件,实现引擎单元1之间的并发访问,复数个引擎单元1可以并发访问同一个文件。同时根据元数据的分类、分片,让每个引擎单元1都能参与元数据的处理,减少引擎单元1之间转发数据请求的通信量,实现负载均衡,从而系统处理的并发性能。
请参阅图3,引擎单元1可通过一冗余交换机连接到存储单元2,每个存储单元2也分别连接到冗余交换机,从而形成全冗余的组网,提高了系统的可靠性。
请参阅图2,引擎单元1之间需要相互通信,采用全互联且通过双信道通信,冗余互联,保证通信通道的高效可靠。每个引擎单元1提供两条链路到另外一个引擎单元1,从而即使一条链路故障时,也能保证通信链路的可靠性。
请参阅图4,多个引擎单元1可分别连接到两个交换机上,形成两个独立的通信网,从而提供了冗余通信平面,保证了系统的可靠性。
引擎单元1之间采用低延迟运输协议和组成员服务原子广播协议通信,以保证数据处理的一致性,且在低延迟运输协议(LLT:Low LatencyTransport)与组成员服务原子广播协议(GLM:Global lock manager)基础上构建集群锁(GLM:Global lock manager),该通信层直接构建在以太网二层协议上,而不是TCP/IP层上。考虑到集群通信主要传送的锁信息,通常帧都比较小,而TCP/IP包会带来额外的大帧头开销;同时集群通信主要在私有网络内传递,对TCP/IP在广域网的超时重传、滑动窗口没有太多需求。所以,LLT针对集群锁通信需求,直接利用以太网帧传送包,从而达到提高利用率的目的,并且设计自己的流量控制、超时重传、以及重复帧处理,实现高效传输。
同时,针对集群多引擎单元1通信的原子要求,设计了GAB模块,它保证通信的原子性;也就是说,保证在集群多引擎单元1中,消息要么被所有引擎单元1受到并确认,要么所有引擎单元1都丢弃该消息,从而不会出现部分确认消息、部分丢弃消息的中间状态。
请参阅图5,系统将元数据分为不同的类型,比如:超级块、日志区、分配单元(AU,Allocation Unit)、索引节点(INODE)。这些元数据具有不同的属性,分别对不同的数据管理负责,比如,超级块对整个集群文件系统的数据负责,而索引节点则是针对单独的文件负责。
文件系统的逻辑功能分为复数个类型,每个引擎单元1负责不同类型的逻辑功能。如一第一引擎单元11负责超级块的更新修改,其他引擎单元1需要对超级块进行更新修改都把请求发送给第一引擎单元11。又如:一第二引擎单元12负责文件F1的索引元数据更新修改,其他引擎单元需要操作F1文件都需要把请求发送给第二引擎单元。
同时,当一引擎单元1故障后,该引擎单元1的逻辑功能任务转移给其他正常引擎单元1。从而实现对称式的数据处理,实现数据处理的负载均衡,提高元数据处理的效率。
请参阅图6,除此之外,系统还提供全局锁机制,保证不同引擎单元1访问相同存储单元2相同文件并发访问的一致性,通过细粒度的锁设计,保证系统的并发性。通过此机制,实现了集群多引擎单元1范围内的一致性处理;同时,通过细粒度的区域所设计,保证高并发。
可以通过以下步骤对文件进行访问:
首先,一或复数个引擎单元1对一目标文件的一或复数个区域发出读写请求;
然后,判断区域是否存在先前读写请求;
若一区域不存在先前读写请求,允许最先对该区域发出读写请求的一引擎单元1访问;
否则,通知所有对区域发出读写请求的引擎单元1等待,并在先前读写操作完成后,通知所有对该区域发出读写请求的引擎单元1。
当一引擎单元故障1后,该引擎单元1的逻辑功能任务转移给其他正常引擎单元1。
文件允许复数个引擎单元1同时访问,实现了集群多引擎单元1范围内的一致性处理;同时,通过细粒度的区域设计,保证高并发。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims (8)

1.一种分布式集群文件系统,其特征在于,包括:
复数个引擎单元,用于提供文件系统的逻辑功能,
复数个存储单元,用于存储文件;
所述引擎单元通过直连或交换网络与所述存储单元全互联,任一引擎单元连接所有存储单元的双控端口。
2.根据权利要求1所述的分布式集群存储系统,其特征在于,所述引擎单元之间全互联且通过双信道通信。
3.根据权利要求2所述的分布式集群存储系统,其特征在于,所述引擎单元之间采用低延迟运输协议和组成员服务原子广播协议通信,且在所述低延迟运输协议与组成员服务原子广播协议基础上构建集群锁。
4.根据权利要求1或3所述的分布式集群存储系统,其特征在于,所述文件系统的逻辑功能分为复数个类型,所述每个引擎单元负责不同类型的逻辑功能。
5.根据权利要求4所述的分布式集群存储系统,其特征在于,当一所述引擎单元故障后,该引擎单元的逻辑功能任务转移给其他正常引擎单元。
6.根据权利要求5所述的分布式集群存储系统,其特征在于,所述存储单元对所述任一引擎单元提供同一卷设备名称。
7.基于权利要求6所述系统的一种文件访问方法,其特征在于,包括步骤:
一或复数个引擎单元对一目标文件的一或复数个区域发出读写请求;
判断所述区域是否存在先前读写请求;
若一区域不存在先前读写请求,允许最先对所述区域发出读写请求的一引擎单元访问;
否则,通知所有对所述区域发出读写请求的引擎单元等待,并在先前读写操作完成后,通知所有对所述区域发出读写请求的引擎单元。
8.根据权利要求7所述的文件访问方法,其特征在于,当一所述引擎单元故障后,所述引擎单元的逻辑功能任务转移给其他正常引擎单元。 
CN201110330419XA 2011-10-27 2011-10-27 分布式集群文件系统及文件访问方法 Pending CN102394922A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110330419XA CN102394922A (zh) 2011-10-27 2011-10-27 分布式集群文件系统及文件访问方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110330419XA CN102394922A (zh) 2011-10-27 2011-10-27 分布式集群文件系统及文件访问方法

Publications (1)

Publication Number Publication Date
CN102394922A true CN102394922A (zh) 2012-03-28

Family

ID=45862126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110330419XA Pending CN102394922A (zh) 2011-10-27 2011-10-27 分布式集群文件系统及文件访问方法

Country Status (1)

Country Link
CN (1) CN102394922A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103019889A (zh) * 2012-12-21 2013-04-03 曙光信息产业(北京)有限公司 分布式文件系统及其故障处理方法
CN104092719A (zh) * 2013-12-17 2014-10-08 深圳市腾讯计算机系统有限公司 文件传输方法、装置及分布式集群文件系统
CN106055276A (zh) * 2016-05-25 2016-10-26 极道科技(北京)有限公司 一种非集中式集群存储系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101552799A (zh) * 2008-04-04 2009-10-07 华为技术有限公司 媒体节点容错方法和装置
CN101960427A (zh) * 2007-12-26 2011-01-26 斯曼泰克公司 分布式资源管理的平衡一致性散列
CN102169507A (zh) * 2011-05-26 2011-08-31 厦门雅迅网络股份有限公司 一种分布式实时搜索引擎

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101960427A (zh) * 2007-12-26 2011-01-26 斯曼泰克公司 分布式资源管理的平衡一致性散列
CN101552799A (zh) * 2008-04-04 2009-10-07 华为技术有限公司 媒体节点容错方法和装置
CN102169507A (zh) * 2011-05-26 2011-08-31 厦门雅迅网络股份有限公司 一种分布式实时搜索引擎

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103019889A (zh) * 2012-12-21 2013-04-03 曙光信息产业(北京)有限公司 分布式文件系统及其故障处理方法
CN104092719A (zh) * 2013-12-17 2014-10-08 深圳市腾讯计算机系统有限公司 文件传输方法、装置及分布式集群文件系统
CN104092719B (zh) * 2013-12-17 2015-10-07 深圳市腾讯计算机系统有限公司 文件传输方法、装置及分布式集群文件系统
US9917884B2 (en) 2013-12-17 2018-03-13 Tencent Technology (Shenzhen) Company Limited File transmission method, apparatus, and distributed cluster file system
CN106055276A (zh) * 2016-05-25 2016-10-26 极道科技(北京)有限公司 一种非集中式集群存储系统

Similar Documents

Publication Publication Date Title
Yu et al. Cost efficient design of survivable virtual infrastructure to recover from facility node failures
CN101420380B (zh) 一种双层双环型片上系统
CN102326159B (zh) 存储器网络方法、设备及系统
CN102325196A (zh) 分布式集群存储系统
CN102868604B (zh) 一种应用于片上网络的二维Mesh双缓冲容错路由单元
CN101449253B (zh) 多处理器网关
CN102035688B (zh) 一种快速控制网络链路访问设计方法
CN103078927A (zh) 一种key-value数据分布式缓存系统及其方法
CN110336855B (zh) 一种医疗云数据系统
CN102387075A (zh) 面向企业服务总线的动态服务路由方法及装置
WO2016107512A1 (zh) 胖树网络中的组播组建立方法、装置及胖树网络
CN102411639A (zh) 元数据的多副本存储管理方法和系统
CN109660462B (zh) 车辆异构互连网络中的信息自适应传输方法
CN106888116B (zh) 一种双控制器集群共享资源的调度方法
CN101834789A (zh) 面向包-电路交换片上路由器的回退转向路由算法及所用路由器
CN113392065A (zh) 异构计算系统及计算方法
CN102394922A (zh) 分布式集群文件系统及文件访问方法
US10033666B2 (en) Techniques for virtual Ethernet switching of a multi-node fabric
CN108768754B (zh) 一种基于总线网络的高可靠容错系统
CN106844052A (zh) 一种基于Windows Server构建融合集群的方法及装置
CN102541693A (zh) 数据的多副本存储管理方法和系统
CN102932250A (zh) 一种基于容错计算机网络结构的无死锁自适应路由方法
CN102394829A (zh) 片上互连网络中基于可靠性需求的仲裁方法
CN103186501A (zh) 一种多处理器共享存储方法及系统
US6961788B2 (en) Disk control device and control method therefor

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120328