CN1447254A - 海量网络存储器设备及其实现方法 - Google Patents

海量网络存储器设备及其实现方法 Download PDF

Info

Publication number
CN1447254A
CN1447254A CN 03109133 CN03109133A CN1447254A CN 1447254 A CN1447254 A CN 1447254A CN 03109133 CN03109133 CN 03109133 CN 03109133 A CN03109133 A CN 03109133A CN 1447254 A CN1447254 A CN 1447254A
Authority
CN
China
Prior art keywords
scsi
node
interface card
myrinet
disk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 03109133
Other languages
English (en)
Other versions
CN100336050C (zh
Inventor
舒继武
郑纬民
付长冬
胡长军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CNB031091334A priority Critical patent/CN100336050C/zh
Publication of CN1447254A publication Critical patent/CN1447254A/zh
Application granted granted Critical
Publication of CN100336050C publication Critical patent/CN100336050C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Power Sources (AREA)

Abstract

海量网络存储器设备及其实现方法属于计算机存储系统结构领域,其特征在于:它是一种采用开放的标准化的、商业化的硬件实现的高性能价格比的多计算机体系机结构;它含有:作为控制中心的主机节点,作数据存储、光纤通道协议处理用的I/O处理节点,基于高速互连用的Myrinet互联网络,高密度磁盘阵列;它们彼此之间通过Myrinet的互联高性能网络通信,相互发送存储请求并做对应的处理。相应地,为商业化的光纤通道HBA开发了目标器模式的固件和驱动程序,以实现光纤通道之间的客户/服务器关系,并实现基于软件的按照完整SCSI协议实现的处理SCSI命令和消息的SCSI目标模拟器。它是一种高性能价格比、高扩展性的多计算机体系结构,可以很好地兼容所有厂商的海量网络存储器通信设备。

Description

海量网络存储器设备及其实现方法
技术领域
海量网络存储器设备及其实现方法属于计算机存储系统结构领域。
背景技术
存储区域网络(SAN)中的SAN存储设备,目前国内外厂商基本采用光纤通道阵列控制器的方式实现,光纤通道阵列控制器是一个集成光纤通道芯片、廉价冗余磁盘阵列(RAID)芯片、小型计算机系统接口(SCSI)或光纤通道接口芯片以及嵌入式CPU、内存的单板计算机(SBC);它通过光纤通道接口和光纤交换机、集线器(HUB)连接,连接到SAN中;后端通过SCSI接口或光纤通道接口连接SCSI硬盘或光纤通道硬盘(采用FC-AL接口);一般地,光纤通道阵列控制器提供自己的固件(Firmware),负责光纤通道的连接、RAID盘设置等功能。并提供各种应用程编程接口(API)或代理软件。基于阵列控制器(Controller)方式实现的SAN存储设备存在着可扩展性差、兼容性差、不开放、价格昂贵等缺点。
因此我们提出了一个新的实现SAN存储设备的方法,它采用基于开放的、标准化的、商业化硬件实现一个高性能的海量网络存储器设备,海量网络存储器设备是一个高容量、高可扩展性的SAN存储设备。我们主要实现目的包括:(1)具有较高的性能价格比;(2)具有较高的可扩展性;(3)具有很好的开放性,兼容性;(4)较高的系统性能。以满足将来的用户需求。
发明内容
本发明的目的在于提供一种全部采用开放的、标准化的商业化硬件实现的新的海量网络存储系统设备及其实现方法。
本发明提出的海量网络存储器设备的特征在于:
(1)它是一种采用开放的标准化的、商业化的硬件实现的高性能价格比的多计算机体系机结构的设备,它含有:
主机节点:商业化的商用PC机,连接有标准的外部设备。它含有:标准的PCI总线、小型微型计算机系统接口卡(SCSI接口卡)、标准的以太网接口卡(HBA)、高速互连用的Myrinet接口卡及硬盘。
I/O处理节点(INODE):每个I/O处理节点是一个独立的数据处理单元(DHU),它含有:基于PCI且支持SMP CPU的商业服务器主板;光纤通道接口卡(光纤通道HBA);SCSI接口卡;装有嵌入式操作系统的闪存磁盘(Flash Disk);Myrinet接口卡;512M内存;2-4个INTEL XEON处理器,用于处理光纤通道协议(FCP)和I/O子系统;
基于Myrinet的互联网络:是I/O处理节点与主机节点相互连接的系统互连部件,它通过各Myrinet接口卡分别与每个I/O节点和主机节点相连,其中每个I/O节点之间是对等关系,而主机节点和I/O节点是客户/服务器(C/S)关系。
高密度磁盘阵列:每个I/O节点采用标准的SCSI接口卡直接连接商业化的磁盘阵列;
电源子系统:采用N+1方式的商业化电源,负责向上述各部件供电。
(2)它最大可以支持1-18个I/O处理节点。
(3)所述每个I/O节点最大可连接8个磁盘阵列。
(4)所述的每个I/O节点含有2-3个商用的SCSI接口卡,2个商用的光纤通道HBA。
(5)它在系统构架上采用机架结构,把系统控制和数据存储这两部分相分离。
本发明提出的海量网络存储器设备的实现方法,其特征在于:它依次含有如下步骤:
(1)开启电源启动系统;
(2)I/O节点商用主板的基本输入输出系统(BIOS)启动装载闪盘(FLASH DISK)中的嵌入式操作系统;
(3)嵌入式操作系统初始化;
(4)加载光纤通道协议(FCP)目标模式驱动程序、小型微型计算机接口(SCSI)目标模拟器、SCSI驱动程序、Myrinet接口卡驱动程序;
(5)FCP目标模式驱动程序等待服务器发送SCSI命令;
(6)FCP目标模式驱动程序从固件的请求队列中取出I/O控制块处理;
(7)FCP目标模式驱动程序将I/O控制块转发给SCSI目标模拟器;
(8)SCSI目标模拟器从I/O控制块中得到SCSI命令;
(9)SCSI目标模拟器驱动SCSI子系统执行SCSI命令并取得结果;
(10)SCSI目标模拟器将结果通过FCP目标模式驱动程序返回服务器;
(11)返回步骤(5)再按步骤(5)--(10)处理。
实验证明:该海量网络存储器设备完全采用商业化的硬件具有高容量、高扩展性、高兼容、高性能价格比的特点,能满足网络存储系统各种功能和性能的需求,有很强的实用性,很好的经济性。
附图说明
图1.海量网络设备器设备的电路原理框图。
图2.海量网络设备器设备的实现方法的程序流程图。
图3.I/O处理节点的系统结构框图。
图4.海量网络设备器设备的机架结构框图。
图5.海量网络设备器设备的软件结构图。
具体实施方式
图1中含有以下各部件:
(1)主机节点(HNODE)
(2)I/O处理节点(INODE)
(3)高密度磁盘阵列(HARRAY)
(4)基于Myrinet的互联网络(MIN)
(5)电源子系统
主机节点(HNODE):是海量网络存储器设备的控制中心。它不参与数据传输、存储服务,但它实现对系统进行环境检测管理、对I/O处理节点的活动情况进行监视等功能。主机节点还是整个系统的高性能备份引擎,支持磁带在线备份功能。主机节点的硬件子系统包括INTEL CPU、标准的PCI总线、SCSI接口卡、标准的以太网接口卡(HBA)、Myrinet接口卡、硬盘。主机节点可以运行WINDOWS 2000等多种操作系统和WEB服务器软件系统。
I/O处理节点(INODE):是构成海量网络存储器设备最基本的、最重要的部分。每个海量网络存储器设备最大可以支持1-18个I/O处理节点,I/O处理节点的主要功能是数据存储、光纤通道协议处理、SCSI协议处理。每个I/O处理节点是一个独立的数据处理单元(DHU)。I/O处理节点由2-4个INTEL XEON处理器,512M内存、基于PCI总线的主板、Myrinet接口卡、FLASH DISK、光纤通道接口卡、SCSI接口卡组成。因为采用标准的PCI总线,可以自由的选择市场上的光纤通道接口卡、SCSI接口卡。I/O节点的不同处理器的功能不同,其中之一专门处理光纤通道协议(FCP),其中之一专门处理I/O子系统。每个I/O节点具有较高的系统性能,请见图3。
基于Myrinet的互联网络:是I/O处理节点与主机节点相互连接的系统互联部件,基于Myrinet的互联网络取代了传统设计中的高速背板。该方式具有经济、可靠等优点。每个I/O节点和主机节点通过Myrinet接口卡连接到Myrinet网络上,每个I/O节点之间完全是对等的关系,相互发送存储请求并处理。而主机节点和I/O节点在管理上是客户/服务器的关系,主机节点上运行管理软件发送管理命令,I/O节点上运行代理软件接受管理命令进行处理,
高密度磁盘阵列:每个I/O节点采用标准的SCSI卡直接连接目前商用的磁盘阵列,每个I/O节点最大可以连接8个磁盘阵列。假如每个商业化的磁盘阵列采用73G的硬盘,最多为16个硬盘,则海量网络存储器最大支持73*16*8*18大约为150TB左右的海量存储容量。
电源子系统:采用N+1方式的商业化电源。
海量网络存储器设备在系统架构上采用机架结构,将系统控制和数据存储部分相分离。如图4所示:虚线表示通过Myrinet网络连接,实线表示通过SCSI总线连接。
主机节点采用商用PC机如联想天瑞3130。I/O处理节点的硬件结构见图3:
每个I/O节点的主板采用商用的服务器主板,如Supermicro(超微)公司X5DA8、X5DAE主板,所有的CPU采用INTEL公司XEON系列CPU。每个I/O节点包括2个商用的光纤通道HBA,如QLOGIC公司的QLA2310F系列,它们之间可以实现容错备份或者捆绑功能。每个I/O节点包括2-3个商用的SCSI接口卡,如ADAPTEC公司的7XXX系列接口卡,他们连接高密度的磁盘阵列子系统如ISD PinnacleRAID 500。电源子系统采用目前标准的、商用的N+1方式电源如山特公司的3C3系列,FLASH DISK负责存储各种软件,如M-SYSTEMS公司的DOC2000系列。Myrinet接口卡采用Myricom公司的LANai9系列接口卡。内存系统采用SAMSUNG公司的SDRAM内存。
从图4可见,不同类型的软件在机架中是分开放置的。
再见图2及图5,I/O处理节点的光纤通道HBA采用目标器模式的固件和驱动程序,其中,SCSI目标模拟器是一个基于软件的可动态调整性能的SCSI命令和任务处理模块。图5中的应用程序指各种应用系统程序,如WEB服务器软件。
因为我们采用商业化的光纤通道HBA(接口卡),而光纤通道接口卡的固件和驱动程序是启动器模式,两个光纤通道接口只能是完全对等的点对点关系,而不是客户/服务器关系,他们直接无法传输SCSI协议,因此无法组成SAN存储系统。我们提出了一个新的解决方法:为商业化的光纤通道HBA开发目标器模式的固件和驱动程序,实现光纤通道HBA之间的客户/服务器关系。基于商业化光纤通道HBA实现目标器模式的光纤通道驱动程序,是实现海量网络存储器设备的关键。采用商业化的硬件部件实现SAN存储设备(海量网络存储器设备)必须实现目标器模式的FCP驱动程序。
SCSI目标模拟器是一个基于软件的按照完整SCSI协议实现的处理SCSI命令和消息的核心层驱动程序,它模拟实现了SCSI DISK固件的功能。因为硬件系统直接采用了商业化的SCSI接口卡(HBA),通过它连接SCSI磁盘阵列,因此直接采用启动器模式的SCSI子系统处理各种SCSI命令和任务请求。
多个I/O处理节点之间通过Myrinet网络连接起来,他们之间是点对点、完全对等的关系的关系,我们采用基于共享DISK机制的集群软件实现单点系统映象的海量网络存储器设备。他们彼此之间通过基于MYRINET的互联高性能网络通信,相互发送存储请求并做对应的处理。
本发明具有如下优点:
1、高性能价格比、高扩展性的多计算机体系结构。考虑到系统的高可扩展性、高可靠性、高性能价格比,高兼容性等要求,我们在硬件系统上完全采用目前流行的商业化部件。整个硬件系统由多个I/O节点和一个管理节点组成。多个I/O节点采用高速I/O路径连接,如Myrinet,SCI等,组成多计算机系统。每个I/O节点的主板采用支持SMP CPU的服务器主板,通过光纤通道HBA连接到SAN存储网络。通过SCSI HBA连接多个SCSI磁盘阵列。这样海量存储器系统具有高度的可扩展性,具有很好的性能价格比。这是通常的嵌入式阵列控制器方式实现的SAN存储设备无法比拟的。
2、根据海量网络存储器设备的硬件体系结构,我们专门设计了一个适合硬件体系结构的软件系统,包括目标器模式的FCP驱动程序、SCSI目标模拟器等子系统。他们能够和硬件很好的结合实现网络存储系统的功能。
3、专用的高性能嵌入式操作系统,我们在LINUX操作系统基础上专门实现了一个适合SAN存储阵列的实时嵌入式操作系统,在启动退出、实时调度、小文件系统(MINIROOTFS)以及I/O子系统方面做了许多改进和调整,提高海量网络存储系统设备的处理能力和可靠性。
4、我们采用商业化、标准化的2Gb光纤通道接口卡作为连接SAN存储网络的接口,可以很好地兼容所有厂商的SAN通信设备。我们实现的光纤通道协议驱动程序支持光纤通道-2、光纤通道-3、光纤通道-4等标准,而且支持启动器/目标器两种模式,因此可以很好地和其他厂商的光纤通道接口卡通信,具有很好的兼容性。另外,还可以很好的实现多个光纤通道接口卡的带宽捆绑(BIND)、失败恢复(FAILOVER)等功能,可以有效地扩展通信带宽和提高系统的可靠性。
TH-MNSM是一个新的实现SAN网络存储系统的方法,它完全采用商业化的硬件,通过适应性的软件系统体系结构和功能模块能够满足网络存储系统各种功能和性能上的需求。基于TH-MNSM方法实现的SAN存储设备具有高容量、高扩展性、高兼容性、高性能价格比等优点,是一个非常适合工业生产和推广的方法。具有很好的经济价值。

Claims (6)

1、海量网络存储器设备,其特征在于,它是一种采用开放的标准化的、商业化的硬件实现高性能价格比的多计算机体系机结构,它含有:
主机节点:商业化的商用PC机,连接有标准的外部设备。它含有:标准的PCI总线、小型微型计算机系统接口卡(SCSI接口卡)、标准的以太网接口卡(HBA)、高速互连用的Myrinet接口卡及硬盘。
I/O处理节点(INODE):每个I/O处理节点是一个独立的数据处理单元(DHU),它含有:基于PCI且支持SMP CPU的商业服务器主板、光纤通道接口卡(光纤通道HBA)、SCSI接口卡;装有嵌入式操作系统的闪存磁盘(Flash Disk)、Myrinet接口卡、512M内存、2-4个INTEL XEON处理器,用于处理光纤通道协议(FCP)和I/O子系统。
基于Myrinet的互联网络:是I/O处理节点与主机节点相互连接的系统互连部件,它通过各Myrinet接口卡分别与每个I/O节点和主机节点相连,其中每个I/O节点之间是对等关系,而主机节点和I/O节点是客户/服务器(C/S)关系。
高密度磁盘阵列:每个I/O节点采用标准的SCSI接口卡直接连接商业化的磁盘阵列。
电源子系统:采用N+1方式的商业化电源,负责向上述各部件供电。
2、根据权利要求1所述的海量网络存储器设备,其特征在于:它最大可以支持1-18个I/O处理节点。
3、根据权利要求1所述的海量网络存储器设备,其特征在于:所述每个I/O节点最大可连接8个磁盘阵列。
4、根据权利要求1所述的海量网络存储器设备,其特征在于:所述的每个I/O节点含有2-3个商用的SCSI接口卡,2个商用的光纤通道HBA。
5、根据权利要求1所述的海量网络存储器设备,其特征在于:它在系统构架上采用机架结构,把系统控制和数据存储这两部分相分离。
6、根据权利要求1所述的海量网络存储器设备而设计的实现方法,其特征在于,它依次含有如下步骤:
(1)开启电源启动系统;
(2)I/O节点商用主板的基本输入输出系统(BIOS)启动装载闪盘(FLASH DISK)中
   的嵌入式操作系统;
(3)嵌入式操作系统初始化;
(4)加载光纤通道协议(FCP)目标模式驱动程序、小型微型计算机接口(SCSI)目标
   模拟器、SCSI驱动程序、Myrinet接口卡驱动程序;
(5)FCP目标模式驱动程序等待服务器发送SCSI命令;
(6)FCP目标模式驱动程序从固件的请求队列中取出I/O控制块处理;
(7)FCP目标模式驱动程序将I/O控制块转发给SCSI目标模拟器;
(8)SCSI目标模拟器从I/O控制块中得到SCSI命令;
(9)SCSI目标模拟器驱动SCSI子系统执行SCSI命令并取得结果;
(10)SCSI目标模拟器将结果通过FCP目标模式驱动程序返回服务器;
(11)返回步骤(5)再按步骤(5)--(10)处理。
CNB031091334A 2003-04-04 2003-04-04 海量网络存储器设备及其实现方法 Expired - Fee Related CN100336050C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB031091334A CN100336050C (zh) 2003-04-04 2003-04-04 海量网络存储器设备及其实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB031091334A CN100336050C (zh) 2003-04-04 2003-04-04 海量网络存储器设备及其实现方法

Publications (2)

Publication Number Publication Date
CN1447254A true CN1447254A (zh) 2003-10-08
CN100336050C CN100336050C (zh) 2007-09-05

Family

ID=28050248

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031091334A Expired - Fee Related CN100336050C (zh) 2003-04-04 2003-04-04 海量网络存储器设备及其实现方法

Country Status (1)

Country Link
CN (1) CN100336050C (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1323346C (zh) * 2004-04-14 2007-06-27 株式会社日立制作所 存储系统
CN100345100C (zh) * 2004-11-22 2007-10-24 国际商业机器公司 设置信息存储和提取系统内交换域的信号率的装置和方法
WO2007118371A1 (fr) * 2006-04-19 2007-10-25 Hangzhou H3C Technologies Co., Ltd. Procédé d'accès à un disque, et système et matrice de disques permettant d'étendre la capacité du disque
CN100347655C (zh) * 2004-11-30 2007-11-07 富士通株式会社 数据存储系统和数据存储控制装置
CN100437459C (zh) * 2005-11-28 2008-11-26 富士通株式会社 数据存储系统和数据存储控制装置
CN100442780C (zh) * 2006-01-27 2008-12-10 杭州华三通信技术有限公司 iSCSI存储网络、磁盘阵列及其容量扩展方法
CN100451976C (zh) * 2007-07-23 2009-01-14 清华大学 基于海量数据分级存储系统的迁移管理方法
WO2009067855A1 (fr) * 2007-11-01 2009-06-04 Boan Liu Procédé de mise en œuvre d'un système informatique ou d'un réseau local
CN100556036C (zh) * 2004-04-21 2009-10-28 国际商业机器公司 执行数据传送请求的方法、系统和程序
CN105515898A (zh) * 2015-12-03 2016-04-20 浪潮(北京)电子信息产业有限公司 一种针对网络存储系统性能的测试方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5476199A (en) * 1998-08-12 2000-03-06 Sc-Wireless, Inc. Method and apparatus for network control in communications networks
CN1276372C (zh) * 2000-09-29 2006-09-20 艾拉克瑞技术公司 智能网络存储接口系统和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1323346C (zh) * 2004-04-14 2007-06-27 株式会社日立制作所 存储系统
CN100556036C (zh) * 2004-04-21 2009-10-28 国际商业机器公司 执行数据传送请求的方法、系统和程序
CN100345100C (zh) * 2004-11-22 2007-10-24 国际商业机器公司 设置信息存储和提取系统内交换域的信号率的装置和方法
CN100347655C (zh) * 2004-11-30 2007-11-07 富士通株式会社 数据存储系统和数据存储控制装置
CN100437459C (zh) * 2005-11-28 2008-11-26 富士通株式会社 数据存储系统和数据存储控制装置
CN100442780C (zh) * 2006-01-27 2008-12-10 杭州华三通信技术有限公司 iSCSI存储网络、磁盘阵列及其容量扩展方法
WO2007118371A1 (fr) * 2006-04-19 2007-10-25 Hangzhou H3C Technologies Co., Ltd. Procédé d'accès à un disque, et système et matrice de disques permettant d'étendre la capacité du disque
US8041890B2 (en) 2006-04-19 2011-10-18 Hangzhou H3C Technologies Co., Ltd. Method for accessing target disk, system for expanding disk capacity and disk array
CN100451976C (zh) * 2007-07-23 2009-01-14 清华大学 基于海量数据分级存储系统的迁移管理方法
WO2009067855A1 (fr) * 2007-11-01 2009-06-04 Boan Liu Procédé de mise en œuvre d'un système informatique ou d'un réseau local
CN105515898A (zh) * 2015-12-03 2016-04-20 浪潮(北京)电子信息产业有限公司 一种针对网络存储系统性能的测试方法及系统

Also Published As

Publication number Publication date
CN100336050C (zh) 2007-09-05

Similar Documents

Publication Publication Date Title
US6658478B1 (en) Data storage system
US8990367B2 (en) Consistent binding of shared storage across clustered servers
US7953899B1 (en) Universal diagnostic hardware space access system for firmware
US9304704B2 (en) Communication with two or more storage devices via one SAS communication port
US20070192475A1 (en) Integrated storage appliance
CN1723434A (zh) 用于可扩展网络附接存储系统的装置和方法
US20080276032A1 (en) Arrangements which write same data as data stored in a first cache memory module, to a second cache memory module
CN1520564A (zh) 镜像网络数据以建立虚拟存储区域网络
JP2003022246A (ja) ダイレクトアクセスストレージシステム
CN1945537A (zh) 基于存储区域网络的高速固态存储设备的实现方法
JP2008140387A (ja) クラスタ化されたストレージネットワーク
US20170220506A1 (en) Modular Software Defined Storage Technology
WO2006097037A1 (fr) Systeme tampon de stockage en reseau expansible haut debit
CN1447254A (zh) 海量网络存储器设备及其实现方法
Barry et al. Implementing journaling in a linux shared disk file system
WO2023000770A1 (zh) 一种处理访问请求的方法、装置、存储设备及存储介质
CN101031896A (zh) 低成本灵活网络访问存储体系结构
US20240160592A1 (en) Memory disaggregation and reallocation
US20050210084A1 (en) Systems and methods for transparent movement of file services in a clustered environment
CN1158617C (zh) 一种本地无操作系统的网络计算机
CN100471112C (zh) 内存-网络内存-磁盘高速可靠存储系统lnd的读写方法
US20050086427A1 (en) Systems and methods for storage filing
CN100351766C (zh) 一种磁盘阵列系统
CN1455334A (zh) 用普通scsi磁盘代替存储光纤网络中光纤磁盘的方法
US20040059850A1 (en) Modular server processing card system and method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070905

Termination date: 20110404