CN104965677B - 存储系统 - Google Patents

存储系统 Download PDF

Info

Publication number
CN104965677B
CN104965677B CN201510369477.1A CN201510369477A CN104965677B CN 104965677 B CN104965677 B CN 104965677B CN 201510369477 A CN201510369477 A CN 201510369477A CN 104965677 B CN104965677 B CN 104965677B
Authority
CN
China
Prior art keywords
pcie
disk
resource node
computing resource
ssd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510369477.1A
Other languages
English (en)
Other versions
CN104965677A (zh
Inventor
丁瑞全
陈国峰
张家军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510369477.1A priority Critical patent/CN104965677B/zh
Priority to PCT/CN2015/090005 priority patent/WO2016206198A1/zh
Publication of CN104965677A publication Critical patent/CN104965677A/zh
Application granted granted Critical
Publication of CN104965677B publication Critical patent/CN104965677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details

Abstract

本发明提出一种存储系统,该存储系统包括计算资源节点、存储资源节点和PCIe网络;其中,所述计算资源节点和所述存储资源节点分别连接到所述PCIe网络上,以及,所述PCIe网络、所述计算资源节点和所述存储资源节点在物理上均是分离设置的,且,都是可扩展的。该存储系统能够提高灵活性,提高存储资源的访问速度,并降低成本。进一步的,该存储系统还可以同时支持SAS、SATA和PCIe接口中至少一种接口的磁盘,并且,磁盘的存储媒介可以包括HDD和SSD,通过支持不同接口和不同存储媒介的磁盘,实现混合存储系统。另外,该存储系统可以通过动态或静态的配置为计算资源节点分配物理盘或逻辑盘,实现资源按需配置。

Description

存储系统
技术领域
本发明涉及存储技术领域,尤其涉及一种存储系统。
背景技术
不同的应用对存储资源的容量、带宽、每秒进行读写操作的次数(Input/outputPer Second,IOPS)及可靠性有不同的需求,这给存储系统的设计带来了挑战。目前的存储系统通常有以下几种实现方案:本地存储,磁盘阵列+全闪存阵列,混合磁盘阵列。其中,本地存储是在服务器本地配备存储资源,但是由于不同磁盘的尺寸、形态、接口各异,需要针对不同应用设计不同的存储系统,可扩展性差,无法池化共享。磁盘阵列+全闪存阵列以及混合磁盘阵列方案中,需要经过映射或抽象,并在前端以互联网协议(Internet Protocol,IP)存储区域网络(Storage Area Network,SAN)或者网状通道(Fibre Channel,FC)SAN形式对外提供存储资源,在灵活性、带宽及成本等方面都存在不足。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种存储系统,该系统可以提高灵活性,提高存储资源的访问速度,并降低成本。
为达到上述目的,本发明实施例提出的存储系统,包括:计算资源节点、存储资源节点和PCIe网络;其中,所述计算资源节点和所述存储资源节点在物理上分离设置,分别连接到所述PCIe网络上,以及,所述PCIe网络与所述计算资源节点和所述存储资源节点在物理上分离设置,且,所述计算资源节点,所述存储资源节点和所述PCIe网络都是可扩展的。
本发明实施例提出的存储系统,通过将计算资源节点和存储资源节点物理分离,二者通过独立设置的PCIe网络互联,且这些组成部分是可扩展的,可以提高灵活性;直接通过PCIe网络将存储资源节点分配给计算资源节点,可以提高存储资源的访问速度,并降低成本
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的存储系统的结构示意图;
图2是本发明实施例中一种PCIe网络的示意图;
图3是本发明实施例中另一种PCIe网络的示意图;
图4是本发明另一实施例提出的存储系统的结构示意图;
图5是本发明实施例中一种资源分配的示意图;
图6是本发明实施例中另一种资源分配的示意图;
图7是本发明实施例中另一种资源分配的示意图;
图8是本发明实施例中另一种资源分配的示意图;
图9是本发明实施例中另一种资源分配的示意图;
图10是本发明实施例中另一种资源分配的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的存储系统的结构示意图,该存储系统包括:
计算资源节点11、存储资源节点12和PCIe网络13;PCIe是PCI-express的简称,PCI是外设部件互连标准(Peripheral Component Interconnect,PCI)。
其中,所述计算资源节点11和所述存储资源节点12在物理上分离设置,分别连接到所述PCIe网络13上,以及,所述PCIe网络与所述计算资源节点和所述存储资源节点在物理上分离设置,且,所述计算资源节点,所述存储资源节点和所述PCIe网络都是可扩展的。
计算资源节点的个数可以是一个或者多个,存储资源节点的个数可以是一个或者多个。计算资源节点可以具体是PCIe主机(PCIe Host)。
传统的本地存储方案中,通常将将中央处理器(Central Processing Unit,CPU),机械硬盘(Hard Disk Drive,HDD),固态硬盘(Solid State Disk,SSD)等集中在单一的物理机箱中,其无法灵活扩展变更以满足不同的应用需求。
本实施例中,通过将计算资源节点和存储资源节点物理分离,二者通过PCIe网络互联,由于计算资源节点,存储资源节点,PCIe网络是相互独立且可扩展的,可以提高灵活性。
传统的磁盘阵列+全闪存阵列或者混合磁盘阵列,其后端连接SAS、SATA接口的HDD和SSD,以及PCIe接口的SSD,经过抽象后,对外提供逻辑磁盘的访问服务。前端接口一般为IP SAN或者FC SAN,出口带宽有限,不能充分发挥SSD的高性能。IP SAN网络延时较高,而FCSAN成本较高。
本实施例中,直接通过PCIe网络将存储资源节点分配给计算资源节点,中间没有额外的存储协议转换开销,且互联带宽非常高,可以降低网络延时,从而实现存储资源的高速访问,并且可以降低成本。另外,直接将存储资源暴露给计算资源,更易于与现有的分布式存储系统融合集成。计算资源节点可根据自身需求来灵活使用存储资源节点,更高效的利用存储资源。如将部分存储资源作为主存储资源,另外部分SSD作为缓存(cache),并可根据自身需求来定义cache策略,真正实现软件定义的存储系统。
另一实施例中,所述PCIe网络包括:
第一级PCIe交换机,所述第一级PCIe交换机包括:至少一个PCIe交换芯片和一个管理模块。
可选的,所述PCIe网络还包括:
至少一个的其他级PCIe交换机,所述其他级PCIe交换机包括:至少一个PCIe交换芯片;
所述其他级PCIe交换机与所述管理模块连接;以及,
所述其他级PCIe交换机内的PCIe交换芯片与所述第一级PCIe交换机内的PCIe交换芯片连接,和/或,不同的其他级PCIe交换机内的PCIe交换芯片互相连接。
本实施例,PCIe网络可由一级或多级PCIe交换机按照一定的拓扑关系连接组成。
例如,参见图2,第一级PCIe交换机可以称为PCIe TOR,PCIe TOR内可以包括多个PCIe交换芯片(用PCIeX表示)以及一个管理模块(用Mgmt CPU表示)。PCIeX具有PCIe交换能力,能够交换计算资源节点与存储资源节点之间传输的数据,Mgmt CPU负责PCIe网络的配置管理。
又例如,参见图3,PCIe网络中还可以包括多级PCIe交换机。在多级PCIe交换机场景下,PCIe网络内也仅存在一个Mgmt CPU。Mgmt CPU可以连接到不同级的PCIe交换机内的PCIe交换芯片上。
本实施例中,通过采用一级或多级PCIe交换机构建PCIe网络,可以根据业务的不同需求灵活构建不同的PCIe网络。
另一实施例中,所述存储资源节点包括:
磁盘,所述磁盘具有的接口包括如下项中的至少一项:串联连接SCSI(SerialAttached SCSI,SAS),串联增强技术连接(Serial Advanced Technology Attachment,SATA),PCIe;其中,SCSI是小型计算机系统接口(Small Computer System Interface)。
存储控制器,一端连接所述PCIe网络,另一端连接所述磁盘。
其中,当磁盘的接口是SAS或SATA时,磁盘的形态可以具体是机械硬盘(Hard DiskDrive,HDD)或固态硬盘(Solid State Disk,SSD),因此,磁盘可以包括:SAS HDD,SAS SSD,SATA HDD,SATA SSD。
当磁盘的接口是PCIe时,磁盘的形态具体是SSD,因此,磁盘还可以是PCIe SSD。
另外,根据磁盘的接口不同,存储控制器也可以是不同的。例如,当磁盘是SAS或SATA(简写为SAS/SATA)接口时,存储控制器是主机总线适配器(Host Bus Adapter,HBA)或者独立磁盘冗余阵列(Redundant Array of Independent Disks,RAID)卡,此时,存储控制器的上联端口(连接PCIe网络的端口)是PCIe端口,下联端口(连接磁盘的端口)包括SAS和/或SATA端口,可以同时支持SAS和SATA接口的磁盘;当磁盘是PCIe接口时,存储控制器是PCIe交换芯片(PCIe Switch),此时,存储控制器的上联端口是PCIe端口,下联端口也是PCIe端口。
可以理解的是,还可以存在一种存储控制器,该存储控制器的上联接口是PCIe端口,下联端口包括:PCIe端口,SAS端口和SATA端口中的至少一项,当同时包括这三种端口时,可以同时支持SAS接口的磁盘和SATA接口的磁盘以及PCIe端口的磁盘。
另外,可以理解的是,该存储系统中包括的存储控制器可以是一种或多种,例如,该存储系统包括:下联端口包括PCIe端口,SAS端口和SATA端口的存储控制器,或者,该存储系统包括:下联端口包括SAS端口和/或SATA端口的存储控制器,以及,下联端口是PCIe端口的存储控制器。
本实施例中,以区分SAS/SATA接口(接口也可以称为端口)和PCIe接口为例,参见图4,存储资源节点可以分为SAS/SATA接口资源节点和PCIe接口资源节点。另外,SAS/SATA接口资源节点和PCIe接口资源节点可以同时存在于同一个PCIe网络下,从而支持混合存储。
SAS/SATA接口资源节点包括:HBA或RAID卡(HBA/RAID),作为存储控制器,一端连接PCIe网络,另一端连接磁盘,磁盘可以包括如下项中的至少一项;SAS HDD,SAS SSD,SATAHDD,SATA SSD。
HDD主要用于大容量的存储应用以降低存储成本,SSD主要用于有一定要求的IOPS型应用以提升性能。
PCIe接口资源节点包括:PCIe Switch,作为存储控制器,一端连接PCIe网络,另一端连接磁盘,磁盘包括;PCIe SSD。
PCIe SSD,具有极高的IOPS,可以显著提高IOPS应用场景的业务性能,如数据库。
本实施例中,通过将不同接口类型和/或不同存储媒介的存储资源节点连接到PCIe网络上,可以在同一个PCIe网络下支持SAS,SATA和PCIe接口的磁盘,并且,磁盘的存储媒介可以包括HDD和SSD(例如,在SAS或SATA接口时支持HDD和SSD,在PCIe接口时支持SSD),因此,在同一个PCIe网络下,SAS HDD,SAS SSD,SATA HDD,SATA SSD,PCIe SSD可以任意组合,实现混合存储系统,从而可支持大容量的存储应用以降低成本,也可以支持高带宽,高IOPS的应用以提升业务性能,甚至可以同时支持大容量、低成本、高带宽和高IOPS的需求。
另一实施例中,所述PCIe网络还用于:
将所述存储资源节点以物理盘或者逻辑盘形式分配给所述计算资源节点,其中,单一的物理盘或逻辑盘分配给单一的计算资源节点,或者,单一的物理盘或逻辑盘同时分配给多个不同的计算资源节点。
具体的,所述PCIe网络包括管理模块(Mgmt CPU),当所述存储资源节点的磁盘是PCIeSSD,且所述PCIe SSD以物理盘形式分配给计算资源节点,以及,单一的物理盘分配给单一的计算资源节点时,所述管理模块用于:
配置每个计算资源节点与以物理盘为粒度的每个PCIe SSD的对应关系。
或者,
所述PCIe网络包括管理模块(Mgmt CPU),当所述存储资源节点的磁盘是PCIeSSD,且所述PCIe SSD以逻辑盘形式分配给计算资源节点,以及,单一的逻辑盘分配给单一的计算资源节点时,所述PCIe SSD包括支持SR-IOV功能的PCIe SSD控制器,
所述PCIe SSD控制器用于生成VF,以及,将所述PCIe SSD划分为一个或多个逻辑块,并建立所述逻辑块与所述VF的映射关系,其中,不同的VF对应不同的逻辑块;
所述管理模块用于配置每个计算资源节点与每个VF的对应关系。
或者,
所述PCIe网络包括管理模块(Mgmt CPU),当所述存储资源节点的磁盘是PCIeSSD,且所述PCIe SSD以逻辑盘形式分配给计算资源节点,以及,单一的逻辑盘同时分配给多个不同的计算资源节点时,所述PCIe SSD包括支持SR-IOV功能的PCIe SSD控制器,
所述PCIe SSD控制器用于生成VF,以及,将所述PCIe SSD划分为一个或多个逻辑块,并建立所述逻辑块与所述VF的映射关系,其中,至少一个逻辑块对应多个VF;
所述管理模块用于配置每个计算资源节点与每个VF的对应关系。
或者,
所述PCIe网络包括管理模块(Mgmt CPU),当所述存储资源节点的磁盘是SAS或SATA接口的磁盘,且所述SAS或SATA接口的磁盘以物理盘形式分配给计算资源节点,以及,单一的物理盘分配给单一的计算资源节点时,所述存储资源节点还包括支持SR-IOV功能的HBA或RAID控制器,
所述HBA或RAID控制器用于生成VF,以及,建立以物理盘为粒度的SAS或SATA接口的磁盘与所述VF的映射关系,其中,不同的VF对应不同的物理盘;
所述管理模块用于配置每个计算资源节点与每个VF的对应关系。
或者,
所述PCIe网络包括管理模块(Mgmt CPU),当所述存储资源节点的磁盘是SAS或SATA接口的磁盘,且所述SAS或SATA接口的磁盘以逻辑盘形式分配给计算资源节点,以及,单一的逻辑盘分配给单一的计算资源节点时,所述存储资源节点还包括支持SR-IOV功能的HBA或RAID控制器,
所述HBA或RAID控制器用于生成VF,以及,将所述SAS或SATA接口的磁盘划分为一个或多个逻辑块,并建立所述逻辑块与所述VF的映射关系,其中,不同的VF对应不同的逻辑块;
所述管理模块用于配置每个计算资源节点与每个VF的对应关系。
或者,
所述PCIe网络包括管理模块(Mgmt CPU),当所述存储资源节点的磁盘是SAS或SATA接口的磁盘,且所述SAS或SATA接口的磁盘以逻辑盘形式分配给计算资源节点,以及,单一的逻辑盘同时分配给多个不同的计算资源节点时,所述存储资源节点还包括支持SR-IOV功能的HBA或RAID控制器,
所述HBA或RAID控制器用于生成VF,以及,将所述SAS或SATA接口的磁盘划分为一个或多个逻辑块,并建立所述逻辑块与所述VF的映射关系,其中,至少一个逻辑块对应多个VF;
所述管理模块用于配置每个计算资源节点与每个VF的对应关系。
例如,可以支持PCIe SSD以物理盘形式按需分配给计算资源节点(如PCIe主机)。在该PCIe网络内,任意一个PCIe SSD都是一个独立的PCIe设备。Mgmt CPU负责该PCIe网络内PCIe设备及PCIe主机的扫描、发现,并通过配置PCIe网络的路由表以将特定的PCIe设备按照PCIe主机的需求静态或者动态的分配给特定的PCIe主机。
本实施例中,参见图5,PCIe网络内有4个PCIe SSD,经过Mgmt CPU配置后,将PCIeSSD A分配给了计算资源节点A,将PCIe SSD B、PCIe SSD C、PCIe SSD D分配给了计算资源节点B。另外,经过Mgmt CPU的配置,可以将复杂的PCIe物理网络简化为一个逻辑PCIeBridge,计算资源节点只可以见到这个PCIe Bridge,因此可屏蔽物理拓扑的变化对计算资源节点的影响。
又例如,可以支持PCIe SSD以逻辑盘形式按需分配给计算资源节点。对于大容量的PCIe SSD,如果只能将整个盘全部分配给某个计算资源节点,则容量可能超过其需求,导致资源利用率低,最终导致成本浪费。本实施例中,可以将PCIe SSD切分为多个逻辑块,然后将逻辑块分配给不同的计算资源节点,因此可以更小的粒度来进行资源的管理分配,以提升资源利用率。
本实施例中,参见图6,以对物理盘PCIe SSD A进行切分为例,假设切分后的逻辑块称为SSD块A,SSD块B和SSD块C。在每个PCIe SSD内设置有物理存在的控制器(PCIe SSDController),当该控制器支持单一根I/O虚拟化(single root I/O virtualization,SR-IOV)时,可以在逻辑上形成多个虚拟功能(Virtual Function,VF),每个VF在PCIe网络中都是一个独立的PCIe设备。
PCIe SSD Controller可以将逻辑块映射到不同的VF,例如,参见图6,将SSD块A映射到VF-1,将SSD块B和SSD块C映射到VF-2。Mgmt CPU负责将不同的VF分配给不同的计算资源节点(同一个VF不能分配给多个计算资源节点),例如,参见图6,将VF-1分配给计算资源节点A,将VF-2分配给计算资源节点B。从而,计算资源节点A可以访问SSD块A,计算资源节点B可以访问SSD块B和SSD块C,实现了PCIe SSD以逻辑盘形式按需分配给计算资源节点。
又例如,可以支持多个计算资源节点同时访问同一个PCIe SSD逻辑块。PCIe SSDController可以将同一个SSD逻辑块映射到不同的VF,Mgmt CPU负责将VF分配给不同的计算资源节点。因此不同的计算资源节点可以同时访问同一个PCIe SSD逻辑块,以实现数据共享。多个计算资源节点可同时读取同一个PCIe SSD逻辑块,技术上可同时写同一个PCIeSSD逻辑块,但数据的一致性需要上层软件自行协调保证。
本实施例中,参见图7,PCIe SSD Controller将SSD块A和SSD块B映射到VF-1,将SSD块B和SSD块C映射到VF-2,Mgmt CPU将VF-1分配给计算资源节点A,将VF-2分配给计算资源节点B,从而可以实现计算资源节点A和计算资源节点B可以同时访问SSD块B,从而支持多个计算资源节点同时访问同一个PCIe SSD逻辑块。
当然,可以理解的是,当一个PCIe SSD的物理盘划分成一个逻辑块,则可以实现多个计算资源节点同时访问同一个物理盘。
又例如,可以支持SAS/SATA接口磁盘以物理盘形式按需分配给计算资源节点。HBA/RAID在硬件上可以包括HBA/RAID Controller,当HBA/RAID Controller不支持SR-IOV时,其只能作为一个PCIe设备被Mgmt CPU所管理,其后端的磁盘对于PCIe网络来说是不可见的。因此此时只能将某个HBA/RAID Controller连接的所有磁盘作为一个整体分配给某个计算资源节点,资源分配的粒度较大,难以达到资源的高效利用。
本实施例中,应用在HBA/RAID Controller支持SR-IOV的场景下。当HBA/RAIDController支持SR-IOV时,其支持将不同的磁盘映射到不同的VF。每个VF在PCIe网络中都是一个独立的PCIe设备,Mgmt CPU负责将VF分配给不同的计算资源节点。同一个VF不能分配给多个计算资源节点。因此可以间接实现将不同的物理磁盘分配给不同的计算资源节点。
例如,参见图8,HBA/RAID Controller将磁盘-1和磁盘2映射到VF-1,将磁盘-3和磁盘-4映射到VF-2,Mgmt CPU将VF-1分配给计算资源节点A,将VF-2分配给计算资源节点B,从而可以实现计算资源节点A能够访问磁盘-1和磁盘-2,计算资源节点B能够访问磁盘-3和磁盘-4,从而支持将SAS/SATA接口磁盘以物理盘形式按需分配给计算资源节点。
又例如,可以支持SAS/SATA接口磁盘以逻辑盘形式按需分配给计算资源节点。HBA/RAID Controller可以将一个或多个物理磁盘进行聚合后,划分为一个或者多个逻辑磁盘,然后将逻辑磁盘映射到不同的VF。每个VF在PCIe网络中都是一个独立的PCIe设备,Mgmt CPU负责将VF分配给不同的计算节点。因此可以更小的粒度来进行资源的管理分配,以提升资源利用率。
本实施例中,参见图9,HBA/RAID Controller将逻辑磁盘-1和逻辑磁盘-2映射到VF-1,将逻辑磁盘-3和逻辑磁盘-4映射到VF-2,Mgmt CPU将VF-1分配给计算资源节点A,将VF-2分配给计算资源节点B,从而可以实现计算资源节点A能够访问逻辑磁盘-1和逻辑磁盘-2,计算资源节点B能够访问逻辑磁盘-3和逻辑磁盘-4,从而支持将SAS/SATA接口磁盘以逻辑盘形式按需分配给计算资源节点。
又例如,可以支持多个计算资源节点同时访问同一个逻辑SAS/SATA接口磁盘。HBA/RAID Controller可以将同一个逻辑磁盘映射到不同的VF,Mgmt CPU负责将VF分配给不同的计算资源节点。因此不同的计算资源节点可以同时访问同一个逻辑磁盘,以实现数据共享。多个计算资源节点可同时读取同一个逻辑磁盘,技术上可同时写同一个逻辑磁盘,但数据的一致性需要上层软件自行协调保证。
本实施例中,参见图10,HBA/RAID Controller将逻辑磁盘-1和逻辑磁盘-2映射到VF-1,将逻辑磁盘-2和逻辑磁盘-3映射到VF-2,Mgmt CPU将VF-1分配给计算资源节点A,将VF-2分配给计算资源节点B,从而可以实现计算资源节点A和计算资源节点B都能够访问逻辑磁盘-2,从而支持多个计算资源节点同时访问同一个逻辑SAS/SATA接口磁盘。
上述资源分配的实施例中,通过动态或静态的配置可以为计算资源节点分配物理盘或逻辑盘,可以按计算资源节点的需求配置不同数量及不同种类的存储资源,灵活多变,可满足各种不同业务的需求。可动态增减分配给计算资源节点的存储资源的数量,当业务需求激增时,可增加存储资源(如PCIe SSD)数量,以应对高峰需求;当业务需求下降时,可减少PCIe SSD数量,将其分配给其他的计算资源节点,提升资源利用率,降低系统总体成本。尤其适用于公有云平台中,可以灵活构建不同配置的服务器,可以在同一个平台中既支持大容量存储型应用,也可以支持高IOPS型应用,甚至支持存储容量及IOPS同时有需求的应用,以满足差异化且多变的公有云用户需求。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种存储系统,其特征在于,包括:
计算资源节点、存储资源节点和PCIe网络;
其中,所述计算资源节点和所述存储资源节点在物理上分离设置,分别连接到所述PCIe网络上,以及,所述PCIe网络与所述计算资源节点和所述存储资源节点在物理上分离设置,且,所述计算资源节点,所述存储资源节点和所述PCIe网络都是可扩展的;
所述PCIe网络还用于:
将所述存储资源节点以物理盘或者逻辑盘形式分配给所述计算资源节点,其中,单一的物理盘或逻辑盘分配给单一的计算资源节点,或者,单一的物理盘或逻辑盘同时分配给多个不同的计算资源节点;
其中,所述PCIe网络包括管理模块,当所述存储资源节点的磁盘是PCIe SSD,且所述PCIe SSD以逻辑盘形式分配给计算资源节点,以及,单一的逻辑盘分配给单一的计算资源节点时,所述PCIe SSD包括支持SR-IOV功能的PCIe SSD控制器,
所述PCIe SSD控制器用于生成VF,以及,将所述PCIe SSD划分为一个或多个逻辑块,并建立所述逻辑块与所述VF的映射关系,其中,不同的VF对应不同的逻辑块;
所述管理模块用于配置每个计算资源节点与每个VF的对应关系;
或者,所述PCIe网络包括管理模块,当所述存储资源节点的磁盘是PCIe SSD,且所述PCIe SSD以逻辑盘形式分配给计算资源节点,以及,单一的逻辑盘同时分配给多个不同的计算资源节点时,所述PCIe SSD包括支持SR-IOV功能的PCIe SSD控制器,
所述PCIe SSD控制器用于生成VF,以及,将所述PCIe SSD划分为一个或多个逻辑块,并建立所述逻辑块与所述VF的映射关系,其中,至少一个逻辑块对应多个VF;
所述管理模块用于配置每个计算资源节点与每个VF的对应关系;
或者,所述PCIe网络包括管理模块,当所述存储资源节点的磁盘是SAS或SATA接口的磁盘,且所述SAS或SATA接口的磁盘以物理盘形式分配给计算资源节点,以及,单一的物理盘分配给单一的计算资源节点时,所述存储资源节点还包括支持SR-IOV功能的HBA或RAID控制器,
所述HBA或RAID控制器用于生成VF,以及,建立以物理盘为粒度的SAS或SATA接口的磁盘与所述VF的映射关系,其中,不同的VF对应不同的物理盘;
所述管理模块用于配置每个计算资源节点与每个VF的对应关系;
或者,所述PCIe网络包括管理模块,当所述存储资源节点的磁盘是SAS或SATA接口的磁盘,且所述SAS或SATA接口的磁盘以逻辑盘形式分配给计算资源节点,以及,单一的逻辑盘分配给单一的计算资源节点时,所述存储资源节点还包括支持SR-IOV功能的HBA或RAID控制器,
所述HBA或RAID控制器用于生成VF,以及,将所述SAS或SATA接口的磁盘划分为一个或多个逻辑块,并建立所述逻辑块与所述VF的映射关系,其中,不同的VF对应不同的逻辑块;
所述管理模块用于配置每个计算资源节点与每个VF的对应关系;
或者,所述PCIe网络包括管理模块,当所述存储资源节点的磁盘是SAS或SATA接口的磁盘,且所述SAS或SATA接口的磁盘以逻辑盘形式分配给计算资源节点,以及,单一的逻辑盘同时分配给多个不同的计算资源节点时,所述存储资源节点还包括支持SR-IOV功能的HBA或RAID控制器,
所述HBA或RAID控制器用于生成VF,以及,将所述SAS或SATA接口的磁盘划分为一个或多个逻辑块,并建立所述逻辑块与所述VF的映射关系,其中,至少一个逻辑块对应多个VF;
所述管理模块用于配置每个计算资源节点与每个VF的对应关系。
2.根据权利要求1所述的系统,其特征在于,所述PCIe网络包括:
第一级PCIe交换机,所述第一级PCIe交换机包括:至少一个PCIe交换芯片和一个管理模块。
3.根据权利要求2所述的系统,其特征在于,所述PCIe网络还包括:
至少一个的其他级PCIe交换机,所述其他级PCIe交换机包括:至少一个PCIe交换芯片;
所述其他级PCIe交换机与所述管理模块连接;以及,
所述其他级PCIe交换机内的PCIe交换芯片与所述第一级PCIe交换机内的PCIe交换芯片连接,和/或,不同的其他级PCIe交换机内的PCIe交换芯片互相连接。
4.根据权利要求1-3任一项所述的系统,其特征在于,所述存储资源节点包括:
磁盘,所述磁盘具有的接口包括如下项中的至少一项:SAS,SATA,PCIe;
存储控制器,一端连接所述PCIe网络,另一端连接所述磁盘。
5.根据权利要求4所述的系统,其特征在于,当所述磁盘是SAS或SATA接口时,所述存储控制器是HBA或者RAID卡,所述磁盘包括如下项中的至少一项:SAS HDD,SAS SSD,SATAHDD,SATA SSD。
6.根据权利要求4所述的系统,其特征在于,当所述磁盘是PCIe接口时,所述存储控制器是PCIe交换芯片,所述磁盘是PCIe SSD。
CN201510369477.1A 2015-06-26 2015-06-26 存储系统 Active CN104965677B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510369477.1A CN104965677B (zh) 2015-06-26 2015-06-26 存储系统
PCT/CN2015/090005 WO2016206198A1 (zh) 2015-06-26 2015-09-18 存储系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510369477.1A CN104965677B (zh) 2015-06-26 2015-06-26 存储系统

Publications (2)

Publication Number Publication Date
CN104965677A CN104965677A (zh) 2015-10-07
CN104965677B true CN104965677B (zh) 2018-04-13

Family

ID=54219712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510369477.1A Active CN104965677B (zh) 2015-06-26 2015-06-26 存储系统

Country Status (2)

Country Link
CN (1) CN104965677B (zh)
WO (1) WO2016206198A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105867842A (zh) * 2016-03-23 2016-08-17 天津书生云科技有限公司 对存储系统的访问控制方法及装置
CN105472047B (zh) * 2016-02-03 2019-05-14 天津书生云科技有限公司 存储系统
US10365981B2 (en) * 2016-08-19 2019-07-30 Samsung Electronics Co., Ltd. Adaptive multipath fabric for balanced performance and high availability
CN106776387B (zh) * 2016-11-24 2019-10-18 大唐高鸿信安(浙江)信息科技有限公司 硬盘通道扩展装置
CN106708745A (zh) * 2016-12-05 2017-05-24 郑州云海信息技术有限公司 一种24盘位nvme动态分配结构及方法
CN106990916B (zh) * 2017-03-01 2020-04-07 北京腾凌科技有限公司 一种读写请求的处理方法及装置
CN110515536B (zh) * 2018-05-22 2020-10-27 杭州海康威视数字技术股份有限公司 数据存储系统
US11436113B2 (en) * 2018-06-28 2022-09-06 Twitter, Inc. Method and system for maintaining storage device failure tolerance in a composable infrastructure
CN109284258A (zh) * 2018-08-13 2019-01-29 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于hdfs的分布式多级存储系统及方法
CN111045602B (zh) * 2019-11-25 2024-01-26 浙江大华技术股份有限公司 集群系统控制方法及集群系统
US11573737B2 (en) * 2020-03-02 2023-02-07 Silicon Motion, Inc. Method and apparatus for performing disk management of all flash array server
CN111756828B (zh) * 2020-06-19 2023-07-14 广东浪潮大数据研究有限公司 一种数据存储方法、装置及设备
CN111930299B (zh) * 2020-06-22 2024-01-26 中国建设银行股份有限公司 分配存储单元的方法及相关设备
KR102518287B1 (ko) * 2021-04-13 2023-04-06 에스케이하이닉스 주식회사 PCIe 인터페이스 장치 및 그 동작 방법
US11782616B2 (en) 2021-04-06 2023-10-10 SK Hynix Inc. Storage system and method of operating the same

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299757A (zh) * 2008-05-23 2008-11-05 华为技术有限公司 一种数据共享方法及通讯系统以及相关设备
CN104639469A (zh) * 2015-02-06 2015-05-20 方一信息科技(上海)有限公司 一种基于pcie互连的计算和存储集群系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4626582B2 (ja) * 2006-07-03 2011-02-09 ソニー株式会社 カード型周辺機器およびカード通信システム
CN103312720B (zh) * 2013-07-01 2016-05-25 华为技术有限公司 一种数据传输方法、设备及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299757A (zh) * 2008-05-23 2008-11-05 华为技术有限公司 一种数据共享方法及通讯系统以及相关设备
CN104639469A (zh) * 2015-02-06 2015-05-20 方一信息科技(上海)有限公司 一种基于pcie互连的计算和存储集群系统

Also Published As

Publication number Publication date
CN104965677A (zh) 2015-10-07
WO2016206198A1 (zh) 2016-12-29

Similar Documents

Publication Publication Date Title
CN104965677B (zh) 存储系统
CN104657316B (zh) 服务器
US20200363985A1 (en) Adaptive load balancing in storage system having multiple input-output submission queues
CN103080917B (zh) 可扩展存储装置
US8756392B2 (en) Storage control apparatus and storage system comprising multiple storage control apparatuses
JP2022003577A (ja) Hci環境でのvm/コンテナおよびボリューム配置決定方法及びストレージシステム
US11182322B2 (en) Efficient component communication through resource rewiring in disaggregated datacenters
US8959374B2 (en) Power management for devices in a data storage fabric
CN107209681A (zh) 一种存储设备访问方法、装置和系统
US8489845B2 (en) Storage system comprising multiple storage control apparatus
US11086535B2 (en) Thin provisioning using cloud based ranks
CN104967577B (zh) Sas交换机和服务器
WO2017088342A1 (zh) 业务割接方法、存储控制装置及存储设备
US11099754B1 (en) Storage array with dynamic cache memory configuration provisioning based on prediction of input-output operations
US8918571B2 (en) Exposing expanders in a data storage fabric
US8972618B2 (en) Staged discovery in a data storage fabric
EP3931709A1 (en) Expanded host domains in pcie fabrics
CN104601729A (zh) 一种采用NVMe实现高性能云存储的方法
US11954344B2 (en) Host device comprising layered software architecture with automated tiering of logical storage devices
US9027019B2 (en) Storage drive virtualization
US9015410B2 (en) Storage control apparatus unit and storage system comprising multiple storage control apparatus units
US11269792B2 (en) Dynamic bandwidth management on a storage system
US11163713B2 (en) Efficient component communication through protocol switching in disaggregated datacenters
US11650849B2 (en) Efficient component communication through accelerator switching in disaggregated datacenters
US8856481B1 (en) Data processing system having host-controlled provisioning of data storage resources

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant