CN104639469A - 一种基于pcie互连的计算和存储集群系统 - Google Patents
一种基于pcie互连的计算和存储集群系统 Download PDFInfo
- Publication number
- CN104639469A CN104639469A CN201510061388.0A CN201510061388A CN104639469A CN 104639469 A CN104639469 A CN 104639469A CN 201510061388 A CN201510061388 A CN 201510061388A CN 104639469 A CN104639469 A CN 104639469A
- Authority
- CN
- China
- Prior art keywords
- pcie
- switching equipment
- server node
- interconnection
- further characterized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种基于PCIE(Peripheral Component Interconnect Express,一种计算机内部设备之间互联的协议)互连的计算和存储集群系统。集群的硬件系统由服务器节点、具有PCIE交换功能的交换设备、PCIE SSD存储单元(本文中内置在PCIE交换设备)、PCIE子卡、PCIE电缆组成。集群内的服务器节点经由PCIE子卡和PCIE电缆,连接PCIE交换设备,PCIE SSD(Solid State Disk,固态硬盘)存储单元内置于PCIE交换设备,通过电路连接与其交换单元互连。在该系统中,服务器节点之间通过PCIE交换设备的非透明连接相互通信,服务器节点和PCIE SSD存储单元之间通过PCIE交换设备的透明连接进行通信。本发明实施例通过2台服务器节点和2台内置PCIE SSD的PCIE交换设备进行交叉互联,实现了高性能高可用性的计算和存储集群系统。
Description
技术领域
本发明涉及计算机和数据存储技术领域,特别是基于闪存存储和集群的设备和系统。
背景技术
随着信息化的快速发展,单台计算机越来越无法满足业务处理得需求;目前,在企业市场广泛采用集群技术以提高系统的处理能力。集群内部的节点之间采用以太网进行通信,而各个节点通过FC(Fibre Channel,光纤通道,一种通信协议)或者iSCSI(Internet Small Computer System Interface,一种基于TCP/IP来封装SCSI协议的技术)或者SATA(Serial Advanced Technology Attachment,一种硬盘的接口标准)对存储单元进行访问。在这种组网模式下,即使每个服务器节点的物理性能不是很高,多个服务器节点并行协同工作,也可以使得整个集群具备很高的处理能力。
但是,由于集群内部的服务器节点之间的通信是基于以太网的,其数据交换能力,经常是整个系统性能的瓶颈。同时,服务器节点到存储单元的连接往往采用FC、iSCSI或者SATA协议,对于读写操作密集的业务来说,这里可能也会形成系统性能的瓶颈。
提高集群内部,服务器节点之间的数据交换能力的一种方式是在服务器节点之间引入Infiniband(一种支持多并发连接的转换线缆技术)交换网络,比如采用40Gb Infiniband的连接可以达到比较高的带宽。但是,Infiniband网络的引入,会大幅度提高系统的成本,同时,多种协议之间的反复转换会增加系统时延。
提高服务器节点到存储单元的读写性能的一种方式是引入全闪存阵列,但是在提高性能的同时,会大幅度提高系统的成本,并且可能面临容量过剩的问题。如果同时存在全闪存阵列和Infiniband网络,集群内服务器节点的PCIE(Peripheral Component Interconnect Express)插槽资源可能会不足(需要实现多路径的情况下)。另外一种提高服务器节点到存储单元读写性能的方式是引入PCIE SSD(Solid State Disk)加速卡,这样,可以大幅度提高每个服务器节点到本机的存储单元的性能,但是每台服务器的存储单元只能由本机访问,无法在多台服务器之间共享,可用性问题难以解决。
发明内容
为了克服上述现有技术的不足,本发明提供了一种节点之间以及节点和存储设备之间的通过PCIE互连的技术方案。
本发明所采用的技术方案描述如下:
1、 服务器节点通过PCIE子卡和PCIE线缆,连接到具有PCIE交换功能的设备;
2、 PCIE SSD连接到具有PCIE交换功能的设备;
3、 服务器节点之间利用非透明桥机制,通过具有PCIE交换功能的设备进行通信;通信的发起和接收端服务器节点具有完全对等的地位,符合PCIE协议规定的标准非透明连接方式;
4、 服务器节点通过PCIE交换功能设备对PCIE SSD进行读写操作;其中服务器节点为PCIE协议规定的根节点(控制节点),PCIE SSD设备为设备节点,二者之间的通信符合标准PCIE协议;
5、 服务器节点可以通过2块子卡和2根PCIE线缆连接到2台具有PCIE交换功能设备,多个服务器节点采用这种连接方式进行交叉连接,实现计算单元、存储单元和通信通道的高可用性。
与现有技术相比,本发明的有益效果是使得集群系统内部的通信和IO时延大幅度降低,系统的处理能力和吞吐能力大幅度提高。由于服务器节点之间的通信采用PCIE连接,使得性能得到大幅度提高,时延最低(不需要任何的中间协议转换);同时,引入PCIE SSD可以实现对于存储单元的高性能访问;而利用PCIE交换设备,可以实现对于PCIE SSD的跨服务器访问。
在服务器之间互联采用万兆以太网技术时,通信的时延在毫秒级别(考虑到软件系统的消耗),在采用本方案时,时延可以降低到微秒级别。带宽从800MB/s左右提升到3000MB/s。
附图说明
图1是系统的实施例方案图;该图描述了基于PCIE互连的双节点的计算和存储集群的方案。
图2是实施例的逻辑结构图:该图描述了各个功能模块之间的交互关系。
具体实施方式
本发明的实施例提供了一种2个服务器节点,2个含有PCIE SSD存储单元的PCIE交换设备的高可用方案,整个方案包含以下物理单元:2台服务器、4块PCIE子卡、4根PCIE电缆、2台PCIE交换设备(内置PCIE SSD模块),所有的PCIE连接采用PCIE x8 的物理接口:
1、 在该方案中,采用了两个具备PCIE交换功能的设备,同时该设备分别装载有PCIE SSD存储模块;
2、 服务器节点安装有双PCIE子卡,每一个子卡通过一根PCIE电缆,连接到一个具有PCIE交换功能的设备,通过交叉连接,提高系统的可用性;
3、 服务器节点通过PCIE的透明连接直接访问PCIE SSD,通过非透明连接与其他服务器节点进行通信;
4、 PCIE交换设备实时进行自动故障监测,在任何一个节点出现故障时,PCIE设备将进行访问路径切换;
5、 服务器节点具备故障监测能力,在发现其他服务器节点故障时,将自动接管其业务;在发现访问路径故障时,产生告警并主动进行路径切换;
6、 服务器节点的软件层通过Socket Over PCIE(基于PCIE连接的套接字)的封装,向上层实现Socket(套接字)接口,保证应用软件代码一致性。
集群系统的工作流程如下:
1、201透明连接管理模块通过206 PCIE物理接口,配置服务器节点到211 PCIE交换单元、再到212 PCIE SSD的通信通道,遵循标准PCIE域配置方式;完成对于PCIE SSD模块的访问后,加载该模块为数据存储单元,并处于就绪状态;
2、203非透明连接管理模块通过206 PCIE物理接口,配置服务器节点到211 PCIE交换单元的非透明通信通道,遵循标准的PCIE非透明配置方式;配置完成后,处于就绪状态,并发起对等服务器节点的握手信号;集群内的服务器节点握手完成后,集群系统处于就绪状态;
3、211 PCIE交换单元接收来自201透明连接管理模块的数据转发到212 PCIE SSD(反向亦然);211 PCIE交换单元接收来自203非透明连接管理模块的数据到对端服务器节点的203非透明管理模块(反之亦然);
3、215故障监测模块实时监测链路状态,在出现链路故障时,立即通知正常工作的节点,进行集群拓扑调整,剔除故障节点。
Claims (7)
1.一种基于PCIE互连的计算和存储集群系统,其特征在于,包括:集群的服务器节点之间通过PCIE互连,服务器节点通过PCIE协议对存储单元进行访问。
2.如权利1要求所述PCIE互连的计算和存储集群系统,其特征还在于,包含了PCIE交换设备,该设备同时支持PCIE透明和非透明连接,能够支持软件配置的连接方式,可以实现服务器节点到服务器节点的访问通过非透明连接通信,服务器节点到PCIE SSD的访问通过透明连接方式通信。
3.如权利2要求所述PCIE交换设备,其特征还在于,内置了PCIE SSD作为存储单元,从而使集群具备快速的数据存取能力。
4.如权利2所述的PCIE交换设备,其特征还在于,包含了供电系统和冷却系统,并对温度、故障实时监测。
5.如权利1要求所述的PCIE互连的计算和存储集群系统,其特征还在于,包含了服务器节点,节点与节点之间的通信通过Socket Over PCIE(基于PCIE传输的套接字)协议。
6.如权利4要求所述的服务器节点,其特征还在于,服务器节点通过PCIE子卡和PCIE线缆与PCIE交换设备进行连接,通过多个服务器节点和多个PCIE交换设备之间的交叉连接的方式实现高可用性。
7.如权利1要求所述的PCIE互连的计算和存储集群系统,其特征还在于,PCIE交换设备实时进行故障检测,在出现PCIE链路故障时,能够触发故障切换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510061388.0A CN104639469A (zh) | 2015-02-06 | 2015-02-06 | 一种基于pcie互连的计算和存储集群系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510061388.0A CN104639469A (zh) | 2015-02-06 | 2015-02-06 | 一种基于pcie互连的计算和存储集群系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104639469A true CN104639469A (zh) | 2015-05-20 |
Family
ID=53217799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510061388.0A Pending CN104639469A (zh) | 2015-02-06 | 2015-02-06 | 一种基于pcie互连的计算和存储集群系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104639469A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104965677A (zh) * | 2015-06-26 | 2015-10-07 | 北京百度网讯科技有限公司 | 存储系统 |
CN105138494A (zh) * | 2015-08-25 | 2015-12-09 | 浪潮(北京)电子信息产业有限公司 | 一种多路计算机系统 |
CN106814976A (zh) * | 2017-01-19 | 2017-06-09 | 东莞市阿普奥云电子有限公司 | 集群存储系统及应用其的数据交互方法 |
CN107450987A (zh) * | 2017-07-28 | 2017-12-08 | 山东超越数控电子有限公司 | 一种高可用的异构服务器 |
CN107565695A (zh) * | 2017-10-11 | 2018-01-09 | 国网冀北电力有限公司电力科学研究院 | 基于pcie‑ssd环境的用电信息采集系统 |
CN110532202A (zh) * | 2019-08-21 | 2019-12-03 | 苏州浪潮智能科技有限公司 | 一种存储集群系统、数据传输方法和装置 |
CN113193395A (zh) * | 2021-03-23 | 2021-07-30 | 山东英信计算机技术有限公司 | 一种调配信号频宽的互连装置及其使用方法 |
CN113342262A (zh) * | 2020-03-02 | 2021-09-03 | 慧荣科技股份有限公司 | 用以进行全快闪存储器阵列伺服器的碟管理的方法与设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540686A (zh) * | 2008-06-06 | 2009-09-23 | 曙光信息产业(北京)有限公司 | 一种用于刀片服务器的PCIe交换设备 |
CN101763221A (zh) * | 2008-12-24 | 2010-06-30 | 成都市华为赛门铁克科技有限公司 | 一种存储方法、存储系统及控制器 |
CN103036958A (zh) * | 2012-12-06 | 2013-04-10 | 陕西维德科技股份有限公司 | 一种服务器集群高速存储系统 |
-
2015
- 2015-02-06 CN CN201510061388.0A patent/CN104639469A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540686A (zh) * | 2008-06-06 | 2009-09-23 | 曙光信息产业(北京)有限公司 | 一种用于刀片服务器的PCIe交换设备 |
CN101763221A (zh) * | 2008-12-24 | 2010-06-30 | 成都市华为赛门铁克科技有限公司 | 一种存储方法、存储系统及控制器 |
CN103036958A (zh) * | 2012-12-06 | 2013-04-10 | 陕西维德科技股份有限公司 | 一种服务器集群高速存储系统 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104965677A (zh) * | 2015-06-26 | 2015-10-07 | 北京百度网讯科技有限公司 | 存储系统 |
WO2016206198A1 (zh) * | 2015-06-26 | 2016-12-29 | 北京百度网讯科技有限公司 | 存储系统 |
CN104965677B (zh) * | 2015-06-26 | 2018-04-13 | 北京百度网讯科技有限公司 | 存储系统 |
CN105138494A (zh) * | 2015-08-25 | 2015-12-09 | 浪潮(北京)电子信息产业有限公司 | 一种多路计算机系统 |
CN105138494B (zh) * | 2015-08-25 | 2018-11-20 | 浪潮(北京)电子信息产业有限公司 | 一种多路计算机系统 |
CN106814976A (zh) * | 2017-01-19 | 2017-06-09 | 东莞市阿普奥云电子有限公司 | 集群存储系统及应用其的数据交互方法 |
CN107450987A (zh) * | 2017-07-28 | 2017-12-08 | 山东超越数控电子有限公司 | 一种高可用的异构服务器 |
CN107565695A (zh) * | 2017-10-11 | 2018-01-09 | 国网冀北电力有限公司电力科学研究院 | 基于pcie‑ssd环境的用电信息采集系统 |
CN110532202A (zh) * | 2019-08-21 | 2019-12-03 | 苏州浪潮智能科技有限公司 | 一种存储集群系统、数据传输方法和装置 |
CN113342262A (zh) * | 2020-03-02 | 2021-09-03 | 慧荣科技股份有限公司 | 用以进行全快闪存储器阵列伺服器的碟管理的方法与设备 |
CN113193395A (zh) * | 2021-03-23 | 2021-07-30 | 山东英信计算机技术有限公司 | 一种调配信号频宽的互连装置及其使用方法 |
CN113193395B (zh) * | 2021-03-23 | 2023-01-10 | 山东英信计算机技术有限公司 | 一种调配信号频宽的互连装置及其使用方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104639469A (zh) | 一种基于pcie互连的计算和存储集群系统 | |
CN103152397B (zh) | 一种多协议存储系统设计方法 | |
US11907139B2 (en) | Memory system design using buffer(s) on a mother board | |
US10491488B2 (en) | High-availability computer system, working method and the use thereof | |
CN103257941B (zh) | 多协议存储控制器和系统 | |
US9705984B2 (en) | System and method for sharing data storage devices | |
CN105677703A (zh) | Nas文件系统及其访问方法和装置 | |
WO2017162175A1 (zh) | 一种数据传输方法及装置 | |
CN105045688A (zh) | 一种带管理功能的双活双控存储系统 | |
US11775454B2 (en) | Mechanism to autonomously manage SSDs in an array | |
CN103023973A (zh) | 一种基于cpci结构的集群服务器设计方法 | |
US20210326221A1 (en) | Network interface device management of service execution failover | |
CN104135514A (zh) | 融合式虚拟化存储系统 | |
JP2020518935A (ja) | 再構成可能なサーバー及びそれを有するサーバーラック | |
CN105763488B (zh) | 数据中心汇聚核心交换机及其背板 | |
US11249808B2 (en) | Connecting accelerator resources using a switch | |
CN109561032B (zh) | 一种交换机模块及包括其的交换机 | |
CN103634350B (zh) | 一种存储系统及其实现方法 | |
Zhang et al. | Leveraging glocality for fast failure recovery in distributed RAM storage | |
CN104270450A (zh) | 一种采用udp协议的双控制器多链路心跳监测方法 | |
US8565067B2 (en) | Apparatus, system, and method for link maintenance | |
CN114968895A (zh) | 一种异构互联系统及集群 | |
CN107122268B (zh) | 一种基于numa多物理层分区处理系统 | |
CN208316770U (zh) | 一种应用于简单场景的私有云系统 | |
CN209248518U (zh) | 一种固态硬盘扩展板卡及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150520 |