CN107450987A - 一种高可用的异构服务器 - Google Patents

一种高可用的异构服务器 Download PDF

Info

Publication number
CN107450987A
CN107450987A CN201710629119.9A CN201710629119A CN107450987A CN 107450987 A CN107450987 A CN 107450987A CN 201710629119 A CN201710629119 A CN 201710629119A CN 107450987 A CN107450987 A CN 107450987A
Authority
CN
China
Prior art keywords
pcie
server
adapters
cpu
heterogeneous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710629119.9A
Other languages
English (en)
Inventor
彭福来
于治楼
陈乃阔
李传忠
牛玉峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Chaoyue Numerical Control Electronics Co Ltd
Original Assignee
Shandong Chaoyue Numerical Control Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Chaoyue Numerical Control Electronics Co Ltd filed Critical Shandong Chaoyue Numerical Control Electronics Co Ltd
Priority to CN201710629119.9A priority Critical patent/CN107450987A/zh
Publication of CN107450987A publication Critical patent/CN107450987A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5044Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering hardware capabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供一种高可用的异构服务器,该异构服务器包括多个服务器单元,该多个服务器单元通过传输介质彼此通信地连接,服务器单元中的每个包含CPU、PCIe Switch、一个或多个异构加速卡、多个PCIe适配卡,其中,CPU通过PCIe总线分别与PCIe适配卡中的一个PCIe适配卡以及PCIe Switch通信地连接,异构加速卡与PCIe Switch通信地连接。本发明具有提高服务器的可靠性、保证服务的高度可用性、降低传输延迟、提供传输效率以及降低系统的复杂度和成本的优点。

Description

一种高可用的异构服务器
技术领域
本发明涉及异构计算技术领域,并且更具体地涉及一种高可用的异构服务器。
背景技术
目前,异构服务器采用CPU+协处理器的架构形式,其中,协处理器具有强大的并行计算能力,负责处理CPU(中央处理器)下发的计算密集型任务。通常,常用的协处理器为GPU(图形处理器)、FPGA(现场可编程逻辑门阵列)或者MIC(集成众核),通常做成PCIe(外围组件快速互连)加速卡的形式,插到服务器主板的PCIe插槽上。CPU作为Host与加速卡采用PCIe总线进行互联。为增强服务器的计算能力,通常一个服务器主板上插多个加速卡,这多个加速卡均受同一CPU管理与支配。当CPU发生故障时,与其相连的所有协处理器都将无法工作,这不仅造成了计算资源的浪费,而且对于一些需要紧急处理的事务会造成严重后果。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种高可用的异构服务器,其可以通过PCIe非透明桥的功能实现多个服务器单元之间的互备功能,以提供服务器的高可用性。
为了实现上述目的,本发明采用的技术方案如下:
一种高可用的异构服务器包括多个服务器单元,该多个服务器单元通过传输介质彼此通信地连接,服务器单元中的每个包含CPU、PCIe Switch、一个或多个异构加速卡、多个PCIe适配卡,其中,CPU通过PCIe总线分别与PCIe适配卡中的一个PCIe适配卡以及PCIeSwitch通信地连接,异构加速卡与PCIe Switch通信地连接。
根据本发明的一个实施例,异构服务器优选地包含两个服务器单元,并且两个服务器单元之间采用Active-Active工作模式。
根据本发明的一个实施例,服务器单元中的每个优选地包含两个PCIe适配卡,PCIe适配卡中的一个通信地连接到CPU,PCIe适配卡中的另一个通信地连接到PCIeSwitch。
根据本发明的一个实施例,一个服务器单元中的与CPU通信地连接的PCIe适配卡通过传输介质与另一个服务器单元中的与PCIe Switch通信地连接的PCIe适配卡通信地连接。
根据本发明的一个实施例,异构加速卡包含GPU加速卡、FPGA加速卡和/或MIC加速卡。
根据本发明的一个实施例,PCIe适配卡工作在非透明桥(NTB)模式,并且PCIe适配卡中的一个通信地连接到PCIe Switch的非透明桥接口。
根据本发明的一个实施例,每个服务器单元至少包含一个异构加速卡,并且异构加速卡以PCIe设备的形式插在PCIe Switch的PCIe插槽中以通过PCIe总线与CPU进行通信。
根据本发明的一个实施例,CPU通过PCIe Switch扩展出多路PCIe总线接口。
根据本发明的一个实施例,PCIe适配卡为服务器单元之间的PCIe信号提供retimer功能。
根据本发明的一个实施例,PCIe总线采用x8通道Gen3。
本发明中,多个服务器单元之间采用Active-Active的工作模式,当一个服务器单元出现异常时,另一正常工作的服务器单元将接管该异常服务器单元的业务。通过本发明的高可用的异构服务器,可以提高服务器的可靠性,保证服务的高度可用性。另外,服务器单元之间采用PCIe总线连接,不需要转换通信协议,不仅降低了传输延迟、提高了传输效率,还降低了系统的复杂度和成本。
附图说明
图1是根据本发明的一个实施例的高可用的异构服务器的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图,对本发明进行进一步详细说明。应当理解的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明的高可用的异构服务器包括服务器单元1、服务器单元2,服务器单元1包含CPU 1、PCIe Switch 3(例如Broadcom公司的PEX8796型号芯片)、PCIe适配卡11、PCIe适配卡12(例如,Dolphin公司的PXH810模块)、NTB 9、异构加速卡10(例如,GPU、FPGA等)以及其他PCIe设备11,其中,CPU 1用作服务器单元1的Host,负责对异构加速卡进行管理调度与任务分配以及其他管控工作;CPU 1通过一组PCIe x8 Gen3总线与PCIeSwitch 3的upstream端通信地连接以扩展出多个PCIe接口,并且CPU 1通过另一组PCIe x8Gen3总线与PCIe适配卡11通信地连接并对外提供iPass PCIe接口;PCIe Switch3具有非透明桥接口9用于连接PCIe适配卡12并对外提供iPass PCIe接口,PCIe Switch 3对连接CPU1和PCIe Switch 3的PCIe x8 Gen3总线进行扩展以扩展出多路PCIe插槽;异构加速卡10和其他PCIe设备11(例如,SAS控制器、PCIe SSD、BMC控制器、万兆网卡等)插入到PCIe插槽中,用作CPU的协处理器的异构加速卡负责处理CPU下发的计算密集型任务。
服务器单元2包含CPU 2、PCIe Switch 4(例如Broadcom公司的PEX8796型号芯片)、PCIe适配卡21、PCIe适配卡22(例如,Dolphin公司的PXH810模块)、NTB 7、异构加速卡12(例如,GPU、FPGA等)以及其他PCIe设备13,其中,CPU 2用作服务器单元2的Host,负责对异构加速卡进行管理调度与任务分配以及其他管控工作;CPU 2通过一组PCIe x8 Gen3总线与PCIe Switch 4的upstream端通信地连接以扩展出多个PCIe接口,并且CPU 2通过另一组PCIe x8 Gen3总线与PCIe适配卡21通信地连接并对外提供iPass PCIe接口;PCIeSwitch 4具有非透明桥接口7用于连接PCIe适配卡22并对外提供iPass PCIe接口,PCIeSwitch 4对连接CPU 2和PCIe Switch 4的PCIe x8 Gen3总线进行扩展以扩展出多路PCIe插槽;异构加速卡12和其他PCIe设备13(例如,SAS控制器、PCIe SSD、BMC控制器、万兆网卡等)插入到PCIe插槽中,用作CPU的协处理器的异构加速卡负责处理CPU下发的计算密集型任务。
服务器单元1的PCIe适配卡11通过传输介质(例如,光纤、电缆等)通信地连接到服务器单元2的PCIe适配卡22,并且服务器单元1的PCIe适配卡12通过传输介质(例如,光纤、电缆等)通信地连接到服务器单元2的PCIe适配卡21。两个服务器单元之间的连接采用PCIex8 Gen3信号并采用Active-Active工作模式,在正常工作状态下,服务器单元分别处理各自的事务,并通过非透明桥的doorbell寄存器互相交换心跳信息以监测对方是否存在异常。当检测到一方的心跳信息出现异常时,表明对方的Host(即CPU)出现故障,此时,正常的另一方服务器单元就会立刻接管该异常服务器单元的相关业务,以保证服务的高可用性。
此外,两个服务器单元之间采用传输介质进行通信,不需要通信协议的转换,由此,不仅可以降低传输延迟进而提高传输效率,而且还可以降低系统的复杂度以及成本。
应当理解的是,上面的描述的目的是说明性的而不是限制性的。在阅读上面的描述时,除了提供的示例外许多实施例和应用都是显而易见的。本发明的范围应参照所附权利要求以及与权利要求所要求的权利等效的全部范围而确定,而不是参照上面的说明而确定。可以预期的是这里所讨论的领域将出现进一步的发展,并且所公开的系统将可以结合到这样的未来的实施例中。总之,应当理解的是本发明能够进行修正和变化。

Claims (10)

1.一种高可用的异构服务器,其特征在于,所述异构服务器包括多个服务器单元,所述多个服务器单元通过传输介质彼此通信地连接,所述服务器单元中的每个包含CPU、PCIeSwitch、一个或多个异构加速卡、多个PCIe适配卡,其中,所述CPU通过PCIe总线分别与所述PCIe适配卡中的一个以及所述PCIe Switch通信地连接,所述异构加速卡与所述PCIeSwitch通信地连接。
2.根据权利要求1所述的高可用的异构服务器,其特征在于,所述异构服务器优选地包含两个服务器单元,并且所述两个服务器单元之间采用Active-Active工作模式。
3.根据权利要求2所述的高可用的异构服务器,其特征在于,所述服务器单元中的每个优选地包含两个所述PCIe适配卡,所述PCIe适配卡中的一个通信地连接到所述CPU,所述PCIe适配卡中的另一个通信地连接到所述PCIe Switch。
4.根据权利要求3所述的高可用的异构服务器,其特征在于,一个所述服务器单元中的与所述CPU通信地连接的所述PCIe适配卡通过所述传输介质与另一个所述服务器单元中的与所述PCIe Switch通信地连接的所述PCIe适配卡通信地连接。
5.根据权利要求1所述的高可用的异构服务器,其特征在于,所述异构加速卡包含GPU加速卡、FPGA加速卡和/或MIC加速卡。
6.根据权利要求1所述的高可用的异构服务器,其特征在于,所述PCIe适配卡工作在非透明桥模式,并且所述PCIe适配卡中的一个通信地连接到所述PCIe Switch的非透明桥接口。
7.根据权利要求1所述的高可用的异构服务器,其特征在于,每个所述服务器单元至少包含一个所述异构加速卡,并且所述异构加速卡以PCIe设备的形式插在所述PCIe Switch的PCIe插槽中以通过所述PCIe总线与所述CPU进行通信。
8.根据权利要求1所述的高可用的异构服务器,其特征在于,所述CPU通过所述PCIeSwitch扩展出多路PCIe总线接口。
9.根据权利要求3所述的高可用的异构服务器,其特征在于,所述PCIe适配卡为所述服务器单元之间的PCIe信号提供retimer功能。
10.根据权利要求1-9中任一项所述的高可用的异构服务器,其特征在于,所述PCIe总线采用x8通道Gen3。
CN201710629119.9A 2017-07-28 2017-07-28 一种高可用的异构服务器 Pending CN107450987A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710629119.9A CN107450987A (zh) 2017-07-28 2017-07-28 一种高可用的异构服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710629119.9A CN107450987A (zh) 2017-07-28 2017-07-28 一种高可用的异构服务器

Publications (1)

Publication Number Publication Date
CN107450987A true CN107450987A (zh) 2017-12-08

Family

ID=60489782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710629119.9A Pending CN107450987A (zh) 2017-07-28 2017-07-28 一种高可用的异构服务器

Country Status (1)

Country Link
CN (1) CN107450987A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376020A (zh) * 2018-02-27 2018-08-07 山东超越数控电子股份有限公司 一种基于atca架构的国产异构多单元服务器
CN108776648A (zh) * 2018-05-28 2018-11-09 郑州云海信息技术有限公司 数据传输方法、系统及fpga异构加速卡和存储介质
CN109889565A (zh) * 2018-12-27 2019-06-14 曙光信息产业(北京)有限公司 一种服务器的互联系统
TWI698833B (zh) * 2018-12-05 2020-07-11 英業達股份有限公司 圖形處理器系統
CN111427822A (zh) * 2020-03-27 2020-07-17 苏州浪潮智能科技有限公司 一种边缘计算系统
US10902549B2 (en) 2018-11-05 2021-01-26 Inventec (Pudong) Technology Corporation Graphics processing system
CN114063726A (zh) * 2021-10-15 2022-02-18 深圳市日海飞信信息系统技术有限公司 基于飞腾cpu平台的5g基站服务器及性能提升方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1851609A (zh) * 2005-04-22 2006-10-25 中国科学院计算技术研究所 一种多io扩展接口的服务器主板装置
CN104639469A (zh) * 2015-02-06 2015-05-20 方一信息科技(上海)有限公司 一种基于pcie互连的计算和存储集群系统
CN105242761A (zh) * 2015-11-17 2016-01-13 浪潮(北京)电子信息产业有限公司 一种服务器架构
CN205901808U (zh) * 2016-08-05 2017-01-18 国家电网公司 一种完成元数据节点自动切换的分布式存储系统
CN106708779A (zh) * 2017-01-22 2017-05-24 济南浪潮高新科技投资发展有限公司 一种服务器及其处理数据的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1851609A (zh) * 2005-04-22 2006-10-25 中国科学院计算技术研究所 一种多io扩展接口的服务器主板装置
CN104639469A (zh) * 2015-02-06 2015-05-20 方一信息科技(上海)有限公司 一种基于pcie互连的计算和存储集群系统
CN105242761A (zh) * 2015-11-17 2016-01-13 浪潮(北京)电子信息产业有限公司 一种服务器架构
CN205901808U (zh) * 2016-08-05 2017-01-18 国家电网公司 一种完成元数据节点自动切换的分布式存储系统
CN106708779A (zh) * 2017-01-22 2017-05-24 济南浪潮高新科技投资发展有限公司 一种服务器及其处理数据的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376020A (zh) * 2018-02-27 2018-08-07 山东超越数控电子股份有限公司 一种基于atca架构的国产异构多单元服务器
CN108776648A (zh) * 2018-05-28 2018-11-09 郑州云海信息技术有限公司 数据传输方法、系统及fpga异构加速卡和存储介质
US10902549B2 (en) 2018-11-05 2021-01-26 Inventec (Pudong) Technology Corporation Graphics processing system
TWI698833B (zh) * 2018-12-05 2020-07-11 英業達股份有限公司 圖形處理器系統
CN109889565A (zh) * 2018-12-27 2019-06-14 曙光信息产业(北京)有限公司 一种服务器的互联系统
CN111427822A (zh) * 2020-03-27 2020-07-17 苏州浪潮智能科技有限公司 一种边缘计算系统
CN114063726A (zh) * 2021-10-15 2022-02-18 深圳市日海飞信信息系统技术有限公司 基于飞腾cpu平台的5g基站服务器及性能提升方法
CN114063726B (zh) * 2021-10-15 2023-07-18 成都坦达飞信科技有限公司 基于飞腾cpu平台的5g基站服务器及性能提升方法

Similar Documents

Publication Publication Date Title
CN107450987A (zh) 一种高可用的异构服务器
CN105279133B (zh) 基于SoC在线重构的VPX并行DSP信号处理板卡
US9697167B2 (en) Implementing health check for optical cable attached PCIE enclosure
EP3699764B1 (en) Redundant ethernet-based secure computer system
CN104813301B (zh) 用于经由中间传送的usb信令的方法和设备
US11215665B2 (en) Debugging solution for multi-core processors
CN105242761A (zh) 一种服务器架构
CN110764585B (zh) 一种通用的独立bmc板卡
CN110865958A (zh) 一种基于lrm的综合交换管理模块的设计方法
CN114721992B (zh) 一种服务器及其服务器管理系统
CN206807466U (zh) 一种基于pcie非透明桥的高可用冗余加密终端
CN102147640A (zh) 一种具有多个主板的服务器
CN103678236B (zh) 一种基于vpx的多总线试验平台的设计方法
US7656789B2 (en) Method, system and storage medium for redundant input/output access
CN103885421A (zh) 一种标准总线控制器
CN104407999A (zh) 一种信息安全访问架构、方法及系统
CN205318374U (zh) 一种rs-232串口的冗余电路
CN216352292U (zh) 服务器主板及服务器
CN205809774U (zh) 一种服务器及其内部的服务器主板
CN107480082A (zh) 一种服务器串口输出方法及结构
CN108199784A (zh) 多功能综合航电测试系统
CN210518371U (zh) 一种变电站网络拓扑定位装置
US20120331153A1 (en) Establishing A Data Communications Connection Between A Lightweight Kernel In A Compute Node Of A Parallel Computer And An Input-Output ('I/O') Node Of The Parallel Computer
CN106713093A (zh) 一种航电数据分发模型及方法
RU158939U1 (ru) Контроллер периферийных интерфейсов (кпи-2)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171208

RJ01 Rejection of invention patent application after publication