CN115794381A - 一种服务器和数据中心 - Google Patents

一种服务器和数据中心 Download PDF

Info

Publication number
CN115794381A
CN115794381A CN202211401377.9A CN202211401377A CN115794381A CN 115794381 A CN115794381 A CN 115794381A CN 202211401377 A CN202211401377 A CN 202211401377A CN 115794381 A CN115794381 A CN 115794381A
Authority
CN
China
Prior art keywords
module
dpu
cpu
server
modules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211401377.9A
Other languages
English (en)
Inventor
张胜
郭锐
贺永宝
孙春甲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202211401377.9A priority Critical patent/CN115794381A/zh
Publication of CN115794381A publication Critical patent/CN115794381A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本申请提供了一种服务器和数据中心,涉及云计算技术领域。服务器包括数据处理节点和至少一个计算节点,其中,数据处理节点包括多个数据处理器DPU模组,数据处理节点的多个DPU模组之间通讯连接,计算节点包括中央处理器CPU模组,CPU模组与各DPU模组均通讯连接。根据本申请实施例的技术方案,服务器的单路服务传输路径包括以CPU模组为主的计算节点和以DPU模组为主的数据处理节点,通过在单路服务传输路径上配置多个DPU模组,多个DPU模组构成了冗余架构,从而降低DPU故障对数据处理节点所在的单路服务传输路径的影响。

Description

一种服务器和数据中心
技术领域
本申请涉及云计算技术领域,尤其涉及一种服务器和数据中心。
背景技术
基于芯片工艺制程和三维(3-dimension,3D)封装技术的不断演进,服务器的核心组件中央处理器(Central Processing Unit,CPU)往超多核、高功耗、高输入输出(InputOutput,IO)带宽持续迭代。在云计算的应用场景下,单个CPU的核数增加会一定程度降低算力的总拥有成本(Total Cost of Ownership,TCO),但也会面对另一个问题,就是CPU故障产生的宕机影响面,CPU核数越多,在CPU故障后影响的用户就越多。
发明内容
本申请实施例提供了一种服务器和数据中心,以提升服务器的性能。
第一方面,本申请实施例提供一种服务器,包括:数据处理节点,包括多个数据处理器DPU模组;数据处理节点的多个DPU模组之间通讯连接;至少一个计算节点,计算节点包括中央处理器CPU模组,CPU模组与各DPU模组均通讯连接。
第二方面,本申请实施例提供一种数据中心,包括本申请任一实施例的服务器。
根据本申请实施例的技术方案,服务器的单路服务传输路径包括以CPU模组为主的计算节点和以DPU模组为主的数据处理节点,其中,数据处理节点包括多个DPU模组,以在单路服务传输路径上配置多个DPU模组。服务器通过多个DPU模组管理CPU服务资源,多个DPU模组对CPU服务资源的资源管理互为备份,从而可以降低DPU模组故障对数据处理节点所在的单路服务传输路径的影响。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1示出根据本申请实施例的服务器100的架构示意图。
图2示出根据本申请实施例的服务器100一种实施方式的通讯连接示意图。
图3示出根据本申请实施例的服务器100一种实施方式的整机实现示意图。
图4示出根据本申请实施例的服务器100一种实施方式的供电系统示意图。
图5示出根据本申请实施例的数据中心200的架构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它形式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
服务器是指具有高计算能力,能够通过网络提供给多个用户(包括企业、组织、个人)使用的计算机。服务器在硬件上由处理器、硬盘、内存、系统总线等构成,与通用的计算机架构类似。在数据中心中,服务器是面向最终用户提供计算资源、存储资源和网络转发资源,且在整个数据中心的总拥有成本(Total Cost of Ownership,TCO)中占据至关重要的角色。
数据中心包括金融数据中心、企业数据中心和互联网云数据中心。随着云计算、大数据、人工智能(Artificial Intelligence,AI)、视频点播等业务的快速增长,互联网云数据中心规模統越来越大,用户数量激增,互联网数据中心对服务器的稳定、高效、灵活、安全提出了更好要求。另一方面,基于芯片工艺制程和3D封装技术的不断演进,服务器单机性能得到提升。服务器的核心组件CPU能力从2路32核到4路192核,单机救障产生的影响也因此呈倍数放大。
数据处理器(Data Processing Unit,DPU)是以数据为中心构造的处理器,也可以叫做专用数据处理器。DPU要解决的核心问题是基础设施的“降本增效”,即将CPU处理效率低下、GPU处理不了的负载卸载到DPU,由DPU接管,进而提升整个计算系统的效率、降低整体系统的总体拥有成本(TCO)。
在互联网云数据中心的应用场景中,DPU最直接的作用是作为CPU的卸载引擎,接管网络虚拟化、硬件资源池化、存储管理等基础设施层服务,释放CPU的算力到上层应用,即服务器通过DPU对网络、服务管控、存储等做资源管理。随着DPU技术的发展,DPU不仅可以作为运算的加速引擎,还具备控制平面的功能,能够运行独立的操作系统,更高效地完成网络虚拟化、IO虚拟化、存储虚拟化等任务,彻底将CPU的算力释放给上层应用。但是,DPU在服务器的整个硬件链路中是一个独立单点路径,DPU的故障直接影响对接的CPU资源无法对外服务。
图1示出根据本申请实施例的服务器100的架构示意图。该服务器100包括计算节点101和数据处理节点102,其中,计算节点101可以是一个,也可以是多个。计算节点101包括CPU模组,数据处理节点102包括多个DPU模组,例如为2个DPU模组、4个DPU模组、8个DPU模组等。多个DPU模组之间通讯连接,以及CPU模组与多个DPU模组均分别通讯连接。其中,DPU模组的数量可以根据对接的CPU模组可支持的数量以及DPU模组的管理能力进行设置。
示例性地,CPU模组可以包括CPU和内存,可以运行独立的操作系统,为用户提供计算服务。DPU模组可以包括DPU和内存,可以运行独立的操作系统,如Hypervisor操作系统,DPU模组对接CPU模组,接管网络、服务管控、存储等方面的数据处理功能,以释放CPU算力到上层应用。
本实施例中,CPU可以是多核处理器,每个CPU作为一个独立的主机(Host)系统,与其他CPU在供电和管理上都是独立,相互之间任何耦合。DPU可通过现场可编程门阵列(Field Programmable Gate Array,FPGA)或集成电路(Application SpecificIntegrated Circuit,ASIC)实现。
需要说明的是,以上仅是DPU模组和DPU功能的示例性介绍,随着异构计算发展,DPU架构和形态也在不断发展,DPU可支持的资源管理功能类型也在扩展,本实施例对此不作限定。
其中,服务器的单路服务传输路径包括以CPU模组为主的计算节点和以DPU模组为主的数据处理节点。示例性地,服务器的单路服务传输路径可以包括一个计算节点和一个数据处理节点。其中,数据处理节点包括多个DPU模组,以在单路服务传输路径上配置多个DPU模组。即在单路服务传输路径上,通过一个CPU模组和多个DPU模组对外提供服务,各单路服务传输路径之间在对外服务功能上相同独立。
因此,本实施例中,多个DPU模组对CPU模组的资源管理互为备份,从而在服务器的单路服务传输路径上形成了DPU冗余架构形态,可以支持多个DPU模块之间的动态切换,降低DPU模组故障对数据处理节点所在的单路服务传输路径的影响,维护服务器持续在线,使服务器可以向外提供稳定服务,从而提高服务器的稳定性。
示例性地,计算节点可以是多个,即CPU模组可以是多个。DPU模组支持多主机(MultiHost),即同一DPU模组可以对接多个CPU模组。
示例性地,各CPU模组和各DPU模组均分别设置有外设部件快速互连标准(Peripheral Component Interconnect Express,PCIE)接口。DPU模组的PCIe接口之间通讯连接,从而实现同一数据处理节点的各DPU模组之间的通讯连接。同一CPU模组外设多个PCIe接口,以分别与各DPU模组上的PCIe接口通讯连接,从而实现同一单路服务传输路径上的CPU模组与各DPU模组的分别通讯连接。
需要说明的是,以上通讯连接方式仅为示例,通讯接口的类型、设置数量和连接方式随着计算机技术的发展可以随着变化,本实施例对此不作限定。另外,“通讯连接”可以是直接通讯连接,也可以通过中间媒介间接通讯连接。
图2示出服务器100一种实施方式的通讯连接示意图。如图2所示,以数据处理节点102包括两个DPU模组,CPU模组为N+1个(即计算节点101为N+1个)为例。两个DPU模组示例为第一DPU模组和第二DPU模组,N+1个CPU模组示例为CPU模组0、CPU模组1……CPU模组N,其中,N为大于等于零的整数。
其中,DPU模组包括网络交换(Lan Switch)模块。例如:第一DPU模组集成了DPU0和网络交换模块,第二DPU模组集成了DPU1和网络交换模块。各DPU模组的网络交换模块之间通过以太网连接,例如通过GE千兆以太网连接,即第一DPU模组的网络交换模块和第二DPU模组的网络交换模块之间连接有GE千兆以太网,从而实现DPU0和DPU1之间的数据交互,如下述的资源管理信息的同步。
CPU模组包括主板管理控制模块(Base board Management Controller,BMC)。例如:CPU模组0集成了CPU0和BMC,CPU模组1集成了CPU1和BMC……CPU模组N集成了CPUN和BMC。
其中,BMC是CPU模组的管理控制系统,可以独立于CPU主业务程序单独运行,可用于CPU远程管理,包括远程重启、健康控制等。每个CPU模组的BMC外接多组GE千兆以太网,分别对接到不同DPU模组的网络交换模块,从而实现DPU0对CPU0、CPU1……CPUN的资源管理,以及DPU1对CPU0、CPU1……CPUN的资源管理,提供服务器100的对外服务。
示例性地,如图3所示,在硬件层面上,CPU模组和DPU模组均可以采用1U半宽的模组实现。其中,“U”是一种表示服务器或服务器组件外部尺寸的单位,是unit的缩略语,1U=44.45mm。通过服务器100的整机系统集成各CPU模组和各DPU模组,即本实施例中的服务器100为单机服务器。
根据本申请实施例提供的服务器,服务器的单路服务传输路径包括以CPU模组为主的计算节点和以DPU模组为主的数据处理节点,通过在单路服务传输路径上配置多个DPU,多个DPU对CPU资源管理可以互为备份,从而降低DPU故障对数据处理节点所在的单路服务传输路径的影响,进而降低CPU宕机的影响面。
下面对服务器100的供电系统进行示例性介绍。
在一种实施方式中,如图4所示,本实施例的服务器100还包括供电系统103,各CPU模组和各DPU模组均配置有独立的电源输入端,各电源输入端均与供电系统103通讯连接,从而使供电系统103为各CPU模组和各DPU模组供电。
示例性地,供电系统103包括多个供电单元(Power Supply Unit,PSU),通过多个PUS对各CPU模组和各DPU模组供电。其中,每个DPU模组和CPU模组的电源输入端均设置有电源防护隔离组件,从而在各DPU模组和各CPU模组的电源入口处分别做防护隔离。
示例性地,电源防护隔离组件包括但不限于短路保护组件、过压保护组件、欠压保护组件、隔离组件等,避免在电源输入端出现局部短路或过流。
如此,可以在单个模组电源异常时,不影响供电系统103对其他模组的供电,从而提高电源供电可靠性。
下面对服务器100的管理系统进行示例性介绍。
如图2所示,在服务器100正常工作状态下,第一DPU模组和所述第二DPU模组同时工作,通过通讯接口对接到一个或多个CPU模组,接管所对接的CPU模组的服务管控、网络、存储等功能,即对CPU资源进行资源管理,包括对管控、网络、存储等作资源管理,并生成了相应的资源管理信息。
示例性地,CPU模组上有操作系统,DPU模组上也有操作系统,两个操作系统通过之间的通讯接口做数据传输,实现对CPU模组的CPU资源的管控调度。
其中,第一DPU模组用于对CPU模组的第一CPU资源进行资源管理,第二DPU模组用于对CPU模组的第二CPU资源进行资源管理。以CPU模组0为例,第一DPU模组对CPU模组0的一部分资源(第一CPU资源)进行资源管理,生成相应的资源管理信息;第二DPU模组对CPU模组0的另一部分资源(第二CPU资源)进行资源管理,生成相应的资源管理信息。
在一种实施方式中,第一DPU模组和第二DPU模组之间通过GE接口同步对方的资源管理信息同步,即将对方的资源管理信息进行备份。
示例性地,第一DPU模组同步第二DPU模组的资源管理信息,在第二DPU模组故障的情况下,第一DPU模组基于从第二DPU模组中同步的资源管理信息,对第二CPU资源进行资源管理。从而,在第二DPU模组故障的情况下,由第一DPU模组接管对接的CPU模组的全部CPU资源,对该CPU模组进行全部资源管理。
在一种实施方式中,在第二DPU模组恢复工作的情况下,第一DPU模组将针对第二CPU资源的资源管理信息同步给第二DPU模组,第二DPU模组基于从第一DPU模组中同步的资源管理信息,对第二CPU资源进行资源管理。从而,在第二DPU模组恢复工作的情况下,由第一DPU模组释放之前由第二DPU模组管理的CPU资源,转换为正常工作状态,即由第一DPU模组和第二DPU模组共同管理对接的CPU模组的CPU资源。
需要说明的是,以上是以第二DPU模组故障为示例,本领域技术人员可以理解的是,当第一DPU模组故障时,同样可以采用类似的处理方式,即数据处理节点中的各DPU模组之间互为备份。
示例性地,当数据处理节点102上的DPU为4个或更多个时,各DPU模组可以对接同一CPU模组,共同对该CPU模组的服务资源进行资源管理。
在一种实施方式中,本实施例的服务器还可以包括一个或多个主板(图中为示出),用于可插拔地设置各CPU模组和各DPU模组。例如:各DPU模组和各CPU模组均可插拔地设置在一个主板上;或者,一个CPU模组可插拔地设置在一个主板上,一个CPU模组可插拔地设置一个主板上;或者,多个DPU模组可插拔地设置在一个主板上,多个CPU模组可插拔地一个主板上。各DPU模组和各CPU模组在主板上的集成方式和主板数量,本实施例不作限定。
基于DPU模组和CPU模组可插拔地设置在服务器100中,使得DPU模组和CPU模组均支持在线热更换,在单个DPU模组或单个CPU模组出现异常故障后,可以在服务器100不停机的情况下,直接更换故障的DPU模组或CPU模组。
本申请实施例还提供一种数据中心,包括以上任一实施方式的服务器。图5示出数据中心200的架构示意图。如图5所示,数据中心200包括多个服务器100,该数据中心可以是金融数据中心、企业数据中心和互联网云数据中心等。
上述实施例的服务器100和数据中心200的其他构成,可以采用于本领域普通技术人员现在和未来知悉的各种技术方案,这里不再详细描述。
在本说明书的描述中,参考术语“实施例”、“一种实施方式”、“示例”等的描述意指结合该实施例或实施方式或示例描述的具体特征、结构或者特点包括于本申请的至少一个实施例或实施方式或示例中。而且,描述的具体特征、结构或者特点可以在任一个或多个实施例或实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或实施实施方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本申请中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、“集成”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接,还可以是通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。例如“通讯连接”
在本申请中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“上”、“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征,或标识第二特征具有第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度小于第二特征。
上文的公开提供了许多不同的实施方式或例子用来实现本申请的不同结构。为了简化本申请的公开,上文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本申请。此外,本申请可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。
上述方法中,用于实现特定逻辑功能或过程的步骤,可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。并且,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种服务器,包括:
数据处理节点,包括多个数据处理器DPU模组;所述数据处理节点的多个DPU模组之间通讯连接;
至少一个计算节点,所述计算节点包括中央处理器CPU模组,所述CPU模组与各所述DPU模组均通讯连接。
2.根据权利要求1所述的服务器,还包括供电系统,所述CPU模组和各所述DPU模组均配置有独立的电源输入端,各所述电源输入端均与所述供电系统通讯连接。
3.根据权利要求2所述的服务器,其中,各所述电源输入端均设置有电源防护隔离组件。
4.根据权利要求1所述的服务器,其中,所述DPU模组集成有网络交换模块,各所述DPU模组的网络交换模块之间通讯连接。
5.根据权利要求4所述的服务器,其中,所述CPU模组集成有主板管理控制BMC模块,所述BMC模块与各所述DPU模组的网络交换模块均通讯连接。
6.根据权利要求1至5任一项所述的服务器,其中,所述多个DPU模组包括第一DPU模组和第二DPU模组,所述第一DPU模组用于对所述CPU模组的第一CPU资源进行资源管理,所述第二DPU模组用于对所述CPU模组的第二CPU资源进行资源管理。
7.根据权利要求6所述的服务器,其中,所述第一DPU模组同步所述第二DPU模组的资源管理信息,在所述第二DPU模组故障的情况下,所述第一DPU模组基于从所述第二DPU模组中同步的资源管理信息,对所述第二CPU资源进行资源管理。
8.根据权利要求7所述的服务器,其中,在所述第二DPU模组恢复工作的情况下,所述第一DPU模组将针对所述第二CPU资源的资源管理信息同步给所述第二DPU模组,所述第二DPU模组基于从所述第一DPU模组中同步的资源管理信息,对所述第二CPU资源进行资源管理。
9.根据权利要求1至5任一项所述的服务器,还包括主板,所述DPU模组和/或所述CPU模组可插拔地设置在所述主板上。
10.一种数据中心,包括权利要求1至9任一项所述的服务器。
CN202211401377.9A 2022-11-09 2022-11-09 一种服务器和数据中心 Pending CN115794381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211401377.9A CN115794381A (zh) 2022-11-09 2022-11-09 一种服务器和数据中心

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211401377.9A CN115794381A (zh) 2022-11-09 2022-11-09 一种服务器和数据中心

Publications (1)

Publication Number Publication Date
CN115794381A true CN115794381A (zh) 2023-03-14

Family

ID=85436438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211401377.9A Pending CN115794381A (zh) 2022-11-09 2022-11-09 一种服务器和数据中心

Country Status (1)

Country Link
CN (1) CN115794381A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116991783A (zh) * 2023-09-26 2023-11-03 苏州元脑智能科技有限公司 一种多节点服务器架构

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116991783A (zh) * 2023-09-26 2023-11-03 苏州元脑智能科技有限公司 一种多节点服务器架构
CN116991783B (zh) * 2023-09-26 2024-02-09 苏州元脑智能科技有限公司 一种多节点服务器架构

Similar Documents

Publication Publication Date Title
CN102404390B (zh) 高速实时数据库的智能化动态负载均衡方法
US7827442B2 (en) Shelf management controller with hardware/software implemented dual redundant configuration
US9280428B2 (en) Method for designing a hyper-visor cluster that does not require a shared storage device
US8230256B1 (en) Method and apparatus for achieving high availability for an application in a computer cluster
CN102402395B (zh) 基于仲裁磁盘的高可用系统不间断运行方法
US20200042410A1 (en) Role designation in a high availability node
US8943258B2 (en) Server direct attached storage shared through virtual SAS expanders
US20120144233A1 (en) Obviation of Recovery of Data Store Consistency for Application I/O Errors
US7356728B2 (en) Redundant cluster network
EP1815341A1 (en) Fault tolerance and recovery in a high-performance computing (hpc) system
US20040015581A1 (en) Dynamic deployment mechanism
US9208124B2 (en) Reset of processing core in multi-core processing system
CN111949444A (zh) 一种基于分布式服务集群的数据备份与恢复系统及方法
CN103023973A (zh) 一种基于cpci结构的集群服务器设计方法
CN115794381A (zh) 一种服务器和数据中心
WO2021012169A1 (zh) 一种提高存储系统可靠性的方法和相关装置
CN110413225B (zh) 高可靠集群存储双活配置方法、系统、终端及存储介质
CN110661652A (zh) 一种互联网设备连接及数据转发处理方法
CN110806989A (zh) 一种存储服务器
Engelmann et al. Concepts for high availability in scientific high-end computing
WO2021244500A1 (zh) 一种备份状态确定方法、装置及系统
US11755100B2 (en) Power/workload management system
JP6026142B2 (ja) 複数計算機が独立動作する制御システム
CN110650609B (zh) 一种分布式储存的云服务器
CN111880999A (zh) 用于高密度刀片服务器的高可用监控管理装置及冗余切换方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination