CN113535471A - 集群服务器 - Google Patents

集群服务器 Download PDF

Info

Publication number
CN113535471A
CN113535471A CN202110719694.4A CN202110719694A CN113535471A CN 113535471 A CN113535471 A CN 113535471A CN 202110719694 A CN202110719694 A CN 202110719694A CN 113535471 A CN113535471 A CN 113535471A
Authority
CN
China
Prior art keywords
server
disk array
disk
control right
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110719694.4A
Other languages
English (en)
Inventor
张弛
蔡剑峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202110719694.4A priority Critical patent/CN113535471A/zh
Publication of CN113535471A publication Critical patent/CN113535471A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请涉及一种集群服务器,包括:交换机和至少三个服务器,服务器包括基板管理控制器和存储设备;存储设备包括硬盘控制器和磁盘阵列,硬盘控制器通过磁盘连接器连接至少一个其他服务器的磁盘阵列;基板管理控制器与交换机连接,基板管理控制器用于控制硬盘控制器获取或释放对当前服务器的磁盘阵列和/或至少一个其他服务器的磁盘阵列的控制权。通过本申请,解决了相关技术的集群服务器的存储资源利用率低的问题,提高了集群服务器的存储资源利用率。

Description

集群服务器
技术领域
本申请涉及服务器集群领域,特别是涉及一种集群服务器。
背景技术
服务器集群就是指将很多服务器集中起来一起进行同一种服务,在客户端看来就像是只有一个服务器。集群可以利用多个计算机进行并行计算从而获得很高的计算速度,也可以用多个计算机做备份,从而使得任何一个机器坏了整个系统还是能正常运行。
现有的集群服务器通常只能做到软件系统层面的集群,也就是当某一台服务器出现故障,运行在这台服务器上的应用就会切换到其他的服务器上,而此故障机器上的硬盘资源就不会再被应用,传输到这个服务器上的存储链路也会被切断,从而也不能得到此服务器上的存储内容,导致存储资源的利用率得不到充分利用。
发明内容
在本实施例中提供了一种集群服务器,以解决相关技术中集群服务器的存储资源利用率低的问题。
在本实施例中提供了一种集群服务器,包括:交换机和至少三个服务器,所述服务器包括基板管理控制器和存储设备;
所述存储设备包括硬盘控制器和磁盘阵列,所述硬盘控制器通过磁盘连接器连接至少一个其他服务器的磁盘阵列;
所述基板管理控制器与所述交换机连接,所述基板管理控制器用于控制所述硬盘控制器获取或释放对当前服务器的磁盘阵列和/或至少一个其他服务器的磁盘阵列的控制权。
在其中的一些实施例中,各所述硬盘控制器通过磁盘连接器连接当前服务器的磁盘阵列和两个其他服务器的磁盘阵列,各所述服务器的存储设备以环状拓扑结构连接。
在其中的一些实施例中,所述基板管理控制器用于监测当前服务器内各硬件的运行状态,并在所述运行状态异常的情况下,控制当前服务器的硬盘控制器释放对当前服务器的磁盘阵列的控制权,向其他服务器的基板管理控制器发送当前磁盘阵列控制权移交指令;以及在接收到其他服务器的基板管理控制器发送的其他磁盘阵列控制权移交指令的情况下,控制当前服务器的硬盘控制器获取对其他服务器的磁盘阵列的控制权。
在其中的一些实施例中,所述服务器还包括中央处理器;
所述基板管理控制器用于监测当前服务器内各硬件的运行状态,并在所述运行状态异常的情况下,向当前服务器的中央处理器发送当前磁盘阵列控制权释放指令,向其他服务器的基板管理控制器发送当前磁盘阵列控制权移交指令;
所述基板管理控制器还用于在接收到其他服务器的基板管理控制器发送的其他磁盘阵列控制权移交指令的情况下,向当前服务器的中央处理器发送其他磁盘阵列控制权获取指令;
所述中央处理器用于在接收到当前磁盘阵列控制权释放指令的情况下,控制当前服务器的硬盘控制器释放对当前服务器的磁盘阵列的控制权,以及在接收到其他磁盘阵列控制权获取指令的情况下,控制当前服务器的硬盘控制器获取对其他服务器的磁盘阵列的控制权。
在其中的一些实施例中,所述基板管理控制器还用于在将当前服务器的磁盘阵列的控制权移交给其他服务器之后,对当前服务器的硬件进行自检修复,并在自检修复成功之后,重新获取对当前服务器的磁盘阵列的控制权。
在其中的一些实施例中,各所述服务器的磁盘阵列采用独立电源供电,所述基板管理控制器用于通过重启当前服务器进行自检修复。
在其中的一些实施例中,
所述交换机用于进行具有邻接关系的基板管理控制器之间的信息转发,其中,所述邻接关系由各所述服务器的存储设备的拓扑关系确定;或者
所述交换机用于将任一所述服务器的基板管理控制器发送的信息转发给其他服务器的基板管理控制器。
在其中的一些实施例中,所述集群服务器还包括控制节点,所述控制节点与所述交换机连接,用于配置各所述服务器的基板管理控制器。
在其中的一些实施例中,所述磁盘连接器为串行连接小型计算机系统接口(SAS)连接器。
在其中的一些实施例中,每个所述服务器的基板管理控制器和存储设备在物理上集中设置。
与相关技术相比,在本实施例中提供的集群服务器,包括:交换机和至少三个服务器,服务器包括基板管理控制器和存储设备;存储设备包括硬盘控制器和磁盘阵列,硬盘控制器通过磁盘连接器连接至少一个其他服务器的磁盘阵列;基板管理控制器与交换机连接,基板管理控制器用于控制硬盘控制器获取或释放对当前服务器的磁盘阵列和/或至少一个其他服务器的磁盘阵列的控制权,解决了相关技术的集群服务器的存储资源利用率低的问题,提高了集群服务器的存储资源利用率。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本实施例的服务器的示意图。
图2是本实施例提供的集群服务器的结构示意图。
图3是本实施例的线状拓扑结构的示意图。
图4是本实施例的环状拓扑结构的示意图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
本实施例提供了一种集群服务器,该集群服务器包括至少三个服务器。图1是本实施例的服务器的示意图,服务器又可以称为主机,如图1所示,每个服务器都包括计算部分10和存储部分20。其中,计算部分10通常包括中央处理器110(CPU,又称为主控制器或主控);存储部分通常由存储设备210组成。
存储设备210包括硬盘控制器212和磁盘阵列211。需要说明的是,本实施例所称的磁盘阵列211可以仅包括一块磁盘驱动器,也可以是由多块磁盘驱动器组合成的磁盘组。并且,构成该磁盘阵列的磁盘驱动器不限于HDD磁盘驱动器还是SDD磁盘驱动器,在一些实施例中也可以是HDD磁盘驱动器和SDD磁盘驱动器的组合。并且,磁盘阵列211可以采用JBOD(Just a Bunch Of Disks)技术由所有磁盘驱动器串联而成的大容量磁盘驱动器,也可以是采用诸如RAID(独立磁盘冗余阵列)技术被服务器所使用,从而提高磁盘容错能力。
计算部分10与磁盘阵列211之间的接口设备称为硬盘控制器212,也被称为磁盘驱动器适配器。硬盘控制器212在软件层面用来解释计算部分10给出的命令,向磁盘驱动器发出各种控制信号;检测磁盘驱动器状态,或者按照规定的磁盘数据格式将数据写入和读出磁盘也是由硬盘控制器212控制。从硬件层面来说,硬盘控制器212提供了一个或者多个用于连接磁盘阵列211的物理接口。硬盘控制器212可以通过这些物理接口连接一个或者多个磁盘阵列211,以及获取或释放对物理接口连接的磁盘阵列211的控制权。
每个磁盘阵列211可以包括一个或者多个用于与硬盘控制器212连接的物理接口。例如,基于SAS(串行连接小型计算机系统接口)技术的磁盘阵列211可以通过与多个服务器的硬盘控制器212连接,实现多个服务器共享同一个磁盘阵列211。
每个服务器的计算部分10和存储部分20可以在物理上集中设置,例如设置在同一个服务器机箱内。计算部分10和存储部分20可以设置在同一主电路板上,也可以分开设置。例如,存储部分20设置在服务器背板,计算部分10设置在主电路板上。
除了存储部分20和计算部分10之外,服务器通常还有具有两个核心固件,分别为BIOS(基础输入输出系统)(图未示)和BMC(基板管理控制器)(图未示)。其中,在计算机体系中,BIOS有这比服务器的操作系统更为底层和基础性的作用,主要负责检测、访问和调试底层硬件资源,并分配给操作系统,以保障整个及其顺利安全运转。而BMC则是独立于服务器的操作系统之外的小型操作系统,通常集成在主板上,或者通过PCIe等形式插在主板上。BMC对外的表现形式通常为一个标准的RJ45网口,并且BMC拥有独立的IP固件系统。通常服务器可以使用BMC指令进行无人值守操作,例如服务器的远程管理、监控、安装、重启等。
图2是本实施例提供的集群服务器的结构示意图。在图2中以五个服务器为例进行示例性说明,在其他实施例中服务器数量可以为大于三个的任意数,通常根据对集群服务器的计算资源和存储资源的需求具体设定,在本实施例中并不限定其数量。
如图2所示的集群服务器包括交换机40和五个服务器。每个服务器的硬盘控制器212通过磁盘连接器(例如SAS连接器)连接到当前服务器的磁盘阵列211和至少一个其他服务器的磁盘阵列211。其中,其他服务器是指集群服务器中除当前服务器之外的其他服务器。
BMC 30通过RJ45网口与交换机40连接,BMC 30还与当前服务器的硬盘控制器212连接。BMC 30用于控制硬盘控制器212获取或释放对当前服务器的磁盘阵列211和/或至少一个其他服务器的磁盘阵列211的控制权。
本实施例提供的集群服务器利用各服务器的BMC 30通过交换机40通讯,并由BMC30控制硬盘控制器212获取或者释放对当前服务器的磁盘阵列211和/或至少一个其他服务器的磁盘阵列211的控制权。第一方面,由于BMC 30是独立于服务器操作系统之外的小型操作系统,因此,即使服务器的操作系统因硬件故障或者软件故障而崩溃了,BMC 30仍能正常工作,保证集群服务器的磁盘阵列211的控制权能够正常移交;第二方面,上述集群服务器的交换机40用于BMC 30之间的信息交换且交换的信息量很小,磁盘阵列211则通过SAS连接器直接与其他服务器的硬盘控制器212连接,因此上述实施例对交换机40的性能要求低,相较于相关技术中采用诸如成本昂贵的SAS交换机实现磁盘阵列211的共享而言,本实施例仅普通的交换机和SAS连接器就能够满足需求,大大地降低了成本。第三方面,本实施例中各个服务器的BMC 30没有主从关系,各BMC 30独立控制相应服务器的磁盘阵列的控制,相对于相关技术中采用某个服务器作为主服务器进行磁盘阵列的控制而言,本实施例避免了主服务器故障导致的磁盘阵列的控制权无法移交的问题,提高了鲁棒性。
为了避免采用SAS交换机对集群服务器中所有的磁盘阵列211进行互联导致的成本增加,本实施例中各硬盘控制器212通过磁盘连接器(SAS连接器)连接当前服务器的磁盘阵列211和至少一个其他服务器的磁盘阵列211。通过这样的连接,各服务器的存储设备可以形成诸如图3所示的线状拓扑结构。线状拓扑结构下,当处于拓扑结构两端的服务器发生了故障,则存储设备只能够被一个相邻的服务器接管,在这个相邻的服务器计算负荷较大的情形下,可能导致相邻的服务器接管存储设备后因负荷进一步增大而引发自身故障,导致集群服务器稳定性降低。或者拓扑结构两端出现连续两台相邻的服务器发生了故障,则最外侧的服务器的存储设备将不能被任何一个服务器接管,由此可见,存储设备的利用率仍有提高空间。
为此,在其中的一些实施例中,各硬盘控制器212通过磁盘连接器(SAS连接器)连接当前服务器的磁盘阵列211和两个其他服务器的磁盘阵列,各服务器的存储设备形成诸如图4所示的环状拓扑结构。这样的连接方式,使得任意一个服务器故障的情况下,都有两个相邻的服务器可以接管该故障服务器的存储设备;即使连续相邻的两个服务器故障也可以保证分别有一个服务器接管这两个故障服务器的磁盘阵列;只有在连续相邻的三个服务器故障的情况下,才可能导致有一个服务器的存储设备不能被任何一个服务器接管。由此可见,采用环状拓扑结构提高了集群服务器的稳定性及存储设备的利用率。
下面对本实施例的集群服务器的工作过程进行描述。
实施例1
BMC 30作为服务器中第三方的独立存在,能够监控整个服务器的硬件信息,例如系统的温度、电源电压、风扇转速等,还能够监控系统网络模块、用户交互模块(例如USB模块,显示模块)或者其他模块的工作状态。一旦服务器的某个模块出现了能够影响服务器正常业务能力的异常,BMC 30判断到服务器无完成存储功能,则BMC 30通过交换机40将异常信息传递出去,并自动分配相邻的服务器接管当前服务器的磁盘阵列211,从而实现集群高可用性。
在本实施例中,由各服务器的BMC 30直接控制硬盘控制器212获取或释放对当前服务器和/或其他服务器的磁盘阵列的控制权。
参照图4的拓扑结构,本实施例提供的集群服务器的工作过程包括如下步骤:
步骤1,服务器A的BMC 30监测服务器内各硬件的运行状态。
步骤2,服务器A的BMC 30在硬件的运行状态异常的情况下,控制服务器A的硬盘控制器212释放对服务器A的磁盘阵列211的控制权。
步骤3,服务器A的BMC 30在硬件的运行状态异常的情况下,通过交换机40向与服务器A相邻的服务器B的BMC 30发送磁盘阵列控制权移交指令。
其中,服务器A的BMC 30向服务器B的BMC 30发送的磁盘阵列控制权移交指令中携带有服务器A的标识信息,或者携带有服务器A的磁盘阵列的标识信息。
步骤4,服务器B的BMC 30在通过交换机40接收到服务器A的BMC 30发送的磁盘阵列控制权移交指令的情况下,控制服务器B的硬盘控制器212获取对服务器A的磁盘阵列211的控制权。
其中,磁盘阵列控制权移交指令可以携带有发送方服务器的标识信息,或者发送方服务器的磁盘阵列的标识信息。在BMC 30中可以维护一个硬盘控制器212的物理接口和磁盘阵列211的映射表,以获知各个物理接口所连接的磁盘阵列211的标识信息,或者磁盘阵列211所属的服务器的标识信息。在服务器B的BMC 30获得磁盘阵列控制权移交指令后,根据磁盘阵列控制权移交指令中携带的标识信息来确定所要接管的磁盘阵列211所连接的物理接口,从而控制硬盘控制器212获得该物理接口所连接的服务器A的磁盘阵列211的控制权。
需要说明的是,在采用诸如SAS技术的磁盘阵列211的情形下,释放故障服务器的磁盘阵列的步骤可以是非必需的,例如,上述的步骤2可以省去。
实施例2
在本实施例中,每个服务器的中央处理器110分别与当前服务器的BMC 30和硬盘控制器212连接。中央处理器110还分别与交换机连接,用于通过交换机进行业务数据的交换。中央处理器110连接的交换机可以与BMC 30所连接的交换机为同一个,也可以是不同的交换机。中央处理器110通过交换机进行业务数据的交换,以实现集群计算。
由于服务器的中央处理器110也可以控制硬盘控制器212获取或者释放对磁盘阵列211的控制权,以及中央处理器110可以与BMC 30通讯,因此,在服务器出现某些故障而中央处理器110还能够正常工作的情形下,BMC 30也可以通过中央处理器110来控制磁盘阵列211的控制权。
参照图4的拓扑结构,本实施例提供的集群服务器的工作过程包括如下步骤:
步骤1,服务器A的BMC 30监测服务器内各硬件的运行状态。
步骤2,服务器A的BMC 30在硬件的运行状态异常的情况下,向服务器A的中央处理器110发送磁盘阵列控制权释放指令。
步骤3,服务器A的中央处理器110在接收到磁盘阵列控制权释放指令的情况下,控制服务器A的硬盘控制器212释放对服务器A的磁盘阵列的控制权。
步骤4,服务器A的BMC 30或中央处理器110在硬件的运行状态异常的情况下,通过交换机40分别向与服务器A相邻的服务器B和服务器E的BMC 30发送磁盘阵列控制权移交指令。
其中,服务器A的BMC 30向服务器B和服务器E的BMC 30发送的磁盘阵列控制权移交指令中携带有服务器A的标识信息,或者携带有服务器A的磁盘阵列的标识信息。
步骤5,服务器B和服务器E的BMC 30在接收到服务器A的BMC 30发送的磁盘阵列控制权移交指令的情况下,分别向其服务器的中央处理器110发送磁盘阵列控制权获取指令。其中,磁盘阵列控制权获取指令中携带有服务器A的标识信息,或者携带有服务器A的磁盘阵列的标识信息。
步骤6,服务器B和服务器E的中央控制110在接收到磁盘阵列控制权获取指令的情况下,根据磁盘阵列控制权获取指令中携带的标识信息确定待接管的磁盘阵列为服务器A的磁盘阵列,并控制服务器B的硬盘控制器212获取对服务器A的磁盘阵列211的控制权。
其中,服务器B和服务器E的硬盘控制器212可以共同获取对服务器A的磁盘阵列211的控制权;服务器B和服务器E也可以通过协商机制或者竞争机制确定其中一个服务器的硬盘控制器212来获取对服务器A的磁盘阵列211的控制权。
需要说明的是,在采用诸如SAS技术的磁盘阵列211的情形下,释放故障服务器的磁盘阵列的步骤可以是非必需的,例如,上述的步骤2和步骤3可以省去。
在一些实施例中,BMC 30还可以在将当前服务器的磁盘阵列211的控制权移交给其他服务器之后,对当前服务器的硬件进行自检修复,并在自检修复成功之后,重新获取对当前服务器的磁盘阵列211的控制权。重新获取对当前服务器的磁盘阵列211的控制权的过程与释放当前服务器的磁盘阵列211的控制权的过程相互对应,在本实施例中不再赘述。
其中,各服务器的磁盘阵列211采用相对于计算部分10独立的电源供电,BMC 30通过重启当前服务器进行自检修复,并保证当前服务器的磁盘阵列211不断电而能够被其他服务器接管和利用。在自检修复后故障问题消除,则BMC30可以告知接管当前服务器的服务器释放当前服务器的磁盘阵列211的控制权,并控制当前服务器的硬盘控制器212重新获取当前服务器的磁盘阵列211的控制权,从而完成故障自检修复操作。
在其中一些实施例中,交换机40上可以维护一个转发表,用于进行具有邻接关系的BMC 30之间的信息转发,其中,邻接关系由各服务器的存储设备的拓扑关系确定,例如,交换机40总是将某个服务器的磁盘阵列控制权移交指令/控制权获取指令/控制权释放指令发送给与之相邻的服务器的BMC 30。
在另一些实施例中,交换机40用于将任一服务器的BMC 30发送的信息转发(广播)给其他所有的服务器的BMC 30。
集群服务器还可以包括控制节点,控制节点与交换机40连接,用于配置各服务器的BMC 30,例如配置各BMC 30的控制程序,或者各BMC 30的标识信息,或者各BMC 30中存储的映射表。此外,通过控制节点还可以控制BMC 30实现远程无人值守功能,例如远程重启等。
综上所述,传统的集群服务对待异常的节点通常为断掉此节点服务,无法对存储部分调用。本实施例实现了从硬件方面完成集群服务,有效利用了异常设备的存储部分进行复用和存储部分内容的调取。本实施例利用BMC这一第三方独立系统参与集群控制,大大提高了集群方案的稳定性和安全性,BMC监管系统上的各个硬件信息,一旦某个异常,便能做出快速决断,并且可以完成简单的硬件自检修复,使集群方案稳定性大大提高。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种集群服务器,其特征在于包括:交换机和至少三个服务器,所述服务器包括基板管理控制器和存储设备;
所述存储设备包括硬盘控制器和磁盘阵列,所述硬盘控制器通过磁盘连接器连接至少一个其他服务器的磁盘阵列;
所述基板管理控制器与所述交换机连接,所述基板管理控制器用于控制所述硬盘控制器获取或释放对当前服务器的磁盘阵列和/或至少一个其他服务器的磁盘阵列的控制权。
2.根据权利要求1所述的集群服务器,其特征在于,各所述硬盘控制器通过磁盘连接器连接当前服务器的磁盘阵列和两个其他服务器的磁盘阵列,各所述服务器的存储设备以环状拓扑结构连接。
3.根据权利要求1所述的集群服务器,其特征在于,所述基板管理控制器用于监测当前服务器内各硬件的运行状态,并在所述运行状态异常的情况下,控制当前服务器的硬盘控制器释放对当前服务器的磁盘阵列的控制权,向其他服务器的基板管理控制器发送当前磁盘阵列控制权移交指令;以及在接收到其他服务器的基板管理控制器发送的其他磁盘阵列控制权移交指令的情况下,控制当前服务器的硬盘控制器获取对其他服务器的磁盘阵列的控制权。
4.根据权利要求1所述的集群服务器,其特征在于,所述服务器还包括中央处理器;
所述基板管理控制器用于监测当前服务器内各硬件的运行状态,并在所述运行状态异常的情况下,向当前服务器的中央处理器发送当前磁盘阵列控制权释放指令,向其他服务器的基板管理控制器发送当前磁盘阵列控制权移交指令;
所述基板管理控制器还用于在接收到其他服务器的基板管理控制器发送的其他磁盘阵列控制权移交指令的情况下,向当前服务器的中央处理器发送其他磁盘阵列控制权获取指令;
所述中央处理器用于在接收到当前磁盘阵列控制权释放指令的情况下,控制当前服务器的硬盘控制器释放对当前服务器的磁盘阵列的控制权,以及在接收到其他磁盘阵列控制权获取指令的情况下,控制当前服务器的硬盘控制器获取对其他服务器的磁盘阵列的控制权。
5.根据权利要求1所述的集群服务器,其特征在于,所述基板管理控制器还用于在将当前服务器的磁盘阵列的控制权移交给其他服务器之后,对当前服务器的硬件进行自检修复,并在自检修复成功之后,重新获取对当前服务器的磁盘阵列的控制权。
6.根据权利要求5所述的集群服务器,其特征在于,各所述服务器的磁盘阵列采用独立电源供电,所述基板管理控制器用于通过重启当前服务器进行自检修复。
7.根据权利要求1所述的集群服务器,其特征在于,
所述交换机用于进行具有邻接关系的基板管理控制器之间的信息转发,其中,所述邻接关系由各所述服务器的存储设备的拓扑关系确定;或者
所述交换机用于将任一所述服务器的基板管理控制器发送的信息转发给其他服务器的基板管理控制器。
8.根据权利要求1所述的集群服务器,其特征在于,所述集群服务器还包括控制节点,所述控制节点与所述交换机连接,用于配置各所述服务器的基板管理控制器。
9.根据权利要求1至8中任一项所述的集群服务器,其特征在于,所述磁盘连接器为SAS连接器。
10.根据权利要求1至8中任一项所述的集群服务器,其特征在于,每个所述服务器的基板管理控制器和存储设备在物理上集中设置。
CN202110719694.4A 2021-06-28 2021-06-28 集群服务器 Pending CN113535471A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110719694.4A CN113535471A (zh) 2021-06-28 2021-06-28 集群服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110719694.4A CN113535471A (zh) 2021-06-28 2021-06-28 集群服务器

Publications (1)

Publication Number Publication Date
CN113535471A true CN113535471A (zh) 2021-10-22

Family

ID=78097015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110719694.4A Pending CN113535471A (zh) 2021-06-28 2021-06-28 集群服务器

Country Status (1)

Country Link
CN (1) CN113535471A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115914140A (zh) * 2023-01-10 2023-04-04 苏州浪潮智能科技有限公司 一种存储数据处理方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115914140A (zh) * 2023-01-10 2023-04-04 苏州浪潮智能科技有限公司 一种存储数据处理方法、装置、电子设备和存储介质
CN115914140B (zh) * 2023-01-10 2023-06-20 苏州浪潮智能科技有限公司 一种存储数据处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US7380163B2 (en) Apparatus and method for deterministically performing active-active failover of redundant servers in response to a heartbeat link failure
US7401254B2 (en) Apparatus and method for a server deterministically killing a redundant server integrated within the same network storage appliance chassis
US7565566B2 (en) Network storage appliance with an integrated switch
US7627780B2 (en) Apparatus and method for deterministically performing active-active failover of redundant servers in a network storage appliance
US8943258B2 (en) Server direct attached storage shared through virtual SAS expanders
US8990632B2 (en) System for monitoring state information in a multiplex system
US20070220301A1 (en) Remote access control management module
JP2007072571A (ja) 計算機システム及び管理計算機ならびにアクセスパス管理方法
CN102473157A (zh) 共享i/o环境中的虚拟热插入功能
US11573737B2 (en) Method and apparatus for performing disk management of all flash array server
CN111767244A (zh) 基于国产龙芯平台的双冗余计算机设备
US20120047327A1 (en) Disk array device and control method for the same
JP3537281B2 (ja) 共有ディスク型多重系システム
CN113535471A (zh) 集群服务器
CN117041184B (zh) Io拓展装置及io交换机
CN212541329U (zh) 基于国产龙芯平台的双冗余计算机设备
US20130151885A1 (en) Computer management apparatus, computer management system and computer system
JP2002136000A (ja) 無停電電源システム
CN113742142B (zh) 存储系统管理sata硬盘的方法及存储系统
CN113535473A (zh) 集群服务器
CN113535472A (zh) 集群服务器
US7661026B2 (en) Access by distributed computers to a same hardware resource
US20240057240A1 (en) Light control device, light control method and server thereof
CN112468333A (zh) 服务器带外数据管理方法、装置、设备及可读存储介质
WO2022066044A1 (ru) Резервированное серверное устройство

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination