CN113535472A - 集群服务器 - Google Patents

集群服务器 Download PDF

Info

Publication number
CN113535472A
CN113535472A CN202110721353.0A CN202110721353A CN113535472A CN 113535472 A CN113535472 A CN 113535472A CN 202110721353 A CN202110721353 A CN 202110721353A CN 113535472 A CN113535472 A CN 113535472A
Authority
CN
China
Prior art keywords
server
disk
disk array
servers
hard disk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110721353.0A
Other languages
English (en)
Inventor
张弛
蔡剑峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202110721353.0A priority Critical patent/CN113535472A/zh
Publication of CN113535472A publication Critical patent/CN113535472A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及一种集群服务器,包括:交换机和至少三个服务器,服务器与交换机连接;服务器包括存储设备,存储设备包括硬盘控制器和磁盘阵列,各硬盘控制器通过磁盘连接器连接至少一个其他服务器的磁盘阵列;至少三个服务器包括主服务器,主服务器用于控制各服务器获取或释放对当前服务器的磁盘阵列和/或至少一个其他服务器的磁盘阵列的控制权。通过本申请,解决了相关技术的集群服务器的存储资源利用率低的问题,提高了集群服务器的存储资源利用率。

Description

集群服务器
技术领域
本申请涉及服务器集群领域,特别是涉及一种集群服务器。
背景技术
服务器集群就是指将很多服务器集中起来一起进行同一种服务,在客户端看来就像是只有一个服务器。集群可以利用多个计算机进行并行计算从而获得很高的计算速度,也可以用多个计算机做备份,从而使得任何一个机器坏了整个系统还是能正常运行。
现有的集群服务器通常只能做到软件系统层面的集群,也就是当某一台服务器出现故障,运行在这台服务器上的应用就会切换到其他的服务器上,而此故障机器上的硬盘资源就不会再被应用,传输到这个服务器上的存储链路也会被切断,从而也不能得到此服务器上的存储内容,导致存储资源的利用率得不到充分利用。
发明内容
在本实施例中提供了一种集群服务器,以解决相关技术中集群服务器的存储资源利用率低的问题。
在本实施例中提供了一种集群服务器,包括:交换机和至少三个服务器,所述服务器与所述交换机连接,所述服务器包括存储设备,所述存储设备包括硬盘控制器和磁盘阵列,所述硬盘控制器通过磁盘连接器连接至少一个其他服务器的磁盘阵列;所述硬盘控制器用于获取或释放对当前服务器的磁盘阵列和/或至少一个其他服务器的磁盘阵列的控制权。
在其中的一些实施例中,各所述硬盘控制器通过磁盘连接器连接当前服务器的磁盘阵列和两个其他服务器的磁盘阵列,各所述服务器的存储设备以环状拓扑结构连接。
在其中的一些实施例中,所述硬盘控制器用于监测当前服务器的磁盘阵列的运行状态,并在当前服务器的运行状态异常的情况下,释放对当前服务器的磁盘阵列的控制权;以及监测其他服务器的磁盘阵列的运行状态,并在其他服务器的运行状态异常的情况下,获取对其他服务器的磁盘阵列的控制权。
在其中的一些实施例中,所述运行状态异常包括:在预设时间间隔内未有对磁盘阵列的读写操作。
在其中的一些实施例中,所述服务器的存储设备采用相对于服务器的计算部分独立的电源供电;所述运行状态异常包括:检测到所述服务器的计算部分掉电。
所述服务器还包括基板管理控制器,所述基板管理控制器与所述交换机连接,所述基板管理控制器还与当前服务器的硬盘控制器连接;
所述硬盘控制器还用于监测当前服务器的磁盘阵列的运行状态,并在当前服务器的运行状态异常的情况下,释放对当前服务器的磁盘阵列的控制权,并通过所述基板管理控制器将运行状态异常通知给其他服务器;
所述硬盘控制器还用于从当前服务器的基板管理控制器接收运行状态异常的其他服务器的运行状态异常通知,并获取对运行状态异常的其他服务器的磁盘阵列的控制权。
在其中的一些实施例中,
所述基板管理控制器还用于在当前服务器的磁盘阵列的控制权移交给其他服务器之后,对当前服务器的硬件进行自检修复;
所述硬盘控制器还用于在当前服务器的运行状态正常的情况下,重新获取对当前服务器的磁盘阵列的控制权。
在其中的一些实施例中,各所述服务器的存储设备采用相对于服务器的计算部分独立的电源供电,所述基板管理控制器通过重启当前服务器进行自检修复。
在其中的一些实施例中,所述磁盘连接器为串行连接小型计算机系统接口连接器。
在其中的一些实施例中,每个所述服务器的存储设备在物理上集中设置与服务器内。
与相关技术相比,在本实施例中提供的集群服务器,包括:交换机和至少三个服务器,服务器与交换机连接;服务器包括存储设备,存储设备包括硬盘控制器和磁盘阵列,各硬盘控制器通过磁盘连接器连接至少一个其他服务器的磁盘阵列;至少三个服务器包括主服务器,主服务器用于控制各服务器获取或释放对当前服务器的磁盘阵列和/或至少一个其他服务器的磁盘阵列的控制权,解决了相关技术的集群服务器的存储资源利用率低的问题,提高了集群服务器的存储资源利用率。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本实施例的服务器的示意图。
图2是本实施例提供的集群服务器的结构示意图。
图3是本实施例的线状拓扑结构的示意图。
图4是本实施例的环状拓扑结构的示意图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
本实施例提供了一种集群服务器,该集群服务器包括至少三个。图1是本实施例的服务器的示意图,服务器又可以称为主机,如图1所示,每个服务器都包括计算部分10和存储部分20。其中,计算部分10通常包括中央处理器110(CPU,又称为主控制器或主控);存储部分通常由存储设备210组成。
存储设备210包括硬盘控制器212和磁盘阵列211。需要说明的是,本实施例所称的磁盘阵列211可以仅包括一块磁盘驱动器,也可以是由多块磁盘驱动器组合成的磁盘组。并且,构成该磁盘阵列的磁盘驱动器不限于HDD磁盘驱动器还是SDD磁盘驱动器,在一些实施例中也可以是HDD磁盘驱动器和SDD磁盘驱动器的组合。并且,磁盘阵列211可以采用JBOD(Just a Bunch Of Disks)技术由所有磁盘驱动器串联而成的大容量磁盘驱动器,也可以是采用诸如RAID(独立磁盘冗余阵列)技术被服务器所使用,从而提高磁盘容错能力。
计算部分10与磁盘阵列211之间的接口设备称为硬盘控制器212,也被称为磁盘驱动器适配器。硬盘控制器212在软件层面用来解释计算部分10给出的命令,向磁盘驱动器发出各种控制信号;检测磁盘驱动器状态,或者按照规定的磁盘数据格式将数据写入和读出磁盘也是由硬盘控制器212控制。从硬件层面来说,硬盘控制器212提供了一个或者多个用于连接磁盘阵列211的物理接口。硬盘控制器212可以通过这些物理接口连接一个或者多个磁盘阵列211,以及获取或释放对物理接口连接的磁盘阵列211的控制权。
每个磁盘阵列211可以包括一个或者多个用于与硬盘控制器212连接的物理接口。例如,基于SAS(串行连接小型计算机系统接口)技术的磁盘阵列211可以通过与多个服务器的硬盘控制器212连接,实现多个服务器共享同一个磁盘阵列211。
每个服务器的计算部分10和存储部分20可以在物理上集中设置,例如设置在同一个服务器机箱内。计算部分10和存储部分20可以设置在同一主电路板上,也可以分开设置。例如,存储部分20设置在服务器背板,计算部分10设置在主电路板上。
除了存储部分20和计算部分10之外,服务器通常还有具有两个核心固件,分别为BIOS(基础输入输出系统)(图未示)和BMC(基板管理控制器)(图未示)。其中,在计算机体系中,BIOS有这比服务器的操作系统更为底层和基础性的作用,主要负责检测、访问和调试底层硬件资源,并分配给操作系统,以保障整个及其顺利安全运转。而BMC则是独立于服务器的操作系统之外的小型操作系统,通常集成在主板上,或者通过PCIe等形式插在主板上。BMC对外的表现形式通常为一个标准的RJ45网口,并且BMC拥有独立的IP固件系统。通常服务器可以使用BMC指令进行无人值守操作,例如服务器的远程管理、监控、安装、重启等。
图2是本实施例提供的集群服务器的结构示意图。在图2中以五个服务器为例进行示例性说明,在其他实施例中服务器数量可以为大于三个的任意数,通常根据对集群服务器的计算资源和存储资源的需求具体设定,在本实施例中并不限定其数量。
如图2所示的集群服务器包括交换机40和五个服务器。每个服务器均与交换机40连接。集群服务器中的各个服务器通过交换机40实现业务数据的交换。
每个服务器的硬盘控制器212通过磁盘连接器(例如SAS连接器)连接到当前服务器的磁盘阵列211和至少一个其他服务器的磁盘阵列211。其中,其他服务器是指集群服务器中除当前服务器之外的其他服务器。
在这五个服务器中,每个服务器的硬盘控制器212都用于获取或释放对当前服务器的磁盘阵列211和/或至少一个其他服务器的磁盘阵列211的控制权。
本实施例提供的集群服务器通过各个服务器的硬盘控制器实现磁盘阵列的控制权的控制,各个服务器的硬盘控制器均通过磁盘连接器连接当前服务器的磁盘阵列和至少一个其他服务器的磁盘阵列,通过各自的硬盘控制器获取或释放对当前服务器的磁盘阵列和/或至少一个其他服务器的磁盘阵列的控制权,使得在当前服务器故障的情形下,可以将当前服务器的磁盘阵列的控制权移交给其他服务器,或者在某个其他服务器故障的情形下,获得故障的其他复苏期的磁盘阵列的控制权,提高了磁盘阵列211的利用率。相较于相关技术中采用诸如成本昂贵的SAS交换机实现磁盘阵列211的共享而言,本实施例不需要额外新增任何SAS交换机,而可以直接利用集群服务器用于业务处理的交换机40就能够满足需求,大大地降低了成本。
此外,在上述实施例中,每个硬盘控制器各自进行磁盘阵列的控制权的控制,五个服务器的硬盘控制器没有主次之分,从而避免了采用某个服务器或者硬盘控制器为主进行磁盘阵列的控制权的控制时,主服务器或主硬盘控制器故障失效导致磁盘阵列的控制权无法正常移交的问题,提高了系统的鲁棒性。
为了避免采用SAS交换机对集群服务器中所有的磁盘阵列211进行互联导致的成本增加,本实施例中各硬盘控制器212通过磁盘连接器(SAS连接器)连接当前服务器的磁盘阵列211和至少一个其他服务器的磁盘阵列211。通过这样的连接,各服务器的存储设备可以形成诸如图3所示的线状拓扑结构。线状拓扑结构下,当处于拓扑结构两端的服务器发生了故障,则存储设备只能够被一个相邻的服务器接管,在这个相邻的服务器计算负荷较大的情形下,可能导致相邻的服务器接管存储设备后因负荷进一步增大而引发自身故障,导致集群服务器稳定性降低。或者拓扑结构两端出现连续两台相邻的服务器发生了故障,则最外侧的服务器的存储设备将不能被任何一个服务器接管。由此可见,存储设备的利用率仍有提高空间。
为此,在其中的一些实施例中,各硬盘控制器212通过磁盘连接器(SAS连接器)连接当前服务器的磁盘阵列211和两个其他服务器的磁盘阵列,各服务器的存储设备形成诸如图4所示的环状拓扑结构。这样的连接方式,使得任意一个服务器故障的情况下,都有两个相邻的服务器可以接管该故障服务器的存储设备;即使连续相邻的两个服务器故障也可以保证分别有一个服务器接管这两个故障服务器的磁盘阵列;只有在连续相邻的三个服务器故障的情况下,才可能导致有一个服务器的存储设备不能被任何一个服务器接管。由此可见,采用环状拓扑结构提高了集群服务器的稳定性及存储设备的利用率。
下面对本实施例的集群服务器的工作过程进行描述。
实施例1
在本实施例中,由各服务器的硬盘控制器直接获取或释放对当前服务器和/或其他服务器的磁盘阵列的控制权。
参照图4的拓扑结构,本实施例提供的集群服务器的工作过程包括如下步骤:
步骤1,服务器A的硬盘控制器监测服务器A的磁盘阵列的运行状态。
步骤2,服务器A在磁盘阵列的运行状态异常的情况下,释放对服务器A的磁盘阵列211的控制权。
步骤3,服务器B和服务器E的硬盘控制器持续监测与之连接的服务器A的磁盘阵列的运行状态,在监测到与之连接的服务器A的磁盘阵列的运行状态异常的情况下,获取对服务器A的磁盘阵列211的控制权。
其中,运行状态异常可以是但不限于:在预设时间间隔内未有对磁盘阵列的读写操作。通常而言,服务器的计算部分在进行业务数据的处理时会对磁盘阵列进行读写操作,在服务器的操作系统内的各个进程也会频繁对磁盘阵列进行读写操作,因而,如果在预设时间间隔内没有到对磁盘阵列的读写操作,则可以认为服务器的运行状态异常,例如当前服务器的硬盘控制器与当前磁盘阵列的物理接口松动,服务器的操作系统异常崩溃等。
在一些实施例中,各服务器的存储设备210采用相对于服务器的计算部分10独立的电源供电,以保证服务器的计算部分10掉电而存储设备210能够继续工作。当硬盘控制器212检测到服务器的计算部分10掉电时,则也可以认为当前服务器处于运行状态异常。
通过本实施例,不同服务器之间的硬盘控制器之间无需进行信息交互,而是通过监测与硬盘控制器的物理接口直接连接的磁盘阵列的运行状态来实现对磁盘阵列211的控制权的获取和释放。其中,对于某个服务器而言,与其硬盘控制器具有连接关系的其他服务器(称为相邻服务器)可以为一个或者多个。
例如,在环状拓扑结构中,每个服务器具有两个相邻服务器,则这两个相邻服务器的硬盘控制器都可以接管相应故障服务器的磁盘阵列211的控制权,或者其中之一的硬盘控制器接管故障服务器的磁盘阵列的控制权。在磁盘阵列不支持同时被两个硬盘控制器控制时,两个相邻服务器的硬盘控制器可以通过竞争的方式获取故障服务器的磁盘阵列的控制权。
实施例2
在本实施例中,当各服务器的中央处理器仍能够正常工作的情形下,各服务器的硬盘控制器通过中央处理器获取或释放对当前服务器和/或其他服务器的磁盘阵列的控制权。
参照图4的拓扑结构,本实施例提供的集群服务器的工作过程包括如下步骤:
步骤1,服务器A的硬盘控制器监测服务器A的磁盘阵列的运行状态。
步骤2,服务器A在监测到服务器A的磁盘阵列的运行状态异常的情况下,释放对服务器A的磁盘阵列的控制权。
步骤3,若服务器A的中央处理器仍能正常工作,则服务器A的硬盘控制器通过服务器A的中央处理器将运行状态异常通知给服务器B和服务器E。
步骤4,服务器B和服务器E的中央处理器接收到运行状态异常通知后,将该运行状态异常通知发送给其硬盘控制器。
步骤5,服务器B和服务器E的硬盘控制器根据运行状态异常通知获取对服务器A的磁盘阵列的控制权。
其中,运行状态异常通知中携带有运行状态异常的服务器的标识信息,或者携带有运行状态异常的服务器的磁盘阵列的标识信息。
在硬盘控制器中可以维护一个硬盘控制器212的物理接口和磁盘阵列211的映射表,以获知各个物理接口所连接的磁盘阵列211的标识信息,或者磁盘阵列211所属的服务器的标识信息。在当前服务器的硬盘控制器获得故障服务器发送的运行状态异常通知后,根据运行状态异常通知中携带的标识信息来确定所要接管的磁盘阵列211所连接的物理接口,进而获得该物理接口所连接的其他服务器的磁盘阵列211的控制权。
需要说明的是,在采用诸如SAS技术的磁盘阵列211的情形下,释放故障服务器的磁盘阵列的步骤可以是非必需的,例如,上述的步骤2可以省去。
实施例3
BMC作为服务器中第三方的独立存在,能够监控整个服务器的硬件信息,例如系统的温度、电源电压、风扇转速等,还能够监控系统网络模块、用户交互模块(例如USB模块,显示模块)或者其他模块的工作状态。尤其是BMC能够通过RJ45网络接口实现互联互通,并能够与当前服务器的硬盘控制器212进行信息交互。
在本实施例中,当各服务器的中央处理器不能够正常工作的情形下,各服务器的硬盘控制器可以通过BMC获取或释放对当前服务器和/或其他服务器的磁盘阵列的控制权。
参照图4的拓扑结构,本实施例提供的集群服务器的工作过程包括如下步骤:
步骤1,服务器A的硬盘控制器监测服务器A的磁盘阵列的运行状态。
步骤2,服务器A在服务器A的运行状态异常的情况下,释放对服务器A的磁盘阵列的控制权。
步骤3,服务器A的硬盘控制器通过服务器A的BMC将运行状态异常通知给服务器B和服务器E的BMC。
步骤4,服务器B和服务器E的BMC接收到运行状态异常通知后,将该运行状态异常通知发送给其硬盘控制器。
步骤5,服务器B和服务器E的硬盘控制器根据运行状态异常通知获取对服务器A的磁盘阵列的控制权。
其中,服务器B和服务器E的硬盘控制器212可以共同获取对服务器A的磁盘阵列211的控制权;服务器B和服务器E也可以通过协商机制或者竞争机制确定其中一个服务器的硬盘控制器212来获取对服务器A的磁盘阵列211的控制权。
需要说明的是,在采用诸如SAS技术的磁盘阵列211的情形下,释放故障服务器的磁盘阵列的步骤可以是非必需的,例如,上述的步骤2和步骤3可以省去。
其中,运行状态异常通知中携带有运行状态异常的服务器的标识信息,或者携带有运行状态异常的服务器的磁盘阵列的标识信息。
在硬盘控制器中可以维护一个硬盘控制器212的物理接口和磁盘阵列211的映射表,以获知各个物理接口所连接的磁盘阵列211的标识信息,或者磁盘阵列211所属的服务器的标识信息。在当前服务器的硬盘控制器获得故障服务器发送的运行状态异常通知后,根据运行状态异常通知中携带的标识信息来确定所要接管的磁盘阵列211所连接的物理接口,进而获得该物理接口所连接的其他服务器的磁盘阵列211的控制权。
此外,在本实施例中,在当前服务器的磁盘阵列的控制权移交给其他服务器之后,BMC还可以对当前服务器的硬件进行自检修复。在当前服务器的自检修复成功之后,当前服务器的硬盘控制器可以重新获取对当前服务器的磁盘阵列的控制权。
例如,当前服务器的硬盘控制器重新获取对当前服务器的磁盘阵列211的控制权时,可以通过BMC向当前接管该磁盘阵列211的服务器发送运行状态正常通知。当前接管该磁盘阵列211的服务器在收到该运行状态正常通知后,根据该运行状态正常通知中携带的标识信息,释放相应的磁盘阵列的控制权,并通过BMC向当前服务器返回确认消息。当前服务器接收到确认消息后,重新获取当前服务器的磁盘阵列的控制权。
通过上述方式实现了故障服务器的自检及自修复。
其中,各服务器的磁盘阵列211采用相对于计算部分10独立的电源供电,服务器可以通过中央处理器或BMC重启当前服务器进行自检修复,并保证当前服务器的磁盘阵列211不断电而能够被其他服务器接管和利用。
在其中一些实施例中,集群服务器还可以包括控制节点,控制节点与交换机40连接,用于配置各服务器,例如配置各服务器的控制程序,或者各服务器的标识信息,或者各服务器中存储的映射表。此外,通过控制节点还可以控制各服务器的BMC实现远程无人值守功能,例如远程重启等。
综上所述,传统的集群服务对待异常的节点通常为断掉此节点服务,无法对存储部分调用。本实施例实现了从硬件方面完成集群服务,有效利用了异常设备的存储部分进行复用和存储部分内容的调取。本实施例使用磁盘连接器对多个服务器的磁盘阵列进行互联,使多个服务器的存储部分成为一个能够进行控制权移交的整体,每个服务器的硬盘控制器分别参与集群控制,大大提高了集群方案的稳定性和安全性,一旦某个异常,便能做出快速决断进行磁盘阵列控制权的移交,使集群方案稳定性大大提高。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种集群服务器,其特征在于包括:交换机和至少三个服务器,所述服务器与所述交换机连接,所述服务器包括存储设备,所述存储设备包括硬盘控制器和磁盘阵列,所述硬盘控制器通过磁盘连接器连接至少一个其他服务器的磁盘阵列;所述硬盘控制器用于获取或释放对当前服务器的磁盘阵列和/或至少一个其他服务器的磁盘阵列的控制权。
2.根据权利要求1所述的集群服务器,其特征在于,各所述硬盘控制器通过磁盘连接器连接当前服务器的磁盘阵列和两个其他服务器的磁盘阵列,各所述服务器的存储设备以环状拓扑结构连接。
3.根据权利要求1所述的集群服务器,其特征在于,所述硬盘控制器用于监测当前服务器的磁盘阵列的运行状态,并在当前服务器的运行状态异常的情况下,释放对当前服务器的磁盘阵列的控制权;以及监测其他服务器的磁盘阵列的运行状态,并在其他服务器的运行状态异常的情况下,获取对其他服务器的磁盘阵列的控制权。
4.根据权利要求3所述的集群服务器,其特征在于,所述运行状态异常包括:在预设时间间隔内未有对磁盘阵列的读写操作。
5.根据权利要求3所述的集群服务器,其特征在于,所述服务器的存储设备采用相对于服务器的计算部分独立的电源供电;所述运行状态异常包括:检测到所述服务器的计算部分掉电。
6.根据权利要求1所述的集群服务器,所述服务器还包括基板管理控制器,所述基板管理控制器与所述交换机连接,所述基板管理控制器还与当前服务器的硬盘控制器连接;
所述硬盘控制器还用于监测当前服务器的磁盘阵列的运行状态,并在当前服务器的运行状态异常的情况下,释放对当前服务器的磁盘阵列的控制权,并通过所述基板管理控制器将运行状态异常通知给其他服务器;
所述硬盘控制器还用于从当前服务器的基板管理控制器接收运行状态异常的其他服务器的运行状态异常通知,并获取对运行状态异常的其他服务器的磁盘阵列的控制权。
7.根据权利要求6所述的集群服务器,其特征在于,
所述基板管理控制器还用于在当前服务器的磁盘阵列的控制权移交给其他服务器之后,对当前服务器的硬件进行自检修复;
所述硬盘控制器还用于在当前服务器的运行状态正常的情况下,重新获取对当前服务器的磁盘阵列的控制权。
8.根据权利要求6所述的集群服务器,其特征在于,各所述服务器的存储设备采用相对于服务器的计算部分独立的电源供电,所述基板管理控制器通过重启当前服务器进行自检修复。
9.根据权利要求1至8中任一项所述的集群服务器,其特征在于,所述磁盘连接器为SAS连接器。
10.根据权利要求1至8中任一项所述的集群服务器,其特征在于,每个所述服务器的存储设备在物理上集中设置与服务器内。
CN202110721353.0A 2021-06-28 2021-06-28 集群服务器 Pending CN113535472A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110721353.0A CN113535472A (zh) 2021-06-28 2021-06-28 集群服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110721353.0A CN113535472A (zh) 2021-06-28 2021-06-28 集群服务器

Publications (1)

Publication Number Publication Date
CN113535472A true CN113535472A (zh) 2021-10-22

Family

ID=78126128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110721353.0A Pending CN113535472A (zh) 2021-06-28 2021-06-28 集群服务器

Country Status (1)

Country Link
CN (1) CN113535472A (zh)

Similar Documents

Publication Publication Date Title
US7565566B2 (en) Network storage appliance with an integrated switch
US7003687B2 (en) Fail-over storage system
US7380163B2 (en) Apparatus and method for deterministically performing active-active failover of redundant servers in response to a heartbeat link failure
US7401254B2 (en) Apparatus and method for a server deterministically killing a redundant server integrated within the same network storage appliance chassis
US7111084B2 (en) Data storage network with host transparent failover controlled by host bus adapter
US7627780B2 (en) Apparatus and method for deterministically performing active-active failover of redundant servers in a network storage appliance
US6502203B2 (en) Method and apparatus for cluster system operation
JP5561622B2 (ja) 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
JP2007072571A (ja) 計算機システム及び管理計算機ならびにアクセスパス管理方法
US11573737B2 (en) Method and apparatus for performing disk management of all flash array server
CN110985426B (zh) 一种PCIE Switch产品的风扇控制系统及方法
CN212541329U (zh) 基于国产龙芯平台的双冗余计算机设备
CN113535471A (zh) 集群服务器
JP2002136000A (ja) 無停電電源システム
CN113535472A (zh) 集群服务器
CN113742142B (zh) 存储系统管理sata硬盘的方法及存储系统
CN113535473A (zh) 集群服务器
CN112468333A (zh) 服务器带外数据管理方法、装置、设备及可读存储介质
WO2022066044A1 (ru) Резервированное серверное устройство
CN116048853A (zh) 服务器及服务器故障处理方法
JPH0683744A (ja) コンピュータシステム
KR20040024068A (ko) 이중화 프로세서의 크로스 이중화 제어방법
EP2000911A1 (en) Computer system comprising at least two computers, and related method for continuous operation of said system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination