CN106713046A - 一种服务器集群环境中网络冗余的设计方法 - Google Patents

一种服务器集群环境中网络冗余的设计方法 Download PDF

Info

Publication number
CN106713046A
CN106713046A CN201710021267.2A CN201710021267A CN106713046A CN 106713046 A CN106713046 A CN 106713046A CN 201710021267 A CN201710021267 A CN 201710021267A CN 106713046 A CN106713046 A CN 106713046A
Authority
CN
China
Prior art keywords
redundancy
network
network redundancy
server cluster
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710021267.2A
Other languages
English (en)
Inventor
刘振东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710021267.2A priority Critical patent/CN106713046A/zh
Publication of CN106713046A publication Critical patent/CN106713046A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种服务器集群环境中网络冗余的设计方法,涉及集群网络冗余领域;服务器集群的每个计算节点连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在内部链路连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在外部链路至少连接两台交换机进行网络冗余;本发明实现整个集群系统中内部网络连接形成冗余设计,在任何一个节点、链路或者交换机出现故障的时候可以有效的保证整个系统可以正常提供服务,从而加强集群系统的稳定性,提供更可靠更稳定的服务,方便后期的升级维护管理。

Description

一种服务器集群环境中网络冗余的设计方法
技术领域
本发明公开一种网络冗余的设计方法,涉及集群网络冗余领域,具体的说是一种服务器集群环境中网络冗余的设计方法。
背景技术
当今社会大数据、云计算的发展,确确实实给用户提供了便利。大数据的检索及云服务的背后,离不开超级计算机或者大型集群系统提供的超级计算及处理能力作为后盾。
所谓的系统集群就是指并行或分布式系统由互相连接的计算机组成,可以作为单独、统一的计算资源来使用。系统集群将很多服务器集中起来一起进行同一种服务,在客户端看来就像是只有一个服务器。集群可以利用多个计算机进行并行计算从而获得更高的计算速度,也可以将多个计算机作为备份,从而即使任何一个机器出现了故障停止服务,整个系统还是能正常运行。所以在集群组成的系统中,各个节点服务器之前的内部通讯同样影响整个系统的稳定性,因此本发明提供一种服务器集群环境中网络冗余的设计方法,对各个计算节点之间连接、链路连接以及与交换机的连接进行冗余设计,实现整个集群系统中内部网络连接形成冗余设计,在任何一个节点、链路或者交换机出现故障的时候可以有效的保证整个系统可以正常提供服务,从而加强集群系统的稳定性,提供更可靠更稳定的服务,方便后期的升级维护管理。
刀片服务器是指在标准高度的机架式机箱内可插装多个卡式的服务器单元,是一种实现HAHD即高可用高密度的低成本服务器平台,为特殊应用行业和高密度计算环境专门设计。刀片服务器就像"刀片"一样,每一块"刀片"实际上就是一块系统主板。刀片服务器通过"板载"硬盘启动自己的操作系统,如Windows NT/2000、Linux等,类似于一个个独立的服务器,在这种模式下,每一块母板运行自己的系统,服务于指定的不同用户群,相互之间没有关联。不过,管理员可以使用系统软件将这些母板集合成一个服务器集群。在集群模式下,所有的母板可以连接起来提供高速的网络环境,并同时共享资源,为相同的用户群服务。在集群中插入新的"刀片",就可以提高整体性能。而由于每块"刀片"都是热插拔的,所以,系统可以轻松地进行替换,并且将维护时间减少到最小。
发明内容
本发明提供一种服务器集群环境中网络冗余的设计方法,针对目前系统集群,对各个计算节点之间连接、链路连接以及与交换机的连接进行冗余设计,实现整个集群系统中内部网络连接形成冗余设计。
一种服务器集群环境中网络冗余的设计方法:
服务器集群的每个计算节点连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在内部链路连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在外部链路至少连接两台交换机进行网络冗余。
所述服务器集群为刀片服务器的系统集群。
所述每个刀片服务器CPU的PCIE接口连接一个双芯片网卡进行节点所在内部链路的网络冗余。
所述每个刀片服务器节点所在外部链路至少连接两台交换机进行网络冗余。
所述每个刀片服务器节点所在外部链路连接机架内的两台交换机进行网络冗余。
所述每个刀片服务器节点所在外部链路分别连接机架内和机架间的两台交换机进行网络冗余。
本发明与现有技术相比具有的有益效果是:
本发明提供一种服务器集群环境中网络冗余的设计方法,服务器集群的每个计算节点连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在内部链路连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在外部链路至少连接两台交换机进行网络冗余;利用本发明方法实现整个集群系统中内部网络连接形成冗余设计,在任何一个节点、链路或者交换机出现故障的时候可以有效的保证整个系统可以正常提供服务,从而加强集群系统的稳定性,提供更可靠更稳定的服务,方便后期的升级维护管理。
附图说明
图1 刀片服务器机架内计算节点与交换机连接示意图;
图2 刀片服务器机架间计算节点与交换机连接示意图。
图3本发明方法的流程示意图。
具体实施方式
一种服务器集群环境中网络冗余的设计方法:
S1:服务器集群的每个计算节点连接具有双芯片的网卡进行网络冗余,
S2:对冗余后计算节点所在内部链路连接具有双芯片的网卡进行网络冗余,
S3:对冗余后计算节点所在外部链路至少连接两台交换机进行网络冗余。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
以刀片服务器的系统集群为例,每个刀片服务器的CPU为一个计算节点。
每个计算节点上引出具有双网络芯片的板载网卡,实现计算节点网络冗余,
对于计算节点内部链路,以两路刀片服务器为例,每个CPU的PCIE接口引出一个具有双网络芯片的板载网卡,实现的计算节点链接的网络冗余,如果其中一个网络芯片突然中断,我们可以启用冗余的网络芯片网卡继续工作;
对于计算节点外部链路,通过使用交换机来进行冗余设计:
以刀片服务器的系统集群为例,实现一个机架内所有刀片服务器的外部链路网络冗余连接,则使计算节点所在外部链路至少连接两台交换机进行网络冗余,参考图1,
通过计算节点在链路上的接口,分别连接机架内的交换机1和交换机2;
而对于大型集群系统中,以刀片服务器的系统集群为例,各个机架之间链路的网络冗余,可以选择机架内部与机架之间分别连接交换机,参考图2;
其中P0表示刀片服务器机架内部与交换机直连,P4表示刀片服务器机架之间的连接节点,node mezz表示双芯片板载网卡设备,图中显示每台交换机既作为机架内的直连交换机又作为机架间的网络冗余交换机使用;
通过上述设计,可以实现大型集群系统中网络节点、链路、交换节点的各部份的网络冗余,显著提高集群系统内部的网络稳定性。
通过本发明设计方法,对计算节点连接进行网络冗余设计、内部链路的连接进行网络冗余设计和外部链路中交换机的连接进行网络冗余设计,实现整个集群系统中内部网络连接的冗余设计,在任何一个节点、链路或者交换机出现故障的时候都可以有效的保证整个系统正常提供服务,从而加强集群系统的稳定性,提供更可靠更稳定的服务,方便后期的升级维护管理。

Claims (6)

1.一种服务器集群环境中网络冗余的设计方法,其特征在于
服务器集群的每个计算节点连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在内部链路连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在外部链路至少连接两台交换机进行网络冗余。
2.根据权利要求1所述一种服务器集群环境中网络冗余的设计方法,其特征在于所述服务器集群为刀片服务器的系统集群。
3.根据权利要求2所述一种服务器集群环境中网络冗余的设计方法,其特征在于每个刀片服务器CPU的PCIE接口连接一个双芯片网卡进行节点所在内部链路的网络冗余。
4.根据权利要求3所述一种服务器集群环境中网络冗余的设计方法,其特征在于每个刀片服务器节点所在外部链路至少连接两台交换机进行网络冗余。
5.根据权利要求4所述一种服务器集群环境中网络冗余的设计方法,其特征在于每个刀片服务器节点所在外部链路连接机架内的两台交换机进行网络冗余。
6.根据权利要求4所述一种服务器集群环境中网络冗余的设计方法,其特征在于每个刀片服务器节点所在外部链路分别连接机架内和机架间的两台交换机进行网络冗余。
CN201710021267.2A 2017-01-12 2017-01-12 一种服务器集群环境中网络冗余的设计方法 Pending CN106713046A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710021267.2A CN106713046A (zh) 2017-01-12 2017-01-12 一种服务器集群环境中网络冗余的设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710021267.2A CN106713046A (zh) 2017-01-12 2017-01-12 一种服务器集群环境中网络冗余的设计方法

Publications (1)

Publication Number Publication Date
CN106713046A true CN106713046A (zh) 2017-05-24

Family

ID=58908300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710021267.2A Pending CN106713046A (zh) 2017-01-12 2017-01-12 一种服务器集群环境中网络冗余的设计方法

Country Status (1)

Country Link
CN (1) CN106713046A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107682286A (zh) * 2017-09-22 2018-02-09 山东超越数控电子有限公司 一种高链路稳定性的服务器组网架构
CN112003764A (zh) * 2020-08-07 2020-11-27 苏州浪潮智能科技有限公司 一种分布式存储节点网络错包检测方法及装置
WO2021160482A1 (fr) * 2020-02-14 2021-08-19 Safran Electronics & Defense Procede de transmission de donnees et puce electronique de type manycore
US12001360B2 (en) 2020-02-14 2024-06-04 Safran Electronics & Defense Data transmission method and electronic chip of the manycore type

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102984057A (zh) * 2012-11-20 2013-03-20 中国舰船研究设计中心 一种多业务一体化双冗余网络系统
CN103064769A (zh) * 2012-12-30 2013-04-24 长沙湘计海盾科技有限公司 双热备服务器系统
CN103984390A (zh) * 2014-05-22 2014-08-13 华为技术有限公司 一种刀片及刀片服务器
CN104503871A (zh) * 2014-12-29 2015-04-08 浪潮电子信息产业股份有限公司 一种基于小型机系统全冗余模型的实现方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102984057A (zh) * 2012-11-20 2013-03-20 中国舰船研究设计中心 一种多业务一体化双冗余网络系统
CN103064769A (zh) * 2012-12-30 2013-04-24 长沙湘计海盾科技有限公司 双热备服务器系统
CN103984390A (zh) * 2014-05-22 2014-08-13 华为技术有限公司 一种刀片及刀片服务器
CN104503871A (zh) * 2014-12-29 2015-04-08 浪潮电子信息产业股份有限公司 一种基于小型机系统全冗余模型的实现方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107682286A (zh) * 2017-09-22 2018-02-09 山东超越数控电子有限公司 一种高链路稳定性的服务器组网架构
WO2021160482A1 (fr) * 2020-02-14 2021-08-19 Safran Electronics & Defense Procede de transmission de donnees et puce electronique de type manycore
FR3107375A1 (fr) * 2020-02-14 2021-08-20 Safran Electronics & Defense Procede de transmission de donnees et puce electronique de type manycore
US12001360B2 (en) 2020-02-14 2024-06-04 Safran Electronics & Defense Data transmission method and electronic chip of the manycore type
CN112003764A (zh) * 2020-08-07 2020-11-27 苏州浪潮智能科技有限公司 一种分布式存储节点网络错包检测方法及装置
CN112003764B (zh) * 2020-08-07 2021-10-22 苏州浪潮智能科技有限公司 一种分布式存储节点网络错包检测方法及装置

Similar Documents

Publication Publication Date Title
US10061371B2 (en) System and method for monitoring and managing data center resources in real time incorporating manageability subsystem
US8745238B2 (en) Virtual hot inserting functions in a shared I/O environment
CN101594235B (zh) 一种基于smbus总线对刀片服务器进行管理的方法
US20120185590A1 (en) Data Center Inventory Management Using Smart Racks
US10027534B1 (en) Log management system and method for distributed computing systems
CN104378218A (zh) 机柜内服务器管理系统及方法
EP2625614A1 (en) System and method for monitoring and managing data center resources in real time incorporating manageability subsystem
US9697165B2 (en) Server system for synchronizing memory data of motherboards
CN102132252A (zh) 用于虚拟基础设施的集中式控制平面器具
CN103685441B (zh) 一种基于龙芯终端的远程桌面控制系统
CN113645047B (zh) 一种基于智能网卡的带外管理系统和服务器
CN105991361A (zh) 一种云计算平台中云服务器的监控方法和监控系统
CN110764585B (zh) 一种通用的独立bmc板卡
CN106713046A (zh) 一种服务器集群环境中网络冗余的设计方法
CN101867490A (zh) 运维操作系统和方法
Pakin et al. Power usage of production supercomputers and production workloads
CN214851260U (zh) 智能网卡带外连接系统
CN112965806B (zh) 用于确定资源的方法和装置
WO2022093713A1 (en) Techniques for generating a configuration for electrically isolating fault domains in a data center
CN112073499A (zh) 一种多机型云物理服务器的动态服务方法
CN116723198A (zh) 一种多节点服务器主机控制方法、装置、设备、存储介质
CN108712499A (zh) 基于对云计算服务进行管理的系统
CN104598428A (zh) 数据处理系统
CN108306964A (zh) 服务器节点信息集中显示方法、系统、设备及存储介质
US20150188747A1 (en) Cloud-based data center infrastructure management system and method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170524