CN106713046A - 一种服务器集群环境中网络冗余的设计方法 - Google Patents
一种服务器集群环境中网络冗余的设计方法 Download PDFInfo
- Publication number
- CN106713046A CN106713046A CN201710021267.2A CN201710021267A CN106713046A CN 106713046 A CN106713046 A CN 106713046A CN 201710021267 A CN201710021267 A CN 201710021267A CN 106713046 A CN106713046 A CN 106713046A
- Authority
- CN
- China
- Prior art keywords
- redundancy
- network
- network redundancy
- server cluster
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0663—Performing the actions predefined by failover planning, e.g. switching to standby network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Hardware Redundancy (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开一种服务器集群环境中网络冗余的设计方法,涉及集群网络冗余领域;服务器集群的每个计算节点连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在内部链路连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在外部链路至少连接两台交换机进行网络冗余;本发明实现整个集群系统中内部网络连接形成冗余设计,在任何一个节点、链路或者交换机出现故障的时候可以有效的保证整个系统可以正常提供服务,从而加强集群系统的稳定性,提供更可靠更稳定的服务,方便后期的升级维护管理。
Description
技术领域
本发明公开一种网络冗余的设计方法,涉及集群网络冗余领域,具体的说是一种服务器集群环境中网络冗余的设计方法。
背景技术
当今社会大数据、云计算的发展,确确实实给用户提供了便利。大数据的检索及云服务的背后,离不开超级计算机或者大型集群系统提供的超级计算及处理能力作为后盾。
所谓的系统集群就是指并行或分布式系统由互相连接的计算机组成,可以作为单独、统一的计算资源来使用。系统集群将很多服务器集中起来一起进行同一种服务,在客户端看来就像是只有一个服务器。集群可以利用多个计算机进行并行计算从而获得更高的计算速度,也可以将多个计算机作为备份,从而即使任何一个机器出现了故障停止服务,整个系统还是能正常运行。所以在集群组成的系统中,各个节点服务器之前的内部通讯同样影响整个系统的稳定性,因此本发明提供一种服务器集群环境中网络冗余的设计方法,对各个计算节点之间连接、链路连接以及与交换机的连接进行冗余设计,实现整个集群系统中内部网络连接形成冗余设计,在任何一个节点、链路或者交换机出现故障的时候可以有效的保证整个系统可以正常提供服务,从而加强集群系统的稳定性,提供更可靠更稳定的服务,方便后期的升级维护管理。
刀片服务器是指在标准高度的机架式机箱内可插装多个卡式的服务器单元,是一种实现HAHD即高可用高密度的低成本服务器平台,为特殊应用行业和高密度计算环境专门设计。刀片服务器就像"刀片"一样,每一块"刀片"实际上就是一块系统主板。刀片服务器通过"板载"硬盘启动自己的操作系统,如Windows NT/2000、Linux等,类似于一个个独立的服务器,在这种模式下,每一块母板运行自己的系统,服务于指定的不同用户群,相互之间没有关联。不过,管理员可以使用系统软件将这些母板集合成一个服务器集群。在集群模式下,所有的母板可以连接起来提供高速的网络环境,并同时共享资源,为相同的用户群服务。在集群中插入新的"刀片",就可以提高整体性能。而由于每块"刀片"都是热插拔的,所以,系统可以轻松地进行替换,并且将维护时间减少到最小。
发明内容
本发明提供一种服务器集群环境中网络冗余的设计方法,针对目前系统集群,对各个计算节点之间连接、链路连接以及与交换机的连接进行冗余设计,实现整个集群系统中内部网络连接形成冗余设计。
一种服务器集群环境中网络冗余的设计方法:
服务器集群的每个计算节点连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在内部链路连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在外部链路至少连接两台交换机进行网络冗余。
所述服务器集群为刀片服务器的系统集群。
所述每个刀片服务器CPU的PCIE接口连接一个双芯片网卡进行节点所在内部链路的网络冗余。
所述每个刀片服务器节点所在外部链路至少连接两台交换机进行网络冗余。
所述每个刀片服务器节点所在外部链路连接机架内的两台交换机进行网络冗余。
所述每个刀片服务器节点所在外部链路分别连接机架内和机架间的两台交换机进行网络冗余。
本发明与现有技术相比具有的有益效果是:
本发明提供一种服务器集群环境中网络冗余的设计方法,服务器集群的每个计算节点连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在内部链路连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在外部链路至少连接两台交换机进行网络冗余;利用本发明方法实现整个集群系统中内部网络连接形成冗余设计,在任何一个节点、链路或者交换机出现故障的时候可以有效的保证整个系统可以正常提供服务,从而加强集群系统的稳定性,提供更可靠更稳定的服务,方便后期的升级维护管理。
附图说明
图1 刀片服务器机架内计算节点与交换机连接示意图;
图2 刀片服务器机架间计算节点与交换机连接示意图。
图3本发明方法的流程示意图。
具体实施方式
一种服务器集群环境中网络冗余的设计方法:
S1:服务器集群的每个计算节点连接具有双芯片的网卡进行网络冗余,
S2:对冗余后计算节点所在内部链路连接具有双芯片的网卡进行网络冗余,
S3:对冗余后计算节点所在外部链路至少连接两台交换机进行网络冗余。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
以刀片服务器的系统集群为例,每个刀片服务器的CPU为一个计算节点。
每个计算节点上引出具有双网络芯片的板载网卡,实现计算节点网络冗余,
对于计算节点内部链路,以两路刀片服务器为例,每个CPU的PCIE接口引出一个具有双网络芯片的板载网卡,实现的计算节点链接的网络冗余,如果其中一个网络芯片突然中断,我们可以启用冗余的网络芯片网卡继续工作;
对于计算节点外部链路,通过使用交换机来进行冗余设计:
以刀片服务器的系统集群为例,实现一个机架内所有刀片服务器的外部链路网络冗余连接,则使计算节点所在外部链路至少连接两台交换机进行网络冗余,参考图1,
通过计算节点在链路上的接口,分别连接机架内的交换机1和交换机2;
而对于大型集群系统中,以刀片服务器的系统集群为例,各个机架之间链路的网络冗余,可以选择机架内部与机架之间分别连接交换机,参考图2;
其中P0表示刀片服务器机架内部与交换机直连,P4表示刀片服务器机架之间的连接节点,node mezz表示双芯片板载网卡设备,图中显示每台交换机既作为机架内的直连交换机又作为机架间的网络冗余交换机使用;
通过上述设计,可以实现大型集群系统中网络节点、链路、交换节点的各部份的网络冗余,显著提高集群系统内部的网络稳定性。
通过本发明设计方法,对计算节点连接进行网络冗余设计、内部链路的连接进行网络冗余设计和外部链路中交换机的连接进行网络冗余设计,实现整个集群系统中内部网络连接的冗余设计,在任何一个节点、链路或者交换机出现故障的时候都可以有效的保证整个系统正常提供服务,从而加强集群系统的稳定性,提供更可靠更稳定的服务,方便后期的升级维护管理。
Claims (6)
1.一种服务器集群环境中网络冗余的设计方法,其特征在于
服务器集群的每个计算节点连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在内部链路连接具有双芯片的网卡进行网络冗余,对冗余后计算节点所在外部链路至少连接两台交换机进行网络冗余。
2.根据权利要求1所述一种服务器集群环境中网络冗余的设计方法,其特征在于所述服务器集群为刀片服务器的系统集群。
3.根据权利要求2所述一种服务器集群环境中网络冗余的设计方法,其特征在于每个刀片服务器CPU的PCIE接口连接一个双芯片网卡进行节点所在内部链路的网络冗余。
4.根据权利要求3所述一种服务器集群环境中网络冗余的设计方法,其特征在于每个刀片服务器节点所在外部链路至少连接两台交换机进行网络冗余。
5.根据权利要求4所述一种服务器集群环境中网络冗余的设计方法,其特征在于每个刀片服务器节点所在外部链路连接机架内的两台交换机进行网络冗余。
6.根据权利要求4所述一种服务器集群环境中网络冗余的设计方法,其特征在于每个刀片服务器节点所在外部链路分别连接机架内和机架间的两台交换机进行网络冗余。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710021267.2A CN106713046A (zh) | 2017-01-12 | 2017-01-12 | 一种服务器集群环境中网络冗余的设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710021267.2A CN106713046A (zh) | 2017-01-12 | 2017-01-12 | 一种服务器集群环境中网络冗余的设计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106713046A true CN106713046A (zh) | 2017-05-24 |
Family
ID=58908300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710021267.2A Pending CN106713046A (zh) | 2017-01-12 | 2017-01-12 | 一种服务器集群环境中网络冗余的设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106713046A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107682286A (zh) * | 2017-09-22 | 2018-02-09 | 山东超越数控电子有限公司 | 一种高链路稳定性的服务器组网架构 |
CN112003764A (zh) * | 2020-08-07 | 2020-11-27 | 苏州浪潮智能科技有限公司 | 一种分布式存储节点网络错包检测方法及装置 |
WO2021160482A1 (fr) * | 2020-02-14 | 2021-08-19 | Safran Electronics & Defense | Procede de transmission de donnees et puce electronique de type manycore |
US12001360B2 (en) | 2020-02-14 | 2024-06-04 | Safran Electronics & Defense | Data transmission method and electronic chip of the manycore type |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102984057A (zh) * | 2012-11-20 | 2013-03-20 | 中国舰船研究设计中心 | 一种多业务一体化双冗余网络系统 |
CN103064769A (zh) * | 2012-12-30 | 2013-04-24 | 长沙湘计海盾科技有限公司 | 双热备服务器系统 |
CN103984390A (zh) * | 2014-05-22 | 2014-08-13 | 华为技术有限公司 | 一种刀片及刀片服务器 |
CN104503871A (zh) * | 2014-12-29 | 2015-04-08 | 浪潮电子信息产业股份有限公司 | 一种基于小型机系统全冗余模型的实现方法 |
-
2017
- 2017-01-12 CN CN201710021267.2A patent/CN106713046A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102984057A (zh) * | 2012-11-20 | 2013-03-20 | 中国舰船研究设计中心 | 一种多业务一体化双冗余网络系统 |
CN103064769A (zh) * | 2012-12-30 | 2013-04-24 | 长沙湘计海盾科技有限公司 | 双热备服务器系统 |
CN103984390A (zh) * | 2014-05-22 | 2014-08-13 | 华为技术有限公司 | 一种刀片及刀片服务器 |
CN104503871A (zh) * | 2014-12-29 | 2015-04-08 | 浪潮电子信息产业股份有限公司 | 一种基于小型机系统全冗余模型的实现方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107682286A (zh) * | 2017-09-22 | 2018-02-09 | 山东超越数控电子有限公司 | 一种高链路稳定性的服务器组网架构 |
WO2021160482A1 (fr) * | 2020-02-14 | 2021-08-19 | Safran Electronics & Defense | Procede de transmission de donnees et puce electronique de type manycore |
FR3107375A1 (fr) * | 2020-02-14 | 2021-08-20 | Safran Electronics & Defense | Procede de transmission de donnees et puce electronique de type manycore |
US12001360B2 (en) | 2020-02-14 | 2024-06-04 | Safran Electronics & Defense | Data transmission method and electronic chip of the manycore type |
CN112003764A (zh) * | 2020-08-07 | 2020-11-27 | 苏州浪潮智能科技有限公司 | 一种分布式存储节点网络错包检测方法及装置 |
CN112003764B (zh) * | 2020-08-07 | 2021-10-22 | 苏州浪潮智能科技有限公司 | 一种分布式存储节点网络错包检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10061371B2 (en) | System and method for monitoring and managing data center resources in real time incorporating manageability subsystem | |
US8745238B2 (en) | Virtual hot inserting functions in a shared I/O environment | |
CN101594235B (zh) | 一种基于smbus总线对刀片服务器进行管理的方法 | |
US20120185590A1 (en) | Data Center Inventory Management Using Smart Racks | |
US10027534B1 (en) | Log management system and method for distributed computing systems | |
CN104378218A (zh) | 机柜内服务器管理系统及方法 | |
EP2625614A1 (en) | System and method for monitoring and managing data center resources in real time incorporating manageability subsystem | |
US9697165B2 (en) | Server system for synchronizing memory data of motherboards | |
CN102132252A (zh) | 用于虚拟基础设施的集中式控制平面器具 | |
CN103685441B (zh) | 一种基于龙芯终端的远程桌面控制系统 | |
CN113645047B (zh) | 一种基于智能网卡的带外管理系统和服务器 | |
CN105991361A (zh) | 一种云计算平台中云服务器的监控方法和监控系统 | |
CN110764585B (zh) | 一种通用的独立bmc板卡 | |
CN106713046A (zh) | 一种服务器集群环境中网络冗余的设计方法 | |
CN101867490A (zh) | 运维操作系统和方法 | |
Pakin et al. | Power usage of production supercomputers and production workloads | |
CN214851260U (zh) | 智能网卡带外连接系统 | |
CN112965806B (zh) | 用于确定资源的方法和装置 | |
WO2022093713A1 (en) | Techniques for generating a configuration for electrically isolating fault domains in a data center | |
CN112073499A (zh) | 一种多机型云物理服务器的动态服务方法 | |
CN116723198A (zh) | 一种多节点服务器主机控制方法、装置、设备、存储介质 | |
CN108712499A (zh) | 基于对云计算服务进行管理的系统 | |
CN104598428A (zh) | 数据处理系统 | |
CN108306964A (zh) | 服务器节点信息集中显示方法、系统、设备及存储介质 | |
US20150188747A1 (en) | Cloud-based data center infrastructure management system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170524 |