CN107547260B - 一种长距infiniband链路检测切换修复的方法 - Google Patents
一种长距infiniband链路检测切换修复的方法 Download PDFInfo
- Publication number
- CN107547260B CN107547260B CN201710606374.1A CN201710606374A CN107547260B CN 107547260 B CN107547260 B CN 107547260B CN 201710606374 A CN201710606374 A CN 201710606374A CN 107547260 B CN107547260 B CN 107547260B
- Authority
- CN
- China
- Prior art keywords
- machine room
- link
- switching
- delay
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及数据库技术领域,公开了一种长距infiniband链路检测切换修复的方法,包括以下步骤:(1)环境搭建:将第一机房和第二机房内的计算节点、存储节点、所有类型的IB交换机接入同一个网络内,使两者网络连通并能够相互通信;(2)获取延迟:在第一机房或第二机房的服务器内启动链路检测切换修复程序;(3)修复延迟:根据步骤(2)获取到的实时链路延迟信息,如果检测到异常状态或延迟时间超过警戒阀值则进行链路切换,并对有问题的链路网络进行报警。本发明在能够获取长距infiniband链路的实时状态;长距infiniband设备出现问题能够主动推送通知,出现问题能够进行自动切换和修复;提供了一个整体视角来展示集群拓扑,实时整体网络流量,实时整体网络延迟。
Description
技术领域
本发明涉及数据库技术领域,特别是涉及一种长距infiniband链路检测切换修复的方法。
背景技术
在长距infiniband的使用过程中,如何获取到长距infiniband的当前状态,并能够对故障发生时尝试进行修复,减少故障的影响时间。
双活系统中业务系统跨两个独立的机房,中间通过长距infiniband连接,因此做长距链路检测切换修复需要包括三个步骤:
1.检查各个机房内的infiniband的连接状态;
2.检查跨机房的长距infiniband的连接状态;
3.如果跨机房的长距infiniband链路出现问题进行切换修复。
现有产品只包含单个IB交换机的管理,没有形成一个统一的平台管理,如果整体集群包括数量很多的infiniband交换机,导致问题如下:
1.无法观察到整体集群拓扑和全局信息;
2.对某台交换机的操作需要进入到单个页面一个一个操作;
3.没有形成一个统一的链路切换修复的流程。
发明内容
本发明针对现有技术中的缺点,提供了一种长距infiniband链路检测切换修复的方法。
为了解决上述技术问题,本发明通过下述技术方案得以解决。
一种长距infiniband链路检测切换修复的方法,包括如下步骤:
(1)环境搭建:将第一机房内的计算节点、存储节点、所有类型的IB交换机接入同一个网络内;对第二机房进行相同的设置,使两者网络连通并能够相互通信;
(2)获取延迟:在第一机房或第二机房的服务器内启动链路检测切换修复程序,采用Linux操作系统本身自带的PING工具测试该机房内部的网络通信状态、跨机房的网络通信状态;通过检测状态信息的工具获取第一机房和第二机房各个节点上的IB端口链路的延迟,和第一机房IB交换机的IB端口与第二机房IB交换机IB端口之间的延迟;
(3)修复延迟:根据步骤(2)获取到的实时链路延迟信息,如果检测到异常状态或延迟时间超过警戒阀值则进行链路切换,链路切换通过切换工具完成对IB端口的启动和关闭,并对有问题的链路网络进行报警,异常处理完成后完成链路切换。
作为优选,采用snmp来获取infiniband交换机的基本信息,基本信息包括ib端口状态/基本信息、交换机基本信息、ib端口连接线缆长度/类型。
作为优选,IB交换机包括普通IB交换机和长距IB交换机。
作为优选,步骤(3)中,链路切换判断过程为,在一分钟时间内,网络延迟超过1ms,则判断为需要进行切换。
本发明由于采用了以上技术方案,具有显著的技术效果:
1.在能够获取长距infiniband链路的实时状态;
2.长距infiniband设备出现问题能够主动推送通知(设备端口up/down,风扇/电源出现问题,用户登录登出);
3.长距IB交换机链路出现问题能够进行自动切换和修复;
4.提供了一个整体视角来展示集群拓扑,实时整体网络流量,实时整体网络延迟。
附图说明
图1是本发明一种长距infiniband链路检测切换修复的方法中运行构架的示意图;
图2是本发明一种长距infiniband链路检测切换修复的方法中正常运行的示意图;
图3是本发明一种长距infiniband链路检测切换修复的方法中的第一种运行异常情况的示意图;
图4是本发明一种长距infiniband链路检测切换修复的方法中的第二种运行异常情况示意图;
图5是本发明一种长距infiniband链路检测切换修复的方法中的第三种运行异常情况示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步详细描述。
如图1至图5所示,一种长距infiniband链路检测切换修复的方法,包括如下步骤:
(1)环境搭建:将第一机房内的计算节点、存储节点、所有类型的IB交换机接入同一个网络内;对第二机房进行相同的设置,使两者网络连通并能够相互通信;
(2)获取延迟:在第一机房或第二机房的服务器内启动链路检测切换修复程序,采用Linux操作系统本身自带的PING工具测试该机房内部的网络通信状态、跨机房的网络通信状态;通过检测状态信息的工具获取第一机房和第二机房各个节点上的IB端口链路的延迟,和第一机房IB交换机的IB端口与第二机房IB交换机IB端口之间的延迟;
(3)修复延迟:根据步骤(2)获取到的实时链路延迟信息,如果检测到异常状态或延迟时间超过警戒阀值则进行链路切换,链路切换判断过程为,在一分钟时间内,网络延迟超过1ms,则判断为需要进行切换,链路切换通过切换工具完成对IB端口的启动和关闭,并对有问题的链路网络进行报警,异常处理完成后完成链路切换。
采用snmp来获取infiniband交换机的基本信息,基本信息包括ib端口状态/基本信息、交换机基本信息、ib端口连接线缆长度/类型。
IB交换机包括普通IB交换机和长距IB交换机。
本发明在能够获取长距infiniband链路的实时状态;长距infiniband设备出现问题能够主动推送通知(设备端口up/down,风扇/电源出现问题,用户登录登出);长距IB交换机链路出现问题能够进行自动切换和修复;提供了一个整体视角来展示集群拓扑,实时整体网络流量,实时整体网络延迟。
实施例1
如图2所示,该实施例为运行正常状态,A机房到B机房的链路延迟为500微秒,B机房到A机房的链路延迟为500微秒,均为最佳状态。
实施例2
如图3所示,该实施例为异常状态,A机房到B机房的链路延迟为2毫秒,B机房到A机房的链路延迟为500微秒,双方延迟不对等导致A机房的应用读取/写入受到阻塞,超过预定的1分钟后程序自动将A机房到B机房的物理链路临时中断,A机房和B机房的相互通信通过正常的链路进行,应用运行状态正常;通过短信/邮件等报警方式通知到客户进行处理有问题的物理链路,修复完成后手动激活,物理状态变成图2的状态。
实施例3
如图4所示,该实例为异常状态,B机房到A机房的链路延迟为500微秒,A机房到B机房的链路延迟为2毫秒,双方延迟不对等导致B机房的应用读取/写入受到阻塞,超过预定的1分钟后程序自动将B机房到A机房的物理链路临时中断,A机房和B机房的相互通信通过正常的链路进行,应用运行状态正常;通过短信/邮件等报警方式通知到客户进行处理有问题的物理链路,修复完成后手动激活,物理状态变成图2的状态。
实施例4
如图5所示,该实例为灾难状态,B机房到A机房的链路延迟为2毫秒,A机房到B机房的链路延迟为2毫秒,双方延迟均受到阻塞,导致双方应用都受到阻塞,超过预定阀值后程序将双方的2条物理链路临时中断,同时将B机房的计算节点关闭,保证A机房的正常运行。由于A机房的内部物理链路延迟正常,这个时候平台继续提供服务,通过短信/邮件等报警方式通知到客户进行处理有问题的物理链路,修复完成后手动激活,物理状态变成图2的状态。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。
Claims (4)
1.一种长距infiniband链路检测切换修复的方法,其特征在于,包括如下步骤:
(1)环境搭建:将第一机房内的计算节点、存储节点、所有类型的IB交换机接入同一个网络内;对第二机房进行相同的设置,使两者网络连通并能够相互通信;
(2)获取延迟:在第一机房或第二机房的服务器内启动链路检测切换修复程序,采用Linux操作系统本身自带的PING工具测试该机房内部的网络通信状态、跨机房的网络通信状态;通过检测状态信息的工具获取第一机房和第二机房各个节点上的IB端口链路的延迟,和第一机房IB交换机的IB端口与第二机房IB交换机IB端口之间的延迟;
(3)修复延迟:根据步骤(2)获取到的实时链路延迟信息,如果检测到异常状态或延迟时间超过警戒阀值则进行链路切换,链路切换通过切换工具完成对IB端口的启动和关闭,并对有问题的链路网络进行报警,异常处理完成后完成链路切换。
2.根据权利要求1所述的一种长距infiniband链路检测切换修复的方法,其特征在于:采用snmp来获取infiniband交换机的基本信息,基本信息包括IB端口状态/基本信息、交换机基本信息、IB端口连接线缆长度/类型。
3.根据权利要求1所述的一种长距infiniband链路检测切换修复的方法,其特征在于:IB交换机包括普通IB交换机和长距IB交换机。
4.根据权利要求1所述的一种长距infiniband链路检测切换修复的方法,其特征在于:步骤(3)中,链路切换判断过程为,在一分钟时间内,网络延迟超过1ms,则判断为需要进行切换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710606374.1A CN107547260B (zh) | 2017-07-24 | 2017-07-24 | 一种长距infiniband链路检测切换修复的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710606374.1A CN107547260B (zh) | 2017-07-24 | 2017-07-24 | 一种长距infiniband链路检测切换修复的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107547260A CN107547260A (zh) | 2018-01-05 |
CN107547260B true CN107547260B (zh) | 2020-12-22 |
Family
ID=60970730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710606374.1A Active CN107547260B (zh) | 2017-07-24 | 2017-07-24 | 一种长距infiniband链路检测切换修复的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107547260B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110278106B (zh) * | 2019-05-14 | 2022-04-22 | 杭州沃趣科技股份有限公司 | 一种用于Oracle数据库长距双活网络高可用的方法 |
CN110740066B (zh) * | 2019-10-30 | 2022-07-08 | 北京计算机技术及应用研究所 | 一种席位不变的跨机故障迁移方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1647466A (zh) * | 2002-04-18 | 2005-07-27 | 国际商业机器公司 | 为通道适配器故障提供冗余度的方法 |
CN101163059A (zh) * | 2007-11-24 | 2008-04-16 | 杭州华三通信技术有限公司 | 一种网络节点检测方法和装置 |
CN102457403A (zh) * | 2010-10-15 | 2012-05-16 | 无锡江南计算技术研究所 | 一种网络连接的故障检测方法及装置 |
CN106487679A (zh) * | 2015-09-02 | 2017-03-08 | 北京国基科技股份有限公司 | 以太网交换机的主备切换系统和切换方法 |
CN106686099A (zh) * | 2017-01-03 | 2017-05-17 | 杭州沃趣科技股份有限公司 | 一种基于infiniband网络实现Oracle RAC数据库跨机房双活的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2716003B1 (en) * | 2011-06-03 | 2016-09-28 | Oracle International Corporation | System and method for authenticating components in a network |
-
2017
- 2017-07-24 CN CN201710606374.1A patent/CN107547260B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1647466A (zh) * | 2002-04-18 | 2005-07-27 | 国际商业机器公司 | 为通道适配器故障提供冗余度的方法 |
CN101163059A (zh) * | 2007-11-24 | 2008-04-16 | 杭州华三通信技术有限公司 | 一种网络节点检测方法和装置 |
CN102457403A (zh) * | 2010-10-15 | 2012-05-16 | 无锡江南计算技术研究所 | 一种网络连接的故障检测方法及装置 |
CN106487679A (zh) * | 2015-09-02 | 2017-03-08 | 北京国基科技股份有限公司 | 以太网交换机的主备切换系统和切换方法 |
CN106686099A (zh) * | 2017-01-03 | 2017-05-17 | 杭州沃趣科技股份有限公司 | 一种基于infiniband网络实现Oracle RAC数据库跨机房双活的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107547260A (zh) | 2018-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106685676B (zh) | 一种节点切换方法及装置 | |
US20020152320A1 (en) | System and method for rapidly switching between redundant networks | |
CN104486155A (zh) | 一种数据库集群监控的方法及系统 | |
US20080144531A1 (en) | Method and Apparatus for Device Discovery on an Infiniband Link in a Mixed Environment with Switches and Proprietary Devices | |
CN112291075B (zh) | 网络故障定位方法、装置、计算机设备及存储介质 | |
CN107547260B (zh) | 一种长距infiniband链路检测切换修复的方法 | |
CN105450292A (zh) | 一种故障诊断分析方法、装置及系统 | |
CN113328916B (zh) | Bfd检测模式的切换方法、装置及设备 | |
CN106059793A (zh) | 一种基于平滑重启的路由信息处理方法及装置 | |
JP6616230B2 (ja) | ネットワーク装置 | |
CN103684871A (zh) | 运维资产状态监测方法、运维配置信息的更新方法及系统 | |
CN105281824B (zh) | 长发光光网络单元的检测方法、装置及网管设备 | |
CN101252477B (zh) | 一种网络故障根源的确定方法及分析装置 | |
CN109327343B (zh) | 用于openstack云环境的自动化巡检方法及系统 | |
US20080144614A1 (en) | Method and Apparatus to Manage Multiple Infiniband Links in a Mixed Environment with Switches and Proprietary Devices | |
US9575866B1 (en) | Diagnostic module for monitoring electronic data transmission | |
CN106534399B (zh) | Vsm分裂的检测方法和装置 | |
US20190132261A1 (en) | Link locking in ethernet networks | |
CN110569303B (zh) | 一种适用于多种云环境的MySQL应用层高可用系统及方法 | |
US10516625B2 (en) | Network entities on ring networks | |
CN113162815A (zh) | 一种流量切换方法、系统、设备及介质 | |
CN115118635B (zh) | 一种时延检测方法、装置、设备及存储介质 | |
CN207992997U (zh) | I2c总线系统 | |
US8644137B2 (en) | Method and system for providing safe dynamic link redundancy in a data network | |
CN108881070A (zh) | 用于在Smart Link组中的选择端口的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |