CN107547260A - 一种长距infiniband链路检测切换修复的方法 - Google Patents

一种长距infiniband链路检测切换修复的方法 Download PDF

Info

Publication number
CN107547260A
CN107547260A CN201710606374.1A CN201710606374A CN107547260A CN 107547260 A CN107547260 A CN 107547260A CN 201710606374 A CN201710606374 A CN 201710606374A CN 107547260 A CN107547260 A CN 107547260A
Authority
CN
China
Prior art keywords
link
switching
computer room
delay
infiniband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710606374.1A
Other languages
English (en)
Other versions
CN107547260B (zh
Inventor
王浩
李建辉
熊中哲
魏兴华
臧冰凌
李春
陈栋
张文件
罗春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Wo Qu Polytron Technologies Inc
Original Assignee
Hangzhou Wo Qu Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Wo Qu Polytron Technologies Inc filed Critical Hangzhou Wo Qu Polytron Technologies Inc
Priority to CN201710606374.1A priority Critical patent/CN107547260B/zh
Publication of CN107547260A publication Critical patent/CN107547260A/zh
Application granted granted Critical
Publication of CN107547260B publication Critical patent/CN107547260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及数据库技术领域,公开了一种长距infiniband链路检测切换修复的方法,包括以下步骤:(1)环境搭建:将第一机房和第二机房内的计算节点、存储节点、所有类型的IB交换机接入同一个网络内,使两者网络连通并能够相互通信;(2)获取延迟:在第一机房或第二机房的服务器内启动链路检测切换修复程序;(3)修复延迟:根据步骤(2)获取到的实时链路延迟信息,如果检测到异常状态或延迟时间超过警戒阀值则进行链路切换,并对有问题的链路网络进行报警。本发明在能够获取长距infiniband链路的实时状态;长距infiniband设备出现问题能够主动推送通知,出现问题能够进行自动切换和修复;提供了一个整体视角来展示集群拓扑,实时整体网络流量,实时整体网络延迟。

Description

一种长距infiniband链路检测切换修复的方法
技术领域
本发明涉及数据库技术领域,特别是涉及一种长距infiniband链路检测切换修复的方法。
背景技术
在长距infiniband的使用过程中,如何获取到长距infiniband的当前状态,并能够对故障发生时尝试进行修复,减少故障的影响时间。
双活系统中业务系统跨两个独立的机房,中间通过长距infiniband连接,因此做长距链路检测切换修复需要包括三个步骤:
1.检查各个机房内的infiniband的连接状态;
2.检查跨机房的长距infiniband的连接状态;
3.如果跨机房的长距infiniband链路出现问题进行切换修复。
现有产品只包含单个IB交换机的管理,没有形成一个统一的平台管理,如果整体集群包括数量很多的infiniband交换机,导致问题如下:
1.无法观察到整体集群拓扑和全局信息;
2.对某台交换机的操作需要进入到单个页面一个一个操作;
3.没有形成一个统一的链路切换修复的流程。
发明内容
本发明针对现有技术中的缺点,提供了一种长距infiniband链路检测切换修复的方法。
为了解决上述技术问题,本发明通过下述技术方案得以解决。
一种长距infiniband链路检测切换修复的方法,包括如下步骤:
(1)环境搭建:将第一机房内的计算节点、存储节点、所有类型的IB交换机接入同一个网络内;对第二机房进行相同的设置,使两者网络连通并能够相互通信;
(2)获取延迟:在第一机房或第二机房的服务器内启动链路检测切换修复程序,采用Linux操作系统本身自带的PING工具测试该机房内部的网络通信状态、跨机房的网络通信状态;通过检测状态信息的工具获取第一机房和第二机房各个节点上的IB端口链路的延迟,和第一机房IB交换机的IB端口与第二机房IB交换机IB端口之间的延迟;
(3)修复延迟:根据步骤(2)获取到的实时链路延迟信息,如果检测到异常状态或延迟时间超过警戒阀值则进行链路切换,链路切换通过切换工具完成对IB端口的启动和关闭,并对有问题的链路网络进行报警,异常处理完成后完成链路切换。
作为优选,采用snmp来获取infiniband交换机的基本信息,基本信息包括ib端口状态/基本信息、交换机基本信息、ib端口连接线缆长度/类型。
作为优选,IB交换机包括普通IB交换机和长距IB交换机。
作为优选,步骤(3)中,链路切换判断过程为,在一分钟时间内,网络延迟超过1ms,则判断为需要进行切换。
本发明由于采用了以上技术方案,具有显著的技术效果:
1.在能够获取长距infiniband链路的实时状态;
2.长距infiniband设备出现问题能够主动推送通知(设备端口up/down,风扇/电源出现问题,用户登录登出);
3.长距IB交换机链路出现问题能够进行自动切换和修复;
4.提供了一个整体视角来展示集群拓扑,实时整体网络流量,实时整体网络延迟。
附图说明
图1是本发明一种长距infiniband链路检测切换修复的方法中运行构架的示意图;
图2是本发明一种长距infiniband链路检测切换修复的方法中正常运行的示意图;
图3是本发明一种长距infiniband链路检测切换修复的方法中的第一种运行异常情况的示意图;
图4是本发明一种长距infiniband链路检测切换修复的方法中的第二种运行异常情况示意图;
图5是本发明一种长距infiniband链路检测切换修复的方法中的第三种运行异常情况示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步详细描述。
如图1至图5所示,一种长距infiniband链路检测切换修复的方法,包括如下步骤:
(1)环境搭建:将第一机房内的计算节点、存储节点、所有类型的IB交换机接入同一个网络内;对第二机房进行相同的设置,使两者网络连通并能够相互通信;
(2)获取延迟:在第一机房或第二机房的服务器内启动链路检测切换修复程序,采用Linux操作系统本身自带的PING工具测试该机房内部的网络通信状态、跨机房的网络通信状态;通过检测状态信息的工具获取第一机房和第二机房各个节点上的IB端口链路的延迟,和第一机房IB交换机的IB端口与第二机房IB交换机IB端口之间的延迟;
(3)修复延迟:根据步骤(2)获取到的实时链路延迟信息,如果检测到异常状态或延迟时间超过警戒阀值则进行链路切换,链路切换判断过程为,在一分钟时间内,网络延迟超过1ms,则判断为需要进行切换,链路切换通过切换工具完成对IB端口的启动和关闭,并对有问题的链路网络进行报警,异常处理完成后完成链路切换。
采用snmp来获取infiniband交换机的基本信息,基本信息包括ib端口状态/基本信息、交换机基本信息、ib端口连接线缆长度/类型。
IB交换机包括普通IB交换机和长距IB交换机。
本发明在能够获取长距infiniband链路的实时状态;长距infiniband设备出现问题能够主动推送通知(设备端口up/down,风扇/电源出现问题,用户登录登出);长距IB交换机链路出现问题能够进行自动切换和修复;提供了一个整体视角来展示集群拓扑,实时整体网络流量,实时整体网络延迟。
实施例1
如图2所示,该实施例为运行正常状态,A机房到B机房的链路延迟为500微秒,B机房到A机房的链路延迟为500微秒,均为最佳状态。
实施例2
如图3所示,该实施例为异常状态,A机房到B机房的链路延迟为2毫秒,B机房到A机房的链路延迟为500微秒,双方延迟不对等导致A机房的应用读取/写入受到阻塞,超过预定的1分钟后程序自动将A机房到B机房的物理链路临时中断,A机房和B机房的相互通信通过正常的链路进行,应用运行状态正常;通过短信/邮件等报警方式通知到客户进行处理有问题的物理链路,修复完成后手动激活,物理状态变成图2的状态。
实施例3
如图4所示,该实例为异常状态,B机房到A机房的链路延迟为500微秒,A机房到B机房的链路延迟为2毫秒,双方延迟不对等导致B机房的应用读取/写入受到阻塞,超过预定的1分钟后程序自动将B机房到A机房的物理链路临时中断,A机房和B机房的相互通信通过正常的链路进行,应用运行状态正常;通过短信/邮件等报警方式通知到客户进行处理有问题的物理链路,修复完成后手动激活,物理状态变成图2的状态。
实施例4
如图5所示,该实例为灾难状态,B机房到A机房的链路延迟为2毫秒,A机房到B机房的链路延迟为2毫秒,双方延迟均受到阻塞,导致双方应用都受到阻塞,超过预定阀值后程序将双方的2条物理链路临时中断,同时将B机房的计算节点关闭,保证A机房的正常运行。由于A机房的内部物理链路延迟正常,这个时候平台继续提供服务,通过短信/邮件等报警方式通知到客户进行处理有问题的物理链路,修复完成后手动激活,物理状态变成图2的状态。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。

Claims (4)

1.一种长距infiniband链路检测切换修复的方法,其特征在于,包括如下步骤:
(1)环境搭建:将第一机房内的计算节点、存储节点、所有类型的IB交换机接入同一个网络内;对第二机房进行相同的设置,使两者网络连通并能够相互通信;
(2)获取延迟:在第一机房或第二机房的服务器内启动链路检测切换修复程序,采用Linux操作系统本身自带的PING工具测试该机房内部的网络通信状态、跨机房的网络通信状态;通过检测状态信息的工具获取第一机房和第二机房各个节点上的IB端口链路的延迟,和第一机房IB交换机的IB端口与第二机房IB交换机IB端口之间的延迟;
(3)修复延迟:根据步骤(2)获取到的实时链路延迟信息,如果检测到异常状态或延迟时间超过警戒阀值则进行链路切换,链路切换通过切换工具完成对IB端口的启动和关闭,并对有问题的链路网络进行报警,异常处理完成后完成链路切换。
2.根据权利要求1所述的一种长距infiniband链路检测切换修复的方法,其特征在于:采用snmp来获取infiniband交换机的基本信息,基本信息包括IB端口状态/基本信息、交换机基本信息、IB端口连接线缆长度/类型。
3.根据权利要求1所述的一种长距infiniband链路检测切换修复的方法,其特征在于:IB交换机包括普通IB交换机和长距IB交换机。
4.根据权利要求1所述的一种长距infiniband链路检测切换修复的方法,其特征在于:步骤(3)中,链路切换判断过程为,在一分钟时间内,网络延迟超过1ms,则判断为需要进行切换。
CN201710606374.1A 2017-07-24 2017-07-24 一种长距infiniband链路检测切换修复的方法 Active CN107547260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710606374.1A CN107547260B (zh) 2017-07-24 2017-07-24 一种长距infiniband链路检测切换修复的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710606374.1A CN107547260B (zh) 2017-07-24 2017-07-24 一种长距infiniband链路检测切换修复的方法

Publications (2)

Publication Number Publication Date
CN107547260A true CN107547260A (zh) 2018-01-05
CN107547260B CN107547260B (zh) 2020-12-22

Family

ID=60970730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710606374.1A Active CN107547260B (zh) 2017-07-24 2017-07-24 一种长距infiniband链路检测切换修复的方法

Country Status (1)

Country Link
CN (1) CN107547260B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110278106A (zh) * 2019-05-14 2019-09-24 杭州沃趣科技股份有限公司 一种用于Oracle数据库长距双活网络高可用的方法
CN110740066A (zh) * 2019-10-30 2020-01-31 北京计算机技术及应用研究所 一种席位不变的跨机故障迁移方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647466A (zh) * 2002-04-18 2005-07-27 国际商业机器公司 为通道适配器故障提供冗余度的方法
CN101163059A (zh) * 2007-11-24 2008-04-16 杭州华三通信技术有限公司 一种网络节点检测方法和装置
CN102457403A (zh) * 2010-10-15 2012-05-16 无锡江南计算技术研究所 一种网络连接的故障检测方法及装置
US20140241208A1 (en) * 2011-06-03 2014-08-28 Oracle International Corporation System and method for supporting sub-subnet in an infiniband (ib) network
CN106487679A (zh) * 2015-09-02 2017-03-08 北京国基科技股份有限公司 以太网交换机的主备切换系统和切换方法
CN106686099A (zh) * 2017-01-03 2017-05-17 杭州沃趣科技股份有限公司 一种基于infiniband网络实现Oracle RAC数据库跨机房双活的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647466A (zh) * 2002-04-18 2005-07-27 国际商业机器公司 为通道适配器故障提供冗余度的方法
CN101163059A (zh) * 2007-11-24 2008-04-16 杭州华三通信技术有限公司 一种网络节点检测方法和装置
CN102457403A (zh) * 2010-10-15 2012-05-16 无锡江南计算技术研究所 一种网络连接的故障检测方法及装置
US20140241208A1 (en) * 2011-06-03 2014-08-28 Oracle International Corporation System and method for supporting sub-subnet in an infiniband (ib) network
CN106487679A (zh) * 2015-09-02 2017-03-08 北京国基科技股份有限公司 以太网交换机的主备切换系统和切换方法
CN106686099A (zh) * 2017-01-03 2017-05-17 杭州沃趣科技股份有限公司 一种基于infiniband网络实现Oracle RAC数据库跨机房双活的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110278106A (zh) * 2019-05-14 2019-09-24 杭州沃趣科技股份有限公司 一种用于Oracle数据库长距双活网络高可用的方法
CN110740066A (zh) * 2019-10-30 2020-01-31 北京计算机技术及应用研究所 一种席位不变的跨机故障迁移方法和系统
CN110740066B (zh) * 2019-10-30 2022-07-08 北京计算机技术及应用研究所 一种席位不变的跨机故障迁移方法和系统

Also Published As

Publication number Publication date
CN107547260B (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN107070726A (zh) 一种基于mdc的综合管理方法
CN106789323A (zh) 一种通信网络管理方法及其装置
CN103457796B (zh) 一种智能变电站中跨交换机的监控方法
CN105515897B (zh) 调度自动化综合监控与智能告警系统
CN107094091B (zh) 一种智能变电站站控层网络配置校验方法和系统
CN103516824B (zh) 基于ip层的网络拓扑识别方法和设备
CN112291075B (zh) 网络故障定位方法、装置、计算机设备及存储介质
CN107785998B (zh) 一种配电系统中配电自动化设备的监控方法
CN105718686A (zh) 一种基于事件驱动的配电网仿真系统及其仿真方法
CN108879956A (zh) 基于设备运行状态对系统故障进行主动判断并修复的方法
CN110838936A (zh) 一种配电通信网管理装置及方法
CN107547260A (zh) 一种长距infiniband链路检测切换修复的方法
CN104283780A (zh) 建立数据传输路径的方法和装置
CN107171861A (zh) 一种信息处理方法、电子设备和计算机存储介质
CN103166798A (zh) 一种数据灾备服务系统及灾备设备综合监控系统
CN104639358B (zh) 批量网络端口切换方法及切换系统
CN203340096U (zh) 交互式电力通信网络仿真装置
CN104883275B (zh) 一种通信设备的日志缓存方法及系统
CN105849699B (zh) 控制数据中心架构设备的方法
CN106872854B (zh) 一种配电系统中配电自动化设备的故障处理方法
CN114243914B (zh) 电力监控系统
CN108011757A (zh) 一种用于电力行业的智能网络管理方法及装置
CN109687985B (zh) 一种变电站过程层网络自动配置方法及系统
CN106712298B (zh) 一种用于配电自动化系统的监控系统
US10516625B2 (en) Network entities on ring networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant