CN102026042A - 一种高级电信计算架构控制面的保活、自愈方法和装置 - Google Patents

一种高级电信计算架构控制面的保活、自愈方法和装置 Download PDF

Info

Publication number
CN102026042A
CN102026042A CN2009101767170A CN200910176717A CN102026042A CN 102026042 A CN102026042 A CN 102026042A CN 2009101767170 A CN2009101767170 A CN 2009101767170A CN 200910176717 A CN200910176717 A CN 200910176717A CN 102026042 A CN102026042 A CN 102026042A
Authority
CN
China
Prior art keywords
command
alive
chain
keep
ipmi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009101767170A
Other languages
English (en)
Inventor
梁璐
赵凯
周自春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN2009101767170A priority Critical patent/CN102026042A/zh
Publication of CN102026042A publication Critical patent/CN102026042A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种高级电信计算架构控制面的保活、自愈方法和装置,该方法包括:机框管理模块获取所在机框内处于软件上电成功状态的普通单板和交换板,定时向交换板和/或普通单板发起控制面心跳保活IPMI命令;交换板通过普通单板向机框管理模块发送控制面心跳保活IPMI命令应答,或者普通单板通过交换板向机框管理模块发送控制面心跳保活IPMI命令应答;机框管理模块在连续指定的时间内未接收到控制面心跳保活IPMI命令应答时,判定由交换板至普通单板或者由普通单板至交换板的链路故障,并对故障单板进行复位。本发明提供的方法,提高了检测定位的精确性和系统的鲁棒性。

Description

一种高级电信计算架构控制面的保活、自愈方法和装置
技术领域
本发明涉及通信技术领域,尤其涉及一种高级电信计算架构控制面的保活、自愈方法和装置。
背景技术
ATCA(Advanced Telecom Computing Architecture,高级电信计算架构)标准主要目标在于为电信级电信应用提供标准化的平台体系结构,并满足电信应用的许多重要特性,如可靠性,可维护性等方面要求。ATCA架构为高度可扩展的、模块化的无线和有线通信、核心及网络数据中心解决方案提供了基础,该解决方案能够由基于构建模块的商用组件快速集成。这些模块化解决方案可加快新服务的上市速度,从而更迅速地满足客户需求和提高创收能力。
ATCA架构中的机框管理系统(Shelf Management System)用于监测、控制ATCA单板和其它的机框功能模块,以确保其能正常工作。机框管理系统中的机框管理模块CMM(Chassis Management Modular)用于监测、控制机框中的单板和其它功能模块,报告系统异常并进行基本的恢复操作,它是ATCA机框中管理系统的核心。一个机框有一对CMM,机框中的每块ATCA单板上的IPMC(Intelligent Platform Management Controller,智能平台管理控制器)通过IPMB(Intelligent Platform Management Bus,智能平台管理控制总线)与CMM相连,CMM通过它控制和管理每个单板上的一个或多个FRU(Field Replaceable Units,现场更换单元),使其能够在IPMI(Intelligent Platform Management Interface,智能平台管理接口)架构的管理之下工作。
控制面的检测和自愈是电信设备必备的功能,便于系统主动发现故障和进行恢复。目前非ATCA架构的系统采用的是用每个框的交换板作为故障的检测者和发现者,因为交换板满足以下几个条件:(1)在每个机框中是必须存在的单板;(2)交换板可以获取到框内单板的配置信息;(3)交换板上有信号线知道本框各单板的在位情况,也有信号线可以直接对其复位。具体的检测流程是:交换板通过发送心跳检测与本框各单板之间,如果连续11分钟(可配置)无通讯,则认为故障,然后通过交换板对该单板进行复位。
目前在基于ATCA的平台架构沿用了上述检测思路,在ATCA架构中只有CMM具备通过硬件线路复位同框单板的能力,因此故障的处理者只能是CMM,但是CMM为独立单板,无法获取框内单板的配置信息,因此不适合作为故障的发现者;同理,各框交换板也可能是独立单板,也不适合,最终采用了各单板的归属管理单板作为检测者,由于管理单板具有归属于它的各单板的配置信息,可以在管理单板和被管理单板之前发送心跳检测,如果发现故障则给该被管理单板同框的机框管理板发送指令,要求其复位该被管理单板。
然而,现有技术存在以下问题:
(1)由于是由管理单板检测归属于它的单板,该单板有可能与归属的管理单板不在一个机框内,这样就会导致即使检测链路故障,也无法精确定位故障位置,有可能是框间链路故障,也可能是管理板框内故障或者被管理单板框内故障;
(2)无法定位出哪个方向的链路出现问题,这个问题在之前非ATCA架构的方案也存在。
发明内容
为了解决上述问题,本发明提供一种高级电信计算架构控制面的保活、自愈方法和装置。
具体的,本发明一种高级电信计算架构控制面的保活、自愈方法,包括:
步骤1、机框管理模块获取所在机框内处于软件上电成功状态的普通单板和交换板,定时向所述交换板发送控制面心跳保活智能平台管理接口IPMI命令;
步骤2、所述交换板接收到所述控制面心跳保活IPMI命令后,通过所述普通单板向所述机框管理模块发送控制面心跳保活IPMI命令应答;
步骤3、所述机框管理模块判断在预设时长内是否接收到所述普通单板发送的控制面心跳保活IPMI命令应答,若未接收到,判定由所述交换板至普通单板的链路故障,对故障单板进行复位。
其中,所述普通单板或交换板的软件上电成功状态的设置方式为:
所述普通单板或交换板的智能平台管理控制器IPMC在本板的主机HOSTCPU处于现场可更换单元进入激活状态时,给本板的HOST CPU加电;
所述HOST CPU上电并运行后,向所述IPMC上报上电成功消息;
所述IPMC设置所述HOST CPU为软件上电成功状态。
其中,所述HOST CPU向所述IPMC上报上电成功消息后还进行以下操作:所述HOST CPU设置所述IPMC为启动保活检测状态。
进一步的,所述步骤2具体包括:
所述交换板的IPMC接收到所述控制面心跳保活IPMI命令后,向所述交换板的HOST CPU发送控制面保活检测请求命令;
所述交换板的HOST CPU接收到所述控制面保活检测请求命令后,向所述普通单板的HOST CPU发送控制面保活私有消息;
所述普通单板的HOST CPU接收到所述控制面保活私有消息后,向所述普通单板的IPMC发送控制面保活检测请求命令;
所述普通单板的IPMC向所述机框管理模块发送控制面心跳保活IPMI命令应答。
其中,所述控制面心跳保活IPMI命令和控制面心跳保活IPMI命令应答的发送通过ATCA规范中预留的IPMI NetFn实现。
本发明还提供一种高级电信计算架构控制面的保活、自愈方法,包括:
步骤11、机框管理模块获取所在机框内处于软件上电成功状态的普通单板和交换板,定时向所述普通单板发送控制面心跳保活IPMI命令;
步骤12、所述普通单板接收到所述控制面心跳保活IPMI命令后,通过所述交换板向所述机框管理模块发送控制面心跳保活IPMI命令应答;
步骤13、所述机框管理模块判断在预设的时长内是否接收到所述交换板发送的控制面心跳保活IPMI命令应答,若未接收到,判定由普通单板至交换板的链路故障,对故障单板进行复位。
其中,所述步骤12具体包括:
所述普通单板的IPMC接收到所述控制面心跳保活IPMI命令后,向所述普通单板的HOST CPU发送控制面保活检测请求命令;
所述普通单板的HOST CPU接收到所述控制面保活检测请求命令后,向所述交换板的HOST CPU发送控制面保活私有消息;
所述交换板的HOST CPU接收到所述控制面保活私有消息后,向所述交换板的IPMC发送控制面保活检测请求命令;
所述交换板的IPMC向所述机框管理模块发送控制面心跳保活IPMI命令应答。
本发明还提供一种机框管理模块,包括:
单板获取单元,用于获取所在机框内处于软件上电成功状态的普通单板和交换板;
IPMI命令下发单元,用于在所述单板获取单元获取到普通单板和交换板后,定时向所述交换板和/或普通单板发送控制面心跳保活IPMI命令;
故障检测单元,用于判断在预设的时长内是否接收到所述普通单板或交换板发送的控制面心跳保活IPMI命令应答,若未接收到,判定由所述交换板至普通单板,或者由所述普通单板至交换板的链路故障,对故障单板进行复位。
本发明还提供一种交换板,包括:
第一IPMI命令接收单元,用于接收机框管理模块发送的控制面心跳保活IPMI命令;
第一控制面保活私有消息发送单元,用于在所述第一IPMI命令接收单元接收到控制面心跳保活IPMI命令后,向普通单板发送控制面保活私有消息;
第一控制面保活私有消息接收单元,用于接收普通单板发送的控制面保活私有消息;
第一IPMI命令应答发送单元,用于在所述第一控制面保活私有消息接收单元接收到控制面保活私有消息后,向机框管理模块发送控制面心跳保活IPMI命令应答。
本发明还提供一种单板,包括:
第二IPMI命令接收单元,用于接收机框管理模块发送的控制面心跳保活IPMI命令;
第二控制面保活私有消息发送单元,用于在所述第二IPMI命令接收单元接收到控制面心跳保活IPMI命令后,向交换板发送控制面保活私有消息;
第二控制面保活私有消息接收单元,用于接收交换板发送的控制面保活私有消息;
第二IPMI命令应答发送单元,用于在所述第二控制面保活私有消息接收单元接收到控制面保活私有消息后,向机框管理模块发送控制面心跳保活IPMI命令应答。
与现有技术相比,本发明具有以下优点:
本发明提供的方法,充分利用了ATCA架构中专门设置的负责硬件监控和管理的机框管理模块的作用,完善了控制面检测和自愈的机制,提高了定位的精确性,进而增强了系统的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图进行简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A为本发明提供的一种高级电信计算架构控制面的保活、自愈方法的流称图;
图1B为本发明提供的一种高级电信计算架构控制面的保活、自愈方法的又一流称图;
图2为本发明实施例中单板的IPMC和单板的HOST CPU间交互得到M8状态的流称图;
图3为本发明实施例中单板的HOST CPU的FRU状态转换图;
图4为本发明实施例中控制面检测示意图;
图5为本发明实施例中检测方向为从普通单板到交换板的检测流程图;
图6为本发明实施例中检测方向为从交换板到普通单板的检测流程图;
图7为本发明提供的机框管理模块的结构图;
图8为本发明提供的交换板的结构图;
图9为本发明提供的单板的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于现有技术中存在的管理单板检测链路故障时,无法精确定位故障位置,且无法定位出哪个方向的链路出现故障的缺陷,本发明提供一种高级电信计算架构控制面的保活、自愈方法和装置。所述方法提高了对ATCA架构系统控制面检测的准确率。
具体的,本发明提供的高级电信计算架构控制面的保活、自愈方法,如图1A所示,包括以下步骤:
步骤S101A、CMM获取所在机框内处于软件上电成功状态的普通单板和交换板,定时向交换板发送控制面心跳保活IPMI命令。
其中,普通单板或交换板的软件上电成功状态的设置方式为:
(1)普通单板或交换板的智能平台管理控制器IPMC在本板的主机HOST CPU处于现场可更换单元进入激活状态时,给本板的HOST CPU加电;
(2)HOST CPU上电并运行后,向IPMC上报上电成功消息;
(3)IPMC设置HOST CPU为软件上电成功状态。
其中,HOST CPU向IPMC上报上电成功消息后还进行以下操作:HOST CPU设置IPMC为启动保活检测状态。
步骤S102A、交换板接收到控制面心跳保活IPMI命令后,通过普通单板向CMM发送控制面心跳保活IPMI命令应答。
步骤S103A、CMM判断在预设时长内是否接收到普通单板发送的控制面心跳保活IPMI命令应答,若未接收到,判定由交换板至普通单板的链路故障,对故障单板进行复位。
本发明还提供一种高级电信计算架构控制面的保活、自愈方法,如图1B所示,包括以下步骤:
步骤S101B、CMM获取所在机框内处于软件上电成功状态的普通单板和交换板,定时向普通单板发送控制面心跳保活IPMI命令。
步骤S102B、普通单板接收到控制面心跳保活IPMI命令后,通过交换板向CMM发送控制面心跳保活IPMI命令应答。
步骤S103B、CMM判断在预设的时长内是否接收到交换板发送的控制面心跳保活IPMI命令应答,若未接收到,判定由普通单板至交换板的链路故障,对故障单板进行复位。
本发明提供的方法,充分利用了ATCA架构中专门设置的负责硬件监控和管理的机框管理模块的作用,完善了控制面检测和自愈的机制,提高了定位的精确性,进而增强了系统的鲁棒性。
下面通过一较佳实施例来详细阐述本发明提供的高级电信计算架构控制面的保活、自愈方法的具体实现过程。
本发明实施例的核心思想是,故障的检测点和故障处理的执行者都由CMM来承担,如背景中所描述的,在ATCA架构中故障的处理者只能是CMM,之前之所以考虑CMM不适合作为故障的检测者,主要的原因是CMM作为独立单板无法获取到配置信息。为了解决这个问题,本发明充分利用IPMB总线,这是框内CMM与各单板的一路可靠管理链路,该链路物理上是两条互为备份冗余链路。目前在IPMB总线上传递了单板的各种硬件状态,由于对于没有配置的单板应该是无法上电成功,因此本发明增加一种“单板软件上电成功”的状态,这样就可以解决获取配置的问题。
下面详细阐述“单板软件上电成功”状态的获取方式。
具体的,ATCA IPMI规范定义的CMM管理的FRU状态,特指单板硬件状态有8种,M0~M7,其中各种状态表示的含义以及状态转换条件说明如表一所示:
Figure B2009101767170D0000081
表一FRU状态定义
从上表可以看出到达M4状态以后,后续软件运行状态单板的IPMC就无法获知了。
本发明实施例中增加一种FRU状态,即M8,该状态表示软件上电成功,这里主要针对带CPU的FRU,对于本发明主要针对带有CPU的单板。M8状态的获取可以通过单板的IPMC和单板的HOSTCPU的交互得到,如图2所示,具体交互流程为:
步骤S201、单板的IPMC在本板的HOST CPU的FRU状态在M4状态下时,给本板的HOST CPU加电。
步骤S202、HOST CPU上电后,从版本服务器获取到软件版本后,运行该版本。
步骤S203、HOST CPU向单板的IPMC发送上电成功消息。
步骤S204、单板的IPMC将HOST CPU的FRU状态设置为M8状态,即“软件上电成功”。
为了更清楚的描述增加了M8状态后,FRU状态间的转换关系,本实施例对增加M8状态后各状态间的转换过程进行描述,如图3所示,由于从M0-M7间的转换均为现有技术,所以本发明实施例对其转换过程不做具体描述,并且由于M7状态比较独立,图3中并未涉及。
进一步的,为了实现本发明,本实施例还增加了三个IPMC命令和一个控制面私有消息,具体的:
(1)增加一个自定义IPMC命令,用于在CMM和本框交换板/普通单板之间发送控制面心跳保活IPMI命令以及从本框交换板/普通单板返回的控制面心跳保活IPMI命令应答,该命令消息可以使用ATCA规范中预留的IPMI NetFn,具体定义如下:
Netfn=0X30;Cmd=0x01
Figure B2009101767170D0000101
(2)增加两个自定义IPMC命令,一个用于单板的HOST CPU向单板的IPMC设置启动保活检测、一个用于定义单板HOST CPU与单板的IPMC之间的控制面保活检测请求,具体定义如下:
Netfn=0X30;Cmd=0x02;单板的HOST CPU设置单板的IPMC为启动保活检测状态;
  数据字节号   说明
  Request   NULL
  Response   1 Completion code  完成码0:成功;其他:失败
Netfn=0X30;Cmd=0x03;单板的HOST CPU与单板的IPMC之间的控制面保活检测请求;
(3)增加一个控制面私有消息,用于在交换板和普通单板之间发送保活消息,该消息由交换板或者普通单板的IPMC发送和接收。
基于状态M8、IPMC控制命令和控制面私有消息的增加,下面详细介绍具体检测流程,具体的,控制面检测示意图如图4所示。
结合图4,下面首先对检测方向为从普通单板到交换板的检测流程进行阐述,当然,在执行该检测流程前,机框内上电成功的普通单板和交换板的HOSTCPU还进行设置本板的IPMC为启动保活检测状态操作。如图5所示为从普通单板到交换板的检测流程,包括以下步骤:
步骤S501、CMM检查普通单板和交换板CPU的FRU状态,获取FRU状态处于M8状态的普通单板和交换板。
步骤S502、CMM启动定时器,通过IPMB总线定时向处于M8状态的所有的普通单板发送控制面心跳保活IPMI命令。
其中,控制面心跳保活IPMI命令中包含普通单板的单板槽位号和CPU号。
步骤S503、普通单板的IPMC收到控制面心跳保活IPMI命令后,向本板的HOST CPU发送控制面保活检测请求命令。
步骤S504、普通单板的HOST CPU接收到控制面保活检测请求命令后,向本框交换板的HOST CPU发送控制面保活私有消息。
步骤S505、交换板的HOST CPU接收到控制面保活私有消息后,向本板的IPMC发送控制面保活检测请求命令。
步骤S506、交换板的IPMC接收到控制面保活检测请求命令后,通过IPMB总线向CMM发起控制面心跳保活IPMI命令应答。
其中,控制面心跳保活IPMI命令应答消息中包含:单板槽位号、CPU号和检测成功消息。
步骤S507、CMM判断在预设的时长内是否接收到交换板发送的控制面心跳保活IPMI命令应答,若是,记录接收到的应答消息,否则,判定由普通单板到交换板的单向控制面链路故障,执行步骤S508。
该步骤在具体实现时可通过下述方式实现,当然下述只是一种较佳的实施方式,本发明并不限于这一种实施方式。
本实施例中以CMM定时10s向普通单板发起控制面心跳保活IPMI命令为例进行说明。
CMM定时10s发送控制面心跳保活IPMI命令给本框普通单板,用于测试链路是否存在故障。那么该步骤中,设置检测的最大超时时长为5分钟,以10s为基本单位,换算得到最大未接收到控制面心跳保活IPMI命令应答的值就是30次。CMM按照下述表格针对每个需要检测的普通单板记录对应的计数器的值,若CMM未收到一次应答,即计数器的值递减,如果连续的由30减到0,即表示链路故障。
Figure B2009101767170D0000121
步骤S508、CMM对于故障单板进行复位。
进一步的,对检测方向为从交换板到普通单板的检测流程进行阐述,当然,在执行该检测流程前,机框内上电成功的普通单板和交换板的HOST CPU还进行设置本板的IPMC为启动保活检测操作。如图6所示,从交换板到普通单板的检测流程,包括以下步骤:
步骤S601、CMM检查普通单板和交换板CPU的FRU状态,获取FRU状态处于M8状态的普通单板和交换板。
步骤S602、CMM启动定时器,通过IPMB总线定时向处于M8状态的交换板发送控制面心跳保活IPMI命令。
其中,控制面心跳保活IPMI命令中包含普通单板的单板槽位号和CPU号。
步骤S603、交换板的IPMC接收到控制面心跳保活IPMI命令后,向本板的HOST CPU发送控制面保活检测请求命令。
步骤S604、交换板的HOST CPU接收到控制面保活检测请求命令后,向本机框内所有处于M8状态的普通单板发送控制面保活私有消息。
步骤S605、普通单板的HOST CPU接收到控制面保活私有消息后,向本板的IPMC发送控制面保活检测请求命令。
步骤S606、普通单板的IPMC接收到控制面保活检测请求命令后,通过IPMB总线向CMM发送控制面心跳保活IPMI命令应答。
其中,控制面心跳保活IPMI命令应答消息中包含:单板槽位号、CPU号和检测成功消息。
步骤S607、CMM判断在预设的时长内是否接收到普通单板发送的控制面心跳保活IPMI命令应答,若是,记录接收到的应答消息,否则,判定由交换板到普通单板的单向控制面链路故障,执行步骤S608。
该步骤可以通过步骤S507中的测试方式实现,在此不做赘述。
步骤S608、CMM对于故障单板进行复位。
需要说明的是,上述链路故障的检测过程默认IPMB总线状态良好,所以当CMM未接收到控制面心跳保活IPMI命令应答时,判定为普通单板至交换板或交换板至普通单板的链路出现故障。其中,上述默认IPMB总线状态良好的依据是,IPMB为冗余设计,当某条IPMB总线出现问题时也会有应急方案(现有技术)。再者,即使IPMB总线出现故障系统会通过其他报警设施获知其状态,从而不存在IPMB在故障前提下,实施本发明的情况。
本发明实施例提供的方法,充分利用了ATCA架构中专门设置的负责硬件监控和管理的机框管理模块的作用,完善了控制面检测和自愈的机制,提高了定位的精确性,进而增强了系统的鲁棒性。
本发明提供一种机框管理模块,如图7所示,包括:
单板获取单元710,用于获取所在机框内处于软件上电成功状态的普通单板和交换板;
IPMI命令下发单元720,用于在单板获取单元710获取到普通单板和交换板后,定时向交换板和/或普通单板发送控制面心跳保活IPMI命令;
故障检测单元730,用于判断在预设的时长内是否接收到普通单板或交换板发送的控制面心跳保活IPMI命令应答,若未接收到,判定由交换板至普通单板,或者由普通单板至交换板的链路故障,对故障单板进行复位。
具体的,故障检测单元730在预设的时长内未接收到普通单板发送的控制面心跳保活IPMI命令应答时,判定由交换板至普通单板的链路故障,对故障单板进行复位;
故障检测单元730在在预设的时长内未接收到交换板发送的控制面心跳保活IPMI命令应答时,判定由普通单板至交换板的链路故障,对故障单板进行复位。
本发明还提供一种交换板,如图8所示,包括:
第一IPMI命令接收单元810,用于接收机框管理模块发送的控制面心跳保活IPMI命令;
第一控制面保活私有消息发送单元820,用于在第一IPMI命令接收单元810接收到控制面心跳保活IPMI命令后,向普通单板发送控制面保活私有消息;
第一控制面保活私有消息接收单元830,用于接收普通单板发送的控制面保活私有消息;
第一IPMI命令应答发送单元840,用于在第一控制面保活私有消息接收单元830接收到控制面保活私有消息后,向机框管理模块发送控制面心跳保活IPMI命令应答。
本发明还提供一种单板,如图9所示,包括:
第二IPMI命令接收单元910,用于接收机框管理模块发送的控制面心跳保活IPMI命令;
第二控制面保活私有消息发送单元920,用于在第二IPMI命令接收单元910接收到控制面心跳保活IPMI命令后,向交换板发送控制面保活私有消息;
第二控制面保活私有消息接收单元930,用于接收交换板发送的控制面保活私有消息;
第二IPMI命令应答发送单元940,用于在第二控制面保活私有消息接收单元930接收到控制面保活私有消息后,向机框管理模块发送控制面心跳保活IPMI命令应答。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种高级电信计算架构ATCA控制面的保活、自愈方法,其特征在于,包括:
步骤1、机框管理模块获取所在机框内处于软件上电成功状态的普通单板和交换板,定时向所述交换板发送控制面心跳保活智能平台管理接口IPMI命令;
步骤2、所述交换板接收到所述控制面心跳保活IPMI命令后,通过所述普通单板向所述机框管理模块发送控制面心跳保活IPMI命令应答;
步骤3、所述机框管理模块判断在预设时长内是否接收到所述普通单板发送的控制面心跳保活IPMI命令应答,若未接收到,判定由所述交换板至普通单板的链路故障,对故障单板进行复位。
2.如权利要求1所述的方法,其特征在于,所述普通单板或交换板的软件上电成功状态的设置方式为:
所述普通单板或交换板的智能平台管理控制器IPMC在本板的主机HOSTCPU处于现场可更换单元进入激活状态时,给本板的HOST CPU加电;
所述HOST CPU上电并运行后,向所述IPMC上报上电成功消息;
所述IPMC设置所述HOST CPU为软件上电成功状态。
3.如权利要求2所述的方法,其特征在于,所述HOST CPU向所述IPMC上报上电成功消息后还进行以下操作:所述HOST CPU设置所述IPMC为启动保活检测状态。
4.如权利要求1所述的方法,其特征在于,所述步骤2具体包括:
所述交换板的IPMC接收到所述控制面心跳保活IPMI命令后,向所述交换板的HOST CPU发送控制面保活检测请求命令;
所述交换板的HOST CPU接收到所述控制面保活检测请求命令后,向所述普通单板的HOST CPU发送控制面保活私有消息;
所述普通单板的HOST CPU接收到所述控制面保活私有消息后,向所述普通单板的IPMC发送控制面保活检测请求命令;
所述普通单板的IPMC向所述机框管理模块发送控制面心跳保活IPMI命令应答。
5.如权利要求4所述的方法,其特征在于,所述控制面心跳保活IPMI命令和控制面心跳保活IPMI命令应答的发送通过ATCA规范中预留的IPMI NetFn实现。
6.一种高级电信计算架构控制面的保活、自愈方法,其特征在于,包括:
步骤11、机框管理模块获取所在机框内处于软件上电成功状态的普通单板和交换板,定时向所述普通单板发送控制面心跳保活IPMI命令;
步骤12、所述普通单板接收到所述控制面心跳保活IPMI命令后,通过所述交换板向所述机框管理模块发送控制面心跳保活IPMI命令应答;
步骤13、所述机框管理模块判断在预设的时长内是否接收到所述交换板发送的控制面心跳保活IPMI命令应答,若未接收到,判定由普通单板至交换板的链路故障,对故障单板进行复位。
7.如权利要求6所述的方法,其特征在于,所述步骤12具体包括:
所述普通单板的IPMC接收到所述控制面心跳保活IPMI命令后,向所述普通单板的HOST CPU发送控制面保活检测请求命令;
所述普通单板的HOST CPU接收到所述控制面保活检测请求命令后,向所述交换板的HOST CPU发送控制面保活私有消息;
所述交换板的HOST CPU接收到所述控制面保活私有消息后,向所述交换板的IPMC发送控制面保活检测请求命令;
所述交换板的IPMC向所述机框管理模块发送控制面心跳保活IPMI命令应答。
8.一种机框管理模块,其特征在于,包括:
单板获取单元,用于获取所在机框内处于软件上电成功状态的普通单板和交换板;
IPMI命令下发单元,用于在所述单板获取单元获取到普通单板和交换板后,定时向所述交换板和/或普通单板发送控制面心跳保活IPMI命令;
故障检测单元,用于判断在预设的时长内是否接收到所述普通单板或交换板发送的控制面心跳保活IPMI命令应答,若未接收到,判定由所述交换板至普通单板,或者由所述普通单板至交换板的链路故障,对故障单板进行复位。
9.一种交换板,其特征在于,包括:
第一IPMI命令接收单元,用于接收机框管理模块发送的控制面心跳保活IPMI命令;
第一控制面保活私有消息发送单元,用于在所述第一IPMI命令接收单元接收到控制面心跳保活IPMI命令后,向普通单板发送控制面保活私有消息;
第一控制面保活私有消息接收单元,用于接收普通单板发送的控制面保活私有消息;
第一IPMI命令应答发送单元,用于在所述第一控制面保活私有消息接收单元接收到控制面保活私有消息后,向机框管理模块发送控制面心跳保活IPMI命令应答。
10.一种单板,其特征在于,包括:
第二IPMI命令接收单元,用于接收机框管理模块发送的控制面心跳保活IPMI命令;
第二控制面保活私有消息发送单元,用于在所述第二IPMI命令接收单元接收到控制面心跳保活IPMI命令后,向交换板发送控制面保活私有消息;
第二控制面保活私有消息接收单元,用于接收交换板发送的控制面保活私有消息;
第二IPMI命令应答发送单元,用于在所述第二控制面保活私有消息接收单元接收到控制面保活私有消息后,向机框管理模块发送控制面心跳保活IPMI命令应答。
CN2009101767170A 2009-09-18 2009-09-18 一种高级电信计算架构控制面的保活、自愈方法和装置 Pending CN102026042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101767170A CN102026042A (zh) 2009-09-18 2009-09-18 一种高级电信计算架构控制面的保活、自愈方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101767170A CN102026042A (zh) 2009-09-18 2009-09-18 一种高级电信计算架构控制面的保活、自愈方法和装置

Publications (1)

Publication Number Publication Date
CN102026042A true CN102026042A (zh) 2011-04-20

Family

ID=43866801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101767170A Pending CN102026042A (zh) 2009-09-18 2009-09-18 一种高级电信计算架构控制面的保活、自愈方法和装置

Country Status (1)

Country Link
CN (1) CN102026042A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394791A (zh) * 2011-10-26 2012-03-28 浪潮(北京)电子信息产业有限公司 宕机恢复方法和系统
CN105306289A (zh) * 2014-06-27 2016-02-03 中兴通讯股份有限公司 一种提高多模块设备可靠性的方法、装置及客户终端设备
CN106850814A (zh) * 2017-02-15 2017-06-13 济南浪潮高新科技投资发展有限公司 一种增加自定义命令支持实现传感器信息采集的方法
CN107360020A (zh) * 2017-06-07 2017-11-17 上海斐讯数据通信技术有限公司 一种大容量数据业务单元保活系统及其使用方法
CN107885687A (zh) * 2017-12-04 2018-04-06 盛科网络(苏州)有限公司 一种用于将fru模块连接到i2c总线的接口
CN108964952A (zh) * 2017-05-19 2018-12-07 中兴通讯股份有限公司 一种故障处理方法及装置
CN109542691A (zh) * 2018-11-12 2019-03-29 西安微电子技术研究所 一种提高ipmi管理软件可靠性的方法
CN109597653A (zh) * 2018-12-04 2019-04-09 郑州云海信息技术有限公司 Bios与bmc命令交互的方法、bios及bmc

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1154592A1 (en) * 2000-05-10 2001-11-14 Telefonaktiebolaget L M Ericsson (Publ) Channel protection
CN101026529A (zh) * 2006-02-24 2007-08-29 阿拉克斯拉网络株式会社 环形网络和主节点
CN101150458A (zh) * 2007-11-10 2008-03-26 华为技术有限公司 检测单板的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1154592A1 (en) * 2000-05-10 2001-11-14 Telefonaktiebolaget L M Ericsson (Publ) Channel protection
CN101026529A (zh) * 2006-02-24 2007-08-29 阿拉克斯拉网络株式会社 环形网络和主节点
CN101150458A (zh) * 2007-11-10 2008-03-26 华为技术有限公司 检测单板的方法和设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394791A (zh) * 2011-10-26 2012-03-28 浪潮(北京)电子信息产业有限公司 宕机恢复方法和系统
CN105306289A (zh) * 2014-06-27 2016-02-03 中兴通讯股份有限公司 一种提高多模块设备可靠性的方法、装置及客户终端设备
CN106850814A (zh) * 2017-02-15 2017-06-13 济南浪潮高新科技投资发展有限公司 一种增加自定义命令支持实现传感器信息采集的方法
CN106850814B (zh) * 2017-02-15 2020-02-14 浪潮集团有限公司 一种增加自定义命令支持实现传感器信息采集的方法
CN108964952A (zh) * 2017-05-19 2018-12-07 中兴通讯股份有限公司 一种故障处理方法及装置
CN107360020A (zh) * 2017-06-07 2017-11-17 上海斐讯数据通信技术有限公司 一种大容量数据业务单元保活系统及其使用方法
CN107885687A (zh) * 2017-12-04 2018-04-06 盛科网络(苏州)有限公司 一种用于将fru模块连接到i2c总线的接口
CN109542691A (zh) * 2018-11-12 2019-03-29 西安微电子技术研究所 一种提高ipmi管理软件可靠性的方法
CN109597653A (zh) * 2018-12-04 2019-04-09 郑州云海信息技术有限公司 Bios与bmc命令交互的方法、bios及bmc

Similar Documents

Publication Publication Date Title
CN102026042A (zh) 一种高级电信计算架构控制面的保活、自愈方法和装置
US20140372805A1 (en) Self-healing managed customer premises equipment
CN101291243A (zh) 高可用集群系统的裂脑预防方法
CN107729190B (zh) 一种io路径故障转移处理方法和系统
CN102882704B (zh) 一种issu的软重启升级过程中的链路保护方法和设备
WO2016095344A1 (zh) 链路切换方法、装置及线卡
CN104317679B (zh) 一种scada系统基于线程冗余的通信容错方法
CN101257391B (zh) 一种应用于微型电信计算架构标准的单板管理方法
CN100498733C (zh) 一种实现计算机故障报警控制的方法
CN110427283B (zh) 一种双余度的燃油管理计算机系统
CN109062184A (zh) 双机应急救援设备、故障切换方法和救援系统
CN116340058A (zh) 主备切换方法及装置
CN113742142B (zh) 存储系统管理sata硬盘的方法及存储系统
KR100216580B1 (ko) 비동기전달모드 교환기와 운용워크스테이션간의 통신장애상태 관리방법
CN106897195A (zh) 一种服务器机柜的监测方法及相关装置
JP2009187428A (ja) 警備システム
CN103326774B (zh) 用于光传输设备监控的2m电路系统及其测试方法
JPH06197112A (ja) 管理システム
CN115333975B (zh) 一种变电站故障处理系统和故障处理方法
CN108809768B (zh) 一种共享交换平台的故障监控和恢复系统
CN113708967B (zh) 一种系统监测容灾预警装置及预警方法
CN109271274B (zh) 一种嵌入式系统的双机热备方法
CN109460314B (zh) 一种嵌入式系统的双机热备装置
TWM643807U (zh) 用於管理機房狀態之遠端監控系統
JPH10327151A (ja) 情報処理機器、ネットワークシステムおよびそのネットワークエラー処理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110420