一种应用于微型电信计算架构标准的单板管理方法
技术领域
本发明涉及通信领域中平台管理技术,具体地说,是涉及一种应用于MicroTCA(Micro Telecommunications Computing Architecture,微型电信计算架构)标准的单板管理方法。
背景技术
MicroTCA由PICMG(国际PCI工业计算机制造组织)推出的标准,以ATCA(先进的通讯计算机架构,Advanced Telecom Computing Architecture)为基础,为了降低应用设备的成本和外形尺寸,提高可靠性和灵活性,并缩短开发时间。引入MicroTCA标准的主要目的是作为电信和企业计算机网络设备的平台。
ATCA的高带宽、冗余性、大容量板卡及高功率容量使得其非常适合于大规模、高可靠性的电信系统,如核心网设备等。而MicroTCA更低廉的成本,更小的物理形式,模块化和高灵活性,使其成为无线基站的理想选择。
AMC(Advanced Mezzanine Card,先进嵌入子卡)是PICMG组织制定的高级子卡标准。AMC模块是支持ATCA系统的最小的插入式模块。大体上,它们与知名的PMC(PCI子卡)模块卡非常相似。具备热切换功能和前面板插拔功能的AMC模块,不管是用在AdvancedTCA,MicroTCA,还是专有系统中,都将是下一代电信设备中最小的FRU(Field Replaceable UnitS,现场可更换部件),它们与以往的专有可更换部件相比,能够提供更灵活的标准选项。
IPMI(Intelligent Platform Management Interface,智能平台管理接口)是一种智能平台管理接口规范,用于对MicroTCA框架的管理,包括对电源的管理、电子钥匙和机框内温度的监控等。
基于IPMI的设备管理连接图1所示,一个典型的MicroTCA系统一般包括12块AMC子板,如图1所示的AMC1、AMC2、…、AMC12,1块MCH(MicroTCA Carrier Hub,载板网络通信中心)板(2块冗余可选,如图1所示的MCH(主)和MCH(备)所示),有冗余的负载共享的电源模块,以及一个CU(Cool Unit,制冷系统)(或者冗余可选),背板高速连接,以及基架等机械结构。MCH的第一个要素是MCMC(MicroTCA CarrierManagement Control,载板管理控制器),它基于IPMI接口实现对机框内FRU的管理,MCMC作为机框管理控制单元通过IPMB(Intelligent PlatformManagement Bus,智能管理平台总线)与受控节点板的智能平台通讯,之间采用点对点的连接。
图2示出了基于智能平台管理接口的管理系统单板管理流程图。在MicroTCA及其AMC的规范种定义了8种状态机:单板离线状态、单板未激活状态、激活请求状态、正在激活状态、已激活状态、去激活请求状态、正在去激活状态以及通讯异常状态。在单板离线状态(S10)插入单板,进入单板未激活状态。进入激活请求状态(S20)后,单板进入正在激活状态(S30)。此时,可通过设置进一步状态或解除激活命令(S40),使单板进入正在去激活状态(S70);否则进入激活状态(S50)。经过去激活请求状态(S60),单板进入正在去激活状态(S70),然后进入未激活状态(S80)。当单板被拔离智能平台管理控制单元,则又返回单板离线状态。而当出现IPMB通讯异常或智能平台管理控制单元故障,则进入通讯异常状态,此时,机框管理控制单元无法与智能平台管理控制单元通讯。机框管理控制单元无法得知单板是否离线,因此机框管理控制单元通知系统管理软件,停止对应单板上承载的业务,即将注册的单板取消注册。然而,这就存在这样的可能,即单板未离线,而仅出现IPMB通讯异常或智能平台管理控制单元故障,此时停止单板业务,将导致系统部分功能丧失。
发明内容
本发明所要解决的技术问题是在于需要提供一种应用于微型电信计算架构标准的单板管理方法,解决在IPMB通讯异常或智能管理平台管理控制单元故障时单板离线所导致的对应单板承载业务丢失的问题。
为了解决上述技术问题,本发明提供了一种应用于微型电信计算架构标准的单板管理方法,先进嵌入子卡单板插入机框时,所述机框产生PS#1信号表示所述先进嵌入子卡单板对应电源通道处于供电状态,所述电源通过查询所述先进嵌入子卡单板对应的电源通道的供电状态,检测到所述PS#1信号;机框管理控制单元通过向所述电源发送电源通道状态查询指令,最终获得所述先进嵌入子卡单板插在所述机框的槽位上。
如上所述的方法可以包括步骤:
所述机框管理控制单元周期性地向所有先进嵌入子卡的智能平台管理控制单元发送在位查询指令;
所述先进嵌入子卡单板插入机框时,所述机框产生所述PS#1信号;
所述电源检测到所述PS#1信号后,向所述机框管理控制单元通知电源状态变化信息;
所述机框管理控制单元保存所述电源状态变化信息;
所述机框管理控制单元没有收到所述智能平台管理控制单元对所述在位查询指令的应答,则检查所述电源状态变化信息;
如果没有所述先进嵌入子卡单板的电源状态变化信息,则所述机框管理控制单元向所述电源发送电源通道状态查询指令,获得所述智能平台管理控制单元所在槽位电源通道的状态为有效,则所述先进嵌入子卡单板插在所述机框的槽位上。
进一步地,所述智能平台管理控制单元所在槽位电源通道的状态为有效,可以包括所述PS#1信号有效,或者所述电源通道负载电源供电标志有效,或者所述智能平台管理控制单元供电标志有效。
该方法可以进一步包括,所述机框管理控制单元获得所述PS#1信号无效,则所述机框管理控制单元不再保留所述智能平台管理控制单元的运行状态和数据,同时通知系统注销所述先进嵌入子卡单板。
进一步地,所述机框管理控制单元收到所述智能平台管理控制单元经过复位正常对载板网络通信中心的应答后,可以恢复所述智能平台管理控制单元的运行状态,同时可以恢复通讯故障前所述先进嵌入子卡单板所处的运行状态。
进一步地,所述机框管理控制单元没有收到所述智能平台管理控制单元对所述在位查询指令的应答的步骤进一步可以包括,所述先进嵌入子卡单板已经处于进入激活状态,则所述机框管理控制单元保存所述先进嵌入子卡单板的状态,同时保存所述先进嵌入子卡单板目前运行的参数数据。
进一步地,所述机框管理控制单元可以为载板管理控制器。
与现有技术相比,本发明具有以下优点:
本发明没有额外地增加硬件信号线,只通过电源模块检测电源供电通道的硬件信号就可以判断AMC单板的在位情况。本发明方法在检测到单板无法响应时通过与电源板的交互,来确定故障单板是由于通讯异常导致的故障还是由于单板被拔出导致的异常,如果仅仅是通讯异常导致的故障,则可以保持单板的注册信息,不影响对应单板承载业务。
附图说明
图1是IPMI设备管理连接图;
图2是IPMI单板管理流程图;
图3是本发明方法实施例步骤流程图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。
按协议规定,AMC单板插入机框时会产生PS#1的硬件信号,电源板能够检测到该信号,因此机框管理控制单元MCMC可以通过向电源模块发送电源通道状态查询指令,查询当前各硬件电源通道的状态信息,最终检测到是否该板还插在槽位上。对于AMC单板对应电源通道的变化,电源板也会实时通知MCMC。根据协议的规定,查询对应AMC单板端口对应的电源通道的供电状态,即可确定单板是否在位,因为AMC单板对应电源通道处于供电状态的前提是PS#1信号有效。
结合图1所示IPMI设备管理连接图,图3示出了本发明方法的流程步骤,包括:
步骤10,MCH(主),以下称之为主MCH,其机框管理控制单元周期性地向所有AMC(以下以AMC1为例进行说明)的智能平台管理控制单元发送在位查询指令,检测槽位上是否插有AMC单板;
步骤20,当AMC单板插入机框时,机框产生PS#1的硬件信号;电源检测到该PS#1信号,说明AMC单板电源通道的状态发生变化,则向主MCH的机框管理控制单元通知电源状态变化信息;
步骤30,主MCH的机框管理控制单元保存电源通报的电源状态变化信息,记录电源通道的状态情况;
步骤40,AMC1的智能平台管理控制单元收到在位查询指令后返回应答,主MCH的机框管理控制单元收到应答,则认为工作正常不用做特别处理,继续周期检测;如果没有收到应答,则认为主MCH的机框管理控制单元和/或AMC1的智能平台管理控制单元出现故障,此时有异常需要确认,因为还无法判断是AMC1的智能平台管理控制单元故障还是由于主MCH的机框管理控制单元与AMC1的智能平台管理控制单元之间的通讯链路异常,转到步骤50;如果此时AMC1单板已经处于进入激活状态,则MCH的机框管理控制单元保存AMC1单板的状态,同时保存AMC1单板目前运行的参数数据;
步骤50,主MCH的机框管理控制单元检查电源模块发过来的电源状态变化信息,如果检查没有关于AMC1的电源状态变化信息,则机框管理控制单元向电源模块发送电源通道状态查询指令,获取无应答的智能平台管理控制单元(即AMC1的智能平台管理控制单元)所在槽位的电源通道的状态,电源通道的状态包括PS#1是否有效,电源通道负载电源供电标志是否有效以及管理控制单元电源供电标志是否有效;
步骤60,如果机框管理控制单元获得的AMC1的智能平台管理控制单所在槽位的电源通道的状态为有效,也即AMC1的电源通道的PS#1信号有效,或者电源通道负载电源供电标志有效,或者智能平台管理控制单元供电标志有效,则说明AMC1单板在位(还插在槽位中),此时的故障为链路通讯故障或智能平台管理控制单元的故障,这种情况下主MCH的机框管理控制单元不注销AMC1单板的业务负载电源(不用注销智能平台管理控制单元),而是将故障单元设置为通讯故障状态,AMC1的业务仍正常运行;
步骤70,如果机框管理控制单元获得的AMC1的电源通道的PS#1信号无效,说明AMC1单板已经离线,则主MCH的机框管理控制单元,将不再保留AMC1的智能平台管理控制单元的运行状态和数据,同时通知系统注销该板。
步骤60中,如果AMC1的智能平台管理控制单元经过复位正常后,会有对主MCH的应答,主MCH的机框管理控制单元收到AMC1的智能平台管理控制单元的应答后,恢复该AMC1的智能平台管理控制单元的运行状态,同时恢复通讯故障前AMC1单板所处于的运行状态。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。