CN100418059C - 切换失效的检测方法 - Google Patents

切换失效的检测方法 Download PDF

Info

Publication number
CN100418059C
CN100418059C CNB2006100027298A CN200610002729A CN100418059C CN 100418059 C CN100418059 C CN 100418059C CN B2006100027298 A CNB2006100027298 A CN B2006100027298A CN 200610002729 A CN200610002729 A CN 200610002729A CN 100418059 C CN100418059 C CN 100418059C
Authority
CN
China
Prior art keywords
management controller
baseboard management
frb3
frb2
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2006100027298A
Other languages
English (en)
Other versions
CN101008906A (zh
Inventor
施温信
潘清峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Shanghai Electric Power Co Ltd
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CNB2006100027298A priority Critical patent/CN100418059C/zh
Publication of CN101008906A publication Critical patent/CN101008906A/zh
Application granted granted Critical
Publication of CN100418059C publication Critical patent/CN100418059C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开一种切换失效的检测方法,应用在具有BMC及IPMI的系统,该方法包括:在该系统开机且供电至BMC后,该BMC执行FRB3机制,且依据BMC读取到的BIOS程序代码而取消FRB3机制,并同时启动计时处理;以及在计时达到一预定时间值时,判断BMC是否已启动FRB2机制,若未启动,则建立失效记录并予以储存。本发明提出的切换失效的检测方法主要解决FRB2及FRB3两种错误弹回机制FRB3与FRB2切换发生当机的问题,通过计时处理技术可在当机时取得当机信息并建立一笔失效记录,确保当机时系统人员能及时排除当机状况,增加了系统的稳定性、增加当机后分析解决问题的能力及避免系统持续处于当机状态。

Description

切换失效的检测方法
技术领域
本发明是关于一种切换失效的检测方法,特别是关于一种针对智能平台管理接口(Intelligent Platform Management Interface;以下简称IPMI)架构所定义的FRB2(Fault Resilient Booting 2)及FRB3两种错误弹回机制提供切换检测,避免因切换失效发生当机的切换失效的检测方法。
背景技术
随着计算机技术的快速发展,计算机的处理效能也相对提高,且伴随着网络科技的进步,建立了计算机与计算机间的连系管道,使本端的计算机可顺利及快速地获取远程计算机的信息,更可方便不同地域间的沟通及信息交流。
举例而言,刀片服务器是计算机技术及网络技术结合后的产物之一,借由刀片服务器使网络管理的效率更加提升。为发挥刀片服务器的整体效能,服务器业者、网络业者或计算机业者均不断研发各式管理接口,例如智能平台管理接口(Intelligent Platform ManagementInterface;以下简称IPMI)技术,IPMB技术也配合刀片服务器内各服务单元所设的基板管理控制器(Base Management Controller;以下简称BMC)而开发,提升了各BMC对于数据传输的效率。
再者,刀片服务器内的各服务单元在开机时,仍同一般计算机系统一样会执行自我开机测试(POST)工作,由于刀片服务器执行POST工作时,各服务单元需要通过BMC以及CPU等芯片沟通进行初始化作业,因此为使CPU识别POST工作中BMC状态,在IPMI架构下即定义FRB2(Fault Resilient Booting 2)及FRB3两种错误弹回机制。
一般而言,在刀片服务器开机且供电至BMC后,使该BMC执行(enable)FRB3机制,直至BMC读取到BIOS程序代码后,即取消(disable)FRB3机制;接着,CPU依据BIOS程序执行POST工作时,即下一个命令给BMC,此时BMC则执行(enable)FRB2机制,使BMC得知刀片服务器目前正在执行POST工作,同时由BMC对其周边元件执行初始化作业,并在完成初始化作业时取消FRB2机制。借由FRB2及FRB3两种错误弹回机制,使CPU便于识别POST工作中BMC的状态。
然而,在FRB3机制切换至FRB2机制时,仍有一段系统执行时间的漏洞,即FRB3机制被取消进到FRB2机制时,因FRB2机制必须执行存储器检查命令,若系统在此时当机,则计算机系统不会有任何记录,且没有任何反应使其重新启动系统,再者,工程师也无法针对其当机问题进行维修与检测,相对会造成使用上的困扰。但是,因为当机问题须视当时的软硬件配合情况,不一定每次启始系统均会在FRB3机制切换至FRB2机制产生当机问题,故这样的不确定因素,影响到系统工作的效率且降低系统的稳定性。
因此,有效解决上述技术存在的问题,并开发出一可在FRB3与FRB2切换时的保护机制,增加系统的稳定性、增加当机后分析解决问题能力及避免系统持续处于当机状态,是目前系统保护机制亟待解决的课题。
发明内容
为克服上述现有技术的缺点,本发明的一目的在于提供一种切换失效的检测方法,应用在IPMI架构下定义的FRB2(Fault ResilientBooting 2)及FRB3两种错误弹回机制,避免使用该IPMI架构的系统持续处于当机状态。
本发明的次一目的在于提供一种切换失效的检测方法,记录有关于FRB3机制切换至FRB2机制的数据,在系统因FRB3机制切换至FRB2机制失效发生当机时提供当机后分析解决问题的数据。
本发明的另一目的在于提供一种切换失效的检测方法,以简易的处理流程即可实现增加系统稳定性的目的。
为达上述目的及其它目的,本发明提供一种切换失效的检测方法,应用在具有基板管理控制器(Base Management Controller;以下简称BMC)及智能平台管理接口(Intelligent Platform Management Interface;以下简称IPMI)的系统,避免使用该智能平台管理接口架构系统的基板管理控制器依据BIOS程序执行开机自我测试工作中,因切换该智能平台管理接口架构定义的FRB2及FRB3机制切换失效发生当机问题,该切换失效的检测方法至少包括以下步骤:在该系统开机且供电至基板管理控制器后,该基板管理控制器执行FRB3机制,且依据基板管理控制器读取到的BIOS程序代码而取消FRB3机制,并同时启动计时处理;以及在计时达到一预定时间值时,判断基板管理控制器是否已启动FRB2机制,若未启动,则建立失效记录并予以储存。
本发明的切换失效的检测方法中,该失效记录是储存在可供BIOS程序读取的存储器中。在计时达到一预定时间值而判断出基板管理控制器仍未启动FRB2机制且建立该失效记录并予以储存的步骤后,还执行重新启动系统的步骤。
本发明的切换失效的检测方法中,在依据基板管理控制器读取到BIOS程序代码而取消FRB3机制,并启动该计时处理的步骤后,在该计时处理未达到该预定时间值的过程中,BIOS程序判断出该基板管理控制器启动FRB2机制时,由BIOS程序传送FRB2机制的计时设定命令至基板管理控制器,并使该基板管理控制器执行初始化作业。
本发明提出的切换失效的检测方法主要解决了关于智能平台管理接口(Intelligent Platform Management Interface)架构所定义的FRB2(Fault Resilient Booting 2)及FRB3两种错误弹回机制FRB3与FRB2切换发生当机的问题,通过计时处理技术可在当机时取得当机信息并建立一笔失效记录,记录有关FRB3机制切换至FRB2机制的数据,在系统因FRB3机制切换至FRB2机制失效发生当机时提供当机后解决问题的数据,确保当机时系统人员能及时排除当机状况,避免使用该智能平台管理接口架构的系统持续处于当机状态,可增加系统的稳定性、增加当机后分析解决问题的能力及避免系统持续处于当机状态,以简易的处理流程增加了系统的稳定性,解决现有技术存在的问题。
附图说明
图1是执行本发明切换失效的检测方法的基本架构方块图;以及
图2是本发明切换失效的检测方法的运行流程示意图。
具体实施方式
实施例
请参阅第1及图2,图1是执行本发明切换失效的检测方法的计算机系统所需的基本架构方块图,图2是本发明切换失效的检测方法的运行流程示意图。本发明切换失效的检测方法是应用在智能平台管理接口(Intelligent Platform Management Interface;以下简称IPMI)架构下所定义的FRB2(Fault Resilient Booting 2)及FRB3两种错误弹回机制,避免使用该IPMI架构因FRB3机制切换至FRB2机制失效发生当机状态,且可确定FRB3与FRB2机制在切换过程中当机的问题点。
本发明的切换失效的检测方法可应用在例如刀片服务器的计算机系统1中,本实施例则以刀片服务器为例说明,如图1所示,该刀片服务器1至少包括BIOS程序11、中央处理器(以下简称CPU)12、基板管理控制器(Base Management Controller;以下简称BMC)13、IPMI 14以及存储器120。该BIOS程序11用于系统开机后执行开机自我测试工作,对系统设备执行初始化作业;该CPU 12读取该BIOS程序11并进行驱动与运算工作,本实施例的工作是指系统开机后执行的开机自我测试工作;该BMC 13与IPMI 14电性连接,用于传送刀片服务器的系统信息,供该BMC 13判断该刀片服务器整体状态;该存储器120是在该BMC 13开机自我测试工作中,若无法顺利由FRB3机制切换至FRB2机制,则建立一笔失效记录并储存在该存储器120中,用于系统人员的查错。在此须提出说明的是,该刀片服务器还包括其它功能及模块,为简化说明及附图,在此仅说明与本发明相关的部分;再者,由于该刀片服务器是一般服务器技术者所熟知的装置,且IPMI架构下所定义的FRB2及FRB3两种机制也是刀片服务器技术者熟知的技术。
如图2所示,它是说明本发明的切换失效的检测方法的运行流程图,在系统开机后,随即进到步骤S1,由于系统开机供电后不久,该BMC 13接收到供电信号(也就是被触发),故产生FRB3信号,接着进到步骤S2。
在步骤S2中,该BMC 13在读取到BIOS程序代码后取消FRB3信号,并将取消信号传到该CPU 12,该CPU 12令BIOS程序依据所取消的FRB3信号启动计时处理,接着进到步骤S3。其中,该计时处理可由软件程序或硬件电路实现。
在步骤S3中,判断该BMC 13是否产生FRB2信号,若是则进到步骤S6;反之,则进到步骤S4。
在步骤S4中,在计时达到一预定时间值时,判断该BMC 13是否仍未产生FRB2信号,若仍未产生FRB2信号则进到步骤S5;反之,则返回该步骤S3,持续地执行有关于是否已接收到FRB3信号的判断步骤以及是否超过预定时间仍未接收到FRB3信号的判断步骤。
在步骤S5中,由于已超过预定时间BMC 13仍未产生FRB 2信号,故CPU 12依据BIOS程序判定FRB2及FRB3机制在切换上发生问题,建立一笔失效记录并将其储存在存储器120中,且再次执行重新开机的作业,即可结束本发明的切换失效的检测方法。借由建立的失效记录,系统人员可发现系统一直无法顺利完成开机自我测试工作或开机作业不稳定的原因,系统人员可读取储存在该存储器120中的失效记录进行除错处理。且该失效记录是储存在可供BIOS程序读取的存储器中。
在步骤S6中,由于在系统开机后不久,BMC 13即可由FRB3机制切换为FRB2机制,则表示BMC 13与CPU 12可顺利沟通,且可读取到用于储存BIOS程序11的存储器,可依据BIOS程序11执行后续的初始化作业,同时,也可对切换为FRB2机制设定计时处理,作为初始化过程是否可顺利完成的参考。
与现有技术相比,本发明提出的切换失效的检测方法主要是解决FRB3与FRB2切换发生当机的问题,通过计时处理技术在当机时取得当机信息并建立一笔失效记录,确保当机时系统人员能及时排除当机发生的故障,可增加系统的稳定性、增加当机后分析解决问题的能力及避免系统持续处于当机状态,相对已克服了现有技术存在的问题。

Claims (5)

1. 一种切换失效的检测方法,应用在具有基板管理控制器及智能平台管理接口的系统,避免使用该智能平台管理接口架构系统的基板管理控制器依据BIOS程序执行开机自我测试工作中,因切换该智能平台管理接口架构定义的FRB2及FRB3机制发生当机问题,其特征在于,该切换失效的检测方法至少包括以下步骤:
在该系统开机且供电至基板管理控制器后,该基板管理控制器执行FRB3机制,且依据基板管理控制器读取到的BIOS程序代码而取消FRB3机制,并同时启动计时处理;以及
在计时达到一预定时间值时,判断基板管理控制器是否已启动FRB2机制,若未启动,则建立失效记录并予以储存。
2. 如权利要求1所述的切换失效的检测方法,其特征在于,该失效记录是储存在可供BIOS程序读取的存储器。
3. 如权利要求1所述的切换失效的检测方法,其特征在于,在计时达到一预定时间值、判断出该基板管理控制器仍未启动FRB2机制且建立该失效记录并予以储存的步骤后,还执行重新启动系统的步骤。
4. 如权利要求1所述的切换失效的检测方法,其特征在于,在依据该基板管理控制器读取到BIOS程序代码而取消FRB3机制,并启动该计时处理的步骤后,在该计时处理未达到该预定时间值的过程中,BIOS程序判断出该基板管理控制器启动FRB2机制时,由BIOS程序传送FRB2机制的计时设定命令至基板管理控制器,并使该基板管理控制器执行初始化动作。
5. 如权利要求1所述的切换失效的检测方法,其特征在于,该应用在具有基板管理控制器及智能平台管理接口的系统是指刀片服务器。
CNB2006100027298A 2006-01-25 2006-01-25 切换失效的检测方法 Active CN100418059C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100027298A CN100418059C (zh) 2006-01-25 2006-01-25 切换失效的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100027298A CN100418059C (zh) 2006-01-25 2006-01-25 切换失效的检测方法

Publications (2)

Publication Number Publication Date
CN101008906A CN101008906A (zh) 2007-08-01
CN100418059C true CN100418059C (zh) 2008-09-10

Family

ID=38697350

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100027298A Active CN100418059C (zh) 2006-01-25 2006-01-25 切换失效的检测方法

Country Status (1)

Country Link
CN (1) CN100418059C (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957787A (zh) * 2010-08-16 2011-01-26 浪潮电子信息产业股份有限公司 一种利用bmc模块调试刀片服务器的方法
CN105653376B (zh) * 2016-01-05 2018-12-14 浪潮电子信息产业股份有限公司 Arm平台中bios与bmc同时启动时保证信息同步的优化方法
CN109254783A (zh) * 2018-09-18 2019-01-22 郑州云海信息技术有限公司 一种服务器系统安装方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1538318A (zh) * 2003-04-18 2004-10-20 英业达股份有限公司 输出入单元使用权的切换系统及方法
CN1635472A (zh) * 2003-12-31 2005-07-06 英业达股份有限公司 多处理器计算机系统的开机切换方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1538318A (zh) * 2003-04-18 2004-10-20 英业达股份有限公司 输出入单元使用权的切换系统及方法
CN1635472A (zh) * 2003-12-31 2005-07-06 英业达股份有限公司 多处理器计算机系统的开机切换方法

Also Published As

Publication number Publication date
CN101008906A (zh) 2007-08-01

Similar Documents

Publication Publication Date Title
US20070234123A1 (en) Method for detecting switching failure
KR101331935B1 (ko) 추적점 기반의 고장 진단/복구 시스템 및 그 방법
US8423829B2 (en) Failure analysis apparatus, method
CN102760090B (zh) 除错方法及计算机系统
CN112015599B (zh) 错误恢复的方法和装置
CN100549946C (zh) 用于执行数据处理操作的装置和方法
CN113064747A (zh) 一种服务器启动过程中的故障定位方法、系统及装置
CN101364193A (zh) 自动恢复bios的方法以及使用该方法的电脑与系统
CN102880527B (zh) 一种基板管理控制器的数据恢复方法
CN102571498A (zh) 故障注入控制方法和装置
CN106537351B (zh) 用于诊断无线通信设备中的电源故障的方法
CN1983179A (zh) 开机自我测试除错系统及方法
CN107111595A (zh) 双用途引导寄存器
US20090259899A1 (en) Method and apparatus for automatic scan completion in the event of a system checkstop
CN101320341B (zh) 数据扫描错误恢复系统和方法
CN110941520B (zh) 基于二取二安全控制单元的硬件功能测试系统及方法
CN100418059C (zh) 切换失效的检测方法
CN109710479B (zh) 一种处理方法及第一设备、第二设备
US7415560B2 (en) Method of automatically monitoring computer system debugging routine
JP4558376B2 (ja) コントローラ
CN104571098B (zh) 基于Atom平台的远程自诊断方法
CN115756935A (zh) 嵌入式软件系统的异常故障定位方法、装置及设备
CN100369009C (zh) 使用系统管理中断信号的监控系统及方法
US20200012565A1 (en) Identification of a suspect component causing an error in a path configuration from a processor to io devices
CN105551527A (zh) Cam的测试电路、测试方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: GUANGDONG HUABO ENTERPRISE MANAGEMENT CONSULTING C

Free format text: FORMER OWNER: YINGYEDA CO., LTD., TAIWAN

Effective date: 20140930

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: TAIWAN, CHINA TO: 510640 GUANGZHOU, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20140930

Address after: 510640 Guangdong city of Guangzhou province Tianhe District gold Yinglu No. 1 was 1106 room two

Patentee after: Guangdong Huabo Enterprise Management Consulting Co., Ltd.

Address before: Taipei City, Taiwan, China

Patentee before: Inventec Corporation

ASS Succession or assignment of patent right

Owner name: STATE GRID SHANGHAI ELECTRIC POWER COMPANY

Free format text: FORMER OWNER: GUANGDONG HUABO ENTERPRISE MANAGEMENT CONSULTING CO., LTD.

Effective date: 20141127

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 510640 GUANGZHOU, GUANGDONG PROVINCE TO: 200002 PUDONG NEW AREA, SHANGHAI

TR01 Transfer of patent right

Effective date of registration: 20141127

Address after: 200002 Shanghai City, Pudong New Area source deep road, No. 1122

Patentee after: State Grid Shanghai Municipal Electric Power Company

Address before: 510640 Guangdong city of Guangzhou province Tianhe District gold Yinglu No. 1 was 1106 room two

Patentee before: Guangdong Huabo Enterprise Management Consulting Co., Ltd.