CN107957924A - 基于cpld和bmc的自主可控服务器启动过程监控诊断方法 - Google Patents

基于cpld和bmc的自主可控服务器启动过程监控诊断方法 Download PDF

Info

Publication number
CN107957924A
CN107957924A CN201610905469.9A CN201610905469A CN107957924A CN 107957924 A CN107957924 A CN 107957924A CN 201610905469 A CN201610905469 A CN 201610905469A CN 107957924 A CN107957924 A CN 107957924A
Authority
CN
China
Prior art keywords
bmc
power supply
cpld
error
led light
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610905469.9A
Other languages
English (en)
Inventor
濮约刚
王晓光
韩琼
戴鑫
鲁欣妍
张明庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN201610905469.9A priority Critical patent/CN107957924A/zh
Publication of CN107957924A publication Critical patent/CN107957924A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种基于CPLD和BMC的自主可控服务器启动过程监控诊断方法,属于计算机技术领域。本发明利用CPLD对自主可控服务器启动过程中的主板电源状态和处理器调试串口输出内容进行分析和诊断,通过LED指示灯和蜂鸣器进行报警,利用BMC对诊断结果进行保存和显示,该方法通过实现自主可控服务器启动过程中的快速故障定位和原因预判功能,减少了自主可控服务器硬件调试和维护的成本。

Description

基于CPLD和BMC的自主可控服务器启动过程监控诊断方法
技术领域
本发明涉及计算机技术领域,具体涉及一种基于CPLD和BMC的自主可控服务器启动过程监控诊断方法。
背景技术
随着国家对自主可控产业的逐步推进和大力扶持,基于国产处理器的自主可控服务器开始在各领域推广应用。然而,目前基于国产处理器的自主可控服务器普遍存在开机启动速度慢,加电后长时间无显示输出信息的现象,导致用户无法获知设备当前启动状态以及判断设备能否正常启动的问题。同时由于自主可控服务器方案还在不断改进和完善,软硬件适配性尚不成熟,导致自主可控服务器在启动或运行过程中常常出现各种各样的问题。然而,由于目前缺乏针对自主可控服务器启动过程中的各种问题进行告警显示的手段,导致用户无法对启动过程中的故障进行定位和原因预判,从而增加自主可控服务器调试和维护周期及成本。
目前的自主可控服务器启动过程监控诊断大部分采用人工分析调试串口信息的方式进行。具体的实现方式是在自主可控服务器启动过程中出现故障,无法启动时,通过上位机连接自主可控设备调试串口,然后重启设备,在上位机中读取串口输出信息进行分析,从而定位故障原因。可以看出,通过人工分析调试串口信息的诊断方法无法对启动过程中的故障现场信息进行分析,只能在设备重启之后,待故障复现时再进行分析。对于偶发性故障或较难复现的故障,人工诊断方法耗时较长,可操作性较差。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何减少自主可控服务器硬件调试和维护的成本。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于CPLD和BMC的自主可控服务器启动过程监控诊断方法,包括以下步骤:
步骤1:根据自主可控服务器启动过程中的故障情况,定义八种类型的故障码,以描述不同的故障类型;
步骤2:主板电源上电,检查自主可控服务器各电源状态,其中,首先检查供电电源是否正常,若供电电源异常,由CPLD控制LED指示灯报错误类型1、蜂鸣器报警告信息1、向BMC传递故障码1,同时关闭电源;否则转入步骤3;
步骤3:IO电源上电,检查主板IO电源是否异常,若IO电源异常,由CPLD控制LED指示灯报错误类型2、蜂鸣器报警告信息2、向BMC传递故障码2,同时关闭电源;否则转入步骤4;
步骤4:CPU核心电源上电,检查CPU核心电源是否异常,若核心电源异常,由CPLD控制LED指示灯报错误类型3、蜂鸣器报警告信息3、向BMC传递故障码3,同时关闭电源;否则转入步骤5;
步骤5:确认各电源状态正常,启动处理器;
步骤6:检查CPU调试串口是否有输出,如果没有输出,由CPLD控制LED指示灯报错误类型4、蜂鸣器报警告信息4、向BMC传递故障码4,然后重启主板;否则转入步骤7;
步骤7:检查内存插槽上是否插接内存条,如果未插入内存条,由CPLD控制LED指示灯报错误类型5、蜂鸣器报警告信息5、向BMC传递故障码5,继续下一步操作;否则直接转入步骤8;
步骤8:检查内存运行状态是否正常,如果异常,由CPLD控制LED指示灯报错误类型6、蜂鸣器报警告信息6、向BMC传递故障码6,然后重启主板;否则转入步骤9;
步骤9:检查主板显卡是否在位,如果显卡不在位,由CPLD控制LED指示灯报错误类型7、蜂鸣器报警告信息7、向BMC传递故障码7,继续下一步操作;否则直接转入步骤10;
步骤10:检查主板硬盘是否在位,如果不在位,由CPLD控制LED指示灯报错误类型8、蜂鸣器报警告信息8、向BMC传递故障码8;否则转入步骤11;
步骤11:正常启动自主可控服务器。
优选地,步骤2~4,步骤6~10中,BMC接收到相应故障码后,对相应诊断结果进行保存和显示。
(三)有益效果
本发明提供了一种基于CPLD和BMC的自主可控服务器启动过程监控诊断方法,利用CPLD对自主可控服务器启动过程中的主板电源状态和处理器调试串口输出内容进行分析和诊断,通过LED指示灯和蜂鸣器进行报警,利用BMC对诊断结果进行保存和显示,该方法通过实现自主可控服务器启动过程中的快速故障定位和原因预判功能,减少了自主可控服务器硬件调试和维护的成本。
附图说明
图1为本发明实施例的方法流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明实施例提供的一种基于CPLD(复杂可编程逻辑器件)和BMC(基板管理控制器)的自主可控服务器启动过程监控诊断方法,主要通过自主可控服务器板载CPLD实现了对主板电源和处理器的完全监控,能够在设备启动过程中实时获取电源状态和处理器调试串口输出内容,分析和诊断启动问题,比如3.3V电源异常、处理器核电源0.8V异常、内存条未插入或者是内存初始化失败以及是处理器报错等。CPLD在侦测到错误后,通过板载的两路七段数码管和蜂鸣器给出相应的声光报警提示,两路七段数码管能够支持0~FF共256种信息,蜂鸣器目前可以提供8种不同的报警声音。同时,将侦测到的错误类型发送给BMC,由BMC进行保存,以便管理人员后续查看。
参考图1所示,本发明实施例的监控诊断方法的处理流程包括以下步骤:
步骤1:定义故障码,根据自主可控服务器启动过程中的故障情况,本发明定义了八种类型的故障码,以描述不同的故障类型;
步骤2:主板电源上电,检查自主可控服务器各电源状态,首先检查供电电源是否正常,如果供电电源异常,由CPLD控制LED指示灯报错误类型1、蜂鸣器报警告信息1、向BMC传递故障码1,BMC接收到相应故障码后,对相应诊断结果进行保存和显示,同时关闭电源;否则转入步骤3;
步骤3:IO电源上电,检查主板IO电源是否异常,如果IO电源异常,由CPLD控制LED指示灯报错误类型2、蜂鸣器报警告信息2、向BMC传递故障码2,BMC接收到相应故障码后,对相应诊断结果进行保存和显示,同时关闭电源;否则转入步骤4;
步骤4:CPU核心电源上电,检查CPU核心电源是否异常,如果核心电源异常,由CPLD控制LED指示灯报错误类型3、蜂鸣器报警告信息3、向BMC传递故障码3,BMC接收到相应故障码后,对相应诊断结果进行保存和显示,同时关闭电源;否则转入步骤5;
步骤5:各电源状态正常,启动处理器;
步骤6:检查CPU调试串口是否有输出,如果没有输出,由CPLD控制LED指示灯报错误类型4、蜂鸣器报警告信息4、向BMC传递故障码4,BMC接收到相应故障码后,对相应诊断结果进行保存和显示,然后重启主板;否则转入步骤7;
步骤7:检查内存插槽上是否插接内存条,如果未插入内存条,由CPLD控制LED指示灯报错误类型5、蜂鸣器报警告信息5、向BMC传递故障码5,BMC接收到相应故障码后,对相应诊断结果进行保存和显示,继续下一步操作;否则直接转入步骤8;
步骤8:检查内存运行状态是否正常,如果异常,由CPLD控制LED指示灯报错误类型6、蜂鸣器报警告信息6、向BMC传递故障码6,BMC接收到相应故障码后,对相应诊断结果进行保存和显示,然后重启主板;否则转入步骤9;
步骤9:检查主板显卡是否在位,如果显卡不在位,由CPLD控制LED指示灯报错误类型7、蜂鸣器报警告信息7、向BMC传递故障码7,BMC接收到相应故障码后,对相应诊断结果进行保存和显示,继续下一步操作;否则直接转入步骤10;
步骤10:检查主板硬盘是否在位,如果不在位,由CPLD控制LED指示灯报错误类型8、蜂鸣器报警告信息8、向BMC传递故障码8,BMC接收到相应故障码后,对相应诊断结果进行保存和显示;否则转入步骤11;
步骤11:正常启动自主可控服务器。
本发明在自主可控服务器启动过程中,能够实时监控电源状态,对处理器调试串口输出信息进行分析以及对内存条、显卡和硬盘进行检测,实现自主可控服务器启动过程中的故障进行定位、诊断,并可以通过BMC对诊断结果进行保存和显示。可以看出,与现有技术相比,本发明提出的技术方法提供对自主可控服务器启动过程中的故障现场信息进行分析、诊断和显示的功能,能够实现对偶发性或不易复现故障的定位,从而降低自主可控服务器设备的调试、维护周期和成本。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (2)

1.一种基于CPLD和BMC的自主可控服务器启动过程监控诊断方法,其特征在于,包括以下步骤:
步骤1:根据自主可控服务器启动过程中的故障情况,定义八种类型的故障码,以描述不同的故障类型;
步骤2:主板电源上电,检查自主可控服务器各电源状态,其中,首先检查供电电源是否正常,若供电电源异常,由CPLD控制LED指示灯报错误类型1、蜂鸣器报警告信息1、向BMC传递故障码1,同时关闭电源;否则转入步骤3;
步骤3:IO电源上电,检查主板IO电源是否异常,若IO电源异常,由CPLD控制LED指示灯报错误类型2、蜂鸣器报警告信息2、向BMC传递故障码2,同时关闭电源;否则转入步骤4;
步骤4:CPU核心电源上电,检查CPU核心电源是否异常,若核心电源异常,由CPLD控制LED指示灯报错误类型3、蜂鸣器报警告信息3、向BMC传递故障码3,同时关闭电源;否则转入步骤5;
步骤5:确认各电源状态正常,启动处理器;
步骤6:检查CPU调试串口是否有输出,如果没有输出,由CPLD控制LED指示灯报错误类型4、蜂鸣器报警告信息4、向BMC传递故障码4,然后重启主板;否则转入步骤7;
步骤7:检查内存插槽上是否插接内存条,如果未插入内存条,由CPLD控制LED指示灯报错误类型5、蜂鸣器报警告信息5、向BMC传递故障码5,继续下一步操作;否则直接转入步骤8;
步骤8:检查内存运行状态是否正常,如果异常,由CPLD控制LED指示灯报错误类型6、蜂鸣器报警告信息6、向BMC传递故障码6,然后重启主板;否则转入步骤9;
步骤9:检查主板显卡是否在位,如果显卡不在位,由CPLD控制LED指示灯报错误类型7、蜂鸣器报警告信息7、向BMC传递故障码7,继续下一步操作;否则直接转入步骤10;
步骤10:检查主板硬盘是否在位,如果不在位,由CPLD控制LED指示灯报错误类型8、蜂鸣器报警告信息8、向BMC传递故障码8;否则转入步骤11;
步骤11:正常启动自主可控服务器。
2.如权利要求1所述的方法,其特征在于,步骤2~4,步骤6~10中,BMC接收到相应故障码后,对相应诊断结果进行保存和显示。
CN201610905469.9A 2016-10-17 2016-10-17 基于cpld和bmc的自主可控服务器启动过程监控诊断方法 Pending CN107957924A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610905469.9A CN107957924A (zh) 2016-10-17 2016-10-17 基于cpld和bmc的自主可控服务器启动过程监控诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610905469.9A CN107957924A (zh) 2016-10-17 2016-10-17 基于cpld和bmc的自主可控服务器启动过程监控诊断方法

Publications (1)

Publication Number Publication Date
CN107957924A true CN107957924A (zh) 2018-04-24

Family

ID=61953960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610905469.9A Pending CN107957924A (zh) 2016-10-17 2016-10-17 基于cpld和bmc的自主可控服务器启动过程监控诊断方法

Country Status (1)

Country Link
CN (1) CN107957924A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101358A (zh) * 2018-07-27 2018-12-28 郑州云海信息技术有限公司 服务器系统及其硬件日志记录装置及方法
CN109117348A (zh) * 2018-07-23 2019-01-01 深圳市同泰怡信息技术有限公司 服务器uid led指示灯控制方法及系统
CN111124826A (zh) * 2019-12-20 2020-05-08 深圳市源拓光电技术有限公司 一种保护cpu正常上电启动的方法及系统
CN111324192A (zh) * 2020-02-26 2020-06-23 苏州浪潮智能科技有限公司 一种系统板卡电源检测方法、装置、设备及存储介质
CN111597086A (zh) * 2020-04-26 2020-08-28 深圳市同泰怡信息技术有限公司 基于cpld的内存报错方法、装置、存储介质和计算机设备
CN112148515A (zh) * 2020-09-16 2020-12-29 锐捷网络股份有限公司 一种故障定位方法、系统、装置、介质和设备
CN113407399A (zh) * 2021-06-11 2021-09-17 浪潮电子信息产业股份有限公司 一种开机硬件故障的诊断方法、装置、设备及存储介质
CN113532813A (zh) * 2020-03-30 2021-10-22 株式会社世原精工 用于模具耐磨性使用寿命评价的剪切耐久性测试模具装置
CN113806167A (zh) * 2021-09-01 2021-12-17 超越科技股份有限公司 一种飞腾平台服务器操作系统的运行监控方法
CN116126571A (zh) * 2022-12-13 2023-05-16 中科可控信息产业有限公司 故障诊断方法、故障监测电路和服务器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391765A (zh) * 2014-10-27 2015-03-04 浪潮电子信息产业股份有限公司 一种自动诊断服务器启动故障的方法
TW201514706A (zh) * 2013-10-12 2015-04-16 Hon Hai Prec Ind Co Ltd 可偵測硬碟狀態的電子裝置
CN104572226A (zh) * 2015-02-04 2015-04-29 浪潮(北京)电子信息产业有限公司 一种侦测主板开机异常的方法和装置
CN105373465A (zh) * 2015-12-04 2016-03-02 英业达科技有限公司 一种系统状态的检测方法、系统及服务器
CN105808398A (zh) * 2016-03-08 2016-07-27 浪潮电子信息产业股份有限公司 一种快速分析定位硬件异常的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201514706A (zh) * 2013-10-12 2015-04-16 Hon Hai Prec Ind Co Ltd 可偵測硬碟狀態的電子裝置
CN104391765A (zh) * 2014-10-27 2015-03-04 浪潮电子信息产业股份有限公司 一种自动诊断服务器启动故障的方法
CN104572226A (zh) * 2015-02-04 2015-04-29 浪潮(北京)电子信息产业有限公司 一种侦测主板开机异常的方法和装置
CN105373465A (zh) * 2015-12-04 2016-03-02 英业达科技有限公司 一种系统状态的检测方法、系统及服务器
CN105808398A (zh) * 2016-03-08 2016-07-27 浪潮电子信息产业股份有限公司 一种快速分析定位硬件异常的方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117348A (zh) * 2018-07-23 2019-01-01 深圳市同泰怡信息技术有限公司 服务器uid led指示灯控制方法及系统
CN109117348B (zh) * 2018-07-23 2022-04-26 深圳市同泰怡信息技术有限公司 服务器uid led指示灯控制方法及系统
CN109101358A (zh) * 2018-07-27 2018-12-28 郑州云海信息技术有限公司 服务器系统及其硬件日志记录装置及方法
CN111124826A (zh) * 2019-12-20 2020-05-08 深圳市源拓光电技术有限公司 一种保护cpu正常上电启动的方法及系统
CN111324192A (zh) * 2020-02-26 2020-06-23 苏州浪潮智能科技有限公司 一种系统板卡电源检测方法、装置、设备及存储介质
CN113532813A (zh) * 2020-03-30 2021-10-22 株式会社世原精工 用于模具耐磨性使用寿命评价的剪切耐久性测试模具装置
CN111597086A (zh) * 2020-04-26 2020-08-28 深圳市同泰怡信息技术有限公司 基于cpld的内存报错方法、装置、存储介质和计算机设备
CN112148515A (zh) * 2020-09-16 2020-12-29 锐捷网络股份有限公司 一种故障定位方法、系统、装置、介质和设备
CN112148515B (zh) * 2020-09-16 2023-06-20 锐捷网络股份有限公司 一种故障定位方法、系统、装置、介质和设备
CN113407399A (zh) * 2021-06-11 2021-09-17 浪潮电子信息产业股份有限公司 一种开机硬件故障的诊断方法、装置、设备及存储介质
CN113806167A (zh) * 2021-09-01 2021-12-17 超越科技股份有限公司 一种飞腾平台服务器操作系统的运行监控方法
CN116126571A (zh) * 2022-12-13 2023-05-16 中科可控信息产业有限公司 故障诊断方法、故障监测电路和服务器

Similar Documents

Publication Publication Date Title
CN107957924A (zh) 基于cpld和bmc的自主可控服务器启动过程监控诊断方法
CN106502853B (zh) 嵌入式智能故障检测报警系统
CN106547668B (zh) 计算机系统故障告警方法、装置及系统
CN106201844B (zh) 一种日志收集方法及装置
US7281040B1 (en) Diagnostic/remote monitoring by email
CN108089964A (zh) 一种通过bmc监控服务器cpld状态的装置及方法
CN104850485A (zh) 一种基于bmc远程诊断服务器开机故障的方法及系统
US20120239981A1 (en) Method To Detect Firmware / Software Errors For Hardware Monitoring
US20070055740A1 (en) System and method for interacting with a remote computer
CN102244591A (zh) 客户端服务器及对其功能测试全程监测的方法
CN104125504B (zh) 一种基于持续集成的部署方法、装置及系统
CN106060066A (zh) 基于嵌入式linux实现终端维护和信息发布的方法
CN116107819A (zh) 一种服务器启动故障检测系统、方法、装置以及介质
CN104503903B (zh) 一种weblogic中间件故障自动诊断方法
CN108287780A (zh) 一种监控服务器cpld状态的装置及方法
CN117251333A (zh) 一种硬盘信息获取方法、装置、设备及存储介质
CN104268041B (zh) 一种车载显示器设备频繁开关机自动化闭环测试方法
CN112035285B (zh) 基于高通平台的硬件看门狗电路系统及其监控方法
CN110502400A (zh) 数据库巡检方法和装置
CN106550235A (zh) 一种机顶盒故障信息的处理方法、装置及机顶盒
US20240273053A1 (en) Serial port control system based on complex programmable logic device (cpld) and communication method therefor
US20220360509A1 (en) Network adaptive monitoring
CN115543746A (zh) 图形处理器监测方法、系统、装置及电子设备
CN107526663A (zh) 一种基于带外管理与操作系统协同的开关机测试方法及系统
CN109032867A (zh) 一种故障诊断方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180424

RJ01 Rejection of invention patent application after publication