CN117687876A - 故障指示装置及方法 - Google Patents
故障指示装置及方法 Download PDFInfo
- Publication number
- CN117687876A CN117687876A CN202311434357.6A CN202311434357A CN117687876A CN 117687876 A CN117687876 A CN 117687876A CN 202311434357 A CN202311434357 A CN 202311434357A CN 117687876 A CN117687876 A CN 117687876A
- Authority
- CN
- China
- Prior art keywords
- indication
- voltage
- devices
- data
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000007405 data analysis Methods 0.000 claims description 54
- 238000012544 monitoring process Methods 0.000 claims description 43
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013024 troubleshooting Methods 0.000 abstract description 3
- 238000007726 management method Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 230000002159 abnormal effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000011835 investigation Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000017525 heat dissipation Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种故障指示装置及方法,其中方法包括:接收目标服务器中多个设备的时序电压数据;基于各设备的时序电压数据的数值,对各设备的时序电压数据进行编码,得到各设备的电压指示编码;控制指示灯阵列中各指示灯显示各设备的电压指示编码对应的亮灭状态,以使指示灯阵列指示各设备的电压状态。本发明提供的故障指示装置及方法,通过获取多个设备的时序电压数据后进行编码,得到各设备的电压指示编码,并控制各指示灯显示各设备的电压指示编码对应的亮灭状态,使得指示灯阵列指示各设备的电压状态。基于指示灯阵列,可以快速定位对应的故障设备,从而实现了对服务器设备故障的快速确定,提升了服务器故障排查的效率。
Description
技术领域
本发明涉及服务器技术领域,尤其涉及一种故障指示装置及方法。
背景技术
服务器在调试测试过程中,有时会出现无法启动或者无法开机的故障,当排除线缆、外接设备、固件及机箱系统等因素的影响后,需要对服务器中各个设备进行排查,此时就需要根据上电测量电压是否异常来判断问题点。
现有的方法中,对于一些无法脱离服务器机箱系统上电的主板,例如需要其它像时钟板等的板卡搭配等情况,一旦出现开机异常需要测量时序的场景,就需要在主板焊接飞线,装入机箱上电后再进行测量,过程很繁琐,不仅耗时耗力而且效率很低。对于可以单主板上电的情况,根据上电时序测量电压较为简单,但也存在测量点在背面不方便测量的问题,需要将主板从节点拆出再进行测量的方式确定异常,调试效率低。
发明内容
本发明提供一种故障指示装置及方法,针对服务器中设备异常调试的过程中,调试效率低的问题。
本发明提供一种故障指示装置,包括:
数据接收模块,所述数据接收模块的第一端与目标服务器的基板管理控制器BMC连接,所述数据接收模块的第二端与数据解析模块连接,用于接收BMC发送的所述目标服务器中多个设备的时序电压数据,并将所述多个设备的时序电压数据发送至数据解析模块,所述多个设备的时序电压数据是基于所述BMC获取的多个设备的电源监测信号确定的;
数据解析模块,所述数据解析模块与指示灯阵列模块连接,用于接收所述多个设备的时序电压数据,基于各设备的时序电压数据的数值,对所述各设备的时序电压数据进行编码,得到所述各设备的电压指示编码,并将所述各设备的电压指示编码发送至所述指示灯阵列模块;
指示灯阵列模块,用于接收所述各设备的电压指示编码,并基于所述各设备的电压指示编码,控制指示灯阵列中各指示灯显示所述各设备的电压指示编码对应的亮灭状态,以使所述指示灯阵列指示所述各设备的电压状态,所述指示灯阵列中各指示灯与所述各设备一一对应。
根据本发明提供的一种故障指示装置,还包括:调试模块;
所述调试模块与所述数据解析模块连接,用于在所述目标服务器运行正常的情况下,发送调试终止指令至所述数据解析模块,使得所述数据解析模块将所述数据接收模块与所述BMC的连接断开;
在所述目标服务器故障的情况下,发送调试执行指令至所述数据解析模块,以使所述数据解析模块基于所述调试执行指令,将所述数据接收模块与所述BMC连通。
根据本发明提供的一种故障指示装置,所述数据接收模块包括第一USB接口、第二USB接口以及USB转串口子模块;
所述第一USB接口的第一端与所述BMC连接,所述第一USB接口的第二端与所述第二USB接口连接,用于接收BMC发送的所述目标服务器中多个设备的时序电压数据,并将所述多个设备的时序电压数据基于所述第一USB接口与所述第二USB接口之间的数据通道,发送至所述第二USB接口;
所述第二USB接口与所述USB转串口模块连接,用于将接收的所述第一USB接口发送的多个设备的时序电压数据发送至所述USB转串口模块;
所述USB转串口模块与所述数据解析模块连接,用于接收所述多个设备的时序电压数据,并将所述多个设备的时序电压数据的数据格式转换为串口信号的数据格式,并将转换后得到的多个设备的串口信号的数据格式的时序电压数据发送至所述数据解析模块。
根据本发明提供的一种故障指示装置,多个设备的电源监测信号包括所述BMC获取的设备的电源监测信号,以及所述BMC接收的所述目标服务器的复杂可编程逻辑器件CPLD获取的设备的电源监测信号。
本发明还提供一种基于上述任一项所述的故障指示装置的故障指示方法,包括:
数据解析模块接收目标服务器中多个设备的时序电压数据,所述多个设备的时序电压数据是基于所述目标服务器的基板管理控制器BMC获取的多个设备的电源监测信号确定的;
数据解析模块基于各设备的时序电压数据的数值,对所述各设备的时序电压数据进行编码,得到所述各设备的电压指示编码,并将所述各设备的电压指示编码发送至指示灯阵列模块;
指示灯阵列模块接收所述各设备的电压指示编码,并控制指示灯阵列中各指示灯显示所述各设备的电压指示编码对应的亮灭状态,以使所述指示灯阵列指示所述各设备的电压状态,所述指示灯阵列中各指示灯与所述各设备一一对应。
根据本发明提供的一种故障指示方法,基于各设备的时序电压数据的数值,对所述各设备的时序电压数据进行编码,得到所述各设备的电压指示编码,包括:
所述数据解析模块确定所述各设备的时序电压数据中时序电压数据的绝对值大于预设电压阈值的电压指示编码为高电平电压编码;
所述数据解析模块确定所述各设备的时序电压数据中时序电压数据的绝对值小于等于所述预设电压阈值的电压指示编码为低电平电压编码。
根据本发明提供的一种故障指示方法,控制指示灯阵列中各指示灯显示所述各设备的电压指示编码对应的亮灭状态,包括:
在所述各设备中设备的电压指示编码为高电平电压编码的情况下,所述指示灯阵列模块控制所述指示灯阵列中的对应指示灯显示为亮状态;
在所述各设备中设备的电压指示编码为低电平电压编码的情况下,所述指示灯阵列模块控制所述指示灯阵列中的对应指示灯显示为灭状态。
根据本发明提供的一种故障指示方法,多个设备的电源监测信号包括所述BMC获取的设备的电源监测信号,以及所述BMC接收的所述目标服务器的复杂可编程逻辑器件CPLD获取的设备的电源监测信号。
根据本发明提供的一种故障指示方法,控制指示灯阵列中各指示灯显示所述各设备的电压指示编码对应的亮灭状态之后,还包括:
所述指示灯阵列模块基于所述指示灯阵列指示所述各设备的电压状态,确定所述多个设备中的故障设备。
本发明还提供一种服务器,包括基板管理控制器BMC以及上述故障指示装置。
本发明提供的故障指示装置及方法,通过获取目标服务器中多个设备的时序电压数据后进行编码,得到各设备的电压指示编码,并控制指示灯阵列中各指示灯显示各设备的电压指示编码对应的亮灭状态,使得指示灯阵列指示各设备的电压状态。基于指示灯阵列,用户可以直观的基于查看指示灯的显示状态,快速定位对应的故障设备,从而实现了对服务器设备故障的快速确定,提升了服务器故障排查的效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的故障指示装置的结构示意图;
图2是本发明提供的故障指示装置执行流程示意图;
图3是本发明提供的故障指示方法的流程示意图;
图4是应用本发明提供的故障指示方法的装置结构示意图;
图5是本发明提供的故障排查执行流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
服务器在调试测试过程中,有时会出现无法启动无法开机的故障,当排除线缆、外接设备、固件及机箱系统等因素的影响后,此时就需要根据上电时序测量电压是否异常来判断问题点。
相关方法中采用三种方法实现对服务器异常的调试:
第一种方法是通过服务器主板的Port80指示灯确认开机进程。当遇到系统启动问题时,Port80指示灯能够显示问题发生的前后场景,可以确认是哪个时序过程出现了问题,可以针对性的进行问题检查,是调试不可或缺的工具。
第一种方法的缺陷在于:
对于主板无法脱离机箱系统上电的单节点服务器,需要拆除服务器上盖或其它设备检查Port80指示灯的显示情况;对于多节点服务器来说就很难检查Port80指示灯显示情况;
对于主板可以脱离机箱系统上电的服务器,存在需要外部提供散热条件(比如增加风扇散热的方式)才可以检查Port80指示灯情况的问题,一旦主板上电后因散热问题导致关机,会出现需要冷却一段时间才能再次上电开机的情况;
存在不了解Port80具体含义的情况,此时需要基本输入输出系统(Basic InputOutput System,BIOS)的开发人员协助解析,进一步增加了问题确认的时间,延缓了问题排查的进度。
第二种方法是使用示波器或电压表根据上电时序测量电压,可以很容易测量各电压的具体值。
第二种方法的缺陷在于:
需要根据上电时序图依次进行测量每个电压信号,并且需要在主板上找到每个电压信号的位置,测量的过程较为繁琐,无法及时确认问题点;
对于主板无法脱离服务器机箱系统上电的单节点服务器来说测量比较困难,需要飞线出来进行测量,同时飞线过程会增加元器件损坏的风险;
第三种方法是复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)与基板管理控制器(Baseboard Management Controller,BMC)定义接口协议,可以通过命令从BMC串口获取各时序电压的情况。
第三种方法的缺点在于:
需要CPLD与BMC定义软硬件接口协议,CPLD及BMC工程师需要进行该功能的开发,在项目初期很影响主板测试时间;
需要接入串口线,打开串口调试工具,等待BMC启动完成进入系统,再输入相关命令查看返回的数据,然后再与接口协议文档比对哪组时序异常,过程繁琐且数据需要经过二进制与十六进制换算不易比对。
针对相关方法中的缺陷,本发明提出一种故障指示装置,图1为本发明提供的故障指示装置的结构示意图,如图1所示,该装置包括:
数据接收模块110,所述数据接收模块110的第一端与目标服务器的基板管理控制器BMC连接,所述数据接收模块的第二端与数据解析模块120连接,用于接收BMC发送的所述目标服务器中多个设备的时序电压数据,并将所述多个设备的时序电压数据发送至数据解析模块120,所述多个设备的时序电压数据是基于所述BMC获取的多个设备的电源监测信号确定的。
目标服务器为任意需要进行测试的服务器。目标服务器中的多个设备是目标服务器主板中的设备。
目标服务器中设备的时序电压数据是指各个设备(如处理器、内存、硬盘等)在不同时间点上的电压值。时序电压数据可以基于目标服务器的基板管理控制器(BaseboardManagement Controller,BMC)进行收集。
BMC在服务器主板或计算设备的主板上。它提供了对硬件资源的监控、控制和管理功能,并支持远程管理和监控。
BMC通过与服务器的各种传感器(如温度传感器、电压传感器等)和电源控制器进行通信,收集和报告有关设备健康状态、温度、电压、风扇速度等信息。
基于目标服务器的BMC,获取多个设备的电源监测信号。其中,电源监测信号可以是Power Good信号。Power Good信号是一种电源监测信号,用于指示电源是否正常工作。它通常用于计算机系统或其他电子设备中。
BMC在获取多个设备的电源监测信号之后,对获取的电源监测信号进行转换,得到时序电压数据。BMC将获取的时序电压数据发送至数据接收模块110。
数据解析模块120,所述数据解析模块120与指示灯阵列模块130连接,用于接收所述多个设备的时序电压数据,基于各设备的时序电压数据的数值,对所述各设备的时序电压数据进行编码,得到所述各设备的电压指示编码,并将所述各设备的电压指示编码发送至所述指示灯阵列模块130。
可以理解的是,时序电压数据是一个具体的电压数值,其绝对值可能大于零也可能等于零。在设备异常的正常的情况下,上电后,时序电压数据一般不会等于零。所以,可以基于对时序电压数值的判断,间接实现对设备的运行状态进行判断。
在得到各设备的时序电压数据之后,数据解析模块120基于时序电压数据的数值,对各设备的时序电压数据进行编码。例如,对于绝对值大于0的时序电压数据,电压指示编码为1,对于绝对值等于0的时序电压数据,电压指示编码为0。
指示灯阵列模块130,用于接收所述各设备的电压指示编码,并基于所述各设备的电压指示编码,控制指示灯阵列中各指示灯显示所述各设备的电压指示编码对应的亮灭状态,以使所述指示灯阵列指示所述各设备的电压状态,所述指示灯阵列中各指示灯与所述各设备一一对应。
可选的,得到的各设备的电压指示编码可以是0或1。例如,对于绝对值大于0的时序电压数据,电压指示编码为1,对于绝对值等于0的时序电压数据,电压指示编码为0。
控制指示灯阵列中的各指示灯根据电压指示编码为0或1,显示对应的亮灭状态。例如,对于电压指示编码为1的指示灯,显示为亮状态。对于电压指示编码为0的指示灯,显示为灭状态。
可以理解的是,电压指示编码为1显示的指示灯亮状态,可以反映对应的设备存在时序电压,则说明该设备正常上电。而电压指示编码为0显示的指示灯灭状态,可以反映对应的设备不存在时序电压,则说明该设备故障。
基于指示灯阵列模块130控制指示灯阵列显示各指示灯的亮灭状态,用户可以直观的基于查看指示灯的显示状态,快速定位对应的故障设备,从而实现了对服务器设备故障的快速确定,提升了服务器故障排查的效率。
基于故障指示装置实现对目标服务器的故障调试过程可以如图2本发明提供的故障指示装置执行流程示意图所示。
步骤210,确定目标服务器处于异常状态。
步骤220,接入故障指示装置。即将故障指示装置的数据接收模块连接目标服务器的BMC。
步骤230,BMC将收集的多个设备的电源监测信号,确定多个设备的时序电压数据。
步骤240,将多个设备的时序电压数据发送至数据解析模块进行编码,并将得到的各设备的电压指示编码发送至指示灯阵列模块。
步骤250,指示灯阵列模块控制指示灯阵列中各指示灯显示各设备的电压指示编码对应的亮灭状态。
本发明实施例提供的故障指示装置,通过数据接收模块接收目标服务器中多个设备的时序电压数据,基于数据解析模块对时序电压数据进行编码,得到各设备的电压指示编码,并基于指示灯阵列模块控制指示灯阵列中各指示灯显示各设备的电压指示编码对应的亮灭状态,使得指示灯阵列指示各设备的电压状态。基于指示灯阵列,用户可以直观的基于查看指示灯的显示状态,快速定位对应的故障设备,从而实现了对服务器设备故障的快速确定,提升了服务器故障排查的效率。
在一个实施例中,还包括:调试模块;所述调试模块与所述数据解析模块连接,用于在所述目标服务器运行正常的情况下,发送调试终止指令至所述数据解析模块,使得所述数据解析模块将所述数据接收模块与所述BMC的连接断开;在所述目标服务器故障的情况下,发送调试执行指令至所述数据解析模块,以使所述数据解析模块基于所述调试执行指令,将所述数据接收模块与所述BMC连通。
调试模块与数据解析模块连接,实现对目标服务器的是否进行调试的确定。
可以理解的是,故障指示装置需要连接目标服务器的BMC。但目标服务器正常运行的过程中,不需要连接进行显示各设备的运行状态。只有目标服务器处于故障状态的时候,才需要基于故障指示装置连接BMC,对目标服务器中各设备的运行状态进行显示。
调试模块用于在目标服务器正常运行的情况下,此时目标服务器无需调试,发送调试终止指令至数据解析模块,使得数据解析模块将数据接收模块与BMC的连接断开,从而不影响目标服务器的正常运行。
在目标服务器故障的情况下,此时目标服务器需要进行调试,发送调试执行指令至数据解析模块,以使数据解析模块基于所述调试执行指令,将数据接收模块与BMC连通,实现对目标服务器的调试。
本发明实施例提供的故障指示装置,通过设置调试模块,在需要对目标服务器需要进行调试,发送调试执行指令至数据解析模块,以使数据解析模块基于调试执行指令,将数据接收模块与BMC连通,实现对目标服务器的调试过程。在不需要对目标服务器进行调试的情况下,发送调试终止指令至数据解析模块,使得数据解析模块将数据接收模块与BMC的连接断开,从而不影响目标服务器的正常运行。
在一个实施例中,数据接收模块包括第一USB接口、第二USB接口以及USB转串口子模块;所述第一USB接口的第一端与所述BMC连接,所述第一USB接口的第二端与所述第二USB接口连接,用于接收BMC发送的所述目标服务器中多个设备的时序电压数据,并将所述多个设备的时序电压数据基于所述第一USB接口与所述第二USB接口之间的数据通道,发送至所述第二USB接口;所述第二USB接口与所述USB转串口模块连接,用于将接收的所述第一USB接口发送的多个设备的时序电压数据发送至所述USB转串口模块;所述USB转串口模块与所述数据解析模块连接,用于接收所述多个设备的时序电压数据,并将所述多个设备的时序电压数据的数据格式转换为串口信号的数据格式,并将转换后得到的多个设备的串口信号的数据格式的时序电压数据发送至所述数据解析模块。
第一USB接口与第二USB接口连接,构建数据通道。第一USB接口与BMC连接,第二USB接口与USB转串口模块连接。使得BMC获取的多个设备的时序电压数据可以基于第一USB接口与第二USB接口之间的数据通道,发送至USB转串口模块。
可以理解的是,BMC获取的时序电压数据是模拟电子数据,后续无法直接识别使用,需要转化为数字电子数据。
USB转串口模块将接收的模拟电子数据形式的时序电压数据,转换为串口信号的数字电子数据的数据格式,方便了后续的分析使用过程。
本发明实施例提供的故障指示装置,通过第一USB接口与第二USB接口连接,构建数据通道,实现了多个设备的时序电压数据在BMC与故障指示装置之间的传输过程。
在一个实施例中,多个设备的电源监测信号包括所述BMC获取的设备的电源监测信号,以及所述BMC接收的所述目标服务器的复杂可编程逻辑器件CPLD获取的设备的电源监测信号。
对于目标服务器中的设备,有部分设备在目标服务器上电前需要保持通电,此部分设备的电压可以由BMC获取。对于目标服务器上电后才通电的部分设备,由CPLD获取。CPLD获取后,发送至BMC。
其中,在获取时序电压数据的过程中,BMC基于ADC总线获取,CPLD获取后,基于I2C总线发送至BMC。
可选的,BMC与故障指示装置的通信,可以采用帧头+功能码+命令位+数据位+校验位+帧尾的格式,如表1BMC与数据解析模块的通信协议格式表所示。具体说明如下:
功能码0x00代表请求,0x01代表发送;
命令位0x01代表时序第一组电压,0x02代表时序第二组电压,0x03代表时序第三组电压……依次类推;
数据位0x01表示电压正常,0x00表示电压异常;
校验位与数据位取反,0x00表示电压正常,0x01表示电压异常。如果数据位和校验位同时收到0x00 0x00或者0x01 0x01表示数据被干扰不接收。
表1BMC与数据解析模块的通信协议格式表
帧头 | 功能码 | 命令 | 数据 | 校验位 | 帧尾 |
0xFF | 0x01 | 0x01 | 0x01 | 0x00 | 0xFF |
数据解析模块向主板BMC发送请求(0xFF 0x00 0xFF 0xFF 0xFF 0xFF);
目标服务器中的CPLD与BMC通信,当BMC接收到数据解析模块发送的请求后,CPLD将电源监测信号发送给BMC汇总。
BMC根据协议依次发送时序中每个电源监测信号给数据接收模块(0xFF 0x010x01 0x01 0x00 0xFF 0xFF 0x01 0x02 0x01 0x00 0xFF0xFF 0x01 0x03 0x01 0x000xFF……)。
本发明实施例提供的故障指示装置,通过BMC以及CPLD对各设备的时序电压数据的获取,实现了对目标服务器中各时序电压数据的收集。
本发明还提供一种应用上述故障指示装置的故障指示方法,图3为本发明提供的故障指示方法的流程示意图。参照图3,本发明提供的故障指示方法可以包括:
步骤310,数据解析模块接收目标服务器中多个设备的时序电压数据,所述多个设备的时序电压数据是基于所述目标服务器的基板管理控制器BMC获取的多个设备的电源监测信号确定的;
步骤320,数据解析模块基于各设备的时序电压数据的数值,对所述各设备的时序电压数据进行编码,得到所述各设备的电压指示编码,并将所述各设备的电压指示编码发送至指示灯阵列模块;
步骤330,指示灯阵列模块接收所述各设备的电压指示编码,并控制指示灯阵列中各指示灯显示所述各设备的电压指示编码对应的亮灭状态,以使所述指示灯阵列指示所述各设备的电压状态,所述指示灯阵列中各指示灯与所述各设备一一对应。
本发明提供的故障指示方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digitalassistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network AttachedStorage,NAS)或个人计算机(personal computer,PC)等,本发明不作具体限定。
下面以计算机执行本发明提供的故障指示方法为例,详细说明本发明的技术方案。
在步骤310中,数据解析模块接收目标服务器中多个设备的时序电压数据。
目标服务器为任意需要进行测试的服务器。目标服务器中的多个设备是目标服务器主板中的设备。
目标服务器中设备的时序电压数据是指各个设备(如处理器、内存、硬盘等)在不同时间点上的电压值。时序电压数据可以基于目标服务器的基板管理控制器(BaseboardManagement Controller,BMC)进行收集。
BMC在服务器主板或计算设备的主板上。它提供了对硬件资源的监控、控制和管理功能,并支持远程管理和监控。
BMC通过与服务器的各种传感器(如温度传感器、电压传感器等)和电源控制器进行通信,收集和报告有关设备健康状态、温度、电压、风扇速度等信息。
基于目标服务器的BMC,获取多个设备的电源监测信号。其中,电源监测信号可以是Power Good信号。Power Good信号是一种电源监测信号,用于指示电源是否正常工作。它通常用于计算机系统或其他电子设备中。
Power Good信号通常是一个高电平信号,即高电压状态,表示电源工作正常。如果电源出现故障或电压异常,Power Good信号将变为低电平,即低电压状态,通知主板停止工作以避免损坏其他组件。
BMC在获取多个设备的电源监测信号之后,对获取的电源监测信号进行转换,得到时序电压数据。
在步骤320中,数据解析模块在得到各设备的时序电压数据之后,基于各设备的时序电压数据的数值,对各设备的时序电压数据进行编码,得到各设备的电压指示编码,并将所述各设备的电压指示编码发送至指示灯阵列模块。
可以理解的是,时序电压数据是一个具体的电压数值,其绝对值可能大于零也可能等于零。在设备异常的正常的情况下,上电后,时序电压数据一般不会等于零。所以,可以基于对时序电压数值的判断,间接实现对设备的运行状态进行判断。
在数据解析模块得到各设备的时序电压数据之后,基于时序电压数据的数值,对各设备的时序电压数据进行编码。例如,对于绝对值大于0的时序电压数据,电压指示编码为1,对于绝对值等于0的时序电压数据,电压指示编码为0。
在步骤330中,在指示灯阵列模块得到各设备的电压指示编码后,控制指示灯阵列中各指示灯显示各设备的电压指示编码对应的亮灭状态,从而实现对各设备的电压状态的实时显示。
可选的,得到的各设备的电压指示编码可以是0或1。例如,对于绝对值大于0的时序电压数据,电压指示编码为1,对于绝对值等于0的时序电压数据,电压指示编码为0。
指示灯阵列模块控制指示灯阵列中的各指示灯根据电压指示编码为0或1,显示对应的亮灭状态。例如,对于电压指示编码为1的指示灯,显示为亮状态。对于电压指示编码为0的指示灯,显示为灭状态。
可以理解的是,电压指示编码为1显示的指示灯亮状态,可以反映对应的设备存在时序电压,则说明该设备正常上电。而电压指示编码为0显示的指示灯灭状态,可以反映对应的设备不存在时序电压,则说明该设备故障。
基于指示灯阵列,用户可以直观的基于查看指示灯的显示状态,快速定位对应的故障设备,从而实现了对服务器设备故障的快速确定,提升了服务器故障排查的效率。
本发明实施例提供的故障指示方法,通过获取目标服务器中多个设备的时序电压数据后进行编码,得到各设备的电压指示编码,并控制指示灯阵列中各指示灯显示各设备的电压指示编码对应的亮灭状态,使得指示灯阵列指示各设备的电压状态。基于指示灯阵列,用户可以直观的基于查看指示灯的显示状态,快速定位对应的故障设备,从而实现了对服务器设备故障的快速确定,提升了服务器故障排查的效率。
在一个实施例中,基于各设备的时序电压数据的数值,对所述各设备的时序电压数据进行编码,得到所述各设备的电压指示编码,包括:所述数据解析模块确定所述各设备的时序电压数据中时序电压数据的绝对值大于预设电压阈值的电压指示编码为高电平电压编码;所述数据解析模块确定所述各设备的时序电压数据中时序电压数据的绝对值小于等于所述预设电压阈值的电压指示编码为低电平电压编码。
数据解析模块在得到各设备的时序电压数据之后,对各设备的时序电压数据进行编码。
将时序电压数据的绝对值与预设电压阈值进行比对。其中,预设电压阈值可以设置为0,也可以设置为一个较小的数值。因为对于设备的时序电压数据的获取,可能存在误差。在确定时序电压数据的绝对值小于等于预设电压阈值的电压指示编码为低电平电压编码。预设电压阈值也可以基于设备故障时的具体电压数值确定。
数据解析模块在确定各设备的时序电压数据中时序电压数据的绝对值大于预设电压阈值的电压指示编码为高电平电压编码。
例如,对于绝对值大于0的时序电压数据,电压指示编码为1,对于绝对值等于0的时序电压数据,电压指示编码为0。
本发明实施例提供的故障指示方法,通过在得到各设备的时序电压数据之后,对各设备的时序电压数据进行编码,为后指示灯的显示提供了基础。
在一个实施例中,控制指示灯阵列中各指示灯显示所述各设备的电压指示编码对应的亮灭状态,包括:在所述各设备中设备的电压指示编码为高电平电压编码的情况下,所述指示灯阵列模块控制所述指示灯阵列中的对应指示灯显示为亮状态;在所述各设备中设备的电压指示编码为低电平电压编码的情况下,所述指示灯阵列模块控制所述指示灯阵列中的对应指示灯显示为灭状态。
例如,对于绝对值大于0的时序电压数据,电压指示编码为1,对于绝对值等于0的时序电压数据,电压指示编码为0。对于电压指示编码为1的情况下,指示灯阵列模块控制指示灯阵列中对应指示灯为亮状态。对于电压指示编码为0的情况下,指示灯阵列模块控制指示灯阵列中对应指示灯为灭状态。
可以理解的是,电压指示编码为1显示的指示灯亮状态,可以反映对应的设备存在时序电压,则说明该设备正常上电。而电压指示编码为0显示的指示灯灭状态,可以反映对应的设备不存在时序电压,则说明该设备故障。
本发明实施例提供的故障指示方法,通过电压指示编码,控制对应指示灯显示对应的状态,实现了基于指示灯阵列,用户可以直观的基于查看指示灯的显示状态,快速定位对应的故障设备。
在一个实施例中,多个设备的电源监测信号包括所述BMC获取的设备的电源监测信号,以及所述BMC接收的所述目标服务器的复杂可编程逻辑器件CPLD获取的设备的电源监测信号。
对于目标服务器中的设备,有部分设备在目标服务器上电前需要保持通电,此部分设备的电压可以由BMC获取。对于目标服务器上电后才通电的部分设备,由CPLD获取。CPLD获取后,发送至BMC。
其中,在获取时序电压数据的过程中,BMC基于ADC总线获取,CPLD获取后,基于I2C总线发送至BMC。
本发明实施例提供的故障指示方法,通过BMC以及CPLD对各设备的时序电压数据的获取,实现了对目标服务器中各时序电压数据的收集。
在一个实施例中,控制指示灯阵列中各指示灯显示所述各设备的电压指示编码对应的亮灭状态之后,还包括:指示灯阵列模块基于所述指示灯阵列指示所述各设备的电压状态,确定所述多个设备中的故障设备。
指示灯阵列中各指示灯基于显示对应的亮灭状态,反映对应目标服务器中设备的电压状态。
在目标服务器异常的情况下,需要对目标服务器中各设备的电压进行监测,从而对目标服务器中各设备的运行状态进行确定。
可以理解的是,目标服务器异常的情况下,上电后,正常的设备电压正常,异常的设备电压处于异常值。
指示灯阵列模块基于控制对应指示灯显示对应的状态,实现了基于指示灯阵列,用户可以直观的基于查看指示灯的显示状态,快速定位对应的故障设备。
本发明实施例提供的故障指示方法,通过电压指示编码,控制对应指示灯显示对应的状态,实现了基于指示灯阵列,用户可以直观的基于查看指示灯的显示状态,快速定位对应的故障设备。
下面以一应用本发明提供的故障指示方法的装置结构示意图为例,说明本发明提供的技术方案:
如图4所示,该装置包括:目标服务器中的设备410,目标服务器中的CPLD 420,目标服务器中的BMC 430,USB转串口模块440,调试按键450,数据解析模块460以及指示灯阵列模块470。
具体的实现流程可以如图5本发明提供的故障排查执行流程示意图所示。
该装置包含目标服务器和调试板。目标服务器中包含CPLD 420,设备410以及BMC430以及USB接口。调试板包含USB接口、USB转串口模块440,调试按键450,数据解析模块460以及指示灯阵列模块470。
步骤510,在确定目标服务器出现故障的情况下,接入调试版。
步骤520,按下调试按键450,使得调试按键发送调试执行指令至数据解析模块460,并使得数据解析模块460连通USB接口之间的通道。
步骤530,调试板中的数据解析模块发送请求数据至BMC 430。
步骤540,BMC 430发送获取的各设备的时序电压数据至数据解析模块460。
其中,对于目标服务器中的设备410,有部分设备在目标服务器上电前需要保持通电,此部分设备的时序电压数据可以由BMC 430获取。对于目标服务器上电后才通电的部分设备,由CPLD 420获取。CPLD 420获取后,发送至BMC 430,实现BMC 430对各设备的时序电压数据的收集。BMC 430将多个设备的时序电压数据发送至USB转串口模块进行数据格式的转换,并将转换格式的时序电压数据发送至数据解析模块460。
步骤550,数据解析模块460对转换格式的时序电压数据进行编码,并将得到的各设备的电压指示编码。具体的将时序电压数据大于0的编码为1,将时序电压数据等于0的编码为0.
步骤560,数据解析模块460对编码进行判断。在确定电压指示编码为0的时候,驱动指示灯阵列模块470控制指示灯阵列对应指示灯显示灭状态。在确定电压指示编码为1的时候,驱动指示灯阵列模块470控制指示灯阵列对应指示灯显示亮状态。在指示灯显示灭状态的情况下,确定对应的设备异常,对目标服务器中的对应设备进行检查。
步骤570,数据解析模块460循环判断各时序电压数据,直到BMC发送的多个设备的时序电压数据判断完成。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种故障指示装置,其特征在于,所述装置包括:
数据接收模块,所述数据接收模块的第一端与目标服务器的基板管理控制器BMC连接,所述数据接收模块的第二端与数据解析模块连接,用于接收BMC发送的所述目标服务器中多个设备的时序电压数据,并将所述多个设备的时序电压数据发送至数据解析模块,所述多个设备的时序电压数据是基于所述BMC获取的多个设备的电源监测信号确定的;
数据解析模块,所述数据解析模块与指示灯阵列模块连接,用于接收所述多个设备的时序电压数据,基于各设备的时序电压数据的数值,对所述各设备的时序电压数据进行编码,得到所述各设备的电压指示编码,并将所述各设备的电压指示编码发送至所述指示灯阵列模块;
指示灯阵列模块,用于接收所述各设备的电压指示编码,并基于所述各设备的电压指示编码,控制指示灯阵列中各指示灯显示所述各设备的电压指示编码对应的亮灭状态,以使所述指示灯阵列指示所述各设备的电压状态,所述指示灯阵列中各指示灯与所述各设备一一对应。
2.根据权利要求1所述的故障指示装置,其特征在于,还包括:调试模块;
所述调试模块与所述数据解析模块连接,用于在所述目标服务器运行正常的情况下,发送调试终止指令至所述数据解析模块,使得所述数据解析模块将所述数据接收模块与所述BMC的连接断开;
在所述目标服务器故障的情况下,发送调试执行指令至所述数据解析模块,以使所述数据解析模块基于所述调试执行指令,将所述数据接收模块与所述BMC连通。
3.根据权利要求1所述的故障指示装置,其特征在于,所述数据接收模块包括第一通用串行总线USB接口、第二USB接口以及USB转串口子模块;
第一USB接口的第一端与所述BMC连接,所述第一USB接口的第二端与所述第二USB接口连接,用于接收BMC发送的所述目标服务器中多个设备的时序电压数据,并将所述多个设备的时序电压数据基于所述第一USB接口与所述第二USB接口之间的数据通道,发送至所述第二USB接口;
所述第二USB接口与所述USB转串口模块连接,用于将接收的所述第一USB接口发送的多个设备的时序电压数据发送至所述USB转串口模块;
所述USB转串口模块与所述数据解析模块连接,用于接收所述多个设备的时序电压数据,并将所述多个设备的时序电压数据的数据格式转换为串口信号的数据格式,并将转换后得到的多个设备的串口信号的数据格式的时序电压数据发送至所述数据解析模块。
4.根据权利要求1所述的故障指示装置,其特征在于,所述多个设备的电源监测信号包括所述BMC获取的设备的电源监测信号,以及所述BMC接收的所述目标服务器的复杂可编程逻辑器件CPLD获取的设备的电源监测信号。
5.一种基于如权利要求1-4中任一项所述的故障指示装置的故障指示方法,其特征在于,所述方法包括:
数据解析模块接收目标服务器中多个设备的时序电压数据,所述多个设备的时序电压数据是基于所述目标服务器的基板管理控制器BMC获取的多个设备的电源监测信号确定的;
数据解析模块基于各设备的时序电压数据的数值,对所述各设备的时序电压数据进行编码,得到所述各设备的电压指示编码,并将所述各设备的电压指示编码发送至指示灯阵列模块;
指示灯阵列模块接收所述各设备的电压指示编码,并控制指示灯阵列中各指示灯显示所述各设备的电压指示编码对应的亮灭状态,以使所述指示灯阵列指示所述各设备的电压状态,所述指示灯阵列中各指示灯与所述各设备一一对应。
6.根据权利要求5所述的故障指示方法,其特征在于,所述基于各设备的时序电压数据的数值,对所述各设备的时序电压数据进行编码,得到所述各设备的电压指示编码,包括:
所述数据解析模块确定所述各设备的时序电压数据中时序电压数据的绝对值大于预设电压阈值的电压指示编码为高电平电压编码;
所述数据解析模块确定所述各设备的时序电压数据中时序电压数据的绝对值小于等于所述预设电压阈值的电压指示编码为低电平电压编码。
7.根据权利要求6所述的故障指示方法,其特征在于,所述控制指示灯阵列中各指示灯显示所述各设备的电压指示编码对应的亮灭状态,包括:
在所述各设备中设备的电压指示编码为高电平电压编码的情况下,所述指示灯阵列模块控制所述指示灯阵列中的对应指示灯显示为亮状态;
在所述各设备中设备的电压指示编码为低电平电压编码的情况下,所述指示灯阵列模块控制所述指示灯阵列中的对应指示灯显示为灭状态。
8.根据权利要求5所述的故障指示方法,其特征在于,所述多个设备的电源监测信号包括所述BMC获取的设备的电源监测信号,以及所述BMC接收的所述目标服务器的复杂可编程逻辑器件CPLD获取的设备的电源监测信号。
9.根据权利要求5所述的故障指示方法,其特征在于,所述控制指示灯阵列中各指示灯显示所述各设备的电压指示编码对应的亮灭状态之后,还包括:
所述指示灯阵列模块基于所述指示灯阵列指示所述各设备的电压状态,确定所述多个设备中的故障设备。
10.一种服务器,其特征在于,包括基板管理控制器BMC以及应用于权利要求1-4任一项所述的故障指示装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311434357.6A CN117687876A (zh) | 2023-10-31 | 2023-10-31 | 故障指示装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311434357.6A CN117687876A (zh) | 2023-10-31 | 2023-10-31 | 故障指示装置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117687876A true CN117687876A (zh) | 2024-03-12 |
Family
ID=90130846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311434357.6A Pending CN117687876A (zh) | 2023-10-31 | 2023-10-31 | 故障指示装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117687876A (zh) |
-
2023
- 2023-10-31 CN CN202311434357.6A patent/CN117687876A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111312325B (zh) | 一种bbu故障诊断方法、装置、电子设备及存储介质 | |
IES20000160A2 (en) | A Method and system for testing microprocessor-based boards in a manufacturing environment | |
CN103970635A (zh) | 一种服务器硬件故障的自诊断方法 | |
CN103699112A (zh) | 基于io信号故障仿真的航电自检测验证设备及其验证方法 | |
CN108983110B (zh) | 一种换流阀监测设备的供电电源可靠性检测系统 | |
US11119876B2 (en) | Device and method for testing computer system | |
CN111123000A (zh) | 电子集成化单机自动化测试系统、方法及介质 | |
CN113049946B (zh) | 一种板卡测试系统 | |
CN112834898B (zh) | 一种存储设备电源芯片稳定性的测试方法、装置及设备 | |
CN203733108U (zh) | 一种基于x86主板自测试模型 | |
CN109446002B (zh) | 一种用于服务器抓取sata硬盘的治具板、系统及方法 | |
CN117687876A (zh) | 故障指示装置及方法 | |
CN109885437A (zh) | 基板管理控制器bmc、终端及上电状态诊断组件、方法 | |
TWI675293B (zh) | 主機開機檢測方法及其系統 | |
CN106649002A (zh) | 服务器及自动检修基板管理控制器的方法 | |
CN111008098A (zh) | 监测系统与方法 | |
CN114490213A (zh) | 电脑主板故障的监测诊断方法、系统、装置及存储介质 | |
CN112463479B (zh) | 一种检测vr异常掉电定位功能自动化测试方法与系统 | |
CN112732498B (zh) | 模拟设备单点上下电的测试方法、装置、设备及存储介质 | |
CN113110962A (zh) | 风扇散热性能测试方法及测试设备 | |
CN111324495B (zh) | 主机开机检测方法及其系统 | |
US11797375B2 (en) | System for debugging server startup sequence in debugging method applied in server | |
CN111896824B (zh) | 无人值守可靠性测试装置及系统 | |
CN109450491B (zh) | 一种可温度监控的电缆调制解调器系统及其实现方法 | |
CN114168396B (zh) | 一种故障定位方法及相关组件 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |