CN110445638B - 一种交换机系统故障保护方法及装置 - Google Patents
一种交换机系统故障保护方法及装置 Download PDFInfo
- Publication number
- CN110445638B CN110445638B CN201910605507.2A CN201910605507A CN110445638B CN 110445638 B CN110445638 B CN 110445638B CN 201910605507 A CN201910605507 A CN 201910605507A CN 110445638 B CN110445638 B CN 110445638B
- Authority
- CN
- China
- Prior art keywords
- fault
- switch system
- state
- register
- switch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000004044 response Effects 0.000 claims abstract description 30
- 230000002159 abnormal effect Effects 0.000 claims abstract description 25
- 238000012790 confirmation Methods 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 238000012544 monitoring process Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000005856 abnormality Effects 0.000 claims description 12
- 238000010200 validation analysis Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 208000033999 Device damage Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013024 troubleshooting Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 102100023882 Endoribonuclease ZC3H12A Human genes 0.000 description 1
- 101710112715 Endoribonuclease ZC3H12A Proteins 0.000 description 1
- 108700012361 REG2 Proteins 0.000 description 1
- 101150108637 REG2 gene Proteins 0.000 description 1
- 101100120298 Rattus norvegicus Flot1 gene Proteins 0.000 description 1
- 101100412403 Rattus norvegicus Reg3b gene Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- QGVYYLZOAMMKAH-UHFFFAOYSA-N pegnivacogin Chemical compound COCCOC(=O)NCCCCC(NC(=O)OCCOC)C(=O)NCCCCCCOP(=O)(O)O QGVYYLZOAMMKAH-UHFFFAOYSA-N 0.000 description 1
- 238000004171 remote diagnosis Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0681—Configuration of triggering conditions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/10—Packet switching elements characterised by the switching fabric construction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7867—Architectures of general purpose stored program computers comprising a single central processing unit with reconfigurable architecture
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及了一种交换机系统故障保护方法,包括基于可编程器件执行以下步骤:监测交换机系统的运行状态;响应于监测到运行状态出现异常,进行故障确认;响应于确认发生故障,通过寄存器暂存故障信息,并将故障信息反馈至BMC;执行强制保护机制,以使交换机系统进入自锁状态。通过本发明所提出的方法,实现了出现故障时,在VR响应之前采取一定的措施以保护交换机系统并记录故障信息以备后续处理。
Description
技术领域
本发明涉及交换机监控技术领域。本发明进一步涉及一种基于可编程器件与BMC的交换机系统故障保护方法及装置。
背景技术
在交换机系统中,通过CPLD/FPGA芯片控制整个交换机的上、下电时序控制、通信控制、按键检测、风扇转速控制、SFP点灯控制及串口切换等,通过BMC指示交换机状态、固件升级、远程控制及日志收集等。基于CPLD/FPGA芯片实现信号监测,同时控制整个交换机电源状态,协同BMC实现信号显示,以实现故障诊断并提示客户故障位置,以上对于实现整个交换机系统的运行安全性及故障排除具有重要意义。
CPLD/FPGA(复杂可编程逻辑器件/现场可编程门阵列)芯片是一款半定制的专用集成电路,具有灵活编程、快速响应、集成度高等系列优点,在前期开发验证及控制应用领域得到越来越广泛的应用。对于交换机而言,灵活编程是指在交换机上下电或运行过程中可以灵活加入参考信号,也可以对输入信号进行同步、延时等逻辑运算;快速响应是指CPLD/FPGA可以在系统时钟下对异常状况做出响应。在开机过程中,“响应”实际提供一种拦截机制,有利于发现问题;在运行中,“响应”实际提供一种保护机制,切断异常电源或关键信号并禁止开机动作,避免不可恢复损坏。基板管理控制器BMC同样是交换机系统的重要组成部分,独立于系统硬件,也不依赖于操作系统,因此可以与其它部件系统协同进行整个系统的平台管理,如远程诊断、控制台支持、配置管理、硬件管理和故障排除等。BMC可以通过I2C总线与CPLD/FPGA进行通信,以获得CPLD/FPGA版本信息、板卡信息、CPU型号、内存信息等。
在已有控制策略中,在电源指示信号发生异常,CPLD/FPGA不会采取任何措施或记录错误,而是等待电压调节器VR响应异常,在VR响应之后才会采取进一步的措施。但是VR自我保护时间基本是ms级别,这段时间可能会导致器件烧毁等严重事故。另一方面在交换机系统因一些关键信号发生异常而发生重启的动作,CPLD/FPGA也不会有任何记录,不利于问题追踪与系统优化。与此同时,由于CPLD/FPGA没有记录错误信息,BMC也没法提示错误信息,这同样不利于故障的分析。
因此,需要提出一种解决现有技术中存在的上述问题,当出现故障时,在VR响应之前就采取一定的措施以保护交换机系统并记录故障信息的方案。
发明内容
一方面,本发明基于上述目的提出了一种交换机系统故障保护方法,包括基于可编程器件执行以下步骤:
监测交换机系统的运行状态;
响应于监测到运行状态出现异常,进行故障确认;
响应于确认发生故障,通过寄存器暂存故障信息,并将故障信息反馈至BMC;
执行强制保护机制,以使交换机系统进入自锁状态。
根据本发明的交换机系统故障保护方法的实施例,其中故障确认的持续时间及强制保护机制的响应时间之和设置为小于电压调节器的异常响应时间。
根据本发明的交换机系统故障保护方法的实施例,其中可编程器件包括复杂可编程逻辑器件/现场可编程门阵列CPLD/FPGA芯片。
根据本发明的交换机系统故障保护方法的实施例,其中运行状态包括电源状态、中央处理器CPU状态、平台控制单元PCH状态中的至少一种。
根据本发明的交换机系统故障保护方法的实施例,其中故障确认进一步包括:在监测到运行状态出现异常之后,等待一定时间,如果异常保持,则确认发生故障。
根据本发明的交换机系统故障保护方法的实施例,其中寄存器配置为:在交换机正常运行时,寄存器的指定字节寄存表示正常运行的信号;响应于确认发生故障,寄存器的该指定字节寄存表示存在故障的信号。
根据本发明的交换机系统故障保护方法的实施例,其中强制保护机制包括:通过可编程器件控制交换机系统的初始电源信号无效,使得交换机系统的其它电源随着初始电源信号的无效而逐渐减小至关断。
另一方面,本发明还提出了一种用于交换机系统故障保护的装置,包括:
至少一个处理器;和
存储器,该存储器存储有处理器可运行的程序代码,该程序代码在被处理器运行时执行以下步骤:
监测交换机系统的运行状态;
响应于监测到运行状态出现异常,进行故障确认;
响应于确认发生故障,通过寄存器暂存故障信息,并将故障信息反馈至BMC;
执行强制保护机制,以使交换机系统进入自锁状态。
根据本发明的用于交换机系统故障保护的装置,其中强制保护机制包括:控制交换机系统的初始电源信号无效,使得交换机系统的其它电源随着初始电源信号的无效而逐渐减小至关断。
根据本发明的用于交换机系统故障保护的装置,所述寄存器配置为在交换机正常运行时,寄存器的指定字节寄存表示正常运行的信号;响应于确认发生故障,寄存器的该指定字节寄存表示存在故障的信号。
采用上述技术方案,本发明至少具有如下有益效果:基于本发明所提出的技术方案,在交换机正常运行时,CPLD/FPGA会监测电源信号和关键信号的状态,一旦发生异常,会首先进行错误确认,当确认发生异常时,会记录错误信息;之后CPLD/FPGA会控制交换机系统进入断电的强制保护状态,与此同时,会将错误信息发送给BMC以备后续使用。在上述方案中,发生异常后确认是否确实发生故障的判断环节,防止了有干扰、误判断等原因而导致CPLD/FPGA的误操作;当确实异常时,CPLD/FPGA在常规的电压调节器VR异常响应之前将交换机系统的电源立即切断,从而引起交换机系统关机,保护了交换机电压调节器VR等器件,防止器件烧毁等恶劣情况发生;CPLD/FPGA暂存错误信息,并发送给BMC,便于后续对故障问题的处理和分析,避免后期无法追溯问题来源;当发生故障时,BMC下将无法远程开机,防止了用户在故障没有排除时误操作或尝试开机造成器件损坏。此外,利用本发明的方法进行交换机系统故障保护,增加了交换机系统的安全保护能力,避免了由于“假”故障的强制保护,也避免了由于“真”故障对器件可能造成不可恢复的损坏,在避免可能造成的不可恢复损坏的同时,不会显著增加CPLD/FPGA硬件资源的使用量,也不会带来IO引脚的增加,因此不会增加硬件成本也不会导致器件选型的变化,同时也不会显著增加BMC逻辑复杂度,方便保护、调试与故障定位。
本发明提供了实施例的各方面,不应当用于限制本发明的保护范围。根据在此描述的技术可设想到其它实施方式,这对于本领域普通技术人员来说在研究以下附图和具体实施方式后将是显而易见的,并且这些实施方式意图被包含在本申请的范围内。
下面参考附图更详细地解释和描述了本发明的实施例,但它们不应理解为对于本发明的限制。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对现有技术和实施例描述中所需要使用的附图作简单地介绍,附图中的部件不一定按比例绘制,并且可以省略相关的元件,或者在一些情况下比例可能已经被放大,以便强调和清楚地示出本文描述的新颖特征。另外,如本领域中已知的,结构步骤可以被不同地布置。
在图中:
图1示出了根据本发明的交换机系统故障保护方法的实施例的示意性框图;
图2示出了根据本发明的寄存器切换电路的实施例的示意图;
图3示出了根据本发明的交换机系统故障保护方法的实施例的示意性流程图。
具体实施方式
虽然本发明可以以各种形式实施,但是在附图中示出并且在下文中将描述一些示例性和非限制性实施例,但应该理解的是,本公开将被认为是本发明的示例并不意图将本发明限制于所说明的具体实施例。
图1示出了根据本发明的交换机系统故障保护方法的实施例的示意性框图。如图所示,该方法的实施例至少包括基于可编程器件执行以下步骤:
S1:监测交换机系统的运行状态;
S2:响应于监测到运行状态出现异常,进行故障确认;
S3:响应于确认发生故障,通过寄存器暂存故障信息,并将故障信息反馈至BMC;
S4:执行强制保护机制,以使交换机系统进入自锁状态。
步骤S1基于可编程器件在交换机运行期间实时监测系统的运行状态。在一些实施例中,通过监测电源指示信号和关键信号的状态来监测系统的运行状态。电源指示信号包括Main主电源信号与STBY备用电源信号两部分。所谓的关键信号,是指交换机系统中较为重要的关键部件的运行状态指示信号,例如中央处理器CPU状态指示信号、平台控制单元PCH状态指示信号、供电单元PSU状态指示信号等。以电源指示信号为例,该指示信号由电压调节器VR提供,当VR正常工作时,电源指示信号PWRGD会处于高电平;当VR工作异常时,该电源指示信号PWRGD会处于低电平。也就是说,可编程器件通过各个指示信号的电平状态来监测交换机系统的运行状态。
响应于步骤S1中监测到运行状态出现异常,步骤S2执行故障确认。这一判断机制主要为了防止CPLD/FPGA误判断或系统自恢复后CPLD/FPGA强制保护。
随后,进行步骤S3响应于确认发生故障,通过寄存器暂存故障信息,并将故障信息反馈至BMC。此时,寄存器起到了传递故障信息的作用。当确认系统确实出现故障时,比如VR短路故障等,通过寄存器记录当前电源指示信号和关键信号的状态。随后BMC与CPLD/FPGA可以通过I2C进行通信,将寄存器寄存的信息发送给BMC,以备由BMC对故障信息进行后续处理。通过以上方式能够避免在系统强制保护后信息丢失。另外,BMC会例如在诊断界面显示错误信息,同时发送错误信息到指定邮箱,用户或维修人员会根据错误提示重点检查某些信号。同时,BMC会禁止远程开机,提示必须首先排除故障。
执行完步骤S3后,方法进行到步骤S4执行强制保护机制,以使交换机系统进入自锁状态。此时,交换机系统关机且状态锁定,不再响应电源按键,只有重新插拔电源线及排除故障后才能正常开机,防止用户重复尝试开机对器件造成再次伤害。这一措施既降低了由于故障可能造成的器件损坏问题,排除故障前禁止所有形式的开机动作,增加了安全系数。
在本发明的交换机系统故障保护方法的一些实施例中,故障确认的持续时间及强制保护机制的响应时间之和设置为小于电压调节器的异常响应时间。也就是说,本发明的方法旨在但不限于当交换机系统发生异常后,在等待VR响应期间(基本是ms级别),确认发生故障并立刻对交换机系统进行断电保护,避免出现在VR响应之前可能发生的由于故障导致器件烧毁等严重事故的情况。
在本发明的交换机系统故障保护方法的实施例中,可编程器件包括复杂可编程逻辑器件/现场可编程门阵列CPLD/FPGA芯片。CPLD/FPGA是一款半定制的专用集成电路,具有灵活编程、快速响应、集成度高等系列优点,在前期开发验证及控制应用领域得到越来越广泛的应用。对于交换机而言,灵活编程是指在交换机上下电或运行过程中可以灵活加入参考信号,也可以对输入信号进行同步、延时等逻辑运算;快速响应是指CPLD/FPGA可以在系统时钟下对异常状况做出响应,并将错误信息传递给BMC。根据本发明的方法,对CPLD/FPGA芯片附加了进一步的功能,使得其可以在VR响应系统异常之前就对异常情况进行判断,并在确认发生故障的情况下,立即对交换机系统进行保护。
在本发明的交换机系统故障保护方法的一个或多个实施例中,运行状态包括电源状态、中央处理器CPU状态、平台控制单元PCH状态中的至少一种。即,可编程器件优选监测电源状态、中央处理器CPU状态、平台控制单元PCH状态中的至少一种。
在本发明的交换机系统故障保护方法的若干实施例中,故障确认进一步包括:在监测到运行状态出现异常之后,等待一定时间,如果异常保持,则确认发生故障。具体地说,步骤S2中执行的故障确认具体可以包括在监测到系统运行异常的情况下,等待一段时间,如果在这段时间内持续出现异常情况或异常情况保持不变,则认为系统确实出现故障,方法推进至下一步骤。在此所涉及的一定时间是可以根据对系统的响应速度、器件精度、器件载荷能力等主观需求或客观要求进行相应的配置。在优选实施例中,故障确认机制的持续时间小于VR的异常响应时间。
在本发明的交换机系统故障保护方法的若干实施例中,寄存器配置为:在交换机正常运行时,寄存器的指定字节寄存表示正常运行的信号;响应于确认发生故障,寄存器的该指定字节寄存表示存在故障的信号。为降低BMC读取信息时间压力与寄存器资源,寄存器信号采用切换电路的方式进行处理。将正常运行的状态信号及出现故障的状态信号赋值给同一寄存器,采用标志位Err_Flag进行切换。对于寄存电信号状态首先增加Err_Flag信号,指示交换机运行状态,基于Err_Flag选择寄存传递的信号:当Err_Flag=0时,寄存并传递正常开机和正常运行的电状态及关键信号状态,当Err_Flag=1时,寄存并传递故障时的电状态及关键信号状态。图2示出了根据本发明的寄存器切换电路的实施例的示意图。如图2所示,该切换电路中REG指寄存器,MUX指选择器,REG1对异常电信号状态进行寄存。在出现故障时,CPLD/FPGA需要及时关断故障电源和/或初始电源,为防止故障信号丢失,需要在CPLD/FPGA时钟驱动下寄存故障信号状态。故障信号和正常信号通过MUX选择器选择后得到待显示的信号,其中选择的标准是Err_Flag的电平状态。待显示的信号通过REG2寄存器寄存,当BMC发送I2C_SCK时钟信号时,将该信号传递给BMC。其它信号选择方式相同。
此外,寄存器需要按照一定格式存储信息,CPLD/FPGA与BMC必须采用统一格式传递信息。同时,统一格式也便于所有项目统一,降低工作量。寄存器中除了传递电源指示信号和关键信号状态外,还传递版本信息、板卡信息、系统配置信号、芯片指示信号、使能信号、状态信号等。
在本发明的交换机系统故障保护方法的一些实施例中,强制保护机制包括通过可编程器件控制交换机系统的初始电源信号无效,使得交换机系统的其它电源随着初始电源信号的无效而逐渐减小至关断。具体地说,步骤S4进一步执行通过可编程器件控制初始电源的Enable信号无效,从而使得其它电源会随着初始电源的无效而逐渐减小至关断。由此,无论故障发生在电源还是在其它器件,由于所有电源信号均被切断,因此不会继续造成更进一步的损坏,同时避免了由于瞬间关断所有电源造成的日志保存等问题。此外,一旦交换机进入强制保护,在故障排除以前,交换机禁止一切尝试重启的行为。只有在维护人员排除了故障、手动插拔电源之后才允许重新开机,避免对交换机系统中各器件造成二次损伤。
另一方面,本发明还提出了一种用于交换机系统故障保护的装置,包括:至少一个处理器;和存储器,该程序代码在被处理器运行时执行以下步骤:
S1:监测交换机系统的运行状态;
S2:响应于监测到运行状态出现异常,进行故障确认;
S3:响应于确认发生故障,通过寄存器暂存故障信息,并将故障信息反馈至BMC;
S4:执行强制保护机制,以使交换机系统进入自锁状态。
在本发明的用于交换机系统故障保护的装置的一些实施例中,强制保护机制包括控制交换机系统的初始电源信号无效,使得交换机系统的其它电源随着初始电源信号的无效而逐渐减小至关断。
在本发明的用于交换机系统故障保护的装置的若干实施例中,所述寄存器配置为在交换机正常运行时,寄存器的指定字节寄存表示正常运行的信号;响应于确认发生故障,寄存器的该指定字节寄存表示存在故障的信号。
图3示出了根据本发明的交换机系统故障保护方法的实施例的示意性流程图。如图3所示,本发明的交换机系统故障保护方法的实施例在交换机运行过程中,实时监测电源指示信号与关键信号。当检测到异常时,会确认信号异常的有效性,当在一段时间恒定发生异常时,确认系统出现故障。随后,记录当前错误信息,BMC会通过I2C读取错误信息、显示错误位置及信息并将错误信息发送到指定邮箱以提醒用户,当用户尝试远程开机时,会禁止开机并提醒存在故障。同时,为避免可能造成的不可恢复损坏,交换机系统会进入强制保护进程。此时,交换机自锁,禁止交换机系统开机,等待故障的排除。维修人员根据错误提示排除故障后才允许重新开机。
本文所述的可读存储介质(例如存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
此外,本发明所提出的交换机故障保护方法除了可以应用于交换机设计领域外,对服务器等需要保护和提示的领域都具有借鉴意义。
采用上述技术方案,本发明至少具有如下有益效果:基于本发明所提出的技术方案,在交换机正常运行时,CPLD/FPGA会监测电源信号和关键信号的状态,一旦发生异常,会首先进行错误确认,当确认发生异常时,会记录错误信息;之后CPLD/FPGA会控制交换机系统进入断电的强制保护状态,与此同时,会将错误信息发送给BMC以备后续使用。在上述方案中,发生异常后确认是否确实发生故障的判断环节,防止了有干扰、误判断等原因而导致CPLD/FPGA的误操作;当确实异常时,CPLD/FPGA在常规的电压调节器VR异常响应之前将交换机系统的电源立即切断,从而引起交换机系统关机,保护了交换机电压调节器VR等器件,防止器件烧毁等恶劣情况发生;CPLD/FPGA暂存错误信息,并发送给BMC,便于后续对故障问题的处理和分析,避免后期无法追溯问题来源;当发生故障时,BMC下将无法远程开机,防止了用户在故障没有排除时误操作或尝试开机造成器件损坏。此外,利用本发明的方法进行交换机系统故障保护,增加了交换机系统的安全保护能力,避免了由于“假”故障的强制保护,也避免了由于“真”故障对器件可能造成不可恢复的损坏,在避免可能造成的不可恢复损坏的同时,不会显著增加CPLD/FPGA硬件资源的使用量,也不会带来IO引脚的增加,因此不会增加硬件成本也不会导致器件选型的变化,同时也不会显著增加BMC逻辑复杂度,方便保护、调试与故障定位。
应当理解的是,在技术上可行的情况下,以上针对不同实施例所列举的技术特征可以相互组合,从而形成本发明范围内的另外实施例。此外,本文所述的特定示例和实施例是非限制性的,并且可以对以上所阐述的结构、步骤、顺序做出相应修改而不脱离本发明的保护范围。
在本申请中,反意连接词的使用旨在包括连接词。定或不定冠词的使用并不旨在指示基数。具体而言,对“该”对象或“一”和“一个”对象的引用旨在表示多个这样对象中可能的一个。然而,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。此外,可以使用连接词“或”来传达同时存在的特征,而不是互斥方案。换句话说,连接词“或”应理解为包括“和/或”。术语“包括”是包容性的并且具有与“包含”相同的范围。
上述实施例,特别是任何“优选”实施例是实施方式的可能示例,并且仅仅为了清楚理解本发明的原理而提出。在基本上不脱离本文描述的技术的精神和原理的情况下,可以对上述实施例做出许多变化和修改。所有修改旨在被包括在本公开的范围内。
Claims (8)
1.一种交换机系统故障保护方法,其特征在于,所述方法包括基于可编程器件执行以下步骤:
监测交换机系统的运行状态;
响应于监测到所述运行状态出现异常,进行故障确认;
响应于确认发生故障,通过寄存器暂存故障信息并将所述故障信息反馈至BMC;
执行强制保护机制,以使所述交换机系统进入自锁状态;
其中,所述故障确认的持续时间及所述强制保护机制的响应时间之和设置为小于电压调节器的异常响应时间;
所述强制保护机制包括:通过所述可编程器件控制所述交换机系统的初始电源信号无效,使得所述交换机系统的其它电源随着所述初始电源信号的无效而逐渐减小至关断。
2.根据权利要求1所述的交换机系统故障保护方法,其特征在于,所述可编程器件包括复杂可编程逻辑器件/现场可编程门阵列CPLD/FPGA芯片。
3.根据权利要求1所述的交换机系统故障保护方法,其特征在于,所述运行状态包括电源状态、中央处理器CPU状态、平台控制单元PCH状态中的至少一种。
4.根据权利要求1所述的交换机系统故障保护方法,其特征在于,所述故障确认进一步包括:
在监测到所述运行状态出现异常之后,等待一定时间,如果所述异常保持,则确认发生故障。
5.根据权利要求1所述的交换机系统故障保护方法,其特征在于,所述寄存器配置为:在交换机正常运行时,所述寄存器的指定字节寄存表示正常运行的信号;响应于确认发生故障,所述寄存器的所述指定字节寄存表示存在故障的信号。
6.一种用于交换机系统故障保护的装置,其特征在于,所述装置包括:
至少一个处理器;和
存储器,所述存储器存储有处理器可运行的程序代码,所述程序代码在被处理器运行时执行以下步骤:
监测交换机系统的运行状态;
响应于监测到所述运行状态出现异常,进行故障确认;
响应于确认发生故障,通过寄存器暂存故障信息并将所述故障信息反馈至BMC;
执行强制保护机制,以使所述交换机系统进入自锁状态;
其中,所述故障确认的持续时间及所述强制保护机制的响应时间之和设置为小于电压调节器的异常响应时间;
所述强制保护机制包括:通过可编程器件控制所述交换机系统的初始电源信号无效,使得所述交换机系统的其它电源随着所述初始电源信号的无效而逐渐减小至关断。
7.根据权利要求6所述的装置,其特征在于,所述强制保护机制包括:控制所述交换机系统的初始电源信号无效,使得所述交换机系统的其它电源随着所述初始电源信号的无效而逐渐减小至关断。
8.根据权利要求6所述的装置,其特征在于,所述寄存器配置为:在交换机正常运行时,所述寄存器的指定字节寄存表示正常运行的信号;响应于确认发生故障,所述寄存器的所述指定字节寄存表示存在故障的信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910605507.2A CN110445638B (zh) | 2019-07-05 | 2019-07-05 | 一种交换机系统故障保护方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910605507.2A CN110445638B (zh) | 2019-07-05 | 2019-07-05 | 一种交换机系统故障保护方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110445638A CN110445638A (zh) | 2019-11-12 |
CN110445638B true CN110445638B (zh) | 2022-12-27 |
Family
ID=68429221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910605507.2A Active CN110445638B (zh) | 2019-07-05 | 2019-07-05 | 一种交换机系统故障保护方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110445638B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112019455B (zh) * | 2020-07-17 | 2022-05-10 | 苏州浪潮智能科技有限公司 | 一种基于可编程逻辑器件的交换机监控装置及方法 |
CN112134752B (zh) | 2020-09-10 | 2022-05-13 | 苏州浪潮智能科技有限公司 | 一种基于bmc监控交换机的方法、系统、设备及介质 |
CN112148515B (zh) * | 2020-09-16 | 2023-06-20 | 锐捷网络股份有限公司 | 一种故障定位方法、系统、装置、介质和设备 |
CN113821390B (zh) * | 2021-08-30 | 2024-08-27 | 曙光信息产业股份有限公司 | 交换机调试方法和装置、服务器、计算机可读存储介质 |
CN115883266A (zh) * | 2022-12-09 | 2023-03-31 | 苏州浪潮智能科技有限公司 | 一种交换机的电压调节方法、系统、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708234A (zh) * | 2016-12-28 | 2017-05-24 | 郑州云海信息技术有限公司 | 一种基于cpld的系统电源状态监控方法及装置 |
CN107402834A (zh) * | 2017-06-20 | 2017-11-28 | 公牛集团有限公司 | 一种嵌入式系统上电启动自检方法和装置 |
CN108121632A (zh) * | 2016-11-30 | 2018-06-05 | 中兴通讯股份有限公司 | 一种单板电源的保护方法及装置 |
CN109408339A (zh) * | 2018-11-05 | 2019-03-01 | 郑州云海信息技术有限公司 | 一种cpld/fpga寄存器控制方法和系统 |
CN109408272A (zh) * | 2018-11-06 | 2019-03-01 | 郑州云海信息技术有限公司 | 一种存储故障处理方法与装置 |
CN109783262A (zh) * | 2018-12-24 | 2019-05-21 | 新华三技术有限公司 | 故障数据处理方法、装置、服务器及计算机可读存储介质 |
-
2019
- 2019-07-05 CN CN201910605507.2A patent/CN110445638B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108121632A (zh) * | 2016-11-30 | 2018-06-05 | 中兴通讯股份有限公司 | 一种单板电源的保护方法及装置 |
CN106708234A (zh) * | 2016-12-28 | 2017-05-24 | 郑州云海信息技术有限公司 | 一种基于cpld的系统电源状态监控方法及装置 |
CN107402834A (zh) * | 2017-06-20 | 2017-11-28 | 公牛集团有限公司 | 一种嵌入式系统上电启动自检方法和装置 |
CN109408339A (zh) * | 2018-11-05 | 2019-03-01 | 郑州云海信息技术有限公司 | 一种cpld/fpga寄存器控制方法和系统 |
CN109408272A (zh) * | 2018-11-06 | 2019-03-01 | 郑州云海信息技术有限公司 | 一种存储故障处理方法与装置 |
CN109783262A (zh) * | 2018-12-24 | 2019-05-21 | 新华三技术有限公司 | 故障数据处理方法、装置、服务器及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110445638A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110445638B (zh) | 一种交换机系统故障保护方法及装置 | |
CN113064747B (zh) | 一种服务器启动过程中的故障定位方法、系统及装置 | |
US20170149925A1 (en) | Processing cache data | |
CN111324192A (zh) | 一种系统板卡电源检测方法、装置、设备及存储介质 | |
CN106776282A (zh) | 一种bios程序的异常处理方法及装置 | |
CN117251333A (zh) | 一种硬盘信息获取方法、装置、设备及存储介质 | |
CN114116280A (zh) | 交互式bmc自恢复方法、系统、终端及存储介质 | |
CN105426263B (zh) | 一种实现金库系统安全运行的方法及系统 | |
CN114816022B (zh) | 一种服务器电源异常监控方法、系统及存储介质 | |
JP4886558B2 (ja) | 情報処理装置 | |
CN113672306B (zh) | 服务器组件自检异常恢复方法、装置、系统及介质 | |
CN115728665A (zh) | 一种电源故障检测电路、方法及系统 | |
CN115795568A (zh) | 一种液冷服务器漏液保护方法、装置、设备及存储介质 | |
JPH10307635A (ja) | コンピュータシステム及び同システムに適用する温度監視方法 | |
US11726853B2 (en) | Electronic control device | |
EP3779699A1 (en) | Method for checking program execution of a microcontroller, external device, system and non-transitory computer readable medium | |
CN113204767A (zh) | 一种bmc启动方法、装置、设备及可读存储介质 | |
JP2007233667A (ja) | 障害検出方式 | |
CN112084085B (zh) | 系统断电记录方法 | |
CN112380083B (zh) | 一种bmc主备切换稳定性测试方法和系统 | |
CN116340957B (zh) | 程序启动方法、装置、服务器及非易失性存储介质 | |
CN108415788B (zh) | 用于对无响应处理电路作出响应的数据处理设备和方法 | |
CN118733401A (zh) | 控制器的故障数据保存方法、装置、电子设备及存储介质 | |
JP3480881B2 (ja) | 遠隔監視装置 | |
JP5011159B2 (ja) | システム監視回路を備えた計算機 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |