CN109947585A - Pcie设备故障的处理方法及装置 - Google Patents
Pcie设备故障的处理方法及装置 Download PDFInfo
- Publication number
- CN109947585A CN109947585A CN201910189754.9A CN201910189754A CN109947585A CN 109947585 A CN109947585 A CN 109947585A CN 201910189754 A CN201910189754 A CN 201910189754A CN 109947585 A CN109947585 A CN 109947585A
- Authority
- CN
- China
- Prior art keywords
- pcie device
- failure
- fault
- fault message
- pcie
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 57
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000007726 management method Methods 0.000 claims abstract description 93
- 238000013024 troubleshooting Methods 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000012544 monitoring process Methods 0.000 claims abstract description 24
- 230000015654 memory Effects 0.000 claims description 33
- 230000008439 repair process Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 21
- 230000004888 barrier function Effects 0.000 claims description 4
- 230000001960 triggered effect Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 230000011664 signaling Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 description 1
- 241001290266 Sciaenops ocellatus Species 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种PCIE设备故障的处理方法及装置,该方法包括:通过嵌入式系统对PCIE设备进行监测,在监测到PCIE设备发生故障时,则触发中断信号;根据中断信号,采集PCIE设备故障信息;并向带外管理系统发送PCIE设备故障信息;带外管理系统对PCIE设备故障信息进行解析,得到解析结果;根据解析结果,生成故障处理方案。本发明提供的PCIE设备故障的处理方法及装置,不仅可以节省故障处理的时间和人力,而且还可以提高PCIE设备故障处理的效率。
Description
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种PCIE设备故障的处理方法及装置。
背景技术
随着大数据和云计算的发展,服务器需求量在不断增加,同时对服务器的可靠性、可用性及可维护性的要求也越来越高。
现有技术中,高速串行计算机扩展总线标准(Peripheral ComponentInterconnect Express,PCIE)设备应用在计算机或服务器中,PCIE设备从常见的网卡、显卡及磁盘阵列(Redundant Arrays of Independent Disks,RAID)卡,已经逐步扩展为图形处理器(Graphics Processing Unit,GPU)卡、即现场可编程门阵列(Field-ProgrammableGate Array,FPGA)卡、张量处理单元(Tensor Processing Unit,TPU)卡等多种人工智能加速卡,人工智能加速卡越来越受用户的青睐,需求量也越来越大。通常情况下,在PCIE设备发生故障时,需要管理员对PCIE设备收集大量的相关信息,并根据收集的相关信息,通过与存储有PCIE设备的故障原因及故障处理方案的故障库进行逐个比对,获知故障的原因和故障的处理方案,管理员进一步对发生故障的PCIE设备做相关处理。
由于现有技术中对PCIE设备故障的处理,需要管理员收集大量的PCIE设备的故障信息,并与故障库进行比对,进而对发生故障的PCIE设备进行修复,因此,这种故障处理方式既耗时又耗力,故障处理效率较低。
发明内容
为解决现有技术中存在的问题,本发明提供一种PCIE设备故障的处理方法及装置,不仅可以节省故障处理的时间和人力,而且还可以提高PCIE设备故障处理的效率。
第一方面,本发明实施例提供一种PCIE设备故障的处理方法,应用于带外管理系统,所述方法包括:
接收计算主系统通过嵌入式系统发送的高速串行计算机扩展总线标准PCIE设备故障信息;
对所述PCIE设备故障信息进行解析,得到解析结果;
根据所述解析结果,生成故障处理方案。
可选的,所述解析结果包括PCIE设备故障类型、PCIE设备故障来源和PCIE设备故障原因中的至少一个。
可选的,所述根据所述解析结果,生成故障处理方案,包括:
根据所述解析结果,确定所述PCIE设备故障信息所属的故障类型,所述故障类型包括可修复故障类型、不可修复故障且故障等级小于预设等级类型或不可修复故障且故障等级大于或等于所述预设等级类型;
根据所述故障类型,生成所述故障处理方案。
可选的,所述根据所述故障类型,生成所述故障处理方案,包括:
若所述故障类型为可修复故障类型,则生成第一故障处理方案,所述第一故障处理方案包括向所述计算主系统的嵌入式系统发送第一指示信息,并将所述PCIE设备故障信息和所述故障类型上报给用户,所述第一指示信息用于指示所述嵌入式系统对所述PCIE设备故障信息对应的PCIE设备故障进行修复;或者,
若所述故障类型为不可修复故障且故障等级小于预设等级类型,则生成第二故障处理方案,所述第二故障处理方案包括将所述PCIE设备故障信息和所述故障类型上报给用户;或者,
若所述故障类型为不可修复故障且故障等级大于或等于所述预设等级类型,则生成第三故障处理方案,所述第三故障处理方案包括向所述计算主系统的嵌入式系统发送第二指示信息,并将所述PCIE设备故障信息和所述故障类型上报给用户,所述第二指示信息用于指示所述嵌入式系统关闭设备链路。
可选的,所述方法还包括:
接收下载指令;
根据所述下载指令,向终端设备发送所述PCIE设备故障信息和所述故障处理方案。
第二方面,本发明实施例提供一种PCIE设备故障的处理方法,应用于计算主系统,所述计算主系统包括嵌入式系统,所述方法包括:
通过所述嵌入式系统对PCIE设备进行监测;
在监测到所述PCIE设备发生故障时,则触发中断信号;
根据所述中断信号,采集PCIE设备故障信息;
向带外管理系统发送所述PCIE设备故障信息。
可选的,所述方法还包括:
接收所述带外管理系统发送的第一指示信息;
根据所述第一指示信息,通过所述嵌入式系统对所述PCIE设备故障信息对应的PCIE设备故障进行修复。
可选的,所述方法还包括:
接收所述带外管理系统发送的第二指示信息;
根据所述第二指示信息,通过所述嵌入式系统关闭设备链路。
第三方面,本发明实施例提供一种带外管理系统,包括:
接收模块,用于接收计算主系统通过嵌入式系统发送的高速串行计算机扩展总线标准PCIE设备故障信息;
解析模块,用于对所述PCIE设备故障信息进行解析,得到解析结果;
生成模块,用于根据所述解析结果,生成故障处理方案。
可选的,所述解析结果包括PCIE设备故障类型、PCIE设备故障来源和PCIE设备故障原因中的至少一个。
可选的,所述生成模块,具体用于:
根据所述解析结果,确定所述PCIE设备故障信息所属的故障类型,所述故障类型包括可修复故障类型、不可修复故障且故障等级小于预设等级类型或不可修复故障且故障等级大于或等于所述预设等级类型;
根据所述故障类型,生成所述故障处理方案。
可选的,所述生成模块具体用于:
若所述故障类型为可修复故障类型,则生成第一故障处理方案,所述第一故障处理方案包括向所述计算主系统的嵌入式系统发送第一指示信息,并将所述PCIE设备故障信息和所述故障类型上报给用户,所述第一指示信息用于指示所述嵌入式系统对所述PCIE设备故障信息对应的PCIE设备故障进行修复;或者,
若所述故障类型为不可修复故障且故障等级小于预设等级类型,则生成第二故障处理方案,所述第二故障处理方案包括将所述PCIE设备故障信息和所述故障类型上报给用户;或者,
若所述故障类型为不可修复故障且故障等级大于或等于所述预设等级类型,则生成第三故障处理方案,所述第三故障处理方案包括向所述计算主系统的嵌入式系统发送第二指示信息,并将所述PCIE设备故障信息和所述故障类型上报给用户,所述第二指示信息用于指示所述嵌入式系统关闭设备链路。
可选的,所述装置还包括:发送模块,其中,
所述接收模块,还用于接收下载指令;
所述发送模块,用于根据所述接收模块接收到的所述下载指令,向终端设备发送所述PCIE设备故障信息和所述故障处理方案。
第四方面,本发明实施例提供一种计算主系统,包括:
监测模块,用于通过所述嵌入式系统对PCIE设备进行监测;
触发模块,用于在所述监测模块监测到所述PCIE设备发生故障时,则触发中断信号;
采集模块,用于根据所述中断信号,采集PCIE设备故障信息;
发送模块,用于向带外管理系统发送所述PCIE设备故障信息。
可选的,所述装置还包括:接收模块和修复模块,其中,
所述接收模块,用于接收所述带外管理系统发送的第一指示信息;
所述修复模块,用于根据所述接收模块接收到的所述第一指示信息,通过所述嵌入式系统对所述PCIE设备故障信息对应的PCIE设备故障进行修复。
可选的,所述装置还包括:关闭模块,其中,
所述接收模块,还用于接收所述带外管理系统发送的第二指示信息;
所述关闭模块,用于根据所述接收模块接收到所述第二指示信息,通过所述嵌入式系统关闭设备链路。
第五方面,本发明实施例提供一种带外管理系统,包括:
处理器;
存储器,用于存储所述处理器的计算机程序;以及,
其中,所述处理器被配置为通过执行所述计算机程序来执行上述第一方面所述的PCIE设备故障的处理方法。
第六方面,本发明实施例提供一种计算主系统,包括:
处理器;
存储器,用于存储所述处理器的计算机程序;以及,
其中,所述处理器被配置为通过执行所述计算机程序来执行上述第二方面所述的PCIE设备故障的处理方法。
第七方面,本发明实施例提供一种PCIE设备故障的处理系统,包括第三方面所述的带外管理系统和第四方面所述的计算主系统。
第八方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的PCIE设备故障的处理方法。
第九方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第二方面所述的PCIE设备故障的处理方法。
本发明提供的PCIE设备故障的处理方法及装置,通过嵌入式系统对PCIE设备进行监测,当监测到PCIE设备发生故障时,嵌入式系统将会触发中断信号;根据中断信号,嵌入式系统采集PCIE设备故障信息,并向带外管理系统发送PCIE设备故障信息;带外管理系统对PCIE设备故障信息进行解析,从而得到解析结果;根据解析结果,带外管理系统将会生成故障处理方案。由于在监测到PCIE设备发生故障时,嵌入式系统会根据中断信号采集PCIE设备的故障信息,实现采集故障信息的过程。另外,在带外管理系统接收到PCIE设备故障信息后,将会对PCIE设备故障信息进行解析,并生成PCIE设备故障处理方案,不仅可以节省故障处理的时间和人力,而且还可以提高对PCIE设备故障处理的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种可能的应用场景示意图。
图2是本发明根据一示例性实施例示出的一种PCIE设备故障的处理方法的信令交互图。
图3是本发明根据又一示例性实施例示出的一种PCIE设备故障的处理方法的信令交互图。
图4是本发明根据一示例性实施例示出的一种PCIE设备故障的处理装置的框图。
图5是本发明根据又一示例性实施例示出的一种PCIE设备故障的处理装置的框图。
图6是本发明根据另一示例性实施例示出的一种PCIE设备故障的处理装置的框图。
图7是本发明根据再一示例性实施例示出的一种PCIE设备故障的处理装置的框图。
图8是本发明根据再一示例性实施例示出的一种PCIE设备故障的处理装置的框图。
图9是本发明根据一示例性实施例示出的一种PCIE设备故障的处理系统的结构示意图。
图10A示出了本发明计算主系统的一种可能的结构示意图。
图10B示出了本发明计算主系统的另一种可能的结构示意图。
图11A示出了本发明带外管理系统的一种可能的结构示意图。
图11B示出了本发明带外管理系统的另一种可能的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供的PCIE设备故障的处理方法,可以应用于通过结合带外管理系统和计算主系统中的嵌入式系统,嵌入式系统监测PCIE设备的运行状态,在监测到PCIE设备发生故障时,带外管理系统对PCIE设备的故障进行解析,并提供故障处理方案的场景中。图1是本发明提供的一种可能的应用场景示意图,如图1所示,在本实施例中,计算主系统100通过与带外管理系统200电连接,计算主系统100中的嵌入式系统对PCIE设备进行监测,当监测到PCIE设备发生故障时,计算主系统100通过嵌入式系统将会触发中断信号,根据中断信号,计算主系统100中的嵌入式系统采集PCIE设备故障信息,计算主系统100通过嵌入式系统向带外管理系统200发送PCIE设备故障信息。带外管理系统200对PCIE设备故障信息进行解析,从而得到解析结果,根据解析结果,带外管理系统200生成故障处理方案。另外,在该应用场景中,带外管理系统200可以与一个计算主机系统100电连接,也可以与多个计算主系统100电连接,用于解析PCIE设备的故障,并根据解析结果生成相应的故障处理方案。
由于在监测到PCIE设备发生故障时,嵌入式系统根据中断信号,采集PCIE设备的故障信息,从而实现自动采集故障信息的过程。另外,在带外管理系统200接收到PCIE设备故障信息后,将会对PCIE设备故障信息进行解析,并生成PCIE设备故障处理方案,这样不仅可以节省故障处理的时间和人力,而且还可以提高对PCIE设备故障处理的效率。
在本实施例中,该计算主系统100可以包括有以Intel x86架构中央处理器(Central Processing Unit,CPU)、ARM架构CPU、MIPS架构CPU等多种架构处理器作为计算核心的计算设备,包括但不限于工业计算机、服务器、车载计算机、移动工作站等应用形态,本发明对计算主系统的类型不做任何限制。
带外管理系统200是一个独立于计算机和服务器主系统,负责实时监控主系统及各部件状态(包括但不限于电压、电流、温度、故障),并进行异常事件记录和汇报的管理系统。带外管理系统包括一个独立的操作系统,具备存储模块,网络模块,可以通过网络进行访问。
下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2是本发明根据一示例性实施例示出的一种PCIE设备故障的处理方法的信令交互图。如图2所示,在图1所示应用场景的基础上,本发明实施例提供的PCIE设备故障的处理方法,包括如下步骤:
步骤201:计算主系统通过嵌入式系统对PCIE设备进行监测。
在本步骤中,计算主系统中包括嵌入式系统,嵌入式系统负责中央处理器(Central Processing Unit,CPU)、内存、显卡、网卡、硬盘等硬件设备的初始化和资源分配,并可以引导CPU、内存、显卡、网卡或硬盘进入操作系统。
另外,PCIE设备为符合高速串行计算机扩展总线标准的设备,可以从常见的网卡、显卡、RAID卡,已经逐步扩展为GPU卡、FPGA卡、TPU卡等多种人工智能加速卡,可以应用于计算主系统中。在PCIE设备投入使用后,计算主系统将会获得PCIE设备的位置等信息,根据PCIE规范和PCIE设备的位置等信息,嵌入式系统会对PCIE设备生成一个自定义的数据结构,自定义数据结构中可以存储有PCIE设备的名称、型号、位置、ID、故障来源、故障原因以及故障类型等信息。
在本步骤中,计算主系统可以通过嵌入式系统对PCIE设备进行实时监测,也可以进行定时监测,通过对PCIE设备的监测,可以及时的获取PCIE设备的运行状态,以对出现的状况进行及时的处理。其中,PCIE设备的运行状态可以包括PCIE设备正常运行状态和PCIE设备故障状态。
步骤202:计算主系统通过嵌入式系统在监测到PCIE设备发生故障时,则触发中断信号。
在本步骤中,当计算主系统通过嵌入式系统监测到PCIE设备发生故障时,计算主系统将会指示嵌入式系统触发中断信号。
步骤203:嵌入式系统根据中断信号,采集PCIE设备故障信息。
在本步骤中,当触发中断信号后,嵌入式系统将根据中断信号按照中断处理流程采集PCIE设备的故障信息,在采集故障信息的过程中,若存在多个故障时可以进行逐个采集,采集故障信息的过程中可以根据故障信息采集的优先级进行。
PCIE设备的故障信息是按照PCIE规范和PCIE设备在计算主系统中的配置空间等信息作为基础,包括但不限于PCIE设备的Bus号、设备(Device,Dev)号、功能(Function,Fun)号、设备厂商、设备ID、子Bus号(Root Port或Bridge)、故障类型(Error Type)、可修复状态(Correctable Satus)、不可修复状态(Uncorrectable Status)和详细错误报告(Advanced Error Report)等130多个关键的PCIE设备数据信息。
在本步骤中,PCIE设备的故障信息在PCIE设备的故障处理过程中,特别是在对人工智能加速硬件(GPU卡、FPGA卡或TPU卡)的故障处理的过程中,是非常重要的。另外,通过对PCIE设备的故障信息进行全面的采集,可以为带外管理系统对PCIE设备故障的解析提供依据,进一步的提高解析结果的准确性。
步骤204:计算主系统通过嵌入式系统向带外管理系统发送PCIE设备故障信息。
在本步骤中,嵌入式系统会将采集到的PCIE设备的故障信息通过智能平台管理接口(Intelligent Platform Management Interface,IPMI)、Redfish和/或其他通信接口发送给带外管理系统。其中,带外管理系统为一个独立于计算机和服务器主系统,负责实时监控服务器主系统和各部件状态(包括但不限于电压、电流、温度以及故障状态),同时进行异常事件的记录,并将记录的内容汇报至服务器主系统的管理单元。
步骤205:带外管理系统对PCIE设备故障信息进行解析,得到解析结果。
在本步骤中,带外管理系统在接收到计算主系统通过嵌入式系统发送的PCIE设备的故障信息后,将故障信息保存至只读存储器(Read-Only Memory,ROM)或其他存储介质中。同时,带外管理系统还会对接收到的故障信息进行解析,以获得解析结果。其中,可选的,解析结果可以包括PCIE设备的故障类型、PCIE设备的故障来源和PCIE设备的故障原因中的至少一个,当然还可以包括有其他的PCIE设备故障信息。
其中,PCIE设备的故障类型可以根据故障的严重程度进行划分,例如划分为可修复的和不可修复的,具体的划分可以根据实际情况而定。PCIE设备故障的来源例如可以为温度、电流或电压等;故障的原因例如可以为由于温度的过高或过低导致PCIE设备发生故障。
步骤206:带外管理系统根据解析结果,生成故障处理方案。
在本步骤中,从上述解析出的解析结果,可以确定出PCIE设备的故障类型、PCIE设备的故障来源和PCIE设备的故障原因。进一步的,根据PCIE设备的故障类型、PCIE设备的故障来源和PCIE设备的故障原因,带外管理系统生成与故障相对应的处理方案,以解决PCIE设备发生的故障。
本实施例提供的PCIE设备故障的处理方法,计算主系统通过嵌入式系统对PCIE设备进行监测,在监测到PCIE设备发生故障时,计算主系统通过嵌入式系统触发中断信号;根据中断信号,嵌入式系统采集PCIE设备故障信息,并向带外管理系统发送PCIE设备故障信息;带外管理系统对PCIE设备故障信息进行解析,从而得到解析结果;带外管理系统根据解析结果,生成故障处理方案。由于在监测到PCIE设备发生故障时,嵌入式系统会根据中断信号采集PCIE设备的故障信息,实现自动采集故障信息的过程。另外,带外管理系统接收到PCIE设备故障信息后,对PCIE设备故障信息进行解析得到解析结果,并根据该解析结果生成PCIE设备故障处理方案,从而节省故障处理的时间和人力,提高PCIE设备的故障处理效率。
图3是本发明根据又一示例性实施例示出的一种PCIE设备故障的处理方法的信令交互图。本实施例在图2的基础上,对如何根据解析结果,生成故障处理方案的过程进行详细介绍,如图3所示,本发明实施例提供的PCIE设备故障的处理方法包括如下步骤:
步骤301:计算主系统通过嵌入式系统对PCIE设备进行监测。
步骤302:计算主系统通过嵌入式系统在监测到PCIE设备发生故障时,则触发中断信号。
步骤303:嵌入式系统根据中断信号,采集PCIE设备故障信息。
步骤304:计算主系统通过嵌入式系统向带外管理系统发送PCIE设备故障信息。
步骤305:带外管理系统对PCIE设备故障信息进行解析,得到解析结果。
步骤301-步骤305与步骤201-步骤205类似,此处不再赘述。
步骤306:带外管理系统根据解析结果,确定PCIE设备故障信息所属的故障类型。
其中,故障类型包括可修复故障类型、不可修复故障且故障等级小于预设等级类型或不可修复故障且故障等级大于或等于预设等级类型。
具体的,故障等级可以表示故障的严重程度,不可修复故障且故障等级小于预设等级类型可以为不可修复故障但不严重错误,不可修复故障且故障等级大于或等于预设等级类型可以为不可修复故障且严重错误。其中,可修复故障为故障等级较小的故障,通过一定方式可以修复,不可修复故障但不严重错误为通过一定的方式不能修复的故障,但不影响计算主系统运行,不可修复故障且严重错误为通过一定的方式不能够被修复的故障且为严重的错误,将会影响计算主系统的正常运行。
例如,假设将故障的严重程度分为5个等级,分别为一级、二级、三级、四级和五级,小于三级为可修复故障,大于或等于三级为不可修复故障,还可以将不可修复故障分为小于四级的不可修复故障但不严重错误,和大于或等于四级的不可修复故障且严重错误,其中,等级越小故障的严重程度越小,越容易修复。另外,还可以将每一类型的故障按照严重程度进一步的细分8-10种等级,具体如何细分等级,本发明不做任何限制。
步骤307:带外管理系统根据故障类型,生成故障处理方案。
在本步骤中,根据确定出的故障类型,带外管理系统将会生成与故障类型相对应的处理方案,具体可以包括如下三种情况:
第一种情况:若确定出PCIE设备的故障类型为可修复故障类型,则带外管理系统将会生成第一故障处理方案,第一故障处理方案包括:向计算主系统的嵌入式系统发送第一指示信息,信息带外管理系统并将PCIE设备故障信息和故障类型上报给用户,其中,第一指示信息用于指示嵌入式系统对PCIE设备故障信息对应的PCIE设备故障进行修复。
具体的,当确定出故障类型为可修复故障时,带外管理系统将会生成与故障类型相对应的第一故障处理方案,进而带外管理系统向计算主系统的嵌入式系统发送对PCIE设备故障进行修复的第一指示信息,以使嵌入式系统对PCIE设备的可修复故障进行修复,同时,带外管理系统还会将故障的信息和故障的类型上报给用户,如可以上报给管理员,以便用户对PCIE设备的了解和记录。
第二种情况:若故障类型为不可修复故障且故障等级小于预设等级类型,则生成第二故障处理方案,第二故障处理方案包括:将PCIE设备故障信息和故障类型上报给用户。
具体的,当确定出PCIE设备的故障类型为不可修复故障但不严重错误时,带外管理系统将会生成与故障类型相对应的第二故障处理方案,由于该故障并不会影响系统的运行,因此,带外管理系统将会把PCIE设备的故障信息和故障类型上报给用户,如可以上报给管理员。
第三种情况:若故障类型为不可修复故障且故障等级大于或等于预设等级类型,则生成第三故障处理方案,第三故障处理方案包括向计算主系统的嵌入式系统发送第二指示信息。带外管理系统并将PCIE设备故障信息和故障类型上报给用户,第二指示信息用于指示嵌入式系统关闭设备链路。
具体的,当确定出PCIE设备的故障类型为不可修复故障且严重错误时,带外管理系统将会生成与故障类型相对应的第三故障处理方案,由于该故障会影响计算主系统的正常运行,为了保证其他设备和应用程序的正常运行,带外管理系统将会向计算主系统的嵌入式系统发送用于关闭设备链路的第二指示信息,以使嵌入式系统关闭与PCIE设备电连接的其他设备或应用之间的链路,同时,带外管理系统还会将故障的信息和故障的类型上报给管理员或用户,以使管理员对该不可修复故障进行处理。
进一步地,为了方便用户或者PCIE设备供应商作进一步的故障分析,带外管理系统还会接收下载指令,并根据下载指令,向终端设备发送PCIE设备故障信息和故障处理方案。
具体的,在对PCIE设备的故障处理过程中,带外管理系统还可以提供可视化的下载接口,管理员或PCIE设备供应商向带外管理系统发送下载指令,带外管理系统通过下载接口向管理员或供应商对应的终端设备发送PCIE设备故障信息和故障处理方案,用于向用户或供应商提供PCIE设备的相关信息。其中,终端设备可以为但不限于移动台(MS,MobileStation)、移动终端(Mobile Terminal)、移动电话(Mobile Telephone)、手机(handset)及便携设备(portable equipment)等,该终端设备可以经无线接入网(RAN,Radio AccessNetwork)与一个或多个核心网进行通信,例如,终端设备可以是移动电话(或称为“蜂窝”电话)、具有无线通信功能的计算机等,终端设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置或设备。
在本实施例中,通过先确定出PCIE设备的故障类型,带外管理系统可以对故障类型生成相应的处理方案,这样使得对PCIE设备的故障处理的过程更加简洁和通用。另外,当确定出PCIE设备的故障类型为可修复故障时,嵌入式系统可以对故障进行修复,也不需要先通过人工查找故障库确定出故障处理方案,进而根据故障处理方案进行修复,减少了故障修复的流程,达到故障处理智能化的目的。同时PCIE设备的故障处理方法还通过精确定位PCIE设备的故障位置并解决PCIE设备的故障,以提升计算机和服务器领域PCIE设备的故障处理效率。
图4是本发明根据一示例性实施例示出的一种PCIE设备故障的处理装置的框图,如图4所示,该装置为带外管理系统,包括:接收模块11、解析模块12和生成模块13,其中:
接收模块11,用于接收计算主系统通过嵌入式系统发送的PCIE设备故障信息;
解析模块12,用于对PCIE设备故障信息进行解析,得到解析结果;
生成模块13,用于根据解析结果,生成故障处理方案。
可选的,解析结果包括PCIE设备故障类型、PCIE设备故障来源和PCIE设备故障原因中的至少一个。
可选的,生成模块13,具体用于:
根据解析结果,确定PCIE设备故障信息所属的故障类型,故障类型包括可修复故障类型、不可修复故障且故障等级小于预设等级类型或不可修复故障且故障等级大于或等于预设等级类型;
根据故障类型,生成故障处理方案。
可选的,生成模块13具体用于:
若故障类型为可修复故障类型,则生成第一故障处理方案,第一故障处理方案包括向计算主系统的嵌入式系统发送第一指示信息,并将PCIE设备故障信息和故障类型上报给用户,第一指示信息用于指示嵌入式系统对PCIE设备故障信息对应的PCIE设备故障进行修复;或者,
若故障类型为不可修复故障且故障等级小于预设等级类型,则生成第二故障处理方案,第二故障处理方案包括将PCIE设备故障信息和故障类型上报给用户;或者,
若故障类型为不可修复故障且故障等级大于或等于预设等级类型,则生成第三故障处理方案,第三故障处理方案包括向计算主系统的嵌入式系统发送第二指示信息,并将PCIE设备故障信息和故障类型上报给用户,第二指示信息用于指示嵌入式系统关闭设备链路。
可选的,该装置还包括:发送模块14,如图5所示,其中,
接收模块11,还用于接收下载指令;
发送模块14,用于根据接收模块接收到的下载指令,向终端设备发送PCIE设备故障信息和故障处理方案。
上述装置可用于执行上述对应方法实施例提供的方法,具体实现方式和技术效果类似,这里不再赘述。
图6是本发明根据另一示例性实施例示出的一种PCIE设备故障的处理装置的框图,如图6所示,该装置为计算主系统,计算主系统包括嵌入式系统,包括:监测模块21、触发模块22、采集模块23和发送模块24,其中:
监测模块21,用于计算主系统通过嵌入式系统对PCIE设备进行监测;
触发模块22,用于在监测模块监测到PCIE设备发生故障时,则触发中断信号;
采集模块23,用于根据中断信号,采集PCIE设备故障信息;
发送模块24,用于向带外管理系统发送PCIE设备故障信息。
可选的,该装置还包括:接收模块25和修复模块26,如图7所示,其中,
接收模块25,用于接收带外管理系统发送的第一指示信息;
修复模块26,用于根据接收模块接收到的第一指示信息,通过嵌入式系统对PCIE设备故障信息对应的PCIE设备故障进行修复。
可选的,该装置还包括:关闭模块27,如图8所示,其中,
接收模块25,还用于接收带外管理系统发送的第二指示信息;
关闭模块27,用于根据接收模块接收到第二指示信息,通过嵌入式系统关闭设备链路。
上述装置可用于执行上述对应方法实施例提供的方法,具体实现方式和技术效果类似,这里不再赘述。
图9是本发明根据一示例性实施例示出的一种PCIE设备故障的处理系统的结构示意图,如图9所示,PCIE设备故障的处理系统包括计算主系统910和带外管理系统920。其中,计算主系统910用于执行如上任意实施例中计算主系统侧的方法,带外管理系统920用于执行如上任意实施例中带外管理系统侧的方法。
通过该系统中的带外管理系统920与计算主系统910中的嵌入式系统,完成对PCIE设备故障的处理,不仅可以节省故障处理的时间和人力,而且还可以提高PCIE设备故障处理的效率。另外,该PCIE设备故障的处理系统独立于操作系统,也就是说不受操作系统的影响,基于嵌入式系统和带外管理系统组成的PCIE设备故障的处理系统,不仅可以更加全面且更高效的处理GPU卡、FPGA卡、TPU卡等人工智能加速卡的故障,而且还可以提升数据中心进行深度学习等人工智能模型训练的效率和质量,保证系统及关键服务的安全、可靠运行。
图10A示出了本发明计算主系统的一种可能的结构示意图。计算主系统100包括:处理单元102和通信单元103。处理单元102用于对计算主系统100的动作进行控制管理,例如,处理单元102用于支持计算主系统100执行图2的步骤201-步骤203,图3中的步骤301-步骤303和/或用于本发明所描述的技术的其它过程。通信单元103用于支持计算主系统100与带外管理系统的通信,例如,通信单元103用于支持计算主系统100执行图2的步骤204和图3中的步骤304。计算主系统100还可以包括存储单元101,用于存储计算主系统100的计算机程序代码和数据。
其中,处理单元102可以是处理器或控制器,例如可以是CPU,通用处理器,数字信号处理器(Digital Signal Processor,DSP),专用集成电路(Application-SpecificIntegrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信单元103可以是通信接口、收发器、收发电路等,其中,通信接口是统称,可以包括一个或多个接口。存储单元101可以是存储器。
当处理单元102为处理器,通信单元103为通信接口,存储单元101为存储器时,本发明所涉及的计算主系统可以为图10B所示的计算主系统。
参阅图10B所示,该计算主系统110包括:处理器112、通信接口113、存储器111。可选的,计算主系统110还可以包括总线114。其中,通信接口113、处理器112以及存储器111可以通过总线114相互连接;总线114可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。总线114可以分为地址总线、数据总线、控制总线等。为便于表示,图10B中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
另外,存储器111中存储有计算机程序,并且被配置为由处理器112执行,该计算机程序包括用于执行如上图2和图3所示实施例的方法的指令。
本发明实施例还提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机程序,计算机程序使得计算主系统执行前述图2和图3所示实施例提供的PCIE设备故障的处理方法。其中,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
图11A示出了本发明带外管理系统的一种可能的结构示意图。带外管理系统200包括:处理单元202和通信单元203。处理单元202用于对带外管理系统200的动作进行控制管理,例如,处理单元202用于支持带外管理系统200执行图2的步骤205和步骤206,图3中的步骤305-步骤307,和/或用于本发明所描述的技术的其它过程。通信单元203用于支持带外管理系统200与计算主系统的通信,例如,通信单元203用于支持带外管理系统200向计算主系统发送第一指示信息和第二指示信息。带外管理系统200还可以包括存储单元201,用于存储带外管理系统200的计算机程序代码和数据。
其中,处理单元202可以是处理器或控制器,例如可以是CPU,通用处理器,数字信号处理器(Digital Signal Processor,DSP),专用集成电路(Application-SpecificIntegrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信单元103可以是通信接口、收发器、收发电路等,其中,通信接口是统称,可以包括一个或多个接口。存储单元201可以是存储器。
当处理单元202为处理器,通信单元203为通信接口,存储单元201为存储器时,本发明所涉及的带外管理系统可以为图11B所示的带外管理系统。
参阅图11B所示,该带外管理系统210包括:处理器212、通信接口213、存储器211。可选的,带外管理系统210还可以包括总线214。其中,通信接口213、处理器212以及存储器211可以通过总线214相互连接;总线214可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。总线214可以分为地址总线、数据总线、控制总线等。为便于表示,图11B中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
另外,存储器211中存储有计算机程序,并且被配置为由处理器212执行,该计算机程序包括用于执行如上图2和图3所示实施例的方法的指令。
本发明实施例还提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机程序,计算机程序使得带外管理系统执行前述图2和图3所示实施例提供的PCIE设备故障的处理方法。其中,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (11)
1.一种PCIE设备故障的处理方法,其特征在于,应用于带外管理系统,所述方法包括:
接收计算主系统通过嵌入式系统发送的高速串行计算机扩展总线标准PCIE设备故障信息;
对所述PCIE设备故障信息进行解析,得到解析结果,所述解析结果包括PCIE设备故障类型、PCIE设备故障来源和PCIE设备故障原因中的至少一个;
根据所述解析结果,生成故障处理方案。
2.根据权利要求1所述的方法,其特征在于,所述根据所述解析结果,生成故障处理方案,包括:
根据所述解析结果,确定所述PCIE设备故障信息所属的故障类型,所述故障类型包括可修复故障类型、不可修复故障且故障等级小于预设等级类型或不可修复故障且故障等级大于或等于所述预设等级类型;
根据所述故障类型,生成所述故障处理方案。
3.根据权利要求2所述的方法,其特征在于,所述根据所述故障类型,生成所述故障处理方案,包括:
若所述故障类型为可修复故障类型,则生成第一故障处理方案,所述第一故障处理方案包括向所述计算主系统的嵌入式系统发送第一指示信息,并将所述PCIE设备故障信息和所述故障类型上报给用户,所述第一指示信息用于指示所述嵌入式系统对所述PCIE设备故障信息对应的PCIE设备故障进行修复;或者,
若所述故障类型为不可修复故障且故障等级小于预设等级类型,则生成第二故障处理方案,所述第二故障处理方案包括将所述PCIE设备故障信息和所述故障类型上报给用户;或者,
若所述故障类型为不可修复故障且故障等级大于或等于所述预设等级类型,则生成第三故障处理方案,所述第三故障处理方案包括向所述计算主系统的嵌入式系统发送第二指示信息,并将所述PCIE设备故障信息和所述故障类型上报给用户,所述第二指示信息用于指示所述嵌入式系统关闭设备链路。
4.根据权利要求1或3所述的方法,其特征在于,所述方法还包括:
接收下载指令;
根据所述下载指令,向终端设备发送所述PCIE设备故障信息和所述故障处理方案。
5.一种PCIE设备故障的处理方法,其特征在于,应用于计算主系统,所述计算主系统包括嵌入式系统,所述方法包括:
通过所述嵌入式系统对PCIE设备进行监测;
在监测到所述PCIE设备发生故障时,则触发中断信号;
根据所述中断信号,采集PCIE设备故障信息;
向带外管理系统发送所述PCIE设备故障信息。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
接收所述带外管理系统发送的第一指示信息;
根据所述第一指示信息,通过所述嵌入式系统对所述PCIE设备故障信息对应的PCIE设备故障进行修复。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
接收所述带外管理系统发送的第二指示信息;
根据所述第二指示信息,通过所述嵌入式系统关闭设备链路。
8.一种带外管理系统,其特征在于,包括:
接收模块,用于接收计算主系统通过嵌入式系统发送的高速串行计算机扩展总线标准PCIE设备故障信息;
解析模块,用于对所述PCIE设备故障信息进行解析,得到解析结果,所述解析结果包括PCIE设备故障类型、PCIE设备故障来源和PCIE设备故障原因中的至少一个;
生成模块,用于根据所述解析结果,生成故障处理方案。
9.一种计算主系统,其特征在于,所述计算主系统包括嵌入式系统,包括:
监测模块,通过所述嵌入式系统用于对PCIE设备进行监测;
触发模块,用于在所述监测模块监测到所述PCIE设备发生故障时,则触发中断信号;
采集模块,用于根据所述中断信号,采集PCIE设备故障信息;
发送模块,用于向带外管理系统发送所述PCIE设备故障信息。
10.一种带外管理系统,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的计算机程序;以及,
其中,所述处理器被配置为通过执行所述计算机程序来执行权利要求1至4任一项所述的PCIE设备故障的处理方法。
11.一种计算主系统,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的计算机程序;以及,
其中,所述处理器被配置为通过执行所述计算机程序来执行权利要求5至7任一项所述的PCIE设备故障的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910189754.9A CN109947585A (zh) | 2019-03-13 | 2019-03-13 | Pcie设备故障的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910189754.9A CN109947585A (zh) | 2019-03-13 | 2019-03-13 | Pcie设备故障的处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109947585A true CN109947585A (zh) | 2019-06-28 |
Family
ID=67008772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910189754.9A Pending CN109947585A (zh) | 2019-03-13 | 2019-03-13 | Pcie设备故障的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109947585A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414268A (zh) * | 2020-02-26 | 2020-07-14 | 华为技术有限公司 | 故障处理方法、装置及服务器 |
CN111581058A (zh) * | 2020-05-09 | 2020-08-25 | 西安易朴通讯技术有限公司 | 故障管理方法、装置、设备及计算机可读存储介质 |
CN112131852A (zh) * | 2020-09-14 | 2020-12-25 | 中国南方电网有限责任公司超高压输电公司昆明局 | 换流站故障报告自动生成方法、装置、电子设备及存储介质 |
CN113742181A (zh) * | 2021-08-31 | 2021-12-03 | 中元汇吉生物技术股份有限公司 | 一种故障处理方法、装置、计算机设备及存储介质 |
CN114338347A (zh) * | 2021-12-06 | 2022-04-12 | 南昌华勤电子科技有限公司 | 基于Ampere平台的故障信息带外获取方法及装置 |
NL2029030A (en) * | 2020-09-25 | 2022-05-24 | Intel Corp | Device, system and method to determine a structure of a crash log record |
CN114780283A (zh) * | 2022-06-20 | 2022-07-22 | 新华三信息技术有限公司 | 一种故障处理的方法及装置 |
US20240054040A1 (en) * | 2022-08-15 | 2024-02-15 | Wiwynn Corporation | Peripheral Component Interconnect Express Device Error Reporting Optimization Method and System Capable of Filtering Error Reporting Messages |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124018A1 (en) * | 2014-07-15 | 2017-05-04 | Huawei Technologies Co., Ltd. | Method and Device for Sharing PCIE I/O Device, and Interconnection System |
CN107357671A (zh) * | 2014-06-24 | 2017-11-17 | 华为技术有限公司 | 一种故障处理方法、相关装置及计算机 |
CN107608813A (zh) * | 2017-09-14 | 2018-01-19 | 郑州云海信息技术有限公司 | 一种基于linux操作系统信息自动分析故障的方法 |
CN109446049A (zh) * | 2018-11-01 | 2019-03-08 | 郑州云海信息技术有限公司 | 一种基于监督学习的服务器错误诊断方法和装置 |
-
2019
- 2019-03-13 CN CN201910189754.9A patent/CN109947585A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357671A (zh) * | 2014-06-24 | 2017-11-17 | 华为技术有限公司 | 一种故障处理方法、相关装置及计算机 |
US20170124018A1 (en) * | 2014-07-15 | 2017-05-04 | Huawei Technologies Co., Ltd. | Method and Device for Sharing PCIE I/O Device, and Interconnection System |
CN107608813A (zh) * | 2017-09-14 | 2018-01-19 | 郑州云海信息技术有限公司 | 一种基于linux操作系统信息自动分析故障的方法 |
CN109446049A (zh) * | 2018-11-01 | 2019-03-08 | 郑州云海信息技术有限公司 | 一种基于监督学习的服务器错误诊断方法和装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414268A (zh) * | 2020-02-26 | 2020-07-14 | 华为技术有限公司 | 故障处理方法、装置及服务器 |
CN111414268B (zh) * | 2020-02-26 | 2022-05-13 | 华为技术有限公司 | 故障处理方法、装置及服务器 |
CN111581058B (zh) * | 2020-05-09 | 2024-03-19 | 西安易朴通讯技术有限公司 | 故障管理方法、装置、设备及计算机可读存储介质 |
CN111581058A (zh) * | 2020-05-09 | 2020-08-25 | 西安易朴通讯技术有限公司 | 故障管理方法、装置、设备及计算机可读存储介质 |
CN112131852A (zh) * | 2020-09-14 | 2020-12-25 | 中国南方电网有限责任公司超高压输电公司昆明局 | 换流站故障报告自动生成方法、装置、电子设备及存储介质 |
US12013746B2 (en) | 2020-09-25 | 2024-06-18 | Intel Corporation | Device, system and method to determine a structure of a crash log record |
NL2029030A (en) * | 2020-09-25 | 2022-05-24 | Intel Corp | Device, system and method to determine a structure of a crash log record |
CN113742181A (zh) * | 2021-08-31 | 2021-12-03 | 中元汇吉生物技术股份有限公司 | 一种故障处理方法、装置、计算机设备及存储介质 |
CN114338347A (zh) * | 2021-12-06 | 2022-04-12 | 南昌华勤电子科技有限公司 | 基于Ampere平台的故障信息带外获取方法及装置 |
CN114780283B (zh) * | 2022-06-20 | 2022-11-01 | 新华三信息技术有限公司 | 一种故障处理的方法及装置 |
CN114780283A (zh) * | 2022-06-20 | 2022-07-22 | 新华三信息技术有限公司 | 一种故障处理的方法及装置 |
US20240054040A1 (en) * | 2022-08-15 | 2024-02-15 | Wiwynn Corporation | Peripheral Component Interconnect Express Device Error Reporting Optimization Method and System Capable of Filtering Error Reporting Messages |
US11953975B2 (en) * | 2022-08-15 | 2024-04-09 | Wiwynn Corporation | Peripheral component interconnect express device error reporting optimization method and system capable of filtering error reporting messages |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947585A (zh) | Pcie设备故障的处理方法及装置 | |
CN108062088B (zh) | 车站终端故障风险预警方法、装置、终端及存储介质 | |
CN110166290A (zh) | 基于日志文件的告警方法及装置 | |
CN103220173B (zh) | 一种报警监控方法及监控系统 | |
CN109308252A (zh) | 一种故障定位处理方法及装置 | |
CN108259194A (zh) | 网络故障预警方法及装置 | |
CN113132144B (zh) | 一种告警处理方法、装置以及存储介质 | |
CN107819611B (zh) | 基于iec61850多服务端仿真的客户端测试方法 | |
CN110247816A (zh) | 指标监控方法及装置 | |
CN111130821B (zh) | 一种掉电告警的方法、处理方法及装置 | |
CN107645546A (zh) | 基于安卓系统的文件监听方法、智能设备及存储介质 | |
CN109089255A (zh) | 用户位置通知控制方法、装置、系统、设备及存储介质 | |
CN106878038A (zh) | 一种通信网络中故障定位方法及装置 | |
CN106131241A (zh) | 一种网络连接方法、装置及移动终端 | |
CN103714060A (zh) | 中断期历史数据的处理方法及前端采集子系统设备 | |
CN107678955A (zh) | 一种功能接口时延的计算方法、装置、设备及存储介质 | |
CN109818808A (zh) | 故障诊断方法、装置和电子设备 | |
CN110224872B (zh) | 一种通信方法、装置及存储介质 | |
CN103457996B (zh) | 一种协议一致性测试系统内部数据存储方法及系统 | |
CN106487469A (zh) | 一种时间节点切换方法与系统 | |
CN108259082B (zh) | 保护倒换的方法及控制业务板 | |
CN109144800A (zh) | 一种服务器故障信息的收集方法、装置及相关设备 | |
CN115604089A (zh) | 网络故障定位方法及装置 | |
CN108429659A (zh) | 路由器的远程故障监控方法、装置及路由器 | |
CN109062758A (zh) | 一种服务器系统宕机处理方法、系统、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190628 |