CN108920314A - 一种故障硬件定位方法、装置、系统及可读存储介质 - Google Patents

一种故障硬件定位方法、装置、系统及可读存储介质 Download PDF

Info

Publication number
CN108920314A
CN108920314A CN201810668981.5A CN201810668981A CN108920314A CN 108920314 A CN108920314 A CN 108920314A CN 201810668981 A CN201810668981 A CN 201810668981A CN 108920314 A CN108920314 A CN 108920314A
Authority
CN
China
Prior art keywords
error
status information
cpu
hardware
faulty hardware
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810668981.5A
Other languages
English (en)
Inventor
罗鹏芳
曹光耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810668981.5A priority Critical patent/CN108920314A/zh
Publication of CN108920314A publication Critical patent/CN108920314A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明公开了一种故障硬件定位方法,当检测到服务器发生MCA时,可以向服务器的各CPU发送第一读取指令以读取各CPU中MC Bank寄存器的状态信息和地址信息;在读取到状态信息与地址信息之后,可以依据自身内存中预存的解析规则解析状态信息以得到对应的访问类型及错误码定义,和根据自身内存中预存的映射关系确定与地址信息中有效地址对应的硬件设备;最终基于访问类型、错误码定义和硬件设备生成故障硬件定位报告。可见,应用本故障硬件定位方法,能够有效提高服务器发生MCA之后的故障硬件定位效率、节约人力。此外,本发明还提供了一种故障硬件定位装置、系统及一种计算机可读存储介质,效果如上。

Description

一种故障硬件定位方法、装置、系统及可读存储介质
技术领域
本发明涉及服务器技术领域,特别涉及一种故障硬件定位方法、装置、系统及可读存储介质。
背景技术
在服务器的运行过程中,如果出现硬件错误则会发生MCA(Machine CheckAbort),影响服务器的正常运行,此时,需要对服务器进行故障硬件定位。
目前,在服务器发生MCA之后,首先是由专人收集各个CPU中寄存器的状态信息和地址信息,并交至专门的研发人员;专门的研发人员在拿到状态信息和地址信息之后,先根据设计文档翻译状态信息得到翻译结果,再结合地址信息还原出错场景,最终通过还原出的出错场景完成对故障硬件的定位。整个过程中,专门的研发人员根据设计文档翻译状态信息需要花费大量的时间及精力,效率低且易出错。尤其是,当服务器为多路服务器时,涉及的硬件显著增多,采用上述方法进行故障硬件定位将更加的费时费力。
因此,如何提高服务器发生MCA之后的故障硬件定位效率以节约人力是本领域技术人员目前需要解决的技术问题。
发明内容
本发明的目的是提供一种故障硬件定位方法、装置、系统及可读存储介质,能够提高服务器发生MCA之后的故障硬件定位效率以节约人力。
为了解决上述技术问题,本发明提供的一种故障硬件定位方法,包括:
当检测到服务器发生MCA时,向所述服务器的各CPU发送第一读取指令以读取各所述CPU中MC Bank寄存器的状态信息和地址信息;
依据自身内存中预存的解析规则解析所述状态信息以得到与有效状态信息对应的访问类型及错误码定义,并根据自身内存中预存的映射关系确定与所述地址信息中的有效地址对应的硬件设备;
基于所述访问类型、所述错误码定义和所述硬件设备生成故障硬件定位报告。
优选地,在所述依据自身内存中预存的解析规则解析所述状态信息以得到与有效状态信息对应的访问类型及错误码定义之前,还包括:
根据错误级别的划分规则将所述有效状态信息对应的错误划分为一级错误和二级错误,其中,所述解析规则包括所述划分规则;
则对应的,所述依据自身内存中预存的解析规则解析所述状态信息以得到与有效状态信息对应的访问类型及错误码定义具体为:
依据所述解析规则解析目标状态信息以得到对应的访问类型及错误码定义,其中,所述目标状态信息为对应于所述一级错误的所述有效状态信息。
优选地,在所述向所述服务器的各CPU发送第一读取指令之前,还包括:
向各所述CPU发送第二读取指令以获取各所述CPU中错误状态寄存器的错误信息;
则对应的,所述向所述服务器的各CPU发送第一读取指令具体为:向各第一CPU发送所述第一读取指令,其中,所述第一CPU为所述错误信息是所述内部错误信息的错误状态寄存器对应的所述CPU。
优选地,所述解析规则至少包括:访问行为的访问类型分解规则、错误码的定义规则和错误级别的划分规则。
优选地,所述访问行为的访问类型至少包括:
读访问、写访问、指令访问、内存访问和IO访问。
优选地,所述错误码的定义至少包括:
访问超时、无法支持的数据和地址译码错误。
为了解决上述技术问题,本发明提供的一种故障硬件定位装置,包括:
发送模块,用于当检测到服务器发生MCA时,向所述服务器的各CPU发送第一读取指令以读取各所述CPU中MC Bank寄存器的状态信息和地址信息;
解析确定模块,用于依据自身内存中预存的解析规则解析所述状态信息以得到与有效状态信息对应的访问类型及错误码定义,并根据自身内存中预存的映射关系确定与所述地址信息中的有效地址对应的硬件设备;
生成模块,用于基于所述访问类型、所述错误码定义和所述硬件设备生成故障硬件定位报告。
优选地,还包括:
划分模块,用于根据错误级别的划分规则将所述有效状态信息对应的错误划分为一级错误和二级错误,其中,所述解析规则包括所述划分规则;
则对应的,所述解析确定模块具体用于:
依据所述解析规则解析目标状态信息以得到对应的访问类型及错误码定义,并根据所述映射关系确定与所述有效地址对应的硬件设备,其中,所述目标状态信息为对应于所述一级错误的所述有效状态信息。
为了解决上述技术问题,本发明提供的一种故障硬件定位系统,包括:
存储器,用于存储定位程序;
处理器,用于在执行所述定位程序时实现如上文所述的任一种故障硬件定位方法的步骤。
为了解决上述技术问题,本发明提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有定位程序,所述定位程序被处理器执行时实现如上文所述的任一种故障硬件定位方法的步骤。
本发明提供的故障硬件定位方法,当检测到服务器发生MCA时,可以向服务器的各CPU发送第一读取指令以读取各CPU中MC Bank寄存器的状态信息和地址信息;在读取到状态信息与地址信息之后,可以依据自身内存中预存的解析规则解析状态信息以得到对应的访问类型及错误码定义,和根据自身内存中预存的映射关系确定与地址信息中有效地址对应的硬件设备;最终基于访问类型、错误码定义和硬件设备生成故障硬件定位报告。可见,应用本故障硬件定位方法,无论当前服务器涉及的硬件有多少,用户均可以直接获得故障硬件定位报告,而无需研发人员再根据设计文档人工翻译状态信息和结合地址信息人工还原出错场景,省时省力,从而能够有效提高服务器发生MCA之后的故障硬件定位效率、节约人力。此外,本发明还提供了一种故障硬件定位装置、系统及一种计算机可读存储介质,效果如上。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种故障硬件定位方法的流程图;
图2为发明实施例提供的另一种故障硬件定位方法的流程图;
图3为本发明实施例提供的一种故障硬件定位装置的组成示意图;
图4为本发明实施例提供的一种故障硬件定位系统的组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动的前提下,所获得的所有其他实施例,都属于本发明保护范围。
本发明的目的是提供一种故障硬件定位方法、装置、系统及可读存储介质,能够提高服务器发生MCA之后的故障硬件定位效率以节约人力。
为了使本领域的技术人员更好的理解本发明技术方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
图1为本发明实施例提供的一种故障硬件定位方法的流程图。如图1所示,本实施例提供的故障硬件定位方法包括:
S10:当检测到服务器发生MCA时,向服务器的各CPU发送第一读取指令以读取各CPU中MC Bank寄存器的状态信息和地址信息。
在步骤S10中,可以实时检测服务器是否发生MCA,以当服务器发生MCA时可以及时检测到。一旦检测到服务器发生MCA,系统则向服务器各CPU发送读取各CPU中MC Bank寄存器的状态信息和地址信息的第一读取指令,各CPU接收到第一读取指令之后,将自身MCBank寄存器中存储的状态信息和地址信息返回至系统,以使系统能够读取到自身MC Bank寄存器中存储的状态信息和地址信息。其中,MC Bank寄存器指Machine Check Bank寄存器,包括控制寄存器、状态寄存器、地址寄存器和MISC寄存器。其中,状态信息存储于状态寄存器中,地址信息存储于地址寄存器中。一般地,一个CPU有多个MC Bank寄存器,分别对应于CPU内部的各个子模块,如果与MC Bank寄存器对应的子模块发生MCA时,该MC Bank寄存器能够记录该子模块的错误信息。
S11:依据自身内存中预存的解析规则解析状态信息以得到与有效状态信息对应的访问类型及错误码定义,并根据自身内存中预存的映射关系确定与地址信息中的有效地址对应的硬件设备。
在系统内存中预存有预先制定的解析规则和映射关系,其中,解析规则至少包括出错行为的访问类型分解规则和错误码的定义规则;映射关系指地址与硬件设备的对应关系。利用出错行为的访问类型分解规则,能够解析状态信息,并分解出与有效状态信息对应的出错行为的访问类型,如读访问和/或写访问和/或指令访问等;其中,有效状态信息是指对应的子模块有出错行为的状态寄存器中存储的状态信息。利用错误码的定义规则,能够解析状态信息,分解出有效状态信息中的错误码,并得到与该错误码对应的错误码定义,如访问超时和/或无法支持的数据和/或地址译码错误等。利用映射关系,能够解析出地址信息中的有效地址,确定与有效地址对应的硬件设备,如处理器核心硬件和/或内存和/或UPI(Intel UItra Path Interconnect)和/或IO设备或处理器非核心硬件等;其中,有效地址指地址信息中的非零地址。
S12:基于访问类型、错误码定义和硬件设备生成故障硬件定位报告。
经过步骤S10和S11之后,系统得到的故障信息包括访问类型、错误码定义和硬件设备,基于这些故障信息,生成故障硬件定位报告,以供用户参考实现对故障硬件的定位。
一般地,一个子模块的地址信息中如果存在有效地址,则有效地址指向的硬件设备为故障硬件,并且可以进一步结合该子模块对应的状态信息中的有效信息得到更详细的故障信息,以便于更好的还原出错场景。而当一个子模块对应的地址信息中无有效地址时,很大可能上,该子模块并非出错子模块,但是,为了使故障硬件定位报告更加详细完善,优选地,可以根据该子模块对应的状态信息中的有效信息锁定故障信息,以便于还原出错场景,而如果状态信息中也无有效状态信息,则直接解析下一个子模块对应的状态信息和地址信息,直到解析完成各CPU的各子模块对应的状态信息和地址信息为止,利用获取到的故障信息生成故障硬件定位报告。
综上所述,本实施例提供的故障硬件定位方法,当检测到服务器发生MCA时,可以向服务器的各CPU发送第一读取指令以读取各CPU中MC Bank寄存器的状态信息和地址信息;在读取到状态信息与地址信息之后,可以依据自身内存中预存的解析规则解析状态信息以得到对应的访问类型及错误码定义,和根据自身内存中预存的映射关系确定与地址信息中有效地址对应的硬件设备;最终基于访问类型、错误码定义和硬件设备生成故障硬件定位报告。可见,应用本故障硬件定位方法,无论当前服务器涉及的硬件有多少,用户均可以直接获得故障硬件定位报告,而无需研发人员再根据设计文档人工翻译状态信息和结合地址信息人工还原出错场景,省时省力,从而能够有效提高服务器发生MCA之后的故障硬件定位效率、节约人力。
另外,随着用户对计算机的计算需求的提高,用户对单台计算机的计算性能要求越来越高,高端服务器的应用越来越广泛。高端服务器是一款多路服务器,与传统服务器相比,在计算性能和可靠性上与传统服务器相比具有很大的优势,尤其是在对实时性、可靠性和可用性要求苛刻的领域中应用越来越广泛。同时高端服务器在机柜内集多个计算节点,涉及硬件较多,比如CPU,内存及节点控制器等,设计上整机物理地址范围较大,硬件地址分配复杂。在故障硬件定位中,具体内容并不明确,通过传统的日志记录不能满足需求,使得高端服务器对故障硬件定位与传统的服务器相比提出了新的挑战,定位效率越发低下。而应用本故障硬件定位方法,无论当前服务器涉及的硬件有多少,用户均可以直接获得故障硬件定位报告,而无需研发人员再根据设计文档人工翻译状态信息和结合地址信息人工还原出错场景,省时省力。因此,将本故障硬件定位方法应用于高端服务器中,提升故障硬件定位效率的效果将更加显著。
为了进一步提升故障硬件定位效率,基于上述实施例,作为一种优选的实施方式,在依据自身内存中预存的解析规则解析状态信息以得到与有效状态信息对应的访问类型及错误码定义之前,还包括:
根据错误级别的划分规则将有效状态信息对应的错误划分为一级错误和二级错误,其中,解析规则包括划分规则;
则对应的,依据自身内存中预存的解析规则解析状态信息以得到与有效状态信息对应的访问类型及错误码定义具体为:
依据解析规则解析目标状态信息以得到对应的访问类型及错误码定义,其中,目标状态信息为对应于一级错误的有效状态信息。
需要说明的是,一级错误指系统不可自动纠正的错误,二级错误指系统可自动纠正的错误。一般地,如果发生二级错误,系统可以自主修复,而无需人工修复;而如果发生一级错误,则需要进行故障硬件定位,进行人工修复。
在本实施例中,解析规则还包括错误级别的划分规则,利用该划分规则,能够解析状态信息,将与有效状态信息对应的错误划分为一级错误和二级错误。在将有效状态信息对应的错误级别划分出来之后,通过仅对一级错误对应的有效状态信息进行解析以得到对应的访问类型及错误码定义,可以减少解析的状态信息数量,从而能够进一步节省解析状态信息所使用的时间,进而提升故障硬件定位效率。
为了进一步提升故障硬件的定位效率,基于上述实施例,作为一种优选的实施方式,在向服务器的各CPU发送第一读取指令之前,还包括:
向各CPU发送第二读取指令以获取各CPU中错误状态寄存器的错误信息;
则对应的,向服务器的各CPU发送第一读取指令具体为:向各第一CPU发送第一读取指令,其中,第一CPU为错误信息是内部错误信息的错误状态寄存器对应的CPU。
在本实施例中,在向服务器的各CPU发送第一读取指令之前,还向各CPU发送获取各CPU中错误状态寄存器的错误信息的第二读取指令,其中,错误状态寄存器的错误信息包括内部错误信息和外部错误信息两种,如果错误状态寄存器的错误信息是内部错误信息,则说明与该错误状态寄存器对应的CPU由自身问题导致错误;而如果错误状态寄存器的错误信息是外部错误信息,则说明与错误状态寄存器对应的CPU由除自身外的其它硬件错误而导致自身发生错误。因此,在识别出错误状态寄存器的错误信息为内部信息错误时,可以仅向错误信息为内部错误信息的错误状态寄存器对应的第一CPU发送第一读取指令,仅读取各第一CPU的状态信息和地址信息,以减少读取状态信息和地址信息的数量,从而能够进一步节省解析状态信息和地址信息所使用的时间,进而提升故障硬件定位效率。
为了保证故障硬件定位方法的准确性,基于上述实施例,作为一种优选的实施方式,解析规则至少包括:访问行为的访问类型分解规则、错误码的定义规则和错误级别的划分规则。
在本实施例中,可以从访问行为的访问类型分解规则、错误码的定义规则和错误级别的划分规则三个维度解析状态信息和地址信息,能够较为高效和准确的进行故障硬件定位。
基于上述实施例,作为一种优选的实施方式,访问行为的访问类型至少包括:读访问、写访问、指令访问、内存访问和IO访问。
基于上述实施例,作为一种优选的实施方式,错误码的定义至少包括:访问超时、无法支持的数据和地址译码错误。
为了使本领域的技术人员能够更好地理解本发明提供的技术方案,下面结合另一种故障硬件定位方法的流程图,对一种故障硬件定位的具体流程进行详细说明。
图2为发明实施例提供的另一种故障硬件定位方法的流程图。如图2所示,本实施例提供的对故障硬件定位的具体流程包括:
S20:读取当前节点的当前MC Bank寄存器中的状态信息和地址信息。
S21:判断状态信息是否有效。
如果是,则进入步骤S22,如果否,则进入步骤S27。
S22:划分错误级别。
S23:识别访问类型。
S24:确定错误码定义。
S25:判断地址信息中是存在有效地址。
如果是,则进入步骤S26,如果否,则进入步骤S27。
S26:确定有效地址对应的硬件设备。
S27:判断当前节点是否有MC Bank寄存器未被读取。
如果是,则进入步骤S28,如果否,则进入步骤S29。
S28:将当前节点的下一个MC Bank寄存器作为当前MC Bank寄存器,返回步骤S20;
S29:读取当前节点的错误状态寄存器的错误信息。
S30:判断是否有其它节点的MC Bank寄存器未被读取。
如果是,则进入步骤S31,如果否,则结束。
S31:将下一个节点作为当前节点,并返回步骤S20。
通过以上流程就可以从数千个数据中提取有效的信息,最大化还原服务器出错场景,极大提高故障诊断效率,方便研发或售后服务人员及时查看有效信息定位服务器发生MCA故障的原因。
上文对于本发明提供的一种故障硬件定位方法的实施例进行了详细的描述,本发明还提供了一种与故障硬件定位方法对应的故障硬件定位装置,由于装置部分的实施例与方法部分的实施例相互照应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图3为本发明实施例提供的一种故障硬件定位装置的组成示意图。如图3所示,本实施例提供的故障硬件定位装置包括:
发送模块30,用于当检测到服务器发生MCA时,向服务器的各CPU发送第一读取指令以读取各CPU中MC Bank寄存器的状态信息和地址信息;
解析确定模块31,用于依据自身内存中预存的解析规则解析状态信息以得到与有效状态信息对应的访问类型及错误码定义,并根据自身内存中预存的映射关系确定与地址信息中的有效地址对应的硬件设备;
生成模块32,用于基于访问类型、错误码定义和硬件设备生成故障硬件定位报告。
本实施例提供的故障硬件定位装置,发送模块在检测到服务器发生MCA之后,可以向服务器的各CPU发送第一读取指令以读取各CPU中MC Bank寄存器的状态信息和地址信息;解析确定模块在读取到状态信息与地址信息之后,可以依据自身内存中预存的解析规则解析状态信息以得到对应的访问类型及错误码定义,和根据自身内存中预存的映射关系确定与地址信息中有效地址对应的硬件设备;最终生成模块基于访问类型、错误码定义和硬件设备生成故障硬件定位报告。可见,应用本故障硬件定位装置,无论当前服务器涉及的硬件有多少,用户均可以直接获得故障硬件定位报告,而无需研发人员再根据设计文档人工翻译状态信息和结合地址信息人工还原出错场景,省时省力,从而能够有效提高服务器发生MCA之后的故障硬件定位效率、节约人力。
基于上述实施例,作为一种优选的实施方式,还包括:
划分模块,用于根据错误级别的划分规则将有效状态信息对应的错误划分为一级错误和二级错误,其中,解析规则包括划分规则;
则对应的,解析确定模块31具体用于:
依据解析规则解析目标状态信息以得到对应的访问类型及错误码定义,并根据映射关系确定与有效地址对应的硬件设备,其中,目标状态信息为对应于一级错误的有效状态信息。
上文对于本发明提供的一种故障硬件定位方法的实施例进行了详细的描述,本发明还提供了一种与故障硬件定位方法对应的故障硬件定位系统,由于系统部分的实施例与方法部分的实施例相互照应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图4为本发明实施例提供的一种故障硬件定位系统的组成示意图。如图4所示,本实施例提供的故障硬件定位系统包括:
存储器40,用于存储定位程序;
处理器41,用于在执行定位程序时实现如上述任一实施例所提供的故障硬件定位方法的步骤。
本实施例提供的故障硬件定位系统,由于可以通过处理器调用存储器存储的定位程序,实现如上述任一实施例提供的故障硬件定位方法的步骤,所以本系统具有同上述故障硬件定位方法同样的实际效果。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有定位程序,定位程序被处理器执行时实现如上述任一实施例所提供的故障硬件定位方法的步骤。
本实施例提供的计算机可读存储介质存储有停止程序,由于停止程序被处理器执行时可以实现如上述任一实施例提供的故障硬件定位方法的步骤,所以本计算机可读存储介质具有同上述故障硬件定位方法同样的实际效果。
以上对本发明所提供的一种故障硬件定位方法、装置、系统及可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明都是与其它实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何变体意在涵盖非排他性的包含,从而使得包括一系列的要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种故障硬件定位方法,其特征在于,包括:
当检测到服务器发生MCA时,向所述服务器的各CPU发送第一读取指令以读取各所述CPU中MC Bank寄存器的状态信息和地址信息;
依据自身内存中预存的解析规则解析所述状态信息以得到与有效状态信息对应的访问类型及错误码定义,并根据自身内存中预存的映射关系确定与所述地址信息中的有效地址对应的硬件设备;
基于所述访问类型、所述错误码定义和所述硬件设备生成故障硬件定位报告。
2.根据权利要求1所述的故障硬件定位方法,其特征在于,在所述依据自身内存中预存的解析规则解析所述状态信息以得到与有效状态信息对应的访问类型及错误码定义之前,还包括:
根据错误级别的划分规则将所述有效状态信息对应的错误划分为一级错误和二级错误,其中,所述解析规则包括所述划分规则;
则对应的,所述依据自身内存中预存的解析规则解析所述状态信息以得到与有效状态信息对应的访问类型及错误码定义具体为:
依据所述解析规则解析目标状态信息以得到对应的访问类型及错误码定义,其中,所述目标状态信息为对应于所述一级错误的所述有效状态信息。
3.根据权利要求1或2所述的故障硬件定位方法,其特征在于,在所述向所述服务器的各CPU发送第一读取指令之前,还包括:
向各所述CPU发送第二读取指令以获取各所述CPU中错误状态寄存器的错误信息;
则对应的,所述向所述服务器的各CPU发送第一读取指令具体为:向各第一CPU发送所述第一读取指令,其中,所述第一CPU为所述错误信息是所述内部错误信息的错误状态寄存器对应的所述CPU。
4.根据权利要求3所述的故障硬件定位方法,其特征在于,所述解析规则至少包括:访问行为的访问类型分解规则、错误码的定义规则和错误级别的划分规则。
5.根据权利要求4所述的故障硬件定位方法,其特征在于,所述访问行为的访问类型至少包括:
读访问、写访问、指令访问、内存访问和IO访问。
6.根据权利要求4所述的故障硬件定位方法,其特征在于,所述错误码的定义至少包括:
访问超时、无法支持的数据和地址译码错误。
7.一种故障硬件定位装置,其特征在于,包括:
发送模块,用于当检测到服务器发生MCA时,向所述服务器的各CPU发送第一读取指令以读取各所述CPU中MC Bank寄存器的状态信息和地址信息;
解析确定模块,用于依据自身内存中预存的解析规则解析所述状态信息以得到与有效状态信息对应的访问类型及错误码定义,并根据自身内存中预存的映射关系确定与所述地址信息中的有效地址对应的硬件设备;
生成模块,用于基于所述访问类型、所述错误码定义和所述硬件设备生成故障硬件定位报告。
8.根据权利要求7所述的故障硬件定位装置,其特征在于,还包括:
划分模块,用于根据错误级别的划分规则将所述有效状态信息对应的错误划分为一级错误和二级错误,其中,所述解析规则包括所述划分规则;
则对应的,所述解析确定模块具体用于:
依据所述解析规则解析目标状态信息以得到对应的访问类型及错误码定义,并根据所述映射关系确定与所述有效地址对应的硬件设备,其中,所述目标状态信息为对应于所述一级错误的所述有效状态信息。
9.一种故障硬件定位系统,其特征在于,包括:
存储器,用于存储定位程序;
处理器,用于在执行所述定位程序时实现如权利要求1-6任一项所述的故障硬件定位方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有定位程序,所述定位程序被处理器执行时实现如权利要求1-6任一项所述的故障硬件定位方法的步骤。
CN201810668981.5A 2018-06-26 2018-06-26 一种故障硬件定位方法、装置、系统及可读存储介质 Pending CN108920314A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810668981.5A CN108920314A (zh) 2018-06-26 2018-06-26 一种故障硬件定位方法、装置、系统及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810668981.5A CN108920314A (zh) 2018-06-26 2018-06-26 一种故障硬件定位方法、装置、系统及可读存储介质

Publications (1)

Publication Number Publication Date
CN108920314A true CN108920314A (zh) 2018-11-30

Family

ID=64422548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810668981.5A Pending CN108920314A (zh) 2018-06-26 2018-06-26 一种故障硬件定位方法、装置、系统及可读存储介质

Country Status (1)

Country Link
CN (1) CN108920314A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597765A (zh) * 2018-12-11 2019-04-09 郑州云海信息技术有限公司 一种fpga的处理器指令调试方法、装置及电子设备
CN110222253A (zh) * 2019-06-12 2019-09-10 北京睦合达信息技术股份有限公司 一种数据采集方法、设备及计算机可读存储介质
CN111026591A (zh) * 2019-11-29 2020-04-17 北京浪潮数据技术有限公司 一种后端sas的故障定位方法、系统及相关装置
CN111737039A (zh) * 2020-06-19 2020-10-02 广东浪潮大数据研究有限公司 一种错误信息辅助提取方法、装置、设备及可读存储介质
CN111966521A (zh) * 2020-08-17 2020-11-20 海光信息技术有限公司 一种硬件错误的处理方法、处理器、控制器、电子设备及存储介质
CN112286709A (zh) * 2020-10-29 2021-01-29 苏州浪潮智能科技有限公司 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
CN112559233A (zh) * 2020-12-14 2021-03-26 建信金融科技有限责任公司 识别故障类型的方法、装置、设备和计算机可读介质
CN113010341A (zh) * 2021-03-12 2021-06-22 山东英信计算机技术有限公司 一种故障内存定位的方法和设备
CN113051096A (zh) * 2021-03-31 2021-06-29 联想(北京)有限公司 一种处理方法和装置
CN113254287A (zh) * 2021-05-31 2021-08-13 北京明略昭辉科技有限公司 健康状态自检方法、装置、设备及计算机可读介质
CN113407592A (zh) * 2021-06-07 2021-09-17 深圳明锐理想科技有限公司 一种pcb生产线故障定位方法和设备
CN114338347A (zh) * 2021-12-06 2022-04-12 南昌华勤电子科技有限公司 基于Ampere平台的故障信息带外获取方法及装置
CN115855119A (zh) * 2023-02-21 2023-03-28 广州导远电子科技有限公司 导航系统故障分析方法及相关装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080189528A1 (en) * 2007-02-02 2008-08-07 Mips Technologies, Inc. System, Method and Software Application for the Generation of Verification Programs
CN104102563A (zh) * 2014-07-10 2014-10-15 浪潮(北京)电子信息产业有限公司 一种发现服务器系统的mca错误的方法及装置
CN104115125A (zh) * 2011-12-29 2014-10-22 英特尔公司 安全的错误处理
CN104407952A (zh) * 2014-11-12 2015-03-11 浪潮(北京)电子信息产业有限公司 一种通过多cpu节点控制器芯片进行调试的方法和系统
CN105589776A (zh) * 2015-12-23 2016-05-18 华为技术有限公司 一种故障定位方法及服务器
CN106844082A (zh) * 2017-01-18 2017-06-13 联想(北京)有限公司 处理器预测故障分析方法及装置
CN107678916A (zh) * 2017-09-19 2018-02-09 郑州云海信息技术有限公司 一种基于cpu寄存器信息的分析诊断方法及系统
US9916217B2 (en) * 2016-01-05 2018-03-13 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Accessing hidden diagnostic registers

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080189528A1 (en) * 2007-02-02 2008-08-07 Mips Technologies, Inc. System, Method and Software Application for the Generation of Verification Programs
CN104115125A (zh) * 2011-12-29 2014-10-22 英特尔公司 安全的错误处理
CN104102563A (zh) * 2014-07-10 2014-10-15 浪潮(北京)电子信息产业有限公司 一种发现服务器系统的mca错误的方法及装置
CN104407952A (zh) * 2014-11-12 2015-03-11 浪潮(北京)电子信息产业有限公司 一种通过多cpu节点控制器芯片进行调试的方法和系统
CN105589776A (zh) * 2015-12-23 2016-05-18 华为技术有限公司 一种故障定位方法及服务器
US9916217B2 (en) * 2016-01-05 2018-03-13 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Accessing hidden diagnostic registers
CN106844082A (zh) * 2017-01-18 2017-06-13 联想(北京)有限公司 处理器预测故障分析方法及装置
CN107678916A (zh) * 2017-09-19 2018-02-09 郑州云海信息技术有限公司 一种基于cpu寄存器信息的分析诊断方法及系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597765A (zh) * 2018-12-11 2019-04-09 郑州云海信息技术有限公司 一种fpga的处理器指令调试方法、装置及电子设备
CN110222253A (zh) * 2019-06-12 2019-09-10 北京睦合达信息技术股份有限公司 一种数据采集方法、设备及计算机可读存储介质
CN111026591A (zh) * 2019-11-29 2020-04-17 北京浪潮数据技术有限公司 一种后端sas的故障定位方法、系统及相关装置
CN111737039A (zh) * 2020-06-19 2020-10-02 广东浪潮大数据研究有限公司 一种错误信息辅助提取方法、装置、设备及可读存储介质
CN111966521A (zh) * 2020-08-17 2020-11-20 海光信息技术有限公司 一种硬件错误的处理方法、处理器、控制器、电子设备及存储介质
CN111966521B (zh) * 2020-08-17 2023-10-13 成都海光集成电路设计有限公司 一种硬件错误的处理方法、处理器、控制器、电子设备及存储介质
CN112286709B (zh) * 2020-10-29 2022-07-08 苏州浪潮智能科技有限公司 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
CN112286709A (zh) * 2020-10-29 2021-01-29 苏州浪潮智能科技有限公司 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
CN112559233A (zh) * 2020-12-14 2021-03-26 建信金融科技有限责任公司 识别故障类型的方法、装置、设备和计算机可读介质
CN112559233B (zh) * 2020-12-14 2023-01-10 中国建设银行股份有限公司 识别故障类型的方法、装置、设备和计算机可读介质
CN113010341A (zh) * 2021-03-12 2021-06-22 山东英信计算机技术有限公司 一种故障内存定位的方法和设备
CN113051096A (zh) * 2021-03-31 2021-06-29 联想(北京)有限公司 一种处理方法和装置
CN113254287A (zh) * 2021-05-31 2021-08-13 北京明略昭辉科技有限公司 健康状态自检方法、装置、设备及计算机可读介质
CN113407592A (zh) * 2021-06-07 2021-09-17 深圳明锐理想科技有限公司 一种pcb生产线故障定位方法和设备
CN113407592B (zh) * 2021-06-07 2023-11-03 深圳明锐理想科技有限公司 一种pcb生产线故障定位方法和设备
CN114338347A (zh) * 2021-12-06 2022-04-12 南昌华勤电子科技有限公司 基于Ampere平台的故障信息带外获取方法及装置
CN115855119A (zh) * 2023-02-21 2023-03-28 广州导远电子科技有限公司 导航系统故障分析方法及相关装置

Similar Documents

Publication Publication Date Title
CN108920314A (zh) 一种故障硬件定位方法、装置、系统及可读存储介质
CN105589776B (zh) 一种故障定位方法及服务器
DE3879071T2 (de) Verwaltung einer defekten Hilfsquelle in einem Multiplex-Kommunikationssystem.
CN103095518B (zh) 覆盖率测试处理方法、装置、覆盖率测试服务器及系统
CN109086155A (zh) 服务器故障定位方法、装置、设备及计算机可读存储介质
CN103441861B (zh) 一种数据记录生成方法及装置
CN107463455A (zh) 一种检测内存故障的方法及装置
CN103490938A (zh) 一种基于分层的云服务组合失效的恢复系统和方法
CN102902615B (zh) 一种Lustre并行文件系统错误报警方法及其系统
JP2015076888A (ja) 信頼性モデルを使用してプローブサーバ・ネットワークを構成するためのシステムおよび方法
US20020002448A1 (en) Means for incorporating software into avilability models
CN108572793A (zh) 数据写入和数据恢复方法、装置、电子设备及存储介质
CN104765652B (zh) 一种数据备份和数据恢复方法及装置
CN110244256A (zh) 一种智能电能表故障识别方法、装置及设备
CN107094091B (zh) 一种智能变电站站控层网络配置校验方法和系统
JP2007208633A (ja) ネットワーク設計装置、ネットワーク設計方法およびネットワーク設計プログラム
CN107465562A (zh) 一种ctdb自定义分配虚拟ip的方法、装置、设备
CN106126368A (zh) 一种linux下内存故障地址解析的方法
US6625745B1 (en) Network component failure identification with minimal testing
CN110266513A (zh) 低压集抄系统物理拓扑的解析方法
US7646729B2 (en) Method and apparatus for determination of network topology
CN108648549A (zh) 一种面向对象的用电信息采集闭环仿真系统及控制方法
Hassine Describing and assessing availability requirements in the early stages of system development
Meyer et al. Petruchio: From dynamic networks to nets
CN110188040A (zh) 一种针对软件系统故障检测与健康状态评估的软件平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181130