CN114253610A - 一种器件老化导致系统无法正常启动的改进办法及装置 - Google Patents

一种器件老化导致系统无法正常启动的改进办法及装置 Download PDF

Info

Publication number
CN114253610A
CN114253610A CN202111410108.4A CN202111410108A CN114253610A CN 114253610 A CN114253610 A CN 114253610A CN 202111410108 A CN202111410108 A CN 202111410108A CN 114253610 A CN114253610 A CN 114253610A
Authority
CN
China
Prior art keywords
equipment
fault
restarting
bios
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111410108.4A
Other languages
English (en)
Inventor
梁志强
管彦广
张帅豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111410108.4A priority Critical patent/CN114253610A/zh
Publication of CN114253610A publication Critical patent/CN114253610A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供一种器件老化导致系统无法正常启动的改进办法及装置,属于存储设备系统启动技术领域,所述方法步骤如下:BIOS在启动过程中枚举设备异常时,进行设定次数的重启,并在重启失败后,判定设备故障,将故障设备的链路控制寄存器状态置为非使能,再将故障设备信息发送到操作系统和BMC;内核启动过程中,对各PCIE端口的链路控制寄存器进行检测,将标记为非使能状态的PCIE链路的故障设备进行屏蔽,不进行枚举;设置BMC将接收的故障设备信息进行解析,并进行可视化展示。本发明在枚举设备异常是进行重启以及并对重启失败的枚举设备进行屏蔽,并通过BMC展示故障设备信息,从而保证系统正常启动,提高用户的体验效果。

Description

一种器件老化导致系统无法正常启动的改进办法及装置
技术领域
本发明属于存储设备系统启动技术领域,具体涉及一种器件老化导致系统无法正常启动的改进办法及装置。
背景技术
存储设备主电路板上除了CPU外还有很多关键的器件,比如PCIe Switch芯片,PCIe NTB非透明桥芯片,当这些芯片及其固件芯片都无损坏时,系统可以正常枚举到设备,并正常启动。但当这些关键器件本身或其固件芯片老化后,BIOS启动过程中在枚举设备时候就会概率性出错,当遇到这种影响系统正常工作的关键错误时,软件一般的处理方法是终止启动。在客户使用设备的过程中难免发生器件老化的情况,如果出现类似问题系统就无法启动,影响用户体验。
目前当遇到概率性设备枚举异常的时候,一般做法是重启设备,多次重启后一般可以避过枚举异常的问题,而正常启动。但这将极大的影响用户体验,影响用户对产品稳定性的认可程度。
再者,若器件出现了不可修复的错误,重启也不能解决,只有更换器件,才能保证设备功能的完整性。但如果在客户手中,现在表现的问题就是设备无法开机的严重故障,对于BIOS的日志,客户即使能够看到,应该也是无法理解。这种界面是极其不友好的。BIOS里如果简单的跳过这个故障,BIOS可以正常启动,但内核在启动的时候还会枚举设备,依然会出现无法开机的错误。
此为现有技术的不足,因此,针对现有技术中的上述缺陷,提供一种器件老化导致系统无法正常启动的改进办法及装置,是非常有必要的。
发明内容
针对现有技术的上述存储设备芯片及固件芯片老化导致枚举设备概率性出错,影响系统正常启动,影响用户体验的缺陷,本发明提一种器件老化导致系统无法正常启动的改进办法及装置,以解决上述技术问题。
第一方面,本发明提供一种器件老化导致系统无法正常启动的改进办法,包括如下步骤:
S1.设置BIOS在启动过程中枚举设备异常时,进行设定次数的重启,并在重启失败后,判定设备故障,将故障设备的链路控制寄存器状态设置为非使能,再将故障设备信息发送到操作系统和BMC;
S2.设置内核启动过程中,对各PCIE端口的链路控制寄存器进行检测,将标记为非使能状态的PCIE端口对应PCIE链路的故障设备,结合故障设备信息进行屏蔽,不进行枚举,再继续内核启动过程,直至操作系统启动;
S3.设置BMC将接收的故障设备信息进行解析,并进行可视化展示。
进一步地,步骤S1具体步骤如下:
S11.在BIOS中添加重启模块;
S12.当BIOS在启动过程中枚举设备异常时,根据重启模块进行设定次数的重启,并在重启失败后,判定设备故障;
S13.BIOS获取故障设备的上行口的配置空间的链路控制寄存器;
S14.BIOS将链路控制器寄存器中的链路状态寄存器设置为非使能;
S15.BIOS将故障设备信息通过ACPI表传递到操作系统,并将故障设备信息以IPMI协议包的形式发送给BMC。通过链路状态寄存器对故障设备进行标记。
进一步地,步骤S12具体步骤如下:
S121.当BIOS在启动过程中枚举设备异常时,通过重启模块进行重启,并判断是否重启成功;
若是,进入步骤S122;
若否,进入步骤S123;
S122.继续进行内核启动,直至完成操作系统启动,结束;
S123.BIOS通过重启模块判断该枚举设备异常的重启次数是否达到设定次数;
若是,判定设备故障,进入步骤S13;
若否,返回步骤S121。设定次数取合适的值,可以保证重启后,消除概率性出错的枚举设备异常。
进一步地,步骤S2具体步骤如下:
S21.设置内核启动过程中,对各PCIE端口所在PCIE链路的链路状态寄存器进行检测,判断是否为非使能状态;
若是,进入步骤S23;
若否,进入步骤S22;
S22.判断PCIE端口是否检查完毕;
若是,进入步骤S24;
若否,返回步骤S21;
S23.解析ACPI表中故障设备信息,将该非使能状态PCIE链路的故障设备设置为屏蔽设备,而将使能状态PCIE链路的设备设置为非屏蔽设备;
S24.设置内核启动过程继续进行,对非屏蔽设备进行枚举,而不对屏蔽设备信息枚举,直至操作系统正常启动。内核启动过程对BIOS启动阶段标记的故障设备进行屏蔽,从而避免枚举失败导致的内核启动异常。
进一步地,步骤S3具体步骤如下:
S31.BMC对BIOS发送的IPMI协议包进行解析,获取到故障设备信息;
S32.BMC将故障设备信息以图形界面的形式进行展示。通过图形化展示的方式,使得运维人员和用户及时获知故障设备信息,节省运维成本,提高用户体验效果。
第二方面,本发明提供一种器件老化导致系统无法正常启动的改进装置,包括:
故障设备信息判定模块,用于设置BIOS在启动过程中枚举设备异常时,进行设定次数的重启,并在重启失败后,判定设备故障,将故障设备的链路控制寄存器状态设置为非使能,再将故障设备信息发送到操作系统和BMC;
内核启动过程故障设备屏蔽模块,用于设置内核启动过程中,对各PCIE端口的链路控制寄存器进行检测,将标记为非使能状态的PCIE端口对应PCIE链路的故障设备,结合故障设备信息进行屏蔽,不进行枚举,再继续内核启动过程,直至操作系统启动;
故障设备展示模块,用于设置BMC将接收的故障设备信息进行解析,并进行可视化展示。
进一步地,故障设备信息判定模块包括:
重启模块添加单元,用于在BIOS中添加重启模块;
设备故障判定单元,用于当BIOS在启动过程中枚举设备异常时,根据重启模块进行设定次数的重启,并在重启失败后,判定设备故障;
链路控制寄存器获取单元,用于BIOS获取故障设备的上行口的配置空间的链路控制寄存器;
链路状态寄存器设置单元,用于BIOS将链路控制器寄存器中的链路状态寄存器设置为非使能;
故障设备信息发送单元,用于BIOS将故障设备信息通过ACPI表传递到操作系统,并将故障设备信息以IPMI协议包的形式发送给BMC。
进一步,设备故障判定单元包括:
重启成功判断子单元,用于当BIOS在启动过程中枚举设备异常时,通过重启模块进行重启,并判断是否重启成功;
启动继续子单元,用于重启成功时,继续进行内核启动,直至完成操作系统启动;
重启次数判断子单元,用于重启失败时,BIOS通过重启模块判断该枚举设备异常的重启次数是否达到设定次数;
设备故障判定子单元,用于重启设备且重启次数到达设定系数,判定设备故障。
进一步地,内核启动过程故障设备屏蔽模块包括:
链路状态寄存器检测单元,用于设置内核启动过程中,对各PCIE端口所在PCIE链路的链路状态寄存器进行检测,判断是否为非使能状态;
PCIE端口检查完毕判断单元,用于链路状态寄存器非使能时,判断PCIE端口是否检查完毕;
设备标记单元,用于PCIE端口检查完毕时,解析ACPI表中故障设备信息,将该非使能状态PCIE链路的故障设备设置为屏蔽设备,而将使能状态PCIE链路的设备设置为非屏蔽设备;
故障设备屏蔽单元,用于设置内核启动过程继续进行,对非屏蔽设备进行枚举,而不对屏蔽设备信息枚举,直至操作系统正常启动。
进一步地,故障设备展示模块包括:
故障设备信息解析单元,用于BMC对BIOS发送的IPMI协议包进行解析,获取到故障设备信息;
故障设备信息展示单元,用于BMC将故障设备信息以图形界面的形式进行展示。
本发明的有益效果在于:
本发明提供的器件老化导致系统无法正常启动的改进办法及装置,通过在BIOS启动中重启的方式,修复枚举设备异常,对不能修复枚举设备异常,通过修改寄存器值的方式对设备进行标记,从而在内核启动时,对标记设备进行屏蔽,并通过BMC展示故障设备信息,从而保证系统正常启动,提高用户的体验效果。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的器件老化导致系统无法正常启动的改进办法实施例1流程示意图。
图2是本发明的器件老化导致系统无法正常启动的改进办法实施例2流程示意图。
图3是本发明的器件老化导致系统无法正常启动的改进装置示意图。
图中,1-故障设备信息判定模块;1.1-重启模块添加单元;1.2-设备故障判定单元;1.3-链路控制寄存器获取单元;1.4-链路状态寄存器设置单元;1.5-故障设备信息发送单元;2-内核启动过程故障设备屏蔽模块;2.1-链路状态寄存器检测单元;2.2-PCIE端口检查完毕判断单元;2.3-设备标记单元;2.4-故障设备屏蔽单元;3-故障设备展示模块;3.1-故障设备信息解析单元;3.2-故障设备信息展示单元。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
ACPI,是Advanced Configuration and Power Interface,高级配置电源接口,在系统启动阶段由BIOS/UEFI收集系统各方面信息并创建的,它大致以树形的组织形式存在系统物理内存中。
实施例1:
如图1所示,本发明提供一种器件老化导致系统无法正常启动的改进办法,包括如下步骤:
S1.设置BIOS在启动过程中枚举设备异常时,进行设定次数的重启,并在重启失败后,判定设备故障,将故障设备的链路控制寄存器状态设置为非使能,再将故障设备信息发送到操作系统和BMC;
S2.设置内核启动过程中,对各PCIE端口的链路控制寄存器进行检测,将标记为非使能状态的PCIE端口对应PCIE链路的故障设备,结合故障设备信息进行屏蔽,不进行枚举,再继续内核启动过程,直至操作系统启动;
S3.设置BMC将接收的故障设备信息进行解析,并进行可视化展示。
本发明提供的器件老化导致系统无法正常启动的改进办法,通过在BIOS启动中重启的方式,修复枚举设备异常,对不能修复枚举设备异常,通过修改寄存器值的方式对设备进行标记,从而在内核启动时,对标记设备进行屏蔽,并通过BMC展示故障设备信息,从而保证系统正常启动,提高用户的体验效果。
实施例2:
如图2所示,本发明提供一种器件老化导致系统无法正常启动的改进办法,包括如下步骤:
S1.设置BIOS在启动过程中枚举设备异常时,进行设定次数的重启,并在重启失败后,判定设备故障,将故障设备的链路控制寄存器状态设置为非使能,再将故障设备信息发送到操作系统和BMC;具体步骤如下:
S11.在BIOS中添加重启模块;
S12.当BIOS在启动过程中枚举设备异常时,根据重启模块进行设定次数的重启,并在重启失败后,判定设备故障;
S13.BIOS获取故障设备的上行口的配置空间的链路控制寄存器;
S14.BIOS将链路控制器寄存器中的链路状态寄存器设置为非使能;
S15.BIOS将故障设备信息通过ACPI表传递到操作系统,并将故障设备信息以IPMI协议包的形式发送给BMC;
S2.设置内核启动过程中,对各PCIE端口的链路控制寄存器进行检测,将标记为非使能状态的PCIE端口对应PCIE链路的故障设备,结合故障设备信息进行屏蔽,不进行枚举,再继续内核启动过程,直至操作系统启动;具体步骤如下:
S21.设置内核启动过程中,对各PCIE端口所在PCIE链路的链路状态寄存器进行检测,判断是否为非使能状态;
若是,进入步骤S23;
若否,进入步骤S22;
S22.判断PCIE端口是否检查完毕;
若是,进入步骤S24;
若否,返回步骤S21;
S23.解析ACPI表中故障设备信息,将该非使能状态PCIE链路的故障设备设置为屏蔽设备,而将使能状态PCIE链路的设备设置为非屏蔽设备;
S24.设置内核启动过程继续进行,对非屏蔽设备进行枚举,而不对屏蔽设备信息枚举,直至操作系统正常启动;
S3.设置BMC将接收的故障设备信息进行解析,并进行可视化展示;具体步骤如下:
S31.BMC对BIOS发送的IPMI协议包进行解析,获取到故障设备信息;
S32.BMC将故障设备信息以图形界面的形式进行展示。
实施例3:
如图2所示,本发明提供一种器件老化导致系统无法正常启动的改进办法,包括如下步骤:
S1.设置BIOS在启动过程中枚举设备异常时,进行设定次数的重启,并在重启失败后,判定设备故障,将故障设备的链路控制寄存器状态设置为非使能,再将故障设备信息发送到操作系统和BMC;具体步骤如下:
S11.在BIOS中添加重启模块;
S12.当BIOS在启动过程中枚举设备异常时,根据重启模块进行设定次数的重启,并在重启失败后,判定设备故障;
S13.BIOS获取故障设备的上行口的配置空间的链路控制寄存器;
S14.BIOS将链路控制器寄存器中的链路状态寄存器设置为非使能;
S15.BIOS将故障设备信息通过ACPI表传递到操作系统,并将故障设备信息以IPMI协议包的形式发送给BMC;
S2.设置内核启动过程中,对各PCIE端口的链路控制寄存器进行检测,将标记为非使能状态的PCIE端口对应PCIE链路的故障设备,结合故障设备信息进行屏蔽,不进行枚举,再继续内核启动过程,直至操作系统启动;具体步骤如下:
S21.设置内核启动过程中,对各PCIE端口所在PCIE链路的链路状态寄存器进行检测,判断是否为非使能状态;
若是,进入步骤S23;
若否,进入步骤S22;
S22.判断PCIE端口是否检查完毕;
若是,进入步骤S24;
若否,返回步骤S21;
S23.解析ACPI表中故障设备信息,将该非使能状态PCIE链路的故障设备设置为屏蔽设备,而将使能状态PCIE链路的设备设置为非屏蔽设备;
S24.设置内核启动过程继续进行,对非屏蔽设备进行枚举,而不对屏蔽设备信息枚举,直至操作系统正常启动;
S3.设置BMC将接收的故障设备信息进行解析,并进行可视化展示;具体步骤如下:
S31.BMC对BIOS发送的IPMI协议包进行解析,获取到故障设备信息;
S32.BMC将故障设备信息以图形界面的形式进行展示。
实施例4:
如图3所示,本发明提供一种器件老化导致系统无法正常启动的改进装置,包括:
故障设备信息判定模块1,用于设置BIOS在启动过程中枚举设备异常时,进行设定次数的重启,并在重启失败后,判定设备故障,将故障设备的链路控制寄存器状态设置为非使能,再将故障设备信息发送到操作系统和BMC;
内核启动过程故障设备屏蔽模块2,用于设置内核启动过程中,对各PCIE端口的链路控制寄存器进行检测,将标记为非使能状态的PCIE端口对应PCIE链路的故障设备,结合故障设备信息进行屏蔽,不进行枚举,再继续内核启动过程,直至操作系统启动;
故障设备展示模块3,用于设置BMC将接收的故障设备信息进行解析,并进行可视化展示。
本发明提供的器件老化导致系统无法正常启动的改进办法及装置,通过在BIOS启动中重启的方式,修复枚举设备异常,对不能修复枚举设备异常,通过修改寄存器值的方式对设备进行标记,从而在内核启动时,对标记设备进行屏蔽,并通过BMC展示故障设备信息,从而保证系统正常启动,提高用户的体验效果。
实施例5:
如图3所示,本发明提供一种器件老化导致系统无法正常启动的改进装置,包括:
故障设备信息判定模块1,用于设置BIOS在启动过程中枚举设备异常时,进行设定次数的重启,并在重启失败后,判定设备故障,将故障设备的链路控制寄存器状态设置为非使能,再将故障设备信息发送到操作系统和BMC;故障设备信息判定模块1包括:
重启模块添加单元1.1,用于在BIOS中添加重启模块;
设备故障判定单元1.2,用于当BIOS在启动过程中枚举设备异常时,根据重启模块进行设定次数的重启,并在重启失败后,判定设备故障;
链路控制寄存器获取单元1.3,用于BIOS获取故障设备的上行口的配置空间的链路控制寄存器;
链路状态寄存器设置单元1.4,用于BIOS将链路控制器寄存器中的链路状态寄存器设置为非使能;
故障设备信息发送单元1.5,用于BIOS将故障设备信息通过ACPI表传递到操作系统,并将故障设备信息以IPMI协议包的形式发送给BMC;
内核启动过程故障设备屏蔽模块2,用于设置内核启动过程中,对各PCIE端口的链路控制寄存器进行检测,将标记为非使能状态的PCIE端口对应PCIE链路的故障设备,结合故障设备信息进行屏蔽,不进行枚举,再继续内核启动过程,直至操作系统启动;内核启动过程故障设备屏蔽模块2包括:
链路状态寄存器检测单元2.1,用于设置内核启动过程中,对各PCIE端口所在PCIE链路的链路状态寄存器进行检测,判断是否为非使能状态;
PCIE端口检查完毕判断单元2.2,用于链路状态寄存器非使能时,判断PCIE端口是否检查完毕;
设备标记单元2.3,用于PCIE端口检查完毕时,解析ACPI表中故障设备信息,将该非使能状态PCIE链路的故障设备设置为屏蔽设备,而将使能状态PCIE链路的设备设置为非屏蔽设备;
故障设备屏蔽单元2.4,用于设置内核启动过程继续进行,对非屏蔽设备进行枚举,而不对屏蔽设备信息枚举,直至操作系统正常启动;
故障设备展示模块3,用于设置BMC将接收的故障设备信息进行解析,并进行可视化展示;故障设备展示模块3包括:
故障设备信息解析单元3.1,用于BMC对BIOS发送的IPMI协议包进行解析,获取到故障设备信息;
故障设备信息展示单元3.2,用于BMC将故障设备信息以图形界面的形式进行展示。
实施例6:
如图3所示,本发明提供一种器件老化导致系统无法正常启动的改进装置,包括:
故障设备信息判定模块1,用于设置BIOS在启动过程中枚举设备异常时,进行设定次数的重启,并在重启失败后,判定设备故障,将故障设备的链路控制寄存器状态设置为非使能,再将故障设备信息发送到操作系统和BMC;故障设备信息判定模块1包括:
重启模块添加单元1.1,用于在BIOS中添加重启模块;
设备故障判定单元1.2,用于当BIOS在启动过程中枚举设备异常时,根据重启模块进行设定次数的重启,并在重启失败后,判定设备故障;设备故障判定单元1.2包括:
重启成功判断子单元,用于当BIOS在启动过程中枚举设备异常时,通过重启模块进行重启,并判断是否重启成功;
启动继续子单元,用于重启成功时,继续进行内核启动,直至完成操作系统启动;
重启次数判断子单元,用于重启失败时,BIOS通过重启模块判断该枚举设备异常的重启次数是否达到设定次数;
设备故障判定子单元,用于重启设备且重启次数到达设定系数,判定设备故障;
链路控制寄存器获取单元1.3,用于BIOS获取故障设备的上行口的配置空间的链路控制寄存器;
链路状态寄存器设置单元1.4,用于BIOS将链路控制器寄存器中的链路状态寄存器设置为非使能;
故障设备信息发送单元1.5,用于BIOS将故障设备信息通过ACPI表传递到操作系统,并将故障设备信息以IPMI协议包的形式发送给BMC;
内核启动过程故障设备屏蔽模块2,用于设置内核启动过程中,对各PCIE端口的链路控制寄存器进行检测,将标记为非使能状态的PCIE端口对应PCIE链路的故障设备,结合故障设备信息进行屏蔽,不进行枚举,再继续内核启动过程,直至操作系统启动;内核启动过程故障设备屏蔽模块2包括:
链路状态寄存器检测单元2.1,用于设置内核启动过程中,对各PCIE端口所在PCIE链路的链路状态寄存器进行检测,判断是否为非使能状态;
PCIE端口检查完毕判断单元2.2,用于链路状态寄存器非使能时,判断PCIE端口是否检查完毕;
设备标记单元2.3,用于PCIE端口检查完毕时,解析ACPI表中故障设备信息,将该非使能状态PCIE链路的故障设备设置为屏蔽设备,而将使能状态PCIE链路的设备设置为非屏蔽设备;
故障设备屏蔽单元2.4,用于设置内核启动过程继续进行,对非屏蔽设备进行枚举,而不对屏蔽设备信息枚举,直至操作系统正常启动;
故障设备展示模块3,用于设置BMC将接收的故障设备信息进行解析,并进行可视化展示;故障设备展示模块3包括:
故障设备信息解析单元3.1,用于BMC对BIOS发送的IPMI协议包进行解析,获取到故障设备信息;
故障设备信息展示单元3.2,用于BMC将故障设备信息以图形界面的形式进行展示。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种器件老化导致系统无法正常启动的改进办法,其特征在于,包括如下步骤:
S1.设置BIOS在启动过程中枚举设备异常时,进行设定次数的重启,并在重启失败后,判定设备故障,将故障设备的链路控制寄存器状态设置为非使能,再将故障设备信息发送到操作系统和BMC;
S2.设置内核启动过程中,对各PCIE端口的链路控制寄存器进行检测,将标记为非使能状态的PCIE端口对应PCIE链路的故障设备,结合故障设备信息进行屏蔽,不进行枚举,再继续内核启动过程,直至操作系统启动;
S3.设置BMC将接收的故障设备信息进行解析,并进行可视化展示。
2.如权利要求1所述的器件老化导致系统无法正常启动的改进办法,其特征在于,步骤S1具体步骤如下:
S11.在BIOS中添加重启模块;
S12.当BIOS在启动过程中枚举设备异常时,根据重启模块进行设定次数的重启,并在重启失败后,判定设备故障;
S13.BIOS获取故障设备的上行口的配置空间的链路控制寄存器;
S14.BIOS将链路控制器寄存器中的链路状态寄存器设置为非使能;
S15.BIOS将故障设备信息通过ACPI表传递到操作系统,并将故障设备信息以IPMI协议包的形式发送给BMC。
3.如权利要求2所述的器件老化导致系统无法正常启动的改进办法,其特征在于,步骤S12具体步骤如下:
S121.当BIOS在启动过程中枚举设备异常时,通过重启模块进行重启,并判断是否重启成功;
若是,进入步骤S122;
若否,进入步骤S123;
S122.继续进行内核启动,直至完成操作系统启动,结束;
S123.BIOS通过重启模块判断该枚举设备异常的重启次数是否达到设定次数;
若是,判定设备故障,进入步骤S13;
若否,返回步骤S121。
4.如权利要求2所述的器件老化导致系统无法正常启动的改进办法,其特征在于,步骤S2具体步骤如下:
S21.设置内核启动过程中,对各PCIE端口所在PCIE链路的链路状态寄存器进行检测,判断是否为非使能状态;
若是,进入步骤S23;
若否,进入步骤S22;
S22.判断PCIE端口是否检查完毕;
若是,进入步骤S24;
若否,返回步骤S21;
S23.解析ACPI表中故障设备信息,将该非使能状态PCIE链路的故障设备设置为屏蔽设备,而将使能状态PCIE链路的设备设置为非屏蔽设备;
S24.设置内核启动过程继续进行,对非屏蔽设备进行枚举,而不对屏蔽设备信息枚举,直至操作系统正常启动。
5.如权利要求2所述的器件老化导致系统无法正常启动的改进办法,其特征在于,步骤S3具体步骤如下:
S31.BMC对BIOS发送的IPMI协议包进行解析,获取到故障设备信息;
S32.BMC将故障设备信息以图形界面的形式进行展示。
6.一种器件老化导致系统无法正常启动的改进装置,其特征在于,包括:
故障设备信息判定模块(1),用于设置BIOS在启动过程中枚举设备异常时,进行设定次数的重启,并在重启失败后,判定设备故障,将故障设备的链路控制寄存器状态设置为非使能,再将故障设备信息发送到操作系统和BMC;
内核启动过程故障设备屏蔽模块(2),用于设置内核启动过程中,对各PCIE端口的链路控制寄存器进行检测,将标记为非使能状态的PCIE端口对应PCIE链路的故障设备,结合故障设备信息进行屏蔽,不进行枚举,再继续内核启动过程,直至操作系统启动;
故障设备展示模块(3),用于设置BMC将接收的故障设备信息进行解析,并进行可视化展示。
7.如权利要求6所述的器件老化导致系统无法正常启动的改进装置,其特征在于,故障设备信息判定模块(1)包括:
重启模块添加单元(1.1),用于在BIOS中添加重启模块;
设备故障判定单元(1.2),用于当BIOS在启动过程中枚举设备异常时,根据重启模块进行设定次数的重启,并在重启失败后,判定设备故障;
链路控制寄存器获取单元(1.3),用于BIOS获取故障设备的上行口的配置空间的链路控制寄存器;
链路状态寄存器设置单元(1.4),用于BIOS将链路控制器寄存器中的链路状态寄存器设置为非使能;
故障设备信息发送单元(1.5),用于BIOS将故障设备信息通过ACPI表传递到操作系统,并将故障设备信息以IPMI协议包的形式发送给BMC。
8.如权利要求7所述的器件老化导致系统无法正常启动的改进装置,其特征在于,设备故障判定单元(1.2)包括:
重启成功判断子单元,用于当BIOS在启动过程中枚举设备异常时,通过重启模块进行重启,并判断是否重启成功;
启动继续子单元,用于重启成功时,继续进行内核启动,直至完成操作系统启动;
重启次数判断子单元,用于重启失败时,BIOS通过重启模块判断该枚举设备异常的重启次数是否达到设定次数;
设备故障判定子单元,用于重启设备且重启次数到达设定系数,判定设备故障。
9.如权利要求7所述的器件老化导致系统无法正常启动的改进装置,其特征在于,内核启动过程故障设备屏蔽模块(2)包括:
链路状态寄存器检测单元(2.1),用于设置内核启动过程中,对各PCIE端口所在PCIE链路的链路状态寄存器进行检测,判断是否为非使能状态;
PCIE端口检查完毕判断单元(2.2),用于链路状态寄存器非使能时,判断PCIE端口是否检查完毕;
设备标记单元(2.3),用于PCIE端口检查完毕时,解析ACPI表中故障设备信息,将该非使能状态PCIE链路的故障设备设置为屏蔽设备,而将使能状态PCIE链路的设备设置为非屏蔽设备;
故障设备屏蔽单元(2.4),用于设置内核启动过程继续进行,对非屏蔽设备进行枚举,而不对屏蔽设备信息枚举,直至操作系统正常启动。
10.如权利要求7所述的器件老化导致系统无法正常启动的改进装置,其特征在于,故障设备展示模块(3)包括:
故障设备信息解析单元(3.1),用于BMC对BIOS发送的IPMI协议包进行解析,获取到故障设备信息;
故障设备信息展示单元(3.2),用于BMC将故障设备信息以图形界面的形式进行展示。
CN202111410108.4A 2021-11-25 2021-11-25 一种器件老化导致系统无法正常启动的改进办法及装置 Withdrawn CN114253610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111410108.4A CN114253610A (zh) 2021-11-25 2021-11-25 一种器件老化导致系统无法正常启动的改进办法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111410108.4A CN114253610A (zh) 2021-11-25 2021-11-25 一种器件老化导致系统无法正常启动的改进办法及装置

Publications (1)

Publication Number Publication Date
CN114253610A true CN114253610A (zh) 2022-03-29

Family

ID=80791176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111410108.4A Withdrawn CN114253610A (zh) 2021-11-25 2021-11-25 一种器件老化导致系统无法正常启动的改进办法及装置

Country Status (1)

Country Link
CN (1) CN114253610A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115766402A (zh) * 2023-01-09 2023-03-07 苏州浪潮智能科技有限公司 服务器故障根因的过滤方法和装置、存储介质及电子装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115766402A (zh) * 2023-01-09 2023-03-07 苏州浪潮智能科技有限公司 服务器故障根因的过滤方法和装置、存储介质及电子装置

Similar Documents

Publication Publication Date Title
US20240012706A1 (en) Method, system and apparatus for fault positioning in starting process of server
US7774651B2 (en) System and method to detect errors and predict potential failures
US7266727B2 (en) Computer boot operation utilizing targeted boot diagnostics
WO2017063505A1 (zh) 一种服务器硬件故障检测方法及其装置和服务器
CN110750396B (zh) 一种服务器操作系统兼容性测试方法、装置及存储介质
CN110928743B (zh) 一种计算系统、自动诊断方法及存储有其指令的介质
CN103198000A (zh) 一种linux系统下的故障内存位置定位方法
US11853150B2 (en) Method and device for detecting memory downgrade error
WO2022228499A1 (zh) 一种PCIe故障自修复方法、装置、设备及可读存储介质
CN112732477B (zh) 一种带外自检故障隔离的方法
US20080270827A1 (en) Recovering diagnostic data after out-of-band data capture failure
CN105718340A (zh) 一种基于Crontab的CPU稳定性的测试方法
CN101989220A (zh) 压力测试方法
CN114253610A (zh) 一种器件老化导致系统无法正常启动的改进办法及装置
CN114003417A (zh) 实现raid卡故障自动转存的方法、装置及存储介质
TW202238383A (zh) 電腦系統、電腦伺服器及其啟動方法
CN111240913B (zh) 一种服务器dqs报错内存批量测试方法及装置
CN107168819B (zh) 一种操作系统重启方法及装置
CN112463504B (zh) 一种双控存储产品测试方法、系统、终端及存储介质
JP6217086B2 (ja) 情報処理装置、エラー検出機能診断方法およびコンピュータプログラム
CN114281639A (zh) 一种存储服务器故障sas物理链路屏蔽装置及方法
CN114138600A (zh) 一种固件关键信息的存储方法、装置、设备及存储介质
CN102023916A (zh) 电脑系统的检测方法
CN111290920B (zh) 基于peci总线测试cpu温度的系统、方法及存储介质
CN114546745B (zh) 一种能在可信启动的过程中辨别故障程序段的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220329