CN113868001B - 一种内存修复结果的检查方法、系统及计算机存储介质 - Google Patents

一种内存修复结果的检查方法、系统及计算机存储介质 Download PDF

Info

Publication number
CN113868001B
CN113868001B CN202111065872.2A CN202111065872A CN113868001B CN 113868001 B CN113868001 B CN 113868001B CN 202111065872 A CN202111065872 A CN 202111065872A CN 113868001 B CN113868001 B CN 113868001B
Authority
CN
China
Prior art keywords
memory
repair
result
repair result
smt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111065872.2A
Other languages
English (en)
Other versions
CN113868001A (zh
Inventor
唐建亮
李道童
郑媛
金立江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111065872.2A priority Critical patent/CN113868001B/zh
Publication of CN113868001A publication Critical patent/CN113868001A/zh
Application granted granted Critical
Publication of CN113868001B publication Critical patent/CN113868001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本发明提供了一种内存修复结果的检查方法、系统及计算机存储介质,所述方法包括在基本输入输出系统中设置内存修复结果的发送对象;执行内存的故障修复;保存当前的执行时间,并将修复结果发送给所述发送对象。本发明在BIOS中约定内存修复结果的发送对象,服务器在执行完内存修复操作SMT后,将结果发送给带外BMC,便于查看,用户能够快速了解故障内存的修复情况,对不能修复的可及时更换并进行智能统计。同时运营不再需要去找业务申请OS权限,减少了运维人员的操作,降低了内存故障率的发生,保障了业务的流畅运行,提高了安全性,节约人力资源。

Description

一种内存修复结果的检查方法、系统及计算机存储介质
技术领域
本发明涉及内存修复技术领域,尤其是一种内存修复结果的检查方法、系统及计算机存储介质。
背景技术
BIOS(Basic Input and Output System,基本输入输出系统)是一组固化到计算机内主板上一个ROM(Read-Only Memory,只读存储器)芯片上的程序,它保存着计算机最重要的开机上电自检、硬件初始化程序和系统底层的服务程序等。
现在的服务器基本上都是24小时不间断运行,出现一些内存故障是比较正常的情况。数据显示虽然内存故障仅占服务器总故障的3%,但是每一个内存故障都可能导致系统崩溃。因此,最大限度地避免内存故障对于系统级安全至关重要。
现有内存修复技术SMT(Smart-PPR,内存厂家的内存故障筛查与修复技术)的修复结果往往也只能OS(operating system,操作系统)下带内查看,操作复杂。
发明内容
本发明提供了一种内存修复结果的检查方法、系统及计算机存储介质,用于解决现有内存修复结果无法进行带外查看的问题。
为实现上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种内存修复结果的检查方法,所述方法包括以下步骤:
在基本输入输出系统中设置内存修复结果的发送对象;
执行内存的故障修复;
保存当前的执行时间,并将修复结果发送给所述发送对象。
进一步地,所述方法还包括:
所述发送对象对所述修复结果进行分析,当内存修复失败时,对当前内存条进行报错。
进一步地,所述方法还包括步骤:
所述发送对象对所述修复结果进行分析,若在设定时间内,对同一内存的修复次数超过预设阈值,且每次修复结果中都存在行替换,则对当前内存条进行报错。
进一步地,所述发送对象为基板管理控制器或逻辑可编程器件。
进一步地,所述执行内存的故障修复的触发条件为:
操作系统业务执行过程中出现内存错误,触发系统管理中断;
基本输入输出系统在中断过程中通知基板管理控制器将SMT置位执行标志位。
进一步地,所述执行内存的故障修复的触发条件为:
通过智能平台管理接口命令远程控制SMT执行选项使能。
进一步地,所述执行内存的故障修复的触发条件为:
设定执行时间阈值;
服务器冷重启时,检测当前时间与上次执行时间的时间间隔是否超过所述执行时间阈值,若超过,则触发SMT执行。
本发明第二方面提供了一种内存修复结果的检查系统,所述系统包括:
命令重定向单元,用于在基本输入输出系统中设置内存修复结果的发送对象;
故障修复单元,用于执行内存的故障修复;
结果处理单元,用于保存当前的执行时间,并将修复结果发送给所述发送对象。
进一步地,所述系统还包括结果分析单元,所述结果分析单元包括:
第一报警子单元,用于对所述修复结果进行分析,当内存修复失败时,对当前内存条进行报错;
第二报警子单元,用于对所述修复结果进行分析,若在设定时间内,对同一内存的修复次数超过预设阈值,且每次修复结果中都存在行替换,则对当前内存条进行报错。
本发明第三方面提供了一种计算机存储介质,所述计算机存储介质中存储有计算机指令,所述计算机指令在所述系统上运行时,使所述系统执行所述方法的步骤。
本发明第二方面的所述检查系统能够实现第一方面及第一方面的各实现方式中的方法,并取得相同的效果。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
1、本发明在BIOS中约定内存修复结果的发送对象,服务器在执行完内存修复操作SMT后,将结果发送给带外BMC,便于查看,用户能够快速了解故障内存的修复情况,对不能修复的可及时更换并进行智能统计。同时运营不再需要去找业务申请OS权限,减少了运维人员的操作,降低了内存故障率的发生,保障了业务的流畅运行,提高了安全性,节约人力资源。
2、内存修复的触发方式,本发明实施例分别提供了IPMI命令远程控制触发、OS下触发内存CE后触发以及上次执行SMT间隔超过执行时间阈值后自动触发,适用于多种应用场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述方法实施例的流程示意图;
图2是本发明所述方法实施例中其一实现方式的流程示意图;
图3是本发明所述系统的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明实施例提供的一种内存修复结果的检查方法,包括以下步骤:
S1,在基本输入输出系统中设置内存修复结果的发送对象;
S2,执行内存的故障修复;
S3,保存当前的执行时间,并将修复结果发送给所述发送对象。
步骤S1中的发送对象包括基板管理控制器BMC或逻辑可编程器件等带外选项。逻辑可编程器件为CPLD(Complex Programmable logic device,复杂可编程逻辑器件)或FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列)。
如图2所示,上述步骤的具体实现过程示意。图2中给出了步骤S2中执行内存故障修复的不同触发方式。
在服务器开机上电后,操作系统OS下持续运行业务。当业务出现内存CE(correctable error,可纠正错误)错误时,触发SMI(系统管理中断)中断,BIOS会在中断中通知BMC,BMC置位SMT执行标志位。当业务空闲执行冷重启时BIOS获取到SMT执行标志位置位,开始执行SMT,执行完成后SMT标志位清零,保存当前执行时间,并上报结果给BMC。
本发明触发执行内存故障修复SMT的另一实现方式为:用于在需要时,通过IPMI(Intelligent Platform Management Interface,智能平台管理接口)命令远程控制SMT执行选项使能。当服务器冷重启时,开始执行SMT。执行完后SMT执行选项复原,并上报结果给BMC。
本发明触发执行内存故障修复SMT的另一实现方式为:设定执行时间阈值,服务器冷重启时,检测当前时间与上次执行时间的时间间隔是否超过所述执行时间阈值,若超过,则触发SMT执行。执行完后更新之前保存的时间记录,并上报结果给BMC。所述执行时间阈值根据需求设定,如180天。
本发明所述方法的另一实施例,在上述实施例的基础上,所述方法还包括:
所述发送对象对所述修复结果进行分析,当内存修复失败时,对当前内存条进行报错,显示故障内存条状态并提示更换。
本发明所述方法的另一实施例,在上述实施例的基础上,所述方法还包括:
所述发送对象对所述修复结果进行分析,若在设定时间内,对同一内存的修复次数超过预设阈值,且每次修复结果中都存在行替换,则对当前内存条进行报错。其中设定时间可设置为3个月,预设阈值可设置为3次。本实施例中,对于修复成功的情况进行了进一步处理,若在设定时间内修复次数超过预设阈值,即使修复成功,但在修复后均发生了行替换,说明该内存条其性能已经不能满足使用需求,直接提示更换。
如图3所示,本发明实施例提供的一种内存修复结果的检查系统,包括命令重定向单元1、故障修复单元2、结果处理单元3和结果分析单元4。
命令重定向单元1用于在基本输入输出系统中设置内存修复结果的发送对象;故障修复单元2用于执行内存的故障修复;结果处理单元3用于保存当前的执行时间,并将修复结果发送给所述发送对象。
所述结果分析单元4包括第一报警子单元41和第二报警子单元42。
第一报警子单元41用于对所述修复结果进行分析,当内存修复失败时,对当前内存条进行报错;第二报警子单元42用于对所述修复结果进行分析,若在设定时间内,对同一内存的修复次数超过预设阈值,且每次修复结果中都存在行替换,则对当前内存条进行报错。
检查系统还包括内存修复触发单元,所述内存修复触发单元基于以下三种形式的其中之一,触发执行内存修复SMT。
触发形式其一:操作系统业务执行过程中出现内存错误,触发系统管理中断;
基本输入输出系统在中断过程中通知基板管理控制器将SMT置位执行标志位。
触发形式其二:通过智能平台管理接口命令远程控制SMT执行选项使能。
触发形式其三:设定执行时间阈值;服务器冷重启时,检测当前时间与上次执行时间的时间间隔是否超过所述执行时间阈值,若超过,则触发SMT执行。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质中存储有计算机指令,所述计算机指令在系统上运行时,使所述系统执行所述方法的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种内存修复结果的检查方法,其特征是,所述方法包括以下步骤:
在基本输入输出系统中设置内存修复结果的发送对象;
执行内存的故障修复;
保存当前的执行时间,并将修复结果发送给所述发送对象;
所述执行内存的故障修复的触发条件为:
操作系统业务执行过程中出现内存错误,触发系统管理中断;
基本输入输出系统在中断过程中通知基板管理控制器将SMT置位执行标志位;
其中,SMT为内存厂家的内存故障筛查与修复技术。
2.根据权利要求1所述内存修复结果的检查方法,其特征是,所述方法还包括:
所述发送对象对所述修复结果进行分析,当内存修复失败时,对当前内存条进行报错。
3.根据权利要求2所述内存修复结果的检查方法,其特征是,所述方法还包括步骤:
所述发送对象对所述修复结果进行分析,若在设定时间内,对同一内存的修复次数超过预设阈值,且每次修复结果中都存在行替换,则对当前内存条进行报错。
4.根据权利要求1所述内存修复结果的检查方法,其特征是,所述发送对象为基板管理控制器或逻辑可编程器件。
5.根据权利要求1-3任一项所述内存修复结果的检查方法,其特征是,所述执行内存的故障修复的触发条件为:
通过智能平台管理接口命令远程控制SMT执行选项使能。
6.根据权利要求1-3任一项所述内存修复结果的检查方法,其特征是,所述执行内存的故障修复的触发条件为:
设定执行时间阈值;
服务器冷重启时,检测当前时间与上次执行时间的时间间隔是否超过所述执行时间阈值,若超过,则触发SMT执行。
7.一种内存修复结果的检查系统,其特征是,所述系统包括:
命令重定向单元,用于在基本输入输出系统中设置内存修复结果的发送对象;
故障修复单元,用于执行内存的故障修复;
所述执行内存的故障修复的触发条件为:
操作系统业务执行过程中出现内存错误,触发系统管理中断;
基本输入输出系统在中断过程中通知基板管理控制器将SMT置位执行标志位;
其中,SMT为内存厂家的内存故障筛查与修复技术;
结果处理单元,用于保存当前的执行时间,并将修复结果发送给所述发送对象。
8.根据权利要求7所述内存修复结果的检查系统,其特征是,所述系统还包括结果分析单元,所述结果分析单元包括:
第一报警子单元,用于对所述修复结果进行分析,当内存修复失败时,对当前内存条进行报错;
第二报警子单元,用于对所述修复结果进行分析,若在设定时间内,对同一内存的修复次数超过预设阈值,且每次修复结果中都存在行替换,则对当前内存条进行报错。
9.一种计算机存储介质,所述计算机存储介质中存储有计算机指令,其特征是,所述计算机指令在权利要求7或8所述系统上运行时,使所述系统执行如权利要求1-3任一项所述方法的步骤。
CN202111065872.2A 2021-09-10 2021-09-10 一种内存修复结果的检查方法、系统及计算机存储介质 Active CN113868001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111065872.2A CN113868001B (zh) 2021-09-10 2021-09-10 一种内存修复结果的检查方法、系统及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111065872.2A CN113868001B (zh) 2021-09-10 2021-09-10 一种内存修复结果的检查方法、系统及计算机存储介质

Publications (2)

Publication Number Publication Date
CN113868001A CN113868001A (zh) 2021-12-31
CN113868001B true CN113868001B (zh) 2023-08-08

Family

ID=78995539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111065872.2A Active CN113868001B (zh) 2021-09-10 2021-09-10 一种内存修复结果的检查方法、系统及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113868001B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117806855A (zh) * 2022-09-26 2024-04-02 华为技术有限公司 内存错误处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202167011U (zh) * 2011-06-10 2012-03-14 精英电脑股份有限公司 输出入系统修复装置
WO2016106965A1 (zh) * 2014-12-31 2016-07-07 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN112286709A (zh) * 2020-10-29 2021-01-29 苏州浪潮智能科技有限公司 一种服务器硬件故障的诊断方法、诊断装置及诊断设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202167011U (zh) * 2011-06-10 2012-03-14 精英电脑股份有限公司 输出入系统修复装置
WO2016106965A1 (zh) * 2014-12-31 2016-07-07 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN112286709A (zh) * 2020-10-29 2021-01-29 苏州浪潮智能科技有限公司 一种服务器硬件故障的诊断方法、诊断装置及诊断设备

Also Published As

Publication number Publication date
CN113868001A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
CN112948157B (zh) 服务器故障定位方法、装置、系统及计算机可读存储介质
US8713350B2 (en) Handling errors in a data processing system
US8839032B2 (en) Managing errors in a data processing system
US20240012706A1 (en) Method, system and apparatus for fault positioning in starting process of server
US9734015B2 (en) Pre-boot self-healing and adaptive fault isolation
CN104636221B (zh) 一种计算机系统故障处理方法和装置
US8984335B2 (en) Core diagnostics and repair
CN102571498B (zh) 故障注入控制方法和装置
US20150046748A1 (en) Information processing device and virtual machine control method
CN117389790B (zh) 可恢复故障的固件检测系统、方法、存储介质及服务器
CN113868001B (zh) 一种内存修复结果的检查方法、系统及计算机存储介质
CN110704228A (zh) 一种固态硬盘异常处理方法及系统
CN116820820A (zh) 服务器故障监测方法及系统
CN107528705B (zh) 故障处理方法及装置
CN114816022A (zh) 一种服务器电源异常监控方法、系统及存储介质
TWI779682B (zh) 電腦系統、電腦伺服器及其啟動方法
CN105426263A (zh) 一种实现金库系统安全运行的方法及系统
WO2015135100A1 (zh) 一种实现处理器切换的方法、计算机和切换装置
CN112231170B (zh) 一种数据交互卡监管方法、系统、终端及存储介质
CN114217925A (zh) 一种实现异常自动重启的业务程序运行监控方法及系统
CN105391575A (zh) 一种金库控制方法及系统
CN111459734A (zh) 一种故障监控周期的测试方法、系统及计算机存储介质
JP7389877B2 (ja) ネットワークの最適なブートパスの方法及びシステム
CN113836035B (zh) 电池管理系统测试方法、装置及电子设备
CN106339285A (zh) 一种linux系统意外重启的分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant