CN105808394A - 一种服务器自愈的方法和装置 - Google Patents

一种服务器自愈的方法和装置 Download PDF

Info

Publication number
CN105808394A
CN105808394A CN201410852000.4A CN201410852000A CN105808394A CN 105808394 A CN105808394 A CN 105808394A CN 201410852000 A CN201410852000 A CN 201410852000A CN 105808394 A CN105808394 A CN 105808394A
Authority
CN
China
Prior art keywords
bmc
memory
isolation
information
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410852000.4A
Other languages
English (en)
Other versions
CN105808394B (zh
Inventor
李军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing ZTE New Software Co Ltd
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201410852000.4A priority Critical patent/CN105808394B/zh
Priority to PCT/CN2015/073265 priority patent/WO2016106965A1/zh
Publication of CN105808394A publication Critical patent/CN105808394A/zh
Application granted granted Critical
Publication of CN105808394B publication Critical patent/CN105808394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Power Sources (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本发明提供一种服务器自愈的方法,所述方法包括:带外管理模块BMC接收基本输入输出系统BIOS发送的异常信息,所述故障信息包括异常类型和异常内存条标识;所述BMC或者系统管理模块SMM根据所述故障信息生成隔离内存信息,并对单板进行相应的处理;所述BMC将所述隔离内存信息发送给所述BIOS,所述隔离内存信息用于指示所述BIOS隔离相应内存。上述方案通过BMC、BIOS以及SMC的配合下,一起完成服务器自动自愈,减少人工现场干预和操作的可能,尽快恢复服务器的正常工作状态。

Description

一种服务器自愈的方法和装置
技术领域
本发明涉及服务器领域,具体涉及服务器自愈的方法和装置。
背景技术
目前运营商面临着巨大的挑战,必须能够快速整合网络资源来为用户提供最新的业务,同时也必须降低网络的采购成本、运营维护成本和故障恢复时间。运营商拥有的大量服务器安装了大量的内存,因为内存故障导致服务器异常的现象普遍存在,降低了运营商提供服务的稳定性,增加了故障恢复时间和维护成本。
在服务器中,BMC(BaseboardManagementController,带外管理模块)监控服务器的工作状态,管理服务器上、下电,服务器异常时及时处理并进行告警。BMC是作为一个独立固件存在,它可以接受SMM的指令,并将监控到的服务器异常信息上报给SMM(SystemManagementModule,系统管理模块);它还可以提供B/C(Browser/Client,管理界面浏览器/客户机),接受B/C的控制指令或下发的控制策略,返回给B/C服务器当前或者历史的健康状态。服务器内存的可靠性直接影响到单板的稳定和可靠性,内存出现问题直接导致业务中断,严重时会出现宕机现象。虽然大多高性能、高可靠性的服务器采用的都是带有ECC(ErrorCheckingandCorrecting,错误检查和纠正)功能的内存,但是对于系统的可靠性提升也有限。主要有如下几个方面:第一,出现可以纠正的ECC错误后,虽然带有此ECC功能的内存可以自动纠错,但是如果频繁发生,说明此内存存在严重隐患,因此这种自动纠错的处理方法相对被动,因为系统存在的严重隐患没有排除;第二,出现不可纠正的ECC或者其他不可恢复的错误后,系统会出现蓝屏或宕机等严重后果,此种严重后果如果没有带外参与,只能到现场人员将服务器关机、更换内存。
发明内容:
本发明提供一种服务器自愈的方法和装置,以减少人工现场干预和操作服务器故障的问题。
为解决上述技术问题,本发明提供一种一种服务器自愈的方法,所述方法包括:
带外管理模块BMC接收基本输入输出系统BIOS发送的异常信息,所述故障信息包括异常类型和异常内存条标识;
所述BMC或者系统管理模块SMM根据所述故障信息生成隔离内存信息,并对单板进行相应的处理;
所述BMC将所述隔离内存信息发送给所述BIOS,所述隔离内存信息用于指示所述BIOS隔离相应内存。
优选地,
所述异常类型包括不可恢复的内存错误;
所述BMC或者系统管理模块SMM根据所述故障信息生成隔离内存信息,并对单板进行相应的处理包括:
当所述BMC接收的所述异常信息的异常类型是所述不可恢复的内存错误,并且所述BMC配置有治愈功能时,所述BMC根据所述内存条标识生成所述隔离内存信息,并所述BMC对所述单板做下电再上电操作;
或者,
当所述BMC接收的所述异常信息的异常类型是所述不可恢复的内存错误,并且所述BMC未配置有治愈功能时,所述BMC将所述异常信息转发给所述SMM,所述SMM根据所述内存条标识生成所述隔离内存信息,并对所述单板做下电再上电操作。
优选地,
所述异常类型包括可恢复的内存错误;
所述BMC或者系统管理模块SMM根据所述故障信息生成隔离内存信息,并对单板进行相应的处理包括:
当所述BMC接收的所述异常信息的异常类型是可恢复的内存错误,并且所述BMC配置有治愈功能时,所述BMC对该异常信息对应的异常内存进行可恢复的内存错误次数和频度统计;当统计出的可恢复的内存错误次数或者频度达到了设定的隔离阈值时,所述BMC根据该内存条信息生成隔离内存信息,并对所述单板做下电再上电操作;
或者,
当所述BMC接收的所述异常信息的异常类型是可恢复的内存错误,并且所述BMC未配置有治愈功能时,所述BMC将所述异常信息转发给所述SMM;所述SMM对该异常信息对应的异常内存进行可恢复的内存错误次数和频度统计,当统计出的可恢复的内存错误次数或者频度达到了设定的隔离阈值时,所述SMM根据该内存条信息生成隔离内存信息,并对所述单板做下电再上电操作。
优选地,
所述BMC将所述隔离内存信息发送给所述BIOS包括:
所述BMC将其生成的所述隔离内存信息发送给所述BIOS;或者,所述BMC接收所述SMM生成的所述隔离内存信息后,将该隔离内存信息发送给所述BIOS。
优选地,
所述BMC接收所述BIOS发送的异常信息后还包括:
所述BMC将所述异常信息发送给界面浏览器B/客户机C。
本发明还提供一种服务器自愈的装置,所述装置包括:
信息处理模块,用于接收基本输入输出系统BIOS发送的异常信息,所述故障信息包括异常类型和异常内存条标识;
异常处理模块,用于根据所述故障信息生成隔离内存信息,并对单板进行相应的处理;
隔离模块,用于将所述隔离内存信息发送给所述BIOS,所述隔离内存信息用于指示所述BIOS隔离相应内存。
优选地,
所述异常类型包括不可恢复的内存错误;
异常处理模块用于根据所述故障信息生成隔离内存信息,并对单板进行相应的处理是指:
当所述BMC接收的所述异常信息的异常类型是所述不可恢复的内存错误,并且所述BMC配置有治愈功能时,所述BMC根据所述内存条标识生成所述隔离内存信息,并所述BMC对所述单板做下电再上电操作;
或者,
当所述BMC接收的所述异常信息的异常类型是所述不可恢复的内存错误,并且所述BMC未配置有治愈功能时,所述BMC将所述异常信息转发给所述SMM,所述SMM根据所述内存条标识生成所述隔离内存信息,并对所述单板做下电再上电操作。
优选地,
所述异常类型包括可恢复的内存错误;
异常处理模块用于根据所述故障信息生成隔离内存信息,并对单板进行相应的处理是指:
当所述BMC接收的所述异常信息的异常类型是可恢复的内存错误,并且所述BMC配置有治愈功能时,所述BMC对该异常信息对应的异常内存进行可恢复的内存错误次数和频度统计;当统计出的可恢复的内存错误次数或者频度达到了设定的隔离阈值时,所述BMC根据该内存条信息生成隔离内存信息,并对所述单板做下电再上电操作;
或者,
当所述BMC接收的所述异常信息的异常类型是可恢复的内存错误,并且所述BMC未配置有治愈功能时,所述BMC将所述异常信息转发给所述SMM;所述SMM对该异常信息对应的异常内存进行可恢复的内存错误次数和频度统计,当统计出的可恢复的内存错误次数或者频度达到了隔离阈值时,所述SMM根据该内存条信息生成隔离内存信息,并对所述单板做下电再上电操作。
优选地,
所述隔离模块用于将所述隔离内存信息发送给所述BIOS是指:
所述BMC将其生成的所述隔离内存信息发送给所述BIOS;或者,所述BMC接收所述SMM生成的所述隔离内存信息后,将该隔离内存信息发送给所述BIOS。
优选地,
信息处理模块还用于将所述异常信息发送给界面浏览器B/客户机C。
上述方案通过BMC、BIOS(BasicInputOutputSystem,基本输入输出系统)以及SMC的配合下,一起完成服务器自动自愈,减少人工现场干预和操作的可能,尽快恢复服务器的正常工作状态。
附图说明
图1是本发明实施例一中的服务器管理系统架构示意图;
图2是本发明实施例一中的服务器自愈的方法的流程图;
图3是本发明实施例一中的服务器自愈的装置的结构示意图;
图4是本发明实施例二中的服务器自愈的方法的流程图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
实施例一
如图1所示的服务器管理系统结构中,包含了SMM和若干从节点,即各个服务器上的BMC,并且每个服务器单板上都有BIOS。SMM同各个服务器的BMC通过IPMB(IntelligentPlatformManagementBUS,智能平台管理总线)/LAN(LocalAreaNetwork,局域网)等多种方式连接,BMC与BIOS可以通过各种不同类型的物理通道通信,这种系统结构提供SMM管理服务器内存异常的物理通道。在服务器系统中,服务器多采用支持ECC功能的内存,为及时发现内存异常提供硬件前提条件。B/C的主要作用是配置BMC如何处理内存异常,比如配置一条策略,如当某一根内存条发生可恢复内存故障的频率大于某一个阀值时重启单板并隔离该故障等。此外,B/C还可以查询内存发生故障的情况,还能提供单板上下电操作界面。
如图2所示,本发明提供一种服务器自愈的方法,所述方法包括:
步骤S100:带外管理模块BMC接收基本输入输出系统BIOS发送的异常信息,所述故障信息包括异常类型和异常内存条标识;
步骤S102:所述BMC或者系统管理模块SMM根据所述故障信息生成隔离内存信息,并对单板进行相应的处理;
步骤S104:所述BMC将所述隔离内存信息发送给所述BIOS,所述隔离内存信息用于指示所述BIOS隔离相应内存。
优选地,
所述异常类型包括不可恢复的内存错误;
所述BMC或者系统管理模块SMM根据所述故障信息生成隔离内存信息,并对单板进行相应的处理包括:
当所述BMC接收的所述异常信息的异常类型是所述不可恢复的内存错误,并且所述BMC配置有治愈功能时,所述BMC根据所述内存条标识生成所述隔离内存信息,并所述BMC对所述单板做下电再上电操作;
或者,
当所述BMC接收的所述异常信息的异常类型是所述不可恢复的内存错误,并且所述BMC未配置有治愈功能时,所述BMC将所述异常信息转发给所述SMM,所述SMM根据所述内存条标识生成所述隔离内存信息,并对所述单板做下电再上电操作。
优选地,
所述异常类型包括可恢复的内存错误;
所述BMC或者系统管理模块SMM根据所述故障信息生成隔离内存信息,并对单板进行相应的处理包括:
当所述BMC接收的所述异常信息的异常类型是可恢复的内存错误,并且所述BMC配置有治愈功能时,所述BMC对该异常信息对应的异常内存进行可恢复的内存错误次数和频度统计;当统计出的可恢复的内存错误次数或者频度达到了设定的隔离阈值时,所述BMC根据该内存条信息生成隔离内存信息,并对所述单板做下电再上电操作;
或者,
当所述BMC接收的所述异常信息的异常类型是可恢复的内存错误,并且所述BMC未配置有治愈功能时,所述BMC将所述异常信息转发给所述SMM;所述SMM对该异常信息对应的异常内存进行可恢复的内存错误次数和频度统计,当统计出的可恢复的内存错误次数或者频度达到了设定的隔离阈值时,所述SMM根据该内存条信息生成隔离内存信息,并对所述单板做下电再上电操作。
优选地,
所述BMC将所述隔离内存信息发送给所述BIOS包括:
所述BMC将其生成的所述隔离内存信息发送给所述BIOS;或者,所述BMC接收所述SMM生成的所述隔离内存信息后,将该隔离内存信息发送给所述BIOS。
优选地,
所述BMC接收所述BIOS发送的异常信息后还包括:
所述BMC将所述异常信息发送给界面浏览器B/客户机C。
如图3所示,本发明还提供一种服务器自愈的装置,所述装置包括:
信息处理模块11,用于接收基本输入输出系统BIOS发送的异常信息,所述故障信息包括异常类型和异常内存条标识;
异常处理模块12,用于根据所述故障信息生成隔离内存信息,并对单板进行相应的处理;
隔离模块13,用于将所述隔离内存信息发送给所述BIOS,所述隔离内存信息用于指示所述BIOS隔离相应内存。
优选地,
所述异常类型包括不可恢复的内存错误;
异常处理模块12用于根据所述故障信息生成隔离内存信息,并对单板进行相应的处理是指:
当所述BMC接收的所述异常信息的异常类型是所述不可恢复的内存错误,并且所述BMC配置有治愈功能时,所述BMC根据所述内存条标识生成所述隔离内存信息,并所述BMC对所述单板做下电再上电操作;
或者,
当所述BMC接收的所述异常信息的异常类型是所述不可恢复的内存错误,并且所述BMC未配置有治愈功能时,所述BMC将所述异常信息转发给所述SMM,所述SMM根据所述内存条标识生成所述隔离内存信息,并对所述单板做下电再上电操作。
优选地,
所述异常类型包括可恢复的内存错误;
异常处理模块12用于根据所述故障信息生成隔离内存信息,并对单板进行相应的处理是指:
当所述BMC接收的所述异常信息的异常类型是可恢复的内存错误,并且所述BMC配置有治愈功能时,所述BMC对该异常信息对应的异常内存进行可恢复的内存错误次数和频度统计;当统计出的可恢复的内存错误次数或者频度达到了设定的隔离阈值时,所述BMC根据该内存条信息生成隔离内存信息,并对所述单板做下电再上电操作;
或者,
当所述BMC接收的所述异常信息的异常类型是可恢复的内存错误,并且所述BMC未配置有治愈功能时,所述BMC将所述异常信息转发给所述SMM;所述SMM对该异常信息对应的异常内存进行可恢复的内存错误次数和频度统计,当统计出的可恢复的内存错误次数或者频度达到了设定的隔离阈值时,所述SMM根据该内存条信息生成隔离内存信息,并对所述单板做下电再上电操作。
优选地,
所述隔离模块13用于将所述隔离内存信息发送给所述BIOS是指:
所述BMC将其生成的所述隔离内存信息发送给所述BIOS;或者,所述BMC接收所述SMM生成的所述隔离内存信息后,将该隔离内存信息发送给所述BIOS。
优选地,
信息处理模块11还用于将所述异常信息发送给界面浏览器B/客户机C。
实施例二
如图4所示,为本发明实施例二中服务器自愈的方法的流程图。其中:
BIOS负责检测内存异常,可区分可恢复的一位ECC错误和不可恢复的两位ECC错误,并且可以把故障定位到具体的物理内存条;如果系统自愈后再次启动,可以实现异常内存条的隔离,不再使用。
BMC负责把BIOS上报的内存异常转发给SMM,或者直接完成步骤3描述的SMM的功能,以及在服务器重新上电时将故障内存条信息报给基本输入输出系统BIOS。
SMM接收到带外管理模块转发的内存故障信息,区分内存条做异常数目统计,根据内存异常严重情况和异常发生频率,决定是否对指定异常单板做自愈处理。
在本实施例中,服务器在BIOS启动阶段或者是在OS运行阶段出现内存错误,该错误可以被BIOS检测到;BIOS解析出对应内存错误所在的内存条,并上报给BMC;BMC将内存错误上报给SMM,或者提供B/C查询。
同时,BMC或SMM还统计一段时间内发生的不同类型错误的次数,可以按照每根内存条为基础统计。
需要说明的是,在本实施例的服务器治愈的过程中,根据内存错误类型进行不同处理流程,如下分别对不可恢复的内存错误和可恢复的内存错误处理流程进行说明
一、对于不可恢复的内存错误
步骤A:BMC收到BIOS上报的不可恢复的内存错误,或是SMM收到BMC转发的不可恢复的内存错误,BMC/SMM自动给单板做下电再上电的处理,然后执行步骤B;
步骤B:单板重新上电后,BMC主动把上次检测到不可恢复故障的内存条编号发给BIOS,执行步骤C;
步骤C:BIOS接收后,对发生不可恢复故障的内存条进行屏蔽处理,即本次启动后不使用这些有不可恢复故障的内存。
通过上述操作可以达到针对此类严重内存错误自动自愈处理,减少人工干预,否则此类故障需要现场人员干预来解决。
二、对于可恢复的内存错误
步骤A:BMC收到BIOS上报的可恢复的内存错误,或是SMM收到BMC上报的可恢复的内存错误,按照内存条进行记录此类异常发生次数和频度,并与事先设定的发生阀值相比较,如果达到了设定的阈值,BMC/SMM自动给单板做下电再上电的处理,然后执行步骤B;
步骤B:单板重新上电后,BMC主动把上次检测到的达到设定阀值的可恢复故障的内存条编码发给BIOS,执行步骤C;
需要说明的是,如果是SMM进行下电再上电处理,则SMM生成待隔离的内存条编码后,将该编码发送给BMC,由BMC转发给BIOS。
步骤C:BIOS接收后,对BMC上报的内存条进行屏蔽处理,即本次启动后不使用这些内存条。
上述操作可以保证把频繁发生异常的内存进行隔离,自动提前隔离含有隐患问题的内存,达到保证系统稳定和可靠的目的。
需要说明书的是,如果BIOS发送的是不可恢复故障,那么BIOS发送的该故障信息中对应的内存条就是需要隔离的内存条。如果BMC接收到的可恢复故障,就要对相应的内存条进行次数统计,达到隔离阈值的内存条才是需要隔离的。同时,对于可恢复故障可以设置某一段时间发生的次数,即频度阀值,也可以是总的次数阀值,可以根据具体实现要求配置不同的策略。
上述技术方案由BMC、SMM和BIOS对服务器内存异常的进行检测,并根据设定的策略做自愈控制,内存异常可以细化到具体内存条、根据内存异常严重情况、固定时间内具体内存条发生异常频率,来确定是否对这个单板进行下电再上电处理,并且再次上电初始化时,把这个异常内存隔离,不再使用,这样避免了原有服务器于内存出现异常而无法自动恢复,解决了必须现场人工恢复的麻烦,减少了发生异常时需要人工干预的可能,同时还极大提高了系统的可靠性,加速了服务器故障恢复时间。
需要强调的是,本领域的技术人员应该明白,本发明中涵盖的策略和步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/模块可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。

Claims (10)

1.一种服务器自愈的方法,其特征在于,所述方法包括:
带外管理模块BMC接收基本输入输出系统BIOS发送的异常信息,所述故障信息包括异常类型和异常内存条标识;
所述BMC或者系统管理模块SMM根据所述故障信息生成隔离内存信息,并对单板进行相应的处理;
所述BMC将所述隔离内存信息发送给所述BIOS,所述隔离内存信息用于指示所述BIOS隔离相应内存。
2.如权利要求1所述的方法,其特征在于:
所述异常类型包括不可恢复的内存错误;
所述BMC或者系统管理模块SMM根据所述故障信息生成隔离内存信息,并对单板进行相应的处理包括:
当所述BMC接收的所述异常信息的异常类型是所述不可恢复的内存错误,并且所述BMC配置有治愈功能时,所述BMC根据所述内存条标识生成所述隔离内存信息,并所述BMC对所述单板做下电再上电操作;
或者,
当所述BMC接收的所述异常信息的异常类型是所述不可恢复的内存错误,并且所述BMC未配置有治愈功能时,所述BMC将所述异常信息转发给所述SMM,所述SMM根据所述内存条标识生成所述隔离内存信息,并对所述单板做下电再上电操作。
3.如权利要求1所述的方法,其特征在于:
所述异常类型包括可恢复的内存错误;
所述BMC或者系统管理模块SMM根据所述故障信息生成隔离内存信息,并对单板进行相应的处理包括:
当所述BMC接收的所述异常信息的异常类型是可恢复的内存错误,并且所述BMC配置有治愈功能时,所述BMC对该异常信息对应的异常内存进行可恢复的内存错误次数和频度统计;当统计出的可恢复的内存错误次数或者频度达到了设定的隔离阈值时,所述BMC根据该内存条信息生成隔离内存信息,并对所述单板做下电再上电操作;
或者,
当所述BMC接收的所述异常信息的异常类型是可恢复的内存错误,并且所述BMC未配置有治愈功能时,所述BMC将所述异常信息转发给所述SMM;所述SMM对该异常信息对应的异常内存进行可恢复的内存错误次数和频度统计,当统计出的可恢复的内存错误次数或者频度达到了设定的隔离阈值时,所述SMM根据该内存条信息生成隔离内存信息,并对所述单板做下电再上电操作。
4.如权利要求1至3任一所述的方法,其特征在于:
所述BMC将所述隔离内存信息发送给所述BIOS包括:
所述BMC将其生成的所述隔离内存信息发送给所述BIOS;或者,所述BMC接收所述SMM生成的所述隔离内存信息后,将该隔离内存信息发送给所述BIOS。
5.如权利要求4所述的方法,其特征在于:
所述BMC接收所述BIOS发送的异常信息后还包括:
所述BMC将所述异常信息发送给界面浏览器B/客户机C。
6.一种服务器自愈的装置,其特征在于,所述装置包括:
信息处理模块,用于接收基本输入输出系统BIOS发送的异常信息,所述故障信息包括异常类型和异常内存条标识;
异常处理模块,用于根据所述故障信息生成隔离内存信息,并对单板进行相应的处理;
隔离模块,用于将所述隔离内存信息发送给所述BIOS,所述隔离内存信息用于指示所述BIOS隔离相应内存。
7.如权利要求6所述的装置,其特征在于:
所述异常类型包括不可恢复的内存错误;
异常处理模块用于根据所述故障信息生成隔离内存信息,并对单板进行相应的处理是指:
当所述BMC接收的所述异常信息的异常类型是所述不可恢复的内存错误,并且所述BMC配置有治愈功能时,所述BMC根据所述内存条标识生成所述隔离内存信息,并所述BMC对所述单板做下电再上电操作;
或者,
当所述BMC接收的所述异常信息的异常类型是所述不可恢复的内存错误,并且所述BMC未配置有治愈功能时,所述BMC将所述异常信息转发给所述SMM,所述SMM根据所述内存条标识生成所述隔离内存信息,并对所述单板做下电再上电操作。
8.如权利要求6所述的装置,其特征在于:
所述异常类型包括可恢复的内存错误;
异常处理模块用于根据所述故障信息生成隔离内存信息,并对单板进行相应的处理是指:
当所述BMC接收的所述异常信息的异常类型是可恢复的内存错误,并且所述BMC配置有治愈功能时,所述BMC对该异常信息对应的异常内存进行可恢复的内存错误次数和频度统计;当统计出的可恢复的内存错误次数或者频度达到了设定的隔离阈值时,所述BMC根据该内存条信息生成隔离内存信息,并对所述单板做下电再上电操作;
或者,
当所述BMC接收的所述异常信息的异常类型是可恢复的内存错误,并且所述BMC未配置有治愈功能时,所述BMC将所述异常信息转发给所述SMM;所述SMM对该异常信息对应的异常内存进行可恢复的内存错误次数和频度统计,当统计出的可恢复的内存错误次数或者频度达到了隔离阈值时,所述SMM根据该内存条信息生成隔离内存信息,并对所述单板做下电再上电操作。
9.如权利要求6至8任一所述的装置,其特征在于:
所述隔离模块用于将所述隔离内存信息发送给所述BIOS是指:
所述BMC将其生成的所述隔离内存信息发送给所述BIOS;或者,所述BMC接收所述SMM生成的所述隔离内存信息后,将该隔离内存信息发送给所述BIOS。
10.如权利要求9所述的装置,其特征在于:
信息处理模块还用于将所述异常信息发送给界面浏览器B/客户机C。
CN201410852000.4A 2014-12-31 2014-12-31 一种服务器自愈的方法和装置 Active CN105808394B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410852000.4A CN105808394B (zh) 2014-12-31 2014-12-31 一种服务器自愈的方法和装置
PCT/CN2015/073265 WO2016106965A1 (zh) 2014-12-31 2015-02-25 一种服务器自愈的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410852000.4A CN105808394B (zh) 2014-12-31 2014-12-31 一种服务器自愈的方法和装置

Publications (2)

Publication Number Publication Date
CN105808394A true CN105808394A (zh) 2016-07-27
CN105808394B CN105808394B (zh) 2020-09-04

Family

ID=56284051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410852000.4A Active CN105808394B (zh) 2014-12-31 2014-12-31 一种服务器自愈的方法和装置

Country Status (2)

Country Link
CN (1) CN105808394B (zh)
WO (1) WO2016106965A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789185A (zh) * 2016-12-02 2017-05-31 国网四川省电力公司信息通信公司 一种基于带外管理的it设备管理方法
CN107038098A (zh) * 2017-04-28 2017-08-11 郑州云海信息技术有限公司 一种可批量通过网络进行服务器内存诊断的方法
CN107066361A (zh) * 2017-04-17 2017-08-18 南京百敖软件有限公司 一种利用bmc禁用坏损内存的方法和装置
CN110262917A (zh) * 2019-05-15 2019-09-20 平安科技(深圳)有限公司 宿主机自愈方法、装置、计算机设备及存储介质
US10430260B2 (en) 2016-12-05 2019-10-01 Huawei Technologies Co., Ltd. Troubleshooting method, computer system, baseboard management controller, and system
CN110457164A (zh) * 2019-07-08 2019-11-15 华为技术有限公司 设备管理的方法、装置和服务器
WO2020177493A1 (zh) * 2019-03-01 2020-09-10 华为技术有限公司 内存错误处理方法和装置
CN112231128A (zh) * 2020-09-11 2021-01-15 中科可控信息产业有限公司 内存错误处理方法、装置、计算机设备和存储介质
CN112732477A (zh) * 2021-04-01 2021-04-30 四川华鲲振宇智能科技有限责任公司 一种带外自检故障隔离的方法
CN113176963A (zh) * 2021-04-29 2021-07-27 山东英信计算机技术有限公司 一种PCIe故障自修复方法、装置、设备及可读存储介质
CN113535509A (zh) * 2021-06-10 2021-10-22 中国长城科技集团股份有限公司 内存条异常检测方法、装置及bmc
CN113608908A (zh) * 2021-07-28 2021-11-05 烽火超微信息科技有限公司 服务器故障处理方法、系统、设备及可读存储介质
CN114816822A (zh) * 2022-05-07 2022-07-29 宝德计算机系统股份有限公司 一种基于内存故障的服务器管理方法、装置以及系统
CN115080331A (zh) * 2022-07-09 2022-09-20 超聚变数字技术有限公司 故障处理方法及计算设备
WO2022262525A1 (zh) * 2021-06-18 2022-12-22 华为技术有限公司 一种故障处理方法、装置、设备及系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595307A (zh) * 2018-05-03 2018-09-28 广州供电局有限公司 一种基于it运维的自动自愈方法
CN110187994A (zh) * 2019-05-28 2019-08-30 北京星网锐捷网络技术有限公司 一种故障隔离方法、设备和故障隔离系统
CN112948160B (zh) * 2021-02-26 2023-02-28 山东英信计算机技术有限公司 一种内存ecc问题的定位修复方法及装置
CN113868001B (zh) * 2021-09-10 2023-08-08 苏州浪潮智能科技有限公司 一种内存修复结果的检查方法、系统及计算机存储介质
CN115269245B (zh) * 2022-07-21 2024-03-19 超聚变数字技术有限公司 一种内存故障处理方法及计算设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085670A1 (en) * 2004-10-18 2006-04-20 Carver Brian L Method and system for reducing memory faults while running an operating system
CN102222025A (zh) * 2011-06-17 2011-10-19 华为数字技术有限公司 一种消除内存故障的方法及装置
CN103279406A (zh) * 2013-05-31 2013-09-04 华为技术有限公司 一种内存的隔离方法和装置
CN103425545A (zh) * 2013-08-20 2013-12-04 浪潮电子信息产业股份有限公司 一种多处理器服务器的系统容错方法
CN103514068A (zh) * 2012-06-28 2014-01-15 北京百度网讯科技有限公司 内存故障自动定位方法
CN103631721A (zh) * 2012-08-23 2014-03-12 华为技术有限公司 一种隔离内存中坏块的方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681909B (zh) * 2012-04-28 2016-07-27 浪潮电子信息产业股份有限公司 一种基于内存错误的服务器预警方法
CN103699463B (zh) * 2012-09-28 2017-12-05 联想企业解决方案(新加坡)有限公司 一种使用Xeon处理器的服务器的内存测试方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085670A1 (en) * 2004-10-18 2006-04-20 Carver Brian L Method and system for reducing memory faults while running an operating system
CN102222025A (zh) * 2011-06-17 2011-10-19 华为数字技术有限公司 一种消除内存故障的方法及装置
CN103514068A (zh) * 2012-06-28 2014-01-15 北京百度网讯科技有限公司 内存故障自动定位方法
CN103631721A (zh) * 2012-08-23 2014-03-12 华为技术有限公司 一种隔离内存中坏块的方法及系统
CN103279406A (zh) * 2013-05-31 2013-09-04 华为技术有限公司 一种内存的隔离方法和装置
CN103425545A (zh) * 2013-08-20 2013-12-04 浪潮电子信息产业股份有限公司 一种多处理器服务器的系统容错方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789185A (zh) * 2016-12-02 2017-05-31 国网四川省电力公司信息通信公司 一种基于带外管理的it设备管理方法
US10430260B2 (en) 2016-12-05 2019-10-01 Huawei Technologies Co., Ltd. Troubleshooting method, computer system, baseboard management controller, and system
CN107066361A (zh) * 2017-04-17 2017-08-18 南京百敖软件有限公司 一种利用bmc禁用坏损内存的方法和装置
CN107038098A (zh) * 2017-04-28 2017-08-11 郑州云海信息技术有限公司 一种可批量通过网络进行服务器内存诊断的方法
WO2020177493A1 (zh) * 2019-03-01 2020-09-10 华为技术有限公司 内存错误处理方法和装置
CN110262917A (zh) * 2019-05-15 2019-09-20 平安科技(深圳)有限公司 宿主机自愈方法、装置、计算机设备及存储介质
CN110457164A (zh) * 2019-07-08 2019-11-15 华为技术有限公司 设备管理的方法、装置和服务器
CN112231128A (zh) * 2020-09-11 2021-01-15 中科可控信息产业有限公司 内存错误处理方法、装置、计算机设备和存储介质
CN112732477A (zh) * 2021-04-01 2021-04-30 四川华鲲振宇智能科技有限责任公司 一种带外自检故障隔离的方法
CN112732477B (zh) * 2021-04-01 2021-06-29 四川华鲲振宇智能科技有限责任公司 一种带外自检故障隔离的方法
CN113176963A (zh) * 2021-04-29 2021-07-27 山东英信计算机技术有限公司 一种PCIe故障自修复方法、装置、设备及可读存储介质
WO2022228499A1 (zh) * 2021-04-29 2022-11-03 山东英信计算机技术有限公司 一种PCIe故障自修复方法、装置、设备及可读存储介质
CN113535509A (zh) * 2021-06-10 2021-10-22 中国长城科技集团股份有限公司 内存条异常检测方法、装置及bmc
WO2022262525A1 (zh) * 2021-06-18 2022-12-22 华为技术有限公司 一种故障处理方法、装置、设备及系统
CN113608908A (zh) * 2021-07-28 2021-11-05 烽火超微信息科技有限公司 服务器故障处理方法、系统、设备及可读存储介质
CN113608908B (zh) * 2021-07-28 2023-12-22 烽火超微信息科技有限公司 服务器故障处理方法、系统、设备及可读存储介质
CN114816822A (zh) * 2022-05-07 2022-07-29 宝德计算机系统股份有限公司 一种基于内存故障的服务器管理方法、装置以及系统
CN115080331A (zh) * 2022-07-09 2022-09-20 超聚变数字技术有限公司 故障处理方法及计算设备

Also Published As

Publication number Publication date
WO2016106965A1 (zh) 2016-07-07
CN105808394B (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN105808394A (zh) 一种服务器自愈的方法和装置
US9223394B2 (en) Rack and power control method thereof
US20140372805A1 (en) Self-healing managed customer premises equipment
EP2600565B1 (en) Disaster tolerance service system and disaster tolerance method
CN111459770A (zh) 服务器运行状态的告警方法、装置、服务器及存储介质
CN102355368A (zh) 一种网络设备的故障处理方法及系统
CN103092724A (zh) 用于嵌入式电力终端的系统自恢复方法
CN101299536A (zh) 电力系统安全稳定紧急控制策略自动匹配方法
CN101888284B (zh) 一种用于数据单向传输的方法及其装置
WO2020000956A1 (zh) 一种bmc监控可恢复ecc错误的方法、装置及设备
CN111124722A (zh) 一种隔离故障内存的方法、设备及介质
CN103428033A (zh) 一种刀片服务器管理网络主动式检测方法
CN101783770A (zh) 报文处理方法、系统以及业务处理板、线路处理板
WO2016101596A1 (zh) 掉电保护方法、装置及其系统
CN109104314B (zh) 一种修改日志配置文件的方法及装置
CN110502496B (zh) 一种分布式文件系统修复方法、系统、终端及存储介质
CN104166599A (zh) 一种arm设备重启恢复出厂配置的方法
CN112181740A (zh) 一种排除故障的方法、装置及存储介质
CN102835072B (zh) 用于运行总线控制设备的方法以及总线控制设备
WO2015096412A1 (zh) 数据复制异常的修复方法及装置
CN113900855B (zh) 一种交换机异常状态的主动热启动方法、系统及装置
JP2015176168A (ja) 管理サーバおよび障害復旧方法、並びにコンピュータ・プログラム
JP5395951B2 (ja) ネットワーク機器
CN105516315B (zh) 一种文件修复方法和装置
WO2024087661A1 (zh) 一种故障定位方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200805

Address after: Yuhuatai District of Nanjing City, Jiangsu province 210012 Bauhinia Road No. 68

Applicant after: Nanjing Zhongxing New Software Co.,Ltd.

Address before: 518057 Nanshan District Guangdong high tech Industrial Park, South Road, science and technology, ZTE building, Ministry of Justice

Applicant before: ZTE Corp.

GR01 Patent grant
GR01 Patent grant