CN108984332A - 一种定位服务器宕机故障的装置及方法 - Google Patents

一种定位服务器宕机故障的装置及方法 Download PDF

Info

Publication number
CN108984332A
CN108984332A CN201810653019.4A CN201810653019A CN108984332A CN 108984332 A CN108984332 A CN 108984332A CN 201810653019 A CN201810653019 A CN 201810653019A CN 108984332 A CN108984332 A CN 108984332A
Authority
CN
China
Prior art keywords
log
location
failure
server
delay machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810653019.4A
Other languages
English (en)
Inventor
骆健
张锋
宋晓锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810653019.4A priority Critical patent/CN108984332A/zh
Publication of CN108984332A publication Critical patent/CN108984332A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种定位服务器宕机故障的装置及方法,装置包括部署在监控服务器上的MCA故障诊断系统,还包括日志收集模块和分析定位模块,日志收集模块在MCA故障诊断系统的触发下,收集业务服务器的CSR日志;分析定位模块用于解析收集到的日志,与规则库的内容进行匹配,定位故障位置。本发明通过获取和分析业务服务器的CSR日志,结合规则库,快速定位引起宕机的故障器件,提高故障器件的定位效率,且整个过程无需人为参与,大大节省了人力成本。

Description

一种定位服务器宕机故障的装置及方法
技术领域
本发明涉及服务器故障定位技术领域,具体地说是一种定位服务器宕机故障的装置及方法。
背景技术
服务器操作系统上一般运行着非常关键的业务应用,系统的可靠性非常重要。但随着系统硬件资源规模的不断扩展,系统业务应用复杂程度的不断提高,系统出现不稳定的几率也随之不断上升。服务器宕机问题在机房时有发生,严重影响业务应用的运行。
在发生服务器宕机时,运维工程师通常根据BMC(Baseboard ManagementController,基板管理控制器)上报的信息进行故障定位和维修。
然而,宕机后BMC上报故障能力非常有限,要定位故障部件,需要运维工程师同时结合自身的经验,反复验证和测试故障部件,需花费大量的时间,且对运维工程师的经验要求较高,增大了人力成本。
发明内容
本发明实施例中提供了一种定位服务器宕机故障的装置及方法,以解决现有技术中服务器宕机时,故障定位的效率低、成本高的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明第一方面提供了一种定位服务器宕机故障的装置,包括部署在监控服务器上的MCA故障诊断系统,所述装置还包括
日志收集模块,在MCA(Machine-check Architecture,故障诊断结构)故障诊断系统的触发下,收集业务服务器的CSR(Control and Status Register,控制和状态寄存器)日志;
分析定位模块,用于解析收集到的日志,与规则库的内容进行匹配,定位故障位置。
结合第一方面,在第一方面第一种可能的实现方式中,所述规则库记录不同宕机场景下对应的故障部件,并记录更换和/或维修部件的规则。
结合第一方面,在第一方面第一种可能的实现方式中,所述日志收集模块包括
发送单元,在MCA故障诊断系统的触发下,向业务服务器发送IPMI命令,请求CSR日志;
接收单元,收集业务服务器返回的CSR日志。
结合第一方面,在第一方面第一种可能的实现方式中,所述分析定位模块包括
日志解析单元,用于解析CSR日志的内容,得到故障类型;
故障定位单元,匹配相应故障类型的数据库,定位故障具体位置。
结合第一方面,在第一方面第一种可能的实现方式中,所述故障类型包括内存部件故障类、PCIE(peripheral component interconnect express,一种高速串行计算机扩展总线标准)部件故障类、CPU(Central Processing Unit,中央处理器)故障类和主板故障类。
结合第一方面,在第一方面第一种可能的实现方式中,所述规则库包括内存故障数据库、PCIE故障数据库、CPU故障数据库和主板故障数据库。
本发明第二方面提供了一种定位服务器宕机故障的方法,包括以下步骤:
在MCA故障诊断系统的触发下,收集业务服务器的CSR日志;
解析收集到的日志,与规则库的内容进行匹配,得到故障位置。
结合第二方面,在第二方面第一种可能的实现方式中,收集业务服务器的CSR日志的具体过程为:
向业务服务器发送IPMI(Intelligent Platform Management Interface,智能平台管理接口)命令,请求CSR日志;
收集业务服务器返回的CSR日志。
结合第二方面,在第二方面第一种可能的实现方式中,所述解析收集到的日志,与规则库的内容进行匹配,得到故障位置的具体过程为:
解析CSR日志的内容,得到故障类型;
根据故障类型,匹配相应的故障数据库,定位故障部件的具体位置。
结合第二方面,在第二方面第二种可能的实现方式中,所述方法还包括
根据故障位置,结合规则库内的记录,对故障部件进行更换或维修。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
1、通过获取和分析业务服务器的CSR日志,结合规则库,快速定位引起宕机的故障器件,提高故障器件的定位效率,且整个过程无需人为参与,大大节省了人力成本。
2、对故障的定位包括CPU、PCIE、主板和内存,几乎覆盖了服务器容易引起宕机故障的所有部件,可以定位到大部分的故障部件,实用性强。
3、规则库中记录了故障的类型、具体位置以及维修和/或更换规则,方便运维直接建立维修工单,便于故障的快速排除,为服务器业务的快速恢复提供了支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述装置的结构示意图;
图2是本发明所述方法实施例1的结构示意图;
图3是本发明方法实施例中步骤S2的实现流程示意图;
图4是本发明所述方法实施例2的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例
如图1所示,定位服务器宕机故障的装置包括MCA故障诊断系统1、日志收集模块2、分析定位模块3和规则库4。
故障诊断系统1部署在监控服务器上,用于对业务服务器进行故障监控,当发现业务服务器出现宕机(如ping数据口没有响应)时,触发日志收集模块2。
日志收集模块2在MCA故障诊断系统的触发下,收集业务服务器的CSR日志。日志收集模块包括发送单元21和接收单元22,发送单元21通过向业务服务器发送IPMI命令来请求CSR日志,接收单元22用于收集业务服务器返回的CSR日志。
分析定位模块3解析收集到的日志,与规则库的内容进行匹配,定位故障位置。分析定位模块3包括日志解析单元31和故障定位单元32,日志解析单元31解析CSR日志的内容,得到故障类型。故障类型包括内存部件故障类、PCIE部件故障类、CPU故障类和主板故障类。故障定位单元32匹配相应故障类型的数据库,定位故障具体位置。
规则库4内包含故障类型数据库和不同宕机场景下对应的故障部件,并记录更换和/或维修部件的规则。故障类型数据库包括内存故障数据库、PCIE故障数据库、CPU故障数据库和主板故障数据库。
如图2所示,定位服务器宕机故障的方法包括步骤:
S1,在MCA故障诊断系统的触发下,收集业务服务器的CSR日志;
MCA对业务服务器的运行情况进行实时监控,当发现业务服务器宕机时,触发监控服务器向业务服务器发送IPMI命令来请求CSR日志,并收集业务服务器返回的CSR日志。
S2,解析收集到的日志,与规则库的内容进行匹配,得到故障位置。
如图3所示,解析CSR日志内容,得到故障类型,故障类型分为内存部件故障类、PCIE部件故障类、CPU故障类和主板故障类。
当解析出故障类型为内存部件故障类时,匹配内存故障数据库,定位内存的具体位置。
当解析出故障类型为PCIE部件故障类时,首先匹配PCIE故障数据库,分析故障PCIE port(端口),然后依据服务器PCIE开发文档,定位PCIE设备具体位置,最后通过BMC获取PCIE设备ID,企鹅人故障设备名称,如网卡、RAID(Redundant Arrays of IndependentDisks,磁盘阵列)卡。
当解析出故障类型为CPU故障类时,匹配CPU故障数据库,定位故障CPU。
当解析出故障类型为主板故障类时,匹配主板故障数据库,定位故障主板。
如图4所示,定位出故障部件后,还包括步骤S3,结合规则库内的记录,对故障部件进行更换或维修。
规则库内记录了不同宕机场景下,对应故障器件的维修和/或更换规则,在定位到故障部件时,结合宕机场景,直接提供维修或更换策略,节省了大量人力物力,节省成本。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (10)

1.一种定位服务器宕机故障的装置,包括部署在监控服务器上的MCA故障诊断系统,其特征是:所述装置还包括
日志收集模块,在MCA故障诊断系统的触发下,收集业务服务器的CSR日志;
分析定位模块,用于解析收集到的日志,与规则库的内容进行匹配,定位故障位置。
2.根据权利要求1所述的一种定位服务器宕机故障的装置,其特征是:所述规则库记录不同宕机场景下对应的故障部件,并记录更换和/或维修部件的规则。
3.根据权利要求1或2所述的一种定位服务器宕机故障的装置,其特征是:所述日志收集模块包括
发送单元,在MCA故障诊断系统的触发下,向业务服务器发送IPMI命令,请求CSR日志;
接收单元,收集业务服务器返回的CSR日志。
4.根据权利要求1或2所述的一种定位服务器宕机故障的装置,其特征是:所述分析定位模块包括
日志解析单元,用于解析CSR日志的内容,得到故障类型;
故障定位单元,匹配相应故障类型的数据库,定位故障具体位置。
5.根据权利要求4所述的一种定位服务器宕机故障的装置,其特征是:所述故障类型包括内存部件故障类、PCIE部件故障类、CPU故障类和主板故障类。
6.根据权利要求5所述的一种定位服务器宕机故障的装置,其特征是:所述规则库包括内存故障数据库、PCIE故障数据库、CPU故障数据库和主板故障数据库。
7.一种定位服务器宕机故障的方法,其特征是:包括以下步骤:
在MCA故障诊断系统的触发下,收集业务服务器的CSR日志;
解析收集到的日志,与规则库的内容进行匹配,得到故障位置。
8.根据权利要求6所述的一种定位服务器宕机故障的方法,其特征是:收集业务服务器的CSR日志的具体过程为:
向业务服务器发送IPMI命令,请求CSR日志;
收集业务服务器返回的CSR日志。
9.根据权利要求6所述的一种定位服务器宕机故障的方法,其特征是:所述解析收集到的日志,与规则库的内容进行匹配,得到故障位置的具体过程为:
解析CSR日志的内容,得到故障类型;
根据故障类型,匹配相应的故障数据库,定位故障部件的具体位置。
10.根据权利要求7-9任一项所述的一种定位服务器宕机故障的方法,其特征是:所述方法还包括
根据故障位置,结合规则库内的记录,对故障部件进行更换或维修。
CN201810653019.4A 2018-06-22 2018-06-22 一种定位服务器宕机故障的装置及方法 Pending CN108984332A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810653019.4A CN108984332A (zh) 2018-06-22 2018-06-22 一种定位服务器宕机故障的装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810653019.4A CN108984332A (zh) 2018-06-22 2018-06-22 一种定位服务器宕机故障的装置及方法

Publications (1)

Publication Number Publication Date
CN108984332A true CN108984332A (zh) 2018-12-11

Family

ID=64538201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810653019.4A Pending CN108984332A (zh) 2018-06-22 2018-06-22 一种定位服务器宕机故障的装置及方法

Country Status (1)

Country Link
CN (1) CN108984332A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947596A (zh) * 2019-03-19 2019-06-28 浪潮商用机器有限公司 Pcie设备故障系统宕机处理方法、装置及相关组件
CN109947586A (zh) * 2019-03-20 2019-06-28 浪潮商用机器有限公司 一种隔离故障设备的方法、装置和介质
CN110191003A (zh) * 2019-06-18 2019-08-30 北京达佳互联信息技术有限公司 故障修复方法、装置、计算机设备及存储介质
CN110737531A (zh) * 2019-09-27 2020-01-31 山东英信计算机技术有限公司 一种故障诊断方法、装置、设备及介质
CN111625382A (zh) * 2020-05-21 2020-09-04 浪潮电子信息产业股份有限公司 一种服务器故障诊断方法、装置、设备及介质
CN111694719A (zh) * 2020-06-10 2020-09-22 腾讯科技(深圳)有限公司 服务器故障处理方法、装置、存储介质及电子设备
CN111858263A (zh) * 2020-06-12 2020-10-30 苏州浪潮智能科技有限公司 一种基于日志分析的故障预测方法、系统及装置
CN113037521A (zh) * 2019-12-24 2021-06-25 中兴通讯股份有限公司 识别通讯设备状态的方法、通讯系统及存储介质
CN114064132A (zh) * 2021-09-30 2022-02-18 中科创达软件股份有限公司 一种系统宕机恢复方法、装置、设备和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040003313A1 (en) * 2002-06-27 2004-01-01 Intel Corporation Black box recorder using machine check architecture in system management mode
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家系统方法的计算机故障管理系统
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN107018023A (zh) * 2017-04-17 2017-08-04 广东浪潮大数据研究有限公司 一种服务器诊断方法、装置及系统
CN107832194A (zh) * 2017-11-16 2018-03-23 郑州云海信息技术有限公司 一种基于板载bmc的服务器故障检测系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040003313A1 (en) * 2002-06-27 2004-01-01 Intel Corporation Black box recorder using machine check architecture in system management mode
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家系统方法的计算机故障管理系统
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN107018023A (zh) * 2017-04-17 2017-08-04 广东浪潮大数据研究有限公司 一种服务器诊断方法、装置及系统
CN107832194A (zh) * 2017-11-16 2018-03-23 郑州云海信息技术有限公司 一种基于板载bmc的服务器故障检测系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
INTEL: "《Debugging Machine Check Exceptions on Embedded IA Platforms》", 31 July 2010 *
XEN: "《Xen’s Machine Check Architecture implementation for Intel® Processors》", 14 June 2012 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947596A (zh) * 2019-03-19 2019-06-28 浪潮商用机器有限公司 Pcie设备故障系统宕机处理方法、装置及相关组件
CN109947586A (zh) * 2019-03-20 2019-06-28 浪潮商用机器有限公司 一种隔离故障设备的方法、装置和介质
CN110191003A (zh) * 2019-06-18 2019-08-30 北京达佳互联信息技术有限公司 故障修复方法、装置、计算机设备及存储介质
CN110737531A (zh) * 2019-09-27 2020-01-31 山东英信计算机技术有限公司 一种故障诊断方法、装置、设备及介质
CN113037521A (zh) * 2019-12-24 2021-06-25 中兴通讯股份有限公司 识别通讯设备状态的方法、通讯系统及存储介质
CN113037521B (zh) * 2019-12-24 2024-01-19 中兴通讯股份有限公司 识别通讯设备状态的方法、通讯系统及存储介质
CN111625382B (zh) * 2020-05-21 2022-06-10 浪潮电子信息产业股份有限公司 一种服务器故障诊断方法、装置、设备及介质
CN111625382A (zh) * 2020-05-21 2020-09-04 浪潮电子信息产业股份有限公司 一种服务器故障诊断方法、装置、设备及介质
CN111694719A (zh) * 2020-06-10 2020-09-22 腾讯科技(深圳)有限公司 服务器故障处理方法、装置、存储介质及电子设备
CN111694719B (zh) * 2020-06-10 2024-09-10 腾讯科技(深圳)有限公司 服务器故障处理方法、装置、存储介质及电子设备
CN111858263A (zh) * 2020-06-12 2020-10-30 苏州浪潮智能科技有限公司 一种基于日志分析的故障预测方法、系统及装置
CN111858263B (zh) * 2020-06-12 2022-08-02 苏州浪潮智能科技有限公司 一种基于日志分析的故障预测方法、系统及装置
CN114064132A (zh) * 2021-09-30 2022-02-18 中科创达软件股份有限公司 一种系统宕机恢复方法、装置、设备和系统
CN114064132B (zh) * 2021-09-30 2023-07-21 中科创达软件股份有限公司 一种系统宕机恢复方法、装置、设备和系统

Similar Documents

Publication Publication Date Title
CN108984332A (zh) 一种定位服务器宕机故障的装置及方法
US7340649B2 (en) System and method for determining fault isolation in an enterprise computing system
CN111147322B (zh) 5g核心网微服务架构的测试系统及方法
CN107508722B (zh) 一种业务监控方法和装置
CN101093462B (zh) 数据库应用集群压力测试自动化方法
WO2020238066A1 (zh) 一种软件的压力测试方法、装置、存储介质和服务器
Kasick et al. Black-Box Problem Diagnosis in Parallel File Systems.
CN107066370A (zh) 一种自动监控并收集故障硬盘日志的工具及方法
CN108964995A (zh) 基于时间轴事件的日志关联分析方法
CN106649071B (zh) 进程内部日志上报的方法和装置
CN108521339A (zh) 一种基于集群日志的反馈式节点故障处理方法及系统
CN104104734A (zh) 日志分析方法和装置
CN109462490B (zh) 视频监控系统及故障分析方法
CN111163150A (zh) 一种分布式调用追踪系统
CN109710439B (zh) 故障处理方法和装置
CN112000502B (zh) 海量错误日志的处理方法、装置、电子装置及存储介质
CN111193643A (zh) 一种云服务器状态监控系统及方法
CN102508760A (zh) 独立磁盘冗余阵列预警方法和系统
CN107463490B (zh) 一种应用于平台开发中的集群日志集中收集方法
CN115858221A (zh) 存储设备的管理方法、装置、存储介质及电子设备
CN114143169A (zh) 一种微服务应用可观测性系统
CN110069371A (zh) 一种识别固态硬盘性能的方法及固态硬盘
CN107918573A (zh) 一种Linux kernel日志中SAS卡故障信息的自动分析系统
CN111343047A (zh) 一种监控ib网络流量的方法及系统
CN115543707A (zh) 硬盘故障的检测方法、系统和装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211

RJ01 Rejection of invention patent application after publication