CN117555719A - 一种系统异常定位的方法、装置、存储介质及电子设备 - Google Patents

一种系统异常定位的方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN117555719A
CN117555719A CN202410038796.3A CN202410038796A CN117555719A CN 117555719 A CN117555719 A CN 117555719A CN 202410038796 A CN202410038796 A CN 202410038796A CN 117555719 A CN117555719 A CN 117555719A
Authority
CN
China
Prior art keywords
information
log information
log
abnormality
software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410038796.3A
Other languages
English (en)
Inventor
姚尧
鲁大欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ziguang Hengyue Technology Co ltd
Original Assignee
Ziguang Hengyue Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ziguang Hengyue Technology Co ltd filed Critical Ziguang Hengyue Technology Co ltd
Priority to CN202410038796.3A priority Critical patent/CN117555719A/zh
Publication of CN117555719A publication Critical patent/CN117555719A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种系统异常定位的方法、装置、存储介质及电子设备,该方法包括:同时收集与目标系统相关的日志信息,其中,所述日志信息包括以下中的至少两种:系统配置信息、系统软件信息、监控管理信息和存储系统信息;利用异常定位工具对所述日志信息进行分析,确定所述目标系统的异常诊断结果和异常处理建议,其中,所述异常定位工具包括:维修手册、软件分析工具和板级管理分析工具。本申请实施例可以实现对目标系统日志的统一收集和分析,提升系统异常定位效率和精准度。

Description

一种系统异常定位的方法、装置、存储介质及电子设备
技术领域
本申请涉及系统处理技术领域,具体而言,涉及一种系统异常定位的方法、装置、存储介质及电子设备。
背景技术
系统日志可以记录系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。
目前,系统在出现故障时需要对硬件、软件和系统其他部件的日志进行分开收集,然后各自传输到公司的研发部门进行分析。一方面日志分开收集和回传会花费较长的时间,另一方面,日志分析定位系统异常通常需要经验丰富的工程师才可以。很明显,当前通过日志定位系统异常的效率较低且无法保证精准度。
因此,如何提供一种高效且精准的系统异常定位的方法的技术方案成为亟需解决的技术问题。
发明内容
本申请的一些实施例的目的在于提供一种系统异常定位的方法、装置、存储介质及电子设备,通过本申请的实施例的技术方案可以通过提升日志收集效率,提升系统异常定位的效率和精准度。
第一方面,本申请的一些实施例提供了一种系统异常定位的方法,包括:同时收集与目标系统相关的日志信息,其中,所述日志信息包括以下中的至少两种:系统配置信息、系统软件信息、监控管理信息和存储系统信息;利用异常定位工具对所述日志信息进行分析,确定所述目标系统的异常诊断结果和异常处理建议,其中,所述异常定位工具包括:维修手册、软件分析工具和板级管理分析工具。
本申请的一些实施例通过同时收集目标系统的日志信息后,通过不同的异常定位工具对日志信息进行分析,确定系统的异常诊断结果和异常处理建议。本申请实施例可以实现日志的全面一键收集,效率较高;同时通过异常定位工具进行分析,可以提升系统异常定位的效率和精准度。
在一些实施例,所述同时收集与目标系统相关的日志信息,包括:在所述目标系统故障的情况下,收集所述系统配置信息和所述监控管理信息;所述系统配置信息包括:现场可置换单元配置信息、输入输出系统配置信息、板级管理控制器BMC固件配置信息、硬件配置信息和机器序列号;所述监控管理信息包括:设备状态日志信息、BMC配置信息、BMC寄存器信息、SEL日志信息和审计日志信息;在所述存储系统存在异常的情况下,收集所述存储系统信息,其中,所述存储系统信息包括:控制器日志信息、存储拓扑日志信息、硬盘日志信息、逻辑盘日志信息、磁盘阵列日志信息;在所述目标系统在启动阶段宕机的情况下,收集所述监控管理信息,其中,所述监控管理信息包括:SOL日志、启动中断码和输入输出系统日志信息;在所述目标系统在运行阶段宕机的情况下,收集所述系统软件信息,其中,所述系统软件信息包括:操作系统日志信息、软件运行日志信息和系统资源日志信息。
本申请的一些实施例通过收集与目标系统相关的各种日志信息,实现了系统日志的全面一键收集,效率较高。
在一些实施例,所述利用异常定位工具对所述日志信息进行分析,确定所述目标系统的异常诊断结果和异常处理建议,包括:利用所述维修手册对所述日志信息进行分析,判断是否存在与所述日志信息相关的故障问题,得到判定结果;若所述判定结果为存在,则生成所述异常诊断结果和所述异常处理建议;若所述判定结果为不存在,则利用所述软件分析工具和所述板级管理分析工具分别对所述日志信息进行分析,获取所述异常诊断结果和所述异常处理建议。
本申请的一些实施例首先通过维修手册对日志信息进行分析,让通过得到的判定结果选择是继续分析还是生成异常诊断结果和异常处理建议,可以实现对日志的有效分析处理,提升系统异常定位的精准度。
在一些实施例,所述利用所述软件分析工具和所述板级管理分析工具分别对所述日志信息进行分析,获取所述异常诊断结果和所述异常处理建议,包括:若所述软件分析工具确认所述日志信息为预设问题,则生成所述异常诊断结果和所述异常处理建议;若所述软件分析工具确认所述日志信息为非预设问题,则将所述日志信息上传至目标服务器,以告知运维人员,并响应于所述运维人员的操作指令,得到所述异常诊断结果和所述异常处理建议;利用所述板级管理分析工具对所述日志信息进行分析,得到所述异常诊断结果和所述异常处理建议。
本申请的一些实施例通过软件分析工具和所述板级管理分析工具可以分别对日志信息进行分析,确定异常诊断结果和异常处理建议,效率较高且精准度较高。
第二方面,本申请的一些实施例提供了一种系统异常定位的装置,包括:一键收集模块,用于同时收集与目标系统相关的日志信息,其中,所述日志信息包括以下中的至少两种:系统配置信息、系统软件信息、监控管理信息和存储系统信息;异常定位模块,用于利用异常定位工具对所述日志信息进行分析,确定所述目标系统的异常诊断结果和异常处理建议,其中,所述异常定位工具包括:维修手册、软件分析工具和板级管理分析工具。
在一些实施例,所述一键收集模块,用于:在所述目标系统故障的情况下,收集所述系统配置信息和所述监控管理信息;所述系统配置信息包括:现场可置换单元配置信息、输入输出系统配置信息、板级管理控制器BMC固件配置信息、硬件配置信息和机器序列号;所述监控管理信息包括:设备状态日志信息、BMC配置信息、BMC寄存器信息、SEL日志信息和审计日志信息;在所述存储系统存在异常的情况下,收集所述存储系统信息,其中,所述存储系统信息包括:控制器日志信息、存储拓扑日志信息、硬盘日志信息、逻辑盘日志信息、磁盘阵列日志信息;在所述目标系统在启动阶段宕机的情况下,收集所述监控管理信息,其中,所述监控管理信息包括:SOL日志、启动中断码和输入输出系统日志信息;在所述目标系统在运行阶段宕机的情况下,收集所述系统软件信息,其中,所述系统软件信息包括:操作系统日志信息、软件运行日志信息和系统资源日志信息。
在一些实施例,所述异常定位模块,用于:利用所述维修手册对所述日志信息进行分析,判断是否存在与所述日志信息相关的故障问题,得到判定结果;若所述判定结果为存在,则生成所述异常诊断结果和所述异常处理建议;若所述判定结果为不存在,则利用所述软件分析工具和所述板级管理分析工具分别对所述日志信息进行分析,获取所述异常诊断结果和所述异常处理建议。
在一些实施例,所述异常定位模块,用于:若所述软件分析工具确认所述日志信息为预设问题,则生成所述异常诊断结果和所述异常处理建议;若所述软件分析工具确认所述日志信息为非预设问题,则将所述日志信息上传至目标服务器,以告知运维人员,并响应于所述运维人员的操作指令,得到所述异常诊断结果和所述异常处理建议;利用所述板级管理分析工具对所述日志信息进行分析,得到所述异常诊断结果和所述异常处理建议。
第三方面,本申请的一些实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如第一方面任一实施例所述的方法。
第四方面,本申请的一些实施例提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现如第一方面任一实施例所述的方法。
第五方面,本申请的一些实施例提供一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现如第一方面任一实施例所述的方法。
附图说明
为了更清楚地说明本申请的一些实施例的技术方案,下面将对本申请的一些实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请的一些实施例提供的一种系统异常定位的系统图;
图2为本申请的一些实施例提供的系统异常定位的方法流程图之一;
图3为本申请的一些实施例提供的系统异常定位的方法流程图之二;
图4为本申请的一些实施例提供的系统异常定位的装置组成框图;
图5为本申请的一些实施例提供的一种电子设备示意图。
具体实施方式
下面将结合本申请的一些实施例中的附图,对本申请的一些实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
相关技术中,系统日志是记录系统中硬件、软件和系统问题的信息载体,同时还可以监视系统中发生的事件。用户或工程师可以通过它来检查错误发生的原因,或者寻找系统受到攻击时攻击者留下的痕迹。系统日志包括系统日志、应用程序日志和安全日志等。
例如,SEL日志是记录服务器中各类传感器的日志,BMC(Baseboard ManagementController,板级管理控制器)通过SDR或者PCIE设备(PCIE,peripheral componentinterconnect express,是一种高速串行计算机扩展总线标准)、BIOS(Basic InputOutput System,基本输入输出系统)推送信息组成SEL日志,记录了大部分的系统状态与告警。审计日志记录了客户端对BMC的各项设置访问等操作,在服务器故障告警后,结合审计日志可以方便查阅出当时做过什么操作,便于判断异常起因。
然而,系统中存在大量的软硬件和其他系统部件,当前的收集工具无法实现对日志的全面收集。这就造成在分析系统运行状态或出现的问题时,由于缺少全面的日志信息收集平台,而对日志收集工作带来很大的不便,进而影响整体服务器状态的分析。而且,在服务器出现告警信息后无法及时得到补救措施或者指导,分析日志和告警信息需要将日志收集好后传回公司研发部门分析。对于问题分析经验不足现场工程师很不友好,且传回日志分析耗时更长,对于一些简单的异常问题,很显然是浪费时间。另外,生产过程中若遇到严重紧急问题时,产线工人不清楚问题原因,要么滞线等待研发查看,但是这种方式影响生产进度,从而影响产能;要么破坏现象,无法收集到关键日志。对于低概率事件,可能无法复现,研发无法查看到问题原因,增大了异常隐患的出现概率。
由上述相关技术可知,现有技术中对系统异常定位的方法中效率较低且精准度较差。
鉴于此,本申请的一些实施例提供了一种系统异常定位的方法,该方法可以一键同时收集目标系统的所有日志信息,然后利用异常定位工具对日志信息进行分析,确定系统的异常诊断结果和异常处理建议。本申请的一些实施例可以实现目标系统的日志全面收集,通过异常定位工具可以对日志信息进行分析,确保了分析的统一性和规范性,提升了异常定位的效率和精准度。
下面结合附图1示例性阐述本申请的一些实施例提供的系统异常定位的系统的整体组成结构。
如图1所示,本申请的一些实施例提供了一种系统异常定位的系统,该系统异常定位的系统包括:终端100和服务器200。服务器200的目标系统可以为Linux系统。服务器200故障后,终端100可以同时收集服务器200的目标系统的所有日志信息。之后终端100可以利用异常定位工具对日志信息进行全面分析,确定目标系统的异常诊断结果和异常处理建议。
在本申请的一些实施例中,终端100可以为移动终端,也可以为非便携的电脑终端,本申请实施例在此不作具体限定。服务器200的操作系统的类型可以是除Linux系统之外的其他类型,本申请实施例并不局限于此。
下面结合附图2示例性阐述本申请的一些实施例提供的由终端100执行的系统异常定位的实现过程。
请参见附图2,图2为本申请的一些实施例提供的一种系统异常定位的方法流程图,该系统异常定位的方法包括:
S210,同时收集与目标系统相关的日志信息,其中,所述日志信息包括以下中的至少两种:系统配置信息、系统软件信息、监控管理信息和存储系统信息。
例如,在本申请的一些实施例中,终端100可以通过调用目标系统下的通用接口收集与目标系统相关的所有的日志信息,以此实现日志的全面收集,提升收集效率。日志信息含有的内容可以根据目标系统的类型和构成进行设定,本申请实施例并不局限于此。
在本申请的一些实施例中,S210可以包括:在所述目标系统故障的情况下,收集所述系统配置信息和所述监控管理信息;所述系统配置信息包括:现场可置换单元配置信息、输入输出系统配置信息、板级管理控制器BMC固件配置信息、硬件配置信息和机器序列号;所述监控管理信息包括:设备状态日志信息、BMC配置信息、BMC寄存器信息、SEL日志信息和审计日志信息;在所述存储系统存在异常的情况下,收集所述存储系统信息,其中,所述存储系统信息包括:控制器日志信息、存储拓扑日志信息、硬盘日志信息、逻辑盘日志信息、磁盘阵列日志信息;在所述目标系统在启动阶段宕机的情况下,收集所述监控管理信息,其中,所述监控管理信息包括:SOL日志、启动中断码和输入输出系统日志信息;在所述目标系统在运行阶段宕机的情况下,收集所述系统软件信息,其中,所述系统软件信息包括:操作系统日志信息、软件运行日志信息和系统资源日志信息。
例如,在本申请的一些实施例中,当监测到目标系统故障后,日志收集工具配置的系统配置信息收集模块、系统软件信息收集模块、存储信息收集模块、监控管理信息收集模块可以启动对目标系统中的日志进行收集。
具体的,系统配置信息收集模块可以收集与系统配置信息相关的日志,例如,其负责收集现场可置换单元(FRU)配置信息、BIOS(作为输入输出系统配置信息的一个具体示例)及BMC Firmware(固件)的日志信息(作为BMC固件配置信息的一个具体示例),还可一键收集机器序列号,硬件配置信息等。其中,现场可置换单元(FRU)包括主板、CPU、内存、PCI-E设备、电源模块等。系统配置信息收集模块通过调用操作系统(也就是目标系统)下的通用接口和BMC定义的IPMI(智能平台管理接口,Intelligent Platform ManagementInterface)命令、Redfish、webUI专属页面收集相关的日志信息。
监控管理信息收集模块负责收集设备健康状态(作为设备状态日志信息的一个具体示例)、BMC配置信息、BMC寄存器信息、SEL日志、 SOL日志、审计日志等信息。
当检测到存储系统存在异常时,存储信息收集模块负责收集控制器、存储拓扑、硬盘、逻辑盘和RAID(Redundant Arrays of Independent Disks,磁盘阵列)等日志信息。具体的,存储信息收集模块通过在操作系统下调用厂商提供的软件工具访问RAID控制器、 硬盘等,以收集日志信息。若存储系统不存在异常则不需要收集相关日志信息。
当检测到操作系统在POST阶段(也就是启动阶段)宕机时,监控管理信息收集模块收集SOL日志、post80码(作为启动中断码的一个具体示例)和BIOS推送日志(作为输入输出系统日志信息的一个具体示例)。若在POST阶段正常,则不作收集处理。
当检测到操作系统在runtime阶段(也就是运行阶段)宕机时,系统软件信息收集模块负责收集操作系统日志信息、资源利用率(作为系统资源日志信息的一个具体示例)、系统及软件运行日志信息。具体的,系统软件信息收集模块通过调用操作系统下的通用接口收集日志信息。
需要说明的是,上述日志的类型可以按需进行扩展后实现一键收集,本申请实施例并不局限于此。
S220,利用异常定位工具对所述日志信息进行分析,确定所述目标系统的异常诊断结果和异常处理建议,其中,所述异常定位工具包括:维修手册、软件分析工具和板级管理分析工具。
例如,在本申请的一些实施例中,通过不同的异常定位工具可以对日志信息进行分析,得到异常诊断结果和异常处理建议,以此提升日志分析的规范性和精准度。
下面示例性阐述上述过程。
在本申请的一些实施例中,S220还可以包括:利用所述维修手册对所述日志信息进行分析,判断是否存在与所述日志信息相关的故障问题,得到判定结果;若所述判定结果为存在,则生成所述异常诊断结果和所述异常处理建议;若所述判定结果为不存在,则利用所述软件分析工具和所述板级管理分析工具分别对所述日志信息进行分析,获取所述异常诊断结果和所述异常处理建议。
例如,在本申请的一些实施例中,首先需要FAQ维修手册对日志信息进行分析。判定FAQ维修手册是否存在与收集到的日志信息相关的类似问题(作为故障问题的一个具体示例),若存在则通过FAQ维修手册得到异常诊断结果和异常处理建议。若不存在,则利用软件分析工具和BMC分析工具(作为板级管理分析工具的一个具体示例)进行进一步分析定位。可以理解的是,FAQ维修手册可以是日常更新维护的手册,以便于总结系统可能遇到的所有异常情况,提升后续系统异常定位效率。
在本申请的一些实施例中,S220还可以包括:若所述软件分析工具确认所述日志信息为预设问题,则生成所述异常诊断结果和所述异常处理建议;若所述软件分析工具确认所述日志信息为非预设问题,则将所述日志信息上传至目标服务器,以告知运维人员,并响应于所述运维人员的操作指令,得到所述异常诊断结果和所述异常处理建议;利用所述板级管理分析工具对所述日志信息进行分析,得到所述异常诊断结果和所述异常处理建议。
例如,在本申请的一些实施例中,通过软件分析工具分析若判断该日志信息存在的问题为研发已知问题(作为预设问题的一个具体示例),则软件分析工具可以生成并输出异常诊断结果和异常处理建议。若不是已知问题(作为非预设问题的一个具体示例),则将日志信息上传到固定服务器(作为目标服务器的一个具体示例),由研发人员给出异常诊断结果和异常处理建议。其中,软件分析工具可以定期更新维护。研发人员可以将异常诊断结果和异常处理建议添加至终端100的FAQ维修手册中和/或软件分析工具中,以便于下次出现相同问题时可以及时给出建议。BMC分析工具也可以对日志信息中相关的日志进行分析,以使得BMC SEL给出相应的异常诊断结果和异常处理建议。应理解,软件分析工具和BMC分析工具可以同时对日志信息进行分析,也可以一个分析完成后另一个再进行分析,具体的可以根据实际应用场景进行灵活设定,本申请实施例在此不作具体限定。
下面结合附图3示例性阐述本申请的一些实施例提供的系统异常定位的具体过程。
请参见附图3,图3为本申请的一些实施例提供的一种系统异常定位的方法流程图。
下面示例性阐述上述过程。
S310,检测到目标系统出现故障。
S320,同时收集所有的日志信息。
其中,所有的日志信息是收集如图3所示,其具体包括:
1)收集系统配置信息。
2)收集监控管理信息。
3)判定存储系统是否异常,若是则执行S3231,否则执行S326。
31)收集存储系统信息。
4)判定在POST阶段宕机,若是则执行S3241,否则执行S326。
41)收集SOL日志、启动中断码和BIOS推送日志。
5)判定在runtime阶段宕机,若是则执行S3251,否则执行S326。
51)收集操作系统的各类日志。
6)不执行收集操作。
需要说明的是,1)~6)的收集日志的过程可以是同时进行的,上述序号只是为了分开说明,不代表执行顺序。
S330,维修手册判定是否存在与日志信息相关的类似问题,若存在则执行S360,否则执行S340。
S340,软件分析工具判定日志信息是否为预设问题,若是则执行S360,否则执行S341。
S341,将日志信息上传至目标服务器,执行S360。
S350,利用板级管理分析工具对日志信息进行分析,获取异常诊断结果和异常处理建议。
S360,输出异常诊断结果和异常处理建议。
需要说明的是,S310~S360的执行顺序可以按需调整,本申请实施例并不局限于此。另外,S310~S370的具体实现过程可以参照上文提供的方法实施例,为避免重复,此处适当省略详细描述。
通过上文提供的方法实施例可知,本申请日志收集工具具有实时性,可以随时收集各类日志信息,提高收集故障信息效率,提供全面日志信息,为故障诊断及数据挖掘提供数据源,且会根据日志直接分析出调试方案或者消除异常措施,同时也方便技术人员查看日志,提高工作效率。
请参考图4,图4示出了本申请的一些实施例提供的系统异常定位的装置的组成框图。应理解,该系统异常定位的装置与上述方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该系统异常定位的装置的具体功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
图4的系统异常定位的装置包括至少一个能以软件或固件的形式存储于存储器中或固化在系统异常定位的装置中的软件功能模块,该系统异常定位的装置包括:一键收集模块410,用于同时收集与目标系统相关的日志信息,其中,所述日志信息包括以下中的至少两种:系统配置信息、系统软件信息、监控管理信息和存储系统信息;异常定位模块420,用于利用异常定位工具对所述日志信息进行分析,确定所述目标系统的异常诊断结果和异常处理建议,其中,所述异常定位工具包括:维修手册、软件分析工具和板级管理分析工具。
在本申请的一些实施例中,一键收集模块410,用于:
在所述目标系统故障的情况下,收集所述系统配置信息和所述监控管理信息;所述系统配置信息包括:现场可置换单元配置信息、输入输出系统配置信息、板级管理控制器BMC固件配置信息、硬件配置信息和机器序列号;所述监控管理信息包括:设备状态日志信息、BMC配置信息、BMC寄存器信息、SEL日志信息和审计日志信息;
在所述存储系统存在异常的情况下,收集所述存储系统信息,其中,所述存储系统信息包括:控制器日志信息、存储拓扑日志信息、硬盘日志信息、逻辑盘日志信息、磁盘阵列日志信息;
在所述目标系统在启动阶段宕机的情况下,收集所述监控管理信息,其中,所述监控管理信息包括:SOL日志、启动中断码和输入输出系统日志信息;
在所述目标系统在运行阶段宕机的情况下,收集所述系统软件信息,其中,所述系统软件信息包括:操作系统日志信息、软件运行日志信息和系统资源日志信息。
在本申请的一些实施例中,异常定位模块420,用于:
利用所述维修手册对所述日志信息进行分析,判断是否存在与所述日志信息相关的故障问题,得到判定结果;
若所述判定结果为存在,则生成所述异常诊断结果和所述异常处理建议;
若所述判定结果为不存在,则利用所述软件分析工具和所述板级管理分析工具分别对所述日志信息进行分析,获取所述异常诊断结果和所述异常处理建议。
在本申请的一些实施例中,异常定位模块420,用于:
若所述软件分析工具确认所述日志信息为预设问题,则生成所述异常诊断结果和所述异常处理建议;
若所述软件分析工具确认所述日志信息为非预设问题,则将所述日志信息上传至目标服务器,以告知运维人员,并响应于所述运维人员的操作指令,得到所述异常诊断结果和所述异常处理建议;
利用所述板级管理分析工具对所述日志信息进行分析,得到所述异常诊断结果和所述异常处理建议。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
本申请的一些实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如上述实施例提供的上述方法中的任意实施例所对应方法的操作。
本申请的一些实施例还提供了一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现如上述实施例提供的上述方法中的任意实施例所对应方法的操作。
如图5所示,本申请的一些实施例提供一种电子设备500,该电子设备500包括:存储器510、处理器520以及存储在存储器510上并可在处理器520上运行的计算机程序,其中,处理器520通过总线530从存储器510读取程序并执行所述程序时可实现如上述任意实施例的方法。
处理器520可以处理数字信号,可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中,处理器520可以是微处理器。
存储器510可以用于存储由处理器520执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码,用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器520可以用于执行存储器510中的指令以实现上述所示的方法。存储器510包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种系统异常定位的方法,其特征在于,包括:
同时收集与目标系统相关的日志信息,其中,所述日志信息包括以下中的至少两种:系统配置信息、系统软件信息、监控管理信息和存储系统信息;
利用异常定位工具对所述日志信息进行分析,确定所述目标系统的异常诊断结果和异常处理建议,其中,所述异常定位工具包括:维修手册、软件分析工具和板级管理分析工具。
2.如权利要求1所述的方法,其特征在于,所述同时收集与目标系统相关的日志信息,包括:
在所述目标系统故障的情况下,收集所述系统配置信息和所述监控管理信息;所述系统配置信息包括:现场可置换单元配置信息、输入输出系统配置信息、板级管理控制器BMC固件配置信息、硬件配置信息和机器序列号;所述监控管理信息包括:设备状态日志信息、BMC配置信息、BMC寄存器信息、SEL日志信息和审计日志信息;
在所述存储系统存在异常的情况下,收集所述存储系统信息,其中,所述存储系统信息包括:控制器日志信息、存储拓扑日志信息、硬盘日志信息、逻辑盘日志信息、磁盘阵列日志信息;
在所述目标系统在启动阶段宕机的情况下,收集所述监控管理信息,其中,所述监控管理信息包括:SOL日志、启动中断码和输入输出系统日志信息;
在所述目标系统在运行阶段宕机的情况下,收集所述系统软件信息,其中,所述系统软件信息包括:操作系统日志信息、软件运行日志信息和系统资源日志信息。
3.如权利要求1或2所述的方法,其特征在于,所述利用异常定位工具对所述日志信息进行分析,确定所述目标系统的异常诊断结果和异常处理建议,包括:
利用所述维修手册对所述日志信息进行分析,判断是否存在与所述日志信息相关的故障问题,得到判定结果;
若所述判定结果为存在,则生成所述异常诊断结果和所述异常处理建议;
若所述判定结果为不存在,则利用所述软件分析工具和所述板级管理分析工具分别对所述日志信息进行分析,获取所述异常诊断结果和所述异常处理建议。
4.如权利要求3所述的方法,其特征在于,所述利用所述软件分析工具和所述板级管理分析工具分别对所述日志信息进行分析,获取所述异常诊断结果和所述异常处理建议,包括:
若所述软件分析工具确认所述日志信息为预设问题,则生成所述异常诊断结果和所述异常处理建议;
若所述软件分析工具确认所述日志信息为非预设问题,则将所述日志信息上传至目标服务器,以告知运维人员,并响应于所述运维人员的操作指令,得到所述异常诊断结果和所述异常处理建议;
利用所述板级管理分析工具对所述日志信息进行分析,得到所述异常诊断结果和所述异常处理建议。
5.一种系统异常定位的装置,其特征在于,包括:
一键收集模块,用于同时收集与目标系统相关的日志信息,其中,所述日志信息包括以下中的至少两种:系统配置信息、系统软件信息、监控管理信息和存储系统信息;
异常定位模块,用于利用异常定位工具对所述日志信息进行分析,确定所述目标系统的异常诊断结果和异常处理建议,其中,所述异常定位工具包括:维修手册、软件分析工具和板级管理分析工具。
6.如权利要求5所述的装置,其特征在于,所述一键收集模块,用于:
在所述目标系统故障的情况下,收集所述系统配置信息和所述监控管理信息;所述系统配置信息包括:现场可置换单元配置信息、输入输出系统配置信息、板级管理控制器BMC固件配置信息、硬件配置信息和机器序列号;所述监控管理信息包括:设备状态日志信息、BMC配置信息、BMC寄存器信息、SEL日志信息和审计日志信息;
在所述存储系统存在异常的情况下,收集所述存储系统信息,其中,所述存储系统信息包括:控制器日志信息、存储拓扑日志信息、硬盘日志信息、逻辑盘日志信息、磁盘阵列日志信息;
在所述目标系统在启动阶段宕机的情况下,收集所述监控管理信息,其中,所述监控管理信息包括:SOL日志、启动中断码和输入输出系统日志信息;
在所述目标系统在运行阶段宕机的情况下,收集所述系统软件信息,其中,所述系统软件信息包括:操作系统日志信息、软件运行日志信息和系统资源日志信息。
7.如权利要求5或6所述的装置,其特征在于,所述异常定位模块,用于:
利用所述维修手册对所述日志信息进行分析,判断是否存在与所述日志信息相关的故障问题,得到判定结果;
若所述判定结果为存在,则生成所述异常诊断结果和所述异常处理建议;
若所述判定结果为不存在,则利用所述软件分析工具和所述板级管理分析工具分别对所述日志信息进行分析,获取所述异常诊断结果和所述异常处理建议。
8.如权利要求7所述的装置,其特征在于,所述异常定位模块,用于:
若所述软件分析工具确认所述日志信息为预设问题,则生成所述异常诊断结果和所述异常处理建议;
若所述软件分析工具确认所述日志信息为非预设问题,则将所述日志信息上传至目标服务器,以告知运维人员,并响应于所述运维人员的操作指令,得到所述异常诊断结果和所述异常处理建议;
利用所述板级管理分析工具对所述日志信息进行分析,得到所述异常诊断结果和所述异常处理建议。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被处理器运行时执行如权利要求1-4中任意一项权利要求所述的方法。
10.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器运行时执行如权利要求1-4中任意一项权利要求所述的方法。
CN202410038796.3A 2024-01-11 2024-01-11 一种系统异常定位的方法、装置、存储介质及电子设备 Pending CN117555719A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410038796.3A CN117555719A (zh) 2024-01-11 2024-01-11 一种系统异常定位的方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410038796.3A CN117555719A (zh) 2024-01-11 2024-01-11 一种系统异常定位的方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN117555719A true CN117555719A (zh) 2024-02-13

Family

ID=89813167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410038796.3A Pending CN117555719A (zh) 2024-01-11 2024-01-11 一种系统异常定位的方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117555719A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110187996A (zh) * 2019-05-30 2019-08-30 苏州浪潮智能科技有限公司 Bmc主进程故障诊断方法、装置、设备及可读存储介质
CN111694719A (zh) * 2020-06-10 2020-09-22 腾讯科技(深圳)有限公司 服务器故障处理方法、装置、存储介质及电子设备
WO2021256577A1 (ko) * 2020-06-15 2021-12-23 주식회사시옷 멀티네트워크 디바이스의 보안 진단 방법
WO2023181241A1 (ja) * 2022-03-24 2023-09-28 日本電気株式会社 監視サーバ装置、システム、方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110187996A (zh) * 2019-05-30 2019-08-30 苏州浪潮智能科技有限公司 Bmc主进程故障诊断方法、装置、设备及可读存储介质
CN111694719A (zh) * 2020-06-10 2020-09-22 腾讯科技(深圳)有限公司 服务器故障处理方法、装置、存储介质及电子设备
WO2021256577A1 (ko) * 2020-06-15 2021-12-23 주식회사시옷 멀티네트워크 디바이스의 보안 진단 방법
WO2023181241A1 (ja) * 2022-03-24 2023-09-28 日本電気株式会社 監視サーバ装置、システム、方法、及びプログラム

Similar Documents

Publication Publication Date Title
CN108388489B (zh) 一种服务器故障诊断方法、系统、设备及存储介质
US7856575B2 (en) Collaborative troubleshooting computer systems using fault tree analysis
EP3121726B1 (en) Fault processing method, related device and computer
Shang et al. Automated detection of performance regressions using regression models on clustered performance counters
US7979749B2 (en) Method and infrastructure for detecting and/or servicing a failing/failed operating system instance
US8108724B2 (en) Field replaceable unit failure determination
US11789760B2 (en) Alerting, diagnosing, and transmitting computer issues to a technical resource in response to an indication of occurrence by an end user
US10489232B1 (en) Data center diagnostic information
US11853150B2 (en) Method and device for detecting memory downgrade error
US8074123B2 (en) Multi-CPU failure detection/recovery system and method for the same
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
JP2003122599A (ja) 計算機システムおよび計算機システムにおけるプログラム実行監視方法
CN113010341A (zh) 一种故障内存定位的方法和设备
CN110333964B (zh) 异常日志处理方法及装置、电子设备、存储介质
JP2009245154A (ja) シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2007207213A (ja) ワイヤレスデバイスのリアルタイム診断に適用する診断情報収集手法
CN117555719A (zh) 一种系统异常定位的方法、装置、存储介质及电子设备
Narayanan et al. Towards' integrated'monitoring and management of datacenters using complex event processing techniques
CN100369009C (zh) 使用系统管理中断信号的监控系统及方法
CN117407207B (zh) 一种内存故障处理方法、装置、电子设备及存储介质
CN115695159B (zh) 一种设备诊断方法、装置、设备和存储介质
US11714701B2 (en) Troubleshooting for a distributed storage system by cluster wide correlation analysis
Khan Time-Series Trend-Based Multi-Level Adaptive Execution Tracing
Huo et al. A Roadmap towards Intelligent Operations for Reliable Cloud Computing Systems
CN118113508A (zh) 网卡故障风险预测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination