CN116662108A - 一种故障检测方法、装置、设备和存储介质 - Google Patents

一种故障检测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN116662108A
CN116662108A CN202310464778.7A CN202310464778A CN116662108A CN 116662108 A CN116662108 A CN 116662108A CN 202310464778 A CN202310464778 A CN 202310464778A CN 116662108 A CN116662108 A CN 116662108A
Authority
CN
China
Prior art keywords
log information
information
negligible
log
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310464778.7A
Other languages
English (en)
Inventor
郭杨洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310464778.7A priority Critical patent/CN116662108A/zh
Publication of CN116662108A publication Critical patent/CN116662108A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例提供了一种故障检测方法、装置、设备和存储介质,该方法应用于服务器,该服务器包括基板管理控制器BMC与操作系统OS,包括:通过BMC中的智能型平台管理接口命令,获取OS的日志信息;判断日志信息是否为异常日志信息;若日志信息为异常日志信息,则判断日志信息是否为可忽略日志信息;若日志信息不为可忽略日志信息,则输出提醒信息,提醒信息用于提醒用户对日志信息进行异常处理。本发明能够通过基板管理控制器自动获取操作系统的日志信息,甄别筛选操作系统的异常问题,极大提升了识别异常信息的效率,能够帮助研发人员快速定位问题。

Description

一种故障检测方法、装置、设备和存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种故障检测方法、装置、设备和存储介质。
背景技术
随着通信技术的发展,对服务器的性能要求越来越高,也意味着每台服务器都有必要进行全面的性能功能测试,现有技术中,在服务器测试结束后,服务器基于强大的OS(Operating system,操作系统)会自动收集日志信息来充分体现服务器的实时状态,收集的日志信息十分全面而且日志文件较大,需要人工拷贝出来进行分析,从中攫取个性的异常信息,这无疑是占用了测试时间,降低了识别异常信息的效率。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种故障检测方法、装置、设备和存储介质。
为了解决上述问题,本发明实施例公开了故障检测方法,应用于服务器,所述服务器包括基板管理控制器BMC与操作系统OS,所述方法包括:
通过所述BMC中的智能型平台管理接口命令,获取所述OS的日志信息;
判断所述日志信息是否为异常日志信息;
若所述日志信息为异常日志信息,则判断所述日志信息是否为可忽略日志信息;
若所述日志信息不为可忽略日志信息,则输出提醒信息,所述提醒信息用于提醒用户对所述日志信息进行异常处理。
可选地,所述判断所述日志信息是否为异常日志信息,包括:
获取维护清单,所述维护清单包括多个日志信息与故障状态的第一对应关系;
从所述第一对应关系中,查询所述日志信息对应的目标故障状态;
判断所述目标故障状态是否为异常日志信息。
可选地,所述维护清单还包括多个日志信息与可忽略状态的第二对应关系,所述判断所述日志信息是否为可忽略日志信息,包括:
从所述第二对应关系中,查询所述日志信息对应的目标可忽略状态;
判断所述目标可忽略状态是否为可忽略日志信息。
可选地,所述方法还包括:
若所述日志信息不存在于所述维护清单中,则将所述日志信息发送至用户终端,以使所述用户终端对所述日志信息进行分析;
接收所述用户终端发送的分析结果,所述分析结果包括所述日志信息的故障状态以及可忽略状态;
基于所述分析结果,对所述维护清单进行更新。
可选地,所述基于所述分析结果,对所述维护清单进行更新,包括:
将所述日志信息的故障状态、可忽略状态按照一一对应的关系存储到所述维护清单中。
可选地,所述日志信息包括:内核日志信息、用户日志信息、程序日志信息中的至少一种。
可选地,所述输出提醒信息,包括:
通过预设方式输出提醒信息,所述预设方式包括文本信息、语音、图片的至少一种。
本发明还公开了一种故障检测装置,应用于服务器,所述服务器包括基板管理控制器BMC与操作系统OS,所述装置包括:
获取模块,用于通过所述BMC中的智能型平台管理接口命令,获取所述OS的日志信息;
第一判断模块,用于判断所述日志信息是否为异常日志信息;
第二判断模块,用于若所述日志信息为异常日志信息,则判断所述日志信息是否为可忽略日志信息;
输出模块,用于若所述日志信息不为可忽略日志信息,则输出提醒信息,所述提醒信息用于提醒用户对所述日志信息进行异常处理。
可选地,所述第一判断模块,包括:
获取子模块,用于获取维护清单,所述维护清单包括多个日志信息与故障状态的第一对应关系;
第一查询子模块,用于从所述第一对应关系中,查询所述日志信息对应的目标故障状态;
第一判断子模块,用于判断所述目标故障状态是否为异常日志信息。
可选地,所述维护清单还包括多个日志信息与可忽略状态的第二对应关系,所述第二判断模块,包括:
第二查询子模块,用于从所述第二对应关系中,查询所述日志信息对应的目标可忽略状态;
第二判断子模块,用于判断所述目标可忽略状态是否为可忽略日志信息。
可选地,所述装置还包括:
发送模块,用于若所述日志信息不存在于所述维护清单中,则将所述日志信息发送至用户维护终端,以使所述用户维护终端对所述日志信息进行分析;
接收模块,用于接收所述用户终端发送的分析结果,所述分析结果包括所述日志信息的故障状态以及可忽略状态;
更新模块,用于基于所述分析结果,对所述维护清单进行更新。
可选地,所述更新模块,包括:
更新子模块,用于将所述日志信息的故障状态、可忽略状态按照一一对应的关系存储到所述维护清单中。
可选地,所述日志信息包括:内核日志信息、用户日志信息、程序日志信息中的至少一种。
可选地,所述输出模块,包括:
输出子模块,用于通过预设方式输出提醒信息,所述预设方式包括文本信息、语音、图片的至少一种。
本发明还公开了一种电子设备,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的故障检测方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的故障检测方法的步骤。
本发明实施例包括以下优点:
本发明公开了一种故障测试方法,本发明通过BMC中的智能型平台管理接口命令,获取OS的日志信息,不需要人工手动将日志信息拷贝出来,降低了人力的投入,节约了人力成本;本发明可以通过判断日志信息是否为异常日志信息,在日志信息为异常日志信息且为不可忽略信息时,可以输出提醒信息,以提醒用户对日志信息进行异常处理;本发明能够对异常日志信息进行筛选分类,避免对可忽略的日志信息进行处理,提高了识别异常信息的效率,能够帮助研发人员快速定位问题。
附图说明
图1是本发明实施例提供的一种故障测试方法的步骤流程图;
图2是本发明实施例提供的另一种故障测试方法的步骤流程图;
图3是本发明实施例提供的一种故障测试装置的结构框图;
图4是本发明实施例提供的一种电子设备的结构框图;
图5是本发明实施例提供的一种计算机可读存储介质的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
现有技术中,在服务器测试结束后,服务器基于强大的OS(Operating system,操作系统)会自动收集日志信息来充分体现服务器的实时状态,收集的日志信息十分全面而且日志文件较大,需要人工拷贝出来进行分析,从中攫取个性的异常信息,这无疑是占用了测试时间,降低了识别异常信息的效率。
基于此,本发明实施例的核心构思之一在于,提供一种故障测试方法,本发明通过BMC中的智能型平台管理接口命令,获取OS的日志信息,不需要人工手动将日志信息拷贝出来,降低了人力的投入,节约了人力成本;本发明可以通过判断日志信息是否为异常日志信息,在日志信息为异常日志信息且为不可忽略信息时,可以输出提醒信息,以提醒用户对日志信息进行异常处理;本发明能够对异常日志信息进行筛选分类,避免对可忽略的日志信息进行处理,提高了识别异常信息的效率,能够帮助研发人员快速定位问题。
参照图1,示出了本发明实施例提供的一种故障检测方法的步骤流程图,应用于服务器,所述服务器包括基板管理控制器BMC与操作系统OS,所述方法可以包括如下步骤:
步骤101,通过BMC中的智能型平台管理接口命令,获取OS的日志信息。
本发明实施例中,从广义上讲,服务器是指网络中能对其它机器提供某些服务的计算机系统;从狭义上讲,服务器是专指某些高性能计算机,能通过网络,对外提供服务。相对于普通PC来说,稳定性、安全性、性能等方面都要求更高,因此在CPU、芯片组、内存、磁盘系统、网络等硬件和普通PC(Personal Computer)有所不同。
服务器作为网络的节点,存储、处理网络上80%的数据、信息,因此也被称为网络的灵魂;做一个形象的比喻:服务器就像是邮局的交换机,而微机、笔记本、PDA、手机等固定或移动的网络终端,就如散落在家庭、各种办公场所、公共场所等处的电话机。我们与外界日常的生活、工作中的电话交流、沟通,必须经过交换机,才能到达目标电话;同样如此,网络终端设备如家庭、企业中的微机上网,获取资讯,与外界沟通、娱乐等,也必须经过服务器,因此也可以说是服务器在“组织”和“领导”这些设备。
按照体系架构来区分,服务器主要分为两类:
非x86服务器:包括大型机、小型机和UNIX服务器,它们是使用RISC(精简指令集)或EPIC处理器,并且主要采用UNIX和其它专用操作系统的服务器,精简指令集处理器主要有IBM公司的POWER和PowerPC处理器,SUN与富士通公司合作研发的SPARC处理器、EPIC处理器主要是HP与Intel合作研发的安腾处理器等。这种服务器价格昂贵,体系封闭,但是稳定性好,性能强,主要用在金融、电信等大型企业的核心系统中;
x86服务器:又称CISC(复杂指令集)架构服务器,即通常所讲的PC服务器,它是基于PC机体系结构,使用Intel或其它兼容x86指令集的处理器芯片和Windows操作系统的服务器,如IBM的System x系列服务器、HP的Proliant系列服务器等。价格便宜、兼容性好、稳定性差、不安全,主要用在中小企业和非关键业务中。
OS(Operation System,操作系统)是指控制和管理整个计算机系统的硬件和软件资源,并合理的组织和调度计算机的工作和资源的分配,以提供给用户和其它软件方便的接口和环境,它是计算机系统中最基本的系统软件。
BMC(Baseboard Management Controller,基板管理控制器),它可以在机器未开机的状态下,对机器进行固件升级、查看机器设备的日志信息等一些操作。
本发明可以通过BMC界面的ipmitool智能型平台管理接口命令,来获取操作系统的日志信息。
步骤102,判断日志信息是否为异常日志信息。
本发明实施例中,获取到日志信息后,可以通过算法来确定日志信息是否为异常日志信息,在一示例中,可以通过模糊匹配算法来确定日志信息是否异常日志信息。
需要说明的是,具体通过哪一种算法来确定日志信息是否为异常日志信息,在此不做限定。
若确定日志信息为正常日志信息,则确定操作系统工作正常。
步骤103,若日志信息为异常日志信息,则判断日志信息是否为可忽略日志信息。
本发明实施例中,在确定日志信息为异常日志信息时,由于有些操作系统的异常为可以忽略的异常信息,此时并不用对这些异常日志信息进行处理,可以对这些异常日志信息忽略掉,因此在确定日志信息为异常日志信息后,可以判断判断日志信息是否为可以忽略的异常日志信息,若日志信息不为可忽略的异常日志信息,则需要对该日志信息进行异常处理,若日志信息为可忽略的异常日志信息,则不需要对该日志信息进行异常处理,此时可以忽略掉该异常日志信息。
步骤104,若日志信息不为可忽略日志信息,则输出提醒信息,提醒信息用于提醒用户对日志信息进行异常处理。
本发明实施例中,在确定日志信息不为可忽略的日志信息,则说明需要对该日志信息进行处理,此时可以输出一个提醒信息,通过该提醒信息提醒用户对该日志信息进行处理,本发明通过提醒信息对用户进行提醒,可以使得用户更加清楚的得知哪些日志存在异常,提高了排除故障的效率。
本发明通过BMC中的智能型平台管理接口命令,获取OS的日志信息,不需要人工手动将日志信息拷贝出来,降低了人力的投入,节约了人力成本;本发明可以通过判断日志信息是否为异常日志信息,在日志信息为异常日志信息且为不可忽略信息时,可以输出提醒信息,以提醒用户对日志信息进行异常处理;本发明能够对异常日志信息进行筛选分类,避免对可忽略的日志信息进行处理,提高了识别异常信息的效率,能够帮助研发人员快速定位问题。
参照图2,示出了本发明实施例提供的另一种故障检测方法的步骤流程图,应用于服务器,所述服务器包括基板管理控制器BMC与操作系统OS,所述方法可以包括如下步骤:
步骤201,通过BMC中的智能型平台管理接口命令,获取OS的日志信息。
本发明实施例中,服务器是计算机的一种,它比普通计算机运行更快、负载更高、价格更贵。服务器在网络中为其它客户机(如PC机、智能手机、ATM等终端甚至是火车系统等大型设备)提供计算或者应用服务。服务器具有高速的CPU运算能力、长时间的可靠运行、强大的I/O外部数据吞吐能力以及更好的扩展性。根据服务器所提供的服务,一般来说服务器都具备承担响应服务请求、承担服务、保障服务的能力。服务器作为电子设备,其内部的结构十分的复杂,但与普通的计算机内部结构相差不大,如:cpu、硬盘、内存,系统、系统总线等;本发明可以通过BMC界面的ipmitool智能型平台管理接口命令,来获取操作系统的日志信息。
在本发明的一种实施例方式中,所述日志信息包括:内核日志信息、用户日志信息、程序日志信息中的至少一种。
本发明实施例中,内核日志信息指的是与系统内核相关的日志信息,内核是一个操作系统的核心,是基于硬件的第一层软件扩充,提供操作系统的最基本的功能,是操作系统工作的基础,它负责管理系统的进程、内存、设备驱动程序、文件和网络系统,决定着系统的性能和稳定性。
用户日志信息指的是与用户信息相关的日志信息,例如用户登录相关的信息。
程序日志信息指的是操作系统中的一些程序相关的日志信息,例如操作系统中安装有程序A、程序B,可以获取到程序A、程序B的日志信息。
步骤202,获取维护清单,维护清单包括多个日志信息与故障状态的第一对应关系。
本发明实施例中,维护清单可以存储多个日志信息与故障状态的第一对应关系,故障状态可以表示日志信息是否为异常日志信息,例如日志A的故障状态为异常状态,则表示日志A为异常日志信息,若日志A对应的故障状态为正常状态,则表示日志A为正常日志信息。
步骤203,从第一对应关系中,查询日志信息对应的目标故障状态。
本发明实施例中,可以在维护清单的第一对应关系中,查询日志信息对应的目标故障状态,例如获取的日志信息为程序日志信息,获取的程序日志信息为日志A、日志B、日志C,在维护清单的第一对应的关系中查询到日志A对应的故障状态为异常状态,日志B对应的故障状态为正常状态,日志C对应的故障状态为故障状态,则将日志A和日志C保留,忽略日志B信息。
步骤204,判断目标故障状态是否为异常日志信息。
本发明实施例中,可以根据查询的故障状态确定日志A和日志C为异常日志信息,日志B为正常日志信息。
步骤205,若日志信息为异常日志信息,从第二对应关系中,查询日志信息对应的目标可忽略状态;维护清单还包括多个日志信息与可忽略状态的第二对应关系。
本发明实施例中,维护清单还可以存储多个日志信息与可忽略状态的第二对应关系,可忽略状态可以表示异常日志信息是否为可忽略的异常日志信息,例如在确定日志A为异常日志信息后,第二对应关系中日志A对应的可忽略状态为0,则表示日志A为可忽略的异常日志信息,若日志A对应的可忽略状态为1,则表示日志A为不可忽略的异常日志信息。
本发明在确定日志A和日志C为异常日志信息时,可以在维护清单的第二对应关系中查询到日志A的可忽略状态为1,日志C的可忽略状态为0,则可以确定日志A为不可忽略的异常日志信息,日志C为可忽略的异常日志信息,可以将其舍弃掉,不需要进行异常处理。
步骤206,判断目标可忽略状态是否为可忽略日志信息。
本发明实施例中,可以根据查询的可忽略状态确定日志A不为可忽略日志信息,日志C为可忽略日志信息。
步骤207,若日志信息不为可忽略日志信息,则输出提醒信息,提醒信息用于提醒用户对日志信息进行异常处理。
本发明实施例中,在确定日志A不为可忽略日志信息后,可以输出提醒信息,该提醒信息可以提醒用户对日志A进行异常处理。
在本发明的一种实施例方式中,所述方法还可以包括:若所述日志信息不存在于所述维护清单中,则将所述日志信息发送至用户终端,以使所述用户终端对所述日志信息进行分析;接收所述用户终端发送的分析结果,所述分析结果包括所述日志信息的故障状态以及可忽略状态;基于所述分析结果,对所述维护清单进行更新。
本发明实施例中,若获取到OS的日志信息为日志D信息,且日志D信息不存在于维护清单中,则说明维护清单中并未保存日志D信息相关的特征信息,此时可以将日志D信息发送至用户终端,用户终端接收到日志D信息后,登录用户终端的用户可以对日志D信息进行分析,可以得到日志D信息的分析结果,即日志D信息是否为异常日志信息以及日志D信息是否为可忽略信息,在一种示例中,日志D信息为异常日志信息且为可忽略日志信息,然后可以根据获取的分析结果,对维护清单进行实时更新,本发明可以对维护清单进行实时更新,从而可以通过BMC查询出更多的异常日志信息,提高故障的检测效率。
在本发明的一种实施例方式中,所述基于所述分析结果,对所述维护清单进行更新,可以包括:
将日志信息的故障状态、可忽略状态按照一一对应的关系存储到所述维护清单中。
本发明实施例中,在接收到用户终端的分析结果后,可以根据分析结果对维护清单进行更新,在一示例中,日志F信息不存在于维护清单中,用户终端返回的日志F信息的故障状态为正常状态,可忽略状态为0,则将所述日志F信息与正常状态的对应关系保存至第一对应关系中,将日志F信息与可忽略状态的对应关系保存至第二对应关系中,从而实时更新维护清单,在下一次获取到日志F信息时,则可以从维护清单中保存的对应关系中查询到日志F信息对应的目标故障状态和目标可忽略状态;
在另一示例中,日志G信息不存在于维护清单中,用户终端返回的日志G信息的故障状态为异常状态,可忽略状态为1,则将所述日志F信息与异常常状态的对应关系保存至第一对应关系中,将日志F信息与可忽略状态的对应关系保存至第二对应关系中,从而实时更新维护清单,在下一次获取到日志G信息时,则可以从维护清单中保存的对应关系中查询到日志G信息对应的目标故障状态和目标可忽略状态。
本发明通过对维护清单进行实时更新,可以提高日志信息检测的效率,节省日志分析的时间,降低测试成本。
在本发明的一种实施例方式中,所述输出提醒信息,可以包括:通过预设方式输出提醒信息,所述预设方式包括文本信息、语音、图片的至少一种。
本发明实施例中,当预设方式包括文本信息时,可以通过文本信息输出提醒信息,例如,异常日志信息为看门狗日志信息,则在服务器显示页面中输出“看门狗异常”的文本信息。
当预设方式为语音时,可以通过语音信息向用户输出提醒信息,例如,当异常日志信息为看门狗异常,则通过音频设备输出“看门狗异常”的语音。
当预设方式为图片,可以通过图片向用户输出提醒信息,例如,当异常日志信息为看门狗异常,则在BMC的显示页面显示看门狗日常的图片。
需要说明的是,具体通过哪一种方式向用户输出提醒信息,在此并不限定,还可以是多种方式进行组合向用户输出提醒信息,本发明可以通过多种方式向用户输出提醒信息,可以使得用户更清楚的得知日志信息是否异常,进而更好的对服务器设备进行管理。
本发明通过BMC中的智能型平台管理接口命令,获取OS的日志信息,不需要人工手动将日志信息拷贝出来,降低了人力的投入,节约了人力成本;本发明可以通过判断日志信息是否为异常日志信息,在日志信息为异常日志信息且为不可忽略信息时,可以输出提醒信息,以提醒用户对日志信息进行异常处理;本发明能够对异常日志信息进行筛选分类,避免对可忽略的日志信息进行处理,提高了识别异常信息的效率,能够帮助研发人员快速定位问题。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明实施例提供的一种故障检测装置的结构框图,应用于服务器,所述服务器包括基板管理控制器BMC与操作系统OS,所述装置可以包括如下模块,:
获取模块301,用于通过所述BMC中的智能型平台管理接口命令,获取所述OS的日志信息;
第一判断模块302,用于判断所述日志信息是否为异常日志信息;
第二判断模块303,用于若所述日志信息为异常日志信息,则判断所述日志信息是否为可忽略日志信息;
输出模块304,用于若所述日志信息不为可忽略日志信息,则输出提醒信息,所述提醒信息用于提醒用户对所述日志信息进行异常处理。
本发明公开了一种故障检测装置,本发明通过BMC中的智能型平台管理接口命令,获取OS的日志信息,不需要人工手动将日志信息拷贝出来,降低了人力的投入,节约了人力成本;本发明可以通过判断日志信息是否为异常日志信息,在日志信息为异常日志信息且为不可忽略信息时,可以输出提醒信息,以提醒用户对日志信息进行异常处理;本发明能够对异常日志信息进行筛选分类,避免对可忽略的日志信息进行处理,提高了识别异常信息的效率,能够帮助研发人员快速定位问题。
在本发明的一种实施例方式中,所述第一判断模块302,可以包括:
获取子模块,用于获取维护清单,所述维护清单包括多个日志信息与故障状态的第一对应关系;
第一查询子模块,用于从所述第一对应关系中,查询所述日志信息对应的目标故障状态;
第一判断子模块,用于判断所述目标故障状态是否为异常日志信息。
在本发明的一种实施例方式中,所述第二判断模块,可以包括:
第二查询子模块,用于从所述第二对应关系中,查询所述日志信息对应的目标可忽略状态;
第二判断子模块,用于判断所述目标可忽略状态是否为可忽略日志信息。
在本发明的一种实施例方式中,所述装置还可以包括:
发送模块,用于若所述日志信息不存在于所述维护清单中,则将所述日志信息发送至用户维护终端,以使所述用户维护终端对所述日志信息进行分析;
接收模块,用于接收所述用户终端发送的分析结果,所述分析结果包括所述日志信息的故障状态以及可忽略状态;
更新模块,用于基于所述分析结果,对所述维护清单进行更新。
在本发明的一种实施例方式中,所述更新模块,可以包括:
更新子模块,用于将所述日志信息的故障状态、可忽略状态按照一一对应的关系存储到所述维护清单中。
在本发明的一种实施例方式中,所述日志信息包括:内核日志信息、用户日志信息、程序日志信息中的至少一种。
在本发明的一种实施例方式中,所述输出模块,可以包括:
输出子模块,用于通过预设方式输出提醒信息,所述预设方式包括文本信息、语音、图片的至少一种。
本发明公开了一种故障检测装置,本发明通过BMC中的智能型平台管理接口命令,获取OS的日志信息,不需要人工手动将日志信息拷贝出来,降低了人力的投入,节约了人力成本;本发明可以通过判断日志信息是否为异常日志信息,在日志信息为异常日志信息且为不可忽略信息时,可以输出提醒信息,以提醒用户对日志信息进行异常处理;本发明能够对异常日志信息进行筛选分类,避免对可忽略的日志信息进行处理,提高了识别异常信息的效率,能够帮助研发人员快速定位问题。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
如图4,示出了本发明实施例提供了一种电子设备40的结构框图,包括:
处理器401、存储器402及存储在所述存储器402上并能够在所述处理器401上运行的计算机程序4021,该计算机程序4021被处理器401执行时实现上述图像处理器GPU监控方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
如图5,示出了本发明实施例提供的一种计算机可读存储介质50的结构框图,计算机可读存储介质50上存储计算机程序501,计算机程序501被处理器执行时实现上述图像处理器GPU监控方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种故障检测方法、装置、设备和存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种故障检测方法,其特征在于,应用于服务器,所述服务器包括基板管理控制器BMC与操作系统OS,所述方法包括:
通过所述BMC中的智能型平台管理接口命令,获取所述OS的日志信息;
判断所述日志信息是否为异常日志信息;
若所述日志信息为异常日志信息,则判断所述日志信息是否为可忽略日志信息;
若所述日志信息不为可忽略日志信息,则输出提醒信息,所述提醒信息用于提醒用户对所述日志信息进行异常处理。
2.根据权利要求1所述的方法,其特征在于,所述判断所述日志信息是否为异常日志信息,包括:
获取维护清单,所述维护清单包括多个日志信息与故障状态的第一对应关系;
从所述第一对应关系中,查询所述日志信息对应的目标故障状态;
判断所述目标故障状态是否为异常日志信息。
3.根据权利要求1所述的方法,其特征在于,所述维护清单还包括多个日志信息与可忽略状态的第二对应关系,所述判断所述日志信息是否为可忽略日志信息,包括:
从所述第二对应关系中,查询所述日志信息对应的目标可忽略状态;
判断所述目标可忽略状态是否为可忽略日志信息。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述日志信息不存在于所述维护清单中,则将所述日志信息发送至用户终端,以使所述用户终端对所述日志信息进行分析;
接收所述用户终端发送的分析结果,所述分析结果包括所述日志信息的故障状态以及可忽略状态;
基于所述分析结果,对所述维护清单进行更新。
5.根据权利要求4所述的方法,其特征在于,所述基于所述分析结果,对所述维护清单进行更新,包括:
将所述日志信息的故障状态、可忽略状态按照一一对应的关系存储到所述维护清单中。
6.根据权利要求1所述的方法,其特征在于,所述日志信息包括:内核日志信息、用户日志信息、程序日志信息中的至少一种。
7.根据权利要求1所述的方法,其特征在于,所述输出提醒信息,包括:
通过预设方式输出提醒信息,所述预设方式包括文本信息、语音、图片的至少一种。
8.一种故障检测装置,其特征在于,应用于服务器,所述服务器包括基板管理控制器BMC与操作系统OS,所述装置包括:
获取模块,用于通过所述BMC中的智能型平台管理接口命令,获取所述OS的日志信息;
第一判断模块,用于判断所述日志信息是否为异常日志信息;
第二判断模块,用于若所述日志信息为异常日志信息,则判断所述日志信息是否为可忽略日志信息;
输出模块,用于若所述日志信息不为可忽略日志信息,则输出提醒信息,所述提醒信息用于提醒用户对所述日志信息进行异常处理。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的故障检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的故障检测方法的步骤。
CN202310464778.7A 2023-04-26 2023-04-26 一种故障检测方法、装置、设备和存储介质 Pending CN116662108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310464778.7A CN116662108A (zh) 2023-04-26 2023-04-26 一种故障检测方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310464778.7A CN116662108A (zh) 2023-04-26 2023-04-26 一种故障检测方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN116662108A true CN116662108A (zh) 2023-08-29

Family

ID=87723224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310464778.7A Pending CN116662108A (zh) 2023-04-26 2023-04-26 一种故障检测方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN116662108A (zh)

Similar Documents

Publication Publication Date Title
CN111352921A (zh) 基于elk的慢查询监控方法、装置、计算机设备及存储介质
CN109450693B (zh) 混合云监控系统及使用其的监控方法
CN111240940B (zh) 实时业务监控方法、装置、电子设备、存储介质
CN110737726B (zh) 一种确定待测试接口的测试数据的方法和装置
US20140023185A1 (en) Characterizing Time-Bounded Incident Management Systems
WO2019109519A1 (zh) 业务规则管理方法、装置、设备及计算机可读存储介质
CN112328448A (zh) 基于Zookeeper的监控方法、监控装置、设备及存储介质
CN111078980A (zh) 基于征信大数据的管理方法、装置、设备及存储介质
CN113377626A (zh) 基于服务树的可视化统一报警方法、装置、设备和介质
CN113835830A (zh) 基于ai的rpa集群管理方法、装置以及存储介质
CN113094224B (zh) 服务器资产管理方法、装置、计算机设备和存储介质
CN113220342A (zh) 中心化配置方法、装置、电子设备及存储介质
CN116662108A (zh) 一种故障检测方法、装置、设备和存储介质
CN115577160A (zh) 一种生产线数据采集方法、装置、设备及介质
CN114756301A (zh) 日志处理方法、装置和系统
CN112818204A (zh) 一种业务的处理方法、装置、设备及存储介质
CN113342619A (zh) 日志监控方法、系统、电子设备及可读介质
CN109766238B (zh) 基于session数的运维平台性能监控方法、装置及相关设备
CN111447329A (zh) 呼叫中心中状态服务器的监控方法、系统、设备及介质
CN112433915B (zh) 一种基于分布式性能监控工具的数据监控方法及相关装置
CN109639686B (zh) 分布式网页过滤方法、装置、电子设备、存储介质
CN115630120A (zh) 数据同步方法、装置、设备及存储介质
CN117235043A (zh) 数据库迁移方法、装置、电子设备及介质
CN112711487A (zh) 数据源管控方法、装置、管控服务器及存储介质
CN117614862A (zh) 设备运行数据的检测方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination