CN111694719A - 服务器故障处理方法、装置、存储介质及电子设备 - Google Patents

服务器故障处理方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111694719A
CN111694719A CN202010525839.2A CN202010525839A CN111694719A CN 111694719 A CN111694719 A CN 111694719A CN 202010525839 A CN202010525839 A CN 202010525839A CN 111694719 A CN111694719 A CN 111694719A
Authority
CN
China
Prior art keywords
log
information
target
server
hardware
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010525839.2A
Other languages
English (en)
Other versions
CN111694719B (zh
Inventor
曾令新
林哲伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010525839.2A priority Critical patent/CN111694719B/zh
Publication of CN111694719A publication Critical patent/CN111694719A/zh
Application granted granted Critical
Publication of CN111694719B publication Critical patent/CN111694719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种服务器故障处理方法、装置、存储介质及电子设备。该方法包括:在接收到异常信息的情况下,通过带外管理系统获取异常信息所指示的出现异常的目标服务器的日志信息,带外管理系统为执行服务器故障检测逻辑的管理系统;对日志信息进行分析,获得与目标服务器相匹配的故障诊断结果;将故障诊断结果发送给硬件监控系统,其中,在故障诊断结果指示为硬件故障类型的情况下,在硬件监控系统中提示对目标服务器进行替换维护处理。本发明能够提高故障处理的效果。

Description

服务器故障处理方法、装置、存储介质及电子设备
技术领域
本发明涉及计算机领域,具体而言,涉及一种服务器故障处理方法、装置、存储介质及电子设备
背景技术
目前,服务器厂商在生产服务器时会集成基板管理控制器的芯片,以此对于服务器的故障处理依赖于服务器中的基板管理控制器来实现。
在实践中发现,使用这种方式来检测服务器故障的情况下,只能利用服务器厂商的故障诊断逻辑进行判断,而对于服务器厂商预设的故障诊断逻辑未覆盖的故障场景,采用这种方式不能检测出故障。可见,当前的服务器故障处理方式存在着故障处理效果较差的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种服务器故障处理方法、装置、存储介质及电子设备,能够提高故障处理的效果。
根据本发明实施例的一个方面,提供了一种服务器故障处理方法,包括:在接收到异常信息的情况下,通过带外管理系统获取上述异常信息所指示的出现异常的目标服务器的日志信息,上述带外管理系统为执行服务器故障检测逻辑的管理系统;对上述日志信息进行分析,获得与上述目标服务器相匹配的故障诊断结果;将上述故障诊断结果发送给硬件监控系统,其中,在上述故障诊断结果指示为硬件故障类型的情况下,在上述硬件监控系统中提示对上述目标服务器进行替换维护处理。
根据本发明实施例的另一个方面,提供了一种服务器故障处理方法,包括:接收带外管理系统发送的故障诊断结果,上述故障诊断结果为上述带外管理系统在接收到异常信息的情况下,对上述异常信息所指示的出现异常的目标服务器的日志信息进行分析获得的故障诊断结果,上述故障诊断结果至少包括故障描述信息以及故障解决建议信息;在上述故障解决建议信息指示更换上述目标服务器的硬件部件的情况下,获取与上述故障解决建议信息相匹配的待更换硬件信息,上述待更换硬件信息用于指示工作人员按照上述待更换硬件信息中的待更换硬件部件对上述目标服务器进行故障维护处理;向运维工单系统发送建单请求,上述建单请求携带有上述待更换硬件信息,以使上述运维工单系统创建与上述待更换硬件信息相匹配的工单并向备件库发送用于指示获取上述待更换硬件信息中的待更换硬件的获取指令。
根据本发明实施例的另一方面,还提供了一种服务器故障处理装置,包括:第一获取单元,用于在接收到异常信息的情况下,通过带外管理系统获取上述异常信息所指示出现异常的目标服务器的日志信息,上述带外管理系统为执行服务器故障检测逻辑的管理系统;分析单元,用于对上述日志信息进行分析,获得与上述目标服务器相匹配的故障诊断结果;第一发送单元,用于将上述故障诊断结果发送给硬件监控系统,其中,在上述故障诊断结果指示为硬件故障类型的情况下,在上述硬件监控系统中提示对上述目标服务器进行替换维护处理。
根据本发明实施例的另一方面,还提供了一种服务器故障处理装置,包括:接收单元,用于接收带外管理系统发送的故障诊断结果,上述故障诊断结果为上述带外管理系统在接收到异常信息的情况下,对上述异常信息所指示的出现异常的目标服务器的日志信息进行分析获得的故障诊断结果,上述故障诊断结果至少包括故障描述信息以及故障解决建议信息;第二获取单元,用于在上述故障解决建议信息指示更换上述目标服务器的硬件部件的情况下,获取与上述故障解决建议信息相匹配的待更换硬件信息,上述待更换硬件信息用于指示工作人员按照上述待更换硬件信息中的待更换硬件部件对上述目标服务器进行故障维护处理;第二发送单元,用于向运维工单系统发送建单请求,上述建单请求携带有上述待更换硬件信息,以使上述运维工单系统创建与上述待更换硬件信息相匹配的工单并向备件库发送用于指示获取上述待更换硬件信息中的待更换硬件的获取指令。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述服务器故障处理方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的服务器故障处理方法。
在本发明实施例中,在接收到异常信息的情况下,通过带外管理系统获取异常信息所指示的出现异常的目标服务器的日志信息,带外管理系统为执行服务器故障检测逻辑的管理系统;对日志信息进行分析,获得与目标服务器相匹配的故障诊断结果;将故障诊断结果发送给硬件监控系统,其中,在故障诊断结果指示为硬件故障类型的情况下,在硬件监控系统中提示对目标服务器进行替换维护处理。这一过程可以利用带外管理系统获取日志信息并对日志信息进行分析来获取故障诊断结果,从而不必依赖服务器中的基板管理控制器执行服务器故障检测逻辑,进而故障检测场景不局限于服务器厂商在基板管理控制器中预设的故障诊断逻辑,能够提高故障检测效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的服务器故障处理系统的结构示意图;
图2是根据本发明实施例的另一种可选的服务器故障处理系统的结构示意图;
图3是根据本发明实施例的一种可选的服务器故障处理方法的流程示意图;
图4是根据本发明实施例的另一种可选的服务器故障处理方法的流程示意图;
图5是根据本发明实施例的另一种可选的服务器故障处理方法的流程示意图;
图6是根据本发明实施例的另一种可选的服务器故障处理方法的流程示意图;
图7是根据本发明实施例的一种可选的服务器故障处理装置的示意图;
图8是根据本发明实施例的另一种可选的服务器故障处理装置的示意图;
图9是根据本发明实施例的一种可选的电子装置的示意图;
图10是根据本发明实施例的另一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种服务器故障处理方法,可选地,作为一种可选的实施方式,上述服务器故障处理方法可以但不限于应用于如图1所示的网络环境中的服务器故障处理系统中,该服务器故障处理系统可以包括服务器101、异常监控系统102、带外管理系统103、硬件监控系统104以及运维工单系统105,其中,服务器101的数量可以为多个,异常监控系统102用于监控多个服务器101的运行情况,在服务器101发生故障的情况下,会产生异常告警,具体的,可以在带外产生IERR、MCERR、PCIE等告警日志,在带内产生PING不可达、Agent超时告警等。异常监控系统102在检测到出现异常告警的服务器101的情况下,可以向带外管理系统103发送异常信息,在带外管理系统103接收到异常信息之后可以采集服务器101中出现异常的目标服务器的日志信息,并对日志信息进行解析,获得故障诊断结果。其中,带外管理系统103还可以存储服务器101中出现异常的目标服务器的日志信息,以便对故障信息进行归纳分析。在带外管理系统103获取故障诊断结果之后,可以将故障诊断结果发送给硬件监控系统104。硬件监控系统104用于管理服务器的硬件部件信息,在硬件监控系统104接收到故障诊断结果之后,可以在故障诊断结果为硬件故障类型的情况下,根据故障诊断结果匹配待更换的硬件部件信息,硬件部件信息可以包括但不限于硬件部件类型、硬件部件槽位等,本发明实施例中不做限定。进一步的,硬件监控系统104还可以向运维工单系统105发送用于生成工单的请求,以使运维工单系统105根据硬件部件信息和目标服务器生成工单,并且运维工单系统105还可以将工单发送给用于维护目标服务器的工作人员,以使工作人员按照工单对目标服务器进行硬件替换的故障维护。进一步可选的,运维工单系统105还可以按照硬件部件信息进行备货,自动备好硬件部件信息中的各个硬件部件,以使工作人员能够快速取硬件部件,实现硬件替换的故障维护,提高了服务器故障处理的自动化程度。
进一步的,上述服务器故障处理系统还可以在出现异常的目标服务器进行重启或者宕机的情况下,利用带外管理系统采集并解析目标服务器的日志,来确定故障检测结果。又或者,如果出现异常的目标服务器在带外未达到异常告警阈值的情况下,仍可以使用上述服务器故障处理系统去确定故障检测结果。也即是,上述服务器故障处理系统不依赖于出现异常的目标服务器的内部基板管理控制器,不受基板控制管理器的诊断逻辑的限制,可以利用上述服务器故障处理系统构建包含更多故障场景的诊断逻辑。可选的,上述服务器故障处理系统还可以根据诊断需求不断通过更新代码来更新服务器故障处理系统的版本,实现对故障诊断逻辑的不断完善,并且不需要对服务器中的基板管理控制器进行硬件升级,完善故障诊断逻辑更方便。
请一并参阅图2,图2是本发明实施例公开的另一种可选的服务器故障处理系统的结构示意图,如图2所示,服务器101中包括基板管理控制器1011、中央处理器1012和外设1013,其中,可以通过对基板管理控制器1011进行硬件升级来使得基板管理控制器1011执行服务器故障处理逻辑,在本发明实施例所描述的服务器故障处理系统中,可以不依赖于服务器内部的基板管理控制器1011硬件来实现服务器故障处理逻辑,而是通过带外管理系统103实现,这一过程在进行更新的情况下,不需要对硬件进行更新,只需要对软件进行更新,提高了更新效率。
可选地,作为一种可选的实施方式,如图3所示,上述服务器故障处理方法可以包括:
S301,在接收到异常信息的情况下,通过带外管理系统获取异常信息所指示的出现异常的目标服务器的日志信息,带外管理系统为执行服务器故障检测逻辑的管理系统;
S302,对日志信息进行分析,获得与目标服务器相匹配的故障诊断结果;
S303,将故障诊断结果发送给硬件监控系统,其中,在故障诊断结果指示为硬件故障类型的情况下,在硬件监控系统中提示对目标服务器进行替换维护处理。
本发明实施例中,带外指的是独立于数据网络之外的专用通道,带内指的是数据网络之中进行数据传输的通道,带外管理为独立于数据网络之外专用管理通道对机房网络设备、服务器设备以及机房电源系统进行集中化整合管理的管理方式,带外管理系统为独立于服务器的系统,用于获取异常的目标服务器的日志并进行分析,获得故障诊断结果。并且,带外管理系统可以为独立于数据网络之外专用管理通道管理目标服务器中的数据信息的系统。带外管理系统中具有服务器故障检测逻辑,具体的,在异常监控系统检测到目标服务器出现异常的情况下,会向带外管理系统发送异常信息,以使带外管理系统获取目标服务器的日志信息,并对日志信息进行分析,获得与目标服务器相匹配的故障诊断结果。其中,日志信息可以包括但不限于寄存器日志、黑盒日志、审计日志以及SEL、SDR、BMC一键采集日志等,进一步可选的,在带外管理系统获取日志信息之后,还可以获取用于辅助故障诊断的辅助信息,辅助信息可以包括但不限于映射表信息、机器配置信息和基板管理控制器时间信息等,其中,映射表信息可以包括但不限于现场可更换单元信息、逻辑卷状态映射表和丝印映射表等。可选的,带外管理系统可以对日志信息和辅助信息进行分析,获得与目标服务器相匹配的故障诊断结果。其中,故障诊断结果用于描述目标服务器的故障类型,故障类型可以包括但不限于硬件故障类型、软件故障类型等。并且在故障诊断结果指示为硬件故障类型且获得故障诊断结果之后,可以将故障诊断结果发送给硬件监控系统,其中,硬件监控系统用于根据故障诊断结果确定目标服务器中出现故障的部件类型等信息,并能够根据目标服务器出现故障的部件类型等信息向运维工单系统发送用于请求创建工单的请求,以使运维工单系统创建用于指示按照部件类型等信息对目标服务器进行更换部件操作的工单,运维工单系统还可以将工单发送给负责维护目标服务器的工作人员所使用的电子设备中,并且还可以向备件库发送用于指示获取待更换硬件的获取指令,实现对待更换硬件的自动备货。在工作人员接收到工单之后,可以直接拿到备好的待更换硬件,对目标服务器执行替换维护处理,提高了服务器故障处理效率。
作为另一种可选的实施方式,如图4所示,上述服务器故障处理方法还可以包括:
S401,在检测到针对带外管理系统的版本更新指令的情况下,获取待更新代码,带外管理系统为执行服务器故障检测逻辑的管理系统;
S402,利用待更新代码对带外管理系统的代码进行更新;
S403,在接收到异常信息的情况下,在目标服务器的基板管理控制器具备寄存器采集功能的情况下,通过带外管理系统利用基板管理控制器采集寄存器日志;
S404,在目标服务器的基板管理控制器不具备寄存器采集功能的情况下,通过带外管理系统利用平台环境式控制接口采集寄存器日志;
S405,获取目标服务器中的辅助日志,并将寄存器日志与辅助日志确定为异常信息所指示出现异常的目标服务器的日志信息,辅助日志至少包括黑盒日志和审计日志;
S406,利用审计日志对日志信息中的寄存器日志进行过滤,获得目标寄存器日志;
S407,在目标寄存器日志为基板管理控制器采集的日志,且目标寄存器日志为异常信息相关联的日志的情况下,解析目标寄存器日志,并利用解析后的目标寄存器日志和黑盒日志获得与目标服务器相匹配的故障诊断结果;
S408,在目标寄存器日志为平台环境式控制接口采集的日志的情况下,解析目标寄存器日志,并利用解析后的目标寄存器日志和黑盒日志获得与目标服务器相匹配的故障诊断结果;
S409,按照结果输出格式,输出故障诊断结果,故障诊断结果至少包括故障描述信息以及故障解决建议信息;
S410,将故障诊断结果发送给硬件监控系统,其中,在故障诊断结果指示为硬件故障类型的情况下,在硬件监控系统中提示对目标服务器进行替换维护处理。
本发明实施例中,可以对带外管理系统进行版本更新,具体的,在检测到针对带外管理系统的版本更新指令的情况下,可以获取待更新代码,并利用待更新代码对带外管理系统的代码进行更新。这一过程实现利用待更新代码对带外管理系统进行版本更新,无需对服务器内部的硬件进行升级,只需要对带外管理系统的软件代码修改即可实现快速迭代升级,提高了故障诊断逻辑的升级效率。进一步的,基板管理控制器不一定具有寄存器采集功能。对于具有寄存器采集功能的基板管理控制器,可以直接利用基板管理控制器采集寄存器日志;对于不具有寄存器采集功能的基板管理控制器,可以利用平台环境式控制接口采集寄存器日志,此外还可以获取目标服务器中的辅助日志,其中,辅助日志可以包括但不限于黑盒日志和审计日志。黑盒日志为服务器生产厂商预先设置的日志,审计日志为记录各个日志的采集数据的日志,例如审计日志可以记录各个日志的采集时长、各个日志的有效性以及各个日志的异常情况等。这一过程对于服务器故障检测不仅依赖于寄存器日志,还可以获取更多的辅助日志来辅助获取故障检测结果,提高故障检测结果的有效性。在对日志信息进行解析的情况下,可以先利用审计日志来对寄存器日志进行过滤,获得有效的目标寄存器日志。可选的,也可以利用审计日志来对黑盒日志等其他辅助日志进行过滤,获得有效的辅助日志。由于基板管理控制器采集的日志不是实时采集的日志,并且平台环境式控制接口采集的日志是实时的日志,因而在目标寄存器日志为基板管理控制器采集的日志且目标寄存器日志为异常信息相关联的日志的情况下,才解析目标寄存器日志,利用解析后的目标寄存器日志和黑盒日志获得与目标服务器相匹配的故障诊断结果。在目标寄存器日志为平台环境式接口采集的日志的情况下,可以直接解析目标寄存器日志,并利用解析后的目标寄存器日志和黑盒日志获得与目标服务器相匹配的故障诊断结果。进一步可选的,带外管理系统还可以按照结果输出格式,输出故障诊断结果。其中,故障诊断结果至少包括故障描述信息以及故障解决建议信息。其中,结果输出格式包含多个输出类别,以及每一输出类别对应的输出顺序,输出类别可以包括但不限于本次日志信息采集是否成功、本次日志信息采集耗时、本次日志信息分析是否成功、故障原因、处理建议以及故障详细信息等。其中,针对故障原因的输出,可以先获取故障诊断结果中的故障描述信息,从故障描述信息中确定并输出故障部件类型、故障部件丝印槽位、故障类型以及详细故障描述。针对处理建议的输出,可以先获取故障诊断结果中的故障解决建议信息,从故障解决建议信息中确定并输出处理措施、报错丝印槽位以及报错部件类型等。.
作为一种可选的实施方式,在目标寄存器日志为基板管理控制器采集的日志的情况下,还可以执行以下步骤:
在目标寄存器日志的采集时间和基板管理控制器的当前时间相匹配的情况下,确定目标寄存器日志为异常信息相关联的日志。
本发明实施例中,如果目标寄存器日志为基板管理控制器采集的日志,由于基板管理控制器采集的日志不是实时采集的日志,因而该日志有可能为本次异常信息相关联的日志,也有可能为上次异常信息相关联的日志,此时可以将目标寄存器日志的采集时间和基板管理控制器的当前时间进行匹配,在目标寄存器日志的采集时间和基板管理控制器的当前时间匹配成功的情况下,将目标寄存器日志确定为异常信息相关联的日志。可选的,可以在校验目标寄存器日志的采集时间和基板管理控制器的当前时间是否匹配之前,将目标寄存器日志的采集时间和基板管理控制器的当前时间转换至同一时区对应的时间,再对转换至同一时区的目标寄存器日志的采集时间和基板管理控制器的当前时间进行匹配。
作为一种可选的实施方式,在目标寄存器日志的采集时间和基板管理控制器的当前时间不匹配的情况下,还可以执行以下步骤:
确定目标寄存器日志为异常信息不关联的日志,并将目标寄存器日志存储为历史故障信息。
本发明实施例中,如果目标寄存器日志为异常信息不关联的日志,则说明该目标寄存器日志为历史异常信息相关联的日志,此时可以将目标寄存器日志存储为历史故障信息。
可选地,作为一种可选的实施方式,如图5所示,上述服务器故障处理方法还可以包括:
S501,接收带外管理系统发送的故障诊断结果,故障诊断结果为带外管理系统在接收到异常信息的情况下,对异常信息所指示的出现异常的目标服务器的日志信息进行分析获得的故障诊断结果,故障诊断结果至少包括故障描述信息以及故障解决建议信息;
S502,在故障解决建议信息指示更换目标服务器的硬件部件的情况下,获取与故障解决建议信息相匹配的待更换硬件信息,待更换硬件信息用于指示工作人员按照待更换硬件信息中的待更换硬件部件对目标服务器进行故障维护处理;
S503,向运维工单系统发送建单请求,建单请求携带有待更换硬件信息,以使运维工单系统创建与待更换硬件信息相匹配的工单并向备件库发送用于指示获取待更换硬件信息中的待更换硬件的获取指令。
请参阅图6,图6是本发明实施例中提供的另一种可选的服务器故障处理方法的流程示意图,如图6所示,可以执行以下步骤:
S601,启动服务器故障检测系统;
S602,判断带外管理系统是否通过身份验证,如果是,执行步骤S603,如果否,执行步骤S602;
S603,判断基板管理控制器是否具备采集寄存器功能,如果是,执行步骤S604,如果否,执行步骤S605;
S604,利用基板管理控制器采集寄存器日志;
S605,利用平台环境式接口采集寄存器日志;
S606,获取目标服务器中的辅助日志,辅助日志至少包括黑盒日志和审计日志;
S607,对上述寄存器日志和辅助日志进行解析,获得故障诊断结果;
S608,按照结果输出格式,输出故障诊断结果。
本发明实施例中,在启动服务器故障检测系统之后,可以验证带外管理系统的互联网协议地址、登录带外管理系统的账号和密码是否通过身份校验,在检测出身份验证通过的情况下,执行服务器故障检测逻辑。进一步的,对寄存器日志和辅助日志进行解析,获得故障诊断结果的方式具体可以为:对基板管理控制器采集的寄存器日志进行解析、对平台环境式控制接口采集的寄存器日志进行解析以及对辅助日志进行解析,综合获得故障诊断结果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述服务器故障处理方法的服务器故障处理装置。如图7所示,该装置包括:
第一获取单元701,用于在接收到的情况下,通过带外管理系统获取异常信息所指示出现异常的目标服务器的日志信息,带外管理系统为执行服务器故障检测逻辑的管理系统;
分析单元702,用于对日志信息进行分析,获得与目标服务器相匹配的故障诊断结果;
第一发送单元703,用于将故障诊断结果发送给硬件监控系统,其中,在故障诊断结果指示为硬件故障类型的情况下,在硬件监控系统中提示对目标服务器进行替换维护处理。
作为一种可选的实施方式,第一获取单元用于通过带外管理系统获取异常信息所指示出现异常的目标服务器的日志信息的方式具体可以为:
第一获取单元,用于在目标服务器的基板管理控制器具备寄存器采集功能的情况下,通过带外管理系统利用基板管理控制器采集寄存器日志;在目标服务器的基板管理控制器不具备寄存器采集功能的情况下,通过带外管理系统利用平台环境式控制接口采集寄存器日志;获取目标服务器中的辅助日志,并将寄存器日志与辅助日志确定为异常信息所指示出现异常的目标服务器的日志信息,辅助日志至少包括黑盒日志和审计日志。
作为一种可选的实施方式,分析单元可以包括:
第一获取子单元,用于利用审计日志对日志信息中的寄存器日志进行过滤,获得目标寄存器日志;
解析子单元,用于在目标寄存器日志为基板管理控制器采集的日志,且目标寄存器日志为异常信息相关联的日志的情况下,解析目标寄存器日志,并利用解析后的目标寄存器日志和黑盒日志获得与目标服务器相匹配的故障诊断结果;
第二获取子单元,用于在目标寄存器日志为平台环境式控制接口采集的日志的情况下,解析目标寄存器日志,并利用解析后的目标寄存器日志和黑盒日志获得与目标服务器相匹配的故障诊断结果。
作为一种可选的实施方式,上述装置还可以包括:
确定单元,用于在目标寄存器日志为基板管理控制器采集的日志的情况下在目标寄存器日志的采集时间和基板管理控制器的当前时间相匹配的情况下,确定目标寄存器日志为异常信息相关联的日志。
作为一种可选的实施方式,上述装置还可以包括:
存储单元,用于在目标寄存器日志的采集时间和基板管理控制器的当前时间不匹配的情况下,确定目标寄存器日志为异常信息不关联的日志,并将目标寄存器日志存储为历史故障信息。
作为一种可选的实施方式,上述装置还可以包括:
输出单元,用于在获得与目标服务器相匹配的故障诊断结果之后,按照结果输出格式,输出故障诊断结果,故障诊断结果至少包括故障描述信息以及故障解决建议信息。
作为一种可选的实施方式,上述装置还可以包括:
更新单元,用于在通过带外管理系统获取异常信息所指示的出现异常的目标服务器的日志信息之前,在检测到针对带外管理系统的版本更新指令的情况下,获取待更新代码;利用待更新代码对带外管理系统的代码进行更新。
根据本发明实施例的另一个方面,还提供了一种用于实施上述服务器故障处理方法的服务器故障处理装置。如图8所示,该装置包括:
接收单元801,用于接收带外管理系统发送的故障诊断结果,故障诊断结果为带外管理系统在接收到异常信息的情况下,对异常信息所指示的出现异常的目标服务器的日志信息进行分析获得的故障诊断结果,故障诊断结果至少包括故障描述信息以及故障解决建议信息;
第二获取单元802,用于在故障解决建议信息指示更换目标服务器的硬件部件的情况下,获取与故障解决建议信息相匹配的待更换硬件信息,待更换硬件信息用于指示工作人员按照待更换硬件信息中的待更换硬件部件对目标服务器进行故障维护处理;
第二发送单元803,用于向运维工单系统发送建单请求,建单请求携带有待更换硬件信息,以使运维工单系统创建与待更换硬件信息相匹配的工单并向备件库发送用于指示获取待更换硬件信息中的待更换硬件的获取指令。
根据本发明实施例的又一个方面,还提供了一种用于实施上述服务器故障处理方法的电子装置,如图9所示,该电子装置包括存储器902和处理器904,该存储器902中存储有计算机程序,该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,在接收到异常信息的情况下,通过带外管理系统获取异常信息所指示的出现异常的目标服务器的日志信息,带外管理系统为执行服务器故障检测逻辑的管理系统;
S2,对日志信息进行分析,获得与目标服务器相匹配的故障诊断结果;
S3,将故障诊断结果发送给硬件监控系统,其中,在故障诊断结果指示为硬件故障类型的情况下,在硬件监控系统中提示对目标服务器进行替换维护处理。
可选地,本领域普通技术人员可以理解,图9所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图9中所示更多或者更少的组件(如网络接口等),或者具有与图9所示不同的配置。
其中,存储器902可用于存储软件程序以及模块,如本发明实施例中的服务器故障处理方法和装置对应的程序指令/模块,处理器904通过运行存储在存储器902内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的服务器故障处理方法。存储器902可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器902可进一步包括相对于处理器904远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器902具体可以但不限于用于存储操作指令等信息。作为一种示例,如图9所示,上述存储器902中可以但不限于包括上述服务器故障处理装置中的第一获取单元701、分析单元702和第一发送单元703。此外,还可以包括但不限于上述服务器故障处理装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置906包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置906为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:连接总线908,用于连接上述电子装置中的各个模块部件。
根据本发明实施例的又一个方面,还提供了一种用于实施上述服务器故障处理方法的电子装置,如图10所示,该电子装置包括存储器1002和处理器1004,该存储器1002中存储有计算机程序,该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,接收带外管理系统发送的故障诊断结果,故障诊断结果为带外管理系统在接收到异常信息的情况下,对异常信息所指示的出现异常的目标服务器的日志信息进行分析获得的故障诊断结果,故障诊断结果至少包括故障描述信息以及故障解决建议信息;
S2,在故障解决建议信息指示更换目标服务器的硬件部件的情况下,获取与故障解决建议信息相匹配的待更换硬件信息,待更换硬件信息用于指示工作人员按照待更换硬件信息中的待更换硬件部件对目标服务器进行故障维护处理;
S3,向运维工单系统发送建单请求,建单请求携带有待更换硬件信息,以使运维工单系统创建与待更换硬件信息相匹配的工单并向备件库发送用于指示获取待更换硬件信息中的待更换硬件的获取指令。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等),或者具有与图10所示不同的配置。
其中,存储器1002可用于存储软件程序以及模块,如本发明实施例中的服务器故障处理方法和装置对应的程序指令/模块,处理器1004通过运行存储在存储器1002内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的服务器故障处理方法。存储器1002可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1002可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1002具体可以但不限于用于存储操作指令等信息。作为一种示例,如图10所示,上述存储器1002中可以但不限于包括上述服务器故障处理装置中的接收单元801、第二获取单元802和第二发送单元803。此外,还可以包括但不限于上述服务器故障处理装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1006包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1006为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:连接总线1008,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在接收到异常信息的情况下,通过带外管理系统获取异常信息所指示的出现异常的目标服务器的日志信息,带外管理系统为执行服务器故障检测逻辑的管理系统;
S2,对日志信息进行分析,获得与目标服务器相匹配的故障诊断结果;
S3,将故障诊断结果发送给硬件监控系统,其中,在故障诊断结果指示为硬件故障类型的情况下,在硬件监控系统中提示对目标服务器进行替换维护处理。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,接收带外管理系统发送的故障诊断结果,故障诊断结果为带外管理系统在接收到异常信息的情况下,对异常信息所指示的出现异常的目标服务器的日志信息进行分析获得的故障诊断结果,故障诊断结果至少包括故障描述信息以及故障解决建议信息;
S2,在故障解决建议信息指示更换目标服务器的硬件部件的情况下,获取与故障解决建议信息相匹配的待更换硬件信息,待更换硬件信息用于指示工作人员按照待更换硬件信息中的待更换硬件部件对目标服务器进行故障维护处理;
S3,向运维工单系统发送建单请求,建单请求携带有待更换硬件信息,以使运维工单系统创建与待更换硬件信息相匹配的工单并向备件库发送用于指示获取待更换硬件信息中的待更换硬件的获取指令。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种服务器故障处理方法,其特征在于,包括:
在接收到异常信息的情况下,通过带外管理系统获取所述异常信息所指示的出现异常的目标服务器的日志信息,所述带外管理系统为执行服务器故障检测逻辑的管理系统;
对所述日志信息进行分析,获得与所述目标服务器相匹配的故障诊断结果;
将所述故障诊断结果发送给硬件监控系统,其中,在所述故障诊断结果指示为硬件故障类型的情况下,在所述硬件监控系统中提示对所述目标服务器进行替换维护处理。
2.根据权利要求1所述的方法,其特征在于,所述通过所述带外管理系统获取所述异常信息所指示出现异常的目标服务器的日志信息,包括:
在所述目标服务器的基板管理控制器具备寄存器采集功能的情况下,通过所述带外管理系统利用所述基板管理控制器采集寄存器日志;
在所述目标服务器的所述基板管理控制器不具备寄存器采集功能的情况下,通过所述带外管理系统利用平台环境式控制接口采集所述寄存器日志;
获取所述目标服务器中的辅助日志,并将所述寄存器日志与所述辅助日志确定为所述异常信息所指示出现异常的所述目标服务器的所述日志信息,所述辅助日志至少包括黑盒日志和审计日志。
3.根据权利要求2所述的方法,其特征在于,所述对所述日志信息进行分析,获得与所述目标服务器相匹配的故障诊断结果,包括:
利用所述审计日志对所述日志信息中的所述寄存器日志进行过滤,获得目标寄存器日志;
在所述目标寄存器日志为所述基板管理控制器采集的日志,且所述目标寄存器日志为所述异常信息相关联的日志的情况下,解析所述目标寄存器日志,并利用解析后的所述目标寄存器日志和所述黑盒日志获得与所述目标服务器相匹配的所述故障诊断结果;
在所述目标寄存器日志为所述平台环境式控制接口采集的日志的情况下,解析所述目标寄存器日志,并利用解析后的所述目标寄存器日志和所述黑盒日志获得与所述目标服务器相匹配的所述故障诊断结果。
4.根据权利要求3所述的方法,其特征在于,在所述目标寄存器日志为所述基板管理控制器采集的日志的情况下,还包括:
在所述目标寄存器日志的采集时间和所述基板管理控制器的当前时间相匹配的情况下,确定所述目标寄存器日志为所述异常信息相关联的日志。
5.根据权利要求4所述的方法,其特征在于,在所述目标寄存器日志的采集时间和所述基板管理控制器的当前时间不匹配的情况下,还包括:
确定所述目标寄存器日志为所述异常信息不关联的日志,并将所述目标寄存器日志存储为历史故障信息。
6.根据权利要求1至5任一项所述的方法,其特征在于,在所述获得与所述目标服务器相匹配的所述故障诊断结果之后,还包括:
按照结果输出格式,输出所述故障诊断结果,所述故障诊断结果至少包括故障描述信息以及故障解决建议信息。
7.根据权利要求1所述的方法,其特征在于,在所述通过带外管理系统获取所述异常信息所指示的出现异常的目标服务器的日志信息之前,还包括:
在检测到针对所述带外管理系统的版本更新指令的情况下,获取待更新代码;
利用所述待更新代码对所述带外管理系统的代码进行更新。
8.一种服务器故障处理方法,其特征在于,包括:
接收带外管理系统发送的故障诊断结果,所述故障诊断结果为所述带外管理系统在接收到异常信息的情况下,对所述异常信息所指示的出现异常的目标服务器的日志信息进行分析获得的故障诊断结果,所述故障诊断结果至少包括故障描述信息以及故障解决建议信息;
在所述故障解决建议信息指示更换所述目标服务器的硬件部件的情况下,获取与所述故障解决建议信息相匹配的待更换硬件信息,所述待更换硬件信息用于指示工作人员按照所述待更换硬件信息中的待更换硬件部件对所述目标服务器进行故障维护处理;
向运维工单系统发送建单请求,所述建单请求携带有所述待更换硬件信息,以使所述运维工单系统创建与所述待更换硬件信息相匹配的工单并向备件库发送用于指示获取所述待更换硬件信息中的待更换硬件的获取指令。
9.一种服务器故障处理装置,其特征在于,包括:
第一获取单元,用于在接收到异常信息的情况下,通过带外管理系统获取所述异常信息所指示出现异常的目标服务器的日志信息,所述带外管理系统为执行服务器故障检测逻辑的管理系统;
分析单元,用于对所述日志信息进行分析,获得与所述目标服务器相匹配的故障诊断结果;
第一发送单元,用于将所述故障诊断结果发送给硬件监控系统,其中,在所述故障诊断结果指示为硬件故障类型的情况下,在所述硬件监控系统中提示对所述目标服务器进行替换维护处理。
10.根据权利要求9所述的装置,其特征在于,所述第一获取单元用于通过所述带外管理系统获取所述异常信息所指示出现异常的目标服务器的日志信息的方式具体为:
所述第一获取单元,用于在所述目标服务器的基板管理控制器具备寄存器采集功能的情况下,通过所述带外管理系统利用所述基板管理控制器采集寄存器日志;在所述目标服务器的所述基板管理控制器不具备寄存器采集功能的情况下,通过所述带外管理系统利用平台环境式控制接口采集所述寄存器日志;获取所述目标服务器中的辅助日志,并将所述寄存器日志与所述辅助日志确定为所述异常信息所指示出现异常的所述目标服务器的所述日志信息,所述辅助日志至少包括黑盒日志和审计日志。
11.根据权利要求10所述的装置,其特征在于,所述分析单元包括:
第一获取子单元,用于利用所述审计日志对所述日志信息中的所述寄存器日志进行过滤,获得目标寄存器日志;
解析子单元,用于在所述目标寄存器日志为所述基板管理控制器采集的日志,且所述目标寄存器日志为所述异常信息相关联的日志的情况下,解析所述目标寄存器日志,并利用解析后的所述目标寄存器日志和所述黑盒日志获得与所述目标服务器相匹配的所述故障诊断结果;
第二获取子单元,用于在所述目标寄存器日志为所述平台环境式控制接口采集的日志的情况下,解析所述目标寄存器日志,并利用解析后的所述目标寄存器日志和所述黑盒日志获得与所述目标服务器相匹配的所述故障诊断结果。
12.根据权利要求11所述的装置,其特征在于,还包括:
确定单元,用于在所述目标寄存器日志为所述基板管理控制器采集的日志的情况下在所述目标寄存器日志的采集时间和所述基板管理控制器的当前时间相匹配的情况下,确定所述目标寄存器日志为所述异常信息相关联的日志。
13.一种服务器故障处理装置,其特征在于,包括:
接收单元,用于接收带外管理系统发送的故障诊断结果,所述故障诊断结果为所述带外管理系统在接收到异常信息的情况下,对所述异常信息所指示的出现异常的目标服务器的日志信息进行分析获得的故障诊断结果,所述故障诊断结果至少包括故障描述信息以及故障解决建议信息;
第二获取单元,用于在所述故障解决建议信息指示更换所述目标服务器的硬件部件的情况下,获取与所述故障解决建议信息相匹配的待更换硬件信息,所述待更换硬件信息用于指示工作人员按照所述待更换硬件信息中的待更换硬件部件对所述目标服务器进行故障维护处理;
第二发送单元,用于向运维工单系统发送建单请求,所述建单请求携带有所述待更换硬件信息,以使所述运维工单系统创建与所述待更换硬件信息相匹配的工单并向备件库发送用于指示获取所述待更换硬件信息中的待更换硬件的获取指令。
14.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至7任一项或者所述权利要求8中所述的方法。
15.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项或者所述权利要求8中所述的方法。
CN202010525839.2A 2020-06-10 2020-06-10 服务器故障处理方法、装置、存储介质及电子设备 Active CN111694719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010525839.2A CN111694719B (zh) 2020-06-10 2020-06-10 服务器故障处理方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010525839.2A CN111694719B (zh) 2020-06-10 2020-06-10 服务器故障处理方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111694719A true CN111694719A (zh) 2020-09-22
CN111694719B CN111694719B (zh) 2024-09-10

Family

ID=72480279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010525839.2A Active CN111694719B (zh) 2020-06-10 2020-06-10 服务器故障处理方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111694719B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100048A (zh) * 2020-09-24 2020-12-18 中国建设银行股份有限公司 一种服务器自适应巡检方法及装置
CN112269685A (zh) * 2020-10-23 2021-01-26 苏州浪潮智能科技有限公司 一种启动阶段收集硬件错误的方法及装置
CN112579400A (zh) * 2020-12-30 2021-03-30 苏州浪潮智能科技有限公司 一种设备故障定位方法、装置、设备及存储介质
CN112631817A (zh) * 2020-12-23 2021-04-09 杭州海康威视系统技术有限公司 一种问题诊断方法、系统及电子设备
CN112817814A (zh) * 2021-01-21 2021-05-18 网思科技股份有限公司 异常监控方法、系统、存储介质及电子装置
CN112835635A (zh) * 2021-01-25 2021-05-25 广州视源电子科技股份有限公司 设备更换方法、装置、系统、服务器及存储介质
CN112988444A (zh) * 2021-03-25 2021-06-18 腾讯科技(深圳)有限公司 用于服务器集群故障诊断的处理方法
CN113190396A (zh) * 2021-03-15 2021-07-30 山东英信计算机技术有限公司 一种收集cpu寄存器数据的方法、系统及介质
CN113238913A (zh) * 2021-05-12 2021-08-10 康键信息技术(深圳)有限公司 服务器故障智能推送方法、装置、设备及存储介质
CN113448810A (zh) * 2021-05-15 2021-09-28 山东英信计算机技术有限公司 一种PCIE设备link状态监测告警方法、装置、设备及可读介质
CN113777476A (zh) * 2021-08-30 2021-12-10 苏州浪潮智能科技有限公司 一种gpu故障诊断系统、诊断方法、设备及可读存储介质
CN113900872A (zh) * 2021-10-11 2022-01-07 江苏欧迈科技有限公司 一种硬件故障检测系统、方法及介质
CN113918230A (zh) * 2021-10-22 2022-01-11 中国建设银行股份有限公司 一种服务器配置方法及装置
CN114296973A (zh) * 2021-12-17 2022-04-08 苏州浪潮智能科技有限公司 一种服务器故障排除系统、方法和存储介质
WO2022134352A1 (zh) * 2020-12-25 2022-06-30 平安科技(深圳)有限公司 服务器硬件状态监控方法、装置、电子设备及介质
CN116225812A (zh) * 2023-05-08 2023-06-06 山东云海国创云计算装备产业创新中心有限公司 基板管理控制器系统运行方法、装置、设备及存储介质
CN116361668A (zh) * 2023-06-02 2023-06-30 北京安天网络安全技术有限公司 一种多个sdr设备的监控方法、装置、设备及介质
CN117112312A (zh) * 2023-10-19 2023-11-24 腾讯科技(深圳)有限公司 数据处理方法、数据容错方法和装置及存储介质
CN117555719A (zh) * 2024-01-11 2024-02-13 紫光恒越技术有限公司 一种系统异常定位的方法、装置、存储介质及电子设备
CN117806900A (zh) * 2023-07-28 2024-04-02 苏州浪潮智能科技有限公司 服务器管理方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145824A (ja) * 2010-01-13 2011-07-28 Nec Computertechno Ltd 情報処理装置、障害解析方法及び障害解析プログラム
US20120210176A1 (en) * 2009-10-26 2012-08-16 Fujitsu Limited Method for controlling information processing apparatus and information processing apparatus
JP2013130901A (ja) * 2011-12-20 2013-07-04 Hitachi Ltd 監視サーバおよびそれを用いたネットワーク機器復旧システム
CN108287775A (zh) * 2018-03-01 2018-07-17 郑州云海信息技术有限公司 一种服务器故障检测的方法、装置、设备及存储介质
CN108388489A (zh) * 2018-02-27 2018-08-10 郑州云海信息技术有限公司 一种服务器故障诊断方法、系统、设备及存储介质
CN108984332A (zh) * 2018-06-22 2018-12-11 郑州云海信息技术有限公司 一种定位服务器宕机故障的装置及方法
CN109240846A (zh) * 2018-09-19 2019-01-18 郑州云海信息技术有限公司 一种电源故障诊断方法、装置及服务器
CN109976959A (zh) * 2019-03-27 2019-07-05 苏州浪潮智能科技有限公司 一种用于服务器故障检测的便携式设备及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120210176A1 (en) * 2009-10-26 2012-08-16 Fujitsu Limited Method for controlling information processing apparatus and information processing apparatus
JP2011145824A (ja) * 2010-01-13 2011-07-28 Nec Computertechno Ltd 情報処理装置、障害解析方法及び障害解析プログラム
JP2013130901A (ja) * 2011-12-20 2013-07-04 Hitachi Ltd 監視サーバおよびそれを用いたネットワーク機器復旧システム
CN108388489A (zh) * 2018-02-27 2018-08-10 郑州云海信息技术有限公司 一种服务器故障诊断方法、系统、设备及存储介质
CN108287775A (zh) * 2018-03-01 2018-07-17 郑州云海信息技术有限公司 一种服务器故障检测的方法、装置、设备及存储介质
CN108984332A (zh) * 2018-06-22 2018-12-11 郑州云海信息技术有限公司 一种定位服务器宕机故障的装置及方法
CN109240846A (zh) * 2018-09-19 2019-01-18 郑州云海信息技术有限公司 一种电源故障诊断方法、装置及服务器
CN109976959A (zh) * 2019-03-27 2019-07-05 苏州浪潮智能科技有限公司 一种用于服务器故障检测的便携式设备及方法

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100048B (zh) * 2020-09-24 2024-01-26 中国建设银行股份有限公司 一种服务器自适应巡检方法及装置
CN112100048A (zh) * 2020-09-24 2020-12-18 中国建设银行股份有限公司 一种服务器自适应巡检方法及装置
CN112269685A (zh) * 2020-10-23 2021-01-26 苏州浪潮智能科技有限公司 一种启动阶段收集硬件错误的方法及装置
CN112269685B (zh) * 2020-10-23 2022-08-05 苏州浪潮智能科技有限公司 一种启动阶段收集硬件错误的方法及装置
CN112631817A (zh) * 2020-12-23 2021-04-09 杭州海康威视系统技术有限公司 一种问题诊断方法、系统及电子设备
WO2022134352A1 (zh) * 2020-12-25 2022-06-30 平安科技(深圳)有限公司 服务器硬件状态监控方法、装置、电子设备及介质
CN112579400A (zh) * 2020-12-30 2021-03-30 苏州浪潮智能科技有限公司 一种设备故障定位方法、装置、设备及存储介质
CN112579400B (zh) * 2020-12-30 2022-12-20 苏州浪潮智能科技有限公司 一种设备故障定位方法、装置、设备及存储介质
CN112817814A (zh) * 2021-01-21 2021-05-18 网思科技股份有限公司 异常监控方法、系统、存储介质及电子装置
CN112835635A (zh) * 2021-01-25 2021-05-25 广州视源电子科技股份有限公司 设备更换方法、装置、系统、服务器及存储介质
CN113190396A (zh) * 2021-03-15 2021-07-30 山东英信计算机技术有限公司 一种收集cpu寄存器数据的方法、系统及介质
CN112988444B (zh) * 2021-03-25 2023-03-14 腾讯科技(深圳)有限公司 用于服务器集群故障诊断的处理方法、处理装置、及处理设备、用于服务器故障诊断的方法及计算机可读存储介质
CN112988444A (zh) * 2021-03-25 2021-06-18 腾讯科技(深圳)有限公司 用于服务器集群故障诊断的处理方法
CN113238913B (zh) * 2021-05-12 2023-10-24 康键信息技术(深圳)有限公司 服务器故障智能推送方法、装置、设备及存储介质
CN113238913A (zh) * 2021-05-12 2021-08-10 康键信息技术(深圳)有限公司 服务器故障智能推送方法、装置、设备及存储介质
CN113448810B (zh) * 2021-05-15 2023-08-18 山东英信计算机技术有限公司 一种PCIE设备link状态监测告警方法、装置、设备及可读介质
CN113448810A (zh) * 2021-05-15 2021-09-28 山东英信计算机技术有限公司 一种PCIE设备link状态监测告警方法、装置、设备及可读介质
CN113777476A (zh) * 2021-08-30 2021-12-10 苏州浪潮智能科技有限公司 一种gpu故障诊断系统、诊断方法、设备及可读存储介质
CN113777476B (zh) * 2021-08-30 2024-02-23 苏州浪潮智能科技有限公司 一种gpu故障诊断系统、诊断方法、设备及可读存储介质
CN113900872A (zh) * 2021-10-11 2022-01-07 江苏欧迈科技有限公司 一种硬件故障检测系统、方法及介质
CN113918230A (zh) * 2021-10-22 2022-01-11 中国建设银行股份有限公司 一种服务器配置方法及装置
CN114296973A (zh) * 2021-12-17 2022-04-08 苏州浪潮智能科技有限公司 一种服务器故障排除系统、方法和存储介质
CN116225812A (zh) * 2023-05-08 2023-06-06 山东云海国创云计算装备产业创新中心有限公司 基板管理控制器系统运行方法、装置、设备及存储介质
CN116225812B (zh) * 2023-05-08 2023-08-04 山东云海国创云计算装备产业创新中心有限公司 基板管理控制器系统运行方法、装置、设备及存储介质
CN116361668B (zh) * 2023-06-02 2023-08-11 北京安天网络安全技术有限公司 一种多个sdr设备的监控方法、装置、设备及介质
CN116361668A (zh) * 2023-06-02 2023-06-30 北京安天网络安全技术有限公司 一种多个sdr设备的监控方法、装置、设备及介质
CN117806900A (zh) * 2023-07-28 2024-04-02 苏州浪潮智能科技有限公司 服务器管理方法、装置、电子设备及存储介质
CN117806900B (zh) * 2023-07-28 2024-05-07 苏州浪潮智能科技有限公司 服务器管理方法、装置、电子设备及存储介质
CN117112312A (zh) * 2023-10-19 2023-11-24 腾讯科技(深圳)有限公司 数据处理方法、数据容错方法和装置及存储介质
CN117112312B (zh) * 2023-10-19 2024-02-09 腾讯科技(深圳)有限公司 数据处理方法、数据容错方法和装置及存储介质
CN117555719A (zh) * 2024-01-11 2024-02-13 紫光恒越技术有限公司 一种系统异常定位的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111694719B (zh) 2024-09-10

Similar Documents

Publication Publication Date Title
CN111694719B (zh) 服务器故障处理方法、装置、存储介质及电子设备
CN109769261B (zh) 一种网络故障处理方法及装置
CN106331189B (zh) 日志获取方法和装置、以及网管服务器
US10341182B2 (en) Method and system for detecting network upgrades
CN107979497B (zh) 一种自动配置方法和装置
CN113533887B (zh) 一种配电终端智能调试方法及系统
CN102811145B (zh) 一种网络中板卡的温度监测方法及温度监测系统
CN113597545A (zh) 用于车辆的便携式无线连接诊断系统
CN112988537A (zh) 一种服务器故障诊断方法、装置及相关设备
CN114363151A (zh) 故障检测方法和装置、电子设备和存储介质
CN113381876A (zh) 基于智能网关的总线日志采集方法及智能网关
CN111988170A (zh) 一种终端故障定位方法及装置
US11563630B2 (en) Workflow for self provisioning smart well controller
CN112636960A (zh) 一种边缘计算设备内网协同维护方法、系统、装置、服务器及其存储介质
CN117411804A (zh) 服务器网络测试方法、装置、电子设备及存储介质
CN104601679B (zh) 设备软调方法、移动终端和服务器
CN106713038A (zh) 一种远程传输线路质量检测方法及系统
US20110055822A1 (en) Method for upgrading software of gateways
CN114301599A (zh) 交换机的数字证书导入方法、装置和计算机设备
CN114490746A (zh) 一种设备测试方法、装置、待测试设备及存储介质
CN114500247A (zh) 工控网络故障诊断方法、装置、电子设备及可读存储介质
CN105120013A (zh) 探头、中央站的网络地址的分配方法及系统
CN110659174A (zh) 监控告警方法、装置和系统
CN112654059B (zh) 一种基站传输通信异常的原因确定方法及装置
CN115150481B (zh) 一种面向未知通讯协议设备的码点地址探测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant