CN113742120B - 一种kdump触发方法、系统、设备以及介质 - Google Patents

一种kdump触发方法、系统、设备以及介质 Download PDF

Info

Publication number
CN113742120B
CN113742120B CN202110903007.4A CN202110903007A CN113742120B CN 113742120 B CN113742120 B CN 113742120B CN 202110903007 A CN202110903007 A CN 202110903007A CN 113742120 B CN113742120 B CN 113742120B
Authority
CN
China
Prior art keywords
kdump
triggering
storage device
response
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110903007.4A
Other languages
English (en)
Other versions
CN113742120A (zh
Inventor
刘骏
张旭芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202110903007.4A priority Critical patent/CN113742120B/zh
Publication of CN113742120A publication Critical patent/CN113742120A/zh
Application granted granted Critical
Publication of CN113742120B publication Critical patent/CN113742120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2289Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by configuration test
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • H04L67/025Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Security & Cryptography (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种kdump触发方法,包括以下步骤:响应于检测到系统异常,确定系统异常类型;判断所述系统异常类型是否符合预先配置的kdump机制的触发条件;响应于不符合所述kdump机制的触发条件,检测是否产生存储设备的连接事件;响应于检测到存储设备连接事件,触发kdump机制。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案在系统状态异常,而系统内置的kdump服务未正常触发或未达到触发条件时,在linux系统下通过设备连接的udev事件,自动触发系统的kdump,从而根据生成的vmcore文件进行异常原因分析。

Description

一种kdump触发方法、系统、设备以及介质
技术领域
本发明涉及服务器领域,具体涉及一种kdump触发方法、系统、设备以及存储介质。
背景技术
在服务器运维管理中,Kdump是利用kexec实现的可靠的内核崩溃转储机制,在系统崩溃时使用kexec及系统预留的内存启动第二个内核,去捕获并转储第一内核的崩溃信息,Kdump利用kexec可以不经过重启BIOS直接使用预留的内存启动第二转储内核,在系统崩溃后从内存捕获保留第一内核崩溃信息以供调试分析,是用来分析系统崩溃、内核panic、死锁时常用的工具和服务。
系统崩溃时系统自动触发kdump的条件,是通过一些预先设置的内核参数及NMIWatchdog(不可屏蔽中断监控机制)控制,如在内核发生软锁(softlockup)时、内存OOM时、收到因I/O错误导致的NMI、进程hung住时、进程超时、或处理器被占用超过预定阈值时间时,自动触发kdump机制。
但是系统默认并不是所有的kdump触发条件都开启,需要根据用户业务或应用根据需要自行配置,在大多数情况下为了系统业务稳定,如软锁(softlockup)、内存OOM并不会配置为自动触发kdump,但当出现这类问题时,系统有可能会出现性能下降、hung住、无响应、无法连接等问题,用户会认为系统已经宕机,只能采取冷重启的措施,导致系统重启后内存数据丢失,无法找到系统异常的原因。
部分服务器的远程控制终端BMC界面,会提供NMI按钮,可以强制触发一个不可屏蔽中断,进入kdump流程,但并不是所有服务器都有此功能,并且在使用时,需要通过远程显示终端登录操作,在机房或无显示终端的情况下无法操作;
部分服务器主板会提供一个硬件NMI按钮,可以强制触发一个不可屏蔽中断,使系统进入kdump流程,但也并不是所有服务器都有此功能,并且实现此功能需要系统端配置unknown_nmi_panic的触发参数才能正常工作。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种kdump触发方法,包括以下步骤:
响应于检测到系统异常,确定系统异常类型;
判断所述系统异常类型是否符合预先配置的kdump机制的触发条件;
响应于系统异常类型不符合所述kdump机制的触发条件,检测是否产生存储设备的连接事件;
响应于检测到产生存储设备连接事件,触发kdump机制。
在一些实施例中,响应于检测到产生存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备的唯一标识是否为预设标识;
响应于所述存储设备的唯一标识为预设标识,触发kdump机制。
在一些实施例中,响应于检测到产生存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备插入的插槽是否为预设插槽;
响应于所述插槽为预设插槽,触发kdump机制。
在一些实施例中,响应于检测到产生存储设备连接事件,触发kdump机制,进一步包括:
将系统默认配置的触发所述kdump机制生成转储文件的路径挂载至所述存储设备。
在一些实施例中,还包括:
分析所述转储文件以确定所述系统的异常原因。
在一些实施例中,还包括:
响应于kdump机制触发完成,重启所述系统。
在一些实施例中,还包括:
响应于系统异常类型符合所述kdump机制的触发条件,触发kdump机制,并将生成转储文件的路径挂载至默认路径。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种kdump触发系统,包括:
第一检测模块,配置为响应于检测到系统异常,确定系统异常类型;
判断模块,配置为判断所述系统异常类型是否符合预先配置的kdump机制的触发条件;
第二检测模块,配置为响应于系统异常类型不符合所述kdump机制的触发条件,检测是否产生存储设备的连接事件;
触发模块,配置为响应于检测到存储设备连接事件,触发kdump机制。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行以下步骤:
响应于检测到系统异常,确定系统异常类型;
判断所述系统异常类型是否符合预先配置的kdump机制的触发条件;
响应于系统异常类型不符合所述kdump机制的触发条件,检测是否产生存储设备的连接事件;
响应于检测到产生存储设备连接事件,触发kdump机制。
在一些实施例中,响应于检测到产生存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备的唯一标识是否为预设标识;
响应于所述存储设备的唯一标识为预设标识,触发kdump机制。
在一些实施例中,响应于检测到产生存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备插入的插槽是否为预设插槽;
响应于所述插槽为预设插槽,触发kdump机制。
在一些实施例中,响应于检测到产生存储设备连接事件,触发kdump机制,进一步包括:
将系统默认配置的触发所述kdump机制生成转储文件的路径挂载至所述存储设备。
在一些实施例中,还包括:
分析所述转储文件以确定所述系统的异常原因。
在一些实施例中,还包括:
响应于kdump机制触发完成,重启所述系统。
在一些实施例中,还包括:
响应于系统异常类型符合所述kdump机制的触发条件,触发kdump机制,并将生成转储文件的路径挂载至默认路径。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行以下步骤:
响应于检测到系统异常,确定系统异常类型;
判断所述系统异常类型是否符合预先配置的kdump机制的触发条件;
响应于系统异常类型不符合所述kdump机制的触发条件,检测是否产生存储设备的连接事件;
响应于检测到产生存储设备连接事件,触发kdump机制。
在一些实施例中,响应于检测到产生存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备的唯一标识是否为预设标识;
响应于所述存储设备的唯一标识为预设标识,触发kdump机制。
在一些实施例中,响应于检测到产生存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备插入的插槽是否为预设插槽;
响应于所述插槽为预设插槽,触发kdump机制。
在一些实施例中,响应于检测到产生存储设备连接事件,触发kdump机制,进一步包括:
将系统默认配置的触发所述kdump机制生成转储文件的路径挂载至所述存储设备。
在一些实施例中,还包括:
分析所述转储文件以确定所述系统的异常原因。
在一些实施例中,还包括:
响应于kdump机制触发完成,重启所述系统。
在一些实施例中,还包括:
响应于系统异常类型符合所述kdump机制的触发条件,触发kdump机制,并将生成转储文件的路径挂载至默认路径。
本发明具有以下有益技术效果之一:本发明提出的方案能够使得控制端只需要登录邮箱通过发邮件的方式实现对被控端的远程控制,无需安装任何程序。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明的实施例提供的kdump触发方法的流程示意图;
图2为本发明的实施例提供的kdump触发系统的结构示意图;
图3为本发明的实施例提供的计算机设备的结构示意图;
图4为本发明的实施例提供的计算机可读存储介质的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
根据本发明的一个方面,本发明的实施例提出一种kdump触发方法,如图1所示,其可以包括步骤:
S1,响应于检测到系统异常,确定系统异常类型;
S2,判断所述系统异常类型是否符合预先配置的kdump机制的触发条件;
S3,响应于系统异常类型不符合所述kdump机制的触发条件,检测是否产生存储设备的连接事件;
S4,响应于检测到产生存储设备连接事件,触发kdump机制。
本发明提出的方案在系统状态异常,而系统内置的kdump服务未正常触发或未达到触发条件时,在linux系统下通过设备连接的udev事件,自动触发系统的kdump,从而根据生成的vmcore文件(转储文件)进行异常原因分析。
在一些实施例中,步骤S1中,响应于检测到系统异常,确定系统异常类型,具体的,当服务器出现异常,如系统卡顿、性能变差、无响应、无法连接、无显示输出、宕机等状态时,确定系统出现上述异常的类型,例如内核发生软锁(softlockup)、内存OOM、收到因I/O错误导致的NMI、进程hung住、进程超时、或处理器被占用超过预定阈值时间。
在一些实施例中,还包括:
响应于符合所述kdump机制的触发条件,触发kdump机制,并将生成转储文件的路径挂载至默认路径。
在一些实施例中,步骤S2中,判断所述系统异常类型是否符合预先配置的kdump机制的触发条件,具体的,系统内置的kdump服务,在正常运行的状态下,会通过一些预先设置的内核参数及NMI Watchdog(不可屏蔽中断监控机制)控制,若系统出现异常,但是异常的类型并不符合预先设置的触发条件,此时系统不是自动触发kdump机制。若符合预先设置的触发条件,此时系统则自动触发kdump机制,并将生成转储文件的路径挂载至默认路径。
例如,预先将收到因I/O错误导致的NMI、进程hung住、进程超时、或处理器被占用超过预定阈值时间设置为自动触发kdump机制的条件,系统业务稳定,如软锁(softlockup)、内存OOM并不会配置为自动触发kdump,若系统内核发生软锁(softlockup)或内存OOM时,虽然系统也会异常,但是由于不是预先配置的自动触发kdump机制的条件,因此也无法触发kdump机制。当出现这种情况时,系统认为没有达到触发条件,不会自动触发kdump,用户为了快速恢复业务,需要手工触发kdump收集vmcore日志。
在一些实施例中,用户可以根据需要,预先设置一个U盘、SD卡、Sata/SSata磁盘、SSD、nvme等存储装置,或预先设置一个存储设备的插槽,在需要手工触发kdump时,将该存储装置连接到服务器。例如,在server服务器上,可以将预置有触发kdump功能的存储设备通过卡槽、卡扣等固定在服务器主机上,但并不接入;在需要触发kdump时,可以通过预置的按钮、推入硬盘托架、卡扣等方式,完成存储设备连接至服务器的动作,方便运维管理维护。
在一些实施例中,步骤S3中,响应于不符合所述kdump机制的触发条件,检测是否产生存储设备的连接事件,具体的,udev是Linux内核里的一个功能,是Linux默认的设备管理工具,udev以守护进程的形式在系统下运行,通过侦听内核的uevent事件来管理/dev目录下的设备文件,对于连接到Linux操作系统的设备,会在/dev目录下产生设备文件,udev还能通过定义一个udev规则(rule)文件来匹配设备属性,这些设备属性可以是识别到的设备名称、厂商名称、型号、序列号、或者总线路径等,可以唯一标识一个设备;系统此时未触发kdump,并未真正宕机,应还能响应udev事件,当存储装置连接到系统时,该预置的udev规则,将能检测到当前存储装置的连接事件。
在一些实施例中,响应于检测到产生存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备的唯一标识是否为预设标识;
响应于所述存储设备的唯一标识为预设标识,触发kdump机制。
在一些实施例中,响应于检测到产生存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备插入的插槽是否为预设插槽;
响应于所述插槽为预设插槽,触发kdump机制。
具体的,udev规则根据用户触发kdump的需要,可以设置为两种。
第一种为通过指定某个设备触发,例如:
#cat/etc/udev/rules.d/99-kdump.rules;
ACTION=="add";
ENV{ID_SERIAL}=="Generic_Flash_Disk_DC9AC366-0:0";
RUN+="/usr/bin/sh/kdump.sh"。
规则含义是:当匹配到一个唯一标识为“Generic_Flash_Disk_DC9AC366-0:0”的设备接入到系统的事件时,自动执行触发kdump机制脚本"/usr/bin/sh/kdump.sh"。
第二种为通过指定某个插槽触发,例如:
#cat/etc/udev/rules.d/99-kdump.rules;
ACTION=="add";
ENV{ID_PATH}=="pci-0000:00:14.0-usb-0:6:1.0-scsi-0:0:0:0";
RUN+="/usr/bin/sh/kdump.sh";
规则含义是:当匹配到“pci-0000:00:14.0-usb-0:6:1.0-scsi-0:0:0:0”的插槽发生接入设备事件时,自动执行触发kdump机制脚本"/usr/bin/sh/kdump.sh"。
其中ENV{ID_SERIAL}、ENV{ID_PATH}的值,是在系统下使用指令“udevadm info”查询到的设备或插槽的属性信息。
在一些实施例中,该udev rule自动执行"/usr/bin/sh/kdump.sh"脚本,自动触发系统kdump。脚本可以是:
#cat/kdump.sh;
#!/bin/sh;
kdumppath=`cat/etc/kdump.conf|grep"path/"|awk-F""'{print$2}'`;
kdumpdev={ENV{ID_PATH}/ENV{ID_SERIAL}};
mount$kdumpdev$kdumppath;
sleep 5;
/usr/bin/echo c>/proc/sysrq-trigger。
在一些实施例中,响应于检测到产生存储设备连接事件,触发kdump机制,进一步包括:
将系统默认配置的触发所述kdump机制生成转储文件的路径挂载至所述存储设备。
具体的,脚本中在触发kdump之前,将系统配置的kdump生成vmcore的路径,挂载至刚接入的存储设备,在触发kdump后,会将生成的vmcore文件转储到当前连接的存储设备中。
在一些实施例中,还包括:
分析所述转储文件以确定所述系统的异常原因。
在一些实施例中,还包括:
响应于kdump机制触发完成,重启所述系统。
具体的,当kdump触发结束后系统自动重启,用户则可以直接从存储设备中获取vmcore文件,分析系统异常原因。
本发明提出方案在当系统状态异常,且系统内置的kdump服务未正常触发或未达到触发条件时,在linux系统下通过设备连接的udev事件,自动触发系统的kdump,并将存储vmcore的路径挂载到当前连接的设备,使vmcore文件存储到当前设备中,方便用户获取生成的vmcore文件;当服务器出现异常,如系统卡顿、无响应、无法连接、无显示输出、宕机等状态时,若系统的kdump服务未触发kdump,用户可以根据需要,使用预置的U盘、SD卡、Sata/SSata磁盘、SSD、nvme等存储装置连接到服务器,或将相关存储装置插入服务器上某个预置的插槽位置,系统若还能响应udev事件,将通过预置的udev规则,检测到存储装置的连接事件,自动触发系统kdump,启动第二内核,并将生成的vmcore文件转储到当前连接的存储设备中,kdump触发结束后系统自动重启,用户可以直接从存储设备中获取vmcore文件,分析系统异常原因。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种kdump触发系统400,如图2所示,包括:
第一检测模块401,配置为响应于检测到系统异常,确定系统异常类型;
判断模块402,配置为判断所述系统异常类型是否符合预先配置的kdump机制的触发条件;
第二检测模块403,配置为响应于系统异常类型不符合所述kdump机制的触发条件,检测是否产生存储设备的连接事件;
触发模块404,配置为响应于检测到生成存储设备连接事件,触发kdump机制。
本发明提出的方案在系统状态异常,而系统内置的kdump服务未正常触发或未达到触发条件时,在linux系统下通过设备连接的udev事件,自动触发系统的kdump,从而根据生成的vmcore文件(转储文件)进行异常原因分析。
在一些实施例中,响应于检测到生成存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备的唯一标识是否为预设标识;
响应于所述存储设备的唯一标识为预设标识,触发kdump机制。
在一些实施例中,响应于检测到生成存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备插入的插槽是否为预设插槽;
响应于所述插槽为预设插槽,触发kdump机制。
在一些实施例中,响应于检测到生成存储设备连接事件,触发kdump机制,进一步包括:
将系统默认配置的触发所述kdump机制生成转储文件的路径挂载至所述存储设备。
在一些实施例中,还包括:
分析所述转储文件以确定所述系统的异常原因。
在一些实施例中,还包括:
响应于kdump机制触发完成,重启所述系统。
在一些实施例中,还包括:
响应于系统异常类型符合所述kdump机制的触发条件,触发kdump机制,并将生成转储文件的路径挂载至默认路径。
本发明提出方案在当系统状态异常,且系统内置的kdump服务未正常触发或未达到触发条件时,在linux系统下通过设备连接的udev事件,自动触发系统的kdump,并将存储vmcore的路径挂载到当前连接的设备,使vmcore文件存储到当前设备中,方便用户获取生成的vmcore文件;当服务器出现异常,如系统卡顿、无响应、无法连接、无显示输出、宕机等状态时,若系统的kdump服务未触发kdump,用户可以根据需要,使用预置的U盘、SD卡、Sata/SSata磁盘、SSD、nvme等存储装置连接到服务器,或将相关存储装置插入服务器上某个预置的插槽位置,系统若还能响应udev事件,将通过预置的udev规则,检测到存储装置的连接事件,自动触发系统kdump,启动第二内核,并将生成的vmcore文件转储到当前连接的存储设备中,kdump触发结束后系统自动重启,用户可以直接从存储设备中获取vmcore文件,分析系统异常原因。
基于同一发明构思,根据本发明的另一个方面,如图3所示,本发明的实施例还提供了一种计算机设备501,包括:
至少一个处理器520;以及
存储器510,存储器510存储有可在处理器上运行的计算机程序511,处理器520执行程序时执行以下步骤:
S1,响应于检测到系统异常,确定系统异常类型;
S2,判断所述系统异常类型是否符合预先配置的kdump机制的触发条件;
S3,响应于系统异常类型不符合所述kdump机制的触发条件,检测是否产生存储设备的连接事件;
S4,响应于检测到生成存储设备连接事件,触发kdump机制。
在一些实施例中,响应于检测到生成存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备的唯一标识是否为预设标识;
响应于所述存储设备的唯一标识为预设标识,触发kdump机制。
在一些实施例中,响应于检测到生成存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备插入的插槽是否为预设插槽;
响应于所述插槽为预设插槽,触发kdump机制。
在一些实施例中,响应于检测到生成存储设备连接事件,触发kdump机制,进一步包括:
将系统默认配置的触发所述kdump机制生成转储文件的路径挂载至所述存储设备。
在一些实施例中,还包括:
分析所述转储文件以确定所述系统的异常原因。
在一些实施例中,还包括:
响应于kdump机制触发完成,重启所述系统。
在一些实施例中,还包括:
响应于系统异常类型符合所述kdump机制的触发条件,触发kdump机制,并将生成转储文件的路径挂载至默认路径。
本发明提出方案在当系统状态异常,且系统内置的kdump服务未正常触发或未达到触发条件时,在linux系统下通过设备连接的udev事件,自动触发系统的kdump,并将存储vmcore的路径挂载到当前连接的设备,使vmcore文件存储到当前设备中,方便用户获取生成的vmcore文件;当服务器出现异常,如系统卡顿、无响应、无法连接、无显示输出、宕机等状态时,若系统的kdump服务未触发kdump,用户可以根据需要,使用预置的U盘、SD卡、Sata/SSata磁盘、SSD、nvme等存储装置连接到服务器,或将相关存储装置插入服务器上某个预置的插槽位置,系统若还能响应udev事件,将通过预置的udev规则,检测到存储装置的连接事件,自动触发系统kdump,启动第二内核,并将生成的vmcore文件转储到当前连接的存储设备中,kdump触发结束后系统自动重启,用户可以直接从存储设备中获取vmcore文件,分析系统异常原因。
基于同一发明构思,根据本发明的另一个方面,如图4所示,本发明的实施例还提供了一种计算机可读存储介质601,计算机可读存储介质601存储有计算机程序指令610,计算机程序指令610被处理器执行时执行以下步骤:
S1,响应于检测到系统异常,确定系统异常类型;
S2,判断所述系统异常类型是否符合预先配置的kdump机制的触发条件;
S3,响应于系统异常类型不符合所述kdump机制的触发条件,检测是否产生存储设备的连接事件;
S4,响应于检测到生成存储设备连接事件,触发kdump机制。
在一些实施例中,响应于检测到生成存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备的唯一标识是否为预设标识;
响应于所述存储设备的唯一标识为预设标识,触发kdump机制。
在一些实施例中,响应于检测到生成存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备插入的插槽是否为预设插槽;
响应于所述插槽为预设插槽,触发kdump机制。
在一些实施例中,响应于检测到生成存储设备连接事件,触发kdump机制,进一步包括:
将系统默认配置的触发所述kdump机制生成转储文件的路径挂载至所述存储设备。
在一些实施例中,还包括:
分析所述转储文件以确定所述系统的异常原因。
在一些实施例中,还包括:
响应于kdump机制触发完成,重启所述系统。
在一些实施例中,还包括:
响应于系统异常类型符合所述kdump机制的触发条件,触发kdump机制,并将生成转储文件的路径挂载至默认路径。
本发明提出方案在当系统状态异常,且系统内置的kdump服务未正常触发或未达到触发条件时,在linux系统下通过设备连接的udev事件,自动触发系统的kdump,并将存储vmcore的路径挂载到当前连接的设备,使vmcore文件存储到当前设备中,方便用户获取生成的vmcore文件;当服务器出现异常,如系统卡顿、无响应、无法连接、无显示输出、宕机等状态时,若系统的kdump服务未触发kdump,用户可以根据需要,使用预置的U盘、SD卡、Sata/SSata磁盘、SSD、nvme等存储装置连接到服务器,或将相关存储装置插入服务器上某个预置的插槽位置,系统若还能响应udev事件,将通过预置的udev规则,检测到存储装置的连接事件,自动触发系统kdump,启动第二内核,并将生成的vmcore文件转储到当前连接的存储设备中,kdump触发结束后系统自动重启,用户可以直接从存储设备中获取vmcore文件,分析系统异常原因。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (8)

1.一种kdump触发方法,其特征在于,包括以下步骤:
响应于检测到系统异常,确定系统异常类型;
判断所述系统异常类型是否符合预先配置的kdump机制的触发条件;
响应于所述系统异常类型不符合所述kdump机制的触发条件,检测是否产生存储设备的连接事件;
响应于检测到产生存储设备连接事件,触发kdump机制;
其中,响应于检测到产生存储设备连接事件,触发kdump机制,进一步包括:
判断所述存储设备的唯一标识是否为预设标识;
响应于所述存储设备的唯一标识为预设标识,触发kdump机制;或,
判断所述存储设备插入的插槽是否为预设插槽;
响应于所述插槽为预设插槽,触发kdump机制。
2.如权利要求1所述的方法,其特征在于,响应于检测到产生存储设备连接事件,触发kdump机制,进一步包括:
将系统默认配置的触发所述kdump机制生成转储文件的路径挂载至所述存储设备。
3.如权利要求2所述的方法,其特征在于,还包括:
分析所述转储文件以确定所述系统的异常原因。
4.如权利要求1所述的方法,其特征在于,还包括:
响应于kdump机制触发完成,重启所述系统。
5.如权利要求1所述的方法,其特征在于,还包括:
响应于所述系统异常类型符合所述kdump机制的触发条件,触发kdump机制,并将生成转储文件的路径挂载至默认路径。
6.一种kdump触发系统,其特征在于,包括:
第一检测模块,配置为响应于检测到系统异常,确定系统异常类型;
判断模块,配置为判断所述系统异常类型是否符合预先配置的kdump机制的触发条件;
第二检测模块,配置为响应于所述系统异常类型不符合所述kdump机制的触发条件,检测是否产生存储设备的连接事件;
触发模块,配置为响应于检测到产生存储设备连接事件,触发kdump机制;
触发模块,还配置为判断所述存储设备的唯一标识是否为预设标识;
响应于所述存储设备的唯一标识为预设标识,触发kdump机制;或,
判断所述存储设备插入的插槽是否为预设插槽;
响应于所述插槽为预设插槽,触发kdump机制。
7.一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如权利要求1-5任意一项所述的方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行如权利要求1-5任意一项所述的方法的步骤。
CN202110903007.4A 2021-08-06 2021-08-06 一种kdump触发方法、系统、设备以及介质 Active CN113742120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110903007.4A CN113742120B (zh) 2021-08-06 2021-08-06 一种kdump触发方法、系统、设备以及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110903007.4A CN113742120B (zh) 2021-08-06 2021-08-06 一种kdump触发方法、系统、设备以及介质

Publications (2)

Publication Number Publication Date
CN113742120A CN113742120A (zh) 2021-12-03
CN113742120B true CN113742120B (zh) 2023-07-14

Family

ID=78730386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110903007.4A Active CN113742120B (zh) 2021-08-06 2021-08-06 一种kdump触发方法、系统、设备以及介质

Country Status (1)

Country Link
CN (1) CN113742120B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117873771A (zh) * 2024-03-11 2024-04-12 浪潮计算机科技有限公司 一种系统宕机处理方法、装置、设备、存储介质及服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761163A (zh) * 2014-01-14 2014-04-30 宇龙计算机通信科技(深圳)有限公司 防止数据丢失的方法和装置
CN105426293A (zh) * 2015-10-29 2016-03-23 汉柏科技有限公司 记录内核异常栈及vmcore文件的方法及系统
CN106776090A (zh) * 2016-11-29 2017-05-31 郑州云海信息技术有限公司 一种rhel操作系统无响应时收集信息的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761163A (zh) * 2014-01-14 2014-04-30 宇龙计算机通信科技(深圳)有限公司 防止数据丢失的方法和装置
CN105426293A (zh) * 2015-10-29 2016-03-23 汉柏科技有限公司 记录内核异常栈及vmcore文件的方法及系统
CN106776090A (zh) * 2016-11-29 2017-05-31 郑州云海信息技术有限公司 一种rhel操作系统无响应时收集信息的方法

Also Published As

Publication number Publication date
CN113742120A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN106598635B (zh) 基板管理控制器的恢复方法及基板管理控制器
CN111324192A (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
CN113064747A (zh) 一种服务器启动过程中的故障定位方法、系统及装置
CN114077525A (zh) 异常日志处理方法、装置、终端设备、云服务器及系统
CN110457907B (zh) 一种固件程序检测方法和装置
CN111478796B (zh) 一种ai平台的集群扩容异常处理方法
TW201417536A (zh) 伺服器自動管理方法及系統
CN113742120B (zh) 一种kdump触发方法、系统、设备以及介质
CN113946148B (zh) 一种基于多ecu协同控制的mcu芯片唤醒系统
CN108762886B (zh) 虚拟机的故障检测恢复方法及系统
CN112667436A (zh) 一种服务器关机时的自动捕获分析方法、装置、设备及介质
CN116775141A (zh) 异常检测方法、装置、计算机设备及存储介质
CN111625386A (zh) 一种针对系统设备上电超时的监控方法和装置
US7206975B1 (en) Internal product fault monitoring apparatus and method
CN106406963B (zh) 一种Linux系统的初始化方法和装置
CN116302738A (zh) 一种测试芯片的方法、系统、设备和存储介质
CN107046479B (zh) 一种网络设备的验证状态的方法及装置
CN115080132A (zh) 信息处理方法、装置、服务器及存储介质
CN115098342A (zh) 系统日志收集方法、系统、终端及存储介质
CN114003416B (zh) 内存错误动态处理方法、系统、终端及存储介质
CN112650610B (zh) 一种Linux系统崩溃控制方法、系统及介质
CN114374627A (zh) 基板管理控制器重启的方法、装置、系统及服务器
CN111865719A (zh) 一种交换机故障注入自动化测试方法和装置
CN112068935A (zh) kubernetes程序部署监控方法、装置以及设备
CN113900914A (zh) 异常处理方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant