CN113760592A - 一种节点内核检测方法和相关装置 - Google Patents

一种节点内核检测方法和相关装置 Download PDF

Info

Publication number
CN113760592A
CN113760592A CN202110875338.1A CN202110875338A CN113760592A CN 113760592 A CN113760592 A CN 113760592A CN 202110875338 A CN202110875338 A CN 202110875338A CN 113760592 A CN113760592 A CN 113760592A
Authority
CN
China
Prior art keywords
kernel
target node
node
node kernel
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110875338.1A
Other languages
English (en)
Other versions
CN113760592B (zh
Inventor
董强强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN202110875338.1A priority Critical patent/CN113760592B/zh
Publication of CN113760592A publication Critical patent/CN113760592A/zh
Application granted granted Critical
Publication of CN113760592B publication Critical patent/CN113760592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例公开了一种节点内核检测方法和相关装置,可以检测目标节点内核对应的心跳信息,基于该心跳信息对节点内核的运行状态进行监控,响应于在第一预设时段内未检测到心跳信息,则说明该目标节点内核大概率处于挂死状态,此时可以将该目标节点内核对应的寄存器置位,以表明该目标节点内核出现异常。响应于该寄存器置位,可以启动修复流程,修复该目标节点内核,从而实现了对节点内核运行状态的自动监控和修复,提高了系统运行的稳定性。

Description

一种节点内核检测方法和相关装置
技术领域
本申请涉及系统检测技术领域,特别是涉及一种节点内核方法和相关装置。
背景技术
存储系统是一种双活冗余系统,存储系统中的固件都是冗余设计,通过这种冗余设计,集群在所有节点上的运行是一致的。这种软硬件上的冗余设计,能保证高可靠性,当其中一个节点宕机,整个系统仍可正常运行。但是当出现节点内核挂死情况时,存储系统就不再是冗余系统,很有可能引起系统宕机。
在相关技术中,当节点上内核挂死发生时,该节点会一直挂死,即使维护人员在现场,也没有有效的排查手段,只能让该节点重启后,追溯挂死时刻的日志或coredump进行回溯分析。因此,系统宕机概率较高,难以稳定运行。
发明内容
为了解决上述技术问题,本申请提供了一种节点内核检测方法,可以基于节点内核的心跳信息对节点内核进行监控,并在出现异常时及时进行节点修复,降低了遗漏节点内核挂死问题的概率,提高了系统运行的稳定性。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例公开了一种节点内核检测方法,所述方法包括:
检测目标节点内核对应的心跳信息;
响应于在第一预设时段内未检测到所述心跳信息,将所述目标节点内核对应的寄存器置位;
响应于所述寄存器置位,修复所述目标节点内核。
在一种可能的实现方式中,所述方法还包括:
记录所述寄存器置位对应的时间点。
在一种可能的实现方式中,所述修复所述目标节点内核,包括:
确定对端节点内核对应的对端节点信息,所述对端节点内核为执行目标功能的节点内核,所述目标功能对应于所述目标节点内核;
根据所述对端节点信息确定所述目标节点内核对应的目标节点信息;
根据所述目标节点信息修复所述目标节点内核。
在一种可能的实现方式中,所述方法还包括:
确定所述目标节点内核所在系统对应的输入输出状态;
确定所述输入输出状态无异常,执行所述修复所述目标节点内核的步骤。
在一种可能的实现方式中,所述方法还包括:
记录第二预设时段内所述寄存器置位次数;
响应于所述置位次数满足预设阈值,发出指示信息,所述指示信息用于指示重新安装所述目标节点内核。
第二方面,本申请实施例公开了一种节点内核检测装置,所述装置包括检测单元、置位单元和修复单元:
所述检测单元,用于检测目标节点内核对应的心跳信息;
所述置位单元,用于响应于在第一预设时段内未检测到所述心跳信息,将所述目标节点内核对应的寄存器置位;
所述修复单元,用于响应于所述寄存器置位,修复所述目标节点内核。
在一种可能的实现方式中,所述装置还包括第一记录单元:
所述第一记录单元,用于记录所述寄存器置位对应的时间点。
在一种可能的实现方式中,所述修复单元具体用于:
确定对端节点内核对应的对端节点信息,所述对端节点内核为执行目标功能的节点内核,所述目标功能对应于所述目标节点内核;
根据所述对端节点信息确定所述目标节点内核对应的目标节点信息;
根据所述目标节点信息修复所述目标节点内核。
第三方面,本申请实施例公开了一种计算机设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面中任意一项所述的节点内核检测方法。
第四方面,本申请实施例公开了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行第一方面中任意一项所述的节点内核检测方法。
由上述技术方案可以看出,本申请提供了一种节点内核检测方法,可以检测目标节点内核对应的心跳信息,基于该心跳信息对节点内核的运行状态进行监控,响应于在第一预设时段内未检测到心跳信息,则说明该目标节点内核大概率处于挂死状态,此时可以将该目标节点内核对应的寄存器置位,以表明该目标节点内核出现异常。响应于该寄存器置位,可以启动修复流程,修复该目标节点内核,从而实现了对节点内核运行状态的自动监控和修复,提高了系统运行的稳定性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种节点内核检测方法的流程图;
图2为本申请实施例提供的一种节点内核检测方法的示意图;
图3为本申请实施例提供的一种节点内核检测方法的示意图;
图4为本申请实施例提供的一种节点内核检测方法的示意图;
图5为本申请实施例提供的一种节点内核检测方法的示意图;
图6为本申请实施例提供的一种节点内核检测装置的结构框图;
图7为本申请实施例提供的一种计算机设备的结构图;
图8为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
存储系统是由一个个存储节点所构成的,为了保障存储系统的稳定运行,就需要能够对存储节点内核进行有效的监控和管理。
在相关技术中,当节点上内核挂死发生时,该节点会一直挂死,即使维护人员在现场,也没有有效的排查手段,只能让该节点重启后,追溯挂死时刻的日志或coredump进行回溯分析。如果节点内核挂死,不立即采取相应的恢复手段,此时存储系统已经不是冗余系统,很有可能引起系统宕机。
为了解决上述技术问题,本申请实施例可以基于节点内核的心跳信息对节点内核进行监控,并在出现异常时及时进行节点修复,降低了遗漏节点内核挂死问题的概率,提高了系统运行的稳定性。
可以理解的是,该方法可以应用于处理设备上,该处理设备为能够进行节点内核检测的处理设备,例如可以为具有节点内核检测功能的终端设备或服务器。该方法可以通过终端设备或服务器独立执行,也可以应用于终端设备和服务器通信的网络场景,通过终端设备和服务器配合执行。其中,终端设备可以为计算机、手机等设备。服务器可以理解为是应用服务器,也可以为Web服务器,在实际部署时,该服务器可以为独立服务器,也可以为集群服务器。
接下来,将结合附图,对本申请实施例提供的一种节点内核检测方法进行介绍。参见图1,图1为本申请实施例提供的一种节点内核检测方法的流程图,该方法包括:
S101:检测目标节点内核对应的心跳信息。
其中,目标节点内核可以为系统中所包括的多个节点内核中的任意一个。
在一种可能的实现方式中,处理设备可以在内核增加看门狗喂狗模块,利用CPU和CPLD的pin:GPIO_C1作为心跳。利用内核定时器周期性输出心跳(1s循环输出高低电平作为心跳)。通过这种方式告知CPLD内核当前处于健康状态。
S102:响应于在第一预设时段内未检测到心跳信息,将目标节点内核对应的寄存器置位。
处理设备可以基于系统的运行状态设置一个第一预设时段,若在该第一预设时段内未检测到心跳信心,则说明该目标节点内核大概率发生了挂死情况,此时,处理设备可以将目标节点内核对应的寄存器置位,以标识该目标节点内核出现异常。
S103:响应于寄存器置位,修复目标节点内核。
在接受到寄存器置位的信息后,处理设备可以获知发生挂死的节点内核具体信息,从而可以自动实现对目标节点内核的修复。
由上述技术方案可以看出,本申请提供了一种节点内核检测方法,可以检测目标节点内核对应的心跳信息,基于该心跳信息对节点内核的运行状态进行监控,响应于在第一预设时段内未检测到心跳信息,则说明该目标节点内核大概率处于挂死状态,此时可以将该目标节点内核对应的寄存器置位,以表明该目标节点内核出现异常。响应于该寄存器置位,可以启动修复流程,修复该目标节点内核,从而实现了对节点内核运行状态的自动监控和修复,提高了系统运行的稳定性。
为了更加详细的对节点内核进行管理,在一种可能的实现方式中,处理设备还可以记录寄存器置位对应的时间点。
可以理解的是,当目标节点内核发生挂死后,由于存储系统中具有冗余的存储节点,因此可以安排其他的节点内核来执行该目标节点内核所负责的功能。基于此,在一种可能的实现方式中,在对目标节点内核进行修复时,处理设备可以确定对端节点内核对应的对端节点信息,该对端节点内核为执行目标功能的节点内核,该目标功能对应于目标节点内核。从而,根据该对端节点信息,处理设备可以确定目标节点内核对应的目标节点信息,然后根据目标节点信息修复该目标节点内核。例如,处理设备可以基于对端节点内核的管理软件系统(简称BMC)中的信息确定目标节点内核的BMC信息,从而确定出目标节点内核对应的复杂可编程逻辑器件(简称CPLD)信息,基于该信息可以实现对目标节点内核的修复。
同时,为了尽可能的降低对系统的影响,在一种可能的实现方式中,处理设备可以在确定对系统的输入输出流(简称IO流)影响较低的情况下,再执行对目标节点内核的修复工作。处理设备可以确定该目标节点内核所在系统对应的输入输出装填,若确定输入输出状态无异常,则可以执行修复目标节点内核的步骤。
可以理解的是,若在短时间内发生多次节点内核挂死的情况,则说明该节点内核大概率已经损坏,再进行修复的意义不大,应当及时对该目标节点内核进行重新安装等处理。因此,在一种可能的实现方式中,处理设备可以预设一个第二预设时段,并记录第二预设时段内寄存器置位次数。响应于该置位次数满足预设阈值,则可以发出指示信息,该指示信息用于指示重新安装该目标节点内核。
为了便于理解本申请实施例提供的技术方案,接下来,将结合一种实际应用场景,对本申请实施例提供的一种节点内核检测方法进行介绍。
首先,可以通过BIOS增加看门狗开关配置功能,通过BIOS配置界面,决策是否开启看门狗功能。具体地,利用CPU和CPLD的pin:GPIO_CO通信。在某些特殊场景不需要开启该功能时,BIOS初始化GPIO_C0为高,告知CPLD关闭喂狗功能;GPIO_C0位低时,告知CPLD打开喂狗功能。如图2所示。
处理设备可以在内核增加看门狗喂狗模块,利用CPU和CPLD的pin:GPIO_C1作为心跳。利用内核定时器周期性输出心跳(1s循环输出高低电平作为心跳)。通过这种方式告知CPLD内核当前处于健康状态。如图3所示。
通过CPLD实时监控该节点内核的健康状态,当持续一段时间没有接收到心跳信息(例如120s),可以将看门狗寄存器置位,等待本端BMC收集。
处理设备通过本端BMC实时例测CPLD的看门狗寄存器。当监控到CPLD看门狗寄存器置位时,将本端节点的内核健康状态通过I2C链路同步到对端节点BMC,如图4所示。
对端节点BMC获取到整个机箱的节点信息。通过原有链路LPC提交到存储设备集群,集群获取到节点内核挂死时,记录挂死的信息(节点ID,挂死的时间,可能的原因等),会在集群系统进行告警,并进行综合研判,在不影响IO流正常传输的前提下,通过对端节点BMC->异常节点BMC->异常节点CPLD对挂死的节点内核进行硬件复位,尝试修复挂死的节点内核,并记录修复的时间,如图5所示。
处理设备可以通过集群统计一段时间内某个节点的挂死修复次数,如果某个时间段内(180min),该节点的挂死修复次数超过阈值(5次),便可认为该节点的内核程序已经被损害,需要该节点进行急救操作,对该节点重新安装内核模块。
基于上述实施例提供的节点内核检测方法,本申请实施例还提供了一种节点内核检测装置,参见图6,图6为本申请实施例提供的节点内核检测装置600的结构框图,该装置600包括检测单元601、置位单元602和修复单元603:
检测单元601,用于检测目标节点内核对应的心跳信息;
置位单元602,用于响应于在第一预设时段内未检测到所述心跳信息,将所述目标节点内核对应的寄存器置位;
修复单元603,用于响应于所述寄存器置位,修复所述目标节点内核。
在一种可能的实现方式中,装置600还包括第一记录单元:
第一记录单元,用于记录所述寄存器置位对应的时间点。
在一种可能的实现方式中,修复单元603具体用于:
确定对端节点内核对应的对端节点信息,所述对端节点内核为执行目标功能的节点内核,所述目标功能对应于所述目标节点内核;
根据所述对端节点信息确定所述目标节点内核对应的目标节点信息;
根据所述目标节点信息修复所述目标节点内核。
在一种可能的实现方式中,装置600还包括第一确定单元和第二确定单元:
第一确定单元,用于确定所述目标节点内核所在系统对应的输入输出状态;
第二确定单元,用于确定所述输入输出状态无异常,执行所述修复所述目标节点内核的步骤。
在一种可能的实现方式中,装置600还包括第二记录单元和指示单元:
第二记录单元,用于记录第二预设时段内所述寄存器置位次数;
指示单元,用于响应于所述置位次数满足预设阈值,发出指示信息,所述指示信息用于指示重新安装所述目标节点内核。
本申请实施例还提供了一种计算机设备,下面结合附图对该设备进行介绍。请参见图7所示,本申请实施例提供了一种设备,该设备还可以是终端设备,该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端,以终端设备为手机为例:
图7示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图7,手机包括:射频(Radio Frequency,简称RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(Wireless Fidelity,简称WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解,图7中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图7对手机的各个构成部件进行具体的介绍:
RF电路710可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器780处理;另外,将设计上行的数据发送给基站。通常,RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器720可用于存储软件程序以及模块,处理器780通过运行存储在存储器720的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元730可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元730可包括触控面板731以及其他输入设备732。触控面板731,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板731可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器780,并能接收处理器780发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731,输入单元730还可以包括其他输入设备732。具体地,其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741,可选的,可以采用液晶显示器(Liquid CrystalDisplay,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板741。进一步的,触控面板731可覆盖显示面板741,当触控面板731检测到在其上或附近的触摸操作后,传送给处理器780以确定触摸事件的类型,随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图7中,触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器750,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板741的亮度,接近传感器可在手机移动到耳边时,关闭显示面板741和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路760、扬声器761,传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号,传输到扬声器761,由扬声器761转换为声音信号输出;另一方面,传声器762将收集的声音信号转换为电信号,由音频电路760接收后转换为音频数据,再将音频数据输出处理器780处理后,经RF电路710以发送给比如另一手机,或者将音频数据输出至存储器720以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块770,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器780是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器720内的软件程序和/或模块,以及调用存储在存储器720内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器780可包括一个或多个处理单元;优选的,处理器780可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器780中。
手机还包括给各个部件供电的电源790(比如电池),优选的,电源可以通过电源管理系统与处理器780逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端设备所包括的处理器780还具有以下功能:
检测目标节点内核对应的心跳信息;
响应于在第一预设时段内未检测到所述心跳信息,将所述目标节点内核对应的寄存器置位;
响应于所述寄存器置位,修复所述目标节点内核。
本申请实施例还提供一种服务器,请参见图8所示,图8为本申请实施例提供的服务器800的结构图,服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。
服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于图8所示的服务器结构。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的节点内核检测方法中的任意一种实施方式。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种节点内核检测方法,其特征在于,所述方法包括:
检测目标节点内核对应的心跳信息;
响应于在第一预设时段内未检测到所述心跳信息,将所述目标节点内核对应的寄存器置位;
响应于所述寄存器置位,修复所述目标节点内核。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
记录所述寄存器置位对应的时间点。
3.根据权利要求1所述的方法,其特征在于,所述修复所述目标节点内核,包括:
确定对端节点内核对应的对端节点信息,所述对端节点内核为执行目标功能的节点内核,所述目标功能对应于所述目标节点内核;
根据所述对端节点信息确定所述目标节点内核对应的目标节点信息;
根据所述目标节点信息修复所述目标节点内核。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标节点内核所在系统对应的输入输出状态;
确定所述输入输出状态无异常,执行所述修复所述目标节点内核的步骤。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
记录第二预设时段内所述寄存器置位次数;
响应于所述置位次数满足预设阈值,发出指示信息,所述指示信息用于指示重新安装所述目标节点内核。
6.一种节点内核检测装置,其特征在于,所述装置包括检测单元、置位单元和修复单元:
所述检测单元,用于检测目标节点内核对应的心跳信息;
所述置位单元,用于响应于在第一预设时段内未检测到所述心跳信息,将所述目标节点内核对应的寄存器置位;
所述修复单元,用于响应于所述寄存器置位,修复所述目标节点内核。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括第一记录单元:
所述第一记录单元,用于记录所述寄存器置位对应的时间点。
8.根据权利要求6所述的装置,其特征在于,所述修复单元具体用于:
确定对端节点内核对应的对端节点信息,所述对端节点内核为执行目标功能的节点内核,所述目标功能对应于所述目标节点内核;
根据所述对端节点信息确定所述目标节点内核对应的目标节点信息;
根据所述目标节点信息修复所述目标节点内核。
9.一种计算机设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-5中任意一项所述的节点内核检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-5中任意一项所述的节点内核检测方法。
CN202110875338.1A 2021-07-30 2021-07-30 一种节点内核检测方法和相关装置 Active CN113760592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110875338.1A CN113760592B (zh) 2021-07-30 2021-07-30 一种节点内核检测方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110875338.1A CN113760592B (zh) 2021-07-30 2021-07-30 一种节点内核检测方法和相关装置

Publications (2)

Publication Number Publication Date
CN113760592A true CN113760592A (zh) 2021-12-07
CN113760592B CN113760592B (zh) 2024-02-27

Family

ID=78788302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110875338.1A Active CN113760592B (zh) 2021-07-30 2021-07-30 一种节点内核检测方法和相关装置

Country Status (1)

Country Link
CN (1) CN113760592B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737471A (zh) * 2023-08-04 2023-09-12 金舟远航(北京)信息产业有限公司 Bios自动切换方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080189573A1 (en) * 2007-02-02 2008-08-07 Darrington David L Fault recovery on a massively parallel computer system to handle node failures without ending an executing job
CN107566219A (zh) * 2017-09-27 2018-01-09 华为技术有限公司 应用于集群系统的故障诊断方法、节点设备和计算机设备
CN108804247A (zh) * 2017-05-03 2018-11-13 大唐移动通信设备有限公司 一种处理器的启动判断方法和装置
CN109254894A (zh) * 2018-08-20 2019-01-22 曙光信息产业(北京)有限公司 芯片的心跳监测装置及方法
CN110457176A (zh) * 2019-07-12 2019-11-15 平安普惠企业管理有限公司 用于分布式系统的监控方法、装置、存储介质及电子设备
US20210006484A1 (en) * 2018-03-19 2021-01-07 Huawei Technologies Co., Ltd. Fault detection method, apparatus, and system
CN112394800A (zh) * 2019-08-19 2021-02-23 珠海格力电器股份有限公司 一种芯片复位方法、系统、存储介质及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080189573A1 (en) * 2007-02-02 2008-08-07 Darrington David L Fault recovery on a massively parallel computer system to handle node failures without ending an executing job
CN108804247A (zh) * 2017-05-03 2018-11-13 大唐移动通信设备有限公司 一种处理器的启动判断方法和装置
CN107566219A (zh) * 2017-09-27 2018-01-09 华为技术有限公司 应用于集群系统的故障诊断方法、节点设备和计算机设备
US20210006484A1 (en) * 2018-03-19 2021-01-07 Huawei Technologies Co., Ltd. Fault detection method, apparatus, and system
CN109254894A (zh) * 2018-08-20 2019-01-22 曙光信息产业(北京)有限公司 芯片的心跳监测装置及方法
CN110457176A (zh) * 2019-07-12 2019-11-15 平安普惠企业管理有限公司 用于分布式系统的监控方法、装置、存储介质及电子设备
CN112394800A (zh) * 2019-08-19 2021-02-23 珠海格力电器股份有限公司 一种芯片复位方法、系统、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李勇;: "基于Linux高可用集群关键技术研究与实现", 自动化技术与应用, no. 05, 10 June 2020 (2020-06-10), pages 35 - 38 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737471A (zh) * 2023-08-04 2023-09-12 金舟远航(北京)信息产业有限公司 Bios自动切换方法、装置、电子设备及存储介质
CN116737471B (zh) * 2023-08-04 2023-11-21 金舟远航(北京)信息产业有限公司 Bios自动切换方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113760592B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN107273263B (zh) 一种异常运行的分析方法、应用终端及监控服务器
JP2021533676A (ja) セルビーム失敗処理方法、移動通信端末及びネットワーク側装置
CN105320598A (zh) 软件测试方法及装置
CN106453511B (zh) 一种数据备份方法及设备
CN107465841B (zh) 一种故障信息上报方法及终端
CN106294108B (zh) 应用程序测试方法及装置
CN106155818A (zh) 一种终端拉取信息的处理方法和终端以及服务器
CN111666222A (zh) 一种测试方法和相关装置
CN110620822A (zh) 一种网元确定方法和装置
CN105610878B (zh) 目录上传方法、数据发布方法、终端及服务器
KR20210040112A (ko) 측정 방법, 단말 및 네트워크 측 기기
CN104423822A (zh) 录制自动化测试脚本的方法及装置
CN111464328A (zh) 可配置监控项的云监控流程控制方法及装置
CN113760592B (zh) 一种节点内核检测方法和相关装置
CN112131093A (zh) 一种基于混沌测试的测试用例自动生成方法和装置
US9928134B2 (en) Method and apparatus for repairing dynamic link library file
CN109196480B (zh) 一种显示设备标识的方法、移动终端及终端设备
CN109688611A (zh) 一种频段参数的配置方法、装置、终端和存储介质
CN113038513A (zh) 针对独立组网弱覆盖的方法、终端设备及存储介质
CN112415367A (zh) 驱动芯片异常侦测方法、装置、电子设备及可读存储介质
CN104166899A (zh) 语音互动的方法及终端
CN116468382A (zh) 一种rpa机器人流程管理方法、装置、设备及存储介质
CN111432387A (zh) 多对多转接模块、多机无线通信系统及其通信方法
CN103729283A (zh) 一种系统日志输出方法、装置及终端设备
CN116303085A (zh) 一种测试原因分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant