CN108762886B - 虚拟机的故障检测恢复方法及系统 - Google Patents

虚拟机的故障检测恢复方法及系统 Download PDF

Info

Publication number
CN108762886B
CN108762886B CN201810432549.6A CN201810432549A CN108762886B CN 108762886 B CN108762886 B CN 108762886B CN 201810432549 A CN201810432549 A CN 201810432549A CN 108762886 B CN108762886 B CN 108762886B
Authority
CN
China
Prior art keywords
kernel
monitoring thread
fault
virtual machine
watchdog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810432549.6A
Other languages
English (en)
Other versions
CN108762886A (zh
Inventor
邓艳山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fiberhome Telecommunication Technologies Co Ltd
Original Assignee
Fiberhome Telecommunication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fiberhome Telecommunication Technologies Co Ltd filed Critical Fiberhome Telecommunication Technologies Co Ltd
Priority to CN201810432549.6A priority Critical patent/CN108762886B/zh
Publication of CN108762886A publication Critical patent/CN108762886A/zh
Application granted granted Critical
Publication of CN108762886B publication Critical patent/CN108762886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种虚拟机的故障检测恢复方法及系统,涉及虚拟机领域。该方法包括以下步骤:启动虚拟机时,虚拟看门狗;虚拟机启动后,创建高精度定时器,并启动高精度定时器;创建内核监控线程和用户态监控线程,内核监控线程进行基于netlink的内核故障心跳检测,用户态监控线程进行用户态喂狗检测;内核监控线程检测到心跳异常时,关闭看门狗,记录内核故障信息日志;再打开看门狗,如果用户态喂狗异常超过预设的喂狗异常时间,记录用户态故障信息日志,看门狗触发系统故障复位重启。本发明能检测虚拟机的内核和用户态故障,实现内核和用户态故障日志收集及故障自动恢复。

Description

虚拟机的故障检测恢复方法及系统
技术领域
本发明涉及虚拟机领域,具体是涉及一种虚拟机的故障检测恢复方法及系统。
背景技术
NFVI(网络功能虚拟化基础设施解决方案)是用来托管和连接虚拟功能的一组资源。具体来说,NFVI是一种包含服务器、虚拟化管理程序(hypervisor)、操作系统、虚机、虚拟交换机和网络资源的云数据中心。在NFVI领域,虚拟机是承载和运行业务的实体,对虚拟机的可靠运行和故障检测提出了较高的要求,需要检测是内核态故障,还是用户态故障,并记录故障log(日志)。
QEMU是一套由法布里斯·贝拉编写的以GPL许可证分发源码的模拟处理器,在GNU/Linux平台上使用广泛。目前,QEMU启动的虚拟机任务进程作为host linux的一个用户进程,一般只能检测QEMU进程是否异常退出或处于僵尸进程状态,无法判断虚拟机内核状态是否异常,而且不能及时记录异常日志,重启恢复系统,这样就会造成业务中断,带来致命的电信设备宕机故障。
发明内容
本发明的目的是为了克服上述背景技术的不足,提供一种虚拟机的故障检测恢复方法及系统,能够可靠地检测虚拟机的内核和用户态故障,实现虚拟机的内核和用户态故障日志收集及故障自动恢复。
本发明提供一种虚拟机的故障检测恢复方法,包括以下步骤:
启动虚拟机时,虚拟看门狗;
虚拟机启动后,创建高精度定时器,并启动高精度定时器;
创建内核监控线程和用户态监控线程,内核监控线程进行基于netlink的内核故障心跳检测,用户态监控线程进行用户态喂狗检测;
内核监控线程检测到心跳异常时,用户态监控线程关闭看门狗,记录内核故障信息日志;用户态监控线程再打开看门狗,如果用户态喂狗异常超过预设的喂狗异常时间,则记录用户态故障信息日志,看门狗触发系统故障复位重启。
在上述技术方案的基础上,所述创建内核监控线程和用户态监控线程以后,还包括以下步骤:创建Linux文件系统的内核状态交互查询接口文件,作为虚拟机用户态和内核态的交互查询文件。
在上述技术方案的基础上,所述内核监控线程按照高精度定时器配置的周期进行基于netlink的内核故障心跳检测,用户态监控线程按照高精度定时器配置的周期进行用户态喂狗检测。
在上述技术方案的基础上,所述高精度定时器配置内核故障心跳检测的周期为20ms。
在上述技术方案的基础上,所述内核监控线程检测到心跳异常时,用户态监控线程关闭看门狗两个喂狗周期,提前收集内核故障信息日志。
本发明还提供一种虚拟机的故障检测恢复系统,包括看门狗虚拟单元、高精度定时器创建单元、监控线程创建单元、故障日志收集单元,其中:
看门狗虚拟单元用于:启动虚拟机时,虚拟看门狗;
高精度定时器创建单元用于:虚拟机启动后,创建高精度定时器,并启动高精度定时器;
监控线程创建单元用于:创建内核监控线程和用户态监控线程,内核监控线程进行基于netlink的内核故障心跳检测,用户态监控线程进行用户态喂狗检测;
内核监控线程检测到心跳异常时,用户态监控线程关闭看门狗,故障日志收集单元记录内核故障信息日志;用户态监控线程再打开看门狗,如果用户态喂狗异常超过预设的喂狗异常时间,故障日志收集单元记录用户态故障信息日志,看门狗触发系统故障复位重启。
在上述技术方案的基础上,该系统还包括交互查询文件创建单元,监控线程创建单元创建内核监控线程和用户态监控线程以后,交互查询文件创建单元创建Linux文件系统的内核状态交互查询接口文件,作为虚拟机用户态和内核态的交互查询文件。
在上述技术方案的基础上,所述内核监控线程按照高精度定时器配置的周期进行基于netlink的内核故障心跳检测,用户态监控线程按照高精度定时器配置的周期进行用户态喂狗检测。
在上述技术方案的基础上,所述高精度定时器配置内核故障心跳检测的周期为20ms。
在上述技术方案的基础上,所述内核监控线程检测到心跳异常时,用户态监控线程关闭看门狗两个喂狗周期,故障日志收集单元提前收集内核故障信息日志。
与现有技术相比,本发明的优点如下:
(1)本发明通过linux内核和用户态双通道检测手段,实现虚拟机故障的可靠检测和自动恢复,综合基于netlink的内核态和用户态通信心跳技术、基于虚拟看门狗的QEMU虚拟化用户态喂狗技术、内核态和用户态定时器技术、日志记录技术,形成一个自动化的故障检测和日志记录方法,基于双通道的虚拟机故障检测技术,可以更可靠地检测虚拟机的内核和用户态故障,并增加虚拟机的内核和用户态故障日志收集及故障自动恢复功能。用户态和内核态的双重保护,确保虚拟机故障的可靠检测和复位。
(2)高精度定时器配置内核故障心跳检测的周期为20ms,定时器的精度非常高,可以满足高精度虚拟机监控需求,并且可以通过/proc/kernel/parameter参数进行动态调整。内核高精度定时器调度开销小,执行可靠。
(3)基于netlink的内核和用户通信技术,系统开销小,通信可靠。
(4)内核监控模块可以添加各种参数,对监控属性进行控制,方便灵活,通用性强。由于有内核态监控模块,可以获取所有用户态进程和操作系统堆栈信息,并通过标准的socket(套接字)接口发送到用户态监控线程,不仅可以进行内核态心跳检测,还可以作为虚拟机故障诊断模块,动态扩展功能。
(5)虚拟机提供高效的状态查询文件接口,供用户动态查询内核态和用户态的状态,提高系统的易用性。
(6)本发明可以记录不同的复位原因到日志文件,方便定位虚拟机故障复位原因,可以满足虚拟机内核或用户态异常情况下的故障检测和复位需求,提高了虚拟机linux系统的可维护性和可靠性。
(7)本发明为虚拟机增加了虚拟看门狗芯片功能,提高了虚拟机故障后自动恢复功能,相比硬件看门狗芯片方案,有效降低了成本。
(8)虚拟机内核态和用户态心跳周期参数可以通过内核模块动态配置,用户程序通过查询proc文件系统实时查询,增强了程序的通用性和可移植性。
(9)内核监控线程检测到心跳异常时,用户态监控线程关闭看门狗两个喂狗周期,从而可以提前收集内核故障信息日志,避免了看门狗喂狗异常导致的系统突然重启,没有收集到日志的问题。
附图说明
图1是本发明实施例中虚拟机的故障检测恢复方法的流程图。
图2是本发明实施例中内核监控线程进行基于netlink的内核故障心跳检测的流程图。
图3是本发明实施例中通过控制虚拟看门狗工作并保存内核log信息的流程图。
图4是本发明实施例中虚拟看门狗的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述。
实施例1
参见图1所示,本发明实施例1提供一种虚拟机的故障检测恢复方法,包括以下步骤:
S1:QEMU模拟器启动虚拟机时,增加--watchdog i6300esb参数,虚拟一个看门狗芯片intel 6300esb;
S2:虚拟机启动后,虚拟机的Linux文件系统监控程序启动脚本/etc/rc.local(Linux的启动程序),自动加载内核监控模块kernelnetlink.ko,该内核监控模块创建高精度定时器,并启动高精度定时器;
由于有内核态监控模块,可以获取所有用户态进程和操作系统堆栈信息,并通过标准的socket(套接字)接口发送到用户态监控线程,不仅可以进行内核态心跳检测,还可以作为虚拟机故障诊断模块,动态扩展功能。
启动虚拟机故障检测程序,虚拟机故障检测程序创建内核监控线程和用户态监控线程,内核监控线程按照高精度定时器配置的周期进行基于netlink的内核故障心跳检测,netlink套接字是用以实现用户进程与内核进程通信的一种特殊的进程间通信;用户态监控线程按照高精度定时器配置的周期进行用户态喂狗检测;
S3:内核监控线程进行内核态netlink心跳通信,高精度定时器配置内核故障心跳检测的周期为20ms;用户态监控线程进行用户态软件喂狗操作,高精度定时器配置用户态软件喂狗检测的周期为10s。内核监控线程检测到心跳异常时,用户态监控线程关闭看门狗,记录内核故障信息日志;再打开看门狗,如果用户态喂狗异常超过预设的喂狗异常时间,例如:3分钟,则记录用户态故障信息日志,看门狗触发系统故障复位重启。
本发明实施例在虚拟机启动的时候,增加虚拟看门狗功能,虚拟机内核配置好看门狗驱动支持,虚拟机启动后,通过启动脚本自动加载内核监控模块,内核监控模块启动高精度定时器,同时启动虚拟机故障检测程序,创建内核监控线程、用户态监控线程,内核监控线程进行内核的监控,用户态监控线程进行用户态的监控,同时进行故障日志记录工作。高精度定时器配置内核故障心跳检测的周期为20ms,定时器的精度非常高,可以满足高精度虚拟机监控需求,并且可以通过/proc/kernel/parameter参数进行动态调整。
若虚拟机发生故障,不管是内核故障还是用户态故障,都可以被及时的检测到,并进行故障信息记录,故障检测到3分钟后,会自动进行故障重启。
实施例2
在实施例1的基础上,高精度定时器的心跳时间默认配置为20ms,创建内核监控线程和用户态监控线程以后,还可以创建Linux文件系统的内核状态交互查询接口文件,文件名为/proc/kernel/status,作为虚拟机用户态和内核态的交互查询文件。
内核监控线程检测到心跳异常时,用户态监控线程关闭看门狗两个喂狗周期,从而可以提前收集内核故障信息日志,避免了看门狗喂狗异常导致的系统突然重启,没有收集到日志的问题。
当内核心跳发生故障的时候,停止看门狗功能,记录内核故障log(日志);再启用看门狗进行用户态软件喂狗,当用户态喂狗异常超过3分钟的时候,记录用户态故障日志,看门狗触发系统故障复位重启。
本发明实施例通过增加并加载内核监控模块,启动一个内核高精度定时器,增加内核态故障检测和保护;增加一个用户态看门狗故障检测和保护,同时增加两种故障复位原因到日志文件供查询。通过netlink技术和用户态建立心跳,检测内核态的状态,并可以记录内核态的故障日志,同时进行用户态的看门狗喂狗监控,可以监控用户态的故障并记录log,同时可以在故障发生3分钟后,自动重启系统。当虚拟机内核态或用户态出现故障时,都可以及时检测故障和记录日志,并进行故障复位,提高了虚拟机故障检测的可靠性和可维护管理能力。
实施例3
在实施例1的基础上,参见图2所示,内核监控线程进行基于netlink的内核故障心跳检测,具体步骤如下:
S101、虚拟机启动后,虚拟机加载内核态模块kernelnetlink.ko;
S102、初始化内核高精度定时器;
S103、写入文件/proc/kernel/parameter(内核心跳参数proc文件),定时器周期为20ms;
S104、绑定并监听netlink通道;
S105、按照定时器设定的周期,每隔20ms向用户态发送心跳;
S106、如果内核心跳异常,转到步骤S107;否则返回步骤S106;
S107、记录内核异常到/proc/kernel/status(内核异常状态proc文件)日志文件,转到步骤S108;
S108、延时10秒后,返回到步骤S105,继续进行周期性发送心跳。
若虚拟机发生故障,例如内核态异常,会自动记录内核态故障到日志文件,由于kernelnetlink.ko工作在内核态,可以实时的获取内核状态信息并通过netlink高速通道,通知到用户态程序。
实施例4
在实施例1的基础上,参见图3所示,通过控制虚拟看门狗工作并保存内核log信息,具体包括以下步骤:
S201、虚拟机启动后,systemwatch启动内核心跳检测线程;
S202、读取文件/proc/kernel/parameter,获取心跳周期20ms;
S203、和内核态建立netlink连接;
S204、判断内核态建立netlink连接是否成功,如果连接成功,转到步骤S205;否则返回步骤S204;
S205、判断内核态心跳是否异常,如果异常,转到步骤S206;否则返回步骤S205;
S206、如果内核态心跳异常,则关闭虚拟看门狗,转到步骤S207;
S207、保存内核log及/proc/kernel下的log信息,转到步骤S208;
S208、打开看门狗,用户态继续进行喂狗操作,转到步骤S209;
S209、延时20s后,返回到步骤S205,继续进行心跳检测。
若虚拟机监控线程没有检测到心跳,会优先去关闭看门狗,避免心跳突然复位,同时记录内核相关log,完成后,再打开看门狗进行用户态喂狗。延时20S后,也就是两个喂狗周期后,继续进行周期心跳检测。
实施例5
在实施例1的基础上,参见图4所示,虚拟看门狗,同时进行用户态喂狗,检测喂狗中断时间达到阈值后停止喂狗,触发系统重启,从而避免虚拟机长时间挂死,实现故障自动恢复,具体包括以下步骤:
S301、QEMU模拟器启动虚拟机,增加—watchdog i6300esb参数,配置虚拟机看门狗;
S302、systemwatch用户态喂狗线程进行10S周期喂狗操作;
S303、看门狗芯片检测停止喂狗是否超过3分钟,如果停止喂狗超过3分钟,转到步骤S304;否则返回步骤S303;
S304、看门狗使系统重启。
通过虚拟化看门狗技术,可以实现类似硬件看门狗芯片方案一样的系统故障恢复功能,节省了成本,提高了虚拟机的可靠性。
实施例6
本发明实施例6提供一种虚拟机的故障检测恢复系统,包括看门狗虚拟单元、高精度定时器创建单元、监控线程创建单元、故障日志收集单元,其中:
看门狗虚拟单元用于:启动虚拟机时,虚拟看门狗;
高精度定时器创建单元用于:虚拟机启动后,创建高精度定时器,并启动高精度定时器;
监控线程创建单元用于:创建内核监控线程和用户态监控线程,内核监控线程按照高精度定时器配置的周期进行基于netlink的内核故障心跳检测,用户态监控线程按照高精度定时器配置的周期进行用户态喂狗检测;
内核监控线程检测到心跳异常时,用户态监控线程关闭看门狗,故障日志收集单元记录内核故障信息日志;用户态监控线程再打开看门狗,如果用户态喂狗异常超过预设的喂狗异常时间,故障日志收集单元记录用户态故障信息日志,看门狗触发系统故障复位重启。
本发明实施例在虚拟机启动的时候,增加虚拟看门狗功能,虚拟机内核配置好看门狗驱动支持,虚拟机启动后,创建高精度定时器,并启动高精度定时器;创建内核监控线程、用户态监控线程,内核监控线程进行内核的监控,用户态监控线程进行用户态的监控,同时进行故障日志记录工作。
若虚拟机发生故障,不管是内核故障还是用户态故障,都可以被及时的检测到,并进行故障信息记录,故障检测到预设的喂狗异常时间后,会自动进行故障重启。
实施例7
本发明实施例7提供一种虚拟机的故障检测恢复系统,包括看门狗虚拟单元、高精度定时器创建单元、监控线程创建单元、交互查询文件创建单元、故障日志收集单元,其中:
看门狗虚拟单元用于:启动虚拟机时,虚拟看门狗;
高精度定时器创建单元用于:虚拟机启动后,创建高精度定时器,并启动高精度定时器;
监控线程创建单元用于:创建内核监控线程和用户态监控线程,内核监控线程按照高精度定时器配置的周期进行基于netlink的内核故障心跳检测,用户态监控线程按照高精度定时器配置的周期进行用户态喂狗检测;
交互查询文件创建单元用于:监控线程创建单元创建内核监控线程和用户态监控线程以后,交互查询文件创建单元创建Linux文件系统的内核状态交互查询接口文件,作为虚拟机用户态和内核态的交互查询文件。
内核监控线程检测到心跳异常时,用户态监控线程关闭看门狗,故障日志收集单元记录内核故障信息日志;用户态监控线程再打开看门狗,如果用户态喂狗异常超过预设的喂狗异常时间,故障日志收集单元记录用户态故障信息日志,看门狗触发系统故障复位重启。
本发明实施例通过启动一个内核高精度定时器,增加内核态故障检测和保护;增加一个用户态看门狗故障检测和保护,同时增加两种故障复位原因到日志文件供查询。通过netlink技术和用户态建立心跳,检测内核态的状态,并可以记录内核态的故障日志,同时进行用户态的看门狗喂狗监控,可以监控用户态的故障并记录log,故障检测到预设的喂狗异常时间后,自动重启系统。当虚拟机内核或用户态出现故障时,都可以及时检测故障和记录日志,并进行故障复位,提高了虚拟机故障检测的可靠性和可维护管理能力。
实施例8
本发明实施例8提供一种虚拟机的故障检测恢复系统,包括看门狗虚拟单元、高精度定时器创建单元、监控线程创建单元、交互查询文件创建单元、故障日志收集单元,其中:
看门狗虚拟单元用于:启动虚拟机时,虚拟看门狗;
高精度定时器创建单元用于:虚拟机启动后,创建高精度定时器,并启动高精度定时器;
监控线程创建单元用于:创建内核监控线程和用户态监控线程,内核监控线程按照高精度定时器配置的周期20ms,进行基于netlink的内核故障心跳检测,用户态监控线程按照高精度定时器配置的周期10s,进行用户态喂狗检测;
交互查询文件创建单元用于:监控线程创建单元创建内核监控线程和用户态监控线程以后,交互查询文件创建单元创建Linux文件系统的内核状态交互查询接口文件,作为虚拟机用户态和内核态的交互查询文件。
内核监控线程检测到心跳异常时,用户态监控线程关闭看门狗两个喂狗周期,故障日志收集单元可以提前收集内核故障信息日志,避免了看门狗喂狗异常导致的系统突然重启,没有收集到日志的问题。用户态监控线程再打开看门狗,如果用户态喂狗异常超过预设的喂狗异常时间3分钟,故障日志收集单元记录用户态故障信息日志,看门狗触发系统故障复位重启。
本发明实施例通过启动一个内核高精度定时器,增加内核态故障检测和保护;增加一个用户态看门狗故障检测和保护,同时增加两种故障复位原因到日志文件供查询。通过netlink技术和用户态建立心跳,检测内核态的状态,并可以记录内核态的故障日志,同时进行用户态的看门狗喂狗监控,可以监控用户态的故障并记录log,同时可以在故障发生3分钟后,自动重启系统。当虚拟机内核态或用户态出现故障时,都可以及时检测故障和记录日志,并进行故障复位,提高了虚拟机故障检测的可靠性和可维护管理能力。
本领域的技术人员可以对本发明实施例进行各种修改和变型,倘若这些修改和变型在本发明权利要求及其等同技术的范围之内,则这些修改和变型也在本发明的保护范围之内。
说明书中未详细描述的内容为本领域技术人员公知的现有技术。

Claims (6)

1.一种虚拟机的故障检测恢复方法,其特征在于,包括以下步骤:
启动虚拟机时,虚拟一个看门狗;
虚拟机启动后,虚拟机的Linux文件系统监控程序启动脚本,自动加载内核监控模块,所述内核监控模块创建高精度定时器,并启动高精度定时器;
创建内核监控线程和用户态监控线程,内核监控线程按照高精度定时器配置的周期进行基于netlink的内核故障心跳检测,用户态监控线程按照高精度定时器配置的周期进行用户态喂狗检测;
内核监控线程检测到心跳异常时,用户态监控线程关闭看门狗,记录内核故障信息日志;用户态监控线程再打开看门狗,如果用户态喂狗异常超过预设的喂狗异常时间,则记录用户态故障信息日志,看门狗触发系统故障复位重启;
所述内核监控线程检测到心跳异常时,用户态监控线程关闭看门狗两个喂狗周期,提前收集内核故障信息日志。
2.如权利要求1所述的虚拟机的故障检测恢复方法,其特征在于:所述创建内核监控线程和用户态监控线程以后,还包括以下步骤:创建Linux文件系统的内核状态交互查询接口文件,作为虚拟机用户态和内核态的交互查询文件。
3.如权利要求1所述的虚拟机的故障检测恢复方法,其特征在于:所述高精度定时器配置内核故障心跳检测的周期为20ms。
4.一种虚拟机的故障检测恢复系统,其特征在于,包括看门狗虚拟单元、高精度定时器创建单元、监控线程创建单元、故障日志收集单元,其中:
看门狗虚拟单元用于:启动虚拟机时,虚拟一个看门狗;
高精度定时器创建单元用于:虚拟机启动后,虚拟机的Linux文件系统监控程序启动脚本,自动加载内核监控模块,所述内核监控模块创建高精度定时器,并启动高精度定时器;
监控线程创建单元用于:创建内核监控线程和用户态监控线程,内核监控线程按照高精度定时器配置的周期进行基于netlink的内核故障心跳检测,用户态监控线程按照高精度定时器配置的周期进行用户态喂狗检测;
内核监控线程检测到心跳异常时,用户态监控线程关闭看门狗,故障日志收集单元记录内核故障信息日志;用户态监控线程再打开看门狗,如果用户态喂狗异常超过预设的喂狗异常时间,故障日志收集单元记录用户态故障信息日志,看门狗触发系统故障复位重启;
所述内核监控线程检测到心跳异常时,用户态监控线程关闭看门狗两个喂狗周期,故障日志收集单元提前收集内核故障信息日志。
5.如权利要求4所述的虚拟机的故障检测恢复系统,其特征在于:该系统还包括交互查询文件创建单元,监控线程创建单元创建内核监控线程和用户态监控线程以后,交互查询文件创建单元创建Linux文件系统的内核状态交互查询接口文件,作为虚拟机用户态和内核态的交互查询文件。
6.如权利要求4所述的虚拟机的故障检测恢复系统,其特征在于:所述高精度定时器配置内核故障心跳检测的周期为20ms。
CN201810432549.6A 2018-05-08 2018-05-08 虚拟机的故障检测恢复方法及系统 Active CN108762886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810432549.6A CN108762886B (zh) 2018-05-08 2018-05-08 虚拟机的故障检测恢复方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810432549.6A CN108762886B (zh) 2018-05-08 2018-05-08 虚拟机的故障检测恢复方法及系统

Publications (2)

Publication Number Publication Date
CN108762886A CN108762886A (zh) 2018-11-06
CN108762886B true CN108762886B (zh) 2020-12-01

Family

ID=64009493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810432549.6A Active CN108762886B (zh) 2018-05-08 2018-05-08 虚拟机的故障检测恢复方法及系统

Country Status (1)

Country Link
CN (1) CN108762886B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831520A (zh) * 2019-04-17 2020-10-27 烽火通信科技股份有限公司 用于Linux操作系统的故障诊断方法及系统
CN110262870A (zh) * 2019-05-15 2019-09-20 平安科技(深圳)有限公司 利用dump文件定位异常的方法、装置、计算机设备及存储介质
CN110806921B (zh) * 2019-09-30 2023-02-07 烽火通信科技股份有限公司 一种ovs异常告警监控系统及方法
CN114915602B (zh) * 2021-01-29 2024-01-26 中移(苏州)软件技术有限公司 虚拟交换机中流表的处理方法、处理装置及终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980171A (zh) * 2010-10-08 2011-02-23 广东威创视讯科技股份有限公司 一种软件系统故障自恢复方法及其使用的软件看门狗系统
CN103034552A (zh) * 2012-12-11 2013-04-10 太仓市同维电子有限公司 一种在软件系统中实现软件看门狗的方法
CN103793288A (zh) * 2014-02-14 2014-05-14 北京邮电大学 一种软件看门狗系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5241450B2 (ja) * 2008-11-27 2013-07-17 ルネサスエレクトロニクス株式会社 半導体装置及びその異常検出方法
US8756453B2 (en) * 2011-11-15 2014-06-17 International Business Machines Corporation Communication system with diagnostic capabilities
CN104199753B (zh) * 2014-09-04 2018-05-29 中标软件有限公司 一种虚拟机应用服务故障恢复系统及其故障恢复方法
CN105224411B (zh) * 2015-09-24 2018-05-15 成都广达新网科技股份有限公司 一种避免cpu被耗尽导致看门狗重启的方法
CN105389249B (zh) * 2015-10-29 2019-04-16 Tcl集团股份有限公司 异常日志生成配置方法及异常日志生成配置装置
CN105760276B (zh) * 2016-02-19 2018-05-29 烽火通信科技股份有限公司 提高reboot命令重启可靠性并增加复位日志的方法
CN106445712A (zh) * 2016-08-31 2017-02-22 上海澳润信息科技有限公司 一种基于消息监控的软件看门狗实现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980171A (zh) * 2010-10-08 2011-02-23 广东威创视讯科技股份有限公司 一种软件系统故障自恢复方法及其使用的软件看门狗系统
CN103034552A (zh) * 2012-12-11 2013-04-10 太仓市同维电子有限公司 一种在软件系统中实现软件看门狗的方法
CN103793288A (zh) * 2014-02-14 2014-05-14 北京邮电大学 一种软件看门狗系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"To be and not to be at the same time: Hidden watchdog timers";Iaakov Exman;《2010 IEEE 26-th Convention of Electrical and Electronics Engineers in Israel》;20101213;第897-900页 *
"设备驱动可靠性设计与测试方法研究";刘洋;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315;第2016年卷(第3期);I138-743 *

Also Published As

Publication number Publication date
CN108762886A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108762886B (zh) 虚拟机的故障检测恢复方法及系统
CN102761439B (zh) Pon接入系统中基于看门狗的异常检测记录装置及方法
US10545807B2 (en) Method and system for acquiring parameter sets at a preset time interval and matching parameters to obtain a fault scenario type
CN106959866B (zh) 一种日志收集客户端及其升级方法
EP3121726B1 (en) Fault processing method, related device and computer
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
JP2001101033A (ja) オペレーティングシステム及びアプリケーションプログラムの障害監視方法
CN105204979A (zh) 安卓日志的记录方法及移动终端
CN102880527B (zh) 一种基板管理控制器的数据恢复方法
CN102141947A (zh) 一种对采用嵌入式操作系统的计算机应用系统中异常任务的处理方法及系统
CN110704228B (zh) 一种固态硬盘异常处理方法及系统
CN104714863A (zh) 一种基于Linux操作系统的系统宕机后Raid卡日志完整保存的方法
WO2017148271A1 (zh) 一种Linux系统复位处理方法、装置及计算机存储介质
CN107528705B (zh) 故障处理方法及装置
CN101706752B (zh) 一种软件错误现场定位的方法及装置
CN105760276B (zh) 提高reboot命令重启可靠性并增加复位日志的方法
CN110333964B (zh) 异常日志处理方法及装置、电子设备、存储介质
CN107133130B (zh) 计算机运行监测方法和装置
CN113742120B (zh) 一种kdump触发方法、系统、设备以及介质
CN112068980B (zh) 采样cpu挂死前信息的方法和装置、设备和存储介质
CN112131097A (zh) 一种调试信息动态获取方法及系统
CN114218004A (zh) 基于BMC的Kubernetes集群物理节点的故障处理方法和系统
CN113867815A (zh) 服务器挂起监测和自动重启方法以及应用其的服务器
CN112035295A (zh) 一种虚拟机崩溃事件处理方法、系统、终端及存储介质
CN111752736A (zh) 一种Linux系统宕机信息的远程收集方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant