CN114706708B - 一种用于Linux操作系统的故障分析方法及系统 - Google Patents

一种用于Linux操作系统的故障分析方法及系统 Download PDF

Info

Publication number
CN114706708B
CN114706708B CN202210566397.5A CN202210566397A CN114706708B CN 114706708 B CN114706708 B CN 114706708B CN 202210566397 A CN202210566397 A CN 202210566397A CN 114706708 B CN114706708 B CN 114706708B
Authority
CN
China
Prior art keywords
application
kernel
operating system
fault
crash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210566397.5A
Other languages
English (en)
Other versions
CN114706708A (zh
Inventor
庄小凡
丁文龙
张琳
郑红云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tuolinsi Software Co ltd
Original Assignee
Beijing Tuolinsi Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tuolinsi Software Co ltd filed Critical Beijing Tuolinsi Software Co ltd
Priority to CN202210566397.5A priority Critical patent/CN114706708B/zh
Publication of CN114706708A publication Critical patent/CN114706708A/zh
Application granted granted Critical
Publication of CN114706708B publication Critical patent/CN114706708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种用于Linux操作系统的故障分析方法及系统。所述方法包括:配置Linux操作系统从内核;启动Linux操作系统主内核,从内核监测主内核启动情况若从内核监测到主内核出现系统崩溃,则根据从内核存储日志确定系统崩溃类型;从内核依据系统崩溃类型设置系统故障恢复策略,重启主内核,主内核依据系统故障恢复策略进行主内核启动;主内核正常启动后,监测应用层面运行情况,若监测到应用层出现应用崩溃,则获取Linux系统运行数据,确定应用故障类型;主内核依据应用故障类型设置应用故障恢复策略,重启应用,依据应用故障恢复策略进行应用重启。采用本申请技术方案,能够准确识别Linux操作系统故障和应用程序故障,保证Linux操作系统的安全运行。

Description

一种用于Linux操作系统的故障分析方法及系统
技术领域
本发明涉及计算机领域,尤其涉及一种用于Linux操作系统的故障分析方法及系统。
背景技术
Linux,全称GNU/Linux,是一种免费使用和自由传播的类UNIX操作系统,其内核由林纳斯·本纳第克特·托瓦兹于1991年10月5日首次发布,它主要受到Minix和Unix思想的启发,是一个基于POSIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的Unix工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。Linux有上百种不同的发行版,如基于社区开发的debian、archLinux,和基于商业开发的Red Hat Enterprise Linux、SUSE、Oracle Linux等。
现有的Linux操作系统相对比较复杂,产生故障的原因有很多,操作系统信息数量巨大,而且在内核启动时如果有故障发生则不能正常启动,需要技术人员手动查看操作系统信息进行分析,找到相应的故障信息,解决出现的故障问题。因此本发明设计了一种用于Linux操作系统的故障分析方法。
发明内容
本发明提供了一种用于Linux操作系统的故障分析方法,包括:
配置Linux操作系统从内核;
启动Linux操作系统主内核,从内核监测主内核启动情况;
若操作系统从内核监测到主内核出现系统崩溃,则根据从内核存储日志中记录的当前内存数据、调用堆栈信息和寄存器信息,确定系统崩溃类型;
操作系统从内核依据系统崩溃类型设置系统故障恢复策略,重启Linux操作系统主内核,Linux操作系统主内核依据系统故障恢复策略进行主内核启动;
操作系统主内核正常启动后,监测应用层面运行情况,若监测到应用层出现应用崩溃,则获取应用数据确定应用故障类型;
操作系统主内核依据应用故障类型设置应用故障恢复策略,重启应用,依据应用故障恢复策略进行应用重启。
如上所述的一种用于Linux操作系统的故障分析方法,其中,开启设备后立即配置操作系统从内核,由从内核进行主内核的启动监控,并且由操作系统从内核进行主内核启动数据的存储。
如上所述的一种用于Linux操作系统的故障分析方法,其中,操作系统从内核根据从内核存储日志中记录的当前内存数据、调用堆栈信息和寄存器信息,确定系统崩溃类型,具体包括如下子步骤:
收集操作系统主内核出现系统崩溃时的故障数据和故障类型,故障数据包括内存数据、调用堆栈信息和寄存器信息,提取系统崩溃特征,得到特征向量集;
对特征向量集中的每个系统崩溃特征进行特征权重计算,得到崩溃特征文本向量集,将崩溃特征文本向量集输入系统崩溃分类模型,训练系统崩溃分类模型得到不同的子分类模型,分别利用各个子分类模型对崩溃特征文本向量集进行分类,通过分类结果估计得到各个子分类模型的权重的集合;
寻找权重的集合中的每个权重对应的最优值,通过各个子分类模型和其对应的权重的最优值的组合确定系统崩溃类型。
如上所述的一种用于Linux操作系统的故障分析方法,其中,系统崩溃类型包括硬件故障和操作系统故障,硬件故障对应设置的故障恢复策略为更换硬件设备,操作系统故障包括文件系统配置不当、非法关机、Linux内核崩溃、系统引导程序出现问题,则设置对应的故障恢复策略为Linux启动时自动分析和检查系统分区,如果发现文件系统有简单的错误,则自动修复,如果文件系统破坏比较严重,则进入用户模式提示用户手动恢复。
如上所述的一种用于Linux操作系统的故障分析方法,其中,应用数据包括应用所占CPU信息和内存信息、系统版本、应用版本、应用权限、应用存储数据;获取应用数据确定应用故障类型,具体包括:
检查应用所占CPU信息和内存信息,若CPU信息或内存信息过低,则确定发生应用闪退故障;
检查系统版本和应用版本,若应用版本低不能兼容系统版本,则确定发生应用版本错误故障;
检查应用权限,若应用为限制使用权限,则确定发生应用权限故障;
检查应用存储数据,若应用数据被删除,则确定发生应用数据故障。
本发明还提供一种用于Linux操作系统的故障分析系统,包括:
操作系统故障分析子系统,用于配置Linux操作系统从内核;启动Linux操作系统主内核,从内核监测主内核启动情况;若操作系统从内核监测到主内核出现系统崩溃,则根据从内核存储日志中记录的当前内存数据、调用堆栈信息和寄存器信息,确定系统崩溃类型;操作系统从内核依据系统崩溃类型设置系统故障恢复策略,重启Linux操作系统主内核,Linux操作系统主内核依据系统故障恢复策略进行主内核启动;
应用程序故障分析子系统,用于在操作系统主内核正常启动后,监测应用层面运行情况,若监测到应用层出现应用崩溃,则获取应用数据确定应用故障类型;操作系统主内核依据应用故障类型设置应用故障恢复策略,重启应用,依据应用故障恢复策略进行应用重启。
如上所述的一种用于Linux操作系统的故障分析系统,其中,开启设备后立即配置操作系统从内核,由从内核进行主内核的启动监控,并且由操作系统从内核进行主内核启动数据的存储。
如上所述的一种用于Linux操作系统的故障分析系统,其中,操作系统从内核根据从内核存储日志中记录的当前内存数据、调用堆栈信息和寄存器信息,确定系统崩溃类型,具体包括如下子步骤:
收集操作系统主内核出现系统崩溃时的故障数据和故障类型,故障数据包括内存数据、调用堆栈信息和寄存器信息,提取系统崩溃特征,得到特征向量集;
对特征向量集中的每个系统崩溃特征进行特征权重计算,得到崩溃特征文本向量集,将崩溃特征文本向量集输入系统崩溃分类模型,训练系统崩溃分类模型得到不同的子分类模型,分别利用各个子分类模型对崩溃特征文本向量集进行分类,通过分类结果估计得到各个子分类模型的权重的集合;
寻找权重的集合中的每个权重对应的最优值,通过各个子分类模型和其对应的权重的最优值的组合确定系统崩溃类型。
如上所述的一种用于Linux操作系统的故障分析系统,其中,系统崩溃类型包括硬件故障和操作系统故障,硬件故障对应设置的故障恢复策略为更换硬件设备,操作系统故障包括文件系统配置不当、非法关机、Linux内核崩溃、系统引导程序出现问题,则设置对应的故障恢复策略为Linux启动时自动分析和检查系统分区,如果发现文件系统有简单的错误,则自动修复,如果文件系统破坏比较严重,则进入用户模式提示用户手动恢复。
如上所述的一种用于Linux操作系统的故障分析系统,其中,应用数据包括应用所占CPU信息和内存信息、系统版本、应用版本、应用权限、应用存储数据;获取应用数据确定应用故障类型,具体包括:
检查应用所占CPU信息和内存信息,若CPU信息或内存信息过低,则确定发生应用闪退故障;
检查系统版本和应用版本,若应用版本低不能兼容系统版本,则确定发生应用版本错误故障;
检查应用权限,若应用为限制使用权限,则确定发生应用权限故障;
检查应用存储数据,若应用数据被删除,则确定发生应用数据故障。
本发明实现的有益效果如下:采用本申请技术方案,在主内核启动前先启动从内核,从内核能够保证在主内核发生故障时只需要监测系统运行的数据即可自动检测出故障原因并自动进行故障修复,使得Linux主内核能够自动正常启动,而且由于系统运行数据的数值很多与故障类型并非标准的对应关系(例如并非A数值对应A’故障),所以通过人工智能方式能够精确的估算出故障类型,能够精准进行故障修复,保证Linux操作系统的安全运行。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种用于Linux操作系统的故障分析方法流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,本发明实施例一提供一种用于Linux操作系统的故障分析方法,包括:
步骤110、配置操作系统从内核,启动Linux操作系统主内核,从内核监测主内核启动情况;
本申请实施例中,为防止Linux操作系统在启动过程中崩溃,在开启设备后,立即配置操作系统从内核,由操作系统从内核进行主内核的启动监控,并且由操作系统从内核进行主内核启动数据的存储。
步骤120、若操作系统从内核监测到主内核出现系统崩溃,则根据从内核存储日志中记录的当前内存数据、调用堆栈信息和寄存器信息,确定系统崩溃类型;
Linux操作系统的崩溃包括系统崩溃和应用崩溃,其中,系统崩溃发生在主内核启动之时,由操作系统从内核进行监控处理,应用崩溃发生在主内核启动之后,由操作系统主内核进行监控处理;
若操作系统主内核启动失败发生crash事件,从内核监控到主内核出现系统性崩溃,则在下一次上电时根据内核中获取的对应数据能够分析确定上一次主内核启动失败的原因,并作出相应的解决策略;若操作系统主内核启动成功,则由主内核对从内核进行回收。
具体地,操作系统从内核根据从内核存储日志中记录的当前内存数据、调用堆栈信息和寄存器信息,确定系统崩溃类型,具体包括如下子步骤:
Step1、收集操作系统主内核出现系统崩溃时的故障数据和故障类型,故障数据包括内存数据、调用堆栈信息和寄存器信息,提取系统崩溃特征,得到特征向量集;
具体地,构建的特征崩溃向量集为:
Figure 664456DEST_PATH_IMAGE001
,其中,
Figure 722541DEST_PATH_IMAGE002
为操作系统主内核发生崩溃的故障类型,
Figure 502279DEST_PATH_IMAGE003
为操作系统主内核发生崩溃时的内存数据,
Figure 163067DEST_PATH_IMAGE004
为操作系统主内核发生崩溃时的调用堆栈信息,
Figure 429969DEST_PATH_IMAGE005
为操作系统主内核发生崩溃时的寄存器信息,n为收集的故障数据总数。
Step2、对特征向量集中的每个系统崩溃特征进行特征权重计算,得到崩溃特征文本向量集,将崩溃特征文本向量集输入系统崩溃分类模型,训练系统崩溃分类模型得到不同的子分类模型,分别利用各个子分类模型对特征向量集进行分类,通过分类结果估计得到各个子分类模型的权重的集合;
具体地,利用公式
Figure 721273DEST_PATH_IMAGE006
进行特征权重计算,得到崩溃特征文本向量集,其中,
Figure 988307DEST_PATH_IMAGE007
为内存数据对系统崩溃的影响权重、
Figure 452786DEST_PATH_IMAGE008
为条用堆栈信息对系统崩溃的影响权重、
Figure 324927DEST_PATH_IMAGE009
为寄存器信息对系统崩溃的影响权重;将崩溃特征文本向量集输入分类模型,利用系统崩溃特征向量集训练子分类模型
Figure 583870DEST_PATH_IMAGE010
,例如LDA分类模型;再利用子分类模型
Figure 541462DEST_PATH_IMAGE010
对崩溃特征文本向量集进行分类,得到分类结果,通过分类结果采用公式
Figure 544053DEST_PATH_IMAGE011
估计子分类模型的权重的集合
Figure 67438DEST_PATH_IMAGE012
Step3、寻找权重的集合中的每个权重对应的最优值,通过各个子分类模型和其对应的权重的最优值的组合确定系统崩溃类型;
通过粒子群优化算法计算各个子分类模型
Figure 451277DEST_PATH_IMAGE010
的权重的集合
Figure 958482DEST_PATH_IMAGE012
中,每个权重对应的最优值;通过各个子分类模型
Figure 436868DEST_PATH_IMAGE013
和其对应的权重的最优值
Figure 345918DEST_PATH_IMAGE012
组合确定故障类型
Figure 884347DEST_PATH_IMAGE014
,得到系统崩溃类型。
步骤130、操作系统从内核依据系统崩溃类型设置系统故障恢复策略,重启Linux操作系统主内核,Linux操作系统主内核依据系统故障恢复策略进行主内核启动;
在操作系统主内核的历史启动情况中,操作系统从内核存储有不同系统崩溃类型对应的故障恢复策略,在步骤120确定本次系统崩溃类型后,查找对应的故障恢复策略,设置使用该故障恢复策略进行配置,在下次重启Linux操作系统主内核依据故障恢复策略进行启动。
例如,系统崩溃类型主要包括硬件故障和操作系统故障,硬件故障对应设置的故障恢复策略为更换硬件设备,操作系统故障包括但不限于文件系统配置不当、非法关机、Linux内核崩溃、系统引导程序出现问题等,例如文件系统中ex3文件系统(具有日志记录功能的日志文件系统)配置不当的故障导致的系统崩溃,则设置对应的故障恢复策略为Linux启动时自动分析和检查系统分区,如果发现文件系统有简单的错误,则自动修复,如果文件系统破坏比较严重,则进入用户模式提示用户手动恢复。
步骤140、操作系统主内核正常启动后,监测应用层面运行情况,若监测到应用层出现应用崩溃,则获取应用数据,确定应用故障类型;
具体地,在操作系统主内核正常启动后,操作系统从内核功能停止,并被主内核回收利用,此时由操作系统主内核进行应用层面的运行监控。
其中,应用数据包括应用所占CPU信息和内存信息、系统版本、应用版本、应用权限、应用存储数据;获取应用数据确定应用故障类型,具体包括:
检查应用所占CPU信息和内存信息,若CPU信息或内存信息过低,则确定发生应用闪退故障;
检查系统版本和应用版本,若应用版本低不能兼容系统版本,则确定发生应用版本错误故障;
检查应用权限,若应用为限制使用权限,则确定发生应用权限故障;
检查应用存储数据,若应用数据被删除,则确定发生应用数据故障。
步骤150、操作系统主内核依据应用故障类型设置应用故障恢复策略,重启应用,依据应用故障恢复策略进行应用重启;
具体地,根据应用故障类型设置的恢复策略包括:回收内存,为其分配足够的CPU和内存,检查网络情况为其分配适宜网络等。
实施例二
本发明实施例二提供一种用于Linux操作系统的故障分析系统,其特征在于,包括:
操作系统故障分析子系统,用于配置Linux操作系统从内核;启动Linux操作系统主内核,从内核监测主内核启动情况;若操作系统从内核监测到主内核出现系统崩溃,则根据从内核存储日志中记录的当前内存数据、调用堆栈信息和寄存器信息,确定系统崩溃类型;操作系统从内核依据系统崩溃类型设置系统故障恢复策略,重启Linux操作系统主内核,Linux操作系统主内核依据系统故障恢复策略进行主内核启动;
应用程序故障分析子系统,用于在操作系统主内核正常启动后,监测应用层面运行情况,若监测到应用层出现应用崩溃,则获取应用数据确定应用故障类型;操作系统主内核依据应用故障类型设置应用故障恢复策略,重启应用,依据应用故障恢复策略进行应用重启。
在Linux设备开启并在启动Linux操作系统主内核之前,先配置操作系统从内核,由操作系统从内核进行主内核的启动监控,并且由操作系统从内核进行主内核启动数据的存储。
操作系统从内核根据从内核存储日志中记录的当前内存数据、调用堆栈信息和寄存器信息,确定系统崩溃类型,具体包括如下子步骤:
收集操作系统主内核出现系统崩溃时的故障数据和故障类型,故障数据包括内存数据、调用堆栈信息和寄存器信息,提取系统崩溃特征,得到特征向量集;
对特征向量集中的每个系统崩溃特征进行特征权重计算,得到崩溃特征文本向量集,将崩溃特征文本向量集输入系统崩溃分类模型,训练系统崩溃分类模型得到不同的子分类模型,分别利用各个子分类模型对崩溃特征文本向量集进行分类,通过分类结果估计得到各个子分类模型的权重的集合;
寻找权重的集合中的每个权重对应的最优值,通过各个子分类模型和其对应的权重的最优值的组合确定系统崩溃类型。
系统崩溃类型包括硬件故障和操作系统故障,硬件故障对应设置的故障恢复策略为更换硬件设备,操作系统故障包括文件系统配置不当、非法关机、Linux内核崩溃、系统引导程序出现问题,则设置对应的故障恢复策略为Linux启动时自动分析和检查系统分区,如果发现文件系统有简单的错误,则自动修复,如果文件系统破坏比较严重,则进入用户模式提示用户手动恢复。
应用数据包括应用所占CPU信息和内存信息、系统版本、应用版本、应用权限、应用存储数据;获取应用数据确定应用故障类型,具体包括:检查应用所占CPU信息和内存信息,若CPU信息或内存信息过低,则确定发生应用闪退故障;检查系统版本和应用版本,若应用版本低不能兼容系统版本,则确定发生应用版本错误故障;检查应用权限,若应用为限制使用权限,则确定发生应用权限故障;检查应用存储数据,若应用数据被删除,则确定发生应用数据故障。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (8)

1.一种用于Linux操作系统的故障分析方法,其特征在于,包括:
配置Linux操作系统从内核;
启动Linux操作系统主内核,从内核监测主内核启动情况;
若操作系统从内核监测到主内核出现系统崩溃,则根据从内核存储日志中记录的当前内存数据、调用堆栈信息和寄存器信息,确定系统崩溃类型;
操作系统从内核依据系统崩溃类型设置系统故障恢复策略,重启Linux操作系统主内核,Linux操作系统主内核依据系统故障恢复策略进行主内核启动;
操作系统主内核正常启动后,监测应用层面运行情况,若监测到应用层出现应用崩溃,则获取应用数据确定应用故障类型;
操作系统主内核依据应用故障类型设置应用故障恢复策略,重启应用,依据应用故障恢复策略进行应用重启;
操作系统从内核根据从内核存储日志中记录的当前内存数据、调用堆栈信息和寄存器信息,确定系统崩溃类型,具体包括如下子步骤:
收集操作系统主内核出现系统崩溃时的故障数据和故障类型,故障数据包括内存数据、调用堆栈信息和寄存器信息,提取系统崩溃特征,得到特征向量集;
对特征向量集中的每个系统崩溃特征进行特征权重计算,得到崩溃特征文本向量集,将崩溃特征文本向量集输入系统崩溃分类模型,训练系统崩溃分类模型得到不同的子分类模型,分别利用各个子分类模型对崩溃特征文本向量集进行分类,通过分类结果估计得到各个子分类模型的权重的集合;
寻找权重的集合中的每个权重对应的最优值,通过各个子分类模型和其对应的权重的最优值的组合确定系统崩溃类型。
2.如权利要求1所述的一种用于Linux操作系统的故障分析方法,其特征在于,开启设备后立即配置操作系统从内核,由从内核进行主内核的启动监控,并且由从内核进行主内核启动数据的存储。
3.如权利要求2所述的一种用于Linux操作系统的故障分析方法,其特征在于,系统崩溃类型包括硬件故障和操作系统故障,硬件故障对应设置的故障恢复策略为更换硬件设备,操作系统故障包括文件系统配置不当、非法关机、Linux内核崩溃、系统引导程序出现问题,操作系统故障对应的故障恢复策略为Linux启动时自动分析和检查系统分区,如果发现文件系统有简单的错误,则自动修复,如果文件系统破坏比较严重,则进入用户模式提示用户手动恢复。
4.如权利要求1所述的一种用于Linux操作系统的故障分析方法,其特征在于,应用数据包括应用所占CPU信息和内存信息、系统版本、应用版本、应用权限、应用存储数据;获取应用数据确定应用故障类型,具体包括:
检查应用所占用的CPU信息和内存信息,若CPU信息或内存信息低于阈值,则确定发生应用闪退故障;
检查系统版本和应用版本,若应用版本低不能兼容系统版本,则确定发生应用版本错误故障;
检查应用权限,若应用为限制使用权限,则确定发生应用权限故障;
检查应用存储数据,若应用存储数据被删除,则确定发生应用存储数据故障。
5.一种用于Linux操作系统的故障分析系统,其特征在于,包括:
操作系统故障分析子系统,用于配置Linux操作系统从内核;启动Linux操作系统主内核,从内核监测主内核启动情况;若操作系统从内核监测到主内核出现系统崩溃,则根据从内核存储日志中记录的当前内存数据、调用堆栈信息和寄存器信息,确定系统崩溃类型;操作系统从内核依据系统崩溃类型设置系统故障恢复策略,重启Linux操作系统主内核,Linux操作系统主内核依据系统故障恢复策略进行主内核启动;
应用程序故障分析子系统,用于在操作系统主内核正常启动后,监测应用层面运行情况,若监测到应用层出现应用崩溃,则获取应用数据确定应用故障类型;操作系统主内核依据应用故障类型设置应用故障恢复策略,重启应用,依据应用故障恢复策略进行应用重启;
操作系统从内核根据从内核存储日志中记录的当前内存数据、调用堆栈信息和寄存器信息,确定系统崩溃类型,具体包括如下子步骤:
收集操作系统主内核出现系统崩溃时的故障数据和故障类型,故障数据包括内存数据、调用堆栈信息和寄存器信息,提取系统崩溃特征,得到特征向量集;
对特征向量集中的每个系统崩溃特征进行特征权重计算,得到崩溃特征文本向量集,将崩溃特征文本向量集输入系统崩溃分类模型,训练系统崩溃分类模型得到不同的子分类模型,分别利用各个子分类模型对崩溃特征文本向量集进行分类,通过分类结果估计得到各个子分类模型的权重的集合;
寻找权重的集合中的每个权重对应的最优值,通过各个子分类模型和其对应的权重的最优值的组合确定系统崩溃类型。
6.如权利要求5所述的一种用于Linux操作系统的故障分析系统,其特征在于,开启设备后立即配置操作系统从内核,由从内核进行主内核的启动监控,并且由操作系统从内核进行主内核启动数据的存储。
7.如权利要求6所述的一种用于Linux操作系统的故障分析系统,其特征在于,系统崩溃类型包括硬件故障和操作系统故障,硬件故障对应设置的故障恢复策略为更换硬件设备,操作系统故障包括文件系统配置不当、非法关机、Linux内核崩溃、系统引导程序出现问题,则设置对应的故障恢复策略为Linux启动时自动分析和检查系统分区,如果发现文件系统有简单的错误,则自动修复,如果文件系统破坏比较严重,则进入用户模式提示用户手动恢复。
8.如权利要求5所述的一种用于Linux操作系统的故障分析系统,其特征在于,应用数据包括应用所占CPU信息和内存信息、系统版本、应用版本、应用权限、应用存储数据;获取应用数据确定应用故障类型,具体包括:
检查应用所占CPU信息和内存信息,若CPU信息或内存信息过低,则确定发生应用闪退故障;
检查系统版本和应用版本,若应用版本低不能兼容系统版本,则确定发生应用版本错误故障;
检查应用权限,若应用为限制使用权限,则确定发生应用权限故障;
检查应用存储数据,若应用数据被删除,则确定发生应用数据故障。
CN202210566397.5A 2022-05-24 2022-05-24 一种用于Linux操作系统的故障分析方法及系统 Active CN114706708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210566397.5A CN114706708B (zh) 2022-05-24 2022-05-24 一种用于Linux操作系统的故障分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210566397.5A CN114706708B (zh) 2022-05-24 2022-05-24 一种用于Linux操作系统的故障分析方法及系统

Publications (2)

Publication Number Publication Date
CN114706708A CN114706708A (zh) 2022-07-05
CN114706708B true CN114706708B (zh) 2022-08-30

Family

ID=82176086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210566397.5A Active CN114706708B (zh) 2022-05-24 2022-05-24 一种用于Linux操作系统的故障分析方法及系统

Country Status (1)

Country Link
CN (1) CN114706708B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115016987B (zh) * 2022-07-13 2022-11-04 统信软件技术有限公司 一种操作系统检查方法、计算设备及存储介质
CN116795069B (zh) * 2023-08-29 2023-11-14 成都拓林思软件有限公司 一种基于边缘计算的智能制造方法
CN116841792B (zh) * 2023-08-29 2023-11-17 北京轻松致远科技有限责任公司 一种应用程序开发故障修复方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929761A (zh) * 2012-11-16 2013-02-13 赛尔网络有限公司 一种应对崩溃性错误的系统及方法
CN104657240A (zh) * 2013-11-18 2015-05-27 华为技术有限公司 多内核操作系统的失效控制方法及装置
CN108108259A (zh) * 2018-01-11 2018-06-01 郑州云海信息技术有限公司 一种内核故障定位方法及装置
CN109144873A (zh) * 2018-08-22 2019-01-04 郑州云海信息技术有限公司 一种linux内核处理方法及装置
CN111158945A (zh) * 2019-12-31 2020-05-15 奇安信科技集团股份有限公司 内核故障处理方法、装置、网络安全设备和可读存储介质
CN112199323A (zh) * 2020-10-12 2021-01-08 南方电网数字电网研究院有限公司 电力系统继电保护SoC芯片
CN112650610A (zh) * 2020-12-11 2021-04-13 苏州浪潮智能科技有限公司 一种Linux系统崩溃控制方法、系统及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005301639A (ja) * 2004-04-12 2005-10-27 Hitachi Ltd Osの障害対応方法およびそのプログラム
US8930764B2 (en) * 2012-07-26 2015-01-06 Futurewei Technologies, Inc. System and methods for self-healing from operating system faults in kernel/supervisory mode
CN107832166A (zh) * 2017-11-27 2018-03-23 郑州云海信息技术有限公司 一种Linux服务器宕机故障分析系统及方法
CN108121612A (zh) * 2017-12-19 2018-06-05 上海斐讯数据通信技术有限公司 一种基于Linux内核路由器的崩溃处理方法和系统
CN110347571A (zh) * 2019-07-09 2019-10-18 深圳市网心科技有限公司 一种崩溃日志采集方法、分析方法及相关装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929761A (zh) * 2012-11-16 2013-02-13 赛尔网络有限公司 一种应对崩溃性错误的系统及方法
CN104657240A (zh) * 2013-11-18 2015-05-27 华为技术有限公司 多内核操作系统的失效控制方法及装置
CN108108259A (zh) * 2018-01-11 2018-06-01 郑州云海信息技术有限公司 一种内核故障定位方法及装置
CN109144873A (zh) * 2018-08-22 2019-01-04 郑州云海信息技术有限公司 一种linux内核处理方法及装置
CN111158945A (zh) * 2019-12-31 2020-05-15 奇安信科技集团股份有限公司 内核故障处理方法、装置、网络安全设备和可读存储介质
CN112199323A (zh) * 2020-10-12 2021-01-08 南方电网数字电网研究院有限公司 电力系统继电保护SoC芯片
CN112650610A (zh) * 2020-12-11 2021-04-13 苏州浪潮智能科技有限公司 一种Linux系统崩溃控制方法、系统及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSI Kernel: Finding a Needle in a Multiterabyte Haystack;Clive King 等;《IEEE Software》;20121022;第29卷(第6期);9-12 *
基于网络的Linux内核崩溃转储机制;王继钢;《佳木斯职业学院学报》;20170715(第07期);434-435 *

Also Published As

Publication number Publication date
CN114706708A (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
CN114706708B (zh) 一种用于Linux操作系统的故障分析方法及系统
Di Martino et al. Lessons learned from the analysis of system failures at petascale: The case of blue waters
CN108153618B (zh) 硬盘数据恢复方法、装置及硬盘数据恢复设备
CN110164501B (zh) 一种硬盘检测方法、装置、存储介质及设备
US7409594B2 (en) System and method to detect errors and predict potential failures
US20120221884A1 (en) Error management across hardware and software layers
CN110750396B (zh) 一种服务器操作系统兼容性测试方法、装置及存储介质
CN107688531A (zh) 数据库集成测试方法、装置、计算机设备及存储介质
CN106682162B (zh) 日志管理方法及装置
CN105718340A (zh) 一种基于Crontab的CPU稳定性的测试方法
JP2017201470A (ja) 設定支援プログラム、設定支援方法及び設定支援装置
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
CN110178121A (zh) 一种数据库的检测方法及其终端
CN104685474A (zh) 包括不可纠正的错误的地址范围的通知
US8074123B2 (en) Multi-CPU failure detection/recovery system and method for the same
CN111897686A (zh) 服务器集群硬盘故障处理方法、装置、电子设备及存储介质
Amvrosiadis et al. Getting back up: Understanding how enterprise data backups fail
CN114020432A (zh) 任务异常处理方法、装置及任务异常处理系统
US10776240B2 (en) Non-intrusive performance monitor and service engine
CN107168819B (zh) 一种操作系统重启方法及装置
CN109992476A (zh) 一种日志的分析方法、服务器及存储介质
RU128741U1 (ru) Система формирования решения проблем функционирования компьютерных систем
US8924773B1 (en) Reducing file system data unavailability window by adapting hierarchical recovery framework
CN115757099A (zh) 平台固件保护恢复功能自动测试方法和装置
CN114281639A (zh) 一种存储服务器故障sas物理链路屏蔽装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant