CN108762999A - 一种内核故障收集方法及装置 - Google Patents

一种内核故障收集方法及装置 Download PDF

Info

Publication number
CN108762999A
CN108762999A CN201810502472.5A CN201810502472A CN108762999A CN 108762999 A CN108762999 A CN 108762999A CN 201810502472 A CN201810502472 A CN 201810502472A CN 108762999 A CN108762999 A CN 108762999A
Authority
CN
China
Prior art keywords
failure
cpu core
kernels
hardware
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810502472.5A
Other languages
English (en)
Inventor
常现超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810502472.5A priority Critical patent/CN108762999A/zh
Publication of CN108762999A publication Critical patent/CN108762999A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors
    • G06F11/2242Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors in multi-processor systems, e.g. one processor becoming the test master
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种内核故障收集方法及装置,当K‑UX内核启动时,预先保留一颗CPU核,该CPU核仅运行故障信息收集进程并且不参与进程调度,当K‑UX内核发生严重故障或者硬件发生故障时,操作系统被挂起,内核无法进行进程调度,除了保留的CPU核外其他CPU核都被挂起,系统无法登录进去时,通过故障信息收集进程收集故障日志并通过串口传输,快速定位问题,快速地分析故障的原因并定位故障,找到解决故障方法,本发明能够保证服务器上的业务能够快速恢复,减少损失。

Description

一种内核故障收集方法及装置
技术领域
本发明涉及服务器的技术领域,具体涉及一种内核故障收集方法及装置。
背景技术
随着客户业务需求不断增大,服务器的性能必须不断增加,服务器的硬件配置也不断提升,如CPU可能达到千核以上、内存达到TB以上。服务器硬件增加的同时也提升了故障率,操作系统也越来越复杂,随着硬件的增加,驱动程序也相应的增加,引入的BUG也会越来越多。当服务器发生故障的时候,必须快速的分析故障原因并找到解决方案,就需要保存或者获取相应的数据进行分析,尤其是当服务器上部署关键业务的时候,快速地解决问题将给客户减少经济损失,保证业务快速恢复。
现有技术中,通常的故障收集方法为在服务器上安装K-UX操作系统并运行,正常情况下K-UX操作系统运行在K-UX内核中,当发生严重故障的时候,K-UX内核挂起,然后启动Crash内核(Crash内核:一个小的Linux内核,主要用于将K-UX内核的内存数据保存到磁盘);Crash内核将K-UX内核使用的内存数据保存到磁盘上,以便下次重启后分析定位问题;Crash内核收集完K-UX内核内存信息后,重启系统进去BIOS中,BIOS开始进行硬件初始化等操作,BIOS最后阶段开始加载K-UX内核启动系统;进入K-UX系统后,分析crash内核保存到磁盘上内存数据(如附图4所示)。现有技术的缺点为:1、需要用户配置crash内核,并分配内存,浪费一定的内存空间;2、保存内存数据需要大量磁盘空间,浪费磁盘空间;3、很多用户在安装K-UX时候没有配置crash内核,给后续定位问题带来很大难度。
发明内容
基于上述问题,本发明提出了一种内核故障收集方法及装置,快速的分析故障的原因并定位故障。
本发明提供如下技术方案:
一方面,本发明提供了一种内核故障收集方法,包括:
步骤101,监测K-UX内核和/或硬件是否故障以及系统是否被挂起;
步骤102,预先保留CPU核,所述CPU核独立运行故障日志收集进程,若K-UX内核和/或硬件故障,则所述故障日志收集进程收集日志;其中,所述CPU核不参与进程调度;
步骤103,通过串口获取故障日志信息,分析故障系统的内存信息,定位故障。
其中,所述定位故障之后还包括解决故障,恢复服务器正常运行。
其中,所述故障系统为K-UX系统或硬件系统。
其中,所述K-UX内核故障包括空指针、数组越界、软死锁、硬死锁至少之一;所述硬件故障包括磁盘扇区无法读写、CPU核无法正常工作至少之一。
另外,本发明还提供了一种内核故障收集装置,所述装置包括:
监测模块,用于监测K-UX内核和/或硬件是否故障以及系统是否被挂起;
收集模块,用于预先保留CPU核,所述CPU核独立运行故障日志收集进程,若K-UX内核和/或硬件故障,则所述故障日志收集进程收集日志;其中,所述CPU核不参与进程调度;定位模块,用于通过串口获取故障日志信息,分析故障系统的内存信息,定位故障。
其中,所述定位故障之后还包括解决故障,恢复服务器正常运行。
其中,所述故障系统为K-UX系统或硬件系统。
其中,所述K-UX内核故障包括空指针、数组越界、软死锁、硬死锁至少之一;所述硬件故障包括磁盘扇区无法读写、CPU核无法正常工作至少之一。
本发明提供了一种内核故障收集方法及装置,当K-UX内核启动时,预先保留一颗CPU核,该CPU核仅运行故障信息收集进程并且不参与进程调度,当K-UX内核发生严重故障或者硬件发生故障时,操作系统被挂起,内核无法进行进程调度,除了保留的CPU核外其他CPU核都被挂起,系统无法登录进去时,通过故障信息收集进程收集故障日志并通过串口传输,快速定位问题,快速地分析故障的原因并定位故障,找到解决故障方法,本发明能够保证服务器上的业务能够快速恢复,减少损失。
附图说明
图1是本发明的方法流程图;
图2是本发明的装置结构示意图。
图3是本发明的工作原理图;
图4是现有技术的工作原理图。
具体实施方式
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
基于上述,一方面,本发明的实施方式提供了一种内核故障收集方法,附图1是本发明的方法流程图,附图3是本发明的工作原理图,所述方法包括:
步骤101,监测K-UX内核和/或硬件是否故障以及系统是否被挂起;
K-UX:浪潮操作系统,类Linux。将K-UX操作系统安装到服务器上并正常运行,监测K-UX内核或者其他硬件故障且系统是否被HANG住(挂起);
步骤102,预先保留CPU核,所述CPU核独立运行故障日志收集进程,若K-UX内核和/或硬件故障,则所述故障日志收集进程收集日志;其中,所述CPU核不参与进程调度;
当K-UX内核启动时,预先保留一颗CPU核,该CPU核仅运行故障信息收集进程并且不参与进程调度,当K-UX内核出现故障/硬件出现故障且系统被挂起的时候,故障日志收集进程进行日志收集。K-UX内核严重故障:如空指针、数组越界、软死锁、硬死锁等导致K-UX系统无法继续工作的故障。硬件故障:导致硬件无法继续使用的故障,如磁盘某些扇区无法读写,某些CPU核无法正常工作等。
步骤103,通过串口查看故障日志信息,分析故障系统的内存信息,定位故障。
当K-UX内核发生严重故障或者硬件发生故障时,操作系统被HANG住,内核无法进行进程调度,除了保留的CPU核外其他CPU核都被HANG住,系统无法登录进去时,通过故障信息收集进程收集故障日志并通过串口传输,快速定位问题;解决故障,恢复服务器正常运行。
本发明的关键在于通过预先保留一颗CPU核来独立运行故障日志收集进程,该进程用于收集故障日志,来分析问题原因,定位问题。
本发明提供了一种内核故障收集方法,当K-UX内核启动时,预先保留一颗CPU核,该CPU核仅运行故障信息收集进程并且不参与进程调度,当K-UX内核发生严重故障或者硬件发生故障时,操作系统被挂起,内核无法进行进程调度,除了保留的CPU核外其他CPU核都被挂起,系统无法登录进去时,通过故障信息收集进程收集故障日志并通过串口传输,快速定位问题,快速地分析故障的原因并定位故障,找到解决故障方法,本发明能够保证服务器上的业务能够快速恢复,减少损失。
另一方面,本发明的实施方式提供了一种内核故障收集装置,附图2是本发明的装置结构示意图,附图3是本发明的工作原理图,所述装置包括:
监测模块201,用于监测K-UX内核和/或硬件是否故障以及系统是否被挂起;
K-UX:浪潮操作系统,类Linux。将K-UX操作系统安装到服务器上并正常运行,监测K-UX内核或者其他硬件故障且系统是否被HANG住(挂起);
收集模块202,用于预先保留CPU核,所述CPU核独立运行故障日志收集进程,若K-UX内核和/或硬件故障,则所述故障日志收集进程收集日志;其中,所述CPU核不参与进程调度;
当K-UX内核启动时,预先保留一颗CPU核,该CPU核仅运行故障信息收集进程并且不参与进程调度,当K-UX内核出现故障/硬件出现故障且系统被挂起的时候,故障日志收集进程进行日志收集。K-UX内核严重故障:如空指针、数组越界、软死锁、硬死锁等导致K-UX系统无法继续工作的故障。硬件故障:导致硬件无法继续使用的故障,如磁盘某些扇区无法读写,某些CPU核无法正常工作等。
定位模块203,用于通过串口查看故障日志信息,分析故障系统的内存信息,定位故障。
当K-UX内核发生严重故障或者硬件发生故障时,操作系统被HANG住,内核无法进行进程调度,除了保留的CPU核外其他CPU核都被HANG住,系统无法登录进去时,通过故障信息收集进程收集故障日志并通过串口传输,快速定位问题;解决故障,恢复服务器正常运行。
其中,所述K-UX内核故障包括空指针、数组越界、软死锁、硬死锁至少之一;所述硬件故障包括磁盘扇区无法读写、CPU核无法正常工作至少之一。
本发明的关键在于通过预先保留一颗CPU核来独立运行故障日志收集进程,该进程用于收集故障日志,来分析问题原因,定位问题。
本发明提供了一种内核故障收集装置,当K-UX内核启动时,预先保留一颗CPU核,该CPU核仅运行故障信息收集进程并且不参与进程调度,当K-UX内核发生严重故障或者硬件发生故障时,操作系统被挂起,内核无法进行进程调度,除了保留的CPU核外其他CPU核都被挂起,系统无法登录进去时,通过故障信息收集进程收集故障日志并通过串口传输,快速定位问题,快速地分析故障的原因并定位故障,找到解决故障方法,本发明能够保证服务器上的业务能够快速恢复,减少损失。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种内核故障收集方法,其特征在于:
步骤101,监测K-UX内核和/或硬件是否故障以及系统是否被挂起;
步骤102,预先保留CPU核,所述CPU核独立运行故障日志收集进程,若K-UX内核和/或硬件故障,则所述故障日志收集进程收集日志;其中,所述CPU核不参与进程调度;
步骤103,通过串口获取故障日志信息,分析故障系统的内存信息,定位故障。
2.根据权利要求1所述的方法,其特征在于:所述定位故障之后还包括解决故障,恢复服务器正常运行。
3.根据权利要求1所述的方法,其特征在于:所述故障装置为K-UX装置或硬件装置。
4.根据权利要求1所述的方法,其特征在于:所述K-UX内核故障包括空指针、数组越界、软死锁、硬死锁至少之一;所述硬件故障包括磁盘扇区无法读写、CPU核无法正常工作至少之一。
5.一种内核故障收集装置,其特征在于:所述装置包括:
监测模块,用于监测K-UX内核和/或硬件是否故障以及系统是否被挂起;
收集模块,用于预先保留CPU核,所述CPU核独立运行故障日志收集进程,若K-UX内核和/或硬件故障,则所述故障日志收集进程收集日志;其中,所述CPU核不参与进程调度;
定位模块,用于通过串口获取故障日志信息,分析故障系统的内存信息,定位故障。
6.根据权利要求5所述的装置,其特征在于:所述定位故障之后还包括解决故障,恢复服务器正常运行。
7.根据权利要求5所述的装置,其特征在于:所述故障装置为K-UX装置或硬件装置。
8.根据权利要求5所述的装置,其特征在于:所述K-UX内核故障包括空指针、数组越界、软死锁、硬死锁至少之一;所述硬件故障包括磁盘扇区无法读写、CPU核无法正常工作至少之一。
CN201810502472.5A 2018-05-23 2018-05-23 一种内核故障收集方法及装置 Pending CN108762999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810502472.5A CN108762999A (zh) 2018-05-23 2018-05-23 一种内核故障收集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810502472.5A CN108762999A (zh) 2018-05-23 2018-05-23 一种内核故障收集方法及装置

Publications (1)

Publication Number Publication Date
CN108762999A true CN108762999A (zh) 2018-11-06

Family

ID=64006394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810502472.5A Pending CN108762999A (zh) 2018-05-23 2018-05-23 一种内核故障收集方法及装置

Country Status (1)

Country Link
CN (1) CN108762999A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112346897A (zh) * 2020-10-23 2021-02-09 浪潮电子信息产业股份有限公司 一种处理计算机故障的方法及系统
CN112714013A (zh) * 2020-12-22 2021-04-27 浪潮云信息技术股份公司 一种在云环境下的应用故障定位方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331659A (zh) * 2014-10-30 2015-02-04 浪潮电子信息产业股份有限公司 一种关键应用主机系统资源应用隔离的设计方法
CN104486131A (zh) * 2014-12-29 2015-04-01 浪潮电子信息产业股份有限公司 一种基于安腾平台的db2数据库的故障检测和切换方法
CN104597860A (zh) * 2013-10-31 2015-05-06 洛克威尔自动控制技术股份有限公司 自动化控制器中的控制硬件和监视系统的独立操作
CN106354560A (zh) * 2015-07-16 2017-01-25 中兴通讯股份有限公司 一种系统的维护进程运行方法及装置
CN107357684A (zh) * 2017-07-07 2017-11-17 郑州云海信息技术有限公司 一种内核故障重启方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104597860A (zh) * 2013-10-31 2015-05-06 洛克威尔自动控制技术股份有限公司 自动化控制器中的控制硬件和监视系统的独立操作
CN104331659A (zh) * 2014-10-30 2015-02-04 浪潮电子信息产业股份有限公司 一种关键应用主机系统资源应用隔离的设计方法
CN104486131A (zh) * 2014-12-29 2015-04-01 浪潮电子信息产业股份有限公司 一种基于安腾平台的db2数据库的故障检测和切换方法
CN106354560A (zh) * 2015-07-16 2017-01-25 中兴通讯股份有限公司 一种系统的维护进程运行方法及装置
CN107357684A (zh) * 2017-07-07 2017-11-17 郑州云海信息技术有限公司 一种内核故障重启方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112346897A (zh) * 2020-10-23 2021-02-09 浪潮电子信息产业股份有限公司 一种处理计算机故障的方法及系统
CN112346897B (zh) * 2020-10-23 2022-07-22 浪潮电子信息产业股份有限公司 一种处理计算机故障的方法及系统
CN112714013A (zh) * 2020-12-22 2021-04-27 浪潮云信息技术股份公司 一种在云环境下的应用故障定位方法
CN112714013B (zh) * 2020-12-22 2023-02-03 浪潮云信息技术股份公司 一种在云环境下的应用故障定位方法

Similar Documents

Publication Publication Date Title
US10152364B2 (en) Predicting, diagnosing, and recovering from application failures based on resource access patterns
KR102268355B1 (ko) 클라우드 배치 기반구조 검증 엔진
CN100432949C (zh) 在计算机上当软件崩溃时保存用户数据的方法及装置
US10042695B1 (en) Program exception recovery
JP3072048B2 (ja) 計算機システムおよび計算機システムのソフトウェア故障回復方法
CN103415840A (zh) 跨硬件层和软件层的错误管理
CN108536548B (zh) 一种磁盘坏道的处理方法、装置及计算机存储介质
US7624309B2 (en) Automated client recovery and service ticketing
US8001091B2 (en) Apparatus, system, and method for hierarchical rollback of business operations
US8930761B2 (en) Test case result processing
CN104541244A (zh) 用于进行重放执行的方法和系统
US20140215258A1 (en) Cluster management in a shared nothing cluster
CN108984332A (zh) 一种定位服务器宕机故障的装置及方法
US20060004839A1 (en) Method and system for data processing with data replication for the same
CN110825569A (zh) 一种硬盘稳定性测试方法及测试系统
CN108108259A (zh) 一种内核故障定位方法及装置
Lee et al. Measurement-based evaluation of operating system fault tolerance
CN108762999A (zh) 一种内核故障收集方法及装置
WO2007099578A1 (ja) 故障解析装置
CN101901174A (zh) 基于代码段多副本对比机制提高程序可靠性方法
CN112214378B (zh) 数据收集方法、装置、电子设备及存储介质
CN113010341A (zh) 一种故障内存定位的方法和设备
CN111324514A (zh) 一种系统异常监控方法、装置、设备和存储介质
US20230025081A1 (en) Model training method, failure determining method, electronic device, and program product
US20040003313A1 (en) Black box recorder using machine check architecture in system management mode

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106

RJ01 Rejection of invention patent application after publication