CN107357684A - 一种内核故障重启方法和装置 - Google Patents

一种内核故障重启方法和装置 Download PDF

Info

Publication number
CN107357684A
CN107357684A CN201710549716.0A CN201710549716A CN107357684A CN 107357684 A CN107357684 A CN 107357684A CN 201710549716 A CN201710549716 A CN 201710549716A CN 107357684 A CN107357684 A CN 107357684A
Authority
CN
China
Prior art keywords
kernel
kernels
failure
information
crash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710549716.0A
Other languages
English (en)
Inventor
常现超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710549716.0A priority Critical patent/CN107357684A/zh
Publication of CN107357684A publication Critical patent/CN107357684A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Retry When Errors Occur (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种内核故障重启方法,包括以下步骤:S1、在运行内核发生无法继续使用的故障后,将所述运行内核挂起,启动Crash内核;S2、所述Crash内核将所述运行内核的内存信息保存在磁盘上;S3、所述Crash内核直接加载所述运行内核的映像文件,重启操作系统。还公开了一种内核故障重启装置,本发明减少了重启开机处理时间,加快开机重启速度。

Description

一种内核故障重启方法和装置
技术领域
本发明涉及服务器技术领域,尤其是一种内核故障重启办法和装置。
背景技术
随着客户业务需求不断增大,服务器的性能必须不断增加,服务器的硬件配置也不断提升,如CPU可能达到千核以上、内存达到TB以上。但在服务器硬件增加的同时也提升了故障率,而且硬件增多也使开机时间增加,每次重启都需要花费很长一段时间,主要是在BIOS中进行硬件初始化,自检等操作。如图1所示,在服务器上安装K-UX操作系统并运行,正常情况下K-UX操作系统运行在K-UX内核中,当发生严重故障的时候,K-UX内核挂起,然后启动Crash内核。Crash内核将K-UX内核使用的内存数据保存到磁盘上,以便分析定位问题。Crash内核收集完K-UX内核内存信息后,重启系统进入BIOS中,BIOS开始进行硬件初始化等操作,BIOS最后阶段开始加载K-UX内核启动系统。当服务器发生严重故障的时候需要记录故障信息并重启系统,由于耗时过长,当在服务器上部署关键业务的时候,这个过程将给客户带来严重的经济损失。
发明内容
本发明的目的之一是提供一种内核发生故障的快速重启方法,加快开机速度,为快速解决故障、业务快速恢复提供保障。
为实现上述目的,本发明采用下述技术方案:
一种内核故障重启方法,包括以下步骤:
S1、在运行内核发生无法继续使用的故障后,将所述运行内核挂起,启动Crash内核;
S2、所述Crash内核将所述运行内核的内存信息保存在磁盘上;
S3、所述Crash内核直接加载所述运行内核的映像文件和硬件初始化信息文件,重启操作系统。
进一步地,所述无法继续使用的故障包括空指针、数组越界、死锁、对故障硬件的访问。
进一步地,所述运行内核的内存信息包括数据段、代码段、堆栈。
进一步地,所述运行内核包括K-UX内核或Centos内核。
本发明的另一个目的是提供一种内核故障重启装置,包括内存信息存储模块,收集运行内核的内存信息,并将内存信息保存在磁盘上;
内核映像配置文件,根据计算机运行信息生成内核映像文件;
硬件信息加载模块,对开机硬件初始化过程中硬件信息进行收集保存。
本发明的有益效果是:
在本发明中,K-UX内核发生故障时,通过Crash内核收集内存信息,并存储在磁盘上,在所有的内存信息存储完成后,Crash内核直接加载内核映像文件和硬件初始化信息,现有技术中需经过经过BIOS进行硬件初始化,本发明中硬件信息加载模块保存硬件初始化信息,可跳过BIOS进行服务器重启和硬件初始化过程,减少了重启开机处理时间,加快开机重启速度。
附图说明
图1是现有技术内核故障重启开机步骤流程图;
图2是本发明内核故障重启开机步骤流程图。
具体实施方式
实施例一
在本发明的方法实施之前,需要经过在服务器上安装K-UX操作系统(K-UX:浪潮操作系统,类Linux),开机过程BIOS对硬件进行初始化的步骤(Basic Input/Output System,基本输入/输出系统)。
如图2所示,一种内核故障重启方法,包括以下步骤:
S1、在K-UX内核发生无法继续使用的故障后,将K-UX内核挂起,启动Crash内核(Crash内核:一个小的Linux内核,主要用于将K-UX内核的内存数据保存到磁盘);无法继续使用的故障包括空指针、数组越界、死锁,对故障硬件的访问,例如对故障内存的访问和故障网卡的使用。
S2、Crash内核将K-UX内核的内存信息保存在磁盘上;K-UX内核的内存信息为K-UX内核运行时的数据,包括数据段、代码段、堆栈等,就是保证K-UX内核运行的所有相关数据。
S3、Crash内核直接加载K-UX内核的映像文件和硬件初始化信息文件,重启操作系统。
实施例二
与实施例一的不同仅仅在于运行内核为Centos内核,相对应的服务器安装的操作系统为Centos操作系统。
一种内核故障重启装置,包括内存信息存储模块,收集运行内核的内存信息,并将内存信息保存在磁盘上;
内核映像配置文件,根据计算机运行信息生成内核映像文件;
硬件信息加载模块,对开机硬件初始化过程中硬件信息进行收集保存。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (5)

1.一种内核故障重启方法,其特征在于,包括以下步骤:
S1、在运行内核发生无法继续使用的故障后,将所述运行内核挂起,启动Crash内核;
S2、所述Crash内核将所述运行内核的内存信息保存在磁盘上;
S3、所述Crash内核直接加载所述运行内核的映像文件和硬件初始化信息文件,重启操作系统。
2.如权利要求1所述的一种内核故障重启方法,其特征在于,所述无法继续使用的故障包括空指针、数组越界、死锁、对故障硬件的访问。
3.如权利要求1所述的一种内核故障重启方法,其特征在于,所述运行内核的内存信息包括数据段、代码段、堆栈。
4.如权利要求1所述的一种内核故障重启方法,其特征在于,所述运行内核包括K-UX内核或Centos内核。
5.一种内核故障重启装置,其特征在于,包括内存信息存储模块,收集运行内核的内存信息,并将内存信息保存在磁盘上;
内核映像配置文件,根据计算机运行信息生成内核映像文件;
硬件信息加载模块,对开机硬件初始化过程中硬件信息进行收集保存。
CN201710549716.0A 2017-07-07 2017-07-07 一种内核故障重启方法和装置 Pending CN107357684A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710549716.0A CN107357684A (zh) 2017-07-07 2017-07-07 一种内核故障重启方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710549716.0A CN107357684A (zh) 2017-07-07 2017-07-07 一种内核故障重启方法和装置

Publications (1)

Publication Number Publication Date
CN107357684A true CN107357684A (zh) 2017-11-17

Family

ID=60293370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710549716.0A Pending CN107357684A (zh) 2017-07-07 2017-07-07 一种内核故障重启方法和装置

Country Status (1)

Country Link
CN (1) CN107357684A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108259A (zh) * 2018-01-11 2018-06-01 郑州云海信息技术有限公司 一种内核故障定位方法及装置
CN108762999A (zh) * 2018-05-23 2018-11-06 郑州云海信息技术有限公司 一种内核故障收集方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120198431A1 (en) * 2011-01-30 2012-08-02 Lin Qiangmin Method for upgrading hypervisor component and computer system
CN102929747A (zh) * 2012-11-05 2013-02-13 中标软件有限公司 基于龙芯服务器的Linux操作系统崩溃转储的处理方法
CN103729211A (zh) * 2013-12-10 2014-04-16 华为技术有限公司 一种操作系统恢复方法、装置及终端设备
US20150324256A1 (en) * 2014-05-12 2015-11-12 International Business Machines Corporation Restoring an application from a system dump file
CN105912426A (zh) * 2016-04-28 2016-08-31 浪潮(北京)电子信息产业有限公司 一种k-ux操作系统还原方法与系统
US20160292030A1 (en) * 2012-07-31 2016-10-06 International Business Machines Corporation Securing crash dump files

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120198431A1 (en) * 2011-01-30 2012-08-02 Lin Qiangmin Method for upgrading hypervisor component and computer system
US20160292030A1 (en) * 2012-07-31 2016-10-06 International Business Machines Corporation Securing crash dump files
CN102929747A (zh) * 2012-11-05 2013-02-13 中标软件有限公司 基于龙芯服务器的Linux操作系统崩溃转储的处理方法
CN103729211A (zh) * 2013-12-10 2014-04-16 华为技术有限公司 一种操作系统恢复方法、装置及终端设备
US20150324256A1 (en) * 2014-05-12 2015-11-12 International Business Machines Corporation Restoring an application from a system dump file
CN105912426A (zh) * 2016-04-28 2016-08-31 浪潮(北京)电子信息产业有限公司 一种k-ux操作系统还原方法与系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108259A (zh) * 2018-01-11 2018-06-01 郑州云海信息技术有限公司 一种内核故障定位方法及装置
CN108762999A (zh) * 2018-05-23 2018-11-06 郑州云海信息技术有限公司 一种内核故障收集方法及装置

Similar Documents

Publication Publication Date Title
US10152382B2 (en) Method and system for monitoring virtual machine cluster
US10956143B2 (en) Server updates
US9122595B2 (en) Fault tolerance for complex distributed computing operations
US8862927B2 (en) Systems and methods for fault recovery in multi-tier applications
US10713107B2 (en) Detecting a possible underlying problem among computing devices
US9032414B1 (en) Systems and methods for managing system resources allocated for backup validation
WO2023115999A1 (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN103336736B (zh) 系统日志获取方法和装置
CN103198122A (zh) 重启内存数据库的方法和装置
US9003139B1 (en) Systems and methods for recovering virtual machines after disaster scenarios
CN112231403B (zh) 数据同步的一致性校验方法、装置、设备和存储介质
CN107368384A (zh) 一种Linux服务器异常信息转储系统及方法
CN114035905A (zh) 基于虚拟机的故障迁移方法及装置、电子设备和存储介质
CN116340053A (zh) 系统崩溃的日志处理方法、装置、计算机设备和介质
CN107357684A (zh) 一种内核故障重启方法和装置
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
CN108108259A (zh) 一种内核故障定位方法及装置
CN111522598A (zh) 嵌入式设备的重启信息记录方法及装置
CN111475335A (zh) 一种数据库快速恢复的方法、系统、终端及存储介质
CN109254880B (zh) 一种处理数据库宕机的方法及装置
CN115391106A (zh) 一种备端资源池化的方法、系统及装置
US10599412B2 (en) Operating system installation on a computing device with multiple redundant drives
CN112860376A (zh) 一种快照链的制作方法、装置、电子设备及存储介质
CN104156281B (zh) 一种嵌入式系统中启动磁盘备份的方法及其系统
CN108733501A (zh) 一种盘符校正方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171117