CN103518188B - 监控系统恢复控制 - Google Patents

监控系统恢复控制 Download PDF

Info

Publication number
CN103518188B
CN103518188B CN201180070587.8A CN201180070587A CN103518188B CN 103518188 B CN103518188 B CN 103518188B CN 201180070587 A CN201180070587 A CN 201180070587A CN 103518188 B CN103518188 B CN 103518188B
Authority
CN
China
Prior art keywords
computing device
monitoring system
operating system
control
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201180070587.8A
Other languages
English (en)
Other versions
CN103518188A (zh
Inventor
弗莱彻·利夫伦斯
蒂莫西·J·弗雷瑟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN103518188A publication Critical patent/CN103518188A/zh
Application granted granted Critical
Publication of CN103518188B publication Critical patent/CN103518188B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Retry When Errors Occur (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

在本文中的实施例涉及包括监控系统(112)和操作系统(122)的计算装置(100)。在实施例中,监控系统启动和监测操作系统。监控系统用于在计算装置的操作系统中发生故障时恢复计算装置的控制。

Description

监控系统恢复控制
背景技术
在远程管理环境中,管理员可以不对由管理员所管理的计算装置进行物理访问。尽管如此,计算装置通常具有允许管理员远程地访问计算装置的所安装的软件。
附图说明
以下的详细描述涉及附图,其中:
图1是示例计算装置的框图;
图2是包括图1的计算装置的示例网络系统的框图;以及
图3是用于计算装置的远程故障修复的示例方法的流程图。
具体实施方式
在以下描述给出具体的细节来提供对实施例的彻底的理解。然而,本领域的普通技术人员可以明白,没有这些具体的细节也可以实践实施例。例如,系统可以按照框图的形式被示出,以便不会以不必要的细节使实施例难理解。在其它实例中,可以没有不必要的细节来示出众所周知的处理、结构以及技术,以便避免使实施例难理解。
实施例提供一种用于在计算装置的操作系统遭受不可恢复的故障后没有物理干预的情况下继续的计算装置的远程管理的方法和/或装置。通常,计算装置在计算装置的操作系统遭受不可恢复的故障后必须被物理地复位。然而,实施例提供一种运行操作系统的监控系统,使得在操作系统遭受不可恢复的故障时,监控系统不用物理地复位计算装置来恢复计算装置的控制。因此,计算装置的远程管理可以没有物理干预通过监控系统继续,其中物理干预可能包括将人员派遣到计算装置的物理场所来物理地复位计算装置。
因此,实施例可以降低或者防止对计算装置的操作系统遭受不可恢复的故障的远程管理的计算装置的物理干预的可能性。此外,实施例可以允许监控系统将例如远程通信的诊断信息的故障后解决方案携带给管理员或者远程重新启动计算装置。
图1是示例计算装置100的框图。计算装置100的实施例可以例如包括笔记本式计算机、台式计算机、一体化系统、平板计算装置、便携式阅读装置、无线电子邮件装置、移动电话等。在图1的实施例中,计算装置100包括第一存储位置120、第二存储位置120以及处理器130。
第一存储位置110和第二存储位置120可以是诸如包括或者存储可执行指令的任何电子的、磁性的、光学的或者其它的物理存储装置的一个或更多个机器可读存储介质。因此,第一存储位置110和第二存储位置120例如可以是随机存取存储器(RAM)、电可擦可编程只读存储器(EEPROM)、存储驱动器、光盘只读存储器(CD-ROM)等。
虽然第一存储位置110和第二存储位置120在图1中被示出为物理上分离的机器可读存储介质,但是实施例可以包括第一存储位置110和第二存储位置120作为单个机器可读存储介质的一部分。例如,第一存储位置110和第二存储位置120可以共享公共地址结构,同时第一存储位置具有比第二存储位置更低的存储器地址。同样地,单个机器可读存储介质可以被例如物理上或者逻辑上分区为两个或更多个分区,同时第一存储位置110和第二存储位置120占据单个机器可读存储介质的不同的分区。
第一存储位置110和第二存储位置120可以存储通过处理器130可执行的一个或更多个应用程序或者操作系统。在图1中,第一存储位置110被示出为存储监控系统112来启动和监测操作系统122,并且第二存储位置120被示出为存储操作系统122来控制计算装置100。
处理器130基于监控系统112来启动计算装置100。术语“启动”可以是指计算装置100在通电时执行的操作的初始设置。例如,在使计算装置100通电时,处理器130可以首先执行存储在监控系统112中的指令。可替代地,处理器130可以首先执行基本输入/输出系统(BIOS)等等中的指令,然后指向监控系统112的指令。
监控系统112可以是包括在计算装置100的硬件和操作系统122之间交互的程序和/或数据的一种软件。监控系统112的功能可以是灵活的并且根据用户或者生产商的规格来确定。因此,虽然监控系统112可以例如经由监控系统112的处理来启动和监测操作系统122,但是正如以下更详细地说明的,监控系统112还可以为附加的功能而设计。
监控系统112用于在操作系统122中出现故障时将计算装置100的控制传输到操作系统122并且恢复计算装置100的控制。术语“故障”可以是指运行在操作系统122或者至少部分的操作系统122上的程序不能正确地运转。例如,程序或者操作系统122可以停止响应例如在冻结或者挂起(hang)期间的输入。通常,故障是造成错误出现的由处理器130执行的指令的结果,例如程序计数器被设置为不正确的地址或者处理器130重写错误的存储器地址。
操作系统122在一些类型的故障后可能不能自动地重新获得或者恢复正确的功能。这些类型的故障通常是指不可恢复的故障并且通常需要计算装置100的硬复位,其中计算装置100必须最初被物理上断电。例如,硬复位可以通过由用户连续地按压计算装置100的电源按钮例如三秒或者五秒的一段临界时间。在计算装置100断电后,计算装置100可以远程地或者通过再次按压电源按钮来被再次通电,以完成计算装置100的复位。
数据或者软件可能由于硬复位被丢失或者损坏,因为操作系统122不能保存或者传输数据或者执行例如正确的关机程序的其它类型的操作。此外,不能远程地执行硬复位。因此,例如用户或者服务供应商的人员必须物理上出现在具有遭受不可恢复的故障的计算装置100的场所处。
然而,在实施例中,监控系统112可以在操作系统122不能从故障恢复时不用复位计算装置100的电力来恢复计算装置100的控制。例如,在一个实施例中,监控系统112在将计算装置的控制传输到操作系统122后进入睡眠状态。然后,监控系统112响应于硬件中断和软件中断中的至少之一从睡眠状态中醒来。操作系统122可以响应于执行指令的失败来生成软件中断,并且计算装置100或者操作系统122可以响应于例如监视计时器的计时器的到期来生成硬件中断。此外,实施例不限于如上所述的中断,并且监控系统112可以响应于检测故障的本领域中已知的其它类型的中断而醒来。
监控系统112在控制计算装置100时使通过操作系统122的计算装置100的控制失效。例如,监控系统112可以停止运行操作系统122的处理,以便释放先前通过操作系统122所控制的计算装置100的系统资源的管理。监控系统112的附加的功能可以包括访问计算装置100的日志并且预先在计算装置100上执行操作。例如,监控系统112可以访问错误日志或者安全日志。错误日志例如可以指示对故障负责的计算装置100的硬件部件或者软件指令。安全日志例如可以指示用户访问的计算装置100的一个或更多个硬件部件或者软件部件。
执行计算装置100的操作例如可以包括监控系统112在控制计算装置100时管理计算装置100的电力设置。电力设置可以包括休眠、睡眠、降低功率、关机或者重新启动状态。此外,监控系统112可以在管理计算装置的操作时使第二存储位置再次成像或者重新格式化。例如,监控系统112例如在操作系统122已经被破坏或者损坏不能修复时可以在第二存储位置重新安装操作系统122。
图2是包括图1的计算装置100的示例网络系统200的框图。在图2的实施例中,网络系统200包括计算装置100、网络元件210以及网络220。
网络元件210可以包括诸如服务器、调制解调器、网卡等的能够在网络220上与计算装置100通信的任何类型的装置。网络元件210可以包括由管理员或者用户所使用的例如管理场所的大型基础设施或者是其的一部分,以远程地监测或者管理计算装置100。
网络220可以包括诸如网络接口卡、转发器、网络集线器、网桥、交换机、路由器、防火墙等的一个或更多个互连装置。互连装置可以共享例如网络元件210和计算装置100之间的通信的资源或者信息。
网络元件210用于通过网络220来监测和控制计算装置100,在操作系统122中发生故障时,网络元件210与监控系统112通信。例如,网络元件210可以访问计算装置的错误日志或者安全日志,在计算装置上执行诊断操作,或者通过网络220来重新启动计算装置。
此外,网络元件220可以使计算装置100的监控系统112从睡眠状态醒来,其中监控系统112在将计算装置100的控制传输到操作系统122后进入睡眠状态。
图3是用于计算装置的远程故障恢复的示例方法300的流程图。尽管以下关于图1的计算装置100描述方法300的执行,但是用于执行方法300的其它合适的部件对于本领域技术人员是显然的。
在图3的实施例中,在框310,使计算装置100通电。接下来,在框320,存储在第一存储位置110的监控系统112被加载,并且计算装置100的控制被传送到监控系统112。然后,在框330,存储在第二存储位置120的操作系统122被加载,并且监控系统112将计算装置100的控制传送到操作系统122。接着,在框340,监控系统112监测操作系统122的故障。在框340的监测可以包括监控系统112进入睡眠状态以及监控系统112响应于所生成的中断从睡眠状态醒来。
如果操作系统122发生故障,在框350,监控系统112从操作系统122恢复计算装置100的控制。监控系统112可以通过所生成的中断来被告知故障。如上所述,中断例如可以是响应于执行指令的故障所生成的软件中断或者响应于计时器的到期所生成的硬件中断。
在框350的监控系统112的恢复控制可以包括使通过操作系统122的计算装置100的控制失效,并且不用复位供给计算装置100的电力来恢复控制。在恢复控制后,如上所述,监控系统112可以通过网络220与网络元件210通信。例如,网络元件210可以访问计算装置100的错误日志、在计算装置100上执行诊断操作、或者通过网络220来重新启动计算装置100。
根据前述,实施例提供一种用于在计算装置的操作系统遭受不可恢复的故障后没有物理干预的情况下继续的计算装置的远程管理的方法和/或装置。例如,实施例提供一种运行操作系统的监控系统,使得在操作系统遭受不可恢复的故障时,监控系统不用物理上复位计算装置来恢复计算装置的控制。因此,计算装置的远程管理可以不用物理干预通过监控系统来继续。

Claims (10)

1.一种计算装置,包括:
第一存储位置,存储监控系统来启动和监视操作系统;
第二存储位置,存储所述操作系统来控制所述计算装置;以及
处理器,基于所述监控系统来启动所述计算装置,其中
所述监控系统用于将对所述计算装置的控制权传输到所述操作系统,
所述监控系统用于在将对所述计算装置的控制权传输到所述操作系统后进入睡眠状态,
所述监控系统响应于因所述操作系统发生故障而产生的硬件中断和软件中断中的至少之一从所述睡眠状态中醒来,以及
所述监控系统用于在所述操作系统中发生故障时恢复对所述计算装置的控制权,
其中,所述监控系统用于在所述操作系统不能从所述故障恢复时不用复位供给所述计算装置的电力来恢复对所述计算装置的控制权,
其中,所述监控系统用于在控制所述计算装置时使通过所述操作系统的所述计算装置的控制失效。
2.如权利要求1所述的计算装置,其中所述操作系统用于响应于执行指令的失败来生成所述软件中断,以及
所述计算装置用于响应于计时器的到期来生成所述硬件中断。
3.如权利要求1所述的计算装置,其中所述监控系统用于执行以下中的至少之一:访问所述计算装置的日志和在所述计算装置上执行操作。
4.如权利要求1所述的计算装置,其中所述监控系统用于在控制所述计算装置时管理所述计算装置的电力设置,所述电力设置包括休眠、睡眠、降低功率、关机和重新启动状态中的至少之一。
5.如权利要求1所述的计算装置,其中所述监控系统用于执行在管理所述计算装置的所述操作时使所述第二存储位置再次成像和重新格式化中的至少之一。
6.如权利要求1所述的计算装置,其中所述监控系统用于在所述操作系统中发生所述故障时通过网络与网络元件通信,其中所述监控系统用于从所述网络元件接收指令,以便通过所述网络来监测和控制所述计算装置。
7.如权利要求6所述的计算装置,其中所述监控系统用于响应于通过所述网络从所述网络元件接收到的请求执行以下中的至少之一:传输所述计算装置的错误日志、在所述计算装置上执行诊断操作、以及重新启动所述计算装置。
8.如权利要求6所述的计算装置,其中所述监控系统用于从所述网络元件接收唤醒命令来从睡眠状态醒来。
9.一种用于计算装置的远程故障恢复的方法,包括:
使所述计算装置通电;
加载存储在第一存储器的监控系统并将对所述计算装置的控制权传送到所述监控系统;
加载存储在第二存储器的操作系统,并通过所述监控系统将对所述计算装置的控制权传送到所述操作系统,其中所述监控系统用于在将对所述计算装置的控制权传输到所述操作系统后进入睡眠状态;
通过所述监控系统监测所述操作系统的故障;
响应于因所述操作系统发生故障而产生的硬件中断和软件中断中的至少之一将所述监控系统从所述睡眠状态中唤醒;以及
在所述操作系统中发生所述故障时,通过所述监控系统不用复位供给所述计算装置的电力来从所述操作系统恢复对所述计算装置的控制权,
其中,恢复所述控制权包括使通过所述操作系统的所述计算装置的控制失效。
10.如权利要求9所述的方法,还包括:
在恢复所述控制权后通过网络与网络元件通信,其中所述网络元件通过所述网络来监测和控制所述计算装置,其中
所述通信包括所述网络元件执行以下中的至少之一:访问所述计算装置的错误日志、在所述计算装置上执行诊断操作、以及通过所述网络来重新启动所述计算装置。
CN201180070587.8A 2011-03-31 2011-03-31 监控系统恢复控制 Expired - Fee Related CN103518188B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2011/000577 WO2012134420A1 (en) 2011-03-31 2011-03-31 Supervisor system resuming control

Publications (2)

Publication Number Publication Date
CN103518188A CN103518188A (zh) 2014-01-15
CN103518188B true CN103518188B (zh) 2017-05-24

Family

ID=46931761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180070587.8A Expired - Fee Related CN103518188B (zh) 2011-03-31 2011-03-31 监控系统恢复控制

Country Status (5)

Country Link
US (1) US9329920B2 (zh)
EP (1) EP2691853B1 (zh)
CN (1) CN103518188B (zh)
TW (1) TWI461905B (zh)
WO (1) WO2012134420A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183508B (zh) * 2015-08-26 2019-02-15 北京元心科技有限公司 容器系统内应用程序的监控方法以及智能终端
TWI795919B (zh) * 2021-09-24 2023-03-11 神雲科技股份有限公司 省電模式的控制方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5134580A (en) 1990-03-22 1992-07-28 International Business Machines Corporation Computer with capability to automatically initialize in a first operating system of choice and reinitialize in a second operating system without computer shutdown
JP2001101033A (ja) 1999-09-27 2001-04-13 Hitachi Ltd オペレーティングシステム及びアプリケーションプログラムの障害監視方法
US6505298B1 (en) 1999-10-25 2003-01-07 International Business Machines Corporation System using an OS inaccessible interrupt handler to reset the OS when a device driver failed to set a register bit indicating OS hang condition
US6763456B1 (en) * 2000-02-25 2004-07-13 Intel Corporation Self correcting server with automatic error handling
US6728896B1 (en) 2000-08-31 2004-04-27 Unisys Corporation Failover method of a simulated operating system in a clustered computing environment
US6769077B2 (en) 2000-12-20 2004-07-27 Microsoft Corporation System and method for remotely creating a physical memory snapshot over a serial bus
US6928579B2 (en) 2001-06-27 2005-08-09 Nokia Corporation Crash recovery system
US6782424B2 (en) 2002-08-23 2004-08-24 Finite State Machine Labs, Inc. System, method and computer program product for monitoring and controlling network connections from a supervisory operating system
JP4083531B2 (ja) 2002-10-17 2008-04-30 株式会社エヌ・ティ・ティ・ドコモ 通信システム、転送装置、通信方法及びプログラム
US6857011B2 (en) 2002-10-31 2005-02-15 Paragon Development Systems, Inc. Method of remote imaging
US20050050385A1 (en) * 2003-08-26 2005-03-03 Chih-Wei Chen Server crash recovery reboot auto activation method and system
US7269768B2 (en) * 2004-03-18 2007-09-11 Intel Corporation Method and system to provide debugging of a computer system from firmware
TWI235299B (en) * 2004-04-22 2005-07-01 Univ Nat Cheng Kung Method for providing application cluster service with fault-detection and failure-recovery capabilities
TWI267785B (en) 2004-09-15 2006-12-01 Acer Inc Installation method and the re-installation method of an operation system
US7434102B2 (en) * 2004-12-29 2008-10-07 Intel Corporation High density compute center resilient booting
US7325163B2 (en) 2005-01-04 2008-01-29 International Business Machines Corporation Error monitoring of partitions in a computer system using supervisor partitions
US8375386B2 (en) 2005-06-29 2013-02-12 Microsoft Corporation Failure management for a virtualized computing environment
US7702955B2 (en) 2005-12-28 2010-04-20 De Almeida Adrian S Method and apparatus for detecting a fault condition and restoration thereafter using user context information
KR100877239B1 (ko) 2006-11-21 2009-01-08 주식회사 하우앳 시스템 원격복구방법
US7941810B2 (en) 2006-12-28 2011-05-10 Intel Corporation Extensible and flexible firmware architecture for reliability, availability, serviceability features
JP2011060055A (ja) * 2009-09-11 2011-03-24 Fujitsu Ltd 仮想計算機システム、仮想マシンの復旧処理方法及びそのプログラム

Also Published As

Publication number Publication date
EP2691853A1 (en) 2014-02-05
US9329920B2 (en) 2016-05-03
WO2012134420A1 (en) 2012-10-04
TWI461905B (zh) 2014-11-21
US20140019796A1 (en) 2014-01-16
TW201303580A (zh) 2013-01-16
EP2691853B1 (en) 2021-02-24
EP2691853A4 (en) 2015-08-05
CN103518188A (zh) 2014-01-15

Similar Documents

Publication Publication Date Title
US11023302B2 (en) Methods and systems for detecting and capturing host system hang events
US9921915B2 (en) Baseboard management controller recovery
CN107122321A (zh) 硬件修复方法、硬件修复系统以及计算机可读取存储装置
US20120144242A1 (en) System and method for proactive management of an information handling system with in-situ measurement of end user actions
JP2001325124A (ja) 計算機、システム管理支援装置及び管理方法
CN111683287B (zh) 智能设备启动方法、装置、智能设备和可读存储介质
TWI261748B (en) Policy-based response to system errors occurring during OS runtime
CN102880527B (zh) 一种基板管理控制器的数据恢复方法
CN108319525A (zh) 开关装置及检测集成电路总线的方法
CN105917306A (zh) 系统固件配置数据
TW201405303A (zh) 底板管理控制器監控系統及方法
JP2010224847A (ja) 計算機システム及び設定管理方法
CN111796954A (zh) 基于jvm的看门狗的控制方法、装置、设备及存储介质
JP2017187992A (ja) 制御装置、制御方法およびプログラム
TW201518942A (zh) 伺服器停機時間計量
CN108958965A (zh) 一种bmc监控可恢复ecc错误的方法、装置及设备
CN103518188B (zh) 监控系统恢复控制
TWI764454B (zh) 韌體損壞恢復技術
JP6124644B2 (ja) 情報処理装置および情報処理システム
US9846476B1 (en) System and method of identifying the idle time for lab hardware thru automated system
KR20130075807A (ko) 백업 하드디스크 드라이브가 구비된 금융자동화기기 및 금융자동화기기의 부팅 방법
JP5223688B2 (ja) 無停電電源装置の管理装置および管理方法
TWI808362B (zh) 可自我監視及恢復作業系統運作的電腦系統及方法
CN109298992A (zh) 电子装置以及开机时间计算方法
CN106789185A (zh) 一种基于带外管理的it设备管理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170524

CF01 Termination of patent right due to non-payment of annual fee