CN103518188B

CN103518188B - 监控系统恢复控制

Info

Publication number: CN103518188B
Application number: CN201180070587.8A
Authority: CN
Inventors: 弗莱彻·利夫伦斯; 蒂莫西·J·弗雷瑟
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2017-05-24
Anticipated expiration: 2031-03-31
Also published as: EP2691853A1; US9329920B2; WO2012134420A1; TWI461905B; US20140019796A1; TW201303580A; EP2691853B1; EP2691853A4; CN103518188A

Abstract

在本文中的实施例涉及包括监控系统（112）和操作系统（122）的计算装置（100）。在实施例中，监控系统启动和监测操作系统。监控系统用于在计算装置的操作系统中发生故障时恢复计算装置的控制。

Description

监控系统恢复控制

背景技术

在远程管理环境中，管理员可以不对由管理员所管理的计算装置进行物理访问。尽管如此，计算装置通常具有允许管理员远程地访问计算装置的所安装的软件。

附图说明

以下的详细描述涉及附图，其中：

图1是示例计算装置的框图；

图2是包括图1的计算装置的示例网络系统的框图；以及

图3是用于计算装置的远程故障修复的示例方法的流程图。

具体实施方式

在以下描述给出具体的细节来提供对实施例的彻底的理解。然而，本领域的普通技术人员可以明白，没有这些具体的细节也可以实践实施例。例如，系统可以按照框图的形式被示出，以便不会以不必要的细节使实施例难理解。在其它实例中，可以没有不必要的细节来示出众所周知的处理、结构以及技术，以便避免使实施例难理解。

实施例提供一种用于在计算装置的操作系统遭受不可恢复的故障后没有物理干预的情况下继续的计算装置的远程管理的方法和/或装置。通常，计算装置在计算装置的操作系统遭受不可恢复的故障后必须被物理地复位。然而，实施例提供一种运行操作系统的监控系统，使得在操作系统遭受不可恢复的故障时，监控系统不用物理地复位计算装置来恢复计算装置的控制。因此，计算装置的远程管理可以没有物理干预通过监控系统继续，其中物理干预可能包括将人员派遣到计算装置的物理场所来物理地复位计算装置。

因此，实施例可以降低或者防止对计算装置的操作系统遭受不可恢复的故障的远程管理的计算装置的物理干预的可能性。此外，实施例可以允许监控系统将例如远程通信的诊断信息的故障后解决方案携带给管理员或者远程重新启动计算装置。

图1是示例计算装置100的框图。计算装置100的实施例可以例如包括笔记本式计算机、台式计算机、一体化系统、平板计算装置、便携式阅读装置、无线电子邮件装置、移动电话等。在图1的实施例中，计算装置100包括第一存储位置120、第二存储位置120以及处理器130。

第一存储位置110和第二存储位置120可以是诸如包括或者存储可执行指令的任何电子的、磁性的、光学的或者其它的物理存储装置的一个或更多个机器可读存储介质。因此，第一存储位置110和第二存储位置120例如可以是随机存取存储器（RAM）、电可擦可编程只读存储器（EEPROM）、存储驱动器、光盘只读存储器（CD-ROM）等。

虽然第一存储位置110和第二存储位置120在图1中被示出为物理上分离的机器可读存储介质，但是实施例可以包括第一存储位置110和第二存储位置120作为单个机器可读存储介质的一部分。例如，第一存储位置110和第二存储位置120可以共享公共地址结构，同时第一存储位置具有比第二存储位置更低的存储器地址。同样地，单个机器可读存储介质可以被例如物理上或者逻辑上分区为两个或更多个分区，同时第一存储位置110和第二存储位置120占据单个机器可读存储介质的不同的分区。

第一存储位置110和第二存储位置120可以存储通过处理器130可执行的一个或更多个应用程序或者操作系统。在图1中，第一存储位置110被示出为存储监控系统112来启动和监测操作系统122，并且第二存储位置120被示出为存储操作系统122来控制计算装置100。

处理器130基于监控系统112来启动计算装置100。术语“启动”可以是指计算装置100在通电时执行的操作的初始设置。例如，在使计算装置100通电时，处理器130可以首先执行存储在监控系统112中的指令。可替代地，处理器130可以首先执行基本输入/输出系统（BIOS）等等中的指令，然后指向监控系统112的指令。

监控系统112可以是包括在计算装置100的硬件和操作系统122之间交互的程序和/或数据的一种软件。监控系统112的功能可以是灵活的并且根据用户或者生产商的规格来确定。因此，虽然监控系统112可以例如经由监控系统112的处理来启动和监测操作系统122，但是正如以下更详细地说明的，监控系统112还可以为附加的功能而设计。

监控系统112用于在操作系统122中出现故障时将计算装置100的控制传输到操作系统122并且恢复计算装置100的控制。术语“故障”可以是指运行在操作系统122或者至少部分的操作系统122上的程序不能正确地运转。例如，程序或者操作系统122可以停止响应例如在冻结或者挂起（hang）期间的输入。通常，故障是造成错误出现的由处理器130执行的指令的结果，例如程序计数器被设置为不正确的地址或者处理器130重写错误的存储器地址。

操作系统122在一些类型的故障后可能不能自动地重新获得或者恢复正确的功能。这些类型的故障通常是指不可恢复的故障并且通常需要计算装置100的硬复位，其中计算装置100必须最初被物理上断电。例如，硬复位可以通过由用户连续地按压计算装置100的电源按钮例如三秒或者五秒的一段临界时间。在计算装置100断电后，计算装置100可以远程地或者通过再次按压电源按钮来被再次通电，以完成计算装置100的复位。

数据或者软件可能由于硬复位被丢失或者损坏，因为操作系统122不能保存或者传输数据或者执行例如正确的关机程序的其它类型的操作。此外，不能远程地执行硬复位。因此，例如用户或者服务供应商的人员必须物理上出现在具有遭受不可恢复的故障的计算装置100的场所处。

然而，在实施例中，监控系统112可以在操作系统122不能从故障恢复时不用复位计算装置100的电力来恢复计算装置100的控制。例如，在一个实施例中，监控系统112在将计算装置的控制传输到操作系统122后进入睡眠状态。然后，监控系统112响应于硬件中断和软件中断中的至少之一从睡眠状态中醒来。操作系统122可以响应于执行指令的失败来生成软件中断，并且计算装置100或者操作系统122可以响应于例如监视计时器的计时器的到期来生成硬件中断。此外，实施例不限于如上所述的中断，并且监控系统112可以响应于检测故障的本领域中已知的其它类型的中断而醒来。

监控系统112在控制计算装置100时使通过操作系统122的计算装置100的控制失效。例如，监控系统112可以停止运行操作系统122的处理，以便释放先前通过操作系统122所控制的计算装置100的系统资源的管理。监控系统112的附加的功能可以包括访问计算装置100的日志并且预先在计算装置100上执行操作。例如，监控系统112可以访问错误日志或者安全日志。错误日志例如可以指示对故障负责的计算装置100的硬件部件或者软件指令。安全日志例如可以指示用户访问的计算装置100的一个或更多个硬件部件或者软件部件。

执行计算装置100的操作例如可以包括监控系统112在控制计算装置100时管理计算装置100的电力设置。电力设置可以包括休眠、睡眠、降低功率、关机或者重新启动状态。此外，监控系统112可以在管理计算装置的操作时使第二存储位置再次成像或者重新格式化。例如，监控系统112例如在操作系统122已经被破坏或者损坏不能修复时可以在第二存储位置重新安装操作系统122。

图2是包括图1的计算装置100的示例网络系统200的框图。在图2的实施例中，网络系统200包括计算装置100、网络元件210以及网络220。

网络元件210可以包括诸如服务器、调制解调器、网卡等的能够在网络220上与计算装置100通信的任何类型的装置。网络元件210可以包括由管理员或者用户所使用的例如管理场所的大型基础设施或者是其的一部分，以远程地监测或者管理计算装置100。

网络220可以包括诸如网络接口卡、转发器、网络集线器、网桥、交换机、路由器、防火墙等的一个或更多个互连装置。互连装置可以共享例如网络元件210和计算装置100之间的通信的资源或者信息。

网络元件210用于通过网络220来监测和控制计算装置100，在操作系统122中发生故障时，网络元件210与监控系统112通信。例如，网络元件210可以访问计算装置的错误日志或者安全日志，在计算装置上执行诊断操作，或者通过网络220来重新启动计算装置。

此外，网络元件220可以使计算装置100的监控系统112从睡眠状态醒来，其中监控系统112在将计算装置100的控制传输到操作系统122后进入睡眠状态。

图3是用于计算装置的远程故障恢复的示例方法300的流程图。尽管以下关于图1的计算装置100描述方法300的执行，但是用于执行方法300的其它合适的部件对于本领域技术人员是显然的。

在图3的实施例中，在框310，使计算装置100通电。接下来，在框320，存储在第一存储位置110的监控系统112被加载，并且计算装置100的控制被传送到监控系统112。然后，在框330，存储在第二存储位置120的操作系统122被加载，并且监控系统112将计算装置100的控制传送到操作系统122。接着，在框340，监控系统112监测操作系统122的故障。在框340的监测可以包括监控系统112进入睡眠状态以及监控系统112响应于所生成的中断从睡眠状态醒来。

如果操作系统122发生故障，在框350，监控系统112从操作系统122恢复计算装置100的控制。监控系统112可以通过所生成的中断来被告知故障。如上所述，中断例如可以是响应于执行指令的故障所生成的软件中断或者响应于计时器的到期所生成的硬件中断。

在框350的监控系统112的恢复控制可以包括使通过操作系统122的计算装置100的控制失效，并且不用复位供给计算装置100的电力来恢复控制。在恢复控制后，如上所述，监控系统112可以通过网络220与网络元件210通信。例如，网络元件210可以访问计算装置100的错误日志、在计算装置100上执行诊断操作、或者通过网络220来重新启动计算装置100。

根据前述，实施例提供一种用于在计算装置的操作系统遭受不可恢复的故障后没有物理干预的情况下继续的计算装置的远程管理的方法和/或装置。例如，实施例提供一种运行操作系统的监控系统，使得在操作系统遭受不可恢复的故障时，监控系统不用物理上复位计算装置来恢复计算装置的控制。因此，计算装置的远程管理可以不用物理干预通过监控系统来继续。

Claims

1.一种计算装置，包括：

第一存储位置，存储监控系统来启动和监视操作系统；

第二存储位置，存储所述操作系统来控制所述计算装置；以及

处理器，基于所述监控系统来启动所述计算装置，其中

所述监控系统用于将对所述计算装置的控制权传输到所述操作系统，

所述监控系统用于在将对所述计算装置的控制权传输到所述操作系统后进入睡眠状态，

所述监控系统响应于因所述操作系统发生故障而产生的硬件中断和软件中断中的至少之一从所述睡眠状态中醒来，以及

所述监控系统用于在所述操作系统中发生故障时恢复对所述计算装置的控制权，

其中，所述监控系统用于在所述操作系统不能从所述故障恢复时不用复位供给所述计算装置的电力来恢复对所述计算装置的控制权，

其中，所述监控系统用于在控制所述计算装置时使通过所述操作系统的所述计算装置的控制失效。

2.如权利要求1所述的计算装置，其中所述操作系统用于响应于执行指令的失败来生成所述软件中断，以及

所述计算装置用于响应于计时器的到期来生成所述硬件中断。

3.如权利要求1所述的计算装置，其中所述监控系统用于执行以下中的至少之一：访问所述计算装置的日志和在所述计算装置上执行操作。

4.如权利要求1所述的计算装置，其中所述监控系统用于在控制所述计算装置时管理所述计算装置的电力设置，所述电力设置包括休眠、睡眠、降低功率、关机和重新启动状态中的至少之一。

5.如权利要求1所述的计算装置，其中所述监控系统用于执行在管理所述计算装置的所述操作时使所述第二存储位置再次成像和重新格式化中的至少之一。

6.如权利要求1所述的计算装置，其中所述监控系统用于在所述操作系统中发生所述故障时通过网络与网络元件通信，其中所述监控系统用于从所述网络元件接收指令，以便通过所述网络来监测和控制所述计算装置。

7.如权利要求6所述的计算装置，其中所述监控系统用于响应于通过所述网络从所述网络元件接收到的请求执行以下中的至少之一：传输所述计算装置的错误日志、在所述计算装置上执行诊断操作、以及重新启动所述计算装置。

8.如权利要求6所述的计算装置，其中所述监控系统用于从所述网络元件接收唤醒命令来从睡眠状态醒来。

9.一种用于计算装置的远程故障恢复的方法，包括：

使所述计算装置通电；

加载存储在第一存储器的监控系统并将对所述计算装置的控制权传送到所述监控系统；

加载存储在第二存储器的操作系统，并通过所述监控系统将对所述计算装置的控制权传送到所述操作系统，其中所述监控系统用于在将对所述计算装置的控制权传输到所述操作系统后进入睡眠状态；

通过所述监控系统监测所述操作系统的故障；

响应于因所述操作系统发生故障而产生的硬件中断和软件中断中的至少之一将所述监控系统从所述睡眠状态中唤醒；以及

在所述操作系统中发生所述故障时，通过所述监控系统不用复位供给所述计算装置的电力来从所述操作系统恢复对所述计算装置的控制权，

其中，恢复所述控制权包括使通过所述操作系统的所述计算装置的控制失效。

10.如权利要求9所述的方法，还包括：

在恢复所述控制权后通过网络与网络元件通信，其中所述网络元件通过所述网络来监测和控制所述计算装置，其中

所述通信包括所述网络元件执行以下中的至少之一：访问所述计算装置的错误日志、在所述计算装置上执行诊断操作、以及通过所述网络来重新启动所述计算装置。