CN102375764A - 在软件部署中进行故障管理的方法和系统 - Google Patents

在软件部署中进行故障管理的方法和系统 Download PDF

Info

Publication number
CN102375764A
CN102375764A CN2011102286279A CN201110228627A CN102375764A CN 102375764 A CN102375764 A CN 102375764A CN 2011102286279 A CN2011102286279 A CN 2011102286279A CN 201110228627 A CN201110228627 A CN 201110228627A CN 102375764 A CN102375764 A CN 102375764A
Authority
CN
China
Prior art keywords
operating system
bios
target machine
remedial measures
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102286279A
Other languages
English (en)
Other versions
CN102375764B (zh
Inventor
L·皮彻蒂
A·佩罗尼
C·马里内利
R·萨勒姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN102375764A publication Critical patent/CN102375764A/zh
Application granted granted Critical
Publication of CN102375764B publication Critical patent/CN102375764B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明涉及在软件部署中进行故障管理的方法和系统。具体地,本发明提供了一种向目标机器的操作系统部署期间进行故障管理故障的方法,所述操作系统部署包括:运行渐进的硬件发现以捕获与目标机器有关的清单信息,以及将所述清单信息存储在清单数据存储库中。该方法包括:监控OS部署以在预定持续时间内检测预OS环境中的操作系统部署中的故障;响应于该预定持续时间到期而发出故障监控完成通知;确定在监控操作系统部署的步骤期间是否已经生成了故障代码;如果检测到故障代码,则使用该故障代码和清单信息来从补救存储库确定与BIOS有关的补救措施,并且执行该补救措施。

Description

在软件部署中进行故障管理的方法和系统
技术领域
本发明总体上涉及计算机系统管理,并且具体地涉及管理软件部署中的故障的方法和系统。
背景技术
随着现代计算机系统复杂性的增加,需要改善对软件部署的管理。软件部署管理涉及按照特定顺序的多个管理任务,直到完成软件安装为止。然而,在部署软件的过程中,可能发生错误或故障。特别是因为发生在执行给定任务期间的错误可能影响其他任务的执行,因此监控这种错误是重要的挑战。在向目标机器部署操作系统期间进行故障管理更具挑战,因为目标机器在部署操作系统之前具有非常有限的能力。
US 2008/0077935提供了如下解决方案,该解决方案用于在执行系统管理流时,使用工作流引擎与该工作流引擎所调用的任务之间的标准协议来处理可解决的和不可解决的错误。然而,这一方法是静态的,并且需要来自管理员的人工干预来补救故障。进一步,该方法不允许处理目标机器上的远程控制的软件安装中的错误。因此,该方法不适于在操作系统部署期间或在复杂的服务器级系统中自动地管理故障。
发明内容
为了解决这些和其他问题,提供了根据所附独立权利要求1的、处理目标数字设备上的远程控制的软件安装中的错误的方法,以及分别根据所附权利要求11、12和13的计算机程序、计算机可读介质以及系统。在所附从属权利要求中限定了优选实施方式。
本发明相应地提供了用于特别是在复杂的/差别化的服务器级环境中处理远程操作系统(OS)部署中的错误的有效的解决方案。
本发明进一步提供并利用了向服务器发送的清单(inventory)信息(硬件细节、BIOS等级、DASD-直接存取存储设备接口细节),其有助于在服务器侧识别正确的补救措施。
本发明的另一优点是对可能发生在所考虑的环境中的挂起情形进行补救。在计算系统(诸如个人计算机或服务器)中,在单个计算机程序或整个系统未能对用户输入(例如键盘和鼠标输入、或者利用控制设备输入键入的其他命令)进行响应时,发生挂起或冻结。根据本发明的实施方式,可以通过在网卡中利用带外(out-of-bound)通信、强制远程重新引导,来解决由服务器检测到的挂起状况。然后,这使得可以自动恢复操作系统(OS)部署流。
本发明还使得能够用在将要在所述预OS环境中运行的BIOS和I/O驱动器接口上的测试套件来仿真真实的行为。
与限于静态查看的现有技术文献不同,本发明的进一步优点是处理如下场景:在操作系统(OS)设置场景期间,目标故障被渐进发现,并且需要响应于检测到引导故障并根据硬件清单和症状目录,例如利用自动的BIOS刷新或其他的固件更新或重新配置,来动态地解决该目标故障。
在研究附图和详细描述后,本发明的进一步优点对于本领域技术人员将变得清楚。旨在将任何附加的优点都包含在其中。
附图说明
现在将参考附图、通过示例的方式描述本发明的实施方式,其中相似的参考标号表示类似的元件,并且其中:
图1示意性地图示了操作系统部署(OSD)内核与执行I/O操作的I/O驱动器之间的交互;
图2示意性地示出了用于实现操作系统部署的示例性架构;
图3示出了根据本发明特定实施方式的故障管理系统;
图4A和图4B表示在OS部署的硬件发现阶段期间捕获的示例性清单数据;
图5示出了用于OS部署的流程图;以及
图6示出了用于OS部署期间的故障管理的流程图。
具体实施方式
根据本发明的特定实施方式,提供了一种用于自动地管理对目标机器的操作系统部署期间的故障的方法。目标机器可以是任何类型的计算机机器或系统,无论是物理的还是虚拟的(例如工作站、移动/手持设备等)。
本发明可以应用于对具有客户端库的增强型浏览器、或管理程序、或虚拟机、或其组合的按需的或实时的安装中的故障管理。
通常紧接在引导之后从系统存储器加载和执行操作系统。预OS引导用于在加载和执行操作系统之前引导计算机系统。在预OS环境期间,计算机系统能力是有限的,这提供有限的资源来监控OS部署故障。
为便于理解本发明,下面是在特定优选实施方式的详细描述中使用的特定表达的定义:
OS表示操作系统。OSD表示操作系统部署。操作系统(OS)表示管理计算设备的硬件和软件的软件,该计算设备诸如智能电话、计算机、手持计算机、台式计算机、膝上型计算机、超级计算机、视频游戏控制台、机器人、如洗碗机或洗衣机之类的家用电器、便携式媒体播放器等。操作系统向应用程序和用户提供多个服务。应用通过应用编程接口(API)或系统调用来访问这些服务。常见的当代操作系统包括AIX或Linux。
NTFS是Microsoft Windows系统的标准文件系统。
IO(或I/O)代表“输入/输出”,并且表示信息处理系统的不同的功能性单元用来彼此通信的接口集合。
BIOS代表基本输入/输出系统,其是限定引导固件的事实上的标准。BIOS的功能是识别、测试和初始化系统设备,诸如视频显卡、硬盘、软盘、以及其他硬件。BIOS将机器准备为已知状态,从而使得存储在兼容介质上的软件能够被加载、执行对计算机给出控制。大多数时候,BIOS程序存储在芯片上。某些组件携带其自身的BIOS扩展ROM,该ROM提供附加的功能性。操作系统和软件取代这些基本的功能性并向应用提供替代软件接口。当存储在可重写存储器中时,刷新BIOS表示用BIOS映像重写BIOS内容的处理。将BIOS更新到较新版本以修复特定缺陷(bug),用以支持较新的硬件,或者用以修复受损的BIOS。如果没有正确地进行操作,则其可能致使系统不可操作。
EUFI(或EFI或UEFI)是“(统一)可扩展固件接口”的缩写,其是定义操作系统与平台固件之间的软件接口的规范。EFI是计算机中存在的BIOS固件接口的大得多的、更复杂的、类OS的替代。EFI规范由统一EFI论坛管理。
PXE是指“预引导执行环境”并且又称为预执行环境或“pixie”。其表示用以使用独立于可用数据存储设备(诸如硬盘)或所安装的操作系统的网络接口来引导计算机(客户端或服务器)的环境。PXE利用若干网络协议,如网际协议(IP)、用户数据报协议(UDP)、动态主机配置协议(DHCP)以及小文件传输协议(TFTP),并且利用多个概念,如全球唯一标识符(GUID)、通用唯一标识符(UUID)以及通用网络设备接口。其利用一组预定应用编程接口(API)来扩展PXE客户端(有待经由PXE引导装入(bootstrap)的计算机)的固件。术语PXE客户端仅仅是指机器在PXE引导处理中所承担的角色。PXE客户端可以是配备有PXE引导代码的服务器、台式机、膝上型计算机或者任何其他机器。
WINPE表示“Windows预安装环境”,其是用于部署工作站和服务器的某些Windows系统的轻量级版本。其是在Windows安装阶段期间MS-DOS的替代,并且能够经由PXE或存储设备来引导。对于Windows的部署,可以使用微软公司的Windows PE。对于Linux的部署,可以使用IBM的MCP Linux环境。
设置管理器是指设置管理器系统,诸如TPMfOSD(用于操作系统部署的Tivoli设置管理器)。Tivoli是IBM公司的商标。尽管描述利用TPMfOSD提供了示例,但应当理解,本发明的实施方式不限于这一特定环境。
用于远程地管理裸机目标(例如个人计算机)上的OS安装和部署的系统通常以无人管理的方式与远程机器交互(通过其BIOS),从而加载预引导微型OS环境(例如网络之上的PXE),转移和准备可安装或可恢复的映像,然后作用于它们。结果可能是克隆的机器或者模板机器的特定化。在预引导阶段期间的所有情况下,利用在目标系统BIOS中可用的特征和接口而发生交互。
这例如可以使用用于OS部署的Tivoli设置管理器(TPMfOSD)来完成。这一系统显露特征以利用PXE协议集在裸机机器上安装OS映像。操作者一般地将硬件配置任务绑定到OS映像的部署。这些配置任务通常在实际部署OS映像之前执行以便正确地配置机器固件;这种任务的示例包括刷新/设置BIOS或RAID盘配置。
TPMfOSD中的硬件配置的典型场景包括以下步骤:
1.管理员在服务器上输入特定硬件工具包;
2.操作者配置选择目标机器的任务;
3.在发布硬件配置任务后,将与所发现的硬件目标和任务配置设置匹配的工具包下载到目标机器上。
然后在目标机器上执行以下附加步骤:
-将该环境加载在作为RAM盘的存储器中;RAM盘是仿佛该存储器是盘驱动(辅助存储设备)那样对待计算机的软件的一块RAM(主存储设备或易失性存储器)。其有时称为虚拟RAM驱动或软件RAM驱动,以将其作为“主存储设备”的用法与使用包含RAM的分立硬件的“硬件RAM驱动”(诸如固态驱动)区分开。
-基于经由web接口作出的选择,将任何附加的二进制或配置文件添加到RAM盘;
-计算机引导RAM盘;
-执行硬件配置任务;
-RAM盘重新引导;
-如果进行了任何选择,则恢复进行部署序列,但硬件配置还可以作为单独任务而运行。
对于“台式机”和“膝上型计算机”环境,对于OS部署而言待管理的特征是稳定的,这是因为它们在这一等级的系统中表现为高标准化级别。特征是从BIOS以及可能地从某些内核IO驱动器(例如NTFS)实现的。
当试图解决服务器级系统时,由于BIOS中的高差别化和低级别软件组件而出现了若干问题。例如,可能存在某些不稳定性和性能问题。管理这种交互时的故障将通过“挂起”或连续的重新引导来显示(manifest)其本身。
图1图示了OSD内核与执行I/O操作所需的I/O驱动器之间的交互。
如图所示,BIOS和预引导环境可操作地交互。为执行I/O操作,操作系统部署(OSD)内核100进行对BIOS/EUFI 110或对内部NTFS驱动器101的调用。备选地,NTFS驱动器101可以调用BIOS/EUFI110,BIOS/EUFI 110可以调用I/O驱动器120。I/O驱动器120实现实际I/O操作。
当前,通过手动地检测和修复发生故障的BIOS以及通过刷新目标机器上的BIOS更新,来解决“挂起”或连续重新引导问题。这一非自动处理缺乏效率并且可能极其繁琐。其可能需要特定版本的BIOS。不可能将这种任务作为标准软件依赖关系来管理:同一BIOS版本能够在给定的硬件环境上工作,而不能在另一硬件环境上工作。
本发明改善了用于管理OS部署期间的故障的方法和系统的情形,特别是对于复杂的和差别化的服务器级系统而言。即使本发明具有针对复杂的和差别化的服务器级系统的特定优点,其也不限于这种系统。来自硬件/固件准备和OS安装步骤的多数常见故障通过异常、利用服务器侧症状目录来处理并且通过触发最适当的设置动作(例如BIOS刷新、其他固件更新和重新配置)来自动地补救。
图2图示了根据本发明某些实施方式的用于将操作系统部署到目标机器的示例性部署架构20。
部署架构20包括:
-参考计算机机器200,用于捕获要在操作系统部署处理期间使用的操作系统映像;
-操作部署服务器210,用作用于操作系统部署的设置管理器。提供服务器210以捕获操作系统映像和在目标计算机机器上部署这些操作系统映像,以及还使用与所考虑的目标机器相关的清单信息以及与检测到的故障相关的信息来管理OS部署期间的故障。
-目标机器220和221,在其上,服务器210以联机模式(即通过与目标机器220和221的直接网络连接)执行操作系统部署操作;
-脱机存储设备230,诸如CD或DVD或硬驱动或适于存储的任何其他设备,在其上,服务器210以脱机模式存储其先前已经针对部署目标计算机系统而克隆和准备的操作系统映像;以及
-目标计算机机器231,在其上,服务器210以脱机模式执行操作系统部署操作,即不需要或要求来自服务器210的直接网络连接。
图2中所表示的系统组件在操作系统克隆和部署处理期间进行协作。操作系统和软件先前已经安装到参考计算机机器200,其形成参考操作系统映像。参考操作系统映像将是由OSD服务器210执行的操作系统部署操作的对象。OSD服务器210从参考计算机机器200创建克隆参考操作系统映像,并将这一克隆的映像存储在其本地存储设备中,从而使得其准备好在操作系统部署操作期间使用。备选地,服务器210还将这一克隆的映像存储在脱机存储设备230(诸如DVD或CD)上,从而使得其准备好在操作系统部署操作期间使用。
OSD服务器210可以支持两种类型的操作系统部署。第一OS部署类型以联机模式执行并使用服务器210与目标机器220或221之间的直接网络连接。在这一联机模式中,OSD服务器计算机210在目标机器220或221上直接部署克隆的参考操作系统映像。第二OS部署类型以脱机模式发生,因为在服务器210与目标机器231之间不需要直接连接。在这一第二OS部署中,操作者或管理员使用存储设备230(克隆的操作系统映像存储在其上),并且将操作系统手动地部署在目标机器231上。
图3图示了根据本发明某些实施方式的用于处理OS部署期间的故障的系统。任何时候,用信号通知OSD服务器210所实现的用以向目标机器31部署OS的OS部署过程的进行状况,并且OSD服务器210适于接收与OS部署过程的每个阶段的结果相关的通知(成功通知、故障通知或者其他类型的指示符)。
根据本发明的某些实施方式,OS部署服务器210配备有错误处理组件332。错误处理组件332使用来自清单数据存储库333的、源于目标机器处的渐进的硬件发现的清单信息,来自动地管理故障通知(目标和源发服务器)。
硬件发现(或硬件捕获)在每次PXE引导时捕获与目标机器相关的硬件信息。
图4A和图4B表示在清单信息存储库333中能够维持的示例性清单信息。清单信息包括与目标机器相关的、将用于在检测到故障时确定所需的补救措施的参数,诸如标识硬件机器的PCI代码(VersionID、DevicelD、SUbdevice ID,...)。
返回到图3,错误处理组件332包括:故障检测单元334,用于检测OS部署期间的故障;以及补救处理单元335,用于响应于故障检测、基于从故障检测单元接收的故障信息和在清单信息存储库333中维持的清单信息,而触发补救措施。当检测到故障时,补救处理单元335使用所报告的故障搜索补救存储库336(在下文中也称为错误目录)以获取适当的补救措施。
补救存储库336将补救措施与故障代码和清单信息相关联,诸如以下示例性表所示:
 故障代码   清单信息  补救措施
 故障代码x   PCI代码x  BIOS版本x
 故障代码y   PCI代码y  BIOS版本y
错误处理组件332进一步适于控制从补救存储库336获取的补救措施的执行。补救措施可以包括例如用于BIOS更新的BIOS刷新动作或者任何其他适当的补救措施。可选地,BIOS和IO驱动器接口上的测试套件可以在预OS环境中运行。这一测试套件可以在PXE引导之后运行,并且可以帮助在实际工作期间减少故障发生。测试套件能够使用信令协议。
图5是根据本发明某些实施方式的用于OS部署的流程图。
在步骤500中,在目标机器激活后,将控制传递到BIOS以便检查引导序列。通过PXE协议将引导序列设置为从网络启动。BIOS/PXE逻辑联系引导服务器(通过示例的方式,引导服务器在TPMfOSD服务器本身中运行),并且预OS内核被下载并在目标机器31上启动。
在步骤510中,预OS内核执行硬件发现并向OSD服务器210发送回清单数据。将服务器接收到的清单数据存储在清单存储库333中。
在步骤510中,反复地执行BIOS测试套件以基于在清单存储库333中维持的清单信息,而检测OS部署期间的故障(下面参考图6而描述)。
然后从OSD服务器下载虚拟盘(ramdisk)(诸如WINPE和/或MCP虚拟盘)并启动该虚拟盘。
在步骤511中,可以执行硬件配置任务(例如刷新或设置BIOS)。可以加载用于配置硬件的特定工具并在WINPE/MCP之上运行该特定工具,从而使得使用标准OS运行时间来实际地执行任务。
在步骤520中,OSD代理在WINPE之上运行,并执行分区创建和对文件系统中的文件的实际复制。可以加载用于创建分区和复制文件的OSD代理并在虚拟盘(例如WINPE/MCP)之上运行该OSD代理,以便使用标准OS运行时间来实际地执行任务。一旦完成这些操作,虚拟盘WINPE/MCP就重新引导(因为直接加载预OS内核一般是不可能的)。
在步骤540中,在重新引导后,BIOS再次承担控制并重复步骤500到520。
在步骤550中,预OS内核检测在前一阶段中是否已经发生了错误。其将任何错误传送给OSD服务器。其还检查待执行的附加任务。在这一阶段,其在硬盘上引导OS,并且还前进到设置待在OS起动时运行的OSD代理。
在步骤560中,当OS引导时,OSD工具启动并激活特定OS工具以定制OS(诸如OS联网配置、用户设置、语言设置等)。例如,在Microsoft Windows(Windows是微软公司在美国和其他国家的注册商标)的情况下,可以执行“sysprep”工具,特别是以便使操作系统准备好经由磁盘映像来进行磁盘克隆和恢复。在这一步骤之后,可以安装附加的安装包。然后“sysprep”重新引导和重新引导序列再次启动。
在步骤570中,当重新引导时,BIOS再次承担控制并像在步骤500中一样重新启动该序列。
在步骤580中,预OS内核检查故障和附加任务,然后可以可选地安装附加的安装包。
在步骤590中,如果没有其他动作要执行,则OS被引导和正常地启动。
图6是用于故障监控和OS部署补救的流程图。流程图的左边部分表示由预OS内核执行的步骤,而流程图的右边部分表示由OSD服务器210执行的步骤。
故障监控在预OS内核的渐进的硬件发现阶段期间执行。在步骤600中,预OS内核将在硬件捕获期间所发现的清单数据发送给OSD服务器210用于存储。在步骤602中将由服务器接收到的清单数据存储在清单存储库333中。
在步骤603中,通过向服务器210通知测试启动来发起测试套件。
在步骤604中,服务器210注册测试启动时间,然后在步骤605中在预OS内核侧运行BIOS测试套件。并行地,服务器210等待预定时间量(步骤606)直到向目标通知测试完成(607)为止。
如果向目标通知了测试完成,则服务器210在步骤608中复位启动测试时间,然后在步骤609中确定该测试是否成功。如果测试成功,则部署继续到步骤610。
否则,如果已经检测到故障,则部署过程在步骤611中结束。当在测试套件期间检测到故障时,生成故障代码。然后,使用故障代码和在清单存储库333中可获得的清单信息,来从补救存储库336中确定补救措施。补救措施可以包括识别将被刷新的新BIOS版本。然后,步骤612刷新所识别的新BIOS,并且通过返回到步骤600来重新启动部署流。
如果服务器在预定时间量已经到期之后没有接收到测试完成通知(步骤613和614),则服务器210确定目标机器处于挂起状态并且在步骤615中依赖于硬件配置而选择新的BIOS版本。步骤616使用带外技术(即AMT)将新的BIOS刷新到目标上。然后,重新引导机器,并且通过返回到步骤600来重新启动部署流。
本发明由此提供了用于处理OS部署期间的故障的自动和高效的方法,而不需要来自用户或管理员的手动操作。错误处理组件332使用在硬件发现期间所发现的信息来检测故障,并基于故障信息来确定要在发生故障的目标上执行的补救措施。刷新BIOS被认为是危险的操作,其可能致使目标机器无法使用。通过根据检测到的故障以及由已更新的BIOS版本,在硬件发现期间渐进地捕获的清单信息自动地提供补救措施,本发明进一步避免了此类不希望的/不适当的BIOS刷新操作。
本发明可以采取完全硬件实施方式、完全软件实施方式或者包含硬件元件和软件元件两者的实施方式的形式。在优选实施方式中,本发明以软件实现,该软件包括但不限于固件、驻留软件、微代码等。特别地,应当意识到,图5和图6的很多组件的功能性可以借助于软件、硬件或者这些软件和硬件的任何组合的固件来实现。例如,在高性能系统中,Java执行的硬件实现可以证明是有利的。
另外,本发明可以采取计算机程序产品的形式,该计算机程序产品可从计算机可用或计算机可读介质访问,该计算机可用或计算机可读介质提供由计算机或任何指令执行系统使用或者结合计算机或任何指令执行系统使用的程序代码。出于本描述的目的,计算机可用或计算机可读介质可以是能够包含、存储、传送、传播或传输由指令执行系统、装置或设备使用或者结合指令执行系统、装置或设备使用的程序的任何装置。
Tivoli是IBM公司在美国、其他国家或这两者中的商标。其他公司、产品或服务名称可以是其他的商标或服务标记。

Claims (13)

1.一种在向目标机器的操作系统部署中进行故障管理的方法,所述操作系统部署包括运行渐进的硬件发现,以捕获与所述目标机器有关的清单信息,以及将所述清单信息存储在清单数据存储库中,其中所述方法包括:
a-监控所述操作系统部署以在预定持续时间内检测预操作系统环境中的操作系统部署中的故障,
b-响应于所述预定持续时间到期而发出故障监控完成通知,
c-确定在所述监控所述操作系统部署的步骤期间是否已经生成了故障代码,以及
d-如果在步骤c中检测到故障代码,则使用所述故障代码和所述清单信息,来确定与BIOS有关的至少一个补救措施,并且执行所述至少一个补救措施。
2.根据权利要求1所述的方法,其中所述方法包括:如果在所述预定持续时间内没有发出故障监控完成通知,则检测所述目标机器的挂起状态,并且响应于检测到所述挂起状态而执行至少一个补救措施。
3.根据权利要求2所述的方法,其中响应于检测到所述挂起状态而执行的所述至少一个补救措施包括:
-依赖于硬件配置而选择新的BIOS版本,以及
-使用带外技术将所述新的BIOS刷新到目标上。
4.根据权利要求2或3所述的方法,其中响应于检测到所述挂起状态而执行的所述至少一个补救措施进一步包括:强制远程重新引导所述目标机器。
5.根据权利要求4所述的方法,其中所述强制远程重新引导的步骤在所述目标机器的网卡中使用带外通信。
6.根据任一前述权利要求所述的方法,其中所述步骤d包括从补救存储库确定所述至少一个补救措施。
7.根据任一前述权利要求所述的方法,其中在步骤d中确定的所述至少一个补救措施包括:依赖于所述故障代码和所述清单信息而选择新的BIOS版本,以及刷新所述新的BIOS版本。
8.根据任一前述权利要求所述的方法,其中在步骤d中确定的所述至少一个补救措施包括:更新或重新配置所述目标机器的固件。
9.根据任一前述权利要求所述的方法,其中所述清单信息包括以下信息之中的至少一个:硬件细节、BIOS等级或者直接存取存储设备接口细节。
10.根据任一前述权利要求所述的方法,其中所述监控操作系统部署的步骤包括:用在将要在所述预操作系统环境中运行的BIOS和I/O驱动器接口上执行的一系列测试来仿真所述机器的行为。
11.一种计算机程序,包括当在合适的计算机上执行所述计算机程序时用于执行根据权利要求1到10中任一项的方法的步骤的指令。
12.一种计算机可读介质,其上编码有根据权利要求11的计算机程序。
13.一种系统,包括适于执行根据权利要求1到10中任一项所述的方法的步骤的装置。
CN201110228627.9A 2010-08-13 2011-08-05 在软件部署中进行故障管理的方法和系统 Expired - Fee Related CN102375764B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP10172796.4 2010-08-13
EP10172796 2010-08-13

Publications (2)

Publication Number Publication Date
CN102375764A true CN102375764A (zh) 2012-03-14
CN102375764B CN102375764B (zh) 2015-04-22

Family

ID=45565655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110228627.9A Expired - Fee Related CN102375764B (zh) 2010-08-13 2011-08-05 在软件部署中进行故障管理的方法和系统

Country Status (2)

Country Link
US (1) US8930769B2 (zh)
CN (1) CN102375764B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104898459A (zh) * 2015-04-13 2015-09-09 南京阿凡达机器人科技有限公司 一种基于命令行接口的机器人测试系统及测试方法
CN105204929A (zh) * 2015-11-10 2015-12-30 中国建设银行股份有限公司 批处理调度方法、装置和系统
CN106154906A (zh) * 2016-05-03 2016-11-23 北京光年无限科技有限公司 面向智能操作系统的故障报告方法及机器人操作系统
CN106383507A (zh) * 2015-07-10 2017-02-08 法国大陆汽车公司 车辆发动机控制系统的故障管理方法
CN106776315A (zh) * 2016-12-14 2017-05-31 华为技术有限公司 检测版本的方法和装置
CN103809988B (zh) * 2012-11-07 2017-09-29 联想(北京)有限公司 一种信息处理方法及电子设备
CN110399260A (zh) * 2018-04-24 2019-11-01 Emc知识产权控股有限公司 用于预测性地服务和支持解决方案的系统和方法
CN112148650A (zh) * 2020-09-30 2020-12-29 Oppo广东移动通信有限公司 一种存储控制器的设计方法、装置、设备以及存储介质
CN112306747A (zh) * 2020-09-29 2021-02-02 新华三技术有限公司合肥分公司 一种raid卡故障处理方法及装置
CN113132150A (zh) * 2020-01-14 2021-07-16 通用汽车环球科技运作有限责任公司 控制器局域网故障检测和恢复
CN116088954A (zh) * 2023-04-10 2023-05-09 江苏博云科技股份有限公司 一种基于pxe和带外安装共存的操作系统安装方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053005B2 (en) 2008-01-02 2015-06-09 Micron Technology, Inc. Recycled version number values in flash memory
US8504869B2 (en) * 2010-07-16 2013-08-06 Commvault Systems, Inc. Kernel swapping systems and methods for recovering a network device
US20130117749A1 (en) * 2011-11-03 2013-05-09 Microsoft Corporation Provisioning and Managing an Application Platform
US8725702B1 (en) * 2012-03-15 2014-05-13 Symantec Corporation Systems and methods for repairing system files
JP5488634B2 (ja) * 2012-03-29 2014-05-14 日本電気株式会社 情報処理装置、管理コントローラ、システム時刻同期方法、及びプログラム
TWI453581B (zh) * 2012-04-09 2014-09-21 Asrock Inc 偵測硬體的方法
US8972973B2 (en) * 2012-06-27 2015-03-03 Microsoft Technology Licensing, Llc Firmware update discovery and distribution
US9329943B2 (en) * 2013-01-08 2016-05-03 Symantec Corporation Methods and systems for instant restore of system volume
US9405645B2 (en) * 2013-11-14 2016-08-02 Microsoft Technology Licensing, Llc User support experience with automatically generated virtual environment
US20150242282A1 (en) * 2014-02-24 2015-08-27 Red Hat, Inc. Mechanism to update software packages
CN105022677B (zh) * 2014-04-24 2018-06-26 中国信息安全测评中心 一种usb设备使用记录恢复检查方法
US20160019117A1 (en) 2014-07-16 2016-01-21 Commvault Systems, Inc. Creating customized bootable image for client computing device from backup copy
CN104598278B (zh) * 2015-01-16 2018-02-27 联想(北京)有限公司 一种数据处理方法及电子设备
CN104639370A (zh) * 2015-02-02 2015-05-20 浪潮电子信息产业股份有限公司 一种通过带外管理获取系统pci-e设备信息的方法
US9912528B2 (en) * 2015-12-22 2018-03-06 Mcafee, Llc Security content over a management band
US10705825B2 (en) * 2018-09-20 2020-07-07 Hewlett Packard Enterprise Development Lp Creation of images
US11068333B2 (en) 2019-06-24 2021-07-20 Bank Of America Corporation Defect analysis and remediation tool
CN112882908B (zh) * 2019-11-29 2023-08-01 北京百度网讯科技有限公司 用于生成信息的方法和装置
US11237924B2 (en) 2019-12-11 2022-02-01 Commvault Systems, Inc. Dynamic resizing and re-distribution of destination data storage resources for bare metal restore operations in a data storage management system
US11687431B2 (en) * 2021-01-18 2023-06-27 Dell Products L.P. Determining changes to components of a computing device prior to booting to a primary environment of the computing device
CN114546504B (zh) * 2022-02-21 2023-07-07 联想开天科技有限公司 基于LiveCD系统的自动化灌装操作方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6587966B1 (en) * 2000-04-25 2003-07-01 Hewlett-Packard Development Company, L.P. Operating system hang detection and correction
US20080046708A1 (en) * 2003-11-26 2008-02-21 Hewlett-Packard Development Company, L.P. System and Method for Management and Installation of Operating System Images for Computers
CN101135984A (zh) * 2007-01-08 2008-03-05 中兴通讯股份有限公司 硬件信息备份装置、运行信息备份及检测信息保存方法
US7543277B1 (en) * 2003-06-27 2009-06-02 American Megatrends, Inc. Method and system for remote software debugging

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6865737B1 (en) 2000-08-23 2005-03-08 Microsoft Corporation Remote software installation and maintenance
US7673301B1 (en) * 2003-02-26 2010-03-02 American Megatrends, Inc. Methods and systems for updating and recovering firmware within a computing device over a distributed network
US7350201B2 (en) 2003-10-23 2008-03-25 International Business Machines Corporation Software distribution application supporting operating system installations
US20060195839A1 (en) 2005-02-28 2006-08-31 Microsoft Corporation Computer system for deploying software on multiple computers
US7487343B1 (en) 2005-03-04 2009-02-03 Netapp, Inc. Method and apparatus for boot image selection and recovery via a remote management module
US20060253555A1 (en) 2005-05-04 2006-11-09 Kwok-Yan Leung Remote control apparatus
US7546448B2 (en) 2006-02-21 2009-06-09 Microsoft Corporation Boot architecture discovery in pre-boot environment
US7840857B2 (en) 2006-09-25 2010-11-23 International Business Machines Corporation Method and system for automated handling of resolvable and non-resolvable errors in execution of system management flows consisting of system management tasks
US8001429B2 (en) 2006-09-25 2011-08-16 International Business Machines Corporation Method and system for automated handling of errors in execution of system management flows consisting of system management tasks
US7913075B2 (en) 2007-07-03 2011-03-22 Pmc-Sierra, Inc. Systems and methods for automatic provisioning of storage and operating system installation from pre-existing iSCSI target
BRPI0924133B1 (pt) * 2009-04-29 2021-09-28 Hewlett-Packard Development Company, L.P. Método para gerenciamento de imagem de bios, máquina e meio não transitório legível por computador

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6587966B1 (en) * 2000-04-25 2003-07-01 Hewlett-Packard Development Company, L.P. Operating system hang detection and correction
US7543277B1 (en) * 2003-06-27 2009-06-02 American Megatrends, Inc. Method and system for remote software debugging
US20080046708A1 (en) * 2003-11-26 2008-02-21 Hewlett-Packard Development Company, L.P. System and Method for Management and Installation of Operating System Images for Computers
CN101135984A (zh) * 2007-01-08 2008-03-05 中兴通讯股份有限公司 硬件信息备份装置、运行信息备份及检测信息保存方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103809988B (zh) * 2012-11-07 2017-09-29 联想(北京)有限公司 一种信息处理方法及电子设备
CN104898459A (zh) * 2015-04-13 2015-09-09 南京阿凡达机器人科技有限公司 一种基于命令行接口的机器人测试系统及测试方法
CN106383507A (zh) * 2015-07-10 2017-02-08 法国大陆汽车公司 车辆发动机控制系统的故障管理方法
CN105204929A (zh) * 2015-11-10 2015-12-30 中国建设银行股份有限公司 批处理调度方法、装置和系统
CN105204929B (zh) * 2015-11-10 2018-10-19 中国建设银行股份有限公司 批处理调度方法、装置和系统
CN106154906B (zh) * 2016-05-03 2019-11-29 北京光年无限科技有限公司 面向智能操作系统的故障报告方法及机器人操作系统
CN106154906A (zh) * 2016-05-03 2016-11-23 北京光年无限科技有限公司 面向智能操作系统的故障报告方法及机器人操作系统
CN106776315A (zh) * 2016-12-14 2017-05-31 华为技术有限公司 检测版本的方法和装置
CN110399260A (zh) * 2018-04-24 2019-11-01 Emc知识产权控股有限公司 用于预测性地服务和支持解决方案的系统和方法
CN110399260B (zh) * 2018-04-24 2024-03-26 Emc知识产权控股有限公司 用于预测性地服务和支持解决方案的系统和方法
CN113132150A (zh) * 2020-01-14 2021-07-16 通用汽车环球科技运作有限责任公司 控制器局域网故障检测和恢复
CN112306747A (zh) * 2020-09-29 2021-02-02 新华三技术有限公司合肥分公司 一种raid卡故障处理方法及装置
CN112306747B (zh) * 2020-09-29 2023-04-11 新华三技术有限公司合肥分公司 一种raid卡故障处理方法及装置
CN112148650A (zh) * 2020-09-30 2020-12-29 Oppo广东移动通信有限公司 一种存储控制器的设计方法、装置、设备以及存储介质
CN112148650B (zh) * 2020-09-30 2022-07-19 Oppo广东移动通信有限公司 一种存储控制器的设计方法、装置、设备以及存储介质
CN116088954A (zh) * 2023-04-10 2023-05-09 江苏博云科技股份有限公司 一种基于pxe和带外安装共存的操作系统安装方法

Also Published As

Publication number Publication date
US8930769B2 (en) 2015-01-06
US20120042195A1 (en) 2012-02-16
CN102375764B (zh) 2015-04-22

Similar Documents

Publication Publication Date Title
CN102375764B (zh) 在软件部署中进行故障管理的方法和系统
CN110572436B (zh) 多地跨集群的服务器部署方法及系统
US9697011B2 (en) Techniques for computer system recovery
US8910172B2 (en) Application resource switchover systems and methods
CN100525206C (zh) 自动恢复设备故障的实现方法及系统
US10379922B1 (en) Error recovery in a virtual machine-based development environment
US20050193261A1 (en) Configuration proxy service for the extended firmware interface environment
KR100952585B1 (ko) 운영체제(os) 자동복구기능을 갖는 임베디드 시스템 및운영체제 자동복구 방법
US20070101328A1 (en) Sequencing a single task sequence across multiple operating environments
WO2010000142A1 (zh) 一种分布式网管系统及其维护管理方法
JPWO2012168995A1 (ja) I/oスイッチの制御方法、仮想計算機の制御方法及び計算機システム
US7392149B2 (en) Automatic software testing
US9183092B1 (en) Avoidance of dependency issues in network-based service startup workflows
US10353729B1 (en) Managing service dependencies across virtual machines in a development environment
CN107247596A (zh) 开机方法、装置及电子设备
US20170060598A1 (en) Managed boot process system
CN106484442B (zh) 服务器系统及更新开机映像档的方法
JP5387767B2 (ja) 実行中のプログラムの更新技術
US10509646B2 (en) Software update rollbacks using file system volume snapshots
US9405605B1 (en) Correction of dependency issues in network-based service remedial workflows
JP6818654B2 (ja) 試験自動化装置、試験方法、及びプログラム
KR100861751B1 (ko) 다중 피씨사용시설에서의 다중 피씨의 관리시스템
CN112817642A (zh) X86平台使用固件自动切换启动efi操作系统的方法、装置
CN111240589A (zh) 基于分区隔离的系统管理方法、装置、设备及存储介质
Headrick et al. Automated configuration of modern ATE

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150422

Termination date: 20200805

CF01 Termination of patent right due to non-payment of annual fee