JP2011128795A - 情報処理装置及び情報処理装置の障害復旧方法 - Google Patents

情報処理装置及び情報処理装置の障害復旧方法 Download PDF

Info

Publication number
JP2011128795A
JP2011128795A JP2009285491A JP2009285491A JP2011128795A JP 2011128795 A JP2011128795 A JP 2011128795A JP 2009285491 A JP2009285491 A JP 2009285491A JP 2009285491 A JP2009285491 A JP 2009285491A JP 2011128795 A JP2011128795 A JP 2011128795A
Authority
JP
Japan
Prior art keywords
recovery
bmc
failure
recovery process
pci
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009285491A
Other languages
English (en)
Other versions
JP4873073B2 (ja
Inventor
Yoji Tabuchi
陽治 田渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009285491A priority Critical patent/JP4873073B2/ja
Priority to US12/969,226 priority patent/US8677177B2/en
Publication of JP2011128795A publication Critical patent/JP2011128795A/ja
Application granted granted Critical
Publication of JP4873073B2 publication Critical patent/JP4873073B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1441Resetting or repowering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】割り込みマスクの状態下でもリカバリ処理を行うことを可能にし、代替装置でのリカバリ処理時に、OSへのPCIデバイスの再組み込みまで自動的に行う。
【解決手段】拡張カードバスの障害検出と回復手段として、OS10主体のリカバリ処理とは別に、Platform(BIOS-BMC)制御による自動復旧手段(ACPI1,BIOS2,BMC3)を設け、OS10主体による回復指示が不可能な場合には、このPlatform(BIOS-BMC)制御による自動復旧手段により、切り離しや再接続の指示を行なう。
【選択図】図1

Description

本発明は情報処理装置及び情報処理装置の障害復旧方法に係り、特に、コンピュータシステムにおけるPCI(Peripheral Component Interconnect)バスの障害発生時に自動で復旧させるリカバリ手段を備えた情報処理装置及び情報処理装置の障害復旧方法に関する。
従来、情報処理装置では、コンピュータシステムにおけるPCIバス障害発生に備えて、該障害からの復旧方法として、OS(オペレーティングシステム)(Driver)−ACPI(Advanced Configuration and Power Interface)−BIOS(Basic Input/Output System)、と連携させた復旧手段が確立されている。
以下、前記のOS主体のリカバリ処理の手順について説明する。
(1) PCIカードを使用しているOSにおける障害検出時の制御動作として、まず、OSにて、PCIバスの障害発生であることを検出する。
(2) 次に、障害を検出した前記OSからACPIへのリカバリ指示として、該OSは、ドライバ停止後、ACPIに、PCIリカバリ要求を発行する。
(3) 次に、ACPIからBIOSへのリカバリ指示として、ACPIはBIOSに対し、PMI(Platform Management Interrupt:Performance Moniroring Interrupt)を使用して、対象PCIバスのリセット要求を発行する。
(4) 次に、BIOSにおけるPCIバスのリセット処理として、BIOSは、対象PCIバスのリセットを実行し、リカバリを試みる。
(5) 次に、ACPIにおけるリカバリ結果の報告処理として、BIOSは、リカバリ結果をACPI経由でOSに報告する。
(6) 最後に、OSにおけるドライバ再組み込み処理として、正常にPCIバス が復旧したことの前記報告を受けたOSは、ドライバの再組み込みを行った後、デバイスの使用を再開する。
なお、上記のPMIは、プロセッサが発生させる割込機能であり、プラットフォームファームウェアを呼び出すために利用されている割込機能であることは周知である。
この分野では、例えば特許文献1にPCIバスの障害リカバリ方法が開示されている。そこでは、PCIバス検出手段が、閉塞されたPCIバスを検出し、この閉塞されたPCIバス及びその下流のPCIバスに接続されているPCIカードの切り離しをOSに対して要求し、OSは、要求されたPCIカードを制御から切り離し、その電源を落とす指示もBIOSに対して出力するものとし、これにより、PCIカード切離受付手段が、PCIバス診断手段を動作させ、PCIバス診断手段は、閉塞されたPCIバスが正常に動作するか否かを診断し、正常に動作する場合はPCIバス閉塞解除手段がPCIバスの閉塞を解除する、といったリカバリ処理方法が開示されている。
また、特許文献2には、複数のプロセッサと、前記プロセッサの各々に対応するバス制御回路と、前記プロセッサ間の共通装置の間を連結する共通バスとを備えて、前記共通装置を制御するバス制御方法として、前記プロセッサの前記共通装置への制御の中断を検出すると共に、該中断が所定時間を経過した時に、共通バス占有解除信号を発生する手段をバス制御回路の各々に設け、前記プロセッサと前記共通装置との連結を前記共通バス占有解除信号により切断すること、を主旨とした技術が開示されている。
さらに、特許文献3には、複数の伝送装置と、該伝送装置間を接続する各伝送路と、これらを監視する監視制御装置とを備えたネットワークにおいて、監視制御装置と所定の伝送装置との間の監視回線を二重化し、ポーリング時の監視回線と、障害発生時の監視回線とを分離したことを特徴とするネットワーク監視装置の技術が開示されている。
特開2009−116642号公報 特開昭60−191353号公報 特許第2938495号公報
ところで、上記背景技術で述べた従来の情報処理装置及び情報処理装置の障害復旧方法(例えば特許文献1記載の方法)にあっては、割り込みマスク中など、一時的にBIOSが動作できないタイミングで、OSからリカバリ指示が出た場合、BIOS側の処理が動作できないため、OSは、そのエラーリカバリを断念する結果となるといった問題点が有った。
また、その対策として、例えば、前述の特許文献2に開示されている方法のように、エラー復旧状態をBMC(Baseboard Management Controller)側で監視し、一定時間内に復旧しない場合は、BMC側でリカバリ処理を実施しようとしても、OSに対しては、リカバリ成功を報告する手段(I/F(インターフェース手段)等)が確立されていないため、OSは、PCIデバイスの再組み込みを実施できないといった問題点が有った。
さらに、上記の問題点により、障害からの自動復旧は実行されなくなり、障害発生時には、保守員によるPCIデバイスの切り離しや、再組み込みによる操作等が必要となり、障害復旧までの時間が延びてしまうといった問題点が有った。
なお、特許文献3の技術は単なる関連技術である。
上記の公知技術とは違って、本発明は、拡張カードバスの障害検出と回復手段として、
(1) 前述のOS主体のリカバリ処理とは別に、Platformの、BIOS、BMC、及びACPIの制御による自動復旧手段を設け、
(2) 前述のOS主体による回復指示が不可能な場合には、このPlatform(BIOS-BMC)の制御による自動復旧手段により、バスの切り離しや再接続の指示を行なうこと、
を骨子としている。
本発明は、上記従来の問題点に鑑みてなされたものであって、BMCによるリカバリ代替パスを設けることにより、割り込みマスクの状態下でもリカバリ処理を行うことが可能な情報処理装置及び情報処理装置の障害復旧方法を提供することを目的としている。
本発明の他の目的は、代替装置でのリカバリ処理時に、Platform主体でPCI HotPlugの機能を動作させることで、OSへのPCIデバイスの再組み込みまで自動的に移行させることを可能にして、保守員等の人手の介入無しにリカバリ処理を行うことができる情報処理装置及び情報処理装置の障害復旧方法を提供することにある。
上記課題を解決するために、本発明に係る情報処理装置は、PCIバス障害発生時のPCIリカバリ処理のパスを、プラットフォームとして構築されたOS(オペレーティングシステム)によるリカバリパスと、同じくプラットフォームとして構築されたBMC(Baseboard Management Controller)によるリカバリパスとに二重化し、割り込みマスク状態の際に、前記OSによるリカバリ処理が失敗した場合であっても、前記BMC側でのリカバリ処理を実行可能とすると共に、前記BMC側でのリカバリ処理が成功した時には、前記BMCから前記OSに通知することを特徴とする。
また、前記情報処理装置は、前記BMCに、障害発生をハードウェアの割り込み処理にて検出する割込検出手段と、PCIバス閉塞状態を、障害ステータスレジスタを監視することで検知する障害監視手段と、前記OSによるリカバリ処理が成功したか否かを検証するリカバリ処理検証手段と、前記リカバリ処理検証手段により、前記OSによるリカバリ処理が成功したと判断された場合に、前記障害監視手段を終了させる手段と、前記リカバリ処理検証手段により、前記OSによるリカバリ処理が失敗したと判断された場合に、さらに障害監視期間を超えている場合は、割り込みマスク中のため、OSによるリカバリ処理が動作不可能な状態にあると判断し、バスのリセットを行ってリカバリ処理を実行するリカバリ実行手段と、を備えたことを特徴とする。
また、本発明に係る情報処理装置の障害復旧方法は、PCIバス 障害発生時のPCIリカバリ処理のパスを、プラットフォームとして構築されたOS(オペレーティングシステム)によるリカバリパスと、同じくプラットフォームとして構築されたBMC(Baseboard Management Controller)によるリカバリパスとに二重化し、割り込みマスク状態の際に、前記OSによるリカバリ処理が失敗した場合であっても、前記BMC側でのリカバリ処理を実行可能とすると共に、前記BMC側でのリカバリ処理が成功した時には、前記BMCから前記OSに通知することを特徴とする。
さらに、前記情報処理装置の障害復旧方法は、OS(オペレーティングシステム)と共にプラットフォームとして構築されたBMC(Baseboard Management Controller)において、障害発生をハードウェアの割り込み処理にて検出する割込検出ステップと、PCIバス閉塞状態を、障害ステータスレジスタを監視することで検知する障害監視ステップと、前記OSによるリカバリ処理が成功したか否かを検証するリカバリ処理検証ステップと、前記リカバリ処理検証手段により、前記OSによるリカバリ処理が成功したと判断された場合に、前記障害監視手段とBMCにおける前記監視処理を停止し、処理を終了させるステップと、前記リカバリ処理検証手段により、前記OSによるリカバリ処理が失敗したと判断された場合に、さらに障害監視期間を超えている場合は、割り込みマスク中のため、OSによるリカバリ処理が動作不可能な状態にあると判断し、バスのリセットを行ってリカバリ処理を実行するリカバリ実行ステップと、を有することを特徴とする。
以上説明したように、本発明の情報処理装置によれば、BMCによるリカバリ代替パスを設けることにより、割り込みマスクの状態下にあってもリカバリ処理を可能にすると共に、このリカバリ代替パスでのリカバリ時に、Platform主体でPCI HotPlugの機能を動作させることでOSへのPCIデバイスの再組み込みまで自動的に移行させるので、保守員などの人手の介入無しに障害時のリカバリ処理が可能となる効果がある。
本発明の実施形態に係る情報処理装置の全体構成を示す構成図である。 本発明の実施形態に係る情報処理装置の動作を示すタイミングチャート図である。
本発明に係る情報処理装置は、コンピュータシステムにおけるPCIバス障害発生時の自動リカバリ処理を制御する機能を有する。
本発明に特徴的な手段は、前記PCIバス障害リカバリ手段として、前述のOS指示によるリカバリ処理とは別に、Platform(BIOS-BMC)制御による自動復旧方法を設けたことであり、これにより、割り込みマスクの影響で、OS主体のリカバリ処理が動作不可能な場合にも有効なリカバリ処理を実行することができる。
即ち、前述のOS指示によるリカバリ処理にあっては、ACPIからBIOSに対する指示が、他の割り込み処理や障害処理の実行中など、割り込みマスク状態にある場合には、通知できないケースが存在するため、動作不可能なタイミングが存在することになる。
そこで、本発明では、上記の対策として、障害検出時に、PCIバスのリカバリ状態を、Platform(BMC)側にて監視し、割り込みマスク状態でOS側のリカバリ処理が失敗した場合に、該Platform主体でPCIリカバリ処理を制御する。また、その際、OSに対しては、PCIバスが復旧したことを通知し、ドライバ再組み込みを促すために、PCI HotPlugの機能を活用する。
以下、上記処理手順について、さらに詳細に説明する。
(1) BMCにおける障害検出処理として、BMCは、障害発生をハードウェア(以下、「HW」と略称する)の割り込み処理にて検出する。
(2) 次に、BMCにおける障害状態監視処理として、BMCは、PCIバス閉塞状態を、障害ステータスレジスタを監視することで実行し、さらに、OSによるリカバリ処理が成功したか否かを検証する。OSによるリカバリ処理の成功は、一定時間内に障害ステータスレジスタがクリアされたか否かで判断する。
(3) OSによるリカバリ処理が成功したと判断された場合は、BMCにおける前記監視処理を停止、処理を終了する。
(4) OSによるリカバリ処理が失敗したと判断された場合、BMCは、さらに、障害監視期間を超えたら、割り込みマスク中のため、OSによるリカバリ処理が動作不可能な状態にあると判断する。
(5) (4)の場合、Platform主体のリカバリを実施する。即ち、BMCが、直接バスのリセットを行ってリカバリを実施する。
(6) 次に、BMCにてPCI-HotRemove/Add を実行する。即ち、リカバリ成功を確認したら、BMCは、OSに対し、PCI-HotRemove指示を発行し、さらに、PCI-HotAdd指示を発行する。
(7) 最後に、OSにてドライバの再組み込みを行う。即ち、正常にPCI-HotAddが完了したことを受けて、OSは、ドライバの再組み込みを行って、その後、デバイスの使用を再開する。
以下、本発明の情報処理装置及び情報処理装置の障害復旧方法の実施形態について、図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る情報処理装置の全体構成を示す構成図である。
同図に示す情報処理装置は、OS10と、ACPI1と、BIOS2と、BMC3と、コンピュータシステム4と、PCIカード5と、PCIバス6と、を備える。
以下、本実施形態に係る情報処理装置の障害復旧機能を説明する。
OS10はコンピュータシステム4上で動作するオペレーティングシステムであり、PCIカードを制御するドライバと、ACPIへリカバリを指示するI/Fと、PCI HotPlugを実現する機能を有する。
ACPI1は、OS10とBIOS2との間を仲介するファームウェア(以下、「FW」と略称する)であり、OS10からの要求を、PMI割り込みを使用して、BIOS2に通知する機能と、PCI HotPlugを実現するための機能を有する。
BIOS2は、コンピュータシステム4の制御FWであり、PMI割り込み発生時に、任意のプログラムを実行する機能を有する。
BMC3は、BaseManagementControllerであり、HWの障害、ステータスを監視する機能、コンピュータシステム4を制御する機能、及びPCI HotPlugを実現する機能を有する。コンピュータシステム4は、HWとしてのコンピュータ機能を実現するHW本体であり、PCI HotPlugを実現するための機能と、HW障害検出時に、BMC3に通知する機能、及び内蔵されたPCIバス6経由でPCIカード5を接続する機能を有する
PCIカード5は、PCI仕様で規定されたデバイスであり、PCI HotPlug機能をサポートしている。
PCIバス6は、コンピュータシステム4とPCIカード5とを接続するバスであり、障害発生時には、該バスによるコンピュータシステム4とPCIカード5との間の接続が切られる。
図2は、本発明の実施形態に係る情報処理装置の動作を示すタイミングチャート図である。
以下、図1,2を参照して、本実施形態に係る情報処理装置の特徴的な動作、即ち、割り込みマスク状態で、OS10主体のリカバリ処理が動作不可能な場合の、Platform主体のリカバリ処理の動作について詳細に説明する。
PCIバス6において障害発生すると(A00)、OS10のPCIカード制御ドライバは、PCIカード5の異常を検出する(A01)。また、コンピュータシステム4の割り込みを受け、BMC3も障害を検出し(A02)、障害ステータスの監視を開始する(A03)。
一方、障害を検出したOS10は、ACPI1へ、PCIバス6のリセット要求を出す(A04)。該リセット要求を受け取ったACPI1は、BIOS2に対し、PMI割り込みを使用して、通知を試みるが(A05)、割り込みマスク状態であるため(A06)、このOS10主体のリカバリ処理は失敗となる(A07)。
他方、障害ステータスを監視していたBMC3は、一定の監視時間を経過すると(A08)、OS10によるリカバリ処理は失敗したと判断し、自身でPCIバスリセットを発行して、リカバリを試みる(A09)。
障害からの復旧を確認(A10)したBMC3は、障害発生したPCIカード5のPCI-HotRemoveのイベントをOS10に通知し(A11)、予めACPI1と取り決めたメモリ空間にフラグを設定し、PCIエラーリカバリを契機とするHotRemove要求であることを伝える(A12)。また、PCIカード5がパワーオフに遷移することを監視する(A13)。
OS10は、HotRemove要求を受けて(A14)、障害発生の要因となったPCIカード(ここではPCIカード5)をACPI1に問い合わせ、HotRemoveをACPI1に指示し(A15)、ACPI方式によるHotRemoveを実行する(A16)。
上記のHotRemoveを完了し(A17)、PCIカード5のパワーオフを確認 (A18)したタイミングで、BMC3は、再びPCIHotAdd要求をOS10に対して発行する(A19)。
このHotAdd要求を受けたOS10は(A20)、要因が発生したPCIカードをACPI1に問い合わせ(A21)、HotAddをACPI1に指示し、ACPI方式によるHotAddを実行する(A22)。
HotAdd完了を受けたOS10は(A23)、PCIカードの再組み込みを行うことでPCIカード5の使用を再開する(A24)。
このようにして、PCIリカバリパスを2重化することで、割り込みマスク中など、リカバリのためのPCIバスリセットを行うBIOS2が動作できない条件化においても、確実にPCIリカバリ処理の実行を可能にしている。
なお、本実施形態は、拡張カードバスの障害検出と復旧処理の場合で説明したが、本発明は、一般に、他の一般的なハードウェア障害の検出と復旧処理にも適用可能である。
また、本発明に係る情報処理装置の上記処理を、図2のタイミングチャートで示した順序によりコンピュータ4に実行せしめるプログラムは、半導体メモリを始め、CD−ROMや磁気テープなどのコンピュータ読み取り可能な記録媒体に格納して配付してもよい。そして、少なくともマイクロコンピュータ、パーソナルコンピュータ、汎用コンピュータを範疇に含むコンピュータが、上記の記録媒体から上記プログラムを読み出して、実行するものとしてもよい。
本発明は、拡張カードバスの障害検出機能と障害復旧機能とを備えた情報処理装置の構築に適用可能であり、特に、コンピュータシステムにおけるPCIバス 障害発生時に自動で復旧させるリカバリ機能を備えた情報処理装置の構築に好適である。
1 ACPI(Advanced Configuration and Power Interface)
2 BIOS(Basic Input/Output System)
3 BMC(Baseboard Management Controller)
4 コンピュータシステム
5 PCIカード
6 PCIバス
10 OS(オペレーティングシステム)

Claims (9)

  1. PCIバス 障害発生時のPCIリカバリ処理のパスを、プラットフォームとして構築されたOS(オペレーティングシステム)によるリカバリパスと、同じくプラットフォームとして構築されたBMC(Baseboard Management Controller)によるリカバリパスとに二重化し、割り込みマスク状態の際に、前記OSによるリカバリ処理が失敗した場合であっても、前記BMC側でのリカバリ処理を実行可能とすると共に、前記BMC側でのリカバリ処理が成功した時には、前記BMCから前記OSに通知することを特徴とする情報処理装置。
  2. 前記BMCに、
    障害発生をハードウェアの割り込み処理にて検出する割込検出手段と、
    PCIバス 閉塞状態を、障害ステータスレジスタを監視することで検知する障害監視手段と、
    前記OSによるリカバリ処理が成功したか否かを検証するリカバリ処理検証手段と、
    前記リカバリ処理検証手段により、前記OSによるリカバリ処理が成功したと判断された場合に、前記障害監視手段を終了させる手段と、
    前記リカバリ処理検証手段により、前記OSによるリカバリ処理が失敗したと判断された場合に、さらに障害監視期間を超えている場合は、割り込みマスク中のため、OSによるリカバリ処理が動作不可能な状態にあると判断し、バスのリセットを行ってリカバリ処理を実行するリカバリ実行手段と、
    を備えたことを特徴とする請求項1記載の情報処理装置。
  3. 前記リカバリ処理検証手段は、一定時間内に障害ステータスレジスタがクリアされたか否かでもってリカバリ処理が成功したか否かを判断することを特徴とする請求項2記載の情報処理装置。
  4. 前記BMCには、前記リカバリ処理検証手段により、前記OSによるリカバリ処理が成功したと判断された場合に、該リカバリ処理が成功したことを前記OSに対して通知することを特徴とする請求項2または請求項3記載の情報処理装置。
  5. 前記OSに対する通知は、ACPI(Advanced Configuration and Power Interface)のPMI割り込み機能を使用して行うことを特徴とする請求項4記載の情報処理装置。
  6. 前記リカバリ処理の成功を前記BMCから受けた前記OSが、ドライバの再組み込みを行うと共に、デバイスの使用を再開することを特徴とする請求項4記載の情報処理装置。
  7. 前記ドライバの再組み込みは、ACPI(Advanced Configuration and Power Interface)のPCI HotPlug機能を使用して行うことを特徴とする請求項6記載の情報処理装置。
  8. PCIバス 障害発生時のPCIリカバリ処理のパスを、プラットフォームとして構築されたOS(オペレーティングシステム)によるリカバリパスと、同じくプラットフォームとして構築されたBMC(Baseboard Management Controller)によるリカバリパスとに二重化し、割り込みマスク状態の際に、前記OSによるリカバリ処理が失敗した場合であっても、前記BMC側でのリカバリ処理を実行可能とすると共に、前記BMC側でのリカバリ処理が成功した時には、前記BMCから前記OSに通知することを特徴とする情報処理装置の障害復旧方法。
  9. OS(オペレーティングシステム)と共にプラットフォームとして構築されたBMC(Baseboard Management Controller)において、
    障害発生をハードウェアの割り込み処理にて検出する割込検出ステップと、
    PCIバス 閉塞状態を、障害ステータスレジスタを監視することで検知する障害監視ステップと、
    前記OSによるリカバリ処理が成功したか否かを検証するリカバリ処理検証ステップと、
    前記リカバリ処理検証手段により、前記OSによるリカバリ処理が成功したと判断された場合に、前記障害監視手段とBMCにおける前記監視処理を停止し、処理を終了させるステップと、
    前記リカバリ処理検証手段により、前記OSによるリカバリ処理が失敗したと判断された場合に、さらに障害監視期間を超えている場合は、割り込みマスク中のため、OSによるリカバリ処理が動作不可能な状態にあると判断し、バスのリセットを行ってリカバリ処理を実行するリカバリ実行ステップと、
    を有することを特徴とする請求項8記載の情報処理装置の障害復旧方法。
JP2009285491A 2009-12-16 2009-12-16 情報処理装置及び情報処理装置の障害復旧方法 Expired - Fee Related JP4873073B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009285491A JP4873073B2 (ja) 2009-12-16 2009-12-16 情報処理装置及び情報処理装置の障害復旧方法
US12/969,226 US8677177B2 (en) 2009-12-16 2010-12-15 Apparatus, a recovery method and a program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009285491A JP4873073B2 (ja) 2009-12-16 2009-12-16 情報処理装置及び情報処理装置の障害復旧方法

Publications (2)

Publication Number Publication Date
JP2011128795A true JP2011128795A (ja) 2011-06-30
JP4873073B2 JP4873073B2 (ja) 2012-02-08

Family

ID=44144269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009285491A Expired - Fee Related JP4873073B2 (ja) 2009-12-16 2009-12-16 情報処理装置及び情報処理装置の障害復旧方法

Country Status (2)

Country Link
US (1) US8677177B2 (ja)
JP (1) JP4873073B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017072904A1 (ja) * 2015-10-29 2017-05-04 株式会社日立製作所 計算機システム、及び、障害検知方法
US9697062B2 (en) 2013-12-25 2017-07-04 Fujitsu Limited Information processing device and method for monitoring a boot-up state of operating system
JP7298950B1 (ja) 2022-02-08 2023-06-27 Necプラットフォームズ株式会社 情報処理装置、リカバリ方法及びプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486746A (zh) * 2010-12-03 2012-06-06 鸿富锦精密工业(深圳)有限公司 服务器及其检测pci系统错误的方法
US9965367B2 (en) * 2014-12-17 2018-05-08 Quanta Computer Inc. Automatic hardware recovery system
TWI559148B (zh) * 2015-05-11 2016-11-21 廣達電腦股份有限公司 自動硬體恢復方法及自動硬體恢復系統
CN106557392A (zh) * 2015-09-29 2017-04-05 鸿富锦精密工业(深圳)有限公司 服务器故障检测装置及方法
CN107544890A (zh) * 2017-08-30 2018-01-05 郑州云海信息技术有限公司 设备热插拔后服务器资产信息的获取方法及系统
DE102018129982A1 (de) * 2018-11-27 2020-05-28 Fujitsu Limited Verfahren zum Zurücksetzen einer Management-Hardwarekomponente eines Computersystems und derartiges Computersystem
US11200189B2 (en) 2019-11-21 2021-12-14 Hewlett Packard Enterprise Development Lp Baseboard management controller-based security operations for hot plug capable devices

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06230993A (ja) * 1993-02-01 1994-08-19 Matsushita Electric Ind Co Ltd 情報処理装置
JP2002006995A (ja) * 2000-06-27 2002-01-11 Pfu Ltd 端末装置のリセット機能の二重化方法およびリセット機能が二重化された端末装置ならびに記録媒体
JP2009116642A (ja) * 2007-11-07 2009-05-28 Nec Corp Pciバス障害リカバリ方法及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60191353A (ja) 1984-03-12 1985-09-28 Nec Corp バス制御方式
JP2938495B2 (ja) 1990-01-31 1999-08-23 富士通株式会社 ネットワーク監視装置
US7103808B2 (en) * 2003-04-10 2006-09-05 International Business Machines Corporation Apparatus for reporting and isolating errors below a host bridge
US7134052B2 (en) * 2003-05-15 2006-11-07 International Business Machines Corporation Autonomic recovery from hardware errors in an input/output fabric
US7502965B2 (en) * 2005-02-07 2009-03-10 Broadcom Corporation Computer chip set having on board wireless interfaces to support test operations
US7594144B2 (en) * 2006-08-14 2009-09-22 International Business Machines Corporation Handling fatal computer hardware errors
US20080288828A1 (en) * 2006-12-09 2008-11-20 Baker Marcus A structures for interrupt management in a processing environment
US8037364B2 (en) * 2009-01-09 2011-10-11 International Business Machines Corporation Forced management module failover by BMC impeachment consensus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06230993A (ja) * 1993-02-01 1994-08-19 Matsushita Electric Ind Co Ltd 情報処理装置
JP2002006995A (ja) * 2000-06-27 2002-01-11 Pfu Ltd 端末装置のリセット機能の二重化方法およびリセット機能が二重化された端末装置ならびに記録媒体
JP2009116642A (ja) * 2007-11-07 2009-05-28 Nec Corp Pciバス障害リカバリ方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697062B2 (en) 2013-12-25 2017-07-04 Fujitsu Limited Information processing device and method for monitoring a boot-up state of operating system
WO2017072904A1 (ja) * 2015-10-29 2017-05-04 株式会社日立製作所 計算機システム、及び、障害検知方法
JP7298950B1 (ja) 2022-02-08 2023-06-27 Necプラットフォームズ株式会社 情報処理装置、リカバリ方法及びプログラム
JP2023115581A (ja) * 2022-02-08 2023-08-21 Necプラットフォームズ株式会社 情報処理装置、リカバリ方法及びプログラム

Also Published As

Publication number Publication date
JP4873073B2 (ja) 2012-02-08
US20110145634A1 (en) 2011-06-16
US8677177B2 (en) 2014-03-18

Similar Documents

Publication Publication Date Title
JP4873073B2 (ja) 情報処理装置及び情報処理装置の障害復旧方法
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
US20180150359A1 (en) Electronic apparatus, restarting method, and non-transitory recording medium
US7089413B2 (en) Dynamic computer system reset architecture
TW200426571A (en) Policy-based response to system errors occurring during os runtime
JP4655718B2 (ja) コンピュータシステム及びその制御方法
CN115617550A (zh) 处理设备、控制单元、电子设备、方法和计算机程序
CN109358982B (zh) 硬盘自愈装置、方法以及硬盘
JP2956849B2 (ja) データ処理システム
JP6654662B2 (ja) サーバ装置およびサーバシステム
WO2014112039A1 (ja) 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
JP5716396B2 (ja) 情報処理装置及び情報処理方法
Lee et al. NCU-HA: A lightweight HA system for kernel-based virtual machine
JP2019164578A (ja) 制御システム、情報処理装置、制御方法、raidコントローラの復旧方法及びプログラム。
TWI803307B (zh) 中斷處置裝置、方法與計算機系統
JPH10269110A (ja) 計算機システムのハングアップ回避方法並びにこの方法を用いた計算機システム。
TWM556046U (zh) 網路切換控制系統
JP2004334713A (ja) 計算機システム、サービス継続制御プログラム
JP6368842B2 (ja) プロセス監視プログラム及びプロセス監視システム
JP2005018710A (ja) 複数の電源入力部を持つ情報処理装置に対応した無停電電源装置及び情報処理システム
JP3647700B2 (ja) 装置の切り離しを通知する通知装置および方法
JP6309711B2 (ja) プロセス監視プログラム及びプロセス監視システム
CN111857312A (zh) 一种基于x86平台的多设备复位方法及装置
CN113312198A (zh) 监控及复原异质性元件的系统及方法
JPH07200334A (ja) 二重化同期運転方式

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111025

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111107

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4873073

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees