JP5281942B2 - 計算機およびその障害処理方法 - Google Patents

計算機およびその障害処理方法 Download PDF

Info

Publication number
JP5281942B2
JP5281942B2 JP2009076274A JP2009076274A JP5281942B2 JP 5281942 B2 JP5281942 B2 JP 5281942B2 JP 2009076274 A JP2009076274 A JP 2009076274A JP 2009076274 A JP2009076274 A JP 2009076274A JP 5281942 B2 JP5281942 B2 JP 5281942B2
Authority
JP
Japan
Prior art keywords
pci express
failure
route
cpu
bios
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009076274A
Other languages
English (en)
Other versions
JP2010231340A (ja
Inventor
伸夫 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009076274A priority Critical patent/JP5281942B2/ja
Priority to US12/685,760 priority patent/US8122285B2/en
Publication of JP2010231340A publication Critical patent/JP2010231340A/ja
Priority to US13/371,608 priority patent/US8365012B2/en
Application granted granted Critical
Publication of JP5281942B2 publication Critical patent/JP5281942B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1441Resetting or repowering

Description

本発明は、電子計算機に係わり、特に、PCIエクスプレス・ルート上の障害を検出して処理する計算機に関する。
PCIエクスプレス・ルートを有する典型的な計算機システムは、プライマリバスを介してCPUに接続され、セカンダリバスを介してPCIエクスプレス・ルートに接続され、PCIエクスプレス・ブリッジとして機能するルートポートを備える(以下、PCI ExpressをPCIeと略記する)。PCIeルートは、ルートポートに接続されるPCIeスイッチおよびPCIeデバイスを含むPCIeトリーを構成する。
PCIeデバイスで発生した障害は、PCIeスイッチのダウンストリーム・ポートとアップストリーム・ポートを介してルートポートに報告され、ルートポートはプライマリバスを介してCPUに割込みをかけることによってこの障害を報告する。PCIeスイッチなど他のPCIeルートで発生した障害は、障害を検出したPCIeスイッチ又はこれに接続される上位のPCIeスイッチを介してルートポートに報告される。
なおこの種の技術として関連するものには、例えば、特許文献1、特許文献2などがある。
特開2004−348335号公報 特開2005−196351号公報
従来、上記のようなPCIeルート上の障害が発生し、この障害報告による割込みを受け付けたCPUは、システムリセットし、オペレーティングシステムをリブートするしかなかった。特に、PCIeスイッチの複数のアップストリーム・ポートの各々に計算機が接続される計算機システムでは、これら複数の計算機によって共有されるPCIeデバイスがダウンすると、この計算機システム全体がダウンするという問題があった。PCIeデバイスの数が増えるとともに、システムダウンのリスクが高まるということになる。
本発明の目的は、障害が発生したPCIeルートのみを閉塞し、システムリセットを回避することにある。
本発明は、PCIeルート上の障害を検出してCPUにSMI(システム・メンテナンス・インタラプト)を発行するルートポートと、このSMIを受け付け、BIOSを実行することによって、ルートポートを介して障害の発生したPCIeルートにPCIeリセットを発行するCPUとを有する計算機を特徴とする。
本発明によれば、障害が発生したPCIeルートのみを閉塞するので、システムリセットを回避できる。
実施形態の計算機システムの構成図である。 PCIeルートで致命的な障害を検出したときの各機構の動作手順を示す図である。 PCIeルートで致命的でない障害を検出したときの各機構の動作手順を示す図である。 BIOSのSMIハンドラーの処理手順を示すフローチャートである。
以下、本発明の実施形態について図面を用いて説明する。
図1は、本実施形態の計算機システムの構成図である。計算機システムは、少なくとも1台のブレード1、マルチルート・IOバーチャリゼーション・PCIeスイッチ(MR−IOV PCeSW)2、およびPCIeデバイス3から構成される。ブレード1が1つの計算機に相当する。
ブレード1は、CPU11、メモリ12、IOハブ13、サウスブリッジ15、不揮発メモリ16および監視機構18を有する。
IOハブ13は、CPU11−1,11−2に接続され、PCIeブリッジとして機能するRP(Root Port)14を介してMR−IOV PCeSW2またはPCIeデバイス3に接続される。RP14は、プライマリバスを介してCPU11に接続される構成となる。またRP14の下位ルートは、セカンダリバスを介するPCIeルートである。IOハブ13の0番目のRP14とDMI(Direct Media Interface)を介してサウスブリッジ15が接続され、サウスブリッジ15には不揮発メモリ16が接続される。不揮発メモリ16は、BIOS(Basic Input Output System)17を記憶する。監視機構18は、IOハブ13に接続され、CPU11の障害及びI/Oの障害を監視する。
メモリ12−1,12−2にはオペレーティングシステム(OS)がロードされ、CPU11−1,11−2によって実行される。またメモリ12−1にはBIOS17がコピーされ、CPU11−1,11−2によって実行される。
MR−IOV PCeSW2は、そのアップストリーム・ポートを介してブレード1のRP14に接続され、ダウンストリーム・ポートを介して他のMR−IOV PCeSW2またはPCIeデバイス3が接続される。各アップストリーム・ポートには、各々異なるブレード1を接続することが可能である。
図2は、MR−IOV PCeSW2が当該PCIeルートで致命的な障害を検出したときの各機構の動作手順を示す図である。MR−IOV PCeSW2が障害を検出すると、そのMR−IOV PCeSW2に接続しているRP14に通知される。このRP14は、ERR_N(2)ピンを介してサウスブリッジ15と監視機構18に致命的障害を示す信号を送る。この信号を受けた監視機構18はタイマをスタートさせる。サウスブリッジ15がSMI#ピンを介してRP14にSMI(System Maintenance Interrupt)を促すための信号を送ると、そのRP14がSMIによってこのPCIeルートに生じた障害をCPU11に通知する。CPU11は、この割込みを受け付け、メモリ12上のBIOSに制御が渡る。BIOSは、CPU11内部の演算器などのログを採取し、CPU11外部のログを採取し、採取したログを解析して障害の種類を切り分け、ログ記録場所にログを格納する。BIOSは、ログを不揮発メモリ16に格納するか、または監視機構18に送る。PCIeルートの障害であれば、BIOSは、障害を検出したMR−IOV PCeSW2が接続されるRP14にPCIeリセット信号を送り、障害を検出したRP14より下位のPCIeトリーをリセットする。次にBIOSは、監視機構18へタイマ・ストップの信号を送る。
リセット後、OSのデバイス・ドライバは、DMA終了割込みもしくはDMAタイムアウトを検出した時、またIOアクセスを開始する時のPCIeデバイス3に対するIOアクセスをした時に、リセットされたPCIeデバイス3へのアクセスがMaster Abort応答となることより、制御するPCIeデバイス3が使用不能であることを判断し、閉塞する。障害デバイスに関する冗長構成がとられていれば、システムは、継続動作することができる。
図3は、MR−IOV PCeSW2又はPCIeデバイス3が当該PCIeルートで致命的でない回復不可能な障害を検出したときの各機構の動作手順を示す図である。動作手順は、MR−IOV PCeSW2が関係する場合、MR−IOV PCeSW2がERR_NONFATALピンを介してRP14に障害を通知することと、RP14がERR_N(1)ピンを介してサウスブリッジ15と監視機構18に致命的でない回復不可能な障害を示す信号を送る点が致命的障害の場合の手順と異なる。またBIOSは、障害を検出したMR−IOV PCeSW2を介して障害デバイスにセコンダリバス・リセット信号を送る。IOハブ13のRP14に直接PCIeデバイス3が接続されている構成では、直接この障害PCIeデバイス3にPCIeリセット信号を送る。デバイス・ドライバによる障害デバイスの検出とデバイスの閉塞は、致命的障害の場合と同様である。
図4は、BIOSのSMIハンドラーの処理手順を示すフローチャートである。BIOSのSMIハンドラーは、SMIによって起動され、障害が発生したか否かを判定する(ステップ51)。CPU内部、もしくはIOハブ内の障害報告レジスタをリードすることにより、BIOSは、PCIeルートの障害か否か判定する(ステップ52)。PCIeルートの障害であれば、BIOSは、障害PCIeルートに関する概括的なログを採取する(ステップ53)。IOハブ13のすべてのRP14について検査が終了していなければ(ステップ54NO)、BIOSは、検査中の当該RPで検出した障害か否かを判定する(ステップ55)。当該RPで検出した障害でなければ、BIOSの処理はステップ63に移る。当該RPで検出した障害であれば、BIOSは、DMI系の障害か否か判定する(ステップ56)。DMI系障害であれば、BIOSはリブートの手続きに移る(ステップ57)。
DMI系障害でなければ、BIOSは、割込みが致命的障害によるものか否か判定する(ステップ58)。致命的な障害であれば、BIOSは、SEL(System Event Log)と詳細ログを採取し(ステップ59)、当該RP14より下位のPCIeトリーに対してリセット信号を発行し(ステップ60)、ステップ63へ行く。致命的でない障害であれば、BIOSは、SELと詳細ログを採取し(ステップ61)、障害デバイスに対してリセット信号を発行する(ステップ62)。ステップ55,60又は62の処理後に、BIOSは、RP番号を1だけ増加させ(ステップ63)、ステップ54に戻る。IOハブ13のすべてのRP14について検査が終了していれば(ステップ54YES)、BIOSは、SMIハンドラーの処理を終了する。
上記動作手順および処理手順は、複数台のブレード1を備える計算機システムでも同様である。PCIeルートの障害は、そのPCIeルートに接続しているすべてのブレード1のRP14に通知され、各RP14は、プライマリバスを介して接続しているCPU11にSMIを発行する。各CPU11は、このSMIを受け付け、上記処理手順に従ってBIOSを実行することによって障害の発生したPCIeルートをリセットする。各CPU11は、メモリ12上のデバイス・ドライバを実行することによって、障害の発生したPCIeルート上のPCIeデバイスを閉塞する。従って、複数のブレード1によって共有する障害PCIeルートが閉塞されるが、他のPCIeルートは継続動作することができる。
本願発明は、SMIによってBIOSが呼び出され、BIOSがPCIeルートの障害を検出し、検出したPCIeトリー又はPCIeデバイスをリセットし、デバイス・ドライバが間接的に障害デバイスを検出してこれを閉塞する方式である。これに対して、MSI(Message Signal Interrupt)によってデバイス・ドライバを呼び出し、ドライバが直接PCIeルートの障害を検出し、障害回復を行う方式が知られている。しかし、SMIはMSIより割込み受付のプライオリティが高いという利点がある。またMSIはメモリ・ライト・メッセージとなるので、特定のCPU11しかMSIがかからない上にBIOSの処理に比べてデバイス・ドライバの処理が遅いという問題がある。本発明の方式は、デバイス・ドライバがPCIeルートの障害を検出する方式に比べて、OSやデバイス・ドライバの改造が不要である点に加えて、障害検出の速度が速いという利点がある。
1:ブレード、2:MR−IOV PCeSW、3:PCIeデバイス、11:CPU、12:メモリ、13:IOハブ、14:ルートポート(RP)、17:BIOS、18:監視機構。

Claims (12)

  1. BIOSを記憶するメモリと、前記BIOSを実行するCPUと、プライマリバスを介して前記CPUに接続され、セカンダリバスを介してPCIエクスプレス・ルートに接続され、PCIエクスプレス・ブリッジとして機能するルートポートとを有する計算機において、
    前記PCIエクスプレス・ルート上の障害を検出して前記CPUにSMI(システム・メンテナンス・インタラプト)を発行する前記ルートポートと、
    前記SMIを受け付け、前記BIOSを実行することによって、前記ルートポートを介して障害の発生した前記PCIエクスプレス・ルートにPCIエクスプレス・リセットを発行する前記CPUとを有することを特徴とする計算機。
  2. 前記メモリはPCIエクスプレス・デバイスを制御するためのデバイス・ドライバを記憶し、前記CPUは、前記デバイス・ドライバを実行することによって、前記PCIエクスプレス・リセットを受けた前記PCIエクスプレス・ルート上のPCIエクスプレス・デバイスを検出し、検出されたデバイスを閉塞することを特徴とする請求項1記載の計算機。
  3. 前記PCIエクスプレス・ルート上の障害は、PCIエクスプレス・トリーに亘る致命的障害であることを特徴とする請求項1記載の計算機。
  4. 前記PCIエクスプレス・ルート上の障害は、単一のPCIエクスプレス・デバイスに係わる致命的でない障害であることを特徴とする請求項1記載の計算機。
  5. 前記PCIエクスプレス・ルート上の障害は、致命的でない回復不可能な障害であることを特徴とする請求項1記載の計算機。
  6. BIOSを記憶するメモリと、前記BIOSを実行するCPUと、プライマリバスを介して前記CPUに接続され、セカンダリバスを介してPCIエクスプレス・ルートに接続され、PCIエクスプレス・ブリッジとして機能するルートポートとを有するブレード計算機を複数台備え、前記PCIエクスプレス・ルートを構成するPCIエクスプレス・スイッチ及びPCIエクスプレス・デバイスを具備する計算機システムにおいて、
    前記ブレード計算機の各々は、
    前記PCIエクスプレス・ルート上の障害を検出して前記CPUにSMI(システム・メンテナンス・インタラプト)を発行する前記ルートポートと、
    前記SMIを受け付け、前記BIOSを実行することによって、前記ルートポートを介して障害の発生した前記PCIエクスプレス・ルートにPCIエクスプレス・リセットを発行する前記CPUとを有することを特徴とする計算機システム。
  7. 前記メモリはPCIエクスプレス・デバイスを制御するためのデバイス・ドライバを記憶し、前記CPUは、前記デバイス・ドライバを実行することによって、前記PCIエクスプレス・リセットを受けた前記PCIエクスプレス・ルート上のPCIエクスプレス・デバイスを検出し、検出されたデバイスを閉塞することを特徴とする請求項6記載の計算機システム。
  8. 前記PCIエクスプレス・ルート上の障害は、前記PCIエクスプレス・スイッチを含むPCIエクスプレス・トリーに亘る致命的障害であることを特徴とする請求項6記載の計算機システム。
  9. 前記PCIエクスプレス・ルート上の障害は、単一のPCIエクスプレス・デバイスに係わる致命的でない障害であることを特徴とする請求項6記載の計算機システム。
  10. 前記PCIエクスプレス・ルート上の障害は、致命的でない回復不可能な障害であることを特徴とする請求項6記載の計算機システム。
  11. BIOSとPCIエクスプレス・デバイスを制御するためのデバイス・ドライバとを記憶するメモリと、前記BIOSと前記デバイス・ドライバとを実行するCPUと、プライマリバスを介して前記CPUに接続され、セカンダリバスを介してPCIエクスプレス・ルートに接続され、PCIエクスプレス・ブリッジとして機能するルートポートとを有する計算機の障害処理方法において、
    前記ルートポートは、前記PCIエクスプレス・ルート上の障害を検出して前記CPUにSMI(システム・メンテナンス・インタラプト)を発行し、
    前記CPUは、前記SMIを受け付け、前記BIOSを実行することによって、前記ルートポートを介して障害の発生した前記PCIエクスプレス・ルートにPCIエクスプレス・リセットを発行し、
    前記CPUは、前記デバイス・ドライバを実行することによって、前記PCIエクスプレス・リセットを受けた前記PCIエクスプレス・ルート上のPCIエクスプレス・デバイスを検出し、検出されたデバイスを閉塞することを特徴とする計算機の障害処理方法。
  12. 前記PCIエクスプレス・ルート上の障害は、致命的でない回復不可能な障害であることを特徴とする請求項11記載の計算機システム。
JP2009076274A 2009-03-26 2009-03-26 計算機およびその障害処理方法 Expired - Fee Related JP5281942B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009076274A JP5281942B2 (ja) 2009-03-26 2009-03-26 計算機およびその障害処理方法
US12/685,760 US8122285B2 (en) 2009-03-26 2010-01-12 Arrangements detecting reset PCI express bus in PCI express path, and disabling use of PCI express device
US13/371,608 US8365012B2 (en) 2009-03-26 2012-02-13 Arrangements detecting reset PCI express bus in PCI express path, and disabling use of PCI express device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009076274A JP5281942B2 (ja) 2009-03-26 2009-03-26 計算機およびその障害処理方法

Publications (2)

Publication Number Publication Date
JP2010231340A JP2010231340A (ja) 2010-10-14
JP5281942B2 true JP5281942B2 (ja) 2013-09-04

Family

ID=42785794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009076274A Expired - Fee Related JP5281942B2 (ja) 2009-03-26 2009-03-26 計算機およびその障害処理方法

Country Status (2)

Country Link
US (2) US8122285B2 (ja)
JP (1) JP5281942B2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8782461B2 (en) * 2010-09-24 2014-07-15 Intel Corporation Method and system of live error recovery
US8589723B2 (en) * 2010-12-22 2013-11-19 Intel Corporation Method and apparatus to provide a high availability solid state drive
WO2012114463A1 (ja) * 2011-02-23 2012-08-30 株式会社日立製作所 計算機、ファームウェア実行方法
US9882737B2 (en) * 2011-03-09 2018-01-30 Nec Corporation Network system
CN102393838B (zh) * 2011-07-04 2015-03-11 华为技术有限公司 数据处理方法及装置、pci-e总线系统、服务器
JP5682829B2 (ja) * 2011-09-01 2015-03-11 日本電気株式会社 情報処理装置
GB2495313B (en) * 2011-10-05 2013-12-04 Micron Technology Inc Connection method
US9086965B2 (en) 2011-12-15 2015-07-21 International Business Machines Corporation PCI express error handling and recovery action controls
CN103078747B (zh) * 2012-12-28 2015-08-19 华为技术有限公司 PCIe交换机及其工作方法
US9703744B2 (en) * 2013-01-23 2017-07-11 Hitachi, Ltd. Storage device employing PCI-express connection solid-state drive
US9389940B2 (en) 2013-02-28 2016-07-12 Silicon Graphics International Corp. System and method for error logging
JP6357879B2 (ja) * 2014-05-28 2018-07-18 富士ゼロックス株式会社 システムおよび障害処理方法
CN104601684A (zh) * 2014-12-31 2015-05-06 曙光云计算技术有限公司 云服务器系统
JP2016197360A (ja) * 2015-04-06 2016-11-24 富士通株式会社 情報処理装置、情報処理装置の制御プログラム及び情報処理装置の制御方法
JP6455302B2 (ja) * 2015-04-30 2019-01-23 富士通株式会社 バス通信システム
CN105512007B (zh) * 2015-12-17 2018-12-04 英业达科技有限公司 一种pcie硬盘状态灯的控制方法及系统
WO2017158666A1 (ja) 2016-03-14 2017-09-21 株式会社日立製作所 計算機システム、計算機システムのエラー処理方法
CN106502952B (zh) * 2016-10-24 2019-08-02 郑州云海信息技术有限公司 一种pcie设备安全掉线设计方法
CN108228374B (zh) * 2017-12-28 2021-08-20 华为技术有限公司 一种设备的故障处理方法、装置及系统
JP6962243B2 (ja) * 2018-03-08 2021-11-05 日本電気株式会社 コンピュータシステム
CN108897666A (zh) * 2018-06-29 2018-11-27 郑州云海信息技术有限公司 服务器故障日志生成方法及相关设备
JP6579255B1 (ja) * 2018-12-28 2019-09-25 富士通クライアントコンピューティング株式会社 情報処理システム、および中継装置
US11126420B2 (en) * 2019-01-08 2021-09-21 Dell Products L.P. Component firmware update from baseboard management controller
US11194589B2 (en) * 2019-01-08 2021-12-07 Dell Products L.P. Information handling system adaptive component reset
US11314578B2 (en) * 2019-03-06 2022-04-26 Dell Products L.P. Information handling system and method to detect and recover from spurious resets of PCIe devices
JP6659989B1 (ja) * 2019-08-09 2020-03-04 富士通クライアントコンピューティング株式会社 情報処理システム、中継装置、及びプログラム
CN116724297A (zh) * 2021-01-22 2023-09-08 华为技术有限公司 一种故障处理方法、装置及系统
US11640335B2 (en) 2021-06-15 2023-05-02 Western Digital Technologies, Inc. Multiple function level reset management
CN116582471B (zh) * 2023-07-14 2023-09-19 珠海星云智联科技有限公司 Pcie设备、pcie数据捕获系统和服务器

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01283655A (ja) * 1988-05-11 1989-11-15 Fujitsu Ltd 非同期割込み機能のチェック方式
JPH0784899A (ja) * 1993-09-10 1995-03-31 Fujitsu Ltd Scsi機器の選択リセット方式
JPH09319467A (ja) * 1996-05-29 1997-12-12 Hitachi Ltd バス接続システム
US6523140B1 (en) * 1999-10-07 2003-02-18 International Business Machines Corporation Computer system error recovery and fault isolation
JP4580528B2 (ja) * 2000-09-25 2010-11-17 株式会社東芝 コンピュータシステムおよびそのレジューム処理方法
US20020184576A1 (en) * 2001-03-29 2002-12-05 International Business Machines Corporation Method and apparatus for isolating failing hardware in a PCI recoverable error
JP3838992B2 (ja) * 2003-05-21 2006-10-25 エヌイーシーシステムテクノロジー株式会社 障害検出方法及び情報処理システム
JP4066950B2 (ja) * 2004-01-05 2008-03-26 日本電気株式会社 コンピュータシステムおよびその保守方法
US7447934B2 (en) * 2005-06-27 2008-11-04 International Business Machines Corporation System and method for using hot plug configuration for PCI error recovery
US7496045B2 (en) * 2005-07-28 2009-02-24 International Business Machines Corporation Broadcast of shared I/O fabric error messages in a multi-host environment to all affected root nodes
US20070240018A1 (en) * 2005-12-29 2007-10-11 Intel Corporation Functional level reset on a per device/function basis
US20070234118A1 (en) * 2006-03-30 2007-10-04 Sardella Steven D Managing communications paths
US20070233821A1 (en) * 2006-03-31 2007-10-04 Douglas Sullivan Managing system availability
US8214541B2 (en) * 2006-06-07 2012-07-03 Dell Products L.P. Method and system for uniquely identifying peripheral component devices
JP4728896B2 (ja) * 2006-07-13 2011-07-20 エヌイーシーコンピュータテクノ株式会社 コンピュータシステム
US7596648B2 (en) * 2007-03-08 2009-09-29 Dell Products L.P. System and method for information handling system error recovery
US7574551B2 (en) * 2007-03-23 2009-08-11 International Business Machines Corporation Operating PCI express resources in a logically partitioned computing system
US20080256400A1 (en) * 2007-04-16 2008-10-16 Chih-Cheng Yang System and Method for Information Handling System Error Handling
US7774638B1 (en) * 2007-09-27 2010-08-10 Unisys Corporation Uncorrectable data error containment systems and methods
US7669000B2 (en) * 2007-10-23 2010-02-23 Brocade Communication Systems, Inc. Host bus adapter with multiple hosts
US8103810B2 (en) * 2008-05-05 2012-01-24 International Business Machines Corporation Native and non-native I/O virtualization in a single adapter
JP5332000B2 (ja) * 2008-12-17 2013-10-30 株式会社日立製作所 複合型計算機装置、複合型計算機の管理方法及び管理サーバ

Also Published As

Publication number Publication date
US8122285B2 (en) 2012-02-21
US20120144231A1 (en) 2012-06-07
US20100251014A1 (en) 2010-09-30
US8365012B2 (en) 2013-01-29
JP2010231340A (ja) 2010-10-14

Similar Documents

Publication Publication Date Title
JP5281942B2 (ja) 計算機およびその障害処理方法
JP6427979B2 (ja) 原因特定方法、原因特定プログラム、情報処理システム
US7865782B2 (en) I/O device fault processing method for use in virtual computer system
US9143416B2 (en) Expander device
KR101581608B1 (ko) 프로세서 시스템
JP2008090375A (ja) 割込み制御システム、およびこれを利用した記憶制御システム
WO2012063358A1 (ja) エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
US10817369B2 (en) Apparatus and method for increasing resilience to faults
JP5451087B2 (ja) 障害処理装置および方法
JPH0375834A (ja) パリティの置換装置及び方法
US20170052841A1 (en) Management apparatus, computer and non-transitory computer-readable recording medium having management program recorded therein
US20110179316A1 (en) Data processing system comprising a monitor
TWI772024B (zh) 減少停機時間的方法及系統
WO2008004330A1 (fr) Système à processeurs multiples
JP2005215809A (ja) コンピュータシステム、バスコントローラ及びそれらに用いるバス障害処理方法
JP6256087B2 (ja) ダンプシステムおよびダンプ処理方法
US20180089012A1 (en) Information processing apparatus for analyzing hardware failure
JP2007265157A (ja) I/o装置の障害検出システム、及び、方法
JP5440673B1 (ja) プログラマブルロジックデバイス、情報処理装置、被疑箇所指摘方法およびプログラム
JP6024742B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、及び記録媒体
US20240095208A1 (en) External quiesce of a core in a multi-core system
JP5768434B2 (ja) 相互監視システム
JP2011134261A (ja) 演算処理装置、情報処理装置および演算処理装置の制御方法
US7523358B2 (en) Hardware error control method in an instruction control apparatus having an instruction processing suspension unit
CN114416436A (zh) 基于SoC芯片面向单粒子翻转效应的可靠性方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110506

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130527

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5281942

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees