JP5541519B2 - 情報処理装置、故障部位判別方法および故障部位判別プログラム - Google Patents
情報処理装置、故障部位判別方法および故障部位判別プログラム Download PDFInfo
- Publication number
- JP5541519B2 JP5541519B2 JP2010226577A JP2010226577A JP5541519B2 JP 5541519 B2 JP5541519 B2 JP 5541519B2 JP 2010226577 A JP2010226577 A JP 2010226577A JP 2010226577 A JP2010226577 A JP 2010226577A JP 5541519 B2 JP5541519 B2 JP 5541519B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- processor
- communication destination
- cpu
- bios
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims description 88
- 238000000034 method Methods 0.000 title claims description 40
- 238000004891 communication Methods 0.000 claims description 124
- 238000001514 detection method Methods 0.000 claims description 115
- 238000004458 analytical method Methods 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 56
- 238000011835 investigation Methods 0.000 claims description 36
- 238000012544 monitoring process Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 description 61
- 230000005856 abnormality Effects 0.000 description 32
- 230000008569 process Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 10
- 230000002159 abnormal effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- PXLYROINIXKFAW-UHFFFAOYSA-N 1-(3-bromophenyl)-2-(methylamino)propan-1-one Chemical compound CNC(C)C(=O)C1=CC=CC(Br)=C1 PXLYROINIXKFAW-UHFFFAOYSA-N 0.000 description 1
- 150000002016 disaccharides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Description
本発明の実施形態の説明に先立って、本発明の特徴についてその概要をまず説明する。本発明は、マルチプロセッサ構成の情報処理装置においてCPUや制御装置等の処理機能を有するプロセッサ上で動作するベーシック入出力システム(BIOS:Basic Input/Output System。以降BIOSと表記する)が装置立ち上げ中などにおいてインターフェース回路の初期化中の障害(リンク障害)を検出した場合であっても、該インターフェース回路に関するリンク障害の故障部位をより精度良く判別するための技術に関するものである。
次に、本発明の情報処理装置のブロック構成について、その一例を、図1を参照して詳細に説明する。図1は、本発明による情報処理装置のブロック構成の一例を示すブロック構成図であり、図9にて説明した従来の情報処理装置のブロック構成と略同じであるが、マルチプロセッサ構成の各部品(すなわちCPUや制御装置等の処理機能を有するプロセッサ)の状態を管理監視するBMCに内蔵するファームウェアBMCFWに、各部品(すなわちCPUや制御装置等の処理機能を有するプロセッサ)に内蔵するBIOSと連携して動作し、故障部位を精度良く判別するための障害処理機能が備えられている点が、図9の場合とは異なっている。
次に、図1に示す情報処理装置の動作の一例を、図5のフローチャートを参照しながら説明する。図5は、図1に示す情報処理装置の動作の一例を説明するためのフローチャートであり、図5(A)が、2つの部品すなわちCPU11,12上でそれぞれ動作するベーシック入出力システムBIOS61,62の動作の一例を示し、図5(B)がBMC3上で動作するベースボード管理コントローラ用ファームウェアBMCFW7の動作の一例を示している。なお、以下の説明においては、説明を分かり易くするために、2つのCPU11,12のうち、CPU11上で動作するBIOS61が、装置の立ち上げ中に障害を検出した場合の動作について説明するが、CPU12上で動作するBIOS62についても、BIOS61とBIOS62とを読み替えるだけで、全く同様の動作となる。
以上に詳細に説明したように、本実施形態においては次のような効果が得られる。
次に、本発明による情報処理装置の構成として、図1に示した前述の実施形態とは異なる他の構成例について、図8を用いて説明する。図8は、本発明による情報処理装置のブロック構成の図1とは異なる他の例を示すブロック構成図である。図8に示す情報処理装置は、図1の場合とは異なり、情報処理装置を構成する部品として、CPU11,12の2個のみではなく、複数個(図8の場合は4個)のCPUと、複数個(図8の場合は2個)のIO Hub(IO機器の接続用制御装置)と、複数個(図8の場合は2個)のNC(Network Controller)とから構成され、各部品が、ベースボード管理コントローラBMCにそれぞれのインターフェース回路を介して接続され、ベースボード管理コントローラBMCが、各部品それぞれに備えているステータスレジスタに直接アクセスすることができる構成例を示している。
5 インターフェース回路
7 BMCFW
11 CPU
12 CPU
13 CPU
14 CPU
21 ステータスレジスタ
22 ステータスレジスタ
23 ステータスレジスタ
24 ステータスレジスタ
25 ステータスレジスタ
26 ステータスレジスタ
27 ステータスレジスタ
28 ステータスレジスタ
41 インターフェース回路
42 インターフェース回路
43 インターフェース回路
44 インターフェース回路
45 インターフェース回路
46 インターフェース回路
47 インターフェース回路
48 インターフェース回路
51 インターフェース回路
52 インターフェース回路
53 インターフェース回路
54 インターフェース回路
55 インターフェース回路
61 BIOS
62 BIOS
63 BIOS
64 BIOS
81 エラーコード
82 処理対象部品
83 リンク障害
84 故障被疑部品
91 Bit欄
92 説明欄
93 内容欄
101 エラーコード
102 被疑部品1
103 被疑部品2
104 被疑割合1
105 被疑割合2
111 Bit欄
112 説明欄
113 内容欄
121 Bit欄
122 説明欄
123 内容欄
201 IO Hub
202 IO Hub
211 NC
212 NC
221 インターフェース回路
222 インターフェース回路
223 インターフェース回路
224 インターフェース回路
231 インターフェース回路
232 インターフェース回路
233 インターフェース回路
234 インターフェース回路
Claims (9)
- インターフェース回路を介してプロセッサ間を接続した複数のプロセッサからなるマルチプロセッサ構成を有し、それぞれのプロセッサを接続し、接続したそれぞれのプロセッサの管理・監視を実行するベースボード管理コントローラ(BMC:Baseboard Management Controller)を備える情報処理装置であって、前記ベースボード管理コントローラ(BMC)上で動作するファームウェア(BMCFW:BMC Firmware)は、それぞれのプロセッサ上で動作するベーシック入出力システム(BIOS:Basic Input/Output System)と連携することにより、故障部位を判別して、故障部位を運用系から切り離す障害処理機能を有し、かつ、前記ベーシック入出力システム(BIOS)は、装置の立ち上げ動作を実行中に障害を検出した場合、当該ベーシック入出力システム(BIOS)が動作するプロセッサ内に備えているステータスレジスタが保持する動作状態を解析した結果として得られるエラーコードと、検出した障害が前記インターフェース回路に関するリンク障害と判定した場合には当該インターフェース回路の通信先になる相手側のプロセッサの状態の解析を要求する通信先プロセッサ調査依頼とからなる障害検出通知を、前記ベースボード管理コントローラ(BMC)に送信し、前記障害検出通知を受け取った前記ベースボード管理コントローラ(BMC)上で動作するファームウェア(BMCFW)は、前記インターフェース回路を介して接続されているプロセッサに関して、前記障害検出通知に含まれている前記エラーコードに基づき、障害被疑部位の可能性を示す割合を第1の被疑割合として決定するとともに、前記障害検出通知に前記通信先プロセッサ調査依頼が含まれていた場合には、障害が検出された前記インターフェース回路の通信先の相手側のプロセッサ内に備えているステータスレジスタが保持する動作状態を読み取って解析した結果に基づいて障害被疑部位の障害の可能性を示す割合を第2の被疑割合として決定し、決定した前記第1の被疑割合と前記第2の被疑割合とをあらかじめ定めた規則にしたがってマージして最終的な被疑割合を求めることにより、該最終的な被疑割合が最も高い部位を故障部位と判別して、該故障部位を運用系から切り離すことを特徴とする情報処理装置。
- 障害を検出したベーシック入出力システム(BIOS)は、検出した障害が前記インターフェース回路に関するリンク障害と判定した場合、前記障害検出通知に含まれる前記通信先プロセッサ調査依頼に、該リンク障害が検出された前記インターフェース回路の通信先の相手側のプロセッサを特定する部品コードを設定し、前記障害検出通知を受け取った前記ベースボード管理コントローラ(BMC)上で動作するファームウェア(BMCFW)は、前記障害検出通知に含まれる前記部品コードによって特定される通信先の相手側のプロセッサのステータスレジスタが保持する動作状態を読み取り、前記第2の被疑割合を決定することにより、前記第1、第2の被疑割合に基づいて前記故障部位を判別する動作を行い、一方、障害を検出したベーシック入出力システム(BIOS)は、検出した障害が前記インターフェース回路に関するリンク障害ではなく、当該ベーシック入出力システム(BIOS)が動作するプロセッサ内の障害と判定した場合、前記障害検出通知に含まれる前記通信先プロセッサ調査依頼に、プロセッサを特定する部品コードとは異なるコードを設定し、前記障害検出通知を受け取った前記ベースボード管理コントローラ(BMC)上で動作するファームウェア(BMCFW)は、通信先の相手側のプロセッサの調査要求がないものとして、通信先の相手側のプロセッサのステータスレジスタの読み取り動作を実施することなく、前記第1の被疑割合のみを用いて、前記故障部位を判別する動作を行うことを特徴とする請求項1に記載の情報処理装置。
- 障害を検出したベーシック入出力システム(BIOS)は、検出した障害が前記インターフェース回路に関するリンク障害と判定した場合、前記障害検出通知に含まれる前記通信先プロセッサ調査依頼に、調査依頼を示す識別子を設定し、前記障害検出通知を受け取った前記ベースボード管理コントローラ(BMC)上で動作するファームウェア(BMCFW)は、あらかじめ備えている通信先一覧表を参照することによって特定した通信先の相手側のプロセッサのステータスレジスタが保持する動作状態を読み取り、前記第2の被疑割合を決定することにより、前記第1、第2の被疑割合に基づいて前記故障部位を判別する動作を行い、一方、障害を検出したベーシック入出力システム(BIOS)は、検出した障害が前記インターフェース回路に関するリンク障害ではなく、当該ベーシック入出力システム(BIOS)が動作するプロセッサ内の障害と判定した場合、前記障害検出通知に含まれる前記通信先プロセッサ調査依頼に、調査不要を示す識別子を設定し、前記障害検出通知を受け取った前記ベースボード管理コントローラ(BMC)上で動作するファームウェア(BMCFW)は、通信先の相手側のプロセッサの調査要求がないものとして、通信先の相手側のプロセッサのステータスレジスタの読み取り動作を実施することなく、前記第1の被疑割合のみを用いて、前記故障部位を判別する動作を行うことを特徴とする請求項1に記載の情報処理装置。
- 前記第1の被疑割合と前記第2の被疑割合とをマージするための前記規則として、前記第1の被疑割合と前記第2の被疑割合との単純平均を求めるか、あるいは、前記第2の被疑割合にあらかじめ定めた適当な重みを付した加重平均を求めるかのいずれかの規則を用いることを特徴とする請求項1ないし3のいずれかに記載の情報処理装置。
- インターフェース回路を介してプロセッサ間を接続した複数のプロセッサからなるマルチプロセッサ構成の情報処理装置において故障部位を判別する故障部位判別方法であって、それぞれのプロセッサを接続し、接続したそれぞれのプロセッサの管理・監視を実行するベースボード管理コントローラ(BMC:Baseboard Management Controller)を備え、前記ベースボード管理コントローラ(BMC)上で動作するファームウェア(BMCFW:BMC Firmware)は、それぞれのプロセッサ上で動作するベーシック入出力システム(BIOS:Basic Input/Output System)と連携することにより、故障部位を判別して、故障部位を運用系から切り離す障害処理機能を有し、かつ、前記ベーシック入出力システム(BIOS)は、装置の立ち上げ動作を実行中に障害を検出した場合、当該ベーシック入出力システム(BIOS)が動作するプロセッサ内に備えているステータスレジスタが保持する動作状態を解析した結果として得られるエラーコードと、検出した障害が前記インターフェース回路に関するリンク障害と判定した場合には当該インターフェース回路の通信先になる相手側のプロセッサの状態の解析を要求する通信先プロセッサ調査依頼とからなる障害検出通知を、前記ベースボード管理コントローラ(BMC)に送信し、前記障害検出通知を受け取った前記ベースボード管理コントローラ(BMC)上で動作するファームウェア(BMCFW)は、前記インターフェース回路を介して接続されているプロセッサに関して、前記障害検出通知に含まれている前記エラーコードに基づき、障害被疑部位の可能性を示す割合を第1の被疑割合として決定するとともに、前記障害検出通知に前記通信先プロセッサ調査依頼が含まれていた場合には、障害が検出された前記インターフェース回路の通信先の相手側のプロセッサ内に備えているステータスレジスタが保持する動作状態を読み取って解析した結果に基づいて障害被疑部位の障害の可能性を示す割合を第2の被疑割合として決定し、決定した前記第1の被疑割合と前記第2の被疑割合とをあらかじめ定めた規則にしたがってマージして最終的な被疑割合を求めることにより、該最終的な被疑割合が最も高い部位を故障部位と判別して、該故障部位を運用系から切り離すことを特徴とする故障部位判別方法。
- 障害を検出したベーシック入出力システム(BIOS)は、検出した障害が前記インターフェース回路に関するリンク障害と判定した場合、前記障害検出通知に含まれる前記通信先プロセッサ調査依頼に、該リンク障害が検出された前記インターフェース回路の通信先の相手側のプロセッサを特定する部品コードを設定し、前記障害検出通知を受け取った前記ベースボード管理コントローラ(BMC)上で動作するファームウェア(BMCFW)は、前記障害検出通知に含まれる前記部品コードによって特定される通信先の相手側のプロセッサのステータスレジスタが保持する動作状態を読み取り、前記第2の被疑割合を決定することにより、前記第1、第2の被疑割合に基づいて前記故障部位を判別する動作を行い、一方、障害を検出したベーシック入出力システム(BIOS)は、検出した障害が前記インターフェース回路に関するリンク障害ではなく、当該ベーシック入出力システム(BIOS)が動作するプロセッサ内の障害と判定した場合、前記障害検出通知に含まれる前記通信先プロセッサ調査依頼に、プロセッサを特定する部品コードとは異なるコードを設定し、前記障害検出通知を受け取った前記ベースボード管理コントローラ(BMC)上で動作するファームウェア(BMCFW)は、通信先の相手側のプロセッサの調査要求がないものとして、通信先の相手側のプロセッサのステータスレジスタの読み取り動作を実施することなく、前記第1の被疑割合のみを用いて、前記故障部位を判別する動作を行うことを特徴とする請求項5に記載の故障部位判別方法。
- 障害を検出したベーシック入出力システム(BIOS)は、検出した障害が前記インターフェース回路に関するリンク障害と判定した場合、前記障害検出通知に含まれる前記通信先プロセッサ調査依頼に、調査依頼を示す識別子を設定し、前記障害検出通知を受け取った前記ベースボード管理コントローラ(BMC)上で動作するファームウェア(BMCFW)は、あらかじめ備えている通信先一覧表を参照することによって特定した通信先の相手側のプロセッサのステータスレジスタが保持する動作状態を読み取り、前記第2の被疑割合を決定することにより、前記第1、第2の被疑割合に基づいて前記故障部位を判別する動作を行い、一方、障害を検出したベーシック入出力システム(BIOS)は、検出した障害が前記インターフェース回路に関するリンク障害ではなく、当該ベーシック入出力システム(BIOS)が動作するプロセッサ内の障害と判定した場合、前記障害検出通知に含まれる前記通信先プロセッサ調査依頼に、調査不要を示す識別子を設定し、前記障害検出通知を受け取った前記ベースボード管理コントローラ(BMC)上で動作するファームウェア(BMCFW)は、通信先の相手側のプロセッサの調査要求がないものとして、通信先の相手側のプロセッサのステータスレジスタの読み取り動作を実施することなく、前記第1の被疑割合のみを用いて、前記故障部位を判別する動作を行うことを特徴とする請求項5に記載の故障部位判別方法。
- 前記第1の被疑割合と前記第2の被疑割合とをマージするための前記規則として、前記第1の被疑割合と前記第2の被疑割合との単純平均を求めるか、あるいは、前記第2の被疑割合にあらかじめ定めた適当な重みを付した加重平均を求めるかのいずれかの規則を用いることを特徴とする請求項5ないし7のいずれかに記載の故障部位判別方法。
- 請求項5ないし8のいずれかに記載の故障部位判別方法を、コンピュータによって実行可能なプログラムとして実施していることを特徴とする故障部位判別プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010226577A JP5541519B2 (ja) | 2010-10-06 | 2010-10-06 | 情報処理装置、故障部位判別方法および故障部位判別プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010226577A JP5541519B2 (ja) | 2010-10-06 | 2010-10-06 | 情報処理装置、故障部位判別方法および故障部位判別プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012079266A JP2012079266A (ja) | 2012-04-19 |
JP5541519B2 true JP5541519B2 (ja) | 2014-07-09 |
Family
ID=46239386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010226577A Expired - Fee Related JP5541519B2 (ja) | 2010-10-06 | 2010-10-06 | 情報処理装置、故障部位判別方法および故障部位判別プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5541519B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK3121726T3 (en) * | 2014-06-24 | 2018-05-22 | Huawei Tech Co Ltd | PROCEDURE FOR TROUBLESHOOTING, RELATED DEVICE AND COMPUTER |
CN104391765A (zh) * | 2014-10-27 | 2015-03-04 | 浪潮电子信息产业股份有限公司 | 一种自动诊断服务器启动故障的方法 |
CN109240863A (zh) * | 2018-08-30 | 2019-01-18 | 郑州云海信息技术有限公司 | 一种cpu故障定位方法、装置、设备及存储介质 |
JP6996602B1 (ja) | 2020-09-23 | 2022-01-17 | 日本電気株式会社 | Bmc、サーバシステム、装置安定度判定方法及びプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0887341A (ja) * | 1994-09-16 | 1996-04-02 | Fujitsu Ltd | 自動縮退立ち上げ機能を有したコンピュータシステム |
JP3365282B2 (ja) * | 1997-11-14 | 2003-01-08 | 日本電気株式会社 | クラスタ接続マルチcpuシステムのcpuデグレード方式 |
JP2008146222A (ja) * | 2006-12-07 | 2008-06-26 | Mitsubishi Electric Corp | 計算機故障検出システムおよび計算機故障検出方法 |
-
2010
- 2010-10-06 JP JP2010226577A patent/JP5541519B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012079266A (ja) | 2012-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9256489B2 (en) | Synchronized debug information generation | |
JP5541519B2 (ja) | 情報処理装置、故障部位判別方法および故障部位判別プログラム | |
TW201423385A (zh) | 電腦測試系統及方法 | |
JP5425720B2 (ja) | 仮想化環境監視装置とその監視方法およびプログラム | |
JP5152340B2 (ja) | 制御回路、情報処理装置及び情報処理装置の制御方法 | |
CN107783844A (zh) | 一种计算机程序运行异常检测方法、装置和介质 | |
US20080288828A1 (en) | structures for interrupt management in a processing environment | |
JP2011113122A (ja) | 障害影響分析装置及び業務システム及び障害影響分析方法 | |
US8032791B2 (en) | Diagnosis of and response to failure at reset in a data processing system | |
JP2011145824A (ja) | 情報処理装置、障害解析方法及び障害解析プログラム | |
US20080216057A1 (en) | Recording medium storing monitoring program, monitoring method, and monitoring system | |
CN112069032A (zh) | 一种虚拟机的可用性检测方法、系统及相关装置 | |
US10437704B2 (en) | Identifying back-end components based on stack traces | |
JP2004110801A (ja) | 再初期化したチャネル間接続の妥当性を検査するための技法 | |
JP5440673B1 (ja) | プログラマブルロジックデバイス、情報処理装置、被疑箇所指摘方法およびプログラム | |
US9176806B2 (en) | Computer and memory inspection method | |
EP3660678A1 (en) | Canary release for static content | |
CN113553243A (zh) | 远端侦错方法 | |
JP6112205B2 (ja) | 情報処理システム、装置、方法及びプログラム | |
JP5978804B2 (ja) | システムを管理するためのプログラム、方法及び情報処理装置 | |
US20060230196A1 (en) | Monitoring system and method using system management interrupt | |
JP7367495B2 (ja) | 情報処理装置および通信ケーブルログ情報採取方法 | |
JP2013196410A (ja) | サーバ装置及び障害管理方法及び障害管理プログラム | |
JP5561790B2 (ja) | ハードウェア障害被疑特定装置、ハードウェア障害被疑特定方法、及びプログラム | |
CN116701055A (zh) | 一种服务器的故障隔离方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130906 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140326 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140423 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5541519 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |