JP5495310B2 - 情報処理装置、障害解析方法及び障害解析プログラム - Google Patents
情報処理装置、障害解析方法及び障害解析プログラム Download PDFInfo
- Publication number
- JP5495310B2 JP5495310B2 JP2010005023A JP2010005023A JP5495310B2 JP 5495310 B2 JP5495310 B2 JP 5495310B2 JP 2010005023 A JP2010005023 A JP 2010005023A JP 2010005023 A JP2010005023 A JP 2010005023A JP 5495310 B2 JP5495310 B2 JP 5495310B2
- Authority
- JP
- Japan
- Prior art keywords
- processor
- failure
- log
- identification information
- acquired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 79
- 230000010365 information processing Effects 0.000 title claims description 34
- 230000015654 memory Effects 0.000 claims description 31
- 230000002093 peripheral effect Effects 0.000 claims description 27
- 238000004891 communication Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 230000005856 abnormality Effects 0.000 claims 4
- 238000000034 method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000000717 retained effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
情報処理装置2は、管理部51と、プロセッサ52と、周辺デバイス53と、第1の記憶部54と、第2の記憶部55とを有する。
プロセッサ52は、管理部51から出力されたログ取得要求に応じて、自身から第2のログを取得する。そして、取得した第2のログと、管理部51から出力された識別情報とを対応付けて第2の記憶部55に格納する。
第1の記憶部54は、管理部51が取得したログが格納される。
第2の記憶部55は、プロセッサ52が取得したログが格納される。
管理部51は、情報処理装置2における障害を検出した場合に、検出した障害と対応付けられた識別情報を生成する。そして、管理部51は、生成した識別情報と、ログ取得要求とをプロセッサ52に出力する。また、管理部51は、周辺デバイス53から第1のログを取得して、取得した第1のログと、生成した識別情報とを対応付けて第1の記憶部54に格納する。
ホストブリッジ14は、プロセッサ11、12及びメモリ13と、システムバス31によって相互に接続されている。BMC10は、プロセッサ11、12、ホストブリッジ14及びI/Oブリッジ15と、管理バス32によって相互に接続されている。また、ホストブリッジ14は、拡張I/Oデバイス20、21と接続されている。また、I/Oブリッジ15は、ホストブリッジ14、I/Oデバイス22、23と接続されている。
ホストブリッジ14は、プロセッサ11、12、メモリ13、I/Oブリッジ15及び拡張I/Oデバイス20、21間のデータ伝送を行う。
I/Oブリッジ15は、ホストブリッジ14、不揮発性メモリ17、I/Oデバイス22、23間のデータ転送を行う。プロセッサ11、12以外のホストブリッジ14、I/Oブリッジ15等のハードウェア部品は、周辺デバイス53に相当する。
I/Oデバイス22、23は、例えば、ネットワークデバイス、DISKデバイス等の入出力装置である。
BMC10は、プロセッサ11から障害発生が通知されると、自身が管理・保持しているevent tableに障害発生eventを登録すると共に、この障害発生eventに対応したevent IDを算出する(S101)。つまり、BMC10は、プロセッサ11から出力された障害発生の通知によって、プロセッサ11において発生した障害を検出する。ここで、event tableは、コンピュータサーバ1内で発生した様々なeventを時系列に保持しておくものである。したがって、例えば、障害発生eventとして、障害発生時刻、障害内容等を含んだ情報が格納される。また、event tableは、BMC10が有するメモリ等の記憶装置に格納するようにしてもよいし、不揮発性メモリ16に格納するようにしてもよい。
本実施の形態では、プロセッサ11において障害が発生した場合について例示したが、BMC10がプロセッサ以外のハードウェア部品における障害の発生を検出した場合についても上述した処理を実行するようにしてもよい。例えば、ホストブリッジ14、I/Oブリッジ15において障害の発生した場合に、ホストブリッジ14、I/Oブリッジ15から、その旨を示す割り込み信号をBMC10に出力することによってプロセッサ以外のハードウェア部品における障害の発生を検出する。
2 情報処理装置
10 BMC
11、12、52 プロセッサ
13 メモリ
14 ホストブリッジ
15 I/Oブリッジ
16、17 不揮発性メモリ
20、21 拡張I/Oデバイス
22、23 I/Oデバイス
31 システムバス
32 管理バス
51 管理部
53 周辺デバイス
54 第1の記憶部
55 第2の記憶部
Claims (10)
- 第1の記憶部と、第2の記憶部と、プロセッサと、前記プロセッサと通信する周辺デバイスと、管理部と、を備えた情報処理装置であって、
前記プロセッサは、当該プロセッサと前記周辺デバイスとの通信異常に関する障害を検出した場合、前記管理部に障害発生を通知し、
前記管理部は、前記プロセッサから障害発生が通知された場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、BIOS(Basic Input/Output System)起動要求とを前記プロセッサに出力するとともに、前記周辺デバイスから第1のログを取得して、取得した第1のログと、前記識別情報とを対応付けて前記第1の記憶部に格納し、
前記プロセッサは、前記管理部から出力されたBIOS起動要求に応じて起動したBIOSによって自身から第2のログを取得して、取得した第2のログと、前記管理部から出力された識別情報とを対応付けて第2の記憶部に格納する、情報処理装置。 - 前記プロセッサは、前記第2のログを解析して第2の解析結果を生成し、
前記管理部は、前記第1のログを解析して第1の解析結果を生成するとともに、前記プロセッサが生成した第2の解析結果と、当該第2の解析結果の生成に用いられた第2のログに対応付けられた識別情報とを取得して、取得した識別情報に対応付けられた第1のログから生成した第1の解析結果と、前記取得した第2の解析結果とを解析して、前記障害の原因となった故障個所を特定する請求項1に記載の情報処理装置。 - 前記プロセッサは、前記第2のログを解析して生成した第2の解析結果と、当該第2のログに対応付けられた識別情報とを前記管理部に出力し、
前記管理部は、前記プロセッサから出力された第2の解析結果及び識別情報を取得して、前記障害の原因となった故障個所を特定する請求項2に記載の情報処理装置。 - 前記プロセッサは、前記第2のログと、当該第2のログに対応付けられた識別情報とを取得して、取得した識別情報に対応付けられた第1のログと、前記取得した第2のログとを解析して、前記障害の原因となった故障個所を特定する請求項1に記載の情報処理装置。
- 前記プロセッサは、前記BIOSを実行することによって、前記第2の解析結果を生成する請求項2又は3に記載の情報処理装置。
- 前記第1及び第2の解析結果は、前記障害の原因となった故障箇所を示す情報である請求項2、3、又は5項に記載の情報処理装置。
- 前記管理部は、BMC(Baseboard Management Controller)であり、
前記周辺デバイスは、ホストブリッジ及びI/O(Input/Output)ブリッジを含み、
前記第1及び第2の記憶部は、1つ又は複数の不揮発性メモリに含まれる請求項1乃至6のいずれか1項に記載の情報処理装置。 - プロセッサと、前記プロセッサと通信する周辺デバイスと、管理部と、を備えた情報処理装置における障害の原因を解析する障害解析方法であって、
前記プロセッサが、当該プロセッサと前記周辺デバイスとの通信異常に関するを検出した場合、前記管理部に障害発生を通知するステップと、
前記管理部が、前記プロセッサから障害発生が通知された場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、BIOS(Basic Input/Output System)起動要求とを前記プロセッサに出力するステップと、
前記管理部が、前記周辺デバイスから第1のログを取得して、取得した第1のログと、前記識別情報とを対応付けて第1の記憶部に格納するステップと、
前記プロセッサが、前記管理部から出力されたBIOS起動要求に応じて起動したBIOSによって自身から第2のログを取得して、取得した第2のログと、前記管理部から出力された識別情報とを対応付けて第2の記憶部に格納するステップと、を備えた障害解析方法。 - プロセッサと、前記プロセッサと通信する周辺デバイスと、を備えた情報処理装置における障害の原因を解析する障害解析方法であって、
前記プロセッサが当該プロセッサと前記周辺デバイスとの通信異常に関する障害を検出して障害発生の通知を出力した場合に、前記プロセッサから出力された障害発生の通知に応じて、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、BIOS(Basic Input/Output System)起動要求とを前記プロセッサに出力するステップと、
前記周辺デバイスから第1のログを取得して、取得した第1のログを解析して生成した第1の解析結果と、前記識別情報とを対応付けて記憶部に格納するステップと、
前記プロセッサが、前記出力されたBIOS起動要求及び識別情報を取得して、当該BIOS起動要求に応じて起動したBIOSによって自身から第2のログを取得して、取得した第2のログを解析して生成した第2の解析結果と、前記取得した識別情報とを出力した場合に、当該プロセッサから出力された第2の解析結果及び識別情報を取得するステップと、
前記取得した識別情報に対応付けられた第1の解析結果と、前記取得した第2の解析結果とを解析して、前記障害の原因となった故障個所を特定するステップと、を備えた障害解析方法。 - プロセッサと、前記プロセッサと通信する周辺デバイスと、を備えた情報処理装置における障害の原因を解析する障害解析プログラムであって、
前記プロセッサが当該プロセッサと前記周辺デバイスとの通信異常に関する障害を検出して障害発生の通知を出力した場合に、前記プロセッサから出力された障害発生の通知に応じて、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、BIOS(Basic Input/Output System)起動要求とを前記プロセッサに出力するステップと、
前記周辺デバイスから第1のログを取得して、取得した第1のログを解析して生成した第1の解析結果と、前記識別情報とを対応付けて記憶部に格納するステップと、
前記プロセッサが、前記出力されたBIOS起動要求及び識別情報を取得して、当該BIOS起動要求に応じて起動したBIOSによって自身から第2のログを取得して、取得した第2のログを解析して生成した第2の解析結果と、前記取得した識別情報とを出力した場合に、当該プロセッサから出力された第2の解析結果及び識別情報を取得するステップと、
前記取得した識別情報に対応付けられた第1の解析結果と、前記取得した第2の解析結果とを解析して、前記障害の原因となった故障個所を特定するステップと、をコンピュータに実行させる障害解析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010005023A JP5495310B2 (ja) | 2010-01-13 | 2010-01-13 | 情報処理装置、障害解析方法及び障害解析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010005023A JP5495310B2 (ja) | 2010-01-13 | 2010-01-13 | 情報処理装置、障害解析方法及び障害解析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011145824A JP2011145824A (ja) | 2011-07-28 |
JP5495310B2 true JP5495310B2 (ja) | 2014-05-21 |
Family
ID=44460629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010005023A Expired - Fee Related JP5495310B2 (ja) | 2010-01-13 | 2010-01-13 | 情報処理装置、障害解析方法及び障害解析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5495310B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014147699A1 (ja) * | 2013-03-18 | 2014-09-25 | 富士通株式会社 | 管理装置、方法及びプログラム |
JP6515462B2 (ja) * | 2014-08-22 | 2019-05-22 | 富士通株式会社 | 情報処理装置、情報処理装置の設定方法及び設定プログラム |
JP6447167B2 (ja) * | 2015-01-23 | 2019-01-09 | 株式会社リコー | 半導体デバイス、ログ取得方法及び電子機器 |
JP7063445B2 (ja) * | 2017-03-22 | 2022-05-09 | Necプラットフォームズ株式会社 | 障害情報処理プログラム、コンピュータ、障害通知方法、コンピュータシステム |
JP6880961B2 (ja) * | 2017-04-14 | 2021-06-02 | 富士通株式会社 | 情報処理装置、およびログ記録方法 |
CN111694719B (zh) * | 2020-06-10 | 2024-09-10 | 腾讯科技(深圳)有限公司 | 服务器故障处理方法、装置、存储介质及电子设备 |
CN112905373B (zh) * | 2021-02-04 | 2024-09-24 | 苏州源控电子科技有限公司 | Ops设备的开机异常检测方法、装置、系统以及交互平板 |
CN113900872A (zh) * | 2021-10-11 | 2022-01-07 | 江苏欧迈科技有限公司 | 一种硬件故障检测系统、方法及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000112790A (ja) * | 1998-10-02 | 2000-04-21 | Toshiba Corp | 障害情報収集機能付きコンピュータ |
JP2005165653A (ja) * | 2003-12-02 | 2005-06-23 | Hitachi Ltd | 情報処理装置の障害情報採取システム |
JP4868204B2 (ja) * | 2005-01-04 | 2012-02-01 | オリンパス株式会社 | 障害監視装置および方法 |
US7743274B2 (en) * | 2007-09-12 | 2010-06-22 | International Business Machines Corporation | Administering correlated error logs in a computer system |
US7788520B2 (en) * | 2007-09-14 | 2010-08-31 | International Business Machines Corporation | Administering a system dump on a redundant node controller in a computer system |
-
2010
- 2010-01-13 JP JP2010005023A patent/JP5495310B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011145824A (ja) | 2011-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5495310B2 (ja) | 情報処理装置、障害解析方法及び障害解析プログラム | |
KR102268355B1 (ko) | 클라우드 배치 기반구조 검증 엔진 | |
US8397104B2 (en) | Creation of test plans | |
US20120331449A1 (en) | Device, method and computer program product for evaluating a debugger script | |
JPH0432417B2 (ja) | ||
US20150006961A1 (en) | Capturing trace information using annotated trace output | |
US20080276129A1 (en) | Software tracing | |
US9852051B2 (en) | Second failure data capture in co-operating multi-image systems | |
JP2015011372A (ja) | デバッグ支援システム、方法、プログラム及び記録媒体 | |
US8799716B2 (en) | Heap dump occurrence detection | |
US7478283B2 (en) | Provisional application management with automated acceptance tests and decision criteria | |
US9009537B2 (en) | Diagnostic data capture in a computing environment | |
US9251028B2 (en) | Managing code instrumentation in a production computer program | |
CN113360389A (zh) | 一种性能测试方法、装置、设备及存储介质 | |
WO2011051999A1 (ja) | 情報処理装置及び情報処理装置の制御方法 | |
US9916192B2 (en) | Thread based dynamic data collection | |
JP5541519B2 (ja) | 情報処理装置、故障部位判別方法および故障部位判別プログラム | |
CN111694724B (zh) | 分布式表格系统的测试方法、装置、电子设备及存储介质 | |
CN113282496B (zh) | 接口自动测试方法、装置、设备及存储介质 | |
CN102023916B (zh) | 电脑系统的检测方法 | |
CN108845932B (zh) | 一种网络库的单元测试方法、装置、存储介质及终端 | |
JP5440673B1 (ja) | プログラマブルロジックデバイス、情報処理装置、被疑箇所指摘方法およびプログラム | |
CN114253846B (zh) | 自动化测试异常定位方法、装置、设备及可读存储介质 | |
JP2017151511A (ja) | 情報処理装置、動作ログ取得方法および動作ログ取得プログラム | |
CN117234852A (zh) | 一种异常服务检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5495310 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |