JP5532143B2 - エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム - Google Patents
エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム Download PDFInfo
- Publication number
- JP5532143B2 JP5532143B2 JP2012542776A JP2012542776A JP5532143B2 JP 5532143 B2 JP5532143 B2 JP 5532143B2 JP 2012542776 A JP2012542776 A JP 2012542776A JP 2012542776 A JP2012542776 A JP 2012542776A JP 5532143 B2 JP5532143 B2 JP 5532143B2
- Authority
- JP
- Japan
- Prior art keywords
- error
- interrupt
- location
- link
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 61
- 230000000737 periodic effect Effects 0.000 claims description 48
- 230000005540 biological transmission Effects 0.000 claims description 41
- 230000010365 information processing Effects 0.000 claims description 35
- 238000011144 upstream manufacturing Methods 0.000 claims description 33
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 description 96
- 101000908015 Homo sapiens Putative inactive carboxylesterase 4 Proteins 0.000 description 73
- 102100023322 Putative inactive carboxylesterase 4 Human genes 0.000 description 73
- 230000008569 process Effects 0.000 description 38
- 238000001514 detection method Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000013500 data storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0778—Dumping, i.e. gathering error/state information after a fault for later diagnosis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Description
本件は、情報処理装置におけるエラー箇所特定方法およびエラー箇所特定装置に関する。また、本件は、当該方法および装置を実現するためのエラー箇所特定プログラムにも関する。
情報処理装置は、一般に、中央処理装置(central processing unit、以下「CPU」)を備える。CPUのなかには、システム管理割り込み(System Management Interrupt、以下「SMI」)という割り込みの一種により、CPUの動作モードの一つであるシステム管理モード(System Management Mode、以下「SMM」)に移行する機能を備えるものがある。SMMに移行するCPUの例としては、Intel社のx86アーキテクチャなどが挙げられる。
CPUは、SMIを受信すると、SMMモードに移行する。SMMモードでは、CPUはSMIハンドラを実行する。SMIハンドラは、メモリ空間内の独立したアドレス空間であり、他の動作モードからはアクセスできないシステム管理ランダムアクセスメモリ(System Management Random Access Memory、以下「SMRAM」)空間内でSMIを処理するプログラムである。
SMIの処理が完了すると、CPUはSMMの移行前のモードに戻る。
PCI Express(PCIe)は、I/Oシリアルインターフェースの一規格である。
PCIeの接続構成においては、PCIeのデバイス(ポート)がPCIeのリンクを介して相互に接続される。詳細には、チップセット内に存在し、接続構成の起点となるPCIeのルートポートと、PCIeポート間でパケットをルーティングするPCIeスイッチと、末端に位置するPCIeカード等のエンドポイントとが、PCIeのリンクを介して相互に接続される。
PCI Express(PCIe)は、I/Oシリアルインターフェースの一規格である。
PCIeの接続構成においては、PCIeのデバイス(ポート)がPCIeのリンクを介して相互に接続される。詳細には、チップセット内に存在し、接続構成の起点となるPCIeのルートポートと、PCIeポート間でパケットをルーティングするPCIeスイッチと、末端に位置するPCIeカード等のエンドポイントとが、PCIeのリンクを介して相互に接続される。
図12に、PCIeの接続の例を模式的に示す。PCIeの接続においては、図12に示すように、ルートポート(あるいはCPU)に近い上流デバイス101と、下流デバイス102とが、ケーブル、コネクタ、配線等の物理的な伝送路(以下「伝送路」)103によって接続されている。
このようなPCIeにおいてエラーが発生し、PCIeのリンクが切断している場合(以下「リンクダウン」)に、エラーを引き起こしている箇所(被疑箇所)を特定することを「フォールトロケーション処理」という。
このようなPCIeにおいてエラーが発生し、PCIeのリンクが切断している場合(以下「リンクダウン」)に、エラーを引き起こしている箇所(被疑箇所)を特定することを「フォールトロケーション処理」という。
ここで、図12に示すように、被疑箇所は、上流デバイス101か、下流デバイス102か、伝送路103の3箇所のいずれかである。
PCIe Base 2.1 Specification(http://www.pcisig.com/specifications/pciexpress/base2/#b21参照)
フォールトロケーション処理においては、各デバイス101,102に備えられたステータスレジスタ104,105の内容を解析することで障害発生時の被疑箇所を特定する。しかし、リンクダウンが発生している場合は、リンクダウンよりも下流側のデバイス102のステータスレジスタ105は取得することができない。
そこで、リンクダウンの被疑箇所の特定には、例えば情報処理装置に専用の機器を装着したのちに、障害を再現させることにより行なう。このため、情報処理装置が稼動している現場では、即座にリンクダウンの被疑箇所を特定することができない。
そこで、リンクダウンの被疑箇所の特定には、例えば情報処理装置に専用の機器を装着したのちに、障害を再現させることにより行なう。このため、情報処理装置が稼動している現場では、即座にリンクダウンの被疑箇所を特定することができない。
ここで、下流デバイス102は、ケーブルで接続されたPCIeデバイスやPCIeカードなどであるので、上流デバイス101に比べて交換が容易な場合が多い。このように下流デバイス102の交換が容易であることから、従来のフォールトロケーション処理では、リンクダウン発生時の被疑箇所を、下流デバイスであるとみなして対応していた。その上で、被疑箇所が、他の上流デバイスもしくは伝送路である可能性もある点を、手順書等によって技術員に周知していた。
しかし、情報処理装置が稼動している各現場で障害対応を図る技術員は、専門スキルが必ずしも十分でなかったり、作業時間が限られているため、他の被疑箇所の可能性を十分検討できない場合があった。
このような状況で、被疑箇所が誤っていた場合、「正常」と誤って判断された故障部品は交換されない。このため、エラー対処後に再度エラーが発生する可能性が高い。また、正常であるにも関わらず、故障品であると誤って判断された正常品に原因調査など試みても、本来正常であるため、エラーの原因を特定することは困難である。
このような状況で、被疑箇所が誤っていた場合、「正常」と誤って判断された故障部品は交換されない。このため、エラー対処後に再度エラーが発生する可能性が高い。また、正常であるにも関わらず、故障品であると誤って判断された正常品に原因調査など試みても、本来正常であるため、エラーの原因を特定することは困難である。
このように従来技術では、リンクダウンが発生した場合に被疑箇所を特定し対処するために、非常に多くの時間と手間がかかり、かつ専門スキルを要するという課題があった。
本件の目的の一つは、情報処理装置のリンクダウンが発生した場合に、専門スキルがなくても、容易かつ短時間で故障箇所を把握して、これに対処できるようにする方法、装置およびプログラムを提供することにある。
本件の目的の一つは、情報処理装置のリンクダウンが発生した場合に、専門スキルがなくても、容易かつ短時間で故障箇所を把握して、これに対処できるようにする方法、装置およびプログラムを提供することにある。
このため、伝送路によって多段接続された複数のデバイスを有する情報処理装置においてリンクダウン箇所を特定する方法は、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定し、周期的な割り込みの場合に、各デバイスに格納されているエラーに関する情報を履歴情報として記憶し、エラー割り込みの場合に、該エラー割り込みの要因であるリンクダウン発生部の上流側デバイスと下流側デバイスとのそれぞれについて記憶されている該履歴情報を解析して、リンクダウンの被疑箇所を特定する。
また、伝送路によって多段接続された複数のデバイスを有する情報処理装置においてリンクダウン箇所を特定するエラー箇所特定装置は、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、周期的な割り込みの場合に、各デバイスに格納されているエラーに関する情報を履歴情報として記憶するエラー記憶部と、エラー割り込みの場合に、該エラー割り込みの要因であるリンクダウン発生部の上流側デバイスと下流側デバイスとのそれぞれについて該エラー記憶部に記憶されている該履歴情報を解析して、リンクダウンの被疑箇所を特定するエラー箇所特定部と、を備える。
更に、伝送路によって多段接続された複数のデバイスを有する情報処理装置においてリンクダウン箇所を特定するエラー箇所特定プログラムは、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、周期的な割り込みの場合に、各デバイスに格納されているエラーに関する情報を履歴情報として記憶するエラー記憶部と、エラー割り込みの場合に、該エラー割り込みの要因であるリンクダウン発生部の上流側デバイスと下流側デバイスとのそれぞれについて該エラー記憶部に記憶されている該履歴情報を解析して、リンクダウンの被疑箇所を特定するエラー箇所特定部と、して、該コンピュータを機能させる。
開示の技術によれば、情報処理装置のリンクダウンのエラー時に、被疑箇所を優先順位付きで特定することが可能となるため、さほど専門知識を有さない作業者でも、短時間で故障箇所を把握し、適宜対処できる。
1 情報処理装置
13 フォールトロケーション処理部
17,18,19 PCIeポート
21 SMI要因判断部
20 フォールトロケーションプログラム
26 エラーSMI処理部
29 リンクダウン被疑箇所特定処理部
30 エラー指摘処理部
31 CESR退避部
34 被疑分類定義情報
35 エラー検出カウント情報
36 被疑優先順定義情報
37 エラー指摘フォーマット情報
41 UESR
42 CESR
43 退避CESR
d1〜dm PCIeデバイス
13 フォールトロケーション処理部
17,18,19 PCIeポート
21 SMI要因判断部
20 フォールトロケーションプログラム
26 エラーSMI処理部
29 リンクダウン被疑箇所特定処理部
30 エラー指摘処理部
31 CESR退避部
34 被疑分類定義情報
35 エラー検出カウント情報
36 被疑優先順定義情報
37 エラー指摘フォーマット情報
41 UESR
42 CESR
43 退避CESR
d1〜dm PCIeデバイス
以下、図面を参照して、実施形態の一例としてのエラー箇所特定方法およびエラー箇所特定装置に係る実施の形態を説明する。
図1は、実施形態の一例としてのフォールトロケーション処理部13の機能構成を示すブロック図であり、図2は、実施形態の一例としてのエラー箇所特定方法およびエラー箇所特定装置が実施される情報処理装置1のハードウェア構成を示すブロック図である。
図1は、実施形態の一例としてのフォールトロケーション処理部13の機能構成を示すブロック図であり、図2は、実施形態の一例としてのエラー箇所特定方法およびエラー箇所特定装置が実施される情報処理装置1のハードウェア構成を示すブロック図である。
情報処理装置1は、CPU2、メモリ3、チップセット4、ROM5、入力装置6、および出力装置7を有する。チップセット4は、バスブリッジや周辺回路を集積した複数のチップから構成されている。このチップセット4を介して、CPU2、メモリ3、ROM5、入力装置6、および出力装置7が相互に接続されている。
また、チップセット4は、PCIeの回復不能エラー発生時に、CPU2にSMIを発生させる(エラーSMI)機能を備える他、一定時間毎にCPU2にSMIを発生させる機能(周期的SMI)を有する。更に、チップセット4は、レジスタに識別情報を登録する。
また、チップセット4は、PCIeの回復不能エラー発生時に、CPU2にSMIを発生させる(エラーSMI)機能を備える他、一定時間毎にCPU2にSMIを発生させる機能(周期的SMI)を有する。更に、チップセット4は、レジスタに識別情報を登録する。
例えば、Intel社のI/O Hub(IOH)においてエラーSMI機能を有効にするには、Function=2,Offset=094hのPCIe Error Severity Map Registerのビット3〜0でPCIeの回復不能エラーに対してSeverity=0と設定する。その上で、Function=2,Offset=09ChのSystem Error Event Map Registerにより、Severity=0のエラー(回復不能エラー)に対してSMIを生成するように設定する。
また、例えば、Intel社のI/O Controller Hub10(ICH10)において周期的SMI機能を生成するには、I/OアドレスACPI Base Address(PMBASE)+30hのSMI Control and Enable Registerのビット14のPERIODIC_ENビットで設定する。
なお、情報処理装置1には、上記に挙げた以外の装置が接続されていてもよい。例えば、表示装置(図2に不図示)などが情報処理装置1に接続される。
なお、情報処理装置1には、上記に挙げた以外の装置が接続されていてもよい。例えば、表示装置(図2に不図示)などが情報処理装置1に接続される。
ROM5には、情報処理装置1によって実行される種々のプログラムが記憶されている。このようなプログラムの1つが、ハードウエアとの最も低レベルの入出力を行なうためのプログラムであるBIOS9である。CPU2は、情報処理装置1の起動時に、ROM5に記憶されているBIOS9等のプログラムを、メモリ3を利用して実行する。
前述のように、CPU2は、各種演算や制御を行なう処理装置である。このCPU2は、SMIによりSMMに移行する機能を備える。ここで、SMMとは、例えば、Intel社のx86アーキテクチャに導入されているCPU2の動作モードのうちの一つである。CPU2は、SMIを受信するとSMMモードに移行する。SMMモードでは、CPU2はSMIハンドラ10を実行する。SMIハンドラ10は、他の動作モードからはアクセスできない、メモリ空間内の独立したアドレス空間であるSMRAM空間内でSMIを処理するプログラムである。CPU2は、SMIの処理が完了すると、SMM移行前のモードに戻る。
前述のように、CPU2は、各種演算や制御を行なう処理装置である。このCPU2は、SMIによりSMMに移行する機能を備える。ここで、SMMとは、例えば、Intel社のx86アーキテクチャに導入されているCPU2の動作モードのうちの一つである。CPU2は、SMIを受信するとSMMモードに移行する。SMMモードでは、CPU2はSMIハンドラ10を実行する。SMIハンドラ10は、他の動作モードからはアクセスできない、メモリ空間内の独立したアドレス空間であるSMRAM空間内でSMIを処理するプログラムである。CPU2は、SMIの処理が完了すると、SMM移行前のモードに戻る。
図2に示す例においては、PCIeの接続では、PCIeのルートポート17と、PCIeスイッチ14,15と、エンドポイント16とが、PCIeのリンクを介して接続される。具体的には、チップセット4に2つのPCIeスイッチ14が接続され、各PCIeスイッチ14に2つのスイッチ15が接続され、これにより、チップセット4を頂点とするツリー状の多段構成が形成されている。PCIeのルートポート17は、チップセット4内に存在し、チップセット4は、構成の起点となる1以上のルートポート17を備える。PCIeスイッチ14,15は、PCIeポート間でパケットをルーティングする1以上のポート18を備える。エンドポイント16は、末端に位置するPCIeカード等であり、ポート19を備える。そして、ポート17とポート18,ポート18とポート18,ポート18とポート19が、それぞれ接続されている。
なお、図2に示す例においては、スイッチ14,15が2段に接続されているが、スイッチの接続段数は2段に限られず、1段もしくは3段以上でもよい。
PCIeのデバイス(以下「デバイス」とも称する)であるルートポート17、ポート18、ポート19等は、デバイスの機能毎にコンフィグレーション空間(メモリ空間)を持ち、これらのメモリ空間が、BIOS9等のソフトウェアからPCIeの機能にアクセスするために使用される。
PCIeのデバイス(以下「デバイス」とも称する)であるルートポート17、ポート18、ポート19等は、デバイスの機能毎にコンフィグレーション空間(メモリ空間)を持ち、これらのメモリ空間が、BIOS9等のソフトウェアからPCIeの機能にアクセスするために使用される。
このコンフィグレーション空間に、例えば、回復不能なエラー状態を示す回復不能エラー状態レジスタ(uncorrectable error status register、以下「UESR」)41(図3参照)や回復可能なエラー状態を示す回復可能エラー状態レジスタ(correctable error status register、以下「CESR」)42(図4参照)等が配置される。
図3は、UESR41の一例を示す図であり、図4は、CESR42の一例を示す図である。これらのUESR41およびCESR42のフォーマットはPCIeの規格に規定されている。
図3は、UESR41の一例を示す図であり、図4は、CESR42の一例を示す図である。これらのUESR41およびCESR42のフォーマットはPCIeの規格に規定されている。
また、図2には、メモリ3のメモリ空間8の一部を模式的に示す図も示されている。メモリ空間8は、SMRAM11を有し、SMRAM11には、BIOS9からロードされたSMIハンドラ12が存在し、SMIハンドラ12は、フォールトロケーションプログラム(エラー箇所特定プログラムの一例)20を有する。このフォールトロケーションプログラム20がCPU2によって実行されることにより、情報処理装置1において、実施形態の一例としてのフォールトロケーション処理部(エラー箇所特定装置の一例)13が実現される。
図1は、実施形態の一例としての情報処理装置1におけるフォールトロケーション処理部13の機能構成を示すブロック図である。
本開示のフォールトロケーション処理部13は、SMI要因判断部(割り込み判定部の一例)21、周期的SMI処理部22およびエラーSMI処理部(エラー箇所特定部の一例)26を備える。
本開示のフォールトロケーション処理部13は、SMI要因判断部(割り込み判定部の一例)21、周期的SMI処理部22およびエラーSMI処理部(エラー箇所特定部の一例)26を備える。
SMI要因判断部21は、SMIの発生要因が周期的SMIか、PCI Express(以下「PCIe」)デバイスのエラーに伴うSMIかを判断する。その際、SMI要因判断部21は、チップセットのレジスタを参照して、発生したSMIが、周期的なSMIかPCIeデバイスのエラーに伴うSMIかを判断する。
例えば、上記のように、Intel社のI/O Hub(IOH)の場合は、Device=20,Function=2,Offset=1C0h,1C4hのGlobal Non-Fatal Error Status Register, Global Fatal Error Status RegisterのPCIe[10:0] Error Statusを参照することで、チップセット内のPCIeの各ルートポートを起点とするPCIe構成でエラーが発生したことを判断する。
例えば、上記のように、Intel社のI/O Hub(IOH)の場合は、Device=20,Function=2,Offset=1C0h,1C4hのGlobal Non-Fatal Error Status Register, Global Fatal Error Status RegisterのPCIe[10:0] Error Statusを参照することで、チップセット内のPCIeの各ルートポートを起点とするPCIe構成でエラーが発生したことを判断する。
また、例えば、Intel社のI/O Controller Hub10(ICH10)の場合は、PMBASE + 34hの SMI Status Registerのビット14のPERIODIC_STSビットにより、周期的なSMIの発生を判断する。
そして、SMI要因判断部21は、周期的SMIの場合は周期的SMI処理部22を呼び出す一方、PCIeデバイスのエラーの場合はエラーSMI処理部26を呼び出す。
そして、SMI要因判断部21は、周期的SMIの場合は周期的SMI処理部22を呼び出す一方、PCIeデバイスのエラーの場合はエラーSMI処理部26を呼び出す。
周期的SMI処理部22は、周期的SMI時に、情報処理装置1に接続されている全PCIeデバイスのCESR42の値を読み出して、CESR退避部31に退避させたのちに、各CESR42のクリアを実施する。周期的SMI処理部22は、CESR読み出し処理部23、CESR退避処理部24、およびCESRクリア処理部25を有する。
CESR読み出し処理部23は、周期的SMI毎に、情報処理装置1に接続されている全PCIeデバイスそれぞれのCESR42の値を読み出す。
CESR読み出し処理部23は、周期的SMI毎に、情報処理装置1に接続されている全PCIeデバイスそれぞれのCESR42の値を読み出す。
CESR退避処理部24は、CESR読み出し処理部23が読み出した、各デバイスのCESR42の値を、後述するCESR退避部31に格納する。
CESRクリア処理部25は、CESR42の各ビットにセットされている回復可能エラー状態をクリアする。回復可能エラー状態をクリアすることにより、以降の周期的SMI時に、回復可能エラー状態が再び発生したかどうかの把握が可能となる。
CESRクリア処理部25は、CESR42の各ビットにセットされている回復可能エラー状態をクリアする。回復可能エラー状態をクリアすることにより、以降の周期的SMI時に、回復可能エラー状態が再び発生したかどうかの把握が可能となる。
エラーSMI処理部26は、エラーSMI時に、UESR41を読み出し、リンクダウンを判定し、CESR退避部31に退避させていたCESRの値を読み取り、後述する解析情報記憶部32を参照して被疑箇所を特定し、エラーを指摘する。
このエラーSMI処理部26は、UESR読み出し処理部27、リンクダウン検出処理部28、リンクダウン被疑箇所特定処理部29、およびエラー指摘処理部30を有する。
このエラーSMI処理部26は、UESR読み出し処理部27、リンクダウン検出処理部28、リンクダウン被疑箇所特定処理部29、およびエラー指摘処理部30を有する。
UESR読み出し処理部27は、PCIeデバイスのUESR41の値を読み出す。
リンクダウン検出処理部28は、UESR読み出し処理部27が読み出したUESRに基づいて、リンクダウンが発生しているかを判定する。例えば、図3に示すUESR41のステータスビット5「Surprise Down Error Status」が1にセットされている場合、リンクダウンが発生していると判定する。
リンクダウン検出処理部28は、UESR読み出し処理部27が読み出したUESRに基づいて、リンクダウンが発生しているかを判定する。例えば、図3に示すUESR41のステータスビット5「Surprise Down Error Status」が1にセットされている場合、リンクダウンが発生していると判定する。
リンクダウン被疑箇所特定処理部29は、リンクダウンが発生している場合に、リンクダウンの被疑箇所候補(上流デバイス、下流デバイスもしくは伝送路)の各々について、回復可能エラー状態の出現回数をカウントして、図9を参照して後述するエラー検出カウント情報35を作成する。その際、リンクダウン被疑箇所特定処理部29は、CESR退避部31に退避されているリンクダウン発生部分の上流デバイスおよび下流デバイスのCESRの値と、後述する解析情報記憶部32の被疑分類定義情報34とを使用する。
ここで、伝送路によって相互接続されたデバイスにおいて、CPU2(あるいはルートポート17)に近い側のデバイスを「上流デバイス」と称し、伝送路によって当該上流デバイスに接続され、CPU2(あるいはルートポート17)から遠い側のデバイスを「下流デバイス」と称する。例えば、図2のチップセット4のルートポート17とスイッチ14のポート18間のリンクにおいて、上流デバイスはルートポート17、下流デバイスはポート18であり、伝送路は、ルートポート17とポート18間を接続している伝送路を指す。
そして、リンクダウン被疑箇所特定処理部29は、エラー検出カウント情報35の各被疑箇所候補のカウント値を比較し、カウント値が最大の候補が一つしかない場合は、その候補を被疑箇所と判定する。一方、カウント値が最大の候補が複数存在する場合は、図10を参照して後述する被疑優先順定義情報36の優先順位が一番高い候補を被疑箇所として特定する。
例えば、図9のエラー検出カウント情報35の例においては、伝送路と下流デバイスとは共にエラー検出カウントが「4」である。しかしながら、図10の被疑優先順定義情報36において、下流デバイスよりも伝送路のほうに高い優先順位が与えられているため、リンクダウン被疑箇所特定処理部29は伝送路が被疑箇所であると判定する。
なお、リンクダウン被疑箇所特定処理部29の処理の詳細については、図7を参照して後述する。
なお、リンクダウン被疑箇所特定処理部29の処理の詳細については、図7を参照して後述する。
エラー指摘処理部30は、リンクダウン被疑箇所特定処理部29によって特定されたリンクダウンの被疑箇所を、後述するエラー指摘フォーマット情報37に基づいて表示装置38に出力する。
更に、図2の情報処理装置1においては、フォールトロケーションプログラム20を実行することにより、フォールトロケーション処理部13によって使用されるCESR退避部31(エラー記憶部の一例)と解析情報記憶部32とが、メモリやハードディスク(不図示)などのデータ記憶装置内の領域に確保される。
更に、図2の情報処理装置1においては、フォールトロケーションプログラム20を実行することにより、フォールトロケーション処理部13によって使用されるCESR退避部31(エラー記憶部の一例)と解析情報記憶部32とが、メモリやハードディスク(不図示)などのデータ記憶装置内の領域に確保される。
CESR退避部31は、図2に示したメモリ3等のメモリやハードディスク(不図示)などのデータ記憶装置内の領域であり、CESRの値が、退避CESR43として退避される。CESR退避部31は、PCIeのデバイスd1,d2,d3,…,dm(mは2以上の整数)毎に、周期SMI毎の複数世代t0,t1,t2,…,tn(nは2以上の整数)の退避CESR43をそれぞれ格納している。
例えば8秒毎に発生する周期的SMIに対して、3世代分(n=3)の退避CESR43を退避する場合、一つのデバイスにつき、周期SMIの開始から8秒後、16秒後、24秒後の3世代分の退避CESR43が、CESR退避部31に格納される。その後、CESR退避部31の退避CESR43が、古いものから順に、新たな退避CESR43によって上書きされる。すなわち、先に挙げた例では、32秒後に、先に退避させた8秒時点の退避CESR43が上書きされて、最新の3世代の退避CESR43が退避される。なお、周期的SMIの発生間隔や、格納する退避CESR43の世代数(n)は、適宜変更することができる。
解析情報記憶部32も、図2に示したメモリ3等のメモリやハードディスク(不図示)などのデータ記憶装置内の領域であり、退避CESR43を解析し、エラーとして指摘するための情報を記憶する。解析情報記憶部32は、被疑箇所解析情報33と、エラー指摘のフォーマットを定義するエラー指摘フォーマット情報37とを備える。
被疑箇所解析情報33は、被疑分類定義情報34と、エラー検出カウント情報35と、被疑優先定義情報36とを備える。
被疑箇所解析情報33は、被疑分類定義情報34と、エラー検出カウント情報35と、被疑優先定義情報36とを備える。
被疑分類定義情報34は、CESRの各ビットに割り当てられた状態と、リンクダウンの被疑箇所候補とを対応付ける情報であり、図7を参照して後述するリンクダウン被疑箇所特定処理部29において、エラー検出回数のカウントに使用される。
被疑分類定義情報34は、図8(a)〜(c)に示すような32ビットのビットシーケンスである。被疑分類定義情報34は、リンクダウン発生時の被疑候補が、回復可能エラーが発生したデバイス(以下「自デバイス」)、当該デバイスとPCIeリンクで接続されている相手先のデバイス(以下「対向デバイス」)、伝送路(PCIeリンク)の3候補のうち、いずれである可能性が高いかの判定に使用される情報である。被疑分類定義情報34は、CESR42の各ビットに割り当てられた各回復可能エラーに対応している。
被疑分類定義情報34は、図8(a)〜(c)に示すような32ビットのビットシーケンスである。被疑分類定義情報34は、リンクダウン発生時の被疑候補が、回復可能エラーが発生したデバイス(以下「自デバイス」)、当該デバイスとPCIeリンクで接続されている相手先のデバイス(以下「対向デバイス」)、伝送路(PCIeリンク)の3候補のうち、いずれである可能性が高いかの判定に使用される情報である。被疑分類定義情報34は、CESR42の各ビットに割り当てられた各回復可能エラーに対応している。
例えば、図8(a)の自デバイスの被疑分類定義では、ビット14に1がセットされている。これは、自デバイスのエラーを示すCESR42のステータスビット14「Corrected Internal Error Status」に対応している(図4参照)。そして、ステータスビット14に1がセットされた自デバイスの被疑分類定義と、リンクダウンが発生する以前の退避CESR43とのAND演算を行なった結果、ビット14「Corrected Internal Error Status」が1である場合は、そのデバイスがリンクダウンの被疑箇所の可能性が高い。
また、図8(b)の伝送路の被疑分類定義も同様に、ビット12、7、6、0に1がセットされている。これは、伝送路のエラーを示すCESR42のステータスビット12「Replay Timer Timeout Status」、ビット7「Bad DLLP Status」、ビット6「Bad TLP Status」、ビット0「Receiver Error Status」に対応している(図4参照)。そして、ステータスビット12、7、6、0に1がセットされた伝送路の被疑分類定義と、リンクダウンが発生する以前の退避CESR43とのAND演算を行なった結果、ビット12、7、6、0のいずれかが1の場合は、伝送路がリンクダウンの被疑候補である可能性が高い。
図8(c)の対向デバイスの被疑分類定義では、ビット8に1がセットされている。これは、対向デバイス(上流デバイスのCESR42の場合は下流デバイス、下流デバイスのCESR42の場合は上流デバイス)のエラーを示すCESR42のステータスビット8「REPLAY_NUM Rollover Status」に対応している(図4参照)。そして、ステータスビット8に1がセットされた対向デバイスの被疑分類定義と、リンクダウンが発生する以前の退避CESR43とのAND演算を行なった結果、ビット8が1である場合、対向デバイスがリンクダウンの被疑候補の可能性が高い。
エラー検出カウント情報35は、図7を参照して後述するリンクダウン被疑箇所特定処理部29において、上流デバイス、伝送路、下流デバイスの各被疑箇所候補(候補箇所)について、被疑分類定義情報34を使用して、退避CESR43に出現したエラーの回数を示す情報である。エラー検出カウント情報35の例を図9に示す。
被疑優先定義情報36は、被疑箇所候補(上流デバイス、下流デバイスおよび伝送路)間の優先順位を定義する情報であり、エラー検出カウント情報35のカウント値が最大かつ同数である候補が複数存在する場合に、いずれを被疑箇所とするかを判定するために使用される。被疑優先順定義情報36は、図10に示す例においては、上流デバイスに優先順位3が、伝送路に優先順位1が、下流デバイスに優先順位2がそれぞれ与えられている。この優先順位は、例えば、統計解析や経験などによって定められ、優先順位が小さいほうがより疑わしいとされる。
被疑優先定義情報36は、被疑箇所候補(上流デバイス、下流デバイスおよび伝送路)間の優先順位を定義する情報であり、エラー検出カウント情報35のカウント値が最大かつ同数である候補が複数存在する場合に、いずれを被疑箇所とするかを判定するために使用される。被疑優先順定義情報36は、図10に示す例においては、上流デバイスに優先順位3が、伝送路に優先順位1が、下流デバイスに優先順位2がそれぞれ与えられている。この優先順位は、例えば、統計解析や経験などによって定められ、優先順位が小さいほうがより疑わしいとされる。
例えば、図9の例の場合、下流デバイスと伝送路の発生回数が共に4回であるため、図10に示す被疑優先順定義情報36で優先順位が一番高い伝送路が、被疑箇所であると判定される。
表示装置38は、情報処理装置1に内蔵されるかまたは外付けの液晶ディスプレイやCRTなどの出力装置である。リンクダウン被疑箇所特定処理部29によって特定されたリンクダウンの被疑箇所の情報が、エラー指摘フォーマット情報37に従って表示装置38に出力される。
表示装置38は、情報処理装置1に内蔵されるかまたは外付けの液晶ディスプレイやCRTなどの出力装置である。リンクダウン被疑箇所特定処理部29によって特定されたリンクダウンの被疑箇所の情報が、エラー指摘フォーマット情報37に従って表示装置38に出力される。
上述のフォールトロケーション処理部13、SMI要因判断部21、周期的SMI処理部22、エラーSMI処理部26、CESR読み出し処理部23、CESR退避処理部24、およびCESRクリア処理部25、UESR読み出し処理部27、リンクダウン検出処理部28、リンクダウン被疑箇所特定処理部29、およびエラー指摘処理部30は、図2に示したCPU2が、メモリ3を使用してフォールトロケーションプログラム20等を実行することにより実現される。
また、図2のメモリ3は、CESR記憶部31および解析情報記憶部32として機能してもよい。
なお、フォールトロケーション処理部13、SMI要因判断部21、周期的SMI処理部22、エラーSMI処理部26、CESR読み出し処理部23、CESR退避処理部24、およびCESRクリア処理部25、UESR読み出し処理部27、リンクダウン検出処理部28、リンクダウン被疑箇所特定処理部29、およびエラー指摘処理部30としての機能を実現するためのプログラムは、例えばフレキシブルディスク,CD(CD−ROM,CD−R,CD−RW等),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD+R,DVD−RW,DVD+RW,HD DVD等),ブルーレイディスク,磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。
なお、フォールトロケーション処理部13、SMI要因判断部21、周期的SMI処理部22、エラーSMI処理部26、CESR読み出し処理部23、CESR退避処理部24、およびCESRクリア処理部25、UESR読み出し処理部27、リンクダウン検出処理部28、リンクダウン被疑箇所特定処理部29、およびエラー指摘処理部30としての機能を実現するためのプログラムは、例えばフレキシブルディスク,CD(CD−ROM,CD−R,CD−RW等),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD+R,DVD−RW,DVD+RW,HD DVD等),ブルーレイディスク,磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。
次に、図5を参照して、フォールトロケーション処理部13が実行するフォールトロケーション処理(エラー箇所特定方法の一例)について説明する。図5は、実施形態の一例としてのフォールトロケーション処理を示すフローチャート(ステップS1〜S9)である。
リンクダウンが発生すると、チップセット4がエラーSMIを生成し、フォールトロケーション処理部13によってフォールトロケーション処理が開始される。
リンクダウンが発生すると、チップセット4がエラーSMIを生成し、フォールトロケーション処理部13によってフォールトロケーション処理が開始される。
最初に、フォールトロケーション処理部13のSMI要因判断部21が、SMIの発生要因が周期的SMIか、PCIeデバイスのエラーに伴うSMIかを判断する(ステップS1)。
例えば、上記のように、Intel社のI/O Hub(IOH)の場合は、Device=20,Function=2,Offset=1C0h,1C4hのGlobal Non-Fatal Error Status Register, Global Fatal Error Status RegisterのPCIe[10:0] Error Statusを参照することで、チップセット内のPCIeの各ルートポートを起点とするPCIe構成でエラーが発生したことを判断する。
例えば、上記のように、Intel社のI/O Hub(IOH)の場合は、Device=20,Function=2,Offset=1C0h,1C4hのGlobal Non-Fatal Error Status Register, Global Fatal Error Status RegisterのPCIe[10:0] Error Statusを参照することで、チップセット内のPCIeの各ルートポートを起点とするPCIe構成でエラーが発生したことを判断する。
また、例えば、Intel社のI/O Controller Hub10(ICH10)の場合は、PMBASE + 34hの SMI Status Registerのビット14のPERIODIC_STSビットにより、周期的なSMIの発生を判断する。
SMIが周期的SMIである場合(ステップS1の「No」ルート参照)、周期的SMI処理部22は、全PCIeデバイスd1,d2,…,dmに対して以下の処理を実行する。
SMIが周期的SMIである場合(ステップS1の「No」ルート参照)、周期的SMI処理部22は、全PCIeデバイスd1,d2,…,dmに対して以下の処理を実行する。
最初に、周期的SMI処理部22は、当該PCIeデバイスのCESRを読み出して(ステップS2)、読み出したCESRをCESR退避部31に、退避CESR43として退避する(ステップS3)。
次に、ステップS4において、周期的SMI処理部22は、リンクダウンに関連する回復可能エラー状態のいずれかのビットが1にセットされているかどうかを判定し、いずれかのビットが1である場合(ステップS4の「Yes」ルート参照)、ステータスビットをクリアする(ステップS5)。
次に、ステップS4において、周期的SMI処理部22は、リンクダウンに関連する回復可能エラー状態のいずれかのビットが1にセットされているかどうかを判定し、いずれかのビットが1である場合(ステップS4の「Yes」ルート参照)、ステータスビットをクリアする(ステップS5)。
なお、この例においては、1がセットされているビットに1をセットすることにより、当該ビットがクリア(0)にセットされるゼロクリア構成のレジスタが使用される。そのため、ステップS5では、1にセットされているビットに1を書き込むことで、ステータスビットをクリアする。しかし、ゼロクリア以外のレジスタ構成も使用することができる。
また、例えば、リンクダウンに関連するCESRのステータスビットとしては、CESRのビット0「Receiver Error Status」、ビット6「Bad TLP Status」、ビット7「Bad DLLP Status」、ビット8「REPLAY_NUM Rollover Status」、ビット12「Replay Timer Timeout Status」、ビット14「Corrected Internal Error Status」が挙げられ、これらのビットをチェックして、ビットが1の場合は、1を書き込んでクリアする。
そして、周期的SMI処理部22は次のデバイスに進み、ステップS2〜S5の処理を繰り返す。
なお、ステップS4において、どのビットも0である場合(ステップS4の「No」ルート参照)も、周期的SMI処理部22は次のデバイスに進み、ステップS2〜S5の処理を繰り返す。
なお、ステップS4において、どのビットも0である場合(ステップS4の「No」ルート参照)も、周期的SMI処理部22は次のデバイスに進み、ステップS2〜S5の処理を繰り返す。
全てのデバイスについてステップS2〜S5の処理を完了したら、フォールトロケーション処理が終了する。
一方、SMIが、PCIeのエラーである場合(ステップS1の「Yes」ルート参照)、全てのPCIeデバイスについて、以下の処理が実行される。
まず、UESR読み出し処理部27がUESR41を読み出して(ステップS6)、リンクダウン検出処理部28が、UESR41のステータスビット5「Surprise Down Error Status」が1に設定されているかどうかをチェックすることにより、リンクダウンによるエラーであるかを判定する(ステップS7)。例えば、上記の例では、UESR41のステータスビット5が1にセットされている場合(ステップS7の「Yes」ルート参照)、リンクダウン検出処理部28は、リンクダウンが発生していると判定する。
一方、SMIが、PCIeのエラーである場合(ステップS1の「Yes」ルート参照)、全てのPCIeデバイスについて、以下の処理が実行される。
まず、UESR読み出し処理部27がUESR41を読み出して(ステップS6)、リンクダウン検出処理部28が、UESR41のステータスビット5「Surprise Down Error Status」が1に設定されているかどうかをチェックすることにより、リンクダウンによるエラーであるかを判定する(ステップS7)。例えば、上記の例では、UESR41のステータスビット5が1にセットされている場合(ステップS7の「Yes」ルート参照)、リンクダウン検出処理部28は、リンクダウンが発生していると判定する。
次に、リンクダウン被疑箇所特定処理部29が、リンクダウンの被疑箇所が、上流デバイスか、下流デバイスか、伝送路かを判断するリンクダウン被疑箇所特定処理を実行する(ステップS8)。この処理の詳細については図6を参照して後述する。
次に、エラー指摘処理部30が、リンクダウン被疑箇所特定処理で特定されたリンクダウンの被疑箇所を、エラー指摘フォーマット情報37に基づいて、表示装置38に出力する(ステップS9)。
次に、エラー指摘処理部30が、リンクダウン被疑箇所特定処理で特定されたリンクダウンの被疑箇所を、エラー指摘フォーマット情報37に基づいて、表示装置38に出力する(ステップS9)。
ステップS7において、リンクダウンが発生していないと判定された場合(ステップS7の「No」ルート参照)、ステップS9に進み、エラー指摘処理部30が、エラー指摘フォーマット情報37に基づいて、表示装置38にエラーを出力する。
ステップ9においてエラー指摘処理部30が、エラーを指摘したのちに、次のデバイスに進み、ステップS6〜S9の処理を繰り返す。
ステップ9においてエラー指摘処理部30が、エラーを指摘したのちに、次のデバイスに進み、ステップS6〜S9の処理を繰り返す。
全てのデバイスd1,d2,…,dmについてステップS6〜S9の処理を完了したら、フォールトロケーション処理が終了する。
次に、図6を参照して、リンクダウン被疑箇所特定処理部29のリンクダウン被疑箇所特定処理について説明する。図6は、実施形態の一例としてのリンクダウン被疑箇所特定処理を示すフローチャート(ステップS11〜S15)である。
次に、図6を参照して、リンクダウン被疑箇所特定処理部29のリンクダウン被疑箇所特定処理について説明する。図6は、実施形態の一例としてのリンクダウン被疑箇所特定処理を示すフローチャート(ステップS11〜S15)である。
最初に、リンクダウン被疑箇所特定処理部29は、CESR退避部31から、リンクダウン発生部の上流デバイスと下流デバイスのそれぞれの退避CESR43を取得する(ステップS11)。
次に、リンクダウン被疑箇所特定処理部29は、ステップS11で取得した退避CESR43の値と解析情報記憶部32の被疑分類定義情報34とを用いて、エラー検出カウント算出処理を実行する(ステップS12)。エラー検出カウント算出処理は、リンクダウンの被疑箇所候補である上流デバイス、下流デバイスもしくは伝送路のそれぞれの、退避CESR43における回復可能エラー状態の出現回数(エラー検出カウント情報35)をカウントする処理である。エラー検出カウント算出処理については、図7を参照して後述する。
次に、リンクダウン被疑箇所特定処理部29は、ステップS11で取得した退避CESR43の値と解析情報記憶部32の被疑分類定義情報34とを用いて、エラー検出カウント算出処理を実行する(ステップS12)。エラー検出カウント算出処理は、リンクダウンの被疑箇所候補である上流デバイス、下流デバイスもしくは伝送路のそれぞれの、退避CESR43における回復可能エラー状態の出現回数(エラー検出カウント情報35)をカウントする処理である。エラー検出カウント算出処理については、図7を参照して後述する。
次に、リンクダウン被疑箇所特定処理部29は、エラー検出カウント情報35のリンクダウンの被疑箇所候補間のカウント値を比較し、カウント値が最大の候補が一つかどうかを判定する(ステップS13)。カウント値が最大の候補が一つの場合(ステップS13の「Yes」ルート参照)、その候補を被疑箇所と判定し(ステップS14)、リンクダウン被疑箇所特定処理を終了する。
カウント値が最大の候補が複数存在する場合(ステップS13の「No」ルート参照)、リンクダウン被疑箇所特定処理部29は、これらの複数の候補に対して被疑優先順定義情報36の優先順位を適用し、優先順位が最高の候補を被疑箇所であると判定し(ステップS15)、リンクダウン被疑箇所特定処理を終了する。
次に、図7を参照して、エラー検出カウント算出処理について説明する。図7は、実施形態の一例としてのエラー検出カウント算出処理を示すフローチャート(ステップS21〜S36)である。
次に、図7を参照して、エラー検出カウント算出処理について説明する。図7は、実施形態の一例としてのエラー検出カウント算出処理を示すフローチャート(ステップS21〜S36)である。
まず、リンクダウン被疑箇所特定処理部29は、上流デバイスについてループ処理を実行する(ステップS21)。上流デバイスud1〜udl(l=2以上の整数)について判定すべく、これらの上流デバイスud1〜udlを順次判定対象とする。
まず、リンクダウン被疑箇所特定処理部29は、上流デバイスの被疑判定回数を計数するカウンタ、下流デバイスの被疑判定回数を計数するカウンタ、および伝送路の被疑判定回数を計数するカウンタをそれぞれ0にセットする(ステップS22)。
まず、リンクダウン被疑箇所特定処理部29は、上流デバイスの被疑判定回数を計数するカウンタ、下流デバイスの被疑判定回数を計数するカウンタ、および伝送路の被疑判定回数を計数するカウンタをそれぞれ0にセットする(ステップS22)。
次に、リンクダウン被疑箇所特定処理部29は、判定対象のデバイスの、退避させた各世代t0,t1,…,tnの退避CESR43について判定すべく、これらの退避CESR43 t0,t1,…,tnを順次判定対象とする。カウンタ値iに初期値1を設定し、ステップS23において、CESR退避部31から、退避CESR43 ti(i=1〜n−1)を読み出す。
次に、ステップS24において、リンクダウン被疑箇所特定処理部29は、被疑分類定義ループに入り、被疑分類定義が、自デバイス、対向デバイス、および伝送路の場合のそれぞれについて、以下の処理を実行する。
被疑分類定義が「自デバイス」の場合、リンクダウン被疑箇所特定処理部29は、前述の図8(a)のビットシーケンスを読み込む。被疑分類定義が「伝送路」の場合、図8(b)のビットシーケンスを読み込む。被疑分類定義が「対向デバイス」の場合、図8(c)のビットシーケンスを読み込む。
被疑分類定義が「自デバイス」の場合、リンクダウン被疑箇所特定処理部29は、前述の図8(a)のビットシーケンスを読み込む。被疑分類定義が「伝送路」の場合、図8(b)のビットシーケンスを読み込む。被疑分類定義が「対向デバイス」の場合、図8(c)のビットシーケンスを読み込む。
次に、リンクダウン被疑箇所特定処理部29は、ステップS23で読み出した退避CESR43 tiと、ステップS24で読み出したビットシーケンスとを比較(AND演算)して、同じビットが両方とも1であるビット数の合計を算出する(ステップS25)。
次に、リンクダウン被疑箇所特定処理部29は、判定対象のデバイスが上流デバイスであるか、下流デバイスであるかを判定する(ステップS26)。
次に、リンクダウン被疑箇所特定処理部29は、判定対象のデバイスが上流デバイスであるか、下流デバイスであるかを判定する(ステップS26)。
判定対象のデバイスが上流デバイスである場合(ステップS26の「Yes」ルート参照)、リンクダウン被疑箇所特定処理部29は、ステップS24で読み出した被疑分類定義が自デバイスであるかどうかを判定する(ステップS27)。被疑分類定義が自デバイスである場合(ステップS27の「Yes」ルート参照)、上流デバイスの被疑判定回数カウンタの計数値に、ステップS25で求めたビットの合計数を加算する(ステップS28)。
また、ステップS27において、ステップS24で読み出した被疑分類定義が自デバイスではない場合(ステップS27の「No」ルート参照)、次に、リンクダウン被疑箇所特定処理部29は、被疑分類定義が対向デバイスであるかどうかを判定する(ステップS29)。被疑分類定義が対向デバイスである場合(ステップS29の「Yes」ルート参照)、下流デバイスの被疑判定回数(カウンタ)に、ステップS25で求めたビットの合計数を加算して(ステップS30)、次の被疑分類に移る。
また、ステップS29において、被疑分類定義が対向デバイスではない場合(ステップS29の「No」ルート参照)、リンクダウン被疑箇所特定処理部29は、伝送路の被疑判定回数カウンタの計数値に、ステップS25で求めたビットの合計数を加算する(ステップS31)。
また、ステップS26において、対象のデバイスが上流デバイスではない場合(ステップS26の「No」ルート参照)、リンクダウン被疑箇所特定処理部29は、ステップS24で読み出した被疑分類定義が自デバイスであるかどうかを判定する(ステップS32)。被疑分類定義が自デバイスである場合(ステップS32の「Yes」ルート参照)、下流デバイスの被疑判定回数カウンタの計数値に、ステップS25で求めたビットの合計数を加算して(ステップS33)、次の被疑分類に移る。
また、ステップS26において、対象のデバイスが上流デバイスではない場合(ステップS26の「No」ルート参照)、リンクダウン被疑箇所特定処理部29は、ステップS24で読み出した被疑分類定義が自デバイスであるかどうかを判定する(ステップS32)。被疑分類定義が自デバイスである場合(ステップS32の「Yes」ルート参照)、下流デバイスの被疑判定回数カウンタの計数値に、ステップS25で求めたビットの合計数を加算して(ステップS33)、次の被疑分類に移る。
また、ステップS32において、ステップS24で読み出した被疑分類定義が自デバイスではない場合(ステップS32の「No」ルート参照)、リンクダウン被疑箇所特定処理部29は、被疑分類定義が対向デバイスであるかどうかを判定する(ステップS34)。被疑分類定義が対向デバイスである場合(ステップS34の「Yes」ルート参照)、上流デバイスの被疑判定回数カウンタの計数値に、ステップS25で求めたビットの合計数を加算して(ステップS35)、次の被疑分類に移る。
また、ステップS34において、被疑分類定義が対向デバイスではない場合(ステップS34の「No」ルート参照)、リンクダウン被疑箇所特定処理部29は、伝送路の被疑判定回数カウンタの計数値に、ステップS25で求めたビットの合計数を加算して(ステップS36)、次の被疑分類に移る。
自デバイス、対向デバイス、および伝送路のそれぞれの被疑分類定義について、ステップS25〜S36の処理を終了したら、ステップS23に移り、リンクダウン被疑箇所特定処理部29は次の退避CESR43を読み出して(ステップS23)、ステップS24〜S36の処理を繰り返す。
自デバイス、対向デバイス、および伝送路のそれぞれの被疑分類定義について、ステップS25〜S36の処理を終了したら、ステップS23に移り、リンクダウン被疑箇所特定処理部29は次の退避CESR43を読み出して(ステップS23)、ステップS24〜S36の処理を繰り返す。
全ての退避CESR43について、上記S23〜S36の処理を終了したら、ステップS21に移り、下流デバイスld1〜ldl(l=2以上の整数)についても上記の処理を実行する。
上記のようにして計算を繰り返すことにより、図9に示すエラー検出カウント情報35を算出する。
上記のようにして計算を繰り返すことにより、図9に示すエラー検出カウント情報35を算出する。
図11は、エラー指摘の一例であり、エラーが優先順位付きで指摘されている。図11の例では、上流デバイスがPCIeスイッチ0のポート1(「SW0−P1」と称する)、下流デバイスがPCIeスイッチ1のポート0(以下「SW1−P0」と称する)の場合を示す。この例では、SW0−P1とSW1−P0の間のPCIeの伝送路が、被疑箇所候補としての優先順位が一番高く、次に優先順位が高い被疑箇所候補は下流デバイスのSW1−P0のPCIeポート、優先順位が一番低い被疑箇所候補はSW0−P1のPCIeポートである。
また、これらの情報と共に、タイムスタンプ、エラー種類、エラー内容も併せて指摘される。なお、指摘される情報は例に過ぎず、適宜変更することができる。
上に記載した実施形態の一例に係るエラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラムは、以下の効果を有する。
(1)情報処理装置1のリンクダウンのエラー時に、被疑箇所を優先順位付きで特定することが可能となるため、さほど専門知識を有さない作業者でも、短時間で故障箇所を把握し、適宜対処できる。このため、作業者の教育時間を短縮でき、情報処理装置1のシステムの運用コストを低減できる。また、迅速に障害対応を図ることができるため、システムの稼働率を向上させることができる。
(2)また、情報処理装置1のリンクダウンのエラー時には、退避させておいた退避CESR43がエラー解析に使用されるため、情報処理装置1の稼働中に、専用の検査装置を情報処理装置に接続する必要がない。このため、情報処理装置1の稼働に影響を及ぼさずに、いつでも障害対応を図ることができる。
(3)更に、専用の検査装置が不要となるほか、適切な候補を被疑箇所として特定できることにより、不良部品を適切に交換できるため、システムの保守費用を低減することができる。
上に記載した実施形態の一例に係るエラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラムは、以下の効果を有する。
(1)情報処理装置1のリンクダウンのエラー時に、被疑箇所を優先順位付きで特定することが可能となるため、さほど専門知識を有さない作業者でも、短時間で故障箇所を把握し、適宜対処できる。このため、作業者の教育時間を短縮でき、情報処理装置1のシステムの運用コストを低減できる。また、迅速に障害対応を図ることができるため、システムの稼働率を向上させることができる。
(2)また、情報処理装置1のリンクダウンのエラー時には、退避させておいた退避CESR43がエラー解析に使用されるため、情報処理装置1の稼働中に、専用の検査装置を情報処理装置に接続する必要がない。このため、情報処理装置1の稼働に影響を及ぼさずに、いつでも障害対応を図ることができる。
(3)更に、専用の検査装置が不要となるほか、適切な候補を被疑箇所として特定できることにより、不良部品を適切に交換できるため、システムの保守費用を低減することができる。
本開示の一実施形態について説明したが、開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。
例えば、上記の実施形態の例においては、優先順位が一番高い一つの被疑箇所を特定し、エラーとして指摘しているが、優先順位付きで複数の被疑箇所を指摘することも可能である。
例えば、上記の実施形態の例においては、優先順位が一番高い一つの被疑箇所を特定し、エラーとして指摘しているが、優先順位付きで複数の被疑箇所を指摘することも可能である。
上記実施形態の一例では、PCI express接続されている装置において本方法が実施されている。しかし、例えば、本開示は、リンクエラーの被疑箇所を特定できないほかの接続トポロジーにも適用することができる。例えば、各接続点が1対1で接続されており、スイッチによって複数デバイス接続がされており、各接続点にステータスレジスタを持つ、他の接続の装置においても、本開示を適用できる。
また、被疑箇所等を表示装置38に表示させる代わりに、プリンタ等の印刷装置や、スピーカ等の音声出力装置を備え、これらを用いて被疑箇所等を出力してもよい。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1) 伝送路によって接続された複数のデバイスを有する情報処理装置においてエラー箇所を特定する方法であって、
割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定し、
周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶し、
エラー割り込みの場合に、記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定することを特徴とする方法。
(付記2) 該周期的な割り込みの場合に記憶されるエラーは回復可能エラーであり、該エラー割り込みの場合に解析されるエラーは回復不能エラーであることを特徴とする付記1に記載の方法。
(付記3) 該エラーの履歴の解析においては、各デバイスについてエラーが発生する可能性のある箇所ごとの回復可能なエラーの発生回数をカウントして、カウント値が最大の箇所を被疑箇所とすることを特徴とする付記2に記載の方法。
(付記4) 該カウント値が最大の被疑箇所の候補が複数ある場合に、予め定義された優先順位に従って被疑箇所を選択することを特徴とする付記3に記載の方法。
(付記5) 該エラーを、予め定義されたフォーマットで指摘することを特徴とする付記1〜4のいずれか1項に記載の方法。
(付記6) 伝送路によって接続された複数のデバイスを有する情報処理装置のエラー箇所特定装置であって、該エラー箇所特定装置は、
割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、
周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶するエラー記憶部と、
エラー割り込みの場合に、該エラー記憶部に記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定するエラー箇所特定部と、を備えたことを特徴とするエラー箇所特定装置。
(付記7) 該周期的な割り込みの場合に記憶されるエラーは回復可能エラーであり、該エラー割り込みの場合に解析されるエラーは回復不能エラーであることを特徴とする付記6に記載のエラー箇所特定装置。
(付記8) 該エラー箇所特定部は、該デバイスで発生した回復可能なエラーの発生回数をカウントして、カウント値が最大の箇所を被疑箇所とすることを特徴とする付記7に記載のエラー箇所特定装置。
(付記9) 該カウント値が最大の被疑箇所の候補が複数ある場合に、該エラー箇所特定部は、予め定義された優先順位に従って被疑箇所を選択することを特徴とする付記8に記載のエラー箇所特定装置。
(付記10) 特定されたエラーの原因を指摘する指摘部を更に有し、該指摘部は、特定されたエラーを、予め定義されたフォーマットで指摘することを特徴とする付記6〜9のいずれか1項に記載のエラー箇所特定装置。
(付記11) 各デバイスはPCI Expressのデバイスであることを特徴とする付記6〜10のいずれか1項に記載のエラー箇所特定装置。
(付記12) 該エラーの被疑箇所は、上流デバイス、下流デバイスおよび伝送路のいずれかであることを特徴とする付記6〜11のいずれか1項に記載のエラー箇所特定装置。
(付記13) 伝送路によって接続された複数のデバイスを有する情報処理装置のエラー箇所特定プログラムであって、コンピュータによって実行されたときに、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、
周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶するエラー記憶部と、
エラー割り込みの場合に、該エラー記憶部に記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定するエラー箇所特定部と、
して、該コンピュータを機能させることを特徴とする、エラー箇所特定プログラム。
(付記14) 該周期的な割り込みの場合に記憶されるエラーは回復可能エラーであり、該エラー割り込みの場合に解析されるエラーは回復不能エラーであることを特徴とする付記13に記載のエラー箇所特定プログラム。
(付記15) 該エラー箇所特定部は、該デバイスで発生した回復可能なエラーの発生回数をカウントして、カウント値が最大の箇所を該被疑箇所とすることを特徴とする付記14に記載のエラー箇所特定プログラム。
(付記16) 該カウント値が最大の被疑箇所の候補が複数ある場合に、該エラー箇所特定部は、予め定義された優先順位に従って被疑箇所を選択することを特徴とする付記15に記載のエラー箇所特定プログラム。
(付記17) 特定されたエラーの原因を指摘する指摘部として該コンピュータを機能させ、該指摘部は、特定されたエラーを、予め定義されたフォーマットで指摘することを特徴とする付記13〜16のいずれか1項に記載のエラー箇所特定プログラム。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1) 伝送路によって接続された複数のデバイスを有する情報処理装置においてエラー箇所を特定する方法であって、
割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定し、
周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶し、
エラー割り込みの場合に、記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定することを特徴とする方法。
(付記2) 該周期的な割り込みの場合に記憶されるエラーは回復可能エラーであり、該エラー割り込みの場合に解析されるエラーは回復不能エラーであることを特徴とする付記1に記載の方法。
(付記3) 該エラーの履歴の解析においては、各デバイスについてエラーが発生する可能性のある箇所ごとの回復可能なエラーの発生回数をカウントして、カウント値が最大の箇所を被疑箇所とすることを特徴とする付記2に記載の方法。
(付記4) 該カウント値が最大の被疑箇所の候補が複数ある場合に、予め定義された優先順位に従って被疑箇所を選択することを特徴とする付記3に記載の方法。
(付記5) 該エラーを、予め定義されたフォーマットで指摘することを特徴とする付記1〜4のいずれか1項に記載の方法。
(付記6) 伝送路によって接続された複数のデバイスを有する情報処理装置のエラー箇所特定装置であって、該エラー箇所特定装置は、
割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、
周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶するエラー記憶部と、
エラー割り込みの場合に、該エラー記憶部に記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定するエラー箇所特定部と、を備えたことを特徴とするエラー箇所特定装置。
(付記7) 該周期的な割り込みの場合に記憶されるエラーは回復可能エラーであり、該エラー割り込みの場合に解析されるエラーは回復不能エラーであることを特徴とする付記6に記載のエラー箇所特定装置。
(付記8) 該エラー箇所特定部は、該デバイスで発生した回復可能なエラーの発生回数をカウントして、カウント値が最大の箇所を被疑箇所とすることを特徴とする付記7に記載のエラー箇所特定装置。
(付記9) 該カウント値が最大の被疑箇所の候補が複数ある場合に、該エラー箇所特定部は、予め定義された優先順位に従って被疑箇所を選択することを特徴とする付記8に記載のエラー箇所特定装置。
(付記10) 特定されたエラーの原因を指摘する指摘部を更に有し、該指摘部は、特定されたエラーを、予め定義されたフォーマットで指摘することを特徴とする付記6〜9のいずれか1項に記載のエラー箇所特定装置。
(付記11) 各デバイスはPCI Expressのデバイスであることを特徴とする付記6〜10のいずれか1項に記載のエラー箇所特定装置。
(付記12) 該エラーの被疑箇所は、上流デバイス、下流デバイスおよび伝送路のいずれかであることを特徴とする付記6〜11のいずれか1項に記載のエラー箇所特定装置。
(付記13) 伝送路によって接続された複数のデバイスを有する情報処理装置のエラー箇所特定プログラムであって、コンピュータによって実行されたときに、割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、
周期的な割り込みの場合に、各デバイスのそれぞれのエラーの履歴情報を記憶するエラー記憶部と、
エラー割り込みの場合に、該エラー記憶部に記憶されている各デバイスのエラーの該履歴情報を解析して、エラーの被疑箇所を特定するエラー箇所特定部と、
して、該コンピュータを機能させることを特徴とする、エラー箇所特定プログラム。
(付記14) 該周期的な割り込みの場合に記憶されるエラーは回復可能エラーであり、該エラー割り込みの場合に解析されるエラーは回復不能エラーであることを特徴とする付記13に記載のエラー箇所特定プログラム。
(付記15) 該エラー箇所特定部は、該デバイスで発生した回復可能なエラーの発生回数をカウントして、カウント値が最大の箇所を該被疑箇所とすることを特徴とする付記14に記載のエラー箇所特定プログラム。
(付記16) 該カウント値が最大の被疑箇所の候補が複数ある場合に、該エラー箇所特定部は、予め定義された優先順位に従って被疑箇所を選択することを特徴とする付記15に記載のエラー箇所特定プログラム。
(付記17) 特定されたエラーの原因を指摘する指摘部として該コンピュータを機能させ、該指摘部は、特定されたエラーを、予め定義されたフォーマットで指摘することを特徴とする付記13〜16のいずれか1項に記載のエラー箇所特定プログラム。
本技術は、伝送路によって接続された複数のデバイスを有する情報処理装置において利用可能である。
Claims (7)
- 伝送路によって多段接続された複数のデバイスを有する情報処理装置においてリンクダウン箇所を特定する方法であって、
割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定し、
周期的な割り込みの場合に、各デバイスに格納されているエラーに関する情報を履歴情報として記憶し、
エラー割り込みの場合に、該エラー割り込みの要因であるリンクダウン発生部の上流側デバイスと下流側デバイスとのそれぞれについて記憶されている該履歴情報を解析して、リンクダウンの被疑箇所を特定することを特徴とする方法。 - 該周期的な割り込みの場合に記憶されるエラーは回復可能エラーであり、該エラー割り込みの場合に解析されるエラーは回復不能エラーであることを特徴とする請求項1に記載の方法。
- 該エラーの履歴の解析においては、各デバイスについてエラーが発生する可能性のある箇所ごとの回復可能なエラーの発生回数をカウントして、カウント値が最大の箇所を被疑箇所とすることを特徴とする請求項2に記載の方法。
- 該カウント値が最大の被疑箇所の候補が複数ある場合に、予め定義された優先順位に従って被疑箇所を選択することを特徴とする請求項3に記載の方法。
- 該エラーを、予め定義されたフォーマットで指摘することを特徴とする請求項1〜4のいずれか1項に記載の方法。
- 伝送路によって多段接続された複数のデバイスを有する情報処理装置においてリンクダウン箇所を特定するエラー箇所特定装置であって、該エラー箇所特定装置は、
割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、
周期的な割り込みの場合に、各デバイスに格納されているエラーに関する情報を履歴情報として記憶するエラー記憶部と、
エラー割り込みの場合に、該エラー割り込みの要因であるリンクダウン発生部の上流側デバイスと下流側デバイスとのそれぞれについて該エラー記憶部に記憶されている該履歴情報を解析して、リンクダウンの被疑箇所を特定するエラー箇所特定部と、を備えたことを特徴とするエラー箇所特定装置。 - 伝送路によって多段接続された複数のデバイスを有する情報処理装置においてリンクダウン箇所を特定するエラー箇所特定プログラムであって、コンピュータによって実行されたときに、
割り込みの発生時に、該割り込みが周期的な割り込みであるかエラー割り込みであるかを判定する割り込み判定部と、
周期的な割り込みの場合に、各デバイスに格納されているエラーに関する情報を履歴情報として記憶するエラー記憶部と、
エラー割り込みの場合に、該エラー割り込みの要因であるリンクダウン発生部の上流側デバイスと下流側デバイスとのそれぞれについて該エラー記憶部に記憶されている該履歴情報を解析して、リンクダウンの被疑箇所を特定するエラー箇所特定部と、
して、該コンピュータを機能させることを特徴とする、エラー箇所特定プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/070193 WO2012063358A1 (ja) | 2010-11-12 | 2010-11-12 | エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2012063358A1 JPWO2012063358A1 (ja) | 2014-05-12 |
JP5532143B2 true JP5532143B2 (ja) | 2014-06-25 |
Family
ID=46050538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012542776A Active JP5532143B2 (ja) | 2010-11-12 | 2010-11-12 | エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9141463B2 (ja) |
JP (1) | JP5532143B2 (ja) |
WO (1) | WO2012063358A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6176817B2 (ja) | 2011-10-17 | 2017-08-09 | ローム株式会社 | チップダイオードおよびダイオードパッケージ |
JP6035878B2 (ja) * | 2012-05-30 | 2016-11-30 | 富士通株式会社 | 監視装置、情報処理装置、監視プログラム、及び監視方法 |
US9262270B2 (en) * | 2012-12-28 | 2016-02-16 | Intel Corporation | Live error recovery |
US9256489B2 (en) * | 2013-10-30 | 2016-02-09 | International Business Machines Corporation | Synchronized debug information generation |
JP6427979B2 (ja) * | 2014-06-19 | 2018-11-28 | 富士通株式会社 | 原因特定方法、原因特定プログラム、情報処理システム |
JP6582503B2 (ja) | 2015-04-08 | 2019-10-02 | 富士通株式会社 | 情報処理装置 |
WO2017006457A1 (ja) * | 2015-07-08 | 2017-01-12 | 株式会社日立製作所 | 計算機システム及び障害切り分け方法 |
WO2017017707A1 (ja) * | 2015-07-24 | 2017-02-02 | 富士通株式会社 | 情報処理装置、エラー処理方法およびエラー処理プログラム |
JP2018055337A (ja) * | 2016-09-28 | 2018-04-05 | 富士通株式会社 | 情報処理装置およびプログラム |
US10514972B2 (en) * | 2018-04-27 | 2019-12-24 | Dell Products L. P. | Embedding forensic and triage data in memory dumps |
CN113176963B (zh) * | 2021-04-29 | 2022-11-11 | 山东英信计算机技术有限公司 | 一种PCIe故障自修复方法、装置、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04205441A (ja) * | 1990-11-30 | 1992-07-27 | Nec Corp | 主原因判定処理方式 |
JP2004086278A (ja) * | 2002-08-23 | 2004-03-18 | Hitachi Kokusai Electric Inc | 装置障害監視方法および装置障害監視システム |
JP2006285519A (ja) * | 2005-03-31 | 2006-10-19 | Hitachi Global Storage Technologies Netherlands Bv | データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置 |
JP2007109238A (ja) * | 2005-10-14 | 2007-04-26 | Dell Products Lp | 回復可能なエラーのロギングのためのシステム及び方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1165898A (ja) | 1997-08-21 | 1999-03-09 | Hitachi Ltd | 電子計算機の保守方式 |
US8171340B2 (en) * | 2009-12-11 | 2012-05-01 | Red Hat, Inc. | Software performance counters |
-
2010
- 2010-11-12 WO PCT/JP2010/070193 patent/WO2012063358A1/ja active Application Filing
- 2010-11-12 JP JP2012542776A patent/JP5532143B2/ja active Active
-
2013
- 2013-05-03 US US13/886,354 patent/US9141463B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04205441A (ja) * | 1990-11-30 | 1992-07-27 | Nec Corp | 主原因判定処理方式 |
JP2004086278A (ja) * | 2002-08-23 | 2004-03-18 | Hitachi Kokusai Electric Inc | 装置障害監視方法および装置障害監視システム |
JP2006285519A (ja) * | 2005-03-31 | 2006-10-19 | Hitachi Global Storage Technologies Netherlands Bv | データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置 |
JP2007109238A (ja) * | 2005-10-14 | 2007-04-26 | Dell Products Lp | 回復可能なエラーのロギングのためのシステム及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2012063358A1 (ja) | 2014-05-12 |
US9141463B2 (en) | 2015-09-22 |
US20130246855A1 (en) | 2013-09-19 |
WO2012063358A1 (ja) | 2012-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5532143B2 (ja) | エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム | |
CN101126995B (zh) | 处理严重硬件错误的方法及设备 | |
US9495233B2 (en) | Error framework for a microprocesor and system | |
US8832501B2 (en) | System and method of processing failure | |
US7370238B2 (en) | System, method and software for isolating dual-channel memory during diagnostics | |
TWI632462B (zh) | 開關裝置及偵測積體電路匯流排之方法 | |
KR100637780B1 (ko) | 분산된 노드 환경에서의 현장 교체 가능형 유닛의 결함분리를 위한 1차 에러 소스의 식별 방법, 메카니즘 및그의 컴퓨터 시스템 | |
US20080307273A1 (en) | System And Method For Predictive Failure Detection | |
US8166273B2 (en) | Degeneration method and information processing apparatus | |
JP5302050B2 (ja) | 障害解析のためのトレース装置およびトレース方法 | |
JP4882736B2 (ja) | 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 | |
CN100429626C (zh) | 信息处理设备和错误检测方法 | |
JP5689783B2 (ja) | コンピュータ、コンピュータシステム、および障害情報管理方法 | |
CN110187994A (zh) | 一种故障隔离方法、设备和故障隔离系统 | |
US7346813B1 (en) | Distributed event reporting hierarchy | |
CN115801540A (zh) | 一种PCIe设备降级检测方法、装置、终端及存储介质 | |
CN1329839C (zh) | 一种计算机cpu抗干扰的设计方法 | |
US7925728B2 (en) | Facilitating detection of hardware service actions | |
CN101311909A (zh) | 诊断系统异样的方法 | |
JP5832408B2 (ja) | 仮想計算機システム及びその制御方法 | |
JP3953467B2 (ja) | チップ中の欠陥を検出し報告するためのシステム | |
US8074006B2 (en) | Abnormal status detecting method of interrupt pins | |
US7895493B2 (en) | Bus failure management method and system | |
JP2003337758A (ja) | 二重化メモリシステム | |
CN118819987A (zh) | 链路状态检查方法、装置、电子设备及非易失性存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140325 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140407 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5532143 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |