JP2008310567A - Failure diagnostic method and electronic device failure diagnostic system - Google Patents

Failure diagnostic method and electronic device failure diagnostic system Download PDF

Info

Publication number
JP2008310567A
JP2008310567A JP2007157411A JP2007157411A JP2008310567A JP 2008310567 A JP2008310567 A JP 2008310567A JP 2007157411 A JP2007157411 A JP 2007157411A JP 2007157411 A JP2007157411 A JP 2007157411A JP 2008310567 A JP2008310567 A JP 2008310567A
Authority
JP
Japan
Prior art keywords
failure
dictionary
lsi
electronic device
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007157411A
Other languages
Japanese (ja)
Inventor
Takahiro Koishi
高裕 小石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007157411A priority Critical patent/JP2008310567A/en
Publication of JP2008310567A publication Critical patent/JP2008310567A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To diagnose failure of an electronic device without changing the firmware of a diagnostic processor according to a configuration of an LSI of the electronic device or its change. <P>SOLUTION: At the occurrence of failure, the diagnostic processor 003 acquires failure log data 013 and a failure indication dictionary 014 from a chip set previously having the failure indication dictionary wherein a situation of a failure log and a failure part are associated, and analyzes the failure log data 013 according to the failure indication dictionary 014 to specify the failure part. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、サーバ装置等の電子装置の障害を診断する障害診断方法および電子装置障害診断システムに関するものである。   The present invention relates to a failure diagnosis method and an electronic device failure diagnosis system for diagnosing a failure of an electronic device such as a server device.

従来より、例えばサーバ装置等の電子装置には、障害箇所指摘機能を有する診断プロセッサ(以下、SPとする)が搭載されている(例えば特許文献1、特許文献2参照)。このような従来のSPによる障害箇所指摘方法について図7を参照して説明する。図7において、030はSP、031は障害指摘辞書(BID)、032は診断バス、033はチップセット、034はノースブリッジ、035はサウスブリッジ、036はメモリコントローラである。
サーバ装置に障害が発生すると、SP030は、診断バス032を介してチップセット032から障害ログを採取し、障害指摘辞書031に従って障害箇所を指摘する。
2. Description of the Related Art Conventionally, a diagnostic processor (hereinafter referred to as SP) having a fault location indication function is mounted on an electronic device such as a server device (see, for example, Patent Document 1 and Patent Document 2). Such a conventional fault location indication method using SP will be described with reference to FIG. In FIG. 7, 030 is SP, 031 is a failure indication dictionary (BID), 032 is a diagnostic bus, 033 is a chipset, 034 is a north bridge, 035 is a south bridge, and 036 is a memory controller.
When a failure occurs in the server device, the SP 030 collects a failure log from the chipset 032 via the diagnostic bus 032 and points out the failure location according to the failure indication dictionary 031.

特開平10−187482号公報Japanese Patent Laid-Open No. 10-187482 特開2002−342121号公報JP 2002-342121 A

しかしながら、従来の障害指摘辞書においては、次のような問題点があった。第1の問題点は、障害指摘辞書がSPのファームウェア内に内包されているため、チップセットの変更に対応できないことである。チップセットが変更となった場合、特に障害ログのフォーマットが変更となった場合は、チップセットに対応したファームウェアへアップデートを行う必要がある。
第2の問題点は、チップセットと障害指摘辞書が1対1で対応しているため、バージョンや構成の異なる複数のサーバ装置を運用しているサイトではSPのファームウェアの管理が煩雑になることである。
However, the conventional failure indication dictionary has the following problems. The first problem is that since the failure indication dictionary is included in the SP firmware, it cannot cope with the change of the chip set. When the chipset is changed, especially when the failure log format is changed, it is necessary to update the firmware corresponding to the chipset.
The second problem is that the chipset and the failure indication dictionary correspond one-on-one, which makes it difficult to manage SP firmware at sites that operate multiple server devices with different versions and configurations. It is.

以上のように、従来の障害指摘辞書は、主にSPのファームウェアに内包されているため、サーバ装置を構成するLSIのバージョンアップや新規モジュールの追加などが発生した場合、新たなサーバ構成に対応した辞書を内包するファームウェアへの入れ替えが必要となっていた。このため、構成モジュールのリビジョンが異なるサーバ装置を複数運用するサイトがあった場合、適用するファームウェアの管理が煩雑となり、ファームウェアの適用の誤りによって障害ログの初期解析ができなくなる場合があった。   As described above, the conventional failure indication dictionary is mainly included in the SP firmware, so that when a version upgrade of LSI or addition of a new module occurs, a new server configuration is supported. It was necessary to replace the firmware with the dictionary. For this reason, when there are sites that operate a plurality of server apparatuses with different revisions of the component modules, the management of the applied firmware becomes complicated, and the initial analysis of the failure log may not be possible due to an error in the application of the firmware.

本発明の目的は、電子装置のLSIの構成やその変更に応じて診断プロセッサのファームウェアを変更することなく、電子装置の障害診断を行うことができる障害診断方法および電子装置障害診断システムを提供することにある。   An object of the present invention is to provide a failure diagnosis method and an electronic device failure diagnosis system capable of performing failure diagnosis of an electronic device without changing the firmware of a diagnostic processor in accordance with the configuration of the LSI of the electronic device or the change thereof. There is.

本発明の障害診断方法は、障害発生時に診断プロセッサが、障害ログの状況と障害個所とを対応付けた障害指摘辞書を予め有するLSIから障害ログデータと前記障害指摘辞書とを取得する障害指摘辞書取得手順と、前記診断プロセッサが、前記障害指摘辞書に従って前記障害ログデータを解析し、障害箇所を特定する障害個所特定手順とを備えるものである。
また、本発明の障害診断方法の1構成例は、さらに、障害発生時に前記診断プロセッサが、障害処理の手続きを定めた障害処理手続書を前記LSIから取得する障害処理手続書取得手順と、前記診断プロセッサが、前記解析の結果と前記障害処理手続書に従って障害処理を実行する障害処理実行手順とを備えるものである。
The failure diagnosis method of the present invention is a failure indication dictionary in which a diagnosis processor acquires failure log data and the failure indication dictionary from an LSI having in advance a failure indication dictionary in which a failure log status and a failure location are associated with each other when a failure occurs. The acquisition procedure and the diagnosis processor include a failure location identification procedure for analyzing the failure log data according to the failure indication dictionary and identifying a failure location.
In addition, one configuration example of the failure diagnosis method of the present invention further includes a failure processing procedure acquisition procedure in which the diagnosis processor acquires a failure processing procedure that defines a failure processing procedure from the LSI when a failure occurs, The diagnostic processor includes a failure processing execution procedure for executing failure processing according to the result of the analysis and the failure processing procedure manual.

また、本発明の電子装置障害診断システムは、障害ログの状況と障害個所とを対応付けた障害指摘辞書を予め有する電子装置のLSIと、障害発生時に前記LSIから障害ログデータと前記障害指摘辞書とを取得する障害指摘辞書取得手段と、前記障害指摘辞書に従って前記障害ログデータを解析し、障害箇所を特定する障害個所特定手段とを備えるものである。
また、本発明の電子装置障害診断システムの1構成例は、さらに、障害発生時に前記LSIから障害処理の手続きを定めた障害処理手続書を取得する障害処理手続書取得手段と、前記解析の結果と前記障害処理手続書に従って障害処理を実行する障害処理実行手段とを備えるものである。
The electronic device failure diagnosis system according to the present invention includes an LSI of an electronic device that has a failure indication dictionary that associates a failure log status with a failure location in advance, and the failure log data and the failure indication dictionary from the LSI when a failure occurs. And a failure location dictionary acquisition unit for analyzing the failure log data in accordance with the failure indication dictionary and identifying a failure location.
In addition, one configuration example of the electronic device failure diagnosis system of the present invention further includes a failure processing procedure acquisition means for acquiring a failure processing procedure defining a failure processing procedure from the LSI when a failure occurs, and a result of the analysis And fault processing execution means for executing fault processing in accordance with the fault processing procedure manual.

本発明では、障害指摘辞書を、障害ログを提示する電子装置のLSI(チップセット)自身に持たせ、障害発生時に、診断プロセッサが障害ログデータと障害指摘辞書の両方をLSIから取得する。診断プロセッサは、LSIから入手した障害指摘辞書を解釈するインタプリタ機能を有しており、LSIから入手した障害指摘辞書に従って障害ログデータを解析し、障害箇所を特定する。これにより、本発明においては、以下に記載するような効果を奏する。
第1の効果は、障害指摘辞書をLSIに実装しているので、障害ログと障害指摘辞書のミスマッチの発生を防止できることである。
第2の効果は、障害指摘辞書をLSIに実装しているので、LSIのリワークなどで障害ログのフォーマットが変更になったとしても、診断プロセッサのファームウェアを更新することなく、電子装置の障害診断ができることである。
第3の効果は、将来的に電子装置に新しいLSIが実装されたとしても、LSI側に障害指摘辞書を有するので、診断プロセッサのファームウェアを更新することなく、電子装置の障害診断ができることである。
第4の効果は、LSI毎に別々の挿抜可能なモジュールとして電子装置を構成している場合、装置Aを構成するモジュールの組み合わせと、装置Bを構成するモジュールの組み合わせが異なる場合が考えられるが、このような場合であっても、LSI側(モジュール側)に障害指摘辞書が存在するので、電子装置ごとに個別のファームウェアを用意することなく、電子装置の障害診断ができることである。
In the present invention, the failure indication dictionary is provided in the LSI (chipset) itself of the electronic device that presents the failure log, and when a failure occurs, the diagnosis processor acquires both the failure log data and the failure indication dictionary from the LSI. The diagnostic processor has an interpreter function for interpreting a failure indication dictionary obtained from the LSI, and analyzes failure log data according to the failure indication dictionary obtained from the LSI to identify the failure location. Thereby, in this invention, there exists an effect as described below.
The first effect is that since the failure indication dictionary is mounted on the LSI, the occurrence of mismatch between the failure log and the failure indication dictionary can be prevented.
The second effect is that the failure indication dictionary is mounted on the LSI. Therefore, even if the failure log format is changed due to LSI rework or the like, the failure diagnosis of the electronic device is performed without updating the firmware of the diagnosis processor. It is possible to do.
The third effect is that even if a new LSI is mounted in the electronic device in the future, the failure indication dictionary is provided on the LSI side, so that the failure diagnosis of the electronic device can be performed without updating the firmware of the diagnostic processor. .
The fourth effect is that when the electronic device is configured as a separately insertable / removable module for each LSI, the combination of the modules constituting the device A may be different from the combination of the modules constituting the device B. Even in such a case, since the failure indication dictionary exists on the LSI side (module side), failure diagnosis of the electronic device can be performed without preparing individual firmware for each electronic device.

また、本発明では、障害発生時に診断プロセッサが障害処理手続書をLSIから取得し、解析の結果と障害処理手続書に従って障害処理を実行するようにしたので、電子装置の構成と診断プロセッサのファームウェアの不一致による障害処理の誤りを防止することができる。   In the present invention, when the failure occurs, the diagnostic processor obtains the failure processing procedure document from the LSI, and executes the failure processing according to the analysis result and the failure processing procedure document. It is possible to prevent an error in fault processing due to mismatch.

[第1の実施の形態]
以下、本発明の実施の形態について図面を参照して説明する。図1は、本発明の第1の実施の形態に係るサーバ装置の構成を示すブロック図である。
図1において、001はサーバ装置、002はCPU、003は診断プロセッサ(以下、SPとする)、004はサーバ装置001に使用される代表的なLSI(チップセット)の1つであり、CPU002に接続されるノースブリッジ、005はチップセットの1つであり、図示しない他ノードとの接続を可能にするネットワークスイッチ、006はチップセットの1つであり、ネットワークスイッチ005に接続されるサウスブリッジ、007はチップセットの1つであるメモリコントローラ、008はSP003とノースブリッジ004とネットワークスイッチ005とサウスブリッジ006とメモリコントローラ007とを接続するインターフェースである診断バス、009はメモリ、010はサウスブリッジ006に接続される入出力インターフェース(I/O)である。
[First Embodiment]
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a server apparatus according to the first embodiment of the present invention.
In FIG. 1, 001 is a server device, 002 is a CPU, 003 is a diagnostic processor (hereinafter referred to as SP), 004 is one of typical LSIs (chip sets) used in the server device 001, and the CPU 002 Northbridge to be connected, 005 is one of the chipset, a network switch that enables connection to other nodes (not shown), 006 is one of the chipset, southbridge that is connected to the network switch 005, 007 is a memory controller which is one of the chip sets, 008 is a diagnostic bus which is an interface for connecting SP003, North Bridge 004, Network Switch 005, South Bridge 006 and Memory Controller 007, 009 is a memory, 010 is South Bridge 006 Connected to A force interface (I / O).

なお、図1では、1例としてCPU002を3個、入出力インターフェース010を2個としている。
SP003は、診断バス008を使用してノースブリッジ004、ネットワークスイッチ005、サウスブリッジ006及びメモリコントローラ007の初期化や、障害発生時のログ採取およびログ解析を行う。このSP003は、障害指摘辞書取得手段と障害個所特定手段とを構成している。
In FIG. 1, for example, three CPU002 and two input / output interfaces 010 are provided.
The SP 003 uses the diagnostic bus 008 to initialize the north bridge 004, the network switch 005, the south bridge 006, and the memory controller 007, and collect and analyze logs when a failure occurs. This SP003 constitutes a failure indication dictionary acquisition means and a failure location identification means.

図2は、図1のサーバ装置001の構成から障害箇所指摘機能部のみを抜き出したブロック図である。SP003は、障害指摘辞書を解釈するインタプリタ(以下、IPとする)011を有する。IP011は、ファームウェアによって実現することができる。
SP003は、各チップセット(ノースブリッジ004、ネットワークスイッチ005、サウスブリッジ006及びメモリコントローラ007)からの障害報告信号012によって障害を検出すると、診断バス008を使用して各チップセットから障害ログ013及び障害指摘辞書014を読み出す。
FIG. 2 is a block diagram in which only the fault location indicating function unit is extracted from the configuration of the server apparatus 001 in FIG. The SP003 has an interpreter (hereinafter referred to as IP) 011 that interprets the failure indication dictionary. IP011 can be realized by firmware.
When SP003 detects a failure by a failure report signal 012 from each chipset (north bridge 004, network switch 005, southbridge 006, and memory controller 007), it uses the diagnostic bus 008 to send a failure log 013 and The failure indication dictionary 014 is read out.

ここでは、1例としてノースブリッジ004から読み出す障害ログ013、障害指摘辞書014をそれぞれLog1,BID1、サウスブリッジ006から読み出す障害ログ013、障害指摘辞書014をそれぞれLog2,BID2、ネットワークスイッチ005から読み出す障害ログ013、障害指摘辞書014をそれぞれLog3,BID3、メモリコントローラ007から読み出す障害ログ013、障害指摘辞書014をそれぞれLog4,BID4とする。
SP003のファームウェアは、読み出した障害指摘辞書014を解釈するIP011を実装しており、IP011は、各チップセットから読み出した障害指摘辞書014に従って障害ログ013を解釈し、障害箇所を指摘する障害箇所指摘信号015を出力する。
Here, as an example, the failure log 013 read from the north bridge 004, the failure indication dictionary 014 read from the log 1, BID1, the failure log 013 read from the south bridge 006, the failure indication dictionary 014 read from the log 2, BID2, and the network switch 005, respectively. Log 013 and failure indication dictionary 014 are Log3 and BID3, respectively, failure log 013 read from memory controller 007, and failure indication dictionary 014 are Log4 and BID4, respectively.
The SP003 firmware implements IP011 for interpreting the read fault indication dictionary 014. The IP011 interprets the fault log 013 according to the fault indication dictionary 014 read from each chipset, and points out the fault location. The signal 015 is output.

このように、本実施の形態では、障害指摘辞書を障害ログを報告するユニット自身に持たせているので、LSIの変更や追加などで障害ログのフォーマットが変更となっても、SP003のファームウェアを入れ替えることなく障害指摘を行うことができる。
以上詳細に実施の形態の構成を述べたが、図1、図2のチップセットは、当業者にとってよく知られており、また本発明とは直接関係しないので、チップセットの詳細な構成は省略する。また、図2のSP003のファームウェアの詳細な構造についても本発明とは直接関係しないので、その詳細な構成は省略する。
In this way, in this embodiment, the failure indication dictionary is provided in the unit that reports the failure log. Therefore, even if the failure log format is changed due to an LSI change or addition, the SP003 firmware is installed. Failure indications can be made without replacement.
Although the configuration of the embodiment has been described in detail above, the chip set of FIGS. 1 and 2 is well known to those skilled in the art and is not directly related to the present invention, so the detailed configuration of the chip set is omitted. To do. Also, since the detailed structure of the firmware of SP003 in FIG. 2 is not directly related to the present invention, its detailed configuration is omitted.

なお、本実施の形態では、SP003が各チップセット(ノースブリッジ004、ネットワークスイッチ005、サウスブリッジ006、メモリコントローラ007)と1対1のインターフェースで接続されているが、SP003と各チップセットをバス状に接続してもよい。また、チップセットの個数や機能なども、本発明の本質とは直接関係しないので、図1、図2の構成に限るものではない。   In this embodiment, SP003 is connected to each chip set (north bridge 004, network switch 005, south bridge 006, memory controller 007) with a one-to-one interface. You may connect in the shape. Further, the number and functions of the chip sets are not directly related to the essence of the present invention, and thus are not limited to the configurations shown in FIGS.

次に、図2で障害が発生した際のSP003の動作を、図3に示すフローチャートを使用して説明する。
図2において、障害報告信号012がアサートされると、SP003は、この障害報告信号012を障害割り込みの契機とし(図3ステップS015)、診断バス008を通じて、ノースブリッジ004から障害ログLog1と障害指摘辞書BID1を読み出す(ステップS016)。同様に、SP003は、サウスブリッジ006から障害ログLog2と障害指摘辞書BID2を読み出し(ステップS017)、ネットワークスイッチ005から障害ログLog3と障害指摘辞書BID3を読み出し(ステップS018)、メモリコントローラ007から障害ログLog4と障害指摘辞書BID4を読み出す(ステップS019)。
Next, the operation of SP003 when a failure occurs in FIG. 2 will be described using the flowchart shown in FIG.
In FIG. 2, when the failure report signal 012 is asserted, the SP 003 uses the failure report signal 012 as a trigger for a failure interrupt (step S015 in FIG. 3), and the failure log Log1 and the failure indication from the north bridge 004 through the diagnostic bus 008. Dictionary BID1 is read (step S016). Similarly, SP003 reads out the failure log Log2 and the failure indication dictionary BID2 from the south bridge 006 (step S017), reads out the failure log Log3 and the failure indication dictionary BID3 from the network switch 005 (step S018), and outputs the failure log from the memory controller 007. Log4 and failure indication dictionary BID4 are read (step S019).

図4に、障害ログ013の1例を示す。一般に、LSIの障害ログ013は、数バイトのビット列で構成され、ビット単位に障害の意味が割り当てられている。図4の例は、ノースブリッジ004の障害ログ013を示している。この障害ログ013は、bit0からbit15の16ビットで構成されている。   FIG. 4 shows an example of the failure log 013. Generally, the LSI failure log 013 is composed of a bit string of several bytes, and the meaning of the failure is assigned to each bit. The example of FIG. 4 shows the failure log 013 of the North Bridge 004. This failure log 013 is composed of 16 bits from bit0 to bit15.

図5に、障害指摘辞書014の1例を示す。障害指摘辞書014は、障害ログを基に障害箇所を指摘するためのもので、障害ログ内の各ビットの点灯/消灯状況により障害箇所を判断するためのものである。図5の例は、ノースブリッジ004の障害指摘辞書014を示している。なお、図5中の「0x**」は**が16進数であることを示している。この障害指摘辞書014では、ノースブリッジ004から読み出した障害ログ013の値が0x01ならば故障個所はAであり、障害ログ013の値が0x02ならば故障個所はBであり、障害ログ013の値が0x03ならば故障個所はCであることを示している。   FIG. 5 shows an example of the failure indication dictionary 014. The failure indication dictionary 014 is used to point out a failure location based on the failure log, and is used to determine the failure location based on the lighting / extinguishing status of each bit in the failure log. The example of FIG. 5 shows the failure indication dictionary 014 of the North Bridge 004. Note that “0x **” in FIG. 5 indicates that ** is a hexadecimal number. In this failure indication dictionary 014, if the value of the failure log 013 read from the north bridge 004 is 0x01, the failure location is A, and if the failure log 013 value is 0x02, the failure location is B, and the value of the failure log 013 If 0 is 0x03, the failure location is C.

ログ採取対象となる全てのチップセットから障害ログ013及び障害指摘辞書014を読み出したSP003は、障害指摘辞書014を基に障害ログ013を解析し、障害箇所を特定して、例えばサーバ装置のユーザに対して障害箇所を指摘する障害箇所指摘信号015を出力する(ステップS020)。   The SP 003 that has read the failure log 013 and the failure indication dictionary 014 from all the chip sets to be collected from the log analyzes the failure log 013 based on the failure indication dictionary 014, identifies the failure location, for example, a user of the server device A failure location indication signal 015 for indicating the failure location is output (step S020).

[第2の実施の形態]
次に、本発明の第2の実施の形態について説明する。図6に、本実施の形態のサーバ装置における障害箇所指摘機能部の構成を示す。本実施の形態においても、サーバ装置全体の構成は第1の実施の形態のとおりであるが、本実施の形態ではサーバ装置の障害処理にまで本発明を拡張している。本実施の形態のSP003は、障害指摘辞書取得手段と障害個所特定手段に加えて、障害処理手続書取得手段と障害処理実行手段とを構成している。
[Second Embodiment]
Next, a second embodiment of the present invention will be described. FIG. 6 shows the configuration of the fault location indicating function unit in the server device of the present embodiment. Also in the present embodiment, the configuration of the entire server device is the same as that of the first embodiment, but in the present embodiment, the present invention is extended to failure processing of the server device. SP003 of the present embodiment constitutes a failure processing procedure acquisition unit and a failure processing execution unit in addition to the failure indication dictionary acquisition unit and the failure location specifying unit.

本実施の形態において、SP003のファームウェア(IP011a)は、障害報告信号012がアサートされると、診断バス008を通じて各チップセット(ノースブリッジ004、ネットワークスイッチ005、サウスブリッジ006、メモリコントローラ007)から障害ログ013及び障害指摘辞書014を読み出すと共に、各チップセットから障害処理手続書016を読み出す。   In the present embodiment, when the failure report signal 012 is asserted, the SP003 firmware (IP011a) causes a failure from each chipset (north bridge 004, network switch 005, south bridge 006, memory controller 007) through the diagnostic bus 008. The log 013 and the fault indication dictionary 014 are read out, and the fault processing procedure manual 016 is read out from each chip set.

図6の例では、1例としてノースブリッジ004から読み出す障害処理手続書016をProc1、サウスブリッジ006から読み出す障害処理手続書016をProc2、ネットワークスイッチ005から読み出す障害処理手続書016をProc3、メモリコントローラ007から読み出す障害処理手続書016をProc4としている。   In the example of FIG. 6, as an example, the failure handling procedure 016 read from the north bridge 004 is Proc1, the failure handling procedure 016 read from the south bridge 006 is Proc2, the failure handling procedure 016 read from the network switch 005 is Proc3, and the memory controller The failure processing procedure document 016 read from 007 is Proc4.

SP003のファームウェアは、読み出した障害指摘辞書014を基に障害ログ013を解析し、障害箇所を指摘する障害箇所指摘信号015を出力した後、読み出した障害処理手続書016に従って、例えば電源オフやファンの回転数を上げるなどの適当な障害処理を指定する障害処理指示信号017をチップセットに出力する。これにより、チップセットにおいて、障害処理が行われる。
このように、本実施の形態では、障害処理を定めた手続書についてもチップセット(LSI)側に持たせているので、サーバ装置の構成と診断プロセッサのファームウェアの不一致による障害処理の誤りを防止することができる。
The SP003 firmware analyzes the failure log 013 based on the read failure indication dictionary 014 and outputs a failure location indication signal 015 indicating the failure location. Then, in accordance with the read failure processing procedure document 016, for example, power off or fan A failure processing instruction signal 017 for designating appropriate failure processing such as increasing the number of rotations is output to the chipset. Thereby, failure processing is performed in the chip set.
As described above, in this embodiment, since the procedure set defining the failure processing is also provided on the chipset (LSI) side, the error in the failure processing due to the mismatch between the server device configuration and the diagnostic processor firmware is prevented. can do.

なお、第1、第2の実施の形態のサーバ装置は、CPU、記憶装置および外部とのインタフェースを備えたコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。このようなコンピュータにおいて、本発明の障害診断方法を実現させるためのプログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカードなどの記録媒体に記録された状態で提供される。CPUは、記録媒体から読み込んだプログラムを記憶装置に書き込み、プログラムに従って前述の処理を実行する。   The server devices of the first and second embodiments can be realized by a computer having a CPU, a storage device, and an external interface, and a program for controlling these hardware resources. In such a computer, a program for realizing the fault diagnosis method of the present invention is provided in a state of being recorded on a recording medium such as a flexible disk, a CD-ROM, a DVD-ROM, or a memory card. The CPU writes the program read from the recording medium into the storage device, and executes the above-described processing according to the program.

また、第1、第2の実施の形態において、SPはサーバ装置の内部に存在する必要は無く、複数のサーバ装置を制御できるよう、単体の装置としてサーバ装置の外に存在しても良い。   In the first and second embodiments, the SP does not need to exist inside the server device, and may exist outside the server device as a single device so that a plurality of server devices can be controlled.

本発明は、サーバ装置等の電子装置の障害を診断する技術に適用することができる。   The present invention can be applied to a technique for diagnosing a failure of an electronic device such as a server device.

本発明の第1の実施の形態に係るサーバ装置の構成を示すブロック図である。It is a block diagram which shows the structure of the server apparatus which concerns on the 1st Embodiment of this invention. 図1のサーバ装置における障害箇所指摘機能部の構成を示すブロック図である。It is a block diagram which shows the structure of the fault location indication function part in the server apparatus of FIG. 本発明の第1の実施の形態における障害発生時の診断プロセッサの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the diagnostic processor at the time of the failure generation in the 1st Embodiment of this invention. 本発明の第1の実施の形態における障害ログの1例を示す図である。It is a figure which shows an example of the failure log in the 1st Embodiment of this invention. 本発明の第1の実施の形態における障害指摘辞書の1例を示す図である。It is a figure which shows one example of the failure indication dictionary in the 1st Embodiment of this invention. 本発明の第2の実施の形態に係る障害箇所指摘機能部の構成を示すブロック図である。It is a block diagram which shows the structure of the fault location indication function part which concerns on the 2nd Embodiment of this invention. 従来のサーバ装置における障害箇所指摘機能部の構成を示すブロック図である。It is a block diagram which shows the structure of the fault location indication function part in the conventional server apparatus.

符号の説明Explanation of symbols

001…サーバ装置、002…CPU、003…診断プロセッサ、004…ノースブリッジ、005…ネットワークスイッチ、006…サウスブリッジ、007…メモリコントローラ、008…診断バス、009…メモリ、010…入出力インターフェース、011,011a…インタプリタ、012…障害報告信号、013…障害ログ、014…障害指摘辞書、015…障害箇所指摘信号、016…障害処理手続書、017…障害処理指示信号。   001 ... Server device, 002 ... CPU, 003 ... Diagnostic processor, 004 ... North bridge, 005 ... Network switch, 006 ... South bridge, 007 ... Memory controller, 008 ... Diagnostic bus, 009 ... Memory, 010 ... I / O interface, 011 , 011a ... interpreter, 012 ... failure report signal, 013 ... failure log, 014 ... failure indication dictionary, 015 ... failure location indication signal, 016 ... failure processing procedure, 017 ... failure processing instruction signal.

Claims (4)

LSIを有する電子装置の障害診断方法において、
障害発生時に診断プロセッサが、障害ログの状況と障害個所とを対応付けた障害指摘辞書を予め有するLSIから障害ログデータと前記障害指摘辞書とを取得する障害指摘辞書取得手順と、
前記診断プロセッサが、前記障害指摘辞書に従って前記障害ログデータを解析し、障害箇所を特定する障害個所特定手順とを備えることを特徴とする障害診断方法。
In a fault diagnosis method for an electronic device having an LSI,
A failure indication dictionary acquisition procedure for acquiring a failure log data and the failure indication dictionary from an LSI having a failure indication dictionary in which a diagnosis processor associates a failure log status and a failure location in advance when a failure occurs;
A failure diagnosis method comprising: the diagnosis processor comprising a failure location specifying procedure for analyzing the failure log data according to the failure indication dictionary and specifying a failure location.
請求項1記載の障害診断方法において、
さらに、障害発生時に前記診断プロセッサが、障害処理の手続きを定めた障害処理手続書を前記LSIから取得する障害処理手続書取得手順と、
前記診断プロセッサが、前記解析の結果と前記障害処理手続書に従って障害処理を実行する障害処理実行手順とを備えることを特徴とする障害診断方法。
The failure diagnosis method according to claim 1,
Further, when a failure occurs, the diagnostic processor acquires a failure processing procedure document that defines a failure processing procedure from the LSI, and a failure processing procedure document acquisition procedure;
A failure diagnosis method, wherein the diagnosis processor comprises a failure processing execution procedure for executing failure processing in accordance with the result of the analysis and the failure processing procedure manual.
障害ログの状況と障害個所とを対応付けた障害指摘辞書を予め有する電子装置のLSIと、
障害発生時に前記LSIから障害ログデータと前記障害指摘辞書とを取得する障害指摘辞書取得手段と、
前記障害指摘辞書に従って前記障害ログデータを解析し、障害箇所を特定する障害個所特定手段とを備えることを特徴とする電子装置障害診断システム。
An LSI of an electronic device having in advance a failure indication dictionary in which a failure log status and a failure location are associated with each other;
Fault indication dictionary acquisition means for acquiring fault log data and the fault indication dictionary from the LSI when a fault occurs;
An electronic device failure diagnosis system comprising: failure location specifying means for analyzing the failure log data according to the failure indication dictionary and specifying a failure location.
請求項3記載の電子装置障害診断システムにおいて、
さらに、障害発生時に前記LSIから障害処理の手続きを定めた障害処理手続書を取得する障害処理手続書取得手段と、
前記解析の結果と前記障害処理手続書に従って障害処理を実行する障害処理実行手段とを備えることを特徴とする電子装置障害診断システム。
The electronic device failure diagnosis system according to claim 3,
Further, a failure processing procedure acquisition means for acquiring a failure processing procedure defining a failure processing procedure from the LSI when a failure occurs,
An electronic device failure diagnosis system comprising failure processing execution means for executing failure processing according to the analysis result and the failure processing procedure manual.
JP2007157411A 2007-06-14 2007-06-14 Failure diagnostic method and electronic device failure diagnostic system Pending JP2008310567A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007157411A JP2008310567A (en) 2007-06-14 2007-06-14 Failure diagnostic method and electronic device failure diagnostic system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007157411A JP2008310567A (en) 2007-06-14 2007-06-14 Failure diagnostic method and electronic device failure diagnostic system

Publications (1)

Publication Number Publication Date
JP2008310567A true JP2008310567A (en) 2008-12-25

Family

ID=40238112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007157411A Pending JP2008310567A (en) 2007-06-14 2007-06-14 Failure diagnostic method and electronic device failure diagnostic system

Country Status (1)

Country Link
JP (1) JP2008310567A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010387A (en) * 2021-03-23 2021-06-22 联想(北京)有限公司 Monitoring method and device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010387A (en) * 2021-03-23 2021-06-22 联想(北京)有限公司 Monitoring method and device

Similar Documents

Publication Publication Date Title
US7844866B2 (en) Mechanism to report operating system events on an intelligent platform management interface compliant server
US11175918B2 (en) Management protocol adapter
US9979627B2 (en) Systems and methods for bare-metal network topology discovery
US10037238B2 (en) System and method for encoding exception conditions included at a remediation database
WO2009110111A1 (en) Server device, method of detecting failure of server device, and program of detecting failure of server device
US20140122931A1 (en) Performing diagnostic tests in a data center
TW201401092A (en) Method, computer system and program product for dynamically adjusting log level of a transaction
JP2006114046A (en) Method of linking events in system event log
CN109388623A (en) A kind of method, system and the associated component of equipment fault detection
JP2009121832A (en) Analyzer, analysis system, and computer program
AU2005331434A1 (en) Monitoring simulating device, method, and program
US8296723B2 (en) Configurable unified modeling language building blocks
CN100590602C (en) Remote monitor module for computer initialization
JP4973205B2 (en) Information processing apparatus, log acquisition method, and program
WO2017011277A1 (en) Sideband serial channel for pci express peripheral devices
CN109471763A (en) Grab method, apparatus, equipment and the system of NVME hard disk trace
US8478580B1 (en) Model driven command language translator
US20140289398A1 (en) Information processing system, information processing apparatus, and failure processing method
US10462234B2 (en) Application resilience system and method thereof for applications deployed on platform
JP2008310567A (en) Failure diagnostic method and electronic device failure diagnostic system
CN107222586A (en) A kind of BMC IP method in automatic identification LAN
JP2008176703A (en) Failure diagnostic system and failure diagnostic program
JP5088738B2 (en) Fault monitoring apparatus, fault monitoring method, and program therefor
US10216525B1 (en) Virtual disk carousel
US20100250745A1 (en) Virtual Typing Executables