JP2008176477A - Computer system - Google Patents
Computer system Download PDFInfo
- Publication number
- JP2008176477A JP2008176477A JP2007008185A JP2007008185A JP2008176477A JP 2008176477 A JP2008176477 A JP 2008176477A JP 2007008185 A JP2007008185 A JP 2007008185A JP 2007008185 A JP2007008185 A JP 2007008185A JP 2008176477 A JP2008176477 A JP 2008176477A
- Authority
- JP
- Japan
- Prior art keywords
- transaction
- computer system
- controller
- failure
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、計算機システムに係り、特に計算機で障害が発生した時に、障害解析のための情報を外部から取り出す手段を備えた計算機システムに関する。 The present invention relates to a computer system, and more particularly to a computer system provided with means for extracting information for failure analysis from the outside when a failure occurs in the computer.
稼動中の計算機システムでハードウェア障害を検出した時は、障害部位を特定して切り離し又は切り替えを行い、計算機システムを止めずに実行中の処理を継続する事が、計算機システムに求められる。また、計算機システムがハードウェア障害により止まってしまった場合には、障害部位を特定してから交換し、素早く計算機システムを復旧して処理を再開する事が計算機システムに求められる。そのため、高い信頼性と可用性を保証する計算機システムは、計算機システムの各構成要素に、ハードウェア障害を検出し障害部位を特定する事ができるエラー検出機構を一般的に備える。具体的には、計算機システムの構成要素の1つであるプロセッサのキャッシュメモリ、システム・バス、メインメモリ等においては、パリティビット、もしくはECC(Error Correcting Code)をデータに付加し、データを各構成要素から読み出した際に、パリティエラーもしくはECCエラーの形で不正データの検出を行う機構を備える。それにより、キャッシュメモリ等の各構成要素からデータを読み出した時に、パリティエラーもしくはECCエラーを検出した際には、エラーが発生した構成要素を障害部位として特定する事ができる。パリティビットやECC以外の障害部位の特定を可能とするエラー検出機構としては、例えばPCIバスのトランザクション処理における、マスタアボート検出機構及びSERR信号アサートによるエラー報告機構が挙げられる。マスタアボート検出は、PCIバスのイニシエータのリクエストに対し、ターゲットデバイスが応答を返さなかったことを検出する。したがって、マスタアボート検出機構を用いると、ターゲットデバイスが障害部位であると特定する事ができる。また、SERR信号のアサートは、ブリッジ又はPCIデバイスなどのPCIバスのエージェントで致命的な障害が発生した事を示す。したがって、PCIバスでのSERR信号のアサートにより、PCIバスのエージェントが障害部位であると推定する事ができる。 When a hardware failure is detected in an operating computer system, the computer system is required to identify the faulty part, isolate or switch, and continue the processing being executed without stopping the computer system. Further, when the computer system stops due to a hardware failure, the computer system is required to identify and replace the failed part, quickly restore the computer system, and restart the processing. Therefore, a computer system that guarantees high reliability and availability generally includes an error detection mechanism that can detect a hardware fault and identify a faulty part in each component of the computer system. Specifically, in the processor cache memory, system bus, main memory, etc., which is one of the components of the computer system, a parity bit or ECC (Error Collecting Code) is added to the data, and the data is configured in each component. A mechanism is provided for detecting illegal data in the form of a parity error or ECC error when read from an element. As a result, when a parity error or an ECC error is detected when data is read from each component such as a cache memory, the component in which the error has occurred can be specified as a failure part. Examples of an error detection mechanism that enables identification of a failure site other than a parity bit and ECC include a master abort detection mechanism and an error report mechanism by asserting a SERR signal in a transaction processing of a PCI bus. The master abort detection detects that the target device has not returned a response to the request from the PCI bus initiator. Therefore, when the master abort detection mechanism is used, it is possible to specify that the target device is a failure part. The assertion of the SERR signal indicates that a fatal failure has occurred in the PCI bus agent such as a bridge or a PCI device. Therefore, by asserting the SERR signal on the PCI bus, it can be estimated that the agent on the PCI bus is the fault site.
しかし、計算機システムでハードウェア障害が発生した時に、先に説明したエラー検出機構を備えていても障害部位の特定ができない場合がある。先に説明したエラー検出機構は、設計者が計算システムを設計する際に予測し得るエラーを検出するものである。そのため、計算機システムが設計者の意図しない動作を行なって発生したか、もしくは故障により応答を返せないがために発生するハードウェア障害等では、先に説明したパリティエラーやECCエラー等のエラーが検出されず、障害部位を特定する事ができない。このようなハードウェア障害が発生した時、一般的な計算機システムでは、タイムアウト障害となる。計算機システムに任意のリクエストに対するハードウェアの応答時間を測定する機構を備え、一定時間リクエストに対し無応答であった時に、タイムアウトエラーを検出して、計算機システムの管理者にハードウェア障害発生を報告する。 However, when a hardware failure occurs in the computer system, the failure part may not be identified even if the error detection mechanism described above is provided. The error detection mechanism described above detects an error that can be predicted when a designer designs a calculation system. For this reason, errors such as parity errors and ECC errors described above are detected in the case of hardware failures that occur because the computer system performs an operation that is not intended by the designer, or because a failure cannot return a response. It is not possible to identify the site of failure. When such a hardware failure occurs, it becomes a timeout failure in a general computer system. The computer system is equipped with a mechanism to measure the hardware response time for any request. When there is no response to a request for a certain period of time, a timeout error is detected and a hardware failure is reported to the computer system administrator. To do.
タイムアウト障害が発生した時、計算機システムの管理者は、障害部位を推定するために、市販されているロジックアナライザ等のデジタル信号の観測装置を使用して計算機システム上のバス等でデジタル信号を観測し、障害部位を推定する必要がある。もしくは、特許文献1や特許文献2に記載されている技術のように、プロセッサバスのトレースを採取する機構を計算機システムに備えていれば、タイムアウト障害発生時に採取したプロセッサバスのトレースを見て障害部位を推定する。
When a time-out failure occurs, the computer system administrator uses a commercially available digital signal observation device such as a logic analyzer to observe the digital signal on a bus on the computer system in order to estimate the failure location. Therefore, it is necessary to estimate the site of failure. Alternatively, if the computer system is equipped with a mechanism for collecting processor bus traces as in the techniques described in
しかし、上記前者の手段では、まず観測装置を計算機システムに接続し、その後タイムアウト障害を再現させて障害発生時のデジタル信号を採取し、採取した結果を元に障害部位を特定する必要がある。そのため、計算機システムの管理者は、調査に多大な時間と労力を要する事になる。また、タイムアウト障害の再現率が非常に低いものであれば、調査そのものが不可能となる場合もある。一方、後者の手段では、計算機システムの管理者は、プロセッサバスなど計算機システムの1構成要素の信号履歴を追って障害部位を推定する必要がある。そのため、タイムアウト障害がトレースを採取した箇所に関連して発生したものでないと、障害部位を特定することは困難となる。 However, with the former means, it is necessary to first connect the observation apparatus to the computer system, then reproduce the time-out failure, collect a digital signal when the failure occurs, and specify the failure site based on the collected result. For this reason, the administrator of the computer system requires a great deal of time and labor for the investigation. In addition, if the reproduction rate of timeout failure is very low, the investigation itself may not be possible. On the other hand, in the latter means, the administrator of the computer system needs to estimate the faulty part by following the signal history of one component of the computer system such as the processor bus. For this reason, it is difficult to specify the faulty part unless the time-out fault has occurred in relation to the location where the trace is collected.
以上説明した通り、従来技術では、タイムアウト障害のように、計算機システムが設計者の意図しない動作を行ったか、もしくは故障してしまって発生するハードウェア障害が発生した時に、計算機システムの迅速な復旧を保証することができないため、高い信頼性と可用性を保証する計算機システムでは重大な問題となる。 As described above, in the prior art, when a computer system performs an operation not intended by the designer or a hardware failure occurs due to a failure, such as a timeout failure, the computer system can be quickly recovered. This is a serious problem in a computer system that guarantees high reliability and availability.
本発明の目的は、タイムアウト障害のように、計算機システムが設計者の意図しない動作を行ったか、もしくは故障してしまって発生するハードウェア障害が発生した時に、計算機システムの管理者が障害部位の推定を容易にすることができる計算機システムを提供することである。 The object of the present invention is that when a computer system performs an operation unintended by the designer, such as a timeout failure, or a hardware failure occurs due to a failure, the administrator of the computer system To provide a computer system capable of facilitating estimation.
本発明が提案する計算機システムは、計算機システムの内部でプロセッサ及びメモリ、拡張カード間のデータの受け渡しを管理する回路であるチップセットにおいて、プロセッサまたは拡張カードが発行したメモリアクセスもしくは拡張カードへのアクセスの履歴をチップセット内に記録する回路を備える。以降の説明では、計算機システム内でプロセッサまたは拡張カードが発行したメモリアクセス(メモリリード・ライト)もしくは拡張カードへのアクセス(I/Oリード・ライト)をトランザクションと称する。 The computer system proposed by the present invention is a memory access issued by a processor or an expansion card or an access to an expansion card in a chip set which is a circuit for managing the exchange of data between the processor, memory and expansion card in the computer system. Is provided with a circuit for recording the history in the chipset. In the following description, a memory access (memory read / write) issued by a processor or an expansion card in a computer system or an access to an expansion card (I / O read / write) is referred to as a transaction.
履歴情報を記録する回路は、トランザクションの宛先であるメモリアドレス・I/Oアドレス、メモリリード・ライト及びI/Oリード・ライトといったトランザクションの種別を記録し、障害発生時に計算機システムでどのようなトランザクション処理を実行していたのか、履歴情報を見る事で推測できるようにする。また、履歴情報を記録する回路は、チップセット内のトランザクション処理状態も履歴情報として記録し、障害発生時に、チップセット内でトランザクション処理がどのような状態で止まっているのか履歴情報を見ることで分かるようにする。トランザクション処理状態の一例としては、宛先であるメモリまたは拡張カードに対してトランザクションを発行したか、宛先のメモリまたは拡張カードはリードデータを返したか、チップセットはトランザクション発行元のプロセッサまたは拡張カードに対しリードデータを返したか等が挙げられる。そして履歴情報を記録する回路は、上記トランザクション処理状態を記録する際に、計算機システムで一意に定めた時刻を記録する。具体的には、履歴情報を採取する各回路に、計算機システム内で同期して同じ値をカウントするカウンタを用意し、トランザクション処理状態を記録する際に該カウンタの値を同時に記録する。それにより、計算機システムの管理者は、計算機システムで複数の履歴情報を採取した場合にも、同じ時間軸で各履歴情報を見る事ができる。 The circuit that records history information records the transaction type such as memory address / I / O address, memory read / write, and I / O read / write, which is the destination of the transaction, and what kind of transaction in the computer system when a failure occurs It is possible to guess whether the process was executed by looking at the history information. In addition, the circuit that records history information records the transaction processing status in the chipset as history information, and by looking at the history information on the transaction processing status in the chipset when a failure occurs. Make it understandable. As an example of the transaction processing state, a transaction is issued to the destination memory or expansion card, the destination memory or expansion card returns read data, or the chipset is to the transaction issuing processor or expansion card. For example, the read data is returned. The circuit for recording history information records the time uniquely determined by the computer system when recording the transaction processing state. Specifically, a counter that counts the same value synchronously in the computer system is prepared for each circuit that collects history information, and the value of the counter is recorded simultaneously when the transaction processing state is recorded. Thereby, the administrator of the computer system can view each history information on the same time axis even when a plurality of history information is collected by the computer system.
また、本発明が提案する計算機システムは、記録した全チップセットのトランザクション処理状態の履歴情報を、障害発生時に障害通報と共に計算機システムの管理者に送るか、もしくは計算機システムの管理者が外部から任意のタイミングで読み出す手段を備える。 In addition, the computer system proposed by the present invention sends the recorded transaction processing state history information for all chipsets to the administrator of the computer system together with a failure notification when a failure occurs, or the administrator of the computer system arbitrarily selects from the outside. Means for reading out at the timing.
本発明によれば、タイムアウト障害のように、計算機システムが設計者の意図しない動作を行ったか、もしくは故障してしまって発生するハードウェア障害が発生した場合にも、計算機システムの管理者が障害発生時の全チップセット内でのトランザクション処理状態を知ることができるので、計算機システムの障害部位を特定することが容易となり、計算機システムの迅速な復旧を可能とする。 According to the present invention, even if a hardware failure occurs because the computer system has performed an operation not intended by the designer or a failure occurs, such as a timeout failure, the administrator of the computer system can Since it is possible to know the transaction processing state in all the chip sets at the time of occurrence, it becomes easy to identify the faulty part of the computer system, and it is possible to quickly restore the computer system.
以下、図面を用いて本発明の実施形態を詳細に説明する。図1は本発明で想定する計算機システムの一例である。本計算機システムは、ノードA 100とノードB 130、そしてノードA 100とノードB 130を接続するノード間リンク140、計算機システムの各構成要素を管理する管理モジュール150を備える。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is an example of a computer system assumed in the present invention. The computer system includes a
ノード間リンク140は、ノードA 100とノードB 130間でトランザクション情報の送信・受信を可能とするものであり、クロスバーや完全結合網など、構築する計算機システムに適した接続手段で実現することができる。本説明におけるトランザクション情報とは、計算機システム内でトランザクションを処理するために必要な情報を指す。具体的には、アクセス対象のメモリアドレスとI/Oアドレス、メモリリード・ライト及びI/Oリード・ライトといったトランザクションの種別、そして計算機システム内でトランザクションを一意に管理するためのトランザクション識別子、リードしたまたはライトするデータ、ライト処理を実施したことを報告するためのACKとリードまたはライト処理を実施出来なかった事を報告するためのNACKのことである。トランザクション情報は、トランザクションパス171を介して、計算機システム内の各構成要素間で発行・受信される。
The
管理モジュール150の機能は、計算機システムの各構成要素の電源管理(投入/切断)、構成要素情報の管理、障害発生時の計算機システム内トランザクション情報・処理状態履歴の採取・障害通報、システム内環境(温度・電源)監視である。本実施例では、管理用コンソール160と管理モジュール150は、LAN I/F170を介して通信が可能である。ただし、管理用コンソール160と管理モジュール150間の通信手段は特に制限するものではなく、例えばシリアルケーブルを使用して通信しても良い。計算機システムの使用者は、管理用コンソール160を使用して、管理モジュール150を介し計算機システムの管理/操作を行なうことができる。管理モジュール150は、計算機システム内の障害が発生したノードから障害通報を受けた時、計算機システムを構成する各ノードに対しトランザクション情報・処理状態履歴の採取要求を出す。そして、採取要求に対し各ノードからトランザクション情報・処理状態履歴の情報が返ってきたら、管理用コンソール160に対し障害通報と共に採取した各ノードのトランザクション情報・処理状態履歴を送信する。その結果、計算機システムの管理者は、管理用コンソール160に示された障害通報により障害が発生した事を知ることができ、障害通報と共に送られた各ノードのトランザクション情報・処理状態履歴を見る事で、エラー内容が障害部位を特定できるものではなくても、障害部位を特定する事が可能となる。また、管理モジュール150は、計算機システムの管理者が管理用コンソール160を介してトランザクション情報・処理状態履歴の採取要求を出した場合にも、計算機システムを構成する各ノードに対しトランザクション情報・処理状態履歴の採取要求を出す。そして、採取要求に対し各ノードからトランザクション情報・処理状態履歴の情報が返ってきたら、管理用コンソール160に対し各ノードのトランザクション情報・処理状態履歴を送信する。
The functions of the
ノードA 100は、プロセッサ101及び102、プロセッサバス(第1のパス)103、ノード内管理回路104、I/Oブリッジ105、PCIデバイス106、メモリ107、PCIバス108、チップセット110を備える。本実施例では、拡張カードとして一般的なPCIデバイスを採用したが、もちろんこれに制限するものではなく、例えば最新のPCI−Expressデバイスでも良い。また、ノードB 130はノードA 100と全く同じ構成要素を持つものとする。また、本実施例では2ノード構成としたが、ノード数も特に規定するものではない。
The
プロセッサバス103は、プロセッサ101及び102と、チップセット110を接続し、プロセッサ101及び102とチップセット110間のトランザクション情報の発行・受信を行う。
The
ノード内管理回路104は、障害情報通知パス172を介したチップセット110の各構成要素からの障害通報の受信と、障害情報採取パス173を介したプロセッサバスコントローラ111及びI/Oコントローラ112からのトランザクション情報・処理状態履歴の入手、そして管理モジュール150への障害通報を行う。ノード内管理回路104はLAN I/F(第2のパス)170を介して管理モジュール150と通信可能であり、障害通報を受けた管理モジュール150は、計算機システムを構成する各ノードのノード内管理回路104を介して、各ノードのプロセッサバスコントローラ111及びI/Oコントローラ112からトランザクション情報・処理状態履歴を採取する。
The
I/Oブリッジ105は、PCIバス108を介してチップセット110とPCIデバイス106を接続し、チップセット110とPCIデバイス106間のデータの発行・受信を行う。
The I /
チップセット110は、プロセッサバスコントローラ111、I/Oコントローラ112、メモリコントローラ113、ノード間リンクコントローラ114を備える。
The chip set 110 includes a
プロセッサバスコントローラ111は、プロセッサ101またはプロセッサ102が発行したトランザクション及びライトデータを、プロセッサバス103を介して受信し、トランザクション情報を見て、リード・ライト対象となるチップセット110の構成要素に対し、トランザクション及びライトデータを発行する。例えば、ノードA 100にあるプロセッサコントローラ111においては、トランザクションのアクセス対象のアドレスがノードAのメモリ107宛てであればメモリコントローラ113に、もしくはノードAのPCIデバイス106宛てであればI/Oコントローラ112に、そしてノードBのメモリ107またはPCIデバイス106宛てであればノード間リンクコントローラ114にトランザクション及びライトデータを発行する。また、プロセッサバスコントローラ111は、チップセット110の各構成要素から送信されたリードデータを、プロセッサバス103を介してプロセッサ101または102に送信する。プロセッサバスコントローラ111は、本発明の特徴であるトランザクション情報・処理状態の履歴を記録する回路を備えているので、内部構成及び処理内容について後で詳細に説明する。
The
I/Oコントローラ112は、計算機システム内の各プロセッサまたは他ノードにあるPCIデバイスが発行したI/Oリード・ライト及びライトデータを、I/Oブリッジ105を介してPCIデバイス106に発行する。また、PCIデバイス106からリードしたデータを、トランザクション発行元であるプロセッサまたはPCIデバイスに対して発行する。I/Oライトの場合は、I/OライトとライトデータをI/Oブリッジ105を介してPCIデバイス106に発行した時点で、I/Oコントローラ112は、トランザクション発行元のプロセッサまたはPCIデバイスに対してACKを発行する。もしI/Oブリッジ105及びPCIバス108、そしてPCIデバイス106において障害が発生し、PCIデバイス106に対してI/OリードもしくはI/Oライトとライトデータを発行できない場合、I/Oコントローラ112は、トランザクション発行元のプロセッサまたはPCIデバイスに対してNACKを発行する。障害の具体例としては、PCIデバイス106の故障が発生し、PCIデバイス106がトランザクションに対し無応答、もしくはPCIバス108でSERR信号がアサートされている等が挙げられる。PCIデバイス106は、プロセッサと同様にメモリ107または他ノードのPCIデバイス106に対しリード・ライトトランザクション及びライトデータを発行する。そのため、I/Oコントローラ112は、PCIデバイス106が発行したトランザクション及びライトデータを、I/Oブリッジ105を介して受け取り、トランザクション情報を見て、リード・ライト対象となる構成要素に対しトランザクション及びライトデータを発行する。また、プロセッサバスコントローラ110は、チップセット110の各構成要素から送信されたリードデータを、I/Oブリッジ105を介してPCIデバイス106に送信する。I/Oコントローラ112も、プロセッサバスコントローラ111と同様に、本発明の特徴であるトランザクション情報・処理状態の履歴を記録する回路を備えているので、内部構成及び処理内容について後で詳細に説明する。
The I / O controller 112 issues I / O read / write and write data issued by the PCI device in each processor or other node in the computer system to the
メモリコントローラ112は、計算機システム内の各プロセッサまたは各PCIデバイスが発行したメモリリード・ライト及びライトデータを、メモリ107に発行する。また、メモリ107からリードしたデータを、トランザクション発行元であるプロセッサまたはPCIデバイスに対して発行する。メモリライトの場合は、メモリライトとライトデータをメモリ107に発行した時点で、メモリコントローラ113は、トランザクション発行元のプロセッサまたはPCIデバイスに対してACKを発行する。また、I/Oコントローラ112と同様、メモリが故障したなどの障害が発生しメモリ107にメモリリードもしくはメモリライトとライトデータを発行できない場合、トランザクション発行元のプロセッサまたはPCIデバイスに対してNACKを発行する。
The memory controller 112 issues memory read / write and write data issued by each processor or each PCI device in the computer system to the
ノード間リンクコントローラ114は、自ノード内のプロセッサまたはPCIデバイスが発行したトランザクション情報を、ノード間リンク140を介し、他ノードに対して発行、もしくは他ノードのプロセッサまたはPCIデバイスが発行したトランザクション情報を受信する。そして、ノード間リンクコントローラ114は、リード・ライト対象となる自ノード内の構成要素に対し、受信したトランザクション情報を発行する。
The
以下、本発明の特徴であるトランザクション情報・処理状態の履歴を記録する回路を持つ、プロセッサバスコントローラ111の内部構成及び処理内容について、図2を用いて詳細に説明する。プロセッサバスコントローラ111は、プロセッサバスI/Fコントローラ200、トランザクションコントローラ201、管理回路I/Fコントローラ202、アドレスキュー203、データインキュー204、データアウトキュー205、他ユニットI/Fコントローラ206、障害報告回路207、カウンタ208を備える。
The internal configuration and processing contents of the
プロセッサバスI/Fコントローラ200は、プロセッサバス103からプロセッサ101または102が発行したトランザクションまたはライトデータを受信、もしくはプロセッサバス103にリードデータを送信する。そしてトランザクション情報を受信した場合、プロセッサバスI/Fコントローラ200は、アドレスキュー203のトランザクション情報が無効なエントリに、トランザクション情報を格納する。無効なエントリが複数存在した時は、LRU方式でトランザクション情報を格納するようにすると、トランザクション情報を時系列で見ることができるので望ましい。もし無効なエントリがアドレスキュー203に無い場合、プロセッサバスI/Fコントローラ200はプロセッサがトランザクションまたはライトデータを発行できないように、プロセッサバス103の処理を止める。ライトデータをプロセッサバス103から受信した場合は、データインキュー204にライトデータを格納する。データアウトキュー205が発行したリードデータ及びACK、NACKを受けた場合は、プロセッサバス103にリードデータ及びACK、NACKを発行する。また、プロセッサバスI/Fコントローラ200は、プロセッサバス103の状態を監視し、プロセッサバス103で発生した障害を検知した場合は、障害報告回路207に障害通報を行なう。プロセッサバス103で検出する障害の具体例としては、トランザクションの対象アドレスのパリティエラー、リード・ライトデータのECCエラー等が挙げられる。
The processor bus I /
アドレスキュー203は、トランザクション処理がチップセット110内で完了するまで、トランザクション情報を格納する回路である。アドレスキュー203は、トランザクションを格納した事をトランザクションコントローラ201に通知するのみで、アドレスキュー203からのトランザクション発行及びトランザクション処理が完了した時のトランザクション情報の無効化制御は、トランザクションコントローラ201が行なう。図3にアドレスキュー203の構成例を示す。図3のアドレスキューは、エントリ数をnとした時の例である。nの数は、実現する計算機システムに適した値に設定すればよい。例えば、プロセッサがチップセットに同時に発行できるトランザクションの数か、もしくはトランザクション情報・処理状態の履歴を採取したい数等にすればよい。エントリ番号300は、エントリ番号を格納する。バリッドビット301は、“1”の場合エントリに格納しているトランザクション情報が有効であることを示し、“0”の場合無効であることを示す。対象アドレス302は、トランザクションが対象とするメモリアドレスもしくはI/Oアドレスを格納する。種別303は、メモリリード・ライト、I/Oリード・ライトといったトランザクション種別を格納する。識別子304は、計算機システム内でトランザクションを一意に識別できる番号を格納する。
The
以下に説明するアドレスキュー203の構成要素は、チップセット110内でのトランザクション処理状態を示すものである。発行ステータス305は、トランザクションを宛先の構成要素に発行したことを示すフラグと、発行した時間を格納するカウンタ値を持つ。“フラグ”は、“1”の時にトランザクションを発行したことを示し、“0”の時に未発行であることを示す。また、“カウンタ値”は、トランザクションを発行した時のカウンタ208の値が入る。受信ステータス306は、プロセッサバス103からライトデータを受信したか、もしくはチップセット110の構成要素からリードデータ及びACK、NACKを受信した事を示す“状態”と、受信した時間を格納するカウンタ値を持つ。“状態”は、“data”の時にリード・ライトデータを受信したことを、“ack”または“nack”の時にACKまたはNACKを受信したことを、そして“0”の時に未受信であることを示す。また、カウンタ値は、リード・ライトデータ及びACK、NACKを受信した時のカウンタ208の値が入る。完了ステータス307は、リードデータ及びACK、NACKをプロセッサバス103に対して発行し、チップセット110内でのトランザクション処理が完了したことを示す“フラグ”と、トランザクション処理が完了した時間を格納するカウンタ値を持つ。フラグは、“1”の時にトランザクション処理が完了したことを示し、“0”の時にトランザクション処理が完了していないことを示す。また、カウンタ値は、トランザクション処理が完了した時のカウンタ208の値が入る。
The constituent elements of the
本実施例では、チップセット110内でのトランザクション処理状態を示す情報として3種類のステータス305〜307を示しているが、必要であれば別のステータスを追加してもよい。追加するステータスの一例としては、メモリのccNUMA構成を提供する計算機システムにおける、キャッシュ一致制御処理の完了/未完了のステータスを挙げる事ができる。また、チップセット内でのトランザクション処理状態がカウンタ値と共に記録されれば良いので、“フラグ”や“状態”等の処理状態の表現手段も特に規定するものではなく、実現する計算機システムに適した表現手段を用いれば良い。
In this embodiment, three types of
データインキュー204は、ライトデータを格納するキューである。また、データアウトキュー205は、リードデータ及びACK、NACKを格納するキューである。データインキュー204及びデータアウトキュー205とも、格納したデータの発行指示は、トランザクションコントローラ201が行なう。また、本実施例では、データインキュー204及びデータアウトキュー205ともデータ及びACK、NACKを格納するエントリは、対応するトランザクション情報をアドレスキュー203に格納した時と同じエントリ番号であるエントリに格納するものとする。これにより、アドレスキュー203のバリッドビット301で、データインキュー204及びデータアウトキュー205に格納した情報の有効・無効判定を実現する。
The data-in
カウンタ208は、各ノードで共通のカウンタ値を示すものである。例えば、計算機システムを電源投入した際に各ノードで同期してカウンタのインクリメントを開始し、カウンタを同じ周波数で動作させれば、各ノードで共通なカウンタ値を実現できる。
The
他ユニットI/Fコントローラ206は、トランザクションの宛先であるチップセット110の各構成要素に対し、アドレスキュー203から受信したトランザクション及びデータインキュー204から受信したライトデータを発行、もしくはトランザクションの宛先であるチップセット110の各構成要素からリードデータ及びACK、NACKを受信する。そしてリードデータ及びACK、NACKを受信した場合、他ユニットI/Fコントローラ206は、データアウトキュー205にリードデータ及びACK、NACKを格納する。また、他ユニットI/Fコントローラ206は、チップセット110の構成要素112〜113のI/Fを監視し、リードデータ及びACK、NACK受信時に障害を検知した場合は、障害報告回路207に障害通報を行なう。プロセッサバス103で検出する障害と同様に、トランザクションの対象アドレスのパリティエラー、リード・ライトデータのECCエラー等が挙げられる。
The other unit I / F controller 206 issues the transaction received from the
トランザクションコントローラ201は、トランザクションとリード・ライトデータ、そしてACKとNACKの制御を行なう。他ユニットI/Fコントローラ206から、宛先のチップセット110の構成要素がトランザクションもしくはライトデータを受信可能かどうかの情報を入手し、受信可能であればアドレスキュー203に対してトランザクション発行指示を、もしくはデータインキュー205に対してライトデータの発行指示を出す。また、プロセッサバスI/Fコントローラ200から、プロセッサバス103にリードデータ及びACK、NACKを発行出来るか否かの情報を入手し、発行可能であればデータアウトキュー205に対してリードデータ及びACK、NACKの発行指示を出す。データアウトキュー205に対してリードデータ及びACK、NACKの発行指示を出した際にトランザクションコントローラ201は、チップセット110内でのトランザクション処理が完了したと判断し、アドレスキュー203のバリッドビット301を“0”に更新し、アドレスキュー203及びデータインキュー204、データアウトキュー205に格納したトランザクション情報の無効化を行なう。エントリの無効化に際してバリッドビットのみ更新する理由は、トランザクション処理が完了したトランザクションの情報を見ることができるようにするためである。
The transaction controller 201 controls transactions, read / write data, and ACK and NACK. Information on whether or not the component of the
もう1つのトランザクションコントローラ201の機能は、アドレスキュー203のトランザクション処理状態を示すステータス305〜307を更新する事である。アドレスキュー203に対してトランザクション発行指示を出した際は、トランザクションコントローラ201は、発行ステータス305を更新する。また、リードデータ及びACK、NACKをデータアウトキュー205に格納した際は、格納したとの通知をデータアウトキュー205から受信し、受信ステータス306を更新する。もしくは、ライトデータをデータインキュー204に格納した際は、格納したとの通知をデータインキュー204から受信し、受信ステータス306を更新する。そして、データアウトキュー205に対してリードデータ及びACK、NACKの発行指示を出した際は、完了ステータス307を更新する。
Another function of the transaction controller 201 is to update the
トランザクションコントローラ201が検出する障害は、トランザクション処理のタイムアウトである。トランザクションコントローラ201は、アドレスキュー203にトランザクション情報を格納してから無効化するまでの時間を監視し、規定時間を越えてアドレスキュー203にトランザクション情報が有効であり続けた場合、トランザクション処理のタイムアウトが発生したと判断し、トランザクションコントローラ201は、障害通報を障害報告回路207に送信する。本実施例ではトランザクションコントローラ201が検出する障害をタイムアウト障害のみとしたが、実現する計算機システムの仕様に応じて、検出する障害の種類を増やしても良い。
The failure detected by the transaction controller 201 is a transaction processing timeout. The transaction controller 201 monitors the time from when the transaction information is stored in the
障害報告回路207は、プロセッサバスI/Fコントローラ200及びトランザクションコントローラ201、そして他ユニットI/Fコントローラ206からの障害通報を、障害情報通知パス172を介してノード内管理回路104に発行する。
The
管理回路I/Fコントローラ202は、ノード内管理回路104から障害情報採取パス173を介して送られてきたトランザクション情報・処理状態履歴の採取要求を処理する回路である。トランザクション情報・処理状態履歴の採取要求を受けた管理回路I/Fコントローラ202は、アドレスキュー203の全エントリのトランザクション情報・処理状態を読み出し、障害情報採取パス(第2のパス)173を介してノード管理回路104に読み出したトランザクション情報・処理状態を送信する。トランザクション情報・処理状態の採取に使用するパスはトランザクション情報を送るパスとは全く別のパスで実現し、障害が発生しチップセット110のトランザクション処理が止まったとしても、トランザクション情報・処理状態の履歴を管理モジュール150が採取できる事を保証する。
The management circuit I / F controller 202 is a circuit that processes a transaction information / processing state history collection request sent from the
次に、プロセッサバスコントローラ111と同様に、本発明の特徴であるトランザクション情報・処理状態の履歴を記録する回路を持つI/Oコントローラ112の内部構成及び処理内容を、図4を用いて説明する。I/Oコントローラ112は、I/O I/Fコントローラ400、トランザクションコントローラ401、管理回路I/Fコントローラ402、アドレスキュー403、データインキュー404、データアウトキュー405、他ユニットI/Fコントローラ406、障害報告回路407、カウンタ408、他ユニット発I/O要求コントローラ409を備える。
Next, similar to the
他ユニット発I/O要求コントローラ409は、計算機システム内の各プロセッサまたは他ノードにあるPCIデバイスが発行したI/Oリード・ライトを処理する回路である。I/O I/Fコントローラ400からI/Oブリッジ105にI/Oリード・ライト及びライトデータを発行可能との情報を得たら、他ユニット発I/O要求コントローラ409は、I/O I/Fコントローラ400を介して、I/Oブリッジ105にI/Oリード・ライト及びライトデータを発行する。また、他ユニット発I/O要求コントローラ409は、他ユニットI/Fコントローラ406から、宛先のチップセット110の構成要素がリードデータを受信可能かどうかの情報を入手し、受信可能であれば、PCIデバイス106からリードしたリードデータを、他ユニットI/Fコントローラ406を介して、トランザクション発行元であるプロセッサまたはPCIデバイスに対して発行する。I/Oライトの場合は、I/Oライト及びライトデータをI/Oブリッジ105を介してPCIデバイス106に発行した時点で、他ユニット発I/O要求コントローラ409は、トランザクション発行元のプロセッサまたはPCIデバイスに対してACKを発行する。もしI/Oブリッジ105及びPCIバス108、そしてPCIデバイス106において障害が発生し、PCIデバイス106に対してトランザクションまたはライトデータを発行できない場合、I/Oコントローラ112は、トランザクション発行元のプロセッサまたはPCIデバイスに対してNACKを発行する。
The other unit originating I /
I/O I/Fコントローラ400は、I/Oブリッジ105からトランザクション及びライトデータ、計算機システム内の各プロセッサまたは他ノードにあるPCIデバイスが発行したI/Oリードに対するPCIデバイス106からのリードデータを受信、もしくはI/Oブリッジ105にリードデータ及びACK、NACK、そして計算機システム内の各プロセッサまたは他ノードにあるPCIデバイスが発行したI/Oリード・ライト及びライトデータを発行する。そしてトランザクションを受信した場合、I/O I/Fコントローラ400は、アドレスキュー403のトランザクション情報が無効なエントリに、トランザクション情報を格納する。無効なエントリが複数存在した時は、LRU方式でトランザクション情報を格納するようにすると、トランザクション情報を時系列で見ることができるので望ましい。そして、ライトデータをI/Oブリッジ105から受信した場合、I/O I/Fコントローラ400は、データインキュー404にライトデータを格納する。もし無効なエントリがアドレスキュー403に無い場合、I/O I/Fコントローラ400はPCIデバイスがトランザクションまたはライトデータを発行できないように、I/Oブリッジ105の処理を止める。リードデータ及びACK、NACKをデータアウトキュー405から受信した場合は、I/Oブリッジ105にリードデータ及びACK、NACKを発行する。計算機システム内の各プロセッサまたは他ノードにあるPCIデバイスが発行したI/Oリードに対するPCIデバイス106からのリードデータを受信した場合、I/O I/Fコントローラ400は、他ユニット発I/O要求コントローラ409にリードデータを発行する。また、I/O I/Fコントローラ400は、I/Oブリッジ105の状態を監視し、I/Oブリッジ105で発生した障害を検知した場合に、障害報告回路407に障害通報を行なう。I/Oブリッジ105で検出する障害の具体例としては、本実施例はPCIバス108を使用しているので、SERRアサート検出、マスタアボート等が挙げられる。
The I / O I /
他ユニットI/Fコントローラ406は、トランザクションの宛先であるチップセット110の各構成要素に対し、アドレスキュー403から受信したトランザクション及びデータインキュー404から受信したライトデータ、計算機システム内の各プロセッサまたは他ノードにあるPCIデバイスが発行したI/Oリードに対するPCIデバイス106からのリードデータを発行する。また、他ユニットI/Fコントローラ406は、トランザクションの宛先であるチップセット110の各構成要素からリードデータ及びACK、NACKを受信した場合、他ユニットI/Fコントローラ406は、データアウトキュー405にリードデータ及びACK、NACKを格納する。そして計算機システム内の各プロセッサまたは他ノードにあるPCIデバイスが発行したI/Oリード・ライト及びライトデータを受信した場合、他ユニット発I/O要求コントローラ409にI/Oリード・ライト及びライトデータを送信する。また、他ユニットI/Fコントローラ406は、チップセット110の構成要素111及び113、114のI/Fを監視し、リードデータ及びACK、NACK受信時に障害を検知した場合は、障害報告回路407に障害通報を行なう。検知する障害の具体例としては、トランザクションの対象アドレスのパリティエラー、リード・ライトデータのECCエラー等が挙げられる。
The other unit I / F controller 406 sends the transaction received from the
I/Oコントローラ112の構成要素401〜405、407、408は、プロセッサバスコントローラ111の構成要素201〜205、207、208と全く機能が同じなので説明を省略する。
The
以下に、本実施例において障害を検出した時の障害通報及びトランザクション情報・処理状態履歴採取の流れを説明する。説明のために、ノードA 100のプロセッサバスコントローラ111にあるトランザクションコントローラ201でタイムアウト障害が発生したと仮定する。
トランザクションコントローラ201でタイムアウト障害を検出した時、トランザクションコントローラ201は、障害報告回路207にタイムアウト障害発生を通報する。障害通報を受信した障害報告回路207は、ノード内管理回路104を介して、管理モジュール150に、“ノードA 100のプロセッサバスコントローラ111にあるトランザクションコントローラ201でタイムアウト障害が発生した”と報告する。障害通報を受信した管理モジュール150は、各ノードのノード内管理回路104に、トランザクション情報・処理状態履歴の採取要求を発行する。トランザクション情報・処理状態履歴の採取要求を受信したノード内管理回路104は、管理回路I/Fコントローラ202及び402を介して、アドレスキュー203及び403にある全エントリのトランザクション情報・処理状態を読み出す。そして、読み出したアドレスキュー203及び403のトランザクション情報・処理状態履歴を、ノード内管理回路104は、管理モジュール150に送信する。各ノードのノード内管理回路104から、各ノードのアドレスキュー203及び403のトランザクション情報・処理状態履歴を受信した管理モジュール150は、該トランザクション情報・処理状態履歴を、“ノードA 100のプロセッサバスコントローラ111にあるトランザクションコントローラ201でタイムアウト障害が発生した”ことを示す障害通報と共に、管理用コンソール160に送信する。
The flow of failure notification and transaction information / processing state history collection when a failure is detected in this embodiment will be described below. For the sake of explanation, assume that a timeout failure has occurred in the transaction controller 201 in the
When the transaction controller 201 detects a timeout failure, the transaction controller 201 notifies the
計算機システムの管理者は、タイムアウト障害通報と共に送られたトランザクション情報・処理状態履歴を見て、例えば次のように障害部位を特定する。ノードA 100のアドレスキュー203から採取したトランザクション情報・処理状態履歴を見ると、障害発生時に、ノードB 130のPCIデバイス106宛てのI/Oリードに対してのみリードデータ及びNACKが返っていないことが分かったとする。NACKが返っていないので、ノードB 130のI/Oコントローラ112は、PCIデバイスにI/Oリクエストを発行したものと考えられる。この場合は、ノードB 130のPCIデバイス106がリードデータを返さないのがタイムアウト障害の原因であると推測できるので、故障部位としてノードB 130のPCIデバイス106を挙げる事ができる。ただし、ノードB 130のPCIデバイス106がリードデータを発行した後、例えばチップセットの論理不良が原因で、リターンデータがノードB 130のチップセット110内で送信が止まってしまっている場合が考えられる。この場合は、先の推測は誤りとなり、障害部位はノードB 130のチップセット110が正解となる。もし、このような障害部位推測ミスを極力防ぎたいのであれば、記録するトランザクション処理状態の粒度を細かくすればよい。本実施例では、トランザクション発行、リード・ライトデータまたはACK及びNACKの受信、トランザクション処理完了の3つのタイミングでしかトランザクション処理状態を記録していない。そこで、例えばメモリコントローラやI/Oコントローラでトランザクション情報を発行・受信をするタイミングでもトランザクション処理状態を記録するようにすれば、リターンデータの送信状況も詳細に分かるので、障害部位推測ミスを極力防ぐ事が可能である。
The administrator of the computer system refers to the transaction information / processing state history sent together with the timeout failure notification, and specifies the failure site as follows, for example. Looking at the transaction information / processing state history collected from the
以上に説明した通り、上記実施例によれば、計算機システムの管理者は、障害通報と共に、計算機システムにある全チップセット内のトランザクション処理状態履歴を知ることができる。したがって、以下の効果を得ることができる。
(1)計算機システムにある全チップセット内のトランザクション処理状態履歴を知ることができるので、タイムアウト障害発生時にも障害発生時のトランザクション処理状態が分かり、障害部位の特定が可能になる。
(2)タイムアウト障害発生時の障害部位指摘に、市販されているロジックアナライザ等のデジタル信号の観測装置を使用する必要は無く、現象再現の必要がないので、調査に要する時間と労力を抑える事ができる。
(3)プロセッサバスのトレース等、計算機システムの1構成要素を見るのではなく、計算機システムの全チップセット内のトランザクション処理状態を見るので、タイムアウト障害に関係する情報を必ず得る事ができ、障害部位の解析が容易になる。
As described above, according to the above embodiment, the administrator of the computer system can know the transaction processing state history in all the chip sets in the computer system together with the failure notification. Therefore, the following effects can be obtained.
(1) Since the transaction processing state history in all the chip sets in the computer system can be known, the transaction processing state at the time of failure occurrence can be known even when a timeout failure occurs, and the failure part can be specified.
(2) It is not necessary to use a commercially available digital signal observation device such as a logic analyzer to indicate the failure location when a timeout failure occurs, and it is not necessary to reproduce the phenomenon. Can do.
(3) Instead of looking at one component of the computer system, such as tracing the processor bus, the transaction processing status in all chip sets of the computer system is seen, so information related to timeout failures can be obtained without fail. The analysis of the part becomes easy.
100、130…ノードA及びノードB、
101、102…プロセッサ、
103…プロセッサバス、
104…ノード内管理回路、
105…I/Oブリッジ、
106…PCIデバイス、
107…メモリ、
108…PCIバス、
110…チップセット、
111…プロセッサバスコントローラ、
112…I/Oコントローラ、
113…メモリコントローラ、
114…ノード間リンクコントローラ、
140…ノード間リンク、
150…管理モジュール、
160…管理用コンソール、
170…LAN I/F、
171…トランザクションパス、
172…障害情報通知パス、
173…障害情報採取パス、
200…プロセッサバスI/Fコントローラ、
201、401…トランザクションコントローラ、
202、402…管理回路I/Fコントローラ、
203、403…アドレスキュー、
204、404…データインキュー、
205、405…データアウトキュー、
206、406…他ユニットI/Fコントローラ、
207、407…障害報告回路、
208、408…カウンタ、
300…エントリ番号、
301…エントリのバリッドビット、
302…トランザクションの対象アドレス、
303…トランザクションの種別、
304…トランザクションの識別子、
305…トランザクションの発行ステータス、
306…トランザクションの受信ステータス、
307…トランザクションの完了ステータス、
400…I/O I/Fコントローラ、
409…他ユニット発I/O要求コントローラ。
100, 130 ... Node A and Node B,
101, 102 ... processor,
103 ... processor bus,
104: In-node management circuit,
105 ... I / O bridge,
106: PCI device,
107: Memory,
108 ... PCI bus,
110 ... chipset,
111 ... Processor bus controller,
112 ... I / O controller,
113 ... Memory controller,
114: Inter-node link controller,
140 ... inter-node link,
150 ... management module,
160 ... management console,
170 ... LAN I / F,
171 ... Transaction path,
172 ... failure information notification path,
173 ... Fault information collection path,
200: Processor bus I / F controller,
201, 401 ... transaction controller,
202, 402 ... management circuit I / F controller,
203, 403 ... address queue,
204, 404 ... data in queue,
205, 405 ... Data out queue,
206, 406 ... Other unit I / F controller,
207, 407 ... fault reporting circuit,
208, 408 ... counter,
300 ... Entry number,
301 ... Valid bit of entry,
302 ... Target address of transaction,
303 ... Transaction type,
304 ... transaction identifier,
305 ... Transaction issue status,
306 ... Transaction reception status,
307 ... transaction completion status,
400 ... I / O I / F controller,
409 ... I / O request controller originating from another unit.
Claims (3)
前記チップセットは、前記プロセッサもしくは拡張カードが発行した前記メモリに対するアクセスと、前記プロセッサが発行した前記拡張カードに対するアクセスの、当該チップセット内での処理状態を時間情報と共に記録する記録手段を有し、
前記ノードはさらに、他装置からの要求により、前記記録手段に記録されているチップセット内での処理状態と時間情報を第2のパスを介して読み出して、他装置に送信する手段を有することを特徴とする計算機システム。 A first path; a processor and a chipset connected to the first path; a memory and an expansion card connected to the chipset; and the expansion between the processor and the memory and the processor and the expansion by the chipset. In a computer system having a node for controlling information exchange between cards,
The chip set includes a recording unit that records, together with time information, processing status in the chip set of access to the memory issued by the processor or an expansion card and access to the expansion card issued by the processor. ,
The node further includes means for reading out the processing state and time information in the chip set recorded in the recording means via the second path and transmitting to the other apparatus in response to a request from the other apparatus. A computer system characterized by
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007008185A JP2008176477A (en) | 2007-01-17 | 2007-01-17 | Computer system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007008185A JP2008176477A (en) | 2007-01-17 | 2007-01-17 | Computer system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008176477A true JP2008176477A (en) | 2008-07-31 |
Family
ID=39703463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007008185A Pending JP2008176477A (en) | 2007-01-17 | 2007-01-17 | Computer system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008176477A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011197952A (en) * | 2010-03-18 | 2011-10-06 | Ricoh Co Ltd | Information processing apparatus, image forming apparatus, and information processing program |
JP2011248759A (en) * | 2010-05-28 | 2011-12-08 | Nec Computertechno Ltd | Information processing device and execution control method of information processing device |
JP2013186524A (en) * | 2012-03-06 | 2013-09-19 | Nec Computertechno Ltd | Data processing system, data processing method, data processing program, and transaction measuring circuit |
JP2014021908A (en) * | 2012-07-23 | 2014-02-03 | Nec Commun Syst Ltd | Processor access history monitor circuit and processor access history monitoring method |
JP2017058974A (en) * | 2015-09-16 | 2017-03-23 | 株式会社イシダ | Information processing terminal management system |
-
2007
- 2007-01-17 JP JP2007008185A patent/JP2008176477A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011197952A (en) * | 2010-03-18 | 2011-10-06 | Ricoh Co Ltd | Information processing apparatus, image forming apparatus, and information processing program |
US8874959B2 (en) | 2010-03-18 | 2014-10-28 | Ricoh Company, Limited | Information processing apparatus, image forming apparatus, and information processing program |
JP2011248759A (en) * | 2010-05-28 | 2011-12-08 | Nec Computertechno Ltd | Information processing device and execution control method of information processing device |
JP2013186524A (en) * | 2012-03-06 | 2013-09-19 | Nec Computertechno Ltd | Data processing system, data processing method, data processing program, and transaction measuring circuit |
JP2014021908A (en) * | 2012-07-23 | 2014-02-03 | Nec Commun Syst Ltd | Processor access history monitor circuit and processor access history monitoring method |
JP2017058974A (en) * | 2015-09-16 | 2017-03-23 | 株式会社イシダ | Information processing terminal management system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6311296B1 (en) | Bus management card for use in a system for bus monitoring | |
CN102246155B (en) | Error detection in a multi-processor data processing system | |
US6829729B2 (en) | Method and system for fault isolation methodology for I/O unrecoverable, uncorrectable error | |
US20040210800A1 (en) | Error management | |
US20080082866A1 (en) | Method and apparatus for isolating bus failure | |
US7917664B2 (en) | Storage apparatus, storage apparatus control method, and recording medium of storage apparatus control program | |
JPH10334043A (en) | Separation of pci and eisa by control and masking of interruption line | |
JP2003162447A (en) | Error recovery | |
JP2007128437A (en) | Disk array device and path fault detection method thereof | |
CN106815119A (en) | The hardware monitoring device of server | |
US7406632B2 (en) | Error reporting network in multiprocessor computer | |
KR101498452B1 (en) | Debugging complex multi-core and multi-socket systems | |
JP2008176477A (en) | Computer system | |
JPH086910A (en) | Cluster type computer system | |
TW201502771A (en) | System and method for managing mainboard based on baseboard management controller | |
US7363531B2 (en) | Data synchronization for system controllers | |
CN112650612A (en) | Memory fault positioning method and device | |
CN114579392A (en) | AXI bus monitor for write transactions | |
JP4644720B2 (en) | Control method, information processing apparatus, and storage system | |
US10581555B2 (en) | Information processing device and burst error reproducing method | |
JP4299634B2 (en) | Information processing apparatus and clock abnormality detection program for information processing apparatus | |
TWI756007B (en) | Method and apparatus for performing high availability management of all flash array server | |
JP3838992B2 (en) | Fault detection method and information processing system | |
US6581121B1 (en) | Maintenance link system and method | |
US20140173365A1 (en) | Semiconductor apparatus, management apparatus, and data processing apparatus |