JP2003022222A - Information processor and its maintenance method - Google Patents

Information processor and its maintenance method

Info

Publication number
JP2003022222A
JP2003022222A JP2001205571A JP2001205571A JP2003022222A JP 2003022222 A JP2003022222 A JP 2003022222A JP 2001205571 A JP2001205571 A JP 2001205571A JP 2001205571 A JP2001205571 A JP 2001205571A JP 2003022222 A JP2003022222 A JP 2003022222A
Authority
JP
Japan
Prior art keywords
error
bus
pci
signal
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2001205571A
Other languages
Japanese (ja)
Inventor
Yuji Fujiwara
勇治 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001205571A priority Critical patent/JP2003022222A/en
Publication of JP2003022222A publication Critical patent/JP2003022222A/en
Abandoned legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide an information processor capable of specifying a device, in which error is detected on a PCI bus, and improving maintenability accompanying error processing. SOLUTION: In this information processor having a plurality of devices interconnected through buses 60 and 70, the device is provided with a detecting means 230 for detecting an error at the time of executing the transaction of the bus and recoding means 170 and 200 for recording the kind of the error and the information of the device which detect the error as an error event in a recording medium 240 according to the detected result of the detecting means.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、情報処理装置に
係わり、特に、情報処理装置内でエラーが発生した際の
エラーロギング機能を強化し、保守性を向上されたエラ
ーロギング処理に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information processing apparatus, and more particularly, to an error logging process in which an error logging function when an error occurs in the information processing apparatus is strengthened and maintainability is improved.

【0002】[0002]

【従来の技術】近年のPCサーバやワークスステーショ
ンは、マザーボード上にシステムバスとして、32ビッ
トのデータバス幅を有するPCI(Periphera
l Component Interconnect)
とよばれる高速同期型バスを実装している。PCIバス
上のデバイス、または、マザーボード上の拡張スロット
に接続されたPCIバス上のデバイスは、PCIバス上
で発生した事象を処理するように定められている。PC
Iバス上のアドレス・データ信号や制御信号を使って伝
送される情報に誤りが発生していなかを検出する為、P
CIバス上にパリティ線が用意されている。特に、PC
Iデバイスは、PCIバス上でアドレス・パリティエラ
ーまたはデータ・パリティエラーを検出した時、PER
R(Parity Error)信号をPCIバス上に
発行するように定められている。又、PCIデバイス
は、PCIバス上で致命的なシステムエラーを検出した
時、SERR(System Error)信号をPC
Iバス上に出力する。PCI上でPERR信号又はSE
RR信号が検出された場合、PCIバスを管理するデバ
イスは、CPUに対してマスク不可能な割り込み信号
(以下、NMIと称す。)を発生し、SELと呼ばれる
不揮発性メモリにエラー発生の事実のみを記憶してい
た。即ち、PCIバス上でPERR信号が検出した場
合、不揮発性メモリにPERR信号の発生を示すデータ
のみが記憶されていた。又、同様に、PCIバス上でS
ERR信号が検出された場合、不揮発性メモリにSER
R信号の発生を示すデータのみが記憶されていた。保守
要員が、後日、当該不揮発性メモリに記憶された値を読
み出し、どのエラーがどのように発生したかを詳細に解
析していた。
2. Description of the Related Art Recent PC servers and workstations have a PCI (Periphera) having a 32-bit data bus width as a system bus on a motherboard.
l Component Interconnect)
It is equipped with a high-speed synchronous bus called. A device on the PCI bus or a device on the PCI bus connected to an expansion slot on the motherboard is defined to handle events that occur on the PCI bus. PC
In order to detect whether an error has occurred in the information transmitted using the address / data signal or control signal on the I bus, P
A parity line is prepared on the CI bus. Especially PC
When the I-device detects an address parity error or a data parity error on the PCI bus,
It is defined to issue an R (Parity Error) signal on the PCI bus. When the PCI device detects a fatal system error on the PCI bus, the PCI device sends a SERR (System Error) signal to the PC.
Output on I bus. PERR signal or SE on PCI
When the RR signal is detected, the device that manages the PCI bus generates a non-maskable interrupt signal (hereinafter referred to as NMI) to the CPU, and only the fact that an error occurs in the nonvolatile memory called SEL. I remembered. That is, when the PERR signal is detected on the PCI bus, only the data indicating the generation of the PERR signal is stored in the non-volatile memory. Similarly, S on the PCI bus
When the ERR signal is detected, the SER is stored in the nonvolatile memory.
Only the data indicating the generation of the R signal was stored. The maintenance staff later read the value stored in the nonvolatile memory and analyzed in detail what error occurred and how.

【0003】また、特開平11−16420号公報に
は、メモリのパリティエラーやシステムバスで発生した
回復不可能なエラーロギング処理する技術を開示してい
る。この従来技術では、エラーが検出された場合、CP
Uにシステム管理割込み(以下、SMIと称す。)信号
を通知する。SMI信号で起動されるエラー処理ルーチ
ンは、エラーが発生した際のCPUのアドレス値が保持
されたラッチ回路からデータを読み出し、不揮発性メモ
リにエラー発生アドレスを記憶する。保守要員が、後
日、当該不揮発性メモリに記憶された値を読み出し、ど
のエラーがどのように発生したかを詳細に解析してい
た。
Further, Japanese Laid-Open Patent Publication No. 11-16420 discloses a technique for performing a non-recoverable error logging process for a memory parity error or a system bus. In this conventional technique, when an error is detected, the CP
The U is notified of a system management interrupt (hereinafter referred to as SMI) signal. The error processing routine started by the SMI signal reads the data from the latch circuit that holds the address value of the CPU when the error occurs, and stores the error occurrence address in the nonvolatile memory. The maintenance staff later read the value stored in the nonvolatile memory and analyzed in detail what error occurred and how.

【0004】しかしながら、従来技術では、PCIバス
上でエラーが発生した時、エラー発生の事実のみを不揮
発性メモリに記憶する。また、特開平11−16420
号公報のエラーロギング処理は、CPUのアドレス値を
不揮発性メモリに記憶する。従って、保守要員が、どの
デバイスがエラーを発生し、検出したのか特定すること
が困難であった。エラーの発生箇所を特定できなかった
場合、マザーボード全部、又は、拡張スロットに実装さ
れた拡張ボード全部を取り換える必要があった。
However, in the prior art, when an error occurs on the PCI bus, only the fact of the error occurrence is stored in the non-volatile memory. In addition, JP-A-11-16420
In the error logging process of the publication, the address value of the CPU is stored in the non-volatile memory. Therefore, it is difficult for the maintenance personnel to specify which device has generated the error and has detected the error. If the location of the error could not be identified, it was necessary to replace the entire motherboard or the entire expansion board installed in the expansion slot.

【0005】[0005]

【発明が解決しようとする課題】上記した従来技術で
は、システムバス上で発生したエラーの事実程度しか不
揮発性メモリに記憶できていなかったので、どのデバイ
スがエラーを発生したかを分からず、エラーの原因を追
求することができなかったという問題があった。
In the above-mentioned prior art, since only the fact that an error occurred on the system bus can be stored in the non-volatile memory, it is not possible to know which device has generated the error and the error occurs. There was a problem that we could not pursue the cause of.

【0006】そこで、この発明は上記の問題を解決する
ためになされたものであり、本発明の情報処理装置は、
エラーを検出したデバイスを特定し、エラー処理に伴う
保守性の向上を提供することを目的とする。
Therefore, the present invention has been made to solve the above problems, and the information processing apparatus of the present invention is
The purpose of the present invention is to identify the device that has detected an error and to improve the maintainability associated with error processing.

【0007】[0007]

【課題を解決するための手段】この発明は、バスを介し
て接続される複数のデバイスを有する情報処理装置に於
いて、前記デバイスは、バスのトランザクションの際、
エラーを検出する検知手段を具備し、更に、前記検出手
段の検出結果に従い、エラーの種類と共に、エラーを検
出したデバイスの情報をエラーイベントとして記録媒体
に記録する記録手段とを具備したことを特徴とする。
SUMMARY OF THE INVENTION The present invention is an information processing apparatus having a plurality of devices connected via a bus, wherein the devices are:
The recording medium further comprises a detection unit for detecting an error, and further includes a recording unit for recording the information of the device in which the error is detected as an error event on a recording medium according to the detection result of the detection unit. And

【0008】このような構成にするからこそ、エラーを
検出したデバイスを特定し、エラー処理に伴う保守性の
向上することができる。
With such a structure, it is possible to identify the device in which the error is detected and improve the maintainability associated with the error processing.

【0009】また、この発明は、バスを介して接続され
た複数のデバイスを有し、エラーの種類と共に、エラー
を検出したデバイスの情報をエラーイベントとして記録
される記録媒体を有する情報処理装置に於いて、前記記
憶媒体に記録されているエラーイベントを読み出すステ
ップと、前記読み出しステップの読み出し結果に従い、
エラーを検出したデバイスを特定するステップとを具備
したことを特徴とする。
Further, the present invention is directed to an information processing apparatus having a plurality of devices connected via a bus, and having a recording medium in which the information of the device in which an error is detected is recorded as an error event together with the type of error. In the step of reading the error event recorded in the storage medium, and the reading result of the reading step,
And a step of identifying a device that has detected an error.

【0010】このような構成にするからこそ、エラーを
検出したデバイスを特定し、エラー処理に伴う保守性の
向上することができる。
Because of such a configuration, it is possible to identify the device in which the error is detected and improve the maintainability associated with the error processing.

【0011】また、更に、この発明は、バスを介して接
続された複数のデバイスを有する情報処理装置に於い
て、エラーの種類と共に、エラーを検出したデバイスの
情報をエラーイベントとして記録される記録媒体と、前
記記憶媒体に記録されているエラーイベントを読み出す
手段と、前記読み出し手段の読み出し結果に従い、エラ
ーを検出したデバイスを特定する手段とを具備したこと
を特徴とする。
Further, according to the present invention, in an information processing apparatus having a plurality of devices connected via a bus, the type of error and the information of the device in which the error is detected are recorded as an error event. It is characterized by comprising a medium, a unit for reading out an error event recorded in the storage medium, and a unit for specifying a device in which an error is detected according to a reading result of the reading unit.

【0012】このような構成にするからこそ、エラーを
検出したデバイスを特定し、エラー処理に伴う保守性の
向上することができる。
Because of such a configuration, it is possible to identify the device in which the error is detected and improve the maintainability associated with the error processing.

【0013】[0013]

【発明の実施の形態】以下、図面を参照してこの発明の
一実施形態を説明する。
DETAILED DESCRIPTION OF THE INVENTION An embodiment of the present invention will be described below with reference to the drawings.

【0014】図1には、この発明の一実施形態に係わる
情報処理装置の構成が示される。この情報処理装置は、
ワークステーションタイプ、または、サーバタイプのコ
ンピュータシステムであり、そのマザーボード上には、
ホストバス30、PCIバス60、70、メモリバス8
0、システム管理バス(以下、SMバスと称す。)14
0、業界標準アーキテクチャバス(以下、ISAバスと称
す。)150及び内部統合回路バス(以下、I2Cバス
と称す。)250が配線される。
FIG. 1 shows the configuration of an information processing apparatus according to an embodiment of the present invention. This information processing device
A workstation-type or server-type computer system whose motherboard has
Host bus 30, PCI buses 60, 70, memory bus 8
0, system management bus (hereinafter referred to as SM bus) 14
0, an industry standard architecture bus (hereinafter referred to as ISA bus) 150 and an internal integrated circuit bus (hereinafter referred to as I2C bus) 250 are wired.

【0015】このコンピュータ本体内には、CPU1
0、20、CPU−PCIブリッジ装置(以下、ノース
ブリッジと称す。)40、主メモリ50、表示装置9
0、RAID装置100、LAN装置110、カードバ
ス装置120、PCI−ISAブリッジ装置(以下、サウ
スブリッジと称す。)130、各種入出力周辺装置をシ
ステム統合したGA160、BIOS−ROM170、
キーボード装置(以下、KBと称す。)180、フロッ
ピディスクドライブ装置(以下、FDDと称す。)19
0、マザーボード管理コントローラ(以下、BMCと称
す。)200、フィールドリプレイスメントユニット
(以下、FRUと称す)210、センサデータ記憶装置
(以下、SDRと称す。)220、センサ230、システ
ムイベントログ(以下、SELと称す。)240などが
設けられる。
In the main body of the computer, a CPU 1
0, 20, CPU-PCI bridge device (hereinafter referred to as north bridge) 40, main memory 50, display device 9
0, a RAID device 100, a LAN device 110, a card bus device 120, a PCI-ISA bridge device (hereinafter referred to as a south bridge) 130, a GA 160 in which various input / output peripheral devices are system-integrated, a BIOS-ROM 170,
Keyboard device (hereinafter referred to as KB) 180, floppy disk drive device (hereinafter referred to as FDD) 19
0, a motherboard management controller (hereinafter referred to as BMC) 200, a field replacement unit (hereinafter referred to as FRU) 210, a sensor data storage device (hereinafter referred to as SDR) 220, a sensor 230, a system event log (hereinafter referred to as 240) and the like.

【0016】次に、図1のコンピュータ本体に設けられ
た各コンポーネントの機能及びその構成について説明す
る。
Next, the function and configuration of each component provided in the computer main body of FIG. 1 will be described.

【0017】CPU10、20は、例えば、米インテル
社によって製造販売されているマイクロプロセッサなど
によって実現される。このCPU10、20の入出力ピ
ンに直結されているホストバス30は、133Mhzの
バンド幅を有する64ビット幅のデータバスを有する。
更に、CPU10、20は、SMI信号を入力するピン
を有する。
The CPUs 10 and 20 are realized by, for example, microprocessors manufactured and sold by Intel Corporation of the United States. The host bus 30 directly connected to the input / output pins of the CPUs 10 and 20 has a 64-bit width data bus having a bandwidth of 133 Mhz.
Further, the CPUs 10 and 20 have pins for inputting SMI signals.

【0018】主メモリ50は、オペレーティングシステ
ム、デバイスドライバ、実行対象のアプリケーションプ
ログラム及び処理データなどを格納するメモリデバイス
であり、複数のデュアル・インライ・メモリ・モジュー
ル(以下、DIMMと称す。)によって構成される。こ
の主メモリ50は、マザーボード上に予め実装されてい
るシステムメモリと、ユーザによって必要に応じて装着
される拡張メモリとから構成される。これらシステムメ
モリ及び拡張メモリを構成するDIMMとしては、シン
クロナスDRAMやRambusなど、バンク毎にメモ
リクロックの供給が必要な高速メモリが利用される。
The main memory 50 is a memory device that stores an operating system, a device driver, an application program to be executed, processing data, etc., and is composed of a plurality of dual in-memory modules (hereinafter referred to as DIMMs). To be done. The main memory 50 is composed of a system memory mounted on the motherboard in advance and an expansion memory mounted by the user as needed. As the DIMMs forming the system memory and the extended memory, a high-speed memory such as a synchronous DRAM or a Rambus that needs to be supplied with a memory clock for each bank is used.

【0019】この主メモリ50は、133Mhzのバン
ド幅を有する64ビット幅のデータバスを有する専用の
メモリバス80を介してノースブリッジ40に接続され
る。メモリバス80のデータバスとしては、ホストバス
30のデータバスを利用することも出来る。この場合、
メモリバス80は、アドレスバスと各種メモリ制御信号
線とから構成される。
The main memory 50 is connected to the north bridge 40 via a dedicated memory bus 80 having a 64-bit data bus having a bandwidth of 133 Mhz. The data bus of the host bus 30 can also be used as the data bus of the memory bus 80. in this case,
The memory bus 80 is composed of an address bus and various memory control signal lines.

【0020】ノースブリッジ40は、ホストバス30と
二つのPCIバス60、70との間を繋ぐブリッジLS
Iであり、PCIバス60、70のバスマスタの1つと
して機能する。このノースブリッジ40は、PCIバ6
0、70に接続されたデバイス間のバス調停回路、ホス
トバス40とPCIバス60、70との間で、データ及
びアドレスを含むバスサイクルを双方向で変換する機能
及びメモリバス80を介して主メモリ50をアクセス制
御する機能などを有する。
The north bridge 40 is a bridge LS that connects the host bus 30 and the two PCI buses 60 and 70.
I, and functions as one of the bus masters of the PCI buses 60 and 70. This north bridge 40 is a PCI bus 6.
0 and 70, a bus arbitration circuit between devices, a function of bidirectionally converting a bus cycle including data and an address between the host bus 40 and the PCI buses 60 and 70, and a main memory bus 80. It has a function of controlling access to the memory 50.

【0021】PCIバス60、70はクロック同期型の
入出力バスであり、PCIバス60、70上の全てのバ
スサイクルはバスクロックに同期して行われる。PCI
バスクロックの周波数は、最大33MHzである。PC
Iバス60、70は、時分割的に使用されるアドレス/
データバスを有している。このアドレス/データバス
は、32ビット幅である。
The PCI buses 60 and 70 are clock synchronous type input / output buses, and all bus cycles on the PCI buses 60 and 70 are performed in synchronization with the bus clock. PCI
The maximum frequency of the bus clock is 33 MHz. PC
The I buses 60 and 70 are addresses / time-divisionally used.
It has a data bus. This address / data bus is 32 bits wide.

【0022】1998年12月18日、発行のPCI規
格書Rev2.2に従えば、PCIバス60、70上の
PCIデバイス(イニシエータとターゲット)間のデー
タ転送サイクルは、アドレスフェーズとそれに後続する
1以上のデータフェーズとから構成される。アドレスフ
ェーズに於いては、アドレス及び転送タイプが出力さ
れ、データフェーズでは8ビット、16ビット、24ビ
ットまたは32ビットのデータが出力される。
According to the PCI standard Rev. 2.2 issued on December 18, 1998, the data transfer cycle between the PCI devices (initiator and target) on the PCI buses 60 and 70 is the address phase and the subsequent 1 It consists of the above data phases. In the address phase, the address and transfer type are output, and in the data phase, 8-bit, 16-bit, 24-bit or 32-bit data is output.

【0023】PCIバス60に接続された表示装置90
は、ビデオメモリ(以下、VRAMと称す。)を内蔵
し、主メモリ50に展開された画像データをVRAMに
格納し、該画像データを図示しないLCDや外部のCR
Tディスプレイに表示する。
Display device 90 connected to PCI bus 60
Includes a video memory (hereinafter referred to as VRAM), stores the image data expanded in the main memory 50 in the VRAM, and stores the image data in an LCD (not shown) or an external CR.
Display on the T display.

【0024】PCIバス60に接続されたRAID装置
100は、アレイ状に構成された複数のハードディスク
ドライブ(以下、HDDと称す。)を制御するRAID
コントローラを内蔵する。RAIDコントローラは、H
DDの故障対策として、元のデータを修復するための冗
長情報をアレイを構成するHDDに記憶する。更に、R
AID装置100は、コンピュータシステムのオペレー
ティングシステムやアプリケーションプログラム及びデ
ータを記憶する。
The RAID device 100 connected to the PCI bus 60 is a RAID that controls a plurality of hard disk drives (hereinafter referred to as HDDs) arranged in an array.
Built-in controller. RAID controller is H
As a measure against a DD failure, redundant information for restoring the original data is stored in the HDD forming the array. Furthermore, R
The AID device 100 stores an operating system of a computer system, application programs, and data.

【0025】PCIバス70に接続されたLAN装置1
10は、パケットデータを10Mbps/100Mpb
sの非同期データ転送を制御する。LAN装置110
は、図示しないRJ45接続口を介して外部LAN回線
に接続される。
LAN device 1 connected to PCI bus 70
10 indicates packet data of 10 Mbps / 100 Mbps
Control the asynchronous data transfer of s. LAN device 110
Is connected to an external LAN line via an RJ45 connection port (not shown).

【0026】PCIバス70に接続されたカードバス装
置120は、図示しないPCカードを挿抜する為、複数
のスロットを有し、PCカードの各種設定やPCIバス
70とPCカード間のデータ転送の為のインタータフェ
ースとして機能する。
The card bus device 120 connected to the PCI bus 70 has a plurality of slots for inserting and removing a PC card (not shown), and for various settings of the PC card and data transfer between the PCI bus 70 and the PC card. Function as an interface.

【0027】サウスブリッジ130は、PCIバス60
とSMバス140とISAバス150との間を繋ぐブリ
ッジLSIである。このサウスブリッジ130には、S
Mバス140とISAバス150が接続され、各種バス
間のインターフェースとして機能する。また、サウスブ
リッジ130は、PCIバス60、70上のPERR信
号やSERR信号の検出に伴ない、SMI信号をCPU
10、20に発行する回路を内蔵する。
The south bridge 130 is a PCI bus 60.
Is a bridge LSI that connects the SM bus 140 and the ISA bus 150. This South Bridge 130 has S
The M bus 140 and the ISA bus 150 are connected and function as an interface between various buses. In addition, the south bridge 130 sends the SMI signal to the CPU upon detection of the PERR signal or the SERR signal on the PCI buses 60 and 70.
It has a built-in circuit for issuing to 10 and 20.

【0028】ISAバス150には、KBCやFDC等
の各種入出力回路をインテグレーションされたGA16
0や、この発明の一実施形態であるエラーロギング処理
プログラムやコンピュータのコンフィグレーション設定
のためのプログラムが格納されるBIOS−ROM17
0が接続される。KBCは、データ入力の為のKB18
0の制御を実行する。FDD190には、この発明の一
実施形態である保守ツールプログラムが格納されたFD
が装填可能である。
The ISA bus 150 has a GA 16 integrated with various input / output circuits such as KBC and FDC.
0, and the BIOS-ROM 17 in which the error logging processing program according to the embodiment of the present invention and the program for setting the computer configuration are stored.
0 is connected. KBC is KB18 for data input
The control of 0 is executed. The FDD 190 stores an FD that stores a maintenance tool program according to an embodiment of the present invention.
Can be loaded.

【0029】SMバス140は、クロック信号とデータ
/アドレス線を有するシリアルバスであり、BMC20
0に接続される。サウスブリッジ130は、BIOS−
ROM180に記録されたエラー処理プログラムの制御
の下、SMバス140を介して、BMC200との間で
通信を実行し、PCIバス60、70上で発生したエラ
ー情報をBMC200に通知する。1999年11月1
5日発行のインテリジェント・プットフォーム・マネー
ジメント・インターフェース規格書(以下、IPMIと
称す。)Rev.1.1には、BMC200へのアクセ
ス方法(プロトコル)が開示される。この発明の一実施
形態であるエラーロギング処理の実行は、後程、詳細に
説明する。更に、I2Cバス250に接続されたBMC
200は、SMバス140とI2Cバスとの間のインタ
ーフェースとして機能する。
The SM bus 140 is a serial bus having a clock signal and a data / address line, and is a BMC 20.
Connected to 0. The south bridge 130 is a BIOS-
Under the control of the error processing program recorded in the ROM 180, communication is performed with the BMC 200 via the SM bus 140, and the BMC 200 is notified of error information generated on the PCI buses 60 and 70. November 1, 1999
Intelligent Putform Management Interface Standards (hereinafter referred to as IPMI) Rev. 5 issued 1.1 discloses a method (protocol) for accessing the BMC 200. The execution of the error logging process, which is an embodiment of the present invention, will be described in detail later. In addition, the BMC connected to the I2C bus 250
The 200 functions as an interface between the SM bus 140 and the I2C bus.

【0030】I2Cバス250は、1本のクロック信号
線と1本のデータ線から構成される双方向バスであり、
FRU210、SDR220、センサ230、及びSE
L240に接続される。
The I2C bus 250 is a bidirectional bus composed of one clock signal line and one data line,
FRU210, SDR220, sensor 230, and SE
It is connected to L240.

【0031】FRU210は、シリアルバス接続タイプ
のEEPROMであり、コンピュータを構成する各モジ
ュールの情報(マザーボードや各種デバイスの種類)を
記述する為、メーカ番号やシリアル番号等のベンダID
とデバイスIDを表す情報が製造時記憶される。この発
明の一実施形態である保守ツールプログラムの実行時、
FRU210に格納されたシリアル番号を参照し、PC
Iバス60、70上の故障デバイスを特定する。
The FRU 210 is a serial bus connection type EEPROM, and in order to describe information (types of mother board and various devices) of each module constituting the computer, a vendor ID such as a maker number and a serial number.
Information indicating the device ID is stored at the time of manufacture. When the maintenance tool program according to the embodiment of the present invention is executed,
Referring to the serial number stored in FRU210, PC
Identify the failing device on the I-bus 60, 70.

【0032】SDR220は、シリアルバス接続タイプ
のEEPROMであり、BMC220が管理しているセ
ンサの種類(温度、電圧等)や、異常を識別する為の閾
値などが製造時記憶される。
The SDR 220 is a serial bus connection type EEPROM, and stores the types of sensors (temperature, voltage, etc.) managed by the BMC 220, threshold values for identifying abnormalities, and the like during manufacturing.

【0033】センサ230は、マザーボード上の電圧回
路からの出力電圧(±12、±5、+3.3等)、PC
Iバス60、70上で発行されたSERR信号/PER
R信号の発行やCPU等の温度を監視する。このセンサ
230は、BMC200により、所定間隔でポーリング
される。
The sensor 230 is an output voltage (± 12, ± 5, +3.3, etc.) from the voltage circuit on the motherboard, PC
SERR signal / PER issued on I-bus 60, 70
Issuance of R signal and temperature of CPU etc. are monitored. The sensor 230 is polled by the BMC 200 at predetermined intervals.

【0034】SEL240は、シリアルバスタイプのE
EPROMであり、BMC200により、マザーボード
上で異常を検出した場合、又は、センサ230で閾値を
超えるエラーを検出した場合、エラー情報が記憶され
る。
The SEL 240 is a serial bus type E
It is an EPROM and stores error information when the BMC 200 detects an abnormality on the motherboard or when the sensor 230 detects an error exceeding a threshold value.

【0035】この発明の一実施形態として、PCIバス
上のデバイスは、ノースブリッジ40、表示装置90、
RAID装置100、LAN装置110、カードバス装
置120、及びサウスブリッジ130である。各PCI
デバイスに共通の機能を以下の通りに説明する。
As one embodiment of the present invention, the devices on the PCI bus are the north bridge 40, the display device 90,
The RAID device 100, the LAN device 110, the card bus device 120, and the south bridge 130. Each PCI
Functions common to the devices are described as follows.

【0036】各PCIデバイスは、デバイス識別レジス
タ及びステータスレジスタ等のコンフィグレーションレ
ジスタを内蔵し、当該レジスタをアクセスするためのコ
ンフィグレーション空間が256バイトほど設けられ
る。デバイス識別レジスタは、コンフィグレーション空
間のアドレス00hexと02hexに配置され、ベン
ダIDとデバイスIDの値を格納する。ベンダIDと
は、PCIデバイスの製造メーカ示す。デバイスID
は、ベンダIDで指定されるメーカが製造したPCIデ
バイス同士を識別する。当該ステータスレジスタは、コ
ンフィグレーション空間のアドレス06hexに配置さ
れ、PCIバス上で発生した事象を記録する為に使用さ
れる。PCIバス上で回復不可能なシステムエラーが検
出されて、PCIデバイスがSERR信号を出力した
時、当該ステータスレジスタのビット14の値を1にセ
ットする。PCIデバイスがデータパリティ又はアドレ
スパリティエラーを検出した時、当該ステータスラスレ
ジスタのビット15の値を1にセットする。
Each PCI device contains a configuration register such as a device identification register and a status register, and a configuration space for accessing the register is provided with about 256 bytes. The device identification register is arranged at addresses 00hex and 02hex in the configuration space and stores the values of the vendor ID and the device ID. The vendor ID indicates the manufacturer of the PCI device. Device ID
Identifies PCI devices manufactured by the manufacturer specified by the vendor ID. The status register is located at address 06hex in the configuration space and is used to record the event that occurred on the PCI bus. When an unrecoverable system error is detected on the PCI bus and the PCI device outputs the SERR signal, the value of bit 14 of the status register is set to 1. When the PCI device detects a data parity or address parity error, it sets the value of bit 15 of the status register to 1.

【0037】更に、PCIデバイスは、コンフィグレー
ション空間の04hexにコマンドレジスタを配置す
る。このコマンドレジスタのビット6は、パリティエラ
ー応答と呼ばれ、パリティ・エラーが発生した時のデバ
イスの動作を制御する。このコマンドレジスタのビット
6の値が1の時、PCIデバイスはデータ又はアドレス
パリティエラーに応答して、PERR信号をPCIバス
上に発行する。このコマンドレジスタのビット8は、S
ERRイネーブルと呼ばれ、PCIデバイスがSERR
信号をドライブするかどうかを制御する。このコマンド
レジスタのビット8の値が1の時、SERR信号発生の
ための駆動が許可される。
Further, the PCI device arranges a command register at 04hex in the configuration space. Bit 6 of this command register, called the Parity Error Response, controls the operation of the device when a parity error occurs. When the value of bit 6 of this command register is 1, the PCI device issues a PERR signal on the PCI bus in response to a data or address parity error. Bit 8 of this command register is S
Called ERR enable, the PCI device is
Controls whether to drive the signal. When the value of bit 8 of this command register is 1, the driving for generating the SERR signal is permitted.

【0038】PCIデバイス(イニシエータとターゲッ
ト)は、トランザクションのデータフェーズにおけるパ
リティ線を検査する。PCIバス上のトランザクション
のライト・サイクルで、ターゲットがデータ・パリティ
エラーを検知した場合、ステータスレジスタのパリティ
エラー検出ビットの値を1にセットする。コマンドレジ
スタのパリティエラー応答ビットの値が1にセットされ
ていた場合、ターゲットは、当該サイクルでPERR信
号を発行する。当該サイクルのイニシエータは、ターゲ
ットがPERR信号を発行しているのを検知した場合、
ステータスレジスタのデータパリティエラー検知ビット
をセットする。また、イニシエータがPCIバス上のト
ランザクションのリード・サイクルでデータ・パリティ
エラーを検知した場合、イニシエータはPERR信号を
発行する。イニシエータは、ステータスレジスタのデー
タパリティエラー検知ビットをセットする。
The PCI devices (initiator and target) check the parity line in the data phase of the transaction. In the write cycle of a transaction on the PCI bus, if the target detects a data parity error, the value of the parity error detection bit in the status register is set to 1. When the value of the parity error response bit of the command register is set to 1, the target issues the PERR signal in the cycle. When the initiator of the cycle detects that the target issues the PERR signal,
Set the data parity error detection bit in the status register. Also, if the initiator detects a data parity error in a read cycle of a transaction on the PCI bus, the initiator issues a PERR signal. The initiator sets the data parity error detection bit in the status register.

【0039】また、PCIデバイス(イニシエータとタ
ーゲット)は、トランザクションのアドレスフェーズに
おけるパリティ線も検査する。アドレス・パリティエラ
ーを検出したPCIデバイスは、データパリティエラー
の場合と同様に、必ずパリティエラー検出ビットの値を
1にセットする。コマンドレジスタのSERR信号イネ
ーブルビットとパリティエラー応答ビットが両方ともセ
ットされていた場合、PCIデバイスはSERR信号を
PCIバス上に発行する。
The PCI devices (initiator and target) also check the parity line in the address phase of the transaction. The PCI device that has detected the address / parity error always sets the value of the parity error detection bit to 1 as in the case of the data parity error. The PCI device issues a SERR signal on the PCI bus if both the SERR signal enable bit and the parity error response bit in the command register are set.

【0040】更に、PCIデバイスは、何らかのエラー
を検出し、そのエラーがコンピュータシステムにとって
致命的であったと判断した場合、あるいは、他の方法で
は、システムへのエラー通知やエラーの回復処理ができ
ないと判断した場合、当該PCIデバイスはSERR信
号をPCIバス上に発行する。SERR信号を出力した
場合、PCIデバイスは、必ず、ステータスレジスタの
システム通知ビットの値を1にセットする。
Furthermore, if the PCI device detects some kind of error and determines that the error is fatal to the computer system, or if another method cannot notify the system of the error or recover the error. If so, the PCI device issues a SERR signal on the PCI bus. When outputting the SERR signal, the PCI device always sets the value of the system notification bit of the status register to 1.

【0041】次に、ノースブリッジ40は、CPU1
0、20による各PCIデバイスのコンフィグレーショ
ンレジスタをアクセスするために、コンフィグレーショ
ンサイクル発生回路を内蔵する。CPU10、20が、
コンフィグレーションレジスタにアクセスする時、バス
番号、デバイス番号、機能番号、レジスタ番号の4段階
のアドレス指定をコンフィグレーションアドレスレジス
タに設定する。バス番号とは、PCIバスの番号を示
す。デバイス番号とは、一つのバス番号上で指定される
デバイスの番号を示す。機能番号とは、一つのデバイス
に含まれる、すなわち、多機能デバイスに含まれるここ
の機能を識別する為に使用される。レジスタ番号とは、
一つの機能に割り当てられるコンフィグレーション空間
のアドレス番地を指定する為に使用される。
Next, the north bridge 40 has the CPU 1
A configuration cycle generating circuit is built in for accessing the configuration register of each PCI device by 0 and 20. CPU10,20
When accessing the configuration register, four levels of address designation of bus number, device number, function number, and register number are set in the configuration address register. The bus number indicates the PCI bus number. The device number indicates the device number designated on one bus number. The function number is used to identify the function included in one device, that is, included in the multi-function device. What is a register number?
It is used to specify the address address of the configuration space assigned to one function.

【0042】この発明の一実施形態に於いて、図2に示
される通り、ノースブリッジ40のバス番号、デバイス
番号、機能番号は、夫々、「0、0、0」である。サウ
スブリッジ130のバス番号、デバイス番号、機能番号
は、夫々、「0、1、0」である。表示装置90のバス
番号、デバイス番号、機能番号は、夫々、「0、2、
0」である。RAID装置100のバス番号、デバイス
番号、機能番号は、夫々、「0、3、0」である。カー
ドバス装置120のバス番号、デバイス番号、機能番号
は、夫々、「1、1、0」である。LAN装置110の
バス番号、デバイス番号、機能番号は、夫々、「1、
2、0」である。
In one embodiment of the present invention, as shown in FIG. 2, the bus number, device number, and function number of the north bridge 40 are "0, 0, 0", respectively. The bus number, device number, and function number of the south bridge 130 are "0, 1, 0", respectively. The bus number, device number, and function number of the display device 90 are “0, 2,
It is 0 ". The bus number, device number, and function number of the RAID device 100 are “0, 3, 0”, respectively. The bus number, device number, and function number of the card bus device 120 are “1, 1, 0”, respectively. The bus number, device number, and function number of the LAN device 110 are “1,
2, 0 ".

【0043】更に、ノースブリッジ40のコンフィグレ
ーションアドレスレジスタは、ダブルワードのレジスタ
であり、CPU10、20がI/Oアドレス空間の0C
F8hexに対してダブルワードのI/Oリード又はI
/Oライトを実行した場合、当該レジスタに対してリー
ド又はライトとして処理される。
Further, the configuration address register of the north bridge 40 is a double word register, and the CPUs 10 and 20 are 0C of the I / O address space.
Double word I / O read or I to F8hex
When the / O write is executed, the register is processed as a read or a write.

【0044】また、ノースブリッジ40は、コンフィグ
レーションデータレジスタを内蔵する。コンフィグレー
ションレジスタは、ダブルワードのレジスタであり、I
/Oアドレス空間の「0CFC hex」に配置され、
CPUからのコンフィグレーションアドレスレジスタで
指定されたアドレス番地のデータレジスタにリード又は
ライトアクセスを実行する。この発明の一実施形態に於
いては、データレジスタとして、ステータスレジスタで
あり、CPU10、20によりリードアクセスされる。
The north bridge 40 also contains a configuration data register. The configuration register is a double word register
Located in the "0CFC hex" of the / O address space,
Read or write access is performed to the data register at the address specified by the configuration address register from the CPU. In one embodiment of the present invention, the data register is a status register, which is read-accessed by the CPUs 10 and 20.

【0045】図3は、本願発明の一実施形態であるSE
L240の記録フォーマットを示す。SEL240は、
BMC200により、イベント毎に、所定番地に所定情
報が書込まれる。SEL240の記録フォーマットは、
エントリ(通し)番号と共に、当該情報を記憶したデバ
イス、時間、イベントデータ1としてのSERR信号/
PERR信号の発生を示す情報が所定番地に書込まれ
る。この発明の一実施形態に於いては、更に、バス番
号、ファンクション番号、デバイス番号を示す情報を書
込む為、SEL240のフォーマットのリザーブ番地に
イベントデータ2を用意する。
FIG. 3 shows an SE according to an embodiment of the present invention.
The recording format of L240 is shown. SEL240 is
The BMC 200 writes predetermined information in a predetermined address for each event. The recording format of SEL240 is
Along with the entry (serial) number, the device that stored the information, the time, and the SERR signal as event data 1 /
Information indicating the generation of the PERR signal is written at a predetermined address. In one embodiment of the present invention, event data 2 is prepared at the reserved address of the SEL 240 format in order to further write information indicating the bus number, function number and device number.

【0046】図4は、この発明の一実施形態に係わるエ
ラーロギング処理を示す。
FIG. 4 shows an error logging process according to the embodiment of the present invention.

【0047】次に、図4を参照して、BIOS―ROM
170に格納され、SERR信号/PERR信号の発生
時のSEL240へのエラーイベントを書き込む処理を
以下の通りに説明する。
Next, referring to FIG. 4, a BIOS-ROM
The process of writing the error event stored in 170 and writing to the SEL 240 when the SERR signal / PERR signal is generated will be described as follows.

【0048】センサ230は、PCIバス60、70上
のPCIデバイスが発行したSERR信号/PERR信
号を検出する。センサ230は、SERR信号/PER
R信号を検出した場合、サウスブリッジ130に対し
て、SMI信号をCPU10、20に出力するように指
示する。サウスブリッジ130は、センサ230からの
指示に従い、CPU10、20に対して、SMI信号を
出力する。CPU10、20が、SMI信号を受信した
場合、CPU10、20の動作モードをシステム管理モ
ード(以下、SMMと称す。)に切り替える。SMMモ
ードへの切り替え後、SMMモード上に配置されたSM
Iハンドラは、BIOS―ROM170に格納されたエ
ラーロギング処理プログラムを起動する。
The sensor 230 detects the SERR signal / PERR signal issued by the PCI device on the PCI buses 60 and 70. The sensor 230 uses the SERR signal / PER
When the R signal is detected, the south bridge 130 is instructed to output the SMI signal to the CPUs 10 and 20. The south bridge 130 outputs an SMI signal to the CPUs 10 and 20 according to an instruction from the sensor 230. When the CPUs 10 and 20 receive the SMI signal, they switch the operation mode of the CPUs 10 and 20 to the system management mode (hereinafter referred to as SMM). SM placed on SMM mode after switching to SMM mode
The I handler activates the error logging processing program stored in the BIOS-ROM 170.

【0049】SMI信号に応答して、起動されたエラー
ロギング処理プログラムは、PCIバス60、70上の
どのデバイスが、SERR信号/PERR信号を出力し
たか、順次、各デバイスのステータスレジスタのビット
14と15の値をチェックする。
In response to the SMI signal, the activated error logging processing program sequentially determines which device on the PCI buses 60, 70 output the SERR signal / PERR signal, bit 14 of the status register of each device. Check the values of 15 and 15.

【0050】先に説明した通り、各PCIデバイスのス
テータスレジスタは、コンフィグレーション空間に配置
されており、ノースブリッジ40のコンフィグレーショ
ンアドレスレジスタにバス番号、デバイス番号、機能番
号、レジスタ番号を指定し、コンフィグレーションデー
タレジスタからPERR信号/SERR信号の発行・検
出を示すビットの有無をチェックする。
As described above, the status register of each PCI device is arranged in the configuration space, and the bus number, device number, function number, and register number are specified in the configuration address register of the north bridge 40, From the configuration data register, it is checked whether or not there is a bit indicating the issue / detection of the PERR signal / SERR signal.

【0051】エラーロギング処理プログラムは、コンフ
ィグレーションアドレスレジスタ内のバス番号、デバイ
ス番号、機能番号、レジスタ番号を夫々「0、0、0、
0」に設定し、検査対象のPCIデバイスに対してI/
Oリードアクセスを実行する(S100)。エラーロギ
ング処理プログラムは、コンフィグレーションデータレ
ジスタを介して読み出されたステータスレジスタのビッ
ト14、15の値をチックする(S110)。
The error logging processing program sets the bus number, device number, function number and register number in the configuration address register to "0, 0, 0,
Set to 0 ”and I / O for the PCI device to be inspected.
O read access is executed (S100). The error logging processing program ticks the values of bits 14 and 15 of the status register read via the configuration data register (S110).

【0052】ステータスレジスタのビット14又は15
の値が1にセットされていると判断された時、即ち、こ
のPCIデバイスがSERR信号/PERR信号を発行
・検出したならば、エラーロギング処理プログラムはB
MC200に対して、図3に示すSEL240のイベン
トデータ1と2にエラーの種類(SERR信号/PER
R信号)、エラーを発行・検出したデバイスのバス番
号、ファンクション番号、デバイス番号を記録するよう
に指示する。BMC200は、当該指示に基づき、エラ
ーイベントとして、SEL240にイベントの通し番
号、センサの種類と時刻等の付加情報を記録する(S1
10のYes→S190)。
Status register bit 14 or 15
When it is determined that the value of is set to 1, that is, when this PCI device issues and detects the SERR signal / PERR signal, the error logging processing program is
In the event data 1 and 2 of the SEL 240 shown in FIG.
R signal), and the bus number, function number, and device number of the device that issued / detected the error. Based on the instruction, the BMC 200 records, as an error event, additional information such as the serial number of the event, the type of sensor and the time in the SEL 240 (S1).
10: Yes → S190).

【0053】一方、S110で、このデバイスがSER
R信号/PERR信号を発行・検出していないと判断さ
れたならば、エラーロギング処理プログラムは機能番号
の値を1だけ増加する(S110のNo→S120)。
エラーロギング処理プログラムは、コンフィグレーショ
ンアドレスレジスタで特定されたアドレスに対して、I
/Oリードアクセスを実行する。
On the other hand, in S110, the device
If it is determined that the R signal / PERR signal is not issued / detected, the error logging processing program increments the value of the function number by 1 (No in S110 → S120).
The error logging processing program sends I address to the address specified by the configuration address register.
/ O Read access is executed.

【0054】I/Oリードアクセスの結果、PCIバス
上で対象デバイスが存在しないと判断されたならば、エ
ラーロギング処理プログラムは機能番号を0に設定し、
デバイス番号の値を1だけ増加する(S130のNo→
S140)。エラーロギング処理プログラムは、コンフ
ィグレーションアドレスレジスタで特定されたアドレス
に対して、I/Oリードアクセスを実行する。
As a result of the I / O read access, if it is determined that the target device does not exist on the PCI bus, the error logging processing program sets the function number to 0,
The value of the device number is incremented by 1 (No in S130 →
S140). The error logging processing program executes I / O read access to the address specified by the configuration address register.

【0055】I/Oリードアクセスの結果、PCIバス
上で対象デバイスが存在しないと判断されたならば、エ
ラーロギング処理プログラムはデバイス番号と機能番号
を0に設定し、バス番号の値を1だけ増加する(S15
0のNo→S160)。エラーロギング処理プログラム
は、コンフィグレーションアドレスレジスタで特定され
たアドレスに対して、I/Oリードアクセスを実行す
る。
If it is determined as a result of the I / O read access that the target device does not exist on the PCI bus, the error logging processing program sets the device number and the function number to 0 and sets the value of the bus number to 1 only. Increase (S15
0 No → S160). The error logging processing program executes I / O read access to the address specified by the configuration address register.

【0056】I/Oリードアクセスの結果、PCIバス
上で対象デバイスが存在しないと判断されたならば、エ
ラーロギング処理プログラムは全てのPCIデバイスを
チェックしたか判断する。全てのPCIデバイスをチェ
ックしていないと判断したならば、エラーロギング処理
プログラムは処理をS120に戻る(S170のNo→
S180のNo→S120)。また、エラーロギング処
理プログラムは、全てのPCIデバイスをチェックした
と判断した時、その処理を終了する(S180のYe
s)。
If it is determined that the target device does not exist on the PCI bus as a result of the I / O read access, the error logging processing program determines whether all PCI devices have been checked. If it is determined that all PCI devices have not been checked, the error logging processing program returns the processing to S120 (No in S170 →
No of S180 → S120). When the error logging processing program determines that all PCI devices have been checked, the processing ends (Yes in S180).
s).

【0057】一方、I/Oリードアクセスの結果、PC
Iバス上で対象デバイスが存在すると判断されたならば
(S130のYes、S150のYes、S170のY
es)、エラーロギング処理プログラムはS110の処
理と同様にPCIデバイスのステータスレジスタのビッ
ト14と15の値をチェックする。PCIデバイスがS
ERR信号/PERR信号を発行・検出していたなら
ば、エラーロギング処理プログラムは、エラーイベント
として、SEL240のイベント1と2にエラーの種類
(SERR信号/PERR信号)、エラーを発行・検出
したデバイスのバス番号、ファンクション番号、デバイ
ス番号を書き込むようにBMC200に指示する(S1
90)。
On the other hand, as a result of the I / O read access, the PC
If it is determined that the target device exists on the I-bus (Yes in S130, Yes in S150, Y in S170).
es), the error logging processing program checks the values of bits 14 and 15 of the status register of the PCI device as in the processing of S110. PCI device is S
If the ERR signal / PERR signal has been issued / detected, the error logging processing program determines the error type (SERR signal / PERR signal) and the device that issued / detected the error in events 1 and 2 of SEL240 as error events. Instruct the BMC 200 to write the bus number, function number, and device number of the device (S1
90).

【0058】図5は、この発明の一実施形態に係わり、
エラーロギング処理プログラムにより、SEL240に
記録されたエラーイベントの一例を示す。特に、RAI
D装置100がSERR信号を発行したエラーイベント
である。
FIG. 5 relates to an embodiment of the present invention,
An example of the error event recorded in SEL240 by the error logging processing program is shown. In particular, RAI
This is an error event in which the D device 100 issues a SERR signal.

【0059】図6は、この発明の一実施形態に係わり、
保守ツールプログラムの処理を示す。
FIG. 6 relates to one embodiment of the present invention,
The processing of a maintenance tool program is shown.

【0060】次に、図5と図6を参照して、SERR信
号を発行したデバイスを特定までの手順を以下に説明す
る。
Next, with reference to FIGS. 5 and 6, the procedure for identifying the device that issued the SERR signal will be described below.

【0061】SERR信号が発行された場合、システム
が回復不可能なエラーが発生したので、通常、コンピュ
ータシステムのOSは処理を停止する。コンピュータシ
ステムのユーザは、保守要員にシステムの回復・修理を
依頼する。保守要員は、持参した保守ツールプログラム
が書き込まれたFDをコンピュータシステムのFDD1
90に装填し、システム電源を投入する。
When the SERR signal is issued, since the system has an unrecoverable error, the OS of the computer system normally stops the processing. A user of a computer system requests maintenance personnel to recover or repair the system. The maintenance staff uses the FDD 1 of the computer system to store the FD in which the maintenance tool program brought in is written.
Load 90 and power on the system.

【0062】保守ツールプログラムは、コンピュータシ
ステムの投入と同時にFDから起動され、コンピュータ
システムの初期化を実行する。起動された保守ツールプ
ログラムは、BMC200に対してSEL240のエラ
ーイベントを読み出すように指示する。BMC200
は、保守ツールプログラムの指示に従って、SEL24
0に記録されたイベントデータを順次読み出し、エラー
ロギング処理によりSEL240に記録されたSERR
信号/PERR信号のイベントのみを取得する。即ち、
BMC200は、読み出されたエントリー(通し番号)
にイベントデータ1にSERR信号/PERR信号の検
出を示すデータ04hex又は005hexが記録され
ているかチェックする(S200)。
The maintenance tool program is started from the FD at the same time when the computer system is turned on and executes the initialization of the computer system. The activated maintenance tool program instructs the BMC 200 to read the error event of the SEL 240. BMC200
SEL24 according to the instructions of the maintenance tool program.
Event data recorded in 0 is sequentially read and SERR recorded in SEL240 by error logging processing.
Only the event of the signal / PERR signal is acquired. That is,
BMC200 reads the entry (serial number)
Then, it is checked whether or not the data 04hex or 005hex indicating the detection of the SERR signal / PERR signal is recorded in the event data 1 (S200).

【0063】もしイベントデータ1にSERR信号/P
ERR信号の検出を示すデータが記録されていないと判
断されたならば、保守ツールプログラムはSEL240
から次のエントリを読み出す(S200のNo→S25
0)。保守ツールプログラムは、読み出されたエントリ
のイベントデータ1にSERR信号/PERR信号の検
出を示すデータか否かチェックスする。
If the event data 1 has a SERR signal / P
If it is determined that the data indicating the detection of the ERR signal is not recorded, the maintenance tool program executes SEL240.
Reads the next entry from (No in S200 → S25
0). The maintenance tool program checks whether the event data 1 of the read entry is data indicating the detection of the SERR signal / PERR signal.

【0064】一方、S200で、イベントデータ1にS
ERR信号/PERR信号の検出を示すデータが記録さ
れていると判断された場合、BMC200は、保守ツー
ルプログラムの指示により、エントリのイベントデータ
2の値を取得し、バス番号、デバイス番号、機能番号を
示すデータを取得する(S210)。この場合、PCI
バス上のSERR信号のエラー発生で、バス番号、デバ
イス番号、機能番号は、夫々、「0、0、0Bhex」
である。
On the other hand, in S200, S is added to the event data 1.
When it is determined that the data indicating the detection of the ERR signal / PERR signal is recorded, the BMC 200 acquires the value of the event data 2 of the entry according to the instruction of the maintenance tool program, and the bus number, the device number, the function number. Is obtained (S210). In this case, PCI
When an error occurs in the SERR signal on the bus, the bus number, device number, and function number are "0, 0, 0Bhex", respectively.
Is.

【0065】次に、保守ツールプログラムは、取得した
バス番号、デバイス番号、機能番号をノースブリッジ4
0のコンフィグレーションアドレスレジスタに設定し、
コンフィグレーションデータレジスタからPCIデバイ
スのベンダIDとデバイスIDのデータを取得する(S
220)。保守ツールプログラムは、取得されたPCI
デバイスのベンダIDとデバイスIDのデータに対する
PCIデバイスの名前を特定する為、FRU210に記
憶された機器構成一覧テーブルからデバイスの名前を取
得する。SERR信号を発行したデバイスの名前が表示
装置90に表示される(S230)。
Next, the maintenance tool program sets the acquired bus number, device number, and function number to the north bridge 4
Set to 0 configuration address register,
Acquire the vendor ID and device ID data of the PCI device from the configuration data register (S
220). The maintenance tool program is the acquired PCI
In order to specify the vendor ID of the device and the name of the PCI device for the data of the device ID, the name of the device is acquired from the device configuration list table stored in the FRU 210. The name of the device that issued the SERR signal is displayed on the display device 90 (S230).

【0066】保守ツールプログラムは、SEL240に
記録された全てのエントリをチェックする迄、S200
〜S230の処理を繰り返す(S240のNo)。最後
のエントリがチェックされた時、保守ツールプログラム
は処理を終了する(S240のYes)。
The maintenance tool program waits until all the entries recorded in SEL240 are checked, until the S200
~ The process of S230 is repeated (No of S240). When the last entry is checked, the maintenance tool program ends the process (Yes in S240).

【0067】この発明のような構成にすることにより、
保守要員は、表示画面に表示されたエラーを発行・検出
したPCIデバイスの名前から、故障したPCIデバイ
スを容易に特定することができる。
By adopting the configuration of the present invention,
The maintenance staff can easily identify the failed PCI device from the name of the PCI device that issued / detected the error displayed on the display screen.

【0068】尚、この発明の実施形態において、センサ
230が、PCIバス60、70上のデバイスが発行し
たSERR信号/PERR信号を検出するように構成さ
れていたが、SERR信号/PERR信号をサウスブリ
ッジ130の割り込み入力(IRQ)端子に接続し、サ
ウスブリッジ130がSERR信号/PERR信号を検
出し、CPU10、20に対してSMI信号を発行する
こともできる。
In the embodiment of the present invention, the sensor 230 is configured to detect the SERR signal / PERR signal issued by the device on the PCI buses 60 and 70. By connecting to the interrupt input (IRQ) terminal of the bridge 130, the south bridge 130 can detect the SERR signal / PERR signal and issue an SMI signal to the CPUs 10 and 20.

【0069】また、この発明の実施形態において、エラ
ーロギング処理の記録としてSEL240を使用してい
たが、RAID装置100のHDD又はFDD190の
FDにエラーロギング処理のエラーイベントの記録とし
て、ファイル形式で記憶させることもできる。
Further, in the embodiment of the present invention, the SEL 240 is used as the record of the error logging process, but it is stored in the HDD of the RAID device 100 or the FD of the FDD 190 as a record of the error event of the error logging process in a file format. You can also let it.

【0070】[0070]

【発明の効果】以上説明したように、この発明によれ
ば、エラーを発生したデバイスまたはエラーを検出した
デバイスを特定し、エラー処理に伴う保守性の向上する
ことができる。
As described above, according to the present invention, the device in which an error has occurred or the device in which an error has been detected can be specified, and the maintainability associated with error processing can be improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明の一実施形態に係わるコンピュータシ
ステムの構成を示すブロック図。
FIG. 1 is a block diagram showing the configuration of a computer system according to an embodiment of the present invention.

【図2】同実施形態に係わるコンピュータシステムの各
PCIデバイスのアドレス番号を示す図。
FIG. 2 is an exemplary view showing an address number of each PCI device of the computer system according to the embodiment.

【図3】同実施形態に係わるSELの記録フォーマット
を示す図。
FIG. 3 is a view showing a recording format of SEL according to the same embodiment.

【図4】同実施形態に係わるエラーロギング処理を示す
フローチャート。
FIG. 4 is a flowchart showing an error logging process according to the same embodiment.

【図5】同実施形態に係わるエラーロギング処理によ
り、SELに記録されたエラー情報を示す図。
FIG. 5 is a diagram showing error information recorded in SEL by the error logging process according to the embodiment.

【図6】同実施形態に係わる保守ツールプログラムの処
理を示すフローチャート
FIG. 6 is a flowchart showing processing of a maintenance tool program according to the same embodiment.

【符号の説明】[Explanation of symbols]

10、20…CPU、30…プロセッサバス、40…ノ
ースブリッジ、50…DIMM、60…PCIバス0、
70…PCIバス1、80…メモリバス、90…表示装
置、100…RAID装置、110…LANコントロー
ラ装置、120…カードバスコントローラ装置、130
…サウスブリッジ、140…SMバス、150…ISA
バス、160…システムI/O、170…BIOS−R
OM、180…キーボード(KB)、190…FDD、
200…BMC、210…FRU、220…SDR、2
30…センサ、240…SEL、250…I2Cバス
10, 20 ... CPU, 30 ... Processor bus, 40 ... Northbridge, 50 ... DIMM, 60 ... PCI bus 0,
70 ... PCI bus 1, 80 ... Memory bus, 90 ... Display device, 100 ... RAID device, 110 ... LAN controller device, 120 ... Card bus controller device, 130
… South Bridge, 140… SM Bus, 150… ISA
Bus, 160 ... System I / O, 170 ... BIOS-R
OM, 180 ... keyboard (KB), 190 ... FDD,
200 ... BMC, 210 ... FRU, 220 ... SDR, 2
30 ... Sensor, 240 ... SEL, 250 ... I2C bus

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 バスを介して接続される複数のデバイス
を有する情報処理装置に於いて、前記デバイスは、バス
のトランザクションの際、エラーを検出する検知手段を
具備し、更に、前記検出手段の検出結果に従い、エラー
の種類と共に、エラーを検出したデバイスの情報をエラ
ーイベントとして記録媒体に記録する記録手段とを具備
したことを特徴とする情報処理装置。
1. An information processing apparatus having a plurality of devices connected via a bus, wherein the device comprises a detection means for detecting an error during a transaction of the bus, and further comprises: An information processing apparatus, comprising: a recording unit that records, as an error event, information of a device in which an error is detected on a recording medium, according to a detection result, together with the type of the error.
【請求項2】 前記デバイスの情報は、少なくともバス
の種類を識別する番号、デバイスの種類を識別する番
号、機能を識別する番号から構成されることを特徴とす
る請求項1記載の情報処理装置。
2. The information processing apparatus according to claim 1, wherein the device information includes at least a number for identifying a bus type, a number for identifying a device type, and a number for identifying a function. .
【請求項3】 バスを介して接続された複数のデバイス
を有し、エラーの種類と共に、エラーを検出したデバイ
スの情報をエラーイベントとして記録される記録媒体を
有する情報処理装置に於いて、前記記憶媒体に記録され
ているエラーイベントを読み出すステップと、前記読み
出しステップの読み出し結果に従い、エラーを検出した
デバイスを特定するステップとを具備したことを特徴と
する情報処理装置の保守方法。
3. An information processing apparatus comprising: a plurality of devices connected via a bus; and a recording medium in which information of a device in which an error has been detected is recorded as an error event together with the type of error. An information processing apparatus maintenance method, comprising: a step of reading an error event recorded in a storage medium; and a step of identifying a device in which an error is detected according to a reading result of the reading step.
【請求項4】 前記エラーイベントを読み出すステップ
は、前記記憶媒体に記録されたエラーを検出したデバイ
スの情報を読み出すことを特徴とする請求項3の情報処
理装置の保守方法。
4. The maintenance method for an information processing apparatus according to claim 3, wherein in the step of reading the error event, information of a device in which an error is detected recorded in the storage medium is read.
【請求項5】 前記特定するステップは、前記読出しス
テップにより、エラーを検出したデバイスの情報に基づ
き、当該デバイスを表示装置に表示することを特徴とす
る請求項4の情報処理装置の保守方法。
5. The maintenance method for an information processing apparatus according to claim 4, wherein the identifying step displays the device on a display device based on the information of the device in which the error is detected in the reading step.
【請求項6】 バスを介して接続された複数のデバイス
を有する情報処理装置に於いて、エラーの種類と共に、
エラーを検出したデバイスの情報をエラーイベントとし
て記録される記録媒体と、前記記憶媒体に記録されてい
るエラーイベントを読み出す手段と、前記読み出し手段
の読み出し結果に従い、エラーを検出したデバイスを特
定する手段とを具備したことを特徴とする情報処理装
置。
6. An information processing apparatus having a plurality of devices connected via a bus, together with the type of error,
A recording medium in which information of a device in which an error is detected is recorded as an error event, a unit for reading out the error event recorded in the storage medium, and a unit for identifying the device in which the error is detected according to the reading result of the reading unit. An information processing apparatus comprising:
【請求項7】 前記読み出し手段は、前記記憶媒体に記
録されたエラーを検出したデバイスの情報を読み出すこ
とを特徴とする請求項6の情報処理装置。
7. The information processing apparatus according to claim 6, wherein the reading unit reads information of a device in which an error is detected, which is recorded in the storage medium.
【請求項8】 前記特定する手段は、エラーを検出した
デバイスの情報に基づき、当該デバイスを表示装置に表
示することを特徴とする請求項7の情報処理装置。
8. The information processing apparatus according to claim 7, wherein the specifying unit displays the device on a display device based on information of the device in which the error is detected.
【請求項9】 前記デバイスの情報は、少なくともバス
の種類を識別する番号、デバイスの種類を識別する番
号、機能を識別する番号から構成されることを特徴とす
る請求項8記載の情報処理装置。
9. The information processing apparatus according to claim 8, wherein the device information includes at least a number for identifying a bus type, a number for identifying a device type, and a number for identifying a function. .
JP2001205571A 2001-07-06 2001-07-06 Information processor and its maintenance method Abandoned JP2003022222A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001205571A JP2003022222A (en) 2001-07-06 2001-07-06 Information processor and its maintenance method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001205571A JP2003022222A (en) 2001-07-06 2001-07-06 Information processor and its maintenance method

Publications (1)

Publication Number Publication Date
JP2003022222A true JP2003022222A (en) 2003-01-24

Family

ID=19041858

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001205571A Abandoned JP2003022222A (en) 2001-07-06 2001-07-06 Information processor and its maintenance method

Country Status (1)

Country Link
JP (1) JP2003022222A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176682A (en) * 2007-01-22 2008-07-31 Renesas Technology Corp Semiconductor integrated circuit and data processing system
US7631226B2 (en) 2004-01-28 2009-12-08 Nec Corporation Computer system, bus controller, and bus fault handling method used in the same computer system and bus controller
JP2010198098A (en) * 2009-02-23 2010-09-09 Nec Corp Information processing apparatus, circuit, method, and program for controlling bus
EP2463778A1 (en) 2010-12-07 2012-06-13 Hitachi, Ltd. Computer system
JP2013120545A (en) * 2011-12-08 2013-06-17 Sharp Corp Image formation apparatus
US9665456B2 (en) 2014-06-19 2017-05-30 Fujitsu Limited Apparatus and method for identifying a cause of an error occurring in a network connecting devices within an information processing apparatus

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7631226B2 (en) 2004-01-28 2009-12-08 Nec Corporation Computer system, bus controller, and bus fault handling method used in the same computer system and bus controller
JP2008176682A (en) * 2007-01-22 2008-07-31 Renesas Technology Corp Semiconductor integrated circuit and data processing system
JP2010198098A (en) * 2009-02-23 2010-09-09 Nec Corp Information processing apparatus, circuit, method, and program for controlling bus
EP2463778A1 (en) 2010-12-07 2012-06-13 Hitachi, Ltd. Computer system
US8726049B2 (en) 2010-12-07 2014-05-13 Hitachi, Ltd. Computer system with a plurality of computer modules and baseboard management controllers, including a state machine that dynamically conducts a switching operation
JP2013120545A (en) * 2011-12-08 2013-06-17 Sharp Corp Image formation apparatus
US9665456B2 (en) 2014-06-19 2017-05-30 Fujitsu Limited Apparatus and method for identifying a cause of an error occurring in a network connecting devices within an information processing apparatus

Similar Documents

Publication Publication Date Title
JP2579435B2 (en) Error detection and recovery mechanism and method in multiple bus system
US7447934B2 (en) System and method for using hot plug configuration for PCI error recovery
US4974150A (en) Fault tolerant digital data processor with improved input/output controller
CN101126995B (en) Method and apparatus for processing serious hardware error
US6065053A (en) System for resetting a server
US7035953B2 (en) Computer system architecture with hot pluggable main memory boards
US7715450B2 (en) Sideband bus setting system and method thereof
US6615374B1 (en) First and next error identification for integrated circuit devices
US20090150721A1 (en) Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System
JPH11161625A (en) Computer system
JP2003022222A (en) Information processor and its maintenance method
US10911259B1 (en) Server with master-slave architecture and method for reading and writing information thereof
JP4299634B2 (en) Information processing apparatus and clock abnormality detection program for information processing apparatus
TWI777628B (en) Computer system, dedicated crash dump hardware device thereof and method of logging error data
JP2007018049A (en) Storage control system
JP2003345669A (en) System and method for preventing memory access error
JP2003256240A (en) Information processor and its failure recovering method
Intel
CN107451028A (en) Error condition storage method and server
TWI832188B (en) Computer system and method implemented in computer system
TWI789983B (en) Power management method and power management device
Hughes et al. BladeCenter processor blades, I/O expansion adapters, and units
JPH11120154A (en) Device and method for access control in computer system
JP2005070993A (en) Device having transfer mode abnormality detection function and storage controller, and interface module for the controller
JPH06214831A (en) Abnormality detector for central processing unit

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050414

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050415

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20060818