JP2006119778A - Information processing system, input/output device, method for use therewith for automatically sending data during system failure, and its program - Google Patents
Information processing system, input/output device, method for use therewith for automatically sending data during system failure, and its program Download PDFInfo
- Publication number
- JP2006119778A JP2006119778A JP2004305050A JP2004305050A JP2006119778A JP 2006119778 A JP2006119778 A JP 2006119778A JP 2004305050 A JP2004305050 A JP 2004305050A JP 2004305050 A JP2004305050 A JP 2004305050A JP 2006119778 A JP2006119778 A JP 2006119778A
- Authority
- JP
- Japan
- Prior art keywords
- message
- information processing
- interrupt
- input
- contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は情報処理入出力システム、入出力装置及びそれに用いるシステム障害時の自動データ送出方法並びにそのプログラムに関し、特に情報処理装置の障害発生時における障害情報の取得方法に関する。 The present invention relates to an information processing input / output system, an input / output device, an automatic data transmission method used in the event of a system failure, and a program thereof, and more particularly to a method for acquiring failure information when a failure occurs in an information processing device.
コンピュータに障害が発生した場合、障害の部位を判定するために有用なデータとして、OS(Operating System)のコンソールメッセージ及びエラーメッセージが存在する。これらのメッセージはメインメモリ上の特定のエリアに格納されている場合が多く、OSは任意のタイミングで格納しているメッセージの出力をI/O(Input/Output:入出力)装置に対して要求し、画面または他のコンピュータを通してメッセージ出力を行う。 When a failure occurs in a computer, there are OS (Operating System) console messages and error messages as useful data for determining the location of the failure. These messages are often stored in a specific area on the main memory, and the OS requests an I / O (Input / Output) device to output the stored message at an arbitrary timing. Message output through a screen or other computer.
特に、中・大型コンピュータにおいては、メッセージを通信回線を通して接続された小型コンピュータに送出し、実際にメッセージを文字列として出力するのが小型コンピュータであるというケースが多い。 In particular, in a medium / large computer, it is often the case that a small computer sends a message to a small computer connected through a communication line and actually outputs the message as a character string.
メインとなるコンピュータに障害が発生した場合、メモリ上のメッセージエリアには出力予定のメッセージが用意されているにもかかわらず、メッセージの送出指示が行われていないケースが頻繁に存在し、障害発生の原因となる動作またはエラーに関するメッセージがコンソール上に出力されていないため、保守の効率が悪化するという問題がある。 When a failure occurs in the main computer, there are frequent cases where a message is not instructed to be sent even though a message scheduled to be output is prepared in the message area on the memory. There is a problem that the efficiency of maintenance deteriorates because the message regarding the operation or error causing the error is not output on the console.
このような場合、中・大型コンピュータでは、診断専用プロセッサからメインメモリ上のメッセージエリアのデータを抜き出し、バイナリデータを解析して最終メッセージを得ることが可能であるシステムが存在する。しかしながら、OSが用意したメッセージエリアの特定及びそのエリアから得られたバイナリデータの解析を行うには、保守員に高いスキルが要求され、すべての保守員にそのスキルがあるとは限らず、結果として専門の解析要員が必要になる。 In such a case, there is a system that can extract the data in the message area on the main memory from the diagnostic-dedicated processor and analyze the binary data to obtain the final message in the medium / large computer. However, in order to specify the message area prepared by the OS and to analyze the binary data obtained from the area, maintenance personnel are required to have high skills, and not all maintenance personnel have the skills. Special analysis personnel are required.
尚、上記のコンピュータシステムにおいては、プラットフォームOSに障害が発生しても、プラットフォームOSを自動的に再起動してアプリケーションにおける処理を自動続行させる方法が提案されている(例えば、特許文献1参照)。 In the above computer system, even if a failure occurs in the platform OS, a method for automatically restarting the platform OS and automatically continuing processing in the application has been proposed (see, for example, Patent Document 1). .
従来、AT(Advanced Technology)バス、PCI(Peripheral Component Interconnect)バス、PCI−Xバス等のコンピュータシステムに搭載されるI/O用バスには、バス上で障害が発生したことを上位装置に通知するための手段が設けられているが、上位装置の障害をバス上に実装された装置に通知する手段は提供されていない。このため、I/Oバス上に実装された装置からはOSの動作停止を的確に判断することが困難である。 Conventionally, an I / O bus mounted on a computer system such as an AT (Advanced Technology) bus, a PCI (Peripheral Component Interconnect) bus, or a PCI-X bus notifies the host device that a fault has occurred on the bus. However, there is no means for notifying a device mounted on the bus of a failure of the host device. For this reason, it is difficult to accurately determine whether the OS has stopped operating from a device mounted on the I / O bus.
また、従来のI/Oバス上に実装された装置は、OSからの指示によって各種動作を行うため、OSが停止した場合、データの通信等の動作が不能になるという問題がある。尚、上記の特許文献1ではこの問題を解決することはできない。
Further, since devices mounted on a conventional I / O bus perform various operations in response to instructions from the OS, there is a problem that operations such as data communication become impossible when the OS stops. Note that the above-mentioned
そこで、本発明の目的は上記の問題点を解消し、既存のOSになんら変更を加えることなく、OSの動作監視を行うことができる情報処理システム、入出力装置及びそれに用いるシステム障害時の自動データ送出方法並びにそのプログラムを提供することにある。 Therefore, an object of the present invention is to solve the above-described problems and to perform an information processing system and an input / output device that can monitor the operation of the OS without making any changes to the existing OS, and an automatic operation in case of a system failure used therefor. The object is to provide a data transmission method and its program.
また、本発明の他の目的は、システム障害発生時でもOSが出力すべく用意した全メッセージの出力が行われ、障害復旧のための情報取得を容易に行うことができる情報処理システム、入出力装置及びそれに用いるシステム障害時の自動データ送出方法並びにそのプログラムを提供することにある。 Another object of the present invention is to provide an information processing system and an input / output system in which all messages prepared for output by the OS can be output even when a system failure occurs, and information for failure recovery can be easily obtained. It is an object to provide an apparatus, an automatic data transmission method used in the event of a system failure, and a program thereof.
本発明による情報処理システムは、障害の部位を判定するために有用なデータとして、OS(Operating System)のコンソールメッセージ及びエラーメッセージをメインメモリに保持する情報処理装置と、前記コンソールメッセージ及びエラーメッセージを出力する入出力装置とを含む情報処理システムであって、
前記入出力装置が、割込み元デバイス及び要因が特定できない空割込みを前記情報処理装置に行って前記OSの動作状態を監視する監視手段を備えている。
The information processing system according to the present invention includes, as data useful for determining the location of a failure, an information processing apparatus that stores an OS (Operating System) console message and an error message in a main memory, and the console message and error message. An information processing system including an input / output device for output,
The input / output device includes monitoring means for monitoring the operating state of the OS by performing an empty interrupt whose interrupt source device and cause cannot be specified to the information processing device.
本発明による他の情報処理システムは、上記の構成のほかに、前記入出力装置が、前記監視手段で前記OSの停止状態を検出した時に前記メインメモリの特定エリアの内容を取得して外部に送出するシステム障害時データ取得手段を具備している。 According to another information processing system of the present invention, in addition to the above configuration, when the input / output device detects a stop state of the OS by the monitoring unit, the content of the specific area of the main memory is acquired to the outside. It has a data acquisition means at the time of system failure to be transmitted.
本発明による入出力装置は、障害の部位を判定するために有用なデータとして情報処理装置のメインメモリに保持されるOS(Operating System)のコンソールメッセージ及びエラーメッセージを出力する入出力装置であって、
割込み元デバイス及び要因が特定できない空割込みを前記情報処理装置に行って前記OSの動作状態を監視する監視手段を備えている。
An input / output device according to the present invention is an input / output device that outputs an OS (Operating System) console message and an error message held in a main memory of an information processing device as useful data for determining a fault site. ,
Monitoring means for monitoring the operating state of the OS by performing an empty interrupt that cannot specify the interrupt source device and the cause to the information processing apparatus.
本発明による他の入出力装置は、上記の構成のほかに、前記監視手段で前記OSの停止状態を検出した時に前記メインメモリの特定エリアの内容を取得して外部に送出するシステム障害時データ取得手段を具備している。 In addition to the above-described configuration, another input / output device according to the present invention acquires the contents of a specific area of the main memory when the monitoring unit detects a stop state of the OS, and transmits the data to the outside when the system is in failure An acquisition means is provided.
本発明によるシステム障害時の自動データ送出方法は、障害の部位を判定するために有用なデータとして、OS(Operating System)のコンソールメッセージ及びエラーメッセージをメインメモリに保持する情報処理装置と、前記コンソールメッセージ及びエラーメッセージを出力する入出力装置とを含む情報処理システムに用いるシステム障害時の自動データ送出方法であって、
前記入出力装置が、割込み元デバイス及び要因が特定できない空割込みを前記情報処理装置に行って前記OSの動作状態を監視する処理を実行している。
An automatic data transmission method in the event of a system failure according to the present invention includes an information processing apparatus that stores an OS (Operating System) console message and an error message in main memory as useful data for determining the location of the failure, and the console An automatic data transmission method in the event of a system failure used in an information processing system including an input / output device that outputs a message and an error message,
The input / output device performs a process of monitoring the operating state of the OS by giving an empty interrupt whose cause cannot be identified to the interrupt source device to the information processing device.
本発明による他のシステム障害時の自動データ送出方法は、上記の処理のほかに、前記入出力装置が、前記OSの動作状態を監視する処理で前記OSの停止状態を検出した時に前記メインメモリの特定エリアの内容を取得して外部に送出する処理を実行している。 According to another aspect of the present invention, there is provided an automatic data transmission method in the event of a system failure, in addition to the above processing, the main memory when the input / output device detects a stopped state of the OS in a process of monitoring the operating state of the OS. The process of acquiring the contents of the specific area and sending it to the outside is executed.
本発明によるシステム障害時の自動データ送出方法のプログラムは、障害の部位を判定するために有用なデータとして、OS(Operating System)のコンソールメッセージ及びエラーメッセージをメインメモリに保持する情報処理装置と、前記コンソールメッセージ及びエラーメッセージを出力する入出力装置とを含む情報処理システムに用いるシステム障害時の自動データ送出方法のプログラムであって、前記入出力装置のコンピュータに、割込み元デバイス及び要因が特定できない空割込みを前記情報処理装置に行って前記OSの動作状態を監視する処理を実行させている。 The program of the automatic data transmission method at the time of a system failure according to the present invention includes an information processing apparatus that stores an OS (Operating System) console message and an error message in main memory as useful data for determining the location of the failure, An automatic data transmission method program for a system failure used in an information processing system including an input / output device that outputs the console message and an error message, and the interrupt source device and the factor cannot be specified in the computer of the input / output device A process for monitoring the operating state of the OS by performing an empty interrupt to the information processing apparatus is executed.
本発明による他のシステム障害時の自動データ送出方法のプログラムは、前記入出力装置のコンピュータに、前記OSの動作状態を監視する処理で前記OSの停止状態を検出した時に前記メインメモリの特定エリアの内容を取得して外部に送出する処理を実行させている。 According to another aspect of the present invention, there is provided a program for a method for automatically sending data when a system failure has occurred. The process of acquiring the contents of and sending them to the outside is executed.
すなわち、本発明の情報処理システムは、I/O(Input/Output:入出力)バスに搭載される通信装置が、OS(Operating System)がHW(ハードウェア)障害またはパニック等の原因によって動作を停止したことを検出するOS alive監視機構と、OSの停止が検出された際にOSの指示なくメモリ上の特定エリアのデータを取得する手段とを持つことを特徴とする。 That is, the information processing system according to the present invention operates when a communication device mounted on an I / O (Input / Output) bus causes an OS (Operating System) to operate due to an HW (hardware) failure or a panic. It is characterized by having an OS alive monitoring mechanism for detecting the stop and a means for acquiring data in a specific area on the memory without an instruction from the OS when the stop of the OS is detected.
OS alive監視機構は、従来のI/Oバスに実装される装置が持つ「割込み」という機構を用いて実現している。通常のI/O装置でも、動作の終了やエラーをOSに通知するため、割込み手段を持っており、I/Oバスは割込みをOSに通知するための手段を提供している。 The OS alive monitoring mechanism is realized by using a mechanism called “interrupt” that a device mounted on a conventional I / O bus has. Even a normal I / O device has an interrupt means for notifying the OS of the end of an operation or an error, and the I / O bus provides means for notifying the OS of an interrupt.
割込みが通知された場合、OSは割込みの要因を検査するためにI/O装置内に存在する「I/O装置の状態を示すレジスタ」にアクセスするのが一般的であるが、本発明の情報処理システムでは、OSが「I/O装置の状態を示すレジスタ」へアクセスしてくることを検出する手段を持ち、割込みに対してOSが応答するかどうかを監視する。OSの応答がない場合、I/O装置はOSが停止したと判定し、OS停止後の動作を開始する。 When an interrupt is notified, the OS generally accesses the “register indicating the status of the I / O device” in the I / O device to check the cause of the interrupt. The information processing system has means for detecting that the OS accesses the “register indicating the state of the I / O device”, and monitors whether the OS responds to an interrupt. If there is no OS response, the I / O device determines that the OS has stopped and starts the operation after the OS stops.
OS停止後の動作については、OSがI/O装置を初期化する際に設定しておくデータと、OS動作中にOSからの指示で動作していた情報とを基に、必要なデータを送出するための回路を装置内に持ち、OS停止判定が行われた際にOS停止後の動作を行う回路を動作させる。 Regarding the operation after the OS is stopped, the necessary data is obtained based on the data set when the OS initializes the I / O device and the information that was operated by the instruction from the OS during the OS operation. A circuit for sending is provided in the apparatus, and when the OS stop determination is made, the circuit that performs the operation after the OS stop is operated.
これによって、本発明の情報処理システムでは、OSが停止したことを検出する機構と、OS停止をきっかけとしてメッセージエリアのデータ出力を自動的に行う機構とを通信装置に持たせることによって、OS停止時に出力されていないメッセージが存在する場合に、そのメッセージを自動的に出力することで、エラー解析の効率を上げることを可能にしている。 Thus, in the information processing system according to the present invention, the communication device has a mechanism for detecting that the OS has stopped and a mechanism for automatically outputting data in the message area triggered by the OS stop. When there is a message that is not output from time to time, it is possible to increase the efficiency of error analysis by automatically outputting the message.
つまり、本発明の情報処理システムでは、上記の機構を用いることによって、システム障害発生時でもOSが出力すべく用意した全メッセージの出力が行われ、障害復旧のための情報取得が容易になる。 That is, in the information processing system of the present invention, by using the above mechanism, all messages prepared for output by the OS are output even when a system failure occurs, and information acquisition for failure recovery is facilitated.
また、本発明の情報処理システムでは、OS alive監視手段によるOSの動作監視について、I/Oの割込みをサポートするOSであれば、既存のOSになんら変更を加えることなく動作が可能であり、上記の通信装置をコンピュータシステムに実装するだけでOSの動作監視を行うことが可能となる。 Further, in the information processing system of the present invention, the OS operation monitoring by the OS alive monitoring means can operate without any change to the existing OS as long as the OS supports an I / O interrupt. It is possible to monitor the operation of the OS simply by mounting the above communication device on the computer system.
本発明の情報処理システムは、以下に述べるような構成及び動作とすることで、既存のOSになんら変更を加えることなく、OSの動作監視を行うことができるという効果が得られる。 The information processing system according to the present invention is configured and operated as described below, so that the OS operation can be monitored without any change to the existing OS.
本発明の他の情報処理システムは、以下に述べるような構成及び動作とすることで、システム障害発生時でもOSが出力すべく用意した全メッセージの出力が行われ、障害復旧のための情報取得を容易に行うことができるという効果が得られる。 The other information processing system of the present invention is configured and operated as described below, so that even when a system failure occurs, all messages prepared for output by the OS are output, and information for failure recovery is acquired. The effect that it can perform easily is acquired.
次に、本発明の実施の形態について図面を参照して説明する。図1は本発明の実施の形態による情報処理システムの構成を示すブロック図である。図1において、本発明の実施の形態による情報処理システムは、OS(Operating System)10を含むCPU(中央処理装置)1と、メインメモリ(Main Memory)2と、I/O(Input/Output:入出力)ブリッジ(Bridge)3とからなる情報処理装置(コンピュータ本体)と、I/Oブリッジ3に接続されているI/Oバス100に接続されるI/O装置4及び他のI/O装置5とから構成されている。
Next, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of an information processing system according to an embodiment of the present invention. 1, an information processing system according to an embodiment of the present invention includes a CPU (Central Processing Unit) 1 including an OS (Operating System) 10, a main memory (Main Memory) 2, and an I / O (Input / Output: An information processing device (computer main body) including an input / output)
ここで、他のI/O装置5はI/Oバス100上に接続された適当なI/Oカード(Card)であり、その存在の有無等は問わない。本発明の実施の形態で開示する機構を備えた装置はI/O装置4である。
Here, the other I /
I/O装置4はOS alive監視機構41と、システム障害時データ取得手段42と、DMA(Direct Memory Access)制御部43と、通常動作制御部44と、ローカルメモリ(Local Memory)45と、データ(Data)送出元切替え部46と、通信制御部47とから構成されており、通信制御部47は図示せぬネットワークに接続されている。
The I /
I/O装置4において、OS alive監視機構41及びシステム障害時データ取得手段42は本発明の実施の形態の特色となる回路である。また、他のDMA制御部43、通常動作制御部44、ローカルメモリ45、通信制御部47は、一般のLAN(Local Area Network)[例えば、Ethernet(登録商標)等]カードに存在する回路であり、既知の技術として知られている。
In the I /
さらに、データ送出元切替え部46は、ネットワークに送出するデータを、システム障害時データ取得手段42と通常動作制御部44とのどちらから通信制御部47に入力するかを切替えるために必要な回路であるが、この回路についても動作は機知の技術として提供される。
Further, the data transmission
OS alive監視機構41は、従来のI/Oバスに実装される装置が持つ「割込み」という機構を用いて実現している。通常のI/O装置でも、動作の終了やエラーをOSに通知するため、割込み手段を持っており、I/Oバスは割込みをOSに通知するための手段を提供している。
The OS
割込みが通知された場合、OSは割込みの要因を検査するためにI/O装置内に存在する「I/O装置の状態を示すレジスタ」にアクセスするのが一般的であるが、本発明の実施の形態による情報処理システムでは、OS10が「I/O装置の状態を示すレジスタ」へアクセスしてくることを検出する手段を持ち、割込みに対してOS10が応答するかどうかを監視する。OS10の応答がない場合、I/O装置4はOS10が停止したと判定し、OS10の停止後の動作を開始する。
When an interrupt is notified, the OS generally accesses the “register indicating the status of the I / O device” in the I / O device to check the cause of the interrupt. The information processing system according to the embodiment has means for detecting that the
OS10の停止後の動作については、OS10がI/O装置4を初期化する際に設定しておくデータと、OS10の動作中に、OS10からの指示で動作していた情報とを基に、必要なデータを送出するための回路をI/O装置4内に持ち、OS10の停止判定が行われた際に、OS10の停止後の動作を行う回路を動作させる。
The operation after the stop of the
これによって、本発明の実施の形態による情報処理システムでは、OS10が停止したことを検出する機構と、OS10の停止をきっかけとしてメッセージエリアのデータ出力を自動的に行う機構とをI/O装置4に持たせることによって、OS10の停止時に出力されていないメッセージが存在する場合に、そのメッセージを自動的に出力することで、エラー解析の効率を上げることができる。
Thus, in the information processing system according to the embodiment of the present invention, the I /
つまり、本発明の実施の形態による情報処理システムでは、上記の機構を用いることによって、システム障害発生時でもOS10が出力すべく用意した全メッセージの出力が行われ、障害復旧のための情報取得が容易になる。
That is, in the information processing system according to the embodiment of the present invention, by using the above-described mechanism, all messages prepared for output by the
また、本発明の実施の形態による情報処理システムでは、OS alive監視機構41によるOS10の動作監視について、I/Oの割込みをサポートするOSであれば、既存のOSになんら変更を加えることなく動作が可能であり、上記のI/O装置4をコンピュータシステムに実装するだけでOS10の動作監視を行うことができる。
Further, in the information processing system according to the embodiment of the present invention, the
次に、本発明の一実施例について図面を参照して説明する。図2は本発明の一実施例による情報処理システムの構成を示すブロック図である。図2において、本発明の一実施例による情報処理システムは、CPU1と、メインメモリ2と、I/Oブリッジ3とからなるコンピュータ本体と、I/Oブリッジ3に接続されているPCI(Peripheral Component Interconnect)バス200に接続されているI/O装置4及び他のI/O装置5とから構成されている。ここで、I/O装置5はPCIバス200上に接続された適当なPCIカードであり、その存在の有無等は問わない。本実施例で開示する機構を備えた装置はI/O装置4である。
Next, an embodiment of the present invention will be described with reference to the drawings. FIG. 2 is a block diagram showing a configuration of an information processing system according to an embodiment of the present invention. 2, an information processing system according to an embodiment of the present invention includes a computer main body including a
I/O装置4において、OS alive監視機構41と、システム障害時データ取得手段42とが本実施例の特色となる回路である。また、I/O装置4において他の回路、つまりDMA制御部43、通常動作制御部44、ローカルメモリ45、メッセージ表示装置6が接続されたLAN制御部48は一般のLANカードに存在する回路であり、既知の技術として知られている。
In the I /
さらに、データ送出元切替え部46は、LAN(図示せず)に送出するデータを、システム障害時データ取得手段42と通常動作制御回路44とのどちらからLAN制御部48に入力するかを切替えるために必要な回路であるが、この回路についても動作は機知の技術として提供される。
Further, the data transmission
図3は図2のOS alive監視装置41の構成を示すブロック図である。図3において、OS alive監視装置41は割込み手段411と、タイマ(Timer)回路412と、割込要因レジスタ413と、割込要因レジスタアクセス検出手段414と、タイマ回路415と、タイムアウト(Timeout)判定部416とから構成されている。
FIG. 3 is a block diagram showing the configuration of the OS
割込み手段411及び割込要因レジスタ413は、実際には図2に示すところの通常動作制御部44と共用する回路である。さらに、割込み要因レジスタ413とは、PCI BUS規格で定められるPCI Statusレジスタのことであり、すべてのPCIカードが実装している標準レジスタである。
The interrupt means 411 and the interrupt factor register 413 are actually circuits that are shared with the normal
図4は図2のメインメモリ2上のデータ格納イメージを示す図であり、図5は図2のシステム障害時データ取得手段42の構成を示すブロック図である。図4において、メインメモリ2上には、descriptorと、メッセージバッファ(Message Buffer)と、バッファポインタ(Buffer pointer)とが設けられている。
4 is a diagram showing a data storage image on the
図5において、障害時データ取得手段42はレジスタ群421と、システム障害時データ取得制御部422と、メッセージ保存バッファ423と、メッセージ比較用バッファ424と、差分出力部425とから構成されている。
In FIG. 5, the failure time data acquisition means 42 includes a
レジスタ群421は、OS10のメッセージバッファの開始アドレスを保持するためのバッファポインタアドレス(Buffer pointer address)レジスタと、OS10のメッセージバッファサイズを示すバッファサイズ(Buffer size)レジスタと、OS10が最後に通知してきたバッファの開始アドレスを保持するバッファポインタ#1レジスタと、OS10の停止後にバッファポインタを検査した結果を格納するバッファポインタ#2レジスタとからなる。
The
メッセージ保存バッファ423は、OS10が最後にメッセージ出力要求を通知してきた時のメッセージバッファの内容を保持する。メッセージ比較用バッファ424は、OS10が停止した後のメッセージバッファ内のデータを取得保存する。差分出力部425はメッセージ保存バッファ423の内容とメッセージ比較用バッファ424の内容とを比較し、それらの差分を出力する。
The
まず、従来のPCIバス上のI/O装置の動作について簡単に説明する。図10は一般的なPCIカードの一例として、SCSI(Small Computer System Interface)カードの構造を示している。ここではメインメモリ6上に用意されたデータをDISK90上に格納する場合の動作について説明する。
First, the operation of a conventional I / O device on the PCI bus will be briefly described. FIG. 10 shows a structure of a SCSI (Small Computer System Interface) card as an example of a general PCI card. Here, an operation when data prepared on the
メインメモリ6上にアプリケーション(図示せず)またはOS10等が作成したデータをDISK90上に格納する場合、OS10はまずSCSIカード8に対して与えるコマンドである「Descriptor」をメインメモリ6上に用意する。この「Descriptor」には、「命令(DISK Write:DISK90にライトするという命令)」、「書込みデータアドレス(DISK90に書込むデータのメインメモリ6上の格納先頭アドレス)」、「書込みデータの大きさ(DISK90に書込むデータの大きさ9」、「DISK上のアドレス(DISK90内の書込み先アドレス)」等が書かれている。
When storing data created by an application (not shown) or the
次に、OS10はSCSIカード8に対し、メインメモリ6上の「Descriptor」が格納されているアドレス(Descriptorアドレス)をSCSIカード8に通知する。SCSIカード8はDescriptorアドレスを受取ると、DMA制御部82を用いて「Descriptor」をDMAリード(Read)し、ローカルメモリ85上にコピーする。SCSIカード8は「Descriptor」に書かれた情報を基に、メインメモリ6から書込みデータをローカルメモリ85にコピーする。
Next, the
SCSIカード8はDISK制御部86を用いて、ローカルメモリ85にコピーしたデータをDISK90上にライトする。これまでの一連の動作が終了すると、SCSIカード8はStatusレジスタ84上に「動作終了」を示すbitを立て、OS10に割込みを行う。
The
割込みを受取ったOS10は、まず割込みをしてきたデバイスを探索する。この時、OS10は割込みを行う可能性のある装置上のStatusレジスタをすべて読出し、割込みの要因が示されているデバイスを探索する。ここではSCSIカード8が割込み要因をStatusレジスタ84に書いているため、OS10はSCSIカード8が割込み元と判断し、driverを通じてデータをDISK90に書込む動作が終了したことを判定する。
The
上記の処理は、一般的なPCIカードの一動作例を簡単に説明したものであるが、本実施例の第一の特徴である「OS alive監視機構41」は、上記の説明の中の割込みと呼ばれる動作を用いて実装することができる。OS alive監視機構42の構成は図3に示している。図3の「a」でOS alive監視機構41はOS10に対して割込みを通知している。但し、この割込みを行う際にOS alive監視機構41は割込み要因を示すレジスタに割込みの要因をセットせずに割込みを行っている。一般的なPCIカードは割込み要因をセットせずに割込み通知を行う動作を行わない。
The above processing is a simple description of an operation example of a general PCI card, but the “OS
図6は図2のOS alive監視機構41の動作を示すフローチャートである。これら図2〜図6を参照してOS alive監視機構41の動作について説明する。
FIG. 6 is a flowchart showing the operation of the OS
OS10は割込み元デバイスと割込みの要因とを調査するために、割込み元となりうるすべてのデバイスを調査するが、この時、OS10は割込み要因レジスタ413のアドレスを指定してI/Oのリード命令を発行してくる。OS alive監視機構41はこのOS10が割込み要因レジスタ413のアドレスを指定してリードをしてくる命令を、アドレスをキーとして検出する割込要因レジスタアクセス検出手段414を用いて検出する。
In order to investigate the interrupt source device and the cause of the interrupt, the
もちろん、割込要因はセットしていないため、OS10は割込み元デバイスを特定することができずに、割込元デバイスの探索を終了する。上記のように、割込が発生したにもかかわらず、割込み元デバイス及び要因が特定できないタイプの割込みは「空割込み」と呼ばれる。
Of course, since the interrupt factor is not set, the
本実施例では、この「空割込み」を一定時間毎にわざと発生させ、OS10が割込み要因レジスタ413の調査を行うかどうかを監視することによって(図6ステップS1〜S3,S5)、OS10が正常な動作を行っているかどうかを判定することに特徴がある。
In the present embodiment, this “empty interrupt” is intentionally generated at regular intervals, and by monitoring whether the
OS10が正常な動作をしていない場合、空割込みを発生させても割込要因レジスタ413へのアクセスが行われないため、空割込みを発生してから一定時間、割込要因レジスタ413へのアクセスが行われないことをきっかけに、OS10の停止を判定し、OS10の停止信号を出力するのがOS alive監視機構41の動作である(図6ステップS1〜S3,S5,S6)。尚、本実施例では、OS10が正常な動作をしている場合、空割込みを発生させると割込要因レジスタ413へのアクセスが行われるため、上記のアクセスタイマのストップとリセットとが行われる。
If the
また、タイマ回路412が空割込みを起動する間隔は、任意に設定することができるように設計し、システムに対してOS alive監視機構41の空割込みが大きな負担にならないようにするのが望ましい。さらに、タイムアウト判定部416も、システム毎に空割込み発生から割込み要因レジスタ413の読出しが行われる時間が異なるため、任意の時間経過でOS10の停止信号を出力することができるように、設定に自由度を持たせることが望ましい。
Further, it is desirable that the interval at which the
次に、本実施例の第二の特徴である障害時データ取得手段42について説明する。本実施例では、OS10が正常動作している場合にデータ送信を行う機構として、通常動作制御部44と、通常動作制御部44が用いるローカルメモリ45とが存在すると同時に、OS10の障害時にデータ出力を行うシステム障害時データ取得手段42がI/O装置4に実装されている。
Next, the failure data acquisition means 42, which is the second feature of this embodiment, will be described. In the present embodiment, there is a normal
図7〜図9は図2のシステム障害時データ取得手段42の動作を示すフローチャートである。これら図2〜図5及び図7を参照してシステム障害時データ取得手段42の動作について説明する。
一般的に、OS10がコンソールメッセージを書込むメインメモリ2上のエリアには固定的な領域をサイクリックに使用する。本実施例では、このエリアをメッセージバッファと呼ぶ。メモリの使用状態によってメッセージバッファの位置を変更する必要がある場合のために、多くのOSではメッセージバッファの先頭アドレスを示すバッファポインタを用意している。
7 to 9 are flowcharts showing the operation of the system failure time data acquisition means 42 of FIG. The operation of the
Generally, a fixed area is cyclically used as an area on the
本実施例におけるI/O装置4には、このバッファポインタがメインメモリ2上のどこにあるかを示すバッファポインタアドレスレジスタを実装しており(図5のレジスタ群421参照)、OS10がシステムの初期化を行う際に一度だけこのレジスタにバッファポインタの格納アドレスをセットする(図7ステップS11,S21、図8ステップS31,S41)。また、メッセージバッファのサイズもシステム初期化の際にセットされる。
The I /
OS10が正常動作している場合、メッセージ出力要求はOS10からdescriptorアドレスの通知として行われる(図7ステップS12、図8ステップS32)。Descriptorアドレスを受取ると、まず、通常動作制御部44がdescriptorをDMA制御部43を用いてローカルメモリ45に取得する(図7ステップS13、図8ステップS33)。続いて、システム障害時データ取得手段41がバッファポインタをDMA制御部43を用いて取得し、レジスタ群421のバッファポインタ#1レジスタに格納する(図7ステップS22、図8ステップS42)。
When the
さらに、通常動作制御部44がdescriptorの内容に応じて出力要求があったメッセージをDMA制御部43を用いてローカルメモリ45に取得する(図7ステップS14、図8ステップS34)。通常動作制御部44は取得したメッセージをデータ送出元切替え部46を介してLAN制御部48に送信し(図8ステップS35)、LAN制御部48がメッセージを通信先に通知する。
Further, the normal
メッセージが通信されている間、システム障害時データ取得手段42はバッファポインタのアドレスが指し示すメッセージバッファの全内容をメッセージ保存バッファ423にDMA制御部43を用いてコピーする(図7ステップS23、図8ステップS43)。通常動作制御部44による通信と、システム障害時データ取得手段42による全メッセージのコピー動作の双方が終了した時点で、通常動作制御部44はOS10に対して割込みを行い(図8ステップS36)、メッセージ出力の終了を通知する。
While the message is being communicated, the
OS alive監視機構41によって、OS10の停止が確認された場合、通常動作制御部44は動作を停止する(図8ステップS37,S38)。これと同時に、システム障害時データ取得手段42は、まずDMA制御部43を用いてバッファポインタの内容をレジスタ群421のバッファポインタ#2レジスタにコピーする(図8ステップS44)。さらに、システム障害時データ取得手段42はレジスタ群421のバッファポインタ#2レジスタの指し示すアドレスからDMA制御部43を用いてメッセージバッファの全内容をメッセージ比較用バッファ424にコピーする(図8ステップS45)。
When the OS
バッファポインタ#1レジスタの内容とバッファポインタ#2レジスタの内容とが一致する場合(図8ステップS46)、OS10は障害発生直前までメッセージバッファをサイクリックに使用していたことになる。このため、新規メッセージはメッセージ保存バッファ423の内容とメッセージ比較用バッファ424の内容とを比較し、内容に差分があるエリアに格納されていることになる。システム障害時データ取得手段42はこの差分が検出された内容を通信手段(LAN制御部48)に送出する(図8ステップS47,S48)。
If the contents of the
これに対し、バッファポインタ#1レジスタの内容とバッファポインタ#2レジスタの内容とが異なる場合(図8ステップS46)、OS10は最後にメッセージ出力を要求した後、メッセージバッファの領域を変更したことになるため、新規のメッセージはすべて変更後のメッセージバッファの先頭から格納されていることになる。このため、システム障害時データ取得手段42はメッセージ比較用バッファ424内のデータを通信手段(LAN制御部48)に送出し(図8ステップS50,S51)、動作を終了する。
On the other hand, if the contents of the
このように、本実施例では、上述した機構を用いることによって、システム障害発生時でもOS10が出力すべく用意した全メッセージの出力が行われ、障害復旧のための情報取得が容易になる。
As described above, in this embodiment, by using the mechanism described above, all messages prepared to be output by the
また、本実施例では、OS alive監視機構41によるOS10の動作監視について、I/Oの割込みをサポートするOSであれば、既存のOSになんら変更を加えることなく動作が可能であり、上述した機構をコンピュータシステムに実装するだけで、OS10の動作監視を行うことができる。
In the present embodiment, the
1 CPU
2 メインメモリ
3 I/Oブリッジ
4 I/O装置
5 他のI/O装置
6 メッセージ表示装置
10 OS
41 OS alive監視機構
42 システム障害時データ取得手段
43 DMA制御部
44 通常動作制御部
45 ローカルメモリ
46 データ送出元切替え部
47 通信制御部
48 LAN制御部
100 I/Oバス
200 PCIバス
411 割込み手段
412,415 タイマ回路
413 割込要因レジスタ
414 割込要因レジスタアクセス検出手段
416 タイムアウト判定部
421 レジスタ群
422 システム障害時データ取得制御部
423 メッセージ保存バッファ
424 メッセージ比較用バッファ
425 差分出力部
1 CPU
2 Main memory
3 I / O bridge
4 I / O devices
5 Other I / O devices
6 Message display device
10 OS
41 OS alive monitoring mechanism
42 Data acquisition means for system failure
43 DMA controller
44 Normal operation controller
45 Local memory
46 Data transmission source switching part
47 Communication control unit
48 LAN controller
100 I / O bus
200 PCI bus
411 Interrupt means 412 and 415 Timer circuit
413 Interrupt factor register
414 Interrupt factor register access detection means
416 Timeout determination unit
421 Register group
422 Data acquisition control unit at the time of system failure
423 Message storage buffer
424 Message comparison buffer
425 Difference output unit
Claims (17)
前記入出力装置は、割込み元デバイス及び要因が特定できない空割込みを前記情報処理装置に行って前記OSの動作状態を監視する監視手段を有することを特徴とする情報処理システム。 Useful data for determining the location of the failure includes an information processing device that holds an OS (Operating System) console message and an error message in a main memory, and an input / output device that outputs the console message and the error message. An information processing system,
The information processing system, wherein the input / output device has monitoring means for monitoring the operating state of the OS by performing an empty interrupt that cannot specify an interrupt source device and a cause to the information processing device.
前記システム障害時データ取得手段は、前記OSが最後にメッセージ出力要求を通知してきた時の前記メッセージバッファの内容と、前記OSが停止した後の前記メッセージバッファの内容との差分を外部に送出することを特徴とする請求項4記載の情報処理システム。 The main memory includes a message buffer for holding the console message and an error message,
The data acquisition means at the time of system failure sends out the difference between the contents of the message buffer when the OS has last notified a message output request and the contents of the message buffer after the OS has stopped. The information processing system according to claim 4.
割込み元デバイス及び要因が特定できない空割込みを前記情報処理装置に行って前記OSの動作状態を監視する監視手段を有することを特徴とする入出力装置。 An input / output device that outputs an OS (Operating System) console message and an error message held in the main memory of the information processing device as useful data for determining the location of the failure,
An input / output device comprising monitoring means for monitoring an operating state of the OS by performing an empty interrupt whose cause cannot be specified and an interrupt source device to the information processing device.
前記システム障害時データ取得手段は、前記OSが最後にメッセージ出力要求を通知してきた時の前記メッセージバッファの内容と、前記OSが停止した後の前記メッセージバッファの内容との差分を外部に送出することを特徴とする請求項9記載の入出力装置。 If the main memory includes a message buffer that holds the console message and error message,
The data acquisition means at the time of system failure sends out the difference between the contents of the message buffer when the OS has last notified a message output request and the contents of the message buffer after the OS has stopped. The input / output device according to claim 9.
前記入出力装置が、割込み元デバイス及び要因が特定できない空割込みを前記情報処理装置に行って前記OSの動作状態を監視する処理を実行することを特徴とする自動データ送出方法。 Useful data for determining the location of the failure includes an information processing device that holds an OS (Operating System) console message and an error message in a main memory, and an input / output device that outputs the console message and the error message. An automatic data transmission method in the event of a system failure used in an information processing system,
An automatic data transmission method, wherein the input / output device performs a process of monitoring an operating state of the OS by performing an empty interrupt whose interrupt source device and cause cannot be specified to the information processing device.
前記特定エリアの内容を取得して外部に送出する処理は、前記OSが最後にメッセージ出力要求を通知してきた時の前記メッセージバッファの内容と、前記OSが停止した後の前記メッセージバッファの内容との差分を外部に送出することを特徴とする請求項14記載の自動データ送出方法。 A message buffer for holding the console message and the error message is provided in the main memory,
The process of acquiring the contents of the specific area and sending them to the outside includes the contents of the message buffer when the OS has last notified a message output request, and the contents of the message buffer after the OS has stopped. 15. The automatic data transmission method according to claim 14, wherein the difference between the two is transmitted to the outside.
Claims for causing a computer of the input / output device to execute a process of acquiring the contents of a specific area of the main memory and transmitting the contents to the outside when a stop state of the OS is detected by a process of monitoring the operating state of the OS Item 16. The program according to Item 16.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004305050A JP4265521B2 (en) | 2004-10-20 | 2004-10-20 | Information processing system, input / output device, automatic data transmission method in case of system failure, and program therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004305050A JP4265521B2 (en) | 2004-10-20 | 2004-10-20 | Information processing system, input / output device, automatic data transmission method in case of system failure, and program therefor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006119778A true JP2006119778A (en) | 2006-05-11 |
JP4265521B2 JP4265521B2 (en) | 2009-05-20 |
Family
ID=36537625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004305050A Expired - Fee Related JP4265521B2 (en) | 2004-10-20 | 2004-10-20 | Information processing system, input / output device, automatic data transmission method in case of system failure, and program therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4265521B2 (en) |
-
2004
- 2004-10-20 JP JP2004305050A patent/JP4265521B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP4265521B2 (en) | 2009-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6333410B2 (en) | Fault processing method, related apparatus, and computer | |
JP4887150B2 (en) | Method and apparatus for monitoring and resetting a coprocessor | |
US7429990B2 (en) | Network management card for use in a system for screen image capturing | |
US7716520B2 (en) | Multi-CPU computer and method of restarting system | |
JP5822527B2 (en) | Information processing apparatus, control method thereof, and control program | |
US20120266018A1 (en) | Fault-tolerant computer system, fault-tolerant computer system control method and recording medium storing control program for fault-tolerant computer system | |
JP2008090375A (en) | Interrupt control system and storage control system using the same | |
JP2010086364A (en) | Information processing device, operation state monitoring device and method | |
JP2006309760A (en) | Monitoring logic and monitoring method for detecting abnormal operation of data processor | |
WO2023226380A1 (en) | Disk processing method and system, and electronic device | |
JP2004046455A (en) | Information processor | |
US20060253737A1 (en) | Debugging mechanism and debugging register | |
US8880957B2 (en) | Facilitating processing in a communications environment using stop signaling | |
JP3711871B2 (en) | PCI bus failure analysis method | |
JP4265521B2 (en) | Information processing system, input / output device, automatic data transmission method in case of system failure, and program therefor | |
US20130318310A1 (en) | Processor processing method and processor system | |
CN109343986B (en) | Method and computer system for processing memory failure | |
US20200382655A1 (en) | Image forming apparatus equipped with sata system, control method therefor, and storage medium | |
US20080043734A1 (en) | Data processing system, data processing apparatus, and data processing method | |
JP2009205347A (en) | Information processing system, control method of information processing system, and control program of information processing system | |
JP2001175545A (en) | Server system, fault diagnosing method, and recording medium | |
JP4572138B2 (en) | Server apparatus, server system, and system switching method in server system | |
US7409605B2 (en) | Storage system | |
JP5053002B2 (en) | Hardware monitoring unit | |
JP4499909B2 (en) | Multiplexed storage controller |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080624 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090127 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090209 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130227 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130227 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140227 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |