JP2000330829A - Inter-system communication processor - Google Patents

Inter-system communication processor

Info

Publication number
JP2000330829A
JP2000330829A JP11135466A JP13546699A JP2000330829A JP 2000330829 A JP2000330829 A JP 2000330829A JP 11135466 A JP11135466 A JP 11135466A JP 13546699 A JP13546699 A JP 13546699A JP 2000330829 A JP2000330829 A JP 2000330829A
Authority
JP
Japan
Prior art keywords
inter
communication
information processing
control device
system communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11135466A
Other languages
Japanese (ja)
Inventor
Asako Kajiwara
麻子 梶原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Engineering Ltd
Original Assignee
NEC Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Engineering Ltd filed Critical NEC Engineering Ltd
Priority to JP11135466A priority Critical patent/JP2000330829A/en
Publication of JP2000330829A publication Critical patent/JP2000330829A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To restart inter-system communication without stopping a system even when a fault disabling a diagnostic control device from continuing processing is generated during the operation of the system. SOLUTION: In the inter-system communication processor, plural information processors each of which is constituted of an OS 100, a central processing unit(CPU) 200, a diagnostic control device 300, and a main storage device 400 are connected to Ethernet 700 and the OS 100 issues health check communication for monitoring a state between plural information processors at a fixed interval. When an abnormality detection means 306 in the control device 300 detects a fault and the fault disables the continuation of processing, a reboot control means 307 allows the control device 300 to run down to automatically restore it. A resending request informing means 308 issues a resending request to the OS 100 by using the automatic restoration as a trigger. The OS 100 starts to reregister the system identification number of the information processsor. Consequently, inter-system communication processing can be restored without restarting the system.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、情報処理装置それ
ぞれが内蔵する診断制御装置を介してヘルスチェック通
信を一定間隔で発行して相互の状態監視を行う系間通信
処理装置および系間通信処理方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an inter-system communication processing device and an inter-system communication process for issuing health check communication at regular intervals via a diagnostic control device built in each information processing device and monitoring mutual states. About the method.

【0002】[0002]

【従来の技術】この種の従来技術の一例が「装置状態管
理方法およびデータ通信システム」として、特開平9−
186689号公報に記載されている。この方式による
と、LANに接続された複数の計算機の装置状態を、全
ての計算機で時差なく同時に管理するために、マスタで
ある計算機のヘルスチェック送信機構から一定周期、ま
たは状態変更時などに全計算機に対して全装置状態情報
をブロードキャスト送信し、応答がない場合には故障と
判断して、その計算機の状態情報を故障と書き換える。
そして、次回からのブロードキャスト送信時に全装置状
態情報を送信すると、他の計算機は故障状態の計算機を
認識することができるので、全ての計算機において装置
状態を時差なく同時に管理できるというものである。
2. Description of the Related Art An example of this kind of prior art is disclosed in Japanese Patent Application Laid-Open No.
186689. According to this method, in order to simultaneously manage the device states of a plurality of computers connected to the LAN without time lag among all the computers, the health check transmission mechanism of the master computer transmits the information at a fixed cycle or when the status is changed. All the device status information is broadcast transmitted to the computer, and if there is no response, it is determined that a failure has occurred, and the status information of the computer is rewritten as a failure.
Then, when all the device status information is transmitted at the time of the next broadcast transmission, the other computers can recognize the faulty computer, so that the device status can be simultaneously managed in all the computers without time lag.

【0003】この従来技術によれば、ある計算機が故障
によって応答を返信できなくなった場合、その他の計算
機ではマスタ計算機からのブロードキャスト通信により
送信される全装置状態情報によって故障の計算機を認識
し、故障した計算機が回復した場合も、故障回復のブロ
ードキャスト通信を受けて、装置状態を認識し、ヘルス
チェックを再開することが可能となる。この場合の計算
機の故障とは、計算機自体の故障によりシステム全体が
停止してしまう状態を示しており、故障の回復とは、そ
の後のシステムの再立ち上げによって系間通信処理を開
始することをいう。
According to this conventional technique, when a computer cannot respond in response to a failure, the other computers recognize the failed computer based on all apparatus status information transmitted by broadcast communication from the master computer, When the failed computer recovers, it can receive the broadcast communication of the failure recovery, recognize the device state, and restart the health check. In this case, the failure of the computer indicates a state in which the entire system stops due to the failure of the computer itself, and the recovery from the failure means that the inter-system communication processing is started by restarting the system thereafter. Say.

【0004】また、この種の従来技術の他の例が、「シ
ステム監視装置」として、特開平2−235169号公
報に記載されている。図9はこの公報に示されたシステ
ム構成を示すブロック構成図であり、この図では情報処
理系の数は2台であるが接続可能な情報処理系の台数は
制限しないという。
Another example of this kind of prior art is described in Japanese Patent Application Laid-Open No. 2-235169 as a "system monitoring device". FIG. 9 is a block diagram showing the system configuration disclosed in this publication. In this figure, the number of information processing systems is two, but the number of connectable information processing systems is not limited.

【0005】図9のブロック構成図によると、他の情報
処理系との間で、運用管理情報を授受する運用管理手
段,システム強制停止要求を授受するシステム強制停止
手段および操作卓譲渡要求を授受する操作卓管理手段を
含むシステム監視手段と、他の情報処理系に接続できる
操作卓を含む複数の操作卓とをそれぞれが備えた2つの
情報処理系の間にシステム支援処理装置が挿入されてい
る。
According to the block diagram of FIG. 9, an operation management means for exchanging operation management information with another information processing system, a system forced stop means for exchanging a system forced stop request, and an operation console transfer request are exchanged. A system support processing device is inserted between two information processing systems each including a system monitoring means including a console management means for performing the operation, and a plurality of consoles including a console which can be connected to another information processing system. I have.

【0006】システム支援処理装置は、運用管理情報,
システム停止要求および操作卓譲渡要求を授受する情報
処理系の中央演算処理手段(図示省略)からの命令に応
じて動作する。情報処理系のそれぞれは、また、システ
ム支援処理装置を経由して、運用管理情報,システム停
止要求および操作卓譲渡要求を遅滞なく送出する系間通
信送信手段および到来した運用管理情報,システム停止
要求および操作卓譲渡要求のそれぞれを運用管理手段,
システム強制停止手段、操作卓管理手段のそれぞれに与
える解析手段である通信内容解析手段を備えている。2
つの情報処理系間では、CPU命令を用いて、システム
支援装置によって系間通信を利用したシステム監視動作
を行うものである。
[0006] The system support processing device includes operation management information,
It operates in response to a command from a central processing unit (not shown) of the information processing system that sends and receives a system stop request and a console console transfer request. Each of the information processing systems further includes, via the system support processing device, an inter-system communication transmitting unit that sends operation management information, a system stop request, and a console transfer request without delay, and arrives at the operation management information, system stop request. And the console transfer request, respectively,
A communication content analysis unit is provided as an analysis unit provided to each of the system forced stop unit and the console management unit. 2
Between the two information processing systems, a system monitoring operation using inter-system communication is performed by a system support device using a CPU instruction.

【0007】[0007]

【発明が解決しようとする課題】しかしながら、上述し
た特開平9−186689号公報記載技術の第1の問題
点は、計算機の故障が発生するとシステム全体を停止さ
せて、システムの再立ち上げによって系間通信を再開さ
せる必要があるということである。
However, the first problem of the technique described in Japanese Patent Application Laid-Open No. Hei 9-186689 is that when a computer failure occurs, the entire system is stopped and the system is restarted. It is necessary to restart inter-communication.

【0008】また、第2の問題点は、マスタ計算機から
のブロードキャスト送信によってLAN上での負荷が上
ってしまうということである。
[0008] The second problem is that the load on the LAN increases due to the broadcast transmission from the master computer.

【0009】さらに、第3の問題点は、所定時間内に応
答が返らない場合を考慮して、無応答状態の装置に対し
ては1対1の送信を行うという重複した処理が必要とな
るということである。
Further, a third problem is that in consideration of a case where no response is returned within a predetermined time, an overlapped process of performing one-to-one transmission to a device in a non-response state is required. That's what it means.

【0010】このため、ホスト台数が増えれば増えるだ
けブロードキャスト送信対象の計算機も増加し、それに
対する応答の通信も計算機の台数分増加するので、マス
タ計算機がヘルスチェックを実施する度に、LAN上の
負荷が増加してしまい、一時的な性能低下を引き起こす
ことになる。
[0010] For this reason, as the number of hosts increases, the number of computers to be broadcast-transmitted also increases, and the number of computers responding to the broadcast also increases by the number of computers. Therefore, every time the master computer performs a health check, the master computer executes a health check. The load increases, causing a temporary performance drop.

【0011】また、特開平2−235169号公報記載
技術の問題点は、2つの情報処理系間の系間通信を行う
ために、新たにシステム支援処理装置が必要となってし
まい、さらに、システム支援処理装置を介することによ
って系間通信を転送するため処理速度が遅くなってしま
うということである。
Another problem with the technology described in Japanese Patent Application Laid-Open No. 2-235169 is that a new system support processing device is required to perform inter-system communication between two information processing systems. This means that the processing speed is reduced because the inter-system communication is transferred through the support processing device.

【0012】その理由は、この装置では、情報処理系内
に系間通信を制御する処理形態がなく、新たな装置を介
入する必要があり、また、その装置を介して系間通信を
発行しなければならないからである。
The reason is that this device does not have a processing mode for controlling inter-system communication in the information processing system, and requires the intervention of a new device, and issues inter-system communication via the device. Because it must be.

【0013】また、複数台のシステムを1台のシステム
支援装置で制御しなければならず、システム支援装置の
故障が全システム間の系間通信に致命的な影響を与える
という問題点もある。
Further, a plurality of systems must be controlled by one system support apparatus, and there is a problem that a failure of the system support apparatus has a fatal effect on inter-system communication between all systems.

【0014】本発明の目的は、システム運用中に診断制
御装置で処理継続が不可能な障害が発生した時に、診断
制御装置の自動回復機能により、系間通信処理の再開処
理を行うことによって、システムを停止させることなく
系間通信処理を復旧することを可能とし、システムの稼
働率を向上することができる系間通信処理装置および系
間通信処理方法を提供することにある。
[0014] An object of the present invention is to restart processing of inter-system communication processing by the automatic recovery function of the diagnostic control device when a failure that cannot be continued in the diagnostic control device occurs during system operation. It is an object of the present invention to provide an inter-system communication processing device and an inter-system communication processing method that can restore inter-system communication processing without stopping the system and can improve the operation rate of the system.

【0015】また、本発明の他の目的は、システム支援
処理装置というような特殊な装置を介することなく、情
報処理装置内での系間通信の制御を実現することによっ
て、より高速な系間通信処理装置および系間通信処理方
法を提供することにある。
Another object of the present invention is to realize control of inter-system communication in an information processing apparatus without passing through a special device such as a system support processing device, thereby achieving higher-speed inter-system communication. An object of the present invention is to provide a communication processing device and an inter-system communication processing method.

【0016】[0016]

【課題を解決するための手段】第1の本発明の系間通信
処理装置は、情報処理装置それぞれが内蔵する診断制御
装置を介して相互のヘルスチェックのための系間通信を
行っている最中に、前記診断制御装置で障害が発生して
前記ヘルスチェックにて異常が検出された場合に、その
後の該診断制御装置の復旧をトリガとして前記ヘルスチ
ェックを自動的に再開できることを特徴とする。
According to a first aspect of the present invention, there is provided an inter-system communication processing apparatus which performs inter-system communication for mutual health check via a diagnostic control device built in each information processing apparatus. In the meantime, when a failure occurs in the diagnostic control device and an abnormality is detected in the health check, the health check can be automatically restarted with a subsequent recovery of the diagnostic control device as a trigger. .

【0017】第2の本発明の系間通信処理装置は、情報
処理装置それぞれが内蔵する診断制御装置を介してヘル
スチェック通信を一定間隔で発行して間の状態監視を行
う系間通信処理装置において、前記診断制御装置は、自
装置で発生した障害を検出する異常検出手段と、検出し
た障害が該診断制御装置において処理継続不可能なもの
である場合に、該診断制御装置をダウンさせて自動回復
機能により復旧させるリブート制御手段と、該自動復旧
をトリガにして、該情報処理装置のOSに前記ヘルスチ
ェック通信の再送要求を発行する再送要求通知手段とを
備え、該再送要求を受けた前記OSは、該情報処理装置
の系識別番号の再登録を開始することによって、当該情
報処理システムの再立ち上げをすることなく、前記ヘル
スチェック通信を復旧できることを特徴とする。
According to a second aspect of the present invention, there is provided an inter-system communication processing apparatus which issues health check communication at regular intervals via a diagnostic control device incorporated in each information processing apparatus and monitors the state during the inter-system communication processing apparatus. In the diagnostic control device, an abnormality detecting means for detecting a failure that has occurred in its own device, and, if the detected failure is a process that cannot be continued in the diagnostic control device, shut down the diagnostic control device A reboot control unit for restoring by the automatic restoration function; and a retransmission request notifying unit for issuing a retransmission request for the health check communication to the OS of the information processing apparatus by using the automatic restoration as a trigger, and receiving the retransmission request. The OS initiates the re-registration of the system identification number of the information processing apparatus, thereby performing the health check communication without restarting the information processing system. Characterized in that it can be old.

【0018】第3の本発明の系間通信処理装置は、それ
ぞれがオペレーティングシステムと中央処理装置と診断
制御装置と主記憶装置とを備えた情報処理装置が1本の
イーサネットに接続された情報処理システムにおける系
間通信処理装置において、前記オペレーティングシステ
ムは、前記情報処理装置間で状態を監視するためのヘル
スチェック通信を制御する系間通信制御手段と、他系情
報処理装置に対するヘルスチェックの系間通信やシステ
ム立ち上げ時の登録処理要求の発行を指示する系間通信
発行手段と、他系情報処理装置からのヘルスチェックの
系間通信や応答の系間通信を受信する系間通信受付手段
と、他系情報処理装置に対して発行したヘルスチェック
の系間通信に対する他系情報処理装置からの応答の系間
通信を受けるまでを時間監視する応答時間監視手段と、
他系情報処理装置との間における系間通信の認識や異常
等のメッセージを表示するメッセージ表示手段と、あら
かじめ定められている自系情報処理装置の系識別番号を
記憶し、他系情報処理装置からの登録の汎用通信を受け
ることによって他系情報処理装置を認識した時に他系情
報処理装置の系識別番号を記憶するシステム構成情報記
憶手段とを有し、前記中央処理装置は、該オペレーティ
ングシステムからの系間通信発行要求の指示を受ける系
間通信送信手段と、他系情報処理装置から受信した系間
通信を前記オペレーティングシステムに対して通知する
系間通信受信手段と、前記診断制御装置に対して系間通
信の指示情報を与えて処理要求する対DGP通信発行手
段と、前記診断制御装置からの汎用通信を受信する対D
GP通信受信手段とを備え、前記診断制御装置は、前記
中央処理装置からの系間通信の処理要求を受けるOS命
令受信手段と、他系情報処理装置の構成を管理し、他系
情報処理装置との系間通信の送受信を制御する系間通信
処理手段と、自系情報処理装置からの登録処理要求にて
自系情報処理装置の系識別番号を記憶し、他系情報処理
装置からの登録処理要求にて他系情報処理装置の系識別
番号を記憶する系識別番号管理テーブル記憶手段と、系
間通信を他系情報処理装置に転送する他系ホスト送信手
段と、他系情報処理装置からの系間通信を受信する他系
ホスト受信手段と、他系情報処理装置から受信した系間
通信を自系情報処理装置の前記オペレーティングシステ
ムに通知するために前記中央処理装置に通知する汎用通
信通知手段と、前記診断制御装置にて発生した障害を検
出する異常検出手段と、発生した障害が該診断制御装置
において処理継続不可能な場合に、該診断制御装置をダ
ウンさせて自動回復機能により復旧させるリブート制御
手段と、該診断制御装置での復旧後に系間通信を再開さ
せるための再送要求を前記オペレーティングシステムに
発行する再送要求通知手段とを備えることを特徴とす
る。
According to a third aspect of the present invention, there is provided an inter-system communication processing apparatus in which an information processing apparatus including an operating system, a central processing unit, a diagnostic control unit, and a main storage device is connected to one Ethernet. In the inter-system communication processing device in the system, the operating system includes an inter-system communication control unit that controls health check communication for monitoring a state between the information processing devices, and a health check system between other information processing devices. Inter-system communication issuing means for instructing the issuance of a registration processing request at the time of communication or system startup, and inter-system communication receiving means for receiving inter-system communication of a health check or inter-system communication of a response from another system information processing apparatus; Until the inter-system communication of the response from the other-system information processing device to the inter-system communication of the health check issued to the other-system information processing device is received Response time monitoring means for monitoring time,
A message display unit for displaying a message such as recognition of an inter-system communication with another system information processing device or an abnormality, and a predetermined system identification number of the own system information processing device, And a system configuration information storage means for storing a system identification number of the other information processing apparatus when the other information processing apparatus is recognized by receiving the general communication of registration from the computer. An inter-system communication transmitting unit that receives an instruction of an inter-system communication issuance request from the system, an inter-system communication receiving unit that notifies the operating system of inter-system communication received from another system information processing device, and the diagnostic control device. DGP communication issuing means for giving instruction information for inter-system communication to request processing, and D for receiving general-purpose communication from the diagnostic control device.
GP communication receiving means, wherein the diagnostic control device manages a configuration of an OS command receiving means for receiving a processing request for inter-system communication from the central processing unit, and a configuration of the other system information processing apparatus, Communication processing means for controlling the transmission and reception of communication between systems, and a system identification number of the own system information processing device in response to a registration processing request from the own system information processing device, and registration from another system information processing device. A system identification number management table storage unit for storing a system identification number of the other system information processing device in response to a processing request; a second system host transmitting unit for transferring inter-system communication to the other system information processing device; Another-system host receiving means for receiving the inter-system communication, and a general-purpose communication notification for notifying the central processing unit to notify the operating system of the own-system information processing device of the inter-system communication received from the other system information processing device Means and before Abnormality detection means for detecting a failure that has occurred in the diagnostic control device; and reboot control means for bringing down the diagnostic control device and restoring it by an automatic recovery function when the failure cannot be continued in the diagnostic control device. And a retransmission request notifying unit for issuing to the operating system a retransmission request for restarting inter-system communication after the recovery by the diagnostic control device.

【0019】本発明の系間通信処理方法は、それぞれが
OSと中央処理装置と主記憶装置と診断制御装置を備え
た情報処理装置の間の系間通信処理方法において、情報
処理装置のOSが、他系情報処理装置の状態監視のため
に一定の周期でヘルスチェックの汎用系間通信の発行を
指示する手順と、該指示により、該OSから中央処理装
置に汎用通信のデータが転送される手順と、中央処理装
置では該汎用通信の転送データを主記憶装置に書き込み
前記診断制御装置に処理要求を通知する手順と、診断制
御装置は該通知を受信すると、主記憶装置から転送デー
タを読み出して、他系情報処理装置を判別して、他の情
報処理装置に対して系間通信を発行する手順と、前記O
Sでは他系情報処理装置に対するヘルスチェックの汎用
系間通信を発行後、他系情報処理装置からの応答が返信
されるまでを時間監視する手順と、応答がない場合には
他系情報処理装置を異常と判断し、異常のメッセージを
メッセージ表示手段にて表示する手順と、前記診断制御
装置にて発生した障害の要因が診断制御装置において処
理継続が不可能な故障の場合、該診断制御装置は停止
し、その後の自動回復機能にて復旧する手順と、復旧後
に再送要求通知手段にて中央処理装置を介してOSに対
して再送要求の通知を発行する手順と、再送要求を受信
したOSは系間通信処理を登録処理から開始すべく、中
央処理装置に対して登録処理要求の通知を発行する手順
とを有することを特徴とする。
An inter-system communication processing method according to the present invention is an inter-system communication processing method between an information processing apparatus having an OS, a central processing unit, a main storage device, and a diagnostic control device. A procedure for instructing the issuance of a general-purpose communication of a health check at a fixed cycle for monitoring the status of the other-system information processing apparatus, and the general-purpose communication data is transferred from the OS to the central processing unit by the instruction. The procedure, the central processing unit writes the transfer data of the general-purpose communication to the main storage device, and notifies the processing request to the diagnostic control device. When the diagnostic control device receives the notification, the diagnostic control device reads the transfer data from the main storage device. A procedure for discriminating another information processing apparatus and issuing inter-system communication to another information processing apparatus;
In S, a procedure for monitoring the time until a response from the other system information processing device is returned after issuing the general-purpose communication of the health check to the other system information processing device, and a process for monitoring the other system information processing device when there is no response. Is determined as abnormal, and a message of the abnormality is displayed on the message display means. If the cause of the fault occurring in the diagnostic control device is a failure in which processing cannot be continued in the diagnostic control device, the diagnostic control device Is stopped and then recovered by the automatic recovery function, after the recovery, the retransmission request notifying means issues a retransmission request notification to the OS via the central processing unit, and the OS that receives the retransmission request. Is a step of issuing a notification of a registration processing request to the central processing unit in order to start the inter-system communication processing from the registration processing.

【0020】[0020]

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。
Next, embodiments of the present invention will be described in detail with reference to the drawings.

【0021】図1は、本発明の実施の形態の全体構成を
示す図である。本実施の形態は、OS100〜1n0,
中央処理装置200〜2n0,診断処理装置300〜3
n0および主記憶装置400〜4n0から構成されてい
る複数の情報処理装置500〜5n0と、サービスプロ
セッサ600とが1本のイーサネット700に接続され
ている。
FIG. 1 is a diagram showing an overall configuration of an embodiment of the present invention. In this embodiment, the OSs 100 to 1n0,
Central processing units 200 to 2n0, diagnostic processing units 300 to 3
A plurality of information processing devices 500 to 5n0 including n0 and main storage devices 400 to 4n0 and a service processor 600 are connected to one Ethernet 700.

【0022】OS100〜1n0は、ヘルスチェック機
能により、情報処理装置500〜5n0間の状態監視を
系間通信によって制御している。
The OSs 100 to 1n0 control the status monitoring between the information processing devices 500 to 5n0 by the inter-system communication by the health check function.

【0023】中央処理装置200〜2n0は、OS10
0〜1n0からの指示によって系間通信のデータを主記
憶装置400〜4n0に書き込み、診断制御装置300
〜3n0に対して系間通信要求の通知を発行する。
The central processing units 200 to 2n0 are connected to the OS 10
0 to 1n0, the data of the inter-system communication is written to the main storage devices 400 to 4n0, and the diagnostic control device 300
To 3n0.

【0024】診断制御装置300〜3n0は、各情報処
理装置500〜5n0の保守診断の実施や各情報処理装
置500〜5n0の初期化を含めたシステムの立ち上げ
および立ち下げ処理を行う。また、OS100〜1n0
が立ち上がってからは、系間通信処理を制御し、各情報
処理装置500〜5n0の障害発生時の障害解析用のロ
グデータを採取してサービスプロセッサ600に転送
し、簡易障害の場合は訂正処置などを行う。
The diagnostic control devices 300 to 3n0 perform maintenance and diagnosis of the information processing devices 500 to 5n0, and perform system startup and shutdown processing including initialization of the information processing devices 500 to 5n0. In addition, OS100-1n0
Is started, the inter-system communication processing is controlled, log data for failure analysis at the time of occurrence of a failure in each of the information processing devices 500 to 5n0 is collected and transferred to the service processor 600, and in the case of a simple failure, a corrective action is taken. And so on.

【0025】主記憶装置400〜4n0には、中央処理
装置200〜2n0と診断制御装置間300〜3n0の
系間通信処理の転送データが書き込まれ、これら装置間
での処理の移行の際に必要となるデータが一時的に格納
される。
In the main storage devices 400 to 4n0, transfer data of inter-system communication processing between the central processing units 200 to 2n0 and the diagnostic control devices 300 to 3n0 is written, and is necessary when the processing is transferred between these devices. Is temporarily stored.

【0026】サービスプロセッサ600は、情報処理装
置500〜5n0内で障害が発生した場合の障害解析用
のログデータを診断制御装置300〜3n0から受け取
り表示する。また、外部からの保守診断コマンドや、シ
ステムの立ち上げ指示などのオペレータインタフェース
を実現している。
The service processor 600 receives log data for failure analysis from the diagnostic control devices 300 to 3n0 when a failure occurs in the information processing devices 500 to 5n0, and displays the log data. It also implements an operator interface such as an external maintenance diagnosis command and a system startup instruction.

【0027】図2は、図1における情報処理装置500
の詳細な構成を示す図である。他の情報処理装置510
〜5n0も同じ構成である。
FIG. 2 shows an information processing apparatus 500 shown in FIG.
FIG. 3 is a diagram showing a detailed configuration of the embodiment. Other information processing device 510
To 5n0 have the same configuration.

【0028】OS100は、情報処理装置500〜5n
0間の状態を監視するためのヘルスチェック通信を制御
する系間通信制御手段101と、OS立ち上げ時に登録
処理要求を発行し、また、他の情報処理装置510〜5
n0(以下、「他系ホスト」と記す)の状態監視時にヘ
ルスチェックの汎用系間通信を発行する系間通信発行手
段102と、登録処理にて必要となる情報処理装置50
0(以下、「自系ホスト」と記す)の系識別番号をあら
かじめ保持し、また、他系ホストからの登録通知にて他
系ホストの系識別番号を格納し、またヘルスチェックの
汎用系間通信を発行する時に装置構成状態を確認するシ
ステム構成情報記憶手段106と、自系ホストで発行し
た汎用系間通信に対する他系ホストからの応答の通知
や、他系ホストが発行する汎用系間通信を受信する系間
通信受付手段103と、他系ホストへの汎用系間通信発
行後に他系ホストからの応答を一定時間監視する応答時
間監視手段104と、他系ホストとの間における系間通
信の認識や異常等のメッセージを表示するメッセージ表
示手段105とを有する。
The OS 100 includes information processing devices 500 to 5n
An inter-system communication control unit 101 that controls health check communication for monitoring a state between 0, issues a registration processing request when the OS is started,
n0 (hereinafter referred to as "other system host"), an inter-system communication issuing unit 102 for issuing a general-purpose inter-system communication for health check when monitoring the status, and an information processing device 50 required for registration processing
A system identification number of 0 (hereinafter, referred to as “local host”) is held in advance, the system identification number of the other system host is stored by a registration notification from the other system host, and the general-purpose system for health check is stored. A system configuration information storage unit for confirming a device configuration state when issuing a communication; a notification of a response from the other system host to the general system communication issued by the own system host; and a general system communication issued by the other system host. Communication receiving means 103 for receiving a response, a response time monitoring means 104 for monitoring a response from the other host for a certain time after issuing a general-purpose communication to the other host, and an inter-system communication between the other host. And a message display means 105 for displaying a message such as recognition of an error or an abnormality.

【0029】中央処理装置200は、OS100からの
系間通信発行要求を受ける系間通信送信手段201と、
受け付けた系間通信要求の通信データを主記憶装置40
0に格納し、診断制御装置300に対して処理要求を発
行する対DGP通信発行手段203と、診断制御装置3
00からの処理要求を受信する対DGP通信受信手段2
04と、診断制御装置300から受けた汎用系間通信を
OS100に対して通知するための系間通信受信手段2
02とを有する。
The central processing unit 200 includes an inter-system communication transmitting unit 201 for receiving an inter-system communication issuance request from the OS 100,
The communication data of the received inter-system communication request is stored in the main storage device 40.
0, and issues a processing request to the diagnostic control device 300.
DGP communication receiving means 2 for receiving a processing request from 00
04 and an inter-system communication receiving means 2 for notifying the OS 100 of the general-purpose inter-system communication received from the diagnosis control device 300.
02.

【0030】診断制御装置300は、中央処理装置20
0からの処理要求を受け、その転送データを主記憶装置
400から読み込むOS命令受信手段301と、OS1
00からの指示データによって、系識別番号の登録処理
や、他系ホストに対して汎用系間通信を発行する系間通
信処理手段303と、各ホストのシステム立ち上げにお
いて登録処理要求があった場合に系識別番号を登録し、
他系ホストへの系間通信発行時に参照する全ての他系ホ
ストの識別番号の登録状態を管理している系識別番号管
理テーブル記憶手段309と、他系ホストに存在する診
断制御装置310〜3n0に汎用系間通信の通信データ
を送信する他系ホスト送信手段304と、他系ホストに
存在する診断制御装置310〜3n0からの汎用系間通
信の通信データを受信する他系ホスト受信手段305
と、他系ホストから受信した汎用系間通信を中央処理装
置200に通知する汎用通信通知手段302と、診断制
御装置300の障害を検出する異常検出手段306と、
診断制御装置300にて処理継続不可能な障害の場合に
自動回復処理を制御するリブート制御手段307と、診
断制御装置300での自動回復時にOS100の系間通
信処理を再開するためにOS100に対して再送要求を
通知する再送要求通知手段308を有する。
The diagnostic control unit 300 is provided with the central processing unit 20
OS command receiving means 301 that receives a processing request from the main storage device 400 and reads the transfer data from the main storage device 400;
When there is a registration processing request in the system identification number registration processing, the inter-system communication processing means 303 for issuing general-purpose inter-system communication to the other system host, and the system startup of each host according to the instruction data from 00 Register the system identification number in
A system identification number management table storage unit 309 that manages the registration status of the identification numbers of all the other hosts to be referred to when issuing inter-system communication to the other host, and a diagnosis control device 310 to 3n0 that exists in the other host. Other-system host transmitting means 304 for transmitting communication data for general-purpose communication to the other system, and another-system host receiving means 305 for receiving communication data for general-purpose communication from the diagnostic control devices 310 to 3n0 existing in the other system host.
A general-purpose communication notifying unit 302 that notifies the central processing unit 200 of general-purpose communication received from another system host, an abnormality detecting unit 306 that detects a failure of the diagnostic control device 300,
Reboot control means 307 for controlling the automatic recovery process in the case of a failure in which the processing cannot be continued by the diagnostic control device 300, and the OS 100 for restarting the inter-system communication processing of the OS 100 at the time of the automatic recovery by the diagnostic control device 300. And a retransmission request notifying unit 308 for notifying a retransmission request.

【0031】次に、図3の系間通信指示情報,図4の系
識別番号管理テーブルフォーマット,図5のホストの構
成例および図6と図7の処理移行図を参照して本実施の
形態の登録処理の動作について詳細に説明する。
Next, referring to the inter-system communication instruction information in FIG. 3, the system identification number management table format in FIG. 4, the configuration example of the host in FIG. 5, and the process transition diagrams in FIG. 6 and FIG. The operation of the registration process will be described in detail.

【0032】図3の系間通信指示情報は、OSからの系
間通信の処理要求の際にCPUが受けるデータであり、
種別コードにて登録要求か汎用通信かを切り分ける。登
録要求の場合は、系識別番号は登録する自系の番号とな
り通信データは無効である。汎用通信の場合は、系識別
番号は通信相手先の系番号を示し、通信データは有効と
なり、これを相手先の他系ホストのOSまで転送する。
転送を受けたOSは、この通信データのコードによって
ヘルスチェックの通信か登録の通知かを認識することが
できる。
The inter-system communication instruction information shown in FIG. 3 is data received by the CPU when the inter-system communication process is requested from the OS.
It distinguishes between a registration request and general-purpose communication based on the type code. In the case of a registration request, the system identification number becomes the own system number to be registered, and the communication data is invalid. In the case of general communication, the system identification number indicates the system number of the communication partner, the communication data becomes valid, and this is transferred to the OS of the other host of the partner.
The OS that has received the transfer can recognize the communication of the health check or the notification of the registration based on the code of the communication data.

【0033】例えば、図5のようなホスト構成におい
て、ホスト2は既にシステム立ち上げ済みのため系識別
番号が登録されている状態でホスト1のシステム立ち上
げが実施された場合、まず、OS1が立ち上がるとOS
1の系間通信制御手段(図2の101)は、あらかじめ
定められている自系ホストの識別番号をシステム構成情
報記憶手段(106)から読み出し、系間通信発行手段
(102)に登録処理要求を通知する。系間通信発行手
段(102)は、系間通信指示情報(図3)の種別コー
ドに「登録要求」を設定し、系識別番号に系間通信制御
手段(101)から受け取った自系ホストに登録する系
識別番号を設定し、CPU1の系間通信送信手段(20
1)に対してシステム立ち上げ時の系識別番号の登録処
理要求を発行する(図6のステップS1)。
For example, in the host configuration as shown in FIG. 5, when the system of the host 1 is started in a state where the host 2 has already started the system and the system identification number is registered, first, the OS 1 OS when it starts up
The first inter-system communication control means (101 in FIG. 2) reads a predetermined host system identification number from the system configuration information storage means (106) and requests the inter-system communication issuing means (102) for a registration processing request. Notify. The inter-system communication issuing means (102) sets "registration request" in the type code of the inter-system communication instruction information (FIG. 3), and sends the system identification number to the own host received from the inter-system communication control means (101). The system identification number to be registered is set, and the inter-system communication transmitting means (20
For 1), a registration processing request for the system identification number at the time of system startup is issued (step S1 in FIG. 6).

【0034】CPU1の系間通信送信手段(201)
は、登録処理要求をDGP1に通知するために対DGP
通信発行手段(203)を起動し、OS1から受けた登
録要求の通信データである系間通信指示情報(図3)の
データを主記憶装置(400)に格納してDGP1へ通
知する(ステップS2)。
Inter-system communication transmission means (201) of CPU 1
To notify DGP1 of the registration processing request
The communication issuing means (203) is activated, and the data of the inter-system communication instruction information (FIG. 3), which is the communication data of the registration request received from the OS1, is stored in the main storage device (400) and notified to the DGP1 (step S2). ).

【0035】DGP1のOS命令受信手段(301)
は、CPU1からの登録要求を受けて、主記憶装置(4
00)から通信データを読み出す。系間通信処理手段
(303)は、読み出した通信データの種別コードか
ら、本命令が登録処理要求であることを認識し、自系ホ
ストに登録する系識別番号を、系識別番号管理テーブル
記憶手段(309)の自系ホスト番号(ホスト1)のエ
リアに登録する(ステップS3)。系識別番号管理テー
ブルのフォーマットは、図4に示したように、ホスト番
号順に存在し、系識別番号が登録済みか否かのフラグ
と、ホストから指示のあった系識別番号を格納する。
OS command receiving means of DGP1 (301)
Receives a registration request from the CPU 1 and receives a registration request from the main storage device (4
00) is read out. The inter-system communication processing means (303) recognizes that this command is a registration processing request from the type code of the read communication data, and stores the system identification number to be registered in the own system host in the system identification number management table storage means. It is registered in the area of its own host number (host 1) of (309) (step S3). As shown in FIG. 4, the format of the system identification number management table exists in the order of host numbers, and stores a flag indicating whether or not the system identification number has been registered and a system identification number specified by the host.

【0036】管理テーブルを作成後、DGP1の系間通
信処理手段(303)は、他系ホストに自系識別番号を
登録するためにDGP1の他系ホスト送信手段(30
4)からDGP2の他系ホスト受信手段(315)に登
録処理要求の通知を発行し、登録の系識別番号を転送す
る(ステップS4)。
After creating the management table, the inter-system communication processing means (303) of the DGP1 transmits the other-system host transmitting means (30) of the DGP1 to register the own system identification number in the other-system host.
From 4), a notification of a registration processing request is issued to the other system host receiving means (315) of DGP2, and the registered system identification number is transferred (step S4).

【0037】DGP1からの登録要求の通知を受けたD
GP2の他系ホスト受信手段(315)は、登録処理要
求をDGP2の系間通信処理手段(313)に通知し、
DGP1から受信した転送データのホスト1の系識別番
号をDGP2の系識別番号管理テーブル記憶手段(31
9)のホスト1のエリアに格納する(ステップS5)。
続けて、DGP2では、既に自系ホストの系識別番号が
登録済みであれば、ホスト2の系識別番号を系識別番号
管理テーブル記憶手段(319)から読み出し、DGP
1へのリプライデータとしてホスト2の系識別番号を返
信する(ステップS6)。
D receiving the notification of the registration request from DGP1
The other-system host receiving means (315) of GP2 notifies the registration processing request to the inter-system communication processing means (313) of DGP2,
The system identification number of the host 1 of the transfer data received from the DGP1 is stored in the system identification number management table storage unit (31) of the DGP2.
The information is stored in the area of the host 1 in step 9) (step S5).
Subsequently, in DGP2, if the system identification number of the own system host has already been registered, the system identification number of host 2 is read from the system identification number management table storage means (319), and the DGP2 is read.
The system identification number of the host 2 is returned as reply data to the host 1 (step S6).

【0038】DGP1では、DGP2からのリプライデ
ータを受信すると、それが登録処理のリプライデータで
あり、かつ他系ホストの系識別番号が返信されていたな
らば、受信データであるホスト2の系識別番号をDGP
1の系識別番号管理テーブル記憶手段(309)のホス
ト2のエリアに格納する(ステップS7)。
In DGP1, upon receiving the reply data from DGP2, if the reply data is the reply data of the registration processing and the system identification number of the other system host is returned, the system identification of host 2 which is the received data is returned. DGP number
The information is stored in the area of the host 2 in the first system identification number management table storage means (309) (step S7).

【0039】続いて、OS1の系間通信制御手段(10
1)は、全ホスト系に対して自系システムの登録と稼働
を通知するために、系間通信発行手段(102)に対し
て登録通知の汎用通信発行要求を通知する。系間通信発
行手段(102)は、系間通信指示情報(図3)の種別
コードに「汎用通信」を設定し、系識別番号には相手先
を全系指定とするコードを設定し、通信データには登録
通知であるコードを設定し、CPU1の系間通信送信手
段(201)に対して登録通知の汎用系間通信を発行す
る(図7のステップS8)。CPU1の系間通信送信手
段(201)は、汎用系間通信の発行要求をDGP1に
通知するために対DGP通信発行手段(203)を起動
し、登録通知の汎用系間通信の通信データを主記憶装置
(400)に格納してDGP1へ通知する(ステップS
9)。
Subsequently, the inter-system communication control means (10
1) notifies the inter-system communication issuing means (102) of a general-purpose communication issuance request for registration notification in order to notify all host systems of registration and operation of the own system. The inter-system communication issuing means (102) sets the type code of the inter-system communication instruction information (FIG. 3) to "general-purpose communication", sets the system identification number to a code that designates the other party as the whole system, A code which is a registration notification is set in the data, and a general-purpose inter-system communication of the registration notification is issued to the inter-system communication transmitting means (201) of the CPU 1 (step S8 in FIG. 7). The inter-system communication transmitting means (201) of the CPU 1 activates the DGP communication issuing means (203) to notify the DGP 1 of the issuance request of the general inter-system communication, and mainly transmits the communication data of the general inter-system communication of the registration notification. It is stored in the storage device (400) and notified to the DGP1 (step S
9).

【0040】汎用系間通信の発行要求を受けたDGP1
のOS命令受信手段(301)は、主記憶装置(40
0)から転送データを読み出し、系間通信処理手段(3
03)は、読み出した通信データの種別コードから、本
命令が汎用通信処理要求であることを認識し、さらに、
通信データの系識別番号から相手先が全系指定であるこ
とを認識することによって、系識別番号管理テーブル記
憶手段(ステップ309)に登録されている全ての他系
ホストに対して汎用系間通信の通信データを転送する。
図4および図5のシステム構成においては、相手先ホス
トはホスト2のみであるから、DGP1は、これに従っ
て、他系ホスト送信手段(304)から相手先ホストで
あるDGP2の他系ホスト受信手段(315)に対して
汎用系間通信の通信データを転送する(ステップS1
0)。
DGP 1 that has received a request to issue general-purpose inter-system communication
OS command receiving means (301) of the main storage device (40)
0), and reads the transfer data from the inter-system communication processing means (3).
03) recognizes that this command is a general-purpose communication processing request from the type code of the read communication data,
By recognizing from the system identification number of the communication data that the other party is designated as the entire system, the general-purpose inter-system communication is performed with respect to all the other hosts registered in the system identification number management table storage means (step 309). Transfer communication data.
In the system configuration shown in FIGS. 4 and 5, since the other host is only the host 2, the DGP 1 sends the other host transmitting means (304) from the other host transmitting means (304) to the other host receiving means (DGP 2). 315) to transfer the communication data of the general-purpose inter-system communication (step S1).
0).

【0041】DGP1からの汎用系間通信を受けたDG
P2の他系ホスト受信手段(315)は、汎用系間通信
処理要求をDGP2の系間通信処理手段(313)に通
知し、DGP1から受信した汎用系間通信の転送データ
を主記憶装置(410)に書き込み、汎用通信通知手段
(312)によってCPU2に対して汎用系間通信を通
知する(ステップS11)。CPU2の対DGP通信受
信手段(214)は、DGP2からの汎用系間通信の通
知を受けると、主記憶装置(410)から転送データを
読み出し、系間通信受信手段(212)を起動し、OS
2に対して汎用系間通信の通信データを通知する(ステ
ップS12)。
DG receiving general-purpose inter-system communication from DGP1
The other-system host receiving unit (315) of P2 notifies the inter-system communication processing unit (313) of the DGP2 of the general-purpose inter-system communication processing request, and transfers the transfer data of the general-purpose inter-system communication received from the DGP1 to the main storage device (410). ), And notifies the CPU 2 of the general-purpose communication by the general-purpose communication notifying means (312) (step S11). Upon receiving the notification of the general-purpose inter-system communication from the DGP 2, the DGP communication reception means (214) of the CPU 2 reads the transfer data from the main storage device (410), activates the inter-system communication reception means (212), and activates the OS.
2 is notified of the communication data of the general-purpose communication (step S12).

【0042】OS2の系間通信受付手段(113)は、
CPU2から受け取った汎用系間通信の通信データによ
ってホスト1の登録を認識し、「系識別番号06の他系
ホストの稼働を認識した」というメッセージをメッセー
ジ表示手段(115)にて表示する(ステップS1
3)。OS2の系間通信制御手段(111)は、受信し
た通信データにより相手系の系識別番号をシステム構成
情報記憶手段(116)に格納し、次回からの1対1の
ヘルスチェックにて使用する。また、系間通信制御手段
(111)は、続けて、登録通知に対するホスト間での
応答となるメッセージの通信データを転送するために系
間通信発行手段(112)に対して、応答通知の汎用通
信発行要求を通知する。系間通信発行手段(112)
は、系間通信指示情報(図3)の種別コードに「汎用通
信」を設定し、系識別番号には直前に登録通知を受けた
ホスト1の系識別番号を相手先として設定し、通信デー
タには登録通知に対する応答であるというコードを設定
し、CPU2の系間通信送信手段(211)に対して応
答通知の汎用系間通信を発行する(ステップS14)。
The inter-system communication receiving means (113) of the OS 2
The registration of the host 1 is recognized based on the communication data of the general-purpose communication received from the CPU 2, and a message that “the operation of another system host of the system identification number 06 has been recognized” is displayed on the message display means (115) (step). S1
3). The inter-system communication control means (111) of the OS 2 stores the system identification number of the partner system in the system configuration information storage means (116) based on the received communication data, and uses it in the next one-to-one health check. Further, the inter-system communication control means (111) continuously sends the response notification general-purpose to the inter-system communication issuing means (112) in order to transfer communication data of a message serving as a response between the hosts to the registration notification. Notify the communication issue request. Inter-system communication issuing means (112)
Sets the type code of the inter-system communication instruction information (FIG. 3) to "general-purpose communication", sets the system identification number of the host 1 that has just received the registration notification as the destination, and sets the communication data Is set as a response to the registration notification, and a general notification of the response notification is issued to the inter-system communication transmitting means (211) of the CPU 2 (step S14).

【0043】CPU2の系間通信送信手段(211)
は、OS2からの汎用系間通信の発行要求をDGP2に
通知するために対DGP通信発行手段(213)を起動
し、応答通知の汎用系間通信の通信データを主記憶装置
(410)に格納してDGP2を起動する(ステップS
15)。
Inter-system communication transmission means of CPU 2 (211)
Activates the DGP communication issuing means (213) to notify the DGP2 of the issuance request of the inter-system communication from the OS2, and stores the communication data of the inter-system communication of the response notification in the main storage device (410). To start DGP2 (step S
15).

【0044】汎用系間通信の発行要求を受けたDGP2
のOS命令受信手段(311)は、主記憶装置(41
0)から転送データを読み出し、系間通信処理手段(3
13)は、通信データの種別コードから、本命令が汎用
通信処理要求であることを認識し、さらに通信データの
系識別番号から相手先がホスト1であることを認識し、
他系ホスト送信手段(314)から相手先ホストである
DGP1の他系ホスト受信手段(305)に対して汎用
系間通信の通信データを転送する(ステップS16)。
DGP 2 that receives a request to issue general-purpose inter-system communication
The OS command receiving means (311) of the main storage (41)
0), and reads the transfer data from the inter-system communication processing means (3).
13) recognizes that this command is a general-purpose communication processing request from the type code of the communication data, and further recognizes that the destination is the host 1 from the system identification number of the communication data,
The communication data of the general-purpose system communication is transferred from the other-system host transmitting means (314) to the other-system host receiving means (305) of the DGP1 which is the destination host (step S16).

【0045】DGP2からの汎用系間通信を受けたDG
P1の他系ホスト受信手段(305)は、汎用系間通信
処理要求をDGP1の系間通信処理手段(303)に通
知し、DGP2から受信した汎用系間通信の転送データ
を主記憶装置(400)に書き込み、汎用通信通知手段
(302)によってCPU1に対して汎用系間通信を通
知する(ステップS17)。CPU1の対DGP通信受
信手段(204)は、DGP1からの汎用系間通信の通
知を受けると、主記憶装置(400)から転送データを
読み出し、系間通信受信手段(202)を起動し、OS
1に対して汎用系間通信の通信データを通知する(ステ
ップS18)。OS1の系間通信受信手段(103)に
てCPU1から汎用系間通信を受信すると、その転送デ
ータによってホスト2からの応答を認識し、「系識別番
号07の他系ホストの稼働を認識した」というメッセー
ジをメッセージ表示手段(105)にて表示し、OS1
の系間通信制御手段(101)は、受信した通信データ
により相手系の系識別番号をシステム構成情報記憶手段
(106)のホスト2のエリアに格納し(ステップS1
9)、次回からの1対1のヘルスチェックにて使用す
る。以後、ホスト1からホスト2へのヘルスチェックの
汎用系間通信が上記と同様の処理により一定周期間隔で
発行される。
DG receiving general-purpose inter-system communication from DGP2
The other-system host receiving means (305) of P1 notifies the inter-system communication processing means (303) of the general-purpose system communication processing request, and transfers the transfer data of the general-purpose inter-system communication received from DGP2 to the main storage device (400). ), And notifies the CPU 1 of the general-purpose inter-system communication by the general-purpose communication notifying means (302) (step S17). Upon receiving the notification of the general-purpose inter-system communication from the DGP 1, the DGP communication reception means (204) of the CPU 1 reads the transfer data from the main storage device (400), activates the inter-system communication reception means (202), and activates the OS.
1 is notified of communication data of general-purpose inter-system communication (step S18). When the inter-system communication receiving means (103) of the OS 1 receives the general-purpose inter-system communication from the CPU 1, the response from the host 2 is recognized by the transfer data, and "the operation of the other system host of the system identification number 07 is recognized." Is displayed on the message display means (105).
The system communication control means (101) stores the system identification number of the partner system in the area of the host 2 of the system configuration information storage means (106) based on the received communication data (step S1).
9), used in the next one-on-one health check. Thereafter, the general-purpose communication of the health check from the host 1 to the host 2 is issued at regular intervals by the same processing as described above.

【0046】次に、図8を参照して、本実施の形態の診
断制御装置の自動回復の動作について詳細に説明する。
Next, the automatic recovery operation of the diagnostic control device according to the present embodiment will be described in detail with reference to FIG.

【0047】上述した動作と同様にして、OS1から他
系ホストの状態監視としてのヘルスチェック通信を発行
する(図8のステップV1)。これをCPU1が受け取
ると、転送データを主記憶装置(400)に書き込み、
DGP1に汎用通信の処理要求を行う(ステップV
2)。DGP1は、系間通信の処理要求を受けると主記
憶装置(400)からデータを読み出し、他系ホストの
DGP2に対して系間通信のデータを転送する(ステッ
プV3)。
In the same manner as the above-described operation, the OS 1 issues a health check communication as a status monitor of another host (step V 1 in FIG. 8). When this is received by the CPU 1, the transfer data is written into the main storage device (400),
Sends a processing request for general-purpose communication to DGP1 (step V
2). Upon receiving the processing request for the inter-system communication, the DGP 1 reads the data from the main storage device (400) and transfers the data for the inter-system communication to the DGP 2 of the other system host (step V3).

【0048】この時に、DGP2で処理継続が不可能な
要因の障害が発生すると、DGP1の他系ホスト送信手
段(304)は、DGP2へのアクセスで通信異常を検
出するためDGP2への通信を中断する(ステップV
4)。OS1は、他系ホストからの応答を待ち続ける
が、この状態では応答も返信されないため、OS1の応
答時間監視手段(104)は監視時間のタイムアウトを
検出し(ステップV5)、通信相手のホストの異常のメ
ッセージをメッセージ表示手段(105)に表示し(ス
テップV6)、以後一切のヘルスチェック処理は停止し
たままとなる。
At this time, if a failure occurs due to a factor that makes it impossible to continue processing in DGP2, the other-system host transmission means (304) of DGP1 suspends communication to DGP2 in order to detect a communication abnormality upon access to DGP2. (Step V
4). The OS 1 continues to wait for a response from the other host, but no response is returned in this state. Therefore, the response time monitoring means (104) of the OS 1 detects a timeout of the monitoring time (step V5), and An error message is displayed on the message display means (105) (step V6), and all health check processing remains stopped thereafter.

【0049】その一方で、DGP2では、異常検出手段
(316)が障害を検出し(ステップV7)、DGP2
のリブート制御手段(317)によって自動回復処理が
実施され(ステップV8)、障害要因を消却した後、再
び初期化され立ち上がる(ステップV9)。自動回復処
理により再立ち上げされたならば、再送要求通知手段
(318)によって、OS2への再送要求の通知のデー
タを主記憶装置(410)書き込み、CPU2の対DG
P通信受信手段(214)に再送要求の通知を発行する
(ステップV10)。
On the other hand, in DGP2, the abnormality detecting means (316) detects a failure (step V7),
The automatic recovery process is performed by the reboot control means (317) (Step V8), and after the cause of the failure is eliminated, the system is initialized and started again (Step V9). If it is restarted by the automatic recovery processing, the retransmission request notifying means (318) writes the data of the notification of the retransmission request to the OS2 to the main storage device (410), and the CPU 2
A retransmission request notification is issued to the P communication receiving means (214) (step V10).

【0050】再送要求の通知を受けたCPU2の対DG
P通信受信手段(214)は、主記憶装置(410)か
ら転送データを読み出し、系間通信受信手段(212)
を起動し、OS2に対して再送要求の汎用通信の通信デ
ータを通知し、OS2の系間通信受付手段(113)
は、CPU2から受け取った汎用系間通信の通信データ
によって再送要求を認識し、系間通信制御手段(11
1)を起動する。系間通信制御手段(111)は、あら
かじめ定められている自系の識別番号をシステム構成情
報記憶手段(116)から読み出し、系間通信発行手段
(112)に再送要求受信による登録処理要求を通知す
る。系間通信発行手段(112)は、系間通信指示情報
(図3)の種別コードに「登録要求」を設定し、系識別
番号に系間通信制御手段(111)から受け取った自系
に登録する系識別番号を設定し、CPU2の系間通信送
信手段(211)に対して再送要求受信時の系識別番号
の登録処理要求を発行する(ステップV11)。
The DG pair of the CPU 2 receiving the notification of the retransmission request
The P communication receiving means (214) reads the transfer data from the main storage device (410), and reads the inter-system communication receiving means (212).
And notifies the OS 2 of the communication data of the retransmission request general-purpose communication, and the inter-system communication receiving means (113) of the OS 2
Recognizes a retransmission request based on communication data of general-purpose inter-system communication received from the CPU 2, and executes inter-system communication control means (11
Start 1). The inter-system communication control means (111) reads a predetermined identification number of the own system from the system configuration information storage means (116), and notifies the inter-system communication issuing means (112) of a registration processing request by receiving a retransmission request. I do. The inter-system communication issuing means (112) sets "registration request" in the type code of the inter-system communication instruction information (FIG. 3), and registers in the own system received from the inter-system communication control means (111) in the system identification number. A system identification number to be set is set, and a registration processing request for the system identification number at the time of receiving the retransmission request is issued to the inter-system communication transmitting means (211) of the CPU 2 (step V11).

【0051】ホスト番号は入れ替わってしまうが、図6
のステップS2からステップS7まで、および図7のス
テップS8からステップS12までの動作と同様にし
て、CPU2からDGP2に対して登録要求の通知があ
がり(図6のステップS2と同処理)、DGP2での登
録処理を実施し(ステップS3と同処理)、DGP2か
らDGP1に登録要求が通知され、DGP1にて登録処
理を実施する(ステップS4およびS5と同処理)。そ
の後、DGP1からDGP2への応答にてホスト1の系
識別番号を認識し(ステップS6およびS7と同処
理)、ホスト2からホスト1に対して登録通知の汎用系
間通信を発行する(図7のステップS8からS12と同
様)。ホスト1にてホスト2からの登録通知の汎用系間
通信を受信することによって(図8のステップV1
2)、ホスト1ではホスト2を再認識し(ステップV1
3)、その後、両ホストでのヘルスチェックが再開でき
る。
Although the host numbers are changed, FIG.
In step S2 to step S7 in FIG. 7 and in steps S8 to S12 in FIG. 7, the CPU 2 notifies the DGP 2 of the registration request (the same processing as in step S2 in FIG. 6). (Same processing as step S3), the registration request is notified from DGP2 to DGP1, and the registration processing is performed in DGP1 (same processing as steps S4 and S5). After that, the system identification number of the host 1 is recognized by the response from the DGP 1 to the DGP 2 (the same processing as in steps S6 and S7), and the host 2 issues the general-purpose inter-system communication of the registration notification to the host 1 (FIG. 7). Steps S8 to S12). The host 1 receives the general-purpose inter-system communication of the registration notification from the host 2 (step V1 in FIG. 8).
2) The host 1 recognizes the host 2 again (step V1).
3) After that, the health check on both hosts can be resumed.

【0052】[0052]

【発明の効果】本発明の第1の効果は、OS運用中にお
いて診断制御装置が障害により制御不可能となったとし
ても、システム全体を停止させてシステムの再立ち上げ
により系間通信処理を再開するのではなく、診断制御装
置の復旧をトリガとして自動的に再開することを可能と
し、システムの稼働率を向上することにある。
The first effect of the present invention is that even if the diagnostic control unit becomes uncontrollable due to a failure during the operation of the OS, the entire system is stopped and the inter-system communication processing is performed by restarting the system. An object of the present invention is to make it possible to restart automatically by triggering recovery of the diagnostic control device instead of restarting, thereby improving the operation rate of the system.

【0053】その理由は、診断制御装置で処理継続不可
能な障害が発生した場合に、自動回復機能によって復旧
処理を行い、再立ち上げ後にOSに対して再送要求を発
行することによって、OSから再度登録処理を実施する
ため、複数ホストを再認識することができ、系間通信処
理を再開できるためである。
The reason is that, when a failure in which the processing cannot be continued occurs in the diagnostic control device, a recovery process is performed by the automatic recovery function, and a retransmission request is issued to the OS after restarting, thereby allowing the OS to execute the process. This is because a plurality of hosts can be recognized again because the registration processing is performed again, and the inter-system communication processing can be restarted.

【0054】また、第2の効果は、系間通信処理の高速
化を図ることにある。その理由は、系間通信を実施する
ための専用の装置にて系間通信処理の制御を行っていた
ものを、診断制御装置に系間通信処理の制御を移したこ
とにより、専用の装置を経由する時間が短縮できたため
である。
The second effect is to speed up the inter-system communication processing. The reason is that the control of the inter-system communication process was performed by the dedicated device for performing the inter-system communication, but the control of the inter-system communication process was transferred to the diagnostic control device. This is because the time taken to go through was reduced.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明が通用されるシステム構成を示す図FIG. 1 is a diagram showing a system configuration to which the present invention can be applied;

【図2】本発明の一実施の形態を示す図FIG. 2 is a diagram showing an embodiment of the present invention.

【図3】本発明で使用される系間通信指示情報のフォー
マットを示す図
FIG. 3 is a diagram showing a format of inter-system communication instruction information used in the present invention;

【図4】本発明で使用される系識別番号管理テーブルの
フォーマットを示す図
FIG. 4 is a diagram showing a format of a system identification number management table used in the present invention.

【図5】本発明の系間通信処理装置の動作を説明するた
めの具体的な構成例を示す図
FIG. 5 is a diagram showing a specific configuration example for explaining the operation of the inter-system communication processing device of the present invention.

【図6】本発明における登録処理の前半の動作を示す図FIG. 6 is a diagram showing an operation in a first half of a registration process according to the present invention;

【図7】本発明における登録処理の後半の動作を示す図FIG. 7 is a diagram showing an operation in the latter half of the registration process in the present invention.

【図8】本発明における診断制御装置の障害時の動作を
示す図
FIG. 8 is a diagram showing an operation of the diagnostic control device according to the present invention when a failure occurs.

【図9】従来技術のシステム構成を示す図FIG. 9 is a diagram showing a system configuration according to the related art.

【符号の説明】[Explanation of symbols]

100,110,1n0 オペレーティングシステム 200,210,2n0 中央処理装置 300,310,3n0 診断制御装置 400,410,4n0 主記憶装置 500,510,5n0 情報処理装置 600 サービスプロセッサ 700 イーサネット 101 系間通信制御手段 102 系間通信発行手段 103 系間通信受付手段 104 応答時間監視手段 105 メッセージ表示手段 106 システム構成情報記憶手段 201 系間通信送信手段 202 系間通信受信手段 203 対DGP通信発行手段 204 対DGP通信受信手段 301 OS命令受信手段 302 汎用通信通知手段 303 系間通信処理手段 304 他系ホスト送信手段 305 他系ホスト受信手段 306 異常検出手段 307 リブート制御手段 308 再送要求通知手段 309 系識別番号管理テーブル記
憶手段
100, 110, 1n0 Operating system 200, 210, 2n0 Central processing unit 300, 310, 3n0 Diagnostic control device 400, 410, 4n0 Main storage device 500, 510, 5n0 Information processing device 600 Service processor 700 Ethernet 101 Inter-system communication control means Reference Signs List 102 inter-system communication issuing means 103 inter-system communication accepting means 104 response time monitoring means 105 message display means 106 system configuration information storage means 201 inter-system communication transmitting means 202 inter-system communication receiving means 203 pair DGP communication issuing unit 204 pair DGP communication reception Means 301 OS command receiving means 302 General-purpose communication notifying means 303 Inter-system communication processing means 304 Other-system host transmitting means 305 Other-system host receiving means 306 Abnormality detecting means 307 Reboot control means 308 Retransmission request notifying means 30 System identification number management table storage means

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 情報処理装置それぞれが内蔵する診断制
御装置を介して相互のヘルスチェックのための系間通信
を行っている最中に、前記診断制御装置で障害が発生し
て前記ヘルスチェックにて異常が検出された場合に、そ
の後の該診断制御装置の復旧をトリガとして前記ヘルス
チェックを自動的に再開できることを特徴とする系間通
信処理装置。
While performing inter-system communication for mutual health check via a diagnostic control device incorporated in each information processing device, a failure occurs in the diagnostic control device and the health check is performed. Wherein the health check can be automatically restarted by a subsequent recovery of the diagnostic control device when an abnormality is detected.
【請求項2】 情報処理装置それぞれが内蔵する診断制
御装置を介してヘルスチェック通信を一定間隔で発行し
て間の状態監視を行う系間通信処理装置において、 前記診断制御装置は、 自装置で発生した障害を検出する異常検出手段と、 検出した障害が該診断制御装置において処理継続不可能
なものである場合に、該診断制御装置をダウンさせて自
動回復機能により復旧させるリブート制御手段と、 該自動復旧をトリガにして、該情報処理装置のOSに前
記ヘルスチェック通信の再送要求を発行する再送要求通
知手段とを備え、該再送要求を受けた前記OSは、該情
報処理装置の系識別番号の再登録を開始することによっ
て、当該情報処理システムの再立ち上げをすることな
く、前記ヘルスチェック通信を復旧できることを特徴と
する系間通信処理装置。
2. An inter-system communication processing device which issues health check communication at regular intervals via a diagnostic control device incorporated in each information processing device and monitors the state during the process, wherein the diagnostic control device is a self-device. Abnormality detection means for detecting a fault that has occurred; and reboot control means for, when the detected fault cannot be processed in the diagnostic control device, bringing the diagnostic control device down and restoring by an automatic recovery function, Resend request notifying means for issuing a resend request for the health check communication to the OS of the information processing apparatus by using the automatic recovery as a trigger, wherein the OS having received the resend request includes a system identification of the information processing apparatus. By starting re-registration of the number, the health check communication can be restored without restarting the information processing system. Shin processing apparatus.
【請求項3】 それぞれがオペレーティングシステムと
中央処理装置と診断制御装置と主記憶装置とを備えた情
報処理装置が1本のイーサネットに接続された情報処理
システムにおける系間通信処理装置において、 前記オペレーティングシステムは、 前記情報処理装置間で状態を監視するためのヘルスチェ
ック通信を制御する系間通信制御手段と、 他系情報処理装置に対するヘルスチェックの系間通信や
情報処理システム立ち上げ時の登録処理要求の発行を指
示する系間通信発行手段と、 他系情報処理装置からのヘルスチェックの系間通信や応
答の系間通信を受信する系間通信受付手段と、 他系情報処理装置に対して発行したヘルスチェックの系
間通信に対する他系情報処理装置からの応答の系間通信
を受けるまでを時間監視する応答時間監視手段と、 他系情報処理装置との間における系間通信の認識や異常
等のメッセージを表示するメッセージ表示手段と、 あらかじめ定められている自系情報処理装置の系識別番
号を記憶し、他系情報処理装置からの登録の汎用通信を
受けることによって他系情報処理装置を認識した時に他
系情報処理装置の系識別番号を記憶するシステム構成情
報記憶手段とを有し、 前記中央処理装置は、 該オペレーティングシステムからの系間通信発行要求の
指示を受ける系間通信送信手段と、 他系情報処理装置から受信した系間通信を前記オペレー
ティングシステムに対して通知する系間通信受信手段
と、 前記診断制御装置に対して系間通信の指示情報を与えて
処理要求する対DGP通信発行手段と、 前記診断制御装置からの汎用通信を受信する通信受信手
段とを備え、 前記診断制御装置は、 前記中央処理装置からの系間通信の処理要求を受けるO
S命令受信手段と、 他系情報処理装置の構成を管理し、他系情報処理装置と
の系間通信の送受信を制御する系間通信処理手段と、 自系情報処理装置からの登録処理要求にて自系情報処理
装置の系識別番号を記憶し、他系情報処理装置からの登
録処理要求にて他系情報処理装置の系識別番号を記憶す
る系識別番号管理テーブル記憶手段と、 系間通信を他系情報処理装置に転送する他系ホスト送信
手段と、 他系情報処理装置からの系間通信を受信する他系ホスト
受信手段と、 他系情報処理装置から受信した系間通信を自系情報処理
装置の前記オペレーティングシステムに通知するために
前記中央処理装置に通知する汎用通信通知手段と、 前記診断制御装置にて発生した障害を検出する異常検出
手段と、 発生した障害が該診断制御装置において処理継続不可能
な場合に、該診断制御装置をダウンさせて自動回復機能
により復旧させるリブート制御手段と、 該診断制御装置での復旧後に系間通信を再開させるため
の再送要求を前記オペレーティングシステムに発行する
再送要求通知手段とを備えることを特徴とする系間通信
処理装置。
3. An inter-system communication processing device in an information processing system in which an information processing device each including an operating system, a central processing unit, a diagnostic control device, and a main storage device is connected to a single Ethernet, The system includes an inter-system communication control unit that controls health check communication for monitoring a state between the information processing devices, a health check inter-system communication with another information processing device, and a registration process when the information processing system is started. Inter-system communication issuing means for instructing the issuance of a request; inter-system communication receiving means for receiving inter-system communication for health check and response from the other system information processing apparatus; Response time for monitoring the time until the inter-system communication of the response from the other system information processing device to the inter-system communication of the issued health check is received Viewing means, a message display means for displaying a message of recognition or abnormality of inter-system communication between the other system information processing apparatus, and a predetermined system identification number of the own system information processing apparatus. System configuration information storage means for storing a system identification number of the other information processing apparatus when the other information processing apparatus is recognized by receiving the general-purpose communication of registration from the system information processing apparatus; An inter-system communication transmitting unit that receives an instruction of an inter-system communication issuance request from the operating system; an inter-system communication receiving unit that notifies the operating system of inter-system communication received from another information processing apparatus; DGP communication issuing means for giving a request for processing by giving instruction information of inter-system communication to the diagnostic control device, and communication for receiving general-purpose communication from the diagnostic control device And a signal means, the diagnosis control unit receives a processing request for the inter-system communications from the central processing unit O
S command receiving means, inter-system communication processing means for managing the configuration of the other-system information processing apparatus, and controlling transmission and reception of inter-system communication with the other-system information processing apparatus, and receiving a registration processing request from the self-system information processing apparatus. A system identification number management table storing means for storing the system identification number of the own system information processing device, and storing the system identification number of the other system information processing device in response to a registration processing request from the other system information processing device; Other-system host transmitting means for transferring data to the other-system information processing apparatus, other-system host receiving means for receiving inter-system communication from the other-system information processing apparatus, and A general-purpose communication notifying unit that notifies the central processing unit to notify the operating system of the information processing device; an abnormality detecting unit that detects a failure that has occurred in the diagnostic control device; At A reboot control means for bringing down the diagnostic control device and recovering by the automatic recovery function when the processing cannot be continued; and a retransmission request for restarting inter-system communication after the recovery by the diagnostic control device to the operating system. An inter-system communication processing device comprising: a retransmission request notifying unit for issuing.
【請求項4】 それぞれがOSと中央処理装置と主記憶
装置と診断制御装置を備えた情報処理装置の間の系間通
信処理方法において、 情報処理装置のOSが、他系情報処理装置の状態監視の
ために一定の周期でヘルスチェックの汎用系間通信の発
行を指示する手順と、 該指示により、該OSから中央処理装置に汎用通信のデ
ータが転送される手順と、 中央処理装置では該汎用通信の転送データを主記憶装置
に書き込み前記診断制御装置に処理要求を通知する手順
と、 診断制御装置は該通知を受信すると、主記憶装置から転
送データを読み出して、他系情報処理装置判別して、他
の情報処理装置に対して系間通信を発行する手順と、 前記OSでは他系情報処理装置に対するヘルスチェック
の汎用系間通信を発行後、他系情報処理装置からの応答
が返信されるまでを時間監視する手順と、 応答がない場合には他系情報処理装置を異常と判断し、
異常のメッセージをメッセージ表示手段にて表示する手
順と、 前記診断制御装置にて発生した障害の要因が診断制御装
置において処理継続が不可能な故障の場合、該診断制御
装置は停止し、その後の自動回復機能にて復旧する手順
と、 復旧後に再送要求通知手段にて中央処理装置を介してO
Sに対して再送要求の通知を発行する手順と、 再送要求を受信したOSは系間通信処理を登録処理から
開始すべく、中央処理装置に対して登録処理要求の通知
を発行する手順とを有することを特徴とする系間通信処
理方法。
4. An inter-system communication processing method between an information processing apparatus including an OS, a central processing unit, a main storage device, and a diagnosis control device, wherein the OS of the information processing device is a state of another information processing device. A procedure for instructing the issuance of a general-purpose communication of a health check at regular intervals for monitoring, a procedure for transferring general-purpose communication data from the OS to the central processing unit according to the instruction, A procedure for writing the transfer data of the general-purpose communication to the main storage device and notifying the diagnostic control device of a processing request; and upon receiving the notification, the diagnostic control device reads the transfer data from the main storage device and determines the other system information processing device. Then, a procedure for issuing inter-system communication to another information processing apparatus, and the OS issuing a general-purpose inter-system communication for health check to the other information processing apparatus, and then responding from the other information processing apparatus. Determined but the procedure of monitoring until the reply time, if there is no response to the abnormality of other system information processing device,
A procedure for displaying an error message on a message display means; and when the cause of the failure occurring in the diagnostic control device is a failure in which processing cannot be continued in the diagnostic control device, the diagnostic control device is stopped. Procedure to recover by automatic recovery function, and after recovery, O
A procedure for issuing a notification of a retransmission request to the S and a procedure for the OS receiving the retransmission request to issue a notification of a registration processing request to the central processing unit in order to start the inter-system communication processing from the registration processing. An inter-system communication processing method comprising:
JP11135466A 1999-05-17 1999-05-17 Inter-system communication processor Pending JP2000330829A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11135466A JP2000330829A (en) 1999-05-17 1999-05-17 Inter-system communication processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11135466A JP2000330829A (en) 1999-05-17 1999-05-17 Inter-system communication processor

Publications (1)

Publication Number Publication Date
JP2000330829A true JP2000330829A (en) 2000-11-30

Family

ID=15152382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11135466A Pending JP2000330829A (en) 1999-05-17 1999-05-17 Inter-system communication processor

Country Status (1)

Country Link
JP (1) JP2000330829A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287632A (en) * 2007-05-21 2008-11-27 Panasonic Corp Control device recovery system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287632A (en) * 2007-05-21 2008-11-27 Panasonic Corp Control device recovery system

Similar Documents

Publication Publication Date Title
CA2733788C (en) Method and systems for redundant server automatic failover
US6728746B1 (en) Computer system comprising a plurality of machines connected to a shared memory, and control method for a computer system comprising a plurality of machines connected to a shared memory
JPH08115281A (en) Information processing system and communication service board
JPH086910A (en) Cluster type computer system
KR20040047209A (en) Method for automatically recovering computer system in network and recovering system for realizing the same
JP3942216B2 (en) System monitoring / control method and system monitoring / control apparatus using dual monitoring / controlling processor
JP2735514B2 (en) Process status management method
JP2000330829A (en) Inter-system communication processor
JP3420919B2 (en) Information processing device
JP3313667B2 (en) Failure detection method and method for redundant system
JP3190880B2 (en) Standby system, standby method, and recording medium
JP2776442B2 (en) Compound computer system
US20210247996A1 (en) Service continuation system and service continuation method
JPH06325008A (en) Computer system provided with reset function
WO2010109743A1 (en) Log extraction device, log extraction method, and program
JPH07321799A (en) Input output equipment management method
JP3465637B2 (en) Server and control method thereof
JPH06197112A (en) Management system
JP2004013723A (en) Device and method for fault recovery of information processing system adopted cluster configuration using shared memory
JP2003256399A (en) Control method for switching in hot standby system
JP2001175545A (en) Server system, fault diagnosing method, and recording medium
JP2022185768A (en) Information processing device and recovery method
JP2658215B2 (en) Automatic transaction equipment
JPH09198334A (en) Fault managing method for data transmission system
JPH1049450A (en) Recovery system for abnormal time of remote monitor system