JPH09114701A - Simple multiprocessor monitoring system - Google Patents

Simple multiprocessor monitoring system

Info

Publication number
JPH09114701A
JPH09114701A JP7273874A JP27387495A JPH09114701A JP H09114701 A JPH09114701 A JP H09114701A JP 7273874 A JP7273874 A JP 7273874A JP 27387495 A JP27387495 A JP 27387495A JP H09114701 A JPH09114701 A JP H09114701A
Authority
JP
Japan
Prior art keywords
cpu
sub
cpus
main cpu
monitoring system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7273874A
Other languages
Japanese (ja)
Inventor
Yuichi Ota
雄一 大田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Engineering Ltd
Original Assignee
NEC Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Engineering Ltd filed Critical NEC Engineering Ltd
Priority to JP7273874A priority Critical patent/JPH09114701A/en
Publication of JPH09114701A publication Critical patent/JPH09114701A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To make a CPU on a monitoring side able to discriminate an operation history or the like until the fault generation of a runaway CPU on a side to be monitored in a simple multiprocessor monitoring system in which the CPU on the monitoring side can identify in which part of a task under a processing by the CPU on the side to be monitored runaway occurs. SOLUTION: Through COM RAMs 11 and 21 provided with the operating state detailed information of sub-CPUs 31 and 41 and areas (STS/CMD areas) 13 and 23 where a main CPU 1 stores the command of a restoration procedure or the like when a fault is generated in the sub-CPUs 31 and 41, the sub-CPUs 31 and 41 perform the operation of tentatively interrupting the task during the processing by a runaway monitoring module for monitoring the runaway of the respective sub-CPUs 31 and 41 themselves, shifting the processing to the runaway monitoring module, performing monitoring and recovering the processing of the tentatively interrupted task after the processing of the runaway monitoring module is ended in a prescribed cycle and inform the main CPU 1 of the operating states of the respective sub-CPUs themselves.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、処理の分散をはか
るため複数のCPUで構成されているマルチプロセッサ
監視システムに関し、特に、メインCPUと少なくとも
一つのサブCPUとからなりメインCPUが各サブCP
Uを監視するマルチプロセッサ監視システムであって、
サポートツールなどを必要としない簡易マルチプロセッ
サ監視システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a multiprocessor monitoring system composed of a plurality of CPUs for the purpose of distributing processing, and in particular, it includes a main CPU and at least one sub CPU, and each main CPU is a sub CPU.
A multiprocessor monitoring system for monitoring U,
The present invention relates to a simple multiprocessor monitoring system that does not require support tools.

【0002】[0002]

【従来の技術】従来、複数のCPUで構成されているマ
ルチプロセッサ監視システムとして、例えば、特開昭6
3−49948号が挙げられる。
2. Description of the Related Art Conventionally, as a multiprocessor monitoring system composed of a plurality of CPUs, for example, Japanese Patent Laid-Open No.
3-49948 is mentioned.

【0003】このシステムは、図7に示されている様
に、複数のCPU100、200を備え、各CPU10
0、200は、個々に暴走を検知するためのプログラム
であるモジュールを格納したROMを有している。さら
に、各CPU100、200には、正常動作時には、所
定のタイミングでリセットされ、障害、即ち、暴走の発
生の際、予め定められた時間の経過後、各CPU10
0、200に割り込みをかけるストールタイマが接続さ
れている。
As shown in FIG. 7, this system includes a plurality of CPUs 100 and 200, and each CPU 10
Each of 0 and 200 has a ROM that stores a module that is a program for individually detecting runaway. Further, each CPU 100, 200 is reset at a predetermined timing during normal operation, and when a failure, that is, a runaway occurs, each CPU 10 is reset after a predetermined time has elapsed.
A stall timer for interrupting 0 and 200 is connected.

【0004】図示された例では、CPU100を監視側
CPUとし、CPU200を被監視側CPUとして説明
する。
In the illustrated example, the CPU 100 will be described as a monitoring CPU, and the CPU 200 will be described as a monitored CPU.

【0005】まず、被監視側CPU200が正常に動作
している場合、監視側CPU100から被監視側CPU
200への要求に対して、監視側CPU100のストー
ルタイマ103がカウントアップして監視側CPU10
0のINT2をイネーブルする以前に、被監視側CPU
200から監視側CPU100への応答を受ける。監視
側CPU100は、被監視側CPU200からの応答を
受けると監視側CPU100のストールタイマ103を
クリアする。
First, when the monitored CPU 200 is operating normally, the monitored CPU 100 moves to the monitored CPU.
In response to a request to the CPU 200, the stall timer 103 of the monitoring CPU 100 counts up and the monitoring CPU 10
Before enabling INT2 of 0, the monitored CPU
200 receives a response from the monitoring CPU 100. Upon receiving the response from the monitored CPU 200, the monitoring CPU 100 clears the stall timer 103 of the monitoring CPU 100.

【0006】それに対し、被監視側CPU200の暴走
等で、監視側CPU100のストールタイマ103がカ
ウントアップしても、被監視側CPU200から監視側
CPU100への応答が無い場合、監視側CPU100
のストールタイマ103が監視側CPU100に割り込
みをかけ、監視側CPU100にINT2割り込みが発
生する。監視側CPU100は、INT2割り込みに従
い、NMI信号109を、被監視側CPU200のNM
I端子に出力する。その割り込み処理の中でリセット信
号107によりリセット動作を行い、暴走と誤認識を防
止し、他のCPUに影響を及ぼさないシステムを構築し
ている。
On the other hand, if there is no response from the monitored CPU 200 to the monitored CPU 100 even if the monitored CPU 100 runs out of control and the stall timer 103 of the monitored CPU 100 counts up, if the monitored CPU 100 does not respond.
Stall timer 103 interrupts the monitoring CPU 100, and an INT2 interrupt is generated in the monitoring CPU 100. The monitoring CPU 100 sends the NMI signal 109 to the NM of the monitored CPU 200 in accordance with the INT2 interrupt.
Output to I terminal. A reset operation is performed by the reset signal 107 in the interrupt processing to prevent runaway and erroneous recognition, thereby constructing a system that does not affect other CPUs.

【0007】[0007]

【発明が解決しようとする課題】しかしながら、前記従
来例において、監視側CPUは、被監視側CPUが処理
中のタスクのどの部分で暴走したのかを識別することが
できなかった。
However, in the above-mentioned conventional example, the monitoring side CPU could not identify in which part of the task being processed the monitored CPU went out of control.

【0008】また、被監視側CPUを監視している監視
側CPUは、暴走した被監視側CPUの障害発生までの
動作履歴等を識別することができなかった。
Further, the monitoring CPU that is monitoring the monitored CPU cannot identify the operation history of the runaway monitored CPU until the occurrence of a failure.

【0009】このようなことにより、図示されたシステ
ムでは、暴走と誤認識を防止するにとどまり、障害に対
応した復旧手順が的確に行えないという問題があった。
As a result, the system shown in the figure has a problem in that it cannot prevent the runaway and erroneous recognition, and that the recovery procedure corresponding to the failure cannot be performed accurately.

【0010】一方、サポートツール等を必要としない簡
易マルチプロセッサ監視システムにおいても、システム
の信頼性の向上、ならびに、迅速な障害復旧が要求され
る様になってきている。このような状況の下において、
単に、暴走を検出できる図7のシステムは、需要者の要
求に十分に応えられないという欠点もある。
On the other hand, even in a simple multiprocessor monitoring system which does not require a support tool or the like, improvement in system reliability and quick failure recovery are required. Under these circumstances,
The system of FIG. 7 which can detect runaway simply has a drawback that it cannot sufficiently meet the demand of the consumer.

【0011】本発明の目的は、上記の問題を解決するた
め、被監視側CPUが処理中のタスクのどの部分で暴走
したのかを、監視側CPUが識別することができる簡易
マルチプロセッサ監視システムを提供することにある。
In order to solve the above problems, an object of the present invention is to provide a simple multiprocessor monitoring system in which the monitoring CPU can identify in which part of the task the monitored CPU has runaway. To provide.

【0012】本発明の他の目的は、監視側CPUが、暴
走した被監視側CPUの障害発生までの動作履歴等の動
作状態詳細情報を識別することができる簡易マルチプロ
セッサ監視システムを提供することにある。
Another object of the present invention is to provide a simple multiprocessor monitoring system in which a monitoring CPU can identify detailed operation state information such as an operation history of a runaway monitored CPU until a failure occurs. It is in.

【0013】[0013]

【課題を解決するための手段】本発明によれば、メイン
CPUと、少なくとも一つのサブCPUと、前記メイン
CPUと前記各サブCPUとの間に設けられ、前記メイ
ンCPUと前記各サブCPUが共通に使用する共通メモ
リと、前記メインCPU,前記各サブCPU、及び当該
サブCPUに対応した前記共通メモリを接続するデータ
バスからなる簡易マルチプロセッサ監視システムにおい
て、前記共通メモリは、前記サブCPUの動作状態詳細
情報及び前記メインCPUからサブCPUへのコマンド
を格納する状態/コマンド領域、及び前記サブCPUの
動作状態詳細情報及び前記メインCPUからサブCPU
へのコマンド以外のデータを格納するデータ領域とを備
え、前記メインCPUは、前記共通メモリの前記状態/
コマンド領域に格納されている動作状態詳細情報を参照
して、各サブCPUを監視することを特徴とする簡易マ
ルチプロセッサ監視システムが得られる。
According to the present invention, a main CPU, at least one sub CPU, and the main CPU and the sub CPUs are provided, and the main CPU and the sub CPUs are provided. In a simple multiprocessor monitoring system including a common memory used in common, the main CPU, the sub CPUs, and a data bus connecting the common memories corresponding to the sub CPUs, the common memory is the sub CPU. State / command area for storing detailed operating state information and commands from the main CPU to the sub CPU, and detailed operating state information of the sub CPU and the main CPU to the sub CPU
A data area for storing data other than commands to the main CPU,
A simple multiprocessor monitoring system characterized in that each sub CPU is monitored by referring to the detailed operation state information stored in the command area can be obtained.

【0014】また、本発明によれば、前記簡易マルチプ
ロセッサ監視システムにおいて、前記各サブCPUは、
前記各共通メモリの前記状態/コマンド領域に前記各サ
ブCPUの状態を前記動作状態詳細情報として書き込む
手段を有し、前記メインCPUは、前記各動作状態詳細
情報を読み込む手段を有することにより、前記各サブC
PUに暴走が起こったときに、該サブCPUが処理中の
タスクのどの部分で暴走したのかを知ることができるこ
とを特徴とする簡易マルチプロセッサ監視システムが得
られる。
Further, according to the present invention, in the simple multiprocessor monitoring system, each of the sub CPUs is
By having a unit for writing the state of each sub CPU as the detailed operating state information in the state / command area of each common memory, and the main CPU having a unit for reading the detailed operating state information, Each sub-C
When a runaway occurs in a PU, a simple multiprocessor monitoring system characterized by being able to know at which part of the task the sub CPU has runaway is obtained.

【0015】また、本発明によれば、前記簡易マルチプ
ロセッサ監視システムにおいて、前記メインCPU又は
前記共通メモリのいずれか一方は、前記サブCPU状態
情報を蓄積する手段を有することにより、前記サブCP
Uの障害発生までの動作履歴を格納することができるこ
とを特徴とする簡易マルチプロセッサ監視システムが得
られる。
Further, according to the present invention, in the simple multiprocessor monitoring system, one of the main CPU and the common memory has a unit for accumulating the sub CPU state information, whereby the sub CP
A simple multiprocessor monitoring system characterized by being able to store the operation history until the failure of U occurs.

【0016】更に、本発明によれば、前記簡易マルチプ
ロセッサ監視システムにおいて、前記メインCPUは、
前記動作履歴を検出する機能を備え、前記サブCPUに
障害が発生した際に、当該検出された動作履歴に基づい
て、前記サブCPUに対し、該障害に対応した復旧手順
処理を行なうことを特徴とする簡易マルチプロセッサ監
視システムが得られる。
Further, according to the present invention, in the simple multiprocessor monitoring system, the main CPU is
A function of detecting the operation history is provided, and when a failure occurs in the sub CPU, a recovery procedure process corresponding to the failure is performed on the sub CPU based on the detected operation history. A simple multiprocessor monitoring system can be obtained.

【0017】[0017]

【発明の実施の形態】以下に、本発明の実施の形態を図
面を参照して、説明をする。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings.

【0018】まず、図1に示されるように、本実施の形
態の簡易マルチプロセッサ監視システムは、メインCP
U1は、各サブCPU31、41と、各々共通メモリ
(以下、COM RAM)11、21及びデータバス
4、34、44を介して接続された構成をなしている。
First, as shown in FIG. 1, the simplified multiprocessor monitoring system of the present embodiment is a main CP.
The U1 is connected to each of the sub CPUs 31 and 41 via a common memory (hereinafter, COM RAM) 11 and 21 and data buses 4, 34 and 44, respectively.

【0019】ここで、COM RAM11、21は、サ
ブCPU31、41の動作状態詳細情報、及びサブCP
U31、41に障害が発生した時にメインCPU1が復
旧手順等のコマンドを格納する領域(以下、STS/C
MD領域)13、23を備えると共に、更に、前述の動
作状態詳細情報及びコマンド以外の通常のデータの送受
を行うための領域(以下、DATA領域)12、22と
からなっている。
Here, the COM RAMs 11 and 21 have detailed operational state information of the sub CPUs 31 and 41 and the sub CP.
Area where the main CPU 1 stores commands such as a recovery procedure when a failure occurs in U31 and U1 (hereinafter referred to as STS / C
MD areas) 13, 23, and areas (hereinafter referred to as DATA areas) 12, 22 for transmitting and receiving normal data other than the above-mentioned operation state detailed information and commands.

【0020】また、サブCPU31、41は、各々のサ
ブCPU31、41自身の暴走を監視するための暴走監
視モジュールを有しており、図2に示すように、処理中
のタスクを一時中断し(S101)、暴走監視モジュー
ルに処理を移行して監視し(S102)、暴走監視モジ
ュールの処理終了後、一時中断したタスクの処理に復帰
する(S103)動作を所定の周期で行っている。
Each of the sub CPUs 31 and 41 has a runaway monitoring module for monitoring the runaway of the sub CPU 31 or 41 itself. As shown in FIG. 2, the task being processed is temporarily suspended ( S101), the process is transferred to the runaway monitoring module for monitoring (S102), and after the process of the runaway monitoring module is completed, the operation of returning to the process of the temporarily suspended task (S103) is performed in a predetermined cycle.

【0021】(第1の実施の形態)次に、第1の実施の
形態として、図3を用いて、図2のステップS102に
おける各々のサブCPU31、41の暴走監視モジュー
ルの処理を説明する。
(First Embodiment) Next, as a first embodiment, the process of the runaway monitoring module of each of the sub CPUs 31 and 41 in step S102 of FIG. 2 will be described with reference to FIG.

【0022】まず、処理中のタスクを一時中断し、暴走
監視モジュールに処理を移行したサブCPU31、41
は、COM RAM11、21に対してCOM RAM
11、21のゲット要求を行う(S201)。COM
RAM11、21がアクセス可能であれば(S20
2)、一時中断されたタスクのどの時点で暴走監視モジ
ュールが呼ばれたのかを識別するため、暴走監視モジュ
ールの処理終了後に、一時中断したタスクのどこへ復帰
すればよいかを示す復帰アドレスをCOM RAM1
1、21に設定する(S203)。
First, the sub CPUs 31 and 41 which have temporarily suspended the task being processed and have transferred the processing to the runaway monitoring module.
Is the COM RAM with respect to the COM RAMs 11 and 21.
Get requests of 11 and 21 are made (S201). COM
If the RAMs 11 and 21 are accessible (S20
2) In order to identify at which point in the suspended task the runaway monitoring module was called, a return address indicating where to return to the suspended task after the processing of the runaway monitoring module is completed. COM RAM1
It is set to 1 and 21 (S203).

【0023】次に、サブCPU31、41は、そのサブ
CPU31、41自身の各内部レジスタ(AXレジスタ
/BXレジスタ/CXレジスタ/DXレジスタ/DIレ
ジスタ/SIレジスタ/DS[データセグメント]/E
S[エキストラセグメント]/SS[スタックセグメン
ト]/SP[スタックポインタ]/BP[ベースポイン
タ]/PS[プログラムセグメント]/PC[プログラ
ムコード])の内容を動作状態詳細情報として、COM
RAM11、21に設定する(S204)。
Next, the sub CPUs 31 and 41 each have their own internal registers (AX register / BX register / CX register / DX register / DI register / SI register / DS [data segment] / E.
The contents of S [extra segment] / SS [stack segment] / SP [stack pointer] / BP [base pointer] / PS [program segment] / PC [program code]) are used as detailed operating state information for COM.
The RAM 11 and 21 are set (S204).

【0024】更に、後述する様に、メインCPUは、サ
ブCPUによってCOM RAM11、21に設定され
た動作状態詳細情報を取得できる。
Further, as will be described later, the main CPU can acquire detailed operation state information set in the COM RAMs 11 and 21 by the sub CPU.

【0025】このことは、サブCPU31、41が、サ
ブCPU31、41自身の現在アクセスしているプログ
ラム領域アドレス、データ領域アドレス、スタックポイ
ンタアドレス、及びベースポインタアドレスをメインC
PU1に通知できることを意味している。
This means that the sub CPUs 31 and 41 send the program area address, the data area address, the stack pointer address, and the base pointer address which the sub CPUs 31 and 41 are currently accessing to the main C.
This means that PU1 can be notified.

【0026】その後、サブCPU31、41は、通常の
暴走検出処理を行い(S205)、S203で設定した
復帰アドレスに従い、暴走監視モジュールが呼ばれたタ
スクに復帰する。
After that, the sub CPUs 31 and 41 perform a normal runaway detection process (S205), and the runaway monitoring module returns to the called task according to the return address set in S203.

【0027】更に、メインCPU1は、図4に示すよう
に、まず、COM RAM11、21に対してCOM
RAM11、21のゲット要求を行う(S301)。C
OMRAM11、21がアクセス可能であれば(S20
2)、COM RAM11、21に格納されているサブ
CPU31、41の動作状態詳細情報を読み込む(S3
03)。メインCPU1は、読み込んだ動作状態詳細情
報をメインCPU1自身のRAM3のある一定の領域を
確保したリングバッファに書き込むことにより、サブC
PU31、41の動作状態履歴を作成する(S30
4)。メインCPU1は、その復帰アドレスおよび内部
レジスタの内容などから、サブCPU31、41が動作
したタスクの走行状態や使用している各データ領域のア
ドレス等の動作状態が把握できる。
Further, as shown in FIG. 4, the main CPU 1 first performs COM on the COM RAMs 11 and 21.
A request to get the RAMs 11 and 21 is made (S301). C
If the OMRAMs 11 and 21 are accessible (S20
2), detailed operation state information of the sub CPUs 31 and 41 stored in the COM RAMs 11 and 21 is read (S3).
03). The main CPU 1 writes the read detailed operation state information in a ring buffer that secures a certain area of the RAM 3 of the main CPU 1 itself, thereby sub C
The operation state history of the PUs 31 and 41 is created (S30
4). The main CPU 1 can grasp the running state of the task operated by the sub CPUs 31 and 41 and the operating state such as the address of each data area being used from the return address and the contents of the internal register.

【0028】また、サブCPU31、41に暴走などの
障害が発生した場合、サブCPU31、41は、暴走監
視モジュールに処理を移行できないため、COM RA
M11、21内のサブCPU31、41の動作状態詳細
情報は書き変わらないことになる。したがって、メイン
CPU1は、ある決められた回数、COM RAM1
1、21内のサブCPU31、41の動作状態詳細情報
に変化がなければ(S305)、サブCPU31、41
の動作停止と判断し、その動作状態詳細情報に示された
タスクの走行アドレスやサブCPU31、41の動作履
歴により、タスクの再起動要求や、タスクの終了要求、
また、最悪の場合には、PS、PCの書き換え指示によ
る初期化処理など、その時の障害に対応した復旧手順処
理を行う(S306)ようになっている。
Further, when a failure such as a runaway occurs in the sub CPUs 31 and 41, the sub CPUs 31 and 41 cannot shift the processing to the runaway monitoring module.
The detailed operation state information of the sub CPUs 31 and 41 in M11 and M21 will not be rewritten. Therefore, the main CPU 1 has a certain number of
If there is no change in the operation state detailed information of the sub CPUs 31 and 41 in the sub CPUs 1 and 21 (S305), the sub CPUs 31 and 41
Of the task and the operation history of the sub CPUs 31 and 41 indicated in the operation state detailed information, the task restart request, the task end request,
In the worst case, the recovery procedure processing corresponding to the failure at that time, such as the initialization processing by the rewriting instruction of PS and PC, is performed (S306).

【0029】尚、本発明の第1の実施の形態において、
メインCPUは、サブCPU31、41の動作状態詳細
情報をメインCPU1自身のRAM3のある一定の領域
を確保したリングバッファに、動作状態履歴を作成する
こととしているが、COMRAM11、21に動作状態
詳細情報を蓄積し、動作状態履歴を作成してもよい。但
し、作成された動作状態履歴を扱った処理は、いずれの
場合もメインCPUが行なう。
Incidentally, in the first embodiment of the present invention,
Although the main CPU creates the operation state history in the ring buffer that secures a certain area of the RAM 3 of the main CPU 1 itself, the operation state detailed information of the sub CPUs 31 and 41 is stored in the COMRAMs 11 and 21. May be accumulated and an operating state history may be created. However, in any case, the main CPU performs the process of handling the created operation state history.

【0030】(第2の実施の形態)次に、第2の実施の
形態について、前述の第1の実施の形態と比較して、図
5及び図6を用いて説明する。
(Second Embodiment) Next, a second embodiment will be described with reference to FIGS. 5 and 6 in comparison with the above-described first embodiment.

【0031】第2の実施の形態において、メインCPU
1は、暴走監視モジュールにより、COM RAM1
1、21に所定の周期で書き込まれるサブCPU31、
41の動作状態詳細情報以外に、メインCPU1からサ
ブCPU31、41に必要に応じたデータを要求するこ
とにより、その時のサブCPU31、41内の内部レジ
スタの他にメインCPU1から指定されたアドレスのデ
ータをもCOM RAM11、21を介して取得するこ
とができる。
In the second embodiment, the main CPU
1 is a COM RAM1 by the runaway monitoring module.
The sub CPU 31, which is written in the first and the second 21 in a predetermined cycle,
In addition to the operation state detailed information of 41, the main CPU 1 requests data from the sub CPUs 31 and 41 as needed, so that the data of the address specified by the main CPU 1 in addition to the internal registers in the sub CPUs 31 and 41 at that time. Can also be obtained via the COM RAMs 11 and 21.

【0032】サブCPU31、41は、図5に示すよう
に、サブCPU31、41自身の各内部レジスタをCO
M RAM11、21に設定した(S204)後、メイ
ンCPU1から要求された指定されたアドレスのデータ
などをCOM RAM11、21に設定する(S204
a)ことにより、サブCPU31、41のRAM33、
43のデータ内容をCOM RAM11、21を介して
メインCPU1に通知することができる。
As shown in FIG. 5, each of the sub CPUs 31 and 41 has its own internal register with a CO register.
After setting in the M RAMs 11 and 21 (S204), the data of the designated address requested from the main CPU 1 is set into the COM RAMs 11 and 21 (S204).
By a), the RAM 33 of the sub CPUs 31 and 41,
The data content of 43 can be notified to the main CPU 1 via the COM RAMs 11 and 21.

【0033】一方、メインCPU1は、図6に示す様
に、COM RAM11、21に格納されているサブC
PU31、41の動作状態詳細情報を読み込み(S30
3)、読み込んだ動作状態詳細情報をメインCPU1自
身のRAM3のある一定の領域を確保したリングバッフ
ァに書き込むことにより、サブCPU31、41の動作
状態履歴を作成(S304)した後、サブCPU31、
41に対し要求した指定アドレスのデータをCOM R
AM11、21から読みだす(S304a)ことによ
り、サブCPU31、41のRAM33、43のデータ
内容を取得することができる。
On the other hand, as shown in FIG. 6, the main CPU 1 has a sub C stored in the COM RAMs 11 and 21.
The detailed operation state information of the PUs 31 and 41 is read (S30
3) The operation state history of the sub CPUs 31 and 41 is created (S304) by writing the read operation state detailed information into a ring buffer that secures a certain area of the RAM 3 of the main CPU 1 itself.
COMR the data of the specified address requested to 41
The data contents of the RAMs 33 and 43 of the sub CPUs 31 and 41 can be acquired by reading from the AMs 11 and 21 (S304a).

【0034】更に、メインCPU1は、各サブCPU3
1、41の動作状態詳細情報及び動作履歴などをさらに
上位のCPU(図示せず)に通知することができるため
(S304b)、システムとして全てのCPUの動作状
態を認識でき、さらに上位のCPUからメインCPU1
に各サブCPU31、41の状態を要求することもでき
る。
Further, the main CPU 1 has each sub CPU 3
Since detailed operation state information and operation history of Nos. 1 and 41 can be notified to a higher CPU (not shown) (S304b), the operation states of all the CPUs can be recognized as a system, and the higher CPU can Main CPU1
It is also possible to request the status of each sub CPU 31, 41.

【0035】[0035]

【発明の効果】以上、説明してきたように、本発明によ
れば、被監視側CPUの動作状態詳細情報、及び被監視
側CPUに障害が発生した時に監視側CPUが復旧手順
等のコマンドを格納する領域と、被監視側CPUの動作
状態詳細情報、及び被監視側CPUに障害が発生した時
に監視側CPUが格納する復旧手順等のコマンド以外の
通常のデータの送受を行うための領域とからなる共通メ
モリ有し、且つ、その共通メモリを利用して、被監視側
CPUが処理中のタスクのどの部分で暴走したのかを、
監視側CPUが識別することができる簡易マルチプロセ
ッサ監視システムを提供することができる。
As described above, according to the present invention, detailed information on the operating state of the monitored CPU, and a command such as a recovery procedure for the monitored CPU when a monitored CPU fails. An area for storing, detailed information on the operating state of the monitored CPU, and an area for transmitting and receiving normal data other than commands such as a recovery procedure stored by the monitoring CPU when a failure occurs in the monitored CPU A common memory consisting of, and using the common memory, which part of the task being processed by the monitored CPU has runaway,
It is possible to provide a simple multiprocessor monitoring system that can be identified by the monitoring CPU.

【0036】また、本発明によれば、監視側CPUが、
暴走した被監視側CPUの障害発生までの動作履歴等の
動作状態詳細情報を識別することができる簡易マルチプ
ロセッサ監視システムを提供することができる。
Further, according to the present invention, the monitoring CPU is
It is possible to provide a simple multiprocessor monitoring system capable of identifying detailed operation state information such as an operation history of a runaway monitored CPU until a failure occurs.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の簡易マルチプロセッサ監視システムの
構成を示す図である。
FIG. 1 is a diagram showing a configuration of a simple multiprocessor monitoring system of the present invention.

【図2】サブCPUの動作を示す流れ図である。FIG. 2 is a flowchart showing an operation of a sub CPU.

【図3】本発明の第1の実施の形態のサブCPUの暴走
監視モジュールの動作を示す流れ図である。
FIG. 3 is a flowchart showing the operation of the runaway monitoring module of the sub CPU according to the first embodiment of the present invention.

【図4】本発明の第1の実施の形態のメインCPU部の
動作を示す流れ図である。
FIG. 4 is a flowchart showing an operation of the main CPU unit according to the first embodiment of the present invention.

【図5】本発明の第2の実施の形態のサブCPUの暴走
監視モジュールの動作を示す流れ図である。
FIG. 5 is a flowchart showing the operation of the runaway monitoring module of the sub CPU according to the second embodiment of the present invention.

【図6】本発明の第1の実施の形態のメインCPU部の
動作を示す流れ図である。
FIG. 6 is a flowchart showing the operation of the main CPU unit according to the first embodiment of the present invention.

【図7】従来のマルチプロセッサ監視システムの構成を
示す図である。
FIG. 7 is a diagram showing a configuration of a conventional multiprocessor monitoring system.

【符号の説明】 1 メインCPU 11、21 共通メモリ 31、41 サブCPU 2、32、42 ROM 3、33、43 RAM 100 監視側CPU 103 ストールタイマ 107 リセット信号 109 NMI信号 110 共通メモリ(デュアルポートRA
M) 200 被監視側CPU
[Explanation of Codes] 1 main CPU 11, 21 common memory 31, 41 sub CPU 2, 32, 42 ROM 3, 33, 43 RAM 100 monitoring CPU 103 stall timer 107 reset signal 109 NMI signal 110 common memory (dual port RA
M) 200 Monitored CPU

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 メインCPUと、少なくとも一つのサブ
CPUと、前記メインCPUと前記各サブCPUとの間
に設けられ、前記メインCPUと前記各サブCPUが共
通に使用する共通メモリとを備えた簡易マルチプロセッ
サ監視システムにおいて、 前記共通メモリは、前記サブCPUの動作状態詳細情報
及び前記メインCPUからサブCPUへのコマンドを格
納する状態/コマンド領域とを備え、 前記メインCPUは、前記共通メモリの前記状態/コマ
ンド領域に格納されている動作状態詳細情報を参照し
て、各サブCPUを監視することを特徴とする簡易マル
チプロセッサ監視システム。
1. A main CPU, at least one sub CPU, and a common memory provided between the main CPU and each of the sub CPUs and commonly used by the main CPU and each of the sub CPUs. In the simple multiprocessor monitoring system, the common memory includes a detailed operation state information of the sub CPU and a status / command area for storing a command from the main CPU to the sub CPU, and the main CPU stores the common memory in the common memory. A simple multiprocessor monitoring system, wherein each sub CPU is monitored by referring to detailed operation state information stored in the state / command area.
【請求項2】 請求項1に記載の簡易マルチプロセッサ
監視システムにおいて、 前記各サブCPUは、前記各共通メモリの前記状態/コ
マンド領域に前記各サブCPUの状態を前記動作状態詳
細情報として書き込む手段を有し、 前記メインCPUは、前記各動作状態詳細情報を読み込
み、且つ、判定することにより、前記各サブCPUに暴
走が起こったときに、該サブCPUが処理中のタスクの
どの部分で暴走したのかを検出することができることを
特徴とする簡易マルチプロセッサ監視システム。
2. The simple multiprocessor monitoring system according to claim 1, wherein each of the sub CPUs writes the status of each of the sub CPUs in the status / command area of each of the common memories as the detailed operation status information. The main CPU reads the operation state detailed information and determines the run state, so that when a runaway occurs in each sub CPU, the runaway occurs in which part of the task the sub CPU is processing. A simple multiprocessor monitoring system characterized by being able to detect whether or not it has.
【請求項3】 請求項2に記載の簡易マルチプロセッサ
監視システムにおいて、 前記メインCPU又は前記共通メモリのいずれか一方
は、前記サブCPU状態情報を蓄積する手段を有するこ
とにより、前記サブCPUの障害発生までの動作履歴を
格納することができることを特徴とする簡易マルチプロ
セッサ監視システム。
3. The simplified multiprocessor monitoring system according to claim 2, wherein one of the main CPU and the common memory has a unit for accumulating the sub CPU state information, so that the failure of the sub CPU occurs. A simple multiprocessor monitoring system characterized by being able to store the operation history up to the occurrence.
【請求項4】 請求項3に記載の簡易マルチプロセッサ
監視システムにおいて、 前記メインCPUは、前記動作履歴を検出する機能を備
え、 前記サブCPUに障害が発生した際に、当該検出された
動作履歴に基づいて、前記サブCPUに対し、該障害に
対応した復旧手順処理を行なうことを特徴とする簡易マ
ルチプロセッサ監視システム。
4. The simplified multiprocessor monitoring system according to claim 3, wherein the main CPU has a function of detecting the operation history, and when a failure occurs in the sub CPU, the detected operation history. A simple multiprocessor monitoring system characterized by performing a recovery procedure process corresponding to the failure on the sub CPU based on the above.
JP7273874A 1995-10-23 1995-10-23 Simple multiprocessor monitoring system Pending JPH09114701A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7273874A JPH09114701A (en) 1995-10-23 1995-10-23 Simple multiprocessor monitoring system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7273874A JPH09114701A (en) 1995-10-23 1995-10-23 Simple multiprocessor monitoring system

Publications (1)

Publication Number Publication Date
JPH09114701A true JPH09114701A (en) 1997-05-02

Family

ID=17533778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7273874A Pending JPH09114701A (en) 1995-10-23 1995-10-23 Simple multiprocessor monitoring system

Country Status (1)

Country Link
JP (1) JPH09114701A (en)

Similar Documents

Publication Publication Date Title
JP3447404B2 (en) Multiprocessor system
CN101377750B (en) System and method for cluster fault toleration
US6463550B1 (en) Computer system implementing fault detection and isolation using unique identification codes stored in non-volatile memory
RU2137182C1 (en) Execution of data processing instruction
JP3481737B2 (en) Dump collection device and dump collection method
CN101147135A (en) Memory false address management using firmware
JPH07219809A (en) Apparatus and method for data processing
US4839895A (en) Early failure detection system for multiprocessor system
CN115576734A (en) Multi-core heterogeneous log storage method and system
JPH09114701A (en) Simple multiprocessor monitoring system
EP0851352B1 (en) Input/output control device and method applied to fault-resilient computer system
JPH0766368B2 (en) Boot processor determination method
CN101311909A (en) System peculiarity diagnose method
JPH04266141A (en) Stack overflow detection system
JP2014182676A (en) Log collection device, arithmetic unit, and log collection method
JP3203884B2 (en) Vehicle diagnostic system
JPH09160840A (en) Bus communication device
JP2009169515A (en) Computer system and system recovery device
KR19990057809A (en) Error prevention system
JPS6130296B2 (en)
JP2825589B2 (en) Bus control method
JP3019336B2 (en) Microprocessor development support equipment
JPS6143739B2 (en)
JP3128791B2 (en) FA controller
JPS63100563A (en) Faulty processor detecting system

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040127