JP2013025539A - Monitoring system and monitoring method for multi-cpu system - Google Patents
Monitoring system and monitoring method for multi-cpu system Download PDFInfo
- Publication number
- JP2013025539A JP2013025539A JP2011159227A JP2011159227A JP2013025539A JP 2013025539 A JP2013025539 A JP 2013025539A JP 2011159227 A JP2011159227 A JP 2011159227A JP 2011159227 A JP2011159227 A JP 2011159227A JP 2013025539 A JP2013025539 A JP 2013025539A
- Authority
- JP
- Japan
- Prior art keywords
- cpu
- failure
- terminal
- bus
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、マルチCPUシステムの監視システム及び監視方法に関するものである。 The present invention relates to a monitoring system and a monitoring method for a multi-CPU system.
従来、例えば銀行のオンラインシステム等においては、リスクの分散やデータ処理の効率化のため、情報処理を複数のCPU端末で分担して行う、分散処理システムが用いられている。
このようなシステム構成においては、各CPU端末のうちの1つでも故障すると、システム全体の機能障害の原因となるため、各CPU端末の動作を監視する必要がある。
2. Description of the Related Art Conventionally, for example, in bank online systems, a distributed processing system in which information processing is shared by a plurality of CPU terminals is used for risk distribution and data processing efficiency.
In such a system configuration, if any one of the CPU terminals fails, it causes a functional failure of the entire system. Therefore, it is necessary to monitor the operation of each CPU terminal.
この監視方法としては、例えば、図3に示すように、シリアルバスを介した各CPU端末間での信号の送受信により、他のCPU端末の状態が正常であるか否かを判断する方法がある(例えば、特許文献1参照)。 As this monitoring method, for example, as shown in FIG. 3, there is a method of determining whether or not the state of another CPU terminal is normal by transmitting and receiving signals between the CPU terminals via a serial bus. (For example, refer to Patent Document 1).
しかし、上記の技術では、障害の発生の有無は判定できるものの、障害の種別までは特定できず、各CPU端末の通信機能に障害が発生しているのか、他の部分に障害が発生しているのかを判別することができなかった。
従って、上記の技術では、通信機能に障害が発生している場合でも、CPU全体をリセットすることにより対処するため、これによるシステム全体への影響が大きかった。
However, with the above technology, it is possible to determine whether or not a failure has occurred, but it is not possible to specify the type of failure, and whether there is a failure in the communication function of each CPU terminal or a failure has occurred in other parts. It was not possible to determine whether it was.
Therefore, in the above technique, even when a failure occurs in the communication function, the entire CPU is dealt with by resetting the entire CPU.
本発明は、上記の問題を解決しようとするものであり、その目的は、障害の種別をより詳細に判別することのできる、マルチCPUシステムの監視システム及び監視方法を提供することにある。 An object of the present invention is to provide a monitoring system and a monitoring method for a multi-CPU system that can determine the type of failure in more detail.
本発明に係るマルチCPUシステムの監視システムは、シリアルバスで接続された複数のCPU端末を備えた、マルチCPUシステムの監視システムであって、前記複数のCPU端末に接続された障害判別用バスを備え、一のCPU端末が、前記シリアルバスを介して他のCPU端末に送信した第1の応答要求信号に対する応答信号を受信しない場合に、前記一のCPU端末から前記障害判別用バスを介して前記他のCPU端末に第2の応答要求信号を送信し、当該第2の応答要求信号に対する応答信号の受信の有無に基づいて前記他のCPU端末の障害の種別を判別するものである。 A monitoring system for a multi-CPU system according to the present invention is a monitoring system for a multi-CPU system having a plurality of CPU terminals connected by a serial bus, and includes a failure determination bus connected to the plurality of CPU terminals. And when one CPU terminal does not receive a response signal to the first response request signal transmitted to another CPU terminal via the serial bus, the one CPU terminal via the fault determination bus A second response request signal is transmitted to the other CPU terminal, and a failure type of the other CPU terminal is determined based on whether or not a response signal is received in response to the second response request signal.
本発明の好適一実施形態によれば、前記シリアルバスは、同期式シリアルインタフェースであり、前記障害判別用バスは、非同期式シリアルインタフェースである。 According to a preferred embodiment of the present invention, the serial bus is a synchronous serial interface, and the failure determination bus is an asynchronous serial interface.
また、本発明に係るマルチCPUシステムの監視方法は、シリアルバスを介して接続された複数のCPU端末の一のCPU端末から他のCPU端末に送信した第1の応答要求信号に対する応答信号の受信の有無に基づいて前記他のCPU端末の障害の発生の有無を判定する工程と、前記他のCPU端末に障害が発生したと判定した場合に、前記複数の端末が接続された障害判別用バスを介して前記一のCPU端末から前記他のCPU端末に第2の応答要求信号を送信して、その応答信号の受信の有無に基づいて前記他のCPU端末の障害の種別を判別する工程と、を含むものである。 The monitoring method for a multi-CPU system according to the present invention also includes receiving a response signal for a first response request signal transmitted from one CPU terminal to another CPU terminal of a plurality of CPU terminals connected via a serial bus. Determining whether or not a fault has occurred in the other CPU terminal based on the presence or absence of the fault, and a fault determination bus to which the plurality of terminals are connected when it is determined that a fault has occurred in the other CPU terminal. Transmitting a second response request signal from the one CPU terminal to the other CPU terminal via the terminal, and determining a failure type of the other CPU terminal based on whether or not the response signal is received; , Including.
本発明によれば、障害の発生の有無のみならず、障害の種別をより詳細に判別することができる。 According to the present invention, it is possible to determine not only the occurrence of a failure but also the type of failure in more detail.
以下、本発明の一実施形態について図面を参照して詳細に説明する。
図1に示すように、本発明のマルチCPUシステムの監視システム1は、複数のCPU端末CPU1、CPU2、…CPUn+1が、シリアルバス2と障害判別用バス3を介して接続されている。
Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.
As shown in FIG. 1, in a
シリアルバス2は、各CPU端末間でシリアル通信を行うためのインタフェースであり、図示例では、同期式シリアルバスである。
各CPU端末CPU1、CPU2、…CPUn+1は、シリアルバス2を介して他のCPU端末と信号の送受信を行い、他のCPU端末の障害の発生の有無を監視する。
The
Each of the CPU terminals CPU1, CPU2,..., CPUn + 1 transmits / receives a signal to / from another CPU terminal via the
障害判別用バス3は、シリアルバス2を介したCPU端末間の障害の発生の有無の監視により障害が発生したと判定した場合に、障害の種別を判別するのに用いるインタフェースであり、図示例では、非同期式シリアルバスである。
The
以下、本発明に係るマルチCPUシステムの監視システムの動作について説明する。
まず、一のCPU端末は、シリアルバス2を介して他のCPU端末とシリアル通信を実行して、当該他のCPU端末に対し応答要求信号を送信する。そして、所定の時間内に応答信号を受信した場合は、当該他のCPU端末は正常であるものと判定する。
一方で、一のCPU端末は、所定の時間内にシリアルバス2を介して応答信号の受信がない場合には、他のCPU端末に障害が発生したものと判定する。
The operation of the multi-CPU system monitoring system according to the present invention will be described below.
First, one CPU terminal performs serial communication with another CPU terminal via the
On the other hand, if one CPU terminal does not receive a response signal via the
具体的には、監視側のCPU端末は、被監視側のCPU端末に第1の応答要求信号を送信すると共に、その送信に同期してタイマを起動する。そして、タイマによる計測時間が所定の監視時間T1に達するまでに被監視側のCPU端末からの応答信号を受信した場合は、当該CPU端末は正常と判定し、タイマをリセットする。これに対し、タイマの計測時間が監視時間T1に達しても被監視側のCPU端末からの応答信号が受信されない場合は、当該CPU端末に障害が発生したものと判定し、タイマをリセットする。 Specifically, the monitoring CPU terminal transmits a first response request signal to the monitored CPU terminal and starts a timer in synchronization with the transmission. When a response signal is received from the monitored CPU terminal before the time measured by the timer reaches the predetermined monitoring time T1, the CPU terminal determines that the CPU terminal is normal and resets the timer. On the other hand, if a response signal from the monitored CPU terminal is not received even when the measured time of the timer reaches the monitoring time T1, it is determined that a failure has occurred in the CPU terminal, and the timer is reset.
このようにして、一のCPU端末がシリアルバス2を介して他の一のCPU端末を監視し、所定の監視時間内に応答信号の受信が確認された場合は、当該他の一のCPU端末が正常に動作していることを確認することができる。
In this way, when one CPU terminal monitors another CPU terminal via the
一方で、図2に示すように、シリアルバス2を介した通信で、例えばCPU1からCPU2への第1の応答要求信号に対して、所定の監視時間T1内に応答信号が受信されず、CPU2に障害が発生したと判定した場合には、障害判別用バス3を介してCPU1からCPU2に対して第2の応答要求信号を送信し、所定の監視時間内T2(T1と同じであっても異なっていても良い)内でのCPU2からの応答信号の有無を確認する。
On the other hand, as shown in FIG. 2, in response to the first response request signal from, for example, the
これにより、障害判別用バス3を介した通信で、所定の監視時間T2内にCPU2からの応答信号が受信された場合には、CPU2の通信機能に障害があるものと判定する。
この場合には、CPU2の通信機能のみリセットすればよい。従って、CPU2全体をリセットする場合に比べて、マルチCPUシステム全体に与える影響が少なくて済む。
Thus, when a response signal is received from the
In this case, only the communication function of the
一方で、障害判別用バス3を介した通信でも、所定の監視時間T2内にCPU2からの応答信号がない場合には、CPU2の通信機能以外の部分に障害が発生しているものと判定する。
この場合には、CPU2全体をリセットすることにより、CPU2の機能を正常に回復させることができる。
On the other hand, even in communication via the
In this case, the function of the
ここで、シリアルバス2と、障害判別用バス3とは、異なる通信方式とすることが好ましく、特に、シリアルバス2を同期式シリアルインタフェースとし、障害判別用バス3を、非同期式シリアルインタフェースとすることが好ましい。
Here, it is preferable that the
これは、CPU端末の通信機能に障害が発生している場合、その通信方式に依存した障害であることが考えられ、そのような場合に、障害判別用バスの通信方式を異ならせることにより、障害判別用バスを介した通信で同様の原因による障害が発生することを回避して、より確実に故障の発生箇所が通信機能であることを判別できるようにするためである。 This is considered to be a failure depending on the communication method when a failure occurs in the communication function of the CPU terminal. In such a case, by changing the communication method of the failure determination bus, This is because it is possible to avoid the occurrence of a failure due to the same cause in communication via the failure determination bus and to more reliably determine that the failure occurrence location is the communication function.
例えば、図1に示す例では、シリアルバス2は、同期式シリアルバスであるため、同期式の通信に用いるクロック系にノイズ等が影響し、ジッタが発生する場合がある。
このような場合に、障害判別用バス3が同様の通信方式、すなわち同期式シリアルバスである場合、同様にノイズが影響することにより、障害が発生したとされるCPU端末との通信が成功しない場合があり、この場合、通信機能に障害が発生しているにもかかわらず、CPU端末全体に故障が発生しているものと誤って判別してしまう可能性がある。
そこで、障害判別用バス3を非同期式のバスとすることにより、障害判別用バス3を介した通信に、同様の障害の原因が作用することを避けることができる。
For example, in the example shown in FIG. 1, since the
In such a case, when the
Therefore, by making the
以上説明したように、本実施形態によれば、CPU端末に障害が発生したと判定した場合に、障害判別用バスを介して通信を行うことにより、障害が発生したと判定されたCPU端末の通信機能に障害が発生したのか、あるいは、それ以外の箇所に障害が発生したのかを判別することができる。
従って、CPU端末の障害が発生した箇所のみをリセットすることができるため、障害の復旧作業における、マルチCPUシステム全体への影響を最小限に留めることができる。
As described above, according to the present embodiment, when it is determined that a failure has occurred in the CPU terminal, the CPU terminal that has been determined to have failed by communicating via the failure determination bus. It is possible to determine whether a failure has occurred in the communication function or whether a failure has occurred elsewhere.
Therefore, since only the location where the failure of the CPU terminal has occurred can be reset, the influence of the failure recovery operation on the entire multi-CPU system can be minimized.
なお、本発明は、上記実施形態に限定されるものではなく、発明の趣旨を逸脱しない範囲で種々変更可能である。例えば、障害判別用バスは、シリアルバスに限定されずにパラレルバスとすることもできる。 In addition, this invention is not limited to the said embodiment, A various change is possible in the range which does not deviate from the meaning of invention. For example, the failure determination bus is not limited to a serial bus, but may be a parallel bus.
1 マルチCPUシステムの監視システム
2 シリアルバス
3 障害判別用バス
1 Multi-CPU
Claims (3)
前記複数のCPU端末に接続された障害判別用バスを備え、
一のCPU端末が、前記シリアルバスを介して他のCPU端末に送信した第1の応答要求信号に対する応答信号を受信しない場合に、前記一のCPU端末から前記障害判別用バスを介して前記他のCPU端末に第2の応答要求信号を送信し、当該第2の応答要求信号に対する応答信号の受信の有無に基づいて前記他のCPU端末の障害の種別を判別する、マルチCPUシステムの監視システム。 A multi-CPU system monitoring system comprising a plurality of CPU terminals connected by a serial bus,
A fault determination bus connected to the plurality of CPU terminals;
When one CPU terminal does not receive a response signal to the first response request signal transmitted to the other CPU terminal via the serial bus, the other CPU terminal via the fault determination bus from the one CPU terminal. A multi-CPU system monitoring system that transmits a second response request signal to the CPU terminal of the CPU and determines the type of failure of the other CPU terminal based on whether or not a response signal is received in response to the second response request signal .
前記他のCPU端末に障害が発生したと判定した場合に、前記複数の端末が接続された障害判別用バスを介して前記一のCPU端末から前記他のCPU端末に第2の応答要求信号を送信して、その応答信号の受信の有無に基づいて前記他のCPU端末の障害の種別を判別する工程と、
を含む、マルチCPUシステムの監視方法。 Occurrence of a failure in the other CPU terminal based on whether or not a response signal is received in response to the first response request signal transmitted from one CPU terminal to another CPU terminal of a plurality of CPU terminals connected via a serial bus Determining the presence or absence of
When it is determined that a failure has occurred in the other CPU terminal, a second response request signal is sent from the one CPU terminal to the other CPU terminal via a failure determination bus to which the plurality of terminals are connected. Transmitting and determining the type of failure of the other CPU terminal based on whether or not the response signal is received;
A method for monitoring a multi-CPU system, including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011159227A JP2013025539A (en) | 2011-07-20 | 2011-07-20 | Monitoring system and monitoring method for multi-cpu system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011159227A JP2013025539A (en) | 2011-07-20 | 2011-07-20 | Monitoring system and monitoring method for multi-cpu system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013025539A true JP2013025539A (en) | 2013-02-04 |
Family
ID=47783825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011159227A Withdrawn JP2013025539A (en) | 2011-07-20 | 2011-07-20 | Monitoring system and monitoring method for multi-cpu system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013025539A (en) |
-
2011
- 2011-07-20 JP JP2011159227A patent/JP2013025539A/en not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9697167B2 (en) | Implementing health check for optical cable attached PCIE enclosure | |
US20080313426A1 (en) | Information Processing Apparatus and Information Processing Method | |
JP6183931B2 (en) | Cluster system, server apparatus, cluster system management method, and program | |
CN103678031A (en) | Double 2-vote-2 redundant system and method | |
CN102970167A (en) | Method for detecting faults of network nodes in cluster system, network node and system | |
JP2016046702A (en) | Communication system, abnormality control device, and abnormality control method | |
KR20150008746A (en) | Peripheral Component Interconnect Express switch apparatus and method for controlling connection using the same | |
CN109219105B (en) | Route switching method and route switching system | |
US9218236B2 (en) | Error signal handling unit, device and method for outputting an error condition signal | |
US8264948B2 (en) | Interconnection device | |
JP2013025539A (en) | Monitoring system and monitoring method for multi-cpu system | |
JP2009110218A (en) | Virtualization switch and computer system using the same | |
US20130067130A1 (en) | Bus control apparatus and bus control method | |
US10740199B2 (en) | Controlling device, controlling method, and fault tolerant apparatus | |
CN107659413B (en) | Small-sized communication equipment | |
JP7188895B2 (en) | Communications system | |
CN110321261B (en) | Monitoring system and monitoring method | |
JP2017183905A (en) | Communication device, method for recovering from communication failure, and program for recovering from communication failure | |
KR20150086215A (en) | Error signal handling unit, device and method for outputting an error condition signal | |
US9639438B2 (en) | Methods and systems of managing an interconnection | |
US20170155546A1 (en) | Duplex control device and duplex system | |
JP5082147B2 (en) | Multi-node system, inter-node switch, and data relay method | |
JP6031757B2 (en) | Transponder, its control method and control program | |
JP5604799B2 (en) | Fault tolerant computer | |
KR102016029B1 (en) | Apparatus and method for distributing load of vehicle communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20141007 |