JP2020071492A - Information processing system - Google Patents

Information processing system Download PDF

Info

Publication number
JP2020071492A
JP2020071492A JP2018202452A JP2018202452A JP2020071492A JP 2020071492 A JP2020071492 A JP 2020071492A JP 2018202452 A JP2018202452 A JP 2018202452A JP 2018202452 A JP2018202452 A JP 2018202452A JP 2020071492 A JP2020071492 A JP 2020071492A
Authority
JP
Japan
Prior art keywords
host unit
circuit
learning
information processing
active
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018202452A
Other languages
Japanese (ja)
Inventor
遼 西河
Ryo Nishikawa
遼 西河
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2018202452A priority Critical patent/JP2020071492A/en
Publication of JP2020071492A publication Critical patent/JP2020071492A/en
Pending legal-status Critical Current

Links

Images

Abstract

To provide an information processing system which learns a determination reference by itself, and in which modification of a monitor circuit is unnecessary even if the determination reference is changed.SOLUTION: A monitor circuit 30 of an information processing system monitors whether or not an active system host unit 1 is normally operated via a common bus 10. A learning circuit 40 stores address and data which the active system host unit accesses when executing an application, in a storage unit, and learns the address and data accessed while executing normally. The learning circuit determines that the operation is abnormal, when the active system host unit accesses abnormal address and data, and outputs a switch request signal 20 to a switch circuit 31. The switch circuit outputs a switch request signal 21 instructing to be a standby system host to the active system host unit, and at the same time outputs a switch request signal 22 instructing to be an active system host to a standby system host unit 2, and the standby system host unit transfers from a standby mode to an active system.SELECTED DRAWING: Figure 1

Description

本発明は情報処理システムに関するものであり、特に、障害発生時にCPUの系の切り替えを自動で実行可能な情報処理システムに関する。 The present invention relates to an information processing system, and more particularly to an information processing system capable of automatically switching a CPU system when a failure occurs.

プロセッサ(以下、CPUという)を搭載したホストユニットが冗長構成を成している場合において、運用中のホストユニット(以下、運用系ホストユニットという)にハードウェア障害が発生した際、あるいは強制リセットが実行された際には、切替え信号によって待機状態のホストユニット(以下、待機系ホストユニット)に対して運用系ホストユニットが運用できない状態となったことを通知し、待機状態であった待機系ホストユニットに運用系を遷移する系切り替えの動作が実行される(例えば、特許文献1参照)。 When a host unit equipped with a processor (hereinafter referred to as CPU) has a redundant configuration, when a hardware failure occurs in the operating host unit (hereinafter referred to as the active host unit), or a forced reset is performed. When it is executed, the switch signal notifies the host unit in the standby state (hereinafter, the standby system host unit) that the operating system host unit cannot operate, and the standby system host in the standby state A system switching operation for transitioning the active system to the unit is executed (for example, refer to Patent Document 1).

特開2006-260393号公報JP, 2006-260393, A

しかしながら、ハードウェア障害等が発生したか否かを監視するには、従来、正常な応答時間などの判断基準を予めユーザが決めておく必要があった。そして、その判断基準を監視回路に反映しなければならないという課題があった。
また、使用するアプリケーションの改修や追加によって判断基準が変更された場合、その変更内容を反映するために監視回路を改修しなければならないという課題があった。
However, in order to monitor whether or not a hardware failure or the like has occurred, conventionally, it has been necessary for a user to determine in advance a judgment criterion such as a normal response time. Then, there is a problem that the judgment standard must be reflected in the monitoring circuit.
Further, when the judgment standard is changed due to the modification or addition of the application to be used, there is a problem that the monitoring circuit must be modified to reflect the content of the modification.

この発明は係る課題を解決するためになされたものであり、判断基準を自ら学習し、判断基準が変更される場合であっても監視回路の改修が不要な情報処理システムを提供することを目的とする。 The present invention has been made to solve the above problems, and an object of the present invention is to provide an information processing system that does not require modification of a supervisory circuit even when the criteria are learned and the criteria are changed. And

この発明に係る情報処理システムは、共通バスにより接続された複数のホストユニットと、前記共通バスと接続され、前記ホストユニットの動作が正常であるか異常であるかを監視する監視回路と、前記監視回路から切り替え要求信号を受信すると、運用状態のホストユニットを待機状態のホストユニットに切り替え、待機状態のホストユニットを運用状態のホストユニットに切り替える切り替え信号を出力する切り替え回路と、を備え、前記監視回路は学習機能を有する学習回路を備え、前記学習回路は前記運用状態のホストユニットがアプリケーション実行時にアクセスする正常なアドレスを学習し、前記運用状態のホストユニットが正常なアドレスでないアドレスにアクセスすると、前記運用状態のホストユニットの動作が異常であると判断する。 An information processing system according to the present invention includes a plurality of host units connected by a common bus, a monitoring circuit connected to the common bus and monitoring whether the operation of the host unit is normal or abnormal, And a switching circuit that outputs a switching signal that switches the host unit in the operating state to the host unit in the standby state when the switching request signal is received from the monitoring circuit, and switches the host unit in the standby state to the host unit in the operating state. The monitoring circuit includes a learning circuit having a learning function, and the learning circuit learns a normal address accessed by the host unit in the operating state when executing an application, and the host unit in the operating state accesses an address that is not a normal address. , The operation of the operating host unit is abnormal To determine.

本発明の情報処理システムによれば、判断基準が変更される場合であっても監視回路の改修が不要となるため、情報処理システムの運用管理が容易になる。 According to the information processing system of the present invention, since it is not necessary to modify the monitoring circuit even when the judgment criterion is changed, the operation management of the information processing system becomes easy.

本発明の実施の形態1に係る情報処理システムの構成を示す図である。It is a figure which shows the structure of the information processing system which concerns on Embodiment 1 of this invention. 本発明の実施の形態1に係る情報処理システムのホストユニットに、PPMCを適用した情報処理システムの構成例を示す図である。It is a figure which shows the structural example of the information processing system which applied PPMC to the host unit of the information processing system which concerns on Embodiment 1 of this invention. 本発明に係る情報処理システムの切り替え制御デバイスによるシステムの状態遷移を説明する図である。It is a figure explaining the state transition of the system by the switching control device of the information processing system which concerns on this invention.

実施の形態1.
以下、本発明の実施の形態について図面を参照しながら説明する。なお、各図中で同一の符号のものは同一又は相当部分を示す。
Embodiment 1.
Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings, the same reference numerals denote the same or corresponding parts.

図1は、本実施の形態を示す情報処理システム100のシステム構成図である。
情報処理システム100は運用系ホストユニット1、待機系ホストユニット2、監視回路30、切り替え回路31が実装され、更に監視回路30には学習回路40が実装される。
FIG. 1 is a system configuration diagram of an information processing system 100 according to the present embodiment.
The information processing system 100 includes an active system host unit 1, a standby system host unit 2, a monitoring circuit 30, and a switching circuit 31, and the monitoring circuit 30 further includes a learning circuit 40.

運用系ホストユニット1と待機系ホストユニット2は共通バス10に接続される。
運用系ホストユニット1は切り替え回路31から、切り替え信号21とリセット信号23を入力する。同様に、待機系ホストユニット2は切り替え回路31から、切り替え信号22とリセット信号23を入力する。
監視回路30は共通バス10に接続され、切り替え回路31に対して切り替え要求信号20を出力する。
切り替え回路31は、監視回路30から切り替え要求信号20を入力すると、切り替え信号21、22とリセット信号23を、運用系ホストユニット1と待機系ホストユニット2の各々に出力する。
学習回路40は監視回路30内部に実装されており、この学習回路40にはコンピュータ上で知能を実現するAI(artificial intelligence。人工知能)技術が適用される。
The active host unit 1 and the standby host unit 2 are connected to the common bus 10.
The operational host unit 1 inputs the switching signal 21 and the reset signal 23 from the switching circuit 31. Similarly, the standby system host unit 2 inputs the switching signal 22 and the reset signal 23 from the switching circuit 31.
The monitoring circuit 30 is connected to the common bus 10 and outputs the switching request signal 20 to the switching circuit 31.
Upon receiving the switching request signal 20 from the monitoring circuit 30, the switching circuit 31 outputs the switching signals 21 and 22 and the reset signal 23 to each of the active host unit 1 and the standby host unit 2.
The learning circuit 40 is mounted inside the monitoring circuit 30, and AI (artificial intelligence) technology that realizes intelligence on a computer is applied to the learning circuit 40.

情報処理システム100は、切り替え回路31がホストユニット1に対して出力する切り替え信号21と、同じく切り替え回路31がホストユニット2に対して出力する切り替え信号22により、一方のホストユニットが運用系ホストであり、他方のホストユニットが待機系ホストであること指示する。
一例として、切り替え回路31は、ホストユニット1に対して運用系ホストであることを指示する切り替え信号21を出力し、ホストユニット2に対して待機系ホストであることを指示する切り替え信号22を同タイミングに出力する。この結果、ホストユニット1は運用系ホストとして動作し、ホストユニット2は待機系ホストとして動作する。
In the information processing system 100, one of the host units is the active host by the switching signal 21 output from the switching circuit 31 to the host unit 1 and the switching signal 22 output from the switching circuit 31 to the host unit 2 as well. Yes, indicating that the other host unit is a standby host.
As an example, the switching circuit 31 outputs a switching signal 21 instructing the host unit 1 that it is an active host, and outputs a switching signal 22 instructing the host unit 2 that it is a standby host. Output at timing. As a result, the host unit 1 operates as an active host and the host unit 2 operates as a standby host.

監視回路30は、共通バス10を経由して運用系ホストユニット1が正常に動作しているか否かを監視する。 The monitoring circuit 30 monitors whether the active host unit 1 is operating normally via the common bus 10.

運用系ホストユニット1が正常に動作しているか否かの監視は、例えば次のように行う。
監視回路30に備えられた学習回路40は、運用系ホストユニット1がアプリケーション実行時にアクセスするアドレスやデータを記憶部(図示せず)に蓄積する。
このようにして、運用系ホストユニット1がアプリケーションを正常に実行中にアクセスするアドレスやデータを学習する。
学習回路40は、学習結果に基いて、運用系ホストユニット1がアプリケーション実行時に異常なアドレスやデータにアクセスした場合に、運用系ホストユニット1の動作が異常であると判断する。
Monitoring of whether or not the active host unit 1 is operating normally is performed as follows, for example.
The learning circuit 40 included in the monitoring circuit 30 stores in the storage unit (not shown) the address and data that the active host unit 1 accesses when executing the application.
In this way, the active host unit 1 learns the address and data to be accessed during the normal execution of the application.
Based on the learning result, the learning circuit 40 determines that the operation of the active host unit 1 is abnormal when the active host unit 1 accesses an abnormal address or data during application execution.

上述の例では、運用系ホストユニットがアクセルするアドレスやデータに基づいて、学習回路40が学習結果を用いてホストユニットの正常、あるいは異常を判断していたが、これに限られるものではない。
例えば、学習回路40が、運用系ホストユニット1が割り込み要因に対して割り込みハンドラを正常に実行したときの応答時間を学習し、応答時間が所定の時間を超えても割り込みハンドラが実行されなかったことに基づいて、ホストユニットの異常を判断してもよい。
In the above example, the learning circuit 40 uses the learning result to determine whether the host unit is normal or abnormal based on the address or data that the active host unit has accessed, but the present invention is not limited to this.
For example, the learning circuit 40 learns the response time when the active host unit 1 normally executes the interrupt handler for the interrupt factor, and the interrupt handler is not executed even if the response time exceeds the predetermined time. Based on this, the abnormality of the host unit may be determined.

または、監視回路30にウォッチドックタイマやレジスタを実装しておき、学習回路40が、運用系ホストユニット1がウォッチドックタイマやレジスタに正常にアクセスする頻度やアクセス間隔を学習し、アクセス頻度が学習した範囲を超えたり、アクセス間隔が学習した所定の時間を超えたことに基づいて、ホストユニットの異常を判断してもよい。 Alternatively, the watchdog timer and the register are mounted in the monitoring circuit 30, and the learning circuit 40 learns the frequency and the access interval at which the active host unit 1 normally accesses the watchdog timer and the register, and the access frequency is learned. Abnormality of the host unit may be determined based on the fact that the range exceeds the specified range or the access interval exceeds the learned predetermined time.

学習回路40が学習する期間としては、学習の対象とする事象、例えば共通バスへのアクセス、ウォッチドックタイマやレジスタへのアクセス、割り込みハンドラの実行などが、システム起動から所定の回数発生するまで学習するようにしてもよい。 The learning period of the learning circuit 40 is such that a learning target event such as access to a common bus, access to a watchdog timer or a register, or execution of an interrupt handler is learned until a predetermined number of times occur after system startup. You may do so.

学習回路40が学習する期間は一例であり、学習回路40はシステム起動から所定の期間内は学習し、するようにしてもよい。 The period in which the learning circuit 40 learns is an example, and the learning circuit 40 may perform learning within a predetermined period from system startup.

また、学習回路40の学習開始期間は、システムを起動するシステム起動時だけではなく、システム運用中に定期的に、あるいは不定期的に任意の期間または任意の回数学習する様にしてもよい。
また、システム運用前のデバッグ時に、学習回路40が学習するようにしてもよい。
Further, the learning start period of the learning circuit 40 may be learned not only when the system is started up but also periodically or irregularly during the system operation for an arbitrary period or an arbitrary number of times.
Further, the learning circuit 40 may learn during debugging before operating the system.

また、学習回路40は、繰り返し学習する際に以前の学習結果から継続して学習してもよいし、或いは、以前の学習結果を初期化して初めから学習し直すようにしてもよい。 Further, the learning circuit 40 may continue learning from the previous learning result when iteratively learning, or may initialize the previous learning result and restart learning from the beginning.

次に、学習回路40が運用系ホストユニット1の異常を判断すると、監視回路30は切り替え回路31に対して、切り替え要求信号20を出力する。 Next, when the learning circuit 40 determines that the operating system host unit 1 is abnormal, the monitoring circuit 30 outputs the switching request signal 20 to the switching circuit 31.

切り替え要求信号20を受信した切り替え回路31は、運用系ホストユニット1に対して待機系ホストであることを指示する切り替え信号21を出力すると同時に、待機系ホストユニット2に対して運用系ホストであることを指示する切り替え信号22を出力する。 Upon receiving the switching request signal 20, the switching circuit 31 outputs the switching signal 21 instructing the active host unit 1 to be the standby host, and at the same time, is the active host to the standby host unit 2. A switching signal 22 instructing that is output.

次に、切り替え回路31はリセット信号23を運用系ホストユニット1、待機系ホストユニット2に各々出力し、システムリセットを行う。
システムリセットにより、運用系ホストユニット1は切り替え信号21が待機系に指示されるため、待機系として待機動作を開始する。
一方、待機系ホストユニット2は切り替え信号22が運用系として指示されるため、従来の待機モードから運用系に移行して運用動作を開始する。
Next, the switching circuit 31 outputs a reset signal 23 to each of the active host unit 1 and the standby host unit 2 to reset the system.
When the system is reset, the operating system host unit 1 starts the standby operation as the standby system because the switching signal 21 is instructed to the standby system.
On the other hand, since the switching signal 22 is instructed as the active system, the standby system host unit 2 shifts from the conventional standby mode to the active system and starts the operational operation.

待機系となったホストユニット1と運用系となったホストユニット2は、共にシステムリセットにより動作を開始するため、バスシステム全体の構成情報や割り込みの入出力の管理が再構成される。この動作は電源投入時の動作と同じであるため、ホストユニット1とホストユニット2は特別な処理を行う必要はない。 Since the host unit 1 that has become the standby system and the host unit 2 that has become the active system both start operation upon system reset, the configuration information of the entire bus system and management of interrupt input / output are reconfigured. Since this operation is the same as the operation when the power is turned on, the host unit 1 and the host unit 2 do not need to perform special processing.

このように本実施の形態に係る情報処理システムは学習回路40を備え、学習回路40が学習を行い、運用系ホストユニットの監視を行えるようにした。監視の一例として、学習回路40が、各種アプリケーションが正常に動作しているときにアクセスするアドレスやデータを記憶しておき異常なアクセスを監視する方法、ウォッチドックタイマやレジスタに一定期間内にアクセスできるかを監視する方法、割り込み要因の入力に対して割り込みハンドラが一定期間内に実行できるかを監視する方法などを挙げた。これにより、判断基準が変更される場合であっても監視回路の改修が不要となるため、情報処理システムの運用管理が容易になるという効果を奏する。更に、学習回路40が、ホストユニットがウォッチドックタイマやレジスタへ正常にアクセスしたと判断する期間や、割り込みハンドラが正常に実行されたと判断する期間を学習することで、異常検知の信頼性や切り替え速度を向上することができる。 As described above, the information processing system according to the present embodiment includes the learning circuit 40, and the learning circuit 40 performs learning so that the operation host unit can be monitored. As an example of monitoring, a method in which the learning circuit 40 stores addresses and data to be accessed when various applications are operating normally and monitors for abnormal access, access to a watchdog timer or a register within a certain period The method of observing whether it is possible and the method of observing whether the interrupt handler can be executed within a certain period for the input of the interrupt factor are mentioned. This eliminates the need to repair the monitoring circuit even when the judgment criterion is changed, and thus has the effect of facilitating the operational management of the information processing system. Further, the learning circuit 40 learns the period in which the host unit determines that the watchdog timer and the register are normally accessed and the period in which the interrupt handler is determined to be normally executed, thereby improving the reliability and the switching of the abnormality detection. The speed can be improved.

実施の形態2.
実施の形態2では、ホストユニットとしてPPMCを用いる例を示す。
PPMCは、IEEE 1386.1 PMC と、ANSI/VITA 32-2003 (R2009) Processor PMCで規定されているキャリアボードのPMCコネクタに実装できるCPUボードである。PPMCはキャリアボードに複数実装することができる。
Embodiment 2.
The second embodiment shows an example in which PPMC is used as the host unit.
The PPMC is a CPU board that can be mounted on the PMC connector of the carrier board specified by IEEE 1386.1 PMC and ANSI / VITA 32-2003 (R2009) Processor PMC. A plurality of PPMCs can be mounted on the carrier board.

図2は、実施の形態2に係る情報処理システムのシステム構成図である。
図2において、実施の形態1における情報処理システム100に相当するキャリアボード200には、運用系ホストユニット1に相当するPPMC101、待機系ホストユニット2に相当するPPMC102、監視回路130、切り替え回路131、学習回路140が実装される。
FIG. 2 is a system configuration diagram of the information processing system according to the second embodiment.
In FIG. 2, a carrier board 200 corresponding to the information processing system 100 according to the first embodiment has a PPMC 101 corresponding to the active host unit 1, a PPMC 102 corresponding to the standby host unit 2, a monitoring circuit 130, a switching circuit 131, The learning circuit 140 is implemented.

PPMC101とPPMC102は、共通バス10に相当するPCIバス110に接続され、実施の形態1における切り替え信号21、22に相当するMONARCH#信号121、122、同じく実施の形態1におけるリセット信号23に相当するRST#信号123が入力される。
監視回路130はPCIバス110に接続され、切り替え要求信号120を出力する。切り替え回路131は、監視回路130から切り替え要求信号120を入力し、MONARCH#信号121、122とRST#信号123を出力する。
RST#信号123はPCIの規格に準拠した論理Lが有意の信号である。
The PPMC 101 and the PPMC 102 are connected to the PCI bus 110 corresponding to the common bus 10, and correspond to the MONARCH # signals 121 and 122 corresponding to the switching signals 21 and 22 in the first embodiment and the reset signal 23 similarly to the first embodiment. The RST # signal 123 is input.
The monitoring circuit 130 is connected to the PCI bus 110 and outputs the switching request signal 120. The switching circuit 131 receives the switching request signal 120 from the monitoring circuit 130, and outputs the MONARCH # signals 121 and 122 and the RST # signal 123.
The RST # signal 123 is a signal whose logic L conforming to the PCI standard is significant.

PPMCは規格よってモナークモード、ノンモナークモードの2つの動作形態がある。MONARCH#信号はモナークモードかノンモナークモードかを指示する信号であり、MONARCH#信号が論理Lのときはモナークモード、論理Hのときはノンモナークモードを指示する。
運用系とするPPMCにはホスト機能を持たせたいため、モナークモードを運用系、ノンモナークモードを待機系と位置付ける。こうすることによって、MONARCH#信号121,122はPPMC101、102が運用系であるか、待機系であるかを指示する信号として活用することができる。
The PPMC has two operation modes, a monarch mode and a non-monarch mode, depending on the standard. The MONARCH # signal is a signal for instructing the monarch mode or the non-monarch mode. When the MONARCH # signal is logic L, the monarch mode is instructed, and when it is logic H, the non-monarch mode is instructed.
Since it is desired to have a host function in the PPMC that is the active system, the monarch mode is positioned as the active system and the non-monarch mode is positioned as the standby system. By doing so, the MONARCH # signals 121 and 122 can be utilized as signals for instructing whether the PPMCs 101 and 102 are the active system or the standby system.

図3は、本実施の形態に係るキャリアボード200の切り替え回路によるシステムの状態遷移を説明する図である。
切り替え要求信号120と、MONARCH#信号121と、MONARCH#信号122と、RST#信号123の信号波形を、横軸を時間軸にして示している。なお、図3では切り替え信号120は論理Lを有意の信号にしているが、論理Hを有意の信号としてもよい。
FIG. 3 is a diagram for explaining system state transition by the switching circuit of the carrier board 200 according to the present embodiment.
The signal waveforms of the switching request signal 120, the MONARCH # signal 121, the MONARCH # signal 122, and the RST # signal 123 are shown with the horizontal axis as the time axis. In FIG. 3, the switching signal 120 uses the logic L as a significant signal, but the logic H may be a significant signal.

図3において、初期状態では、MONARCH#信号121はPPMC101に運用系、すなわちモナークモードであることを示す論理Lの信号を出力し、MONARCH#信号122はPPMC102に待機系、すなわちノンモナークであることを示す論理Hの信号を出力している。この結果、PPMC101は運用系として動作し、PPMC102は待機系ホストとして動作している。 3, in the initial state, the MONARCH # signal 121 outputs to the PPMC 101 a logical L signal indicating that it is in the active system, that is, the monarch mode, and the MONARCH # signal 122 is in the standby system, that is, nonmonarch to the PPMC 102. Is output as a logic H signal. As a result, the PPMC 101 operates as an active system and the PPMC 102 operates as a standby host.

監視回路130はPCIバス110を観測するなどして、学習回路140で観測状況を学習し、運用系のPPMC101が正常に動作しているか監視する。監視回路130は運用系のPPMC101が異常と判断したとき、論理Lの切り替え信号120を切り替え回路31に出力する。 The monitoring circuit 130 learns the observation status by the learning circuit 140 by observing the PCI bus 110, and monitors whether the PPMC 101 of the active system is operating normally. When the monitoring circuit 130 determines that the PPMC 101 in the active system is abnormal, it outputs the switching signal 120 of logic L to the switching circuit 31.

切り替え回路131は、監視回路130から論理Lの切り替え要求信号120を入力されたとき、PPMC101を運用系から待機系に切り替え、また、PPMC102を待機系から運用系に切り替える。
MONARCH#信号121はPPMC101に待機系であることを指示するため論理Lから論理Hに出力を変更する、MONARCH#信号122はPPMC102に運用系であることを指示するため、論理Hから論理Lに出力を変更する。
The switching circuit 131 switches the PPMC 101 from the active system to the standby system and switches the PPMC 102 from the standby system to the active system when the logical L switching request signal 120 is input from the monitoring circuit 130.
The MONARCH # signal 121 changes the output from the logic L to the logic H to instruct the PPMC 101 to be the standby system, and the MONARCH # signal 122 changes from the logic H to the logic L to instruct the PPMC 102 to be the active system. Change the output.

切り替え回路131は論理LのRST#信号123をPPMC101、102に出力しシステムリセットをする。システムリセットにより、PPMC101はMONARCH#信号121が論理Hに指示されるため待機系として動作を開始する。PPMC102はMONARCH#信号122が論理Lに指示されるため運用系として動作を開始する。 The switching circuit 131 outputs a logic L RST # signal 123 to the PPMCs 101 and 102 to reset the system. The system reset causes the PPMC 101 to start operating as a standby system because the MONARCH # signal 121 is instructed to be logic H. Since the MONARCH # signal 122 is instructed to be logic L, the PPMC 102 starts operating as an active system.

待機系のPPMC101も運用系のPPMC102もリセットにより動作を開始するため、バスシステム全体の構成情報や割り込みの入出力の管理が再構成される。この動作は電源投入時の動作と同じため、PPMC101とPPMC102には特別な処理は不要である。 Since both the standby PPMC 101 and the active PPMC 102 start their operations by resetting, the configuration information of the entire bus system and the management of interrupt input / output are reconfigured. Since this operation is the same as the operation when the power is turned on, the PPMC 101 and PPMC 102 do not require special processing.

本実施の形態の学習回路140は実施の形態1での学習回路40と同じく、PCIバス110を観測し、観測結果を学習して、運用系PPMC(運用状態のPPMC101、102のいずれか)の異常を判断する。
監視回路130に備えられた学習回路140は、運用系PPMC101がアプリケーション実行時にアクセスするアドレスやデータを記憶部(図示せず)に蓄積する。このようにして、運用系PPMC101がアプリケーションを正常に実行中にアクセスするアドレスやデータを学習する。学習回路140は、学習結果に基いて、運用系PPMC101がアプリケーション実行時に異常なアドレスやデータにアクセスした際に、運用系PPMC101の動作が異常であると判断する。
The learning circuit 140 according to the present embodiment observes the PCI bus 110 and learns the observation result, similarly to the learning circuit 40 according to the first embodiment, and then, the learning circuit 140 of the active PPMC (either of the PPMCs 101 and 102 in the operating state). Judge abnormalities.
The learning circuit 140 provided in the monitoring circuit 130 accumulates in the storage unit (not shown) the address and data that the active PPMC 101 accesses when executing the application. In this way, the active PPMC 101 learns the address and data to be accessed during the normal execution of the application. Based on the learning result, the learning circuit 140 determines that the operation of the active PPMC 101 is abnormal when the active PPMC 101 accesses an abnormal address or data during application execution.

なお、上述の例では、運用系PPMC101がアクセルするアドレスやデータに基づいて、学習回路140が学習結果を用いてホストユニットの正常、あるいは異常を判断していたが、これに限られるものではない。
例えば、学習回路140が、運用系PPMC101が割り込み要因に対して割り込みハンドラを正常に実行したときの応答時間を学習し、応答時間が所定の時間を超えても割り込みハンドラが実行されなかったことに基づいて、PPMC101の異常を判断してもよい。
In the above example, the learning circuit 140 uses the learning result to determine whether the host unit is normal or abnormal based on the address and data that the active PPMC 101 accelerates, but the present invention is not limited to this. ..
For example, the learning circuit 140 learns the response time when the active PPMC 101 normally executes the interrupt handler for the interrupt factor, and the interrupt handler is not executed even if the response time exceeds the predetermined time. Based on this, the abnormality of the PPMC 101 may be determined.

また、監視回路130にウォッチドックタイマやレジスタを実装しておき、学習回路140が、運用系の運用系PPMC101がウォッチドックタイマやレジスタに正常にアクセスする頻度やアクセス間隔を学習し、アクセス頻度が学習した範囲を超えたり、アクセス間隔が学習した所定の時間を超えたことに基づいて、運用系PPMC101の異常を判断してもよい。 Further, the watchdog timer and the register are mounted in the monitoring circuit 130, and the learning circuit 140 learns the frequency and the access interval at which the working PPMC 101 normally accesses the watchdog timer and the register, and the access frequency is The abnormality of the active PPMC 101 may be determined based on the learned range being exceeded or the access interval having exceeded the learned predetermined time.

学習回路140が学習する期間としては、学習の対象とする事象、例えば共通バスへのアクセス、ウォッチドックタイマやレジスタへのアクセス、割り込みハンドラの実行などが、システム起動から所定の回数発生するまで学習するようにしてもよい。 The learning period of the learning circuit 140 is such that a learning target event, for example, access to a common bus, access to a watchdog timer or a register, execution of an interrupt handler, or the like is performed until a predetermined number of times from system startup. You may do so.

学習回路140が学習する期間は一例であり、学習回路140はシステム起動から所定の期間内は学習するようにしてもよい。 The period in which the learning circuit 140 learns is an example, and the learning circuit 140 may perform learning within a predetermined period from system startup.

また、学習回路140の学習開始期間は、システムを起動するシステム起動時だけではなく、システム運用中に定期的に、あるいは不定期的に任意の期間または任意の回数学習するようにしてもよい。
また、システム運用前のデバッグ時に、学習回路140が学習するようにしてもよい。
Further, the learning start period of the learning circuit 140 may be learned not only when the system is started up but also periodically or irregularly during system operation for an arbitrary period or an arbitrary number of times.
Further, the learning circuit 140 may learn at the time of debugging before operating the system.

また、学習回路140は、繰り返し学習する際に以前の学習結果から継続して学習してもよいし、或いは、以前の学習結果を初期化して初めから学習し直すようにしてもよい。 Further, the learning circuit 140 may continue learning from the previous learning result when repeatedly learning, or may initialize the previous learning result and restart learning from the beginning.

このように本実施の形態に係る情報処理システムは、切り替え制御機能をPPMCから独立させて実装することで、既存のPPMCに特別な変更を加えることなく互換性を保ったまま切り替え機能を実現でき、開発コストを低減することができる。
また、切り替え制御機能をPPMCから独立することで、PPMCが故障した場合でも故障を検出し切り替えすることができる。特にPPMCのように、既存の規格に準拠して構成されている場合にも、既存のPPMCをそのまま使い、切り替え機能を実現することができる。
As described above, in the information processing system according to the present embodiment, by implementing the switching control function independently of the PPMC, it is possible to realize the switching function while maintaining compatibility without making a special change to the existing PPMC. The development cost can be reduced.
Further, by making the switching control function independent of the PPMC, even when the PPMC fails, the failure can be detected and switched. In particular, even in the case of being configured according to the existing standard such as PPMC, the existing PPMC can be used as it is to realize the switching function.

なお、学習の際にPPMC101あるいはPPMC102が正常に動作中であるか否かの判断は、少なくとも初期の間はユーザが学習回路140に教えるようにしてもよい。例えば異常時はユーザが操作をしてアラーム信号を発信して、学習回路140に運用系PPMCの異常を知らせるようにしてもよい。あるいは、PPMCが自ら異常を判断すると、学習回路140に対して異常を知らせる信号を出力するようにしてもよい。このようにすることで、学習回路140は、初期においてユーザにより異常と判断された運用系PPMCがアクセスするアドレスやデータを異常なアドレスやデータとして記憶し学習することが可能となる。 Note that the learning circuit 140 may be instructed by the user at least during the initial period to determine whether or not the PPMC 101 or PPMC 102 is operating normally during learning. For example, when an abnormality occurs, the user may perform an operation to send an alarm signal to notify the learning circuit 140 of the abnormality of the active PPMC. Alternatively, when the PPMC itself determines an abnormality, a signal notifying the abnormality may be output to the learning circuit 140. By doing so, the learning circuit 140 can store and learn as an abnormal address or data an address or data accessed by the active PPMC that is initially judged to be abnormal by the user.

1 運用系ホストユニット、2 待機系ホストユニット、10 共通バス、20 切り替え要求信号、21 切り替え信号、22 切り替え信号、23 リセット信号、30、130 監視回路、31、131 切り替え回路、40、140 学習回路、100 情報処理システム、110 PCIバス、101 運用系PPMC、102 待機系PPMC、121 MONARCH#信号、122 MONARCH#信号、123 RST#信号、200 キャリアボード 1 working host unit, 2 standby host unit, 10 common bus, 20 switching request signal, 21 switching signal, 22 switching signal, 23 reset signal, 30, 130 monitoring circuit, 31, 131 switching circuit, 40, 140 learning circuit , 100 information processing system, 110 PCI bus, 101 active PPMC, 102 standby PPMC, 121 MONARCH # signal, 122 MONARCH # signal, 123 RST # signal, 200 carrier board

Claims (3)

共通バスにより接続された複数のホストユニットと、
前記共通バスと接続され、前記ホストユニットの動作が正常であるか異常であるかを監視する監視回路と、
前記監視回路から切り替え要求信号を受信すると、運用状態のホストユニットを待機状態のホストユニットに切り替え、待機状態のホストユニットを運用状態のホストユニットに切り替える切り替え信号を出力する切り替え回路と、を備え、
前記監視回路は学習機能を有する学習回路を備え、前記学習回路は前記運用状態のホストユニットがアプリケーション実行時にアクセスする正常なアドレスを学習し、前記運用状態のホストユニットが正常なアドレスでないアドレスにアクセスすると、前記運用状態のホストユニットの動作が異常であると判断することを特徴とする情報処理システム。
Multiple host units connected by a common bus,
A monitoring circuit connected to the common bus to monitor whether the operation of the host unit is normal or abnormal;
A switching circuit that outputs a switching signal that switches the host unit in the operating state to the host unit in the standby state when the switching request signal is received from the monitoring circuit, and switches the host unit in the standby state to the host unit in the operating state;
The monitoring circuit includes a learning circuit having a learning function, the learning circuit learns a normal address accessed by the host unit in the operating state when an application is executed, and the host unit in the operating state accesses an address that is not a normal address. Then, the information processing system is characterized in that the operation of the host unit in the operating state is determined to be abnormal.
前記学習回路は、前記運用状態のホストユニットが割り込み要因に対して割り込みハンドリングを正常に実行する期間を学習し、前記期間内に割り込みハンドリングを実行しない場合に前記運用状態のホストユニットの動作が異常であると判断することを特徴とする請求項1記載の情報処理システム。 The learning circuit learns a period in which the host unit in the operating state normally executes interrupt handling for an interrupt factor, and if the interrupt handling is not executed within the period, the operation of the host unit in the operating state is abnormal. The information processing system according to claim 1, wherein the information processing system determines that 前記学習回路はシステムの負荷状況を学習してアクセス期間を設定し、前記アクセス期間内にアクセスが無い場合に前記運用状態のホストユニットの動作が異常であると判断することを特徴とする請求項1記載の情報処理システム。 The learning circuit learns a load condition of the system to set an access period, and determines that the operation of the host unit in the operating state is abnormal when there is no access within the access period. 1. The information processing system according to 1.
JP2018202452A 2018-10-29 2018-10-29 Information processing system Pending JP2020071492A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018202452A JP2020071492A (en) 2018-10-29 2018-10-29 Information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018202452A JP2020071492A (en) 2018-10-29 2018-10-29 Information processing system

Publications (1)

Publication Number Publication Date
JP2020071492A true JP2020071492A (en) 2020-05-07

Family

ID=70549546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018202452A Pending JP2020071492A (en) 2018-10-29 2018-10-29 Information processing system

Country Status (1)

Country Link
JP (1) JP2020071492A (en)

Similar Documents

Publication Publication Date Title
JPS61502223A (en) Reconfigurable dual processor system
US7089413B2 (en) Dynamic computer system reset architecture
JP2017187992A (en) Control device, control method and program
JP4655718B2 (en) Computer system and control method thereof
CN115480884A (en) Chip, test monitoring method of chip and computer readable storage medium
CN109358982B (en) Hard disk self-healing device and method and hard disk
US5226151A (en) Emergency resumption processing apparatus for an information processing system
JP2020071492A (en) Information processing system
KR100697988B1 (en) Apparatus and method for protecting system from excessive occurrence of interrupt
JP2009237758A (en) Server system, server management method, and program therefor
JPH1153225A (en) Fault processor
US10089200B2 (en) Computer apparatus and computer mechanism
JP6654662B2 (en) Server device and server system
JP4507875B2 (en) Multiplexer and legacy device multiplexing method
JP6424134B2 (en) Computer system and computer system control method
JP2004348335A (en) Fault detection method and information processing system
JP2013254333A (en) Multiple system control system and control method therefor
JP2001175545A (en) Server system, fault diagnosing method, and recording medium
JPH07200334A (en) Duplicate synchronization operation system
JPH033041A (en) Time-out monitoring circuit
JP2011022741A (en) Computer system, service processor, and diagnostic method thereof
JPH10143393A (en) Diagnosis and processing device
JP2015141589A (en) Server device, server system, and failure countermeasure method
JPH11202963A (en) Computer loading device
JPH0855040A (en) System operating method