JP2006163919A - 二重化システム - Google Patents

二重化システム Download PDF

Info

Publication number
JP2006163919A
JP2006163919A JP2004355576A JP2004355576A JP2006163919A JP 2006163919 A JP2006163919 A JP 2006163919A JP 2004355576 A JP2004355576 A JP 2004355576A JP 2004355576 A JP2004355576 A JP 2004355576A JP 2006163919 A JP2006163919 A JP 2006163919A
Authority
JP
Japan
Prior art keywords
reset
signal
processing system
processing
health check
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004355576A
Other languages
English (en)
Inventor
Takashi Onda
貴 恩田
Noboru Doishikawa
昇 戸石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004355576A priority Critical patent/JP2006163919A/ja
Publication of JP2006163919A publication Critical patent/JP2006163919A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

【課題】 二重化システムに関し、特に2系統の装置間で互いの正常性を確認し、異常な装置を適切な再起動処理によって機能回復させる二重化システムを提供する。
【解決手段】 監視側の処理系は、系間通信により、相手側の処理系にヘルスチェック信号を送信してその正常性を判定するヘルスチェック送信部と、異常と判定されると系間制御によりリセット予告信号を出力するリセット予告出力部と、リセット予告信号によっても異常が解消しないときに、相手側処理系へさらに強制リセット信号を出力する強制リセット出力部と、を有し、相手側の処理系は、ヘルスチェック信号の受信により、それに返信するヘルスチェック応答部と、リセット予告信号の入力により、アプリケーションレベルのリセット処理を実行するリセット予告処理部と、強制リセット信号の入力により、ハードウェアの強制リセット処理を実行する強制リセット処理部と、を有する。
【選択図】 図6

Description

本発明は二重化システムに関し、特にダム/用水管理等に用いられる2系統の装置間で互いの正常性を確認し、異常な装置を適切な再起動処理によって機能回復させる二重化システムに関するものである。
図1は、従来の二重化システムの一例を示したものである。
図1において、1系/2系の処理装置10、20は、例えば山間部のダム/用水管理センター等に設置されたサーバや制御装置である。1系の処理装置10と2系の処理装置20との間の系間通信は、NIC(Network Interface Card)11、21を介したイーサネット等のLAN(Local Area Network)50と、RS232C等のシリアルインタフェース12、22を介したシリアル通信30とによって行われる。
本例では、LAN50の側で輻輳が発生しても系間通信を維持できるように、1系の処理装置10と2系の処理装置20との間をダイレクトに接続するシリアル通信30の別ルートが設けられている。そのため、1系の処理装置10と2系の処理装置20との間のヘルスチェックはLAN50及びシリアル通信30のいずれのルートで行ってもよく、双方のルートでヘルスチェックが失敗した時にヘルスチェック監視側の処理装置10又は20が相手側の処理装置20又は10に障害が発生したものと判定する。
また、LAN50には複数の端末60−1〜60−nが各々のNIC61−1〜61−nを介して接続されており、各端末はLAN50を介して端末同士の通信や1系/2系の処理装置10、20と通信を行う。これらの端末60−1〜60−nは、例えばダム/用水管理センター内に設置されたオペレータ端末や山間部に分散配置された気象観測や用水計測用等の端末である。
1系/2系の処理装置10、20は、さらにRAS(Reliability, Availability, Serviceability)カード13、23を実装している。RASカード13、23は、無停電電源装置(UPS)等の付帯装置が接続され、DI/O(Digital Input/Output)等の入出力ポートを使って系間制御を行う。本例では、1系/2系の処理装置10、20のRASカード13、23同士を相互に接続し、その間に接続ライン上の信号をモニタして1系/2系の主/従関係等の二重化運用状態(系間制御状態)をLED等で表示する二重化運用状態表示器40を設置している。
図2〜5は、ヘルスチェック機能を用いた従来の強制リセット処理の一例を示したものである。
図2は、RASカード13、23の間の具体的な接続構成を示している。ここでは、1系の処理装置10のRASカード13の端子信号を、RAS端子台ケーブルによって延長し、スルー構成のコネクタ・ターミナルの一方のコネクタに接続する。さらに、二重化運用状態表示器40上のコネクタ端子信号も延長ケーブルで延長して、前記コネクタ・ターミナルの他方のコネクタに接続する。2系の処理装置20におけるRASカード23の接続についても上記と同様である。
これにより、2つのRASカード13、23間で互いに対応する端子信号同士がスルー状に接続される。図3には、1系の処理装置10が監視側装置となってその相手側装置である2系の処理装置2へ強制リセット信号を出力するRAS端子台のコネクタ端子信号割付けの一例を示している。本例ではヘルスチェックによって2系の処理装置20の異常を検出した1系の処理装置10が、強制リセット信号を出力するためのRAS端子台に割付けられたデジタルアウト(DO)端子と、それとスルー接続される2系の処理装置20のRAS端子台に割付けられたデジタルイン(DI)端子の一例を示している。
反対に、ヘルスチェックによって1系の処理装置10の異常を検出した2系の処理装置20が、強制リセット信号を出力するためのRAS端子台に割付けられたデジタルアウト(DO)端子と、それとスルー接続される1系の処理装置10のRAS端子台に割付けられたデジタルイン(DI)端子の一例も示している。
図4には、従来の1系/2系の処理装置10、20における機能ブロック構成の一例を示している。また図5には、図4の機能ブロックの処理フロー例を示している。それらの動作を図2の例で説明すると、先ず1系の処理装置10の系間通信監視部14は、系間通信によって定期的に2系の処理装置20にヘルスチェック信号を送信する。2系の処理装置20が正常であれば受信したヘルスチェック信号に対する返信を所定時間内に行うが、図2の例の場合には2系の処理装置20がOSフリーズ状態になっており、系間通信監視部24はヘルスチェック信号に対する返信ができない。
これにより、1系の処理装置10の系間通信監視部14は系間通信の切断を検出する(S01)。従来の二重化システムでは、システム異常発生時に異常装置自身が再起動を行って機能回復を図っている。そのため、設定時間(装置異常検出後正常再起動までの時間+α:正常再起動に要する時間)の監視を継続して(S02)、この間に系間通信が回復しない場合にだけ相手側装置が自己再起動もできない装置フリーズ状態に陥ったと判定する。
次に、1系の処理装置10(監視側装置)のRASカード13から、DI/Oによる強制リセッ信号(図3の1系→2系)を二重化運用状態表示器40を経由して2系の処理装置20(相手側装置)に出力する(S03)。その結果、相手側装置はハード割り込みによるリセットスイッチ押下状態となり、ソフトウェアによらない強制リセットを実施する(S04)。
二重化システムの他の公知例としては、等値化ボードを用いて切り換えの高速化を図ったもの(特許文献1参照)、稼動系から待機系への制御権の短縮化を図ったもの(特許文献2参照)がある。
特開平8−123502号公報 特開平8−202573号公報
しかしながら、上述した従来例ではハード的な強制リセット処理を行うために、相手側装置のハ−ドディスク稼動時に強制リセットが突然実施されてディスククラッシュが誘発されるという問題があった。また、強制リセット信号を出力した後も、相手側装置が回復しなければ一定周期で強制リセット信号を出力し続けるため(図5参照)、強制リセットによる機能回復が不可能な場合(ハードウェア自体の故障等)は、一層ディスククラッシュが助長されるという問題があった。
また、従来の二重化システムのように、システム異常発生時に異常装置自身が自律的に再起動処理を行って機能回復を図る場合でも、監視側装置はその再起動処理の開始時刻を特定できず、設定時間(装置異常検出後正常再起動までの時間+α:正常再起動に要する時間)が必要以上に長くなるという問題があった。さらに、相手側装置で異常検出が遅れると、本来ならソフトウェア的なリセット処理で回復できるものが強制リセットされるという問題もあった。
ところで、ヘルスチェックによって検出される相手側装置の障害発生の原因には、相手側装置で起動中のアプリケーションが無限ループに陥ったり、協働する他のアプリケーションからの応答が遅延して要求時間内にヘルスチェック信号に対する返信ができない、等のソフトウェア的な要因も含まれる。この場合には、該当するソフトウェアだけを停止させれば障害からの回復できる場合があり、その影響も当該ソフトウェアが処理するデータやメモリ領域内に制限することができる。
そこで本発明の目的は、上記問題点に鑑み、監視側装置がヘルスチェックによって相手側装置の異常を検出すると、ただちにリセット予告信号を相手側装置に出力してソフトウェア的なリセット処理を開始させ、そのリセット予告信号の送信時刻を基準に設定時間(装置異常検出後正常再起動までの時間+α:正常再起動に要する時間)のカウントを開始し、その設定時間経過後に強制リセット信号を送出してハードウェアの強制リセットを実施させることで、ディスククラッシュを防止しつつ迅速な障害回復を可能とした二重化システムを提供することにある。
さらに本発明の目的は、ハードウェアの強制リセット回数を所定回数以内に抑制することで、ディスククラッシュの一層の防止を図った二重化システムを提供することにある。
本発明によれば、第1の処理系と第2の処理系との間で系間通信と系間制御を行って互いに稼動系と待機系とを切り替える二重化システムにおいて、監視側の処理系は、前記系間通信により、相手側の処理系にヘルスチェック信号を送信し、その返信によって相手側の処理系の正常性を判定するヘルスチェック送信部と、相手側の処理系が異常と判定されると、前記系間制御により、相手側処理系へリセット予告信号を出力するリセット予告出力部と、前記リセット予告信号によっても相手側の処理系の異常が解消しないときに、前記系間制御により、相手側処理系へさらに強制リセット信号を出力する強制リセット出力部と、を有し、相手側の処理系は、前記ヘルスチェック信号の受信により、それに返信するヘルスチェック応答部と、前記リセット予告信号の入力により、アプリケーションレベルのリセット処理を実行するリセット予告処理部と、前記強制リセット信号の入力により、ハードウェアの強制リセット処理を実行する強制リセット処理部と、を有する二重化システムが提供される。
また本発明によれば、複数の処理系の間で互いにヘルスチェックを行うシステムにおいて、監視側の処理系は、相手側の処理系にヘルスチェック信号を送信し、その返信によって相手側の処理系の正常性を判定するヘルスチェック送信部と、相手側の処理系が異常と判定されると、相手側の処理系にリセット予告信号を送信するリセット予告送信部と、前記リセット予告信号によっても相手側の処理系の異常が解消しないときに、相手側の処理系へさらに強制リセット信号を送信する強制リセット送信部と、を有し、相手側の処理系は、前記ヘルスチェック信号を受信すると、それに返信するヘルスチェック応答部と、前記リセット予告信号を受信すると、アプリケーションレベルのリセット処理を実行するリセット予告処理部と、前記強制リセット信号を受信すると、ハードウェアの強制リセット処理を実行する強制リセット処理部と、を有するシステムが提供される。
本発明によれば、二重化システムにおいて、異常発生となった装置に対して復旧を促すための強制リセット処理に先立ってリセット予告を行うことで、ハード損傷を回避した強制リセット処理を実施することができる。リセット予告から強制リセットまでの時間は適宜設定変更可能である。
さらに、強制リセットシグナルを抑制回数以上出力すると強制リセットを停止させることで、回復不可能な障害発生時におけるハード損傷を極力回避することができる。例えば、夜間に生じた障害によって翌朝にはディスククラッシュが生じているような自体を回避することができる。その強制リセットシグナルの抑制回数は適宜設定変更できる。そして、強制リセットを停止した後は、マニュアル制御等によって強制リセット停止を解除することができる。
図6〜9は、本発明の実施例を示したものである。
図6は、本発明の構成を図式的に示したものである。1系の処理装置(監視側装置)が強制リセット信号の送出に先立ってリセット予告信号を送出する点が図2の従来例とは異なる。そのため、本例では図7に示す1系及び2系の各RAS端子台にリセット予告信号用のDI/O端子がそれぞれ割付けられている。その他の点は従来例の図2及び3と同様であり、それらについて更に説明しない。
ところで、フリーズ判定された2系の処理装置20(相手側装置)は機能の部分フリーズ(例えば、特定アプリケーションの無応答等)の可能性があり、正規シャットダウン(ソフトウェアレベルの再起動)を受け付ける可能性もある。そのため、本例では以下の手順で強制リセットに至るまでの処理を実行する。
ヘルスチェックによって相手系の異常を検出した監視側装置は、(1)リセット予告シグナルを送出する。(2)異常が発生した相手側装置はリセット予告シグナルを受信した場合には、自ら正規手順に基づくシャットダウン処理を試行する。(3)監視側装置は、リセット予告シグナルを出力した後に、(4)正規シャットダウン処理時間+α(設定時間)待機して、その設定時間経過後に強制リセット信号を送出する。
図8には、本発明による1系/2系の処理装置10、20の機能ブロック構成例を示している。また図9には、図8の機能ブロックの処理フロー例を示している。これらを用いて図6の動作をより詳細に説明する。ここで、図8の系間通信監視部14、24、強制リセット出力部15、25、そしてRASカード13、23は従来の図4と同様である。また、図9の系間通信切断検出(S204)、設定時間待ち(S205)、強制リセット信号送出(S212)、そしてハード機構による強制リセット(S214)の各ステップは、従来の図5と同様である。従って、これらについては更に説明しない。
先ず、本発明の理解の容易のために図9の制御フローから説明する。図9において、監視側装置は、最初にリセット停止フラグのマニュアルリセットを監視し、マニュアルリセット入力を検出するとリセット停止フラグをオフにして相手側装置のヘルスチェックを開始する(S201、202、204)。一方、リセット停止フラグがオンの場合にはヘルスチェック処理は行なわない(S203)。
監視側装置は、ヘルスチェックにより系間切断を検出して所定の設定時間が経すると(S204,205)、本発明により相手側装置へリセット予告信号を送出する(S206)。これを受けた相手側装置はソフトウェアレベル(アプリケーションレベル)のシャットダウン処理を実行する(S213)。相手側装置がフリーズ状態から回復してシャットダウン時間設定値以内に受信したヘルスチェックに返信すると、監視側装置は相手側装置で正常なシャットダウンが実行(正常状態に復帰)されたものと判定して通常のヘルスチェック処理に戻る(S207、208)。
一方、シャットダウン時間設定値以内に相手側装置からの返信が無い場合には、強制リセット抑制カウンタを1インクリメントして、その値が抑制カウント設定値以下の間は相手側装置へ繰り返し強制リセット信号を送出する(S207〜210、212、214)。反対に、抑制カウント設定値以上になると、リセット停止フラグをオンに設定する(S211)。これにより、ヘルスチェック処理も停止する(S203)。
上記の説明を図8の各ブロックと対応させると、監視側装置のリセット予告出力部110が強制リセット信号の出力に先立ってリセット予告信号を出力する。相手側装置のリセット予告受付け処理部211は、それを受けてソフトウェアレベルのリセット処理(正常シャットダウン処理)を実行する。これにより、相手側装置が異常から回復してヘルスチェックの返信をシャットダウン時間設定値内に監視側装置へ送信すると、相手系正常シャットダウン監視部112が相手側装置を正常復帰と判定して、通常のヘルスチェック処理が繰り返される。
一方、相手系正常シャットダウン監視部112が相手側装置の正常復帰を確認できない場合には、シャットダウン時間設定値経過後に強制リセット出力部15が強制リセット信号を出力し、強制リセット信号カウント部113がその出力回数を1インクリメントしていく。強制リセット信号抑制部114は、そのカウント値が抑制カウント設定値を超えると強制リセット出力部15による強制リセット信号の出力を停止させる。強制リセット抑制を実施した監視側装置は、リセット停止機能マニュアルリセット部115がマニュアルによる強制リセット抑制を解除するまでヘルスチェック機能を停止する。
従来の二重化システムの一例を示した図である。 図1のRASカード間の具体的な構成を示した図である。 図1のRAS端子台のコネクタ端子信号割付けの一例を示した図である。 従来の1系/2系の処理装置の機能ブロック構成例を示した図である。 図4の機能ブロックの処理フロー例を示した図である。 本発明の実施例を図式的に示した図である。 図6のRAS端子台のコネクタ端子信号割付けの一例を示した図である。 本発明による1系/2系の処理装置の機能ブロック構成例を示した図である。 図8の機能ブロックの処理フロ例を示した図である。
符号の説明
10 1系の処理装置
20 2系の処理装置
30、50 系間通信
40 二重化運用状態表示器
60−n 端末
11、21、61−n ネットワークインタフェース回路
12、22 シリアルインタフェース回路
13、23 RASカード

Claims (5)

  1. 第1の処理系と第2の処理系との間で系間通信と系間制御を行って互いに稼動系と待機系とを切り替える二重化システムにおいて、
    監視側の処理系は、
    前記系間通信により、相手側の処理系にヘルスチェック信号を送信し、その返信によって相手側の処理系の正常性を判定するヘルスチェック送信部と、
    相手側の処理系が異常と判定されると、前記系間制御により、相手側処理系へリセット予告信号を出力するリセット予告出力部と、
    前記リセット予告信号によっても相手側の処理系の異常が解消しないときに、前記系間制御により、相手側処理系へさらに強制リセット信号を出力する強制リセット出力部と、を有し、
    相手側の処理系は、
    前記ヘルスチェック信号の受信により、それに返信するヘルスチェック応答部と、
    前記リセット予告信号の入力により、アプリケーションレベルのリセット処理を実行するリセット予告処理部と、
    前記強制リセット信号の入力により、ハードウェアの強制リセット処理を実行する強制リセット処理部と、を有する、ことを特徴とする二重化システム。
  2. 前記監視側の処理系は、前記リセット予告信号の出力から前記強制リセット信号の出力までの時間を設定するリセット時間設定部を有し、
    前記強制リセット出力部はその設定時間経過後に強制リセット信号を出力する、ことを特徴とする請求項1記載の二重化システム。
  3. 前記監視側の処理系は、強制リセット信号の出力回数を設定するリセット回数設定部を有し、
    前記強制リセット出力部は、その設定回数を超える強制リセット信号の出力を停止する、ことを特徴とする請求項1又は2記載の二重化システム。
  4. 前記監視側の処理系は、前記強制リセット信号の出力停止を解除する出力停止解除部を有する、ことを特徴とする請求項3記載の二重化システム。
  5. 複数の処理系の間で互いにヘルスチェックを行うシステムにおいて、
    監視側の処理系は、
    相手側の処理系にヘルスチェック信号を送信し、その返信によって相手側の処理系の正常性を判定するヘルスチェック送信部と、
    相手側の処理系が異常と判定されると、相手側の処理系にリセット予告信号を送信するリセット予告送信部と、
    前記リセット予告信号によっても相手側の処理系の異常が解消しないときに、相手側の処理系へさらに強制リセット信号を送信する強制リセット送信部と、を有し、
    相手側の処理系は、
    前記ヘルスチェック信号を受信すると、それに返信するヘルスチェック応答部と、
    前記リセット予告信号を受信すると、アプリケーションレベルのリセット処理を実行するリセット予告処理部と、
    前記強制リセット信号を受信すると、ハードウェアの強制リセット処理を実行する強制リセット処理部と、を有する、ことを特徴とするシステム。
JP2004355576A 2004-12-08 2004-12-08 二重化システム Withdrawn JP2006163919A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004355576A JP2006163919A (ja) 2004-12-08 2004-12-08 二重化システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004355576A JP2006163919A (ja) 2004-12-08 2004-12-08 二重化システム

Publications (1)

Publication Number Publication Date
JP2006163919A true JP2006163919A (ja) 2006-06-22

Family

ID=36665862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004355576A Withdrawn JP2006163919A (ja) 2004-12-08 2004-12-08 二重化システム

Country Status (1)

Country Link
JP (1) JP2006163919A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009201334A (ja) * 2008-02-25 2009-09-03 Hitachi Ltd 二重系列車制御装置
JP2013232142A (ja) * 2012-05-01 2013-11-14 Hitachi Ltd 二重化装置および電源停止方法
JP2013242708A (ja) * 2012-05-21 2013-12-05 Denso Corp 電子制御装置
KR102197916B1 (ko) * 2019-12-23 2021-01-04 한전케이디엔주식회사 데이터 이중화 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009201334A (ja) * 2008-02-25 2009-09-03 Hitachi Ltd 二重系列車制御装置
JP2013232142A (ja) * 2012-05-01 2013-11-14 Hitachi Ltd 二重化装置および電源停止方法
JP2013242708A (ja) * 2012-05-21 2013-12-05 Denso Corp 電子制御装置
KR102197916B1 (ko) * 2019-12-23 2021-01-04 한전케이디엔주식회사 데이터 이중화 장치

Similar Documents

Publication Publication Date Title
US8006129B2 (en) Detecting and preventing the split-brain condition in redundant processing units
JP4487260B2 (ja) 多重系システム
EP1837763A2 (en) Protection of devices in a redundant configuration
JP2008172592A (ja) クラスタシステム、コンピュータおよびその異常検出方法
JP2006163919A (ja) 二重化システム
EP3471339B1 (en) Method and enabling device for starting physical device
CN105553735A (zh) 一种堆叠系统故障处理方法、设备及堆叠系统
JP2008288716A (ja) ディジタル電子装置
JP2006172050A (ja) ホットスタンバイ式2重化システム
JP5195168B2 (ja) 接続状態診断装置
KR100832543B1 (ko) 계층적 다중 백업 구조를 갖는 고가용성 클러스터 시스템및 이를 이용한 고가용성 구현 방법
CN114095462A (zh) 一种雷达处理机srio通信系统的容错方法及系统
JP2007026038A (ja) パス監視システム,パス監視方法,およびパス監視プログラム
JP2013254333A (ja) 多重系制御システム及びその制御方法
JP4126849B2 (ja) マルチcpuシステムの監視方式
JP2019079288A (ja) 受信盤
JP2002169706A (ja) 監視システム
KR20060086508A (ko) 무선 통신 시스템에서 이중화 프로세서 보드의 상태 관리방법
JP3107104B2 (ja) 待機冗長方式
KR200439091Y1 (ko) 듀얼 리스타트 재발을 최소화하는 이중화 시스템
JP5819881B2 (ja) 通信装置、通信システム、通信方法、および、プログラム
JP2016009499A (ja) 相互接続を管理する方法およびシステム
JPH08147255A (ja) 障害監視方式
JPH1049450A (ja) 遠隔監視システムの異常時の復旧方式
JPH0535517A (ja) 二重化系の切替装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080304