JP3564310B2 - Redundancy device failure information collection method - Google Patents

Redundancy device failure information collection method Download PDF

Info

Publication number
JP3564310B2
JP3564310B2 JP32925698A JP32925698A JP3564310B2 JP 3564310 B2 JP3564310 B2 JP 3564310B2 JP 32925698 A JP32925698 A JP 32925698A JP 32925698 A JP32925698 A JP 32925698A JP 3564310 B2 JP3564310 B2 JP 3564310B2
Authority
JP
Japan
Prior art keywords
act
collection
failure information
completed
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP32925698A
Other languages
Japanese (ja)
Other versions
JP2000156687A (en
Inventor
將夫 浅井
智紀 奈良
新 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Nippon Telegraph and Telephone Corp
Original Assignee
Fujitsu Ltd
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, Nippon Telegraph and Telephone Corp filed Critical Fujitsu Ltd
Priority to JP32925698A priority Critical patent/JP3564310B2/en
Publication of JP2000156687A publication Critical patent/JP2000156687A/en
Application granted granted Critical
Publication of JP3564310B2 publication Critical patent/JP3564310B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は二重化装置の障害情報収集方法に係わり、特に、運用系(ACT)の制御系装置と予備系(SBY)の制御系装置を備えた交換機の障害情報収集方法に関する。
【0002】
【従来の技術】
交換機を構成する各ユニットは信頼度を向上するために二重化されており、運用系装置が障害によりダウンしても、予備系装置が代わって動作し、サービスを続行できるようになっている。図15は2台の交換機A、Bを通話回線LNで接続し、各交換機に電話機TA,TBを接続したネットワークを示しており、各交換機A,Bは通話路系装置SPUと制御系装置CTUを備え、これら通話路系装置SPUと制御系装置CTUは共に二重化されている。
通話路系装置SPUは、交換機がたとえばATM交換機であれば、伝送路に接続された回線IF部、集線分離部、セルスイッチ部などを有している。回線IF部は、所定フォーマットのフレーム例えばDS1,DS3フレームあるいはSONETフレームをATMセルフォーマットに変換してセルスイッチ側に送出したり、ATMセルフォーマットをDS1,DS3フレームあるいはSONETフレームに変換して回線に送出する機能を有している。集線分離部は多数の回線インタフェースに接続されてセルを多重化してセルスイッチに入力すると共に、セルスイッチ側からの多重セルを分離して所定の回線インタフェースに送出する。セルスイッチ部は入力された多重セルを所定の方路にスイッチングする。
【0003】
制御系装置CTUは通話路系装置を制御するもので、MPU、メモリ、システム制御部等を有している。図16は交換機における制御系装置CTUの構成図であり、10,10はそれぞれ0系,1系の制御系装置で同一の構成を備えている。11はPROC制御部(処理制御部)であり、プログラムの実行、制御を行うマイクロプロセッサユニット(MPU部)11a、ファイル(交換プログラム、緊急制御動作プログラム等)やデータを記憶するメモリ部11b、システムを二重化構成にするための制御(運用/予備切替制御、ファイル更新制御等)を行うシステム制御部11c、内部バス11d、内部バスと拡張バス間のインタフェース制御を行うインタフェース制御部11eを備えている。0系/1系のメモリ部11b,11b間はメモリ交絡線MCLで接続され、0系/1系のシステム制御部11c,11c間はシステム交絡線SCLで接続されている。12はSCSIインタフェースを備え、光磁気ディスクドライブやハードディスクドライブの制御を行うIO制御部、13は保守コンソール(操作パネル)とのインタフェースを行う EthernetコントローラなどのLAN制御部、14はスイッチ等の通話路系装置SPUとのインタフェース制御部、15は拡張バス、16は他系とのインタフェースを司るバスインタフェース部であり、拡張バス交絡線BCLを介して系間交絡制御を行う。
【0004】
上記二重化された交換機において、一般的な運用方法は片系が処理を実行し(ACT状態〔以下ACT系と記す〕)、他の片系が待機して(SBY状態〔SBY系と記す〕)運用される。このような形態での運用中に重大な障害が発生すると緊急動作として、ACT/SBYチェンジ等の動作(旧ACT系→新SBY系、旧SBY系→新ACT系)が行われ、サービスに影響をあたえることなく運用を継続する。また、このような障害発生時には、障害情報(各種レジスタ、メモリの障害時の内容)をログ情報とし収集してファイル等に出力するのが一般的な方法となっている。
0系がACT系、1系がSBY系でシステム運用中と仮定すると、0系のMPU部11aはメモリ部11bに書かれた交換プログラム等を読み出し、その内容にしたがって各機能ブロックの制御や演算結果のメモリ部への書き込みを行う。例えば、ACT系のMPU部11aは交換プログラムにしたがって運用系及び予備系の通話路系装置SPUに各種制御データを送出すると共に、ACT系の通話路系装置から受信したデータに基づいて所定の処理を行い、処理結果をメモリ部11bに格納する。また、ACT系のメモリ部11bに書き込まれたデータの内容はメモリ交絡線MCLを経由して常にSBY系のメモリ部11bに反映され、メモリの内容はACT系、SBY系共に等しく保たれる。
【0005】
かかる状態において、ACT/SBYチェンジ(系切替)を要する障害、例えば、障害検出用タイマーTF(Fault Timer)のオーバーフローが発生すると、ACT/SBYチェンジ割り込みが発生する。障害検出用タイマーTFは例えばウォッチドッグタイマ(watch dog timer)であり、自動的にカウントアップし、そのカウント値を定期的にクリアするものである。プログラムの異常ループや暴走あるいはハード的障害が発生すると、カウント値をクリアできずオーバーフローが発生し、ACT/SBYの系切替の契機となる。
MPU部11aは、系切替の割込みにより緊急制御動作プログラムに従って処理を実行する。すなわち、MPU部11aは緊急制御動作プログラムに従って、MPU内の全レジスタ情報、その他各機能ブロックの制御情報などを障害情報ログとして収集して所定の記憶部に格納する。格納先はシステムに依存し、メモリ部11bであったり、IO制御部12配下のハードディスク、光ディスク等のデバイスであったりする。
【0006】
ついで、0系、1系にハードウェアリセットを掛ける。しかる後、ACT系のシステム制御部11cはSBY系のシステム制御部11cにシステム交絡線SCLを介してACT/SBYを切り替えを指示し、ACT/SBYチェンジを行う。これにより、1系(旧SBY)が新ACTとして立ち上がり、以後、1系(新ACT)が0系(旧ACT)の処理を継続してサービスを提供する。
以上のようなステップを踏んで、ACT/SBYチェンジ動作を行い、また、障害情報ログにより障害内容を解析しその解析内容に応じた処置を行う。
【0007】
【発明が解決しようとする課題】
以上では、障害検出用タイマーTF(Fault Timer)のオーバーフローによりACT/SBYチェンジが行われた場合であるが、ACT/SBYチェンジの要因となる障害はそのほかにも、
(1) MPU自体がデッドロック状態に陥った障害、
(2) 障害機能ブロックがバスをロックして固まってしまった障害、
等がある。MPUのデッドロックとは、MPUは正常であるけれどもコマンドに対する応答がなくウェイト状態になっている障害であり、又、バスロックとは障害機能ブロックがバス線のレベルをハイレベルまたはローレベルに固定する障害である。(1)及び(2)の障害にもACT/SBYチェンジが行われるが、かかる障害時には「障害情報ログの収集及び格納」が出来ず、障害情報を残すことが出来なくなる。このため、ACT/SBYチェンジ後の障害情報解析が出来ず、故障装置や壊れかけた装置に対する対処が困難であるという問題が発生する。
【0008】
以上から本発明の目的は、ACT/SBYチェンジが発生するような障害が発生したとき、確実に障害情報の収集ができ、障害箇所を的確に認識して対処できる二重化装置の障害情報収集方法を提供することである。
【0009】
【課題を解決するための手段】
上記課題は本発明によれば、(1) ACT/SBY切替を必要とする障害発生時に障害情報の収集を行い、(2) ハードウェアリセット前に障害情報の収集が完了すればフラグをセット状態にし、収集が完了してなければフラグを未セット状態のままにし、(3) 両系をハードウェアリセット後、前記フラグを参照して障害情報の収集が完了しているか判断し、(4) 完了していなければ障害情報を収集する二重化装置の障害情報収集方法により達成される。以上のようにすれば、障害情報の収集が完了していない場合であっても、ハードウェアリセット後に確実に障害情報の収集ができる。
【0010】
又、上記課題は本発明によれば、(1) ACT/SBY切替を必要とする障害発生時に、各系は自系の障害情報の収集を行い、(2) ハードウェアリセット前に障害情報の収集が完了すれば自系の情報収集フラグをセット状態にし、収集が完了しなければフラグを未セット状態のままにし、(3) 両系をハードウェアリセット後、各系のフラグを参照して障害情報の収集が完了しているかチェックし、(4) 完了していない系の障害情報を収集することにより達成される。以上のようにすれば、両系あるいは片系で障害情報の収集が完了していない場合であっても、ハードウェアリセット後に系毎に確実に障害情報の収集ができる。
【0011】
【発明の実施の形態】
(A)制御系装置の構成
図1は本発明の交換機の制御系装置の構成図であり、10,10はそれぞれ0系,1系の制御系装置で同一の構成を備えている。11,11は0系及び1系のPROC制御部(処理制御部)であり、プログラムの実行、制御を行うマイクロプロセッサユニット(MPU部)11a,11a、ファイル(交換プログラム、緊急制御動作プログラム等)やデータなどを記憶するメモリ部11b,11b、システムを二重化構成にするための制御(運用/予備切替制御、ファイル更新制御等)を行うシステム制御部11c,11c、内部バス11d,11d、内部バスと拡張バス間のインタフェース制御を行うインタフェース制御部11e,11e、システム制御を行うためのファームウェア部11f,11fを備えている。0系/1系のメモリ部11b,11b間はメモリ交絡線MCLで接続され、0系/1系のシステム制御部11c,11c間はシステム交絡線SCLで接続されている。メモリ部11b,11bには、
(1) 交換プログラムP1、
(2) 緊急制御動作プログラムP2、
(3) 各種データ類DT、
(4) 障害情報ログの収集完了/未完了を示すログ情報収集完了フラグLCF
等が記憶される。
【0012】
12,12はSCSIインタフェースを備え、光磁気ディスクドライブやハードディスクドライブの制御を行うIO制御部、13,13は保守コンソール(操作パネル)とのインタフェースを行うEthernetコントローラなどのLAN制御部、14,14はセルスイッチ等の通話路系装置SPUとのインタフェース制御部、15,15は拡張バス、16,16は他系とのインタフェースを司るバスインタフェース部であり、拡張バス交絡線BCLを介して系間交絡制御を行う。
【0013】
(B)第1の発明における障害情報収集処理
第1の発明では、システム運用中にACT/SBYチェンジの障害が発生すると、(1) ACT系が両系(ACT系、SBY系)の障害情報を収集する。(2) ACT系はハードウェアリセット前に障害情報の収集が完了すればフラグをセット状態にし、収集が完了しなければフラグを未セット状態のままにする。(3) 両系をハードウェアリセット後、ACT系あるいはSBY系は前記ログ情報収集フラグを参照して障害情報の収集が完了しているか判断し、(4) 完了していなければ障害情報を収集する。
なお、ハードウェアリセットは、TFオーバーフロー、MPUのデッドロック、バスロックなどの障害要因を解消するものであり、収集すべき障害情報が記憶されたMPU内のレジスタやメモリ11b、11bの記憶内容はリセットされない。
【0014】
上記(1), (2)の処理をするのはACT系であるが、(3),(4)の処理をいずれの系で行うかにより4つの形態(第1〜第4実施例)がある。
図2は0系をACT系、1系をSBY系とした場合において、ハードウェアリセット後の(3),(4)の処理を行う系を示す図表である。
▲1▼第1実施例では、旧ACT系(0系)が、フラグチェック処理(3)及びフラグ未設定時における障害情報ログ収集処理(4)を実行する。
▲2▼第2実施例では、旧ACT系(0系)がフラグチェック処理(3)を行い、新ACT系(1系)がフラグ未設定時における障害情報ログ収集処理(4)を実行する。
▲3▼第3実施例では、新ACT系(1系)がフラグチェック処理(3)及びフラグ未設定時における障害情報ログ収集処理(4)を実行する。
▲4▼第4実施例では、新ACT系(1系)がフラグチェック処理(3)を行い、旧ACT系(0系)がフラグ未設定時における障害情報ログ収集処理(4)を実行する。
【0015】
(a)第1実施例
図3は第1実施例の0系及び1系の処理フローである。
当初、0系がACT系、1系がSBY系として運用している(ステップ101,201)。
かかる状態において、0系のMPU部11aに対してACT/SBYチェンジを要する割込みが発生する(ステップ102)。
MPU部11aはこの割込みをトリガとして緊急制御動作プログラムP2を起動する。そして、このプログラムにより、両系におけるMPU内の全レジスタ情報、その他各機能ブロックの制御情報など障害情報ログを収集し、所定の記憶エリアに格納する(ステップ103)。格納先はシステムに依存し、メモリ部11bであったり、IO制御部12配下のデバイス(ハードディスク、光ディスク)であったりする。又、他系の障害情報ログはプロセッサ間通信により収集する。
【0016】
0系のMPU部11aは各種障害情報ログが正常に退避出来たなら、ログ収集完了フラグLCFを”1”に設定する(ステップ104)。しかし、各種障害情報ログが正常に退避できなければ、ログ収集完了フラグLCFを未設定(”0”)にしたままとする。
しかる後、0系、1系の両系にハードウェアリセットを行う(ステップ105,202)。ハードウェアリセット後、ACT系のシステム制御部11cはSBY系のシステム制御部11cにシステム交絡線SCLを介してACT/SBYの切り替えを指示し、ACT/SBYチェンジを行う。これにより、0系(旧ACT)が新SBYとして立上り、1系(旧SBY)が新ACTとして立ち上がる(ステップ106、203)。
ついで、0系(旧ACT)のMPU部11aはログ収集完了フラグLCFの”1”,”0”をチェックし(ステップ107)、フラグが未設定(”0”)なら両系のログ収集動作を実行する(ステップ108)。
【0017】
0系(旧ACT)のMPU部11aは、ログ収集完了後、あるいは、ステップ107においてログ収集完了フラグLCFが設定(”1”)されていれば、1系(旧SBY)のそれまでの待機運転処理を継続する(待機運転状態、ステップ109)。
又、1系(新ACT)のMPU部11aは0系の待機運転と同期して、それまでの0系(旧ACT)の運用運転処理を継続してサービスを提供する(運用運転状態、ステップ204)。
以上のように、第1実施例によれば、系切替後のログ収集は全て新SBY系(0系)で行うので、新ACT系によるサービス処理に影響を与えないで障害情報ログの収集ができ、これにより障害箇所を的確に認識して対処できる。
【0018】
(b)第2実施例
図4は第2実施例の0系及び1系の処理フローであり、第1実施例と同一ステップには同一番号を付している。第2実施例において、0系(旧ACT)が新SBYとして起動し(ステップ101〜106)、1系(旧SBY)が新ACTとして起動するまで(ステップ201〜203)、第1実施例と同様の処理が行われる。
ステップ106の処理実行後、0系(旧ACT)のMPU部11aはログ収集完了フラグLCFの”1”,”0”をチェックし(ステップ121)、フラグが未設定(”0”)なら、プロセッサ間通信により、その旨を1系(新ACT)のMPU部11aに通知する(ステップ122)。
【0019】
1系(新ACT)のMPU部11aは、0系(旧ACT)よりフラグ未設定通知を受信したか、すなわち、ログ情報収集指示を受信したかチェックし(ステップ221)、受信すれば、両系のログ収集動作を実行する(ステップ222)。ログ収集完了後、あるいは、ステップ221においてログ情報収集指示を受信しなければ、1系(新ACT)のMPU部11aは、それまでの0系(旧ACT)の運用運転処理を継続してサービスを提供する(運用運転状態、ステップ223)。
又、0系(新SBY)のMPU部11aは、1系(新ACT)の運用運転と同期してそれまでの1系の待機運転処理を継続する(待機運転状態、ステップ123)。
以上第2実施例によれば、系切り替え後のフラグチェックを新SBY系(0系)で行うので、ハードウェアリセット前にログ収集が完了していれば新ACT系のサービス処理に全く影響を与えないようにできる。
また、ハードウェアリセット前にログ収集が完了していなければ、ハードウェアリセット後に新ACT系(1系)で障害情報ログを収集するためより確実にログ収集が可能になる。
【0020】
(c)第3実施例
図5は第3実施例の0系及び1系の処理フローであり、第1実施例と同一ステップには同一番号を付している。第3実施例において、0系(旧ACT)が新SBYとして起動し(ステップ101〜106)、1系(旧SBY)が新ACTとして起動するまで(ステップ201〜203)、第1実施例と同様の処理が行われる。
ステップ203の処理実行後、1系(新ACT)のMPU部11aはログ収集完了フラグLCFの”1”,”0”をチェックし(ステップ231)、フラグが未設定(”0”)なら両系のログ収集動作を実行する(ステップ232)。
MPU部11aはログ収集完了後、あるいは、ステップ231においてログ収集完了フラグLCFが設定(”1”)されていれば、それまでの0系(旧ACT)の運用運転処理を継続してサービスを提供する(運用運転状態、ステップ233)。
又、0系(新SBY)のMPU部11aは1系の運用運転と同期してそれまでの1系(旧SBY)の待機運転処理を継続する(待機運転状態、ステップ123)。
以上第3実施例によれば、系切り替え後のフラグチェック及び障害情報ログの収集を新ACT系(1系)で行うので、より確実なフラグチェック及びログ収集が可能となる。
【0021】
(d)第4実施例
図6は第4実施例の0系及び1系の処理フローであり、第1実施例と同一ステップには同一番号を付している。第4実施例において、0系(旧ACT)が新SBYとして起動し(ステップ101〜106)、1系(旧SBY)が新ACTとして起動するまで(ステップ201〜203)、第1実施例と同様の処理が行われる。
ステップ203の処理実行後、1系(新ACT)のMPU部11aはログ収集完了フラグLCFの”1”,”0”をチェックし(ステップ241)、フラグが未設定(”0”)なら、プロセッサ間通信により、その旨を0系(旧ACT)のMPU部11aに通知する(ステップ242)。
0系(新SBY)のMPU部11aは、1系(旧SBY系)よりフラグ未設定通知を受信したか、すなわち、ログ情報収集指示を受信したかチェックし(ステップ141)、受信すれば、両系の障害情報ログの収集動作を実行する(ステップ142)。
【0022】
0系(新SBY)のMPU部11aは、ログ収集完了後、あるいは、ステップ141においてログ情報収集指示を受信しなければ、以後、1系(旧SBY)のそれまでの待機運転処理を継続する(待機運転状態、ステップ143)。
又、1系(新ACT)のMPU部11aは0系の待機運転と同期してそれまでの0系(旧ACT)の運用運転処理を継続し、サービスを提供する(運用運転状態、ステップ243)。
以上、第4実施例によれば、系切り替え後のフラグチェックを新ACT系(1系)で行うので、より確実なチェックが行える。
また、ハードリセット前に障害情報ログの収集が完了していなくても、ハードリセット後に新SBY系(0系)でログ収集を行うのでサービスに影響を与えない。
【0023】
(C)第2の発明における障害ログ収集処理
第2の発明では、システム運用中にACT/SBYチェンジの障害発生すると、(1) 各系が自系の障害情報ログを収集し、(2) ハードウェアリセット前に障害情報ログの収集が完了すれば自系のフラグをセット状態にし、収集が完了しなければフラグを未セット状態のままにする。そして、(3) 両系をハードウェアリセット後、ACT系あるいはSBY系は各系のフラグを参照して障害情報ログの収集が完了しているかチェックし、(4) 完了していない系の障害情報ログを収集する。
上記(1), (2)の処理をするのは各系であるが、(3),(4)の処理をいずれの系で行うかにより7つの形態(第5〜第11実施例)がある。
【0024】
図7は0系をACT系、1系をSBY系とした場合におけるハードウェアリセット後の上記(3),(4)の処理を行う系を示す図表である。
▲1▼第5実施例では、旧ACT系(0系)及び新ACT系(1系)がそれぞれ、自系のフラグチェック処理(3)及びフラグ未設定時における障害情報ログ収集処理(4)を実行する。
▲2▼第6実施例では、旧ACT系(0系)が両系のフラグチェック処理(3)を行うと共にそれぞれの系のフラグ未設定時における障害情報ログ収集処理(4)を実行する。
▲3▼第7実施例では、旧ACT系(0系)が両系のフラグチェック処理(3)を行い、新ACT系(1系)が両系のフラグ未設定時における障害情報ログ収集処理(4)を実行する。
▲4▼第8実施例では、旧ACT系(0系)が両系のフラグチェック処理(3)を行い、各系がそれぞれ自系のフラグ未設定時における障害情報ログ収集処理(4)を実行する。
▲5▼第9実施例では、新ACT系(1系)が両系のフラグチェック処理(3)を行うと共に、それぞれの系のフラグ未設定時における障害情報ログ収集処理(4)を実行する。
▲6▼第10実施例では、新ACT系(1系)が両系のフラグチェック処理(3)を行い、旧ACT系(0系)が両系のフラグ未設定時における障害情報ログ収集処理(4)を実行する。
▲7▼第11実施例では、新ACT系(1系)が両系のフラグチェック処理(3)を行い、各系がそれぞれ自系のフラグ未設定時における障害情報ログ収集処理(4)を実行する。
【0025】
(a) 第5実施例
図8は第5実施例の0系及び1系の処理フローであり、当初、0系がACT系、1系がSBY系として運用している(ステップ301、401)。
かかる状態において、0系のMPU部11aに対してACT/SBYチェンジを要する割込みが発生すると、MPU部11aはこの割込みをシステム制御部11c、システム交絡線SCLを介して1系のMPU部11aに通知する(ステップ302,402)。
両系のMPU部11a,11aはACT/SBYチェンジ割込みをトリガとして緊急制御動作プログラムP2を起動する。そして、このプログラムにより、それぞれ、自系のMPU内の全レジスタ情報、その他各機能ブロックの制御情報など障害情報ログを収集し、所定の記憶エリアに格納する(ステップ303,403)。尚、格納先はシステムに依存し、メモリ部11b,11bであったり、IO制御部12,12配下のデバイス(ハードディスク、光ディスク)であったりする。
【0026】
各系のMPU部11a,11aは各種障害情報ログを正常に退避出来たなら、ログ収集完了フラグLCF,LCFを”1”に設定する(ステップ304,404)。しかし、各種情報ログが正常に退避できなければ、ログ収集完了フラグLCF,LCFを未設定(”0”)にしたままとする。
しかる後、0系、1系の両系にハードウェアリセットを行う(ステップ305,405)。ハードウェアリセット後、0系のシステム制御部11cは1系のシステム制御部11cにシステム交絡線SCLを介してACT/SBYを切り替えを指示し、ACT/SBYチェンジを行う。これにより、0系(旧ACT)が新SBYとして起動し、1系(旧SBY)が新ACTとして立ち上がる(ステップ306、406)。
0系及び1系のMPU部11a,11aはそれぞれ自系のログ収集完了フラグLCF,LCFの”1”,”0”をチェックし(ステップ307,407)、フラグが未設定(”0”)なら自系のログ収集動作を実行する(ステッ308,408)。
【0027】
0系(旧ACT)のMPU部11aは、ログ収集完了後、あるいは、ステップ307においてログ収集完了フラグLCFが設定(”1”)されていれば、1系(旧SBY)のそれまでの待機運転処理を継続する(待機運転状態、ステップ309)。
又、1系(新ACT)のMPU部11aは、ログ収集完了後、あるいは、ステップ407においてログ収集完了フラグLCFが設定(”1”)されていれば、0系の処理と同期して、それまでの0系(旧ACT)の運用運転処理を継続する(運用運転状態、ステップ409)。
以上、第5実施例によれば、各系は自系の障害情報ログの収集を行うために、ハードウェアリセット前に障害情報を確実に収集可能となる。また、他系の障害情報ログの収集を行わないのでより高速に処理の完了が可能となる。
【0028】
(b) 第6実施例
図9は第6実施例の0系及び1系の処理フローであり、第5実施例と同一ステップには同一番号を付している。第6実施例において、0系(旧ACT)が新SBYとして起動し(ステップ301〜306)、1系(旧SBY)が新ACTとして起動するまで(ステップ401〜406)、第5実施例と同様の処理が行われる。
ステップ306の処理実行後、0系(旧ACT)のMPU部11aは両系のログ収集完了フラグLCF,LCFの”1”,”0”をそれぞれチェックし(ステップ311)、▲1▼自系(0系)のみのフラグLCFが未設定(”0”)であれば、自系のログ収集動作を実行し(ステップ312)、▲2▼両系(0系,1系)のフラグLCF,LCFが共に未設定(”0”)であれば、両系のログ収集動作を実行し(ステップ313)、▲3▼他系(1系)のみのフラグLCFが未設定(”0”)であれば、他系のログ収集動作を実行する(ステップ314)。
【0029】
0系(旧ACT)のMPU部11aは、以上によりログ収集処理を完了すれば、あるいは、ステップ311においてログ収集完了フラグLCF,LCFが共に設定(”1”)されていれば、1系(旧SBY)のそれまでの待機運転処理を継続する(待機運転状態、ステップ315)。
又、1系(新ACT)のMPU部11aは0系の待機運転と同期して、それまでの0系(旧ACT)の運用運転処理を継続してサービスを提供する(運用運転状態、ステップ411)。
以上第6実施例によれば、各系は自系の障害情報ログの収集を行うために、ハードウェアリセット前に障害情報を確実に収集可能となる。
また、ハードリセット前に両系のログ収集が完了していなくてもハードリセット後に新SBY系(0系)がログ収集を行うので新ACT系のサービス処理に影響を与えない。
【0030】
(c) 第7実施例
図10は第7実施例の0系及び1系の処理フローであり、第5実施例と同一ステップには同一番号を付している。第7実施例において、0系(旧ACT)が新SBYとして起動し(ステップ301〜306)、1系(旧SBY)が新ACTとして起動するまで(ステップ401〜406)、第5実施例と同様の処理が行われる。
ステップ306の処理実行後、0系(旧ACT)のMPU部11aは両系のログ収集完了フラグLCF,LCFの”1”,”0”をそれぞれチェックし(ステップ321)、いずれかのフラグが未設定(”0”)なら、プロセッサ間通信により、フラグが未設定の系を1系(新ACT)のMPU部11aに通知し、ログ情報収集を指示する(ステップ322)。
1系(新ACT)のMPU部11aは、0系(旧ACT)よりフラグ未設定の系を示す通知を受信したかチェックし、受信すれば、いずれの系がフラグ未設定であるか判断する(ステップ421)。
【0031】
1系(新ACT)のMPU部11aは、▲1▼他系(0系)のみのフラグLCFが未設定(”0”)であれば、他系のログ収集動作を実行し(ステップ422)、▲2▼両系(0系,1系)のフラグLCF,LCFが共に未設定(”0”)であれば、両系のログ収集動作を実行し(ステップ423)、▲3▼自系(1系)のみのフラグLCFが未設定(”0”)であれば、自系のログ収集動作を実行する(ステップ424)。
以上のログ収集処理が完了すれば、あるいは、ステップ421においてログ情報収集指示を受信しなければ、1系(新ACT)のMPU部11aは、それまでの0系(旧ACT)の運用運転処理を継続してサービスを提供する(運用運転状態、ステップ425)。
又、0系(新SBY)のMPU部11aは、1系(新ACT)の運用運転処理と同期してそれまでの1系の待機運転処理を継続する(待機運転状態、ステップ323)。
【0032】
以上第7実施例によれば、各系は自系の障害情報ログの収集を行うために、ハードウェアリセット前に障害情報を確実に収集可能となる。
また、ログ収集フラグのチェックを新SBY系(0系)で行うため、ハードウェアリセット前に両系のログ収集が完了していれば新ACT系のサービス処理に全く影響を与えない。また、たとえ、ハードウェアリセット前にログ収集が完了していなくても、新ACT系でログ収集を行うためにより確実にログ収集が可能となる。
【0033】
(d) 第8実施例
図11は第8実施例の0系及び1系の処理フローであり、第5実施例と同一ステップには同一番号を付している。第8実施例において、0系(旧ACT)が新SBYとして起動し(ステップ301〜306)、1系(旧SBY)が新ACTとして起動するまで(ステップ401〜406)、第5実施例と同様の処理が行われる。
ステップ306の処理実行後、0系(旧ACT)のMPU部11aは他系(1系)のログ収集完了フラグLCFの”1”,”0”をチェックし(ステップ331)、フラグLCFが未設定(”0”)であれば、プロセッサ間通信により、その旨を1系(新ACT)のMPU部11aに通知する(ステップ332)。1系のMPU部11aは、0系(旧ACT)よりフラグ未設定通知を受信したか、すなわち、ログ情報収集指示を受信したかチェックし(ステップ431)、受信すれば、自系のログ収集動作を実行する(ステップ432)。ログ収集完了後、あるいは、ステップ431においてログ情報収集指示を受信しなければ、1系(新ACT)のMPU部11aは、それまでの0系(旧ACT)の運用運転処理を継続し、サービスを提供する(運用運転状態、ステップ433)。
【0034】
一方、0系(旧ACT)のMPU部11aは、ステップ332の通知処理が終了すれば、あるいは、ステップ331においてログ収集完了フラグLCFが設定(”1”)されていれば、自系のログ収集完了フラグLCFの”1”,”0”をチェックし(ステップ333)、フラグLCFが未設定(”0”)であれば、自系のログ情報収集動作を実行する(ステップ334)。
ついで、あるいは、ステップ333においてフラグLCFが設定(”1”)されていれば、0系(旧ACT)のMPU部11aは、1系(新ACT)の運用運転処理と同期してそれまでの1系の待機運転処理を継続する(待機運転状態、ステップ335)。
以上第8実施例によれば、各系は自系の障害情報ログの収集を行うために、ハードウェアリセット前に障害情報を確実に収集可能となる。
また、ログ収集フラグのチェックを新SBY系(0系)で行うため、ハードウェアリセット前に両系のログ収集が完了していれば新ACT系のサービス処理に全く影響を与えない。又、たとえ、ハードウェアリセット前にログ収集が完了していなくても、各系は自系のみのログ収集を行えばよいため高速でログ収集を行う事が可能となる。
【0035】
(e) 第9実施例
図12は第9実施例の0系及び1系の処理フローであり、第5実施例と同一ステップには同一番号を付している。第9実施例において、0系(旧ACT)が新SBYとして起動し(ステップ301〜306)、1系(旧SBY)が新ACTとして起動するまで(ステップ401〜406)、第5実施例と同様の処理が行われる。
ステップ406の処理実行後、1系(新ACT)のMPU部11aは両系のログ収集完了フラグLCF,LCFの”1”,”0”をそれぞれチェックし(ステップ441)、▲1▼他系(0系)のみのフラグLCFが未設定(”0”)であれば、他系のログ収集動作を実行し(ステップ442)、▲2▼両系(0系,1系)のフラグLCF,LCFが共に未設定(”0”)であれば、両系のログ収集動作を実行し(ステップ443)、▲3▼自系(1系)のみのフラグLCFが未設定(”0”)であれば、自系のログ収集動作を実行する(ステップ444)。
【0036】
1系(新ACT)のMPU部11aは、以上によりログ収集処理を完了すれば、あるいは、ステップ441においてログ収集完了フラグLCF,LCFが共に設定(”1”)されていれば、以後、それまでの0系(旧ACT)の運用運転処理を継続する(運用運転状態、ステップ445)。
又、0系(新SBY)のMPU部11aは1系の運用運転処理と同期して、それまでの1系(旧SBY)の待機運転処理を継続する(待機運転状態、ステップ341)。
以上第9実施例によれば、各系は自系の障害情報ログの収集を行うために、ハードウェアリセット前に障害情報を確実に収集可能となる。また、ハードウェアリセット後のログ収集完了フラグのチェック及び未完了時のログ収集を新ACT系(1系)で行うのでより確実にログ収集が可能となる。
【0037】
(f)第10実施例
図13は第10実施例の0系及び1系の処理フローであり、第5実施例と同一ステップには同一番号を付している。第10実施例において、0系(旧ACT)が新SBYとして起動し(ステップ301〜306)、1系(旧SBY)が新ACTとして起動するまで(ステップ401〜406)、第5実施例と同様の処理が行われる。
ステップ406の処理実行後、1系(旧SBY)のMPU部11aは両系のログ収集完了フラグLCF,LCFの”1”,”0”をそれぞれチェックし(ステップ451)、いずれかのフラグが未設定(”0”)なら、プロセッサ間通信により、フラグが未設定の系を0系(新SBY)のMPU部11aに通知し、ログ情報収集を指示する(ステップ452)。
【0038】
0系(新SBY)のMPU部11aは、1系(旧SBY)よりフラグ未設定の系を示す通知を受信したかチェックし、受信すれば、いずれの系がフラグ未設定であるか判断する(ステップ351)。
0系(新SBY)のMPU部11aは、▲1▼自系(0系)のみのフラグLCFが未設定(”0”)であれば、自系のログ収集動作を実行し(ステップ352)、▲2▼両系(0系,1系)のフラグLCF,LCFが共に未設定(”0”)であれば、両系のログ収集動作を実行し(ステップ353)、▲3▼他系(1系)のみのフラグLCFが未設定(”0”)であれば、他系のログ収集動作を実行する(ステップ354)。
以上のログ収集処理が完了すれば、あるいは、ステップ351においてログ情報収集指示を受信しなければ、0系(新SBY)のMPU部11aは、それまでの1系(旧SBY)の待機運転処理を継続する(待機運転状態、ステップ355)。
【0039】
又、1系(新ACT)のMPU部11aは、0系(新SBY)の待機運転処理と同期してそれまでの0系の運用運転処理を継続する(運用運転状態、ステップ453)。
以上第10実施例によれば、各系は自系の障害情報ログの収集を行うために、ハードウェアリセット前に障害情報を確実に収集可能となる。
また、ハードウェアリセット後のログ収集完了フラグのチェックを新ACT系(1系)で行うのでより確実にチェックが行える。又、たとえ、ハードウェアリセット前にログ収集が完了していなくても、新SBY(0系)でログ収集を行う為に新ACT系のサービス処理に影響を与えない。
【0040】
(g)第11実施例
図14は第11実施例の0系及び1系の処理フローであり、第5実施例と同一ステップには同一番号を付している。第11実施例において、0系(旧ACT)が新SBYとして起動し(ステップ301〜306)、1系(旧SBY)が新ACTとして起動するまで(ステップ401〜406)、第5実施例と同様の処理が行われる。
ステップ406の処理実行後、1系(旧SBY)のMPU部11aは自系のログ収集完了フラグLCFの”1”,”0”をチェックし(ステップ461)、フラグLCFが未設定(”0”)であれば、自系のログ情報収集動作を実行する(ステップ462)。
【0041】
ついで、あるいは、ステップ461において自系のフラグLCFが設定(”1”)されていれば、他系(0系)のログ収集完了フラグLCFの”1”,”0”をチェックし(ステップ463)、フラグLCFが未設定(”0”)であれば、プロセッサ間通信により、その旨を0系(新SBY)のMPU部11aに通知する(ステップ464)。0系のMPU部11aは、1系(旧SBY)よりフラグ未設定通知を受信したか、すなわち、ログ情報収集指示を受信したかチェックし(ステップ361)、受信すれば、自系のログ収集動作を実行する(ステップ362)。ログ収集完了後、あるいは、ステップ361においてログ情報収集指示を受信しなければ、0系(新SBY)のMPU部11aは、それまでの1系(旧SBY)の待機運転処理を継続する(待機運転状態、ステップ363)。
【0042】
一方、1系(新ACT)のMPU部11aは、ステップ464の通知処理が終了すれば、あるいは、ステップ463においてログ収集完了フラグLCFが設定(”1”)されていれば、0系(新SBY)の待機運転処理と同期して0系のそれまでの運用運転処理を継続する(運用運転状態、ステップ465)。
以上第11実施例11によれば、各系は自系の障害情報ログの収集を行うために、ハードウェアリセット前にログ情報をより確実に収集可能となる。
また、ハードウェアリセット後のログ収集完了フラグのチェックを新ACT系(1系)で行うのでより確実にチェックが行える。
以上では、0系を運用運転状態(ACT運転中)、1系を待機運転状態(SBY運転中)として運転中にACT/SBYチェンジを要する割り込みが発生した場合について説明したが、1系がACT運転中、0系がSBY運転中にACT/SBYチェンジ割込が発生すれば、同様にACT/SBY切替を行う。
以上、本発明を実施例により説明したが、本発明は請求の範囲に記載した本発明の主旨に従い種々の変形が可能であり、本発明はこれらを排除するものではない。
【0043】
【発明の効果】
以上本発明によれば、ACT/SBYチェンジを必要とする障害が発生した場合、確実に障害ログを得ることができ、障害箇所を的確に抑えることが可能となる。
又、本発明によれば、ACT/SBY切替を必要とする障害発生時に障害情報ログの収集を行い、ハードウェアリセット前に障害情報ログの収集が完了すればフラグをセット状態にし、収集が完了してなければフラグを未セット状態のままにし、両系をハードウェアリセット後、フラグを参照して障害情報ログの収集が完了しているか判断し、完了していなければ障害情報ログを収集するようにしたから、障害情報ログの収集が完了していない場合であっても、ハードウェアリセット後に確実に障害情報ログの収集ができる。
【0044】
又、本発明によれば、ACT/SBY切替を必要とする障害発生時に、各系は自系の障害情報ログの収集を行い、ハードウェアリセット前に障害情報ログの収集が完了すれば自系のログ情報収集フラグをセット状態にし、収集が完了しなければフラグを未セット状態のままにし、両系をハードウェアリセット後、各系のフラグを参照して障害情報ログの収集が完了しているかチェックし、完了していない系の障害情報ログを収集するようにしたから、両系あるいは片系で障害情報ログの収集が完了していない場合であっても、ハードウェアリセット後に系毎に確実に障害情報ログの収集ができる。
【0045】
第1実施例の発明によれば、ログ収集を全て新SBY系で行うため新ACT系のサービス処理に影響を与えないようにできる。
第2実施例の発明によれば、系切り替え後のフラグチェックを新SBY系(0系)で行うので、ハードウェアリセット前のログ収集が完了していれば新ACT系のサービス処理に影響を与えない。また、ハードウェアリセット前のログ収集が完了していなければ、ハードウェアリセット後に新ACT系(1系)で障害情報ログを収集するためより確実にログ収集が可能となる。
第3実施例の発明によれば、系切り替え後のフラグチェック処理及び障害情報ログの収集処理を新ACT系(1系)で行うので、より確実なチェック及びログ収集が可能となる。
第4実施例の発明によれば、系切り替え後のフラグチェックを新ACT系(1系)で行うので、より確実なチェックが行える。また、ハードウェアリセット前にログ収集が完了していなくても、ハードウェアリセット後に新SBY系(0系)でログ収集を行うので新ACT系のサービス処理に影響を与えない。
【0046】
第5〜第11実施例の発明によれば、各系が自系のログ収集を行ってフラグの設定を行うために、ハードウェアリセット前に収集するログ情報をより確実に収集できる。
第5実施例の発明によれば、他系に対するフラグチェック処理及び障害情報のログ収集を行わないのでより高速に処理を完了できる。
第6実施例の発明によれば、ハードウェアリセット前に両系のログ収集が完了していなくてもハードウェアリセット後に新SBY系(0系)がログ収集を行うので新ACT系のサービス処理に影響を与えない。
第7実施例の発明によれば、ログ収集フラグのチェックを新SBY系(0系)で行うため、ハードウェアリセット前に両系のログ収集が完了していれば新ACT系のサービス処理に影響を与えない。又、たとえ、ハードウェアリセット前にログ収集が完了していなくても、新ACT系でログ収集を行うためにより確実にログ収集が可能となる。
【0047】
第8実施例の発明によれば、ログ収集フラグのチェックを新SBY系(0系)で行うため、ハードウェアリセット前に両系のログ収集が完了していれば新ACT系のサービス処理に影響を与えない。又、たとえ、ハードウェアリセット前にログ収集が完了していなくても、自系のみのログ収集を行えばよいため高速でログ収集を行う事が可能となる。
第9実施例の発明によれば、ハードウェアリセット後のフラグチェック処理及び未完了時のログ収集を全て新ACT系で行うのでより確実にログ収集が可能となる。
第10実施例の発明によれば、ハードウェアリセット後のログ収集完了フラグのチェックを新ACT系で行うのでより確実にチェックが行える。又、たとえ、ハードウェアリセット前にログ収集が完了していなくても、新SBY(0系)でログ収集を行う為に新ACT系のサービス処理に影響を与えない。
第11実施例の発明によれば、ハードウェアリセット後のログ収集完了フラグのチェックを新ACT系で行うのでより確実にチェックが行える。
【図面の簡単な説明】
【図1】本発明の交換機の制御系装置の構成図である。
【図2】0系が両系(0系、1系)の障害情報ログを収集してログ収集完了フラグを設定する場合におけるハードウェアリセット後の処理形態説明図である。
【図3】第1実施例の処理フローである。
【図4】第2実施例の処理フローである。
【図5】第3実施例の処理フローである。
【図6】第4実施例の処理フローである。
【図7】各系が自系の障害情報ログを収集して自系のログ収集完了フラグを設定する場合におけるハードウェアリセット後の処理形態説明図である。
【図8】第5実施例の処理フローである。
【図9】第6実施例の処理フローである。
【図10】第7実施例の処理フローである。
【図11】第8実施例の処理フローである。
【図12】第9実施例の処理フローである。
【図13】第10実施例の処理フローである。
【図14】第11実施例の処理フローである。
【図15】ネットワーク構成図である。
【図16】従来の交換機の制御系装置の構成図である。
【符号の説明】
10,10・・0系,1系の制御系装置
11,11・・0系及び1系のPROC制御部(処理制御部)11a,11a・・マイクロプロセッサユニット(MPU部)
11b,11b・・メモリ部
11c,11c・・システム制御部
11d,11d・・内部バス
11e,11e・・インタフェース制御部
11f,11f・・ファームウェア部
12,12・・IO制御部
13,13・・LAN制御部
14,14・・通話路系装置とのインタフェース制御部
15,15・・拡張バス
16,16・・バスインタフェース部
MCL・・メモリ交絡線
SCL・・システム交絡線
BCL・・拡張バス交絡線
P1・・交換プログラム
P2・・緊急制御動作プログラム
LCF・・ログ情報収集完了フラグ
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a method for collecting fault information of a duplexer, and more particularly, to a method of collecting fault information for an exchange provided with an active (ACT) control system device and a standby (SBY) control system device.
[0002]
[Prior art]
Each unit constituting the exchange is duplicated to improve the reliability, and even if the operation system unit goes down due to a failure, the standby system unit operates instead and the service can be continued. FIG. 15 shows a network in which two exchanges A and B are connected by a communication line LN, and telephones TA and TB are connected to the respective exchanges. Each of the exchanges A and B has a communication path unit SPU and a control unit CTU. And the communication path unit SPU and the control unit CTU are both duplicated.
If the exchange is, for example, an ATM exchange, the communication path unit SPU has a line IF unit connected to a transmission line, a line separation unit, a cell switch unit, and the like. The line IF unit converts a frame of a predetermined format, for example, a DS1, DS3 frame or SONET frame into an ATM cell format and sends it to the cell switch side, or converts the ATM cell format into a DS1, DS3 frame or SONET frame and converts it into a line. It has the function of sending. The line concentrator is connected to a number of line interfaces, multiplexes cells and inputs the multiplexed cells to the cell switch, and separates the multiplexed cells from the cell switch side and sends them to a predetermined line interface. The cell switch unit switches the input multiplex cell to a predetermined route.
[0003]
The control unit CTU controls the communication path unit and includes an MPU, a memory, a system control unit, and the like. FIG. 16 is a configuration diagram of the control system unit CTU in the exchange. 0 , 10 1 Are the control system devices of system 0 and system 1, respectively, having the same configuration. Reference numeral 11 denotes a PROC control unit (processing control unit), which is a microprocessor unit (MPU unit) 11a that executes and controls programs, a memory unit 11b that stores files (exchange programs, emergency control operation programs, etc.) and data, a system A system control unit 11c that performs control (operation / preliminary switching control, file update control, etc.) for making a redundant configuration, an internal bus 11d, and an interface control unit 11e that performs interface control between the internal bus and the expansion bus. . The 0-system / 1 system memory units 11b, 11b are connected by a memory confounding line MCL, and the 0-system / 1 system control units 11c, 11c are connected by a system confounding line SCL. Reference numeral 12 denotes an IO control unit which has a SCSI interface and controls a magneto-optical disk drive or a hard disk drive; 13 denotes a LAN control unit such as an Ethernet controller which interfaces with a maintenance console (operation panel); 14 denotes a communication path such as a switch. An interface control unit with the system device SPU, 15 is an expansion bus, and 16 is a bus interface unit that controls an interface with another system, and performs inter-system confounding control via an extended bus confounding line BCL.
[0004]
In the above duplexed exchange, a general operation method is such that one system executes processing (ACT state (hereinafter, referred to as ACT system)) and the other system stands by (SBY state (SBY system)). It is operated. If a serious failure occurs during operation in such a mode, an operation such as ACT / SBY change (old ACT system → new SBY system, old SBY system → new ACT system) is performed as an emergency operation, affecting service. Operation is continued without giving. When such a failure occurs, it is a general method to collect failure information (contents of various registers and memory at the time of failure) as log information and output it to a file or the like.
Assuming that the system 0 is an ACT system and the system 1 is an SBY system, the MPU unit 11a of the system 0 reads an exchange program or the like written in the memory unit 11b, and controls and computes each functional block according to the contents. Write the result to the memory. For example, the MPU unit 11a of the ACT system sends out various control data to the active and standby communication channel devices SPU according to the exchange program, and performs predetermined processing based on the data received from the ACT communication channel device. And stores the processing result in the memory unit 11b. Further, the content of the data written in the ACT memory unit 11b is always reflected in the SBY memory unit 11b via the memory confounding line MCL, and the content of the memory is kept equal in both the ACT system and the SBY system.
[0005]
In this state, if a failure requiring an ACT / SBY change (system switching), for example, an overflow of a failure detection timer TF (Fault Timer) occurs, an ACT / SBY change interrupt occurs. The failure detection timer TF is, for example, a watch dog timer, which automatically counts up and periodically clears the count value. When an abnormal loop, runaway or hardware failure of the program occurs, the count value cannot be cleared and an overflow occurs, which triggers the ACT / SBY system switching.
The MPU unit 11a executes a process according to an emergency control operation program by a system switching interrupt. That is, the MPU unit 11a collects, as a failure information log, all register information in the MPU, other control information of each functional block, and the like in accordance with the emergency control operation program, and stores it in a predetermined storage unit. The storage destination depends on the system, and may be a memory unit 11b or a device such as a hard disk or an optical disk under the IO control unit 12.
[0006]
Next, a hardware reset is applied to the 0 system and the 1 system. Thereafter, the ACT system controller 11c instructs the SBY system controller 11c to switch ACT / SBY via the system confounding line SCL, and performs ACT / SBY change. As a result, the system 1 (old SBY) starts up as the new ACT, and thereafter the system 1 (new ACT) continues to provide the service by continuing the processing of the system 0 (old ACT).
By performing the above steps, the ACT / SBY change operation is performed, the details of the failure are analyzed using the failure information log, and a measure corresponding to the analysis is performed.
[0007]
[Problems to be solved by the invention]
In the above description, the ACT / SBY change is performed due to the overflow of the failure detection timer TF (Fault Timer). However, other failures that cause the ACT / SBY change include:
(1) The MPU itself has entered a deadlock condition,
(2) Obstacles where the function block locks the bus and hardens,
Etc. An MPU deadlock is a fault in which the MPU is normal but has no response to a command and is in a wait state. In addition, a bus lock is a faulty function block in which the level of a bus line is fixed at a high level or a low level. It is an obstacle to do. The ACT / SBY change is also performed for the failures (1) and (2). However, in such a failure, “collection and storage of the failure information log” cannot be performed, and the failure information cannot be left. For this reason, failure information analysis after ACT / SBY change cannot be performed, and there is a problem that it is difficult to deal with a failed device or a broken device.
[0008]
As described above, an object of the present invention is to provide a failure information collection method for a duplexing apparatus that can reliably collect failure information when a failure that causes an ACT / SBY change occurs, and that can accurately recognize and deal with a failure location. To provide.
[0009]
[Means for Solving the Problems]
According to the present invention, the above problems can be achieved by (1) collecting failure information when a failure requiring ACT / SBY switching occurs, and (2) setting a flag if collection of the failure information is completed before hardware reset. If the collection is not completed, the flag is left unset. (3) After hardware reset of both systems, it is determined whether the collection of the fault information is completed by referring to the flag, and (4) This is achieved by a failure information collection method for a redundant device that collects failure information if not completed. In this way, even if the collection of the fault information is not completed, the fault information can be reliably collected after the hardware reset.
[0010]
Further, according to the present invention, the above problems can be solved by (1) when a failure requiring ACT / SBY switching occurs, each system collects failure information of its own system, and (2) collects failure information before hardware reset. If the collection is completed, the information collection flag of the own system is set. If the collection is not completed, the flag is left unset. (3) After resetting both systems by hardware, refer to the flags of each system. This is achieved by checking whether the collection of failure information has been completed and (4) collecting the failure information of the incomplete system. In this way, even if the failure information has not been collected in both systems or one system, failure information can be reliably collected for each system after hardware reset.
[0011]
BEST MODE FOR CARRYING OUT THE INVENTION
(A) Configuration of control system device
FIG. 1 is a block diagram of a control system device of an exchange according to the present invention. 0 , 10 1 Are the control system devices of system 0 and system 1, respectively, having the same configuration. 11 0 , 11 1 Is a 0-system and 1-system PROC control unit (processing control unit), which is a microprocessor unit (MPU unit) 11a that executes and controls a program. 0 , 11a 1 Unit 11b for storing files (exchange programs, emergency control operation programs, etc.) and data 0 , 11b 1 , A system control unit 11c that performs control (operation / standby switching control, file update control, etc.) for making the system redundant. 0 , 11c 1 , Internal bus 11d 0 , 11d 1 Control unit 11e for controlling the interface between the internal bus and the expansion bus 0 , 11e 1 , Firmware unit 11f for performing system control 0 , 11f 1 It has. 0 system / 1 system memory unit 11b 0 , 11b 1 Are connected by a memory confounding line MCL, and a 0-system / 1-system control unit 11c. 0 , 11c 1 The parts are connected by a system confounding line SCL. Memory unit 11b 0 , 11b 1 In
(1) Exchange program P1,
(2) Emergency control operation program P2,
(3) Various data DT,
(4) Log information collection completion flag LCF indicating collection completion / incomplete of failure information log collection
Are stored.
[0012]
12 0 , 12 1 Is an IO control unit that has a SCSI interface and controls a magneto-optical disk drive and a hard disk drive. 0 , 13 1 Is a LAN control unit such as an Ethernet controller for interfacing with a maintenance console (operation panel). 0 , 14 1 Is an interface control unit with the communication path system unit SPU such as a cell switch; 0 , 15 1 Is an expansion bus, 16 0 , 16 1 Is a bus interface unit that controls an interface with another system, and controls intersystem confounding via an extended bus confounding line BCL.
[0013]
(B) Fault information collection processing in the first invention
In the first invention, when an ACT / SBY change fault occurs during system operation, (1) the ACT system collects fault information of both systems (ACT system and SBY system). (2) The ACT system sets the flag to the set state if the collection of the failure information is completed before the hardware reset, and leaves the flag in the unset state if the collection is not completed. (3) After hardware reset of both systems, the ACT or SBY system refers to the log information collection flag to determine whether the collection of failure information has been completed. (4) If not completed, collects the failure information I do.
The hardware reset is for resolving a failure factor such as TF overflow, MPU deadlock, bus lock, etc., and a register or memory 11b in the MPU storing failure information to be collected. 0 , 11b 1 Is not reset.
[0014]
The ACT system performs the processes (1) and (2). There are four modes (first to fourth embodiments) depending on which system performs the processes (3) and (4). is there.
FIG. 2 is a chart showing a system for performing the processes (3) and (4) after hardware reset when the system 0 is an ACT system and the system 1 is an SBY system.
{Circle around (1)} In the first embodiment, the old ACT system (system 0) executes the flag check processing (3) and the failure information log collection processing (4) when the flag is not set.
{Circle around (2)} In the second embodiment, the old ACT system (system 0) performs the flag check processing (3), and the new ACT system (system 1) executes the failure information log collection processing (4) when the flag is not set. .
{Circle around (3)} In the third embodiment, the new ACT system (system 1) executes the flag check processing (3) and the failure information log collection processing (4) when the flag is not set.
{Circle around (4)} In the fourth embodiment, the new ACT system (system 1) performs the flag check process (3), and the old ACT system (system 0) executes the failure information log collection process (4) when the flag is not set. .
[0015]
(A) First embodiment
FIG. 3 is a processing flow of the 0-system and the 1-system in the first embodiment.
Initially, the system 0 operates as the ACT system and the system 1 operates as the SBY system (steps 101 and 201).
In this state, the 0-system MPU unit 11a 0 An interrupt requiring an ACT / SBY change occurs (step 102).
MPU unit 11a 0 Starts the emergency control operation program P2 using this interrupt as a trigger. With this program, failure information logs such as all register information in the MPU in both systems and control information of each functional block are collected and stored in a predetermined storage area (step 103). The storage destination depends on the system, and the memory unit 11b 0 Or the IO control unit 12 0 It may be a subordinate device (hard disk, optical disk). Further, the fault information log of the other system is collected by communication between the processors.
[0016]
0-system MPU unit 11a 0 Sets the log collection completion flag LCF to "1" if the various failure information logs can be saved normally (step 104). However, if the various failure information logs cannot be saved normally, the log collection completion flag LCF is left unset (“0”).
Thereafter, hardware reset is performed for both the 0 system and the 1 system (steps 105 and 202). After the hardware reset, the ACT system controller 11c 0 Is an SBY system controller 11c 1 ACT / SBY switching is instructed via the system confounding line SCL, and ACT / SBY change is performed. Thus, the system 0 (old ACT) rises as a new SBY, and the system 1 (old SBY) rises as a new ACT (steps 106 and 203).
Next, the MPU unit 11a of system 0 (old ACT) 0 Checks "1" and "0" of the log collection completion flag LCF (step 107). If the flag is not set ("0"), the log collection operation of both systems is executed (step 108).
[0017]
MPU part 11a of system 0 (old ACT) 0 Means that after the log collection is completed, or if the log collection completion flag LCF is set ("1") in step 107, the standby operation processing of the first system (old SBY) is continued (standby operation state, Step 109).
In addition, the MPU unit 11a of the first system (new ACT) 1 Synchronizes with the standby operation of the system 0 to continue to provide the service by continuing the operation operation processing of the system 0 (old ACT) (operation operation state, step 204).
As described above, according to the first embodiment, the log collection after the system switching is all performed by the new SBY system (system 0), so that the failure information log can be collected without affecting the service processing by the new ACT system. This makes it possible to accurately recognize the failure location and deal with it.
[0018]
(B) Second embodiment
FIG. 4 is a processing flow of system 0 and system 1 in the second embodiment, and the same steps as those in the first embodiment are given the same numbers. In the second example, the system 0 (old ACT) starts as a new SBY (steps 101 to 106), and the system 1 (old SBY) starts as a new ACT (steps 201 to 203). Similar processing is performed.
After the execution of the process of step 106, the MPU unit 11a of the 0 system (old ACT) 0 Checks the "1" and "0" of the log collection completion flag LCF (step 121). If the flag is not set ("0"), the MPU unit of the first system (new ACT) notifies the fact by inter-processor communication. 11a 1 (Step 122).
[0019]
MPU part 11a of 1 system (new ACT) 1 Checks whether a flag non-setting notification has been received from the system 0 (old ACT), that is, whether a log information collection instruction has been received (step 221), and if received, executes log collection operations of both systems (step 221). 222). After the log collection is completed, or if no log information collection instruction is received in step 221, the MPU unit 11a of the first system (new ACT) 1 Provides the service by continuing the operation operation processing of the system 0 (old ACT) up to that time (operation operation state, step 223).
Also, the MPU unit 11a of the system 0 (new SBY) 0 The standby operation processing of the first system is continued in synchronization with the operation operation of the first system (new ACT) (standby operation state, step 123).
According to the second embodiment, the flag check after system switching is performed by the new SBY system (system 0). Therefore, if the log collection is completed before hardware reset, the new ACT system service processing is completely affected. Can not give.
If the log collection is not completed before the hardware reset, the new ACT system (system 1) collects the failure information log after the hardware reset, so that the log collection can be performed more reliably.
[0020]
(C) Third embodiment
FIG. 5 is a processing flow of the system 0 and system 1 in the third embodiment, and the same steps as those in the first embodiment are denoted by the same reference numerals. In the third embodiment, the 0th system (old ACT) starts as a new SBY (steps 101 to 106) and the 1st system (old SBY) starts as a new ACT (steps 201 to 203). Similar processing is performed.
After execution of the processing of step 203, the MPU unit 11a of the first system (new ACT) 1 Checks "1" and "0" of the log collection completion flag LCF (step 231). If the flag is not set ("0"), the log collection operation of both systems is executed (step 232).
MPU unit 11a 1 After the log collection is completed, or if the log collection completion flag LCF is set ("1") in step 231, the service is provided by continuing the operation and operation processing of the system 0 (old ACT) up to that time (step 231). Operational operation state, step 233).
Also, the MPU unit 11a of the system 0 (new SBY) 0 Continues the standby operation processing of the first system (old SBY) in synchronization with the operation operation of the first system (standby operation state, step 123).
As described above, according to the third embodiment, the new ACT system (system 1) performs the flag check after system switching and the collection of the failure information log, so that more reliable flag check and log collection can be performed.
[0021]
(D) Fourth embodiment
FIG. 6 is a processing flow of system 0 and system 1 in the fourth embodiment, and the same steps as those in the first embodiment are denoted by the same reference numerals. In the fourth embodiment, the system 0 (old ACT) starts as a new SBY (steps 101 to 106) and the system 1 (old SBY) starts as a new ACT (steps 201 to 203). Similar processing is performed.
After execution of the processing of step 203, the MPU unit 11a of the first system (new ACT) 1 Checks the log collection completion flag LCF "1", "0" (step 241). If the flag is not set ("0"), the MPU unit of the system 0 (old ACT) notifies the fact by inter-processor communication. 11a 0 (Step 242).
MPU part 11a of system 0 (new SBY) 0 Checks whether a flag non-setting notification has been received from the first system (old SBY system), that is, whether a log information collection instruction has been received (step 141). Execute (step 142).
[0022]
MPU part 11a of system 0 (new SBY) 0 After the log collection is completed or if the log information collection instruction is not received in step 141, the standby operation processing of the first system (old SBY) is continued thereafter (standby operation state, step 143).
In addition, the MPU unit 11a of the first system (new ACT) 1 Synchronizes with the standby operation of the system 0, continues the operation operation processing of the system 0 (old ACT) up to that time, and provides a service (operation operation state, step 243).
As described above, according to the fourth embodiment, the flag check after system switching is performed by the new ACT system (system 1), so that a more reliable check can be performed.
Even if the collection of the failure information log is not completed before the hard reset, the service is not affected because the log is collected by the new SBY system (0 system) after the hard reset.
[0023]
(C) Failure log collection processing in the second invention
In the second invention, when an ACT / SBY change failure occurs during system operation, (1) each system collects its own failure information log, and (2) collection of the failure information log is completed before hardware reset. Then, the flag of the own system is set, and if the collection is not completed, the flag remains unset. (3) After hardware reset of both systems, the ACT or SBY system refers to the flag of each system to check whether collection of the failure information log has been completed. (4) Failure of the system that has not been completed Collect information logs.
It is the respective systems that perform the processes (1) and (2), but there are seven modes (the fifth to eleventh embodiments) depending on which system performs the processes (3) and (4). is there.
[0024]
FIG. 7 is a chart showing a system for performing the processes (3) and (4) after hardware reset when the system 0 is an ACT system and the system 1 is an SBY system.
{Circle around (1)} In the fifth embodiment, the old ACT system (system 0) and the new ACT system (system 1) respectively perform their own system flag check processing (3) and failure information log collection processing when the flag is not set (4). Execute
{Circle around (2)} In the sixth embodiment, the old ACT system (system 0) performs the flag check processing (3) of both systems and also executes the failure information log collection processing (4) when the flag of each system is not set.
{Circle around (3)} In the seventh embodiment, the old ACT system (system 0) performs flag check processing (3) for both systems, and the new ACT system (system 1) collects failure information logs when both systems have no flags set. Execute (4).
{Circle around (4)} In the eighth embodiment, the old ACT system (system 0) performs the flag check processing (3) of both systems, and each system performs the failure information log collection processing (4) when its own system flag is not set. Execute.
{Circle around (5)} In the ninth embodiment, the new ACT system (system 1) performs the flag check processing (3) of both systems and also executes the failure information log collection processing (4) when the flags of each system are not set. .
{Circle around (6)} In the tenth embodiment, the new ACT system (system 1) performs the flag check processing (3) of both systems, and the old ACT system (system 0) collects the failure information log when the flags of both systems are not set. Execute (4).
{Circle around (7)} In the eleventh embodiment, the new ACT system (system 1) performs flag check processing (3) for both systems, and each system performs failure information log collection processing (4) when its own system flag is not set. Execute.
[0025]
(A) Fifth embodiment
FIG. 8 shows the processing flow of system 0 and system 1 in the fifth embodiment. System 0 is initially operated as ACT system and system 1 is operated as SBY system (steps 301 and 401).
In this state, the 0-system MPU unit 11a 0 When an interrupt requiring an ACT / SBY change occurs to the MPU unit 11a 0 Sends this interrupt to the system controller 11c. 0 , The MPU unit 11a of the first system via the system confounding line SCL 1 (Steps 302 and 402).
MPU part 11a of both systems 0 , 11a 1 Starts the emergency control operation program P2 with the ACT / SBY change interrupt as a trigger. With this program, failure information logs such as all register information in the MPU of the own system and other control information of each functional block are collected and stored in a predetermined storage area (steps 303 and 403). Note that the storage destination depends on the system, and the memory unit 11b 0 , 11b 1 Or the IO control unit 12 0 , 12 1 It may be a subordinate device (hard disk, optical disk).
[0026]
MPU unit 11a of each system 0 , 11a 1 Indicates that the log collection completion flag LCF 0 , LCF 1 Is set to "1" (steps 304 and 404). However, if the various information logs cannot be saved normally, the log collection completion flag LCF 0 , LCF 1 Is not set (“0”).
Thereafter, hardware reset is performed for both the 0 system and the 1 system (steps 305 and 405). After the hardware reset, the system control unit 11c of the 0 system 0 Is the system control unit 11c of the first system 1 ACT / SBY is instructed via the system confounding line SCL to perform ACT / SBY change. As a result, the system 0 (old ACT) is activated as the new SBY, and the system 1 (old SBY) is activated as the new ACT (steps 306 and 406).
MPU part 11a of system 0 and system 1 0 , 11a 1 Is the log collection completion flag LCF of the own system. 0 , LCF 1 "1" and "0" are checked (steps 307 and 407). If the flag is not set ("0"), the log collection operation of the own system is executed (steps 308 and 408).
[0027]
MPU part 11a of system 0 (old ACT) 0 After completion of log collection, or in step 307, a log collection completion flag LCF 0 Is set ("1"), the standby operation processing of the first system (old SBY) is continued (standby operation state, step 309).
In addition, the MPU unit 11a of the first system (new ACT) 1 After completion of log collection, or at step 407, a log collection completion flag LCF 1 Is set ("1"), the operation operation processing of the 0 system (old ACT) is continued in synchronization with the processing of the 0 system (operation operation state, step 409).
As described above, according to the fifth embodiment, since each system collects the fault information log of its own system, it is possible to surely collect the fault information before resetting the hardware. Further, since the failure information log of the other system is not collected, the processing can be completed at higher speed.
[0028]
(B) Sixth embodiment
FIG. 9 is a processing flow of system 0 and system 1 in the sixth embodiment, and the same steps as those in the fifth embodiment are given the same numbers. In the sixth embodiment, the system 0 (old ACT) starts as a new SBY (steps 301 to 306), and the system 1 (old SBY) starts as a new ACT (steps 401 to 406). Similar processing is performed.
After executing the processing of step 306, the MPU unit 11a of the 0 system (old ACT) 0 Is the log collection completion flag LCF for both systems 0 , LCF 1 "1" and "0" are checked (step 311). {Circle around (1)} Flag LCF of only own system (0 system) 0 If is not set ("0"), the log collection operation of the own system is executed (step 312), and (2) the flag LCF of both systems (0 system, 1 system) 0 , LCF 1 If both are not set ("0"), the log collection operation of both systems is executed (step 313), and (3) the flag LCF of only the other system (system 1) 1 If is not set ("0"), the log collection operation of another system is executed (step 314).
[0029]
MPU part 11a of system 0 (old ACT) 0 Is completed if the log collection process is completed as described above, or the log collection completion flag LCF 0 , LCF 1 Are set ("1"), the standby operation processing of the first system (old SBY) is continued (standby operation state, step 315).
In addition, the MPU unit 11a of the first system (new ACT) 1 Synchronizes with the standby operation of the system 0 to continue the operation operation processing of the system 0 (old ACT) to provide a service (operation operation state, step 411).
As described above, according to the sixth embodiment, each system can collect the failure information log of its own system, so that the failure information can be reliably collected before the hardware reset.
Even if the log collection of both systems is not completed before the hard reset, the new SBY system (0 system) collects the logs after the hard reset, so that the new ACT system service processing is not affected.
[0030]
(C) Seventh embodiment
FIG. 10 is a processing flow of system 0 and system 1 in the seventh embodiment, and the same steps as those in the fifth embodiment are denoted by the same reference numerals. In the seventh embodiment, system 0 (old ACT) starts as a new SBY (steps 301 to 306), and system 1 (old SBY) starts as a new ACT (steps 401 to 406). Similar processing is performed.
After executing the processing of step 306, the MPU unit 11a of the 0 system (old ACT) 0 Is the log collection completion flag LCF for both systems 0 , LCF 1 "1" and "0" are checked (step 321), and if any flag is not set ("0"), the system whose flag is not set is changed to the system 1 (new ACT) by inter-processor communication. MPU unit 11a 1 And instructs to collect log information (step 322).
MPU part 11a of 1 system (new ACT) 1 Checks whether a notification indicating a flag-unset system has been received from system 0 (old ACT), and if received, determines which system has no flag set (step 421).
[0031]
MPU part 11a of 1 system (new ACT) 1 Is the flag LCF of (1) other system (0 system) only 0 If is not set ("0"), the log collection operation of the other system is executed (step 422), and (2) the flag LCF of both systems (system 0 and system 1) 0 , LCF 1 If both are not set ("0"), the log collection operation of both systems is executed (step 423), and (3) the flag LCF of only the own system (system 1) 1 If is not set ("0"), the log collection operation of the own system is executed (step 424).
If the above log collection processing is completed, or if the log information collection instruction is not received in step 421, the MPU unit 11a of the first system (new ACT) 1 Provides the service by continuing the operation operation processing of system 0 (old ACT) up to that time (operation operation state, step 425).
Also, the MPU unit 11a of the system 0 (new SBY) 0 Continues the standby operation process of the first system in synchronization with the operational operation process of the first system (new ACT) (standby operation state, step 323).
[0032]
As described above, according to the seventh embodiment, each system can collect the failure information log of its own system, so that the failure information can be reliably collected before the hardware reset.
Further, since the check of the log collection flag is performed by the new SBY system (system 0), the service processing of the new ACT system is not affected at all if the log collection of both systems is completed before the hardware reset. Even if the log collection is not completed before the hardware reset, the log collection can be performed more reliably because the new ACT system performs the log collection.
[0033]
(D) Eighth embodiment
FIG. 11 is a processing flow of the system 0 and system 1 in the eighth embodiment, and the same steps as those in the fifth embodiment are denoted by the same reference numerals. In the eighth embodiment, the 0th system (old ACT) starts as a new SBY (steps 301 to 306), and the 1st system (old SBY) starts as a new ACT (steps 401 to 406). Similar processing is performed.
After executing the processing of step 306, the MPU unit 11a of the 0 system (old ACT) 0 Is the log collection completion flag LCF of the other system (system 1) 1 "1" and "0" are checked (step 331), and the flag LCF is checked. 1 Is not set ("0"), the fact is notified by the inter-processor communication to the MPU unit 11a of the first system (new ACT). 1 (Step 332). 1 system MPU unit 11a 1 Checks whether a flag non-setting notification has been received from the system 0 (old ACT), that is, whether a log information collection instruction has been received (step 431), and if received, executes its own log collection operation (step 431). 432). After the log collection is completed, or if no log information collection instruction is received in step 431, the MPU unit 11a of the first system (new ACT) 1 Continues the operation operation process of the system 0 (old ACT) up to that time and provides a service (operation operation state, step 433).
[0034]
On the other hand, the MPU unit 11a of the system 0 (old ACT) 0 Indicates that the notification processing of step 332 is completed or that the log collection completion flag LCF 1 Is set ("1"), the log collection completion flag LCF of the own system is set. 0 "1" and "0" are checked (step 333), and the flag LCF is checked. 0 If is not set ("0"), the log information collection operation of the own system is executed (step 334).
Then, or in step 333, the flag LCF 0 Is set ("1"), the MPU unit 11a of the system 0 (old ACT) 0 Continues the standby operation processing of the first system in synchronization with the operational operation processing of the first system (new ACT) (standby operation state, step 335).
According to the eighth embodiment, since each system collects its own failure information log, it is possible to reliably collect failure information before hardware reset.
Further, since the check of the log collection flag is performed by the new SBY system (system 0), the service processing of the new ACT system is not affected at all if the log collection of both systems is completed before the hardware reset. Further, even if the log collection is not completed before the hardware reset, each system only needs to collect the log of its own system, so that the log collection can be performed at high speed.
[0035]
(E) Ninth embodiment
FIG. 12 is a processing flow of system 0 and system 1 in the ninth embodiment, and the same steps as those in the fifth embodiment are denoted by the same reference numerals. In the ninth embodiment, system 0 (old ACT) starts as a new SBY (steps 301 to 306), and system 1 (old SBY) starts as a new ACT (steps 401 to 406). Similar processing is performed.
After execution of the processing of step 406, the MPU unit 11a of the first system (new ACT) 1 Is the log collection completion flag LCF for both systems 0 , LCF 1 "1" and "0" are checked (step 441). {Circle around (1)} Flag LCF of other system (0 system) only 0 If is not set ("0"), the log collection operation of the other system is executed (step 442), and (2) the flag LCF of both systems (0 system, 1 system) 0 , LCF 1 If both are not set ("0"), the log collection operation of both systems is executed (step 443), and (3) the flag LCF of only the own system (system 1) 1 If is not set ("0"), the log collection operation of the own system is executed (step 444).
[0036]
MPU part 11a of 1 system (new ACT) 1 Is completed if the log collection processing is completed as described above, or the log collection completion flag LCF 0 , LCF 1 If both are set ("1"), the operation operation processing of the system 0 (old ACT) up to that point is continued (operation operation state, step 445).
Also, the MPU unit 11a of the system 0 (new SBY) 0 Continues the standby operation processing of the first system (old SBY) up to that time in synchronization with the operational operation processing of the first system (standby operation state, step 341).
As described above, according to the ninth embodiment, each system can collect the failure information log of its own system, so that the failure information can be reliably collected before the hardware reset. In addition, since the log collection completion flag after hardware reset and the log collection when the log collection is not completed are performed by the new ACT system (system 1), log collection can be performed more reliably.
[0037]
(F) Tenth embodiment
FIG. 13 is a processing flow of system 0 and system 1 in the tenth embodiment, and the same steps as those in the fifth embodiment are given the same numbers. In the tenth embodiment, the 0th system (old ACT) starts as a new SBY (steps 301 to 306) and the 1st system (old SBY) starts as a new ACT (steps 401 to 406). Similar processing is performed.
After execution of the processing of step 406, the MPU unit 11a of the first system (old SBY) 1 Is the log collection completion flag LCF for both systems 0 , LCF 1 "1" and "0" are checked (step 451), and if any flag is not set ("0"), the system whose flag is not set is changed to the system 0 (new SBY) by inter-processor communication. MPU unit 11a 0 And instructs to collect log information (step 452).
[0038]
MPU part 11a of system 0 (new SBY) 0 Checks whether a notification indicating a flag-unset system has been received from the first system (old SBY), and if received, determines which system has no flag set (step 351).
MPU part 11a of system 0 (new SBY) 0 Is the flag LCF of (1) own system (0 system) only 0 Is not set ("0"), the log collection operation of the own system is executed (step 352), and (2) the flag LCF of both systems (0 system, 1 system) 0 , LCF 1 If both are not set ("0"), the log collection operation of both systems is executed (step 353), and (3) the flag LCF of only the other system (system 1) 1 If is not set ("0"), the log collection operation of another system is executed (step 354).
If the above log collection processing is completed, or if no log information collection instruction is received in step 351, the MPU unit 11a of the 0 system (new SBY) 0 Continues the standby operation processing of the first system (old SBY) up to that time (standby operation state, step 355).
[0039]
In addition, the MPU unit 11a of the first system (new ACT) 1 Continues the operation operation processing of the system 0 up to that time in synchronization with the standby operation processing of the system 0 (new SBY) (operation operation state, step 453).
According to the tenth embodiment, since each system collects its own failure information log, it is possible to reliably collect failure information before hardware reset.
Further, the check of the log collection completion flag after the hardware reset is performed by the new ACT system (system 1), so that the check can be performed more reliably. Even if the log collection is not completed before the hardware reset, the new SBY (0 system) performs log collection without affecting the new ACT system service processing.
[0040]
(G) Eleventh embodiment
FIG. 14 is a processing flow of system 0 and system 1 in the eleventh embodiment, and the same steps as those in the fifth embodiment are denoted by the same reference numerals. In the eleventh embodiment, the 0th system (old ACT) starts as a new SBY (steps 301 to 306), and the 1st system (old SBY) starts as a new ACT (steps 401 to 406). Similar processing is performed.
After execution of the processing of step 406, the MPU unit 11a of the first system (old SBY) 1 Is the log collection completion flag LCF of the own system 1 "1" and "0" are checked (step 461), and the flag LCF is checked. 1 If is not set ("0"), the log information collection operation of the own system is executed (step 462).
[0041]
Then, or in step 461, the flag LCF of the own system is set. 1 Is set ("1"), the log collection completion flag LCF of the other system (system 0) 0 "1" and "0" are checked (step 463), and the flag LCF is checked. 0 Is not set ("0"), the effect is notified to the MPU unit 11a of the 0 system (new SBY) by inter-processor communication. 0 (Step 464). 0-system MPU unit 11a 0 Checks whether a flag non-setting notification has been received from the first system (old SBY), that is, whether a log information collection instruction has been received (step 361), and if received, executes its own system log collection operation (step 361). 362). After the log collection is completed, or if the log information collection instruction is not received in step 361, the MPU unit 11a of the 0 system (new SBY) 0 Continue the standby operation processing of the first system (old SBY) up to that time (standby operation state, step 363).
[0042]
On the other hand, the MPU unit 11a of the first system (new ACT) 1 Indicates that the notification processing of step 464 is completed, or that the log collection completion flag LCF 0 Is set ("1"), the operation operation processing of the system 0 is continued in synchronization with the standby operation processing of the system 0 (new SBY) (operation operation state, step 465).
As described above, according to the eleventh embodiment, each system can collect the log information more reliably before the hardware reset because the system collects the failure information log of the own system.
Further, the check of the log collection completion flag after the hardware reset is performed by the new ACT system (system 1), so that the check can be performed more reliably.
In the above, the case where an interruption requiring an ACT / SBY change occurs during operation while the system 0 is in the operation operation state (during the ACT operation) and the system 1 is in the standby operation state (during the SBY operation) has been described. During operation, if an ACT / SBY change interrupt occurs while the system 0 is in SBY operation, ACT / SBY switching is performed similarly.
As described above, the present invention has been described with reference to the embodiments. However, the present invention can be variously modified in accordance with the gist of the present invention described in the claims, and the present invention does not exclude these.
[0043]
【The invention's effect】
As described above, according to the present invention, when a failure requiring an ACT / SBY change occurs, a failure log can be reliably obtained, and the location of the failure can be accurately suppressed.
According to the present invention, a failure information log is collected when a failure requiring ACT / SBY switching occurs, and if the collection of the failure information log is completed before the hardware reset, the flag is set and the collection is completed. If not, leave the flag in the unset state, reset both hardware, and refer to the flag to determine whether collection of the failure information log has been completed. If not, collect the failure information log. Thus, even if the collection of the failure information log is not completed, the failure information log can be reliably collected after the hardware reset.
[0044]
Further, according to the present invention, when a failure that requires ACT / SBY switching occurs, each system collects its own failure information log, and if the collection of the failure information log is completed before the hardware reset, the own system. Set the log information collection flag in the set state.If collection is not completed, leave the flag unset.After resetting both systems by hardware, refer to the flag of each system and complete the collection of the failure information log. And collects the failure information log of the incomplete system.Even if the failure information log collection is not completed in both systems or one system, it is possible to collect the failure information log after each hardware reset. Failure information logs can be collected reliably.
[0045]
According to the invention of the first embodiment, all log collection is performed by the new SBY system, so that the new ACT system service processing is not affected.
According to the invention of the second embodiment, the flag check after system switching is performed by the new SBY system (system 0), so that if the log collection before hardware reset is completed, the service processing of the new ACT system will be affected. Do not give. If the log collection before the hardware reset is not completed, the failure information log is collected by the new ACT system (system 1) after the hardware reset, so that the log collection can be performed more reliably.
According to the invention of the third embodiment, the flag check processing after system switchover and the failure information log collection processing are performed by the new ACT system (system 1), so that more reliable checks and log collection are possible.
According to the invention of the fourth embodiment, the flag check after the system switching is performed by the new ACT system (system 1), so that a more reliable check can be performed. Even if the log collection is not completed before the hardware reset, the log collection is performed by the new SBY system (0 system) after the hardware reset, so that the new ACT system service processing is not affected.
[0046]
According to the fifth to eleventh embodiments, since each system collects its own log and sets a flag, it is possible to more reliably collect the log information to be collected before hardware reset.
According to the fifth embodiment, since the flag check processing for another system and the log collection of the failure information are not performed, the processing can be completed at a higher speed.
According to the invention of the sixth embodiment, even if the log collection of both systems is not completed before the hardware reset, the new SBY system (system 0) performs the log collection after the hardware reset, so that the service processing of the new ACT system is performed. Does not affect
According to the invention of the seventh embodiment, the log collection flag is checked by the new SBY system (system 0). If the log collection of both systems is completed before the hardware reset, the service processing of the new ACT system is performed. Has no effect. Further, even if the log collection is not completed before the hardware reset, the log collection can be performed more reliably because the new ACT system performs the log collection.
[0047]
According to the invention of the eighth embodiment, the log collection flag is checked by the new SBY system (0 system). Therefore, if the log collection of both systems is completed before the hardware reset, the service processing of the new ACT system is performed. Has no effect. Even if the log collection is not completed before the hardware reset, it is sufficient to collect the log only for the own system, so that the log can be collected at a high speed.
According to the ninth embodiment, since the flag check processing after hardware reset and the log collection when the hardware is not completed are all performed by the new ACT system, the log collection can be performed more reliably.
According to the tenth embodiment, since the log collection completion flag after the hardware reset is checked by the new ACT system, the check can be performed more reliably. Even if the log collection is not completed before the hardware reset, the new SBY (0 system) performs log collection without affecting the new ACT system service processing.
According to the eleventh embodiment, since the log collection completion flag after the hardware reset is checked by the new ACT system, the check can be performed more reliably.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of a control system device of an exchange according to the present invention.
FIG. 2 is an explanatory diagram of a processing mode after a hardware reset when a system 0 collects failure information logs of both systems (system 0 and system 1) and sets a log collection completion flag.
FIG. 3 is a processing flow of the first embodiment.
FIG. 4 is a processing flow of a second embodiment.
FIG. 5 is a processing flow of a third embodiment.
FIG. 6 is a processing flow of a fourth embodiment.
FIG. 7 is an explanatory diagram of a processing mode after hardware reset when each system collects its own system failure information log and sets a log collection completion flag of its own system.
FIG. 8 is a processing flow of the fifth embodiment.
FIG. 9 is a processing flow of a sixth embodiment.
FIG. 10 is a processing flow of a seventh embodiment.
FIG. 11 is a processing flow of the eighth embodiment.
FIG. 12 is a processing flow of the ninth embodiment.
FIG. 13 is a processing flow of the tenth embodiment.
FIG. 14 is a processing flow of the eleventh embodiment.
FIG. 15 is a network configuration diagram.
FIG. 16 is a configuration diagram of a control system device of a conventional exchange.
[Explanation of symbols]
10 0 , 10 1 ..Control devices of system 0 and system 1
11 0 , 11 1 ..PROC control units (processing control units) 11a for system 0 and system 1 0 , 11a 1 ..Microprocessor units (MPU units)
11b 0 , 11b 1 ..Memory units
11c 0 , 11c 1 ..System control units
11d 0 , 11d 1 ..Internal bus
11e 0 , 11e 1 ..Interface control units
11f 0 , 11f 1 ..Firmware section
12 0 , 12 1 ..IO control units
13 0 , 13 1 ..LAN controller
14 0 , 14 1 ..Interface control unit with communication channel devices
Fifteen 0 , 15 1 ..Expansion buses
16 0 , 16 1 ..Bus interface section
MCL ... memory confounding wire
SCL ・ ・ System confounding wire
BCL-Extended bus confounding wire
P1 Exchange program
P2 ... Emergency control operation program
LCF-Log information collection completion flag

Claims (13)

運用系(ACT)の制御系装置と予備系(SBY)の制御系装置を備えた二重化装置の障害情報収集方法において、
ACT/SBY切替を必要とする障害発生時に障害情報の収集を行い、
ハードウェアリセット前に実行される障害情報の収集が完了すればフラグをセット状態にし、収集が完了してなければフラグを未セット状態のままにし、
両系をハードウェアリセット後、前記フラグを参照して障害情報の収集が完了しているか判断し、完了していなければ障害情報を収集することを特徴とする二重化装置の障害情報収集方法。
In a failure information collection method for a redundant device including an active (ACT) control device and a standby (SBY) control device,
Collect failure information when a failure that requires ACT / SBY switching occurs,
If the collection of the fault information executed before the hardware reset is completed, the flag is set, and if the collection is not completed, the flag is left unset.
A failure information collection method for a duplex device, comprising: determining whether collection of failure information is completed by referring to the flag after hardware resetting both systems; and collecting failure information if not completed.
旧ACT側で、前記フラグを参照して障害情報の収集が完了しているか判断し、完了していなければ、障害情報を収集することを特徴とする請求項1記載の障害情報収集方法。2. The fault information collection method according to claim 1, wherein the old ACT determines whether the collection of the fault information is completed by referring to the flag, and if not, collects the fault information. 旧ACT側で、前記フラグを参照して障害情報の収集が完了しているか判断し、完了していなければ、旧ACT側より新ACT側に通知し、新ACT側で障害情報の収集を行うことを特徴とする請求項1記載の障害情報収集方法。The old ACT side refers to the flag to determine whether the collection of the failure information is completed, and if not, notifies the old ACT side to the new ACT side and collects the failure information on the new ACT side. 2. The fault information collecting method according to claim 1, wherein: 新ACT側で、前記フラグを参照して障害情報の収集が完了しているか判断し、完了していなければ、障害情報を収集することを特徴とする請求項1記載の障害情報収集方法。2. The fault information collecting method according to claim 1, wherein the new ACT determines whether the collection of the fault information has been completed by referring to the flag, and if not completed, collects the fault information. 新ACT側で、前記フラグを参照して障害情報の収集が完了しているか判断し、完了していなければ、新ACT側より旧ACT側に通知し、旧ACT側で障害情報の収集を行うことを特徴とする請求項1記載の障害情報収集方法。The new ACT determines whether the collection of the failure information is completed by referring to the flag. If the collection is not completed, the new ACT notifies the old ACT of the failure and collects the failure information on the old ACT. 2. The fault information collecting method according to claim 1, wherein: 運用系(ACT)の制御系装置と予備系(SBY)の制御系装置を備えた二重化装置の障害情報収集方法において、
ACT/SBY切替を必要とする障害発生時に、各系は自系の障害情報の収集を行い、
ハードウェアリセット前に障害情報の収集が完了すれば自系の情報収集フラグをセット状態にし、収集が完了しなければフラグを未セット状態のままにし、
両系をハードウェアリセット後、各系のフラグを参照して障害情報の収集が完了しているかチェックし、完了していない系の障害情報を収集することを特徴とする二重化装置の障害情報収集方法。
In a failure information collection method for a redundant device including an active (ACT) control device and a standby (SBY) control device,
When a failure requiring ACT / SBY switching occurs, each system collects its own failure information,
If the collection of the failure information is completed before the hardware reset, the information collection flag of the own system is set.If the collection is not completed, the flag is left unset.
After the hardware reset of both systems, the system checks the failure information collection by referring to the flags of each system and collects the failure information of the incomplete system. Method.
各系は自系のフラグをチェックし、障害情報の収集が未完了ならば自系の障害情報を収集することを特徴とする請求項6記載の障害情報収集方法。7. The failure information collecting method according to claim 6, wherein each system checks its own flag and, if the collection of the failure information is not completed, collects the failure information of the own system. 旧ACT側が両系のフラグをチェックし、障害情報の収集が未完了なら旧ACT側で障害情報を収集することを特徴とする請求項6記載の障害情報収集方法。7. The fault information collecting method according to claim 6, wherein the old ACT checks the flags of both systems, and if the collection of the fault information is not completed, the old ACT collects the fault information. 旧ACT側が両系のフラグをチェックし、障害情報の収集が未完了なら旧ACT側より新ACT側に通知し、新ACT側で障害情報を収集することを特徴とする請求項6記載の障害情報収集方法。7. The fault according to claim 6, wherein the old ACT checks the flags of both systems, and if the collection of the fault information is not completed, notifies the new ACT from the old ACT and collects the fault information on the new ACT. Information collection method. 旧ACT側が両系のフラグをチェックし、旧ACT側の障害情報の収集が未完了なら旧ACT側が障害情報収集を行い、また、新ACT側の障害情報の収集が未完了なら旧ACT側が新ACT側に通知し、新ACT側で障害情報を収集することを特徴とする請求項6記載の障害情報収集方法。The old ACT checks the flags of both systems, and if the collection of the failure information on the old ACT is not completed, the old ACT performs the collection of the failure information. 7. The failure information collection method according to claim 6, wherein the notification is sent to the ACT side, and the new ACT side collects the failure information. 新ACT側が両系のフラグをチェックし、障害情報の収集が未完了なら新ACT側で障害情報を収集することを特徴とする請求項6記載の障害情報収集方法。7. The failure information collecting method according to claim 6, wherein the new ACT checks the flags of both systems, and if the collection of the failure information is not completed, the new ACT collects the failure information. 新ACT側が両系のフラグをチェックし、障害情報の収集が未完了なら新ACT側が旧ACT側に通知し、旧ACT側で障害情報を収集することを特徴とする請求項6記載の障害情報収集方法。7. The fault information according to claim 6, wherein the new ACT checks the flags of both systems, and if the collection of the fault information is not completed, the new ACT notifies the old ACT and collects the fault information on the old ACT. Collection method. 新ACT側が両系のフラグをチェックし、新ACT側の障害情報の収集が未完了なら新ACT側が障害情報収集を行い、また、旧ACT側の障害情報の収集が未完了なら新ACT側が旧ACT側に通知し、旧ACT側で障害情報を収集することを特徴とする請求項6記載の障害情報収集方法。The new ACT checks the flags of both systems, and if the collection of the failure information on the new ACT is not completed, the new ACT performs the collection of the failure information. 7. The fault information collecting method according to claim 6, wherein the ACT side is notified and fault information is collected on the old ACT side.
JP32925698A 1998-11-19 1998-11-19 Redundancy device failure information collection method Expired - Fee Related JP3564310B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32925698A JP3564310B2 (en) 1998-11-19 1998-11-19 Redundancy device failure information collection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32925698A JP3564310B2 (en) 1998-11-19 1998-11-19 Redundancy device failure information collection method

Publications (2)

Publication Number Publication Date
JP2000156687A JP2000156687A (en) 2000-06-06
JP3564310B2 true JP3564310B2 (en) 2004-09-08

Family

ID=18219420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32925698A Expired - Fee Related JP3564310B2 (en) 1998-11-19 1998-11-19 Redundancy device failure information collection method

Country Status (1)

Country Link
JP (1) JP3564310B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4645837B2 (en) * 2005-10-31 2011-03-09 日本電気株式会社 Memory dump method, computer system, and program
JP4756203B2 (en) * 2005-11-18 2011-08-24 富士電機株式会社 Protocol converter and duplex data transmission system using the same
JP2017058825A (en) * 2015-09-15 2017-03-23 株式会社リコー Information processing system, information processing apparatus, and information processing method
CN117885805A (en) * 2024-03-18 2024-04-16 清车智行(苏州)电子科技有限公司 Redundant electric power steering control system and control method for automatic driving vehicle

Also Published As

Publication number Publication date
JP2000156687A (en) 2000-06-06

Similar Documents

Publication Publication Date Title
JP2505928B2 (en) Checkpoint mechanism for fault tolerant systems
KR100238926B1 (en) Method and apparatus for recovering from faults in distributed memory type multiprocessor computing system
JP3004477B2 (en) Synchronization decision system for duplicate memory
WO1986000439A1 (en) Reconfigurable dual processor system
CN100394394C (en) Fault tolerant duplex computer system and its control method
KR20100038159A (en) Synchronization control apparatus, information processing apparatus, and synchronization management method
JPH0950424A (en) Dump sampling device and dump sampling method
US20060090094A1 (en) Real-time fail-over recovery for a media area network
US5742851A (en) Information processing system having function to detect fault in external bus
JP3564310B2 (en) Redundancy device failure information collection method
JPH09251443A (en) Processor fault recovery processing method for information processing system
WO2010100757A1 (en) Arithmetic processing system, resynchronization method, and firmware program
JP3447347B2 (en) Failure detection method
JP2956849B2 (en) Data processing system
JP4072392B2 (en) Multiprocessor switching method
JP2560875B2 (en) Information processing system failure notification method
JP3022768B2 (en) Virtual computer system
Hansen et al. The 3B20D Processor & DMERT operating systems: Fault detection and recovery
JP3256181B2 (en) How to restore a highly reliable computer system
KR100236937B1 (en) Control method of duplicated system with cache memory
JP3438986B2 (en) Multiplexed computer system and failure recovery method
JPH05225135A (en) Terminal noninterruption on-line system
JP2572176B2 (en) Processor switching method for packet switch
JPH04360242A (en) Device and method for switching systems in duplexed system
JP3298550B2 (en) Multiplexed processor system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040601

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040607

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090611

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100611

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100611

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100611

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110611

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120611

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees