JP5576096B2

JP5576096B2 - マルチｃｐｕ構成装置及びその監視制御方法

Info

Publication number: JP5576096B2
Application number: JP2009260759A
Authority: JP
Inventors: 康孝長田; 直勝大川
Original assignee: Fujitsu Ltd; Fujitsu Telecom Networks Ltd
Current assignee: Fujitsu Ltd; Fujitsu Telecom Networks Ltd
Priority date: 2009-11-16
Filing date: 2009-11-16
Publication date: 2014-08-20
Anticipated expiration: 2029-11-16
Also published as: JP2011107868A

Description

本発明は、マルチＣＰＵ構成装置及びその監視制御方法に関する。本発明は、例えば、装置の監視／制御を行う上位側のメインＣＰＵと、各カードに搭載され各カードの固有機能の処理を行う下位側のＣＰＵとを備えたマルチＣＰＵ構成の伝送装置等における監視制御に好適に適用される。

一般的に伝送装置等は、市場動向や通信容量の需要に応じて種々の機能及び容量をサポートするカードが順次開発され拡張される構成を採る場合が多い。この場合、メイン制御を司る上位側のメインＣＰＵ（以下、ＭＣＵと記述する。）は、継続して使用されることなる。

しかし、近年の伝送装置（例．Ｅｔｈｅｒ（登録商標）／ＩＰ装置、波長分割多重装置、時分割多重装置等）は、通信容量が飛躍的に増大し、またＩＰ系の新規機能要求が増加するなどして、各カードのハードウェアで機能／容量をサポートしたとしても、各カードの監視制御等の処理を１つのＭＣＵで行うことが困難な情況である。

そこで最近では、各カードにもＣＰＵを搭載し、カード固有機能（カード内の警報監視、パフォーマンスモニタ処理等）については、各カードのＣＰＵ上で動作するカードファームウェアで処理を行い、処理結果をＭＣＵに通知する構成（マルチＣＰＵ構成）が採用されている。

ＭＣＵと各カードの実装構成例を図１８に示す。ＭＣＵ１０１と各カード１０２は、互いに装置内ＬＡＮ（Local Area Network）１０３で接続されている。また、ＭＣＵ１０１及び各カード１０２は、ハードウェアバス１０４を介してメモリ１０５及びレジスタ１０６にアクセスしてデータの書き込み及び読み出しを行うことが可能な構成となっている。ここで、各カード１０２としてカードＡ〜カードＮが実装されているものとする。

従来のＭＣＵ上のファームウェア構成例を図１６に、また、各カード（例としてカードＡ）のＣＰＵ上のファームウェア構成例を図１７に示す。図１６及び図１７において、ユーザレイヤ部１０は、監視制御システムにおける図示省略の外部保守端末との間のコマンドインタフェース処理の機能を有し、当該装置へのアクセス管理、コマンド受付、コマンド応答の返送等を行う。

マネージメントレイヤ部２０は、コマンド処理、警報通知処理、データベース（ＤＢ）管理処理、ソフトウェアダウンロード（ＳＷＤＬ）の機能を有する。コマンド処理の機能は、ユーザレイヤ部１０で受信したコマンドを解析し、下位レイヤへの振り分けを行う。また、下位レイヤからの処理結果に従い、受信コマンドに対するレスポンスを生成し、ユーザレイヤ部１０に通知する。

警報通知処理の機能は、下位レイヤからの警報通知に従い、装置内警報データの縮退を行った後、ユーザレイヤ部１０へ通知する。データベース管理の機能は、コマンド処理結果を基にデータベースへの反映及び管理を行う。ソフトウェアダウンロード（ＳＷＤＬ）の機能は、各カードのファームウェアをダウンロードする。

なお、ユーザレイヤ部１０及びマネージメントレイヤ部２０は、ＭＣＵには実装され動作するが、各カードには実装されず、各カードでは動作しない。コントロールレイヤ部３０及びプラットフォームレイヤ部は、ＭＣＵ及び各カードに実装され、ＭＣＵ及び各カードでそれぞれ個別の処理を実行する。

コントロールレイヤ部３０は、警報監視部３１、パフォーマンス監視部３２、カード制御部３３を備える。警報監視部３１は、警報処理においてプラットフォームレイヤ部４０を介して、ＭＣＵ及び各カードの該当レジスタのポーリングを行い、警報状態の監視を行う。警報発生時は、警報管理部によりカード内の警報データの縮退を行った後、マネージメントレイヤ部２０に通知する。

パフォーマンス監視部３１は、パフォーマンス（ＰＭ）処理において、プラットフォームレイヤ部４０を介して、ＭＣＵ及び各カードの該当レジスタのポーリングを行い、一部ソフトウェアによるカウン値の収集を行う。ＰＭ管理部では、各パフォーマンス監視項目に従い、カウント値を累計し管理する。マネージメントレイヤ部２０からの要求により、該当するパフォーマンス監視項目のカウント値を通知する。

カード制御部３３は、環境設定（Ｃｏｎｆｉｇ）処理において、マネージメントレイヤ部２０からの要求による設定内容、設定シーケンスを管理し、プラットフォームレイヤ部４０を介して、実ハードウェアへの設定を行う。

プラットフォームレイヤ部４０部は、カード間通信部４１、実装管理部４２、ハードウェアアクセス部４３を備える。カード間通信部４１は、ＬＡＮによりＭＣＵ及び各カードＣＰＵ間の通信の機能を提供する。また、通信相手とキープアライブパケットを送受し、ＭＣＵ及び各カードＣＰＵ間の通信異常を監視する。

実装管理部４２は、実装処理において実装状態を認識し、実装後の初期化処理（デフォルト設定等）を実施する。ハードウェアアクセス部４３は、アクセス処理において上位レイヤからの要求に従い、ＭＣＵ及び各カードの該当レジスタにアクセスする。

従来のマルチＣＰＵシステムの監視制御方法として、通常使用されるｎ個のデジタルコントローラに対して、ｋ個の同等なデジタルコントローラを設け、ｎ＋ｋ個の各コントローラにバックアップに必要な他コントローラの処理内容を予め格納し、他コントローラの故障情報により、健全なコントローラがその処理プログラム選択器により処理内容を選択する分散システムのバックアップ方式が提案されている（特許文献１）。

また、他の従来の分散システムバックアップ方式として、上位の計算機で各コントローラのソフトウェアを開発生成すると共に、該ソフトウェア開発情報を保管しておき、コントローラが異常の場合に、該ソフトウェア開発情報に従ってコントローラのバックアップを上位計算機が行う方式が提案されている（特許文献２）。
は以下のものが存在する。

特開昭６３−２３８６３３号公報特開平１−２５８０６１号公報

装置全体の監視制御の処理を１つのＭＣＵで行っていた場合は、ＭＣＵが異常にならない限り、装置内の全てのカードの監視制御を行うことができた。しかし、各カードファームウェアで各カード固有機能の処理を行い、処理結果をＭＣＵに通知するマルチＣＰＵ構成の装置では以下のような問題が生じる。

マルチＣＰＵ構成の装置において、カードファームウェアが異常、又はＭＣＵとカードファームウェアとの間の通信機能が異常になると、ＭＣＵは保守者に対して当該カードの異常を通知し、当該カード全体の監視制御が不能な異常故障（ＦＬＴ）としてとして扱うこととなる。

そのため、当該カードで発生する全ての警報がカード全体の異常故障（ＦＬＴ）の警報に縮退されてしまい、カードファームウェアのリセットによる復旧、或いはカード交換等による復旧が行われるまで、ＭＣＵによる当該カード上の主信号の監視制御を行うことができなくなる。

その結果、保守者の遠隔操作による異常カードの監視制御を行うことができなくなるという問題があった。本発明は、マルチＣＰＵ構成の装置において、カードファームウェアが異常、又はＭＣＵとカードファームウェアとの間の通信機能が異常になった場合でも、ＭＣＵによる該異常カードの監視制御を可能にする。

上記課題を解決する第１の側面としてのマルチＣＰＵ構成装置は、装置全体のメイン制御を司るメインＣＰＵであるＭＣＵと、装置内の各カードに実装され各カード固有の機能の処理を各カードのＣＰＵで実行する各カードファームウェアとを有するマルチＣＰＵ構成装置において、前記ＭＣＵで、前記各カードファームウェアの異常を検出する異常検出手段と、前記異常が検出されたとき、前記ＭＣＵは該異常が検出されたカードファームウェアを該ＭＣＵに割り当てられた空きメモリ領域にロードするとともに、前記ＭＣＵで保持している前記カードファームウェアの異常が検出されたカードのデータベース情報を基に、前記ＭＣＵからハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対してデータ設定を行い、前記ＭＣＵから前記ハードウェアバスを経由して前記カードファームウェアの該異常が検出されたカードに対する監視制御を代行して処理する代行処理手段と、を備えたものである。

また、上記課題を解決する第２の側面としてのマルチＣＰＵ構成装置の監視制御方法は、装置全体のメイン制御を司る上位側のメインＣＰＵであるＭＣＵと、装置内の各カードに実装され各カード固有の機能の処理を各カードのＣＰＵで実行する各カードファームウェアとを有するマルチＣＰＵ構成装置の監視制御方法において、前記ＭＣＵで、前記各カードファームウェアの異常を検出する異常検出過程と、前記異常が検出されたとき、前記ＭＣＵは該異常が検出されたカードファームウェアを該ＭＣＵに割り当てられた空きメモリ領域にロードするとともに、前記ＭＣＵで保持している前記カードファームウェアの異常が検出されたカードのデータベース情報を基に、前記ＭＣＵからハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対してデータ設定を行い、前記ＭＣＵから前記ハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対する監視制御を代行して処理する代行処理過程と、を含むものである。

従来、カードファームウェアの異常についてカード全体の異常（ＦＬＴ）を検出して通知するのみであったのに対し、異常カードのカードファームウェアによる処理をＭＣＵで代行することにより、ＭＣＵによる該異常カードの監視制御が可能となり、保守者からの異常カードの監視制御を行うことができ、保守性が向上する。

また、各カードに冗長カードを備えていなくても、ＭＣＵで異常カードのカードファームウェアによる処理を代行することにより、各カードに冗長カードを備えた構成と同様の信頼性を維持することが可能となる。マルチＣＰＵ構成の伝送装置等の保守作業において、装置内の各カード異常時でも可能な限り、収容回線等の救済を行うことが可能になる。

カードファームウェアに異常が発生した場合のＭＣＵのファームウェア構成例を示す図である。カードファームウェアの異常を検出する動作シーケンス例を示す図である。メモリ空間の使用例を示す図である。カードの異常を検出する動作シーケンス例を示す図である。通信異常を検出する動作シーケンス例を示す図である。カードファームウェアの代行処理の動作シーケンス例を示す図である。カードファームウェアの正常復旧を検出する動作シーケンス例を示す図である。カードファームウェアの正常復旧を検出する動作シーケンス例を示す図である。カードファームウェアの正常復旧を検出する動作シーケンス例を示す図である。カードファームウェアの正常復旧を検出する動作シーケンス例を示す図である。複数カードの異常を検出したときの代行処理の動作シーケンス例を示す図である。代行処理中に新たなカード異常を検出した場合の動作シーケンス例を示す図である。代行処理中に新たなカード異常を検出した場合の動作シーケンス例を示す図である。代行処理中に新たなカード異常を検出した場合の動作シーケンス例を示す図である。複数カード同時故障時の代行処理終了後の動作シーケンス例を示す図である。従来のＭＣＵ上のファームウェア構成例を示す図である。各カードのＣＰＵ上のファームウェア構成例を示す図である。ＭＣＵと各カードの実装構成例を示す図である。

［１］カードファームウェアの代行処理
このマルチＣＰＵ構成装置は、装置の監視制御を行う上位側のＭＣＵと下位側のカードファームウェアにて構成される装置において、ＭＣＵによりカードファームウェアの異常を検出し、異常検出時に、当該カードファームウェアが行っていたカード固有機能の処理をＭＣＵで代行する。即ち、カードファームウェア異常時に、該当カードのファームウェアを、ＭＣＵ上の空きメモリ空間上にロードし、ＭＣＵがハードウェアバスを経由して該当カードの監視制御を代行して処理する。

［２］カードファームウェアの異常検出
カードファームウェアの異常の検出手法として、ＭＣＵ及びカードファームウェアからハードウェアバス経由により制御（参照／設定）することができるメモリ空間上に、カードファームウェアにより周期的に増加（インクリメント）する値の設定を行う。ＭＣＵは、該メモリ空間に設定された値を参照し、その値が一定期間変化しない状態のときに、メモリの異常チェックのためにＭＣＵからメモリ更新し、その結果が正常に参照できる場合は、カードファームウェア異常として検出する。

［３］ＭＣＵとカードファームウェアとの間の通信異常検出
ＭＣＵとカードファームウェアとの通信異常の検出手法として、ＭＣＵとカードファームウェアとを接続する装置内ＬＡＮを経由して、カードファームウェアからＭＣＵに対して定期的にＨｅｌｌｏパケットを送信する。ＭＣＵは、一定期間、カードファームウェアからのＨｅｌｌｏパケットが受信されない場合に、ＭＣＵとカードファームウェアとの間の通信異常として検出する。

［４］カードファームウェア異常又は通信異常検出の判別
ＭＣＵでカードファームウェアからのＨｅｌｌｏパケットの受信が一定期間行われない場合のみ、ＭＣＵとカードファームウェアとの間の通信異常と判別し、ハードウェアバス経由のメモリの参照値が一定期間変化しない場合は、カードファームウェア異常と判別する。Ｈｅｌｌｏパケット受信が行われず、かつメモリの参照値が一定期間変化しない場合は、カードファームウェア異常と判別する。

［５］カードファームウェア機能停止
ＭＣＵとカードファームウェアとの通信異常の検出時は、カードファームウェアは正常に動作しているため、ＭＣＵで代行処理を行った際に、ＭＣＵからの代行処理とカードファームウェアの処理とが競合し、正常に監視制御を行うことができない可能性が生じる。そのため、ＭＣＵからの代行処理を行う場合、カード上で動作しているカードファームウェアによる処理を強制的に停止させる。

図１６、図１７及び図１８に示した構成例に上述の実施形態を適用した実施例について以下に説明する。一例としてカードＮのカードファームウェアに異常が発生した場合のＭＣＵのファームウェア構成例を図１に示す。図１に示すように、ＭＣＵのファームウェアは、コントロールレイヤ部３０内の警報監視部３１に、ＭＣＵの警報処理の機能３１１に加えて、カードＮの警報処理の機能３１２が付加される。

同様に、パフォーマンス監視部３２に、ＭＣＵのパフォーマンス（ＰＭ）処理の機能３２１に加えて、カードＮのパフォーマンス（ＰＭ）処理の機能３２２が付加される。同様に、カード制御部３３に、ＭＣＵの環境設定（Ｃｏｎｆｉｇ）処理の機能３３１に加えて、カードＮの環境設定（Ｃｏｎｆｉｇ）処理の機能３３２が付加される。

また、プラットフォームレイヤ部４０部内の実装管理部４２に、ＭＣＵの実装処理の機能４２１に加えて、カードＮの実装処理の機能４２２が付加される。また、ハードウェアアクセス部４３に、ＭＣＵのアクセス処理の機能４３１に加えて、カードＮのアクセス処理の機能４３２が付加される。

〔１〕カードファームウェア異常検出の動作
ＭＣＵにおいて配下のカードファームウェアの異常を検出する動作シーケンスの例を図２に示す。ＭＣＵにおけるカードファームウェアの異常の検出は、既存のハードウェアバスを介してＭＣＵ及びカードファームウェアの両者から制御（参照／設定）可能なメモリ空間を使用して検出する。

該メモリ空間の使用例を図３に示す。該メモリ空間は、各カードＡ〜Ｎ対応に専用の領域が割り当てられ、各カードＡ〜Ｎは、該専用の割り当て領域にアクセスしてメモリの更新を行う。一方、ＭＣＵは、各カードＡ〜Ｎの専用の割り当て領域の何れにもアクセスし、メモリの参照及び更新を行う。

各カードファームウェアは、定期的にメモリ空間上の割り当て領域に対して、周期的に値を増加（インクリメント）してメモリ更新を行う（Ｓ１）。ＭＣＵは、周期的にメモリ空間上に割り当てられた対象領域の参照を行い（Ｓ２）、一定期間、メモリの値が変化しない場合に、ＭＣＵからメモリ空間上の当該割り当て領域に、カードファームウェアから設定する値と異なる値を書き込んでメモリ更新を行う（Ｓ３）。ＭＣＵは該対象領域の参照を行い（Ｓ４）、ＭＣＵからメモリ更新を行った値が参照できた場合は、カードファームウェアの異常（メモリの異常ではない）と判断する（Ｓ５）。カードファームウェアの異常を検出した場合、該カードのファームウェアの代行処理を開始する（Ｓ６）。

〔２〕カード異常検出の動作
ＭＣＵにおいて配下のカードの異常を検出する動作シーケンスの例を図４に示す。カード異常の検出のシーケンスは、前述のカードファームウェア異常検出の動作シーケンスにおける（Ｓ１）から（Ｓ４）まで同様である。シーケンス（Ｓ４）において、ＭＣＵからメモリ更新を行った値が参照できない場合、カードのハードウェア異常と判断する（Ｓ７）。カードのハードウェアが異常であるため、代行処理を行ってもハードウェアに対する監視制御が不能であるので、従来の処理と同様に、カード全体の異常故障（ＦＬＴ）として保守者に通知する（Ｓ８）。

〔３〕ＭＣＵとカードファームウェア間の通信異常検出の動作
ＭＣＵにおいて配下のカードファームウェアとの間の通信異常を検出する動作シーケンスの例を図５に示す。ＭＣＵとカードファームウェアとは、既存の装置内ＬＡＮを使用して通信を行っている。各カードファームウェアは、ＭＣＵに対して装置内ＬＡＮ経由で定期的にＨｅｌｌｏパケットを送信する（Ｓ９）。

ＭＣＵは、Ｈｅｌｌｏパケットの受信チェックを定期的に行い、一定期間、Ｈｅｌｌｏパケットが受信されず、かつ、ハードウェアバス経由のメモリチェック（前述のシーケンス（Ｓ１），（Ｓ２）によるチェック）が正常である場合に、ＭＣＵとカードファームウェア間の通信異常と判断する（Ｓ１０）。該通信異常を検出した場合、通信異常となったカードの監視制御のファームウェアの代行処理を開始する（Ｓ１１）。

〔４〕異常カードファームウェアの代行処理の動作
ＭＣＵにおいて異常を検出したカードファームウェアの代行処理の動作シーケンス例を図６に示す。ＭＣＵは、カードＡの異常を検出したとすると（Ｓ１２）、カードＡに対するＭＣＵ側からの制御とカードＡのカードファームウェアによる制御との競合を防止するために、カードＡ上で動作するカードファームウェアを強制的に停止させる（Ｓ１３）。

カードＡのファームウェアの動作停止は、カードＡに割り当てられたメモリ領域に、ファームウェアの動作停止を要求するコードをＭＣＵが書き込み、カードＡのファームウェアは、自身のメモリ領域を参照して、動作停止を要求するコードが書き込まれていることを検出すると、処理を停止する。

ＭＣＵは、カードＡのファームウェアの動作停止を、Ｈｅｌｌｏパケットの受信がなく、かつ、ハードウェアバス経由のメモリ更新が行われなくなることにより確認する。ＭＣＵは、カードファームウェアの動作停止を確認した後に、カードＡのカード種別より、ＭＣＵのメモリ（ＲＡＭ）領域上に展開するファームウェアを確定する（Ｓ１４）。

ＭＣＵは、展開するファームウェアの確定後、ＭＣＵのメモリ（ＲＡＭ）領域上にカードＡのファームウェアをロードする（Ｓ１５）。該ファームウェアのロード完了後に、ＭＣＵ側で保持しているカードＡのデータベース（ＤＢ）情報を基に、ＭＣＵからハードウェアバス経由によりカードＡに対してデータ設定を行う（Ｓ１６）。該データ設定の完了後に、ＭＣＵからハードウェアバス経由によりカードＡの監視制御を代行する（Ｓ１７）。

〔５〕カードファームウェア異常状態からの正常復旧検出の動作
ＭＣＵにおいて異常状態のカードファームウェアの正常復旧を検出する動作シーケンス例を図７〜図１０に示す。ＭＣＵは、異常が検出されたカードファームウェアの正常復旧を検出するため、該カードファームウェアに対する強制リセットを定期的に実施する。該強制リセットは、ハードウェアバスを経由して、当該カード対応のレジスタに強制リセットのコードを設定して行う。

図７に示すように、ＭＣＵによる強制リセットの実施（Ｓ１８）の後、一定期間内に当該カードファームウェアからのＨｅｌｌｏパケットの受信がなく（Ｓ１９）、かつ、ハードウェアバス経由のメモリ更新も行われなく（Ｓ２０）、ＭＣＵからのメモリ更新が正常に行われる（Ｓ２１）場合は、当該カードのファームウェアは異常状態が継続していると判断する（Ｓ２２）。

一方、図８に示すように、ＭＣＵによる強制リセットの実施（Ｓ１８）の後、一定期間内に当該カードファームウェアからのＨｅｌｌｏパケットの受信はないが（Ｓ１９）、ハードウェアバス経由のメモリ更新が正常に行われる（Ｓ２３）場合は、ＭＣＵとカードファームウェアとの間の通信異常状態と判断し（Ｓ２４）、再度当該カードファームウェアの動作停止を要求する（Ｓ２５）。

また、図９に示すように、ＭＣＵによる強制リセットの実施（Ｓ１８）の後、一定期間内に当該カードファームウェアからのＨｅｌｌｏパケットの受信があり（Ｓ２６）、ハードウェアバス経由のメモリ更新が行われない（Ｓ２７）状態で、ＭＣＵからのメモリ更新した結果が正常に参照できる（Ｓ２８）場合は、当該カードファームウェアの異常と判断し（Ｓ２９）、再度当該カードファームウェアの動作停止を要求（Ｓ３０）する。

そして、図１０に示すように、ＭＣＵによる強制リセットの実施（Ｓ１８）の後、一定期間内に当該カードファームウェアからのＨｅｌｌｏパケットの受信があり（Ｓ２６）、かつ、ハードウェアバス経由のメモリ更新が正常に行われる（Ｓ３１）場合は、当該カードファームウェアが正常に起動できたと判断し（Ｓ３２）、ＭＣＵ側の代行処理を停止し、メモリ空間上に展開していたファームウェアをクリアする（Ｓ３３）。

その後、ＭＣＵ側で保持している当該カードのデータベース（ＤＢ）情報を当該カードファームウェアに転送する（Ｓ３４）。該データベース（ＤＢ）情報を受信したカードファームウェアは、該データベース（ＤＢ）情報に従い、データ設定（Ｓ３５）を行った後に、監視制御（警報やパフォーマンスの情報収集等）（Ｓ３６）を行い、通常のカードファームウェア処理を行う。

〔６〕複数カード同時故障時の代行処理の動作
ＭＣＵにおいて同時に複数カードの異常を検出したときの代行処理の動作シーケンス例を図１１に示す。ＭＣＵにおいて、カードＡ、カードＢ及びカードＣの複数のカードの異常を、同一周期内で検出（Ｓ３７）した場合、以下の優先度に従い、代行処理を行うカードを判別する。ここで、カードＡは冗長カードなしで１０Ｇｂｐｓの信号容量を収容し、カードＢは冗長カードなしで２．４Ｇｂｐｓの信号容量を収容し、カードＣは冗長カードありで１０Ｇｂｐｓの信号容量を収容しているものとする。

まず、異常が検出されたカードＡ〜Ｃに対して冗長カードの有無をチェックする（Ｓ３８）。冗長カードが無い場合、カード内の信号に支障をきたす影響を与える可能性が高いために、最優先で代行処理を行う。上述の例の場合、最優先で代行処理を行う対象カードは、カードＡ及びカードＢとなる。

代行処理を行う対象カードが複数枚検出される場合は、次の処理として、対象カードが収容している信号容量をチェックする（Ｓ３９）。信号容量が多いほど、通信サービスに与える影響が大きいため、収容している信号容量の大きいカードを最優先で代行処理の対象とする。その結果、カードＡの代行処理を実施する（Ｓ４０）。

〔７〕代行処理中に新たなカード異常検出時の代行処理の動作
代行処理中に新たなカード異常を検出した場合の動作シーケンス例を図１２〜図１４に示す。代行処理中に新たなカード異常を検出した場合は、以下のように優先度に従い、代行処理を行うカードを判別する。

図１２に示すように、カードＢ（冗長カード無し、２．４Ｇｂｐｓ収容）の代行処理を行っている状態（Ｓ４１）で、カードＣ（冗長カード有り、１０Ｇｂｐｓ収容）のカード異常を検出（Ｓ４２）した場合は、まず、異常検出したカードＣの冗長性のチェックを行う（Ｓ４３）。カードＢが「冗長カード無し」でカードＣが「冗長カード有り」であり、カードＢの優先度が高いと判定し（Ｓ４４）、カードＢの代行処理を継続する（Ｓ４５）。

次に図１３に示すように、カードＢ（冗長カード無し、２．４Ｇｂｐｓ収容）の代行処理を行っている状態（Ｓ４６）で、カードＤ（冗長カード無し、６００Ｍｂｐｓ収容）のカード異常を検出（Ｓ４７）した場合、まず冗長性チェックを行う（Ｓ４８）。冗長性チェックでは両者とも冗長カード無しで同一であると判断し（Ｓ４９）、次に、収容している信号容量のチェックを行う（Ｓ５０）。カードＢが「２．４Ｇｂｐｓ収容」で、カードＤが「６００Ｍｂｐｓ収容」であるため、カードＢの優先度が高いと判断し、カードＢの代行処理を継続する（Ｓ５１）。

次に図１４に示すように、カードＢ（冗長カード無し、２．４Ｇｂｐｓ収容）のカードの代行処理を行っている状態（Ｓ５２）で、カードＡ（冗長カード無し、１０Ｇｂｐｓ収容）のカード異常を検出（Ｓ５３）した場合、まず冗長性チェックを行う（Ｓ５４）。冗長性チェックではカードＡ及びカードＢは共に冗長カード無しで同一であると判定し（Ｓ５５）、次に、収容している信号容量のチェックを行う（Ｓ５６）。カードＢが「２．４Ｇｂｐｓ収容」で、カードＡが「１０Ｇｂｐｓ収容」であるので、カードＡの優先度が高いと判断し、カードＢの代行処理を停止し（Ｓ５７）、カードＡの代行処理を行う（Ｓ５８）。

〔８〕複数カード同時故障時の代行処理終了後の動作
複数カードの同時異常検出時に代行処理を行った後の動作シーケンス例を図１５に示す。ＭＣＵにおいてカードＡ、カードＢ及びカードＣの異常を同一周期内で検出し（Ｓ５９）、冗長性チェックで対象カードをカードＡ又はカードＢと判定し（Ｓ６０）、信号容量のチェックで対象カードをカードＡと判定し（Ｓ６１）、カードＡの代行処理を実施する（Ｓ６２）。

ここで、カードＡ〜Ｃは前述のとおり、カードＡは冗長カード無しで１０Ｇｂｐｓの信号容量を収容し、カードＢは冗長カード無しで２．４Ｇｂｐｓの信号容量を収容し、カードＣは冗長カード有りで１０Ｇｂｐｓの信号容量を収容しているものとする。また、カードＤは冗長カード無しで６００Ｍｂｐｓの信号容量を収容しているものとする。

カードＡ〜Ｃの異常検出時には、カードＡの優先度が高いため、カードＡの代行処理を行う。その後、カードＡのファームウェア異常が復旧（Ｓ６３）した場合に、ＭＣＵはカードＡの代行処理を停止し（Ｓ６４）、カードＢ、カードＣ及びカードＤの異常を同一周期内で検出する（Ｓ６５）。

カードＢ、カードＣ及びカードＤに対して、新たに代行処理を行うカードの判定を行い、その中から、冗長カードの有無、収容する信号容量の優先度に基づいて、代行するカードを決定し（Ｓ６６）、カードＢを代行処理対象カードと判定し、カードＢの代行処理を行う（Ｓ６７）。

１０ユーザレイヤ部
２０マネージメントレイヤ部
３０コントロールレイヤ部
３１警報監視部
３１１ＭＣＵの警報処理の機能
３１２カードＮの警報処理の機能
３２パフォーマンス監視部
３２１ＭＣＵのパフォーマンス（ＰＭ）処理の機能
３２２カードＮのパフォーマンス（ＰＭ）処理の機能
３３カード制御部
３３１ＭＣＵの環境設定（Ｃｏｎｆｉｇ）処理の機能
３３２カードＮの環境設定（Ｃｏｎｆｉｇ）処理の機能
４０プラットフォームレイヤ部
４１カード間通信部
４２実装管理部
４２１ＭＣＵの実装処理の機能
４２２カードＮの実装処理の機能
４３ハードウェアアクセス部
４３１ＭＣＵのアクセス処理の機能
４３２カードＮのアクセス処理の機能

Claims

装置全体のメイン制御を司るメインＣＰＵであるＭＣＵと、装置内の各カードに実装され各カード固有の機能の処理を各カードのＣＰＵで実行する各カードファームウェアとを有するマルチＣＰＵ構成装置において、
前記ＭＣＵで、前記各カードファームウェアの異常を検出する異常検出手段と、
前記異常が検出されたとき、前記ＭＣＵは該異常が検出されたカードファームウェアを該ＭＣＵに割り当てられた空きメモリ領域にロードするとともに、前記ＭＣＵで保持している前記カードファームウェアの異常が検出されたカードのデータベース情報を基に、前記ＭＣＵからハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対してデータ設定を行い、前記ＭＣＵから前記ハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対する監視制御を代行して処理する代行処理手段と、
を備えたことを特徴とするマルチＣＰＵ構成装置。
装置全体のメイン制御を司る上位側のメインＣＰＵであるＭＣＵと、装置内の各カードに実装され各カード固有の機能の処理を各カードのＣＰＵで実行する各カードファームウェアとを有するマルチＣＰＵ構成装置の監視制御方法において、
前記ＭＣＵで、前記各カードファームウェアの異常を検出する異常検出過程と、
前記異常が検出されたとき、前記ＭＣＵは該異常が検出されたカードファームウェアを該ＭＣＵに割り当てられた空きメモリ領域にロードするとともに、前記ＭＣＵで保持している前記カードファームウェアの異常が検出されたカードのデータベース情報を基に、前記ＭＣＵからハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対してデータ設定を行い、前記ＭＣＵから前記ハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対する監視制御を代行して処理する代行処理過程と、
を含むことを特徴とするマルチＣＰＵ構成装置の監視制御方法。
前記異常検出過程は、前記ＭＣＵ及び前記各カードファームウェアからハードウェアバス経由でアクセスして値を参照及び設定することができるメモリ空間上に、前記各カードファームウェアにより周期的に値をインクリメントして設定するメモリ更新過程と、
前記ＭＣＵにより、前記メモリ更新過程で前記メモリ空間上に設定された値を参照し、該値が一定期間変化しないときに、前記ＭＣＵから前記メモリ空間上に該値と異なる値を設定した後、該メモリ空間上に設定した値を参照し、該ＭＣＵから設定した値と同一の値が参照されたとき、前記カードファームウェアの異常として検出するメモリ参照過程と、
を含むことを特徴とする請求項２に記載のマルチＣＰＵ構成装置の監視制御方法。
前記異常検出過程は、前記ＭＣＵと前記各カードファームウェアとの間を接続する装置内ＬＡＮを経由して、前記各カードファームウェアから前記ＭＣＵに定期的にＨｅｌｌｏパケットを送信するパケット送信過程と、
前記ＭＣＵで、一定期間、前記カードファームウェアからのＨｅｌｌｏパケットが受信されないときに、該カードファームウェアの通信機能の異常として検出するパケット受信確認過程と、
を含むことを特徴とする請求項３に記載のマルチＣＰＵ構成装置の監視制御方法。
前記異常検出過程において、前記ＭＣＵは、前記ハードウェアバス経由により参照する前記メモリ空間上の値が一定期間変化しないときは、前記カードファームウェアの異常と判定し、
前記ハードウェアバス経由により参照する前記メモリ空間上の値が一定期間内に変化し、前記装置内ＬＡＮ経由で前記Ｈｅｌｌｏパケットが一定期間受信されないときに、前記カードファームウェアとの間の通信機能の異常と判定し、
前記Ｈｅｌｌｏパケットが一定期間受信されず、かつ前記メモリ空間上の値が一定期間変化しないときは、前記カードファームウェアの異常と判定することを特徴とする請求項４に記載のマルチＣＰＵ構成装置の監視制御方法。
前記通信機能の異常の検出時に、該通信機能の異常のカードのカードファームウェアの処理を強制的に停止させる強制停止過程を含むことを特徴とする請求項４又は請求項５に記載のマルチＣＰＵ構成装置の監視制御方法。