JP5576096B2 - マルチcpu構成装置及びその監視制御方法 - Google Patents

マルチcpu構成装置及びその監視制御方法 Download PDF

Info

Publication number
JP5576096B2
JP5576096B2 JP2009260759A JP2009260759A JP5576096B2 JP 5576096 B2 JP5576096 B2 JP 5576096B2 JP 2009260759 A JP2009260759 A JP 2009260759A JP 2009260759 A JP2009260759 A JP 2009260759A JP 5576096 B2 JP5576096 B2 JP 5576096B2
Authority
JP
Japan
Prior art keywords
card
mcu
abnormality
firmware
card firmware
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009260759A
Other languages
English (en)
Other versions
JP2011107868A (ja
Inventor
康孝 長田
直勝 大川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Fujitsu Telecom Networks Ltd
Original Assignee
Fujitsu Ltd
Fujitsu Telecom Networks Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, Fujitsu Telecom Networks Ltd filed Critical Fujitsu Ltd
Priority to JP2009260759A priority Critical patent/JP5576096B2/ja
Publication of JP2011107868A publication Critical patent/JP2011107868A/ja
Application granted granted Critical
Publication of JP5576096B2 publication Critical patent/JP5576096B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、マルチCPU構成装置及びその監視制御方法に関する。本発明は、例えば、装置の監視/制御を行う上位側のメインCPUと、各カードに搭載され各カードの固有機能の処理を行う下位側のCPUとを備えたマルチCPU構成の伝送装置等における監視制御に好適に適用される。
一般的に伝送装置等は、市場動向や通信容量の需要に応じて種々の機能及び容量をサポートするカードが順次開発され拡張される構成を採る場合が多い。この場合、メイン制御を司る上位側のメインCPU(以下、MCUと記述する。)は、継続して使用されることなる。
しかし、近年の伝送装置(例.Ether(登録商標)/IP装置、波長分割多重装置、時分割多重装置等)は、通信容量が飛躍的に増大し、またIP系の新規機能要求が増加するなどして、各カードのハードウェアで機能/容量をサポートしたとしても、各カードの監視制御等の処理を1つのMCUで行うことが困難な情況である。
そこで最近では、各カードにもCPUを搭載し、カード固有機能(カード内の警報監視、パフォーマンスモニタ処理等)については、各カードのCPU上で動作するカードファームウェアで処理を行い、処理結果をMCUに通知する構成(マルチCPU構成)が採用されている。
MCUと各カードの実装構成例を図18に示す。MCU101と各カード102は、互いに装置内LAN(Local Area Network)103で接続されている。また、MCU101及び各カード102は、ハードウェアバス104を介してメモリ105及びレジスタ106にアクセスしてデータの書き込み及び読み出しを行うことが可能な構成となっている。ここで、各カード102としてカードA〜カードNが実装されているものとする。
従来のMCU上のファームウェア構成例を図16に、また、各カード(例としてカードA)のCPU上のファームウェア構成例を図17に示す。図16及び図17において、ユーザレイヤ部10は、監視制御システムにおける図示省略の外部保守端末との間のコマンドインタフェース処理の機能を有し、当該装置へのアクセス管理、コマンド受付、コマンド応答の返送等を行う。
マネージメントレイヤ部20は、コマンド処理、警報通知処理、データベース(DB)管理処理、ソフトウェアダウンロード(SWDL)の機能を有する。コマンド処理の機能は、ユーザレイヤ部10で受信したコマンドを解析し、下位レイヤへの振り分けを行う。また、下位レイヤからの処理結果に従い、受信コマンドに対するレスポンスを生成し、ユーザレイヤ部10に通知する。
警報通知処理の機能は、下位レイヤからの警報通知に従い、装置内警報データの縮退を行った後、ユーザレイヤ部10へ通知する。データベース管理の機能は、コマンド処理結果を基にデータベースへの反映及び管理を行う。ソフトウェアダウンロード(SWDL)の機能は、各カードのファームウェアをダウンロードする。
なお、ユーザレイヤ部10及びマネージメントレイヤ部20は、MCUには実装され動作するが、各カードには実装されず、各カードでは動作しない。コントロールレイヤ部30及びプラットフォームレイヤ部は、MCU及び各カードに実装され、MCU及び各カードでそれぞれ個別の処理を実行する。
コントロールレイヤ部30は、警報監視部31、パフォーマンス監視部32、カード制御部33を備える。警報監視部31は、警報処理においてプラットフォームレイヤ部40を介して、MCU及び各カードの該当レジスタのポーリングを行い、警報状態の監視を行う。警報発生時は、警報管理部によりカード内の警報データの縮退を行った後、マネージメントレイヤ部20に通知する。
パフォーマンス監視部31は、パフォーマンス(PM)処理において、プラットフォームレイヤ部40を介して、MCU及び各カードの該当レジスタのポーリングを行い、一部ソフトウェアによるカウン値の収集を行う。PM管理部では、各パフォーマンス監視項目に従い、カウント値を累計し管理する。マネージメントレイヤ部20からの要求により、該当するパフォーマンス監視項目のカウント値を通知する。
カード制御部33は、環境設定(Config)処理において、マネージメントレイヤ部20からの要求による設定内容、設定シーケンスを管理し、プラットフォームレイヤ部40を介して、実ハードウェアへの設定を行う。
プラットフォームレイヤ部40部は、カード間通信部41、実装管理部42、ハードウェアアクセス部43を備える。カード間通信部41は、LANによりMCU及び各カードCPU間の通信の機能を提供する。また、通信相手とキープアライブパケットを送受し、MCU及び各カードCPU間の通信異常を監視する。
実装管理部42は、実装処理において実装状態を認識し、実装後の初期化処理(デフォルト設定等)を実施する。ハードウェアアクセス部43は、アクセス処理において上位レイヤからの要求に従い、MCU及び各カードの該当レジスタにアクセスする。
従来のマルチCPUシステムの監視制御方法として、通常使用されるn個のデジタルコントローラに対して、k個の同等なデジタルコントローラを設け、n+k個の各コントローラにバックアップに必要な他コントローラの処理内容を予め格納し、他コントローラの故障情報により、健全なコントローラがその処理プログラム選択器により処理内容を選択する分散システムのバックアップ方式が提案されている(特許文献1)。
また、他の従来の分散システムバックアップ方式として、上位の計算機で各コントローラのソフトウェアを開発生成すると共に、該ソフトウェア開発情報を保管しておき、コントローラが異常の場合に、該ソフトウェア開発情報に従ってコントローラのバックアップを上位計算機が行う方式が提案されている(特許文献2)。
は以下のものが存在する。
特開昭63−238633号公報 特開平1−258061号公報
装置全体の監視制御の処理を1つのMCUで行っていた場合は、MCUが異常にならない限り、装置内の全てのカードの監視制御を行うことができた。しかし、各カードファームウェアで各カード固有機能の処理を行い、処理結果をMCUに通知するマルチCPU構成の装置では以下のような問題が生じる。
マルチCPU構成の装置において、カードファームウェアが異常、又はMCUとカードファームウェアとの間の通信機能が異常になると、MCUは保守者に対して当該カードの異常を通知し、当該カード全体の監視制御が不能な異常故障(FLT)としてとして扱うこととなる。
そのため、当該カードで発生する全ての警報がカード全体の異常故障(FLT)の警報に縮退されてしまい、カードファームウェアのリセットによる復旧、或いはカード交換等による復旧が行われるまで、MCUによる当該カード上の主信号の監視制御を行うことができなくなる。
その結果、保守者の遠隔操作による異常カードの監視制御を行うことができなくなるという問題があった。本発明は、マルチCPU構成の装置において、カードファームウェアが異常、又はMCUとカードファームウェアとの間の通信機能が異常になった場合でも、MCUによる該異常カードの監視制御を可能にする。
上記課題を解決する第1の側面としてのマルチCPU構成装置は、装置全体のメイン制御を司るメインCPUであるMCUと、装置内の各カードに実装され各カード固有の機能の処理を各カードのCPUで実行する各カードファームウェアとを有するマルチCPU構成装置において、前記MCUで、前記各カードファームウェアの異常を検出する異常検出手段と、前記異常が検出されたとき、前記MCUは該異常が検出されたカードファームウェアを該MCUに割り当てられた空きメモリ領域にロードするとともに、前記MCUで保持している前記カードファームウェアの異常が検出されたカードのデータベース情報を基に、前記MCUからハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対してデータ設定を行い、前記MCUから前記ハードウェアバスを経由して前記カードファームウェアの該異常が検出されたカードに対する監視制御を代行して処理する代行処理手段と、を備えたものである。
また、上記課題を解決する第2の側面としてのマルチCPU構成装置の監視制御方法は、装置全体のメイン制御を司る上位側のメインCPUであるMCUと、装置内の各カードに実装され各カード固有の機能の処理を各カードのCPUで実行する各カードファームウェアとを有するマルチCPU構成装置の監視制御方法において、前記MCUで、前記各カードファームウェアの異常を検出する異常検出過程と、前記異常が検出されたとき、前記MCUは該異常が検出されたカードファームウェアを該MCUに割り当てられた空きメモリ領域にロードするとともに、前記MCUで保持している前記カードファームウェアの異常が検出されたカードのデータベース情報を基に、前記MCUからハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対してデータ設定を行い、前記MCUから前記ハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対する監視制御を代行して処理する代行処理過程と、を含むものである。
従来、カードファームウェアの異常についてカード全体の異常(FLT)を検出して通知するのみであったのに対し、異常カードのカードファームウェアによる処理をMCUで代行することにより、MCUによる該異常カードの監視制御が可能となり、保守者からの異常カードの監視制御を行うことができ、保守性が向上する。
また、各カードに冗長カードを備えていなくても、MCUで異常カードのカードファームウェアによる処理を代行することにより、各カードに冗長カードを備えた構成と同様の信頼性を維持することが可能となる。マルチCPU構成の伝送装置等の保守作業において、装置内の各カード異常時でも可能な限り、収容回線等の救済を行うことが可能になる。
カードファームウェアに異常が発生した場合のMCUのファームウェア構成例を示す図である。 カードファームウェアの異常を検出する動作シーケンス例を示す図である。 メモリ空間の使用例を示す図である。 カードの異常を検出する動作シーケンス例を示す図である。 通信異常を検出する動作シーケンス例を示す図である。 カードファームウェアの代行処理の動作シーケンス例を示す図である。 カードファームウェアの正常復旧を検出する動作シーケンス例を示す図である。 カードファームウェアの正常復旧を検出する動作シーケンス例を示す図である。 カードファームウェアの正常復旧を検出する動作シーケンス例を示す図である。 カードファームウェアの正常復旧を検出する動作シーケンス例を示す図である。 複数カードの異常を検出したときの代行処理の動作シーケンス例を示す図である。 代行処理中に新たなカード異常を検出した場合の動作シーケンス例を示す図である。 代行処理中に新たなカード異常を検出した場合の動作シーケンス例を示す図である。 代行処理中に新たなカード異常を検出した場合の動作シーケンス例を示す図である。 複数カード同時故障時の代行処理終了後の動作シーケンス例を示す図である。 従来のMCU上のファームウェア構成例を示す図である。 各カードのCPU上のファームウェア構成例を示す図である。 MCUと各カードの実装構成例を示す図である。
[1]カードファームウェアの代行処理
このマルチCPU構成装置は、装置の監視制御を行う上位側のMCUと下位側のカードファームウェアにて構成される装置において、MCUによりカードファームウェアの異常を検出し、異常検出時に、当該カードファームウェアが行っていたカード固有機能の処理をMCUで代行する。即ち、カードファームウェア異常時に、該当カードのファームウェアを、MCU上の空きメモリ空間上にロードし、MCUがハードウェアバスを経由して該当カードの監視制御を代行して処理する。
[2]カードファームウェアの異常検出
カードファームウェアの異常の検出手法として、MCU及びカードファームウェアからハードウェアバス経由により制御(参照/設定)することができるメモリ空間上に、カードファームウェアにより周期的に増加(インクリメント)する値の設定を行う。MCUは、該メモリ空間に設定された値を参照し、その値が一定期間変化しない状態のときに、メモリの異常チェックのためにMCUからメモリ更新し、その結果が正常に参照できる場合は、カードファームウェア異常として検出する。
[3]MCUとカードファームウェアとの間の通信異常検出
MCUとカードファームウェアとの通信異常の検出手法として、MCUとカードファームウェアとを接続する装置内LANを経由して、カードファームウェアからMCUに対して定期的にHelloパケットを送信する。MCUは、一定期間、カードファームウェアからのHelloパケットが受信されない場合に、MCUとカードファームウェアとの間の通信異常として検出する。
[4]カードファームウェア異常又は通信異常検出の判別
MCUでカードファームウェアからのHelloパケットの受信が一定期間行われない場合のみ、MCUとカードファームウェアとの間の通信異常と判別し、ハードウェアバス経由のメモリの参照値が一定期間変化しない場合は、カードファームウェア異常と判別する。Helloパケット受信が行われず、かつメモリの参照値が一定期間変化しない場合は、カードファームウェア異常と判別する。
[5]カードファームウェア機能停止
MCUとカードファームウェアとの通信異常の検出時は、カードファームウェアは正常に動作しているため、MCUで代行処理を行った際に、MCUからの代行処理とカードファームウェアの処理とが競合し、正常に監視制御を行うことができない可能性が生じる。そのため、MCUからの代行処理を行う場合、カード上で動作しているカードファームウェアによる処理を強制的に停止させる。
図16、図17及び図18に示した構成例に上述の実施形態を適用した実施例について以下に説明する。一例としてカードNのカードファームウェアに異常が発生した場合のMCUのファームウェア構成例を図1に示す。図1に示すように、MCUのファームウェアは、コントロールレイヤ部30内の警報監視部31に、MCUの警報処理の機能311に加えて、カードNの警報処理の機能312が付加される。
同様に、パフォーマンス監視部32に、MCUのパフォーマンス(PM)処理の機能321に加えて、カードNのパフォーマンス(PM)処理の機能322が付加される。同様に、カード制御部33に、MCUの環境設定(Config)処理の機能331に加えて、カードNの環境設定(Config)処理の機能332が付加される。
また、プラットフォームレイヤ部40部内の実装管理部42に、MCUの実装処理の機能421に加えて、カードNの実装処理の機能422が付加される。また、ハードウェアアクセス部43に、MCUのアクセス処理の機能431に加えて、カードNのアクセス処理の機能432が付加される。
〔1〕カードファームウェア異常検出の動作
MCUにおいて配下のカードファームウェアの異常を検出する動作シーケンスの例を図2に示す。MCUにおけるカードファームウェアの異常の検出は、既存のハードウェアバスを介してMCU及びカードファームウェアの両者から制御(参照/設定)可能なメモリ空間を使用して検出する。
該メモリ空間の使用例を図3に示す。該メモリ空間は、各カードA〜N対応に専用の領域が割り当てられ、各カードA〜Nは、該専用の割り当て領域にアクセスしてメモリの更新を行う。一方、MCUは、各カードA〜Nの専用の割り当て領域の何れにもアクセスし、メモリの参照及び更新を行う。
各カードファームウェアは、定期的にメモリ空間上の割り当て領域に対して、周期的に値を増加(インクリメント)してメモリ更新を行う(S1)。MCUは、周期的にメモリ空間上に割り当てられた対象領域の参照を行い(S2)、一定期間、メモリの値が変化しない場合に、MCUからメモリ空間上の当該割り当て領域に、カードファームウェアから設定する値と異なる値を書き込んでメモリ更新を行う(S3)。MCUは該対象領域の参照を行い(S4)、MCUからメモリ更新を行った値が参照できた場合は、カードファームウェアの異常(メモリの異常ではない)と判断する(S5)。カードファームウェアの異常を検出した場合、該カードのファームウェアの代行処理を開始する(S6)。
〔2〕カード異常検出の動作
MCUにおいて配下のカードの異常を検出する動作シーケンスの例を図4に示す。カード異常の検出のシーケンスは、前述のカードファームウェア異常検出の動作シーケンスにおける(S1)から(S4)まで同様である。シーケンス(S4)において、MCUからメモリ更新を行った値が参照できない場合、カードのハードウェア異常と判断する(S7)。カードのハードウェアが異常であるため、代行処理を行ってもハードウェアに対する監視制御が不能であるので、従来の処理と同様に、カード全体の異常故障(FLT)として保守者に通知する(S8)。
〔3〕MCUとカードファームウェア間の通信異常検出の動作
MCUにおいて配下のカードファームウェアとの間の通信異常を検出する動作シーケンスの例を図5に示す。MCUとカードファームウェアとは、既存の装置内LANを使用して通信を行っている。各カードファームウェアは、MCUに対して装置内LAN経由で定期的にHelloパケットを送信する(S9)。
MCUは、Helloパケットの受信チェックを定期的に行い、一定期間、Helloパケットが受信されず、かつ、ハードウェアバス経由のメモリチェック(前述のシーケンス(S1),(S2)によるチェック)が正常である場合に、MCUとカードファームウェア間の通信異常と判断する(S10)。該通信異常を検出した場合、通信異常となったカードの監視制御のファームウェアの代行処理を開始する(S11)。
〔4〕異常カードファームウェアの代行処理の動作
MCUにおいて異常を検出したカードファームウェアの代行処理の動作シーケンス例を図6に示す。MCUは、カードAの異常を検出したとすると(S12)、カードAに対するMCU側からの制御とカードAのカードファームウェアによる制御との競合を防止するために、カードA上で動作するカードファームウェアを強制的に停止させる(S13)。
カードAのファームウェアの動作停止は、カードAに割り当てられたメモリ領域に、ファームウェアの動作停止を要求するコードをMCUが書き込み、カードAのファームウェアは、自身のメモリ領域を参照して、動作停止を要求するコードが書き込まれていることを検出すると、処理を停止する。
MCUは、カードAのファームウェアの動作停止を、Helloパケットの受信がなく、かつ、ハードウェアバス経由のメモリ更新が行われなくなることにより確認する。MCUは、カードファームウェアの動作停止を確認した後に、カードAのカード種別より、MCUのメモリ(RAM)領域上に展開するファームウェアを確定する(S14)。
MCUは、展開するファームウェアの確定後、MCUのメモリ(RAM)領域上にカードAのファームウェアをロードする(S15)。該ファームウェアのロード完了後に、MCU側で保持しているカードAのデータベース(DB)情報を基に、MCUからハードウェアバス経由によりカードAに対してデータ設定を行う(S16)。該データ設定の完了後に、MCUからハードウェアバス経由によりカードAの監視制御を代行する(S17)。
〔5〕カードファームウェア異常状態からの正常復旧検出の動作
MCUにおいて異常状態のカードファームウェアの正常復旧を検出する動作シーケンス例を図7〜図10に示す。MCUは、異常が検出されたカードファームウェアの正常復旧を検出するため、該カードファームウェアに対する強制リセットを定期的に実施する。該強制リセットは、ハードウェアバスを経由して、当該カード対応のレジスタに強制リセットのコードを設定して行う。
図7に示すように、MCUによる強制リセットの実施(S18)の後、一定期間内に当該カードファームウェアからのHelloパケットの受信がなく(S19)、かつ、ハードウェアバス経由のメモリ更新も行われなく(S20)、MCUからのメモリ更新が正常に行われる(S21)場合は、当該カードのファームウェアは異常状態が継続していると判断する(S22)。
一方、図8に示すように、MCUによる強制リセットの実施(S18)の後、一定期間内に当該カードファームウェアからのHelloパケットの受信はないが(S19)、ハードウェアバス経由のメモリ更新が正常に行われる(S23)場合は、MCUとカードファームウェアとの間の通信異常状態と判断し(S24)、再度当該カードファームウェアの動作停止を要求する(S25)。
また、図9に示すように、MCUによる強制リセットの実施(S18)の後、一定期間内に当該カードファームウェアからのHelloパケットの受信があり(S26)、ハードウェアバス経由のメモリ更新が行われない(S27)状態で、MCUからのメモリ更新した結果が正常に参照できる(S28)場合は、当該カードファームウェアの異常と判断し(S29)、再度当該カードファームウェアの動作停止を要求(S30)する。
そして、図10に示すように、MCUによる強制リセットの実施(S18)の後、一定期間内に当該カードファームウェアからのHelloパケットの受信があり(S26)、かつ、ハードウェアバス経由のメモリ更新が正常に行われる(S31)場合は、当該カードファームウェアが正常に起動できたと判断し(S32)、MCU側の代行処理を停止し、メモリ空間上に展開していたファームウェアをクリアする(S33)。
その後、MCU側で保持している当該カードのデータベース(DB)情報を当該カードファームウェアに転送する(S34)。該データベース(DB)情報を受信したカードファームウェアは、該データベース(DB)情報に従い、データ設定(S35)を行った後に、監視制御(警報やパフォーマンスの情報収集等)(S36)を行い、通常のカードファームウェア処理を行う。
〔6〕複数カード同時故障時の代行処理の動作
MCUにおいて同時に複数カードの異常を検出したときの代行処理の動作シーケンス例を図11に示す。MCUにおいて、カードA、カードB及びカードCの複数のカードの異常を、同一周期内で検出(S37)した場合、以下の優先度に従い、代行処理を行うカードを判別する。ここで、カードAは冗長カードなしで10Gbpsの信号容量を収容し、カードBは冗長カードなしで2.4Gbpsの信号容量を収容し、カードCは冗長カードありで10Gbpsの信号容量を収容しているものとする。
まず、異常が検出されたカードA〜Cに対して冗長カードの有無をチェックする(S38)。冗長カードが無い場合、カード内の信号に支障をきたす影響を与える可能性が高いために、最優先で代行処理を行う。上述の例の場合、最優先で代行処理を行う対象カードは、カードA及びカードBとなる。
代行処理を行う対象カードが複数枚検出される場合は、次の処理として、対象カードが収容している信号容量をチェックする(S39)。信号容量が多いほど、通信サービスに与える影響が大きいため、収容している信号容量の大きいカードを最優先で代行処理の対象とする。その結果、カードAの代行処理を実施する(S40)。
〔7〕代行処理中に新たなカード異常検出時の代行処理の動作
代行処理中に新たなカード異常を検出した場合の動作シーケンス例を図12〜図14に示す。代行処理中に新たなカード異常を検出した場合は、以下のように優先度に従い、代行処理を行うカードを判別する。
図12に示すように、カードB(冗長カード無し、2.4Gbps収容)の代行処理を行っている状態(S41)で、カードC(冗長カード有り、10Gbps収容)のカード異常を検出(S42)した場合は、まず、異常検出したカードCの冗長性のチェックを行う(S43)。カードBが「冗長カード無し」でカードCが「冗長カード有り」であり、カードBの優先度が高いと判定し(S44)、カードBの代行処理を継続する(S45)。
次に図13に示すように、カードB(冗長カード無し、2.4Gbps収容)の代行処理を行っている状態(S46)で、カードD(冗長カード無し、600Mbps収容)のカード異常を検出(S47)した場合、まず冗長性チェックを行う(S48)。冗長性チェックでは両者とも冗長カード無しで同一であると判断し(S49)、次に、収容している信号容量のチェックを行う(S50)。カードBが「2.4Gbps収容」で、カードDが「600Mbps収容」であるため、カードBの優先度が高いと判断し、カードBの代行処理を継続する(S51)。
次に図14に示すように、カードB(冗長カード無し、2.4Gbps収容)のカードの代行処理を行っている状態(S52)で、カードA(冗長カード無し、10Gbps収容)のカード異常を検出(S53)した場合、まず冗長性チェックを行う(S54)。冗長性チェックではカードA及びカードBは共に冗長カード無しで同一であると判定し(S55)、次に、収容している信号容量のチェックを行う(S56)。カードBが「2.4Gbps収容」で、カードAが「10Gbps収容」であるので、カードAの優先度が高いと判断し、カードBの代行処理を停止し(S57)、カードAの代行処理を行う(S58)。
〔8〕複数カード同時故障時の代行処理終了後の動作
複数カードの同時異常検出時に代行処理を行った後の動作シーケンス例を図15に示す。MCUにおいてカードA、カードB及びカードCの異常を同一周期内で検出し(S59)、冗長性チェックで対象カードをカードA又はカードBと判定し(S60)、信号容量のチェックで対象カードをカードAと判定し(S61)、カードAの代行処理を実施する(S62)。
ここで、カードA〜Cは前述のとおり、カードAは冗長カード無しで10Gbpsの信号容量を収容し、カードBは冗長カード無しで2.4Gbpsの信号容量を収容し、カードCは冗長カード有りで10Gbpsの信号容量を収容しているものとする。また、カードDは冗長カード無しで600Mbpsの信号容量を収容しているものとする。
カードA〜Cの異常検出時には、カードAの優先度が高いため、カードAの代行処理を行う。その後、カードAのファームウェア異常が復旧(S63)した場合に、MCUはカードAの代行処理を停止し(S64)、カードB、カードC及びカードDの異常を同一周期内で検出する(S65)。
カードB、カードC及びカードDに対して、新たに代行処理を行うカードの判定を行い、その中から、冗長カードの有無、収容する信号容量の優先度に基づいて、代行するカードを決定し(S66)、カードBを代行処理対象カードと判定し、カードBの代行処理を行う(S67)。
10 ユーザレイヤ部
20 マネージメントレイヤ部
30 コントロールレイヤ部
31 警報監視部
311 MCUの警報処理の機能
312 カードNの警報処理の機能
32 パフォーマンス監視部
321 MCUのパフォーマンス(PM)処理の機能
322 カードNのパフォーマンス(PM)処理の機能
33 カード制御部
331 MCUの環境設定(Config)処理の機能
332 カードNの環境設定(Config)処理の機能
40 プラットフォームレイヤ部
41 カード間通信部
42 実装管理部
421 MCUの実装処理の機能
422 カードNの実装処理の機能
43 ハードウェアアクセス部
431 MCUのアクセス処理の機能
432 カードNのアクセス処理の機能

Claims (6)

  1. 装置全体のメイン制御を司るメインCPUであるMCUと、装置内の各カードに実装され各カード固有の機能の処理を各カードのCPUで実行する各カードファームウェアとを有するマルチCPU構成装置において、
    前記MCUで、前記各カードファームウェアの異常を検出する異常検出手段と、
    前記異常が検出されたとき、前記MCUは該異常が検出されたカードファームウェアを該MCUに割り当てられた空きメモリ領域にロードするとともに、前記MCUで保持している前記カードファームウェアの異常が検出されたカードのデータベース情報を基に、前記MCUからハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対してデータ設定を行い、前記MCUから前記ハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対する監視制御を代行して処理する代行処理手段と、
    を備えたことを特徴とするマルチCPU構成装置。
  2. 装置全体のメイン制御を司る上位側のメインCPUであるMCUと、装置内の各カードに実装され各カード固有の機能の処理を各カードのCPUで実行する各カードファームウェアとを有するマルチCPU構成装置の監視制御方法において、
    前記MCUで、前記各カードファームウェアの異常を検出する異常検出過程と、
    前記異常が検出されたとき、前記MCUは該異常が検出されたカードファームウェアを該MCUに割り当てられた空きメモリ領域にロードするとともに、前記MCUで保持している前記カードファームウェアの異常が検出されたカードのデータベース情報を基に、前記MCUからハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対してデータ設定を行い、前記MCUから前記ハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対する監視制御を代行して処理する代行処理過程と、
    を含むことを特徴とするマルチCPU構成装置の監視制御方法。
  3. 前記異常検出過程は、前記MCU及び前記各カードファームウェアからハードウェアバス経由でアクセスして値を参照及び設定することができるメモリ空間上に、前記各カードファームウェアにより周期的に値をインクリメントして設定するメモリ更新過程と、
    前記MCUにより、前記メモリ更新過程で前記メモリ空間上に設定された値を参照し、該値が一定期間変化しないときに、前記MCUから前記メモリ空間上に該値と異なる値を設定した後、該メモリ空間上に設定した値を参照し、該MCUから設定した値と同一の値が参照されたとき、前記カードファームウェアの異常として検出するメモリ参照過程と、
    を含むことを特徴とする請求項2に記載のマルチCPU構成装置の監視制御方法。
  4. 前記異常検出過程は、前記MCUと前記各カードファームウェアとの間を接続する装置内LANを経由して、前記各カードファームウェアから前記MCUに定期的にHelloパケットを送信するパケット送信過程と、
    前記MCUで、一定期間、前記カードファームウェアからのHelloパケットが受信されないときに、該カードファームウェアの通信機能の異常として検出するパケット受信確認過程と、
    を含むことを特徴とする請求項3に記載のマルチCPU構成装置の監視制御方法。
  5. 前記異常検出過程において、前記MCUは、前記ハードウェアバス経由により参照する前記メモリ空間上の値が一定期間変化しないときは、前記カードファームウェアの異常と判定し、
    前記ハードウェアバス経由により参照する前記メモリ空間上の値が一定期間内に変化し、前記装置内LAN経由で前記Helloパケットが一定期間受信されないときに、前記カードファームウェアとの間の通信機能の異常と判定し、
    前記Helloパケットが一定期間受信されず、かつ前記メモリ空間上の値が一定期間変化しないときは、前記カードファームウェアの異常と判定することを特徴とする請求項4に記載のマルチCPU構成装置の監視制御方法。
  6. 前記通信機能の異常の検出時に、該通信機能の異常のカードのカードファームウェアの処理を強制的に停止させる強制停止過程を含むことを特徴とする請求項4又は請求項5に記載のマルチCPU構成装置の監視制御方法。
JP2009260759A 2009-11-16 2009-11-16 マルチcpu構成装置及びその監視制御方法 Expired - Fee Related JP5576096B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009260759A JP5576096B2 (ja) 2009-11-16 2009-11-16 マルチcpu構成装置及びその監視制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009260759A JP5576096B2 (ja) 2009-11-16 2009-11-16 マルチcpu構成装置及びその監視制御方法

Publications (2)

Publication Number Publication Date
JP2011107868A JP2011107868A (ja) 2011-06-02
JP5576096B2 true JP5576096B2 (ja) 2014-08-20

Family

ID=44231281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009260759A Expired - Fee Related JP5576096B2 (ja) 2009-11-16 2009-11-16 マルチcpu構成装置及びその監視制御方法

Country Status (1)

Country Link
JP (1) JP5576096B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6697102B1 (ja) * 2019-01-23 2020-05-20 Necプラットフォームズ株式会社 情報処理装置、情報処理装置の制御方法、及び、情報処理装置の制御プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07219812A (ja) * 1994-01-28 1995-08-18 Meidensha Corp 異常監視方式
JP3942216B2 (ja) * 1996-11-21 2007-07-11 富士通株式会社 二重化された監視/制御プロセッサによるシステム監視・制御方法およびシステム監視・制御装置
JP2859229B2 (ja) * 1996-12-10 1999-02-17 日本電気移動通信株式会社 監視制御装置

Also Published As

Publication number Publication date
JP2011107868A (ja) 2011-06-02

Similar Documents

Publication Publication Date Title
EP1650653B1 (en) Remote enterprise management of high availability systems
JP5564956B2 (ja) 情報処理装置及び情報処理装置のファームウェア更新方法
JP4940967B2 (ja) ストレージシステム、ストレージ装置、ファームウェアの活性交換方法、ファームウェアの活性交換プログラム
GB2407887A (en) Automatically modifying fail-over configuration of back-up devices
GB2418040A (en) Monitoring a high availability cluster using a smart card
CN111143044B (zh) 任务调度管理系统、方法、装置及其可存储介质
US11848889B2 (en) Systems and methods for improved uptime for network devices
US8145952B2 (en) Storage system and a control method for a storage system
CA2616229A1 (en) Redundant systems management frameworks for network environments
TW200426571A (en) Policy-based response to system errors occurring during os runtime
WO2015033433A1 (ja) ストレージ装置及び障害部位特定方法
CN108243031B (zh) 一种双机热备的实现方法及装置
US8732531B2 (en) Information processing apparatus, method of controlling information processing apparatus, and control program
JP5576096B2 (ja) マルチcpu構成装置及びその監視制御方法
US9367515B1 (en) Managing adaptive reboots on multiple storage processors
CN116069373A (zh) 一种bmc固件升级方法、装置及其介质
JP4495248B2 (ja) 情報処理装置、障害処理方法
JP2009026182A (ja) プログラム実行システム及び実行装置
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
JP3020402B2 (ja) 状態情報収集システム及び状態管理システム
CN111416721A (zh) 运用于数据中心的机柜异常状态的远端排除方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110915

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120711

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140701

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140703

R150 Certificate of patent or registration of utility model

Ref document number: 5576096

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees