JP5576096B2 - マルチcpu構成装置及びその監視制御方法 - Google Patents
マルチcpu構成装置及びその監視制御方法 Download PDFInfo
- Publication number
- JP5576096B2 JP5576096B2 JP2009260759A JP2009260759A JP5576096B2 JP 5576096 B2 JP5576096 B2 JP 5576096B2 JP 2009260759 A JP2009260759 A JP 2009260759A JP 2009260759 A JP2009260759 A JP 2009260759A JP 5576096 B2 JP5576096 B2 JP 5576096B2
- Authority
- JP
- Japan
- Prior art keywords
- card
- mcu
- abnormality
- firmware
- card firmware
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
は以下のものが存在する。
このマルチCPU構成装置は、装置の監視制御を行う上位側のMCUと下位側のカードファームウェアにて構成される装置において、MCUによりカードファームウェアの異常を検出し、異常検出時に、当該カードファームウェアが行っていたカード固有機能の処理をMCUで代行する。即ち、カードファームウェア異常時に、該当カードのファームウェアを、MCU上の空きメモリ空間上にロードし、MCUがハードウェアバスを経由して該当カードの監視制御を代行して処理する。
カードファームウェアの異常の検出手法として、MCU及びカードファームウェアからハードウェアバス経由により制御(参照/設定)することができるメモリ空間上に、カードファームウェアにより周期的に増加(インクリメント)する値の設定を行う。MCUは、該メモリ空間に設定された値を参照し、その値が一定期間変化しない状態のときに、メモリの異常チェックのためにMCUからメモリ更新し、その結果が正常に参照できる場合は、カードファームウェア異常として検出する。
MCUとカードファームウェアとの通信異常の検出手法として、MCUとカードファームウェアとを接続する装置内LANを経由して、カードファームウェアからMCUに対して定期的にHelloパケットを送信する。MCUは、一定期間、カードファームウェアからのHelloパケットが受信されない場合に、MCUとカードファームウェアとの間の通信異常として検出する。
MCUでカードファームウェアからのHelloパケットの受信が一定期間行われない場合のみ、MCUとカードファームウェアとの間の通信異常と判別し、ハードウェアバス経由のメモリの参照値が一定期間変化しない場合は、カードファームウェア異常と判別する。Helloパケット受信が行われず、かつメモリの参照値が一定期間変化しない場合は、カードファームウェア異常と判別する。
MCUとカードファームウェアとの通信異常の検出時は、カードファームウェアは正常に動作しているため、MCUで代行処理を行った際に、MCUからの代行処理とカードファームウェアの処理とが競合し、正常に監視制御を行うことができない可能性が生じる。そのため、MCUからの代行処理を行う場合、カード上で動作しているカードファームウェアによる処理を強制的に停止させる。
MCUにおいて配下のカードファームウェアの異常を検出する動作シーケンスの例を図2に示す。MCUにおけるカードファームウェアの異常の検出は、既存のハードウェアバスを介してMCU及びカードファームウェアの両者から制御(参照/設定)可能なメモリ空間を使用して検出する。
MCUにおいて配下のカードの異常を検出する動作シーケンスの例を図4に示す。カード異常の検出のシーケンスは、前述のカードファームウェア異常検出の動作シーケンスにおける(S1)から(S4)まで同様である。シーケンス(S4)において、MCUからメモリ更新を行った値が参照できない場合、カードのハードウェア異常と判断する(S7)。カードのハードウェアが異常であるため、代行処理を行ってもハードウェアに対する監視制御が不能であるので、従来の処理と同様に、カード全体の異常故障(FLT)として保守者に通知する(S8)。
MCUにおいて配下のカードファームウェアとの間の通信異常を検出する動作シーケンスの例を図5に示す。MCUとカードファームウェアとは、既存の装置内LANを使用して通信を行っている。各カードファームウェアは、MCUに対して装置内LAN経由で定期的にHelloパケットを送信する(S9)。
MCUにおいて異常を検出したカードファームウェアの代行処理の動作シーケンス例を図6に示す。MCUは、カードAの異常を検出したとすると(S12)、カードAに対するMCU側からの制御とカードAのカードファームウェアによる制御との競合を防止するために、カードA上で動作するカードファームウェアを強制的に停止させる(S13)。
MCUにおいて異常状態のカードファームウェアの正常復旧を検出する動作シーケンス例を図7〜図10に示す。MCUは、異常が検出されたカードファームウェアの正常復旧を検出するため、該カードファームウェアに対する強制リセットを定期的に実施する。該強制リセットは、ハードウェアバスを経由して、当該カード対応のレジスタに強制リセットのコードを設定して行う。
MCUにおいて同時に複数カードの異常を検出したときの代行処理の動作シーケンス例を図11に示す。MCUにおいて、カードA、カードB及びカードCの複数のカードの異常を、同一周期内で検出(S37)した場合、以下の優先度に従い、代行処理を行うカードを判別する。ここで、カードAは冗長カードなしで10Gbpsの信号容量を収容し、カードBは冗長カードなしで2.4Gbpsの信号容量を収容し、カードCは冗長カードありで10Gbpsの信号容量を収容しているものとする。
代行処理中に新たなカード異常を検出した場合の動作シーケンス例を図12〜図14に示す。代行処理中に新たなカード異常を検出した場合は、以下のように優先度に従い、代行処理を行うカードを判別する。
複数カードの同時異常検出時に代行処理を行った後の動作シーケンス例を図15に示す。MCUにおいてカードA、カードB及びカードCの異常を同一周期内で検出し(S59)、冗長性チェックで対象カードをカードA又はカードBと判定し(S60)、信号容量のチェックで対象カードをカードAと判定し(S61)、カードAの代行処理を実施する(S62)。
20 マネージメントレイヤ部
30 コントロールレイヤ部
31 警報監視部
311 MCUの警報処理の機能
312 カードNの警報処理の機能
32 パフォーマンス監視部
321 MCUのパフォーマンス(PM)処理の機能
322 カードNのパフォーマンス(PM)処理の機能
33 カード制御部
331 MCUの環境設定(Config)処理の機能
332 カードNの環境設定(Config)処理の機能
40 プラットフォームレイヤ部
41 カード間通信部
42 実装管理部
421 MCUの実装処理の機能
422 カードNの実装処理の機能
43 ハードウェアアクセス部
431 MCUのアクセス処理の機能
432 カードNのアクセス処理の機能
Claims (6)
- 装置全体のメイン制御を司るメインCPUであるMCUと、装置内の各カードに実装され各カード固有の機能の処理を各カードのCPUで実行する各カードファームウェアとを有するマルチCPU構成装置において、
前記MCUで、前記各カードファームウェアの異常を検出する異常検出手段と、
前記異常が検出されたとき、前記MCUは該異常が検出されたカードファームウェアを該MCUに割り当てられた空きメモリ領域にロードするとともに、前記MCUで保持している前記カードファームウェアの異常が検出されたカードのデータベース情報を基に、前記MCUからハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対してデータ設定を行い、前記MCUから前記ハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対する監視制御を代行して処理する代行処理手段と、
を備えたことを特徴とするマルチCPU構成装置。 - 装置全体のメイン制御を司る上位側のメインCPUであるMCUと、装置内の各カードに実装され各カード固有の機能の処理を各カードのCPUで実行する各カードファームウェアとを有するマルチCPU構成装置の監視制御方法において、
前記MCUで、前記各カードファームウェアの異常を検出する異常検出過程と、
前記異常が検出されたとき、前記MCUは該異常が検出されたカードファームウェアを該MCUに割り当てられた空きメモリ領域にロードするとともに、前記MCUで保持している前記カードファームウェアの異常が検出されたカードのデータベース情報を基に、前記MCUからハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対してデータ設定を行い、前記MCUから前記ハードウェアバスを経由して前記カードファームウェアの異常が検出されたカードに対する監視制御を代行して処理する代行処理過程と、
を含むことを特徴とするマルチCPU構成装置の監視制御方法。 - 前記異常検出過程は、前記MCU及び前記各カードファームウェアからハードウェアバス経由でアクセスして値を参照及び設定することができるメモリ空間上に、前記各カードファームウェアにより周期的に値をインクリメントして設定するメモリ更新過程と、
前記MCUにより、前記メモリ更新過程で前記メモリ空間上に設定された値を参照し、該値が一定期間変化しないときに、前記MCUから前記メモリ空間上に該値と異なる値を設定した後、該メモリ空間上に設定した値を参照し、該MCUから設定した値と同一の値が参照されたとき、前記カードファームウェアの異常として検出するメモリ参照過程と、
を含むことを特徴とする請求項2に記載のマルチCPU構成装置の監視制御方法。 - 前記異常検出過程は、前記MCUと前記各カードファームウェアとの間を接続する装置内LANを経由して、前記各カードファームウェアから前記MCUに定期的にHelloパケットを送信するパケット送信過程と、
前記MCUで、一定期間、前記カードファームウェアからのHelloパケットが受信されないときに、該カードファームウェアの通信機能の異常として検出するパケット受信確認過程と、
を含むことを特徴とする請求項3に記載のマルチCPU構成装置の監視制御方法。 - 前記異常検出過程において、前記MCUは、前記ハードウェアバス経由により参照する前記メモリ空間上の値が一定期間変化しないときは、前記カードファームウェアの異常と判定し、
前記ハードウェアバス経由により参照する前記メモリ空間上の値が一定期間内に変化し、前記装置内LAN経由で前記Helloパケットが一定期間受信されないときに、前記カードファームウェアとの間の通信機能の異常と判定し、
前記Helloパケットが一定期間受信されず、かつ前記メモリ空間上の値が一定期間変化しないときは、前記カードファームウェアの異常と判定することを特徴とする請求項4に記載のマルチCPU構成装置の監視制御方法。 - 前記通信機能の異常の検出時に、該通信機能の異常のカードのカードファームウェアの処理を強制的に停止させる強制停止過程を含むことを特徴とする請求項4又は請求項5に記載のマルチCPU構成装置の監視制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009260759A JP5576096B2 (ja) | 2009-11-16 | 2009-11-16 | マルチcpu構成装置及びその監視制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009260759A JP5576096B2 (ja) | 2009-11-16 | 2009-11-16 | マルチcpu構成装置及びその監視制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011107868A JP2011107868A (ja) | 2011-06-02 |
JP5576096B2 true JP5576096B2 (ja) | 2014-08-20 |
Family
ID=44231281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009260759A Expired - Fee Related JP5576096B2 (ja) | 2009-11-16 | 2009-11-16 | マルチcpu構成装置及びその監視制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5576096B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6697102B1 (ja) * | 2019-01-23 | 2020-05-20 | Necプラットフォームズ株式会社 | 情報処理装置、情報処理装置の制御方法、及び、情報処理装置の制御プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07219812A (ja) * | 1994-01-28 | 1995-08-18 | Meidensha Corp | 異常監視方式 |
JP3942216B2 (ja) * | 1996-11-21 | 2007-07-11 | 富士通株式会社 | 二重化された監視/制御プロセッサによるシステム監視・制御方法およびシステム監視・制御装置 |
JP2859229B2 (ja) * | 1996-12-10 | 1999-02-17 | 日本電気移動通信株式会社 | 監視制御装置 |
-
2009
- 2009-11-16 JP JP2009260759A patent/JP5576096B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011107868A (ja) | 2011-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1650653B1 (en) | Remote enterprise management of high availability systems | |
JP5564956B2 (ja) | 情報処理装置及び情報処理装置のファームウェア更新方法 | |
JP4940967B2 (ja) | ストレージシステム、ストレージ装置、ファームウェアの活性交換方法、ファームウェアの活性交換プログラム | |
GB2407887A (en) | Automatically modifying fail-over configuration of back-up devices | |
GB2418040A (en) | Monitoring a high availability cluster using a smart card | |
CN111143044B (zh) | 任务调度管理系统、方法、装置及其可存储介质 | |
US11848889B2 (en) | Systems and methods for improved uptime for network devices | |
US8145952B2 (en) | Storage system and a control method for a storage system | |
CA2616229A1 (en) | Redundant systems management frameworks for network environments | |
TW200426571A (en) | Policy-based response to system errors occurring during os runtime | |
WO2015033433A1 (ja) | ストレージ装置及び障害部位特定方法 | |
CN108243031B (zh) | 一种双机热备的实现方法及装置 | |
US8732531B2 (en) | Information processing apparatus, method of controlling information processing apparatus, and control program | |
JP5576096B2 (ja) | マルチcpu構成装置及びその監視制御方法 | |
US9367515B1 (en) | Managing adaptive reboots on multiple storage processors | |
CN116069373A (zh) | 一种bmc固件升级方法、装置及其介质 | |
JP4495248B2 (ja) | 情報処理装置、障害処理方法 | |
JP2009026182A (ja) | プログラム実行システム及び実行装置 | |
Cisco | Operational Traps | |
Cisco | Operational Traps | |
Cisco | Operational Traps | |
Cisco | Operational Traps | |
Cisco | Operational Traps | |
JP3020402B2 (ja) | 状態情報収集システム及び状態管理システム | |
CN111416721A (zh) | 运用于数据中心的机柜异常状态的远端排除方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110915 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120711 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140701 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140703 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5576096 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |