JP2008153735A - 故障被疑装置を特定する方法 - Google Patents

故障被疑装置を特定する方法 Download PDF

Info

Publication number
JP2008153735A
JP2008153735A JP2006336735A JP2006336735A JP2008153735A JP 2008153735 A JP2008153735 A JP 2008153735A JP 2006336735 A JP2006336735 A JP 2006336735A JP 2006336735 A JP2006336735 A JP 2006336735A JP 2008153735 A JP2008153735 A JP 2008153735A
Authority
JP
Japan
Prior art keywords
swc
suc
devices
level
suspicious
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006336735A
Other languages
English (en)
Inventor
Isamu Fukuda
勇 福田
Koji Sugino
孝司 杉野
Jun Ouchi
潤 大内
Soichi Kato
聡一 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006336735A priority Critical patent/JP2008153735A/ja
Publication of JP2008153735A publication Critical patent/JP2008153735A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Exchange Systems With Centralized Control (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)

Abstract

【課題】冗長的に構成されているシステムにおいて故障被疑装置を精度よく特定する。
【解決手段】SUC装置1aは、SWC装置2a、2bに対してそれぞれ制御信号5、6を送信する。SWC装置2aの状態管理部21は、制御信号5に応じて自装置の状態をチェックし、その結果を表す状態信号1、3をそれぞれSUC装置1a、1bへ送信する。同様に、SWC装置2bの状態管理部21は、制御信号6に応じて自装置の状態をチェックし、その結果を表す状態信号2、4をそれぞれSUC装置1a、1bへ送信する。SUC装置1aの状態管理部11は、状態信号1〜4に基づいて、故障の有無を検出すると共に、故障が発生している場合には故障被疑装置を特定する。
【選択図】図1

Description

本発明は、冗長的に構成されているシステムにおいて故障被疑装置を特定する方法に係わる。
通信システム(特に、不特定多数にサービスを提供する大規模公共通信システム)は、しばしば、サービスの停止を回避するために冗長的な構成を導入している。すなわち、運用中の系において故障が発生したときには、スタンバイ系に切り替えてサービスを継続できる構成が導入されていることが多い。
図14は、W−CDMA無線ネットワークの構成を示す図である。無線基地局装置(BTS)は、それぞれ通信タワーを備えており、移動局を収容することができる。無線ネットワーク制御装置(RNC)は、無線基地局装置(BTS)を制御すると共に、移動マルチメディア交換システム(MMS)を介して公衆網に接続される。そして、無線ネットワーク制御装置(RNC)は、一般に、冗長的に構成されている。
図15は、無線ネットワーク制御装置(RNC)の構成を示す図である。この図に示す構成では、信号処理共通部(SUC)、スイッチ制御部(SWC)、無線ネットワーク制御装置共通部(FBC)、クロック制御部(CLK)がそれぞれ冗長的に構成されている。ここで、信号処理共通部(SUC)は、スイッチ制御部(SWC)の上位装置であり、スイッチ制御部(SWC)を制御する。また、スイッチ制御部(SWC)は、無線ネットワーク制御装置共通部(FBC)およびクロック制御部(CLK)の上位装置であり、これらのユニットを制御する。なお、スイッチ制御部(SWC)の配下には、特に図示しないが、無線ネットワーク制御装置共通部およびクロック制御部の他にも様々なユニットが接続される。制御プロセッサ(CP)は、無線ネットワーク制御装置全体を制御するためのプラットフォーム(PF)を備えており、発生した障害を保守センタに通知する機能も備えている。
冗長的に構成されるシステムでは、いずれかの装置において故障が発生しても、予備系装置に切り替えてサービスを継続することができる。そして、故障発生時には、故障被疑装置が特定されて保守者への通知が行われることが期待される。しかし、従来のシステムにおいては、一部のメモリ障害を除くと、状態制御や状態表示等の状態管理動作に関する故障を検出する機能が十分でなかった。このため、故障が内在する状態で運用を継続してしまい、サービス品質の低下やシステムダウン等の重大な障害を引き起こしてしまうおそれがあった。
特に、スタンバイ系に故障が内在している場合には、アクティブ系において障害が発生したときに系切替えが行われると、システム全体が停止してしまうおそれがある。この場合、アクティブ/スタンバイ切替えを行った時点ではじめてスタンバイ系の故障が表面化するので、システムの復旧に長い時間を要することとなる。
次に、図16を参照しながら、従来技術における系監視方法を説明する。なお、図16において、信号処理共通部(SUC)101a、101bは上位装置であり、スイッチ制御部(SWC)102a、102bは、信号処理共通部(SUC)101a、101bの下位装置である。そして、SUC装置101aはSWC装置102a、102bに接続し、SUC装置101bもSWC装置102a、102bに接続している。
SUC装置101a、101bは、状態管理部111、送受信デバイス(N)、送受信デバイス(E)を備える。状態管理部111は、自装置およびSWC装置102a、102bの状態(アクティブ系/スタンバイ系)を制御する機能、SWC装置102a、102bの状態を監視する機能を備える。SWC装置102a、102bは、状態管理部21、送受信デバイス(N)、送受信デバイス(E)を備える。状態管理部21は、SUC装置101a、101bからの指示に従ってアクティブ系またはスタンバイ系を選択する機能、自装置の状態を監視する機能を備える。
上記構成のシステムにおける運用時の監視方法は、例えば、以下の通りである。
1.SUC装置101a、101bの送受信デバイスは、周期的に、SWC装置102a、102bに対して監視信号を送信する。監視信号は、例えば、予め決められたビットパターンを含んで構成される。
2.SWC装置102a、102bの送受信デバイスは、受信した監視信号に欠落あるいはビットエラーがある場合には、監視信号の送信元のSUC装置101a、101bへその障害を通知する。
3.上記1、2をアクティブ系およびスタンバイ系の双方において行い、SUC装置からSWC装置へ向かう経路の故障被疑箇所を特定する。
4.上記1〜3の手順をSWC装置からSUC装置へ向かう経路においても行う。
また、上記構成のシステムにおける組込み時には、アクティブ系のSUC装置とアクティブ系のSWC装置との間でのみ動作チェックが行われていた。なお、「組込み」とは、システムに新たな装置を追加する手順、システム内の装置を交換する手順、システム内の装置に電源を投入する手順、システム内の装置を再起動する手順などを含む概念である。
しかしながら、上述した従来の監視方法においては、送受信デバイス間で監視信号をチェックするのみであり、SUC装置が備える状態管理部11あるいはSWC装置が備える状態管理部21の正常性をチェックできなかった。このため、故障が発見されないまま潜在化するおそれがあった。また、組込み時には、アクティブ系のチェックのみを行っていたので、この点でも故障が潜在化するおそれがあった。
なお、特許文献1には、関連する技術として、1組の送信側モジュールと1組の受信側モジュール間をメッシュ状に接続する4本のチャネルの状態をチェックし、障害が検出されたときに通信リンクを変更する構成が開示されている。
特開平6−232967号公報
本発明の目的は、冗長的に構成されているシステムにおいて故障被疑装置を精度よく特定することである。
本発明の故障被疑装置特定方法は、冗長的に構成された第1、第2の上位装置、および冗長的に構成された第1、第2の下位装置が相互に接続されたシステムにおいて故障被疑装置を特定する方法であって、前記第1の上位装置から前記第1の下位装置へ第1の制御信号を送信し、前記第1の上位装置から前記第2の下位装置へ第2の制御信号を送信し、前記第1の下位装置から前記第1および第2の上位装置へ前記第1の制御信号に基づく制御の結果を表す第1の状態信号を送信し、前記第2の下位装置から前記第1および第2の上位装置へ前記第2の制御信号に基づく制御の結果を表す第2の状態信号を送信し、前記第1の上位装置が受信した第1、第2の状態信号、前記第2の上位装置が受信した第1、第2の状態信号に基づいて、故障被疑装置を特定する。
上記手順によれば、第1および第2の下位装置の状態を表す状態信号は、制御信号の送信元である第1の上位装置だけでなく、第2の上位装置にも送信される。そして、第1の上位装置が受信した第1、第2の状態信号、および第2の上位装置が受信した第1、第2の状態信号に基づいて故障被疑装置が特定される。したがって、通常運用時には動作していない装置に潜在する故障も検出される。
本発明の他の態様の故障被疑装置特定方法は、冗長的に構成された装置を備えるシステムにおいて故障被疑装置を特定する方法であり、前記システムにおける装置の組込みが正常に完了したかを一定時間監視し、前記一定時間内に組込みが正常に完了しなかった場合には、予め決められた遷移パターンに従って前記システムの系構成を変更し、系構成を変更した後のシステムにおいて組込みが正常に行われるかを監視する。この手順によれば、装置の組込み時に表面化する故障を早期に発見することができる。
本発明によれば、冗長的に構成されているシステムにおいて故障被疑装置を精度よく特定することできる。
図1は、本発明の実施形態の故障被疑装置特定方法が使用されるシステムの構成を示す図である。ここでは、図14に示すW−CDMA無線ネットワークが備える無線ネットワーク制御装置(RNC)において故障箇所を特定する実施例について説明する。
信号処理共通部(SUC装置)1a、1bは上位装置であり、不図示の呼制御プロセッサからの指示に従ってスイッチ制御部(SWC装置)2a、2bを監視および制御する。SWC装置2a、2bは、SUC装置1a、1bの下位装置であり、SUC装置1a、1bの制御に従って信号のスイッチングを実行する。
SUC装置1a、1bは、それぞれ、状態管理部11を備える。状態管理部11は、自装置およびSWC装置2a、2bの状態(アクティブ系/スタンバイ系)を制御する機能、SWC装置2a、2bの状態を監視する機能を備える。また、SWC装置2a、2bは、それぞれ、状態管理部21を備える。状態管理部21は、SUC装置1a、1bからの指示に従ってアクティブ系またはスタンバイ系を選択する機能、自装置の状態を監視してSUC装置1a、1bに通知する機能を備える。
SUC装置1a、1bは、それぞれ、送受信デバイス12n、12eを備える。そして、送受信デバイス12nは、SWC装置2aとの間で信号を送受信する。また、送受信デバイス12eは、SWC装置2bとの間で信号を送受信する。一方、SWC装置2a、2bは、それぞれ、送受信デバイス22n、22eを備える。そして、送受信デバイス22nは、SUC装置1aとの間で信号を送受信する。また、送受信デバイス22eは、SUC装置1bとの間で信号を送受信する。このように、SUC装置1a、1b、およびSWC装置2a、2bは、相互に接続されている。
上記システムにおいて、不図示の呼制御プロセッサは、SUC装置1a、1b、SWC装置2a、2bの状態(アクティブ系/スタンバイ系)を指定する。図1に示す例では、SUC装置1aおよびSWC装置2aがアクティブ系として指定され、SUC装置1bおよびSWC装置2bがスタンバイ系として指定されている。
上記システムの通常運用時においては、アクティブ状態のSUC装置1aは、定期的に、SWC装置2a、2bに対して制御信号(5、6)を送信する。この制御信号は、SW
C装置2a、2bをアクティブ系またはスタンバイ系で動作させるための指示を含んでおり、呼制御プロセッサからの指示に従って状態管理部11により生成される。一方、制御信号を受信したSWC装置2a、2bは、それぞれ、自装置の状態を検出し、その検出結果を状態信号(1〜4)としてSUC装置1a、1bに送信する。このとき、SWC装置2a、2bからSUC装置1bへ送信された状態信号は、SUC装置1aへ転送されるものとする。そして、SUC装置1aは、先に送信した制御信号およびSWC装置2a、2bから送信される状態信号を参照し、システム内の故障の有無をチェックすると共に、故障が発生している場合には故障被疑装置を特定する。故障被疑装置は、不図示の保守システムに通知されると共に、必要に応じて当該システムから自動的に切り離される。なお、故障被疑装置を特定する方法は、後で詳しく説明する。
図2は、SUC装置およびSWC装置のハードウェア構成を示す図である。SUC装置1a、1bは、それぞれ、送受信デバイス12n、12e、CPU13、下位状態管理部14、自カード状態管理部15、系間状態管理部16を備える。送受信デバイス12n、12eは、上述したように、対応するSWC装置との間で信号を送受信する。下位状態管理部14は、CPU13の指示に従ってSWC装置2a、2bの状態を管理する。自カード状態管理部15は、CPU13の指示に従って自カード(すなわち、自装置)の状態を管理する。系間状態管理部16は、CPU13の指示に従って対応するSUC装置との間で信号を送受信する。そして、CPU13は、呼制御プロセッサと連携しながら、自装置内の動作を制御し、また、SUC装置1a、1b、SWC装置2a2bの中から故障被疑装置を特定する。なお、図1に示す状態管理部11は、CPU13、下位状態管理部14、自カード状態管理部15、系間状態管理部16により構成される。
SWC装置2a、2bは、それぞれ、送受信デバイス22n、22e、CPU23、下位状態管理部24、送受信デバイス25n、25e、自カード状態管理部26、系間状態管理部27を備える。送受信デバイス22n、22eは、上述したように、対応するSUC装置との間で信号を送受信する。下位状態管理部24は、CPU23の指示に従ってさらに下位側に接続される装置の状態を管理する。送受信デバイス25n、25eは、下位側に接続される装置との間で信号を送受信する。ここで、送受信デバイス25n、25eは、下位側に接続される装置の数だけ設けられる。自カード状態管理部26は、CPU23の指示に従って自カード(すなわち、自装置)の状態を管理する。系間状態管理部27は、CPU23の指示に従って対応するSWC装置との間で信号を送受信する。このとき、系間状態管理部27は、SWC装置2a、2bのうちの一方のみをアクティブ系として設定する排他制御を行う機能も備えている。そして、CPU23は、自装置内の動作を制御する。なお、図1に示す状態管理部21は、CPU23、自カード状態管理部26、系間状態管理部27により構成される。
<<通常運用時の監視動作>>
次に、図3を参照しながら、上記構成のシステムの状態を監視する手順について説明する。ここで、状態の監視は、下記の信号1〜6を授受することによって行われる。なお、以下の説明では、SUC装置1aがアクティブ(ACT)系であり、SUC装置1bがスタンバイ(SBY)系であるものとする。また、SWC装置2aがN(Normal)系であり、SWC装置2bがE(Emergency)系であるものとする。「N」及び「E」は、物理的な位置(例えば、各装置を挿入すべきスロットの番号)に対応し、通常時は、N系の装置をアクティブ系に設定し、E系の装置をスタンバイ系に設定するものとする。よって、SUC装置1aは、呼制御プロセッサからの指示に従って、SWC装置2aをアクティブ系として指定すると共に、SWC装置2bをスタンバイ系として指定する。
信号1:SWC装置2aの状態を表示する情報を含み、SUC装置1aへ送信される
信号2:SWC装置2bの状態を表示する情報を含み、SUC装置1aへ送信される
信号3:SWC装置2aの状態を表示する情報を含み、SUC装置1bへ送信される
信号4:SWC装置2bの状態を表示する情報を含み、SUC装置1bへ送信される
信号5:SWC装置2aの状態(アクティブ/スタンバイ)を指示する
信号6:SWC装置2bの状態(アクティブ/スタンバイ)を指示する
なお、信号1〜4は、具体的には、それぞれ、下記の情報を含んでいる。
ACT選択表示:「ON」は、自装置がアクティブ状態であることを示し、「OFF」は自装置がスタンバイ状態であることを示す
ACT表示:「ON」は、アクティブ状態であることを意味するLEDランプが点灯していることを示し、「OFF」はそのLEDランプが消灯していることを示す
SBY表示:「ON」は、スタンバイ状態であることを意味するLEDランプが点灯していることを示し、「OFF」はそのLEDランプが消灯していることを示す
BLK表示:「ON」は、組込み抑止状態を意味するLEDランプが点灯していることを示し、「OFF」はそのLEDランプが消灯していることを示す
初期化完了:「ON」は、装置の初期化が完了していることを示し、「OFF」は初期化が完了していないことを示す
実装表示:「ON」は、装置が実装されていることを示し、「OFF」は装置が実装されていないことを示す
なお、ACT選択表示情報、ACT表示情報、SBY表示情報、BLK表示情報、初期化完了情報、実装表示情報は、各SWC装置においてCUP23および自カード状態管理部26が連携して収集する。
上記構成のシステムにおいて、アクティブ状態のSUC装置(ここでは、SUC装置1a)は、SWC装置2a、2bに対して制御信号(図3に示す信号5、6)を送信する。そして、SWC装置2aは、自装置の状態を表す状態信号1をSUC装置1aに返送すると共に、状態信号3をSUC装置1bへ送信する。同様に、SWC装置2bは、自装置の状態を表す状態信号2をSUC装置1aに返送すると共に、状態信号4をSUC装置1bへ送信する。このとき、SUC装置1a、1b、SWC装置2a、2bのすべてが正常であるものとすると、状態信号3〜6は、制御信号1〜2に対して一意に決まる値となるはずである。
すなわち、アクティブ系で動作すべき旨の指示を受けたSWC装置が生成する状態信号は、すべての装置が正常であるものとすると、図4に示すように「ACT選択表示:ON」「ACT表示:ON」「SBY表示:OFF」「BLK表示:OFF」「初期化完了:ON」「実装表示:ON」となるはずである(図4のレコードA、C)。また、スタンバイ系で動作すべき旨の指示を受けたSWC装置が生成する状態信号は、すべての装置が正常であるものとすると、「ACT選択表示:OFF」「ACT表示:OFF」「SBY表示:ON」「BLK表示:DN」「初期化完了:ON」「実装表示:ON」となるはずである(図4のレコードB、D)。よって、上述のパターンと異なる状態信号が検出された場合には、その状態信号の送信側または受信側において故障が発生しているものと考えられる。そして、状態信号1〜4の中のどの信号が期待値と異なっていたのかに基づいて、故障が発生した装置を推定することができる。そこで、実施形態の故障被疑装置特定方法では、制御信号5、6に対して得られる各制御信号1〜4についての期待値が得られるか否かをそれぞれ調べ、その結果に応じて故障被疑装置を特定する。
図5は、状態信号と故障被疑装置との関係を示す対応表の例である。図5において、○印は、状態信号において期待値が検出された場合を表し、×印は、状態信号において期待値と異なる値(すなわち、異常値)が検出された場合を表している。項番0〜15は、SUC装置およびSWC装置がそれぞれ二重化されている場合に想定される各パターンを表し、項番16〜19は、SWC装置のみが二重化されている場合に想定される各パターンを表している。
項番0は、すべての状態信号1〜4において期待値が得られている場合に相当する。この場合、すべての装置が正常に動作していると判定される。
項番1は、状態信号4において異常値が検出された場合(すなわち、SWC装置2b(SWC-E)からSUC装置1b(SUC-SBY)へ送信された状態信号において異常値が検出された場合)を示している。この場合、故障被疑装置として、SUC装置1b(SUC-SBY)およびSWC装置2b(SWC-E)が特定される。なお、この実施例では、複数の故障被疑装置が存在する場合は、基本的に、上位装置の被疑レベルが高いものとしている(例外は、項番15)。
項番3は、状態信号3〜4において異常値が検出された場合(すなわち、SWC装置2a(SWC-N)からSUC装置1b(SUC-SBY)へ送信された状態信号、およびSWC装置2b(SWC-E)からSUC装置1b(SUC-SBY)へ送信された状態信号において異常値が検出された場合)を示している。このケースでは、異常値が検出された制御信号は、いずれもSUC装置1b(SUC-SBY)に係わっている。したがって、この場合、多数決の論理により、SUC装置1b(SUC-SBY)が被疑レベルの非常に高い装置として特定され、他の装置は故障している可能性が低いと判定される。
なお、被疑レベルの高い装置は、保守システムに通知される。これにより、保守者は、故障の可能性にある装置を早期に点検または交換できる。また、被疑レベルの非常に高い装置は、例えば、当該システムから自動的に切り離すようにしてもよい。ただし、片系運転の場合(すなわち、二重化されていない状態)は、被疑レベルが非常に高い装置であっても当該システムからの切離しは行わない(例えば、項番17、18)。
このように、実施形態の手順においては、以下のポリシ1〜3に従って故障被疑装置が特定される。
ポリシ1:上位装置および下位装置が故障している可能性があるときは、上位装置の被疑レベルが高いものとする(例えば、項番1)
ポリシ2:複数の状態信号において異常値が検出されるときは、多数決の論理に従って、被疑状態が重なる装置を被疑レベルの高い装置とする(例えば、項番3)
ポリシ3:アクティブ系のルートを活かして被疑装置を特定する
<具体例>
SUC装置1bの状態管理部11においてSWC装置2bを管理する機能が故障しているものとする。なお、SWC装置2a、2bの状態は、下記の通りであるものとする。
SWC装置2a:アクティブ(ACT)
SWC装置2b:スタンバイ(SBY)
また、制御信号(呼制御プロセッサが指示する状態)は、下記の通りであるものとする。
制御信号5:「ACT選択制御=ON」
制御信号6:「ACT選択信号=OFF」
そして、SUC装置1aのCPU13において検出される状態信号1〜4は、下記の通りであったものとする。
状態信号1:「ACT選択表示=ON」「ACT表示=ON」「SBY表示=OFF」「BLK表示=OFF」「初期化完了=ON」「実装表示=ON」
状態信号2:「ACT選択表示=OFF」「ACT表示=OFF」「SBY表示=ON」「BLK表示=OFF」「初期化完了=ON」「実装表示=ON」
状態信号3:「ACT選択表示=ON」「ACT表示=OFF」「SBY表示=OFF」「BLK表示=OFF」「初期化完了=ON」「実装表示=ON」
状態信号4:「ACT選択表示=OFF」「ACT表示=ON」「SBY表示=ON」「BLK表示=OFF」「初期化完了=ON」「実装表示=ON」
上述の状態信号1〜4を検出した場合、SUC装置1aのCPU13は、以下のように
して故障被疑装置を特定する。
状態信号1の判定:状態信号1は、制御信号5を受信するSWC装置2aにおいて生成されるので、図4に示すレコードAが参照される。そうすると、検出した状態信号1の各値はすべて期待値と一致する。(○)
状態信号2の判定:状態信号2は、制御信号6を受信するSWC装置2bにおいて生成されるので、図4に示すレコードDが参照される。そうすると、検出した状態信号2の各値はすべて期待値と一致する。(○)
状態信号3の判定:状態信号3は、制御信号5を受信するSWC装置2aにおいて生成されるので、状態信号1と同じはずである。よって、図4に示すレコードAが参照される。ところが、受信した状態信号3の「ACT表示」は期待値と異なっている。(×)
状態信号4の判定:状態信号4は、制御信号6を受信するSWC装置2bにおいて生成されるので、状態信号2と同じはずである。よって、図4に示すレコードDが参照される。ところが、受信した状態信号4の「ACT表示」は期待値と異なっている。(×)
このように、第1〜第2の状態信号においては期待値が検出されるが、第3〜第4の状態信号においては異常値が検出される。そして、この状況は、図5に示す項番3のケースに相当する。したがって、SUC装置(SUC-SBY)1bが故障被疑装置として特定される。なお、故障被疑装置の特定は、上記手順を繰り返したときに同じ結果が所定回数連続して得られたときに行うようにしてもよい。
図6は、実施形態の監視方法を示すフローチャートである。このフローチャートの処理は、アクティブ状態のSUC装置(ここでは、SUC装置1a)により実行される。なお、このフローチャートにおいて、「表1」は図4に示すテーブルを意味し、「表2」は図5に示す対応表を意味する。また、信号1〜6は、上述した通りである。
ステップS1では、制御信号(ACT選択制御信号)5、6を、それぞれ対応するSWC装置2a、2bへ送信する。これにより、SWC装置2aは状態信号1、3をそれぞれSUC装置1a、1bへ送信し、SWC装置2bは状態信号2、4をそれぞれSUC装置1a、1bへ送信する。そして、ステップS2において状態信号1、2を読み込む。また、ステップS3においてSUC装置1bを介して状態信号3、4を読み込む。
ステップS4〜S6は、各状態信号について、期待値が検出されるか否かをチェックする。すなわち、ステップS4では、状態信号の値が図4に示す期待値と一致するか否かをチェックする。そして、それらが互いに一致すれば、ステップS5において、図5に示す対応表に「正常(すなわち、○印)」を設定し、そうでない場合にはステップS6において「異常(すなわち、×印)」を設定する。
ステップS7では、状態信号1〜4についての正常性に基づいて、故障が発生しているか否かをチェックすると共に、故障が発生している場合には故障被疑装置を特定する。ステップS8では、当該システムから切り離すべき被疑装置が存在するか調べる。そして、そのような被疑装置が存在しない場合には、ステップS13に進んで次に処理周期の開始を待つ。
切り離すべき被疑装置が存在する場合は、ステップS9においてその装置および被疑レベルを呼制御プロセッサに通知し、ステップS10において、その装置をシステムから切り離す。続いて、ステップS11では、ステップS10で切り離した装置がアクティブ系であったのか否かを調べる。そして、その装置がアクティブ系であった場合には、ステップS12において系切替え処理(スタンバイ系であった装置をアクティブ系に設定する処理)を実行する。
このように、実施形態の手順によれば、アクティブ系/スタンバイ系のすべての装置に
ついて状態をチェックするので、スタンバイ系の装置に潜在する故障を検出することができる。よって、系切替え時の二重障害を回避でき、また、スタンバイ系の装置をアクティブ系に切り替えることなく復旧確認を行うことができる。さらに、故障被疑装置を精度よく特定できるので、交換すべき装置の数を少なくできる。或いは、故障被疑装置の通知および自動的な切り離しにより、復旧に要する時間が短縮される。
図7は、状態信号と故障被疑装置との関係を示す対応表の別例である。この実施例においては、故障に係わる全範囲の装置が故障被疑装置として特定される。例えば、項番3のケースでは、SWC装置2a(SWC-N)からSUC装置1b(SUC-SBY)へ送信された状態信号、およびSWC装置2b(SWC-E)からSUC装置1b(SUC-SBY)へ送信された状態信号において異常値が検出されている。すなわち、故障の可能性がある装置の範囲は、SUC装置1b(SUC-SBY)、SWC装置2a(SWC-N)、SWC装置2b(SWC-E)に渡っている。この場合、図5に示す対応表によれば、多数決の論理によってSUC装置1b(SUC-SBY)のみが故障被疑装置として特定されるが、図7に示す対応表によれば、SUC装置1b(SUC-SBY)だけでなく、SWC装置2a(SWC-N)およびSWC装置2b(SWC-E)も故障被疑装置として特定される。
なお、上述の実施例では、上位装置および下位装置がそれぞれ二重化されているシステムについて説明をしたが、本発明はこの構成に限定されるものではない。例えば、無線ネットワーク制御装置においては、図8に示すように、SWC装置の下位側に様々な装置が接続される。ここで、「NE」は、二重化構成を意味する。また、「N+1」は、N枚のアクティブ系カード、および1枚のスタンバイ系カードを含む構成を意味する。すなわち、無線ネットワーク制御装置においては、異なる冗長構成が混在しており、また、同一階層内に様々な機能を持ってシェルフが混在している。さらに、システムとして必須の機能を提供する装置、およびサービスまたはエリア等に応じて必要となる装置が混在している。
図9は、2組以上の下位装置が接続されるシステムにおいて使用される対応表の実施例である。1組のSWC装置(SWC-ACT、SWC-SBY)の配下に様々な下位装置が接続されており、各下位装置からそれぞれSWC装置へ状態信号が送信されるものとする。なお、この場合、SWC装置が上位装置として動作する。
項番0、4:異常値が検出される状態信号が2未満であれば、下位装置単位で図5に示す対応表に従って故障被疑装置が特定される。
項番2:SWC装置(SWC-ACT)へ送信される状態信号のうち、異常値が検出される状態信号が2以上であれば、そのSWC装置が故障被疑装置として特定される。
項番1、3、5:SWC装置(SWC-SBY)へ送信される状態信号のうち、異常値が検出される状態信号が2以上であれば、そのSWC装置が故障被疑装置として特定される。
このように、同一の上位装置に送信される2以上の状態信号において異常値が検出されたときは、その上位装置が故障被疑装置として特定される。このとき、同一階層の1組の上位装置が故障被疑装置であるときには、スタンバイ系の装置をシステムから切り離すこととする。
<<組込み時の動作>>
システム内で「組込み」が行われると、新たに実装された装置は、その旨を表す実装情報をその上位装置へ送信する。また、その装置は、自装置が正常にシステムに組み込まれてアクティブ状態を表示するLEDが点灯したことを確認すると、系選択情報(N系、E系)を上位装置へ送信する。一方、実装情報を受信した上位装置は、一定期間、系選択情報を監視する。そして、その期間内に系選択情報を受信できなかった場合には、システム内に何らかの故障が生じているものと判断し、系構成の変更を行う。系構成は、上位装置
(ここでは、SUC装置)および下位装置(ここでは、SWC装置)がそれぞれ二重化されているものとすると、図10に示す4通りが存在する。
系構成1:SUC−NおよびSWC−Nがアクティブ系
系構成2:SUC−NおよびSWC−Eがアクティブ系
系構成3:SUC−EおよびSWC−Eがアクティブ系
系構成4:SUC−EおよびSWC−Nがアクティブ系
組込み時の監視条件は、下記の通りである。
タイマ開始条件:SWC装置が実装されたことを検出すると、タイマを起動する。タイマ時間は、SWC装置の組込みに要すると見込まれる時間にマージンを加えた時間とする。タイマ停止条件:実装されたSWC装置においてアクティブ状態を表示するLEDが点灯したことを確認すると、タイマを停止する。また、N系およびE系の双方のSWC装置が未実装の場合も、タイマを停止する。
タイムアウト時の動作:故障被疑装置を当該システムから切り離し、系構成を変更する。系構成の変更手順については、図11を参照しながら説明する。
系構成1において、SWC−Nの「ACT」の点灯が検出されずにタイマがタイムアウトすると、SWCの切替えを既に行っているか否かをチェックする。そして、SWCの切替えを未だ行っていなければ、SWCを切り替える。すなわち、SWC−Eをアクティブ系に設定する。これにより、当該システムは、系構成1から系構成2へ遷移する。一方、既にSWCの切替えを行っていた場合には、SUCを切り替える。すなわち、SUC−Eをアクティブ系に設定する。この場合、当該システムは、系構成1から系構成4へ遷移する。
系構成2において、SWC−Eの「ACT」の点灯が検出されずにタイマがタイムアウトすると、SWCの切替えを既に行っているか否かをチェックする。そして、SWCの切替えを既に行っていれば、SUCを切り替える。すなわち、SUC−Eをアクティブ系に設定する。これにより、当該システムは、系構成2から系構成3へ遷移する。一方、SWCの切替えが未だ行われていない場合には、SWCを切り替える。すなわち、SWC−Nをアクティブ系に設定する。この場合、当該システムは、系構成2から系構成1へ遷移する。
系構成3、4において、タイムアウトが発生すると、同様のルールに従って系構成の変更が行われる。なお、上位装置が片系実装の場合には、図11において破線矢印で示すように、系構成1、2間、あるいは系構成3、4間のみで切替えが行われる。
このように、下位装置の組込みに失敗した場合には、まず、下位装置のルートを切り替えた後、下位装置の組込みを再実行する。さらに、下位装置を切り替えたにもかかわらず組込みに失敗した場合には、上位装置を切り替えて組込みを再実行する。
<具体例>
図12に示すシーケンス図を参照しながら組込み時の監視動作を説明する。ここでは、N系SUC装置がアクティブ状態であり、E系SUC装置がスタンバイ状態であるものとする。そして、N系SUC装置が故障しているものとする。
システム再開後、N系SWCが実装されると、N系SWCからN系SUCへ実装信号が送信される。そして、N系SUCは、実装信号を受信することによりN系SWCが実装されたことを検出すると、ACT監視タイマを起動する。続いて、N系SUCは、N系SWCに対してACT選択設定を送信する。ACT選択設定は、SWCをアクティブ系として動作させるための指示信号である。
ここで、N系SUCのACT選択回路が故障しているものとすると、N系SUCとN系SWCとの間の通信リンクの確立が失敗する。そうすると、N系SUCは、N系SWCに対してアラーム信号を送信する。これにより、N系SWCは、システムから切り離される。また、N系SUCは、E系SWCに対してACT選択設定を送信する。この結果、SWCの系切替えが実行される。この後、N系SUCは、N系SWCおよびE系SWCをリセットする。また、N系SUCは、SWC切替えフラグを有効にする。
SWCを入れ替えた後、再度、N系SWCが実装され、N系SUCはACT監視タイマを起動する。この後、N系SWCからACT表示信号を受信することなくACT監視タイマがタイムアウトすると、SWC切替えフラグが有効なので、SUCの切替えを実行する。これにより、E系SUCがアクティブ状態となる。すなわち、故障しているN系SUCが切り離される。なお、SWC切替えフラグはクリアされる。
この後、再度、SWCが実装されると、E系SUCへ実装信号が送信され、E系SUCにおいてACT監視タイマが起動される。このとき、各装置は正常であるものとすると、SUC、SWC間で通信リンクが確立され、さらに、N系SUCを介して呼処理プロセッサ(CP)とSWCとの間で必要な情報が送受信される。そして、アクティブ状態のSWCからE系SUCへACT検出信号が送信されると、E系SUCにおいてACT監視タイマが停止し、通常運用動作に移る。すなわち、上述のようにして組込みが完了すると、以降、図3〜図9を参照しながら説明した手順により、定期的に各装置の状態を監視する。
図13は、組込み時の上位装置の動作を示すフローチャートである。ここでは、上位装置はSUCであり、下位装置はSWCである。
ステップS21では、下位装置の実装状態の変化を検出する。すなわち、SWCが新たに実装されたか否かを監視する。そして、SWCが実装されると、ステップS22において、ACT監視タイマを起動する。
ステップS23〜S25では、ステップS21で検出したSWCが正常にアクティブ状態で組み込まれたか否かを監視する。ここで、SWCは、自己の動作が正常であることを確認し、さらにアクティブ状態であることを表示するLEDが点灯していることを検出すると、その旨をSUCへ通知する。そして、SWCが正常にアクティブ状態で組み込まれた場合には、ステップS26においてACT監視タイマを停止する。その後、ステップS27において、上記SWCがアクティブ状態からスタンバイ状態に移ると、ステップS21に戻る。
ステップS23〜S25において、SWCが正常にアクティブ状態で組み込まれたことを確認できる前にACT監視タイマがタイムアウトすると、ステップS31〜S36の状態遷移処理を実行する。すなわち、ステップS31では、N系およびE系双方のSWCが実装されているか否かをチェックする。このとき、SWC切替えフラグの状態もチェックする。そして、N系およびE系双方のSWCが実装されており、且つ、SWCの切替えが未だ実行されていなければ、ステップS32に進み、ステップS21で検出したSWCを当該システムから切り離す。そして、ステップS33においてSWCの切替えを実行する。
ステップS34では、SUCが二重化されているか否かを調べる。そして、SUCが二重化されており、且つ、他方のSUCがスタンバイ状態であれば、ステップS35において、SUCの切替えを実行する。一方、SUCが二重化されていなければ、ステップS36において、SWCを切り離す。
このように、実施形態の故障被疑装置特定方法によれば、装置の実装時に正常に組込み
が完了したか否かを確認するので、電源投入時あるいはシステムのリセットを契機として表面化する故障がアクティブ経路に潜在化している場合であっても、故障部位を切り離してサービスを開始できる。また、故障の疑いがある場合にその故障部位を保守システムに通知する構成を導入すれば、装置の点検または交換を早期に行うことができる。
なお、上述の実施例では、主に、無線ネットワーク制御装置内のSUC装置を上位装置とし、SWC装置を下位装置とした場合について説明したが、本発明はこれに限定されるものではなく、SWC装置とその下位装置に対しても同様に適用される。さらに、本発明は、無線通信装置に限定されるものではない。
(付記1)
冗長的に構成された第1、第2の上位装置、および冗長的に構成された第1、第2の下位装置が相互に接続されたシステムにおいて故障被疑装置を特定する方法であって、
前記第1の上位装置から前記第1の下位装置へ第1の制御信号を送信し、
前記第1の上位装置から前記第2の下位装置へ第2の制御信号を送信し、
前記第1の下位装置から前記第1および第2の上位装置へ前記第1の制御信号に基づく制御の結果を表す第1の状態信号を送信し、
前記第2の下位装置から前記第1および第2の上位装置へ前記第2の制御信号に基づく制御の結果を表す第2の状態信号を送信し、
前記第1の上位装置が受信した第1、第2の状態信号、前記第2の上位装置が受信した第1、第2の状態信号に基づいて、故障被疑装置を特定する
ことを特徴とする故障被疑装置特定方法。
(付記2)
付記1に記載の故障被疑装置特定方法であって、
前記第1、第2の制御信号は、下位装置をアクティブ系またはスタンバイ系で動作させるための指示を含んでおり、
前記第1、第2の状態信号は、それぞれ対応する下位装置の状態を表示する
ことを特徴とする故障被疑装置特定方法。
(付記3)
付記1に記載の故障被疑装置特定方法であって、
前記第1の下位装置から前記第1、第2の上位装置へ送信される1組の第1の状態信号がいずれも前記第1の制御信号に対して期待される値でなかった場合には、前記第1の下位装置を故障被疑装置として特定する
ことを特徴とする故障被疑装置特定方法。
(付記4)
付記1に記載の故障被疑装置特定方法であって、
前記第1の下位装置から前記第1の上位装置へ送信される第1の状態信号が前記第1の制御信号に対して期待される値でなく、且つ、前記第2の下位装置から前記第1の上位装置へ送信される第2の状態信号が前記第2の制御信号に対して期待される値でなかった場合には、前記第1の上位装置を故障被疑装置として特定する
ことを特徴とする故障被疑装置特定方法。
(付記5)
付記1に記載の故障被疑装置特定方法であって、
特定した故障被疑装置を前記システムから切り離す
ことを特徴とする故障被疑装置特定方法。
(付記6)
付記1に記載の故障被疑装置特定方法であって、
故障被疑装置が2以上ある場合には、それらすべての故障被疑装置を保守システムに通知する
ことを特徴とする故障被疑装置特定方法。
(付記7)
冗長的に構成された装置を備えるシステムにおいて故障被疑装置を特定する方法であって、
前記システムにおける装置の組込みが正常に完了したかを一定時間監視し、
前記一定時間内に組込みが正常に完了しなかった場合には、予め決められた遷移パターンに従って前記システムの系構成を変更し、
系構成を変更した後のシステムにおいて組込みが正常に行われるかを監視する
ことを特徴とする故障被疑装置特定方法。
(付記8)
付記7に記載の故障被疑装置特定方法であって、
前記遷移パターンに従ってアクティブ系からスタンバイ系に切り替えられた装置を前記システムから切り離す
ことを特徴とする故障被疑装置特定方法。
(付記9)
付記7に記載の故障被疑装置特定方法であって、
前記システムが冗長的に構成された上位装置および冗長的に構成された下位装置を備えるものであり、
装置の組込みが正常に完了しなかった場合には、下位装置の切替えを行い、
下位装置の切替えを行っても装置の組込みが正常に完了しなかった場合には、上位装置の切替えを行う
ことを特徴とする故障被疑装置特定方法。
本発明の実施形態の故障被疑装置特定方法が使用されるシステムの構成を示す図である。 SUC装置およびSWC装置のハードウェア構成を示す図である。 状態を監視する手順について説明する図である。 正常時における制御信号と状態信号の関係を示す図である。 状態信号と故障被疑装置との関係を示す対応表の例である。 実施形態の監視方法を示すフローチャートである。 状態信号と故障被疑装置との関係を示す対応表の別例である。 無線ネットワーク制御装置の具体的な構成を示す図である。 2組以上の下位装置が接続されるシステムにおいて使用される対応表の実施例である。 系構成について説明する図である。 系構成の変更手順について説明する図である。 組込み時の全体動作を示すシーケンス図である。 組込み時の上位装置の動作を示すフローチャートである。 W−CDMA無線ネットワークの構成を示す図である。 無線ネットワーク制御装置の構成を示す図である。 従来技術における系監視方法を説明する図である。
符号の説明
1a、1b SUC装置(上位装置)
2a、2b SWC装置(下位装置)
11、21 状態管理部
12a、12b、21n、21e 送受信デバイス
13、23 CPU
14、24 下位状態管理部
15、26 自カード状態管理部
16、27 系間状態管理部

Claims (5)

  1. 冗長的に構成された第1、第2の上位装置、および冗長的に構成された第1、第2の下位装置が相互に接続されたシステムにおいて故障被疑装置を特定する方法であって、
    前記第1の上位装置から前記第1の下位装置へ第1の制御信号を送信し、
    前記第1の上位装置から前記第2の下位装置へ第2の制御信号を送信し、
    前記第1の下位装置から前記第1および第2の上位装置へ前記第1の制御信号に基づく制御の結果を表す第1の状態信号を送信し、
    前記第2の下位装置から前記第1および第2の上位装置へ前記第2の制御信号に基づく制御の結果を表す第2の状態信号を送信し、
    前記第1の上位装置が受信した第1、第2の状態信号、前記第2の上位装置が受信した第1、第2の状態信号に基づいて、故障被疑装置を特定する
    ことを特徴とする故障被疑装置特定方法。
  2. 請求項1に記載の故障被疑装置特定方法であって、
    前記第1、第2の制御信号は、下位装置をアクティブ系またはスタンバイ系で動作させるための指示を含んでおり、
    前記第1、第2の状態信号は、それぞれ対応する下位装置の状態を表示する
    ことを特徴とする故障被疑装置特定方法。
  3. 請求項1に記載の故障被疑装置特定方法であって、
    前記第1の下位装置から前記第1、第2の上位装置へ送信される1組の第1の状態信号がいずれも前記第1の制御信号に対して期待される値でなかった場合には、前記第1の下位装置を故障被疑装置として特定する
    ことを特徴とする故障被疑装置特定方法。
  4. 請求項1に記載の故障被疑装置特定方法であって、
    前記第1の下位装置から前記第1の上位装置へ送信される第1の状態信号が前記第1の制御信号に対して期待される値でなく、且つ、前記第2の下位装置から前記第1の上位装置へ送信される第2の状態信号が前記第2の制御信号に対して期待される値でなかった場合には、前記第1の上位装置を故障被疑装置として特定する
    ことを特徴とする故障被疑装置特定方法。
  5. 冗長的に構成された装置を備えるシステムにおいて故障被疑装置を特定する方法であって、
    前記システムにおける装置の組込みが正常に完了したかを一定時間監視し、
    前記一定時間内に組込みが正常に完了しなかった場合には、予め決められた遷移パターンに従って前記システムの系構成を変更し、
    系構成を変更した後のシステムにおいて組込みが正常に行われるかを監視する
    ことを特徴とする故障被疑装置特定方法。
JP2006336735A 2006-12-14 2006-12-14 故障被疑装置を特定する方法 Withdrawn JP2008153735A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006336735A JP2008153735A (ja) 2006-12-14 2006-12-14 故障被疑装置を特定する方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006336735A JP2008153735A (ja) 2006-12-14 2006-12-14 故障被疑装置を特定する方法

Publications (1)

Publication Number Publication Date
JP2008153735A true JP2008153735A (ja) 2008-07-03

Family

ID=39655497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006336735A Withdrawn JP2008153735A (ja) 2006-12-14 2006-12-14 故障被疑装置を特定する方法

Country Status (1)

Country Link
JP (1) JP2008153735A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014103078A1 (ja) 2012-12-28 2014-07-03 富士通株式会社 情報処理システム、情報処理システムの管理方法および情報処理システムの管理プログラム
US11930417B2 (en) 2018-09-27 2024-03-12 Murata Machinery, Ltd. Travel system and control method of travel system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014103078A1 (ja) 2012-12-28 2014-07-03 富士通株式会社 情報処理システム、情報処理システムの管理方法および情報処理システムの管理プログラム
US9558038B2 (en) 2012-12-28 2017-01-31 Fujitsu Limited Management system and management method for managing information processing apparatus
US11930417B2 (en) 2018-09-27 2024-03-12 Murata Machinery, Ltd. Travel system and control method of travel system

Similar Documents

Publication Publication Date Title
EP2243255B1 (en) Method and system for dynamic link failover management
CN100534024C (zh) 基于工业以太网的故障处理方法、系统及一种交换设备
CN102710457B (zh) 一种跨网段的n+1备份方法及装置
US20140372805A1 (en) Self-healing managed customer premises equipment
US6496475B1 (en) System and method for selective recovery of a failed overhead channel in a wireless network
CN103780407A (zh) 分布式弹性网络互连(drni)中网关动态切换方法和装置
CN103546914A (zh) 一种hss主备管理的方法及装置
CN101729305A (zh) 故障自动恢复的方法、系统和控制网元
CN101317379A (zh) 基于设备容灾的业务接管方法、业务转接设备及备份机
CN105577444A (zh) 一种无线控制器管理方法及无线控制器
CN104901834A (zh) 一种网络服务器自动切换的方法及系统
CN105790965A (zh) 链路切换方法、装置及线卡
CN111314148B (zh) 基于冗余计算机的冗余网络ip智能切换方法及系统
JP6538639B2 (ja) 無線通信装置、方法およびプログラム
CN101499910B (zh) 模块化交换机及其通信方法
JP2009135731A (ja) 無線ネットワーク制御装置およびその障害処理方法
JP2008153735A (ja) 故障被疑装置を特定する方法
CN101568135B (zh) 一种通信方法、设备及系统
JP2007006035A (ja) Ipネットワークサーバのバックアップシステム
CN101980478A (zh) 设备故障的检测处理方法、装置和网络设备
CN114598594B (zh) 一种多集群下应用故障的处理方法、系统、介质和设备
JP4879823B2 (ja) 監視制御システム
JP2011054033A (ja) 監視制御装置
CN109101372A (zh) 机箱管理板的冗余切换方法、存储介质及机箱管理板
JP2004112246A (ja) 遠方監視制御システム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100302