JP2003173265A - 冗長化された機能カードを有するシステムおよび障害対策方法 - Google Patents
冗長化された機能カードを有するシステムおよび障害対策方法Info
- Publication number
- JP2003173265A JP2003173265A JP2001372575A JP2001372575A JP2003173265A JP 2003173265 A JP2003173265 A JP 2003173265A JP 2001372575 A JP2001372575 A JP 2001372575A JP 2001372575 A JP2001372575 A JP 2001372575A JP 2003173265 A JP2003173265 A JP 2003173265A
- Authority
- JP
- Japan
- Prior art keywords
- card
- function
- monitoring
- state
- reset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Credit Cards Or The Like (AREA)
- Hardware Redundancy (AREA)
- Maintenance And Management Of Digital Transmission (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
ドの障害および抜去・リセット等に起因して監視カード
自体が運用不能になり、システムが致命的な状態に陥っ
た場合でも、サービスを速やかに復旧させること。 【解決手段】 回線インタフェースカード110に、冗
長構成を採る監視カード10a,10bの両カードの状
態を監視する機能を付与する。そして,両監視カードが
共に運用不可能な致命的状態に陥った場合には、上位シ
ステム850に致命的状態が発生したことを通知すると
共に、監視カード10a,10bのリセットを実施し、
即時の復旧を試みる。
Description
から構成されるシステムに関し、特にシステムダウンと
なるような致命的な状態の検出と復旧方法に関するもの
である。
体通信の基地局などの通信インフラシステムでは、監視
制御機能を担当する機能カード(以下、監視カードと呼
ぶ)が通常設けられている。
の機能カードを使用した装置)を監視・制御するシステ
ムの全体的な構成の例について説明する。
オペレーションセンター850が、多数の基地局810
a〜810c,810d〜810fを、制御局820
a,bや監視制御部830a,bを介して集中的に管理
する。
1,Z2をカバーしている。図中、参照符号700a,
700bは移動局を示す。
業者に対応したOS(オペレーティングシステム)86
0a,860bと、常時監視装置870と、ワークステ
ーション880とを具備し、オペレータ890は、各基
地局の稼動状態や障害の発生の有無等をチェックするこ
とができる。
d(〜810f)はそれぞれ、監視カード812a,8
12bをもつ。各監視カードは、自カードならびに他の
機能カードの稼動状況を監視して情報を収集したり(情
報収集機能)、あるいは、障害検出時には、機能カード
の切替やリセットを実施して障害の復旧を試みたりす
る。また、上位システム(上位装置)からの要求(指
令)を受けて、ハードウエアに必要な動作パラメータ値
を設定する(情報設定機能)という機能も持つ。
めシステム内の各機能カードの状態を監視し、障害検出
時には、機能カードの切替やリセットを実施して障害の
復旧を試みるという機能をもつ。また、監視カードは上
位システムに、基地局等のシステムの状態を報告し上位
システムからの指示を実行する機能も有する。
るために重要な機能カードであるため、図5の例のよう
に、冗長構成を採って信頼性を高めたシステムが実現さ
れるの通常である。
テム全体のサービスに影響を与えないように、システム
内に複数の監視カードが配備される。
成を採ることで、機能カードに対する障害対策は一応、
なされている。しかし、機能カードを監視する役目をも
つ監視カード自体が、すべて運用不能となってしまうよ
うな非常事態が発生した場合には、従来のシステムで
は、上位システムが事態を掌握することができず、基地
局等の復旧が、きわめて遅れてしまう場合もあり得る。
の冗長化を実施しても、同一種類の機能カードは、通
常、同一種類のハードウェアを使用しており、ソフトウ
ェアも同一のものを使用している。よって、機能カード
のハードウェア部品故障やOSライブラリの仕様バグによ
る障害などは、冗長構成を採った同一種類のすべての機
能カードでほぼ同時期に発生してしまうことが考えられ
る。
に障害が発生し運用不可能となった場合、その故障の程
度によっては、システムとしての監視制御機能が動作で
きなくなり、機能カードの切替や障害箇所のリセットな
ど適切な対処や、上位システムへの状態の報告も不可能
となり、システムによるサービスの提供に重大な影響を
与えるという課題があった。
あり、その目的は、冗長構成を取った同一種類の全機能
カードに同時期に障害が発生した場合(致命的な障害が
発生した場合)でも、速やかに障害を検出し復旧させる
ことができるシステムを実現することにある。
多重化(多階層化)して、監視カード自体にも監視の目
が行き届くようにし、監視カードがすべて運用不能に陥
るような非常事態(致命的な障害の発生)の場合にもこ
れを検知し、最終的には、上位システムの主導による多
様化された復旧の試みを行うことを可能とする。
に対しても、迅速な復旧対策を実行することが可能とな
る。
ドを有するシステムは、冗長化された特定種類の機能カ
ードのすべてが運用不可能な致命的状態となったことを
検出する、前記特定種類の機能カード以外の機能カード
に設けられる検出手段と、この検出手段による検出結果
を上位システムへ、あらかじめ取り決めておいた形式で
報告する通知手段と、前記上位システムからの指令を受
けて所定の復旧処理を行う機能と、をもつ復旧手段と、
を具備する。
やかに検出し、上位システムに通知することができる。
また、非常事態の場合であっても、上位システムからの
監視が行き届き、上位システム主導による種々の復旧対
策を行えることから、障害に対する厚い防御を実現で
き、システムの信頼性が向上する。
を有するシステムの他の態様では、前記復旧手段は、さ
らに、前記致命的状態となった該当箇所を自律的にリセ
ットする機能を具備する。
所を含むより広範囲な部分をリセットすることも可能)
を即座に実施して復旧を試みることにより、サービスの
中断時間を極力少なくした優れたシステムを実現でき
る。
有するシステムの他の態様では、前記冗長化された特定
種類の機能カードは、他の種類の機能カードの状態を監
視する監視カードであり、また、前記検出手段は、前記
上位システムとの通信インタフェースを担当する機能カ
ードに設けられる。
ード(監視カード)のすべてが未実装であった場合のよ
うに、当該監視カードでは障害を検出できないような場
合(致命的な場合)でも、必ず装備されている通信インタ
フェースカードを用いて障害を検出することが可能とな
る。よって、システムに対する復旧処理をより迅速かつ
正確に行うことができる。
を有するシステムの他の態様では、前記検出手段による
致命的状態の検出に際し、システム自体のリセット中に
関しては、前記冗長化された特定種類の機能カードの運
用が停止していても致命的な状態ではないと認識させる
か、あるいは、システム自体のリセット後所定の保護時
間は、致命的な状態と判定することを禁止する。
り、特定種類の冗長化された機能カード(監視カード)
のすべてが一時的に運用不可能な状態になっている場合
に、この状態が、回復不能な致命的な状態であると誤検
出される心配がない。これにより、上位システムに対す
る致命的な状態の誤報告や、誤判定によるリセットが発
生するのを確実に防止することができる。
有するシステムの他の態様では、前記検出手段に対して
運用不可能な状態に陥ったことを示す信号が入力される
タイミングを一律に所定時間だけ遅延させる、あるい
は、前記検出手段において判定を行う場合に所定の保護
時間をもって判定するようにした。
ドの切替の途中で、過渡的に、全機能カードが共に運用
不可能な状態を一瞬経由した場合でも、監視カード側で
は、運用可能状態と認識することができ、よって、致命
的な状態と誤検出されるのを防止することができる。
有するシステムの他の態様では、上位システムからの指
令に基づいて行う前記復旧処理の内容を多様化し、前記
自律的リセットで対処できない障害についても対応可能
とする。
から適切な範囲のリセットを指示することができ、リセ
ットが不必要な範囲までリセットを行ってしまうような
事態が無くなる。また、逆に、大規模な故障に対して
は、上位装置がリセットの範囲を拡大し、小さな範囲の
リセットでは対処できない障害についても適切な処理を
施して、早期復旧を可能とすることもできる。
るシステムの障害対策方法では、機能カードの状態を監
視する監視カードを冗長構成とすると共に、前記監視カ
ードの各々の運用不能状態を、前記上位システムに対す
る回線インタフェースを担当する機能カードに設けられ
た致命的な障害を監視する部分で監視するようにし、前
記監視カードのすべてが運用不能状態となった場合に
は、前記回線インタフェースを担当するカードがその旨
を前記上位システムに通知すると共に、即時の自律的復
旧動作を実行し、必要がある場合には、前記通知を受け
た前記上位システムが指令を発して、前記上位システム
の主導による復旧処理を行う。
システムの致命的な状態を確実に、かつ速やかに検出
し、上位システムに通知することができ、また、該当箇
所のリセットを即座に実施して復旧を試みることによ
り、サービスの中断時間を極力少なくでき、さらに、必
要に応じて、上位装置からの適切な指示による対処を行
うことができる。これにより、システムの信頼性が大幅
に向上する。
を参照して具体的に説明する。
は、監視カード812a,812bを通じて、基地局の
状態を掌握することができるが、故障やバグによる障害
あるいは抜去・リセットにより特定種類の冗長化された
監視カードのすべてが運用不可能な致命的状態となった
場合には、従来の構成では、オペレーションセンター等
の上位システムにおける情報収集が不能となる。
うな構成を採用し、不測の事態にも迅速に対応できるよ
うにする。
局の構成を示すブロック図である。同図において、基地
局810は、複数の機能カード(20a,20b…)を
有し、これらの機能カードの状態を、冗長構成を採用し
た監視カード(N系(運用系)10a,E系(待機系)
10b)により監視している。
ス制御部11a,11b、レジスタ12a,12b、C
PU13a,13bを具備する。同様に、機能カード2
0a,20bも、バス制御部21a,21b、レジスタ
22a,22b、CPU23a,23bを具備する。
ター)850との通信は、回線インタフェースカード1
10を介して行われる。
インタフェース部120,致命的な障害に対する監視・
復旧を担当する制御部111と、タイマ112とを有す
る。
る制御部111は、障害検出部113と、リセット部
(リセットを含む復旧のための動作を制御する役目をも
つ)117と、リセットの範囲や復旧のために試みる手
段の種類に関する情報を記憶しているメモリ119と、
を有する。
状態は、状態通知線114,115を介して回線インタ
フェースカード110に通知されるようになっている。
ンタフェースカード110から監視カードをリセット等
の制御信号を送信するための制御線である。また、参照
符号121は、基地局810と上位システム850間を
結ぶ通信回線である。
を具備し、複数の基地局システムの動作状態を、統括的
に監視・制御している。
て、その動作を説明する。
の実装と障害の有無を状態通知線114を通じて回線イ
ンタフェースカード110に常時通知する。
自カードの状態を状態通知線115を通じて回線インタ
フェースカード110に常時通知する。
態通知線114、115を通じて、冗長構成をとるすべ
ての監視カードの状態を把握する。
出部113は、監視カードが両系ともに運用不可能な状
態になったと検出判定した場合には、通信回線を通じ
て、上位システム850にあらかじめ取り決めておいた
形式で報告するとともに、自律的に制御線116を使用
して、監視カード10a、10bを両系ともリセットす
る(つまり、電源の入れ直し、初期化処理を行う)。
合は、上位システム850に対して復旧を報告する。以
上により、監視カードの障害時に監視カードに対してリ
セットを実施し、上位システムに対して障害を報告する
ことができる。
障害検出部113が、どのようにして致命的な状態の発
生を検出・判定するかについて説明する。
カード10a,10bの動作状態を、以下〜の5つ
の状態に分類する。 監視カードが実装されていない「未実装」状態。 監視カードが実装されていてリセット中もしくはリセ
ット後の初期化処理を実施している「実装+初期化中」
状態。 監視カードが実装されていて正常に監視機能が動作し
ている「実装+運用中」状態。 監視カードが実装されているが他系が正常に監視機能
が動作しているため待機している「実装+待機中」状態 監視カードが実装されているが故障して正常に動作し
ていない「実装+故障中」状態。
在の動作状態の組み合わせ(25通りの組み合わせがあ
る)に基づき、図2に示すような運用の可否判定(監視
カードが運用不能の状態に陥っているか否かの判定)を
行う。
「実装+故障中」と状態通知線を通じて回線インタフェ
ースカード110で検出されれば、図2の通番25にあ
るように、回線インタフェースカード110の障害検出
部113は、運用不可能な致命的な状態と判定する。
ンタフェース部120を介して上位システム850へ通
知すると共に、リセット部117が、監視カード10
a,10b(異常が、その他のカードにも及んでいる場
合には、それらを含む部分)のリセット処理を実行す
る。
ードについての致命的な状態の発生の検出・判定は、基
本的には、ソフトウェア,ハードウェアのいずれでも実
現することが可能であるが、本機能が要求される信頼性
という観点から考えると、ハードウェアで実現すること
が望ましい。
命的な障害の発生は、システムの維持・管理にとって重
大事であるので、誤判定(誤検出)は許されない。ただ
し、図2のような監視カードの状態の組み合わせに基づ
く判定を行う場合、正常な動作状態の中で、一瞬だけ、
異常発生と判定されるような組み合わせが、見かけ上、
生じる場合がある。
や監視カード切替時においては、見かけ上、異常発生と
判定されるような組み合わせが生じる。
ド(10a,10b)の状態は、両系ともに「実装+初
期化中」となり、図2の通番7に該当するため、そのま
までは運用不可能状態と判定されてしまう。
が必要だが、切替中に一瞬でも両系ともに「実装+運用
中」以外の状態と検出されてしまった場合、そのままで
は運用不可能状態と判定されてしまう。したがって、こ
のような場合に、誤判定を行わないように対策しておく
ことが重要である。
ては、システムリセット後(起動にかかると通常想定さ
れる)一定期間は監視カード側で「実装+運用中」であ
るかのように回線インタフェースカード110に対して
通知する方法が考えられる。
線インタフェースカード110もリセットされるので回
線インタフェースカード110側でシステムリセット後
一定期間は運用可否判定を実施しないよう保護期間を設
ける方法も考えられる。
る。保護期間中でも回線インタフェースカード110で
監視カードの状態を監視しておき、1度でも運用可否判
定が可となる条件に合致したら保護期間が満了していな
くても保護期間を解除する。このようにすれば、監視カ
ード10a,10bがシステムリセット後運用中状態と
なった直後に障害が発生した場合でも、保護期間の満了
を待たずに速やかに致命的状態を検出することができ
る。なお、保護期間の設定/解除はタイマ112を参照
して行われる。
止に関しては、監視カードの正常な切替処理で両系とも
に「実装+運用中」以外の状態となるのは一瞬である。
「実装+運用中」から他の状態に遷移した場合について
は、回線インタフェースカード110への状態通知上
は、一定時間「実装+運用中」のままとし、その後に遷
移した状態を通知するように遅延処理を実施すれば、運
用不可能状態と誤検出されることはなくなる。遅延処理
の実施は、ソフトウェア・ハードウェアのいずれでも実
現可能であるが、FPGAやPLDなどのハードウェア
での実現が比較的容易である。
の検出性能に影響が出てしまうので、通常では数100
ミリ秒以内、長くとも数秒に留めておいた方が良い。ま
た他の方法として、回線インタフェースカード110に
運用可否判定の保護時間を設け、一定時間以上否の判定
が継続した場合にのみ、運用不可能な状態と判定する方
法も考えられる。
視カード運用不可の報告を受信後一定時間経過しても、
監視カードから復旧の報告がない場合は、上位システム
850からリセットの指示をあらかじめ取り決めておい
た形式で回線インタフェースカード110に対して出し
て、再度監視カードのリセットを実施させる。この指示
は、回線インタフェースカード110の通信インタフェ
ース部120で受信され、リセット部117に伝えら
れ、リセット部117が所定のリセットを実行する。
タフェースカード110へ指示できるリセットの種類を
複数用意しておき、監視カードの両系リセットで復旧し
ない場合は、システム全体のリセットを実施できるよう
にしておき、上位システムからのリセットにより速やか
に復旧できる可能性を、さらに増大させることができ
る。この場合、上述したように、回線インタフェースカ
ード側のメモリに、あらかじめ指令を登録しておけば、
上位システム850から、指令の番号のみを回線121
を介して送信すればよく、便利である。
能やリセット制御機能、上位システムへの報告機能を、
回線インタフェースカード110以外の機能カードに搭
載することが考えられるのは言うまでもない。
は、検出判断機能やリセット制御機能、上位システムへ
の報告機能自身が故障すること、監視カード未実装時の
検出方法などを別途考慮する必要がある。
能カードに搭載した場合、致命的状態を検出判定した機
能カードは必ず回線インタフェースカードを経由して上
位システムへ報告することになる。したがって、検出判
定カードと回線インタフェースカードの2つの機能カー
ドが正常に動作する必要があるので、回線インタフェー
スカード1枚が正常なら動作できる場合と比べると、信
頼性面で若干不利である。
は、監視カードだけを対象とせず、システムリセットと
して、より広い範囲のリセットを実施して、復旧の確率
を増大させることが考えられる。
として、リセット範囲の異なる複数種を用意し、まず監
視カードの両系のみのような狭い範囲のリセットを実施
し、それでも復旧しない場合には、システムリセットの
ようなより広い範囲のリセットを実施して復旧を試みる
ことが考えられる。
ースカードで運用不可能な状態になったと検出判定した
場合に自律的に監視カードの両系リセットを実施するこ
ととしたが、自律的な監視カードの両系リセットは行わ
ず、単に上位システムからリセット指示を待つ方法が考
えられることは言うまでもない。
可否の検出判定を例に示したが、他の機能カードの検出
判定にも適用できることは言うまでもない。
の致命的な状態を速やかに検出し、上位システムに通知
するとともに、該当箇所のリセットを実施により復旧を
試みることができる。
に示すような、不測の重大な障害に対する多重の防御が
なされていることになる。
り(図3のステップ200)、第2に、監視カード自体
の運用不能状態のチェックと即時の自律的復旧動作であ
り(図3のステップ210)、第3に、上位システムに
よる監視カードを含むシステムの監視および上位システ
ムの主導による多種類の復旧対策(図3のステップ22
0)である。
な監視・復旧の手順をまとめると、図4のようになる。
視するシステムにおいて、監視カードを冗長構成とする
と共に、それらの監視カード自体の状態を監視する機能
(致命的な障害を検出する障害検出部)を、例えば、上
位装置との通信を担当する回線インタフェースカードに
もたせる(ステップ300)。なお、障害検出部は、単
に障害を検出するだけでなく、例えば、監視カードにつ
いて複数種類のリセットを行う機能を併せ持つ。
し、それらの状態の組み合わせに基づき、運用が不能な
致命的な状態が生じたか否かをチェックする(ステップ
310)。このとき、システムのリセット直後あるいは
監カードの切替時に誤検出が生じないように、保護期間
を設ける等の措置をとり、一方、実際に運用が不能な状
態が生じた場合にはこれを確実に検出するための工夫を
するのが好ましい。
合には、障害検出部は、そのことをあらかじめ取り決め
ておいた形式で上位システムに通知すると共に、監視カ
ードをリセット(初期化して再立ち上げを行うこと)
し、自立的な復旧を試みる。そして、復旧すれば、その
ことを上位システムに通知する(ステップ320)。
不能が通知されてから所定時間内に復旧の通知を受け取
らない場合には、自ら指令を発して、監視カードをリセ
ットさせたり、あるいは監視カードに留まらず、より広
範なシステムをリセットする等の可能な限りの手段を駆
使して復旧を試みる(ステップ330)。
できなかった致命的な障害についても、監視と即時の対
策を行えるようになる。
判定する検出判定手段と、判定結果を上位システムへ報
告する通知手段とを具備することで、上位システムで速
やかに致命的な状態認識することができ、システムに対
して復旧の対処を行うことができるようになる。
する検出判定手段と、致命的な状態と判定時に該当箇所
を自律的にリセットする制御手段と、を具備する構成を
採ることで、致命的な状態を速やかに検出判定し該当箇
所を即座にリセットすることができるようになり、シス
テムが提供するサービスの中断時間を短縮することがで
きる。
する検出判定手段と、判定結果を上位システムへ報告す
る通知手段と、上位システムからの指示により該当箇所
をリセットする制御手段(リセット手段)とを具備する
構成を採ることにより、上位システムで速やかに致命的
な状態認識し上位システムでの判断で即座にリセットを
実施することができ、システムが提供するサービスの中
断時間を短縮することができる。
リセットにより特定種類の冗長化された機能カードのす
べてが運用不可能な致命的状態を検出判定する検出判定
手段を具備することで、冗長構成を取った特定種類の機
能カード全てが運用不可能となりサービスの提供に重大
な影響を与えていることが自動的かつ速やかに検出判定
できるので、システムに対しての復旧対処を迅速に行う
ことができる。
リセットにより特定種類の冗長化された機能カードのす
べてが運用不可能な致命的状態を他の種類の機能カード
で検出判定する検出判定手段を具備することで、冗長構
成を取った特定種類の機能カード全てが未実装だった場
合のように当該機能カード自身では障害を検出できない
ような致命的状態でも、何ら影響を受けずより正確に致
命的な状態の検出できるので、システムに対しての復旧
対処をより迅速正確に行うことができる。
リセットにより特定の冗長化された機能カードのすべて
が運用不可能な致命的状態を上位装置との回線インタフ
ェースを担当する機能カードで検出判定する検出判定手
段と、検出結果をあらかじめ取り決めておいた形式で上
位システムへ報告する報告手段と、を具備する構成を採
ることで、致命的な状態を検出した機能カードが中継機
能カードを介さず直接上位装置へ報告でき、より確実
に、上位システムへの報告を実現することができる。
リセットにより特定種類の冗長化された機能カードのす
べてが運用不可能な致命的状態を他の種類の機能カード
で検出判定する検出判定手段と、致命的な状態と判定時
に該当箇所を自律的にリセットする制御手段とを具備す
る構成を採ることで、冗長構成を取った特定種類の機能
カードからはリセット制御が障害の影響を受けてできな
いような場合でも他の種類の機能カードからならリセッ
ト制御を実施することができ、リセット制御によるシス
テム復旧機会をより増大させることができる。
リセットにより特定の冗長化された機能カードのすべて
が運用不可能な致命的状態を上位装置との回線インタフ
ェースを担当する機能カードで検出判定する検出判定手
段と、検出結果をあらかじめ取り決めておいた形式で上
位システムへ報告する報告手段と、上位システムからの
指示により該当箇所をリセットする制御手段とを具備す
る構成を採ることで、致命的な状態を検出した機能カー
ドが直接上位装置へ報告できるので、中間に他の機能カ
ードを介しない分より信頼性が高い上位システムへの報
告を行うことができ、また、上位システムで速やかに致
命的な状態認識し上位システムでの判断で即座にリセッ
トを実施することができるので、システムが提供するサ
ービスの中断時間を短縮することができる。
リセットにより特定の冗長化された機能カードのすべて
が運用不可能な致命的状態を上位装置との回線インタフ
ェースを担当する機能カードで検出判定する検出判定手
段と、致命的状態と判定時にあらかじめ取り決めておい
た形式で上位システムへ報告する報告手段と、致命的な
状態と判定時に該当箇所を自律的にリセットする制御手
段と、を具備する構成を採ることで、致命的な状態を検
出した機能カードが直接上位装置へ報告できるので、中
間に他の機能カードを介しない分より信頼性が高い上位
システムへの報告を行うことができ、また、システムで
自律的にリセットを実施することができるので、システ
ムが提供するサービスの中断時間をより短縮することが
できる。また、検出判定手段を持った機能カードに対し
てシステムリセット中に関して、運用が停止していても
致命的な状態ではないと認識させる通知手段、を具備す
る構成を採ることで、システムリセットにより特定種類
の冗長化された機能カードのすべてが一時的に運用不可
能な状態に陥っていても検出判定手段で致命的な状態と
は誤検出されないので、上位システムに対して致命的な
状態の誤報告や誤判定によるリセットを防ぐことができ
る。
システムリセット制御を認識しシステムリセット後、一
定期間は致命的な状態と判定させない検出判定手段を具
備する構成を採ることで、システムリセットにより特定
種類の冗長化された機能カードのすべてが一時的に運用
不可能な状態に陥っていても検出判定手段で致命的な状
態とは誤検出されないので、上位システムに対して致命
的な状態の誤報告や誤判定によるリセットを防ぐことが
できる。
対して運用不可能な状態に陥った旨の通知をわずかな時
間遅らせて通知する通知手段を具備する構成を採ること
で、冗長化された機能カードの切替途中で過渡的に全機
能カードともに運用不可能な状態を一瞬経由した場合で
も検出判定手段を持つ機能カード側では運用可能状態と
認識させることができるので、致命的な状態と誤検出さ
れるのを防止することできる。
致命的な状態の判定をわずかな保護時間をもって判定す
る検出判定手段、を具備する構成を採ることで、冗長化
された機能カードの切替途中で過渡的に全機能カードと
もに運用不可能な状態に一瞬経由した場合でも検出判定
手段を持つ機能カード側で保護時間を持って判定するこ
とができ、致命的な状態と誤検出されるのを防止するこ
とできる。
る箇所をシステム全体ではなく箇所を限定してリセット
する制御手段、を具備する構成を採ることで、致命的な
状態に陥った箇所のみリセットが実施され他の箇所はリ
セットが実施されないので、リセット箇所以外で実現し
ているサービスをリセット中も継続して提供することが
できる。
複数種可能とし指示内容に応じてリセットする範囲を変
更してリセットする制御手段、を具備する構成を採るこ
とで、上位システムからのリセット指示は範囲のリセッ
トの範囲を指定できるので、リセット範囲を小さくして
リセット箇所以外で実現しているサービスを継続させる
ことやリセット範囲を大きくして小さな範囲のリセット
では復旧できない障害を上位システムからの指示で復旧
させることができる。
リセットにより特定の冗長化された機能カードのすべて
が運用不可能な致命的状態を上位装置との回線インタフ
ェースを担当する機能カードで検出判定する検出判定手
段と、検出結果をあらかじめ取り決めておいた形式で上
位システムへ報告する報告手段と、致命的な状態と判定
時に該当箇所を自律的にリセットする制御手段と、上位
システムからの指示により前記自律的にリセットよりも
より広い範囲をリセットする制御手段と、を具備する構
成を採る。
セット指示はより大きな範囲をリセットできるので、小
さな範囲をリセットする自律的なリセットで復旧できな
かった場合に上位システムからの指示による大きな範囲
のリセットで復旧できる可能性を高めることができる。
d-Code Division Multiple Access)を中心としたIM
T2000(International Mobile Telecommunication
s-2000)システムにおける基地局(BTS)のような、重
要な通信インフラの保守・管理の信頼性を向上させるこ
とができる。
監視方法および制御方法は、システムの致命的な状態を
速やかに検出し、上位システムに通知するとともに、該
当箇所のリセットを即座に実施して復旧を試みることに
より、サービスの中断時間を極力少なくした優れたシス
テムを実現できる。
の判定動作を説明するための図
るための図
の主要な手順を示すフロー図
成を示す図
Claims (7)
- 【請求項1】 冗長化された機能カードを有するシステ
ムであって、 冗長化された特定種類の機能カードのすべてが運用不可
能な致命的状態となったことを検出する、前記特定種類
の機能カード以外の機能カードに設けられる検出手段
と、 この検出手段による検出結果を上位システムへ、あらか
じめ取り決めておいた形式で報告する通知手段と、 前記上位システムからの指令を受けて所定の復旧処理を
行う機能をもつ復旧手段と、 を具備することを特徴とする、冗長化された機能カード
を有するシステム。 - 【請求項2】 請求項1において、 前記復旧手段は、さらに、前記致命的状態となった該当
箇所を自律的にリセットする機能を具備することを特徴
とする、冗長化された機能カードを有するシステム。 - 【請求項3】 請求項1または請求項2において、 前記冗長化された特定種類の機能カードは、他の種類の
機能カードの状態を監視する監視カードであり、また、
前記検出手段は、前記上位システムとの通信インタフェ
ースを担当する機能カードに設けられることを特徴とす
る、冗長化された機能カードを有するシステム。 - 【請求項4】 請求項1〜請求項3のいずれかにおい
て、 前記検出手段による致命的状態の検出に際し、システム
自体のリセット中に関しては、前記冗長化された特定種
類の機能カードの運用が停止していても致命的な状態で
はないと認識させるか、あるいは、システム自体のリセ
ット後所定の保護時間は、致命的な状態と判定すること
を禁止することを特徴とする冗長化された機能カードを
有するシステム。 - 【請求項5】 請求項1〜請求項3のいずれかにおい
て、 前記検出手段に対して運用不可能な状態に陥ったことを
示す信号が入力されるタイミングを一律に所定時間だけ
遅延させる、あるいは、前記検出手段において判定を行
う場合に所定の保護時間をもって判定するようにしたこ
とを特徴とする冗長化された機能カードを有するシステ
ム。 - 【請求項6】 請求項1〜請求項5のいずれかにおい
て、 上位システムからの指令に基づいて行う前記復旧処理の
内容を多様化し、前記自律的リセットで対処できない障
害についても対応可能としたことを特徴とする冗長化さ
れた機能カードを有するシステム。 - 【請求項7】 上位システムによる監視の下にある、機
能カードの集合体からなるシステムの障害対策方法であ
って、 機能カードの状態を監視する監視カードを冗長構成とす
ると共に、前記監視カードの各々の運用不能状態を、前
記上位システムに対する回線インタフェースを担当する
機能カードに設けられた致命的な障害を監視する部分で
監視するようにし、 前記監視カードのすべてが運用不能状態となった場合に
は、前記回線インタフェースを担当するカードがその旨
を前記上位システムに通知すると共に、即時の自律的復
旧動作を実行し、 必要がある場合には、前記通知を受けた前記上位システ
ムが指令を発して、前記上位システムの主導による復旧
処理を行うようにしたことを特徴とする障害対策方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001372575A JP2003173265A (ja) | 2001-12-06 | 2001-12-06 | 冗長化された機能カードを有するシステムおよび障害対策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001372575A JP2003173265A (ja) | 2001-12-06 | 2001-12-06 | 冗長化された機能カードを有するシステムおよび障害対策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003173265A true JP2003173265A (ja) | 2003-06-20 |
Family
ID=19181442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001372575A Pending JP2003173265A (ja) | 2001-12-06 | 2001-12-06 | 冗長化された機能カードを有するシステムおよび障害対策方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003173265A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006053873A (ja) * | 2004-08-16 | 2006-02-23 | Fujitsu Ltd | 機能装置、機能維持方法及び機能維持プログラム |
JP2012144376A (ja) * | 2012-05-07 | 2012-08-02 | Nisca Corp | シート折り装置及びこれを備えた後処理装置並びに画像形成システム |
EP2535816A1 (en) | 2011-06-17 | 2012-12-19 | Hitachi, Ltd. | Optical communication system, interface board and control method performed in interface board |
JP2017005357A (ja) * | 2015-06-05 | 2017-01-05 | 株式会社Nttドコモ | 通信システム |
CN108563542A (zh) * | 2018-05-03 | 2018-09-21 | 中山市江波龙电子有限公司 | 一种测试装置、系统及测试方法 |
-
2001
- 2001-12-06 JP JP2001372575A patent/JP2003173265A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006053873A (ja) * | 2004-08-16 | 2006-02-23 | Fujitsu Ltd | 機能装置、機能維持方法及び機能維持プログラム |
EP2535816A1 (en) | 2011-06-17 | 2012-12-19 | Hitachi, Ltd. | Optical communication system, interface board and control method performed in interface board |
US8826082B2 (en) | 2011-06-17 | 2014-09-02 | Hitachi, Ltd. | Optical communication system, interface board and control method performed in interface board |
JP2012144376A (ja) * | 2012-05-07 | 2012-08-02 | Nisca Corp | シート折り装置及びこれを備えた後処理装置並びに画像形成システム |
JP2017005357A (ja) * | 2015-06-05 | 2017-01-05 | 株式会社Nttドコモ | 通信システム |
CN108563542A (zh) * | 2018-05-03 | 2018-09-21 | 中山市江波龙电子有限公司 | 一种测试装置、系统及测试方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4873073B2 (ja) | 情報処理装置及び情報処理装置の障害復旧方法 | |
CN101324855B (zh) | 辅助cpu工作状态的检测方法、系统、组件及多cpu设备 | |
EP2637102B1 (en) | Cluster system with network node failover | |
US20020120884A1 (en) | Multi-computer fault detection system | |
JP4655718B2 (ja) | コンピュータシステム及びその制御方法 | |
JP2003173265A (ja) | 冗長化された機能カードを有するシステムおよび障害対策方法 | |
JP2001034495A (ja) | 二重化システム | |
CN105812191A (zh) | 一种容灾切换方法及装置 | |
US11954509B2 (en) | Service continuation system and service continuation method between active and standby virtual servers | |
CN103543705A (zh) | 一种主机运行状态切换的实现方法 | |
JP2578985B2 (ja) | 二重化制御装置 | |
JP3325785B2 (ja) | 計算機の故障検出・回復方式 | |
JP2006171995A (ja) | 制御用計算機 | |
JPH05260134A (ja) | 伝送装置の監視システム | |
JP2007026038A (ja) | パス監視システム,パス監視方法,およびパス監視プログラム | |
JPH1196033A (ja) | 情報処理装置 | |
JP2008228254A (ja) | 無線基地局 | |
CN109885450B (zh) | 主动式星载计算机健康状态监视优化方法及系统 | |
JP2008059531A (ja) | コンピュータシステムの障害通報方法 | |
JP2003332979A (ja) | 無線基地局装置における送信出力レベル異常の誤検出回避方法及び無線基地局装置 | |
JP2000044154A (ja) | エスカレータ遠隔監視装置 | |
KR20060086508A (ko) | 무선 통신 시스템에서 이중화 프로세서 보드의 상태 관리방법 | |
JP3107104B2 (ja) | 待機冗長方式 | |
JP4957068B2 (ja) | 二重化系切替え方法 | |
JPH1049450A (ja) | 遠隔監視システムの異常時の復旧方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040921 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070508 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070706 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070911 |