JP2003173265A - 冗長化された機能カードを有するシステムおよび障害対策方法 - Google Patents

冗長化された機能カードを有するシステムおよび障害対策方法

Info

Publication number
JP2003173265A
JP2003173265A JP2001372575A JP2001372575A JP2003173265A JP 2003173265 A JP2003173265 A JP 2003173265A JP 2001372575 A JP2001372575 A JP 2001372575A JP 2001372575 A JP2001372575 A JP 2001372575A JP 2003173265 A JP2003173265 A JP 2003173265A
Authority
JP
Japan
Prior art keywords
card
function
monitoring
state
reset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001372575A
Other languages
English (en)
Inventor
Toshitaka Oguri
敏孝 小栗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2001372575A priority Critical patent/JP2003173265A/ja
Publication of JP2003173265A publication Critical patent/JP2003173265A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Credit Cards Or The Like (AREA)
  • Hardware Redundancy (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

(57)【要約】 【課題】 基地局等のシステムにおいて、機能カー
ドの障害および抜去・リセット等に起因して監視カード
自体が運用不能になり、システムが致命的な状態に陥っ
た場合でも、サービスを速やかに復旧させること。 【解決手段】 回線インタフェースカード110に、冗
長構成を採る監視カード10a,10bの両カードの状
態を監視する機能を付与する。そして,両監視カードが
共に運用不可能な致命的状態に陥った場合には、上位シ
ステム850に致命的状態が発生したことを通知すると
共に、監視カード10a,10bのリセットを実施し、
即時の復旧を試みる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の機能カード
から構成されるシステムに関し、特にシステムダウンと
なるような致命的な状態の検出と復旧方法に関するもの
である。
【0002】
【従来の技術】複数の機能カードから構成される、移動
体通信の基地局などの通信インフラシステムでは、監視
制御機能を担当する機能カード(以下、監視カードと呼
ぶ)が通常設けられている。
【0003】図5を用いて、移動体通信の基地局(多数
の機能カードを使用した装置)を監視・制御するシステ
ムの全体的な構成の例について説明する。
【0004】図5のシステムでは、上位システムである
オペレーションセンター850が、多数の基地局810
a〜810c,810d〜810fを、制御局820
a,bや監視制御部830a,bを介して集中的に管理
する。
【0005】各基地局は、セルと呼ばれる管轄範囲Z
1,Z2をカバーしている。図中、参照符号700a,
700bは移動局を示す。
【0006】オペレーションセンター850は、各運用
業者に対応したOS(オペレーティングシステム)86
0a,860bと、常時監視装置870と、ワークステ
ーション880とを具備し、オペレータ890は、各基
地局の稼動状態や障害の発生の有無等をチェックするこ
とができる。
【0007】各基地局810a(〜810c),810
d(〜810f)はそれぞれ、監視カード812a,8
12bをもつ。各監視カードは、自カードならびに他の
機能カードの稼動状況を監視して情報を収集したり(情
報収集機能)、あるいは、障害検出時には、機能カード
の切替やリセットを実施して障害の復旧を試みたりす
る。また、上位システム(上位装置)からの要求(指
令)を受けて、ハードウエアに必要な動作パラメータ値
を設定する(情報設定機能)という機能も持つ。
【0008】このように、監視カードは、自カードを含
めシステム内の各機能カードの状態を監視し、障害検出
時には、機能カードの切替やリセットを実施して障害の
復旧を試みるという機能をもつ。また、監視カードは上
位システムに、基地局等のシステムの状態を報告し上位
システムからの指示を実行する機能も有する。
【0009】監視カードは、システムが安定的に動作す
るために重要な機能カードであるため、図5の例のよう
に、冗長構成を採って信頼性を高めたシステムが実現さ
れるの通常である。
【0010】すなわち、一つの監視カードの障害がシス
テム全体のサービスに影響を与えないように、システム
内に複数の監視カードが配備される。
【0011】
【発明が解決しようとする課題】上述のように、冗長構
成を採ることで、機能カードに対する障害対策は一応、
なされている。しかし、機能カードを監視する役目をも
つ監視カード自体が、すべて運用不能となってしまうよ
うな非常事態が発生した場合には、従来のシステムで
は、上位システムが事態を掌握することができず、基地
局等の復旧が、きわめて遅れてしまう場合もあり得る。
【0012】つまり、信頼性を高めるために機能カード
の冗長化を実施しても、同一種類の機能カードは、通
常、同一種類のハードウェアを使用しており、ソフトウ
ェアも同一のものを使用している。よって、機能カード
のハードウェア部品故障やOSライブラリの仕様バグによ
る障害などは、冗長構成を採った同一種類のすべての機
能カードでほぼ同時期に発生してしまうことが考えられ
る。
【0013】特に、すべての監視カードにおいて同時期
に障害が発生し運用不可能となった場合、その故障の程
度によっては、システムとしての監視制御機能が動作で
きなくなり、機能カードの切替や障害箇所のリセットな
ど適切な対処や、上位システムへの状態の報告も不可能
となり、システムによるサービスの提供に重大な影響を
与えるという課題があった。
【0014】本発明はかかる点に鑑みてなされたもので
あり、その目的は、冗長構成を取った同一種類の全機能
カードに同時期に障害が発生した場合(致命的な障害が
発生した場合)でも、速やかに障害を検出し復旧させる
ことができるシステムを実現することにある。
【0015】
【課題を解決するための手段】本発明では、監視制御を
多重化(多階層化)して、監視カード自体にも監視の目
が行き届くようにし、監視カードがすべて運用不能に陥
るような非常事態(致命的な障害の発生)の場合にもこ
れを検知し、最終的には、上位システムの主導による多
様化された復旧の試みを行うことを可能とする。
【0016】これにより、不測の事態(致命的な障害)
に対しても、迅速な復旧対策を実行することが可能とな
る。
【0017】
【発明の実施の形態】本発明の、冗長化された機能カー
ドを有するシステムは、冗長化された特定種類の機能カ
ードのすべてが運用不可能な致命的状態となったことを
検出する、前記特定種類の機能カード以外の機能カード
に設けられる検出手段と、この検出手段による検出結果
を上位システムへ、あらかじめ取り決めておいた形式で
報告する通知手段と、前記上位システムからの指令を受
けて所定の復旧処理を行う機能と、をもつ復旧手段と、
を具備する。
【0018】これにより、システムの致命的な状態を速
やかに検出し、上位システムに通知することができる。
また、非常事態の場合であっても、上位システムからの
監視が行き届き、上位システム主導による種々の復旧対
策を行えることから、障害に対する厚い防御を実現で
き、システムの信頼性が向上する。
【0019】また、本発明の、冗長化された機能カード
を有するシステムの他の態様では、前記復旧手段は、さ
らに、前記致命的状態となった該当箇所を自律的にリセ
ットする機能を具備する。
【0020】これにより、該当箇所のリセット(該当箇
所を含むより広範囲な部分をリセットすることも可能)
を即座に実施して復旧を試みることにより、サービスの
中断時間を極力少なくした優れたシステムを実現でき
る。
【0021】また、本発明の冗長化された機能カードを
有するシステムの他の態様では、前記冗長化された特定
種類の機能カードは、他の種類の機能カードの状態を監
視する監視カードであり、また、前記検出手段は、前記
上位システムとの通信インタフェースを担当する機能カ
ードに設けられる。
【0022】これにより、冗長構成の特定種類の機能カ
ード(監視カード)のすべてが未実装であった場合のよ
うに、当該監視カードでは障害を検出できないような場
合(致命的な場合)でも、必ず装備されている通信インタ
フェースカードを用いて障害を検出することが可能とな
る。よって、システムに対する復旧処理をより迅速かつ
正確に行うことができる。
【0023】また、本発明の、冗長化された機能カード
を有するシステムの他の態様では、前記検出手段による
致命的状態の検出に際し、システム自体のリセット中に
関しては、前記冗長化された特定種類の機能カードの運
用が停止していても致命的な状態ではないと認識させる
か、あるいは、システム自体のリセット後所定の保護時
間は、致命的な状態と判定することを禁止する。
【0024】これにより、システムのリセット等によ
り、特定種類の冗長化された機能カード(監視カード)
のすべてが一時的に運用不可能な状態になっている場合
に、この状態が、回復不能な致命的な状態であると誤検
出される心配がない。これにより、上位システムに対す
る致命的な状態の誤報告や、誤判定によるリセットが発
生するのを確実に防止することができる。
【0025】また、本発明の冗長化された機能カードを
有するシステムの他の態様では、前記検出手段に対して
運用不可能な状態に陥ったことを示す信号が入力される
タイミングを一律に所定時間だけ遅延させる、あるい
は、前記検出手段において判定を行う場合に所定の保護
時間をもって判定するようにした。
【0026】この構成によると、冗長化された機能カー
ドの切替の途中で、過渡的に、全機能カードが共に運用
不可能な状態を一瞬経由した場合でも、監視カード側で
は、運用可能状態と認識することができ、よって、致命
的な状態と誤検出されるのを防止することができる。
【0027】また、本発明の冗長化された機能カードを
有するシステムの他の態様では、上位システムからの指
令に基づいて行う前記復旧処理の内容を多様化し、前記
自律的リセットで対処できない障害についても対応可能
とする。
【0028】この構成によると、例えば、上位システム
から適切な範囲のリセットを指示することができ、リセ
ットが不必要な範囲までリセットを行ってしまうような
事態が無くなる。また、逆に、大規模な故障に対して
は、上位装置がリセットの範囲を拡大し、小さな範囲の
リセットでは対処できない障害についても適切な処理を
施して、早期復旧を可能とすることもできる。
【0029】また、本発明の機能カードの集合体からな
るシステムの障害対策方法では、機能カードの状態を監
視する監視カードを冗長構成とすると共に、前記監視カ
ードの各々の運用不能状態を、前記上位システムに対す
る回線インタフェースを担当する機能カードに設けられ
た致命的な障害を監視する部分で監視するようにし、前
記監視カードのすべてが運用不能状態となった場合に
は、前記回線インタフェースを担当するカードがその旨
を前記上位システムに通知すると共に、即時の自律的復
旧動作を実行し、必要がある場合には、前記通知を受け
た前記上位システムが指令を発して、前記上位システム
の主導による復旧処理を行う。
【0030】これにより、どのような状況であっても、
システムの致命的な状態を確実に、かつ速やかに検出
し、上位システムに通知することができ、また、該当箇
所のリセットを即座に実施して復旧を試みることによ
り、サービスの中断時間を極力少なくでき、さらに、必
要に応じて、上位装置からの適切な指示による対処を行
うことができる。これにより、システムの信頼性が大幅
に向上する。
【0031】以下、本発明の実施の形態について、図面
を参照して具体的に説明する。
【0032】図5に示すオペレーションセンター850
は、監視カード812a,812bを通じて、基地局の
状態を掌握することができるが、故障やバグによる障害
あるいは抜去・リセットにより特定種類の冗長化された
監視カードのすべてが運用不可能な致命的状態となった
場合には、従来の構成では、オペレーションセンター等
の上位システムにおける情報収集が不能となる。
【0033】そこで、本実施の形態では、図1に示すよ
うな構成を採用し、不測の事態にも迅速に対応できるよ
うにする。
【0034】図1は、多数の機能カードを実装した基地
局の構成を示すブロック図である。同図において、基地
局810は、複数の機能カード(20a,20b…)を
有し、これらの機能カードの状態を、冗長構成を採用し
た監視カード(N系(運用系)10a,E系(待機系)
10b)により監視している。
【0035】監視カード10a,10bはそれぞれ、バ
ス制御部11a,11b、レジスタ12a,12b、C
PU13a,13bを具備する。同様に、機能カード2
0a,20bも、バス制御部21a,21b、レジスタ
22a,22b、CPU23a,23bを具備する。
【0036】また、上位システム(オペレーションセン
ター)850との通信は、回線インタフェースカード1
10を介して行われる。
【0037】回線インタフェースカード110は、通信
インタフェース部120,致命的な障害に対する監視・
復旧を担当する制御部111と、タイマ112とを有す
る。
【0038】致命的な障害に対する監視・復旧を担当す
る制御部111は、障害検出部113と、リセット部
(リセットを含む復旧のための動作を制御する役目をも
つ)117と、リセットの範囲や復旧のために試みる手
段の種類に関する情報を記憶しているメモリ119と、
を有する。
【0039】また、監視カード10a,10bの各々の
状態は、状態通知線114,115を介して回線インタ
フェースカード110に通知されるようになっている。
【0040】また、図1中、参照符号116は、回線イ
ンタフェースカード110から監視カードをリセット等
の制御信号を送信するための制御線である。また、参照
符号121は、基地局810と上位システム850間を
結ぶ通信回線である。
【0041】上位システム850は、監視・制御部40
を具備し、複数の基地局システムの動作状態を、統括的
に監視・制御している。
【0042】以上のように構成されたシステムについ
て、その動作を説明する。
【0043】まず、監視カードN系10aは、自カード
の実装と障害の有無を状態通知線114を通じて回線イ
ンタフェースカード110に常時通知する。
【0044】監視カードE系10bについても同様に、
自カードの状態を状態通知線115を通じて回線インタ
フェースカード110に常時通知する。
【0045】回線インタフェースカード110では、状
態通知線114、115を通じて、冗長構成をとるすべ
ての監視カードの状態を把握する。
【0046】回線インタフェースカード110の障害検
出部113は、監視カードが両系ともに運用不可能な状
態になったと検出判定した場合には、通信回線を通じ
て、上位システム850にあらかじめ取り決めておいた
形式で報告するとともに、自律的に制御線116を使用
して、監視カード10a、10bを両系ともリセットす
る(つまり、電源の入れ直し、初期化処理を行う)。
【0047】監視カードのいずれかが正常に復帰した場
合は、上位システム850に対して復旧を報告する。以
上により、監視カードの障害時に監視カードに対してリ
セットを実施し、上位システムに対して障害を報告する
ことができる。
【0048】次に、回線インタフェースカード110の
障害検出部113が、どのようにして致命的な状態の発
生を検出・判定するかについて説明する。
【0049】ここでは、監視カード(N系、E系)の両
カード10a,10bの動作状態を、以下〜の5つ
の状態に分類する。 監視カードが実装されていない「未実装」状態。 監視カードが実装されていてリセット中もしくはリセ
ット後の初期化処理を実施している「実装+初期化中」
状態。 監視カードが実装されていて正常に監視機能が動作し
ている「実装+運用中」状態。 監視カードが実装されているが他系が正常に監視機能
が動作しているため待機している「実装+待機中」状態 監視カードが実装されているが故障して正常に動作し
ていない「実装+故障中」状態。
【0050】そして、冗長構成の監視カードの各々の現
在の動作状態の組み合わせ(25通りの組み合わせがあ
る)に基づき、図2に示すような運用の可否判定(監視
カードが運用不能の状態に陥っているか否かの判定)を
行う。
【0051】例えば、監視カードN系,E系の両系とも
「実装+故障中」と状態通知線を通じて回線インタフェ
ースカード110で検出されれば、図2の通番25にあ
るように、回線インタフェースカード110の障害検出
部113は、運用不可能な致命的な状態と判定する。
【0052】そして、そのような状態の発生を、通信イ
ンタフェース部120を介して上位システム850へ通
知すると共に、リセット部117が、監視カード10
a,10b(異常が、その他のカードにも及んでいる場
合には、それらを含む部分)のリセット処理を実行す
る。
【0053】なお、障害検出部113における、監視カ
ードについての致命的な状態の発生の検出・判定は、基
本的には、ソフトウェア,ハードウェアのいずれでも実
現することが可能であるが、本機能が要求される信頼性
という観点から考えると、ハードウェアで実現すること
が望ましい。
【0054】次に、誤判定の防止について説明する。致
命的な障害の発生は、システムの維持・管理にとって重
大事であるので、誤判定(誤検出)は許されない。ただ
し、図2のような監視カードの状態の組み合わせに基づ
く判定を行う場合、正常な動作状態の中で、一瞬だけ、
異常発生と判定されるような組み合わせが、見かけ上、
生じる場合がある。
【0055】例えば、システム全体をリセットした直後
や監視カード切替時においては、見かけ上、異常発生と
判定されるような組み合わせが生じる。
【0056】例えば、システムリセット直後の監視カー
ド(10a,10b)の状態は、両系ともに「実装+初
期化中」となり、図2の通番7に該当するため、そのま
までは運用不可能状態と判定されてしまう。
【0057】同様に、監視カードの切替には多少の時間
が必要だが、切替中に一瞬でも両系ともに「実装+運用
中」以外の状態と検出されてしまった場合、そのままで
は運用不可能状態と判定されてしまう。したがって、こ
のような場合に、誤判定を行わないように対策しておく
ことが重要である。
【0058】システムリセット直後の誤判定防止に関し
ては、システムリセット後(起動にかかると通常想定さ
れる)一定期間は監視カード側で「実装+運用中」であ
るかのように回線インタフェースカード110に対して
通知する方法が考えられる。
【0059】また、システムリセットを実施されると回
線インタフェースカード110もリセットされるので回
線インタフェースカード110側でシステムリセット後
一定期間は運用可否判定を実施しないよう保護期間を設
ける方法も考えられる。
【0060】さらにこの方法は、以下のように拡張でき
る。保護期間中でも回線インタフェースカード110で
監視カードの状態を監視しておき、1度でも運用可否判
定が可となる条件に合致したら保護期間が満了していな
くても保護期間を解除する。このようにすれば、監視カ
ード10a,10bがシステムリセット後運用中状態と
なった直後に障害が発生した場合でも、保護期間の満了
を待たずに速やかに致命的状態を検出することができ
る。なお、保護期間の設定/解除はタイマ112を参照
して行われる。
【0061】カードの切り替え作業中における誤判定防
止に関しては、監視カードの正常な切替処理で両系とも
に「実装+運用中」以外の状態となるのは一瞬である。
「実装+運用中」から他の状態に遷移した場合について
は、回線インタフェースカード110への状態通知上
は、一定時間「実装+運用中」のままとし、その後に遷
移した状態を通知するように遅延処理を実施すれば、運
用不可能状態と誤検出されることはなくなる。遅延処理
の実施は、ソフトウェア・ハードウェアのいずれでも実
現可能であるが、FPGAやPLDなどのハードウェア
での実現が比較的容易である。
【0062】また、遅延時間があまり長いと致命的状態
の検出性能に影響が出てしまうので、通常では数100
ミリ秒以内、長くとも数秒に留めておいた方が良い。ま
た他の方法として、回線インタフェースカード110に
運用可否判定の保護時間を設け、一定時間以上否の判定
が継続した場合にのみ、運用不可能な状態と判定する方
法も考えられる。
【0063】さらに、上位システム850において、監
視カード運用不可の報告を受信後一定時間経過しても、
監視カードから復旧の報告がない場合は、上位システム
850からリセットの指示をあらかじめ取り決めておい
た形式で回線インタフェースカード110に対して出し
て、再度監視カードのリセットを実施させる。この指示
は、回線インタフェースカード110の通信インタフェ
ース部120で受信され、リセット部117に伝えら
れ、リセット部117が所定のリセットを実行する。
【0064】さらに、上位システム850から回線イン
タフェースカード110へ指示できるリセットの種類を
複数用意しておき、監視カードの両系リセットで復旧し
ない場合は、システム全体のリセットを実施できるよう
にしておき、上位システムからのリセットにより速やか
に復旧できる可能性を、さらに増大させることができ
る。この場合、上述したように、回線インタフェースカ
ード側のメモリに、あらかじめ指令を登録しておけば、
上位システム850から、指令の番号のみを回線121
を介して送信すればよく、便利である。
【0065】なお、監視カードの運用可否の検出判断機
能やリセット制御機能、上位システムへの報告機能を、
回線インタフェースカード110以外の機能カードに搭
載することが考えられるのは言うまでもない。
【0066】ただし、監視カード自身に搭載する場合
は、検出判断機能やリセット制御機能、上位システムへ
の報告機能自身が故障すること、監視カード未実装時の
検出方法などを別途考慮する必要がある。
【0067】また、回線インタフェースカード以外の機
能カードに搭載した場合、致命的状態を検出判定した機
能カードは必ず回線インタフェースカードを経由して上
位システムへ報告することになる。したがって、検出判
定カードと回線インタフェースカードの2つの機能カー
ドが正常に動作する必要があるので、回線インタフェー
スカード1枚が正常なら動作できる場合と比べると、信
頼性面で若干不利である。
【0068】また、上位システムが指示するリセット
は、監視カードだけを対象とせず、システムリセットと
して、より広い範囲のリセットを実施して、復旧の確率
を増大させることが考えられる。
【0069】さらに、上位システムが指示するリセット
として、リセット範囲の異なる複数種を用意し、まず監
視カードの両系のみのような狭い範囲のリセットを実施
し、それでも復旧しない場合には、システムリセットの
ようなより広い範囲のリセットを実施して復旧を試みる
ことが考えられる。
【0070】なお、本実施の形態では、回線インタフェ
ースカードで運用不可能な状態になったと検出判定した
場合に自律的に監視カードの両系リセットを実施するこ
ととしたが、自律的な監視カードの両系リセットは行わ
ず、単に上位システムからリセット指示を待つ方法が考
えられることは言うまでもない。
【0071】さらに、本実施例では、監視カードの運用
可否の検出判定を例に示したが、他の機能カードの検出
判定にも適用できることは言うまでもない。
【0072】以上のように本実施例によれば、システム
の致命的な状態を速やかに検出し、上位システムに通知
するとともに、該当箇所のリセットを実施により復旧を
試みることができる。
【0073】以上、説明したようなシステムでは、図3
に示すような、不測の重大な障害に対する多重の防御が
なされていることになる。
【0074】すなわち、第1に監視カードの冗長化であ
り(図3のステップ200)、第2に、監視カード自体
の運用不能状態のチェックと即時の自律的復旧動作であ
り(図3のステップ210)、第3に、上位システムに
よる監視カードを含むシステムの監視および上位システ
ムの主導による多種類の復旧対策(図3のステップ22
0)である。
【0075】以上説明した、本システムにおける具体的
な監視・復旧の手順をまとめると、図4のようになる。
【0076】複数の機能カードの状態を監視カードで監
視するシステムにおいて、監視カードを冗長構成とする
と共に、それらの監視カード自体の状態を監視する機能
(致命的な障害を検出する障害検出部)を、例えば、上
位装置との通信を担当する回線インタフェースカードに
もたせる(ステップ300)。なお、障害検出部は、単
に障害を検出するだけでなく、例えば、監視カードにつ
いて複数種類のリセットを行う機能を併せ持つ。
【0077】障害検出部は、各監視カードの状態を監視
し、それらの状態の組み合わせに基づき、運用が不能な
致命的な状態が生じたか否かをチェックする(ステップ
310)。このとき、システムのリセット直後あるいは
監カードの切替時に誤検出が生じないように、保護期間
を設ける等の措置をとり、一方、実際に運用が不能な状
態が生じた場合にはこれを確実に検出するための工夫を
するのが好ましい。
【0078】監視カードの全部が運用不可能となった場
合には、障害検出部は、そのことをあらかじめ取り決め
ておいた形式で上位システムに通知すると共に、監視カ
ードをリセット(初期化して再立ち上げを行うこと)
し、自立的な復旧を試みる。そして、復旧すれば、その
ことを上位システムに通知する(ステップ320)。
【0079】一方、上位システムは、監視カードの運用
不能が通知されてから所定時間内に復旧の通知を受け取
らない場合には、自ら指令を発して、監視カードをリセ
ットさせたり、あるいは監視カードに留まらず、より広
範なシステムをリセットする等の可能な限りの手段を駆
使して復旧を試みる(ステップ330)。
【0080】このように、本発明によれば、従来、対処
できなかった致命的な障害についても、監視と即時の対
策を行えるようになる。
【0081】すなわち、システムの致命的な状態を検出
判定する検出判定手段と、判定結果を上位システムへ報
告する通知手段とを具備することで、上位システムで速
やかに致命的な状態認識することができ、システムに対
して復旧の対処を行うことができるようになる。
【0082】また、システムの致命的な状態を検出判定
する検出判定手段と、致命的な状態と判定時に該当箇所
を自律的にリセットする制御手段と、を具備する構成を
採ることで、致命的な状態を速やかに検出判定し該当箇
所を即座にリセットすることができるようになり、シス
テムが提供するサービスの中断時間を短縮することがで
きる。
【0083】また、システムの致命的な状態を検出判定
する検出判定手段と、判定結果を上位システムへ報告す
る通知手段と、上位システムからの指示により該当箇所
をリセットする制御手段(リセット手段)とを具備する
構成を採ることにより、上位システムで速やかに致命的
な状態認識し上位システムでの判断で即座にリセットを
実施することができ、システムが提供するサービスの中
断時間を短縮することができる。
【0084】また、故障やバグによる障害および抜去・
リセットにより特定種類の冗長化された機能カードのす
べてが運用不可能な致命的状態を検出判定する検出判定
手段を具備することで、冗長構成を取った特定種類の機
能カード全てが運用不可能となりサービスの提供に重大
な影響を与えていることが自動的かつ速やかに検出判定
できるので、システムに対しての復旧対処を迅速に行う
ことができる。
【0085】また、故障やバグによる障害および抜去・
リセットにより特定種類の冗長化された機能カードのす
べてが運用不可能な致命的状態を他の種類の機能カード
で検出判定する検出判定手段を具備することで、冗長構
成を取った特定種類の機能カード全てが未実装だった場
合のように当該機能カード自身では障害を検出できない
ような致命的状態でも、何ら影響を受けずより正確に致
命的な状態の検出できるので、システムに対しての復旧
対処をより迅速正確に行うことができる。
【0086】また、故障やバグによる障害および抜去・
リセットにより特定の冗長化された機能カードのすべて
が運用不可能な致命的状態を上位装置との回線インタフ
ェースを担当する機能カードで検出判定する検出判定手
段と、検出結果をあらかじめ取り決めておいた形式で上
位システムへ報告する報告手段と、を具備する構成を採
ることで、致命的な状態を検出した機能カードが中継機
能カードを介さず直接上位装置へ報告でき、より確実
に、上位システムへの報告を実現することができる。
【0087】また、故障やバグによる障害および抜去・
リセットにより特定種類の冗長化された機能カードのす
べてが運用不可能な致命的状態を他の種類の機能カード
で検出判定する検出判定手段と、致命的な状態と判定時
に該当箇所を自律的にリセットする制御手段とを具備す
る構成を採ることで、冗長構成を取った特定種類の機能
カードからはリセット制御が障害の影響を受けてできな
いような場合でも他の種類の機能カードからならリセッ
ト制御を実施することができ、リセット制御によるシス
テム復旧機会をより増大させることができる。
【0088】また、故障やバグによる障害および抜去・
リセットにより特定の冗長化された機能カードのすべて
が運用不可能な致命的状態を上位装置との回線インタフ
ェースを担当する機能カードで検出判定する検出判定手
段と、検出結果をあらかじめ取り決めておいた形式で上
位システムへ報告する報告手段と、上位システムからの
指示により該当箇所をリセットする制御手段とを具備す
る構成を採ることで、致命的な状態を検出した機能カー
ドが直接上位装置へ報告できるので、中間に他の機能カ
ードを介しない分より信頼性が高い上位システムへの報
告を行うことができ、また、上位システムで速やかに致
命的な状態認識し上位システムでの判断で即座にリセッ
トを実施することができるので、システムが提供するサ
ービスの中断時間を短縮することができる。
【0089】また、故障やバグによる障害および抜去・
リセットにより特定の冗長化された機能カードのすべて
が運用不可能な致命的状態を上位装置との回線インタフ
ェースを担当する機能カードで検出判定する検出判定手
段と、致命的状態と判定時にあらかじめ取り決めておい
た形式で上位システムへ報告する報告手段と、致命的な
状態と判定時に該当箇所を自律的にリセットする制御手
段と、を具備する構成を採ることで、致命的な状態を検
出した機能カードが直接上位装置へ報告できるので、中
間に他の機能カードを介しない分より信頼性が高い上位
システムへの報告を行うことができ、また、システムで
自律的にリセットを実施することができるので、システ
ムが提供するサービスの中断時間をより短縮することが
できる。また、検出判定手段を持った機能カードに対し
てシステムリセット中に関して、運用が停止していても
致命的な状態ではないと認識させる通知手段、を具備す
る構成を採ることで、システムリセットにより特定種類
の冗長化された機能カードのすべてが一時的に運用不可
能な状態に陥っていても検出判定手段で致命的な状態と
は誤検出されないので、上位システムに対して致命的な
状態の誤報告や誤判定によるリセットを防ぐことができ
る。
【0090】また、検出判定手段を持った機能カードで
システムリセット制御を認識しシステムリセット後、一
定期間は致命的な状態と判定させない検出判定手段を具
備する構成を採ることで、システムリセットにより特定
種類の冗長化された機能カードのすべてが一時的に運用
不可能な状態に陥っていても検出判定手段で致命的な状
態とは誤検出されないので、上位システムに対して致命
的な状態の誤報告や誤判定によるリセットを防ぐことが
できる。
【0091】また、検出判定手段を持った機能カードに
対して運用不可能な状態に陥った旨の通知をわずかな時
間遅らせて通知する通知手段を具備する構成を採ること
で、冗長化された機能カードの切替途中で過渡的に全機
能カードともに運用不可能な状態を一瞬経由した場合で
も検出判定手段を持つ機能カード側では運用可能状態と
認識させることができるので、致命的な状態と誤検出さ
れるのを防止することできる。
【0092】また、検出判定手段を持った機能カードで
致命的な状態の判定をわずかな保護時間をもって判定す
る検出判定手段、を具備する構成を採ることで、冗長化
された機能カードの切替途中で過渡的に全機能カードと
もに運用不可能な状態に一瞬経由した場合でも検出判定
手段を持つ機能カード側で保護時間を持って判定するこ
とができ、致命的な状態と誤検出されるのを防止するこ
とできる。
【0093】また、致命的な状態と判定時にリセットす
る箇所をシステム全体ではなく箇所を限定してリセット
する制御手段、を具備する構成を採ることで、致命的な
状態に陥った箇所のみリセットが実施され他の箇所はリ
セットが実施されないので、リセット箇所以外で実現し
ているサービスをリセット中も継続して提供することが
できる。
【0094】また、上位システムからのリセット指示を
複数種可能とし指示内容に応じてリセットする範囲を変
更してリセットする制御手段、を具備する構成を採るこ
とで、上位システムからのリセット指示は範囲のリセッ
トの範囲を指定できるので、リセット範囲を小さくして
リセット箇所以外で実現しているサービスを継続させる
ことやリセット範囲を大きくして小さな範囲のリセット
では復旧できない障害を上位システムからの指示で復旧
させることができる。
【0095】また、故障やバグによる障害および抜去・
リセットにより特定の冗長化された機能カードのすべて
が運用不可能な致命的状態を上位装置との回線インタフ
ェースを担当する機能カードで検出判定する検出判定手
段と、検出結果をあらかじめ取り決めておいた形式で上
位システムへ報告する報告手段と、致命的な状態と判定
時に該当箇所を自律的にリセットする制御手段と、上位
システムからの指示により前記自律的にリセットよりも
より広い範囲をリセットする制御手段と、を具備する構
成を採る。
【0096】この構成によれば、上位システムからのリ
セット指示はより大きな範囲をリセットできるので、小
さな範囲をリセットする自律的なリセットで復旧できな
かった場合に上位システムからの指示による大きな範囲
のリセットで復旧できる可能性を高めることができる。
【0097】本発明によれば、W−CDMA(Wide ban
d-Code Division Multiple Access)を中心としたIM
T2000(International Mobile Telecommunication
s-2000)システムにおける基地局(BTS)のような、重
要な通信インフラの保守・管理の信頼性を向上させるこ
とができる。
【0098】
【発明の効果】以上説明したように本発明のシステムの
監視方法および制御方法は、システムの致命的な状態を
速やかに検出し、上位システムに通知するとともに、該
当箇所のリセットを即座に実施して復旧を試みることに
より、サービスの中断時間を極力少なくした優れたシス
テムを実現できる。
【図面の簡単な説明】
【図1】基地局装置を含むシステムの全体構成を示す図
【図2】図1に示される障害検出部における、障害発生
の判定動作を説明するための図
【図3】本発明における多重の障害対策について説明す
るための図
【図4】図1に示すシステムにおける、監視・復旧動作
の主要な手順を示すフロー図
【図5】CDMA通信の基地局を含むシステムの全体構
成を示す図
【符号の説明】
10a,10b 監視カード(N系,E系) 11a,11b,21a,21b バス制御部 12a,12b,22a,22b レジスタ 13a,13b,23a,23b CPU 20a,20b 機能カード 40 監視・制御部 110 回線インタフェースカード 111 監視・復旧制御部 112 タイマ 113 障害検出部 114,115 状態通知線 116 制御線 117 リセット部(制御部) 119 メモリ 120 通信インタフェース部 121 通信回線 810 基地局 850 上位システム(オペレーションセンター)
フロントページの続き Fターム(参考) 2C005 MA21 MA25 SA30 5B034 BB17 DD02 DD05 5K035 AA01 CC10 FF01 FF04 HH02 LL12 5K067 AA33 BB04 EE10 KK11 KK13 LL01 LL05 LL14

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 冗長化された機能カードを有するシステ
    ムであって、 冗長化された特定種類の機能カードのすべてが運用不可
    能な致命的状態となったことを検出する、前記特定種類
    の機能カード以外の機能カードに設けられる検出手段
    と、 この検出手段による検出結果を上位システムへ、あらか
    じめ取り決めておいた形式で報告する通知手段と、 前記上位システムからの指令を受けて所定の復旧処理を
    行う機能をもつ復旧手段と、 を具備することを特徴とする、冗長化された機能カード
    を有するシステム。
  2. 【請求項2】 請求項1において、 前記復旧手段は、さらに、前記致命的状態となった該当
    箇所を自律的にリセットする機能を具備することを特徴
    とする、冗長化された機能カードを有するシステム。
  3. 【請求項3】 請求項1または請求項2において、 前記冗長化された特定種類の機能カードは、他の種類の
    機能カードの状態を監視する監視カードであり、また、
    前記検出手段は、前記上位システムとの通信インタフェ
    ースを担当する機能カードに設けられることを特徴とす
    る、冗長化された機能カードを有するシステム。
  4. 【請求項4】 請求項1〜請求項3のいずれかにおい
    て、 前記検出手段による致命的状態の検出に際し、システム
    自体のリセット中に関しては、前記冗長化された特定種
    類の機能カードの運用が停止していても致命的な状態で
    はないと認識させるか、あるいは、システム自体のリセ
    ット後所定の保護時間は、致命的な状態と判定すること
    を禁止することを特徴とする冗長化された機能カードを
    有するシステム。
  5. 【請求項5】 請求項1〜請求項3のいずれかにおい
    て、 前記検出手段に対して運用不可能な状態に陥ったことを
    示す信号が入力されるタイミングを一律に所定時間だけ
    遅延させる、あるいは、前記検出手段において判定を行
    う場合に所定の保護時間をもって判定するようにしたこ
    とを特徴とする冗長化された機能カードを有するシステ
    ム。
  6. 【請求項6】 請求項1〜請求項5のいずれかにおい
    て、 上位システムからの指令に基づいて行う前記復旧処理の
    内容を多様化し、前記自律的リセットで対処できない障
    害についても対応可能としたことを特徴とする冗長化さ
    れた機能カードを有するシステム。
  7. 【請求項7】 上位システムによる監視の下にある、機
    能カードの集合体からなるシステムの障害対策方法であ
    って、 機能カードの状態を監視する監視カードを冗長構成とす
    ると共に、前記監視カードの各々の運用不能状態を、前
    記上位システムに対する回線インタフェースを担当する
    機能カードに設けられた致命的な障害を監視する部分で
    監視するようにし、 前記監視カードのすべてが運用不能状態となった場合に
    は、前記回線インタフェースを担当するカードがその旨
    を前記上位システムに通知すると共に、即時の自律的復
    旧動作を実行し、 必要がある場合には、前記通知を受けた前記上位システ
    ムが指令を発して、前記上位システムの主導による復旧
    処理を行うようにしたことを特徴とする障害対策方法。
JP2001372575A 2001-12-06 2001-12-06 冗長化された機能カードを有するシステムおよび障害対策方法 Pending JP2003173265A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001372575A JP2003173265A (ja) 2001-12-06 2001-12-06 冗長化された機能カードを有するシステムおよび障害対策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001372575A JP2003173265A (ja) 2001-12-06 2001-12-06 冗長化された機能カードを有するシステムおよび障害対策方法

Publications (1)

Publication Number Publication Date
JP2003173265A true JP2003173265A (ja) 2003-06-20

Family

ID=19181442

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001372575A Pending JP2003173265A (ja) 2001-12-06 2001-12-06 冗長化された機能カードを有するシステムおよび障害対策方法

Country Status (1)

Country Link
JP (1) JP2003173265A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053873A (ja) * 2004-08-16 2006-02-23 Fujitsu Ltd 機能装置、機能維持方法及び機能維持プログラム
JP2012144376A (ja) * 2012-05-07 2012-08-02 Nisca Corp シート折り装置及びこれを備えた後処理装置並びに画像形成システム
EP2535816A1 (en) 2011-06-17 2012-12-19 Hitachi, Ltd. Optical communication system, interface board and control method performed in interface board
JP2017005357A (ja) * 2015-06-05 2017-01-05 株式会社Nttドコモ 通信システム
CN108563542A (zh) * 2018-05-03 2018-09-21 中山市江波龙电子有限公司 一种测试装置、系统及测试方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053873A (ja) * 2004-08-16 2006-02-23 Fujitsu Ltd 機能装置、機能維持方法及び機能維持プログラム
EP2535816A1 (en) 2011-06-17 2012-12-19 Hitachi, Ltd. Optical communication system, interface board and control method performed in interface board
US8826082B2 (en) 2011-06-17 2014-09-02 Hitachi, Ltd. Optical communication system, interface board and control method performed in interface board
JP2012144376A (ja) * 2012-05-07 2012-08-02 Nisca Corp シート折り装置及びこれを備えた後処理装置並びに画像形成システム
JP2017005357A (ja) * 2015-06-05 2017-01-05 株式会社Nttドコモ 通信システム
CN108563542A (zh) * 2018-05-03 2018-09-21 中山市江波龙电子有限公司 一种测试装置、系统及测试方法

Similar Documents

Publication Publication Date Title
JP4873073B2 (ja) 情報処理装置及び情報処理装置の障害復旧方法
CN101324855B (zh) 辅助cpu工作状态的检测方法、系统、组件及多cpu设备
EP2637102B1 (en) Cluster system with network node failover
US20020120884A1 (en) Multi-computer fault detection system
JP4655718B2 (ja) コンピュータシステム及びその制御方法
JP2003173265A (ja) 冗長化された機能カードを有するシステムおよび障害対策方法
JP2001034495A (ja) 二重化システム
CN105812191A (zh) 一种容灾切换方法及装置
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
CN103543705A (zh) 一种主机运行状态切换的实现方法
JP2578985B2 (ja) 二重化制御装置
JP3325785B2 (ja) 計算機の故障検出・回復方式
JP2006171995A (ja) 制御用計算機
JPH05260134A (ja) 伝送装置の監視システム
JP2007026038A (ja) パス監視システム,パス監視方法,およびパス監視プログラム
JPH1196033A (ja) 情報処理装置
JP2008228254A (ja) 無線基地局
CN109885450B (zh) 主动式星载计算机健康状态监视优化方法及系统
JP2008059531A (ja) コンピュータシステムの障害通報方法
JP2003332979A (ja) 無線基地局装置における送信出力レベル異常の誤検出回避方法及び無線基地局装置
JP2000044154A (ja) エスカレータ遠隔監視装置
KR20060086508A (ko) 무선 통신 시스템에서 이중화 프로세서 보드의 상태 관리방법
JP3107104B2 (ja) 待機冗長方式
JP4957068B2 (ja) 二重化系切替え方法
JPH1049450A (ja) 遠隔監視システムの異常時の復旧方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070706

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070911