JP2008226153A - コンピュータ冗長システム - Google Patents

コンピュータ冗長システム Download PDF

Info

Publication number
JP2008226153A
JP2008226153A JP2007067201A JP2007067201A JP2008226153A JP 2008226153 A JP2008226153 A JP 2008226153A JP 2007067201 A JP2007067201 A JP 2007067201A JP 2007067201 A JP2007067201 A JP 2007067201A JP 2008226153 A JP2008226153 A JP 2008226153A
Authority
JP
Japan
Prior art keywords
computer
check
information
checking
healthy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007067201A
Other languages
English (en)
Inventor
Hisashi Fujimori
久 藤森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007067201A priority Critical patent/JP2008226153A/ja
Publication of JP2008226153A publication Critical patent/JP2008226153A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

【課題】主系がダウンするなどの致命的障害を発生する前に主系と従系の切替えを行う。
【解決手段】2つのサーバコンピュータ21、22は、自身の状態に関し複数のチェック項目によりチェックを行うチェック手段と、チェック手段によるヘルシーチェック情報を相互に送信する送信手段と、他のコンピュータから送られてくるヘルシーチェック情報を受信する受信手段と、自身の状態に関し複数のチェック項目によりチェックを行った結果および受信手段が受信したヘルシーチェック情報について、チェック項目に対応する重み情報を用いて数値化する数値化手段と、数値化結果を比較して、数値の大小に基づき主従の切替えを行う切替制御手段とを具備する。
【選択図】図1

Description

本発明は、各種の監視システムなどとして用いることのできるコンピュータ冗長システムに関するものである。
従来の冗長構成を用いた監視システムにあっては、冗長構成のサーバ切り替えを行うために、他方のヘルシー異常を検出するものであった。このため、主系が完全に異常状態となり、監視システムにおける監視が全く行えない状態に陥った後に、主系と従系の切り替えが行われるだけであった。
従って、冗長構成を採用しているにも拘らず、無監視状態となり、適切な監視を行えないという問題があった。特許文献1には、致命的障害発生の通知を他方へ送信することにより、バックアップするシステムが示されている。しかし、この特許文献1にあっても、主従の切り替えは致命的障害発生の通知を受けてから行われるものであり、監視システムに用いた場合には無監視状態となり、適切な監視を行えない問題点があった。
特開平5−143381号公報
本発明は上記のような従来の冗長システムにおける問題点を解決せんとしてなされたもので、その目的は、主系がダウンするなどの致命的障害を発生する前に主系と従系の切替えを行うことができ、システムとしての動作が行われない事態を防ぐことのできるコンピュータ冗長システムを提供することである。
本発明に係るコンピュータ冗長システムは、第1のコンピュータと第2のコンピュータとの一方が主系で、他方が従系として動作する冗長構成のコンピュータシステムにおいて、前記2つのコンピュータは、自身の状態に関し複数のチェック項目によりチェックを行うチェック手段と、チェック手段によるヘルシーチェック情報を相互に送信する送信手段と、他のコンピュータから送られてくるヘルシーチェック情報を受信する受信手段と、自身の状態に関し複数のチェック項目によりチェックを行った結果および受信手段が受信したヘルシーチェック情報について、チェック項目に対応する重み情報を用いて数値化する数値化手段と、数値化結果を比較して、数値の大小に基づき主従の切替えを行う切替制御手段とを具備することを特徴とする。
本発明に係るコンピュータ冗長システムでは、切替制御手段は、受信手段によるヘルシーチェック情報の受信が所定期間ない場合に、他のコンピュータが異常として必要な場合に、主従の切替えを行うことを特徴とする。
本発明に係るコンピュータ冗長システムでは、各項目対応の重みを2進表示による異なる桁に割当てて表現し、桁位置を変更することにより項目の重みを変更可能とすることを特徴とする。
本発明に係るコンピュータ冗長システムでは、切替制御手段は、数値化結果が同値である場合に切替えを行わず、また、両コンピュータが共に主系または従系となると、コンピュータ識別番号に基づき一方を主系に他方を従系に設定することを特徴とする。
本発明に係るコンピュータ冗長システムでは、自身の状態に関し複数のチェック項目によりチェックを行った結果および受信したヘルシーチェック情報について、チェック項目に対応する重み情報を用いて数値化し、数値化結果を比較して、数値の大小に基づき主従の切替えを行うので、主系がダウンするなどの致命的障害を発生する前に主系と従系の切替えを行うことができ、システムとしての動作が行われない事態を防ぐことができる。
本発明に係るコンピュータ冗長システムでは、ヘルシーチェック情報の受信が所定期間ない場合に、他のコンピュータが異常として必要な場合に、主従の切替えを行うので、主系がダウンするなどの致命的障害した場合に、チェック項目に対応する重み情報を用いた数値化に拘らず必要な場合の主従切替えがなされる。
本発明に係るコンピュータ冗長システムでは、各項目対応の重みを2進表示による異なる桁に割当てて表現し、桁位置を変更することにより項目の重みを変更可能とするので、重み情報を用いた数値化が容易であり、また、項目の重み変更も容易であるという利点がある。
本発明に係るコンピュータ冗長システムでは、数値化結果が同値である場合に切替えを行わないので、意味のない切替えが頻繁に発生する事態を防ぐことができ、また、両コンピュータが共に主系または従系となると、コンピュータ識別番号に基づき一方を主系に他方を従系に設定するので、両コンピュータが共に主系または従系となり、システムが適切に運用されない事態を防ぐことができる。
以下添付図面を参照して、本発明の実施例に係るコンピュータ冗長システムを説明する。各図において、同一の構成要素には同一の符号を付して重複する説明を省略する。図1には、実施例に係るコンピュータ冗長システムを適用した監視システムの構成が示されている。この監視システムは、ネットワーク10に、ビデオカメラなどを含む複数台の監視対象設備11−1〜11−nが接続され、また、複数台の監視画面表示クライアント12−1〜12−mが接続されている。更に、第1のサーバコンピュータ21、第2のサーバコンピュータ22がネットワーク10に接続されている。
例えば、現在において主系が第1のサーバコンピュータ21であると、監視対象設備11−1〜11−nにより例えば撮像された映像情報が第1のサーバコンピュータ21へ送られる。監視画面表示クライアント12−1〜12−mは、第1のサーバコンピュータ21へアクセスして、上記映像情報の配信を受けて映像をモニタに表示して監視を行うことができる。
第1のサーバコンピュータ21、第2のサーバコンピュータ22には、図2に示される各手段が備えられる他、図1に示す状況管理テーブルTが備えられ、自身と他のサーバコンピュータの状態に関し複数のチェック項目であるシステム情報毎に状態情報(1または0)がセットされている。この例では、状況管理テーブルTには、システム情報として「ヘルシー正常」、「プロセス正常」、「HDD正常」、「回線正常」、・・・、「現在主系」、「SVS1」がセットされている。
「ヘルシー正常」は、当該コンピュータの予め定められた基本的な機能が正常であるかをチェックした結果を示し、「プロセス正常」は、当該コンピュータの予め定められた基本的なプロセス(ソフトウエア)をチェックした結果を示し、「HDD正常」は、当該コンピュータのHDD(ハードディスクドライブ)についてチェックした結果を示し、「回線正常」は、接続されている回線についてチェックした結果を示し、「現在主系」は、当該コンピュータが現在において主系であるかを示し、「SVS1」は当該サーバコンピュータ21の識別情報がSVS1であるかを示す。なお、サーバコンピュータ22の識別情報はSVS2である。第1行目の「SVS1」と「SVS2」の欄について、各システム情報に対し「YES」であれば、「1」がセットされ、「NO」であれば「0」がセットされる。ここに示したシステム情報は、一例に過ぎない。上記のチェックは、コンピュータの自身の状態に関し複数のチェック項目によりチェックを行う図2のチェック手段31(ソフトウエア)がセンサから情報を収集し或いはソフトウエアチェック行うことにより実現されるものである。
また、状況管理テーブルTの最下欄にセットされている主系昇格に関する「評価値」はシステム情報について、対応する重み情報を用いて数値化した値をR1、R2と表現している。「SVS1」が最下位桁に対応付けられている。また、第1のサーバコンピュータ21、第2のサーバコンピュータ22には、図2に示されているように、チェック手段31によるヘルシーチェック情報を相互に送信する送信手段32、他のコンピュータから送られてくるヘルシーチェック情報を受信する受信手段33が備えられている。
また、第1のサーバコンピュータ21、第2のサーバコンピュータ22には、切替え条件の定義ファイルを読み込むことにより得られた重みテーブルTGが備えられている。この重みテーブルTGには、チェック項目であるシステム情報毎に重み情報が対応付けて記憶されている。ここで、各システム情報対応の重みを2進表示による異なる桁に割当てて表現している。「ヘルシー正常」が最初の「0x」を除き、最上位桁に対応付けられ、「プロセス正常」が最上位桁の次に対応付けられ、・・・、「SVS1」が最下位桁に対応付けられている。つまり、「ヘルシー正常」は最も重みが重く、「SVS1」は最も重みが軽い。各システム情報に対し「YES」であれば、該当する桁に「1」がセットされ、「NO」であれば該当する桁に「0」がセットされる。このように、各項目対応の重みを2進表示による異なる桁に割当てて表現し、桁位置を変更することにより項目の重みを変更可能としている。
第1のサーバコンピュータ21、第2のサーバコンピュータ22には、図2に示す数値化手段34が備えられ、自身の状態に関し複数のチェック項目である各システム情報によりチェックを行った結果および受信したヘルシーチェック情報について、チェック項目に対応する重み情報を用いて数値化し、R1、R2を得る。具体的には、図1に示した重みテーブルTGの重み(該当桁が1である2進数)に対して、該当桁に「1」または「0」がセットされた2進数である各システム情報を掛けて、結果を加算する。この場合に、各システム情報が各桁に対応するから、全システム情報が「YES」であれば、数値化の結果は最初の「0x」を除き、オール1になる。
また、第1のサーバコンピュータ21、第2のサーバコンピュータ22には、上記数値化結果を比較して、数値の大小に基づき主従の切替えを行う図2に示す切替制御手段35が備えられている。自装置の数値化結果が相手装置より大きければ主系へ昇格し、小さければ従系降格して、主従を切替え主従に基づき処理を行う。切替制御手段35は、数値化結果が同値である場合に切替えを行わず、また、両コンピュータが共に主系または従系となると、コンピュータ識別番号に基づき一方を主系に他方を従系に設定する。
第1のサーバコンピュータ21と第2のサーバコンピュータ22とは、両方共に稼働するデュアルシステムの構成であり、同じように動作し、監視対象設備11−1〜11−nからの監視情報パケットは第1のサーバコンピュータ21と第2のサーバコンピュータ22で受信し、全く同じように信号処理・ファイリング処理する。また第1のサーバコンピュータ21と第2のサーバコンピュータ22と定期的にデータの整合を取る処理を行う。ただし、主系・従系の情報を保持し、監視画面表示クライアント12−1〜12−mへ映像情報等の監視情報パケットを送信するのは常に主系のサーバコンピュータからとする。
第1のサーバコンピュータ21と第2のサーバコンピュータ22間では、相手が異常かどうかをチェックするためのヘルシーチェックパケットを定期的にお互いへ向けて送信手段32から送信する。受信手段33に対し、規定回数以上の間相手からヘルシーチェックパケットが届かなかった場合には、切替制御手段35は相手をヘルシー異常として、状況管理テーブルTのシステム情報における相手の「ヘルシー正常」に対応して「0」をセットする。本監視システムでは、このヘルシーチェックパケットに自コンピュータサーバにおいて保持する全てのシステム情報を付加してから送信する。付加するシステム情報としては、すでに図1で説明した通りであるが、図3に示す重みテーブルTGを備える例では、システム情報として「ファン正常」が加えられ、「回線正常」が「制御回線正常」と「情報回線正常」に分けられている。
以上の通りに構成されたシステムにおいて、第1のサーバコンピュータ21と第2のサーバコンピュータ22とが図4、図5及び図7に示すフローチャートに対応したプログラムを実行して動作することにより主系と従系の切替えが行われるので、これらのフローチャートに基づき動作を説明する。図4はヘルシーチェックパケット受信時の処理を示したものである。ヘルシーチェックパケットを受信し、受信に対応して受信済みフラグをセットし(ST1)、パケットに付加されている相手サーバコンピュータのシステム情報を取り込み、メモリに保存する(ST2)。このステップST2に続いて、メモリに保存したシステム情報に基づいて主系昇格に関する「評価値」を算出し、その結果により主系従系の切替え処理を実施する(ST3)。
図5は上記図4に示すフローチャートのステップST3における処理の詳細を示したフローチャートである。自コンピュータにおけるシステム情報と重みテーブルTGの重みとを掛けて、結果を加算することにより自コンピュータの主系昇格に関する「評価値」を算出する(ST4)。また、相手コンピュータのシステム情報と重みテーブルTGの重みとを掛けて、結果を加算することにより相手コンピュータの主系昇格に関する「評価値」を算出する(ST5)。算出した2つの主系昇格に関する「評価値」を比較し(ST6)、自コンピュータの「評価値」が大きければ自コンピュータを主系に昇格させ(ST7)、小さければ待機に降格させる(ST8)。
図6には、識別番号がSVS1であるサーバコンピュータ21において、制御回線正常から制御回線異常となり、システム情報の制御回線正常が「1」から「0」に変更された場合を示す状況管理テーブルTの内容を示す。これに応じて、識別番号がSVS1であるサーバコンピュータ21の評価値R1は評価値欄に示されているように「0x11111111」から「0x11110111」に変更され、識別番号がSVS2であるサーバコンピュータ22の評価値R2=「0x11111100」よりも小さくなる。この結果、当初に主系であったサーバコンピュータ21が従系に、また、当初に従系であったサーバコンピュータ22が主系に、それぞれ切り替えられる。この結果、切替後の評価値は、識別番号がSVS1であるサーバコンピュータ21では「0x11110101」となり、識別番号がSVS2であるサーバコンピュータ21では「0x11111110」となる。
第1のサーバコンピュータ21と第2のサーバコンピュータ22は、 図7に示されるフローチャート対応のプログラムにより定周期ヘルシー受信チェック処理を行う。一定周期でループし(ST9)、図4のステップST1の処理によってヘルシーパケット受信済みフラグがセットされたかをチェックする(ST10)。ステップST10のチェックが規定回数に達してもヘルシーパケット受信済みフラグがセットされていないことを検出し(ST11)、この検出結果がYESとなると、相手コンピュータからヘルシーチェックパケットが届いていないため相手コンピュータがヘルシー異常であるとみなす(ST12)。このステップST12において、状況管理テーブルTの相手コンピュータにおけるシステム情報において、「ヘルシー正常」に対し「0」がセットされる。このような処理に応じて自コンピュータのシステム情報と相手コンピュータのシステム情報と重みテーブルTGの重み情報を用いて、自コンピュータと相手コンピュータについて主系昇格に関する「評価値」を算出し、主系従系の切替え処理を実行する(ST13)。システム情報のヘルシー正常の項目は最優先の切替え条件であり、最初の「0x」を除き、2進数の最上位の桁に位置するため、このステップS13においては、当然自コンピュータが主系に昇格することになる。ステップS13に次いで受信済みフラグをリセットしておく(ST14)。
このように構成された監視システムにおいて、主系として稼動中であるサーバコンピュータにおいて、従系であるサーバコンピュータよりも優先度がわずかでも高い異常が発生した場合には、それに応じて瞬時に主系が切替わるため、無監視状態となる時間およびその確率を最小限に止めることができる。
本発明の実施例に係るコンピュータ冗長システムを適用した監視システムの構成図。 本発明の実施例を構成するコンピュータの機能構成図。 本発明の実施例を構成するコンピュータが備える重みテーブルの記憶内容を示す図。 本発明の実施例を構成するコンピュータの動作を説明するためのフローチャート。 本発明の実施例を構成するコンピュータの動作を説明するためのフローチャート。 本発明の実施例を構成するコンピュータの障害発生による状況管理テーブルにおける評価値の変遷を示す図。 本発明の実施例を構成するコンピュータの動作を説明するためのフローチャート。
符号の説明
10 ネットワーク
11 監視対象設備
12 監視画面表示クライアント
21、22 サーバコンピュータ
31 チェック手段
32 送信手段
33 受信手段
34 数値化手段
35 切替制御手段R1 評価値
T 状況管理テーブル
TG テーブル

Claims (4)

  1. 第1のコンピュータと第2のコンピュータとの一方が主系で、他方が従系として動作する冗長構成のコンピュータシステムにおいて、
    前記2つのコンピュータは、自身の状態に関し複数のチェック項目によりチェックを行うチェック手段と、
    チェック手段によるヘルシーチェック情報を相互に送信する送信手段と、
    他のコンピュータから送られてくるヘルシーチェック情報を受信する受信手段と、
    自身の状態に関し複数のチェック項目によりチェックを行った結果および受信手段が受信したヘルシーチェック情報について、チェック項目に対応する重み情報を用いて数値化する数値化手段と、
    数値化結果を比較して、数値の大小に基づき主従の切替えを行う切替制御手段と
    を具備することを特徴とするコンピュータ冗長システム。
  2. 切替制御手段は、受信手段によるヘルシーチェック情報の受信が所定期間ない場合に、他のコンピュータが異常として必要な場合に、主従の切替えを行うことを特徴とする請求項1に記載のコンピュータ冗長システム。
  3. 各項目対応の重みを2進表示による異なる桁に割当てて表現し、
    桁位置を変更することにより項目の重みを変更可能とすることを特徴とする請求項1または2に記載のコンピュータ冗長システム。
  4. 切替制御手段は、数値化結果が同値である場合に切替えを行わず、また、両コンピュータが共に主系または従系となると、コンピュータ識別番号に基づき一方を主系に他方を従系に設定することを特徴とする請求項1乃至3のいずれか1項に記載のコンピュータ冗長システム。
JP2007067201A 2007-03-15 2007-03-15 コンピュータ冗長システム Withdrawn JP2008226153A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007067201A JP2008226153A (ja) 2007-03-15 2007-03-15 コンピュータ冗長システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007067201A JP2008226153A (ja) 2007-03-15 2007-03-15 コンピュータ冗長システム

Publications (1)

Publication Number Publication Date
JP2008226153A true JP2008226153A (ja) 2008-09-25

Family

ID=39844644

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007067201A Withdrawn JP2008226153A (ja) 2007-03-15 2007-03-15 コンピュータ冗長システム

Country Status (1)

Country Link
JP (1) JP2008226153A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111781816A (zh) * 2020-08-05 2020-10-16 中车大连电力牵引研发中心有限公司 一种基于双总线的列车主控设备高速冗余切换方法及系统
CN114244735A (zh) * 2021-12-09 2022-03-25 南京丰道电力科技有限公司 主备运行切换方法、装置及存储介质
CN114609939A (zh) * 2021-12-01 2022-06-10 浙江中控技术股份有限公司 一种基于置信度的智能控制器主从角色判定方法及设备
RU2801202C1 (ru) * 2022-06-14 2023-08-03 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-воздушных сил "Военно-воздушная академия имени профессора Н.Е. Жуковского и Ю.А. Гагарина" (г. Воронеж) Министерства обороны Российской Федерации Способ контроля для реконфигурации вычислительной системы

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111781816A (zh) * 2020-08-05 2020-10-16 中车大连电力牵引研发中心有限公司 一种基于双总线的列车主控设备高速冗余切换方法及系统
CN111781816B (zh) * 2020-08-05 2024-03-19 中车大连电力牵引研发中心有限公司 一种基于双总线的列车主控设备高速冗余切换方法及系统
CN114609939A (zh) * 2021-12-01 2022-06-10 浙江中控技术股份有限公司 一种基于置信度的智能控制器主从角色判定方法及设备
CN114609939B (zh) * 2021-12-01 2024-04-02 浙江中控技术股份有限公司 一种基于置信度的智能控制器主从角色判定方法及设备
CN114244735A (zh) * 2021-12-09 2022-03-25 南京丰道电力科技有限公司 主备运行切换方法、装置及存储介质
CN114244735B (zh) * 2021-12-09 2024-01-16 南京丰道电力科技有限公司 主备运行切换方法、装置及存储介质
RU2801202C1 (ru) * 2022-06-14 2023-08-03 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-воздушных сил "Военно-воздушная академия имени профессора Н.Е. Жуковского и Ю.А. Гагарина" (г. Воронеж) Министерства обороны Российской Федерации Способ контроля для реконфигурации вычислительной системы

Similar Documents

Publication Publication Date Title
JP4466615B2 (ja) 運用管理システム、監視装置、被監視装置、運用管理方法及びプログラム
JP6595861B2 (ja) 情報処理装置、ログ取得方法およびログ取得プログラム
JP2008226153A (ja) コンピュータ冗長システム
JP2005301436A (ja) クラスタシステムおよびクラスタシステムにおける障害回復方法
JP2016076072A (ja) 障害通報装置、障害通報方法及び障害通報プログラム
US20150215153A1 (en) Device management system
US9842029B2 (en) Electronic device, method and storage medium
JP5005425B2 (ja) 制御装置復帰システム
EP3756310B1 (en) Method and first node for managing transmission of probe messages
CN111064608A (zh) 消息系统的主从切换方法、装置、电子设备及存储介质
US20140297724A1 (en) Network element monitoring system and server
JP7119582B2 (ja) 情報処理システム、及び管理サーバ
CN111064609A (zh) 消息系统的主从切换方法、装置、电子设备及存储介质
JP5082147B2 (ja) マルチノードシステム、ノード間スイッチ及びデータ中継方法
JP2007272328A (ja) コンピュータ・システム
JP6404767B2 (ja) 監視制御システム及び監視制御方法
JP6896035B2 (ja) 監視システム、監視SaaS提供装置、管理装置、及びプログラム
WO2018200581A1 (en) Directory update monitoring systems and methods
JP6179981B2 (ja) 情報処理システム、情報処理装置、情報処理方法及びプログラム
JP2013208043A (ja) 電力系統監視装置
JP2011048577A (ja) 障害監視システム
JP7298412B2 (ja) 異常判定装置、異常判定方法およびプログラム
JP2008217682A (ja) 監視システムおよび監視方法ならびにプログラム
JP2011159086A (ja) 端末、端末監視システムおよび端末監視プログラム
JP2016100816A (ja) 仮想ネットワーク管理装置及び方法

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100601