JP2002132535A - 分散型計算機システムにおける計算機診断方式 - Google Patents

分散型計算機システムにおける計算機診断方式

Info

Publication number
JP2002132535A
JP2002132535A JP2000325159A JP2000325159A JP2002132535A JP 2002132535 A JP2002132535 A JP 2002132535A JP 2000325159 A JP2000325159 A JP 2000325159A JP 2000325159 A JP2000325159 A JP 2000325159A JP 2002132535 A JP2002132535 A JP 2002132535A
Authority
JP
Japan
Prior art keywords
computer
health check
check signal
computers
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000325159A
Other languages
English (en)
Inventor
Ryoichi Furuyama
良一 古山
Fumihisa Ogasawara
史久 小笠原
Yasuhito Kuze
泰人 久世
Hideyuki Suzuki
英之 鈴木
Atsuhiko Hirota
敦彦 廣田
Masaaki Arimoto
雅昭 有本
Tatsuo Suzuki
立夫 鈴木
Kazuo Yamamoto
和生 山本
Yoshio Kiyoshima
義雄 清島
Kazuhiro Usui
一洋 臼井
Masaki Nakayama
政樹 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Fuji Electric Co Ltd
Chubu Electric Power Co Inc
Hitachi Ltd
Mitsubishi Electric Corp
Original Assignee
Toshiba Corp
Fuji Electric Co Ltd
Chubu Electric Power Co Inc
Hitachi Ltd
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Fuji Electric Co Ltd, Chubu Electric Power Co Inc, Hitachi Ltd, Mitsubishi Electric Corp filed Critical Toshiba Corp
Priority to JP2000325159A priority Critical patent/JP2002132535A/ja
Publication of JP2002132535A publication Critical patent/JP2002132535A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

(57)【要約】 【課題】 分散型計算機システムにおいて、異常が生じ
ている計算機や情報伝送装置の異常個所の特定を信頼性
と高速性をもってしたい。 【解決の手段】 各計算機には各計算機に対してヘルス
チェック信号を送信する手段と、前記各計算機から送信
されるヘルスチェック信号を受信する手段と、他の計算
機からヘルスチェック信号の受信を定周期で監視し、全
計算機からのヘルスチェック信号を受信していない場合
には自計算機の情報伝送装置を異常と判定し、一部の計
算機からのへルスチェック信号を受信できない場合には
ヘルスチェック信号を受信できない送信元計算機の情報
伝送装置を異常と判定する手段と、前記各計算機により
生成された情報伝送装置の情報を前記各ヘルスチェック
信号に付加する手段と、全計算機のヘルスチェック信号
に付加された前記各情報伝送装置の異常情報に基づい
て、一台以上の計算機がある計算機の情報伝送装置を異
常と判定している場合には当該計算機においても当該情
報伝送装置を異常と判定する手段を備えた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の計算機と計
算機間を接続するネットワークからなる分散型計算機シ
ステムにおける計算機診断方式に関する。
【0002】
【従来技術】分散型計算機システムは信頼性向上と負荷
分散のために、複数の計算機群と、これらの計算機群を
監視するシステム監視計算機から構成され、各計算機
は、自計算機や他計算機の情報伝送装置の状態の正常/
異常の認識を、システム監視計算機から送信される情報
伝送装置の監視結果に基づいて行っている。
【0003】図34は、従来の形態の計算機診断方式の
実施形態の構成図である。従来技術による計算機診断方
式は、2重化された計算機102−1,102−2と2
重化されていない計算機103−1,103−2,・・・,
103−nと、分散型計算機システム101内の計算機
の異常を監視するシステム監視計算機4301と、これ
らの計算機を接続する2重化されたネットワーク105
−1,105−2から構成される。
【0004】各計算機では、接続する他計算機とネット
ワーク105を経由してヘルスチェック信号やその他の
データの受け渡しを行う情報伝送装置111−1,11
1−2、2重化された計算機102と2重化されていな
い計算機103は、システム監視計算機4301からネ
ットワーク105を経由し、情報伝送装置111を介し
て、ヘルスチェック信号を受信するヘルスチェック信号
受信機能4311、受信した情報を計算機内に格納する
ためのヘルスチェック信号保存テーブル4321、定周
期に情報伝送装置111を介して、システム監視計算機
4301に、ヘルスチェック信号を送信するヘルスチェ
ック信号送信機能4312を有している。
【0005】システム監視計算機4301は、情報伝送
装置111の他に、全計算機のヘルスチェック信号受信
機能4313、ヘルスチェック信号の受信の有無を管理
するためのヘルスチェック信号受信管理テーブル12
1、定周期にヘルスチェック信号受信管理テーブル12
1を監視するヘルスチェック信号管理機能115、ヘル
スチェック信号管理テーブル121を定周期に参照し、
ヘルスチェック信号監視結果テーブル124を更新する
ヘルスチェック信号監視結果生成機能4314、ヘルス
チェック信号監視結果テーブル124を定周期に参照し
て、ネットワーク105に接続する全計算機に情報伝送
装置111を介してヘルスチェック信号を送信するヘル
スチェック信号送信機能113を備えている。
【0006】分散型計算機システム内の各計算機の異常
監視、つまり、異常箇所の特定は、システム監視計算機
4301によって、以下のようにして行う。図36は、
2重化された計算機102や2重化されていない計算機
103の定周期に起動するヘルスチェック信号送信機能
4312の処理フローで、自計算機コードをヘルスチェ
ック信号に搭載し(ステップ4501)、ヘルスチェッ
ク信号を各計算機に送信するために、自計算機が有する
情報伝送装置111に、ヘルスチェック信号を渡す処理
(ステップ4502)を行う。
【0007】図38はシステム監視計算機4301の全
計算機ヘルスチェック信号受信機能4313の処理フロ
ーであり、情報伝送機能111からヘルスチェック信号
を渡されたとき起動し、送信元の計算機コードとネット
ワークコードをチェックし(ステップ4701)、ヘル
スチェック信号受信管理テーブル121の受信状態を受
信正常(=0)とする。
【0008】ヘルスチェック信号受信管理機能115
は、図6に示すように、定周期に起動し、全計算機分の
全ネットワーク分のループ601を繰り返し、自計算機
かどうか判定し(ステップ602)、自計算機と異なる
とき、ヘルスチェック信号受信管理テーブル121の受
信状態の値をカウントアップする。(ステップ604)
カウントアップした結果は、全計算機ヘルスチェック信
号受信機能4313でデータ受信時に受信正常値(=
0)でリセットされる。カウントアップした結果、予め
定めた値よりも大きいかを判定し(ステップ605)、
大きい場合には、ヘルスチェック信号検出無しとしてヘ
ルスチェック信号受信状態を受信異常(=−1)とする
(ステップ606)。
【0009】図39はヘルスチェック信号監視結果生成
機能4314の処理フローで、定周期に起動し、全ネッ
トワーク分のループ(ステップ4801)を繰り返し
て、全計算機について(ステップ4802)、自計算機
か判定し(ステップ4803)、異なる計算機ならば、
ヘルスチェック信号受信状態正常か否か判定し(ステッ
プ4804)、正常のとき、ヘルスチェック信号監視結
果テーブル124に受信正常(○)と書き込む(ステッ
プ4804)。自計算機でないとき、ヘルスチェック信
号の受信状態が正常(○)か否か判定し(ステップ48
05)、受信有りのとき、ヘルスチェック信号監視結果
テーブルに受信有り(○)と書き込み、受信無しのと
き、ヘルスチェック信号監視結果テーブルに受信無し
(×)と書き込む。
【0010】ヘルスチェック信号送信機能113は、図
4に示すように、定周期に起動し、自計算機コードを取
出し(ステップ401)、他計算機に送信するためのヘ
ルスチェック信号テーブルに搭載するデータを全計算機
分のループ(ステップ402)と、全ネットワーク分の
ループ(ステップ403)を繰り返して、ヘルスチェッ
ク信号監視結果テーブル124から取出して(ステップ
404)、情報伝送装置111へ渡す。
【0011】以上のようにして、システム監視計算機
は、各計算機の異常の有無を管理し、その結果を収めた
ヘルスチェック信号監視結果テーブル124の内容を、
ヘルスチェック信号送信処理113によって、情報伝送
処理111を介して、ネットワーク105を経由し、全
計算機にヘルスチェック信号テーブルの送信を行う。
【0012】システム監視計算機4301以外の計算機
は、各計算機の情報伝送処理111を介して得られる、
ヘルスチェック信号監視結果テーブル124をシステム
監視計算機からのヘルスチェック信号受信処理4311
により、全CPU分の、ヘルスチェック信号保存テーブ
ル4321を更新していた。
【0013】そのため、システム監視計算機4301に
異常が発生した場合だけでなく、計算機102−1の情
報伝送処理111−1とシステム監視計算機4301,
情報伝送処理111−2に異常が発生した場合には、シ
ステム監視計算機4301は、計算機102−1の状態
を停止と判断し、計算機102−1は、システム監視計
算機4301を停止と判断し、計算機の異常状態を把握
することが出来なかった。
【0014】このように従来の分散計算機システムの計
算機診断方式では、異常の発生部位、発生箇所によって
は、計算機が2重化されているケースでも異常の判定と
回復が行えない事があった。
【0015】
【発明が解決しようとする課題】前述に記した従来技術
を用いた計算機診断方式では、構成要素の各計算機の状
態を把握し、各計算機の情報伝送装置や計算機自体に異
常が発生した場合、システム監視計算機が異常箇所の特
定を行う。その結果から各計算機は代替えの実施や復旧
操作を行っていた。しかしながら、システム監視計算機
が停止状態のときは、他計算機に異常が発生した場合、
異常箇所の特定は行えなかった。
【0016】又、システム監視計算機が停止状態でない
ときも、システム監視計算機と各計算機装置との間で情
報伝送装置の異常が複数箇所で発生した場合は、システ
ム監視計算機は、自情報伝送装置が異常なのか、他計算
機の情報伝送装置が異常なのか、停止しているかの特定
が行えなかった。
【0017】又、複数の多重化された計算機群を有する
分散型計算機システムでは、多重化された計算機群内の
マスター側の計算機と、別の多重化された計算機群内の
マスター側計算機の間で、信号またはデータの受け渡し
ができないとき、分散型計算機システムとしての機能が
継続できない場合があった。その場合、多重化された計
算機群内でマスター計算機を停止し、スレーブ計算機を
マスターとする切替を行う必要があったが、従来の技術
では、切替えるべき計算機群を特定し、切替えを行う機
能がなかった。
【0018】そのため、本発明は、異常が生じている計
算機や情報伝送装置の異常箇所の特定のための信頼性の
向上と、異常発生時の構成制御の信頼性を向上するため
の分散型計算機システムにおける計算機診断方式と媒体
を提供することを目的としている。
【0019】
【課題を解決するための手段】前述の目的を達成するた
めに、[請求項1]においては、複数の計算機がそれら
の計算機群との間で多重化されたネットワークを介して
接続され、前記各計算機間は前記ネットワークとの間で
情報伝送装置を経由して相互に情報を送信し合う分散型
システムにおいて、前記各計算機には各計算機に対して
ヘルスチェック信号を送信する手段と、前記各計算機か
ら送信されるヘルスチェック信号を受信する手段と、他
の計算機からヘルスチェック信号の受信を定周期で監視
し、全計算機からのヘルスチェック信号を受信していな
い場合には自計算機の情報伝送装置を異常と判定し、一
部の計算機からのへルスチェック信号を受信できない場
合にはヘルスチェック信号を受信できない送信元計算機
の情報伝送装置を異常と判定する手段と、前記各計算機
により生成された情報伝送装置の情報を前記各ヘルスチ
ェック信号に付加する手段と、全計算機のヘルスチェッ
ク信号に付加された前記各情報伝送装置の異常情報に基
づいて、一台以上の計算機がある計算機の情報伝送装置
を異常と判定している場合には当該計算機においても当
該情報伝送装置を異常と判定する手段を備えた。
【0020】[請求項2]においては、複数の計算機が
それらの各計算機群との間で多重化されたネットワーク
を介して接続され、前記各計算機間は前記ネットワーク
との間で情報伝送装置を経由して相互に情報を送信し合
う分散型計算機システムにおいて、前記各計算機には各
計算機に対してヘルスチェック信号を送信する手段と、
前記各計算機から送信されるヘルスチェック信号を受信
する手段と、他の計算機からヘルスチェック信号の受信
を定周期で監視し、他の計算機からのへルスチェック信
号を受信できない計算機がある場合にはヘルスチェック
信号を受信できない送信元計算機を運転モード不定と判
定する手段と、前記手段により生成された情報をヘルス
チェック信号に付加する手段と、全計算機のヘルスチェ
ック信号に付加された計算機の運転モード情報に基づ
き、全計算機がある計算機を運転ード不定と判定してい
る場合、当該計算機を停止モードと判定する手段を備え
た。
【0021】[請求項3]においては、[請求項2]の
分散型計算機システムにおいて、へルスチェック信号を
受信できない計算機がある場合、ヘルスチェック信号を
受信できない送信元計算機を運転モード不定と判定する
手段と、前記手段により生成された情報をヘルスチェッ
ク信号に付加する手段と、全計算機のヘルスチェック信
号に付加された計算機の運転モード情報に基づき、全計
算機がある計算機を運転モード不定と判定している場
合、その計算機を停止モードと判定する手段に加えて、
請求項1の手段で検出した情報伝送装置異常と停止モー
ドの両方の条件から計算機停止と判定する手段を備え
た。
【0022】[請求項4]においては、機能実行中の計
算機と、前記機能実行中の計算機に何らかの異常が発生
し機能停止した場合にバックアップする複数の計算機と
からなる多重化された計算機群とが多重化されたネット
ワークを介して接続され、前記ネットワークと各計算機
とは情報伝送装置を経由して相互に接続されて互いに情
報を伝送し合う分散型計算機システムにおいて、前記各
計算機は他計算機に対してヘルスチェック信号を送信す
る手段と、前記各計算機から送信されてくるヘルスチェ
ック信号を受信する手段と、他の計算機からヘルスチェ
ック信号の受信を定周期で監視し、全計算機からヘルス
チェック信号を受信できない場合には、自計算機の情報
伝送装置を異常と判定し、一部の計算機からへルスチェ
ック信号を受信できない場合には、その計算機の情報伝
送装置を異常と判定する手段と、前記手段によって生成
された情報をヘルスチェック信号に付加する手段と、全
計算機のヘルスチェック信号に付加された情報伝送装置
の異常情報に基づき、一台以上の計算機がある計算機の
情報伝送装置を異常と判定している場合には、その情報
伝送装置を異常と判定する手段と、多重化された計算機
群のある計算機と他の多重化された計算機群のある計算
機間で、ヘルスチェック信号の受渡しができない場合に
は、予め決めた計算機を停止モードに遷移する手段を備
えた。
【0023】[請求項5]においては、複数の計算機が
それらの計算機群との間で多重化されたネットワークを
介して接続され、前記各計算機間は前記ネットワークと
の間で情報伝送装置を経由して相互に情報を送信し合う
分散型システムにおいて、前記各計算機には各計算機に
対してヘルスチェック信号を送信する手段と、前記各計
算機から送信されるヘルスチェック信号を受信する手段
と、他の計算機からヘルスチェック信号の受信を定周期
で監視し、全計算機からのヘルスチェック信号を受信し
ていない場合には自計算機の情報伝送装置を異常と判定
し、一部の計算機からのへルスチェック信号を受信でき
ない場合にはヘルスチェック信号を受信できない送信元
計算機の情報伝送装置を異常と判定する手段と、前記各
計算機により生成された情報伝送装置の情報を前記各ヘ
ルスチェック信号に付加する手段と、全計算機のヘルス
チェック信号に付加された前記各情報伝送装置の異常情
報に基づいて、一台以上の計算機がある計算機の情報伝
送装置を異常と判定している場合には当該計算機におい
ても当該情報伝送装置を異常と判定する手段と、他の計
算機からのへルスチェック信号を受信できない計算機が
ある場合にはヘルスチェック信号を受信できない送信元
計算機を運転モード不定と判定する手段と、前記手段に
より生成された情報をヘルスチェック信号に付加する手
段と、全計算機のヘルスチェック信号に付加された計算
機の運転モード情報に基づき、全計算機がある計算機を
運転ード不定と判定している場合、当該計算機を停止モ
ードと判定する手段と、多重化された計算機群のある計
算機と他の多重化された計算機群のある計算機間で、ヘ
ルスチェック信号の受渡しができない場合には、予め決
めた計算機を停止モードに遷移する手段を実行する機能
とからなるプログラムを記憶したコンピュータ読み取り
可能な記憶媒体である。
【0024】
【発明の実施の形態】(第1の実施の形態)([請求項
1]対応) 図1は、[請求項1]の実施の形態を示す構成図であ
る。図1において分散型計算機システムは、2重化され
た計算機102−1、102−2、2重化されていない
計算機103−1、103−2、、、、103−n、そ
して、これらの計算機を接続する2重化されたネットワ
ーク105−1,105−2からの構成される。
【0025】各計算機は、接続する他計算機とネットワ
ーク105を経由してヘルスチェック信号やその他のデ
ータの受け渡しを行う情報伝送装置111−1,111
−2と、他計算機から送信されたヘルスチェック信号を
情報伝送装置111から受け取るヘルスチェック信号受
信機能112と、ヘルスチェック信号受信機能112が
更新するヘルスチェック信号管理テーブル121および
ヘルスチェック信号保存テーブル122と、ヘルスチェ
ック信号管理テーブル121を定周期で監視するヘルス
チェック信号受信管理機能115と、ヘルスチェック信
号管理テーブル121を定周期に参照し、ヘルスチェッ
ク信号監視結果テーブル124とヘルスチェック信号保
存テーブル122を更新するヘルスチェック信号監視結
果生成機能116と、ヘルスチェック信号監視結果テー
ブル124を定周期に参照して、ネットワーク105に
接続する全計算機に対して情報伝送装置111を介して
ヘルスチェック信号を送信するヘルスチェック信号送信
機能113と、ヘルスチェック信号保存テーブル122
を定周期に参照して、異常な情報伝送装置111を判定
するヘルスチェック信号診断処理114と、その判定結
果を書き込むヘルスチェック信号診断結果テーブル12
3を備えている。
【0026】図2は、情報伝送装置111の処理フロー
図であり、他計算機からのヘルスチェック信号受信時の
処理フローと、他計算機へのヘルスチェック信号送信時
の処理フローを表している。
【0027】図3は、ヘルスチェック信号受信機能11
2の処理フロー図であり、情報伝送装置111から渡さ
れたヘルスチェック信号上の情報を、ヘルスチェック信
号受信管理テーブル121とヘルスチェック信号保存テ
ーブル122に書き込む処理フローを表している。
【0028】図4は、ヘルスチェック信号送信機能11
3の処理フロー図であり、ヘルスチェック信号監視結果
テーブル124の内容をヘルスチェック信号に搭載して
情報伝送装置111に渡す処理フローを表している。
【0029】図5は、ヘルスチェック信号診断機能11
4の処理フロー図であり、ヘルスチェック信号保存テー
ブル122を参照し、各計算機の情報伝送装置111の
異常の有無判定を行い、その判定結果をヘルスチェック
信号診断結果テーブル123に書き込む処理フローを表
している。
【0030】図6は、ヘルスチェック信号受信管理機能
115の処理フロー図であり、ヘルスチェック信号受信
管理テーブル121を参照し、ヘルスチェック信号の受
信の有無から各計算機の情報伝送装置111の異常を判
定する処理フローを表している。
【0031】図7は、ヘルスチェック信号監視結果生成
機能116の処理フロー図であり、ヘルスチェック信号
受信管理テーブル121に基づき、ヘルスチェック信号
監視結果テーブル124の更新と、ヘルスチェック信号
保存テーブル122の更新を行う処理フローを表してい
る。
【0032】図8は、計算機間で受け渡しを行うヘルス
チェック信号のテーブル構成を表している。図9は、ヘ
ルスチェック信号受信管理テーブル121のテーブル構
成表を表している。図10は、ヘルスチェック信号保存
テーブル122のテーブル構成表を表している。
【0033】図11は、ヘルスチェック信号診断結果保
存テーブル123のテーブル構成を表している。図12
は、ヘルスチェック信号監視結果テーブル124のテー
ブル構成を表している。
【0034】2重化された計算機102や2重化されて
いない計算機103が備えているヘルスチェック信号送
信機能113は、図4に示すように、定周期に起動し、
自計算機コードを取出し401、他計算機に送信するた
めのヘルスチェック信号テーブルに搭載するデータを全
計算機分のループ402と、全ネットワーク分のループ
403を繰り返して、ヘルスチェック信号監視結果テー
ブル124から取出して404、情報伝送装置111へ
渡す。
【0035】情報伝送装置111は、図2に示すよう
に、ヘルスチェック信号送信機能113から渡されたヘ
ルスチェック信号テーブルに、送信するネットワークコ
ードを付加して(ステップ202)、ネットワーク10
5に接続する全計算機に送信する(ステップ203)。
【0036】各計算機から送信されたヘルスチェック信
号を、各計算機の情報伝送装置111は受信すると、図
1に示すように、ヘルスチェック信号をヘルスチェック
信号受信機能112へ渡す(ステップ201)。
【0037】ヘルスチェック信号受信機能112は、図
3に示すように、ヘルスチェック信号を情報伝送装置1
11から渡されると、ヘルスチェック信号受信管理テー
ブル121のヘルスチェック信号受信状態を正常状態と
し(受信正常=“0”とする(ステップ301)、送信
元の計算機コードとネットワークコードを確認し(ステ
ップ302)、全計算機分のループ(ステップ303)
と、全ネットワーク分のループ(ステップ304)を繰
り返して、ヘルスチェック信号保存テーブル122を更
新することにより、監視結果の保存を行う(ステップ3
05)。
【0038】ヘルスチェック信号受信管理機能115
は、図6に示すように、定周期に起動し、全計算機分の
ループを繰り返し(ステップ601)、自計算機かどう
か判定し(ステップ602)する。他計算機のとき、ヘ
ルスチェック信号の受信状態をカウントアップし(ステ
ップ604)、その結果、予め定めた値よりも大きいか
を判定し(ステップ605)、大きい場合には、ヘルス
チェック信号検出無しとしてヘルスチェック信号受信状
態を−1とする(ステップ606)ことを全ネットワー
ク分のループ(ステップ603)を繰り返す。
【0039】ヘルスチェック信号診断機能114は、図
5に示すように、定期的に起動し、全計算機分のループ
(ステップ501)と、全ネットワーク分のループ(ス
テップ502)を繰り返して、ヘルスチェック信号保存
テーブル122を取出し(ステップ504)、ヘルスチ
ェック信号の検出有無を判定し(ステップ505)、有
りの場合、ヘルスチェック信号検出が正常か判定し(ス
テップ506)、検出の正常・異常をカウントアップす
る(ステップ507、508)。
【0040】これを送信元の計算機数分繰り返す(ステ
ップ503)。その結果、検出正常が0でないか判定し
(一台以上の計算機が検出異常か判定し)(ステップ5
09)、判断結果をヘルスチェック信号診断結果テーブ
ル123に書き込む(ステップ510、ステップ51
1)。
【0041】ヘルスチェック信号監視結果生成機能11
6は、図7に示すように、定周期に起動し、全ネットワ
ーク分のループ(ステップ701)を繰り返して、全計
算機について(ステップ702)、自計算機か判定し
(ステップ703)、他計算機ならば、ヘルスチェック
信号受信状態正常か判定し(ステップ704)、正常の
とき、自情報伝送装置正常フラグ=1とする(ステップ
705)。
【0042】次に、全計算機についてループ(ステップ
706)を繰り返し、自計算機か判定し(ステップ70
7)、自計算機のとき、自計算機のヘルスチェック信号
監視結果テーブル124とヘルスチェック信号保存テー
ブル122に監視結果を正常(○)とする(ステップ7
08、709)。
【0043】他計算機のとき、ヘルスチェック信号受信
状態正常(−1以外の値)かを判定し(ステップ71
0)、正常のとき、自計算機のヘルスチェック信号監視
結果テーブル124とヘルスチェック信号保存テーブル
122に監視結果を正常(○)とする711、712。
又、異常のとき、自計算機のヘルスチェック信号監視結
果テーブル124とヘルスチェック信号保存テーブル1
22に監視結果を異常(×)とする(ステップ713、
714)。
【0044】本実施の形態によれば、各計算機でヘルス
チェック信号の監視と、情報伝送装置の異常判定を実施
することにより、情報伝送装置異常の判定と特定が可能
となり、情報伝送装置の異常判定のために従来必要とさ
れた分散型計算機システムを構成する計算機の異常など
を監視するためのシステム監視計算機を不要とすること
が可能となる効果がある。
【0045】(第2の実施の形態)([請求項2]対
応) 図13は第2の実施の形態を説明する構成図であり、図
13において図1と同一機能部分については同一符号を
付して説明を省略する。本実施の形態ではシステム監視
計算を省略するようにしたものであり、そのために付加
された構成はモード情報診断機能1613と、ヘルスチ
ェック信号なし設定機能1614と、モード情報保存テ
ーブル1622と、モード情報診断テーブル1623で
ある。その他の構成は図1と同様である。
【0046】これを更に具体的に説明すると、各計算機
が接続する他計算機とネットワーク105を経由してヘ
ルスチェック信号やその他のデータの受け渡しを行なう
情報伝送装置111と、他計算機から送信されたヘルス
チェック信号を情報伝送装置111から受け取るヘルス
チェック信号受信機能112と、ヘルスチェック信号受
信機能112が更新するヘルスチェック信号管理テーブ
ル121とモード情報保存テーブル1622と、ヘルス
チェック信号管理テーブル121を定周期で監視するヘ
ルスチェック信号受信管理機能115と、ヘルスチェッ
ク信号管理テーブル121を定周期に参照し、モード情
報保存テーブル1622を生成するヘルスチェック信号
受信なし設定機能1614と、ヘルスチェック信号管理
テーブル121を定周期に参照して、ネットワーク10
5に接続する全計算機に情報伝送装置111を介してヘ
ルスチェック信号を送信するヘルスチェック信号送信機
能113と、モード情報保存テーブル1622を定周期
に参照して、停止の計算機を判定するモード情報診断処
理1613と、その判定結果を書き込むモード情報診断
結果テーブル1623を備えている。
【0047】図14は、ヘルスチェック信号受信機能1
12の処理フロー図であり、情報伝送装置111から、
ヘルスチェック信号を受け取り、受け取ったヘルスチェ
ック信号に基づき、ヘルスチェック信号受信管理テーブ
ル121とモード情報保存テーブル1622を更新する
処理フローを表している。
【0048】図15は、ヘルスチェック信号送信機能1
13の処理フロー図であり、ヘルスチェック信号受信管
理テーブル121のモード情報をヘルスチェック信号に
搭載し、情報伝送装置111に、ヘルスチェック信号を
渡す処理フローを表している。
【0049】図16は、モード情報診断機能1613の
処理フロー図であり、モード情報保存テーブル1622
から、計算機の運転モードを判定し、判定結果をモード
情報診断テーブル1623に書き込む処理フローを表し
ている。
【0050】図17は、ヘルスチェック信号受信管理機
能115の処理フロー図であり、ヘルスチェック信号受
信管理テーブル121を参照し、ヘルスチェック信号の
受信の有無から、計算機の運転モードが不定か否かを判
定する処理フローを表している。
【0051】図18は、ヘルスチェック信号受信なし設
定機能1614の処理フロー図であり、ヘルスチェック
信号受信管理テーブル121と、モード情報保存テーブ
ル1622の整合をとる処理フローを表している。
【0052】図19は、ヘルスチェック信号テーブルの
構成を表している。図20は、ヘルスチェック信号受信
管理テーブル121の構成を表している。図21はモー
ド情報保存テーブル1622の構成を表わしている。図
22は、モード情報診断テーブル1623の構成を表わ
している。
【0053】図15は2重化された計算機102−1,
102−2や2重化されていない計算機103−1、1
03−2、、、103−n内のヘルスチェック信号送信
処理1611の処理フローを示しており、図15に示す
ように、定周期に起動し自身の計算機コードと運転モー
ドを取得し(ステップ1801)、全計算機分のループ
(ステップ1802)を繰り返して、他計算機に送信す
るためのデータをヘルスチェック信号管理テーブル12
1から取出し(ステップ1803)、全計算機分のデー
タを情報伝送処理111−1,111−2へ渡す。
【0054】情報伝送処理111−1,111−2は、
図2に示すように、送信するネットワークコードを付加
して(ステップ202)、ネットワーク105−1,1
05−2に接続する全計算機に送信する(ステップ20
3)。ネットワーク105−1,105−2を経由し
て、ヘルスチェック信号テーブルを各計算機の情報伝送
処理111−1,111−2は、図2に示すように、ヘ
ルスチェック信号受信処理1011へ渡す(ステップ2
01)。
【0055】ヘルスチェック信号受信処理112は、図
14に示すように、ヘルスチェック信号テーブルを情報
伝送装置から受け取ると、送信元の計算機コードを確認
し(ステップ1701)、運転モード更新条件を判定し
(ステップ1702)、更新条件に合致したとき、ヘル
スチェック信号受信管理テーブル121のヘルスチェッ
ク信号受信状態を“0”とし(“0”を受信正常の意
味)(ステップ1703)、ヘルスチェック信号受信管
理テーブル121の送信元計算機の運転モードの更新を
行う(ステップ1704)。そして、全計算機分のルー
プ(ステップ1704)を繰り返すことにより、モード
信号保存テーブル1622の更新を行うことにより、監
視結果の保存を行う(ステップ1705)。
【0056】ヘルスチェック信号受信管理処理115
は、図17に示すように、定周期に起動し、自計算機か
どうか判定し(ステップ2002)し、他計算機のと
き、ヘルスチェック信号受信管理テーブル121の受信
状態をカウントアップし(ステップ2003)、その結
果、予め定めた値よりも大きくなったかを判定し(ステ
ップ2004)、大きい場合には、ヘルスチェック信号
検出無しとしてヘルスチェック信号受信状態を−1とす
る(ステップ2005)。これを全計算機分のループを
繰り返す(ステップ2001)。
【0057】図18はヘルスチェック信号受信なし設定
機能の処理フローである。ヘルスチェック信号受信なし
設定機能1614は、図18に示すように、ヘルスチェ
ック信号管理テーブル121の運転モードを取り出し
(ステップ2102)、取り出した運転モードが不定か
否か判定し(ステップ2103)、モード不定のとき、
モード情報保存テーブル1622のモード不定の計算機
のヘルスチェック信号のデータ受信なしとする(ステッ
プ2105)ことを、全計算機分ループ(ステップ21
04)を繰り返す。以上の処理を全計算機分ループ(ス
テップ2101)を繰り返す。
【0058】モード情報診断処理1013は定期的に起
動し、図16に示すように、モード情報保存テーブル1
622からモード情報を取出し(ステップ1903)、
運転モードが何かを判定し(ステップ1904)、制御
モードの場合、制御モードと認識している計算機数をカ
ウントアップする(ステップ1905−1)。
【0059】又、待機モードの場合、待機モードと認識
している計算機数をカウントアップする(ステップ19
05−2)。停止モードの場合、停止モードと認識して
いる計算機数をカウントアップする(ステップ1905
−1)。なお、本実施の形態では、各計算機は、制御、
待機、停止の3種類の運転モードを有するとする。以上
の処理をヘルスチェック信号の送信計算機分繰り返す
(ステップ1902)。
【0060】そして、各モードの認識計算機のカウント
数を比較し(ステップ1906)、全ての計算機のモー
ドが一致した場合その計算機の運転モードと判定する
(ステップ1907−1,ステップ1907−2,ステ
ップ1907−3、ステップ1907−4)ことを全計
算機分ループ(ステップ1901)を繰り返し行う。
【0061】本実施の形態によれば、各計算機間で運転
モードを付加したヘルスチェック信号の受け渡しを行な
い、そのデータを使用して各計算機の停止判定を行う機
能を実施することにより、従来、計算機の停止判定を行
うために必要とされたシステム監視計算機を不要とする
ことが可能となる。
【0062】(第3の実施の形態)([請求項3]対
応) 図23は第3の実施の形態を説明する構成図であり、図
23において図13と同一機能部分については同一符号
を付して説明を省略する。本実施の形態では、計算機停
止判定の信頼度を向上させるようにしたものである。
【0063】したがって本実施の形態の計算機方式は、
各計算機は図23に示すように、接続する他計算機とネ
ットワーク105を経由してヘルスチェック信号やその
他のデータの受け渡しを行う情報伝送装置111と、他
計算機から送信されたヘルスチェック信号を情報伝送装
置111から受け取るヘルスチェック信号受信機能31
11と、ヘルスチェック信号受信機能3111が更新す
るヘルスチェック信号管理テーブル3121とヘルスチ
ェック信号保存テーブル122とモード情報保存テーブ
ル1622と、ヘルスチェック信号管理テーブル121
を定周期で監視するヘルスチェック信号受信管理機能1
15と、ヘルスチェック信号管理テーブル3121を定
周期に参照し、ヘルスチェック信号監視結果テーブル1
24とヘルスチェック信号保存テーブル122を更新す
るヘルスチェック信号監視結果生成機能116と、ヘル
スチェック信号管理テーブル3121を参照して、モー
ド情報保存テーブル1622を更新するヘルスチェック
信号受信なし設定機能1615と、ヘルスチェック信号
監視結果テーブル124とヘルスチェック信号管理テー
ブル3121を定周期に参照して、全計算機に対して情
報伝送装置111を介してヘルスチェック信号を送信す
るヘルスチェック信号送信機能3112と、ヘルスチェ
ック信号保存テーブル122を定周期に参照し、ネット
ワーク105で接続する計算機情報伝送装置111の異
常を判定し、ヘルスチェック信号診断結果テーブル12
3を更新するヘルスチェック信号診断機能114と、ヘ
ルスチェック信号診断結果保存テーブル123を定周期
に参照し、ネットワーク105で接続する各計算機の正
常・異常を判定する計算機異常診断機能1311と、計
算機異常診断結果テーブル1321と、モード情報保存
テーブル1622を定周期に参照して、停止の計算機を
判定するモード情報診断機能1613と、その判定結果
を書き込むモード情報診断テーブル1623と、計算機
異常診断結果テーブル1321とモード情報診断テーブ
ル1623を参照する計算機異常総合判定機能3114
と、その判定結果を保存する計算機停止総合判定結果テ
ーブル3122を備える構成である。
【0064】図24は、ヘルスチェック信号受信機能3
111の処理フロー図であり、ヘルスチェック信号を情
報伝送装置111から受け取り、ヘルスチェック信号の
内容を、ヘルスチェック信号管理テーブル3121とヘ
ルスチェック信号保存テーブル122とモード情報保存
テーブル1622に、書き込む処理フローを表してい
る。
【0065】図25は、ヘルスチェック信号受信管理機
能3111の処理フロー図であり、ヘルスチェック信号
管理テーブル111を定周期で監視し、ヘルスチェック
信号の受信の有無から各計算機の情報伝送装置111の
異常を判定するのする処理フローを表している。
【0066】図26はヘルスチェック信号送信機能31
12の処理フロー図であり、ヘルスチェック信号監視結
果テーブル124とヘルスチェック信号受信管理テーブ
ル121から、ヘルスチェック信号の搭載する情報を作
成し、情報伝送装置111にヘルスチェック信号を渡す
処理フローを表している。
【0067】図27は、計算機異常総合判定機能311
4の処理フロー図であり、計算機異常診断結果テーブル
1321とモード情報診断テーブル1623から、他計
算機の停止を判定する処理フローを表している。図28
は、ヘルスチェック信号受信管理テーブル3121の構
成を表している。図29は、計算機異常停止総合判定結
果テーブル3122の構成を表している。図30は、計
算機間で受け渡しを行うヘルスチェック信号テーブルの
構成を表している。
【0068】ヘルスチェック信号送信機能3112は、
図26に示すように、定周期に起動し、自計算機コード
と運転モードを取り出し(ステップ3401)、ヘルス
チェック信号受信管理テーブル3121から全計算機分
のモード情報を取り出す(ステップ3402,340
3)。
【0069】又、ヘルスチェック信号監視結果テーブル
124から全計算機の全ネットワークに関する自計算機
の監視結果を取り出す(ステップ3404、ステップ3
405、ステップ3406)。そして、自計算機コード
と運転モードに加えて2つのテーブルから取出した監視
結果を、情報伝送処理111−1,111−2へ送信す
る。
【0070】ヘルスチェック信号受信機能3111は、
図24に示すように、ヘルスチェック信号テーブルを受
信すると送信元の計算機コードとネットワークコードを
確認し(ステップ3211)、運転モード更新条件を判
定し(ステップ3212)、更新条件に合致した場合、
ヘルスチェック信号受信管理テーブル3121のヘルス
チェック信号受信状態を“0”とし(“0”を受信正常
の意味)(ステップ3213)、ヘルスチェック信号受
信管理テーブル3121の送信元計算機の運転モードの
更新を行う(ステップ3214)。
【0071】モード情報保存テーブル1622と、ヘル
スチェック信号保存テーブル122の更新を行う(ステ
ップ3217)ために、全計算機分のループ(ステップ
3215)とネットワーク分のループ(ステップ321
6)を繰り返す。
【0072】ヘルスチェック信号受信管理機能3113
は、図25に示すように、定周期に起動し、全計算機分
のループ(ステップ3301)を繰り返し、自計算機か
どうか判定し(ステップ3302)し、他計算機のと
き、全ネットワークについて、ヘルスチェック信号受信
管理テーブル3121の受信状態をカウントアップし
(ステップ3304)、予め定めた値よりも大きいかを
判定し(ステップ3305)、大きいとき、ヘルスチェ
ック信号検出無しとしてヘルスチェック信号受信状態を
異常(−1)とする(ステップ3306)ことを繰り返
す(ステップ3303)。
【0073】計算機異常総合判定機能3114は、図2
7に示すように、定周期で起動し、全計算機分のループ
(ステップ3501)を繰り返して、計算機異常診断結
果テーブル1321を参照し(ステップ3502)、計
算機異常か判定し(ステップ3503)、計算機異常の
とき、モード情報診断結果テーブル1623を参照し
(ステップ3504)、停止モードのとき、つまり、ヘ
ルスチェック信号の受信がなく、運転モードが停止のと
き、計算機停止総合判定結果テーブル3122に停止と
書き込む(ステップ3506)。
【0074】本実施の形態によれば、計算機の異常の判
定と計算機停止の判定のAND条件により計算機停止を
判定する機能により、計算機停止判定の信頼度を向上す
ることが可能となる。
【0075】(第4の実施の形態)([請求項4]対
応) 図31は第4の実施の形態を説明する構成図であり、図
31において図1と同一機能部分については同一の符号
を付して説明を省略する。本実施の形態では多重化され
た計算機群間制御モードの計算機間で通信が不可となる
ような障害が発生したとしても、分散型計算機システム
として健全な運転が可能となるようにしたものである。
【0076】そして、本実施の形態の計算機診断方式
は、2重化された計算機−1(4001−1)と計算機
−2(4001−2)からなる多重化計算機群−1(4
003−1)と、同様の計算機から構成される複数の多
重化計算機群4003−2、4003−3、4003−
4と、これらの多重化計算機群を接続する2重化された
ネットワーク105−1,105−2から構成されてい
る。
【0077】本実施の形態の各計算機は、第1の実施の
形態の構成要素に加えて、停止判定機能4002とシス
テム構成情報4004を備える。図32は、システム構
成情報テーブル4004の構成を示す。図33は、停止
判定機能4002の処理フロー図であり、ヘルスチェッ
ク信号診断結果テーブル123とシステム構成情報テー
ブル4004から、他計算機との間で通信不能時に、自
計算機を停止を実施する処理フローを表している。
【0078】ヘルスチェック信号診断機能114は、ヘ
ルスチェック信号診断結果テーブル123の状態変化
(状変)を検出した場合、停止判定処理4002への変
化通知を行う。停止判定処理4002は、ヘルスチェッ
ク信号診断結果テーブル123を全計算機分参照し、自
計算機との通知不可か判定を行う(ステップ420
6)。
【0079】通信不可の計算機があると場合は、システ
ム構成情報4004を全多重化装置分参照する。システ
ム構成情報4004の構成要素と通信不可の計算機名が
一致するかどうか判定(ステップ4208)する。一致
する場合は、システム構成情報4004の切替対象多重
化装置群名と自計算機の所属する多重化装置群名が一致
するかどうか判定(ステップ4209)する。一致した
場合は、自計算機の停止処理を実施する(ステップ42
10)。
【0080】本実施の形態によれば、多重化された計算
機群の計算機と他の計算機群の計算機の間で通信異常が
発生した場合に、予め決めた計算機群の計算機を停止モ
ードとすることにより、多重化された計算機群の制御モ
ードの計算機間で通信が不可となるような障害が発生し
ても、分散型計算機システムとして健全な運転を継続す
ることが可能となる効果がある。
【0081】上記した各説明において記載した手段は、
コンピュータに実行させることのできるプログラムとし
て、例えば磁気ディスク、光ディスク、半導体メモリな
どの記憶媒体に書き込んで、各種装置に適用することも
可能である。又、これらを実現するには、記憶媒体に記
憶されたプログラムを読み込み、このプログラムによっ
て動作が制御されることにより、上述した処理を実行す
る。
【0082】
【発明の効果】以上説明したように、本発明によれば異
常が生じている計算機や情報伝送装置の異常箇所の特定
のための信頼性の向上と、異常発生時の構成制御の信頼
性の向上が可能となる。
【図面の簡単な説明】
【図1】第1の実施の形態を示す構成図。
【図2】情報伝送装置111の処理フロー。
【図3】ヘルスチェック信号受信機能112の処理フロ
ー。
【図4】ヘルスチェック信号送信機能113の処理フロ
ー。
【図5】ヘルスチェック信号診断機能114の処理フロ
ー。
【図6】ヘルスチェック信号受信管理機能115の処理
フロー。
【図7】ヘルスチェック信号監視結果生成機能116の
処理フロー。
【図8】計算機間で受け渡しを行うヘルスチェック信号
のテーブル構成。
【図9】ヘルスチェック信号受信管理テーブル121の
テーブル構成。
【図10】ヘルスチェック信号保存テーブル122のテ
ーブル構成。
【図11】ヘルスチェック信号診断結果保存テーブル1
23のテーブル構成。
【図12】ヘルスチェック信号監視結果テーブル124
のテーブル構成。
【図13】第2の実施の形態を示す構成図。
【図14】ヘルスチェック信号受信機能1611の処理
フロー。
【図15】ヘルスチェック信号送信機能1612の処理
フロー。
【図16】モード情報診断機能1613の処理フロー。
【図17】ヘルスチェック信号受信管理機能1614の
処理フロー。
【図18】ヘルスチェック信号受信なし設定機能161
5の処理フロー。
【図19】ヘルスチェック信号テーブルの構成。
【図20】ヘルスチェック信号受信管理テーブル162
1の構成。
【図21】モード情報保存テーブル1622の構成。
【図22】モード情報診断テーブル1623の構成。
【図23】第3の実施形態を示す構成図。
【図24】ヘルスチェック信号受信機能3111の処理
フロー。
【図25】ヘルスチェック信号受信管理機能3113の
処理フロー。
【図26】ヘルスチェック信号送信機能3112の処理
フロー。
【図27】計算機異常総合判定機能3114の処理フロ
ー。
【図28】ヘルスチェック信号受信管理テーブル312
1の構成。
【図29】計算機異常停止総合判定結果テーブル312
2の構成。
【図30】計算機間で受け渡しを行うヘルスチェック信
号テーブルの構成。
【図31】第4の実施の形態を示す構成図。
【図32】システム構成情報テーブル4004の構成。
【図33】停止判定機能4002の処理フロー。
【図34】従来技術の構成図。
【図35】従来技術のシステム監視計算機4301以外
の計算機が有するヘルスチェック信号受信機能4311
の処理フロー。
【図36】従来技術システム監視計算機4301以外の
計算機が有するヘルスチェック信号送信機能4312の
処理フロー。
【図37】従来技術のシステム監視計算機4301以外
の計算機が有するヘルスチェック信号保存テーブル43
21の構成。
【図38】従来技術のシステム監視計算機4301が有
するヘルスチェック信号受信機能4313の処理フロ
ー。
【図39】従来技術のシステム監視計算機が有するヘル
スチェック信号受信管理機能4314の処理フロー。
【符号の説明】
101 分散型計算機システム 102−1 計算機(2重化された計算機の片方の計
算機) 102−2 計算機(2重化された計算機の相手方の
計算機) 103 計算機(2重化されていない計算機) 4301 システム監視計算機 105 ネットワーク 111 情報伝送装置 4311 ヘルスチェック信号交信機能 122,4321 ヘルスチェック信号保存テーブ
ル 113,4312 ヘルスチェック信号送信機能 4313 ヘルスチェック信号受信機能(全計算機
の) 121 ヘルスチェック信号受信管理テーブル 115 ヘルスチェック信号管理機能 124 ヘルスチェック信号監視結果テーブル 116,4313 ヘルスチェック信号監視結果生
成機能 114 ヘルスチェック信号診断処理 123 ヘルスチェック信号診断結果テーブル 1311 計算機異常診断機能 1321 計算機異常診断結果テーブル 1613 モード情報診断機能 1614 ヘルスチェック信号受信なし設定機能 1622 モード情報保存機能 2901,1623 モード情報診断テーブル
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 13/00 351 G06F 13/00 351N 15/177 678 15/177 678A (71)出願人 000005234 富士電機株式会社 神奈川県川崎市川崎区田辺新田1番1号 (71)出願人 000003078 株式会社東芝 東京都港区芝浦一丁目1番1号 (72)発明者 古山 良一 愛知県名古屋市東区東新町1番地 中部電 力株式会社本店内 (72)発明者 小笠原 史久 愛知県名古屋市東区東新町1番地 中部電 力株式会社本店内 (72)発明者 久世 泰人 愛知県名古屋市東区東新町1番地 中部電 力株式会社本店内 (72)発明者 鈴木 英之 愛知県名古屋市東区東新町1番地 中部電 力株式会社本店内 (72)発明者 廣田 敦彦 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか事業所内 (72)発明者 有本 雅昭 兵庫県神戸市兵庫区和田崎町一丁目1番2 号 三菱電機株式会社系統変電・交通シス テム事業所(神戸)内 (72)発明者 鈴木 立夫 東京都日野市富士町1番地 富士電機株式 会社東京システム製作所内 (72)発明者 山本 和生 東京都府中市東芝町1番地 株式会社東芝 府中事業所内 (72)発明者 清島 義雄 東京都府中市東芝町1番地 株式会社東芝 府中事業所内 (72)発明者 臼井 一洋 東京都府中市東芝町1番地 株式会社東芝 府中事業所内 (72)発明者 中山 政樹 福岡県福岡市中央区長浜2丁目4番1号 株式会社東芝九州支社内 Fターム(参考) 5B034 BB11 BB17 CC01 DD02 5B042 GA12 JJ04 KK04 5B045 JJ02 JJ05 JJ07 JJ46 5B048 AA18 CC12 CC14 CC15 5B089 GA01 GA11 GB02 HA06 JB16 JB17 KA12

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 複数の計算機がそれらの計算機群との間
    で多重化されたネットワークを介して接続され、前記各
    計算機間は前記ネットワークとの間で情報伝送装置を経
    由して相互に情報を送信し合う分散型システムにおい
    て、前記各計算機には各計算機に対してヘルスチェック
    信号を送信する手段と、前記各計算機から送信されるヘ
    ルスチェック信号を受信する手段と、他の計算機からヘ
    ルスチェック信号の受信を定周期で監視し、全計算機か
    らのヘルスチェック信号を受信していない場合には自計
    算機の情報伝送装置を異常と判定し、一部の計算機から
    のへルスチェック信号を受信できない場合にはヘルスチ
    ェック信号を受信できない送信元計算機の情報伝送装置
    を異常と判定する手段と、前記各計算機により生成され
    た情報伝送装置の情報を前記各ヘルスチェック信号に付
    加する手段と、全計算機のヘルスチェック信号に付加さ
    れた前記各情報伝送装置の異常情報に基づいて、一台以
    上の計算機がある計算機の情報伝送装置を異常と判定し
    ている場合には当該計算機においても当該情報伝送装置
    を異常と判定する手段を備えたことを特徴とする分散型
    計算機システムにおける計算機診断方式。
  2. 【請求項2】 複数の計算機がそれらの各計算機群との
    間で多重化されたネットワークを介して接続され、前記
    各計算機間は前記ネットワークとの間で情報伝送装置を
    経由して相互に情報を送信し合う分散型計算機システム
    において、前記各計算機には各計算機に対してヘルスチ
    ェック信号を送信する手段と、前記各計算機から送信さ
    れるヘルスチェック信号を受信する手段と、他の計算機
    からヘルスチェック信号の受信を定周期で監視し、他の
    計算機からのへルスチェック信号を受信できない計算機
    がある場合にはヘルスチェック信号を受信できない送信
    元計算機を運転モード不定と判定する手段と、前記手段
    により生成された情報をヘルスチェック信号に付加する
    手段と、全計算機のヘルスチェック信号に付加された計
    算機の運転モード情報に基づき、全計算機がある計算機
    を運転ード不定と判定している場合、当該計算機を停止
    モードと判定する手段を備えたことを特徴とする分散型
    計算機システムにおける計算機診断方式。
  3. 【請求項3】 請求項2の分散型計算機システムにおい
    て、へルスチェック信号を受信できない計算機がある場
    合、ヘルスチェック信号を受信できない送信元計算機を
    運転モード不定と判定する手段と、前記手段により生成
    された情報をヘルスチェック信号に付加する手段と、全
    計算機のヘルスチェック信号に付加された計算機の運転
    モード情報に基づき、全計算機がある計算機を運転モー
    ド不定と判定している場合、その計算機を停止モードと
    判定する手段に加えて、請求項1の手段で検出した情報
    伝送装置異常と停止モードの両方の条件から計算機停止
    と判定する手段を備えたことを特徴とする分散型計算機
    システムにおける計算機診断方式。
  4. 【請求項4】 機能実行中の計算機と、前記機能実行中
    の計算機に何らかの異常が発生し機能停止した場合にバ
    ックアップする複数の計算機とからなる多重化された計
    算機群とが多重化されたネットワークを介して接続さ
    れ、前記ネットワークと各計算機とは情報伝送装置を経
    由して相互に接続されて互いに情報を伝送し合う分散型
    計算機システムにおいて、前記各計算機は他計算機に対
    してヘルスチェック信号を送信する手段と、前記各計算
    機から送信されてくるヘルスチェック信号を受信する手
    段と、他の計算機からヘルスチェック信号の受信を定周
    期で監視し、全計算機からヘルスチェック信号を受信で
    きない場合には、自計算機の情報伝送装置を異常と判定
    し、一部の計算機からへルスチェック信号を受信できな
    い場合には、その計算機の情報伝送装置を異常と判定す
    る手段と、前記手段によって生成された情報をヘルスチ
    ェック信号に付加する手段と、全計算機のヘルスチェッ
    ク信号に付加された情報伝送装置の異常情報に基づき、
    一台以上の計算機がある計算機の情報伝送装置を異常と
    判定している場合には、その情報伝送装置を異常と判定
    する手段と、多重化された計算機群のある計算機と他の
    多重化された計算機群のある計算機間で、ヘルスチェッ
    ク信号の受渡しができない場合には、予め決めた計算機
    を停止モードに遷移する手段とを備えたことを特徴とす
    る分散型計算機システムにおける計算機診断方式。
  5. 【請求項5】 複数の計算機がそれらの計算機群との間
    で多重化されたネットワークを介して接続され、前記各
    計算機間は前記ネットワークとの間で情報伝送装置を経
    由して相互に情報を送信し合う分散型システムにおい
    て、前記各計算機には各計算機に対してヘルスチェック
    信号を送信する手段と、前記各計算機から送信されるヘ
    ルスチェック信号を受信する手段と、他の計算機からヘ
    ルスチェック信号の受信を定周期で監視し、全計算機か
    らのヘルスチェック信号を受信していない場合には自計
    算機の情報伝送装置を異常と判定し、一部の計算機から
    のへルスチェック信号を受信できない場合にはヘルスチ
    ェック信号を受信できない送信元計算機の情報伝送装置
    を異常と判定する手段と、前記各計算機により生成され
    た情報伝送装置の情報を前記各ヘルスチェック信号に付
    加する手段と、全計算機のヘルスチェック信号に付加さ
    れた前記各情報伝送装置の異常情報に基づいて、一台以
    上の計算機がある計算機の情報伝送装置を異常と判定し
    ている場合には当該計算機においても当該情報伝送装置
    を異常と判定する手段と、他の計算機からのへルスチェ
    ック信号を受信できない計算機がある場合にはヘルスチ
    ェック信号を受信できない送信元計算機を運転モード不
    定と判定する手段と、前記手段により生成された情報を
    ヘルスチェック信号に付加する手段と、全計算機のヘル
    スチェック信号に付加された計算機の運転モード情報に
    基づき、全計算機がある計算機を運転ード不定と判定し
    ている場合、当該計算機を停止モードと判定する手段
    と、多重化された計算機群のある計算機と他の多重化さ
    れた計算機群のある計算機間で、ヘルスチェック信号の
    受渡しができない場合には、予め決めた計算機を停止モ
    ードに遷移する手段を実行する機能とからなるプログラ
    ムを記憶したコンピュータ読み取り可能な記憶媒体。
JP2000325159A 2000-10-25 2000-10-25 分散型計算機システムにおける計算機診断方式 Pending JP2002132535A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000325159A JP2002132535A (ja) 2000-10-25 2000-10-25 分散型計算機システムにおける計算機診断方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000325159A JP2002132535A (ja) 2000-10-25 2000-10-25 分散型計算機システムにおける計算機診断方式

Publications (1)

Publication Number Publication Date
JP2002132535A true JP2002132535A (ja) 2002-05-10

Family

ID=18802573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000325159A Pending JP2002132535A (ja) 2000-10-25 2000-10-25 分散型計算機システムにおける計算機診断方式

Country Status (1)

Country Link
JP (1) JP2002132535A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006311405A (ja) * 2005-05-02 2006-11-09 Mitsubishi Electric Corp ネットワーク故障判定方法およびネットワーク制御方法
JP2008060713A (ja) * 2006-08-29 2008-03-13 Fuji Xerox Co Ltd 情報処理装置およびプログラム
JP2012198822A (ja) * 2011-03-22 2012-10-18 Fujitsu Ltd 情報処理装置、制御装置および異常ユニット判定方法
JP2014197266A (ja) * 2013-03-29 2014-10-16 富士通株式会社 情報処理システム,情報処理装置,情報処理装置の制御プログラム,及び情報処理システムの制御方法
JP2017092873A (ja) * 2015-11-16 2017-05-25 株式会社東芝 コントローラおよび制御システム
CN110442495A (zh) * 2019-07-30 2019-11-12 杭州安恒信息技术股份有限公司 自动化巡检系统异常的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006311405A (ja) * 2005-05-02 2006-11-09 Mitsubishi Electric Corp ネットワーク故障判定方法およびネットワーク制御方法
JP4679956B2 (ja) * 2005-05-02 2011-05-11 三菱電機株式会社 ネットワーク故障判定方法およびネットワーク制御方法
JP2008060713A (ja) * 2006-08-29 2008-03-13 Fuji Xerox Co Ltd 情報処理装置およびプログラム
JP2012198822A (ja) * 2011-03-22 2012-10-18 Fujitsu Ltd 情報処理装置、制御装置および異常ユニット判定方法
JP2014197266A (ja) * 2013-03-29 2014-10-16 富士通株式会社 情報処理システム,情報処理装置,情報処理装置の制御プログラム,及び情報処理システムの制御方法
US10298478B2 (en) 2013-03-29 2019-05-21 Fujitsu Limited Information processing system, computer-readable recording medium having stored therein control program for information processing device, and control method of information processing system
JP2017092873A (ja) * 2015-11-16 2017-05-25 株式会社東芝 コントローラおよび制御システム
CN110442495A (zh) * 2019-07-30 2019-11-12 杭州安恒信息技术股份有限公司 自动化巡检系统异常的方法

Similar Documents

Publication Publication Date Title
CN101207408B (zh) 一种用于主备倒换的综合故障检测装置和方法
JPH08255115A (ja) 障害検出およびフォルトトレラントディジタルデータ処理方法および装置
US7937610B2 (en) Fast node failure detection via disk based last gasp mechanism
US8347142B2 (en) Non-disruptive I/O adapter diagnostic testing
US20080288812A1 (en) Cluster system and an error recovery method thereof
JPWO2008105031A1 (ja) クラスタシステムおよびノード切り替え方法
JP2006072717A (ja) ディスクサブシステム
CN105849702A (zh) 集群系统,服务器设备,集群系统管理方法和计算机可读记录介质
US7831710B2 (en) Communication of offline status between computer systems
JP2002132535A (ja) 分散型計算機システムにおける計算機診断方式
JP3211878B2 (ja) 通信処理制御手段及びそれを備えた情報処理装置
US20080168302A1 (en) Systems and methods for diagnosing faults in a multiple domain storage system
JP3190880B2 (ja) スタンバイシステム、スタンバイ方法、および記録媒体
JP2014532236A (ja) 接続方法
JP7188895B2 (ja) 通信システム
JPH0934852A (ja) クラスタシステム
JP2829040B2 (ja) 情報集配信システム
KR102652607B1 (ko) 장애를 대비한 이중화기능을 구비한 경보방송장치, 및 그의 장애관리방법
JP5951520B2 (ja) 多重系処理システム
KR100235570B1 (ko) 2이상의 주전산기를 병립 연결한 시스템의 클러스터 관리 마스터 시스템의 클러스터 관리방법
JP2003248633A (ja) 耐障害性環境でバイナリ信号の状態を符号化/復号する方法
JP3439365B2 (ja) 転送制御システムのノード障害検出方法およびファイル転送時のノード障害検出方法
US20060028978A1 (en) Method and apparatus for continuous operation of a point-of-sale system during a single point-of-failure
CN118041743A (zh) 节点故障处理方法、装置、电子设备、芯片及存储介质
JP4260441B2 (ja) システムヘルスチェックプログラム及びシステムヘルスチェック方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040119

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040122

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050829

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080327

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080507