JP3942216B2 - System monitoring / control method and system monitoring / control apparatus using dual monitoring / controlling processor - Google Patents

System monitoring / control method and system monitoring / control apparatus using dual monitoring / controlling processor Download PDF

Info

Publication number
JP3942216B2
JP3942216B2 JP31079596A JP31079596A JP3942216B2 JP 3942216 B2 JP3942216 B2 JP 3942216B2 JP 31079596 A JP31079596 A JP 31079596A JP 31079596 A JP31079596 A JP 31079596A JP 3942216 B2 JP3942216 B2 JP 3942216B2
Authority
JP
Japan
Prior art keywords
monitoring
scf
processor
notification event
controlling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP31079596A
Other languages
Japanese (ja)
Other versions
JPH10154085A (en
Inventor
和博 結城
昭宏 山崎
武朗 多幡
晶子 佐藤
秀敏 田村
康二朗 小倉
直樹 泉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP31079596A priority Critical patent/JP3942216B2/en
Publication of JPH10154085A publication Critical patent/JPH10154085A/en
Application granted granted Critical
Publication of JP3942216B2 publication Critical patent/JP3942216B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Description

【0001】
【発明の属する技術分野】
中規模以上の計算機システムにおいては、通常、メインプロセッサとは独立して、環境、装置、電源といったシステムの監視、制御、保守の機能を担当する監視/制御プロセッサが設けられる(以下、これを必要に応じてSCF:SystemControlFacilityと呼ぶ)。
本発明は、同一システム内に二重化された監視/制御プロセッサを持つ計算機システムに関し、特に、本発明は二重化された監視/制御プロセッサによるシステムの監視・制御方法およびシステム監視・制御装置に関するものである(以下、上記二重化監視/制御プロセッサ間の通信を必要に応じてSCF間通信またはSCFLinkと呼ぶ)。
【0002】
【従来の技術】
従来から、資源を二重化した計算機システムが知られているが、これらのシステムにおいては、SCF自体は一つであったため、SCF自体が故障した場合は、システムとして動作不能(システムダウン)となった。
また、SCF自体を二重化する試みもなされているが、SCFを二重化した場合でも、従来においては両SCF間通信が行えなかったため、共通資源の排他制御や片系資源の故障時の動作保証が困難であった。
【0003】
【発明が解決しようとする課題】
同一システム内で各種資源を二重化することにより、システムとしてノーダウン、ノーストップを可能とする高信頼性システムを実現することができる。
しかしながら、資源を二重化した場合、それぞれの資源をSCFが監視/制御して一つのシステムの動作を実現しなければならず、また、共通資源については、各SCF間での制御が競合しないように排他制御を行う必要があり、常に他系の状態を監視し、把握しておく必要がある。
【0004】
本発明は上記した事情に鑑みなされたものであって、本発明の第1の目的は、二重化したSCF間での通信処理を実現可能とすることにより、両SCF間の処理に一貫性を持たせるとともに、片系異常時でも適切な処理を迅速に行うことを可能とし、ノーストップ・システムを実現することである。
本発明の第2の目的は、共通資源の排他制御や、片系故障時の切り離し処理および他系資源の監視引き継ぎを容易にすることである。
本発明の第3の目的は、二重化した両SCF間の通信異常を迅速に検出し、ハード異常なのか他系未実装による通信異常なのかを認識できるようにするとともに、受信エラーの検出や受信エラー発生時の他系への通知処理および再送事象の検索処理を容易にすることである。
【0005】
本発明の第4の目的は、システム動作中のまま、片系のSCFを交換することを可能とするとともに、活性挿入されたSCFに対して、動作中のSCFの内部情報を引き継ぐことができるようにし、あたかもずっと二重化状態で動いていたように動作をさせることである。
本発明の第5の目的は、二重化した両SCF間でお互いの機能レベルの自動認識を可能とすることにより、機能版数が異なった状態で動作することをなくし、二重化システムの動作を常に保証することである。
本発明の第6の目的は、他系の自己診断時の異常を迅速に検出できるようにし、自己診断異常時に適切な処理を行えるようにすることである。
【0006】
【課題を解決するための手段】
図1は本発明の原理図である。同図において、1はメインプロセッサ、2はメインプロセッサと監視/制御プロセッサ間を接続するバス、3a,3bは、監視、制御、保守等を行う監視/制御プロセッサであり、監視/制御プロセッサ3a,3bは同一の構成を有し、両系の間に通信手段4が設けられている。
5は監視/制御プロセッサ3a,3bがそれぞれ監視・制御する固有資源、6は監視/制御プロセッサ3a,3bの両方が監視・制御する共有資源である。
【0007】
図1に示すように、本発明においては次のようにして前記課題を解決する。
(1)メインプロセッサ1とは独立して設けられたシステムの監視、制御、保守を行うための監視/制御プロセッサを二重化し、二重化された監視/制御プロセッサ3a,3bによりシステムの監視・制御を行う前記二重化された監視/制御プロセッサにより、情報処理システムの監視・制御を行う情報処理装置のシステム監視・制御方法において、監視/制御プロセッサ3a,3b間相互で通信を行うための通信手段4を設け、前記二重化された監視/制御プロセッサのうち、送信権を有する他の監視/制御プロセッサから通知事象を受信したとき、一の監視/制御プロセッサが通知事象の送信権を獲得するステップと、前記一の監視/制御プロセッサが、他の監視/制御プロセッサへの通知事象に、シーケンス番号を付与するステップと、前記一の監視/制御プロセッサが、シーケンス番号が付与された通知事象を前記他の監視/制御プロセッサに送信するステップと、前記他の監視/制御プロセッサから受信エラーの発生を原因とする再送依頼が前記シーケンス番号を用いてなされたときに、前記他の監視/制御プロセッサからの受信したシーケンス番号が付与されている通知事象を前記他の監視/制御プロセッサに再送するステップを設ける。
【0008】
)上記(1)において、通知事象の送信権の放棄を行うステップをさらに有し、前記ステップは、通知事象の送信権を獲得した一の監視/制御プロセッサが、送信権の獲得から一定時間が経過することにより保持時間タイムアウトが発生した場合に、他の監視/制御プロセッサに対して通知事象を送信することにより、前記通知事象の送信権の放棄を行う。
)上記()において、前記一の監視/制御プロセッサが、送信権を有する他の監視/制御プロセッサから通知事象の送信権を獲得するステップは、送信権を有さない一の監視/制御プロセッサにおいて、前記送信権放棄から一定時間の経過により獲得時間のタイムアウトが発生した場合に、前記一の監視/制御プロセッサが通知事象の送信権を獲得する。
【0009】
)上記()において、エラー判定を行うステップをさらに有し、前記ステップは、前記獲得時間のタイムアウトが発生した場合に、他の監視/制御プロセッサで前記送信権を獲得した一の監視/制御プロセッサにおいてエラーが発生したものと判断するステップである。
)情報処理装置のシステム監視・制御装置において、メインプロセッサとは独立して設けられ、情報処理システムの監視、制御又は保守を行うための二重化された監視/制御プロセッサと、前記二重化された監視/制御プロセッサ間で、通知事象の通信を行なうための通信手段とを有し、前記二重化された監視/制御プロセッサのうち一の監視/制御プロセッサは、送信権を有する他の監視/制御プロセッサから通知事象を受信したとき通知事象の送信権を獲得し、他の監視/制御プロセッサへの通知事象にシーケンス番号を付与し、前記シーケンス番号を付与された通知事象を、他の監視/制御プロセッサに送信するとともに、前記他の監視/制御プロセッサから受信エラーの発生を原因とする再送依頼が前記シーケンス番号を用いてなされたときに、前記他の監視/制御プロセッサからの受信したシーケンス番号が付与されている通知事象を前記他の監視/制御プロセッサに再送する
【0010】
)上記()において、二重化された監視/制御プロセッサはそれぞれ送信権保持タイマを有し、通知事象の送信権を獲得した一の監視/制御プロセッサにおいて、前記送信権保持タイマ、送信権の獲得から一定時間の経過によりタイムアウトが発生した場合に、他の監視/制御プロセッサに対して通知事象を送信することにより、前記通知事象の送信権の放棄を行う。
【0011】
)上記()において、二重化された監視/制御プロセッサはそれぞれ送信権獲得タイマを有し、送信権を有さない一の監視/制御プロセッサにおいて、前記送信権の放棄から一定時間の経過により、前記送信権獲得タイマタイムアウトが発生した場合に、前記一の監視/制御プロセッサに通知事象の送信権を付与する。
【0012】
(8)上記(7)おいて、二重化された監視/制御プロセッサはそれぞれ、前記送信権獲得タイマにおいてタイムアウトが発生した場合に、他の監視/制御プロセッサでエラーが発生したものと判断する。
【0013】
以上のように、本発明においては、お互いの状態を把握しながらメインプロセッサに対して同じ動作を行うことができ、二重化された監視/制御プロセッサに全体として一つの動作を行わせることができる。
また、片系異常時、これを迅速に検出し、適切な処理(システムダウンしないように、正常な系で制御)を継続することが可能となる。
また、送受信した全ての事象をシーケンス番号により管理することができ、送信側では、送信した事象の記憶と、再送依頼時の再送事象の取り出しが容易となる。
さらに、受信側では、事象単位のシーケンスチェックによって、未受信事象の検出が可能となり、送信側への再送依頼もエラーとなったシーケンス番号を通知するだけでよく、処理が簡略化される。
【0014】
さらに、一定時間、事象( alive message) が通知されなかったことをタイマのタイムアウトにより知ることができ、タイムアウトにより他系に何らかの異常が発生したことを知ることが可能となる。
また、上記事象( alive message) の送信権をいずれか一方の系が持つという機能を利用することにより、共通資源のアクセス権等の排他制御を行うことが可能となる。
また、通信異常を全て受信側で検出することができ、また、検出機構によって通信異常の原因の予測が可能となり、通信異常に対して適切な処理を行うことが可能となる。
また、通信異常が発生した場合、これをいち早く検出し、適切な処理を行うことによって、通信異常が発生した場合であってもシステムの動作を保証することができる。
【0018】
【発明の実施の形態】
図2は、本発明の実施例のシステムの構成と監視資源を示す図である。同図において、10はメインプロセッサ、12,13は二重化されたSCFであり(SCF12,13を、それぞれ#A系SCF12、#B系SCF13という)、#A系、#B系のSCF12,13は同一の構成を備えている。
上記メインプロセッサ10と各SCF12,13はSCバス(SCFとメインプロセッサ間通信線)11で接続されている。
14はSCF12,13をハード的に接続する信号線(SCFLink)であり、後述するようにSCF間通信レジスタに接続されている。
15はRS232Cインタフェース、16は外部無停電電源装置(外部UPS)、17は外部設備、EPCは外部電源制御インタフェース、18は拡張装置、RCIは拡張装置制御インタフェース、19は拡張装置電源、EDPCIは拡張装置電源制御インタフェース、20は温度センサ、21はファンである。
また、22はオペレータ操作パネル、23はサブ電源装置(PSU)、24は内蔵無停電電源装置(UPS)、25はメイン電源装置(PDU)である。
【0019】
図2に示すように、各SCF12,13には二重化された監視資源が接続されているが、外部無停電電源装置(外部UPS)16、拡張筐体制御インタフェースRCI、温度センサ20等は固有資源である。
また、メイン電源(PDU)25、内蔵無停電電源装置(UPS)24、ファン21、オペレータ操作パネル22等は共用資源であり、両系から監視可能であ。
それぞれのSCF12,13は、上記したようにSCバス11によってメインプロセッサと接続されているが、両系で監視している資源の事象は、いずれかの系から一回だけ通知する必要があり、また、他系の通知担当資源の事象でも、例えば、いずれかのSCバスが断線した場合等には、正常な系から代替通知が行えるように構成されている。
【0020】
次に本発明の実施例の各部の構成および動作について説明する。
(1)SCF間通信
図3は本発明の実施例のSCF間通信の概略構成を示す図である。同図において、10はメインプロセッサ、11はSCバス、12,13は二重化されたSCFボードである。
#A系SCFボート12、#B系SCFボード13は、SCF間通信を行うため、それぞれSCF間通信用レジスタ12a,13aを備えており、SCF間通信用レジスタ12a,13aは受信用レジスタECOMR1と送信用レジスタECOMR2から構成されている。
#A系SCFボード12の受信用レジスタECOMR1と#B系SCFボード13の送信用レジスタECOMR2はハード的にシリアル転送を行う信号線14により接続されており、また、#B系SCFボード12の受信用レジスタECOMR1と#A系SCFボード12の送信用レジスタECOMR2は、同様な信号線14により接続されており、送信用レジスタECOMR2にデータを書き込むと、他系のSCFに送信され、受信用レジスタECOMR1に上記データが書き込まれる。
12b,13bは送受信処理を行うSCFファームウエア、12c,13cはSCF制御用CPUである。
【0021】
図4は、SCF間通信用レジスタ12a,13aにおける受信用および送信用レジスタECOMR1,ECOMR2の構成を示す図である。
受信用および送信レジスタECOMR1,ECOMR2は同図に示すように、16ビット構成であり、下位9ビット(FCR,ECOND)は共通のデータ領域、ビット15(INT)は割り込みに使用される。
送信用レジスタECOMR2のINTビットに1を設定すると他系の受信用レジスタECOMR1のINTビットに1がセットされ、その系のSCF制御用CPUに割り込みが通知される。
また、ビット14(PERR)にはパリティ異常時に1がセットされる。
すなわち、16ビットのレジスタに1ビットのパリティがハードウェアで付加され、受信時にハードウェアでパリティチェックを行い、パリティ異常時にビット14(PERR)に1がセットされる。
【0022】
図3、図4において、送信側のSCFファームウェア12bまたは13bは他系への通知事象が発生すると、通知データを送信用レジスタECOMR2に書き込み、INTビットに1をセットする。
このデータは信号線14を介して受信側のSCFに送信され、受信用レジスタECOMR1に書き込まれる。
受信用レジスタECOMR1のINTビットに1が書き込まれると、SCF制御用CPUに割り込みが上がり、CPUから起動されたSCFファームウェア12bまたは13bの割り込みハンドラは受信用レジスタECOMR1を読み取り、SCF間通信が実現される。
【0023】
図5はSCF間通信レジスタのアクセス方法を示す図である。
本実施例のSCF間通信レジスタ12a,13aは、同図に示すように、1バイトずつのREAD/WRITEしか行うことができない。
従って、複数バイトを送受信できるようにするため、コマンド方式によりデータ送信を行い、送信するデータ長をコマンド毎にあらかじめ規定する。また、通知事象発生時の送信データ長は不定なので、1パケットの送信データの先頭と最後に必ずコマンドを付して1バイトずつ送信を行う。
図6はSCF間通信レジスタ12a,13aの使い方を説明する図であり、同図に示すように、送信データがコマンドの場合には、送信用レジスタECOMR2のビット15のINT、ビット8のFCRをそれぞれ1にセットし、0〜7ビットのECONDの上位4ビットにコマンド種別を、また、下位4ビットに詳細コードをセットする。
また、送信データがデータの場合には、ECOMR2のビット15のINTを1に、ビット8のFCRを0にセットし、0〜7ビットのECONDにデータを設定する。
【0024】
図7はコマンド別送信形式を示す図であり、同図に示すように、コマンドには以下のものがあり、次の形式を持つ。
▲1▼「フェーズ通知」
自己診断中に送信されるコマンドであり、詳細コードは、自己診断フェーズを示すフェーズ番号である。
▲2▼「自己診断エラー通知」
自己診断エラーが発生したとき通知されるコマンドであり、詳細コードはコマンドシーケンス番号(後述する)である。また、送信データは、ログコードと、オペレータ操作パネル22に設けられた液晶表示装置(以下、LCDという)の上段および下段への表示コードである。
▲3▼「機能版数通知」
SCFの機能レベル(以下、機能版数という)を通知するためのコマンドであり、「初期通知」と、SCFが非活性(SCFが動作中でない)であることを通知する「非活性通知」、SCFが活性状態であるとき通知される「活性応答」があり、詳細コードにより種別が通知される。また、送信データは自系の機能版数である。
【0025】
▲4▼「alive message 」
両系SCF間で一定時間毎にある決まった通知事象(この通知事象を以後、alive message という)を交換することにより、常に他系の状態を監視することができる(alive message の交換については後述する)。
図7の「alive message 」は上記したalive message を通知するためのコマンドであり、「通常通信」と「送信異常時」があり、詳細コードは、シーケンス番号である。
▲5▼「再送依頼」
受信エラーが発生したとき再送依頼を行うためのコマンドであり、詳細コードはエラー検出したシーケンス番号である。
▲6▼ 「データ開始」
データ開始を示すコマンドであり、詳細コードはシーケンス番号、送信データは送信データ+終了コードである。
▲7▼ 「データ終了」
送信データの終了を示すコマンドであり、詳細コードは、送信データ長であり、送信データは送信したデータのサムデータである。
【0026】
図5において、送信は次のように行われる。
(a) 送信は必ず1バイト単位とし、送信側のSCFは、1バイト書き込んだ後、続けてデータを書き込む場合は、相手が読み取ったことを確認せずに、一定時間以上の間隔を空けて、データを書き込む(他系が読み取る前に、次のデータを書き込んでしまうオーバランのチェックは受信側で行う)。
(b) 受信側は、1回の割り込みが上がると受信用レジスタECOMR1を一回リードして他系からの通知データを読み取る。
(c) 複数バイトのデータ送信中に、alive message 通知または通知事象が発生した場合は、送信中のデータ送信が全て完了するまで待ってから送信する。
(d) 但し、受信エラー時の再送依頼を送信する場合は、複数バイトデータの送信完了を待たずに再送依頼を送信中のデータの間に割り込んで送信する。
【0027】
図8は通知事象発生時の送信シーケンスを示す図であり、同図に示すように、通知事象が発生すると、データ開始コマンドを送信したのち、データを1バイト目から最終バイト目まで送信する。受信側では、該受信データを記憶する。
そして、データ終了コマンドが通知されると、受信側では、終了コマンドにより送られたデータ長データと実際に受信したデータ長を比較チェックする。
さらに、送信側から1パケットの送信データの全ての和であるサムデータが送信されてくると、サムチェックを行う。
【0028】
図9は複数バイト送信中の通知事象発生時の処理を示す図である。
同図に示すように、通知事象Aが発生し通知事象Aのデータを送信し、nバイト目まで送信したとき、alive message 等の通知事象Bが発生しても、このデータは送信待ちになる。一方、通知事象Aの送信中に再送依頼による通知事象Cが発生すると再送依頼は即送信され、受信側でエラー処理(再送処理)が行われる。そして、通知事象Aの送信が終了した後に、前記送信待ち状態であった通知事象Bが送信される。
【0029】
図10はSCF間通信におけるシーケンスチェック処理を示す図である。
SCF間通信を行う際、通知事象にシーケンス番号を付与して送信し、送信側、受信側でシーケンス番号により、未受信エラーの検出や、受信エラー発生時の再送処理を実現する。また、SCFは、送信済事象とシーケンス番号を一定数記憶する送信事象管理テーブルを備えており、該テーブルにより送信履歴を管理する。
【0030】
すなわち、図10に示すようにデータの送信が行われる。
(a) 通知事象(発生事象、alive message )を送信する際、通知事象毎に一連のシーケンス番号(0〜n)を付与して、通知事象と一緒に他系のSCFに送信する(シーケンス番号がnを越えたら0に戻す)。
(b) 送信側は、送信履歴として送信済事象とシーケンス番号を管理テーブルに一定数記憶しておく(例えばn+1個、古いデータは破棄する)。
上記送信済事象とシーケンス番号は、再送依頼時に必要であり、シーケンスエラーが発生しシーケンス番号を付して再送依頼があったとき、上記管理テーブルから該当事象を取り出し再送する。また、再送する場合にも、新たなシーケンス番号を付与して送信する。
(c) 受信側では、受信したシーケンス番号の最新の値を記憶しておく。これは、受信したシーケンス番号と、受信済シーケンス番号から受信エラーを検出するために必要であり、受信したシーケンス番号が、前回受信のシーケンス番号+1でない場合、〔前回受信シーケンス番号+1〕〜〔今回受信シーケンス番号−1〕までを未受信エラーとして、他系に再送依頼する。
【0031】
例えば、図10に示すように、通知事象B(シーケンス番号No.3)が未受信であり、シーケンス番号No.2の通知事象Aの次にシーケンス番号No.4の通知事象Cを受信したとき、シーケンス番号No.3(〔No.2+1〕=No.3〜〔No.4−1〕=No.3)のデータが未受信であるとして、再送依頼を行う。
送信側では、再送依頼があると、送信対象管理テーブルから該当事象(通知事象B)を取り出し、新たなシーケンス番号No.5を付与して再送する。
【0032】
(2)alive message による状態監視
前記したように、上記したSCF間通信機能を用いて、両系SCF間で一定時間毎にある決まった通知事象(この通知事象をalive message という)を交換することにより、常に他系の状態を監視することが可能となる。
すなわち、他系にalive message を送信したら、他系が一定時間alive message を保持した後、再び自系に送信されてくるような仕組みにしておくと、一定時間経ってもalive message が送信されてこなかった場合、他系に異常が発生したと判断することが可能となる。
【0033】
具体的には、常に何れかの系でalive message の送信権(alive message 保持中の状態で、次にalive message を送信する権利)を持たせておくようにし、alive message の送信権は、他系からalive message を受信するか、一定時間(m)のalive message 獲得タイマがタイムアウトしたとき獲得するようにする。
また、alive message を獲得した系は、一定時間(n)の保持タイマを設定し、保持タイマがタイムアウトしたとき、他系にalive message を送信して送信権を放棄する。
上記のようにすることにより、正常時は常に何れかの系がalive message の送信権を持つようになる。そして、獲得タイマのタイムアウトによってalive message 送信権を獲得した場合は、他系がalive message を通知できない何らかの異常が発生したと判断する。
【0034】
図11、図12、図13は上記したalive message の交換制御を説明する図であり、図11は通常時のalive message の交換制御、図12は経路異常時のalive message の交換制御、図13は他系の未実装またはハングアップの場合を示している。
図11において、#A系において、保持タイマがタイムアウトすると、alive message を#B系に送信し、alive message の送信権を放棄する。また、それと同時に獲得タイマを設定し動作を開始させる。
#B系においては、上記alive message を受信すると、獲得タイマの動作を停止し、保持タイマを設定して動作を開始する。
そして、#B系において、保持タイマがタイムアウトすると、alive message を#A系に送信し、alive message の送信権を放棄する。また、それと同時に獲得タイマを設定し動作を開始させる。
【0035】
上記したalive message の交換制御において、通信経路に異常が発生すると、図12に示すようになる。
両系で相互にalive message を交換しているとき、同図に示すように、#A系が#B系にalive message を送信したとき経路異常が発生すると、#B系ではalive message が受信されないので、獲得タイマがタイムアウトし、送信権を獲得する。そして、保持タイマを設定し、保持タイマがタイムアウトしたとき、#A系にalive message を送信し送信権を放棄するとともに、獲得タイマを設定して動作を開始させる。
次いで、経路異常により#A系からのalive message が再び#B系で受信されないと、上記と同様、#B系の獲得タイマがタイムアウトし、#B系が送信権を獲得する。
【0036】
なお、図12の片系の通信経路異常の例では、他系は動作中であるが、alive message 送信権が重なることはないので、後述する共用資源の排他制御は問題なく継続される。
また、上記したalive message の交換制御において、他系のSCFが未実装の場合、またはハングアップ(停止)した場合には、図13に示すようになる。
すなわち、#A系と#B系でalive message を交換している際、図13に示すように、#A系のSCFボードが抜かれて未実装状態になったり、あるいは、#A系のSCFがハングアップした場合には、図12と同様、#B系ではalive message が受信されないので、獲得タイマがタイムアウトし、送信権を獲得する。そして、保持タイマを設定し、保持タイマがタイムアウトしたとき、#A系にalive message を送信し送信権を放棄するとともに、獲得タイマを設定して動作を開始させる。
次いで、経路異常により#A系からのalive message が再び#B系で受信されないと、上記と同様、#B系の獲得タイマがタイムアウトし、#B系が送信権を獲得する。
【0037】
以上のように、獲得タイマのタイムアウトによって#B系がalive message 送信権を獲得した場合は、#A系がalive message を通知できない何らかの異常が発生したと判断することができる。
なお、前記したシーケンスエラーは、通知事象が発生しない限り検出できないが、上記のようにシーケンス番号が付与されたalive message を定期的に交換することにより、通知事象が発生しない場合であっても、問題なく通信異常を検出することができる。
【0038】
(3)通信異常の検出と原因の切りわけ及び通信異常時の処理
(i )通信異常の定義と原因
何らかの異常を検出し、SCFlinkが正常に機能していない状態を通信異常とする。
通常時を含め、SCFの状態をシステム全体から見た場合、そのパターンは図14に示すように4パターンがある。
図14において、片系のSCF(#A系)に着目した場合、相手からの事象が受信できない場合に通信異常(同図のパターン3,4)になっていることが分かる。
ここで、送信が正常にいっていても、異常であっても送信している系の処理は変わらないため、通信異常は、相手の通信異常要因にはなるが、自系を通信異常とはしない。
また、この定義によると通信異常が発生する原因としては、大きく分けて 通信経路が異常(ハード異常)の場合と、他系が停止(ハングアップ)した場合、および、他系が未実装の場合の3通りが考えられる。
【0039】
(ii)通信異常の検出方法
上記(i )で述べたように、受信側は、自分が正常に受信できない事により、通信異常を検出できるが、送信側は相手が正常に受信したかどうかを自力で検出する事はできず、また、検出しても通信異常であるためにそれを確実に相手に通知できる保証はない。
以上のことから、通信異常の検出は受信側で行うものとし、送信側ではチェックは行わない。
本実施例では、図15に示すように3つの検出機構により通信異常の検出を行う。以下の全ての原因に対する通信異常は、受信側で検出することができる。
【0040】
(a) 受信エラーの発生
受信エラーの発生は、後述するように、パリティチェック、受信データ長チェツク、受信データサムチェック、シーケンスチェックにより検出することができる。また、その異常原因は、ハード異常(通信経路異常等)である。
(b) alive message 獲得タイムアウト
前記(2)で説明したように、alive message の交換制御により何らかの異常が発生したことを検出することができる。
この場合の異常原因は、ハード異常(通信経路断線等)、他系SCF未実装、他系SCFハングアップ(停止)である。
(c) 異常要因検出
上記以外の異常要因としては、後述するように他系のSCF未実装検出、他系のSCF停止通知受信、他系の自己診断認識がある。
これらの異常要因は、他系SCF未実装、他系SCFハングアップ、他系SCF活性交換(システム動作中における他系SCFの交換)、他系自己診断中の場合である。
【0041】
(iii) 受信エラー検出
受信エラーの検出について詳述する。
SCFファームウェア12b,13bは、次のようなチェック機構を備えており、各チェック機構により受信エラーを検出し、受信エラー検出時、エラー通知(再送依頼)、返信処理(受信エラーシーケンス番号の決定)を次のように行う。
(a) パリティエラー検出
受信用レジスタECOMR1の読み込み時に、ハードウェアが検出したパリティエラービットがオンの場合、パリティエラーとする。
パリティエラーを検出した場合、受信データおよび受信済データを破棄し、未受信状態とする。この時点では再送依頼は行わない。これは、次のコマンド受信時に、受信エラーを検出できるためである。
また、パリティエラーを検出した以降、次のコマンドを受信するまで、受信データは全て破棄する。そして、コマンド受信時に、受信エラー(データ長不一致、または、シーケンスエラー)となり、再送依頼が送信される。
【0042】
(b) データ長不一致検出
通知事象を送信するとき、送信データのデータ長をコマンドに付与して送信し、受信側で受信したデータのデータ長が、コマンドで通知されたデータ長と不一致の場合に、受信データ長不一致とする。
データ長不一致を検出した時点で送信側に再送依頼を送信し、受信済データは破棄する。また、再送依頼するシーケンス番号は、受信完了シーケンス番号+1(受信中シーケンス番号)とする。
【0043】
(c) サムチェックエラー検出
通知事象を送信するとき、送信データの全ての和のサム値を計算して最後に送信し、受信側で受信中のデータのサム計算を行い、最後に送られてきたサム値と比較することにより受信データの正当性をチェックする。
サムチェックエラー検出時、受信した時点で送信側に再送依頼を送信し、受信済データは破棄する。また、再送依頼するシーケンス番号は、受信完了シーケンス番号+1(受信中シーケンス番号)とする。
【0044】
(d) シーケンスエラー検出
前記したように、受信した通知事象のシーケンス番号が、前回受信した通知事象のシーケンス番号+1でない場合、シーケンスエラーとする。
開始コマンドを受信せずに、データを受信した場合は、そのデータを破棄し、未受信状態のままとする。これは、終了コマンド等受信時に再度エラー検出できるためである。
上記以外のシーケンスエラーを検出した場合は、検出した時点で送信側の再送依頼を送信する。また、受信済データは破棄する。
再送依頼するシーケンス番号は、受信していないシーケンス番号とする。すなわち、前記したように、〔前回までに正常に受信したシーケンス番号+1〕〜〔今回正常に受信したシーケンス番号−1〕である。なお、未受信の事象が2つ以上ある場合は、連続して再送依頼を送信する。
【0045】
(iv)通信異常時の処理
通信異常が発生した場合、以下の処理を行うことによって、通信異常が発生した状態でのシステム動作を保証する。
(a) 通信異常検出時の処理
▲1▼ メインプロセッサ10へ「通信異常」を通知する。
▲2▼ メモリにエラーログを出力する。
▲3▼ オペレータ操作パネル22のLCDに異常表示をするとともに、チェックランプを点灯する。
(b) 通信異常中の処理
▲1▼ alive message 交換制御はそのまま継続する。
▲2▼ 他系への送信処理は継続する。
▲3▼ 他系からの受信事象は読み捨てる。
▲4▼ 受信エラー発生を他系に通知しない(再送依頼未送信)。
通信異常時のシステム監視事象は、それぞれのSCFが独立して通知を行う。したがって、通信異常状態時に限り、共有資源で事象が発生した場合は、両系から異常通知される場合がある。
【0046】
(v )通信異常解除要因とその検出方法
通信異常が発生した場合、その原因がハード異常(SCFボードの異常等)とわかる場合は、交換されるまで通信異常を復旧しない処理が必要である。
また、単なる他系未実装やハングアップしただけの場合には、リセットによって復旧する必要がある。そこで、通信異常の復旧は原因別に以下の条件を満たした場合に復旧させるようにする。
【0047】
(a) パリティエラー、通信経路異常等の復旧
ハード異常のため、自系リセットもしくは他系の活性交換完了により復旧させる。上記復旧は、次のように行われる。なお、SCF活性交換については後で詳述する。
他系SCF未実装から実装を認識→フェーズ通知受信→機能版数またはalive message 受信→通信異常復旧
(b) 他系SCFハングアップ又は他系SCF未実装の復旧
他系がリセットされ、自己診断完了にて復旧する。すなわち、次のようにして復旧する。
フェーズ通知受信→機能版数又はalive message 受信→通信異常復旧
【0048】
(4)他系SCF未実装の検出
二重化システム通信において、一方の系の活性交換時や、他系のSCF故障時など、片系のSCFのみでの運用(他系が未実装状態)を余儀なく行わなければならない場合がある。この場合は、内部的に通信異常を検出することとなるが、それが本当の通信異常なのか、他系未実装による異常なのかを見極める必要がある。
そこで、本実施例では、他系の実装/未実装状態をハード的に検出し、レジスタのビットのON/OFFでSCFファームウェアに通知する仕組みを実現している。SCFファームウェアは、上記レジスタを定期的にポーリングして、監視および内部フラグの更新を行うことにより、常に他系の実装状態を把握することができる。
【0049】
他系SCFの未実装は具体的には次のように検出する。
(a) 最初から他系未実装の場合
alive message 獲得タイマの連続タイムアウトにより、通信異常を検出するので、この時、ポーリングにより更新される上記内部フラグ(他系の実装状態を示す)を見にいき、通信異常の原因が他系のSCF未実装によるものであるかを判断する。
(b) 運用中に他系のSCFが抜かれた場合
上記レジスタをポーリングすることによって、他系のSCFが実装から未実装に変化した場合を検出することができるので、この時点で他系SCF未実装による通信異常処理を行い、この後、alive message 獲得タイマの連続タイムアウトが発生しても異常処理を行わないようにする。
以上のようにすることにより、他系が未実装のままシステムを立ち上げた場合や、運用中に不当に抜かれた場合でも、通信異常でなく、適切なメッセージ(他系未実装)を外部に通知することができる。
【0050】
(5)資源の監視と事象通知
各SCFは次のようにして各資源の監視を行い、通知事象が発生したとき、メインプロセッサに事象を通知し、また、他系のSCFに通知する。
(a) 片系固有で監視可能な事象の資源の監視と事象の通知
前記図2に示した外部無停電電源装置(外部UPS)16、拡張筐体制御インタフェースRCI、温度センサ20等、二重化した個々のSCFのそれぞれが監視・制御する固有資源において事象が発生した場合、検出した系でメインプロセッサ10に事象を通知する。
また、SCF間通信機能を使用して他系のSCFに情報を通知する(検出系からメインプロセッサ10に事象通知ができない異常時に、他系SCFから代替通知させるため)。
他系のSCFが通知すべき事象を、他系のSCFから通知された系は、その事象を保留しておき、特に処理は行わない。
なお、上記のように、他系がメインプロセッサ10に事象通知できないことを検出した場合は、保留していた事象、および、新たに通知された事象については、他系に代わってメインプロセッサ10に代替通知を行う。
【0051】
(b) 両系で監視可能な資源の監視と事象通知
メイン電源(PDU)25、内蔵無停電電源装置(UPS)24、ファン21、オペレータ操作パネル22等、二重化したSCFそれぞれが1個の資源を監視・制御する共有資源において事象が発生した場合は、両系で同じ事象を検出することが可能である。
しかしながら、両系で事象を検出してメインプロセッサ10に通知すると、両系から同じ事象が二重に通知されることになってしまう。また、検出回路の異常の場合で、片系でしか検出することができなかった場合は、両系のSCF間で矛盾が生ずる可能性がある。
以上のことから、共有資源については、事象を検出した時点でSCF間通信機能を使用して他系に事象を送信し、他系からも同じ事象通知がきて初めて処理を行うようにする。また、メインプロセッサ10への通知は、あらかじめ通知担当を分けて決めておき、二重に事象が通知されないようにしておく。
なお、他系が異常状態時には、他系事象通知担当分も処理することで、システム全体としては、監視が継続されるようにする。
【0052】
(6)通常時および通信異常時のシステム制御
二重化通信異常時は、通常時に対して以下のようなシステム制御を行うことによって、システムの動作を保証する。
(i)通常時の動作
(a) 固有資源の監視/通知担当
▲1▼ それぞれの系が自分の担当の資源を監視する。
▲2▼ メインプロセッサ10への通知は自分の担当の資源の異常を検出した場合に通知する。
(b) 共有資源の監視/通知担当
▲1▼ 共有資源は常に両系で監視する。
▲2▼ 通知担当は予めいずれかに固定されている。
▲3▼ メインプロセッサ10への通知は自分の担当の資源の異常を検出し、且つ、他系から同じ異常を通知された場合に通知する。
【0053】
(c) 共有資源の排他制御( オペレータ操作パネル22のLCD表示等)
▲1▼ alive message 交換制御により、alive message 送信権を持っている時のみ、アクセス権を獲得しアクセス可能とする。
例えば、オペレータ操作パネル22のLCD表示あるいは操作スイッチの排他制御においては、alive message 送信権を持つSCFがアクセス権を持つ。
▲2▼ アクセス権(alive message 送信権)を持っていない時にアクセス要因が発生した場合は、次のアクセス権を持つまで待つ。
【0054】
(ii)通信異常時の動作
(a) 固有資源の監視/通知担当
▲1▼ それぞれの系が自分の担当の資源を監視する。
▲2▼ メインプロセッサ10への通知は自分の担当の資源の異常を検出した場合に通知する。
(b) 共有資源の監視/通知担当
▲1▼ 共有資源は常に両系で監視する。
▲2▼ メインプロセッサ10への通知権は無条件で獲得する。
▲3▼ 通信異常を検出したら、他系からの異常通知を待たずにメインプロセッサ10へ通知する。
【0055】
(c) 共有資源の排他制御( オペレータ操作パネル22のLCD表示等)
▲1▼ alive message 交換制御はそのまま継続し、通常時と同様alive message 送信権を持っている時のみ、アクセス可能とする。
なお、通信異常時といえども、アクセス権をいずれかに持たせるようなことはしない。これは、他系から共通資源をアクセスできなくなることを防ぐためであり、この方式によって片系のみの通信異常であれば、100%排他制御が可能となる。また、両系が通信異常の場合でも、初期(起動直後)のalive message 送信権の獲得を両系で意識的にずらすことによって、両系のアクセス権が重なることなく、排他制御が可能となる。
▲2▼ アクセス権(alive message 送信権)を持っていない時にアクセス要因が発生した場合は、次のアクセス権を持つまで待つ。
【0056】
(7)SCF活性交換
二重化システムにおいて、片系が故障した場合等に、運用状態のまま故障したSCF等の交換を実現するSCF活性交換について説明する。
本実施例では以下に説明するように、システム運用状態のまま、個々のSCFを交換することができ、片系の異常ではダウンしないノーストップを実現している(この運用中のSCF交換を、活性交換又は活性挿入という)。
(a) 活性交換の認識
活性交換を行うには、まず動作中の正常系SCFに対して、保守ツールにて「他系停止通知」を発行する。「他系停止通知」を受信した系は、他系がこれから活性交換されると認識し、以後、他系未実装等の異常を検出しても異常処理を行わないように、この時点で内部的に通信異常状態とする。
通信異常状態となった動作系SCFは、前記したように他系の監視範囲であった共有資源の監視/通知権を引き継ぐため、システムとして動作し続けることができる。
【0057】
(b) 活性交換の認識(交換後)
SCFが交換され活性挿入されると、挿入された系はリセットされ、自己診断を開始し、他系に自己診断フェーズ通知を送信する。
自己診断が終了すると、メインプロセッサ10から内部引き継ぎ情報をSCFコマンドにて通知され、オンライン状態とする。
一方、通信異常で動作中であった系は、他系からの自己診断フェーズ通知を受信することにより、他系がリセット(活性交換)されたと認識し、自己診断終了後の機能版数通知(後述する)を受信することにより、通信異常状態を解除する。これによって、二重化SCFによるシステム制御が再開され、運用中の活性交換が実現する。
【0058】
図16は活性交換の手順を示す図であり、同図に示すように活性交換が実現される(以下の(1) 〜(11)は図16の丸数字に対応する)。
(1) 保守ツールから、正常なSCFに他系を活性交換することを通知する。(→他系停止通知の発行)
(2) 他系が上記停止通知を受信すると、他系が停止/抜かれることに対する監視異常検出を抑止する。また、内部的に通信異常状態で動作させるとともに、他系監視範囲を正常なSCFが引き継ぐ。
(3) 交換SCFを抜く。この場合、他系未実装等の異常検出は行わない。
(4) 新しいSCFを挿入し、リセットする。
(5) 新しいSCFは自己診断を開始し、自己診断のフェーズ通知を送信する。
(6) 動作中のSCFは他系のリセットを認識し、自己診断中とする。
(7) 新しいSCFのタスクが起動し、挿入されSCFの機能版数を動作中のSCFに通知する。
【0059】
(8) 動作中のSCFは機能版数を受信し、機能版数のチェック処理を行う。そして、自系の機能版数を機能版数応答として新しいSCFに通知する。さらに、動作中のSCFは通信異常を復旧し、他系監視範囲であった資源の監視引き継ぎを停止する。
(9) 新しいSCFは、動作中のSCFから機能版数応答を受信すると、機能版数チェック処理を行い、新しいSCFの正常起動を保守ツールに通知する。
(10)保守ツールは新しいSCFの正常動作を認識し、ディスクに退避していたデータを読み込み、内部情報を動作側のSCFから新しいSCF側に複写する。また、SCFコマンドにより動作中のSCFから新しいSCFへの内部情報の引き継ぎを行う。
(11)新しいSCFはSCFコマンドを受信し、オンライン状態に遷移する(活性交換完了)。
【0060】
(8)SCF活性交換後の資源の監視および事象の通知
以上のように活性交換が完了した後の固有資源および共有資源の監視/通知は次のように行われる。
(a) 固有資源の監視/通知担当
動作側の系は、自分の監視/通知担当の固有資源を引き続き監視/通知し、挿入側の系も、起動時から、自分の監視/通知担当の固有資源の監視を行うことにより、それぞれの系が自分の担当の資源を監視/通知する。
【0061】
(b) 共有資源の監視/通知担当
動作側の系は、今までは(通信異常状態時)、異常検出すると他系からの異常通知を待たずにメインプロセッサ10に異常通知していたが、通信異常が解除された時点で、メインプロセッサ10への通知権はそのまま引き継ぐが、異常検出をしたとき、前記したように他系からの同じ異常通知を待ち合わせるようにする。
なお、挿入側の系は共有資源の監視は行うが、通知権を獲得しないようにすることによって、処理を簡略化することもできる。
(c) 共有資源の排他制御(オペレータ操作パネルのLCD表示等)
他系の活性挿入によって、alive message 交換制御が復活するため、共通資源の排他制御は自動的に行われるようになる。
以上のように構成することにより、SCFが後から挿入された場合でも、運用中のSCFから情報を引き継ぎ、両系を矛盾なく動作させることが可能となる。
【0062】
(9)機能版数の整合性チェックと対処
両系のSCF同時起動時、およびSCF活性挿入時に、それぞれのSCFの機能版数が不一致であると、SCF間の通信に不具合が生ずる。
そこで、機能版数の整合性をチェックし、機能版数不整合の場合、次のような対処を行う。
(a) 両系のSCF同時起動時における機能版数の整合性チェックと対処
SCF間通信は、両系SCFが決められたコマンドインタフェースによって動作することにより成り立つが、両系SCFは二重化によってノーストップシステムを実現するため、個別に交換可能に構成されている。
SCFが交換される要因の中には、コマンドインタフェース仕様が追加・変更される場合も考えられ、両系で異なったコマンドインタフェースとなった場合、動作保証されないままに動作してしまう。
上記のような問題を防止するため、SCF起動時にコマンドインタフェース版数(機能版数)をお互いに通知/認識しあって、機能版数が不一致の場合に、機能版数の高い方が低い方の機能レベルに落として動作させることにより、両系のコマンドインタフェースを保証する。
【0063】
図17は両系SCFが同時に起動された際の機能版数チェツク結果とその対処を示す図である。具体的には、次のようにして機能版数の整合性チェックと機能版数不整合の場合の対処を行う。
▲1▼ SCFが起動されて、SCF間通信が開始される前に版数情報(版数情報問い合わせコマンドを発行)を両系SCF間で通信し合う。
なお、機能版数情報を送信するタイミングは、自系SCFが機能された場合(機能版数通知コマンド発行)、あるいは、他系から上記機能版数通知コマンドを受信した場合(機能版数応答コマンドを発行)である。また、機能版数応答コマンドを受信した場合には、機能版数の通知を停止する。
▲2▼ 他系のSCFから起動直後の機能版数を受信したら、自系で版数比較によるチェックを行うとともに、自系の機能版数情報を応答として返す。
▲3▼ 機能版数をチェックし、#A系と#B系の機能版数が同じ場合には、問題がないので処理を行わない。また、#A系と#B系の機能版数が異なる場合には、次のような処理を行う。
・#A系と#B系のSCFは機能版数が不一致であることを認識し、オペレータ操作パネルのLCD、コンソール等に表示することにより、機能版数の不一致をオペレータに通知する。
・機能版数が高いSCFの版数機能を下げて、機能版数が低いSCFに機能に合わせて動作させる。なお、機能が追加・変更された場合は、低い版数の機能がわかっているので、旧版数の機能をサポートしつつ、新機能をサポートさせる。
【0064】
(b) SCF活性挿入時の機能版数の整合性チェックと対処
上記(a) では、両系のSCFが同時に起動しているため、いずれかの系に優先度がなく、版数の低い方に機能を合わせれば、二重化状態で動作させることが可能であった。
しかし、活性交換時には、既に動作中のSCFの機能が優先されるので、それより低い版数のSCFが挿入された場合、動作中のSCFの機能を後から挿入された系に合わせることができない。そこで、活性交換時には、この場合の挿入を拒否し、正しいSCFが挿入されるまで、挿入前の状態で動作を継続させる。
【0065】
図18はSCF活性挿入時の機能版数チェツク結果とその対処を示す図である。前記図16で説明したように機能版数を通知して機能版数をチェックする。そして、図18に示すように、#A系と#B系の機能版数が同じ場合には、問題がないので処理を行わない。
また、#A系と#B系の機能版数が異なる場合には、次のような処理を行う。
・既に動作中の#A系のSCFより活性挿入された#B系のSCFの機能レベルが高い場合には、機能版数が不一致であることをオペレータ操作パネルのLCD、コンソール等に表示することにより、オペレータに通知し、活性挿入された#B系のSCFの機能版数を低下させ、#A系のSCFの機能版数に合わせて両系で動作を継続する。
・既に動作中の#A系のSCFより活性挿入された#B系のSCFの機能レベルが高い場合、既に動作中の#A系のSCFの機能版数を下げることは不可能なので、#B系SCFの活性挿入異常を通知する。また、#A系のSCFは挿入前と同じ状態で動作を継続する。
【0066】
(10)自己診断中の監視動作および自己診断異常検出時の処理
SCFの自己診断は、自分で検出して異常となる場合と、ハングアップした場合の2つのケースが考えられる。
この2つのケースの場合、他系は相手の異常を認識する必要がある。そのため、SCF自己診断中は、常に自分の診断フェーズを他系に通知し、他系はそのを監視することにより相手の異常を認識する。
具体的には次のように行う。
【0067】
(a) 自己診断で異常認識した場合
他系が正常に立ち上がったのを確認してから、他系に自己診断異常発生を通知する。これは、SCFが両系同時に起動された場合、他系も自己診断中の可能性があるため、この時に自己診断異常を通知しても、他系は異常処理を行えない場合があるからである。
そこで、他系が正常に起動したことを表す機能版数通知またはalive message 通知を待ち、これを受信して初めて他系に異常を通知することにより他系は相手が異常となったことを知ることができる。
【0068】
図19は自己診断異常検出時の処理シーケンスを示す図である。
二重化システムに場合、自己診断を両系で同時に行うと、診断項目によっては、アクセス異常が発生することがある。そこで、本実施例では、あらかじめいずれかの系が先に自己診断を行うように決めておき、一方の自己診断が完了したら他方のSCFが自己診断を開始するようにしている。
すなわち、図19に示すように、#A系が自己診断中のとき、#B系は自己診断アイドリング中とする。そして、#A系から初期診断終了のフェーズを貰うか、他系の初期診断中のタイムアウトを検出するまでアイドリングを続ける。
正常時には、両系の自己診断が完了した時点で、両系のSCFが同時に起動されるが、図19に示すように、#A系のSCFが自己診断異常を検出した場合、この時点で他系に異常を通知しても、他系が正常動作中とは限らないので、正常に立ち上がったことを示す機能版数通知を受信して初めて、自己診断異常通知を送信する。
【0069】
自己診断異常を検出した#A系は、#B系にその異常のエラーログコードと、LCD表示データを予め規定されたコマンド形式で1バイトずつ通知する。
自己診断異常通知を受けた#B系では、#A系が異常を検出して動けないことをことを知り、全てのデータを受信するまでワーク領域にデータを格納しておき、全てのデータを受信した時点で、受信した相手の異常をエラーログ登録し、LCD表示器等により外部に通知するとともに、片系で動作を続けられるよう適切な処理を行う。
【0070】
(b) 自己診断中にハングアップした場合
この場合には、自己診断フェーズが通知できなくなるので、他系は自己診断フェーズのタイムアウトによって相手がハングアップしたことを認識することができる。なお、監視側は、実際に自己診断フェーズ通知を監視しているのではなく、alive message の獲得タイマの連続タイムアウトによって相手の異常を認識し、他系が一番最後に通知したデータを受信用レジスタECOMR1をリードしにいくことにより調べる。そしてそれが自己診断フェーズであった場合は、その診断フェーズでハングアップしたと認識する仕組みとなっている。
【0071】
図20は自己診断中ハングアップ時の処理シーケンスを示す図である。
自己診断中にハングアップした場合、正常系(#B系)が他系(#A系)自己診断中のタイムアウトを検出するところまでは前記した図19と同じであるが、その後、機能版数の応答やalive message が送信されてこないので、図20に示すように、#B系のalive message 獲得タイマが連続タイムアウトし、#A系が停止したことを認識する。
ここで、受信用カウンタECOMR1には一番最後に動作していた自己診断フェーズが残っているので、受信用カウンタECOMR1をリードすることにより、#A系の自己診断がどこまで動作したかを知ることができる。この情報を元に、前記したように、異常をエラーログ登録し、LCD表示器等により外部に通知するとともに、片系で動作を続けられるよう適切な処理を行う。
以上のようにすることにより、両系で自己診断を行っていた場合でも、自己診断の異常を、正常な系が立ち上がった後に必ず検出することができる。
【0072】
【発明の効果】
以上説明したように、本発明においては、以下の効果を得ることができる。
(1)二重化SCF間での通信処理を行えるようになるため、二重化システムの制御を行う上で、両SCF間での処理に一貫性を持たせることができる。また、片系異常時でも適切な処理を迅速に行うことができ、ノーストップシステムの実現を容易に行うことが可能となる。
(2)共有資源の排他制御や、片系故障時の切り離し処理、他系資源の監視引き継ぎ処理を容易に行うことができる。
(3)二重化した両SCF間で常に他系の状態を監視することができ、片系故障の対処が容易になる。
【0073】
(4)通知事象単位の送受信データを全てシーケンス番号で管理することができ、受信エラーの検出や、受信エラー発生時の他系の通知処理および再送事象の検索処理等が容易になる。
(5)二重化した両SCF間の通信異常を迅速に検出し、ハード異常なのか他系異常なのかを切り分けて適切な処理を行うことが可能となる。
(6)他系の未実装時に、通信異常を検出しても、ハード異常としないで、他系未実装による通信異常と認識することができる。
(7)それぞれのSCFが監視している固有資源の通知事象を、自系からメインプロセッサに通知できない異常時であっても、他系から代替通知をすることができる。
(8)両系で監視している共有資源で検出した事象を、他系でも検出していることを確認した上で処理することができる。また、メインプロセッサへの通知も両系から二重に通知されることがない。
(9)二重化した両SCF間において、一方の系に監視異常が発生した場合であっても、システムダウンとならずに動作させ続けることが可能となる。
【0074】
(10)システム動作中のまま、片系のSCFを交換することが可能となり、片系故障時でもノーストップ/ノーダウンシステムを実現することができる。
(11)活性挿入されたSCFに対して、動作中のSCFの内部情報を引き継ぐことが可能となり、あたかも、ずっと二重化状態で動いていたように動作させることができる。
(12)二重化した両SCF間でお互いのSCF機能レベルの自動認識ができるようになるため、機能版数が異なるままで動作することがなくなり、二重化システムの動作を常に保証することが可能となる。
(13)活性挿入時に、機能版数がアップされたSCFを挿入しても、二重化システムの動作を常に保証することが可能となる。また、オペレータによる操作ミス等のより機能版数がダウンしたSCFを挿入された場合でも、そのまま動作することなく挿入拒否をすることが可能となる。
(14)他系の自己診断の異常を迅速に検出することが可能となり、適切な処置を行うことが可能となる。
(15)エラーログ出力およびLCD表示不可能な異常(ハングアップ)が発生した場合でも、監視している他系SCFによって異常を外部に通知することが可能となる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の実施例のシステム制御構成と監視資源を示す図である。
【図3】本発明の実施例の二重化SCF間通信の概略図である。
【図4】本発明の実施例のSCF間通信レジスタの構成を示す図である。
【図5】SCF間通信レジスタのアクセス方法を説明する図である。
【図6】SCF間通信レジスタの使い方を説明する図である。
【図7】コマンド別送信形式を示す図である。
【図8】通知事象発生時の送信シーケンスを示す図である。
【図9】複数バイト送信中の通知事象発生時の処理を示す図である。
【図10】SCF間通信におけるシーケンスチェック処理を示す図である。
【図11】通常時のalive message の交換制御を説明する図である。
【図12】経路異常時のalive message の交換制御を説明する図である。
【図13】未実装又はハングアップ時のalive message 交換制御を説明する図である。
【図14】システム全体からみた通信異常パターンを示す図である。
【図15】異常検出機構と異常原因を示す図である。
【図16】SCF活性交換の手順を示す図である。
【図17】両系SCFの機能版数と処理を示す図(両系同時起動時)である。
【図18】両系SCFの機能版数と処理を示す図(活性挿入時)である。
【図19】自己診断異常検出時の処理シーケンスである。
【図20】自己診断中ハングアップ時の処理シーケンスである。
【符号の説明】
1 メインプロセッサ
2 バス
3a,3b 監視/制御プロセッサ
4 通信手段
5,5 固有資源
6 共有資源
10 メインプロセッサ
11 SCバス
12,13 SCF
14 信号線(SCFLink)
15 RS232Cインタフェース
16 外部無停電電源装置(外部UPS)
17 外部設備
18 拡張装置
19 拡張装置電源
20 温度センサ
21 ファンである。
22 オペレータ操作パネル
23 サブ電源装置(PSU)
24 内蔵無停電電源装置(UPS)
25 メイン電源装置(PDU)
EPC 外部電源制御インタフェース
EDPCI 拡張装置電源制御インタフェース
RCI 拡張装置制御インタフェース
ECOMR1 受信用レジスタ
ECOMR2 送信用レジスタ
[0001]
BACKGROUND OF THE INVENTION
  In a medium-sized or larger computer system, a monitoring / control processor that is responsible for monitoring, control, and maintenance functions of the system such as the environment, equipment, and power supply is usually provided independently of the main processor (hereinafter referred to as “required”). (Referred to as SCF: System Control Facility).
  The present invention relates to a computer system having dual monitoring / controlling processors in the same system, and in particular, the present invention relates to a system monitoring / controlling method using dual monitoring / controlling processors.And system monitoring and control equipment(Hereinafter, communication between the redundant monitoring / controlling processors will be referred to as inter-SCF communication or SCFLlink as necessary).
[0002]
[Prior art]
Conventionally, computer systems with duplicated resources are known. However, in these systems, there is only one SCF, so when the SCF itself fails, the system becomes inoperable (system down). .
Attempts have also been made to duplicate the SCF itself, but even when the SCF is duplicated, communication between the two SCFs has not been possible in the past, so it is difficult to guarantee exclusive control of common resources or to guarantee operation when one system resource fails. Met.
[0003]
[Problems to be solved by the invention]
By duplicating various resources in the same system, it is possible to realize a highly reliable system that enables no down and north top as a system.
However, when resources are duplicated, each resource must be monitored / controlled by the SCF to realize the operation of one system, and for common resources, control between the SCFs does not compete. It is necessary to perform exclusive control, and it is necessary to constantly monitor and grasp the status of other systems.
[0004]
The present invention has been made in view of the above circumstances, and the first object of the present invention is to make the processing between the two SCFs consistent by enabling communication processing between the duplexed SCFs. In addition, it is possible to quickly carry out appropriate processing even in the event of a single system failure, and to realize a north top system.
The second object of the present invention is to facilitate exclusive control of common resources, disconnection processing at the time of one system failure, and monitoring takeover of other system resources.
The third object of the present invention is to quickly detect a communication abnormality between both duplexed SCFs so that it can be recognized whether it is a hardware abnormality or a communication abnormality due to non-implementation of another system, as well as detection and reception of a reception error. This is to facilitate the process of notifying other systems when an error occurs and the process of searching for a resend event.
[0005]
A fourth object of the present invention is to allow one-system SCF to be exchanged while the system is operating, and to take over internal information of the operating SCF for the actively inserted SCF. To make it work as if it had been operating in a duplex state.
The fifth object of the present invention is to enable automatic recognition of each other's function levels between both duplexed SCFs, thereby eliminating the need to operate in different functional version numbers and always guaranteeing the operation of the duplex system. It is to be.
A sixth object of the present invention is to enable rapid detection of an abnormality at the time of self-diagnosis of another system and to perform appropriate processing when the self-diagnosis is abnormal.
[0006]
[Means for Solving the Problems]
FIG. 1 shows the principle of the present invention. In the figure, 1 is a main processor, 2 is a bus connecting the main processor and the monitoring / controlling processor, 3a and 3b are monitoring / controlling processors that perform monitoring, control, maintenance, etc., and the monitoring / controlling processor 3a, 3b has the same structure, and the communication means 4 is provided between both systems.
5 is a unique resource monitored and controlled by the monitoring / control processors 3a and 3b, and 6 is a shared resource monitored and controlled by both the monitoring / control processors 3a and 3b.
[0007]
  As shown in FIG. 1, in the present invention, the above-described problem is solved as follows.
(1) A monitoring / control processor for monitoring, controlling, and maintaining a system provided independently of the main processor 1 is duplexed, and the system is monitored and controlled by the duplexed monitoring / control processors 3a and 3b. In the system monitoring / control method of the information processing apparatus for monitoring / controlling the information processing system by the duplicated monitoring / controlling processor, the communication means 4 for performing communication between the monitoring / control processors 3a, 3b is provided. Of the redundant monitoring / controlling processor,When a notification event is received from another monitoring / control processor having the transmission right,A monitoring / control processor acquiring a right to send a notification event; andTo other monitoring / controlling processorsA step of assigning a sequence number to a notification event, and the one monitoring / control processorSaidSending to other monitoring / controlling processor;Notification event to which the sequence number received from the other monitoring / control processor is given when a retransmission request is made from the other monitoring / control processor due to the occurrence of a reception error using the sequence number Retransmitting to the other monitoring / controlling processorIs provided.
[0008]
(2) In the above (1), the method further includes the step of abandoning the right to transmit the notification event, wherein the step includes a step in which the one monitoring / control processor that has acquired the right to transmit the notification event has received a predetermined time from When a retention time timeout occurs due to the elapse of time, the notification event transmission right is abandoned by transmitting a notification event to another monitoring / control processor.
(3)the above(2), The one monitoring / controlling processor includes:From other monitoring / controlling processor with transmission rightsThe step of acquiring the transmission right of the notification event includes the transmission right in one monitoring / control processor that does not have the transmission right.AbandonmentWhen a time-out of acquisition time occurs after a certain period of time elapses, the one monitoring / control processor acquires the right to transmit a notification event.
[0009]
(4)the above(3) Further includes a step of performing an error determination, and when the time-out of the acquisition time occurs,With other monitoring / controlling processorsAnd determining that an error has occurred in the one monitoring / controlling processor that has acquired the transmission right.
(5In the system monitoring / controlling apparatus of the information processing apparatus, a dual monitoring / control processor provided independently of the main processor for monitoring, controlling or maintaining the information processing system, and the dual monitoring / controlling apparatus Communication means for communicating notification events between control processors;HaveOne supervisory / control processor of the dual supervisory / control processors is:When a notification event is received from another monitoring / control processor that has the transmission rightThe right to send notification events,Assign a sequence number to the notification event to other monitoring / control processors,Sending a notification event with a sequence number to another monitoring / control processor;Notification event to which the sequence number received from the other monitoring / control processor is given when a retransmission request is made from the other monitoring / control processor due to the occurrence of a reception error using the sequence number Is resent to the other monitoring / controlling processor.
[0010]
(6)the above(5)Each redundant monitor / control processorOne monitoring / control processor that has a transmission right holding timer and has acquired the right to transmit a notification eventInTransmission right holding timerButWhen a time-out occurs after a certain period of time has elapsed since acquisition of the transmission right, the transmission right of the notification event is abandoned by transmitting a notification event to another monitoring / control processor.
[0011]
(7)the above(6), The redundant monitoring / controlling processor isEach has a transmission right acquisition timer,One monitoring / control processor without transmission rightsInOf the transmission rightAbandonmentThe transmission right acquisition timer after a predetermined time fromInWhen a time-out occurs, the right to transmit a notification event is granted to the one monitoring / control processor.
[0012]
(8) In the above (7), each of the duplicated monitoring / controlling processors, when a timeout occurs in the transmission right acquisition timer,With other monitoring / controlling processorsJudge that an error has occurred.
[0013]
  As aboveIn the present invention,It is possible to perform the same operation on the main processor while grasping each other's state, and it is possible to cause the redundant monitoring / controlling processor to perform one operation as a whole.
  In addition, when a one-system abnormality occurs, it is possible to quickly detect this and continue appropriate processing (control with a normal system so that the system does not go down).
  Further, all the transmitted / received events can be managed by the sequence number, and the transmitting side can easily store the transmitted event and extract the retransmitted event at the time of the retransmission request.
  Further, the receiving side can detect the unreceived event by the sequence check in units of events, and the retransmission request to the transmitting side only needs to be notified of the sequence number in which an error has occurred, and the processing is simplified.
[0014]
  In addition, the event ( alive message) Can be known from the timer timeout, and it is possible to know that some abnormality has occurred in the other system due to the timeout.
In addition, the above event ( alive message) By using the function that either one of the transmission rights has, it is possible to perform exclusive control such as access rights to common resources.
  Also,All communication abnormalities can be detected on the receiving side, and the cause of the communication abnormality can be predicted by the detection mechanism, and appropriate processing can be performed for the communication abnormality.
  Further, when a communication abnormality occurs, this is detected promptly and appropriate processing is performed, so that the operation of the system can be guaranteed even when a communication abnormality occurs.
[0018]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 2 is a diagram illustrating a system configuration and monitoring resources according to the embodiment of this invention. In the figure, 10 is a main processor, 12 and 13 are duplexed SCFs (SCFs 12 and 13 are respectively referred to as #A system SCF 12 and #B system SCF 13), and #A system and #B system SCFs 12 and 13 are It has the same configuration.
The main processor 10 and each of the SCFs 12 and 13 are connected by an SC bus (SCF and main processor communication line) 11.
Reference numeral 14 denotes a signal line (SCFLlink) for hardware connection between the SCFs 12 and 13, which is connected to an inter-SCF communication register as will be described later.
15 is an RS232C interface, 16 is an external uninterruptible power supply (external UPS), 17 is external equipment, EPC is an external power control interface, 18 is an expansion device, RCI is an expansion device control interface, 19 is an expansion device power supply, and EDPCI is an expansion An apparatus power control interface, 20 is a temperature sensor, and 21 is a fan.
Also, 22 is an operator operation panel, 23 is a sub power supply unit (PSU), 24 is a built-in uninterruptible power supply unit (UPS), and 25 is a main power supply unit (PDU).
[0019]
As shown in FIG. 2, duplicated monitoring resources are connected to each of the SCFs 12 and 13, but the external uninterruptible power supply (external UPS) 16, the extended enclosure control interface RCI, the temperature sensor 20, etc. are unique resources. It is.
The main power supply (PDU) 25, the built-in uninterruptible power supply (UPS) 24, the fan 21, the operator operation panel 22 and the like are shared resources and can be monitored from both systems.
Each of the SCFs 12 and 13 is connected to the main processor via the SC bus 11 as described above, but the event of the resource monitored by both systems needs to be notified only once from either system. Further, even in the event of the resource in charge of notification of another system, for example, when any SC bus is disconnected, a replacement notification can be performed from a normal system.
[0020]
Next, the configuration and operation of each part of the embodiment of the present invention will be described.
(1) SCF communication
FIG. 3 is a diagram showing a schematic configuration of inter-SCF communication according to the embodiment of the present invention. In the figure, 10 is a main processor, 11 is an SC bus, and 12 and 13 are duplexed SCF boards.
The #A system SCF boat 12 and the #B system SCF board 13 include inter-SCF communication registers 12a and 13a, respectively, for inter-SCF communication. The inter-SCF communication registers 12a and 13a are connected to the reception register ECOMR1. It consists of a transmission register ECOMR2.
The reception register ECOMR1 of the #A system SCF board 12 and the transmission register ECOMR2 of the #B system SCF board 13 are connected by a signal line 14 for serial transfer in hardware, and the reception of the #B system SCF board 12 is performed. The register ECOMR1 for transmission and the transmission register ECOMR2 of the #A system SCF board 12 are connected by a similar signal line 14, and when data is written to the transmission register ECOMR2, it is transmitted to the SCF of another system, and the reception register ECOMR1 The above data is written in
Reference numerals 12b and 13b denote SCF firmware that performs transmission / reception processing, and reference numerals 12c and 13c denote SCF control CPUs.
[0021]
FIG. 4 is a diagram showing a configuration of reception and transmission registers ECOMR1 and ECOMR2 in the inter-SCF communication registers 12a and 13a.
As shown in the figure, the reception and transmission registers ECOMR1 and ECOMR2 have a 16-bit configuration, the lower 9 bits (FCR, ECOND) are used as a common data area, and the bit 15 (INT) is used as an interrupt.
When 1 is set in the INT bit of the transmission register ECOMR2, 1 is set in the INT bit of the reception register ECOMR1 of the other system, and an interrupt is notified to the SCF control CPU of the system.
Bit 14 (PERR) is set to 1 when the parity is abnormal.
That is, 1-bit parity is added to the 16-bit register by hardware, a parity check is performed by hardware at the time of reception, and 1 is set to bit 14 (PERR) when the parity is abnormal.
[0022]
3 and 4, when a notification event to the other system occurs, the SCF firmware 12b or 13b on the transmission side writes the notification data to the transmission register ECOMR2 and sets 1 to the INT bit.
This data is transmitted to the SCF on the receiving side via the signal line 14 and is written in the receiving register ECOMR1.
When 1 is written to the INT bit of the reception register ECOMR1, an interrupt is raised to the SCF control CPU, and the interrupt handler of the SCF firmware 12b or 13b activated from the CPU reads the reception register ECOMR1 to realize inter-SCF communication. The
[0023]
FIG. 5 is a diagram showing a method for accessing the inter-SCF communication register.
As shown in the figure, the inter-SCF communication registers 12a and 13a of this embodiment can only perform READ / WRITE for each byte.
Therefore, in order to be able to transmit and receive a plurality of bytes, data transmission is performed by a command method, and the data length to be transmitted is defined in advance for each command. In addition, since the transmission data length at the time of occurrence of the notification event is indefinite, a command is always added at the beginning and end of the transmission data of one packet, and transmission is performed byte by byte.
FIG. 6 is a diagram for explaining how to use the inter-SCF communication registers 12a and 13a. As shown in FIG. 6, when transmission data is a command, INT of bit 15 and FCR of bit 8 of the transmission register ECOMR2 are set. Each is set to 1, the command type is set in the upper 4 bits of ECOND of 0 to 7 bits, and the detail code is set in the lower 4 bits.
When the transmission data is data, INT of bit 15 of ECOMR2 is set to 1, FCR of bit 8 is set to 0, and data is set to ECOND of 0 to 7 bits.
[0024]
FIG. 7 is a diagram showing a command-by-command transmission format. As shown in FIG. 7, commands include the following and have the following formats.
▲ 1 “Phase notification”
It is a command transmitted during self-diagnosis, and the detailed code is a phase number indicating the self-diagnosis phase.
▲ 2 “Self-diagnosis error notification”
This command is notified when a self-diagnosis error occurs, and the detailed code is a command sequence number (described later). The transmission data is a log code and a display code for an upper stage and a lower stage of a liquid crystal display device (hereinafter referred to as LCD) provided on the operator operation panel 22.
▲ 3 ▼ "Function version notification"
A command for notifying the function level of the SCF (hereinafter referred to as function version number), “initial notification” and “deactivation notification” for notifying that the SCF is inactive (the SCF is not in operation), There is an “activation response” that is notified when the SCF is in an active state, and the type is notified by a detailed code. The transmission data is the function version of the own system.
[0025]
▲ 4 ▼ “alive message”
By exchanging a predetermined notification event (this notification event is hereinafter referred to as an alive message) between the two SCFs at regular intervals, the status of the other system can always be monitored (the exchange of the alive message will be described later). To do).
“Alive message” in FIG. 7 is a command for notifying the above-mentioned alive message, and includes “normal communication” and “when transmission is abnormal”, and the detailed code is a sequence number.
▲ 5 ▼ “Resend request”
This is a command for requesting retransmission when a reception error occurs, and the detailed code is the sequence number where the error was detected.
▲ 6 ▼ “Data start”
This is a command indicating the start of data, the detailed code is a sequence number, and the transmission data is transmission data + end code.
▲ 7 ▼ “End of data”
This is a command indicating the end of transmission data, the detail code is the transmission data length, and the transmission data is the sum data of the transmitted data.
[0026]
In FIG. 5, transmission is performed as follows.
(a) Transmission is always in 1-byte units, and when the SCF on the sending side writes 1 byte and then writes data continuously, without confirming that the other party has read it, leave an interval of a certain time or more. The data is written (overrun check that writes the next data before the other system reads it is performed on the receiving side).
(b) When one interruption occurs, the receiving side reads the receiving register ECOMR1 once to read notification data from another system.
(c) If alive message notification or notification event occurs during multi-byte data transmission, wait until all data transmission in progress is completed before transmitting.
(d) However, when transmitting a retransmission request at the time of reception error, the retransmission request is interrupted between the data being transmitted without waiting for the completion of transmission of the multi-byte data.
[0027]
FIG. 8 is a diagram showing a transmission sequence when a notification event occurs. As shown in FIG. 8, when a notification event occurs, a data start command is transmitted and then data is transmitted from the first byte to the last byte. On the receiving side, the received data is stored.
When the data end command is notified, the receiving side compares the data length data sent by the end command with the actually received data length.
Further, when sum data that is the sum of all transmission data of one packet is transmitted from the transmission side, sum check is performed.
[0028]
FIG. 9 is a diagram showing processing when a notification event occurs during transmission of a plurality of bytes.
As shown in the figure, when the notification event A occurs and the data of the notification event A is transmitted and the data up to the nth byte is transmitted, even if the notification event B such as an alive message occurs, this data is awaiting transmission. . On the other hand, if a notification event C due to a retransmission request occurs during transmission of the notification event A, the retransmission request is immediately transmitted, and error processing (retransmission processing) is performed on the receiving side. Then, after the transmission of the notification event A is completed, the notification event B that has been waiting for transmission is transmitted.
[0029]
FIG. 10 is a diagram showing a sequence check process in the inter-SCF communication.
When performing inter-SCF communication, a notification event is assigned with a sequence number and transmitted, and the transmission side and reception side use the sequence number to detect an unreceived error and to perform retransmission processing when a reception error occurs. The SCF also includes a transmission event management table that stores a certain number of transmitted events and sequence numbers, and manages the transmission history using the table.
[0030]
That is, data transmission is performed as shown in FIG.
(a) When a notification event (occurrence event, alive message) is transmitted, a series of sequence numbers (0 to n) is assigned to each notification event and transmitted to the SCF of another system together with the notification event (sequence number) If n exceeds n, it is reset to 0).
(b) The transmission side stores a certain number of transmitted events and sequence numbers as transmission history in the management table (for example, n + 1 old data is discarded).
The transmitted event and the sequence number are necessary at the time of retransmission request. When a sequence error occurs and a sequence number is added and a retransmission request is made, the event is extracted from the management table and retransmitted. Also, when retransmitting, a new sequence number is assigned and transmitted.
(c) The receiving side stores the latest value of the received sequence number. This is necessary to detect a reception error from the received sequence number and the received sequence number. If the received sequence number is not the last received sequence number + 1, the [previous received sequence number + 1] to the [current received sequence number + 1]. Request up to another system as a non-reception error up to reception sequence number-1].
[0031]
For example, as shown in FIG. 10, the notification event B (sequence number No. 3) has not been received, and the sequence number No. No. 2 notification event A, sequence number No. 4 notification event C is received, the sequence number no. No. 3 ([No. 2 + 1] = No. 3 to [No. 4-1] = No. 3) is received, and a retransmission request is made.
On the transmission side, when there is a retransmission request, the corresponding event (notification event B) is extracted from the transmission target management table, and a new sequence number No. 5 is retransmitted.
[0032]
(2) Status monitoring by alive message
As described above, by using the above-described inter-SCF communication function, by exchanging a predetermined notification event (this notification event is referred to as an alive message) between the two system SCFs at regular intervals, the status of the other system is always changed. It becomes possible to monitor.
In other words, if you send a alive message to another system, the system keeps the alive message for a certain period of time and then sends it again to the own system. If not, it is possible to determine that an abnormality has occurred in the other system.
[0033]
Specifically, the alive message transmission right (right to send the alive message next while the alive message is being held) is always granted in either system, and the alive message transmission right is set to other. When the alive message is received from the system or when the alive message acquisition timer for a certain time (m) times out, it is acquired.
Further, the system that has acquired the alive message sets a holding timer for a fixed time (n), and when the holding timer times out, transmits the alive message to another system and abandons the transmission right.
By doing so, one of the systems always has the right to send an alive message at normal times. When the alive message transmission right is acquired by the timeout of the acquisition timer, it is determined that some kind of abnormality has occurred in which the other system cannot notify the alive message.
[0034]
11, 12, and 13 are diagrams for explaining the above-described alive message exchange control. FIG. 11 illustrates normal alive message exchange control, FIG. 12 illustrates alive message exchange control when a path is abnormal, and FIG. 13. Indicates the case of non-implementation or hang-up of another system.
In FIG. 11, in the #A system, when the holding timer times out, the alive message is transmitted to the #B system, and the transmission right of the alive message is abandoned. At the same time, an acquisition timer is set to start the operation.
In the #B system, when the alive message is received, the operation of the acquisition timer is stopped, the holding timer is set, and the operation is started.
In the #B system, when the hold timer times out, the alive message is transmitted to the #A system, and the transmission right of the alive message is abandoned. At the same time, an acquisition timer is set to start the operation.
[0035]
In the above alive message exchange control, when an abnormality occurs in the communication path, it is as shown in FIG.
When both systems exchange alive messages with each other, as shown in the figure, if a path error occurs when #A system sends alive message to #B system, alive message is not received in #B system Therefore, the acquisition timer times out and the transmission right is acquired. Then, a holding timer is set, and when the holding timer times out, an alive message is transmitted to the #A system to abandon the transmission right, and an acquisition timer is set to start the operation.
Next, if the alive message from the #A system is not received again by the #B system due to a path abnormality, the #B system acquisition timer times out and the #B system acquires the transmission right as described above.
[0036]
In the example of the one-system communication path abnormality in FIG. 12, the other system is operating, but the alive message transmission right does not overlap, so that exclusive control of the shared resource described later is continued without any problem.
Further, in the above alive message exchange control, when an SCF of another system is not installed or is hung up (stopped), the result is as shown in FIG.
That is, when the alive message is exchanged between the #A system and the #B system, as shown in FIG. 13, the #A system SCF board is removed and becomes unmounted, or the #A system SCF is not installed. In the case of hang-up, as in FIG. 12, the alive message is not received in the #B system, so the acquisition timer times out and the transmission right is acquired. Then, a holding timer is set, and when the holding timer times out, an alive message is transmitted to the #A system to abandon the transmission right, and an acquisition timer is set to start the operation.
Next, if the alive message from the #A system is not received again by the #B system due to a path abnormality, the #B system acquisition timer times out and the #B system acquires the transmission right as described above.
[0037]
As described above, when the #B system acquires the alive message transmission right due to the timeout of the acquisition timer, it can be determined that some abnormality that the #A system cannot notify the alive message has occurred.
Note that the sequence error described above cannot be detected unless a notification event occurs, but even if a notification event does not occur by periodically exchanging alive messages with sequence numbers as described above, Communication abnormality can be detected without problems.
[0038]
(3) Communication error detection, cause isolation, and communication error processing
(I) Definition and cause of communication error
A certain abnormality is detected, and a state where the SCF link is not functioning normally is defined as a communication abnormality.
When the SCF state is viewed from the entire system including the normal time, there are four patterns as shown in FIG.
In FIG. 14, when attention is paid to one-system SCF (#A system), it can be seen that a communication error (patterns 3 and 4 in the figure) occurs when an event from the other party cannot be received.
Here, even if the transmission is normal or abnormal, the processing of the sending system will not change, so the communication error will cause the communication error of the other party, but the own system will not be a communication error .
Also, according to this definition, the cause of a communication error can be broadly divided into a case where the communication path is abnormal (hardware error), a case where another system stops (hangs up), and a case where another system is not installed. There are three possible ways.
[0039]
(Ii) Communication error detection method
As described in (i) above, the receiving side can detect a communication error because it cannot receive normally, but the transmitting side cannot detect whether the other side has received normally. Also, even if it is detected, there is no guarantee that it can be notified to the other party because it is a communication error.
From the above, it is assumed that the communication abnormality is detected on the reception side, and no check is performed on the transmission side.
In this embodiment, as shown in FIG. 15, a communication abnormality is detected by three detection mechanisms. Communication abnormalities for all of the following causes can be detected on the receiving side.
[0040]
(a) Reception error occurred
The occurrence of a reception error can be detected by a parity check, a reception data length check, a reception data sum check, and a sequence check, as will be described later. The cause of the abnormality is a hardware abnormality (communication path abnormality or the like).
(b) alive message acquisition timeout
As described in (2) above, it is possible to detect that some abnormality has occurred due to alive message exchange control.
In this case, the cause of the abnormality is a hardware abnormality (communication path disconnection or the like), another system SCF not mounted, or another system SCF hang-up (stop).
(c) Error factor detection
As other abnormal factors, there are other system SCF non-installation detection, other system SCF stop notification reception, and other system self-diagnosis recognition, as will be described later.
These abnormal factors are when other system SCF is not installed, other system SCF hang-up, other system SCF active exchange (exchange of other system SCF during system operation), and other system self-diagnosis are in progress.
[0041]
(Iii) Receive error detection
The detection of the reception error will be described in detail.
The SCF firmware 12b, 13b includes the following check mechanisms. Each check mechanism detects a reception error. When a reception error is detected, error notification (retransmission request), reply processing (determination of a reception error sequence number) is performed. Is performed as follows.
(a) Parity error detection
If the parity error bit detected by the hardware is ON when reading the reception register ECOMR1, a parity error is assumed.
When a parity error is detected, the received data and the received data are discarded and set to the unreceived state. At this time, no retransmission request is made. This is because a reception error can be detected when the next command is received.
Also, after detecting a parity error, all received data is discarded until the next command is received. When a command is received, a reception error (data length mismatch or sequence error) occurs and a retransmission request is transmitted.
[0042]
(b) Data length mismatch detection
When sending a notification event, if the data length of the transmission data is sent to the command and sent, and the data length of the data received on the receiving side does not match the data length notified by the command, the received data length does not match. To do.
When a data length mismatch is detected, a retransmission request is transmitted to the transmission side, and received data is discarded. The sequence number for which retransmission is requested is the reception completion sequence number + 1 (the sequence number being received).
[0043]
(c) Sum check error detection
When sending a notification event, calculate the sum value of all the sums of the transmission data and transmit it last, calculate the sum of the data being received on the receiving side, and compare it with the sum value sent last To check the validity of the received data.
When a sum check error is detected, a retransmission request is transmitted to the transmitting side when received, and the received data is discarded. The sequence number for which retransmission is requested is the reception completion sequence number + 1 (the sequence number being received).
[0044]
(d) Sequence error detection
As described above, if the sequence number of the received notification event is not the sequence number + 1 of the previously received notification event, a sequence error is assumed.
If data is received without receiving a start command, the data is discarded and left unreceived. This is because the error can be detected again when the end command or the like is received.
When a sequence error other than the above is detected, a retransmission request on the transmitting side is transmitted at the time of detection. The received data is discarded.
The sequence number for which retransmission is requested is a sequence number that has not been received. That is, as described above, [sequence number +1 received normally until the previous time] to [sequence number -1 normally received this time]. When there are two or more unreceived events, retransmission requests are continuously transmitted.
[0045]
(Iv) Processing when communication is abnormal
When a communication abnormality occurs, the following processing is performed to guarantee system operation in the state where the communication abnormality has occurred.
(a) Processing when a communication error is detected
(1) Notify the main processor 10 of “communication abnormality”.
(2) Output error log to memory.
(3) An abnormality is displayed on the LCD of the operator operation panel 22 and a check lamp is turned on.
(b) Processing during communication error
(1) alive message Exchange control continues as it is.
(2) Transmission processing to other systems continues.
(3) Discard events received from other systems.
(4) Do not notify other systems that a reception error has occurred (resend request not sent).
Each SCF independently notifies the system monitoring event when communication is abnormal. Therefore, when an event occurs in the shared resource only in a communication abnormal state, an error notification may be sent from both systems.
[0046]
(V) Communication error cancellation cause and detection method
When a communication error occurs, if the cause is known to be a hardware error (such as an SCF board error), a process that does not recover the communication error until replacement is necessary.
Also, if the other system is not installed or just hangs up, it must be restored by reset. Therefore, the recovery of the communication abnormality is performed when the following conditions are satisfied for each cause.
[0047]
(a) Recovery from parity error, communication path error, etc.
Due to a hardware error, recover by resetting the own system or completing hot replacement of another system. The above recovery is performed as follows. The SCF active exchange will be described in detail later.
Recognize implementation from other SCF not implemented → Receive phase notification → Receive functional version or alive message → Recover communication error
(b) Restoration of other system SCF hang-up or other system SCF not mounted
The other system is reset and recovered upon completion of self-diagnosis. That is, it recovers as follows.
Phase notification reception → Functional version number or alive message reception → Communication error recovery
[0048]
(4) Detection of other system SCF not installed
In duplex system communication, there is a case where operation with only one SCF (the other system is not mounted) must be performed, such as when one system is actively replaced or when another system SCF fails. In this case, a communication abnormality is detected internally, but it is necessary to determine whether it is a real communication abnormality or an abnormality due to non-implementation of another system.
Therefore, in this embodiment, a mechanism for detecting the mounting / non-mounting state of the other system in hardware and notifying the SCF firmware by ON / OFF of the register bit is realized. The SCF firmware can always grasp the mounting status of the other system by polling the register periodically, and updating the internal flag.
[0049]
Specifically, the non-mounting of the other system SCF is detected as follows.
(a) When other system is not installed from the beginning
Since a communication error is detected due to a continuous timeout of the alive message acquisition timer, at this time, the internal flag (indicating the implementation status of the other system) updated by polling is checked, and the cause of the communication error is the SCF of the other system. Judge whether it is due to unimplemented.
(b) When another system's SCF is removed during operation
By polling the above register, it is possible to detect a case where the SCF of another system has changed from mounting to non-mounting. At this time, a communication abnormality process is performed when the other system SCF is not mounted, and then an alive message is acquired. Prevent abnormal processing even if a continuous timer timeout occurs.
By doing the above, even when the system is started up without other systems installed, or when it is unjustly pulled out during operation, an appropriate message (other systems not installed) is sent to the outside instead of a communication error. You can be notified.
[0050]
(5) Resource monitoring and event notification
Each SCF monitors each resource as follows. When a notification event occurs, the SCF notifies the main processor of the event and also notifies the SCF of another system.
(a) Monitoring of event resources unique to one system and monitoring of events
When an event occurs in a specific resource monitored and controlled by each of the duplicated SCFs, such as the external uninterruptible power supply (external UPS) 16, the extended enclosure control interface RCI, and the temperature sensor 20 shown in FIG. An event is notified to the main processor 10 in the detected system.
In addition, the inter-SCF communication function is used to notify information to the other SCF (in order to make an alternative notification from the other SCF in the event that the detection system cannot notify the main processor 10 of an event).
The system notified from the SCF of the other system holds the event to be notified by the SCF of the other system, and does not perform any particular processing.
As described above, when it is detected that the other system cannot notify the main processor 10 of the event, the suspended event and the newly notified event are notified to the main processor 10 on behalf of the other system. Provide alternative notification.
[0051]
(b) Resource monitoring and event notification that can be monitored by both systems
When an event occurs in a shared resource where each redundant SCF monitors and controls one resource, such as the main power supply (PDU) 25, the built-in uninterruptible power supply (UPS) 24, the fan 21, and the operator operation panel 22, It is possible to detect the same event in both systems.
However, if an event is detected in both systems and notified to the main processor 10, the same event will be notified twice from both systems. In addition, in the case of an abnormality in the detection circuit, if it can be detected only by one system, there is a possibility that a contradiction occurs between the SCFs of both systems.
From the above, regarding the shared resource, when an event is detected, the event is transmitted to the other system using the inter-SCF communication function, and the process is not performed until the same event notification is received from the other system. The notification to the main processor 10 is determined in advance by assigning notifications in advance so that no event is notified twice.
When the other system is in an abnormal state, the other system event notification portion is also processed so that the entire system can be monitored.
[0052]
(6) System control during normal operation and abnormal communication
When the duplex communication is abnormal, the system operation is assured by performing the following system control for normal operation.
(I) Normal operation
(a) Monitoring / notification of specific resources
(1) Each system monitors its own resources.
(2) Notification to the main processor 10 is made when an abnormality of the resource in charge is detected.
(b) Responsible for monitoring / notifying shared resources
(1) The shared resource is always monitored by both systems.
(2) The person in charge of notification is fixed in advance.
(3) Notification to the main processor 10 is made when an abnormality of the resource in charge is detected and the same abnormality is notified from another system.
[0053]
(c) Exclusive control of shared resources (LCD display on operator operation panel 22)
(1) By alive message exchange control, an access right is acquired and accessible only when the user has the alive message transmission right.
For example, in the LCD display of the operator operation panel 22 or the exclusive control of the operation switch, the SCF having the alive message transmission right has the access right.
{Circle around (2)} If an access factor occurs when you do not have the access right (alive message transmission right), wait until you have the next access right.
[0054]
(Ii) Operation when communication is abnormal
(a) Monitoring / notification of specific resources
(1) Each system monitors its own resources.
(2) Notification to the main processor 10 is made when an abnormality of the resource in charge is detected.
(b) Responsible for monitoring / notifying shared resources
(1) The shared resource is always monitored by both systems.
(2) The right to notify the main processor 10 is acquired unconditionally.
(3) When a communication abnormality is detected, the main processor 10 is notified without waiting for an abnormality notification from another system.
[0055]
(c) Exclusive control of shared resources (LCD display on operator operation panel 22)
(1) The alive message exchange control is continued as it is, and it can be accessed only when the user has the alive message transmission right as usual.
Even when communication is abnormal, the access right is not given to either. This is to prevent the common resource from becoming inaccessible from other systems, and 100% exclusive control is possible if communication errors occur only in one system using this method. In addition, even when both systems have a communication error, exclusive control is possible without overlapping access rights of both systems by intentionally shifting the acquisition of the initial (immediately after startup) alive message transmission right in both systems. .
{Circle around (2)} If an access factor occurs when you do not have the access right (alive message transmission right), wait until you have the next access right.
[0056]
(7) SCF activity exchange
A description will be given of SCF active exchange for realizing replacement of a failed SCF or the like in an operating state when one system fails in a duplex system.
In the present embodiment, as described below, individual SCFs can be exchanged while the system is operating, and a north top that does not go down due to an abnormality in one system is realized (this SCF exchange during operation is Active exchange or active insertion).
(a) Recognition of activity exchange
In order to perform hot replacement, first, the maintenance tool issues “other system stop notification” to the normal SCF that is operating. The system that has received the “other system stop notification” recognizes that the other system will be hot-replaced from now on, so that it will not be processed abnormally at this time so that it will not perform any error processing even if an abnormality such as non-installation of the other system is detected. Communication abnormally.
As described above, the operating system SCF that has entered a communication abnormal state takes over the monitoring / notification right of the shared resource that was the monitoring range of the other system, and can continue to operate as a system.
[0057]
(b) Recognition of active exchange (after exchange)
When the SCF is replaced and actively inserted, the inserted system is reset, self-diagnosis is started, and a self-diagnosis phase notification is transmitted to the other system.
When the self-diagnosis is completed, the internal takeover information is notified by the SCF command from the main processor 10, and the online state is set.
On the other hand, the system that was operating due to a communication error is notified that the other system has been reset (active replacement) by receiving the self-diagnosis phase notification from the other system, and the function version number notification after the completion of the self-diagnosis ( The communication abnormal state is canceled by receiving (described later). As a result, system control by the duplexed SCF is resumed, and active exchange during operation is realized.
[0058]
FIG. 16 is a diagram showing the procedure of active exchange, and active exchange is realized as shown in the figure (the following (1) to (11) correspond to the circled numbers in FIG. 16).
(1) From the maintenance tool, notify the normal SCF that the other system will be hot swapped. (→ Issuing other system stop notification)
(2) When the other system receives the stop notification, the monitoring abnormality detection for the other system being stopped / unplugged is suppressed. Moreover, while operating in a communication abnormal state internally, a normal SCF takes over the other system monitoring range.
(3) Remove the replacement SCF. In this case, abnormality detection such as non-installation of other systems is not performed.
(4) Insert a new SCF and reset.
(5) The new SCF initiates a self-diagnosis and sends a self-diagnosis phase notification.
(6) The operating SCF recognizes the reset of the other system and is performing self-diagnosis.
(7) A new SCF task is activated and the inserted SCF is notified of the functional version number of the SCF.
[0059]
(8) The operating SCF receives the function version number and performs a function version number check process. Then, the function version number of the own system is notified to the new SCF as a function version number response. Further, the operating SCF recovers the communication abnormality and stops monitoring taking over of resources that were in the other system monitoring range.
(9) When the new SCF receives the function version response from the operating SCF, the new SCF performs a function version check process and notifies the maintenance tool of normal startup of the new SCF.
(10) The maintenance tool recognizes the normal operation of the new SCF, reads the data saved on the disk, and copies the internal information from the SCF on the operation side to the new SCF side. Further, internal information is transferred from the operating SCF to the new SCF by the SCF command.
(11) The new SCF receives the SCF command and transitions to the online state (completion of active exchange).
[0060]
(8) Resource monitoring and event notification after SCF active exchange
As described above, the monitoring / notification of the unique resource and the shared resource after the completion of the active exchange is performed as follows.
(a) Monitoring / notification of specific resources
The system on the operating side continues to monitor / notify its own resources for monitoring / notifying, and the system on the inserting side also monitors its own resources for monitoring / notifying from the start. The system monitors / notifies its own resources.
[0061]
(b) Responsible for monitoring / notifying shared resources
Up to now, the system on the operating side has notified the main processor 10 without waiting for an abnormality notification from another system when an abnormality is detected (when communication is abnormal). The notification right to the processor 10 is taken over as it is, but when an abnormality is detected, the same abnormality notification from another system is waited as described above.
The system on the insertion side monitors the shared resource, but the processing can be simplified by not acquiring the notification right.
(c) Exclusive control of shared resources (LCD display on operator operation panel, etc.)
Since alive message exchange control is restored by active insertion of another system, exclusive control of common resources is automatically performed.
By configuring as described above, even when the SCF is inserted later, it is possible to take over information from the operating SCF and operate both systems without contradiction.
[0062]
(9) Consistency check of function version and countermeasure
If the functional version numbers of the SCFs do not match at the time of simultaneous activation of the SCFs of both systems and when the SCF is activated, a problem occurs in communication between the SCFs.
Therefore, the consistency of the function version number is checked, and if the function version number is inconsistent, the following measures are taken.
(a) Consistency check of function version and countermeasures at the time of SCF simultaneous activation of both systems
The inter-SCF communication is realized by operating both system SCFs according to a determined command interface. However, both system SCFs are configured to be individually replaceable in order to realize a north top system by duplication.
Among the factors that cause the SCF to be replaced, command interface specifications may be added or changed. If the command interfaces differ between the two systems, the operation is not guaranteed.
In order to prevent the above problems, when the SCF is started, the command interface version (function version) is notified / recognized to each other. If the function version does not match, the higher function version is the lower. The command interface of both systems is guaranteed by operating at the functional level of.
[0063]
FIG. 17 is a diagram showing a function version number check result when the both SCFs are activated at the same time and the countermeasures. Specifically, the function version number consistency check and the function version number mismatch are handled as follows.
{Circle around (1)} Before the SCF is activated and the inter-SCF communication is started, the version number information (issue the version number information inquiry command) is communicated between the two SCFs.
Note that the function version information is transmitted when the local SCF is functioning (issues a function version notification command) or when the function version notification command is received from another system (function version response command). Issue). When the function version response command is received, the function version number notification is stopped.
{Circle around (2)} When the function version number immediately after activation is received from the SCF of another system, the self system performs a check by comparing the version numbers and returns the function version information of the own system as a response.
(3) The function version number is checked, and if the function version numbers of the #A system and the #B system are the same, there is no problem and no processing is performed. Further, when the functional version numbers of #A system and #B system are different, the following processing is performed.
The #A system and the #B system SCF recognize that the function version numbers do not match, and display them on the LCD, console, etc. of the operator operation panel to notify the operator of the function version number mismatch.
-Lower the version function of the SCF with the higher function version, and operate the SCF with the lower function version according to the function. When a function is added / changed, since the function of the lower version is known, the new function is supported while the function of the old version is supported.
[0064]
(b) Consistency check of functional version number and corrective action when SCF is inserted
In (a) above, since the SCFs of both systems are activated at the same time, either system has no priority and can be operated in a duplex state if the functions are matched to the lower version. .
However, since the function of the SCF that is already in operation is prioritized at the time of active replacement, if an SCF with a lower version number is inserted, the function of the SCF that is in operation cannot be matched to the system that was inserted later. . Therefore, at the time of active replacement, the insertion in this case is rejected, and the operation is continued in the state before the insertion until the correct SCF is inserted.
[0065]
FIG. 18 is a diagram showing a function version number check result at the time of SCF active insertion and its countermeasure. As described with reference to FIG. 16, the function version number is notified and the function version number is checked. Then, as shown in FIG. 18, when the function version numbers of the #A system and the #B system are the same, there is no problem and the process is not performed.
Further, when the functional version numbers of #A system and #B system are different, the following processing is performed.
-When the function level of the #B system SCF that is actively inserted is higher than that of the already operating #A system SCF, the fact that the function version numbers do not match is displayed on the LCD, console, etc. of the operator operation panel. Thus, the operator is notified, the functional version number of the #B system SCF that is actively inserted is reduced, and the operation is continued in both systems in accordance with the functional version number of the #A system SCF.
If the functional level of the #B SCF that is actively inserted is higher than the #A SCF that is already operating, it is impossible to reduce the functional version number of the #A SCF that is already operating. Notify active insertion abnormality of system SCF. The #A system SCF continues operation in the same state as before insertion.
[0066]
(10) Monitoring operation during self-diagnosis and processing when self-diagnosis abnormality is detected
There are two cases of SCF self-diagnosis: a case where an abnormality is detected by oneself and a case where a hang-up occurs.
In these two cases, the other system needs to recognize the other party's abnormality. Therefore, during the SCF self-diagnosis, the other system always notifies the other system of its own diagnosis phase, and the other system recognizes the other party's abnormality by monitoring it.
Specifically, this is performed as follows.
[0067]
(a) When abnormality is recognized by self-diagnosis
After confirming that the other system has started up normally, notify the other system of the occurrence of an abnormal self-diagnosis. This is because if the SCF is activated at the same time in both systems, the other system may also be performing self-diagnosis, so even if a self-diagnosis abnormality is notified at this time, the other system may not be able to handle the abnormality. is there.
Therefore, it waits for a function version number notification or alive message notification indicating that the other system has started normally, and by receiving this notification, the other system knows that the other party has become abnormal by notifying the other system of the abnormality. be able to.
[0068]
FIG. 19 is a diagram showing a processing sequence when a self-diagnosis abnormality is detected.
In the case of a duplex system, if self-diagnosis is performed simultaneously on both systems, an access error may occur depending on the diagnosis item. Therefore, in this embodiment, one of the systems is determined in advance to perform self-diagnosis in advance, and when one self-diagnosis is completed, the other SCF starts self-diagnosis.
That is, as shown in FIG. 19, when #A system is undergoing self-diagnosis, #B system is performing self-diagnosis idling. Then, idling is continued until the initial diagnosis end phase is received from the #A system or a time-out during the initial diagnosis of the other system is detected.
Under normal conditions, when the self-diagnosis of both systems is completed, the SCFs of both systems are started simultaneously. However, as shown in FIG. Even if an error is notified to the system, the other system is not always operating normally, so a self-diagnosis error notification is transmitted only after receiving a function version notification indicating that the system has started up normally.
[0069]
The #A system that has detected the self-diagnosis abnormality notifies the #B system of the error log code of the abnormality and the LCD display data byte by byte in a predefined command format.
In the #B system that has received the self-diagnosis abnormality notification, it knows that the #A system has detected an abnormality and cannot move, and stores all data in the work area until all data is received. At the time of reception, the received partner's abnormality is registered in an error log, notified to the outside by an LCD display or the like, and appropriate processing is performed so that the operation can be continued in one system.
[0070]
(b) Hang up during self-diagnosis
In this case, since the self-diagnosis phase cannot be notified, the other system can recognize that the other party has hung up due to the timeout of the self-diagnosis phase. The monitoring side does not actually monitor the self-diagnosis phase notification, but recognizes the other party's abnormality by the continuous timeout of the acquisition timer of the alive message, and receives the data notified by the other system last. The register ECOMR1 is examined by going to read. And when it is a self-diagnosis phase, it has a mechanism for recognizing that it has hung up in the diagnosis phase.
[0071]
FIG. 20 is a diagram showing a processing sequence at the time of hang-up during self-diagnosis.
If a hang-up occurs during the self-diagnosis, the process is the same as in FIG. 19 until the normal system (#B system) detects a timeout during the other system (#A system) self-diagnosis. As shown in FIG. 20, the #B system alive message acquisition timer continuously times out and recognizes that the system #A has stopped.
Here, since the self-diagnosis phase that was lastly operated remains in the reception counter ECOMR1, it is possible to know how far the #A system self-diagnosis has been operated by reading the reception counter ECOMR1. Can do. Based on this information, as described above, the error log is registered in the error log and notified to the outside by an LCD display or the like, and appropriate processing is performed so that the operation can be continued in one system.
By doing as described above, even when self-diagnosis is performed in both systems, an abnormality in self-diagnosis can always be detected after the normal system has started up.
[0072]
【The invention's effect】
As described above, the following effects can be obtained in the present invention.
(1) Since communication processing between the duplexed SCFs can be performed, the process between the two SCFs can be made consistent in controlling the duplexed system. In addition, appropriate processing can be quickly performed even in the event of a one-system abnormality, and the north top system can be easily realized.
(2) Exclusive control of shared resources, disconnection processing at the time of one-system failure, and monitoring takeover processing of other system resources can be easily performed.
(3) The status of the other system can always be monitored between the duplexed SCFs, and it is easy to deal with a one-system failure.
[0073]
(4) All the transmission / reception data for each notification event can be managed by the sequence number, and reception error detection, notification processing of another system when a reception error occurs, search processing for a retransmission event, and the like are facilitated.
(5) It is possible to quickly detect a communication abnormality between both duplexed SCFs, and determine whether the abnormality is a hardware abnormality or another system abnormality and perform appropriate processing.
(6) Even if a communication abnormality is detected when the other system is not mounted, it can be recognized as a communication abnormality due to the other system not being mounted without causing a hardware abnormality.
(7) It is possible to send an alternative notification from another system even when an abnormal situation in which the notification event of the specific resource monitored by each SCF cannot be notified from the own system to the main processor.
(8) An event detected by the shared resource monitored by both systems can be processed after confirming that the other system has detected the event. Further, the notification to the main processor is not notified twice from both systems.
(9) Even if a monitoring abnormality occurs in one system between both duplexed SCFs, it is possible to continue the operation without causing the system to go down.
[0074]
(10) One system SCF can be replaced while the system is operating, and a north top / no down system can be realized even when one system fails.
(11) It is possible to take over the internal information of the active SCF for the actively inserted SCF, and it can be operated as if it had always been operating in a duplex state.
(12) Since it becomes possible to automatically recognize each other's SCF function level between both duplexed SCFs, it does not operate with different function versions, and it is possible to always guarantee the operation of the duplex system. .
(13) It is possible to always guarantee the operation of the duplex system even when an SCF with an upgraded function version is inserted during active insertion. Further, even when an SCF whose functional version number has been reduced due to an operation mistake by an operator or the like is inserted, it is possible to reject the insertion without operating as it is.
(14) It is possible to quickly detect abnormalities in the self-diagnosis of other systems, and appropriate measures can be taken.
(15) Even when an error that cannot be output to the error log and LCD display (hang-up) occurs, it is possible to notify the abnormality to the outside by the monitored SCF.
[Brief description of the drawings]
FIG. 1 is a principle configuration diagram of the present invention.
FIG. 2 is a diagram showing a system control configuration and monitoring resources according to an embodiment of the present invention.
FIG. 3 is a schematic diagram of duplexed inter-SCF communication according to an embodiment of the present invention.
FIG. 4 is a diagram illustrating a configuration of an inter-SCF communication register according to the embodiment of this invention.
FIG. 5 is a diagram for explaining a method of accessing an inter-SCF communication register.
FIG. 6 is a diagram for explaining how to use an inter-SCF communication register.
FIG. 7 is a diagram showing a transmission format for each command.
FIG. 8 is a diagram showing a transmission sequence when a notification event occurs.
FIG. 9 is a diagram illustrating processing when a notification event occurs during transmission of a plurality of bytes.
FIG. 10 is a diagram showing a sequence check process in communication between SCFs.
FIG. 11 is a diagram for explaining alive message exchange control at normal time;
FIG. 12 is a diagram for explaining alive message exchange control when a path is abnormal;
FIG. 13 is a diagram for explaining alive message exchange control when not implemented or when hung up.
FIG. 14 is a diagram showing a communication abnormality pattern as seen from the whole system.
FIG. 15 is a diagram showing an abnormality detection mechanism and an abnormality cause.
FIG. 16 is a diagram showing a procedure of SCF activity exchange.
FIG. 17 is a diagram showing the function version number and processing of both systems SCF (when both systems are activated simultaneously).
FIG. 18 is a diagram showing the function version number and processing of both SCFs (at the time of active insertion).
FIG. 19 is a processing sequence when a self-diagnosis abnormality is detected.
FIG. 20 is a processing sequence when a hang-up occurs during self-diagnosis.
[Explanation of symbols]
1 Main processor
2 buses
3a, 3b Monitoring / control processor
4 communication means
5,5 Unique resources
6 shared resources
10 Main processor
11 SC bus
12,13 SCF
14 Signal line (SCFLink)
15 RS232C interface
16 External uninterruptible power supply (external UPS)
17 External equipment
18 Expansion unit
19 Expansion unit power supply
20 Temperature sensor
21 A fan.
22 Operator operation panel
23 Sub power supply unit (PSU)
24 Built-in uninterruptible power supply (UPS)
25 Main power supply unit (PDU)
EPC external power control interface
EDPCI expansion unit power control interface
RCI expansion device control interface
ECOMR1 reception register
ECOMR2 transmission register

Claims (8)

メインプロセッサとは独立して設けられ、情報処理システムの監視、制御又は保守を行うための監視/制御プロセッサを二重化するとともに、前記監視/制御プロセッサ間で、通知事象の通信を行なうための通信手段を設け、
前記二重化された監視/制御プロセッサにより、情報処理システムの監視・制御を行う情報処理装置のシステム監視・制御方法であって、
前記二重化された監視/制御プロセッサのうち、送信権を有する他の監視/制御プロセッサから通知事象を受信したとき、一の監視/制御プロセッサが通知事象の送信権を獲得するステップと、
前記一の監視/制御プロセッサが、他の監視/制御プロセッサへの通知事象に、シーケンス番号を付与するステップと、
前記一の監視/制御プロセッサが、シーケンス番号が付与された通知事象を前記他の監視/制御プロセッサに送信するステップと
前記他の監視/制御プロセッサから受信エラーの発生を原因とする再送依頼が前記シーケンス番号を用いてなされたときに、前記他の監視/制御プロセッサからの受信したシーケンス番号が付与されている通知事象を前記他の監視/制御プロセッサに再送するステップと、
を有することを特徴とする情報処理装置のシステム監視・制御方法。
Communication means provided independently of the main processor, for duplicating the monitoring / controlling processor for monitoring, controlling or maintaining the information processing system, and for communicating a notification event between the monitoring / controlling processors Provided,
A system monitoring / control method for an information processing apparatus that performs monitoring / control of an information processing system by the dual monitoring / controlling processor,
When one of the dual monitoring / controlling processors receives a notification event from another monitoring / controlling processor having a transmission right, the one monitoring / controlling processor acquires the transmission right of the notification event;
Said one monitoring / control processor assigning a sequence number to a notification event to another monitoring / control processor ;
The one monitoring / control processor, and sending a notification event sequence number is assigned to the other monitoring / control processor,
Notification event to which the sequence number received from the other monitoring / control processor is given when a retransmission request is made from the other monitoring / control processor due to the occurrence of a reception error using the sequence number Retransmitting to the other monitoring / controlling processor;
A system monitoring / controlling method for an information processing apparatus.
前記システム監視/制御方法は、通知事象の送信権の放棄を行うステップをさらに有し、
前記ステップは、通知事象の送信権を獲得した一の監視/制御プロセッサが、
前記送信権の獲得から一定時間が経過することにより保持時間タイムアウトが発生した場合に、他の監視/制御プロセッサに対して通知事象を送信することにより、前記通知事象の送信権の放棄を行うステップである
ことを特徴とする請求項記載の情報処理装置のシステム監視・制御方法。
The system monitoring / control method further includes the step of abandoning the right to transmit the notification event,
In the above step, one monitoring / control processor that has acquired the right to send a notification event
A step of abandoning the right to transmit the notification event by transmitting a notification event to another monitoring / control processor when a holding time timeout occurs due to the elapse of a certain time from the acquisition of the transmission right. The system monitoring / control method for an information processing apparatus according to claim 1 , wherein
前記一の監視/制御プロセッサが、送信権を有する他の監視/制御プロセッサから通知事象の送信権を獲得するステップは、
送信権を有さない一の監視/制御プロセッサにおいて、前記送信権放棄から一定時間の経過により獲得時間のタイムアウトが発生した場合に、前記一の監視/制御プロセッサが通知事象の送信権を獲得するステップである
ことを特徴とする請求項記載の情報処理装置のシステム監視・制御方法。
The step of the one monitoring / control processor obtaining the transmission right of the notification event from another monitoring / control processor having the transmission right,
In one monitoring / control processor having no transmission right, when a time-out of an acquisition time occurs after a lapse of a certain time since the transmission right is abandoned , the one monitoring / control processor acquires the right to transmit a notification event. The system monitoring / control method for an information processing apparatus according to claim 2 , wherein the system monitoring / control method is a step.
前記システム監視・制御方法は、エラー判定を行うステップをさらに有し、
前記ステップは、前記獲得時間のタイムアウトが発生した場合に、他の監視/制御プロセッサで前記送信権を獲得した一の監視/制御プロセッサにおいてエラーが発生したものと判断するステップである
ことを特徴とする請求項3に記載の情報処理装置のシステム監視・制御方法。
The system monitoring / control method further includes a step of performing error determination,
The step is a step of determining that an error has occurred in one monitoring / control processor that has acquired the transmission right by another monitoring / control processor when a timeout of the acquisition time occurs. A system monitoring / control method for an information processing apparatus according to claim 3.
メインプロセッサとは独立して設けられ、情報処理システムの監視、制御又は保守を行うための二重化された監視/制御プロセッサと、
前記二重化された監視/制御プロセッサ間で、通知事象の通信を行なうための通信手段とを有し、
前記二重化された監視/制御プロセッサのうち、一の監視/制御プロセッサは、送信権を有する他の監視/制御プロセッサから通知事象を受信したとき通知事象の送信権を獲得し、他の監視/制御プロセッサへの通知事象にシーケンス番号を付与し、前記シーケンス番号が付与された通知事象を、他の監視/制御プロセッサに送信するとともに、前記他の監視/制御プロセッサから受信エラーの発生を原因とする再送依頼が前記シーケンス番号 を用いてなされたときに、前記他の監視/制御プロセッサからの受信したシーケンス番号が付与されている通知事象を前記他の監視/制御プロセッサに再送することを特徴とする情報処理装置のシステム監視・制御装置。
A dual monitoring / controlling processor provided independently of the main processor for monitoring, controlling or maintaining the information processing system;
Communication means for communicating notification events between the redundant monitoring / controlling processors,
Among the duplicated monitoring / controlling processors, when one monitoring / controlling processor receives a notification event from another monitoring / controlling processor having the transmission right, it acquires the transmission right of the notification event, and the other monitoring / controlling processor. A sequence number is assigned to the notification event to the processor, the notification event to which the sequence number is assigned is transmitted to another monitoring / control processor, and a reception error occurs from the other monitoring / control processor. When a retransmission request is made using the sequence number , the notification event to which the sequence number received from the other monitoring / control processor is assigned is retransmitted to the other monitoring / control processor. System monitoring / control device for information processing equipment.
前記二重化された監視/制御プロセッサはそれぞれ送信権保持タイマを有し、
通知事象の送信権を獲得した一の監視/制御プロセッサにおいて、前記送信権保持タイマ、前記送信権獲得から一定時間の経過によりタイムアウトが発生した場合に、他の監視/制御プロセッサに対して通知事象を送信することにより、前記通知事象の送信権の放棄を行う
ことを特徴とする請求項記載の情報処理装置のシステム監視・制御装置。
Each of the duplicate monitoring / controlling processors has a transmission right holding timer,
Notified in one monitoring / control processor having acquired the transmission right of the notification event, the transmission right holding timer, when the time-out with the lapse of a predetermined time from the transmission right acquisition has occurred, to the other monitoring / control processor 6. The system monitoring / controlling apparatus for an information processing apparatus according to claim 5 , wherein the right to transmit the notification event is abandoned by transmitting the event.
前記二重化された監視/制御プロセッサはそれぞれ送信権獲得タイマを有し、
送信権を有さない一の監視/制御プロセッサにおいて、前記送信権の放棄から一定時間の経過により、前記送信権獲得タイマにタイムアウトが発生した場合に、前記一の監視/制御プロセッサに通知事象の送信権を付与する
ことを特徴とする請求項記載の情報処理装置のシステム監視・制御装置。
Each of the duplicate monitoring / controlling processors has a transmission right acquisition timer,
In one monitoring / control processor that does not have the transmission right , when a time-out occurs in the transmission right acquisition timer due to the elapse of a predetermined time from the abandonment of the transmission right , a notification event is sent to the one monitoring / control processor. 7. The system monitoring / controlling apparatus for an information processing apparatus according to claim 6 , wherein a transmission right is given.
前記二重化された監視/制御プロセッサはそれぞれ、前記送信権獲得タイマにおいてタイムアウトが発生した場合に、の監視/制御プロセッサにおいてエラーが発生したものと判断することを特徴とする請求項に記載の情報処理装置のシステム監視・制御装置。 Each of the duplexed monitor / control processor, when the time-out in the transmission right acquisition timer occurs, according to claim 7, characterized in that it is determined that an error has occurred in the other monitoring / control processor System monitoring / control device for information processing equipment.
JP31079596A 1996-11-21 1996-11-21 System monitoring / control method and system monitoring / control apparatus using dual monitoring / controlling processor Expired - Lifetime JP3942216B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31079596A JP3942216B2 (en) 1996-11-21 1996-11-21 System monitoring / control method and system monitoring / control apparatus using dual monitoring / controlling processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31079596A JP3942216B2 (en) 1996-11-21 1996-11-21 System monitoring / control method and system monitoring / control apparatus using dual monitoring / controlling processor

Publications (2)

Publication Number Publication Date
JPH10154085A JPH10154085A (en) 1998-06-09
JP3942216B2 true JP3942216B2 (en) 2007-07-11

Family

ID=18009545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31079596A Expired - Lifetime JP3942216B2 (en) 1996-11-21 1996-11-21 System monitoring / control method and system monitoring / control apparatus using dual monitoring / controlling processor

Country Status (1)

Country Link
JP (1) JP3942216B2 (en)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100464490B1 (en) * 2000-12-22 2004-12-31 엘지전자 주식회사 Apparatus for management packing and unpacking of dual device
JP4492035B2 (en) 2003-04-21 2010-06-30 日本電気株式会社 Data processing device
JP4495015B2 (en) * 2005-03-16 2010-06-30 富士通株式会社 System management apparatus, information processing apparatus, and system management apparatus redundancy method
WO2008023791A1 (en) * 2006-08-25 2008-02-28 Panasonic Corporation Wireless transmitting apparatus, wireless receiving apparatus and wireless communication method
WO2008029793A1 (en) * 2006-09-05 2008-03-13 Nec Corporation Packet recovery method, communication system, information processing device, and program
JP2008140280A (en) * 2006-12-05 2008-06-19 Hitachi Ltd Reliability enhancing method in operation management of server
JP4525762B2 (en) 2008-02-04 2010-08-18 株式会社デンソー Electronic control device for vehicle
WO2010001445A1 (en) * 2008-06-30 2010-01-07 富士通株式会社 Information processor and control method thereof
JP5293141B2 (en) * 2008-12-16 2013-09-18 日本電気株式会社 Redundant system
JP2011022741A (en) * 2009-07-15 2011-02-03 Nec Computertechno Ltd Computer system, service processor, and diagnostic method thereof
JP5576096B2 (en) * 2009-11-16 2014-08-20 富士通株式会社 Multi-CPU configuration apparatus and monitoring control method thereof
JP5991088B2 (en) 2012-08-31 2016-09-14 富士通株式会社 Power supply control apparatus, information processing apparatus, and power supply control method
KR101533081B1 (en) * 2014-09-26 2015-07-03 성균관대학교산학협력단 Redundancy-ready control apparatus, redundancy system and method for configuring redundant logics for assuring low power consumption and reliability at the same time

Also Published As

Publication number Publication date
JPH10154085A (en) 1998-06-09

Similar Documents

Publication Publication Date Title
JP2532317B2 (en) Backup method of general-purpose I / O redundancy method in process control system
JP3611894B2 (en) System controller with dual configuration
US4775976A (en) Method and apparatus for backing up data transmission system
JP3942216B2 (en) System monitoring / control method and system monitoring / control apparatus using dual monitoring / controlling processor
US7853767B2 (en) Dual writing device and its control method
US4894828A (en) Multiple sup swap mechanism
KR20000011835A (en) Method and apparatus for providing failure detection and recovery with predetermined replication style for distributed applicatons in a network
KR20000011834A (en) Method and appratus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
JP5392594B2 (en) Virtual machine redundancy system, computer system, virtual machine redundancy method, and program
KR20010006847A (en) Cluster node distress signal
JP2010140361A (en) Computer system and abnormality detection circuit
JPH086910A (en) Cluster type computer system
JPH09251443A (en) Processor fault recovery processing method for information processing system
US11221926B2 (en) Information processing system and information processing apparatus
JP2006172218A (en) Computer system and system monitoring program
JP2018116477A (en) Information processing apparatus and information processing system
JP3001818B2 (en) Multiprocessor startup management device
JP3343618B2 (en) Terminal uninterrupted online system
JP2008250929A (en) Link fault diagnostic method, disk array system and link fault diagnostic program
KR19990050460A (en) Disaster Recovery Method and Device of High Availability System
JP2004013723A (en) Device and method for fault recovery of information processing system adopted cluster configuration using shared memory
JPH05224964A (en) Bus abnormality information system
US10762026B2 (en) Information processing apparatus and control method for suppressing obstacle
JP2001175545A (en) Server system, fault diagnosing method, and recording medium
EP1845447B1 (en) Method, apparatus and software for preventing switch failures in the presence of faults

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060328

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061010

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070312

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070403

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140413

Year of fee payment: 7

EXPY Cancellation because of completion of term