JP2006079603A - 高可用性クラスタ化のためのスマートカード - Google Patents

高可用性クラスタ化のためのスマートカード Download PDF

Info

Publication number
JP2006079603A
JP2006079603A JP2005244229A JP2005244229A JP2006079603A JP 2006079603 A JP2006079603 A JP 2006079603A JP 2005244229 A JP2005244229 A JP 2005244229A JP 2005244229 A JP2005244229 A JP 2005244229A JP 2006079603 A JP2006079603 A JP 2006079603A
Authority
JP
Japan
Prior art keywords
node
smart card
cluster
corresponding node
further configured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005244229A
Other languages
English (en)
Inventor
Ken Gary Pomaranski
ケン・ゲーリー・ポマランスキ
Andrew Harvey Barr
アンドリュー・ハーヴェイ・バール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of JP2006079603A publication Critical patent/JP2006079603A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Abstract

【課題】 高可用性(HA)クラスタの堅牢性を高め、クラスタの稼働時間を増やす。
【解決手段】 本発明にかかるHAクラスタは、複数のコンピューティングノードと、クラスタを管理するように構成されるクラスタ化ソフトウェアとを備え、さらに、各ノードに通信可能に接続された、マイクロプロセッサベースのシステムを備えたスマートカードを備える。また、本発明にかかるHAクラスタの対応するノードと併せて使用される装置は、マイクロプロセッサ、制御ソフトウェア、データを対応するノードから受け取るための少なくとも1つの入力チャネル、コマンドを対応するノードに送るための少なくとも1つの出力チャネル、コマンドをHAクラスタのクラスタ化ソフトウェアから受け取るための少なくとも1つの入力リンク、および、情報をクラスタ化ソフトウェアに送るための少なくとも1つの出力リンクを備える。
【選択図】図1

Description

本開示は、包括的にはコンピュータネットワークに関する。より詳細には、本開示は相互接続されたコンピュータシステムのクラスタに関する。
(関連出願への相互参照)
本願は、発明者らKen G. PomaranskiおよびAndrew H. Barrにより2004年1月23日に出願された「Cluster Node Status Detection and Communication」という名称の米国特許出願第10/764,165号に関連する。
本願は、発明者らKen G. PomaranskiおよびAndrew H. Barrにより2004年1月23日に出願された「Multi-State Status Reporting for High-Availability Cluster Nodes」という名称の米国特許出願第10/764,198号、および発明者らKen G. PomaranskiおよびAndrew H. Barrにより2004年1月23日に出願された「Node Management in High-Availability Cluster」という名称の米国特許出願第10/764,244号にも関連する。
上記3件の特許出願はそれぞれ、参照により本明細書に援用される。
クラスタは、単一の統合コンピューティングユニットとして使用される、相互接続されたコンピュータシステムまたはサーバの集まりを含む並列または分散システムである。
クラスタのメンバは、ノードまたはシステムと呼ばれる。
クラスタサービスは、クラスタ関連アクティビティを管理する各ノード上のソフトウェアの集まりである。
クラスタ化は、並列処理または並列コンピューティングを行って2つ以上のプロセッサを同時に使用し、アプリケーションまたはプログラムを実行する際に使用することができる。
クラスタ化は、システム管理者が既存のコンピュータおよびワークステーションを活用できるようにするため、並列処理アプリケーションを実施する人気のある戦略である。
ネットワーク化されたサーバに出される要求の数を予測することは困難であるため、クラスタ化は、1つのサーバに過負荷がかからないように、処理および通信アクティビティをネットワークシステムにわたって均等に分散させる負荷平衡化にも有用である。
1つのサーバが溢れる危険がある場合には、要求をより容量の大きい別のクラスタ化サーバに転送することができる。
たとえば、混雑するウェブサイトは、2つ以上のクラスタ化ウェブサーバを採用して、負荷平衡方式を採ることができる。
クラスタ化は、システム負荷が大きくなるにつれて新規の構成要素を追加できるようにすることにより、スケーラビリティの向上も提供する。
さらに、クラスタ化は、システム管理者がグループ全体を1つのシステムとして管理できるようにすることにより、システムおよびシステムのアプリケーションのグループの管理を簡易化する。
クラスタ化は、ネットワークシステムの耐故障性の向上にも使用することができる。
1つのサーバに予期しないソフトウェアまたはハードウェアの故障が生じた場合、別のクラスタ化サーバが、故障したサーバの動作を引き継ぐことができる。
したがって、システム内の任意のハードウェア構成要素またはソフトウェア構成要素が故障した場合、ユーザはパフォーマンスペナルティを受け得るが、サービスへのアクセスは失わない。
現在のクラスタサービスとしては、他にも例はあるが、Windows NT 4.0およびWindows(登録商標) 2000 Advanced Serverオペレーティングシステムをクラスタ化する、Microsoft Corporation設計のMicrosoft Cluster Server(MSCS)、およびNovell Netware Cluster Services(NWCS)が挙げられる。
たとえば、MSCSは、2つのNTサーバのクラスタ化をサポートして、1つの高可用性サーバを提供する。
高可用性(HA)クラスタのための装置および方法を改良することが望ましい。
HAクラスタの堅牢性を高めるとともに、かかるクラスタの稼働時間を増やすことが特に望ましい。
本発明の一実施形態は、高可用性(HA)クラスタシステムに関する。
クラスタは、複数のコンピューティングノードと、クラスタを管理するように構成されるクラスタ化ソフトウェアとを備える。
さらに、クラスタは、各ノードに通信可能に接続された、マイクロプロセッサベースのシステムを備えたスマートカードを備える。
別の実施形態は、高可用性(HA)クラスタの対応するノードと併せて使用されるようになっている装置に関する。
この装置は、マイクロプロセッサ、制御ソフトウェア、データを対応するノードから受け取るための少なくとも1つの入力チャネル、コマンドを対応するノードに送るための少なくとも1つの出力チャネル、コマンドをHAクラスタのクラスタ化ソフトウェアから受け取るための少なくとも1つの入力リンク、および情報をクラスタ化ソフトウェアに送るための少なくとも1つの出力リンクを備える。
別の実施形態は、高可用性クラスタのノードの非稼働状態を識別し、これに対処する方法に関する。
この方法は、ノードからの第1のハートビート信号の伝送をチェックすること、および、ノードのスマートカードからの第2のハートビート信号の伝送をチェックすることの両方を含む。
他の実施形態も開示する。
高可用性(HA)クラスタの効率または稼働時間は主に、クラスタ内のノードが「非稼働」状態(クラスタにとって有用なコンピューティング機能または記憶機能の実行を停止している)にあることを認識するためにかかる時間量によって影響を受ける。
クラスタ化ソフトウェアは、ノードが「非稼働」であると判断すると、必要なタスクを実行して、クラスタの残りの部分を実行させた状態に保ち、ユーザタスクの中断は殆どない。
不都合なことに、多くの場合、ノードがノード自体のシステム状態を判断し、HAクラスタおよびクラスタ化ソフトウェアに報告するには比較的長い時間がかかる。
従来のクラスタ内の非稼働ノードの判断および報告が遅いことの理由としては以下が挙げられる。
第1に、ノード自体は通常、ノード自体の状態を診断するのに最良のポジションにない。
第2に、使用されるオペレーティングシステムは通常、マルチノードHAクラスタ用途のために特に設計されているわけではない。
第3に、クラスタ化に使用される入出力(I/O)カード(たとえば、ネットワークカード)は通常、「既製品」カードであり、高可用性環境内での通信に使用するように構成または調整されていない。
第4に、ノードは時に、ノード自体の偽の故障を通知し、その後また元の状態に戻ることがあり、HAクラスタおよびクラスタ化ソフトウェアを困惑または混乱させる。
偽の故障信号の理由としては、イーサネット(登録商標)切断およびハートビートミス(不良ノードの典型的な信号)が、多くのミッションクリティカル環境にとって十分な信頼性がないことが挙げられる。
効率または稼働時間に対するもう1つの大きな影響は、故障ノードが発見された後に切り替えを行うためにかかる時間である。
制御された、または予期された切り替えは、予期しない切り替えよりもはるかに効率的である。
これは、HAクラスタから「なくなった」ノードよりも、実行中のノードからアプリケーションを移動させるほうがはるかに容易であるためである。
本発明は、HAクラスタ内のノードと共にスマートカードを使用することによってHAクラスタの堅牢性を高めようと努める。
スマートカードは、ノードのHAクラスタ管理を支援する機能を有する。
このようなスマートカードを各ノードに対応して使用することの有利な一態様は、スマートカードが、対応するノードの正確な状態を素早く正確に判断して通信する独立システムとして機能することができることである。
さらに、スマートカードは、素早く是正装置をとり、または開始してクラスタの稼働時間を最大化するように構成することができる。
スマートカードがクラスタの障害点とならないようにするために、HAクラスタおよびクラスタ化ソフトウェアは、非稼働である、または不在のスマートカードを「無視」するように有利に構成することができる。
スマートカードが非稼働である、または脱落した場合、クラスタは、対応するノードを管理する従来の方法に戻ることができる。
図1は、本発明の一実施形態による高可用性クラスタのノード110のスマートカード120の概略図である。
スマートカード120は、マルチノード高可用性クラスタの特定の対応するノード110に結合され、この対応するノード110と併せて利用される。
本発明の一実施形態によれば、スマートカード120は、少なくとも、マイクロプロセッサベースのシステム122、コードストリーム入出力(I/O)ユニット124、およびネットワークI/Oユニット126を備える。
スマートカード120は、ノード110の電源から独立して動作することができるように、スマートカード自体の電源121も有利に備えることができる。
コードストリームI/Oユニット124は、対応するノード110からシャーシコードストリームを取り込む、または「スヌーピング」する(132)ように構成することができる。
次いで、シャーシコードストリームは、スマートカード120を制御するマイクロプロセッサベースのシステム122に通信される(133)。
一実施形態では、シャーシコードストリームは、対応するノード110の動作「健全性」に関連するデータを含む。
ネットワークI/Oユニット126は、対応するノード110からのイーサネット出力または他のネットワーク出力を見る、または「スヌーピング」する(134)ように構成することができる。
次いで、ネットワーク出力は、スマートカード120を制御するマイクロプロセッサベースのシステム122に通信される(135)。
ネットワーク出力は、クラスタのノードを相互接続するネットワークメッシュまたはネットワーク媒体(イーサネットネットワーク等)にも伝送される(136)。
一実施形態では、ネットワーク出力は、ノードが稼働しており、実行中である(ハートビートが存在する場合)か、または非稼働であり、適切に機能していない(ハートビートが存在しない場合)かを示すノードハートビート信号を含むことができる。
マイクロプロセッサベースのシステム122は、スマートカードの動作を制御するように構成される。
マイクロプロセッサベースのシステム122は、マイクロコントローラ、不揮発性メモリ、および揮発性メモリにより構成することができる。
マイクロプロセッサベースのシステム122は、情報を対応するノード110と通信するようにさらに構成される。
たとえば、コマンドライン138を介してリセットコマンドを通信することができる。
さらに、マイクロプロセッサベースのシステム122は、対応するノード110からデータを受け取り、また対応するノード110にデータを書き込むように構成することができる。
たとえば、インタフェース140によってエラー/システムログ情報を、ノード110に記憶されているエラー/システムログ112から検索することができる。
マイクロプロセッサベースのシステム122は、情報をクラスタの残りの部分と通信するようにさらに構成される。
たとえば、マイクロプロセッサベースのシステム122は、クラスタから通信リンク142によって(たとえば、イーサネット接続によって実施することができる)、そのスマートカード120に対する命令またはコマンドを受け取るように構成することができる。
マイクロプロセッサベースのシステム122は、状態リンク144を介してノード状態信号を伝送し、ハートビート出力ライン146を介してハートビート信号を伝送するように構成することもできる。
本明細書に開示する一実施形態では、マイクロプロセッサベースのシステム122は、以下のような各種タスクを実行するように構成することができる。
すなわち、
a.対応するノードからの、ノードハートビート信号を含めたネットワーク出力を監視すること(135を介して受け取られる)
b.対応するノードからのシャーシコード出力の読み出し、記憶、および解析を行うこと(133を介して読み出される)
c.対応するノードからのエラー/システムログデータの読み出し、記憶、および解析を行うこと(140を介して読み出される)
d.問題が見られる場合、対応するノードをリセットまたは再起動すること(コマンドライン138を介してリセットコマンドが送られる)。
e.クラスタレベルソフトウェアによって命令される場合、対応するノードをリセットまたは再起動すること(クラスタ命令は142を介して送られる)
f.ノード状態信号(たとえば、良好、不良、または低下状態を示す)をクラスタに送ること(144を介して送られる)
g.それ自体(スマートカード)のハートビート信号をクラスタに送ること(146を介して送られる)
h.対応するノードが不良になりつつあると判断された場合、ノードからのアプリケーションの移動を要求し、次いでノードをシャットダウンすることにより、またはリセットによって対応するノードを単に素早くシャットダウンすることにより、切り替えを開始すること(コマンドはライン138を介して送られる)
i.クラスタソフトウェアから、対応するノードをテストするコマンドを受け取った場合(またはシャーシコードストリームに基づいてノードが「病気」であると判断される場合等、その他の方法でノードをテストする必要があると判断された場合)、ノードを使用から外し、ノードレベル診断を実行し、結果を報告すること
図2は、本発明の一実施形態により、スマートカード120からハートビート信号146を伝送するループ手順(200)を示すフローチャートである。
手順(200)は単に、周期または時間間隔(204)毎にハートビート信号をスマートカードから送る(202)だけである。
スマートカードのハードビート信号は、そのスマートカードが少なくとも基礎レベルで機能していることを示す。
図3は、本発明の一実施形態により、スマートカード120がノード110からのイーサネット(または他のネットワーク)信号134を処理する手順(300)を示すフローチャートである。
イーサネット(または他のネットワーク)信号134は、ノード110から読み出され(302)、読み出された信号がノードからのハートビート信号を含むか否かが判断される(304)。
ハートビートが見つかった場合、スマートカード120は、シャーシコードストリームを処理する手順(400)に移行することができる。
この手順(400)については図4に関連して以下で説明する。
一方、ハートビートが見つからなかった場合、Node_bad信号(Node_good信号またはNode_degraded信号とは対照的に)をクラスタに送る(306)ことができる。
このNode_bad信号は、ノードのハートビートが非稼働であることを示し、たとえば、図1のリンク144を介して送ることができる。
その後、手順(300)は、ノード110がシャーシコードストリームから良好であり、動作可能状態であるように見えるまでループ(306、308、310)に入る。
ループ内では、シャーシコードストリームが読み出される(308)。
良好/動作可能状態信号が見つからない場合(310)、Node_bad信号が引き続き送られる(306)。
良好/動作可能状態信号がシャーシコードストリーム内で見つかる場合(310)、スマートカード120は戻り、ネットワーク信号を読み出して(302)、ノードのハートビートを探す(304)。
図4は、本発明の一実施形態により、スマートカード120がノード110からのシャーシコードストリームを処理する手順(400)を示すフローチャートである。
シャーシコードストリーム133はノード110から読み出され(402)、コードストリームに基づいてノードの健全性状態が判断される(404)。
コードストリームから、健全性状態が良好であると示されると判断される場合(406)、スマートカード120は、ノード110のエラー/システムログを監視する手順(500)に移ることができる。
この手順(500)については図5に関連して以下で説明する。
コードストリームから、健全性状態が不良である(すなわち、ノードが故障している)と示されると判断される場合(407)、スマートカード120はノード110をリセットする(414)ように構成することができる。
その後、スマートカード120は、シャーシコードストリームからノードが良好であり、動作可能状態であると判断される(418)まで、ノードが非稼働であることをクラスタに報告する(416)ように構成することができる。
その後、スマートカード120は、図3に関連して上で説明したノード110からのネットワーク信号を処理する手順(300)に戻ることができる。
本発明の一実施形態によれば、コードストリームからの健全性状態が良好とも不良(故障)とも示されない場合、健全性状態は、少なくとも或るレベルで低下している。
低下状態がしきい値レベルを上回るか否かが判断される(408)。
しきい値レベルは、フェイルオーバ手順を開始するに値するほど深刻な低下とフェイルオーバに値するほど深刻ではない低下とを区別するように設定することができる。
低下状態がしきい値レベルを上回る(フェイルオーバが必要ない)場合、Node_degraded信号が生成され、クラスタに送られる(410)。
その後、スマートカード120は、図5に関連して以下で説明する、ノード110のエラー/システムログを監視する手順(500)に移ることができる。
一方、低下状態がしきい値レベルを下回る(フェイルオーバが必要である)場合、スマートカード120はクリーンまたは計画フェイルオーバを開始し(412)、ノード110上のクリティカルアプリケーションが、クラスタの1つまたは複数の他のノードに移される。
その後、スマートカード120はノード110をリセットする(414)ことができる。
スマートカード120は、次いで、シャーシコードストリームからノードが良好であり動作可能状態であると判断される(418)まで、ノードが非稼働であることをクラスタに報告する(416)ように構成することができる。
その後、スマートカード120は、図3に関連して上で説明したノード110からのネットワーク信号を処理する手順(300)に戻ることができる。
図5は、本発明の一実施形態により、スマートカード120がノード110のエラー/システムログ112を監視する手順(500)を示すフローチャートである。
エラー/システムログ112はノード110から読み出され(502)、ログ112の内容に基づいてノードの健全性状態が判断される(504)。
ログデータから、健全性状態が良好であると示されると判断される場合(506)、スマートカード120は、クラスタからの入力を処理する手順(600)に移ることができる。
手順(600)については図6に関連して以下で説明する。
ログデータから、健全性状態が不良である(すなわち、ノードが故障している)と示されると判断される場合(507)、スマートカード120はノード110をリセットする(514)ように構成することができる。
スマートカード120は、シャーシコードストリームから、ノードが良好であり動作可能状態であると判断される(518)まで、ノードが非稼働であることをクラスタに報告する(516)ように構成することができる。
その後、スマートカード120は、図3に関連して上で説明したノード110からのネットワーク信号を処理する手順(300)に戻ることができる。
本発明の一実施形態によれば、ログデータからの健全性状態が良好とも不良(故障)とも示されない場合、健全性状態は、少なくとも或るレベルで低下している。
低下状態がしきい値レベルを上回るか否かが判断される(508)。
しきい値レベルは、フェイルオーバ手順を開始するに値するほど深刻な低下とフェイルオーバに値するほど深刻ではない低下とを区別するように設定することができる。
低下状態がしきい値レベルを上回る(フェイルオーバが必要ない)場合、Node_degraded信号が生成され、クラスタに送られる(510)。
その後、スマートカード120は、図6に関連して以下で説明する、クラスタからの入力を処理する手順(600)に移ることができる。
一方、低下状態がしきい値レベルを下回る(フェイルオーバが必要である)場合、スマートカード120はクリーンまたは計画フェイルオーバを開始し(512)、ノード110上のクリティカルアプリケーションが、クラスタの1つまたは複数の他のノードに移される。
その後、スマートカード120はノード110をリセットする(514)ことができる。
スマートカード120は、次いで、シャーシコードストリームからノードが良好であり動作可能状態であると判断される(518)まで、ノードが非稼働であることをクラスタに報告する(516)ように構成することができる。
その後、スマートカード120は、図3に関連して上で説明したノード110からのネットワーク信号を処理する手順(300)に戻ることができる。
図6は、本発明の一実施形態により、スマートカード120がクラスタからのコマンドを処理する手順(600)を示すフローチャートである。
クラスタからのコマンド入力は、スマートカード120によって読み出される(602)。
ノードをリセットするコマンドがクラスタレベルソフトウェアから受け取られる場合(604)、スマートカード120は、ノード110をリセットさせる(606)ことができる。
スマートカード120は、次いで、シャーシコードストリームからノードが良好であり動作可能状態であると判断される(610)まで、ノードが非稼働であることをクラスタに報告する(608)ように構成することができる。
その後、スマートカード120は、図3に関連して上で説明したノード110からのネットワーク信号を処理する手順(300)に戻ることができる。
ノード110をテストするコマンドをクラスタレベルソフトウェアから受け取る場合(606)、スマートカード120は、ノード110をクラスタから除外する(614)ことに取りかかることができる。
このノード除外(614)は、クラスタの別のノードまたは他の複数のノードへのクリティカルアプリケーションのクリーン/計画フェイルオーバを行うことを含むことができる。
次いで、診断テストをノード110に対して行う(616)ことができ、テスト結果がクラスタレベルソフトウェアに報告される(618)。
その後、スマートカード120は、ノード110をリセットさせる(606)ことができる。
スマートカード120は、次いで、シャーシコードストリームからノードが良好であり動作可能状態であると判断される(610)まで、ノードが非稼働であることをクラスタに報告する(608)ように構成することができる。
その後、スマートカード120は、図3に関連して上で説明したノード110からのネットワーク信号を処理する手順(300)に戻ることができる。
図6には、クラスタレベルソフトウェアからのリセットコマンドおよびテストコマンドのスマートカード120による処理を示すが、他のコマンドをクラスタから受け取り、スマートカード120によって処理することも可能である。
図2〜図6には、スマートカード120による処理アルゴリズムの特定の一実施態様を示すが、この実施態様への変更は本発明の精神および範囲内で行うことができる。
たとえば、上で説明した実施態様は、図4に従ってシャーシコードストリームを処理し、次いで図5に従ってログデータを処理する。
同じまたは同様の機能を有する別の実施態様は、ログデータを処理し、次いでシャーシコードストリームを処理する。
図7は、本発明の一実施形態によるクラスタレベル手順(700)を示すフローチャートである。
手順(700)は、クラスタ内の各ノードの各種信号を監視する。
一実施態様では、クラスタレベルソフトウェアは、クラスタ内のノードを巡る(X=1〜nodes_in_cluster)ループ(701)を実行し、各ノードからの各種信号を監視することができる。
一実施形態では、各ノードX毎に、クラスタレベルソフトウェアは、ノードのハートビートを検査し(703)、対応するカードのハートビートを検査し(704)、ノードの状態信号を検査する(705)ことによってノードを監視する(702)。
両方(ノードおよびカード)のハートビートがノードXに関して稼働している場合(710)、そのノードをテストすべきか否かが判断される(712)。
テストすべきであるという判断は、たとえば、そのノードの低下状態信号を受け取っていることにより、または定期的テストの時間間隔に基づいてトリガすることができる。
テストをノードXに対して行うべきである場合、クラスタレベルソフトウェアは、ノードXのスマートカードに、そのノードのテストを開始するコマンドを送る(714)。
次いで、ループ(701)は次のノードに続くことができる。
ノードXに関してノードのハートビートは稼働しているが、カードのハートビートは非稼働である場合(720)、これは、スマートカードが整備中である(722)ことを示す。
いずれの措置も講じる必要はなく、ループ(701)は次のノードに続くことができる。
有利なことに、手順(700)のこの部分は事実上、スマートカードの故障をノードの故障から切り離す。
スマートカードが故障した(または修理中である、または交換中である)場合、クラスタレベルソフトウェアは、ノードのハートビートへの依存に戻り、ノードが依然として動作可能状態であることを示すことができる。
スマートカードがオンラインに戻ると、スマートカードを再び使用して、さらなるノード状態情報を提供することができる。
ノードXに関してカードのハートビートは稼働しているが、ノードのハートビートが非稼働である場合(730)、これは、ノードが非稼働である(732)ことを示す。
しかし、関連するカードは稼働しているため、クラスタ化ソフトウェアは、スマートカードが切り替えタスクを正しく行ったかを確認する(734)必要があるだけである。
次いで、ループ(701)は次のノードに続くことができる。
最後に、両方(ノードおよびカード)のハートビートがノードXに関して非稼働である場合(740)、これは、ノードが非稼働である(742)ことを示す。
この場合、関連するカードも非稼働である。
したがって、クラスタ化ソフトウェアは、非稼働ノードに対してクラスタレベル切り替えシーケンスを開始する(434)。
次いで、ループ(701)は次のノードに続くことができる。
上記の説明では、本発明の実施形態の完全な理解を提供するために多くの特定の詳細が挙げられた。
しかし、本発明の示した実施形態の上記説明は、網羅的、すなわち本発明を開示した厳密な形態に限定する意図はない。
当業者は、特定の詳細の1つまたは複数なしで、または他の方法、構成要素等を使用して本発明を実施することが可能なことを認識するであろう。
場合によっては、既知の構造または動作については、本発明の態様を曖昧にしないように詳細には図示または説明していない。
本発明の特定の実施形態および例について、例示を目的として本明細書において説明したが、当業者により認識されるように、等価の各種変更が本発明の範囲内で可能である。
このような変更は、上記の詳細な説明に鑑みて、本発明に対して行うことが可能である。
添付の特許請求の範囲において使用される用語は、本発明を本明細書および特許請求の範囲において開示する特定の実施形態に限定するものとして解釈されるべきではなく、本発明の範囲は、特許請求の範囲の解釈の確立された教義に従って解釈されるべき添付の特許請求の範囲によって決定されるべきである。
本発明の一実施形態による高可用性クラスタのノードのスマートカードの概略図である。 本発明の一実施形態により、スマートカードからハートビート信号を伝送するループ手順を示すフローチャートである。 本発明の一実施形態により、スマートカードがノードからのイーサネット信号を処理する手順を示すフローチャートである。 本発明の一実施形態により、スマートカードがノードからのシャーシコードストリームを処理する手順を示すフローチャートである。 本発明の一実施形態により、スマートカードがノードのエラー/システムログを監視する手順を示すフローチャートである。 本発明の一実施形態により、スマートカードがクラスタからのコマンドを処理する手順を示すフローチャートである。 本発明の一実施形態によるクラスタレベルアルゴリズムを示すフローチャートである。
符号の説明
110・・・ノード,
112・・・エラー/システムログ,
114・・・イーサネットカード,
120・・・高可用性スマートカード,
121・・・電源,
124・・・コードストリームI/O,
126・・・イーサネットI/O,

Claims (10)

  1. 高可用性(HA)クラスタシステムであって、
    前記クラスタの複数のコンピューティングノードと、
    前記クラスタを管理するように構成されるクラスタ化ソフトウェアと、
    前記ノードのそれぞれに通信可能に接続される、マイクロプロセッサベースのシステムを備えるスマートカードと
    を備えるシステム。
  2. 前記ノードはそれぞれ、前記ノードが稼働中であるときには、第1のハートビート種別信号を伝送するように構成され、
    前記スマートカードはそれぞれ、前記スマートカードが稼働中であるときには第2のハートビート種別信号を伝送するように構成される
    請求項1記載のシステム。
  3. 前記スマートカードは、対応するノードからのネットワーク信号を読み出して、前記第1のハートビート種別信号の伝送を検査するようにさらに構成される
    請求項2記載のシステム。
  4. 前記スマートカードは、前記第1のハートビート種別信号が前記対応するノードから伝送されていない場合、前記ノードが非稼働であるという信号を前記クラスタ化ソフトウェアに送るようにさらに構成される
    請求項3記載のシステム。
  5. 前記スマートカードは、対応するノードからシャーシコードを読み出して、そのノードの健全性状態を判断するようにさらに構成される
    請求項1記載のシステム。
  6. 前記スマートカードは、前記健全性状態により、前記対応するノードが非稼動であることが示される場合、そのノードのリセットを開始するようにさらに構成される
    請求項5記載のシステム。
  7. 前記スマートカードは、前記健全性状態により、前記対応するノードがしきい値レベル未満に低下していることが示される場合、そのノードの計画フェイルオーバを開始するようにさらに構成される
    請求項5記載のシステム。
  8. 前記スマートカードは、対応するノードからシステムログを読み出して、そのノードの健全性状態を判断するようにさらに構成される
    請求項1記載のシステム。
  9. 前記スマートカードは、前記健全性状態により、前記対応するノードが非稼働であることが示される場合、そのノードのリセットを開始するようにさらに構成される
    請求項8記載のシステム。
  10. 前記スマートカードは、前記健全性状態により、前記対応するノードがしきい値レベル未満に低下していることが示される場合、そのノードの計画フェイルオーバを開始するようにさらに構成される
    請求項8記載のシステム。
JP2005244229A 2004-09-08 2005-08-25 高可用性クラスタ化のためのスマートカード Withdrawn JP2006079603A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/936,256 US7428655B2 (en) 2004-09-08 2004-09-08 Smart card for high-availability clustering

Publications (1)

Publication Number Publication Date
JP2006079603A true JP2006079603A (ja) 2006-03-23

Family

ID=34984340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005244229A Withdrawn JP2006079603A (ja) 2004-09-08 2005-08-25 高可用性クラスタ化のためのスマートカード

Country Status (3)

Country Link
US (1) US7428655B2 (ja)
JP (1) JP2006079603A (ja)
GB (1) GB2418040A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014532210A (ja) * 2011-09-09 2014-12-04 マイクロソフト コーポレーション Smb2スケールアウト
US9462039B2 (en) 2011-06-30 2016-10-04 Microsoft Technology Licensing, Llc Transparent failover
US10284626B2 (en) 2011-06-29 2019-05-07 Microsoft Technology Licensing, Llc Transporting operations of arbitrary size over remote direct memory access

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961242B2 (en) * 2003-07-31 2005-11-01 Hewlett-Packard Development Company, L.P. System fan management based on system loading options for a system having replaceable electronics modules
US8190780B2 (en) * 2003-12-30 2012-05-29 Sap Ag Cluster architecture having a star topology with centralized services
US7216257B2 (en) * 2004-01-21 2007-05-08 Sap Ag Remote debugging
US7990847B1 (en) * 2005-04-15 2011-08-02 Cisco Technology, Inc. Method and system for managing servers in a server cluster
US8369212B2 (en) * 2006-08-29 2013-02-05 Hewlett-Packard Development Company, L.P. Network path validation based on user-specified criteria
US8887158B2 (en) * 2008-03-07 2014-11-11 Sap Se Dynamic cluster expansion through virtualization-based live cloning
JP5561622B2 (ja) * 2011-09-27 2014-07-30 日本電気株式会社 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
KR20130074304A (ko) * 2011-12-26 2013-07-04 삼성전자주식회사 케이블 카드 제어가 가능한 방송 수신 장치 및 방법
US8949308B2 (en) * 2012-01-23 2015-02-03 Microsoft Corporation Building large scale infrastructure using hybrid clusters
CN106685753B (zh) * 2016-12-02 2020-08-11 曙光信息产业(北京)有限公司 一种模拟服务器集群启动的自动化测试方法及装置
US11477117B1 (en) * 2020-11-23 2022-10-18 Juniper Networks, Inc. High-availability switchover based on traffic metrics

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000516745A (ja) 1997-06-23 2000-12-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 機能停止しているマスタcpuのスレーブdspによる再ブート
US6728781B1 (en) * 1998-05-12 2004-04-27 Cornell Research Foundation, Inc. Heartbeat failure detector method and apparatus
US6389551B1 (en) * 1998-12-17 2002-05-14 Steeleye Technology, Inc. Method of preventing false or unnecessary failovers in a high availability cluster by using a quorum service
US6654801B2 (en) * 1999-01-04 2003-11-25 Cisco Technology, Inc. Remote system administration and seamless service integration of a data communication network management system
US6697973B1 (en) * 1999-12-08 2004-02-24 International Business Machines Corporation High availability processor based systems
US6609213B1 (en) * 2000-08-10 2003-08-19 Dell Products, L.P. Cluster-based system and method of recovery from server failures
US20030041046A1 (en) * 2001-07-28 2003-02-27 Allison Michael S. Method for extracting, filtering and separating events from system firmware and software
FI122292B (fi) * 2002-10-24 2011-11-15 Tellabs Oy Menetelmä, järjestelmä ja verkko-olio puolenvaihdon suorittamiseksi
US7475134B2 (en) * 2003-10-14 2009-01-06 International Business Machines Corporation Remote activity monitoring
US7228462B2 (en) 2004-01-23 2007-06-05 Hewlett-Packard Development Company, L.P. Cluster node status detection and communication

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10284626B2 (en) 2011-06-29 2019-05-07 Microsoft Technology Licensing, Llc Transporting operations of arbitrary size over remote direct memory access
US9462039B2 (en) 2011-06-30 2016-10-04 Microsoft Technology Licensing, Llc Transparent failover
JP2014532210A (ja) * 2011-09-09 2014-12-04 マイクロソフト コーポレーション Smb2スケールアウト
US10630781B2 (en) 2011-09-09 2020-04-21 Microsoft Technology Licensing, Llc SMB2 scaleout

Also Published As

Publication number Publication date
US7428655B2 (en) 2008-09-23
GB0516363D0 (en) 2005-09-14
GB2418040A (en) 2006-03-15
US20060053330A1 (en) 2006-03-09

Similar Documents

Publication Publication Date Title
JP2006079603A (ja) 高可用性クラスタ化のためのスマートカード
US6928589B1 (en) Node management in high-availability cluster
US6934880B2 (en) Functional fail-over apparatus and method of operation thereof
KR100420266B1 (ko) 클러스터 컴퓨터 시스템의 소프트웨어 가용도 개선 방법및 그 장치
US7801984B2 (en) Diagnostic/remote monitoring by email
US6594775B1 (en) Fault handling monitor transparently using multiple technologies for fault handling in a multiple hierarchal/peer domain file server with domain centered, cross domain cooperative fault handling mechanisms
US6477663B1 (en) Method and apparatus for providing process pair protection for complex applications
US6865157B1 (en) Fault tolerant shared system resource with communications passthrough providing high availability communications
JP2006079602A (ja) プロアクティブメンテナンスを有する高可用性クラスタ
JP2005209190A (ja) 高可用性クラスタノードの複数状態ステータスの報告
US8347142B2 (en) Non-disruptive I/O adapter diagnostic testing
US20150019671A1 (en) Information processing system, trouble detecting method, and information processing apparatus
US8099634B2 (en) Autonomic component service state management for a multiple function component
US20100199131A1 (en) Storage system and a control method for a storage system
US8051335B1 (en) Recovery from transitory storage area network component failures
CN107071189B (zh) 一种通讯设备物理接口的连接方法
GB2418041A (en) Computer cluster interface that sends node status signals between the nodes such that a node can be removed without interrupting the connections
US7684654B2 (en) System and method for fault detection and recovery in a medical imaging system
US10095590B2 (en) Controlling the operating state of a fault-tolerant computer system
KR20140140719A (ko) 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법
KR100832543B1 (ko) 계층적 다중 백업 구조를 갖는 고가용성 클러스터 시스템및 이를 이용한 고가용성 구현 방법
CN110321261B (zh) 一种监控系统及监控方法
Lundin et al. Significant advances in Cray system architecture for diagnostics, availability, resiliency and health
JP2007272328A (ja) コンピュータ・システム
JP2000020336A (ja) 二重化通信システム

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080328