JP2019164405A - 管理ノードおよびノード制御方法 - Google Patents

管理ノードおよびノード制御方法 Download PDF

Info

Publication number
JP2019164405A
JP2019164405A JP2018050473A JP2018050473A JP2019164405A JP 2019164405 A JP2019164405 A JP 2019164405A JP 2018050473 A JP2018050473 A JP 2018050473A JP 2018050473 A JP2018050473 A JP 2018050473A JP 2019164405 A JP2019164405 A JP 2019164405A
Authority
JP
Japan
Prior art keywords
node
information
failure
service
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018050473A
Other languages
English (en)
Other versions
JP7057178B2 (ja
Inventor
保雄 宮部
Yasuo Miyabe
保雄 宮部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2018050473A priority Critical patent/JP7057178B2/ja
Publication of JP2019164405A publication Critical patent/JP2019164405A/ja
Application granted granted Critical
Publication of JP7057178B2 publication Critical patent/JP7057178B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

【課題】クラスタシステムにおける障害発生時の処理の遅延を抑制することができる管理ノードを提供する。【解決手段】管理ノードを、構成情報記憶手段1と、実行可否判断手段2と、時間情報取得手段3と、ノード選択手段4と、制御手段5を備える構成とする。構成情報記憶手段1は、各ノードのハードウエアの情報を記憶する。実行可否判断手段2は、ノードで障害が発生したとき、障害要因のハードウエアが縮退されたノードで処理の実行が可能か判断する。時間情報取得手段3は、ノードの再起動に要する時間を取得する。ノード選択手段4は、障害箇所が縮退されたノードで処理の実行が可能であるときに、ノードを再起動し、処理を開始するまでに要する時間と、他のノードでの処理を開始するまでに要する時間とを比較する。ノード選択手段4は、要する時間が短い方を、実行するノードとして選択する。制御手段5は、実行するノードに処理の実行を指示する。【選択図】 図1

Description

本発明は、クラスタシステムに関するものであり、特に、システムにおける処理の停止時間を抑制する技術に関すものである。
複数のノードに分散して処理を実行するクラスタシステムが広く用いられている。クラスタシステムでは、各ノードの死活監視を行い、正常に動作していないノードが生じた場合に、そのノードで実施していた処理を他のノードで実行することで、システムにおける処理停止時間の抑制が行われる。そのため、処理を実行しているノードに障害が発生した際に、実行されていた処理の扱いを迅速に判断し、判断結果に基づいて処理を進める技術があることが望ましく、関連する技術の開発が行われている。そのような、クラスタシステムにおいてノードに障害が発生したときの対応技術としては、例えば、特許文献1のような技術が開示されている。
特許文献1は、クラスタシステムにおいてノードの死活監視を行う技術に関するものである。特許文献1のクラスタシステムは、ノードのオペレーティングシステム上で動作するノード管理部に加え、オペレーティングシステムとは独立した第2のノード管理部を備えている。特許文献1の第2のノード管理部は、他のノードの動作を監視し、オペレーティングシステム上で動作するノード管理部では検出できない異常を検出する。特許文献1は、そのような構成とすることで、障害の発生を早期に検出して処理を他のノードに切り替えることでクラスタシステムの信頼性を向上することができるとしている。
特開2013−186781号公報
しかしながら、特許文献1の技術は次のような点で十分ではない。特許文献1では障害発生したとき、処理を実行するノードを他のノードに切り替えている。しかし、ノードの構成によっては、新たに立ち上げるときには立ち上げに時間を要する場合があり、ノードの切り替えが長時間化する恐れがある。例えば、インメモリデータベースでは、システムの起動時にストレージ装置に保存されているデータがメモリ上に展開させる。そのため、起動時に時間を要し、他のノードへ切り替えても処理の短縮化につながらない恐れがある。
本発明は、上記の課題を解決するため、クラスタシステムにおける障害発生時の処理の遅延を抑制することができる管理ノードを提供することを目的としている。
上記の課題を解決するため、本発明の管理ノードは、構成情報記憶手段と、実行可否判断手段と、時間情報取得手段と、ノード選択手段と、制御手段を備えている。構成情報記憶手段は、ネットワークを介して接続され、クラスタシステムを構成している各ノードが有しているハードウエアの情報を記憶する。実行可否判断手段は、いずれかのノードで障害が発生したとき、障害の要因となったハードウエアが縮退された状態のノードで処理の実行が可能かを判断する。時間情報取得手段は、障害が発生したノードの再起動に要する時間の情報を取得する。ノード選択手段は、障害箇所が縮退されたノードで処理の実行が可能であるときに、障害が発生したノードを再起動し処理を開始するまでに要する時間と、他のノードでの処理を開始するまでに要する時間とを比較する。また、ノード選択手段は、比較したうち処理の開始までに要する時間が短い方を、処理を実行するノードとして選択する。制御手段は、ノード選択手段が処理を実行するノードとして選択したノードに処理の実行を指示する。
本発明のノード制御方法は、ネットワークを介して接続され、クラスタシステムを構成している各ノードが有しているハードウエアの情報を記憶する。本発明のノード制御方法は、いずれかのノードで障害が発生したとき、障害の要因となったハードウエアが縮退された状態のノードで処理の実行が可能かを判断する。本発明のノード制御方法は、障害が発生したノードの再起動に要する時間を取得する。本発明のノード制御方法は、障害箇所が縮退されたノードで処理の実行が可能であるときに、障害が発生したノードを再起動し、処理を開始するまでに要する時間と、他のノードでの処理を開始するまでに要する時間とを比較する。本発明のノード制御方法は、比較したうち処理の開始までに要する時間が短い方を、処理を実行するノードとして選択する。本発明のノード制御方法は、処理を実行するノードとして選択したノードに処理の実行を指示する。
本発明によると、クラスタシステムにおける障害発生時の処理の遅延を抑制することができる。
本発明の第1の実施形態の構成の概要を示す図である。 本発明の第2の実施形態の構成の概要を示す図である。 本発明の第2の実施形態のノードの構成を示す図である。 本発明の第2の実施形態の管理ノードの構成を示す図である。 本発明の第2の実施形態のノード構成テーブルの構成の例を示す図である。 本発明の第2の実施形態のサービス情報テーブルの構成の例を示す図である。 本発明の第2の実施形態のサービス割り当てテーブルの構成の例を示す図である。 本発明の第2の実施形態のクラスタシステムの動作フローの概要を示す図である。 本発明の第3の実施形態の構成の概要を示す図である。 本発明の第3の実施形態のノードの構成を示す図である。 本発明の第3の実施形態のノードの一部の構成を詳細に示す図である。
(第1の実施形態)
本発明の第1の実施形態について図を参照して詳細に説明する。図1は、本実施形態の管理ノードの構成の概要を示したものである。本実施形態の管理ノードは、構成情報記憶手段1と、実行可否判断手段2と、時間情報取得手段3と、ノード選択手段4と、制御手段5を備えている。
構成情報記憶手段1は、ネットワークを介して接続され、クラスタシステムを構成している各ノードが有しているハードウエアの情報を記憶する。実行可否判断手段2は、いずれかのノードで障害が発生したとき、障害の要因となったハードウエアが縮退された状態のノードで処理の実行が可能かを判断する。時間情報取得手段3は、障害が発生したノードの再起動に要する時間の情報を取得する。ノード選択手段4は、障害箇所が縮退されたノードで処理の実行が可能であるときに、障害が発生したノードを再起動し、処理を開始するまでに要する時間と、他のノードでの処理を開始するまでに要する時間とを比較する。また、ノード選択手段4は、比較したうち処理の開始までに要する時間が短い方を、処理を実行するノードとして選択する。制御手段5は、ノード選択手段4が処理を実行するノードとして選択したノードに処理の実行を指示する。
本実施形態の管理ノードは、構成情報記憶手段1においてクラスタシステムを構成している各ノードがデータ処理等の処理を行うために有しているハードウエアの情報を、ノードごとに記憶している。また、障害が発生したときに、実行可否判断手段2において、障害の要因のハードウエアを縮退しても処理が可能かを判断し、可能であった場合に、ノード選択手段4において処理を実行するノードを選択している。ノード選択手段4において、処理を実行するノードを選択する際に、再起動に要する時間と、他のノードでの処理を起動するまでの時間を比較して、処理を実行するノードを選択しているので、処理の再開に要する時間を短くすることができる。その結果、本実施形態のクラスタシステムは、障害発生時の処理の遅延を抑制することができる。
(第2の実施形態)
本発明の第2の実施形態について図を参照して詳細に説明する。図2は、本実施形態のクラスタシステムの構成の概要を示したものである。本実施形態のクラスタシステムは、複数のノード100と、管理ノード200を備えている。管理ノード200は、各ノード100とネットワーク300を介して接続されている。
本実施形態のクラスタシステムは、データ処理等の各処理を実行する際に、管理ノード200が各ノード100に処理を分散して実行する情報処理システムである。以下の説明では、各ノードで分散して行われる処理をサービスとも呼ぶ。
ノード100の構成について説明する。図3は、本実施形態のノード100の構成を示した図である。ノード100は、サービス部110と、クラスタウエア部120と、OS(Operating System)部130と、CPU(Central Processing Unit)140と、メモリ141と、I/O(Input / Output)カード142と、BMC(Baseboard Management Controller)150を備えている。
サービス部110は、サービスの実行機能、すなわち、アプリケーションプログラムに基づいた処理を実行し、処理結果を出力する機能に相当する。本実施形態では、各ノード100において処理を実行し、クラスタシステムを利用するユーザに対して処理結果を提供する機能を、サービス(M)として示す。Mは、正の整数である。
クラスタウエア部120は、サービス起動終了部121をさらに備えている。サービス起動終了部121は、管理ノード200のクラスタ制御部211の要求に基づいて、サービスの起動、すわわち、OS部130上でのサービス部110による処理を開始させる。サービス起動終了部121は、オペレーティングシステム上で処理内容に応じたアプリケーションプログラムの実行を開始することでサービスの起動を行う。また、サービス起動終了部121は、管理ノード200のクラスタ制御部211の要求に基づいて、サービスの終了、すなわち、サービス部110の処理を終了する。サービス起動終了部121は、オペレーティングシステム上での処理内容に応じたアプリケーションプログラムの実行を終了することでサービスを終了する。
OS部130は、CPU140上で動作し、サービスを実行するアプリケーションプログラムの動作の基盤となるオペレーティングシステムの機能に相当する。
CPU140は、単数または複数のプロセッサによって構成され、OS部130に相当するオペレーティングシステムおよびサービス部110に相当するアプリケーションプログラムを実行する。
メモリ141は、DIMM(Dual In - line Memory Module)やNVDIMM(Non - Volatile Dual In - line Memory Module)のような半導体メモリによって構成されている。メモリ141は、OS部130やサービス部110が実行するプログラムのコードおよび処理中のデータの保存等を行う。
I/Oカード142は、他のノード100および管理ノード200との間でデータの送受信を行う通信インタフェースである。
BMC150は、ハードウエア障害処理部151と、ノード起動終了制御部152と、ノード状態送信部153と、内部情報記憶部154と、CPU155をさらに備えている。
ハードウエア障害処理部151は、CPU140、メモリ141およびI/Oカード143等のノード10において各処理を実行する際に用いられるハードウエアコンポーネントの障害発生の有無を監視する。ハードウエア障害処理部151は、障害が発生したハードウエアコンポーネントのレジスタのデータ等の解析を基に障害の発生要因となっている故障箇所を特定する。ハードウエア障害処理部151は、障害の発生を検出したハードウエアコンポーネントの情報を内部情報記憶部154の構成情報記憶部158に保存する。
ノード起動終了制御部152は、CPU140、メモリ141およびI/Oカード143等のハードウエアコンポーネントの電源を制御し、OS部103のオペレーティングシステムの起動と終了を行う。ノード起動終了制御部152は、OS部103のオペレーティングシステムの起動を、構成情報記憶部158の構成情報を参照して行う。構成情報は、ノード100に搭載されているハードウエアコンポーネントの種類、数および各ハードウエアコンポーネントの状態の情報によって構成されている。ノード起動終了制御部152は、構成情報記憶部158において障害が発生した情報が保存されているハードウエアコンポーネントについては縮退させて起動しない。ノード起動終了制御部152は、障害が発生したハードウエアコンポーネントを縮退、すなわち、動作を停止させた状態でノード100を起動する。
ノード状態送信部153は、構成情報などの情報を管理ノード200に送信する。
内部情報記憶部154は、ノード起動開始時刻記憶部156と、サービス起動時刻記憶部157と、構成情報記憶部158をさらに備えている。
ノード起動開始時刻記憶部156は、ノード100の起動が開始された時刻を、ノード起動開始時刻として保存している。ノード起動開始時刻は、ノード起動終了制御部152によって更新される。
サービス起動時刻記憶部157は、サービス部110において起動されたサービスを識別する情報と各サービスの起動が完了した時刻が関連連付けられた情報を、サービス起動時刻として保存している。サービス起動時刻は、サービス起動終了部121によって更新される。
構成情報記憶部158は、構成情報、すなわち、ノード100においてサービスの実行に用いられるハードウエアの構成の情報を保存している。
管理ノード200の構成について説明する。図4は、本実施形態の管理ノード200の構成を示したものである。管理ノード200は、クラスタウエア部210を備えている。また、クラスタウエア部210は、クラスタ制御部211と、ノード状態受信部212と、ノード情報記憶部213を備えている。
クラスタ制御部211は、各サービスをどのノード100で実行するかを判断し、サービスを実行するノード100にサービスの起動および終了を要求する機能を有する。クラスタ制御部211は、ノード構成テーブル、サービス情報テーブルおよびサービス割当テーブルの情報を基に、サービスをどのノード100で実行するかを判断する。また、クラスタ制御部211は、サービスを実行するノードとして選択したノード100にサービスの起動および終了の指示を送る。また、本実施形態のクラスタ制御部211の機能は、第1の実施形態の実行可否判断手段2、ノード選択手段4および制御手段5に相当する。
ノード状態受信部212は、各ノード100から構成情報等を受信する。ノード状態受信部212は、各ノード100から受信した情報を基に、ノード情報記憶部213のノード構成テーブル、サービス割当テーブルの情報を更新する。また、本実施形態のノード状態受信部212の機能は、第1の実施形態の時間情報取得手段3に相当する。
また、クラスタ制御部211の各処理およびノード状態受信部212が受信した情報の処理は、CPU上でコンピュータプログラムを実行することで行われる。クラスタ制御部211およびノード状態受信部212における各処理を行うプログラムは、不揮発性の半導体記憶装置やハードディスクドライブに記憶されている。
ノード情報記憶部213は、ノード構成テーブル記憶部214と、サービス情報テーブル記憶部215と、サービス割当テーブル記憶部216をさらに備えている。
ノード構成テーブル記憶部214は、ノード構成テーブルのデータを保存している。図5は、本実施形態のノード構成テーブルの構成の例を示す図である。図5のノード構成テーブルは、ノード100を構成するCPUやメモリなどのハードウエアコンポーネントごと個数、周波数または容量値などのパラメータと、各パラメータに対応する値の情報によって構成されている。ノード構成テーブルは、図5に示すハードウエアコンポーネントおよびパラメータ以外を含むものであってもよい。また、本実施形態のノード構成テーブル記憶部214の機能は、第1の実施形態の構成情報記憶手段1に相当する。
サービス情報テーブル記憶部215は、サービス情報テーブルのデータを保存している。図6は、本実施形態のサービス情報テーブルの構成の例を示す図である。サービス情報テーブルは、サービスの実行に必要なハードウエアコンポーネントのパラメータと対応する値、ノード継続利用条件、オペレーティングシステムの再起動を行って同じノードで再開するために要する時間の情報によって構成されている。ノード継続利用条件とは、障害が発生した際に、他のノードに切り替えずに同じノード100で処理を継続する際に満たす必要がある条件のことをいう。サービス情報テーブルのサービス(M)の情報は、作業者等によってあらかじめ設定されている。また、サービス情報テーブルは、図6に示すパラメータ以外のパラメータを含むものであってもよい。
サービス割当テーブル記憶部216は、サービス割当テーブルのデータを保存している。図7は、本実施形態のサービス割当テーブルの構成の例を示したものである。図7に示すサービス割当テーブルは、各ノード100に割り当てられているサービスの情報と、各サービスが現在のノード100上で再起動する際に要する時間の情報によって構成されている。サービス割当テーブルは、ノード状態受信部212によって更新される。また、サービス割当テーブルは、図7に示すパラメータ以外のパラメータを含むものであってもよい。
ネットワーク300は、各ノード100と管理ノード200を接続する通信ネットワークである。ネットワーク300は、専用回線であってもよく、また、他の用途の通信ネットワークとの共用回線であってもよい。また、ネットワーク300は、専用回線と共用回線との組み合わせによって構成されていてもよい。
本実施形態のクラスタシステムの動作について説明する。始めに、作業者等によって管理ノード200にクラスタシステムで動作させるサービスの情報が入力され、サービス情報テーブル記憶部215のサービス情報テーブルが生成される。以下では、図6のようなサービス情報テーブルが登録されているとして説明を行う。
クラスタシステムが動作を開始すると、各ノード100のノード状態送信部153は、構成情報記憶部158に保存されている構成情報を管理ノード200に送信する。ノード状態送信部153は、OS部130におけるオペレーティングシステムの起動前に構成情報を管理ノード200に送信する。
管理ノード200は、ノード状態受信部212において各ノード100から構成情報を受信する。構成情報を受信すると、ノード状態受信部212は、受信した構成情報を基に、ノード構成テーブル記憶部214のノード構成テーブルの情報を設定する。ここでは、ノード管理テーブルは、図5に示すように設定されているとする。
ノード構成テーブルの情報が設定されると、管理ノード200のクラスタ制御部211は、サービス情報テーブルおよびサービス割当テーブルを参照し、ノード100への割り当てが行われていないサービスを検出する。
ノード100への割り当てが行われていないサービスが存在するとき、クラスタ制御部211は、サービス情報テーブルおよびノード構成テーブルを参照し、割り当てが行われていないサービスを動作させる構成を満たすノード100を検索する。サービスの動作に必要な構成を有するノード100の情報を抽出すると、クラスタ制御部211は、抽出したノード100のいずれかにサービスを割り当て、サービス割当テーブルの情報を更新する。
サービス割当テーブルの情報を更新すると、クラスタ制御部211は、サービスの割り当てを行ったノード100にサービスの内容を示す情報とサービスの起動を要求する情報を送る。
サービスの起動を要求する情報を受け取ると、サービス起動終了部121は、受け取った情報を保持する。サービスの起動が要求されたノード100は、再起動が行われる。この再起動時には、処理を行うノード100の切り替えは行われないように設定されている。再起動は、作業者によって行われてもよく、管理ノード200の制御によって行われてもよい。また、再起動は、サービスの起動が要求されたノード100によって自律的に行われてもよい。
サービスの起動が要求された状態で再起動が行われると、ノード状態送信部153は、自ノードの再起動と、サービスの起動に必要な時間を算出する。ノード状態送信部153は、ノード起動開始時刻とサービス起動時刻を基に、自ノードの再起動と、サービスの起動に必要な時間を算出する。ノードの再起動と、サービスの起動に必要な時間を算出すると、ノード状態送信部153は、算出した情報を管理ノード200に送る。
管理ノード200のノード状態受信部212は、ノードの再起動と、サービスの起動に必要な時間の情報を受け取ると、受け取った情報を基に、サービス割当テーブルの再起動時間の情報を更新する。再起動したノード100のサービス部110では、サービスが実行される。
次に、サービスの実行中のノード100に障害が生じた場合の例について説明する。図8は、本実施形態のクラスタシステムにおいて障害が発生した際の動作フローの概要を示したものである。
ノード100がサービスの実行等の動作を行っている際に、ハードウエア障害処理部151は、自ノードの障害の有無を監視する。ハードウエア障害処理部151は、障害を検出するとハードウエアコンポーネントのレジスタの値やログなどを基に、障害を発生させたハードウエアコンポーネントを特定する。
障害を発生させたハードウエアコンポーネントを特定すると、ハードウエア障害処理部151は、特定したハードウエアコンポーネントが故障状態であることを示す情報を構成情報記憶部158の構成情報に設定する。
故障を示す構成情報が設定されると、ノード状態送信部153は、更新された構成情報のデータを管理ノード200に送る。
更新された構成情報のデータを受け取ると、管理ノード200のノード状態受信部212は、受け取った構成情報を基にノード構成テーブル記憶部214のノード構成テーブルのデータを更新する(ステップS11)。
構成情報を送信すると、ノード100は、故障として設定されたハードウエアコンポーネントを縮退させた状態で起動し、OS部130においてオペレーティングシステムの動作を開始させる。OS部130のオペレーティングシステムを起動すると、ノード100は、管理ノード200から要求を受けるまで待機する。
ノード100の再起動が行われている際に、管理ノード200のクラスタ制御部211は、障害が発生したノード100で実行していたサービスの処理方法を判断する。クラスタ制御部211は、ノード構成テーブル、サービス情報テーブルおよびサービス割当テーブルを基に、障害が発生したノード100で実行していたサービスをOS部130の再起動後に元のノード100で実行するか、別のノード100で実行するかを判断する。
クラスタ制御部211は、サービス情報テーブルのサービスの動作に必要なハードウエアコンポーネントの構成の情報と、ノード構成テーブルに示されている縮退後のノード100の情報を比較し、再起動後でもサービスの実行に必要な構成を備えているかを確認する。
縮退後もサービスの実行に必要な構成を満たしているとき(ステップS12でYesZ)、クラスタ制御部211は、サービス情報テーブルを参照しノード100がサービスのノード継続利用条件を満たすかを確認する。ノード継続利用条件を満たすとき(ステップS13でYes)、クラスタ制御部211は、同じノード100でのサービスの再起動に要する時間と他のノード100への切り替えに要する時間とを比較する。
同じノードでの再起動時間のほうが短いとき(ステップS14でYes)、クラスタ制御部211は、同じノード100、すなわち、障害が発生したノード100にサービスの起動を要求する。すなわち、他のノード100で起動するよりも、障害の発生したノード100を再起動した方が早く処理を開始できるとき、クラスタ制御部211は、障害が発生したノード100を再起動して処理を実行する(ステップS15)。サービスの再起動を要求されたノード100は、故障箇所を縮退させた状態で再起動し、要求されたサービスを実行する。
縮退後のノードが必要な構成を満たしていないとき(ステップS12でNo)、クラスタ制御部211は、障害が発生した元のノード100には起動の指示を出さずに、他のノード100にサービスの起動を要求する。すなわち、クラスタ制御部211は、障害が発生したノード100を再起動するのではなく、処理を実行するために必要な構成を有する他のノード100においてサービスを起動し、サービスの処理を実行する(ステップS16)。サービスの起動を要求されたノード100は、サービス部を起動し、要求されたサービスを実行する。
ノード継続利用条件を満たしていないとき(ステップS13でNo)、クラスタ制御部211は、障害が発生した元のノード100には起動の指示を出さずに、他のノード100にサービスの起動を要求し、サービスの処理を実行する(ステップS16)。サービスの起動を要求されたノード100は、要求されたサービスを実行する。
再起動に要する時間が切り替え時間よりも長いとき(ステップS14でNo)、クラスタ制御部211は、障害が発生した元のノード100には起動の指示を出さずに、他のノード100にサービスの起動を要求し、サービスの処理を実行する(ステップS16)。サービスの起動を要求されたノード100は、要求されたサービスを実行する。
本実施形態のクラスタシステムのノード100は、障害が発生したときにOS部130を動作させるCPU140とは別に備えられているCPU155上で動作する各部位が管理ノード200に構成情報等の送信を行っている。また、CPU155上で動作する各部位が管理ノード200の制御に基づいて、再起動による処理の継続等に関する動作を行っている。そのように障害に対応することで、障害が発生したノード100を再起動する場合にオペレーティングシステムの起動を待たずに障害への対応を行うことができるので、障害の発生への対応に要する時間を抑制することができる。
本実施形態のクラスタシステムの管理ノード200は、内部情報記憶部154おいてクラスタシステムを構成している各ノード100がデータ処理等の処理を行うために有しているハードウエアの情報を、ノード100ごとの情報として記憶している。また、障害が発生したときに、クラスタ制御部211において、障害の要因のハードウエアを縮退しても処理が可能かを判断し、可能であって場合に、処理を実行するノードを選択している。クラスタ制御部211は、処理を実行するノード100を選択する際に、再起動に要する時間と、他のノードでの処理を起動するまでに要する時間を比較して、処理を実行するノード100を選択しているので、処理の再開に要する時間を抑制することができる。その結果、本実施形態のクラスタシステムは、障害発生時の処理の遅延を抑制することができる。
(第3の実施形態)
本発明の第3の実施形態について図を参照して詳細に説明する。図9は、本実施形態のクラスタシステムの構成の概要を示したものである。本実施形態のクラスタシステムは、ネットワーク301を介して互いに接続された複数のノード400を備えている。第2の実施形態では、障害が発生した際に管理ノードがサービスを継続するノードを決定していたが、本実施形態のクラスタシステムは、システムを構成するノードのいずれかがサービスを継続するノードを決定することを特徴とする。
ノード100の構成について説明する。図10は、本実施形態のノード400の構成を示したものである。
ノード400は、サービス部110と、クラスタウエア部410と、OS部130と、CPU140と、メモリ141と、I/Oカード142と、BMC420を備えている。本実施形態のサービス部110、クラスタウエア部410、OS部130、CPU140、メモリ141およびI/Oカード142の構成と機能は、第2の実施形態の同名称の部位と同様である。
クラスタウエア部410の構成について説明する。図11は、本実施形態のクラスタウエア部410の構成について示したものである。本実施形態のクラスタウエア部410は、サービス起動終了部121と、クラスタ制御部122と、ノード状態送受信部411と、ノード状態入力部412と、内部情報記憶部124を備えている。また、内部情報記憶部124は、ノード構成テーブル記憶部125と、サービス情報テーブル記憶部126と、サービス割当テーブル記憶部127をさらに備えている。本実施形態のサービス起動終了部121、クラスタ制御部122、内部情報記憶部124ノード構成テーブル記憶部125、サービス情報テーブル記憶部126およびサービス割当テーブル記憶部127の構成と機能は、第2の実施形態と同様である。
ノード状態送受信部411は、内部情報に内部情報記憶部154に保存されている各データを他のノード400と共有するためのデータの送受信を行う。
ノード状態入力部412は、自ノードの情報をBMC420から受け取る。ノード状態入力部412の機能は、第2の実施形態の管理ノード200のノード状態受信部212を同様である。第2の実施形態の管理ノード200のノード状態受信部212は、ネットワーク300を介して各ノード100から情報を受け取っていたが、本実施形態のノード状態入力部412は、自ノードのBMC420から情報を受け取る。
内部情報記憶部154は、ノード起動開始時刻記憶部156と、サービス起動時刻記憶部157と、構成情報記憶部158をさらに備えている。ノード起動開始時刻記憶部156、サービス起動時刻記憶部157および構成情報記憶部158の構成と機能は、第2の実施形態と同様である。
BMC420は、ハードウエア障害処理部151と、ノード起動終了制御部152と、ノード状態送信部421と、内部情報記憶部154と、CPU155をさらに備えている。
本実施形態のハードウエア障害処理部151、ノード起動終了制御部152、内部情報記憶部154およびCPU155の構成と機能は、第2の実施形態の同名称の部位と同様である。
ノード状態送信部421は、第2の実施形態のノード状態送信部153と同様の機能を有する。本実施形態のノード状態送信部421は、構成情報を他のノード400全てと自ノードのノード状態入力部412に送る。
ネットワーク301は、各ノード400間を接続する通信ネットワークである。ネットワーク301は、専用回線であってもよく、また、他の用途の通信ネットワークとの共用回線であってもよい。また、ネットワーク301は、専用回線と共用回線との組み合わせによって構成されていてもよい。
本実施形態のクラスタシステムの動作について説明する。本実施形態のノード400のサービス起動終了部121は、クラスタ制御部211の要求に基づいて、第2の実施形態と同様にサービスを起動して実行する。また、障害が発生したとき、クラスタ制御部211は、ノード状態送受信部411およびノード状態入力部412が各ノード400から取得した情報を基に、第2の実施形態と同様に実行中のサービスの処理方法を判断する。すなわち、障害が発生したとき、クラスタ制御部211は、処理中のノード400で実行を続けるか、他のノード400にサービスを再度、割り当てなおすかを判断する。
障害が起きたときのサービスの扱いの判断は、例えば、作業者が設定したノード400において行われる。障害が起きたときのサービスの扱いの判断はノード400に順位を割り当て、正常に動作するノード400内において順位がもっとも高いノード400で行われるようにしてもよい。また、各ノード400間で情報を共有して、多数決で処理内容が決定されるようしてもよい。
本実施形態のクラスタシステムは、第2の実施形態のクラスタシステムと同様の効果を有する。また、本実施形態のクラスタシステムは、管理ノードが不要のため、システムの構成を簡略化することができる。また、本実施形態のクラスタシステムでは、管理ノードが不要のため、管理ノードの故障によるシステムの停止が生じないため、信頼性が向上する。
第2の実施形態および第3の実施形態のBMCおよびクラスタウエア部における各処理を行うコンピュータプログラムは、記録媒体に記録して頒布することもできる。記録媒体としては、例えば、データ記録用磁気テープや、ハードディスクなどの磁気ディスクを用いることができる。また、記録媒体としては、CD-ROM(Compact Disc Read Only Memory)やDVD(Digital Versatile Disc)などの光ディスク、光磁気ディスクを用いることもできる。不揮発性の半導体記憶装置を記録媒体として用いてもよい。
1 構成情報記憶手段
2 実行可否判断手段
3 時間情報取得手段
4 ノード選択手段
5 制御手段
100 ノード
110 サービス部
120 クラスタウエア部
121 サービス起動終了部
130 OS部
140 CPU
141 メモリ
142 I/Oカード
150 BMC
151 ハードウエア障害処理部
152 ノード起動終了制御部
153 ノード状態送信部
154 内部情報記憶部
155 CPU
156 ノード起動開始時刻記憶部
157 サービス起動時刻記憶部
158 構成情報記憶部
200 管理ノード
210 クラスタウエア部
211 クラスタ制御部
212 ノード状態受信部
213 ノード情報記憶部
214 ノード構成テーブル記憶部
215 サービス情報テーブル記憶部
216 サービス割当テーブル記憶部
400 ノード
410 クラスタウエア部
411 ノード状態送受信部
412 ノード状態入力部
420 BMC
421 ノード状態送信部

Claims (10)

  1. ネットワークを介して接続され、クラスタシステムを構成している各ノードが有しているハードウエアの情報を記憶する構成情報記憶手段と、
    いずれかの前記ノードで障害が発生したとき、障害の要因となった前記ハードウエアが縮退された状態のノードで処理の実行が可能かを判断する実行可否判断手段と、
    障害が発生した前記ノードの再起動に要する時間の情報を取得する時間情報取得手段と、
    障害箇所が縮退されたノードで前記処理の実行が可能であるときに、障害が発生したノードを再起動し、前記処理を開始するまでに要する時間と、他のノードでの前記処理を開始するまでに要する時間とを比較し、前記処理の開始までに要する時間が短い方を、前記処理を実行するノードとして選択するノード選択手段と、
    前記ノード選択手段が前記処理を実行するノードとして選択したノードに前記処理の実行を指示する制御手段と
    を備えることを特徴とする管理ノード。
  2. クラスタシステムにおいて実行される処理ごとに、必要なハードウエアの情報が関連づけられた情報をサービス情報テーブルとして保存しているサービス情報記憶手段をさらに備え、
    前記制御手段は、前記サービス情報テーブルを参照して前記処理を実行するノードを選択することを特徴とする請求項1に記載の管理ノード。
  3. 前記サービス情報記憶手段は、障害が発生した前記ノードにおいて前記処理を継続する条件の情報を継続利用条件として保存していることを特徴とする請求項2に記載の管理ノード。
  4. クラスタシステムの管理ノードから指定された処理を実行する処理実行手段と、
    自装置を再起動して前記処理を開始するまでに要する時間を起動時間情報として前記管理ノードに送信する再起動時間送信手段と、
    自装置の障害を検知し、故障箇所を特定する障害検知手段と、
    前記障害検知手段が特定した故障箇所を縮退させた自ノードの構成を示す情報を構成情報として前記管理ノードに送信する構成情報送信手段と、
    前記管理ノードが前記起動時間情報および前記構成情報を基に、自ノードを選択して前記処理の実行を指示してきたときに故障箇所を縮退した状態で処理を実行する制御手段と
    を備えることを特長とするノード。
  5. 前記構成情報送信手段は、自装置の再起動が行われる前に前記構成情報を前記管理ノードに送信することを特徴とする請求項4に記載のノード。
  6. 前記再起動時間送信手段、前記障害検知手段、前記構成情報送信手段および前記制御手段は、オペレーティングシステムの起動前に動作する領域に形成されていることを特徴とする請求項4または5に記載のノード。
  7. 請求項4から6いずれかに記載の複数のノードと、
    請求項1から3いずれかに記載の管理ノードと
    を備え、
    前記管理ノードは、前記ノードに処理の実行を割り当てることを特徴とするクラスタシステム。
  8. ネットワークを介して接続され、クラスタシステムを構成している各ノードが有しているハードウエアの情報を記憶し、
    いずれかの前記ノードで障害が発生したとき、障害の要因となった前記ハードウエアが縮退された状態のノードで処理の実行が可能かを判断し、
    障害が発生した前記ノードの再起動に要する時間を取得し、
    障害箇所が縮退されたノードで処理の実行が可能であるときに、障害が発生したノードを再起動し、前記処理を開始するまでに要する時間と、他のノードでの前記処理を開始するまでに要する時間とを比較し、前記処理の開始までに要する時間が短い方を、前記処理を実行するノードとして選択し、
    前記処理を実行するノードとして選択したノードに前記処理の実行を指示することを特徴とするノード制御方法。
  9. クラスタシステムの管理ノードから指定された処理を実行し、
    自装置を再起動して前記処理を開始するまでに要する時間を起動時間情報として前記管理ノードに送信し、
    自装置の障害を検知し、故障箇所を特定し、
    特定した故障箇所を縮退させた自ノードの構成を示す情報を構成情報として前記管理ノードに送信し、
    前記管理ノードが前記起動時間情報および前記構成情報を基に、自ノードを選択して前記処理の実行を指示してきたときに故障箇所を縮退した状態で前記処理を実行することを特長とするノード制御方法。
  10. 自装置の再起動が行われる前に前記構成情報を前記管理ノードに送信することを特徴とする請求項9に記載のノード制御方法。
JP2018050473A 2018-03-19 2018-03-19 管理ノード、ノード、クラスタシステムおよびノード制御方法 Active JP7057178B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018050473A JP7057178B2 (ja) 2018-03-19 2018-03-19 管理ノード、ノード、クラスタシステムおよびノード制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018050473A JP7057178B2 (ja) 2018-03-19 2018-03-19 管理ノード、ノード、クラスタシステムおよびノード制御方法

Publications (2)

Publication Number Publication Date
JP2019164405A true JP2019164405A (ja) 2019-09-26
JP7057178B2 JP7057178B2 (ja) 2022-04-19

Family

ID=68066183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018050473A Active JP7057178B2 (ja) 2018-03-19 2018-03-19 管理ノード、ノード、クラスタシステムおよびノード制御方法

Country Status (1)

Country Link
JP (1) JP7057178B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05313932A (ja) * 1992-05-11 1993-11-26 Oki Electric Ind Co Ltd 系切替システム
WO2013069136A1 (ja) * 2011-11-10 2013-05-16 富士通株式会社 情報処理装置、情報処理方法、情報処理プログラム、および同プログラムを記録した記録媒体
JP2013222396A (ja) * 2012-04-18 2013-10-28 Mitsubishi Electric Corp 情報処理装置および情報処理方法およびプログラム
US20140331079A1 (en) * 2013-05-01 2014-11-06 Telefonaktiebolaget L M Ericsson (Publ) Disable Restart Setting for AMF Configuration Components
JP2016099690A (ja) * 2014-11-19 2016-05-30 日本電気株式会社 管理装置、サービス提供管理方法およびサービス提供管理プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05313932A (ja) * 1992-05-11 1993-11-26 Oki Electric Ind Co Ltd 系切替システム
WO2013069136A1 (ja) * 2011-11-10 2013-05-16 富士通株式会社 情報処理装置、情報処理方法、情報処理プログラム、および同プログラムを記録した記録媒体
JP2013222396A (ja) * 2012-04-18 2013-10-28 Mitsubishi Electric Corp 情報処理装置および情報処理方法およびプログラム
US20140331079A1 (en) * 2013-05-01 2014-11-06 Telefonaktiebolaget L M Ericsson (Publ) Disable Restart Setting for AMF Configuration Components
JP2016099690A (ja) * 2014-11-19 2016-05-30 日本電気株式会社 管理装置、サービス提供管理方法およびサービス提供管理プログラム

Also Published As

Publication number Publication date
JP7057178B2 (ja) 2022-04-19

Similar Documents

Publication Publication Date Title
US10509680B2 (en) Methods, systems and apparatus to perform a workflow in a software defined data center
US8984123B2 (en) Rejuvenation processing device, rejuvenation processing system, computer program, and data processing method
US8074222B2 (en) Job management device, cluster system, and computer-readable medium storing job management program
US8789045B2 (en) Rejuvenation processing device, rejuvenation processing system, computer program, and data processing method
WO2015169199A1 (zh) 分布式环境下虚拟机异常恢复方法
US8782643B2 (en) Device and method for controlling communication between BIOS and BMC
US10917291B2 (en) RAID configuration
US11507479B2 (en) High availability for a relational database management system as a service in a cloud platform
US7181574B1 (en) Server cluster using informed prefetching
CN110888889A (zh) 一种数据信息更新方法、装置及设备
CN111352797A (zh) 用于监视软件应用程序进程的系统和方法
US9049101B2 (en) Cluster monitor, method for monitoring a cluster, and computer-readable recording medium
KR102210408B1 (ko) 가상화 서버의 이중화를 위한 제어 방법 및 이를 위한 가상화 제어 장치
JP2014071668A (ja) 情報処理装置、起動プログラム、および起動方法
US20110173233A1 (en) Database system and database control method
US10193744B1 (en) Mass restoration of enterprise business services following service disruption
CN111506388B (zh) 容器性能探测方法、容器管理平台及计算机存储介质
US10789129B1 (en) Rolling restoration of enterprise business services following service disruption
JP2001022709A (ja) クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体
JP7057178B2 (ja) 管理ノード、ノード、クラスタシステムおよびノード制御方法
US10855521B2 (en) Efficient replacement of clients running large scale applications
JP2008305353A (ja) クラスタシステム及びフェイルオーバ方法
JP7000797B2 (ja) 起動管理装置、起動管理システム、起動管理方法、および、起動管理プログラム
US8671307B2 (en) Task relay system, apparatus, and recording medium
JP2017037539A (ja) サーバ制御プログラム、サーバ制御方法およびサーバ制御装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210215

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220407

R150 Certificate of patent or registration of utility model

Ref document number: 7057178

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150