JP2014137681A - 管理装置、管理方法、および管理プログラム - Google Patents

管理装置、管理方法、および管理プログラム Download PDF

Info

Publication number
JP2014137681A
JP2014137681A JP2013005450A JP2013005450A JP2014137681A JP 2014137681 A JP2014137681 A JP 2014137681A JP 2013005450 A JP2013005450 A JP 2013005450A JP 2013005450 A JP2013005450 A JP 2013005450A JP 2014137681 A JP2014137681 A JP 2014137681A
Authority
JP
Japan
Prior art keywords
node
failure
operating
operating state
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013005450A
Other languages
English (en)
Other versions
JP6179101B2 (ja
Inventor
Takamasa Otake
孝昌 大竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013005450A priority Critical patent/JP6179101B2/ja
Priority to US14/156,597 priority patent/US9442784B2/en
Publication of JP2014137681A publication Critical patent/JP2014137681A/ja
Application granted granted Critical
Publication of JP6179101B2 publication Critical patent/JP6179101B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2048Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage

Abstract

【課題】 待機中に故障する演算装置があっても、処理を実行している稼働中の演算装置に故障した場合に、故障した稼働中の演算装置から待機中の演算装置に、処理を実行する演算装置を切り替える管理装置を提供する。
【解決手段】 本発明の管理装置は、複数の演算装置に対して、前記演算装置が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置の識別子に対応付けて記憶するノード情報記憶手段と、前記非稼働状態である前記演算装置の各々から、故障の有無を取得する故障状態取得手段と、前記稼働状態である前記演算装置の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する指示手段とを含む。
【選択図】 図14

Description

本発明は管理装置、管理方法、および管理プログラムに関し、特に、複数の演算装置の管理装置、管理方法、および管理プログラムに関する。
複数のサーバなどの演算装置で構成される、クラウドシステムなどの情報処理システムにおいて、動作中の演算装置に故障が発生した場合に、待機中の演算装置を起動する情報処理システムの例が、特許文献1及び特許文献2に記載されている。
特許文献1に記載されている計算機システムは、業務を行う第1の計算機と、待機系の計算機と、第2の計算機と、第3の計算機を含む。第2の計算機は、第1の計算機及び待機系の計算機の管理を行う。第3の計算機は、待機系の計算機の起動及び停止の管理を行う。第1の計算機に障害が発生したとき、第2の計算機は、第1の計算機から待機系の計算機の業務を引き継がせる。第3の計算機は、発生した障害が管理部を備える第2の計算機か否かを判定する。第3の計算機は、第2の計算機に障害が発生したときに、取得した構成情報に基づき、第2の計算機から待機系の計算機に管理部を引き継がせる。
特許文献2のクラスタシステムは、3以上のノードを有する。各ノードは、アプリケーションを実行する第1のノードと、第1のノードに障害が発生したときにアプリケーションを実行する第2のードと、これら以外の第3のノードのいずれのノードであるか決定するクラスタ管理部を含む。第2のノードは、完全同期方式を用いて第1のノードとアプリケーション情報を同期させる。また、第2のノード及び第3のノードのクラスタ管理部は、それぞれ、第1のノードの障害の発生を検出する。第1のノードの障害の発生が検出された場合、第2のノードは第1のノードとして動作する。また、第1のノードの障害の発生が検出された場合、1つの第3のノードのクラスタ管理部が、第2のノードへの変更を決定する。クラスタ管理部が第2のノードへの変更を決定した第3のノードは、第2のノードとして動作する。
特開2010−067042号公報 特開2012−185560号公報
特許文献1及び特許文献2の技術では、待機中の演算装置が故障した場合、処理を実行している稼働中の演算装置に故障しても、故障した稼働中の演算装置から待機中の演算装置への、処理を実行する演算装置の切り替えを正常に行うことはできない。
本発明の目的は、待機中に故障する演算装置があっても、処理を実行している稼働中の演算装置に故障した場合に、故障した稼働中の演算装置から待機中の演算装置に、処理を実行する演算装置を切り替える管理装置を提供することにある。
本発明の管理装置は、複数の演算装置に対して、前記演算装置が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置の識別子に対応付けて記憶するノード情報記憶手段と、前記非稼働状態である前記演算装置の各々から、故障の有無を取得する故障状態取得手段と、前記稼働状態である前記演算装置の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する指示手段とを含む。
本発明の管理方法は、複数の演算装置に対して、前記演算装置が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置の識別子に対応付けてノード情報記憶手段に記憶し、前記非稼働状態である前記演算装置の各々から、故障の有無を取得し、前記稼働状態である前記演算装置の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する。
本発明の管理プログラムは、コンピュータを、複数の演算装置に対して、前記演算装置が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置の識別子に対応付けて記憶するノード情報記憶手段と、前記非稼働状態である前記演算装置の各々から、故障の有無を取得する故障状態取得手段と、前記稼働状態である前記演算装置の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する指示手段として動作させる。
本発明には、待機中に故障する演算装置があっても、処理を実行している稼働中の演算装置に故障した場合に、故障した稼働中の演算装置から待機中の演算装置に、処理を実行する演算装置を切り替えることができるという効果がある。
図1は、第1の実施形態の情報処理システム100全体の構成の例を表すブロック図である。 図2は、ノード2の構成の例を表すブロック図である。 図3は、第1の実施形態の第2の変形例の情報処理システム100全体の構成の例を表すブロック図である。 図4は、管理装置1と、他のノード2との関係を表す図である。 図5は、第1の実施形態の管理装置1の動作の例を表すフローチャートである。 図6は、ノード情報記憶部10が記憶するノードリストの例を表す図である。 図7は、ノード2の状態の送信時における稼働交代送信部22の動作の一例を表すフローチャートである。 図8は、各ノード2の状態の受信時の、稼働検出部13の動作の一例を表すフローチャートである。 図9は、故障状態取得部11の、非稼働状態のノード2の故障の有無を受信する動作の一例を表すフローチャートである。 図10は、故障検出部23の、故障の有無の問い合わせの受信時の動作の一例を表すフローチャートである。 図11は、非稼働状態であるノード2の、BMC3の動作を表すフローチャートである。 図12は、第1の実施形態の変形例の情報処理システム100の構成を表す図である。 図13は、第1の実施形態と第1の実施形態の変形例の、故障状態取得部11による最後の状態確認から、起動部24による主処理部4の起動までの時間を表す図である。 図14は、本実施形態の管理装置1の構成を表すブロック図である。
次に、本発明の実施の形態について、図面を参照して詳細に説明する説明する。
図1は、本発明の第1の実施形態の情報処理システム100全体の構成の例を表すブロック図である。
図1の情報処理システム100は、互いに通信可能な複数の、演算装置であるノード2を含む。図1の例では、情報処理システム100は、k台のノード2を含むクラスタシステムである。
図2は、ノード2の構成の例を表すブロック図である。
図2を参照すると、ノード2は、BMC3(Baseboard Management Controller、ベースボード管理コントローラ)と、主処理部4を含む。主処理部4は、例えば、ノード2のプロセッサと、そのプロセッサが実行するOS(Operating System)やOS上で動作するプログラムによって実現される。一方、BMC3は、主処理部4とは独立に動作する、ノード2のハードウェア上に実装された処理装置である。BMC3は、主処理部4が、例えば電源オフ状態であり、動作していなくても動作する。
BMC3は、故障検出部23と、起動部24を含む。
主処理部4は、管理装置1と、処理実行部20と、クラスタ制御部21と、稼働状態送信部22とを含む。
管理装置1は、ノード情報記憶部10と、故障状態取得部11と、指示部12と、稼働検出部13を含む。
各ノード2は、第1のネットワークを介して互いに通信可能である。図1の例では、第1のネットワークは、スイッチ7を含むLAN5(Local Area Network)を含む。また、各ノード2のBMC3は、第2のネットワークを介して互いに通信可能である。図1の例では、第2のネットワークは、スイッチ8を含む管理用LAN6を含む。また、第1のネットワークと第2のネットワークは、互いに接続されている。図1の例は、第1のネットワークと第2のネットワークは、スイッチ7及びスイッチ8を介して接続されている。
処理実行部20は、サービスを提供するプログラムを実行することにより、情報処理装置100と通信が可能な端末にサービスを提供する。端末は図示されない。
クラスタ制御部21は、処理実行部20に、サービスの提供の開始及び終了の指示を行う。
複数のノード2は、主処理部4の処理実行部20でサービスを提供するためのプログラムを実行するアクティブノードと、サービスを提供するためのプログラムを実行しない待機中のノードであるスタンバイノードに分けられる。スタンバイノードは、主処理部4が稼働している稼働状態のノードであるホットスタンバイノードと、主処理部4が稼働していない非稼働状態のノードであるコールドスタンバイノードに分けられる。アクティブノードとホットスタンバイノードが、主処理部4が稼働している稼働状態のノードである。
稼働状態のノード2のクラスタ制御部21は、自装置の障害を検出する。処理実行部20がサービスを提供中であるノード2において自装置の障害が検出された場合、クラスタ制御部21は、稼働状態の他のノード2を選択する。そして、クラスタ制御部21は、処理実行部20で提供中であったサービスの提供を、選択されたノード2に引き継がせる。クラスタ制御部21は、各ノード2の死活監視を行って、稼働状態のノード2を特定しもよい。クラスタ制御部21は、ノード2が管理装置1を含む場合、詳細に後述するノード情報記憶部10が記憶するノード2のリストから、稼働状態のノード2を特定してもよい。他のノード2の選択方法は既存の任意の方法でよい。ノード2が提供していたサービスを停止し、他の稼働状態のノード2に引き継がせて再開する系切り替えの方法も、既存の任意の方法でよい。
コールドスタンバイノードの主処理部4は、例えば電源オフの状態であり、稼働していない。
図1の例では、クラスタウェア27を含むノードは、主処理部4を、管理装置1と、クラスタ制御部21と、稼働状態送信部22として動作させるプログラムである、クラスタウェア27を実行していることを表す。クラスタウェア27を含むノードが、稼働中のノードである。サービス28をさらに含むノードは、処理実行部20がサービスを提供するためのプログラムを実行しているノードである。サービス28をさらに含むノードが、アクティブノードである。クラスタウェア27及びサービス28を含まないノードが、コールドスタンバイノードである。
稼働状態送信部22は、管理装置1に対して、ノード2が稼働状態であることを送信する。稼働状態送信部22は、稼働状態の各ノード2の管理装置1に対して、ノード2が稼働状態であることを送信すればよい。また、稼働状態送信部22は、さらに、処理実行部20がサービスを提供しているか否かを表す信号を、管理装置1に送信してもよい。
故障検出部23は、主処理部4が稼働中であるか否かに関わらず、ノード2の故障の有無を検出する。故障状態取得部11は、故障検出部23に対して、例えば所定間隔で、定期的に故障の有無の問い合わせを送信する。故障検出部23は、故障状態取得部11からの故障の有無の問い合わせを受信する。そして、故障検出部23は、受信した問い合わせに対して、検出された故障の有無を、故障状態取得部11に送信する。
起動部24は、管理装置1の指示部12の指示に基づき、主処理部4を起動して稼働状態に遷移させる。また、起動部24は、ノード2が非稼働状態であり、後述の所定の時間間隔以上の所定時間、故障検出部23が故障の有無の問い合わせを管理装置1から受信しない場合、主処理部4を起動して稼働状態に遷移させる。
稼働検出部13は、各ノード2が稼働状態であるか否かを検出する。稼働検出部13は、稼働状態の各ノード2の稼働状態送信部22から、ノード2が稼働状態であることを受信すればよい。稼働検出部13は、稼働状態であることを送信しなかったノード2は、非稼働状態であると判定すればよい。稼働検出部13は、ノード2の識別情報と、そのノード2が稼働状態であるか非稼働状態であるかを表すデータとを対応付けて、ノード情報記憶部10に格納すればよい。
ノード情報記憶部10は、各ノード2に対して、ノード2の識別子と、ノード2が稼働状態であるか非稼働状態であるかを表すデータとを関連付けて記憶する。
故障状態取得部11は、非稼働状態の各ノード2のBMC3の故障検出部23に、故障の有無の問い合わせを送信し、故障検出部23から、そのノード2の故障の有無を取得する。故障状態取得部11は、例えば所定の時間間隔で、故障の有無の問い合わせを送信する。
指示部12は、稼働状態のノード2が、所定数(図1の例ではj)に満たない場合、故障のない非稼働状態のノード2に対して、主処理部4を起動して稼働状態に遷移する稼働指示を送信する。指示部12は、稼働状態のノード2が所定数になるまで、故障のない非稼働状態のノード2に対する稼働指示の送信を繰り返せばよい。
図4は、管理装置1と、他のノード2との関係を表す図である。図4のノード2は、図4の管理装置1を含むノード2と異なるノード2である。
次に、本実施形態の管理装置1の動作について、図面を参照して詳細に説明する。
図5は、本実施形態の管理装置1の動作の例を表すフローチャートである。
図5の動作の開始時において、ノード情報記憶部10は、各ノード2識別子と、各ノード2のノードアドレスと、各ノードのBMCアドレスを含むノードリストを記憶している。例えば情報処理システム100の管理者が、初期状態のノードリストを、予めノード情報記憶部10に格納しておけばよい。ノードアドレスは、図1のLAN6を介して通信を行う際の各ノード2のアドレスである。BMCアドレスは、図1の管理用LAN6を介して通信を行う際の、各ノード2のBMC3のアドレスである。
図6は、ノード情報記憶部10が記憶するノードリストの例を表す図である。
図6のノードリストは、さらに、稼働検出部13が検出した、ノード2毎の、ノード2が稼働状態であるか非稼働状態であるかを表すノード状態を含む。図6のノードリストは、さらに、故障状態取得部11が、非稼働状態の各ノード2のBMC3から取得する、各ノード2のBMC3を含むハードウェアの故障の有無を表すBMC状態を含む。図6の例では、ノード2が稼働状態である場合、ノード状態は稼働状態あるいは稼働中である。ノード2が非稼働状態である場合、ノード状態は非稼働状態あるいは非稼働中である。BMC3がノード2の故障を検出した場合、BMC状態は故障である。BMC3がノード2の故障を検出しない場合、BMC状態は正常である。ノード2が稼働状態である場合、BMC状態は監視対象外である。
まず、稼働検出部13が、各ノード2が稼働状態であるか非稼働状態であるかを検出する(ステップS101)。
稼働検出部13は、稼働状態の各ノード2の稼働状態送信部22から、ノード2の状態を取得することで、各ノード2が稼働状態であるか非稼働状態であるかを検出すればよい。
図7は、ノード2の状態の送信時における稼働交代送信部22の動作の一例を表すフローチャートである。
まず、稼働状態である各ノード2の稼働状態送信部22が、例えば自装置が含む管理装置1のノード情報記憶部10から、稼働状態であるノード2のノードアドレスのリストを取得する(ステップS201)。稼働状態送信部22は、クラスタ制御部21から、稼働状態であるノード2のノードアドレスのリストを取得してもよい。この場合、クラスタ制御部21は、各ノード2のノードアドレスを保持している。さらに、クラスタ制御部21は、各ノード2の状態を、検出して保持している。
稼働状態送信部22は、稼働状態である各ノード2に、自装置が稼働状態であることを表すデータを管理装置1の稼働検出部13に送信する(ステップS202)。稼働状態送信部22は、さらに、自装置の処理実行部20がサービスを提供しているか否かを、管理装置1の稼働検出部13に送信してもよい。
図8は、各ノード2の状態の受信時の、稼働検出部13の動作の一例を表すフローチャートである。
稼働検出部13は、稼働状態である各ノード2の稼働状態送信部22から、ノード2が稼働状態であることを表すデータを受信する(ステップS211)。
稼働検出部13は、ノード2が稼働状態であることを表すデータを受信すると、そのノード2が稼働状態であるように、ノード情報記憶部10のノードリストを更新する(ステップS212)。
クラスタ制御部21や稼働検出部13は、例えばLAN5を介して、稼働状態のノード2からハートビート信号を受信してもよい。そして、クラスタ制御部21や稼働検出部13は、ハートビート信号を受信したノード2を、稼働状態のノード2がとして検出すればよい。クラスタ制御部21や稼働検出部13は、全てのノード2のうち、ハートビート信号を受信しないノード2を、非稼働状態であるノード2として検出すればよい。
次に、故障状態取得部11が、非稼働状態の各ノード2の故障検出部23に、故障の有無の問い合わせの信号を送信する(ステップS102)。
図9は、故障状態取得部11の、非稼働状態のノード2の故障の有無を受信する動作の一例を表すフローチャートである。
故障状態取得部11は、非稼働状態のノード2のBMCアドレスを、ノード状態記憶部10から取得する(ステップS221)。
次に、故障状態取得部11は、非稼働状態の各ノード2のBMC3に、ノード2の故障の有無を問い合わせる信号を送信する(ステップS222)。
故障状態取得部11は、非稼働状態の各ノード2のBMC3の故障検出部23から、ノード2の故障の有無を表すデータを受信する。故障状態取得部11は、非稼働状態のノード2のBMC3から、ノード2の故障の有無を表すデータを受信しなかった場合、そのノード2は故障していると判定してもよい。
故障状態取得部11は、非稼働状態の各ノード2から受信したデータや、上述の判定の結果に基づき、ノード情報記憶部10が記憶するノードリストのBMC状態を更新する(ステップS223)。
図10は、故障検出部23の、故障の有無の問い合わせの受信時の動作の一例を表すフローチャートである。
故障検出部23は、例えば定期的に、BMC3を含むノード2のハードウェアの故障の有無を検出する。
故障検出部23は、故障の有無の問い合わせ(状態の送信指示)を受信していない間(ステップS231、N)、待機する。
故障検出部23は、故障の有無の問い合わせを受信した場合(ステップS231、Y)、故障の有無の問い合わせを行ったノード2(状態の送信指示の送信元のノード2)に対して、ハードウェアの故障の有無の検出結果を送信する(ステップS232)。
次に、指示部12は、稼働状態のノード2の数を判定する。
稼働状態のノード2の数が所定数以上である場合(ステップS103、N)、指示部12は後述のステップS105の動作を行う。本実施形態では、この所定数はjである。
稼働状態のノード2の数が所定数より少ない場合(ステップS103、Y)、指示部12は、故障のない非稼働状態のノード2を選択する。そして、選択したノード2の起動部24に、稼働状態にする稼働指示を送信する(ステップS104)。
稼働指示を受信した起動部24は、主処理部4を起動する。主処理部4が動作を開始することにより、指示部12が選択したノード2は、非稼働状態から稼働状態に遷移する。
指示部12は、ノード情報記憶部10が記憶するノードリストを更新し、稼働状態に遷移させたノード2のノード状態を稼働中に変更する。
指示部12は、稼働状態のノード2の数が所定数になるまで、ステップS104の動作を繰り返す。
稼働状態のノード2の数が所定数である場合(ステップS105、N)、管理装置1は動作を終了する。
稼働状態のノード2の数が所定数より多い場合(ステップS105、Y)、指示部12は、稼働状態のノード2のうち、ホットスタンバイノードを選択する。指示部12は、選択したホットスタンバイノードのクラスタ制御部21に対して、非稼働状態に遷移する停止指示を送信する(ステップS106)。
停止指示を受信したホットスタンバイノードのクラスタ制御部21は、主処理部4の処理を停止させる。このことにより、停止指示を受信したホットスタンバイノードは、稼働状態から非稼働状態に遷移する。
指示部12は、稼働状態のノード2の数が所定数になるまで、ステップS106の動作を繰り返す。
次に、BMC3の動作について、図面を参照して詳細に説明する。
図11は、非稼働状態であるノード2の、BMC3の動作を表すフローチャートである。
BMC3の故障検出部23は、自ノード2の故障の検出を行う(ステップS251)。
また、故障検出部23は、例えばタイマーにより、管理装置1の故障状態取得部11から故障の有無の問い合わせを受信してからの時間をカウントする。
故障検出部23は、管理装置1の故障状態取得部11から、故障の有無の問い合わせを受信した場合(ステップS252、Y)、故障状態取得部11に、故障の有無を送信する(ステップS255)。そして、故障検出部23は、管理装置1の故障状態取得部11から故障の有無の問い合わせを受信してからの時間をリセットして、0にする。
故障検出部23は、管理装置1の故障状態取得部11から、故障の有無の問い合わせを受信しない場合(ステップS252、N)、処理はステップS251に戻る。そして、故障検出部23は、自ノードの故障の検出と、管理装置1の故障状態取得部11から故障の有無の問い合わせを受信してから経過した時間のカウントを続ける。
故障検出部23が管理装置1の故障状態取得部11から故障の有無の問い合わせを最後に受信してから所定時間が経過した場合(ステップS253、Y)、起動部24は、自ノード2の主処理部4を起動する(ステップS254)。起動部24は、例えば起動を指示する信号を主処理部4に送信することにより、主処理部4を起動する。起動された主処理部4は、起動状態に遷移する。起動された主処理部4は、管理装置1として動作することもできる。なお、ステップS253における所定時間は、故障状態取得部11が各コールドスタンバイノードのBMC3の故障検出部23に対して定期的に行う故障の有無の問い合わせの間隔より長い時間である。
以上で説明した本実施形態には、待機中に故障するノード2すなわち演算装置があっても、処理を実行している稼働中の演算装置に故障した場合に、故障した稼働中の演算装置から待機中の演算装置に、処理を実行する演算装置を切り替えることができるという第1の効果がある。すなわち、本実施形態には、非稼働状態で待機中のノード2の稼働状態への遷移の失敗のリスクを軽減できるという効果がある。
その理由は、稼働状態のノード2が故障した場合に、指示部12が、故障していない非稼働状態のノード2から選択したノード2を、稼働状態に遷移させるからである。非稼働状態であるノード2のBMC3の故障検出部23は、ノード2の故障を検出する。そして、管理装置1の故障状態取得部11が定期的に送信する故障の有無の問い合わせに対して、故障検出部23は、検出された故障の有無を返信する。従って、指示部12は、故障していない非稼働状態のノード2から、稼働状態に遷移させるノード2を選択することができる。
また、本実施形態には、管理装置1とコールドスタンバイノードのBMC3の間の通信が途絶えた場合でも、稼働状態のノード2の故障によって情報処理システム100が動作しなくなるリスクを軽減できるという第2の効果がある。
その理由は、第1の理由の効果の理由に加えて、故障検出部23が管理装置1の故障状態取得部11から故障の有無の問い合わせを最後に受信してから所定時間が経過した場合、起動部24が、自ノード2の主処理部4を起動するからである。管理装置1とコールドスタンバイノードのBMC3の間のネットワークの障害等により、管理装置1がコールドスタンバイノードのBMC3と通信できない場合、稼働状態のノード2が増加する。従って、管理装置1とコールドスタンバイノードのBMC3の通信が途絶えている間に稼働中のノード2が故障した場合でも、稼働状態のノード2の数が不足することにより情報処理装置100が動作しなくなるリスクを低減できる。
さらに、本実施形態には、動作中の管理装置1が全て故障した場合も、情報処理装置100が動作を継続でいるという第3の効果がある。
その理由は、第2の効果の理由と同じである。稼働状態に遷移したノード2の主処理部4は、管理装置1としても動作する。
(第1の実施形態の変形例)
次に、第1の実施形態の変形例の情報処理システム100について、図面を参照して詳細に説明する。
図12は、本変形例の情報処理システム100の構成を表す図である。
本実施形態のノード2には、アクティブノードとコールドスタンバイノードのみが含まれ、ホットスタンバイノードは含まれない。
本変形例の情報処理システム100は、ホットスタンバイノードを含まないよう構成されていてもよい。そして、各BMC3は、そのBMC3が含まれるノード2がコールドスタンバイノードである場合に、以下の要に動作するよう構成されていればよい。故障検出部23が管理装置1の故障状態取得部11から故障の有無の問い合わせを最後に受信してから、時間T−BTが経過後に、起動部24が主処理部4を起動する。
ただし、上述のTは、故障検出部23が管理装置1の故障状態取得部11から故障の有無の問い合わせを最後に受信してから、第1の実施形態の起動部24が主処理部4を起動するまでの時間である。また、BTは、起動部24が主処理部4を起動してから、主処理部4が動作を開始するまでの時間である。なお、本実施形態のBT−Tは、故障状態取得部11が各コールドスタンバイノードのBMC3の故障検出部23に対して定期的に行う故障の有無の問い合わせの送信の間隔より長い。
あるいは、本変形例の管理装置1は、例えば、アクティブノードと、ホットスタンバイノードと、コールドスタンバイノードの数をカウントしてもよい。そして、管理装置1は、各コールドスタンバイノードのBMC3に、故障状態取得部11から故障の有無の問い合わせを最後に受信してから、起動部24が主処理部4を起動するまでの時間を指示してもよい。ホットスタンバイノードの数が0である場合、管理装置1が各コールドスタンバイノードのBMC3に指示する時間は、Tである。また、ホットスタンバイノードの数が0である場合、管理装置1が各コールドスタンバイノードのBMC3に指示する時間は、T−BTである。
本実施形態の起動部24は、故障検出部23が管理装置1の故障状態取得部11から故障の有無の問い合わせを最後受信してから、管理装置1に指示された時間が経過すると、主処理部4を起動する。
本変形例の管理装置1、ノード2、BMC3、主処理部4の動作は、上述の事項を除き、同じである。
図13は、第1の実施形態と本変形例の、故障状態取得部11による最後の状態確認から、起動部24による主処理部4の起動までの時間を表す図である。故障状態取得部11から故障の有無の問い合わせが、図13の状態確認である。図13の最後の状態確認の時刻が、故障検出部23が故障状態取得部11から故障の有無の問い合わせの受信した時刻である。稼働状態への遷移の開始時刻が、起動部24が主処理部4を起動する時刻である。第1の実施形態では、最後の状態確認の時刻から時間T+TBが経過した後に、ノード2は、非稼働状態から稼働状態に遷移する。すなわち、ノード2はコールドスタンバイノードからホットスタンバイノードに遷移する。一方、本変形例では、最後の状態確認の時刻から時間Tが経過した後に、ノード2は、非稼働状態から稼働状態に遷移する。すなわち、ノード2はコールドスタンバイノードからアクティブノードに遷移する。なお、ノード2は、コールドスタンバイノードからホットスタンバイノードに遷移してもよい。
以上で説明した本変形例には、第1の実施形態と同じ効果に加えて、情報処理システム100のダウンタイムを増加させずに消費電力を削減できるという効果がある。
その理由は、情報処理システム100がホットスタンバイノードを含まない代わりに、最後の状態確認の時刻から上述の時間T−TBが経過した後に、起動部24が主処理部4を起動するからである。
(第1の実施形態の第2の変形例)
図3は、第1の実施形態の第2の変形例の情報処理システム100全体の構成の例を表すブロック図である。
図3の情報処理システム100は、互いに通信可能な、複数の演算装置であるノード2と管理装置1とを含む。図3の例では、情報処理システム100は、k台のノード2を含むクラスタシステムである。図3の情報処理システム100は1台の管理装置1を含むが、情報処理システム100は複数の管理装置1を含んでいることが望ましい。図3の例のように、各ノード2は管理装置1を含んでいなくてもよい。
本変形例の情報処理システム100は、主処理部4が管理装置1として動作しない点を除き、第1の実施形態の情報処理システム100と同じである。
本変形例には、第1の実施形態の第1及び第2の効果と同じ効果がある。
その理由は、第1の実施形態の第1及び第2の効果の理由と同じである。
(第1の実施形態の構成例)
次に、第1の実施形態の構成例について、図面を参照して詳細に説明する。
図1が、本構成例の構成を表す図である。図1の情報処理システム100が、本構成例におけるクラスタである。
クラスタはk台のノード2で構成される。ノード2のプロセッサは、第1の実施形態の主処理部4として動作する。すなわち、ノード2のプロセッサは、プログラムであるクラスタウェア27を実行することにより、第1の実施形態の、管理装置1と、クラスタ制御部21と、稼働状態送信部22として動作する。また、ノード2のプロセッサは、後述のように、サービス28を提供するためのプログラムを実行する。さらに、ノード2は、前述のプロセッサが電源オフの状態であっても、プロセッサとは独立に動作するベースボード管理コントローラ3(BMC3)を含む。BMC3が、第1の実施形態の、故障検出部23及び起動部24として動作する。
各ノード2はLAN5で接続されている。稼働状態であるノード2のクラスタウェア27は、相互に通信が可能である。各BMC3は管理LAN6で接続されている。LAN5上のネットワークスイッチ(スイッチ7)と、管理LAN6上のネットワークスイッチ(スイッチ7)は、接続されている。LAN5における接続と、管理LAN6における接続と、スイッチ7とスイッチ8の間の接続は、有線による接続であっても、無線による接続であっても、有線と無線が混在した接続であっても構わない。LAN5と、スイッチ7とスイッチ8の間の接続と、管理LAN6を介して、稼働状態であるノード2のクラスタウェア27は、非稼働状態のノード2のBMC3と通信を行う。
アクティブノードである各ノード2は、サービス28を提供するためのプログラムをプロセッサで実行することにより、例えばLAN5に接続された端末に対して、サービス28を提供する。クラスタウェア27は、サービス28の提供を、アクティブノードであるノード2からホットスタンバイノードであるノード2に引き継がせる系切り替えを行う。例えば、ホットスタンバイノードのクラスタウェア27が、サービス28を提供するためのプログラムを主処理部4に起動させることで、系切り替えを行う。
各クラスタウェア27は、各コールドスタンバイノードのBMC3に、定期的に、故障の有無を問い合わせを送信することにより状態確認の通信を行う。故障の有無の問い合わせを受信したBMC3は、応答として、検出された故障の有無を返信する。また、BMC3は、所定時間前述の状態確認の通信が無い場合、BMC3は、BMC3が含まれるノード2である自ノードのプロセッサの電源を投入して、ノード2の状態を稼動状態へ遷移させる。
次に、ノード2の構成について、図2を参照して詳細に説明する。
ノード2は、プロセッサとBMC3を含む。プロセッサは、サービス28を提供するためのプログラムと、クラスタウェア27を実行する。サービス28を提供するためのプログラムの開始や停止は、クラスタウェア27により制御される。BMC3は、ノード2のハードウェア上に、プロセッサとは別に実装されている。BMC3は、プロセッサが実行するOSとは独立して動作する。プロセッサが動作を停止し、ノード2が、プロセッサが停止した状態である非稼働状態になっても、BMC3は動作を継続する。
サービス28を提供するためのプログラムは、プロセッサを、処理実行部20として動作させる。クラスタウェア27は、プロセッサを、管理装置1と、クラスタ制御部21と、稼働状態送信部22として動作させる。管理装置1は、ノード情報記憶部10と、故障状態取得部11と、指示部12と、稼働検出部13を含む。ノード情報記憶部10は、情報処理装置100が含む全ノード2の、ノードアドレスと、ノード状態と、BMCアドレスと、BMC状態を含むノードリストを記憶する。
BMC3は、故障検出部23と、起動部24を含む。
各ノード2は、以下の記載のように動作する。
稼働状態のノード2では、クラスタウェア27が動作している。クラスタ制御部21は、サービス28を提供するプログラムの起動や停止の制御を行う。クラスタ制御部21は、自ノードの障害を検出する。障害が検出された場合、クラスタ制御部21は、ノード情報記憶部10が記憶するノードリストを読み出し、稼働中の他のノード2を選択する。ノード管理部21は、選択されたノード2のクラスタ制御部21に対して、系切り替えの通知を行う。
稼働状態送信部22は、ノード情報記憶部10が記憶するノードリストを読み出し、稼働中の各ノード2の稼働検出部13に対して、自ノードの状態を送信する。稼働状態送信部22は、自ノードが正常に動作していれば、自ノードの状態として、例えば、稼働状態であることを表すデータを送信すればよい。稼働状態送信部22は、自ノードの状態に応じて、例えば、自ノードがアクティブノードとして稼働していることや自ノードがホットスタンバイノードとして稼働していることを表すデータを送信してもよい。稼働状態送信部22は、例えばクラスタ制御部21が自ノードの障害を検出した場合は、自ノードの状態として、例えば、故障中であることや非稼働中であることを送信すればよい。稼働状態送信部22は、例えば所定の時間間隔で、稼働検出部13に対して、ノード2の状態を送信する。稼働状態送信部22は、例えば稼働検出部13からの要求に応じて、ノード2の状態を送信してもよい。その場合、稼働検出部13は、例えば、LAN5を介して全てのノード2に対して、状態の送信の要求を送信する。
稼働検出部13は、他のノード2の稼働状態送信部22から、そのノード2の状態を受信する。稼働検出部13は、ノード2が状態を送信しない場合、そのノード2を非稼働状態であると判定すればよい。稼働検出部13は、受信したノード2の状態を、送信元ノードの識別子に対応付けて、ノード情報記憶部10に格納する。
故障状態取得部11は、ノード情報記憶部10から、ノードリストを読み出す。故障状態取得部11は、読み出したノードリストから選択した、非稼働状態にある各ノードのBMC3の故障検出部23に対して、BMC3を含むノード2のハードウェアの状態の問い合わせを送信する。ハードウェアの状態は、故障検出部23が検出した、ノード2の故障の有無である。故障検出部23は、故障の有無の問い合わせに対して、検出された故障の有無を送信する。故障状態取得部11は、故障検出部23から受信したノード2の故障の有無をBMC状態として、ノード2の識別子に対応付けて、ノード状態記憶部10に格納する。
指示部12は、稼働状態のノード2の数と、例えば所定台数を比較する。稼働状態のノードの数が所定台数より少ない場合、指示部12は、非稼働状態のノード2のうち、故障が検出されていないノード2を選択する。指示部12は、選択された非稼働状態のノード2のBMC3の起動部24に対して、非稼働状態から稼働状態に遷移する指示を送信する。指示を受信した起動部24は、ノード2を起動する。すなわち、起動部24は、ノード2のプロセッサの動作を開始させる。動作を開始したプロセッサは、例えば、OSを実行し、さらにクラスタウェア27を実行する。
稼働状態のノードの数が、所定台数より多い場合、指示部12は、稼働中のノード2から、ホットスタンバイノードを選択する。指示部12は、選択されたホットスタンバイノードのクラスタ制御部21に対して、コールドスタンバイノードへの遷移の指示を送信する。コールドスタンバイノードへの遷移の指示を受信したクラスタ制御部21は、自ノードのプロセッサの動作を停止させる。具体的には、クラスタ制御部21は、クラスタウェア27とOSのシャットダウンを実行すればよい。
また、起動部24は、ノード2が非稼働状態である場合、故障状態取得部11からの故障の有無の問い合わせを、故障検出部23が所定時間以上受信しない場合、ノード2を非稼働状態から稼働状態に遷移させる。すなわち、起動部24は、プロセッサを起動させる。起動したプロセッサは、クラスタウェア27を実行する。そして、ノード2の動作の状態は、稼働状態に遷移する。
次に、本発明の第2の実施形態について、図面を参照して詳細に説明する。
図14は、本実施形態の管理装置1の構成を表すブロック図である。
図14を参照すると、本実施形態の管理装置1は、複数の演算装置2に対して、前記演算装置2が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置2の識別子に対応付けて記憶するノード情報記憶部10と、前記非稼働状態である前記演算装置2の各々から、故障の有無を取得する故障状態取得部11と、前記稼働状態である前記演算装置2の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置2のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する指示部12とを含む。
以上で説明した本実施形態には、第1の実施形態の第1の効果と同じがある。
その理由は、第1の実施形態の第1の効果の理由と同じである。
管理装置1と、ノード2(演算装置2)は、それぞれ、コンピュータ及びコンピュータを制御するプログラム、専用のハードウェア、又は、コンピュータ及びコンピュータを制御するプログラムと専用のハードウェアの組合せにより実現することができる。
故障状態取得部11と、指示部12と、稼働検出部13と、処理実行部20と、クラスタ制御部21と、稼働状態送信部22と、故障検出部23と、起動部24は、例えば、プログラムを記憶する記録媒体からメモリに読み込まれた、各部の機能を実現するための専用のプログラムと、そのプログラムを実行するプロセッサにより実現することができる。また、ノード情報記憶部10は、コンピュータが含むメモリやハードディスク装置により実現することができる。あるいは、ノード情報記憶部10、故障状態取得部11と、指示部12と、稼働検出部13と、処理実行部20と、クラスタ制御部21と、稼働状態送信部22と、故障検出部23と、起動部24の一部又は全部を、各部の機能を実現する専用の回路によって実現することもできる。
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
1 管理装置
2 ノード
3 BMC
4 主処理部
5 LAN
6 管理LAN
7、8 スイッチ
10 ノード情報記憶部
11 故障状態取得部
12 指示部
13 稼働検出部
20 処理実行部
21 クラスタ制御部
22 稼働状態送信部
23 故障検出部
24 起動部
27 クラスタウェア
28 サービス
100 情報処理システム

Claims (10)

  1. 複数の演算装置に対して、前記演算装置が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置の識別子に対応付けて記憶するノード情報記憶手段と、
    前記非稼働状態である前記演算装置の各々から、故障の有無を取得する故障状態取得手段と、
    前記稼働状態である前記演算装置の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する指示手段と
    を含む管理装置。
  2. 前記故障状態取得手段は、前記演算装置に故障の有無の問い合わせを所定の時間間隔で送信して、前記演算装置の故障の有無を取得し、
    前記演算装置は、前記非稼働状態で前記所定の時間間隔以上の長さの所定時間、前記問い合わせを受信しない場合、前記稼働状態に遷移する
    請求項1に記載の管理装置。
  3. 前記演算装置は、与えられた処理を行う主処理手段と、前記主処理手段が停止している状態である前記非稼働状態で自装置の故障の有無を検出する故障検出手段と、前記非稼働状態である場合に前記稼働指示を受信すると、前記主処理部を起動して、前記主処理手段が稼働している状態である前記稼働状態に遷移させる起動手段を含む
    請求項1又は2に記載の管理装置。
  4. 前記演算装置の各々に対して、当該演算装置が、前記稼働状態であるか、前記非稼働状態であるかを検出し、前記演算装置の識別子と検出された状態を対応付けて前記ノード情報記憶部に格納する稼働検出手段
    を含む請求項1乃至3のいずれかに記載の管理装置。
  5. 互いに通信可能な、複数の前記演算装置及び請求項1乃至4のいずれかに記載の管理装置を含む情報処理システム。
  6. 複数の演算装置に対して、前記演算装置が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置の識別子に対応付けてノード情報記憶手段に記憶し、
    前記非稼働状態である前記演算装置の各々から、故障の有無を取得し、
    前記稼働状態である前記演算装置の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する
    管理方法。
  7. コンピュータを、
    複数の演算装置に対して、前記演算装置が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置の識別子に対応付けて記憶するノード情報記憶手段と、
    前記非稼働状態である前記演算装置の各々から、故障の有無を取得する故障状態取得手段と、
    前記稼働状態である前記演算装置の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する指示手段と
    して動作させる管理プログラム。
  8. コンピュータを、
    前記演算装置に故障の有無の問い合わせを所定の時間間隔で送信して、前記演算装置の故障の有無を取得する前記故障状態取得手段として動作させ、
    前記演算装置は、前記非稼働状態で前記所定の時間間隔以上の長さの所定時間、前記問い合わせを受信しない場合、前記稼働状態に遷移する
    請求項7に記載の管理プログラム。
  9. 前記演算装置は、与えられた処理を行う主処理手段と、前記主処理手段が停止している状態である前記非稼働状態で自装置の故障の有無を検出する故障検出手段と、前記非稼働状態である場合に前記稼働指示を受信すると、前記主処理部を起動して、前記主処理手段が稼働している状態である前記稼働状態に遷移させる起動手段を含む
    請求項7又は8に記載の管理プログラム。
  10. コンピュータを、
    前記演算装置の各々に対して、当該演算装置が、前記稼働状態であるか、前記非稼働状態であるかを検出し、前記演算装置の識別子と検出された状態を対応付けて前記ノード情報記憶部に格納する稼働検出手段
    として動作させる請求項7乃至9のいずれかに記載の管理プログラム。
JP2013005450A 2013-01-16 2013-01-16 管理装置、管理方法、および管理プログラム Active JP6179101B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013005450A JP6179101B2 (ja) 2013-01-16 2013-01-16 管理装置、管理方法、および管理プログラム
US14/156,597 US9442784B2 (en) 2013-01-16 2014-01-16 Management device, management method, and medium storing management program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013005450A JP6179101B2 (ja) 2013-01-16 2013-01-16 管理装置、管理方法、および管理プログラム

Publications (2)

Publication Number Publication Date
JP2014137681A true JP2014137681A (ja) 2014-07-28
JP6179101B2 JP6179101B2 (ja) 2017-08-16

Family

ID=51166210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013005450A Active JP6179101B2 (ja) 2013-01-16 2013-01-16 管理装置、管理方法、および管理プログラム

Country Status (2)

Country Link
US (1) US9442784B2 (ja)
JP (1) JP6179101B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115826393A (zh) * 2023-02-15 2023-03-21 西安羚控电子科技有限公司 一种飞控系统的双余度管理方法及装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9917798B2 (en) * 2013-07-09 2018-03-13 Nevion Europe As Compact router with redundancy
KR102243028B1 (ko) * 2014-04-22 2021-04-21 에스케이플래닛 주식회사 비콘장치의 상태 확인 방법, 이를 위한 시스템 및 장치
US10360116B2 (en) * 2015-02-13 2019-07-23 International Business Machines Corporation Disk preservation and failure prevention in a raid array
US9952948B2 (en) * 2016-03-23 2018-04-24 GM Global Technology Operations LLC Fault-tolerance pattern and switching protocol for multiple hot and cold standby redundancies
US10102085B2 (en) * 2016-08-25 2018-10-16 GM Global Technology Operations LLC Coordinated multi-mode allocation and runtime switching for systems with dynamic fault-tolerance requirements
CN115043446B (zh) * 2020-06-16 2024-01-23 浙江富春紫光环保股份有限公司 基于异常分类模型的污水处理进程的异常监控方法与系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0325560A (ja) * 1989-06-22 1991-02-04 Yokogawa Electric Corp ネットワークの稼動状況管理方法
JPH06195318A (ja) * 1992-12-24 1994-07-15 Kanebo Ltd 分散処理システム
WO2007094041A1 (ja) * 2006-02-14 2007-08-23 Fujitsu Limited サーバ管理装置及びサーバ管理プログラム
JP2008140198A (ja) * 2006-12-04 2008-06-19 Hitachi Ltd フェイルオーバ方法、およびその計算機システム。
JP2009140194A (ja) * 2007-12-06 2009-06-25 Hitachi Ltd 障害回復環境の設定方法
JP2010113495A (ja) * 2008-11-06 2010-05-20 Nomura Research Institute Ltd クラスタシステムおよびクラスタ制御方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7400996B2 (en) * 2003-06-26 2008-07-15 Benjamin Thomas Percer Use of I2C-based potentiometers to enable voltage rail variation under BMC control
US7401256B2 (en) * 2004-04-27 2008-07-15 Hitachi, Ltd. System and method for highly available data processing in cluster system
JP5022062B2 (ja) * 2007-03-01 2012-09-12 株式会社日立製作所 プールi/oデバイス動作確認方法、及び計算機システム
JP4572250B2 (ja) 2008-09-11 2010-11-04 株式会社日立製作所 計算機切り替え方法、計算機切り替えプログラム及び計算機システム
US8467929B2 (en) * 2009-08-24 2013-06-18 Robert Bosch Gmbh Good checking for vehicle wheel speed sensors
US8286034B2 (en) * 2010-07-20 2012-10-09 Oracle America, Inc. Accurate fault status tracking of variable access sensors
JP5716460B2 (ja) 2011-03-03 2015-05-13 日本電気株式会社 クラスタシステムおよびその制御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0325560A (ja) * 1989-06-22 1991-02-04 Yokogawa Electric Corp ネットワークの稼動状況管理方法
JPH06195318A (ja) * 1992-12-24 1994-07-15 Kanebo Ltd 分散処理システム
WO2007094041A1 (ja) * 2006-02-14 2007-08-23 Fujitsu Limited サーバ管理装置及びサーバ管理プログラム
JP2008140198A (ja) * 2006-12-04 2008-06-19 Hitachi Ltd フェイルオーバ方法、およびその計算機システム。
JP2009140194A (ja) * 2007-12-06 2009-06-25 Hitachi Ltd 障害回復環境の設定方法
JP2010113495A (ja) * 2008-11-06 2010-05-20 Nomura Research Institute Ltd クラスタシステムおよびクラスタ制御方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115826393A (zh) * 2023-02-15 2023-03-21 西安羚控电子科技有限公司 一种飞控系统的双余度管理方法及装置

Also Published As

Publication number Publication date
JP6179101B2 (ja) 2017-08-16
US20140201577A1 (en) 2014-07-17
US9442784B2 (en) 2016-09-13

Similar Documents

Publication Publication Date Title
JP6179101B2 (ja) 管理装置、管理方法、および管理プログラム
US9189349B2 (en) Distributed blade server system, management server and switching method
JP4572250B2 (ja) 計算機切り替え方法、計算機切り替えプログラム及び計算機システム
JP5858144B2 (ja) 情報処理システム、障害検知方法および情報処理装置
JP6007522B2 (ja) クラスタシステム
JP2013030863A (ja) スイッチ装置の制御システム、その構成制御装置および構成制御方法
US10728099B2 (en) Method for processing virtual machine cluster and computer system
US9208124B2 (en) Reset of processing core in multi-core processing system
JP2012022562A (ja) 通信監視装置及び方法、プログラム
JPWO2015104841A1 (ja) 多重系システムおよび多重系システム管理方法
JP2018045310A (ja) 情報処理装置及びその制御方法、コンピュータプログラム
CN107071189B (zh) 一种通讯设备物理接口的连接方法
KR102131863B1 (ko) 라우팅 처리기의 동작 모드 천이 방법
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
JP2009223368A (ja) クラスタリング制御装置、制御システム、制御方法及び制御プログラム
JP2018056633A (ja) クラスタシステム、サーバ、サーバの動作方法、及びプログラム
CN114124803B (zh) 设备管理方法、装置、电子设备及存储介质
CN111510336B (zh) 一种网络设备状态管理方法及装置
TWI697224B (zh) 通信系統、通信裝置及電腦程式產品
CN108234215B (zh) 一种网关的创建方法、装置、计算机设备及存储介质
JP2010152742A (ja) 通信制御装置
JP2013156963A (ja) 制御プログラム、制御方法、情報処理装置、制御システム
JP2010157024A (ja) ディスクアレイ装置、ディスクアレイ装置における電源制御方法及び電源制御プログラム
JP2010244129A (ja) 計算機システム
JP6580913B2 (ja) 電子装置、管理装置、情報処理装置、制御システムおよび電源制御方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170703

R150 Certificate of patent or registration of utility model

Ref document number: 6179101

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150