JP2011141675A - 計算機及び計算機管理方法並びに計算機管理プログラム - Google Patents

計算機及び計算機管理方法並びに計算機管理プログラム Download PDF

Info

Publication number
JP2011141675A
JP2011141675A JP2010001376A JP2010001376A JP2011141675A JP 2011141675 A JP2011141675 A JP 2011141675A JP 2010001376 A JP2010001376 A JP 2010001376A JP 2010001376 A JP2010001376 A JP 2010001376A JP 2011141675 A JP2011141675 A JP 2011141675A
Authority
JP
Japan
Prior art keywords
software component
computer
middleware
component
operating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010001376A
Other languages
English (en)
Other versions
JP5839774B2 (ja
Inventor
Naoki Morimoto
森本  直樹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Heavy Industries Ltd
Original Assignee
Mitsubishi Heavy Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Heavy Industries Ltd filed Critical Mitsubishi Heavy Industries Ltd
Priority to JP2010001376A priority Critical patent/JP5839774B2/ja
Priority to PCT/JP2011/050005 priority patent/WO2011083778A1/ja
Priority to US13/512,604 priority patent/US9164825B2/en
Publication of JP2011141675A publication Critical patent/JP2011141675A/ja
Application granted granted Critical
Publication of JP5839774B2 publication Critical patent/JP5839774B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0715Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a system implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】ソフトウェアコンポーネントの障害監視にかかる処理負荷を低減すること。
【解決手段】情報伝達媒体2を介して他の計算機と互いに通信可能に接続され、オペレーティングシステム32を備える計算機3であって、ソフトウェアコンポーネントとオペレーティングシステム32との間に介在し、ソフトウェアコンポーネントを子プロセスとして起動させ、ソフトウェアコンポーネントの親プロセスとなる可用性管理ミドルウェア31を具備し、オペレーティングシステム32は、ソフトウェアコンポーネントの稼働状態を監視し、ソフトウェアコンポーネントに異常が検出された場合に、可用性管理ミドルウェア31に異常情報を通知し、可用性管理ミドルウェア31は、異常情報を取得すると、ソフトウェアコンポーネントの異常情報を他の計算機に通知する。
【選択図】図1

Description

本発明は、例えば、計算機システムの可用性に関するものである。
従来、計算機で動作しているソフトウェアコンポーネントを管理する可用性管理ミドルウェアは、オペレーティングシステムとソフトウェアコンポーネントとの間に介在し、オペレーティングシステムが把握しているソフトウェアコンポーネントの死活監視の結果をオペレーティングシステムに対して周期的に問い合わせることによって、ソフトウェアコンポーネントの死活情報を得ていた。また、複数の計算機を備える計算機システムにおいては、各計算機の可用性管理ミドルウェアが、オペレーティングシステムから得た死活情報を他の計算機と授受し、各計算機間のソフトウェアコンポーネントの死活情報を把握することによって、計算機システムの可用性向上に努めてきた。
また、特許文献1には、計算機システムの可用性を高める方法として、計算機単位で各計算機の負荷を監視し、負荷が増大した場合には、他の計算機に処理を実行させ、負荷分散することによって計算機システムの可用性を向上させる技術について開示されている。
特開2008−15950号公報
しかしながら、上述した従来の方法では、可用性管理ミドルウェアは、ソフトウェアコンポーネントの数に応じてオペレーティングシステムに対して死活情報の問い合わせをするため、ソフトウェアコンポーネントの数が多い場合に、可用性管理ミドルウェアにかかる死活情報の問い合わせにかかる処理負荷が多くなるという問題があった。また、上述した従来の方法では、オペレーティングシステムから得たソフトウェアコンポーネントの全ての死活情報を他の計算機に通知しており、計算機システムにおける各計算機を接続する情報伝達媒体に多くの負荷がかかるという問題があった。
本発明は、上記問題を解決するためになされたもので、ソフトウェアコンポーネントの障害監視にかかる処理負荷を低減することのできる計算機及び計算機システムを提供することを目的とする。
上記課題を解決するために、本発明は以下の手段を採用する。
本発明は、情報伝達媒体を介して他の計算機と互いに通信可能に接続され、オペレーティングシステムを備える計算機であって、ソフトウェアコンポーネントと前記オペレーティングシステムとの間に介在し、ソフトウェアコンポーネントを子プロセスとして起動させ、前記ソフトウェアコンポーネントの親プロセスとなるミドルウェアを具備し、前記オペレーティングシステムは、前記ソフトウェアコンポーネントの稼働状態を監視し、前記ソフトウェアコンポーネントに異常が検出された場合に、前記ミドルウェアに異常情報を通知し、前記ミドルウェアは、前記異常情報を取得すると、前記ソフトウェアコンポーネントの前記異常情報を他の前記計算機に通知する計算機を提供する。
このような構成によれば、ミドルウェアがソフトウェアコンポーネントの親プロセスとなって、子プロセスであるソフトウェアコンポーネントを起動させると、オペレーティングシステムによって子プロセス(ソフトウェアコンポーネント)が監視され、子プロセス(ソフトウェアコンポーネント)の稼働状態に異常がある場合に、その異常情報がオペレーティングシステムから親プロセス(ミドルウェア)に通知される。また、異常情報は、ミドルウェアから他の計算機に通知される。
このように、オペレーティングシステムが、ソフトウェアコンポーネントの稼働状態を監視しており、ソフトウェアコンポーネントに異常が検出された場合には、異常情報をミドルウェアに通知する。これにより、従来のように、ソフトウェアコンポーネントの異常の有無を、ミドルウェアからオペレーティングシステムに対して周期的に問い合わせる場合と比較して、ミドルウェアのソフトウェアコンポーネント監視に要する処理負荷を低減することができる。また、ミドルウェアは、異常情報を取得した場合に他の計算機に通知するので、周期的に他の計算機と異常有無の情報を交換する場合と比較すると、情報伝達媒体にかかる負荷を低減することができる。
本発明は、情報伝達媒体を介して他の計算機と互いに通信可能に接続され、オペレーティングシステムを備える計算機であって、ソフトウェアコンポーネントを子プロセスとして起動させ、前記ソフトウェアコンポーネントの親プロセスとなり、ソフトウェアコンポーネントと前記オペレーティングシステムとの間に介在し、前記ソフトウェアコンポーネントの可用性を管理するミドルウェアに対し、前記ソフトウェアコンポーネントの異常情報を出力する仲介コンポーネントを具備し、前記オペレーティングシステムは、前記ソフトウェアコンポーネントの稼働状態を監視し、前記ソフトウェアコンポーネントに異常が検出された場合に、前記仲介コンポーネントに前記異常情報を通知し、前記ミドルウェアは、前記仲介コンポーネントを介して前記異常情報を取得すると、前記ソフトウェアコンポーネントの前記異常情報を他の前記計算機に通知する計算機を提供する。
このような構成によれば、仲介コンポーネントがソフトウェアコンポーネントの親プロセスとなって、子プロセスであるソフトウェアコンポーネントを起動させると、オペレーティングシステムによって子プロセス(ソフトウェアコンポーネント)が監視され、子プロセス(ソフトウェアコンポーネント)の稼働状態に異常がある場合に、その異常情報がオペレーティングシステムから親プロセス(仲介コンポーネント)を介してミドルウェアに通知される。また、異常情報は、ミドルウェアから他の計算機に通知される。
このように、オペレーティングシステムが、ソフトウェアコンポーネントの稼働状態を監視しており、ソフトウェアコンポーネントに異常が検出された場合には、異常情報を仲介コンポーネントを介して、ミドルウェアに通知する。これにより、従来のように、ソフトウェアコンポーネントの異常の有無を、ミドルウェアからオペレーティングシステムに対して周期的に問い合わせる場合と比較して、ソフトウェアコンポーネントの監視に要するミドルウェアの処理負荷を低減することができる。また、例えば、ミドルウェアに対し、ソフトウェアコンポーネントの親プロセスとさせるためのプログラム等の変更が困難である場合であっても、仲介コンポーネントを親プロセスとして取得したソフトウェアコンポーネントの異常情報をミドルウェアに通知させるので、容易にミドルウェアが異常情報を取得することができる。さらに、ミドルウェアは、異常情報を取得した場合に他の計算機に通知するので、周期的に他の計算機と異常有無の情報を交換する場合と比較すると、情報伝達媒体にかかる負荷を低減することができる。
上記計算機の前記ミドルウェアの機能により、前記計算機の稼働状態を計算機死活情報として、他の前記計算機に通知することとしてもよい。
ミドルウェアは、ソフトウェアコンポーネントの異常情報とは独立して、計算機死活情報を他の計算機に通知するので、各ミドルウェアにかかる処理の負荷を低減することができる。
本発明は、上記いずれかに記載の複数の計算機を備える計算機システムであって、一の前記計算機において前記ソフトウェアコンポーネントがアクティブ状態で動作している場合に、該ソフトウェアコンポーネントと同一の前記ソフトウェアコンポーネントを少なくともいずれか一の他の前記計算機においてスタンバイ状態で動作させており、前記ミドルウェアは、アクティブ状態又はスタンバイ状態で動作している少なくとも一つの前記ソフトウェアコンポーネントに障害が発生した場合に、同一の前記ソフトウェアコンポーネントを動作させている他の前記計算機に、前記異常情報を通知する計算機システムを提供する。
障害が発生したソフトウェアコンポーネントと同一のソフトウェアコンポーネントを有する計算機を異常情報の通知先の計算機とするので、システムに備える計算機の個数によらず、情報伝達媒体に流通する情報量を低減することができる。また、障害が発生したソフトウェアコンポーネントと異なるソフトウェアコンポーネントを有する計算機のミドルウェアにかかる処理の負荷が低減される。
上記計算機システムの一の前記計算機が、前記ソフトウェアコンポーネントをアクティブ状態で動作させ、他の複数の前記計算機が、前記一の計算機においてアクティブ状態で動作させている前記ソフトウェアコンポーネントと同一の前記ソフトウェアコンポーネントをスタンバイ状態で動作させることとしてもよい。
スタンバイ状態で動作させる計算機を複数備えるので、アクティブ状態で動作させる計算機に障害が発生し、1つの計算機がスタンバイ状態で動作させるソフトウェアコンポーネントをアクティブ状態に切り替えている間も、他の計算機において障害の発生したソフトウェアコンポーネントをスタンバイ状態で動作させることができる。このように、スタンバイ状態のソフトウェアコンポーネントを複数備えることにより、冗長性を確保することができる。
上記計算機システムにおいて、アクティブ状態で動作している前記ソフトウェアコンポーネントに障害が発生し、障害が発生した該ソフトウェアコンポーネントをスタンバイ状態で動作させている前記ソフトウェアコンポーネントが、スタンバイ状態からアクティブ状態に切り替えられた後、障害が発生した前記ソフトウェアコンポーネントをアクティブ状態で動作させている計算機から物理的又は論理的に距離が離れているセグメントの前記計算機が、障害が発生した前記ソフトウェアコンポーネントを新たにスタンバイ状態で起動する計算機として選定されることが好ましい。
このように、アクティブ状態のソフトウェアコンポーネントを動作させる計算機と、スタンバイ状態のソフトウェアコンポーネントを動作させる計算機とが、物理的又は論理的に距離が離れているセグメントに配置されているので、セグメント単位の物理的破壊等の比較的大規模な障害が発生した場合であっても、スタンバイ状態で動作させるソフトウェアコンポーネントの計算機により、障害を回復することができる。
本発明は、情報伝達媒体を介して他の計算機と互いに通信可能に接続される計算機の計算機管理方法であって、ソフトウェアコンポーネントと前記オペレーティングシステムとの間に介在するミドルウェアが、前記ソフトウェアコンポーネントを子プロセスとして起動し、前記ソフトウェアコンポーネントの親プロセスとなる過程と、前記オペレーティングシステムが、前記ソフトウェアコンポーネントの稼働状態を監視し、前記ソフトウェアコンポーネントに異常が検出された場合に、前記ミドルウェアに異常情報を通知する過程と、前記ミドルウェアが、前記異常情報を取得すると、前記ソフトウェアコンポーネントの前記異常情報を他の前記計算機に通知する過程とを有する計算機管理方法を提供する。
本発明は、情報伝達媒体を介して他の計算機と互いに通信可能に接続される計算機に含まれるコンピュータに実行させるための計算機管理プログラムであって、ソフトウェアコンポーネントとオペレーティングシステムとの間に介在するミドルウェアが、前記ソフトウェアコンポーネントを子プロセスとして起動し、前記ソフトウェアコンポーネントの親プロセスとなる処理と、前記ミドルウェアが、前記オペレーティングシステムから通知される前記ソフトウェアコンポーネントの前記異常情報を取得すると、前記ソフトウェアコンポーネントの前記異常情報を他の前記計算機に通知する処理とをコンピュータに実行させる計算機管理プログラムを提供する。
本発明は、情報伝達媒体を介して他の計算機と互いに通信可能に接続される計算機の計算機管理方法であって、ソフトウェアコンポーネントとオペレーティングシステムとの間に介在し、前記ソフトウェアコンポーネントの可用性を管理するミドルウェアに対し、前記ソフトウェアコンポーネントの異常情報を出力する仲介コンポーネントが、前記ソフトウェアコンポーネントを子プロセスとして起動させ、前記ソフトウェアコンポーネントの親プロセスとなる過程と、前記オペレーティングシステムが、前記ソフトウェアコンポーネントの稼働状態を監視し、前記ソフトウェアコンポーネントに異常が検出された場合に、前記仲介コンポーネントに前記異常情報を通知する過程と、前記ミドルウェアが、前記仲介コンポーネントを介して前記異常情報を取得すると、前記ソフトウェアコンポーネントの前記異常情報を他の前記計算機に通知する過程とを有する計算機管理方法を提供する。
本発明は、情報伝達媒体を介して他の計算機と互いに通信可能に接続された計算機に含まれるコンピュータに実行させるための計算機管理プログラムであって、ソフトウェアコンポーネントとオペレーティングシステムとの間に介在する仲介コンポーネントが、前記ソフトウェアコンポーネントを子プロセスとして起動させ、前記ソフトウェアコンポーネントの親プロセスとなる処理と、前記仲介コンポーネントが、前記ソフトウェアコンポーネントとオペレーティングシステムとの間に介在して、前記ソフトウェアコンポーネントの可用性を管理し、かつ、該ソフトウェアコンポーネントの異常情報を他の前記計算機に通知するミドルウェアに対して、前記ソフトウェアコンポーネントの前記異常情報を出力する処理とをコンピュータに実行させる計算機管理プログラムを提供する。
本発明は、ソフトウェアコンポーネントの障害監視にかかる処理負荷を低減することができるという効果を奏する。
本発明の第1の実施形態に係る計算機システムの主要機能の構成を示した図である。 第1の実施形態に係る計算機の概略構成を示した図である。 第1の実施形態に係る計算機の主要機能の構成を示した図である。 可用性管理ミドルウェアとソフトウェアコンポーネントとの関係を示した図である。 計算機の死活情報の通知を説明するための図である。 本発明の第1の実施形態の変形例における可用性管理ミドルウェアとソフトウェアコンポーネントとの関係を示した図である。 本発明の第2の実施形態に係る計算機システムにおけるソフトウェアコンポーネントのアクティブ状態とスタンバイ状態との切り替えを説明するための図である。
以下に、本発明に係る計算機及び計算機システムの一実施形態について、図面を参照して説明する。
〔第1の実施形態〕
以下、本発明の第1の実施形態について、図1を用いて説明する。
図1に示されるように、本実施形態に係る計算理システム20は、複数の計算機3a,3b,3c、及び中央管理装置1とを備えている。各計算機3a,3b,3c、及び中央管理装置1は、互いに情報伝達媒体2を介して接続されており、双方向通信が可能な構成とされている。以下特に明記しない場合には、計算機は計算機3として記述する。また、本実施形態においては、計算機3は3個であることを例に挙げて説明するが、計算機システム20が備える計算機の個数は限定されない。
図2は、本実施形態に係る計算機システム20の計算機3の概略構成を示したブロック図である。図2に示すように、本実施形態に係る計算機3は、いわゆるコンピュータシステムであり、CPU(中央演算処理装置)11、RAM(Random Access Memory)等の主記憶装置12、補助記憶装置13、キーボードやマウスなどの入力装置14、及びディスプレイやプリンタなどの出力装置15、外部の機器と通信を行うことにより情報の授受を行う通信装置16などで構成されている。補助記憶装置13は、コンピュータ読取可能な記録媒体であり、例えば、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等である。
また、図1は、本発明の計算機3における主要機能の構成を示した図である。図1に示されるように、計算機3は、可用性管理ミドルウェア(ミドルウェア)31と、オペレーティングシステム(OS)32、ソフトウェアコンポーネントA,B,C,Dとを備えている。
次に、計算機3が備える各部において実行される処理内容について図1を参照して説明する。
計算機3は、ソフトウェアコンポーネントが一つの計算機3においてアクティブ状態で動作している場合に、このソフトウェアコンポーネントと同一のソフトウェアコンポーネントを他の少なくとも一つの計算機3においてスタンバイ状態で動作させている。
例えば、計算機3aは、ソフトウェアコンポーネントAをアクティブ状態で動作させており、計算機3cはソフトウェアコンポーネントAをスタンバイ状態で動作させている。アクティブ状態とは、ソフトウェアコンポーネントが稼動している状態である。一方、スタンバイ状態とは、通常は予備のコンポーネントとして待機しており、アクティブ状態のコンポーネントが使用不可、或いは、停止された場合に、アクティブ状態に代えて速やかに動作を継続して行わせるための準備状態である。
また、ソフトウェアコンポーネントがアクティブ状態で動作している計算機は、同一ソフトウェアコンポーネントがスタンバイ状態で動作している計算機に対し、アクティブ状態で動作しているソフトウェアコンポーネントが保有している情報を定期的に通知しており、アクティブ状態で動作しているソフトウェアコンポーネントと、スタンバイ状態で動作しているソフトウェアコンポーネントとの間において、保有する情報は共通となっている。このように、同じソフトウェアコンポーネントを複数の計算機に搭載し、アクティブ状態とスタンバイ状態で動作させることにより、冗長性が確保され、アクティブ状態で動作させる計算機の切り替えを速やかに行うことが可能となる。以下特に明記しない場合には、アクティブ状態のソフトウェアコンポーネント及びスタインバイ状態のソフトウェアコンポーネントを単に「ソフトウェアコンポーネント」と記述する。
本実施形態においては、図1に示されているように、計算機3aにおいて、ソフトウェアコンポーネントAをアクティブ状態で動作させ、ソフトウェアコンポーネントCをスタンバイ状態で動作させ、計算機3bにおいてソフトウェアコンポーネントBをスタンバイ状態で動作させ、ソフトウェアコンポーネントCをアクティブ状態で動作させ、計算機3cにおいてソフトウェアコンポーネントAをスタンバイ状態で動作させ、中央管理装置1において、ソフトウェアコンポーネントBをアクティブ状態で動作させている状態を想定している。
また、計算機システム20内の各計算機3を集中管理する機能を有するソフトウェアコンポーネントを、中央管理コンポーネントとする。本実施形態においては、中央管理コンポーネントをアクティブ状態で動作させている計算機を中央管理装置1とする。なお、計算機3は、中央管理コンポーネントをスタンバイ状態で動作させており、アクティブ状態で動作する中央管理コンポーネントに障害が発生した場合に、アクティブ状態に切り替えられる。
可用性管理ミドルウェア31は、ソフトウェアコンポーネントとオペレーティングシステム32との間に介在し、ソフトウェアコンポーネントを子プロセスとして起動させ、ソフトウェアコンポーネントの親プロセスとなる(図3参照)。具体的には、可用性管理ミドルウェア31は、オペレーティングシステム32が把握しているソフトウェアコンポーネントの異常情報をオペレーティングシステム32に対して周期的に問い合わせる機能に加えて、ソフトウェアコンポーネントを子プロセスとして起動し、ソフトウェアコンポーネントの親プロセスとなる機能を備えている。
また、可用性管理ミドルウェア31は、ソフトウェアコンポーネントの異常情報を取得すると、ソフトウェアコンポーネントの異常情報を他の計算機3に通知する(異常通知)。具体的には、一の計算機においてソフトウェアコンポーネントがアクティブ状態で動作している場合に、このソフトウェアコンポーネントと同一のソフトウェアコンポーネントを少なくともいずれか一の他の計算機においてスタンバイ状態で動作させており、アクティブ状態又はスタンバイ状態で動作している少なくとも一つのソフトウェアコンポーネントに障害が発生した場合に、可用性管理ミドルウェア31は、同一のソフトウェアコンポーネントを動作させている他の計算機に、異常情報を通知する。
例えば、図1の計算機3aを例に挙げて説明する。図1に示されるように、計算機3aにおいてソフトウェアコンポーネントAがアクティブ状態で稼働しており、計算機3aの可用性管理ミドルウェア31が、ソフトウェアコンポーネントAの異常情報を取得した場合に、同一のソフトウェアコンポーネントAをスタンバイ状態で稼働している計算機3cに対し、ソフトウェアコンポーネントAの異常情報を通知する。
また、例えば、アクティブ状態で動作されているソフトウェアコンポーネントに障害が発生した場合に、異常情報を取得した可用性管理ミドルウェア31は、自身の管理するソフトウェアコンポーネントのうち、異常情報の通知がなされたソフトウェアコンポーネントをスタンバイ状態からアクティブ状態に切り替える(障害回復)。このように、アクティブ状態で動作するソフトウェアコンポーネントに障害が発生しても、可用性管理ミドルウェア31によってスタンバイ状態からアクティブ状態への切り替えが行われることによって、速やかに障害を回復させることができる。
さらに、可用性管理ミドルウェア31は、図4に示されるように、ソフトウェアコンポーネントAの起動要求を取得した場合には、各ソフトウェアコンポーネントを起動させる情報であるコンポーネント起動情報ファイルから、ソフトウェアコンポーネントAの起動に必要な情報を読み出すとともに環境や因数を設定し、ソフトウェアコンポーネントAを自身の子プロセスとして起動する。例えば、ソフトウェアコンポーネントの障害発生時にスタンバイ状態のソフトウェアコンポーネントがアクティブ状態に切り替えられた後に、中央管理装置1から送信された起動要求を取得した可用性管理ミドルウェア31は、新たにスタンバイ状態のソフトウェアコンポーネントを生成する。これにより、ソフトウェアコンポーネントの冗長性を回復させることができる。
また、可用性管理ミドルウェア31は、計算機の状態(計算機死活情報)を監視しており、自身の有するソフトウェアコンポーネントと同一のソフトウェアコンポーネントを動作させている他の計算機に、計算機の状態を通知する。計算機死活情報とは、計算機自身が正常に稼働しているか否かを含む情報である。例えば、図5の計算機3bを例に挙げて説明する。図5に示されるように、計算機3bにおいてソフトウェアコンポーネントBがスタンバイ状態で稼働しており、ソフトウェアコンポーネントCがアクティブ状態で稼働している。このような場合に、計算機3bの可用性管理ミドルウェア31は、計算機3bの計算機死活情報を、ソフトウェアコンポーネントBを(アクティブ状態で)稼働させる中央管理装置1と、ソフトウェアコンポーネントCを(スタンバイ状態で)稼働させる計算機3aとに対し通知する。
このように、可用性管理ミドルウェア31は、他の計算機の可用性管理ミドルウェア31に対し、ソフトウェアコンポーネントの異常情報と計算機の死活情報とをそれぞれ分けて通知する。これにより、それぞれの情報が通知されるのに望ましいタイミングで、かつ、最低限の情報量で通知されるので、情報伝達媒体2にかかる負荷を低減することができる。
オペレーティングシステム32は、ソフトウェアコンポーネントの状態を監視し、ソフトウェアコンポーネントに異常が検出された場合に、可用性管理ミドルウェア31に異常情報を通知する。具体的には、オペレーティングシステム32は、計算機3上に有する子プロセスであるソフトウェアコンポーネントの異常を監視しており、監視結果に異常(例えば、ソフトウェアコンポーネントが稼働していることが正常であるとした場合に、稼働していない(ダウンしている)状態を検出する等の死活情報)を検出した場合には、該当するソフトウェアコンポーネントに異常がある旨を異常情報として、親プロセスである可用性管理ミドルウェア31に通知する。このように、オペレーティングシステム32は、ソフトウェアコンポーネント(子プロセス)に異常が検出された場合にのみ、親プロセスである可用性管理ミドルウェア31に対し、自主的に通知する。
中央管理装置1は、計算機のうち少なくともいずれか1つの計算機であって、可用性管理ミドルウェア31に対して、ソフトウェアコンポーネントの起動及び停止を指示する中央管理コンポーネントを備えている。また、中央管理装置1は、アクティブ状態で動作しているソフトウェアコンポーネントに障害が発生し、障害が発生したソフトウェアコンポーネントをスタンバイ状態で動作させているソフトウェアコンポーネントが、スタンバイ状態からアクティブ状態に切り替えられた後、障害の発生したソフトウェアコンポーネントを新たにスタンバイ状態で動作させる計算機を選定する。
より好ましくは、中央管理装置1は、障害の発生したソフトウェアコンポーネントをアクティブ状態で動作させている計算機と、物理的又は論理的に距離が離れているセグメントに配置される計算機を、新たにソフトウェアコンポーネントをスタンバイ状態で動作させる計算機として選定することが好ましい。
次に、本実施形態に係る計算機システム20の作用について説明する。
中央管理装置1から各計算機3a,3b,3c、及び中央管理装置1自身のそれぞれの可用性管理ミドルウェア31に対し、それぞれ動作させるソフトウェアコンポーネントの種類、ソフトウェアコンポーネントの状態(アクティブ状態又はスタンバイ状態)等の情報が、起動要求として通知される。例えば、計算機3aの可用性管理ミドルウェア31において、ソフトウェアコンポーネントAの起動要求が取得されると、コンポーネント起動情報ファイルからソフトウェアコンポーネントAの起動に必要な情報が読み出されるとともに、環境や因数が設定され、ソフトウェアコンポーネントAが可用性管理ミドルウェア31の子プロセスとして起動される。
また、同様の処理が施され、各計算機3a,3b,3c及び中央管理装置1において、それぞれ起動要求に応じたソフトウェアコンポーネントが起動される(例えば、図1参照)。なお、各計算機3における処理は同様であるため、ここでは、ソフトウェアコンポーネントAに着目して説明する。
アクティブ状態で稼働するソフトウェアコンポーネントAの死活監視を行っている計算機3aのオペレーティングシステム32において、ソフトウェアコンポーネントAの異常が検出されると、オペレーティングシステム32から可用性管理ミドルウェア31に対して異常情報が通知される。異常情報が可用性管理ミドルウェア31に取得されると、可用性管理ミドルウェア31から、中央管理装置1及び同一のソフトウェアコンポーネントAをスタンバイ状態で稼働させている計算機3cのそれぞれに対し、ソフトウェアコンポーネントAの異常情報が通知される。
計算機3cにおいて、ソフトウェアコンポーネントAの異常情報が取得されると、スタンバイ状態で動作されているソフトウェアコンポーネントAが、スタンバイ状態からアクティブ状態に切り替えられる。また、中央管理装置1において、ソフトウェアコンポーネントAの異常情報が取得され、ソフトウェアコンポーネントAがスタンバイ状態からアクティブ状態に切り替えられたことが検出されると、新たにソフトウェアコンポーネントAをスタンバイ状態で動作させる計算機3の選定が行われる。新たにソフトウェアコンポーネントAをスタンバイ状態で動作させる計算機として選定された計算機3の可用性管理ミドルウェア31に対し、中央管理装置1からソフトウェアコンポーネントAをスタンバイ状態で動作させる起動要求が通知される。
以上説明してきたように、本実施形態に係る計算機3及び計算機システム20によれば、可用性管理ミドルウェア31がソフトウェアコンポーネントの親プロセスとなって、子プロセスであるソフトウェアコンポーネントを起動させると、オペレーティングシステム32によって子プロセス(ソフトウェアコンポーネント)が監視され、子プロセス(ソフトウェアコンポーネント)の稼働状態に異常がある場合に、その異常情報がオペレーティングシステムから親プロセスである可用性管理ミドルウェア31に通知される。また、この異常情報は、可用性管理ミドルウェア31から他の計算機3に通知される。
これにより、従来のように、ソフトウェアコンポーネントの異常の有無を、ミドルウェアからオペレーティングシステムに対して周期的に問い合わせる場合と比較して、可用性管理ミドルウェア31のソフトウェアコンポーネントの監視に要する処理負荷を低減することができる。また、可用性管理ミドルウェア31は、異常情報を取得した場合に、その異常情報のソフトウェアコンポーネントと関係する他の計算機に通知するので、周期的に他の計算機3と異常有無の情報を交換する場合と比較すると、情報伝達媒体2にかかる負荷を低減することができる。
また、計算機3の死活情報は、計算機3が有するソフトウェアコンポーネントと同一のソフトウェアコンポーネントを有する計算機3に対してのみ通知されるので、計算機3の死活情報の情報量が低減し、情報伝達媒体2にかかる負荷が低減される。
〔変形例〕
また、本実施形態においては、子プロセスであるソフトウェアコンポーネントの親プロセスは、可用性管理ミドルウェア31とすることとして説明していたが、これに限定されない。例えば、可用性管理ミドルウェア31を親プロセスにすることに代えて、図6に示されるように、ソフトウェアコンポーネントの親プロセスとする仲介コンポーネント33を設けることとしてもよい。仲介コンポーネント33を設ける場合には、オペレーティングシステム32が把握した子プロセスのソフトウェアコンポーネントの異常情報を、親プロセスである仲介コンポーネント33に出力させ、さらに、仲介コンポーネント33から可用性管理ミドルウェア31に異常情報を通知する。
このように、仲介コンポーネント33を設けることによって、例えば、可用性管理ミドルウェア31が複雑な構造等であり、可用性管理ミドルウェア31にソフトウェアコンポーネントの親プロセスにさせる機能を持たせることが困難である場合であっても、簡便にソフトウェアコンポーネントの親コンポーネントを生成し、オペレーティングシステムが取得したソフトウェアコンポーネントの異常情報を可用性管理ミドルウェア31に自主的に通知することができる。
なお、本実施形態においては、ソフトウェアコンポーネントの起動要求は、中央管理コンポーネントから出力されることとして説明していたが、これに限定されない。例えば、任意のソフトウェアコンポーネントから出力されることとしてもよい。
〔第2の実施形態〕
次に、本発明の第2の実施形態について、図7を用いて説明する。
本実施形態の計算機システムが第1の実施形態と異なる点は、スタンバイ状態で稼働させるソフトウェアコンポーネントを複数設けている点である。以下、本実施形態の計算機システムについて、第1の実施形態と共通する点については説明を省略し、異なる点について主に説明する。
中央管理装置は、計算機システム全体のコンポーネント配置や負荷状況を監視し、それぞれのソフトウェアコンポーネントをスタンバイ状態からアクティブ状態に切り替えるアクティブ化優先度を予め算出し、各計算機3の可用性管理ミドルウェア31に設定する。また、各スタンバイ状態のソフトウェアコンポーネントのアクティブ化優先度は、計算機システム内のコンポーネント配置や負荷状況に変化があった場合に、中央管理装置において再計算され、各計算機3の可用性管理ミドルウェア31に再設定される。
なお、本実施形態においては、アクティブ化優先度は、負荷の低い計算機に対して優先度を高く設定することとして説明するが、これに限定されない。例えば、予め規定される優先順位に基づいて選定することとしてもよい。
可用性管理ミドルウェア31は、ソフトウェアコンポーネントの異常通知を取得すると、異常通知を受けたソフトウェアコンポーネントのアクティブ化優先度を検出し、アクティブ化優先度に基づいて、ソフトウェアコンポーネントに対する処理を行う。具体的には、可用性管理ミドルウェア31は、異常通知を取得したソフトウェアコンポーネントのアクティブ化優先度が「最優先」を示す状態である場合には、そのソフトウェアコンポーネントをスタンバイ状態からアクティブ状態に切り替える。一方、可用性管理ミドルウェア31は、異常通知を取得したソフトウェアコンポーネントのアクティブ化優先度が「最優先」でない状態である場合には、そのソフトウェアコンポーネントのスタンバイ状態のアクティブ化優先度を1つ上げる。
次に、本実施形態に係る計算機システムの作用について説明する。
まず、図7に示されるように、計算機3aはソフトウェアコンポーネント(例えば、ソフトウェアコンポーネントA)をアクティブ状態で稼働させており、計算機3b、3cはそれぞれソフトウェアコンポーネント(例えば、ソフトウェアコンポーネントA)をスタンバイ状態で稼働させている(ステップSA1)。また、計算機3bは、ソフトウェアコンポーネントAのアクティブ化優先度は「最優先」とされており、計算機3cのソフトウェアコンポーネントAのアクティブ化優先度は「最優先」とされていない場合を例に挙げて説明する。
ここで、計算機3aのアクティブ状態のソフトウェアコンポーネントに異常が生じた場合、そのソフトウェアコンポーネントの異常情報が、同一のソフトウェアコンポーネントを有する計算機3b及び計算機3cに通知されるとともに、その異常情報は中央管理装置(図示略)に通知される。
計算機3bの可用性管理ミドルウェア31は、異常情報を取得すると、アクティブ化優先度に基づいて、ソフトウェアコンポーネントAをスタンバイ状態からアクティブ状態に切り替える(ステップSA2)。また、計算機3cの可用性管理ミドルウェア31は、ソフトウェアコンポーネントAのアクティブ化優先度の優先度を1つ上げる。
中央管理装置において、計算機3bのソフトウェアコンポーネントのアクティブ状態への切り替え完了が検出されると、続いて、上記アクティブ状態の切り替えを行ったソフトウェアコンポーネントをスタンバイ状態で稼働させる新たな計算機を選定する。
新たにスタンバイ状態で稼働させる計算機は、異常の発生した計算機3aを除き、ソフトウェアコンポーネントがアクティブ状態で動作する計算機3bとは物理的又は論理的に距離が離れた(計算機3bとはセグメントが異なる)計算機である計算機3dに選定される。
中央管理装置は、計算機3dに対し、ソフトウェアコンポーネントをスタンバイ状態で起動させる生成指示を出力する。計算機3dは、ソフトウェアコンポーネントをスタンバイ状態で起動させる(ステップSA3)。また、計算機3dにおいて、ソフトウェアコンポーネントが新たなスタンバイ状態で稼働した後、計算機3bのアクティブ状態のソフトウェアコンポーネントと計算機3dのスタンバイ状態のソフトウェアコンポーネントとが処理情報を同期させ、冗長性が回復される(ステップSA4)。
なお、本実施形態においては、新たにスタンバイ状態で稼働させるソフトウェアコンポーネントは、物理的又は論理的に距離が離れた計算機を優先的に選定することとしていたが、これに限定されない。例えば、負荷の低い計算機を優先的に選定することとしてもよいし、予め規定される優先順位に基づいて選定することとしてもよい。
1 中央管理装置
2 情報伝達媒体
3a、3b、3c 計算機
20 計算機システム
31 可用性管理ミドルウェア
32 オペレーティングシステム


Claims (10)

  1. 情報伝達媒体を介して他の計算機と互いに通信可能に接続され、オペレーティングシステムを備える計算機であって、
    ソフトウェアコンポーネントと前記オペレーティングシステムとの間に介在し、前記ソフトウェアコンポーネントを子プロセスとして起動させ、前記ソフトウェアコンポーネントの親プロセスとなるミドルウェアを具備し、
    前記オペレーティングシステムは、前記ソフトウェアコンポーネントの稼働状態を監視し、前記ソフトウェアコンポーネントに異常が検出された場合に、前記ミドルウェアに異常情報を通知し、
    前記ミドルウェアは、前記異常情報を取得すると、前記ソフトウェアコンポーネントの前記異常情報を他の前記計算機に通知する計算機。
  2. 情報伝達媒体を介して他の計算機と互いに通信可能に接続され、オペレーティングシステムを備える計算機であって、
    ソフトウェアコンポーネントを子プロセスとして起動させ、前記ソフトウェアコンポーネントの親プロセスとなり、前記ソフトウェアコンポーネントと前記オペレーティングシステムとの間に介在し、前記ソフトウェアコンポーネントの可用性を管理するミドルウェアに対し、前記ソフトウェアコンポーネントの異常情報を出力する仲介コンポーネントを具備し、
    前記オペレーティングシステムは、前記ソフトウェアコンポーネントの稼働状態を監視し、前記ソフトウェアコンポーネントに異常が検出された場合に、前記仲介コンポーネントに前記異常情報を通知し、
    前記ミドルウェアは、前記仲介コンポーネントを介して前記異常情報を取得すると、前記ソフトウェアコンポーネントの前記異常情報を他の前記計算機に通知する計算機。
  3. 前記ミドルウェアの機能により、前記計算機の稼働状態が計算機死活情報として、他の前記計算機に通知される請求項1または請求項2に記載の計算機。
  4. 請求項1から請求項3のいずれかに記載の複数の計算機を備える計算機システムであって、
    一の前記計算機において前記ソフトウェアコンポーネントがアクティブ状態で動作している場合に、該ソフトウェアコンポーネントと同一の前記ソフトウェアコンポーネントを少なくともいずれか一の他の前記計算機においてスタンバイ状態で動作させており、
    前記ミドルウェアは、アクティブ状態又はスタンバイ状態で動作している少なくとも一つの前記ソフトウェアコンポーネントに障害が発生した場合に、同一の前記ソフトウェアコンポーネントを動作させている他の前記計算機に、前記異常情報を通知する計算機システム。
  5. 一の前記計算機が、前記ソフトウェアコンポーネントをアクティブ状態で動作させ、
    他の複数の前記計算機が、前記一の計算機においてアクティブ状態で動作させている前記ソフトウェアコンポーネントと同一の前記ソフトウェアコンポーネントをスタンバイ状態で動作させる請求項4に記載の計算機システム。
  6. アクティブ状態で動作している前記ソフトウェアコンポーネントに障害が発生し、障害が発生した該ソフトウェアコンポーネントをスタンバイ状態で動作させている前記ソフトウェアコンポーネントが、スタンバイ状態からアクティブ状態に切り替えられた後、
    障害が発生した前記ソフトウェアコンポーネントをアクティブ状態で動作させている計算機から物理的又は論理的に距離が離れているセグメントの前記計算機が、障害が発生した前記ソフトウェアコンポーネントを新たにスタンバイ状態で起動する計算機として選定される請求項4または請求項5に記載の計算機システム。
  7. 情報伝達媒体を介して他の計算機と互いに通信可能に接続される計算機の計算機管理方法であって、
    ソフトウェアコンポーネントと前記オペレーティングシステムとの間に介在するミドルウェアが、前記ソフトウェアコンポーネントを子プロセスとして起動し、前記ソフトウェアコンポーネントの親プロセスとなる過程と、
    前記オペレーティングシステムが、前記ソフトウェアコンポーネントの稼働状態を監視し、前記ソフトウェアコンポーネントに異常が検出された場合に、前記ミドルウェアに異常情報を通知する過程と、
    前記ミドルウェアが、前記異常情報を取得すると、前記ソフトウェアコンポーネントの前記異常情報を他の前記計算機に通知する過程と
    を有する計算機管理方法。
  8. 情報伝達媒体を介して他の計算機と互いに通信可能に接続される計算機に含まれるコンピュータに実行させるための計算機管理プログラムであって、
    ソフトウェアコンポーネントとオペレーティングシステムとの間に介在するミドルウェアが、前記ソフトウェアコンポーネントを子プロセスとして起動し、前記ソフトウェアコンポーネントの親プロセスとなる処理と、
    前記ミドルウェアが、前記オペレーティングシステムから通知される前記ソフトウェアコンポーネントの前記異常情報を取得すると、前記ソフトウェアコンポーネントの前記異常情報を他の前記計算機に通知する処理と
    をコンピュータに実行させる計算機管理プログラム。
  9. 情報伝達媒体を介して他の計算機と互いに通信可能に接続される計算機の計算機管理方法であって、
    ソフトウェアコンポーネントとオペレーティングシステムとの間に介在し、前記ソフトウェアコンポーネントの可用性を管理するミドルウェアに対し、前記ソフトウェアコンポーネントの異常情報を出力する仲介コンポーネントが、前記ソフトウェアコンポーネントを子プロセスとして起動させ、前記ソフトウェアコンポーネントの親プロセスとなる過程と、
    前記オペレーティングシステムが、前記ソフトウェアコンポーネントの稼働状態を監視し、前記ソフトウェアコンポーネントに異常が検出された場合に、前記仲介コンポーネントに前記異常情報を通知する過程と、
    前記ミドルウェアが、前記仲介コンポーネントを介して前記異常情報を取得すると、前記ソフトウェアコンポーネントの前記異常情報を他の前記計算機に通知する過程と
    を有する計算機管理方法。
  10. 情報伝達媒体を介して他の計算機と互いに通信可能に接続された計算機に含まれるコンピュータに実行させるための計算機管理プログラムであって、
    ソフトウェアコンポーネントとオペレーティングシステムとの間に介在する仲介コンポーネントが、前記ソフトウェアコンポーネントを子プロセスとして起動させ、前記ソフトウェアコンポーネントの親プロセスとなる処理と、
    前記仲介コンポーネントが、前記ソフトウェアコンポーネントとオペレーティングシステムとの間に介在して、前記ソフトウェアコンポーネントの可用性を管理し、かつ、該ソフトウェアコンポーネントの異常情報を他の前記計算機に通知するミドルウェアに対して、前記ソフトウェアコンポーネントの前記異常情報を出力する処理と
    をコンピュータに実行させる計算機管理プログラム。
JP2010001376A 2010-01-06 2010-01-06 計算機及び計算機管理方法並びに計算機管理プログラム Active JP5839774B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010001376A JP5839774B2 (ja) 2010-01-06 2010-01-06 計算機及び計算機管理方法並びに計算機管理プログラム
PCT/JP2011/050005 WO2011083778A1 (ja) 2010-01-06 2011-01-04 計算機及び計算機管理方法並びに計算機管理プログラム
US13/512,604 US9164825B2 (en) 2010-01-06 2011-01-04 Computing unit, method of managing computing unit, and computing unit management program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010001376A JP5839774B2 (ja) 2010-01-06 2010-01-06 計算機及び計算機管理方法並びに計算機管理プログラム

Publications (2)

Publication Number Publication Date
JP2011141675A true JP2011141675A (ja) 2011-07-21
JP5839774B2 JP5839774B2 (ja) 2016-01-06

Family

ID=44305514

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010001376A Active JP5839774B2 (ja) 2010-01-06 2010-01-06 計算機及び計算機管理方法並びに計算機管理プログラム

Country Status (3)

Country Link
US (1) US9164825B2 (ja)
JP (1) JP5839774B2 (ja)
WO (1) WO2011083778A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021036450A (ja) * 2020-11-05 2021-03-04 株式会社日立製作所 記憶システム及びその制御方法
US11636015B2 (en) 2017-11-30 2023-04-25 Hitachi, Ltd. Storage system and control software deployment method

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516790B (zh) * 2014-12-24 2017-08-25 西安电子科技大学 一种分布式环境下检查点记录和恢复的系统及方法
JP7149313B2 (ja) * 2020-09-28 2022-10-06 株式会社日立製作所 記憶システム及びその制御方法
WO2022150932A1 (en) * 2021-01-18 2022-07-21 Arthur Intelligence Inc. Methods and systems for secure and reliable integration of healthcare practice operations, management, administrative and financial software systems

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342058A (ja) * 1992-06-10 1993-12-24 Mitsubishi Electric Corp プロセス異常検知方式
JP2000215076A (ja) * 1999-01-26 2000-08-04 Toshiba Corp クラスタシステム及びクラスタシステムにおけるフェ―ルオ―バ処理方法
JP2007133603A (ja) * 2005-11-09 2007-05-31 Fujitsu Ten Ltd コンピュータシステム、基本ソフトウェアおよび監視プログラム
JP2009301079A (ja) * 2008-06-10 2009-12-24 Mitsubishi Electric Corp 電子計算機装置及びソフトウェア処理遅延検出時のデータ保存方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787249A (en) * 1996-04-30 1998-07-28 International Business Machines Coporation Method for managing membership of a group of processors in a distributed computing environment
US5991821A (en) * 1996-04-30 1999-11-23 International Business Machines Corporation Method for serializing actions of independent process groups
US5790772A (en) * 1996-04-30 1998-08-04 International Business Machines Corporation Communications method involving groups of processors of a distributed computing environment
US6763369B1 (en) * 1999-07-13 2004-07-13 Interactive Intelligence, Inc. Hierarchical process management in an intelligent call processing system
US6854072B1 (en) * 2000-10-17 2005-02-08 Continuous Computing Corporation High availability file server for providing transparent access to all data before and after component failover
US6996502B2 (en) 2004-01-20 2006-02-07 International Business Machines Corporation Remote enterprise management of high availability systems
US7499899B2 (en) * 2004-07-02 2009-03-03 Northrop Grumman Corporation Dynamic software integration architecture
JP2006099308A (ja) * 2004-09-29 2006-04-13 Hitachi Ltd コンポーネントベース・アプリケーション構築方法
JP4408122B2 (ja) 2006-07-10 2010-02-03 三菱電機株式会社 計算機システム、計算機システムの計算機制御方法および計算機制御プログラム
JP2008188416A (ja) 2007-01-10 2008-08-21 Bridgestone Corp スプリンクラー配管用部材、スプリンクラー消火装置
US7890616B2 (en) * 2007-03-02 2011-02-15 Informed Control Inc. System and method for validation of middleware failover behavior
US8434077B2 (en) * 2007-10-18 2013-04-30 International Business Machines Corporation Upgrading virtual resources

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342058A (ja) * 1992-06-10 1993-12-24 Mitsubishi Electric Corp プロセス異常検知方式
JP2000215076A (ja) * 1999-01-26 2000-08-04 Toshiba Corp クラスタシステム及びクラスタシステムにおけるフェ―ルオ―バ処理方法
JP2007133603A (ja) * 2005-11-09 2007-05-31 Fujitsu Ten Ltd コンピュータシステム、基本ソフトウェアおよび監視プログラム
JP2009301079A (ja) * 2008-06-10 2009-12-24 Mitsubishi Electric Corp 電子計算機装置及びソフトウェア処理遅延検出時のデータ保存方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNH199700201012; 白木原敏雄、平山秀昭: '高可用性(HA)の新技術-無停止分散システム構築のためのミドルウェア' 東芝レビュー 第52巻,第8号(通巻578号), 19970801, pp.40〜42, 株式会社東芝 *
JPN6011005825; 白木原敏雄、平山秀昭: '高可用性(HA)の新技術-無停止分散システム構築のためのミドルウェア' 東芝レビュー 第52巻,第8号(通巻578号), 19970801, pp.40〜42, 株式会社東芝 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11636015B2 (en) 2017-11-30 2023-04-25 Hitachi, Ltd. Storage system and control software deployment method
JP2021036450A (ja) * 2020-11-05 2021-03-04 株式会社日立製作所 記憶システム及びその制御方法
JP7057408B2 (ja) 2020-11-05 2022-04-19 株式会社日立製作所 記憶システム及びその制御方法

Also Published As

Publication number Publication date
JP5839774B2 (ja) 2016-01-06
US20120239988A1 (en) 2012-09-20
US9164825B2 (en) 2015-10-20
WO2011083778A1 (ja) 2011-07-14

Similar Documents

Publication Publication Date Title
CN100470494C (zh) 集群可用性管理方法和系统
JP5352115B2 (ja) ストレージシステム及びその監視条件変更方法
JP5839774B2 (ja) 計算機及び計算機管理方法並びに計算機管理プログラム
JP2013073289A (ja) 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
JP2014026321A (ja) ストレージ装置、情報処理装置、情報処理システム、アクセス制御方法、およびアクセス制御プログラム
JP2008250421A (ja) ストレージ保守・管理装置の冗長化方法、及びその方法を使用する装置
JP2013190955A (ja) ホットスタンバイ方式によるクライアントサーバシステム
JP2005301436A (ja) クラスタシステムおよびクラスタシステムにおける障害回復方法
JP5613119B2 (ja) マスター/スレーブシステム、制御装置、マスター/スレーブ切替方法、および、マスター/スレーブ切替プログラム
JP2014048933A (ja) プラント監視システム、プラント監視方法およびプラント監視プログラム
JP2010231257A (ja) 高可用性システム、高可用性システムの対障害対策方法
JP6026142B2 (ja) 複数計算機が独立動作する制御システム
JP2012150657A (ja) 計算機システム
JP2006058960A (ja) 冗長構成のサーバシステムにおける同期化方法及びシステム
JP4856949B2 (ja) フェイルオーバ方法、フェイルオーバプログラム、および、クラスタシステム
KR20140140719A (ko) 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법
JP5691248B2 (ja) タスク引継プログラム、処理装置及びコンピュータ・システム
JP2009003631A (ja) 冗長構成サーバシステム、同期処理方法、及びプログラム
US20140297724A1 (en) Network element monitoring system and server
US20200089585A1 (en) Distributed processing system and method for management of distributed processing system
JP2008108101A (ja) 電源制御システム及び方法、電子装置、プログラム
JP5951520B2 (ja) 多重系処理システム
JP2011159222A (ja) サーバシステム及びサーバシステムの制御方法
JP2011028481A (ja) フォールトトレラントサーバ、プロセッサ切り替え方法およびプロセッサ切り替えプログラム
JP2014235503A (ja) 情報処理装置、情報処理システム、ハードディスク障害検知方法、サービス継続方法、ハードディスク障害検知プログラム、サービス継続プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130430

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130701

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140107

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140407

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140414

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20140516

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150814

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151110

R151 Written notification of patent or utility model registration

Ref document number: 5839774

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151