JP6019995B2 - 分散システム、サーバ計算機、及び障害発生防止方法 - Google Patents
分散システム、サーバ計算機、及び障害発生防止方法 Download PDFInfo
- Publication number
- JP6019995B2 JP6019995B2 JP2012209911A JP2012209911A JP6019995B2 JP 6019995 B2 JP6019995 B2 JP 6019995B2 JP 2012209911 A JP2012209911 A JP 2012209911A JP 2012209911 A JP2012209911 A JP 2012209911A JP 6019995 B2 JP6019995 B2 JP 6019995B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- interface
- server
- application
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/26—Functional testing
- G06F11/273—Tester hardware, i.e. output processing circuits
- G06F11/2736—Tester hardware, i.e. output processing circuits using a dedicated service processor for test
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/076—Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0772—Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Description
(a)前記第1のサーバにおいて前記アプリケーションの障害が発生した場合に、前記第1のサーバは、前記アプリケーションの障害原因を特定する障害情報を生成すること、
(b)前記第2のサーバは、前記障害情報に基づいて決定された、前記アプリケーションの障害発生を防止するための障害発生防止処理を実行すること。
以下、図面を参照して本発明の実施の形態1について説明する。図1は、実施の形態1にかかる分散システム1の構成例を示すブロック図である。
上述のサーバ計算機2は、サーバ計算機3の実行する処理をさらに実行してもよい。すなわち、サーバ計算機2は、アプリケーション4の障害が発生した場合に、アプリケーション4の障害原因を特定する障害情報を生成する。そしてサーバ計算機2は、サーバ計算機3がアプリケーション5の障害原因を特定する障害情報を生成した場合に、その障害情報に基づいて決定された、前記アプリケーションの障害発生を防止するための障害発生防止処理を実行する。サーバ計算機3も、同様にサーバ計算機2の実行する処理を実行してもよい。つまり、サーバ計算機は、自身に障害が発生した場合に他のサーバ計算機が障害発生防止処理を実行するために必要な障害情報を生成するだけでなく、他のサーバ計算機が障害情報を生成した場合にもその障害情報に基づいた障害発生防止処理を実行することができる。このようなサーバ計算機が分散システム1に備わることにより、分散システム1における障害発生防止をより効率的にすることができる。
上述の分散システム1は、サーバ計算機2、3の他に、分散システム1を管理する分散管理サーバ6が設けられていてもよい。図2は、そのような分散システム1の構成例を示すブロック図である。分散管理サーバ6は、分散システム1においてサーバ計算機2、3と接続されている。サーバ計算機2、3の説明については図1と同様である。
以下、図面を参照して本発明の実施の形態2について説明する。図3は、実施の形態2にかかる分散管理システム10の構成例を示すブロック図である。
この項目では、アプリケーションの呼び出し期間でデッドロックが検出された場合のアプリケーションサーバ11に対するリカバリ操作が指定されている。実施の形態2では、少なくとも「アプリケーションサーバの再起動」、「旧バージョンへのアプリケーションのダウングレード」がリカバリ操作の選択肢にある。
この項目では、過剰にメモリが消費されたと判断するためのアプリケーションサーバ11に対するメモリ使用率が設定されている。実際のアプリケーションサーバ11のメモリ使用率がこの項目における設定値以上のメモリ使用率に達した場合、アプリケーションサーバ11は、過剰なメモリ消費が発生したものと判断する。
この項目では、過剰にメモリが消費された原因と判断するための該当コンポーネント及びインタフェース名のエントリ回数(障害発生回数)が指定されている。指定された回数以上エントリがされた場合、アプリケーションサーバ11は、そのエントリを過剰なメモリ消費の原因と判断する。
この項目は、過剰なメモリ消費が検出された際のアプリケーションサーバに対するリカバリ操作を選択するための項目である。ここでは、少なくとも「強制GC(Garbage Collection)の実行」、「旧バージョンへのアプリケーションのダウングレード」がリカバリ操作の選択肢にある。
この項目は、過剰にCPUが消費されたと判断するためのアプリケーションサーバ11に対するCPU使用率が設定された項目である。実際のアプリケーションサーバ11のCPU使用率が設定値以上のCPU使用率に達した場合、アプリケーションサーバ11は、過剰なCPU消費が発生したと判断する。
この項目では、過剰にCPUが消費された原因と判断するための該当アプリケーションコンポーネント及びインタフェース名のエントリ回数が指定されている。指定された回数以上エントリがされた場合、アプリケーションサーバ11は、それを過剰なCPU消費の原因と判断する。
過剰なCPU消費が検出された際のアプリケーションサーバに対するリカバリ操作を選択する。ここでは、少なくとも「処理優先度の変更」、「旧バージョンへのアプリケーションのダウングレード」がリカバリ操作の選択肢にある。
・コンポーネント名(識別名)
・インタフェース名(メソッド名)
・障害の種類(デッドロック、過剰なCPU消費、過剰なメモリ消費、など)
・関連コンポーネント名(識別名)
・関連インタフェース名(メソッド名)
・リカバリアクション
なお、関連コンポーネント名及び関連インタフェース名は、業務ロジックが呼び出された対象コンポーネントのコンポーネント及びそのインタフェースに関連して障害を発生させると考えられるコンポーネント及びインタフェースを記載したものである。処理中のリクエスト処理数が1の場合には、業務ロジックが呼び出された対象コンポーネントのコンポーネント及びそのインタフェースのみがコンポーネント名及びインタフェース名に記載され、関連コンポーネント名及び関連インタフェース名には何も記載されない。
・コンポーネント名(識別名)
・インタフェース名(メソッド名)
・障害の種類(デッドロック、過剰なメモリ消費、過剰なCPU消費、など)
・関連コンポーネント名(識別名)
・関連インタフェース名(メソッド名)
ここでは、特定のアプリケーションサーバ11Aにおいて、業務システム稼働中に、アプリケーションの欠陥を起因として、複数のリクエストを並行して処理中のスレッド間でデッドロックが発生した場合を考える。ここで、アプリケーションサーバ11において、デッドロックの対象となったアプリケーションのコンポーネントをそれぞれA、B、呼び出しインタフェースをそれぞれAm、Bmとする。またデッドロック発生時には、リカバリアクションとして当該アプリケーションサーバの再起動が予め定義されている。
以下、もう一つの具体例を用いて、上述の図4、図6及び図8の処理についてさらに説明する。ここでは、特定のアプリケーションサーバ11Aにおいて、システム稼働中に、アプリケーションの欠陥を起因としてメモリの過剰な消費が発生した場合を考える。なお、アプリケーションサーバ11において、メモリを過剰に消費するアプリケーションのコンポーネントをA、そのインタフェースをAmとし、それ以外の(問題を含まない)コンポーネントをB〜E、それらのインタフェースをそれぞれBm〜Emとする。さらに、障害情報記憶部16内のデータにおいて、それらが障害発生の原因と判断するための発生回数の閾値が「3」であり、設定されたリカバリアクションが「強制GC」であると設定される。
[コンポーネント名:インタフェース名] A:Am、C:Cm、E:Em
[コンポーネント名:インタフェース名] A:Am、B:Bm、C:Cm(以下、コンポーネント及びそれに対応するインタフェースを同様に表示する。)
[コンポーネント名:インタフェース名] A:Am、D:Dm、E:Em
以下、さらに一つの具体例を用いて、上述の図4、図6及び図8の処理についてさらに説明する。ここでは、特定のアプリケーションサーバ11Aにおいて、システム稼働中に、アプリケーションの欠陥を起因としてCPUの過剰な消費が発生した場合を考える。なお、アプリケーションサーバ11において、CPUを過剰に消費するアプリケーションのコンポーネントをA、そのインタフェースをAmとし、それ以外の(問題を含まない)コンポーネントをB〜E、それらのインタフェースをそれぞれBm〜Emとする。さらに、障害情報記憶部16内のデータにおいて、それらが障害発生の原因と判断するための発生回数の閾値が「3」であり、設定されたリカバリアクションが「強制GC」であると設定される。
[コンポーネント名:インタフェース名] A:Am、C:Cm、E:Em
[コンポーネント名:インタフェース名] A:Am、B:Bm、C:Cm(以下、コンポーネント及びそれに対応するインタフェースを同様に表示する。)
[コンポーネント名:インタフェース名] A:Am、D:Dm、E:Em
(付記1)
同じアプリケーションを実行可能な第1のサーバ及び第2のサーバを備える分散システムであって、
前記第1のサーバにおいて前記アプリケーションの障害が発生した場合に、前記第1のサーバは、前記アプリケーションの障害原因を特定する障害情報を生成し、
前記第2のサーバは、前記障害情報に基づいて決定された、前記アプリケーションの障害発生を防止するための障害発生防止処理を実行する、
分散システム。
(付記2)
前記分散システムは、前記第1のサーバ及び前記第2のサーバを管理する分散管理サーバをさらに備え、
前記アプリケーションの障害が発生した場合に、前記第1のサーバは、前記第1のサーバにおける障害のリカバリに必要なリカバリ処理を特定する情報を含む前記障害情報を生成し、
前記分散管理サーバは、前記障害情報から前記リカバリ処理を特定する情報を抽出して前記第1のサーバに送信し、
前記第1のサーバは、前記分散管理サーバから送信された前記リカバリ処理を特定する情報に基づいて、前記障害のリカバリ処理を実行する、
付記1に記載の分散システム。
(付記3)
前記第1のサーバにおける前記アプリケーションの障害は、前記第1のサーバのクライアントからのリクエストに基づいて発生したものであり、
前記第2のサーバは、前記障害情報に基づき、前記第2のサーバのクライアントからのリクエストをモニタリングする、
付記1又は2に記載の分散システム。
(付記4)
前記第1のサーバ及び前記第2のサーバは、前記アプリケーションにかかる複数のコンポーネントを有し、
前記第1のサーバにおいて、第1のコンポーネントの第1のインタフェースにおいて閾値以上の障害が発生した場合に、前記第1のサーバは、前記第1のインタフェースを前記障害の原因として特定し、かつ、前記複数のコンポーネントのインタフェースにおいて前記第1のインタフェースの次に多く障害が発生した第2のコンポーネントの第2のインタフェースを前記障害の関連情報として含む前記障害情報を出力し、
前記第2のサーバは、前記障害情報に基づき、前記第1のインタフェースが前記第2のサーバのクライアントからリクエストされた場合に、前記第2のインタフェースがスレッドにおいて実行中であるか否かを判定し、実行中である場合に前記リクエストの処理を実行させないようにする、
付記3に記載の分散システム。
(付記5)
前記第1のサーバ及び前記第2のサーバは、前記アプリケーションにかかる複数のコンポーネントを有し、
前記第1のサーバにおいて、第1のコンポーネントの第1のインタフェースにおいて閾値以上の障害が発生するとともに、前記第1のインタフェースの他に閾値以上の障害が発生した第2のコンポーネントの第2のインタフェースがある場合には、前記第1のサーバは、前記第1のインタフェースを前記障害の原因として特定し、かつ、前記第2のインタフェースを前記障害の関連情報として含む前記障害情報を出力し、
前記第2のサーバは、前記障害情報に基づき、前記第1のインタフェースが前記第2のサーバのクライアントからリクエストされた場合に、前記第2のインタフェースがスレッドにおいて実行中であるか否かを判定し、実行中である場合に前記リクエストの処理を実行させないようにする、
付記3又は4に記載の分散システム。
(付記6)
前記第2のサーバは、前記障害情報に基づき、前記第1のインタフェースが前記第2のサーバのクライアントからリクエストされた場合に、前記第1のインタフェースが既にスレッドにおいて実行中であるか否かをさらに判定し、実行中である場合に前記リクエストの処理を実行させないようにする、
付記4又は5に記載の分散システム。
(付記7)
前記第1のサーバ及び前記第2のサーバは、前記アプリケーションにかかる複数のコンポーネントを有し、
前記第1のサーバにおいて、第1のコンポーネントの第1のインタフェースと第2のコンポーネントの第2のインタフェース間におけるデッドロックが前記障害として発生した場合に、前記第1のサーバは、前記第1のインタフェースと前記第2のインタフェースとを前記障害の原因として特定する前記障害情報を出力し、
前記第2のサーバは、前記障害情報に基づき、前記第1のインタフェースが前記第2のサーバのクライアントからリクエストされた場合に、前記第2のインタフェースがスレッドにおいて実行中であるか否かを判定し、実行中である場合に前記リクエストの処理を実行させないようにする、
付記3ないし5のいずれか一項に記載の分散システム。
(付記8)
分散システムに設けられ、同じアプリケーションを実行可能な他のサーバ計算機と接続されたサーバ計算機であって、
前記アプリケーションの障害が発生した場合に、前記アプリケーションの障害原因を特定する障害情報を生成し、
前記他のサーバが前記アプリケーションの障害原因を特定する障害情報を生成した場合に、前記障害情報に基づいて決定された、前記アプリケーションの障害発生を防止するための障害発生防止処理を実行する、
サーバ計算機。
(付記9)
同一のアプリケーションを実行可能な第1のサーバ及び第2のサーバを備えた分散システムに設けられた分散管理サーバであって、
前記第1のサーバから、前記第1のサーバにおけるアプリケーションの障害原因を特定する障害情報を受信した場合に、前記第2のサーバにおいて前記アプリケーションの障害発生を防止するための障害発生防止処理を実行するために用いられる情報として、前記第2のサーバに前記障害情報を通知する分散管理サーバ。
(付記10)
同じアプリケーションを実行可能な第1のサーバ及び第2のサーバを備える分散システムにおいてアプリケーションの障害発生を防止する障害発生防止方法であって、
前記第1のサーバにおいて前記アプリケーションの障害が発生した場合に、前記第1のサーバは、前記アプリケーションの障害原因を特定する障害情報を生成するステップと、
前記第2のサーバは、前記障害情報に基づいて決定された、前記アプリケーションの障害発生を防止するための障害発生防止処理を実行するステップと、を備える
障害発生防止方法。
(付記11)
前記第1のインタフェースにおける障害、前記第2のインタフェースにおける障害は、それぞれメモリの使用率が基準を超えること又はCPUの使用率が基準を超えることのいずれかである、
付記4ないし6のいずれか一項に記載の分散システム。
(付記12)
前記第1のインタフェースにおける障害は、メモリの使用率が基準を超えること又はCPUの使用率が基準を超えることの一方であり、前記第2のインタフェースにおける障害は、メモリの使用率が基準を超えること又はCPUの使用率が基準を超えることの他方である、
付記11に記載の分散システム。
2、3 サーバ計算機
4、5 アプリケーション
6 分散管理サーバ
10 分散管理システム
11 アプリケーションサーバ
12 リクエスト受付部
13 リクエスト解析部
14 運用リクエスト受付部
15 障害情報受信部
16 障害情報記憶部
17 記憶装置
18 障害イベント発行部
19 アプリケーション実行制御部
20 実行管理部
21 障害監視部
22 障害解析部
23 障害分析部
24 障害候補格納部
25 障害情報検索部
26 コンポーネント
27 分散管理サーバ
28 アプリケーション格納部
29 アプリケーション情報管理部
30 障害イベント受信部
31 イベント解析部
32 運用操作発行部
33 障害情報発行部
34 クライアントアプリケーション
Claims (9)
- 同じアプリケーションを実行可能な第1のサーバ及び第2のサーバを備える分散システムであって、
前記第1のサーバにおいて前記アプリケーションの障害が発生した場合に、前記第1のサーバは、前記アプリケーションの障害原因を特定する障害情報であって、前記アプリケーションにおいて障害を生じさせたコンポーネント、又は前記コンポーネントに関するインタフェースを示す障害情報を生成し、
前記第2のサーバは、前記障害情報に基づいて決定された、前記アプリケーションの障害発生を防止するための障害発生防止処理を実行し、
前記第1のサーバ及び前記第2のサーバは、それぞれ前記アプリケーションに関する複数の前記コンポーネントを有し、
前記障害が第1のコンポーネントの第1のインタフェース及び第2のコンポーネントの第2のインタフェースに発生する場合に、前記第1のサーバは、前記第1のインタフェース及び前記第2のインタフェースを示す前記障害情報を出力し、
前記第1のインタフェースが前記第2のサーバのクライアントからリクエストされた場合に、前記第2のサーバは、前記障害情報に基づいて、前記第2のインタフェースが実行中であるか否かを判定し、実行中である場合に前記リクエストの処理を実行させないようにする、
分散システム。 - 前記第1のコンポーネントの前記第1のインタフェースにおいて閾値以上の障害が発生した場合に、前記第1のサーバは、前記第1のインタフェース及び前記複数のコンポーネントのインタフェースにおいて前記第1のインタフェースの次に多く障害が発生した第2のコンポーネントの前記第2のインタフェースを示す前記障害情報を出力する、
請求項1記載の分散システム。 - 前記第1のコンポーネントの前記第1のインタフェースにおいて閾値以上の障害が発生するとともに、前記第1のインタフェースの他に閾値以上の障害が発生した前記第2のコンポーネントの前記第2のインタフェースがある場合には、前記第1のサーバは、前記第1のインタフェース及び前記第2のインタフェースを示す前記障害情報を出力する、
請求項1又は2に記載の分散システム。 - 前記第2のサーバは、前記障害情報に基づき、前記第1のインタフェースが前記第2のサーバのクライアントからリクエストされた場合に、前記第1のインタフェースが既に実行中であるか否かをさらに判定し、実行中である場合に前記リクエストの処理を実行させないようにする、
請求項1乃至3のいずれか1項に記載の分散システム。 - 前記第1のサーバ及び前記第2のサーバは、前記アプリケーションにかかる複数のコンポーネントを有し、
前記第1のサーバにおいて、第1のコンポーネントの第1のインタフェースと第2のコンポーネントの第2のインタフェース間におけるデッドロックが前記障害として発生した場合に、前記第1のサーバは、前記第1のインタフェースと前記第2のインタフェースとを前記障害の原因として特定する前記障害情報を出力する、
請求項1乃至4のいずれか一項に記載の分散システム。 - 前記第1のインタフェースにおける障害及び前記第2のインタフェースにおける障害は、それぞれメモリの使用率が基準を超えること又はCPUの使用率が基準を超えることのいずれかである、
請求項1乃至4のいずれか一項に記載の分散システム。 - 前記第1のインタフェースにおける障害は、メモリの使用率が基準を超えること又はCPUの使用率が基準を超えることの一方であり、前記第2のインタフェースにおける障害は、メモリの使用率が基準を超えること又はCPUの使用率が基準を超えることの他方である、
請求項6に記載の分散システム。 - 分散システムに設けられ、同じアプリケーションを実行可能な他のサーバ計算機と接続されたサーバ計算機であって、
前記アプリケーションの障害が発生した場合に、前記アプリケーションの障害原因を特定する障害情報であって、前記アプリケーションにおいて障害を生じさせたコンポーネント、又は前記コンポーネントに関するインタフェースを示す障害情報を生成し、
前記他のサーバが前記アプリケーションの障害原因を特定する障害情報を生成した場合に、前記障害情報に基づいて決定された、前記アプリケーションの障害発生を防止するための障害発生防止処理を実行し、
前記サーバ計算機は、前記アプリケーションに関する複数の前記コンポーネントを有し、
前記障害が第1のコンポーネントの第1のインタフェース及び第2のコンポーネントの第2のインタフェースに発生する場合に、前記サーバ計算機は、前記第1のインタフェース及び前記第2のインタフェースを示す前記障害情報を出力し、
前記第1のインタフェースが前記サーバ計算機のクライアントからリクエストされた場合に、前記出力された障害情報を受信する前記サーバ計算機は、前記障害情報に基づいて、前記第2のインタフェースが実行中であるか否かを判定し、実行中である場合に前記リクエストの処理を実行させないようにする、
サーバ計算機。 - 同じアプリケーションを実行可能な第1のサーバ及び第2のサーバを備える分散システムにおいてアプリケーションの障害発生を防止する障害発生防止方法であって、
前記第1のサーバにおいて前記アプリケーションの障害が発生した場合に、前記第1のサーバは、前記アプリケーションの障害原因を特定する障害情報であって、前記アプリケーションにおいて障害を生じさせたコンポーネント、又は前記コンポーネントに関するインタフェースを示す障害情報を生成するステップと、
前記第2のサーバは、前記障害情報に基づいて決定された、前記アプリケーションの障害発生を防止するための障害発生防止処理を実行するステップと、
前記障害が第1のコンポーネントの第1のインタフェース及び第2のコンポーネントの第2のインタフェースに発生する場合に、前記第1のサーバは、前記第1のインタフェース及び前記第2のインタフェースを示す前記障害情報を出力するステップと、
前記第1のインタフェースが前記第2のサーバのクライアントからリクエストされた場合に、前記第2のサーバは、前記障害情報に基づいて、前記第2のインタフェースが実行中であるか否かを判定し、実行中である場合に前記リクエストの処理を実行させないようにするステップと、を備える
障害発生防止方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012209911A JP6019995B2 (ja) | 2012-09-24 | 2012-09-24 | 分散システム、サーバ計算機、及び障害発生防止方法 |
CN201310439457.8A CN103685459B (zh) | 2012-09-24 | 2013-09-24 | 分布式系统、服务器计算机、分布式管理服务器和故障防止方法 |
US14/035,311 US9342426B2 (en) | 2012-09-24 | 2013-09-24 | Distributed system, server computer, distributed management server, and failure prevention method |
US15/096,422 US10157110B2 (en) | 2012-09-24 | 2016-04-12 | Distributed system, server computer, distributed management server, and failure prevention method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012209911A JP6019995B2 (ja) | 2012-09-24 | 2012-09-24 | 分散システム、サーバ計算機、及び障害発生防止方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014067089A JP2014067089A (ja) | 2014-04-17 |
JP6019995B2 true JP6019995B2 (ja) | 2016-11-02 |
Family
ID=50321736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012209911A Active JP6019995B2 (ja) | 2012-09-24 | 2012-09-24 | 分散システム、サーバ計算機、及び障害発生防止方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9342426B2 (ja) |
JP (1) | JP6019995B2 (ja) |
CN (1) | CN103685459B (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9015531B2 (en) * | 2011-12-14 | 2015-04-21 | International Business Machines Corporation | Preventing distribution of a failure |
JP6387747B2 (ja) * | 2013-09-27 | 2018-09-12 | 日本電気株式会社 | 情報処理装置、障害回避方法およびコンピュータプログラム |
US9442786B2 (en) * | 2014-06-11 | 2016-09-13 | Honeywell International Inc. | Determining and correcting software server error conditions |
US9501361B2 (en) * | 2014-09-26 | 2016-11-22 | Silverstring Ltd. | Disaster recovery system |
CN105989503A (zh) * | 2015-02-05 | 2016-10-05 | 中国移动通信集团云南有限公司 | 在线交易系统数据一致性的方法及系统 |
CN106997314B (zh) * | 2016-01-22 | 2020-10-16 | 阿里巴巴(中国)有限公司 | 用于分布式系统的异常处理方法、装置及系统 |
JP6801267B2 (ja) * | 2016-07-04 | 2020-12-16 | 富士通株式会社 | 評価プログラム、評価方法、評価装置および情報処理装置 |
JP6984119B2 (ja) * | 2016-11-15 | 2021-12-17 | 沖電気工業株式会社 | 監視装置、監視プログラム、及び監視方法 |
CN108377670A (zh) * | 2016-11-28 | 2018-08-07 | 华为技术有限公司 | 一种处理业务的方法、业务节点、控制节点和分布式系统 |
CN106533798B (zh) * | 2016-12-15 | 2019-09-20 | 北京小米移动软件有限公司 | 检测方法和装置 |
WO2019000473A1 (zh) * | 2017-06-30 | 2019-01-03 | 广东欧珀移动通信有限公司 | 系数计算方法、组件调用方法、装置、介质、服务器及终端 |
US10152432B1 (en) | 2017-07-26 | 2018-12-11 | Dell Products L.P. | Support information provisioning system |
CN108279993B (zh) * | 2018-01-03 | 2021-08-24 | 创新先进技术有限公司 | 实现业务降级的方法及装置和电子设备 |
US10545850B1 (en) * | 2018-10-18 | 2020-01-28 | Denso International America, Inc. | System and methods for parallel execution and comparison of related processes for fault protection |
CN109714214B (zh) * | 2018-12-29 | 2021-08-27 | 网宿科技股份有限公司 | 一种服务器异常的处理方法及管理设备 |
CN110286732B (zh) * | 2019-06-27 | 2021-01-12 | 华云数据控股集团有限公司 | 高可用集群掉电自动恢复方法、装置、设备及存储介质 |
CN110908692A (zh) * | 2019-12-15 | 2020-03-24 | 湖南龙之翔智能科技有限公司 | 一种智能电表的远程升级方法及系统 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0381838A (ja) * | 1989-08-24 | 1991-04-08 | Nec Corp | ソフトウェア障害の修正方式 |
US6425093B1 (en) * | 1998-01-05 | 2002-07-23 | Sophisticated Circuits, Inc. | Methods and apparatuses for controlling the execution of software on a digital processing system |
US6282568B1 (en) * | 1998-12-04 | 2001-08-28 | Sun Microsystems, Inc. | Platform independent distributed management system for manipulating managed objects in a network |
JP2002014880A (ja) * | 2000-06-28 | 2002-01-18 | Sony Corp | 素材送出装置および素材送出方法 |
US7213246B1 (en) * | 2002-03-28 | 2007-05-01 | Veritas Operating Corporation | Failing over a virtual machine |
JP2003296141A (ja) * | 2002-03-29 | 2003-10-17 | Nec Corp | 障害事前検知システム、障害事前検知方法、障害事前検知サーバ及び障害事前検知端末 |
JP4054616B2 (ja) * | 2002-06-27 | 2008-02-27 | 株式会社日立製作所 | 論理計算機システム、論理計算機システムの構成制御方法および論理計算機システムの構成制御プログラム |
JP2005209029A (ja) | 2004-01-23 | 2005-08-04 | Tm T & D Kk | アプリケーション管理システム、アプリケーション管理方法およびその管理方法を実行させるためのプログラム |
US7739689B1 (en) * | 2004-02-27 | 2010-06-15 | Symantec Operating Corporation | Internal monitoring of applications in a distributed management framework |
US7490268B2 (en) * | 2004-06-01 | 2009-02-10 | The Trustees Of Columbia University In The City Of New York | Methods and systems for repairing applications |
US8271838B2 (en) * | 2004-11-16 | 2012-09-18 | Siemens Corporation | System and method for detecting security intrusions and soft faults using performance signatures |
US7711989B2 (en) * | 2005-04-01 | 2010-05-04 | Dot Hill Systems Corporation | Storage system with automatic redundant code component failure detection, notification, and repair |
JP4876438B2 (ja) * | 2005-05-31 | 2012-02-15 | 株式会社日立製作所 | コンポーネントソフトウェアの運用方法および運用基盤 |
US7702966B2 (en) * | 2005-09-07 | 2010-04-20 | Intel Corporation | Method and apparatus for managing software errors in a computer system |
US7966514B2 (en) * | 2005-09-19 | 2011-06-21 | Millennium It (Usa), Inc. | Scalable fault tolerant system |
US20080298256A1 (en) * | 2007-05-30 | 2008-12-04 | Hitachi, Ltd. | Distributed System |
CN101127766B (zh) * | 2007-09-24 | 2010-06-09 | 中兴通讯股份有限公司 | 基于sip协议的消息处理方法、装置及ip通信系统 |
JP2010009127A (ja) | 2008-06-24 | 2010-01-14 | Toshiba Corp | 管理プログラムおよび管理装置 |
US9417977B2 (en) * | 2008-12-31 | 2016-08-16 | Sap Se | Distributed transactional recovery system and method |
JP5527503B2 (ja) * | 2009-02-13 | 2014-06-18 | 富士ゼロックス株式会社 | 監視装置および情報処理システムおよびプログラム |
CN101771724B (zh) * | 2010-01-05 | 2012-10-10 | 吉林大学 | 异构分布式信息集成方法、装置及系统 |
-
2012
- 2012-09-24 JP JP2012209911A patent/JP6019995B2/ja active Active
-
2013
- 2013-09-24 CN CN201310439457.8A patent/CN103685459B/zh active Active
- 2013-09-24 US US14/035,311 patent/US9342426B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US9342426B2 (en) | 2016-05-17 |
CN103685459B (zh) | 2017-07-28 |
CN103685459A (zh) | 2014-03-26 |
JP2014067089A (ja) | 2014-04-17 |
US20140089736A1 (en) | 2014-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6019995B2 (ja) | 分散システム、サーバ計算機、及び障害発生防止方法 | |
JP4920391B2 (ja) | 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム | |
JP4945935B2 (ja) | 自律運用管理システム、自律運用管理方法及びプログラム | |
US9712418B2 (en) | Automated network control | |
US11748163B2 (en) | Control token and hierarchical dynamic control | |
US11507479B2 (en) | High availability for a relational database management system as a service in a cloud platform | |
CN103152419A (zh) | 一种云计算平台的高可用集群管理方法 | |
US8112518B2 (en) | Redundant systems management frameworks for network environments | |
US10924326B2 (en) | Method and system for clustered real-time correlation of trace data fragments describing distributed transaction executions | |
CN104486108A (zh) | 基于Zookeeper的节点配置方法和基于Zookeeper的节点配置系统 | |
CN111026735B (zh) | 一种数据传输方法、装置、设备及介质 | |
CN108632106A (zh) | 监控服务设备的系统 | |
US10157110B2 (en) | Distributed system, server computer, distributed management server, and failure prevention method | |
JP2019159729A (ja) | 故障予測システム | |
JP5632820B2 (ja) | 広域分散構成変更システム | |
US11544091B2 (en) | Determining and implementing recovery actions for containers to recover the containers from failures | |
Kit et al. | Study on High Availability and Fault Tolerance | |
JP5056464B2 (ja) | プロセス監視方法、情報処理装置、及びプログラム | |
CN116319758A (zh) | 数据迁移方法、装置、电子设备及可读存储介质 | |
US11700178B2 (en) | System and method for managing clusters in an edge network | |
CN114598591A (zh) | 嵌入式平台节点故障恢复系统及方法 | |
CN110188008B (zh) | 作业调度主备切换方法、装置、计算机设备及存储介质 | |
JP2006285453A (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
Eto et al. | Analysis of a service degradation model with preventive rejuvenation | |
JP6984119B2 (ja) | 監視装置、監視プログラム、及び監視方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150807 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160919 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6019995 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |