JP2005316728A - Fault analysis device, method, and program - Google Patents
Fault analysis device, method, and program Download PDFInfo
- Publication number
- JP2005316728A JP2005316728A JP2004133998A JP2004133998A JP2005316728A JP 2005316728 A JP2005316728 A JP 2005316728A JP 2004133998 A JP2004133998 A JP 2004133998A JP 2004133998 A JP2004133998 A JP 2004133998A JP 2005316728 A JP2005316728 A JP 2005316728A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- monitoring
- business
- information table
- resources
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
この発明は、システム中で発生した障害状況から障害原因を推定して、その障害の素となった要素を特定する装置、方法に関するものである。 The present invention relates to an apparatus and a method for estimating a cause of a failure from a failure situation occurring in a system and identifying an element that is a source of the failure.
分散コンピュータシステムでは、障害の発生に備えてシステム内でさまざまな監視が行われている。例えば、ping監視に代表される機器外部からの問い合わせによるシステムあるいはシステムを構成する要素の生死監視がある。また障害以外にも、機器内のエージェントによるプロセス有無やディスク空き、CPU使用状況等のリソース監視、業務処理の利用者視点に立った応答時間の監視等である。
ところでこれらの障害監視は、個々の監視設定に従って独立に実施されており相互の連携はない。あるものは短周期での監視、あるものは長周期での監視になっており、1つの根本原因に誘発された複数の波及障害の検知に時間差が生じる。更に個々に表面的な障害現象のみが収集されるので、障害の素を解析するには専門技術を必要とし、障害の根本原因箇所特定に時間を要してしまう。また、監視周期を短くすることで障害検知のリアルタイム性は向上し、検知の同時性も向上するが、システムに対するデータ収集と原因解析量の増大による監視処理の負荷が大きくなってしまう。
In a distributed computer system, various types of monitoring are performed in the system in preparation for occurrence of a failure. For example, there is a life / death monitoring of a system or an element constituting the system based on an inquiry from the outside of the device represented by ping monitoring. In addition to failures, there are resource monitoring such as the presence / absence of a process by an agent in a device, disk free space, CPU usage status, response time monitoring from the viewpoint of a user of business processing, and the like.
By the way, these fault monitoring is performed independently according to each monitoring setting, and there is no mutual cooperation. Some are monitored in a short cycle, and some are monitored in a long cycle, and there is a time difference in detecting a plurality of spillover faults induced by one root cause. Furthermore, since only superficial fault phenomena are collected individually, special techniques are required to analyze the source of the fault, and it takes time to identify the root cause of the fault. In addition, by shortening the monitoring cycle, the real-time property of fault detection is improved and the simultaneousness of detection is also improved, but the load of monitoring processing increases due to the collection of data and the cause analysis amount in the system.
また、業務処理フローを集中管理し、その実行結果を収集することで障害データを迅速に収集する技術、例えば特許文献1の「管理マネージャ計算機、記録媒体、および、計算機運用管理方法」や、特許文献2の「業務フローの稼動情報取得方法および業務フローシステム」があるが、これらは、業務処理フローの観点で実行結果を追跡する技術である。従って、単に障害が発生したという事実の通知はあっても、業務処理を実行するために利用するコンピュータリソースや外部サービス、ネットワーク経路の障害には関知していない。つまり障害解析に関しては何の開示もないし、障害の根本原因の特定については述べられていない。
従来のシステムの監視装置は上記のように構成されており、単に障害状況を個々に収集するのみである。あるいは過去の障害を記録した障害データベースを参照して障害原因を推定するのみであり、もとになる障害を見つけることが困難であるという課題がある。 The conventional system monitoring apparatus is configured as described above, and simply collects the failure status individually. Alternatively, there is a problem that it is difficult to find the underlying failure only by estimating the cause of the failure by referring to a failure database in which past failures are recorded.
本発明は上記の課題を解決するためになされたもので、関連する業務構成機器やリソースの障害状況から障害部分を特定し、かつ特定した障害部分に対して直ちに機能確認を行って容易に障害部分を特定することを目的とする。 The present invention has been made to solve the above-mentioned problems. The failure part is identified from the failure state of the related business component device or resource, and the function is immediately confirmed for the identified failure part, so that the failure can be easily performed. The purpose is to identify the part.
この発明に係る障害解析装置は、監視対象システムの業務を構成する構成機器・リソースを業務毎に記憶する業務構成情報テーブルと、
上記各構成機器・リソースの個別監視方法を記憶する監視方法情報テーブルと、
上記監視対象システムを監視する監視部と、
上記監視部が上記監視対象システムの障害を検出すると、上記業務構成情報テーブルを参照して上記障害が発生した業務を推定し、該障害が発生した業務を構成する構成機器・リソースを抽出し、該業務を構成する構成機器・リソースの監視方法を適用する関連障害の確認方法特定部、とを備えた。
The failure analysis apparatus according to the present invention includes a business configuration information table that stores, for each business, component devices and resources that configure the business of the monitoring target system;
A monitoring method information table for storing an individual monitoring method for each component device / resource;
A monitoring unit for monitoring the monitored system;
When the monitoring unit detects a failure of the monitored system, the business configuration information table is referred to, the business in which the failure has occurred is estimated, and the constituent devices and resources that configure the business in which the failure has occurred are extracted. And a related failure confirmation method specifying unit that applies a monitoring method of component devices and resources constituting the business.
この発明によれば、業務構成情報テーブルと監視方法情報テーブルと障害が発生した業務を推定し、その業務を構成する構成機器・リソースを抽出し、その構成機器・リソースの監視方法を適用する関連障害の確認方法特定部とを備えたので、障害を分析する高度な知識を要せずに、障害部分に対して直ちに機能確認を行って容易に障害部分を特定できる効果がある。 According to the present invention, the business configuration information table, the monitoring method information table, and the business in which a failure has occurred are estimated, the constituent devices and resources constituting the business are extracted, and the monitoring method for the constituent devices and resources is applied. Since the fault confirmation method specifying unit is provided, there is an effect that the fault part can be easily identified by immediately confirming the function without requiring high-level knowledge for analyzing the fault.
実施の形態1.
システム障害があった場合に、その障害の根本原因部分は、業務を構成する機器やソフトウェアを含むリソース群の中のいずれかに存在するはずである。このことから、システム障害を検知すると、直ちに関連する業務構成機器かリソースの障害を推定して、その推定機器またはリソースに対して直ちに機能確認すれば、根本の障害部分を短時間に特定できる。こうすれば通常時のシステム監視負荷を増加することもない。
図1は、上記思想に基づくこの発明の実施の形態1における、障害解析装置を示す構成ブロック図である。
図1の構成において、監視対象システム1は、障害解析装置により、通常時に一定周期等でシステムの障害発生状況を監視部51,52で監視されている。同様に随時障害監視部53,54により、随時、監視対象システム内の構成要素の障害発生状況等を監視されている。
後にも詳述するが、クライアント別に監視業務を細分化し、監視プログラムをこれら細分化した業務が使用するリソースのレスポンスまで監視するようにすれば、少なくともどのような業務で障害が発生したかを把握することは困難ではない。
If there is a system failure, the root cause of the failure should be in one of the resource groups including the devices and software that make up the business. From this, when a system failure is detected, it is possible to immediately identify the failure of the related business component device or resource, and immediately confirm the function for the estimated device or resource, thereby identifying the fundamental failure portion in a short time. This does not increase the normal system monitoring load.
FIG. 1 is a block diagram showing the configuration of a failure analysis apparatus according to
In the configuration of FIG. 1, the
As will be described in detail later, if you divide the monitoring work for each client and monitor the monitoring program up to the response of the resources used by the broken down work, you can understand at least what kind of work caused the failure. It is not difficult to do.
また障害解析装置には、これらの監視部で得られた監視データから、障害発生を検知すると、障害に関連する機器やリソースを抽出し、それらの障害状況を確認する方法を特定する関連障害の確認方法特定部30がある。関連障害の確認方法特定部30は、内部に、発生した障害から最も障害があり得る業務を推定する障害発生業務特定部31と、その業務処理を行うための機器やリソースを抽出する関連リソース抽出部32と、それらの機器やリソースの障害状況を確認する方法を特定する確認方法特定部33を持つ。
更に障害解析装置には、関連障害の確認方法特定部30が障害部分を推定する際に参照する、システムに関する情報群40がある。このシステムに関する情報群40中に、業務構成情報テーブル41、対象毎の監視方法情報テーブル42がある。更に、以上の一連の処理全体を制御する障害情報収集制御部20がある。
In addition, the failure analyzer detects the occurrence of a failure from the monitoring data obtained by these monitoring units, extracts the devices and resources related to the failure, and specifies the method of checking the failure status of the related failure. There is a confirmation
Further, the failure analysis apparatus includes a
また図2は、図1において監視対象システム1として示される、その具体的な構成の例と、特定の構成機器またはリソースを使用した業務の関係を示す図である。
図において、コンピュータノードとしてのサーバ101〜106は、内部に種々のプログラム111〜117を持ち、ネットワーク機器121〜124及びネットワークサービス125,126を経由して互いに接続されている。
図中の点線130は、ある業務処理「業務1」を構成する業務構成である。例として挙げた「業務1」はクライアント1からの処理要求が業務サーバ3 103中の業務プログラム3、業務プログラム4を経由して業務サーバ1 101中の業務プログラム1で処理される構成である。また業務プログラム3はその処理の中で、例えばネームサービスや認証サービスのような共有サービスプログラム1 115を利用している。「業務1」の点線130は、これらの業務構成を線で表したものである。
通常時障害監視部51等が行う監視の方法として、例えば業務1として業務プログラム1はクライアント1からアクセスされ、同じ業務プログラム1を使用してもクライアント2からアクセスする場合には業務11と名付けるようにすれば、かなり細かなレベルで障害発生時の業務の特定が可能である。更に監視プログラムが、業務プログラム1、クライアントプログラム1の振る舞いまでも監視すれば、障害発生を検知することは容易である。
FIG. 2 is a diagram illustrating a relationship between an example of a specific configuration shown as the
In the figure,
A
As a monitoring method performed by the normal time fault monitoring unit 51 and the like, for example, the
また図3は、図1中の業務構成情報テーブル41におけるデータ例を示す図であり、図2で示した「業務1」の業務構成をテーブル形式で表したものである。このテーブルには、業務1を構成する機器やリソースとそれぞれの機器やリソースが動作するための前提となる依存機器やリソースが表されている。もちろんその他に、業務2、業務3等の、他の業務の構成機器・リソースも記憶、表されている。
また図4は、図1中の対象毎の監視方法情報テーブル42におけるデータ例を示す図であり、図2で示した対象システムの構成要素1つずつに対して、その監視方法をテーブル形式で表したものである。
FIG. 3 is a diagram showing an example of data in the business configuration information table 41 in FIG. 1, and shows the business configuration of “
FIG. 4 is a diagram showing an example of data in the monitoring method information table 42 for each target in FIG. 1. For each component of the target system shown in FIG. It is a representation.
次に動作について説明する。
図1の通常時障害監視部51,52は、監視対象システムの障害を検知すると、障害情報収集制御部20に障害検知を通知する。ここでは、例として図2におけるクライアントプログラム1 116で業務応答が無くなった場合を想定する。即ち設定された時間内に応答が返らないので、障害検知とする。
この検知を受けて、障害情報収集制御部20は、この情報を関連障害の確認方法特定部30に渡す。関連障害の確認方法特定部30では、まず障害発生業務特定部31が障害の内容にあるクライアントプログラムの応答不良からその障害が業務1に関する障害であることを推定する。これは図18における障害業務の推定ステップS101である。次に関連リソース抽出部32が、図3に示す業務構成情報テーブル41を参照して業務1に関連する機器やリソースを抽出する。これは図18の構成機器・リソース推定ステップS102である。さらに、確認方法特定部33が、図4に示す対象毎の監視方法情報テーブル42から、各機器やリソースに対する障害監視方法を特定する。これは図18の監視方法特定ステップS104である。図5は、関連障害の確認方法特定部30が作成した業務1に関する監視方法情報テーブルの例を示す図である。
Next, the operation will be described.
The normal failure monitoring units 51 and 52 in FIG. 1 notify the failure information
Upon receiving this detection, the failure information
図5の業務1の監視方法情報テーブル42bによる監視方法の情報を受け取った障害情報収集制御部20は、随時障害監視部53,54を経由して、監視対象システムの中の業務1に関わる機器やリソースの障害状況の確認を、図5の「監視方法(現在状況確認方法)」に基づいて、構成される業務構成機器・リソース別に順に、直ちに実行する。これは図18の個別障害確認実行ステップS105である。例えば、図5のNW機器1について、ping NW1−1を実行し、所定の応答が返らなければ、NW機器1が障害原因であったことが確認、検知できる。この障害状況確認処理の中で図2のNW機器1 121に障害が発生していることを確認、検知すれば、クライアントプログラム1 116の業務応答が無くなった根本原因部分がNW機器1であることが判明する。
図13は、このシステムの通常時の監視方法に関するテーブルの例を示す図であるが、この中で参考として示した各監視機能の監視間隔の例によると、NW機器1の監視間隔は20分であり、本実施の形態における障害解析装置がなければ、根本原因部分の障害を検知するまでに、最悪20分の時間差が生じてしまう。
このように従来の監視装置が、個々の機器やリソースの監視をそれぞれ個別に独立して設定された監視周期で実施されているだけの状況に比べて、本障害解析装置を用いることにより、業務の障害に対する根本原因部分の特定が迅速に行える効果がある。
Upon receiving the monitoring method information from the monitoring method information table 42b of the
FIG. 13 is a diagram showing an example of a table related to the normal monitoring method of this system. According to the example of the monitoring interval of each monitoring function shown as a reference in this example, the monitoring interval of the
In this way, compared with the situation where the conventional monitoring device only performs monitoring of individual devices and resources with the monitoring period set independently, the use of this failure analysis device This has the effect of quickly identifying the root cause of the failure.
実施の形態2.
実施の形態1では、確認方法特定部33が図5に示す業務構成機器・リソースに対して順次、個別に障害確認を行う例を説明した。しかし順次、障害確認を行う方法では、効率が悪い。障害が発生した構成機器・リソースを推定するには、過去に発生した障害を参照して、同様の状況であれば、その構成機器・リソースであると推定するのが自然である。本実施の形態では、こうした過去の履歴によって障害が発生した業務の推定を行う。
図6は、本実施の形態における障害解析装置を示す構成ブロック図である。図において、先の実施の形態に追加された新しい構成要素として、障害履歴情報テーブル43が追加されている。この障害履歴情報テーブル43は、関連障害の確認方法特定部30が処理を行う際に参照する。
また図7は、障害履歴情報テーブル43に記憶されている具体的なデータの例を示す図であり、監視対象システム機器やリソース毎の障害履歴を記録している。
In the first embodiment, the example has been described in which the confirmation method specifying unit 33 performs failure confirmation individually on the business configuration devices and resources shown in FIG. However, the method of sequentially checking the failure is inefficient. In order to estimate a component device / resource in which a failure has occurred, it is natural to refer to a failure that has occurred in the past and to estimate that the component device / resource is in the same situation. In the present embodiment, the work in which a failure has occurred is estimated based on such past history.
FIG. 6 is a configuration block diagram showing the failure analysis apparatus according to the present embodiment. In the figure, a failure history information table 43 is added as a new component added to the previous embodiment. The failure history information table 43 is referred to when the related failure confirmation
FIG. 7 is a diagram showing an example of specific data stored in the failure history information table 43, and records the failure history for each monitored system device and resource.
次に動作について説明する。
図8は、実施の形態1で作成した図5の監視方法情報テーブルに図7の障害履歴情報テーブル43から得た「障害発生日」「障害重大度」の情報を付加したテーブルである。
特定の業務が障害していると推定されたとして、その推定された業務を構成する機器やリソースが多数抽出される場合がある。その場合、これら抽出された全ての機器の障害状況を優先度制御なしに全抽出機器とリソースに順次、図5に示す監視方法を適用して結果を得るには長い時間が要る。
そこで、過去に障害が発生した部分は、再度障害が発生する確率が高いと想定し、まずはそれらを優先的に障害確認し一次情報を報告する。その後全件の確認を行うことで、障害復旧対策の迅速化が図れる効果がある。
図8の例では、業務プログラム1、NW機器1、共用サービスプログラム1について優先的に障害確認を行う。
Next, the operation will be described.
8 is a table in which “failure occurrence date” and “failure severity” information obtained from the failure history information table 43 in FIG. 7 is added to the monitoring method information table in FIG. 5 created in the first embodiment.
If it is estimated that a specific task is faulty, a large number of devices and resources constituting the estimated task may be extracted. In that case, it takes a long time to obtain the result by applying the monitoring method shown in FIG. 5 to all the extracted devices and resources in order without giving priority control to the failure statuses of all these extracted devices.
Therefore, it is assumed that a portion where a failure has occurred in the past has a high probability that a failure will occur again. First, the failure is preferentially checked and primary information is reported. After confirming all the cases, there is an effect of speeding up the disaster recovery measures.
In the example of FIG. 8, failure confirmation is preferentially performed for the
実施の形態3.
実施の形態3では実施の形態2と同様に障害監視の優先処理を実施するが、優先処理判断に利用する情報は図9に例を示した障害履歴情報テーブル43cである。ここでは機能ブロック図は省略するが、この障害発生頻度情報テーブルは図6の障害履歴情報テーブル43の中にこの頻度項目を設けて、関連障害の確認方法特定部30が処理を行う際にこの頻度項目を参照する。
In the third embodiment, failure monitoring priority processing is performed in the same manner as in the second embodiment. Information used for priority processing determination is a failure history information table 43c illustrated in FIG. Although the functional block diagram is omitted here, this failure occurrence frequency information table includes this frequency item in the failure history information table 43 of FIG. Refer to the frequency field.
この場合の動作としては、実施の形態2と同様に、障害発生頻度が高い部分に障害が発生する確率が高いと想定し、まずはそれらの障害発生頻度が高い業務構成機器またはリソースを優先的に障害確認して一次情報を報告する。その後全件の確認を行うことで、障害復旧対策の迅速化が図れる効果がある。
図9の例で、たとえば3回以上のしきい値で優先監視するならば、先ずNW機器1、業務プログラム1に対して優先的に障害確認を行う。ただしNWサービス2は業務1には該当しない。
As an operation in this case, as in the second embodiment, it is assumed that there is a high probability that a failure will occur in a portion where the failure occurrence frequency is high. Confirm failure and report primary information. After confirming all the cases, there is an effect of speeding up the disaster recovery measures.
In the example of FIG. 9, if priority monitoring is performed with a threshold value of three times or more, for example, failure check is first performed on the
実施の形態4.
本実施の形態では実施の形態2と同様に障害監視の優先処理を実施するが、優先処理判断に利用する情報は図10に例を示したシステム変更履歴情報テーブル44である。ここでは機能ブロック図を省略するが、このシステム変更履歴情報テーブル44は図6の障害履歴情報テーブル43と同等のテーブルとし、障害履歴情報テーブル43と同様の部分に設ける。そして関連障害の確認方法特定部30が処理を行う際に、このシステム変更履歴情報テーブル44を参照する。
In this embodiment, failure monitoring priority processing is performed in the same manner as in the second embodiment. Information used for priority processing determination is a system change history information table 44 shown in FIG. Although the functional block diagram is omitted here, the system change history information table 44 is a table equivalent to the failure history information table 43 in FIG. 6 and is provided in the same portion as the failure history information table 43. The system change history information table 44 is referred to when the related failure confirmation
実施の形態2と同様に、システムに対して変更を行った部分に障害が発生する確率が高いと想定し、まずはそれらを優先的に障害確認し一次情報を報告する。その後全件の確認を行うことで、障害復旧の迅速化が図れる効果がある。
図10の例では、変更記録があるもの全てを優先するならば、業務プログラム3、業務プログラム1、NW機器3、NW機器1、共用サービスプログラム1を優先的に障害確認を行う。ただしNWサービス2は業務1には該当しない。
As in the second embodiment, it is assumed that there is a high probability that a failure has occurred in a portion where the system has been changed. First, the failure is preferentially checked and primary information is reported. Confirming all cases after that has the effect of speeding up failure recovery.
In the example of FIG. 10, if priority is given to all records with change records, failure check is preferentially performed for the
実施の形態5.
本実施の形態では、実施の形態2、3、4と類似で障害監視の優先処理を実施するが、優先処理判断に利用する情報は図11に例を示したシステム機器・リソース重要度情報テーブル45の情報である。ここでは機能ブロック図を省略するが、このシステム機器・リソース重要度情報テーブル45は図6の障害履歴情報テーブル43と同等のテーブルとし、障害履歴情報テーブル43と同様の部分に設ける。そして関連障害の確認方法特定部30が処理を行う際に、このシステム機器・リソース重要度情報テーブル45を参照する。
In the present embodiment, failure monitoring priority processing is performed in the same manner as in the second, third, and fourth embodiments, but the information used for priority processing determination is the system device / resource importance level information table shown in FIG. 45 information. Although the functional block diagram is omitted here, the system device / resource importance level information table 45 is a table equivalent to the failure history information table 43 in FIG. 6 and is provided in the same portion as the failure history information table 43. When the related failure confirmation
障害の根本原因箇所を特定する場合に、障害の影響が大きい機器やリソースの障害は、いち早く検知し対策をとるべきである。この目的のため、まずは重要度の高い機器やリソースを優先的に障害確認し順次報告することで、障害の業務影響を極小化できる。
図11の例では、まず重大度レベルが最高値10の業務プログラム1の障害確認を行い、順次、次いで重大度レベルの高い順へと確認を行う。
When identifying the root cause of a failure, the failure of a device or resource that is greatly affected by the failure should be detected and countermeasures taken immediately. For this purpose, the impact of the failure on the work can be minimized by first checking the failure and reporting the devices and resources with high importance first.
In the example of FIG. 11, first, the failure check of the
実施の形態6.
本実施の形態では、実施の形態2、3、4と類似で障害監視の優先処理を実施するが、優先処理判断に利用する情報は、図12に示される、リソース毎の単位時間当たりの使用頻度情報テーブル46である。これは例えば図1の構成において、障害情報収集制御部20が随時障害監視部53を用いて定期的に各業務構成機器とリソースの使用頻度を調べる。その調査結果を図12のリソース使用頻度情報テーブル46の、使用頻度の項に記録して管理しておく。使用頻度の調査は任意期間でよく、障害情報収集制御部20が随時障害監視部53に起動をかけて、対象となるリソースのオープン(開始)またはクローズ(終了)のどちらかを数えることで頻度が判る。これを更に積算していけば、相対的な使用頻度が判る。このリソース使用頻度テーブルを図6の障害履歴情報テーブル43と同様の部分に設ける。
そして関連障害の確認方法特定部30が処理を行う際に、このリソース使用頻度情報テーブル46を参照する。
障害の根本原因箇所を特定する場合に、リソース使用頻度情報テーブル46に記載の使用頻度が少ないリソースほど、残存バグなどの可能性があって、障害が発生しているのかもしれない。
In this embodiment, priority processing for fault monitoring is performed in the same manner as in the second, third, and fourth embodiments, but the information used for priority processing determination is the usage per unit time for each resource shown in FIG. This is a frequency information table 46. For example, in the configuration of FIG. 1, the failure information
The resource usage frequency information table 46 is referred to when the related failure confirmation
When identifying the root cause of a failure, a resource with a lower use frequency described in the resource use frequency information table 46 may have a remaining bug or the like and may have a failure.
実施の形態7.
本発明の装置は、システム障害の検知を効率よく行うことを目的としているが、その監視方法によっては、監視対象の障害自体ではなく、それ以外の障害によって誤検知している場合もあり得る。
図13は、pingによりネットワーク機器の外部から生死を確認している例であり、ping監視サーバ107からNW機器3 124を監視している。この時、NW機器3に対するping応答エラー(無応答)はNW機器3の障害以外に、監視経路上のNW機器2やNW機器4の障害でも検知してしまう。すなわち、ping監視サーバ107の位置からのNW機器3へのping監視は、NW機器2とNW機器4に依存していると言える。
The apparatus of the present invention is intended to efficiently detect a system failure. However, depending on the monitoring method, there may be a case where a false detection is not caused by a failure other than the failure to be monitored itself.
FIG. 13 shows an example in which life / death is confirmed from the outside of the network device by ping, and the
本実施の形態では、実施の形態1ないし6の処理を行う前に、システム障害の検知に誤検知状態がなかったかをまず確認するものである。
図14は、通常時の監視についての監視依存関係を示した監視依存関係テーブル57の例を示した図である。たとえばNW機器3の障害を検知した場合に、「誤検知原因になる監視機能の依存箇所」に登録されているNW機器2、NW機器4の障害状況を先ず確認する。そして、これらに障害がなければ、実施の形態1ないし6の処理を実施する。
この事前処理を行うことにより、根本障害箇所検出処理の精度が向上する。
In the present embodiment, before performing the processing of the first to sixth embodiments, it is first confirmed whether there has been a false detection state in detecting a system failure.
FIG. 14 is a diagram showing an example of the monitoring dependency relationship table 57 showing the monitoring dependency relationship regarding normal monitoring. For example, when a failure of the
By performing this preliminary process, the accuracy of the root failure location detection process is improved.
実施の形態8.
実施の形態1〜6の処理では、業務構成から抽出した機器やリソースの障害状況を、登録してある確認方法で確認するが、全ての機器やリソースに障害状態が認められないケースが考えられる。本実施の形態では、その場合でも、障害確認方法の観点を変更したり、より詳しい分析のために、障害解析情報を収集し人的な分析を行うことに備えたりする、二次ステップ、三次ステップの処理を実施できる手段を持つ。
図15は、図4に示した対象毎の監視方法情報テーブル42を拡張した監視方法情報テーブル42dであり、二次アクションを登録した例である。この例では二次アクションとしては障害解析のための情報収集方法が登録されている。
In the processing of the first to sixth embodiments, the failure status of the device or resource extracted from the business configuration is confirmed by the registered confirmation method, but there may be a case where no failure status is recognized for all the devices and resources. . In this embodiment, even in such a case, the secondary step, the tertiary, and the like, which change the viewpoint of the failure confirmation method or prepare for collecting failure analysis information and performing human analysis for more detailed analysis. It has means that can execute the processing of the step.
FIG. 15 is a monitoring method information table 42d obtained by extending the monitoring method information table 42 for each target shown in FIG. 4, and is an example in which secondary actions are registered. In this example, an information collection method for failure analysis is registered as a secondary action.
図16は、本実施の形態における動作を実行するフローである。一次アクションリストに従って関連機器、リソースの障害状況を確認しても、いずれも明らかな障害状態でない場合、二次アクションに切り替えて再度処置を、ステップS61ないしS65により実行する。
なお、この例を実施するためには、構成要素を追加した装置を示す図16において、障害解析情報収集部55,56を新たに設ける等、実施したい処理に合わせた要素を追加する必要がある。
この処理により、障害箇所を検出できなかった場合でも、人的な分析に備えた障害解析情報を予め収集しておくなどの、代替処置を実行しておくことができ、システム障害対策の迅速化がはかれる。
FIG. 16 is a flow for executing the operation in the present embodiment. Even if the failure status of the related devices and resources is confirmed according to the primary action list, if neither of them is an obvious failure state, the secondary action is switched to and the treatment is executed again through steps S61 to S65.
In order to implement this example, it is necessary to add elements according to the processing to be performed, such as newly providing failure analysis information collection units 55 and 56 in FIG. 16 showing the device to which the component is added. .
Even if the failure location cannot be detected by this processing, alternative measures such as collecting failure analysis information for human analysis in advance can be executed, and system failure countermeasures can be accelerated. Is peeled off.
実施の形態9.
上記の各実施の形態では、障害解析装置はハードウェアで構成されるとして説明した。しかし装置はそれに限定されることは無く、汎用のプロセッサとメモリを用いて、メモリにソフトウェアのプログラムでステップを記述して、このプログラム・ステップにより、同等の動作を実行させてもよい。
図18は、こうしたプログラム・ステップで実施の形態1における動作を実現するフローチャートを示した図である。図において、プログラム・ステップとしてS101で障害発生業務特定部31相当の機能を組む。通常時障害監視部1 51が障害検知を通知すると、この通知をスタートの監視するステップS100として監視を始める。以下、関連リソース抽出部32相当の機能をS1お2で組み、確認方法特定部33相当の機能をS104とS105で組む。また実施の形態2ないし6における個別構成機器・リソース選択優先順位の機能を、S103で組む。
更にこの図18で示されるフローチャートの機能をプログラムとして作成しておけば、汎用の計算機にそのプログラムをロードして、上記各実施の形態で説明した障害解析装置を構成することが出来る。
Embodiment 9 FIG.
In each of the above embodiments, the failure analysis apparatus has been described as being configured by hardware. However, the apparatus is not limited to this, and a general-purpose processor and memory may be used to describe steps in a software program in the memory, and equivalent operations may be executed by these program steps.
FIG. 18 is a diagram showing a flowchart for realizing the operation in the first embodiment by such program steps. In the figure, as a program step, a function corresponding to the failure occurrence
Furthermore, if the function of the flowchart shown in FIG. 18 is created as a program, the failure analysis apparatus described in the above embodiments can be configured by loading the program into a general-purpose computer.
20 障害情報収集制御部、30 関連障害の確認方法特定部、31 障害発生業務特定部、32 関連リソース抽出部、33 確認方法特定部、40 システムに関する情報群、41 業務構成情報テーブル、42,42b,42c,42d (対象毎の)監視方法情報テーブル、43,43c 障害履歴情報テーブル、44 システム変更履歴情報テーブル、45 システム機器・リソース重要度情報テーブル、46 使用頻度情報テーブル、51,52 通常時障害監視部、53,54 随時障害監視部、55,56 障害解析情報収集部、57 監視依存関係テーブル、S61 前業務関連箇所の抽出と第一次ステップアクションの抽出、S62 全対象に対するアクション実施、S63 障害箇所検出ステップ、S64 次アクション登録ステップ、S65 次アクション抽出ステップ、S101 障害業務推定ステップ、S102 該当業務の構成機器・リソース抽出ステップ、S103 構成機器・リソースの優先順位選定ステップ、S104 構成機器・リソースの確認方法特定ステップ、S105 優先順位に基づく個別障害確認実行ステップ、S106 確認実行終了確認ステップ。 20 fault information collection control unit, 30 related fault confirmation method identification unit, 31 fault occurrence business identification unit, 32 related resource extraction unit, 33 confirmation method identification unit, 40 system information group, 41 business configuration information table, 42, 42b , 42c, 42d Monitoring method information table (for each target), 43, 43c Failure history information table, 44 System change history information table, 45 System device / resource importance information table, 46 Usage frequency information table, 51, 52 Normal time Fault monitoring unit, 53, 54 Anytime fault monitoring unit, 55, 56 Fault analysis information collection unit, 57 Monitoring dependency relationship table, S61 Extraction of previous work related parts and extraction of primary step actions, S62 Action execution for all targets, S63 fault location detection step, S64 next action registration step , S65 next action extraction step, S101 failure task estimation step, S102 component device / resource extraction step of relevant job, S103 component device / resource priority selection step, S104 component device / resource confirmation method specifying step, S105 priority Individual failure confirmation execution step based on S106, confirmation execution end confirmation step in S106.
Claims (10)
上記各構成機器・リソースの個別監視方法を記憶する監視方法情報テーブルと、
上記監視対象システムを監視する監視部と、
上記監視部が上記監視対象システムの障害を検出すると、上記業務構成情報テーブルを参照して上記障害が発生した業務を推定し、該障害が発生した業務を構成する構成機器・リソースを抽出し、該業務を構成する構成機器・リソースの監視方法を適用する関連障害の確認方法特定部、とを備えたことを特徴とする障害解析装置。 A business configuration information table that stores the components and resources that make up the business of the monitored system for each business;
A monitoring method information table for storing an individual monitoring method for each component device / resource;
A monitoring unit for monitoring the monitored system;
When the monitoring unit detects a failure of the monitored system, the business configuration information table is referred to, the business in which the failure has occurred is estimated, and the constituent devices and resources that configure the business in which the failure has occurred are extracted. A failure analysis apparatus comprising: a related failure confirmation method identification unit that applies a method for monitoring component devices and resources constituting the business.
関連障害の確認方法特定部は、上記障害履歴情報テーブルを参照して業務を構成する構成機器・リソースの監視方法を適用することを特徴とする請求項1記載の障害解析装置。 It has a failure history information table that stores past failure histories of component devices and resources.
The failure analysis apparatus according to claim 1, wherein the related failure confirmation method specifying unit applies a monitoring method of component devices / resources constituting a business with reference to the failure history information table.
関連障害の確認方法特定部は、上記システム変更履歴情報テーブルを参照して業務を構成する構成機器・リソースの監視方法を適用することを特徴とする請求項1記載の障害解析装置。 A system change history information table for storing past system change history of component devices / resources is provided.
The failure analysis apparatus according to claim 1, wherein the related failure confirmation method specifying unit applies a monitoring method of component devices and resources constituting a business with reference to the system change history information table.
関連障害の確認方法特定部は、上記構成機器・リソース重要度情報テーブルを参照して業務を構成する構成機器・リソースの監視方法を適用することを特徴とする請求項1記載の障害解析装置。 It has a component / resource importance information table that specifies the importance of component devices / resources in the monitored system.
The failure analysis apparatus according to claim 1, wherein the related failure confirmation method identification unit applies a monitoring method of component devices / resources that constitute a business with reference to the component / resource importance information table.
関連障害の確認方法特定部は、上記監視依存関係テーブルを参照して業務を構成する構成機器・リソースの監視方法を適用することを特徴とする請求項1記載の障害解析装置。 A monitoring dependency table that stores the mutual influence relationship between component devices and resources in the monitored system
The failure analysis apparatus according to claim 1, wherein the related failure confirmation method specifying unit applies a monitoring method of component devices / resources constituting a business with reference to the monitoring dependency relationship table.
関連障害の確認方法特定部は、上記監視方法情報テーブルの上記一次アクションに続いて必要があれば、上記二次アクションに基づいて業務を構成する構成機器・リソースの監視方法を適用することを特徴とする請求項1記載の障害解析装置。 In addition to storing the individual monitoring method of each component device / resource as a primary action, the monitoring method information table stores other monitoring methods as secondary actions,
The related failure confirmation method specifying unit applies a monitoring method of component devices / resources constituting a business based on the secondary action if necessary following the primary action of the monitoring method information table. The failure analysis apparatus according to claim 1.
上記監視対象システムを監視するステップと、
上記監視するステップが上記監視対象システムの障害を検出すると、上記業務構成情報テーブルを参照して上記障害が発生した業務を推定するステップと、
上記障害が発生した業務を構成する構成機器・リソースを抽出するステップと、
上記該業務を構成する構成機器・リソースの監視方法を確認実行するステップ、とを備えたことを特徴とする障害解析方法。 Analysis method in an analysis apparatus comprising: a business configuration information table for storing, for each business, component devices / resources that configure a business of the monitored system; and a monitoring method information table for storing individual monitoring methods for each component device / resource. In
Monitoring the monitored system;
When the monitoring step detects a failure of the monitored system, referring to the business configuration information table to estimate the business in which the failure has occurred;
A step of extracting component devices / resources constituting the business in which the failure has occurred;
A failure analysis method comprising: a step of confirming and executing a monitoring method of component devices and resources constituting the business.
構成機器・リソースを抽出するステップに次いで、上記障害履歴情報テーブルを参照して関連確認する構成機器・リソースの優先順位を選定する構成機器・リソースの優先順位選定ステップを設け、該優先順位選定ステップの実行後に構成機器・リソースの監視方法を確認実行するステップを行うようにしたことを特徴とする請求項7記載の障害解析方法。 Furthermore, in the analysis method of the analysis apparatus provided with the failure history information table for storing the past failure history of the component device / resource,
Following the step of extracting component devices / resources, there is provided a component device / resource priority order selection step for selecting the priority order of component devices / resources to be checked for association with reference to the failure history information table, and the priority order selection step 8. The failure analysis method according to claim 7, wherein a step of confirming and executing a monitoring method of component devices / resources is performed after execution of the step.
構成機器・リソースの監視方法を確認実行する上記一次アクションのステップに続いて必要があれば、上記二次アクションに基づいて構成機器・リソースの監視方法を確認実行するステップ、を設けたことを特徴とする請求項7記載の障害解析方法。 In the monitoring method information table, in addition to storing the individual monitoring method of each component device / resource as a primary action, in the analysis method of the analysis device that stores other monitoring methods as secondary actions,
A step of confirming and executing the monitoring method of the component device / resource based on the secondary action, if necessary, following the step of the primary action of confirming and executing the component device / resource monitoring method is provided. The failure analysis method according to claim 7.
監視対象システムの業務を構成する構成機器・リソースを業務毎に記憶して業務構成情報テーブルを構成するステップと、
上記各構成機器・リソースの個別監視方法を記憶して監視方法情報テーブルを構成するステップと、
上記監視対象システムを監視するステップと、
上記監視するステップが上記監視対象システムの障害を検出すると、上記業務構成情報テーブルを参照して上記障害が発生した業務を推定するステップと、
上記障害が発生した業務を構成する構成機器・リソースを抽出するステップと、
上記該業務を構成する構成機器・リソースの監視方法を確認実行するステップ、とを備えたことを特徴とする障害解析プログラム。 Configure as a computer executable program,
Storing the component devices and resources that constitute the business of the monitored system for each business and configuring the business configuration information table;
Storing an individual monitoring method for each component / resource and configuring a monitoring method information table;
Monitoring the monitored system;
When the monitoring step detects a failure of the monitored system, referring to the business configuration information table to estimate the business in which the failure has occurred;
A step of extracting component devices / resources constituting the business in which the failure has occurred;
A failure analysis program comprising: a step of confirming and executing a monitoring method of component devices and resources constituting the business.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004133998A JP4575020B2 (en) | 2004-04-28 | 2004-04-28 | Failure analysis device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004133998A JP4575020B2 (en) | 2004-04-28 | 2004-04-28 | Failure analysis device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005316728A true JP2005316728A (en) | 2005-11-10 |
JP4575020B2 JP4575020B2 (en) | 2010-11-04 |
Family
ID=35444087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004133998A Expired - Fee Related JP4575020B2 (en) | 2004-04-28 | 2004-04-28 | Failure analysis device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4575020B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009181495A (en) * | 2008-01-31 | 2009-08-13 | Nomura Research Institute Ltd | Job processing system and job management method |
WO2010038327A1 (en) * | 2008-09-30 | 2010-04-08 | 株式会社 日立製作所 | Root cause analysis method targeting information technology (it) device not to acquire event information, device and program |
JP2010205066A (en) * | 2009-03-04 | 2010-09-16 | Nec Corp | Counter example analysis support device, counter example analysis support system, counter example analysis support method therefor, and program |
US8612372B2 (en) | 2008-08-29 | 2013-12-17 | International Business Machines Corporation | Detection rule-generating facility |
WO2013190694A1 (en) * | 2012-06-22 | 2013-12-27 | 株式会社日立製作所 | Computer recovery method, computer system, and storage medium |
CN110502404A (en) * | 2019-07-22 | 2019-11-26 | 平安科技(深圳)有限公司 | A kind of early-warning processing method and relevant device for administering platform based on data |
US20210019299A1 (en) * | 2019-07-17 | 2021-01-21 | Aveva Software, Llc | System and server comprising database schema for accessing and managing utilization and job data |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0594383A (en) * | 1991-10-02 | 1993-04-16 | Nec Corp | Fault monitoring device |
JPH10187232A (en) * | 1996-12-19 | 1998-07-14 | Toshiba Corp | Monitor control equipment |
JPH10229396A (en) * | 1997-02-13 | 1998-08-25 | Nippon Telegr & Teleph Corp <Ntt> | Service management method and system |
JPH10326208A (en) * | 1997-03-24 | 1998-12-08 | N T T Data:Kk | Failure restoration system and record medium |
JPH11259331A (en) * | 1998-03-13 | 1999-09-24 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for detecting fault position on network and storage medium for storing network fault position detecting program |
JPH11327946A (en) * | 1998-03-02 | 1999-11-30 | Hewlett Packard Co <Hp> | Modeling method for internet service |
JPH11353254A (en) * | 1998-06-11 | 1999-12-24 | Sharp Corp | Network managing device and storage medium in which network managing program is recorded |
JP2000069003A (en) * | 1998-08-21 | 2000-03-03 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for estimating multi-layer network fault influence range |
JP2000209201A (en) * | 1999-01-11 | 2000-07-28 | Fujitsu Ltd | Method and system for network management |
JP2002271328A (en) * | 2001-03-09 | 2002-09-20 | Mitsubishi Electric Corp | System and method for analyzing network fault |
JP2003162504A (en) * | 2001-11-26 | 2003-06-06 | Hitachi Ltd | Support system for trouble analysis |
JP2003241996A (en) * | 2002-02-19 | 2003-08-29 | Yoshihiro Maruyama | Method and system for performing obstacle prediction and cause specification of computer system based on operation dependency information and obstacle information |
WO2004025471A2 (en) * | 2002-09-11 | 2004-03-25 | International Business Machines Corporation | Methods and apparatus for root cause identification and problem determination in distributed systems |
-
2004
- 2004-04-28 JP JP2004133998A patent/JP4575020B2/en not_active Expired - Fee Related
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0594383A (en) * | 1991-10-02 | 1993-04-16 | Nec Corp | Fault monitoring device |
JPH10187232A (en) * | 1996-12-19 | 1998-07-14 | Toshiba Corp | Monitor control equipment |
JPH10229396A (en) * | 1997-02-13 | 1998-08-25 | Nippon Telegr & Teleph Corp <Ntt> | Service management method and system |
JPH10326208A (en) * | 1997-03-24 | 1998-12-08 | N T T Data:Kk | Failure restoration system and record medium |
JPH11327946A (en) * | 1998-03-02 | 1999-11-30 | Hewlett Packard Co <Hp> | Modeling method for internet service |
JPH11259331A (en) * | 1998-03-13 | 1999-09-24 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for detecting fault position on network and storage medium for storing network fault position detecting program |
JPH11353254A (en) * | 1998-06-11 | 1999-12-24 | Sharp Corp | Network managing device and storage medium in which network managing program is recorded |
JP2000069003A (en) * | 1998-08-21 | 2000-03-03 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for estimating multi-layer network fault influence range |
JP2000209201A (en) * | 1999-01-11 | 2000-07-28 | Fujitsu Ltd | Method and system for network management |
JP2002271328A (en) * | 2001-03-09 | 2002-09-20 | Mitsubishi Electric Corp | System and method for analyzing network fault |
JP2003162504A (en) * | 2001-11-26 | 2003-06-06 | Hitachi Ltd | Support system for trouble analysis |
JP2003241996A (en) * | 2002-02-19 | 2003-08-29 | Yoshihiro Maruyama | Method and system for performing obstacle prediction and cause specification of computer system based on operation dependency information and obstacle information |
WO2004025471A2 (en) * | 2002-09-11 | 2004-03-25 | International Business Machines Corporation | Methods and apparatus for root cause identification and problem determination in distributed systems |
Non-Patent Citations (3)
Title |
---|
相浦利治、細川武彦、高畑泰志: "運用管理の高度化", 電子情報通信学会2004年総合大会講演論文集 基礎・境界, JPN6009023688, 8 March 2004 (2004-03-08), JP, pages 230, ISSN: 0001324454 * |
西村 崇: "「迅速な復旧」目指す運用管理ソフト", 日経コンピュータ, JPN6009023672, 11 August 2003 (2003-08-11), JP, pages 17 - 19, ISSN: 0001324456 * |
飯島 正、森 信胤、近藤誠一: "ネットワークエージェント技術を用いた業務指向分散システム管理の構想", 電子情報通信学会技術研究報告, vol. 103, no. 603, JPN6009023684, 19 January 2004 (2004-01-19), JP, pages 41 - 46, ISSN: 0001324455 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009181495A (en) * | 2008-01-31 | 2009-08-13 | Nomura Research Institute Ltd | Job processing system and job management method |
US8612372B2 (en) | 2008-08-29 | 2013-12-17 | International Business Machines Corporation | Detection rule-generating facility |
CN101981546B (en) * | 2008-09-30 | 2015-04-01 | 株式会社日立制作所 | Root cause analysis method targeting information technology (IT) device not to acquire event information, device and program |
CN101981546A (en) * | 2008-09-30 | 2011-02-23 | 株式会社日立制作所 | Root cause analysis method targeting information technology (IT) device not to acquire event information, device and program |
US8020045B2 (en) | 2008-09-30 | 2011-09-13 | Hitachi, Ltd. | Root cause analysis method, apparatus, and program for IT apparatuses from which event information is not obtained |
US8479048B2 (en) | 2008-09-30 | 2013-07-02 | Hitachi, Ltd. | Root cause analysis method, apparatus, and program for IT apparatuses from which event information is not obtained |
JP2010086115A (en) * | 2008-09-30 | 2010-04-15 | Hitachi Ltd | Root cause analysis method targeting information technology (it) device not to acquire event information, device and program |
WO2010038327A1 (en) * | 2008-09-30 | 2010-04-08 | 株式会社 日立製作所 | Root cause analysis method targeting information technology (it) device not to acquire event information, device and program |
JP2010205066A (en) * | 2009-03-04 | 2010-09-16 | Nec Corp | Counter example analysis support device, counter example analysis support system, counter example analysis support method therefor, and program |
WO2013190694A1 (en) * | 2012-06-22 | 2013-12-27 | 株式会社日立製作所 | Computer recovery method, computer system, and storage medium |
US9529656B2 (en) | 2012-06-22 | 2016-12-27 | Hitachi, Ltd. | Computer recovery method, computer system, and storage medium |
US20210019299A1 (en) * | 2019-07-17 | 2021-01-21 | Aveva Software, Llc | System and server comprising database schema for accessing and managing utilization and job data |
CN110502404A (en) * | 2019-07-22 | 2019-11-26 | 平安科技(深圳)有限公司 | A kind of early-warning processing method and relevant device for administering platform based on data |
Also Published As
Publication number | Publication date |
---|---|
JP4575020B2 (en) | 2010-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11500757B2 (en) | Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data | |
Xu et al. | POD-Diagnosis: Error diagnosis of sporadic operations on cloud applications | |
JP4866861B2 (en) | Method and system for monitoring transaction-based systems | |
Sharma et al. | CloudPD: Problem determination and diagnosis in shared dynamic clouds | |
US9298525B2 (en) | Adaptive fault diagnosis | |
US8667334B2 (en) | Problem isolation in a virtual environment | |
US8352790B2 (en) | Abnormality detection method, device and program | |
KR101036702B1 (en) | Method, system, and apparatus for providing custom product support for a software program based upon states of program execution instability | |
US20110307742A1 (en) | Method and apparatus for cause analysis involving configuration changes | |
US9122784B2 (en) | Isolation of problems in a virtual environment | |
RU2005116258A (en) | MODEL-BASED MANAGEMENT OF COMPUTER SYSTEMS AND DISTRIBUTED APPLICATIONS | |
WO2015116064A1 (en) | End user monitoring to automate issue tracking | |
JP2011197785A (en) | System and program for collecting log | |
AlGhamdi et al. | Towards reducing the time needed for load testing | |
JP4575020B2 (en) | Failure analysis device | |
US20140372803A1 (en) | Apparatus and method for analyzing abnormal states of component-based system | |
JP6317074B2 (en) | Failure notification device, failure notification program, and failure notification method | |
JP2004145536A (en) | Management system | |
JP5503177B2 (en) | Fault information collection device | |
EP2495660A1 (en) | Information processing device and method for controlling information processing device | |
US20050149809A1 (en) | Real time determination of application problems, using a lightweight diagnostic tracer | |
Chan et al. | Debugging incidents in Google's distributed systems | |
AU2014200806B1 (en) | Adaptive fault diagnosis | |
Avritzer et al. | Using software aging monitoring and rejuvenation for the assessment of high-availability systems | |
JP5196596B2 (en) | Fault detection system, fault detection server, and fault detection method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070314 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090716 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100716 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100817 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100819 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130827 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |