JP2010108266A - Failure detection device, failure detection method, failure detection program, wordbook forming device, and failure occurrence analysis device - Google Patents
Failure detection device, failure detection method, failure detection program, wordbook forming device, and failure occurrence analysis device Download PDFInfo
- Publication number
- JP2010108266A JP2010108266A JP2008279896A JP2008279896A JP2010108266A JP 2010108266 A JP2010108266 A JP 2010108266A JP 2008279896 A JP2008279896 A JP 2008279896A JP 2008279896 A JP2008279896 A JP 2008279896A JP 2010108266 A JP2010108266 A JP 2010108266A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- time zone
- word
- monitoring
- computers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、障害検知装置、障害検知方法及び障害検知プログラムに関し、特に、クラスタ型システムなど同一のハードウェアおよびソフトウェアから構成された、同一のジョブを実行する一連の計算機群から構成される障害検知装置、障害検知方法、障害検知プログラム、単語集作成装置、及び障害発生分析装置に関する。 The present invention relates to a failure detection apparatus, a failure detection method, and a failure detection program, and in particular, a failure detection that includes a series of computers that execute the same job and that are configured from the same hardware and software such as a cluster system. The present invention relates to a device, a failure detection method, a failure detection program, a word collection creation device, and a failure occurrence analysis device.
従来から、クラスタ型システムに代表される、同一のハードウェア及びソフトウェアで構成され、同一のジョブを実行する計算機群を前提とした効率的な障害検知方法がいくつか提案されている。 Conventionally, several efficient failure detection methods have been proposed that are based on a computer group configured by the same hardware and software and represented by a cluster system and executing the same job.
特許文献1に開示された障害検知装置においては、障害検知対象となる計算機同士でツリー構造を構成し、ツリー構造で接続されたノード同士で互いに障害を監視し合うことによって、全対全の監視に比較して計算機一台当たりの監視対象の計算機を減らすことで、効率的に障害を検出する。
In the failure detection device disclosed in
また、非特許文献1に開示された障害検知装置においては、クラスタを構成する各ノードのsyslogを特徴量アルゴリズムにかけ、ノード毎にこの特徴量を比較することによって、異常な特徴量を示すノードにおいて障害が発生したものと推定する。この方法では、syslogを機械的に処理するだけで障害発生の時間帯を検知できるため、障害検知のためにプロセスの振舞いや、特徴といったプロセスに関する特別な知識、及び事前の学習を必要としない。
このように、上述した従来の障害検知装置では、特許文献1のように、ツリー構造で接続された計算機同士で互いに障害を検知する方法や、非特許文献1のように、syslogの特徴量を時間帯で比較することによって障害の起こった計算機と時間帯を推定する手法があった。
As described above, in the conventional failure detection apparatus described above, a method of detecting a failure between computers connected in a tree structure as in
特許文献1の方法によれば、計算機同士が全対全で監視する場合に比べ、ツリー構造による監視では、一台の計算機が監視しなければならない計算機の数が少ない。このため、障害検知による負荷が軽減される。しかしながら、障害を判定するためには、プロセスの正常な振舞いについての知識が必須である。つまり、障害検知のためには、あらかじめ知識データベースを学習などによって作成しておく手間が必要になるという問題がある。
According to the method of
また、非特許文献1の方法によれば、syslogの特徴量のみを用いて障害検知を行うため、あらかじめプロセスについての知識データベースを作成する必要が無い。しかしながら、この方法で障害検知できるプロセスは、サービスプロセス(デーモン)などのsyslogへログを出力するプロセスに限定されてしまうという問題がある。
In addition, according to the method of Non-Patent
本発明は、このような事情を考慮してなされたものであり、その目的は、プロセスに関する知識や、ログを用いなくとも、計算機の障害を検知することができる障害検知装置、障害検知方法、障害検知プログラム、単語集作成装置、及び障害発生分析装置を提供することにある。 The present invention has been made in consideration of such circumstances, and its purpose is to provide a failure detection device, a failure detection method, and a failure detection device capable of detecting a failure of a computer without using knowledge about a process or a log. An object of the present invention is to provide a failure detection program, a word collection creation device, and a failure occurrence analysis device.
上述した課題を解決するために、本発明は、複数の計算機の各々で実行されるプロセスを監視し、プロセス毎のリソース使用状況と、プロセスのモニタリング情報とを取得するプロセス監視手段と、前記プロセス監視手段により取得されたリソース使用状況とモニタリング情報とに基づいて、プロセス毎の順位付け、またはグループ分けを行う順位・グループ情報生成手段と、前記順位・グループ情報生成手段により得られた、プロセス毎の順位付けを示す順位情報と、グループ分けを示すグループ情報と、前記モニタリング情報とに基づいて、プロセス毎の特徴量抽出に用いる単語を生成する単語生成手段と、前記単語生成手段により生成された単語を前記複数の計算機毎に収集する収集手段と、前記収集手段により収集された、前記複数の計算機のプロセス毎の単語に基づいて、障害が発生した計算機と障害発生時間帯とを推定する障害時間帯推定手段とを備えることを特徴とする障害検知装置である。 In order to solve the above-described problem, the present invention monitors a process executed in each of a plurality of computers, and obtains a resource usage status for each process and process monitoring information, and the process Rank / group information generating means for ranking or grouping for each process based on the resource usage status and monitoring information acquired by the monitoring means, and for each process obtained by the rank / group information generating means Based on the ranking information indicating the ranking, group information indicating the grouping, and the monitoring information, a word generating means for generating a word used for feature quantity extraction for each process, and the word generating means Collecting means for collecting words for each of the plurality of computers, and the plurality of words collected by the collecting means Based on the word each process computer, a failure detection device, characterized in that it comprises a failure time zone estimating means for estimating the computer and the failure occurrence time slot of a failure.
また、上述した課題を解決するために、本発明は、複数の計算機の各々で実行されるプロセスを監視し、プロセス毎のリソース使用状況と、プロセスのモニタリング情報とを取得するステップと、前記取得されたリソース使用状況とモニタリング情報とに基づいて、プロセス毎の順位付け、またはグループ分けを行うステップと、前記プロセス毎の順位付けを示す順位情報と、グループ分けを示すグループ情報と、前記モニタリング情報とに基づいて、プロセス毎の特徴量抽出に用いる単語を生成するステップと、前記生成された単語を前記複数の計算機毎に収集するステップと、前記収集された複数の計算機のプロセス毎の単語に基づいて、障害が発生した計算機と障害発生時間帯とを推定するステップとを含むことを特徴とする障害検知方法である。 In order to solve the above-described problem, the present invention monitors a process executed in each of a plurality of computers, acquires a resource usage status for each process, and monitoring information of the process, and the acquisition A step of ranking or grouping for each process based on the resource usage status and the monitoring information, the ranking information indicating the ranking for each process, the group information indicating the grouping, and the monitoring information Based on the above, a step of generating a word used for feature amount extraction for each process, a step of collecting the generated word for each of the plurality of computers, and a word for each of the collected processes of the plurality of computers And a step of estimating a failure occurrence time zone and a failure occurrence time zone. It is the law.
また、上述した課題を解決するために、本発明は、複数の計算機の各々で実行されるプロセスを監視して障害の発生を検知する障害検知装置のコンピュータに、複数の計算機の各々で実行されるプロセスを監視し、プロセス毎のリソース使用状況と、プロセスのモニタリング情報とを取得するステップと、前記取得されたリソース使用状況とモニタリング情報とに基づいて、プロセス毎の順位付け、またはグループ分けを行うステップと、前記プロセス毎の順位付けを示す順位情報と、グループ分けを示すグループ情報と、前記モニタリング情報とに基づいて、プロセス毎の特徴量抽出に用いる単語を生成するステップと、前記生成された単語を前記複数の計算機毎に収集するステップと、前記収集された複数の計算機のプロセス毎の単語に基づいて、障害が発生した計算機と障害発生時間帯とを推定するステップとを実行させることを特徴とする障害検知プログラムである。 Further, in order to solve the above-described problem, the present invention is executed on each of the plurality of computers by the computer of the failure detection apparatus that monitors the process executed on each of the plurality of computers and detects the occurrence of the failure. Monitoring the process, obtaining resource usage status for each process and process monitoring information, and ranking or grouping for each process based on the obtained resource usage status and monitoring information. Generating a word used for feature amount extraction for each process based on rank information indicating ranking for each process, group information indicating grouping, and the monitoring information, and The collected words for each of the plurality of computers, and the collected words for each process of the plurality of computers. Zui by a failure detection program for causing and a step of estimating a fault calculator and failure time zone has occurred.
また、上述した課題を解決するために、本発明は、計算機で実行されるプロセスを監視し、プロセス毎のリソース使用状況と、プロセスのモニタリング情報とを取得するプロセス監視手段と、前記プロセス監視手段により取得されたリソース使用状況とモニタリング情報とに基づいて、プロセス毎の順位付け、またはグループ分けを行う順位・グループ情報生成手段と、前記順位・グループ情報生成手段により得られた、プロセス毎の順位付けを示す順位情報と、グループ分けを示すグループ情報と、前記モニタリング情報とに基づいて、プロセス毎の特徴量抽出に用いる単語を生成する単語生成手段とを具備することを特徴とする単語集作成装置である。 In order to solve the above-described problems, the present invention monitors a process executed by a computer, and obtains a resource usage status for each process and process monitoring information, and the process monitoring unit. Ranking / group information generating means for ranking or grouping for each process based on the resource usage and monitoring information obtained by the above, and ranking for each process obtained by the ranking / group information generating means A word collection creation comprising: word generation means for generating words used for feature quantity extraction for each process based on rank information indicating attachment, group information indicating grouping, and the monitoring information Device.
また、上述した課題を解決するために、本発明は、計算機で実行されるプロセス毎のリソース使用状況とプロセスのモニタリング情報とに基づいてプロセス毎の順位付け、またはグループ分けが行われることにより得られた、プロセス毎の順位付けを示す順位情報と、グループ分けを示すグループ情報とを、前記モニタリング情報とに基づいて生成されたプロセス毎の特徴量抽出に用いる単語を、複数の計算機毎に収集する収集手段と、前記収集手段により収集された、前記複数の計算機のプロセス毎の単語に基づいて、障害が発生した計算機と障害発生時間帯とを推定する障害時間帯推定手段とを備えることを特徴とする障害発生分析装置である。 Further, in order to solve the above-described problems, the present invention is obtained by ranking or grouping for each process based on the resource usage status for each process executed by the computer and the process monitoring information. The word used for the feature quantity extraction for each process generated based on the ranking information indicating the ranking for each process and the group information indicating the grouping is collected for each of a plurality of computers. And a failure time zone estimation means for estimating a failure occurrence computer and a failure occurrence time zone based on words for each process of the plurality of computers collected by the collection device. This is a characteristic failure analysis apparatus.
この発明によれば、プロセスに関する特別な知識を不要とし、またログを用いなくとも、計算機の障害を検知することができるという利点が得られる。 According to the present invention, there is an advantage that it is possible to detect a computer failure without using special knowledge about the process and without using a log.
以下、本発明の一実施形態を、図面を参照して説明する。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
A.第1実施形態
まず、本発明の第1実施形態について説明する。
図1は、本発明の第1実施形態による障害検知装置の構成を示すブロック図である。図において、障害検知装置は、単語集作成部1と障害発生分析部10とから構成される。単語集作成部1は、プロセス監視部2、順位・グループ情報生成部3、及び単語生成部4を備える。障害発生分析部10は、収集部11、障害時間帯推定部12、及び表示部13を備える。
A. First Embodiment First, a first embodiment of the present invention will be described.
FIG. 1 is a block diagram showing the configuration of the failure detection apparatus according to the first embodiment of the present invention. In the figure, the failure detection apparatus includes a word
単語集作成部1は、障害検知の対象となる全ての計算機20−1、20−2、20−3上で動作し、各計算機20−1〜20−3上で動作するプロセスの動作状況を表す単語集を生成する。障害発生分析部10は、全ての計算機20−1〜20−3から単語集を定期的に収集し、障害が発生した計算機とその時間帯を分析する。
The word
プロセス監視部2は、OS21上で動作するプロセスの情報を監視し、CPUや、メモリなどの各種リソースの使用状況、及びプロセスの実行ユーザID、実行グループIDといったモニタリング情報を取得する。順位・グループ情報生成部3は、OS21上で動作する全てのプロセスについて、各種リソースの使用状況またはモニタリング情報に従って、プロセスの順位付けや、グループ分けを行う。単語生成部4は、得られた順位・グループ情報と実行ユーザID、実行グループID、及びプロセス名とから特徴量抽出に用いる単語を生成する。
The
収集部11は、単語生成部4において生成された単語を全ての計算機20−1〜20−3から収集する。障害時間帯推定部12は、収集された単語から特徴的なキーワードを抽出し障害の発生した計算機と時間帯を推定する。表示部13は、推定された時間帯をユーザに対して表示する。
The
図2は、プロセス監視部2によって監視されるプロセス情報の一例を示す図である。上述したプロセス監視部2は、OS21上で動作するプロセスの各種リソース使用状況や、プロセスの実行ユーザID、実行グループIDを、OS21の提供するインタフェースを通じて監視する。監視対象のリソースとしては、CPUや、メモリの使用率などがある。OS21の提供するインタフェースとしては、/procファイルシステムや、システムコールなどがある。
FIG. 2 is a diagram illustrating an example of process information monitored by the
図3、図4は、順位・グループ情報生成部3による順位付け及びグループ分けの一例を示す図である。順位・グループ情報生成部3は、プロセス監視部2を通じて、OS21上で動作する全てのプロセスの各種リソース使用状況を取得し、リソースそれぞれについて順位付け、もしくはグループ分けをする。プロセスのリソース使用状況が、図2に示す通りであった場合、CPUリソース使用状況の順位付けは、図3に示す通りになる。また、CPUリソース使用率の度合いによって、例えば、「high(30%以上)」、「mid(10%以上30%未満」、「low(10%未満)」などの閾値を適切に決めることで、図4に示すようにグループ分けすることができる。
FIGS. 3 and 4 are diagrams showing an example of ranking and grouping by the rank / group
単語生成部4は、プロセス名と、順位・グループ情報生成部3で得られた順位や、グループ情報、プロセスの実行ユーザID、実行グループIDなどとを適切な区切り文字で接続することによって、計算機20−1〜20−3で動作するプロセスの情報を表す単語集を生成する。例えば、図3のCPU使用率から単語集を作成した場合、プロセス「firefox」は、CPU使用率が1位であるため、区切り文字を「:」とすると、生成される単語は、firefox:cpu1である。同様に、emacs:cpu2、xterm:cpu3という単語を生成し、最終的には{firefox:cpu1,emacs:cpu2,xterm:cpu3}という3つの単語から成る単語集を生成する。
The word generation unit 4 connects the process name to the rank obtained by the rank / group
また、図4のグループ情報を用いる場合、プロセス「firefox」は、CPUグループが「high」であるため、生成される単語は、firefox:cpuhighである。同様に、emacs:cpuhigh、xterm:cpulowという単語を生成し、最終的には{firefox:cpuhigh,emacs:cpuhigh,xterm:cpulow}という3つの単語から成る単語集を生成する。 Further, when the group information of FIG. 4 is used, since the process “firefox” has the CPU group “high”, the generated word is “firefox: cpuhigh”. Similarly, the words emacs: cpuhigh and xterm: cpulow are generated, and finally a word collection consisting of three words {firefox: cpuhigh, emacs: cpuhigh, xterm: cpulow} is generated.
また、図示しなかったが、実行ユーザIDから単語集を作成した場合、プロセス「firefox」の実行ユーザIDは、yasuhitoであるため、生成される単語は、firefox:yasuhitoである。同様に、emacs:yasuhito、xterm:yutaroという単語を生成し、最終的には{firefox:yasuhito,emacs:yasuhito,xterm:yutaro}という3つの単語から成る単語集を生成する。 Although not shown in the figure, when a word collection is created from the execution user ID, the execution user ID of the process “firefox” is yashitho, and thus the generated word is firefox: yasuito. Similarly, the words emacs: yasuhito and xterm: yutaro are generated, and finally a word collection consisting of three words {firefox: yasuhito, emacs: yasuhito, xterm: yutaro} is generated.
収集部11は、全ての計算機20−1〜20−3から単語集を収集する。また、単語集毎に単語集を生成した計算機のID(ホスト名など)、及び収集した時間帯情報を付加する。時間帯の幅は、例えば、1時間や、15分など任意に設定して良い。
The
障害時間帯推定部12は、収集部11にて収集された単語集について、既存のIDF法、もしくはlog.entropy法を用いてキーワード抽出を行う。キーワード抽出では、収集された単語集に表れる単語iについて、この単語iがどの程度特徴的かという指標g(i)を求める。次に、求められた指標g(i)を使って障害検知の対象となる期間をある一定の時間帯毎に重み付けし、時間帯毎の特徴値を得る。特徴値が大きい時間帯は、他の時間帯に比較して異常であり、障害が発生したものと推測する。
The failure time
一般的に、特徴値を大きくする傾向のある単語の特徴として、全体のうちごく少数の計算機のみで表れるということが挙げられる。例えば、特定の計算機のみで実行されるプロセスや、異常なCPU使用率を示すプロセス、実行ユーザIDが他の計算機と異なるプロセスなどからは、特徴的な単語が生成されるため、特徴値が異常値を示しやすい。 In general, as a feature of a word that tends to increase the feature value, it can be expressed by only a few computers in the whole. For example, a characteristic word is generated from a process that is executed only on a specific computer, a process that shows an abnormal CPU usage rate, or a process that has a different execution user ID from other computers. Easy to show value.
障害時間帯推定部12は、前処理として、次のような疎行列であるM×N行列を作成する。M×N行列の要素をx(i,j)とすると、x(i,j)を「単語iがノード時間帯jに出現した回数」と定義する。ここで、ノード時間帯とは、計算機毎の時間帯を一意に定めるIDである。つまり、行列の列数N=(ノード数)×(時間帯の数)となる。M×N行列を生成した後、IDF法、もしくはlog.entropy法を用いて、指標g(i)を次のように算出する。
The failure time
以下、IDF法を用いた場合のキーワード抽出方法について説明する。IDF法では、指標g(i)は、次式(1)で求められる。 Hereinafter, a keyword extraction method when the IDF method is used will be described. In the IDF method, the index g (i) is obtained by the following equation (1).
ここで、nは全ノード時間帯の数、dfiは単語iが出現するノード時間帯の数である。求められたg(i)を重み付けに用いると、ノード時間帯jの特徴値|xj|は、次式(2)で求められる。 Here, n is the number of all node time zones, and df i is the number of node time zones in which the word i appears. When the obtained g (i) is used for weighting, the characteristic value | x j | of the node time zone j is obtained by the following equation (2).
IDF法の特徴として、多くのノード時間帯に出現する単語の重要度が下がり、特定のノード時間帯にしか出現しない単語の重要度が上がる。 As a feature of the IDF method, the importance of words appearing in many node time zones decreases, and the importance of words that appear only in specific node time zones increases.
次に、log.entropy法を用いた場合のキーワード抽出方法について説明する。log.entropy法では、g(i)は、次式(3)で求められる。 Next, log. A keyword extraction method when the entropy method is used will be described. log. In the entropy method, g (i) is obtained by the following equation (3).
ここで、pijは、単語iが出現した全回数のうち、ノード時間帯jに出現した回数の割合であり、次式(4)で表わされる。 Here, p ij is the ratio of the number of times the word i has appeared in the node time zone j out of the total number of times the word i has appeared, and is expressed by the following equation (4).
求められたg(i)を重み付けに用いると、ノード時間帯jの特徴値|xj|は、次式(5)で求められる。 When the obtained g (i) is used for weighting, the characteristic value | x j | of the node time zone j is obtained by the following equation (5).
log.entropy法の特徴として、全てのノード時間帯に同じ回数ずつ出現する単語の重要度は、「0」であり、1つのノード時間帯にのみ出現する単語の重要度は、「1」である。つまり、特定のノード時間帯に偏って出現する単語ほど、その重みは、「1」に近付く。 log. As a feature of the entropy method, the importance of a word that appears the same number of times in all node time zones is “0”, and the importance of a word that appears only in one node time zone is “1”. That is, the weight of a word that appears biased in a specific node time zone approaches “1”.
表示部13は、障害時間帯推定部12において、ある閾値以上の特徴値が検出された場合、その計算機と時間帯とをユーザに対して表示する。表示方法としては、ディスプレイに表示する他、ファイルに出力する、電子メールを送る、他のプログラムに内容を送信するなど、結果をユーザが認知できる任意の方法で良い。
When the failure time
次に、本第1実施形態の動作を説明する。
図5は、本第1実施形態による単語集作成部1の動作を説明するためのフローチャートである。まず、ステップSa1において、プロセス監視部2は、OS21上で動作するプロセスの各種リソース使用状況を、OS21が提供するインタフェースを通じて監視し、取得する(ステップSa1)。
Next, the operation of the first embodiment will be described.
FIG. 5 is a flowchart for explaining the operation of the word
次に、順位・グループ情報生成部3は、プロセス監視部2を通じて、OS21上で動作する全てのプロセスの各種リソース使用状況を取得し、リソースそれぞれについて順位付け、もしくはグループ分けをする(ステップSa2)。次に、単語生成部4は、プロセス名と順位・グループ情報生成部3で得られた順位、もしくはグループ情報とを適切な区切り文字で接続することによって、計算機で動作するプロセスの情報を表す単語集を生成する(ステップSa3)。
Next, the rank / group
次に、図6は、本第1実施形態による障害発生分析部10の動作を説明するためのフローチャートである。収集部11は、一定時間毎に起動され、障害検知対象となる全ての計算機の単語集作成部1で生成された単語集を収集する(ステップSb1)。次に、障害時間推定部12は、収集部11にて収集された単語集について、IDF法、もしくはlog.entropy法を用いて、障害を起こした計算機と時間帯との推定を行う(ステップSb2)。
Next, FIG. 6 is a flowchart for explaining the operation of the failure
次に、障害時間推定部12は、障害が発見されたかを判定し(ステップSb3)、障害が検知された場合には、表示部13は、障害が発生した計算機と時間帯とをユーザに対して表示する(ステップSb4)。その後、ステップSb1へ戻り、上述した処理を繰り返す。一方、ステップSb3で、障害が検知されなかった場合には、そのままステップSb1へ戻り、上述した処理を繰り返す。
Next, the failure
上述した第1実施形態によれば、プロセスが出力するログを用いることなく、OSから得られるプロセスの情報のみを用いて障害検知することができる。このため、大部分のユーザプロセスなどログを出力しない種類のプロセスについて障害を検知することが可能となる。また、障害検知のための知識データベースを必要としないため、あらかじめ知識データベースを作成する必要がなく、未知の障害にも対応可能である。 According to the first embodiment described above, it is possible to detect a failure using only process information obtained from the OS without using a log output by the process. For this reason, it becomes possible to detect a failure for a type of process that does not output a log, such as most user processes. In addition, since a knowledge database for fault detection is not required, it is not necessary to create a knowledge database in advance, and it is possible to deal with unknown faults.
B.第2実施形態
次に、本発明の第2実施形態について説明する。
図7は、本発明の第2実施形態による障害検知装置の構成を示すブロック図である。なお、図において、図1と同一部分には同一符号を付し、その詳細な説明を省略する。本第2実施形態では、第1実施形態の構成に加えて、プログラムパス取得部5を備えている。また、第1実施形態における単語生成部4に変えて、単語生成部6を備えている。
B. Second Embodiment Next, a second embodiment of the present invention will be described.
FIG. 7 is a block diagram showing the configuration of the failure detection apparatus according to the second embodiment of the present invention. In the figure, the same parts as those in FIG. 1 are denoted by the same reference numerals, and detailed description thereof is omitted. In the second embodiment, a program
プログラムパス取得部5は、OS21上で実行されているプロセスそれぞれについて、OS21のインタフェースを通じてプログラムパスを取得する。例えば、プロセス「firefox」のプログラムパスは、/usr/bin/firefox、プロセス「xterm」のプログラムパスは、/usr/bin/xtermなどという情報を取得する。
The program
単語生成部6は、プログラムパス取得部5で得られたプログラムパスと順位・グループ情報生成部3で得られた順位や、グループ情報、プロセスの実行ユーザID、実行グループIDなどとを適切な区切り文字で接続することによって、計算機で動作するプロセスの情報を表す単語集を生成する。
The word generation unit 6 appropriately separates the program path obtained by the program
例えば、図3のCPU使用率から単語集を作成した場合、プロセス「firefox」は、プログラムパス取得部5により、プログラム/usr/bin/firefoxを実行したものであることが分かり、また、CPU仕用率が1位であるため、区切り文字を「:」とすると、生成される単語は、/usr/bin/firefox:cpu1となる。同様に、/usr/bin/emacs:cpu2、/usr/bin/xterm:cpu3という単語を生成し、最終的には、{/usr/bin/firefox:cpu1,/usr/bin/emacs:cpu2,/usr/bin/xterm:cpu3}という3つの単語から成る単語集を生成する。
For example, when the word collection is created from the CPU usage rate of FIG. 3, it is understood that the process “firefox” is the program / usr / bin / firefox executed by the program
次に、本第2実施形態の動作について説明する。
図8は、本第2実施形態による単語集作成部1の動作を説明するためのフローチャートである。プロセス監視部2は、OS21上で動作するプロセスの各種リソース使用状況を、OS21の提供するインタフェースを通じて監視し、取得する(ステップSc1)。次に、順位・グループ情報生成部3は、プロセス監視部2を通じて、OS21上で動作する全てのプロセスの各種リソース使用状況を取得し、リソースそれぞれについて順位付け、もしくはグループ分けをする(ステップSc2)。
Next, the operation of the second embodiment will be described.
FIG. 8 is a flowchart for explaining the operation of the word
次に、プログラムパス取得部5は、OS21上で実行されているプロセスそれぞれについて、OS21のインタフェースを通じてプログラムパスを取得する(ステップSc3)。単語生成部6は、プログラムパス取得部5で得られたプログラムパス名と、順位・グループ情報生成部3で得られた順位、もしくはグループ情報とを適切な区切り文字で接続することによって、計算機で動作するプロセスの情報を表す単語集を生成する(ステップSc4)。生成された単語集は、収集部11への入力として渡され、以下、第1実施形態と同様の手順で障害が推定される。
Next, the program
上述した第2実施形態によれば、単語の生成が、プロセス名ではなく、プロセスを生成したプログラムパスを用いて行われることによって、例えば、同じプロセス名でもプログラムパスが異なる場合を区別することができる。このため、悪意のあるユーザが偽装したプログラムが実行された場合を障害検出結果に反映することができる。このため、第1実施形態で検知できる障害の精度をさらに向上させることができる。 According to the second embodiment described above, the generation of words is performed using the program path that generated the process, not the process name, so that, for example, the case where the program path is different even with the same process name can be distinguished. it can. For this reason, the case where the program camouflaged by the malicious user is executed can be reflected in the failure detection result. For this reason, it is possible to further improve the accuracy of faults that can be detected in the first embodiment.
本発明の障害検知装置は、ソフトウェア及びハードウェア構成がほとんど同様なパーソナルコンピュータや、ワークステーション、サーバなどの計算機群に対して適用することができる。 The failure detection apparatus of the present invention can be applied to a computer group such as a personal computer, a workstation, and a server having almost the same software and hardware configuration.
1 単語集作成部
2 プロセス監視部
3 順位・グループ情報生成部
4 単語生成部
5 プログラムパス取得部
6 単語生成部
10 障害発生分析部
11 収集部
12 障害時間推定部
13 表示部
20−1〜20−3 計算機
21 OS
DESCRIPTION OF
Claims (13)
前記プロセス監視手段により取得されたリソース使用状況とモニタリング情報とに基づいて、プロセス毎の順位付け、またはグループ分けを行う順位・グループ情報生成手段と、
前記順位・グループ情報生成手段により得られた、プロセス毎の順位付けを示す順位情報と、グループ分けを示すグループ情報と、前記モニタリング情報とに基づいて、プロセス毎の特徴量抽出に用いる単語を生成する単語生成手段と、
前記単語生成手段により生成された単語を前記複数の計算機毎に収集する収集手段と、
前記収集手段により収集された、前記複数の計算機のプロセス毎の単語に基づいて、障害が発生した計算機と障害発生時間帯とを推定する障害時間帯推定手段と
を備えることを特徴とする障害検知装置。 A process monitoring means for monitoring a process executed by each of a plurality of computers, and obtaining a resource usage status for each process and process monitoring information;
Rank / group information generating means for ranking or grouping for each process based on the resource usage and monitoring information acquired by the process monitoring means;
Generates words to be used for feature value extraction for each process based on the rank information indicating the ranking for each process, the group information indicating the grouping, and the monitoring information obtained by the rank / group information generating means. Word generating means for
Collecting means for collecting the words generated by the word generating means for each of the plurality of computers;
Failure detection, comprising: a failure time zone estimation means for estimating a failure occurrence time zone and a failure occurrence time zone based on the words for each process of the plurality of computers collected by the collection means apparatus.
前記単語生成手段は、
前記プログラムパス取得手段により取得されたプログラムパスと、順位情報と、グループ情報と、モニタリング情報とに基づいて、プロセス毎の特徴量抽出に用いる単語を生成することを特徴と請求項1記載の障害検知装置。 A program path acquisition means for acquiring a program path for each process executed by each of a plurality of computers,
The word generating means
The failure according to claim 1, wherein a word used for feature quantity extraction for each process is generated based on the program path acquired by the program path acquisition unit, rank information, group information, and monitoring information. Detection device.
前記取得されたリソース使用状況とモニタリング情報とに基づいて、プロセス毎の順位付け、またはグループ分けを行うステップと、
前記プロセス毎の順位付けを示す順位情報と、グループ分けを示すグループ情報と、前記モニタリング情報とに基づいて、プロセス毎の特徴量抽出に用いる単語を生成するステップと、
前記生成された単語を前記複数の計算機毎に収集するステップと、
前記収集された複数の計算機のプロセス毎の単語に基づいて、障害が発生した計算機と障害発生時間帯とを推定するステップと
を含むことを特徴とする障害検知方法。 Monitoring a process executed on each of a plurality of computers, obtaining resource usage for each process, and process monitoring information;
Based on the obtained resource usage status and monitoring information, ranking or grouping for each process;
Generating a word to be used for feature value extraction for each process based on rank information indicating ranking for each process, group information indicating grouping, and the monitoring information;
Collecting the generated words for each of the plurality of computers;
A failure detection method comprising: estimating a computer in which a failure has occurred and a failure occurrence time zone based on the collected words for each process of the plurality of computers.
複数の計算機の各々で実行されるプロセスを監視し、プロセス毎のリソース使用状況と、プロセスのモニタリング情報とを取得するステップと、
前記取得されたリソース使用状況とモニタリング情報とに基づいて、プロセス毎の順位付け、またはグループ分けを行うステップと、
前記プロセス毎の順位付けを示す順位情報と、グループ分けを示すグループ情報と、前記モニタリング情報とに基づいて、プロセス毎の特徴量抽出に用いる単語を生成するステップと、
前記生成された単語を前記複数の計算機毎に収集するステップと、
前記収集された複数の計算機のプロセス毎の単語に基づいて、障害が発生した計算機と障害発生時間帯とを推定するステップと
を実行させることを特徴とする障害検知プログラム。 In the computer of the failure detection device that detects the occurrence of a failure by monitoring the processes executed on each of the plurality of computers,
Monitoring a process executed on each of a plurality of computers, obtaining resource usage for each process, and process monitoring information;
Based on the obtained resource usage status and monitoring information, ranking or grouping for each process;
Generating a word to be used for feature value extraction for each process based on rank information indicating ranking for each process, group information indicating grouping, and the monitoring information;
Collecting the generated words for each of the plurality of computers;
A failure detection program that executes a step of estimating a computer in which a failure has occurred and a failure occurrence time zone based on the collected words for each process of the plurality of computers.
前記プロセス監視手段により取得されたリソース使用状況とモニタリング情報とに基づいて、プロセス毎の順位付け、またはグループ分けを行う順位・グループ情報生成手段と、
前記順位・グループ情報生成手段により得られた、プロセス毎の順位付けを示す順位情報と、グループ分けを示すグループ情報と、前記モニタリング情報とに基づいて、プロセス毎の特徴量抽出に用いる単語を生成する単語生成手段と
を具備することを特徴とする単語集作成装置。 A process monitoring means for monitoring a process executed by a computer and obtaining resource use status for each process and process monitoring information;
Rank / group information generating means for ranking or grouping for each process based on the resource usage and monitoring information acquired by the process monitoring means;
Generates words to be used for feature value extraction for each process based on the rank information indicating the ranking for each process, the group information indicating the grouping, and the monitoring information obtained by the rank / group information generating means. And a word generation means.
前記単語生成手段は、
前記プログラムパス取得手段により取得されたプログラムパスと、順位情報と、グループ情報と、モニタリング情報とに基づいて、プロセス毎の特徴量抽出に用いる単語を生成することを特徴と請求項9記載の単語集作成装置。 A program path acquisition means for acquiring a program path for each process executed by each of a plurality of computers,
The word generating means
10. The word according to claim 9, wherein a word used for feature amount extraction for each process is generated based on the program path acquired by the program path acquisition means, rank information, group information, and monitoring information. Collection device.
前記収集手段により収集された、前記複数の計算機のプロセス毎の単語に基づいて、障害が発生した計算機と障害発生時間帯とを推定する障害時間帯推定手段と
を備えることを特徴とする障害発生分析装置。 Rank information indicating the ranking for each process and group obtained by ranking or grouping for each process based on the resource usage status for each process executed by the computer and the process monitoring information, and the group A collection means for collecting, for each of a plurality of computers, a word used for feature amount extraction for each process generated based on the monitoring information and group information indicating division;
A failure occurrence characterized by comprising failure time zone estimation means for estimating a failure occurrence time zone and a failure occurrence time zone based on the words for each process of the plurality of computers collected by the collection means Analysis equipment.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008279896A JP2010108266A (en) | 2008-10-30 | 2008-10-30 | Failure detection device, failure detection method, failure detection program, wordbook forming device, and failure occurrence analysis device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008279896A JP2010108266A (en) | 2008-10-30 | 2008-10-30 | Failure detection device, failure detection method, failure detection program, wordbook forming device, and failure occurrence analysis device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010108266A true JP2010108266A (en) | 2010-05-13 |
Family
ID=42297653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008279896A Pending JP2010108266A (en) | 2008-10-30 | 2008-10-30 | Failure detection device, failure detection method, failure detection program, wordbook forming device, and failure occurrence analysis device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010108266A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101212497B1 (en) * | 2012-05-02 | 2012-12-14 | 주식회사 팀스톤 | Method of monitoring resource and apparatus performing the same |
KR101274266B1 (en) | 2011-05-11 | 2013-06-17 | 한국수력원자력 주식회사 | Method for caculating dynamic mass balance of pyroprocess based on the discrete event dynamic system |
US10235214B2 (en) | 2016-06-24 | 2019-03-19 | International Business Machines Corporation | Hierarchical process group management |
JP7011696B1 (en) | 2020-10-08 | 2022-01-27 | レノボ・シンガポール・プライベート・リミテッド | Electronics, control methods, and trained models |
-
2008
- 2008-10-30 JP JP2008279896A patent/JP2010108266A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101274266B1 (en) | 2011-05-11 | 2013-06-17 | 한국수력원자력 주식회사 | Method for caculating dynamic mass balance of pyroprocess based on the discrete event dynamic system |
KR101212497B1 (en) * | 2012-05-02 | 2012-12-14 | 주식회사 팀스톤 | Method of monitoring resource and apparatus performing the same |
WO2013165188A1 (en) * | 2012-05-02 | 2013-11-07 | 주식회사 팀스톤 | Method for monitoring resources in computing device, and computing device |
US10235214B2 (en) | 2016-06-24 | 2019-03-19 | International Business Machines Corporation | Hierarchical process group management |
JP7011696B1 (en) | 2020-10-08 | 2022-01-27 | レノボ・シンガポール・プライベート・リミテッド | Electronics, control methods, and trained models |
JP2022062520A (en) * | 2020-10-08 | 2022-04-20 | レノボ・シンガポール・プライベート・リミテッド | Electronic device, control method, and trained model |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Brandón et al. | Graph-based root cause analysis for service-oriented and microservice architectures | |
US9921937B2 (en) | Behavior clustering analysis and alerting system for computer applications | |
US10452458B2 (en) | Computer performance prediction using search technologies | |
US9424157B2 (en) | Early detection of failing computers | |
US20150205691A1 (en) | Event prediction using historical time series observations of a computer application | |
US8352790B2 (en) | Abnormality detection method, device and program | |
JP5874936B2 (en) | Operation management apparatus, operation management method, and program | |
Notaro et al. | A survey of aiops methods for failure management | |
US9870294B2 (en) | Visualization of behavior clustering of computer applications | |
Zheng et al. | 3-dimensional root cause diagnosis via co-analysis | |
CN110888783A (en) | Monitoring method and device of micro-service system and electronic equipment | |
Wang et al. | Fault detection for cloud computing systems with correlation analysis | |
JP6079243B2 (en) | Failure analysis support device, failure analysis support method, and program | |
Martino et al. | Logdiver: A tool for measuring resilience of extreme-scale systems and applications | |
JP6196196B2 (en) | Inter-log causal estimation device, system abnormality detection device, log analysis system, and log analysis method | |
WO2015110873A1 (en) | Computer performance prediction using search technologies | |
US20190265088A1 (en) | System analysis method, system analysis apparatus, and program | |
JP2015108898A (en) | Abnormality detection system and abnormality detection method | |
JP2010108266A (en) | Failure detection device, failure detection method, failure detection program, wordbook forming device, and failure occurrence analysis device | |
Chen et al. | Design and Evaluation of an Online Anomaly Detector for Distributed Storage Systems. | |
JP5668425B2 (en) | Failure detection apparatus, information processing method, and program | |
Oliner et al. | A query language for understanding component interactions in production systems | |
Mdhaffar et al. | CEP4Cloud: complex event processing for self-healing clouds | |
US8798944B2 (en) | Estimating ball-grid-array longevity in a computer system | |
Jha et al. | Holistic measurement-driven system assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100709 |