JP2010218267A - Obstacle occurrence probability calculation system, obstacle occurrence probability calculation method and program - Google Patents
Obstacle occurrence probability calculation system, obstacle occurrence probability calculation method and program Download PDFInfo
- Publication number
- JP2010218267A JP2010218267A JP2009064869A JP2009064869A JP2010218267A JP 2010218267 A JP2010218267 A JP 2010218267A JP 2009064869 A JP2009064869 A JP 2009064869A JP 2009064869 A JP2009064869 A JP 2009064869A JP 2010218267 A JP2010218267 A JP 2010218267A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- command
- occurrence probability
- computer system
- operation feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、コンピュータシステムの障害発生の確率を、そのコンピュータシステムに係る情報に基づいて算出する障害発生確率算出システムに関する。 The present invention relates to a failure occurrence probability calculation system that calculates a failure occurrence probability of a computer system based on information related to the computer system.
情報処理を行うコンピュータシステムは、様々な分野でサービスを提供するシステムとして利用されており、例えば、金融取引,交通の運行制御,行政サービス,会社内の情報管理などを効率的に実行するためのシステムとして活用されている。 Computer systems that perform information processing are used as systems that provide services in various fields. For example, to efficiently execute financial transactions, traffic operation control, administrative services, in-house information management, etc. It is used as a system.
しかし、コンピュータの高性能化によりコンピュータシステムの利用範囲が拡大している一方で、コンピュータシステムが業務基盤を担うようになっているため、コンピュータシステムに不具合が発生すると、業務が停止もしくは遅延してしまうことになり、損害が生じてしまうという懸念がある。 However, while the range of use of computer systems has expanded due to the high performance of computers, computer systems have become the business foundation, so when a problem occurs in a computer system, the work is stopped or delayed. There is a concern that damage will occur.
このため、コンピュータシステムを利用する機関は、そのシステムの保守管理を業者に依頼して、システムに障害が発生した際の早急な復旧や、システムに対する定期的な点検,ソフトウェアの更新などを行うのが一般的である。 For this reason, an organization that uses a computer system asks a contractor to perform maintenance and management of the system to perform quick recovery in the event of a system failure, periodic system inspections, software updates, etc. Is common.
システムの保守管理を行う管理業者からこのシステムの利用機関に請求される保守料金は、そのシステムの開発費用に対して一定の割合とされることが多いが、想定される障害とその発生率はシステム毎に異なるので、個別に保守料金を見積もることが適当である。そのためには、システムの障害発生率を適正に算出する技術が必要であった。 The maintenance fee charged by the system maintenance management company to the user organization of this system is often a fixed percentage of the development cost of the system. Since it differs from system to system, it is appropriate to estimate the maintenance fee individually. For this purpose, a technique for appropriately calculating the failure rate of the system is necessary.
ここで、コンピュータシステムの保守に関連する技術が、特許文献1及び特許文献2に開示されている。特許文献1には、コンピュータシステムの過去に発生した複数の障害毎に、現象区分と要因区分と不稼動時間とを含む標本データを格納する障害情報データベースを備え、現象区分と、要因区分の組み合わせによる不稼働時間とを基に、不稼働時間の総和である総不稼働時間を算出し、該現象区分と要因区分の組み合わせと総不稼働時間とを基に線形確率計算を用い、未来における障害が発生する現象区分と要因区分の組み合わせと該組み合わせによる障害が発生する年月日及び障害発生確率を算出し、障害予知データベースに格納する障害予知機能部と、該障害予知データベースに格納した障害予知データの障害発生確率が予め設定した閾値を越えたときに予め設定された宛先に通知する障害発生高確率通知機能部とを備えた障害予知システムが開示されている。
Here, techniques related to maintenance of a computer system are disclosed in
特許文献2には、コンピュータシステムの稼動状態に関する情報を収集し、この収集された情報間の相関関係を示す相関情報を記録し、相関情報を参照して、収集された情報から、コンピュータシステムで実行されるサービスに生じた障害を検出し、この検出された障害を回復するための処理を生成し、相関情報を参照して、生成された処理及び/又は前記入力された処理の実行によってコンピュータシステムに与えられる効果及び影響を判定し、効果及び影響が判定された処理の実行の要否、実行順序及び実行時刻の少なくとも一つを決定する、コンピュータシステムの制御方法が開示されている。
しかしながら、特許文献1及び2に開示された技術では、コンピュータシステムで発生が想定される障害のうち、ソフトウェアやハードウェアの不具合に起因する障害は、システムが関連する情報を出力するので判別可能であるが、システム利用者の操作ミスに起因する障害については判別できないという不都合があった。このため、システムの評価をするにあたって、現場での運用の仕方を考慮することができなかった。
However, in the technologies disclosed in
利用者の操作ミスによる障害を検出するためには、カメラやセンサーなどを用いて利用者の操作を監視する方法があるが、利用者をカメラなどで監視することは、利用者のプライバシーを侵害することになり、またセンサーを取り付けることは感覚的に嫌悪感を及ぼす可能性があるため現実的ではなかった。 In order to detect a failure caused by a user's operation error, there is a method of monitoring the user's operation using a camera or a sensor. However, monitoring the user with a camera or the like violates the privacy of the user. In addition, it was not realistic to attach a sensor because it may cause a sense of disgust.
そこで、本発明は、前述した各関連技術における課題を解決し、利用者の操作に起因するコンピュータシステムの障害の発生確率を算出してシステムの保守を有効になし得るようにした障害発生確率算出システム,障害発生確率算出方法及び障害発生確率算出用プログラムを提供することを、その目的とする。 Therefore, the present invention solves the problems in each related technology described above, calculates the occurrence probability of a computer system failure caused by a user's operation, and makes it possible to effectively maintain the system. It is an object of the present invention to provide a system, a failure occurrence probability calculation method, and a failure occurrence probability calculation program.
上記目的を達成するため、本発明の障害発生確率算出システムは、監視対象のコンピュータシステムの実行コマンド及びその実行日時を示すコマンド履歴情報を収集するコマンド収集手段と、この収集されたコマンド履歴情報を蓄積するコマンド蓄積部と、前記監視対象のコンピュータシステムの障害を検出する障害検出手段と、この障害検出手段により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記コマンド蓄積部から抽出する障害時コマンド履歴抽出手段と、この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出する障害時操作特徴値算出手段と、この算出された障害時操作特徴値を蓄積する障害時データ記憶部と、評価対象のコンピュータシステムの実行コマンド履歴を入力しこのコマンド履歴を前記障害時操作特徴値算出手段と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出する操作特徴値算出手段と、この算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を、前記障害時データ記憶部に蓄積された情報を検索して算出する障害数算出手段と、この障害数算出手段に算出された前記障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出手段とを備えている。 In order to achieve the above object, a failure occurrence probability calculation system according to the present invention includes command collection means for collecting command history information indicating execution commands and execution dates and times of monitored computer systems, and the collected command history information. A command accumulating unit for accumulating; a fault detecting means for detecting a fault in the computer system to be monitored; and when the fault detecting means detects a fault in the computer system, the computer for a certain period immediately before the occurrence of the fault Command history extraction means for extracting a command history executed by the system from the command storage unit, and commands included in the extracted command history are classified into a plurality of preset categories, and the classification result is obtained. Based on this, the operation feature value at the time of failure representing the feature of the command history is calculated. Failure operation characteristic value calculating means, a failure data storage unit for storing the calculated failure operation feature value, and an execution command history of the computer system to be evaluated are inputted, and the command history is used as the failure operation feature value The operation feature value calculation means for calculating the evaluation target operation feature value representing the feature of the command history by performing analysis processing in the same manner as the calculation means, and the failure that is the same as or within the approximate range of the calculated evaluation target operation feature value Based on the number of failure operation characteristic values calculated by the failure number calculation means calculated by the failure number calculation means for searching the information accumulated in the failure data storage unit and calculating the number of operation characteristic values at the time of failure Fault occurrence probability calculating means for calculating the failure occurrence probability of the computer system to be evaluated.
また、本発明の障害発生確率算出方法は、監視対象のコンピュータシステムの実行コマンド及びその実行日時を示すコマンド履歴情報をコマンド収集手段が収集してコマンド蓄積部に蓄積すると共に、前記監視対象のコンピュータシステムの障害を障害検出手段が検出し、前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を障害時コマンド履歴抽出手段が前記コマンド蓄積部から抽出し、この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を障害時操作特徴値算出手段が算出し障害時データ記憶部に蓄積し、評価対象のコンピュータシステムの実行コマンド履歴を操作特徴値算出手段が入力して前記障害時操作特徴値算出手段と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出し、前記算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を障害数算出手段が前記障害時データ記憶部に蓄積された情報を検索して算出し、この算出された障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を障害発生確率算出手段が算出することを特徴とする。 Further, the failure occurrence probability calculation method of the present invention includes a command collection unit that collects an execution command of a monitoring target computer system and command history information indicating the execution date and stores the command history information in a command storage unit. When a failure is detected by the failure detection means and a failure of the computer system is detected, a history of commands executed by the computer system during a certain period immediately before the occurrence of the failure is obtained by the command history extraction means at the time of failure. The command extracted from the storage unit, the commands included in the extracted command history are classified into a plurality of preset categories, and the operation characteristic value at the time of failure representing the feature of the command history based on the classification result is displayed at the time of failure. Computer calculated by the operation feature value calculation means, accumulated in the data storage unit at the time of failure, and evaluated The operation feature value calculation means inputs the execution command history of the stem and performs analysis processing in the same manner as the operation feature value calculation means at the time of failure to calculate the evaluation target operation feature value representing the feature of the command history, and the calculated The failure number calculation means searches the information accumulated in the failure data storage unit to calculate the number of failure operation feature values that are the same as or within the approximate range of the evaluation target operation feature value, and the calculated failure The failure occurrence probability calculating means calculates a failure occurrence probability of the computer system to be evaluated based on the number of hourly operation feature values.
また、本発明の障害発生確率算出用プログラムは、監視対象のコンピュータシステム側から当該システムに実行されたコマンド及びその実行日時を示すコマンド履歴情報を収集して記憶装置に蓄積するコマンド収集機能と、前記監視対象のコンピュータシステムの障害を検出する障害検出機能と、この障害検出機能により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記記憶装置から抽出する障害時コマンド抽出機能と、この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出し前記記憶装置に蓄積する障害時操作特徴値算出機能と、評価対象のコンピュータシステムの実行コマンド履歴を入力しこのコマンド履歴を前記障害時操作特徴値算出機能と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出する評価対象操作特徴値算出機能と、この算出された評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の個数を前記記憶装置に蓄積された情報を検索して算出する障害数算出機能と、この算出された障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出機能と、をコンピュータに実行させることを特徴とする。 The failure occurrence probability calculation program of the present invention includes a command collection function for collecting commands executed in the system from the monitored computer system side and command history information indicating the execution date and storing the command history information in a storage device, A failure detection function for detecting a failure of the computer system to be monitored, and a history of commands executed by the computer system during a certain period immediately before the occurrence of the failure when the failure detection function detects a failure of the computer system Command extraction function at the time of failure from the storage device, and commands included in the extracted command history are classified into a plurality of preset categories, and the characteristics of the command history are expressed based on the classification result Calculation of faulty operation feature values by calculating faulty operation feature values and storing them in the storage device An evaluation for calculating an evaluation target operation feature value representing a feature of the command history by inputting a function and an execution command history of the computer system to be evaluated and analyzing the command history in the same manner as the failure operation feature value calculation function The target operation feature value calculation function, and the number of failures calculation by searching the information stored in the storage device to calculate the number of failure operation feature values that are the same as or within the approximate range of the calculated evaluation target operation feature value The computer is caused to execute a function and a failure occurrence probability calculation function for calculating a failure occurrence probability of the computer system to be evaluated based on the calculated number of operation characteristic values at the time of failure.
本発明は、以上のように構成したので、これにより、監視対象システムの障害発生時の実行コマンド履歴からその特徴を表す障害時操作特徴値を算出して蓄積しておくと共に、これに基づいて上述したように評価対象システムの障害発生確率を算出するので、利用者の操作に起因するコンピュータシステムの障害の発生確率を有効に算出することが可能となり、コンピュータシステムに対して行われた操作内容の危険度を提示することができ、よって、コンピュータシステムの保守をその運用状況を考慮して適切に行うことができる。 Since the present invention is configured as described above, it calculates and accumulates a failure operation feature value representing the feature from the execution command history at the time of failure of the monitored system, and based on this Since the failure occurrence probability of the evaluation target system is calculated as described above, it is possible to effectively calculate the failure occurrence probability of the computer system resulting from the user's operation, and the operation contents performed on the computer system Therefore, it is possible to appropriately perform maintenance of the computer system in consideration of its operation status.
以下、本発明にかかる一実施形態を、図面に基づいて説明する。 Hereinafter, an embodiment according to the present invention will be described with reference to the drawings.
図1は、本実施形態の障害発生確率算出システム1の構成を示す機能ブロック図である。図1に示すように、本実施形態の障害発生確率算出システム1は、監視対象のコンピュータシステム2−1〜2−n(nは自然数)と接続するインタフェース部11と、監視対象コンピュータシステム2−1〜2−nに定期的にアクセスしコンピュータシステム2−1〜2−nの実行コマンド及びその実行日時を示すコマンド履歴情報を収集するコマンド収集手段12と、この収集されたコマンド履歴情報を蓄積するコマンド蓄積部13とを備えている。
FIG. 1 is a functional block diagram illustrating a configuration of a failure occurrence
さらに、本実施形態の障害発生確率算出システム1は、監視対象コンピュータシステム2−1〜2−nに定期的にアクセスしコンピュータシステム2−1〜2−nの障害を検出する障害検出手段14と、この障害検出手段14によりコンピュータシステム2−1〜2−nの障害が検出された場合にこの障害が発生したコンピュータシステムにおける当該障害の発生時直前の一定時間分の実行コマンドの履歴をコマンド蓄積部13に蓄積された情報から抽出する障害時コマンド履歴抽出手段15と、この抽出された一定期間分のコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類するコマンド分類処理を実行しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出する障害時操作特徴値算出手段16と、この算出された障害時操作特徴値を蓄積する障害時データ記憶部17と、障害時操作特徴値算出手段16に算出された障害時操作特徴値が予め設定された複数の数値領域のいずれの領域に当てはまるかを判定し数値領域毎の障害時操作特徴値の数を示す障害数分布表を作成して障害時データ記憶部17に記憶させる障害数分布表作成手段26とを備えている。
Furthermore, the failure occurrence
更に、本実施形態の障害発生確率算出システム1は、コンピュータシステム2−1〜2−nのうちの1つである評価対象のコンピュータシステムの指定された日時における障害発生確率の算出指令を外部入力する情報入力部18と、この指令に従って指定された日時直前の一定時間における評価対象コンピュータシステムの実行コマンドの履歴をコマンド蓄積部13から抽出する評価対象コマンド抽出手段19と、この抽出された一定期間分のコマンド履歴を障害時操作特徴値算出手段16と同様に分析処理して評価対象操作特徴値を算出する操作特徴値算出手段20と、この算出された評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の数を障害時データ記憶部17に蓄積された情報を検索して算出する障害数算出手段21とを備えている。
Furthermore, the failure occurrence
また更に、本実施形態の障害発生確率算出システム1は、監視対象のコンピュータシステム2−1〜2−nの識別情報とその監視開始日時とを示す監視対象情報を取得する監視対象情報登録手段22と、この監視対象情報を記憶する監視対象情報記憶部23と、この監視対象情報に基づいて監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出する母数算出手段24と、障害数算出手段21に算出された数を母数算出手段24に算出された数で除算した値を評価対象コンピュータシステムの前記指定された日時における障害発生確率として算出し上位システム3へ出力する障害発生確率算出手段25とを備えている。
ここで、コマンド収集手段12と、コマンド蓄積部13と、障害検出手段14と、障害時コマンド履歴抽出手段15と、障害時操作特徴値算出手段16と、障害時データ記憶部17と、障害数分布表作成手段26とが、障害発生確率算出用データベース作成システムとなり、また、情報入力部18と、コマンド履歴抽出部19と、操作特徴値算出手段20と、障害時データ記憶部17と、障害数算出手段21と、母数算出手段24と、障害発生確率算出手段25とが、障害発生確率算出装置となる。
Furthermore, the failure occurrence
Here, the
監視対象のコンピュータシステム2−1〜2−nそれぞれは、同じ系統のオペレーティングシステム(OS)を搭載したシステムであり、例えば、UNIX(登録商標)系のOSを搭載したサーバなどである。また、コンピュータシステム2−1〜2−nそれぞれは、コマンドの実行履歴をとる機能を備えている。 Each of the computer systems 2-1 to 2-n to be monitored is a system equipped with an operating system (OS) of the same system, for example, a server equipped with a UNIX (registered trademark) OS. Each of the computer systems 2-1 to 2-n has a function of taking a command execution history.
障害発生確率算出システム1におけるコマンド収集手段12は、コンピュータシステム2−1〜2−nそれぞれに対して定期的にアクセスし、コンピュータシステム2−1〜2−n側で記録された実行コマンド履歴情報を取得しコマンド蓄積部13へ送る機能を備えている。ここで、コマンド履歴情報は、実行コマンドとその実行日時とそのコマンドを実行したコンピュータシステムの識別情報とを少なくとも含む情報である。
The command collection means 12 in the failure
コマンド情報蓄積部13は、コマンド収集手段12に順次収集されたコマンド履歴情報を蓄積する。図2は、コマンド情報蓄積部13に記憶されたコマンド履歴情報のイメージの一例を示す図である。図2に示すように、コマンド情報蓄積部13に記憶されたコマンド履歴情報は、コマンド収集手段12によって採番されたコマンド情報の識別子である「識別ID」と、コマンドを実行したコンピュータシステムの識別情報である「実行システムID」と、実行されたコマンドである「実行コマンド」と、その実行日時である「実行日時」とを対応付けて示す情報である。図2に示すコマンド履歴情報は、コンピュータシステム2−1〜2−nがUNIX(登録商標)系のOSを搭載したシステムである場合の一例である。
The command
障害検出手段14は、コンピュータシステム2−1〜2−nそれぞれに対して定期的にアクセスし、コンピュータシステム2−1〜2−nで発生した障害を検出する機能を備えている。 The failure detection means 14 has a function of periodically accessing each of the computer systems 2-1 to 2-n and detecting a failure that has occurred in the computer systems 2-1 to 2-n.
障害時コマンド履歴抽出手段15は、障害検出手段14によって障害が検出された場合に、この障害が発生したコンピュータシステム(2−1〜2−nのいずれか)の識別情報を入力して、この識別情報に対応する、当該障害発生時直前の一定期間分のコマンド履歴をコマンド蓄積部14に蓄積された情報から抽出する機能を備えている。ここで、一定期間分の実行コマンドとは、予め設定した一定の期間に実行されたコマンドであり、例えば、1時間内に実行されたコマンド、または、100回分の実行コマンドなどと設定すればよい。
When a failure is detected by the
障害時操作特徴値算出手段16は、障害時コマンド履歴抽出手段15に抽出された一定期間分のコマンド履歴に含まれているコマンドを、カテゴリ別に分類するコマンド分類処理を実行すると共にこの分類処理による分類結果に基づいて障害時操作特徴値を算出する手段である。この障害時操作特徴値算出手段16は、コンピュータシステム2−1〜2−nに実行されうる全てのコマンドをカテゴリ別に示すデータテーブル(図示せず)を参照し、このデータテーブルに従って一定期間分のコマンド履歴に含まれているコマンドをカテゴリ別に分類するコマンド分類処理を実行する機能と、このコマンド分類処理の結果である各カテゴリのコマンド数のうちの少なくとも1つを障害時操作特徴値として算出する機能とを備えている。これにより、コンピュータシステムの障害発生時の操作傾向を数値化することができる。 The failure operation feature value calculation means 16 executes a command classification process for classifying the commands included in the command history for a certain period of time extracted by the failure command history extraction means 15 by category, and by this classification process. This is means for calculating an operation feature value at the time of failure based on the classification result. The failure operation feature value calculation means 16 refers to a data table (not shown) showing all commands that can be executed by the computer systems 2-1 to 2 -n by category, and according to this data table for a certain period of time. At least one of a function for executing command classification processing for classifying commands included in the command history by category and the number of commands in each category as a result of the command classification processing is calculated as an operation characteristic value at the time of failure. With functionality. Thereby, the operation tendency at the time of failure of a computer system can be quantified.
例えば、コマンド分類処理は、システムの情報/状態を参照するための参照コマンドと、システムの情報/状態を変更するための変更コマンドと、その他のコマンドとの3つのカテゴリにコマンドを分類する処理であればよい。監視対象のコンピュータシステムがUNIX機である場合には、UNIXコマンドのうち、「ifconfig」,「vmstat」,「top」,「ps」などを参照コマンドに設定し、「ifup」,「ifdown」,「chmod」,「chown」などを変更コマンドに設定すると共に、参照コマンド数及び変更コマンド数の2つの値を障害時操作特徴値として算出するようにするとよい。
これは、参照コマンドがシステムに関する情報を表示してユーザに閲覧させるためのコマンドで、変更コマンドがシステムの状態設定を変更するためのコマンドなので、システムが参照コマンドを実行したときは、ユーザにシステムの状態を把握させて勘違いによる設定ミスを防ぐ傾向が高まり、システムが変更コマンドを実行したときは設定ミスや操作ミスが生じた可能性が高いため、参照コマンドの数と変更コマンドの数は操作ミスが発生した可能性を表すと言えるからである。
For example, the command classification process is a process for classifying commands into three categories: a reference command for referring to system information / status, a change command for changing system information / status, and other commands. I just need it. If the computer system to be monitored is a UNIX machine, among the UNIX commands, set "ifconfig", "vmstat", "top", "ps", etc. as reference commands, and "ifup", "ifdown", It is preferable to set “chmod”, “chown”, etc. to the change command, and to calculate two values of the reference command number and the change command number as the operation characteristic value at the time of failure.
This is a command for the reference command to display information about the system and allow the user to browse, and since the change command is a command for changing the system status setting, when the system executes the reference command, the system The number of reference commands and the number of change commands are the same as the number of reference commands and change commands are high because there is a high possibility that a setting error or operation error will occur when the system executes a change command. This is because it can be said that it represents the possibility that a mistake has occurred.
障害時データ記憶部17は、障害時操作特徴値算出手段16に算出された障害時操作特徴値を蓄積する。図3は、障害時データ記憶部17に記憶された障害時操作特徴値の一例を示す図である。図3では、前述した参照コマンド数及び変更コマンド数の2つの値が障害時操作特徴値となっている。
The failure-time
図3に示すように、障害時データ記憶部17に記憶された障害時操作特徴値の一覧は、障害時操作特徴値算出手段16に採番された障害時操作特徴値の識別子である「識別ID」と、障害時操作特徴値である「参照コマンド数」及び「変更コマンド数」と、その障害が発生した日時である「発生日時」とを対応付けて示している。
As shown in FIG. 3, the list of failure operation feature values stored in the failure
障害数分布表作成手段26は、障害時操作特徴値算出手段16が障害時操作特徴値を算出した時、若しくは定期的に起動し、障害時データ記憶部17に蓄積された全てのうちの予め設定された判定期間に生じた障害に係る障害時操作特徴値を複数の数値領域に振り分けた場合の各数値領域内の個数を示す障害数分布表を作成して、障害時データ記憶部17に記憶させる機能を備えている。この障害数分布表は、複数の数値領域とこの各数値領域に当てはまる障害操作特徴値の蓄積数とを対応付けたデータである。図4は、障害数分布表の一例を示す図である。図4は、前述した参照コマンド数及び変更コマンド数の2つの値を障害時操作特徴値とした場合の障害分布表である。
The failure number distribution table creating means 26 is activated in advance when the failure operation feature value calculating means 16 calculates the failure operation feature value or periodically and stored in the failure
図4に示す障害数分布表は、「参照コマンド数」の各数値領域を横軸、「変更コマンド数」の各数値領域を縦軸にとり、各数値領域における障害時操作特徴値の蓄積数を示している。 In the failure number distribution table shown in FIG. 4, each numerical area of “number of reference commands” is plotted on the horizontal axis and each numerical area of “number of changed commands” is plotted on the vertical axis. Show.
また、障害数分布表作成手段26は、障害数分布表において当てはまる障害時操作特徴値数値がない数値領域(空欄領域とする)がある場合に、その空欄領域に隣接する数値領域内の個数の平均を算出し、算出した平均値を空欄領域の推定値として障害数分布表を完成させる機能を備えている。例えば、図4に示す表の場合は、上下4つの隣接領域の値の平均を推定値とすればよい。 Further, the failure number distribution table creating means 26, when there is a numerical region (blank region) having no operation characteristic value at the time of failure applicable in the failure number distribution table, the number of numerical values in the numerical region adjacent to the blank region is calculated. It has a function of calculating an average and completing the failure number distribution table using the calculated average value as an estimated value of a blank area. For example, in the case of the table shown in FIG. 4, the average of the values of the upper and lower four adjacent regions may be used as the estimated value.
このように障害数分布表作成手段26が予め障害数分布表を作成することにより、障害数算出手段21が、評価対象操作特徴値と同一又は近似の障害時操作特徴値の個数を障害数分布表から迅速に算出することができる。
ここで、障害時操作特徴値算出手段16は、予め設定された判定期間内に生じた障害に係る障害時操作特徴値が障害時データ記憶部17に記憶されるように、新たな障害に係る障害時操作特徴値を障害時データ記憶部17に送出する際に判定期間を超えた古い情報を障害時データ記憶部17から削除するように構成してもよい。これにより、判定期間分の過去のデータが障害時データ記憶部17に蓄積されることになるので、障害数分布表作成手段26は、障害時データ記憶部17に蓄積された全ての障害時操作特徴値から障害数分布表を作成すれば、自動的に判定期間内の障害に係る障害数分布表が完成することになる。
As described above, the failure number distribution
Here, the failure-time operation feature value calculation means 16 relates to a new failure so that the failure-time operation feature value related to the failure that has occurred within a preset determination period is stored in the failure-time
情報入力部18は、障害発生確率算出指令を入力する。ここで、障害発生確率算出指令には、評価対象のコンピュータシステム(2−1〜2−nのいずれか)の識別情報と、指定された日時とを含んでいる。情報入力部18は、キーボードやマウスなどの利用者の操作を受ける入力装置を有し、利用者の操作に応じて障害発生確率算出指令を入力するように構成されている。
The
コマンド履歴抽出手段19は、情報入力部18に入力された障害発生確率算出指令に含まれている識別情報及び指定された日時に基づいて、この識別情報に対応する、指定された日時直前の一定期間分のコマンド履歴を、コマンド蓄積部16に蓄積された情報から抽出する機能を備えている。ここで、一定期間分のコマンド履歴とは、前述した通り、例えば、1時間内に実行されたコマンド、または、100回分の実行コマンドなどと設定すればよい。
Based on the identification information included in the failure occurrence probability calculation command input to the
操作特徴値算出手段20は、コマンド履歴抽出手段19に抽出された一定期間分のコマンド履歴に含まれているコマンドを、前述したカテゴリ別に分類するコマンド分類処理を実行すると共にこの分類処理による分類結果に基づいて障害時操作特徴値を算出する手段である。これにより、評価対象のコンピュータシステムの操作傾向を数値化することができる。 The operation feature value calculation means 20 executes the command classification process for classifying the commands included in the command history for a certain period of time extracted by the command history extraction means 19 according to the category, and the classification result by the classification process. Is a means for calculating a faulty operation feature value based on Thereby, the operation tendency of the computer system to be evaluated can be quantified.
操作特徴値算出手段20は、障害時操作特徴値算出手段16と同様に、コンピュータシステム2−1〜2−nに実行されうる全てのコマンドをカテゴリ別に分類して示すデータテーブル(図示せず)を参照し、このデータテーブルに従って一定期間分のコマンド履歴に含まれているコマンドをカテゴリ別に分類するコマンド分類処理を実行する機能と、このコマンド分類処理の結果である各カテゴリのコマンド数のうちの少なくとも1つのコマンド数を障害時操作特徴値とする機能とを備えている。 The operation feature value calculation means 20 is a data table (not shown) that shows all commands that can be executed by the computer systems 2-1 to 2-n classified by category, similar to the operation feature value calculation means 16 at the time of failure. Of the command classification process for classifying the commands included in the command history for a certain period according to this data table, and the number of commands in each category as a result of this command classification process. And a function of setting at least one command number as an operation feature value at the time of failure.
障害数算出手段21は、操作特徴値算出手段20に算出された評価対象操作特徴値を入力し、この評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の個数を障害時データ記憶部17に記憶されている情報を検索して算出する手段である。本実施形態の障害数算出手段21は、障害時データ記憶部17に記憶されている障害数分布表を参照して、操作特徴値算出手段20に算出された評価対象操作特徴値が当てはまる数値領域内の個数を読み出すように構成されている。この障害数算出手段21によれば、評価対象のコンピュータシステムへの操作内容と同じような操作で、上述した判定期間内に障害が起こった回数を算出することができる。
The failure number calculation means 21 inputs the evaluation target operation feature value calculated by the operation feature value calculation means 20, and calculates the number of failure operation feature values that are the same as or within the approximate range of the evaluation target operation feature value. It is a means for searching and calculating information stored in the
監視対象情報取得手段22は、監視対象のコンピュータシステム2−1〜2−nの識別情報とその監視開始日時とを示す監視対象情報を取得して、監視対象情報記憶部23に記憶させる手段である。
The monitoring target
監視対象情報記憶部23は、監視対象情報取得手段22に取得された監視対象情報を記憶する機能を備えている。図5は、監視対象情報記憶部23に記憶された監視対象情報のイメージの一例を示す図である。図5に示すように、監視対象情報は、監視対象情報収集手段22に採番された監視対象情報の識別子である「識別ID」と、監視対象のコンピュータシステムの識別子である「契約者ID」と、このコンピュータシステムのシステム名である「システム名」と、このコンピュータシステムの監視を開始した日時である「登録日時」とを対応付けて示す情報である。
The monitoring target
母数算出手段24は、監視対象情報記憶部23に記憶されている監視対象情報に基づいて、上述した判定期間における、監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出する手段である。例えば、監視対象のコンピュータシステムが3つで、監視対象情報記憶部23に3つのシステムに係る監視対象情報が記憶されていた場合、現在日時を12月5日,判定期間を12月1日〜5日の5日間として、システムAの登録日時が12月1日、システムBの登録日時が12月3日、システムCの登録日時が12月5日であれば、システムAの監視期間を5日として、システムBの監視期間を3日,システムCの監視期間を1日とし、延べ監視期間は、5+3+1=9日となる。
The parameter calculation means 24 is a means for calculating the total monitoring period of the entire monitoring target computer system in the above-described determination period as a total monitoring period based on the monitoring target information stored in the monitoring target
この母数算出手段24によれば、監視対象のコンピュータシステムが複数で、それぞれの監視開始日時が異なっている場合でも、延べ監視期間を算出することができる。 According to the parameter calculation means 24, even when there are a plurality of computer systems to be monitored and the monitoring start dates and times are different, the total monitoring period can be calculated.
障害発生確率算出手段25は、障害数算出手段21に算出された数を母数算出手段24に算出された数で除算した値を評価対象コンピュータシステムの指定された日時における障害発生確率として算出し上位システム3へ出力する機能を備えている。
The failure occurrence
この障害発生確率算出手段25によれば、評価対象のコンピュータシステムの操作傾向と同一又は類似の操作傾向で、実際に障害が発生した単位期間(上述した例では1日)当たりの回数を障害発生確率として算出することができる。ここで、判定期間を指定する理由は、時代の変化に伴ってコンピュータシステムの操作者の世代が代わった場合にも対応して正確な確率を算出するためである。 According to the failure occurrence probability calculating means 25, the number of occurrences per failure during the unit period (in the above example, one day) where the failure actually occurs is the same or similar to the operation trend of the computer system to be evaluated. It can be calculated as a probability. Here, the reason for designating the determination period is to calculate an accurate probability corresponding to the case where the generation of the operator of the computer system changes with the changing times.
このように、本実施形態の障害発生確率算出システム1は、監視システムの障害発生時の実行コマンド履歴をコマンド蓄積部13に蓄積された情報から抽出する障害時コマンド履歴抽出手段15と、障害発生時の実行コマンド履歴に基づいて障害時の操作傾向を数値化して障害時操作特徴値を算出し障害時データ記憶部17に蓄積させる障害時操作特徴値算出手段16と、評価対象のコンピュータシステムの実行コマンド履歴から評価対象操作特徴値を算出する評価対象操作特徴値算出手段20と、評価対象操作特徴値と同一又は近似の障害時操作特徴値の個数を障害時データ記憶部17に記憶された情報を検索して算出する障害数算出手段21と、この障害時操作特徴値の個数に基づいて評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出手段25とを備えている。
As described above, the failure occurrence
よって、本実施形態の障害発生確率算出システム1によれば、評価対象のコンピュータシステムに入力されたコマンドの履歴と同一又は類似したコマンド履歴で発生したシステム障害の回数を算出でき、コンピュータシステムに利用者の操作が原因の障害が発生する確率の算出を可能にしている。
Therefore, according to the failure occurrence
次に、本実施形態の障害発生確率算出システム1の動作について説明する。ここで、以下の動作説明は、本発明の障害発生確率算出方法の一実施形態となる。
Next, the operation of the failure occurrence
図6は、本実施形態の障害発生確率算出システム1のコマンド収集動作を示すフローチャートである。図6に示すように、障害発生確率算出システム1のコマンド収集動作は、まず、予め一定間隔に設定された監視時刻になったか否かをコマンド収集手段12が判断する(図6のステップS61)。コマンド収集手段12が、監視時刻になったと判断した場合に、監視対象のコンピュータシステム2−1〜2−nにアクセスする(図6のステップS62)。そして、コマンド収集手段12が、アクセスした監視対象のコンピュータシステム2−1〜2−nから実行コマンド履歴を取得し(図6のステップS63)、コマンド蓄積部13に送り、コマンド蓄積部13がコマンド履歴を記憶する(図6のステップS64)。
FIG. 6 is a flowchart showing the command collection operation of the failure occurrence
続いて、コマンド収集手段12が、全ての監視対象のコンピュータシステム2−1〜2−nにアクセスしたか否かを判定し(図6のステップS65)、全てにアクセスした場合にはコマンド収集動作を終了する。
Subsequently, the
図7は、本実施形態の障害発生確率算出システム1の障害検出動作を示すフローチャートである。図7に示すように、障害発生確率算出システム1の障害検出動作は、まず、予め一定間隔に設定された監視時刻になったか否かを障害検出手段14が判断する(図7のステップS71)。障害検出手段14が、監視時刻になったと判断した場合に、監視対象のコンピュータシステム2−1〜2−nにアクセスする(図7のステップS72)。
FIG. 7 is a flowchart showing the failure detection operation of the failure occurrence
続いて、障害検出手段14が、アクセスしたコンピュータシステム2−1〜2−nに障害が発生していたか否かを判定する(図7のステップS73)。障害を検出した場合、障害検出手段14がその障害が発生したコンピュータシステム(2−1〜2−nのいずれか)の識別情報と障害発生時刻とを取得して障害時コマンド履歴抽出手段15へ送り、障害時コマンド履歴抽出手段15が、この障害発生時刻直前の一定期間に識別情報に係るコンピュータシステムが実行したコマンドの履歴をコマンド蓄積部13に蓄積されたコマンド情報から識別情報を基に抽出する(図7のステップS74)。 Subsequently, the failure detection means 14 determines whether or not a failure has occurred in the accessed computer systems 2-1 to 2-n (step S73 in FIG. 7). When a failure is detected, the failure detection means 14 acquires the identification information and failure occurrence time of the computer system (2-1 to 2-n) where the failure has occurred, and sends it to the failure command history extraction means 15. The command history extraction means 15 at the time of failure extracts the history of commands executed by the computer system related to the identification information during a certain period immediately before the failure occurrence time based on the identification information from the command information stored in the command storage unit 13 (Step S74 in FIG. 7).
続いて、障害時操作特徴値算出手段16が、障害時コマンド履歴抽出手段15に抽出された一定期間分のコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類するコマンド分類処理を実行しこの分類結果に基づいて障害時操作特徴値を算出する(図7のステップS75)。この算出された障害時操作特徴値を障害時データ記憶部17が記憶する(図7のステップS76)。
Subsequently, a command classification process in which the failure operation feature
障害数分布表作成手段26が、障害時データ記憶部17に蓄積された全ての障害時操作特徴値を複数の数値領域に分けて各数値領域の数を示す障害数分布表を作成し、障害時データ記憶部17に記憶させる(図7のステップS77)。
The failure number distribution table creating means 26 divides all failure operation feature values accumulated in the failure time
続いて、障害検出手段14が、全ての監視対象のコンピュータシステム2−1〜2−nにアクセスしたか否かを判定し(図7のステップS78)、全てにアクセスした場合には障害検出動作を終了する。 Subsequently, the failure detection means 14 determines whether or not all of the monitored computer systems 2-1 to 2-n have been accessed (step S78 in FIG. 7). Exit.
図8は、本実施形態の障害発生確率算出システム1の障害発生確率算出動作を示すフローチャートである。図8に示すように、障害発生確率算出システム1の障害発生確率算出動作は、まず、情報入力部18が、評価対象のコンピュータシステム(2−1〜2−nのいずれか)の識別情報と指定された日時とを含む障害発生確率算出指令を入力し(図8のステップS81)、コマンド履歴抽出手段19が、障害発生確率算出指令に従って、評価対象のコンピュータシステムにおける指定された日時直前の一定期間分の実行コマンド履歴をコマンド蓄積部13から識別情報を基に抽出して操作特徴値算出手段20へ送り(図7のステップS82)、操作特徴値算出手段20が、コマンド履歴に基づいて評価対象特徴値を算出する(図7のステップS83)。
FIG. 8 is a flowchart showing the failure occurrence probability calculation operation of the failure occurrence
続いて、障害数算出手段21が、操作特徴値算出手段20に算出された評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の個数を、障害時データ記憶部17に蓄積された情報を検索して算出する(図7のステップS84)。具体的には、障害時データ記憶部17に記憶された障害数分布表を参照して、評価対象操作特徴値が当てはまる数値領域の個数を読み出す。
Subsequently, the failure
障害数算出手段21から障害数を受けた障害発生確率算出手段25が、母数算出手段24へ延べ監視期間の算出指示を送信し、指示を受けた母数算出手段24が、監視対象情報記憶部23に記憶された監視対象情報に基づいて延べ監視期間を算出し(図7のステップS85)、障害発生確率算出手段25へ送る。
The failure occurrence
そして、障害発生確率算出手段25が、障害数算出手段21に算出された数を母数算出手段24に算出された数で除算した値を、評価対象のコンピュータシステムの障害発生確率として算出し(図7のステップS86)、上位システム3へ出力する。
Then, the failure occurrence
ここで、本実施形態の障害発生確率算出システム1におけるコマンド収集手段12,障害検出手段14,障害時コマンド履歴抽出手段15,障害時操作特徴値算出手段16,コマンド履歴抽出手段19,操作特徴値算出手段20,障害数算出手段21,監視対象取得手段22,母数算出手段24,障害発生確率算出手段25については、その機能内容をプログラム化してコンピュータに実行させるように構成してもよく、この場合、コマンド蓄積部13,障害蓄積部17,監視対象情報記憶部23については、コンピュータに取り付けられた補助記憶装置に実行させるように構成する。
Here, in the failure occurrence
また、上記説明では、情報入力部18が確率算出指令を入力し、指令に従って操作特徴値算出手段20が評価対象のコマンド履歴をコマンド蓄積部13から抽出して操作特徴値算出手段20へ送出しているが、これに限らず、評価対象のコンピュータシステムの一定期間分の実行コマンド履歴を含む指令を情報入力部18が入力して、このコマンド履歴を操作特徴値算出手段20が直接受け取るように構成してもよい。このように構成することで、監視対象のシステム2−1〜2−nのいずれでもない別のコンピュータシステムを評価対象のコンピュータシステムとすることができる。
In the above description, the
また、情報入力部18は、利用者の操作に応じて情報を入力するように構成されているが、これに限らず、上位システム3と接続して指令を入力するように構成してもよい。
In addition, the
以上のように、本実施形態の障害発生確率算出システム1は、監視システムの障害発生時の実行コマンド履歴に基づいて障害時の操作傾向を表す障害時操作特徴値を算出して蓄積しておくと共に、評価対象のコンピュータシステムの実行コマンド履歴から評価対象操作特徴値を算出し、評価対象操作特徴値との差が近似範囲内にある障害時操作特徴値の個数に基づいて評価対象のコンピュータシステムの障害発生確率を算出する。この算出される障害発生確率は、評価対象のシステムに対して行われた操作内容によって過去に何回の障害が発生したかを示しており、利用者の操作内容に起因するコンピュータシステムの障害発生確率である。
As described above, the failure occurrence
よって、本実施形態の障害発生確率算出システム1によれば、障害の原因が分からなくてもコンピュータシステムの危険度を把握できる。また、実行コマンドは、操作者がコンピュータシステムに対して行った操作を示すので、入力ミスや実行順序の誤りなど、コンピュータシステムが正確に動作していても避けられない問題もシステムの評価対象にすることができる。これにより、システムの保守管理を行う管理業者は、保守料金を見積もる場合に、システムの性能だけでなく、システムの運用状態を考慮した料金を提示することができる。
Therefore, according to the failure occurrence
本発明は、コンピュータシステムに対する操作の内容を評価する技術に利用できる。 The present invention can be used for a technique for evaluating the contents of an operation on a computer system.
1 障害発生確率算出システム
2−1〜2−n 監視対象のコンピュータシステム
3 上位システム
11 インタフェース部
12 コマンド収集手段
13 コマンド蓄積部
14 障害検出手段
15 障害時コマンド履歴手段
16 障害時操作特徴値算出手段
17 障害時データ記憶部
18 情報入力部
19 コマンド履歴抽出手段
20 操作特徴値算出手段
21 障害数算出手段
22 監視対象情報登録手段
23 監視対象情報記憶部
24 母数算出手段
25 障害発生確率算出手段
26 障害数分布表作成手段
DESCRIPTION OF
Claims (14)
この収集されたコマンド履歴情報を蓄積するコマンド蓄積部と、
前記監視対象のコンピュータシステムの障害を検出する障害検出手段と、
この障害検出手段により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記コマンド蓄積部から抽出する障害時コマンド履歴抽出手段と、
この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出する障害時操作特徴値算出手段と、
この算出された障害時操作特徴値を蓄積する障害時データ記憶部と、
評価対象のコンピュータシステムの実行コマンド履歴を入力しこのコマンド履歴を前記障害時操作特徴値算出手段と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出する操作特徴値算出手段と、
この算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を、前記障害時データ記憶部に蓄積された情報を検索して算出する障害数算出手段と、
この障害数算出手段に算出された前記障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出手段とを備えたことを特徴とする障害発生確率算出システム。 Command collection means for collecting command history information indicating the execution command of the computer system to be monitored and its execution date and time;
A command storage unit for storing the collected command history information;
Fault detection means for detecting a fault in the monitored computer system;
When a failure of the computer system is detected by the failure detection means, a failure command history extraction means for extracting a history of commands executed by the computer system during a certain period immediately before the occurrence of the failure from the command storage unit;
The operation feature value calculation at the time of failure that calculates the operation feature value at the time of failure representing the feature of the command history based on the classification result by classifying the commands included in the extracted command history into a plurality of preset categories Means,
A failure data storage unit that accumulates the calculated failure operation feature values;
Operation feature value calculation for inputting an execution command history of a computer system to be evaluated and analyzing the command history in the same manner as the operation feature value calculation means at the time of failure to calculate an evaluation target operation feature value representing the feature of the command history Means,
A failure number calculation means for searching the information accumulated in the failure data storage unit to calculate the number of the failure operation feature values that are the same as or within the approximate range of the calculated evaluation target operation feature value;
Failure occurrence probability comprising failure occurrence probability calculating means for calculating failure occurrence probability of the computer system to be evaluated based on the number of operation characteristic values at the time of failure calculated by the failure number calculating means Calculation system.
前記障害時操作特徴値算出手段は、前記コマンドの分類結果として特定された前記各カテゴリのコマンド数のうちの少なくとも1つを前記障害時操作特徴値として算出することを特徴とする障害発生確率算出システム。 In the failure occurrence probability calculation system according to claim 1,
The failure operation feature value calculation means calculates at least one of the number of commands of each category specified as the command classification result as the failure operation feature value. system.
前記監視対象のコンピュータシステムの識別情報とその監視開始日時とを示す監視対象情報を記憶した監視対象情報記憶部と、この記憶された監視対象情報に基づいて前記監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出する母数算出手段とを備え、
前記障害発生確率算出手段は、前記障害数算出手段に算出された数を前記母数算出手段に算出された数で除算した値を前記評価対象のコンピュータシステムの障害発生確率として算出することを特徴とする障害発生確率算出システム。 In the failure occurrence probability calculation system according to claim 2,
A monitoring target information storage unit storing monitoring target information indicating identification information of the monitoring target computer system and its monitoring start date and time, and a monitoring period of the entire monitoring target computer system based on the stored monitoring target information And a parameter calculating means for calculating the total as a monitoring period,
The failure occurrence probability calculation means calculates a value obtained by dividing the number calculated by the failure number calculation means by the number calculated by the parameter calculation means as a failure occurrence probability of the evaluation target computer system. Failure occurrence probability calculation system.
前記障害時操作特徴値算出手段は、システムの情報/状態を参照するための参照コマンドと、システムの情報/状態を変更するための変更コマンドと、その他のコマンドとの3つのカテゴリに前記コマンドを分類し、当該参照コマンドの数及び当該変更コマンドの数の2つの値を前記障害時操作特徴値として算出することを特徴とする障害発生確率算出システム。 In the failure occurrence probability calculation system according to claim 3,
The failure operation feature value calculation means includes the command in three categories: a reference command for referring to system information / status, a change command for changing system information / status, and other commands. A failure occurrence probability calculation system characterized by classifying and calculating two values of the number of the reference commands and the number of the change commands as the operation characteristic values at the time of failure.
この収集されたコマンド履歴情報を蓄積するコマンド蓄積部と、
前記監視対象のコンピュータシステムの障害を検出する障害検出手段と、
この障害検出手段により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記コマンド蓄積部から抽出する障害時コマンド履歴抽出手段と、
この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出する障害時操作特徴値算出手段と、
この算出された障害時操作特徴値を蓄積する障害時データ記憶部とを備えたことを特徴とする障害発生確率算出用データベース作成システム。 Command collection means for collecting command history information indicating the execution command of the computer system to be monitored and its execution date and time;
A command storage unit for storing the collected command history information;
Fault detection means for detecting a fault in the monitored computer system;
When a failure of the computer system is detected by the failure detection means, a failure command history extraction means for extracting a history of commands executed by the computer system during a certain period immediately before the occurrence of the failure from the command storage unit;
The operation feature value calculation at the time of failure that calculates the operation feature value at the time of failure representing the feature of the command history based on the classification result by classifying the commands included in the extracted command history into a plurality of preset categories Means,
A failure creation probability calculation database creation system comprising: a failure data storage unit that accumulates the calculated failure operation feature values.
監視対象のコンピュータシステムの障害発生時直前の一定期間分のコマンド履歴の特徴を表す障害時操作特徴値を予め複数蓄積した障害時データ記憶部と、
前記操作特徴値算出手段に算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を、前記障害時データ記憶部に蓄積された情報を検索して算出する障害数算出手段と、
この障害数算出手段に算出された前記障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出手段とを備えたことを特徴とする障害発生確率算出装置。 An execution command history for a certain period of the computer system to be evaluated is input, and the commands included in the command history are classified into a plurality of preset categories, and the characteristics of the command history are expressed based on the classification result An operation feature value calculating means for calculating a target operation feature value;
A failure data storage unit that stores in advance a plurality of failure operation feature values representing features of a command history for a certain period immediately before the failure of the monitored computer system;
The number of the operation feature values at the time of failure that is the same as or within the approximate range of the operation feature value to be evaluated calculated by the operation feature value calculation means is calculated by searching the information stored in the data storage unit at the time of failure. The number of faults calculating means;
Failure occurrence probability comprising failure occurrence probability calculating means for calculating failure occurrence probability of the computer system to be evaluated based on the number of operation characteristic values at the time of failure calculated by the failure number calculating means Calculation device.
前記監視対象のコンピュータシステムの障害を障害検出手段が検出し、
前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を障害時コマンド履歴抽出手段が前記コマンド蓄積部から抽出し、
この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を障害時操作特徴値算出手段が算出し障害時データ記憶部に蓄積し、
評価対象のコンピュータシステムの実行コマンド履歴を操作特徴値算出手段が入力して前記障害時操作特徴値算出手段と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出し、
前記算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を障害数算出手段が前記障害時データ記憶部に蓄積された情報を検索して算出し、
この算出された障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を障害発生確率算出手段が算出することを特徴とする障害発生確率算出方法。 The command collection means collects the command history information indicating the execution command of the computer system to be monitored and its execution date and stores it in the command storage unit,
A failure detection means detects a failure of the monitored computer system,
When a failure of the computer system is detected, a history of commands executed by the computer system in a certain period immediately before the occurrence of the failure is extracted from the command storage unit by the command history extraction unit at the time of failure,
A command included in the extracted command history is classified into a plurality of preset categories, and a faulty operation feature value representing a feature of the command history based on the classification result is calculated by a faulty operation feature value calculating unit. Calculate and accumulate in the data storage unit at the time of failure
An operation feature value calculation unit inputs an execution command history of the computer system to be evaluated, and performs an analysis process in the same manner as the operation feature value calculation unit at the time of failure to calculate an evaluation target operation feature value representing a feature of the command history,
The failure number calculation means searches the information accumulated in the failure data storage unit and calculates the number of failure operation feature values that are the same as or within the approximate range of the calculated evaluation target operation feature value,
A failure occurrence probability calculating method, wherein the failure occurrence probability calculating means calculates a failure occurrence probability of the computer system to be evaluated based on the calculated number of operation characteristic values at the time of failure.
前記障害時操作特徴値を前記障害時操作特徴値算出手段が算出するに際しては、
前記コマンドの分類結果として特定された前記各カテゴリのコマンド数のうちの少なくとも1つを前記障害時操作特徴値として算出することを特徴とする障害発生確率算出方法。 In the failure occurrence probability calculation method according to claim 7,
When the failure operation feature value is calculated by the failure operation feature value calculation means,
A failure occurrence probability calculating method, wherein at least one of the number of commands of each category specified as the command classification result is calculated as the failure operation feature value.
前記障害発生確率を前記障害発生確率算出手段が算出する前に、
前記監視対象のコンピュータシステムの識別情報とその監視開始日時とを示す監視対象情報に基づいて母数算出手段が前記監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出し、
前記障害発生確率を前記障害発生確率算出手段が算出するに際しては、
前記障害数算出手段に算出された数を前記母数算出手段に算出された数で除算した値を前記評価対象の障害発生確率として算出することを特徴とする障害発生確率算出方法。 The failure occurrence probability calculation method according to claim 8,
Before the failure occurrence probability calculating means calculates the failure occurrence probability,
Based on the monitoring target information indicating the identification information of the monitoring target computer system and the monitoring start date and time, the parameter calculation means calculates the total monitoring period of the entire monitoring target computer system as a total monitoring period,
When the failure occurrence probability calculating means calculates the failure occurrence probability,
A failure occurrence probability calculation method, wherein a value obtained by dividing the number calculated by the failure number calculation unit by the number calculated by the parameter calculation unit is calculated as the failure occurrence probability of the evaluation target.
前記障害時操作特徴値を前記障害時操作特徴値算出手段が算出するに際しては、
システムの情報/状態を参照するための参照コマンドと、システムの情報/状態を変更するための変更コマンドと、その他のコマンドとの3つのカテゴリにコマンドを分類し、当該参照コマンド数及び当該変更コマンド数の2つの値を前記障害時操作特徴値として算出することを特徴とする障害発生確率算出方法。 The failure occurrence probability calculation method according to claim 9,
When the failure operation feature value is calculated by the failure operation feature value calculation means,
The commands are classified into three categories: a reference command for referring to system information / status, a change command for changing system information / status, and other commands. A failure occurrence probability calculation method characterized by calculating two values of numbers as the failure operation feature values.
前記監視対象のコンピュータシステムの障害を検出する障害検出機能と、
この障害検出機能により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記記憶装置から抽出する障害時コマンド抽出機能と、
この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出し前記記憶装置に蓄積する障害時操作特徴値算出機能と、
評価対象のコンピュータシステムの実行コマンド履歴を入力しこのコマンド履歴を前記障害時操作特徴値算出機能と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出する評価対象操作特徴値算出機能と、
この算出された評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の個数を前記記憶装置に蓄積された情報を検索して算出する障害数算出機能と、
この算出された障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出機能と、をコンピュータに実行させることを特徴とする障害発生確率算出用プログラム。 A command collection function that collects command history information indicating the command executed on the system and the execution date and time from the computer system to be monitored and stores it in a storage device;
A failure detection function for detecting a failure of the monitored computer system;
When a failure of the computer system is detected by this failure detection function, a failure command extraction function that extracts a history of commands executed by the computer system from the storage device during a certain period immediately before the occurrence of the failure;
The commands included in the extracted command history are classified into a plurality of preset categories, and on the basis of the classification result, a faulty operation feature value representing the feature of the command history is calculated and stored in the storage device. Operation feature value calculation function at the time of failure,
An evaluation target operation feature that inputs an execution command history of the computer system to be evaluated and analyzes this command history in the same manner as the operation feature value calculation function at the time of failure and calculates an evaluation target operation feature value representing the feature of the command history Value calculation function,
A failure number calculation function for searching the information stored in the storage device and calculating the number of failure operation feature values that are the same as or within the approximate range of the calculated evaluation target operation feature value;
A failure occurrence probability calculation program for causing a computer to execute a failure occurrence probability calculation function for calculating a failure occurrence probability of the computer system to be evaluated based on the calculated number of operation characteristic values at the time of failure .
前記障害時操作特徴値算出機能が、前記コマンドの分類結果として特定された前記各カテゴリのコマンド数のうちの少なくとも1つを前記障害時操作特徴値として算出する機能であることを特徴とする障害発生確率算出用プログラム。 In the failure occurrence probability calculation program according to claim 11,
The failure operation feature value calculation function is a function that calculates, as the failure operation feature value, at least one of the number of commands in each category specified as the command classification result. Occurrence probability calculation program.
前記監視対象のコンピュータシステムの識別情報とその監視開始日時とを示す監視対象情報に基づいて、前記監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出する母数算出機能と共に、
前記障害発生確率算出機能を、前記障害数算出機能で算出された数を前記母数算出機能で算出された数で除算した値を前記評価対象の障害発生確率として算出する機能として前記コンピュータに実行させることを特徴とする障害発生確率算出用プログラム。 In the failure occurrence probability calculation program according to claim 12,
Based on monitoring target information indicating identification information of the monitoring target computer system and monitoring start date and time, together with a parameter calculation function for calculating the total monitoring period of the entire monitoring target computer system as a total monitoring period,
The failure occurrence probability calculation function is executed by the computer as a function of calculating a value obtained by dividing the number calculated by the failure number calculation function by the number calculated by the parameter calculation function as the failure occurrence probability of the evaluation target A failure occurrence probability calculation program characterized in that
前記障害時操作特徴値算出機能が、システムの情報/状態を参照するための参照コマンドと、システムの情報/状態を変更するための変更コマンドと、その他のコマンドとの3つのカテゴリにコマンドを分類し、当該参照コマンド数及び当該変更コマンド数の2つの値を前記障害時操作特徴値として算出する機能を含むことを特徴とする障害発生確率算出用プログラム。 In the failure occurrence probability calculation program according to claim 13,
The failure operation feature value calculation function classifies commands into three categories: a reference command for referring to system information / status, a change command for changing system information / status, and other commands. And a failure occurrence probability calculation program including a function of calculating two values of the reference command number and the change command number as the failure operation feature value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009064869A JP2010218267A (en) | 2009-03-17 | 2009-03-17 | Obstacle occurrence probability calculation system, obstacle occurrence probability calculation method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009064869A JP2010218267A (en) | 2009-03-17 | 2009-03-17 | Obstacle occurrence probability calculation system, obstacle occurrence probability calculation method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010218267A true JP2010218267A (en) | 2010-09-30 |
Family
ID=42977045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009064869A Withdrawn JP2010218267A (en) | 2009-03-17 | 2009-03-17 | Obstacle occurrence probability calculation system, obstacle occurrence probability calculation method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010218267A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014010761A (en) * | 2012-07-02 | 2014-01-20 | Fujitsu Ltd | Program, method, and information processing apparatus for managing system |
CN106294093A (en) * | 2016-08-23 | 2017-01-04 | 浪潮电子信息产业股份有限公司 | A kind of CPU runs computational methods and the device of time |
KR101872827B1 (en) * | 2016-07-28 | 2018-07-02 | (주)클루닉스 | Apparatus for estimating occurrence of failures in a computer using categorizing input/output logs in context and method thereof |
-
2009
- 2009-03-17 JP JP2009064869A patent/JP2010218267A/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014010761A (en) * | 2012-07-02 | 2014-01-20 | Fujitsu Ltd | Program, method, and information processing apparatus for managing system |
KR101872827B1 (en) * | 2016-07-28 | 2018-07-02 | (주)클루닉스 | Apparatus for estimating occurrence of failures in a computer using categorizing input/output logs in context and method thereof |
CN106294093A (en) * | 2016-08-23 | 2017-01-04 | 浪潮电子信息产业股份有限公司 | A kind of CPU runs computational methods and the device of time |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102011620B1 (en) | Importance determination device of abnormal data and importance determination method of abnormal data | |
JP6411769B2 (en) | Condition monitoring device | |
JP5444673B2 (en) | Log management method, log management device, information processing device including log management device, and program | |
JP6875179B2 (en) | System analyzer and system analysis method | |
JP6669156B2 (en) | Application automatic control system, application automatic control method and program | |
US20150121136A1 (en) | System and method for automatically managing fault events of data center | |
JP5375829B2 (en) | Operation management apparatus, operation management method, and operation management program | |
JP6048038B2 (en) | Information processing apparatus, program, and information processing method | |
JP6327234B2 (en) | Event analysis device, event analysis system, event analysis method, and event analysis program | |
JP2019185422A (en) | Failure prediction method, failure prediction device, and failure prediction program | |
JP2011070635A (en) | Method and device for monitoring state of facility | |
JP2016057803A (en) | Abnormality detection procedure development device and abnormality detection procedure development method | |
EP3663919A1 (en) | System and method of automated fault correction in a network environment | |
JP6988304B2 (en) | Operation management system, monitoring server, method and program | |
JP2008310582A (en) | Maintenance work support apparatus and system, and maintenance work support method | |
JP2020052714A5 (en) | ||
JP2010218267A (en) | Obstacle occurrence probability calculation system, obstacle occurrence probability calculation method and program | |
JP5668425B2 (en) | Failure detection apparatus, information processing method, and program | |
JP2011186706A (en) | Information processor, information processing method, and program | |
US11415958B2 (en) | Data extracting apparatus, data extracting method, and recording medium | |
CN114911677A (en) | Monitoring method and device for containers in cluster and computer readable storage medium | |
JP5444071B2 (en) | Fault information collection system, method and program | |
JP2020135739A (en) | Failure sign detection system | |
CN116841792B (en) | Application program development fault repairing method | |
CN116824515B (en) | Graphic fault diagnosis method and device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20120605 |