JP2010218267A - Obstacle occurrence probability calculation system, obstacle occurrence probability calculation method and program - Google Patents

Obstacle occurrence probability calculation system, obstacle occurrence probability calculation method and program Download PDF

Info

Publication number
JP2010218267A
JP2010218267A JP2009064869A JP2009064869A JP2010218267A JP 2010218267 A JP2010218267 A JP 2010218267A JP 2009064869 A JP2009064869 A JP 2009064869A JP 2009064869 A JP2009064869 A JP 2009064869A JP 2010218267 A JP2010218267 A JP 2010218267A
Authority
JP
Japan
Prior art keywords
failure
command
occurrence probability
computer system
operation feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009064869A
Other languages
Japanese (ja)
Inventor
Ryosuke Kamei
亮介 亀井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009064869A priority Critical patent/JP2010218267A/en
Publication of JP2010218267A publication Critical patent/JP2010218267A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an obstacle occurrence probability calculation system, an obstacle occurrence probability calculation method and an obstacle occurrence probability calculation program, for calculating the probability of the occurrence of an obstacle due to the operation of a user among the obstacles of a computer system. <P>SOLUTION: An obstacle time operation featured value calculation means 16 classifies an execution command history when the obstacle of a computer system occurs into a plurality of categories, and calculates an obstacle time operation featured value based on the calculation result, and stores it in an obstacle time data storage part 17. An operation featured value calculation means 20 calculates an evaluation target operation featured value in the same way as the obstacle time operation featured value calculation means 16 from the execution command history of the evaluation target computer system, and a number of obstacle calculation means 21 calculates the number of obstacle time operation featured values which are equal or approximate to the evaluation target operation featured value by retrieving information stored in the failure time data storage part 17, and an obstacle occurrence probability calculation means 25 calculates the obstacle occurrence probability of the evaluation target computer system based on the calculated number. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、コンピュータシステムの障害発生の確率を、そのコンピュータシステムに係る情報に基づいて算出する障害発生確率算出システムに関する。   The present invention relates to a failure occurrence probability calculation system that calculates a failure occurrence probability of a computer system based on information related to the computer system.

情報処理を行うコンピュータシステムは、様々な分野でサービスを提供するシステムとして利用されており、例えば、金融取引,交通の運行制御,行政サービス,会社内の情報管理などを効率的に実行するためのシステムとして活用されている。   Computer systems that perform information processing are used as systems that provide services in various fields. For example, to efficiently execute financial transactions, traffic operation control, administrative services, in-house information management, etc. It is used as a system.

しかし、コンピュータの高性能化によりコンピュータシステムの利用範囲が拡大している一方で、コンピュータシステムが業務基盤を担うようになっているため、コンピュータシステムに不具合が発生すると、業務が停止もしくは遅延してしまうことになり、損害が生じてしまうという懸念がある。   However, while the range of use of computer systems has expanded due to the high performance of computers, computer systems have become the business foundation, so when a problem occurs in a computer system, the work is stopped or delayed. There is a concern that damage will occur.

このため、コンピュータシステムを利用する機関は、そのシステムの保守管理を業者に依頼して、システムに障害が発生した際の早急な復旧や、システムに対する定期的な点検,ソフトウェアの更新などを行うのが一般的である。   For this reason, an organization that uses a computer system asks a contractor to perform maintenance and management of the system to perform quick recovery in the event of a system failure, periodic system inspections, software updates, etc. Is common.

システムの保守管理を行う管理業者からこのシステムの利用機関に請求される保守料金は、そのシステムの開発費用に対して一定の割合とされることが多いが、想定される障害とその発生率はシステム毎に異なるので、個別に保守料金を見積もることが適当である。そのためには、システムの障害発生率を適正に算出する技術が必要であった。   The maintenance fee charged by the system maintenance management company to the user organization of this system is often a fixed percentage of the development cost of the system. Since it differs from system to system, it is appropriate to estimate the maintenance fee individually. For this purpose, a technique for appropriately calculating the failure rate of the system is necessary.

ここで、コンピュータシステムの保守に関連する技術が、特許文献1及び特許文献2に開示されている。特許文献1には、コンピュータシステムの過去に発生した複数の障害毎に、現象区分と要因区分と不稼動時間とを含む標本データを格納する障害情報データベースを備え、現象区分と、要因区分の組み合わせによる不稼働時間とを基に、不稼働時間の総和である総不稼働時間を算出し、該現象区分と要因区分の組み合わせと総不稼働時間とを基に線形確率計算を用い、未来における障害が発生する現象区分と要因区分の組み合わせと該組み合わせによる障害が発生する年月日及び障害発生確率を算出し、障害予知データベースに格納する障害予知機能部と、該障害予知データベースに格納した障害予知データの障害発生確率が予め設定した閾値を越えたときに予め設定された宛先に通知する障害発生高確率通知機能部とを備えた障害予知システムが開示されている。   Here, techniques related to maintenance of a computer system are disclosed in Patent Document 1 and Patent Document 2. Patent Document 1 includes a failure information database that stores sample data including a phenomenon category, a factor category, and an inoperative time for each of a plurality of failures that have occurred in the past in the computer system, and a combination of the phenomenon category and the factor category. In the future, we calculate the total downtime, which is the sum of the downtime, based on the downtime due to, and use the linear probability calculation based on the combination of the phenomenon and factor categories and the total downtime. A failure prediction function unit that calculates a combination of a phenomenon category and a factor category in which a failure occurs, a failure occurrence date and a failure occurrence probability, and stores the failure occurrence probability, and stores the failure prediction database, and a failure prediction stored in the failure prediction database A failure prediction system comprising a failure occurrence high probability notification function unit for notifying a preset destination when the failure probability of data exceeds a preset threshold value Beam is disclosed.

特許文献2には、コンピュータシステムの稼動状態に関する情報を収集し、この収集された情報間の相関関係を示す相関情報を記録し、相関情報を参照して、収集された情報から、コンピュータシステムで実行されるサービスに生じた障害を検出し、この検出された障害を回復するための処理を生成し、相関情報を参照して、生成された処理及び/又は前記入力された処理の実行によってコンピュータシステムに与えられる効果及び影響を判定し、効果及び影響が判定された処理の実行の要否、実行順序及び実行時刻の少なくとも一つを決定する、コンピュータシステムの制御方法が開示されている。   Patent Document 2 collects information about the operating state of a computer system, records correlation information indicating the correlation between the collected information, refers to the correlation information, and uses the collected information to A computer that detects a failure in a service to be executed, generates a process for recovering the detected failure, refers to the correlation information, and / or executes the generated process and / or the input process. A computer system control method is disclosed in which an effect and an influence given to a system are determined, and at least one of execution necessity, execution order, and execution time of a process for which the effect and influence are determined is determined.

特願2007−199976号公報Japanese Patent Application No. 2007-199976 特願2008−9842号公報Japanese Patent Application No. 2008-9842

しかしながら、特許文献1及び2に開示された技術では、コンピュータシステムで発生が想定される障害のうち、ソフトウェアやハードウェアの不具合に起因する障害は、システムが関連する情報を出力するので判別可能であるが、システム利用者の操作ミスに起因する障害については判別できないという不都合があった。このため、システムの評価をするにあたって、現場での運用の仕方を考慮することができなかった。   However, in the technologies disclosed in Patent Documents 1 and 2, among the failures that are expected to occur in the computer system, failures caused by software or hardware problems can be identified because the system outputs related information. However, there is an inconvenience that a failure caused by an operation error of the system user cannot be determined. For this reason, in the evaluation of the system, it was not possible to consider how to operate in the field.

利用者の操作ミスによる障害を検出するためには、カメラやセンサーなどを用いて利用者の操作を監視する方法があるが、利用者をカメラなどで監視することは、利用者のプライバシーを侵害することになり、またセンサーを取り付けることは感覚的に嫌悪感を及ぼす可能性があるため現実的ではなかった。   In order to detect a failure caused by a user's operation error, there is a method of monitoring the user's operation using a camera or a sensor. However, monitoring the user with a camera or the like violates the privacy of the user. In addition, it was not realistic to attach a sensor because it may cause a sense of disgust.

そこで、本発明は、前述した各関連技術における課題を解決し、利用者の操作に起因するコンピュータシステムの障害の発生確率を算出してシステムの保守を有効になし得るようにした障害発生確率算出システム,障害発生確率算出方法及び障害発生確率算出用プログラムを提供することを、その目的とする。   Therefore, the present invention solves the problems in each related technology described above, calculates the occurrence probability of a computer system failure caused by a user's operation, and makes it possible to effectively maintain the system. It is an object of the present invention to provide a system, a failure occurrence probability calculation method, and a failure occurrence probability calculation program.

上記目的を達成するため、本発明の障害発生確率算出システムは、監視対象のコンピュータシステムの実行コマンド及びその実行日時を示すコマンド履歴情報を収集するコマンド収集手段と、この収集されたコマンド履歴情報を蓄積するコマンド蓄積部と、前記監視対象のコンピュータシステムの障害を検出する障害検出手段と、この障害検出手段により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記コマンド蓄積部から抽出する障害時コマンド履歴抽出手段と、この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出する障害時操作特徴値算出手段と、この算出された障害時操作特徴値を蓄積する障害時データ記憶部と、評価対象のコンピュータシステムの実行コマンド履歴を入力しこのコマンド履歴を前記障害時操作特徴値算出手段と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出する操作特徴値算出手段と、この算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を、前記障害時データ記憶部に蓄積された情報を検索して算出する障害数算出手段と、この障害数算出手段に算出された前記障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出手段とを備えている。   In order to achieve the above object, a failure occurrence probability calculation system according to the present invention includes command collection means for collecting command history information indicating execution commands and execution dates and times of monitored computer systems, and the collected command history information. A command accumulating unit for accumulating; a fault detecting means for detecting a fault in the computer system to be monitored; and when the fault detecting means detects a fault in the computer system, the computer for a certain period immediately before the occurrence of the fault Command history extraction means for extracting a command history executed by the system from the command storage unit, and commands included in the extracted command history are classified into a plurality of preset categories, and the classification result is obtained. Based on this, the operation feature value at the time of failure representing the feature of the command history is calculated. Failure operation characteristic value calculating means, a failure data storage unit for storing the calculated failure operation feature value, and an execution command history of the computer system to be evaluated are inputted, and the command history is used as the failure operation feature value The operation feature value calculation means for calculating the evaluation target operation feature value representing the feature of the command history by performing analysis processing in the same manner as the calculation means, and the failure that is the same as or within the approximate range of the calculated evaluation target operation feature value Based on the number of failure operation characteristic values calculated by the failure number calculation means calculated by the failure number calculation means for searching the information accumulated in the failure data storage unit and calculating the number of operation characteristic values at the time of failure Fault occurrence probability calculating means for calculating the failure occurrence probability of the computer system to be evaluated.

また、本発明の障害発生確率算出方法は、監視対象のコンピュータシステムの実行コマンド及びその実行日時を示すコマンド履歴情報をコマンド収集手段が収集してコマンド蓄積部に蓄積すると共に、前記監視対象のコンピュータシステムの障害を障害検出手段が検出し、前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を障害時コマンド履歴抽出手段が前記コマンド蓄積部から抽出し、この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を障害時操作特徴値算出手段が算出し障害時データ記憶部に蓄積し、評価対象のコンピュータシステムの実行コマンド履歴を操作特徴値算出手段が入力して前記障害時操作特徴値算出手段と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出し、前記算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を障害数算出手段が前記障害時データ記憶部に蓄積された情報を検索して算出し、この算出された障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を障害発生確率算出手段が算出することを特徴とする。   Further, the failure occurrence probability calculation method of the present invention includes a command collection unit that collects an execution command of a monitoring target computer system and command history information indicating the execution date and stores the command history information in a command storage unit. When a failure is detected by the failure detection means and a failure of the computer system is detected, a history of commands executed by the computer system during a certain period immediately before the occurrence of the failure is obtained by the command history extraction means at the time of failure. The command extracted from the storage unit, the commands included in the extracted command history are classified into a plurality of preset categories, and the operation characteristic value at the time of failure representing the feature of the command history based on the classification result is displayed at the time of failure. Computer calculated by the operation feature value calculation means, accumulated in the data storage unit at the time of failure, and evaluated The operation feature value calculation means inputs the execution command history of the stem and performs analysis processing in the same manner as the operation feature value calculation means at the time of failure to calculate the evaluation target operation feature value representing the feature of the command history, and the calculated The failure number calculation means searches the information accumulated in the failure data storage unit to calculate the number of failure operation feature values that are the same as or within the approximate range of the evaluation target operation feature value, and the calculated failure The failure occurrence probability calculating means calculates a failure occurrence probability of the computer system to be evaluated based on the number of hourly operation feature values.

また、本発明の障害発生確率算出用プログラムは、監視対象のコンピュータシステム側から当該システムに実行されたコマンド及びその実行日時を示すコマンド履歴情報を収集して記憶装置に蓄積するコマンド収集機能と、前記監視対象のコンピュータシステムの障害を検出する障害検出機能と、この障害検出機能により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記記憶装置から抽出する障害時コマンド抽出機能と、この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出し前記記憶装置に蓄積する障害時操作特徴値算出機能と、評価対象のコンピュータシステムの実行コマンド履歴を入力しこのコマンド履歴を前記障害時操作特徴値算出機能と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出する評価対象操作特徴値算出機能と、この算出された評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の個数を前記記憶装置に蓄積された情報を検索して算出する障害数算出機能と、この算出された障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出機能と、をコンピュータに実行させることを特徴とする。   The failure occurrence probability calculation program of the present invention includes a command collection function for collecting commands executed in the system from the monitored computer system side and command history information indicating the execution date and storing the command history information in a storage device, A failure detection function for detecting a failure of the computer system to be monitored, and a history of commands executed by the computer system during a certain period immediately before the occurrence of the failure when the failure detection function detects a failure of the computer system Command extraction function at the time of failure from the storage device, and commands included in the extracted command history are classified into a plurality of preset categories, and the characteristics of the command history are expressed based on the classification result Calculation of faulty operation feature values by calculating faulty operation feature values and storing them in the storage device An evaluation for calculating an evaluation target operation feature value representing a feature of the command history by inputting a function and an execution command history of the computer system to be evaluated and analyzing the command history in the same manner as the failure operation feature value calculation function The target operation feature value calculation function, and the number of failures calculation by searching the information stored in the storage device to calculate the number of failure operation feature values that are the same as or within the approximate range of the calculated evaluation target operation feature value The computer is caused to execute a function and a failure occurrence probability calculation function for calculating a failure occurrence probability of the computer system to be evaluated based on the calculated number of operation characteristic values at the time of failure.

本発明は、以上のように構成したので、これにより、監視対象システムの障害発生時の実行コマンド履歴からその特徴を表す障害時操作特徴値を算出して蓄積しておくと共に、これに基づいて上述したように評価対象システムの障害発生確率を算出するので、利用者の操作に起因するコンピュータシステムの障害の発生確率を有効に算出することが可能となり、コンピュータシステムに対して行われた操作内容の危険度を提示することができ、よって、コンピュータシステムの保守をその運用状況を考慮して適切に行うことができる。   Since the present invention is configured as described above, it calculates and accumulates a failure operation feature value representing the feature from the execution command history at the time of failure of the monitored system, and based on this Since the failure occurrence probability of the evaluation target system is calculated as described above, it is possible to effectively calculate the failure occurrence probability of the computer system resulting from the user's operation, and the operation contents performed on the computer system Therefore, it is possible to appropriately perform maintenance of the computer system in consideration of its operation status.

本発明にかかる一実施形態の障害発生確率算出システムの構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the failure occurrence probability calculation system of one Embodiment concerning this invention. 図1に開示した実施形態におけるコマンド蓄積部に記憶されたコマンド履歴の一例を示す図である。It is a figure which shows an example of the command history memorize | stored in the command storage part in embodiment disclosed in FIG. 図1に開示した実施形態における障害時データ記憶部に記憶されたコマンド履歴の一例を示す図である。It is a figure which shows an example of the command history memorize | stored in the data storage part at the time of failure in embodiment disclosed in FIG. 図1に開示した実施形態における障害数分布表作成手段に作成される障害数分布表の一例を示す図である。It is a figure which shows an example of the failure number distribution table created by the failure number distribution table preparation means in embodiment disclosed in FIG. 図1に開示した実施形態における監視対象情報記憶部に記憶された監視対象情報の一例を示す図である。It is a figure which shows an example of the monitoring object information memorize | stored in the monitoring object information storage part in embodiment disclosed in FIG. 図1に開示した実施形態の障害発生確率算出システムのコマンド収集動作を示すフローチャートである。It is a flowchart which shows the command collection operation | movement of the failure occurrence probability calculation system of embodiment disclosed in FIG. 図1に開示した実施形態の障害発生確率算出システムの障害検出動作を示すフローチャートである。It is a flowchart which shows the failure detection operation | movement of the failure occurrence probability calculation system of embodiment disclosed in FIG. 図1に開示した実施形態の障害発生確率算出システムの障害発生確率算出動作を示すフローチャートである。It is a flowchart which shows the failure occurrence probability calculation operation | movement of the failure occurrence probability calculation system of embodiment disclosed in FIG.

以下、本発明にかかる一実施形態を、図面に基づいて説明する。   Hereinafter, an embodiment according to the present invention will be described with reference to the drawings.

図1は、本実施形態の障害発生確率算出システム1の構成を示す機能ブロック図である。図1に示すように、本実施形態の障害発生確率算出システム1は、監視対象のコンピュータシステム2−1〜2−n(nは自然数)と接続するインタフェース部11と、監視対象コンピュータシステム2−1〜2−nに定期的にアクセスしコンピュータシステム2−1〜2−nの実行コマンド及びその実行日時を示すコマンド履歴情報を収集するコマンド収集手段12と、この収集されたコマンド履歴情報を蓄積するコマンド蓄積部13とを備えている。   FIG. 1 is a functional block diagram illustrating a configuration of a failure occurrence probability calculation system 1 according to the present embodiment. As shown in FIG. 1, the failure occurrence probability calculation system 1 of the present embodiment includes an interface unit 11 connected to monitored computer systems 2-1 to 2-n (n is a natural number), and a monitored computer system 2- The command collection means 12 that periodically accesses 1-2 -n and collects command history information indicating the execution commands and execution dates and times of the computer systems 2-1 to 2-n, and stores the collected command history information And a command storage unit 13 for performing the above operation.

さらに、本実施形態の障害発生確率算出システム1は、監視対象コンピュータシステム2−1〜2−nに定期的にアクセスしコンピュータシステム2−1〜2−nの障害を検出する障害検出手段14と、この障害検出手段14によりコンピュータシステム2−1〜2−nの障害が検出された場合にこの障害が発生したコンピュータシステムにおける当該障害の発生時直前の一定時間分の実行コマンドの履歴をコマンド蓄積部13に蓄積された情報から抽出する障害時コマンド履歴抽出手段15と、この抽出された一定期間分のコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類するコマンド分類処理を実行しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出する障害時操作特徴値算出手段16と、この算出された障害時操作特徴値を蓄積する障害時データ記憶部17と、障害時操作特徴値算出手段16に算出された障害時操作特徴値が予め設定された複数の数値領域のいずれの領域に当てはまるかを判定し数値領域毎の障害時操作特徴値の数を示す障害数分布表を作成して障害時データ記憶部17に記憶させる障害数分布表作成手段26とを備えている。   Furthermore, the failure occurrence probability calculation system 1 of this embodiment includes failure detection means 14 that periodically accesses the monitored computer systems 2-1 to 2-n and detects failures in the computer systems 2-1 to 2-n. When a failure of the computer systems 2-1 to 2-n is detected by the failure detection means 14, the history of execution commands for a certain time immediately before the occurrence of the failure in the computer system in which the failure has occurred is stored as a command. A command history extraction means 15 for failure extraction from the information stored in the unit 13 and a command classification process for classifying the commands included in the extracted command history for a certain period into a plurality of preset categories. Execute the failure operation feature value to calculate the failure operation feature value representing the feature of the command history based on the classification result Stage 16, a failure time data storage unit 17 for storing the calculated failure operation feature value, and a plurality of numerical areas in which the failure operation feature value calculated by the failure operation feature value calculation unit 16 is preset. And a failure number distribution table creation means 26 for creating a failure number distribution table showing the number of operation feature values at the time of failure for each numerical region and storing the failure number distribution table in the failure data storage unit 17. ing.

更に、本実施形態の障害発生確率算出システム1は、コンピュータシステム2−1〜2−nのうちの1つである評価対象のコンピュータシステムの指定された日時における障害発生確率の算出指令を外部入力する情報入力部18と、この指令に従って指定された日時直前の一定時間における評価対象コンピュータシステムの実行コマンドの履歴をコマンド蓄積部13から抽出する評価対象コマンド抽出手段19と、この抽出された一定期間分のコマンド履歴を障害時操作特徴値算出手段16と同様に分析処理して評価対象操作特徴値を算出する操作特徴値算出手段20と、この算出された評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の数を障害時データ記憶部17に蓄積された情報を検索して算出する障害数算出手段21とを備えている。   Furthermore, the failure occurrence probability calculation system 1 according to the present embodiment externally inputs a failure occurrence probability calculation command at a designated date and time of the evaluation target computer system that is one of the computer systems 2-1 to 2-n. The information input unit 18 to be executed, the evaluation target command extraction means 19 for extracting the history of the execution command of the evaluation target computer system from the command storage unit 13 at a predetermined time immediately before the date and time designated in accordance with this command, and the extracted fixed period The operation feature value calculating means 20 for calculating the evaluation target operation feature value by analyzing the command history of the minute in the same manner as the failure operation feature value calculating means 16, and the same or approximate range of the calculated evaluation target operation feature value Failure number calculation means 2 for searching the information accumulated in the failure time data storage unit 17 and calculating the number of failure operation feature values in the failure It is equipped with a door.

また更に、本実施形態の障害発生確率算出システム1は、監視対象のコンピュータシステム2−1〜2−nの識別情報とその監視開始日時とを示す監視対象情報を取得する監視対象情報登録手段22と、この監視対象情報を記憶する監視対象情報記憶部23と、この監視対象情報に基づいて監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出する母数算出手段24と、障害数算出手段21に算出された数を母数算出手段24に算出された数で除算した値を評価対象コンピュータシステムの前記指定された日時における障害発生確率として算出し上位システム3へ出力する障害発生確率算出手段25とを備えている。
ここで、コマンド収集手段12と、コマンド蓄積部13と、障害検出手段14と、障害時コマンド履歴抽出手段15と、障害時操作特徴値算出手段16と、障害時データ記憶部17と、障害数分布表作成手段26とが、障害発生確率算出用データベース作成システムとなり、また、情報入力部18と、コマンド履歴抽出部19と、操作特徴値算出手段20と、障害時データ記憶部17と、障害数算出手段21と、母数算出手段24と、障害発生確率算出手段25とが、障害発生確率算出装置となる。
Furthermore, the failure occurrence probability calculation system 1 according to the present embodiment is a monitoring target information registration unit 22 that acquires monitoring target information indicating the identification information of the monitoring target computer systems 2-1 to 2-n and the monitoring start date and time. A monitoring target information storage unit 23 for storing the monitoring target information, a parameter calculating means 24 for calculating the total monitoring period of the entire monitoring target computer system based on the monitoring target information as a total monitoring period, A failure occurrence that calculates a value obtained by dividing the number calculated by the number calculation unit 21 by the number calculated by the parameter calculation unit 24 as a failure occurrence probability at the specified date and time of the evaluation target computer system and outputs the failure occurrence probability to the host system 3 Probability calculation means 25 is provided.
Here, the command collection unit 12, the command storage unit 13, the failure detection unit 14, the failure command history extraction unit 15, the failure operation feature value calculation unit 16, the failure data storage unit 17, and the number of failures The distribution table creation means 26 becomes a failure occurrence probability calculation database creation system, and further includes an information input unit 18, a command history extraction unit 19, an operation feature value calculation unit 20, a failure data storage unit 17, and a failure The number calculation means 21, the parameter calculation means 24, and the failure occurrence probability calculation means 25 constitute a failure occurrence probability calculation device.

監視対象のコンピュータシステム2−1〜2−nそれぞれは、同じ系統のオペレーティングシステム(OS)を搭載したシステムであり、例えば、UNIX(登録商標)系のOSを搭載したサーバなどである。また、コンピュータシステム2−1〜2−nそれぞれは、コマンドの実行履歴をとる機能を備えている。   Each of the computer systems 2-1 to 2-n to be monitored is a system equipped with an operating system (OS) of the same system, for example, a server equipped with a UNIX (registered trademark) OS. Each of the computer systems 2-1 to 2-n has a function of taking a command execution history.

障害発生確率算出システム1におけるコマンド収集手段12は、コンピュータシステム2−1〜2−nそれぞれに対して定期的にアクセスし、コンピュータシステム2−1〜2−n側で記録された実行コマンド履歴情報を取得しコマンド蓄積部13へ送る機能を備えている。ここで、コマンド履歴情報は、実行コマンドとその実行日時とそのコマンドを実行したコンピュータシステムの識別情報とを少なくとも含む情報である。   The command collection means 12 in the failure probability calculation system 1 periodically accesses each of the computer systems 2-1 to 2-n, and executes command history information recorded on the computer systems 2-1 to 2-n side. Is acquired and sent to the command storage unit 13. Here, the command history information is information including at least an execution command, an execution date and time, and identification information of the computer system that executed the command.

コマンド情報蓄積部13は、コマンド収集手段12に順次収集されたコマンド履歴情報を蓄積する。図2は、コマンド情報蓄積部13に記憶されたコマンド履歴情報のイメージの一例を示す図である。図2に示すように、コマンド情報蓄積部13に記憶されたコマンド履歴情報は、コマンド収集手段12によって採番されたコマンド情報の識別子である「識別ID」と、コマンドを実行したコンピュータシステムの識別情報である「実行システムID」と、実行されたコマンドである「実行コマンド」と、その実行日時である「実行日時」とを対応付けて示す情報である。図2に示すコマンド履歴情報は、コンピュータシステム2−1〜2−nがUNIX(登録商標)系のOSを搭載したシステムである場合の一例である。   The command information storage unit 13 stores the command history information sequentially collected by the command collection unit 12. FIG. 2 is a diagram illustrating an example of an image of command history information stored in the command information storage unit 13. As shown in FIG. 2, the command history information stored in the command information storage unit 13 includes an “identification ID” that is an identifier of the command information numbered by the command collecting unit 12 and an identification of the computer system that executed the command. This is information indicating the “execution system ID” that is information, the “execution command” that is the executed command, and the “execution date and time” that is the execution date and time thereof in association with each other. The command history information shown in FIG. 2 is an example when the computer systems 2-1 to 2-n are systems in which a UNIX (registered trademark) OS is installed.

障害検出手段14は、コンピュータシステム2−1〜2−nそれぞれに対して定期的にアクセスし、コンピュータシステム2−1〜2−nで発生した障害を検出する機能を備えている。   The failure detection means 14 has a function of periodically accessing each of the computer systems 2-1 to 2-n and detecting a failure that has occurred in the computer systems 2-1 to 2-n.

障害時コマンド履歴抽出手段15は、障害検出手段14によって障害が検出された場合に、この障害が発生したコンピュータシステム(2−1〜2−nのいずれか)の識別情報を入力して、この識別情報に対応する、当該障害発生時直前の一定期間分のコマンド履歴をコマンド蓄積部14に蓄積された情報から抽出する機能を備えている。ここで、一定期間分の実行コマンドとは、予め設定した一定の期間に実行されたコマンドであり、例えば、1時間内に実行されたコマンド、または、100回分の実行コマンドなどと設定すればよい。   When a failure is detected by the failure detection unit 14, the failure time command history extraction unit 15 inputs identification information of the computer system (2-1 to 2-n) in which the failure has occurred. A function for extracting a command history corresponding to the identification information for a certain period immediately before the occurrence of the failure from the information stored in the command storage unit 14 is provided. Here, the execution command for a predetermined period is a command executed for a predetermined period set in advance, for example, a command executed within one hour or an execution command for 100 times may be set. .

障害時操作特徴値算出手段16は、障害時コマンド履歴抽出手段15に抽出された一定期間分のコマンド履歴に含まれているコマンドを、カテゴリ別に分類するコマンド分類処理を実行すると共にこの分類処理による分類結果に基づいて障害時操作特徴値を算出する手段である。この障害時操作特徴値算出手段16は、コンピュータシステム2−1〜2−nに実行されうる全てのコマンドをカテゴリ別に示すデータテーブル(図示せず)を参照し、このデータテーブルに従って一定期間分のコマンド履歴に含まれているコマンドをカテゴリ別に分類するコマンド分類処理を実行する機能と、このコマンド分類処理の結果である各カテゴリのコマンド数のうちの少なくとも1つを障害時操作特徴値として算出する機能とを備えている。これにより、コンピュータシステムの障害発生時の操作傾向を数値化することができる。   The failure operation feature value calculation means 16 executes a command classification process for classifying the commands included in the command history for a certain period of time extracted by the failure command history extraction means 15 by category, and by this classification process. This is means for calculating an operation feature value at the time of failure based on the classification result. The failure operation feature value calculation means 16 refers to a data table (not shown) showing all commands that can be executed by the computer systems 2-1 to 2 -n by category, and according to this data table for a certain period of time. At least one of a function for executing command classification processing for classifying commands included in the command history by category and the number of commands in each category as a result of the command classification processing is calculated as an operation characteristic value at the time of failure. With functionality. Thereby, the operation tendency at the time of failure of a computer system can be quantified.

例えば、コマンド分類処理は、システムの情報/状態を参照するための参照コマンドと、システムの情報/状態を変更するための変更コマンドと、その他のコマンドとの3つのカテゴリにコマンドを分類する処理であればよい。監視対象のコンピュータシステムがUNIX機である場合には、UNIXコマンドのうち、「ifconfig」,「vmstat」,「top」,「ps」などを参照コマンドに設定し、「ifup」,「ifdown」,「chmod」,「chown」などを変更コマンドに設定すると共に、参照コマンド数及び変更コマンド数の2つの値を障害時操作特徴値として算出するようにするとよい。
これは、参照コマンドがシステムに関する情報を表示してユーザに閲覧させるためのコマンドで、変更コマンドがシステムの状態設定を変更するためのコマンドなので、システムが参照コマンドを実行したときは、ユーザにシステムの状態を把握させて勘違いによる設定ミスを防ぐ傾向が高まり、システムが変更コマンドを実行したときは設定ミスや操作ミスが生じた可能性が高いため、参照コマンドの数と変更コマンドの数は操作ミスが発生した可能性を表すと言えるからである。
For example, the command classification process is a process for classifying commands into three categories: a reference command for referring to system information / status, a change command for changing system information / status, and other commands. I just need it. If the computer system to be monitored is a UNIX machine, among the UNIX commands, set "ifconfig", "vmstat", "top", "ps", etc. as reference commands, and "ifup", "ifdown", It is preferable to set “chmod”, “chown”, etc. to the change command, and to calculate two values of the reference command number and the change command number as the operation characteristic value at the time of failure.
This is a command for the reference command to display information about the system and allow the user to browse, and since the change command is a command for changing the system status setting, when the system executes the reference command, the system The number of reference commands and the number of change commands are the same as the number of reference commands and change commands are high because there is a high possibility that a setting error or operation error will occur when the system executes a change command. This is because it can be said that it represents the possibility that a mistake has occurred.

障害時データ記憶部17は、障害時操作特徴値算出手段16に算出された障害時操作特徴値を蓄積する。図3は、障害時データ記憶部17に記憶された障害時操作特徴値の一例を示す図である。図3では、前述した参照コマンド数及び変更コマンド数の2つの値が障害時操作特徴値となっている。   The failure-time data storage unit 17 stores the failure-time operation feature value calculated by the failure-time operation feature value calculation unit 16. FIG. 3 is a diagram illustrating an example of the failure operation feature value stored in the failure data storage unit 17. In FIG. 3, the two values of the reference command number and the change command number described above are the operation characteristic values at the time of failure.

図3に示すように、障害時データ記憶部17に記憶された障害時操作特徴値の一覧は、障害時操作特徴値算出手段16に採番された障害時操作特徴値の識別子である「識別ID」と、障害時操作特徴値である「参照コマンド数」及び「変更コマンド数」と、その障害が発生した日時である「発生日時」とを対応付けて示している。   As shown in FIG. 3, the list of failure operation feature values stored in the failure data storage unit 17 is an identifier of failure operation feature values numbered by the failure operation feature value calculation means 16. “ID”, “reference command number” and “change command number” that are operation characteristic values at the time of failure, and “occurrence date and time” that is the date and time when the failure occurred are shown in association with each other.

障害数分布表作成手段26は、障害時操作特徴値算出手段16が障害時操作特徴値を算出した時、若しくは定期的に起動し、障害時データ記憶部17に蓄積された全てのうちの予め設定された判定期間に生じた障害に係る障害時操作特徴値を複数の数値領域に振り分けた場合の各数値領域内の個数を示す障害数分布表を作成して、障害時データ記憶部17に記憶させる機能を備えている。この障害数分布表は、複数の数値領域とこの各数値領域に当てはまる障害操作特徴値の蓄積数とを対応付けたデータである。図4は、障害数分布表の一例を示す図である。図4は、前述した参照コマンド数及び変更コマンド数の2つの値を障害時操作特徴値とした場合の障害分布表である。   The failure number distribution table creating means 26 is activated in advance when the failure operation feature value calculating means 16 calculates the failure operation feature value or periodically and stored in the failure data storage unit 17 in advance. A failure number distribution table showing the numbers in each numerical area when a failure operation feature value related to a failure that occurred during the set determination period is distributed to a plurality of numerical areas is created in the failure data storage unit 17. It has a function to memorize. This failure number distribution table is data in which a plurality of numerical areas are associated with the accumulated number of failure operation feature values applicable to each numerical area. FIG. 4 is a diagram illustrating an example of the failure number distribution table. FIG. 4 is a failure distribution table in the case where the two values of the reference command number and the change command number described above are used as operation characteristic values at the time of failure.

図4に示す障害数分布表は、「参照コマンド数」の各数値領域を横軸、「変更コマンド数」の各数値領域を縦軸にとり、各数値領域における障害時操作特徴値の蓄積数を示している。   In the failure number distribution table shown in FIG. 4, each numerical area of “number of reference commands” is plotted on the horizontal axis and each numerical area of “number of changed commands” is plotted on the vertical axis. Show.

また、障害数分布表作成手段26は、障害数分布表において当てはまる障害時操作特徴値数値がない数値領域(空欄領域とする)がある場合に、その空欄領域に隣接する数値領域内の個数の平均を算出し、算出した平均値を空欄領域の推定値として障害数分布表を完成させる機能を備えている。例えば、図4に示す表の場合は、上下4つの隣接領域の値の平均を推定値とすればよい。   Further, the failure number distribution table creating means 26, when there is a numerical region (blank region) having no operation characteristic value at the time of failure applicable in the failure number distribution table, the number of numerical values in the numerical region adjacent to the blank region is calculated. It has a function of calculating an average and completing the failure number distribution table using the calculated average value as an estimated value of a blank area. For example, in the case of the table shown in FIG. 4, the average of the values of the upper and lower four adjacent regions may be used as the estimated value.

このように障害数分布表作成手段26が予め障害数分布表を作成することにより、障害数算出手段21が、評価対象操作特徴値と同一又は近似の障害時操作特徴値の個数を障害数分布表から迅速に算出することができる。
ここで、障害時操作特徴値算出手段16は、予め設定された判定期間内に生じた障害に係る障害時操作特徴値が障害時データ記憶部17に記憶されるように、新たな障害に係る障害時操作特徴値を障害時データ記憶部17に送出する際に判定期間を超えた古い情報を障害時データ記憶部17から削除するように構成してもよい。これにより、判定期間分の過去のデータが障害時データ記憶部17に蓄積されることになるので、障害数分布表作成手段26は、障害時データ記憶部17に蓄積された全ての障害時操作特徴値から障害数分布表を作成すれば、自動的に判定期間内の障害に係る障害数分布表が完成することになる。
As described above, the failure number distribution table creation unit 26 creates the failure number distribution table in advance, so that the failure number calculation unit 21 determines the number of failure operation feature values that are the same as or approximate to the evaluation target operation feature value as the failure number distribution. It can be quickly calculated from the table.
Here, the failure-time operation feature value calculation means 16 relates to a new failure so that the failure-time operation feature value related to the failure that has occurred within a preset determination period is stored in the failure-time data storage unit 17. When sending the operation characteristic value at the time of failure to the data storage unit 17 at the time of failure, the old information exceeding the determination period may be deleted from the data storage unit 17 at the time of failure. As a result, past data for the determination period is accumulated in the failure data storage unit 17, so the failure number distribution table creation unit 26 performs all failure operation stored in the failure data storage unit 17. If the failure number distribution table is created from the feature values, the failure number distribution table relating to the failure within the determination period is automatically completed.

情報入力部18は、障害発生確率算出指令を入力する。ここで、障害発生確率算出指令には、評価対象のコンピュータシステム(2−1〜2−nのいずれか)の識別情報と、指定された日時とを含んでいる。情報入力部18は、キーボードやマウスなどの利用者の操作を受ける入力装置を有し、利用者の操作に応じて障害発生確率算出指令を入力するように構成されている。   The information input unit 18 inputs a failure occurrence probability calculation command. Here, the failure occurrence probability calculation command includes the identification information of the computer system to be evaluated (any one of 2-1 to 2-n) and the designated date and time. The information input unit 18 includes an input device that receives a user's operation such as a keyboard or a mouse, and is configured to input a failure occurrence probability calculation command in accordance with the user's operation.

コマンド履歴抽出手段19は、情報入力部18に入力された障害発生確率算出指令に含まれている識別情報及び指定された日時に基づいて、この識別情報に対応する、指定された日時直前の一定期間分のコマンド履歴を、コマンド蓄積部16に蓄積された情報から抽出する機能を備えている。ここで、一定期間分のコマンド履歴とは、前述した通り、例えば、1時間内に実行されたコマンド、または、100回分の実行コマンドなどと設定すればよい。   Based on the identification information included in the failure occurrence probability calculation command input to the information input unit 18 and the specified date and time, the command history extraction unit 19 corresponds to this identification information and is fixed immediately before the specified date and time. A function for extracting command history for a period from information stored in the command storage unit 16 is provided. Here, as described above, the command history for a certain period may be set as, for example, a command executed within one hour or an execution command for 100 times.

操作特徴値算出手段20は、コマンド履歴抽出手段19に抽出された一定期間分のコマンド履歴に含まれているコマンドを、前述したカテゴリ別に分類するコマンド分類処理を実行すると共にこの分類処理による分類結果に基づいて障害時操作特徴値を算出する手段である。これにより、評価対象のコンピュータシステムの操作傾向を数値化することができる。   The operation feature value calculation means 20 executes the command classification process for classifying the commands included in the command history for a certain period of time extracted by the command history extraction means 19 according to the category, and the classification result by the classification process. Is a means for calculating a faulty operation feature value based on Thereby, the operation tendency of the computer system to be evaluated can be quantified.

操作特徴値算出手段20は、障害時操作特徴値算出手段16と同様に、コンピュータシステム2−1〜2−nに実行されうる全てのコマンドをカテゴリ別に分類して示すデータテーブル(図示せず)を参照し、このデータテーブルに従って一定期間分のコマンド履歴に含まれているコマンドをカテゴリ別に分類するコマンド分類処理を実行する機能と、このコマンド分類処理の結果である各カテゴリのコマンド数のうちの少なくとも1つのコマンド数を障害時操作特徴値とする機能とを備えている。   The operation feature value calculation means 20 is a data table (not shown) that shows all commands that can be executed by the computer systems 2-1 to 2-n classified by category, similar to the operation feature value calculation means 16 at the time of failure. Of the command classification process for classifying the commands included in the command history for a certain period according to this data table, and the number of commands in each category as a result of this command classification process. And a function of setting at least one command number as an operation feature value at the time of failure.

障害数算出手段21は、操作特徴値算出手段20に算出された評価対象操作特徴値を入力し、この評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の個数を障害時データ記憶部17に記憶されている情報を検索して算出する手段である。本実施形態の障害数算出手段21は、障害時データ記憶部17に記憶されている障害数分布表を参照して、操作特徴値算出手段20に算出された評価対象操作特徴値が当てはまる数値領域内の個数を読み出すように構成されている。この障害数算出手段21によれば、評価対象のコンピュータシステムへの操作内容と同じような操作で、上述した判定期間内に障害が起こった回数を算出することができる。   The failure number calculation means 21 inputs the evaluation target operation feature value calculated by the operation feature value calculation means 20, and calculates the number of failure operation feature values that are the same as or within the approximate range of the evaluation target operation feature value. It is a means for searching and calculating information stored in the data storage unit 17. The failure number calculation unit 21 of the present embodiment refers to the failure number distribution table stored in the failure time data storage unit 17, and a numerical area to which the evaluation target operation feature value calculated by the operation feature value calculation unit 20 applies. It is comprised so that the number in may be read. According to the failure number calculation means 21, it is possible to calculate the number of times that a failure has occurred within the above-described determination period by an operation similar to the operation content of the computer system to be evaluated.

監視対象情報取得手段22は、監視対象のコンピュータシステム2−1〜2−nの識別情報とその監視開始日時とを示す監視対象情報を取得して、監視対象情報記憶部23に記憶させる手段である。   The monitoring target information acquisition unit 22 acquires monitoring target information indicating the identification information of the monitoring target computer systems 2-1 to 2-n and the monitoring start date and time and stores the monitoring target information in the monitoring target information storage unit 23. is there.

監視対象情報記憶部23は、監視対象情報取得手段22に取得された監視対象情報を記憶する機能を備えている。図5は、監視対象情報記憶部23に記憶された監視対象情報のイメージの一例を示す図である。図5に示すように、監視対象情報は、監視対象情報収集手段22に採番された監視対象情報の識別子である「識別ID」と、監視対象のコンピュータシステムの識別子である「契約者ID」と、このコンピュータシステムのシステム名である「システム名」と、このコンピュータシステムの監視を開始した日時である「登録日時」とを対応付けて示す情報である。   The monitoring target information storage unit 23 has a function of storing the monitoring target information acquired by the monitoring target information acquisition unit 22. FIG. 5 is a diagram illustrating an example of an image of the monitoring target information stored in the monitoring target information storage unit 23. As shown in FIG. 5, the monitoring target information includes “identification ID” that is an identifier of monitoring target information numbered by the monitoring target information collecting unit 22 and “contractor ID” that is an identifier of a computer system to be monitored. And the “system name” that is the system name of this computer system and the “registration date and time” that is the date and time when monitoring of this computer system is started.

母数算出手段24は、監視対象情報記憶部23に記憶されている監視対象情報に基づいて、上述した判定期間における、監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出する手段である。例えば、監視対象のコンピュータシステムが3つで、監視対象情報記憶部23に3つのシステムに係る監視対象情報が記憶されていた場合、現在日時を12月5日,判定期間を12月1日〜5日の5日間として、システムAの登録日時が12月1日、システムBの登録日時が12月3日、システムCの登録日時が12月5日であれば、システムAの監視期間を5日として、システムBの監視期間を3日,システムCの監視期間を1日とし、延べ監視期間は、5+3+1=9日となる。   The parameter calculation means 24 is a means for calculating the total monitoring period of the entire monitoring target computer system in the above-described determination period as a total monitoring period based on the monitoring target information stored in the monitoring target information storage unit 23. It is. For example, when there are three computer systems to be monitored and the monitoring target information related to the three systems is stored in the monitoring target information storage unit 23, the current date and time is December 5th, and the determination period is from December 1st to If the registration date / time of system A is December 1st, the registration date / time of system B is December 3rd, and the registration date / time of system C is December 5th as 5 days of 5th, the monitoring period of system A is 5 As a day, the monitoring period of the system B is 3 days, the monitoring period of the system C is 1 day, and the total monitoring period is 5 + 3 + 1 = 9 days.

この母数算出手段24によれば、監視対象のコンピュータシステムが複数で、それぞれの監視開始日時が異なっている場合でも、延べ監視期間を算出することができる。   According to the parameter calculation means 24, even when there are a plurality of computer systems to be monitored and the monitoring start dates and times are different, the total monitoring period can be calculated.

障害発生確率算出手段25は、障害数算出手段21に算出された数を母数算出手段24に算出された数で除算した値を評価対象コンピュータシステムの指定された日時における障害発生確率として算出し上位システム3へ出力する機能を備えている。   The failure occurrence probability calculation unit 25 calculates a value obtained by dividing the number calculated by the failure number calculation unit 21 by the number calculated by the parameter calculation unit 24 as a failure occurrence probability at a specified date and time of the evaluation target computer system. A function for outputting to the host system 3 is provided.

この障害発生確率算出手段25によれば、評価対象のコンピュータシステムの操作傾向と同一又は類似の操作傾向で、実際に障害が発生した単位期間(上述した例では1日)当たりの回数を障害発生確率として算出することができる。ここで、判定期間を指定する理由は、時代の変化に伴ってコンピュータシステムの操作者の世代が代わった場合にも対応して正確な確率を算出するためである。   According to the failure occurrence probability calculating means 25, the number of occurrences per failure during the unit period (in the above example, one day) where the failure actually occurs is the same or similar to the operation trend of the computer system to be evaluated. It can be calculated as a probability. Here, the reason for designating the determination period is to calculate an accurate probability corresponding to the case where the generation of the operator of the computer system changes with the changing times.

このように、本実施形態の障害発生確率算出システム1は、監視システムの障害発生時の実行コマンド履歴をコマンド蓄積部13に蓄積された情報から抽出する障害時コマンド履歴抽出手段15と、障害発生時の実行コマンド履歴に基づいて障害時の操作傾向を数値化して障害時操作特徴値を算出し障害時データ記憶部17に蓄積させる障害時操作特徴値算出手段16と、評価対象のコンピュータシステムの実行コマンド履歴から評価対象操作特徴値を算出する評価対象操作特徴値算出手段20と、評価対象操作特徴値と同一又は近似の障害時操作特徴値の個数を障害時データ記憶部17に記憶された情報を検索して算出する障害数算出手段21と、この障害時操作特徴値の個数に基づいて評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出手段25とを備えている。   As described above, the failure occurrence probability calculation system 1 according to the present embodiment includes the failure command history extraction unit 15 that extracts the execution command history when a failure occurs in the monitoring system from the information stored in the command storage unit 13, and the failure occurrence. The failure operation feature value calculation means 16 that calculates the failure operation characteristic value by calculating the failure operation tendency based on the execution command history at the time and accumulates it in the failure data storage unit 17, and the evaluation target computer system The evaluation target operation feature value calculating unit 20 that calculates the evaluation target operation feature value from the execution command history, and the number of failure operation feature values that are the same as or similar to the evaluation target operation feature value are stored in the failure data storage unit 17. The failure number calculating means 21 for searching and calculating information, and the failure occurrence probability of the computer system to be evaluated based on the number of operation characteristic values at the time of failure are calculated. And a failure probability calculation means 25 and out.

よって、本実施形態の障害発生確率算出システム1によれば、評価対象のコンピュータシステムに入力されたコマンドの履歴と同一又は類似したコマンド履歴で発生したシステム障害の回数を算出でき、コンピュータシステムに利用者の操作が原因の障害が発生する確率の算出を可能にしている。   Therefore, according to the failure occurrence probability calculation system 1 of the present embodiment, it is possible to calculate the number of system failures that have occurred with a command history that is the same as or similar to the history of commands input to the computer system to be evaluated, and use it in a computer system. It is possible to calculate the probability that a failure will occur due to the user's operation.

次に、本実施形態の障害発生確率算出システム1の動作について説明する。ここで、以下の動作説明は、本発明の障害発生確率算出方法の一実施形態となる。   Next, the operation of the failure occurrence probability calculation system 1 of the present embodiment will be described. Here, the following description of the operation is one embodiment of the failure occurrence probability calculation method of the present invention.

図6は、本実施形態の障害発生確率算出システム1のコマンド収集動作を示すフローチャートである。図6に示すように、障害発生確率算出システム1のコマンド収集動作は、まず、予め一定間隔に設定された監視時刻になったか否かをコマンド収集手段12が判断する(図6のステップS61)。コマンド収集手段12が、監視時刻になったと判断した場合に、監視対象のコンピュータシステム2−1〜2−nにアクセスする(図6のステップS62)。そして、コマンド収集手段12が、アクセスした監視対象のコンピュータシステム2−1〜2−nから実行コマンド履歴を取得し(図6のステップS63)、コマンド蓄積部13に送り、コマンド蓄積部13がコマンド履歴を記憶する(図6のステップS64)。   FIG. 6 is a flowchart showing the command collection operation of the failure occurrence probability calculation system 1 of this embodiment. As shown in FIG. 6, in the command collection operation of the failure occurrence probability calculation system 1, first, the command collection unit 12 determines whether or not the monitoring time set in advance at a predetermined interval has been reached (step S61 in FIG. 6). . When the command collection unit 12 determines that the monitoring time has come, the computer system 2-1 to 2-n to be monitored is accessed (step S62 in FIG. 6). Then, the command collection unit 12 acquires an execution command history from the monitored computer systems 2-1 to 2-n that have been accessed (step S63 in FIG. 6), and sends the execution command history to the command storage unit 13. The history is stored (step S64 in FIG. 6).

続いて、コマンド収集手段12が、全ての監視対象のコンピュータシステム2−1〜2−nにアクセスしたか否かを判定し(図6のステップS65)、全てにアクセスした場合にはコマンド収集動作を終了する。   Subsequently, the command collecting unit 12 determines whether or not all the monitored computer systems 2-1 to 2-n have been accessed (step S65 in FIG. 6). Exit.

図7は、本実施形態の障害発生確率算出システム1の障害検出動作を示すフローチャートである。図7に示すように、障害発生確率算出システム1の障害検出動作は、まず、予め一定間隔に設定された監視時刻になったか否かを障害検出手段14が判断する(図7のステップS71)。障害検出手段14が、監視時刻になったと判断した場合に、監視対象のコンピュータシステム2−1〜2−nにアクセスする(図7のステップS72)。   FIG. 7 is a flowchart showing the failure detection operation of the failure occurrence probability calculation system 1 of the present embodiment. As shown in FIG. 7, in the failure detection operation of the failure occurrence probability calculation system 1, the failure detection means 14 first determines whether or not the monitoring time set in advance at a predetermined interval has come (step S71 in FIG. 7). . When the failure detection unit 14 determines that the monitoring time has come, the computer system 2-1 to 2-n to be monitored is accessed (step S72 in FIG. 7).

続いて、障害検出手段14が、アクセスしたコンピュータシステム2−1〜2−nに障害が発生していたか否かを判定する(図7のステップS73)。障害を検出した場合、障害検出手段14がその障害が発生したコンピュータシステム(2−1〜2−nのいずれか)の識別情報と障害発生時刻とを取得して障害時コマンド履歴抽出手段15へ送り、障害時コマンド履歴抽出手段15が、この障害発生時刻直前の一定期間に識別情報に係るコンピュータシステムが実行したコマンドの履歴をコマンド蓄積部13に蓄積されたコマンド情報から識別情報を基に抽出する(図7のステップS74)。   Subsequently, the failure detection means 14 determines whether or not a failure has occurred in the accessed computer systems 2-1 to 2-n (step S73 in FIG. 7). When a failure is detected, the failure detection means 14 acquires the identification information and failure occurrence time of the computer system (2-1 to 2-n) where the failure has occurred, and sends it to the failure command history extraction means 15. The command history extraction means 15 at the time of failure extracts the history of commands executed by the computer system related to the identification information during a certain period immediately before the failure occurrence time based on the identification information from the command information stored in the command storage unit 13 (Step S74 in FIG. 7).

続いて、障害時操作特徴値算出手段16が、障害時コマンド履歴抽出手段15に抽出された一定期間分のコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類するコマンド分類処理を実行しこの分類結果に基づいて障害時操作特徴値を算出する(図7のステップS75)。この算出された障害時操作特徴値を障害時データ記憶部17が記憶する(図7のステップS76)。   Subsequently, a command classification process in which the failure operation feature value calculation unit 16 classifies commands included in the command history for a certain period extracted by the failure command history extraction unit 15 into a plurality of preset categories. And an operation characteristic value at the time of failure is calculated based on the classification result (step S75 in FIG. 7). The failure-time operation feature value is stored in the failure-time data storage unit 17 (step S76 in FIG. 7).

障害数分布表作成手段26が、障害時データ記憶部17に蓄積された全ての障害時操作特徴値を複数の数値領域に分けて各数値領域の数を示す障害数分布表を作成し、障害時データ記憶部17に記憶させる(図7のステップS77)。   The failure number distribution table creating means 26 divides all failure operation feature values accumulated in the failure time data storage unit 17 into a plurality of numerical regions and creates a failure number distribution table indicating the number of each numerical region. It is stored in the hour data storage unit 17 (step S77 in FIG. 7).

続いて、障害検出手段14が、全ての監視対象のコンピュータシステム2−1〜2−nにアクセスしたか否かを判定し(図7のステップS78)、全てにアクセスした場合には障害検出動作を終了する。   Subsequently, the failure detection means 14 determines whether or not all of the monitored computer systems 2-1 to 2-n have been accessed (step S78 in FIG. 7). Exit.

図8は、本実施形態の障害発生確率算出システム1の障害発生確率算出動作を示すフローチャートである。図8に示すように、障害発生確率算出システム1の障害発生確率算出動作は、まず、情報入力部18が、評価対象のコンピュータシステム(2−1〜2−nのいずれか)の識別情報と指定された日時とを含む障害発生確率算出指令を入力し(図8のステップS81)、コマンド履歴抽出手段19が、障害発生確率算出指令に従って、評価対象のコンピュータシステムにおける指定された日時直前の一定期間分の実行コマンド履歴をコマンド蓄積部13から識別情報を基に抽出して操作特徴値算出手段20へ送り(図7のステップS82)、操作特徴値算出手段20が、コマンド履歴に基づいて評価対象特徴値を算出する(図7のステップS83)。   FIG. 8 is a flowchart showing the failure occurrence probability calculation operation of the failure occurrence probability calculation system 1 of the present embodiment. As shown in FIG. 8, in the failure occurrence probability calculation operation of the failure occurrence probability calculation system 1, first, the information input unit 18 uses the identification information of the computer system to be evaluated (any one of 2-1 to 2-n) and A failure occurrence probability calculation command including the designated date and time is input (step S81 in FIG. 8), and the command history extraction means 19 is in accordance with the failure occurrence probability calculation command and is constant before the designated date and time in the computer system to be evaluated. The execution command history for the period is extracted from the command storage unit 13 based on the identification information and sent to the operation feature value calculation unit 20 (step S82 in FIG. 7), and the operation feature value calculation unit 20 evaluates based on the command history. A target feature value is calculated (step S83 in FIG. 7).

続いて、障害数算出手段21が、操作特徴値算出手段20に算出された評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の個数を、障害時データ記憶部17に蓄積された情報を検索して算出する(図7のステップS84)。具体的には、障害時データ記憶部17に記憶された障害数分布表を参照して、評価対象操作特徴値が当てはまる数値領域の個数を読み出す。   Subsequently, the failure count calculation unit 21 accumulates in the failure data storage unit 17 the number of failure operation feature values that are the same as or within the approximate range of the evaluation target operation feature values calculated by the operation feature value calculation unit 20. The obtained information is searched and calculated (step S84 in FIG. 7). Specifically, the number of numerical areas to which the evaluation target operation feature value applies is read with reference to the failure number distribution table stored in the failure data storage unit 17.

障害数算出手段21から障害数を受けた障害発生確率算出手段25が、母数算出手段24へ延べ監視期間の算出指示を送信し、指示を受けた母数算出手段24が、監視対象情報記憶部23に記憶された監視対象情報に基づいて延べ監視期間を算出し(図7のステップS85)、障害発生確率算出手段25へ送る。   The failure occurrence probability calculation unit 25 that has received the number of failures from the failure number calculation unit 21 transmits a total monitoring period calculation instruction to the parameter calculation unit 24, and the parameter calculation unit 24 that has received the instruction stores the monitoring target information storage. The total monitoring period is calculated based on the monitoring target information stored in the unit 23 (step S85 in FIG. 7) and sent to the failure occurrence probability calculating means 25.

そして、障害発生確率算出手段25が、障害数算出手段21に算出された数を母数算出手段24に算出された数で除算した値を、評価対象のコンピュータシステムの障害発生確率として算出し(図7のステップS86)、上位システム3へ出力する。   Then, the failure occurrence probability calculation unit 25 calculates a value obtained by dividing the number calculated by the failure number calculation unit 21 by the number calculated by the parameter calculation unit 24 as the failure occurrence probability of the computer system to be evaluated ( Step S86 in FIG. 7 is output to the host system 3.

ここで、本実施形態の障害発生確率算出システム1におけるコマンド収集手段12,障害検出手段14,障害時コマンド履歴抽出手段15,障害時操作特徴値算出手段16,コマンド履歴抽出手段19,操作特徴値算出手段20,障害数算出手段21,監視対象取得手段22,母数算出手段24,障害発生確率算出手段25については、その機能内容をプログラム化してコンピュータに実行させるように構成してもよく、この場合、コマンド蓄積部13,障害蓄積部17,監視対象情報記憶部23については、コンピュータに取り付けられた補助記憶装置に実行させるように構成する。   Here, in the failure occurrence probability calculation system 1 of the present embodiment, the command collection means 12, the failure detection means 14, the failure time command history extraction means 15, the failure time operation feature value calculation means 16, the command history extraction means 19, the operation feature value. The calculation means 20, the failure number calculation means 21, the monitoring target acquisition means 22, the parameter calculation means 24, and the failure occurrence probability calculation means 25 may be configured such that the function content is programmed and executed by a computer. In this case, the command storage unit 13, the failure storage unit 17, and the monitoring target information storage unit 23 are configured to be executed by an auxiliary storage device attached to the computer.

また、上記説明では、情報入力部18が確率算出指令を入力し、指令に従って操作特徴値算出手段20が評価対象のコマンド履歴をコマンド蓄積部13から抽出して操作特徴値算出手段20へ送出しているが、これに限らず、評価対象のコンピュータシステムの一定期間分の実行コマンド履歴を含む指令を情報入力部18が入力して、このコマンド履歴を操作特徴値算出手段20が直接受け取るように構成してもよい。このように構成することで、監視対象のシステム2−1〜2−nのいずれでもない別のコンピュータシステムを評価対象のコンピュータシステムとすることができる。   In the above description, the information input unit 18 inputs a probability calculation command, and the operation feature value calculation unit 20 extracts the command history to be evaluated from the command storage unit 13 according to the command and sends it to the operation feature value calculation unit 20. However, the present invention is not limited to this, and the information input unit 18 inputs a command including an execution command history for a certain period of the computer system to be evaluated so that the operation feature value calculation means 20 directly receives the command history. It may be configured. By configuring in this way, another computer system that is not one of the monitoring target systems 2-1 to 2-n can be set as the evaluation target computer system.

また、情報入力部18は、利用者の操作に応じて情報を入力するように構成されているが、これに限らず、上位システム3と接続して指令を入力するように構成してもよい。   In addition, the information input unit 18 is configured to input information according to a user's operation. However, the information input unit 18 is not limited thereto, and may be configured to connect to the host system 3 and input a command. .

以上のように、本実施形態の障害発生確率算出システム1は、監視システムの障害発生時の実行コマンド履歴に基づいて障害時の操作傾向を表す障害時操作特徴値を算出して蓄積しておくと共に、評価対象のコンピュータシステムの実行コマンド履歴から評価対象操作特徴値を算出し、評価対象操作特徴値との差が近似範囲内にある障害時操作特徴値の個数に基づいて評価対象のコンピュータシステムの障害発生確率を算出する。この算出される障害発生確率は、評価対象のシステムに対して行われた操作内容によって過去に何回の障害が発生したかを示しており、利用者の操作内容に起因するコンピュータシステムの障害発生確率である。   As described above, the failure occurrence probability calculation system 1 according to the present embodiment calculates and accumulates failure-time operation feature values representing operation tendency at the time of failure based on the execution command history at the time of failure of the monitoring system. In addition, the evaluation target operation feature value is calculated from the execution command history of the evaluation target computer system, and the evaluation target computer system is based on the number of faulty operation feature values whose difference from the evaluation target operation feature value is within the approximate range. The failure occurrence probability is calculated. The calculated failure occurrence probability indicates how many failures have occurred in the past due to the operation performed on the system to be evaluated, and the failure occurrence of the computer system due to the user's operation content. It is a probability.

よって、本実施形態の障害発生確率算出システム1によれば、障害の原因が分からなくてもコンピュータシステムの危険度を把握できる。また、実行コマンドは、操作者がコンピュータシステムに対して行った操作を示すので、入力ミスや実行順序の誤りなど、コンピュータシステムが正確に動作していても避けられない問題もシステムの評価対象にすることができる。これにより、システムの保守管理を行う管理業者は、保守料金を見積もる場合に、システムの性能だけでなく、システムの運用状態を考慮した料金を提示することができる。   Therefore, according to the failure occurrence probability calculation system 1 of the present embodiment, it is possible to grasp the risk level of the computer system without knowing the cause of the failure. In addition, since the execution command indicates the operation performed by the operator on the computer system, problems that cannot be avoided even if the computer system is operating correctly, such as input errors and execution sequence errors, are also subject to system evaluation. can do. As a result, a manager who performs maintenance management of the system can present a fee considering not only the performance of the system but also the operating state of the system when estimating the maintenance fee.

本発明は、コンピュータシステムに対する操作の内容を評価する技術に利用できる。   The present invention can be used for a technique for evaluating the contents of an operation on a computer system.

1 障害発生確率算出システム
2−1〜2−n 監視対象のコンピュータシステム
3 上位システム
11 インタフェース部
12 コマンド収集手段
13 コマンド蓄積部
14 障害検出手段
15 障害時コマンド履歴手段
16 障害時操作特徴値算出手段
17 障害時データ記憶部
18 情報入力部
19 コマンド履歴抽出手段
20 操作特徴値算出手段
21 障害数算出手段
22 監視対象情報登録手段
23 監視対象情報記憶部
24 母数算出手段
25 障害発生確率算出手段
26 障害数分布表作成手段
DESCRIPTION OF SYMBOLS 1 Failure occurrence probability calculation system 2-1 to 2-n Monitored computer system 3 Host system 11 Interface unit 12 Command collection unit 13 Command accumulation unit 14 Failure detection unit 15 Failure command history unit 16 Failure operation feature value calculation unit DESCRIPTION OF SYMBOLS 17 Data storage part at the time of failure 18 Information input part 19 Command history extraction means 20 Operation feature value calculation means 21 Failure number calculation means 22 Monitoring object information registration means 23 Monitoring object information storage part 24 Parameter calculation means 25 Failure occurrence probability calculation means 26 Disability number distribution table creation means

Claims (14)

監視対象のコンピュータシステムの実行コマンド及びその実行日時を示すコマンド履歴情報を収集するコマンド収集手段と、
この収集されたコマンド履歴情報を蓄積するコマンド蓄積部と、
前記監視対象のコンピュータシステムの障害を検出する障害検出手段と、
この障害検出手段により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記コマンド蓄積部から抽出する障害時コマンド履歴抽出手段と、
この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出する障害時操作特徴値算出手段と、
この算出された障害時操作特徴値を蓄積する障害時データ記憶部と、
評価対象のコンピュータシステムの実行コマンド履歴を入力しこのコマンド履歴を前記障害時操作特徴値算出手段と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出する操作特徴値算出手段と、
この算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を、前記障害時データ記憶部に蓄積された情報を検索して算出する障害数算出手段と、
この障害数算出手段に算出された前記障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出手段とを備えたことを特徴とする障害発生確率算出システム。
Command collection means for collecting command history information indicating the execution command of the computer system to be monitored and its execution date and time;
A command storage unit for storing the collected command history information;
Fault detection means for detecting a fault in the monitored computer system;
When a failure of the computer system is detected by the failure detection means, a failure command history extraction means for extracting a history of commands executed by the computer system during a certain period immediately before the occurrence of the failure from the command storage unit;
The operation feature value calculation at the time of failure that calculates the operation feature value at the time of failure representing the feature of the command history based on the classification result by classifying the commands included in the extracted command history into a plurality of preset categories Means,
A failure data storage unit that accumulates the calculated failure operation feature values;
Operation feature value calculation for inputting an execution command history of a computer system to be evaluated and analyzing the command history in the same manner as the operation feature value calculation means at the time of failure to calculate an evaluation target operation feature value representing the feature of the command history Means,
A failure number calculation means for searching the information accumulated in the failure data storage unit to calculate the number of the failure operation feature values that are the same as or within the approximate range of the calculated evaluation target operation feature value;
Failure occurrence probability comprising failure occurrence probability calculating means for calculating failure occurrence probability of the computer system to be evaluated based on the number of operation characteristic values at the time of failure calculated by the failure number calculating means Calculation system.
前記請求項1に記載の障害発生確率算出システムにおいて、
前記障害時操作特徴値算出手段は、前記コマンドの分類結果として特定された前記各カテゴリのコマンド数のうちの少なくとも1つを前記障害時操作特徴値として算出することを特徴とする障害発生確率算出システム。
In the failure occurrence probability calculation system according to claim 1,
The failure operation feature value calculation means calculates at least one of the number of commands of each category specified as the command classification result as the failure operation feature value. system.
前記請求項2に記載の障害発生確率算出システムにおいて、
前記監視対象のコンピュータシステムの識別情報とその監視開始日時とを示す監視対象情報を記憶した監視対象情報記憶部と、この記憶された監視対象情報に基づいて前記監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出する母数算出手段とを備え、
前記障害発生確率算出手段は、前記障害数算出手段に算出された数を前記母数算出手段に算出された数で除算した値を前記評価対象のコンピュータシステムの障害発生確率として算出することを特徴とする障害発生確率算出システム。
In the failure occurrence probability calculation system according to claim 2,
A monitoring target information storage unit storing monitoring target information indicating identification information of the monitoring target computer system and its monitoring start date and time, and a monitoring period of the entire monitoring target computer system based on the stored monitoring target information And a parameter calculating means for calculating the total as a monitoring period,
The failure occurrence probability calculation means calculates a value obtained by dividing the number calculated by the failure number calculation means by the number calculated by the parameter calculation means as a failure occurrence probability of the evaluation target computer system. Failure occurrence probability calculation system.
前記請求項3に記載の障害発生確率算出システムにおいて、
前記障害時操作特徴値算出手段は、システムの情報/状態を参照するための参照コマンドと、システムの情報/状態を変更するための変更コマンドと、その他のコマンドとの3つのカテゴリに前記コマンドを分類し、当該参照コマンドの数及び当該変更コマンドの数の2つの値を前記障害時操作特徴値として算出することを特徴とする障害発生確率算出システム。
In the failure occurrence probability calculation system according to claim 3,
The failure operation feature value calculation means includes the command in three categories: a reference command for referring to system information / status, a change command for changing system information / status, and other commands. A failure occurrence probability calculation system characterized by classifying and calculating two values of the number of the reference commands and the number of the change commands as the operation characteristic values at the time of failure.
監視対象のコンピュータシステムの実行コマンド及びその実行日時を示すコマンド履歴情報を収集するコマンド収集手段と、
この収集されたコマンド履歴情報を蓄積するコマンド蓄積部と、
前記監視対象のコンピュータシステムの障害を検出する障害検出手段と、
この障害検出手段により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記コマンド蓄積部から抽出する障害時コマンド履歴抽出手段と、
この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出する障害時操作特徴値算出手段と、
この算出された障害時操作特徴値を蓄積する障害時データ記憶部とを備えたことを特徴とする障害発生確率算出用データベース作成システム。
Command collection means for collecting command history information indicating the execution command of the computer system to be monitored and its execution date and time;
A command storage unit for storing the collected command history information;
Fault detection means for detecting a fault in the monitored computer system;
When a failure of the computer system is detected by the failure detection means, a failure command history extraction means for extracting a history of commands executed by the computer system during a certain period immediately before the occurrence of the failure from the command storage unit;
The operation feature value calculation at the time of failure that calculates the operation feature value at the time of failure representing the feature of the command history based on the classification result by classifying the commands included in the extracted command history into a plurality of preset categories Means,
A failure creation probability calculation database creation system comprising: a failure data storage unit that accumulates the calculated failure operation feature values.
評価対象のコンピュータシステムの一定期間分の実行コマンド履歴を入力しこのコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す評価対象操作特徴値を算出する操作特徴値算出手段と、
監視対象のコンピュータシステムの障害発生時直前の一定期間分のコマンド履歴の特徴を表す障害時操作特徴値を予め複数蓄積した障害時データ記憶部と、
前記操作特徴値算出手段に算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を、前記障害時データ記憶部に蓄積された情報を検索して算出する障害数算出手段と、
この障害数算出手段に算出された前記障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出手段とを備えたことを特徴とする障害発生確率算出装置。
An execution command history for a certain period of the computer system to be evaluated is input, and the commands included in the command history are classified into a plurality of preset categories, and the characteristics of the command history are expressed based on the classification result An operation feature value calculating means for calculating a target operation feature value;
A failure data storage unit that stores in advance a plurality of failure operation feature values representing features of a command history for a certain period immediately before the failure of the monitored computer system;
The number of the operation feature values at the time of failure that is the same as or within the approximate range of the operation feature value to be evaluated calculated by the operation feature value calculation means is calculated by searching the information stored in the data storage unit at the time of failure. The number of faults calculating means;
Failure occurrence probability comprising failure occurrence probability calculating means for calculating failure occurrence probability of the computer system to be evaluated based on the number of operation characteristic values at the time of failure calculated by the failure number calculating means Calculation device.
監視対象のコンピュータシステムの実行コマンド及びその実行日時を示すコマンド履歴情報をコマンド収集手段が収集してコマンド蓄積部に蓄積すると共に、
前記監視対象のコンピュータシステムの障害を障害検出手段が検出し、
前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を障害時コマンド履歴抽出手段が前記コマンド蓄積部から抽出し、
この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を障害時操作特徴値算出手段が算出し障害時データ記憶部に蓄積し、
評価対象のコンピュータシステムの実行コマンド履歴を操作特徴値算出手段が入力して前記障害時操作特徴値算出手段と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出し、
前記算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を障害数算出手段が前記障害時データ記憶部に蓄積された情報を検索して算出し、
この算出された障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を障害発生確率算出手段が算出することを特徴とする障害発生確率算出方法。
The command collection means collects the command history information indicating the execution command of the computer system to be monitored and its execution date and stores it in the command storage unit,
A failure detection means detects a failure of the monitored computer system,
When a failure of the computer system is detected, a history of commands executed by the computer system in a certain period immediately before the occurrence of the failure is extracted from the command storage unit by the command history extraction unit at the time of failure,
A command included in the extracted command history is classified into a plurality of preset categories, and a faulty operation feature value representing a feature of the command history based on the classification result is calculated by a faulty operation feature value calculating unit. Calculate and accumulate in the data storage unit at the time of failure
An operation feature value calculation unit inputs an execution command history of the computer system to be evaluated, and performs an analysis process in the same manner as the operation feature value calculation unit at the time of failure to calculate an evaluation target operation feature value representing a feature of the command history,
The failure number calculation means searches the information accumulated in the failure data storage unit and calculates the number of failure operation feature values that are the same as or within the approximate range of the calculated evaluation target operation feature value,
A failure occurrence probability calculating method, wherein the failure occurrence probability calculating means calculates a failure occurrence probability of the computer system to be evaluated based on the calculated number of operation characteristic values at the time of failure.
前記請求項7に記載の障害発生確率算出方法において、
前記障害時操作特徴値を前記障害時操作特徴値算出手段が算出するに際しては、
前記コマンドの分類結果として特定された前記各カテゴリのコマンド数のうちの少なくとも1つを前記障害時操作特徴値として算出することを特徴とする障害発生確率算出方法。
In the failure occurrence probability calculation method according to claim 7,
When the failure operation feature value is calculated by the failure operation feature value calculation means,
A failure occurrence probability calculating method, wherein at least one of the number of commands of each category specified as the command classification result is calculated as the failure operation feature value.
前記請求項8に記載の障害発生確率算出方法において、
前記障害発生確率を前記障害発生確率算出手段が算出する前に、
前記監視対象のコンピュータシステムの識別情報とその監視開始日時とを示す監視対象情報に基づいて母数算出手段が前記監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出し、
前記障害発生確率を前記障害発生確率算出手段が算出するに際しては、
前記障害数算出手段に算出された数を前記母数算出手段に算出された数で除算した値を前記評価対象の障害発生確率として算出することを特徴とする障害発生確率算出方法。
The failure occurrence probability calculation method according to claim 8,
Before the failure occurrence probability calculating means calculates the failure occurrence probability,
Based on the monitoring target information indicating the identification information of the monitoring target computer system and the monitoring start date and time, the parameter calculation means calculates the total monitoring period of the entire monitoring target computer system as a total monitoring period,
When the failure occurrence probability calculating means calculates the failure occurrence probability,
A failure occurrence probability calculation method, wherein a value obtained by dividing the number calculated by the failure number calculation unit by the number calculated by the parameter calculation unit is calculated as the failure occurrence probability of the evaluation target.
前記請求項9に記載の障害発生確率算出方法において、
前記障害時操作特徴値を前記障害時操作特徴値算出手段が算出するに際しては、
システムの情報/状態を参照するための参照コマンドと、システムの情報/状態を変更するための変更コマンドと、その他のコマンドとの3つのカテゴリにコマンドを分類し、当該参照コマンド数及び当該変更コマンド数の2つの値を前記障害時操作特徴値として算出することを特徴とする障害発生確率算出方法。
The failure occurrence probability calculation method according to claim 9,
When the failure operation feature value is calculated by the failure operation feature value calculation means,
The commands are classified into three categories: a reference command for referring to system information / status, a change command for changing system information / status, and other commands. A failure occurrence probability calculation method characterized by calculating two values of numbers as the failure operation feature values.
監視対象のコンピュータシステム側から当該システムに実行されたコマンド及びその実行日時を示すコマンド履歴情報を収集して記憶装置に蓄積するコマンド収集機能と、
前記監視対象のコンピュータシステムの障害を検出する障害検出機能と、
この障害検出機能により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記記憶装置から抽出する障害時コマンド抽出機能と、
この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出し前記記憶装置に蓄積する障害時操作特徴値算出機能と、
評価対象のコンピュータシステムの実行コマンド履歴を入力しこのコマンド履歴を前記障害時操作特徴値算出機能と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出する評価対象操作特徴値算出機能と、
この算出された評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の個数を前記記憶装置に蓄積された情報を検索して算出する障害数算出機能と、
この算出された障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出機能と、をコンピュータに実行させることを特徴とする障害発生確率算出用プログラム。
A command collection function that collects command history information indicating the command executed on the system and the execution date and time from the computer system to be monitored and stores it in a storage device;
A failure detection function for detecting a failure of the monitored computer system;
When a failure of the computer system is detected by this failure detection function, a failure command extraction function that extracts a history of commands executed by the computer system from the storage device during a certain period immediately before the occurrence of the failure;
The commands included in the extracted command history are classified into a plurality of preset categories, and on the basis of the classification result, a faulty operation feature value representing the feature of the command history is calculated and stored in the storage device. Operation feature value calculation function at the time of failure,
An evaluation target operation feature that inputs an execution command history of the computer system to be evaluated and analyzes this command history in the same manner as the operation feature value calculation function at the time of failure and calculates an evaluation target operation feature value representing the feature of the command history Value calculation function,
A failure number calculation function for searching the information stored in the storage device and calculating the number of failure operation feature values that are the same as or within the approximate range of the calculated evaluation target operation feature value;
A failure occurrence probability calculation program for causing a computer to execute a failure occurrence probability calculation function for calculating a failure occurrence probability of the computer system to be evaluated based on the calculated number of operation characteristic values at the time of failure .
前記請求項11に記載の障害発生確率算出用プログラムにおいて、
前記障害時操作特徴値算出機能が、前記コマンドの分類結果として特定された前記各カテゴリのコマンド数のうちの少なくとも1つを前記障害時操作特徴値として算出する機能であることを特徴とする障害発生確率算出用プログラム。
In the failure occurrence probability calculation program according to claim 11,
The failure operation feature value calculation function is a function that calculates, as the failure operation feature value, at least one of the number of commands in each category specified as the command classification result. Occurrence probability calculation program.
前記請求項12に記載の障害発生確率算出用プログラムにおいて、
前記監視対象のコンピュータシステムの識別情報とその監視開始日時とを示す監視対象情報に基づいて、前記監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出する母数算出機能と共に、
前記障害発生確率算出機能を、前記障害数算出機能で算出された数を前記母数算出機能で算出された数で除算した値を前記評価対象の障害発生確率として算出する機能として前記コンピュータに実行させることを特徴とする障害発生確率算出用プログラム。
In the failure occurrence probability calculation program according to claim 12,
Based on monitoring target information indicating identification information of the monitoring target computer system and monitoring start date and time, together with a parameter calculation function for calculating the total monitoring period of the entire monitoring target computer system as a total monitoring period,
The failure occurrence probability calculation function is executed by the computer as a function of calculating a value obtained by dividing the number calculated by the failure number calculation function by the number calculated by the parameter calculation function as the failure occurrence probability of the evaluation target A failure occurrence probability calculation program characterized in that
前記請求項13に記載の障害発生確率算出用プログラムにおいて、
前記障害時操作特徴値算出機能が、システムの情報/状態を参照するための参照コマンドと、システムの情報/状態を変更するための変更コマンドと、その他のコマンドとの3つのカテゴリにコマンドを分類し、当該参照コマンド数及び当該変更コマンド数の2つの値を前記障害時操作特徴値として算出する機能を含むことを特徴とする障害発生確率算出用プログラム。
In the failure occurrence probability calculation program according to claim 13,
The failure operation feature value calculation function classifies commands into three categories: a reference command for referring to system information / status, a change command for changing system information / status, and other commands. And a failure occurrence probability calculation program including a function of calculating two values of the reference command number and the change command number as the failure operation feature value.
JP2009064869A 2009-03-17 2009-03-17 Obstacle occurrence probability calculation system, obstacle occurrence probability calculation method and program Withdrawn JP2010218267A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009064869A JP2010218267A (en) 2009-03-17 2009-03-17 Obstacle occurrence probability calculation system, obstacle occurrence probability calculation method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009064869A JP2010218267A (en) 2009-03-17 2009-03-17 Obstacle occurrence probability calculation system, obstacle occurrence probability calculation method and program

Publications (1)

Publication Number Publication Date
JP2010218267A true JP2010218267A (en) 2010-09-30

Family

ID=42977045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009064869A Withdrawn JP2010218267A (en) 2009-03-17 2009-03-17 Obstacle occurrence probability calculation system, obstacle occurrence probability calculation method and program

Country Status (1)

Country Link
JP (1) JP2010218267A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014010761A (en) * 2012-07-02 2014-01-20 Fujitsu Ltd Program, method, and information processing apparatus for managing system
CN106294093A (en) * 2016-08-23 2017-01-04 浪潮电子信息产业股份有限公司 A kind of CPU runs computational methods and the device of time
KR101872827B1 (en) * 2016-07-28 2018-07-02 (주)클루닉스 Apparatus for estimating occurrence of failures in a computer using categorizing input/output logs in context and method thereof

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014010761A (en) * 2012-07-02 2014-01-20 Fujitsu Ltd Program, method, and information processing apparatus for managing system
KR101872827B1 (en) * 2016-07-28 2018-07-02 (주)클루닉스 Apparatus for estimating occurrence of failures in a computer using categorizing input/output logs in context and method thereof
CN106294093A (en) * 2016-08-23 2017-01-04 浪潮电子信息产业股份有限公司 A kind of CPU runs computational methods and the device of time

Similar Documents

Publication Publication Date Title
KR102011620B1 (en) Importance determination device of abnormal data and importance determination method of abnormal data
JP6411769B2 (en) Condition monitoring device
JP5444673B2 (en) Log management method, log management device, information processing device including log management device, and program
JP6875179B2 (en) System analyzer and system analysis method
JP6669156B2 (en) Application automatic control system, application automatic control method and program
US20150121136A1 (en) System and method for automatically managing fault events of data center
JP5375829B2 (en) Operation management apparatus, operation management method, and operation management program
JP6048038B2 (en) Information processing apparatus, program, and information processing method
JP6327234B2 (en) Event analysis device, event analysis system, event analysis method, and event analysis program
JP2019185422A (en) Failure prediction method, failure prediction device, and failure prediction program
JP2011070635A (en) Method and device for monitoring state of facility
JP2016057803A (en) Abnormality detection procedure development device and abnormality detection procedure development method
EP3663919A1 (en) System and method of automated fault correction in a network environment
JP6988304B2 (en) Operation management system, monitoring server, method and program
JP2008310582A (en) Maintenance work support apparatus and system, and maintenance work support method
JP2020052714A5 (en)
JP2010218267A (en) Obstacle occurrence probability calculation system, obstacle occurrence probability calculation method and program
JP5668425B2 (en) Failure detection apparatus, information processing method, and program
JP2011186706A (en) Information processor, information processing method, and program
US11415958B2 (en) Data extracting apparatus, data extracting method, and recording medium
CN114911677A (en) Monitoring method and device for containers in cluster and computer readable storage medium
JP5444071B2 (en) Fault information collection system, method and program
JP2020135739A (en) Failure sign detection system
CN116841792B (en) Application program development fault repairing method
CN116824515B (en) Graphic fault diagnosis method and device, electronic equipment and storage medium

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120605