JP5978804B2 - システムを管理するためのプログラム、方法及び情報処理装置 - Google Patents

システムを管理するためのプログラム、方法及び情報処理装置 Download PDF

Info

Publication number
JP5978804B2
JP5978804B2 JP2012148611A JP2012148611A JP5978804B2 JP 5978804 B2 JP5978804 B2 JP 5978804B2 JP 2012148611 A JP2012148611 A JP 2012148611A JP 2012148611 A JP2012148611 A JP 2012148611A JP 5978804 B2 JP5978804 B2 JP 5978804B2
Authority
JP
Japan
Prior art keywords
command
executed
abnormality
extracted
work
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012148611A
Other languages
English (en)
Other versions
JP2014010761A (ja
Inventor
慎司 長谷尾
慎司 長谷尾
泰介 相澤
泰介 相澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012148611A priority Critical patent/JP5978804B2/ja
Priority to US13/898,613 priority patent/US9158615B2/en
Publication of JP2014010761A publication Critical patent/JP2014010761A/ja
Application granted granted Critical
Publication of JP5978804B2 publication Critical patent/JP5978804B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、システムを管理する技術に関する。
大規模で複雑なシステムでは、システムの管理者の負担が増している。システムの管理者は、システムの管理を行うために種々のコマンドを入力するが、そのシステムのことを熟知していないと、入力するコマンドがそのシステムに悪影響を及ぼすことに気付かないことがある。そして、入力されたコマンドが適切でないと、システムに異常が発生し、システムの復旧作業等を行わなければならなくなる。
システムにおいて発生したイベントが、予め人手で登録した定義に合致するか否かを判断することにより、障害を検知する技術が存在する。しかし、この技術では、予め登録されていないイベントが発生したような場合には、障害を検知することができない。そのため、作業者は障害発生の可能性が有ることを認識できず、障害の原因となる作業を誤って行ってしまうという問題が有る。また、人手で登録を行うため、システムの管理者の負担が大きいという問題がある。
国際公開第2004/061681号
1つの側面では、本発明の目的は、異常を引き起こすコマンドを誤って実行することを防止するための技術を提供することである。
一態様の情報処理方法は、コマンドが実行されたシステムにおいて異常が発生したことを検知した場合に、システムにおいて実行され且つシステムの状態に影響を及ぼすコマンドの情報のうち、異常の発生前所定時間内に実行されたコマンドを抽出し、第1のコマンドが入力された場合、第1のコマンドと一致するコマンドが抽出されているか判定し、第1のコマンドと一致するコマンドが抽出されている場合に、異常が発生する可能性があることを示す表示データを出力する処理を含む。
一態様によれば、異常を引き起こすコマンドを誤って実行することを防止できるようになる。
図1は、本実施の形態のシステム概要を示す図である。 図2は、実行履歴格納部に格納されているデータの一例を示す図である。 図3は、パターン格納部に格納されているデータの一例を示す図である。 図4は、参照系コマンド格納部に格納されているデータの一例を示す図である。 図5は、メインの処理フローを示す図である。 図6は、判定処理の処理フローを示す図である。 図7は、メインの処理フローを示す図である。 図8は、実行処理の処理フローを示す図である。 図9は、追加処理の処理フローを示す図である。 図10は、コンピュータの機能ブロック図である。
図1に、本実施の形態に係るシステムの概要を示す。例えばLAN(Local Area Network)であるネットワーク7には、本実施の形態の主要な処理を実施する運用管理サーバ1と、業務サーバ3と、クライアント端末5とが接続されている。
ユーザは、クライアント端末5の入力装置(例えばキーボード)を介してコマンドを入力する。入力されたコマンドは業務サーバ3において実行するためのコマンドであるが、本実施の形態においては、クライアント端末は、まず運用管理サーバ1にコマンドを送信する。運用管理サーバ1はコマンドを受信し、以下で説明する処理を実施し、コマンドを業務サーバ3に実行させる場合には、コマンドを業務サーバ3に送信する。
運用管理サーバ1は、実行履歴格納部101と、パターン格納部103と、参照系コマンド格納部105と、受信部107と、解析部109と、登録部111とを含む。
受信部107は、異常発生通知を業務サーバ3から受信すると、異常発生通知を解析部109に出力する。解析部109は、異常発生通知を受信部107から受け取ると、パターン格納部103にコマンドを格納する処理等を実施する。また、解析部109は、クライアント端末5からコマンドを受信した場合に、実行履歴格納部101に格納されているデータ、パターン格納部103に格納されているデータ及び参照系コマンド格納部105に格納されているデータを用いて処理を行い、処理結果を実行履歴格納部101及びパターン格納部103に格納する。登録部111は、後で説明する参照系コマンドをクライアント端末5から受信すると、参照系コマンド格納部105に登録する。
業務サーバ3は、検出部31と、実行部33とを含む。検出部31は、コマンドの実行により異常が発生したことを検出すると、異常発生通知を運用管理サーバ1に送信する。また、検出部31は、コマンドの実行前及び実行後におけるシステムの状態に関する情報(例えば、プロセスの生死に関する情報等)を運用管理サーバ1に送信する。実行部33は、運用管理サーバ1からコマンドを受信すると、当該コマンドを実行する。
図2に、実行履歴格納部101に格納されているデータの一例を示す。図2の例では、作業IDと、作業結果と、コマンドIDと、コマンド本体と、パラメタと、コマンドの実行日時と、実行先ホストの情報とが格納されている。実行履歴格納部101には、参照系コマンドではない(すなわち、更新系のコマンドである)と判断されたコマンドの実行履歴のみが登録されており、参照系コマンドの実行履歴は格納されていない。
なお、参照系コマンドとは、システムの状態に影響を及ぼさないコマンドであり、例えばUNIX(登録商標)における「ls」及び「cd」等である。また、更新系コマンドとは、システムの状態に影響を及ぼすコマンドであり、例えばUNIX(登録商標)における「stop」、「rm」及び「cp」等である。
このように、更新系コマンドの実行履歴のみを実行履歴格納部101に登録するのは、以下のような理由による。すなわち、同じ作業をする場合であっても、コマンドの入力パターンはいくつも存在するので、異常発生する可能性があるか否かを判断する際には、作業の核となる更新系コマンドだけを利用し、ノイズとなる参照系コマンドを排除するためである。例えば、プロセスAを停止するという作業を行う場合、「cd/opt/A/」、「ls −l」及び「stopA −a xyz」というようにコマンドを入力する場合もあるし、「/opt/A/stopA −a xyz」とコマンドを入力する場合もあるし、「cd/opt/A」及び「stopA −abc xyz」というようにコマンドを入力する場合もある。このような場合には、作業の核となる更新系コマンドである「stopA」に係るコマンドが、実行履歴格納部101に登録されるようにする。
また、上で述べた例のように、パラメタが多少異なっていても、実質的に同じ作業を行うような場合が多々ある。従って、パラメタまで完全に一致した場合に異常発生の可能性があることを通知するようにすると、パラメタが多少異なるだけであり異常発生の可能性があるコマンドを取りこぼしてしまうおそれがある。そこで、パラメタについては、以下で説明するように類似度を考慮して一致しているか否かの判断を行うようにする。
図3に、パターン格納部103に格納されているデータの一例を示す。図3の例では、コマンド本体と、パラメタと、そのコマンドの実行を含む作業のうち成功した作業の作業IDと、そのコマンドの実行を含む作業のうち失敗した作業の作業IDとが格納されている。パターン格納部103には、異常発生前所定時間(例えば10分)内に実行されたコマンドが格納される。成功した作業の作業IDの列及び失敗した作業の作業IDの列には、複数の作業IDが格納される場合もある。
図4に、参照系コマンド格納部105に格納されているデータの一例を示す。図4の例では、参照系コマンドのコマンド本体及びパラメタが格納されている。
次に、図5乃至図9を用いて、図1に示したシステムの動作について説明する。
まず、クライアント端末5は、ユーザからコマンドの入力を受け付けると、運用管理サーバ1に送信する。運用管理サーバ1における解析部109は、ユーザにより入力されたコマンド(以下、入力コマンドと呼ぶ)をクライアント端末5から受信すると(図5:ステップS1)、メインメモリ等の記憶装置に格納する。
そして、解析部109は、判定処理を実施する(ステップS3)。判定処理については、図6を用いて説明する。
まず、解析部109は、入力コマンドからコマンド本体及びパラメタを抽出する(図6:ステップS31)。
解析部109は、ステップS31において抽出されたコマンド本体がパターン格納部103に格納されているか判断する(ステップS33)。コマンド本体がパターン格納部103に格納されていないと判断された場合(ステップS33:Noルート)、解析部109は、入力コマンドと一致するコマンドがパターン格納部103に格納されていないと判定する(ステップS41)。
一方、コマンド本体がパターン格納部103に格納されていると判断された場合(ステップS33:Yesルート)、解析部109は、パターン格納部103において当該コマンド本体に対応付けて格納されているパラメタと、ステップS31において抽出したパラメタとの一致率(すなわち類似度)を算出する(ステップS35)。類似度は、例えば、2つの字句の間の類似度を算出するための一般的な手法を用いる。このような手法はよく知られているので、ここでは詳細な説明は省略する。
パラメタの一致率が所定値(例えば50%)以上である場合(ステップS37:Yesルート)、解析部109は、入力コマンドと一致するコマンドがパターン格納部103に有ると判定する(ステップS39)。一方、パラメタの一致率が所定値未満である場合(ステップS37:Noルート)、ステップS41の処理に移行する。そして元の処理に戻る。
以上のような処理を実施すれば、パラメタが多少異なっていても実質的に同一であるとみなせるようなコマンドを取りこぼすことが無くなる。
図5の説明に戻り、解析部109は、入力コマンドと一致するコマンドがパターン格納部103に有るか判断する(ステップS5)。ステップS41の処理を経た場合、すなわち入力コマンドと一致するコマンドがパターン格納部103に無いと判断された場合(ステップS5:Noルート)、処理は端子Aを介して図7のステップS23に移行する。
一方、ステップS39の処理を経た場合、すなわち入力コマンドと一致するコマンドがパターン格納部103に有ると判断された場合(ステップS5:Yesルート)、解析部109は、入力コマンドと一致するコマンドに対応付けられている、成功した作業の作業ID及び失敗した作業の作業IDをパターン格納部103から抽出する(ステップS7)。
解析部109は、ステップS7において抽出した、失敗した作業の作業IDに対応付けられているコマンド群を実行履歴格納部101から抽出する(ステップS9)。処理は端子Bを介して図7のS11に移行する。
図7の説明に移行し、解析部109は、ステップS9において抽出したコマンド群が、今回のコマンド群と一致するか判断する(ステップS11)。今回のコマンド群は、入力コマンド及び当該入力コマンドの実行前所定時間内に実行したコマンドを含む。後者は、実行履歴格納部101から抽出する。
今回のコマンド群と一致する場合(ステップS11:Yesルート)、解析部109は、入力コマンドを実行すると異常が発生する可能性があることを示す第1の異常メッセージをクライアント端末5に送信する(ステップS13)。そしてステップS21の処理に移行する。
一方、今回のコマンド群と一致しない場合(ステップS11:Noルート)、解析部109は、ステップS7において抽出した、成功した作業の作業IDに対応付けられているコマンド群を実行履歴格納部101から抽出する(ステップS15)。
解析部109は、ステップS15において抽出したコマンド群が、今回のコマンド群と一致するか判断する(ステップS17)。
今回のコマンド群と一致しない場合(ステップS17:Noルート)、解析部109は、入力コマンドを実行すると異常が発生する可能性があることを示す第2の異常メッセージをクライアント端末5に送信する(ステップS19)。過去に成功した作業のコマンド群と一致していないので、今回の作業が失敗する可能性があるからである。
ステップS13又はS19の処理の後、解析部109は、コマンド実行指示をクライアント端末5から受信したか判断する(ステップS21)。コマンド実行指示は、第1又は第2の異常メッセージを受信したクライアント端末5のユーザが、クライアント端末5に入力コマンドの実行を指示した場合に、クライアント端末5が運用管理サーバ1に送信する。
コマンド実行指示を受信していない場合(ステップS21:Noルート)、入力コマンドを実行しないので、処理は終了する。
一方、コマンド実行指示を受信した場合(ステップS21:Yesルート)又は今回のコマンド群と一致する場合(ステップS17:Yesルート)、解析部109は、実行処理を実施する(ステップS23)。実行処理については、図8を用いて説明する。
まず、解析部109は、入力コマンドと一致するコマンドが参照系コマンド格納部105に格納されているか判断する。すなわち、入力コマンドは参照系コマンドであるか判断する(図8:ステップS51)。
入力コマンドが参照系コマンドである場合(ステップS51:Yesルート)、解析部109は、入力コマンドを含むコマンド実行指示を業務サーバ3に送信する。これに応じ、業務サーバ3における実行部33は、入力コマンドを実行する(ステップS53)。
一方、入力コマンドが参照系コマンドではない場合(ステップS51:Noルート)、システムの状態に影響を及ぼす可能性があるので、解析部109は、ベースラインを取得済みであるか判断する(ステップS55)。ベースラインとは、入力コマンドの実行前におけるシステムの状態を示す情報のことである。
ベースラインを取得済みある場合(ステップS55:Yesルート)、ベースラインを取得しなくてもよいので、ステップS59の処理に移行する。一方、ベースラインを取得済みではない場合(ステップS55:Noルート)、解析部109は、業務サーバ3にベースラインの取得要求を送信する。これに応じ、業務サーバ3における検出部31は、ベースラインを運用管理サーバ1に送信する。これにより、解析部109は、ベースラインを取得する(ステップS57)。
そして、解析部109は、入力コマンドを含むコマンド実行指示を業務サーバ3に送信する。これに応じ、業務サーバ3における実行部33は、入力コマンドを実行する(ステップS59)。
解析部109は、入力コマンドの実行後のシステムの状態を示す情報を業務サーバ3から取得する(ステップS61)。
解析部109は、ベースライン及びステップS61において取得した情報を用いて、入力コマンドの実行前と実行後との差分を求めることにより、システムの状態が変化したか判断する(ステップS63)。
システムの状態が変化していない場合(ステップS63:Noルート)、入力コマンドは参照系コマンドであるので、入力コマンドを参照系コマンド格納部105に格納する(ステップS65)。
一方、システムの状態が変化した場合(ステップS63:Yesルート)、入力コマンドは更新系コマンドであるので、解析部109は、入力コマンドを含む実行履歴を実行履歴格納部101に格納する(ステップS67)。ステップS67においては、コマンド本体、パラメタ、日時及び実行先ホストを格納する。また、ステップS67の処理時点では、作業結果は「成功」としておく。
解析部109は、入力コマンドが、入力コマンドの直前に実行したコマンドと同じ作業に属するか判断する(ステップS69)。ステップS69においては、例えば、直前に実行したコマンドの実行時から所定時間(例えば10分)が経過したか否かによって判断する。
直前に実行したコマンドと同じ作業に属する場合(ステップS69:Yesルート)、解析部109は、直前に実行したコマンドと同じ作業IDを入力コマンドに付与する(ステップS71)。ステップS71においては、入力コマンドについて、作業ID及びコマンドIDを実行履歴格納部101に格納する。そして元の処理に戻る。
一方、直前に実行したコマンドと同じ作業に属さない場合(ステップS69:Noルート)、解析部109は、直前に実行したコマンドと異なる作業IDを入力コマンドに付与する(ステップS73)。ステップS73においては、入力コマンドについて、作業ID及びコマンドIDを実行履歴格納部101に格納する。そして元の処理に戻る。
以上のような処理を実施すれば、コマンドの実行時に参照系コマンドと更新系コマンドとのいずれであるかを決定し、同じコマンドが再び実行されたときに利用できるように登録しておくことができるようになる。
図7の説明に戻り、解析部109は、入力コマンドを実行した業務サーバ3から異常発生通知を受信したか判断する(ステップS25)。異常発生通知を受信していない場合(ステップS25:Noルート)、パターンの追加を行わなくてもよいので、処理を終了する。
一方、異常発生通知を受信した場合(ステップS25:Yesルート)、解析部109は、追加処理を実施する(ステップS27)。追加処理については、図9を用いて説明する。なお、異常発生通知には、異常が発生した日時及び実行したコマンドの情報等が含まれる。
まず、解析部109は、実行履歴格納部101における日時の欄を参照することにより、異常発生前(例えば異常発生前5分以内)にコマンドを実行したか判断する(図9:ステップS81)。
異常発前にコマンドを実行していない場合(ステップS81:Noルート)、異常発生とコマンドの実行との因果関係が無い可能性があるので、元の処理に戻る。
一方、異常発生前にコマンドを実行した場合(ステップS81:Yesルート)、解析部109は、異常発生前所定時間(例えば10分)内に実行したコマンドを実行履歴格納部101から抽出し、パターン格納部103に登録する(ステップS83)。ステップS83においては、作業失敗の欄に、登録したコマンドの作業IDを格納する。また、ステップS83において、実行履歴格納部101において、異常発生前所定時間内に実行したコマンドについての作業結果を「失敗」に変更する。
解析部109は、異常発生前の最後に実行したコマンドと同じコマンドを含む実行履歴を実行履歴格納部101から抽出する(ステップS85)。
解析部109は、異常発生前の最後に実行したコマンドと同じコマンドについての作業結果が「成功」であるか判断する(ステップS87)。
「成功」ではない場合(ステップS87:Noルート)、元の処理に戻る。一方、「成功」である場合(ステップS87:Yesルート)、解析部109は、当該コマンドの作業IDをパターン格納部103における作業成功の欄に登録する(ステップS89)。なお、ステップS85において複数件の実行履歴が抽出された場合には、それぞれの実行履歴についてステップS87及びS89の処理を実施する。そして処理を終了する。
図7の説明に戻り、追加処理の後、処理を終了する。
以上のような処理を実施すれば、異常発生の原因になり得るコマンドの実行前には、ユーザに注意を促すことができるので、システムに異常が発生することを防止できるようになる。また、成功した作業のコマンド群と一致しない場合においても、ユーザに異常メッセージが通知されるので、異常発生の原因になるコマンドの取りこぼしが少なくなる。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した運用管理サーバ1、業務サーバ3及びクライアント端末5の機能ブロック構成は必ずしも実際のプログラムモジュール構成に対応するものではない。
また、上で説明した各テーブルの構成は一例であって、必ずしも上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
ステップS85においては、異常発生前の最後に実行したコマンドのみ処理を行うようにしているが、ステップS83において登録されたコマンドの全てについて処理を行うようにしてもよい。
なお、上で述べた運用管理サーバ1、業務サーバ3及びクライアント端末5は、コンピュータ装置であって、図10に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本発明の実施の形態をまとめると、以下のようになる。
本実施の形態に係る情報処理方法は、(A)コマンドが実行されたシステムにおいて異常が発生したことを検知した場合に、システムにおいて実行されたコマンドのうちシステムの状態に影響を及ぼすコマンドの情報を格納する第1データ格納部から、異常の発生前所定時間内に実行されたコマンドを抽出し、第2データ格納部に格納し、(B)ユーザにより第1のコマンドが入力された場合、第2データ格納部に、第1のコマンドと一致するコマンドが格納されているか判断し、(C)第1のコマンドと一致するコマンドが格納されていると判断された場合に、異常が発生する可能性があることを示す表示データを出力する処理を含む。
このようにすれば、異常発生の原因になり得るコマンドが漏れなく自動的に登録されるので、そのようなコマンドを誤って実行してしまうことを防止できるようになる。
また、上で述べた第1データ格納部には、システムに対して行われた作業の各々について、当該作業において実行したコマンドのうちシステムの状態に影響を及ぼすコマンドの情報が格納システムに対して行われた作業の各々について当該作業において実行したコマンドの情報が格納されるようにしてもよい。そして、異常の発生前所定時間内に実行されたコマンドを抽出する処理において、(a1)異常の発生前所定時間内に実行されたコマンドと当該コマンドが実行された作業の識別情報とを抽出し、当該コマンドと当該作業の識別情報とを対応付けて第2データ格納部に格納し、表示データを出力する処理において、(c1)第1のコマンドと一致するコマンドに対応付けて格納されている作業の識別情報を第2データ格納部から抽出し、(c2)第1のコマンド及び当該第1のコマンドの実行前所定時間内に実行されたコマンドを含む第1のコマンド群が、抽出された作業の識別情報によって特定される第2のコマンド群と一致するか判断し、(c3)第1のコマンドと一致するコマンドが格納されていると判断され且つ第1のコマンド群と第2のコマンド群とが一致すると判断された場合に、異常が発生する可能性があることを示す表示データを出力するようにしてもよい。このようにすれば、ユーザは、異常が発生する可能性があることを認識したうえで、第1のコマンドを実行するか否かを決定することができるようになる。
また、上で述べた第1データ格納部には、システムに対して行われた作業の各々について、当該作業において実行したコマンドのうちシステムの状態に影響を及ぼすコマンドの情報と当該作業によって異常が発生したか否かを示す情報とが格納されるようにしてもよい。そして、異常の発生前所定時間内に実行されたコマンドを抽出する処理において、(a2)第1データ格納部から、異常の発生直前に実行したコマンドと同じコマンドが実行された作業のうち異常が発生していない作業の識別情報を抽出し、異常の発生直前に実行したコマンドに対応付けて第2データ格納部に格納し、表示データを出力する処理において、(c4)第1のコマンドと一致するコマンドに対応付けて格納されている、異常が発生していない作業の識別情報を第2データ格納部から抽出し、(c5)第1のコマンド及び当該第1のコマンドの実行前所定時間内に実行されたコマンドを含む第1のコマンド群が、抽出された異常が発生していない作業の識別情報によって特定される第3のコマンド群と一致するか判断し、(c6)第1のコマンドと一致するコマンドが格納されていると判断され且つ第1のコマンド群と第3のコマンド群とが一致しないと判断された場合に、異常が発生する可能性があることを示す表示データを出力するようにしてもよい。正常に行われた作業に係るコマンド群と一致しない場合にも、異常が発生する可能性がある。従って、上で述べたようにすれば、異常が発生する可能性があるにもかかわらず第1のコマンドが実行されてしまうことを抑制できるようになる。
また、本情報処理方法が、(D)第1のコマンドと一致するコマンドが格納されていないと判断された場合に、システムに影響を及ぼさないコマンドを格納する第3データ格納部に、第1のコマンドが格納されているか判断し、(E)第1のコマンドが格納されていないと判断された場合に、第1のコマンドが実行される前におけるシステムの状態を示す第1の情報を取得し、(F)第1のコマンドがシステムにおいて実行された場合、当該第1のコマンドの実行後におけるシステムの状態を示す第2の情報を取得し、(G)システムの状態が変化した場合に、第1のコマンドの情報を、第1データ格納部に格納する処理をさらに含むようにしてもよい。コマンドには、システムの状態に影響を及ぼすコマンドとシステムの状態に影響を及ぼさないコマンドとがあり、異常発生の原因になるのは前者のコマンドに限られる。そこで、上で述べたようにすれば、異常発生の原因になり得るコマンドを適切に特定できるようになる。
また、第1のコマンドと一致するコマンドが格納されているか判断する処理において、(b1)第1のコマンドのコマンド本体と一致するコマンド本体を有し且つ第1のコマンドのパラメタとの類似度が所定値以上であるパラメタを有するコマンドが第2データ格納部に格納されているか判断するようにしてもよい。このようにすれば、判断の精度を向上させることができるようになる。
なお、上記方法による処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
コンピュータに、
コマンドが実行されたシステムにおいて異常が発生したことを検知した場合に、前記システムにおいて実行され且つ前記システムの状態に影響を及ぼすコマンドのうち、前記異常の発生前所定時間内に実行されたコマンドを抽出し、
第1のコマンドが入力された場合、前記第1のコマンドと一致するコマンドが抽出されているか判定し、
前記第1のコマンドと一致するコマンドが抽出されている場合に、異常が発生する可能性があることを示す表示データを出力する
処理を実行させることを特徴とするプログラム。
(付記2)
前記表示データを出力する処理において、
前記第1のコマンドと一致するコマンドが実行された作業のうち、異常が発生した作業の識別情報を抽出し、
前記第1のコマンド及び当該第1のコマンドの実行前所定時間内に実行されたコマンドを含む第1のコマンド群が、抽出された前記異常が発生した作業の識別情報によって特定される第2のコマンド群と一致するか判定し、
前記第1のコマンド群と前記第2のコマンド群とが一致する場合に、異常が発生する可能性があることを示す表示データを出力する
ことを特徴とする付記1記載のプログラム。
(付記3)
前記表示データを出力する処理において、
前記第1のコマンドと一致するコマンドが実行された作業のうち、異常が発生していない作業の識別情報を抽出し、
前記第1のコマンド及び当該第1のコマンドの実行前所定時間内に実行されたコマンドを含む第1のコマンド群が、抽出された前記異常が発生していない作業の識別情報によって特定される第3のコマンド群と一致するか判定し、
前記第1のコマンド群と前記第3のコマンド群とが一致しない場合に、異常が発生する可能性があることを示す表示データを出力する
ことを特徴とする付記1記載のプログラム。
(付記4)
前記第1のコマンドと一致するコマンドが抽出されていない場合に、前記第1のコマンドが、前記システムに影響を及ぼさないコマンドであるか判定し、
前記システムに影響を及ぼさないコマンドである場合に、前記第1のコマンドが実行される前における前記システムの状態を示す第1の情報を取得し、
前記第1のコマンドが前記システムにおいて実行された場合、当該第1のコマンドの実行後における前記システムの状態を示す第2の情報を取得し、
前記システムの状態が変化した場合に、前記第1のコマンドが、前記システムに影響を及ぼすコマンドであると判定する
処理をさらに実行させるための付記1記載のプログラム。
(付記5)
前記第1のコマンドと一致するコマンドが抽出されているか判定する処理において、
前記第1のコマンドのコマンド本体と一致するコマンド本体を有し且つ前記第1のコマンドのパラメタとの類似度が所定値以上であるパラメタを有するコマンドが抽出されているか判定する
付記1記載のプログラム。
(付記6)
コマンドが実行されたシステムにおいて異常が発生したことを検知した場合に、前記システムにおいて実行され且つ前記システムの状態に影響を及ぼすコマンドの情報のうち、前記異常の発生前所定時間内に実行されたコマンドを抽出し、
第1のコマンドが入力された場合、前記第1のコマンドと一致するコマンドが抽出されているか判定し、
前記第1のコマンドと一致するコマンドが抽出されている場合に、異常が発生する可能性があることを示す表示データを出力する
処理をコンピュータが実行する情報処理方法。
(付記7)
コマンドが実行されたシステムにおいて異常が発生したことを検知した場合に、前記システムにおいて実行され且つ前記システムの状態に影響を及ぼすコマンドの情報のうち、前記異常の発生前所定時間内に実行されたコマンドを抽出する抽出部と、
第1のコマンドが入力された場合、前記第1のコマンドと一致するコマンドが抽出されているか判定する判定部と、
前記第1のコマンドと一致するコマンドが抽出されている場合に、異常が発生する可能性があることを示す表示データを出力する出力部と、
を有する情報処理装置。
1 運用管理サーバ 101 実行履歴格納部
103 パターン格納部 105 参照系コマンド格納部
107 受信部 109 解析部
111 登録部
3 業務サーバ 31 検出
実行
5 クライアント端末
7 ネットワーク

Claims (6)

  1. コンピュータに、
    コマンドが実行されたシステムにおいて異常が発生したことを検知した場合に、前記システムにおいて実行され且つ前記システムの状態に影響を及ぼすコマンドのうち、前記異常の発生前所定時間内に実行されたコマンドを抽出し、
    第1のコマンドが入力された場合、前記第1のコマンドのコマンド本体と一致するコマンド本体を有し且つ前記第1のコマンドのパラメタとの類似度が所定値以上であるパラメタを有する第2のコマンドが抽出されか判定し、
    前記第2のコマンドが抽出され場合に、異常が発生する可能性があることを示す表示データを出力する
    処理を実行させることを特徴とするプログラム。
  2. 前記表示データを出力する処理において、
    前記第2のコマンドが実行された作業のうち、異常が発生した作業の識別情報を抽出し、
    前記第1のコマンド及び当該第1のコマンドの実行前所定時間内に実行されたコマンドを含む第1のコマンド群が、抽出された前記別情報によって特定される第2のコマンド群と一致するか判定し、
    前記第1のコマンド群と前記第2のコマンド群とが一致する場合に、異常が発生する可能性があることを示す表示データを出力する
    ことを特徴とする請求項1記載のプログラム。
  3. 前記表示データを出力する処理において、
    前記第2のコマンドが実行された作業のうち、異常が発生していない作業の識別情報を抽出し、
    前記第1のコマンド及び当該第1のコマンドの実行前所定時間内に実行されたコマンドを含む第1のコマンド群が、抽出された前記別情報によって特定される第3のコマンド群と一致するか判定し、
    前記第1のコマンド群と前記第3のコマンド群とが一致しない場合に、異常が発生する可能性があることを示す表示データを出力する
    ことを特徴とする請求項1記載のプログラム。
  4. 前記第2のコマンドが抽出されなかった場合に、前記第1のコマンドが、前記システムに影響を及ぼさないコマンドであるか判定し、
    前記第1のコマンドが前記システムに影響を及ぼさないコマンドである場合に、前記第1のコマンドが実行される前における前記システムの状態を示す第1の情報を取得し、
    前記第1のコマンドが前記システムにおいて実行された場合、当該第1のコマンドの実行後における前記システムの状態を示す第2の情報を取得し、
    前記システムの状態が変化したと前記第1の情報及び前記第2の情報に基づき判定した場合に、前記第1のコマンドが、前記システムに影響を及ぼすコマンドであることを示すデータを生成する
    処理をさらに実行させるための請求項1乃至3のいずれか1つ記載のプログラム。
  5. コンピュータが、
    コマンドが実行されたシステムにおいて異常が発生したことを検知した場合に、前記システムにおいて実行され且つ前記システムの状態に影響を及ぼすコマンドうち、前記異常の発生前所定時間内に実行されたコマンドを抽出し、
    第1のコマンドが入力された場合、前記第1のコマンドのコマンド本体と一致するコマンド本体を有し且つ前記第1のコマンドのパラメタとの類似度が所定値以上であるパラメタを有する第2のコマンドが抽出されか判定し、
    前記第2のコマンドが抽出され場合に、異常が発生する可能性があることを示す表示データを出力する
    処理を行する情報処理方法。
  6. コマンドが実行されたシステムにおいて異常が発生したことを検知した場合に、前記システムにおいて実行され且つ前記システムの状態に影響を及ぼすコマンドうち、前記異常の発生前所定時間内に実行されたコマンドを抽出する抽出部と、
    第1のコマンドが入力された場合、前記第1のコマンドのコマンド本体と一致するコマンド本体を有し且つ前記第1のコマンドのパラメタとの類似度が所定値以上であるパラメタを有する第2のコマンドが抽出されか判定する判定部と、
    前記第2のコマンドが抽出され場合に、異常が発生する可能性があることを示す表示データを出力する出力部と、
    を有する情報処理装置。
JP2012148611A 2012-07-02 2012-07-02 システムを管理するためのプログラム、方法及び情報処理装置 Expired - Fee Related JP5978804B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012148611A JP5978804B2 (ja) 2012-07-02 2012-07-02 システムを管理するためのプログラム、方法及び情報処理装置
US13/898,613 US9158615B2 (en) 2012-07-02 2013-05-21 Method and apparatus for managing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012148611A JP5978804B2 (ja) 2012-07-02 2012-07-02 システムを管理するためのプログラム、方法及び情報処理装置

Publications (2)

Publication Number Publication Date
JP2014010761A JP2014010761A (ja) 2014-01-20
JP5978804B2 true JP5978804B2 (ja) 2016-08-24

Family

ID=49779552

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012148611A Expired - Fee Related JP5978804B2 (ja) 2012-07-02 2012-07-02 システムを管理するためのプログラム、方法及び情報処理装置

Country Status (2)

Country Link
US (1) US9158615B2 (ja)
JP (1) JP5978804B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10338986B2 (en) * 2016-10-28 2019-07-02 Microsoft Technology Licensing, Llc Systems and methods for correlating errors to processing steps and data records to facilitate understanding of errors

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09282351A (ja) * 1996-04-17 1997-10-31 Fuji Xerox Co Ltd Cadシステム
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
US6604208B1 (en) * 2000-04-07 2003-08-05 Telefonaktiebolaget Lm Ericsson (Publ) Incremental alarm correlation method and apparatus
US7043661B2 (en) * 2000-10-19 2006-05-09 Tti-Team Telecom International Ltd. Topology-based reasoning apparatus for root-cause analysis of network faults
US7218611B2 (en) * 2001-07-05 2007-05-15 Matsushita Electric Industrial Co., Ltd. Broadcast system
CN1650274A (zh) 2002-12-26 2005-08-03 富士通株式会社 操作管理方法和操作管理服务器
JP2010218267A (ja) * 2009-03-17 2010-09-30 Nec Corp 障害発生確率算出システム,障害発生確率算出方法及びプログラム

Also Published As

Publication number Publication date
JP2014010761A (ja) 2014-01-20
US20140006872A1 (en) 2014-01-02
US9158615B2 (en) 2015-10-13

Similar Documents

Publication Publication Date Title
US10462027B2 (en) Cloud network stability
CN107451040B (zh) 故障原因的定位方法、装置及计算机可读存储介质
US9342426B2 (en) Distributed system, server computer, distributed management server, and failure prevention method
US10068015B2 (en) Monitoring a monitoring-target process
US20150293800A1 (en) Robust hardware fault management system, method and framework for enterprise devices
JP2017517060A (ja) 障害処理方法、関連装置、およびコンピュータ
US20160378602A1 (en) Pre-boot self-healing and adaptive fault isolation
JP5422342B2 (ja) インシデント管理方法および運用管理サーバ
CN112527484B (zh) 工作流断点续跑方法、装置、计算机设备及可读存储介质
US8074123B2 (en) Multi-CPU failure detection/recovery system and method for the same
US20170212815A1 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
US20150012622A1 (en) Information system management apparatus, information system management method, and program
US20140372803A1 (en) Apparatus and method for analyzing abnormal states of component-based system
JP5803246B2 (ja) ネットワーク運用管理システム、ネットワーク監視サーバ、ネットワーク監視方法およびプログラム
US9430306B2 (en) Anticipatory protection of critical jobs in a computing system
JP5978804B2 (ja) システムを管理するためのプログラム、方法及び情報処理装置
US20080216057A1 (en) Recording medium storing monitoring program, monitoring method, and monitoring system
US9881046B2 (en) Recording medium having stored therein process managing program, process managing apparatus and process managing method
JP6574146B2 (ja) サービス監視装置及びサービス監視方法
JP5435225B2 (ja) 運用管理装置、運用管理方法、及びプログラム
US20220398143A1 (en) Network monitoring apparatus, method, and program
US9372746B2 (en) Methods for identifying silent failures in an application and devices thereof
JP2018028798A (ja) 情報処理装置及びプログラム
JP6504611B2 (ja) 監視装置、情報監視システム、監視装置の制御方法、及びプログラム
JP2011028490A (ja) システム監視装置、システム監視方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150406

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160711

R150 Certificate of patent or registration of utility model

Ref document number: 5978804

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees