JP2017220139A - ログ解析装置、ログ解析方法及びログ解析プログラム - Google Patents

ログ解析装置、ログ解析方法及びログ解析プログラム Download PDF

Info

Publication number
JP2017220139A
JP2017220139A JP2016115892A JP2016115892A JP2017220139A JP 2017220139 A JP2017220139 A JP 2017220139A JP 2016115892 A JP2016115892 A JP 2016115892A JP 2016115892 A JP2016115892 A JP 2016115892A JP 2017220139 A JP2017220139 A JP 2017220139A
Authority
JP
Japan
Prior art keywords
state
log
precursor
failure
log analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016115892A
Other languages
English (en)
Inventor
みさき 渋谷
Misaki Shibuya
みさき 渋谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2016115892A priority Critical patent/JP2017220139A/ja
Publication of JP2017220139A publication Critical patent/JP2017220139A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Digital Computer Display Output (AREA)

Abstract

【課題】システムが動作を継続不可能な障害状態が発生することを未然に防止し、システムを継続動作させることを目的とする。【解決手段】ログ解析装置10は、システム100を構成する複数の監視対象装置である複数のDBサーバ50から取得された複数のログデータの組合せから、システム100が動作を継続不可能な障害状態が発生する前兆である前兆状態を特定する。そして、ログ解析装置10は、前兆状態が特定されると、前兆状態を障害状態と区別してユーザ端末60に表示する。【選択図】図1

Description

この発明は、ログデータを解析してシステムの状態を表示する技術に関する。
システムを構成する装置から出力されたログデータを解析して、システムに発生している障害の内容及び障害の原因を特定することが行われている(特許文献1参照)。障害の内容及び障害の原因を特定することにより、システムを早期に障害から復旧させることが可能になる。
特開2005−284357号公報
しかし、障害が発生してしまうと、システムの動作が継続できなくなってしまう。その結果、利用者がシステムを利用できない状態となってしまう。
この発明は、システムを継続動作させることを目的とする。
この発明に係るログ解析装置は、
複数のログデータの組合せから、システムが動作を継続不可能な障害状態が発生する前兆である前兆状態を特定する状態特定部と、
前記状態特定部によって特定された前記前兆状態を、前記障害状態と区別して表示する表示部と
を備える。
この発明は、複数のログデータの組合せから前兆状態を特定し、障害状態と区別して前兆状態表示する。これにより、システムの状態に応じた適切な対処をすることが可能になる。特に、障害状態ではなく前兆状態であることに気づかせることが可能であるため、障害が発生する前に対処することができ、システムを継続動作させることができる。
実施の形態1に係るシステム100の構成図。 実施の形態1に係るログ解析装置10の構成図。 実施の形態1に係る登録処理の処理フロー図。 実施の形態1に係る監視対象ログ登録ウインドウを示す図。 実施の形態1に係る処置管理ウインドウを示す図。 実施の形態1に係る処置管理ウインドウで登録される情報を示す図。 実施の形態1に係る監視処理の処理フロー図。 実施の形態1に係るログ解析結果ウインドウを示す図。 実施の形態1に係るログ解析結果ウインドウの説明図。 実施の形態1に係る実行確認用ポップアップウインドウを示す図。 変形例3に係るログ解析装置10の構成図。 実施の形態2に係るAPPサーバ40の構成図。 実施の形態2に係るシステム100の処理フロー図。
実施の形態1.
***構成の説明***
図1を参照して、実施の形態1に係るシステム100の構成を説明する。
システム100は、ログ解析装置10と、監視装置20と、ウェブサーバ30と、APP(APPlication)サーバ40と、複数のDB(DataBase)サーバ50と、ユーザ端末60とを備える。
ウェブサーバ30とAPPサーバ40とは、LAN(Local Area Network)といったネットワークを介して接続されており、APPサーバ40と各DBサーバ50とは、LANといったネットワークを介して接続されている。また、ユーザ端末60とウェブサーバ30とは、インターネットといったネットワークを介して接続されている。また、ログ解析装置10及び監視装置20と、各DBサーバ50とは、LANといったネットワークを介して接続されている。また、ログ解析装置10及び監視装置20と、ユーザ端末60とは、インターネットといったネットワークを介して接続されている。
ログ解析装置10は、監視対象装置である各DBサーバ50からログデータを取得し、解析するコンピュータである。監視装置20は、監視対象装置である各DBサーバ50のCPU使用率、メモリ使用率といったハードウェアの状態を監視するコンピュータである。
ウェブサーバ30は、ユーザ端末60からリクエストを受信して、受信したリクエストをAPPサーバ40に送信するコンピュータである。APPサーバ40は、リクエストに応じて各DBサーバ50に記憶されたデータを更新するコンピュータである。
各DBサーバ50は、DBMS(DataBase Management System)により、データを管理するコンピュータである。実施の形態1では、複数のDBサーバ50は、冗長構成となっており、各DBサーバ50は、同じ機能である。なお、例えば、一部のDBサーバ50が他のDBサーバ50よりも高性能であるといった違いがあってもよい。
ユーザ端末60は、ユーザによって使用されるPC(Personal Computer)又はスマートフォンといったコンピュータである。
図2を参照して、実施の形態1に係るログ解析装置10の構成を説明する。
ログ解析装置10は、プロセッサ11と、メモリ12と、通信インタフェース13とのハードウェアを備える。プロセッサ11は、システムバスを介して他のハードウェアと接続され、これら他のハードウェアを制御する。
プロセッサ11は、プロセッシングを行うIC(Integrated Circuit)である。プロセッサ11は、具体例としては、CPU、DSP(Digital Signal Processor)、GPU(Graphics Processing
Unit)である。
メモリ12は、ログ解析装置10の電源がオフの間も実行プログラム及びデータを保持し続けることが可能な不揮発性メモリと、ログ解析装置10の動作時にデータを高速に移動可能な揮発性メモリとで構成される。
不揮発性メモリは、具体例としては、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリである。不揮発性メモリは、SD(Secure Digital)メモリカード、CF(CompactFlash)、NANDフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVD(Digital Versatile Disk)といった可搬記憶媒体であってもよい。
揮発性メモリは、具体例としては、DDR2−SDRAM(Double−Data−Rate2 Synchronous Dynamic Random Access Memory)、DDR3−SDRAM(Double−Data−Rate3 Synchronous Dynamic Random Access Memory)である。
通信インタフェース13は、各DBサーバ50といった他の装置と通信するための装置である。通信インタフェース13は、具体例としては、Ethernet(登録商標)、RS232C、USB、IEEE1394の端子である。
ログ解析装置10は、機能構成要素として、登録部14と、状態特定部15と、表示部16と、実行部17とを備える。登録部14と、状態特定部15と、表示部16と、実行部17との各部の機能は、ソフトウェアにより実現される。
メモリ12には、ログ解析装置10の各部の機能を実現するプログラムが記憶されている。このプログラムは、プロセッサ11により読み込まれ実行される。
図2では、プロセッサ11は、1つだけ示されている。しかし、ログ解析装置10は、プロセッサ11を代替する複数のプロセッサを備えていてもよい。これら複数のプロセッサは、ログ解析装置10の各部の機能を実現するプログラムの実行を分担する。それぞれのプロセッサは、プロセッサ11と同じように、プロセッシングを行うICである。
***動作の説明***
図3から図10を参照して、実施の形態1に係るシステム100の動作を説明する。
実施の形態1に係るシステム100の動作は、実施の形態1に係るログ解析方法に相当する。また、実施の形態1に係るシステム100の動作は、実施の形態1に係るログ解析プログラムの処理に相当する。
ここでは、実施の形態1に係るシステム100の動作として、登録処理と、監視処理とについて説明する。
**登録処理**
図3を参照して、実施の形態1に係る登録処理を説明する。
登録処理は、取得するログデータと、実行するバッチ処理とを登録する処理である。
(ステップS11:対象ログ登録処理)
ログ解析装置10の登録部14は、監視対象装置である各DBサーバ50から取得するログデータの指定をユーザ端末60から受け付ける。そして、登録部14は、指定されたログデータを、取得対象のログデータとしてメモリ12に書き込み登録する。
具体例としては、登録部14は、図4に示す監視対象ログ登録ウインドウをユーザ端末60に表示させる。そして、登録部14は、ユーザにより監視対象ログ登録ウインドウが操作され指定されたログデータを受け付ける。
図4では、「監視対象装置」の欄で、ログデータの取得元となるDBサーバ50が選択される。DBサーバ50が選択されると、「監視対象ログデータ一覧」の欄に、選択されたDBサーバ50から取得されることになっているログデータの一覧が表示される。つまり、過去に取得対象のログデータとしてメモリ12に書き込まれたログデータの一覧が表示される。新たに取得するログデータを追加する場合には、「新規監視対象ログデータ登録」の欄に、取得するログデータを特定するパスが入力される。「新規監視対象ログデータ登録」の欄にパスが入力された状態で登録ボタンが押下されると、パスによって特定されるログデータが取得対象のログデータとして指定される。
(ステップS12:処理登録処理)
ログ解析装置10の登録部14は、前兆状態を特定する条件である前兆条件と、前兆状態と特定された場合に実行するバッチ処理である解消処理と、障害状態を特定する条件である障害条件と、障害状態と特定された場合に実行するバッチ処理である復旧処理との指定をユーザ端末60から受け付ける。そして、登録部14は、指定された前兆条件及び解消処理と、障害条件及び復旧処理とをメモリ12に書き込み登録する。
ここで、前兆状態とは、障害状態が発生する前兆の状態であり、システム100は動作を継続可能な状態である。障害状態とは、システム100が動作を継続不可能な状態である。
前兆条件及び障害条件は、複数のログデータの組合せによって定められる。複数のログデータは、システム100を構成する複数のDBサーバ50から取得されたログデータである。つまり、前兆条件及び障害条件は、各DBサーバ50から取得されたログデータの組合せによって定められる。
実施の形態1では、前兆条件及び障害条件は、ログデータと、メッセージと、基準台数とによって定められる。前兆条件及び障害条件は、指定されたメッセージを含む指定されたログデータが、指定された基準台数以上のDBサーバ50から出力された場合に満たすと判定される。前兆条件を満たすと判定された場合に、前兆状態と特定され、障害条件を満たすと判定された場合に、障害状態と特定される。
なお、ログデータの組合せには、同一の内容のログデータが、指定された基準台数以上のDBサーバ50から出力された場合も、複数の種類のログデータが、複数のDBサーバ50から出力された場合も含まれる。
具体例としては、登録部14は、図5に示す処置管理ウインドウをユーザ端末60に表示させる。そして、登録部14は、ユーザにより処置管理ウインドウが操作され指定された前兆条件及び解消処理と、障害条件及び復旧処理とを受け付ける。
図5では、「監視対象装置」の欄で、バッチ処理の実行対象となるDBサーバ50が選択される。「監視対象ログデータ」の欄で、条件として指定するログデータが選択される。ここでは、DBサーバ50が指定されると、指定されたDBサーバ50から取得されるログデータの一覧が表示され、表示されたログデータから条件に指定するログデータを選択するようになっている。「解消処理」の欄で、メッセージと基準台数とが入力される。同様に、「復旧処理」の欄で、メッセージと基準台数とが入力される。なお、ログデータが選択されると、「内容表示」の欄に、選択されたログデータの詳細な内容が時系列に表示されるため、表示された詳細な内容を参照して、メッセージを入力することが可能である。また、ログデータの詳細な内容はキーワード検索できるようになっている。キーワードが指定されない場合、全ての内容が表示される。
また、図5では、「自動実行」の欄で、前兆状態になった場合に、自動で解消処理を実行するか、又は、管理者に解消処理を実行するかを判断させるかが指定される。同様に、障害状態になった場合に、自動で復旧処理を実行するか、又は、管理者に復旧処理を実行するかを判断させるかが指定される。
その結果、図6に示すように、前兆状態について、対象とするログデータとメッセージと基準台数とを示す前兆条件が1つ以上登録され、各前兆条件について、その前兆条件を満たす場合に実行される解消処理と、自動実行の有無とが登録される。また、同様に、障害状態について、対象とするログデータとメッセージと基準台数とを示す障害条件が1つ以上登録され、各障害条件について、その障害条件を満たす場合に実行される復旧処理と、自動実行するか否かとが登録される。
**監視処理**
図7を参照して、実施の形態1に係る監視処理を説明する。
監視処理は、登録処理で登録された情報に基づき、ログ解析装置10が各DBサーバ50を監視する処理である。
なお、システム100では、ユーザ端末60からウェブサーバ30を介してAPPサーバ40にリクエストが送信され、APPサーバ40により各DBサーバ50のデータが更新されるというデータ更新処理が繰り返し実行されている。監視処理は、データ更新処理中に実行される。
(ステップS21:ログ解析処理)
ログ解析装置10の状態特定部15は、監視対象装置である各DBサーバ50から、登録処理で登録された取得対象のログデータを取得する。そして、状態特定部15は、取得されたログデータを解析して、前兆状態又は障害状態を特定する。
具体的には、状態特定部15は、各前兆条件を対象条件として以下の処理を実行する。まず、状態特定部15は、取得されたログデータから、対象条件として登録されたメッセージを検索する。状態特定部15は、メッセージが検索されたログデータの取得元のDBサーバ50の台数をカウントし、カウントされた台数が、対象条件として登録された基準台数より多い場合には対象条件を満たすので、前兆状態と特定する。
同様に、状態特定部15は、各障害条件を対象条件として以下の処理を実行する。まず、状態特定部15は、取得されたログデータから、対象条件として登録されたメッセージを検索する。状態特定部15は、メッセージが検索されたログデータの取得元のDBサーバ50の台数をカウントする。状態特定部15は、カウントされた台数が、対象条件として登録された基準台数より多い場合には対象条件を満たすので、障害状態と特定する。
(ステップS22:結果表示処理)
ログ解析装置10の表示部16は、ステップS21で特定された結果を示すログ解析結果ウインドウをユーザ端末60に表示する。
具体例としては、表示部16は、図8に示すように、ステップS21で特定された最新の結果と、過去の結果の履歴とを示すログ解析結果ウインドウを表示する。図9に示すように、各結果について、状態を示すマークとともに、状態についての説明が表示される。図9では、状態A〜状態Dに区別して表示されることが示されている。状態Aは、前兆条件として登録されたメッセージと、障害条件として登録されたメッセージとのどちらも検出されていない未検出状態である。状態Bは、前兆条件として登録されたメッセージが検出されたものの、前兆条件として登録された基準台数未満のDBサーバ50から取得されたログデータのみから検出された確認状態である。状態Cは、前兆状態である。状態Dは、障害状態である。
この際、監視装置20で検出された情報もユーザ端末60に表示してもよい。
前兆状態と障害状態とのどちらでもない場合、処理がステップS21に戻される。前兆状態の場合には処理がステップS23に進められ、障害状態の場合には処理がステップS24に進められる。
(ステップS23:前兆処理)
ステップS231では、ログ解析装置10の実行部17は、監視装置20に対して監視強化を指示する。すると、監視装置20は、各DBサーバ50からの情報の取得間隔を短くする、情報の取得項目を増やすといった監視強化を行う。そして、監視装置20で検出された情報がユーザ端末60に表示される。
続いて、ステップS21で満たされた前兆条件について、解消処理を自動実行しないと登録されている場合には処理がステップS232に進められ、解消処理を自動実行すると登録されている場合には処理がステップS233に進められる。
ステップS232では、ログ解析装置10の表示部16は、解消処理についての情報をユーザ端末60に表示し、解消処理を実行するか否かを管理者に判断させる。例えば、図10に示すように、解消処理の名称を示すポップアップウインドウを表示し、解消処理を実行するか否かを管理者に入力させる。
解消処理を実行すると判断された場合には処理がステップS233に進められ、解消処理を実行しないと判断された場合には処理がステップS21に戻される。処理がステップS21に戻されると、監視強化が終了される。
ステップS233では、ログ解析装置10の実行部17は、ステップS21で満たされた前兆条件に対応する解消処理を実行する。そして、表示部16は、解消処理の実行結果をユーザ端末60に表示する。
(ステップS24:障害処理)
ステップS21で満たされた障害条件について、復旧処理を自動実行しないと登録されている場合には処理がステップS241に進められ、復旧処理を自動実行すると登録されている場合には処理がステップS242に進められる。
ステップS241では、ログ解析装置10の表示部16は、ステップS232の処理と同様に、復旧処理についての情報をユーザ端末60に表示し、復旧処理を実行するか否かを管理者に判断させる。
復旧処理を実行すると判断された場合には処理がステップS242に進められ、復旧処理を実行しないと判断された場合には処理がステップS21に戻される。
ステップS242では、ログ解析装置10の実行部17は、ステップS21で満たされた障害条件に対応する復旧処理を実行する。そして、表示部16は、復旧処理の実行結果をユーザ端末60に表示する。
***実施の形態1の効果***
以上のように、実施の形態1に係るシステム100では、複数のログデータの組合せから前兆状態を特定し、障害状態と区別して前兆状態表示する。これにより、システム100の状態に応じた適切な対処をすることが可能になる。
特に、障害状態ではなく前兆状態であることに気づかせることが可能であるため、障害が発生する前に対処することができ、システム100を継続動作させることができる。
また、実施の形態1に係るシステム100では、1台のDBサーバ50から取得されたログデータに基づき前兆状態を特定するのではなく、複数のDBサーバ50から取得されたログデータに基づき前兆状態を特定する。これにより、前兆状態を適切に特定することができる。
特に、実施の形態1では、複数のDBサーバ50は、冗長構成となっている。そのため、1台のDBサーバ50のログデータだけでは、システム100として障害状態に近い状態であると判定することは困難である。そのため、複数のDBサーバ50から取得されたログデータに基づき前兆状態を特定することが有効である。
***他の構成***
<変形例1>
実施の形態1では、DBサーバ50のみを監視対象装置とした。しかし、変形例1として、ウェブサーバ30、APPサーバ40、ウェブサーバ30とAPPサーバ40とDBサーバ50とを接続するためのネットワーク装置といった他の装置も監視対象装置としてもよい。
<変形例2>
実施の形態1では、障害条件についても、前兆条件と同様に、ログデータに基づき指定されるものとした。しかし、変形例2として、障害条件は、ログデータに限らず、監視装置20によって取得される情報等を用いて指定されてもよい。また、障害条件は、ログデータと、監視装置20によって取得される情報等との両方を用いて指定されてもよい。
<変形例3>
実施の形態1では、ログ解析装置10の各部の機能がソフトウェアで実現された。変形例3として、ログ解析装置10の各部の機能はハードウェアで実現されてもよい。この変形例3について、実施の形態1と異なる点を説明する。
図11を参照して、変形例3に係るログ解析装置10の構成を説明する。
各部の機能がハードウェアで実現される場合、ログ解析装置10は、プロセッサ11とメモリ12とに代えて、処理回路18を備える。処理回路18は、ログ解析装置10の各部の機能と、メモリ12の機能とを実現する専用の電子回路である。
処理回路18は、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックIC、GA(Gate Array)、ASIC(Application Specific Integrated Circuit)、FPGA(Field−Programmable Gate Array)が想定される。
各部の機能を1つの処理回路18で実現してもよいし、各部の機能を複数の処理回路18に分散させて実現してもよい。
<変形例4>
変形例4として、一部の機能がハードウェアで実現され、他の機能がソフトウェアで実現されてもよい。つまり、ログ解析装置10の各部のうち、一部の機能がハードウェアで実現され、他の機能がソフトウェアで実現されてもよい。
プロセッサ11とメモリ12と処理回路18とを、総称して「プロセッシングサーキットリー」という。つまり、各部の機能は、プロセッシングサーキットリーにより実現される。
実施の形態2.
実施の形態1では、前兆状態を特定することにより、システム100が継続動作可能な状態を維持できるようにした。しかし、システム100が動作できない障害状態になる場合も起こり得る。
実施の形態2では、DBサーバ50が障害状態になり、DBサーバ50のデータ更新ができない場合でもシステム100のユーザへのサービス提供を継続する方法を説明する。実施の形態2では、実施の形態1と異なる部分を説明する。
実施の形態2では、システム100として、ユーザ端末60からリクエストが送信されてから、ある程度の時間が経ってからリスエストに基づきDBサーバ50のデータが更新されてもよいシステムを想定する。
具体例としては、システム100は、ユーザ端末60から家電製品等の設定変更のリクエストを受け付け、家電製品等の設定変更を行うシステムである。例えば、システム100は、ユーザ端末60から冷房の起動時刻のリクエストを受け付け、起動時刻になったらエアコンを起動させるシステムである。
***構成の説明***
図12を参照して、実施の形態2に係るAPPサーバ40の構成を説明する。
APPサーバ40は、プロセッサ41と、メモリ42と、通信インタフェース43とのハードウェアを備える。プロセッサ41は、システムバスを介して他のハードウェアと接続され、これら他のハードウェアを制御する。
プロセッサ41とメモリ42と通信インタフェース43とは、ログ解析装置10のプロセッサ11とメモリ12と通信インタフェース13と同様である。
APPサーバ40は、機能構成要素として、リクエスト受付部44と、DB更新部45とを備える。リクエスト受付部44と、DB更新部45との各部の機能は、ソフトウェアにより実現される。
メモリ42には、APPサーバ40の各部の機能を実現するプログラムが記憶されている。このプログラムは、プロセッサ41により読み込まれ実行される。また、メモリ42は、一時保管部46の機能を実現する。
***動作の説明***
図13を参照して、実施の形態2に係るシステム100の動作を説明する。
実施の形態2に係るシステム100の動作は、実施の形態2に係るサービス提供方法に相当する。また、実施の形態2に係るシステム100の動作は、実施の形態2に係るサービス提供プログラムの処理に相当する。
(ステップS31:リクエスト受付処理)
APPサーバ40のリクエスト受付部44は、通信インタフェース43を介して、ユーザ端末60からリクエストを受け付ける。そして、リクエスト受付部44は、受け付けたリクエストを一時保管部46に書き込む。
(ステップS32:更新判定処理)
DB更新部45は、DBサーバ50が障害状態であるか否かを判定する。具体的には、DB更新部45は、ログ解析装置10にDBサーバ50が障害状態であるか問い合わせることにより、DBサーバ50が障害状態であるか否かを判定する。具体的には、DB更新部45は、ログ解析装置10にDBサーバ50の障害状態を問合せるメッセージを送信する。ログ解析装置10は、APPサーバ40のログ解析装置10からのメッセージを受信すると、指定されたDBサーバ50が障害状態であるか否かを示すメッセージをAPPサーバ40に送信する。APPサーバ40のDB更新部45は、ログ解析装置10からのメッセージを受信することで、DBサーバ50の障害状態を把握することができる。
DBサーバ50が障害状態である場合には処理がステップS33に進められ、DBサーバ50が障害状態でない場合には処理がステップS34に進められる。
(ステップS33:復旧待機処理)
DB更新部45は、DBサーバ50が復旧するまで待機する。具体的には、DB更新部45は、ログ解析装置10に定期的にDBサーバ50の状態を問い合わせて、DBサーバ50が復旧したか否かを判定する。あるいは、DBサーバ50が復旧した場合に、ログ解析装置10又はDBサーバ50からAPPサーバ40に通知が送信され、通知があるまでDB更新部45は待機するとしてもよい。
DBサーバ50が復旧すると、処理がステップS34に進められる。
(ステップS34:DB更新処理)
DB更新部45は、一時保管部46に記憶されたリクエストを読み出す。そして、DB更新部45は、読み出されたリクエストに応じて各DBサーバ50に記憶されたデータを更新する。
***実施の形態2の効果***
以上のように、実施の形態2に係るシステム100では、DBサーバ50が障害状態の間、APPサーバ40がユーザ端末60から送信されたリクエストを保管しておく。これにより、ユーザは、DBサーバ50が障害状態にあるか否かに関わらず、リクエストを送信しておくことができる。
上述したように、実施の形態2では、システム100として、ユーザ端末60からリクエストが送信されてから、ある程度の時間が経ってからリスエストに基づきDBサーバ50のデータが更新されてもよいシステムを想定している。そのため、リクエストが送信されてから、DBサーバ50が復旧するまでにある程度時間がかかっても問題ない。
***他の構成***
<変形例5>
実施の形態2では、DBサーバ50が動作できない障害状態になった場合には、APPサーバ40がユーザ端末60から送信されたリクエストを保管していた。しかし、変形例5として、DBサーバ50が障害状態になった場合に限らず、前兆状態を解消するための処理を実行している最中にDBサーバ50が動作できない場合にも、APPサーバ40がユーザ端末60から送信されたリクエストを保管しても良い。
この場合、ログ解析装置10は、APPサーバ40のDB更新部45からの問い合わせメッセージを受信した場合に、前兆状態を解消するための処理中である旨を示すメッセージをAPPサーバ40に送信する。これにより、APPサーバ40は、DBサーバ50が前兆状態を解消する処理を行っていることを把握することができる。
<変形例6>
変形例3に係るログ解析装置10のように、APPサーバ40の各部の機能はハードウェアで実現されてもよい。また、変形例4に係るログ解析装置10のように、APPサーバ40の各部のうち、一部の機能がハードウェアで実現され、他の機能がソフトウェアで実現されてもよい。
100 システム、10 ログ解析装置、11 プロセッサ、12 メモリ、13 通信インタフェース、14 登録部、15 状態特定部、16 表示部、17 実行部、20 監視装置、30 ウェブサーバ、40 APPサーバ、41 プロセッサ、42 メモリ、43 通信インタフェース、44 リクエスト受付部、45 DB更新部、46 一時保管部、50 DBサーバ、60 ユーザ端末。

Claims (10)

  1. 複数のログデータの組合せから、システムが動作を継続不可能な障害状態が発生する前兆である前兆状態を特定する状態特定部と、
    前記状態特定部によって特定された前記前兆状態を、前記障害状態と区別して表示する表示部と
    を備えるログ解析装置。
  2. 前記複数のログデータは、前記システムを構成する複数の監視対象装置から取得された請求項1に記載のログ解析装置。
  3. 前記複数の監視対象装置は、冗長構成とするために設けられた同一機能を有する装置である
    請求項2に記載のログ解析装置。
  4. 前記状態特定部は、基準台数以上の監視対象装置から取得されたログデータが指定内容を示す場合に、前記前兆状態であると特定する
    請求項3に記載のログ解析装置。
  5. 前記表示部は、さらに、前記基準台数未満の監視対象装置から取得されたログデータが前記指定内容を示す確認状態を、前記前兆状態及び前記障害状態と区別して表示する
    請求項4に記載のログ解析装置。
  6. 前記ログ解析装置は、さらに、
    前記前兆状態と特定された場合に、前記前兆状態を解消するための解消処理を実行する実行部
    を備える請求項1から5のいずれか1項に記載のログ解析装置。
  7. 前記前兆状態には、複数の状態があり、
    前記実行部は、前記前兆状態がどの状態かに応じて、管理者により実行判断がされた上で前記解消処理を実行するか、実行判断がされることなく前記解消処理を実行するかを切り替える
    請求項6に記載のログ解析装置。
  8. 前記状態特定部は、監視対象装置に記憶されたデータを更新する装置に対して、前記監視対象装置が前記障害状態である旨を通知する
    請求項1から7のいずれか1項に記載のログ解析装置。
  9. コンピュータが、複数のログデータの組合せから、システムが動作を継続不可能な障害状態が発生する前兆である前兆状態を特定し、
    コンピュータが、特定された前記前兆状態を、前記障害状態と区別して表示するログ解析方法。
  10. 複数のログデータの組合せから、システムが動作を継続不可能な障害状態が発生する前兆である前兆状態を特定する状態特定処理と、
    前記状態特定処理によって特定された前記前兆状態を、前記障害状態と区別して表示する表示処理と
    をコンピュータに実行させるログ解析プログラム。
JP2016115892A 2016-06-10 2016-06-10 ログ解析装置、ログ解析方法及びログ解析プログラム Pending JP2017220139A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016115892A JP2017220139A (ja) 2016-06-10 2016-06-10 ログ解析装置、ログ解析方法及びログ解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016115892A JP2017220139A (ja) 2016-06-10 2016-06-10 ログ解析装置、ログ解析方法及びログ解析プログラム

Publications (1)

Publication Number Publication Date
JP2017220139A true JP2017220139A (ja) 2017-12-14

Family

ID=60657716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016115892A Pending JP2017220139A (ja) 2016-06-10 2016-06-10 ログ解析装置、ログ解析方法及びログ解析プログラム

Country Status (1)

Country Link
JP (1) JP2017220139A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020026948A1 (ja) * 2018-07-31 2020-02-06 日本電信電話株式会社 サービス回復システムおよびサービス回復方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076198A (ja) * 1998-08-28 2000-03-14 Nec Corp オンライン処理障害情報通知方法及びそのシステム
JP2004094701A (ja) * 2002-09-02 2004-03-25 Hitachi Information Systems Ltd 監視情報表示システムと監視情報表示方法およびプログラムならびに監視装置
JP2004178296A (ja) * 2002-11-27 2004-06-24 Nec Corp ナレッジ型運用管理システム,方法およびプログラム
JP2008204134A (ja) * 2007-02-20 2008-09-04 Hitachi Electronics Service Co Ltd 異常兆候検出対処システム
JP2010086099A (ja) * 2008-09-30 2010-04-15 Fujitsu Ltd ログ管理方法、ログ管理装置、ログ管理装置を備えた情報処理装置、及びプログラム
JP2010231293A (ja) * 2009-03-26 2010-10-14 Nomura Research Institute Ltd 監視装置
JP2012038028A (ja) * 2010-08-05 2012-02-23 Nomura Research Institute Ltd インシデント管理システム、障害影響範囲可視化方法
JP2012203684A (ja) * 2011-03-25 2012-10-22 Hitachi Solutions Ltd It障害予兆検知装置及びプログラム
JP2014115768A (ja) * 2012-12-07 2014-06-26 Toshiba Corp ログ判定システム、ログ判定基準構築装置及びログ判定方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076198A (ja) * 1998-08-28 2000-03-14 Nec Corp オンライン処理障害情報通知方法及びそのシステム
JP2004094701A (ja) * 2002-09-02 2004-03-25 Hitachi Information Systems Ltd 監視情報表示システムと監視情報表示方法およびプログラムならびに監視装置
JP2004178296A (ja) * 2002-11-27 2004-06-24 Nec Corp ナレッジ型運用管理システム,方法およびプログラム
JP2008204134A (ja) * 2007-02-20 2008-09-04 Hitachi Electronics Service Co Ltd 異常兆候検出対処システム
JP2010086099A (ja) * 2008-09-30 2010-04-15 Fujitsu Ltd ログ管理方法、ログ管理装置、ログ管理装置を備えた情報処理装置、及びプログラム
JP2010231293A (ja) * 2009-03-26 2010-10-14 Nomura Research Institute Ltd 監視装置
JP2012038028A (ja) * 2010-08-05 2012-02-23 Nomura Research Institute Ltd インシデント管理システム、障害影響範囲可視化方法
JP2012203684A (ja) * 2011-03-25 2012-10-22 Hitachi Solutions Ltd It障害予兆検知装置及びプログラム
JP2014115768A (ja) * 2012-12-07 2014-06-26 Toshiba Corp ログ判定システム、ログ判定基準構築装置及びログ判定方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020026948A1 (ja) * 2018-07-31 2020-02-06 日本電信電話株式会社 サービス回復システムおよびサービス回復方法

Similar Documents

Publication Publication Date Title
US11023355B2 (en) Dynamic tracing using ranking and rating
US10657033B2 (en) How to track operator behavior via metadata
US20080155336A1 (en) Method, system and program product for dynamically identifying components contributing to service degradation
US9311070B2 (en) Dynamically recommending configuration changes to an operating system image
US10055436B2 (en) Alert management
US9355005B2 (en) Detection apparatus and detection method
US20100211950A1 (en) Automated Termination of Selected Software Applications in Response to System Events
US9361184B2 (en) Selecting during a system shutdown procedure, a restart incident checkpoint of an incident analyzer in a distributed processing system
US9727394B2 (en) Establishing causality order of computer trace records
US8904360B2 (en) Automated identification of redundant method calls
US10243803B2 (en) Service interface topology management
JP2017220139A (ja) ログ解析装置、ログ解析方法及びログ解析プログラム
US20160371171A1 (en) Stream-based breakpoint for too many tuple creations
US9674060B2 (en) Dynamic and selective management of integration points using performance metrics
US8914899B2 (en) Directing users to preferred software services
US10496467B1 (en) Monitoring software computations of arbitrary length and duration
CN111046007A (zh) 管理存储系统的方法、装置和计算机程序产品
US10430582B2 (en) Management apparatus and management method
JP6579995B2 (ja) 静観候補特定装置、静観候補特定方法及び静観候補特定プログラム
US20130151691A1 (en) Analyzing and Reporting Business Objectives in Multi-Component Information Technology Solutions
US20240184801A1 (en) Data discrepancy detection in a sensitive data replication pipeline
JP6896035B2 (ja) 監視システム、監視SaaS提供装置、管理装置、及びプログラム
US9524202B2 (en) Communication software stack optimization using distributed error checking
WO2020224769A1 (en) Methods and arrangements for managing a program error of a computer program executed by a device
JP2017117288A (ja) 調査結果取得方法、及び調査結果取得プログラム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170926