JP2008217735A - 障害解析システム、方法、及び、プログラム - Google Patents

障害解析システム、方法、及び、プログラム Download PDF

Info

Publication number
JP2008217735A
JP2008217735A JP2007058102A JP2007058102A JP2008217735A JP 2008217735 A JP2008217735 A JP 2008217735A JP 2007058102 A JP2007058102 A JP 2007058102A JP 2007058102 A JP2007058102 A JP 2007058102A JP 2008217735 A JP2008217735 A JP 2008217735A
Authority
JP
Japan
Prior art keywords
failure
information
server
log information
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007058102A
Other languages
English (en)
Inventor
Shojiro Minami
昌二郎 南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007058102A priority Critical patent/JP2008217735A/ja
Publication of JP2008217735A publication Critical patent/JP2008217735A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ネットワークに発生した障害を迅速に解析し、障害からの早期復旧を可能にする障害解析システムを提供する。
【解決手段】障害管理サーバ13は、監視サーバ12から障害アラーム情報を受信すると、障害に関連するログ情報を抽出し、ネットワークを運用管理するメインサーバ11及び監視サーバ12に対して、そのログ情報を採取するコマンドを含むシェルを発行する。障害管理サーバ13は、メインサーバ11及び監視サーバ12が採取したログ情報に基づいて、シナリオ解析して、障害に関連する機器を推定して、リモート保守管理サーバ14に送信する。
【選択図】図1

Description

本発明は、障害解析システム、方法、及び、プログラムに関し、更に詳しくは、ネットワークシステムにおける障害を解析する障害解析システム、方法、及び、プログラムに関する。
従来は、ネットワークに障害が発生すると、監視サーバに障害アラームが発生しているのを、例えばネットワークを運用する局内の監視・運用部門が発見し、拠点のコールセンター側に通知している。ネットワークを保守管理するメーカ側の保守部門は、コールセンター側から障害発生の通知を受け取ると、障害解析に必要な障害情報を採取し、その情報に基づいて障害の解析を行っていた。しかし、この方法では、障害発生の通知後に複数の障害情報の関連付けや、障害毎の振り分けが必要になり、必要な障害解析フェーズに辿りつく迄に多大の時間がかかるという問題があった。
特許文献1は、分散資源型コンピュータシステムにおけるネットワークの障害解析を行う障害情報解析支援システムを記載している。該特許文献に記載のシステムは、図5に示すように、支援対象となる複数の業務クライアント31及び複数の業務サーバ32と、これらにLAN40で接続された障害情報監視サーバ33及びデータベース(DB)34と、通信サーバ35とを備える。通信サーバ35は、ネットワーク機器内のモジュールの開発/保守を担当する開発/保守担当部門に設置された端末装置36と、インターネット50を介して接続されている。業務クライアント31は、障害検出時にエラーログを障害情報監視サーバ33に送信するエラーログ処理手段を有する。
障害情報監視サーバ33は、業務クライアント31のログ処理手段から、所定時間の間に受信したエラーログを、関連する一連の障害情報としてスタックし、まとめてデータベース34に格納する。その後、データベース34から一連の障害情報を、モジュール別担当部門のメールアドレスリストなどと共に読み出し、障害情報に含まれる各モジュール名から、担当部門のメールアドレスを取得し、取得した障害情報を各メールアドレスに振り分けて、電子メールで配信する。
特開2003−44322号公報
特許文献1に記載のシステムでは、上記のように、障害情報監視サーバが、業務クライアントから受信した障害情報を一旦データベースに格納し、次いで、そのデータベースから読み出した障害情報から障害関連モジュールを振り分け、障害に関連するモジュールの開発/保守を行う担当部門にその障害情報を電子メールで配信している。
障害情報サーバは、上記処理において、一連の障害情報が収集されてデータベースに格納されるまでは、その情報の振り分けを始めとした、障害情報解析の処理に着手できない。従って、例えば複数の障害原因による障害が重なって発生した際には、障害解析及び障害からの復帰が迅速に行われないという問題があった。
本発明は、上記従来の障害解析システムの問題に鑑み、ネットワークシステムに発生した障害について、障害情報の解析が迅速に行われるため、障害からの早期の復旧が可能な障害解析システム、方法、及び、プログラムを提供することを目的とする。
上記目的を達成するために、本発明は、ネットワークを管理するメインサーバと、前記ネットワーク及びメインサーバの状態を監視する監視サーバとを含むネットワークシステムに発生した障害情報を解析する障害管理サーバを備える障害解析システムであって、
前記障害管理サーバは、
ネットワークシステムの障害アラーム情報を受信すると、障害の種類とログ情報とを関連づけて記憶する記憶装置を参照して、障害解析に必要なログ情報を抽出し、前記メインサーバ及び監視サーバの少なくとも一方に、前記抽出したログ情報に関する障害ログ情報を要求するログ情報要求部を備えることを特徴とする障害解析システムを提供する。
また、本発明は、ネットワークを管理するメインサーバと、前記ネットワーク及びメインサーバの状態を監視する監視サーバとを含むネットワークシステムに発生した障害情報を、障害管理サーバを用いて解析する障害解析方法であって、
前記障害管理サーバが、ネットワークシステムの障害アラーム情報を受信すると、障害の種類とログ情報とを関連づけて記憶する記憶装置を参照して、障害解析に必要なログ情報を抽出するステップと、
前記障害管理サーバが、前記メインサーバ及び監視サーバの少なくとも一方に、前記抽出したログ情報に関する障害ログ情報を要求するステップとを有することを特徴とする障害解析方法を提供する。
さらに、本発明は、ネットワークを管理するメインサーバと、前記ネットワーク及びメインサーバの状態を監視する監視サーバとを含むネットワークシステムに発生した障害情報を解析する障害管理サーバのためのプログラムであって、該障害管理サーバに、
前記障害管理サーバが、ネットワークシステムの障害アラーム情報を受信すると、障害の種類とログ情報とを関連づけて記憶する記憶装置を参照して、障害解析に必要なログ情報を抽出するステップと、
前記障害管理サーバが、前記メインサーバ及び監視サーバの少なくとも一方に、前記抽出したログ情報に関する障害ログ情報を要求するステップとを実行させることを特徴とするプログラムを提供する。
本発明の障害解析システム、方法、及び、プログラムでは、障害管理サーバが、送信されてくる障害アラーム情報に応答し、障害の解析に必要なログ情報を抽出してメインサーバ及び/又は監視サーバに要求するので、障害情報の解析が迅速に行われる。従って、一連の障害アラーム情報が揃うまでは解析に着手できなかった従来の障害解析システムとは異なり、障害解析が迅速に行われる。また、保守管理サーバに送信される情報が障害解析に必要な情報に制限できるので、解析者による障害の解析が迅速に行われる。
以下、図面を参照し、本発明の実施形態について詳細に説明する。図1は、本発明の一実施形態に係る障害解析システム10と、障害解析システム10によって障害が解析されるネットワークシステムとを示している。このネットワークシステムは、マルチメディア・ネットワークを構築する、例えばIP電話の呼処理を行うメインサーバ11を有している。各メインサーバ11は、2台が1組となるクラスタ構成を有し、1つの局(局1、局2)内に設置されるこれらメインサーバ11の1群に対して、1台の監視サーバ12が配設されている。各メインサーバ11及び各監視サーバ12は、専用の通信回線21を介して、複数の局に共通の障害管理サーバ13に接続されている。障害管理サーバ13は、ネットワークシステムの保守を担当する保守管理部門が保有するリモート保守管理サーバ14に、専用の通信回線20を介して接続されている。メインサーバ11及び監視サーバ12は、ネットワークを運用管理し、また、ネットワーク内の各機器や回線の状態情報を経時的に保存し、ログ情報として記憶している。
障害管理サーバ13は、ネットワークシステムを運用する運用部門が管理する複数の局に共通に配設される。障害管理サーバ13は、監視サーバ12から障害が発生した旨の障害アラーム情報を受信すると、障害の種類と、障害解析に必要なログ情報と、そのログ情報を管理するサーバとを対応付けて記憶するデータベースを参照し、受信した障害アラーム情報から、発生した障害の解析に必要なログ情報(障害ログ情報)及びそのログ情報を管理するサーバとを抽出する機能を有する。障害管理サーバ13は、この抽出したログ情報の採取を要求する要求メッセージを、そのログ情報を管理するメインサーバ11及び/又は監視サーバ12に送信する。
ログ情報採取の要求メッセージを受信したメインサーバ11及び/又は監視サーバ12は、その要求メッセージを受信し、割り込み処理などを実行し、受信した要求メッセージに基づいて障害ログ情報を読み出して、これを障害管理サーバ13に送信する。障害管理サーバ13は、受信した障害ログ情報を相互に比較するなどの解析を行い、その障害情報と共にリモート保守管理サーバ14に送信する機能を有する。
リモート保守管理サーバ14及び障害管理サーバ13の双方は、監視サーバ12のホスト名、シリアル番号及び保守バンドルIDと、監視対象のメインサーバ11のホスト名、シリアル番号及び保守バンドルIDとを、対応付けて記憶しており、例えば監視サーバ12のシリアル番号から、監視対象のホスト名及び保守バンドルIDを検索できる。
図2を参照して、図1の障害解析システムの処理を説明する。ネットワークシステムの運用に先立って、或いは、システムの運用中に新しいマシンが導入されると、保守担当部門は、保守部門に設置されたリモート保守管理サーバ14から、運用部門の障害管理サーバ13に向けて、各局内でメインサーバ11の管理を行う監視サーバ12とメインサーバ11との対応関係を含むマシンの管理情報を登録するように、登録指令を発行する(ステップS1)。障害管理サーバ13は、これに応答して、各マシンのホスト名、シリアルID、保守バンドルIDと、各マシンの対応関係とをデータベースに登録する(ステップS2)。次いで、保守担当部門は、障害アラームの種類とその障害アラーム発生の際に発行すべきシェルとを対応付けたテーブルを作成し(ステップS3)、そのテーブルを、リモート保守管理サーバ14を経由して、障害管理サーバ13に登録する(ステップS4)。ここで、「シェル」とは、特定の情報を採取するコマンドを起動する命令を指す。
システムの運用が開始すると、メインサーバ11はネットワーク管理を実行し(ステップS5)、監視サーバ12は、そのメインサーバ11の状態を監視する(ステップS6)。メインサーバ11が、メインサーバ自身又は運用するネットワーク中に障害が発生した旨を検出すると(ステップS7)、その障害発生の旨が監視サーバ12に通知され(ステップS8)、監視サーバ12は障害管理サーバ13に向けて障害アラーム情報を通知する(ステップS9)。
障害管理サーバ13は、障害アラーム情報を受信すると、そのアラーム中のメッセージを読み出して解析する(ステップS10)。次いで、データベースを参照して、受信したメッセージに含まれる障害アラーム情報から、障害解析に必要なログ情報、及び、対応するシェルを抽出し、抽出したシェルをメインサーバ11、及び/又は、監視サーバ12に発行する(ステップS11)。
メインサーバ11、及び/又は、監視サーバ12は、発行されたシェルをそのまま自動起動し(ステップS12)、障害ログ情報を採取し、これを送信する(ステップS13)。障害管理サーバ13は、監視サーバ12から障害ログ情報を入手すると、シナリオを起動して、マシン管理情報や、過去の障害アラーム情報とマシンとの関連情報などを参照して、障害ログ情報を解析する(ステップS14)。解析内容は、障害を発生したホスト名や、回線名、配線番号を特定し、且つ、障害の原因を推定することである。また、順次に発生する複数の障害アラーム情報がある場合には、それら複数の障害アラーム情報が、単一の故障に起因するものか、或いは、別の故障に起因するものかを解析する。解析した障害情報は、受信した障害アラーム情報と共にリモート保守管理サーバ14に送信される(ステップS15)。
障害管理サーバ13は、メインサーバ11から障害ログ情報を入手すると(ステップS16)、シナリオを起動し(ステップS17)、マシン管理情報や、過去の障害情報とマシンとの関連情報などを参照して、障害ログ情報を解析する(ステップS18)。解析内容は、障害を発生したホスト名や、回線名、配線番号を特定し、且つ、障害の原因を推定することである。また、順次に発生する複数の障害アラーム情報がある場合には、それら複数の障害アラーム情報が、単一の故障に起因するものか、或いは、別の故障に起因するものかを解析する。解析した障害情報は、受信した障害アラーム情報と共にリモート保守管理サーバ14に送信される(ステップS19)。障害管理サーバ13は、メインサーバ11及び監視サーバ12の双方からログ情報を受信すると、上記処理の他に、双方のログ情報を対比して、障害の原因を解析する。
保守管理者は、リモート保守管理サーバ14が、障害管理サーバ13から障害情報及びその解析内容を受信すると、その受信した情報に基づいて、故障原因、及び、それからの復旧処理を検討する。リモート保守管理サーバ14は、送信された障害情報及び解析内容を自動的にリストに登録する。
以下、実例を挙げて障害解析システムによる障害解析の処理内容を説明する。図3は、障害管理サーバ13が、監視サーバ12から受信する障害アラーム情報の一例を示している。障害レベルは、その障害の重大さを示す。アラーム番号は、障害の一連番号である。以下の処理では、このアラーム番号で障害が特定される。アラームメッセージには、メッセージ本文PrMと、障害を発生したプロセス名と、終了ステータスとを含む。終了ステータスには、障害アラーム情報を発生する前に行った再起動及び再停止の回数などが含まれる。
障害管理サーバ13は、一般的に、障害アラーム情報を受信すると、メインサーバ内に記憶されている
/var/opt/resmon/log/event.log
という障害基本ログ情報を採取する。この障害基本ログ情報採取のために、例えば
get_event_log.sh
というシェル、及び、障害アラーム情報の解析から必要と判断されたログ情報を要求するその他のシェルを含むメッセージを発行する。メインサーバ11は、上記シェルが発行されると、対応するログ情報を読み出して、障害管理サーバ13に送信する。障害管理サーバ13は、その内容に従って、解析を行う。
図4(a)〜(c)はそれぞれ、監視サーバ12が発行する障害アラーム情報、障害管理サーバ13が監視サーバ12又はメインサーバ11に発行するシェルに含まれる障害ログ情報、及び、障害管理サーバ13がリモート保守管理サーバ14に発行する障害情報の一例を示している。
障害アラーム情報は、図4(a)に示すように、アラームメッセージに、系統構成に異常がある旨(FTM)、2重化されたメインサーバ間の通信LAN(heat beat LAN)に異常がある旨、及び、プロセス名(V1)を示している。
障害管理サーバ13が発行するシェルには、図4(b)に示すように、障害基本ログ情報の取得に加えて、LANケーブル#4、及び、LANケーブル#7の正常か否かを示す情報、及び、LANの状態を示す情報を採取するコマンドが含まれる。このため、メインサーバ11は、例えば割込み命令として上記コマンドをそのまま実行し、障害ログ情報を取得する。
メインサーバ11は、上記シェルの実行結果として、図4(c)に示すように、ホスト名(0)とホスト名(1)とを接続するLANケーブル異常が発生した旨、具体的には、ケーブル断線が疑われるログ情報を取得して、障害管理サーバ13に送信する。障害管理サーバは、そのログ情報に基づいて、特定のLANケーブルに断線が発生した旨を推定する障害情報を含めて、受信した障害アラーム情報をリモート保守管理サーバ14に送信する。
保守担当者は、リモート保守管理サーバ14が受け取った情報から、まず障害ログ情報を確認する。上記に例示した障害の場合には、LANケーブルに関するものであるので、ifconfig、及び、netstatの設定が正しくされているかを確認する。また、event.logにおいて、系統内にどのような問題が発生しているかを確認し、ifconfig、netstatの設定に問題があるようであれば、OSの保守部門や、アプリケーションの開発部門に解析依頼を行う。event.log内に問題が書き込まれているようであれば、運用側の保守部門に解析を依頼する。
OS部門に解析を依頼する際には、対象マシンが保守対象であることを示す保守バンドルIDが必要となるため、図4(c)に示すmaintenance IDを知らせて、解析を依頼する。また、運用側保守部門に解析依頼を行う際には、運用システム内のシリアル番号が必要となるため、serial numberを知らせて解析を依頼する。
上記のように、本実施形態では、障害管理サーバ13が、障害アラーム情報を受信すると、その障害を解析するために必要なシェルを自動的に発行するので、監視サーバ12側及びメインサーバ11側では、ログ情報を採取するためのプログラム部分が簡素化される。また、障害ログ情報が採取された後は、障害管理サーバ13が、その障害ログ情報を解析し、或いは、相互に対比して障害原因の解析を行うので、故障個所の特定が迅速に行われる。このため、障害からの迅速な回復が容易になる。複数の障害アラーム情報が発生した場合には、障害ログ情報を相互に比較するなどの解析を行うので、単一故障であるか、複合故障であるかの判断が迅速になり、更に故障からの復帰が容易になる。
以上、本発明をその好適な実施態様に基づいて説明したが、本発明の障害解析システム、方法、及び、プログラムは、上記実施態様の構成にのみ限定されるものではなく、上記実施態様の構成から種々の修正及び変更を施したものも、本発明の範囲に含まれる。
本発明の一実施形態に係る障害解析システムを、解析対象のネットワークシステムと共に示すブロック図。 図1の障害解析システムによる処理を示すフローチャート。 監視サーバが障害管理サーバに発行する障害アラームの一例を示す表。 (a)〜(c)はそれぞれ、障害アラーム情報、シェルの内容、及び、障害情報を例示する表。 従来の障害解析システムのブロック図。
符号の説明
10:障害解析システム
11:メインサーバ
12:監視サーバ
13:障害管理サーバ
14:リモート保守管理サーバ
20、21:通信回線
31:業務クライアント
32:業務サーバ
33:障害情報監視サーバ
34:データベース
35:通信サーバ
36:端末装置
40:LAN
50:インターネット

Claims (7)

  1. ネットワークを管理するメインサーバと、前記ネットワーク及びメインサーバの状態を監視する監視サーバとを含むネットワークシステムに発生した障害情報を解析する障害管理サーバを備える障害解析システムであって、
    前記障害管理サーバは、
    ネットワークシステムの障害アラーム情報を受信すると、障害の種類とログ情報とを関連づけて記憶する記憶装置を参照して、障害解析に必要なログ情報を抽出し、前記メインサーバ及び監視サーバの少なくとも一方に、前記抽出したログ情報に関する障害ログ情報を要求するログ情報要求部を備えることを特徴とする障害解析システム。
  2. 前記ログ情報要求部は、前記障害ログ情報を採取するコマンドを前記メインサーバ及び監視サーバの少なくとも一方に発行する、請求項1に記載の障害解析システム。
  3. 前記障害管理サーバは、前記メインサーバ及び監視サーバの少なくとも一方から障害ログ情報を受信すると、該受信した障害ログ情報を解析する障害情報解析部を更に備える、請求項1又は2に記載の障害解析システム。
  4. 前記障害情報解析部は、前記メインサーバ及び監視サーバの前記少なくとも一方から障害ログ情報を受信すると、該受信した障害ログ情報と、前記障害アラーム情報以前に受信した先の障害アラーム情報について受信した障害ログ情報とを比較し、前後の障害情報の相互関係と障害の単一性とを関連づけて記憶する記憶装置を参照して、前記障害情報と前記先の障害情報とが単一の障害に基づくものか否かを判定する、請求項3に記載の障害解析システム。
  5. 前記障害情報解析部は、前記メインサーバ及び監視サーバの双方から障害ログ情報を受信すると、該双方のサーバから受信した障害ログ情報を相互に比較することによって障害情報を解析する、請求項3又は4に記載の障害解析システム。
  6. ネットワークと、該ネットワークを管理するメインサーバと、前記ネットワーク及び管理サーバの状態を監視する監視サーバとを含むネットワークシステムに発生した障害情報を、障害管理サーバを用いて解析する障害解析方法であって、
    前記障害管理サーバが、ネットワークシステムの障害アラーム情報を受信すると、障害の種類とログ情報とを関連づけて記憶する記憶装置を参照して、障害解析に必要なログ情報を抽出するステップと、
    前記障害管理サーバが、前記メインサーバ及び監視サーバの少なくとも一方に、前記抽出したログ情報に関する障害ログ情報を要求するステップとを有することを特徴とする障害解析方法。
  7. ネットワークと、該ネットワークを管理するメインサーバと、前記ネットワーク及びメインサーバの状態を監視する監視サーバとを含むネットワークシステムに発生した障害情報を解析する障害管理サーバのためのプログラムであって、該障害管理サーバに、
    前記障害管理サーバが、ネットワークシステムの障害アラーム情報を受信すると、障害の種類とログ情報とを関連づけて記憶する記憶装置を参照して、障害解析に必要なログ情報を抽出するステップと、
    前記障害管理サーバが、前記メインサーバ及び監視サーバの少なくとも一方に、前記抽出したログ情報に関する障害ログ情報を要求するステップとを実行させることを特徴とするプログラム。
JP2007058102A 2007-03-08 2007-03-08 障害解析システム、方法、及び、プログラム Pending JP2008217735A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007058102A JP2008217735A (ja) 2007-03-08 2007-03-08 障害解析システム、方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007058102A JP2008217735A (ja) 2007-03-08 2007-03-08 障害解析システム、方法、及び、プログラム

Publications (1)

Publication Number Publication Date
JP2008217735A true JP2008217735A (ja) 2008-09-18

Family

ID=39837659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007058102A Pending JP2008217735A (ja) 2007-03-08 2007-03-08 障害解析システム、方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP2008217735A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231293A (ja) * 2009-03-26 2010-10-14 Nomura Research Institute Ltd 監視装置
JP2011248433A (ja) * 2010-05-24 2011-12-08 Nec Corp ログデータ欠落検知用のネットワーク管理システム、管理方法、及び管理プログラム
JP2012175389A (ja) * 2011-02-21 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> ログ収集自動化装置、ログ収集自動化試験システム、及びログ収集制御方法
JP2014515522A (ja) * 2011-05-20 2014-06-30 マイクロソフト コーポレーション 相互クラウド管理および障害診断
KR101592323B1 (ko) * 2015-06-09 2016-02-05 주식회사 이노아이엔씨 서버 장애 시 원격 서버 복구 시스템 및 방법
JP2016218844A (ja) * 2015-05-22 2016-12-22 日本電気株式会社 監視装置
JP2017117141A (ja) * 2015-12-24 2017-06-29 セコム株式会社 警備業務支援システムおよび警備装置
KR101813687B1 (ko) 2016-08-23 2018-01-02 주식회사 윈스 무선통신망을 이용한 모니터링 시스템 및 방법
CN109254892A (zh) * 2018-08-14 2019-01-22 北京信安世纪科技股份有限公司 一种生成报告的方法及装置
CN109633351A (zh) * 2018-12-13 2019-04-16 平安普惠企业管理有限公司 智能it运维故障定位方法、装置、设备及可读存储介质
CN112256470A (zh) * 2020-11-04 2021-01-22 中国建设银行股份有限公司 故障服务器定位方法及装置、存储介质及电子设备
CN112947386A (zh) * 2021-03-25 2021-06-11 北京莱格牧机电有限责任公司 一种远程分布式变频器故障诊断系统
CN112988439A (zh) * 2021-02-09 2021-06-18 北京奇艺世纪科技有限公司 服务器故障发现方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH103403A (ja) * 1996-06-18 1998-01-06 Toshiba Corp 計算機システムおよびデバッグ方法
JPH10207746A (ja) * 1997-01-17 1998-08-07 Nec Eng Ltd 障害情報収集システム
JP2003044322A (ja) * 2001-07-27 2003-02-14 Nec Soft Ltd 障害解析支援システム及び方法
JP2003152878A (ja) * 2001-11-08 2003-05-23 Nec Corp 遠隔装置自動管理システム
JP2003162430A (ja) * 2001-11-27 2003-06-06 Mitsubishi Electric Corp 障害情報管理装置および障害情報管理方法
JP2003242277A (ja) * 2002-02-21 2003-08-29 Nec Corp 保守管理統合システム及びそれに用いる保守管理方法
JP2003345628A (ja) * 2002-05-29 2003-12-05 Hitachi Ltd 障害調査資料採取方法及びその実施システム並びにその処理プログラム
JP2005167347A (ja) * 2003-11-28 2005-06-23 Fujitsu Ltd ネットワーク監視プログラム、ネットワーク監視方法、およびネットワーク監視装置
JP2006172175A (ja) * 2004-12-16 2006-06-29 Nec Corp メモリエラー訂正システム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH103403A (ja) * 1996-06-18 1998-01-06 Toshiba Corp 計算機システムおよびデバッグ方法
JPH10207746A (ja) * 1997-01-17 1998-08-07 Nec Eng Ltd 障害情報収集システム
JP2003044322A (ja) * 2001-07-27 2003-02-14 Nec Soft Ltd 障害解析支援システム及び方法
JP2003152878A (ja) * 2001-11-08 2003-05-23 Nec Corp 遠隔装置自動管理システム
JP2003162430A (ja) * 2001-11-27 2003-06-06 Mitsubishi Electric Corp 障害情報管理装置および障害情報管理方法
JP2003242277A (ja) * 2002-02-21 2003-08-29 Nec Corp 保守管理統合システム及びそれに用いる保守管理方法
JP2003345628A (ja) * 2002-05-29 2003-12-05 Hitachi Ltd 障害調査資料採取方法及びその実施システム並びにその処理プログラム
JP2005167347A (ja) * 2003-11-28 2005-06-23 Fujitsu Ltd ネットワーク監視プログラム、ネットワーク監視方法、およびネットワーク監視装置
JP2006172175A (ja) * 2004-12-16 2006-06-29 Nec Corp メモリエラー訂正システム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231293A (ja) * 2009-03-26 2010-10-14 Nomura Research Institute Ltd 監視装置
JP2011248433A (ja) * 2010-05-24 2011-12-08 Nec Corp ログデータ欠落検知用のネットワーク管理システム、管理方法、及び管理プログラム
JP2012175389A (ja) * 2011-02-21 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> ログ収集自動化装置、ログ収集自動化試験システム、及びログ収集制御方法
US10009238B2 (en) 2011-05-20 2018-06-26 Microsoft Technology Licensing, Llc Cross-cloud management and troubleshooting
JP2014515522A (ja) * 2011-05-20 2014-06-30 マイクロソフト コーポレーション 相互クラウド管理および障害診断
JP2016218844A (ja) * 2015-05-22 2016-12-22 日本電気株式会社 監視装置
KR101592323B1 (ko) * 2015-06-09 2016-02-05 주식회사 이노아이엔씨 서버 장애 시 원격 서버 복구 시스템 및 방법
WO2016200232A1 (ko) * 2015-06-09 2016-12-15 주식회사 이노아이엔씨 서버 장애 시 원격 서버 복구 시스템 및 방법
JP2017117141A (ja) * 2015-12-24 2017-06-29 セコム株式会社 警備業務支援システムおよび警備装置
KR101813687B1 (ko) 2016-08-23 2018-01-02 주식회사 윈스 무선통신망을 이용한 모니터링 시스템 및 방법
CN109254892A (zh) * 2018-08-14 2019-01-22 北京信安世纪科技股份有限公司 一种生成报告的方法及装置
CN109633351A (zh) * 2018-12-13 2019-04-16 平安普惠企业管理有限公司 智能it运维故障定位方法、装置、设备及可读存储介质
CN109633351B (zh) * 2018-12-13 2021-10-22 平安普惠企业管理有限公司 智能it运维故障定位方法、装置、设备及可读存储介质
CN112256470A (zh) * 2020-11-04 2021-01-22 中国建设银行股份有限公司 故障服务器定位方法及装置、存储介质及电子设备
CN112988439A (zh) * 2021-02-09 2021-06-18 北京奇艺世纪科技有限公司 服务器故障发现方法、装置、电子设备及存储介质
CN112988439B (zh) * 2021-02-09 2023-07-28 北京奇艺世纪科技有限公司 服务器故障发现方法、装置、电子设备及存储介质
CN112947386A (zh) * 2021-03-25 2021-06-11 北京莱格牧机电有限责任公司 一种远程分布式变频器故障诊断系统

Similar Documents

Publication Publication Date Title
JP2008217735A (ja) 障害解析システム、方法、及び、プログラム
CN103414916B (zh) 一种故障诊断系统及方法
CN111046011B (zh) 日志收集方法、系统、装置、电子设备及可读存储介质
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN103607297A (zh) 一种计算机集群系统的故障处理方法
CN102385582A (zh) 生产测试数据处理方法、服务器及系统
US8189458B2 (en) Monitoring system, monitoring device, monitored device, and monitoring method
CN104980524A (zh) 一种weblogic连接池失效监测方法
US20110099273A1 (en) Monitoring apparatus, monitoring method, and a computer-readable recording medium storing a monitoring program
CN112506755B (zh) 日志采集方法、装置、计算机设备和存储介质
CN108933693B (zh) 一种域名服务系统故障处理方法和系统
CN111949444A (zh) 一种基于分布式服务集群的数据备份与恢复系统及方法
CN101771563A (zh) 网络服务程序的监控方法
CN101262479B (zh) 一种网络文件共享的方法、服务器和网络文件共享的系统
JP2013130901A (ja) 監視サーバおよびそれを用いたネットワーク機器復旧システム
CN105490847B (zh) 一种私有云存储系统中节点故障实时检测及处理方法
US8677323B2 (en) Recording medium storing monitoring program, monitoring method, and monitoring system
CN105025179A (zh) 呼叫中心座席的监控方法及系统
CN116737444A (zh) 一种数据库服务器故障处理方法及系统
JP2006285453A (ja) 情報処理装置、情報処理方法、および情報処理プログラム
CN113342596A (zh) 一种设备指标的分布式监控方法、系统及装置
JP2011142390A (ja) 監視システムおよび障害通信機器判定方法
JP4286594B2 (ja) 障害解析データ採取装置およびその方法
JPH1188471A (ja) 試験方法及び試験装置
CN115766278B (zh) 防火墙策略生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100218

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110927