JP6317074B2 - Failure notification device, failure notification program, and failure notification method - Google Patents
Failure notification device, failure notification program, and failure notification method Download PDFInfo
- Publication number
- JP6317074B2 JP6317074B2 JP2013106078A JP2013106078A JP6317074B2 JP 6317074 B2 JP6317074 B2 JP 6317074B2 JP 2013106078 A JP2013106078 A JP 2013106078A JP 2013106078 A JP2013106078 A JP 2013106078A JP 6317074 B2 JP6317074 B2 JP 6317074B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- log
- failure notification
- monitoring
- notification information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、コンピュータ(情報処理装置)に発生する障害を通知する技術に関する。 The present invention relates to a technique for notifying a computer (information processing apparatus) of a failure that occurs.
分散コンピュータネットワークシステムは、プログラムを構成する個々の部分が同時並行的に複数のコンピュータで実行され、それらがネットワークを介して互いに通信しあうシステムである。したがって、分散コンピュータネットワークシステムを利用すると、一台のコンピュータで計算した場合にくらべて、スループットが向上する。このような分散コンピュータネットワークシステムの監視は、分散しているオフィス先のコンピュータに対してなされなければならないので、遠隔操作でのコマンド制御が必要となる。 A distributed computer network system is a system in which individual parts constituting a program are executed by a plurality of computers in parallel and communicate with each other via a network. Therefore, when the distributed computer network system is used, the throughput is improved as compared with the case where the calculation is performed by one computer. Since monitoring of such a distributed computer network system must be performed on distributed computers at the office, command control by remote operation is required.
特許文献1は、大規模な分散コンピュータネットワークシステムにおける複数装置の管理や監視に関して、統合的なネットワーク監視システムを用いて保守運用を行うシステムを開示する。このネットワーク監視システムは、サーバのリモート監視を行う手段として、監視対象装置に、その監視対象装置の情報収集を行うための情報収集エージェント(プログラム)を組み込んでいる。また、このネットワーク監視システムは、監視装置にネットワーク監視マネージャ(プログラム)を組み込んでいる。図2は、このようなネットワーク監視システムの全体構成を示す図である。ネットワーク監視システムは、保守用ネットワーク監視装置130に組み込むネットワーク監視マネージャ機能131と、監視対象装置100、110、120に組み込む監視エージェント機能102、112、122で構成される。監視対象装置100、110、120にはそれぞれ、アプリケーションプログラム101、111、121を組み込んでいる。監視エージェント機能102、112、122によって検知された監視対象装置100、110、120の障害情報は、ネットワーク監視マネージャ機能131へ通知される。この障害情報は、ネットワーク監視マネージャ機能131が実装する独自のGUI画面131aに表示される。障害の通知先はこのGUI画面131a(GUI:Graphic User Interface)に限定される。
Patent Document 1 discloses a system that performs maintenance operation using an integrated network monitoring system regarding management and monitoring of a plurality of devices in a large-scale distributed computer network system. In this network monitoring system, as a means for remotely monitoring a server, an information collection agent (program) for collecting information on the monitored device is incorporated in the monitored device. This network monitoring system incorporates a network monitoring manager (program) in the monitoring device. FIG. 2 is a diagram showing the overall configuration of such a network monitoring system. The network monitoring system includes a network
この方式を、既に運用中の大規模な分散コンピュータネットワークシステム等のネットワークシステムに導入しようとすると、上記のような統合的なネットワーク監視システムやサーバ管理ソフトウェアを、既存のシステムに新たに組み込む必要がある。 If this method is to be introduced into a network system such as a large-scale distributed computer network system that is already in operation, it is necessary to newly incorporate an integrated network monitoring system and server management software as described above into the existing system. is there.
一方、一般に運用中のネットワークシステムには、一元的に管理可能な統合監視機能を搭載している。例えば、図3aに示すように、既存の分散コンピュータシステムには、保守用ネットワーク監視装置170の保守作業用GUI画面171aから、監視対象となる複数の装置の管理を行う統合監視機能171が既に実装されているのが現状である。統合監視機能171は、監視対象装置140、150の稼働状態や障害発生状況等の確認を保守作業用GUI画面171aから一元的に行う。また統合監視機能171は、この保守作業用GUI画面171aから、各種のメンテナンス操作も行う。ここで、監視対象装置140、150には、それぞれ、障害監視および通知機能を有するアプリケーションプログラム141、151が組み込まれている。このため、図3aのシステムに新たに監視対象装置160を追加し、この追加に伴って統合ネットワーク監視システムやサーバ管理ソフトウェアを組み込む場合、既存のモニタ装置が、重複する構成となる。図3bは、運用中のネットワーク監視装置170に、ネットワーク監視マネージャ機能172で監視される監視対象装置160を追加し、ネットワーク監視マネージャ機能172を保守用ネットワーク監視装置170にインストールした構成を示す。保守者は既存のGUI画面171aとネットワーク監視マネージャ機能172が提供するGUI画面172aの、2つの画面から確認作業やメンテナンス操作を行わなければならない。その結果、保守者の作業が煩雑となり作業効率が低下するという問題が発生する。
On the other hand, a network system that is generally in operation is equipped with an integrated monitoring function that can be managed centrally. For example, as shown in FIG. 3a, an integrated
また、安定稼働しているシステム運用中の装置に、新たなプログラムの追加やソフトウェアを組み込むことは、運用中のアプリケーション動作に影響を及ぼす可能性があるため、容易に実施することはできないという問題がある。 In addition, adding a new program or installing software to a device that is operating in a stable system may affect the operation of the application during operation, and cannot be easily implemented. There is.
一方、監視で得られる情報は、UNIX(登録商標)系OS(Operation System)のロギング機能を利用しても得ることができる。UNIX系のOSは、システム上で発生した各種イベントや状態変化などの動作ログをファイルに記録するシステムログ(syslog)と呼ばれるロギング機能を有している。このロギング機能は、ユーザのログイン日時から、カーネル・パニックなどの異常発生時の状況まで、システムに関するさまざまな事象をシステムログファイルに記録する。このためシステムログは、障害発生時の原因追求や不正アクセスの痕跡探しなど、システム管理を行うための重要な情報源となっている。したがって、このロギング機能は、情報収集エージェントや、ネットワーク監視マネージャを、代替することができる。この代替により、既存の分散コンピュータネットワークに統合ネットワーク監視システム等を組み込む場合にも、ネットワーク監視マネージャ機能をインストールする必要はなくなり、ユーザの作業効率の低下は免れられる。 On the other hand, information obtained by monitoring can also be obtained by using a logging function of a UNIX (registered trademark) OS (Operation System). The UNIX-based OS has a logging function called a system log (syslog) that records operation logs such as various events and state changes occurring in the system in a file. This logging function records various system-related events in the system log file, from the user's login date and time to the situation when an abnormality such as a kernel panic occurs. For this reason, the system log is an important information source for system management, such as pursuing the cause of a failure and searching for traces of unauthorized access. Therefore, this logging function can replace the information collection agent and the network monitoring manager. With this alternative, even when an integrated network monitoring system or the like is incorporated into an existing distributed computer network, it is not necessary to install the network monitoring manager function, and a reduction in user work efficiency is avoided.
しかし、システムログの内容は一般に複雑である。この内容には障害情報のみならず所定の動作履歴がすべて盛り込まれている。単に障害情報を得ることが目的の場合、システムログは情報過多とも言える。該当するメッセージを1つ1つ確認して、緊急を要する内容のものか、その障害のレベルを判断する必要があるため、保守者の手を煩わせるばかりか、緊急時の障害原因の分析に時間を要するという問題が生じる。 However, the contents of the system log are generally complex. This content includes not only fault information but also all predetermined operation histories. If the goal is simply to obtain fault information, the system log can be said to be information overload. It is necessary to check each applicable message one by one to determine whether the content is urgent or the level of the failure. The problem of taking time arises.
特許文献2では、UNIXサーバで発生した障害を検知し、その障害内容を複数の異なるログファイルに記録し、システム保守者に通知するシステムを開示している。しかしこのシステムは、障害すべてについて通知するため、保守者にとって原因を切り分ける作業が不可欠である。インフォメーションレベルで緊急を要さない状態変化やログイン情報などのメッセージから、システム管理者が介在して緊急に対応を必要とする障害発生に伴うメッセージまで、多岐に渡るログが通知される。したがって、システム保守者はその情報を整理することに忙殺されるという問題がある。
特許文献3は、システム管理に資するシステムログに関するデータを管理するログ情報管理装置及びログ情報管理プログラムを開示している。このログ情報管理プログラムは、システムログファイル内のメッセージのキーワード検索を可能とし、システム管理者が、障害発生原因の追求等に最適なログ情報を適宜に抽出できる技術を提供している。しかし、このシステムは、検索に必要な工数を発生させる。
ログ情報を選択して通知することにより、保守者の負担を軽減しているものとしては、
特許文献4に開示された技術が挙げられる。特許文献4は、ログ管理アプリケーションがドライバアプリケーションから出力されるログデータを監視し、エラーレベルを判定した後、所定レベル以上のエラーについてはログデータベースに記録することを、開示している。
By reducing the burden on maintenance personnel by selecting and notifying log information,
A technique disclosed in
また、特許文献5は、システム運用中の障害を集中監視し、障害を検知した際に起動処理部に保存されているログ情報を採取して、警報メッセージとともに外部のリモート保守管理システムに通報することを開示されている。
Further,
特許文献1の技術における問題点である、2つの画面を用いて確認作業やメンテナンス操作を行なうという煩雑さ、並びに特許文献2の技術における、検索作業の複雑さは、分散コンピュータシステムの監視を困難にする原因となっている。
The problem of the technique of Patent Document 1 is that the confirmation work and the maintenance operation are performed using two screens, and the complexity of the search work in the technique of
特許文献4の技術は、アプリケーションから出力されるログデータでエラーレベルを判定しているので、より深刻なエラーレベルがオペレーションシステムで発生していても、これを検出できるものではない。また、複数のアプリケーションを同時に起動している場合、重複するエラーメッセージが発生することがあり、効率的な対処が阻まれる。また、同じ原因に起因するエラーであっても、アプリケーションによって異なる現象で現れることがあるため、特許文献4の手段は根本的な解決にはつながらない。
Since the technique of
特許文献5の技術は、アプリケーションの起動段階で発生したエラーについては、起動処理部に保存されたログデータをすべてリモート保守管理システムに通報するが、OSで発生したエラー一般について通報が行われるものではない。また、障害時にはすべてのログデータが通報されるため、システム保守者に判定の負担がかかる。さらに、この技術では、一端正常に起動した場合は、アプリケーションから出力されるログデータが利用されるため、特許文献4と同様、根本的な解決手段とはならない。
The technology of
本発明の目的は、保守者が効率的に保守対応を行うことを可能とするように、エラーメッセージを通知する、障害通知装置等を提供することである。 An object of the present invention is to provide a failure notification device or the like that notifies an error message so that a maintenance person can efficiently perform maintenance.
本発明によれば、
監視対象装置が備えるオペレーションシステムから障害に関するログを取得する監視手段と、前記オペレーションシステムから取得したログの重要度を判別する分析手段と、前記ログのうち、前記重要度が閾値以上のログの内容を表す障害通知情報を通知する通知手段と、を有する障害通知装置が得られる。
According to the present invention,
Monitoring means for acquiring a log relating to a failure from an operation system provided in the monitoring target device, analysis means for determining the importance of the log acquired from the operation system, and contents of the log having the importance equal to or higher than a threshold among the logs A failure notification device having notification means for notifying failure notification information representing
本発明によれば、監視対象装置が備えるオペレーションシステムから障害に関するログを取得する監視処理と、前記オペレーションシステムから取得したログの重要度を判別する分析処理と、前記ログのうち、前記重要度が閾値以上のログの内容を表す障害通知情報を通知する通知処理と、コンピュータに実行させる障害通知プログラムが得られる。 According to the present invention, the monitoring process for acquiring a log relating to a failure from the operation system provided in the monitoring target device, the analysis process for determining the importance level of the log acquired from the operation system, and the importance level among the logs is A notification process for notifying the failure notification information indicating the log content equal to or greater than the threshold and a failure notification program to be executed by the computer are obtained.
本発明によれば、監視対象装置が備えるオペレーションシステムから障害に関するログを取得し、前記オペレーションシステムから取得したログの重要度を判別し、前記ログのうち、前記重要度が閾値以上のログの内容を表す障害通知情報を通知する障害通知方法が得られる。 According to the present invention, a log relating to a failure is acquired from an operation system included in a monitoring target device, the importance of the log acquired from the operation system is determined, and the content of the log having the importance greater than or equal to a threshold among the logs A failure notification method for notifying failure notification information that represents
本発明によれば、保守者が効率的に保守対応を行うことを可能とするように、障害情報を通知する障害通知装置等が得られる。 According to the present invention, a failure notification device or the like that notifies failure information can be obtained so that a maintenance person can efficiently perform maintenance response.
次に、本発明の実施の形態について、基本的構成内容を説明する。 Next, the basic configuration content of the embodiment of the present invention will be described.
本発明の実施形態の構成について、図面を参照して詳細に説明する。 The configuration of the embodiment of the present invention will be described in detail with reference to the drawings.
図1は、本発明の一実施形態に係わる障害通知装置を備える分散コンピュータネットワークの機能ブロック図である。 FIG. 1 is a functional block diagram of a distributed computer network including a failure notification device according to an embodiment of the present invention.
本発明における障害通知装置301は、一例として監視対象UNIX装置1に備えられる。障害通知装置301は監視エージェント機能11、システムログ機能12、障害ログファイル12c、障害通知機能15を備える。監視対象UNIX装置1は、障害通知装置301と、システムログ12a、各種ログ12b、障害監視機能13、障害管理機能14、障害通知情報管理テーブル14a、障害通知機能15を備える。
The
この監視対象UNIX装置1は、分散コンピュータネットワークシステムにおいて動作する。分散コンピュータネットワークシステムには、他に監視対象装置A3、監視対象装置B4、監視対象装置C5、監視対象装置D6、監視対象装置E7、監視対象装置F8が接続されている。 This monitored UNIX device 1 operates in a distributed computer network system. In addition, a monitoring target device A3, a monitoring target device B4, a monitoring target device C5, a monitoring target device D6, a monitoring target device E7, and a monitoring target device F8 are connected to the distributed computer network system.
監視エージェント機能11は監視対象UNIX装置1のオペレーションシステムの動作状況を監視し、その動作状況を表すログを取得して、取得したログをシステムログ機能12に通知する。監視エージェント機能11は監視部310とも呼ばれる。
The
システムログ機能12は、例えばUNIX系のOSにより提供される。システムログ機能12は、UNIX系OSの基本機能を実装したソフトウェア(kernel)や、バックグラウンドで動作するプログラム(デーモン)等の動作や操作、障害情報等の様々なメッセージを、システムログ12aとして記録する。なお監視エージェント機能11は監視部310とも呼ぶ。また、システムログ機能12は、各種のログを各種ログ12bとして記録する。各種のログとは、UNIX系OSに標準機能として組み込まれているメールサーバソフトウェア、ジョブの定時自動実行プログラム等、OS標準の機能がその動作ログや障害情報等のメッセージを、機能毎のファイルとして記録したものである。ここで、メールサーバソフトウェアとはsendmail等である。また、ジョブの定時自動実行プログラムとはcron等である。なお、各種ログ12bは、ファイル群である。
The
また、システムログ機能12は、監視エージェント機能11が検知した監視対象UNIX装置1のハードウェアに生じた障害を通知するメッセージを障害ログファイル12cに記録する。
Further, the
また、システムログ機能12は、システムログ12a、各種ログ12bに記録されたメッセージのうち、障害レベルを示す「重要度」が高いメッセージを選択して障害ログファイル12cに格納する。なお、システムログ機能12は分析部320とも呼ばれる。
Further, the
図4は、障害ログファイル12cの記載内容の一例を示す図である。障害ログファイル12cに記録されるメッセージの「重要度」は、4:emerg(システムが利用できないほどのエラー)、3:alert(緊急に対処すべきエラー)、2:crit(致命的なエラー)、1:err(一般的なエラー)の4段階である。記録対象とするメッセージの「重要度」は、システムログ設定ファイル12dで定義される。例として、システムログ設定ファイル12dは、「重要度4のみ記録」、「重要度3、4を記録」、「重要度1〜4をすべて記録」という規則で記録すべき重要度を定義する。図4は後述するように、システムログ設定ファイル12dにおいて、「重要度3、4を記録」することを定義された場合である。これを言い換えれば、図4は、重要度の閾値を3とする場合の、障害ログファイル12cの例である。システムログ設定ファイル12dは、このシステムログ機能12が保有する設定ファイルであり、上記の「重要度」の他に、メッセージの「記録先ファイル名」をも定義する。メッセージ記録先ファイル名には、障害ログファイル12cのファイル名などが用いられる。なお、障害ログファイル12cは保存部330とも呼ばれる。また、システムログ設定ファイル12dは、システムログ機能12の、図示されない記憶部に格納される。
FIG. 4 is a diagram illustrating an example of the description content of the
次に、本実施形態の動作について、その概略を図1に基づき説明する。システムログ機能12は、システムログ12a、各種ログ12bの重要度を判定し、ある基準を越える重要度を有するログを障害ログファイル12cに登録する。この判定はシステムログ設定ファイル12dで定義されている、メッセージ毎の重要度を基準として行われる。図4に示す例は重要度3を閾値として、この値以上(alert、emerg)の障害ログが登録されている。障害ログは他の基準で登録されてもよい。例えば重要度が4以上であることを基準とした場合は、12月2日9時51分27秒に発生したkernelプログラムにおける障害ログのみが記録される。
Next, the outline of the operation of the present embodiment will be described with reference to FIG. The
障害監視機能13は、障害ログファイル12cを常時監視し、新たな障害ログの記録を検知した場合、その障害ログを、障害通知メッセージとして保守者へ通知するために、障害通知メッセージ用のデータ形式に変換する。しかる後、障害監視機能13は障害管理機能14へ障害メッセージを送信する。障害管理機能14は、障害監視機能13から受信した障害通知メッセージを元に、障害通知情報管理テーブル14aへ、障害発生時刻、障害が発生したハードウェア名、アプリケーションプロセス名等の発生箇所を特定する情報、および、障害内容の詳細を互いに関連付けされた状態で登録する。なお、障害通知情報管理テーブル14aに記録された上記内容は、障害通知メッセージ用のデータ形式に変換されて記録されている点を除いて、図4の対応する内容と同じである。障害通知機能15は、障害通知情報管理テーブル14aを一定の時間周期で監視する。障害通知機能15は、障害通知メッセージが新たに登録されたことを検知した場合、障害通知情報管理テーブル14aから障害通知メッセージを取得し、保守用のネットワーク監視装置2へこれを送信する。保守者は、保守用ネットワーク監視装置2に接続しているGUI画面21によって、一元的にこの分散コンピュータネットワークの保守管理を行う。なお、障害通知機能15は通知部340とも呼ぶ。
The
次に、本実施形態における障害監視機能13の動作について、図5の処理概要フローチャートに基づき詳細説明する。
Next, the operation of the
障害監視機能13は、常時一定秒の周期、または特定のスケジュールに基づいて、障害ログファイル12cを読み出し、新しいログの書き込みの有無をチェックする(ステップS052〜S059)。新規のログがある場合(ステップS054にてYES)、保守者へ通知するための障害通知メッセージ形式にデータを変換し(ステップS055)、障害管理機能14へ障害通知メッセージを送信する(ステップS056)。なお、前述の一定秒の周期は、障害発生頻度、障害検知の即時性、システム負荷条件を考慮し、例えば10〜30秒程度に設定する。図4は、前述したように、障害ログファイル12cに記載された内容の一例である。障害ログファイル12cに格納されるレコードは、「障害発生日時」、「障害発生装置ホスト名」、「障害発生プログラム」、「障害内容詳細」、「障害の重要度」である。これらは互いに関連付けられた状態で格納されている。図4は、重要度が3、4の障害の記録が格納されている例である。このように、障害ログファイル12cには「障害発生日時」が記録されているので、障害ログファイル12cの読み出し処理においては、この障害発生日時の記録を元に、新規のログのみを読み出すことが能率的である。そこで、この「障害発生日時」情報が、前周期で読み出しを完了しているデータの障害ログファイルにおける読み出し開始の位置情報として用いられる。すなわち、「障害ログファイル12cの読み出しが完了したデータの日時」(以降、「日時DP」(DP:Data Position)と称する)に関連づけられたデータにマーカが付される。障害監視機能13は、次周期において、この位置情報をもとに、「日時DP」以降のログを、ファイルの最終行まで読み出す(ステップS053)。
The
「日時DP」の情報は、障害監視機能13の起動時に初期化される(ステップS051)。障害監視機能13は「日時DP」以降に書き込まれたログから、ファイルの最後の行まで、障害ログファイル12cを読み出す(ステップS053)。障害監視機能13は、新規のログがあるか否かを判断する(ステップS054)。新規のログがある場合(ステップS054にてYES)、障害監視機能13は、取得した新しいログを保守者に通知するための障害通知メッセージの形式に変換する(ステップS055)。その後、障害監視機能13はこの障害通知メッセージを障害管理機能14に送信する(ステップS056)。障害監視機能13は、最後に読み込んだ障害メッセージの「障害発生日時」を、「日時DP」として設定し、更新を完了する(ステップS057)。一定秒の処理停止(ステップS058)後、障害監視機能13は、S052からの処理を再開する。
The information of “date and time DP” is initialized when the
新規のログがない場合(ステップS054にてNO)、一定秒の処理停止(ステップS058)後、障害監視機能13は、S052からの処理を再開する。
If there is no new log (NO in step S054), the
次に、本実施形態における障害管理機能14の動作について、図5の一部、及び図6の処理概要フローチャートに基づき詳細に説明する。
Next, the operation of the
障害管理機能14は、障害監視機能13より通知された障害通知メッセージ(図5 ステップS056)を受信する(ステップS061)。障害管理機能14は、障害通知情報管理テーブル14aにこれを登録する(ステップS062)。
The
次に、本実施形態における障害通知機能15の動作について、図7の処理概要フローチャートに基づき詳細説明する。障害通知情報管理テーブル14aの読み出し処理においては、新規の障害通知情報のみを読み出すことが能率的である。そこで、障害通知情報管理テーブル14aの読み出しを完了したデータにマーカが付される。このマーカを付すことによって、「障害通知情報管理テーブルの読み出しが完了したデータの位置」(以降「管理テーブルDP(DP:Data Position)」と称する)の情報が初期化される(ステップS071)。障害通知機能15は、この初期化に続いて、S072〜S07aのループ処理を行う。このループ処理において、始めに障害通知機能15は、上記マーカの位置から、障害通知情報管理テーブル14aを読み出し、データ以降に登録された障害通知メッセージを、最終行まで読み出す(ステップS073)。この読み出しは一定秒の周期で行われてもいいし、特定のスケジュールで行われてもよい。
Next, the operation of the
障害通知機能15は、新しい障害通知メッセージの書き込みが無いかをチェックする(ステップS074)。新規の障害通知メッセージがある場合(ステップS074にてYES)、障害通知機能15は、S075〜S07bの処理を繰り返す。すなわち、障害通知機能15は、保守用のネットワーク監視装置2へ障害通知メッセージを送信する(ステップS076)。障害通知機能15は、保守用ネットワーク監視装置2への通知手段として、UDP(User Datagram Protocol)ベースのネットワーク監視・管理用プロトコルであるSNMP(Simple Network Management Protocol)のトラップメッセージを使用する。
The
障害通知機能15は、「管理テーブルDP」の情報を更新する(ステップS077)。障害通知機能15は、SNMPトラップの送信件数が規定件数以下の場合(ステップS078にてYES)、S075〜S07bを繰り返す。障害通知機能15は、SNMPトラップの送信件数が規定件数より大きい場合(ステップS078にてNO)、ステップS072にもどって処理を繰り返す。
The
なお、一定秒周期で障害ログファイルの読み出しを行う場合、その周期(ステップS079)は、障害通知の即時性を考慮するために、例えば、1秒程度の短周期に設定する。 Note that when the failure log file is read at a constant second cycle, the cycle (step S079) is set to a short cycle of, for example, about 1 second in order to take into account the immediateness of the failure notification.
なお、本実施形態においては、障害通知機能15が、障害監視機能13、障害管理機能14、障害通知情報管理テーブル14aの機能を兼ね備える構成をとることができる。また、障害監視機能13が障害管理機能14を兼ね備える構成をとることができる。
このような障害監視機能13と障害管理機能14を兼ね備えた構成、または障害管理機能14を単に管理部とも呼ぶ。また、障害通知管理テーブル14aは管理テーブルとも呼ぶ。
In the present embodiment, the
Such a configuration having the
また、障害ログファイル12cにデータが格納された時点で、障害通知機能205が随時障害通知メッセージを行う構成をとるができる。この場合、障害監視機能13、障害管理機能14、障害通知管理テーブル14aは不要である。
In addition, when the data is stored in the
本実施形態においては、OSのシステムログの機能を利用して障害管理を行うので、既存のGUIモニタにより保守管理が可能である。また、障害通知メッセージの送信が重要度の高い障害に限られるので、保守者は効率的に保守対応を行うことができる。 In the present embodiment, failure management is performed using the system log function of the OS, so that maintenance management is possible using an existing GUI monitor. In addition, since the transmission of the failure notification message is limited to a failure having a high importance level, the maintenance person can efficiently perform maintenance.
監視エージェント機能11、システムログ機能12、障害監視機能13、障害管理機能14、障害通知機能15は論理回路などのハードウェアで実現されてもよいし、図示されていないメモリに格納されているプログラムを実行することで実現されてもよい。
The
本実施形態においてはOSとしてUNIXを用いているが、他のOSが用いられてもよい。例えば、LINUX(登録商標)が用いられることも可能である。
(第2の実施形態)
次に上述した第1の実施形態を基本とする第2の実施形態について説明する。以下の説明においては、第1の実施形態と同様な構成については、第1の実施形態に係わる図1の部位に付された参照番号と同一の参照番号を付すことにより、重複する説明は省略する。
In the present embodiment, UNIX is used as the OS, but other OS may be used. For example, LINUX (registered trademark) can be used.
(Second Embodiment)
Next, a second embodiment based on the above-described first embodiment will be described. In the following description, the same components as those of the first embodiment are denoted by the same reference numerals as those shown in FIG. 1 according to the first embodiment, and redundant description is omitted. To do.
図8は、本発明の第2の実施形態の構成を示す概略ブロック図である。 FIG. 8 is a schematic block diagram showing the configuration of the second exemplary embodiment of the present invention.
本実施形態では、図1の構成に加え、監視対象UNIX装置200の上で動作するアプリケーションプログラム206とアプリケーションプログラム207が設けられている。
In the present embodiment, an
監視対象UNIX装置200は、監視対象UNIX装置1と同様、分散コンピュータネットワークシステムに接続されている。この分散コンピュータネットワークシステムには、他に監視対象装置A220、監視対象装置B230、監視対象装置C240、監視対象装置D250、監視対象装置E260、監視対象装置F270が広域LAN9を介して通信可能に接続されている。
The monitoring
監視対象UNIX装置200におけるシステムログ202a、各種ログ202b、障害ログファイル202cはそれぞれ、第1の実施形態のシステムログ12a、各種ログ12b、障害ログファイル12cと同じ機能を有している。
The
アプリケーションプログラム206とアプリケーションプログラム207は、それぞれアプリケーションの実行中に何らかの処理エラーを検出した場合、その障害情報を保守者へ通知するための障害情報メッセージ形式のデータに変換する。また、アプリケーションプログラム206とアプリケーションプログラム207は、障害管理機能204へ障害通知メッセージを送信する。
When the
障害管理機能204は、アプリケーション206または207より通知された障害通知メッセージを受信し、障害監視機能203からの障害情報メッセージ受信時と同様に、障害通知情報管理テーブル204aへ障害通知情報を登録する。アプリケーション206およびアプリケーション207は実行監視部とも呼ぶ。
The
障害通知情報管理テーブル204aには、障害管理機能204、アプリケーションプログラム206、アプリケーションプログラム207から通知された障害通知メッセージが登録される。障害通知装置302が備える障害通知機能205は、これらの障害通知メッセージを保守用ネットワーク監視装置210に送信する。障害通知機能205は、第1の実施形態の障害通知機能15と同様に、障害ログファイル202Cから障害監視機能13が読み込み、障害管理機能204に送信通知された障害通知メッセージも、保守用ネットワーク監視装置210に送信する。保守者は保守用ネットワーク監視装置210に接続しているGUI画面211によって、一元的にこの分散コンピュータネットワークの保守管理を行う。
A failure notification message notified from the
本発明の第2の実施形態によれば、監視対象UNIX装置1で発生したハードウェア障害やOSのエラーのみならず、各種のアプリケーションプログラムで検出されたエラー情報も、障害通知情報管理テーブル204aで一元管理できる。このため、新規にアプリケーションプログラムを追加する場合、障害管理機能204とアプリケーションプログラムの障害通知インタフェースを合わせれば、障害情報の管理から保守用ネットワーク監視装置210への障害通知が可能となる。したがって、アプリケーションプログラム固有の障害管理機能204、障害通知機能205の作り込みは不要となる。
(第3の実施形態)
次に上述した第1の実施形態を基本とする第2の実施形態について説明する。以下の説明においては、第1の実施形態と同様な構成については、第1の実施形態に係わる図1の部位に付された参照番号と同一の参照番号を付すことにより、重複する説明は省略する。
According to the second embodiment of the present invention, not only the hardware failure and OS error that occurred in the monitored UNIX device 1, but also error information detected by various application programs is stored in the failure notification information management table 204a. Centralized management. For this reason, when a new application program is added, the
(Third embodiment)
Next, a second embodiment based on the above-described first embodiment will be described. In the following description, the same components as those of the first embodiment are denoted by the same reference numerals as those shown in FIG. 1 according to the first embodiment, and redundant description is omitted. To do.
第1の実施形態では、重要度に応じて障害通知を障害ログファイル12cに記録した。第3の実施形態では、アプリケーション毎に重要度を設定し、この重要度に応じた障害通知を記録する。障害監視機能13は、使用中のアプリケーションに多大な影響をもたらす障害メッセージのみを障害管理機能14へ通知する構成とする。障害通知機能15は、障害監視機能13から受信した障害情報メッセージを元に、障害通知情報管理テーブル14aへ、障害発生時刻、障害が発生したハードウェア名、アプリケーションプロセス名等の発生箇所を特定する情報、および、障害内容の詳細を登録する。障害通知機能15は、第1の実施形態と同様に、障害通知情報管理テーブル14aを一定周期で監視する。障害通知機能15は障害通知情報が新たに登録されたことを検知した場合、障害通知情報管理テーブル14aから障害情報を取得し、保守用のネットワーク管理装置2へ障害通知メッセージを送信する。
In the first embodiment, the failure notification is recorded in the
この実施形態では、使用中のアプリケーションに直接影響のない障害メッセージは通知されないので、ユーザは徒に保守作業による中断を受けることなく、第1の実施形態に比べてより効率的に保守対応を実施することができる。 In this embodiment, a failure message that does not directly affect the application in use is not notified, so that the user can perform maintenance response more efficiently than the first embodiment without being interrupted by maintenance work. can do.
一例として、システムXにおいて、システムXの動作に直接影響を及ぼすアプリケーションAと、システムXの動作に影響を及ぼさないアプリケーションBが動作している環境を取り上げる。システムXにおいては、アプリケーションAのプロセスが停止した場合、重要な障害となるが、アプリケーションBのプロセスが停止した場合は、深刻な問題とはならない。「プロセス停止」という障害の重要度の定義を、アプリケーションAとBで個別に定義することで、保守者に有用な障害情報のみ通知することができる。すなわち、アプリケーションAにおいては、プロセスが停止する障害を、アプリケーションBよりも高い重要度に設定することが、この実施形態では可能である。 As an example, an environment in which an application A that directly affects the operation of the system X and an application B that does not affect the operation of the system X are operating in the system X will be described. In the system X, when the process of the application A stops, it becomes an important failure, but when the process of the application B stops, it does not become a serious problem. By defining the failure importance level of “process stop” individually for the applications A and B, only useful failure information can be notified to the maintainer. That is, in this embodiment, it is possible for the application A to set the failure that causes the process to stop at a higher importance level than the application B.
本実施形態においては、第2の実施形態と同様に、アプリケーションプログラム206、207のような実行監視部が実行中のアプリケーションプログラムを特定する、という構成をとることができる。
As in the second embodiment, the present embodiment can be configured such that the execution monitoring unit such as the
本実施形態においては、実行中のアプリケーションプログラムを特定するアプリケーションプログラム特定部が、実行中のアプリケーションプログラムを判定する、という構成が取られてもよい。
(第4の実施形態)
第4の実施形態について、図9を参照して説明する。本発明の第4の実施形態は、オペレーションシステムからログを取得する監視部310と、オペレーションシステムから取得したログの重要度を判別する分析部320と、前記ログのうち、前記重要度が閾値以上のログを障害通知として保守装置に通知する通知部340と、を有する障害通知装置300である。
In the present embodiment, a configuration may be employed in which an application program specifying unit that specifies a running application program determines the running application program.
(Fourth embodiment)
A fourth embodiment will be described with reference to FIG. The fourth embodiment of the present invention includes a
本実施形態の効果は、オペレーションシステムのログを利用することにより、既存のコンピュータネットワークにおいても、効率的な保守対応が可能なことである。 The effect of this embodiment is that an efficient maintenance response is possible even in an existing computer network by using the log of the operation system.
上述した第1乃至第4の実施形態を例に説明した本発明は、当該実施形態の説明において参照したフローチャート(図5、図6、図7)の機能、或いは図1、図8、図9に示したブロック図において当該装置内に示した各部を実現可能なプログラムを図10に示す情報処理装置1000に対して供給した後、そのプログラムをCPU1100(CPU:Central Processing Unit)に対して実行することによって達成される。また、情報処理装置1000内に供給されたプログラムは、読み書き可能な一時記憶メモリ1200またはハードディスクドライブ等の不揮発性の記憶装置1300に格納すればよい。
The present invention described with reference to the first to fourth embodiments described above is the function of the flowchart (FIGS. 5, 6, and 7) referred to in the description of the embodiment, or FIGS. In the block diagram shown in FIG. 10, a program capable of realizing each unit shown in the apparatus is supplied to the
1 監視対象UNIX装置
2 保守用メットワーク監視装置
3 監視対象装置A
4 監視対象装置B
5 監視対象装置C
6 監視対象装置D
7 監視対象装置E
8 監視対象装置F
9 広域LAN
11 監視エージェント機能
12 システムログ機能
12a システムログ
12b 各種ログ
12c 障害ログ
12d システムログ設定ファイル
13 障害監視機能
14 障害管理機能
14a 障害通知情報管理テーブル
15 障害通知機能
21 GUI画面
100 監視対象装置
101 アプリケーションプログラム
102 監視エージェント機能
110 監視対象装置
111 アプリケーションプログラム
112 監視エージェント機能
120 監視対象装置
121 アプリケーションプログラム
122 監視エージェント機能
130 保守用ネットワーク監視装置
131 ネットワーク監視マネージャ機能
131a GUI画面
140 監視対象装置
150 監視対象装置
160 監視対象装置
141 アプリケーションプログラム
151 アプリケーションプログラム
161 アプリケーションプログラム
162 監視エージェント機能
170 保守用ネットワーク監視装置
171 統合監視機能
171a 保守作業用GUI画面
172 ネットワーク監視マネージャ機能
172a GUI画面
200 監視対象UNUX装置
202a システムログ
202b 各種ログ
202c 障害ログ
203 障害監視機能
204 障害管理機能
204a 障害通知情報管理テーブル
205 障害通知機能
206 アプリケーションプログラム
207 アプリケーションプログラム
210 保守用ネットワーク監視装置
211 GUI画面
220 監視対象装置A
230 監視対象装置B
240 監視対象装置C
250 監視対象装置D
260 監視対象装置E
270 監視対象装置F
300 障害通知装置
301 障害通知装置
302 障害通知装置
310 監視部
320 分析部
340 通知部
1000 情報処理装置
1100 CPU
1200 一時記憶メモリ
1300 記憶装置
1
4 Monitoring target device B
5 Monitoring target device C
6 Monitored device D
7 Monitoring target device E
8 Device F to be monitored
9 Wide area LAN
11
220 Device A to be monitored
230 Device B to be monitored
240 Monitoring target device C
250 Monitoring target device D
260 Monitoring target device E
270 Monitoring target device F
300
1200
Claims (9)
前記オペレーションシステムから取得した前記ログの重要度を判別する分析部と、
前記ログのうち、前記重要度が閾値以上の前記ログの内容を表す障害通知情報を通知する通知部と、
前記閾値以上の前記ログを保存する保存部と、
前記保存部を監視し、新規の前記ログが登録されている場合、新規の前記ログを前記障害通知情報として、前記監視対象装置が備える管理テーブルに登録する管理部と
を有し、
前記通知部は、前記管理テーブルを監視し、新規の前記障害通知情報が登録されている場合に、前記管理テーブルから新規の前記障害通知情報を読み出して通知し、前記管理テーブルにおいて、読み出しが完了した新規の前記障害通知情報にマーカを付す機能を含むことを特徴とする障害通知装置。 A monitoring unit for acquiring a log relating to a failure from an operation system included in the monitoring target device;
An analysis unit for determining the importance of the log acquired from the operation system;
Among the logs, a notification unit for notifying failure notification information indicating the content of the log whose importance is equal to or higher than a threshold value;
A storage unit for storing the log equal to or higher than the threshold;
A management unit that monitors the storage unit and registers the new log as the failure notification information in a management table included in the monitoring target device when the new log is registered;
The notification unit monitors the management table and, when new failure notification information is registered, reads and notifies the new failure notification information from the management table, and the reading is completed in the management table A failure notification device comprising a function of attaching a marker to the new failure notification information .
前記管理部は、前記実行監視部が取得した前記アプリケーションプログラムに関する障害メッセージを前記管理テーブルに前記障害通知情報として登録する請求項1の障害通知装置。 An execution monitoring unit for monitoring the application program;
The failure notification apparatus according to claim 1, wherein the management unit registers a failure message regarding the application program acquired by the execution monitoring unit as the failure notification information in the management table.
前記オペレーションシステムから取得した前記ログの重要度を判別する分析処理と、
前記ログのうち、前記重要度が閾値以上の前記ログの内容を表す障害通知情報を通知する通知処理と、
前記閾値以上の前記ログを保存部に保存する処理と、
前記保存部を監視し、新規の前記ログが登録されている場合、新規の前記ログを前記障害通知情報として、前記監視対象装置が備える管理テーブルに登録する管理処理と
をコンピュータに実行させ、
前記通知処理は、前記管理テーブルを監視し、新規の前記障害通知情報が登録されている場合に、前記管理テーブルから新規の前記障害通知情報を読み出して通知し、前記管理テーブルにおいて、読み出しが完了した新規の前記障害通知情報にマーカを付す処理を含むことを特徴とする障害通知プログラム。 A monitoring process for acquiring a log relating to a failure from an operation system included in the monitoring target device;
An analysis process for determining the importance of the log acquired from the operation system;
Among the logs, a notification process for notifying failure notification information indicating the content of the log having the importance level equal to or higher than a threshold value;
A process of storing the log of the threshold value or more in a storage unit;
When the storage unit is monitored and a new log is registered, the computer executes a management process for registering the new log as the failure notification information in a management table provided in the monitoring target device, and
The notification process monitors the management table and, when new failure notification information is registered, reads and notifies the new failure notification information from the management table, and the reading is completed in the management table A failure notification program comprising a process of adding a marker to the new failure notification information .
前記管理処理は、前記実行監視処理で取得された前記アプリケーションプログラムに関する障害メッセージを前記管理テーブルに前記障害通知情報として登録する処理を含むことを特徴とする請求項4の障害通知プログラム。 An execution monitoring process for monitoring the application program;
5. The fault notification program according to claim 4, wherein the management process includes a process of registering a fault message related to the application program acquired in the execution monitoring process as the fault notification information in the management table.
前記オペレーションシステムから取得した前記ログの重要度を判別し、
前記ログのうち、前記重要度が閾値以上の前記ログの内容を表す障害通知情報を通知し、
前記閾値以上の前記ログを保存部に保存し、
前記保存部を監視し、新規の前記ログが登録されている場合、新規の前記ログを前記障害通知情報として、前記監視対象装置が備える管理テーブルに登録し、
前記管理テーブルを監視し、新規の前記障害通知情報が登録されている場合に、前記管理テーブルから新規の前記障害通知情報を読み出して通知し、前記管理テーブルにおいて、読み出しが完了した新規の前記障害通知情報にマーカを付すことを特徴とする障害通知方法。 Obtain a log related to the failure from the operation system of the monitored device,
Determining the importance of the log obtained from the operation system;
Notifying the failure notification information indicating the content of the log having the importance level equal to or higher than the threshold among the logs
Save the log above the threshold in the storage unit,
When the storage unit is monitored and the new log is registered, the new log is registered as the failure notification information in the management table included in the monitoring target device,
The management table is monitored, and when the new failure notification information is registered, the new failure notification information is read out from the management table and notified, and the new failure that has been read out in the management table A failure notification method characterized by attaching a marker to notification information .
前記アプリケーションプログラムの監視により取得された前記アプリケーションプログラムに関する障害メッセージを前記管理テーブルに前記障害通知情報として登録する請求項7の障害通知方法。 Monitor application programs
The failure notification method according to claim 7, wherein a failure message related to the application program acquired by monitoring the application program is registered in the management table as the failure notification information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013106078A JP6317074B2 (en) | 2013-05-20 | 2013-05-20 | Failure notification device, failure notification program, and failure notification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013106078A JP6317074B2 (en) | 2013-05-20 | 2013-05-20 | Failure notification device, failure notification program, and failure notification method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014228932A JP2014228932A (en) | 2014-12-08 |
JP6317074B2 true JP6317074B2 (en) | 2018-04-25 |
Family
ID=52128753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013106078A Active JP6317074B2 (en) | 2013-05-20 | 2013-05-20 | Failure notification device, failure notification program, and failure notification method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6317074B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6992774B2 (en) * | 2019-02-13 | 2022-01-13 | セイコーエプソン株式会社 | Information processing device, learning device and trained model |
JP7424014B2 (en) | 2019-11-29 | 2024-01-30 | 株式会社リコー | Information processing device, fault management system, fault management method, and program |
CN113176987B (en) * | 2021-04-29 | 2023-09-15 | 华人运通(上海)云计算科技有限公司 | Log processing method, device and equipment of vehicle control instruction block and storage medium |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3992029B2 (en) * | 2004-07-26 | 2007-10-17 | 株式会社日立製作所 | Object management method |
JP2007233661A (en) * | 2006-02-28 | 2007-09-13 | Intelligent Wave Inc | Log integrated management system and log integrated management method |
JP2009003591A (en) * | 2007-06-20 | 2009-01-08 | Hitachi Ltd | Method for referring to two or more logs |
JP2009009448A (en) * | 2007-06-29 | 2009-01-15 | Mitsubishi Electric Corp | Data transmission device, data transmission method, and program |
JP2010231709A (en) * | 2009-03-30 | 2010-10-14 | Alps System Integration Co Ltd | Log integration management system |
-
2013
- 2013-05-20 JP JP2013106078A patent/JP6317074B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014228932A (en) | 2014-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7079010B2 (en) | System and method for monitoring processes of an information technology system | |
JP5186211B2 (en) | Health monitoring technology and application server control | |
US7281040B1 (en) | Diagnostic/remote monitoring by email | |
US7856575B2 (en) | Collaborative troubleshooting computer systems using fault tree analysis | |
US10489232B1 (en) | Data center diagnostic information | |
US20080028264A1 (en) | Detection and mitigation of disk failures | |
US20100043004A1 (en) | Method and system for computer system diagnostic scheduling using service level objectives | |
US7788520B2 (en) | Administering a system dump on a redundant node controller in a computer system | |
US11789760B2 (en) | Alerting, diagnosing, and transmitting computer issues to a technical resource in response to an indication of occurrence by an end user | |
JP2009169657A (en) | Method for setting/managing performance monitoring condition and computer system using the method | |
US7617086B2 (en) | Monitoring simulating device, method, and program | |
JPWO2009110111A1 (en) | Server apparatus, server apparatus abnormality detection method, and server apparatus abnormality detection program | |
JP5083051B2 (en) | Monitoring system, monitoring device, monitored device, and monitoring method | |
US20200228396A1 (en) | Self-monitoring | |
JP2007241872A (en) | Program for monitoring change in computer resource on network | |
JP5425720B2 (en) | Virtualization environment monitoring apparatus and monitoring method and program thereof | |
JP6317074B2 (en) | Failure notification device, failure notification program, and failure notification method | |
JP2004178296A (en) | Knowledge based operation management system, method and program | |
JP2001005692A (en) | Computer system, its maintenance and management system, and method for informing of fault | |
WO2010010393A1 (en) | Monitoring of backup activity on a computer system | |
JP2007241873A (en) | Program for monitoring change in computer resource on network | |
JPWO2011051999A1 (en) | Information processing apparatus and information processing apparatus control method | |
KR101783201B1 (en) | System and method for managing servers totally | |
JP2010003132A (en) | Information processor, and fault detection method of input/output device thereof, and program thereof | |
JP2003186702A (en) | Terminal operation monitoring system and terminal operation monitoring method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160415 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170221 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170829 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180306 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180329 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6317074 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |