JP6812831B2 - Monitoring equipment, monitoring systems, monitoring methods, and programs - Google Patents
Monitoring equipment, monitoring systems, monitoring methods, and programs Download PDFInfo
- Publication number
- JP6812831B2 JP6812831B2 JP2017028969A JP2017028969A JP6812831B2 JP 6812831 B2 JP6812831 B2 JP 6812831B2 JP 2017028969 A JP2017028969 A JP 2017028969A JP 2017028969 A JP2017028969 A JP 2017028969A JP 6812831 B2 JP6812831 B2 JP 6812831B2
- Authority
- JP
- Japan
- Prior art keywords
- monitoring
- monitored
- period
- normal
- items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
本発明は、監視装置、監視システム、監視方法、及びプログラムに関する。 The present invention relates to a monitoring device, a monitoring system, a monitoring method, and a program.
従来、サーバ機器やネットワーク機器などの機器の動作状態を例えばネットワークを介して監視するためのシステムが開発されている。 Conventionally, a system for monitoring the operating state of a device such as a server device or a network device via a network has been developed.
例えば、下記特許文献1には、複数の監視対象装置の各々に対する監視結果に基づいて故障通知をユーザに対して出力する技術が記載されている。
For example,
しかしながら、特許文献1に記載の技術では、監視対象装置に対して常に同一の内容の監視を行う。例えば、特許文献1に記載の技術では、時期によらずに、監視対象装置に対して同一の内容の監視を行ってしまう。
However, in the technique described in
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、監視対象装置および時期に適応した内容の監視を当該監視対象装置に対して実行することが可能な、新規かつ改良された監視装置、監視システム、監視方法、及びプログラムを提供することにある。 Therefore, the present invention has been made in view of the above problems, and an object of the present invention is that it is possible to monitor the monitored device and the contents adapted to the timing for the monitored device. To provide new and improved monitoring equipment, monitoring systems, monitoring methods, and programs.
上記課題を解決するために、本発明のある観点によれば、少なくとも一つの監視対象装置の各々に関して、当該監視対象装置に対応付けられている通常監視期間外に現在が該当するか否かを判定する判定部と、前記通常監視期間外に該当すると判定された監視対象装置ごとに、当該監視対象装置に通常監視期間内に監視する監視項目として対応付けられている複数の監視項目のうち前記通常監視期間外の監視対象として設定されている一部の監視項目に関する監視を当該監視対象装置に対して実行し、実行結果に基づいてアラームを検出する監視制御部と、を備える、監視装置が提供される。
In order to solve the above problem, according to a certain viewpoint of the present invention, whether or not the present corresponds to each of at least one monitored device outside the normal monitoring period associated with the monitored device. Of the plurality of monitoring items associated with the monitoring target device as monitoring items to be monitored within the normal monitoring period for each of the determination unit and the monitoring target device determined to fall outside the normal monitoring period, the above-mentioned A monitoring device including a monitoring control unit that executes monitoring of some monitoring items set as monitoring targets outside the normal monitoring period for the monitored device and detects an alarm based on the execution result. Provided.
前記監視制御部は、前記通常監視期間外に該当すると判定された監視対象装置ごとに、当該監視対象装置に対応付けられている複数の監視項目のうち前記通常監視期間外の監視対象として設定されていない監視項目に関する監視を当該監視対象装置に対して実行しなくてもよい。 The monitoring control unit is set as a monitoring target outside the normal monitoring period among a plurality of monitoring items associated with the monitoring target device for each monitoring target device determined to fall outside the normal monitoring period. It is not necessary to perform monitoring on the monitored device that has not been monitored.
前記少なくとも一つの監視対象装置の各々に関して、当該監視対象装置に対応付けられている複数の監視項目は、当該監視対象装置に対応付けられている通常監視期間内の監視対象の監視項目であってもよい。 With respect to each of the at least one monitored device, the plurality of monitoring items associated with the monitored device are the monitoring items of the monitoring target within the normal monitoring period associated with the monitored device. May be good.
前記少なくとも一つの監視対象装置の各々に関して、当該監視対象装置と少なくとも一つの監視機能とが対応付けられており、前記監視制御部は、前記通常監視期間外に該当すると判定された監視対象装置ごとに、当該監視対象装置に対応付けられている少なくとも一つの監視機能の各々に関して、当該監視機能に対応付けられている複数の監視項目のうち前記通常監視期間外の監視対象として設定されている監視項目に関する監視を当該監視対象装置に対して実行してもよい。 For each of the at least one monitored device, the monitored device and at least one monitoring function are associated with each other, and the monitoring control unit is used for each monitored device determined to fall outside the normal monitoring period. In addition, for each of the at least one monitoring function associated with the monitored device, the monitoring set as the monitoring target outside the normal monitoring period among the plurality of monitoring items associated with the monitoring function. Monitoring of the item may be performed on the monitored device.
前記監視制御部は、前記通常監視期間外に該当すると判定された監視対象装置ごとに、当該監視対象装置に対応付けられている少なくとも一つの監視機能の各々に関して、当該監視機能に対応付けられている複数の監視項目のうち前記通常監視期間外の監視対象として設定されていない監視項目に関する監視を当該監視対象装置に対して実行しなくてもよい。 The monitoring control unit is associated with the monitoring function for each of the monitoring target devices determined to be outside the normal monitoring period, and for each of the at least one monitoring functions associated with the monitoring target device. It is not necessary to perform monitoring on the monitored device for the monitoring items that are not set as the monitoring targets outside the normal monitoring period among the plurality of monitoring items.
前記監視装置は、前記通常監視期間外に該当すると判定された監視対象装置ごとに、当該監視対象装置に対応付けられている複数の監視項目のうち前記通常監視期間外の監視対象として設定されている監視項目の各々に対応する情報を当該監視対象装置から取得する取得部と、前記取得部による前記情報の取得が失敗した場合に当該失敗の原因を特定する原因特定部と、をさらに備えてもよい。 The monitoring device is set as a monitoring target outside the normal monitoring period among a plurality of monitoring items associated with the monitoring target device for each monitoring target device determined to fall outside the normal monitoring period. It further includes an acquisition unit that acquires information corresponding to each of the monitoring items from the monitored device, and a cause identification unit that identifies the cause of the failure when the acquisition of the information by the acquisition unit fails. May be good.
前記監視装置は、前記原因特定部により特定された原因が所定の原因であるか否かによって、エラーの発生を示すエラー情報を所定の装置へ通信部に送信させる送信制御部をさらに備えてもよい。 The monitoring device may further include a transmission control unit that causes an error information indicating the occurrence of an error to be transmitted to a predetermined device to a communication unit depending on whether or not the cause identified by the cause identification unit is a predetermined cause. Good.
前記原因特定部により特定された原因が前記所定の原因以外である場合には、前記送信制御部は、前記エラー情報を前記所定の装置へ前記通信部に送信させ、かつ、前記原因特定部により特定された原因が前記所定の原因である場合には、前記送信制御部は、前記エラー情報を前記所定の装置へ前記通信部に送信させなくてもよい。 When the cause identified by the cause identification unit is other than the predetermined cause, the transmission control unit causes the predetermined device to transmit the error information to the communication unit, and the cause identification unit transmits the error information to the communication unit. When the identified cause is the predetermined cause, the transmission control unit does not have to transmit the error information to the predetermined device to the communication unit.
前記監視装置は、前記通常監視期間外に該当すると判定された監視対象装置ごとに、当該監視対象装置に対応付けられている複数の監視項目のうち前記通常監視期間外の監視対象として設定されている監視項目の各々に関して、当該監視項目に関する監視の実行結果が所定の条件を満たす場合に、アラーム情報を所定の装置へ通信部に送信させる送信制御部をさらに備えてもよい。 The monitoring device is set as a monitoring target outside the normal monitoring period among a plurality of monitoring items associated with the monitoring target device for each monitoring target device determined to fall outside the normal monitoring period. For each of the monitoring items, if the execution result of the monitoring related to the monitoring item satisfies a predetermined condition, a transmission control unit for transmitting alarm information to a predetermined device to the communication unit may be further provided.
前記通常監視期間外の監視対象として設定されている監視項目の各々に関して、当該監視項目に関する監視の実行結果が前記所定の条件を満たす場合に、前記送信制御部は、当該監視項目に対応付けられている重要度に応じて、前記アラーム情報を前記所定の装置へ前記通信部に送信させてもよい。 For each of the monitoring items set as the monitoring target outside the normal monitoring period, when the execution result of the monitoring related to the monitoring item satisfies the predetermined condition, the transmission control unit is associated with the monitoring item. The alarm information may be transmitted to the communication unit to the predetermined device according to the importance.
前記監視装置は、前記少なくとも一つの監視対象装置の各々と、当該監視対象装置の通常監視期間とを対応付けて管理するスケジュール管理部と、前記少なくとも一つの監視対象装置の各々と複数の監視項目とを対応付けて記憶する記憶部と、をさらに備えてもよい。 The monitoring device includes a schedule management unit that manages each of the at least one monitoring target device in association with the normal monitoring period of the monitoring target device, and each of the at least one monitoring target device and a plurality of monitoring items. A storage unit that stores the above in association with each other may be further provided.
また、上記課題を解決するために、本発明の別の観点によれば、少なくとも一つの監視対象装置の各々に関して、当該監視対象装置に対応付けられている通常監視期間外に現在が該当するか否かを判定する判定部と、前記通常監視期間外に該当すると判定された監視対象装置ごとに、当該監視対象装置に通常監視期間内に監視する監視項目として対応付けられている複数の監視項目のうち前記通常監視期間外の監視対象として設定されている一部の監視項目に関する監視を当該監視対象装置に対して実行し、実行結果に基づいてアラームを検出する監視制御部と、を備える、監視システムが提供される。
Further, in order to solve the above problem, according to another viewpoint of the present invention, for each of the at least one monitored devices, does the present correspond to the outside of the normal monitoring period associated with the monitored device? A plurality of monitoring items associated with the monitoring target device as monitoring items to be monitored within the normal monitoring period for each of the determination unit for determining whether or not the device and the monitoring target device determined to be outside the normal monitoring period. Of these, a monitoring control unit that executes monitoring of some of the monitoring items set as monitoring targets outside the normal monitoring period for the monitored device and detects an alarm based on the execution result is provided. A surveillance system is provided.
また、上記課題を解決するために、本発明の別の観点によれば、少なくとも一つの監視対象装置の各々に関して、当該監視対象装置に対応付けられている通常監視期間外に現在が該当するか否かを判定するステップと、前記通常監視期間外に該当すると判定された監視対象装置ごとに、当該監視対象装置に通常監視期間内に監視する監視項目として対応付けられている複数の監視項目のうち前記通常監視期間外の監視対象として設定されている一部の監視項目に関する監視を当該監視対象装置に対して実行し、実行結果に基づいてアラームを検出するステップと、を含む、監視方法が提供される。
Further, in order to solve the above problem, according to another viewpoint of the present invention, for each of the at least one monitored devices, does the present correspond to the outside of the normal monitoring period associated with the monitored device? A step of determining whether or not, and a plurality of monitoring items associated with the monitored device as monitoring items to be monitored within the normal monitoring period for each monitored device determined to fall outside the normal monitoring period. Among them, the monitoring method includes a step of executing monitoring of some monitoring items set as monitoring targets outside the normal monitoring period for the monitored device and detecting an alarm based on the execution result. Provided.
また、上記課題を解決するために、コンピュータを、少なくとも一つの監視対象装置の各々に関して、当該監視対象装置に対応付けられている通常監視期間外に現在が該当するか否かを判定する判定部と、前記通常監視期間外に該当すると判定された監視対象装置ごとに、当該監視対象装置に通常監視期間内に監視する監視項目として対応付けられている複数の監視項目のうち前記通常監視期間外の監視対象として設定されている一部の監視項目に関する監視を当該監視対象装置に対して実行し、実行結果に基づいてアラームを検出する監視制御部、として機能させるための、プログラムが提供される。
Further, in order to solve the above problem, a determination unit for determining whether or not the computer currently corresponds to each of at least one monitored device outside the normal monitoring period associated with the monitored device. And, for each monitored device determined to fall outside the normal monitoring period, of the plurality of monitoring items associated with the monitored device as monitoring items to be monitored within the normal monitoring period, the outside of the normal monitoring period A program is provided to execute monitoring of some of the monitoring items set as the monitoring target of the device, and to function as a monitoring control unit that detects an alarm based on the execution result. ..
以上説明したように本発明によれば、監視対象装置および時期に適応した内容の監視を当該監視対象装置に対して実行することができる。 As described above, according to the present invention, it is possible to perform monitoring of the monitored device and the contents adapted to the timing for the monitored device.
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Preferred embodiments of the present invention will be described in detail below with reference to the accompanying drawings. In the present specification and the drawings, components having substantially the same functional configuration are designated by the same reference numerals, so that duplicate description will be omitted.
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成要素を、必要に応じて監視対象装置20aおよび監視対象装置20bのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、監視対象装置20aおよび監視対象装置20bを特に区別する必要が無い場合には、単に監視対象装置20と称する。
Further, in the present specification and the drawings, a plurality of components having substantially the same functional configuration may be distinguished by adding different alphabets after the same reference numerals. For example, a plurality of components having substantially the same functional configuration are distinguished as required, such as the monitored
また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
1.本発明の比較例
2.実施形態の詳細な説明
3.ハードウェア構成
4.変形例
In addition, the "mode for carrying out the invention" will be described in accordance with the order of items shown below.
1. 1. Comparative example of the
<<1.本発明の比較例>>
<1−1.比較例による監視システム>
まず、本発明の特徴を明確に示すために、本発明の比較例による監視システムについて説明する。図1は、本比較例による監視システムの構成を示した説明図である。図1に示すように、当該監視システムは、監視装置群2、複数の監視対象装置20、および、通信網22を含む。また、監視装置群2は、監視サーバ90、監視システムコンソール30、監視端末32、および、表示装置34を含む。
<< 1. Comparative example of the present invention >>
<1-1. Monitoring system by comparative example>
First, in order to clearly show the features of the present invention, a monitoring system according to a comparative example of the present invention will be described. FIG. 1 is an explanatory diagram showing a configuration of a monitoring system according to this comparative example. As shown in FIG. 1, the monitoring system includes a
{1−1−1.監視対象装置20}
監視対象装置20は、後述する監視サーバ90による監視の対象の装置である。例えば、監視対象装置20は、後述する通信網22に接続されているサーバ機器やネットワーク機器などであり得る。
{1-1-1. Monitored device 20}
The monitoring target device 20 is a device to be monitored by the monitoring
{1−1−2.監視サーバ90}
監視サーバ90は、複数の監視対象装置20の各々を監視する装置である。例えば、監視サーバ90は、監視対象装置20ごとに、当該監視対象装置20の状態(ハードウェア状態やソフトウェア状態など)や稼働状況などを監視する。
{1-1-2. Monitoring server 90}
The monitoring
また、監視サーバ90は、監視機能ごとに監視の実行に要する時間を管理したり、監視対象装置20ごとに当該監視対象装置20に対する監視の予定期間(監視期間)の情報を管理する。そして、監視サーバ90は、監視対象装置20ごとに、当該監視対象装置20に対応付けられている監視期間において当該監視対象装置20に対する監視を実行する。なお、例えばメンテナンス作業などにより監視対象装置20が停止する時間帯などは、非監視期間として例えば管理者により予め設定される。そして、監視サーバ90は、監視対象装置20ごとに、当該監視対象装置20に対応付けられている非監視期間内は、当該監視対象装置20に対する監視を実行しない。
Further, the monitoring
また、監視サーバ90は、例えば複数の監視対象装置20の各々の監視の条件が予め定められている監視ポリシー40に従って、当該複数の監視対象装置20の各々に対して監視を実行する。例えば、監視サーバ90は、監視対象装置20ごとに、当該監視対象装置20に対応付けて監視ポリシー40に登録されている全ての監視項目の各々に関する監視を、当該監視対象装置20に対応付けられている監視期間内に当該監視対象装置20に対して実行する。
Further, the monitoring
また、監視サーバ90は、監視対象装置20ごとに、当該監視対象装置20に対する監視の実行結果に応じてアラームを検出する。ここで、アラームは、例えば、監視対象装置20に対する監視の実行により検出されたイベントのうち、外部の装置(表示装置34など)へ発報する必要のある(重要度の高い)イベントであり得る。
Further, the monitoring
例えば、監視対象装置20ごとに、当該監視対象装置20に対応付けられている、重要度が所定の値以上である監視項目に関する監視の実行結果が所定の条件を満たす場合に、監視サーバ90は、当該監視結果を当該重要度のアラームとして検出する。そして、アラームを検出した場合には、監視サーバ90は、検出されたアラームの内容を示すアラーム情報を外部の装置へ通知する。
For example, for each monitored device 20, when the execution result of monitoring related to the monitoring item whose importance is equal to or higher than a predetermined value, which is associated with the monitored device 20, satisfies a predetermined condition, the monitoring
(1−1−2−1.監視ポリシー40)
監視ポリシー40は、本比較例による、複数の監視対象装置20の各々に対する監視の条件が登録されているデータベースである。図2は、監視ポリシー40の構成例を示した説明図である。図2に示したように、監視ポリシー40は、当該複数の監視対象装置20の各々の監視ポリシー情報400を含む。また、個々の監視ポリシー情報400は、ホスト名410、IPアドレス420、非監視スケジュール430、および、監視実行ポリシー440を含む。ここで、ホスト名410およびIPアドレス420には、該当の監視対象装置20を一意に識別するためのホスト名またはIPアドレスがそれぞれ記録される。また、非監視スケジュール430には、該当の監視対象装置20に対して監視が実行されない期間(非監視期間)が記録される。ここで、非監視スケジュール430は、間隔432、条件434、時間帯436、および、理由438を含む。間隔432、条件434、および、時間帯436には、該当の監視対象装置20の非監視期間の間隔、当該非監視期間の日にち、または、当該非監視期間の時間帯がそれぞれ記録される。また、理由438には、当該非監視期間に監視が実行されない理由が記録される。また、監視実行ポリシー440には、該当の監視対象装置20に対して実行される監視の内容が記録される。ここで、監視実行ポリシー440は、監視機能442、対象444、No446、監視項目448、および、レベル450を含む。監視機能442には、該当の監視対象装置20に対して実行される監視機能(監視種類)が記録される。ここで、監視機能の具体例は、例えばイベント監視、ログ監視、および、リソース監視などである。イベント監視は、例えば該当の監視対象装置20のイベントログの内容を監視する機能である。また、ログ監視は、例えば該当の監視対象装置20のログ情報の内容を監視する機能である。また、リソース監視は、例えば該当の監視対象装置20のリソース情報(例えばCPU(Central Processing Unit)使用率や、ディスクの空き容量など)を監視する機能である。
(1-1-2-1. Monitoring policy 40)
The
また、対象444には、該当の監視機能における監視の対象となる情報などが記録される。また、No446、監視項目448、および、レベル450には、該当の監視機能に含まれる個々の監視項目の連番、項目名、またはレベル(重要度)がそれぞれ記録される。ここで、レベル450には、監視項目ごとに、例えば「緊急」、「重要」、「注意」などの複数のレベルのうちのいずれかが記録される。なお、前述したように、設定されているレベルが所定の値以上である監視項目に関する監視結果が所定の条件を満たすことが検出された場合には、監視サーバ90は、当該監視結果を当該重要度のアラームとして検出する。
In addition, information to be monitored by the corresponding monitoring function is recorded in the target 444. Further, in No. 446, the monitoring item 448, and the level 450, the serial number, item name, or level (importance) of each monitoring item included in the corresponding monitoring function is recorded. Here, at level 450, any one of a plurality of levels such as "emergency", "important", and "attention" is recorded for each monitoring item. As described above, when it is detected that the monitoring result for the monitoring item whose set level is equal to or higher than the predetermined value satisfies the predetermined condition, the monitoring
例えば、図2に示した監視ポリシー40の例では、監視サーバ90は、「監視対象1」という監視対象装置20に対する「イベント監視」において、「システムイベント」に対して監視を行う。具体的には、監視サーバ90は、「イベント監視」に対応付けて監視ポリシー40に登録されている個々の監視項目の文言(例えば「警告」、「ディスク障害」、「アプリケーションクラッシュ」、および「エラー」など)が「システムイベント」において記録された(または出力された)か否かを監視する。
For example, in the example of the
{1−1−3.監視システムコンソール30}
監視システムコンソール30は、例えば監視ポリシー40の登録内容や、監視サーバ90の設定情報などを変更するために監視員等により使用される端末である。
{1-1-3. Surveillance system console 30}
The
{1−1−4.監視端末32}
監視端末32は、例えば、監視サーバ90が監視中の複数の監視対象装置20の各々の状態やアラームの発生状況などを監視員が確認するために使用される端末である。
{1-1-4. Monitoring terminal 32}
The
{1−1−5.表示装置34}
表示装置34は、監視サーバ90から受信される発報(アラーム情報など)を表示する装置である。例えば、表示装置34は、警告灯であってもよいし、または、例えば液晶ディスプレイなどのディスプレイを有してもよい。
{1-1-5. Display device 34}
The
{1−1−6.通信網22}
通信網22は、通信網22に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網22は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網22は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
{1-1-6. Communication network 22}
The
<1−2.比較例による処理の流れ>
以上、本比較例による監視システムの構成について説明した。続いて、本比較例による処理の流れについて、図3〜図6を参照して説明する。
<1-2. Processing flow by comparative example>
The configuration of the monitoring system according to this comparative example has been described above. Subsequently, the flow of processing according to this comparative example will be described with reference to FIGS. 3 to 6.
{1−2−1.全体の流れ}
図3は、本比較例による処理の全体的な流れを示したフローチャートである。図3に示したように、まず、監視サーバ90は、監視対象装置20ごと、および、監視機能ごとに、個々の監視対象装置20に対する監視の実行タイミングを管理する(S901)。
{1-2-1. Overall flow}
FIG. 3 is a flowchart showing the overall flow of processing according to this comparative example. As shown in FIG. 3, first, the monitoring
そして、定期的な期間が経過した際、または、予め定められた日時に達した際には(S903:Yes)、まず、監視サーバ90は、監視ポリシー40を参照し、複数の監視対象装置20の各々に関して、当該監視対象装置20に対応付けられている非監視期間内に現在が該当するか否かを判定する(S905)。当該複数の監視対象装置20のうちの少なくとも一つに対応付けられている非監視期間内に現在が該当する場合には(S905:Yes)、監視サーバ90は、該当の監視対象装置20に対する監視の実行をスキップし、そして、次の実行契機となるまで待機する。つまり、監視サーバ90は、監視ポリシー40に登録されている非監視期間内に現在が該当する監視対象装置20に関しては、当該監視対象装置20に対する監視を実行しない。その後、S901の処理が再び実行される。
Then, when the periodic period elapses or when the predetermined date and time is reached (S903: Yes), the monitoring
一方、当該複数の監視対象装置20のうちの少なくとも一つに対応付けられている非監視期間内に現在が該当しない場合(つまり監視期間内に現在が該当する場合)には(S905:No)、監視サーバ90は、該当する監視対象装置20ごとに、後述する「監視処理」を行う(S907)。
On the other hand, when the present does not correspond within the non-monitoring period associated with at least one of the plurality of monitored devices 20 (that is, when the present corresponds within the monitoring period) (S905: No). , The monitoring
{1−2−2.監視処理}
次に、図4を参照して、S907における「監視処理」の流れについて詳細に説明する。図4に示したように、監視サーバ90は、まず、当該監視対象装置20に対応付けられている全ての監視項目の各々に関して監視に必要な情報(以下、監視情報と称する場合がある)の取得要求を当該監視対象装置20へ送信する(S911)。ここで、監視情報は、例えば、イベント監視の場合にはイベントログの情報であってもよいし、また、リソース監視の場合には当該監視対象装置20のリソース情報であってもよい。
{1-2-2. Monitoring process}
Next, with reference to FIG. 4, the flow of the “monitoring process” in S907 will be described in detail. As shown in FIG. 4, the monitoring
その後、例えば少なくとも一つの監視項目に対応する監視情報の取得に失敗した場合には(S913:No)、監視サーバ90は、後述する「エラー処理」を行う(S915)。そして、当該処理の流れは終了する。
After that, for example, when the acquisition of the monitoring information corresponding to at least one monitoring item fails (S913: No), the monitoring
一方、当該監視情報の取得に成功した場合には(S913:Yes)、次に、監視サーバ90は、取得された情報の全てに関する検査が終了しない間は(S917:No)、当該情報のうち未検査の一つの情報に関して、後述するS919〜S921の処理を行う。なお、取得された情報の全てに関する検査が終了した場合には(S917:Yes)、当該「監視処理」は終了する。
On the other hand, if the acquisition of the monitoring information is successful (S913: Yes), then the
具体的には、まず、監視サーバ90は、該当の監視対象装置20に対応付けられている全ての監視項目のうち、未検査の一つの監視項目に関して、後述する「アラーム検査処理」を行う(S919)。
Specifically, first, the monitoring
その後、当該監視対象装置20に対応付けられている全ての監視項目のうち、未検査の監視項目が存在する場合には(S921:No)、監視サーバ90は、再びS919の処理を繰り返す。一方、当該監視対象装置20に対応付けられている全ての監視項目に関する検査が終了した場合には(S921:Yes)、監視サーバ90は、再びS917の処理を繰り返す。
After that, if there is an uninspected monitoring item among all the monitoring items associated with the monitored device 20 (S921: No), the monitoring
{1−2−3.エラー処理}
次に、図5を参照して、S915における「エラー処理」の流れについて詳細に説明する。図5に示したように、監視サーバ90は、まず、当該失敗の内容、つまり発生したエラーの内容を示す情報(以下、エラー情報と称する場合がある)を記憶する(S931)。そして、監視サーバ90は、当該エラー情報を所定の装置(例えば表示装置34など)に通知する(S933)。
{1-2-3. Error handling}
Next, the flow of "error processing" in S915 will be described in detail with reference to FIG. As shown in FIG. 5, the monitoring
{1−2−4.アラーム検出処理}
次に、図6を参照して、S919における「アラーム検出処理」の流れについて詳細に説明する。図6に示したように、監視サーバ90は、まず、該当の情報に対して該当の監視項目に照らして監視(検査)を行う(S941)。そして、当該監視結果が所定の条件を満たし、かつ、該当の監視項目に対応付けられている重要度が所定の値以上である場合には、監視サーバ90は、当該監視結果を当該重要度のアラームとして検出する(S943)。当該監視項目に関してアラームが検出されなかった場合には(S943:No)、当該「アラーム検出処理」は終了する。
{1-2-4. Alarm detection process}
Next, with reference to FIG. 6, the flow of the “alarm detection process” in S919 will be described in detail. As shown in FIG. 6, the monitoring
一方、アラームが検出された場合には(S943:Yes)、まず、監視サーバ90は、検出されたアラームの内容を示すアラーム情報を記憶する(S945)。そして、監視サーバ90は、当該アラーム情報を所定の装置(例えば表示装置34など)に通知する(S947)。
On the other hand, when an alarm is detected (S943: Yes), first, the monitoring
<1−3.課題の整理>
{1−3−1.課題1}
以上、本発明の比較例について説明した。ところで、前述した非監視期間中に、例えばハードウェア障害などの、想定しない、かつ、見逃せない異常事態(つまり、アラームに相当する事態)が監視対象装置20に発生する可能性がある。
<1-3. Arrangement of issues>
{1-3-1. Exercise 1}
The comparative example of the present invention has been described above. By the way, during the non-monitoring period described above, an unexpected and unavoidable abnormal situation (that is, a situation corresponding to an alarm) such as a hardware failure may occur in the monitored device 20.
しかしながら、本比較例による監視サーバ90は、前述したように、非監視期間中には該当の監視対象装置20に対して監視を行わない。このため、このような異常事態の発生を見逃してしまう。また、非監視期間の終了後に監視を行う場合であっても当該異常事態の検出が遅れてしまう。その結果、システムやサービスの停止に繋がる重篤な問題が発生する可能性がある。
However, as described above, the monitoring
{1−3−2.課題2}
なお、この問題を解決するための方法として、監視対象装置20ごとに、一以上の監視項目と監視スケジュールとを複数設定し、駆使することにより、特定の期間(例えばメンテナンス作業の期間など)にのみ特定の監視内容を実行可能にする方法も考えられる。
{1-3-2. Task 2}
As a method for solving this problem, one or more monitoring items and a plurality of monitoring schedules are set for each monitored device 20, and by making full use of them, a specific period (for example, a maintenance work period) can be set. It is also conceivable to make specific monitoring contents feasible.
しかしながら、この方法は、仮に実現可能であったとしても、スケジュールや監視実行ポリシーなどの設定や管理が煩雑になったり、設定誤りが生じやすいという問題がある。 However, even if this method is feasible, there is a problem that the setting and management of the schedule and the monitoring execution policy become complicated, and setting errors are likely to occur.
{1−3−3.課題3}
また、別の方法として、非監視期間を設定することなく、監視対象装置20に対して常に監視を実行する方法も考えられる。しかしながら、この方法では、例えば定期再起動や保守などの間に当然発生することが予想される、意味のないアラームまで検出してしまう。その結果、監視運用業務が煩雑化したり、負荷が大きく増加してしまう。
{1-3-3. Exercise 3}
Further, as another method, a method of constantly monitoring the monitored device 20 without setting a non-monitoring period can be considered. However, this method detects even meaningless alarms that are expected to occur naturally during, for example, periodic restarts and maintenance. As a result, the monitoring and operation work becomes complicated and the load increases significantly.
そこで、上記事情を一着眼点にして、本実施形態による監視サーバ10を創作するに至った。監視サーバ10は、少なくとも一つの監視対象装置20の各々に関して、当該監視対象装置20に対応付けられている通常監視期間外に現在が該当するか否かを判定し、そして、当該通常監視期間外に該当すると判定された監視対象装置20ごとに、当該監視対象装置20に対応付けられている複数の監視項目のうち当該通常監視期間外の監視対象として設定されている監視項目に関する監視を当該監視対象装置20に対して実行する。これにより、監視対象装置20および時期に適応した内容の監視を当該監視対象装置20に対して実行することができる。例えば、通常監視期間外であっても、特定の監視項目に関する監視を監視対象装置20に対して実行することができる。以下、このような本実施形態について順次詳細に説明する。
Therefore, with the above circumstances as the first point of view, the monitoring
<<2.実施形態の詳細な説明>>
<2−1.監視システムの構成>
まず、本実施形態による監視システムの構成について、図7を参照して説明する。図7に示したように、本実施形態による監視システムは、(図1に示した)本比較例による監視システムと比べて、監視サーバ90の代わりに、監視サーバ10を有する。ここで、監視サーバ10は、本発明における監視装置の一例である。なお、他の構成要素については、本発明の比較例と概略同様である。
<< 2. Detailed description of the embodiment >>
<2-1. Monitoring system configuration>
First, the configuration of the monitoring system according to the present embodiment will be described with reference to FIG. 7. As shown in FIG. 7, the monitoring system according to the present embodiment has a
<2−2.構成>
以上、本実施形態による監視システムの構成について説明した。次に、本実施形態による構成について詳細に説明する。図8は、本実施形態による監視サーバ10の構成を示した機能ブロック図である。図8に示したように、監視サーバ10は、制御部100、通信部120、および、記憶部122を有する。
<2-2. Configuration>
The configuration of the monitoring system according to the present embodiment has been described above. Next, the configuration according to the present embodiment will be described in detail. FIG. 8 is a functional block diagram showing the configuration of the
{2−2−1.制御部100}
制御部100は、監視サーバ10に内蔵される、後述するCPU150や、RAM(Random Access Memory)154などのハードウェアを用いて、監視サーバ10の動作を統括的に制御する。また、図8に示したように、制御部100は、スケジュール管理部102、判定部104、監視情報取得部106、エラー特定部108、監視制御部110、および、送信制御部112を有する。
{2-2-1. Control unit 100}
The
{2−2−2.スケジュール管理部102}
スケジュール管理部102は、複数の監視対象装置20の各々に対して適切に監視を実行するためのスケジュールの管理を行う。例えば、複数の監視対象装置20の各々と、当該監視対象装置20の例外監視期間とが対応付けて、後述する監視ポリシー42に登録され得る。ここで、例外監視期間は、通常監視期間外の期間であり得る。この場合、スケジュール管理部102は、監視ポリシー42に従って、複数の監視対象装置20の各々に関する通常監視期間および例外監視期間を管理し得る。
{2-2-2. Schedule management unit 102}
The
(2−2−2−1.監視ポリシー42)
監視ポリシー42は、本実施形態による監視ポリシーであり、複数の監視対象装置20の各々に関する監視の条件が登録されるデータベースである。より具体的には、監視ポリシー42では、当該複数の監視対象装置20の各々に関して、当該監視対象装置20と複数の監視項目とが対応付けて登録される。ここで、当該複数の監視項目は全て、当該監視対象装置20の通常監視期間内の監視対象として設定されている監視項目であり得る。例えば、監視ポリシー42では、当該複数の監視対象装置20の各々に関して、当該監視対象装置20と少なくとも一つの監視機能とが対応付けられており、かつ、当該少なくとも一つの監視機能の各々と複数の監視項目とが対応付けられ得る。
(2-2-2-1. Monitoring policy 42)
The
図9は、監視ポリシー42の構成例を示した説明図である。図9に示したように、監視ポリシー42は、本比較例による監視ポリシー40と比較して、非監視スケジュール430の代わりに、例外監視スケジュール460を有する。ここで、例外監視スケジュール460には、該当の監視対象装置20に対応付けて登録されている例外監視期間の情報が記録される。具体的には、図9に示したように、例外監視スケジュール460は、間隔462、条件464、時間帯466、および、理由468を含む。なお、間隔462、条件464、および、時間帯466には、該当の監視対象装置20に対応付けて登録されている例外監視期間の間隔、当該例外監視期間の日にち、または、当該例外監視期間の時間帯がそれぞれ記録される。また、理由468には、該当の期間が例外監視期間として設定されている理由が記録される。また、監視ポリシー42は、本比較例による監視ポリシー40と比較して、監視実行ポリシー440内に例外フラグ470をさらに有する。例外フラグ470は、監視実行ポリシー440内の個々の監視項目448が例外監視期間内の監視対象として設定されている(図9に示した例では「ON」)か、否(図9に示した例では「OFF」)かが記録される。
FIG. 9 is an explanatory diagram showing a configuration example of the
{2−2−3.判定部104}
判定部104は、複数の監視対象装置20の各々に関して、当該監視対象装置20に対応付けられている例外監視期間内に現在が該当するか否かを判定する。例えば、判定部104は、複数の監視対象装置20の各々に関して、所定の時間間隔で、まず、当該監視対象装置20に対応付けて監視ポリシー42に登録されている例外監視期間を特定する。そして、判定部104は、特定した例外監視期間と現在とを比較することにより、当該例外監視期間内(つまり通常監視期間外)に現在が該当するか否かを判定する。
{2-2-3. Judgment unit 104}
The
{2−2−4.監視情報取得部106}
監視情報取得部106は、本発明における取得部の一例である。監視情報取得部106は、複数の監視対象装置20の各々に関して、当該監視対象装置20に対応付けられている少なくとも一つの監視機能の各々に対応する、監視に必要な情報(監視情報)を当該監視対象装置20から取得する。例えば、監視情報取得部106は、複数の監視対象装置20の各々に関して、当該監視対象装置20に対応付けられている全ての監視機能の各々(または、当該監視機能に対応付けられている全ての監視項目の各々)に対応する監視情報の取得要求を当該監視対象装置20へ後述する通信部120に送信させることにより、当該監視情報を当該監視対象装置20から取得する。
{2-2-4. Monitoring information acquisition unit 106}
The monitoring
{2−2−5.エラー特定部108}
エラー特定部108は、本発明における原因特定部の一例である。エラー特定部108は、複数の監視対象装置20の各々に関して、監視情報取得部106による当該監視対象装置20からの少なくとも一つの監視情報の取得が失敗した場合に、当該失敗に関する情報(失敗の種類や失敗の原因など)を特定する。例えば、ある監視対象装置20に対して監視情報の取得要求が送信された後に、エラーコードが当該監視対象装置20から受信された場合には、エラー特定部108は、当該失敗の原因(例えば、ログインエラー、接続エラーなど)を当該エラーコードに基づいて特定してもよいし、当該エラーコードに対応するエラーを当該失敗の種類として特定してもよい。また、ある監視対象装置20に対して監視情報の取得要求が送信されてから所定の時間内に当該監視対象装置20から応答が全く受信されなかった場合には、エラー特定部108は、当該失敗の原因を当該監視対象装置20が停止中であることとして特定してもよい。
{2-2-5. Error identification part 108}
The
なお、エラー特定部108は、複数の監視対象装置20の各々に関して、監視情報の取得が失敗したタイミングに応じて当該失敗の原因を特定してもよい。例えば、監視対象装置20からの監視情報の取得が失敗したタイミングが当該監視対象装置20の例外監視期間内である場合にのみ、エラー特定部108は、当該失敗の原因を特定してもよい。
The
{2−2−6.監視制御部110}
(2−2−6−1.監視の実行)
監視制御部110は、複数の監視対象装置20の各々に関する監視の実行を制御する。例えば、複数の監視対象装置20のうち、現在が通常監視期間内に該当すると判定部104により判定された監視対象装置20の各々に関しては、監視制御部110は、当該監視対象装置20に対応付けられている全ての監視項目に関する監視を当該監視対象装置20に対して実行する。
{2-2-6. Monitoring control unit 110}
(2-2-6-1. Execution of monitoring)
The
また、複数の監視対象装置20のうち、現在が例外監視期間内に該当すると判定部104により判定された監視対象装置20の各々に関しては、監視制御部110は、当該監視対象装置20に対応付けられている全ての監視項目のうち、例外監視期間内の監視対象として設定されている監視項目(以下、例外監視対象の監視項目と称する)のみに関する監視を当該監視対象装置20に対して実行する。つまり、当該監視対象装置20に対応付けられている全ての監視項目のうち、例外監視期間内の監視対象として設定されていない監視項目(以下、例外監視対象外の監視項目と称する)に関しては、監視制御部110は、当該監視対象装置20に対して監視を実行しない。
Further, among the plurality of monitored devices 20, the
より詳細には、現在が例外監視期間内に該当すると判定部104により判定された監視対象装置20の各々に関しては、監視制御部110は、当該監視対象装置20に対応付けられている全ての監視機能の各々に関して、当該監視機能に対応付けられている全ての監視項目のうち例外監視対象の監視項目のみに関する監視を当該監視対象装置20に対して実行することが可能である。つまり、当該監視対象装置20に対応付けられている全ての監視機能の各々に関して、当該監視機能に対応付けられている全ての監視項目のうち例外監視対象外の監視項目に関しては、監視制御部110は、当該監視対象装置20に対する監視を実行しない。
More specifically, for each of the monitored devices 20 determined by the
例えば、図9に示した監視ポリシー42の例では、監視制御部110は、例えば、「監視対象1」という監視対象装置20に対して、例外監視期間内には、「イベント監視」に関して、例外フラグが「ON」に設定されている監視項目である「ディスク障害」という文言が「システムイベント」中に記録されているか否かのみを(例外的に)監視する。かつ、監視制御部110は、「イベント監視」に関して、他の監視項目(つまり例外フラグが「OFF」に設定されている監視項目)に関する監視を実行しない。
For example, in the example of the
(2−2−6−2.アラームの検出)
また、監視制御部110は、複数の監視対象装置20の各々に対する監視の実行結果に基づいてアラームを検出することが可能である。例えば、監視制御部110は、複数の監視対象装置20の各々に関して、まず、当該監視対象装置20に対応付けられている個々の監視項目に関して、当該監視項目に関する監視の実行結果が所定の条件を満たすか否かを判定する。そして、当該監視の実行結果が所定の条件を満たす場合には、監視制御部110は、当該監視の実行結果を、当該監視項目に対応付けられている重要度のアラームとして検出する。
(2-2-6-2. Alarm detection)
Further, the
‐具体例
ここで、図10を参照して、上記の監視制御部110の機能についてより詳細に説明する。図10は、監視制御部110による通常監視の実行例と例外監視の実行例とを示した説明図である。なお、図10に示したように、監視対象装置20aと対応付けて「n」個の監視項目が監視ポリシー42に登録されており、かつ、(n個の監視項目のうち)「監視項目2」のみが例外監視の監視対象として設定されているものとする。
-Specific Example Here, the function of the above-mentioned
図10に示したように、監視対象装置20aに対応付けられている通常監視期間50内では、監視制御部110は、監視対象装置20aに対してn個全ての監視項目に関して監視を実行する。そして、監視制御部110は、各監視項目に関する監視の実行結果と、各監視項目に対応付けられている重要度とに応じてアラームを検出する。
As shown in FIG. 10, within the normal monitoring period 50 associated with the monitored
また、図10に示したように、監視対象装置20aに対応付けられている例外監視期間52内では、監視制御部110は、監視対象装置20aに対して「監視項目2」のみに関して監視を実行する。そして、監視制御部110は、「監視項目2」に関する監視の実行結果と、「監視項目2」に対応付けられている重要度とに応じてアラームを検出する。
Further, as shown in FIG. 10, within the exception monitoring period 52 associated with the monitored
{2−2−7.送信制御部112}
(2−2−7−1.エラー情報の送信)
送信制御部112は、他の装置に対する各種の情報の送信を制御する。例えば、エラー特定部108により特定された失敗の原因が所定の原因である場合(あるいは、当該失敗の種類が所定の種類である場合)には、送信制御部112は、当該失敗に対応するエラー情報を所定の装置(例えば表示装置34など)へ通信部120に送信させる。また、エラー特定部108により特定された失敗の原因が所定の原因以外である場合(あるいは、当該失敗の種類が所定の種類以外である場合)には、送信制御部112は、当該失敗に対応するエラー情報を当該所定の装置へ通信部120に送信させない。つまり、当該失敗はエラーとして扱われない。なお、エラー情報は、例えば、該当のエラーが発生した監視対象装置20の識別情報、エラーの発生日時、エラー特定部108により特定されたエラーの種類や原因などを含み得る。
{2-2-7. Transmission control unit 112}
(2-2-7-1. Transmission of error information)
The
ここで、所定の原因は、例外監視期間内の想定内エラー(例えばネットワークエラーやログインエラーなど)に対応する原因であり得る。また、想定内エラーは、例外監視期間内において発生することが事前に想定される種類のエラーであり、基本的にエラー扱いされない。また、想定内エラーの各々に対応するエラーコードの一覧は、記憶部122に記憶され得る。
Here, the predetermined cause may be a cause corresponding to an expected error (for example, a network error or a login error) within the exception monitoring period. In addition, an expected error is a type of error that is expected to occur within the exception monitoring period, and is basically not treated as an error. Further, a list of error codes corresponding to each of the expected errors can be stored in the
(2−2−7−2.アラーム情報の送信)
また、複数の監視対象装置20の各々に関して、少なくとも一つのアラームが監視制御部110により検出された場合に、送信制御部112は、検出されたアラームに対応するアラーム情報を所定の装置へ通信部120に送信させる。例えば、複数の監視対象装置20の各々に関して、監視制御部110によりアラームが一つ検出される度に、送信制御部112は、当該アラームに対応するアラーム情報を当該所定の装置へ通信部120に逐次送信させる。ここで、アラーム情報は、該当のアラームの重要度、該当のアラームが検出された監視対象装置20の識別情報、当該アラームに対応する監視機能および監視項目の情報、および、当該アラームの検出日時などを含み得る。
(2-2-7-2. Transmission of alarm information)
Further, when at least one alarm is detected by the
ここで、所定の装置は、例えば表示装置34であってもよいし、監視サーバ10よりも上位の装置(図示省略)などであってもよい。例えば、表示装置34が警告灯を含み、かつ、アラーム情報が表示装置34に送信された場合には、当該警告灯が点灯し得る。または、当該所定の装置は、関係者(監視員など)が使用する端末(監視端末32など)であってもよい。この場合、当該端末は、アラーム情報を受信すると、当該アラーム情報を表示画面に自動的に表示し得る。
Here, the predetermined device may be, for example, a
なお、変形例として、少なくとも一つのアラームが検出された場合には、送信制御部112は、電子メールやSMS(Short Message Service)を当該関係者のメールアドレス宛てに通信部120に送信させてもよい。または、送信制御部112は、当該関係者の電話番号宛てに呼を自動発信してもよいし、または、当該関係者の携帯装置(ポケットベルなど)へ所定の通知を通信部120に送信させてもよい。
As a modification, when at least one alarm is detected, the
なお、アラーム情報の送信先の装置と、エラー情報の送信先の装置とは基本的には異なる。但し、かかる例に限定されず、アラーム情報とエラー情報とは同一の装置に送信されてもよい。 The device to which the alarm information is transmitted and the device to which the error information is transmitted are basically different. However, the present invention is not limited to this, and the alarm information and the error information may be transmitted to the same device.
{2−2−8.通信部120}
通信部120は、例えば通信網22などを介して、他の装置との間で情報の送受信を行う。例えば、通信部120は、複数の監視対象装置20の各々から監視情報を受信する。また、通信部120は、送信制御部112の制御に従って、例えば表示装置34などの他の装置へエラー情報やアラーム情報を送信する。
{2-2-8. Communication unit 120}
The communication unit 120 transmits / receives information to / from other devices via, for example, a
{2−2−9.記憶部122}
記憶部122は、各種のデータや各種のソフトウェアを記憶する。例えば、記憶部122は、個々の監視対象装置20から取得した監視情報、アラーム情報の履歴、および、監視ポリシー42などを記憶する。なお、監視ポリシー42は、記憶部122に記憶される例に限定されず、監視サーバ10と通信可能な他の装置に記憶されてもよい。また、監視ポリシー42内の情報は全て同一の媒体に格納されてもよいし、または、複数の媒体に分散されて格納されてもよい。
{2-2-9. Storage unit 122}
The
<2−3.処理の流れ>
以上、本実施形態による構成について説明した。続いて、本実施形態による処理の流れについて、図11〜図15を参照して説明する。
<2-3. Process flow>
The configuration according to the present embodiment has been described above. Subsequently, the flow of processing according to this embodiment will be described with reference to FIGS. 11 to 15.
{2−3−1.全体の流れ}
図11は、本実施形態による処理の全体的な流れを示したフローチャートである。図11に示したように、まず、監視サーバ10のスケジュール管理部102は、監視対象装置20ごとに、例えば当該監視対象装置20に対応付けて監視ポリシー42に登録されている監視機能ごとに、監視の実行開始タイミングを管理する(S101)。
{2-3-1. Overall flow}
FIG. 11 is a flowchart showing the overall flow of processing according to the present embodiment. As shown in FIG. 11, first, the
その後、定期的な期間が経過した際、または、予め定められた日時に達した際には(S103:Yes)、判定部104は、監視ポリシー42を参照し、複数の監視対象装置20の各々に関して、当該監視対象装置20に対応付けられている例外監視期間内に現在が該当するか否かを判定する(S105)。当該複数の監視対象装置20のうちの少なくとも一つに対応付けられている例外監視期間内に現在が該当しない場合(つまり通常監視期間内に現在が該当する場合)には(S105:No)、監視制御部110は、該当する監視対象装置20ごとに、後述する「監視処理」を行う(S111)。その後、監視サーバ10は、再びS101の処理を繰り返す。
After that, when a periodic period elapses or when a predetermined date and time is reached (S103: Yes), the
一方、当該複数の監視対象装置20のうちの少なくとも一つに対応付けられている例外監視期間内に現在が該当する場合には(S105:Yes)、まず、監視制御部110は、監視ポリシー42を参照することにより、該当する監視対象装置20ごとに、当該監視対象装置20に対応付けられている全ての監視項目のうち、例外監視対象の監視項目の有無を確認する(S107)。例外監視対象の監視項目が存在する監視対象装置20に関しては(S109:Yes)、監視制御部110は、該当する監視対象装置20ごとに、後述する「監視処理」を行う(S111)。その後、監視サーバ10は、再びS101の処理を繰り返す。
On the other hand, if the current state falls within the exception monitoring period associated with at least one of the plurality of monitored devices 20 (S105: Yes), first, the
一方、例外監視対象の監視項目が存在しない監視対象装置20に関しては(S109:No)、監視サーバ10は、該当する監視対象装置20に対する監視をスキップする。その後、監視サーバ10は、再びS101の処理を繰り返す。
On the other hand, regarding the monitored device 20 for which there is no monitoring item to be exceptionally monitored (S109: No), the monitoring
{2−3−2.監視処理}
次に、図12を参照して、S111における「監視処理」の流れについて詳細に説明する。図12に示したように、監視サーバ10の通信部120は、監視情報取得部106の制御に従って、例えば該当の監視対象装置20に対応付けられている全ての監視項目に対応する監視情報の取得要求を当該監視対象装置20へ送信する(S121)。
{2-3-2. Monitoring process}
Next, with reference to FIG. 12, the flow of the “monitoring process” in S111 will be described in detail. As shown in FIG. 12, the communication unit 120 of the
その後、例えば少なくとも一つの監視情報の取得に失敗した場合には(S123:No)、監視サーバ10は、後述する「エラー処理」を行う(S125)。そして、当該「監視処理」は終了する。
After that, for example, when the acquisition of at least one monitoring information fails (S123: No), the monitoring
一方、監視情報の取得に成功した場合には(S123:Yes)、監視制御部110は、取得された全ての情報に関する検査が終了しない間(S127:No)、当該情報のうち未検査の一つの情報に関して、後述するS129〜S131の処理を行う。なお、取得された全ての情報に関する検査が終了した場合には(S127:Yes)、当該「監視処理」は終了する。
On the other hand, when the acquisition of the monitoring information is successful (S123: Yes), the
具体的には、まず、監視制御部110は、該当の監視対象装置20に対応付けられている全ての監視項目のうち、未検査の一つの監視項目に関して、後述する「ポリシー検査処理」を行う(S129)。
Specifically, first, the
その後、当該監視対象装置20に対応付けられている全ての監視項目のうち、未検査の監視項目が少なくとも一つ存在する場合には(S131:No)、監視制御部110は、再びS129の処理を繰り返す。一方、当該監視対象装置20に対応付けられている全ての監視項目に関する検査が終了した場合には(S131:Yes)、監視制御部110は、再びS127の処理を繰り返す。
After that, when at least one uninspected monitoring item exists among all the monitoring items associated with the monitored device 20 (S131: No), the
{2−3−3.エラー処理}
次に、図13を参照して、S125における「エラー処理」の流れについて詳細に説明する。図13に示したように、現在が該当の監視対象装置20の例外監視期間外である場合(つまり通常監視期間内である場合)には(S141:No)、監視サーバ10は、後述するS145以降の処理を行う。
{2-3-3. Error handling}
Next, with reference to FIG. 13, the flow of “error processing” in S125 will be described in detail. As shown in FIG. 13, when the present is outside the exception monitoring period of the corresponding monitored device 20 (that is, when it is within the normal monitoring period) (S141: No), the monitoring
一方、現在が該当の監視対象装置20の例外監視期間内である場合には(S141:Yes)、まず、エラー特定部108は、当該失敗の原因を特定する。そして、特定された原因が、予め定められている想定内エラーに対応する原因に該当するか否かを判定する(S143)。特定された原因が、当該想定内エラーに対応する原因に該当する場合には(S143:Yes)、監視サーバ10は、当該失敗をエラーとして扱わない。そして、当該「エラー処理」は終了する。
On the other hand, if the current status is within the exception monitoring period of the monitored device 20 (S141: Yes), the
一方、特定された原因が、当該想定内エラーに対応する原因に該当しない場合には(S143:No)、制御部100は、当該失敗の内容を示すエラー情報を記憶部122に記録する(S145)。続いて、通信部120は、送信制御部112の制御に従って、当該エラー情報を所定の装置(例えば表示装置34など)へ送信する(S147)。そして、当該「エラー処理」は終了する。
On the other hand, when the identified cause does not correspond to the cause corresponding to the expected error (S143: No), the
{2−3−4.ポリシー検査処理}
次に、図14を参照して、S129における「ポリシー検査処理」の流れについて詳細に説明する。図14に示したように、現在が該当の監視対象装置20の例外監視期間外である場合(つまり通常監視期間内である場合)には(S151:No)、監視サーバ10の監視制御部110は、後述するS155の処理を行う。
{2-3-4. Policy inspection process}
Next, with reference to FIG. 14, the flow of the “policy inspection process” in S129 will be described in detail. As shown in FIG. 14, when the current status is outside the exception monitoring period of the monitored device 20 (that is, within the normal monitoring period) (S151: No), the
一方、現在が該当の監視対象装置20の例外監視期間内である場合には(S151:Yes)、まず、監視制御部110は、監視ポリシー42を参照することにより、該当の監視項目が例外監視対象の監視項目であるか否かを確認する(S153)。該当の監視項目が例外監視対象の監視項目ではない場合には(S153:No)、監視制御部110は、該当の監視項目に関して監視を実行しない。そして、当該「ポリシー検査処理」は終了する。
On the other hand, when the present is within the exception monitoring period of the corresponding monitored device 20 (S151: Yes), first, the
一方、該当の監視項目が例外監視対象の監視項目である場合には(S153:Yes)、監視制御部110は、後述する「アラーム検出処理」を行う(S155)。そして、当該「ポリシー検査処理」は終了する。
On the other hand, when the corresponding monitoring item is an exception monitoring target monitoring item (S153: Yes), the
{2−3−5.アラーム検出処理}
次に、図15を参照して、S155における「アラーム検出処理」の流れについて詳細に説明する。図15に示したように、まず、監視制御部110は、該当の検査対象の情報に対して該当の監視項目に照らして監視(検査)を行う。そして、当該監視結果が所定の条件を満たし、かつ、該当の監視項目に対応付けられている重要度が所定の値以上である場合には、監視制御部110は、当該監視結果を当該重要度のアラームとして検出する(S161)。当該監視項目に関してアラームが検出されなかった場合には(S163:No)、当該「アラーム検出処理」は終了する。
{2-3-5. Alarm detection process}
Next, with reference to FIG. 15, the flow of the “alarm detection process” in S155 will be described in detail. As shown in FIG. 15, first, the
一方、当該監視項目に関してアラームが検出された場合には(S163:Yes)、まず、監視制御部110は、検出されたアラームの内容を示すアラーム情報を記憶部122に記録する(S165)。続いて、通信部120は、送信制御部112の制御に従って、当該アラーム情報を所定の装置(例えば表示装置34など)へ送信する(S167)。そして、当該「アラーム検出処理」は終了する。
On the other hand, when an alarm is detected for the monitoring item (S163: Yes), the
<2−4.効果>
{2−4−1.効果1}
以上説明したように、本実施形態による監視サーバ10は、複数の監視対象装置20の各々に関して、当該監視対象装置20に対応付けられている例外監視期間内に現在が該当するか否かを判定し、そして、当該例外監視期間内に該当すると判定された監視対象装置20ごとに、当該監視対象装置20に対応付けられている複数の監視項目のうち例外監視対象の監視項目に関する監視を当該監視対象装置20に対して実行する。このため、通常監視期間外であっても、特定の監視項目に関する監視を監視対象装置20に対して実行することができる。
<2-4. Effect>
{2-4-1. Effect 1}
As described above, the monitoring
例えば、監視サーバ10は、複数の監視対象装置20の各々に関して、(本発明の比較例とは異なり)通常監視期間外であっても、例えばハードウェア障害などの、システムや機器の動作に影響のある特定のアラームを即時に検出することができる。例えば、監視対象装置20のメンテナンス作業期間などにおいて、当該作業とは無関係に発生するハードウェア障害に基づくアラームや、当該作業の終了後の当該監視対象装置20の起動処理において発生する特定のアラームなどを監視サーバ10は即時に検出することができる。従って、システムやサービスの停止に繋がる重篤な問題が発生することを防止することができる。例えば、アラームが検出されると、監視サーバ10は、アラーム情報を自動的に外部通知することが可能であるので、関係者(監視オペレータや管理者など)は、異常の発生を即時に把握することができる。これにより、当該関係者は、システムやサービスへの影響を事前に把握し、そして、重篤な問題が発生しないように適時行動することができる。
For example, the monitoring
{2−4−2.効果2}
また、監視サーバ10は、例外監視期間内に該当すると判定された監視対象装置20ごとに、当該監視対象装置20に対応付けられている複数の監視項目のうち例外監視対象外の監視項目に関する監視を実行しない。このため、例外監視期間において、想定内エラーが発生しても、アラーム(つまり対応が不要なアラーム)が検出されることがなく、かつ、外部通知も行われない。つまり、例外監視が実行されても、例えば監視オペレータや管理者などの監視業務の負荷が増加することがない。また、当該不要なアラームは記録されないので、不要な履歴データが記録されることがない。
{2-4-2. Effect 2}
Further, the monitoring
{2−4−3.効果3}
また、本実施形態によれば、例えば監視ポリシー42などの設定作業や管理が容易である。例えば、監視対象装置20ごとに、管理者が特定の監視項目を例外監視の監視対象として設定を行うだけで、監視サーバ10は、例外監視期間内に当該特定の監視項目に関する監視を実行することができる。
{2-4-3. Effect 3}
Further, according to the present embodiment, for example, setting work and management of the
<<3.ハードウェア構成>>
次に、本実施形態による監視サーバ10のハードウェア構成について、図16を参照して説明する。図16に示したように、監視サーバ10は、CPU150、ROM(Read Only Memory)152、RAM154、内部バス156、入出力インターフェース158、HDD(Hard Disk Drive)160、および、ネットワークインターフェース162を備える。
<< 3. Hardware configuration >>
Next, the hardware configuration of the
CPU150は、演算処理装置および制御装置として機能し、各種プログラムに従って監視サーバ10内の動作全般を制御する。また、CPU150は、制御部100の機能を実現する。なお、CPU150は、マイクロプロセッサなどのプロセッサにより構成される。
The
ROM152は、CPU150が使用するプログラムや演算パラメータなどを記憶する。
The
RAM154は、CPU150の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時記憶する。
The
内部バス156は、CPUバスなどから構成される。この内部バス156は、CPU150、ROM152、およびRAM154を相互に接続する。
The
入出力インターフェース158は、HDD160、およびネットワークインターフェース162を、内部バス156と接続する。
The input /
HDD160は、データ格納用の装置である。このHDD160は、例えば、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、および記憶媒体に記録されたデータを削除する削除装置などを含む。また、HDD160は、CPU150が実行するプログラムや各種データを格納する。このHDD160は、記憶部122として機能する。
The
ネットワークインターフェース162は、例えば通信網22に接続するための通信デバイスなどで構成された通信インターフェースである。このネットワークインターフェース162は、通信部120として機能する。なお、ネットワークインターフェース162は、無線LAN(Local Area Network)対応通信装置、LTE(Long Term Evolution)対応通信装置、または有線による通信を行うワイヤー通信装置であってもよい。
The
<<4.変形例>>
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
<< 4. Modification example >>
Although the preferred embodiments of the present invention have been described in detail with reference to the accompanying drawings, the present invention is not limited to such examples. It is clear that a person having ordinary knowledge in the field of technology to which the present invention belongs can come up with various modifications or modifications within the scope of the technical ideas described in the claims. , These are also naturally understood to belong to the technical scope of the present invention.
<4−1.変形例1>
例えば、本実施形態によるアラーム情報の通知方法は、前述した例に限定されない。例えば、監視サーバ10は、検出されたアラームの重要度に応じて、通知する情報の内容や、通知方法を変化させてもよい。また、監視サーバ10は、アラームの検出元の監視対象装置20に応じて、(例えば同じ重要度のアラームが検出された場合であっても)アラームの通知方法を変化させてもよい。また、アラーム情報が所定の端末(監視端末32など)に送信される場合には、監視サーバ10は、当該所定の端末にログインしているユーザ(監視員など)ごとに、アラームの通知方法を変更してもよい。
<4-1.
For example, the method of notifying alarm information according to the present embodiment is not limited to the above-mentioned example. For example, the monitoring
<4−2.変形例2>
また、本実施形態による監視システムは、図7に示した例に限定されない。例えば、監視システムコンソール30と監視端末32とは別々の装置として構成される代わりに、一体の装置として構成されてもよい。または、監視システムコンソール30、監視端末32、および、表示装置34のうちのいずれか一以上と、監視サーバ10とは一体の装置として構成されてもよい。また、図7では、監視端末32および表示装置34がそれぞれ一つずつ記載されているが、かかる例に限定されず、監視端末32または表示装置34はそれぞれ複数設置されてもよい。
<4-2.
Further, the monitoring system according to the present embodiment is not limited to the example shown in FIG. For example, the
また、本実施形態によれば、CPU150、ROM152、およびRAM154などのハードウェアを、監視サーバ10の構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、当該コンピュータプログラムが記録された記録媒体も提供される。
Further, according to the present embodiment, it is possible to provide a computer program for making hardware such as the
2 監視装置群
10、90 監視サーバ
20 監視対象装置
22 通信網
30 監視システムコンソール
32 監視端末
34 表示装置
100 制御部
102 スケジュール管理部
104 判定部
106 監視情報取得部
108 エラー特定部
110 監視制御部
112 送信制御部
120 通信部
122 記憶部
2 Monitoring
Claims (14)
前記通常監視期間外に該当すると判定された監視対象装置ごとに、当該監視対象装置に通常監視期間内に監視する監視項目として対応付けられている複数の監視項目のうち前記通常監視期間外の監視対象として設定されている一部の監視項目に関する監視を当該監視対象装置に対して実行し、実行結果に基づいてアラームを検出する監視制御部と、
を備える、監視装置。 For each of the at least one monitored device, a determination unit for determining whether or not the current state falls outside the normal monitoring period associated with the monitored device, and
Of the plurality of monitoring items associated with the monitored device as monitoring items to be monitored within the normal monitoring period for each monitored device determined to fall outside the normal monitoring period, monitoring outside the normal monitoring period A monitoring control unit that executes monitoring of some of the monitoring items set as targets for the monitored device and detects an alarm based on the execution result .
A monitoring device.
前記監視制御部は、前記通常監視期間外に該当すると判定された監視対象装置ごとに、当該監視対象装置に対応付けられている少なくとも一つの監視機能の各々に関して、当該監視機能に対応付けられている複数の監視項目のうち前記通常監視期間外の監視対象として設定されている監視項目に関する監視を当該監視対象装置に対して実行する、請求項1〜3のいずれか一項に記載の監視装置。 For each of the at least one monitored device, the monitored device and at least one monitoring function are associated with each other.
The monitoring control unit is associated with the monitoring function for each of the monitoring target devices determined to be outside the normal monitoring period, and for each of the at least one monitoring functions associated with the monitoring target device. The monitoring device according to any one of claims 1 to 3, which monitors the monitoring target device for the monitoring item set as the monitoring target outside the normal monitoring period among the plurality of monitoring items. ..
前記取得部による前記情報の取得が失敗した場合に当該失敗の原因を特定する原因特定部と、をさらに備える、請求項1〜5のいずれか一項に記載の監視装置。 The monitoring device is set as a monitoring target outside the normal monitoring period among a plurality of monitoring items associated with the monitoring target device for each monitoring target device determined to fall outside the normal monitoring period. An acquisition unit that acquires information corresponding to each of the monitored items from the monitored device, and
The monitoring device according to any one of claims 1 to 5, further comprising a cause specifying unit that identifies the cause of the failure when the acquisition of the information by the acquisition unit fails.
前記原因特定部により特定された原因が前記所定の原因である場合には、前記送信制御部は、前記エラー情報を前記所定の装置へ前記通信部に送信させない、請求項7に記載の監視装置。 When the cause identified by the cause identification unit is other than the predetermined cause, the transmission control unit causes the predetermined device to transmit the error information to the communication unit, and the transmission control unit transmits the error information to the communication unit.
The monitoring device according to claim 7, wherein when the cause identified by the cause specifying unit is the predetermined cause, the transmission control unit does not transmit the error information to the predetermined device to the communication unit. ..
前記少なくとも一つの監視対象装置の各々と複数の監視項目とを対応付けて記憶する記憶部と、をさらに備える、請求項1〜10のいずれか一項に記載の監視装置。 The monitoring device includes a schedule management unit that manages each of the at least one monitoring target device in association with the normal monitoring period of the monitoring target device.
The monitoring device according to any one of claims 1 to 10, further comprising a storage unit that stores each of the at least one monitoring target device in association with a plurality of monitoring items.
前記通常監視期間外に該当すると判定された監視対象装置ごとに、当該監視対象装置に通常監視期間内に監視する監視項目として対応付けられている複数の監視項目のうち前記通常監視期間外の監視対象として設定されている一部の監視項目に関する監視を当該監視対象装置に対して実行し、実行結果に基づいてアラームを検出する監視制御部と、
を備える、監視システム。 For each of at least one monitored device, a determination unit for determining whether or not the current state falls outside the normal monitoring period associated with the monitored device, and
Of the plurality of monitoring items associated with the monitored device as monitoring items to be monitored within the normal monitoring period for each monitored device determined to fall outside the normal monitoring period, monitoring outside the normal monitoring period A monitoring control unit that executes monitoring of some of the monitoring items set as targets for the monitored device and detects an alarm based on the execution result .
A monitoring system equipped with.
前記通常監視期間外に該当すると判定された監視対象装置ごとに、当該監視対象装置に通常監視期間内に監視する監視項目として対応付けられている複数の監視項目のうち前記通常監視期間外の監視対象として設定されている一部の監視項目に関する監視を当該監視対象装置に対して実行し、実行結果に基づいてアラームを検出するステップと、
を含む、監視方法。 For each of the at least one monitored device, a step of determining whether or not the current state falls outside the normal monitoring period associated with the monitored device, and
For each monitored device determined to fall outside the normal monitoring period, of the plurality of monitoring items associated with the monitored device as monitoring items to be monitored within the normal monitoring period, monitoring outside the normal monitoring period A step of executing monitoring of some of the monitoring items set as targets for the monitored device and detecting an alarm based on the execution result, and
Monitoring methods, including.
少なくとも一つの監視対象装置の各々に関して、当該監視対象装置に対応付けられている通常監視期間外に現在が該当するか否かを判定する判定部と、
前記通常監視期間外に該当すると判定された監視対象装置ごとに、当該監視対象装置に通常監視期間内に監視する監視項目として対応付けられている複数の監視項目のうち前記通常監視期間外の監視対象として設定されている一部の監視項目に関する監視を当該監視対象装置に対して実行し、実行結果に基づいてアラームを検出する監視制御部、
として機能させるための、プログラム。
Computer,
For each of the at least one monitored device, a determination unit for determining whether or not the current state falls outside the normal monitoring period associated with the monitored device, and
Of the plurality of monitoring items associated with the monitored device as monitoring items to be monitored within the normal monitoring period for each monitored device determined to fall outside the normal monitoring period, monitoring outside the normal monitoring period A monitoring control unit that executes monitoring of some of the monitoring items set as targets for the monitored device and detects an alarm based on the execution result .
A program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017028969A JP6812831B2 (en) | 2017-02-20 | 2017-02-20 | Monitoring equipment, monitoring systems, monitoring methods, and programs |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017028969A JP6812831B2 (en) | 2017-02-20 | 2017-02-20 | Monitoring equipment, monitoring systems, monitoring methods, and programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018136612A JP2018136612A (en) | 2018-08-30 |
JP6812831B2 true JP6812831B2 (en) | 2021-01-13 |
Family
ID=63366927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017028969A Active JP6812831B2 (en) | 2017-02-20 | 2017-02-20 | Monitoring equipment, monitoring systems, monitoring methods, and programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6812831B2 (en) |
-
2017
- 2017-02-20 JP JP2017028969A patent/JP6812831B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018136612A (en) | 2018-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6333410B2 (en) | Fault processing method, related apparatus, and computer | |
EP2955632B1 (en) | Determining and correcting software server error conditions | |
EP2523115A1 (en) | Operation management device, operation management method, and program storage medium | |
JP2014182561A (en) | Computer system, process and method for monitoring thread | |
JP2019071077A (en) | Method and device for performing environment management by use of smart alarm | |
JP6370132B2 (en) | Communication abnormality detection device, communication abnormality detection method and program | |
JP2007323193A (en) | System, method and program for detecting abnormality of performance load | |
JPWO2012046293A1 (en) | Fault monitoring apparatus, fault monitoring method and program | |
CN112596568B (en) | Method, system, device and medium for reading error information of voltage regulator | |
CN108170581A (en) | A kind of fault early warning method, device and electronic equipment | |
US20180300199A1 (en) | System and method for maintaining the health of a machine | |
CN110457953B (en) | Method and device for detecting integrity of file | |
CN110275795A (en) | An alarm-based operation and maintenance method and device | |
TW201738795A (en) | Intrusion detection device, intrusion detection method, and intrusion detection program | |
JP2018190029A (en) | Facility monitoring device | |
JP5623557B2 (en) | Method, apparatus, and computer program in a multi-threaded computing environment for collecting diagnostic data | |
CN102970162B (en) | Processor and method used for processing data to be alarmed | |
CN106326060A (en) | Baseplate management control system and method for same | |
CN106294364B (en) | Method and device for realizing web crawler to capture webpage | |
JP6812831B2 (en) | Monitoring equipment, monitoring systems, monitoring methods, and programs | |
JP6504610B2 (en) | Processing device, method and program | |
CN102930690B (en) | Alarm processor and alarm processing method | |
JP2016076072A (en) | Fault notification apparatus, fault notification method, and fault notification program | |
JP5613570B2 (en) | Batch job delay warning automatic alert system, automatic alert method, and program therefor | |
CN106416178A (en) | Transport accelerator implementing extended transmission control functionality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20190327 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190328 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200826 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200901 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201020 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6812831 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |