JP4738155B2 - Alarm management device and alarm management method - Google Patents
Alarm management device and alarm management method Download PDFInfo
- Publication number
- JP4738155B2 JP4738155B2 JP2005351746A JP2005351746A JP4738155B2 JP 4738155 B2 JP4738155 B2 JP 4738155B2 JP 2005351746 A JP2005351746 A JP 2005351746A JP 2005351746 A JP2005351746 A JP 2005351746A JP 4738155 B2 JP4738155 B2 JP 4738155B2
- Authority
- JP
- Japan
- Prior art keywords
- construction
- failure
- alarm
- information
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000007726 management method Methods 0.000 title claims description 107
- 238000010276 construction Methods 0.000 claims description 497
- 238000012544 monitoring process Methods 0.000 claims description 126
- 238000011084 recovery Methods 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012790 confirmation Methods 0.000 description 74
- 238000012806 monitoring device Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 18
- 230000005856 abnormality Effects 0.000 description 16
- 238000000034 method Methods 0.000 description 10
- 238000009430 construction management Methods 0.000 description 9
- 230000002159 abnormal effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000003111 delayed effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241001417495 Serranidae Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、アラーム管理装置及びアラーム管理方法に関するものである。 The present invention relates to an alarm management device and an alarm management method.
従来のネットワーク障害管理におけるアラーム管理方式として、ネットワークやサーバの監視装置が発生する異常アラームのうち、工事に起因する異常アラームを抑制するためのアラーム管理用の情報テーブルを管理するものがある(例えば、特許文献1参照)。情報テーブルには、工事の作業日時、工事の作業を行う作業者、工事を実施する作業対象装置、その作業対象装置が停止することにより影響を受ける波及装置、異常時に発生する波及アラームなどを予め登録しておき、監視装置でアラームが発生した場合には、情報テーブルと発生アラームを比べることにより、本当に異常か、工事に起因するアラームかを判定し、本当に異常のあるアラームのみを管理端末に通知する。
前述の従来技術には、以下の課題がある。 The prior art described above has the following problems.
予め計画した顧客側監視対象で発生するさまざまな工事、キャリアによる回線借用工事、監視対象側の停電などによる工事の開始時間と終了時間が実際の工事の開始時間及び終了時間に合致しないため、異常アラームを抑制するアラームフィルタの機能が十分効果を発揮しないという課題がある。事前に計画された工事計画では工事の開始時間と終了時間、工事対象の作業対象装置、影響を受ける波及装置などがすべて登録されており、このときに、ネットワーク監視装置やサーバ監視装置で検知した工事に起因するアラームは、工事の開始時間と終了時間に照らし合わせて、工事に関係するアラームか否かを判定する。しかし、実際の工事は、人間が関与することが多く、計画した工事開始時間、工事終了時間で必ずしも工事が開始、終了されるわけではない。この場合には、計画工事として情報テーブルに登録した開始日時、終了日時と実際の工事の開始日時、終了日時がずれるために、工事開始予定日時より前に障害アラームが検知されたり、工事終了予定日時より後で障害アラームが検知されたりする。この場合には、管理端末で監視している監視者は、実際は工事に起因するアラームを障害と認識して障害対応を実施する。このため、実際は工事に起因するアラームであるにも関わらず、復旧対応を実施するために、監視対象を管理する管理者への連絡や障害復旧のため関連会社への手配などが行われて、無駄な作業を発生させる。通常これらの障害復旧のための作業はすべてトラブルチケットなどで管理されるために、これらへの記録作業も無駄に行われている。 Abnormality because the start time and end time of various works that occur in the planned monitoring on the customer side, the line borrowing work by the carrier, and the power outage on the monitoring target side do not match the actual start time and end time of the work There is a problem that the function of the alarm filter for suppressing the alarm does not sufficiently exhibit the effect. In the construction plan planned in advance, the start time and end time of the work, the work target device to be worked on, the affected transmission device, etc. are all registered. At this time, it was detected by the network monitoring device or server monitoring device. It is determined whether the alarm caused by the construction is an alarm related to the construction in light of the start time and the end time of the construction. However, the actual construction often involves humans, and the construction does not necessarily start and end at the planned construction start time and construction end time. In this case, because the start date / time and end date / time registered in the information table as planned work differ from the actual work start date / time and end date / time, a fault alarm is detected before the planned work start date / time, or the work is scheduled to end. A failure alarm is detected after the date and time. In this case, the supervisor who is monitoring with the management terminal actually recognizes the alarm caused by the construction as a failure and performs the failure response. For this reason, despite the fact that it is an alarm caused by construction, in order to carry out recovery response, contact with the administrator who manages the monitoring target or arrangement with the affiliated company for failure recovery, etc. are performed, Generate unnecessary work. Normally, all of the work for recovering from a failure is managed by a trouble ticket or the like, and therefore, the work for recording them is wastefully performed.
本発明は、例えば、ネットワークやネットワークに接続された装置に対する工事が予定より早く開始したり、予定より遅く終了したりした場合に、管理者が工事に起因する障害アラームを対処が必要な障害アラームと誤認して無駄な作業を行うことを抑制することを目的とする。 According to the present invention, for example, when a construction for a network or a device connected to the network starts earlier than scheduled or finishes later than scheduled, a failure alarm that requires an administrator to deal with a failure alarm caused by the construction. It is intended to suppress performing a wasteful operation due to misunderstanding.
本発明に係るアラーム管理装置は、
ネットワークに接続された複数の装置を監視し、前記複数の装置のうちいずれかに障害が発生した場合に、当該装置を識別する監視対象識別情報と前記障害の発生時刻を示す障害発生時刻情報とを含む障害アラームを受信するアラーム受信部と、
前記複数の装置のうち工事が実施される装置を識別する工事対象識別情報と前記工事の開始予定時刻を示す工事開始時刻情報と前記工事の終了予定時刻を示す工事終了時刻情報とを含む工事情報を記憶する記憶装置から、前記アラーム受信部により受信された障害アラームに含まれる監視対象識別情報と同一の装置を識別する工事対象識別情報を含む工事情報を読み取る工事情報読取部と、
処理装置により、前記アラーム受信部により受信された障害アラームに含まれる障害発生時刻情報と前記工事情報読取部により読み取られた工事情報に含まれる工事開始時刻情報と工事終了時刻情報とを比較して、前記工事が予定通りの期間に実施されたかどうかと前記工事の影響で前記障害が発生した可能性があるかどうかとを判定する判定部と、
前記工事が予定と異なる期間に実施され、且つ、前記工事の影響で前記障害が発生した可能性があると前記判定部により判定された場合に、前記アラーム受信部により受信された障害アラームに含まれる監視対象識別情報に該当する装置に前記工事の影響で前記障害が発生した可能性があることを示す出力情報を出力する出力部とを備えることを特徴とする。
The alarm management device according to the present invention is:
Monitoring a plurality of devices connected to the network, and when a failure occurs in any of the plurality of devices, monitoring target identification information for identifying the device and failure occurrence time information indicating the occurrence time of the failure; An alarm receiver for receiving fault alarms including:
Construction information including construction target identification information for identifying a device to be constructed among the plurality of devices, construction start time information indicating a scheduled start time of the construction, and construction end time information indicating a planned end time of the construction A construction information reading unit that reads construction information including construction target identification information that identifies the same device as the monitoring target identification information included in the failure alarm received by the alarm reception unit, from a storage device that stores
The processing device compares the failure occurrence time information included in the failure alarm received by the alarm receiving unit with the construction start time information included in the construction information read by the construction information reading unit and the construction end time information. A determination unit that determines whether the construction has been performed as scheduled and whether the failure may have occurred due to the construction;
Included in the failure alarm received by the alarm receiving unit when the construction is carried out in a period different from the schedule and the determination unit determines that the failure may have occurred due to the construction. And an output unit that outputs output information indicating that the failure may have occurred due to the work.
本発明では、アラーム管理装置において、判定部が、処理装置により、アラーム受信部により受信された障害アラームに含まれる障害発生時刻情報と工事情報読取部により読み取られた工事情報に含まれる工事開始時刻情報と工事終了時刻情報とを比較して、工事が予定通りの期間に実施されたかどうかと工事の影響で障害が発生した可能性があるかどうかとを判定し、出力部が、工事が予定と異なる期間に実施され、且つ、工事の影響で障害が発生した可能性があると判定部により判定された場合に、アラーム受信部により受信された障害アラームに含まれる監視対象識別情報に該当する装置に工事の影響で障害が発生した可能性があることを示す出力情報を出力することにより、ネットワークやネットワークに接続された装置に対する工事が予定通りに実施されていない場合に、管理者が工事に起因する障害アラームを対処が必要な障害アラームと誤認して無駄な作業を行うことを抑制することが可能となる。 In the present invention, in the alarm management device, the determination unit includes the failure start time information included in the failure alarm received by the alarm reception unit and the construction start time included in the construction information read by the construction information reading unit. Compare the information with the construction end time information to determine whether the construction was carried out as scheduled and whether there was a possibility that a failure occurred due to the construction, and the output unit scheduled the construction It corresponds to the monitoring target identification information included in the failure alarm received by the alarm receiver when the determination unit determines that a failure may have occurred due to construction work. By outputting output information indicating that a failure may have occurred in the equipment due to construction work, the work on the network and the equipment connected to the network But if they have not been carried out as planned, the administrator it is possible to suppress to make a useless work a failure alarm caused by mistaken as required failure alarm is deal with the construction work.
以下、本発明の実施の形態について、図を用いて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
実施の形態1.
図1は、本実施の形態に係るシステムの構成の一例を示す図である。
FIG. 1 is a diagram illustrating an example of a configuration of a system according to the present embodiment.
図1において、本システムは、監視対象ルータ100、監視対象サーバ101、管理端末102、監視側ルータ103、障害ログ情報記録装置104、工事情報管理装置105、ネットワーク監視装置106、サーバ監視装置107、アラーム管理装置200を備える。工事情報管理装置105には、アラーム管理用の情報テーブルが蓄えられている。
In FIG. 1, this system includes a monitoring target router 100, a monitoring target server 101, a
ネットワーク監視装置106によって、数分間隔のPING(Packet INternet Groper)監視により監視対象ルータ100の死活が監視されている。サーバ監視装置107によって、監視対象サーバ101の死活、サーバ資源としてCPU(Central Processing Unit)の稼動状況、メモリの使用状況、ディスクの空き領域の状況などが数分ごとに監視されている。このようなサーバ監視を実現する方法としては、監視対象サーバ101にサーバ監視用のエージェントを導入する方法が一般的である。 The network monitoring device 106 monitors the life and death of the monitoring target router 100 by PING (Packet Internet Grouper) monitoring at intervals of several minutes. The server monitoring device 107 monitors the life and death of the monitoring target server 101, the operating status of a CPU (Central Processing Unit) as a server resource, the usage status of the memory, the status of the free disk space, etc. every few minutes. As a method for realizing such server monitoring, a method of introducing a server monitoring agent to the monitoring target server 101 is generally used.
管理端末102では、ネットワーク監視装置106やサーバ監視装置107が監視対象ルータ100や監視対象サーバ101を監視した結果を表示しており、監視者(管理者)は管理端末102によって監視対象108に異常が発生しているかどうかを確認している。監視対象108に異常がある場合には、ネットワーク監視装置106やサーバ監視装置107は異常を示すアラームを検知することで管理端末102に警報を発する。これらの監視対象108で発生した異常アラームはすべて障害ログ情報記録装置104に時系列データとして蓄えられ、記録される。
In the
通常時には、上記の構成で、ネットワーク監視、サーバ監視が実施されているが、特別なケースとして工事に起因する処理が必要である。工事とは、例えば監視者の都合で監視側ルータ103を交換するような、監視者側の都合の工事、回線を提供しているキャリアによる工事、そして監視対象108が設置されているビルなどの停電に伴う工事に分類される。これらの工事の場合には、監視対象ルータ100や監視対象サーバ101の電源供給が絶たれたり、回線が切断されたりすることで、ネットワーク監視装置106やサーバ監視装置107などの監視装置からの監視が正常に実施できなくなり、これらの監視装置では異常(障害)が発生したものとして認識される。しかし、実際には、これらの監視対象108では異常が起こっていない状態である。
Normally, network monitoring and server monitoring are performed with the above-described configuration, but as a special case, processing due to construction is required. The construction is, for example, construction for the convenience of the supervisor such as exchanging the monitoring router 103 for the convenience of the supervisor, construction by the carrier providing the line, and the building where the
従来技術では、これに対し、この工事に起因する異常アラームを抑制するために、工事情報管理装置105を設け、その装置の内部で工事に起因する異常アラームを抑制するためのアラーム管理用の情報テーブルを管理する。情報テーブルには、工事の作業日時、工事の作業を行う作業者、工事を実施する作業対象装置の識別子(例えば機器のホスト名などユニークなもの)、その作業対象装置が停止することにより影響を受ける波及装置、異常時に発生する波及アラームなどを予め登録しておき、ネットワーク監視装置106、サーバ監視装置107で発生した異常アラームを障害ログ情報記録装置104に書き込み、異常を管理端末102に表示する前に処理し、情報テーブルと発生アラームを比べることにより、本当に異常か、工事に起因するアラームかを判定し、本当に異常のあるアラームのみを管理端末102に通知する。
In contrast to this, in the prior art, a construction information management device 105 is provided in order to suppress an abnormal alarm caused by this construction, and information for alarm management for suppressing an abnormal alarm caused by the construction inside the device. Manage tables. In the information table, the work date and time, the worker who performs the work, the identifier of the work target device that performs the work (for example, a unique name such as the host name of the device), and the impact of the work target device being stopped are affected. The spilling device to be received, the spilling alarm generated at the time of abnormality are registered in advance, the abnormality alarm generated at the network monitoring device 106 and the server monitoring device 107 is written in the failure log information recording device 104, and the abnormality is displayed on the
本実施の形態では、上記システムにアラーム管理装置200を加えることにより、さらに、計画工事の開始終了日時に対して、実際の工事が早く開始したり、遅く終了したりした場合には、アラームが発生し、障害アラームとなっても、これについては工事に関連するアラームとして、管理端末102の監視者が監視対象108の管理者にすぐに連絡するのではなく(監視対象108の管理者が管理端末102の監視者と異なる場合)、計画工事設定時に入力された工事担当者への連絡を行い、工事の状況などを確認してから、監視対象108の管理者へ連絡する。管理端末102では、このようなアラームに関しては、自動的にアラームの表示などの色を変えたり、特別に印をつけたりしてマーキングする。このように、工事計画に対して、早く始まった工事、工事が延びて遅く終了した工事について、工事に関係する障害であることを、管理端末102の監視者に知らせることで、監視対象108の管理者に直接連絡するようなことがなくなり、工事担当者へ確認して工事状況を確認してから、監視対象108の管理者への連絡が可能となり、計画工事中の障害誤認を防ぐ効果がある。アラーム管理装置200については、以下で説明する。
In the present embodiment, by adding the
図2は、本実施の形態に係るアラーム管理装置の構成を示すブロック図である。 FIG. 2 is a block diagram showing the configuration of the alarm management device according to the present embodiment.
本実施の形態において、アラーム管理装置200は、処理装置210、記憶装置211を備える。処理装置210は、アラーム受信部212、工事情報読取部213、判定部214、出力部215を含む。記憶装置211には、アラーム情報206、工事情報207が記憶される。
In the present embodiment, the
図2において、アラーム管理装置200は、ネットワーク監視装置106やサーバ監視装置107などの監視装置201と接続され、アラーム受信部212により監視装置201で障害発生時に検知される障害アラーム202を受信する。アラーム受信部212は、さらに、発生したアラームを記憶管理するアラーム記憶機能203を有する。発生したアラームはアラーム記憶機能203によりアラーム情報206として記憶装置211に蓄えられる。工事情報読取部213及び判定部214は、計画された工事の情報を記録する工事情報207に対して障害アラーム202を照会し、それが工事に起因して発生したアラームか否かを判定するアラーム判定機能204を有する。アラーム管理装置200は、障害が発生しているかどうかを監視者が管理するための管理端末102とも接続されており、出力部215により各種の出力情報を管理端末102に通知する。
In FIG. 2, the
図2のような構成は、ネットワークやサーバの運用監視を行うマネージドサービスプロバイダなどの監視センターの構築で採用される構成と同様である。ネットワークやサーバの監視装置201はそれぞれの設定により、監視対象108のルータやサーバの異常を数分程度のある一定の時間間隔で確認することで障害検知を実施している。アラーム管理装置200は、これらの監視装置201のアラームを統合管理するものであり、特に、ネットワーク、サーバの監視装置201は複数台数接続されることが想定され、監視対象108の規模も数万台規模の監視対象108が想定される。このようなケースでは、障害アラーム202もある一定の量発生し、それらの管理が求められる。
The configuration shown in FIG. 2 is the same as the configuration adopted in the construction of a monitoring center such as a managed service provider that monitors the operation of a network or server. The network and
工事情報207の内容の追加、更新は、例えば、図1に例示した工事情報管理装置105のような工事管理システムが用意されており、工事担当者や監視対象108の管理者、キャリアなどが連携して情報交換する計画工事情報が工事管理システムを通して入力されているものとする。
For the addition and update of the contents of the
図3は、本実施の形態に係るアラーム管理装置の動作(アラーム管理方法)の一例を示すフロー図である。また、図4は、本実施の形態に係るシステムの処理を示すシーケンス図である。 FIG. 3 is a flowchart showing an example of the operation (alarm management method) of the alarm management apparatus according to the present embodiment. FIG. 4 is a sequence diagram showing processing of the system according to the present embodiment.
アラーム受信部212は、ネットワークに接続された複数の装置(監視対象108)を、監視装置201を介して監視し、複数の装置のうちいずれかに障害が発生した場合に、当該装置を識別する監視対象識別情報(例えば、監視対象108のホスト名)と障害の発生時刻(日時)を示す障害発生時刻情報とを含む障害アラーム202を監視装置201から受信する(アラーム受信ステップ)。
The
例えば、図3のステップS101において、アラーム受信部212は障害アラーム202を受信する。障害アラーム202は図4のP101の監視によって発生する。図4のP101の動作はネットワーク監視装置106やサーバ監視装置107などの監視装置201の設定による動作であり、数分間隔で監視対象108の死活監視を実施している。例えばネットワーク監視の場合、PINGによる監視を数分間隔で実施する設定を行うことにより、監視対象ルータ100や監視装置201から監視対象ルータ100までのネットワーク回線の死活を監視することができる。PING監視の結果応答がなければ、監視対象ルータ100や回線にエラーが発生したことが検知できる。これが図4のP102の障害検出である。障害が検出されると障害発生を示す障害アラーム202が監視装置201に記録される。本実施の形態では、この障害アラーム202が図3のステップS101、図4のP103において受信される。このときのプロトコルとしてはSNMP(Simple Network Management Protocol)のTrapやTCP/IP(Transmission Control Protocol/Internet Protocol)のソケット通信などが利用できる。
For example, in step S <b> 101 of FIG. 3, the
次に、図3のステップS102において、アラーム受信部212は障害アラーム202を記憶装置211にアラーム情報206として記録する。アラーム受信部212は、アラーム情報206を記録するときに、別途用意される監視対象108の契約情報、ネットワーク情報、構成情報などを格納した構成管理情報データベースにアクセスして、アラーム情報206にこれらの構成管理情報を付加してもよい。
Next, in step S <b> 102 of FIG. 3, the
次に、図3のステップS103において、アラーム受信部212は障害アラーム202の解析を行う。ネットワーク障害の場合、障害アラーム202は監視対象ホスト名、障害発生日時、監視装置ホスト名、障害メッセージなどから構成されるので、これらを解析して、監視対象ホスト名、障害発生日時を取り出す。図4のP104では、これらの監視対象ホスト名、障害発生日時により、工事情報207へのアクセス準備が行われる。
Next, in step S <b> 103 of FIG. 3, the
工事情報読取部213は、複数の装置(監視対象108)のうち工事が実施される装置を識別する工事対象識別情報(例えば、監視対象108のホスト名)と工事の開始予定時刻(日時)を示す工事開始時刻情報と工事の終了予定時刻(日時)を示す工事終了時刻情報とを含む工事情報207を記憶する記憶装置211から、アラーム受信部212により受信された障害アラーム202に含まれる監視対象識別情報と同一の装置を識別する工事対象識別情報を含む工事情報207を読み取る(工事情報読取ステップ)。
The construction
例えば、図3のステップS104において、工事情報読取部213は工事情報207の参照を行う。工事情報207の参照では、監視対象ホスト名を用いて、該当する工事情報207があるかどうかを参照する(図4のP105)。工事情報207はリレーショナルデータベースなどで構成されるので、工事情報207のキーを監視対象ホスト名にしておくことにより、容易に参照できる。工事情報読取部213は工事情報207として、工事ID、工事開始日時、工事終了日時、監視対象ホスト名、アラーム内容、工事区分などを取得する(図4のP106)。
For example, the construction
判定部214は、処理装置210により、アラーム受信部212により受信された障害アラーム202に含まれる障害発生時刻情報と工事情報読取部213により読み取られた工事情報207に含まれる工事開始時刻情報と工事終了時刻情報とを比較して、工事が予定通りの期間に実施されたかどうかと工事の影響で障害が発生した可能性があるかどうかとを判定する(判定ステップ)。具体的には、判定部214は、処理装置210により、アラーム受信部212により受信された障害アラーム202に含まれる障害発生時刻情報と工事情報読取部213により読み取られた工事情報に含まれる工事開始時刻情報と工事終了時刻情報とを比較して、(1)障害の発生時刻が工事の開始予定時刻から終了予定時刻までの間である場合には、工事の影響で障害が発生したと判定し、(2)障害の発生時刻から工事の開始予定時刻までの期間が所定の時間(例えば、1時間)以下である場合と(3)障害の発生時刻から工事の終了予定時刻までの期間が所定の時間以下である場合とには、工事が予定と異なる期間に実施され、且つ、工事の影響で障害が発生した可能性があると判定し、(4)その他の場合には、工事以外が原因で障害が発生したと判定する。
The
例えば、図3のステップS105において、判定部214は工事情報207の中に記録されている工事開始日時、工事終了日時の間に障害アラーム202から取り出した障害発生日時が含まれているかどうかを判定する。工事情報207に記録されている工事開始日時、工事終了日時の間に障害アラーム202から取り出した障害発生日時が含まれていれば、該当の障害アラーム202を工事アラーム(工事に起因するアラーム)としてアラーム情報206において管理することで、管理端末102を利用する監視者はどの障害アラーム202が工事に起因された障害アラーム202かということが認識できる。判定部214は、工事情報207に記録されている工事開始日時、工事終了日時に対して障害アラームから取り出した障害発生日時が少しだけずれている場合、例えば、工事開始日時に対して、1時間の範囲で障害発生日時がずれている場合には、人間が行う工事作業が早く始まった、あるいは、工事作業が延びていると解釈し、工事疑いありの障害アラーム202と判定する。工事情報207に含まれている監視対象ホスト名で示される監視対象108が、工事の期間と偶然1時間だけずれて障害になる確率は極めて稀であり、工事作業によって発生した障害アラーム202と判定することで、監視者の対応を変化させることができる。
For example, in step S105 of FIG. 3, the
出力部215は、工事が予定と異なる期間に実施され、且つ、工事の影響で障害が発生した可能性があると判定部214により判定された場合(上記(2)又は(3)の場合)に、アラーム受信部212により受信された障害アラーム202に含まれる監視対象識別情報に該当する装置に工事の影響で障害が発生した可能性があることを示す出力情報(例えば、アラーム情報206を管理端末102に参照させる)を管理端末102に出力する(出力ステップ)。このとき、出力部215は、処理装置210により障害の発生時刻と工事の開始予定時刻又は終了予定時刻との差を計算して、当該計算結果を示す出力情報を管理端末102に出力してもよい。また、出力部215は、工事以外が原因で障害が発生したと判定部214により判定された場合(上記(4)の場合)に、アラーム受信部212により受信された障害アラーム202に含まれる監視対象識別情報に該当する装置に障害が発生したことを示す出力情報を管理端末102に出力する。また、出力部215は、工事の影響で障害が発生したと判定部214により判定された場合(上記(1)の場合)に、アラーム受信部212により受信された障害アラーム202に含まれる監視対象識別情報に該当する装置に工事の影響で障害が発生したことを示す出力情報を管理端末102に出力する。
The
例えば、図3のステップS106において、出力部215はアラームの判定結果を管理端末102に障害、工事、工事疑いありという形でアラーム情報206の中に含めて表示する(図4のP107)。
For example, in step S106 of FIG. 3, the
判定部214は、さらに、処理装置210により、アラーム受信部212により受信された障害アラーム202に含まれる障害内容情報(例えば、障害メッセージ)と工事情報読取部213により読み取られた工事情報207に含まれる障害特徴情報(例えば、サーバのプロセス名やリソース名、ルータのポート番号)とを比較して、障害が工事の影響で発生する障害の特徴を示すかどうかを判定してもよい。そして、出力部215は、工事以外が原因で障害が発生したと判定部214により判定された場合であって、障害が工事の影響で発生する障害の特徴を示さないと判定部214により判定された場合に、アラーム受信部212により受信された障害アラーム202に含まれる監視対象識別情報に該当する装置に障害が発生したことを示す出力情報を管理端末102に出力してもよい。
The
例えば、判定部214は、時間の判定のみならず、サーバのプロセス名やリソース名を使用し、障害メッセージとのマッチングによるフィルタリングを行ってもよいし、ネットワークのルータのポート番号を障害メッセージから切り出し、予め工事情報207に用意したポート番号とのマッチングによりフィルタリングすることも可能である。
For example, the
判定部214は、さらに、記憶装置211に記録されたアラーム情報206や工事情報207に対し、後に分析を行うことで、工事が多い機器、工事に起因する障害の発生率、工事フィルタ(例えば、図3のステップS105における判定機能)の精度などを分析可能としてもよい。これにより、今後期待されるプロアクティブ(能動的)な運用監視を実現することができる。
The
図5、図6は、障害アラーム202の一例を示す図である。図7は、工事情報207の一例を示す図である。これらは、図4の主要なインターフェースである。
5 and 6 are diagrams illustrating an example of the
図4のP103におけるネットワーク(監視)障害アラームの例は図5のような形式である。また、サーバ(監視)障害アラームの例は図6のような形式である。図4のP106における工事情報207の結果としては、例えば図7の内容が返される。
An example of a network (monitoring) failure alarm in P103 of FIG. 4 has a format as shown in FIG. An example of a server (monitoring) failure alarm has a format as shown in FIG. As the result of the
図7のように、工事情報207には、例えば、工事IDとして工事情報207の各データのID、対象IDとして監視対象ホスト名の全体システムを指すID、監視対象ホスト名として工事対象の監視対象ホスト名、工事開始予定日時として計画工事の開始予定日時、工事終了予定日時として計画工事の終了予定日時、サーバ監視情報としてサーバ上のプロセス名やリソース名、アラームメッセージ内容として障害メッセージとアラーム内容が同一だった場合にフィルタを行うメッセージ内容、工事区分として工事、キャリアによる回線借用、監視対象側の停電などの工事理由、ポート番号としてネットワーク監視におけるルータのポート番号を設定する。
As shown in FIG. 7, the
以上のように、本実施の形態に係るアラーム管理装置は、
ネットワークに接続された複数の装置を監視し、前記複数の装置のうちいずれかに障害が発生した場合に、当該装置を識別する監視対象識別情報と前記障害の発生時刻を示す障害発生時刻情報とを含む障害アラームを受信するアラーム受信部と、
前記複数の装置のうち工事が実施される装置を識別する工事対象識別情報と前記工事の開始予定時刻を示す工事開始時刻情報と前記工事の終了予定時刻を示す工事終了時刻情報とを含む工事情報を記憶する記憶装置から、前記アラーム受信部により受信された障害アラームに含まれる監視対象識別情報と同一の装置を識別する工事対象識別情報を含む工事情報を読み取る工事情報読取部と、
処理装置により、前記アラーム受信部により受信された障害アラームに含まれる障害発生時刻情報と前記工事情報読取部により読み取られた工事情報に含まれる工事開始時刻情報と工事終了時刻情報とを比較して、前記工事が予定通りの期間に実施されたかどうかと前記工事の影響で前記障害が発生した可能性があるかどうかとを判定する判定部と、
前記工事が予定と異なる期間に実施され、且つ、前記工事の影響で前記障害が発生した可能性があると前記判定部により判定された場合に、前記アラーム受信部により受信された障害アラームに含まれる監視対象識別情報に該当する装置に前記工事の影響で前記障害が発生した可能性があることを示す出力情報を出力する出力部とを備えることを特徴とする。
As described above, the alarm management device according to the present embodiment is
Monitoring a plurality of devices connected to the network, and when a failure occurs in any of the plurality of devices, monitoring target identification information for identifying the device and failure occurrence time information indicating the occurrence time of the failure; An alarm receiver for receiving fault alarms including:
Construction information including construction target identification information for identifying a device to be constructed among the plurality of devices, construction start time information indicating a scheduled start time of the construction, and construction end time information indicating a planned end time of the construction A construction information reading unit that reads construction information including construction target identification information that identifies the same device as the monitoring target identification information included in the failure alarm received by the alarm reception unit, from a storage device that stores
The processing device compares the failure occurrence time information included in the failure alarm received by the alarm receiving unit with the construction start time information included in the construction information read by the construction information reading unit and the construction end time information. A determination unit that determines whether the construction has been performed as scheduled and whether the failure may have occurred due to the construction;
Included in the failure alarm received by the alarm receiving unit when the construction is carried out in a period different from the schedule and the determination unit determines that the failure may have occurred due to the construction. And an output unit that outputs output information indicating that the failure may have occurred due to the work.
このような特徴により、ネットワークやネットワークに接続された装置に対する工事が予定通りに実施されていない場合に、管理者が工事に起因する障害アラームを対処が必要な障害アラームと誤認して無駄な作業を行うことを抑制することが可能となる。 Due to these features, when work on the network and the devices connected to the network is not carried out as scheduled, the administrator misidentifies the trouble alarm caused by the work as a trouble alarm that needs to be dealt with, and wasteful work It becomes possible to suppress performing.
前記出力部は、前記工事が予定と異なる期間に実施され、且つ、前記工事の影響で前記障害が発生した可能性があると前記判定部により判定された場合に、前記処理装置により前記障害の発生時刻と前記工事の開始予定時刻又は終了予定時刻との差を計算して、当該計算結果を示す出力情報を出力することを特徴とする。 The output unit performs the failure of the failure by the processing device when the construction is carried out in a period different from the schedule and the determination unit determines that the failure may have occurred due to the influence of the construction. A difference between the occurrence time and the planned start time or the end time of the construction is calculated, and output information indicating the calculation result is output.
このような特徴により、管理者が工事に起因する障害アラームが発生した時刻が工事の予定時刻とどの程度ずれているかを容易に確認することが可能となる。 With such a feature, it becomes possible for the manager to easily check how much the time when the failure alarm due to the construction is different from the scheduled construction time.
前記判定部は、前記処理装置により、前記アラーム受信部により受信された障害アラームに含まれる障害発生時刻情報と前記工事情報読取部により読み取られた工事情報に含まれる工事開始時刻情報と工事終了時刻情報とを比較して、(1)前記障害の発生時刻が前記工事の開始予定時刻から終了予定時刻までの間である場合には、前記工事の影響で前記障害が発生したと判定し、(2)前記障害の発生時刻から前記工事の開始予定時刻までの期間が所定の時間以下である場合と(3)前記障害の発生時刻から前記工事の終了予定時刻までの期間が所定の時間以下である場合とには、前記工事が予定と異なる期間に実施され、且つ、前記工事の影響で前記障害が発生した可能性があると判定し、(4)その他の場合には、前記工事以外が原因で前記障害が発生したと判定することを特徴とする。 The determination unit includes the failure occurrence time information included in the failure alarm received by the alarm reception unit, the construction start time information and the construction end time included in the construction information read by the construction information reading unit by the processing device. (1) When the failure occurrence time is between the scheduled start time and the scheduled finish time of the construction, it is determined that the failure has occurred due to the construction, 2) A period from the failure occurrence time to the scheduled construction start time is less than a predetermined time; and (3) a period from the failure occurrence time to the scheduled construction end time is less than a predetermined time. In some cases, it is determined that the construction work was carried out in a different period from the schedule, and that the failure may have occurred due to the construction work. (4) In other cases, other than the construction work Cause And judging said fault has occurred.
このような特徴により、ネットワークやネットワークに接続された装置に対する工事が予定より早く開始したり、予定より遅く終了したりした場合に、管理者が工事に起因する障害アラームを対処が必要な障害アラームと誤認して無駄な作業を行うことを抑制することが可能となる。 Because of these features, when a work on a network or a device connected to the network starts earlier than scheduled or ends later than scheduled, a fault alarm that requires an administrator to handle a fault alarm caused by the work It is possible to suppress performing a wasteful operation due to misunderstanding.
前記障害アラームは、前記障害の内容を示す障害内容情報を含み、
前記工事情報は、前記工事の影響で発生する障害の特徴を示す障害特徴情報を含み、
前記判定部は、前記処理装置により、前記アラーム受信部により受信された障害アラームに含まれる障害内容情報と前記工事情報読取部により読み取られた工事情報に含まれる障害特徴情報とを比較して、前記障害が前記工事の影響で発生する障害の特徴を示すかどうかを判定し、
前記出力部は、前記工事以外が原因で前記障害が発生したと前記判定部により判定された場合であって、前記障害が前記工事の影響で発生する障害の特徴を示さないと前記判定部により判定された場合に、前記アラーム受信部により受信された障害アラームに含まれる監視対象識別情報に該当する装置に前記障害が発生したことを示す出力情報を出力することを特徴とする。
The failure alarm includes failure content information indicating the content of the failure,
The construction information includes failure feature information indicating a feature of a failure that occurs due to the influence of the construction,
The determination unit compares the failure content information included in the failure alarm received by the alarm reception unit and the failure feature information included in the construction information read by the construction information reading unit by the processing device, Determine whether the failure indicates the characteristics of the failure caused by the construction,
The output unit is a case where the determination unit determines that the failure has occurred due to a cause other than the construction, and the determination unit indicates that the failure does not indicate a characteristic of the failure that occurs due to the influence of the construction. When it is determined, output information indicating that the failure has occurred is output to a device corresponding to the monitoring target identification information included in the failure alarm received by the alarm receiving unit.
このような特徴により、障害アラームが工事に起因する障害アラームであるかどうかをより正確に判定することが可能となる。 With such a feature, it is possible to more accurately determine whether or not the failure alarm is a failure alarm caused by construction.
前記出力部は、前記工事以外が原因で前記障害が発生したと前記判定部により判定された場合に、前記アラーム受信部により受信された障害アラームに含まれる監視対象識別情報に該当する装置に前記障害が発生したことを示す出力情報を出力することを特徴とする。 When the determination unit determines that the failure has occurred due to reasons other than the construction, the output unit includes the device corresponding to the monitoring target identification information included in the failure alarm received by the alarm reception unit. Output information indicating that a failure has occurred is output.
このような特徴により、管理者に工事に起因する障害アラームと区別して対処が必要な障害アラームを通知することが可能となる。 With such a feature, it is possible to notify the administrator of a failure alarm that needs to be dealt with separately from a failure alarm caused by construction.
前記出力部は、前記工事の影響で前記障害が発生したと前記判定部により判定された場合に、前記アラーム受信部により受信された障害アラームに含まれる監視対象識別情報に該当する装置に前記工事の影響で前記障害が発生したことを示す出力情報を出力することを特徴とする。 When the determination unit determines that the failure has occurred due to the construction, the output unit applies the construction to the device corresponding to the monitoring target identification information included in the failure alarm received by the alarm reception unit. Output information indicating that the failure has occurred due to the influence of is output.
このような特徴により、管理者に工事に起因する可能性がある障害アラームと区別して確実に工事に起因する障害アラームを通知することが可能となる。 With such a feature, it is possible to reliably notify the administrator of a failure alarm caused by construction, in distinction from a failure alarm that may be caused by construction.
また、本実施の形態に係るアラーム管理方法は、
アラーム管理装置が有するアラーム受信部が、ネットワークに接続された複数の装置を監視し、前記複数の装置のうちいずれかに障害が発生した場合に、当該装置を識別する監視対象識別情報と前記障害の発生時刻を示す障害発生時刻情報とを含む障害アラームを受信するアラーム受信ステップと、
アラーム管理装置が有する工事情報読取部が、前記複数の装置のうち工事が実施される装置を識別する工事対象識別情報と前記工事の開始予定時刻を示す工事開始時刻情報と前記工事の終了予定時刻を示す工事終了時刻情報とを含む工事情報を記憶する記憶装置から、前記アラーム受信部により受信された障害アラームに含まれる監視対象識別情報と同一の装置を識別する工事対象識別情報を含む工事情報を読み取る工事情報読取ステップと、
アラーム管理装置が有する判定部が、処理装置により、前記アラーム受信部により受信された障害アラームに含まれる障害発生時刻情報と前記工事情報読取部により読み取られた工事情報に含まれる工事開始時刻情報と工事終了時刻情報とを比較して、前記工事が予定通りの期間に実施されたかどうかと前記工事の影響で前記障害が発生した可能性があるかどうかとを判定する判定ステップと、
アラーム管理装置が有する出力部が、前記工事が予定と異なる期間に実施され、且つ、前記工事の影響で前記障害が発生した可能性があると前記判定部により判定された場合に、前記アラーム受信部により受信された障害アラームに含まれる監視対象識別情報に該当する装置に前記工事の影響で前記障害が発生した可能性があることを示す出力情報を出力する出力ステップとを備えることを特徴とする。
The alarm management method according to the present embodiment is
The alarm reception unit of the alarm management device monitors a plurality of devices connected to the network, and when any of the plurality of devices fails, the monitoring target identification information for identifying the device and the failure An alarm reception step for receiving a failure alarm including failure occurrence time information indicating the occurrence time of
The construction information reading unit of the alarm management device has construction target identification information for identifying a device to be constructed among the plurality of devices, construction start time information indicating the planned construction start time, and scheduled construction completion time. Construction information including construction target identification information for identifying the same device as the monitoring target identification information included in the failure alarm received by the alarm receiver from a storage device that stores construction information including construction completion time information indicating A construction information reading step for reading
The determination unit included in the alarm management device includes, by the processing device, failure occurrence time information included in the failure alarm received by the alarm reception unit and construction start time information included in the construction information read by the construction information reading unit. A determination step of comparing the construction end time information and determining whether the construction has been performed in a scheduled period and whether the failure may have occurred due to the construction;
When the output unit included in the alarm management device is implemented in a period different from the schedule, and the determination unit determines that the failure may have occurred due to the work, the alarm reception is performed. An output step of outputting output information indicating that the failure may have occurred due to the construction work to a device corresponding to the monitoring target identification information included in the failure alarm received by the unit, To do.
このような特徴により、ネットワークやネットワークに接続された装置に対する工事が予定通りに実施されていない場合に、管理者が工事に起因する障害アラームを対処が必要な障害アラームと誤認して無駄な作業を行うことを抑制することが可能となる。 Due to these features, when work on the network and the devices connected to the network is not carried out as scheduled, the administrator misidentifies the trouble alarm caused by the work as a trouble alarm that needs to be dealt with, and wasteful work It becomes possible to suppress performing.
前記判定ステップは、前記判定部が、処理装置により、前記アラーム受信部により受信された障害アラームに含まれる障害発生時刻情報と前記工事情報読取部により読み取られた工事情報に含まれる工事開始時刻情報と工事終了時刻情報とを比較して、(1)前記障害の発生時刻が前記工事の開始予定時刻から終了予定時刻までの間である場合には、前記工事の影響で前記障害が発生したと判定し、(2)前記障害の発生時刻から前記工事の開始予定時刻までの期間が所定の時間以下である場合と(3)前記障害の発生時刻から前記工事の終了予定時刻までの期間が所定の時間以下である場合とには、前記工事が予定と異なる期間に実施され、且つ、前記工事の影響で前記障害が発生した可能性があると判定し、(4)その他の場合には、前記工事以外が原因で前記障害が発生したと判定することを特徴とする。 In the determination step, the determination unit includes the failure occurrence time information included in the failure alarm received by the alarm reception unit and the construction start time information included in the construction information read by the construction information reading unit. And (1) If the failure occurrence time is between the scheduled start time and the scheduled finish time of the construction, the failure has occurred due to the influence of the construction. (2) when the period from the occurrence time of the failure to the scheduled start time of the construction is less than or equal to a predetermined time; and (3) the period from the occurrence time of the failure to the scheduled completion time of the construction is predetermined. It is determined that there is a possibility that the failure has occurred due to the influence of the construction, and (4) in other cases, in front Except construction work and judging that the said failure caused.
このような特徴により、ネットワークやネットワークに接続された装置に対する工事が予定より早く開始したり、予定より遅く終了したりした場合に、管理者が工事に起因する障害アラームを対処が必要な障害アラームと誤認して無駄な作業を行うことを抑制することが可能となる。 Because of these features, when a work on a network or a device connected to the network starts earlier than scheduled or ends later than scheduled, a fault alarm that requires an administrator to handle a fault alarm caused by the work It is possible to suppress performing a wasteful operation due to misunderstanding.
上記実施の形態1で説明したアラーム管理装置及び方法は、
ネットワークを構成する各装置から通知された障害アラームに応じて、個々の装置で発生した障害を管理者に通報するネットワーク・サーバなどの障害管理方法において、各種工事作業に起因して発生する障害アラームを記録するアラーム記憶機能を備え、前記装置に対して工事作業を実施する場合には、前記アラーム記憶機能から読み出した障害アラームと、前記工事作業の内容を示す工事情報を参照することにより、工事作業実施中に通知された障害アラームが工事に関係するアラームか否か判断し、その障害アラームが工事アラームである場合には、管理者に対する障害発生の旨の通知を抑止し、その障害アラームの障害発生日時が工事情報の開始日時、終了日時よりある一定時間のずれが生じているか否かを判断する工事判定機能により、管理者に対する障害発生の通知時に工事影響ありの通知をするようにしたことを特徴とする。
The alarm management apparatus and method described in the first embodiment are as follows.
In the fault management method such as network server that reports the fault that occurred in each device to the administrator according to the fault alarm notified from each device that configures the network, the fault alarm that occurs due to various construction work When the construction work is performed on the device, the construction is performed by referring to the failure alarm read from the alarm storage function and the construction information indicating the contents of the construction work. It is determined whether or not the failure alarm notified during the work is an alarm related to construction. If the failure alarm is a construction alarm, notification of the failure occurrence to the administrator is suppressed, and the failure alarm To the construction judgment function that judges whether the failure occurrence date and time is a certain time lag from the start date and time and end date and time of construction information Ri, is characterized in that so as to notification of there work influence at the time of notification of the failure to the administrator.
前記工事判定機能は、さらに、
前記障害アラームの障害発生日時と前記工事情報の開始日時を比べて、前記障害アラームの障害発生日時が予め定められた時間だけずれている場合には、その時間の差分を取得し、管理者に対する障害発生の通知時に工事影響ありの通知と時間の差分を表示するようにしたことを特徴とする。
The construction determination function further includes:
When the failure occurrence date and time of the failure alarm is compared with the start date and time of the construction information, if the failure occurrence date and time of the failure alarm is shifted by a predetermined time, a difference between the times is obtained and It is characterized in that the difference between the notification with the effect of construction and the time is displayed at the time of notification of the occurrence of the failure.
前記工事判定機能は、さらに、
前記障害アラームの障害発生日時と前記工事情報の終了日時を比べて、前記障害アラームの障害発生日時が予め定められた時間だけずれている場合には、その時間の差分を取得し、管理者に対する障害発生の通知時に工事影響ありの通知と時間の差分を表示するようにしたことを特徴とする。
The construction determination function further includes:
When the failure occurrence date and time of the failure alarm is compared with the completion date and time of the construction information, if the failure occurrence date and time of the failure alarm is shifted by a predetermined time, the difference between the times is obtained and It is characterized in that the difference between the notification with the effect of construction and the time is displayed at the time of notification of the occurrence of the failure.
実施の形態2.
本実施の形態では、アラーム管理装置200が、工事による周辺機器や回線への影響を工事終了時に自動的に確認し、工事影響機器(監視対象108)が問題なく通常監視に復旧できることを自動的に判定する。この処理を工事復旧確認という。以下では、主に実施の形態1との差異について説明する。
In the present embodiment, the
図8は、本実施の形態に係るアラーム管理装置の構成を示すブロック図である。 FIG. 8 is a block diagram showing a configuration of the alarm management device according to the present embodiment.
本実施の形態において、アラーム管理装置200が備える処理装置210は、工事情報設定部216を含む。アラーム管理装置200が備える記憶装置211には、工事復旧確認情報208が記憶される。
In the present embodiment, the
図8において、アラーム受信部212、工事情報読取部213、判定部214、及び工事情報設定部216は、工事終了時に監視対象108の工事からの復旧を確認する復旧確認機能205を有する。工事復旧確認を行う時間(時刻)や監視対象機器に関する情報を記録する工事復旧確認情報208は、復旧確認機能205により参照される。
In FIG. 8, an
工事復旧確認情報208の内容の追加、更新は、例えば、図1に例示した工事情報管理装置105のような工事管理システムが用意されており、工事担当者や監視対象108の管理者、キャリアなどが連携して情報交換する計画工事情報が工事管理システムを通して入力されているものとする。
For the addition and update of the contents of the construction
工事復旧確認には2つの目的がある。1つは、アラーム管理装置200が、工事作業が遅延していないかどうかを、復旧確認のためのPINGなどを利用して自動的に調べ、障害であれば、管理端末102の監視者から工事担当者に工事作業が遅延しているかどうかを確認する。もし工事作業が遅延していれば、監視者は計画工事時間を延長する措置を行う。もし工事作業が遅延していなければ、障害対応を行う。もう1つは、工事作業の後、PINGなどを利用して各監視対象108を調べることにより、通常の監視状態に正しく戻れるかどうかを確認することである。
There are two purposes for confirmation of construction restoration. One is that the
図9は、本実施の形態に係るアラーム管理装置の動作(アラーム管理方法)の一例を示すフロー図である。また、図10は、本実施の形態に係るシステムの処理を示すシーケンス図である。 FIG. 9 is a flowchart showing an example of the operation (alarm management method) of the alarm management apparatus according to the present embodiment. FIG. 10 is a sequence diagram showing processing of the system according to the present embodiment.
工事情報読取部213は、ネットワークに接続された複数の装置(監視対象108)のうち工事が実施される装置を識別する工事対象識別情報(例えば、監視対象108のホスト名)と工事の終了予定時刻(日時)を示す工事終了時刻情報とを含む工事情報(ここでは、例えば図8の工事情報207そのものではなく、工事情報207や工事復旧確認情報208をまとめて工事情報というが、以下では特に工事復旧確認情報208として説明する)を記憶する記憶装置211から、工事復旧確認情報208を読み取る(工事情報読取ステップ)。
The construction
例えば、図9のステップS107において、工事情報読取部213は工事復旧確認情報208を参照する(図10のP107)。工事復旧確認情報208の参照はポーリング処理などにより、2分あるいは3分などの短い時間間隔で実施される。この時間間隔は設定により変更可能とする。この時間間隔で、現在時刻をキーにして、予め工事管理システムが設定した工事復旧確認情報208を参照することにより、現在復旧確認を行うべき工事に該当する監視対象ホスト名を抽出する(図10のP108)。
For example, in step S107 in FIG. 9, the construction
アラーム受信部212は、処理装置210により、現在時刻と工事情報読取部213により読み取られた工事復旧確認情報208に含まれる工事終了時刻情報とを比較して、現在時刻が工事の終了予定時刻を過ぎている場合には、工事情報読取部213により読み取られた工事復旧確認情報208に含まれる工事対象識別情報に該当する装置を所定の期間ごとに監視し、工事の影響で当該装置に発生した障害から当該装置が復旧した場合に、当該装置を識別する監視対象識別情報(例えば、監視対象108のホスト名)を含む復旧アラーム209を受信する(アラーム受信ステップ)。
The
例えば、図9のステップS108に示すように、アラーム受信部212は工事復旧確認情報208から取得した監視対象ホスト名で示される監視対象108について復旧確認を行う。復旧確認はPINGなどを監視対象ホストに向けて発行し、その結果をアラームとして受信する。ここではアラーム管理装置200が直接復旧確認コマンドを発行する例を用いて説明するが、ネットワーク監視装置106、サーバ監視装置107などの監視装置201を経由して復旧確認を行っても構わない。復旧確認を行う監視対象ホスト名は工事復旧確認情報208の結果に複数含まれているので、これらの監視対象ホストのすべてに向けて、復旧確認を実施する(図10のP109)。
For example, as shown in step S <b> 108 of FIG. 9, the
次に、図9のステップS109に示すように、アラーム受信部212は復旧確認の結果をアラームとして受信する。このアラームの結果によって、該当の監視対象ホストが復旧しているのか否かを判断する(図10のP110)。
Next, as shown in step S109 of FIG. 9, the
次に、図9のステップS110によって、アラーム受信部212は障害判定を行う。
Next, at step S110 in FIG. 9, the
出力部215は、アラーム受信部212により受信された復旧アラーム209に含まれる監視対象識別情報に該当する装置が復旧したことを示す出力情報を管理端末102に出力する(出力ステップ)。
The
例えば、図9のステップS111に示すように、復旧確認の結果が正常であれば、出力部215はその監視対象ホストに対する工事は終了したとして、異常なし(であることを示す画面など)を管理端末102に表示する(図10のP111)。異常があれば、その監視対象ホストの工事作業はまだ続いている可能性があるので、アラーム管理装置200は、工事担当者に連絡できるように実施の形態1で説明したような異常の判定を行う。
For example, as shown in step S111 of FIG. 9, if the result of the restoration confirmation is normal, the
図11は、工事復旧確認情報208の一例を示す図である。
FIG. 11 is a diagram showing an example of the construction
図11のように、工事復旧確認情報208の内容は、例えば、工事IDとして工事関連情報(例えば、工事情報207)へのID、対象IDとして監視対象ホスト名の全体システムを指すID、監視対象ホスト名として監視対象ホスト名、サービス名としてサーバ/ネットワークの種別、復旧確認実施日時として工事終了予定日時から15分後(工事管理システムが設定)の時刻、復旧確認結果として復旧確認結果を実績管理するOK/NG、復旧確認中フラグとして工事復旧確認中を示す0/1、工事区分として工事、キャリアによる回線借用、監視対象側の停電の区分、システム反映フラグとして工事管理システムが実績をメンテナンスしたどうかを示すフラグ0/1となる。
As shown in FIG. 11, the contents of the construction
図9のステップS107で説明したように、ポーリングで工事復旧確認を実施する場合には、何度も同じ監視対象ホストに対して復旧確認を行わないように、工事復旧確認中フラグの値を操作することにより、工事復旧確認中フラグが1の場合には工事復旧確認中として、重複して復旧確認を実行しないように制御してもよい。また、工事復旧確認の結果をこの工事復旧確認情報208に工事復旧確認の実績として書き戻すことにより、工事の復旧確認の実績を管理できるようにしてもよい。さらに工事管理システムがこの復旧確認結果を工事管理システム側に取り込んだかどうかを示すシステム反映フラグを設けることにより、この工事復旧確認情報の内容をメンテナンスできるようにしてもよい。
As described in step S107 in FIG. 9, when construction restoration confirmation is performed by polling, the value of the construction restoration confirmation flag is manipulated so that restoration confirmation is not repeatedly performed on the same monitored host. By doing so, when the construction recovery confirmation in progress flag is 1, it may be controlled that the construction restoration confirmation is in progress and the restoration confirmation is not executed redundantly. Moreover, the result of the construction restoration confirmation may be managed by writing back the result of the construction restoration confirmation in the construction
そのために、アラーム管理装置200が備える工事情報設定部216は、記憶装置211に記憶された工事復旧確認情報208のうちアラーム受信部212により受信された復旧アラーム209に含まれる監視対象識別情報と同一の装置を識別する工事対象識別情報を含む工事復旧確認情報208に含まれる復旧情報(例えば、復旧確認中フラグや復旧確認結果)を設定する(工事情報設定ステップ)。判定部214は、処理装置210により、工事情報読取部213により読み取られた工事復旧確認情報208に含まれる復旧情報を参照して、工事情報読取部213により読み取られた工事復旧確認情報208に含まれる工事対象識別情報に該当する装置が既に復旧したかどうかを判定する(判定ステップ)。アラーム受信部212は、工事情報読取部213により読み取られた工事復旧確認情報208に含まれる工事対象識別情報に該当する装置がまだ復旧していないと判定部214により判定された場合に、当該装置を監視する。出力部215は、工事情報読取部213により読み取られた工事復旧確認情報208に含まれる復旧情報に基づいて、複数の装置のうち工事が実施される装置が復旧したかどうかを示す出力情報を管理端末102に出力してもよい。
Therefore, the construction
本実施の形態では、図8に示した工事情報207と工事復旧確認情報208のデータベースは同一の情報で構成することも可能であるが、工事によっては監視対象ホスト名の変更が想定される場合もあり、この場合には工事前と工事後で監視対象ホスト名が異なる場合があるので、2つの情報に分割した例を用いて説明した。1つの情報で構成する場合には、監視対象ホスト名を工事前、工事後で2つ管理するようにしてもよい。
In the present embodiment, the
以上のように、本実施の形態に係るアラーム管理装置は、
ネットワークに接続された複数の装置のうち工事が実施される装置を識別する工事対象識別情報と前記工事の終了予定時刻を示す工事終了時刻情報とを含む工事情報を記憶する記憶装置から、前記工事情報を読み取る工事情報読取部と、
処理装置により、現在時刻と前記工事情報読取部により読み取られた工事情報に含まれる工事終了時刻情報とを比較して、現在時刻が前記工事の終了予定時刻を過ぎている場合には、前記工事情報読取部により読み取られた工事情報に含まれる工事対象識別情報に該当する装置を所定の期間ごとに監視し、前記工事の影響で当該装置に発生した障害から当該装置が復旧した場合に、当該装置を識別する監視対象識別情報を含む復旧アラームを受信するアラーム受信部と、
前記アラーム受信部により受信された復旧アラームに含まれる監視対象識別情報に該当する装置が復旧したことを示す出力情報を出力する出力部とを備えることを特徴とする。
As described above, the alarm management device according to the present embodiment is
From the storage device that stores construction information including construction target identification information for identifying a device to be constructed among a plurality of devices connected to the network and construction completion time information indicating a scheduled completion time of the construction, the construction A construction information reading unit for reading information;
The processing device compares the current time with the work end time information included in the work information read by the work information reading unit, and if the current time has passed the planned work end time, the work The device corresponding to the construction object identification information included in the construction information read by the information reading unit is monitored every predetermined period, and when the device is recovered from a failure that occurred in the device due to the construction, An alarm receiver for receiving a recovery alarm including monitoring target identification information for identifying a device;
And an output unit that outputs output information indicating that the device corresponding to the monitoring target identification information included in the recovery alarm received by the alarm receiving unit is recovered.
このような特徴により、ネットワークに接続された装置に対する工事から当該工事が復旧したかどうかを、管理者が容易に確認することが可能となる。 With such a feature, it is possible for the administrator to easily confirm whether or not the work has been restored from the work on the device connected to the network.
前記工事情報は、前記工事情報読取部により読み取られた工事情報に含まれる工事対象識別情報に該当する装置が復旧したかどうかを示す復旧情報を含み、
前記アラーム管理装置は、さらに、
前記記憶装置に記憶された工事情報のうち前記アラーム受信部により受信された復旧アラームに含まれる監視対象識別情報と同一の装置を識別する工事対象識別情報を含む工事情報に含まれる復旧情報を設定する工事情報設定部と、
前記処理装置により、前記工事情報読取部により読み取られた工事情報に含まれる復旧情報を参照して、前記工事情報読取部により読み取られた工事情報に含まれる工事対象識別情報に該当する装置が既に復旧したかどうかを判定する判定部とを備え、
前記アラーム受信部は、前記工事情報読取部により読み取られた工事情報に含まれる工事対象識別情報に該当する装置がまだ復旧していないと前記判定部により判定された場合に、当該装置を監視することを特徴とする。
The construction information includes restoration information indicating whether or not a device corresponding to construction target identification information included in the construction information read by the construction information reading unit has been restored,
The alarm management device further includes:
Set the recovery information included in the construction information including the construction target identification information for identifying the same device as the monitoring target identification information included in the recovery alarm received by the alarm receiver from the construction information stored in the storage device Construction information setting section to be
With reference to the restoration information included in the construction information read by the construction information reading unit by the processing device, an apparatus corresponding to the construction target identification information included in the construction information read by the construction information reading unit has already been obtained. A determination unit for determining whether or not the recovery has occurred,
The alarm receiving unit monitors the device when the determination unit determines that the device corresponding to the construction object identification information included in the construction information read by the construction information reading unit has not yet been restored. It is characterized by that.
このような特徴により、ネットワークに接続された装置に対する工事から当該工事が復旧したかどうかを効率よく判定することが可能となる。 With such a feature, it is possible to efficiently determine whether or not the work has been restored from the work on the device connected to the network.
前記工事情報は、前記工事情報読取部により読み取られた工事情報に含まれる工事対象識別情報に該当する装置が復旧したかどうかを示す復旧情報を含み、
前記アラーム管理装置は、さらに、
前記記憶装置に記憶された工事情報のうち前記アラーム受信部により受信された復旧アラームに含まれる監視対象識別情報と同一の装置を識別する工事対象識別情報を含む工事情報に含まれる復旧情報を設定する工事情報設定部を備え、
前記出力部は、前記工事情報読取部により読み取られた工事情報に含まれる復旧情報に基づいて、前記複数の装置のうち工事が実施される装置が復旧したかどうかを示す出力情報を出力することを特徴とする。
The construction information includes restoration information indicating whether or not a device corresponding to construction target identification information included in the construction information read by the construction information reading unit has been restored,
The alarm management device further includes:
Set the recovery information included in the construction information including the construction target identification information for identifying the same device as the monitoring target identification information included in the recovery alarm received by the alarm receiver from the construction information stored in the storage device With a construction information setting section
The output unit outputs output information indicating whether or not a device on which the construction is performed is restored among the plurality of devices based on the restoration information included in the construction information read by the construction information reading unit. It is characterized by.
このような特徴により、ネットワークに接続された装置に対する工事から当該工事が復旧したかどうかが判定された結果を、管理者が容易に確認することが可能となる。 With such a feature, the administrator can easily confirm the result of determining whether or not the work has been restored from the work on the device connected to the network.
また、本実施の形態に係るアラーム管理方法は、
アラーム管理装置が有する工事情報読取部が、ネットワークに接続された複数の装置のうち工事が実施される装置を識別する工事対象識別情報と前記工事の終了予定時刻を示す工事終了時刻情報とを含む工事情報を記憶する記憶装置から、前記工事情報を読み取る工事情報読取ステップと、
アラーム管理装置が有するアラーム受信部が、処理装置により、現在時刻と前記工事情報読取部により読み取られた工事情報に含まれる工事終了時刻情報とを比較して、現在時刻が前記工事の終了予定時刻を過ぎている場合には、前記工事情報読取部により読み取られた工事情報に含まれる工事対象識別情報に該当する装置を所定の期間ごとに監視し、前記工事の影響で当該装置に発生した障害から当該装置が復旧した場合に、当該装置を識別する監視対象識別情報を含む復旧アラームを受信するアラーム受信ステップと、
アラーム管理装置が有する出力部が、前記アラーム受信部により受信された復旧アラームに含まれる監視対象識別情報に該当する装置が復旧したことを示す出力情報を出力する出力ステップとを備えることを特徴とする。
The alarm management method according to the present embodiment is
The construction information reading unit included in the alarm management device includes construction target identification information for identifying a device on which construction is to be performed among a plurality of devices connected to the network, and construction end time information indicating a scheduled end time of the construction. A construction information reading step for reading the construction information from a storage device for storing construction information;
The alarm receiving unit included in the alarm management device compares the current time with the work end time information included in the work information read by the work information reading unit by the processing device, and the current time is the estimated work end time. If it has passed, the equipment corresponding to the construction object identification information included in the construction information read by the construction information reading unit is monitored every predetermined period, and a failure occurred in the equipment due to the construction work. An alarm reception step for receiving a recovery alarm including monitoring target identification information for identifying the device when the device is recovered from;
An output unit included in the alarm management device includes an output step of outputting output information indicating that the device corresponding to the monitoring target identification information included in the recovery alarm received by the alarm reception unit is recovered. To do.
このような特徴により、ネットワークに接続された装置に対する工事から当該工事が復旧したかどうかを、管理者が容易に確認することが可能となる。 With such a feature, it is possible for the administrator to easily confirm whether or not the work has been restored from the work on the device connected to the network.
上記実施の形態2で説明したアラーム管理装置及び方法は、
工事の終了を確認するために、一定時間間隔で工事復旧確認情報を参照し、工事終了の確認時間を経過していた場合には、復旧確認を行う機能を備え、復旧確認結果を判定することにより工事作業の時間通りの終了を判定するようにしたことを特徴とする。
The alarm management apparatus and method described in the second embodiment are as follows.
In order to confirm the completion of construction, refer to the construction restoration confirmation information at regular time intervals, and if the construction completion confirmation time has passed, a function to perform restoration confirmation is provided and the restoration confirmation result is judged. The feature is that the end of the construction work is determined on time.
前記復旧確認を行う機能は、さらに、
復旧確認中には、重複して復旧確認を行わない復旧確認中フラグを設け、復旧確認の前に復旧確認フラグをONにしてから、復旧確認を実行し、復旧確認が終了したら、復旧確認フラグをOFFにすることで復旧確認の重複実行を抑止することを特徴とする。
The function of performing the recovery confirmation is further
During recovery confirmation, a recovery confirmation flag that does not perform redundant confirmation is provided, the recovery confirmation flag is set to ON before the recovery confirmation, and then the recovery confirmation is executed. It is characterized in that duplication execution of restoration confirmation is suppressed by turning OFF.
前記復旧確認を行う機能は、さらに、
前記復旧確認結果を記録管理するフラグを設け、復旧確認が実行されたあと復旧確認実績として成功と失敗を記録管理し、計画工事の実績を管理可能とすることを特徴とする。
The function of performing the recovery confirmation is further
A flag for recording and managing the restoration confirmation result is provided, and after the restoration confirmation is executed, success and failure are recorded and managed as a restoration confirmation result, so that the result of planned construction can be managed.
図12は、上記実施の形態におけるアラーム管理装置の外観の一例を示す図である。 FIG. 12 is a diagram illustrating an example of the appearance of the alarm management device according to the above embodiment.
図12において、アラーム管理装置200は、システムユニット910、CRT(Cathode Ray Tube)表示装置901、キーボード(K/B)902、マウス903、コンパクトディスク装置(CDD)905、プリンタ装置906、スキャナ装置907を備え、これらはケーブルで接続されている。さらに、アラーム管理装置200は、FAX機932、電話機931とケーブルで接続され、また、ローカルエリアネットワーク(LAN)942、ゲートウェイ941を介してインターネット940に接続されている。
In FIG. 12, an
図13は、上記実施の形態におけるアラーム管理装置のハードウェア構成の一例を示す図である。 FIG. 13 is a diagram illustrating an example of a hardware configuration of the alarm management device according to the embodiment.
図13において、アラーム管理装置200は、プログラムを実行するCPU911を備えている。CPU911は、バス912を介してROM(Read Only Memory)913、RAM(Random Access Memory)914、通信ボード915、CRT表示装置901、K/B902、マウス903、FDD(Flexible Disk Drive)904、磁気ディスク装置920、CDD905、プリンタ装置906、スキャナ装置907と接続されている。
In FIG. 13, the
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920は、不揮発性メモリの一例である。これらは、記憶装置あるいは記憶部の一例である。
The
通信ボード915は、FAX機932、電話機931、LAN942などに接続されている。通信ボード915は、入力装置、入力部、出力装置、あるいは出力部の一例である。
The
例えば、K/B902、スキャナ装置907、FDD904などは、入力装置あるいは入力部の一例である。また、例えば、CRT表示装置901などは、出力装置あるいは出力部の一例である。
For example, the K /
ここで、通信ボード915は、LAN942に限らず、直接、インターネット940、あるいはISDN(Integrated Services Digital Network)などのWAN(ワイドエリアネットワーク)に接続されていても構わない。直接、インターネット940、あるいはISDNなどのWANに接続されている場合、アラーム管理装置200は、インターネット940、あるいはISDNなどのWANに接続され、ゲートウェイ941は不要となる。
Here, the
磁気ディスク装置920には、オペレーティングシステム(OS)921、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923は、CPU911、OS921、ウィンドウシステム922により実行される。
The
上記プログラム群923には、上述した実施の形態の説明において「〜部」として説明する機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
The
例えば、CPU911などは、処理装置あるいは処理部の一例である。
For example, the
ファイル群924には、上述した実施の形態の説明において、「〜データ」、「〜情報」、「〜結果」として説明するものが、ファイル又はその一部として記憶されている。
In the
また、上述した実施の形態の説明において説明するフローチャートの矢印の部分は主としてデータの入出力を示し、そのデータの入出力のためにデータは、磁気ディスク装置920、FD(Flexible Disk)、光ディスク、CD(コンパクトディスク)、MD(ミニディスク)、DVD(Digital Versatile Disk)などのその他の記録媒体に記録される。あるいは、信号線やその他の伝送媒体により伝送される。
In addition, the arrows in the flowchart described in the description of the above-described embodiment mainly indicate data input / output, and for the data input / output, data includes a
また、上述した実施の形態の説明において「〜部」として説明するものは、ROM913に記憶されたファームウェアで実現されていても構わない。あるいは、ソフトウェアのみ、あるいは、ハードウェアのみ、あるいは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。
In addition, what is described as “˜unit” in the description of the above-described embodiment may be realized by firmware stored in the
また、上述した実施の形態を実施するプログラムは、磁気ディスク装置920、FD、光ディスク、CD、MD、DVDなどのその他の記録媒体による記録装置を用いて記憶されても構わない。
Further, the program for implementing the above-described embodiment may be stored using a recording device using another recording medium such as the
100 監視対象ルータ、101 監視対象サーバ、102 管理端末、103 監視側ルータ、104 障害ログ情報記録装置、105 工事情報管理装置、106 ネットワーク監視装置、107 サーバ監視装置、108 監視対象、200 アラーム管理装置、201 監視装置、202 障害アラーム、203 アラーム記憶機能、204 アラーム判定機能、205 復旧確認機能、206 アラーム情報、207 工事情報、208 工事復旧確認情報、209 復旧アラーム、210 処理装置、211 記憶装置、212 アラーム受信部、213 工事情報読取部、214 判定部、215 出力部、216 工事情報設定部、901 CRT表示装置、902 K/B、903 マウス、904 FDD、905 CDD、906 プリンタ装置、907 スキャナ装置、910 システムユニット、911 CPU、912 バス、913 ROM、914 RAM、915 通信ボード、920 磁気ディスク装置、921 OS、922 ウィンドウシステム、923 プログラム群、924 ファイル群、931 電話機、932 FAX機、940 インターネット、941 ゲートウェイ、942 LAN。 DESCRIPTION OF SYMBOLS 100 Monitoring object router, 101 Monitoring object server, 102 Management terminal, 103 Monitoring side router, 104 Fault log information recording apparatus, 105 Construction information management apparatus, 106 Network monitoring apparatus, 107 Server monitoring apparatus, 108 Monitoring object, 200 Alarm management apparatus , 201 Monitoring device, 202 Fault alarm, 203 Alarm storage function, 204 Alarm judgment function, 205 Recovery confirmation function, 206 Alarm information, 207 Construction information, 208 Construction recovery confirmation information, 209 Recovery alarm, 210 Processing device, 211 Storage device, 212 alarm reception unit, 213 construction information reading unit, 214 judgment unit, 215 output unit, 216 construction information setting unit, 901 CRT display device, 902 K / B, 903 mouse, 904 FDD, 905 CDD, 906 printer Device, 907 scanner device, 910 system unit, 911 CPU, 912 bus, 913 ROM, 914 RAM, 915 communication board, 920 magnetic disk device, 921 OS, 922 window system, 923 program group, 924 file group, 931 telephone, 932 FAX machine, 940 Internet, 941 gateway, 942 LAN.
Claims (9)
前記複数の装置のうち工事が実施される装置を識別する工事対象識別情報と前記工事の開始予定時刻を示す工事開始時刻情報と前記工事の終了予定時刻を示す工事終了時刻情報とを含む工事情報を記憶する記憶装置から、前記アラーム受信部により受信された障害アラームに含まれる監視対象識別情報と同一の装置を識別する工事対象識別情報を含む工事情報を読み取る工事情報読取部と、
処理装置により、前記アラーム受信部により受信された障害アラームに含まれる障害発生時刻情報と前記工事情報読取部により読み取られた工事情報に含まれる工事開始時刻情報と工事終了時刻情報とを比較して、(1)前記障害の発生時刻が前記工事の開始予定時刻から終了予定時刻までの間である場合には、前記工事の影響で前記障害が発生したと判定し、(2)前記障害の発生時刻から前記工事の開始予定時刻までの期間が所定の時間以下である場合と(3)前記工事の終了予定時刻から前記障害の発生時刻までの期間が所定の時間以下である場合とには、前記工事が予定と異なる期間に実施され、且つ、前記工事の影響で前記障害が発生した可能性があると判定し、(4)その他の場合には、前記工事以外が原因で前記障害が発生したと判定する判定部と、
前記工事が予定と異なる期間に実施され、且つ、前記工事の影響で前記障害が発生した可能性があると前記判定部により判定された場合に、前記アラーム受信部により受信された障害アラームに含まれる監視対象識別情報に該当する装置に前記工事の影響で前記障害が発生した可能性があることを示す出力情報を出力する出力部とを備えることを特徴とするアラーム管理装置。 Monitoring a plurality of devices connected to the network, and when a failure occurs in any of the plurality of devices, monitoring target identification information for identifying the device and failure occurrence time information indicating the occurrence time of the failure; An alarm receiver for receiving fault alarms including:
Construction information including construction target identification information for identifying a device to be constructed among the plurality of devices, construction start time information indicating a scheduled start time of the construction, and construction end time information indicating a planned end time of the construction A construction information reading unit that reads construction information including construction target identification information that identifies the same device as the monitoring target identification information included in the failure alarm received by the alarm reception unit, from a storage device that stores
The processing device compares the failure occurrence time information included in the failure alarm received by the alarm receiving unit with the construction start time information included in the construction information read by the construction information reading unit and the construction end time information. (1) When the failure occurrence time is between the scheduled start time and the scheduled finish time of the construction, it is determined that the failure has occurred due to the construction, and (2) the failure has occurred. When the period from the time to the scheduled start time of the construction is not more than a predetermined time and (3) When the period from the scheduled completion time of the construction to the occurrence time of the failure is not more than a predetermined time, It is determined that there is a possibility that the failure has occurred due to the influence of the construction , and the construction is carried out in a period different from the schedule . (4) In other cases, the failure occurs due to other than the construction Shi A determination unit that determines that
Included in the failure alarm received by the alarm receiving unit when the construction is carried out in a period different from the schedule and the determination unit determines that the failure may have occurred due to the construction. An alarm management device comprising: an output unit that outputs output information indicating that there is a possibility that the failure has occurred due to the construction work on a device corresponding to the monitored object identification information.
前記工事情報は、前記工事の影響で発生する障害の特徴を示す障害特徴情報を含み、
前記判定部は、前記処理装置により、前記アラーム受信部により受信された障害アラームに含まれる障害内容情報と前記工事情報読取部により読み取られた工事情報に含まれる障害特徴情報とを比較して、前記障害が前記工事の影響で発生する障害の特徴を示すかどうかを判定し、
前記出力部は、前記工事以外が原因で前記障害が発生したと前記判定部により判定された場合であって、前記障害が前記工事の影響で発生する障害の特徴を示さないと前記判定部により判定された場合に、前記アラーム受信部により受信された障害アラームに含まれる監視対象識別情報に該当する装置に前記障害が発生したことを示す出力情報を出力することを特徴とする請求項1又は2に記載のアラーム管理装置。 The failure alarm includes failure content information indicating the content of the failure,
The construction information includes failure feature information indicating a feature of a failure that occurs due to the influence of the construction,
The determination unit compares the failure content information included in the failure alarm received by the alarm reception unit and the failure feature information included in the construction information read by the construction information reading unit by the processing device, Determine whether the failure indicates the characteristics of the failure caused by the construction,
The output unit is a case where the determination unit determines that the failure has occurred due to a cause other than the construction, and the determination unit indicates that the failure does not indicate a characteristic of the failure that occurs due to the influence of the construction. If it is determined, according to claim 1, characterized in that an output information indicating that the failure has occurred in the device corresponding to the monitored identification information included in the received fault alarm by the alarm receiver or 2. The alarm management device according to 2.
前記出力部は、前記アラーム受信部により受信された復旧アラームに含まれる監視対象識別情報に該当する装置が復旧したことを示す出力情報を出力することを特徴とする請求項1から5までのいずれかに記載のアラーム管理装置。 The alarm receiving unit compares the current time with the construction end time information included in the construction information read by the construction information reading unit by the processing device, and the current time has passed the planned construction end time. If there is a device, the device corresponding to the construction object identification information included in the construction information read by the construction information reading unit is monitored every predetermined period, and the device is detected from a failure that has occurred in the device due to the construction. There when restored, it receives the recovery alarm comprising monitoring subject identification information for identifying the device,
The output unit claims 1 to 5, which apparatus corresponding to the monitored identification information included in the received recovered alarm by the alarm receiver is characterized and Turkey to output the output information indicating that the recovery The alarm management device according to any one of the above .
前記アラーム管理装置は、さらに、
前記記憶装置に記憶された工事情報のうち前記アラーム受信部により受信された復旧アラームに含まれる監視対象識別情報と同一の装置を識別する工事対象識別情報を含む工事情報に含まれる復旧情報を設定する工事情報設定部を備え、
前記判定部は、前記処理装置により、前記工事情報読取部により読み取られた工事情報に含まれる復旧情報を参照して、前記工事情報読取部により読み取られた工事情報に含まれる工事対象識別情報に該当する装置が既に復旧したかどうかを判定し、
前記アラーム受信部は、前記工事情報読取部により読み取られた工事情報に含まれる工事対象識別情報に該当する装置がまだ復旧していないと前記判定部により判定された場合に、当該装置を監視することを特徴とする請求項6に記載のアラーム管理装置。 The construction information includes restoration information indicating whether or not a device corresponding to construction target identification information included in the construction information read by the construction information reading unit has been restored,
The alarm management device further includes:
Set the recovery information included in the construction information including the construction target identification information for identifying the same device as the monitoring target identification information included in the recovery alarm received by the alarm receiver from the construction information stored in the storage device with a construction information setting unit that,
The determination unit refers to the restoration information included in the construction information read by the construction information reading unit by the processing device , and sets the construction target identification information included in the construction information read by the construction information reading unit. It determines whether the associated device has already recovered,
The alarm receiving unit monitors the device when the determination unit determines that the device corresponding to the construction object identification information included in the construction information read by the construction information reading unit has not yet been restored. The alarm management device according to claim 6 .
前記アラーム管理装置は、さらに、
前記記憶装置に記憶された工事情報のうち前記アラーム受信部により受信された復旧アラームに含まれる監視対象識別情報と同一の装置を識別する工事対象識別情報を含む工事情報に含まれる復旧情報を設定する工事情報設定部を備え、
前記出力部は、前記工事情報読取部により読み取られた工事情報に含まれる復旧情報に基づいて、前記複数の装置のうち工事が実施される装置が復旧したかどうかを示す出力情報を出力することを特徴とする請求項6に記載のアラーム管理装置。 The construction information includes restoration information indicating whether or not a device corresponding to construction target identification information included in the construction information read by the construction information reading unit has been restored,
The alarm management device further includes:
Set the recovery information included in the construction information including the construction target identification information for identifying the same device as the monitoring target identification information included in the recovery alarm received by the alarm receiver from the construction information stored in the storage device With a construction information setting section
The output unit outputs output information indicating whether or not a device on which the construction is performed is restored among the plurality of devices based on the restoration information included in the construction information read by the construction information reading unit. The alarm management device according to claim 6 .
アラーム管理装置が有する工事情報読取部が、前記複数の装置のうち工事が実施される装置を識別する工事対象識別情報と前記工事の開始予定時刻を示す工事開始時刻情報と前記工事の終了予定時刻を示す工事終了時刻情報とを含む工事情報を記憶する記憶装置から、前記アラーム受信部により受信された障害アラームに含まれる監視対象識別情報と同一の装置を識別する工事対象識別情報を含む工事情報を読み取る工事情報読取ステップと、
アラーム管理装置が有する判定部が、処理装置により、前記アラーム受信部により受信された障害アラームに含まれる障害発生時刻情報と前記工事情報読取部により読み取られた工事情報に含まれる工事開始時刻情報と工事終了時刻情報とを比較して、(1)前記障害の発生時刻が前記工事の開始予定時刻から終了予定時刻までの間である場合には、前記工事の影響で前記障害が発生したと判定し、(2)前記障害の発生時刻から前記工事の開始予定時刻までの期間が所定の時間以下である場合と(3)前記工事の終了予定時刻から前記障害の発生時刻までの期間が所定の時間以下である場合とには、前記工事が予定と異なる期間に実施され、且つ、前記工事の影響で前記障害が発生した可能性があると判定し、(4)その他の場合には、前記工事以外が原因で前記障害が発生したと判定する判定ステップと、
アラーム管理装置が有する出力部が、前記工事が予定と異なる期間に実施され、且つ、前記工事の影響で前記障害が発生した可能性があると前記判定部により判定された場合に、前記アラーム受信部により受信された障害アラームに含まれる監視対象識別情報に該当する装置に前記工事の影響で前記障害が発生した可能性があることを示す出力情報を出力する出力ステップとを備えることを特徴とするアラーム管理方法。 The alarm reception unit of the alarm management device monitors a plurality of devices connected to the network, and when any of the plurality of devices fails, the monitoring target identification information for identifying the device and the failure An alarm reception step for receiving a failure alarm including failure occurrence time information indicating the occurrence time of
The construction information reading unit of the alarm management device has construction target identification information for identifying a device to be constructed among the plurality of devices, construction start time information indicating the planned construction start time, and scheduled construction completion time. Construction information including construction target identification information for identifying the same device as the monitoring target identification information included in the failure alarm received by the alarm receiver from a storage device that stores construction information including construction completion time information indicating A construction information reading step for reading
The determination unit included in the alarm management device includes, by the processing device, failure occurrence time information included in the failure alarm received by the alarm reception unit and construction start time information included in the construction information read by the construction information reading unit. (1) When the failure occurrence time is between the scheduled start time and the scheduled completion time of the construction, it is determined that the failure has occurred due to the construction. (2) a period from the failure occurrence time to the scheduled start time of the construction is equal to or less than a predetermined time; and (3) a period from the planned construction end time to the failure occurrence time is a predetermined time. the a case where the time or less, the work is performed in different periods scheduled, and determines that the failure by the influence of the work is likely to have occurred, in the case of (4) others, before A determination step for determining that the failure has occurred for reasons other than the construction work ;
When the output unit included in the alarm management device is implemented in a period different from the schedule, and the determination unit determines that the failure may have occurred due to the work, the alarm reception is performed. An output step of outputting output information indicating that the failure may have occurred due to the construction work to a device corresponding to the monitoring target identification information included in the failure alarm received by the unit, Alarm management method to do.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005351746A JP4738155B2 (en) | 2005-12-06 | 2005-12-06 | Alarm management device and alarm management method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005351746A JP4738155B2 (en) | 2005-12-06 | 2005-12-06 | Alarm management device and alarm management method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007156869A JP2007156869A (en) | 2007-06-21 |
JP4738155B2 true JP4738155B2 (en) | 2011-08-03 |
Family
ID=38241150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005351746A Expired - Fee Related JP4738155B2 (en) | 2005-12-06 | 2005-12-06 | Alarm management device and alarm management method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4738155B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5126138B2 (en) * | 2009-03-23 | 2013-01-23 | Kddi株式会社 | Network management system and program |
JP2011182293A (en) * | 2010-03-03 | 2011-09-15 | Kddi Corp | Network management system and program |
JP5520864B2 (en) * | 2011-03-28 | 2014-06-11 | エヌ・ティ・ティ・コムウェア株式会社 | Maintenance device, maintenance method and program |
JP2021047784A (en) * | 2019-09-20 | 2021-03-25 | 沖電気工業株式会社 | Processing device, processing program and processing method |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2748832B2 (en) * | 1993-09-16 | 1998-05-13 | 日本電気株式会社 | Network fault management method |
JP2001036552A (en) * | 1999-07-22 | 2001-02-09 | Oki Electric Ind Co Ltd | Client server system monitor and method |
JP4342795B2 (en) * | 2000-07-13 | 2009-10-14 | 富士通株式会社 | Supervisory control device |
JP2002223293A (en) * | 2001-01-29 | 2002-08-09 | Hitachi Ltd | Method and system for maintaining/managing network |
JP2004021549A (en) * | 2002-06-14 | 2004-01-22 | Hitachi Information Systems Ltd | Network monitoring system and program |
JP2005157861A (en) * | 2003-11-27 | 2005-06-16 | Nec Fielding Ltd | On-site dispatch system, method and program |
-
2005
- 2005-12-06 JP JP2005351746A patent/JP4738155B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007156869A (en) | 2007-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101201786B (en) | Method and device for monitoring fault log | |
JP4666482B2 (en) | Business management device, business management method, and business management program | |
JP6396887B2 (en) | System, method, apparatus, and non-transitory computer readable storage medium for providing mobile device support services | |
JP4185913B2 (en) | Communication system, equipment state determination system, alarm system, recording system, and reporting system | |
CN109614283B (en) | Monitoring system of distributed database cluster | |
JP4598065B2 (en) | Monitoring simulation apparatus, method and program thereof | |
CN103490917B (en) | The detection method of troubleshooting situation and device | |
JP4738155B2 (en) | Alarm management device and alarm management method | |
CN106385343B (en) | Method and device for monitoring client under distributed system and distributed system | |
US20120210176A1 (en) | Method for controlling information processing apparatus and information processing apparatus | |
US20200068192A1 (en) | Video management system for video devices in a building system | |
CN110968456B (en) | Method and device for processing fault disk in distributed storage system | |
JP4364879B2 (en) | Failure notification system, failure notification method and failure notification program | |
US8897713B2 (en) | System, method, and computer program product for wireless network monitoring | |
JP4575020B2 (en) | Failure analysis device | |
KR20030056301A (en) | System hindrance integration management method | |
JP4850733B2 (en) | Health check device, health check method and program | |
JP2006186633A (en) | System, method, and program for fault path diagnosis | |
JP2007206998A (en) | Mediation device for remote diagnosis | |
JP2020141353A (en) | Device management method, management device, and program | |
JP2006094155A (en) | Network failure monitoring system and program therefor | |
CN117411929B (en) | Business process monitoring method, device, equipment and storage medium | |
CN114826884B (en) | Method, device, equipment and readable medium for positioning communication faults of cross-equipment protocol | |
JP2003186702A (en) | Terminal operation monitoring system and terminal operation monitoring method | |
CN106559272A (en) | A kind of computer lab management method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080528 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101101 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110426 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110426 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |