JP2020140525A - Notification system, notification device and notification method - Google Patents

Notification system, notification device and notification method Download PDF

Info

Publication number
JP2020140525A
JP2020140525A JP2019036441A JP2019036441A JP2020140525A JP 2020140525 A JP2020140525 A JP 2020140525A JP 2019036441 A JP2019036441 A JP 2019036441A JP 2019036441 A JP2019036441 A JP 2019036441A JP 2020140525 A JP2020140525 A JP 2020140525A
Authority
JP
Japan
Prior art keywords
possibility
notification
failure
monitored device
work
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019036441A
Other languages
Japanese (ja)
Inventor
涼子 山田
Ryoko Yamada
涼子 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2019036441A priority Critical patent/JP2020140525A/en
Publication of JP2020140525A publication Critical patent/JP2020140525A/en
Pending legal-status Critical Current

Links

Images

Abstract

To provide a notification system, a notification device, and a notification method capable of suppressing delay in dealing with failures.SOLUTION: A notification system comprises: incident management means managing incident information of a monitored device; configuration management means managing configuration information of the monitored device; work management means managing work information on work performed to the monitored device; possibility calculation means calculating possibility of failure occurrence for a certain future period of a system to which the monitored device belongs based on the incident information, the configuration information, and the work information; and notification means notifying a manager of the possibility of failure occurrence.SELECTED DRAWING: Figure 1

Description

本発明は、インシデントとなりうる障害に関する通知を行う通知システム、通知装置および通知方法に関するものである。 The present invention relates to a notification system, a notification device, and a notification method for notifying a failure that may be an incident.

従来、クラウド環境または障害許容性を考慮した構成の監視対象システムにおいて、インシデントとなりうる障害を事前検知する技術が知られている。例えば、特許文献1には、監視イベントを用いた広範囲なIT障害の予兆検知と、IT障害の特定とを行う予兆検知装置が提案されている。また、特許文献2には、監視対象システムからのメッセージを元に障害の予兆判定条件を自動的に生成し、自動学習することで障害の事前検知の精度を向上させるシステム障害の予兆監視システムおよびシステム障害予兆監視方法が開示されている。 Conventionally, there is known a technique for pre-detecting a failure that may be an incident in a cloud environment or a monitored system having a configuration considering failure tolerance. For example, Patent Document 1 proposes a sign detection device that detects a wide range of signs of an IT failure using a monitoring event and identifies an IT failure. Further, Patent Document 2 describes a system failure sign monitoring system that automatically generates failure sign determination conditions based on a message from a monitored system and automatically learns to improve the accuracy of failure predictive detection. A system failure sign monitoring method is disclosed.

特開2012−203684号公報Japanese Unexamined Patent Publication No. 2012-203648 特開2016−201060号公報Japanese Unexamined Patent Publication No. 2016-10060

特許文献1および特許文献2に記載されるような従来の事前検知技術により、障害の発生率を低減することができる。ここで、障害の発生を事前検知した際に、当該障害に対して定型的な対応ができない場合、運用担当者から担当システムエンジニアに対して対応方法のエスカレーションが発生する。このとき、担当システムエンジニアに連絡がつかない場合は、障害への対応の遅れが生じてしまう。障害への対応が遅れると、システム全体に影響を及ぼすような重大なインシデントが発生してしまうことがある。 The occurrence rate of failures can be reduced by the conventional prior detection technique as described in Patent Document 1 and Patent Document 2. Here, when the occurrence of a failure is detected in advance and a routine response cannot be made to the failure, the operation staff escalate the response method to the system engineer in charge. At this time, if the system engineer in charge cannot be contacted, the response to the failure will be delayed. Delays in responding to failures can lead to serious incidents that affect the entire system.

本発明は、上記のような課題を背景としたものであり、障害に対する対応の遅れを抑制することができる通知システム、通知装置および通知方法を提供することを目的とする。 The present invention is based on the above problems, and an object of the present invention is to provide a notification system, a notification device, and a notification method capable of suppressing a delay in responding to a failure.

本発明に係る通知システムは、監視対象機器のインシデント情報を管理するインシデント管理手段と、監視対象機器の構成情報を管理する構成管理手段と、監視対象機器に対して施される作業情報を管理する作業管理手段と、インシデント情報、構成情報および作業情報に基づき、監視対象機器が所属するシステムの将来の一定期間における障害発生可能性を算出する可能性算出手段と、障害発生可能性を通知する通知手段と、を備える。 The notification system according to the present invention manages an incident management means for managing incident information of a monitored device, a configuration management means for managing the configuration information of the monitored device, and work information given to the monitored device. Based on the work management means, incident information, configuration information, and work information, the possibility calculation means for calculating the possibility of failure occurrence in the future fixed period of the system to which the monitored device belongs, and the notification for notifying the possibility of failure occurrence. Means and.

本発明に係る通知装置は、監視対象機器のインシデント情報、監視対象機器の構成情報および監視対象機器に対して施される作業情報に基づき、監視対象機器が所属するシステムの将来の一定期間における障害発生可能性を算出する可能性算出手段と、障害発生可能性を通知する通知手段と、を備える。 The notification device according to the present invention is based on the incident information of the monitored device, the configuration information of the monitored device, and the work information given to the monitored device, and the failure of the system to which the monitored device belongs in a certain future period. It is provided with a possibility calculating means for calculating the possibility of occurrence and a notification means for notifying the possibility of occurrence of a failure.

本発明に係る通知方法は、監視対象機器のインシデント情報、監視対象機器の構成情報および監視対象機器に対して施される作業情報に基づき、監視対象機器が所属するシステムの将来の一定期間における障害発生可能性を算出するステップと、障害発生可能性を通知するステップと、を含む。 The notification method according to the present invention is based on the incident information of the monitored device, the configuration information of the monitored device, and the work information given to the monitored device, and the failure of the system to which the monitored device belongs in a certain future period. It includes a step of calculating the possibility of occurrence and a step of notifying the possibility of failure.

本発明に係る通知システム、通知装置および通知方法によれば、インシデント情報、構成情報および作業情報に基づき将来の障害発生可能性を算出して通知することで、対応の遅れの発生を抑制することができる。 According to the notification system, the notification device, and the notification method according to the present invention, the occurrence of delay in response can be suppressed by calculating and notifying the possibility of future failure based on the incident information, the configuration information, and the work information. Can be done.

実施の形態における通知システムの概略構成図である。It is a schematic block diagram of the notification system in an embodiment. 実施の形態の通知システムにおける障害発生可能性通知処理のフローチャートである。It is a flowchart of failure occurrence possibility notification processing in the notification system of embodiment.

(構成の説明)
以下、図面を参照して本発明の通知システム、通知装置および通知方法の実施の形態を詳細に説明する。図1は、実施の形態における通知システム1の概略構成図である。本実施の形態の通知システム1は、一または複数の監視対象機器81を含む一または複数の監視対象システム80における障害発生の可能性を算出し、通知するシステムである。監視対象機器81は、例えばサーバ、データベース、端末装置(パーソナルコンピュータ)などである。監視対象システム80は、一または複数の監視対象機器81がネットワークを介して接続された構成を有している。監視対象システム80は、例えばインターネットなどを介して通知システム1と接続される。
(Explanation of configuration)
Hereinafter, embodiments of the notification system, notification device, and notification method of the present invention will be described in detail with reference to the drawings. FIG. 1 is a schematic configuration diagram of the notification system 1 according to the embodiment. The notification system 1 of the present embodiment is a system that calculates and notifies the possibility of failure occurrence in one or more monitoring target systems 80 including one or more monitoring target devices 81. The monitored device 81 is, for example, a server, a database, a terminal device (personal computer), or the like. The monitored system 80 has a configuration in which one or more monitored devices 81 are connected via a network. The monitoring target system 80 is connected to the notification system 1 via, for example, the Internet.

図1に示すように、本実施の形態の通知システム1は、通知装置10と、構成管理装置20と、作業管理装置30と、インシデント管理装置40とからなる。通知装置10は、構成管理装置20、作業管理装置30およびインシデント管理装置40と通信可能に接続される。また、通知システム1は、障害情報DB500と、構成情報DB600と、インシデント情報DB700と、を備える。なお、「DB」は、「データベース」の略記である。 As shown in FIG. 1, the notification system 1 of the present embodiment includes a notification device 10, a configuration management device 20, a work management device 30, and an incident management device 40. The notification device 10 is communicably connected to the configuration management device 20, the work management device 30, and the incident management device 40. Further, the notification system 1 includes a failure information DB 500, a configuration information DB 600, and an incident information DB 700. In addition, "DB" is an abbreviation for "database".

通知装置10は、CPU(Central Processing Unit)およびメモリを備える一または複数のコンピュータにより構成され、監視対象システム80における障害発生の可能性を算出し、監視対象システム80の関係者に通知する。通知装置10は、可能性算出部101と、画面入出力部102と、メール送信部103とを有する。可能性算出部101と、画面入出力部102と、メール送信部103は、通知装置10が備えるCPUによりメモリに記憶されるプログラムを実行することで実現される機能部である。 The notification device 10 is composed of one or a plurality of computers including a CPU (Central Processing Unit) and a memory, calculates the possibility of failure in the monitored system 80, and notifies the persons concerned of the monitored system 80. The notification device 10 has a possibility calculation unit 101, a screen input / output unit 102, and a mail transmission unit 103. The possibility calculation unit 101, the screen input / output unit 102, and the mail transmission unit 103 are functional units realized by executing a program stored in the memory by the CPU included in the notification device 10.

可能性算出部101は、インシデント情報、監視対象機器81の構成情報および作業情報に基づき、監視対象システム80毎の障害発生可能性を算出する。可能性算出部101により算出された障害発生可能性は、障害情報DB500の障害発生可能性テーブル503に記憶される。また、可能性算出部101は、障害発生可能性の算出に用いる作業情報およびインシデント情報を障害情報DB500の作業情報テーブル501およびインシデント情報テーブル502にそれぞれ記憶する。 The possibility calculation unit 101 calculates the possibility of failure for each monitored system 80 based on the incident information, the configuration information of the monitored device 81, and the work information. The failure occurrence possibility calculated by the possibility calculation unit 101 is stored in the failure occurrence possibility table 503 of the failure information DB 500. Further, the possibility calculation unit 101 stores the work information and the incident information used for calculating the possibility of failure in the work information table 501 and the incident information table 502 of the failure information DB 500, respectively.

画面入出力部102は、通知装置10が備える表示部(不図示)に障害発生の可能性を含む通知メールを表示する。また、画面入出力部102は、通知装置10が備える操作部(不図示)を介して入力される通知情報を受け付け、通知情報テーブル504に通知情報を記憶する。通知情報は、監視対象システム80の運用担当者、担当システムエンジニアおよび所属部門の関係者のメールアドレスなどを含む。 The screen input / output unit 102 displays a notification mail including the possibility of failure on a display unit (not shown) included in the notification device 10. Further, the screen input / output unit 102 receives the notification information input via the operation unit (not shown) included in the notification device 10, and stores the notification information in the notification information table 504. The notification information includes the e-mail addresses of the person in charge of operation of the monitored system 80, the system engineer in charge, and the persons concerned in the department to which the system belongs.

メール送信部103は、障害情報DB500の障害発生可能性テーブル503に記憶される障害発生可能性を含むメールを生成する。また、メール送信部103は、生成したメールを、通知情報テーブル504に記憶される通知情報に基づき、運用担当者、担当システムエンジニアおよびその所属部門の関係者に対して送信する。 The mail transmission unit 103 generates an e-mail including a failure possibility stored in the failure occurrence possibility table 503 of the failure information DB 500. Further, the mail transmission unit 103 transmits the generated mail to the operation person, the system engineer in charge, and the persons concerned in the department to which the mail is assigned, based on the notification information stored in the notification information table 504.

構成管理装置20は、CPUおよびメモリを備える一または複数のコンピュータにより構成され、監視対象機器81の構成を構成情報として管理する装置である。具体的には、構成管理装置20は、監視対象機器81のリソース情報および監視対象機器81が所属する監視対象システム80に関する情報などを含む構成情報を、監視対象機器81から収集する。そして、構成管理装置20は、収集した構成情報を構成情報DB600の構成情報テーブル601へ記憶する、または更新する。なお、監視対象機器81の構成情報は、担当システムエンジニア等により設定されて構成情報テーブル601に記憶されてもよい。また、構成管理装置20は、通知装置10からの制御指令に基づき、構成情報テーブル601に記憶される構成情報の参照を行う。 The configuration management device 20 is a device composed of one or a plurality of computers including a CPU and a memory, and manages the configuration of the monitored device 81 as configuration information. Specifically, the configuration management device 20 collects configuration information from the monitored device 81, including resource information of the monitored device 81 and information about the monitored system 80 to which the monitored device 81 belongs. Then, the configuration management device 20 stores or updates the collected configuration information in the configuration information table 601 of the configuration information DB 600. The configuration information of the monitored device 81 may be set by the system engineer in charge or the like and stored in the configuration information table 601. Further, the configuration management device 20 refers to the configuration information stored in the configuration information table 601 based on the control command from the notification device 10.

作業管理装置30は、CPUおよびメモリを備える一または複数のコンピュータにより構成され、監視対象機器81に対して施される作業を管理する装置である。具体的には、作業管理装置30は、監視対象機器81に施される作業予定を含む作業情報を収集する。作業情報は、監視対象機器81名と、作業予定日時と、作業内容とを含む。また、作業管理装置30は、収集した作業情報に基づいて、監視対象機器81における作業工程表の生成または作業進捗の管理を行ってもよい。監視対象機器81に対して施される作業は、例えば、監視対象機器81におけるソフトウェアのアップデートなどである。 The work management device 30 is a device composed of one or a plurality of computers including a CPU and a memory, and manages the work performed on the monitored device 81. Specifically, the work management device 30 collects work information including a work schedule applied to the monitored device 81. The work information includes 81 monitored devices, a scheduled work date and time, and work contents. Further, the work management device 30 may generate a work process chart or manage the work progress in the monitored device 81 based on the collected work information. The work performed on the monitored device 81 is, for example, updating the software in the monitored device 81.

インシデント管理装置40は、CPUおよびメモリを備える一または複数のコンピュータにより構成され、監視対象機器81において発生した過去のインシデント情報を管理する装置である。具体的には、インシデント管理装置40は、監視対象機器81毎に過去のインシデント情報をインシデント情報DB700のインシデント情報テーブル701に記憶する、または更新する。インシデント情報は、インシデントの発生からインシデントに対する対応までの情報、インシデントの要因となった障害および障害の対応手順に関する情報を含む。また、インシデント管理装置40は、通知装置10からの制御指令に基づき、インシデント情報テーブル701に記憶されるインシデント情報の参照を行う。 The incident management device 40 is a device composed of one or a plurality of computers including a CPU and a memory, and manages past incident information generated in the monitored device 81. Specifically, the incident management device 40 stores or updates the past incident information for each monitored device 81 in the incident information table 701 of the incident information DB 700. Incident information includes information from the occurrence of an incident to the response to the incident, the failure that caused the incident, and information on the response procedure for the failure. Further, the incident management device 40 refers to the incident information stored in the incident information table 701 based on the control command from the notification device 10.

(動作の説明)
図2は、実施の形態の通知システム1における障害発生可能性通知処理のフローチャートである。本処理は、通知装置10により、定期的に実行される。定期的とは、一日一回、週一回、または月一回などであり、その期間は担当システムエンジニアなどにより設定される。本処理が開始されると、まず、障害情報DB500の障害発生可能性テーブル503に記憶される障害発生可能性が初期化される(S1)。例えば、障害発生可能性テーブル503に記憶される全ての監視対象システム80の障害発生可能性が「0%」とされる。
(Explanation of operation)
FIG. 2 is a flowchart of a failure occurrence possibility notification process in the notification system 1 of the embodiment. This process is periodically executed by the notification device 10. The term "regular" means once a day, once a week, or once a month, and the period is set by the system engineer in charge. When this process is started, first, the failure occurrence possibility stored in the failure occurrence possibility table 503 of the failure information DB 500 is initialized (S1). For example, the failure occurrence probability of all the monitored systems 80 stored in the failure occurrence possibility table 503 is set to "0%".

続いて、監視対象機器81への作業影響による障害発生の可能性が算出される。具体的には、まず所定の予測期間内に何れかの監視対象機器81に作業が予定されているか否かが判断される(S2)。所定の予測期間は、障害発生可能性通知処理が開始された日時から将来の一定期間である。例えば、障害発生可能性通知処理が一日一回実施される場合は、障害発生可能性通知処理が開始された日時から一日の間に監視対象機器81に対する作業が予定されているかが判断される。ここでは、通知装置10からの制御指令に基づき、作業管理装置30が監視対象機器81から収集した予測期間内の作業情報を通知装置10に送信する。通知装置10は、作業管理装置30から受信した作業情報に基づき、予測期間内に作業が予定されているか否かを判断する。 Subsequently, the possibility of failure due to the work influence on the monitored device 81 is calculated. Specifically, first, it is determined whether or not work is scheduled for any of the monitored devices 81 within a predetermined prediction period (S2). The predetermined prediction period is a fixed period in the future from the date and time when the failure occurrence notification processing is started. For example, when the failure possibility notification process is executed once a day, it is determined whether the work for the monitored device 81 is scheduled within one day from the date and time when the failure possibility notification process is started. To. Here, based on the control command from the notification device 10, the work management device 30 transmits the work information within the prediction period collected from the monitored device 81 to the notification device 10. The notification device 10 determines whether or not the work is scheduled within the prediction period based on the work information received from the work management device 30.

そして、全ての監視対象機器81において作業が予定されていない場合は(S2:No)、ステップS8に移行する。一方、何れかの監視対象機器81に予測期間内に作業が予定されている場合は(S2:Yes)、作業が予定されている監視対象機器81が所属する監視対象システム80が特定される(S3)。具体的には、まず、作業情報から作業が予定されている監視対象機器名が識別される。そして、構成管理装置20を介して、識別された監視対象機器名に基づく構成情報が構成情報テーブル601から取得される。続いて、取得された構成情報から、識別された監視対象機器81が構成要素となっている監視対象システム80が特定される。 Then, if no work is scheduled for all the monitored devices 81 (S2: No), the process proceeds to step S8. On the other hand, if work is scheduled for any of the monitored devices 81 within the prediction period (S2: Yes), the monitored system 80 to which the monitored device 81 scheduled for work belongs is specified (S2: Yes). S3). Specifically, first, the name of the monitored device to which the work is scheduled is identified from the work information. Then, the configuration information based on the identified monitored device name is acquired from the configuration information table 601 via the configuration management device 20. Subsequently, from the acquired configuration information, the monitoring target system 80 in which the identified monitoring target device 81 is a component is specified.

そして、障害情報DB500の障害発生可能性テーブル503に記憶されている、特定された監視対象システム80の障害発生可能性に所定の値が加算される(S4)。ここでは、予定されている作業の影響により、障害発生の可能性が高まると推定して、障害発生可能性テーブル503に所定の値が加算される。加算される所定の値は、予定されている作業の内容に応じて異なる値が加算されてもよいし、作業の内容に依らず一律の値が加算されてもよい。 Then, a predetermined value is added to the failure occurrence possibility of the specified monitored system 80 stored in the failure occurrence possibility table 503 of the failure information DB 500 (S4). Here, it is estimated that the possibility of failure occurrence increases due to the influence of the scheduled work, and a predetermined value is added to the failure occurrence possibility table 503. As the predetermined value to be added, a different value may be added depending on the content of the scheduled work, or a uniform value may be added regardless of the content of the work.

次に、予定されている作業と同じ作業による障害が、該当する監視対象機器81について過去に発生しているかどうかが判断される(S5)。ここでは、通知装置10からの制御により、インシデント管理装置40によってインシデント情報DB700のインシデント情報テーブル701が参照される。そして、インシデント情報テーブル701において、今回予定されている作業と同じ作業による障害が該当する監視対象機器81において過去に発生しているかどうかが照合される。 Next, it is determined whether or not a failure due to the same work as the scheduled work has occurred in the corresponding monitored device 81 in the past (S5). Here, the incident information table 701 of the incident information DB 700 is referred to by the incident management device 40 under the control of the notification device 10. Then, in the incident information table 701, it is collated whether or not a failure due to the same work as the work scheduled this time has occurred in the corresponding monitored device 81 in the past.

そして、予定されている作業と同じ作業による障害が該当する監視対象機器81において過去に発生していない場合は(S5:No)、ステップS8へ移行する。一方、予定されている作業と同じ作業による障害が該当する監視対象機器81において過去に発生している場合は(S5:Yes)、障害発生可能性テーブル503に記憶される、該当する監視対象システム80の障害発生可能性に所定の値が加算される(S6)。加算される所定の値は、過去に発生した障害の内容に応じて異なる値が加算されてもよいし、障害の内容に依らず一律の値が加算されてもよい。また、加算される所定の値は、過去に障害が発生した件数が多いほど大きな値であってもよい。 Then, if a failure due to the same work as the scheduled work has not occurred in the corresponding monitored device 81 in the past (S5: No), the process proceeds to step S8. On the other hand, if a failure due to the same work as the scheduled work has occurred in the corresponding monitored device 81 in the past (S5: Yes), the corresponding monitored system is stored in the failure possibility table 503. A predetermined value is added to the possibility of failure of 80 (S6). As the predetermined value to be added, a different value may be added depending on the content of the failure that has occurred in the past, or a uniform value may be added regardless of the content of the failure. Further, the predetermined value to be added may be a larger value as the number of failures that have occurred in the past increases.

続いて、インシデント管理装置40を介して、インシデント情報DB700のインシデント情報テーブル701から障害が発生した際の対応手順情報が取得され、障害情報DB500のインシデント情報テーブル502に記憶される(S7)。 Subsequently, the response procedure information when a failure occurs is acquired from the incident information table 701 of the incident information DB 700 via the incident management device 40, and is stored in the incident information table 502 of the failure information DB 500 (S7).

続いて、過去のインシデントの発生傾向から、予測期間内における障害発生可能性が算出される。具体的には、まずインシデント管理装置40を介して、インシデント情報DB700のインシデント情報テーブル701から、時間、週、月または年の単位で、監視対象機器81が提供するサービスごとに過去のインシデントの発生件数が取得される(S8)。 Subsequently, the possibility of failure within the prediction period is calculated from the tendency of past incidents to occur. Specifically, first, past incidents are generated for each service provided by the monitored device 81 from the incident information table 701 of the incident information DB 700 via the incident management device 40 on an hourly, weekly, monthly, or yearly basis. The number of cases is acquired (S8).

そして、過去のインシデントの発生件数が閾値を超えたときの処理条件と今回の予測期間内における処理条件とが一致するか否かが判断される(S9)。処理条件は、例えば監視対象機器81のCPUおよびメモリの使用状況などである。そして、過去のインシデントの発生件数が閾値を超える処理条件と今回の予測期間内における処理条件とが一致しない場合には(S9:No)、ステップS11へ移行する。一方、過去のインシデントの発生件数が閾値を超える処理条件と今回の処理条件とが一致する場合には(S9:Yes)、障害発生可能性テーブル503に記憶される、該当する監視対象システム80の障害発生可能性に、所定の値が加算される(S10)。加算される所定の値は、過去のインシデント発生件数が多いほど高い値であってもよいし、インシデント発生件数に依らず一律の値が加算されてもよい。 Then, it is determined whether or not the processing conditions when the number of past incidents exceeds the threshold value and the processing conditions within the current prediction period match (S9). The processing conditions include, for example, the usage status of the CPU and memory of the monitored device 81. Then, if the processing conditions in which the number of past incidents exceeds the threshold value and the processing conditions within the current prediction period do not match (S9: No), the process proceeds to step S11. On the other hand, when the processing condition in which the number of past incidents exceeds the threshold value and the current processing condition match (S9: Yes), the corresponding monitored system 80 is stored in the failure occurrence possibility table 503. A predetermined value is added to the possibility of failure (S10). The predetermined value to be added may be a higher value as the number of past incidents increases, or a uniform value may be added regardless of the number of incidents.

その後、障害発生可能性テーブル503に記憶される障害発生可能性が通知される(S11)。具体的には、通知装置10のメール送信部103によって、監視対象システム80毎に、障害情報DB500の障害発生可能性テーブル503に記憶される障害発生可能性を含む通知メールが生成される。ここでは、障害発生可能性が「0%」以外の監視対象システム80に対してのみ、通知メールを生成してもよいし、全ての監視対象システム80に対して通知メールを生成してもよい。ステップS7にてインシデント情報テーブル502に障害の対応手順が記憶された場合は、通知メールに対応手順情報を含んでもよい。また、通知メールを通知装置10の表示部に表示させ、運用担当者または担当システムエンジニアによって編集してもよい。生成された通知メールは、通知情報テーブル504に記憶される通知情報に含まれる監視対象システム80の運用担当者、担当システムエンジニアおよび所属部門の関係者のメールアドレス宛てに送信される。 After that, the failure occurrence possibility stored in the failure occurrence possibility table 503 is notified (S11). Specifically, the mail transmission unit 103 of the notification device 10 generates a notification mail including the possibility of failure stored in the failure occurrence possibility table 503 of the failure information DB 500 for each monitored system 80. Here, the notification mail may be generated only for the monitored system 80 whose failure possibility is other than "0%", or the notification mail may be generated for all the monitored systems 80. .. If the incident response procedure is stored in the incident information table 502 in step S7, the response procedure information may be included in the notification email. Further, the notification mail may be displayed on the display unit of the notification device 10 and edited by the person in charge of operation or the system engineer in charge. The generated notification e-mail is sent to the e-mail addresses of the operation person in charge of the monitored system 80, the system engineer in charge, and the persons concerned in the department to which the monitoring target system 80 is included in the notification information stored in the notification information table 504.

以上のように、本実施の形態によれば、担当システムエンジニアおよびその所属部門の関係者が、通知メールにより将来の一定期間における障害の発生可能性を把握することができる。これにより、エスカレーションを受ける可能性を意識して障害に対する対応の準備をできるようになり、対応の遅れを抑制することができる。また、事前に準備することで、インシデント対応時間を短縮することもできる。 As described above, according to the present embodiment, the system engineer in charge and the persons concerned in the department to which the person in charge belongs can grasp the possibility of failure in a certain period in the future by the notification e-mail. As a result, it becomes possible to prepare for the response to the disorder while being aware of the possibility of receiving escalation, and it is possible to suppress the delay in the response. In addition, by preparing in advance, it is possible to shorten the incident response time.

なお、実施の形態の可能性算出部101が「可能性算出手段」に相当し、メール送信部103が「通知手段」に相当する。また、実施の形態の「インシデント管理装置」、「構成管理装置」および「作業管理装置」が、それぞれ「インシデント管理手段」、「構成管理手段」および「作業管理手段」に相当する。 The possibility calculation unit 101 of the embodiment corresponds to the "possibility calculation means", and the mail transmission unit 103 corresponds to the "notification means". Further, the "incident management device", "configuration management device", and "work management device" of the embodiment correspond to "incident management means", "configuration management means", and "work management means", respectively.

以上が本発明の実施の形態の説明であるが、本発明は、上記の実施の形態の構成に限定されるものではなく、その技術的思想の範囲内で様々な変形または組み合わせが可能である。例えば、上記実施の形態では、作業情報および過去のインシデントの発生傾向情報を用いて、障害発生可能性に対し三段階の加算(図2のステップS4、S6、S10)を行ったが、これに限定されるものではなく、少なくとも何れか一つの加算を実施すればよい。また、作業情報と過去のインシデントの発生傾向情報に加えて、従来技術の予兆検知方法などを用いて定量的な値を算出し、障害発生可能性に加算してもよい。 The above is the description of the embodiment of the present invention, but the present invention is not limited to the configuration of the above-described embodiment, and various modifications or combinations are possible within the scope of the technical idea. .. For example, in the above embodiment, three-step addition (steps S4, S6, S10 in FIG. 2) is performed for the possibility of failure using the work information and the occurrence tendency information of past incidents. The addition is not limited, and at least one of the additions may be performed. Further, in addition to the work information and the information on the tendency of occurrence of past incidents, a quantitative value may be calculated by using a predictive detection method of the prior art and added to the possibility of failure occurrence.

また、上記実施の形態では、通知をメールで行うこととしたが、これに限定されるものではなく、ポップアップメッセージを表示すること、運用システム内の掲示板に掲載すること、またはその他のコミュニケーションツールを用いて通知を行ってもよい。 Further, in the above embodiment, the notification is sent by e-mail, but the present invention is not limited to this, and a pop-up message is displayed, a bulletin board is posted in the operation system, or other communication tools are used. It may be used to notify.

また、本実施の形態では、通知装置10と、構成管理装置20と、作業管理装置30と、インシデント管理装置40とを別個の装置とした形態について説明したが、これら全ての装置または一部の装置、もしくは一部の機能を1つの装置に集約させてもよい。さらに、上記実施の形態では、通知装置10のCPUがソフトウェア(プログラム)を実行することにより障害発生可能性通知処理を実行する構成としたが、CPU以外の各種のプロセッサにより実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、およびASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。 Further, in the present embodiment, a mode in which the notification device 10, the configuration management device 20, the work management device 30, and the incident management device 40 are separate devices has been described, but all or some of these devices have been described. The device or some functions may be integrated into one device. Further, in the above embodiment, the CPU of the notification device 10 is configured to execute the failure occurrence possibility notification process by executing the software (program), but it may be executed by various processors other than the CPU. In this case, the processor is a PLD (Programmable Logic Device) whose circuit configuration can be changed after manufacturing an FPGA (Field-Programmable Gate Array) or the like, and an ASIC (Application Specific Integrated Circuit) or the like in order to execute a specific process. An example is a dedicated electric circuit or the like, which is a processor having a circuit configuration designed exclusively for the purpose.

1 通知システム、10 通知装置、20 構成管理装置、30 作業管理装置、40 インシデント管理装置、80 監視対象システム、81 監視対象機器、101 可能性算出部、102 画面入出力部、103 メール送信部、500 障害情報DB、501 作業情報テーブル、502 インシデント情報テーブル、503 障害発生可能性テーブル、504 通知情報テーブル、600 構成情報DB、601 構成情報テーブル、700 インシデント情報DB、701 インシデント情報テーブル。 1 Notification system, 10 Notification device, 20 Configuration management device, 30 Work management device, 40 Incident management device, 80 Monitoring target system, 81 Monitoring target device, 101 Possibility calculation unit, 102 Screen input / output unit, 103 Mail transmission unit, 500 failure information DB, 501 work information table, 502 incident information table, 503 failure occurrence possibility table, 504 notification information table, 600 configuration information DB, 601 configuration information table, 700 incident information DB, 701 incident information table.

Claims (8)

監視対象機器のインシデント情報を管理するインシデント管理手段と、
前記監視対象機器の構成情報を管理する構成管理手段と、
前記監視対象機器に対して施される作業情報を管理する作業管理手段と、
前記インシデント情報、前記構成情報および前記作業情報に基づき、前記監視対象機器が所属するシステムの将来の一定期間における障害発生可能性を算出する可能性算出手段と、
前記障害発生可能性を通知する通知手段と、
を備える通知システム。
Incident management means for managing incident information of monitored devices,
A configuration management means for managing the configuration information of the monitored device and
Work management means for managing work information applied to the monitored device, and
A possibility calculating means for calculating the possibility of failure occurrence in a certain future period of the system to which the monitored device belongs based on the incident information, the configuration information, and the work information.
The notification means for notifying the possibility of failure and
Notification system with.
前記可能性算出手段は、
前記将来の一定期間内に、前記監視対象機器に対して施される作業がある場合に、前記監視対象機器が所属するシステムの前記障害発生可能性に所定の値を加算する
請求項1に記載の通知システム。
The possibility calculation means is
The first aspect of claim 1, wherein a predetermined value is added to the possibility of failure of the system to which the monitored device belongs when there is work to be performed on the monitored device within a certain period in the future. Notification system.
前記可能性算出手段は、
前記将来の一定期間内に、前記監視対象機器に対して施される作業がある場合であって、かつ前記作業と同じ作業による障害が前記監視対象機器において過去に発生している場合に、前記監視対象機器が所属するシステムの前記障害発生可能性に所定の値を加算する
請求項1または2に記載の通知システム。
The possibility calculation means is
When there is work to be performed on the monitored device within a certain period in the future, and when a failure due to the same work as the work has occurred in the monitored device in the past, the above-mentioned The notification system according to claim 1 or 2, wherein a predetermined value is added to the possibility of failure of the system to which the monitored device belongs.
前記可能性算出手段は、
前記将来の一定期間内に、前記監視対象機器に対して施される作業がある場合であって、かつ前記作業と同じ作業による障害が前記監視対象機器において過去に発生している場合に、前記障害に対する対応手順を取得して記憶する
請求項1〜3の何れか一項に記載の通知システム。
The possibility calculation means is
When there is work to be performed on the monitored device within a certain period in the future, and when a failure due to the same work as the work has occurred in the monitored device in the past, the above-mentioned The notification system according to any one of claims 1 to 3, which acquires and stores a procedure for dealing with a failure.
前記可能性算出手段は、
過去のインシデントの発生件数が閾値を超えたときの処理条件と、前記将来の一定期間における処理条件とが一致する場合に、前記監視対象機器が所属するシステムの前記障害発生可能性に所定の値を加算する
請求項1〜4の何れか一項に記載の通知システム。
The possibility calculation means is
When the processing conditions when the number of past incidents exceeds the threshold value and the processing conditions in the fixed period in the future match, a predetermined value is set for the possibility of failure of the system to which the monitored device belongs. The notification system according to any one of claims 1 to 4.
前記通知手段は、
前記障害発生可能性を含むメールを生成し、関係者に送信する
請求項1〜5の何れか一項に記載の通知システム。
The notification means is
The notification system according to any one of claims 1 to 5, which generates an e-mail containing the possibility of failure and sends it to a related party.
監視対象機器のインシデント情報、前記監視対象機器の構成情報および前記監視対象機器に対して施される作業情報に基づき、前記監視対象機器が所属するシステムの将来の一定期間における障害発生可能性を算出する可能性算出手段と、
前記障害発生可能性を通知する通知手段と、
を備える通知装置。
Based on the incident information of the monitored device, the configuration information of the monitored device, and the work information given to the monitored device, the possibility of failure in the future fixed period of the system to which the monitored device belongs is calculated. Possibility calculation means and
The notification means for notifying the possibility of failure and
Notification device including.
監視対象機器のインシデント情報、前記監視対象機器の構成情報および前記監視対象機器に対して施される作業情報に基づき、前記監視対象機器が所属するシステムの将来の一定期間における障害発生可能性を算出するステップと、
前記障害発生可能性を通知するステップと、
を含む通知方法。
Based on the incident information of the monitored device, the configuration information of the monitored device, and the work information given to the monitored device, the possibility of failure in the future fixed period of the system to which the monitored device belongs is calculated. Steps to do and
The step of notifying the possibility of failure and
Notification methods including.
JP2019036441A 2019-02-28 2019-02-28 Notification system, notification device and notification method Pending JP2020140525A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019036441A JP2020140525A (en) 2019-02-28 2019-02-28 Notification system, notification device and notification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019036441A JP2020140525A (en) 2019-02-28 2019-02-28 Notification system, notification device and notification method

Publications (1)

Publication Number Publication Date
JP2020140525A true JP2020140525A (en) 2020-09-03

Family

ID=72280401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019036441A Pending JP2020140525A (en) 2019-02-28 2019-02-28 Notification system, notification device and notification method

Country Status (1)

Country Link
JP (1) JP2020140525A (en)

Similar Documents

Publication Publication Date Title
US11362913B2 (en) Systems and methods for managing service level agreements of support tickets using a chat session
US8010840B2 (en) Generation of problem tickets for a computer system
US8903933B1 (en) Systems and methods for prioritizing and servicing support tickets using a chat session
US9491251B2 (en) Transmission of notifications to multiple devices associated with a user
US20180287925A1 (en) Assessing user activity using dynamic windowed forecasting on historical usage
CN108737132B (en) Alarm information processing method and device
CN108632106B (en) System for monitoring service equipment
CN111786886B (en) Message processing method, device and system, electronic equipment and storage medium
CN109450691B (en) Service gateway monitoring method, device and computer readable storage medium
CN114095522A (en) Vehicle monitoring method, service system, management terminal, vehicle and storage medium
US20180293098A1 (en) Digital Processing System for Event and/or Time Based Triggering Management, and Control of Tasks
CN116483785A (en) File transmission scheduling method, device, equipment and computer readable storage medium
CN116431313A (en) Scheduling method, device, equipment and medium for polling task
US11657321B2 (en) Information processing device, non-transitory storage medium and information processing method
JP2020140525A (en) Notification system, notification device and notification method
CN110912949B (en) Method and device for submitting sites
JP4464655B2 (en) Computer monitoring apparatus and message processing method related to monitored computer
JP4651126B2 (en) Incident management system, management method, and management program
CN112685157B (en) Task processing method, device, computer equipment and storage medium
CN113656239A (en) Monitoring method and device for middleware and computer program product
CN113537893A (en) Order processing method, device, equipment and computer readable medium
US10333987B2 (en) Security enhancement tool for a target computer system operating within a complex web of interconnected systems
US20160154684A1 (en) Data processing system and data processing method
CN113495705A (en) Large screen data processing system
CN112540771A (en) Automated operation and maintenance method, system, equipment and computer readable storage medium