JP2024027816A - Monitoring method and system - Google Patents
Monitoring method and system Download PDFInfo
- Publication number
- JP2024027816A JP2024027816A JP2022130943A JP2022130943A JP2024027816A JP 2024027816 A JP2024027816 A JP 2024027816A JP 2022130943 A JP2022130943 A JP 2022130943A JP 2022130943 A JP2022130943 A JP 2022130943A JP 2024027816 A JP2024027816 A JP 2024027816A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- server
- monitoring
- information
- itsm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims description 36
- 238000012545 processing Methods 0.000 claims abstract description 119
- 230000004044 response Effects 0.000 claims abstract description 15
- 238000010586 diagram Methods 0.000 abstract description 25
- 238000013024 troubleshooting Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 21
- 238000007726 management method Methods 0.000 description 15
- 230000005856 abnormality Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 238000001514 detection method Methods 0.000 description 9
- 238000012790 confirmation Methods 0.000 description 7
- 101150034273 SYS1 gene Proteins 0.000 description 4
- 238000005401 electroluminescence Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
【課題】顧客システムの障害対応をセキュアに実行すること。【解決手段】監視システムは、システムと、システムを監視する監視サーバとを有する。監視サーバは、システムに障害が発生したことを検知した場合、障害の対応情報を、記憶部に登録する。システムのツールは、前記記憶部に登録された前記対応情報を取得し、前記対応情報に応じた処理を前記システムに対して実行する。【選択図】図1[Problem] To securely execute troubleshooting of a customer system. A monitoring system includes a system and a monitoring server that monitors the system. When the monitoring server detects that a failure has occurred in the system, it registers failure response information in the storage unit. A system tool acquires the correspondence information registered in the storage unit, and executes processing on the system according to the correspondence information. [Selection diagram] Figure 1
Description
本発明は、監視方法および監視システムに関する。 The present invention relates to a monitoring method and a monitoring system.
従来、顧客システムを監視し、顧客システムに何らかの障害が発生した場合に、係る障害に対応する監視システムがある。 Conventionally, there are monitoring systems that monitor customer systems and respond to any failures that occur in the customer systems.
図13は、従来の監視システムの一例を示す図である。図13に示すように、この監視システムは、顧客システム5、自動化処理部6、監視サーバ7、ITSM(IT Service Management)サーバ8を有する。監視サーバ7およびITSMサーバ8と、自動化処理部6との間には、不正アクセス等を防止するためのFirewall9が配置される。
FIG. 13 is a diagram showing an example of a conventional monitoring system. As shown in FIG. 13, this monitoring system includes a customer system 5, an
顧客システム5は、顧客が利用するシステムであり、複数の電子機器から構成される。自動化処理部6は、インバウンド通信によって、外部の監視サーバ7から、ワークアラウンドの実行命令を受信した場合に、該当するワークアラウンドに応じたジョブを、顧客システムに対して実行する。図示を省略するが、監視システムは、顧客システム5に加えて、他の顧客システムを更に含んでいてもよい。
The customer system 5 is a system used by a customer, and is composed of a plurality of electronic devices. When the
監視サーバ7は、SaaS(Software as a Service)型の監視サーバであり、顧客システム5や、他の顧客システム(図示略)の監視を行う。ここでは、顧客システム5を用いて、監視サーバ7の説明を行う。 The monitoring server 7 is a SaaS (Software as a Service) type monitoring server, and monitors the customer system 5 and other customer systems (not shown). Here, the monitoring server 7 will be explained using the customer system 5.
監視サーバ7は、顧客システム5から、障害発生の通知を受け付けた場合等に、顧客システム5の障害発生を検知し、表示画面等に障害発生の情報を表示させる。監視サーバ7のオペレータは、障害発生の情報を表示画面等で確認すると、障害内容に対応するワークアラウンドを選択し、選択したワークアラウンドの実行命令を、自動化処理部6に対して送信する。
When the monitoring server 7 receives a notification of the occurrence of a failure from the customer system 5, it detects the occurrence of a failure in the customer system 5, and displays information on the occurrence of the failure on a display screen or the like. When the operator of the monitoring server 7 confirms the information on the occurrence of a failure on a display screen or the like, he selects a workaround corresponding to the failure details, and sends an execution command for the selected workaround to the
ITSMサーバ8は、SaaS型のITSMサーバであり、顧客システム5および他の顧客システム(図示略)に発生した障害内容、係る障害内容に対して選択したワークアラウンド等の履歴情報を保存する。監視サーバ7のオペレータは、ITSMサーバ8に保存された履歴情報を参照して、顧客システム5で新たに発生した障害内容に対応するワークアラウンドを選択する場合もある。 The ITSM server 8 is a SaaS type ITSM server, and stores history information such as failure details that have occurred in the customer system 5 and other customer systems (not shown), workarounds selected for the failure contents, and the like. The operator of the monitoring server 7 may refer to history information stored in the ITSM server 8 and select a workaround corresponding to the content of a new failure that has occurred in the customer system 5.
上述した従来の監視システムによる障害対応の仕組みは、インバウンド通信を前提しており、監視サーバ7から送信されるデータは、基本的にFirewall9を通過して、自動化処理部6に到達する。このため、たとえば、悪意のある第三者が、監視サーバ7を利用して、自動化処理部6に送信するデータに、ウイルスを埋め込んだり、悪意のある操作を行ったりすることも可能であり、セキュリティ対策に課題があった。
The failure response mechanism of the conventional monitoring system described above assumes inbound communication, and data sent from the monitoring server 7 basically passes through the firewall 9 and reaches the
このため、顧客システムの障害対応をセキュアに実行することが求められる。 Therefore, it is required to securely handle failures in customer systems.
1つの側面では、本発明は、顧客システムの障害対応をセキュアに実行することができる監視方法および監視システムを提供することを目的とする。 In one aspect, an object of the present invention is to provide a monitoring method and a monitoring system that can securely perform failure handling of a customer system.
第1の案では、監視システムは、システムと、システムを監視する監視サーバとを有する。監視サーバは、システムに障害が発生したことを検知した場合、障害の対応情報を、記憶部に登録する。システムのツールは、前記記憶部に登録された前記対応情報を取得し、前記対応情報に応じた処理を前記システムに対して実行する。 In the first proposal, the monitoring system includes a system and a monitoring server that monitors the system. When the monitoring server detects that a failure has occurred in the system, it registers failure response information in the storage unit. A system tool acquires the correspondence information registered in the storage unit, and executes processing on the system according to the correspondence information.
顧客システムの障害対応をセキュアに実行することができる。 It is possible to securely respond to customer system failures.
以下に、本願の開示する監視方法および監視システムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。 DESCRIPTION OF THE PREFERRED EMBODIMENTS Examples of the monitoring method and monitoring system disclosed in the present application will be described in detail below based on the drawings. Note that the present invention is not limited to this example.
図1は、本実施例に係る監視システムの一例を示す図である。図1に示すように、この監視システムは、顧客システム10a,10b,10cと、自動化処理装置20a,20b,20cと、監視サーバ100と、ITSMサーバ200とを有する。本実施例では、監視サーバ100と、ITSMサーバ200とを別々のサーバとして説明するが、監視サーバ100と、ITSMサーバ200とを一つのサーバで実現することもできる。
FIG. 1 is a diagram showing an example of a monitoring system according to this embodiment. As shown in FIG. 1, this monitoring system includes
顧客システム10a~10cは、自動化処理装置20a~20cにそれぞれ接続される。自動化処理装置20a~20cは、それぞれ、外部からの不正アクセスを防止するためのFirewall30a,30b,30cを介して、ネットワーク50に接続される。監視サーバ100およびITSMサーバ200は、ネットワーク50に接続される。
Customer systems 10a-10c are connected to
顧客システム10a~10cは、顧客が利用するシステムであり、複数の電子機器から構成される。以下の説明では、特に区別する場合を除き、顧客システム10a~10cをまとめて「顧客システム10」と表記する。顧客システム10は、自顧客システム10内に障害が発生した場合に、障害情報を、監視サーバ100に送信する。 The customer systems 10a to 10c are systems used by customers and are composed of a plurality of electronic devices. In the following description, customer systems 10a to 10c will be collectively referred to as "customer system 10" unless otherwise specified. The customer system 10 transmits failure information to the monitoring server 100 when a failure occurs within the own customer system 10 .
たとえば、障害情報には、障害の内容を一意に識別する障害コードと、顧客システム10を一意に識別するシステム識別番号が含まれる。顧客システム10aのシステム識別番号を「sys1」、顧客システム10bのシステム識別番号を「sys2」、顧客システム10cのシステム識別番号を「sys3」とする。
For example, the fault information includes a fault code that uniquely identifies the details of the fault, and a system identification number that uniquely identifies the customer system 10. It is assumed that the system identification number of the customer system 10a is "sys1," the system identification number of the
監視サーバ100は、顧客システム10を監視する。監視サーバ100は、顧客システム10から障害情報を受信した場合、障害情報を表示画面に表示する。また、監視サーバ100は、障害情報を設定したインシデント発行要求を、ITSMサーバ200に送信する。
The monitoring server 100 monitors the customer system 10. When the monitoring server 100 receives fault information from the customer system 10, it displays the fault information on the display screen. Additionally, the monitoring server 100 transmits an incident issuance request in which failure information is set to the ITSM
ITSMサーバ200は、インシデント発行要求を受付けると、インシデント番号を発行し、障害情報に関する情報を、障害DB241に登録する。
Upon receiving the incident issue request, the ITSM
図2は、障害DBのデータ構造の一例を示す図である。図2に示すように、この障害DB241は、障害テーブルta1,ta2,ta3を有する。障害テーブルta1は、顧客システム10aの障害情報に関する情報を保持する。障害テーブルta2は、顧客システム10bの障害情報に関する情報を保持する。障害テーブルta3は、顧客システム10cの障害情報に関する情報を保持する。障害DB241は、他の顧客システムの障害テーブルを更に有していてもよい。
FIG. 2 is a diagram showing an example of the data structure of the failure DB. As shown in FIG. 2, this
障害テーブルta1について説明する。障害テーブルta1には、顧客システム10aのシステム識別番号「sys1」が設定される。また、障害テーブルta1には、インシデント番号、障害コード、ワークアラウンド、対処フラグが設定される。 The failure table ta1 will be explained. The system identification number "sys1" of the customer system 10a is set in the failure table ta1. Further, the incident number, failure code, workaround, and response flag are set in the failure table ta1.
インシデント番号は、ITSMサーバ200が発行する番号である。障害コードは、障害情報に設定された障害を一意に識別する情報である。ワークアラウンドは、障害コードによって識別される障害の対処内容を示す。たとえば、ワークアラウンドは、Windowsサーバのサービス状態確認、長時間走行ジョブの確認等である。その他のワークアラウンドの説明を省略する。
The incident number is a number issued by the ITSM
対処フラグは、顧客システムに障害に対応したか否かを示すフラグである。障害に対処した場合には、対処フラグに「ON」が設定される。障害に対応していない場合には、対処フラグに「OFF」が設定される。 The response flag is a flag indicating whether or not the customer system has responded to the failure. When the failure has been dealt with, "ON" is set in the handling flag. If the failure is not handled, "OFF" is set in the handling flag.
障害テーブルta2について説明する。障害テーブルta2には、顧客システム10bのシステム識別番号「sys2」が設定される。また、障害テーブルta2には、インシデント番号、障害コード、ワークアラウンド、対処フラグが設定される。
The failure table ta2 will be explained. The system identification number "sys2" of the
障害テーブルta3について説明する。障害テーブルta3には、顧客システム10cのシステム識別番号「sys3」が設定される。また、障害テーブルta3には、インシデント番号、障害コード、ワークアラウンド、対処フラグが設定される。
The failure table ta3 will be explained. The system identification number "sys3" of the
以下の説明では、障害テーブルta1,ta2,ta3のインシデント番号によって識別されるレコードを「インシデント」と表記する。たとえば、インシデント番号「inc_1」によって識別されるインシデントは、障害コード「error1100」、ワークアラウンド「Windowsサーバのサービス状態確認」、対処フラグ「OFF」のレコードに対応する。以下の説明では、適宜、対処フラグが「OFF」となるインシデントを、未対処のインシデントと表記する。 In the following description, records identified by incident numbers in the failure tables ta1, ta2, and ta3 will be referred to as "incidents." For example, an incident identified by the incident number "inc_1" corresponds to a record with a failure code "error1100", a workaround "check service status of Windows server", and a response flag "OFF". In the following description, an incident whose handling flag is "OFF" will be appropriately referred to as an unhandled incident.
図1の説明に戻る。自動化処理装置20a~20cは、アウトバウンド通信によって、所定時間毎に、ITSMサーバ200の障害DB241にアクセスし、自身の顧客システム10に対応する障害テーブルを参照する。たとえば、自動化処理装置20aは、顧客システム10aに対応する障害テーブルta1を参照する。自動化処理装置20bは、顧客システム10bに対応する障害テーブルta2を参照する。自動化処理装置20cは、顧客システム10cに対応する障害テーブルta3を参照する。
Returning to the explanation of FIG. The
自動化処理装置20aは、障害テーブルta1のインシデントのうち、対処フラグが「OFF」となる未対処のインシデントを特定し、特定したインシデントに設定されたワークアラウンドに対応するジョブを、顧客システム10aに対して実行する。図2に示す例では、自動化処理装置20aは、ワークアラウンド「Windowsサーバのサービス状態確認」のジョブ、「長時間走行ジョブの確認」のジョブを顧客システム10aに対して実行する。自動化処理装置20aは、「Windowsサーバのサービス状態確認」、「長時間走行ジョブの確認」の処理結果を、ITSMサーバ200に通知する。
The
ITSMサーバ200は、ワークアラウンド「Windowsサーバのサービス状態確認」、「長時間走行ジョブの確認」に対処した旨の情報を、処理結果として受信した場合には、障害テーブルta1のワークアラウンド「Windowsサーバのサービス状態確認」、「長時間走行ジョブの確認」に対応する対処フラグを「OFF」から「ON」に更新する。
When the
一方、ITSMサーバ200は、ワークアラウンド「Windowsサーバのサービス状態確認」、「長時間走行ジョブの確認」に対処に失敗した旨の情報を、処理結果として受信した場合には、エラー情報を、監視サーバ100に送信する。エラー情報には、システム識別番号、対処に失敗したワークアラウンドに対応するインシデント番号等が設定される。
On the other hand, if the
自動化処理装置20bは、障害テーブルta2のインシデントのうち、未対処のインシデントを特定し、特定したインシデントに設定されたワークアラウンドに対応するジョブを、顧客システム10bに対して実行する。自動化処理装置20bは、ジョブの処理結果を、ITSMサーバ200に通知する。その他の説明は、自動化処理装置20aに関する説明と同様である。
The automation processing device 20b identifies unhandled incidents among the incidents in the failure table ta2, and executes a job corresponding to the workaround set for the identified incident on the
自動化処理装置20cは、障害テーブルta3のインシデントのうち、未対処のレコードを特定し、特定したインシデントに設定されたワークアラウンドに対応するジョブを、顧客システム10cに対して実行する。自動化処理装置20cは、ジョブの処理結果を、ITSMサーバ200に通知する。その他の説明は、自動化処理装置20aに関する説明と同様である。
The automation processing device 20c identifies unhandled records among the incidents in the failure table ta3, and executes a job corresponding to the workaround set for the identified incident on the
以下の説明では、自動化処理装置20a~20cを特に区別しない場合、自動化処理装置20a~20cをまとめて「自動化処理装置20」と表記する。自動化処理装置20は、顧客システム10のツールの一例である。自動化処理装置20は、顧客システム10内に設定されていてもよいし、顧客システム10が、自動化処理装置20の機能を有していてもよい。
In the following description, unless the
上記のように、本実施例に係る監視システムは、監視サーバ100が、顧客システム10の障害情報を受信した場合に、インシデント発行要求を、ITSMサーバ200に行い、ITSMサーバ200は、障害情報に関する情報を、障害DB241に登録する。また、自動化処理装置20は、アウトバウンド通信によって、障害DB241にアクセスして、ワークアラウンドを取得し、ワークアラウンドに対応するジョブを、顧客システム10に対して実行する。このように、アウトバウンド通信によって、自動化処理装置20側から、ワークアラウンドを取得するため、インバウンド通信の場合と比較して、顧客システム10の障害対応をセキュアに実行することができる。
As described above, in the monitoring system according to the present embodiment, when the monitoring server 100 receives fault information of the customer system 10, it issues an incident issuance request to the
次に、図1で説明した自動化処理装置20の構成例について説明する。図3は、本実施例に係る自動化処理装置の構成を示す機能ブロック図である。図3に示すように、この自動化処理装置20aは、通信部21と、記憶部24と、制御部25とを有する。
Next, a configuration example of the automated processing device 20 described in FIG. 1 will be described. FIG. 3 is a functional block diagram showing the configuration of the automated processing device according to this embodiment. As shown in FIG. 3, this
通信部21は、ネットワーク50を介して、監視サーバ100、ITSMサーバ200との間で情報の送受信を行う。また、通信部21は、顧客システム10との間で情報の送受信を行う。通信部21は、NIC(Network Interface Card)等によって実現される。
The
記憶部24は、処理テーブル24aを有する。たとえば、記憶部24は、メモリ等の記憶装置である。 The storage unit 24 has a processing table 24a. For example, the storage unit 24 is a storage device such as a memory.
処理テーブル24aは、ワークアラウンドに対応するジョブを設定するテーブルである。図4は、処理テーブルのデータ構造の一例を示す図である。図4に示すように、この処理テーブル24aは、ワークアラウンドと、ジョブとを対応付ける。ワークアラウンドに関する説明は、上記のワークアラウンドに関する説明と同様である。ジョブは、複数のプログラムをまとめて連続して実行するひとつのかたまりである。また、ジョブは、複数のコード部品の実行順を定義したパーツに対応する。 The processing table 24a is a table in which jobs corresponding to workaround are set. FIG. 4 is a diagram showing an example of the data structure of the processing table. As shown in FIG. 4, this processing table 24a associates workarounds with jobs. The description regarding the workaround is similar to the description regarding the workaround above. A job is a group of multiple programs that are executed continuously. Further, a job corresponds to a part that defines the execution order of a plurality of code parts.
図3の説明に戻る。制御部25は、取得部25aと、実行部25bとを有する。制御部25は、たとえば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等である。
Returning to the explanation of FIG. 3. The control unit 25 includes an
取得部25aは、所定時間毎に、ITSMサーバ200の障害DB241の障害テーブルta1にアクセスする。取得部25aは、ITSMサーバ200にアクセスする場合、ジョブの実行対象となる顧客システムのシステム識別番号を通知する。取得部25aは、障害テーブルta1のインシデントのうち、未対処のインシデントのワークアラウンドを取得する。取得部25aは、インシデント番号もあわせて取得してもよい。取得部25aは、取得したワークアラウンドを、実行部25bに出力する。
The
実行部25bは、取得部25aから取得したワークアラウンドと、処理テーブル24aとを比較し、ワークアラウンドに対応するジョブを特定する。実行部25bは、特定したジョブを、顧客システム10aに対して実行する。実行部25bは、処理結果を、ITSMサーバ200に送信する。処理結果には、インシデント番号と、ワークアラウンドに対応するジョブの実行に成功したか否かの情報が含まれる。
The
ここで、実行部25bは、ジョブの実行に失敗した場合に、所定回数、ジョブの実行を再試行してもよい。実行部25bは、所定回数、ジョブを再試行しても、ジョブの実行に成功しない場合に、処理結果に、ワークアラウンドに対応するジョブの実行に失敗した旨の情報を設定し、ITSMサーバ200に送信する。
Here, if execution of the job fails, the
自動化処理装置20b,20cの機能ブロック図は、図3に示した自動化処理装置20aの機能ブロック図に対応するため、説明を省略する。
The functional block diagrams of the automated processing devices 20b and 20c correspond to the functional block diagram of the
次に、図1で説明した監視サーバ100の構成例について説明する。図5は、監視サーバの構成を示す機能ブロック図である。図5に示すように、この監視サーバ100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。
Next, a configuration example of the monitoring server 100 described in FIG. 1 will be described. FIG. 5 is a functional block diagram showing the configuration of the monitoring server. As shown in FIG. 5, this monitoring server 100 includes a communication section 110, an
通信部110は、ネットワーク50を介して、ITSMサーバ200、自動化処理装置20、顧客システム10と情報の送受信を行う。通信部110は、NIC等によって実現される。
The communication unit 110 sends and receives information to and from the
入力部120は、各種の情報を、監視サーバ100に入力する入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。
The
表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、タッチパネル等に対応する。たとえば、表示部130は、顧客を表示する。 The display unit 130 is a display device that displays information output from the control unit 150. The display unit 130 corresponds to a liquid crystal display, an organic EL (Electro Luminescence) display, a touch panel, or the like. For example, the display unit 130 displays customers.
記憶部140は、制御部150が処理を実行するための各種の情報を保持する。記憶部140は、メモリ等の記憶装置である。
The
制御部150は、異常検知部151、依頼部152、表示制御部153を有する。制御部150は、たとえば、CPUやMPU等である。
The control unit 150 includes an abnormality detection unit 151, a
異常検知部151は、顧客システム10a~10cを監視し、障害が発生したか否かを検知する。たとえば、異常検知部151は、顧客システム10から障害情報を受信した場合、障害情報に設定されたシステム識別番号に対応する顧客システム10に障害が発生したことを検知する。異常検知部151は、受信した障害情報を、依頼部152、表示制御部153に出力する。
The abnormality detection unit 151 monitors the customer systems 10a to 10c and detects whether a failure has occurred. For example, when receiving failure information from the customer system 10, the abnormality detection unit 151 detects that a failure has occurred in the customer system 10 corresponding to the system identification number set in the failure information. The abnormality detection unit 151 outputs the received failure information to the requesting
異常検知部151は、データを顧客システム10に送信し、送信先の顧客システム10から応答がない場合に、顧客システム10の異常を検知してもよい。この場合、異常検知部151は、応答なしを示す障害コードと、異常を検知した顧客システム10のシステム識別番号を設定した障害情報を生成し、生成した障害情報を、依頼部152、表示制御部153に出力する。
The abnormality detection unit 151 may transmit data to the customer system 10 and detect an abnormality in the customer system 10 when there is no response from the destination customer system 10. In this case, the abnormality detection unit 151 generates failure information in which a failure code indicating no response and the system identification number of the customer system 10 in which the abnormality was detected is set, and the generated failure information is transmitted to the requesting
依頼部152は、異常検知部151から障害情報を取得した場合に、障害情報を設定したインシデント発行要求を、ITSMサーバ200に送信する。
When the requesting
表示制御部153は、各種の情報を表示部130に表示させる。たとえば、表示制御部153は、障害情報を、表示部130に表示させる。表示制御部153は、ITSMサーバ200から、エラー情報を受信した場合には、エラー情報を、表示部130に表示させる。
The
次に、図1で説明したITSMサーバ200の構成例について説明する。図6は、ITSMサーバの構成を示す機能ブロック図である。図6に示すように、このITSMサーバ200は、通信部210と、入力部220と、表示部230と、記憶部240と、制御部250とを有する。
Next, a configuration example of the
通信部210は、ネットワーク50を介して、監視サーバ100、自動化処理装置20、顧客システム10と情報の送受信を行う。通信部110は、NIC等によって実現される。
The communication unit 210 transmits and receives information to and from the monitoring server 100, the automated processing device 20, and the customer system 10 via the
入力部220は、各種の情報を、ITSMサーバ200に入力する入力装置である。入力部220は、キーボードやマウス、タッチパネル等に対応する。
The
表示部230は、制御部150から出力される情報を表示する表示装置である。表示部230は、液晶ディスプレイ、有機ELディスプレイ、タッチパネル等に対応する。たとえば、表示部130は、顧客を表示する。 The display unit 230 is a display device that displays information output from the control unit 150. The display unit 230 corresponds to a liquid crystal display, an organic EL display, a touch panel, or the like. For example, the display unit 130 displays customers.
記憶部240は、障害DB241、ワークアラウンド管理テーブル242、システムレベル管理テーブル243を保持する。記憶部240は、メモリ等の記憶装置である。
The
障害DB241は、障害情報に関する情報を保持する。障害DB241のデータ構造は、図2で説明したデータ構造に対応する。
The
ワークアラウンド管理テーブル242は、障害コードによって識別される障害に対処するためのワークアラウンドを定義する。図7は、ワークアラウンド管理テーブルのデータ構造の一例を示す図である。図7に示すように、このワークアラウンド管理テーブル242は、障害コードと、ワークアラウンドとを対応付ける。障害コードは、障害を一意に識別する情報である。ワークアラウンドは、障害に対処するためのワークアラウンド名である。たとえば、障害コード「error1000」に対応するワークアラウンド(ワークアラウンド名)は「システム再起動」である。 Workaround management table 242 defines workarounds for dealing with failures identified by failure codes. FIG. 7 is a diagram showing an example of the data structure of the workaround management table. As shown in FIG. 7, this workaround management table 242 associates failure codes with workarounds. A fault code is information that uniquely identifies a fault. Workaround is the name of a workaround for dealing with a failure. For example, the workaround (workaround name) corresponding to the failure code "error1000" is "system restart."
システムレベル管理テーブル243は、顧客システム10のシステムレベルの情報を保持する。図8は、システムレベル管理テーブルのデータ構造の一例を示す図である。図8に示すように、システムレベル管理テーブル243は、システム識別番号と、システムレベルとを対応付ける。システム識別番号は、顧客システム10を一意に識別する番号である。 The system level management table 243 holds system level information of the customer system 10. FIG. 8 is a diagram showing an example of the data structure of the system level management table. As shown in FIG. 8, the system level management table 243 associates system identification numbers with system levels. The system identification number is a number that uniquely identifies the customer system 10.
システムレベルは、顧客システムの障害が社会に与える重要性を示すレベルである。システムレベルが大きいほど、顧客システムの障害が社会に与える重要度が大きい。たとえば、顧客システム10のシステムレベルは、(1)、(2)、(3)の何れかとなる。システムレベル(1)の顧客システムは、「社会的影響が殆どないシステム」である。システムレベル(2)の顧客システムは、「社会的影響が限定されるシステム」である。システムレベル(3)の顧客システムは、「社会的影響が極めて大きいシステム」である。 The system level is a level that indicates the importance that failures in customer systems have on society. The larger the system level, the greater the importance that a customer system failure has on society. For example, the system level of the customer system 10 is one of (1), (2), and (3). The customer system at the system level (1) is a "system that has almost no social impact." The customer system at the system level (2) is a "system with limited social influence." The customer system at the system level (3) is a "system that has an extremely large social impact."
たとえば、システム識別番号「sys1」によって識別される顧客システム10aのシステムレベルは「システムレベル(1)」である。このため、顧客システム10aは、障害が発生した場合でも、「社会的影響が殆どないシステム」である。 For example, the system level of the customer system 10a identified by the system identification number "sys1" is "system level (1)." Therefore, even if a failure occurs, the customer system 10a is a system that has almost no social impact.
図6の説明に戻る。制御部250は、受信部251、登録部252、アクセス受付部253を有する。制御部250は、たとえば、CPUやMPU等である。
Returning to the explanation of FIG. 6. The control unit 250 includes a receiving
受信部251は、監視サーバ100からインシデント発行要求を受信した場合に、インシデント発行要求に設定された障害情報を、登録部252に出力する。
When receiving an incident issuance request from the monitoring server 100, the receiving
登録部252は、障害情報を基にして、インシデントに関する情報を障害DB241に登録する。たとえば、登録部252は、障害情報を取得した場合に、ユニークなインシデント番号を生成する。登録部252は、障害情報に設定された障害コードと、ワークアラウンド管理テーブル242とを比較して、障害コードに対応するワークアラウンドを特定する。
The
登録部252は、障害情報に設定されたシステム識別番号を基にして、インシデントを登録する障害テーブルを選択する。登録部252は、システム識別番号が「sys1」である場合には、障害テーブルta1を選択する。登録部252は、システム識別番号が「sys2」である場合には、障害テーブルta2を選択する。登録部252は、システム識別番号が「sys3」である場合には、障害テーブルta3を選択する。
The
登録部252は、選択した障害テーブルに、インシデント(インシデント番号、障害情報の障害コード、ワークアラウンド、対処フラグ<OFF>)を登録する。
The
アクセス受付部253は、自動化処理装置20から、障害DB241に対するアクセスを受け付ける。この際、アクセス受付部253は、自動化処理装置20から通知されるシステム識別番号に対応する障害テーブルへのアクセスを許容する。たとえば、自動化処理装置20aの取得部25aは、障害テーブルta1から、未対処のインシデントのワークアラウンドを取得する。
The
また、アクセス受付部253は、自動化処理装置20から、ワークアラウンドに対する処理結果を受信する。たとえば、処理結果には、インシデント番号と、ワークアラウンドに対応するジョブの実行に成功したか否かの情報が含まれる。
The
アクセス受付部253は、ジョブの実行に成功した旨の情報が処理結果に含まれる場合には、処理結果に含まれるインシデント番号に対応する対処フラグを「ON」に更新する。
If the processing result includes information indicating that the job was successfully executed, the
一方、アクセス受付部253は、ジョブの実行に失敗した旨の情報が処理結果に含まれる場合には、エラー情報を、監視サーバ100に送信する。エラー情報には、システム識別番号、対処に失敗したワークアラウンドに対応するインシデント番号等が設定される。
On the other hand, if the processing result includes information indicating that job execution has failed, the
次に、図1に示した自動化処理装置20aの処理手順の一例について説明する。図9は、本実施例に係る自動化処理装置の処理手順を示すフローチャートである。図9に示すように、自動化処理装置20の取得部25aは、一定時間経過していない場合には(ステップS101,No)、再度、ステップS101に移行する。
Next, an example of the processing procedure of the
取得部25aは、一定時間経過した場合には(ステップS101,Yes)、ITSMサーバ200の障害DB241にアクセスし、未対処のインシデントが存在するか否かを判定する(ステップS102)。取得部25aは、未対処のインシデントが存在しない場合には(ステップS103,No)、ステップS108に移行する。
If a certain period of time has elapsed (Step S101, Yes), the
一方、取得部25aは、未対処のインシデントが存在する場合には(ステップS103,Yes)、ワークアラウンドを取得する(ステップS104)。自動化処理装置20aの実行部25bは、処理テーブル24aを基にして、ワークアラウンドに応じたジョブを選択する(ステップS105)。
On the other hand, if there is an unhandled incident (step S103, Yes), the
実行部25bは、顧客システム10aに対してジョブを実行する(ステップS106)。実行部25bは、ジョブの処理結果をITSMサーバ200に送信する(ステップS107)。
The
自動化処理装置20aは、処理を継続する場合には(ステップS108,Yes)、ステップS101に移行する。自動化処理装置20aは、処理を継続しない場合には(ステップS108,No)、処理を終了する。
If the
次に、図1に示した監視サーバ100およびITSMサーバ200の処理手順について説明する。図10は、監視サーバおよびITSMサーバの処理手順を示すフローチャートである。監視サーバ100は、障害情報を検知しない場合には(ステップS201,No)、再度、ステップS201に移行する。
Next, the processing procedures of the monitoring server 100 and the
一方、監視サーバ100は、障害情報を検知した場合には(ステップS201,Yes)、障害情報を設定したインシデント発行要求をITSMサーバ200に送信する(ステップS202)。 On the other hand, if the monitoring server 100 detects fault information (step S201, Yes), it transmits an incident issuance request in which the fault information is set to the ITSM server 200 (step S202).
ITSMサーバ200は、インシデント発行要求を受信する(ステップS203)。ITSMサーバ200は、インシデント番号を生成する(ステップS204)。
The
ITSMサーバ200は、ワークアラウンド管理テーブル242を基にして、障害情報に対応するワークアラウンドを特定する(ステップS205)。ITSMサーバ200は、障害DB241にインシデントの情報を登録する(ステップS206)。
The
次に、本実施例に係る監視システムの効果について説明する。監視システムにおいて、監視サーバ100は、顧客システム10の障害情報を受信した場合に、インシデント発行要求を、ITSMサーバ200に行い、ITSMサーバ200は、障害情報に関する情報を、障害DB241に登録する。また、自動化処理装置20は、アウトバウンド通信によって、障害DB241にアクセスして、ワークアラウンドを取得し、ワークアラウンドに対応するジョブを、顧客システム10に対して実行する。このように、アウトバウンド通信によって、自動化処理装置20側から、ワークアラウンドを取得するため、インバウンド通信の場合と比較して、顧客システム10の障害対応をセキュアに実行することができる。
Next, the effects of the monitoring system according to this embodiment will be explained. In the monitoring system, when the monitoring server 100 receives fault information of the customer system 10, it issues an incident issuance request to the
自動化処理装置20は、ワークアラウンドに対応するジョブを、顧客システム10に対して実行し、実行結果を、ITSMサーバ200に通知する。これによって、ITSMサーバ200は、障害に対応したか否かの情報を保持することができる。
The automation processing device 20 executes a job corresponding to the workaround on the customer system 10 and notifies the
上述した監視システムの処理の内容は一例である。以下では、監視システムのその他の処理1~3について説明する。 The content of the processing of the monitoring system described above is an example. Below, other processes 1 to 3 of the monitoring system will be explained.
まず、監視システムのその他の処理1について説明する。上述した説明では、自動化処理装置20は、障害DB241に含まれる複数の障害テーブルのうち、決められた障害テーブルのインシデントから、未対処のインシデントのワークアラウンドを取得していた。すなわち、自動化処理装置20aは、障害テーブルta1からワークアラウンドを取得し、自動化処理装置20bは、障害テーブルta2からワークアラウンドを取得し、自動化処理装置20cは、障害テーブルta3からワークアラウンドを取得していたが、これに限定されるものではない。
First, other processing 1 of the monitoring system will be explained. In the above description, the automated processing device 20 acquires workarounds for unhandled incidents from incidents in a determined failure table among the plurality of failure tables included in the
自動化処理装置20は、自身がジョブの実行対象となる顧客システムと同一のシステムレベルとなる他の顧客システムに関する障害テーブルから、ワークアラウンドを取得し、ワークアラウンドに対応するジョブを実行してもよい。 The automation processing device 20 may obtain a workaround from a failure table related to another customer system that is at the same system level as the customer system that is the target of the job execution, and execute the job corresponding to the workaround. .
たとえば、顧客システム10aのシステムレベルと、顧客システム10bのシステムレベルと同一のシステムレベルとする。顧客システム10のシステムレベルは、ITSMサーバ200のシステムレベル管理テーブル243に登録される。
For example, the system level of the customer system 10a and the system level of the
自動化処理装置20aが、ITSMサーバ200の障害DB241にアクセスすると、ITSMサーバ200は、システムレベル管理テーブル243を基にして、顧客システム10aと同じシステムレベルとなる顧客システム10bを特定する。ITSMサーバ200は、顧客システム10aのシステム識別番号に対応する障害テーブルta1と、顧客システム10bのシステム識別番号に対応する障害テーブルta2とのアクセスを許容し、自動化処理装置20aは、障害テーブルta1、障害テーブルta2に含まれるインシデントのうち、未対処のインシデントのワークアラウンドを取得し、取得したワークアラウンドに応じたジョブを、顧客システム10aに実行する。
When the
顧客システム10aと、顧客システム10bとのシステムレベルが同じ場合に、顧客システム10aに障害が発生していなくても、顧客システム10bに発生した障害の対応を、顧客システム10aに対して行うことが有効な場合もあり得る。このため、上記の処理を実行することで、顧客システム10の障害対応を効率的に実行することができる。ここでは、システムレベルが同じ場合について説明したが、システムレベルが同じであるという条件に加えて、システムレベルが所定のシステムレベル以上の場合(たとえば、システムレベル(3)以上の場合)に、上記の処理を実行してもよい。
When the system level of the customer system 10a and the
続いて、監視システムのその他の処理2について説明する。自動化処理装置20は、ワークアラウンドに対応するジョブを、顧客システム10に対して実行し、実行結果を、ITSMサーバ200に通知している。ここで、ITSMサーバ200は、ワークアラウンドに対応するジョブの実行に失敗した場合には、エラー情報を、監視サーバ100に送信する。監視サーバ100のオペレータは、エラー情報を確認した場合には、監視サーバ100から、対応する顧客システムに対して、手動で、所定のジョブを実行するようにしてもよい。
Next, other processing 2 of the monitoring system will be explained. The automation processing device 20 executes a job corresponding to the workaround on the customer system 10 and notifies the
続いて、監視システムのその他の処理3について説明する。ITSMサーバ200は、監視サーバ100から、インシデント発行要求を受付けると、インシデント番号を発行し、障害情報に関する情報を、障害DB241に登録していたが、障害情報に対応するワークアラウンドが所定レベル以上の難度のワークアラウンドである場合には、係るワークアラウンドの情報を、監視サーバ100に通知してもよい。
Next, other processing 3 of the monitoring system will be explained. When the
次に、上記実施例に示した監視サーバ100、ITSMサーバ200と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図11は、実施例の監視サーバと同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
Next, an example of the hardware configuration of a computer that implements the same functions as the monitoring server 100 and the
図11に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、有線または無線ネットワークを介して、顧客システム10、自動化処理装置20、ITSMサーバ200等との間でデータの授受を行う通信装置304と、インタフェース装置305とを有する。また、コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。
As shown in FIG. 11, the computer 300 includes a
ハードディスク装置307は、異常検知プログラム307a、依頼プログラム307b、表示制御プログラム307cを有する。また、CPU301は、各プログラム307a~307cを読み出してRAM306に展開する。
The
異常検知プログラム307aは、異常検知プロセス306aとして機能する。依頼プログラム307bは、依頼プロセス306bとして機能する。表示制御プログラム307cは、表示制御プロセス306cとして機能する。
The
異常検知プロセス306aの処理は、異常検知部151の処理に対応する。依頼プロセス306bの処理は、依頼部152の処理に対応する。表示制御プロセス306cの処理は、表示制御部153の処理に対応する。
The processing of the
なお、各プログラム307a~307cについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a~307cを読み出して実行するようにしてもよい。
Note that each of the
続いて、図12の説明に移行する。図12は、実施例のITSMサーバと同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 Next, the explanation will move on to FIG. 12. FIG. 12 is a diagram illustrating an example of the hardware configuration of a computer that implements the same functions as the ITSM server of the embodiment.
図12に示すように、コンピュータ400は、各種演算処理を実行するCPU401と、ユーザからのデータの入力を受け付ける入力装置402と、ディスプレイ403とを有する。また、コンピュータ400は、有線または無線ネットワークを介して、顧客システム10、自動化処理装置20、監視サーバ100等との間でデータの授受を行う通信装置404と、インタフェース装置405とを有する。また、コンピュータ400は、各種情報を一時記憶するRAM406と、ハードディスク装置407とを有する。そして、各装置401~407は、バス408に接続される。
As shown in FIG. 12, the
ハードディスク装置407は、受信プログラム407a、登録プログラム407b、アクセス受付プログラム407cを有する。また、CPU401は、各プログラム407a~407cを読み出してRAM406に展開する。
The
受信プログラム407aは、受信プロセス406aとして機能する。登録プログラム407bは、登録プロセス406bとして機能する。アクセス受付プログラム407cは、アクセス受付プロセス406cとして機能する。
The
受信プロセス406aの処理は、受信部251の処理に対応する。登録プロセス406bの処理は、登録部252の処理に対応する。アクセス受付プロセス406cの処理は、アクセス受付部253の処理に対応する。
The processing of the
なお、各プログラム407a~407cについては、必ずしも最初からハードディスク装置407に記憶させておかなくても良い。例えば、コンピュータ400に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ400が各プログラム407a~407cを読み出して実行するようにしてもよい。
Note that each of the
10a,10b,10c 顧客システム
20a,20b,20c 自動化処理装置
30a,30b,30c Firewall
50 ネットワーク
100 監視サーバ
200 ITSMサーバ
10a, 10b,
50 Network 100
Claims (5)
前記監視サーバは、前記システムに障害が発生したことを検知した場合、前記障害の対応情報を、記憶部に登録し、
前記システムのツールは、前記記憶部に登録された前記対応情報を取得し、前記対応情報に応じた処理を前記システムに対して実行する
ことを特徴とする監視方法。 A method for monitoring a monitoring system including a system and a monitoring server that monitors the system, the method comprising:
When the monitoring server detects that a failure has occurred in the system, the monitoring server registers response information for the failure in a storage unit,
A monitoring method characterized in that a tool of the system acquires the correspondence information registered in the storage unit and executes processing on the system according to the correspondence information.
前記監視サーバは、前記複数のシステムを監視し、前記複数のシステムのうち、いずれかのシステムに障害が発生したことを検知した場合、前記障害の対応情報を、記憶部に登録することを特徴とする請求項1に記載の監視方法。 The monitoring system has a plurality of systems,
The monitoring server monitors the plurality of systems, and when detecting that a failure has occurred in any one of the plurality of systems, registers correspondence information for the failure in a storage unit. The monitoring method according to claim 1, wherein:
前記監視サーバは、前記システムに障害が発生したことを検知した場合、前記障害の対応情報を、記憶部に登録し、
前記システムのツールは、前記記憶部に登録された前記対応情報を取得し、前記対応情報に応じた処理を前記システムに対して実行する
ことを特徴とする監視システム。 A monitoring system comprising a system and a monitoring server that monitors the system,
When the monitoring server detects that a failure has occurred in the system, the monitoring server registers response information for the failure in a storage unit,
A monitoring system characterized in that a tool of the system acquires the correspondence information registered in the storage unit and executes processing on the system according to the correspondence information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022130943A JP2024027816A (en) | 2022-08-19 | 2022-08-19 | Monitoring method and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022130943A JP2024027816A (en) | 2022-08-19 | 2022-08-19 | Monitoring method and system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024027816A true JP2024027816A (en) | 2024-03-01 |
Family
ID=90039924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022130943A Pending JP2024027816A (en) | 2022-08-19 | 2022-08-19 | Monitoring method and system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024027816A (en) |
-
2022
- 2022-08-19 JP JP2022130943A patent/JP2024027816A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9021317B2 (en) | Reporting and processing computer operation failure alerts | |
US6418469B1 (en) | Managing conditions in a network | |
US7840846B2 (en) | Point of sale system boot failure detection | |
JP5083051B2 (en) | Monitoring system, monitoring device, monitored device, and monitoring method | |
WO2015037603A1 (en) | Remote monitoring system, remote monitoring method, and program | |
US20120271645A1 (en) | Automated replacement part ordering based on service thresholds | |
US20170132102A1 (en) | Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus | |
CN105849702A (en) | Cluster system, server device, cluster system management method, and computer-readable recording medium | |
JP2003233512A (en) | Client monitoring system with maintenance function, monitoring server, program, and client monitoring/ maintaining method | |
JP2010231293A (en) | Monitoring device | |
CN113608908A (en) | Server fault processing method, system, equipment and readable storage medium | |
JP4905165B2 (en) | Monitoring support program, monitoring method and monitoring system | |
JP2024027816A (en) | Monitoring method and system | |
EP2495660A1 (en) | Information processing device and method for controlling information processing device | |
CN115102838B (en) | Emergency processing method and device for server downtime risk and electronic equipment | |
US20200305300A1 (en) | Method for remotely clearing abnormal status of racks applied in data center | |
CN110521233B (en) | Method for identifying interrupt, access point, method for remote configuration, system and medium | |
JP6317074B2 (en) | Failure notification device, failure notification program, and failure notification method | |
KR101783201B1 (en) | System and method for managing servers totally | |
JP2007264907A (en) | Fault notification system, fault notification method, and fault notification program | |
US8359220B2 (en) | Technical support routing among members of a technical support group | |
JP2012146049A (en) | Batch job delay alarm automatic raising system, automatic alarm raising method and program therefor | |
JP4918669B2 (en) | Remote maintenance system and method and program | |
JP2019191671A (en) | Exercise display program for cyber-attack | |
JP2012118800A (en) | Operation management failure correspondence system and operation management failure correspondence method |