JP2024027816A - Monitoring method and system - Google Patents

Monitoring method and system Download PDF

Info

Publication number
JP2024027816A
JP2024027816A JP2022130943A JP2022130943A JP2024027816A JP 2024027816 A JP2024027816 A JP 2024027816A JP 2022130943 A JP2022130943 A JP 2022130943A JP 2022130943 A JP2022130943 A JP 2022130943A JP 2024027816 A JP2024027816 A JP 2024027816A
Authority
JP
Japan
Prior art keywords
failure
server
monitoring
information
itsm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022130943A
Other languages
Japanese (ja)
Inventor
重志 大場
賢作 岡
博文 泉
幸治 村井
千穂 神林
龍二 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu FSAS Inc
Original Assignee
Fujitsu FSAS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu FSAS Inc filed Critical Fujitsu FSAS Inc
Priority to JP2022130943A priority Critical patent/JP2024027816A/en
Publication of JP2024027816A publication Critical patent/JP2024027816A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】顧客システムの障害対応をセキュアに実行すること。【解決手段】監視システムは、システムと、システムを監視する監視サーバとを有する。監視サーバは、システムに障害が発生したことを検知した場合、障害の対応情報を、記憶部に登録する。システムのツールは、前記記憶部に登録された前記対応情報を取得し、前記対応情報に応じた処理を前記システムに対して実行する。【選択図】図1[Problem] To securely execute troubleshooting of a customer system. A monitoring system includes a system and a monitoring server that monitors the system. When the monitoring server detects that a failure has occurred in the system, it registers failure response information in the storage unit. A system tool acquires the correspondence information registered in the storage unit, and executes processing on the system according to the correspondence information. [Selection diagram] Figure 1

Description

本発明は、監視方法および監視システムに関する。 The present invention relates to a monitoring method and a monitoring system.

従来、顧客システムを監視し、顧客システムに何らかの障害が発生した場合に、係る障害に対応する監視システムがある。 Conventionally, there are monitoring systems that monitor customer systems and respond to any failures that occur in the customer systems.

図13は、従来の監視システムの一例を示す図である。図13に示すように、この監視システムは、顧客システム5、自動化処理部6、監視サーバ7、ITSM(IT Service Management)サーバ8を有する。監視サーバ7およびITSMサーバ8と、自動化処理部6との間には、不正アクセス等を防止するためのFirewall9が配置される。 FIG. 13 is a diagram showing an example of a conventional monitoring system. As shown in FIG. 13, this monitoring system includes a customer system 5, an automation processing section 6, a monitoring server 7, and an ITSM (IT Service Management) server 8. A firewall 9 is arranged between the monitoring server 7 and ITSM server 8 and the automation processing unit 6 to prevent unauthorized access.

顧客システム5は、顧客が利用するシステムであり、複数の電子機器から構成される。自動化処理部6は、インバウンド通信によって、外部の監視サーバ7から、ワークアラウンドの実行命令を受信した場合に、該当するワークアラウンドに応じたジョブを、顧客システムに対して実行する。図示を省略するが、監視システムは、顧客システム5に加えて、他の顧客システムを更に含んでいてもよい。 The customer system 5 is a system used by a customer, and is composed of a plurality of electronic devices. When the automation processing unit 6 receives a workaround execution command from the external monitoring server 7 through inbound communication, it executes a job corresponding to the corresponding workaround on the customer system. Although not shown, the monitoring system may further include other customer systems in addition to the customer system 5.

監視サーバ7は、SaaS(Software as a Service)型の監視サーバであり、顧客システム5や、他の顧客システム(図示略)の監視を行う。ここでは、顧客システム5を用いて、監視サーバ7の説明を行う。 The monitoring server 7 is a SaaS (Software as a Service) type monitoring server, and monitors the customer system 5 and other customer systems (not shown). Here, the monitoring server 7 will be explained using the customer system 5.

監視サーバ7は、顧客システム5から、障害発生の通知を受け付けた場合等に、顧客システム5の障害発生を検知し、表示画面等に障害発生の情報を表示させる。監視サーバ7のオペレータは、障害発生の情報を表示画面等で確認すると、障害内容に対応するワークアラウンドを選択し、選択したワークアラウンドの実行命令を、自動化処理部6に対して送信する。 When the monitoring server 7 receives a notification of the occurrence of a failure from the customer system 5, it detects the occurrence of a failure in the customer system 5, and displays information on the occurrence of the failure on a display screen or the like. When the operator of the monitoring server 7 confirms the information on the occurrence of a failure on a display screen or the like, he selects a workaround corresponding to the failure details, and sends an execution command for the selected workaround to the automation processing unit 6.

ITSMサーバ8は、SaaS型のITSMサーバであり、顧客システム5および他の顧客システム(図示略)に発生した障害内容、係る障害内容に対して選択したワークアラウンド等の履歴情報を保存する。監視サーバ7のオペレータは、ITSMサーバ8に保存された履歴情報を参照して、顧客システム5で新たに発生した障害内容に対応するワークアラウンドを選択する場合もある。 The ITSM server 8 is a SaaS type ITSM server, and stores history information such as failure details that have occurred in the customer system 5 and other customer systems (not shown), workarounds selected for the failure contents, and the like. The operator of the monitoring server 7 may refer to history information stored in the ITSM server 8 and select a workaround corresponding to the content of a new failure that has occurred in the customer system 5.

特開2014-164457号公報Japanese Patent Application Publication No. 2014-164457 特開2014-32598号公報Japanese Patent Application Publication No. 2014-32598

上述した従来の監視システムによる障害対応の仕組みは、インバウンド通信を前提しており、監視サーバ7から送信されるデータは、基本的にFirewall9を通過して、自動化処理部6に到達する。このため、たとえば、悪意のある第三者が、監視サーバ7を利用して、自動化処理部6に送信するデータに、ウイルスを埋め込んだり、悪意のある操作を行ったりすることも可能であり、セキュリティ対策に課題があった。 The failure response mechanism of the conventional monitoring system described above assumes inbound communication, and data sent from the monitoring server 7 basically passes through the firewall 9 and reaches the automation processing unit 6. Therefore, for example, it is possible for a malicious third party to use the monitoring server 7 to embed a virus or perform malicious operations on the data sent to the automation processing unit 6. There were issues with security measures.

このため、顧客システムの障害対応をセキュアに実行することが求められる。 Therefore, it is required to securely handle failures in customer systems.

1つの側面では、本発明は、顧客システムの障害対応をセキュアに実行することができる監視方法および監視システムを提供することを目的とする。 In one aspect, an object of the present invention is to provide a monitoring method and a monitoring system that can securely perform failure handling of a customer system.

第1の案では、監視システムは、システムと、システムを監視する監視サーバとを有する。監視サーバは、システムに障害が発生したことを検知した場合、障害の対応情報を、記憶部に登録する。システムのツールは、前記記憶部に登録された前記対応情報を取得し、前記対応情報に応じた処理を前記システムに対して実行する。 In the first proposal, the monitoring system includes a system and a monitoring server that monitors the system. When the monitoring server detects that a failure has occurred in the system, it registers failure response information in the storage unit. A system tool acquires the correspondence information registered in the storage unit, and executes processing on the system according to the correspondence information.

顧客システムの障害対応をセキュアに実行することができる。 It is possible to securely respond to customer system failures.

図1は、本実施例に係る監視システムの一例を示す図である。FIG. 1 is a diagram showing an example of a monitoring system according to this embodiment. 図2は、障害DBのデータ構造の一例を示す図である。FIG. 2 is a diagram showing an example of the data structure of the failure DB. 図3は、本実施例に係る自動化処理装置の構成を示す機能ブロック図である。FIG. 3 is a functional block diagram showing the configuration of the automated processing device according to this embodiment. 図4は、処理テーブルのデータ構造の一例を示す図である。FIG. 4 is a diagram showing an example of the data structure of the processing table. 図5は、監視サーバの構成を示す機能ブロック図である。FIG. 5 is a functional block diagram showing the configuration of the monitoring server. 図6は、ITSMサーバの構成を示す機能ブロック図である。FIG. 6 is a functional block diagram showing the configuration of the ITSM server. 図7は、ワークアラウンド管理テーブルのデータ構造の一例を示す図である。FIG. 7 is a diagram showing an example of the data structure of the workaround management table. 図8は、システムレベル管理テーブルのデータ構造の一例を示す図である。FIG. 8 is a diagram showing an example of the data structure of the system level management table. 図9は、本実施例に係る自動化処理装置の処理手順を示すフローチャートである。FIG. 9 is a flowchart showing the processing procedure of the automated processing device according to this embodiment. 図10は、監視サーバおよびITSMサーバの処理手順を示すフローチャートである。FIG. 10 is a flowchart showing the processing procedure of the monitoring server and the ITSM server. 図11は、実施例の監視サーバと同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。FIG. 11 is a diagram illustrating an example of the hardware configuration of a computer that implements the same functions as the monitoring server of the embodiment. 図12は、実施例のITSMサーバと同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。FIG. 12 is a diagram illustrating an example of the hardware configuration of a computer that implements the same functions as the ITSM server of the embodiment. 図13は、従来の監視システムの一例を示す図である。FIG. 13 is a diagram showing an example of a conventional monitoring system.

以下に、本願の開示する監視方法および監視システムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。 DESCRIPTION OF THE PREFERRED EMBODIMENTS Examples of the monitoring method and monitoring system disclosed in the present application will be described in detail below based on the drawings. Note that the present invention is not limited to this example.

図1は、本実施例に係る監視システムの一例を示す図である。図1に示すように、この監視システムは、顧客システム10a,10b,10cと、自動化処理装置20a,20b,20cと、監視サーバ100と、ITSMサーバ200とを有する。本実施例では、監視サーバ100と、ITSMサーバ200とを別々のサーバとして説明するが、監視サーバ100と、ITSMサーバ200とを一つのサーバで実現することもできる。 FIG. 1 is a diagram showing an example of a monitoring system according to this embodiment. As shown in FIG. 1, this monitoring system includes customer systems 10a, 10b, and 10c, automated processing devices 20a, 20b, and 20c, a monitoring server 100, and an ITSM server 200. In this embodiment, the monitoring server 100 and the ITSM server 200 are described as separate servers, but the monitoring server 100 and the ITSM server 200 can also be implemented as a single server.

顧客システム10a~10cは、自動化処理装置20a~20cにそれぞれ接続される。自動化処理装置20a~20cは、それぞれ、外部からの不正アクセスを防止するためのFirewall30a,30b,30cを介して、ネットワーク50に接続される。監視サーバ100およびITSMサーバ200は、ネットワーク50に接続される。 Customer systems 10a-10c are connected to automated processing devices 20a-20c, respectively. The automated processing devices 20a to 20c are each connected to a network 50 via firewalls 30a, 30b, and 30c for preventing unauthorized access from the outside. Monitoring server 100 and ITSM server 200 are connected to network 50.

顧客システム10a~10cは、顧客が利用するシステムであり、複数の電子機器から構成される。以下の説明では、特に区別する場合を除き、顧客システム10a~10cをまとめて「顧客システム10」と表記する。顧客システム10は、自顧客システム10内に障害が発生した場合に、障害情報を、監視サーバ100に送信する。 The customer systems 10a to 10c are systems used by customers and are composed of a plurality of electronic devices. In the following description, customer systems 10a to 10c will be collectively referred to as "customer system 10" unless otherwise specified. The customer system 10 transmits failure information to the monitoring server 100 when a failure occurs within the own customer system 10 .

たとえば、障害情報には、障害の内容を一意に識別する障害コードと、顧客システム10を一意に識別するシステム識別番号が含まれる。顧客システム10aのシステム識別番号を「sys1」、顧客システム10bのシステム識別番号を「sys2」、顧客システム10cのシステム識別番号を「sys3」とする。 For example, the fault information includes a fault code that uniquely identifies the details of the fault, and a system identification number that uniquely identifies the customer system 10. It is assumed that the system identification number of the customer system 10a is "sys1," the system identification number of the customer system 10b is "sys2," and the system identification number of the customer system 10c is "sys3."

監視サーバ100は、顧客システム10を監視する。監視サーバ100は、顧客システム10から障害情報を受信した場合、障害情報を表示画面に表示する。また、監視サーバ100は、障害情報を設定したインシデント発行要求を、ITSMサーバ200に送信する。 The monitoring server 100 monitors the customer system 10. When the monitoring server 100 receives fault information from the customer system 10, it displays the fault information on the display screen. Additionally, the monitoring server 100 transmits an incident issuance request in which failure information is set to the ITSM server 200.

ITSMサーバ200は、インシデント発行要求を受付けると、インシデント番号を発行し、障害情報に関する情報を、障害DB241に登録する。 Upon receiving the incident issue request, the ITSM server 200 issues an incident number and registers information regarding the fault information in the fault DB 241 .

図2は、障害DBのデータ構造の一例を示す図である。図2に示すように、この障害DB241は、障害テーブルta1,ta2,ta3を有する。障害テーブルta1は、顧客システム10aの障害情報に関する情報を保持する。障害テーブルta2は、顧客システム10bの障害情報に関する情報を保持する。障害テーブルta3は、顧客システム10cの障害情報に関する情報を保持する。障害DB241は、他の顧客システムの障害テーブルを更に有していてもよい。 FIG. 2 is a diagram showing an example of the data structure of the failure DB. As shown in FIG. 2, this failure DB 241 has failure tables ta1, ta2, and ta3. The failure table ta1 holds information regarding failure information of the customer system 10a. The failure table ta2 holds information regarding failure information of the customer system 10b. The failure table ta3 holds information regarding failure information of the customer system 10c. The failure DB 241 may further include failure tables of other customer systems.

障害テーブルta1について説明する。障害テーブルta1には、顧客システム10aのシステム識別番号「sys1」が設定される。また、障害テーブルta1には、インシデント番号、障害コード、ワークアラウンド、対処フラグが設定される。 The failure table ta1 will be explained. The system identification number "sys1" of the customer system 10a is set in the failure table ta1. Further, the incident number, failure code, workaround, and response flag are set in the failure table ta1.

インシデント番号は、ITSMサーバ200が発行する番号である。障害コードは、障害情報に設定された障害を一意に識別する情報である。ワークアラウンドは、障害コードによって識別される障害の対処内容を示す。たとえば、ワークアラウンドは、Windowsサーバのサービス状態確認、長時間走行ジョブの確認等である。その他のワークアラウンドの説明を省略する。 The incident number is a number issued by the ITSM server 200. The fault code is information that uniquely identifies the fault set in the fault information. The workaround indicates how to deal with the failure identified by the failure code. For example, workarounds include checking the service status of a Windows server and checking long-running jobs. Other workarounds will be omitted.

対処フラグは、顧客システムに障害に対応したか否かを示すフラグである。障害に対処した場合には、対処フラグに「ON」が設定される。障害に対応していない場合には、対処フラグに「OFF」が設定される。 The response flag is a flag indicating whether or not the customer system has responded to the failure. When the failure has been dealt with, "ON" is set in the handling flag. If the failure is not handled, "OFF" is set in the handling flag.

障害テーブルta2について説明する。障害テーブルta2には、顧客システム10bのシステム識別番号「sys2」が設定される。また、障害テーブルta2には、インシデント番号、障害コード、ワークアラウンド、対処フラグが設定される。 The failure table ta2 will be explained. The system identification number "sys2" of the customer system 10b is set in the failure table ta2. Further, the incident number, failure code, workaround, and response flag are set in the failure table ta2.

障害テーブルta3について説明する。障害テーブルta3には、顧客システム10cのシステム識別番号「sys3」が設定される。また、障害テーブルta3には、インシデント番号、障害コード、ワークアラウンド、対処フラグが設定される。 The failure table ta3 will be explained. The system identification number "sys3" of the customer system 10c is set in the failure table ta3. Furthermore, the incident number, failure code, workaround, and response flag are set in the failure table ta3.

以下の説明では、障害テーブルta1,ta2,ta3のインシデント番号によって識別されるレコードを「インシデント」と表記する。たとえば、インシデント番号「inc_1」によって識別されるインシデントは、障害コード「error1100」、ワークアラウンド「Windowsサーバのサービス状態確認」、対処フラグ「OFF」のレコードに対応する。以下の説明では、適宜、対処フラグが「OFF」となるインシデントを、未対処のインシデントと表記する。 In the following description, records identified by incident numbers in the failure tables ta1, ta2, and ta3 will be referred to as "incidents." For example, an incident identified by the incident number "inc_1" corresponds to a record with a failure code "error1100", a workaround "check service status of Windows server", and a response flag "OFF". In the following description, an incident whose handling flag is "OFF" will be appropriately referred to as an unhandled incident.

図1の説明に戻る。自動化処理装置20a~20cは、アウトバウンド通信によって、所定時間毎に、ITSMサーバ200の障害DB241にアクセスし、自身の顧客システム10に対応する障害テーブルを参照する。たとえば、自動化処理装置20aは、顧客システム10aに対応する障害テーブルta1を参照する。自動化処理装置20bは、顧客システム10bに対応する障害テーブルta2を参照する。自動化処理装置20cは、顧客システム10cに対応する障害テーブルta3を参照する。 Returning to the explanation of FIG. The automation processing devices 20a to 20c access the fault DB 241 of the ITSM server 200 at predetermined intervals through outbound communication, and refer to the fault table corresponding to their own customer system 10. For example, the automated processing device 20a refers to the failure table ta1 corresponding to the customer system 10a. The automated processing device 20b refers to the failure table ta2 corresponding to the customer system 10b. The automated processing device 20c refers to the failure table ta3 corresponding to the customer system 10c.

自動化処理装置20aは、障害テーブルta1のインシデントのうち、対処フラグが「OFF」となる未対処のインシデントを特定し、特定したインシデントに設定されたワークアラウンドに対応するジョブを、顧客システム10aに対して実行する。図2に示す例では、自動化処理装置20aは、ワークアラウンド「Windowsサーバのサービス状態確認」のジョブ、「長時間走行ジョブの確認」のジョブを顧客システム10aに対して実行する。自動化処理装置20aは、「Windowsサーバのサービス状態確認」、「長時間走行ジョブの確認」の処理結果を、ITSMサーバ200に通知する。 The automation processing device 20a identifies unhandled incidents whose handling flag is "OFF" among the incidents in the failure table ta1, and sends a job corresponding to the workaround set to the identified incident to the customer system 10a. and execute it. In the example shown in FIG. 2, the automated processing device 20a executes a workaround job of "confirm service status of Windows server" and a job of "confirm long-time running job" on the customer system 10a. The automation processing device 20a notifies the ITSM server 200 of the processing results of "confirmation of Windows server service status" and "confirmation of long running job".

ITSMサーバ200は、ワークアラウンド「Windowsサーバのサービス状態確認」、「長時間走行ジョブの確認」に対処した旨の情報を、処理結果として受信した場合には、障害テーブルta1のワークアラウンド「Windowsサーバのサービス状態確認」、「長時間走行ジョブの確認」に対応する対処フラグを「OFF」から「ON」に更新する。 When the ITSM server 200 receives information that the workaround "Windows server service status confirmation" and "long running job confirmation" have been handled as a processing result, the ITSM server 200 executes the workaround "Windows server service status confirmation" in the failure table ta1. The response flags corresponding to "Confirm service status" and "Confirm long running job" are updated from "OFF" to "ON".

一方、ITSMサーバ200は、ワークアラウンド「Windowsサーバのサービス状態確認」、「長時間走行ジョブの確認」に対処に失敗した旨の情報を、処理結果として受信した場合には、エラー情報を、監視サーバ100に送信する。エラー情報には、システム識別番号、対処に失敗したワークアラウンドに対応するインシデント番号等が設定される。 On the other hand, if the ITSM server 200 receives information indicating that the workaround "confirmation of service status of Windows server" or "confirmation of long running job" has failed as a processing result, the ITSM server 200 monitors the error information. Send to server 100. The error information includes a system identification number, an incident number corresponding to a failed workaround, and the like.

自動化処理装置20bは、障害テーブルta2のインシデントのうち、未対処のインシデントを特定し、特定したインシデントに設定されたワークアラウンドに対応するジョブを、顧客システム10bに対して実行する。自動化処理装置20bは、ジョブの処理結果を、ITSMサーバ200に通知する。その他の説明は、自動化処理装置20aに関する説明と同様である。 The automation processing device 20b identifies unhandled incidents among the incidents in the failure table ta2, and executes a job corresponding to the workaround set for the identified incident on the customer system 10b. The automated processing device 20b notifies the ITSM server 200 of the job processing results. Other explanations are the same as those regarding the automated processing device 20a.

自動化処理装置20cは、障害テーブルta3のインシデントのうち、未対処のレコードを特定し、特定したインシデントに設定されたワークアラウンドに対応するジョブを、顧客システム10cに対して実行する。自動化処理装置20cは、ジョブの処理結果を、ITSMサーバ200に通知する。その他の説明は、自動化処理装置20aに関する説明と同様である。 The automation processing device 20c identifies unhandled records among the incidents in the failure table ta3, and executes a job corresponding to the workaround set for the identified incident on the customer system 10c. The automated processing device 20c notifies the ITSM server 200 of the job processing results. Other explanations are the same as those regarding the automated processing device 20a.

以下の説明では、自動化処理装置20a~20cを特に区別しない場合、自動化処理装置20a~20cをまとめて「自動化処理装置20」と表記する。自動化処理装置20は、顧客システム10のツールの一例である。自動化処理装置20は、顧客システム10内に設定されていてもよいし、顧客システム10が、自動化処理装置20の機能を有していてもよい。 In the following description, unless the automated processing devices 20a to 20c are particularly distinguished, the automated processing devices 20a to 20c will be collectively referred to as the "automated processing device 20." The automated processing device 20 is an example of a tool of the customer system 10. The automated processing device 20 may be set within the customer system 10, or the customer system 10 may have the function of the automated processing device 20.

上記のように、本実施例に係る監視システムは、監視サーバ100が、顧客システム10の障害情報を受信した場合に、インシデント発行要求を、ITSMサーバ200に行い、ITSMサーバ200は、障害情報に関する情報を、障害DB241に登録する。また、自動化処理装置20は、アウトバウンド通信によって、障害DB241にアクセスして、ワークアラウンドを取得し、ワークアラウンドに対応するジョブを、顧客システム10に対して実行する。このように、アウトバウンド通信によって、自動化処理装置20側から、ワークアラウンドを取得するため、インバウンド通信の場合と比較して、顧客システム10の障害対応をセキュアに実行することができる。 As described above, in the monitoring system according to the present embodiment, when the monitoring server 100 receives fault information of the customer system 10, it issues an incident issuance request to the ITSM server 200, and the ITSM server 200 issues a request to the ITSM server 200 regarding the fault information. The information is registered in the fault DB 241. Further, the automation processing device 20 accesses the failure DB 241 through outbound communication, obtains a workaround, and executes a job corresponding to the workaround on the customer system 10. In this way, since the workaround is obtained from the automation processing device 20 side through outbound communication, troubleshooting of the customer system 10 can be executed more securely than in the case of inbound communication.

次に、図1で説明した自動化処理装置20の構成例について説明する。図3は、本実施例に係る自動化処理装置の構成を示す機能ブロック図である。図3に示すように、この自動化処理装置20aは、通信部21と、記憶部24と、制御部25とを有する。 Next, a configuration example of the automated processing device 20 described in FIG. 1 will be described. FIG. 3 is a functional block diagram showing the configuration of the automated processing device according to this embodiment. As shown in FIG. 3, this automated processing device 20a includes a communication section 21, a storage section 24, and a control section 25.

通信部21は、ネットワーク50を介して、監視サーバ100、ITSMサーバ200との間で情報の送受信を行う。また、通信部21は、顧客システム10との間で情報の送受信を行う。通信部21は、NIC(Network Interface Card)等によって実現される。 The communication unit 21 sends and receives information to and from the monitoring server 100 and the ITSM server 200 via the network 50. The communication unit 21 also sends and receives information to and from the customer system 10 . The communication unit 21 is realized by a NIC (Network Interface Card) or the like.

記憶部24は、処理テーブル24aを有する。たとえば、記憶部24は、メモリ等の記憶装置である。 The storage unit 24 has a processing table 24a. For example, the storage unit 24 is a storage device such as a memory.

処理テーブル24aは、ワークアラウンドに対応するジョブを設定するテーブルである。図4は、処理テーブルのデータ構造の一例を示す図である。図4に示すように、この処理テーブル24aは、ワークアラウンドと、ジョブとを対応付ける。ワークアラウンドに関する説明は、上記のワークアラウンドに関する説明と同様である。ジョブは、複数のプログラムをまとめて連続して実行するひとつのかたまりである。また、ジョブは、複数のコード部品の実行順を定義したパーツに対応する。 The processing table 24a is a table in which jobs corresponding to workaround are set. FIG. 4 is a diagram showing an example of the data structure of the processing table. As shown in FIG. 4, this processing table 24a associates workarounds with jobs. The description regarding the workaround is similar to the description regarding the workaround above. A job is a group of multiple programs that are executed continuously. Further, a job corresponds to a part that defines the execution order of a plurality of code parts.

図3の説明に戻る。制御部25は、取得部25aと、実行部25bとを有する。制御部25は、たとえば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等である。 Returning to the explanation of FIG. 3. The control unit 25 includes an acquisition unit 25a and an execution unit 25b. The control unit 25 is, for example, a CPU (Central Processing Unit) or an MPU (Micro Processing Unit).

取得部25aは、所定時間毎に、ITSMサーバ200の障害DB241の障害テーブルta1にアクセスする。取得部25aは、ITSMサーバ200にアクセスする場合、ジョブの実行対象となる顧客システムのシステム識別番号を通知する。取得部25aは、障害テーブルta1のインシデントのうち、未対処のインシデントのワークアラウンドを取得する。取得部25aは、インシデント番号もあわせて取得してもよい。取得部25aは、取得したワークアラウンドを、実行部25bに出力する。 The acquisition unit 25a accesses the failure table ta1 of the failure DB 241 of the ITSM server 200 at predetermined intervals. When accessing the ITSM server 200, the acquisition unit 25a notifies the system identification number of the customer system on which the job is to be executed. The acquisition unit 25a acquires workarounds for unhandled incidents among the incidents in the failure table ta1. The acquisition unit 25a may also acquire the incident number. The acquisition unit 25a outputs the acquired workaround to the execution unit 25b.

実行部25bは、取得部25aから取得したワークアラウンドと、処理テーブル24aとを比較し、ワークアラウンドに対応するジョブを特定する。実行部25bは、特定したジョブを、顧客システム10aに対して実行する。実行部25bは、処理結果を、ITSMサーバ200に送信する。処理結果には、インシデント番号と、ワークアラウンドに対応するジョブの実行に成功したか否かの情報が含まれる。 The execution unit 25b compares the workaround acquired from the acquisition unit 25a with the processing table 24a, and identifies a job corresponding to the workaround. The execution unit 25b executes the specified job on the customer system 10a. The execution unit 25b transmits the processing result to the ITSM server 200. The processing result includes an incident number and information as to whether or not the job corresponding to the workaround was successfully executed.

ここで、実行部25bは、ジョブの実行に失敗した場合に、所定回数、ジョブの実行を再試行してもよい。実行部25bは、所定回数、ジョブを再試行しても、ジョブの実行に成功しない場合に、処理結果に、ワークアラウンドに対応するジョブの実行に失敗した旨の情報を設定し、ITSMサーバ200に送信する。 Here, if execution of the job fails, the execution unit 25b may retry execution of the job a predetermined number of times. If the execution of the job is not successful even after retrying the job a predetermined number of times, the execution unit 25b sets information to the effect that execution of the job corresponding to the workaround has failed in the processing result, and sends the job to the ITSM server 200. Send to.

自動化処理装置20b,20cの機能ブロック図は、図3に示した自動化処理装置20aの機能ブロック図に対応するため、説明を省略する。 The functional block diagrams of the automated processing devices 20b and 20c correspond to the functional block diagram of the automated processing device 20a shown in FIG. 3, and therefore their description will be omitted.

次に、図1で説明した監視サーバ100の構成例について説明する。図5は、監視サーバの構成を示す機能ブロック図である。図5に示すように、この監視サーバ100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。 Next, a configuration example of the monitoring server 100 described in FIG. 1 will be described. FIG. 5 is a functional block diagram showing the configuration of the monitoring server. As shown in FIG. 5, this monitoring server 100 includes a communication section 110, an input section 120, a display section 130, a storage section 140, and a control section 150.

通信部110は、ネットワーク50を介して、ITSMサーバ200、自動化処理装置20、顧客システム10と情報の送受信を行う。通信部110は、NIC等によって実現される。 The communication unit 110 sends and receives information to and from the ITSM server 200, the automation processing device 20, and the customer system 10 via the network 50. The communication unit 110 is realized by a NIC or the like.

入力部120は、各種の情報を、監視サーバ100に入力する入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。 The input unit 120 is an input device that inputs various information to the monitoring server 100. The input unit 120 corresponds to a keyboard, a mouse, a touch panel, etc.

表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、タッチパネル等に対応する。たとえば、表示部130は、顧客を表示する。 The display unit 130 is a display device that displays information output from the control unit 150. The display unit 130 corresponds to a liquid crystal display, an organic EL (Electro Luminescence) display, a touch panel, or the like. For example, the display unit 130 displays customers.

記憶部140は、制御部150が処理を実行するための各種の情報を保持する。記憶部140は、メモリ等の記憶装置である。 The storage unit 140 holds various types of information for the control unit 150 to execute processing. The storage unit 140 is a storage device such as a memory.

制御部150は、異常検知部151、依頼部152、表示制御部153を有する。制御部150は、たとえば、CPUやMPU等である。 The control unit 150 includes an abnormality detection unit 151, a request unit 152, and a display control unit 153. The control unit 150 is, for example, a CPU, an MPU, or the like.

異常検知部151は、顧客システム10a~10cを監視し、障害が発生したか否かを検知する。たとえば、異常検知部151は、顧客システム10から障害情報を受信した場合、障害情報に設定されたシステム識別番号に対応する顧客システム10に障害が発生したことを検知する。異常検知部151は、受信した障害情報を、依頼部152、表示制御部153に出力する。 The abnormality detection unit 151 monitors the customer systems 10a to 10c and detects whether a failure has occurred. For example, when receiving failure information from the customer system 10, the abnormality detection unit 151 detects that a failure has occurred in the customer system 10 corresponding to the system identification number set in the failure information. The abnormality detection unit 151 outputs the received failure information to the requesting unit 152 and the display control unit 153.

異常検知部151は、データを顧客システム10に送信し、送信先の顧客システム10から応答がない場合に、顧客システム10の異常を検知してもよい。この場合、異常検知部151は、応答なしを示す障害コードと、異常を検知した顧客システム10のシステム識別番号を設定した障害情報を生成し、生成した障害情報を、依頼部152、表示制御部153に出力する。 The abnormality detection unit 151 may transmit data to the customer system 10 and detect an abnormality in the customer system 10 when there is no response from the destination customer system 10. In this case, the abnormality detection unit 151 generates failure information in which a failure code indicating no response and the system identification number of the customer system 10 in which the abnormality was detected is set, and the generated failure information is transmitted to the requesting unit 152 and the display control unit. 153.

依頼部152は、異常検知部151から障害情報を取得した場合に、障害情報を設定したインシデント発行要求を、ITSMサーバ200に送信する。 When the requesting unit 152 acquires fault information from the abnormality detecting unit 151, it transmits an incident issuance request in which the fault information is set to the ITSM server 200.

表示制御部153は、各種の情報を表示部130に表示させる。たとえば、表示制御部153は、障害情報を、表示部130に表示させる。表示制御部153は、ITSMサーバ200から、エラー情報を受信した場合には、エラー情報を、表示部130に表示させる。 The display control unit 153 causes the display unit 130 to display various information. For example, the display control unit 153 causes the display unit 130 to display failure information. When receiving error information from the ITSM server 200, the display control unit 153 causes the display unit 130 to display the error information.

次に、図1で説明したITSMサーバ200の構成例について説明する。図6は、ITSMサーバの構成を示す機能ブロック図である。図6に示すように、このITSMサーバ200は、通信部210と、入力部220と、表示部230と、記憶部240と、制御部250とを有する。 Next, a configuration example of the ITSM server 200 described in FIG. 1 will be described. FIG. 6 is a functional block diagram showing the configuration of the ITSM server. As shown in FIG. 6, the ITSM server 200 includes a communication section 210, an input section 220, a display section 230, a storage section 240, and a control section 250.

通信部210は、ネットワーク50を介して、監視サーバ100、自動化処理装置20、顧客システム10と情報の送受信を行う。通信部110は、NIC等によって実現される。 The communication unit 210 transmits and receives information to and from the monitoring server 100, the automated processing device 20, and the customer system 10 via the network 50. The communication unit 110 is realized by a NIC or the like.

入力部220は、各種の情報を、ITSMサーバ200に入力する入力装置である。入力部220は、キーボードやマウス、タッチパネル等に対応する。 The input unit 220 is an input device that inputs various information to the ITSM server 200. The input unit 220 corresponds to a keyboard, mouse, touch panel, etc.

表示部230は、制御部150から出力される情報を表示する表示装置である。表示部230は、液晶ディスプレイ、有機ELディスプレイ、タッチパネル等に対応する。たとえば、表示部130は、顧客を表示する。 The display unit 230 is a display device that displays information output from the control unit 150. The display unit 230 corresponds to a liquid crystal display, an organic EL display, a touch panel, or the like. For example, the display unit 130 displays customers.

記憶部240は、障害DB241、ワークアラウンド管理テーブル242、システムレベル管理テーブル243を保持する。記憶部240は、メモリ等の記憶装置である。 The storage unit 240 holds a failure DB 241, a workaround management table 242, and a system level management table 243. The storage unit 240 is a storage device such as a memory.

障害DB241は、障害情報に関する情報を保持する。障害DB241のデータ構造は、図2で説明したデータ構造に対応する。 The failure DB 241 holds information regarding failure information. The data structure of the failure DB 241 corresponds to the data structure explained in FIG.

ワークアラウンド管理テーブル242は、障害コードによって識別される障害に対処するためのワークアラウンドを定義する。図7は、ワークアラウンド管理テーブルのデータ構造の一例を示す図である。図7に示すように、このワークアラウンド管理テーブル242は、障害コードと、ワークアラウンドとを対応付ける。障害コードは、障害を一意に識別する情報である。ワークアラウンドは、障害に対処するためのワークアラウンド名である。たとえば、障害コード「error1000」に対応するワークアラウンド(ワークアラウンド名)は「システム再起動」である。 Workaround management table 242 defines workarounds for dealing with failures identified by failure codes. FIG. 7 is a diagram showing an example of the data structure of the workaround management table. As shown in FIG. 7, this workaround management table 242 associates failure codes with workarounds. A fault code is information that uniquely identifies a fault. Workaround is the name of a workaround for dealing with a failure. For example, the workaround (workaround name) corresponding to the failure code "error1000" is "system restart."

システムレベル管理テーブル243は、顧客システム10のシステムレベルの情報を保持する。図8は、システムレベル管理テーブルのデータ構造の一例を示す図である。図8に示すように、システムレベル管理テーブル243は、システム識別番号と、システムレベルとを対応付ける。システム識別番号は、顧客システム10を一意に識別する番号である。 The system level management table 243 holds system level information of the customer system 10. FIG. 8 is a diagram showing an example of the data structure of the system level management table. As shown in FIG. 8, the system level management table 243 associates system identification numbers with system levels. The system identification number is a number that uniquely identifies the customer system 10.

システムレベルは、顧客システムの障害が社会に与える重要性を示すレベルである。システムレベルが大きいほど、顧客システムの障害が社会に与える重要度が大きい。たとえば、顧客システム10のシステムレベルは、(1)、(2)、(3)の何れかとなる。システムレベル(1)の顧客システムは、「社会的影響が殆どないシステム」である。システムレベル(2)の顧客システムは、「社会的影響が限定されるシステム」である。システムレベル(3)の顧客システムは、「社会的影響が極めて大きいシステム」である。 The system level is a level that indicates the importance that failures in customer systems have on society. The larger the system level, the greater the importance that a customer system failure has on society. For example, the system level of the customer system 10 is one of (1), (2), and (3). The customer system at the system level (1) is a "system that has almost no social impact." The customer system at the system level (2) is a "system with limited social influence." The customer system at the system level (3) is a "system that has an extremely large social impact."

たとえば、システム識別番号「sys1」によって識別される顧客システム10aのシステムレベルは「システムレベル(1)」である。このため、顧客システム10aは、障害が発生した場合でも、「社会的影響が殆どないシステム」である。 For example, the system level of the customer system 10a identified by the system identification number "sys1" is "system level (1)." Therefore, even if a failure occurs, the customer system 10a is a system that has almost no social impact.

図6の説明に戻る。制御部250は、受信部251、登録部252、アクセス受付部253を有する。制御部250は、たとえば、CPUやMPU等である。 Returning to the explanation of FIG. 6. The control unit 250 includes a receiving unit 251, a registration unit 252, and an access accepting unit 253. The control unit 250 is, for example, a CPU, an MPU, or the like.

受信部251は、監視サーバ100からインシデント発行要求を受信した場合に、インシデント発行要求に設定された障害情報を、登録部252に出力する。 When receiving an incident issuance request from the monitoring server 100, the receiving unit 251 outputs the failure information set in the incident issuance request to the registration unit 252.

登録部252は、障害情報を基にして、インシデントに関する情報を障害DB241に登録する。たとえば、登録部252は、障害情報を取得した場合に、ユニークなインシデント番号を生成する。登録部252は、障害情報に設定された障害コードと、ワークアラウンド管理テーブル242とを比較して、障害コードに対応するワークアラウンドを特定する。 The registration unit 252 registers information regarding the incident in the failure DB 241 based on the failure information. For example, the registration unit 252 generates a unique incident number when acquiring failure information. The registration unit 252 compares the failure code set in the failure information with the workaround management table 242 to identify the workaround corresponding to the failure code.

登録部252は、障害情報に設定されたシステム識別番号を基にして、インシデントを登録する障害テーブルを選択する。登録部252は、システム識別番号が「sys1」である場合には、障害テーブルta1を選択する。登録部252は、システム識別番号が「sys2」である場合には、障害テーブルta2を選択する。登録部252は、システム識別番号が「sys3」である場合には、障害テーブルta3を選択する。 The registration unit 252 selects a failure table in which to register an incident based on the system identification number set in the failure information. If the system identification number is "sys1", the registration unit 252 selects the failure table ta1. If the system identification number is "sys2", the registration unit 252 selects the failure table ta2. If the system identification number is "sys3", the registration unit 252 selects the failure table ta3.

登録部252は、選択した障害テーブルに、インシデント(インシデント番号、障害情報の障害コード、ワークアラウンド、対処フラグ<OFF>)を登録する。 The registration unit 252 registers the incident (incident number, failure code of failure information, workaround, and handling flag <OFF>) in the selected failure table.

アクセス受付部253は、自動化処理装置20から、障害DB241に対するアクセスを受け付ける。この際、アクセス受付部253は、自動化処理装置20から通知されるシステム識別番号に対応する障害テーブルへのアクセスを許容する。たとえば、自動化処理装置20aの取得部25aは、障害テーブルta1から、未対処のインシデントのワークアラウンドを取得する。 The access reception unit 253 receives access to the failure DB 241 from the automation processing device 20. At this time, the access reception unit 253 allows access to the failure table corresponding to the system identification number notified from the automated processing device 20. For example, the acquisition unit 25a of the automated processing device 20a acquires a workaround for an unhandled incident from the failure table ta1.

また、アクセス受付部253は、自動化処理装置20から、ワークアラウンドに対する処理結果を受信する。たとえば、処理結果には、インシデント番号と、ワークアラウンドに対応するジョブの実行に成功したか否かの情報が含まれる。 The access reception unit 253 also receives processing results for workarounds from the automation processing device 20. For example, the processing result includes an incident number and information as to whether or not the job corresponding to the workaround was successfully executed.

アクセス受付部253は、ジョブの実行に成功した旨の情報が処理結果に含まれる場合には、処理結果に含まれるインシデント番号に対応する対処フラグを「ON」に更新する。 If the processing result includes information indicating that the job was successfully executed, the access receiving unit 253 updates the response flag corresponding to the incident number included in the processing result to "ON".

一方、アクセス受付部253は、ジョブの実行に失敗した旨の情報が処理結果に含まれる場合には、エラー情報を、監視サーバ100に送信する。エラー情報には、システム識別番号、対処に失敗したワークアラウンドに対応するインシデント番号等が設定される。 On the other hand, if the processing result includes information indicating that job execution has failed, the access reception unit 253 transmits error information to the monitoring server 100. The error information includes a system identification number, an incident number corresponding to a failed workaround, and the like.

次に、図1に示した自動化処理装置20aの処理手順の一例について説明する。図9は、本実施例に係る自動化処理装置の処理手順を示すフローチャートである。図9に示すように、自動化処理装置20の取得部25aは、一定時間経過していない場合には(ステップS101,No)、再度、ステップS101に移行する。 Next, an example of the processing procedure of the automated processing device 20a shown in FIG. 1 will be described. FIG. 9 is a flowchart showing the processing procedure of the automated processing device according to this embodiment. As shown in FIG. 9, if the predetermined period of time has not elapsed (step S101, No), the acquisition unit 25a of the automated processing device 20 moves to step S101 again.

取得部25aは、一定時間経過した場合には(ステップS101,Yes)、ITSMサーバ200の障害DB241にアクセスし、未対処のインシデントが存在するか否かを判定する(ステップS102)。取得部25aは、未対処のインシデントが存在しない場合には(ステップS103,No)、ステップS108に移行する。 If a certain period of time has elapsed (Step S101, Yes), the acquisition unit 25a accesses the failure DB 241 of the ITSM server 200 and determines whether there is an unhandled incident (Step S102). If there is no unhandled incident (step S103, No), the acquisition unit 25a moves to step S108.

一方、取得部25aは、未対処のインシデントが存在する場合には(ステップS103,Yes)、ワークアラウンドを取得する(ステップS104)。自動化処理装置20aの実行部25bは、処理テーブル24aを基にして、ワークアラウンドに応じたジョブを選択する(ステップS105)。 On the other hand, if there is an unhandled incident (step S103, Yes), the acquisition unit 25a acquires a workaround (step S104). The execution unit 25b of the automated processing device 20a selects a job according to the workaround based on the processing table 24a (step S105).

実行部25bは、顧客システム10aに対してジョブを実行する(ステップS106)。実行部25bは、ジョブの処理結果をITSMサーバ200に送信する(ステップS107)。 The execution unit 25b executes the job on the customer system 10a (step S106). The execution unit 25b transmits the job processing result to the ITSM server 200 (step S107).

自動化処理装置20aは、処理を継続する場合には(ステップS108,Yes)、ステップS101に移行する。自動化処理装置20aは、処理を継続しない場合には(ステップS108,No)、処理を終了する。 If the automated processing device 20a continues the processing (step S108, Yes), the process moves to step S101. If the automated processing device 20a does not continue the processing (step S108, No), the automated processing device 20a ends the processing.

次に、図1に示した監視サーバ100およびITSMサーバ200の処理手順について説明する。図10は、監視サーバおよびITSMサーバの処理手順を示すフローチャートである。監視サーバ100は、障害情報を検知しない場合には(ステップS201,No)、再度、ステップS201に移行する。 Next, the processing procedures of the monitoring server 100 and the ITSM server 200 shown in FIG. 1 will be explained. FIG. 10 is a flowchart showing the processing procedure of the monitoring server and the ITSM server. If the monitoring server 100 does not detect failure information (step S201, No), the process moves to step S201 again.

一方、監視サーバ100は、障害情報を検知した場合には(ステップS201,Yes)、障害情報を設定したインシデント発行要求をITSMサーバ200に送信する(ステップS202)。 On the other hand, if the monitoring server 100 detects fault information (step S201, Yes), it transmits an incident issuance request in which the fault information is set to the ITSM server 200 (step S202).

ITSMサーバ200は、インシデント発行要求を受信する(ステップS203)。ITSMサーバ200は、インシデント番号を生成する(ステップS204)。 The ITSM server 200 receives the incident issue request (step S203). The ITSM server 200 generates an incident number (step S204).

ITSMサーバ200は、ワークアラウンド管理テーブル242を基にして、障害情報に対応するワークアラウンドを特定する(ステップS205)。ITSMサーバ200は、障害DB241にインシデントの情報を登録する(ステップS206)。 The ITSM server 200 identifies a workaround corresponding to the failure information based on the workaround management table 242 (step S205). The ITSM server 200 registers incident information in the failure DB 241 (step S206).

次に、本実施例に係る監視システムの効果について説明する。監視システムにおいて、監視サーバ100は、顧客システム10の障害情報を受信した場合に、インシデント発行要求を、ITSMサーバ200に行い、ITSMサーバ200は、障害情報に関する情報を、障害DB241に登録する。また、自動化処理装置20は、アウトバウンド通信によって、障害DB241にアクセスして、ワークアラウンドを取得し、ワークアラウンドに対応するジョブを、顧客システム10に対して実行する。このように、アウトバウンド通信によって、自動化処理装置20側から、ワークアラウンドを取得するため、インバウンド通信の場合と比較して、顧客システム10の障害対応をセキュアに実行することができる。 Next, the effects of the monitoring system according to this embodiment will be explained. In the monitoring system, when the monitoring server 100 receives fault information of the customer system 10, it issues an incident issuance request to the ITSM server 200, and the ITSM server 200 registers information regarding the fault information in the fault DB 241. Further, the automation processing device 20 accesses the failure DB 241 through outbound communication, obtains a workaround, and executes a job corresponding to the workaround on the customer system 10. In this way, since the workaround is obtained from the automation processing device 20 side through outbound communication, troubleshooting of the customer system 10 can be executed more securely than in the case of inbound communication.

自動化処理装置20は、ワークアラウンドに対応するジョブを、顧客システム10に対して実行し、実行結果を、ITSMサーバ200に通知する。これによって、ITSMサーバ200は、障害に対応したか否かの情報を保持することができる。 The automation processing device 20 executes a job corresponding to the workaround on the customer system 10 and notifies the ITSM server 200 of the execution result. This allows the ITSM server 200 to hold information on whether or not the failure has been addressed.

上述した監視システムの処理の内容は一例である。以下では、監視システムのその他の処理1~3について説明する。 The content of the processing of the monitoring system described above is an example. Below, other processes 1 to 3 of the monitoring system will be explained.

まず、監視システムのその他の処理1について説明する。上述した説明では、自動化処理装置20は、障害DB241に含まれる複数の障害テーブルのうち、決められた障害テーブルのインシデントから、未対処のインシデントのワークアラウンドを取得していた。すなわち、自動化処理装置20aは、障害テーブルta1からワークアラウンドを取得し、自動化処理装置20bは、障害テーブルta2からワークアラウンドを取得し、自動化処理装置20cは、障害テーブルta3からワークアラウンドを取得していたが、これに限定されるものではない。 First, other processing 1 of the monitoring system will be explained. In the above description, the automated processing device 20 acquires workarounds for unhandled incidents from incidents in a determined failure table among the plurality of failure tables included in the failure DB 241. That is, the automation processing device 20a acquires a workaround from the failure table ta1, the automation processing device 20b acquires a workaround from the failure table ta2, and the automation processing device 20c acquires a workaround from the failure table ta3. However, it is not limited to this.

自動化処理装置20は、自身がジョブの実行対象となる顧客システムと同一のシステムレベルとなる他の顧客システムに関する障害テーブルから、ワークアラウンドを取得し、ワークアラウンドに対応するジョブを実行してもよい。 The automation processing device 20 may obtain a workaround from a failure table related to another customer system that is at the same system level as the customer system that is the target of the job execution, and execute the job corresponding to the workaround. .

たとえば、顧客システム10aのシステムレベルと、顧客システム10bのシステムレベルと同一のシステムレベルとする。顧客システム10のシステムレベルは、ITSMサーバ200のシステムレベル管理テーブル243に登録される。 For example, the system level of the customer system 10a and the system level of the customer system 10b are assumed to be the same. The system level of the customer system 10 is registered in the system level management table 243 of the ITSM server 200.

自動化処理装置20aが、ITSMサーバ200の障害DB241にアクセスすると、ITSMサーバ200は、システムレベル管理テーブル243を基にして、顧客システム10aと同じシステムレベルとなる顧客システム10bを特定する。ITSMサーバ200は、顧客システム10aのシステム識別番号に対応する障害テーブルta1と、顧客システム10bのシステム識別番号に対応する障害テーブルta2とのアクセスを許容し、自動化処理装置20aは、障害テーブルta1、障害テーブルta2に含まれるインシデントのうち、未対処のインシデントのワークアラウンドを取得し、取得したワークアラウンドに応じたジョブを、顧客システム10aに実行する。 When the automation processing device 20a accesses the failure DB 241 of the ITSM server 200, the ITSM server 200 identifies the customer system 10b having the same system level as the customer system 10a based on the system level management table 243. The ITSM server 200 allows access to the fault table ta1 corresponding to the system identification number of the customer system 10a and the fault table ta2 corresponding to the system identification number of the customer system 10b, and the automated processing device 20a allows access to the fault table ta1, which corresponds to the system identification number of the customer system 10b. Workarounds for unhandled incidents among the incidents included in the failure table ta2 are acquired, and a job corresponding to the acquired workarounds is executed in the customer system 10a.

顧客システム10aと、顧客システム10bとのシステムレベルが同じ場合に、顧客システム10aに障害が発生していなくても、顧客システム10bに発生した障害の対応を、顧客システム10aに対して行うことが有効な場合もあり得る。このため、上記の処理を実行することで、顧客システム10の障害対応を効率的に実行することができる。ここでは、システムレベルが同じ場合について説明したが、システムレベルが同じであるという条件に加えて、システムレベルが所定のシステムレベル以上の場合(たとえば、システムレベル(3)以上の場合)に、上記の処理を実行してもよい。 When the system level of the customer system 10a and the customer system 10b is the same, even if a failure has not occurred in the customer system 10a, it is possible to respond to a failure that has occurred in the customer system 10b on the customer system 10a. It may be valid in some cases. Therefore, by executing the above process, it is possible to efficiently deal with failures in the customer system 10. Here, we have explained the case where the system levels are the same, but in addition to the condition that the system levels are the same, if the system level is higher than a predetermined system level (for example, when system level (3) or higher), the above You may also perform the following processing.

続いて、監視システムのその他の処理2について説明する。自動化処理装置20は、ワークアラウンドに対応するジョブを、顧客システム10に対して実行し、実行結果を、ITSMサーバ200に通知している。ここで、ITSMサーバ200は、ワークアラウンドに対応するジョブの実行に失敗した場合には、エラー情報を、監視サーバ100に送信する。監視サーバ100のオペレータは、エラー情報を確認した場合には、監視サーバ100から、対応する顧客システムに対して、手動で、所定のジョブを実行するようにしてもよい。 Next, other processing 2 of the monitoring system will be explained. The automation processing device 20 executes a job corresponding to the workaround on the customer system 10 and notifies the ITSM server 200 of the execution result. Here, when the ITSM server 200 fails to execute a job corresponding to the workaround, it transmits error information to the monitoring server 100. When the operator of the monitoring server 100 confirms the error information, the operator of the monitoring server 100 may manually execute a predetermined job from the monitoring server 100 to the corresponding customer system.

続いて、監視システムのその他の処理3について説明する。ITSMサーバ200は、監視サーバ100から、インシデント発行要求を受付けると、インシデント番号を発行し、障害情報に関する情報を、障害DB241に登録していたが、障害情報に対応するワークアラウンドが所定レベル以上の難度のワークアラウンドである場合には、係るワークアラウンドの情報を、監視サーバ100に通知してもよい。 Next, other processing 3 of the monitoring system will be explained. When the ITSM server 200 receives an incident issue request from the monitoring server 100, it issues an incident number and registers information related to the fault information in the fault DB 241, but if the workaround corresponding to the fault information is at a predetermined level or higher. In the case of a difficult workaround, information on the workaround may be notified to the monitoring server 100.

次に、上記実施例に示した監視サーバ100、ITSMサーバ200と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図11は、実施例の監視サーバと同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 Next, an example of the hardware configuration of a computer that implements the same functions as the monitoring server 100 and the ITSM server 200 shown in the above embodiment will be described. FIG. 11 is a diagram illustrating an example of the hardware configuration of a computer that implements the same functions as the monitoring server of the embodiment.

図11に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、有線または無線ネットワークを介して、顧客システム10、自動化処理装置20、ITSMサーバ200等との間でデータの授受を行う通信装置304と、インタフェース装置305とを有する。また、コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。 As shown in FIG. 11, the computer 300 includes a CPU 301 that executes various calculation processes, an input device 302 that receives data input from a user, and a display 303. The computer 300 also includes a communication device 304 and an interface device 305 that exchange data with the customer system 10, the automated processing device 20, the ITSM server 200, etc. via a wired or wireless network. The computer 300 also includes a RAM 306 that temporarily stores various information and a hard disk device 307. Each device 301 to 307 is then connected to a bus 308.

ハードディスク装置307は、異常検知プログラム307a、依頼プログラム307b、表示制御プログラム307cを有する。また、CPU301は、各プログラム307a~307cを読み出してRAM306に展開する。 The hard disk device 307 has an abnormality detection program 307a, a request program 307b, and a display control program 307c. Further, the CPU 301 reads each program 307a to 307c and expands it into the RAM 306.

異常検知プログラム307aは、異常検知プロセス306aとして機能する。依頼プログラム307bは、依頼プロセス306bとして機能する。表示制御プログラム307cは、表示制御プロセス306cとして機能する。 The anomaly detection program 307a functions as an anomaly detection process 306a. The request program 307b functions as a request process 306b. The display control program 307c functions as a display control process 306c.

異常検知プロセス306aの処理は、異常検知部151の処理に対応する。依頼プロセス306bの処理は、依頼部152の処理に対応する。表示制御プロセス306cの処理は、表示制御部153の処理に対応する。 The processing of the abnormality detection process 306a corresponds to the processing of the abnormality detection unit 151. The processing of the request process 306b corresponds to the processing of the requesting unit 152. The processing of the display control process 306c corresponds to the processing of the display control unit 153.

なお、各プログラム307a~307cについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a~307cを読み出して実行するようにしてもよい。 Note that each of the programs 307a to 307c does not necessarily have to be stored in the hard disk drive 307 from the beginning. For example, each program is stored in a "portable physical medium" such as a flexible disk (FD), CD-ROM, DVD, magneto-optical disk, or IC card that is inserted into the computer 300. Then, the computer 300 may read and execute each program 307a to 307c.

続いて、図12の説明に移行する。図12は、実施例のITSMサーバと同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 Next, the explanation will move on to FIG. 12. FIG. 12 is a diagram illustrating an example of the hardware configuration of a computer that implements the same functions as the ITSM server of the embodiment.

図12に示すように、コンピュータ400は、各種演算処理を実行するCPU401と、ユーザからのデータの入力を受け付ける入力装置402と、ディスプレイ403とを有する。また、コンピュータ400は、有線または無線ネットワークを介して、顧客システム10、自動化処理装置20、監視サーバ100等との間でデータの授受を行う通信装置404と、インタフェース装置405とを有する。また、コンピュータ400は、各種情報を一時記憶するRAM406と、ハードディスク装置407とを有する。そして、各装置401~407は、バス408に接続される。 As shown in FIG. 12, the computer 400 includes a CPU 401 that executes various calculation processes, an input device 402 that receives data input from a user, and a display 403. Further, the computer 400 includes a communication device 404 and an interface device 405 that exchange data with the customer system 10, the automated processing device 20, the monitoring server 100, etc. via a wired or wireless network. The computer 400 also includes a RAM 406 that temporarily stores various information and a hard disk device 407. Each device 401 to 407 is then connected to a bus 408.

ハードディスク装置407は、受信プログラム407a、登録プログラム407b、アクセス受付プログラム407cを有する。また、CPU401は、各プログラム407a~407cを読み出してRAM406に展開する。 The hard disk device 407 has a reception program 407a, a registration program 407b, and an access reception program 407c. Further, the CPU 401 reads each program 407a to 407c and expands it into the RAM 406.

受信プログラム407aは、受信プロセス406aとして機能する。登録プログラム407bは、登録プロセス406bとして機能する。アクセス受付プログラム407cは、アクセス受付プロセス406cとして機能する。 The receiving program 407a functions as a receiving process 406a. Registration program 407b functions as registration process 406b. The access reception program 407c functions as an access reception process 406c.

受信プロセス406aの処理は、受信部251の処理に対応する。登録プロセス406bの処理は、登録部252の処理に対応する。アクセス受付プロセス406cの処理は、アクセス受付部253の処理に対応する。 The processing of the receiving process 406a corresponds to the processing of the receiving section 251. The processing of the registration process 406b corresponds to the processing of the registration unit 252. The processing of the access reception process 406c corresponds to the processing of the access reception unit 253.

なお、各プログラム407a~407cについては、必ずしも最初からハードディスク装置407に記憶させておかなくても良い。例えば、コンピュータ400に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ400が各プログラム407a~407cを読み出して実行するようにしてもよい。 Note that each of the programs 407a to 407c does not necessarily need to be stored in the hard disk drive 407 from the beginning. For example, each program is stored in a "portable physical medium" such as a flexible disk (FD), CD-ROM, DVD, magneto-optical disk, or IC card that is inserted into the computer 400. Then, the computer 400 may read and execute each program 407a to 407c.

10a,10b,10c 顧客システム
20a,20b,20c 自動化処理装置
30a,30b,30c Firewall
50 ネットワーク
100 監視サーバ
200 ITSMサーバ
10a, 10b, 10c Customer system 20a, 20b, 20c Automated processing device 30a, 30b, 30c Firewall
50 Network 100 Monitoring Server 200 ITSM Server

Claims (5)

システムと、前記システムを監視する監視サーバとを有する監視システムの監視方法であって、
前記監視サーバは、前記システムに障害が発生したことを検知した場合、前記障害の対応情報を、記憶部に登録し、
前記システムのツールは、前記記憶部に登録された前記対応情報を取得し、前記対応情報に応じた処理を前記システムに対して実行する
ことを特徴とする監視方法。
A method for monitoring a monitoring system including a system and a monitoring server that monitors the system, the method comprising:
When the monitoring server detects that a failure has occurred in the system, the monitoring server registers response information for the failure in a storage unit,
A monitoring method characterized in that a tool of the system acquires the correspondence information registered in the storage unit and executes processing on the system according to the correspondence information.
前記システムのツールは、前記対応情報に応じた処理の結果を、前記監視サーバに通知する処理を更に実行することを特徴とする請求項1に記載の監視方法。 2. The monitoring method according to claim 1, wherein the tool of the system further executes a process of notifying the monitoring server of the result of the process according to the correspondence information. 前記監視システムは、複数のシステムを有し、
前記監視サーバは、前記複数のシステムを監視し、前記複数のシステムのうち、いずれかのシステムに障害が発生したことを検知した場合、前記障害の対応情報を、記憶部に登録することを特徴とする請求項1に記載の監視方法。
The monitoring system has a plurality of systems,
The monitoring server monitors the plurality of systems, and when detecting that a failure has occurred in any one of the plurality of systems, registers correspondence information for the failure in a storage unit. The monitoring method according to claim 1, wherein:
前記複数のシステムのうち、第1のシステムのツールは、前記記憶部に登録された前記対応情報を取得し、取得した前記対応情報が、第2のシステムのツールの障害の対応情報であり、かつ、前記第2のシステムのレベル(社会的な重要性に応じたレベル)が、前記第1のシステムのレベルと同じである場合、第2のシステムのツールの障害の対応情報に応じた処理を前記第1のシステムに対して実行することを特徴とする請求項3に記載の監視方法。 Among the plurality of systems, the tool of the first system acquires the correspondence information registered in the storage unit, and the acquired correspondence information is failure correspondence information of the tool of the second system, And, if the level of the second system (level according to social importance) is the same as the level of the first system, processing according to the failure response information of the tool of the second system. 4. The monitoring method according to claim 3, further comprising performing the following on the first system. システムと、前記システムを監視する監視サーバとを有する監視システムであって、
前記監視サーバは、前記システムに障害が発生したことを検知した場合、前記障害の対応情報を、記憶部に登録し、
前記システムのツールは、前記記憶部に登録された前記対応情報を取得し、前記対応情報に応じた処理を前記システムに対して実行する
ことを特徴とする監視システム。
A monitoring system comprising a system and a monitoring server that monitors the system,
When the monitoring server detects that a failure has occurred in the system, the monitoring server registers response information for the failure in a storage unit,
A monitoring system characterized in that a tool of the system acquires the correspondence information registered in the storage unit and executes processing on the system according to the correspondence information.
JP2022130943A 2022-08-19 2022-08-19 Monitoring method and system Pending JP2024027816A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022130943A JP2024027816A (en) 2022-08-19 2022-08-19 Monitoring method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022130943A JP2024027816A (en) 2022-08-19 2022-08-19 Monitoring method and system

Publications (1)

Publication Number Publication Date
JP2024027816A true JP2024027816A (en) 2024-03-01

Family

ID=90039924

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022130943A Pending JP2024027816A (en) 2022-08-19 2022-08-19 Monitoring method and system

Country Status (1)

Country Link
JP (1) JP2024027816A (en)

Similar Documents

Publication Publication Date Title
US9021317B2 (en) Reporting and processing computer operation failure alerts
US6418469B1 (en) Managing conditions in a network
US7840846B2 (en) Point of sale system boot failure detection
JP5083051B2 (en) Monitoring system, monitoring device, monitored device, and monitoring method
WO2015037603A1 (en) Remote monitoring system, remote monitoring method, and program
US20120271645A1 (en) Automated replacement part ordering based on service thresholds
US20170132102A1 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
CN105849702A (en) Cluster system, server device, cluster system management method, and computer-readable recording medium
JP2003233512A (en) Client monitoring system with maintenance function, monitoring server, program, and client monitoring/ maintaining method
JP2010231293A (en) Monitoring device
CN113608908A (en) Server fault processing method, system, equipment and readable storage medium
JP4905165B2 (en) Monitoring support program, monitoring method and monitoring system
JP2024027816A (en) Monitoring method and system
EP2495660A1 (en) Information processing device and method for controlling information processing device
CN115102838B (en) Emergency processing method and device for server downtime risk and electronic equipment
US20200305300A1 (en) Method for remotely clearing abnormal status of racks applied in data center
CN110521233B (en) Method for identifying interrupt, access point, method for remote configuration, system and medium
JP6317074B2 (en) Failure notification device, failure notification program, and failure notification method
KR101783201B1 (en) System and method for managing servers totally
JP2007264907A (en) Fault notification system, fault notification method, and fault notification program
US8359220B2 (en) Technical support routing among members of a technical support group
JP2012146049A (en) Batch job delay alarm automatic raising system, automatic alarm raising method and program therefor
JP4918669B2 (en) Remote maintenance system and method and program
JP2019191671A (en) Exercise display program for cyber-attack
JP2012118800A (en) Operation management failure correspondence system and operation management failure correspondence method