JP2017045079A - Cloud management method and cloud management system - Google Patents

Cloud management method and cloud management system Download PDF

Info

Publication number
JP2017045079A
JP2017045079A JP2015164372A JP2015164372A JP2017045079A JP 2017045079 A JP2017045079 A JP 2017045079A JP 2015164372 A JP2015164372 A JP 2015164372A JP 2015164372 A JP2015164372 A JP 2015164372A JP 2017045079 A JP2017045079 A JP 2017045079A
Authority
JP
Japan
Prior art keywords
incident
information
priority
cloud
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015164372A
Other languages
Japanese (ja)
Other versions
JP6482984B2 (en
Inventor
太郎 北村
Taro Kitamura
太郎 北村
真法 堂宮
Masanori Tamiya
真法 堂宮
卓也 島川
Takuya Shimakawa
卓也 島川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2015164372A priority Critical patent/JP6482984B2/en
Publication of JP2017045079A publication Critical patent/JP2017045079A/en
Application granted granted Critical
Publication of JP6482984B2 publication Critical patent/JP6482984B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a technique capable of informing an occurrence of an incident in a business system including a point in a cloud system at which the incident has occurred to a management person of cloud systems based on the importance of the incident changing over time.SOLUTION: A cloud management system 10 operates a plurality of cloud systems to manage incidents on business servers of a plurality of tenants 13. An information integration server 11 includes: an incident reception section that receives and merges incident information from the business servers; a priority determination section that calculates the priority of the incidents in the plurality of cloud systems based on the type and time of occurrence of the merged incident information; and an output section that outputs a piece of incident information according to the calculated priority.SELECTED DRAWING: Figure 1

Description

本発明は、クラウドの管理システムに関する。 The present invention relates to a cloud management system.

下記特許文献1では対象システムの障害を含むインシデントをインシデント情報として第1のデータベースに管理し、前記対象システムの構成を構成情報として第2のデータベースに管理する構成管理システムと連携し、担当者の端末に対して情報の画面を提供するサービスポータルシステムと連携し、前記対象システムの障害を含むインシデントを監視する障害監視システムと連携することが開示されている。   In the following Patent Document 1, an incident including a failure of a target system is managed as incident information in a first database, and the configuration of the target system is managed as a configuration information in a second database. It is disclosed that it cooperates with a service portal system that provides an information screen to a terminal and cooperates with a failure monitoring system that monitors incidents including failures of the target system.

クラウド管理システムは、対象システムの構成、障害影響範囲及び障害影響先サービスを含むインシデント状況を可視化する画面を、前記構成情報及び前記インシデント情報を用いて作成し、担当者の端末に提供する第1の機能と、前記対象システムにおける障害許容性を考慮して設計される構成部位を含む構成を、構成管理モデルとして前記構成情報に設定する第2の機能を有する。   The cloud management system uses the configuration information and the incident information to create a screen for visualizing the incident status including the configuration of the target system, the failure influence range, and the failure influence destination service, and provides the screen to the person in charge. And a second function for setting, in the configuration information, a configuration including a configuration part designed in consideration of fault tolerance in the target system as a configuration management model.

そして、構成管理モデルでは、障害許容性を考慮して設計される構成部位を含む各構成部位を第1の構成アイテムとして設定し、前記第1の構成アイテムについての障害許容性を第2の構成アイテムとして設定し、第1、第2の構成アイテムを含む構成アイテム間の依存関係性をリンクとして設定する。第1の機能による画面では、構成アイテムをリンクで接続した構造で、対象システムの構成管理モデル、障害影響範囲及び障害影響先サービスを含むインシデント発生状況を表示することが開示されている。   In the configuration management model, each component part including a component part designed in consideration of fault tolerance is set as the first configuration item, and the fault tolerance for the first configuration item is set to the second configuration item. It is set as an item, and the dependency between configuration items including the first and second configuration items is set as a link. On the screen by the first function, it is disclosed that an incident occurrence status including a configuration management model, a failure influence range, and a failure influence destination service of a target system is displayed in a structure in which configuration items are connected by links.

特開2012-38028JP2012-38028

特許文献1では、クラウド環境や障害許容性などを考慮した構成の対象システムにおける障害影響範囲などの状況を可視化する技術が開示されているが、複数のクラウドシステムで構成されるハイブリッドクラウド環境で業務システムを構成したときに、どのクラウドシステムでインシデントが発生したのかをシステムの管理者に知らせることについては考慮されていない。
また、時間とともに変化するインシデントの重要性に基づいて、管理者が優先的に対応しなければならないインシデントを知らせることについても考慮されておらず、業務システムを構成する仮想計算機上で稼働する業務サーバが他のクラウドシステムへ移動したときに、どのクラウドシステムからのインシデント報告なのか、どの程度の影響があるのかとういうことを移動した先のクラウドシステムが提供するインシデント報告の仕組みを用いて管理者へ報告することについても考慮されていない。
Patent Document 1 discloses a technology that visualizes the situation such as the failure impact range in a target system configured with consideration of the cloud environment and fault tolerance, but works in a hybrid cloud environment composed of multiple cloud systems. It is not considered to inform the system administrator of which cloud system the incident occurred when the system was configured.
Also, there is no consideration given to the incident that the administrator must deal with preferentially based on the importance of incidents that change over time, and the business server that runs on the virtual machines that make up the business system When an incident moves to another cloud system, the administrator uses the incident reporting mechanism provided by the moved cloud system to determine which cloud system the incident report has and how much impact it has. It is not considered to report to

上記課題は複数のクラウドシステムで稼働する仮想計算機上で動作する複数テナントの業務サーバのインシデントを管理するクラウド管理システムで、業務サーバからのインシデント情報を受信しマージするインシデント受信部と、マージされたインシデント情報の種別と発生時刻に基づいてインシデントの前記複数のクラウドシステム内での優先度を求める優先度判定部と、求められた優先度に従ってインシデント情報を出力する出力部を備えるシステムによって解決される。   The above problem is a cloud management system that manages incidents of business servers of multiple tenants running on virtual machines running on multiple cloud systems, and has been merged with an incident receiver that receives and merges incident information from business servers Solved by a system including a priority determination unit that determines the priority of an incident in the plurality of cloud systems based on the type and occurrence time of incident information, and an output unit that outputs incident information according to the determined priority .

上記システムで解決されない個々の課題については実施例に記載された構成要素を追加することにより解決されるであろう。   Individual problems that cannot be solved by the above system will be solved by adding the components described in the embodiments.

本発明によれば、クラウドを用いて実現される業務システムのインシデントに対処する管理者の負荷を軽減できる。   ADVANTAGE OF THE INVENTION According to this invention, the burden of the administrator who copes with the incident of the business system implement | achieved using cloud can be reduced.

本実施例におけるクラウドシステムの構成を示すブロック図の例である。It is an example of the block diagram which shows the structure of the cloud system in a present Example. 本実施例におけるクラウド管理システムの情報集約サーバのブロック図の例である。It is an example of the block diagram of the information aggregation server of the cloud management system in a present Example. 本実施例におけるクラウド管理システムのナビゲーションサーバのブロック図の例である。It is an example of the block diagram of the navigation server of the cloud management system in a present Example. 本実施例におけるテナントのブロック図の例である。It is an example of the block diagram of a tenant in a present Example. 本実施例におけるデータセンタのブロック図の例である。It is an example of the block diagram of the data center in a present Example. 本実施例における物理計算機で稼働する監視サーバのブロック図の例である。It is an example of the block diagram of the monitoring server which operate | moves with the physical computer in a present Example. 本実施例におけるインシデント情報テーブルの例である。It is an example of the incident information table in a present Example. 本実施例における稼働データ情報テーブルの例である。It is an example of the operation data information table in a present Example. 本実施例におけるシステム情報テーブルの例である。It is an example of the system information table in a present Example. 本実施例におけるインシデント対応テーブルの例である。It is an example of the incident response table in a present Example. 本実施例における優先度付きインシデント情報のテーブルの例である。It is an example of the table of incident information with priority in a present Example. 本実施例における稼働データ情報テーブルの例である。It is an example of the operation data information table in a present Example. 本実施例における重要稼働データテーブルの例である。It is an example of the important operation data table in a present Example. 本実施例におけるインシデント情報表示テーブルの例である。It is an example of the incident information display table in a present Example. 本実施例におけるシステム基盤情報テーブルの例である。It is an example of the system infrastructure information table in a present Example. 本実施例におけるインシデント対応履歴テーブルの例である。It is an example of the incident response history table in a present Example. 本実施例におけるエスカレーション情報のテーブルの例である。It is an example of the table of the escalation information in a present Example. 本実施例におけるインシデント一覧画面の例である。It is an example of the incident list screen in a present Example. 本実施例におけるインシデント詳細表示画面の例である。It is an example of the incident detail display screen in a present Example. 本実施例における監視サーバの稼働データ監視フローチャートの例である。It is an example of the operation data monitoring flowchart of the monitoring server in a present Example. 本実施例における監視サーバの業務ログ監視フローチャートの例である。It is an example of the business log monitoring flowchart of the monitoring server in a present Example. 本実施例における情報集約サーバの優先度定義フローチャート1の例である。It is an example of the priority definition flowchart 1 of the information aggregation server in a present Example. 本実施例における情報集約サーバの優先度定義フローチャート2の例である。It is an example of the priority definition flowchart 2 of the information aggregation server in a present Example. 本実施例におけるナビゲーションサーバのインシデント取得・登録フローチャートの例である。It is an example of the incident acquisition and registration flowchart of the navigation server in a present Example. 本実施例におけるナビゲーションサーバのインシデント一覧表示フローチャートの例である。It is an example of the incident list display flowchart of the navigation server in a present Example. 本実施例における他クラウドシステムへの業務サーバ移行時のフローチャートの例である。It is an example of the flowchart at the time of the business server transfer to the other cloud system in a present Example.

図1は、本実施例クラウド管理システム10と管理対象のテナントのシステムの全体構成図である。本実施例ではクラウド管理システム10がネットワーク機器を介してインターネット経由でデータセンタ1からデータセンタNへ接続されている。顧客のテナント13である業務システムは複数のデータセンタを用いて実現されたものもあり、各々のデータセンタは異なる事業者が提供するデータセンタである場合も考えられる。   FIG. 1 is an overall configuration diagram of a cloud management system 10 according to the present embodiment and a tenant system to be managed. In this embodiment, the cloud management system 10 is connected from the data center 1 to the data center N via the Internet via a network device. The business system that is the customer tenant 13 may be realized by using a plurality of data centers, and each data center may be a data center provided by a different operator.

図2は、情報集約サーバ11のブロック図である。情報集約サーバ11は、受信部101とネットワークインタフェース部102を有し、テナントの業務サーバから送信されてくるインシデントや稼働データをネットワークインタフェース部102を介して、受信部101で受信する。主記憶領域18に格納されCPU15で実行される優先度判定部111は、受信したインシデントをシステム情報テーブル121、インシデント対応テーブル122、稼働データ情報テーブル123、重要稼働データテーブル124の情報に基づいて優先度を判定し、確定した優先度情報をインシデントに付加する。インシデント登録部112は、優先度を付加されたインシデントを優先度付きインシデント情報テーブル125に登録する。   FIG. 2 is a block diagram of the information aggregation server 11. The information aggregation server 11 includes a receiving unit 101 and a network interface unit 102, and the receiving unit 101 receives incidents and operation data transmitted from a tenant business server via the network interface unit 102. The priority determination unit 111 stored in the main storage area 18 and executed by the CPU 15 prioritizes the received incident based on the information in the system information table 121, the incident response table 122, the operation data information table 123, and the important operation data table 124. Determining the degree and adding the determined priority information to the incident. The incident registration unit 112 registers the incident with the added priority in the incident information table with priority 125.

図3は、ナビゲーションサーバ12のブロック図である。ナビゲーションサーバ12は、表示部201とネットワークインタフェース部202を有する。この例では表示部201がナビゲーションサーバ12に含まれているが、インターネットに接続されたブラウザ経由で表示するようにしても良い。ナビゲーションサーバは、情報集約サーバ11が保持する優先度付きインシデント情報テーブル125の情報をネットワークインタフェース部202を介して取得するためのインシデント取得部211を有している。優先度付きインシデント登録部212は、システム基盤情報テーブル221から、取得したインシデントに関連するシステム基盤情報を抽出し、インシデントにシステム基盤情報、インシデントIDを付加して、インシデント情報表示テーブル222に登録する。インシデント対応履歴登録部213は、新規インシデントが発生し、インシデント情報表示テーブル222へ登録する際や、運用者がインシデントの対応情報を入力した際にインシデント対応履歴テーブル223に入力された対応情報を登録する。インシデント一覧表示部214は、インシデント情報表示テーブル222からインシデント情報を読み出し、インシデント対応履歴テーブル223からインシデントに関連する対応情報を抽出し、インシデントに情報を付加する。インシデント一覧表示部214は、インシデント情報を優先度順に表示部201を介して画面に表示する。システム基盤情報登録部215は、業務サーバが他のクラウドシステムに移動した際に、業務サーバから送られてきた移動先のシステム基盤情報を受け取り、システム基盤情報テーブル221の該当するレコードの情報を書き換える。メール送信部216は、インシデント発生時や、業務サーバが他のクラウドシステムに移動した際に、エスカレーション情報テーブル224から通知先を読み出し、ネットワークインタフェース部202を介してメールを送信する。インシデント取得部211、優先度付きインシデント登録部212、インシデント対応履歴登録部213等の各処理部は主記憶領域19に格納され、CPU16で実行される。
図4は、テナント13のブロック図である。テナント13は、データセンタ21を複数有し、データセンタ内には業務システム22が複数存在する。データセンタ21は、インターネット網と接続する回線を有し、業務システム22はその回線を介してインターネットに接続する。
FIG. 3 is a block diagram of the navigation server 12. The navigation server 12 includes a display unit 201 and a network interface unit 202. In this example, the display unit 201 is included in the navigation server 12, but it may be displayed via a browser connected to the Internet. The navigation server has an incident acquisition unit 211 for acquiring information of the priority-added incident information table 125 held by the information aggregation server 11 via the network interface unit 202. The priority-added incident registration unit 212 extracts system infrastructure information related to the acquired incident from the system infrastructure information table 221, adds the system infrastructure information and the incident ID to the incident, and registers them in the incident information display table 222. . The incident response history registration unit 213 registers the response information input to the incident response history table 223 when a new incident occurs and is registered in the incident information display table 222 or when the operator inputs incident response information. To do. The incident list display unit 214 reads the incident information from the incident information display table 222, extracts correspondence information related to the incident from the incident response history table 223, and adds information to the incident. The incident list display unit 214 displays incident information on the screen via the display unit 201 in order of priority. When the business server moves to another cloud system, the system infrastructure information registration unit 215 receives the destination system infrastructure information sent from the business server and rewrites the information of the corresponding record in the system infrastructure information table 221. . The mail transmission unit 216 reads a notification destination from the escalation information table 224 when an incident occurs or when the business server moves to another cloud system, and transmits a mail via the network interface unit 202. Each processing unit such as the incident acquisition unit 211, the incident registration unit 212 with priority, the incident response history registration unit 213, and the like is stored in the main storage area 19 and executed by the CPU 16.
FIG. 4 is a block diagram of the tenant 13. The tenant 13 has a plurality of data centers 21, and a plurality of business systems 22 exist in the data center. The data center 21 has a line connected to the Internet network, and the business system 22 connects to the Internet via the line.

図5は、データセンタ21のブロック図である。業務システム22の物理計算機32上には仮想化ソフト33が搭載されており、仮想化ソフト33上ではVM(Virtual Machine)31が複数稼働する。仮想化されていない物理計算機32はOS34が動作しているものもある。   FIG. 5 is a block diagram of the data center 21. Virtualization software 33 is installed on the physical computer 32 of the business system 22, and a plurality of VMs (Virtual Machines) 31 operate on the virtualization software 33. Some non-virtualized physical computers 32 run an OS 34.

図6は、物理計算機上で稼働する監視サーバ350のブロック図である。監視サーバ350は業務サーバを実行するVMと同じVMで実行されても良いし、業務サーバを実行するVMと独立したVMで実行されても良い。VM31には監視サーバ350がインストールされており、OSイベントログ321や業務ログ322を監視するログ監視部301、業務サーバの稼働データ323を監視する稼働データ監視部を有している。   FIG. 6 is a block diagram of the monitoring server 350 operating on the physical computer. The monitoring server 350 may be executed by the same VM as the VM that executes the business server, or may be executed by a VM independent of the VM that executes the business server. A monitoring server 350 is installed in the VM 31, and includes a log monitoring unit 301 that monitors the OS event log 321 and the business log 322, and an operation data monitoring unit that monitors the operation data 323 of the business server.

監視サーバ350は物理計算機単位にインストールされても良いし、業務システム単位、テナント単位にインストールされても良い。インシデントの発生量や業務システムの規模を基にインストールすることにより効率的な監視が可能となる。
ログ監視部301は、ログ監視テーブル311から監視対象のログ情報を読み出し、特定の文字列がログに出力されると、インシデント生成部313を呼び出し、インシデントを生成する。生成されたインシデントは、送信部303にて情報集約サーバ11に送信される。稼働データ監視部302は、稼働データ監視テーブル312から監視対象の稼働データ情報を読み出し、監視対象の稼働データ情報を取得する。取得された稼働データ情報は送信部303にて情報集約サーバ11に送信される。また、取得した際に稼働データが閾値を超えていた場合は、インシデント生成部313を呼び出し、インシデントを生成し、送信部303にて情報集約サーバ11にインシデントを送信する。ログ監視部301、稼働データ監視部302、送信部303等の処理部を含む監視サーバ350は主記憶領域360に格納されCPU17で実行される。
The monitoring server 350 may be installed in units of physical computers, or may be installed in units of business systems or tenants. Efficient monitoring is possible by installing based on the amount of incidents and the size of the business system.
The log monitoring unit 301 reads the log information to be monitored from the log monitoring table 311 and, when a specific character string is output to the log, calls the incident generation unit 313 to generate an incident. The generated incident is transmitted to the information aggregation server 11 by the transmission unit 303. The operating data monitoring unit 302 reads the monitoring target operating data information from the operating data monitoring table 312 and acquires the monitoring target operating data information. The acquired operation data information is transmitted to the information aggregation server 11 by the transmission unit 303. If the operation data exceeds the threshold value at the time of acquisition, the incident generation unit 313 is called to generate an incident, and the transmission unit 303 transmits the incident to the information aggregation server 11. A monitoring server 350 including processing units such as a log monitoring unit 301, an operation data monitoring unit 302, and a transmission unit 303 is stored in the main storage area 360 and executed by the CPU 17.

図7は、業務サーバ31が情報集約サーバ11に送信するインシデント情報400のテーブルと稼働データ情報410のテーブルを示す。図面ではスペースの問題で上下に分かれて記載されているが、本実施例では一つのテーブルとして実現された例で説明する。以下のテーブルの図面についても同様の表記である。インシデント情報400は、テナントID401、インシデントグループ名402、インスタンスID403、重大度404、インシデント発生日時405、インシデント種別406、メッセージ407から構成される。テナントID401は、インシデントが発生した業務サーバが属するテナントのIDであり、各テナントを識別する。インシデントグループ名402は、インシデントが発生した業務サーバが属する業務システム22の名称であり、同一テナント内の業務システム22を識別する。インスタンスID403は、インシデントが発生した業務サーバの名称であり、同一業務システム22内の業務サーバを識別する。重大度404は、発生したインシデントの重大度を示し、「Error」、「Warning」の2種類のいずれかが入力される。インシデント種別406は、インシデントの種類を示し、運用者によって自由に定義可能である。メッセージ407は、インシデントの内容を示す。稼働データ情報410は、テナントID411、インシデントグループ名412、インスタンスID413、取得日時414、稼働データ415から構成される。取得日時は稼働データ415を取得した日時であり、稼働データ415は、システム運用者によって指定された取得対象の稼働データ分だけ付加される。   FIG. 7 shows a table of incident information 400 and a table of operation data information 410 that the business server 31 transmits to the information aggregation server 11. In the drawing, the upper and lower parts are separately described due to space problems, but in the present embodiment, an example realized as one table will be described. The same notation applies to the drawings of the following tables. Incident information 400 includes tenant ID 401, incident group name 402, instance ID 403, severity 404, incident occurrence date / time 405, incident type 406, and message 407. The tenant ID 401 is an ID of a tenant to which the business server in which the incident has occurred and identifies each tenant. The incident group name 402 is the name of the business system 22 to which the business server where the incident occurred belongs, and identifies the business system 22 in the same tenant. The instance ID 403 is the name of the business server in which the incident has occurred, and identifies the business server in the same business system 22. The severity 404 indicates the severity of the incident that has occurred, and one of two types of “Error” and “Warning” is input. Incident type 406 indicates the type of incident and can be freely defined by the operator. A message 407 indicates the contents of the incident. The operation data information 410 includes a tenant ID 411, an incident group name 412, an instance ID 413, an acquisition date 414, and operation data 415. The acquisition date and time is the date and time when the operation data 415 is acquired, and the operation data 415 is added only for the operation data to be acquired designated by the system operator.

図8は、情報集約サーバ11が有するシステム情報テーブル121とインシデント対応テーブル122のデータ構成を示す。システム情報テーブル121とインシデント対応テーブル122は、優先度判定部111がインシデントの優先度を定義するために読み出されるテーブルである。システム情報テーブル121は、テナントID501、インシデントグループ名502、業務機能503、サービス稼働率504、サービスコアタイム505から構成される。業務機能503は、業務システム22内で稼働する業務機能の名称であり、サービス稼働率504は業務機能503のサービス稼働率を示す。サービスコアタイム505は業務機能503が最も利用される時間帯といったインシデントが発生した際に当該業務機能への影響度が大きい期間を示す。インシデント対応テーブル122は、テナントID511、インシデントグループ名512、インスタンスID513、メッセージ514、復旧リミット時間515、復旧作業時間516、業務機能517から構成される。復旧リミット時間515は、該当するインシデントを復旧しなければならいリミット時間を示し、復旧作業時間516は、そのインシデントに対する復旧作業に要する時間を示す。インシデントが発生した際には、優先度判定部111がインシデント情報400のテナントID401、インシデントグループ名402、インスタンスID403、メッセージ407と合致するか比較し、発生したインシデントがインシデント対応テーブル122に情報が登録されているかを確認する。   FIG. 8 shows the data structure of the system information table 121 and the incident response table 122 that the information aggregation server 11 has. The system information table 121 and the incident response table 122 are tables that are read in order for the priority determination unit 111 to define the priority of incidents. The system information table 121 includes a tenant ID 501, an incident group name 502, a business function 503, a service operation rate 504, and a service core time 505. The business function 503 is the name of a business function that operates in the business system 22, and the service operation rate 504 indicates the service operation rate of the business function 503. The service core time 505 indicates a period during which the degree of influence on the business function is large when an incident such as a time zone in which the business function 503 is most used occurs. The incident correspondence table 122 includes a tenant ID 511, an incident group name 512, an instance ID 513, a message 514, a recovery limit time 515, a recovery work time 516, and a business function 517. The recovery limit time 515 indicates the limit time that the corresponding incident must be recovered, and the recovery work time 516 indicates the time required for the recovery work for the incident. When an incident occurs, the priority determination unit 111 compares the incident information 400 with the tenant ID 401, incident group name 402, instance ID 403, and message 407 of the incident information 400, and the incident is registered in the incident response table 122. Check if it is.

図9は、情報集約サーバ11が有する優先度付きインシデント情報テーブル125のデータ構成を示す。優先度付きインシデント情報テーブル125は、テナントID521、インシデントグループ名522、業務機能523、優先度524、インスタンスID525、重大度526、インシデント発生日時527、インシデント種別528、メッセージ529、復旧リミット時間530、復旧作業時間516から構成される。インシデントが発生すると、優先度判定部111で優先度が定義され、インシデント登録部112にて優先度付きインシデント情報テーブル125にインシデント情報が登録される。また、ナビゲーションサーバ12から定期的に情報が取得される。取得されたレコードは削除される。   FIG. 9 shows the data structure of the priority-added incident information table 125 that the information aggregation server 11 has. The incident information table with priority 125 includes tenant ID 521, incident group name 522, business function 523, priority 524, instance ID 525, severity 526, incident occurrence date / time 527, incident type 528, message 529, recovery limit time 530, recovery It consists of a work time 516. When an incident occurs, the priority determination unit 111 defines the priority, and the incident registration unit 112 registers the incident information in the incident information table 125 with priority. In addition, information is periodically acquired from the navigation server 12. The acquired record is deleted.

図10は、情報集約サーバ11が有する稼働データ情報テーブル123と重要稼働データテーブル124のデータ構成を示す。稼働データ情報テーブル123は、テナントID541、インシデントグループ名542、インスタンスID543、取得日時544、稼働データ545から構成される。情報集約サーバ11は、業務サーバ31から受信した稼働データ情報410をそのまま稼働データ情報テーブル123に登録する。重要稼働データテーブル124は、テナントID551、インシデントグループ名552、インスタンスID553、重要稼働データ554から構成される。重要稼働データ554は、業務サーバ31上で取得している複数ある稼働データ323の中で最も重要となる稼働データを運用者によって2つ以上で最大4つまで登録することが可能である。2つのテーブルは、ともにインシデントが発生した際に、優先度判定部111にて優先度を定義する際に読み出されるテーブルである。   FIG. 10 shows the data structure of the operation data information table 123 and the important operation data table 124 that the information aggregation server 11 has. The operation data information table 123 includes a tenant ID 541, an incident group name 542, an instance ID 543, an acquisition date and time 544, and operation data 545. The information aggregation server 11 registers the operating data information 410 received from the business server 31 in the operating data information table 123 as it is. The important operation data table 124 includes a tenant ID 551, an incident group name 552, an instance ID 553, and important operation data 554. The important operation data 554 can register the most important operation data among a plurality of operation data 323 acquired on the business server 31 by the operator up to a maximum of four. The two tables are tables that are read when the priority determination unit 111 defines priorities when an incident occurs.

図11は、ナビゲーションサーバ12が有するインシデント情報表示テーブル222のデータ構成例を示す。インシデント情報表示テーブル222は、テナントID601、インシデントグループ名602、業務機能603、優先度604、インスタンスID605、インシデントID606、重大度607、インシデント発生日時608、インシデント種別609、メッセージ610、復旧リミット時間611、復旧作業時間612、基盤情報613、センタ情報614から構成される。インシデント情報表示テーブル222は、ユーザからインシデント一覧表示のリクエストが来た際に、インシデント表示部214から読み出されるテーブルである。インシデントID606は、優先度付きインシデント登録部212がインシデント情報表示テーブル222にインシデントを登録する際に生成されるインシデントを識別するIDである。基盤情報613は、業務サーバ31が稼働しているクラウドシステムの名称やオンプレ環境かを示し、センタ情報614は、業務サーバ31が稼働しているセンタの場所を示す。   FIG. 11 shows a data configuration example of the incident information display table 222 included in the navigation server 12. Incident information display table 222 includes tenant ID 601, incident group name 602, business function 603, priority 604, instance ID 605, incident ID 606, severity 607, incident occurrence date and time 608, incident type 609, message 610, recovery limit time 611, It consists of a recovery work time 612, infrastructure information 613, and center information 614. The incident information display table 222 is a table read from the incident display unit 214 when an incident list display request is received from a user. The incident ID 606 is an ID for identifying an incident that is generated when the incident registration unit with priority 212 registers an incident in the incident information display table 222. The base information 613 indicates the name of the cloud system on which the business server 31 is operating and the on-pre environment, and the center information 614 indicates the location of the center where the business server 31 is operating.

図12は、ナビゲーションサーバ12が有するシステム基盤情報テーブル221とインシデント対応履歴テーブル223のデータ構成例を示す。システム基盤情報テーブル221は、テナントID621、インシデントグループ名622、インスタンスID623、基盤情報624、センタ情報625から構成され、予め運用担当者によって情報が登録されるテーブルである。また、システム基盤情報テーブル221は、優先度付きインシデント登録部212がインシデント情報表示テーブル222にインシデントを登録する際に呼び出され、該当する基盤情報624、センタ情報625の情報がインシデントに付加される。インシデント対応履歴テーブル223は、テナントID631、インシデントグループ名632、インスタンスID633、インシデントID634、ユーザ名635、ステータス636、登録日時637、対応履歴638から構成される。インシデント対応履歴テーブル223は、インシデント発生時に新規レコードが作成され、ステータス636は「open」、ユーザ名635、対応履歴638は何も情報を入力せずに登録される。ユーザが情報を更新する際に、ユーザ名635には情報を入力したユーザ名が入り、ステータス636には対応内容に応じて「going」、「close」のいずれかが入力され、対応履歴638にはインシデントの対応内容が入力される。
図13は、ナビゲーションサーバ12が有するエスカレーション情報テーブル224のデータ構成を示す。エスカレーション情報テーブル224は、テナントID641、インシデントグループ名642、インスタンスID643、基盤情報644、センタ情報645、連絡先646から構成される。連絡先646は複数指定することができ、運用者によって自由に登録するこが可能である。エスカレーション情報テーブル224は、インシデント発生時にインシデントに対応する通知先として情報が読み出される。また、業務サーバ31が別クラウドシステムに移行した際には、移行先のクラウドシステムの情報に基盤情報644、センタ情報645、連絡先646が更新される。
FIG. 12 shows a data configuration example of the system infrastructure information table 221 and the incident response history table 223 that the navigation server 12 has. The system infrastructure information table 221 includes a tenant ID 621, an incident group name 622, an instance ID 623, infrastructure information 624, and center information 625, and information is registered in advance by a person in charge of operations. Further, the system infrastructure information table 221 is called when the incident registration section 212 with priority registers an incident in the incident information display table 222, and the information of the corresponding infrastructure information 624 and center information 625 is added to the incident. The incident response history table 223 includes a tenant ID 631, an incident group name 632, an instance ID 633, an incident ID 634, a user name 635, a status 636, a registration date and time 637, and a response history 638. In the incident handling history table 223, a new record is created when an incident occurs, the status 636 is registered as “open”, the user name 635, and the handling history 638 are registered without inputting any information. When the user updates the information, the user name 635 contains the name of the user who entered the information, and the status 636 is input with either “going” or “close” according to the content of the correspondence. The incident response content is entered.
FIG. 13 shows the data structure of the escalation information table 224 that the navigation server 12 has. The escalation information table 224 includes a tenant ID 641, an incident group name 642, an instance ID 643, infrastructure information 644, center information 645, and a contact address 646. A plurality of contact addresses 646 can be designated and can be freely registered by the operator. Information is read from the escalation information table 224 as a notification destination corresponding to an incident when the incident occurs. Further, when the business server 31 is transferred to another cloud system, the base information 644, the center information 645, and the contact information 646 are updated to the information of the destination cloud system.

図14は、ナビゲーションサーバ12が表示するインシデント一覧700の画面を示す。画面構成は優先度の高いインシデントを表示する「重要インシデント711」一覧を上部に、優先度の低いインシデントを表示する「インシデント712」一覧を下部に配置し、優先度によって一覧表示を区別した画面構成である。それぞれの一覧には、インシデント情報表示テーブル222から読み出された復旧リミット時間611、復旧作業時間612と現在時刻をもとに算出する「残り時間」の情報が表示され、「残り時間」が小さい順にインシデントが表示される。復旧リミット時間611が登録されていないインシデントは「残り時間」には「-」が表示される。また、「インシデント712」一覧で表示されているインシデントは、「残り時間」が時間の経過とともに小さくなっていき、3時間以下になると優先度が「高」に変更され、「重要インシデント711」一覧側で表示される。また、任意の文字列を入力して特定のインシデントのみ抽出可能な検索機能も有している。   FIG. 14 shows a screen of the incident list 700 displayed by the navigation server 12. The screen configuration is a screen configuration in which the “important incident 711” list for displaying high priority incidents is arranged at the top and the “incident 712” list for displaying low priority incidents is arranged at the bottom, and the list display is distinguished by priority. It is. In each list, information on the “remaining time” calculated based on the recovery limit time 611 and the recovery work time 612 read from the incident information display table 222 and the current time is displayed, and the “remaining time” is small. Incidents are displayed in order. For incidents for which the recovery limit time 611 is not registered, “-” is displayed in “Remaining time”. In addition, the incident displayed in the “incident 712” list has a “remaining time” that decreases with the passage of time. When the time is less than 3 hours, the priority is changed to “high”, and the “important incident 711” list. Displayed on the side. It also has a search function that can extract only a specific incident by inputting an arbitrary character string.

図15は、ナビゲーションサーバ12が表示するインシデント詳細表示720の画面を示す。インシデント詳細表示720は、インシデント一覧700で表示されているインシデントを一つ選択し、選択した状態でインシデント詳細表示701のボタンをクリックした際の遷移先の画面である。画面は、インシデント一覧700では表示されない「基盤情報」や「センタ情報」、インシデントの影響を受ける「業務機能」などの情報をインシデント情報表示テーブル222から読み出し表示する構成となっている。   FIG. 15 shows a screen of the incident details display 720 displayed by the navigation server 12. The incident detail display 720 is a transition destination screen when one incident displayed in the incident list 700 is selected and the button of the incident detail display 701 is clicked in the selected state. The screen is configured to read information from the incident information display table 222 such as “basic information”, “center information”, and “business function” affected by the incident that are not displayed in the incident list 700.

図16は、監視サーバの動作を示すフローチャートである。   FIG. 16 is a flowchart showing the operation of the monitoring server.

ステップ801:稼働データ監視部302は、稼働データ監視テーブル312から監視対象の稼働データと閾値の情報を読み出し、該当する稼働データ323の数値を取得する。   Step 801: The operation data monitoring unit 302 reads the operation data and threshold information to be monitored from the operation data monitoring table 312 and acquires the numerical value of the corresponding operation data 323.

ステップ802:稼働データ監視部302は、取得した数値と閾値を比較し、閾値を超えていた場合は、ステップ805へ移る。   Step 802: The operating data monitoring unit 302 compares the acquired numerical value with a threshold value, and moves to step 805 if the threshold value is exceeded.

ステップ803:稼働データ監視部302は、送信部303を呼び出し、取得した稼働データ323から稼働データ情報410を生成し、情報集約サーバ11に送信する。   Step 803: The operation data monitoring unit 302 calls the transmission unit 303, generates operation data information 410 from the acquired operation data 323, and transmits it to the information aggregation server 11.

ステップ804:稼働データ監視部302は、定義された監視間隔だけ待機し、ステップ801に戻る。   Step 804: The operating data monitoring unit 302 waits for the defined monitoring interval and returns to step 801.

ステップ805:稼働データ監視部302は、インシデント生成部313を呼び出し、インシデント情報400を生成する。 ステップ806:稼働データ監視部302は、送信部303を呼び出し、生成したインシデント情報400を情報集約サーバ11に送信し、ステップ803に移る。   Step 805: The operation data monitoring unit 302 calls the incident generation unit 313 to generate the incident information 400. Step 806: The operation data monitoring unit 302 calls the transmission unit 303, transmits the generated incident information 400 to the information aggregation server 11, and proceeds to step 803.

図17は、監視サーバ350のログ監視の動作を示すフローチャートである。   FIG. 17 is a flowchart showing the log monitoring operation of the monitoring server 350.

ステップ811:ログ監視部301は、ログ監視テーブル313から監視対象のログと監視文字列の情報を読み出し、該当するOSイベントログ321や業務ログ322の情報を取得する。   Step 811: The log monitoring unit 301 reads information on a monitoring target log and a monitoring character string from the log monitoring table 313, and acquires information on the corresponding OS event log 321 and business log 322.

ステップ812:ログ監視部301は、取得したログ情報が更新されているか確認し、更新されていいなかった場合は、ステップ816へ移る。   Step 812: The log monitoring unit 301 confirms whether or not the acquired log information has been updated. If it has not been updated, the log monitoring unit 301 proceeds to step 816.

ステップ813:ログ監視部301は、取得したログ情報と監視文字列が一致するか比較し、一致しない場合は、ステップ816へ移る。   Step 813: The log monitoring unit 301 compares the acquired log information with the monitoring character string to determine whether they match, and if not, moves to step 816.

ステップ814:ログ監視部301は、インシデント生成部313を呼び出し、インシデント情報400を生成する。
ステップ815:ログ監視部301は、送信部303を呼び出し、生成したインシデント情報400を情報集約サーバ11に送信する。
Step 814: The log monitoring unit 301 calls the incident generation unit 313 to generate incident information 400.
Step 815: The log monitoring unit 301 calls the transmission unit 303 and transmits the generated incident information 400 to the information aggregation server 11.

ステップ816:ログ監視部301は、定義された監視間隔だけ待機し、ステップ811に戻る。   Step 816: The log monitoring unit 301 waits for the defined monitoring interval, and returns to Step 811.

次に、情報集約サーバ11の処理について説明する。情報集約サーバ11は受信部101経由で監視サーバ350から送信された稼働データやインシデント情報を受信し、稼働データ登録部113が稼働データ情報テーブル123へ登録する。情報集約サーバ11が受け持つ全ての監視サーバ350からの情報を受け取り、受け取った稼働データやインシデント情報をマージして保管する。   Next, processing of the information aggregation server 11 will be described. The information aggregation server 11 receives the operation data and incident information transmitted from the monitoring server 350 via the receiving unit 101, and the operation data registration unit 113 registers them in the operation data information table 123. Information from all the monitoring servers 350 handled by the information aggregation server 11 is received, and the received operation data and incident information are merged and stored.

図18は、情報集約サーバ11がインシデントに優先度を定義する動作を示すフローチャートである。   FIG. 18 is a flowchart illustrating an operation in which the information aggregation server 11 defines priority for an incident.

ステップ821:情報集約サーバ11は、監視サーバ350から送信されたインシデント情報400を受信部101から受信する。   Step 821: The information aggregation server 11 receives the incident information 400 transmitted from the monitoring server 350 from the receiving unit 101.

ステップ822:優先度判定部111は、インシデント対応テーブル122を読み出し、受信したインシデント情報400が、インシデント対応テーブル122に登録されているインシデントか比較する。   Step 822: The priority determination unit 111 reads the incident correspondence table 122 and compares the received incident information 400 with an incident registered in the incident correspondence table 122.

ステップ823:インシデント情報400がインシデント対応テーブル122に登録されていなかった場合は、ステップ830に移る。   Step 823: If the incident information 400 is not registered in the incident correspondence table 122, the process proceeds to Step 830.

ステップ824:優先度判定部111は、インシデント対応テーブル122から該当する業務機能517の情報を抽出し、インシデント情報400に付加する。   Step 824: The priority determination unit 111 extracts information on the corresponding business function 517 from the incident correspondence table 122 and adds it to the incident information 400.

ステップ825:優先度判定部111は、インシデント対応テーブル122から該当する復旧リミット時間515を読み出し、復旧リミット時間515が登録されていない場合は、ステップ831に移る。   Step 825: The priority determination unit 111 reads the corresponding recovery limit time 515 from the incident response table 122, and if the recovery limit time 515 is not registered, the priority determination unit 111 proceeds to step 831.

ステップ826:優先度判定部111は、インシデント対応テーブル122から該当する復旧リミット時間515、復旧作業時間516を抽出し、インシデント情報400に付加する。   Step 826: The priority determination unit 111 extracts the corresponding recovery limit time 515 and the recovery work time 516 from the incident correspondence table 122, and adds them to the incident information 400.

ステップ827:抽出した復旧リミット時間515が3時間を超える場合は、ステップ831に移る。   Step 827: If the extracted recovery limit time 515 exceeds 3 hours, the process proceeds to Step 831.

ステップ828:優先度判定部111は、インシデント情報400に優先度情報「高」を付加する。   Step 828: The priority determination unit 111 adds priority information “high” to the incident information 400.

ステップ829:優先度判定部111は、インシデント登録部112を呼び出し、インシデント情報400を優先度付きインシデント情報テーブル125に登録する。   Step 829: The priority determination unit 111 calls the incident registration unit 112 and registers the incident information 400 in the incident information table with priority 125.

ステップ830:優先度判定部111は、インシデント情報400に優先度情報「低」を付加し、ステップ829に移る。   Step 830: The priority determination unit 111 adds priority information “low” to the incident information 400, and proceeds to step 829.

図19は、情報集約サーバ11がインシデントに優先度を定義する動作を示すフローチャートである。   FIG. 19 is a flowchart illustrating an operation in which the information aggregation server 11 defines priority for an incident.

ステップ841:優先度判定部111は、システム情報テーブル121から、インシデント情報400のテナントID401、インシデントグループ名402、ステップ824でインシデント情報400に付加した業務機能517が一致するレコードを読み出し、該当するレコードのサービス稼働率504の情報を取得する。   Step 841: The priority determination unit 111 reads from the system information table 121 a record in which the tenant ID 401 of the incident information 400, the incident group name 402, and the business function 517 added to the incident information 400 in Step 824 match, and the corresponding record Information of the service operation rate 504 is acquired.

ステップ842:サービス稼働率504が99.7%以上の場合、ステップ848に移る。   Step 842: If the service operation rate 504 is 99.7% or more, the procedure goes to Step 848.

ステップ843:優先度判定部111は、ステップ841で読み出したレコードのサービスコアタイム505の情報を取得する。   Step 843: The priority determination unit 111 acquires information on the service core time 505 of the record read in Step 841.

ステップ844:優先度判定部111は、重要稼働データテーブル124から、インシデント情報400のテナントID401、インシデントグループ名402、インスタンスID403と一致するレコードを読み出し、該当するレコードの重要稼働データ554の情報を取得する。優先度判定部111は、さらに稼働データテーブル123から、インシデント情報400のテナントID401、インシデントグループ名402、インスタンスID403と一致するレコードを読み出し、重要稼働データ554と一致する稼働データ545を取得する。   Step 844: The priority determination unit 111 reads a record that matches the tenant ID 401, the incident group name 402, and the instance ID 403 of the incident information 400 from the important operation data table 124, and acquires information on the important operation data 554 of the corresponding record. To do. The priority determination unit 111 further reads a record that matches the tenant ID 401, the incident group name 402, and the instance ID 403 of the incident information 400 from the operation data table 123, and acquires the operation data 545 that matches the important operation data 554.

ステップ845:インシデント情報400のインシデント発生日時405が、ステップ842で取得したサービスコアタイム505内であり、かつステップ844で取得した稼働データ545の内、閾値を超過したデータが2つ以上ある場合は、ステップ848へ移る。   Step 845: When the incident occurrence date / time 405 of the incident information 400 is within the service core time 505 acquired at step 842 and there are two or more data exceeding the threshold among the operation data 545 acquired at step 844 , Step 848 is entered.

ステップ846:優先度判定部111は、インシデント情報400に優先度情報「低」を付加することによりインシデントの優先順位を下げることが可能となる。   Step 846: The priority determination unit 111 can lower the priority of the incident by adding the priority information “low” to the incident information 400.

ステップ847:優先度判定部111は、インシデント登録部112を呼び出し、インシデント情報400を優先度付きインシデント情報テーブル125に登録する。登録されたインシデント情報は集められた複数のクラウドシステムのインシデント情報がマージされているため、このクラウド管理システムが管理しているシステム内で発生しているインシデントのうち、最も優先度の高いインシデントから出力していくことが可能となる。   Step 847: The priority determination unit 111 calls the incident registration unit 112 and registers the incident information 400 in the incident information table 125 with priority. Since the registered incident information is merged from the collected incident information of multiple cloud systems, the incident with the highest priority among the incidents that occur in the system managed by this cloud management system. It becomes possible to output.

ステップ848:優先度判定部111は、インシデント情報400に優先度情報「高」を付加し、ステップ847に移る。   Step 848: The priority determination unit 111 adds priority information “high” to the incident information 400, and proceeds to step 847.

図20は、ナビゲーションサーバ12がインシデントを取得・登録する動作のフローチャートである。   FIG. 20 is a flowchart of an operation in which the navigation server 12 acquires and registers an incident.

ステップ861:ナビゲーションサーバ12は、インシデント取得部211から情報集約サーバ11に接続する。   Step 861: The navigation server 12 connects from the incident acquisition unit 211 to the information aggregation server 11.

ステップ862:インシデント取得部211は、情報集約サーバ11の優先度付きインシデント情報テーブル125から未取得のインシデント情報を取得する。   Step 862: The incident acquisition unit 211 acquires unacquired incident information from the priority incident information table 125 of the information aggregation server 11.

ステップ863:優先度付きインシデント登録部212は、取得したインシデント情報とシステム基盤情報テーブル221のテナントID621、インシデントグループ名622、インスタンスID623を比較し、一致するレコードを読み出し、該当するレコードの基盤情報624、センタ情報625の情報を取得する。   Step 863: The incident registration unit with priority 212 compares the acquired incident information with the tenant ID 621, the incident group name 622, and the instance ID 623 of the system infrastructure information table 221, reads the matching records, and the infrastructure information 624 of the corresponding records The information of the center information 625 is acquired.

ステップ864:優先度付きインシデント登録部212は、基盤情報624、センタ情報625を取得したインシデント情報に付加する。   Step 864: The priority-added incident registration unit 212 adds the base information 624 and the center information 625 to the acquired incident information.

ステップ865:優先度付きインシデント登録部212は、インシデントを識別するインシデントIDを生成し、インシデント情報に付加する。   Step 865: The priority-added incident registration unit 212 generates an incident ID for identifying the incident and adds it to the incident information.

ステップ866:インシデント対応履歴登録部213は、インシデント対応履歴テーブル223に新規レコードを追加し、テナントID631、インシデントグループ名632、インスタンスID、インシデントIDにはインシデント情報を入力する。ステータス636には「open」を入力し、ユーザ名635、対応内容637には何も入力しない。   Step 866: The incident response history registration unit 213 adds a new record to the incident response history table 223, and inputs incident information for the tenant ID 631, the incident group name 632, the instance ID, and the incident ID. “Open” is input to the status 636, and nothing is input to the user name 635 and the corresponding content 637.

ステップ867:優先度付きインシデント登録部212は、インシデント情報をインシデント情報表示テーブル222に登録する。   Step 867: The priority-affected incident registration unit 212 registers incident information in the incident information display table 222.

ステップ868:インシデント取得部211は、情報集約サーバ11の優先度付きインシデント情報テーブル125のインシデント情報を全て取得していない場合は、ステップ862に移る。   Step 868: If the incident acquisition unit 211 has not acquired all of the incident information in the incident information table 125 with priority of the information aggregation server 11, the process proceeds to step 862.

ステップ869:インシデント取得部211は、定義された監視間隔だけ待機し、ステップ861に移る。   Step 869: The incident acquisition unit 211 waits for the defined monitoring interval, and proceeds to Step 861.

図21は、ナビゲーションサーバ12がインシデント一覧画面700を表示する動作のフローチャートである。   FIG. 21 is a flowchart of an operation in which the navigation server 12 displays the incident list screen 700.

ステップ881:ナビゲーションサーバ12は、ユーザからインシデント一覧画面700の要求を受け付ける。   Step 881: The navigation server 12 receives a request for the incident list screen 700 from the user.

ステップ882:ナビゲーションサーバ12のインシデント表示部214は、インシデント情報表示テーブル222からインシデント情報を取得する。   Step 882: The incident display unit 214 of the navigation server 12 acquires incident information from the incident information display table 222.

ステップ883:インシデント表示部214は、取得したインシデント情報の復旧リミット時間611が登録されていない場合は、ステップ889に移る。   Step 883: If the recovery limit time 611 of the acquired incident information is not registered, the incident display unit 214 proceeds to step 889.

ステップ884:インシデント表示部214は、(インシデント発生日時608+復旧リミット時間611)−(現在時刻+復旧作業時間612)で「残り時間」を算出する。   Step 884: The incident display unit 214 calculates “remaining time” by (incident occurrence date / time 608 + recovery limit time 611) − (current time + recovery work time 612).

ステップ885:インシデント情報の優先度604が「高」の場合は、ステップ887に移る。   Step 885: If the priority 604 of the incident information is “high”, the process proceeds to step 887.

ステップ886:ステップ884で算出した「残り時間」が3時間以下の場合は、ステップ890に移る。   Step 886: If the “remaining time” calculated in step 884 is 3 hours or less, the process proceeds to step 890.

ステップ887:インシデント表示部214は、「残り時間」の情報をインシデント情報に付加する。   Step 887: The incident display unit 214 adds the “remaining time” information to the incident information.

ステップ888:インシデント表示部214は、インシデント対応履歴テーブル223からインシデントID634が一致するレコードのステータス636を読み出し、インシデント情報に付加する。   Step 888: The incident display unit 214 reads the status 636 of the record with the matching incident ID 634 from the incident response history table 223 and adds it to the incident information.

ステップ889:インシデント表示部214は、優先度に応じて、インシデント情報を
インシデント一覧画面700に表示する。インシデントの発生している業務サーバと同じ物理計算機で稼働している他の業務サーバが有る場合には、当該業務サーバについてもインシデントの影響を受けることを示す情報をインシデント画面700に追加しても良い。
Step 889: The incident display unit 214 displays incident information on the incident list screen 700 according to the priority. If there is another business server running on the same physical computer as the business server where the incident occurs, information indicating that the business server is also affected by the incident may be added to the incident screen 700 good.

ステップ890:インシデント表示部214は、インシデント情報の優先度を「高」に変更し、ステップ887に移る。   Step 890: The incident display unit 214 changes the priority of the incident information to “high”, and proceeds to step 887.

図22は、業務サーバ31が他クラウドシステムへ移行した時の動作のフローチャートである。   FIG. 22 is a flowchart of the operation when the business server 31 is transferred to another cloud system.

ステップ901:業務サーバ31が他のクラウドシステムへ移行する。   Step 901: The business server 31 moves to another cloud system.

ステップ902:業務サーバ31は、送信部303から移行先クラウドシステム情報をナビゲーションサーバ12に送信する。   Step 902: The business server 31 transmits the migration destination cloud system information from the transmission unit 303 to the navigation server 12.

ステップ903:ナビゲーションサーバ12は、システム基盤情報登録部215を呼び出し、システム基盤情報テーブル221内の移行した業務サーバ31に該当するレコードを読み出し、基盤情報624、センタ情報625を移行先クラウドシステム情報に更新する。   Step 903: The navigation server 12 calls the system infrastructure information registration unit 215, reads the record corresponding to the migrated business server 31 in the system infrastructure information table 221, and converts the infrastructure information 624 and the center information 625 to the migration destination cloud system information. Update.

ステップ904:ナビゲーションサーバ12は、メール送信部216を呼び出し、移行した業務サーバ31から送信された移行先クラウドシステム情報から、エスカレーション情報テーブル224内でテナントID641、基盤情報644、センタ情報645と一致するレコードの連絡先646を取得する。   Step 904: The navigation server 12 calls the mail transmission unit 216, and matches the tenant ID 641, infrastructure information 644, and center information 645 in the escalation information table 224 from the migration destination cloud system information transmitted from the migrated business server 31. The record contact information 646 is acquired.

ステップ905:メール送信部216は、連絡先646へ業務サーバ31が移行したことを通知する。   Step 905: The mail transmission unit 216 notifies the contact address 646 that the business server 31 has been migrated.

10・・・クラウド管理システム、11・・・情報集約サーバ、12・・・ナビゲーションサーバ、13・・・テナント、31・・・業務サーバ、101・・・受信部、102・・ネットワークインタフェース部、111・・・優先度判定部、112・・・インシデント登録部、113・・・稼働データ登録部、121・・・システム情報テーブル、122・・・インシデント対応テーブル、123・・・稼働データ情報テーブル、124・・・重要稼働データテーブル、125・・・優先度付きインシデント情報テーブル、201・・・表示部、214・・・インシデント一覧表示部、222・・・インシデント情報表示テーブル、301・・・ログ監視部、302・・・稼働データ監視部、321・・・OSイベントログ、322・・・業務ログ、323・・・稼働データ、700・・・インシデント一覧画面、720・・・インシデント詳細表示画面。 DESCRIPTION OF SYMBOLS 10 ... Cloud management system, 11 ... Information aggregation server, 12 ... Navigation server, 13 ... Tenant, 31 ... Business server, 101 ... Receiving part, 102 ... Network interface part, 111: Priority determination unit, 112: Incident registration unit, 113: Operation data registration unit, 121 ... System information table, 122 ... Incident response table, 123 ... Operation data information table 124 ... Important operation data table, 125 ... incident information table with priority, 201 ... display unit, 214 ... incident list display unit, 222 ... incident information display table, 301 ... Log monitoring unit, 302... Operation data monitoring unit, 321... OS event log, 322. Log, 323 ... operational data, 700 ... incident list screen, 720... Incident details display screen.

Claims (12)

複数のクラウドシステムで稼働する仮想計算機上で動作する複数テナントの業務サーバのインシデントを管理するクラウド管理システムであって、
前記業務サーバからのインシデント情報を受信しマージするインシデント受信部と、
マージされたインシデント情報の種別と発生時刻に基づいてインシデントの前記複数のクラウドシステム内での優先度を求める優先度判定部と、
求められた優先度に従ってインシデント情報を出力する出力部を備えることを特徴とするクラウド管理システム。
A cloud management system for managing incidents of business servers of multiple tenants running on virtual machines running on multiple cloud systems,
An incident receiver that receives and merges incident information from the business server;
A priority determination unit that determines the priority of the incident in the plurality of cloud systems based on the type and occurrence time of the merged incident information;
A cloud management system comprising an output unit that outputs incident information according to a determined priority.
業務サーバ毎にインシデントの種別と発生時刻に応じたインシデント優先度を記載した優先度情報を備え、
優先度判定部が優先度テーブルの情報に基づいて発生したインシデントの優先度を求めることを特徴とする請求項1に記載のクラウド管理システム。
Each business server has priority information that describes the incident priority according to the incident type and time of occurrence.
The cloud management system according to claim 1, wherein the priority determination unit obtains the priority of an incident that has occurred based on information in the priority table.
業務サーバ毎の負荷を測定するサーバ負荷測定部を備え、
サーバ負荷測定部が測定した業務サーバ負荷が予め定められた値を超える時間帯は当該業務サーバのインシデント優先度を上げる優先度調整部を備えることを特徴とする請求項2に記載のクラウド管理システム。
A server load measurement unit that measures the load of each business server
3. The cloud management system according to claim 2, further comprising a priority adjustment unit that increases an incident priority of the business server during a time period in which the business server load measured by the server load measurement unit exceeds a predetermined value. .
業務サーバ毎の負荷を測定するサーバ負荷測定部を備え、
サーバ負荷測定部が測定した業務サーバ負荷が予め定められた値を下回った時間帯は当該業務サーバのインシデント優先度を下げる優先度調整部を備えることを特徴とする請求項2に記載のクラウド管理システム。
A server load measurement unit that measures the load of each business server
The cloud management according to claim 2, further comprising a priority adjustment unit that lowers the incident priority of the business server during a time period when the business server load measured by the server load measurement unit falls below a predetermined value. system.
前記優先度情報はさらにインシデントに対応した復旧時間に関する情報を格納し、
出力部がインシデントと対応付けてインシデントの対応に必要な残り時間に関する情報を出力することを特徴とする請求項2−4に記載のクラウド管理システム。
The priority information further stores information on the recovery time corresponding to the incident,
The cloud management system according to claim 2, wherein the output unit outputs information related to the remaining time necessary for handling the incident in association with the incident.
仮想計算機が他のクラウドシステムへ移動したとき、移動した仮想計算機で動作する業務サーバのインシデントに関する情報を移動元クラウドシステムから移動先クラウドシステムへ変更し、移動先クラウドシステムのインシデントとして出力することを特徴とする請求項4に記載のクラウド管理システム。   When a virtual machine moves to another cloud system, the information related to the incident of the business server that runs on the moved virtual machine is changed from the source cloud system to the destination cloud system and output as an incident of the destination cloud system. The cloud management system according to claim 4, wherein the system is a cloud management system. 複数のクラウドシステムで稼働する仮想計算機上で動作する複数テナントの業務サーバのインシデントを管理するクラウド管理方法であって、
インシデント受信部が前記業務サーバからのインシデント情報を受信しマージし、
優先度判定部がマージされたインシデント情報の種別と発生時刻に基づいてインシデントの前記複数のクラウドシステム内での優先度を求め、
出力部が求められた優先度に従ってインシデント情報を出力するを備えることを特徴とするクラウド管理方法。
A cloud management method for managing incidents of business servers of multiple tenants running on virtual machines running on multiple cloud systems,
The incident receiving unit receives and merges incident information from the business server,
The priority determination unit obtains the priority of the incident in the plurality of cloud systems based on the merged incident information type and occurrence time,
A cloud management method comprising: outputting incident information according to a priority obtained by an output unit.
業務サーバ毎にインシデントの種別と発生時刻に応じたインシデント優先度を記載した優先度情報を含み、
優先度判定部が優先度テーブルの情報に基づいて発生したインシデントの優先度を求めることを特徴とする請求項7に記載のクラウド管理方法。
Includes priority information that describes incident priority according to incident type and time of occurrence for each business server,
The cloud management method according to claim 7, wherein the priority determination unit obtains the priority of the incident that has occurred based on information in the priority table.
サーバ負荷測定部が業務サーバ毎の負荷を測定し、
優先度調整部がサーバ負荷測定部が測定した業務サーバ負荷が予め定められた値を超える時間帯は当該業務サーバのインシデント優先度を上げることを特徴とする請求項8に記載のクラウド管理方法。
The server load measurement unit measures the load of each business server,
9. The cloud management method according to claim 8, wherein the priority adjustment unit increases the incident priority of the business server during a time period in which the business server load measured by the server load measurement unit exceeds a predetermined value.
サーバ負荷測定部が業務サーバ毎の負荷を測定し、
優先度調整部はサーバ負荷測定部が測定した業務サーバ負荷が予め定められた値を下回った時間帯は当該業務サーバのインシデント優先度を下げることを特徴とする請求項8に記載のクラウド管理方法。
The server load measurement unit measures the load of each business server,
9. The cloud management method according to claim 8, wherein the priority adjustment unit lowers the incident priority of the business server during a time period when the business server load measured by the server load measurement unit falls below a predetermined value. .
前記優先度情報はさらにインシデントに対応した復旧時間に関する情報を格納し、
出力部がインシデントと対応付けてインシデントの対応に必要な残り時間に関する情報を出力することを特徴とする請求項8−11に記載のクラウド管理方法。
The priority information further stores information on the recovery time corresponding to the incident,
The cloud management method according to claim 8-11, wherein the output unit outputs information related to a remaining time necessary for handling an incident in association with the incident.
仮想計算機が他のクラウドシステムへ移動したとき、移動した仮想計算機で動作する業務サーバのインシデントに関する情報を移動元クラウドシステムから移動先クラウドシステムへ変更し、出力部は移動先クラウドシステムのインシデントとしてインシデントを出力することを特徴とする請求項10に記載のクラウド管理方法。   When a virtual machine moves to another cloud system, the information related to the incident of the business server that runs on the moved virtual machine is changed from the source cloud system to the destination cloud system, and the output unit becomes an incident as an incident of the destination cloud system The cloud management method according to claim 10, wherein:
JP2015164372A 2015-08-24 2015-08-24 Cloud management method and cloud management system Active JP6482984B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015164372A JP6482984B2 (en) 2015-08-24 2015-08-24 Cloud management method and cloud management system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015164372A JP6482984B2 (en) 2015-08-24 2015-08-24 Cloud management method and cloud management system

Publications (2)

Publication Number Publication Date
JP2017045079A true JP2017045079A (en) 2017-03-02
JP6482984B2 JP6482984B2 (en) 2019-03-13

Family

ID=58211263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015164372A Active JP6482984B2 (en) 2015-08-24 2015-08-24 Cloud management method and cloud management system

Country Status (1)

Country Link
JP (1) JP6482984B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018205816A (en) * 2017-05-30 2018-12-27 富士通株式会社 Information processing system, information processing device, and management program
JP2019179990A (en) * 2018-03-30 2019-10-17 富士通株式会社 Abnormality detection method, abnormality detection program, and abnormality detection device
JP2020052918A (en) * 2018-09-28 2020-04-02 株式会社富士通アドバンストエンジニアリング Incident management program, incident management device, and incident management method
CN113190415A (en) * 2021-05-27 2021-07-30 北京京东拓先科技有限公司 Internet hospital system monitoring method, equipment, storage medium and program product
CN113419928A (en) * 2021-07-16 2021-09-21 中国建设银行股份有限公司 Monitoring alarm method and device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012038028A (en) * 2010-08-05 2012-02-23 Nomura Research Institute Ltd Incident management system and visualization method of fault-affected range
WO2013035243A1 (en) * 2011-09-08 2013-03-14 日本電気株式会社 Cloud service recovery time prediction system, method and program
WO2013042268A1 (en) * 2011-09-22 2013-03-28 富士通株式会社 Server device, log forwarding program, log forwarding method, and log forwarding system
JP2013222313A (en) * 2012-04-17 2013-10-28 Hitachi Ltd Failure contact efficiency system
JP2015115018A (en) * 2013-12-16 2015-06-22 株式会社日立製作所 Management server and management server control method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012038028A (en) * 2010-08-05 2012-02-23 Nomura Research Institute Ltd Incident management system and visualization method of fault-affected range
WO2013035243A1 (en) * 2011-09-08 2013-03-14 日本電気株式会社 Cloud service recovery time prediction system, method and program
WO2013042268A1 (en) * 2011-09-22 2013-03-28 富士通株式会社 Server device, log forwarding program, log forwarding method, and log forwarding system
JP2013222313A (en) * 2012-04-17 2013-10-28 Hitachi Ltd Failure contact efficiency system
JP2015115018A (en) * 2013-12-16 2015-06-22 株式会社日立製作所 Management server and management server control method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018205816A (en) * 2017-05-30 2018-12-27 富士通株式会社 Information processing system, information processing device, and management program
JP2019179990A (en) * 2018-03-30 2019-10-17 富士通株式会社 Abnormality detection method, abnormality detection program, and abnormality detection device
JP2020052918A (en) * 2018-09-28 2020-04-02 株式会社富士通アドバンストエンジニアリング Incident management program, incident management device, and incident management method
JP7180252B2 (en) 2018-09-28 2022-11-30 富士通株式会社 Incident management program, incident management device and incident management method
CN113190415A (en) * 2021-05-27 2021-07-30 北京京东拓先科技有限公司 Internet hospital system monitoring method, equipment, storage medium and program product
CN113419928A (en) * 2021-07-16 2021-09-21 中国建设银行股份有限公司 Monitoring alarm method and device

Also Published As

Publication number Publication date
JP6482984B2 (en) 2019-03-13

Similar Documents

Publication Publication Date Title
JP6482984B2 (en) Cloud management method and cloud management system
US10462027B2 (en) Cloud network stability
JP6959736B2 (en) Identifying Network Failure Troubleshooting Options
JP5684946B2 (en) Method and system for supporting analysis of root cause of event
JP5914669B2 (en) Service performance monitoring method
KR101971013B1 (en) Cloud infra real time analysis system based on big date and the providing method thereof
CN107241211B (en) Method and system for improving relevance between data center overlay network and underlying network
US8381038B2 (en) Management server and management system
JP6160064B2 (en) Application determination program, failure detection apparatus, and application determination method
US11329869B2 (en) Self-monitoring
US10027534B1 (en) Log management system and method for distributed computing systems
US10185614B2 (en) Generic alarm correlation by means of normalized alarm codes
KR20150077474A (en) Rule distribution server, as well as event processing system, method, and program
JP5268589B2 (en) Information processing apparatus and information processing apparatus operating method
JPWO2013140633A1 (en) Exchange candidate presentation method, information processing apparatus, and program
US20160170847A1 (en) Generating a data structure to maintain error and connection information on components and use the data structure to determine an error correction operation
JP2010231293A (en) Monitoring device
US20170083397A1 (en) System and method for self-healing a database server in a cluster
JP5271761B2 (en) Troubleshooting method and apparatus
JP2016134721A (en) Information processing system, control method of information processing system and control program of management device
CN112015995A (en) Data analysis method, device, equipment and storage medium
JP5544929B2 (en) Operation management device, operation management method, operation management program
JPWO2013161522A1 (en) Log collection server, log collection system, and log collection method
JP2020038506A (en) Information processing system, information processing method, and program
JP6060123B2 (en) Influence range identification device, influence range identification method, and program

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170111

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190213

R150 Certificate of patent or registration of utility model

Ref document number: 6482984

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150