JP6482984B2 - クラウド管理方法及びクラウド管理システム - Google Patents

クラウド管理方法及びクラウド管理システム Download PDF

Info

Publication number
JP6482984B2
JP6482984B2 JP2015164372A JP2015164372A JP6482984B2 JP 6482984 B2 JP6482984 B2 JP 6482984B2 JP 2015164372 A JP2015164372 A JP 2015164372A JP 2015164372 A JP2015164372 A JP 2015164372A JP 6482984 B2 JP6482984 B2 JP 6482984B2
Authority
JP
Japan
Prior art keywords
incident
information
priority
cloud
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015164372A
Other languages
English (en)
Other versions
JP2017045079A (ja
Inventor
太郎 北村
太郎 北村
真法 堂宮
真法 堂宮
卓也 島川
卓也 島川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2015164372A priority Critical patent/JP6482984B2/ja
Publication of JP2017045079A publication Critical patent/JP2017045079A/ja
Application granted granted Critical
Publication of JP6482984B2 publication Critical patent/JP6482984B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、クラウドの管理システムに関する。
下記特許文献1では対象システムの障害を含むインシデントをインシデント情報として第1のデータベースに管理し、前記対象システムの構成を構成情報として第2のデータベースに管理する構成管理システムと連携し、担当者の端末に対して情報の画面を提供するサービスポータルシステムと連携し、前記対象システムの障害を含むインシデントを監視する障害監視システムと連携することが開示されている。
クラウド管理システムは、対象システムの構成、障害影響範囲及び障害影響先サービスを含むインシデント状況を可視化する画面を、前記構成情報及び前記インシデント情報を用いて作成し、担当者の端末に提供する第1の機能と、前記対象システムにおける障害許容性を考慮して設計される構成部位を含む構成を、構成管理モデルとして前記構成情報に設定する第2の機能を有する。
そして、構成管理モデルでは、障害許容性を考慮して設計される構成部位を含む各構成部位を第1の構成アイテムとして設定し、前記第1の構成アイテムについての障害許容性を第2の構成アイテムとして設定し、第1、第2の構成アイテムを含む構成アイテム間の依存関係性をリンクとして設定する。第1の機能による画面では、構成アイテムをリンクで接続した構造で、対象システムの構成管理モデル、障害影響範囲及び障害影響先サービスを含むインシデント発生状況を表示することが開示されている。
特開2012-38028
特許文献1では、クラウド環境や障害許容性などを考慮した構成の対象システムにおける障害影響範囲などの状況を可視化する技術が開示されているが、複数のクラウドシステムで構成されるハイブリッドクラウド環境で業務システムを構成したときに、どのクラウドシステムでインシデントが発生したのかをシステムの管理者に知らせることについては考慮されていない。
また、時間とともに変化するインシデントの重要性に基づいて、管理者が優先的に対応しなければならないインシデントを知らせることについても考慮されておらず、業務システムを構成する仮想計算機上で稼働する業務サーバが他のクラウドシステムへ移動したときに、どのクラウドシステムからのインシデント報告なのか、どの程度の影響があるのかとういうことを移動した先のクラウドシステムが提供するインシデント報告の仕組みを用いて管理者へ報告することについても考慮されていない。
上記課題は複数のクラウドシステムで稼働する仮想計算機上で動作する複数テナントの業務サーバのインシデントを管理するクラウド管理システムで、業務サーバからのインシデント情報を受信しマージするインシデント受信部と、マージされたインシデント情報の種別と発生時刻に基づいてインシデントの前記複数のクラウドシステム内での優先度を求める優先度判定部と、求められた優先度に従ってインシデント情報を出力する出力部を備えるシステムによって解決される。
上記システムで解決されない個々の課題については実施例に記載された構成要素を追加することにより解決されるであろう。
本発明によれば、クラウドを用いて実現される業務システムのインシデントに対処する管理者の負荷を軽減できる。
本実施例におけるクラウドシステムの構成を示すブロック図の例である。 本実施例におけるクラウド管理システムの情報集約サーバのブロック図の例である。 本実施例におけるクラウド管理システムのナビゲーションサーバのブロック図の例である。 本実施例におけるテナントのブロック図の例である。 本実施例におけるデータセンタのブロック図の例である。 本実施例における物理計算機で稼働する監視サーバのブロック図の例である。 本実施例におけるインシデント情報テーブルの例である。 本実施例における稼働データ情報テーブルの例である。 本実施例におけるシステム情報テーブルの例である。 本実施例におけるインシデント対応テーブルの例である。 本実施例における優先度付きインシデント情報のテーブルの例である。 本実施例における稼働データ情報テーブルの例である。 本実施例における重要稼働データテーブルの例である。 本実施例におけるインシデント情報表示テーブルの例である。 本実施例におけるシステム基盤情報テーブルの例である。 本実施例におけるインシデント対応履歴テーブルの例である。 本実施例におけるエスカレーション情報のテーブルの例である。 本実施例におけるインシデント一覧画面の例である。 本実施例におけるインシデント詳細表示画面の例である。 本実施例における監視サーバの稼働データ監視フローチャートの例である。 本実施例における監視サーバの業務ログ監視フローチャートの例である。 本実施例における情報集約サーバの優先度定義フローチャート1の例である。 本実施例における情報集約サーバの優先度定義フローチャート2の例である。 本実施例におけるナビゲーションサーバのインシデント取得・登録フローチャートの例である。 本実施例におけるナビゲーションサーバのインシデント一覧表示フローチャートの例である。 本実施例における他クラウドシステムへの業務サーバ移行時のフローチャートの例である。
図1は、本実施例クラウド管理システム10と管理対象のテナントのシステムの全体構成図である。本実施例ではクラウド管理システム10がネットワーク機器を介してインターネット経由でデータセンタ1からデータセンタNへ接続されている。顧客のテナント13である業務システムは複数のデータセンタを用いて実現されたものもあり、各々のデータセンタは異なる事業者が提供するデータセンタである場合も考えられる。
図2は、情報集約サーバ11のブロック図である。情報集約サーバ11は、受信部101とネットワークインタフェース部102を有し、テナントの業務サーバから送信されてくるインシデントや稼働データをネットワークインタフェース部102を介して、受信部101で受信する。主記憶領域18に格納されCPU15で実行される優先度判定部111は、受信したインシデントをシステム情報テーブル121、インシデント対応テーブル122、稼働データ情報テーブル123、重要稼働データテーブル124の情報に基づいて優先度を判定し、確定した優先度情報をインシデントに付加する。インシデント登録部112は、優先度を付加されたインシデントを優先度付きインシデント情報テーブル125に登録する。
図3は、ナビゲーションサーバ12のブロック図である。ナビゲーションサーバ12は、表示部201とネットワークインタフェース部202を有する。この例では表示部201がナビゲーションサーバ12に含まれているが、インターネットに接続されたブラウザ経由で表示するようにしても良い。ナビゲーションサーバは、情報集約サーバ11が保持する優先度付きインシデント情報テーブル125の情報をネットワークインタフェース部202を介して取得するためのインシデント取得部211を有している。優先度付きインシデント登録部212は、システム基盤情報テーブル221から、取得したインシデントに関連するシステム基盤情報を抽出し、インシデントにシステム基盤情報、インシデントIDを付加して、インシデント情報表示テーブル222に登録する。インシデント対応履歴登録部213は、新規インシデントが発生し、インシデント情報表示テーブル222へ登録する際や、運用者がインシデントの対応情報を入力した際にインシデント対応履歴テーブル223に入力された対応情報を登録する。インシデント一覧表示部214は、インシデント情報表示テーブル222からインシデント情報を読み出し、インシデント対応履歴テーブル223からインシデントに関連する対応情報を抽出し、インシデントに情報を付加する。インシデント一覧表示部214は、インシデント情報を優先度順に表示部201を介して画面に表示する。システム基盤情報登録部215は、業務サーバが他のクラウドシステムに移動した際に、業務サーバから送られてきた移動先のシステム基盤情報を受け取り、システム基盤情報テーブル221の該当するレコードの情報を書き換える。メール送信部216は、インシデント発生時や、業務サーバが他のクラウドシステムに移動した際に、エスカレーション情報テーブル224から通知先を読み出し、ネットワークインタフェース部202を介してメールを送信する。インシデント取得部211、優先度付きインシデント登録部212、インシデント対応履歴登録部213等の各処理部は主記憶領域19に格納され、CPU16で実行される。
図4は、テナント13のブロック図である。テナント13は、データセンタ21を複数有し、データセンタ内には業務システム22が複数存在する。データセンタ21は、インターネット網と接続する回線を有し、業務システム22はその回線を介してインターネットに接続する。
図5は、データセンタ21のブロック図である。業務システム22の物理計算機32上には仮想化ソフト33が搭載されており、仮想化ソフト33上ではVM(Virtual Machine)31が複数稼働する。仮想化されていない物理計算機32はOS34が動作しているものもある。
図6は、物理計算機上で稼働する監視サーバ350のブロック図である。監視サーバ350は業務サーバを実行するVMと同じVMで実行されても良いし、業務サーバを実行するVMと独立したVMで実行されても良い。VM31には監視サーバ350がインストールされており、OSイベントログ321や業務ログ322を監視するログ監視部301、業務サーバの稼働データ323を監視する稼働データ監視部を有している。
監視サーバ350は物理計算機単位にインストールされても良いし、業務システム単位、テナント単位にインストールされても良い。インシデントの発生量や業務システムの規模を基にインストールすることにより効率的な監視が可能となる。
ログ監視部301は、ログ監視テーブル311から監視対象のログ情報を読み出し、特定の文字列がログに出力されると、インシデント生成部313を呼び出し、インシデントを生成する。生成されたインシデントは、送信部303にて情報集約サーバ11に送信される。稼働データ監視部302は、稼働データ監視テーブル312から監視対象の稼働データ情報を読み出し、監視対象の稼働データ情報を取得する。取得された稼働データ情報は送信部303にて情報集約サーバ11に送信される。また、取得した際に稼働データが閾値を超えていた場合は、インシデント生成部313を呼び出し、インシデントを生成し、送信部303にて情報集約サーバ11にインシデントを送信する。ログ監視部301、稼働データ監視部302、送信部303等の処理部を含む監視サーバ350は主記憶領域360に格納されCPU17で実行される。
図7は、業務サーバ31が情報集約サーバ11に送信するインシデント情報400のテーブルと稼働データ情報410のテーブルを示す。図面ではスペースの問題で上下に分かれて記載されているが、本実施例では一つのテーブルとして実現された例で説明する。以下のテーブルの図面についても同様の表記である。インシデント情報400は、テナントID401、インシデントグループ名402、インスタンスID403、重大度404、インシデント発生日時405、インシデント種別406、メッセージ407から構成される。テナントID401は、インシデントが発生した業務サーバが属するテナントのIDであり、各テナントを識別する。インシデントグループ名402は、インシデントが発生した業務サーバが属する業務システム22の名称であり、同一テナント内の業務システム22を識別する。インスタンスID403は、インシデントが発生した業務サーバの名称であり、同一業務システム22内の業務サーバを識別する。重大度404は、発生したインシデントの重大度を示し、「Error」、「Warning」の2種類のいずれかが入力される。インシデント種別406は、インシデントの種類を示し、運用者によって自由に定義可能である。メッセージ407は、インシデントの内容を示す。稼働データ情報410は、テナントID411、インシデントグループ名412、インスタンスID413、取得日時414、稼働データ415から構成される。取得日時は稼働データ415を取得した日時であり、稼働データ415は、システム運用者によって指定された取得対象の稼働データ分だけ付加される。
図8は、情報集約サーバ11が有するシステム情報テーブル121とインシデント対応テーブル122のデータ構成を示す。システム情報テーブル121とインシデント対応テーブル122は、優先度判定部111がインシデントの優先度を定義するために読み出されるテーブルである。システム情報テーブル121は、テナントID501、インシデントグループ名502、業務機能503、サービス稼働率504、サービスコアタイム505から構成される。業務機能503は、業務システム22内で稼働する業務機能の名称であり、サービス稼働率504は業務機能503のサービス稼働率を示す。サービスコアタイム505は業務機能503が最も利用される時間帯といったインシデントが発生した際に当該業務機能への影響度が大きい期間を示す。インシデント対応テーブル122は、テナントID511、インシデントグループ名512、インスタンスID513、メッセージ514、復旧リミット時間515、復旧作業時間516、業務機能517から構成される。復旧リミット時間515は、該当するインシデントを復旧しなければならいリミット時間を示し、復旧作業時間516は、そのインシデントに対する復旧作業に要する時間を示す。インシデントが発生した際には、優先度判定部111がインシデント情報400のテナントID401、インシデントグループ名402、インスタンスID403、メッセージ407と合致するか比較し、発生したインシデントがインシデント対応テーブル122に情報が登録されているかを確認する。
図9は、情報集約サーバ11が有する優先度付きインシデント情報テーブル125のデータ構成を示す。優先度付きインシデント情報テーブル125は、テナントID521、インシデントグループ名522、業務機能523、優先度524、インスタンスID525、重大度526、インシデント発生日時527、インシデント種別528、メッセージ529、復旧リミット時間530、復旧作業時間516から構成される。インシデントが発生すると、優先度判定部111で優先度が定義され、インシデント登録部112にて優先度付きインシデント情報テーブル125にインシデント情報が登録される。また、ナビゲーションサーバ12から定期的に情報が取得される。取得されたレコードは削除される。
図10は、情報集約サーバ11が有する稼働データ情報テーブル123と重要稼働データテーブル124のデータ構成を示す。稼働データ情報テーブル123は、テナントID541、インシデントグループ名542、インスタンスID543、取得日時544、稼働データ545から構成される。情報集約サーバ11は、業務サーバ31から受信した稼働データ情報410をそのまま稼働データ情報テーブル123に登録する。重要稼働データテーブル124は、テナントID551、インシデントグループ名552、インスタンスID553、重要稼働データ554から構成される。重要稼働データ554は、業務サーバ31上で取得している複数ある稼働データ323の中で最も重要となる稼働データを運用者によって2つ以上で最大4つまで登録することが可能である。2つのテーブルは、ともにインシデントが発生した際に、優先度判定部111にて優先度を定義する際に読み出されるテーブルである。
図11は、ナビゲーションサーバ12が有するインシデント情報表示テーブル222のデータ構成例を示す。インシデント情報表示テーブル222は、テナントID601、インシデントグループ名602、業務機能603、優先度604、インスタンスID605、インシデントID606、重大度607、インシデント発生日時608、インシデント種別609、メッセージ610、復旧リミット時間611、復旧作業時間612、基盤情報613、センタ情報614から構成される。インシデント情報表示テーブル222は、ユーザからインシデント一覧表示のリクエストが来た際に、インシデント表示部214から読み出されるテーブルである。インシデントID606は、優先度付きインシデント登録部212がインシデント情報表示テーブル222にインシデントを登録する際に生成されるインシデントを識別するIDである。基盤情報613は、業務サーバ31が稼働しているクラウドシステムの名称やオンプレ環境かを示し、センタ情報614は、業務サーバ31が稼働しているセンタの場所を示す。
図12は、ナビゲーションサーバ12が有するシステム基盤情報テーブル221とインシデント対応履歴テーブル223のデータ構成例を示す。システム基盤情報テーブル221は、テナントID621、インシデントグループ名622、インスタンスID623、基盤情報624、センタ情報625から構成され、予め運用担当者によって情報が登録されるテーブルである。また、システム基盤情報テーブル221は、優先度付きインシデント登録部212がインシデント情報表示テーブル222にインシデントを登録する際に呼び出され、該当する基盤情報624、センタ情報625の情報がインシデントに付加される。インシデント対応履歴テーブル223は、テナントID631、インシデントグループ名632、インスタンスID633、インシデントID634、ユーザ名635、ステータス636、登録日時637、対応履歴638から構成される。インシデント対応履歴テーブル223は、インシデント発生時に新規レコードが作成され、ステータス636は「open」、ユーザ名635、対応履歴638は何も情報を入力せずに登録される。ユーザが情報を更新する際に、ユーザ名635には情報を入力したユーザ名が入り、ステータス636には対応内容に応じて「going」、「close」のいずれかが入力され、対応履歴638にはインシデントの対応内容が入力される。
図13は、ナビゲーションサーバ12が有するエスカレーション情報テーブル224のデータ構成を示す。エスカレーション情報テーブル224は、テナントID641、インシデントグループ名642、インスタンスID643、基盤情報644、センタ情報645、連絡先646から構成される。連絡先646は複数指定することができ、運用者によって自由に登録するこが可能である。エスカレーション情報テーブル224は、インシデント発生時にインシデントに対応する通知先として情報が読み出される。また、業務サーバ31が別クラウドシステムに移行した際には、移行先のクラウドシステムの情報に基盤情報644、センタ情報645、連絡先646が更新される。
図14は、ナビゲーションサーバ12が表示するインシデント一覧700の画面を示す。画面構成は優先度の高いインシデントを表示する「重要インシデント711」一覧を上部に、優先度の低いインシデントを表示する「インシデント712」一覧を下部に配置し、優先度によって一覧表示を区別した画面構成である。それぞれの一覧には、インシデント情報表示テーブル222から読み出された復旧リミット時間611、復旧作業時間612と現在時刻をもとに算出する「残り時間」の情報が表示され、「残り時間」が小さい順にインシデントが表示される。復旧リミット時間611が登録されていないインシデントは「残り時間」には「-」が表示される。また、「インシデント712」一覧で表示されているインシデントは、「残り時間」が時間の経過とともに小さくなっていき、3時間以下になると優先度が「高」に変更され、「重要インシデント711」一覧側で表示される。また、任意の文字列を入力して特定のインシデントのみ抽出可能な検索機能も有している。
図15は、ナビゲーションサーバ12が表示するインシデント詳細表示720の画面を示す。インシデント詳細表示720は、インシデント一覧700で表示されているインシデントを一つ選択し、選択した状態でインシデント詳細表示701のボタンをクリックした際の遷移先の画面である。画面は、インシデント一覧700では表示されない「基盤情報」や「センタ情報」、インシデントの影響を受ける「業務機能」などの情報をインシデント情報表示テーブル222から読み出し表示する構成となっている。
図16は、監視サーバの動作を示すフローチャートである。
ステップ801:稼働データ監視部302は、稼働データ監視テーブル312から監視対象の稼働データと閾値の情報を読み出し、該当する稼働データ323の数値を取得する。
ステップ802:稼働データ監視部302は、取得した数値と閾値を比較し、閾値を超えていた場合は、ステップ805へ移る。
ステップ803:稼働データ監視部302は、送信部303を呼び出し、取得した稼働データ323から稼働データ情報410を生成し、情報集約サーバ11に送信する。
ステップ804:稼働データ監視部302は、定義された監視間隔だけ待機し、ステップ801に戻る。
ステップ805:稼働データ監視部302は、インシデント生成部313を呼び出し、インシデント情報400を生成する。 ステップ806:稼働データ監視部302は、送信部303を呼び出し、生成したインシデント情報400を情報集約サーバ11に送信し、ステップ803に移る。
図17は、監視サーバ350のログ監視の動作を示すフローチャートである。
ステップ811:ログ監視部301は、ログ監視テーブル313から監視対象のログと監視文字列の情報を読み出し、該当するOSイベントログ321や業務ログ322の情報を取得する。
ステップ812:ログ監視部301は、取得したログ情報が更新されているか確認し、更新されていいなかった場合は、ステップ816へ移る。
ステップ813:ログ監視部301は、取得したログ情報と監視文字列が一致するか比較し、一致しない場合は、ステップ816へ移る。
ステップ814:ログ監視部301は、インシデント生成部313を呼び出し、インシデント情報400を生成する。
ステップ815:ログ監視部301は、送信部303を呼び出し、生成したインシデント情報400を情報集約サーバ11に送信する。
ステップ816:ログ監視部301は、定義された監視間隔だけ待機し、ステップ811に戻る。
次に、情報集約サーバ11の処理について説明する。情報集約サーバ11は受信部101経由で監視サーバ350から送信された稼働データやインシデント情報を受信し、稼働データ登録部113が稼働データ情報テーブル123へ登録する。情報集約サーバ11が受け持つ全ての監視サーバ350からの情報を受け取り、受け取った稼働データやインシデント情報をマージして保管する。
図18は、情報集約サーバ11がインシデントに優先度を定義する動作を示すフローチャートである。
ステップ821:情報集約サーバ11は、監視サーバ350から送信されたインシデント情報400を受信部101から受信する。
ステップ822:優先度判定部111は、インシデント対応テーブル122を読み出し、受信したインシデント情報400が、インシデント対応テーブル122に登録されているインシデントか比較する。
ステップ823:インシデント情報400がインシデント対応テーブル122に登録されていなかった場合は、ステップ830に移る。
ステップ824:優先度判定部111は、インシデント対応テーブル122から該当する業務機能517の情報を抽出し、インシデント情報400に付加する。
ステップ825:優先度判定部111は、インシデント対応テーブル122から該当する復旧リミット時間515を読み出し、復旧リミット時間515が登録されていない場合は、ステップ831に移る。
ステップ826:優先度判定部111は、インシデント対応テーブル122から該当する復旧リミット時間515、復旧作業時間516を抽出し、インシデント情報400に付加する。
ステップ827:抽出した復旧リミット時間515が3時間を超える場合は、ステップ831に移る。
ステップ828:優先度判定部111は、インシデント情報400に優先度情報「高」を付加する。
ステップ829:優先度判定部111は、インシデント登録部112を呼び出し、インシデント情報400を優先度付きインシデント情報テーブル125に登録する。
ステップ830:優先度判定部111は、インシデント情報400に優先度情報「低」を付加し、ステップ829に移る。
図19は、情報集約サーバ11がインシデントに優先度を定義する動作を示すフローチャートである。
ステップ841:優先度判定部111は、システム情報テーブル121から、インシデント情報400のテナントID401、インシデントグループ名402、ステップ824でインシデント情報400に付加した業務機能517が一致するレコードを読み出し、該当するレコードのサービス稼働率504の情報を取得する。
ステップ842:サービス稼働率504が99.7%以上の場合、ステップ848に移る。
ステップ843:優先度判定部111は、ステップ841で読み出したレコードのサービスコアタイム505の情報を取得する。
ステップ844:優先度判定部111は、重要稼働データテーブル124から、インシデント情報400のテナントID401、インシデントグループ名402、インスタンスID403と一致するレコードを読み出し、該当するレコードの重要稼働データ554の情報を取得する。優先度判定部111は、さらに稼働データテーブル123から、インシデント情報400のテナントID401、インシデントグループ名402、インスタンスID403と一致するレコードを読み出し、重要稼働データ554と一致する稼働データ545を取得する。
ステップ845:インシデント情報400のインシデント発生日時405が、ステップ842で取得したサービスコアタイム505内であり、かつステップ844で取得した稼働データ545の内、閾値を超過したデータが2つ以上ある場合は、ステップ848へ移る。
ステップ846:優先度判定部111は、インシデント情報400に優先度情報「低」を付加することによりインシデントの優先順位を下げることが可能となる。
ステップ847:優先度判定部111は、インシデント登録部112を呼び出し、インシデント情報400を優先度付きインシデント情報テーブル125に登録する。登録されたインシデント情報は集められた複数のクラウドシステムのインシデント情報がマージされているため、このクラウド管理システムが管理しているシステム内で発生しているインシデントのうち、最も優先度の高いインシデントから出力していくことが可能となる。
ステップ848:優先度判定部111は、インシデント情報400に優先度情報「高」を付加し、ステップ847に移る。
図20は、ナビゲーションサーバ12がインシデントを取得・登録する動作のフローチャートである。
ステップ861:ナビゲーションサーバ12は、インシデント取得部211から情報集約サーバ11に接続する。
ステップ862:インシデント取得部211は、情報集約サーバ11の優先度付きインシデント情報テーブル125から未取得のインシデント情報を取得する。
ステップ863:優先度付きインシデント登録部212は、取得したインシデント情報とシステム基盤情報テーブル221のテナントID621、インシデントグループ名622、インスタンスID623を比較し、一致するレコードを読み出し、該当するレコードの基盤情報624、センタ情報625の情報を取得する。
ステップ864:優先度付きインシデント登録部212は、基盤情報624、センタ情報625を取得したインシデント情報に付加する。
ステップ865:優先度付きインシデント登録部212は、インシデントを識別するインシデントIDを生成し、インシデント情報に付加する。
ステップ866:インシデント対応履歴登録部213は、インシデント対応履歴テーブル223に新規レコードを追加し、テナントID631、インシデントグループ名632、インスタンスID、インシデントIDにはインシデント情報を入力する。ステータス636には「open」を入力し、ユーザ名635、対応内容637には何も入力しない。
ステップ867:優先度付きインシデント登録部212は、インシデント情報をインシデント情報表示テーブル222に登録する。
ステップ868:インシデント取得部211は、情報集約サーバ11の優先度付きインシデント情報テーブル125のインシデント情報を全て取得していない場合は、ステップ862に移る。
ステップ869:インシデント取得部211は、定義された監視間隔だけ待機し、ステップ861に移る。
図21は、ナビゲーションサーバ12がインシデント一覧画面700を表示する動作のフローチャートである。
ステップ881:ナビゲーションサーバ12は、ユーザからインシデント一覧画面700の要求を受け付ける。
ステップ882:ナビゲーションサーバ12のインシデント表示部214は、インシデント情報表示テーブル222からインシデント情報を取得する。
ステップ883:インシデント表示部214は、取得したインシデント情報の復旧リミット時間611が登録されていない場合は、ステップ889に移る。
ステップ884:インシデント表示部214は、(インシデント発生日時608+復旧リミット時間611)−(現在時刻+復旧作業時間612)で「残り時間」を算出する。
ステップ885:インシデント情報の優先度604が「高」の場合は、ステップ887に移る。
ステップ886:ステップ884で算出した「残り時間」が3時間以下の場合は、ステップ890に移る。
ステップ887:インシデント表示部214は、「残り時間」の情報をインシデント情報に付加する。
ステップ888:インシデント表示部214は、インシデント対応履歴テーブル223からインシデントID634が一致するレコードのステータス636を読み出し、インシデント情報に付加する。
ステップ889:インシデント表示部214は、優先度に応じて、インシデント情報を
インシデント一覧画面700に表示する。インシデントの発生している業務サーバと同じ物理計算機で稼働している他の業務サーバが有る場合には、当該業務サーバについてもインシデントの影響を受けることを示す情報をインシデント画面700に追加しても良い。
ステップ890:インシデント表示部214は、インシデント情報の優先度を「高」に変更し、ステップ887に移る。
図22は、業務サーバ31が他クラウドシステムへ移行した時の動作のフローチャートである。
ステップ901:業務サーバ31が他のクラウドシステムへ移行する。
ステップ902:業務サーバ31は、送信部303から移行先クラウドシステム情報をナビゲーションサーバ12に送信する。
ステップ903:ナビゲーションサーバ12は、システム基盤情報登録部215を呼び出し、システム基盤情報テーブル221内の移行した業務サーバ31に該当するレコードを読み出し、基盤情報624、センタ情報625を移行先クラウドシステム情報に更新する。
ステップ904:ナビゲーションサーバ12は、メール送信部216を呼び出し、移行した業務サーバ31から送信された移行先クラウドシステム情報から、エスカレーション情報テーブル224内でテナントID641、基盤情報644、センタ情報645と一致するレコードの連絡先646を取得する。
ステップ905:メール送信部216は、連絡先646へ業務サーバ31が移行したことを通知する。
10・・・クラウド管理システム、11・・・情報集約サーバ、12・・・ナビゲーションサーバ、13・・・テナント、31・・・業務サーバ、101・・・受信部、102・・ネットワークインタフェース部、111・・・優先度判定部、112・・・インシデント登録部、113・・・稼働データ登録部、121・・・システム情報テーブル、122・・・インシデント対応テーブル、123・・・稼働データ情報テーブル、124・・・重要稼働データテーブル、125・・・優先度付きインシデント情報テーブル、201・・・表示部、214・・・インシデント一覧表示部、222・・・インシデント情報表示テーブル、301・・・ログ監視部、302・・・稼働データ監視部、321・・・OSイベントログ、322・・・業務ログ、323・・・稼働データ、700・・・インシデント一覧画面、720・・・インシデント詳細表示画面。

Claims (12)

  1. 複数のクラウドシステムで稼働する仮想計算機上で動作する複数テナントの業務サーバのインシデントを管理するクラウド管理システムであって、
    前記業務サーバからのインシデント情報を受信しマージするインシデント受信部と、
    マージされたインシデント情報の種別と発生時刻に基づいてインシデントの前記複数のクラウドシステム内での優先度を求める優先度判定部と、
    求められた優先度に従ってインシデント情報を出力する出力部を備えることを特徴とするクラウド管理システム。
  2. 業務サーバ毎にインシデントの種別と発生時刻に応じたインシデント優先度を記載した優先度情報を備え、
    優先度判定部が優先度テーブルの情報に基づいて発生したインシデントの優先度を求めることを特徴とする請求項1に記載のクラウド管理システム。
  3. 業務サーバ毎の負荷を測定するサーバ負荷測定部を備え、
    サーバ負荷測定部が測定した業務サーバ負荷が予め定められた値を超える時間帯は当該業務サーバのインシデント優先度を上げる優先度調整部を備えることを特徴とする請求項2に記載のクラウド管理システム。
  4. 業務サーバ毎の負荷を測定するサーバ負荷測定部を備え、
    サーバ負荷測定部が測定した業務サーバ負荷が予め定められた値を下回った時間帯は当該業務サーバのインシデント優先度を下げる優先度調整部を備えることを特徴とする請求項2に記載のクラウド管理システム。
  5. 前記優先度情報はさらにインシデントに対応した復旧時間に関する情報を格納し、
    出力部がインシデントと対応付けてインシデントの対応に必要な残り時間に関する情報を出力することを特徴とする請求項2−4のいずれか1項に記載のクラウド管理システム。
  6. 仮想計算機が他のクラウドシステムへ移動したとき、移動した仮想計算機で動作する業務サーバのインシデントに関する情報を移動元クラウドシステムから移動先クラウドシステムへ変更し、移動先クラウドシステムのインシデントとして出力することを特徴とする請求項4に記載のクラウド管理システム。
  7. 複数のクラウドシステムで稼働する仮想計算機上で動作する複数テナントの業務サーバのインシデントを管理するクラウド管理方法であって、
    インシデント受信部が前記業務サーバからのインシデント情報を受信しマージし、
    優先度判定部がマージされたインシデント情報の種別と発生時刻に基づいてインシデントの前記複数のクラウドシステム内での優先度を求め、
    出力部が求められた優先度に従ってインシデント情報を出力することを特徴とするクラウド管理方法。
  8. 業務サーバ毎にインシデントの種別と発生時刻に応じたインシデント優先度を記載した優先度情報を含み、
    優先度判定部が優先度テーブルの情報に基づいて発生したインシデントの優先度を求めることを特徴とする請求項7に記載のクラウド管理方法。
  9. サーバ負荷測定部が業務サーバ毎の負荷を測定し、
    優先度調整部がサーバ負荷測定部が測定した業務サーバ負荷が予め定められた値を超える時間帯は当該業務サーバのインシデント優先度を上げることを特徴とする請求項8に記載のクラウド管理方法。
  10. サーバ負荷測定部が業務サーバ毎の負荷を測定し、
    優先度調整部はサーバ負荷測定部が測定した業務サーバ負荷が予め定められた値を下回った時間帯は当該業務サーバのインシデント優先度を下げることを特徴とする請求項8に記載のクラウド管理方法。
  11. 前記優先度情報はさらにインシデントに対応した復旧時間に関する情報を格納し、
    出力部がインシデントと対応付けてインシデントの対応に必要な残り時間に関する情報を出力することを特徴とする請求項8−10のいずれか1項に記載のクラウド管理方法。
  12. 仮想計算機が他のクラウドシステムへ移動したとき、移動した仮想計算機で動作する業務サーバのインシデントに関する情報を移動元クラウドシステムから移動先クラウドシステムへ変更し、出力部は移動先クラウドシステムのインシデントとしてインシデントを出力することを特徴とする請求項10に記載のクラウド管理方法。
JP2015164372A 2015-08-24 2015-08-24 クラウド管理方法及びクラウド管理システム Active JP6482984B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015164372A JP6482984B2 (ja) 2015-08-24 2015-08-24 クラウド管理方法及びクラウド管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015164372A JP6482984B2 (ja) 2015-08-24 2015-08-24 クラウド管理方法及びクラウド管理システム

Publications (2)

Publication Number Publication Date
JP2017045079A JP2017045079A (ja) 2017-03-02
JP6482984B2 true JP6482984B2 (ja) 2019-03-13

Family

ID=58211263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015164372A Active JP6482984B2 (ja) 2015-08-24 2015-08-24 クラウド管理方法及びクラウド管理システム

Country Status (1)

Country Link
JP (1) JP6482984B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018205816A (ja) * 2017-05-30 2018-12-27 富士通株式会社 情報処理システム、情報処理装置、および管理プログラム
JP6977650B2 (ja) * 2018-03-30 2021-12-08 富士通株式会社 異常検出方法、異常検出プログラム、及び異常検出装置
JP7180252B2 (ja) * 2018-09-28 2022-11-30 富士通株式会社 インシデント管理プログラム、インシデント管理装置及びインシデント管理方法
CN113190415A (zh) * 2021-05-27 2021-07-30 北京京东拓先科技有限公司 互联网医院系统监控方法、设备、存储介质及程序产品
CN113419928A (zh) * 2021-07-16 2021-09-21 中国建设银行股份有限公司 一种监控告警方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5469011B2 (ja) * 2010-08-05 2014-04-09 株式会社野村総合研究所 インシデント管理システム、障害影響範囲可視化方法
US8904242B2 (en) * 2011-09-08 2014-12-02 Nec Corporation Cloud service recovery time prediction system, method and program
JP5686199B2 (ja) * 2011-09-22 2015-03-18 富士通株式会社 サーバ装置、ログ転送プログラム、ログ転送方法およびログ転送システム
JP2013222313A (ja) * 2012-04-17 2013-10-28 Hitachi Ltd 障害連絡効率化システム
JP6310689B2 (ja) * 2013-12-16 2018-04-11 株式会社日立製作所 管理サーバおよび管理サーバの制御方法

Also Published As

Publication number Publication date
JP2017045079A (ja) 2017-03-02

Similar Documents

Publication Publication Date Title
JP6482984B2 (ja) クラウド管理方法及びクラウド管理システム
US10462027B2 (en) Cloud network stability
JP6959736B2 (ja) ネットワーク障害のトラブルシューティング・オプションの識別
JP5719974B2 (ja) 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
JP5914669B2 (ja) サービス性能監視方法
KR101971013B1 (ko) 빅데이터 기반의 클라우드 인프라 실시간 분석 시스템 및 그 제공방법
WO2013140608A1 (ja) イベントの根本原因の解析を支援する方法及びシステム
US8381038B2 (en) Management server and management system
WO2013098915A1 (ja) 管理サーバ、管理システム、および、管理方法
US11329869B2 (en) Self-monitoring
US20160212068A1 (en) Information processing system and method for controlling information processing system
JPWO2013140633A1 (ja) 交換候補提示方法、情報処理装置、及びプログラム
US20160170847A1 (en) Generating a data structure to maintain error and connection information on components and use the data structure to determine an error correction operation
JP2010231293A (ja) 監視装置
JP5544929B2 (ja) 運用管理装置、運用管理方法、運用管理プログラム
JP2016181021A (ja) 情報処理装置、情報処理プログラム、情報処理方法、及びデータセンタシステム
JP2016072668A (ja) 影響範囲特定装置、影響範囲特定方法、及びプログラム
JP2014191513A (ja) 管理装置、管理方法及び管理プログラム
US20240211358A1 (en) System management apparatus, system management method, and system management program
WO2017068669A1 (ja) イベント検知端末
EP3798950A1 (en) Management and aggregation of ticket data from multiple sources
JP5993052B2 (ja) 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
JP5624683B2 (ja) 管理サーバ、管理システム、および、管理方法
JP2020046870A (ja) 保守支援装置、保守支援システム、保守支援方法及びプログラム
Sathyanarayanan Reliablity, resiliency and fault management in network function virtualization

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170111

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190213

R150 Certificate of patent or registration of utility model

Ref document number: 6482984

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150