JP2018190205A - 事業者間一括サービス管理装置および事業者間一括サービス管理方法 - Google Patents

事業者間一括サービス管理装置および事業者間一括サービス管理方法 Download PDF

Info

Publication number
JP2018190205A
JP2018190205A JP2017092617A JP2017092617A JP2018190205A JP 2018190205 A JP2018190205 A JP 2018190205A JP 2017092617 A JP2017092617 A JP 2017092617A JP 2017092617 A JP2017092617 A JP 2017092617A JP 2018190205 A JP2018190205 A JP 2018190205A
Authority
JP
Japan
Prior art keywords
service
component
failure
sla
provider
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017092617A
Other languages
English (en)
Other versions
JP6926646B2 (ja
Inventor
伸夫 小内
Nobuo Kouchi
伸夫 小内
求 中島
Motomu Nakajima
求 中島
謙輔 高橋
Kensuke Takahashi
謙輔 高橋
侑一 須藤
Yuichi Sudo
侑一 須藤
裕司 副島
Yuji Soejima
裕司 副島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017092617A priority Critical patent/JP6926646B2/ja
Publication of JP2018190205A publication Critical patent/JP2018190205A/ja
Application granted granted Critical
Publication of JP6926646B2 publication Critical patent/JP6926646B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】パートナー事業者から提供される構成要素サービスを連携させた連携サービスを監視して故障解析を可能とする。【解決手段】サービス状態管理部131は、連携サービスと構成要素サービスを関連付けた利用状況DB150を参照して、連携サービスから構成要素サービスを抽出して、下位の構成要素サービスから順番に、SLA管理部132にSLA判定を指示する。SLA管理部132は、サービスに関連するSLA判定ルールをプロダクトリソースDB170から取得して、SLA判定を実行して違反と判定されれば、当該サービスを故障と判断する。【選択図】図4

Description

本発明は、パートナー事業者が提供するサービスを組み合わせた連携サービスを可能とする事業者間一括サービス管理装置および事業者間一括サービス管理方法に関する。
現在、ネットワークサービス、計算機基盤サービスおよびアプリケーションサービスなど各種サービスを提供している卸サービス事業者が出現している。これに伴い、エンドユーザにサービスを提供するサービス事業者の中には、自社で資産を保有せず、卸サービス事業者(パートナー事業者)が提供するサービスを組み合わせて独自サービスを提供するサービス事業者も現れている。ネットワークサービスとは、広域イーサネットサービス(イーサネットは登録商標)、IP−VPN(Internet Protocol Virtual Private Network)サービス、MVNO(Mobile Virtual Network Operator)が提供する移動体通信などのサービスである。計算機基盤サービスは、IaaS(Infrastructure as a Service)と呼ばれる仮想計算機が利用できるサービスである。アプリケーションサービスは、メールやネットストレージ、Webサーバなど各種アプリケーションが利用できるサービスである。他にも、ファイアウォールのようなゲートウェイのサービス、データベースサーバのようなストレージのサービスが提供されている。
パートナー事業者が提供するサービスを組み合わせた連携サービスの例として、Webサイトのレンタルサービスがある。Webサイトのレンタルサービス事業者は、Webサーバが稼働する計算機基盤サービスと、Webサーバが利用するデータベースサーバのサービスと、Webサーバをネットワーク攻撃から保護するファイアウォールのサービスとを連携させて、エンドユーザに連携させたサービスを提供する。
各々のパートナー事業者は、サービスをAPI(Application Programming Interface)を介して提供している。例えば、上記のWebサイトのレンタルサービスを提供するサービス事業者は、以下のような手順でAPIを呼び出してサービスを開始する。(1)サービス事業者は、CPU(Central Processing Unit)の仕様やメモリサイズなどを指定して仮想計算機を起動するAPIを呼び出し、Webサーバを起動する。(2)サービス事業者は、ファイアウォールやデータベースサーバを、APIを呼び出して起動する。(3)サービス事業者は、Webサーバとファイアウォールとデータベースサーバとが通信できるように、ネットワークで接続する設定のAPIを呼び出す。(4)サービス事業者は、ファイアウォールとインターネットとを接続する設定のAPIを呼び出す。このように、Webサーバのレンタルサービスの構成要素となるサービスが呼び出され、続いて構成要素のサービスが連携するように設定されることで、連携サービスが生成(起動)されて、エンドユーザに提供される。
他の連携サービスの例として、クラウド環境のレンタルサービスがある。具体例としてファイル共有サービスがあり、企業が利用する場合を例にして説明する。このサービスは、ファイル共有サービスそのものを提供するネットストレージのサービス、ネットストレージと利用者である企業の社内ネットワークとを接続するIP−VPNサービス、および、ネットワーク攻撃からネットストレージを保護するファイアウォールのサービスを構成要素として含む。サービス事業者は、ネットストレージとファイアウォールのサービスをAPIを用いて呼び出して起動し、続いて、ネットストレージとIP−VPNとを接続するAPI、ネットストレージとファイアウォールとを接続するAPI、および、ファイアウォールとインターネットとを接続するAPIを呼び出す。Webサイトのレンタルサービスと同様に、構成要素のサービスが呼び出されて、連携するように設定されて、1つのサービスとしてエンドユーザに提供される。
一方、パートナー事業者と同様に連携サービスを提供する事業者(連携サービス事業者)も、連携サービスがサービス契約書に含まれるSLA(Service Level Agreement)に記載された性能や品質を順守していることを監視する必要がある。また、連携サービス事業者は、連携サービスの障害(故障)を検出したり、故障の影響範囲(罹障範囲)を特定したりする必要がある。さらに、連携サービス事業者は、連携サービスの故障を検出した場合には、構成要素のどのサービスに故障があるかを特定する一次切り分けを行う必要がある。
連携サービスの稼働状況の監視に関しては、非特許文献1に記載の技術がある。この技術を用いれば、連携サービスを構成する各構成要素のサービスの監視項目を組み合わせて、新たな監視区間(監視エリア)を生成することができる。
尾居愛子, 大西浩行, 木村秀明, "監視項目および監視区間の自動紐付け方法," 2016年電子情報通信学会通信ソサイエティ大会, B-14-11.
非特許文献1の技術を用いれば、構成要素であるサービスの監視項目間の関連性や関連性に紐づく監視対象を把握することができる。しかしながら、連携サービスに故障が発生した場合の、故障の一次切り分けや故障の影響範囲の特定、故障箇所の絞込みについては、非特許文献1には記載がない。このために、連携サービスに故障が発生したときに、故障の一次切り分けや故障の影響範囲の特定、故障個所の絞込みなどの故障解析(故障判断)ができず、故障への対応が遅れてしまうという問題がある。結果として、連携サービスの品質や信頼性が低下してしまう問題が生じる。
本発明は、このような背景を鑑みてなされたのであり、連携サービスを監視して、故障解析を可能とする事業者間一括サービス管理装置および事業者間一括サービス管理方法を提供することを課題とする。
前記した課題を解決するため、請求項1に記載の発明は、サービスを提供するサーバと、複数の前記サービスを構成要素サービスとして連携させた連携サービスを利用するサービス事業者の計算機とネットワークを介して接続され、前記連携サービスを提供する事業者間一括サービス管理装置であって、前記連携サービスと当該連携サービスを構成する複数の前記構成要素サービスとを関連付けた情報が格納される利用状況データベースを記憶する記憶部と、前記構成要素サービスまたは前記連携サービスに関連付けられ、前記構成要素サービスまたは前記連携サービスが所定のサービスレベルを順守しているか違反しているかの判定の規則を示すサービスレベル順守判定ルールに従って、前記構成要素サービスと前記連携サービスとのそれぞれが、前記所定のサービスレベルを順守しているかまたは違反しているかのサービスレベル順守判定を実行するサービスレベル順守判定部と、前記利用状況データベースを参照して、前記連携サービスから前記構成要素サービスを抽出し、抽出された前記構成要素サービスが前記連携サービスならばさらに前記構成要素サービスを抽出することを繰り返し、抽出された下位の構成要素サービスから順番に前記サービスレベル順守判定部に前記サービスレベル順守判定を指示して、前記連携サービスの稼働状態を判定するサービス状態判定を実行するサービス状態管理部とを備えることを特徴とする事業者間一括サービス管理装置とした。
また、請求項8に記載の発明は、サービスを提供するサーバと、複数の前記サービスを構成要素サービスとして連携させた連携サービスを利用するサービス事業者の計算機とネットワークを介して接続され、前記連携サービスを提供する事業者間一括サービス管理装置の事業者間一括サービス管理方法であって、前記事業者間一括サービス管理装置は、前記連携サービスと当該連携サービスを構成する複数の前記構成要素サービスとを関連付けた情報が格納される利用状況データベースを備えており、前記構成要素サービスまたは前記連携サービスに関連付けられ、前記構成要素サービスまたは前記連携サービスが所定のサービスレベルを順守しているか違反しているかの判定の規則を示すサービスレベル順守判定ルールに従って、前記構成要素サービスと前記連携サービスとのそれぞれが、前記所定のサービスレベルを順守しているかまたは違反しているかのサービスレベル順守判定を実行するサービスレベル順守判定ステップと、前記利用状況データベースを参照して、前記連携サービスから前記構成要素サービスを抽出し、抽出された前記構成要素サービスが前記連携サービスならばさらに前記構成要素サービスを抽出することを繰り返し、抽出された下位の構成要素サービスから順番に前記サービスレベル順守判定ステップを実行して、前記連携サービスの稼働状態を判定するサービス状態判定を実行するサービス状態管理ステップとを実行することを特徴とする事業者間一括サービス管理方法とした。
上記の構成により、事業者間一括サービス管理装置は、連携サービスの下位の構成要素サービスからサービスレベル順守判定ルール(SLA判定ルール)に従って、サービスがサービスレベルを順守しているかを判断するサービスレベル順守判定(SLA判定)を実行する。下位の構成要素サービスからSLA判定することで、事業者間一括サービス管理装置は、連携サービスを構成するどの構成要素サービスに故障があるかを特定することができ、連携サービスの故障の一次切り分けが可能となる。
請求項2に記載の発明は、前記サービスレベル順守判定部が、前記構成要素サービスに対して前記サービスレベル順守判定を実行するときに、前記構成要素サービスに関連付けられた前記サービスレベル順守判定ルールに従って、前記構成要素サービスを提供する前記サーバから取得された前記構成要素サービスの性能情報を参照して前記サービスレベル順守判定を実行することを特徴とする請求項1に記載の事業者間一括サービス管理装置とした。
上記の構成により、事業者間一括サービス管理装置は、構成要素サービスを提供するサーバから構成要素サービスの性能情報を収集して構成要素サービスのSLA判定を実行する。こうすることで、構成要素サービスごとに性能情報を取得する機能を開発する必要がなく、既にある構成要素サービスの機能を使ってSLA判定を実行することが可能となり、事業者間一括サービス管理装置は、性能情報を取得する機能を開発する場合と比べて低コストかつ短期間で新しい構成要素サービスを利用して連携サービスを提供することができるようになる。
請求項3に記載の発明は、前記サービスレベル順守判定部が、前記連携サービスに対して前記サービスレベル順守判定を実行するときに、前記連携サービスに関連付けられた前記サービスレベル順守判定ルールに従って、前記連携サービスの前記構成要素サービスを提供する前記サーバから取得された前記構成要素サービスの性能情報を参照して前記サービスレベル順守判定を実行することを特徴とする請求項1に記載の事業者間一括サービス管理装置とした。
上記の構成により、事業者間一括サービス管理装置は、構成要素サービスを提供するサーバから構成要素サービスの性能情報を収集して連携サービスのSLA判定を実行する。こうすることで事業者間一括サービス管理装置は、構成要素サービスの性能情報を組み合わせて連携サービスに対するSLA判定を実行することができ、連携サービスの特徴にあわせたSLA判定を実行することが可能となる。
請求項4に記載の発明は、前記サービスレベル順守判定部が、前記連携サービスに対して前記サービスレベル順守判定を実行するときに、前記連携サービスに関連付けられた前記サービスレベル順守判定ルールに従って、前記構成要素サービスに対する前記サービスレベル順守判定の結果を用いて前記連携サービスについての前記サービスレベル順守判定を実行することを特徴とする請求項1に記載の事業者間一括サービス管理装置とした。
上記の構成により、事業者間一括サービス管理装置は、構成要素サービスのSLA判定結果に基づいて連携サービスに対するSLA判定を実行する。こうすることで事業者間一括サービス管理装置は、構成要素サービスのSLA判定を組み合わせて連携サービスのSLA判定を実行することができ、容易に連携サービスのSLA判定ルールを開発することが可能となる。
請求項5に記載の発明は、前記利用状況データベースの情報が、前記連携サービスの種別と、前記構成要素サービスの種別と、前記連携サービスの状態として正常、故障、故障疑の何れか1つの値を含む状態とをさらに関連付けた情報であり、前記構成要素サービスを提供する前記サーバから前記構成要素サービスの故障の通知があった場合に、前記利用状況データベースを参照して、前記故障の通知のあった前記構成要素サービスの種別と同じ種別の構成要素サービスを構成要素サービスとしている前記連携サービスについて、当該連携サービスに対応する前記利用状況データベースの前記状態を故障疑とし、当該連携サービスに対する前記サービス状態判定を前記サービス状態管理部に指示して、当該連携サービスまたはその構成要素サービスに対する前記サービスレベル順守判定で違反となったときには、当該連携サービスに対応する前記利用状況データベースの前記状態を故障疑から故障に変更し、当該連携サービスおよびその構成要素サービスに対する前記サービスレベル順守判定で順守となったときには、当該連携サービスに対応する前記利用状況データベースの前記状態を故障疑から正常に変更するシナリオ管理部をさらに備えることを特徴とする請求項1に記載の事業者間一括サービス管理装置とした。
上記の構成により、事業者間一括サービス管理装置は、構成要素サービスを提供するサーバから故障の通知を受け、このサービスと同種のサービスまたはその同種のサービスを構成要素サービスとする連携サービスのSLA判定を実行する。こうすることで事業者間一括サービス管理装置は、故障の通知のあったサービスと同種のサービスの故障を検出することでき、同種であるが異なるサービスの故障の通知がなくても構成要素サービスおよびその構成要素サービスを構成要素とする連携サービスの故障を検出することができる。
請求項6に記載の発明は、前記利用状況データベースの情報が、前記連携サービスの種別と、前記連携サービスの状態として正常、故障、故障疑の何れか1つの値を含む状態とをさらに関連付けた情報であり、前記サービス事業者の計算機から前記連携サービスの故障の通知があった場合に、前記利用状況データベースを参照して、前記故障の通知のあった前記連携サービスの種別と同じ種別の前記連携サービスについて、当該連携サービスに対応する前記利用状況データベースの前記状態を故障疑とし、当該連携サービスに対する前記サービス状態判定を前記サービス状態管理部に指示して、当該連携サービスまたはその構成要素サービスに対する前記サービスレベル順守判定で違反となったときには、当該連携サービスに対応する前記利用状況データベースの前記状態を故障疑から故障に変更し、当該連携サービスおよびその構成要素サービスに対する前記サービスレベル順守判定で順守となったときには、当該連携サービスに対応する前記利用状況データベースの前記状態を故障疑から正常に変更するシナリオ管理部をさらに備えることを特徴とする請求項1に記載の事業者間一括サービス管理装置とした。
上記の構成により、事業者間一括サービス管理装置は、連携サービスの利用者であるサービス事業者から故障の通知を受け、同種のサービスのSLA判定を実行する。こうすることで事業者間一括サービス管理装置は、故障の通知のあったサービスと同種のサービスの故障を検出することでき、故障を通知したサービス事業者とは別のサービス事業者からの通知がなくても連携サービスの故障を検出することができる。
請求項7に記載の発明は、前記利用状況データベースの情報が、前記連携サービスの前記サービス事業者をさらに関連付けた情報であり、前記シナリオ管理部は、前記サービス事業者ごとに、前記状態が故障である連携サービスのカウントする、前記サービス事業者ごとに、前記状態が故障疑である連携サービスのカウントする、前記連携サービスの種別ごとに、前記状態が故障である連携サービスのカウントする、前記連携サービスの種別ごとに、前記状態が故障疑である連携サービスのカウントするの何れかを実行することを特徴とする請求項5または請求項6に記載の事業者間一括サービス管理装置とした。
上記の構成により、事業者間一括サービス管理装置は、故障したサービスや故障が疑われるサービス、サービス事業者ごとの故障したサービス、サービス事業者ごとの故障が疑われるサービスをカウントする。こうすることで事業者間一括サービス管理装置は、連携サービスの稼働状況をわかりやすく事業者間一括サービス管理装置の管理者に提供することができる。
本発明によれば、連携サービスを監視して、故障解析を可能とする事業者間一括サービス管理装置および事業者間一括サービス管理方法を提供することができる。
本実施形態に係る事業者間一括サービス管理装置を含めた連携サービスシステムの全体構成を示す図である。 本実施形態に係る事業者間一括サービス管理装置が提供する連携サービスの定義および生成を説明するための図である。 本実施形態に係る事業者間一括サービス管理装置が提供する連携サービスのSLA判定による故障解析を説明するための図である。 本実施形態に係る事業者間一括サービス管理装置の構成例を示す機能ブロック図である。 本実施形態に係る利用状況DB(DataBase)のデータ構成例を示す図である。 本実施形態に係る性能情報DBのデータ構成例を示す図である。 本実施形態に係るプロダクトリソースDBのデータ構成例を示す図である。 本実施形態に係る性能管理項目DBのデータ構成例を示す図である。 本実施形態に係る事業者間一括サービス管理装置が実行する、定期監視を契機とするSLA判定処理を示すシーケンス図である。 本実施形態に係る事業者間一括サービス管理装置が実行する、サービス事業者からのトラブルチケット受領を契機とするSLA判定処理を説明するための図である。 本実施形態に係る事業者間一括サービス管理装置が実行する、パートナー事業者からのSLA違反通知を契機とするSLA判定処理を説明するための図である。
≪全体構成≫
以下、本発明の実施形態を、図面を参照しながら説明する。本発明である事業者間一括サービス管理装置の構成や処理内容を説明する前に、事業者間一括サービス管理装置が提供する連携サービスや連携サービスの故障解析(故障判断)の概要を説明する。
図1は、本実施形態に係る事業者間一括サービス管理装置100を含めた連携サービスシステム101の全体構成を示す図である。連携サービスシステム101は、事業者間一括サービス管理装置100や連携サービスを利用するサービス事業者210の計算機211の他に、パートナー事業者が保有し、構成要素となるサービスを提供するアプリケーションサーバ220と、計算機基盤サーバ230と、ネットワークサーバ240とを含んで構成される。
事業者間一括サービス管理装置100とサービス事業者210の計算機211とは、ネットワーク291によって接続される。アプリケーションサーバ220と、計算機基盤サーバ230と、ネットワークサーバ240とは、ネットワーク292を介して事業者間一括サービス管理装置100と接続される。また、アプリケーションサーバ220と計算機基盤サーバ230とはネットワーク293を介して接続され、計算機基盤サーバ230とネットワークサーバ240とはネットワーク294を介して接続され、アプリケーションサーバ220とネットワークサーバ240とはネットワーク(不図示)を介して接続される。上記に説明したネットワークは、1つのネットワークであってもよく、この1つのネットワークが、事業者間一括サービス管理装置100、サービス事業者210の計算機211、アプリケーションサーバ220、計算機基盤サーバ230、および、ネットワークサーバ240を相互に接続してもよい。
事業者間一括サービス管理装置100は、アプリケーションサーバ220、計算機基盤サーバ230、および、ネットワークサーバ240が提供するサービスを連携させて、1つのサービス(連携サービス)を生成し、この連携サービスをサービス事業者210に提供する。以下、計算機211をサービス事業者210と同一視して、単にサービス事業者210とも記す。
≪連携サービスの定義とサービス生成≫
図2は、本実施形態に係る事業者間一括サービス管理装置100が提供する連携サービスの定義および生成を説明するための図である。図2に記載のステップS111〜ステップS115に沿って、連携サービスの定義と生成(起動)の処理を説明する。なお、以下では連携サービスやその構成要素となるサービスを単にサービスとも記す。また、定義された連携サービスをサービスプロダクトとも記す。
(1)サービスプロダクトの定義:ステップS111において、事業者間一括サービス管理装置100が提供する連携サービスがサービスプロダクト179として定義される。サービスプロダクト179を定義するのは、サービスを利用するサービス事業者210または事業者間一括サービス管理装置100の管理者である。サービスプロダクト179が定義されるときには、名称の他に構成要素となるサービス(構成要素サービス)や構成要素サービスの連携に必要な設定の方法が定義される。連携に必要な設定の例としては、構成要素サービスを提供するサーバ間のネットワーク接続、データベースのスキーマなどがある。構成要素サービスは、パートナー事業者のサーバ(図1の符号220、230、240)が提供するサービスとは限らず、別途定義されたサービスプロダクト179であってもよい。図2記載のサービスプロダクト#4は、プロダクト名称が「Webサイトレンタルサービス」として定義されており、その構成要素サービスとなる構成プロダクトは、「サービスプロダクト#12」と「サービスプロダクト#3」と「サービスプロダクト#8」である。
(2)連携サービスの要求:ステップS112において、サービス事業者210が、事業者間一括サービス管理装置100に、定義済みのサービスプロダクト#4を指定して、そのインスタンスとしての連携サービスを要求する。
(3)構成要素サービスの生成:ステップS113において、連携サービスの要求を受領した事業者間一括サービス管理装置100は、要求されたサービスプロダクトの構成要素サービスのそれぞれについて、生成(起動)するAPIを呼び出して、構成要素サービスを開始する。構成要素サービスが、パートナー事業者が提供するサービスであるならば、ネットワークを介してサーバ(図1の符号220、230、240)のAPIが呼び出される。構成要素サービスが、別の構成要素サービスを含む連携サービスならば、その連携サービスを要求するステップS112以降のステップが再帰的に実行される。図2記載のサービスプロダクト#4の要求があった場合には、構成要素サービスとして、サービスプロダクト#12のサービス#12と、サービスプロダクト#3のサービス#3と、サービスプロダクト#8のサービス#8とが生成される。
(4)構成要素サービスの連携:ステップS114において、事業者間一括サービス管理装置100は、ステップS113で生成された構成要素サービスを連携させる。連携の内容としては、構成要素サービスを提供するサーバ同士をネットワークで接続する、データベースのスキーマを定義するなどがある。図2記載のサービス#12とサービス#3とサービス#8とが連携されて、サービスプロダクト#4のサービス#4が生成(起動)されたことになる。
(5)連携サービスの提供:ステップS115において、事業者間一括サービス管理装置100は、ステップS114で生成された連携サービスであるサービス#4を要求元のサービス事業者210に提供する。
以上の処理により、サービス事業者210は、複数の構成要素サービスからなる連携サービスを利用することができる。ステップS111でサービスプロダクトが定義された後は、サービス事業者210は、連携サービスがどのような構成要素サービスから構成されるか、その構成要素サービスがどのパートナー事業者(サーバ(図1の符号220、230、240))から提供されるかを意識することなく、連携サービスを要求して利用することができる。
≪連携サービスの故障判断≫
図3は、本実施形態に係る事業者間一括サービス管理装置100が提供する連携サービスのSLA判定(サービスレベル順守判定)による故障解析を説明するための図である。図3を参照しながら、連携サービスに対する故障解析の処理を説明する。
事業者間一括サービス管理装置100は、後述する監視シナリオ部121、サービス状態管理部131、性能管理部133、性能情報DB160、SLA管理部132、および、プロダクトリソースDB170を含んで構成される(後述する図4参照)。以下、ステップS121〜ステップS129に沿って、連携サービスの故障解析の処理概要を説明する。
(1)SLA判定の実行の指示:ステップS121において、監視シナリオ部121が、サービス状態管理部131に対して、所定のタイミング、例えば、定期的にサービスを指定してSLA判定の実行を指示する。
(2)構成要素サービスの抽出:ステップS122において、サービス状態管理部131は、指定されたサービスを分解して構成要素サービスを抽出する。図3記載のサービス271は、サービスプロダクト#4のサービスであり、サービスプロダクト#12のサービス272、サービスプロダクト#3のサービス273およびサービスプロダクト#8のサービス274の3つの構成要素サービスに分解されて、抽出される。なお、各サービス(271〜274)に対して、それぞれにサービス識別子(サービスID)が割り振られる。例えば、サービス271のサービス識別子はSV43823である。
(3)性能情報の収集指示:ステップS123において、サービス状態管理部131は、性能管理部133に、サービス(271〜274)の性能情報の収集を指示する。
(4)性能情報の収集:ステップS124において、性能管理部133は、指定されたサービスの性能情報を収集して、性能情報DB160(後述する図6参照)に格納する。
(5)SLA判定を指示:ステップS125において、サービス状態管理部131は、SLA管理部132にSLA判定を指示する。指示するときには、サービス状態管理部131は、構成要素となるサービスで最も下位のサービスから順にSLA判定を指示する。ここでは、サービス271の下位サービスにはサービス(272〜274)があり、これらのサービスより下位のサービスは存在しないので、サービス状態管理部131は、サービス(272〜274)の何れかのサービスからSLA判定を指示する。また、例えば、サービス273に下位のサービスがある場合には、サービス状態管理部131は、その下位のサービスからSLA判定を指示する。
(6)SLA判定ルールの取得:ステップS126において、SLA管理部(サービスレベル順守判定部)132は、指定されたサービスのSLA判定に必要なSLA判定ルール(サービスレベル順守判定ルール)をプロダクトリソースDB170(後述する図7参照)から取得する。
(7)性能情報の取得:ステップS127において、SLA管理部132は、ステップS126で取得したSLA判定ルールに含まれ、SLA判定時に参照される性能管理項目の性能情報を性能情報DB160から取得する。
(8)SLA判定:ステップS128において、SLA管理部132は、ステップS127で取得した性能情報を参照し、ステップS126で取得したSLA判定ルールに従って、指定されたサービスがSLAを順守しているか違反しているかを判定する。
(9)結果通知:ステップS129において、SLA管理部132は、ステップS128判断したSLA判定の結果を監視シナリオ部121に通知する。
以上のSLA判定により、事業者間一括サービス管理装置100は、SLAを順守していないサービスを特定することができ、故障している(障害が発生している)連携サービス、または、連携サービスの中の故障している構成要素サービスを特定することができる。また、サービスが故障している場合、事業者間一括サービス管理装置100は、そのサービスを構成要素とする連携サービスを特定することができ、故障の影響範囲(罹障範囲)を特定することができる。さらに、事業者間一括サービス管理装置100は、罹障範囲にあるサービス、サービスを提供するサーバ(図1の符号220、230、240)、サーバとの通信の経路にあるネットワーク機器(不図示)など、故障が疑われる設備やその数を把握することができる。このようにして、事業者間一括サービス管理装置100は、故障解析(故障判断)を実行することができる。このようにして、連携サービス事業者は、故障箇所(故障したサービスまたは故障した設備)を特定でき、サービス復旧を従来より短時間でできるようになり、連携サービスの品質や信頼性を向上させることができる。
以下、事業者間一括サービス管理装置100の構成や処理内容を説明する。
≪事業者間一括サービス管理装置の構成≫
図4は、本実施形態に係る事業者間一括サービス管理装置100の構成例を示す機能ブロック図である。事業者間一括サービス管理装置100は、入出力部191と、記憶部192と、制御部193とを含んで構成される。
入出力部191は、NIC(Network Interface Card)他から構成され、サービス事業者210の計算機211(図1参照)やパートナー事業者が所有するアプリケーションサーバ220、計算機基盤サーバ230、ネットワークサーバ240との通信データの送受信を行う。
記憶部192は、HDD(Hard Disk Drive)やSSD(Solid State Drive)、RAM(Random Access Memory)などからなり、事業者間一括サービス管理装置100の機能を実現させるためのプログラムや処理に必要な一時的なデータを記憶する。記憶部192は、後述する利用状況DB150と、性能情報DB160と、プロダクトリソースDB170と、性能管理項目DB180とを記憶する。
制御部193は、CPUから構成され、記憶部192に記憶されたプログラムを実行することで、事業者間一括サービス管理装置100を機能させる。制御部193は、後述する業務API部110と、シナリオ管理部120と、業務リソース管理部130と、パートナー事業者APIアダプタ部140とを含んで構成される。
業務API部110は、サービス事業者210や関連システム(不図示)からのサービス要求を、APIを介して受け付ける。主なサービス要求として、サービス事業者210からのサービスプロダクトを指定してのサービス要求(サービスオーダ実行要求)がある(図2記載のステップS112参照)。他に、サービスプロダクトを定義するサービス要求(図2記載のステップS111参照)、サービスの故障を通知するトラブルチケットのサービス要求などがある。トラブルチケットのサービス要求を受け付けるAPIはトラブルチケット対応API112(図4には不図示、後述する図10参照)である。
シナリオ管理部120は、業務API部110が受け付けたサービスに応じた業務シナリオの実行を管理する。シナリオ管理部120は、所定のタイミングでSLA判定を実行する監視シナリオ部121と、故障が検出されたときに発行されるトラブルチケットを処理するトラブルチケット対応シナリオ部122と、図2に示したようにサービスプロダクトを指定してサービスを生成(起動)する一括構築シナリオ部123とを備えている。
監視シナリオ部121は、利用状況DB150(後述する図5参照)にアクセスして、SLA判定対象のサービスを選択し、そのサービスの識別子(サービス識別子またはサービスIDとも記す)を指定して、SLA判定を後述するサービス状態管理部131に指示する。
図5は、本実施形態に係る利用状況DB150のデータ構成例を示す図である。利用状況DB150は、例えば表形式のデータであり、1つのレコード(行)は、実行中のサービスに関する情報を含んでいる。利用状況DB150のレコードは、サービスID151、プロダクトID152、親サービスID153、ユーザID154、構成サービスID155、開始日時156、および、状態157の属性(列)を含む。
サービスID151は、当該サービスの識別子(サービス識別子)である。
プロダクトID152は、サービス事業者210が当該サービスを要求したときに指定したサービスプロダクトの識別子であり、当該サービスが何のサービス(サービスの種別、サービス種別)であるかを示す。プロダクトID152は、プロダクトリソースDB170(後述する図7参照)のプロダクトID171と同じである。
親サービスID153は、当該サービスが連携サービスの構成要素サービスである場合に、その親(上位のサービス)であり、当該サービスを構成要素とする連携サービスのサービス識別子である。当該サービスが、サービス事業者210が直接に生成(起動)を要求した連携サービスであり、親サービスが存在しない場合には、親サービスID153は無効値(図5では「−」と記載)となる。
ユーザID154は、当該サービスを利用しているサービス事業者210の識別子である。
構成サービスID155は、当該サービスの構成要素サービスのサービス識別子である。当該サービスがパートナー事業者から提供されるサービスの場合には、構成要素サービスは存在せず、構成サービスID155は無効値(図5では「−」と記載)となる。当該サービスが連携サービスである場合には、構成サービスID155は、1つ以上の構成要素サービスのサービス識別子を含む。
レコード276は、サービス識別子がSV47583のサービスを示しており、サービス識別子がSV41532のサービスを構成要素サービスとして含んでいる。レコード277は、このサービス識別子がSV41532のサービスを示しており、レコード276のサービスを親サービスとしている。すなわち、レコード276のサービスとレコード277のサービスとには上下(親子)関係があり、レコード276のサービスが上位(親)のサービスであって、レコード277のサービスが下位(子)のサービスである。また、サービスプロダクト#37が、構成要素サービスとしてサービスプロダクト#32を含んでいる。
開始日時156は、当該サービスが開始した日時である。レコード276のサービスの開始日時は2017年3月20日の3時24分53秒である。
状態157は、当該サービスの状態を示す。状態には、正常に稼働している「正常」、故障中である「故障」、構成要素サービスが故障である「下位故障」、同じ種別の(サービスプロダクトが同じ)サービスが故障または下位故障である「被疑」がある。連携サービスに2つの構成要素サービスがあり、一方が「正常」、他方が「故障」ならば、連携サービスは「下位故障」となる。全ての構成要素サービスが「正常」であっても、その親である連携サービス自体が「故障」である場合もある。
故障のサービスが検出されると、サービスプロダクトが同じ(同じ種別の)他のサービスも故障している可能性があると判断され、状態157が「被疑」となる。「被疑」となったサービスについては、故障解析のためにSLA判定が実行され、結果に応じて「正常」、「故障」、「下位故障」の何れかとなる。故障解析のためのSLA判定については、図10のステップS136と図11のステップS146で後述する。
図4に戻って、監視シナリオ部121は、所定のタイミング、例えば定期的に(サービスプロダクトに応じた間隔で)SLA判定を実行する。例えば、サービスプロダクト#37のSLA判定の間隔が15分であるとする。この場合、監視シナリオ部121は、15分おきにプロダクトID152がサービスプロダクト#37であるレコードを利用状況DB150の中で検索し、探索結果のレコードに含まれるサービスID151を指定して、SLA判定をサービス状態管理部131に指示する。SLA判定の処理概要は、図3で説明したとおりであり、詳細は図9を参照して後述する。
トラブルチケット対応シナリオ部122は、後述するトラブルチケット管理部134が発行し、サービスの故障の情報が含まれるトラブルチケットについて、そのサービスのSLA判定を後述するサービス状態管理部131に指示して故障解析を行う。SLA判定の処理概要は、監視シナリオ部121が指示したSLA判定とほぼ同様であり、詳細は図10と図11を参照して後述する。
一括構築シナリオ部123は、図2で説明したように、サービス事業者210から要求(ステップS112)のあったサービスプロダクトの構成要素サービスを生成し(ステップS113)、連携させて(ステップS114)、要求された連携サービスを起動して、サービス事業者210に提供する(ステップS115)一連の処理を実行する。
業務リソース管理部130は、シナリオ管理部120に備わる業務シナリオや、業務API部110が受け付けたサービス要求から呼び出される機能を備えており、サービス状態管理部131、SLA管理部132、性能管理部133、トラブルチケット管理部134を含んで構成される。
サービス状態管理部131は、監視シナリオ部121やトラブルチケット対応シナリオ部122に指示されたサービスのSLA判定を実行する。詳しくは、サービス状態管理部131は、指定されたサービスを分解し構成要素サービスを抽出して、各構成要素サービスと指定されたサービスとの性能情報の収集を後述する性能管理部133に指示する。続いて、サービス状態管理部131は、性能管理部133から収集完了の通知を受け取り、後述するSLA管理部132に下位のサービスから順にSLA判定を指示する。性能情報は、性能管理部133により性能情報DB160(後述する図6参照)に格納される。
サービス状態管理部131は、指示された連携サービスを構成要素サービスに分解するときに、利用状況DB150を参照する。詳しくは、サービス状態管理部131は、監視シナリオ部121やトラブルチケット対応シナリオ部122が指定したサービス識別子をサービスID151にもつレコードを検索し、検索結果のレコードの構成サービスID155を参照することで、構成要素サービスを取得して、構成要素サービスを抽出する。サービス状態管理部131は、抽出した各構成要素サービスのサービス識別子を指定して、性能情報の収集を性能管理部133に指示する。
図6は、本実施形態に係る性能情報DB160のデータ構成例を示す図である。性能情報DB160は、例えば表形式のデータであり、1つのレコード(行)は、実行中のサービスに関する性能情報に関連する情報を含んでいる。性能情報DB160のレコードは、サービスID161、プロダクトID162、収集日時163、および、収集データ164の属性(列)を含む。なお、性能情報は、例えばサービスの応答時間といった性能そのものを示す情報とは限らず、エラーの発生頻度、サービスのダウン時間など、品質または信頼性に関わる情報を含む情報であり、SLA判定に必要となる情報である。
サービスID161は、当該のサービスの識別子であり、利用状況DB150のサービスID151と同じである。
プロダクトID162は、当該サービスのサービス種別を示し、利用状況DB150のプロダクトID152と同じである。
収集日時163は、性能情報を収集した日時である。図6に記載のレコードの収集日時163は、2017年3月30日の13時43分23秒である。
収集データ164は、収集された性能情報である。収集データ164は、単一のデータではなく、性能情報の測定期間や各種性能の数値を含む。例えば、計算機基盤サーバ230(図1参照)の場合には、収集データ164は、仮想計算機の性能情報の測定期間、測定期間の平均CPU利用率、測定期間に受信したデータのバイト数、測定期間に仮想ボリュームに書込んだデータのバイト数、測定期間に発生した書込みエラーの件数などのデータを含む。
図4に戻り、SLA管理部(サービスレベル順守判定部)132は、サービス状態管理部131から指示されたサービスのSLA判定を実行する。SLA管理部132は、プロダクトリソースDB170(後述する図7参照)からSLA判定ルールを取得し、性能情報DB160から性能情報(収集データ164)を取得して、SLA判定を実行する。
図7は、本実施形態に係るプロダクトリソースDB170のデータ構成例を示す図である。プロダクトリソースDB170は、サービスプロダクト179(図2参照)を示すレコード278を複数含んで構成される。プロダクトリソースDB170のレコード278は、プロダクトID171に対応づけて、プロダクト名称172、プロダクト記述173、構成プロダクト174、契約175、SLA判定ルール176、および、アダプタID177の属性を含んでいる。
プロダクトID171は、当該サービスプロダクトの識別子であり、利用状況DB150のプロダクトID152や性能情報DB160のプロダクトID162と同じである。
プロダクト名称172は、当該サービスプロダクトの名称である。サービスプロダクト179(図2参照)において、プロダクトID171がサービスプロダクト#4であるサービスプロダクトのプロダクト名称172は、「Webサイトレンタルサービス」である。
プロダクト記述173は、当該サービスプロダクトの説明である。
構成プロダクト174は、当該サービスプロダクトの構成要素であるサービスプロダクトである。サービスプロダクト179(図2参照)において、プロダクトID171がサービスプロダクト#4であるサービスプロダクトの構成プロダクト174は、サービスプロダクト#12とサービスプロダクト#3とサービスプロダクト#8である。
契約175は、当該サービスプロダクトを利用する際のサービス事業者210との契約内容であり、SLAを含む。
SLA判定ルール(サービスレベル順守判定ルール)176は、当該サービスプロダクトのSLAが満たされているか否かを判定するルールである。SLA判定ルール176は、性能情報DB160の収集データ164に含まれる性能管理項目のデータを参照して、SLAを順守しているかを判断する。SLA判定ルール176は、単一の性能管理項目のデータを参照するとは限らず、複数の性能管理項目のデータを参照してSLAを判定する場合もある。SLA判定ルールの例として、15分間隔の書込みエラー発生件数を1時間分累積して、所定の発生件数以下となっているかを判定するルールがある。ネットワークサーバ240(図1参照)が提供するサービスならば、通信遅延の発生率、ファイアウォールのサービス(不図示)ならば、通信のスループットなどのSLA判定ルール176がある。
アダプタID177は、当該サービスプロダクトがパートナー事業者から提供されるサービスの場合に、サービスが提供されるインタフェースとなるパートナー事業者APIアダプタ部140(図4参照)が備える個別のアダプタ141の識別子である。パートナー事業者APIアダプタ部140については後述する。
図4に戻り、SLA管理部132が、サービス状態管理部131からSLA判定を指示されるときには、判定対象のサービスの識別子を伴って指示される。SLA管理部132は、利用状況DB150を参照してサービス識別子と同じサービスID151をもつレコードからプロダクトID152を取得し、さらにプロダクトリソースDB170を参照して、プロダクトID152と同一のプロダクトID171をもつレコードからSLA判定ルール176を取得する。続いて、SLA管理部132は、SLA判定ルール176に含まれる性能管理項目のデータを性能情報DB160の収集データ164から取得し、SLA判定ルール176に従ってSLA判定を実行して、結果を監視シナリオ部121に通知する。
性能管理部133は、サービス状態管理部131が指示したサービスの性能情報を収集して、性能情報DB160に格納する。収集対象のサービスがパートナー事業者から提供されるサービスの場合には、性能管理部133は、後述するパートナー事業者APIアダプタ部140が備えるアダプタ141を介して性能情報を収集する。性能管理部133は、利用状況DB150(図5参照)から当該サービスのプロダクトID152を取得し、性能管理項目DB180(後述する図8参照)を検索して、呼び出すアダプタ141や収集する性能管理項目を決定する。
図8は、本実施形態に係る性能管理項目DB180のデータ構成例を示す図である。性能管理項目DB180は、例えば表形式のデータであり、1つのレコード(行)は、サービスの性能管理項目に関する情報を含んでいる。パートナー事業者から提供されるサービス(サーバ(図1の符号220、230、240))の性能管理項目は、サーバから提供され、アダプタ141を介して性能管理項目の性能情報が取得される。性能管理項目DB180のレコードは、アダプタID181、プロダクトID182、性能管理項目(メトリック名称)183、および、SLA要否184の属性(列)を含む。
アダプタID181は、当該性能管理項目を取得するアダプタ141の識別子であり、プロダクトリソースDB170(図7参照)のアダプタID177と同じである。アダプタID181で識別されるアダプタ141が呼び出されることで、性能情報が取得される。
プロダクトID182は、当該サービスのサービス種別を示し、利用状況DB150のプロダクトID152やプロダクトリソースDB170のプロダクトID171と同じである。
性能管理項目183は、サービスの性能管理項目の名称(メトリック名称)である。
SLA要否184は、当該性能管理項目がSLA判定で参照されるか否かを示し、参照されるならY、参照されないならNである。
図4に戻って、性能管理部133は、性能管理項目DB180の中で、利用状況DB150から取得したプロダクトID152と同じプロダクトID182であり、SLA要否184がYであるレコードを検索して、アダプタID181と性能管理項目183を取得する。次に、性能管理部133は、このアダプタID181で識別されるアダプタ141を介し、サービス識別子を指定して、性能管理項目183の性能情報を取得し、性能情報DB160に格納して、サービス状態管理部131に性能情報の取得が完了したことを通知する。
トラブルチケット管理部134は、サービスの故障が発見された場合やSLA違反があった場合に、トラブルチケットを発行する。トラブルチケットには、故障があるサービスの識別子や発行された日時、故障対応の状況などが含まれる。発行されたトラブルチケットはトラブルチケット対応シナリオ部122により処理される。
パートナー事業者APIアダプタ部140は、パートナー事業者が提供するサービスのAPIを呼び出すインタフェース機能を提供する。パートナー事業者APIアダプタ部140は、インタフェース機能を提供するアダプタ141をサービスプロダクトごとに備える。パートナー事業者のサービスが生成されたり、性能情報が取得されたりする場合には、そのサービスに対応するアダプタ141が呼び出される。アダプタ141が、パートナー事業者が提供するサービス(サーバ(図1の符号220、230、240))のAPIを呼び出すことで、サービスが生成されたり、性能情報が取得されたりする。
≪定期監視におけるSLA判定処理≫
図9は、本実施形態に係る事業者間一括サービス管理装置100が実行する、定期監視を契機とするSLA判定処理を示すシーケンス図である。図9を参照しながら、図3で概要を説明した、監視シナリオ部121、サービス状態管理部131、SLA管理部132、性能管理部133が実行するSLA判定処理を説明する。なお、SLA判定処理は、定期に限らず、例えば、事業者間一括サービス管理装置100の負荷が所定の値以上になった場合など、所定のタイミングで実行される。
ステップS11において、監視シナリオ部121が、SLA判定対象のサービスを特定し、当該サービスの識別子をサービス状態管理部131に出力して、SLA判定を指示する。詳しくは、監視シナリオ部121は、サービスプロダクトに応じた所定の間隔で、利用状況DB150(図5参照)のレコードであって、プロダクトID152が当該サービスプロダクトの識別子であるレコードを検索する。次に、監視シナリオ部121は、検索結果のレコードに含まれるサービスID151を指定して、SLA判定をサービス状態管理部131に指示する。検索結果のレコードが複数の場合には、監視シナリオ部121は、順次にSLA判定を指示する。
ステップS12において、サービス状態管理部131は、指定されたサービスを分解して構成要素サービスを抽出して、各構成要素サービスと指定されたサービスとの性能情報の収集を性能管理部133に指示する。詳しくは、サービス状態管理部131は、利用状況DB150(図5参照)のレコードであって、サービスID151が指示に含まれていたサービス識別子であるレコードを検索し、検索結果のレコードの構成サービスID155から構成要素サービスのサービス識別子を取得する。続いて、サービス状態管理部131は、取得した構成要素サービスのサービス識別子がサービスID151である利用状況DB150のレコードを検索して、当該構成要素サービスの構成要素サービスの識別子を取得する。この構成要素サービスを検索する処理を繰り返すことで、サービス状態管理部131は、監視シナリオ部121から指示されたサービスを分解して、構成要素サービスを抽出する。サービス状態管理部131は、指定された連携サービスと抽出した構成要素サービスとのサービス識別子を性能管理部133に出力して性能情報の収集を指示する。
ステップS13において、性能管理部133は、サービス状態管理部131の指示にあったサービスの性能情報を収集して性能情報DB160(図6参照)に格納する。詳しくは、性能管理部133は、利用状況DB150のレコードであって、サービスID151が指示にあったサービス識別子であるレコードを検索して、当該サービスのプロダクトID152を取得する。次に、性能管理部133は、性能管理項目DB180(図8参照)のレコードであって、プロダクトID182が上記のプロダクトID152であり、SLA要否184がYであるレコードを検索して、当該サービスプロダクトのアダプタID181と性能管理項目183とを取得する。
続いて、性能管理部133は、このアダプタID181で識別されるアダプタ141を介して、性能管理項目183の性能情報の収集を取得する。アダプタ141は、サービスを提供するサーバ(図1の符号220、230、240)のAPIを呼び出して、指定されたサービスの指定された性能管理項目の性能情報を取得して、性能管理部133に出力する。性能管理部133は、出力された性能情報を性能情報DB160(図6参照)に格納し、サービス状態管理部131に性能情報の取得が完了したことを通知する。性能情報DB160に性能情報を格納するときには、性能管理部133は、新規にレコードを追加する。続いて、性能管理部133は、追加したレコードのサービスID161、プロダクトID162、収集日時163、収集データ164に、指示されたサービス識別子、上記のプロダクトID152、現在日時、収集した性能情報をそれぞれ格納する。
ステップS14において、監視シナリオ部121が指定したサービスを含めて、サービス状態管理部131がステップS12で抽出した構成要素サービスの下位のサービスから順に、サービス状態管理部131とSLA管理部132とが、ステップS15〜ステップS22を実行する。
ステップS15において、サービス状態管理部131は、サービス識別子を指定して、SLA判定をSLA管理部132に指示する。
ステップS16において、SLA管理部132は、SLA判定ルール176を取得する。詳しくは、SLA管理部132は、利用状況DB150のレコードであって、サービスID151が指示にあったサービス識別子であるレコードを検索して、当該サービスのプロダクトID152を取得する。次に、SLA管理部132は、プロダクトリソースDB170(図7参照)のレコードであって、プロダクトID171が上記のプロダクトID152であるレコードを検索して、当該サービスプロダクトのSLA判定ルール176を取得する。
ステップS17において、SLA管理部132は、性能情報を取得する。詳しくは、SLA管理部132は、性能情報DB160(図6参照)のレコードであって、サービスID161が指示にあったサービス識別子であるレコードを検索して、検索結果のレコードの収集データ164を取得する。次に、SLA管理部132は、ステップS16で取得したSLA判定ルール176に含まれる性能管理項目のデータを上記の収集データ164から取得する。SLA判定ルール176に応じて、SLA管理部132は、直近の1件の収集データ164を取得する場合もあれば、直近の複数の収集データ164を取得する場合もある。
ステップS18において、SLA管理部132は、SLA判定を実行する。詳しくは、SLA管理部132は、ステップS17で取得した性能管理項目のデータを参照し、SLA判定ルール176に基づいて、当該サービスでSLA違反があったか否かを判断する。
ステップS19において、SLA管理部132は、ステップS18でSLA違反があれば、ステップS20に進み、違反がなければ、ステップS22に進む。
ステップS20において、SLA管理部132は、SLA違反があったことを、監視シナリオ部121に通知する。通知には、違反のあったサービスの識別子や違反の内容(SLA判定ルール176の内容)が含まれる。
ステップS21において、SLA管理部132は、利用状況DB150(図5参照)を更新する。詳しくは、SLA管理部132は、利用状況DB150のレコードで、サービスID151がSLA判定対象のサービス識別子であるレコードを検索して、当該レコードの状態157を「故障」に更新する。また、SLA管理部132は、当該サービスを構成要素とするサービスの状態157を「下位故障」に更新する。詳しくは、SLA管理部132は、利用状況DB150のレコードで、構成サービスID155にSLA判定対象のサービス識別子が含まれるレコードを検索して、当該レコードの状態157を「下位故障」に更新する。さらに、SLA管理部132は、検索結果のサービスを構成要素とするサービスのレコードを検索して、検索結果のレコードの状態157を「下位故障」に更新することを繰り返す。
なお、構成要素サービスが故障である連携サービスについて、連携サービスの状態157は構成要素サービスのSLA判定で「下位故障」に更新される。この連携サービス自体のSLA判定が違反である場合には、SLA管理部132が連携サービス自体を「故障」と更新する。この連携サービス自体のSLA判定が違反でなければ、SLA管理部132は状態157を更新せず、「下位故障」のままとなる。
ステップS22において、SLA管理部132は、当該サービスのSLA判定が完了したことをサービス状態管理部131に通知する。
ステップS23において、サービス状態管理部131がステップS12で抽出した構成要素サービスの全てに対して、ステップS15〜ステップS22を実行したか判断する。監視シナリオ部121が指定したサービスを含めて全てのサービスに対して実行したならば、サービス状態管理部131は、ステップS24に進み、未処理のサービスがあるならば、下位のサービスからステップS15以降の処理を繰り返す。
ステップS24において、サービス状態管理部131は、指示にあったサービスのSLA判定が完了したことを監視シナリオ部121に通知する。
以上の処理において、サービス状態管理部131は、指示されたサービスを分解して構成要素サービスを抽出して(ステップS12)、SLA管理部132が、抽出された各構成要素サービスの中で下位のサービスから順にSLAを順守しているか判定する。サービスに何らかの故障が発生した場合には、事業者間一括サービス管理装置100は、当該サービスの構成要素まで遡ってSLA判定しているので、原因となるサービスをSLA判定結果が違反であることで特定することができ、故障が発生しているサービスの数を把握することができる。また、事業者間一括サービス管理装置100は、そのサービスを提供しているサーバ、サーバとの通信の経路にあるネットワーク機器など、故障が疑われる設備やその数を把握することができる。以上のようにして、事業者間一括サービス管理装置100は、故障解析(故障判断)を実行することができる。
また、故障が検出されていない連携サービスであっても、上記の故障解析によって、事業者間一括サービス管理装置100は、故障が発生している構成要素サービスを特定することができる。事業者間一括サービス管理装置100は、故障が発生している構成要素サービスを正常なサービスに置き換えるなどして、当該連携サービスを利用しているサービス事業者210に影響が出る前に、対応することができる。
≪サービス事業者からのトラブルチケットを契機としたSLA判定≫
図9を参照して、事業者間一括サービス管理装置100自身が、所定のタイミングで実行するSLA判定処理を説明した。続いて、サービス事業者210が検知したサービスの故障についてのSLA判定処理を用いた故障解析を説明する。図10は、本実施形態に係る事業者間一括サービス管理装置100が実行する、サービス事業者からのトラブルチケット受領を契機とするSLA判定処理を説明するための図である。図10に記載のステップS131〜ステップS136に沿って、SLA判定処理を説明する。
ステップS131において、サービス事業者210は、利用しているサービスの故障を検知し、事業者間一括サービス管理装置100に通知する。詳しくは、サービス事業者210は、業務API部110が備えるトラブルチケット対応API112を通じて、故障を通知する。通知には、故障が発生したサービスのサービス識別子を含む。
ステップS132において、トラブルチケット対応API112が、トラブルチケット管理部134を呼び出して、トラブルチケットの発行を要求する。
ステップS133において、トラブルチケット管理部134がトラブルチケット281を発行する。トラブルチケット281には、発行日時、トラブルチケット発行の契機となった故障を通知したサービス事業者210のユーザ識別子(トラブルチケット281のユーザ)、故障のあるサービスの識別子(トラブルチケット281の関連サービス)、対応状態(不図示)などが含まれる。対応状態には、未対応、対応中、対応中断、対応済などの状態があり、トラブル対応(故障解析)の進展状態を示す。発行されたトラブルチケット281は、シナリオ管理部120が備えるトラブルチケット対応シナリオ部122に送られる。
ステップS134において、トラブルチケット対応シナリオ部122が、当該サービスのSLA判定を実行する。詳しくは、トラブルチケット対応シナリオ部122は、トラブルチケット281に含まれている故障が発生したサービスの識別子をサービス状態管理部131に出力して、SLA判定を指示する。サービス状態管理部131とSLA管理部132と性能管理部133とは、図9に記載したステップS12以降の処理を実行する。但し、ステップS20のSLA違反の通知先とステップS24のSLA判定完了の通知先とは、トラブルチケット対応シナリオ部122である。
ステップS135において、トラブルチケット対応シナリオ部122が、関連するサービスを特定する。関連するサービスとは、トラブルチケット281に含まれる故障が発生したサービスと同じ種別の(同じサービスプロダクトである)サービスである。トラブルチケット対応シナリオ部122は、利用状況DB150(図5参照)のレコードの中で、サービスID151がトラブルチケット281に含まれる故障が発生したサービスの識別子と同じレコードを検索して、プロダクトID152を取得する。このプロダクトID152が当該サービスのサービスプロダクトを示す識別子である。
次に、トラブルチケット対応シナリオ部122は、利用状況DB150のレコードの中で、プロダクトID152が上記の検索結果のプロダクトID152と同じレコードを検索して、サービスID151を取得する。このサービスID151が、故障が発生したサービスと同じ種別のサービスの識別子である。
ステップS136において、トラブルチケット対応シナリオ部122は、関連するサービスのSLA判定を順次実行する。詳しくは、トラブルチケット対応シナリオ部122は、関連するサービスとその構成要素サービスのSLA判定を実行する。最初に、トラブルチケット対応シナリオ部122は、利用状況DB150(図5参照)のレコードであって、SLA判定対象のサービスとその構成要素サービスに対応するレコードの状態157を「被疑」に更新する。
次に、トラブルチケット対応シナリオ部122は、取得したサービスの識別子をサービス状態管理部131に出力して、SLA判定を指示する。サービス状態管理部131とSLA管理部132と性能管理部133とは、ステップS134と同様にSLA判定処理を実行する。続いて、トラブルチケット対応シナリオ部122は、SLA判定の結果、構成要素サービスを含めて故障がなければ、利用状況DB150のレコードであって、SLA判定対象のサービスとその構成要素サービスに対応するレコードの状態157を「正常」に更新する。
図10に示したサービス事業者210からのトラブルチケット受領を契機とするSLA判定処理を実行すること(ステップS134)で、事業者間一括サービス管理装置100は、通知のあったサービスの故障の原因となる構成要素サービスを特定する。さらに、事業者間一括サービス管理装置100は、関連するサービスとして通知のあったサービスと同じサービスプロダクトのサービスを特定して(ステップS135)、そのサービスのSLA判定を行い(ステップS136)、故障が発生していないか診断する故障解析を実行することができる。事業者間一括サービス管理装置100は、同じサービスプロダクトを利用している他のサービス事業者210からの通知(トラブルチケットの発行)を待つことなく、先んじて故障の発生の有無を判断して故障解析を実行する。また、事業者間一括サービス管理装置100は、そのサービスを提供しているサーバ、サーバとの通信の経路にあるネットワーク機器など、故障が疑われる設備やその数を把握することが可能となる。
≪パートナー事業者からのSLA違反を契機としたSLA判定≫
続いて、パートナー事業者が検知したSLA違反を契機としたサービスの故障についてのSLA判定処理を用いた故障判断を説明する。図11は、本実施形態に係る事業者間一括サービス管理装置100が実行する、パートナー事業者からのSLA違反通知を契機とするSLA判定処理を説明するための図である。図11に記載のステップS141〜ステップS146に沿って、SLA判定処理を説明する。図11では、パートナー事業者を計算機基盤サーバ230としているが、アプリケーションサーバ220(図1参照)やネットワークサーバ240であっても同じ処理となる。
ステップS141において、計算機基盤サーバ230が、提供しているサービスのSLA違反(故障)を検知し、事業者間一括サービス管理装置100に通知する。詳しくは、計算機基盤サーバ230は、事業者間一括サービス管理装置100の内部で計算機基盤サーバ230へのインタフェースとなっているアダプタ141を通じて通知する。通知には、故障が発生したサービスの識別子や違反内容を含む。
ステップS142において、アダプタ141がSLA違反の通知(SLA違反通知)283を生成して、トラブルチケット管理部134に通知する。SLA違反通知283には、通知日時、SLA違反のあったサービスの識別子、違反の内容などが含まれる。
ステップS143において、トラブルチケット管理部134がトラブルチケット284を発行する。トラブルチケット284には、発行日時、関連オブジェクトしてSLA違反通知283の識別子(図11記載のSLAV84792)などが含まれる。他に、関連サービスや対応状態などが含まれるが、図示していない。発行されたトラブルチケット284とSLA違反通知283は、シナリオ管理部120が備えるトラブルチケット対応シナリオ部122に出力される。
ステップS144において、トラブルチケット対応シナリオ部122が、当該サービスを構成要素とするサービスのSLA判定を実行する。詳しくは、トラブルチケット対応シナリオ部122は、利用状況DB150(図5参照)の中でサービスID151がトラブルチケット284に含まれているサービスの識別子であるレコードを検索して、親サービスID153を取得する。次に、トラブルチケット対応シナリオ部122は、利用状況DB150の中でサービスID151が親サービスID153であるレコードを検索して、検索結果のレコードの親サービスID153を取得する。トラブルチケット対応シナリオ部122は、親サービスID153が無効値なるまで親サービスID153の検索を繰り返す。
続いて、トラブルチケット対応シナリオ部122は、親サービスID153が無効値で親がいないサービスのサービスID151をサービス状態管理部131に出力して、SLA判定を指示する。サービス状態管理部131とSLA管理部132と性能管理部133とは、図9に記載したステップS12以降の処理を実行する。但し、ステップS20のSLA違反の通知先とステップS24のSLA判定完了の通知先とは、トラブルチケット対応シナリオ部122である。
ステップS145において、トラブルチケット対応シナリオ部122が、関連するサービスを特定する。関連するサービスとは、SLA違反通知283に含まれるサービスと同じサービスプロダクトであるサービスを構成要素とするサービスである。トラブルチケット対応シナリオ部122は、利用状況DB150のレコードの中で、サービスID151がSLA違反通知283の関連サービスにある識別子であるレコードを検索して、プロダクトID152を取得する。このプロダクトID152が当該サービスのサービスプロダクトを示す識別子である。次に、トラブルチケット対応シナリオ部122は、プロダクトリソースDB170の中で構成プロダクト174に上記のプロダクトID152を含むレコードを検索して、プロダクトID171を取得する。このプロダクトID171が、故障が発生したサービスを構成要素とするサービスプロダクトの識別子である。
続いて、トラブルチケット対応シナリオ部122は、プロダクトリソースDB170の中で構成プロダクト174に上記のプロダクトID171を含むレコードを検索して、検索結果のレコードのプロダクトID171を取得する。この検索を繰り返すことで、トラブルチケット対応シナリオ部122は、SLA違反のサービスを構成要素とするサービスプロダクトの識別子を取得することができる。サービスプロダクトの識別子は1つとは限らず、複数の場合もある。次に、トラブルチケット対応シナリオ部122は、利用状況DB150の中でプロダクトID152が上記のサービスプロダクトの識別子であるレコードを検索して、サービスID151を取得する。
このサービスID151が、関連するサービスであり、SLA違反通知283に含まれるサービスと同じサービスプロダクトのサービスを構成要素とするサービスである。
ステップS146において、トラブルチケット対応シナリオ部122は、関連するサービスのSLA判定を順次実行する。詳しくは、トラブルチケット対応シナリオ部122は、関連するサービスとその構成要素サービスのSLA判定を実行する。最初に、トラブルチケット対応シナリオ部122は、利用状況DB150(図5参照)のレコードであって、SLA判定対象のサービスとその構成要素サービスに対応するレコードの状態157を「被疑」に更新する。次に、トラブルチケット対応シナリオ部122は、取得したサービスの識別子をサービス状態管理部131に出力して、SLA判定を指示する。サービス状態管理部131とSLA管理部132と性能管理部133とは、ステップS144と同様にSLA判定処理を実行する。続いて、トラブルチケット対応シナリオ部122は、SLA判定の結果、構成要素サービスを含めて故障がなければ、利用状況DB150のレコードであって、SLA判定対象のサービスとその構成要素サービスに対応するレコードの状態157を「正常」に更新する。
図11に示したパートナー事業者からのSLA違反通知を契機とするSLA判定処理を実行することで、事業者間一括サービス管理装置100は、通知のあったサービスを構成要素とするサービスの故障診断を行う(ステップS144)。さらに、事業者間一括サービス管理装置100は、SLA違反のあったサービスプロダクトを構成要素とするサービスプロダクトのサービスを特定して(ステップS145)、そのサービスのSLA判定を行い(ステップS146)、故障が発生していないか診断して故障解析を実行する。故障が発生している可能性があるサービスプロダクトに対して、事業者間一括サービス管理装置100は、サービス事業者210からの通知を待つことなく、先んじて故障の発生の有無を判断する故障解析を実行することができる。また、事業者間一括サービス管理装置100は、そのサービスを提供しているサーバ、サーバとの通信の経路にあるネットワーク機器など、故障が疑われる設備やその数を把握することができる。さらに、事業者間一括サービス管理装置100は、SLA違反の影響を受けるサービス(影響範囲、罹障範囲)を特定することが可能となる。
≪変形例≫
SLA判定ルール176(図7参照)は1つのルールとは限らない。仮想ボリュームに対する書込み遅延時間、読込み遅延時間、書込みエラー発生頻度、読込みエラー発生頻度のそれぞれに関するSLA判定ルールなど、複数のSLA判定ルールである場合もある。また、SLA管理部132が実行するSLA判定の契機は、定期監視(所定のタイミングでの監視)(図3、図9参照)と、サービス事業者210からの故障通知(図10参照)と、パートナー事業者からのSLA違反通知(図11参照)であった。契機に応じて、SLA管理部132は、適用するSLA判定ルール176を変えてもよい。
構成要素をもつサービスのSLA判定では、複数の構成要素サービスの性能情報を参照したり、構成要素サービスのSLA判定の結果を用いたりして、SLA判定を実行する場合もある。Webサイトレンタルサービスの例で言えば、ファイアウォールとWebサーバとデータベースサーバとのレスポンス時間を合算することで、Webサイトの利用者からみたレスポンス時間がSLAを順守しているか否かを判断するルールがSLA判定ルール176に含まれてもよい。また、複数の同じサービスを構成要素とする連携サービスにおいて、SLA管理部132は、所定の割合の構成要素サービスに対するSLA判定結果が順守であれば連携サービスのSLA判定結果を順守としてもよい。また、SLA管理部132は、個々の構成要素サービスの処理能力(スループット)に応じて構成要素サービスのSLA判定結果に重みづけを行って、連携サービスのSLA判定を行ってもよい。
また、SLA判定ルール176の判断結果は、順守または違反の2つではなく、3つ以上の判定レベルであってもよい。SLA管理部132は、構成要素サービスの判定レベルを組み合せて、連携サービスのSLA判定を行ってもよい。例えば、判定レベルが、順守レベル3(順守レベルが最高)、順守レベル2、順守レベル1(順守レベルが最低)および違反レベルの4つとする。構成要素サービスに違反レベルがなく、順守レベルの平均が所定の値以上ならば、SLA管理部132は、連携サービスのSLA判定結果を順守としてもよい。
定期監視を契機とするSLA判定では、即座に故障と判断するSLA判定ルールではなく、複数回の定期監視の性能情報を参照して故障発生を予測してSLA違反と判断してもよい。例えば、所定の回数の定期監視で連続して利用可能なメモリサイズが継続して減少している場合には、メモリ不足の故障が発生すると予測して、SLA違反と判断するルールが、SLA判定ルール176に含まれていてもよい。また、機械学習技術を用いて複数の構成要素サービスの性能管理項目や複数回の定期監視の性能情報を参照し、故障を予想してSLA違反と判断するルールがSLA判定ルール176に含まれてもよい。さらには、性能情報だけではなく、サービスプロダクトや構成要素サービスを提供しているパートナー事業者、サービスを提供しているサーバ、そのサーバへの通信経路上にあるネットワーク機器、ネットワーク機器の種別などを含めて故障を予想して判定するルールがSLA判定ルール176に含まれてもよい。
サービス事業者210からの故障通知と、パートナー事業者からのSLA違反通知とを契機とした故障解析において、事業者間一括サービス管理装置100は、故障が発見されたサービスプロダクトの定期監視の間隔を短くしてもよい。詳しくは、事業者間一括サービス管理装置100は、当該サービスプロダクトのサービスに対して監視シナリオ部121が実行する定期監視の間隔を短くしてもよい。定期監視の間隔を短くすることにより、事業者間一括サービス管理装置100は、故障発生の確率が高いサービスを重点的に監視できるようになり、短時間で故障を検出することができるようになる。
上記の実施形態では、性能情報が収集され、性能情報DB160に格納された後に、下位の構成要素サービスからSLA管理部132が、SLA判定を実行している。SLA管理部132が、SLA判定を実行するごとに、必要な性能情報を収集するようにしてもよい。
性能情報DB160に格納された性能情報は、SLA判定の前に収集され、SLA判定するときに参照されている。SLA判定とは関係なく、性能管理部133が性能管理項目DB180にある全ての性能情報を定期的に取得してもよい。この場合には、サービス状態管理部131は、図9記載のステップS12の性能情報の収集を指示することなく、指定されたサービスを構成要素サービスを抽出した後にステップS14以降のSLA判定を実行する。
故障が発生すると、定期監視やトラブルチケット、SLA違反通知を契機として、複数のSLA判定が同時に実行される可能性があり、同じ性能情報が複数回収集される可能性がある。しかしながら、性能管理部133が定期的に性能情報を取得しておいて、SLA判定がこの性能情報を参照することで、重複した性能情報の収集を回避でき、事業者間一括サービス管理装置100やパートナー事業者が提供するサービスの負荷を軽減することができる。
性能管理部133は、定期的に取得した性能情報を参照し、予め指定された性能管理項目の数値が所定の閾値を越えた場合に、当該サービスについて警告をあげてもよい。所定の時間内に所定回数以上の警告が発生した場合には、当該サービスの故障の可能性があると判断して、当該サービスに対するSLA判定が実行されてもよい。また、性能管理部133は、機械学習技術を用いて複数の構成要素サービスの性能管理項目を参照して、SLA違反(故障)を予想してもよい。
利用状況DB150(図5参照)のレコードついて、その構成要素サービスは、そのサービス識別子(構成サービスID155)のみを含んでいた。構成要素プロダクトとして、構成要素サービスのサービスプロダクトの識別子を含めるようにしてもよい。SLA違反通知があった場合に、トラブルチケット対応シナリオ部122は、利用状況DB150(図5参照)とプロダクトリソースDB170(図7参照)の両方にアクセスしてSLA違反通知があったサービスプロダクトを構成要素とするサービスプロダクトを検索していた。利用状況DB150の属性に構成要素サービスのサービスプロダクトの識別子を加えることで、プロダクトリソースDB170へのアクセスが不要となる。
図10記載のS136においては、トラブルチケット対応シナリオ部122は、関連するサービスごとに、当該サービスとその構成要素サービスに対応する利用状況DB150(図5参照)のレコードの状態157を「被疑」に更新して、SLA判定を実行し、故障がなければ「正常」にしていた。トラブルチケット対応シナリオ部122は、最初に関連するサービスに対応する全てのレコードの状態157を「被疑」に更新して、続いて、関連するサービスごとにSLA判定を実行し、故障がなければ「正常」にしてもよい。こうすることで、事業者間一括サービス管理装置100は、早期に被疑のサービスを特定することができる。図11記載のステップS146でも同様である。
図9記載のSLA判定処理では、SLA管理部132が利用状況DB150(図5参照)の状態157を「故障」や「下位故障」に更新していた(図9記載のステップS21)。SLA違反の通知を受けた監視シナリオ部121が更新してもよい。また、図10と図11に記載のSLA判定処理では、トラブルチケット対応シナリオ部122が更新してもよい。
利用状況DB150のレコードの状態157は、「故障」と「下位故障」を区別していたが、「下位故障」を含めて「故障」としてもよい。
利用状況DBはサービス事業者の識別子(図5記載のユーザID154)を含んで構成されており、事業者間一括サービス管理装置100は、故障したサービス、故障が疑われるサービス、サービス事業者210ごとの故障したサービス、サービス事業者210ごとの故障が疑われるサービス、サービスプロダクトごとの故障したサービス、サービスプロダクトごとの故障が疑われるサービスの何れかをカウントすることができる。こうすることで事業者間一括サービス管理装置100は、連携サービスの稼働状況をわかりやすく事業者間一括サービス管理装置100の管理者に提供することができる。
≪効果≫
連携サービスに故障があった場合に、事業者間一括サービス管理装置100は、構成要素サービスまで遡ってSLA判定を行い、故障の原因を解析することができる。このために、故障の切り分けが容易になり、故障の解析時間を削減することができ、故障からの復旧時間を削減することができる。結果として、事業者間一括サービス管理装置100は、連携サービスの信頼性を向上したり、故障対応のコストを削減したりすることができる。
事業者間一括サービス管理装置100は、所定のタイミングでSLA判定を行っており、サービスに故障があった場合に、どの構成要素サービスが故障しているか特定することができる。
連携サービスの利用者であるサービス事業者210からの故障の通知や、構成要素サービスを提供するパートナー事業者からのSLA違反の通知を契機に、事業者間一括サービス管理装置100は当該サービスプロダクトのSLA判定を実行する。事業者間一括サービス管理装置100は、通知のあったサービスだけではなく、同じサービスプロダクトのサービスに対してもSLA判定を実行している。事業者間一括サービス管理装置100は、SLA判定の際には、サービスを一旦は故障の被疑サービスとしておき、故障がないと判明したなら、正常としている。
これにより、故障が疑われるサービスを特定して、その後に故障しているサービスに絞り込むことができ、事業者間一括サービス管理装置100は、故障しているサービスの数や故障の影響範囲(罹障範囲)にあるサービスの数を精度高く把握することができる。また、故障が検出されていない連携サービスであっても、その構成要素サービスに故障があれば、事業者間一括サービス管理装置100は、この故障を検知することができる。故障が発生した構成要素サービスを正常なサービスに置き換えることで、事業者間一括サービス管理装置100は、連携サービスに故障が発生する前に故障対応をすることができる。
事業者間一括サービス管理装置100は、構成要素サービスまで遡ってSLA判定を実行して、故障を検出しているので、故障の原因となるサービスを特定することができ、故障の影響範囲(罹障範囲)を特定することができる。また、利用状況DB150(図5参照)においてサービスとサービスを利用しているサービス事業者210とが関連付けて管理されており、事業者間一括サービス管理装置100は、サービス事業者210ごとに、故障しているサービスやその数を把握することができる。事業者間一括サービス管理装置100は、罹障範囲に含まれるサービスやそのサービスを提供するサーバ、そのサーバとの通信の経路にあるネットワーク機器など、故障が疑われる設備やその数を把握することができる。
SLAを判定するときには、事業者間一括サービス管理装置100は、パートナー事業者が提供する性能管理項目にある性能情報を組み合わせて判定している。このために、新たにSLA判定に必要な性能情報を取得する機能の開発が不要となり、開発する場合と比べて低コストで連携サービスのSLA判定を実現することができる。また、新しいパートナー事業者が提供するサービスを構成要素として新しい連携サービスを提供する場合でも、当該パートナー事業者が提供する性能情報を利用してSLA判定をすることができ、事業者間一括サービス管理装置100は、性能情報を取得する機能を開発する場合に比べて短期間で新しい連携サービスをサービス事業者へ提供することができる。
事業者間一括サービス管理装置100は、提供しているサービス全体、各サービス事業者210が利用しているサービス、各サービスプロダクトのサービスについて、故障や故障が疑われるサービスをカウントすることができる。こうすることで事業者間一括サービス管理装置100は、連携サービスの稼働状況をわかりやすく事業者間一括サービス管理装置100の管理者に提供することができる。
101 連携サービスシステム
100 事業者間一括サービス管理装置
110 業務API部
120 シナリオ管理部
121 監視シナリオ部
122 トラブルチケット対応シナリオ部
130 業務リソース管理部
131 サービス状態管理部(サービスレベル順守判定部)
132 SLA管理部
133 性能管理部
134 トラブルチケット管理部
140 パートナー事業者APIアダプタ部
141 アダプタ
150 利用状況DB
160 性能情報DB
170 プロダクトリソースDB
176 SLA判定ルール(サービスレベル順守判定ルール)
180 性能管理項目DB
210 サービス事業者
211 計算機

Claims (8)

  1. サービスを提供するサーバと、複数の前記サービスを構成要素サービスとして連携させた連携サービスを利用するサービス事業者の計算機とネットワークを介して接続され、前記連携サービスを提供する事業者間一括サービス管理装置であって、
    前記連携サービスと当該連携サービスを構成する複数の前記構成要素サービスとを関連付けた情報が格納される利用状況データベースを記憶する記憶部と、
    前記構成要素サービスまたは前記連携サービスに関連付けられ、前記構成要素サービスまたは前記連携サービスが所定のサービスレベルを順守しているか違反しているかの判定の規則を示すサービスレベル順守判定ルールに従って、前記構成要素サービスと前記連携サービスとのそれぞれが、前記所定のサービスレベルを順守しているかまたは違反しているかのサービスレベル順守判定を実行するサービスレベル順守判定部と、
    前記利用状況データベースを参照して、前記連携サービスから前記構成要素サービスを抽出し、抽出された前記構成要素サービスが前記連携サービスならばさらに前記構成要素サービスを抽出することを繰り返し、抽出された下位の構成要素サービスから順番に前記サービスレベル順守判定部に前記サービスレベル順守判定を指示して、前記連携サービスの稼働状態を判定するサービス状態判定を実行するサービス状態管理部と
    を備えることを特徴とする事業者間一括サービス管理装置。
  2. 前記サービスレベル順守判定部は、前記構成要素サービスに対して前記サービスレベル順守判定を実行するときに、前記構成要素サービスに関連付けられた前記サービスレベル順守判定ルールに従って、前記構成要素サービスを提供する前記サーバから取得された前記構成要素サービスの性能情報を参照して前記サービスレベル順守判定を実行する
    ことを特徴とする請求項1に記載の事業者間一括サービス管理装置。
  3. 前記サービスレベル順守判定部は、前記連携サービスに対して前記サービスレベル順守判定を実行するときに、前記連携サービスに関連付けられた前記サービスレベル順守判定ルールに従って、前記連携サービスの前記構成要素サービスを提供する前記サーバから取得された前記構成要素サービスの性能情報を参照して前記サービスレベル順守判定を実行する
    ことを特徴とする請求項1に記載の事業者間一括サービス管理装置。
  4. 前記サービスレベル順守判定部は、前記連携サービスに対して前記サービスレベル順守判定を実行するときに、前記連携サービスに関連付けられた前記サービスレベル順守判定ルールに従って、前記構成要素サービスに対する前記サービスレベル順守判定の結果を用いて前記連携サービスについての前記サービスレベル順守判定を実行する
    ことを特徴とする請求項1に記載の事業者間一括サービス管理装置。
  5. 前記利用状況データベースの情報は、前記連携サービスの種別と、前記構成要素サービスの種別と、前記連携サービスの状態として正常、故障、故障疑の何れか1つの値を含む状態とをさらに関連付けた情報であり、
    前記構成要素サービスを提供する前記サーバから前記構成要素サービスの故障の通知があった場合に、前記利用状況データベースを参照して、前記故障の通知のあった前記構成要素サービスの種別と同じ種別の構成要素サービスを構成要素サービスとしている前記連携サービスについて、当該連携サービスに対応する前記利用状況データベースの前記状態を故障疑とし、
    当該連携サービスに対する前記サービス状態判定を前記サービス状態管理部に指示して、
    当該連携サービスまたはその構成要素サービスに対する前記サービスレベル順守判定で違反となったときには、当該連携サービスに対応する前記利用状況データベースの前記状態を故障疑から故障に変更し、
    当該連携サービスおよびその構成要素サービスに対する前記サービスレベル順守判定で順守となったときには、当該連携サービスに対応する前記利用状況データベースの前記状態を故障疑から正常に変更するシナリオ管理部をさらに備える
    ことを特徴とする請求項1に記載の事業者間一括サービス管理装置。
  6. 前記利用状況データベースの情報は、前記連携サービスの種別と、前記連携サービスの状態として正常、故障、故障疑の何れか1つの値を含む状態とをさらに関連付けた情報であり、
    前記サービス事業者の計算機から前記連携サービスの故障の通知があった場合に、前記利用状況データベースを参照して、前記故障の通知のあった前記連携サービスの種別と同じ種別の前記連携サービスについて、当該連携サービスに対応する前記利用状況データベースの前記状態を故障疑とし、
    当該連携サービスに対する前記サービス状態判定を前記サービス状態管理部に指示して、
    当該連携サービスまたはその構成要素サービスに対する前記サービスレベル順守判定で違反となったときには、当該連携サービスに対応する前記利用状況データベースの前記状態を故障疑から故障に変更し、
    当該連携サービスおよびその構成要素サービスに対する前記サービスレベル順守判定で順守となったときには、当該連携サービスに対応する前記利用状況データベースの前記状態を故障疑から正常に変更するシナリオ管理部をさらに備える
    ことを特徴とする請求項1に記載の事業者間一括サービス管理装置。
  7. 前記利用状況データベースの情報は、前記連携サービスの前記サービス事業者をさらに関連付けた情報であり、
    前記シナリオ管理部は、
    前記サービス事業者ごとに、前記状態が故障である連携サービスのカウントする、
    前記サービス事業者ごとに、前記状態が故障疑である連携サービスのカウントする、
    前記連携サービスの種別ごとに、前記状態が故障である連携サービスのカウントする、
    前記連携サービスの種別ごとに、前記状態が故障疑である連携サービスのカウントする
    の何れかを実行することを特徴とする請求項5または請求項6に記載の事業者間一括サービス管理装置。
  8. サービスを提供するサーバと、複数の前記サービスを構成要素サービスとして連携させた連携サービスを利用するサービス事業者の計算機とネットワークを介して接続され、前記連携サービスを提供する事業者間一括サービス管理装置の事業者間一括サービス管理方法であって、
    前記事業者間一括サービス管理装置は、前記連携サービスと当該連携サービスを構成する複数の前記構成要素サービスとを関連付けた情報が格納される利用状況データベースを備えており、
    前記構成要素サービスまたは前記連携サービスに関連付けられ、前記構成要素サービスまたは前記連携サービスが所定のサービスレベルを順守しているか違反しているかの判定の規則を示すサービスレベル順守判定ルールに従って、前記構成要素サービスと前記連携サービスとのそれぞれが、前記所定のサービスレベルを順守しているかまたは違反しているかのサービスレベル順守判定を実行するサービスレベル順守判定ステップと、
    前記利用状況データベースを参照して、前記連携サービスから前記構成要素サービスを抽出し、抽出された前記構成要素サービスが前記連携サービスならばさらに前記構成要素サービスを抽出することを繰り返し、抽出された下位の構成要素サービスから順番に前記サービスレベル順守判定ステップを実行して、前記連携サービスの稼働状態を判定するサービス状態判定を実行するサービス状態管理ステップと
    を実行することを特徴とする事業者間一括サービス管理方法。
JP2017092617A 2017-05-08 2017-05-08 事業者間一括サービス管理装置および事業者間一括サービス管理方法 Active JP6926646B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017092617A JP6926646B2 (ja) 2017-05-08 2017-05-08 事業者間一括サービス管理装置および事業者間一括サービス管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017092617A JP6926646B2 (ja) 2017-05-08 2017-05-08 事業者間一括サービス管理装置および事業者間一括サービス管理方法

Publications (2)

Publication Number Publication Date
JP2018190205A true JP2018190205A (ja) 2018-11-29
JP6926646B2 JP6926646B2 (ja) 2021-08-25

Family

ID=64480079

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017092617A Active JP6926646B2 (ja) 2017-05-08 2017-05-08 事業者間一括サービス管理装置および事業者間一括サービス管理方法

Country Status (1)

Country Link
JP (1) JP6926646B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022003911A1 (ja) * 2020-07-02 2022-01-06 日本電信電話株式会社 ワークフロー整合性確保装置、ワークフロー整合性確保方法、および、ワークフロー整合性確保プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090429A (ja) * 2009-10-21 2011-05-06 Nomura Research Institute Ltd 統合監視システム
WO2011083750A1 (ja) * 2010-01-07 2011-07-14 日本電気株式会社 情報処理装置、サービス管理方法、並びにサービス管理プログラム
WO2012070475A1 (ja) * 2010-11-22 2012-05-31 日本電気株式会社 情報処理装置、情報処理方法、並びに情報処理プログラム
WO2014038037A1 (ja) * 2012-09-06 2014-03-13 株式会社 東芝 レポート作成システム及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090429A (ja) * 2009-10-21 2011-05-06 Nomura Research Institute Ltd 統合監視システム
WO2011083750A1 (ja) * 2010-01-07 2011-07-14 日本電気株式会社 情報処理装置、サービス管理方法、並びにサービス管理プログラム
WO2012070475A1 (ja) * 2010-11-22 2012-05-31 日本電気株式会社 情報処理装置、情報処理方法、並びに情報処理プログラム
WO2014038037A1 (ja) * 2012-09-06 2014-03-13 株式会社 東芝 レポート作成システム及びプログラム
US20150178141A1 (en) * 2012-09-06 2015-06-25 Kabushiki Kaisha Toshiba Report creation system and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022003911A1 (ja) * 2020-07-02 2022-01-06 日本電信電話株式会社 ワークフロー整合性確保装置、ワークフロー整合性確保方法、および、ワークフロー整合性確保プログラム

Also Published As

Publication number Publication date
JP6926646B2 (ja) 2021-08-25

Similar Documents

Publication Publication Date Title
US10637737B2 (en) Managing alarms from distributed applications
US10521324B2 (en) Programmatically classifying alarms from distributed applications
US10594582B2 (en) Introspection driven monitoring of multi-container applications
JP5684946B2 (ja) イベントの根本原因の解析を支援する方法及びシステム
US20120030346A1 (en) Method for inferring extent of impact of configuration change event on system failure
US20120221898A1 (en) System and method for determination of the root cause of an overall failure of a business application service
US11157373B2 (en) Prioritized transfer of failure event log data
US9692654B2 (en) Systems and methods for correlating derived metrics for system activity
US20150019512A1 (en) Systems and methods for filtering low utility value messages from system logs
US11329869B2 (en) Self-monitoring
US20230064625A1 (en) Method and system for recommending runbooks for detected events
WO2021157299A1 (ja) 通信装置、監視サーバ及びログ収集方法
JP2011197785A (ja) ログ収集システムおよびログ収集プログラム
US8370800B2 (en) Determining application distribution based on application state tracking information
US9021078B2 (en) Management method and management system
US20210224102A1 (en) Characterizing operation of software applications having large number of components
JP6926646B2 (ja) 事業者間一括サービス管理装置および事業者間一括サービス管理方法
EP3607767B1 (en) Network fault discovery
US9240968B1 (en) Autogenerated email summarization process
Eyers et al. Configuring large‐scale storage using a middleware with machine learning
WO2013103008A1 (ja) 事象の原因を特定する情報システム、コンピュータ及び方法
JP2016100816A (ja) 仮想ネットワーク管理装置及び方法
CN118119927A (zh) 用于针对检测到的事件推荐运行手册的方法和系统
JP5624683B2 (ja) 管理サーバ、管理システム、および、管理方法
CN118119926A (zh) 基于候选运行手册的结果与事件的补救的相关性推荐候选运行手册

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210719

R150 Certificate of patent or registration of utility model

Ref document number: 6926646

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150