JP2018201129A - システム管理装置、システム管理方法及びプログラム - Google Patents

システム管理装置、システム管理方法及びプログラム Download PDF

Info

Publication number
JP2018201129A
JP2018201129A JP2017105020A JP2017105020A JP2018201129A JP 2018201129 A JP2018201129 A JP 2018201129A JP 2017105020 A JP2017105020 A JP 2017105020A JP 2017105020 A JP2017105020 A JP 2017105020A JP 2018201129 A JP2018201129 A JP 2018201129A
Authority
JP
Japan
Prior art keywords
server
communication
route
information processing
physical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017105020A
Other languages
English (en)
Inventor
圭人 大須賀
Yoshihito Osuga
圭人 大須賀
憲之 河野
Yoshiyuki Kawano
憲之 河野
一博 宮下
Kazuhiro Miyashita
一博 宮下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017105020A priority Critical patent/JP2018201129A/ja
Priority to US15/987,219 priority patent/US20180343162A1/en
Publication of JP2018201129A publication Critical patent/JP2018201129A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/22Alternate routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/28Routing or path finding of packets in data switching networks using route fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/58Association of routers

Abstract

【課題】レイヤ3以上のパケットを扱うL3中継装置を含む情報処理システムにおいて、障害発生時の影響範囲を正確に特定すること。【解決手段】対象システム4にL3中継装置が含まれる場合に、物理経路作成部67が、L3中継装置を一端又は両端とする通信グループを含む物理経路テーブル68を作成する。そして、グループ間通信特定部71が、物理経路テーブル68に基づいて、障害により影響を受けるサーバグループ間通信を特定する。【選択図】図30

Description

本発明は、システム管理装置、システム管理方法及びプログラムに関する。
クラウドシステムは、複数の顧客へのサービスの提供を実現するため、多くのサーバ、スイッチ等により構築され、複雑な構成になっている。このような複雑な環境において障害が発生すると、クラウドシステムを管理するクラウド管理装置は、クラウド事業者を支援するために、予め記憶している物理経路情報と仮想システムの構成情報を基に影響を受ける顧客を特定する。
なお、コンピュータ識別子にルーティング用のネット識別子が対応付けられる場合に、並列プログラムを実行する複数のコンピュータを階層構成の中継装置の内最下層の中継装置毎にグループ化してソートし、ソート順に識別子をコンピュータに割当てる技術がある。
また、ネットワーク接続機器の物理的な接続状態に関する情報と、スパニングツリーによる接続状態とに基づいて、VLANを構成する端末に接続されているスイッチA、B間を接続する経路の冗長経路を特定してVLAN設定情報テーブルを生成する技術がある。
特開2012−98881号公報 特開2007−158764号公報
クラウドシステムにレイヤ3以上のパケットを扱うL3中継装置があると、L3中継装置で折り返しが発生する場合がある。しかしながら、障害が発生した場合に影響を受ける顧客を特定する処理に用いられる物理経路情報には、L3中継装置で折り返す物理経路に関する情報が含まれていないため、影響を受ける顧客を正確に特定することができないという問題がある。
本発明は、1つの側面では、障害が発生した場合に影響を受ける顧客を正確に特定することを目的とする。
1つの態様では、システム管理装置は、レイヤ3以上のデータを扱うL3中継装置を含む複数の中継装置と複数の情報処理装置を有するネットワークシステムを管理する装置である。システム管理装置は、探索部と特定部とを有する。探索部は、L3中継装置と情報処理装置との間の通信経路及び情報処理装置間でL3中継装置を経由しない通信経路を探索し、該探索した通信経路の情報と両端の装置の情報とを対応付けて記憶部に記憶する。特定部は、ネットワークシステムで障害が発生した場合に、記憶部を用いて障害の影響を受ける情報処理装置間通信を特定する。
1つの側面では、本発明は、障害が発生した場合に影響を受ける顧客を正確に特定することができる。
図1は、実施例1に係る情報処理システムを説明するための図である。 図2は、クラウド管理装置の機能構成を示す図である。 図3は、冗長管理テーブルの一例を示す図である。 図4は、接続リンク管理テーブルの一例を示す図である。 図5は、VM管理テーブルの一例を示す図である。 図6は、サーバ管理テーブルの一例を示す図である。 図7は、サーバグループ管理テーブルの一例を示す図である。 図8は、図6及び図7の作成に用いられた対象システムの例を示す図である。 図9Aは、グループ割り当ての例1を示す図である。 図9Bは、グループ割り当ての例2を示す図である。 図10は、物理経路テーブルの一例を示す図である。 図11は、冗長経路を考慮した影響範囲の特定例を示す図である。 図12Aは、サーバとエッジスイッチとの間の経路に障害が発生した場合の影響範囲の特定例を示す第1の図である。 図12Bは、サーバとエッジスイッチとの間の経路に障害が発生した場合の影響範囲の特定例を示す第2の図である。 図13は、サーバグループを作成する処理のフローを示すフローチャートである。 図14は、物理経路テーブルを作成する処理のフローを示すフローチャートである。 図15Aは、影響範囲を特定する処理のフローを示す第1のフローチャートである。 図15Bは、影響範囲を特定する処理のフローを示す第2のフローチャートである。 図16は、影響範囲の特定例の説明に用いる情報処理システムを示す図である。 図17は、図16に示した情報処理システムに対応する冗長管理テーブル、接続リンク管理テーブル及びVM管理テーブルを示す図である。 図18は、スイッチ#1配下のサーバグループが登録された時のサーバ管理テーブル及びサーバグループ管理テーブルの状態を示す図である。 図19は、スイッチ#2〜スイッチ#4配下のサーバグループが登録された時のサーバ管理テーブル及びサーバグループ管理テーブルの状態を示す図である。 図20は、経路#1が登録された時の物理経路テーブルの状態を示す図である。 図21は、経路#2〜経路#4が登録された時の物理経路テーブルの状態を示す図である。 図22は、重複経路が削除された時の物理経路テーブルの状態を示す図である。 図23は、スイッチ間に障害が発生した時の状態を示す図である。 図24は、サーバとスイッチの間に障害が発生した時の状態を示す図である。 図25は、サーバをグループ化した場合の効果を説明するための図である。 図26は、実施例1に係る影響範囲特定プログラムを実行するコンピュータのハードウェア構成を示す図である。 図27は、L3中継装置を含む情報処理システム及び物理経路テーブルを示す図である。 図28Aは、データセンター外の情報処理システムの構成情報の収集を説明するための図である。 図28Bは、図28Aに示したクライアント環境について必要な構成情報を示す図である。 図29は、インポートする物理経路テーブルの例を示す図である。 図30は、クラウド管理装置の機能構成を示す図である。 図31は、物理経路テーブルの一例を示す図である。 図32は、装置管理テーブルの一例を示す図である。 図33は、物理経路テーブルを作成するまでの処理のフローを示すフローチャートである。 図34は、障害発生時に影響範囲を特定する処理のフローを示すフローチャートである。 図35Aは、物理経路テーブルを作成する処理のフローを示す第1のフローチャートである。 図35Bは、物理経路テーブルを作成する処理のフローを示す第2のフローチャートである。 図36は、影響範囲を特定する処理のフローを示す第3のフローチャートである。 図37は、影響範囲を特定される対象システムの構成を示す図である。 図38は、図37に示した対象システムについて作成された物理経路テーブルを示す図である。 図39は、障害により影響を受けるサーバグループ間通信を示す図である。
以下に、本願の開示するシステム管理装置、システム管理方法及びプログラムの実施例を図面に基づいて詳細に説明する。実施例1では、障害の影響を受ける顧客の特定に用いられる物理経路情報の量を少なくすることで、影響を受ける顧客を特定する処理に要する時間を短縮する情報処理システムについて説明する。実施例2では、L3中継装置で折り返す物理経路も含めて障害の影響を受ける物理経路を特定する情報処理システムについて説明する。なお、これらの実施例は開示の技術を限定するものではない。
まず、実施例1に係る情報処理システムについて説明する。図1は、実施例1に係る情報処理システムを説明するための図である。図1に示すように、実施例1に係る情報処理システム10は、クラウド管理装置1と、3台のサーバ41と、4台のスイッチ42を有する。3台のサーバ41はサーバ#1〜サーバ#3で表され、4台のスイッチ42はスイッチ#1〜スイッチ#4で表される。スイッチ#4は予備のスイッチ42であり、スイッチ#3とスイッチ#4はノード冗長の関係にある。サーバ41とスイッチ42、スイッチ42とスイッチ42は、リンク43で接続される。図1では、8個のリンク43がリンク#1〜リンク#8で表され、各リンク43は実線で表される。例えば、サーバ#1とスイッチ#1は、リンク#1で接続される。
サーバ41は、情報処理を行う情報処理装置である。スイッチ42は、サーバ41間の通信を中継する装置である。なお、図1において、情報処理システム10は、3台のサーバ41と4台のスイッチ42と8個のリンク43とを有するが、情報処理システム10は、任意の個数のサーバ41、スイッチ42及びリンク43を有してよい。
サーバ#1ではVM#1が動作し、サーバ#2では、VM#2が動作し、サーバ#3では、VM#3が動作する。ここで、VMは、サーバ41上で動作する仮想マシン(Virtual Machine)である。情報処理システム10を利用するテナントには、VMが割り当てられる。また、情報処理システム10を利用するテナントには、仮想ネットワークが割り当てられる。図1では、テナントXにVLAN(Virtual Local Area Network)#1が割り当てられる。仮想ネットワークは破線で表される。なお、図1では、1台のサーバ41に1台のVM44が割り当てられ、1つのテナントに1つの仮想ネットワークが割り当てられるが、1台のサーバ41に複数のVM44が割り当てられ、1つのテナントに複数の仮想ネットワークが割り当てられてもよい。
クラウド管理装置1は、ネットワークに障害が発生した場合に、影響を受けるVM間通信を特定することによって、影響を受ける顧客を特定する装置である。例えば、クラウドシステムを運営するクラウド事業者7は、ネットワークインフラに障害が発生すると、クラウド管理装置1に影響範囲を問い合わせる。クラウド管理装置1は、影響を受けるVM間通信を特定することによって影響を受ける顧客を特定し、クラウド事業者7が使用する表示装置に特定結果を表示する。図1では、リンク#4に障害が発生すると、クラウド管理装置1は、影響を受けるVM間通信としてVM#1とVM#2との間の通信及びVM#2とVM#3との間の通信を特定する。そして、クラウド管理装置1は、VM44と顧客との対応情報に基づいて、障害の影響を受ける顧客を特定する。
クラウド管理装置1は、接続されるエッジスイッチが全て同じとなるサーバ41を同一グループとして管理し、サーバグループ間で通信経路を管理する。ここで、エッジスイッチとは、サーバ41に1つのリンク43で直接接続するスイッチ42である。図1では、スイッチ#1〜スイッチ#4の全てがエッジスイッチである。
次に、クラウド管理装置1について説明する。図2は、クラウド管理装置1の機能構成を示す図である。図2に示すように、クラウド管理装置1は、サーバグループの管理に用いるデータ、障害の影響の分析に用いるデータ等を記憶する記憶部1aと、サーバグループの管理に用いるデータの作成制御、障害の影響の分析の制御等を行う制御部1bとを有する。記憶部1aは、冗長管理テーブル11と、接続リンク管理テーブル12と、VM管理テーブル13と、サーバ管理テーブル15と、サーバグループ管理テーブル16と、物理経路テーブル18とを記憶する。制御部1bは、サーバグループ作成部14と、物理経路作成部17と、特定部19とを有する。
冗長管理テーブル11には、情報処理システム10の冗長構成に関する情報が登録される。図3は、冗長管理テーブル11の一例を示す図である。図3に示すように、冗長管理テーブル11では、ノード名と状態とが対応付けられる。ノード名は、スイッチ42を識別する識別子である。状態は、スイッチ42の使用状態を示す。状態が「現用」である場合には、スイッチ42は使用されており、状態が「予備」である場合には、スイッチ42は使用されていない。例えば、スイッチ#1は、使用されており、スイッチ#4は使用されていない。
接続リンク管理テーブル12には、スイッチ42又はサーバ41に接続するリンク43の情報が登録される。図4は、接続リンク管理テーブル12の一例を示す図である。図4に示すように、接続リンク管理テーブル12では、ノード名と接続リンクが対応付けられる。ノード名は、スイッチ42を識別する識別子又はサーバ41を識別する識別子である。接続リンクは、スイッチ42又はサーバ41に接続するリンク43を識別する識別番号である。例えば、スイッチ#1に接続するリンク43には、リンク#1、リンク#3及びリンク#5がある。また、サーバ#1に接続するリンク43には、リンク#1がある。なお、リンク#nは、識別番号がnのリンク43である。
VM管理テーブル13には、サーバ41で動作するVM44が登録される。図5は、VM管理テーブル13の一例を示す図である。図5に示すように、VM管理テーブル13では、ノード名とVM名とが対応付けられる。ノード名は、サーバ41を識別する識別子である。VM名は、VM44を識別する識別子である。例えば、サーバ#1ではVM#1が動作し、サーバ#2ではVM#2が動作する。
サーバグループ作成部14は、接続リンク管理テーブル12を参照してサーバ41をグループ化し、サーバ管理テーブル15及びサーバグループ管理テーブル16を作成する。サーバグループ作成部14は、接続されるエッジスイッチが全て同じサーバ41を同一グループにグループ化する。
サーバ管理テーブル15には、サーバ毎にサーバグループの情報が登録される。サーバグループ管理テーブル16には、サーバグループが接続されるエッジスイッチの情報が登録される。図6は、サーバ管理テーブル15の一例を示す図であり、図7は、サーバグループ管理テーブル16の一例を示す図であり、図8は、図6及び図7の作成に用いられた対象システム4aの例を示す図である。
図6に示すように、サーバ管理テーブル15では、サーバ名とサーバグループ名が対応付けられる。サーバ名は、サーバ41を識別する識別子である。サーバグループ名は、サーバグループを識別する識別子である。図7に示すように、サーバグループ管理テーブル16では、エッジスイッチ名とサーバグループ名が対応付けられる。エッジスイッチ名は、エッジスイッチを識別する識別子である。サーバグループ名は、サーバグループを識別する識別子である。
図8に示すように、対象システム4aでは、サーバ#1とサーバ#2は、エッジスイッチであるスイッチ#1及びスイッチ#2に接続され、接続されるエッジスイッチが全て同じである。したがって、サーバ#1とサーバ#2は、識別子がG#1であるグループに含まれ、図6では、サーバ#1とサーバ#2はG#1に対応付けられ、図7では、スイッチ#1とスイッチ#2はG#1に対応付けられる。
また、図8に示すように、対象システム4aでは、サーバ#3はエッジスイッチであるスイッチ#5及びスイッチ#6に接続され、接続されるエッジスイッチが全て同じである他のサーバはない。したがって、サーバ#3は、識別子がG#2であるグループに含まれ、図6では、サーバ#3はG#2に対応付けられ、図7では、スイッチ#5とスイッチ#6はG#2に対応付けられる。
サーバグループ作成部14は、接続されるエッジスイッチが全て同じサーバ41を同一グループに割り当てるというポリシーでグループ割り当てを行う。一方、スイッチ配下のサーバ41を全て同一グループに割り当てるというポリシーも考えられる。図9Aは、スイッチ配下のサーバ41を全て同一グループに割り当てるグループ割り当ての例1を示す図であり、図9Bは、接続されるエッジスイッチが全て同じサーバ41を同一グループに割り当てるグループ割り当ての例2を示す図である。
図9Aに示すように、グループ割り当ての例1では、スイッチ#1配下のサーバ#1とサーバ#2が同じグループG#1に割り当てられる。次に、スイッチ#2配下のサーバ#1にグループを割り当てようとするが、サーバ#1には既にグループG#1が割り当てられているため、サーバ#1には新たな割り当ては行われない。次に、スイッチ#3配下のサーバ#3にグループ#G2が割り当てられる。次に、スイッチ#4配下のサーバ#3にグループを割り当てようとするが、サーバ#3には既にグループG#2が割り当てられているため、サーバ#3には新たな割り当ては行われない。
そして、リンク#5で障害が発生すると、サーバ#1はサーバ#3との通信においてリンク#6を経由する経路があるため影響を受けないが、サーバ#2はサーバ#3との通信において別の経路がないため影響を受ける。すなわち、グループ割り当ての例1では、同じグループG#1内に影響の有無が異なるサーバ41がある。
一方、図9Bに示すように、グループ割り当ての例2では、サーバ#1はスイッチ#1とスイッチ#2に接続され、サーバ#2はスイッチ#1に接続され、サーバ#3はスイッチ#3とスイッチ#4に接続される。すなわち、サーバ#1〜サーバ#3は、接続されるエッジスイッチがすべて異なる。したがって、サーバ#1〜サーバ#3には、それぞれ異なるグループG#1〜グループG#3が割り当てられる。
そして、リンク#5で障害が発生すると、サーバ#1はサーバ#3との通信においてリンク#6を経由する経路があるため影響を受けないが、サーバ#2はサーバ#3との通信において別の経路がないため影響を受ける。しかしながら、サーバ#1とサーバ#2には異なるグループが割り当てられているため、同じグループ内に影響の有無が異なるサーバ41はない。このように、サーバグループ作成部14は、接続されるエッジスイッチが全て同じサーバ41を同一グループに割り当てることによって、同じグループ内の全サーバ41が障害に対して同じ影響を受けるようにすることができる。
サーバグループ作成部14は、以下の(1)〜(5)を全エッジスイッチに対して行うことにより、サーバグループを作成する。
(1)エッジスイッチを1つ選択する。
(2)(1)で選択したエッジスイッチと隣接し、サーバグループが割り当てられていないサーバ41を抽出し、サーバグループを割り当てると共に、抽出したサーバ41が接続する全てのエッジスイッチを抽出する。
(3)(1)で選択したエッジスイッチと隣接し、サーバグループが割り当てられていない別のサーバ41を抽出し、抽出した別サーバ41が接続する全てのエッジスイッチを抽出する。
(4)(2)で抽出したエッジスイッチと(3)で抽出したエッジスイッチを比較し、全てが同一の場合、別サーバ41に(2)で割り当てたサーバグループを割り当てる。
(5)(3)、(4)を、選択したエッジスイッチと隣接する別のサーバ41がなくなるまで繰り返し、(1)〜(4)をエッジスイッチがなくなるまで繰り返す。
物理経路作成部17は、接続リンク管理テーブル12とサーバグループ管理テーブル16を参照して、2つのエッジスイッチの間を結ぶリンク43の集合を物理経路として特定し、物理経路テーブル18を作成する。物理経路テーブル18には、物理経路と物理経路を用いて通信を行う2つのサーバグループが登録される。図10は、物理経路テーブル18の一例を示す図である。図10は、図8に示した対象システム4aを対象に作成された物理経路テーブル18である。
図10に示すように、物理経路テーブル18では、経路番号と通信経路と通信グループとが対応付けられる。経路番号は、物理経路を識別する識別番号である。通信経路は、物理経路に含まれるリンク43の識別子の集合である。通信グループは、物理経路を用いて通信する2つのサーバグループの識別子である。例えば、経路番号が「1」の物理経路は、「リンク#5」と「リンク#7」が含まれ、「G#1」と「G#2」の間の通信で用いられる。
物理経路作成部17は、エッジスイッチから別のエッジスイッチまでの経路を全エッジスイッチについて探索することによって、全物理経路を特定する。そして、物理経路作成部17は、サーバグループ管理テーブル16を参照し、物理経路の両端のエッジスイッチの配下のサーバグループを抽出してサーバグループの組み合わせを作成し、物理経路と対応付けて物理経路テーブル18に登録する。
特定部19は、発生した障害により影響を受けるVM間通信を特定する。特定部19は、グループ間通信特定部21と、VM間通信特定部22とを有する。
グループ間通信特定部21は、発生した障害により影響を受けるサーバグループ間通信を特定する。すなわち、グループ間通信特定部21は、発生した障害により影響を受ける物理経路を物理経路テーブル18を参照して特定し、特定した物理経路が現用であるか否かを冗長管理テーブル11及び接続リンク管理テーブル12を参照して判定する。そして、グループ間通信特定部21は、特定した物理経路が現用である場合に、物理経路テーブル18を参照して、対応するサーバグループ間通信を特定し、特定したサーバグループ間通信に別の物理経路があるか否かを判定する。そして、グループ間通信特定部21は、特定したサーバグループ間通信のうち別の物理経路がないサーバグループ間通信を、発生した障害により影響を受けるサーバグループ間通信として特定する。
VM間通信特定部22は、グループ間通信特定部21により特定されたサーバグループ間通信から障害の影響を受けるサーバ間通信を特定し、特定したサーバ間通信から障害の影響を受けるVM間通信を特定する。すなわち、VM間通信特定部22は、グループ間通信特定部21により特定されたサーバグループ間通信の対象となる2つのサーバグループ内のサーバ41をサーバ管理テーブル15を参照してそれぞれ抽出する。そして、VM間通信特定部22は、異なるサーバグループ間でサーバ41の組み合わせを作成し、VM管理テーブル13を参照して、発生した障害により影響を受けるVM間通信を特定する。
このように、特定部19は、発生した障害により影響を受ける物理経路が現用であるか否か、及び、現用である場合に、影響を受けるサーバグループ間通信又はサーバ間通信について冗長経路があるか否かを考慮して、影響を受けるVM間通信を特定する。図11は、冗長経路を考慮した影響範囲の特定例を示す図である。図11に示すように、リンク#5で障害が発生すると、リンク#5を含む物理経路は現用系である。このため、サーバグループG#1とサーバグループG#3の間の通信、及び、サーバグループG#2とサーバグループG#3の間の通信が影響を受けるサーバグループ間通信として抽出される。
サーバグループG#1とサーバグループG#3の間の通信は、リンク#6を経由する予備経路があるため、障害の影響を受けない。一方、サーバグループG#2とサーバグループG#3の間の通信は、予備経路がないため、サーバ#2とサーバ#3の間の通信が障害の影響を受け、VM#2とVM#3の間の通信が、影響を受けるVM間通信として特定される。
また、グループ間通信特定部21は、サーバ41とエッジスイッチとの間の物理経路に障害が発生すると、障害個所と接続されるエッジスイッチを経由する物理経路を接続リンク管理テーブル12及び物理経路テーブル18を参照して特定する。そして、グループ間通信特定部21は、特定した物理経路が現用であるか否かを冗長管理テーブル11及び接続リンク管理テーブル12を参照して判定し、現用である場合には、特定した物理経路を使用するサーバグループ間通信を特定する。ただし、特定するサーバグループ間通信は、障害個所と接続されるサーバ41が属するサーバグループを含む通信である。
そして、グループ間通信特定部21は、物理経路テーブル18を参照して、特定したサーバグループ間通信に別の物理経路があるか否かを判定する。そして、グループ間通信特定部21は、特定したサーバグループ間通信のうち別の物理経路がないサーバグループ間通信を、発生した障害により影響を受けるサーバグループ間通信として特定する。
そして、VM間通信特定部22が、グループ間通信特定部21により特定されたサーバグループ間通信の対象となる2つのサーバグループ内のサーバ41をサーバ管理テーブル15を参照してそれぞれ抽出する。ただし、VM間通信特定部22は、障害個所と接続されるサーバ41が属するサーバグループからは、障害個所と接続されるサーバ41のみを抽出する。そして、VM間通信特定部22は、サーバグループ間でサーバ41の組み合わせを作成し、VM管理テーブル13を参照して、発生した障害により影響を受けるVM間通信を特定する。
図12Aは、サーバ41とエッジスイッチとの間の経路に障害が発生した場合の影響範囲の特定例を示す第1の図である。図12Aに示すように、リンク#1で障害が発生すると、サーバグループG#1とサーバグループG#2の間の通信が影響を受ける現用のサーバグループ間通信として特定される。そして、サーバグループG#1とサーバグループG#2の間には別経路はないので、サーバグループG#1からは障害が発生したリンク#1と接続するサーバ#1が抽出され、サーバグループG#2からはサーバ#3が抽出される。そして、サーバ#1で構築されたVM#1とサーバ#3で構築されたVM#3の間のVM間通信が障害の影響を受けるVM間通信として特定される。
また、VM間通信特定部22は、サーバ41とエッジスイッチとの間の経路に障害が発生すると、影響を受けるサーバ間通信の物理経路を、障害個所と接続されるサーバ41が属するサーバグループ内で抽出する。そして、VM間通信特定部22は、抽出した物理経路が現用であるか否かを冗長管理テーブル11及び接続リンク管理テーブル12を参照して判定する。そして、VM間通信特定部22は、抽出した物理経路が現用である場合に、別経路があるか否かを冗長管理テーブル11及び接続リンク管理テーブル12を参照して判定する。そして、VM間通信特定部22は、別経路がない場合に、影響を受けるサーバ間通信の対象となるサーバ41で構築されたVM44を抽出し、異なるサーバ上のVM間の組み合わせを影響を受けるVM間通信として特定する。
図12Bは、サーバ41とエッジスイッチとの間の経路に障害が発生した場合の影響範囲の特定例を示す第2の図である。図12Bに示すように、リンク#1で障害が発生すると、サーバ#1とサーバ#2の間の通信が影響を受けるサーバ間通信として抽出される。そして、サーバ#1とサーバ#2の間の通信は現用であり、別経路がないので、サーバ#1で構築されたVM#1とサーバ#2で構築されたVM#2が抽出される。そして、VM#1とVM#2の間の通信が、影響を受けるVM間通信として特定される。
次に、サーバグループを作成して物理経路テーブル18を作成する処理のフローについて説明する。図13は、サーバグループを作成する処理のフローを示すフローチャートであり、図14は、物理経路テーブル18を作成する処理のフローを示すフローチャートである。なお、サーバグループの作成は、情報処理システムの構築後行われると共に、ネットワーク構成に変更があった場合、サーバ構成に変更があった場合にも行われる。
図13に示すように、サーバグループ作成部14は、接続リンク管理テーブル12から全スイッチ42を検索する処理が完了したか否かを判定する(ステップS1)。そして、サーバグループ作成部14は、検索していないスイッチ42がある場合には、スイッチ42を1つ検索し、検索したスイッチ42の隣接ノードがサーバ41であるか否かを判定する(ステップS2)。そして、サーバグループ作成部14は、隣接ノードがサーバ41でない場合には、ステップS1に戻り、隣接ノードがサーバ41である場合には、検索したスイッチ42をエッジスイッチとして抽出し(ステップS3)、ステップS1に戻る。
一方、全スイッチ42を検索する処理が完了した場合には、サーバグループ作成部14は、全エッジスイッチについてサーバグループを特定する処理を完了したか否かを判定する(ステップS4)。その結果、サーバグループを特定する処理を行っていないエッジスイッチがある場合には、サーバグループ作成部14は、エッジスイッチを1つ選択する(ステップS5)。そして、サーバグループ作成部14は、選択したエッジスイッチの配下にある全サーバへのサーバグループ割り当てが完了したか否かを判定する(ステップS6)。
そして、サーバグループ作成部14は、サーバグループ割り当てが行われていないサーバ41がある場合には、サーバグループが割り当てられていないサーバ41を抽出し、新たなサーバグループを割り当て、サーバ管理テーブル15に登録する(ステップS7)。そして、サーバグループ作成部14は、選択したエッジスイッチの配下にある全サーバへのサーバグループ割り当てが完了したか否かを判定する(ステップS8)。
そして、サーバグループ割り当てが行われていないサーバ41がある場合には、サーバグループ作成部14は、サーバグループが割り当てられていないサーバ41を抽出する(ステップS9)。そして、サーバグループ作成部14は、抽出したサーバとステップS7でサーバグループを割り当てたサーバ41は、エッジスイッチ接続構成が同一であるか否かを判定する(ステップS10)。その結果、同一である場合には、サーバグループ作成部14は、抽出したサーバ41に同じサーバグループを割り当ててサーバ管理テーブル15に登録し(ステップS11)、ステップS8に戻り、同一でない場合には、ステップS8に戻る。
また、ステップS8において、全サーバへのサーバグループ割り当てが完了した場合には、サーバグループ作成部14は、選択したエッジスイッチと割り当てたサーバグループをサーバグループ管理テーブル16に登録する(ステップS12)。また、ステップS6において、全サーバへのサーバグループ割り当てが完了した場合にも、サーバグループ作成部14は、選択したエッジスイッチと割り当てたサーバグループをサーバグループ管理テーブル16に登録する(ステップS12)。そして、サーバグループ作成部14は、ステップS4に戻る。
また、ステップS4において、全エッジスイッチについてサーバグループを特定する処理を完了した場合には、サーバグループ作成部14は処理を終了し、物理経路作成部17が物理経路テーブル18を作成する処理を開始する。
図14に示すように、物理経路作成部17は、全エッジスイッチについて物理経路を特定する処理を完了したか否かを判定する(ステップS21)。その結果、物理経路を特定する処理を行っていないエッジスイッチがある場合には、物理経路作成部17は、エッジスイッチを1つ選択する(ステップS22)。そして、物理経路作成部17は、選択したエッジスイッチについて全ての隣接リンクを探索する処理が完了したか否かを判定し(ステップS23)、探索していない隣接リンクがある場合には、隣接ノードを1つ選択する(ステップS24)。
そして、物理経路作成部17は、選択した隣接ノードがエッジスイッチであるか否かを判定し(ステップS25)、エッジスイッチでない場合には、隣接ノードがサーバ41であるか否かを判定する(ステップS26)。その結果、隣接ノードがサーバ41でない場合には、物理経路作成部17は、隣接ノードについて全ての隣接リンクを探索する処理が完了したか否かを判定し(ステップS27)、探索していない隣接リンクがある場合には、ステップS24に戻る。
一方、隣接ノードについて全ての隣接リンクを探索する処理が完了した場合、あるいは、隣接ノードがサーバ41である場合には、物理経路作成部17は、ステップS23に戻る。また、ステップS25において隣接ノードがエッジスイッチである場合には、物理経路作成部17は、探索した物理経路の両端のエッジスイッチに対応するサーバグループの組み合わせを作成し、物理経路と共に物理経路テーブル18に登録する(ステップS28)。そして、物理経路作成部17は、ステップS23に戻る。
また、ステップS23において全ての隣接リンクを探索する処理が完了した場合には、物理経路作成部17は、ステップS21に戻る。また、ステップS21において全エッジスイッチについて物理経路を特定する処理を完了した場合には、物理経路作成部17は、物理経路テーブル18から重複経路を削除し(ステップS29)、物理経路テーブル18を作成する処理を終了する。
このように、サーバグループ作成部14がサーバグループを作成し、物理経路作成部17がサーバグループに基づいて物理経路テーブル18を作成することによって、特定部19は、物理経路テーブル18を参照して故障の影響範囲を特定することができる。
次に、影響範囲を特定する処理のフローについて説明する。図15Aは、影響範囲を特定する処理のフローを示す第1のフローチャートであり、図15Bは、影響範囲を特定する処理のフローを示す第2のフローチャートである。なお、影響範囲を特定する処理は、特定部19が障害発生通知を受信すると起動される。
図15Aに示すように、特定部19は、障害個所がサーバ41の接続リンクであるか否かを判定し(ステップS31)、サーバ41の接続リンクでない場合には、障害リンク上の物理経路を特定する(ステップS32)。そして、特定部19は、全ての物理経路の確認が完了したか否かを判定し(ステップS33)、完了した場合には、処理を終了する。
一方、確認していない物理経路がある場合には、特定部19は、特定した物理経路の1つについて、物理経路が現用であるか否かを判定し(ステップS34)、現用でない場合には、ステップS33に戻る。一方、現用である場合には、特定部19は、予備経路があるか否かを判定し(ステップS35)、予備経路がある場合には、ステップS33に戻る。
一方、予備経路がない場合には、特定部19は、物理経路に対応するサーバグループ間通信を特定し(ステップS36)、特定したサーバグループ間通信に基づいて、通信を行うサーバ41の組み合わせを特定する(ステップS37)。そして、特定部19は、特定したサーバ上のVM44を特定し(ステップS38)、特定したVM44の組み合わせを影響を受けるVM間通信として特定する(ステップS39)。そして、特定部19は、ステップS33に戻る。
また、ステップS31において障害個所がサーバ41の接続リンクである場合には、図15Bに示すように、特定部19は、リンク43が接続されるエッジスイッチ上の物理経路を特定する(ステップS40)。ただし、特定部19は、障害リンクと接続するサーバ41が属するサーバグループを含む物理経路のみを特定する。
そして、特定部19は、全ての物理経路の確認が完了したか否かを判定し(ステップS41)、確認していない物理経路がある場合には、特定部19は、特定した物理経路の1つについて、物理経路が現用であるか否かを判定し(ステップS42)、現用でない場合には、ステップS41に戻る。一方、現用である場合には、特定部19は、予備経路があるか否かを判定し(ステップS43)、予備経路がある場合には、ステップS41に戻る。
一方、予備経路がない場合には、特定部19は、物理経路に対応するサーバグループ間通信を特定し(ステップS44)、特定したサーバグループ間通信に基づいて、通信を行うサーバ41の組み合わせを特定する(ステップS45)。ただし、特定部19は、障害リンクと接続するサーバ41が属するサーバグループでは、障害リンクと接続するサーバ41を含む組み合わせのみを特定する。そして、特定部19は、特定したサーバ上のVM44を特定し(ステップS46)、特定したVM44の組み合わせを影響を受けるVM間通信として特定する(ステップS47)。
また、ステップS41において、全ての物理経路の確認が完了した場合には、特定部19は、障害リンクに接続された接続サーバが属するサーバグループ内で接続サーバを含むサーバ間の物理経路を特定する(ステップS48)。そして、特定部19は、全ての物理経路の確認が完了したか否かを判定し(ステップS49)、全ての物理経路の確認が完了した場合には、処理を終了する。
一方、確認していない物理経路がある場合には、特定部19は、特定した物理経路の1つについて、物理経路が現用であるか否かを判定し(ステップS50)、現用でない場合には、ステップS49に戻る。一方、現用である場合には、特定部19は、予備経路があるか否かを判定し(ステップS51)、予備経路がある場合には、ステップS49に戻る。
一方、予備経路がない場合には、特定部19は、物理経路に対応するサーバ間通信を行うサーバ上のVM44を特定し(ステップS52)、特定したVM44の組み合わせを影響を受けるVM間通信として特定する(ステップS53)。
このように、特定部19は、影響を受けるサーバグループ間通信を特定し、特定したサーバグループ間通信に基づいて、影響を受けるサーバ間通信を特定し、特定したサーバ間通信に基づいて、影響を受けるVM間通信を特定する。したがって、特定部19は、影響を受けるVM間通信を特定する処理に要する時間を短縮することができる。
次に、影響範囲の特定例について図16〜図25を用いて説明する。図16は、影響範囲の特定例の説明に用いる情報処理システム10aを示す図である。図16に示すように、情報処理システム10aは、クラウド管理装置1と、4台のサーバ#1〜サーバ#4と、4台のスイッチ#1〜スイッチ#4を有する。スイッチ#2及びスイッチ#4は予備である。
サーバ#1はリンク#1でスイッチ#1に接続される。サーバ#2は、リンク#2でスイッチ#1に接続され、リンク#3でスイッチ#2に接続される。サーバ#3は、リンク#4でスイッチ#1に接続され、リンク#5でスイッチ#2に接続される。スイッチ#1とスイッチ#3はリンク#6で接続される。スイッチ#2とスイッチ#4はリンク#7で接続される。サーバ#4は、リンク#8でスイッチ#3に接続され、リンク#9でスイッチ#4に接続される。
図17は、図16に示した情報処理システム10aに対応する冗長管理テーブル11、接続リンク管理テーブル12及びVM管理テーブル13を示す図である。図17に示すように、スイッチ#1及びスイッチ#3は「現用」として、スイッチ#2及びスイッチ#4は「予備」として、冗長管理テーブル11に登録される。
スイッチ#1はリンク#1、リンク#2、リンク#4及びリンク#6に接続し、スイッチ#2はリンク#3、リンク#5及びリンク#7に接続することが接続リンク管理テーブル12に登録される。スイッチ#3はリンク#6及びリンク#8に接続し、スイッチ#4はリンク#7及びリンク#9に接続することが接続リンク管理テーブル12に登録される。サーバ#1はリンク#1に接続し、サーバ#2はリンク#2及びリンク#3に接続し、サーバ#3はリンク#4及びリンク#5に接続し、サーバ#4はリンク#8及びリンク#9に接続することが接続リンク管理テーブル12に登録される。
サーバ#1上でVM#1が動作し、サーバ#2上でVM#2が動作し、サーバ#3上でVM#3が動作し、サーバ#4上でVM#4が動作することがVM管理テーブル13に登録される。
物理経路作成部17は、まず、サーバ管理テーブル15及びサーバグループ管理テーブル16を作成する。すなわち、物理経路作成部17は、接続リンク管理テーブル12に基づいて、スイッチ#1配下のサーバ41として、サーバ#1、サーバ#2及びサーバ#3を抽出する。そして、物理経路作成部17は、サーバ#1にサーバグループ#1を割り当て、サーバ#2及びサーバ#3にサーバグループ#2を割り当てる。そして、物理経路作成部17は、スイッチ#1配下で割り当てたサーバグループをサーバ管理テーブル15及びサーバグループ管理テーブル16に登録する。
図18は、スイッチ#1配下のサーバグループが登録された時のサーバ管理テーブル15及びサーバグループ管理テーブル16の状態を示す図である。図18に示すように、サーバ#1はサーバグループ#G1が対応付けられ、サーバ#2及びサーバ#3はサーバグループ#G2が対応付けられてサーバ管理テーブル15に登録される。スイッチ#1は、G#1及びG#2が対応付けられてサーバグループ管理テーブル16に登録される。
物理経路作成部17は、スイッチ#2、スイッチ#3及びスイッチ#4に関して同様な処理を行うことで、サーバ#4にG#3を割り当てる。図19は、スイッチ#2〜スイッチ#4配下のサーバグループが登録された時のサーバ管理テーブル15及びサーバグループ管理テーブル16の状態を示す図である。図19に示すように、サーバ#4はG#3が対応付けられてサーバ管理テーブル15に登録される。スイッチ#2はG#2が対応付けられ、スイッチ#3及びスイッチ#4はG#3が対応付けられてサーバグループ管理テーブル16に登録される。
次に、物理経路作成部17は、物理経路テーブル18を作成する。すなわち、物理経路作成部17は、接続リンク管理テーブル12に基づいて、スイッチ#1の隣接ノードとして、サーバ#1、サーバ#2、サーバ#3及びスイッチ#3を抽出する。このうち、スイッチ#1からスイッチ#3への物理経路のみがエッジスイッチからエッジスイッチまでの物理経路なので、物理経路作成部17は、スイッチ#1からスイッチ#3へのリンク#6を経路#1の通信経路として物理経路テーブル18に登録する。そして、物理経路作成部17は、サーバグループ管理テーブル16を参照して、スイッチ#1に対応付けられるサーバグループとしてG#1とG#2を特定し、スイッチ#3に対応付けられるサーバグループとしてG#3を特定する。そして、物理経路作成部17は、G#1−G#3及びG#2−G#3を経路#1に対応する通信グループとして物理経路テーブル18に登録する。
図20は、経路#1が登録された時の物理経路テーブル18の状態を示す図である。図20に示すように、経路番号が「1」の物理経路「リンク#6」にサーバグループ間通信「G#1−G#3」と「G#2−G#3」が対応付けられる。
物理経路作成部17は、スイッチ#2、スイッチ#3及びスイッチ#4に関して同様な処理を行い、それぞれリンク#7を物理経路とする経路#2、リンク#6を物理経路とする経路#3及びリンク#7を物理経路とする経路#4を物理経路テーブル18に登録する。
図21は、経路#2〜経路#4が登録された時の物理経路テーブル18の状態を示す図である。図21に示すように、経路番号が「2」の物理経路「リンク#7」にサーバグループ間通信「G#2−G#3」が対応付けられ、経路番号が「3」の物理経路「リンク#6」にサーバグループ間通信「G#1−G#3」と「G#2−G#3」が対応付けられる。また、経路番号が「4」の物理経路「リンク#7」にサーバグループ間通信「G#2−G#3」が対応付けられる。
次に、物理経路作成部17は、物理経路テーブル18から重複する物理経路を削除する。図21では、経路#1と経路#3の通信経路が同じであるので、経路#3が削除され、経路#2と経路#4の通信経路が同じであるので、経路#4が削除される。図22は、重複経路が削除された時の物理経路テーブル18の状態を示す図である。図22に示すように、図21で示した物理経路テーブル18から経路#3と経路#4が削除される。
そして、障害が発生すると、特定部19は、障害により影響を受けるVM間通信を特定する。図23は、スイッチ間に障害が発生した時の状態を示す図である。図23では、リンク#6で障害が発生している。図23に示すように、障害発生時、サーバ#1上でVM#1が動作し、サーバ#2上でVM#2が動作し、サーバ#3上でVM#3が動作し、サーバ#4上でVM#4が動作している。また、図23は、障害発生時のサーバ管理テーブル15、サーバグループ管理テーブル16、冗長管理テーブル11、VM管理テーブル13及び物理経路テーブル18の状態を示す。
リンク#6で障害が発生すると、特定部19は、物理経路テーブル18を参照してリンク#6を経由する経路#1を抽出する。そして、特定部19は、冗長管理テーブル11を参照し、スイッチ#1とスイッチ#3が現用のため、経路#1は現用であると判定する。そして、特定部19は、物理経路テーブル18を参照して、影響を受けるサーバグループ間通信としてG#1−G#3及びG#2−G#3を抽出する。そして、特定部19は、物理経路テーブル18を参照して、影響を受けるサーバグループ間通信に対して予備経路の有無を確認する。すると、G#2−G#3は、経路#2があるので、特定部19は、予備経路ありと判定する。
そこで、特定部19は、G#1−G#3に関してサーバ管理テーブル15を参照してサーバ#1−サーバ#4を影響を受けるサーバ間通信として抽出する。そして、特定部19は、VM管理テーブル13を参照して、VM#1−VM#4を影響を受けるVM間通信として抽出する。
図24は、サーバ41とスイッチ42の間に障害が発生した時の状態を示す図である。図24は、リンク#2に障害が発生した場合を示す。また、図24は、障害発生時のサーバ管理テーブル15、サーバグループ管理テーブル16、冗長管理テーブル11、VM管理テーブル13、接続リンク管理テーブル12及び物理経路テーブル18の状態を示す。
特定部19は、接続リンク管理テーブル12及び物理経路テーブル18を参照して、リンク#2が接続されたスイッチ#1を経由する経路#1を影響を受ける物理経路として抽出する。そして、特定部19は、冗長管理テーブル11を参照し、スイッチ#1とスイッチ#3が現用のため、経路#1は現用であると判定する。そして、特定部19は、物理経路テーブル18を参照して、影響を受けるサーバグループ間通信としてG#2−G#3を抽出する。なお、特定部19は、リンク#2が接続されたサーバ#2が属するG#2を含む経路だけを抽出するため、G#1−G#3は抽出しない。そして、特定部19は、物理経路テーブル18を参照して、G#2−G#3については、経路#2が予備経路としてあると判定する。したがって、特定部19は、経路#1については、リンク#2の障害により影響を受けるサーバグループ間通信はないと判定する。
また、特定部19は、サーバグループ管理テーブル16を参照して、スイッチ#1に接続されるサーバグループ間でG#1−G#2の物理経路を作成する。そして、特定部19は、冗長管理テーブル11を参照し、スイッチ#1が現用のため、G#1−G#2は現用であると判定する。そして、特定部19は、サーバグループ管理テーブル16を参照して、G#1とG#2に接続されるスイッチ42はスイッチ#1以外にないので、G#1−G#2は予備経路がないと判定する。特定部19は、G#1−G#2に関してサーバ管理テーブル15を参照してサーバ#1−サーバ#2を影響を受けるサーバ間通信として抽出する。なお、特定部19は、G#2については、リンク#2に接続するサーバ#2だけを対象とするため、サーバ#1−サーバ#3は抽出しない。そして、特定部19は、VM管理テーブル13を参照して、VM#1−VM#2を影響を受けるVM間通信として抽出する。
また、特定部19は、サーバ管理テーブル15を参照して、リンク#2に接続されたサーバ#2が属するG#2内のサーバ間通信としてサーバ#2−サーバ#3を特定する。そして、特定部19は、冗長管理テーブル11を参照し、スイッチ#1が現用のため、サーバ#2−サーバ#3の物理経路は現用であると判定する。そして、特定部19は、接続リンク管理テーブル12を参照し、サーバ#2−サーバ#3には予備経路があると判定する。したがって、特定部19は、障害が発生したリンク43に接続されるサーバ41が含まれるサーバグループ内で影響を受けるサーバ間通信はないと判定する。
次に、サーバ41をグループ化した場合の効果について説明する。図25は、サーバ41をグループ化した場合の効果を説明するための図である。図25は、n台のサーバ41が2階層のスイッチ42により冗長経路数kで接続し、40台のサーバ41がエッジスイッチに接続する場合について、グループ化の有無で経路テーブルを作成する時の計算量を示す。
図25に示すように、グループ化なしの場合、サーバ間の組み合わせはn2=n×(n−1)/2であり、冗長経路数はkであるので、計算量はO(kn2)である。ここで、O(x)は、xのオーダであること、すなわち、概算値がxであることを示す。一方、グループ化の場合、エッジスイッチ数はn/40であり、エッジスイッチ間の組み合わせはn/402=n/40×(n/40−1)/2であり、冗長経路数はkであるので、計算量はO(kn2/1600)である。すなわち、グループ化により計算量が約1/1600に削減される。
上述してきたように、実施例1では、物理経路と物理経路を用いて通信を行う2つのサーバグループとを対応付けた物理経路テーブル18を参照して、グループ間通信特定部21が障害により影響を受けるサーバグループ間通信を特定する。そして、グループ間通信特定部21により特定されたサーバグループ間通信に基づき、VM間通信特定部22が、サーバ41とサーバグループとを対応付けたサーバ管理テーブル15を参照して、障害により影響を受けるサーバ間通信を特定する。そして、VM間通信特定部22は、VM管理テーブル13を参照して障害により影響を受けるVM間通信を特定する。したがって、クラウド管理装置1は、障害により影響を受けるVM間通信を短時間で特定することができ、障害により影響を受ける顧客を特定する処理に要する時間を短縮することができる。
また、実施例1では、グループ間通信特定部21は、物理経路テーブル18を参照して、特定したサーバグループ間通信に対して予備経路の有無を確認し、予備経路がある場合には、サーバグループ間通信は障害の影響を受けないと判定する。したがって、クラウド管理装置1は、障害により影響を受ける顧客を正確に特定することができる。
また、実施例1では、VM間通信特定部22は、サーバ41とエッジスイッチとの間のリンク43に障害が発生した場合に、接続サーバを含むサーバ間通信だけを障害により影響を受けるサーバ間通信として特定する。したがって、クラウド管理装置1は、障害により影響を受けるサーバ間通信を正確に特定することができる。
また、実施例1では、VM間通信特定部22は、サーバ41とエッジスイッチとの間のリンク43に障害が発生した場合に、接続サーバがサーバグループ内で他のサーバ41と行う通信を障害により影響を受けるサーバ間通信として特定する。したがって、クラウド管理装置1は、障害により影響を受けるサーバ間通信を正確に特定することができる。
また、実施例1では、サーバグループ作成部14が接続リンク管理テーブル12を参照してサーバグループ管理テーブル16を作成し、物理経路作成部17が接続リンク管理テーブル12とサーバグループ管理テーブル16を参照して物理経路テーブル18を作成する。したがって、クラウド管理装置1は、物理経路テーブル18を作成する処理に要する時間を短縮することができる。
なお、実施例1では、クラウド管理装置1について説明したが、クラウド管理装置1が有する構成をソフトウェアによって実現することで、同様の機能を有する影響範囲特定プログラムを得ることができる。そこで、影響範囲特定プログラムを実行するコンピュータについて説明する。
図26は、実施例1に係る影響範囲特定プログラムを実行するコンピュータのハードウェア構成を示す図である。図26に示すように、コンピュータ50は、メインメモリ51と、CPU(Central Processing Unit)52と、LANインタフェース53と、HDD(Hard Disk Drive)54とを有する。また、コンピュータ50は、スーパーIO(Input Output)55と、DVI(Digital Visual Interface)56と、ODD(Optical Disk Drive)57とを有する。
メインメモリ51は、プログラムやプログラムの実行途中結果などを記憶するメモリである。CPU52は、メインメモリ51からプログラムを読出して実行する中央処理装置である。CPU52は、メモリコントローラを有するチップセットを含む。
LANインタフェース53は、コンピュータ50をLAN経由で他のコンピュータに接続するためのインタフェースである。HDD54は、プログラムやデータを格納するディスク装置であり、スーパーIO55は、マウスやキーボードなどの入力装置を接続するためのインタフェースである。DVI56は、液晶表示装置を接続するインタフェースであり、ODD57は、DVDの読み書きを行う装置である。
LANインタフェース53は、PCIエクスプレス(PCIe)によりCPU52に接続され、HDD54及びODD57は、SATA(Serial Advanced Technology Attachment)によりCPU52に接続される。スーパーIO55は、LPC(Low Pin Count)によりCPU52に接続される。
そして、コンピュータ50において実行される影響範囲特定プログラムは、DVDに記憶され、ODD57によってDVDから読出されてコンピュータ50にインストールされる。あるいは、影響範囲特定プログラムは、LANインタフェース53を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読出されてコンピュータ50にインストールされる。そして、インストールされたデータ処理プログラムは、HDD54に記憶され、メインメモリ51に読出されてCPU52によって実行される。
ところで、上記実施例1では、情報処理システムにレイヤ3以上のパケットを扱うL3中継装置が含まれない場合について説明した。しかしながら、情報処理システムにはL3中継装置が含まれる場合があり、L3中継装置で通信が折り返す場合がある。そこで、実施例2では、情報処理システムにL3中継装置が含まれる場合について説明する。
図27は、L3中継装置を含む情報処理システム及び物理経路テーブルを示す図である。図21と比較すると、図27の情報処理システム10bは、スイッチ#3の代わりにファイアウォール62を有する。ファイアウォール62は、外部ネットワークからの不正なアクセス等を防ぐ装置であり、レイヤ3以上のパケットを扱う。なお、L3中継装置には、他にルータ、ロードバランサ等がある。
このため、情報処理システム10bには、G#1からファイアウォール62で折り返してG#2に到達する物理経路がある。この物理経路では、パケットはリンク#6を2回通る。したがって、実施例2に係るクラウド管理装置6は、折り返しの経路を含めて物理経路テーブルを作成する必要がある。
また、クラウドシステムにおいては、データセンタ内の情報処理システムの情報を管理することができるが、データセンタのボーダエッジを越える範囲の情報を管理することができない。しかしながら、クライアントの情報処理システムと連携して動作するクラウドシステムにおいては、障害が発生した場合に、クライアントの情報処理システムへの影響の有無を特定することは、特に重要である。
このため、クラウド管理装置6は、データセンタ外のクライアントの情報処理システムの構成情報を収集する。図28Aは、データセンター外の情報処理システムの構成情報の収集を説明するための図である。クラウド管理装置6は、データセンターの外のクライアント環境の構成情報にはアクセスできないので、基本的には、手入力にたよって情報を収集する。
あるいは、図28Aに示すように、クライアント環境のサーバにエージェントプログラムを導入して構成情報をエクスポートさせることで、クラウド管理装置6は、構成情報をインポートすることができる。ただし、データセンター側の装置故障時に影響のある装置の情報だけわかればよいので、クラウド管理装置6は、完全な接続情報を収集する必要はなく、各サーバがどのVLANで使われているかがわかる情報だけ収集すればよい。
図28Aに示したネットワークの場合、図28Bのように接続されていると仮定することで、クラウド管理装置6は、必要な情報を得ることができる。ただし、VLANについては、データセンターとクライアント環境で同一ではないが、クライアント環境側のサーバの利用用途(データセンター側サーバのどのサービスを利用しているか)がわかれば紐付けすることができる。図28Bでは、クライアント環境のサーバのIP(Internet Protocol)アドレスが「XXX.XXX.XXX.XXX」であり、サーバが「yyy」、「zzz」で識別されるVLANを使用する。
また、データセンター側のボーダーエッジをB#1、クライアント側のサーバグループをC#1、C#2、C#3で表したとき、構成情報として図29に示す物理経路テーブルを、クライアント環境のサーバ上のエージェントプログラムがエクスポートしてもよい。又は、クライアント環境の管理者が手動で図29に示す物理経路テーブルを作成してもよい。
そして、エクスポート又は作成されたデータをクライアント環境の管理者からデータセンターの管理者に受け渡す。そして、データセンターの管理者がクラウド管理装置6にデータをインポートさせてもよい。
次に、クラウド管理装置6の機能構成について説明する。図30は、クラウド管理装置6の機能構成を示す図である。なお、ここでは説明の便宜上、図2に示した各部と同様の役割を果たす機能部については同一符号を付すこととしてその詳細な説明を省略する。図30に示すように、クラウド管理装置6は、図2に示したクラウド管理装置1と比較すると、記憶部1aの代わりに記憶部6aを有し、制御部1bの代わりに制御部6bを有する。
記憶部6aは、記憶部1aと比較すると、物理経路テーブル18の代わりに物理経路テーブル68を有し、新たに装置管理テーブル70を有する。制御部6bは、制御部1bと比較すると、物理経路作成部17の代わりに物理経路作成部67を有し、特定部19の代わりに特定部69を有し、新たに構成情報収集部72を有する。特定部69は、特定部19と比較すると、グループ間通信特定部21の代わりにグループ間通信特定部71を有する。
物理経路テーブル68には、物理経路にL3中継装置が含まれない場合には、物理経路と物理経路を用いて通信を行う2つのサーバグループが登録される。物理経路にL3中継装置が含まれる場合には、物理経路テーブル68には、一方のサーバグループとL3中継装置との間の物理経路と、他方のサーバグループとL3中継装置との間の物理経路と、L3中継装置間の物理経路とが登録される。
図31は、物理経路テーブル68の一例を示す図である。図31において、nを正の整数として、S#nはサーバ41を表し、SW#nはスイッチ42を表し、link#nはリンク43を表し、G#nはサーバグループを表し、R#nはルータを表す。
図31に示すように、G#1がSW#1に接続し、SW#1はlink#1によりR#1に接続し、R#1はlink#2によりSW#2に接続し、SW#2はG#2に接続する。したがって、物理経路テーブル68には、図31に示すように、link#1を通信経路とする通信グループG#1−R#1とlink#2を通信経路とする通信グループG#2−R#1が登録される。
R#1をまたいだS#1とS#6の経路としては、物理経路テーブル68の経路#1と経路#2の情報を用いて、G#1−R#1−G#2すなわちS#1−SW#1−R#1−SW#2−S#6の経路が算出される。また、R#1をまたがないS#1とS#2の経路としては、経路#1の情報を2回用いてG#1−R#1−G#1すなわちS#1−SW#1−R#1−SW#1−S#2の経路が算出される。なお、S#1−SW#1−S#2の経路は実施例1に示した処理で算出される。
装置管理テーブル70には、装置の種別、設定情報が登録される。図32は、装置管理テーブル70の一例を示す図である。図32に示すように、装置管理テーブル70には、ノード名と、種別と、設定情報とを装置毎に対応付ける情報が登録される。ノード名は、装置を識別する名前である。種別は、装置の種類を示す。設定情報は、装置に設定される情報である。
図32の種別において、「Server」は種別がサーバ41であることを表し、「L2−Switch」は種別がスイッチ42であることを表し、「Firewall」は、種別がファイアウォール62であることを表す。また、「ServerLoadBalancer」は、種別がロードバランサであることを表し、「Router」は、種別がルータであることを表す。
設定情報は、影響範囲の特定の際に用いられる。例えば、スイッチ42の場合は、どのリンク43にどのVLAN−IDが割り当てられているかの情報が設定情報として保持される。ルータの場合は、どのようなルーティングテーブルを有するかが設定情報により管理される。ファイアウォール62の場合は、どのようなフィルタリングを行っているかが設定情報により管理される。これらの設定情報により元々通信が行われていない経路は、影響範囲の特定には用いられない。
また、クライアント環境の構成情報に関して、クライアント側の各サーバがデータセンター内のどのサービスを利用しているかを併せて定義し、設定情報と結びつけることにより、クライアント側の影響範囲をさらに細かく特定することも可能である。
なお、装置管理テーブル70を作成する方法として、SNMP(Simple Network Management Protocol)を用いる方法がある。SNMPに対応した各装置(サーバ41の場合はOS)は、ベンダ及び種別を一意に特定できるMIB(Management information base)の値をsysObjectIDとして保持している。したがって、クラウド管理装置6は、あらかじめsysObjectIDと種別を関連付けたテーブルを保持しておき、装置から収集したsysObjectIDの値と種別を紐付けることで装置管理テーブル70を作成することができる。
構成情報収集部72は、対象システム4からネットワーク構成情報を読み込み、クライアント環境5からネットワーク構成情報を読み込む。そして、構成情報収集部72は、クライアント環境5のネットワーク構成情報を含めて接続リンク管理テーブル12を作成する。
物理経路作成部67は、物理経路作成部17と同様に、接続リンク管理テーブル12とサーバグループ管理テーブル16を参照して、2つのエッジスイッチの間を結ぶリンク43の集合を物理経路として特定し、物理経路テーブル68を作成する。ただし、2つのエッジスイッチの間にL3中継装置が含まれる場合には、物理経路作成部67は、一方のエッジスイッチとL3中継装置の間の経路と、他方のエッジスイッチとL3中継装置の間の経路と、L3中継装置間の経路とに分けて物理経路テーブル68を作成する。
また、クラウド管理装置6が図29に示した物理経路テーブルをインポートする場合には、物理経路作成部67は、インポートされた物理経路テーブルの情報も含めて物理経路テーブル68を作成する。
グループ間通信特定部71は、グループ間通信特定部21と同様に、発生した障害により影響を受けるサーバグループ間通信を特定する。ただし、グループ間通信特定部71は、障害が発生したリンク43を含む通信グループの一端又は両端がL3中継装置である物理経路に関して、L3中継装置をまたぐ又はL3中継装置で折り返すサーバグループ間物理経路を作成する。そして、グループ間通信特定部71は、作成した物理経路の情報に基づいて、発生した障害により影響を受けるサーバグループ間通信を特定する。
また、グループ間通信特定部71は、装置管理テーブル70の設定情報により使用されていないと判明した物理経路は除外して、発生した障害により影響を受けるサーバグループ間通信を特定する。例えば、影響範囲と判断された物理経路として、ファイアウォール62を挟んでサーバ#1とサーバ#2が通信する物理経路が含まれる場合、グループ間通信特定部71は、装置管理テーブル70から当該ファイアウォール62に対する設定情報を確認する。そして、グループ間通信特定部71は、設定情報に「宛先がサーバ#2であるパケットは全て破棄する」という定義が含まれている場合は、当該物理経路は使用されていないことになるため、影響範囲からは除外する。
次に、クラウド管理装置6の処理のフローについて図33〜図36を用いて説明する。図33は、物理経路テーブル68を作成するまでの処理のフローを示すフローチャートである。図33に示すように、クラウド管理装置6は、対象システム4からネットワーク構成情報を読み込み(ステップS61)、クライアント環境5のネットワーク構成情報を読み込む(ステップS62)。また、クラウド管理装置6は、装置管理テーブル70を作成する(ステップS63)。
そして、クラウド管理装置6は、サーバグループを作成し、サーバ管理テーブル15及びサーバグループ管理テーブル16を作成する(ステップS64)。そして、クラウド管理装置6は、接続リンク管理テーブル12とサーバグループ管理テーブル16に加えて装置管理テーブル70を参照して物理経路を特定し、物理経路テーブル68を作成する(ステップS65)。
図34は、障害発生時に影響範囲を特定する処理のフローを示すフローチャートである。図34に示すように、クラウド管理装置6は、障害が発生すると、対象システム4で発生した障害を検出し(ステップS66)、物理経路テーブル68及び装置管理テーブル70の設定情報を参照して影響範囲を特定する(ステップS67)。
図35A及び図35Bは、物理経路テーブル68を作成する処理のフローを示すフローチャートである。図35Aに示すように、物理経路作成部67は、全エッジスイッチについて物理経路を特定する処理を完了したか否かを判定する(ステップS71)。その結果、物理経路を特定する処理を行っていないエッジスイッチがある場合には、物理経路作成部67は、エッジスイッチを1つ選択する(ステップS72)。そして、物理経路作成部67は、選択したエッジスイッチについて全ての隣接リンクを探索する処理が完了したか否かを判定し(ステップS73)、探索していない隣接リンクがある場合には、隣接ノードを1つ選択する(ステップS74)。
そして、物理経路作成部67は、選択した隣接ノードがエッジスイッチであるか否かを判定し(ステップS75)、エッジスイッチでない場合には、隣接ノードがL3中継装置であるか否かを判定する(ステップS76)。そして、隣接ノードがL3中継装置でない場合には、物理経路作成部67は、隣接ノードがサーバ41であるか否かを判定する(ステップS77)。その結果、隣接ノードがサーバ41でない場合には、物理経路作成部67は、隣接ノードについて全ての隣接リンクを探索する処理が完了したか否かを判定し(ステップS78)、探索していない隣接リンクがある場合には、ステップS74に戻る。
一方、隣接ノードについて全ての隣接リンクを探索する処理が完了した場合、あるいは、隣接ノードがサーバ41である場合には、物理経路作成部67は、ステップS73に戻る。また、ステップS76において隣接ノードがL3中継装置である場合には、物理経路作成部67は、エッジスイッチに対応するサーバグループとL3中継装置の組合せを生成し、物理経路と共に物理経路テーブル68に登録する(ステップS80)。そして、物理経路作成部67は、ステップS73に戻る。
また、ステップS75において隣接ノードがエッジスイッチである場合には、物理経路作成部67は、探索した物理経路の両端のエッジスイッチに対応するサーバグループの組み合わせを作成し、物理経路と共に物理経路テーブル68に登録する(ステップS79)。そして、物理経路作成部67は、ステップS73に戻る。
また、ステップS73において全ての隣接リンクを探索する処理が完了した場合には、物理経路作成部67は、ステップS71に戻る。また、ステップS71において全エッジスイッチについて物理経路を特定する処理を完了した場合には、物理経路作成部67は、物理経路テーブル68から重複経路を削除する(ステップS81)。
そして、図35Bに示すように、物理経路作成部67は、全L3中継装置について物理経路を特定する処理を完了したか否かを判定する(ステップS82)。その結果、物理経路を特定する処理を行っていないL3中継装置がある場合には、物理経路作成部67は、L3中継装置を1つ選択する(ステップS83)。そして、物理経路作成部67は、選択したL3中継装置について全ての隣接リンクを探索する処理が完了したか否かを判定し(ステップS84)、探索していない隣接リンクがある場合には、隣接ノードを1つ選択する(ステップS85)。
そして、物理経路作成部67は、選択した隣接ノードがエッジスイッチであるか否かを判定し(ステップS86)、エッジスイッチでない場合には、隣接ノードがL3中継装置であるか否かを判定する(ステップS87)。そして、隣接ノードがL3中継装置でない場合には、物理経路作成部67は、隣接ノードがサーバ41であるか否かを判定する(ステップS88)。その結果、隣接ノードがサーバ41でない場合には、物理経路作成部67は、隣接ノードについて全ての隣接リンクを探索する処理が完了したか否かを判定し(ステップS89)、探索していない隣接リンクがある場合には、ステップS85に戻る。
一方、隣接ノードについて全ての隣接リンクを探索する処理が完了した場合、あるいは、隣接ノードがサーバ41である場合には、物理経路作成部67は、ステップS84に戻る。また、ステップS87において隣接ノードがL3中継装置である場合には、物理経路作成部67は、両端の中継装置の組合せを生成し、物理経路と共に物理経路テーブル68に登録する(ステップS91)。そして、物理経路作成部67は、ステップS84に戻る。
また、ステップS86において隣接ノードがエッジスイッチである場合には、物理経路作成部67は、エッジスイッチに対応するサーバグループと中継装置の組み合わせを生成し、物理経路と共に物理経路テーブル68に登録する(ステップS90)。そして、物理経路作成部67は、ステップS84に戻る。
また、ステップS84において全ての隣接リンクを探索する処理が完了した場合には、物理経路作成部67は、ステップS82に戻る。また、ステップS82において全L3中継装置について物理経路を特定する処理を完了した場合には、物理経路作成部67は、物理経路テーブル68から重複経路を削除し(ステップS92)、物理経路テーブル68を作成する処理を終了する。
図36は、影響範囲を特定する処理のフローを示す第3のフローチャートである。図36に示すように、特定部69は、障害個所がサーバ41の接続リンクであるか否かを判定し(ステップS101)、サーバ41の接続リンクでない場合には、障害リンク上の物理経路を特定する(ステップS102)。そして、特定部69は、全ての物理経路の確認が完了したか否かを判定し(ステップS103)、完了した場合には、処理を終了する。
一方、確認していない物理経路がある場合には、特定部69は、特定した物理経路の1つについて、物理経路が現用であるか否かを判定し(ステップS104)、現用でない場合には、ステップS103に戻る。一方、現用である場合には、特定部69は、予備経路があるか否かを判定し(ステップS105)、予備経路がある場合には、ステップS103に戻る。
一方、予備経路がない場合には、特定部69は、一端又は両端がL3中継装置であるか否かを判定する(ステップS106)。そして、一端又は両端がL3中継装置である場合には、特定部69は、一端又は両端がL3中継装置である物理経路に関して、L3中継装置をまたぐ又はL3中継装置で折り返すサーバグループ間の物理経路を作成する(ステップS107)。ただし、特定部69は、装置管理テーブル70の設定情報により使用されていないと判明した物理経路は除外する。
そして、特定部69は、物理経路に対応するサーバグループ間通信を特定し(ステップS108)、特定したサーバグループ間通信に基づいて、通信を行うサーバ41の組み合わせを特定する(ステップS109)。そして、特定部69は、特定したサーバ上のVM44を特定し(ステップS110)、特定したVM44の組み合わせを影響を受けるVM間通信として特定する(ステップS111)。そして、特定部69は、ステップS103に戻る。
また、ステップS101において障害個所がサーバ41の接続リンクである場合には、特定部69は、図15Bに示したステップS40に移動する。そして、特定部69は、特定部19と同様に、ステップS40〜ステップS53の処理を行う。
このように、物理経路作成部67は、装置管理テーブル70を参照してL3中継装置を一端又は両端とする通信グループを含む物理経路テーブル68を作成する。そして、特定部69は、物理経路テーブル68において、障害が発生したリンク43を含む物理経路に対応する通信グループの一端又は両端がL3中継装置である場合に、L3中継装置で折り返す及びL3中継装置をまたぐサーバグループ間通信を特定する。したがって、クラウド管理装置6は、L3中継装置を含む情報処理システム10bで障害が発生したときに正確に影響範囲を特定することができる。
また、クラウド管理装置6は、クライアント環境5のネットワーク情報を読み込んで物理経路テーブル68を作成することで、障害発生時にクライアント環境5への影響の有無を特定することができる。また、クラウド管理装置6は、装置管理テーブル70の設定情報を参照して影響範囲を特定することで、使用されていない物理経路を除外して影響範囲を特定することができる。
次に、影響範囲の特定例について図37及び図38を用いて説明する。図37は、影響範囲を特定される対象システム4bの構成を示す図である。図37において、nを正の整数として、G#nはサーバグループを表し、S#nはスイッチ42を表し、L#nはリンク43を表し、R#nはルータを表す。
図37に示すように、G#11はS#11に接続し、G#12はS#12に接続し、G#13はS#13に接続し、G#14はS#14に接続し、G#15はS#15に接続する。S#11はL#11でS#10に接続し、S#12はL#12でS#10に接続し、S#13はL#13でS#10に接続し、S#14はL#14でS#10に接続し、S#15はL#15でS#10に接続する。SW#10はL#10でR#10に接続する。R#10はL#110でR#100に接続する。
G#21はS#21に接続し、G#22はS#22に接続し、G#23はS#23に接続し、G#24はS#24に接続し、G#25はS#25に接続する。S#21はL#21でS#20に接続し、S#22はL#22でS#20に接続し、S#23はL#23でS#20に接続し、S#24はL#24でS#20に接続し、S#25はL#25でS#20に接続する。SW#20はL#20でR#20に接続する。R#20はL#120でR#100に接続する。
図38は、図37に示した対象システム4bについて作成された物理経路テーブル68を示す図である。例えば、経路#1には、L#11とL#10を物理経路とする「G#11−R#10」が登録され、経路#6には、L#12とL#10を物理経路とする「G#12−R#10」が登録される。また、経路#10には、L#13とL#10を物理経路とする「G#13−R#10」が登録され、経路#15には、L#15とL#10を物理経路とする「G#15−R#10」が登録される。また、経路#16には、L#110を物理経路とする「R#10−R#100」が登録される。
図37においてL#10が障害と検知した場合、特定部69は、L#10を含む経路#1、経路#6、経路#10、経路#13、経路#15を影響を受ける物理経路として特定する。そして、特定部69は、これらの物理経路について、一端又は両端がL3中継装置であるため、図38の物理経路テーブル68を用いてL3中継装置をまたぐ又はL3中継装置で折り返す全てのサーバグループ間通信を特定する。
具体的には、経路#1について、R#10を含む物理経路は経路#1を除いて経路#6、経路#10、経路#13、経路#15、経路#16である。したがって、R#10で折り返すサーバグループ間通信として、G#11−G#12(経路#1と経路#6)、G#11−G#13(経路#1と経路#10)、G#11−G#14(経路#1と経路#13)、G#11−G#15(経路#1と経路#15)が特定される。
また、R#10をまたぐ通信グループとしてG#11−R#100(経路#1と経路#16)が特定され、R#100はL3中継装置であるため、R#100を含み経路#16を除く物理経路である経路#17を用いてG#11−R#20が特定される。そして、R#20はL3中継装置であるため、R#20を含み経路#17を除く物理経路として経路#18、経路#23、経路#27、経路#30、経路#32が特定される。
そして、経路#18を用いてG#11−G#21(経路#1と経路#16と経路#17と経路#18)が特定される。また、経路#23を用いてG#11−G#22(経路#1と経路#16と経路#17と経路#23)が特定される。また、経路#27を用いてG#11−G#23(経路#1と経路#16と経路#17と経路#27)が特定される。また、経路#30を用いてG#11−G#24(経路#1と経路#16と経路#17と経路#30)が特定される。また、経路#32を用いてG#11−G#25(経路#1と経路#16と経路#17と経路#32)が特定される。
同様に、経路#6について、R#10で折り返すサーバグループ間通信として、G#12−G#11、G#12−G#13、G#12−G#14、G#12−G#15が特定される。また、R#10、R#100、R#20をまたぐサーバグループ間通信として、G#12−G#21、G#12−G#22、G#12−G#23、G#12−G#24、G#12−G#25が特定される。
同様に、経路#10について、R#10で折り返すサーバグループ間通信として、G#13−G#11、G#13−G#12、G#13−G#14、G#13−G#15が特定される。また、R#10、R#100、R#20をまたぐサーバグループ間通信として、G#13−G#21、G#13−G#22、G#13−G#23、G#13−G#24、G#13−G#25が特定される。
同様に、経路#13について、R#10で折り返すサーバグループ間通信として、G#14−G#11、G#14−G#12、G#14−G#13、G#14−G#15が特定される。また、R#10、R#100、R#20をまたぐサーバグループ間通信として、G#14−G#21、G#14−G#22、G#14−G#23、G#14−G#24、G#14−G#25が特定される。
同様に、経路#15について、R#10で折り返すサーバグループ間通信として、G#15−G#11、G#15−G#12、G#15−G#13、G#15−G#14が特定される。また、R#10、R#100、R#20をまたぐサーバグループ間通信として、G#15−G#21、G#15−G#22、G#15−G#23、G#15−G#24、G#15−G#25が特定される。
そして、特定部69は、特定したサーバグループ間通信から重複を除去し、障害により影響を受けるサーバグループ間通信として、図39に示すサーバグループ間通信を特定する。
なお、特定部69は、L3中継装置で折り返すサーバグループ間通信又はL3中継装置をまたぐサーバグループ間通信を特定したタイミングで装置管理テーブル70の設定情報を確認し、通信が行われていない場合には、当該サーバグループ間通信を除外する。
例えば、経路#1のサーバグループ間通信G#11−G#12を特定したタイミングで、特定部69は、このサーバグループ間通信は、R#10、S#10、S#11、S#12を経由していることがわかる。このため、特定部69は、装置管理テーブル70からこれらの設定情報を調べる。
具体的には、特定部69は、各装置のポートの設定情報、R#10のルーティング情報を解析する。そして、特定部69は、G#11とG#12が同じネットワーク(同じVLAN上)に属していてR#10を経由した通信を行うことはないと判断した場合は、G#11−G#12を影響範囲から除外する。逆に、特定部69は、G#11とG#12が異なるネットワーク(異なるVLAN上)に属していて、R#10で折り返して通信されると判断した場合は、G#11−G#12を除外しない。
上述してきたように、実施例2では、対象システム4にL3中継装置が含まれる場合に、物理経路作成部67が、L3中継装置を一端又は両端とする通信グループを含む物理経路テーブル68を作成する。そして、グループ間通信特定部71が、障害が発生したリンク43を含む通信グループの一端又は両端がL3中継装置である物理経路に関して、L3中継装置をまたぐ又はL3中継装置で折り返すサーバグループ間通信を特定する。したがって、クラウド管理装置6は、L3中継装置を含む対象システム4において障害が発生した場合に、障害により影響を受ける顧客を正確に特定することができる。
また、実施例2では、構成情報収集部72が、クライアント環境5のネットワーク構成情報を収集し、物理経路作成部67は、クライアント環境5を含めて物理経路テーブル68を作成する。そして、グループ間通信特定部71は、物理経路テーブル68を用いて、障害により影響を受けるサーバグループ間通信をクライアント環境5を含めて特定する。したがって、クラウド管理装置6は、障害が発生した場合に、クライアント環境5への影響の有無を特定することができる。
また、実施例2では、グループ間通信特定部71は、障害により影響を受けるサーバグループ間通信を特定する際に、装置管理テーブル70の設定情報を用いて、通信が行われていないサーバグループ間通信を除外する。したがって、クラウド管理装置6は、障害により影響を受ける顧客を正確に特定することができる。
なお、実施例2では、サーバグループを作成し、障害により影響を受けるサーバグループ間通信を特定する場合について説明したが、本発明はこれに限定されるものではなく、障害により影響を受けるサーバ間通信を特定する場合にも同様に適用することができる。例えば、サーバ毎にサーバグループを設けることで、サーバグループ間通信をサーバ間通信とすることができる。あるいは、サーバグループ作成部14によるサーバグループの作成をなくすことによって、サーバ間通信を特定することもできる。
1,6 クラウド管理装置
1a,6a 記憶部
1b,6b 制御部
4,4a,4b 対象システム
5 クライアント環境
7 クラウド事業者
10,10a,10b 情報処理システム
11 冗長管理テーブル
12 接続リンク管理テーブル
13 VM管理テーブル
14 サーバグループ作成部
15 サーバ管理テーブル
16 サーバグループ管理テーブル
17,67 物理経路作成部
18,68 物理経路テーブル
19,69 特定部
21,71 グループ間通信特定部
22 VM間通信特定部
41 サーバ
42 スイッチ
43 リンク
44 VM
50 コンピュータ
51 メインメモリ
52 CPU
53 LANインタフェース
54 HDD
55 スーパーIO
56 DVI
57 ODD
62 ファイアウォール
70 装置管理テーブル
72 構成情報収集部

Claims (8)

  1. レイヤ3以上のデータを扱うL3中継装置を含む複数の中継装置と複数の情報処理装置を有するネットワークシステムを管理するシステム管理装置において、
    前記L3中継装置と情報処理装置との間の通信経路及び情報処理装置間で前記L3中継装置を経由しない通信経路を探索し、該探索した通信経路の情報と両端の装置の情報とを対応付けて記憶部に記憶する探索部と、
    前記ネットワークシステムで障害が発生した場合に、前記記憶部を用いて障害の影響を受ける情報処理装置間通信を特定する特定部と
    を有することを特徴とするシステム管理装置。
  2. 前記特定部は、前記記憶部が記憶する情報のうち前記L3中継装置と情報処理装置との間の通信経路の情報を用いて前記L3中継装置を経由する情報処理装置間の通信経路を特定することで、障害の影響を受ける情報処理装置間通信を特定することを特徴とする請求項1に記載のシステム管理装置。
  3. 前記ネットワークシステムには、データセンタに含まれる中継装置及び情報処理装置と該データセンタを利用するクライアントの情報処理システムに含まれる中継装置及び情報処理装置が含まれ、
    前記クライアントの情報処理システムに含まれる中継装置及び情報処理装置の情報を取得する取得部をさらに有し、
    前記探索部は、前記クライアントの情報処理システムに含まれる中継装置及び情報処理装置を含めて前記通信経路を探索することを特徴とする請求項1又は2に記載のシステム管理装置。
  4. 前記特定部は、前記L3中継装置で折り返される通信を含めて前記L3中継装置を経由する情報処理装置間の通信経路を特定することを特徴とする請求項2に記載のシステム管理装置。
  5. 前記特定部は、前記L3中継装置の設定情報に基づいて前記L3中継装置を経由する情報処理装置間の通信経路を特定することを特徴とする請求項2又は4に記載のシステム管理装置。
  6. 前記探索部は、異なるL3中継装置間の通信経路をさらに探索し、該探索した通信経路の情報と両端の装置の情報とを対応付けて前記記憶部に記憶し、
    前記特定部は、前記記憶部が記憶する情報のうち異なるL3中継装置間の通信経路の情報をさらに用いて該異なるL3中継装置を経由する情報処理装置間の通信経路を特定することで、障害の影響を受ける情報処理装置間通信を特定することを特徴とする請求項2に記載のシステム管理装置。
  7. レイヤ3以上のデータを扱うL3中継装置を含む複数の中継装置と複数の情報処理装置を有するネットワークシステムを管理するシステム管理装置によるシステム管理方法において、
    前記L3中継装置と情報処理装置との間の通信経路及び情報処理装置間で前記L3中継装置を経由しない通信経路を探索し、該探索した通信経路の情報と両端の装置の情報とを対応付けて記憶部に記憶し、
    前記ネットワークシステムで障害が発生した場合に、前記記憶部を用いて障害の影響を受ける情報処理装置間通信を特定する
    ことを特徴とするシステム管理方法。
  8. レイヤ3以上のデータを扱うL3中継装置を含む複数の中継装置と複数の情報処理装置を有するネットワークシステムを管理するプログラムにおいて、
    前記L3中継装置と情報処理装置との間の通信経路及び情報処理装置間で前記L3中継装置を経由しない通信経路を探索し、該探索した通信経路の情報と両端の装置の情報とを対応付けて記憶部に記憶し、
    前記ネットワークシステムで障害が発生した場合に、前記記憶部を用いて障害の影響を受ける情報処理装置間通信を特定する
    処理をコンピュータに実行させることを特徴とするプログラム。
JP2017105020A 2017-05-26 2017-05-26 システム管理装置、システム管理方法及びプログラム Pending JP2018201129A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017105020A JP2018201129A (ja) 2017-05-26 2017-05-26 システム管理装置、システム管理方法及びプログラム
US15/987,219 US20180343162A1 (en) 2017-05-26 2018-05-23 System management apparatus and system management method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017105020A JP2018201129A (ja) 2017-05-26 2017-05-26 システム管理装置、システム管理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2018201129A true JP2018201129A (ja) 2018-12-20

Family

ID=64401442

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017105020A Pending JP2018201129A (ja) 2017-05-26 2017-05-26 システム管理装置、システム管理方法及びプログラム

Country Status (2)

Country Link
US (1) US20180343162A1 (ja)
JP (1) JP2018201129A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11102063B2 (en) 2017-07-20 2021-08-24 Vmware, Inc. Methods and apparatus to cross configure network resources of software defined data centers
US10756967B2 (en) 2017-07-20 2020-08-25 Vmware Inc. Methods and apparatus to configure switches of a virtual rack
US10530678B2 (en) 2017-07-20 2020-01-07 Vmware, Inc Methods and apparatus to optimize packet flow among virtualized servers
US10841235B2 (en) * 2017-07-20 2020-11-17 Vmware, Inc Methods and apparatus to optimize memory allocation in response to a storage rebalancing event
EP4116833A4 (en) * 2020-03-25 2023-04-26 Huawei Technologies Co., Ltd. COMMUNICATION METHOD AND ASSOCIATED APPARATUS
US11425044B2 (en) * 2020-10-15 2022-08-23 Cisco Technology, Inc. DHCP layer 2 relay in VXLAN overlay fabric

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1656785B (zh) * 2002-05-31 2010-08-25 索福帮股份有限公司 终端连接装置及连接控制装置
CN1283079C (zh) * 2003-02-20 2006-11-01 华为技术有限公司 Ip网络业务质量保证方法及系统
US7352703B2 (en) * 2003-04-29 2008-04-01 Alcatel Lucent Protection scheme for a communications network under multiple failures
US20050025058A1 (en) * 2003-07-30 2005-02-03 Siddheswar Chaudhuri Method for stochastic selection of improved cost metric backup paths in shared-mesh protection networks
US7420989B2 (en) * 2004-09-30 2008-09-02 Lucent Technologies Inc. Technique for identifying backup path for shared mesh protection
US8717899B2 (en) * 2004-10-13 2014-05-06 Cisco Technology, Inc. System and method for reporting out-of-resources (OOR) conditions in a data network
US8341288B2 (en) * 2004-10-22 2012-12-25 Cisco Technology, Inc. Mechanism for sharing resources among different senders and receivers
JP4671707B2 (ja) * 2005-02-18 2011-04-20 富士通株式会社 マルチキャストルーティングプログラム、マルチキャストルーティング方法、およびマルチキャストルータ
US20060221956A1 (en) * 2005-03-31 2006-10-05 Narayan Harsha L Methods for performing packet classification via prefix pair bit vectors
US20070036161A1 (en) * 2005-07-13 2007-02-15 Mahamuni Atul B System and method of routing Ethernet MAC frames using Layer-2 MAC addresses
US8644149B2 (en) * 2011-11-22 2014-02-04 Telefonaktiebolaget L M Ericsson (Publ) Mechanism for packet forwarding using switch pools in flow-based, split-architecture networks
US9979595B2 (en) * 2012-12-18 2018-05-22 Juniper Networks, Inc. Subscriber management and network service integration for software-defined networks having centralized control
US9906436B2 (en) * 2013-08-05 2018-02-27 Futurewei Technologies, Inc. Scalable name-based centralized content routing
US10098051B2 (en) * 2014-01-22 2018-10-09 Cisco Technology, Inc. Gateways and routing in software-defined manets
WO2017092780A1 (en) * 2015-11-30 2017-06-08 Telecom Italia S.P.A. Dynamic configuration of routing paths in a data network

Also Published As

Publication number Publication date
US20180343162A1 (en) 2018-11-29

Similar Documents

Publication Publication Date Title
JP2018201129A (ja) システム管理装置、システム管理方法及びプログラム
US11831600B2 (en) Domain name system operations implemented using scalable virtual traffic hub
US11882017B2 (en) Automated route propagation among networks attached to scalable virtual traffic hubs
US11805024B1 (en) Automatically generating an intent-based network model of an existing computer network
US10742446B2 (en) Interconnecting isolated networks with overlapping address ranges via scalable virtual traffic hubs
US10797989B2 (en) Scalable virtual traffic hub interconnecting isolated networks
US10402293B2 (en) System for virtual machine risk monitoring
JP4515314B2 (ja) 計算機システムの構成再現方法
US10785146B2 (en) Scalable cell-based packet processing service using client-provided decision metadata
US9135018B2 (en) Computer cluster and method for providing a disaster recovery functionality for a computer cluster
US7609654B2 (en) Method of evaluating network connectivity between network resources
US20050091353A1 (en) System and method for autonomically zoning storage area networks based on policy requirements
US8352866B2 (en) Adapting a network topology
CN105122730A (zh) 用于快速链路故障处理的系统和方法
US11570055B2 (en) Connectivity templates
CN108464031B (zh) 电信网络中的基于数据库的冗余
EP3853708B1 (en) Scalable cell based packet processing service using client provided decision metadata
JP2016134721A (ja) 情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム
JP2011081579A (ja) Itシステム仮想化における仮想リソースのシステム運用管理方法およびシステム
JP6246885B1 (ja) 経路解析処理装置および経路解析処理プログラム
JP2017118355A (ja) 影響範囲特定プログラム及び影響範囲特定装置
CN111538569B (zh) 一种基于云平台的系统一键部署方法
JP7302674B2 (ja) ネットワーク管理装置、方法およびプログラム
JP2024010659A (ja) コマンド検証による迅速なエラー検出
El-Shekeil OPERATIONAL RESILIENCE IN LARGE-SCALE DATA CENTERS