JP2018182418A

JP2018182418A - 転送装置および転送方法

Info

Publication number: JP2018182418A
Application number: JP2017075470A
Authority: JP
Inventors: 健史堀川; Takeshi Horikawa
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-04-05
Filing date: 2017-04-05
Publication date: 2018-11-15

Abstract

【課題】マルチレイヤ仮想ネットワークと物理ネットワークとのインタワーク部分の冗長構成を実現する。【解決手段】仮想ＮＷ上の仮想マシンと、ＮＷの仮想化がなされない物理ＮＷ上の物理マシンとの間でやり取りされるフレームを転送するToR‐SW（１Ａ，１Ｂ）は、冗長構成をとっており、ToR‐SW（１Ａ，１Ｂ）との間で共通の仮想アドレスを設定する仮想アドレス設定部１１と、ToR‐SW（１Ａ，１Ｂ）を死活監視する監視部１２と、死活監視の結果によって、現用系となる場合は、仮想マシンと物理マシンとの間でやり取りされるフレームのカプセル化およびデカプセル化をし、予備系となる場合は、カプセル化もデカプセル化もしないカプセル化部１３と、現用系となる場合は、カプセル化およびデカプセル化されたフレームの送受信をし、予備系となる場合は、送受信をしない送受信部１４と、を備える、ことを特徴とする。【選択図】図１

Description

本発明は、仮想ネットワークを構築する技術に関する。なお、「ネットワーク」という語を、「ＮＷ」（Network）と表記する場合もある。

仮想化技術の発達により、データセンタや物理サーバ（単に、「サーバ」と呼ぶ場合もある）に多数の仮想マシン（ＶＭ（Virtual Machine）と呼ぶ場合もある）を実装させることが可能となった。これらの仮想マシンは、ＶＬＡＮ（Virtual Local Area Network）などの仮想ネットワークによって互いに接続され、通信や連携を行うことで、さまざまなサービスを実現することができる。このため、マルチテナントを収容する仮想データセンタなどを構築する際に、多数の仮想ネットワークを構築できるようにしたいという要望がある。しかし、例えば、IEEE802.1q（IEEEは登録商標）に従って構築可能となるＶＬＡＮの最大数が4094であるように、従来のネットワーク規格では、構築可能な仮想ネットワークの最大数は小さく、もはや上記の要望に対応することが困難になっている。

上記の問題を解決する方法として、Ｌ２フレームのカプセル化によるオーバレイネットワークを構築する手段が提案されている。具体的には、Ｌ３ＮＷへのオーバレイを行うＶＸＬＡＮ（Virtual eXtensible Local Area Network）（例えば、非特許文献１を参照）やＬ２ＮＷへのオーバレイを行うIEEE802.1ah（例えば、非特許文献２を参照）を用いた手段が提案されている。これらの手段によれば、仮想データセンタなどに構築可能な仮想ネットワークの最大数を1600万程度に拡張することができる。
なお、「Ｌ２」は、ＯＳＩ（Open Systems Interconnection）参照モデルの第２層（データリンク層）でありEthernet（Ethernetは登録商標）等に対応し、「Ｌ３」は、ＯＳＩ参照モデルの第３層（ネットワーク層）でありIP(Internet Protocol)等に対応する。

RFC7348［online］、［平成29年3月24日検索］、インターネット<ＵＲＬ:https://www.rfc-editor.org/rfc/pdfrfc/rfc7348.txt.pdf> 802.1ah-2008 - IEEE Standard for Local and metropolitan area networks -- Virtual Bridged Local Area Networks Amendment 7: Provider Backbone Bridges［online］、［平成29年3月24日検索］、インターネット<ＵＲＬ: http://www.techstreet.com/ieee/products/vendor_id/3689>

しかし、フレームのＬ２カプセル化、つまりEthernetカプセル化を行うIEEE802.1ahに対し、ＶＸＬＡＮでは、フレームのＬ３カプセル化、つまりUDP(User Datagram Protocol)/IP/Ethernetカプセル化を行うため、カプセル化のオーバヘッド（Ｌ２カプセル化では１段階、Ｌ３カプセル化では３段階）およびフレームのオーバヘッドが大きい（Ｌ２カプセル化では22Byte、Ｌ３カプセル化では50Byte）。このため、複数の物理サーバを同一の物理Ｌ２セグメント内に構築することが多い仮想データセンタに対し、ＶＸＬＡＮを導入することは、余計な負荷が大きくなり、通信性能の低下を招くおそれがある。
一方、フレームサイズも含めてオーバヘッドを小さく済ませることができるIEEE802.1ahだけでは、物理Ｌ２セグメントを越えＬ３ＮＷを介した仮想ネットワークを構築することができない。このような事情に鑑みて、負荷を軽減した効率的なマルチレイヤ仮想ネットワークを構築することが求められている。

また、上記のようなマルチレイヤ仮想ネットワークを構築することが仮にできたとしても、そのような仮想ネットワークに対して、ＶＬＡＮなどのネットワークの仮想化がなされていない物理ネットワークを参加させて複合的なネットワーク群を構築する場合がある。この場合、このような物理ネットワークの信頼性を向上させるために、仮想ネットワークと物理ネットワークとのインタワーク部分にてフレームの冗長経路を組み込みたいという要望がある。しかし、インタワーク部分に冗長経路を単に組み込んだ場合、フレームの多重受信やループ、ループによるネットワークのメルトダウンなどの不都合が発生してしまう。

このような事情に鑑みて、本発明は、マルチレイヤ仮想ネットワークと物理ネットワークとのインタワーク部分の冗長構成を実現することを課題とする。

前記した課題を解決するため、請求項１に記載の発明は、仮想ネットワーク上の仮想マシンと、ネットワークの仮想化がなされない物理ネットワーク上の物理マシンとの間でやり取りされるフレームを転送する転送装置であって、前記仮想マシンが動作する仮想化サーバの各々は、同一の物理Ｌ２セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してＬ２カプセル化したりＬ２デカプセル化したりし、異なる物理Ｌ２セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してＬ３カプセル化したりＬ３デカプセル化したりする仮想スイッチを備えており、前記転送装置は、他の転送装置と冗長構成をとっており、前記転送装置と前記他の転送装置との間で共通の仮想アドレスを設定する仮想アドレス設定部と、前記転送装置および前記他の転送装置を死活監視する監視部と、前記死活監視の結果によって、前記転送装置が現用系となる場合は、前記仮想マシンと前記物理マシンとの間でやり取りされるフレームのカプセル化およびデカプセル化をし、前記他の転送装置が現用系となる場合は、前記カプセル化も前記デカプセル化もしないカプセル化部と、前記転送装置が現用系となる場合は、前記カプセル化および前記デカプセル化されたフレームの送受信をし、前記他の転送装置が現用系となる場合は、前記送受信をしない送受信部と、を備える、ことを特徴とする。

また、請求項２に記載の発明は、仮想ネットワーク上の仮想マシンと、ネットワークの仮想化がなされない物理ネットワーク上の物理マシンとの間でやり取りされるフレームを転送する転送装置における転送方法であって、前記仮想マシンが動作する仮想化サーバの各々は、同一の物理Ｌ２セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してＬ２カプセル化したりＬ２デカプセル化したりし、異なる物理Ｌ２セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してＬ３カプセル化したりＬ３デカプセル化したりする仮想スイッチを備えており、前記転送装置は、他の転送装置と冗長構成をとっており、前記転送装置が、前記転送装置と前記他の転送装置との間で共通の仮想アドレスを設定する仮想アドレス設定ステップと、前記転送装置および前記他の転送装置を死活監視する監視ステップと、前記死活監視の結果によって、前記転送装置が現用系となる場合は、前記仮想マシンと前記物理マシンとの間でやり取りされるフレームのカプセル化およびデカプセル化をし、前記他の転送装置が現用系となる場合は、前記カプセル化も前記デカプセル化もしないカプセル化ステップと、前記転送装置が現用系となる場合は、前記カプセル化および前記デカプセル化されたフレームの送受信をし、前記他の転送装置が現用系となる場合は、前記送受信をしない送受信ステップと、を実行する、ことを特徴とする。

請求項１，２に記載の発明によれば、現用系の転送装置のみがフレームのカプセル化やデカプセル化をしたり、フレームの送受信をしたりするため、仮想マシンや物理マシンでのフレームの多重受信やループなどの不都合は発生しない。
したがって、マルチレイヤ仮想ネットワークと物理ネットワークとのインタワーク部分の冗長構成を実現することができる。

本発明によれば、マルチレイヤ仮想ネットワークと物理ネットワークとのインタワーク部分の冗長構成を実現することができる。

本実施形態の仮想ネットワークおよび物理ネットワークを含むシステム全体の機能構成図の例である。重複経路による多重受信の説明図である。重複経路によるループの説明図である。ＴｏＲ−ＳＷの機能構成図の例である。ＴｏＲ−ＳＷにおける接続処理を示すフローチャートである。Ｌ２セグメントで接続する物理マシンによるフレーム受信（実施例１）の説明図である。Ｌ２セグメントで接続する物理マシンによるフレーム送信（実施例２）の説明図である。Ｌ３セグメントで接続する物理マシンによるフレーム受信（実施例３）の説明図である。Ｌ３セグメントで接続する物理マシンによるフレーム送信（実施例４）の説明図である。

本発明の実施形態について、図面を参照しながら詳細に説明する。

≪全体構成≫
図１に示すように、本実施形態に係るシステムは、仮想マシンVM1-1,1-2が動作する仮想化サーバPhM1、および、仮想マシンVM2-1,2-2が動作する仮想化サーバPhM2が、Ｌ２ＮＷ（図示せず）およびＬ３ＮＷ（図示せず）上に接続されたマルチレイヤ仮想ネットワーク（仮想ＮＷ）を構成する仮想化システムを備える。Ｌ２ＮＷは、通常のEthernetによるネットワークと同様に構成されており、そのＬ２ＮＷ上に、例えば、IEEE802.1ah（以下、単に、「802.1ah」と記載する場合がある。）のネットワークをオーバレイする形になる。また、Ｌ３ＮＷも、通常のＩＰネットワークと同様に構成されており、例えば、ＶＸＬＡＮによりＬ２ＮＷをオーバレイする形である。仮想化サーバPhM1,PhM2は、ハイパバイザなどのＶＭ生成・制御用プログラムを備えている。

また、図１に示すように、本実施形態に係るシステムは、ＶＭ生成・制御用プログラムを備えず、仮想マシンが動作しない物理マシンPhM8,9が配置されている物理ＮＷが仮想ＮＷに参加する形態をとる。物理ＮＷは、ＶＬＡＮなどのように、ＮＷの仮想化がなされないＮＷである。

図１中のToR‐SW（１Ａ，１Ｂ）は、ＶＸＬＡＮおよび802.1ahに対応するスイッチ（転送装置、他の転送装置）であって、仮想ＮＷと物理ＮＷとのインタワーク部分となる。ToR‐SW（１Ａ，１Ｂ）は、冗長化されており、一方が現用系、他方が予備系となる（詳細は後記）。

図１に示すように、仮想化サーバPhM1のVM1-1、仮想化サーバPhM2のVM2-1、および、物理マシンPhM8は、セグメントＢに属している。また、仮想化サーバPhM1のVM1-2、仮想化サーバPhM2のVM2-2、および、物理マシンPhM9は、セグメントＡに属している。セグメントＡ，Ｂは、物理Ｌ２セグメントである。図１中の共通物理セグメントＸは、セグメントＡ，Ｂを包含する物理Ｌ２セグメントである。

なお、仮想化サーバPhM1,PhM2、物理マシンPhM8,9、および、ToR‐SW（１Ａ，１Ｂ）は、記憶部、制御部、通信部、入力部、出力部といったハードウェアを備えたコンピュータである。制御部は、例えば、記憶部に記憶されているプログラムを記憶部の記憶領域に展開し実行することにより、さまざまな処理を実行することができる。
また、本実施形態に用いられる仮想化サーバの台数は、PhM1,PhM2の２台に限定されず、１台でもよいし、３台以上でもよい。また、本実施形態に用いられる物理マシンの台数は、PhM8,9の２台に限定されず、１台でもよいし、３台以上でもよい。また、本実施形態に用いられるToR‐SWの台数は、ToR‐SW（１Ａ，１Ｂ）の２台に限定されず、３台以上でもよい。

仮想化サーバPhM1は、ExVTEP（eXtensible VXLAN Tunnel End Point）1を備える。ExVTEP1は、仮想マシンVM1-1,1-2の論理ポートをＬ２で結ぶことで、仮想マシンVM1-1,1-2を仮想ＮＷ上でつなぐ仮想スイッチである。ExVTEP1は、Ｌ２ＮＷおよびＬ３ＮＷに対して構築される仮想ネットワークのスイッチとして機能し、共通物理セグメントＸにつながるToR-SW（１Ａ，１Ｂ）や他のExVTEP間ではIEEE802.1ah等のＬ２カプセル化を行い、例えば、図８に示すような共通物理セグメントＸをルータ等によって接続されるＬ３ＮＷ越しの他のVTEP/ExVTEP間ではＶＸＬＡＮ等のＬ３カプセル化を行う。

ExVTEP1は、同一の物理Ｌ２セグメントに属する仮想化サーバの各々で動作する仮想マシン同士（例えば、図１に示すVM1-1とVM2-1）でやり取りされるフレームに対してＬ２カプセル化したりＬ２デカプセル化したりすることができる。フレームのＬ２カプセル化およびＬ２ＮＷでの転送には、例えば、仮想化サーバPhM1の物理ポートに紐付いた、Outer MACアドレス（宛先となるＶＭを特定する情報の１つ）を使用することができる。

また、ExVTEP1は、異なる物理Ｌ２セグメントに属する仮想化サーバの各々で動作する仮想マシン同士（例えば、図１に示すVM1-1とVM2-2）でやり取りされるフレームをＬ３カプセル化したりＬ３デカプセル化したりすることができる。フレームのＬ３カプセル化およびＬ３デカプセル化には、例えば、仮想化サーバPhM1の物理ポートに紐付いた、Outer MACアドレスおよびOuter IPアドレス（宛先となるＶＭを特定する情報の１つ）を使用することができる。

また、ExVTEP1は、同じ仮想化サーバPhM1上で動作するセグメントＡ内、セグメントＢ内のフレームの転送を制御することができる。この転送には、例えば、Inner MACアドレス（宛先となるＶＭを特定する情報の１つ）を使用することができる。
また、ExVTEP1は、送信するフレームを宛先となるＶＭに応じて、Ｌ２カプセル化するかＬ３カプセル化するかという振り分けをすることができる。
仮想化サーバPhM2が備えるExVTEP2は、上記したExVTEP1の機能と同等の機能を有する。

ExVTEP1,2は、ＶＸＬＡＮの仮想ＳＷに、802.1ahによる振り分け機能、および802.1ahによるカプセル化機能を実装したものに相当する。このようなExVTEP1,2によれば、ローカルなＬ２ＮＷに対しては、802.1ahの方式に従い効率的な転送を実現するとともに、Ｌ３ＮＷを介する転送にはＶＸＬＡＮを利用することができる。このように、ＶＸＬＡＮによるオーバレイと802.1ahによるオーバレイを使い分けることで、4094〜1600万におよぶＬ２セグメントを効率的に構築することができる。

本実施形態に示す、仮想ＮＷと物理ＮＷとが複合したＮＷの通信は、以下の通信態様１〜３に分類される。
通信態様１：同一仮想化サーバで動作するＶＭ間の通信
通信態様２：同一物理Ｌ２セグメント内での通信（Ｌ２ＮＷを介した通信）
通信態様３：異なる物理Ｌ２セグメント間の通信（Ｌ３ＮＷを介した通信）

通信態様１は、例えば、同じ仮想化サーバPhM1上で動作する同一セグメント内のVM間の通信が該当する。
通信態様２は、例えば、仮想マシンVM1-1と仮想マシンVM2-1との間の通信や、仮想マシンVM1-1と物理マシンPhM8との間の通信が該当する。この場合、フレームのＬ２カプセル化およびＬ２デカプセル化が行われる。
通信態様３は、例えば、仮想マシンVM1-1と仮想マシンVM2-2との間の通信や、仮想マシンVM1-1と物理マシンPhM9との間の通信が該当する。この場合、フレームのＬ３カプセル化およびＬ３デカプセル化が行われる。

［比較例］
ここで、図１のToR‐SW（１Ａ，１Ｂ）の代わりに、ToR‐SW（１００Ａ，１００Ｂ）を用いたときの比較例について、図２，図３を参照して説明する。図２，図３に示す構成は、図１に示す構成と比較して、ToR‐SW（１００Ａ，１００Ｂ）以外の構成要素は同じである。ToR‐SW（１００Ａ，１００Ｂ）は、冗長構成を組んでおり、ToR‐SW（１Ａ，１Ｂ）と同様、スイッチとしての通常の機能は備えている。

図２に示すように、仮想マシンVM2-2がＭＣ（MultiCast）フレームを送信した場合、ToR‐SW（１００Ａ，１００Ｂ）の各々がそのＭＣフレームを受信した後、ToR‐SW（１００Ａ，１００Ｂ）の各々がＭＣフレームを物理マシンPhM9に送信してしまう。結果的に、物理マシンPhM9では、ＭＣフレームの二重受信が発生してしまい、負荷増大という不都合を招く。

また、図２に示すように、仮想マシンVM2-2からToR‐SW（１００Ａ）に転送されたＭＣフレームは、ToR‐SW（１００Ｂ）に転送された後、仮想化サーバPhM1のVM1-2に転送される。仮想マシンVM2-2からToR‐SW（１００Ｂ）に転送されたＭＣフレームは、ToR‐SW（１００Ａ）に転送された後、仮想化サーバPhM1のVM1-2に転送される。仮想マシンVM2-2からのＭＣフレームが仮想化サーバPhM1のVM1-2に直接転送される。結果的に、VM1-2では、ＭＣフレームの三重受信が発生してしまい、負荷増大という不都合を招く。

また、図２に示すように、仮想マシンVM2-2からのフレームがToR‐SW（１００Ａ，１００Ｂ）を経由して仮想マシンVM2-2に到達し、仮想マシンVM2-2自身にてＭＣフレームの多重受信が発生してしまい、不要フレームの廃棄による負荷増大という不都合を招く。

他にも、物理マシンPhM9および仮想マシンVM1-2は、他の経路を辿って転送されたＭＣフレームを受信したり、物理マシンPhM8や仮想マシンVM1-1などでもＭＣフレームの多重受信が発生するが、図２では、図示を省略している。
ToR‐SW（１００Ａ，１００Ｂ）用意して、仮想ネットワークと物理ネットワークとのインタワーク部分にてフレームの冗長経路を組み込むことで、通信の信頼性を向上させることは可能である。しかし、インタワーク部分に冗長経路を単に組み込んだ場合、ＭＣフレームの多重受信という不都合が発生する。

また、図３に示すように、マルチレイヤ仮想ネットワークに２つの物理ネットワークを参加させ、２番目の物理ネットワーク（図３の右上）に物理マシンPhM6,7、および、ToR‐SW（１００Ｃ，１００Ｄ）を配置したとする。ToR‐SW（１００Ｃ，１００Ｄ）は、冗長構成を組んでおり、ToR‐SW（１００Ａ，１００Ｂ）と同様、スイッチとしての通常の機能は備えている。

この場合、例えば、仮想マシンVM2-2からToR‐SW（１００Ａ，１００Ｂ）の各々に転送されたＭＣフレームは、物理マシンPhM9に送信されるだけでなく、図３に示すように、ToR‐SW（１００Ａ，１００Ｂ，１００Ｃ，１００Ｄ）間で巡回し、ループＬが形成されてしまう。このループＬは、ネットワークのメルトダウンを引き起こすことがあり、深刻な負荷増大を招くおそれがある。

（ToR‐SWの詳細構成）
上記に鑑みて、図４に示すように、本実施形態のToR‐SW（１Ａ）は、仮想アドレス設定部１１と、監視部１２と、カプセル化部１３と、送受信部１４といった機能部を備える。ToR‐SW（１Ｂ）もこれらの機能部を備えており、ToR‐SW（１Ｂ）に関する説明は省略する。

仮想アドレス設定部１１は、ToR‐SW（１Ａ，１Ｂ）に対して、ToR‐SW（１Ａ，１Ｂ）の間で割り当てられる共通の仮想アドレスを設定する。ここで、同一物理Ｌ２セグメント内での通信、つまり、Ｌ２ＮＷを介した通信に対しては、共通の仮想ＭＡＣアドレスが設定される。また、異なる物理Ｌ２セグメント間の通信、つまり、Ｌ３ＮＷを介した通信に対しては、共通の仮想ＩＰアドレスが設定される。
なお、ToR‐SW（１Ａ，１Ｂ）の各々は、実際の固有のアドレス（図示せず）を有しているが、仮想ネットワーク上の仮想マシンVM1-1,1-2,2-1,2-2に対して用いられるアドレスは、上記の共通の仮想アドレスである。

監視部１２は、ToR‐SW（１Ａ，１Ｂ）を死活監視する。具体的には、監視部１２は、ＨｅｌｌｏフレームまたはＨｅｌｌｏパケットを送出し、送出されたＨｅｌｌｏフレームまたはＨｅｌｌｏパケットを、ToR‐SW（１Ａ，１Ｂ）間で相互に観測する。監視部１２は、その観測の結果に応じて、ToR‐SW（１Ａ，１Ｂ）がそれぞれ、現用系に該当するか予備系に該当するかを判定する。

カプセル化部１３は、ToR‐SW（１Ａ）を介して、仮想マシンVM1-1,1-2,2-1,2-2、および、物理マシンPhM8,9の間でやり取りされるフレームをカプセル化する。また、カプセル化部１３は、ToR‐SW（１Ａ）を介して、仮想マシンVM1-1,1-2,2-1,2-2、および、物理マシンPhM8,9の間でやり取りされる、カプセル化されたフレームをデカプセル化する。

カプセル化部１３によるカプセル化は、Ｌ２カプセル化およびＬ３カプセル化を含む。また、カプセル化部１３によるデカプセル化は、Ｌ２デカプセル化およびＬ３デカプセル化を含む。
また、カプセル化部１３によるカプセル化およびデカプセル化は、ToR‐SW（１Ａ）が現用系に該当する場合に行われ、予備系に該当するときは行わない。

送受信部１４は、カプセル化部１３によりカプセル化されたフレームや、カプセル化部１３によりデカプセル化されたフレームの送受信を行う。送受信部１４による送受信は、ToR‐SW（１Ａ）が現用系に該当する場合に行われ、予備系に該当するときは行わない。

（処理）
次に、本実施形態のToR‐SW（１Ａ、１Ｂ）を、物理ネットワークのインタワーク部分に導入し、マルチレイヤ仮想ネットワークに接続したときの接続処理について、図５を参照して説明する。この説明は、ToR‐SW（１Ａ）に関する説明とするが、ToR‐SW（１Ｂ）にもあてはまる。

図５に示すように、まず、ToR‐SW（１Ａ）は、仮想アドレス設定部１１によって、ToR‐SW（１Ｂ）との間で共通の仮想アドレスを設定する（ステップＳ１）。共通の仮想アドレスには、Ｌ２ＮＷを介した通信用の仮想ＭＡＣアドレス、および、Ｌ３ＮＷを介した通信用の仮想ＩＰアドレスが含まれる。

次に、ToR‐SW（１Ａ）は、監視部１２によって、ＨｅｌｌｏフレームまたはＨｅｌｌｏパケットを送出して、ToR‐SW（１Ａ，１Ｂ）を死活監視する（ステップＳ２）。

次に、ToR‐SW（１Ａ）は、監視部１２によって、ToR‐SW（１Ａ）自身が現用系に該当するか否かを判定する（ステップＳ３）。例えば、ToR‐SW（１Ａ）が送出するＨｅｌｌｏフレームまたはＨｅｌｌｏパケットのフォーマットに含まれている優先度（Priority）が、ToR‐SW（１Ｂ）が送出するＨｅｌｌｏフレームまたはＨｅｌｌｏパケットのフォーマットに含まれている優先度よりも大きい場合、ToR‐SW（１Ａ）自身が現用系に該当すると判定することができる。なお、判定方法は、優先度を用いたものに限定されない。

ToR‐SW（１Ａ）自身が現用系に該当する場合（ステップＳ３／Ｙｅｓ）、ToR‐SW（１Ａ）は、カプセル化部１３によるカプセル化およびデカプセル化、および、送受信部１４によるフレームの送受信を許可する（ステップＳ４）。この許可に応じて、ToR‐SW（１Ａ）は、カプセル化部１３および送受信部１４を機能させ、カプセル化、デカプセル化、および、送受信を実行する。

一方、ToR‐SW（１Ａ）自身が現用系に該当しない場合（ステップＳ３／Ｎｏ）、ToR‐SW（１Ａ）は予備系に該当することを意味する。この場合、ToR‐SW（１Ａ）は、カプセル化部１３によるカプセル化およびデカプセル化、および、送受信部１４によるフレームの送受信を禁止する（ステップＳ５）。また、ToR‐SW（１Ｂ）が現用系に該当し、カプセル化、デカプセル化、および、送受信が許可され、実行する。

物理ネットワークの運用中は、ステップＳ２〜Ｓ５の処理が繰り返され、監視部１２による死活監視が継続され、現用系と予備系との交替が適宜行われる。
図５の処理によれば、ToR‐SW（１Ａ，１Ｂ）のうち現用系に該当するほうのみがフレームのカプセル化やデカプセル化をしたり、フレームの送受信をしたりするため、仮想マシンVM1-1,1-2,2-1,2-2、および、物理マシンPhM8,9でのフレームの多重受信やループなどの不都合は発生しない。

＜ToR‐SW（１Ａ，１Ｂ）の実施例＞
図６〜図９を参照して、ToR‐SW（１Ａ，１Ｂ）の動作の具体例について説明する。

［実施例１］
図６に示すシステムの構成は、図１に示すシステムの構成と同じである。図６には、仮想化サーバPhM2で動作する仮想マシンVM2-2から送信されるＭＣフレームを物理マシンPhM9が受信する様子が図示されている。仮想マシンVM2-2と物理マシンPhM9とはセグメントＡに属している。よって、ToR‐SW（１Ａ，１Ｂ）は、物理マシンPhM9を仮想マシンVM2-2に対してＬ２セグメントで接続する。また、仮想マシンVM2-2と物理マシンPhM9との通信は、Ｌ２ＮＷを介した通信となる。

図６において、仮想マシンVM2-2から送信されるＭＣフレームは、Ｌ２カプセル化され、ToR‐SW（１Ａ，１Ｂ）に対して設定されて共通の仮想ＭＡＣアドレスを宛先として送信される（符号ＡＤＤ１）。ToR‐SW（１Ａ，１Ｂ）に対しては、Ｈｅｌｌｏフレームによる相互死活監視が行われている（符号Ｈ）。その監視の結果、ToR‐SW（１Ｂ）が現用系となり、ToR‐SW（１Ａ）が予備系となる。仮想マシンVM2-2からのＭＣフレームは、ToR‐SW（１Ｂ）が受信することになり、ToR‐SW（１Ａ）は受信しない。

ToR‐SW（１Ｂ）は、物理ＮＷ上に、Ｌ２カプセル化されたＭＣフレームをＬ２デカプセル化して転送する。その結果、物理マシンPhM9は、Ｌ２デカプセル化されたフレームを受信する。このとき、予備系であるToR‐SW（１Ａ）から物理マシンPhM9に対してＬ２デカプセル化されたフレームが送信されることはないので、物理マシンPhM9での受信は多重受信（図２参照）ではなく、通常受信となる。

ToR‐SW（１Ｂ）からのＬ２デカプセル化されたＭＣフレームは、ToR‐SW（１Ａ）にも到達する。しかし、ToR‐SW（１Ａ）は、予備系であるため、受信したＭＣフレームのＬ２カプセル化および転送は禁止されている。よって、ToR‐SW（１Ａ）は、受信したＭＣフレームを破棄する。これにより、ToR‐SW（１Ａ）からＭＣフレームが転送されることによる多重受信が発生することはなく、負荷増大という不都合を回避することができる。また、ループ（図３参照）やそれによるネットワークのメルトダウンも発生しない。

［実施例２］
図７に示すシステムの構成は、図１，図６に示すシステムの構成と同じである。図７には、物理マシンPhM9から送信されるＭＣフレームを仮想化サーバPhM1で動作する仮想マシンVM1-2が受信する様子が図示されている。仮想マシンVM1-2と物理マシンPhM9とはセグメントＡに属している。よって、ToR‐SW（１Ａ，１Ｂ）は、物理マシンPhM9を仮想マシンVM2-2に対してＬ２セグメントで接続する。また、仮想マシンVM1-2と物理マシンPhM9との通信は、Ｌ２ＮＷを介した通信となる。

図７において、物理マシンPhM9から送信されるＭＣフレームは、ToR‐SW（１Ａ，１Ｂ）に対して設定されて共通の仮想ＭＡＣアドレスを宛先として送信される（符号ＡＤＤ１）。ToR‐SW（１Ａ，１Ｂ）に対しては、Ｈｅｌｌｏフレームによる相互死活監視が行われている（符号Ｈ）。その監視の結果、ToR‐SW（１Ｂ）が現用系となり、ToR‐SW（１Ａ）が予備系となる。物理マシンPhM9からのＭＣフレームは、ToR‐SW（１Ｂ）が受信することになり、ToR‐SW（１Ａ）は受信しない。

ToR‐SW（１Ｂ）は、仮想ＮＷ上に、ＭＣフレームをＬ２カプセル化して転送する。その結果、ExVTEP1がＬ２カプセル化されたＭＣフレームを受信してＬ２デカプセル化した後、仮想マシンVM1-2は、ExVTEP1からＬ２デカプセル化されたフレームを受信する。このとき、予備系であるToR‐SW（１Ａ）から仮想マシンVM1-2に対してＬ２デカプセル化されたフレームが送信されることはないので、仮想マシンVM1-2での受信は多重受信（図２参照）ではなく、通常受信となる。また、ExVTEP1は、物理マシンPhM9からのＭＣフレームを初めて受信した場合には、送信元である物理マシンPhM9のＭＡＣアドレスを学習する。

物理マシンPhM9からのＭＣフレームは、ToR‐SW（１Ａ）にも向けて送信される。しかし、ToR‐SW（１Ａ）は、予備系であるため、受信したＭＣフレームのＬ２カプセル化および転送は禁止されている。よって、ToR‐SW（１Ａ）は、物理マシンPhM9からのＭＣフレームを破棄する。これにより、ToR‐SW（１Ａ）からＭＣフレームが転送されることによる多重受信が発生することはなく、負荷増大という不都合を回避することができる。また、ループ（図３参照）やそれによるネットワークのメルトダウンも発生しない。

［実施例３］
図８に示すシステムの構成は、図６に示すシステムの構成に対して、物理ＮＷと仮想ＮＷとの間にＬ３ＮＷが介在した場合に相当する。図８には、仮想化サーバPhM2で動作する仮想マシンVM2-2から送信され、Ｌ３ＮＷ上に配置されているルータｒ１，ｒ２を経由するＭＣフレームを物理マシンPhM9が受信する様子が図示されている。仮想マシンVM2-2と物理マシンPhM9とはセグメントＡに属しているが、両者の間にはＬ３ＮＷが介在している。よって、ToR‐SW（１Ａ，１Ｂ）は、物理マシンPhM9を仮想マシンVM2-2に対してＬ３セグメントで接続する。また、仮想マシンVM2-2と物理マシンPhM9との通信は、Ｌ３ＮＷを介した通信となる。

図８において、仮想マシンVM2-2から送信されるＭＣフレームは、Ｌ３カプセル化され、ルータｒ１，ｒ２を経由し、ToR‐SW（１Ａ，１Ｂ）に対して設定されて共通の仮想ＩＰアドレスを宛先として送信される（符号ＡＤＤ２）。ToR‐SW（１Ａ，１Ｂ）に対しては、Ｈｅｌｌｏパケットによる相互死活監視が行われている（符号Ｈ）。その監視の結果、ToR‐SW（１Ｂ）が現用系となり、ToR‐SW（１Ａ）が予備系となる。仮想マシンVM2-2からのＭＣフレームは、ToR‐SW（１Ｂ）が受信することになり、ToR‐SW（１Ａ）は受信しない。

ToR‐SW（１Ｂ）は、物理ＮＷ上に、Ｌ３カプセル化されたＭＣフレームをＬ３デカプセル化して転送する。その結果、物理マシンPhM9は、Ｌ３デカプセル化されたフレームを受信する。このとき、予備系であるToR‐SW（１Ａ）から物理マシンPhM9に対してＬ３デカプセル化されたフレームが送信されることはないので、物理マシンPhM9での受信は多重受信（図２参照）ではなく、通常受信となる。

ToR‐SW（１Ｂ）からのＬ３デカプセル化されたＭＣフレームは、ToR‐SW（１Ａ）にも到達する。しかし、ToR‐SW（１Ａ）は、予備系であるため、受信したＭＣフレームのＬ３カプセル化および転送は禁止されている。よって、ToR‐SW（１Ａ）は、受信したＭＣフレームを破棄する。これにより、ToR‐SW（１Ａ）からＭＣフレームが転送されることによる多重受信が発生することはなく、負荷増大という不都合を回避することができる。また、ループ（図３参照）やそれによるネットワークのメルトダウンも発生しない。

［実施例４］
図９に示すシステムの構成は、図８に示すシステムの構成と同じである。図９には、物理マシンPhM9から送信され、Ｌ３ＮＷ上に配置されているルータｒ１，ｒ２を経由するＭＣフレームを仮想化サーバPhM1で動作する仮想マシンVM1-2が受信する様子が図示されている。仮想マシンVM1-2と物理マシンPhM9とはセグメントＡに属しているが、両者の間にはＬ３ＮＷが介在している。よって、ToR‐SW（１Ａ，１Ｂ）は、物理マシンPhM9を仮想マシンVM2-2に対してＬ３セグメントで接続する。また、仮想マシンVM1-2と物理マシンPhM9との通信は、Ｌ３ＮＷを介した通信となる。

図９において、物理マシンPhM9から送信されるＭＣフレームは、ToR‐SW（１Ａ，１Ｂ）に対して設定されて共通の仮想ＩＰアドレスを宛先として送信される（符号ＡＤＤ２）。ToR‐SW（１Ａ，１Ｂ）に対しては、Ｈｅｌｌｏフレームによる相互死活監視が行われている（符号Ｈ）。その監視の結果、ToR‐SW（１Ｂ）が現用系となり、ToR‐SW（１Ａ）が予備系となる。物理マシンPhM9からのＭＣフレームは、ToR‐SW（１Ｂ）が受信することになり、ToR‐SW（１Ａ）は受信しない。

ToR‐SW（１Ｂ）は、ルータｒ１，ｒ２を経由した仮想ＮＷ上に、ＭＣフレームをＬ３カプセル化して転送する。その結果、ExVTEP1がＬ３カプセル化されたＭＣフレームを受信してＬ３デカプセル化した後、仮想マシンVM1-2は、ExVTEP1からＬ３デカプセル化されたフレームを受信する。このとき、予備系であるToR‐SW（１Ａ）から仮想マシンVM1-2に対してＬ３デカプセル化されたフレームが送信されることはないので、仮想マシンVM1-2での受信は多重受信（図２参照）ではなく、通常受信となる。また、ExVTEP1は、物理マシンPhM9からのＭＣフレームを初めて受信した場合には、送信元である物理マシンPhM9のＭＡＣアドレスを学習する。

物理マシンPhM9からのＭＣフレームは、ToR‐SW（１Ａ）にも向けて送信される。しかし、ToR‐SW（１Ａ）は、予備系であるため、受信したＭＣフレームのＬ３カプセル化および転送は禁止されている。よって、ToR‐SW（１Ａ）は、物理マシンPhM9からのＭＣフレームを破棄する。これにより、ToR‐SW（１Ａ）からＭＣフレームが転送されることによる多重受信が発生することはなく、負荷増大という不都合を回避することができる。また、ループ（図３参照）やそれによるネットワークのメルトダウンも発生しない。

（まとめ）
本実施形態によれば、冗長構成をとるToR‐SW（１Ａ，１Ｂ）のうち現用系のみがフレームのカプセル化やデカプセル化をしたり、フレームの送受信をしたりするため、仮想マシンVM1-1,1-2,2-1,2-2や物理マシンPhM8,9でのフレームの多重受信やループなどの不都合は発生しない。
したがって、マルチレイヤ仮想ネットワークと物理ネットワークとのインタワーク部分の冗長構成を実現することができる。

≪変形例≫
本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能であり、例えば、次の（ａ）〜（ｃ）のようなものがある。
（ａ）：Ｌ３の仮想ネットワークとしてＶＸＬＡＮの代わりにＮＶＧＲＥ(Network Virtualization using Generic Routing Encapsulation)や、ＳＴＴ（Stateless TCP Transport）を採用することができる。
（ｂ）：Ｌ２の仮想ネットワークとしてIEEE802.1ahの代わりにＥｏＥ（Ethernet over Ethernet）や、TRILL（Transparent Interconnect of Lots of Links）を採用することができる。
（ｃ）：仮想ＮＷと、仮想ＮＷに参加する物理ＮＷとを経由するフレームは、ＭＣフレームに限らず、ユニキャストフレームでもよい。また、ＭＣフレームとして特にブロードキャストフレームでもよい。

また、本実施形態で説明した種々の技術を適宜組み合わせた技術を実現することもできる。
また、本実施形態で説明したソフトウェアをハードウェアとして実現することもでき、ハードウェアをソフトウェアとして実現することもできる。
その他、ハードウェア、ソフトウェア、処理手順などについて、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

１Ａ，１ＢＴｏＲ−ＳＷ（転送装置）
１１仮想アドレス設定部
１２監視部
１３カプセル化部
１４送受信部

Claims

仮想ネットワーク上の仮想マシンと、ネットワークの仮想化がなされない物理ネットワーク上の物理マシンとの間でやり取りされるフレームを転送する転送装置であって、
前記仮想マシンが動作する仮想化サーバの各々は、同一の物理Ｌ２セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してＬ２カプセル化したりＬ２デカプセル化したりし、異なる物理Ｌ２セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してＬ３カプセル化したりＬ３デカプセル化したりする仮想スイッチを備えており、
前記転送装置は、他の転送装置と冗長構成をとっており、
前記転送装置と前記他の転送装置との間で共通の仮想アドレスを設定する仮想アドレス設定部と、
前記転送装置および前記他の転送装置を死活監視する監視部と、
前記死活監視の結果によって、前記転送装置が現用系となる場合は、前記仮想マシンと前記物理マシンとの間でやり取りされるフレームのカプセル化およびデカプセル化をし、前記他の転送装置が現用系となる場合は、前記カプセル化も前記デカプセル化もしないカプセル化部と、
前記転送装置が現用系となる場合は、前記カプセル化および前記デカプセル化されたフレームの送受信をし、前記他の転送装置が現用系となる場合は、前記送受信をしない送受信部と、を備える、
ことを特徴とする転送装置。
仮想ネットワーク上の仮想マシンと、ネットワークの仮想化がなされない物理ネットワーク上の物理マシンとの間でやり取りされるフレームを転送する転送装置における転送方法であって、
前記仮想マシンが動作する仮想化サーバの各々は、同一の物理Ｌ２セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してＬ２カプセル化したりＬ２デカプセル化したりし、異なる物理Ｌ２セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してＬ３カプセル化したりＬ３デカプセル化したりする仮想スイッチを備えており、
前記転送装置は、他の転送装置と冗長構成をとっており、
前記転送装置が、
前記転送装置と前記他の転送装置との間で共通の仮想アドレスを設定する仮想アドレス設定ステップと、
前記転送装置および前記他の転送装置を死活監視する監視ステップと、
前記死活監視の結果によって、前記転送装置が現用系となる場合は、前記仮想マシンと前記物理マシンとの間でやり取りされるフレームのカプセル化およびデカプセル化をし、前記他の転送装置が現用系となる場合は、前記カプセル化も前記デカプセル化もしないカプセル化ステップと、
前記転送装置が現用系となる場合は、前記カプセル化および前記デカプセル化されたフレームの送受信をし、前記他の転送装置が現用系となる場合は、前記送受信をしない送受信ステップと、を実行する、
ことを特徴とする転送方法。