JP2018182418A - 転送装置および転送方法 - Google Patents
転送装置および転送方法 Download PDFInfo
- Publication number
- JP2018182418A JP2018182418A JP2017075470A JP2017075470A JP2018182418A JP 2018182418 A JP2018182418 A JP 2018182418A JP 2017075470 A JP2017075470 A JP 2017075470A JP 2017075470 A JP2017075470 A JP 2017075470A JP 2018182418 A JP2018182418 A JP 2018182418A
- Authority
- JP
- Japan
- Prior art keywords
- virtual
- transfer device
- physical
- tor
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Small-Scale Networks (AREA)
Abstract
【課題】マルチレイヤ仮想ネットワークと物理ネットワークとのインタワーク部分の冗長構成を実現する。【解決手段】仮想NW上の仮想マシンと、NWの仮想化がなされない物理NW上の物理マシンとの間でやり取りされるフレームを転送するToR‐SW(1A,1B)は、冗長構成をとっており、ToR‐SW(1A,1B)との間で共通の仮想アドレスを設定する仮想アドレス設定部11と、ToR‐SW(1A,1B)を死活監視する監視部12と、死活監視の結果によって、現用系となる場合は、仮想マシンと物理マシンとの間でやり取りされるフレームのカプセル化およびデカプセル化をし、予備系となる場合は、カプセル化もデカプセル化もしないカプセル化部13と、現用系となる場合は、カプセル化およびデカプセル化されたフレームの送受信をし、予備系となる場合は、送受信をしない送受信部14と、を備える、ことを特徴とする。【選択図】図1
Description
本発明は、仮想ネットワークを構築する技術に関する。なお、「ネットワーク」という語を、「NW」(Network)と表記する場合もある。
仮想化技術の発達により、データセンタや物理サーバ(単に、「サーバ」と呼ぶ場合もある)に多数の仮想マシン(VM(Virtual Machine)と呼ぶ場合もある)を実装させることが可能となった。これらの仮想マシンは、VLAN(Virtual Local Area Network)などの仮想ネットワークによって互いに接続され、通信や連携を行うことで、さまざまなサービスを実現することができる。このため、マルチテナントを収容する仮想データセンタなどを構築する際に、多数の仮想ネットワークを構築できるようにしたいという要望がある。しかし、例えば、IEEE802.1q(IEEEは登録商標)に従って構築可能となるVLANの最大数が4094であるように、従来のネットワーク規格では、構築可能な仮想ネットワークの最大数は小さく、もはや上記の要望に対応することが困難になっている。
上記の問題を解決する方法として、L2フレームのカプセル化によるオーバレイネットワークを構築する手段が提案されている。具体的には、L3NWへのオーバレイを行うVXLAN(Virtual eXtensible Local Area Network)(例えば、非特許文献1を参照)やL2NWへのオーバレイを行うIEEE802.1ah(例えば、非特許文献2を参照)を用いた手段が提案されている。これらの手段によれば、仮想データセンタなどに構築可能な仮想ネットワークの最大数を1600万程度に拡張することができる。
なお、「L2」は、OSI(Open Systems Interconnection)参照モデルの第2層(データリンク層)でありEthernet(Ethernetは登録商標)等に対応し、「L3」は、OSI参照モデルの第3層(ネットワーク層)でありIP(Internet Protocol)等に対応する。
なお、「L2」は、OSI(Open Systems Interconnection)参照モデルの第2層(データリンク層)でありEthernet(Ethernetは登録商標)等に対応し、「L3」は、OSI参照モデルの第3層(ネットワーク層)でありIP(Internet Protocol)等に対応する。
RFC7348[online]、[平成29年3月24日検索]、インターネット<URL:https://www.rfc-editor.org/rfc/pdfrfc/rfc7348.txt.pdf>
802.1ah-2008 - IEEE Standard for Local and metropolitan area networks -- Virtual Bridged Local Area Networks Amendment 7: Provider Backbone Bridges[online]、[平成29年3月24日検索]、インターネット<URL: http://www.techstreet.com/ieee/products/vendor_id/3689>
しかし、フレームのL2カプセル化、つまりEthernetカプセル化を行うIEEE802.1ahに対し、VXLANでは、フレームのL3カプセル化、つまりUDP(User Datagram Protocol)/IP/Ethernetカプセル化を行うため、カプセル化のオーバヘッド(L2カプセル化では1段階、L3カプセル化では3段階)およびフレームのオーバヘッドが大きい(L2カプセル化では22Byte、L3カプセル化では50Byte)。このため、複数の物理サーバを同一の物理L2セグメント内に構築することが多い仮想データセンタに対し、VXLANを導入することは、余計な負荷が大きくなり、通信性能の低下を招くおそれがある。
一方、フレームサイズも含めてオーバヘッドを小さく済ませることができるIEEE802.1ahだけでは、物理L2セグメントを越えL3NWを介した仮想ネットワークを構築することができない。このような事情に鑑みて、負荷を軽減した効率的なマルチレイヤ仮想ネットワークを構築することが求められている。
一方、フレームサイズも含めてオーバヘッドを小さく済ませることができるIEEE802.1ahだけでは、物理L2セグメントを越えL3NWを介した仮想ネットワークを構築することができない。このような事情に鑑みて、負荷を軽減した効率的なマルチレイヤ仮想ネットワークを構築することが求められている。
また、上記のようなマルチレイヤ仮想ネットワークを構築することが仮にできたとしても、そのような仮想ネットワークに対して、VLANなどのネットワークの仮想化がなされていない物理ネットワークを参加させて複合的なネットワーク群を構築する場合がある。この場合、このような物理ネットワークの信頼性を向上させるために、仮想ネットワークと物理ネットワークとのインタワーク部分にてフレームの冗長経路を組み込みたいという要望がある。しかし、インタワーク部分に冗長経路を単に組み込んだ場合、フレームの多重受信やループ、ループによるネットワークのメルトダウンなどの不都合が発生してしまう。
このような事情に鑑みて、本発明は、マルチレイヤ仮想ネットワークと物理ネットワークとのインタワーク部分の冗長構成を実現することを課題とする。
前記した課題を解決するため、請求項1に記載の発明は、仮想ネットワーク上の仮想マシンと、ネットワークの仮想化がなされない物理ネットワーク上の物理マシンとの間でやり取りされるフレームを転送する転送装置であって、前記仮想マシンが動作する仮想化サーバの各々は、同一の物理L2セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してL2カプセル化したりL2デカプセル化したりし、異なる物理L2セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してL3カプセル化したりL3デカプセル化したりする仮想スイッチを備えており、前記転送装置は、他の転送装置と冗長構成をとっており、前記転送装置と前記他の転送装置との間で共通の仮想アドレスを設定する仮想アドレス設定部と、前記転送装置および前記他の転送装置を死活監視する監視部と、前記死活監視の結果によって、前記転送装置が現用系となる場合は、前記仮想マシンと前記物理マシンとの間でやり取りされるフレームのカプセル化およびデカプセル化をし、前記他の転送装置が現用系となる場合は、前記カプセル化も前記デカプセル化もしないカプセル化部と、前記転送装置が現用系となる場合は、前記カプセル化および前記デカプセル化されたフレームの送受信をし、前記他の転送装置が現用系となる場合は、前記送受信をしない送受信部と、を備える、ことを特徴とする。
また、請求項2に記載の発明は、仮想ネットワーク上の仮想マシンと、ネットワークの仮想化がなされない物理ネットワーク上の物理マシンとの間でやり取りされるフレームを転送する転送装置における転送方法であって、前記仮想マシンが動作する仮想化サーバの各々は、同一の物理L2セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してL2カプセル化したりL2デカプセル化したりし、異なる物理L2セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してL3カプセル化したりL3デカプセル化したりする仮想スイッチを備えており、前記転送装置は、他の転送装置と冗長構成をとっており、前記転送装置が、前記転送装置と前記他の転送装置との間で共通の仮想アドレスを設定する仮想アドレス設定ステップと、前記転送装置および前記他の転送装置を死活監視する監視ステップと、前記死活監視の結果によって、前記転送装置が現用系となる場合は、前記仮想マシンと前記物理マシンとの間でやり取りされるフレームのカプセル化およびデカプセル化をし、前記他の転送装置が現用系となる場合は、前記カプセル化も前記デカプセル化もしないカプセル化ステップと、前記転送装置が現用系となる場合は、前記カプセル化および前記デカプセル化されたフレームの送受信をし、前記他の転送装置が現用系となる場合は、前記送受信をしない送受信ステップと、を実行する、ことを特徴とする。
請求項1,2に記載の発明によれば、現用系の転送装置のみがフレームのカプセル化やデカプセル化をしたり、フレームの送受信をしたりするため、仮想マシンや物理マシンでのフレームの多重受信やループなどの不都合は発生しない。
したがって、マルチレイヤ仮想ネットワークと物理ネットワークとのインタワーク部分の冗長構成を実現することができる。
したがって、マルチレイヤ仮想ネットワークと物理ネットワークとのインタワーク部分の冗長構成を実現することができる。
本発明によれば、マルチレイヤ仮想ネットワークと物理ネットワークとのインタワーク部分の冗長構成を実現することができる。
本発明の実施形態について、図面を参照しながら詳細に説明する。
≪全体構成≫
図1に示すように、本実施形態に係るシステムは、仮想マシンVM1-1,1-2が動作する仮想化サーバPhM1、および、仮想マシンVM2-1,2-2が動作する仮想化サーバPhM2が、L2NW(図示せず)およびL3NW(図示せず)上に接続されたマルチレイヤ仮想ネットワーク(仮想NW)を構成する仮想化システムを備える。L2NWは、通常のEthernetによるネットワークと同様に構成されており、そのL2NW上に、例えば、IEEE802.1ah(以下、単に、「802.1ah」と記載する場合がある。)のネットワークをオーバレイする形になる。また、L3NWも、通常のIPネットワークと同様に構成されており、例えば、VXLANによりL2NWをオーバレイする形である。仮想化サーバPhM1,PhM2は、ハイパバイザなどのVM生成・制御用プログラムを備えている。
図1に示すように、本実施形態に係るシステムは、仮想マシンVM1-1,1-2が動作する仮想化サーバPhM1、および、仮想マシンVM2-1,2-2が動作する仮想化サーバPhM2が、L2NW(図示せず)およびL3NW(図示せず)上に接続されたマルチレイヤ仮想ネットワーク(仮想NW)を構成する仮想化システムを備える。L2NWは、通常のEthernetによるネットワークと同様に構成されており、そのL2NW上に、例えば、IEEE802.1ah(以下、単に、「802.1ah」と記載する場合がある。)のネットワークをオーバレイする形になる。また、L3NWも、通常のIPネットワークと同様に構成されており、例えば、VXLANによりL2NWをオーバレイする形である。仮想化サーバPhM1,PhM2は、ハイパバイザなどのVM生成・制御用プログラムを備えている。
また、図1に示すように、本実施形態に係るシステムは、VM生成・制御用プログラムを備えず、仮想マシンが動作しない物理マシンPhM8,9が配置されている物理NWが仮想NWに参加する形態をとる。物理NWは、VLANなどのように、NWの仮想化がなされないNWである。
図1中のToR‐SW(1A,1B)は、VXLANおよび802.1ahに対応するスイッチ(転送装置、他の転送装置)であって、仮想NWと物理NWとのインタワーク部分となる。ToR‐SW(1A,1B)は、冗長化されており、一方が現用系、他方が予備系となる(詳細は後記)。
図1に示すように、仮想化サーバPhM1のVM1-1、仮想化サーバPhM2のVM2-1、および、物理マシンPhM8は、セグメントBに属している。また、仮想化サーバPhM1のVM1-2、仮想化サーバPhM2のVM2-2、および、物理マシンPhM9は、セグメントAに属している。セグメントA,Bは、物理L2セグメントである。図1中の共通物理セグメントXは、セグメントA,Bを包含する物理L2セグメントである。
なお、仮想化サーバPhM1,PhM2、物理マシンPhM8,9、および、ToR‐SW(1A,1B)は、記憶部、制御部、通信部、入力部、出力部といったハードウェアを備えたコンピュータである。制御部は、例えば、記憶部に記憶されているプログラムを記憶部の記憶領域に展開し実行することにより、さまざまな処理を実行することができる。
また、本実施形態に用いられる仮想化サーバの台数は、PhM1,PhM2の2台に限定されず、1台でもよいし、3台以上でもよい。また、本実施形態に用いられる物理マシンの台数は、PhM8,9の2台に限定されず、1台でもよいし、3台以上でもよい。また、本実施形態に用いられるToR‐SWの台数は、ToR‐SW(1A,1B)の2台に限定されず、3台以上でもよい。
また、本実施形態に用いられる仮想化サーバの台数は、PhM1,PhM2の2台に限定されず、1台でもよいし、3台以上でもよい。また、本実施形態に用いられる物理マシンの台数は、PhM8,9の2台に限定されず、1台でもよいし、3台以上でもよい。また、本実施形態に用いられるToR‐SWの台数は、ToR‐SW(1A,1B)の2台に限定されず、3台以上でもよい。
仮想化サーバPhM1は、ExVTEP(eXtensible VXLAN Tunnel End Point)1を備える。ExVTEP1は、仮想マシンVM1-1,1-2の論理ポートをL2で結ぶことで、仮想マシンVM1-1,1-2を仮想NW上でつなぐ仮想スイッチである。ExVTEP1は、L2NWおよびL3NWに対して構築される仮想ネットワークのスイッチとして機能し、共通物理セグメントXにつながるToR-SW(1A,1B)や他のExVTEP間ではIEEE802.1ah等のL2カプセル化を行い、例えば、図8に示すような共通物理セグメントXをルータ等によって接続されるL3NW越しの他のVTEP/ExVTEP間ではVXLAN等のL3カプセル化を行う。
ExVTEP1は、同一の物理L2セグメントに属する仮想化サーバの各々で動作する仮想マシン同士(例えば、図1に示すVM1-1とVM2-1)でやり取りされるフレームに対してL2カプセル化したりL2デカプセル化したりすることができる。フレームのL2カプセル化およびL2NWでの転送には、例えば、仮想化サーバPhM1の物理ポートに紐付いた、Outer MACアドレス(宛先となるVMを特定する情報の1つ)を使用することができる。
また、ExVTEP1は、異なる物理L2セグメントに属する仮想化サーバの各々で動作する仮想マシン同士(例えば、図1に示すVM1-1とVM2-2)でやり取りされるフレームをL3カプセル化したりL3デカプセル化したりすることができる。フレームのL3カプセル化およびL3デカプセル化には、例えば、仮想化サーバPhM1の物理ポートに紐付いた、Outer MACアドレスおよびOuter IPアドレス(宛先となるVMを特定する情報の1つ)を使用することができる。
また、ExVTEP1は、同じ仮想化サーバPhM1上で動作するセグメントA内、セグメントB内のフレームの転送を制御することができる。この転送には、例えば、Inner MACアドレス(宛先となるVMを特定する情報の1つ)を使用することができる。
また、ExVTEP1は、送信するフレームを宛先となるVMに応じて、L2カプセル化するかL3カプセル化するかという振り分けをすることができる。
仮想化サーバPhM2が備えるExVTEP2は、上記したExVTEP1の機能と同等の機能を有する。
また、ExVTEP1は、送信するフレームを宛先となるVMに応じて、L2カプセル化するかL3カプセル化するかという振り分けをすることができる。
仮想化サーバPhM2が備えるExVTEP2は、上記したExVTEP1の機能と同等の機能を有する。
ExVTEP1,2は、VXLANの仮想SWに、802.1ahによる振り分け機能、および802.1ahによるカプセル化機能を実装したものに相当する。このようなExVTEP1,2によれば、ローカルなL2NWに対しては、802.1ahの方式に従い効率的な転送を実現するとともに、L3NWを介する転送にはVXLANを利用することができる。このように、VXLANによるオーバレイと802.1ahによるオーバレイを使い分けることで、4094〜1600万におよぶL2セグメントを効率的に構築することができる。
本実施形態に示す、仮想NWと物理NWとが複合したNWの通信は、以下の通信態様1〜3に分類される。
通信態様1:同一仮想化サーバで動作するVM間の通信
通信態様2:同一物理L2セグメント内での通信(L2NWを介した通信)
通信態様3:異なる物理L2セグメント間の通信(L3NWを介した通信)
通信態様1:同一仮想化サーバで動作するVM間の通信
通信態様2:同一物理L2セグメント内での通信(L2NWを介した通信)
通信態様3:異なる物理L2セグメント間の通信(L3NWを介した通信)
通信態様1は、例えば、同じ仮想化サーバPhM1上で動作する同一セグメント内のVM間の通信が該当する。
通信態様2は、例えば、仮想マシンVM1-1と仮想マシンVM2-1との間の通信や、仮想マシンVM1-1と物理マシンPhM8との間の通信が該当する。この場合、フレームのL2カプセル化およびL2デカプセル化が行われる。
通信態様3は、例えば、仮想マシンVM1-1と仮想マシンVM2-2との間の通信や、仮想マシンVM1-1と物理マシンPhM9との間の通信が該当する。この場合、フレームのL3カプセル化およびL3デカプセル化が行われる。
通信態様2は、例えば、仮想マシンVM1-1と仮想マシンVM2-1との間の通信や、仮想マシンVM1-1と物理マシンPhM8との間の通信が該当する。この場合、フレームのL2カプセル化およびL2デカプセル化が行われる。
通信態様3は、例えば、仮想マシンVM1-1と仮想マシンVM2-2との間の通信や、仮想マシンVM1-1と物理マシンPhM9との間の通信が該当する。この場合、フレームのL3カプセル化およびL3デカプセル化が行われる。
[比較例]
ここで、図1のToR‐SW(1A,1B)の代わりに、ToR‐SW(100A,100B)を用いたときの比較例について、図2,図3を参照して説明する。図2,図3に示す構成は、図1に示す構成と比較して、ToR‐SW(100A,100B)以外の構成要素は同じである。ToR‐SW(100A,100B)は、冗長構成を組んでおり、ToR‐SW(1A,1B)と同様、スイッチとしての通常の機能は備えている。
ここで、図1のToR‐SW(1A,1B)の代わりに、ToR‐SW(100A,100B)を用いたときの比較例について、図2,図3を参照して説明する。図2,図3に示す構成は、図1に示す構成と比較して、ToR‐SW(100A,100B)以外の構成要素は同じである。ToR‐SW(100A,100B)は、冗長構成を組んでおり、ToR‐SW(1A,1B)と同様、スイッチとしての通常の機能は備えている。
図2に示すように、仮想マシンVM2-2がMC(MultiCast)フレームを送信した場合、ToR‐SW(100A,100B)の各々がそのMCフレームを受信した後、ToR‐SW(100A,100B)の各々がMCフレームを物理マシンPhM9に送信してしまう。結果的に、物理マシンPhM9では、MCフレームの二重受信が発生してしまい、負荷増大という不都合を招く。
また、図2に示すように、仮想マシンVM2-2からToR‐SW(100A)に転送されたMCフレームは、ToR‐SW(100B)に転送された後、仮想化サーバPhM1のVM1-2に転送される。仮想マシンVM2-2からToR‐SW(100B)に転送されたMCフレームは、ToR‐SW(100A)に転送された後、仮想化サーバPhM1のVM1-2に転送される。仮想マシンVM2-2からのMCフレームが仮想化サーバPhM1のVM1-2に直接転送される。結果的に、VM1-2では、MCフレームの三重受信が発生してしまい、負荷増大という不都合を招く。
また、図2に示すように、仮想マシンVM2-2からのフレームがToR‐SW(100A,100B)を経由して仮想マシンVM2-2に到達し、仮想マシンVM2-2自身にてMCフレームの多重受信が発生してしまい、不要フレームの廃棄による負荷増大という不都合を招く。
他にも、物理マシンPhM9および仮想マシンVM1-2は、他の経路を辿って転送されたMCフレームを受信したり、物理マシンPhM8や仮想マシンVM1-1などでもMCフレームの多重受信が発生するが、図2では、図示を省略している。
ToR‐SW(100A,100B)用意して、仮想ネットワークと物理ネットワークとのインタワーク部分にてフレームの冗長経路を組み込むことで、通信の信頼性を向上させることは可能である。しかし、インタワーク部分に冗長経路を単に組み込んだ場合、MCフレームの多重受信という不都合が発生する。
ToR‐SW(100A,100B)用意して、仮想ネットワークと物理ネットワークとのインタワーク部分にてフレームの冗長経路を組み込むことで、通信の信頼性を向上させることは可能である。しかし、インタワーク部分に冗長経路を単に組み込んだ場合、MCフレームの多重受信という不都合が発生する。
また、図3に示すように、マルチレイヤ仮想ネットワークに2つの物理ネットワークを参加させ、2番目の物理ネットワーク(図3の右上)に物理マシンPhM6,7、および、ToR‐SW(100C,100D)を配置したとする。ToR‐SW(100C,100D)は、冗長構成を組んでおり、ToR‐SW(100A,100B)と同様、スイッチとしての通常の機能は備えている。
この場合、例えば、仮想マシンVM2-2からToR‐SW(100A,100B)の各々に転送されたMCフレームは、物理マシンPhM9に送信されるだけでなく、図3に示すように、ToR‐SW(100A,100B,100C,100D)間で巡回し、ループLが形成されてしまう。このループLは、ネットワークのメルトダウンを引き起こすことがあり、深刻な負荷増大を招くおそれがある。
(ToR‐SWの詳細構成)
上記に鑑みて、図4に示すように、本実施形態のToR‐SW(1A)は、仮想アドレス設定部11と、監視部12と、カプセル化部13と、送受信部14といった機能部を備える。ToR‐SW(1B)もこれらの機能部を備えており、ToR‐SW(1B)に関する説明は省略する。
上記に鑑みて、図4に示すように、本実施形態のToR‐SW(1A)は、仮想アドレス設定部11と、監視部12と、カプセル化部13と、送受信部14といった機能部を備える。ToR‐SW(1B)もこれらの機能部を備えており、ToR‐SW(1B)に関する説明は省略する。
仮想アドレス設定部11は、ToR‐SW(1A,1B)に対して、ToR‐SW(1A,1B)の間で割り当てられる共通の仮想アドレスを設定する。ここで、同一物理L2セグメント内での通信、つまり、L2NWを介した通信に対しては、共通の仮想MACアドレスが設定される。また、異なる物理L2セグメント間の通信、つまり、L3NWを介した通信に対しては、共通の仮想IPアドレスが設定される。
なお、ToR‐SW(1A,1B)の各々は、実際の固有のアドレス(図示せず)を有しているが、仮想ネットワーク上の仮想マシンVM1-1,1-2,2-1,2-2に対して用いられるアドレスは、上記の共通の仮想アドレスである。
なお、ToR‐SW(1A,1B)の各々は、実際の固有のアドレス(図示せず)を有しているが、仮想ネットワーク上の仮想マシンVM1-1,1-2,2-1,2-2に対して用いられるアドレスは、上記の共通の仮想アドレスである。
監視部12は、ToR‐SW(1A,1B)を死活監視する。具体的には、監視部12は、HelloフレームまたはHelloパケットを送出し、送出されたHelloフレームまたはHelloパケットを、ToR‐SW(1A,1B)間で相互に観測する。監視部12は、その観測の結果に応じて、ToR‐SW(1A,1B)がそれぞれ、現用系に該当するか予備系に該当するかを判定する。
カプセル化部13は、ToR‐SW(1A)を介して、仮想マシンVM1-1,1-2,2-1,2-2、および、物理マシンPhM8,9の間でやり取りされるフレームをカプセル化する。また、カプセル化部13は、ToR‐SW(1A)を介して、仮想マシンVM1-1,1-2,2-1,2-2、および、物理マシンPhM8,9の間でやり取りされる、カプセル化されたフレームをデカプセル化する。
カプセル化部13によるカプセル化は、L2カプセル化およびL3カプセル化を含む。また、カプセル化部13によるデカプセル化は、L2デカプセル化およびL3デカプセル化を含む。
また、カプセル化部13によるカプセル化およびデカプセル化は、ToR‐SW(1A)が現用系に該当する場合に行われ、予備系に該当するときは行わない。
また、カプセル化部13によるカプセル化およびデカプセル化は、ToR‐SW(1A)が現用系に該当する場合に行われ、予備系に該当するときは行わない。
送受信部14は、カプセル化部13によりカプセル化されたフレームや、カプセル化部13によりデカプセル化されたフレームの送受信を行う。送受信部14による送受信は、ToR‐SW(1A)が現用系に該当する場合に行われ、予備系に該当するときは行わない。
(処理)
次に、本実施形態のToR‐SW(1A、1B)を、物理ネットワークのインタワーク部分に導入し、マルチレイヤ仮想ネットワークに接続したときの接続処理について、図5を参照して説明する。この説明は、ToR‐SW(1A)に関する説明とするが、ToR‐SW(1B)にもあてはまる。
次に、本実施形態のToR‐SW(1A、1B)を、物理ネットワークのインタワーク部分に導入し、マルチレイヤ仮想ネットワークに接続したときの接続処理について、図5を参照して説明する。この説明は、ToR‐SW(1A)に関する説明とするが、ToR‐SW(1B)にもあてはまる。
図5に示すように、まず、ToR‐SW(1A)は、仮想アドレス設定部11によって、ToR‐SW(1B)との間で共通の仮想アドレスを設定する(ステップS1)。共通の仮想アドレスには、L2NWを介した通信用の仮想MACアドレス、および、L3NWを介した通信用の仮想IPアドレスが含まれる。
次に、ToR‐SW(1A)は、監視部12によって、HelloフレームまたはHelloパケットを送出して、ToR‐SW(1A,1B)を死活監視する(ステップS2)。
次に、ToR‐SW(1A)は、監視部12によって、ToR‐SW(1A)自身が現用系に該当するか否かを判定する(ステップS3)。例えば、ToR‐SW(1A)が送出するHelloフレームまたはHelloパケットのフォーマットに含まれている優先度(Priority)が、ToR‐SW(1B)が送出するHelloフレームまたはHelloパケットのフォーマットに含まれている優先度よりも大きい場合、ToR‐SW(1A)自身が現用系に該当すると判定することができる。なお、判定方法は、優先度を用いたものに限定されない。
ToR‐SW(1A)自身が現用系に該当する場合(ステップS3/Yes)、ToR‐SW(1A)は、カプセル化部13によるカプセル化およびデカプセル化、および、送受信部14によるフレームの送受信を許可する(ステップS4)。この許可に応じて、ToR‐SW(1A)は、カプセル化部13および送受信部14を機能させ、カプセル化、デカプセル化、および、送受信を実行する。
一方、ToR‐SW(1A)自身が現用系に該当しない場合(ステップS3/No)、ToR‐SW(1A)は予備系に該当することを意味する。この場合、ToR‐SW(1A)は、カプセル化部13によるカプセル化およびデカプセル化、および、送受信部14によるフレームの送受信を禁止する(ステップS5)。また、ToR‐SW(1B)が現用系に該当し、カプセル化、デカプセル化、および、送受信が許可され、実行する。
物理ネットワークの運用中は、ステップS2〜S5の処理が繰り返され、監視部12による死活監視が継続され、現用系と予備系との交替が適宜行われる。
図5の処理によれば、ToR‐SW(1A,1B)のうち現用系に該当するほうのみがフレームのカプセル化やデカプセル化をしたり、フレームの送受信をしたりするため、仮想マシンVM1-1,1-2,2-1,2-2、および、物理マシンPhM8,9でのフレームの多重受信やループなどの不都合は発生しない。
図5の処理によれば、ToR‐SW(1A,1B)のうち現用系に該当するほうのみがフレームのカプセル化やデカプセル化をしたり、フレームの送受信をしたりするため、仮想マシンVM1-1,1-2,2-1,2-2、および、物理マシンPhM8,9でのフレームの多重受信やループなどの不都合は発生しない。
<ToR‐SW(1A,1B)の実施例>
図6〜図9を参照して、ToR‐SW(1A,1B)の動作の具体例について説明する。
図6〜図9を参照して、ToR‐SW(1A,1B)の動作の具体例について説明する。
[実施例1]
図6に示すシステムの構成は、図1に示すシステムの構成と同じである。図6には、仮想化サーバPhM2で動作する仮想マシンVM2-2から送信されるMCフレームを物理マシンPhM9が受信する様子が図示されている。仮想マシンVM2-2と物理マシンPhM9とはセグメントAに属している。よって、ToR‐SW(1A,1B)は、物理マシンPhM9を仮想マシンVM2-2に対してL2セグメントで接続する。また、仮想マシンVM2-2と物理マシンPhM9との通信は、L2NWを介した通信となる。
図6に示すシステムの構成は、図1に示すシステムの構成と同じである。図6には、仮想化サーバPhM2で動作する仮想マシンVM2-2から送信されるMCフレームを物理マシンPhM9が受信する様子が図示されている。仮想マシンVM2-2と物理マシンPhM9とはセグメントAに属している。よって、ToR‐SW(1A,1B)は、物理マシンPhM9を仮想マシンVM2-2に対してL2セグメントで接続する。また、仮想マシンVM2-2と物理マシンPhM9との通信は、L2NWを介した通信となる。
図6において、仮想マシンVM2-2から送信されるMCフレームは、L2カプセル化され、ToR‐SW(1A,1B)に対して設定されて共通の仮想MACアドレスを宛先として送信される(符号ADD1)。ToR‐SW(1A,1B)に対しては、Helloフレームによる相互死活監視が行われている(符号H)。その監視の結果、ToR‐SW(1B)が現用系となり、ToR‐SW(1A)が予備系となる。仮想マシンVM2-2からのMCフレームは、ToR‐SW(1B)が受信することになり、ToR‐SW(1A)は受信しない。
ToR‐SW(1B)は、物理NW上に、L2カプセル化されたMCフレームをL2デカプセル化して転送する。その結果、物理マシンPhM9は、L2デカプセル化されたフレームを受信する。このとき、予備系であるToR‐SW(1A)から物理マシンPhM9に対してL2デカプセル化されたフレームが送信されることはないので、物理マシンPhM9での受信は多重受信(図2参照)ではなく、通常受信となる。
ToR‐SW(1B)からのL2デカプセル化されたMCフレームは、ToR‐SW(1A)にも到達する。しかし、ToR‐SW(1A)は、予備系であるため、受信したMCフレームのL2カプセル化および転送は禁止されている。よって、ToR‐SW(1A)は、受信したMCフレームを破棄する。これにより、ToR‐SW(1A)からMCフレームが転送されることによる多重受信が発生することはなく、負荷増大という不都合を回避することができる。また、ループ(図3参照)やそれによるネットワークのメルトダウンも発生しない。
[実施例2]
図7に示すシステムの構成は、図1,図6に示すシステムの構成と同じである。図7には、物理マシンPhM9から送信されるMCフレームを仮想化サーバPhM1で動作する仮想マシンVM1-2が受信する様子が図示されている。仮想マシンVM1-2と物理マシンPhM9とはセグメントAに属している。よって、ToR‐SW(1A,1B)は、物理マシンPhM9を仮想マシンVM2-2に対してL2セグメントで接続する。また、仮想マシンVM1-2と物理マシンPhM9との通信は、L2NWを介した通信となる。
図7に示すシステムの構成は、図1,図6に示すシステムの構成と同じである。図7には、物理マシンPhM9から送信されるMCフレームを仮想化サーバPhM1で動作する仮想マシンVM1-2が受信する様子が図示されている。仮想マシンVM1-2と物理マシンPhM9とはセグメントAに属している。よって、ToR‐SW(1A,1B)は、物理マシンPhM9を仮想マシンVM2-2に対してL2セグメントで接続する。また、仮想マシンVM1-2と物理マシンPhM9との通信は、L2NWを介した通信となる。
図7において、物理マシンPhM9から送信されるMCフレームは、ToR‐SW(1A,1B)に対して設定されて共通の仮想MACアドレスを宛先として送信される(符号ADD1)。ToR‐SW(1A,1B)に対しては、Helloフレームによる相互死活監視が行われている(符号H)。その監視の結果、ToR‐SW(1B)が現用系となり、ToR‐SW(1A)が予備系となる。物理マシンPhM9からのMCフレームは、ToR‐SW(1B)が受信することになり、ToR‐SW(1A)は受信しない。
ToR‐SW(1B)は、仮想NW上に、MCフレームをL2カプセル化して転送する。その結果、ExVTEP1がL2カプセル化されたMCフレームを受信してL2デカプセル化した後、仮想マシンVM1-2は、ExVTEP1からL2デカプセル化されたフレームを受信する。このとき、予備系であるToR‐SW(1A)から仮想マシンVM1-2に対してL2デカプセル化されたフレームが送信されることはないので、仮想マシンVM1-2での受信は多重受信(図2参照)ではなく、通常受信となる。また、ExVTEP1は、物理マシンPhM9からのMCフレームを初めて受信した場合には、送信元である物理マシンPhM9のMACアドレスを学習する。
物理マシンPhM9からのMCフレームは、ToR‐SW(1A)にも向けて送信される。しかし、ToR‐SW(1A)は、予備系であるため、受信したMCフレームのL2カプセル化および転送は禁止されている。よって、ToR‐SW(1A)は、物理マシンPhM9からのMCフレームを破棄する。これにより、ToR‐SW(1A)からMCフレームが転送されることによる多重受信が発生することはなく、負荷増大という不都合を回避することができる。また、ループ(図3参照)やそれによるネットワークのメルトダウンも発生しない。
[実施例3]
図8に示すシステムの構成は、図6に示すシステムの構成に対して、物理NWと仮想NWとの間にL3NWが介在した場合に相当する。図8には、仮想化サーバPhM2で動作する仮想マシンVM2-2から送信され、L3NW上に配置されているルータr1,r2を経由するMCフレームを物理マシンPhM9が受信する様子が図示されている。仮想マシンVM2-2と物理マシンPhM9とはセグメントAに属しているが、両者の間にはL3NWが介在している。よって、ToR‐SW(1A,1B)は、物理マシンPhM9を仮想マシンVM2-2に対してL3セグメントで接続する。また、仮想マシンVM2-2と物理マシンPhM9との通信は、L3NWを介した通信となる。
図8に示すシステムの構成は、図6に示すシステムの構成に対して、物理NWと仮想NWとの間にL3NWが介在した場合に相当する。図8には、仮想化サーバPhM2で動作する仮想マシンVM2-2から送信され、L3NW上に配置されているルータr1,r2を経由するMCフレームを物理マシンPhM9が受信する様子が図示されている。仮想マシンVM2-2と物理マシンPhM9とはセグメントAに属しているが、両者の間にはL3NWが介在している。よって、ToR‐SW(1A,1B)は、物理マシンPhM9を仮想マシンVM2-2に対してL3セグメントで接続する。また、仮想マシンVM2-2と物理マシンPhM9との通信は、L3NWを介した通信となる。
図8において、仮想マシンVM2-2から送信されるMCフレームは、L3カプセル化され、ルータr1,r2を経由し、ToR‐SW(1A,1B)に対して設定されて共通の仮想IPアドレスを宛先として送信される(符号ADD2)。ToR‐SW(1A,1B)に対しては、Helloパケットによる相互死活監視が行われている(符号H)。その監視の結果、ToR‐SW(1B)が現用系となり、ToR‐SW(1A)が予備系となる。仮想マシンVM2-2からのMCフレームは、ToR‐SW(1B)が受信することになり、ToR‐SW(1A)は受信しない。
ToR‐SW(1B)は、物理NW上に、L3カプセル化されたMCフレームをL3デカプセル化して転送する。その結果、物理マシンPhM9は、L3デカプセル化されたフレームを受信する。このとき、予備系であるToR‐SW(1A)から物理マシンPhM9に対してL3デカプセル化されたフレームが送信されることはないので、物理マシンPhM9での受信は多重受信(図2参照)ではなく、通常受信となる。
ToR‐SW(1B)からのL3デカプセル化されたMCフレームは、ToR‐SW(1A)にも到達する。しかし、ToR‐SW(1A)は、予備系であるため、受信したMCフレームのL3カプセル化および転送は禁止されている。よって、ToR‐SW(1A)は、受信したMCフレームを破棄する。これにより、ToR‐SW(1A)からMCフレームが転送されることによる多重受信が発生することはなく、負荷増大という不都合を回避することができる。また、ループ(図3参照)やそれによるネットワークのメルトダウンも発生しない。
[実施例4]
図9に示すシステムの構成は、図8に示すシステムの構成と同じである。図9には、物理マシンPhM9から送信され、L3NW上に配置されているルータr1,r2を経由するMCフレームを仮想化サーバPhM1で動作する仮想マシンVM1-2が受信する様子が図示されている。仮想マシンVM1-2と物理マシンPhM9とはセグメントAに属しているが、両者の間にはL3NWが介在している。よって、ToR‐SW(1A,1B)は、物理マシンPhM9を仮想マシンVM2-2に対してL3セグメントで接続する。また、仮想マシンVM1-2と物理マシンPhM9との通信は、L3NWを介した通信となる。
図9に示すシステムの構成は、図8に示すシステムの構成と同じである。図9には、物理マシンPhM9から送信され、L3NW上に配置されているルータr1,r2を経由するMCフレームを仮想化サーバPhM1で動作する仮想マシンVM1-2が受信する様子が図示されている。仮想マシンVM1-2と物理マシンPhM9とはセグメントAに属しているが、両者の間にはL3NWが介在している。よって、ToR‐SW(1A,1B)は、物理マシンPhM9を仮想マシンVM2-2に対してL3セグメントで接続する。また、仮想マシンVM1-2と物理マシンPhM9との通信は、L3NWを介した通信となる。
図9において、物理マシンPhM9から送信されるMCフレームは、ToR‐SW(1A,1B)に対して設定されて共通の仮想IPアドレスを宛先として送信される(符号ADD2)。ToR‐SW(1A,1B)に対しては、Helloフレームによる相互死活監視が行われている(符号H)。その監視の結果、ToR‐SW(1B)が現用系となり、ToR‐SW(1A)が予備系となる。物理マシンPhM9からのMCフレームは、ToR‐SW(1B)が受信することになり、ToR‐SW(1A)は受信しない。
ToR‐SW(1B)は、ルータr1,r2を経由した仮想NW上に、MCフレームをL3カプセル化して転送する。その結果、ExVTEP1がL3カプセル化されたMCフレームを受信してL3デカプセル化した後、仮想マシンVM1-2は、ExVTEP1からL3デカプセル化されたフレームを受信する。このとき、予備系であるToR‐SW(1A)から仮想マシンVM1-2に対してL3デカプセル化されたフレームが送信されることはないので、仮想マシンVM1-2での受信は多重受信(図2参照)ではなく、通常受信となる。また、ExVTEP1は、物理マシンPhM9からのMCフレームを初めて受信した場合には、送信元である物理マシンPhM9のMACアドレスを学習する。
物理マシンPhM9からのMCフレームは、ToR‐SW(1A)にも向けて送信される。しかし、ToR‐SW(1A)は、予備系であるため、受信したMCフレームのL3カプセル化および転送は禁止されている。よって、ToR‐SW(1A)は、物理マシンPhM9からのMCフレームを破棄する。これにより、ToR‐SW(1A)からMCフレームが転送されることによる多重受信が発生することはなく、負荷増大という不都合を回避することができる。また、ループ(図3参照)やそれによるネットワークのメルトダウンも発生しない。
(まとめ)
本実施形態によれば、冗長構成をとるToR‐SW(1A,1B)のうち現用系のみがフレームのカプセル化やデカプセル化をしたり、フレームの送受信をしたりするため、仮想マシンVM1-1,1-2,2-1,2-2や物理マシンPhM8,9でのフレームの多重受信やループなどの不都合は発生しない。
したがって、マルチレイヤ仮想ネットワークと物理ネットワークとのインタワーク部分の冗長構成を実現することができる。
本実施形態によれば、冗長構成をとるToR‐SW(1A,1B)のうち現用系のみがフレームのカプセル化やデカプセル化をしたり、フレームの送受信をしたりするため、仮想マシンVM1-1,1-2,2-1,2-2や物理マシンPhM8,9でのフレームの多重受信やループなどの不都合は発生しない。
したがって、マルチレイヤ仮想ネットワークと物理ネットワークとのインタワーク部分の冗長構成を実現することができる。
≪変形例≫
本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能であり、例えば、次の(a)〜(c)のようなものがある。
(a):L3の仮想ネットワークとしてVXLANの代わりにNVGRE(Network Virtualization using Generic Routing Encapsulation)や、STT(Stateless TCP Transport)を採用することができる。
(b):L2の仮想ネットワークとしてIEEE802.1ahの代わりにEoE(Ethernet over Ethernet)や、TRILL(Transparent Interconnect of Lots of Links)を採用することができる。
(c):仮想NWと、仮想NWに参加する物理NWとを経由するフレームは、MCフレームに限らず、ユニキャストフレームでもよい。また、MCフレームとして特にブロードキャストフレームでもよい。
本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能であり、例えば、次の(a)〜(c)のようなものがある。
(a):L3の仮想ネットワークとしてVXLANの代わりにNVGRE(Network Virtualization using Generic Routing Encapsulation)や、STT(Stateless TCP Transport)を採用することができる。
(b):L2の仮想ネットワークとしてIEEE802.1ahの代わりにEoE(Ethernet over Ethernet)や、TRILL(Transparent Interconnect of Lots of Links)を採用することができる。
(c):仮想NWと、仮想NWに参加する物理NWとを経由するフレームは、MCフレームに限らず、ユニキャストフレームでもよい。また、MCフレームとして特にブロードキャストフレームでもよい。
また、本実施形態で説明した種々の技術を適宜組み合わせた技術を実現することもできる。
また、本実施形態で説明したソフトウェアをハードウェアとして実現することもでき、ハードウェアをソフトウェアとして実現することもできる。
その他、ハードウェア、ソフトウェア、処理手順などについて、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、本実施形態で説明したソフトウェアをハードウェアとして実現することもでき、ハードウェアをソフトウェアとして実現することもできる。
その他、ハードウェア、ソフトウェア、処理手順などについて、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
1A,1B ToR−SW(転送装置)
11 仮想アドレス設定部
12 監視部
13 カプセル化部
14 送受信部
11 仮想アドレス設定部
12 監視部
13 カプセル化部
14 送受信部
Claims (2)
- 仮想ネットワーク上の仮想マシンと、ネットワークの仮想化がなされない物理ネットワーク上の物理マシンとの間でやり取りされるフレームを転送する転送装置であって、
前記仮想マシンが動作する仮想化サーバの各々は、同一の物理L2セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してL2カプセル化したりL2デカプセル化したりし、異なる物理L2セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してL3カプセル化したりL3デカプセル化したりする仮想スイッチを備えており、
前記転送装置は、他の転送装置と冗長構成をとっており、
前記転送装置と前記他の転送装置との間で共通の仮想アドレスを設定する仮想アドレス設定部と、
前記転送装置および前記他の転送装置を死活監視する監視部と、
前記死活監視の結果によって、前記転送装置が現用系となる場合は、前記仮想マシンと前記物理マシンとの間でやり取りされるフレームのカプセル化およびデカプセル化をし、前記他の転送装置が現用系となる場合は、前記カプセル化も前記デカプセル化もしないカプセル化部と、
前記転送装置が現用系となる場合は、前記カプセル化および前記デカプセル化されたフレームの送受信をし、前記他の転送装置が現用系となる場合は、前記送受信をしない送受信部と、を備える、
ことを特徴とする転送装置。 - 仮想ネットワーク上の仮想マシンと、ネットワークの仮想化がなされない物理ネットワーク上の物理マシンとの間でやり取りされるフレームを転送する転送装置における転送方法であって、
前記仮想マシンが動作する仮想化サーバの各々は、同一の物理L2セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してL2カプセル化したりL2デカプセル化したりし、異なる物理L2セグメントに属する仮想化サーバの各々で動作する仮想マシン同士でやり取りされるフレームに対してL3カプセル化したりL3デカプセル化したりする仮想スイッチを備えており、
前記転送装置は、他の転送装置と冗長構成をとっており、
前記転送装置が、
前記転送装置と前記他の転送装置との間で共通の仮想アドレスを設定する仮想アドレス設定ステップと、
前記転送装置および前記他の転送装置を死活監視する監視ステップと、
前記死活監視の結果によって、前記転送装置が現用系となる場合は、前記仮想マシンと前記物理マシンとの間でやり取りされるフレームのカプセル化およびデカプセル化をし、前記他の転送装置が現用系となる場合は、前記カプセル化も前記デカプセル化もしないカプセル化ステップと、
前記転送装置が現用系となる場合は、前記カプセル化および前記デカプセル化されたフレームの送受信をし、前記他の転送装置が現用系となる場合は、前記送受信をしない送受信ステップと、を実行する、
ことを特徴とする転送方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017075470A JP2018182418A (ja) | 2017-04-05 | 2017-04-05 | 転送装置および転送方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017075470A JP2018182418A (ja) | 2017-04-05 | 2017-04-05 | 転送装置および転送方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018182418A true JP2018182418A (ja) | 2018-11-15 |
Family
ID=64277212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017075470A Pending JP2018182418A (ja) | 2017-04-05 | 2017-04-05 | 転送装置および転送方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018182418A (ja) |
-
2017
- 2017-04-05 JP JP2017075470A patent/JP2018182418A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5477603B2 (ja) | コンピュータシステム、及びコンピュータシステムにおける通信方法 | |
EP3304815B1 (en) | Operations, administration and management (oam) in overlay data center environments | |
US10333836B2 (en) | Convergence for EVPN multi-homed networks | |
EP2874359B1 (en) | Extended ethernet fabric switches | |
EP3041179B1 (en) | A method and apparatus for use in network management | |
EP3240250B1 (en) | Virtual router terminating an overlay tunnel in a storage area network | |
EP2940952B1 (en) | Method and system for facilitating switch virtualization in a network of interconnected switches | |
US8565230B2 (en) | Shared virtual tunnels supporting Mac learning in communication networks | |
JP6189942B2 (ja) | 個別管理方式を使用する仮想転送インスタンスの遠端アドレスへのvlanタグ付きパケットのルーティング | |
JP2019500809A (ja) | パケット処理方法、関連装置、およびnvo3ネットワークシステム | |
WO2014145750A1 (en) | Scalable gateways for a fabric switch | |
JP2016511978A (ja) | ネットワーク仮想化のデータ伝送のための方法、デバイス、及びルーティングシステム | |
US20220174026A1 (en) | Efficient convergence in network events | |
WO2021093463A1 (zh) | 报文转发的方法、第一网络设备以及第一设备组 | |
EP2670088B1 (en) | Trill network interconnection method and system | |
George et al. | A Brief Overview of VXLAN EVPN | |
US20220247598A1 (en) | Packet Detection Method, Connectivity Negotiation Relationship Establishment Method, and Related Device | |
WO2019056239A1 (zh) | 报文同步方法和装置 | |
JP2018182418A (ja) | 転送装置および転送方法 | |
CN113285878A (zh) | 负载分担的方法、第一网络设备 | |
JP2024500451A (ja) | 負荷共有方法、ルート・ノード・デバイス、リーフ・ノード・デバイスおよびシステム | |
Hou et al. | Using tunneling techniques to realize virtual routers | |
JP2017200099A (ja) | 仮想化システムおよび転送方法 | |
JP2005340942A (ja) | 通信ネットワークシステム、システム管理装置および情報転送装置 |