JP2017153052A - 光スイッチネットワーク - Google Patents

光スイッチネットワーク Download PDF

Info

Publication number
JP2017153052A
JP2017153052A JP2016036462A JP2016036462A JP2017153052A JP 2017153052 A JP2017153052 A JP 2017153052A JP 2016036462 A JP2016036462 A JP 2016036462A JP 2016036462 A JP2016036462 A JP 2016036462A JP 2017153052 A JP2017153052 A JP 2017153052A
Authority
JP
Japan
Prior art keywords
switch
optical
rack
connect
switches
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016036462A
Other languages
English (en)
Inventor
恵一 梨本
Keiichi Nashimoto
恵一 梨本
義徳 小原
Yoshinori Obara
義徳 小原
郁男 佐藤
Ikuo Sato
郁男 佐藤
山中 直明
Naoaki Yamanaka
直明 山中
岡本 聡
Satoshi Okamoto
岡本  聡
将行 廣野
Masayuki Hirono
将行 廣野
薫弘 今給黎
Yukihiro Imakiire
薫弘 今給黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
O EE KENKYUSHO KK
Keio University
EpiPhotonics Corp
Original Assignee
O EE KENKYUSHO KK
Keio University
EpiPhotonics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by O EE KENKYUSHO KK, Keio University, EpiPhotonics Corp filed Critical O EE KENKYUSHO KK
Priority to JP2016036462A priority Critical patent/JP2017153052A/ja
Publication of JP2017153052A publication Critical patent/JP2017153052A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

【課題】 データセンタ等のネットワークで、ラック間を高効率、かつダイナミックに接続することのできる光スイッチネットワークを提供する【解決手段】 複数のサーバーを格納するラック間をつなぐ光スイッチネットワークは、ラックごとに前記複数のサーバーを集約する集約スイッチと、前記ラック間で送受信されるデータの方路を設定する2以上の光クロスコネクトスイッチと、前記集約スイッチと前記光クロスコネクトスイッチの間に配置され、前記光クロスコネクトスイッチの方路設定動作よりも高速に動作して前記光クロスコネクトスイッチのいずれかを選択する一対の光スイッチと、を有する。【選択図】図2

Description

本発明は、データセンタ内のネットワークに適用される光スイッチネットワークに関する。
近年、サーバーやストレージがデータセンタに集約されている。サーバー、ストレージ等はラック内に収容されている。データセンタのラック内で、サーバーやストレージを束ねる集約スイッチが用いられている。ラックごとにサーバー等を集約するスイッチは、通常はラック内の最上位に配置されることから、ToR(Top of Rack:トップ・オブ・ラック)スイッチと呼ばれている。
データセンタへのトラヒックは年ごとに増加している。また、サーバーの高性能化と小型化によりラック当たりのデータ処理量が増大し、ラック間のトラヒックも急増している。ToRスイッチ間は、従来は電気配線ケーブルと電気スイッチによって接続されているのが一般的であった。最近では、大量に発生するトラヒックに対処するために、電気スイッチと光スイッチを混在させたハイブリッド型のスイッチアーキテクチャが提案されている(たとえば、非特許文献1参照)。
図1は、電気スイッチ30と光回路スイッチ110を用いたハイブリッド型のアーキテクチャの概略図である。データセンタ等のネットワークにおいて、ラック20−1〜20−n(以下、適宜「ラック20」と総称する)内に、それぞれ複数のサーバー22a〜22kが収容されている。ラック20内の最上段には、ToRスイッチ21が実装されている。ToRスイッチ21間は、イーサネット(Ethernet;登録商標)スイッチ等の電気スイッチ30によって接続されている。ネットワークのスループットが上がると、電気スイッチ30でのエネルギー消費が大きくなる。
ラック20間の大量のデータ伝送に対処するため、ToRスイッチ21間に光ファイバ101を敷設して、光ファイバ101間を半固定的なMEMS(Micro Electro Mechanical System)の光回路スイッチ110で接続する。光回路スイッチ110の使用により、電気スイッチ30を通るデータフローの一部を光パスにオフロードして、トラヒックの集中を軽減する。光回路スイッチ110の消費電力は、電気スイッチ30と比較して1/500以下(消費電力低減効果は500倍以上)であることが知られており(たとえば、非特許文献2参照)、光パスに巨大なデータフローを収容することで、省エネルギー化を図っている。
Nathan Farrington, et al., "Helios: A Hybrid Electrical/Optical Switch Architecture for Modular Data Centers", ACM SIGCOMM, 3, August, 2010 Naoki Yamanaka, et al., "Creating Future Energy Efficient Network Services through Optical Technologies", 2013 International Symposium on Computing and Networking-Access Practical Development and Theoretical Research (CANDAR 2013)
MEMSは、一般的に比較的大規模に実現できるが、データセンタの規模が大きくなると、光回路スイッチ110を用いてすべてのラック20間に光パスを作ることは現実的ではない。また、MEMSの光回路スイッチ110のスイッチング速度は数百ミリ秒(ms)程度と低速であり、トラヒック状況に追従して高速に光パスを切り替えることができない。
これらの問題は、トラヒックが特定のラック20間に片寄っている場合は顕在化しにくい。しかし、データセンタのネットワークの場合、データのコピー、ミラーリング、ライブマイグレーションといった大規模なデータの移動が任意のラック20間で発生する。また、仮想サーバー(仮想マシン)のダイナミックな移動が頻発している。大規模なデータフローが発生すると光パスが利用されるが、低速の光回路スイッチ110を切り替える間にマイグレーションが停止し、十分に光ネットワークの性能を利用することができない。
そこで、本発明はデータセンタ等のネットワークで、ラック間を高効率、かつダイナミックに接続することのできる光スイッチネットワークを提供することを課題とする。
上記の課題を解決するために、実施形態では、MEMSのような低速の光スイッチと、小規模で超高速の光スイッチを組み合わせて、ダイナミックにToRスイッチ間を接続する。特に、低速の光スイッチによる光クロスコネクトのプレーンを2面以上用意し、光クロスコネクトスイッチ間を、高速の光スイッチで切り換えることで、光パスの利用効率を向上する。
具体的には、本発明の一態様において、複数のサーバーが格納されたラック間をつなぐ光スイッチネットワークは、
ラックごとに前記複数のサーバーを集約する集約スイッチと、
前記ラック間で送受信されるデータの方路を設定する2以上の光クロスコネクトスイッチと、
前記集約スイッチと前記光クロスコネクトスイッチの間に配置され、前記光クロスコネクトスイッチの方路設定動作よりも高速に動作して前記光クロスコネクトスイッチのいずれかを選択する一対の光スイッチと、
を有する。
上記の構成により、データセンタ等のネットワークで、ラック間を高効率、かつダイナミックに光接続することができる。
その結果、電気パスのトラヒックを軽減して、ネットワーク全体での消費電力を低減することができる。
従来の電気/光スイッチ混在型のスイッチアーキテクチャの概略図である。 第1実施形態の光スイッチネットワークの概略図である。 図2の光スイッチネットワークの変形例である。 ToRスイッチの構成例を示す図である。 MEMS面の切り替え動作の一例を示す図である。 第1実施形態の切り替え動作による効果を示す図である。 第2実施形態のMEMS面の切り替え動作を示す図である。 第2実施形態のToRスイッチの構成例を示す図である。 ToRスイッチの出力変更タイミングの一例を示す図である。 第3実施形態の光スイッチネットワークの概略図である。 スケジューラコントローラによるToRスイッチモニタ結果の一例を示す図である。 第4実施形態の光スイッチネットワークの概略図である。 トラヒックモニタで用いられるフロー選択カウンタの一例である。
以下で、図面を参照して本発明の実施の形態を説明する。
<第1実施形態>
(1)光スイッチネットワーク構成
図2は、第1実施形態の光スイッチネットワーク1Aの概略図である。光スイッチネットワーク1Aは、データセンタ等のネットワーク100に適用される。ネットワーク100は、ラック20−1〜20−nと、Ethernet(登録商標)スイッチ等の電気スイッチ30と、光スイッチネットワーク1を含む。光スイッチネットワーク1Aは、ラック20−1〜20−n内の最上段に実装されるToRスイッチ21と、複数の光クロスコネクトスイッチ10−1,20−2と、光クロスコネクトスイッチ10−1と20−2の間を高速に切り換える光スイッチ40を有する。
各ラック20には、サーバー22a〜22k(以下、適宜「サーバー22」と総称する)が収容されている。ラック内20のサーバー22の変更、更新の頻度は比較的高く、サーバー22間は一般的な電気ケーブル配線で接続されていてもよい。あるいは、光インターコネクト技術が適用される場合は、光コネクタ付きの光配線でサーバー22間を接続してもよい。ラック20内のサーバー22a〜22kは、ToRスイッチ21によって集約されている。
ToRスイッチ21と電気スイッチ30の間は、電気ケーブル3で接続されている。既存のデータセンタでは、ToRスイッチ21間をレイヤ2(データリンク層)の電気スイッチ、あるいはIP/Ethernetスイッチ等のレイヤ3(ネットワーク層)の電気スイッチで接続しているところが多い。また、ラック20の配置変更に柔軟に対処できることや、コスト効率の観点から、電気スイッチ30と電気ケーブル3を基本とするネットワーク構成への需要は未だに高い。図2では図示の便宜上、単一の電気スイッチ30が描かれているが通常は複数の電気スイッチ30が用いられる。
ToRスイッチ21は光スイッチネットワーク1Aにも接続され、光ファイバ4と光スイッチ40により、光クロスコネクトスイッチ10−1及び10−2に接続されている。データセンタでは、エレファントフローと呼ばれる継続的な巨大フローがある。ToRスイッチ21を光スイッチネットワーク1A側に切り替えて、エレファントフローを光パスに収容することで省電力化を図っている。
第1実施形態の特徴として、光スイッチネットワーク1Aにおいて、複数の光クロスコネクトスイッチ10−1及び10−2の間を、小型で高速の光スイッチ40で切り換えて光クロスコネクトを複数面で用いている。
光クロスコネクトスイッチ10−1、10−2は、たとえば、MEMSチルトミラーの二次元アレイとマイクロレンズアレイを組み合わせた3次元(3D)MEMSスイッチである。光クロスコネクトスイッチ10−1、10−2の各々が、N個の方路からの入力をN個の方路への出力に接続するN×Nスイッチである。
光クロスコネクトスイッチ10−2は、新たに光クロスコネクトスイッチ10−2専用の光ファイバを追加して各ToRスイッチ21に接続されるものではないことに留意されたい。光クロスコネクトスイッチ10−1と10−2は時分割方式で切り換えられ、光クロスコネクトスイッチ10−1または10−2のいずれかが、ToRスイッチ21群に接続される。この意味で、光クロスコネクトスイッチ10−1と20−2を「2面」のスイッチと称してもよい。たとえば、光クロスコネクトスイッチ10−1を第1面の「MEMS#0」、光クロスコネクトスイッチ10−2を第2面の「MEMS#1」とする。2面の光クロスコネクトスイッチ10−1と20−2で、光クロスコネクトプレーン105を形成する。
光クロスコネクトスイッチ10−1と10−2の間は、高速の光スイッチ40により切り替えられる。より具体的には、ToRスイッチ21から光クロスコネクトプレーン105への上りリンクで、光クロスコネクトスイッチ10−1と10−2のいずれかを選択する1×2の高速の光スイッチ40ULが用いられる。下りリンクでは、光クロスコネクトスイッチ10−1と10−2のいずれかをToRスイッチ21群に接続する2×1の光スイッチ40DLが用いられる。一対の高速の光スイッチ40UPと40DLを、適宜「光スイッチ40」と総称する。光クロスコネクトスイッチ10−1と10−2の間を切り替える光スイッチ40UPと40DLの動作は、同期して行われる。
高速の光スイッチ40UPと40DLは、たとえばPLZT光スイッチである。PLZT((Pb,La)(Zr,Ti)O3;ランタンドープジルコン酸チタン酸鉛)は、ナノ秒のオーダーで応答する電気光学効果を有する。第1実施形態の光スイッチ40の動作速度は、10ns未満である。
低速の光クロスコネクトスイッチ10−1と10−2の間を、高速の光スイッチ40で切り換えることで、異なる宛先ラックへのデータ伝送を見かけ上パラレルで行い、光パスの利用効率を向上する。
各光ファイバ4は、一方の端部でToRスイッチ21と接続され、他方の端部で光スイッチ40(より正確には、一対の高速の光スイッチ40ULと40DL)に接続されている。光ファイバ4が多心の光ファイバケーブルの場合は、上りリンクと下りリンクで異なる光ファイバを用いてもよいし、一心の光ファイバ4を上りと下りで時分割に使い分けてもよい。
光クロスコネクトスイッチ10の数は2つに限定されず、M個(Mは2以上の整数)の光クロスコネクトスイッチ10−1〜10−Mで、M面の光クロスコネクトプレーン105を形成してもよい。M面の光クロスコネクトスイッチ10−1〜10−Mの間を、小型で高速の光スイッチ40を用いて切り替える。この場合、1×Mの高速の光スイッチ40ULと、M×1の高速の光スイッチ40DLを用いて、光クロスコネクトスイッチ10−1〜10−Mのいずれかを選択する。
光クロスコネクトスイッチ10−1〜10Mの間を高速に切り替える光スイッチ40の数は、一組の光スイッチ40UPと40DLに限定されない。この例を図3に示す。
図3は、図2の光スイッチネットワーク1Aの変形例として、光スイッチネットワーク1Bを示す。光スイッチネットワーク1Bは、光クロスコネクトスイッチ10−1及び10−2を有し、光クロスコネクトスイッチ10−1と10−2の間を、小型で高速の光スイッチ40−1〜40−mで切り換えている(mは2以上の整数)。
光スイッチ40−1〜40−mの各々は、それぞれ1×2の高速の光スイッチ40UPと2×1の高速の光スイッチ40DLの組である。光スイッチ40UP及び40DLとして、PLZT光スイッチを用いることができる。
1組以上の高速の光スイッチ40−1〜40−mを用いて、光クロスコネクトスイッチ10−1と10−2の間を切り替える。たとえば、エレファントトラヒックの発生傾向等に応じて、n個のToRスイッチ21をグループ分けし、各グループに1組の高速の光スイッチ40ULと40DLを配置してもよい。
ラック20−1〜20−iに収容されるサーバー22間で1または複数のエレファントトラヒックが発生しやすく、ラック20−(i+1)〜20−nに収容されるサーバー22間で別のエレファントトラヒックが発生しやすい場合を考える。ラック20−1〜20−nを2つのグループに分けて、それぞれのグループに、高速の光スイッチ40UPと40DLを設ける。これにより、エレファントトラヒックが発生した場合の光パスへのカットスル―を効率的に行うことができる。なお、通常のデータトラヒックは電気スイッチ30を介して送受信されている。
(2)ToRスイッチ構成
図4は、ToRスイッチ21の概略構成図である。ToRスイッチ21は、電気インタフェース211、光インタフェース212、振り分け部213、制御部215、トラヒックモニタ216、物理バッファ217、及び入力インタフェース218を有する。
トラヒックモニタ216は、入力インタフェース218を介して各サーバー22から入力されネットワーク100に出力されるトラヒックを監視する。トラヒックモニタ216はたとえば宛先ラック別の仮想キューを有し、リーキーバケットアルゴリズム等を用いて宛先ラック別にトラヒック量を監視する。モニタ結果は制御部215に供給される。
制御部215は、モニタ結果に基づいて発生したトラヒックを電気インタフェース211と光インタフェース212のいずれかに振り分ける。通常のトラヒック量を有するデータは、振り分け部213により電気インタフェース211に出力され、電気スイッチ30を介してネットワーク100内の他のラック20に転送される。トラヒックの多い宛先のラック20については、データは振り分け部213により光インタフェース212に出力され、光回線を用いて宛先ラックに送信される。
制御部215は、光インタフェース212を選択する場合は、パケット(レイヤ2通信の場合はフレーム)の宛先アドレスとトラヒックの発生・継続状態に応じて、宛先ラック情報とMEMS面の指定情報を含む方路変更信号を、光スイッチ40ULと40DLに同期して出力してもよい。
振り分け部213と光インタフェース212の間に物理バッファ217が配置されている。物理バッファ217は、後述するように、N×Nの光クロスコネクトスイッチ10−1、10−2における方路変更の動作(MEMS内の動作)と連動して、光パスへ送出するデータを一時的に保存する。
この構成により、複数の光クロスコネクトスイッチ10−1,10−2間を高速の光スイッチ40を用いて切り替える光スイッチネットワーク1Aまたは1Bに適したToRスイッチ21が提供される。
(3)光クロスコネクトスイッチの切り替え動作
以下で、第1実施形態の光クロスコネクトスイッチ10−1、10−2間の切り替え動作を説明する。第1実施形態では、光クロスコネクトスイッチ10−1と10−2の間の切り替えは、一定周期で定期的に行われる。
図5は、光クロスコネクトスイッチ10−1と10−2の間の切り替え動作の一例である。横軸は時間(t)、縦軸は、時分割で用いられる光クロスコネクトスイッチ10−1(MEMS#0)と光クロスコネクトスイッチ10−2(MEMS#1)である。
光クロスコネクトスイッチ10−1(MEMS#0)と、光クロスコネクトスイッチ10−2(MEMS#1)は、t秒間隔で周期的に切り替えられる。換言すると、光スイッチ40の切り替え動作は、あらかじめ一定周期に設定されている。各ToRスイッチ21は、切り替え周期tを知っている。
t秒という時間間隔は、光クロスコネクトスイッチ10−1,10−2を構成するN×NのMEMSスイッチで方路変更に要する時間(たとえば100ミリ秒)よりも長い。MEMS#0とMEMS#1の間の選択自体は、高速の光スイッチ40によって10ナノ秒のオーダーで切り替えられるが、各MEMSでの方路変更にかかる時間は、それよりもはるかに長い。一例として、光クロスコネクトスイッチ10−1と10−2の切り替え周期tを、0.5秒〜60秒の間で設定する。
ラック20−1(ラック#1)のToRスイッチ21で、ラック#1からラック#4への大量のトラヒックがモニタされたとする。制御部215は、このトラヒックを光インタフェース212に送り、MEMS#0(光クロスコネクトスイッチ10−1)にセットアップする。このとき、MEMS#1(光クロスコネクトスイッチ10−2)でもラック#1の入力ポートが、ラック#4への出力ポートに設定されていれば、高速の光スイッチ40の周期的な切り替え動作に関わらず、ラック#1からラック#4宛てのトラヒックは、見かけ上連続してラック#4に送られる。
これに対し、ラック#1からラック#4への大量のトラヒックの発生とともに、ラック#1(の別のサーバー22)からラック#6への大量のトラヒックの発生がモニタされたとする。制御部215は、ラック#1からラック#4へのトラヒックをMEMS#0にセットアップするとともに、ラック#1からラック#6へのトラヒックをMEMS#1にセットアップする。また、それぞれの宛先ラック情報とMEMS面の指定を示す制御信号を、自装置の識別情報とともに高速の光スイッチ40へ出力する。
光スイッチ40UPは、MEMS面の切り替えのタイミングt1で、ラック#1からラック#6へのトラヒックを通知する制御信号をMEMS#1に通した後に、光クロスコネクト面をMEMS#0に切り替えて、ラック#1からラック#4へのトラヒックをMEMS#0に接続する。その後のt秒間は、MEMS#0が使用されてデータがラック#4に送られる。
MEMS#0が運用されている間は、MEMS#1はスタンバイ中である。スタンバイ中にMEMS#1で方路の変更(または書き換え)が行われる。MEMSは機械的な構成で光パスを切り替えるため、その切り替え動作にたとえば100ミリ秒かかる。MEMS#0で光伝送が行われている裏面で、MEMS#1で次の動作タイミングのための方路の切り替え準備を行なう。この間、ラック#6宛てのデータは、ToRスイッチ21の物理バッファ217に一時的に保存される。
時間t2で、光クロスコネクト面はMEMS#0からMEMS#1に切り替わる。t2の時点では、MEMS#1で指定された方路(ラック#1からラック#6)への設定動作が完了している。ラック#1のToRスイッチ21の物理バッファ217からラック#6宛てのデータが出力される。データは、光インタフェース212を介して、光スイッチ40UL、MEMS#1、光スイッチ40DLを含む光回線で、宛先のラック#6に転送される。
MEMS#1の運用中に、MEMS#0での方路に変更がない場合は、MEMS#0の状態は維持される。次の面切り替えのタイミングt3でMEMS#0が運用中となり、ラック#1からラック#4へのデータ転送が行われる。
この例では、時間t2でMEMS#0の方路に変更がない場合を示しているが、ラック#1からラック#7への大量のデータが発生した場合は、ToRスイッチ21の制御部215から光スイッチ40に、宛先ラック情報とMEMS#0の指定情報が通知される。この場合、時間t2からt3までのMEMS#1の運用中に、スタンバイ状態のMEMS#0でラック#7への方路の変更が行われる。
各ラック20でのデータの発生状態に応じて、低速の光クロスコネクトスイッチ10−1,10−2を使い分けることで、光クロスコネクトスイッチが未使用となる時間を極力低減して、光回線を有効利用することができる。
図6は、第1実施形態の光スイッチネットワーク1Aの省エネルギー効果を、従来のMEMS型のカットスル―構成(図1)と比較して示す図である。図6の縦軸は正規化された省エネルギー効果の概算値を示し、横軸は、データ量を示す。正規化において、100%電気スイッチを使用するときのエネルギー量を「1」とし、電気スイッチの使用割合が低いほど、省エネルギー効果が高いものとする。
従来のMEMS型のカットスル―構成では、MEMSでの方路切り替えに時間がかかるため、光クロスコネクトスイッチ10へのカットスル―を利用する場合であっても、省エネルギー効果の発現が緩やかである。
これに対し、第1実施形態の構成では、2面以上のMEMSスイッチを高速の光スイッチ40で切り替え、一方のMEMSスイッチ(MEMS#0)の運用中に、他方のMEMSスイッチ(MEMS#1)で、次の光伝送タイミングのための方路設定を行う。次の光伝送タイミングでは、高速の光スイッチ40で瞬時にMEMSの面が切り替えられる。光パスが高効率で最大限に活用され、図6の実線で示すように、データ発生後、短時間で光パス利用の効果が現れる。
たとえば、図5のように、MEMS#0でのラック#1からラック#4へのデータ転送と、MEMS#1でのラック#1からラック#6へのデータ転送を交互に行うことで、2つのラックに対するカットスル―が見かけ上パラレルに行われる。また、必ずしも特定のラックへの交互転送に限定されず、データ発生状態に応じて、一方のMEMSスイッチの運用中に、他方のMEMSスイッチでさらに別のラックへの方路設定が可能である。これにより、光パスを利用して多くのラックに対するカットスル―が適応的に行われる。
<第2実施形態>
図7は、第2実施形態のMEMSスイッチの切り替え動作を示す図である。第1実施形態では、高速の光スイッチ40を用いて、MEMS#0とMEMS#1を一定周期で定期的に切り換えていた。
第2実施形態では、ToRスイッチ21からの切り替え制御信号により、光スイッチ40の切り替えタイミングを制御する。
図7で、MEMS#0を用いてラック#1からラック#4へのデータ転送が行われている間、MEMS#1では、ラック#1からラック#6への方路変更動作が行われている。
時間t1で、ToRスイッチ21の制御部215から高速の光スイッチ40に切り替え制御信号が出力される。光スイッチ40は、光クロスコネクト面をMEMS#0からMEMS#1に切り替える。第1実施形態と同様に、上りリンク用の光スイッチ40UL(図2参照)と、下りリンク用の光スイッチ40DL(図2参照)が同期して、光クロスコネクト面の切り替え動作を行う。t1の時点で、MEMS#1では方路変更の動作が完了している。光スイッチ40の切り替えのタイミングと同期して、ラック#1のToRスイッチ21からのデータ出力も、ラック#6宛てのデータに切り替えられる。
MEMS#1の運用中は、MEMS#0で次の方路への変更の準備が行われる。時間t1での切り替え制御信号には、スタンバイ状態になるMEMS#0の方路の変更(書き換え)情報が含まれ、MEMSの切り替えのタイミングで、MEMS#0で宛先ラック#7への方路の変更が開始される。
時間t2で、ToRスイッチ21から次の切り替え制御信号が供給される。ToRスイッチ21からの切り替え制御信号の出力のタイミングは、対応するラックでのデータ発生状態に依存して可変である。ただし、MEMSスイッチでの方路変更に要する時間(たとえば100ミリ秒)よりも長い時間間隔で、次の切り替え制御信号が出力される。
時間t2で、光クロスコネクト面はMEMS#1からMEMS#0に切り替えられる。この時点で、MEMS#0の方路の変更は完了しており、ラック#1の入力ポートはラック#7への出力ポートに接続されている。ToRスイッチ21の出力も、ラック#7宛てのデータに切り替えられ、MEMS#0を用いたラック#7へのデータ転送が行われる。
MEMS#0の運用中は、MEMS#1が再度、スタンバイ状態となる。時間t2での切り替え制御信号に、スタンバイ状態になるMEMS#1の方路の変更(書き換え)情報が含まれ、MEMSの切り替えのタイミングで、MEMS#1で宛先ラック#4への方路の変更が開始される。
このように、第2実施形態では、光クロスコネクトスイッチ10−1と10−2の間の切り替えタイミングがToRスイッチ21によって制御される。これにより、よりダイナミックで適応的な光パスの活用が実現する。
図8は、第2実施形態のToRスイッチ21の構成を示す。ToRスイッチ21の構成自体は、図4のToRスイッチ21と同じであり、同じ構成要素は同じ符号で示されている。第2実施形態では、制御部215は、光インタフェース212を介して、光スイッチ40の切り替えタイミングを制御する切り替え制御信号を出力する。切り替え制御信号には、スタンバイ中のMEMS面での方路の変更を指定する方路変更情報が含まれている。
切り替え制御信号の出力に応じて、制御部215は、物理バッファ217から光パスに出力されるデータを切り替える。これにより、光クロスコネクト面の切り替えと同期して光パスにカットスルーされるデータパケットが光インタフェース212から出力される。
なお、通常のトラヒック量のデータは、電気インタフェース211から電気スイッチ30により宛先ラックへと転送される。
図9は、ToRスイッチ21での出力変更のタイミングを示す。この出力変更のタイミングは、MEMS面を切り替える高速の光スイッチ40の切り替えタイミングと同期している。図7と関連して、たとえば時間t1で光クロスコネクト面がMEMS#1に切り替わるタイミングで、ラック#6宛てのデータが出力される。
時間t2で光クロスコネクト面がMEMS#0に切り替わるタイミングで、ラック#7へのデータが出力される。以下同様に、たとえば時間t3でラック#4宛てのデータが出力され、時間t4でラック#6宛てのデータが出力される。時間t2〜t3の間は、スタンバイ状態のMEMS#1で方路の変更が行われている。時間t3〜t4の間は、スタンバイ状態のMEMS#0で方路の変更が行われている。
光クロスコネクト面の切り替えタイミングはデータ量に応じて可変であり、たとえばt1に至る前のラック#4への出力時間は5秒、t1〜t2にかけての時間は2秒、t2〜t3までの時間は6秒などである。
この方式により、光クロスコネクトスイッチ10−1及び10−2が未使用となる時間を極力低減して、光回線の活用効率を向上することができる。
<第3実施形態>
図10は、第3実施形態の光スイッチネットワーク1Cの概略図である。光スイッチネットワーク1Cは、スケジュールコントローラ50を有する。スケジュールコントローラは、光スイッチネットワーク1Cに含まれるすべてのToRスイッチ21と、高速切り替え用の光スイッチ40−1〜40−mと、光クロスコネクトスイッチ10−1及び10−2を制御する。
光クロスコネクトスイッチ10-1及び10−2と、高速の光スイッチ40−1〜40−mで光スイッチ45を形成する。第1実施形態と同様に、光クロスコネクトスイッチ10の数は2つに限定されない。高速の光スイッチ40の各々は、上りリンク用の切り替えスイッチ40ULと下りリンク用の切り替えスイッチ40DLの組を含み、少なくとも1組の光スイッチ40が用いられる。各ラック20−1〜20−nの構成は、図2及び図3と同様である。
スケジュールコントローラ50は、各ToRスイッチ21でのエレファントフローの発生状態をモニタする。
図11は、スケジュールコントローラ50でのモニタ結果の一例を示す。縦列の左側の列が、入力ポート側のToRスイッチが配置されるラック番号である。横列の上段が出力ポート側のToRスイッチが配置されるラック番号である。スケジュールコントローラ50は、エレファントトラヒックのサイズが大きい順にN×Nの光クロスコネクトスイッチ10の入力ポートと出力ポートの接続を設定する。
図11の例では、第1面のMEMS#0のために、ラック#1→ラック#2、ラック#2→ラック#1、…、ラックN→ラック#3のトラヒックが、光クロスコネクトスイッチ10−1で設定される。
第2面のMEMS#1での方路設定準備のために、ラック#3→ラック#1、…、ラック#1→ラック#Nへのトラフックが光クロスコネクトスイッチ10−2で設定される。
スケジュールコントローラ50は、最も効率的なマッチングを選択する。入力ポートと出力ポートの接続の組み合わせを最適にすることで、光スイッチネットワーク1Cのトータルのスループットが最大になる。
第3実施形態の光スイッチネットワーク1Cでは、スケジュールコントローラ50が高速切り替え用の光スイッチ40の切り替えタイミングと、光クロスコネクトスイッチ10−1,10−2の入出力ポート間の接続設定と、各ToRスイッチ21の出力とを制御する。これによりネットワークスループットが最大化される。
<第4実施形態>
図12は、第4実施形態の光スイッチネットワーク1Dの概略図である。第4実施形態では、光クロスコネクトスイッチ10−1及び10−2と、高速の光スイッチ40の切り替え制御をスイッチスケジューラ51で行う。図12では、光クロスコネクトスイッチ10−1及び20−2と光スイッチ40を合わせて、「光スイッチ45」と表記している。
また、タスクスケジューラ52により、各ラック20−1〜20−nのサーバー22a〜22kへのタスクの分配を制御する。タスクスケジューラ52として、たとえば「Hadoop(登録商標)」などの分散制御機能を実装したコントローラまたはプロセッサを用いることができる。
スイッチスケジューラ51による光スイッチ45のコンフィギュレーションと、タスクスケジューラ52を連携させることで、光スイッチ45の切り替えを減らし、かつ性能の良いデータ処理を行う。
たとえば、タスクスケジューラ52により、データの送受信の多い仮想マシン(サーバー)のあるラック20を分析し、スイッチスケジューラ51で光スイッチ45を制御してそのラックへのデータまたはそのラックからのデータを光回線にカットスル―する。
別の例として、スイッチスケジューラ51により、運用中のMEMS#0(または光クロスコネクトスイッチ10−1)で、ラック#1→ラック#8への接続が設定されているとする。この場合、タスクスケジューラ52は、ラック#1にある仮想マシンからのマイグレーションやデータの移動先を、ラック#8内にある仮想マシン8の中から選択するようにリソース管理を行ってもよい。MEMS#0の設定状態を利用して、ラック#1の仮想マシンからのデータは、光回線によるカットスルーパスでラック#8内の仮想マシンに送られる。
このように、スイッチスケジューラ51とタスクスケジューラ52の強調により、光パスに接続されているラックに積極的にタスクを送る。これにより、光スイッチの切り替えを減らしつつ、性能の良いデータ処理を行うことができる。
<変形例>
図13は、ToRスイッチ21のトラヒックモニタ216に適用可能なフロー選択カウンタ220の一例を示す。このフロー選択カウンタ220は、第1〜第4実施形態を通して、適用可能である。
フロー選択カウンタ220は、宛先ラックごとに発生したパケット(レイヤ2の場合はフレーム)を順次格納する第1のキュー221と、光パスへ転送すべき宛先ラックのパケット(またはフレーム)を格納する第2のキュー222を有する。第1のキュー221は宛先ラックごとのデータ(パケットまたはフレーム)の発生回数をカウントするカウンタCTRを含む。
あるラック20内で他のラック宛てのデータが発生すると、発生した順番に第1のキュー221に書き込まれる。上から順に新しいデータが書き込まれ、古いデータは下側へシフトする。途中で同じ宛先(たとえばラック#4)が発生すると、下側へシフトされていたデータは再度先頭に入れられる。
カウンタCTRは、単位時間内に第1のキュー221の先頭に来た宛先ラックを計数する。先頭に来た回数が所定の回数以上(たとえば10回以上)になると、第2のキュー222に移動される。
第2のキュー222も、新しいデータが上から順番に書き込まれ、最も古くなったデータ(最下段のデータ)から削除される。しかし、第2のキュー222に書き込まれるのは所定回数以上発生したデータだけであり、第2のキュー222の変動は第1のキュー222の変動に比較して、穏やかである。第2のキュー222に書き込まれたデータの出力先は光インタフェース212に設定される。これにより、高い頻度で発生する大容量のデータが光パスへカットスル―される。第2のキュー222への書き込みの頻度は小さく、光パスへ出力されるべきデータが待ち行例の最下段から削除されることを防止できる。
別の変形例として、第1実施形態での光クロスコネクト面(たとえばMEMS#0とMEMS#1)の周期的な切り替えを、時間帯や曜日に応じて変更してもよい。トラヒックの種別は人間の生活に密着しており、ある程度パターン化することができる。
たとえば、夕方から深夜帯では、映像コンテンツを扱うWebサーバーにトラフィックが集中し、通勤時はSNS(Social Network Service)などのゲームコンテンツサーバーにトラヒックが集中する。トラヒックが集中する特定の時間帯は、コンテンスサーバーを有するラック20を光クロスコネクトスイッチ10-1及び10−2と、高速の光スイッチ40による光回線に接続する。比較的低いトラヒックで複数のデータフローが混在している時間帯は、各ToRスイッチ21の出力先を電気スイッチ30に切り替える。
これにより、光回線の利用時に遅延の少ないサービスを提供するとともに、電気スイッチ30で発生する消費電力を低減することができる。
このようなスケジューリングは、第1実施形態や第2実施形態のようにToRスイッチ21の制御部215で行ってもよいし、第3実施形態のようにスケジュールコントローラ50で行ってもよい。また、第4実施形態のようにスイッチスケジューラ51とタスクスケジューラ52の連携で行ってもよい。
いずれの場合も、光パスの利用効率を向上して、ネットワーク全体の消費電力を低減することができる。
実施形態及び変形例の構成を採用することで、新しい省エネルギー型のデータセンタの構築が実現される。
光スイッチ40を用いた高速でダイナミックな光パスの切り替えを、サーバーリソース割り当ての動的変更に追従させることで、未使用のラックを積極的に作ってパワーオフすることも可能である。また、電気スイッチ30を流れるトラヒック量を現象させることで未使用の電気スイッチを作り、パワーオフにすることも可能である。ラック20間の光スイッチネットワーク1A〜1Dを一つのデータセンタに限定せずに、外部の光ネットワークに接続してもよい。この場合、外部の光ネットワークを通して、分散するデータセンタのリソースを利用することもできる。
1A〜1D 光スイッチネットワーク
10、10−1、10−2 光クロスコネクトスイッチ
20、20−1〜20−n ラック
21 ToRスイッチ(集約スイッチ)
22a〜22k サーバー
30 電気スイッチ
40、40UL、40DL、40−1〜40−m 光スイッチ
50 スケジュールコントローラ
51 スイッチスケジューラ
52 タスクスケジューラ
211 電気インタフェース
212 光インタフェース
213 振り分け部
215 制御部
216 トラヒックモニタ
218 入力インタフェース
220 フロー選択カウンタ
221 第1のキュー
222 第2のキュー

Claims (11)

  1. 複数のサーバーが格納されたラック間をつなぐ光スイッチネットワークにおいて、
    ラックごとに前記複数のサーバーを集約する集約スイッチと、
    前記ラック間で送受信されるデータの方路を設定する2以上の光クロスコネクトスイッチと、
    前記集約スイッチと前記光クロスコネクトスイッチの間に配置され、前記光クロスコネクトスイッチの方路設定動作よりも高速に動作して前記光クロスコネクトスイッチのいずれかを選択する一対の光スイッチと、
    を有することを特徴とする光スイッチネットワーク。
  2. M個(Mは2以上の整数)の前記光クロスコネクトスイッチが用いられ、
    前記一対の光スイッチは、前記集約スイッチから前記光クロスコネクトスイッチへの上りリンクで用いられる1×Mスイッチと、前記光クロスコネクトスイッチから前記集約スイッチへの下りリンクで用いられるM×1スイッチとを有し、
    前記1×Mスイッチと前記M×1スイッチによる切り替え動作は、同期して行われることを特徴とする請求項1に記載の光スイッチネットワーク。
  3. 前記集約スイッチは、宛先ラックごとのトラヒックを観測するモニタを有し、
    前記モニタで一定量以上のトラヒックが観測された場合に、前記データは前記集約スイッチから前記光クロスコネクトスイッチに出力されることを特徴とする請求項1又は2に記載の光スイッチネットワーク。
  4. いずれかの前記光クロスコネクトスイッチを用いてデータ転送が行われている間、他の光クロスコネクトスイッチは方路変更の準備を行っていることを特徴とする請求項1〜3のいずれか1項に記載の光スイッチネットワーク。
  5. 前記1対の光スイッチは、一定の周期で切り替えられることを特徴とする請求項1〜4のいずれか1項に記載の光スイッチネットワーク。
  6. 前記集約スイッチは、前記一対の光スイッチを同時に切り替える制御信号を前記光スイッチに供給することを特徴とする請求項1〜4のいずれか1項に記載の光スイッチネットワーク。
  7. 前記集約スイッチは、前記制御信号の供給のタイミングで、前記データの宛先ラックを切り替えることを特徴とする請求項6に記載の光スイッチネットワーク。
  8. 前記集約スイッチ、前記光クロスコネクトスイッチ、及び前記一対の光スイッチの動作を制御するスケジュールコントローラ、
    をさらに有し、前記スケジュールコントローラにより、前記光クロスコネクトスイッチの選択と前記光スイッチによる切り替え動作、及び前記集約スイッチからのデータの出力タイミングが制御されることを特徴とする請求項1〜4のいずれか1項に記載の光スイッチネットワーク。
  9. 前記光クロスコネクトスイッチ及び前記一対の光スイッチの動作をスケジューリングするスイッチスケジューラと、
    前記サーバー内の処理を割り振るタスクスケジューラ、
    とをさらに有し、前記スイッチスケジューラと前記タスクスケジューラにより、宛先ラックへの前記データの転送を調整することを特徴とする請求項1〜4のいずれか1項に記載の光スイッチネットワーク。
  10. 前記タスクスケジューラは、前記スイッチスケジューラにより前記光クロスコネクトスイッチと光接続されているラックを特定し、前記ラック内の仮想サーバーから前記データを出力させることを特徴とする請求項9に記載の光スイッチネットワーク。
  11. 前記集約スイッチは、
    前記ラックで発生したデータを宛先ラックごとに順次格納する第1のキューと、
    単位時間内に、前記第1のキューに書き込まれた回数が所定回数を超える宛先ラックが書き込まれる第2のキューと、
    を有し、前記第2のキューに書き込まれた宛先ラックへのデータを前記光クロスコネクトスイッチへ出力することを特徴とする請求項1〜10のいずれか1項に記載の光スイッチネットワーク。
JP2016036462A 2016-02-26 2016-02-26 光スイッチネットワーク Pending JP2017153052A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016036462A JP2017153052A (ja) 2016-02-26 2016-02-26 光スイッチネットワーク

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016036462A JP2017153052A (ja) 2016-02-26 2016-02-26 光スイッチネットワーク

Publications (1)

Publication Number Publication Date
JP2017153052A true JP2017153052A (ja) 2017-08-31

Family

ID=59741037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016036462A Pending JP2017153052A (ja) 2016-02-26 2016-02-26 光スイッチネットワーク

Country Status (1)

Country Link
JP (1) JP2017153052A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022123686A1 (ja) * 2020-12-09 2022-06-16 日本電信電話株式会社 接続最適化装置、接続最適化方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022123686A1 (ja) * 2020-12-09 2022-06-16 日本電信電話株式会社 接続最適化装置、接続最適化方法、及びプログラム
JP7460934B2 (ja) 2020-12-09 2024-04-03 日本電信電話株式会社 接続最適化装置、接続最適化方法、及びプログラム

Similar Documents

Publication Publication Date Title
Hammadi et al. A survey on architectures and energy efficiency in data center networks
Xia et al. A tale of two topologies: Exploring convertible data center network architectures with flat-tree
Wang et al. c-Through: Part-time optics in data centers
Perelló et al. All-optical packet/circuit switching-based data center network for enhanced scalability, latency, and throughput
CN110731070A (zh) 通过多个交替数据路径进行分组喷射的无阻塞的任意到任意数据中心网络
Wu et al. Rethinking the architecture design of data center networks
US9247325B2 (en) Hybrid electro-optical distributed software-defined data center architecture
TW201635733A (zh) 光資料中心網路系統以及光交換器
JP6687265B2 (ja) 大規模なフォトニックスイッチ型ネットワークの分散型制御のための方法およびシステム
Christodoulopoulos et al. Performance evaluation of a hybrid optical/electrical interconnect
Chatzieleftheriou et al. Larry: Practical network reconfigurability in the data center
Rahman et al. A hybrid data center architecture for big data
Liu et al. Subways: A case for redundant, inexpensive data center edge links
Guo et al. Timeslot switching-based optical bypass in data center for intrarack elephant flow with an ultrafast DPDK-enabled timeslot allocator
EP2490403A1 (en) Network communication node comprising a plurality of processors for processing layers of communication and associated node
Kontodimas et al. Resource allocation in slotted optical data center networks
JP2017153052A (ja) 光スイッチネットワーク
Yuan et al. Disaggregated optical data center in a box network using parallel OCS topologies
Mehrotra et al. Network processor design for optical burst switched networks
Fiorani et al. Large data center interconnects employing hybrid optical switching
KR20130066401A (ko) 칩 멀티 프로세서, 및 칩 멀티 프로세서를 위한 라우터
Yang et al. An optical interconnect network design for dynamically composable data centers
Shu et al. Programmable OPS/OCS hybrid data centre network
CN209692803U (zh) 基于胖树结构的sdn交换网络
Guo et al. Experimental Demonstration of SDN-enabled Reconfigurable Disaggregated Data Center Infrastructure

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190222

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190528

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190528

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191126

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200526