JP7287492B2

JP7287492B2 - 分散深層学習システムおよびデータ転送方法

Info

Publication number: JP7287492B2
Application number: JP2021555693A
Authority: JP
Inventors: 顕至田仲; 勇輝有川; 健治川合; 順一加藤; 猛伊藤; フィクーゴー; 健坂本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2023-06-06
Anticipated expiration: 2039-11-13
Also published as: WO2021095162A1; JPWO2021095162A1; US20220398431A1

Description

本発明は、分散深層学習システムおよびデータ転送方法に関し、特に、ネットワークで連携する複数の分散処理ノードを用いた分散深層学習におけるデータの転送技術に関する。

従来から、多層ニューラルネットワークにデータの特徴を学習させる深層学習が提案されている。深層学習は、より大量の学習用データを用いて学習を行うことで分類や予測の精度が向上する。この学習処理の効率を向上させるために、複数の分散処理ノードをネットワークで連携させて各分散処理ノードが異なるデータを学習するデータ並列型の分散深層学習システムが提案されている。

従来の分散深層学習システムにおける深層学習では、分散深層学習システムを構成する複数の計算機のそれぞれにおいて、学習データを入力層から出力層へ順番に伝搬させ、ニューラルネットワークからの出力値が正解のラベルデータからどれだけ乖離しているかの指標となる損失関数を求める。このように、ニューラルネットワークの入力側の層から出力側の層に向かって順番に出力値を計算していく処理を「順伝搬計算」という。

また、従来の分散深層学習システムでは、各分散処理ノードにおいて順伝搬計算により求めた損失関数値に対するニューラルネットワークの各構成パラメータ（ニューラルネットワークの重み等）による偏微分値（勾配）を求める。ニューラルネットワークの出力側の層から入力側の層に向かって順番に各層の構成パラメータに対する勾配を計算していくことから、この処理を「逆伝搬計算」と呼ぶ。

また、従来から、推論精度を改善する手法の一つとしてミニバッチ法が用いられている。ミニバッチ法では、順伝搬計算の結果を示すサンプルデータごとに重みに対する勾配を計算する勾配計算処理と、複数の異なるサンプルデータについて計算された勾配を集計する（サンプルデータごとに得られた勾配を重み別に合算する）集計処理と、各重みを集計された勾配に基づいて更新する重み更新処理と、を繰り返す。

このように、従来の分散深層学習システムでは、逆伝搬計算の後に、さらに勾配情報を分散処理ノード間で共有および集約する集団通信（以下、「Ａｌｌｒｅｄｕｃｅ処理」という。）が行われる（例えば、非特許文献１参照）。すなわち、分散深層学習では、順伝搬計算、逆伝搬計算、Ａｌｌｒｅｄｕｃｅ処理、順伝搬計算の処理を繰り返し実施することで、深層学習モデルの学習を進める。

逆伝搬計算が完了するのは、出力層から入力層の順番であり、順伝搬計算が開始される順番は入力層から出力層の順である。そのため、通常では、Ａｌｌｒｅｄｕｃｅ処理の終了を待ってから順伝搬計算を開始する必要がある。非特許文献１に記載の分散深層学習システムでは、深層学習モデルの各層のパラメータごとに誤差逆伝搬計算とＡｌｌｒｅｄｕｃｅ処理とを実施し、処理をオーバーラップさせて通信時間の隠蔽を可能としている。

Ｋ．Ｔａｎａｋａｅｔａｌ．，"ＤｉｓｔｒｉｂｕｔｅｄＤｅｅｐＬｅａｒｎｉｎｇｗｉｔｈＦＰＧＡＲｉｎｇＡｌｌｒｅｄｕｃｅ"ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆＩｎｔｅｒｎａｔｉｏｎａｌＳｕｐｅｒｃｏｍｐｕｔｉｎｇＣｏｎｆｅｒｅｎｃｅ，２０１９／６．

しかし、従来の分散深層学習システムでは、分散深層学習において計算すべきデータの順番が逆伝搬計算と順伝搬計算とにおいて、異なる層から開始されるため、分散処理ノード内で処理の待ち時間が生ずる場合があった。

本発明は、上述した課題を解決するためになされたものであり、分散処理ノード内での処理の待ち時間を抑制し、分散深層学習をより効率的に行うことを目的とする。

上述した課題を解決するために、本発明に係る分散深層学習システムは、１方向に通信可能なリング型の通信ネットワークを構成する複数の分散処理ノードを備え、ニューラルネットワークの学習データに基づく順伝搬計算および逆伝搬計算を、データフレーム単位で分散して反復的に行うとともに、逆伝搬計算の計算結果を足し合わせる集団通信を行う分散深層学習システムであって、前記複数の分散処理ノードの各々は、前記通信ネットワークを介して自ノードに到達した第１データフレームと、前記第１データフレームの次に自ノードに到達した第２データフレームを順次受信する受信部と、前記受信部で受信された前記第１データフレームおよび前記第２データフレームそれぞれのヘッダに含まれる、前記第１データフレームおよび前記第２データフレームのそれぞれに含まれるデータが前記ニューラルネットワークの入力層、中間層、および出力層を含むいずれの層に属するデータであるかを示すレイヤー情報を読み取るヘッダ読取部と、前記受信部によって受信された前記第１データフレームから前記ヘッダ読取部によって読み取られたレイヤー情報と、前記第１データフレームの次に受信された前記第２データフレームから読み取られたレイヤー情報とを比較し、前記第１データフレームと前記第２データフレームとが、それぞれ前記入力層と前記出力層とのいずれにより近い層に属するデータを含むデータフレームであるかを判定する判定部と、前記判定部による判定結果に基づいて、前記第１データフレームと前記第２データフレームとのうち、前記入力層により近い層に属するデータを含むデータフレームに対して、前記ニューラルネットワークの順伝搬計算の結果を示すサンプルデータの入力に基づいた計算処理を実行する計算部と、前記判定部による判定結果に基づいて、前記第１データフレームと前記第２データフレームとのうち、前記出力層により近い層に属するデータを含むデータフレームに対する前記計算処理をスキップさせる転送部と、前記計算部または前記転送部によって処理された前記第１データフレームおよび前記第２データフレームを、後段の分散処理ノードへ送信する送信部とを備え、前記送信部は、前記第１データフレームと前記第２データフレームとのうち、前記転送部によって前記計算処理がスキップされたデータフレームを、前記計算部によって前記計算処理が実行されたデータフレームより先に、前記後段の分散処理ノードへ送信することを特徴とする。

上述した課題を解決するために、本発明に係るデータ転送方法は、１方向に通信可能なリング型の通信ネットワークを構成する複数の分散処理ノードを備え、ニューラルネットワークの学習データに基づく順伝搬計算および逆伝搬計算を、データフレーム単位で分散して反復的に行うとともに、逆伝搬計算の計算結果を足し合わせる集団通信を行う分散深層学習システムにより実行されるデータ転送方法であって、前記複数の分散処理ノードの各々は、前記通信ネットワークを介して自ノードに到達した第１データフレームと、前記第１データフレームの次に自ノードに到達した第２データフレームとを順次受信する第１ステップと、前記第１ステップで受信された前記第１データフレームおよび前記第２データフレームそれぞれのヘッダに含まれる、前記第１データフレームおよび前記第２データフレームのそれぞれに含まれるデータが前記ニューラルネットワークの入力層、中間層、および出力層を含むいずれの層に属するデータであるかを示すレイヤー情報を読み取る第２ステップと、前記第１ステップで受信された前記第１データフレームから前記第２ステップで読み取られたレイヤー情報と、前記第１データフレームの次に受信された前記第２データフレームから読み取られたレイヤー情報とを比較し、前記第１データフレームと前記第２データフレームとが、それぞれ前記入力層と前記出力層とのいずれにより近い層に属するデータを含むデータフレームであるかを判定する第３ステップと、前記第３ステップでの判定結果に基づいて、前記第１データフレームと前記第２データフレームとのうち、前記入力層により近い層に属するデータを含むデータフレームに対して、前記ニューラルネットワークの順伝搬計算の結果を示すサンプルデータの入力に基づいた計算処理を実行する第４ステップと、前記第３ステップでの判定結果に基づいて、前記第１データフレームと前記第２データフレームとのうち、前記出力層により近い層に属するデータを含むデータフレームに対する前記計算処理をスキップさせる第５ステップと、前記第４ステップまたは前記第５ステップで処理された前記第１データフレームおよび前記第２データフレームを、後段の分散処理ノードへ送信する第６ステップとを備え、前記第６ステップは、前記第１データフレームと前記第２データフレームとのうち、前記第５ステップで前記計算処理がスキップされたデータフレームを、前記第４ステップで前記計算処理が実行されたデータフレームより先に、前記後段の分散処理ノードへ送信することを特徴とする。

本発明によれば、自ノードに到達した第１データフレームおよび次に到達した第２データフレームのヘッダのレイヤー情報を比較し、入力層により近い層に属するデータを含むデータフレームに対する計算処理を実行し、出力層により近い層に属するデータを含むデータフレームの計算処理をスキップするので、分散処理ノード内での処理の待ち時間を抑制し、分散深層学習処理をより効率的に行うことができる。

図１は、本発明の第１の実施の形態に係る分散処理ノードの構成を示すブロック図である。図２は、第１の実施の形態に係る分散深層学習システムの概要を示すブロック図である。図３は、第１の実施の形態に係るデータフレームの構造を示す模式図である。図４は、第１の実施の形態に係るヘッダ読取部の構成を示すブロック図である。図５は、第１の実施の形態に係る分散処理ノードのハードウェア構成の一例を示すブロック図である。図６は、第１の実施の形態に係る分散処理ノードの動作を説明するためのフローチャートである。図７は、第２の実施の形態に係るデータフレームの構造を示す模式図である。図８は、第３の実施の形態に係るデータフレームの構造を示す模式図である。図９は、第３の実施の形態に係るヘッダ読取部の構成を示すブロック図である。図１０は、第３の実施の形態に係る分散処理ノードの動作を説明するためのフローチャートである。図１１は、第３の実施の形態に係る分散処理ノードの動作を説明するためのフローチャートである。図１２は、第３の実施の形態に係る分散深層学習システムの動作を説明するための図である。図１３は、第４の実施の形態に係るデータフレームの構造を示す模式図である。図１４は、第４の実施の形態に係る分散処理ノードの構成を示すブロック図である。

以下、本発明の好適な実施の形態について、図１から図１４を参照して詳細に説明する。

［第１の実施の形態］
図１は、本発明の第１の実施の形態に係る分散深層学習システムが備える分散処理ノード１の構成を示すブロック図である。また、図２は、分散深層学習システムの構成を示すブロック図である。本実施の形態に係る分散深層学習システムでは、入力層、中間層、および出力層を含む多層ニューラルネットの学習データに基づく順伝搬計算および逆伝搬計算を、データフレーム単位に分割して反復的に行う。また、分散深層学習システムでは、逆伝搬計算の計算結果を足し合わせるＡｌｌｒｅｄｕｃｅ処理を行う。

本実施の形態では分散深層学習システムは、例えば、ミニバッチ法を用いて、順伝搬計算の計算結果を示すサンプルデータごとに重みに対する勾配を計算する勾配計算処理と、複数の異なるサンプルデータについて前記勾配を集計する（サンプルデータごとに得られた勾配を重み別に合算する）集計処理と、各重みを集計された勾配に基づいて更新する重み更新処理と、を繰り返す。

本実施の形態に係る分散深層学習システムにおいて、分散処理ノード１間で送受信されるデータフレームには、ヘッダ部分に、データフレームのデータが、ニューラルネットワークのどの層に属するかを示すレイヤー情報が格納されている。

各分散処理ノード１は、受信したデータフレームのヘッダを読み取るヘッダ読取部１１を備える。各分散処理ノード１は、受信したデータのヘッダ情報に基づいて、自ノードでそのデータを用いて計算処理を行うか、あるいは、計算処理をスキップするかを判断する。

このように、本実施の形態では、分散処理ノード１ごとに不要な演算をスキップしつつ、入力層により近いデータの計算処理を先に完了する。そのため、本実施の形態に係る分散深層学習システムは、プロセス間でデータを共有するＡｌｌｒｅｄｕｃｅ処理において、各分散処理ノード１での計算処理をニューラルネットワークの入力層側のデータから優先して行うことができる。

本実施の形態に係る分散深層学習システムは、図２に示すように、通信ネットワークＮＷで互いに接続された複数の分散処理ノード１－１～１－４を備える。分散処理ノード１－１～１－４は、一方向にデータ転送が可能なリング型の通信ネットワークＮＷを構成する。

分散処理ノード１－１～１－４は、例えば、Ｅｔｈｅｒｎｅｔ（登録商標）などの通信ネットワークＮＷを介してデータフレームを転送する。また、分散処理ノード１－１～１－４各々は、例えば、ＰＣやサーバなどで構成されることができる。分散処理ノード１－１～１－４のハードウェア構成については後述する。

なお、本実施の形態において、分散処理ノード１－１～１－４を総称して分散処理ノード１ということがある。

［データ構造］
まず、本実施の形態に係る複数の分散処理ノード１－１～１－４で転送されるデータの構造について図３を用いて説明する。本実施の形態に係る分散深層学習システムでは、分散処理ノード１－１～１－４のうちのいずれかが起点となり、データの転送が開始される。分散深層学習システムにおいて送信されるデータは、データフレーム単位で送信され、例えば、データフレームの最大ペイロードが１５００バイトのＭＴＵを持つものを採用することができる。

データフレームは、図３に示すように、ヘッダとパケット（データ）とを有する。ヘッダには、予め指定されたフィールドＦ１に、パケットが学習対象のニューラルネットワークのどのレイヤー（層）に属するかを示すレイヤー情報が格納されている。例えば、レイヤー情報として、学習対象のニューラルネットワークの各レイヤーに予め設定された識別情報が格納される。このレイヤー情報により、複数のデータフレームが互いに比較された場合に、比較対象のデータフレームに含まれるパケットが、入力層側の層に属するパケットであるのかあるいは出力層側の層に属するパケットであるのかが判別可能となる。

データフレームに含まれるパケットは、例えば、逆伝搬計算の結果などを含む。具体的には、ニューラルネットワークの分割された学習データにおける更新された重みパラメータが含まれる。また、パケットには、分散処理ノード１－１～１－４のそれぞれで勾配計算および集計処理が行われた結果が反映される。

また、データフレームは、ヘッダに予めレイヤー情報を格納することができれば、分散深層学習システムに採用される通信ネットワークＮＷの仕様に応じたフォーマットが用いられる。

［分散処理ノードの機能ブロック］
図１に示すように、分散処理ノード１は、受信部１０、ヘッダ読取部１１、サンプル入力部１２、計算部１３、および送信部１６を備える。分散深層学習システムが備える複数の分散処理ノード１－１～１－４のそれぞれは同様の構成を有する。

受信部１０は、隣接する分散処理ノード１あるいは図示されない外部の上位ノードなど外部より送信されたデータフレームを受信する。例えば、受信部１０は、複数のデータフレームをデータフレームごとに到達した順番に受信する。図１の例では、受信部１０は、通信ネットワークＮＷを介して送信されてきた順に第１データフレームｐ０１、その次に到達した第２データフレームｐ０２を順次受信している。なお、第１データフレームｐ０１は、例えば、受信部１０で順次受信された複数のデータフレームのうちの任意のデータフレームであり、第２データフレームｐ０２は、第１データフレームｐ０１の直後に受信されたデータフレームである。

ヘッダ読取部１１は、受信部１０で受信された第１データフレームｐ０１をバッファリングする。また、ヘッダ読取部１１は、第２データフレームｐ０２から順番にヘッダに含まれるレイヤー情報を読み取る。

ヘッダ読取部１１は、図４に示すように、バッファ１１０、判定部１１１、および転送部１１２を備える。また、図１に示すように、ヘッダ読取部１１と送信部１６との間には転送パスＴＰが設けられている。

バッファ１１０は、受信部１０が最初に受信した第１データフレームｐ０１をバッファリングする。

判定部１１１は、バッファ１１０で一時的に保持された第１データフレームｐ０１のヘッダに含まれるレイヤー情報と、次に受信された第２データフレームｐ０２のヘッダに含まれるレイヤー情報とを読み取る。判定部１１１は、読み取った２つのデータフレームｐ０１、ｐ０２に含まれるレイヤー情報を比較して、どちらのデータフレームが入力層により近い層に属するパケットを含むデータフレームであるかを判定する。すなわち、判定部１１１は、２つのデータフレームｐ０１、ｐ０２のうちどちらが入力層により近いデータフレームであり、どちらが出力層により近いデータフレームであるかを判定する。

転送部１１２は、判定部１１１による判定結果に基づいて、入力層により近いデータフレームを計算部１３へ転送する。また、転送部１１２は、判定結果に基づいて、出力層により近い方のデータフレームを転送パスＴＰを介して送信部１６へ転送する。この場合、出力層により近い方のデータフレームは、自ノードでの計算部１３による計算処理がスキップされることになる。

サンプル入力部１２は、計算部１３にサンプルデータを入力する。サンプルデータは、計算部１３で用いられる順伝搬計算の結果である。サンプル入力部１２は、計算部１３に転送されたデータフレームに対応するサンプルデータを図示されない外部メモリから読み出して計算部１３に入力する。

計算部１３は、勾配計算部１４および集計処理部１５を備える。
勾配計算部１４は、転送部１１２によって転送されてきたデータフレームおよびサンプル入力部１２より入力された順伝搬計算の結果を示すサンプルデータに基づいて、データフレームに含まれる重みの各々について、ニューラルネットワークの損失関数の勾配をサンプルデータごとに計算する。各分散処理ノード１－１～１－４の計算部１３は、各々異なるサンプルデータについて勾配計算処理を行う。

集計処理部１５は、勾配計算部１４が計算したサンプルデータごとの勾配を集計した数値を重みごとに生成して保持する。具体的には、集計処理部１５は、サンプルデータごとに計算された勾配を足し算し、計算結果を重みごとに保持する。

送信部１６は、ヘッダ読取部１１が備える転送部１１２によって転送されてきたデータフレーム、および計算部１３による勾配計算処理およびノード内の集計処理を経たデータフレームを、それぞれ通信ネットワークＮＷを介して、後段の分散処理ノード１に送信する。送信部１６は、転送されてきたデータフレームの順に送信処理を行う。したがって、受信部１０が受信したデータフレームの順番とは異なる順番で後段の分散処理ノード１にデータフレームを送信する場合がある。

このように、分散処理ノード１ごとに勾配計算およびノード内での集計処理が行われた結果は、他の分散処理ノード１に転送され、同様の計算処理が行われ、各分散処理ノード１で分割して学習された結果が集約され、加算および平均化などを行い、その値が再び各分散処理ノード１に分配され共有される。

［分散処理ノードのハードウェア構成］
次に、上述した分散処理ノード１のハードウェア構成について図５を参照して説明する。
図５に示すように、分散処理ノード１は、例えば、ＣＰＵ１０１、メインメモリ１０２、ＧＰＵ１０３、ＮＩＣ１０４、ストレージ１０５、およびＩ／Ｏ１０６を備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。

メインメモリ１０２には、ＣＰＵ１０１およびＧＰＵ１０３が各種制御や演算を行うためのプログラムが予め格納されている。ＣＰＵ１０１、ＧＰＵ１０３、およびメインメモリ１０２によって、図１に示したヘッダ読取部１１、勾配計算部１４、集計処理部１５など、分散処理ノード１の各機能が実現される。

ＮＩＣ１０４は、分散処理ノード１間や各種外部電子機器との間をネットワーク接続するためのインターフェース回路である。ＮＩＣ１０４は図１の受信部１０および送信部１６を実現する。

ストレージ１０５は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。ストレージ１０５には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。

ストレージ１０５は、分散処理ノード１がデータの転送処理、勾配計算処理、および集計処理を含む分散処理を実行するためのプログラムを格納するプログラム格納領域を有する。ストレージ１０５は、例えば、上述したデータやプログラムやなどをバックアップするためのバックアップ領域などを有していてもよい。

Ｉ／Ｏ１０６は、外部機器からの信号を入力したり、外部機器へ信号を出力したりするＩ／Ｏ端子により構成される。

［分散深層学習システムの動作］
次に、上述した構成を有する分散処理ノード１の動作について、図６のフローチャートを用いて説明する。

まず、受信部１０は、通信ネットワークＮＷを介して、例えば、隣接する前段の分散処理ノード１より送信されたデータフレームを受信する（ステップＳ１）。受信部１０は、例えば、図１に示すように、第１データフレームｐ０１、第２データフレームｐ０２の順に、複数のデータフレームを到達した順に受信する。

次に、ヘッダ読取部１１が備えるバッファ１１０は、最初に受信された第１データフレームｐ０１をバッファリングする（ステップＳ２）。次に、ヘッダ読取部１１は、一時的にバッファ１１０で保持されている第１データフレームｐ０１、および第１データフレームｐ０１の次に受信された第２データフレームｐ０２それぞれのヘッダのフィールドＦ１に格納されているレイヤー情報を読み取る（ステップＳ３）。

次に、判定部１１１は、ステップＳ３で読み取られた２つのデータフレームのレイヤー情報を比較する（ステップＳ４）。レイヤー情報は、データフレームに含まれるパケットがニューラルネットワークのどのレイヤーからのデータであるかを示す情報である。

次に、判定部１１１が、先に受信された第１データフレームｐ０１の方が、第２データフレームｐ０２よりも入力層に近いと判定した場合（ステップＳ５：ＹＥＳ）、転送部１１２は、出力層に近い方の第２データフレームｐ０２を転送パスＴＰを介して送信部１６へ転送する（ステップＳ６）。その後、送信部１６は、第２データフレームｐ０２を通信ネットワークＮＷを介して後段の分散処理ノード１に送信する（ステップＳ７）。その後、転送部１１２は、入力層に近い方の第１データフレームｐ０１を計算部１３へ転送する（ステップＳ８）。

一方、ステップＳ５において、先に受信された第１データフレームｐ０１の方が出力層により近く（ステップＳ５：ＮＯ）、次に受信された第２データフレームｐ０２の方が入力層に近いと判断された場合（ステップＳ９：ＹＥＳ）、転送部１１２は、出力層に近い方の第１データフレームｐ０１を転送パスＴＰを介して送信部１６へ転送する（ステップＳ１０）。その後、送信部１６は、第１データフレームｐ０１を通信ネットワークＮＷを介して、後段の分散処理ノード１へ送信する（ステップＳ１１）。その後、転送部１１２は、入力層に近い方の第２データフレームｐ０２を計算部１３へ転送する（ステップＳ１２）。

なお、ステップＳ９において、判定部１１１が、第１データフレームｐ０１および第２データフレームｐ０２が同じレイヤーからのデータであると判定した場合（ステップＳ９：ＮＯ）、転送部１１２は、第１データフレームｐ０１を計算部１３へ転送し、その後に第２データフレームｐ０２を計算部１３へ転送する（ステップＳ６）。この場合には、第１データフレームｐ０１および第２データフレームｐ０２は、例えば、受信された順に自ノードでの勾配計算および集計処理が行われる。

次に、ステップＳ８あるいはステップＳ１２において、転送部１１２がデータフレームを計算部１３に転送すると、サンプル入力部１２は、サンプルデータを外部メモリから読み出して、計算部１３に入力する（ステップＳ１３）。その後、勾配計算部１４は、計算対象のデータフレームに含まれる重みの各々について、ニューラルネットワークの損失関数の勾配をサンプルデータごとに計算する（ステップＳ１４）。

次に、集計処理部１５は、勾配計算部１４が計算したサンプルデータごとの勾配を集計した数値を重みごとに生成して保持する（ステップＳ１５）。

その後、集計処理部１５で得られた計算結果は、送信部１６に転送される（ステップＳ１６）。その後、入力層により近い方のデータフレームの勾配計算およびノード内での勾配の集計結果を示すパケットを含むデータフレームは、送信部１６から、後段の分散処理ノード１へ送信される（ステップＳ１７）。

複数の分散処理ノード１－１～１－４のそれぞれで、ステップＳ１からステップＳ１７までの処理が同様に行われる。例えば、ステップＳ９において、分散処理ノード１－１が出力層側のデータフレームを、後段の分散処理ノード１－２に送信すると、分散処理ノード１－２においてそのデータフレームについての勾配計算および集計処理が行われる。なお、計算処理がスキップされて転送された先の分散処理ノード１－２において、既に、入力層により近いデータフレームが存在する場合には、さらに後段の分散処理ノード１－３に転送される場合がある。このように、分散深層学習システム全体で、Ａｌｌｒｅｄｕｃｅ処理の返却を入力層側から完了する。

以上説明したように、第１の実施の形態によれば、分散深層学習システムが備えるリング型に互いに接続された複数の分散処理ノード１－１～１－４のそれぞれは、先に受信した第１データフレームと、直後に受信した第２データフレーム各々のレイヤー情報を比較して、どちらのデータフレームが入力層あるいは出力層により近い層に属するパケットを含むデータフレームであるかを判定する。転送部１１２は、出力層により近い層に属するパケットを含むと判定されたデータフレームについては送信部１６へ転送し、自ノードでの勾配計算およびノード内の集計処理をスキップする。

本実施の形態によれば、サンプル入力部１２より入力されるサンプルデータとの演算が必要ない場合には、自ノードでの勾配計算および集計処理を行わないので、各分散処理ノード１内での受信部１０から送信部１６までのデータが移動するレイテンシをより小さくすることができる。その結果として、分散深層学習システムにおける全体でのデータ転送のレイテンシがより小さくなり、より効率的に分散学習が行われる。

［第２の実施の形態］
次に、本発明の第２の実施の形態について説明する。なお、以下の説明では、上述した第１の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。

第１の実施の形態では、各分散処理ノード１で処理されるデータフレームは、例えば、最大ペイロードが１５００バイトなどの通信量を持つＥｔｈｅｒｎｅｔフレームが用いられる場合を例示した。これに対して、第２の実施の形態では、第１の実施の形態で用いられたデータフレームのサイズよりも大きいフレームサイズを有するジャンボフレームが用いられる。

なお、本実施の形態に係る分散処理ノード１および分散深層学習システムの構成は、第１の実施の形態と同様である。

図７は、本実施の形態に係るデータフレームの構造を説明するための模式図である。例えば、本実施の形態に係るデータフレームのフレームサイズは、最大ペイロードが１５００バイトを超える通信量が設定されたデータフレームである。より具体的には、ニューラルネットワークの１つ分のレイヤーのデータを格納することができるフレームサイズに拡張されたジャンボフレームを用いることができる。

また、図７に示すように、本実施の形態で用いられるジャンボフレームについても、第１の実施の形態のデータフレームと同様に、ヘッダの指定されたフィールドＦ１には、データフレームのパケットが、ニューラルネットワークのどのレイヤーのデータであるかを示すレイヤー情報が格納されている。

このように、第２の実施の形態では、各分散処理ノード１において処理および転送されるデータフレームとして１つ分のレイヤーのデータをパケットとして転送できるジャンボフレームが用いられる。そのため、ヘッダ読取部１１においてデータフレーム同士のレイヤー情報を比較する際に、同じレイヤー同士のデータフレームの比較が生ずることがなく、入力層に近いレイヤーのＡｌｌｒｅｄｕｃｅ処理がより高速に終了する。

［第３の実施の形態］
次に、本発明の第３の実施の形態について説明する。なお、以下の説明では、上述した第１および第２の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。

第１および第２の実施の形態では、分散処理ノード１で処理されるデータフレームは、ヘッダの指定されたフィールドＦ１にデータフレームのパケットがニューラルネットワークのどのレイヤーからのデータであるかを示すレイヤー情報が格納されている場合について説明した。これに対して、第３の実施の形態では、データフレームのヘッダには、さらに、複数の分散処理ノード１－１～１－４のうち、パケットの勾配計算および集計処理を最初にスキップしたノードを示すノード情報が記述される。第３の実施の形態では、順次受信された２つのデータフレームの比較判定処理は、ヘッダのレイヤー情報およびノード情報に基づいて行われる。

本実施の形態に係る分散処理ノード１の全体構成は、図１で説明した第１の実施の形態の構成と同様である。また、分散深層学習システムの構成についても、第１の実施の形態で説明した図２のシステム構成と同様である。以下、第１および第２の実施の形態と異なる構成を中心に説明する。

［データ構造］
図８は、本実施の形態に係るデータフレームの構造を説明するための図である。図８に示すように分散処理ノード１－１～１－４間で転送されるデータフレームは、ヘッダとパケットとを有する。ヘッダの指定されたフィールドＦ１には、パケットのデータがニューラルネットワークのどのレイヤーからのデータであるかを示すレイヤー情報が格納されている。また、ヘッダの別のフィールドＦ２には、複数の分散処理ノード１－１～１－４のうちのどのノードで勾配計算およびノード内での集計処理が最初にスキップされたかを示すノード情報が格納されている。例えば、フィールドＦ２には、最初に勾配計算および集計処理をスキップした分散処理ノード１－１～１－４のノード番号などの識別情報が格納される。

［ヘッダ読取部の機能ブロック］
図９は、本実施の形態に係るヘッダ読取部１１Ａの構成を示すブロック図である。ヘッダ読取部１１Ａは、バッファ１１０、判定部１１１、転送部１１２、および記録部（第１記録部）１１３を備える。

転送部１１２は、ヘッダのフィールドＦ２において、自ノード以外を示すノード情報が格納されているデータフレームを、転送パスＴＰを介して送信部１６に転送する。また、転送部１１２は、第１の実施の形態と同様に、判定部１１１によるレイヤー情報の比較の結果、入力層により近いデータフレームであると判定されたデータフレームを計算部１３へ転送する。

記録部１１３は、判定部１１１による判定結果により、自ノードでの勾配計算および集計処理をスキップするデータフレームのヘッダに、自ノードの識別情報を格納する。例えば、図８に示すヘッダのフィールドＦ２に自ノードのノード番号を格納する。

記録部１１３がヘッダのフィールドＦ２に自ノードを示すノード情報を格納することで、通信ネットワークＮＷで接続されている後段の他の分散処理ノード１－２～１－４での、勾配計算およびノード内での集計処理はスキップされることになる。そして、自ノードで最初に計算処理をスキップしたデータフレームが、再び自ノードに戻ってきたときに、記録部１１３は、ヘッダの自ノードを示すノード情報をクリアする。自ノードのノード情報がクリアされたデータフレームは、判定部１１１によるレイヤー情報の比較および判定を経て、自ノードでの勾配計算および集計処理が実行される。

［分散深層学習システムの動作］
次に、上述した構成を有する分散学習システムの動作について説明する。まず、図１０および図１１のフローチャートを参照して分散処理ノード１の動作を説明する。

まず、図１０に示すように、受信部１０は、通信ネットワークＮＷを介して、例えば、外部からのデータフレームを受信する（ステップＳ１）。受信部１０は、複数のデータフレームを順次受信し、例えば、図１に示すように、第１データフレームｐ０１、第２データフレームｐ０２の順でデータフレームを受信する。

次に、バッファ１１０は、最初に受信された第１データフレームｐ０１をバッファリングする（ステップＳ２）。次に、第１データフレームｐ０１のヘッダのフィールドＦ２に、ノード情報が格納されている場合において（ステップＳ１００：ＹＥＳ）、そのノード情報が自ノードではなく、他のノードを示している場合（ステップＳ１０１：ＮＯ）、転送部１１２は、最初に受信された第１データフレームｐ０１を転送パスＴＰを介して送信部１６へ転送する（ステップＳ１０３）。

その後、処理は結合子Ｂを介してステップＳ１７に移行し、送信部１６は、第１データフレームｐ０１を後段の分散処理ノード１に送信する（ステップＳ１５）。このように、自ノード以外のノード情報がヘッダに格納されている第１データフレームｐ０１は、各分散処理ノード１において、ヘッダのレイヤー情報を読み取る前に、後段の分散処理ノード１へ転送されていく。

一方において、ステップＳ１０１において、最初に受信された第１データフレームｐ０１のヘッダに含まれるノード情報が自ノードのノード情報と一致する場合（ステップＳ１０１：ＹＥＳ）、記録部１１３は、第１データフレームｐ０１のヘッダのノード情報をクリアする（ステップＳ１０２）。例えば、自ノードで最初に勾配計算および集計処理をスキップしたデータフレームが、再び自ノードへ帰ってきた場合にこれらの処理が実行される。その後、処理はステップＳ１０４に移行する。

また、ステップＳ１００において、最初に受信された第１データフレームｐ０１のヘッダにノード情報が格納されていない場合（ステップＳ１００：ＮＯ）、結合子Ａを介してステップＳ１０４に移行する。次に、ヘッダにノード情報が格納されていない第１データフレームｐ０１の直後に受信された第２データフレームのヘッダにおいてもノード情報が格納されていない場合（ステップＳ１０４：ＮＯ）、判定部１１１は、第２データフレームｐ０２および第１データフレームｐ０１のヘッダのレイヤー情報を読み取る（ステップＳ３）。判定部１１１は、読み取った２つのデータフレームのレイヤー情報を比較する（ステップＳ４）。その後、処理は、結合子Ｃを介して図１１のステップＳ５に移行する。

一方、ステップＳ１０４において、２番目に受信された第２データフレームｐ０２のヘッダにノード情報が格納されている場合には、処理はステップＳ１０１に移行し、ノード情報が自ノードと一致する場合（ステップＳ１０１：ＹＥＳ）、ヘッダのノード情報がクリアされる（ステップＳ１０２）。

次に、ステップＳ４でのレイヤー情報の比較の結果、判定部１１１が、最初に受信された第１データフレームｐ０１の方が入力層により近いと判定した場合（ステップＳ５：ＹＥＳ）、記録部１１３は、出力層に近い他方の第２データフレームｐ０２のヘッダのフィールドＦ２に自ノードを示すノード情報を格納する（ステップＳ１０５）。次に、転送部１１２は、第２データフレームｐ０２を転送パスＴＰを介して送信部１６へ転送する（ステップＳ６）。その後、送信部１６は、ヘッダに自ノードを示すノード情報が記録された第２データフレームｐ０２を、後段の分散処理ノード１へ送信する（ステップＳ７）。

一方、ステップＳ５において、判定部１１１が、先に受信された第１データフレームｐ０１の方が出力層により近く（ステップＳ５：ＮＯ）、次に受信された第２データフレームｐ０２の方が入力層に近いと判定した場合（ステップＳ９：ＹＥＳ）、記録部１１３は、出力層に近い方の第１データフレームｐ０１のヘッダに自ノードを示すノード情報を格納する（ステップＳ１０６）。

次に、転送部１１２は、ノード情報がヘッダに格納された第１データフレームｐ０１を転送パスＴＰを介して送信部１６へ転送する（ステップＳ１０）。その後、送信部１６は、ノード情報がヘッダに格納されている第１データフレームｐ０１を通信ネットワークＮＷを介して、後段の分散処理ノード１へ送信する（ステップＳ１１）。その後、転送部１１２は、入力層に近い方の第２データフレームｐ０２を計算部１３へ転送する（ステップＳ１２）。

なお、ステップＳ９において、判定部１１１が、第１データフレームｐ０１および第２データフレームｐ０２が同じレイヤーからのデータであると判定した場合（ステップＳ９：ＮＯ）、転送部１１２は、第１データフレームｐ０１を計算部１３へ転送し、その後に第２データフレームｐ０２を計算部１３へ転送する（ステップＳ６）。この場合においては、第１データフレームｐ０１および第２データフレームｐ０２は、受信された順に自ノードで勾配計算および集計処理を行う。

次に、集計処理部１５は、自ノードにおいて勾配計算部１４が計算したサンプルデータごとの勾配を集計した数値を重みごとに生成して保持する（ステップＳ１５）。

その後、集計処理部１５で得られた計算結果は、送信部１６に転送される（ステップＳ１６）。その後、入力層により近い方のデータフレームの勾配計算およびノード内での勾配の集計結果を示すパケットを含むパケットのデータフレームは、送信部１６から、後段の分散処理ノード１へ送信される（ステップＳ１７）。

図１２は、本実施の形態に係る分散深層学習システムの動作の一例を示すブロック図である。図１２に示すように、データフレームｐ１～ｐ６が分散処理ノード１－１で生成された場合を考える。また、図１２に示すように、データフレームｐ６が最も入力層に近い層に属するパケットを含むデータフレームであり、データフレームｐ１が最も出力層に近い層に属するパケットを含む場合を仮定する。

分散処理ノード１－１で生成されたデータフレームｐ１～ｐ６は、分散処理ノード１－２、１－３のサンプル入力部１２より入力されるサンプルデータとの勾配計算およびノード内での集計処理が行われ、全ての分散処理ノード１－１～１－４で処理が完了すると計算が終了する。

例えば、分散処理ノード１－２において、まず、最初に受信されたデータフレームｐ１と、次に受信されたデータフレームｐ２とのレイヤー情報の比較が行われる。入力層に近い方のデータフレームｐ２は、分散処理ノード１－２において、勾配計算およびノード内の集計処理が行われた後に、後段の分散処理ノード１－３へ送信される。一方、出力層に近い方のデータフレームｐ１は、ヘッダに分散処理ノード１－２のノード番号などのノード情報が格納されて、分散処理ノード１－２での勾配計算および集計処理がスキップされ、さらに、以降の分散処理ノード１－３、１－４、１－１においても勾配計算および集計処理がスキップされる。

その後、以下の（１）から（５）のいずれかの処理が発生する。いずれの処理が発生するかは、データフレームｐ１が分散処理ノード１－１に戻ってくる時間に依存する。

（１）分散処理ノード１－２において、データフレームｐ１とデータフレームｐ４とのレイヤー情報の比較が発生する。入力層に近い方のデータフレームｐ４は、分散処理ノード１－２において、勾配計算および集計処理が行われ、隣接する分散処理ノード１－３へ送信される。一方、出力層に近い方のデータフレームｐ１は、分散処理ノード１－２以降の分散処理ノード１－３～１－１での処理がスキップされる。

（２）分散処理ノード１－３において、データフレームｐ２とデータフレームｐ３とのレイヤー情報の比較が発生する。入力層に近い方のデータフレームｐ３は、分散処理ノード１－３において、勾配計算および集計処理が行われ、隣接する分散処理ノード１－４へ送信される。一方、出力層に近い方のデータフレームｐ２は、分散処理ノード１－３以降の分散処理ノード１－４～１－２での処理がスキップされる。

（３）分散処理ノード１－２において、データフレームｐ１とデータフレームｐ５とのレイヤー情報の比較が発生する。入力層に近い方のデータフレームｐ５は、分散処理ノード１－２において、勾配計算および集計処理が行われ、隣接する分散処理ノード１－３へ送信される。一方、出力層に近い方のデータフレームｐ１は、分散処理ノード１－２以降の分散処理ノード１－３～１－１での処理がスキップされる。

（４）分散処理ノード１－３において、データフレームｐ２とデータフレームｐ４とのレイヤー情報の比較が発生する。入力層に近い方のデータフレームｐ４は、分散処理ノード１－３において、勾配計算および集計処理が行われ、隣接する分散処理ノード１－４へ送信される。一方、出力層に近い方のデータフレームｐ２は、分散処理ノード１－３以降の分散処理ノード１－４～１－２での処理がスキップされる。

（５）分散処理ノード１－４において、データフレームｐ３とデータフレームｐ４とのレイヤー情報の比較が発生する。入力層に近い方のデータフレームｐ４は、分散処理ノード１－４において、勾配計算および集計処理が行われ、計算は終了する。一方、出力層に近い方のデータフレームｐ３は、分散処理ノード１－４の処理がスキップされる。

各データフレームについて同様の処理が行われ、データフレームｐ４、ｐ５、ｐ６、ｐ３、ｐ２、ｐ１の順で計算が終了する。このように、Ａｌｌｒｅｄｕｃｅ処理の返却を入力層側のデータから優先的に完了することができる。

以上説明したように、第３の実施の形態によれば、データフレームのヘッダにレイヤー情報および最初に勾配計算およびノード内での集計処理をスキップしたノードの情報が記録される。そのため、分散処理ノード１において、サンプル入力部１２から入力されるサンプルデータとの演算が不要である場合には、演算が不要とされるノードでの勾配計算およびノード内の集計処理をスキップするので、受信部１０から送信部１６にデータが移動するレイテンシが短縮され、入力層に近いデータから優先的に計算を終了できる。

［実施の形態４］
次に、本発明の第４の実施の形態について説明する。なお、以下の説明では、上述した第１から第３の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。

第３の実施の形態では、データフレームのヘッダにおいて、どの分散処理ノード１－１～１－４で最初に勾配計算およびノード内の集計処理がスキップされたかを示すノード情報が記録される場合について説明した。これに対して、第４の実施の形態では、データフレームのヘッダにおいて、分散処理ノード１－１～１－４それぞれにおいて、勾配計算および集計処理が実行済みであるか、あるいは、スキップしたのかを示す各分散処理ノード１－１～１－４ごとの計算実行状況を示すステータス情報が記述される。

［データ構造］
図１３は、本実施の形態に係るデータフレームのヘッダの構造を説明する模式図である。図１３に示すように、ヘッダのフィールドＦ１にはパケットがニューラルネットワークのどのレイヤーからのデータであるかを示すレイヤー情報が格納される。また、フィールドＦ２には、それぞれの分散処理ノード１－１～１－４に割り当てられた領域にそれぞれの分散処理ノード１－１～１－４での計算実行状況を示す値が格納される。

図１３の例では、分散処理ノード１－１、１－２に割り当てられた領域には、データフレームに対する勾配計算およびノード内の集計処理が実行済みであることを示す値「済」がそれぞれ格納されている。一方、分散処理ノード１－３に割り当てられている領域には、勾配計算および集計処理がスキップされたことを示す値「未」が格納されている。しかし、分散処理ノード１－４に割り当てられた領域においては、勾配計算および集計処理が実行済みであることを示す値「済」が格納されている。

各分散処理ノード１－１～１－４は、勾配計算およびノード内での集計処理を実行する場合およびこれらの処理をスキップする場合のいずれの場合においても、記録部１１３が、データフレームのヘッダに割り当てられている領域に、ステータス情報として、処理をスキップしたことを示す値「未」または、処理を実行したことを示す値「済」のいずれかを格納する。

［分散処理ノードの機能ブロック］
図１４は、本実施の形態に係る分散処理ノード１の機能ブロックの一例を示すブロック図である。図１４に示すように、本実施の形態では、監視部１７をさらに備える点で、第３の実施の形態に係る分散処理ノード１の構成と異なる。

監視部１７は、計算部１３において、計算処理に空きが生じているかを監視する。監視部１７は、計算部１３における勾配計算およびノード内での集計処理に空きがある場合には、記録部（第２記録部、第３記録部）１１３に、通知信号を入力する。

記録部１１３は、監視部１７からの通知信号を受信すると、バッファ１１０に保持されているデータフレームのヘッダのフィールドＦ２に割り当てられている領域に、値「済」を記録する。この場合、データフレームは、計算部１３において、勾配計算およびノード内での集計処理が実行される。

例えば、先に受信された第１データフレームｐ０１が前段の分散処理ノード１において、勾配計算および集計処理がスキップされて転送されてきたデータフレームである場合に、再び計算処理をスキップした分散処理ノード１に戻る前であっても、転送先の分散処理ノード１の計算処理に空きがある場合には、転送先の計算部１３において計算処理が実行される。

また、記録部１１３は、第３の実施の形態と同様に、自ノードでの勾配計算およびノード内での集計処理がスキップされる場合には、自ノードでの計算処理は未実行であることを示す値「未」をヘッダの所定の領域に記録する。

以上説明したように、第４の実施の形態によれば、各分散処理ノード１－１～１－４での計算実行状況を示すステータス情報がヘッダに格納されるので、ある分散処理ノード１において計算処理がスキップされたデータフレームであっても、後段の分散処理ノード１において処理ができる場合には、勾配計算および集計処理を実行する。そのため、計算状況に空きのある分散処理ノード１に計算を行わせることができ、Ａｌｌｒｅｄｕｃｅ処理時間をより短縮することができる。

なお、説明した実施の形態では、分散深層学習システムは、複数の分散処理ノード１－１～１－４を備える場合について例示したが、例えば、通信ネットワークＮＷを介して図示されない上位処理ノードと通信可能に接続されている場合がある。

以上、本発明の分散深層学習システムおよびデータ転送方法における実施の形態について説明したが、本発明は説明した実施の形態に限定されるものではなく、請求項に記載した発明の範囲において当業者が想定し得る各種の変形を行うことが可能である。

１，１－１～１－４…分散処理ノード、１０…受信部、１１…ヘッダ読取部、１２…サンプル入力部、１３…計算部、１４…勾配計算部、１５…集計処理部、１６…送信部、１１０…バッファ、１１１…判定部、１１２…転送部、１０１…ＣＰＵ、１０２…メインメモリ、１０３…ＧＰＵ、１０４…ＮＩＣ、１０５…ストレージ、１０６…Ｉ／Ｏ、ＮＷ…通信ネットワーク。

Claims

１方向に通信可能なリング型の通信ネットワークを構成する複数の分散処理ノードを備え、
ニューラルネットワークの学習データに基づく順伝搬計算および逆伝搬計算を、データフレーム単位で分散して反復的に行うとともに、逆伝搬計算の計算結果を足し合わせる集団通信を行う分散深層学習システムであって、
前記複数の分散処理ノードの各々は、
前記通信ネットワークを介して自ノードに到達した第１データフレームと、前記第１データフレームの次に自ノードに到達した第２データフレームを順次受信する受信部と、
前記受信部で受信された前記第１データフレームおよび前記第２データフレームそれぞれのヘッダに含まれる、前記第１データフレームおよび前記第２データフレームのそれぞれに含まれるデータが前記ニューラルネットワークの入力層、中間層、および出力層を含むいずれの層に属するデータであるかを示すレイヤー情報を読み取るヘッダ読取部と、
前記受信部によって受信された前記第１データフレームから前記ヘッダ読取部によって読み取られたレイヤー情報と、前記第１データフレームの次に受信された前記第２データフレームから読み取られたレイヤー情報とを比較し、前記第１データフレームと前記第２データフレームとが、それぞれ前記入力層と前記出力層とのいずれにより近い層に属するデータを含むデータフレームであるかを判定する判定部と、
前記判定部による判定結果に基づいて、前記第１データフレームと前記第２データフレームとのうち、前記入力層により近い層に属するデータを含むデータフレームに対して、前記ニューラルネットワークの順伝搬計算の結果を示すサンプルデータの入力に基づいた計算処理を実行する計算部と、
前記判定部による判定結果に基づいて、前記第１データフレームと前記第２データフレームとのうち、前記出力層により近い層に属するデータを含むデータフレームに対する前記計算処理をスキップさせる転送部と、
前記計算部または前記転送部によって処理された前記第１データフレームおよび前記第２データフレームを、後段の分散処理ノードへ送信する送信部と
を備え、
前記送信部は、前記第１データフレームと前記第２データフレームとのうち、前記転送部によって前記計算処理がスキップされたデータフレームを、前記計算部によって前記計算処理が実行されたデータフレームより先に、前記後段の分散処理ノードへ送信する
ことを特徴とする分散深層学習システム。
請求項１に記載の分散深層学習システムにおいて、
前記計算部は、
前記サンプルデータごとに前記ニューラルネットワークの重みに対する勾配を計算する勾配計算部と、
前記勾配計算部によって計算された前記勾配を集計する集計処理部と
を備える
ことを特徴とする分散深層学習システム。
請求項１または請求項２に記載の分散深層学習システムにおいて、
前記複数の分散処理ノードの各々は、
前記第１データフレームと前記第２データフレームとのうち、前記出力層により近い層に属するデータを含むデータフレームであると前記判定部が判定したデータフレームのヘッダに、自ノードを識別するノード情報を記録する第１記録部をさらに備え、
前記転送部は、受信された前記第１データフレームと前記第２データフレームとの
うち、ヘッダに自ノード以外の他の分散処理ノードを示すノード情報が記録されているデータフレームに対する前記計算処理をスキップさせる
ことを特徴とする分散深層学習システム。
請求項２に記載の分散深層学習システムにおいて、
前記第１データフレームおよび前記第２データフレームそれぞれのヘッダには、前記レイヤー情報と、前記複数の分散処理ノードの各々において、前記計算部による前記計算処理が実行されたか否かを示すステータス情報とが格納され、
前記複数の分散処理ノードの各々は、
前記第１データフレームと前記第２データフレームとのうち、前記転送部が前記計算処理をスキップさせるデータフレームのヘッダに割り当てられている前記ステータス情報を格納する領域に、前記計算部での前記計算処理が未実行であることを示す前記ステータス情報を記録する第２記録部と、
前記判定部による判定結果に基づいて、前記第１データフレームと前記第２データフレームとのうち、前記計算部で前記計算処理が実行されるデータフレームのヘッダに割り当てられている前記ステータス情報を格納する前記領域に、前記計算部での前記計算処理が実行済みであることを示す前記ステータス情報を記録する第３記録部と
をさらに備える
ことを特徴とする分散深層学習システム。
請求項４に記載の分散深層学習システムにおいて、
前記複数の分散処理ノードの各々は、
前記勾配計算部での計算が行われているか否かを監視する監視部をさらに備え、
前記第３記録部は、前記勾配計算部での計算が行われていないことを示す信号が前記監視部から入力された場合に、前記受信部で受信されたデータフレームのヘッダに割り当てられている前記ステータス情報を格納する前記領域に、前記計算部での前記計算処理が実行済みであることを示す前記ステータス情報を記録し、
前記計算部は、前記第３記録部によって前記ステータス情報が記録された前記データフレームに対する前記計算処理を実行する
ことを特徴とする分散深層学習システム。
請求項１から５のいずれか１項に記載の分散深層学習システムにおいて、
前記データフレームは、前記ニューラルネットワークの層ごとの学習データを送信できるフレームサイズを有する
ことを特徴とする分散深層学習システム。
１方向に通信可能なリング型の通信ネットワークを構成する複数の分散処理ノードを備え、
ニューラルネットワークの学習データに基づく順伝搬計算および逆伝搬計算を、データフレーム単位で分散して反復的に行うとともに、逆伝搬計算の計算結果を足し合わせる集団通信を行う分散深層学習システムにより実行されるデータ転送方法であって、
前記複数の分散処理ノードの各々は、
前記通信ネットワークを介して自ノードに到達した第１データフレームと、前記第１データフレームの次に自ノードに到達した第２データフレームとを順次受信する第１ステップと、
前記第１ステップで受信された前記第１データフレームおよび前記第２データフレームそれぞれのヘッダに含まれる、前記第１データフレームおよび前記第２データフレームのそれぞれに含まれるデータが前記ニューラルネットワークの入力層、中間層、および出力層を含むいずれの層に属するデータであるかを示すレイヤー情報を読み取る第２ステップと、
前記第１ステップで受信された前記第１データフレームから前記第２ステップで読み取られたレイヤー情報と、前記第１データフレームの次に受信された前記第２データフレームから読み取られたレイヤー情報とを比較し、前記第１データフレームと前記第２データフレームとが、それぞれ前記入力層と前記出力層とのいずれにより近い層に属するデータを含むデータフレームであるかを判定する第３ステップと、
前記第３ステップでの判定結果に基づいて、前記第１データフレームと前記第２データフレームとのうち、前記入力層により近い層に属するデータを含むデータフレームに対して、前記ニューラルネットワークの順伝搬計算の結果を示すサンプルデータの入力に基づいた計算処理を実行する第４ステップと、
前記第３ステップでの判定結果に基づいて、前記第１データフレームと前記第２データフレームとのうち、前記出力層により近い層に属するデータを含むデータフレームに対する前記計算処理をスキップさせる第５ステップと、
前記第４ステップまたは前記第５ステップで処理された前記第１データフレームおよび前記第２データフレームを、後段の分散処理ノードへ送信する第６ステップと
を備え、
前記第６ステップは、前記第１データフレームと前記第２データフレームとのうち、前記第５ステップで前記計算処理がスキップされたデータフレームを、前記第４ステップで前記計算処理が実行されたデータフレームより先に、前記後段の分散処理ノードへ送信する
ことを特徴とするデータ転送方法。