JP7287493B2

JP7287493B2 - 分散深層学習システムおよび分散深層学習方法

Info

Publication number: JP7287493B2
Application number: JP2021555716A
Authority: JP
Inventors: 勇輝有川; 顕至田仲; 猛伊藤; 和彦寺田; 健坂本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2023-06-06
Anticipated expiration: 2039-11-14
Also published as: US20220391666A1; WO2021095196A1; JPWO2021095196A1

Description

本発明は、分散深層学習システムおよび分散深層学習方法に関し、特に、ネットワークで連携する複数の計算ノードで分散協調して実行する分散深層学習技術に関する。

近年、様々な情報やデータに対する機械学習の活用により、サービスの高度化および付加価値の提供が盛んに行われている。その際の機械学習には大きな計算リソースが必要な場合が多い。特に、深層学習と呼ばれるニューラルネットワークを用いた機械学習においては、ニューラルネットワークの構成パラメータを最適化する工程である学習において、大量の学習データを処理する必要がある。この学習処理を高速化するために、複数の演算装置で並列処理することが１つの解決法である。

例えば、非特許文献１には、４台の計算ノードと、インフィニバンドスイッチとがインフィニバンドネットワーク（InfiniBand network）を介して接続された分散深層学習システムが開示されている。各計算ノードには、それぞれ４台のＧＰＵ（Graphics Processing Unit）が搭載されている。非特許文献１に開示された分散深層学習システムでは、４台の計算ノードによって、学習演算を並列処理することによって高速化を図っている。

また、非特許文献２には、８台のＧＰＵを搭載した計算ノード（ＧＰＵサーバ）とイーサネット（登録商標）スイッチとがイーサネットネットワークを介して接続された構成が開示されている。この非特許文献２には、計算ノードの数として、１台、２台、４台、８台、１６台、３２台、４４台用いた場合の例がそれぞれ開示されている。

非特許文献２に開示されたシステム上では、分散同期確率的勾配降下法（Distributed synchronous SGD（Stochastic Gradient Descent））を用いて機械学習を行う。具体的には、以下の手順で機械学習が行われる。

（１）学習データの一部を抜き出す。抜き出した学習データの集合をミニバッチと呼ぶ。
（２）ミニバッチをＧＰＵの台数分に分けて、各ＧＰＵに割り当てる。
（３）各ＧＰＵにおいて、（２）で割り当てられた学習データを入力した場合のニューラルネットワークからの出力値が、正解（「教師データ」と呼ぶ。）からどれだけ乖離しているかの指標となる損失関数Ｌ（ｗ）を求める。この損失関数を求める工程では、ニューラルネットワークの入力側の層から出力側の層に向かって順番に出力値を計算していくことから、この工程を順伝搬（forward propagation）と呼ぶ。

（４）各ＧＰＵにおいて、（３）で求めた損失関数値に対するニューラルネットワークの各構成パラメータ（ニューラルネットワークの重み等）による偏微分値（勾配）を求める。この工程では、ニューラルネットワークの出力側の層から入力側の層に向かって順番に各層の構成パラメータに対する勾配を計算していくことから、この工程を逆伝搬（backpropagation）と呼ぶ。

（５）ＧＰＵ毎に計算した勾配の平均を計算する。
（６）各ＧＰＵにおいて、（５）で計算した勾配の平均値を用いて、確率的勾配降下法（SGD:Stochastic Gradient Descent）を用いて、損失関数Ｌ（ｗ）がより小さくなるように、ニューラルネットワークの各構成パラメータを更新する。確率的勾配降下法は、各構成パラメータの値を勾配の方向に微少量変更することにより、損失関数Ｌ（ｗ）を小さくするという計算処理である。この処理を繰り返すことによって、ニューラルネットワークは、損失関数Ｌ（ｗ）が小さい、すなわち、正解に近い出力をする精度の高いものに更新されていく。

また、非特許文献３には、８台のＧＰＵを搭載した計算ノード１２８台がインフィニバンドネットワーク（InfiniBand network）を介して接続された構成を有する分散深層学習システムが開示されている。

非特許文献１～３に開示されているいずれの従来の分散深層学習システムにおいても、計算ノード数が増えるにしたがい、学習速度が上がり、学習時間を短縮できることが示されている。この場合、各計算ノードで算出した勾配等のニューラルネットワーク構成パラメータの平均値を計算するため、これらの構成パラメータを計算ノード間で送受信することにより、平均値算出等の計算を行う必要がある。

一方において、並列処理数を増やすために、ノード数を増やすと、必要な通信処理は急速に増大する。従来技術のように、計算ノード上で平均値算出等の演算処理やデータの送受信処理をソフトウェアで行う場合、通信処理に伴うオーバヘッドが大きくなり、学習効率を十分に上げることが難しくなるという課題があった。

例えば、非特許文献３には、学習処理を１００サイクル行うのにかかる所要時間と、このうちの通信にかかる時間と、ＧＰＵ数との関係が開示されている。この関係によると、ＧＰＵ数が増えるにしたがい通信にかかる時間が増加しており、特にＧＰＵ数が５１２以上のところで急激に増加している。

Rengan Xu and Nishanth Dandapanthu.，"NVIDIA（登録商標） Tesla（登録商標） P100 GPUによるディープラーニングのパフォーマンス"，デル株式会社，２０１６年，インターネット＜http://ja.community.dell.com/techcenter/m/mediagallery/3765/download＞ Priya Goyal，Piotr Dollar，Ross Girshick，Pieter Noordhuis，Lukasz Wesolowski，Aapo Kyrola，Andrew Tulloch，Yangqing Jia，Kaiming He，"Accurate，Large Minibatch SGD:Training ImageNet in 1 Hour"，米国コーネル大学ライブラリー，arXiv:1706.02677，2017，インターネット＜https://arxiv.org/abs/1706.02677＞ Takuya Akiba，Shuji Suzuki，Keisuke Fukuda，"Extremely Large Minibatch SGD:Training ResNet-50 on ImageNet in 15 Minutes"，米国コーネル大学ライブラリー，arXiv:1711.04325，2017，インターネット＜https://arxiv.org/abs/1711.04325＞

しかし、従来の分散深層学習システムでは、通信ネットワークに接続される計算ノードの数が増加すると、計算ノード間での協調処理の高速化が抑制される問題があった。

本発明は、上述した課題を解決するためになされたものであり、通信ネットワークに接続される計算ノードの数が増加しても、計算ノード間での協調処理を高速に行うことを目的とする。

上述した課題を解決するために、本発明に係る分散深層学習システムは、通信ネットワークを介して互いに接続された複数の計算ノードを備え、前記複数の計算ノードの各々は、ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算装置と、前記演算装置から出力された前記第１演算結果を記憶する第１記憶装置と、前記第１記憶装置に記憶された前記第１演算結果を、他の計算ノードに送信する第１送信回路と、他の計算ノードからの第１演算結果を受信する第１受信回路と、前記第１記憶装置に記憶されている前記第１演算結果と、前記第１受信回路で受信された前記他の計算ノードからの第１演算結果との和である第２演算結果を求める加算回路と、前記第２演算結果を、他の計算ノードへ送信する第２送信回路と、他の計算ノードからの第２演算結果を受信する第２受信回路とを有するネットワーク処理装置とを備えることを特徴とする。

上述した課題を解決するために、本発明に係る分散深層学習システムは、通信ネットワークを介して互いに接続された複数の計算ノードと、集約ノードと、を備え、前記複数の計算ノードの各々は、ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算装置と、前記演算装置から出力された前記第１演算結果を、前記集約ノードに送信する第１送信回路と、前記集約ノードから、前記複数の計算ノードで計算された第１演算結果の和である第２演算結果を受信する第１受信回路とを有する第１ネットワーク処理装置と、前記第１受信回路で受信された前記第２演算結果を記憶する第１記憶装置とを有し、前記集約ノードは、前記複数の計算ノードからの第１演算結果を受信する第２受信回路と、前記第２受信回路で受信された第１演算結果の和である前記第２演算結果を求める加算回路と、前記加算回路で求められた前記第２演算結果を、前記複数の計算ノードへ送信する第２送信回路とを有する第２ネットワーク処理装置と、前記第２受信回路で受信された前記複数の計算ノードからの第１演算結果を記憶する第２記憶装置とを有し、前記加算回路は、前記第２記憶装置に記憶されている前記複数の計算ノードからの第１演算結果を読み出して、前記第２演算結果を求めることを特徴とする。

上述した課題を解決するために、本発明に係る分散深層学習方法は、通信ネットワークを介して互いに接続された複数の計算ノードを備える分散深層学習システムによって実行される分散深層学習方法であって、前記複数の計算ノードの各々は、ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算ステップと、前記演算ステップで出力された前記第１演算結果を第１記憶装置に記憶する第１記憶ステップと、前記第１記憶装置に記憶された前記第１演算結果を、他の計算ノードに送信する第１送信ステップと、他の計算ノードからの第１演算結果を受信する第１受信ステップと、前記第１記憶装置に記憶されている前記第１演算結果と、前記第１受信ステップで受信された前記他の計算ノードからの第１演算結果との和である第２演算結果を求める加算ステップと、前記第２演算結果を、他の計算ノードへ送信する第２送信ステップと、他の計算ノードからの第２演算結果を受信する第２受信ステップとを有するネットワーク処理ステップとを備えることを特徴とする。

上述した課題を解決するために、本発明に係る分散深層学習方法は、通信ネットワークを介して互いに接続された複数の計算ノードと、集約ノードと、を備える分散深層学習システムによって実行される分散深層学習方法であって、前記複数の計算ノードの各々は、ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算ステップと、前記演算ステップで出力された前記第１演算結果を、前記集約ノードに送信する第１送信ステップと、前記集約ノードから、前記複数の計算ノードで計算された第１演算結果の和である第２演算結果を受信する第１受信ステップとを有する第１ネットワーク処理ステップと、前記第１受信ステップで受信された前記第２演算結果を第１記憶装置に記憶する第１記憶ステップとを有し、前記集約ノードは、前記複数の計算ノードからの第１演算結果を受信する第２受信ステップと、前記第２受信ステップで受信された第１演算結果の和である前記第２演算結果を求める加算ステップと、前記加算ステップで求められた前記第２演算結果を、前記複数の計算ノードへ送信する第２送信ステップとを有する第２ネットワーク処理ステップと、前記第２受信ステップで受信された前記複数の計算ノードからの第１演算結果を第２記憶装置に記憶する第２記憶ステップとを有し、前記加算ステップは、前記第２記憶装置に記憶されている前記複数の計算ノードからの第１演算結果を読み出して、前記第２演算結果を求めることを特徴とする。

本発明によれば、通信ネットワークを介して互いに接続された複数の計算ノードの各々は、第１記憶装置に記憶されている演算装置から出力された第１演算結果と、第１受信回路で受信された他の計算ノードからの第１演算結果との和である第２演算結果を求める加算回路を備えたネットワーク処理装置を有する。そのため、通信ネットワークに接続される計算ノードの数が増加しても、計算ノード間での協調処理をより高速に行うことができる。

図１は、本発明の第１の実施の形態に係る分散深層学習システムの構成を示すブロック図である。図２は、ニューラルネットワークの学習処理を説明するための図である。図３は、隠れ層の計算例を説明するための図である。図４は、隠れ層の計算例を説明するための図である。図５は、複数の計算ノードの記憶部に分割して記憶される重みパラメータを説明するための図である。図６は、従来例に係る計算ノードの構成を示すブロック図である。図７は、第１の実施の形態に係る計算ノードのハードウェア構成の一例を示すブロック図である。図８は、第１の実施の形態に係る計算ノードの動作を説明するフローチャートである。図９は、第１の実施の形態に係る分散深層学習システムの動作を説明するためのシーケンス図である。図１０は、第２の実施の形態に係る分散深層学習システムの構成を示すブロック図である。図１１は、第２の実施の形態に係る計算ノードの構成を示すブロック図である。図１２は、第２の実施の形態に係る集約ノードの構成を示すブロック図である。図１３は、第２の実施の形態に係る集約ノードのハードウェア構成の一例を示すブロック図である。図１４は、第２の実施の形態に係る計算ノードの動作を説明するためのフローチャートである。図１５は、第２の実施の形態に係る集約ノードの動作を説明するためのフローチャートである。図１６は、第２の実施の形態に係る分散深層学習システムの動作を説明するためのシーケンス図である。

以下、本発明の好適な実施の形態について、図１から図１６を参照して詳細に説明する。

［発明の概要］
はじめに、本発明の実施の形態に係る分散深層学習システムの概要について図１から図５を参照して説明する。図１に示すように、本発明の実施の形態に係る分散深層学習システムは、通信ネットワークを介して接続された、複数の計算ノード１－１～１－３を備える。複数の計算ノード１－１～１－３の各々は、ニューラルネットワークの演算処理に含まれる行列積の一部を計算し、自ノードで計算した行列積の計算結果と、他の計算ノード１から受信した行列積の計算結果との和を求める。さらに、複数の計算ノード１－１～１－３の各々は、求めた行列積の計算結果の和を他の計算ノード１へ分配する。

本実施の形態に係る分散深層学習システムは、複数の計算ノード１－１～１－３の各々が、自ノードでの計算結果と他の計算ノード１からの計算結果との和を求める加算回路を、データの送受信を行うネットワーク処理装置に備えていることがその特徴の一つである。

なお、以下の説明において、計算ノード１－１～１－３を総称して計算ノード１ということがある。また、図１を含む各図では、説明の簡単のため、分散深層学習システムが３台の計算ノード１－１～１－３を備える場合について説明しているが、計算ノード１は、Ｎ（Ｎ≧２）個の任意の台数を用いることができる。

図２は、本発明に係る分散深層学習システムを用いて行うニューラルネットワークの学習処理の一例を示している。図３は、本発明に係る分散深層学習システムを用いて行うニューラルネットワークの学習処理での隠れ層の計算例を示している。図４は、本発明に係る分散深層学習システムを用いて行うニューラルネットワークの学習処理での隠れ層の計算を複数の計算ノードに分割して実施する例を示している。図５は、本発明の分散深層学習システムを用いてニューラルネットワークの学習処理を行う際の重みパラメータを複数の計算ノード１に分割して記憶している例を示している。

本発明の分散深層学習システムは、深層学習における学習データを用いてニューラルネットワークの重みの値を学習するトレーニングを、分散深層学習システム全体で行う。具体的には、学習ノードである各計算ノード１は、学習データとニューラルネットワークとを用いて、ニューラルネットワークの所定の演算処理を行い、重みデータの勾配を計算する。この所定の演算が完了した時点では、複数の計算ノード１の各々は互いに異なる重みデータの勾配を有している。

例えば、通信ネットワークに接続されたコンピューティングインタコネクト装置などでも実現されるネットワーク処理装置は、重みデータの勾配を集約し、集約したデータの平均化処理を行い、再度各計算ノード１に分配する。各計算ノード１は、平均化された重みデータの勾配を用いて、再度学習データと、ニューラルネットワークとを用いて、ニューラルネットワークの所定の演算処理を行う。この処理を繰り返すことで、分散深層学習システムは学習済みのニューラルネットワークモデルを取得する。

計算ノード１は、ソフトウェア的に構築された数学モデルであるニューラルネットワークの出力値を計算し、さらに、学習データに応じてニューラルネットワークの構成パラメータを更新して出力値の精度を向上させていく学習機能をもつ。

ニューラルネットワークは、各計算ノード１内に構築される。計算ノード１の実現方法としては、ＣＰＵやＧＰＵ上のソフトウェアで実現してもよいし、ＦＰＧＡ（Field Programmable Gate Array）やＡＳＩＣ（Application Specific Integrated Circuit）に形成したＬＳＩ（Large Scale Integration）回路で実現してもよい。なお、計算ノード１のハードウェア構成の具体的な例については後述する。

図２では、分散深層学習システムが備える３台の計算ノード１－１～１－３を用いて、入力ｘ_１～ｘ_６に対して、隠れ層（ｈ_１～ｈ_５）を計算することにより、出力ｙ_１～ｙ_６を求める場合を例示している。図２の例では、ニューラルネットワークのモデルを複数の計算ノード１に分割するモデル並列法を示している。一般に、本手法は、１台の計算ノード１に重みパラメータが収まらないような大規模なニューラルネットワークを学習する際に採用される。

図３に示すように、隠れ層の出力を求める場合、入力ｘと隠れ層ｈとの関係の強弱を表現するパラメータとして重み（ｗ）があり、入力ｘと重みｗとの積和演算を行うことで、隠れ層ｈの出力を求める。例えば、隠れ層ｈ_２の出力を求める場合、入力ｘ_１～ｘ_６と重みｗ_１２～ｗ_６２との積和演算を行うことで、隠れ層ｈ_２の出力を得る。

先に述べたように、ニューラルネットワークのモデルを複数の計算ノード１に分割するモデル並列法を用いた場合、具体的には、図４に示すように、計算ノード１－１と計算ノード１－２に跨って隠れ層ｈ_２の出力が計算される。各々の計算ノード１－１、１－２で計算された結果を加算することで、隠れ層ｈ_２の出力が計算される。このとき、各々の計算ノード１にて計算した結果を加算するために、集団通信が実施される。本発明では、この集団通信を高速化することを目的としている。

本明細書では、各計算ノード１で計算されたニューラルネットワークの演算処理に含まれる行列積の一部の計算結果を「部分演算結果」（第１演算結果）と呼び、部分演算結果の和を「全体演算結果」（第２演算結果）と呼ぶ。

同様に、計算ノード１－２と計算ノード１－３に跨って隠れ層ｈ_４の出力が計算される。また、隠れ層ｈ_１、ｈ_３、ｈ_５の出力については、複数の計算ノード１を跨ぐことなく計算が完了される。

図５は、複数の計算ノード１－１～１－３にて保持される重みパラメータｗを示している。各計算ノード１－１～１－３で保持することができる重みパラメータｗの数は、各計算ノード１－１～１－３が具備する使用可能なメモリ容量によって決まる。そのため、ニューラルネットワークのモデルサイズが大きくなると、重みパラメータｗの数も多くなり、各計算ノード１－１～１－３にてニューラルネットワーク全体の重みパラメータｗを保持できなくなる場合がある。この場合、図５に示すように、学習対象のニューラルネットワークの重みパラメータｗ_１１～ｗ_６５が各計算ノード１－１～１－３に分割して保持される。

［第１の実施の形態］
次に、本発明の第１の実施の形態に係る分散深層学習システムについて説明する。
図１に示すように、分散深層学習システムは、複数の計算ノード１－１～１－３を備える。複数の計算ノード１－１～１－３は、リング状の通信ネットワークで接続されている。また、本実施の形態に係る複数の計算ノード１－１～１－３は、双方向に通信可能な通信ネットワークで接続される。

［計算ノードの機能ブロック］
各計算ノード１－１～１－３は、図１に示すように、演算部（演算装置）１０、記憶部（第１記憶装置、第２記憶装置）１１、およびネットワーク処理部（ネットワーク処理装置）１２を備える。

演算部１０は、ニューラルネットワークの行列積の一部分を計算して部分演算結果を出力する。演算部１０は、図４および図５で説明したように、自ノードが保持するニューラルネットワークの重みパラメータｗと、入力ｘまたは隠れ層ｈの出力との行列積を計算する。隠れ層ｈの出力は、記憶部１１に保持されている全体演算結果１１１であり、他の計算ノード１から共有される。

記憶部１１は、部分演算結果（第１記憶装置）１１０、および全体演算結果（第２記憶装置）１１１を保持する領域を有する。また、記憶部１１は、ニューラルネットワークの重みパラメータｗのうち一部の重みパラメータｗを保持している。

部分演算結果１１０には、演算部１０から出力された部分演算結果が記憶されている。

全体演算結果１１１には、自ノードで求められた全体演算結果、および他の計算ノード１から受信された全体演算結果が記憶される。

ネットワーク処理部１２は、受信部（第１受信回路、第２受信回路）１２０、加算部（加算回路）１２１、および送信部（第１送信回路、第２送信回路）１２２を備える。

受信部１２０は、他の計算ノード１からの部分演算結果を、通信ネットワークを介して受信する。また、受信部１２０は、他の計算ノード１からの全体演算結果を受信する。

加算部１２１は、受信部１２０で受信された他の計算ノード１からの部分演算結果と、自ノードで計算した部分演算結果とを加算して全体演算結果を求める。加算部１２１は、例えば、論理回路を用いた加算回路で構成することができる。加算部１２１で求められた全体演算結果は、記憶部１１に記憶される。

送信部１２２は、記憶部１１に記憶されている自ノードの演算部１０で計算された部分演算結果を、通信ネットワークを介して他の計算ノード１に送信する。また、送信部１２２は、加算部１２１で求められた全体演算結果を通信ネットワークを介して他の計算ノード１に分配する。

なお、複数の計算ノード１－１～１－３の各々は、同様の機能構成を有する。

ここで、本実施の形態に係る分散深層学習システムが備える計算ノード１の構成と、図６に示す、従来例の分散深層学習システムが備える計算ノード１００の構成とを比較して説明する。

従来例に係る計算ノード１００は、図６に示すように、演算部１０００、記憶部１１００、およびネットワーク処理部１２００を備える。本実施の形態の計算ノード１は、図１で説明したように、ネットワーク処理部１２が他の計算ノード１から受信した部分演算結果と、自ノードで計算した部分演算結果との和を求める加算部１２１を備える。しかし、従来例の計算ノード１００は、演算部１０００が加算部１２２１を備える。

従来例の計算ノード１００では、他の計算ノード１００から受信した部分演算結果が、記憶部１１００にて他ノード部分演算結果１１１２に格納される。演算部１０００に設けられた加算部１２２１は、全体演算結果を求めるために記憶部１１００を構成するメモリに対してメモリアクセスを行う時間が加算される。したがって、全体の処理時間も本実施の形態の構成と比較して長くなる。

これに対して、本実施の形態に係る計算ノード１では、他の計算ノード１から受信した部分演算結果と自ノードで計算した部分演算結果との和をネットワーク処理部１２に設けられた加算部１２１で計算するため、従来例の計算ノード１００で生ずる追加のメモリアクセス時間は生じない。

［計算ノードのハードウェア構成］
次に、上述した機能を有する計算ノード１を実現するハードウェア構成の一例を、図７のブロック図を参照して説明する。

図５に示すように、計算ノード１は、例えば、ＣＰＵ１０１、メインメモリ１０２、ＧＰＵ１０３、ＮＩＣ１０４、ストレージ１０５、およびＩ／Ｏ１０６を備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。

メインメモリ１０２には、ＣＰＵ１０１およびＧＰＵ１０３が各種制御や演算を行うためのプログラムが予め格納されている。ＣＰＵ１０１、ＧＰＵ１０３、およびメインメモリ１０２によって、図１に示した演算部１０、加算部１２１など、計算ノード１の各機能が実現される。

ＮＩＣ１０４は、計算ノード１間や各種外部電子機器との間をネットワーク接続するためのインターフェース回路である。ＮＩＣ１０４は図１の受信部１２０および送信部１２２を実現する。ＮＩＣ１０４は、例えば、１００ＧｂｉｔＥｔｈｅｒｎｅｔ（登録商標）での通信に対応したデバイス間のインターフェースを用いることができる。

ストレージ１０５は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。ストレージ１０５には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。ストレージ１０５は、図１で説明した記憶部１１を実現する。

ストレージ１０５は、計算ノード１が行列積を含むニューラルネットワークの演算などの分散深層学習処理を実行するためのプログラムを格納するプログラム格納領域を有する。ストレージ１０５は、例えば、上述したデータやプログラムやなどをバックアップするためのバックアップ領域などを有していてもよい。

Ｉ／Ｏ１０６は、外部機器からの信号を入力したり、外部機器へ信号を出力したりする
ネットワークポートにより構成される。ネットワークポートは、例えば、２つ以上のネットワークポートを用いることができる。

加算回路１０７は、例えば、基本論理ゲートによって構成される加算回路などを用いることができる。加算回路１０７は、図１で説明した加算部１２１を実現する。なお、本実施の形態では、加算回路１０７は、ＮＩＣ１０４およびＩ／Ｏ１０６を含むネットワーク処理装置に設けられる。また、ＣＰＵ１０１、メインメモリ１０２、ＧＰＵ１０３、ストレージ１０５によって演算装置が構成される。

本実施の形態に係る通信ネットワークＮＷは、例えば、１００ＧｂｉｔＥｔｈｅｒｎｅｔなど広帯域のネットワークが用いられる。

［計算ノードの動作］
まず、上述した構成を有する各計算ノード１の動作について、図８のフローチャートを用いて説明する。以下において、記憶部１１には、予めニューラルネットワークモデル、入力ｘ、重みパラメータｗの一部分がロードされている。

まず、演算部１０は、ニューラルネットワークの学習における行列積の一部を計算する（ステップＳ１）。

次に、演算部１０によって求められた部分演算結果が記憶部１１に記憶されると（ステップＳ２：ＹＥＳ）、ネットワーク処理部１２は、集団通信を開始する（ステップＳ３）。一方、自ノードで計算した部分演算結果が得られていない場合には（ステップＳ２：ＮＯ）、ステップＳ１での演算が実行される（ステップＳ１）。

例えば、分散深層学習システムが同期システムである場合を考える。同期システムでは、全ての計算ノード１－１～１－３での行列積の一部の計算が完了したことを契機に、得られた部分演算結果を集団通信して共有する。そのため、計算ノード１－１～１－３は、所定の契機が訪れるまでの自ノードで計算された部分演算結果を記憶部１１において保持する。

なお、同期システムの場合であっても、必ずしも全ての計算ノード１－１～１－３での演算部１０による計算の完了を待つ必要はなく、例えば、分散深層学習システムを構成する一部の計算ノード１における計算が完了したことを契機とすることもある。

例えば、計算ノード１－１および計算ノード１－２の計算が完了した時点でｈ_２を求めることができるため、計算ノード１－３の計算完了を待たずとも集団通信を開始することもある。

一方において、分散深層学習システムが、他の計算ノード１での計算の完了を待つことなく集団通信を開始する非同期システムを採用する場合には、各計算ノード１－１～１－３での部分演算結果の計算が完了した時点で、所定の計算ノード１との集団通信を開始する。この場合、部分演算結果のデータを受信した計算ノード１において、自ノードでの部分演算の計算が完了するまでの間、受信された部分演算結果が記憶部１１において一時的に蓄積される。

ステップＳ３で、ネットワーク処理部１２が集団通信を開始すると、送信部１２２は、自ノードで計算した部分演算結果を、通信ネットワークを介して他の計算ノード１へ送信する。また、受信部１２０は、他の計算ノード１において計算された部分演算結果を受信する。このとき、図１に示すように、送信部１２２は、予め決められた他の計算ノード１を送信先として部分演算結果を送信する。また、受信部１２０は、ネットワーク接続されている予め決められている他の計算ノード１から部分演算結果を受信する。

次に、加算部１２１は、自ノードで求めた部分演算結果と、他の計算ノード１から受信した部分演算結果との和である全体演算結果を求める（ステップＳ４）。

次に、ネットワーク処理部１２は、ステップＳ４で求められた全体演算結果を、他の計算ノード１に分配する（ステップＳ５）。具体的には、送信部１２２が、加算部１２１によって求められた全体演算結果を、通信ネットワークを介して他の計算ノード１へ送信する。その後、複数の計算ノード１－１～１－３により計算された部分演算結果の和である全体演算結果は記憶部１１に記憶される。

［分散深層学習システムの動作］
次に、分散深層学習システムの動作について、図９のシーケンス図を参照して説明する。

図５で説明したように、計算ノード１－１は、入力ｘ_１～ｘ_４と隠れ層ｈ_２との結合を示す重みパラメータｗ_１２～ｗ_４２を保持している。一方、計算ノード１－２は、その他の入力ｘ_５、ｘ_６と隠れ層ｈ_２との重みパラメータｗ_５２、ｗ_６２を保持している。

同様に、図５で説明したように、計算ノード１－２は、入力ｘ_１～ｘ_２と隠れ層ｈ_４との結合を示す重みパラメータｗ_１４～ｗ_２４を保持している。一方、計算ノード１－３は、その他の入力ｘ_３～ｘ_６と隠れ層ｈ_４との重みパラメータｗ_３４～ｗ_６４を保持している。

図９に示すように、計算ノード１－１の演算部１０は、［ｘ_１＊ｗ_１２＋ｘ_２＊ｗ_２２＋ｘ_３＊ｗ_３２＋ｘ_４＊ｗ_４２］を計算して、部分演算結果を求める（ステップＳ１００）。一方、計算ノード１－２の演算部１０は、［ｘ_５＊ｗ_５２＋ｘ_６＊ｗ_６２］および［ｘ_１＊ｗ_１４＋ｘ_２＊ｗ_２４］を計算した部分演算結果を求める。計算ノード１－２は、［ｘ_５＊ｗ_５２＋ｘ_６＊ｗ_６２］の部分演算結果を計算ノード１－１に送信する（ステップＳ１０１）。

次に、計算ノード１－１は、ネットワーク処理部１２の加算部１２１で、自ノードで求めた部分演算結果と、計算ノード１－２から送信された部分演算結果とを加算して、全体演算結果を求める（ステップＳ１０２）。これにより、隠れ層ｈ_２の出力を示す全体演算結果が得られる。

その後、計算ノード１－１の送信部１２２は、他の計算ノード１－２、１－３に隠れ層ｈ_２の出力を分配する（ステップＳ１０３）。

一方において、計算ノード１－３の演算部１０は、［ｘ_３＊ｗ_３４＋ｘ_４＊ｗ_４４＋ｘ_５＊ｗ_５４＋ｘ_６＊ｗ_６４］を計算して、部分演算結果を求め、計算ノード１－２に送信する（ステップＳ１０４）。次に、計算ノード１－２の加算部１２１は、ステップＳ１０１で求めたｈ_４に係る、［ｘ_１＊ｗ_１４＋ｘ_２＊ｗ_２４］を計算した部分演算結果と、計算ノード１－３から受信した部分演算結果とを加算して、全体演算結果を求める（ステップＳ１０５）。ステップＳ１０５で得られた全体演算結果は、隠れ層ｈ_４の出力を示す。

その後、計算ノード１－２は、ステップＳ１０５で求められた全体演算結果を、他の計算ノード１－１、１－３に分配する（ステップＳ１０６）。
以上のステップにより、隠れ層ｈ_２およびｈ_４の出力については、複数の計算ノード１－１～１－３を跨いだ部分演算結果の和により求められる。

一方において、隠れ層ｈ_１の出力については、図５に示すように、重みパラメータｗ_１１～ｗ_６１を保持している計算ノード１－１のみによって得られた部分演算結果が全体演算結果である出力として求められる。また、同様に隠れ層ｈ_３の出力については、重みパラメータｗ_１３～ｗ_６３を保持している計算ノード１－２のみによって求められる。さらに、隠れ層ｈ_５の出力については、重みパラメータｗ_１５～ｗ_６５を保持している計算ノード１－３のみによって求められる。

ここで、図９に示すように、本実施の形態に係る分散深層学習システムでは、自ノードで求めた部分演算結果の送信と、他の計算ノード１からの部分演算結果の受信と、全体演算結果の送受信とをそれぞれ異なる通信方向で実行する。

前述したように、例えば、１００ＧｂｉｔＥｔｈｅｒｎｅｔを用いて、各計算ノード１－１～１－３をリング状のネットワークで接続する場合を考える。この場合、片方向のみの通信を利用すると、最大通信速度は１００Ｇｂｐｓであるのに対して、双方向の通信帯域を利用することにより、最大通信速度１００Ｇｂｐｓ＊２＝２００Ｇｂｐｓとなる。

また、本実施の形態では、通信パケットを用いて、部分演算結果を共有するために送信部１２２が自ノードで計算した部分演算結果を他の計算ノード１へ送信し、受信部１２０が、他の計算ノード１からの部分演算結果を受信することができる。この場合、通信パケットには、自ノード宛の部分演算結果であるか否かを判定するための識別子が含まれる。

例えば、通信パケットのヘッダにおいて、計算ノード１－１～１－３ごとに異なるビット位置にフラグを立てるか立てないかで自ノード宛てのデータであるかを判別することができる。受信部１２０で受信した通信パケットのヘッダの自ノードのビット位置にフラグが立ってる場合、受信した通信パケットに含まれる部分演算結果は、自ノード宛のデータであると判定する。そして、自ノードで計算した部分演算結果と受信した他の計算ノード１からの部分演算結果との和である全体演算結果を求める。

また、複数の計算ノード１－１～１－３に跨って処理する場合、計算ノード１－１～１－３同士の主従関係を定義することもできる。例えば、重みパラメータｗ_１ｎを用いて部分演算を計算する計算ノード１－１をマスターの計算ノードとして、他の計算ノード１－２～１－３はマスターの計算ノード１－１へ部分演算結果を送信する構成とすることができる。

以上説明したように、第１の実施の形態によれば、複数の計算ノード１－１～１－３の各々は、自ノードで求めた部分演算結果を他の計算ノード１へ送信する送信部１２２と、他の計算ノード１からの部分演算結果を受信する受信部１２０と、受信部１２０で受信された他の計算ノード１からの部分演算結果と、自ノードでの部分演算結果との和である全体演算を行う加算部１２１を具備したネットワーク処理部１２を備える。

そのため、演算部１０において加算演算を行う必要がなくなり、それに付随するメモリのリードライトを削減できるため、通信ネットワークに接続される計算ノード１の数が増加しても、計算ノード１間での協調処理をより高速に行うことができる。

［第２の実施の形態］
次に、本発明の第２の実施の形態について説明する。なお、以下の説明では、上述した第１の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。

第１の実施の形態では、複数の計算ノード１－１～１－３の各々は、加算部１２１を備えたネットワーク処理部１２を有し、ネットワーク処理部１２において、自ノードで求めた部分演算結果と、他の計算ノード１より受信した部分演算結果との加算処理を行う場合について説明した。これに対して、第２の実施の形態では、複数の計算ノード１－１～１－３の各々で求められた部分演算結果を集約し、加算処理を行う集約ノード２を備える。以下、第１の実施の形態と異なる構成を中心に説明する。

［分散深層学習システムの構成］
図１０は、本実施の形態に係る分散深層学習システムの構成例を示すブロック図である。分散深層学習システムは、通信ネットワークを介して接続された複数の計算ノード１－１～１－３と、集約ノード２とを備える。

図１０に示すように、例えば、３台の計算ノード１－１～１－３と、１台の集約ノード２とが、スター型の通信ネットワークで接続されている。本実施の形態では、複数の計算ノード１－１～１－３と集約ノード２とによってニューラルネットワークの行列積を計算する。

［計算ノードの機能ブロック］
計算ノード１－１～１－３の各々は、図１０および図１１のブロック図に示すように、演算部（演算装置）１０、記憶部（第１記憶装置）１１、およびネットワーク処理部（第１ネットワーク処理装置）１２Ａを備える。

演算部１０は、ニューラルネットワークの学習を行うための行列積の一部分を計算して部分演算結果を出力する。

記憶部１１は、演算部１０で求められた自ノードの部分演算結果１１０および、全体演算結果１１１を記憶する。

ネットワーク処理部１２Ａは、受信部（第１受信回路）１２０と送信部（第１送信回路）１２２とを備える。
受信部１２０は、後述の集約ノード２から、複数の計算ノード１で計算された部分演算結果の和である全体演算結果を受信する。

送信部１２２は、自ノードで求めた部分演算結果を通信ネットワークを介して集約ノード２へ送信する。

［集約ノードの機能ブロック］
集約ノード２は、図１０および図１２に示すように、記憶部（第２記憶装置）２１とネットワーク処理部（第２ネットワーク処理装置）２２とを備える。集約ノード２は、複数の計算ノード１－１～１－３で計算された部分演算結果を集約し、加算処理を含む全体演算を行い、求められた全体演算結果を複数の計算ノード１－１～１－３に分配する。

記憶部２１は、計算ノード１－１～１－３の各々で求められた部分演算結果２１０を記憶する。

ネットワーク処理部２２は、受信部（第２受信回路）２２０、加算部（加算回路）２２１、および送信部（第２送信回路）２２２を備える。

受信部２２０は、複数の計算ノード１－１～１－３のそれぞれから、部分演算結果を受信する。受信された部分演算結果は、記憶部２１に記憶される。

加算部２２１は、受信部２２０で受信された複数の計算ノード１－１～１－３からの部分演算結果のうち、所定の部分演算結果の和である全体演算結果を求める。加算部２２１は、例えば、論理回路を用いた加算回路で構成することができる。

例えば、図２から図５で説明した具体例を用いると、隠れ層ｈ_２の出力は、計算ノード１－１、１－２で求められた部分演算結果を加算することで求められる。加算部２２１は、計算ノード１－１および１－２のそれぞれで求められた部分演算結果を加算して、隠れ層ｈ_２の出力である全体演算結果を求める。

送信部２２２は、加算部２２１によって求められた全体演算結果を、複数の計算ノード１－１～１－３に分配する。

［集約ノードのハードウェア構成］
次に、上述した機能を有する集約ノード２を実現するハードウェア構成の一例について図１３のブロック図を参照して説明する。

図１３に示すように、集約ノード２は、例えば、ＣＰＵ２０１、メインメモリ２０２、ＧＰＵ２０３、ＮＩＣ２０４、ストレージ２０５、およびＩ／Ｏ２０６を備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。

メインメモリ２０２には、ＣＰＵ２０１およびＧＰＵ２０３が各種制御や演算を行うためのプログラムが予め格納されている。ＣＰＵ２０１、ＧＰＵ２０３、およびメインメモリ２０２によって、図１２に示した加算部２２１など、集約ノード２の各機能が実現される。

ＮＩＣ２０４は、計算ノード１－１～１－３や各種外部電子機器との間をネットワーク接続するためのインターフェース回路である。ＮＩＣ２０４は図１２の受信部２２０および送信部２２２を実現する

ストレージ２０５は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。ストレージ２０５には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。ストレージ２０５は、図１２で説明した記憶部２１を実現する。

ストレージ２０５は、集約ノード２が計算ノード１－１～１－３からの部分演算結果の集約処理、全体演算処理、および分配処理を実行するためのプログラムを格納するプログラム格納領域を有する。ストレージ２０５は、例えば、上述したデータやプログラムやなどをバックアップするためのバックアップ領域などを有していてもよい。

Ｉ／Ｏ２０６は、外部機器からの信号を入力したり、外部機器へ信号を出力したりするネットワークポートにより構成される。ネットワークポートは、例えば、計算ノード１－１～１－３の数と同数設けることができる。あるいは、ネットワークスイッチを介して集約ノード２と計算ノード１－１～１－３とを接続することで、１つのネットワークポートを備えることもできる。

加算回路２０７は、例えば、基本論理ゲートによって構成される加算回路などを用いることができる。加算回路２０７は、図１２で説明した加算部２２１を実現する。なお、本実施の形態では、加算回路２０７は、ＮＩＣ２０４およびＩ／Ｏ２０６を含むネットワーク処理装置に設けられる。また、ＣＰＵ２０１、メインメモリ２０２、ＧＰＵ２０３、ストレージ２０５によって演算装置が構成される。

［計算ノードの動作］
次に、上述した構成を有する計算ノード１の動作について、図１４のフローチャートを参照して説明する。

まず、上述した構成を有する各計算ノード１の動作について、図８のフローチャートを用いて説明する。以下において、記憶部１１には、予めニューラルネットワークモデル、入力ｘ、重みパラメータｗの一部分がロードされている。

次に、演算部１０によって求められた部分演算結果が記憶部１１に記憶されると（ステップＳ２：ＹＥＳ）、ネットワーク処理部１２Ａの送信部１２２は、自ノードで求めた部分演算結果を集約ノード２へ送信する（ステップＳ１３）。一方、自ノードで計算した部分演算結果が得られていない場合には（ステップＳ２：ＮＯ）、ステップＳ１での演算が実行される（ステップＳ１）。

その後、ネットワーク処理部１２Ａの受信部１２０は、全体演算結果を集約ノード２から受信する（ステップＳ１４）。その後、受信された全体演算結果は、記憶部１１に格納される。なお、複数の計算ノード１－１～１－３は同様に動作する。

［集約ノードの動作］
次に、上述した構成を有する集約ノード２の動作について、図１５のフローチャートを用いて説明する。

まず、受信部２２０は、複数の計算ノード１－１～１－３で求められた部分演算結果を受信する（ステップＳ２０）。

次に、ネットワーク処理部２２は、受信した部分演算結果を記憶部２１で保持するか否かを判定する（ステップＳ２１）。例えば、分散深層学習システムが、複数の計算ノード１－１～１－３の各々での部分演算が完了次第、集約ノード２への部分演算結果の送信が開始される非同期システムを採用している場合に、ステップＳ２１での判定処理が行われる。

例えば、計算ノード１－１で計算された部分演算結果のみが受信されている場合（ステップＳ２１：ＹＥＳ）、ネットワーク処理部２２は、計算ノード１－１からの部分演算結果を記憶部２１に記憶させる（ステップＳ２２）。この場合、集約ノード２は、集団通信を行うために必要なすべての部分演算結果の受信が完了するまで、記憶部２１で受信済みの部分演算結果を一時的に蓄積する。

その後において、例えば、計算ノード１－２で計算された部分演算結果が受信された場合に、ネットワーク処理部２２は、計算ノード１－２の部分演算結果について、記憶部２１で記憶しないと判定し（ステップＳ２１：ＮＯ）、加算部２２１へ送出する（ステップＳ２３）。

加算部２２１は、記憶部２１に記憶されている計算ノード１－１の部分演算結果を読み出し、計算ノード１－２からの部分演算結果との和である全体演算結果を求める（ステップＳ２４）。その後、送信部２２２は、加算部２２１で求められた全体演算結果を通信ネットワークを介して複数の計算ノード１－１～１－３に分配する（ステップＳ２５）。

［分散深層学習システムの動作］
次に、上述した構成を有する集約ノード２および計算ノード１－１～１－３を備える分散深層学習システムの動作について図１５のシーケンス図を参照して説明する。なお、以下においては、分散深層学習システムは、図２から図５で説明した隠れ層ｈ_２の出力を求める場合について説明する。

図１５に示すように、計算ノード１－１の演算部１０では、［ｘ_１＊ｗ_１２＋ｘ_２＊ｗ_２２＋ｘ_３＊ｗ_３２＋ｘ_４＊ｗ_４２］を計算した部分演算結果が求められる。計算ノード１－１の送信部１２２は、部分演算結果を集約ノード２へ送信する（ステップＳ２００）。一方、計算ノード１－２の演算部１０では、［ｘ_５＊ｗ_５２＋ｘ_６＊ｗ_６２］を計算した部分演算結果が求められる。計算ノード１－２は、集約ノード２に部分演算結果を送信する（ステップＳ２０１）。

次に、集約ノード２は、計算ノード１－１および１－２から部分演算結果を受信すると、加算部２２１でこれらの部分演算結果の和である全体演算結果を求める（ステップＳ２０２）。

その後、集約ノード２は、送信部２２２から隠れ層ｈ_２の出力を示す全体演算結果を計算ノード１－１～１－３に送信して分配する（ステップＳ２０３）。

なお、分散深層学習システムは、上述した非同期システムを採用する場合だけでなく、同期システムを採用することもできる。同期システムの場合、複数の計算ノード１－１～１－３の全てでの部分演算の完了を契機に、複数の計算ノード１－１～１－３は、集約ノード２に部分演算結果の送信を開始する。この場合、図１５のステップＳ２１で行われた、記憶部２１への記憶をするか否かの判定処理は省略される。

また、同期システムが採用される場合であっても、例えば、計算ノード１－１および計算ノード１－２での計算が完了した時点で、隠れ層ｈ_２の出力を求めることができるため、計算ノード１－３の計算の完了を待たずとも集約ノード２での部分演算結果の集約を介して、集団通信を開始することも可能である。

以上説明したように、第２の実施の形態によれば、集約ノード２が複数の計算ノード１－１～１－３の各々で求められた部分演算結果を受信して、これらの部分演算結果を加算して全体演算結果を求める。さらに、求めた全体演算結果を、通信ネットワークを介して複数の計算ノード１－１～１－３に分配する。集約ノード２では、加算処理のみを行えばよいため演算部１０が不要となる。そのため、第２の実施の形態によれば、加算処理を演算部１０でソフトウェア的に処理した従来例と比較して、通信ネットワークに接続される計算ノードの数が増加しても、計算ノード間での協調処理をより高速に行うことができる。

なお、説明した実施の形態では、複数の計算ノード１－１～１－３がニューラルネットワークモデルを分割して分散学習を行うことにより、ニューラルネットワークの全体の学習を行い、集団通信の高速化を行う場合を例示した。しかし、本実施の形態に係る分散深層学習システムは、学習処理に適用する他にも、推論処理など、行列の積和演算を含む大規模行列計算にも適用することで、処理を高速化することができる。

以上、本発明の分散深層学習システムおよび分散深層学習方法における実施の形態について説明したが、本発明は説明した実施の形態に限定されるものではなく、請求項に記載した発明の範囲において当業者が想定し得る各種の変形を行うことが可能である。

１，１－１，１－２，１－３…計算ノード、１０…演算部、１１…記憶部、１２…ネットワーク処理部、１１０…部分演算結果、１１１…全体演算結果、１２０…受信部、１２１…加算部、１２２…送信部、１０１…ＣＰＵ、１０２…メインメモリ、１０３…ＧＰＵ、１０４…ＮＩＣ、１０５…ストレージ、１０６…Ｉ／Ｏ。

Claims

通信ネットワークを介して互いに接続された複数の計算ノードを備え、
前記複数の計算ノードの各々は、
ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算装置と、
前記演算装置から出力された前記第１演算結果を記憶する第１記憶装置と、
前記第１記憶装置に記憶された前記第１演算結果を、他の計算ノードに送信する第１送信回路と、
他の計算ノードからの第１演算結果を受信する第１受信回路と、
前記第１記憶装置に記憶されている前記第１演算結果と、前記第１受信回路で受信された前記他の計算ノードからの第１演算結果との和である第２演算結果を求める加算回路と、
前記第２演算結果を、他の計算ノードへ送信する第２送信回路と、
他の計算ノードからの第２演算結果を受信する第２受信回路と
を有するネットワーク処理装置と
を備える
ことを特徴とする分散深層学習システム。
請求項１に記載の分散深層学習システムにおいて、
前記複数の計算ノードは、リング状の通信ネットワークを構成し、
前記ネットワーク処理装置は、複数のネットワークポートを備え、
前記第１送信回路、前記第１受信回路、前記第２送信回路、および前記第２受信回路にそれぞれ割り当てられた複数のネットワークポートを備える
ことを特徴とする分散深層学習システム。
請求項１または請求項２に記載の分散深層学習システムにおいて、
前記複数の計算ノードの各々は、
前記第２演算結果を記憶する第２記憶装置をさらに備え、
前記第２記憶装置は、前記加算回路で求められた前記第２演算結果、および前記第２受信回路で受信された前記他の計算ノードからの第２演算結果を記憶する
ことを特徴とする分散深層学習システム。
通信ネットワークを介して互いに接続された複数の計算ノードと、集約ノードと、を備え、
前記複数の計算ノードの各々は、
ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算装置と、
前記演算装置から出力された前記第１演算結果を、前記集約ノードに送信する第１送信回路と、
前記集約ノードから、前記複数の計算ノードで計算された第１演算結果の和である第２演算結果を受信する第１受信回路と
を有する第１ネットワーク処理装置と、
前記第１受信回路で受信された前記第２演算結果を記憶する第１記憶装置と
を有し、
前記集約ノードは、
前記複数の計算ノードからの第１演算結果を受信する第２受信回路と、
前記第２受信回路で受信された第１演算結果の和である前記第２演算結果を求める加算回路と、
前記加算回路で求められた前記第２演算結果を、前記複数の計算ノードへ送信する第２送信回路と
を有する第２ネットワーク処理装置と、
前記第２受信回路で受信された前記複数の計算ノードからの第１演算結果を記憶する第２記憶装置と
を有し、
前記加算回路は、前記第２記憶装置に記憶されている前記複数の計算ノードからの第１演算結果を読み出して、前記第２演算結果を求める
ことを特徴とする分散深層学習システム。
請求項４に記載の分散深層学習システムにおいて、
前記複数の計算ノードと、前記集約ノードとは、前記複数の計算ノードの各々と前記集約ノードとが互いに接続されたスター型の通信ネットワークを構成することを特徴とする分散深層学習システム。
通信ネットワークを介して互いに接続された複数の計算ノードを備える分散深層学習システムによって実行される分散深層学習方法であって、
前記複数の計算ノードの各々は、
ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算ステップと、
前記演算ステップで出力された前記第１演算結果を第１記憶装置に記憶する第１記憶ステップと、
前記第１記憶装置に記憶された前記第１演算結果を、他の計算ノードに送信する第１送信ステップと、
他の計算ノードからの第１演算結果を受信する第１受信ステップと、
前記第１記憶装置に記憶されている前記第１演算結果と、前記第１受信ステップで受信された前記他の計算ノードからの第１演算結果との和である第２演算結果を求める加算ステップと、
前記第２演算結果を、他の計算ノードへ送信する第２送信ステップと、
他の計算ノードからの第２演算結果を受信する第２受信ステップと
を有するネットワーク処理ステップと
を備える
ことを特徴とする分散深層学習方法。
通信ネットワークを介して互いに接続された複数の計算ノードと、集約ノードと、を備える分散深層学習システムによって実行される分散深層学習方法であって、
前記複数の計算ノードの各々は、
ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算ステップと、
前記演算ステップで出力された前記第１演算結果を、前記集約ノードに送信する第１送信ステップと、
前記集約ノードから、前記複数の計算ノードで計算された第１演算結果の和である第２演算結果を受信する第１受信ステップと
を有する第１ネットワーク処理ステップと、
前記第１受信ステップで受信された前記第２演算結果を第１記憶装置に記憶する第１記憶ステップと
を有し、
前記集約ノードは、
前記複数の計算ノードからの第１演算結果を受信する第２受信ステップと、
前記第２受信ステップで受信された第１演算結果の和である前記第２演算結果を求める加算ステップと、
前記加算ステップで求められた前記第２演算結果を、前記複数の計算ノードへ送信する第２送信ステップと
を有する第２ネットワーク処理ステップと、
前記第２受信ステップで受信された前記複数の計算ノードからの第１演算結果を第２記憶装置に記憶する第２記憶ステップと
を有し、
前記加算ステップは、前記第２記憶装置に記憶されている前記複数の計算ノードからの第１演算結果を読み出して、前記第２演算結果を求める
ことを特徴とする分散深層学習方法。