JP7396463B2

JP7396463B2 - 分散処理ノードおよび分散処理システム

Info

Publication number: JP7396463B2
Application number: JP2022511456A
Authority: JP
Inventors: 猛伊藤; 顕至田仲; 勇輝有川; 和彦寺田; 健坂本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2023-12-12
Anticipated expiration: 2040-04-02
Also published as: US12045183B2; WO2021199396A1; JPWO2021199396A1; US20230124193A1

Description

本発明は、深層学習等を複数の分散処理ノードで分散協調して実行する分散処理システムに係り、複数の演算デバイス間での集団通信を効率的、かつ高速・低レイテンシに処理することで、情報処理を高速、高効率に処理することが可能な分散処理ノードおよび分散処理システムに関するものである。

近年、シリコンプロセスの微細化の限界によりムーアの法則が適用できない、いわゆるポストムーア時代の到来が言われてきている。このポストムーア時代に向けて、ＣＰＵ（Central Processing Unit）などの演算デバイスのシリコンプロセス微細化による演算性能限界を打破して、デバイスの演算性能を飛躍的に向上しようとする取り組みが行われている。

このような取り組みとして、１つのプロセッサ内に演算コアを複数持たせるマルチコア化のアプローチがある。しかし、マルチコアは、１つのシリコンチップの大きさの限界などのために、単体のプロセッサの飛躍的な性能向上には限界があった。そこで、単体のプロセッサの限界を超えるため、演算デバイスを搭載した複数のサーバを大容量のインタコネクトで接続した分散処理システムを用いることにより、単一のデバイスや単一のサーバでは難しかった高負荷のタスクを高速で処理する分散処理システム技術が注目されつつある。

例えば、高負荷のジョブの１例である深層学習では、多層のニューロンモデルからなる学習対象について、各ニューロンモデルの重み（前段のニューロンモデルが出力した値に乗じる係数）を、入力した大量のサンプルデータを用いて更新することにより、推論精度を改善する。

通常、推論精度を改善する手法には、ミニバッチ法が用いられている。ミニバッチ法では、サンプルデータ毎に重みに対する勾配を計算する勾配計算処理と、複数の異なるサンプルデータについて勾配を集計する（サンプルデータ毎に得られた勾配を重み別に合算する）集計処理と、集計した勾配に基づいて各重みを更新する重み更新処理と、を繰り返す。

また、分散処理システム技術を適用した分散深層学習では、集計処理を行うために、分散処理ノード毎に得られた分散データを集計処理ノードに集約するための、各分散処理ノードから集計処理ノードへの集約通信と、集計処理ノードでの全ノード集計処理と、集計処理ノードが集計したデータを各分散処理ノードに転送するための、集計処理ノードから分散処理ノードへの分配通信とが必要となる。

分散深層学習に必要な処理、特に集約通信や分配通信といった集団通信は、多数回の通信を必要とするが、深層学習の推論精度を向上させるために、重みの個数や入力するサンプルデータの個数を増加させると、通信時間が増加すると共に、深層学習に要する時間が増大する。このため、推論精度を向上させ、なおかつ、深層学習に要する時間を増加さないために、分散処理ノード内に演算デバイスを複数高密度に実装し、分散処理ノード自体の処理性能を向上させるアクセラレーション技術が用いられる。

図１０はアクセラレーション技術を用いた従来の分散処理システムの１例を示すブロック図である。各分散処理ノード５００－１～５００－４は、伝送路５０４によって互いに接続されている。各分散処理ノード５００－１～５００－４は、それぞれ複数の演算デバイス５０１と、ＦＰＧＡ（Field Programmable Gate Array）からなるインタコネクトデバイス５０２と、演算デバイス５０１とインタコネクトデバイス５０２とを接続する汎用バス５０３とを備えている。

図１０に示すように、分散処理ノード５００－１～５００－４に複数の演算デバイス５０１を実装することで、分散処理ノード５００－１～５００－４の処理性能を向上させようとする場合、集約通信における演算を例えばインタコネクトポートを有するインタコネクトデバイス５０２のハードウェアによって行わせる。

その後、伝送路５０４によって接続された分散処理ノード５００－１～５００－４間で、集団通信における演算を各分散処理ノード５００－１～５００－４に搭載されたインタコネクトデバイス５０２のハードウェアによって行う。これにより、集団通信の演算を高速に行い、ノード内と同様に分散処理の高速化を実現することができる。

しかし、分散処理ノード５００－１～５００－４内に複数の演算デバイス５０１を実装した場合、各演算デバイス５０１から同時に演算結果がノード内の汎用バス５０３を通してインタコネクトデバイス５０２へ送られる。このため、インタコネクトデバイス５０２の入力側で複数の演算デバイス５０１からのデータ同士の衝突による輻輳が発生し、この輻輳が通信ボトルネックになり、演算性能を劣化させてしまうという問題が生じる。

また、ノード内の集団通信を効率的に行う技術として、ＮＣＣＬ（NVIDIA Collective Communications Library）が提案されている（非特許文献１参照）。しかしながら、このＮＣＣＬでは、複数の演算デバイスを巡回するようにして演算を行うので、演算デバイスで行う集団通信の処理時間にバラつきがあり、処理能力が低下してしまうという問題があった。

また、演算デバイスとインタコネクトデバイス間で汎用バスを介してダイレクトメモリアクセス（ＤＭＡ：Direct Memory Access）転送によって、ノード内のデータ移動およびノード間のデータ移動を効率化することによって、処理を高速化する技術が提案されている（非特許文献２参照）。しかし、非特許文献２に開示された技術では、複数の演算デバイスからの通信がインタコネクトデバイスに集中してしまう際の輻輳を回避することができず、大幅な処理効率の改善は難しい。

このような輻輳を回避する類似技術として、ＳＨＡＲＰ（Scalable Hierarchical Aggregation and Reduction Protocol）（登録商標）という技術が提案されている（特許文献１参照）。この特許文献１に開示された技術を分散処理システムに適用した場合、分散処理ノード間にスイッチ装置を設置することによりノード間の集団通信での輻輳は回避できるが、ノード内での輻輳による処理低下という問題が残存してしまう。

米国特許第１０２８４３８３号明細書

Nathan Luehr，NVIDIA Corporation，"Fast Multi-GPU collectives with NCCL"，2016，＜https://devblogs.nvidia.com/fast-multi-gpu-collectives-nccl/＞ Mellanox Technologies Ltd. ，"Mellanox OFED GPUDirect RDMA"，2018，＜https://www.mellanox.com/related-docs/prod_software/PB_GPUDirect_RDMA.PDF＞

本発明は、上記のような事情を考慮してなされたものであり、演算デバイスを複数搭載した分散処理ノード同士をインタコネクトデバイスで接続した分散処理システムにおいて、分散処理ノード内での通信輻輳を解消し、輻輳による通信ボトルネックや集団通信の演算処理を均一化することで、高効率な分散処理ノードおよび分散処理システムを提供することを目的とする。

本発明の分散処理ノードは、学習対象のモデルに学習データを入力した出力結果から損失関数の勾配データを計算し、前記勾配データの集計データに基づいて前記モデルのパラメータを更新するように構成された複数の演算デバイスと、他の分散処理ノードとの間で前記勾配データを集計するように構成されたインタコネクトデバイスと、前記複数の演算デバイスおよび前記インタコネクトデバイスと接続されたバスデバイス内に設けられ、前記複数の演算デバイスからの勾配データの処理および前記インタコネクトデバイスからの勾配データの処理のうち少なくとも一方を行うように構成された演算機能部と、前記複数の演算デバイスと前記バスデバイスとの間の勾配データのＤＭＡ転送、および前記バスデバイスと前記インタコネクトデバイスとの間の勾配データのＤＭＡ転送を制御するように構成されたＤＭＡコントローラと、外部から要求された学習ジョブを前記複数の演算デバイスのうちの少なくとも１つに割り当てるように構成された制御部とを備えることを特徴とするものである。

また、本発明の分散処理ノードの１構成例において、前記演算機能部は、学習ジョブ毎に設けられることを特徴とするものである。
また、本発明の分散処理ノードの１構成例は、前記複数の演算デバイスから前記バスデバイスへのＤＭＡ転送に関する情報を前記ＤＭＡコントローラから取得し、前記学習ジョブの要求に応じて前記演算デバイスによって計算され前記バスデバイスへ転送された勾配データを、前記ＤＭＡコントローラから取得した情報に基づいて、前記学習ジョブに対応する前記演算機能部に振り分けるように構成された振り分け部をさらに備えることを特徴とするものである。
また、本発明の分散処理ノードの１構成例は、前記複数の演算デバイスから前記バスデバイスへのＤＭＡ転送に関する情報を前記ＤＭＡコントローラから取得し、取得した情報に基づいて前記バスデバイス内の演算機能部から前記インタコネクトデバイスへのＤＭＡ転送の順位とタイミングとを決定するように構成されたスケジューラ部をさらに備えることを特徴とするものである。
また、本発明の分散処理ノードの１構成例において、前記演算機能部に供給されるクロック信号の周波数は、前記インタコネクトデバイスに供給されるクロック信号の周波数よりも高く、前記演算機能部の動作速度は、前記インタコネクトデバイスの動作速度よりも速い。

また、本発明の分散処理システムは、分散処理ノードを複数備えると共に、前記複数の分散処理ノードを制御するように構成された制御ノードを備え、前記制御ノードは、外部からの学習ジョブの要求情報を受け付けるように構成されたジョブ受付部と、各分散処理ノードのリソース情報を管理するように構成された管理データベース部と、前記ジョブ受付部からの要求情報と前記管理データベース部で管理されているリソース情報とを基に、学習ジョブを割り当てる演算デバイスの情報を含む制御指示情報を各分散処理ノード向けに作成するように構成された制御指示部とを備え、各分散処理ノードの制御部は、前記制御指示情報によって指示された自ノードの演算デバイスに学習ジョブを割り当てて学習ジョブを開始させることを特徴とするものである。

また、本発明の分散処理システムの１構成例において、各分散処理ノードは、前記モデルのパラメータを格納するように構成されたパラメータ格納部をさらに備え、前記制御ノードの管理データベース部は、各分散処理ノードのリソース情報とモデルに関する情報とを管理し、前記制御ノードの制御指示部は、学習ジョブを割り当てる演算デバイスの情報の他に、学習対象のモデルに関する情報とパラメータの情報とを含む前記制御指示情報を作成し、各分散処理ノードの制御部は、前記制御指示情報に従って自ノードの前記パラメータ格納部から学習対象のモデルのパラメータを読み出すことを特徴とするものである。

本発明では、多量の情報処理を行う大規模な分散処理システムにおいて、１つの大きい学習ジョブを高速で処理させる場合や、複数の学習ジョブを高速かつ効率的に処理させる場合において、複数の演算デバイスとインタコネクトデバイス間の汎用バス経路に、集団通信などの演算処理を行うバスデバイスを設け、このバスデバイスに演算機能部を設けて、演算機能部に勾配データの処理を行わせる。したがって、本発明では、処理が行われた勾配データをインタコネクトデバイスに転送しても、インタコネクトデバイスでの輻輳が発生せず、輻輳による待ち時間が発生することがないので、学習ジョブなどの情報処理を高速、高効率に行うことができる。

図１は、本発明の第１の実施例に係る分散処理システムの構成を示すブロック図である。図２は、本発明の第１の実施例に係る分散処理ノードの演算デバイスとＤＭＡコントローラの動作を説明するフローチャートである。図３は、本発明の第１の実施例に係る分散処理ノードのＤＭＡコントローラの動作を説明するフローチャートである。図４は、本発明の第１の実施例に係る分散処理ノードのインタコネクトデバイスとＤＭＡコントローラの動作を説明するフローチャートである。図５は、本発明の第１の実施例に係る分散処理ノードのインタコネクトデバイスとＤＭＡコントローラの動作を説明するフローチャートである。図６は、本発明の第２の実施例に係る分散処理システムの構成を示すブロック図である。図７は、本発明の第３の実施例に係る分散処理システムの構成を示すブロック図である。図８は、本発明の第４の実施例に係る分散処理システムの構成を示すブロック図である。図９は、本発明の第１～第４の実施例に係る分散処理ノードを実現するコンピュータの構成例を示すブロック図である。図１０は、従来の分散処理システムの構成を示すブロック図である。

［第１の実施例］
以下、本発明の実施例について図面を参照して説明する。図１は本発明の第１の実施例に係る分散処理システムの構成を示すブロック図である。分散処理システム１０１は、複数の分散処理ノード１０２と、複数の分散処理ノード１０２間を接続する伝送路１０１Ａとから構成される。

各分散処理ノード１０２は、ＧＰＵ（Graphics Processing Unit）などからなる複数の演算デバイス１０３と、伝送路を介したデータ通信機能を備えたＦＰＧＡと光トランシーバとからなるインタコネクトデバイス１０４と、ＰＣＩ－Ｅｘｐｒｅｓｓなどの汎用バスによって演算デバイス１０３とのデータ通信を行う機能と演算機能とを備えたＦＰＧＡからなるバスデバイス１０５と、バスデバイス１０５内に設けられ、演算デバイス１０３やインタコネクトデバイス１０４からのデータを処理する演算機能部１０６とを備えている。

また、各分散処理ノード１０２は、バスデバイス１０５の演算機能部１０６に高速なクロック信号を供給する高速クロック部１０７と、演算デバイス１０３とバスデバイス１０５との間のデータのＤＭＡ転送、およびバスデバイス１０５とインタコネクトデバイス１０４との間のデータのＤＭＡ転送を制御するＤＭＡコントローラ１０８と、外部から要求された学習ジョブを複数の演算デバイス１０３のうちの少なくとも１つに割り当てる制御部１１１と、モデルのパラメータを記憶するパラメータ格納部１１２とを備えている。

より具体的には、例えば分散処理ノード１０２として、Ｓｕｐｅｒｍｉｃｒｏ社製ＳＹＳ－４０２８ＧＲ－ＴＲ２サーバ（以降、単にサーバと称す）を用いる。このサーバのＣＰＵマザーボードには、ＣＰＵとしてＩｎｔｅｌ社製Ｘｅｏｎ（登録商標）プロセッサＥ５－２６００Ｖ４が２台搭載され、メインメモリとしてＤＤＲ４－２４００ＤＩＭＭ（Dual Inline Memory Module）３２ＧＢのメモリカードが８枚搭載されている。

また、ＣＰＵマザーボードには、ＰＣＩ－Ｅｘｐｒｅｓｓ３．０（Ｇｅｎ３）の１６レーンスロットのドーターボードが実装されている。このドーターボードのスロットには、演算デバイス１０３としてＮＶＩＤＩＡ社製のＧＰＵであるＶ１００が４台搭載され、インタコネクトデバイス１０４としてＸｉｌｌｉｎｘ社製のＶＣＵ１１８Ｅｖａｌｕａｔｉｏｎボード１台が搭載されている。さらに、このＥｖａｌｕａｔｉｏｎボードには、ＱＳＦＰ２８の光トランシーバ２台が搭載されている。分散処理ノード１０２同士は、光ファイバからなる伝送路１０１Ａによってリング状に接続されている。

また、サーバのマザーボードには、バスデバイスとして、ＰＣＩｅルートコンプレックスデバイスが搭載されている。しかし、このＰＣＩｅルートコンプレックスデバイスには、演算デバイス間の集団通信に必要な加算処理などの演算機能が搭載されていない。そこで、本実施例では、ＰＣＩｅルートコンプレックスデバイスに演算機能部１０６の機能を付与したデバイスをバスデバイス１０５として用いる。

また、サーバでは、通常、１００ＭＨｚのクロック信号がＰＣＩｅルートコンプレックスデバイスに供給される。本実施例では、高速クロック部１０７を新たに設けることにより、５００ＭＨｚのクロック信号を高速クロック部１０７からバスデバイス１０５の演算機能部１０６に供給する。

また、マザーボードに搭載されているＤＭＡコントローラ１０８としては、バスデバイス１０５を介しても動作するように変更したものが搭載されている。なお、図１では、ＤＭＡコントローラ１０８をインタコネクトデバイス１０４の外部に配置しているが、インタコネクトデバイス１０４を構成するＦＰＧＡの内部にＤＭＡコントローラ１０８を設けるようにしてもよい。

また、サーバには、ＯＳ（Operating System）をインストールするための記憶媒体として４８０ＧＢ容量のＳＳＤ（Solid State Drive）が搭載されている。ＯＳとしては、Ｕｂｕｎｔｕ１８．０４ＬＴＥを使用する。このＯＳには、後述する演算フレームワークが組み込まれている。

図１の分散処理システム１０１を用いて、従来技術の動作と対比させながら、本実施例の動作を説明する。ここでは、画像データベースであるｉｍａｇｅｎｅｔ（http://www.image-net.org/）に蓄積されている画像を分類するＡＩ（Artificial Intelligence）の分散深層学習を、学習モデルの１つであるＲｅｓｎｅｔ５０を用いて行う場合を例に挙げて説明する。なお、深層学習プラットフォームとしてはＴｅｎｓｏｒＦｌｏｗベースのものを用いることとする。

本発明では、深層学習で実行されるジョブを学習ジョブと称する。ユーザが同じでも学習ジョブが異なる場合が有り得る。

制御部１１１は、例えばＣＰＵから構成される。制御部１１１は、例えばＴｅｎｓｏｒＦｌｏｗベースの深層学習プラットフォームなどのソフトウエアに従って、数学モデルをソフトウェア的に構築する機能と、学習対象のモデルのパラメータ（重みなど）をパラメータ格納部１１２から読み出す機能と、モデルのパラメータをパラメータ格納部１１２に書き込む機能と、リソース、すなわち空いている演算デバイスを確保して演算デバイス１０３に学習ジョブを割り当てる機能と、外部から画像データ等の学習データを読み出して演算デバイス１０３に渡す機能などを備えている。
インタコネクトデバイス１０４は、他の分散処理ノード１０２との間でデータを集計する。

図２は分散処理ノード１０２とＤＭＡコントローラ１０８の動作を説明するフローチャートである。
分散処理ノード１０２の各演算デバイス１０３は、ｉｍａｇｅｎｅｔの画像データを制御部１１１を介して受け取り、自ノード内の学習対象のモデル（Ｒｅｓｎｅｔ５０のニューラルネットワーク）の複数の重みの各々についてモデルの損失関数の勾配を計算して、画像データ毎の勾配を集計した勾配データを重み毎に生成する（図２ステップＳ１００）。

モデルの重み、モデルの性能の悪さを示す指標である損失関数、および損失関数の勾配については周知の技術であるので、詳細な説明は省略する。本実施例では、例えばミニバッチサイズ３２枚分に対して学習ジョブのタスクの１つである勾配計算処理を行うものとする。

ＤＭＡコントローラ１０８は、各演算デバイス１０３における勾配計算処理の終了後、各演算デバイス１０３によって計算された勾配データを自ノードのバスデバイス１０５の演算機能部１０６を経由してインタコネクトデバイス１０４内のメモリ１０４０にＤＭＡ転送する（図２ステップＳ１０１）。このＤＭＡ転送については後述する。

図３は分散処理ノード１０２のＤＭＡコントローラ１０８の動作を説明するフローチャートである。
各分散処理ノード１０２の演算デバイス１０３によって勾配データが生成されると（図３ステップ２００）、この勾配データは、重み毎にバスデバイス１０５の演算機能部１０６へＤＭＡ転送される(図３ステップ２０１)。
各分散処理ノード１０２のバスデバイス１０５の演算機能部１０６は、自ノードのＤＭＡコントローラ１０８によって自ノードの全ての演算デバイス１０３からの勾配データがＤＭＡ転送されると（図３ステップＳ２０２）、受信した勾配データの和を重み毎に求める（図３ステップＳ２０３）。

ＤＭＡコントローラ１０８は、演算機能部１０６によって加算された勾配データを自ノードのインタコネクトデバイス１０４のメモリ１０４０にＤＭＡ転送する（図３ステップＳ２０４）。

図１０に示した従来の技術では、各演算デバイス５０１からの勾配データがインタコネクトデバイス５０２（ＦＰＧＡ）に集約され、インタコネクトデバイス５０２が加算処理を行う。各演算デバイス５０１からのデータの大きさが１００ＭＢ、演算デバイス５０１とインタコネクトデバイス５０２とを接続するバス５０３の実行帯域が１０ＧＢ／ｓとすると、１つの演算デバイス５０１からインタコネクトデバイス５０２へのデータ転送に１０ｍｓｅｃかかる。

したがって、従来の技術では、インタコネクトデバイス５０２での輻輳により、単一の演算デバイスからのデータ転送に比べ、輻輳によって３０ｍｓｅｃ転送に余分に時間がかかってしまう。以降、この余分の時間を待ち時間と称する。

これに対して、本実施例によれば、４つの演算デバイス１０３から転送された勾配データをバスデバイス１０５の演算機能部１０６に集約して加算処理を行う。このため、４つの演算デバイス１０３から勾配データが同時にバスデバイス１０５に入力された場合、演算機能部１０６によって加算処理が行われた後は、データ量が１／４に圧縮される。

したがって、加算処理が行われた勾配データをインタコネクトデバイス１０４に転送しても、インタコネクトデバイス１０４での輻輳が発生しないため、輻輳による待ち時間が発生しない。例えば、バスデバイス１０５の演算機能部１０６において演算処理に４０サイクルかかったとすると、処理時間は８０ｎｓｅｃである。この処理時間は、従来発生していた待ち時間に対して極めて小さい時間になる。

次に、インタコネクトデバイス１０４を介して各分散処理ノード１０２間で勾配データが更に集約され、加算処理される。
図４は各分散処理ノード１０２のうち規定の親ノードのインタコネクトデバイス１０４とＤＭＡコントローラ１０８の動作を説明するフローチャート、図５は各分散処理ノード１０２のうち親ノード以外の子ノードのインタコネクトデバイス１０４とＤＭＡコントローラ１０８の動作を説明するフローチャートである。

親ノードのインタコネクトデバイス１０４は、自ノードのＤＭＡコントローラ１０８によって勾配データがＤＭＡ転送されると（図４ステップＳ３００においてＹＥＳ）、この勾配データを伝送路１０１Ａを介して次の番号の子ノード（例えば時計回りの方向の子ノード）にＤＭＡ転送する（図４ステップＳ３０１）。

子ノードのインタコネクトデバイス１０４は、隣接する親ノードまたは子ノード（例えば反時計回りの方向の親ノードまたは子ノード）から勾配データを受信すると（図５ステップＳ４００においてＹＥＳ）、受信した勾配データと自ノードのＤＭＡコントローラ１０８によってＤＭＡ転送された勾配データとの和を重み毎に求める（図５ステップＳ４０１）。

そして、子ノードのインタコネクトデバイス１０４は、加算処理した勾配データを伝送路１０１Ａを介して次の番号のノード（例えば時計回りの方向のノード）にＤＭＡ転送する（図５ステップＳ４０２）。

図５のステップＳ４００～Ｓ４０２の処理が伝送路１０１Ａによってリング状に接続された各子ノードにおいて順番に行われることにより、各分散処理ノード１０２の勾配データを加算した結果が得られる。以降、各分散処理ノード１０２での加算処理が終了した勾配データを集計データと称する。

親ノードのインタコネクトデバイス１０４は、隣接する子ノード（例えば反時計回りの方向の子ノード）から集計データを受信すると（図４ステップＳ３０２においてＹＥＳ）、受信した集計データを次の番号の子ノード（例えば時計回りの方向の子ノード）にＤＭＡ転送する（図４ステップＳ３０３）。

親ノードのＤＭＡコントローラ１０８は、隣接する子ノードから自ノードのインタコネクトデバイス１０４が受信した集計データをインタコネクトデバイス１０４内のメモリ１０４０から演算デバイス１０３へのＤＭＡ転送をトリガとして、まず自ノードのバスデバイス１０５にＤＭＡ転送する（図４ステップＳ３０４）。

子ノードのインタコネクトデバイス１０４は、隣接する親ノードまたは子ノード（例えば反時計回りの方向の親ノードまたは子ノード）から集計データを受信すると（図５ステップＳ４０３においてＹＥＳ）、受信した集計データを次の番号の子ノード（例えば時計回りの方向の子ノード）にＤＭＡ転送する（図５ステップＳ４０４）。

子ノードのＤＭＡコントローラ１０８は、隣接する親ノードまたは子ノードから自ノードのインタコネクトデバイス１０４が受信した集計データをインタコネクトデバイス１０４内のメモリ１０４０から演算デバイス１０３へのＤＭＡ転送をトリガとして、まず自ノードのバスデバイス１０５にＤＭＡ転送する（図５ステップＳ４０５）。
こうして、集計データは、分配通信によって各分散処理ノード１０２で共有される。

次に、各分散処理ノード１０２のＤＭＡコントローラ１０８は、自ノードのインタコネクトデバイス１０４からバスデバイス１０５に転送した集計データを、自ノードの各演算デバイス１０３にＤＭＡ転送する（図３ステップＳ２０５，Ｓ２０６）。

演算デバイス１０３は、自ノードのＤＭＡコントローラ１０８によって集計データがＤＭＡ転送されると（図２ステップＳ１０２においてＹＥＳ）、集計データに基づいて、自ノード内のモデル（Ｒｅｓｎｅｔ５０のニューラルネットワーク）の重みを更新する重み更新処理を行う（図２ステップＳ１０３）。更新対象の重みは、パラメータ格納部１１２に格納されている。

重み更新処理においては、例えば集計データが示す、損失関数の勾配に基づいて損失関数が最小になるように重みを更新すればよい。重みの更新は周知の技術であるので、詳細な説明は省略する。

重み更新処理の終了により、１回の学習が終了する。各分散処理ノード１０２は、ｉｍａｇｅｎｅｔの新たな画像データを用いて学習を行う。こうして、学習を繰り返すことにより、モデルの推論精度を向上させる。

以上のように、本実施例では、複数の演算デバイス１０３によって計算された勾配データをバスデバイス１０５内に集約して集団通信に必要な演算を行うので、インタコネクトデバイスでの輻輳による待ち時間が発生することがない。また、本実施例では、複数の演算デバイスを巡回して演算を行う必要がないので、処理時間のバラつきを抑制することができる。その結果、本実施例では、高速、低レイテンシ、かつ安定な処理を実現することが可能となる。

本実施例では、インタコネクトデバイス１０４内の加算処理（ステップＳ４０１）についても、ノード間を接続する伝送仕様である１００Ｇイーサネット（登録商標）で用いられる分周クロックの周波数１９５．３１２５ＭＨｚに縛られることなく、これより高い周波数のクロック信号を用いることが可能である。このような高い周波数のクロック信号を用いることにより、ノード間の集団通信に伴う加算処理に要する時間も短くなり、全体の処理時間の更なる短縮化が可能となるのは言うまでもない。

本実施例の１つのポイントは、演算機能部１０６に高速なクロック信号を供給する高速クロック部１０７を分散処理ノード１０２内に設けることにより、従来のようにインタコネクトデバイスでノード内加算処理を行う場合に比べて演算処理時間を短くできる点である。

例えば、従来のインタコネクトデバイスでの加算処理と本実施例の演算機能部１０６での加算処理において、１クロックで処理するビット幅が共に５１２ビットとする。この５１２ビット幅の加算処理は、３２ビットの浮動小数点の加算処理を行う加算器を用いる場合、加算器を１６個並列に設けることになる。従来のインタコネクトデバイスでの加算処理のビット幅と本実施例の演算機能部１０６での加算処理のビット幅が同じ場合、１クロックの周波数によって処理速度に差が生じる。

本実施例では、高速クロック部１０７から演算機能部１０６に供給されるクロック信号の周波数が５００ＭＨｚであり、インタコネクトデバイス１０４内のクロック信号の周波数が１９５．３１２５ＭＨｚである。したがって、インタコネクトデバイスでノード内加算処理を行う場合と比較して、演算機能部１０６の処理速度は２．６２倍速くなり、ノード内加算処理による処理遅延を、インタコネクトデバイスで加算処理を行う場合よりも短縮化できる。このような処理遅延の短縮化は、バスデバイス１０５の演算機能部１０６の処理速度がインタコネクトデバイス１０４の処理速度以上の場合で効果を発揮することになる。

次に、演算デバイス１０３とインタコネクトデバイス１０４間でのＤＭＡ転送について、詳細に説明する。勾配データを分散処理ノード１０２内や分散処理ノード１０２間で転送するための集約通信や、集計データを各分散処理ノード１０２に分配するための分配通信では、高速にデータを移動させる必要がある。

このため、分散処理ノード１０２内では、演算デバイス１０３とバスデバイス１０５間、およびバスデバイス１０５とインタコネクトデバイス１０４間において、各デバイスに内蔵されるメモリ領域を固定化して、それぞれの固定したメモリアドレスどうしでデータ転送を行うＤＭＡ転送技術が用いられる。同様に、各分散処理ノード１０２のインタコネクトデバイス１０４間においてもＤＭＡ転送技術が用いられる。

本実施例では、各演算デバイス１０３での演算終了後、バスデバイス１０５へＤＭＡ転送された勾配データが加算された後に、インタコネクトデバイス１０４のメモリ１０４０へＤＭＡ転送される。従来の集団通信の場合には、４つの演算デバイスからそれぞれインタコネクトデバイスの異なるメモリ領域に勾配データをＤＭＡ転送するので、メモリ領域が４つ必要となる。

一方、本実施例では、勾配データをバスデバイス１０５で加算した後にインタコネクトデバイス１０４へＤＭＡ転送するので、従来のＤＭＡ用に割り当てられた４つのメモリ領域の内、３つにはデータ転送が不要となり、インタコネクトデバイス１０４のメモリ領域が無駄になる。

そこで、本実施例のＤＭＡコントローラ１０８は、バスデバイス１０５によって加算処理された勾配データを、インタコネクトデバイス１０４内の１つのメモリ領域にＤＭＡ転送すればよい。こうして、インタコネクトデバイス１０４にバスデバイス１０５からのＤＭＡ転送用のメモリ領域を４つ持たせる必要がなくなり、メモリ領域の効率的な利用が可能となる。インタコネクトデバイス１０４のメモリ領域の効率的利用によって分散処理システム１０１での更なる効率化を図ることができる。このような効率化は、以降の実施例で説明するように、ユーザが増加し、複数の学習ジョブが並列で行われる際にも効果を発揮する。

［第２の実施例］
次に、本発明の第２の実施例について説明する。図６は本発明の第２の実施例に係る分散処理システムの構成を示すブロック図である。本実施例の分散処理システム２０１は、複数の分散処理ノード２０２と、複数の分散処理ノード２０２間を接続する伝送路２０１Ａとから構成される。

各分散処理ノード２０２は、ＧＰＵなどからなる複数の演算デバイス２０３ａ，２０３ｂと、伝送路を介したデータ通信機能を備えたＦＰＧＡと光トランシーバとからなるインタコネクトデバイス２０４と、汎用バスによって演算デバイス２０３ａ，２０３ｂとのデータ通信を行う機能と演算機能とを備えたＦＰＧＡからなるバスデバイス２０５と、バスデバイス２０５内に設けられ、演算デバイス２０３ａ，２０３ｂやインタコネクトデバイス２０４からのデータを処理する複数の学習ジョブ別の演算機能部２０６ａ，２０６ｂとを備えている。

また、各分散処理ノード２０２は、演算機能部２０６ａ，２０６ｂに高速なクロック信号を供給する高速クロック部２０７と、演算デバイス２０３ａ，２０３ｂとバスデバイス２０５との間のデータのＤＭＡ転送、およびバスデバイス２０５とインタコネクトデバイス２０４との間のデータのＤＭＡ転送を制御するＤＭＡコントローラ２０８と、バスデバイス２０５内に設けられ、演算機能部２０６ａ，２０６ｂからインタコネクトデバイス２０４へのＤＭＡ転送の順位とタイミングとを決定するスケジューラ部２０９と、外部から要求された学習ジョブを複数の演算デバイス２０３ａ，２０３ｂのうちの少なくとも１つに割り当てる制御部２１１と、モデルのパラメータを記憶するパラメータ格納部２１２とを備えている。

第１の実施例との差分は、複数の演算デバイス２０３ａと複数の演算デバイス２０３ｂとが異なる学習ジョブを行うことと、演算デバイス２０３ａ用の演算機能部２０６ａと演算デバイス２０３ｂ用の演算機能部２０６ｂとスケジューラ部２０９とがバスデバイス２０５に設けられていることである。４つの演算デバイス２０３ａは演算機能部２０６ａと固定的に接続され、２つの演算デバイス２０３ｂは演算機能部２０６ｂと固定的に接続されている。

次に、本実施例の分散処理システム２０１の動作を説明する。本実施例においても、分散処理システム２０１の処理の流れは第１の実施例と同様であるので、図２～図５の符号を用いて説明する。

インタコネクトデバイス２０４には、メモリ２０４０内に演算デバイス２０３ａ用のメモリ領域２０４０ａと、演算デバイス２０３ｂ用のメモリ領域２０４０ｂとが用意されている。

各分散処理ノード２０２のＤＭＡコントローラ２０８は、演算デバイス２０３ａでの勾配計算処理の終了後（図２ステップＳ１００）、各演算デバイス２０３ａによって計算された勾配データを自ノードのバスデバイス２０５の演算機能部２０６ａを経由してインタコネクトデバイス２０４内のメモリ２０４０ａにＤＭＡ転送する（図２ステップＳ１０１）。

２つの演算デバイス２０３ｂでは、演算デバイス２０３ａと異なる学習ジョブが行われる。異なる学習ジョブの例としては、例えば異なる画像データを用いてモデルに学習させたり、同じ画像データを用いて複数のモデルを学習させたりすること等がある。

ＤＭＡコントローラ２０８は、演算デバイス２０３ｂでの勾配計算処理の終了後、各演算デバイス２０３ｂによって計算された勾配データを自ノードのバスデバイス２０５の演算機能部２０６ｂを経由してインタコネクトデバイス２０４内のメモリ２０４０ｂにＤＭＡ転送する（ステップＳ１０１）。

各分散処理ノード２０２のバスデバイス２０５の演算機能部２０６ａは、ＤＭＡコントローラ２０８によって勾配データがＤＭＡ転送されると（図３ステップＳ２０２においてＹＥＳ）、受信した勾配データの和を重み毎に求める（図３ステップＳ２０３）。同様に、演算機能部２０６ｂは、ＤＭＡコントローラ２０８によって勾配データがＤＭＡ転送されると、受信した勾配データの和を重み毎に求める（ステップＳ２０３）。

各分散処理ノード２０２のＤＭＡコントローラ２０８は、自ノードの演算機能部２０６ａによって加算された勾配データを自ノードのインタコネクトデバイス２０４のメモリ領域２０４０ａにＤＭＡ転送する（図３ステップＳ２０４）。同様に、ＤＭＡコントローラ２０８は、自ノードの演算機能部２０６ｂによって加算された勾配データを自ノードのインタコネクトデバイス２０４のメモリ領域２０４０ｂにＤＭＡ転送する（ステップＳ２０４）。

本実施例では、このようなステップＳ２０４のＤＭＡ転送が実施される際に、どの演算機能部によって加算処理された勾配データをどのようなタイミングでインタコネクトデバイス２０４へ転送するかをスケジューラ部２０９によって制御する。
ここでは、４つの演算デバイス２０３ａでの勾配計算処理の終了後に、２つの演算デバイス２０３ｂでの勾配計算処理が終了する場合について説明する。

バスデバイス２０５内のスケジューラ部２０９は、演算デバイス２０３ａまたは２０３ｂからバスデバイス２０５の演算機能部２０６ａまたは２０６ｂへのＤＭＡ転送に関する情報をＤＭＡコントローラ２０８から取得して記憶している。ＤＭＡ転送に関する情報としては、ＤＭＡ転送したデータサイズ、ＤＭＡ転送のタイミング情報、演算デバイス２０３ａまたは２０３ｂの学習ジョブのＩＤ（identification）などがある。

スケジューラ部２０９は、これらのＤＭＡ転送に関する情報を、学習ジョブのＩＤ毎（演算機能部毎）に記憶している。また、スケジューラ部２０９は、演算機能部２０６ａ，２０６ｂのそれぞれの処理に要する時間を記憶している。

スケジューラ部２０９は、ＤＭＡ転送に関する情報と演算機能部２０６ａ，２０６ｂの処理時間の情報とを基に、演算機能部２０６ａ，２０６ｂのうちのどちらから勾配データをインタコネクトデバイス２０４に転送するかを決定する。

例えば、４つの演算デバイス２０３ａからの勾配データが先に演算機能部２０６ａに到達し、加算処理が開始されたものの、処理時間が長く、２つの演算デバイス２０３ｂからの勾配データを処理する演算機能部２０６ｂの方が処理が早く終わると予想されるものとする。この場合、スケジューラ部２０９は、演算機能部２０６ａによって加算処理される勾配データよりも、演算機能部２０６ｂによって加算処理される勾配データを先にインタコネクトデバイス２０４に転送するよう、ＤＭＡコントローラ２０８に通知する。

こうして、本実施例では、勾配データのＤＭＡ転送が途中で停止してしまうような事態を回避することができ、ＤＭＡコントローラ２０８による確実なＤＭＡ転送が可能となる。したがって、本実施例では、複数の学習ジョブを効率的かつ安定的に処理することが可能となる。

演算機能部２０６ａ，２０６ｂ、インタコネクトデバイス２０４の動作は、第１の実施例の演算機能部１０６、インタコネクトデバイス１０４の動作と同様である。演算デバイス２０３ａ，２０３ｂによって生成される勾配データには、学習ジョブのＩＤが付加されている。したがって、演算機能部２０６ａ，２０６ｂとインタコネクトデバイス２０４とは、学習ジョブ別に第１の実施例で説明した処理を行うことができる。

なお、スケジューラ部２０９は、加算処理が早く終わると予想される演算機能部ではなく、予め学習ジョブの種類に対して定められた優先順位の情報に基づいて学習ジョブ毎の演算機能部のＤＭＡ転送順位を決定するようにしてもよい。

［第３の実施例］
次に、本発明の第３の実施例について説明する。図７は本発明の第３の実施例に係る分散処理システムの構成を示すブロック図である。本実施例の分散処理システム３０１は、複数の分散処理ノード３０２と、複数の分散処理ノード３０２間を接続する伝送路３０１Ａとから構成される。

各分散処理ノード３０２は、ＧＰＵなどからなる複数の演算デバイス３０３－１～３０３－６と、伝送路を介したデータ通信機能を備えたＦＰＧＡと光トランシーバとからなるインタコネクトデバイス３０４と、汎用バスによって演算デバイス３０３－１～３０３－６とのデータ通信を行う機能と演算機能とを備えたＦＰＧＡからなるバスデバイス３０５と、バスデバイス３０５内に設けられ、演算デバイス３０３－１～３０３－６やインタコネクトデバイス３０４からのデータを処理する複数の演算機能部３０６ａ，３０６ｂとを備えている。

また、各分散処理ノード３０２は、演算機能部３０６ａ，３０６ｂに高速なクロック信号を供給する高速クロック部３０７と、演算デバイス３０３－１～３０３－６とバスデバイス３０５との間のデータのＤＭＡ転送、およびバスデバイス３０５とインタコネクトデバイス３０４との間のデータのＤＭＡ転送を制御するＤＭＡコントローラ３０８と、バスデバイス３０５内に設けられ、演算機能部３０６ａ，３０６ｂからインタコネクトデバイス３０４へのＤＭＡ転送の順位とタイミングとを決定するスケジューラ部３０９とを備えている。

さらに、各分散処理ノード３０２は、バスデバイス３０５内に設けられ、学習ジョブの要求に応じて演算デバイス３０３－１～３０３－６によって計算されバスデバイス３０５へ転送された勾配データを、学習ジョブに対応する演算機能部３０６ａ，３０６ｂに振り分ける振り分け部３１０と、外部から要求された学習ジョブを複数の演算デバイス３０３－１～３０３－６のうちの少なくとも１つに割り当てる制御部３１１と、モデルのパラメータを記憶するパラメータ格納部３１２とを備えている。

インタコネクトデバイス３０４には、メモリ３０４０内に演算デバイス３０３ａ用のメモリ領域２０４０ａと、演算デバイス３０３ｂ用のメモリ領域２０４０ｂとが用意されている。

第２の実施例との差分は、各演算デバイス３０３－１～３０３－６への学習ジョブの割り当てが固定されていないことと、各演算デバイス３０３－１～３０３－６からの勾配データを転送元の演算デバイスの学習ジョブに対応する演算機能部２０６ａまたは２０６ｂに振り分ける振り分け部３１０がバスデバイス３０５に設けられていることである。

次に、本実施例の分散処理システム３０１の動作を説明する。ここでは、分散処理ノード３０２内で異なる学習ジョブが同時期に実行され、分散処理ノード３０２間で分散深層学習などの情報処理を行う場合について動作を説明する。本実施例においても、分散処理システム３０１の処理の流れは第１の実施例と同様であるので、図２～図５の符号を用いて説明する。

例えば、新たなユーザから学習ジョブの要求があった段階で、分散処理ノード３０２の制御部３１１は、空きリソース、すなわち学習ジョブが割り当てられていない演算デバイス３０３－１～３０３－６を探索する。

図７の例では、６つの演算デバイス３０３－１～３０３－６の内、演算デバイス３０３－１，３０３－３，３０３－４，３０３－６で既に学習ジョブ（以降、学習ジョブａ）が行なわれているものとする。したがって、演算デバイス３０３－２，３０３－５が空きリソースとなっている。このため、制御部３１１は、演算デバイス３０３－２，３０３－５に新たな学習ジョブ（以降、学習ジョブｂ）を割り当てる。

本実施例では、学習ジョブａでの集団通信に必要な演算機能（４つの演算デバイスからの勾配データの加算処理機能）が演算機能部３０６ａに実装され、学習ジョブｂでの集団通信に必要な演算機能（２つの演算デバイスからの勾配データの加算処理機能）が演算機能部３０６ｂに実装されているものとする。

各分散処理ノード３０２のＤＭＡコントローラ３０８は、自ノードの各演算デバイス３０３－１～３０３－６での勾配計算処理の終了後、各演算デバイス３０３－１～３０３－６によって計算された勾配データを自ノードのバスデバイス３０５を経由してインタコネクトデバイス３０４内のメモリ３０４０にＤＭＡ転送する（図２ステップＳ１０１）。

このとき、振り分け部３１０は、演算デバイス３０３－１～３０３－６からバスデバイス３０５へのＤＭＡ転送に関する情報をＤＭＡコントローラ３０８から取得する。ＤＭＡ転送に関する情報としては、ＤＭＡ転送したデータサイズ、ＤＭＡ転送のタイミング情報、演算デバイス３０３－１～３０３－６の学習ジョブのＩＤ、ＤＭＡ転送に用いたバスのＩＤなどがある。

振り分け部３１０は、ＤＭＡコントローラ３０８から取得した情報に基づいて演算デバイス３０３－１～３０３－６によって計算された勾配データを演算機能部３０６ａまたは３０６ｂに振り分ける。

具体的には、振り分け部３１０は、学習ジョブａを行う演算デバイス３０３－１，３０３－３，３０３－４，３０３－６によって計算された勾配データを、学習ジョブａに対応する演算機能部３０６ａに振り分ける。また、振り分け部３１０は、学習ジョブｂを行う演算デバイス３０３－２，３０３－５によって計算された勾配データを、学習ジョブｂに対応する演算機能部３０６ｂに振り分ける。

本実施例では、振り分け部３１０によって勾配データの振り分けを行うことで、複数のユーザ、すなわち複数の学習ジョブが分散処理システムを共有する場合、学習ジョブの数や必要なリソース量によって異なる場合であってもこのような振り分けを行うことで、複数のユーザ、すなわち、複数の学習ジョブが分散処理システムを共有する場合、学習ジョブに必要なリソース量が学習ジョブによって異なる場合であっても、異なる学習ジョブによる勾配データが混在することがないので、複数の学習ジョブを効率的かつ安定的に処理することが可能となる。

演算機能部３０６ａ，３０６ｂ、スケジューラ部３０９、インタコネクトデバイス３０４の動作は、第２の実施例の演算機能部２０６ａ，２０６ｂ、スケジューラ部２０９、インタコネクトデバイス２０４の動作と同じである。

なお、第２、第３の実施例では、６つの演算デバイスと２つの演算機能部が設けられている場合を例に挙げて説明しているが、これら演算デバイスや演算機能部の数は第２、第３の実施例に限定されることは無い。

また、第１～第３の実施例の演算機能部１０６，２０６ａ，２０６ｂ，３０６ａ，３０６ｂに実装される演算機能としては、Ａｌｌｒｅｄｕｃｅと呼ばれる集団通信処理に必要な演算機能を想定している。

しかし、アプリケーションに応じて例えば勾配データを集約するｒｅｄｕｃｅと呼ばれる処理や、結果を全てのノードに分配するａｌｌ－ｇａｔｈｅｒと呼ばれる処理に必要な演算機能であってもよい。また、演算機能部１０６，２０６ａ，２０６ｂ，３０６ａ，３０６ｂに実装される演算機能は、集団通信に必要な演算機能でなくてもよい。また、演算機能部１０６，２０６ａ，２０６ｂ，３０６ａ，３０６ｂは、機能別に複数に分かれていてもよい。

また、演算機能部１０６，２０６ａ，２０６ｂ，３０６ａ，３０６ｂを有するバスデバイス１０５，２０５，３０５は、単数でなくてもよく、複数、すなわち複数の汎用バスに対してそれぞれ実装されていてもよい。また、複数のバスデバイスが各々、独立したインタコネクトデバイスに接続されていてもよい。

なお、第１～第３の実施例において、演算デバイス１０３，２０３ａ，２０３ｂ，３０３－１～３０３－６と演算機能部１０６，２０６ａ，２０６ｂ，３０６ａ，３０６ｂとインタコネクトデバイス１０４，２０４，３０４との接続構成は階層型である。ただし、演算デバイスの数が演算機能部の数以上で、かつ演算機能部の数がインタコネクトデバイスの数以上という制約は無い。

例えば、４つの演算デバイスからの勾配データを演算機能部で分配する場合は、演算デバイスの数が４、演算機能部の数が１、インタコネクトデバイスの数が４という実装も可能である。

なお、第１～第３の実施例では、演算デバイス１０３，２０３ａ，２０３ｂ，３０３－１～３０３－６からインタコネクトデバイス１０４，２０４，３０４の方向への転送について説明したが、逆方向でも同様の機能があってよい。

例えば、分散処理ノード間で加算された集計データを各分散処理ノード内の演算デバイスで共有する場合、演算機能部の機能として、コピー機能が備わっていれば、ＤＭＡコントローラから取得した転送先の演算デバイスの情報に基づいて、演算機能部でコピーした集計データを指定の演算デバイスの固定メモリ領域にＤＭＡ転送することができる。これにより、逆方向の機能を実現することができる。また、コピー機能は演算機能部ではなく、振り分け部にあってもよい。

［第４の実施例］
次に、本発明の第４の実施例について説明する。図８は本発明の第４の実施例に係る分散処理システムの構成を示すブロック図である。本実施例の分散処理システム４０１は、複数の分散処理ノード４０２－１～４０２－４と、複数の分散処理ノード４０２－１～４０２－４間を接続する伝送路４０１Ａと、分散処理ノード４０２－１～４０２－４を制御する制御ノード４１３と、制御ノード４１３と各分散処理ノード４０２－１～４０２－４とを接続する制御網４１４とから構成される。

各分散処理ノード４０２－１～４０２－４は、複数の演算デバイス３０３－１～３０３－６と、インタコネクトデバイス３０４と、バスデバイス３０５と、バスデバイス３０５内に設けられた複数の演算機能部３０６ａ，３０６ｂと、高速クロック部２０７と、ＤＭＡコントローラ３０８と、スケジューラ部３０９と、振り分け部３１０と、制御部３１１と、パラメータ格納部３１２とを備えている。

第１～第３の実施例との差分は、例えば分散処理ノード４０２－１がビルＡに設置され、分散処理ノード４０２－２がビルＢに設置され、分散処理ノード４０２－３がビルＣに設置され、分散処理ノード４０２－４がビルＤに設置されている、というように各分散処理ノード４０２－１～４０２－４が異なる建物に設置されていることと、各分散処理ノード４０２－１～４０２－４での処理タイミングの同期やシステム全体の管理などのために制御ノード４１３が設けられていることである。

上述した構成を基に、分散深層学習における学習処理を例にとって、本実施例の動作を説明する。第３の実施例と同様に、ビルＡに設置されている分散処理ノード４０２－１では、６つの演算デバイス３０３－１～３０３－６の内、演算デバイス３０３－１，３０３－３，３０３－４，３０３－６で既に学習ジョブａが行なわれているものとする。この状態で、新たな学習ジョブｂを実行する場合について説明する。

第３の実施例の構成では、他の分散処理ノード、例えば、ビルＢに設置されている分散処理ノード４０２－２の状態は、分散処理ノード４０２－１からは分からない。このため、本実施例では、各分散処理ノード４０２－１～４０２－４と接続される制御ノード４１３を設けている。

制御ノード４１３は、ユーザから学習ジョブの要求を受け付けるジョブ受付部４１５と、各分散処理ノード４０２－１～４０２－４のリソース情報とモデルに関する情報と学習データに関する情報などを保持・管理する管理データベース部４１６と、各分散処理ノード４０２－１～４０２－４に指示を与える制御指示部４１７とを備えている。この制御ノード４１３により分散処理システム４０１を制御する。

ユーザからの新たな学習ジョブｂの要求情報は、制御ノード４１３のジョブ受付部４１５で受け付けられる。この要求情報には、学習対象のモデルに関する情報、演算データ種別、要求リソース量などの情報が含まれる。

制御指示部４１７は、ジョブ受付部４１５からの要求情報と管理データベース部４１６で管理されている情報とを基に、各分散処理ノード４０２－１～４０２－４への制御指示情報を作成する。この制御指示情報には、学習対象のモデルに関する情報、演算に必要なデータ、モデルのパラメータの情報、学習ジョブを割り当てる演算デバイスの情報などが含まれる。

各分散処理ノード４０２－１～４０２－４の制御部３１１は、制御ノード４１３の制御指示部４１７から制御網４１４を介して制御指示情報を受信すると、この制御指示情報に基づいてリソースを確保する。すなわち、制御部１１１は、制御指示情報によって指示された自ノードの演算デバイス３０３に学習ジョブを割り当てる。

また、制御部１１１は、リソースの確保の他に、学習対象のモデルのパラメータの読み出しや学習データの読み出しなどの準備を行う。こうして、学習対象のモデルのパラメータをパラメータ格納部３１２から読み出すことにより、演算デバイス３０３に学習ジョブを開始させることが可能となる。

上記の例では、ビルＡに設置されている分散処理ノード４０２－１の６つの演算デバイス３０３－１～３０３－６の内、演算デバイス３０３－１，３０３－３，３０３－４，３０３－６で既に学習ジョブａが行なわれている。

そこで、制御ノード４１３の制御指示部４１７は、分散処理ノード４０２－１の６つの演算デバイス３０３－１～３０３－６の内、学習ジョブａが割り当てられていない演算デバイス３０３－２，３０３－５と、分散処理ノード４０２－２の６つの演算デバイス３０３－１～３０３－６の内、学習ジョブａが割り当てられていない演算デバイス３０３－３，３０３－４，３０３－５とに学習ジョブｂを割り当てることを決定する。

分散処理ノード４０２－１の制御部１１１は、制御ノード４１３の制御指示部４１７からの制御指示情報によって指示された自ノードの演算デバイス３０３－２，３０３－５に学習ジョブｂを割り当てる。同様に、分散処理ノード４０２－２の制御部１１１は、制御指示情報によって指示された自ノードの演算デバイス３０３－３，３０３－４，３０３－５に学習ジョブｂを割り当てる。

演算機能部３０６ａ，３０６ｂ、スケジューラ部３０９、振り分け部３１０、インタコネクトデバイス３０４の動作は、第３の実施例と同じである。各分散処理ノード４０２－１～４０２－４の演算デバイス３０３－１～３０３－６によって生成される勾配データには、学習ジョブのＩＤが付加されている。

したがって、演算機能部３０６ａ，３０６ｂとスケジューラ部３０９と振り分け部３１０とインタコネクトデバイス３０４とは、学習ジョブ別に第１～第３の実施例で説明した処理を行うことができる。こうして、学習ジョブａに対する分散処理とは別に、学習ジョブｂに対する分散処理が行われる。

学習ジョブａの分散処理が終了すると、更新処理の結果、すなわち更新されたモデルのパラメータがパラメータ格納部３１２に書き込まれると共に、学習ジョブａが完了したことを示す情報が制御部３１１から制御ノード４１３の管理データベース部４１６に送られる。

同様に、学習ジョブｂの分散処理が終了すると、更新処理の結果がパラメータ格納部３１２に書き込まれ、学習ジョブｂが完了したことを示す情報が制御部３１１から制御ノード４１３の管理データベース部４１６に送られる。こうして、分散処理システム４０１は、次の新たな学習ジョブの待機状態となる。

以上説明したように、本実施例では、制御ノード４１３からの指示に従って各分散処理ノード４０２－１～４０２－４が分散処理を行うので、地理的に離れたビルにある分散処理ノード４０２－１～４０２－４間で、効率的に分散処理を行うことができる。

また、各分散処理ノード４０２－１～４０２－４にパラメータ格納部３１２を設けることにより、例えば分散処理ノードが設置されたエリアでバースト的に発生したセンサ情報などの学習データを用いる学習ジョブの要求が発生したときに、モデルの学習を行った結果をパラメータ格納部３１２に格納することができる。したがって、処理すべき学習ジョブの要求が再び発生したときには、前回の学習ジョブで得られたパラメータをパラメータ格納部３１２から得ることができ、このパラメータを利用してモデルの学習が可能となる。

本実施例では、分散処理ノード４０２－１～４０２－４の構成として第３の実施例の分散処理ノードの構成を用いたが、第１、第２の実施例の分散処理ノードの構成を用いてもよいことは言うまでもない。

第１～第４の実施例では、演算デバイス１０３，２０３ａ，２０３ｂ，３０３－１～３０３－６の例として、ＧＰＵを例に挙げて説明したが、これに限るものではなく、演算デバイス１０３，２０３ａ，２０３ｂ，３０３－１～３０３－６として、ＣＰＵ、ＦＰＧＡ、量子演算デバイス、人工知能（ニューロン）チップなどを用いてもよい。

なお、上記の文中のＤＭＡ転送に関する固定とは、ＤＭＡ転送が行われるメモリに関し、設定によりメモリのスワップアウトが防止されることを意味している。このため、固定メモリは、ユーザがメモリの特定領域を独占してメモリを利用できることであり、設定により、他のユーザとメモリ領域を共有する場合や、他のユーザのＤＭＡ用のメモリ領域として、変更することも可能である。ＤＭＡ転送に関する固定とは、あらかじめ特定のメモリ領域が固定されていて、変更できないことを意味するものではない。

第１～第４の実施例で説明した分散処理ノードの各々は、ＣＰＵ、ＧＰＵ等の演算部と記憶装置とインタフェースとを備えたコンピュータと、これらのハードウェア資源を制御するプログラムと、ＦＰＧＡとによって実現することができる。このコンピュータの構成例を図９に示す。コンピュータは、演算部６００と、記憶装置６０１と、ＦＰＧＡ６０３とを備えている。分散処理ノードの各々のＣＰＵ、ＧＰＵ等の演算部６００は、各々の記憶装置６０１に格納されたプログラムに従って第１～第４の実施例で説明した処理を実行する。同様に、制御ノード４１３についても、コンピュータによって実現することができる。

本発明は、深層学習を複数のノードで分散協調して実行する分散処理システムに適用することができる。

１０１、２０１，３０１，４０１…分散処理システム、１０１Ａ，２０１Ａ，３０１Ａ，４０１Ａ…伝送路、１０２，２０２，３０２，４０２－１～４０２－４…分散処理ノード、１０３，２０３ａ，２０３ｂ，３０３－１～３０３－６…演算デバイス、１０４，２０４，３０４…インタコネクトデバイス、１０５，２０５，３０５…バスデバイス、１０６，２０６ａ，２０６ｂ，３０６ａ，３０６ｂ…演算機能部、１０７，２０７，３０７…高速クロック部、１０８，２０８，３０８…ＤＭＡコントローラ、１１１，２１１，３１１…制御部、１１２，２１２，３１２…パラメータ格納部、２０９，３０９…スケジューラ部、３１０…振り分け部、４１３…制御ノード、４１４…制御網、４１５…ジョブ受付部、４１６…管理データベース部、４１７…制御指示部、１０４０，２０４０，３０４０…メモリ。

Claims

学習対象のモデルに学習データを入力した出力結果から損失関数の勾配データを計算し、前記勾配データの集計データに基づいて前記モデルのパラメータを更新するように構成された複数の演算デバイスと、
他の分散処理ノードとの間で前記勾配データを集計するように構成されたインタコネクトデバイスと、
前記複数の演算デバイスおよび前記インタコネクトデバイスと接続されたバスデバイス内に設けられ、前記複数の演算デバイスからの勾配データの処理および前記インタコネクトデバイスからの勾配データの処理のうち少なくとも一方を行うように構成された演算機能部と、
前記複数の演算デバイスと前記バスデバイスとの間の勾配データのＤＭＡ転送、および前記バスデバイスと前記インタコネクトデバイスとの間の勾配データのＤＭＡ転送を制御するように構成されたＤＭＡコントローラと、
外部から要求された学習ジョブを前記複数の演算デバイスのうちの少なくとも１つに割り当てるように構成された制御部とを備えることを特徴とする分散処理ノード。
請求項１記載の分散処理ノードにおいて、
前記演算機能部は、学習ジョブ毎に設けられることを特徴とする分散処理ノード。
請求項２記載の分散処理ノードにおいて、
前記複数の演算デバイスから前記バスデバイスへのＤＭＡ転送に関する情報を前記ＤＭＡコントローラから取得し、前記学習ジョブの要求に応じて前記演算デバイスによって計算され前記バスデバイスへ転送された勾配データを、前記ＤＭＡコントローラから取得した情報に基づいて、前記学習ジョブに対応する前記演算機能部に振り分けるように構成された振り分け部をさらに備えることを特徴とする分散処理ノード。
請求項２または３記載の分散処理ノードにおいて、
前記複数の演算デバイスから前記バスデバイスへのＤＭＡ転送に関する情報を前記ＤＭＡコントローラから取得し、取得した情報に基づいて前記バスデバイス内の演算機能部から前記インタコネクトデバイスへのＤＭＡ転送の順位とタイミングとを決定するように構成されたスケジューラ部をさらに備えることを特徴とする分散処理ノード。
請求項１乃至４のいずれか１項に記載の分散処理ノードにおいて、
前記演算機能部に供給されるクロック信号の周波数は、前記インタコネクトデバイスに供給されるクロック信号の周波数よりも高く、
前記演算機能部の動作速度は、前記インタコネクトデバイスの動作速度よりも速いことを特徴とする分散処理ノード。
請求項１乃至５のいずれか１項に記載の分散処理ノードを複数備えると共に、
前記複数の分散処理ノードを制御するように構成された制御ノードを備え、
前記制御ノードは、
外部からの学習ジョブの要求情報を受け付けるように構成されたジョブ受付部と、
各分散処理ノードのリソース情報を管理するように構成された管理データベース部と、
前記ジョブ受付部からの要求情報と前記管理データベース部で管理されているリソース情報とを基に、学習ジョブを割り当てる演算デバイスの情報を含む制御指示情報を各分散処理ノード向けに作成するように構成された制御指示部とを備え、
各分散処理ノードの制御部は、前記制御指示情報によって指示された自ノードの演算デバイスに学習ジョブを割り当てて学習ジョブを開始させることを特徴とする分散処理システム。
請求項６記載の分散処理システムにおいて、
各分散処理ノードは、前記モデルのパラメータを格納するように構成されたパラメータ格納部をさらに備え、
前記制御ノードの管理データベース部は、各分散処理ノードのリソース情報とモデルに関する情報とを管理し、
前記制御ノードの制御指示部は、学習ジョブを割り当てる演算デバイスの情報の他に、学習対象のモデルに関する情報とパラメータの情報とを含む前記制御指示情報を作成し、
各分散処理ノードの制御部は、前記制御指示情報に従って自ノードの前記パラメータ格納部から学習対象のモデルのパラメータを読み出すことを特徴とする分散処理システム。