JP7420228B2

JP7420228B2 - 分散処理システムおよび分散処理方法

Info

Publication number: JP7420228B2
Application number: JP2022516509A
Authority: JP
Inventors: 猛伊藤; 顕至田仲; 勇輝有川; 和彦寺田; 健坂本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2024-01-23
Anticipated expiration: 2040-04-21
Also published as: JPWO2021214863A1; WO2021214863A1

Description

本発明は、集計処理ノードと複数の分散処理ノードとを連携させてニューラルネットワークの学習などの高負荷な演算を行う分散処理システムおよび分散処理方法に関するものである。

深層学習では、多層のニューロンモデルからなる学習対象について、各ニューロンモデルの重み（前段のニューロンモデルが出力した値に乗じる係数）を、入力したサンプルデータに基づいて更新することにより、推論精度を改善する。

通常、推論精度を改善する手法には、ミニバッチ法が用いられている。ミニバッチ法では、サンプルデータ毎に前記重みに対する勾配を計算する勾配計算処理と、複数の異なるサンプルデータについて前記勾配を集計する（サンプルデータ毎に得られた勾配を重み別に合算する）集計処理と、各重みを前記集計された勾配に基づいて更新する重み更新処理と、を繰り返す。

これらの処理、特に勾配計算処理は、多数回の演算を必要とするが、推論精度を向上させるために、重みの個数や入力するサンプルデータの個数が増加すると、深層学習に要する時間が増大するという、課題がある。

勾配計算処理を高速化するため、分散処理の手法が用いられている。具体的には、複数の分散処理ノードを設け、各ノードは、各々異なるサンプルデータについて勾配計算処理を行う。これにより、ノード数に比例して単位時間に処理できるサンプルデータ数を増加させることが可能となるため、勾配計算処理を高速化できる（非特許文献１参照）。

深層学習の分散処理において、集計処理を行うためには、分散処理ノード毎に得られたデータ（分散データ）を集計処理ノードに集約するための、各分散処理ノードから集計処理ノードへの通信（集約通信）と、集計処理ノードでの全ノード集計処理と、集計処理ノードが集計したデータ（集計データ）を各分散処理ノードに転送するための、集計処理ノードから分散処理ノードへの通信（分配通信）と、が必要となる。

図１８に、従来技術による、深層学習の分散処理のシーケンスを示す。分散処理ノード４００［ｎ］（ｎ＝１，・・・，Ｎ）は、Iの期間においてサンプルデータ入力と勾配計算処理とノード内集計処理とを行い、分散データを集計処理ノード４０１に送信する。IIの期間では、このような各ノードからの送信が行われるが、各ノードが同時に分散データを送信するとは限らない。

IIIの期間では、集計処理ノード４０１が各ノードから得られた勾配を重み別に合算する全ノード集計処理を行い、IVの期間において集計データを各分散処理ノード４００［ｎ］に送信する。Vの期間では、各分散処理ノード４００［ｎ］が重み更新処理を行う。
こうして、分散処理が行われることにより、深層学習には、集約通信（II）と全ノード集計処理（III）と分配通信（IV）の各処理時間が加わる。

このような処理時間は、深層学習を単一ノードで実施するシステムでは不要であり、深層学習の分散処理を行う上で、処理速度を低下させる要因となっている。
近年、深層学習がより複雑な問題に適用されるようになってきており、重みの総数が増加する傾向にある。このため、分散データや集計データのデータ量が増大し、集約通信時間と分配通信時間が増大している。また、集約通信時間と分配通信時間の増大によって集計処理ノードと分散処理ノードでのデータ処理負荷も増大している。

図１９は、従来の分散処理システムにおける分散処理ノード数と深層学習の処理性能との関係を示しており、５００は分散処理ノード数と処理性能の理想的な関係（性能∝ノード数）を示し、５０１は分散処理ノード数と処理性能の実際の関係を示している。このように、深層学習の分散システムは、集約通信時間と分配通信時間の増大および集計処理ノードと分散処理ノードでのデータ処理負荷の増大によって、各分散処理ノード数を増加させることにより、深層学習の高速化の効果が低下するという問題があった。

また、重みの総数が増加した際に、集計処理ノードと分散処理ノードでのデータ処理負荷を低減する方法として、モデル分割という方法が知られている（非特許文献２参照）。この方法は、深層学習で用いられる演算モデルを複数のＧＰＵ（graphics processing units）などの演算デバイスに分割して、単一の演算デバイス当たりの処理負荷を低減するものである。しかし、本手法を用いると、分割した演算デバイス間で演算データのための通信処理と分散深層学習のための通信処理とがノード内で競合し、処理速度の低下を招いていた。

Takuya Akiba，Shuji Suzuki，Keisuke Fukuda，"Extremely Large Minibatch SGD:Training ResNet-50 on ImageNet in 15 Minutes"，米国コーネル大学ライブラリー，arXiv:1711.04325，2017，インターネット＜https://arxiv.org/abs/1711.04325＞ Zhihao Jia，Matei Zaharia，Alex Aiken，"Beyond Data and Model Parallelism for Deep Neural Networks"，米国コーネル大学ライブラリー，arXiv: 1807.05358，2018，インターネット＜https://arxiv.org/pdf/1807.05358＞

本発明は、上記のような事情を考慮してなされたものであり、その目的は、集計処理ノードと複数の分散処理ノードとを備える分散処理システムおいて、ニューラルネットワークのような巨大化したモデルを分割する演算手法を採用した場合のモデルの学習効率を向上させ、なおかつノードの処理負荷を軽減し、効率的かつ安定に動作することができる分散処理システムおよび分散処理方法を提供することにある。

本発明の分散処理システムは、集計処理ノードとＮ個（Ｎは２以上の整数）の分散処理ノードとを備え、各分散処理ノードは、演算対象のモデルの分割されたＬ個（Ｌは２以上の整数）のブロックの演算を行うように構成されたＬ個の演算通信素子を備え、前記集計処理ノードは、前記ブロック毎の演算を行うように構成されたＬ個の集約処理機能部を備え、各分散処理ノードのｉ番目（ｉ＝１，・・・，Ｌ）の前記演算通信素子は、演算対象のｉ番目の前記ブロックのＭ_i個（Ｍ_iは２以上の整数）のパラメータｗ_i［ｍ_i］毎（ｍ_i＝１，・・・，Ｍ_i）の分散データＤ_i［ｍ_i，ｎ］（ｎ＝１，・・・，Ｎ）をパラメータｗ_i［ｍ_i］の番号ｍ_iの順番にパケット化して前記集計処理ノードのｉ番目の前記集約処理機能部に送信し、ｉ番目の前記集約処理機能部から送信されたパケットを受信して集計データＲ_i［ｍ_i］を番号ｍ_iの順番に取得して、この集計データＲ_i［ｍ_i］に基づいてｉ番目の前記ブロックのパラメータｗ_i［ｍ_i］を更新し、前記集計処理ノードのｉ番目の前記集約処理機能部は、各分散処理ノードのｉ番目の前記演算通信素子から送信されたパケットを受信して分散データＤ_i［ｍ_i，ｎ］を番号ｍ_iの順番に取得し、全分散処理ノードのｉ番目の前記演算通信素子の分散データＤ_i［ｍ_i，ｎ］をパラメータｗ_i［ｍ_i］毎に集計した前記集計データＲ_i［ｍ_i］を生成して、この集計データＲ_i［ｍ_i］を番号ｍ_iの順番にパケット化して各分散処理ノードのｉ番目の前記演算通信素子に送信し、各分散処理ノードのｉ番目の前記演算通信素子は、前記集計処理ノードに前記分散データＤ_i［ｍ_i，ｎ］を送信開始してからＭ_i個の前記集計データＲ_i［ｍ_i］を取得し終えるまでの期間において、送信済みの分散データＤ_i［ｍ_i，ｎ］のデータ量と取得済みの集計データＲ_i［ｍ_i］のデータ量との差である未受信データ量を監視し、この未受信データ量が閾値Ｍａ_i以上（Ｍａ_iはＭ_iより小さい正の整数）となった場合に、前記分散データＤ_i［ｍ_i，ｎ］の送信を前記未受信データ量が閾値Ｍｂ_i（Ｍｂ_iはＭａ_iより小さい正の整数）以下となるまで停止することを特徴とするものである。

また、本発明の分散処理方法は、Ｎ個（Ｎは２以上の整数）の分散処理ノードの各々に、演算対象のモデルの分割されたＬ個（Ｌは２以上の整数）のブロック毎に設けられたＬ個の演算通信素子の各々が、演算対象のｉ番目（ｉ＝１，・・・，Ｌ）の前記ブロックのＭ_i個（Ｍ_iは２以上の整数）のパラメータｗ_i［ｍ_i］毎（ｍ_i＝１，・・・，Ｍ_i）の分散データＤ_i［ｍ_i，ｎ］（ｎ＝１，・・・，Ｎ）を重みｗ_i［ｍ_i］の番号ｍ_iの順番にパケット化して集計処理ノードに設けられたｉ番目の集約処理機能部に送信する第１のステップと、前記集計処理ノードのｉ番目の前記集約処理機能部が、各分散処理ノードのｉ番目の前記演算通信素子から送信されたパケットを受信して前記分散データＤ_i［ｍ_i，ｎ］を番号ｍ_iの順番に取得する第２のステップと、前記集計処理ノードのｉ番目の前記集約処理機能部が、全分散処理ノードの分散データＤ_i［ｍ_i，ｎ］をパラメータｗ_i［ｍ_i］毎に集計した集計データＲ_i［ｍ_i］を生成する第３のステップと、前記集計処理ノードのｉ番目の前記集約処理機能部が、前記集計データＲ_i［ｍ_i］を番号ｍ_iの順番にパケット化して各分散処理ノードのｉ番目の前記演算通信素子に送信する第４のステップと、各分散処理ノードのｉ番目の前記演算通信素子が、前記集計処理ノードのｉ番目の前記集約処理機能部から送信されたパケットを受信して前記集計データＲ_i［ｍ_i］を番号ｍ_iの順番に取得する第５のステップと、各分散処理ノードのｉ番目の前記演算通信素子が、前記集計データＲ_i［ｍ_i］に基づいてｉ番目の前記ブロックのパラメータｗ_i［ｍ_i］を更新する第６のステップと、各分散処理ノードのｉ番目の前記演算通信素子が、前記集計処理ノードのｉ番目の前記集約処理機能部に前記分散データＤ_i［ｍ_i，ｎ］を送信開始してからＭ_i個の前記集計データＲ_i［ｍ_i］を取得し終えるまでの期間において、送信済みの分散データＤ_i［ｍ_i，ｎ］のデータ量と取得済みの集計データＲ_i［ｍ_i］のデータ量との差である未受信データ量を監視し、この未受信データ量が閾値Ｍａ_i以上（Ｍａ_iはＭ_iより小さい正の整数）となった場合に、前記第１のステップによる前記分散データＤ_i［ｍ_i，ｎ］の送信を、前記未受信データ量が閾値Ｍｂ_i（Ｍｂ_iはＭａ_iより小さい正の整数）以下となるまで停止する第７のステップとを含むことを特徴とするものである。

本発明によれば、各分散処理ノードから集計処理ノードに分散データを送信する処理と、集計処理ノードから各分散処理ノードに集計データを送信する処理とを同時に行うことができ、効果的な分散処理を行うことができるので、モデルの学習効率を向上させることができる。さらに、本発明では、各分散処理ノード内の各演算通信素子が、未受信データ量を監視し、この未受信データ量が閾値Ｍａ_i以上となった場合に、分散データの送信を未受信データ量が閾値Ｍｂ_i以下となるまで停止することにより、集計処理ノードへの過渡的な分散データ集中を抑制することで集計処理ノードに対する過渡的な処理負荷を分散でき、効果的でさらに安定な分散処理を行うことができるので、モデルを分割する演算手法を採用した場合の学習効率および安定度を向上させることができる。

図１は、本発明の第１の実施例に係る深層学習用分散処理システムの構成例を示すブロック図である。図２は、本発明の第１の実施例に係る深層学習用分散処理システムの集計処理ノードと分散処理ノードの構成例を示すブロック図である。図３は、本発明の第１の実施例に係る分散処理ノードの１番目の演算通信素子におけるサンプルデータ入力処理と勾配計算処理とノード内集計処理を説明するフローチャートである。図４は、本発明の第１の実施例に係る分散処理ノードの１番目以外の演算通信素子におけるサンプルデータ入力処理と勾配計算処理とノード内集計処理を説明するフローチャートである。図５は、本発明の第１の実施例に係る分散処理ノードの集約通信処理を説明するフローチャートである。図６は、本発明の第１の実施例に係る集計処理ノードの集約通信処理を説明するフローチャートである。図７は、本発明の第１の実施例に係る集計処理ノードの全ノード集計処理を説明するフローチャートである。図８は、本発明の第１の実施例に係る集計処理ノードの分配通信処理を説明するフローチャートである。図９は、本発明の第１の実施例に係る分散処理ノードの分配通信処理を説明するフローチャートである。図１０は、本発明の第１の実施例に係る分散処理ノードの未受信データ量の推移を示す図である。図１１は、本発明の第１の実施例に係る分散処理ノードの送信制御部の動作を説明するフローチャートである。図１２は、本発明の第１の実施例に係る分散処理ノードの重み更新処理を説明するフローチャートである。図１３は、本発明の第１の実施例に係る集計処理ノードと分散処理ノードの処理のシーケンスを示す図である。図１４は、本発明の第１の実施例における分散処理ノードの送信制御の効果を説明する図である。図１５は、本発明の第１の実施例に係る集計処理ノードの複数の集約処理機能部と分散処理ノードの複数の演算通信素子の全体処理のシーケンスを示す図である。図１６は、本発明の第２の実施例に係る集計処理ノードの構成例を示すブロック図である。図１７は、本発明の第１、第２の実施例に係る集計処理ノードと分散処理ノードを実現するコンピュータの構成例を示すブロック図である。図１８は、従来の深層学習の分散処理のシーケンスを示す図である。図１９は、従来の分散処理システムにおける分散処理ノード数と深層学習の処理性能との関係を示す図である。

［第１の実施例］
以下、本発明の実施例について図面を参照して説明する。図１は本発明の第１の実施例に係る深層学習用分散処理システムの構成例を示すブロック図である。図１の分散処理システムは、１個の集計処理ノード１００と、ニューラルネットワークのサンプルデータ（学習データ）の集合毎に設けられたＮ個（Ｎは２以上の整数）の分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）とを備える。各分散処理ノード２００［ｎ］は、双方向の通信が可能なネットワーク３００により、集計処理ノード１００と接続されている。

なお、本発明において、「ノード」とは、ネットワーク上に分散配置されているサーバ、演算素子、通信カード等の機器を意味する。また、ネットワーク３００は、集計処理ノード１００を頂点に、分散処理ノード２００［ｎ］がツリー状に接続された１対多の接続構成として描かれているが、特にツリー構造に限定されるものではなく、集計処理ノード１００と分散処理ノード２００［ｎ］とが直接、間接を問わず双方向の通信が可能であれば、どのような構成のネットワークであってもよいことは言うまでもない。また、ネットワーク３００は、ノード内の複数のノード機能部で構成されるノード内バス通信ネットワークの一部であってもよい。すなわち、ノード内に、集計処理ノード１００に相当するノード機能部と分散処理ノード２００［ｎ］に相当するノード機能部とが混在する構成でもよい。

本発明では、入力層から出力層まで複数の層からなるニューラルネットワークを、１層乃至複数層の単位でＬ個（Ｌは２以上の整数）のブロックに分割する。すなわち、各ブロックは、１乃至複数の層からなる。各ブロックに含まれる層数は異なっていて構わない。

図２は集計処理ノード１００と分散処理ノード２００［ｎ］の構成例を示すブロック図である。集計処理ノード１００は、演算対象のモデル（ニューラルネットワーク）のＬ個のブロックにそれぞれ割り当てられたＬ個の集約処理機能部１０１［ｉ］（ｉ＝１，・・・，Ｌ）から構成される。

各分散処理ノード２００［ｎ］は、演算対象のモデルのＬ個のブロックにそれぞれ割り当てられたＬ個の演算通信素子２０１［ｉ］から構成される。
例えば演算対象のモデルの入力側から数えて１番目のブロックに割り当てられた演算通信素子２０１［１］は、分散処理ノード２００［ｎ］用に図示しないデータ収集ノードから学習用のサンプルデータを受け取るサンプル入力部２０２と、サンプルデータが入力されたときに、１番目のブロックの重み（パラメータ）の各々について、モデルの損失関数のパラメータ勾配をサンプルデータ毎に計算する勾配計算処理部２０３［１］と、サンプルデータ毎のパラメータ勾配を集計した数値である分散データをパラメータ毎に生成して保持するノード内集計処理部２０４［１］と、分散データをパケット化して集計処理ノード１００の集約処理機能部１０１［１］に送信する送信部２０５［１］と、集計処理ノード１００の集約処理機能部１０１［１］から送信されたパケットを受信して集計データを取得する受信部２０６［１］と、集計データに基づいて１番目のブロックのパラメータを更新する更新処理部２０７［１］と、ソフトウェア的に構築されたモデルを構成する１番目のブロック２０８［１］と、送信部２０５［１］に内包され、送信部２０５［１］の送信済みの分散データのデータ量（個数）をカウントする送信カウント部２０９［１］と、受信部２０６［１］に内包され、受信部２０６［１］の取得済みの集計データのデータ量（個数）をカウントする受信カウント部２１０［１］と、送信済みの分散データのデータ量と取得済みの集計データのデータ量との差である未受信データ量を監視し、この未受信データ量が閾値Ｍａ₁以上となった場合に、分散データの送信を未受信データ量が閾値Ｍｂ₁（Ｍｂ₁＜Ｍａ₁）以下となるまで停止する送信制御部２１１［１］とを備えている。

演算対象のモデルの入力側から数えてｈ番目（ｈ＝２，・・・，Ｌ）のブロックに割り当てられた演算通信素子２０１［ｈ］は、サンプルデータが入力されたときに、ｈ番目のブロックのパラメータの各々について、モデルの損失関数のパラメータ勾配をサンプルデータ毎に計算する勾配計算処理部２０３［ｈ］と、サンプルデータ毎のパラメータ勾配を集計した数値である分散データをパラメータ毎に生成して保持するノード内集計処理部２０４［ｈ］と、分散データをパケット化して集計処理ノード１００の集約処理機能部１０１［ｈ］に送信する送信部２０５［ｈ］と、集計処理ノード１００の集約処理機能部１０１［ｈ］から送信されたパケットを受信して集計データを取得する受信部２０６［ｈ］と、集計データに基づいてｈ番目のブロックのパラメータを更新する更新処理部２０７［ｈ］と、ソフトウェア的に構築されたモデルを構成するｈ番目のブロック２０８［ｈ］と、送信部２０５［ｈ］に内包され、送信部２０５［ｈ］の送信済みの分散データのデータ量（個数）をカウントする送信カウント部２０９［ｈ］と、受信部２０６［ｈ］に内包され、受信部２０６［ｈ］の取得済みの集計データのデータ量（個数）をカウントする受信カウント部２１０［ｈ］と、送信済みの分散データのデータ量と取得済みの集計データのデータ量との差である未受信データ量を監視し、この未受信データ量が閾値Ｍａ_h以上となった場合に、分散データの送信を未受信データ量が閾値Ｍｂ_h（Ｍｂ_h＜Ｍａ_h）以下となるまで停止する送信制御部２１１［ｈ］とを備えている。

本実施例のニューラルネットワークでの演算は、入力されたサンプルデータに対する１番目の演算通信素子２０１［１］の計算結果をバス２１２を介して２番目の演算通信素子２０１［２］に送り、演算通信素子２０１［１］から受信した計算結果を入力とする演算通信素子２０１［２］の計算結果をバス２１２を介して３番目の演算通信素子２０１［３］に送るというように、演算通信素子２０１［１］から演算通信素子２０１［Ｌ］へと順に計算結果を送ることにより、ニューラルネットワークの出力値を得る。この出力値を求める工程では、ニューラルネットワークの入力側のブロックから出力側のブロックに向かって順番に演算していくことから、この工程を順伝搬（forward propagation）と呼ぶ。

次に、ニューラルネットワークの出力値が正解（教師データ）からどれだけ乖離しているかの指標となる損失関数の勾配を、ニューラルネットワークの構成パラメータ（重み）の各々について求める。この工程では、Ｌ番目の演算通信素子２０１［Ｌ］の計算結果をバス２１２を介して（Ｌ－１）番目の演算通信素子２０１［Ｌ－１］に送り、演算通信素子２０１［Ｌ］から受信した計算結果を入力とする演算通信素子２０１［Ｌ－１］の計算結果をバス２１２を介して（Ｌ－２）番目の演算通信素子２０１［Ｌ－２］に送るというように、演算通信素子２０１［Ｌ］から演算通信素子２０１［１］へと順に計算結果を送ることにより、ニューラルネットワーク全体の損失関数の勾配の計算を行う。この勾配を求める工程では、ニューラルネットワークの出力側のブロックから入力側のブロックに向かって順番に勾配を計算していくことから、この工程を逆伝搬（back propagation）と呼ぶ。

図３は分散処理ノード２００［ｎ］の１番目の演算通信素子２０１［１］におけるサンプルデータ入力処理と勾配計算処理とノード内集計処理を説明するフローチャート、図４は分散処理ノード２００［ｎ］のｈ番目（ｈ＝２，・・・，Ｌ）の演算通信素子２０１［ｈ］におけるサンプルデータ入力処理と勾配計算処理とノード内集計処理を説明するフローチャートである。

各分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）の演算通信素子２０１［１］のサンプル入力部２０２は、図示しないデータ収集ノードから異なるＳ個（Ｓは２以上の整数）のサンプルデータｘ［ｎ，ｓ］（ｓ＝１，・・・，Ｓ）をミニバッチ毎に入力する（図３ステップＳ１００）。

なお、本発明は、データ収集ノードによるサンプルデータの収集方法、および収集したサンプルデータをＮ個の集合に振り分けて各分散処理ノード２００［ｎ］へ分配する方法に限定されるものではなく、これらの方法の如何を問わず適用が可能である。

各分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）の演算通信素子２０１［１］の勾配計算処理部２０３［１］は、サンプルデータｘ［ｎ，ｓ］が入力されたとき、ニューラルネットワークのブロック２０８［１］内の層のＭ₁個（Ｍ₁は２以上の整数）の重みｗ₁［ｍ₁］（ｍ₁＝１，・・・，Ｍ₁）の各々について、損失関数の勾配Ｇ［ｍ₁，ｎ，ｓ］をサンプルデータｘ［ｎ，ｓ］毎に計算する。

一方、各分散処理ノード２００［ｎ］の演算通信素子２０１［ｈ］（ｈ＝２，・・・，Ｌ）の勾配計算処理部２０３［ｈ］は、ニューラルネットワークのブロック２０８［ｈ］内の層のＭ_h個（Ｍ_hは２以上の整数）の重みｗ_h［ｍ_h］（ｍ_h＝１，・・・，Ｍ_h）の各々について、損失関数の勾配Ｇ［ｍ_h，ｎ，ｓ］をサンプルデータｘ［ｎ，ｓ］毎に計算する。

勾配計算処理では、まず演算通信素子２０１［１］の勾配計算処理部２０３［１］は、ニューラルネットワークのブロック２０８［１］の出力値をサンプルデータｘ［ｎ，ｓ］毎に計算する（図３ステップＳ１０１）。続いて、勾配計算処理部２０３［１］は、計算結果を隣接する２番目の演算通信素子２０１［２］に送信する（図３ステップＳ１０２）。

演算通信素子２０１［ｈ］の勾配計算処理部２０３［ｈ］は、隣接する（ｈ－１）番目の演算通信素子２０１［ｈ－１］から出力値の計算結果を受信する（図４ステップＳ２００）。勾配計算処理部２０３［ｈ］は、受信した計算結果を入力として、ニューラルネットワークのブロック２０８［ｈ］の出力値をサンプルデータｘ［ｎ，ｓ］毎に計算する（図４ステップＳ２０１）。続いて、勾配計算処理部２０３［ｈ］は、計算結果を隣接する（ｈ＋１）番目の演算通信素子２０１［ｈ＋１］に送信する（図４ステップＳ２０２）。なお、演算通信素子２０１［Ｌ］については、次の番号の演算通信素子が存在しないため、ステップＳ２０２の処理は行われない。

次に、演算通信素子２０１［ｈ］の勾配計算処理部２０３［ｈ］は、隣接する（ｈ＋１）番目の演算通信素子２０１［ｈ＋１］から勾配の計算結果Ｇ［ｍ_h+1，ｎ，ｓ］を受信する（図４ステップＳ２０３）。そして、勾配計算処理部２０３［ｈ］は、受信した勾配Ｇ［ｍ_h+1，ｎ，ｓ］を用いて、ニューラルネットワークのブロック２０８［ｈ］内の層のＭ_h個の重みｗ_h［ｍ_h］の各々について、損失関数の勾配Ｇ［ｍ_h，ｎ，ｓ］をサンプルデータｘ［ｎ，ｓ］毎に計算する（図４ステップＳ２０４）。

なお、演算通信素子２０１［Ｌ］については、次の番号の演算通信素子が存在しないため、ステップＳ２０３の処理は行われない。勾配計算処理部２０３［Ｌ］は、ニューラルネットワークのブロック２０８［Ｌ］の出力値の計算結果と正解（教師データ）とを用いて、ブロック２０８［Ｌ］内の層のＭ_L個の重みｗ_L［ｍ_L］の各々について、損失関数の勾配Ｇ［ｍ_L，ｎ，ｓ］をサンプルデータｘ［ｎ，ｓ］毎に計算する。

次に、演算通信素子２０１［１］の勾配計算処理部２０３［１］は、隣接する２番目の演算通信素子２０１［２］から勾配の計算結果Ｇ［ｍ₂，ｎ，ｓ］を受信する（図３ステップＳ１０３）。そして、勾配計算処理部２０３［１］は、受信した勾配Ｇ［ｍ₂，ｎ，ｓ］を用いて、ニューラルネットワークのブロック２０８［１］内の層のＭ₁個の重みｗ₁［ｍ₁］の各々について、損失関数の勾配Ｇ［ｍ₁，ｎ，ｓ］をサンプルデータｘ［ｎ，ｓ］毎に計算する（図３ステップＳ１０４）。

なお、ニューラルネットワークを各分散処理ノード２００［ｎ］にソフトウェアで構築する方法、重みｗ_i［ｍ_i］、損失関数、および損失関数の勾配Ｇ［ｍ_i，ｎ，ｓ］については周知の技術であるので、詳細な説明は省略する。

続いて、各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］（ｉ＝１，・・・，Ｌ）のノード内集計処理部２０４［ｉ］は、サンプルデータ毎の勾配Ｇ［ｍ_i，ｎ，ｓ］を集計した数値である分散データＤ_i［ｍ_i，ｎ］を、重みｗ_i［ｍ_i］毎に生成して保持する（図３ステップＳ１０５、図４ステップＳ２０５）。分散データＤ_i［ｍ_i，ｎ］の計算式は以下のとおりである。
Ｄ_i［ｍ_i，ｎ］＝Σ_s=1,…,SＧ_i［ｍ_i，ｎ，ｓ］・・・（１）

なお、勾配計算処理部２０３［ｉ］による勾配計算処理とノード内集計処理部２０４［ｉ］によるノード内集計処理とは、サンプルデータ単位でパイプライン化する（あるサンプルデータに対して勾配計算処理を行うと同時にその１つ前のサンプルデータから得た勾配を集計するノード内集計処理とを同時に実行する）ことができる。

図５は分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）の集約通信処理を説明するフローチャートである。各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］の送信部２０５［ｉ］（ｉ＝１，・・・，Ｌ）は、重みｗ_i［ｍ_i］毎の分散データＤ_i［ｍ_i，ｎ］（ｍ_i＝１，・・・，Ｍ_i）を、重みｗ_i［ｍ_i］の番号ｍ_iの順番にパケット化して、集計処理ノード１００の中の対応する集約処理機能部１０１［ｉ］に送信する集約通信を行う。また、集約通信パケット送信では、集約通信パケット送信完までの間、分散データＤ_i［ｍ_i，ｎ］の振り分けが完了後、送信開始されてからの送信済みの分散データＤ_i［ｍ_i，ｎ］の数Ｍｔ_i（Ｍｔ_iはＭ_i以下の正の整数）をカウントする。

このとき、各分散処理ノード２００［ｎ］の送信部２０５［ｉ］は、保持するＭ_i個の分散データＤ_i［ｍ_i，ｎ］（ｍ_i＝１，・・・，Ｍ_i）を、Ｌｇ_i（Ｌｇ_iは１以上Ｍｉ未満の整数）個ずつＰｇ_i個（Ｐｇ_iは２以上の整数）の集約通信パケットに振り分けて（図５ステップＳ３００）、全ての集約通信パケットを送信し終えるまで（図５ステップＳ３０３においてＹＥＳ）、Ｐｇ_i個の集約通信パケットを順番に集計処理ノード１００の中の対応する集約処理機能部１０１［ｉ］に送信する（図５ステップＳ３０１）。すなわち、ｐ_i番目（ｐ_i＝１，・・・，Ｐｇ_i）に送信する集約通信パケットＳＰ_i［ｐ_i，ｎ］には、Ｌｇ_i個の分散データＤ_i［ｊ，ｎ］（ｊ＝Ｌｇ_i×（ｐ_i－１）＋ｌ_i、ｌ_i＝１，・・・，Ｌｇ_i）が格納される。

なお、Ｍ_iがＬｇ_iで割り切れない条件では、Ｐｇ_i個目の集約通信パケットＳＰ_i［Ｐｇ_i，ｎ］には、（Ｍ_i－Ｌｇ_i×（Ｐｇ_i－１））個の分散データＤ_i［ｕ，ｎ］（ｕ＝Ｌｇ_i×（Ｐｇ_i－１）＋ｑ_i、ｑ_i＝１，・・・，Ｍ_i－Ｌｇ_i×（Ｐｇ_i－１））が格納される。
Ｐｇ_i番目の集約通信パケットＳＰ_i［Ｐｇ_i，ｎ］については、（Ｍ_i－Ｌｇ_i×（Ｐｇ_i－１））個の分散データＤ_i［ｕ，ｎ］の後に、｛Ｌｇ_i－（Ｍ_i－Ｌｇ_i×（Ｐｇ_i－１））｝個のダミーの数値を追加し、全ての集約通信パケットが等しくＬｇ_i個のデータを格納するようにしてもよい。

また、上記のとおり、送信部２０５［ｉ］内の送信カウント部２０９［ｉ］は、１番目の集約通信パケットＳＰ_i［１，ｎ］の送信開始からＰｇ_i個の全ての集約通信パケットＳＰ_i［ｐ_i，ｎ］の送信完了までの間（ステップＳ３０３においてＹＥＳ）、送信済みの分散データＤ_i［ｍ_i，ｎ］の数Ｍｔ_iをカウントする（図５ステップＳ３０３）。
ｐ_i番目の集約通信パケットＳＰ_i［ｐ_i，ｎ］を送信した時点では、送信開始からｐ_i×Ｌｇ_i個の分散データＤ_i［ｍ_i，ｎ］を送信していることになるため、Ｍｔ_iの値はｐ_i×Ｌｇ_iである。なお、送信カウント部２０９［ｉ］は、Ｐｇ_i個全ての集約通信パケットＳＰ_i［ｐ_i，ｎ］を送信した時点では、ｐ_i×Ｌｇ_iの値に関わらずＭｔ_i＝Ｍ_iとする。

なお、図５のチャートに示した処理の開始のタイミングは、演算通信素子２０１［Ｌ］から２０１［Ｌ－１］、２０１［Ｌ－２］・・・・の順で行われ、演算通信素子２０１［１］で図５の処理が開始されるのは最後である。その理由は、上記の説明から明らかなように、一番始めに演算通信素子２０１［Ｌ］で分散データＤ_L［ｍ_L，ｎ］が計算され、最後に演算通信素子２０１［１］で分散データＤ₁［ｍ₁，ｎ］が計算されるためである。

図６は集計処理ノード１００の集約通信処理を説明するフローチャートである。集約通信において、集計処理ノード１００の各集約処理機能部１０１［ｉ］（ｉ＝１，・・・，Ｌ）は、各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］が送信した集約通信パケットＳＰ_i［ｐ_i，ｎ］（ｐ_i＝１，・・・，Ｐｇ_i）を受信する（図６ステップＳ４００）。

集計処理ノード１００の各集約処理機能部１０１［ｉ］は、受信した集約通信パケットＳＰ_i［ｐ_i，ｎ］から、分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］が保持していたＬｇ_i個の分散データＤ_i［ｊ，ｎ］（ｊ＝Ｌｇ_i×（ｐ_i－１）＋ｌ_i、ｐ_i＝１，・・・，Ｐｇ_i、ｌ_i＝１，・・・，Ｌｇ_i）を取得する（図６ステップＳ４０１）。

このように、集計処理ノード１００の各集約処理機能部１０１［ｉ］は、各分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）が保持していた分散データＤ_i［ｍ_i，ｎ］（ｍ_i＝１，・・・，Ｍ_i）を、重みｗ_i［ｍ_i］の番号ｍ_iの順番に取得することができる。

なお、図６のチャートに示した処理の開始のタイミングは、集約処理機能部１０１［Ｌ］から１０１［Ｌ－１］、１０１［Ｌ－２］・・・・の順で行われ、集約処理機能部１０１［１］で図６の処理が開始されるのは最後である。その理由は、図５の場合と同じである。

図７は集計処理ノード１００の集約処理機能部１０１［ｉ］（ｉ＝１，・・・，Ｌ）の全ノード集計処理を説明するフローチャートである。集計処理ノード１００の各集約処理機能部１０１［ｉ］は、各分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）の演算通信素子２０１［ｉ］から重みｗ_i［ｍ_i］の分散データＤ_i［ｍ_i，ｎ］を取得し終えた後に（図７ステップＳ４０２においてＹＥＳ）、取得した全ての分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］の分散データＤ_i［ｍ_i，ｎ］を重みｗ_i［ｍ_i］毎に集計する全ノード集計処理を行い、集計データＲ_i［ｍ_i］を生成する（図７ステップＳ４０３）。集計データＲｉ［ｍｉ］の計算式は、以下のとおりである。
Ｒ_i［ｍ_i］＝Σ_n=1,…,NＤ_i［ｍ_i，ｎ］・・・（２）

このように、集計処理は、番号ｍ_iの順番に取得した分散データＤ_i［ｍ_i，ｎ］に基づいて、集計データＲ_i［ｍ_i］を計算する処理である。このため、集計処理ノード１００の集約処理機能部１０１［ｉ］は、番号ｍ_iの順番に集計データＲ_i［ｍｉ］を生成することができる。

図８は集計処理ノード１００の分配通信処理を説明するフローチャートである。集計処理ノード１００の集約処理機能部１０１［ｉ］は、重みｗ_i［ｍｉ］毎の集計データＲ_i［ｍ_i］（ｍ_i＝１，・・・，Ｍ_i）を、重みｗ_i［ｍ_i］の番号ｍ_iの順番にパケット化して各分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）の中の対応する演算通信素子２０１［ｉ］に送信する分配通信を行う。

このとき、集計処理ノード１００の集約処理機能部１０１［ｉ］は、Ｍ_i個の集計データＲ_i［ｍ_i］（ｍ_i＝１，・・・，Ｍ_i）を、Ｌｓ_i個（Ｌｓ_iは１以上Ｍ_i未満の整数）ずつＰｓ_i個（Ｐｓ_iは２以上の整数）の分配通信パケットに振り分けて（図８ステップＳ４０４）、全ての分配通信パケットを送信し終えるまで（図８ステップＳ４０６においてＹＥＳ）、Ｐｓ_i個の分配通信パケットを順番に各分散処理ノード２００［ｎ］の中の対応する演算通信素子２０１［ｉ］に送信する（図８ステップＳ４０５）。すなわち、分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］に向けてｐｓ_i番目（ｐｓ_i＝１，・・・，Ｐｓ_i）に送信する分配通信パケットＤＰ_i［ｐｓ_i，ｎ］には、Ｌｓ_i個の集計データＲ_i［ｊｓ］（ｊｓ＝Ｌｓ_i×（ｐｓ_i－１）＋ｋ_i、ｋ_i＝１，・・・，Ｌｓ_i）が格納される。

なお、Ｍ_iがＬｓ_iで割り切れない条件では、Ｐｓ_i個目の分配通信パケットＤＰ_i［Ｐｓ_i，ｎ］には、（Ｍ_i－Ｌｓ_i×（Ｐｓ_i－１））個の集計データＲ_i［ｕｓ］（ｕｓ＝Ｌｓ_i×（Ｐｓ_i－１）＋ｏ_i、ｏ_i＝１，・・・，Ｍ_i－Ｌｓ_i×（Ｐｓ_i－１））が格納される。
Ｐｓ_i番目の分配通信パケットＤＰ_i［Ｐｓ_i，ｎ］については、（Ｍ_i－Ｌｓ_i×（Ｐｓ_i－１））個の集計データＲ_i［ｕｓ］の後に、｛Ｌｓ_i－（Ｍ_i－Ｌｓ_i×（Ｐｓ_i－１））｝個のダミーの数値を追加し、全ての分配通信パケットが等しくＬｓ_i個のデータを格納するようにしてもよい。

図９は分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）の演算通信素子２０１［ｉ］（ｉ＝１，・・・，Ｌ）の分配通信処理を説明するフローチャートである。分配通信において、各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］の受信部２０６［ｉ］は、集計処理ノード１００が送信した分配通信パケットＤＰ_i［ｐｓ_i，ｎ］（ｐｓ_i＝１，・・・，Ｐｓ_i）を順番に受信する（図９ステップＳ５００）。

そして、各分散処理ノード２００［ｎ］の受信部２０６［ｉ］は、受信した分配通信パケットＤＰ_i［ｐ_i，ｎ］から、集計処理ノード１００の集約処理機能部１０１［ｉ］が生成したＬｓ_i個の集計データＲ_i［ｊｓ］（ｊｓ＝Ｌｓ_i×（ｐ_i－１）＋ｋ_i、ｋ_i＝１，・・・，Ｌｓ_i）を取得する（図９ステップＳ５０１）。また、受信部２０６［ｉ］の受信カウント部２１０［ｉ］は、１番目の分配通信パケットＤＰ_i［１，ｎ］の受信開始からＭ_i個の全ての集計データの取得完了までの間（図９ステップＳ５０３においてＹＥＳ）、取得済みの集計データＲ_i［ｍ_i］の数Ｍｒ_i（Ｍｒ_iはＭ_i以下の正の整数）をカウントする（図９ステップＳ５０２）。

このように、各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］は、集計処理ノード１００の中の対応する集約処理機能部１０１［ｉ］が生成した集計データＲ_i［ｍ_i］（ｍ_i＝１，・・・，Ｍ_i）を、重みｗ_i［ｍ_i］の番号ｍ_iの順番に取得することができる。

ｐ_i番目の分配通信パケットＤＰ_i［ｐ_i，ｎ］から集計データＲ_i［ｍ_i］を取得した時点では、取得開始からｐ_i×Ｌｓ_i個の集計データＲｉ［ｊｓ］を受信していることになるため、Ｍｒ_iの値はｐ_i×Ｌｓ_iである。なお、受信カウント部２１０［ｉ］は、Ｐｓ_i個全ての分配通信パケットＤＰ_i［ｐ_i，ｎ］を受信した時点では、ｐ_i×Ｌｓ_iの値に関わらずＭｒ_i＝Ｍ_iとする。

なお、集計処理ノード１００の集約処理機能部１０１［ｉ］がｐ_i番目に送信する分配通信パケットＤＰ_i［ｐ_i，ｎ］には、全ての分散処理ノード２００［ｎ］に関して同じ集計データＲ_i［ｊｓ］（ｊｓ＝Ｌｓ_i×（ｐ_i－１）＋ｋ_i、ｋ_i＝１，・・・，Ｌｓ_i）が格納されている。したがって、分配通信パケットＤＰ_i［ｐ_i，ｎ］の宛先を指定する必要がない場合（例えば図１のように分散処理ノード別に経路が異なる場合や、全分散処理ノード宛にマルチキャストできるネットワークを介する場合）は、全ての分散処理ノード２００［ｎ］に同じ分配通信パケットＤＰ_i［ｐ_i］を送信してもよい。

以上説明した集計処理ノード１００と各分散処理ノード２００［ｎ］との間の一連の処理において、各分散処理ノード２００［ｎ］の送信制御部２１１［ｉ］の役割について説明する。図１０は分散処理ノード２００［ｎ］の未受信データ量の推移を示す図、図１１は送信制御部２１１［ｉ］の動作を説明するフローチャートである。図１０の縦軸は未受信データ量Ｍｄ_i、横軸はモニタ時間ｔである。なお、未受信データ量Ｍｄ_iは、送信カウント部２０９［ｉ］と受信カウント部２１０［ｉ］のカウント値の差（Ｍｔ_i－Ｍｒ_i）、あるいは（Ｍｔ_i－Ｍｒ_i）と等価な量である。

この図１０の例では、モニタ時間ｔａの経過後、例えば複数の分散処理ノード２００［ｎ］から集計処理ノード１００への過渡的なデータ集中によって集計処理ノード１００で処理遅延が発生したとする。この処理遅延を契機に集計処理ノード１００から各分散処理ノード２００［ｎ］への分配通信パケットＤＰ_i［ｐ_i，ｎ］の送信速度が遅くなり、分散処理ノード２００［ｎ］の未受信データ量、すなわち、送信カウント部２０９［ｉ］と受信カウント部２１０［ｉ］のカウント値の差Ｍｄ_i＝Ｍｔ_i－Ｍｒ_iが増大する。

このような処理遅延が引き続き発生する状況において、未受信データ量Ｍｄ_iが予め定められた送信停止閾値Ｍａ_i（Ｍａ_iはＭ_iより小さい正の整数）以上になると（図１１ステップＳ５０４においてＹＥＳ）、分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］の送信制御部２１１［ｉ］は、演算通信素子２０１［ｉ］の送信部２０５［ｉ］に対して送信停止指示を発行する（図１１ステップＳ５０５）。この送信停止指示の発行により、演算通信素子２０１［ｉ］からの集約通信パケットＳＰ_i［ｐ_i，ｎ］の送信（図５のステップＳ３０１）が停止する。例えば図１０の例では、モニタ時間ｔｂにおいて未受信データ量Ｍｄ_iが送信停止閾値Ｍａ_i以上となり、集約通信パケットＳＰ_i［ｐ_i，ｎ］の送信が停止する。

集計処理ノード１００からは送信が遅れていた分配通信パケットＤＰ_i［ｐ_i，ｎ］が送られてくるので、集約通信パケットＳＰ_i［ｐ_i，ｎ］の送信停止を契機に、未受信データ量Ｍｄ_iは減少していく。未受信データ量Ｍｄ_iが予め定められた送信再開閾値Ｍｂ_i（Ｍｂ_iはＭａ_iより小さい正の整数）以下になると（図１１ステップＳ５０６においてＹＥＳ）、送信制御部２１１［ｉ］は、演算通信素子２０１［ｉ］の送信部２０５［ｉ］に対して送信再開指示を発行する（図１１ステップＳ５０７）。この送信再開指示の発行により、演算通信素子２０１［ｉ］からの集約通信パケットＳＰ_i［ｐ_i，ｎ］の送信（図５のステップＳ３０１）が再開される。例えば図１０の例では、モニタ時間ｔｃにおいて未受信データ量Ｍｄ_iが送信再開閾値Ｍｂ_i以下となり、集約通信パケットＳＰ_i［ｐ_i，ｎ］の送信が再開される。

なお、処理遅延が発生するケースとして集計処理ノード１００への過渡的なデータ集中を述べたが、より詳細に多くの例を挙げれば、分散処理ノード２００［ｎ］内、あるいは、分散処理ノード２００［ｎ］と集計処理ノード１００間、あるいは、集計処理ノード１００内のそれぞれにおいて、単一あるいは複合的な要因、すなわち、PCI Expressなどのインタフェースでの転送処理、入出力間の転送レート速度差、クロック速度差などを吸収するパケットバッファへのパケット蓄積による遅延、あるいは、メモリからデータを取得する際のメモリ帯域律速による処理遅延など、さまざまな要因で処理遅延が生じる。本実施例の構成では、このような処理遅延となるあらゆる範囲に適応できる。

また、本実施例の構成が採用されていない場合、集計処理ノード１００のパケットバッファに集約通信パケットを蓄積できなくなる程の処理遅延が生じ、バッファあふれによるフレーム欠損が生じて、欠損したフレームが原因で処理が停止したり、誤った結果が得られたりする可能性がある。しかし、本実施例の構成であれば、未受信データ量Ｍｄ_iの大きさに応じて分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］において送信制御を行うので、集計処理ノード１００のパケットバッファでのパケット欠損が発生する前に演算通信素子２０１［ｉ］の送信を停止することができる。その結果、パケット欠損をなくすことができ、集計処理ノード１００の処理停止や誤った結果が出るといった不安定な動作による再計算などによる処理遅延を回避でき、効率的かつ安定な処理動作が可能となる。

図１２は分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）の重み更新処理を説明するフローチャートである。各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］（ｉ＝１，・・・，Ｌ）の更新処理部２０７［ｉ］は、集計処理ノード１００の中の対応する集約処理機能部１０１［ｉ］から重みｗ_i［ｍ_i］の集計データＲ_i［ｍ_i］を取得し終えた後に（図１２ステップＳ５０８においてＹＥＳ）、取得した集計データＲ_i［ｍ_i］に基づいてニューラルネットワークのブロック２０８［ｉ］内の層の重みｗ_i［ｍ_i］を更新する重み更新処理を行う（図１２ステップＳ５０９）。

重み更新処理においては、集計データＲ_i［ｍ_i］が示す、損失関数の勾配に基づいて損失関数が最小になるように重みｗ_i［ｍ_i］を番号ｍ_i毎に更新すればよい。重みｗ_i［ｍ_i］の更新は周知の技術であるので、詳細な説明は省略する。

このように、重み更新処理は、重みｗ_i［ｍ_i］の番号ｍ_iの順番に取得した集計データＲ_i［ｍ_i］に基づいて、重みｗ_i［ｍ_i］を更新する処理である。このため、各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］は、重みｗ_i［ｍ_i］に対する重み更新処理を、番号ｍ_iの順番に行うことができる。

演算通信素子２０１［１］での重み更新処理の終了により、１回のミニバッチ学習が終了し、各分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）と集計処理ノード１００とは、更新された重みに基づき、次のミニバッチ学習の処理を継続して行う。すなわち、各分散処理ノード２００［ｎ］は、次のミニバッチ学習用のサンプルデータを図示しないデータ収集ノードから受け取り、上記で説明したミニバッチ学習の処理を繰り返すことにより、分割されたブロック２０８［ｉ］からなるニューラルネットワークの推論精度を向上させる。

なお、ミニバッチ学習の繰り返しの終了は、（Ａ）ミニバッチ学習の回数が予め指定された値に到達した場合、（Ｂ）ニューラルネットワークの推論精度（例えば正答が既知の問題をニューラルネットワークに推論処理させたときの正答率）が予め指定された閾値を超過した場合、（Ｃ）ニューラルネットワークの推論精度の向上が停止した場合（予め指定されたミニバッチ学習の回数を繰り返したときに推論精度の上昇が予め指定された閾値を下回った場合）、（Ｄ）あるいは、（Ａ）～（Ｃ）のうち少なくとも２つの場合の組み合わせが発生した場合、とする。このようなミニバッチ学習の繰り返しの終了は、各分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）が個別に判断してもよいし、集計処理ノード１００が総合的に判断してもよい。

ここから図１３を用いて、まず集約通信処理、全ノード集計処理、分配通信処理、および重み更新処理で構成されるシーケンスとその効果を説明し、その後、図１４を用いて、本実施例の分散処理ノード２００［ｎ］の送信制御（送信停止、送信再開）による新たな効果を説明する。

図１３に、集計処理ノード１００と分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）の処理のシーケンスを示す。上記のように、各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］（ｉ＝１，・・・，Ｌ）は、Ｍ_i個の分散データＤ_i［ｍ_i，ｎ］（ｍ_i＝１，・・・，Ｍ_i）を重みｗ_i［ｍ_i］の番号ｍ_iの順番にパケット化して集計処理ノード１００の中の対応する集約処理機能部１０１［ｉ］に送信し、集約処理機能部１０１［ｉ］は、Ｍ_i個の分散データＤ_i［ｍ_i，ｎ］（ｍ_i＝１，・・・，Ｍ_i）を番号ｍ_iの順番に取得する、という集約通信処理を行う。

集約処理機能部１０１［ｉ］は、重みｗ_i［ｍ_i］の番号ｍ_iの順番に取得したＭ_i個の分散データＤ_i［ｍ_i，ｎ］に基づき、集計データＲ_i［ｍ_i］を番号ｍ_iの順番に生成する全ノード集計処理を行う。

さらに、集約処理機能部１０１［ｉ］は、重みｗ_i［ｍ_i］の番号ｍ_iの順番に生成したＭ_i個の集計データＲ_i［ｍ_i］を番号ｍ_iの順番にパケット化して各分散処理ノード２００［ｎ］の中の対応する演算通信素子２０１［ｉ］に送信し、演算通信素子２０１［ｉ］は、Ｍ_i個の集計データＲ_i［ｍ_i］を番号ｍ_iの順番に取得する、という分配通信処理を行う。

各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］は、番号ｍ_iの順番に取得したＭ_i個の集計データＲ_i［ｍ_i］に基づき、ニューラルネットワークのブロック２０８［ｉ］内の層のＭ_i個の重みｗ_i［ｍ_i］を番号ｍ_iの順番に更新する重み更新処理を行う。

本実施例では、集約通信処理と全ノード集計処理と分配通信処理と重み更新処理とを、並行してほぼ同時に（パイプラインで）行うことが可能であり、各通信や各処理が終了するまで、次の処理を開始できなかった従来技術によるシーケンス（図１８）と比較したとき、処理時間の大幅な短縮が可能となる。

すなわち、各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］の送信部２０５［ｉ］と集計処理ノード１００の集約処理機能部１０１［ｉ］とがＭ_i個の重みｗ_i［ｍ_i］の内のある重みｗ_i［ｍ_i］の分散データＤ_i［ｍ_i，ｎ］について図５、図６で説明した集約通信処理を行っているときに、集約通信処理中の重みｗ_i［ｍ_i］よりも番号ｍ_iの小さい重みｗ_i［ｍ_i］の取得済みの分散データＤ_i［ｍ_i，ｎ］について集約処理機能部１０１［ｉ］が図７で説明した全ノード集計処理を行う。

また、集約処理機能部１０１［ｉ］が全ノード集計処理を行っているときに、全ノード集計処理中の重みｗ_i［ｍ_i］よりも番号ｍ_iの小さい重みｗ_i［ｍ_i］の集計処理済みの集計データＲ_i［ｍ_i］について集約処理機能部１０１［ｉ］と各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］の受信部２０６［ｉ］とが図８、図９で説明した分配通信処理を行う。

さらに、集約処理機能部１０１［ｉ］と各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］の受信部２０６［ｉ］とが分配通信処理を行っているときに、分配通信処理中の重みｗ_i［ｍ_i］よりも番号ｍ_iの小さい重みｗ_i［ｍ_i］の取得済みの集計データＲ_i［ｍ_i］に基づき各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］の更新処理部２０７［ｉ］が図１２で説明した重み更新処理を行う。

したがって、例えば、集約通信処理と全ノード集計処理と分配通信処理と重み更新処理のそれぞれで時間Ｔを要する場合、従来技術では、これらの全ての処理を終えるのに４Ｔの時間を要したが、本実施例ではＴ＋αの時間で済む。ここで、前記αは、任意の分散処理ノード２００［ｎ］が任意の分散データＤ_i［ｍ_i，ｎ］を集計処理ノード１００に送信した時点から重みｗ_i［ｍ_i］の更新が完了するまでの遅延時間である。本実施例では、重みｗ_i［ｍ_i］の番号ｍ_iの単位で処理をパイプライン化しているため、時間αはＴと比較すると十分に小さい時間である。したがって、本実施例では、従来技術と比較して、集約通信処理と全ノード集計処理と分配通信処理と重み更新処理とに要する時間を、約１／４に短縮することが可能である。

次に、本実施例の分散処理ノード２００［ｎ］の送信制御（送信停止、送信再開）による効果を説明する。図１３の動作説明では、集計処理ノード１００の処理遅延による影響、すなわち、分散処理ノード２００［ｎ］において未受信データが発生する際のシーケンス動作への影響を考慮していない。

図１４は、集計処理ノード１００の集約処理機能部１０１［ｉ］において処理遅延が生じ、各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］が送信制御を行った場合の演算通信素子２０１［ｉ］と集約処理機能部１０１［ｉ］間での通信を示している。この図１４の例では、Ｍ_i＝２０、Ｌｇ_i＝Ｌｓ_i＝１、Ｍａ_i＝８、Ｍｂ_i＝６としている。すなわち、演算通信素子２０１［ｉ］から集約処理機能部１０１［ｉ］への矢印１３０の１本１本が示す各集約通信パケットにデータ量が１の分散データが含まれ、集約処理機能部１０１［ｉ］から演算通信素子２０１［ｉ］への矢印１３１の１本１本が示す各分配通信パケットにデータ量が１の集計データが含まれていることになる。

図１４の例では、各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］から集約通信パケットが連続して送信され、２番目の集約通信パケットが集約処理機能部１０１［ｉ］で受信されるタイミングで、集約処理機能部１０１［ｉ］から演算通信素子２０１［ｉ］へ１番目の分配通信パケットが送信され、さらに続けて２番目の分配通信パケットが送信されている。しかし、３番目の集約通信パケットが集約処理機能部１０１［ｉ］で受信されてからは、集約処理機能部１０１［ｉ］の負荷が高くなったため、３番目の分配通信パケットの送信が遅れている。一方で、集約処理機能部１０１［ｉ］での処理が遅延しているのとは対照的に、演算通信素子２０１［ｉ］からは、１０番目までの集約通信パケットが連続して送信されている。

ここで、演算通信素子２０１［ｉ］の送信カウント部２０９［ｉ］と受信カウント部２１０［ｉ］のカウント値Ｍｔ_i，Ｍｒ_iに着目する。演算通信素子２０１［ｉ］から７番目の集約通信パケットを送信した直後の時点では、集約処理機能部１０１［ｉ］からの分配通信パケットが到着していないため、未受信データ量Ｍｄ_i＝Ｍｔ_i－Ｍｒ_iは、集約通信パケットの送信毎に初期値のＭｄ_i＝１（１×Ｌｇ_i）からＭｄ_i＝７（７×Ｌｇ_i）まで増大する。演算通信素子２０１［ｉ］から８番目の集約通信パケットが送信された際に、集約処理機能部１０１［ｉ］から送信された分配通信パケットが到着するが、この状況では、未受信データ量はＭｄ_i＝Ｍｔ_i－Ｍｒ_i＝８－１で、７のままである。

上記で説明したとおり、集約処理機能部１０１［ｉ］からは２番目の分配通信パケットまでは連続的に送信されるが、３番目の分配通信パケットの送信は図１４の矢印１３２で示す処理遅延で遅れていた。この場合、演算通信素子２０１［ｉ］から９番目の集約通信パケットが送信された時点では、未受信データ量Ｍｄ_iは７のままであるが、図１４のｔＡ_iのタイミングで演算通信素子２０１［ｉ］から１０番目の集約通信パケットが送信されると、集約処理機能部１０１［ｉ］から３番目の分配通信パケットが到着していないために、未受信データ量Ｍｄ_iは１つカウントアップし、Ｍｄ_i＝８となる。

未受信データ量Ｍｄ_iが送信停止閾値Ｍａ_i＝８に到達したため、演算通信素子２０１［ｉ］の送信制御部２１１［ｉ］から送信部２０５［ｉ］に対して送信停止指示が発行され、演算通信素子２０１［ｉ］の集約通信パケット送信が停止する。

演算通信素子２０１［ｉ］からの集約通信パケットの送信が停止してから暫くすると、遅れて集約処理機能部１０１［ｉ］から送信された３番目の分配通信パケットが演算通信素子２０１［ｉ］に到達する。これにより、未受信データ量Ｍｄ_i＝７となる。集約処理機能部１０１［ｉ］から４番目の分配通信パケットが送信されるタイミングでは、演算通信素子２０１［ｉ］の送信停止によって集約通信パケットが集約処理機能部１０１［ｉ］に届かず、集約処理機能部１０１［ｉ］での処理が軽くなっている。このため、集約処理機能部１０１［ｉ］から分配通信パケットが連続送信される。図１４のｔＢ_iのタイミングで４番目の分配通信パケットを演算通信素子２０１［ｉ］が受信すると、未受信データ量Ｍｄ_iが１つカウントダウンされ、Ｍｄ_i＝６となる。

未受信データ量Ｍｄ_iが送信再開閾値Ｍｂ_i＝６に到達したため、演算通信素子２０１［ｉ］の送信制御部２１１［ｉ］から送信部２０５［ｉ］に対して送信再開指示が発行され、集約通信パケットの送信が再開される。１０番目の集約通信パケットを送信した時点で送信停止していたため、１１番目の集約通信パケットから送信が再開される。送信再開後、集約処理機能部１０１［ｉ］からの分配通信パケットが到着するので、未受信データ量はＭｄ_i＝Ｍｔ_i－Ｍｒ_i＝７－１で、６のままである。このような状態が１９番目の集約通信パケットが送信されるまで続き、Ｍｄ_i＝６のままとなる。

一方、集約処理機能部１０１［ｉ］に到着する集約通信パケットに着目すると、分散処理ノード２００［Ｎ］の演算通信素子２０１［ｉ］からの集約通信パケット送信再開後、１１番目から１９番目の集約通信パケットまで連続的に集約処理機能部１０１［ｉ］へ到着する。特に１１番目から１３番目の集約通信パケットの受信と同時に、集約処理機能部１０１［ｉ］から分配通信パケットが送信されている。この状況で再び集約処理機能部１０１［ｉ］の負荷が重くなり、分配通信パケット送信の遅延が発生する。すなわち、１３番目の分配通信パケットが集約処理機能部１０１［ｉ］から送信された後、次の１４番目の分配通信パケットの送信が図１４の矢印１３３で示す処理遅延で遅れる。

この処理遅延によって、演算通信素子２０１［ｉ］から２０番目の集約通信パケットが送信されたタイミングで、集約処理機能部１０１［ｉ］からの分配通信パケットが遅延により届かなくなる。図１４のケースでは、Ｍ_i＝２０であり、ｔＣ_iのタイミングで演算通信素子２０１［ｉ］から２０番目の集約通信パケットを送信して、送信が全て完了したため、未受信データ量Ｍｄ_iに関わらず、演算通信素子２０１［ｉ］からの送信は停止する。

さらに、集約処理機能部１０１［ｉ］からの１４番目の分配通信パケットの送信後、図１４の矢印１３４で示す処理遅延が発生した場合、１５番目の分配通信パケットが集約処理機能部１０１［ｉ］から遅れて送信される。既に演算通信素子２０１［ｉ］から集約処理機能部１０１［ｉ］への集約通信パケット送信が完了しているので、集約処理機能部１０１［ｉ］の負荷は軽くなっており、集約処理機能部１０１［ｉ］は、処理遅延の解消後に１５番目から２０番目まで連続的に分配通信パケットを送信する。２０番目の分配通信パケットを演算通信素子２０１［ｉ］が受信した時点で、未受信データ量Ｍｄ_i＝０となる。

なお、集約処理機能部１０１［ｉ］からＰｓ_i＝２０個の分配通信パケットを受信して、Ｍ_i＝２０個の集計データＲ_i［ｍ_i］を取得し終えた時点で（図９ステップＳ５０３においてＹＥＳ）、演算通信素子２０１［ｉ］の送信カウント部２０９［ｉ］と受信カウント部２１０［ｉ］とは、それぞれカウント値Ｍｔ_i，Ｍｒ_iを０に初期化する。これにより、未受信データ量Ｍｄ_iも０となり、送信カウント部２０９［ｉ］と受信カウント部２１０［ｉ］とは、次のミニバッチでのデータの集約送信開始の待機状態となる。

以上説明したように、本実施例では、分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］において、送信データ量と受信データ量の差、すなわち未受信データ量Ｍｄ_iを監視し、送信を制御することによって、集計処理ノード１００の集約処理機能部１０１［ｉ］への過渡的な負荷を低減し、安定した処理が可能となる。

なお、集計処理ノード１００の負荷が重くなることについて、さらに詳細に説明すると、例えば、集計処理ノード１００の処理にソフトウェアが介在する際には、大量の処理によってＣＰＵ（Central Processing Unit）が逼迫することによって、処理遅延が発生する。また、ハードウェア的に集約通信パケットを処理する場合、ハードウェア処理の前に一時的に受信バッファ、いわゆるＦＩＦＯ（First In, First Out）のようなメモリにパケットを保存する際、ＦＩＦＯの深さ（メモリサイズ）が有限のために、バッファ溢れが起きて処理すべきパケットが消失してしまい、集計処理ノード１００の負荷が重くなる。

このような集計処理ノード１００の負荷が重くなる問題を解決するために、未受信データ量Ｍｄ_iが増えたときに、分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］からの送信を停止し、集計処理ノード１００のＣＰＵの負荷増大やＦＩＦＯのバッファ溢れによるパケット消失を防止することによって安定な処理を実現することが可能となる。

なお、上記の説明では、集約通信パケットを受信する集計処理ノード１００の受信バッファでのバッファ溢れの問題について説明しているが、本実施例は、受信バッファに限らず、ハードウェア的なパケット処理でボトルネックとなる全ての部分、例えばＰＣＩｅ（PCI Express）などの内部バスや、その他のパケット処理回路に搭載されるＦＩＦＯ、メモリ、ＤＭＡ（Direct Memory Access）転送等の様々な部分についてボトルネックを解消する分散処理方法を提供するものである。

なお、誤解のないように図１５を用いてミニバッチ１回辺りの、分散処理の全体、すなわち、集計処理ノード１００の集約処理機能部１０１［１］～１０１［Ｌ］と分散処理ノード２００［ｎ］の演算通信素子２０１［１］～２０１［Ｌ］の全体処理を改めて説明する。

図１３、図１４では、集計処理ノード１００の中のｉ番目の集約処理機能部１０１［ｉ］と分散処理ノード２００［ｎ］の中のｉ番目の演算通信素子２０１［ｉ］を例に挙げて動作を説明した。

１回のミニバッチ学習は、１番目の演算通信素子２０１［１］におけるサンプルデータ入力処理から始まる。そして、図１５では、Ｌ番目の演算通信素子２０１［Ｌ］から１番目の演算通信素子２０１［１］まで、ニューラルネットワークの逆伝搬の勾配計算処理、集約通信処理、分配通信処理、重み更新処理がパイプライン、並列的に行われる様子を示している。このように、全体での処理の順番は、演算モデルを実行するフレームワークや追従するデバイスドライバなどのソフトウェア、ミドルウェアを用いて、制御、実行され、システム全体で高速化が実現されている。

［第２の実施例］
次に、本発明の第２の実施例について説明する。本実施例は、第１の実施例の深層学習用分散処理システムの構成要素である集計処理ノード１００の構成例を説明するものである。図１６は集計処理ノード１００の構成例を示すブロック図である。

集計処理ノード１００の集約処理機能部１０１［ｉ］（ｉ＝１，・・・，Ｌ）は、受信部１０_i［ｎ］（ｎ＝１，・・・，Ｎ）と、受信ＦＩＦＯ（_{First In, First Out}）バッファ１１_i［ｎ］と、集計処理部１２_iと、送信部１３_i［ｎ］とを備えている。

第１の実施例で説明したように、集計処理ノード１００は、集約通信処理において、分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）の各々から、Ｍ_i個の分散データＤ_i［ｍ_i，ｎ］（ｍ_i＝１，・・・，Ｍ_i）を、Ｌｇ_i個ずつに振り分けられたＰｇ_i個の集約通信パケットＳＰ_i［ｐ_i，ｎ］（ｐ_i＝１，・・・，Ｐｇ_i）として受信する。集約通信パケットＳＰ_i［ｐ_i，ｎ］には、Ｌｇ_i個の分散データＤ_i［ｊ，ｎ］（ｊ＝Ｌｇ_i×（ｐ_i－１）＋ｌ_i、ｌ_i＝１，・・・，Ｌｇ_i）が格納されている。

また、集計処理ノード１００は、分配通信処理において、分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）の各々に向けて、Ｍ_i個の集計データＲ_i［ｍ_i］（ｍ_i＝１，・・・，Ｍ_i）を、Ｌｓ_i個ずつに振り分けてＰｓ_i個の集約通信パケットＤＰ_i［ｐｓ_i，ｎ］（ｐｓ_i＝１，・・・，Ｐｓ_i）として送信する。

図１６に示したように、集計処理ノード１００の集約処理機能部１０１［ｉ］は、各分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）の演算通信素子２０１［ｉ］から集約通信パケットＳＰ_i［ｐ_i，ｎ］を受信するための受信部１０_i［ｎ］を、分散処理ノード２００［ｎ］別に備える。

各受信部１０_i［ｎ］は、図６で説明した集約通信処理を行うものである。具体的には、各受信部１０_i［ｎ］は、対応する分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］が送信した集約通信パケットＳＰ_i［ｐ_i，ｎ］を受信し、この集約通信パケットＳＰ_i［ｐ_i，ｎ］に重みｗ_i［ｍ_i］の番号ｍ_iの順に格納されたＬｇ_i個の分散データＤ_i［ｊ，ｎ］（ｊ＝Ｌｇ_i×（ｐ_i－１）＋ｌ_i、ｌ_i＝１，・・・，Ｌｇ_i）を番号ｆ（ｆは重みｗ_i［ｍ_i］の番号ｍ_iの一部）の順に取得して、後段の受信ＦＩＦＯバッファ１１_i［ｎ］に渡す。

また、図１６に示すように、集計処理ノード１００の集約処理機能部１０１［ｉ］は、受信部１０_i［ｎ］別（分散処理ノード２００［ｎ］別）に、受信ＦＩＦＯバッファ１１_i［ｎ］を備える。さらに、集計処理ノード１００の集約処理機能部１０１［ｉ］は、各受信ＦＩＦＯバッファ１１_i［ｎ］（ｎ＝１，・・・，Ｎ）に蓄積されている、番号ｍ_i（ｍ_i＝１，・・・，Ｍ_i）の分散データＤ_i［ｍ_i，ｎ］を読み出して集計する集計処理部１２_iを備える。受信ＦＩＦＯバッファ１１_i［ｎ］と集計処理部１２_iとは、図７で説明した全ノード集計処理を行うものである。

具体的には、受信ＦＩＦＯバッファ１１_i［ｎ］は、対応する受信部１０_i［ｎ］から渡されたＬｇ_i個の分散データＤ_i［ｊ，ｎ］（ｊ＝Ｌｇ_i×（ｐ_i－１）＋ｌ_i、ｌ_i＝１，・・・，Ｌｇ_i）を、番号ｊの順に蓄積する。この蓄積は各受信ＦＩＦＯバッファ１１_i［ｎ］が空の状態から開始される。集約通信パケットＳＰ_i［ｐ_i，ｎ］の受信と分散データＤ_i［ｊ，ｎ］の蓄積とがＰｇ_i回行われることで、Ｍ_i個の分散データＤ_i［ｍ_i，ｎ］が各受信ＦＩＦＯバッファ１１_i［ｎ］に蓄積される。

したがって、各受信ＦＩＦＯバッファ１１_i［ｎ］に蓄積された分散データを同じ個数ずつ読み出した場合、各受信ＦＩＦＯバッファ１１_i［ｎ］から読み出された分散データＤ_i［ｍ_i，ｎ］はｍ_i＝１，・・・，Ｍ_iの順に並んでいる。

各受信ＦＩＦＯバッファ１１_i［ｎ］（ｎ＝１，・・・，Ｎ）は、集計処理部１２_iに対して、それぞれ分散データの蓄積の有無を示す蓄積有無信号Ｕ_i［ｎ］を出力する。

集計処理部１２_iは、全ての蓄積有無信号Ｕ_i［ｎ］（ｎ＝１，・・・，Ｎ）が分散データの蓄積有を示す場合に、各受信ＦＩＦＯバッファ１１_i［ｎ］から分散データを１個ずつ読み出す。なお、各受信ＦＩＦＯバッファ１１_i［ｎ］は番号ｍ_iの順番で分散データを蓄積しており、集計処理部１２_iは各受信ＦＩＦＯバッファ１１_i［ｎ］から同数の分散データを読み出す。このため、各受信ＦＩＦＯバッファ１１_i［ｎ］から読み出された分散データの番号ｍ_iは、各受信ＦＩＦＯバッファ１１_i［ｎ］間で同じ値となる。したがって、蓄積有無信号Ｕ_i［ｎ］は分散データの番号ｍ_iを特定する必要はなく、次に読み出すべき分散データが各受信ＦＩＦＯバッファ１１_i［ｎ］に蓄積されているか否かを知らせるだけでよい。

ただし、後述するように、集計処理部１２_iは、読み出し済みの分散データＤ_i［ｍ_i，ｎ］に基づいて生成した集計データＲ_i［ｍ_i］を分配通信パケットに格納する。分配通信パケットは、送信部１３_i［ｎ］から送出される。集計処理部１２_iは、分配通信パケットを送出する状態にない場合（例えば別の分配通信パケットを送出中である場合）は、次の分散データＤ_i［ｍ_i，ｎ］の読み出しを、分配通信パケットを送出可能となるまで保留する。

このため、分散処理ノード２００［ｎ］別に設けられた各送信部１３ｉ［ｎ］は、分配通信パケットが送出可能になったときに、分配通信パケットが送出可能であることを示す送出許可信号Ｖ_i［ｎ］を集計処理部１２_iに対して出力する。

集計処理部１２_iは、各受信ＦＩＦＯバッファ１１_i［ｎ］からの蓄積有無信号Ｕ_i［ｎ］と、各送信部１３_i［ｎ］からの送出許可信号Ｖ_i［ｎ］とを受けて、各受信ＦＩＦＯバッファ１１_i［ｎ］から分散データの読み出しを行うか否かを判定する。

具体的には、集計処理部１２_iは、蓄積有無信号Ｕ_i［ｎ］が、次に読み出すべき分散データＤ_i［ｍ_i，ｎ］の蓄積有りを示し、送出許可信号Ｖ_i［ｎ］が、読み出し済みの分散データＤ_i［ｍ_i，ｎ］から生成された集計データＲ_i［ｍ_i］を含む分配通信パケットの送出可能を示しているとき、分散データＤ_i［ｍ_i，ｎ］を各受信ＦＩＦＯバッファ１１_i［ｎ］から読み出す。

さらに、集計処理部１２_iは、各受信ＦＩＦＯバッファ１１_i［ｎ］から番号ｍ_iの順に読み出した分散データＤ_i［ｍ_i，ｎ］に基づいて、集計データＲ_i［ｍ_i］を番号ｍ_iの順に生成し、集計データＲ_i［ｍ_i］を番号ｍ_iの順に後段の送信部１３_i［ｎ］に渡す。ここでは、各送信部１３_i［ｎ］に同一の集計データが渡される。集計データＲ_i［ｍ_i］の計算式は、式（２）に示したとおりである。

各分散処理ノード２００［ｎ］（ｎ＝１，・・・，Ｎ）に分配通信パケットを送信するための送信部１３_i［ｎ］は、分散処理ノード２００［ｎ］別に設けられている。送信部１３_i［ｎ］は、図８で説明した分配通信処理を行うものである。

各送信部１３_i［ｎ］は、集計処理部１２_iから番号ｍ_iの順番に渡された集計データＲ_i［ｍ_i］（ｍ_i＝１，・・・，Ｍ_i）を、Ｌｓ_i個ずつＰｓ_i個の分配通信パケットに振り分けて送信する。すなわち、分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］に向けてｐｓ_i番目（ｐｓ_i＝１，・・・，Ｐｓ_i）に送信する分配通信パケットＤＰ_i［ｐｓ_i，ｎ］には、Ｌｓ_i個の集計データＲ_i［ｊ］（ｊｓ＝Ｌｓ_i×（ｐｓ_i－１）＋ｋ_i、ｋ_i＝１，・・・，Ｌｓ_i）が格納される。上記のとおり、各送信部１３_i［ｎ］は、分配通信パケットＤＰ_i［ｐｓ_i，ｎ］が送出可能になったときに、集計処理部１２_iに対して送出許可信号Ｖ_i［ｎ］を出力する。

第１の実施例で説明したように、各送信部１３_i［ｎ］は、Ｍ_iがＬｓ_iで割り切れない条件では、Ｐｓ_i個目の分配通信パケットＤＰ_i［Ｐｓ_i，ｎ］に、（Ｍ_i－Ｌｓ_i×（Ｐｓ_i－１））個の集計データＲ_i［ｕｓ］（ｕｓ＝Ｌｓ_i×（Ｐｓ_i－１）＋ｏ_i、ｏ_i＝１，・・・，Ｍ_i－Ｌｓ_i×（Ｐｓ_i－１））を格納する。また、各送信部１３ｉ［ｎ］は、Ｐｓ_i番目の分配通信パケットＤＰ_i［Ｐｓ_i，ｎ］について、（Ｍ_i－Ｌｓ_i×（Ｐｓ_i－１））個の集計データＲ_i［ｕｓ］の後に、｛Ｌｓ_i－（Ｍ_i－Ｌｓ_i×（Ｐｓ_i－１））｝個のダミーの数値を追加し、全ての分配通信パケットが等しくＬｓ_i個のデータを格納するようにしてもよい。

以上のように、集約処理機能部１０１［ｉ］（ｉ＝１，・・・，Ｌ）の各受信部１０_i［ｎ］（ｎ＝１，・・・，Ｎ）は、分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］から受信した集約通信パケットから、重みｗ_i［ｍ_i］の番号ｍ_i（ｍ_i＝１，・・・，Ｍ_i）の順に分散データＤ_i［ｍ_i，ｎ］を取り出して、番号ｍ_iの順に、分散処理ノード別の受信ＦＩＦＯバッファ１１_i［ｎ］に格納する。

集約処理機能部１０１［ｉ］の集計処理部１２_iは、分散データＤ_i［ｍ_i，ｎ］を番号ｍ_iの順に各受信ＦＩＦＯバッファ１１_i［ｎ］から読み出して、読み出した分散データＤ_i［ｍ_i，ｎ］に基づいて集計データＲ_i［ｍ_i］を生成する。さらに、集約処理機能部１０１［ｉ］の各送信部１３_i［ｎ］は、生成された集計データＲ_i［ｍ_i］を番号ｍ_iの順に分配通信パケットに格納して、各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］に送出する。

図１８で説明した従来技術では、集計処理ノード４０１が全ての分散データＤ［ｍ，ｎ］（ｍ＝１，・・・，Ｍ）を分散処理ノード４００［ｎ］から受け、その後、分散データＤ［ｍ，ｎ］を集計して全ての集計データＲ［ｍ］（ｍ＝１，・・・，Ｍ）を生成し、その後、集計データＲ［ｍ］を分散処理ノード４００［ｎ］に返していた。

これに対して、本実施例では、集計処理ノード１００における集約通信処理と全ノード集計処理と分配通信処理とを互いに異なる番号ｍ_iについてパイプライン化することができるので、各分散処理ノード２００［ｎ］から分散データＤ_i［ｍ_i，ｎ］を受けてから、全ノードについて分散データＤ_i［ｍ_i，ｎ］を集計した集計データＲ_i［ｍ_i］を、各分散処理ノード２００［ｎ］に返すまでの時間を、従来技術と比較して大幅に短縮することができる。

例えば、番号ｍ_iに関わる各処理に要する時間をｔとすると、各分散処理ノード２００［ｎ］から分散データＤ_i［ｍ_i，ｎ］を受けてから、全分散処理ノード２００［ｎ］について分散データＤ_i［ｍ_i，ｎ］を集計した集計データＲ_i［ｍ_i］を、各分散処理ノード２００［ｎ］に返すまでの時間は、本発明では４ｔ（パイプライン段数＝４）となる。

一方、従来技術では、各処理にＭ倍の時間を要するので、各分散処理ノード４００［ｎ］から分散データＤ［ｍ，ｎ］を受けてから、集計データＲ［ｍ］を各分散処理ノード４００［ｎ］に返すまでの時間が４ｔ×Ｍとなる。このように、本実施例では、１／Ｍ_i（Ｍ_iは重みｗ_i［ｍｉ］の個数であり、１００，０００，０００程度の値になり得る）に時間を短縮することができる。

分散処理システムの他の構成要素については、第１の実施例で説明したものと同じであるため、本実施例では説明を省略する。

また、第１の実施例で述べたように、各分散処理ノード２００［ｎ］の演算通信素子２０１［ｉ］は、未受信データ量Ｍｄ_iを監視して、未受信データ量Ｍｄ_iが送信停止閾値Ｍａ_i以上の場合に集計処理ノード１００へ送信する集約通信パケットの送信を停止し、この送信停止後に未受信データ量Ｍｄ_iが送信再開閾値Ｍｂ_i以下の場合に送信を再開する。

このような送信制御においては、集計処理ノード１００の受信ＦＩＦＯバッファ１１_i［ｎ］に蓄積するフレーム数がバッファサイズを超過しないように閾値Ｍａ_i，Ｍｂ_iを決めることができるため、いわゆるフレーム欠損を防止することができ、安定な動作を実現することができる。また、必要以上に受信ＦＩＦＯバッファ１１_i［ｎ］のサイズを大きくする必要がなくなるため、メモリの効率化による回路規模の適正化にも資することができる。

第１、第２の実施例で説明した集計処理ノード１００は、ＣＰＵ、記憶装置及びインタフェースを備えたコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。このコンピュータの構成例を図１７に示す。

コンピュータは、ＣＰＵ６００と、記憶装置６０１と、インタフェース装置（Ｉ／Ｆ）６０２とを備えている。Ｉ／Ｆ６０２には、ネットワーク３００などが接続される。ＣＰＵ６００は、記憶装置６０１に格納されたプログラムに従って第１、第２の実施例で説明した処理を実行し、本発明の分散処理システムおよび分散処理方法を実現する。同様に、分散処理ノード２００［ｎ］の各々についてもコンピュータによって実現することができる。

本発明は、ニューラルネットワークの機械学習などの高負荷な演算を行う技術に適用することができる。

１０…受信部、１１…受信ＦＩＦＯバッファ、１２…集計処理部、１３…送信部、１００…集計処理ノード、１０１…集約処理機能部、２００…分散処理ノード、２０１…演算通信素子、２０２…サンプル入力部、２０３…勾配計算処理部、２０４…ノード内集計処理部、２０５…送信部、２０６…受信部、２０７…更新処理部、２０８…ニューラルネットワークのブロック、２０９…送信カウント部、２１０…受信カウント部、２１１…送信制御部、２１２…バス。

Claims

集計処理ノードとＮ個（Ｎは２以上の整数）の分散処理ノードとを備え、
各分散処理ノードは、演算対象のモデルの分割されたＬ個（Ｌは２以上の整数）のブロックの演算を行うように構成されたＬ個の演算通信素子を備え、
前記集計処理ノードは、前記ブロック毎の演算を行うように構成されたＬ個の集約処理機能部を備え、
各分散処理ノードのｉ番目（ｉ＝１，・・・，Ｌ）の前記演算通信素子は、演算対象のｉ番目の前記ブロックのＭ_ｉ個（Ｍ_ｉは２以上の整数）のパラメータｗ_ｉ［ｍ_ｉ］毎（ｍ_ｉ＝１，・・・，Ｍ_ｉ）の分散データＤ_ｉ［ｍ_ｉ，ｎ］（ｎ＝１，・・・，Ｎ）をパラメータｗ_ｉ［ｍ_ｉ］の番号ｍ_ｉの順番にパケット化して前記集計処理ノードのｉ番目の前記集約処理機能部に送信し、ｉ番目の前記集約処理機能部から送信されたパケットを受信して集計データＲ_ｉ［ｍ_ｉ］を番号ｍ_ｉの順番に取得して、この集計データＲ_ｉ［ｍ_ｉ］に基づいてｉ番目の前記ブロックのパラメータｗ_ｉ［ｍ_ｉ］を更新し、
前記集計処理ノードのｉ番目の前記集約処理機能部は、各分散処理ノードのｉ番目の前記演算通信素子から送信されたパケットを受信して分散データＤ_ｉ［ｍ_ｉ，ｎ］を番号ｍ_ｉの順番に取得し、全分散処理ノードのｉ番目の前記演算通信素子の分散データＤ_ｉ［ｍ_ｉ，ｎ］をパラメータｗ_ｉ［ｍ_ｉ］毎に集計した前記集計データＲ_ｉ［ｍ_ｉ］を生成して、この集計データＲ_ｉ［ｍ_ｉ］を番号ｍ_ｉの順番にパケット化して各分散処理ノードのｉ番目の前記演算通信素子に送信し、
各分散処理ノードのｉ番目の前記演算通信素子は、前記集計処理ノードに前記分散データＤ_ｉ［ｍ_ｉ，ｎ］を送信開始してからＭ_ｉ個の前記集計データＲ_ｉ［ｍ_ｉ］を取得し終えるまでの期間において、送信済みの分散データＤ_ｉ［ｍ_ｉ，ｎ］のデータ量と取得済みの集計データＲ_ｉ［ｍ_ｉ］のデータ量との差である未受信データ量を監視し、この未受信データ量が閾値Ｍａ_ｉ以上（Ｍａ_ｉはＭ_ｉより小さい正の整数）となった場合に、前記分散データＤ_ｉ［ｍ_ｉ，ｎ］の送信を前記未受信データ量が閾値Ｍｂ_ｉ（Ｍｂ_ｉはＭａ_ｉより小さい正の整数）以下となるまで停止することを特徴とする分散処理システム。
請求項１記載の分散処理システムにおいて、
各分散処理ノードのｉ番目の前記演算通信素子は、
前記分散データＤ_ｉ［ｍ_ｉ，ｎ］を番号ｍ_ｉの順番にパケット化して前記集計処理ノードのｉ番目の前記集約処理機能部に送信するように構成された送信部と、
ｉ番目の前記集約処理機能部から送信されたパケットを受信して前記集計データＲ_ｉ［ｍ_ｉ］を番号ｍ_ｉの順番に取得するように構成された受信部と、
前記集計データＲ_ｉ［ｍ_ｉ］に基づいてｉ番目の前記ブロックのパラメータｗ_ｉ［ｍ_ｉ］を更新するように構成された更新処理部と、
前記集計処理ノードに前記分散データＤ_ｉ［ｍ_ｉ，ｎ］を送信開始してからＭ_ｉ個の前記集計データＲ_ｉ［ｍ_ｉ］を取得し終えるまでの期間において、送信済みの分散データＤ_ｉ［ｍ_ｉ，ｎ］の個数Ｍｔ_ｉ（Ｍｔ_ｉはＭ_ｉ以下の正の整数）をカウントするように構成された送信カウント部と、
前記集計処理ノードに前記分散データＤ_ｉ［ｍ_ｉ，ｎ］を送信開始してからＭ_ｉ個の前記集計データＲ_ｉ［ｍ_ｉ］を取得し終えるまでの期間において、取得済みの集計データＲ_ｉ［ｍ_ｉ］の個数Ｍｒ_ｉ（Ｍｒ_ｉはＭ_ｉ以下の正の整数）をカウントするように構成された受信カウント部と、
前記個数Ｍｔ_ｉとＭｒ_ｉとの差である前記未受信データ量が前記閾値Ｍａ_ｉ以上となった場合に、前記送信部による前記分散データＤ_ｉ［ｍ_ｉ，ｎ］の送信を、前記未受信データ量が前記閾値Ｍｂ_ｉ以下となるまで停止させるように構成された送信制御部とを備えることを特徴とする分散処理システム。
請求項１または２記載の分散処理システムにおいて、
前記集計処理ノードのｉ番目の前記集約処理機能部は、
分散処理ノード別に設けられ、各分散処理ノードのｉ番目の前記演算通信素子から送信されたパケットを受信して前記分散データＤ_ｉ［ｍ_ｉ，ｎ］を番号ｍ_ｉの順番に取得するように構成されたＮ個の受信部と、
全分散処理ノードのｉ番目の前記演算通信素子の分散データＤ_ｉ［ｍ_ｉ，ｎ］をパラメータｗ_ｉ［ｍ_ｉ］毎に集計した前記集計データＲ_ｉ［ｍ_ｉ］を生成するように構成された集計処理部と、
分散処理ノード別に設けられ、前記集計データＲ_ｉ［ｍ_ｉ］を番号ｍ_ｉの順番にパケット化して各分散処理ノードのｉ番目の前記演算通信素子に送信するように構成されたＮ個の送信部とを備えることを特徴とする分散処理システム。
請求項１乃至３のいずれか１項に記載の分散処理システムにおいて、
各分散処理ノードのｉ番目の前記演算通信素子は、
前記演算対象のモデルの演算用のサンプルデータが入力されたときに、ｉ番目の前記ブロックのパラメータｗ_ｉ［ｍ_ｉ］の各々について、前記モデルの損失関数のパラメータ勾配をサンプルデータ毎に計算するように構成された勾配計算処理部と、
サンプルデータ毎の前記パラメータ勾配を集計した数値である前記分散データＤ_ｉ［ｍ_ｉ，ｎ］をパラメータｗ_ｉ［ｍ_ｉ］毎に生成して保持するように構成されたノード内集計処理部とを、さらに備えることを特徴とする分散処理システム。
請求項１乃至４のいずれか１項に記載の分散処理システムにおいて、
前記集計処理ノードのｉ番目の前記集約処理機能部と各分散処理ノードのｉ番目の前記演算通信素子とは、
各分散処理ノードのｉ番目の前記演算通信素子が、パケット化した分散データＤ_ｉ［ｍ_ｉ，ｎ］を前記集計処理ノードのｉ番目の前記集約処理機能部に送信して、ｉ番目の前記集約処理機能部が、受信したパケットから前記分散データＤ_ｉ［ｍ_ｉ，ｎ］を取得する集約通信処理と、
ｉ番目の前記集約処理機能部が、前記集計データＲ_ｉ［ｍｉ］を生成する全ノード集計処理と、
ｉ番目の前記集約処理機能部が、パケット化した前記集計データＲ_ｉ［ｍ_ｉ］を各分散処理ノードのｉ番目の前記演算通信素子に送信して、各分散処理ノードのｉ番目の前記演算通信素子が、受信したパケットから前記集計データＲ_ｉ［ｍ_ｉ］を取得する分配通信処理と、
各分散処理ノードのｉ番目の前記演算通信素子が、前記パラメータｗ_ｉ［ｍ_ｉ］を更新するパラメータ更新処理とを、それぞれ異なる番号ｍ_ｉについて並行して行うことを特徴とする分散処理システム。
Ｎ個（Ｎは２以上の整数）の分散処理ノードの各々に、演算対象のモデルの分割されたＬ個（Ｌは２以上の整数）のブロック毎に設けられたＬ個の演算通信素子の各々が、演算対象のｉ番目（ｉ＝１，・・・，Ｌ）の前記ブロックのＭ_ｉ個（Ｍ_ｉは２以上の整数）のパラメータｗ_ｉ［ｍ_ｉ］毎（ｍ_ｉ＝１，・・・，Ｍ_ｉ）の分散データＤ_ｉ［ｍ_ｉ，ｎ］（ｎ＝１，・・・，Ｎ）を重みｗ_ｉ［ｍ_ｉ］の番号ｍ_ｉの順番にパケット化して集計処理ノードに設けられたｉ番目の集約処理機能部に送信する第１のステップと、
前記集計処理ノードのｉ番目の前記集約処理機能部が、各分散処理ノードのｉ番目の前記演算通信素子から送信されたパケットを受信して前記分散データＤ_ｉ［ｍ_ｉ，ｎ］を番号ｍ_ｉの順番に取得する第２のステップと、
前記集計処理ノードのｉ番目の前記集約処理機能部が、全分散処理ノードの分散データＤ_ｉ［ｍ_ｉ，ｎ］をパラメータｗ_ｉ［ｍ_ｉ］毎に集計した集計データＲ_ｉ［ｍ_ｉ］を生成する第３のステップと、
前記集計処理ノードのｉ番目の前記集約処理機能部が、前記集計データＲ_ｉ［ｍ_ｉ］を番号ｍ_ｉの順番にパケット化して各分散処理ノードのｉ番目の前記演算通信素子に送信する第４のステップと、
各分散処理ノードのｉ番目の前記演算通信素子が、前記集計処理ノードのｉ番目の前記集約処理機能部から送信されたパケットを受信して前記集計データＲ_ｉ［ｍ_ｉ］を番号ｍ_ｉの順番に取得する第５のステップと、
各分散処理ノードのｉ番目の前記演算通信素子が、前記集計データＲ_ｉ［ｍ_ｉ］に基づいてｉ番目の前記ブロックのパラメータｗ_ｉ［ｍ_ｉ］を更新する第６のステップと、
各分散処理ノードのｉ番目の前記演算通信素子が、前記集計処理ノードのｉ番目の前記集約処理機能部に前記分散データＤ_ｉ［ｍ_ｉ，ｎ］を送信開始してからＭ_ｉ個の前記集計データＲ_ｉ［ｍ_ｉ］を取得し終えるまでの期間において、送信済みの分散データＤ_ｉ［ｍ_ｉ，ｎ］のデータ量と取得済みの集計データＲ_ｉ［ｍ_ｉ］のデータ量との差である未受信データ量を監視し、この未受信データ量が閾値Ｍａ_ｉ以上（Ｍａ_ｉはＭ_ｉより小さい正の整数）となった場合に、前記第１のステップによる前記分散データＤ_ｉ［ｍ_ｉ，ｎ］の送信を、前記未受信データ量が閾値Ｍｂ_ｉ（Ｍｂ_ｉはＭａ_ｉより小さい正の整数）以下となるまで停止する第７のステップとを含むことを特徴とする分散処理方法。
請求項６記載の分散処理方法において、
前記第１のステップの前に、各分散処理ノードのｉ番目の前記演算通信素子が、前記演算対象のモデルの演算用のサンプルデータが入力されたときに、前記モデルのパラメータｗ_ｉ［ｍ_ｉ］の各々について、前記モデルの損失関数のパラメータ勾配をサンプルデータ毎に計算する第８のステップと、
各分散処理ノードのｉ番目の前記演算通信素子が、サンプルデータ毎の前記パラメータ勾配を集計した数値である前記分散データＤ_ｉ［ｍ_ｉ，ｎ］をパラメータｗ_ｉ［ｍ_ｉ］毎に生成して保持する第９のステップとを、さらに含むことを特徴とする分散処理方法。
請求項６または７記載の分散処理方法において、
前記分散処理ノードの前記第１のステップおよび前記集計処理ノードの前記第２のステップと、前記集計処理ノードの前記第３のステップと、前記集計処理ノードの前記第４のステップおよび前記分散処理ノードの前記第５のステップと、前記分散処理ノードの前記第６のステップとを、それぞれ異なる番号ｍ_ｉについて並行して行うことを特徴とする分散処理方法。