JP7074017B2 - 分散処理システムおよび分散処理方法 - Google Patents

分散処理システムおよび分散処理方法 Download PDF

Info

Publication number
JP7074017B2
JP7074017B2 JP2018198230A JP2018198230A JP7074017B2 JP 7074017 B2 JP7074017 B2 JP 7074017B2 JP 2018198230 A JP2018198230 A JP 2018198230A JP 2018198230 A JP2018198230 A JP 2018198230A JP 7074017 B2 JP7074017 B2 JP 7074017B2
Authority
JP
Japan
Prior art keywords
distributed processing
node
aggregated data
processing node
communication port
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018198230A
Other languages
English (en)
Other versions
JP2020067687A (ja
Inventor
健治 川合
順一 加藤
フィクー ゴー
勇輝 有川
猛 伊藤
健 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018198230A priority Critical patent/JP7074017B2/ja
Priority to PCT/JP2019/039449 priority patent/WO2020085058A1/ja
Priority to US17/287,413 priority patent/US20220004842A1/en
Publication of JP2020067687A publication Critical patent/JP2020067687A/ja
Application granted granted Critical
Publication of JP7074017B2 publication Critical patent/JP7074017B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Description

本発明は、複数の分散処理ノードを備える分散処理システムに係り、特に、各分散処理ノードから数値データを集計して集計データを生成し、各分散処理ノードに集計データを分配する分散処理システムおよび分散処理方法に関するものである。
深層学習では、多層のニューロンモデルからなる学習対象について、各ニューロンモデルの重み(前段のニューロンモデルが出力した値に乗じる係数)を、入力したサンプルデータに基づいて更新することにより、推論精度を改善する。
通常、推論精度を改善する手法には、ミニバッチ法が用いられている。ミニバッチ法では、サンプルデータ毎に前記重みに対する勾配を計算する勾配計算処理と、複数の異なるサンプルデータについて前記勾配を集計する(サンプルデータ毎に得られた勾配を重み別に合算する)集計処理と、各重みを前記集計された勾配に基づいて更新する重み更新処理と、を繰り返す。
これらの処理、特に勾配計算処理は、多数回の演算を必要とするが、推論精度を向上させるために、重みの個数や入力するサンプルデータの個数が増加すると、深層学習に要する時間が増大するという、課題がある。
勾配計算処理を高速化するため、分散処理の手法が用いられている。具体的には、複数の分散処理ノードを設け、各ノードは、各々異なるサンプルデータについて勾配計算処理を行う。これにより、ノード数に比例して単位時間に処理できるサンプルデータ数を増加させることが可能となるため、勾配計算処理を高速化できる(非特許文献1参照)。
深層学習の分散処理において、集計処理を行うためには、各分散処理ノードがサンプルデータ毎に重みに対する勾配を計算する勾配計算処理およびサンプルデータ毎に得られた勾配を重み別に合算するノード内集計処理と、各重みを前記集計された勾配に基づいて更新する重み更新処理との間に、分散処理ノード毎に得られたデータ(分散データ)を、集計処理を行うノードに転送するための通信(集約通信)と、集約通信により取得したデータに基づいて集計する処理(ノード間集計処理)と、各分散処理ノードから取得した集計したデータ(集計データ)を各分散処理ノードに分配するための通信(分配通信)と、が必要となる。
上記の集約通信や分配通信に要する時間は、深層学習を単一ノードで実施するシステムでは不要であり、深層学習の分散処理を行う上で、処理速度を低下させる要因となっている。
近年、深層学習がより複雑な問題に適用されるようになってきており、重みの総数が増加する傾向にある。このため、分散データや集計データのデータ量が増大し、集約通信時間と分配通信時間が増大している。
このように、深層学習の分散処理システムでは、集約通信時間と分配通信時間の増大によって、分散処理ノード数を増加させることにより、深層学習の高速化の効果が低下するという問題があった。
図12は、従来の分散処理システムにおける分散処理ノード数と深層学習の処理性能との関係を示しており、200は分散処理ノード数と処理性能の理想的な関係(性能∝ノード数)を示し、201は分散処理ノード数と処理性能の実際の関係を示している。分散処理ノード数に比例してノード間集計処理の入力である分散データの総量は増大するが、実際の処理性能が分散処理ノード数に比例して向上しない理由は、集計処理ノードの通信速度が、このノードの通信ポートの物理速度以下に制限されるため、集約通信に要する時間が増大するためである。
秋葉 拓哉,"分散深層学習パッケージ ChainerMN 公開",プリファードインフラストラクチャー(Preferred Infrastructure),2017年,インターネット<https://research.preferred.jp/2017/05/chainermn-beta-release/>
本発明は、上記のような事情を考慮してなされたものであり、その目的は、複数の分散処理ノードを備える分散処理システムおいて、深層学習に適用した場合に効果的な分散処理を行うことができる分散処理システムおよび分散処理方法を提供することにある。
本発明の分散処理システムは、リング状に配置され、隣接するノードと通信路を介して
互いに接続されたN個(Nは2以上の整数)の分散処理ノードを備え、n番目(n=1,・・・,N)の分散処理ノードは、n番目(n=n+1、ただしn=Nの場合はn=1)の分散処理ノードと双方向の通信が同時に可能な第1の通信ポートと、n番目(n=n-1、ただしn=1の場合はn=N)の分散処理ノードと双方向の通信が同時に可能な第2の通信ポートとを備え、各分散処理ノードは、学習対象のニューラルネットワークの学習用のサンプルデータが入力されたときに、前記ニューラルネットワークのM個(Mは2以上の整数)の重みw[m](m=1,・・・,M)の各々について、前記ニューラルネットワークの損失関数の勾配をサンプルデータ毎に計算し、サンプルデータ毎の前記勾配を集計した数値である分散データD[m,n](m=1,・・・,M)を重みw[m]毎生成し、N個の分散処理ノードのうち、予め指定された1番目の分散処理ノードは、自ノードで生成された前記分散データを第1の集計データとして、この第1の集計データを重みw[m]の番号mの順番にパケット化して、自ノードの前記第1の通信ポートから2番目の分散処理ノードに向けて送信し、N個の分散処理ノードのうち、前記1番目を除くk番目(k=2,・・・,N)の分散処理ノードは、(k-1)番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データと自ノードで生成された前記分散データとの和を、対応する重みw[m]毎に求めて更新後の第1の集計データを生成し、この第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk番目(k=k+1、ただしk=Nの場合はk=1)の分散処理ノードに向けて送信し、前記1番目の分散処理ノードは、N番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データを第2の集計データとして、この第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信し、前記k番目の分散処理ノードは、k番目の分散処理ノードから自ノードの前記第1の通信ポートを介して受信した第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信し、前記1番目の分散処理ノードは、2番目の分散処理ノードから自ノードの前記第1の通信ポートを介して第2の集計データを受信し、各分散処理ノードは、受信した前記第2の集計データに基づいて前記ニューラルネットワークの重みw[m]を更新することを特徴とするものである。
また、本発明の分散処理システムの1構成例において、各分散処理ノードは、前記分散データを生成するノード内集計処理部と、自ノードが前記1番目の分散処理ノードとして機能する場合に、前記第1の集計データを重みw[m]の番号mの順番にパケット化して、自ノードの前記第1の通信ポートから2番目の分散処理ノードに向けて送信し、自ノードが前記k番目の分散処理ノードとして機能する場合に、前記更新後の第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk+番目の分散処理ノードに向けて送信する第1の送信部と、自ノードの前記第2の通信ポートから受信するパケットから前記第1の集計データを取得する第1の受信部と、自ノードが前記1番目の分散処理ノードとして機能する場合に、前記第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信し、自ノードが前記k番目の分散処理ノードとして機能する場合に、受信した前記第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信する第2の送信部と、自ノードの前記第1の通信ポートから受信するパケットから前記第2の集計データを取得する第2の受信部と、自ノードが前記k番目の分散処理ノードとして機能する場合に、前記更新後の第1の集計データを生成する集計データ生成部と、受信した前記第2の集計データに基づいて前記ニューラルネットワークの重みw[m]を更新する重み更新処理部とを備えることを特徴とするものである。
また、本発明の分散処理システムの1構成例において、各分散処理ノードは、前記1番目の分散処理ノードが前記第2の集計データを正常に受信できなかった場合に、前記第1の集計データの送信以降の処理を再度行うことを特徴とするものである。
また、本発明は、リング状に配置され、隣接するノードと通信路を介して互いに接続されたN個(Nは2以上の整数)の分散処理ノードを備え、n番目(n=1,・・・,N)の分散処理ノードが、n番目(n=n+1、ただしn=Nの場合はn=1)の分散処理ノードと双方向の通信が同時に可能な第1の通信ポートと、n番目(n=n-1、ただしn=1の場合はn=N)の分散処理ノードと双方向の通信が同時に可能な第2の通信ポートとを備えたシステムにおける分散処理方法であって、各分散処理ノードが、学習対象のニューラルネットワークの学習用のサンプルデータが入力されたときに、前記ニューラルネットワークのM個(Mは2以上の整数)の重みw[m](m=1,・・・,M)の各々について、前記ニューラルネットワークの損失関数の勾配をサンプルデータ毎に計算し、サンプルデータ毎の前記勾配を集計した数値である分散データD[m,n](m=1,・・・,M)を重みw[m]毎生成する第1のステップと、N個の分散処理ノードのうち、予め指定された1番目の分散処理ノードが、自ノードで生成された前記分散データを第1の集計データとして、この第1の集計データを重みw[m]の番号mの順番にパケット化して、自ノードの前記第1の通信ポートから2番目の分散処理ノードに向けて送信する第2のステップと、N個の分散処理ノードのうち、前記1番目を除くk番目(
k=2,・・・,N)の分散処理ノードが、(k-1)番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データと自ノードで生成された前記分散データとの和を、対応する重みw[m]毎に求めて更新後の第1の集計データを生成し、この第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk番目(k=k+1、ただしk=Nの場合はk=1)の分散処理ノードに向けて送信する第3のステップと、前記1番目の分散処理ノードが、N番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データを第2の集計データとして、この第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信する第4のステップと、前記k番目の分散処理ノードが、k番目の分散処理ノードから自ノードの前記第1の通信ポートを介して受信した第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信する第5のステップと、前記1番目の分散処理ノードが、2番目の分散処理ノードから自ノードの前記第1の通信ポートを介して第2の集計データを受信する第6のステップと、各分散処理ノードが、受信した前記第2の集計データに基づいて前記ニューラルネットワークの重みw[m]を更新する第7のステップとを含むことを特徴とするものである。
また、本発明の分散処理方法の1構成例において、前記第3のステップは、前記k番目の分散処理ノードが、自ノードの前記第2の通信ポートから受信するパケットから前記第1の集計データを取得するステップと、前記更新後の第1の集計データを生成するステップと、前記更新後の第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk+番目の分散処理ノードに向けて送信するステップとを含み、前記第4のステップは、前記1番目の分散処理ノードが、自ノードの前記第2の通信ポートから受信するパケットから前記第1の集計データを取得するステップと、取得した第1の集計データを第2の集計データとして、この第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信するステップとを含み、前記第5のステップは、前記k番目の分散処理ノードが、自ノードの前記第1の通信ポートから受信するパケットから前記第2の集計データを取得するステップと、受信した前記第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信するステップとを含み、前記第6のステップは、前記1番目の分散処理ノードが、自ノードの前記第1の通信ポートから受信するパケットから前記第2の集計データを取得するステップを含むことを特徴とするものである。
また、本発明の分散処理方法の1構成例において、各分散処理ノードは、前記第6のステップにおいて前記1番目の分散処理ノードが前記第2の集計データを正常に受信できなかった場合に、前記第2のステップ以降の処理を再度行うことを特徴とするものである。
本発明によれば、n番目(n=1,・・・,N)の分散処理ノードからn+番目(n+=n+1、ただしn=Nの場合はn+=1)の分散処理ノードへの集約通信(第1の集計データをn+番目の分散処理ノードに送信する処理)、k番目(k=2,・・・,N)の分散処理ノードが行うノード間集計処理(受信した第1の集計データと自ノードで生成した分散データとに基づいて更新後の第1の集計データを計算する処理)、n番目の分散処理ノードからn-番目(n-=n-1、ただしn=1の場合はn-=N)の分散処理ノードへの分配通信(第2の集計データをn-番目の各分散処理ノードに分配する処理)とを、並行してほぼ同時に行うことが可能であり、効果的な分散処理を行うことができ、ニューラルネットワークの学習効率を向上させることができる。本発明では、各分散処理ノードに第1の通信ポートと第2の通信ポートとを設け、集約通信と分配通信の方向を逆にすることにより、集約通信が完了するまで分配通信の開始を待つ必要がない。また、本発明では、集計処理ノードを設けることなく深層学習の分散処理を行うことができ、集計処理ノードの通信速度によって分散処理の速度が制限されることがなくなる。また、本発明では、N個の分散処理ノードが同一のハードウェアを備えるノードであっても、1個の親ノード(1番目の分散処理ノード)を定めて親ノードか否かに応じた設定を各分散処理ノードに対して行うことにより、集約通信処理とノード間集計処理と分配通信処理とを実現することが可能となるので、各分散処理ノードに個別に設定を要するシステムと比較して、その管理が極めて簡易になるので、システム管理に要するコストや管理上のミスを削減することができる。
また、本発明では、各分散処理ノードは、1番目の分散処理ノードが第2の集計データを正常に受信できなかった場合に、第1の集計データの送信以降の処理を再度行う。本発明では、1番目の分散処理ノードにおいて送出した第2の集計データが戻ることで全分散処理ノードの正常な処理が保証されるため、各分散処理ノードの状態監視が不要であり、1番目の分散処理ノードのみで簡易かつ低遅延でデータのインテグリティ(完全性)を保証することができる。
図1は、本発明の第1の実施例に係る深層学習用分散処理システムの構成例を示すブロック図である。 図2は、本発明の第1の実施例に係る分散処理ノードのサンプルデータ入力処理と勾配計算処理とノード内集計処理を説明するフローチャートである。 図3は、本発明の第1の実施例に係る分散処理ノードの集約通信処理とノード間集計処理と分配通信処理とを説明するフローチャートである。 図4は、本発明の第1の実施例に係る分散処理ノードの重み更新処理を説明するフローチャートである。 図5は、本発明の第2の実施例に係る分散処理ノードの構成例を示すブロック図である。 図6は、本発明の第2の実施例に係る分散処理ノードの構成例を示すブロック図である。 図7は、本発明の第2の実施例に係る分散処理ノードの処理の概要を示す図である。 図8は、本発明の第2の実施例に係る分散処理ノード間の中間集計データおよび集計データの通信のシーケンスを示す図である。 図9は、本発明の第2の実施例に係る分散処理ノード間の中間集計データおよび集計データの通信のシーケンスを示す図である。 図10は、本発明の第2の実施例に係る分散処理ノード間の中間集計データおよび集計データの通信のシーケンスを示す図である。 図11は、本発明の第1、第2の実施例に係る分散処理ノードを実現するコンピュータの構成例を示すブロック図である。 図12は、従来の分散処理システムにおける分散処理ノード数と深層学習の処理性能との関係を示す図である。
[第1の実施例]
以下、本発明の実施例について図面を参照して説明する。図1は本発明の第1の実施例に係る深層学習用分散処理システムの構成例を示すブロック図である。図1の分散処理システムは、N個(Nは2以上の整数)の分散処理ノード1[n](n=1,・・・,N)と、番号nの分散処理ノード1[n](n=1,・・・,N)が次の番号n+(n+=n+1、ただしn=Nの場合はn+=1)の分散処理ノード1[n+]と互いに双方向に通信するための通信路2[n](n=1,・・・,N)とを備えている。なお、任意の通信路2[n](n=1,・・・,N)には、伝送路の他に、通信を中継する中継処理ノードが任意に介在することも可能である。
各分散処理ノード1[n](n=1,・・・,N)は、双方向の通信が同時に可能な通信ポート10と通信ポート11とを備える。通信ポート10は、分散処理ノード1[n]が分散処理ノード1[n+](n+=n+1、ただしn=Nの場合はn+=1)と双方向の通信を行うための通信ポートであり、通信路2[n]と接続される。また、通信ポート11は、分散処理ノード1[n]が分散処理ノード[n-](n-=n-1、ただしn=1の場合はn-=N)と双方向の通信を行うための通信ポートであり、通信路2[n-]と接続される。
図2は分散処理ノード1[n]のサンプルデータ入力処理と勾配計算処理とノード内集計処理とを説明するフローチャートである。各分散処理ノード1[n](n=1,・・・,N)は、図示しないデータ収集ノードから異なるS個(Sは2以上の整数)のサンプルデータx[n,s](s=1,・・・,S)をミニバッチ毎に入力する(図2ステップS100)。
なお、本発明は、データ収集ノードによるサンプルデータの収集方法、および収集したサンプルデータをN個の集合に振り分けて各分散処理ノード1[n]へ分配する方法に限定されるものではなく、これらの方法の如何を問わず適用が可能である。
各分散処理ノード1[n](n=1,・・・,N)は、サンプルデータx[n,s]が入力されたとき、学習対象のニューラルネットワークのM個(Mは2以上の整数)の重みw[m](m=1,・・・,M)の各々について、ニューラルネットワークの損失関数の勾配G[m,n,s]をサンプルデータx[n,s]毎に計算する(図2ステップS101)。
ニューラルネットワークを各分散処理ノード1[n]にソフトウェアで構築する方法、ニューラルネットワークの重みw[m]、ニューラルネットワークの性能の悪さを示す指標である損失関数、および損失関数の勾配G[m,n,s]については周知の技術であるので、詳細な説明は省略する。
続いて、各分散処理ノード1[n](n=1,・・・,N)は、サンプルデータ毎の勾配G[m,n,s]を集計した数値である分散データD[m,n](m=1,・・・,M)を、重みw[m]毎に生成して保持する(図2ステップS102)。分散データD[m,n]の計算式は以下のとおりである。
Figure 0007074017000001
なお、ステップS101の勾配計算処理とステップS102のノード内集計処理とは、サンプルデータ単位でパイプライン化する(あるサンプルデータに対して勾配計算処理を行うと同時にその一つ前のサンプルデータから得た勾配を集計するノード内集計処理とを同時に実行する)ことができる。
さらに、各分散処理ノード1[n](n=1,・・・,N)は、分散データD[m,n](m=1,・・・,M)を生成した後、分散処理ノード間の集約通信を行い、集計データを生成するためのノード間集計処理を行う。
図3は分散処理ノード1[n]の集約通信処理とノード間集計処理と分配通信処理とを説明するフローチャートである。
まず、複数の分散処理ノード1[n](n=1,・・・,N)のうち、予め定められた1番目の分散処理ノード1[1]は、自ノードで生成されたM個の分散データD[m,1](m=1,・・・,M)を、中間集計データRt[m,1]として、自ノードの通信ポート10および通信路2[1]を介して次の番号の分散処理ノード1[2]に送信する(図3ステップS103,S104)。すなわち、このときの中間集計データRt[m,1]は、分散データD[m,1]と同じである。
Rt[m,1]=D[m,1] ・・・(2)
次に、複数の分散処理ノード1[n](n=1,・・・,N)のうち、1番目とN番目とを除く、予め定められた中間の分散処理ノード1[i](i=2,・・・,N-1)は、分散処理ノード1[i-1]から中間集計データRt[m,i-1](m=1,・・・,M)を自ノードの通信ポート11および通信路2[i-1]を介して受信する(図3ステップS105,S106)。
中間の分散処理ノード1[i](i=2,・・・,N-1)は、受信した中間集計データRt[m,i-1](m=1,・・・,M)と自ノードで生成された分散データD[m,i]との和を、対応する重みw[m]毎に求めることにより、中間集計データRt[m,i]を生成する(図3ステップS107)。すなわち、中間集計データRt[m,i]は、M個の数値から構成される。中間集計データRt[m,i]の計算式は以下のとおりである。
Rt[m,i]=Rt[m,i-1]+D[m,i] ・・・(3)
そして、中間の分散処理ノード1[i](i=2,・・・,N-1)は、自ノードで生成された中間集計データRt[m,i](m=1,・・・,M)を自ノードの通信ポート10および通信路2[i]を介して次の番号の分散処理ノード1[i+1]に送信する(図3ステップS108)。
複数の分散処理ノード1[n](n=1,・・・,N)のうち、予め定められたN番目の分散処理ノード1[N]は、分散処理ノード1[N-1]から中間集計データRt[m,N-1]を自ノードの通信ポート11および通信路2[N-1]を介して受信する(図3ステップS109,S110)。
N番目の分散処理ノード1[N]は、受信した中間集計データRt[m,N-1](m=1,・・・,M)と自ノードで生成された分散データD[m,N]との和を、対応する重みw[m]毎に求めることにより、中間集計データRt[m,N]を生成する(図3ステップS111)。すなわち、中間集計データRt[m,N]は、M個の数値から構成される。中間集計データRt[m,N]の計算式は以下のとおりである。
Rt[m,N]=Rt[m,N-1]+D[m,N] ・・・(4)
そして、N番目の分散処理ノード1[N]は、自ノードで生成された中間集計データRt[m,N](m=1,・・・,M)を自ノードの通信ポート10および通信路2[N]を介して1番目の分散処理ノード1[1]に送信する(図3ステップS112)。
このように、式(2)、式(3)、式(4)により計算された、M個の数値から構成される中間集計データRt[m,N]は、各分散処理ノード1[n](n=1,・・・,N)で生成されたM個の数値から構成される分散データD[m,n](m=1,・・・,M)に基づいて計算される。中間集計データRt[m,N]の値は以下の式により表すことができる。
Figure 0007074017000002
次に、中間集計データRt[m,N](m=1,・・・,M)を集計データとして、各分散処理ノード1[n](n=1,・・・,N)に分配する分配通信を行う。
1番目の分散処理ノード1[1]は、分散処理ノード1[N]から中間集計データRt[m,N]を自ノードの通信ポート11および通信路2[N]を介して受信する(図3ステップS113,S114)。
1番目の分散処理ノード1[1]は、受信した中間集計データRt[m,N](m=1,・・・,M)を、集計データR[m]として、自ノードの通信ポート11および通信路2[N]を介してN番目の分散処理ノード1[N]に送信する(図3ステップS115)。すなわち、分散処理ノード1[1]は、分散処理ノード1[N]からの中間集計データRt[m,N]を集計データR[m]として分散処理ノード[N]に戻すことになる。集計データR[m]は、中間集計データRt[m,N]と同じである。
Figure 0007074017000003
続いて、複数の分散処理ノード1[n](n=1,・・・,N)のうち、1番目を除く分散処理ノード1[k](k=N,・・・,2)は、次の番号の分散処理ノード1[k+](k+=k+1、ただしk=Nの場合はk+=1)から集計データR[m](m=1,・・・,M)を自ノードの通信ポート10および通信路2[k]を介して受信する(図3ステップS116,S117)。
分散処理ノード1[n](n=1,・・・,N)のうち、1番目を除く分散処理ノード1[k](k=N,・・・,2)は、受信した集計データR[m](m=1,・・・,M)を自ノードの通信ポート11および通信路2[k-1]を介して前の番号の分散処理ノード1[k-1]に送信する(図3ステップS118)。
1番目の分散処理ノード1[1]は、分散処理ノード1[2]から集計データR[m](m=1,・・・,M)を自ノードの通信ポート10および通信路2[1]を介して受信する(図3ステップS119,S120)。
ここで、1番目の分散処理ノード1[1]が、M個の数値から構成される集計データR[m]を正常に受信するためには、他の分散処理ノード1[k](k=N,・・・,2)が集計データR[m]を正常に受信することが必要である。分散処理ノード間の各通信路2[n](n=1,・・・,N)は、正常ではない集計データR[m]を正常に戻す機能を有していない。
したがって、分散処理ノード1[1]が集計データR[m]を正常に受信した場合、全ての分散処理ノード1[n](n=1,・・・,N)が正常に集計データR[m]を受信できたことが保証される。分散処理ノード1[1]が正常に集計データR[m]を受信できなかった場合は(ステップS120においてNO)、ステップS103に戻って集約通信からやり直すようにすればよい。
なお、分散処理ノード1[1]が集計データR[m]を正常に受信できたかどうかは、例えばステップS115で送信した集計データR[m]とステップS119,S120で受信した集計データR[m]とを比較することにより、判定することができる。すなわち、送信した集計データR[m]と受信した集計データR[m]とが一致すれば、集計データR[m]を正常に受信できたと判定できる。
以上の分配通信により、全ての分散処理ノード1[n](n=1,・・・,N)は、同一の集計データR[m]を取得することができる。
集約通信は、分散処理ノード1[1]→分散処理ノード1[2]→・・・→分散処理ノード1[N]→分散処理ノード1[1]という経路で行われる。分配通信は、分散処理ノード1[1]→分散処理ノード1[N]→・・・→分散処理ノード1[2]→分散処理ノード1[1]という経路で行われる。
つまり、集約通信と分配通信とは、互いに通信の方向が逆になる。集約通信と分配通信とは、双方向の通信を同時に行うことが可能な通信ポート10,11と通信路2[n]とを介して行わるため、集約通信が完了するまで分配通信の開始を待つ必要がない。
すなわち、分散処理ノード1[1]が中間集計データRt[m,1](m=1,・・・,M)の送信を完了する前に、分散処理ノード1[1]が中間集計データRt[m,N]を受信開始した場合は、この中間集計データRt[m,N]を集計データR[m]とした分配通信を開始できる。
図4は分散処理ノード1[n](n=1,・・・,N)の重み更新処理を説明するフローチャートである。各分散処理ノード1[n]は、集計データR[m](m=1,・・・,M)を受信すると(図4ステップS121においてYES)、受信した集計データR[m]に基づいて、自ノード内のニューラルネットワークの重みw[m]を更新する重み更新処理を行う(図4ステップS122)。重み更新処理においては、集計データR[m]が示す、損失関数の勾配に基づいて損失関数が最小になるように重みw[m]を番号m毎に更新すればよい。重みw[m]の更新は周知の技術であるので、詳細な説明は省略する。
このように、重み更新処理は、重みw[m]の番号mの順番に取得した集計データR[m]に基づいて、重みw[m]を更新する処理である。このため、各分散処理ノード1[n](n=1,・・・,N)は、重みw[m]に対する重み更新処理を、番号mの順番に行うことができる。
重み更新処理の終了により、1回のミニバッチ学習が終了し、各分散処理ノード1[n](n=1,・・・,N)は、更新された重みw[m]に基づき、次のミニバッチ学習の処理を継続して行う。すなわち、各分散処理ノード1[n]は、次のミニバッチ学習用のサンプルデータを図示しないデータ収集ノードから受け取り、上記で説明したミニバッチ学習の処理を繰り返すことにより、自ノードのニューラルネットワークの推論精度を向上させる。
本実施例で示したように、集約通信が完了するまで分配通信の開始を待つ必要がなく、集約通信中であっても、集計を終えたデータの一部から分配通信を開始することが可能であるため、集約通信を完了してから分配通信を開始するという従来技術と比較して、集約通信の開始から分配通信の完了までの時間を短縮することが可能であるため、より高速な深層学習の分散システムを提供することが可能である。
また、本実施例では、分散処理ノード1[1]が集計データR[m]の取得を完了した時点で他の分散処理ノード1[k](k=2,・・・,N)が集計データR[m]の取得を完了したことが保証されるため、信頼性の高い深層学習の分散処理システムを提供することが可能である。
[第2の実施例]
次に、本発明の第2の実施例について説明する。本実施例は、第1の実施例をより具体的に説明するものである。図5は本実施例に係る分散処理ノード1[1]の構成例を示すブロック図、図6は本実施例に係る分散処理ノード1[k](k=2,・・・,N)の構成例を示すブロック図である。
分散処理ノード1[1]は、通信ポート10(第1の通信ポート)と、通信ポート11(第2の通信ポート)と、中間集計データRt[m,1](m=1,・・・,M)をパケット化して自ノードの通信ポート10に出力する送信部12(第1の送信部)と、自ノードの通信ポート10から受信するパケットから集計データR[m]を取得する受信部13(第2の受信部)と、集計データR[m]をパケット化して自ノードの通信ポート11に出力する送信部14(第2の送信部)と、自ノードの通信ポート11から受信するパケットから中間集計データRt[m,N](m=1,・・・,M)を取得する受信部15(第1の受信部)と、図示しないデータ収集ノードから学習用のサンプルデータを受け取るサンプル入力部16と、サンプルデータが入力されたときに、ニューラルネットワークの重みw[m]の各々について、ニューラルネットワークの損失関数の勾配G[m,1,s]をサンプルデータ毎に計算する勾配計算処理部17と、サンプルデータ毎の勾配G[m,n,s]を集計した数値である分散データD[m,1]を重みw[m]毎に生成して保持するノード内集計処理部18と、集計データR[m]に基づいてニューラルネットワークの重みを更新する重み更新処理部20と、ソフトウェア的に構築された数学モデルであるニューラルネットワーク21とを備えている。
分散処理ノード1[k](k=2,・・・,N)は、通信ポート10(第1の通信ポート)と、通信ポート11(第2の通信ポート)と、中間集計データRt[m,k](m=1,・・・,M)をパケット化して自ノードの通信ポート10に出力する送信部12(第1の送信部)と、自ノードの通信ポート10から受信するパケットから集計データR[m]を取得する受信部13(第2の受信部)と、集計データR[m]をパケット化して自ノードの通信ポート11に出力する送信部14(第2の送信部)と、自ノードの通信ポート11から受信するパケットから中間集計データRt[m,k-1](m=1,・・・,M)を取得する受信部15(第1の受信部)と、サンプル入力部16と、サンプルデータが入力されたときに、ニューラルネットワークの重みw[m]の各々について、ニューラルネットワークの損失関数の勾配G[m,k,s]をサンプルデータ毎に計算する勾配計算処理部17と、サンプルデータ毎の勾配G[m,k,s]を集計した数値である分散データD[m,k]を重みw[m]毎に生成して保持するノード内集計処理部18と、受信した中間集計データRt[m,k-1](m=1,・・・,M)と自ノードで生成された分散データD[m,k]との和を、対応する重みw[m]毎に求めて更新後の中間集計データRt[m,k]を生成する集計データ生成部19と、重み更新処理部20と、ニューラルネットワーク21とを備えている。
なお、分散処理ノード1[1]と分散処理ノード1[k](k=2,・・・,N)とは、後述のように同一のハードウェアで実現することが可能である。具体的には、外部からの初期設定により、各分散処理ノードの機能を、親ノード(分散処理ノード1[1])あるいは子ノード(分散処理ノード1[k])の何れかに指定することが可能である。これにより、本発明では、全ての分散処理ノードを低コストに実現可能である。
図2のステップS100で説明したとおり、各分散処理ノード1[n](n=1,・・・,N)のサンプル入力部16は、データ収集ノードからサンプルデータx[n,s](s=1,・・・,S)をミニバッチ毎に入力する。
図2のステップS101で説明したとおり、各分散処理ノード1[n](n=1,・・・,N)の勾配計算処理部17は、サンプルデータx[n,s]が入力されたとき、ニューラルネットワーク21のM個の重みw[m](m=1,・・・,M)の各々について、ニューラルネットワーク21の損失関数の勾配G[m,n,s]をサンプルデータx[n,s]毎に計算する。
図2ステップS102で説明したとおり、各分散処理ノード1[n](n=1,・・・,N)のノード内集計処理部18は、サンプルデータ毎の勾配G[m,n,s]を集計した数値である分散データD[m,n](m=1,・・・,M)を、重みw[m]毎に生成して保持する。
次に、各分散処理ノード1[n](n=1,・・・,N)の送信部12は、外部からの初期設定により、親ノード(分散処理ノード1[1])用の送信部として動作するか、子ノード(分散処理ノード1[k]、k=2,・・・,N)用の送信部として動作するかを、設定できるようになっている。
親ノードとして設定された分散処理ノード1[1]の送信部12は、自ノードのノード内集計処理部18によって生成されたM個の分散データD[m,1](m=1,・・・,M)を中間集計データRt[m,1]として、この中間集計データRt[m,1]を、重みw[m]の番号mの順番にパケット化し、生成した集約通信パケットSP[p,1](p=1,・・・,P、Pは2以上の整数)を自ノードの通信ポート10に出力する。この集約通信パケットSP[p,1]は、通信ポート10から通信路2[1]を介して次の番号の分散処理ノード1[2]に送信される(図3ステップS103,S104)。
一方、子ノードとして設定された各分散処理ノード1[k](k=2,・・・,N)の受信部15は、分散処理ノード1[k-1]から集約通信パケットSP[p,k-1](p=1,・・・,P)を自ノードの通信ポート11および通信路2[k-1]を介して受信し、受信した集約通信パケットSP[p,k-1]から中間集計データRt[m,k-1](m=1,・・・,M)を取得する(図3ステップS105,S106,S109,S110)。
子ノードとして設定された各分散処理ノード1[k](k=2,・・・,N)の集計データ生成部19は、自ノードの受信部15によって取得された中間集計データRt[m,k-1](m=1,・・・,M)と自ノードのノード内集計処理部18によって生成された分散データD[m,k]との和を、対応する重みw[m]毎(番号m毎)に求めることにより、中間集計データRt[m,k]を番号mの順番に生成する(図3ステップS107,S111)。
そして、各分散処理ノード1[k](k=2,・・・,N)の送信部12は、自ノードの集計データ生成部19によって生成されたM個の中間集計データRt[m,k](m=1,・・・,M)を、重みw[m]の番号mの順番にパケット化し、生成した集約通信パケットSP[p,k](p=1,・・・,P)を自ノードの通信ポート10に出力する。この集約通信パケットSP[p,k]は、通信ポート10から通信路2[k]を介して次の番号の分散処理ノード1[k+](k+=k+1、ただしk=Nの場合はk+=1)に送信される(図3ステップS108,S112)。
次に、各分散処理ノード1[n](n=1,・・・,N)の送信部14は、送信部12と同様に外部からの初期設定により、親ノード(分散処理ノード1[1])用の送信部として動作するか、子ノード(分散処理ノード1[k]、k=2,・・・,N)用の送信部として動作するかを、設定できるようになっている。
親ノードとして設定された分散処理ノード1[1]の受信部15は、分散処理ノード1[N]から集約通信パケットSP[p,N]を自ノードの通信ポート11および通信路2[N]を介して受信し、受信した集約通信パケットSP[p,N](p=1,・・・,P)から中間集計データRt[m,N](m=1,・・・,M)を取得する(図3ステップS113,S114)。
親ノードとして設定された分散処理ノード1[1]の送信部14は、自ノードの受信部15によって取得された中間集計データRt[m,N](m=1,・・・,M)を集計データR[m]として、この集計データR[m]を、重みw[m]の番号mの順番にパケット化し、生成した分配通信パケットDP[p,1](p=1,・・・,P)を自ノードの通信ポート11に出力する。この分配通信パケットDP[p,1]は、通信ポート11から通信路2[N]を介してN番目の分散処理ノード1[N]に送信される(図3ステップS115)。
一方、子ノードとして設定された各分散処理ノード1[k](k=2,・・・,N)の受信部13は、分散処理ノード1[k+](k+=k+1、ただしk=Nの場合はk+=1)から分配通信パケットDP[p,k+](p=1,・・・,P)を自ノードの通信ポート10および通信路2[k]を介して受信し、受信した分配通信パケットDP[p,k+]から集計データR[m](m=1,・・・,M)を取得する(図3ステップS116,S117)。
子ノードとして設定された各分散処理ノード1[k](k=2,・・・,N)の送信部14は、受信部13によって取得された集計データR[m](m=1,・・・,M)を、重みw[m]の番号mの順番にパケット化し、生成した分配通信パケットDP[p,k](p=1,・・・,P)を自ノードの通信ポート11に出力する。この分配通信パケットDP[p,k]は、通信ポート11から通信路2[k-1]を介して分散処理ノード1[k-1]に送信される(図3ステップS118)。
親ノードとして設定された分散処理ノード1[1]の受信部13は、分散処理ノード1[2]から分配通信パケットDP[p,2](p=1,・・・,P)を自ノードの通信ポート10および通信路2[1]を介して受信し、受信した分配通信パケットDP[p,2]から集計データR[m](m=1,・・・,M)を取得する(図3ステップS119,S120)。
なお、各分散処理ノード1[n](n=1,・・・,N)の送信部12は、M個の中間集計データRt[m,n]を、重みw[m]の番号mの順番にL(Lは1以上M未満の整数)個ずつP個(Pは2以上の整数)の集約通信パケットに振り分けて、全ての集約通信パケットを送信し終えるまで、P個の集約通信パケットを順番に次の番号の分散処理ノード1[n+](n+=n+1、ただしn=Nの場合はn+=1)に送信する。すなわち、p番目(p=1,・・・,P)に送信する集約通信パケットSP[p,n]には、L個の中間集計データRt[r,n](r=L×(p-1)+l、l=1,・・・,L)が格納される。
MがLで割り切れない条件では、P番目の集約通信パケットSP[P,n]には、(M-L×(P-1))個の中間集計データRt[r,n](r=L×(P-1)+q、q=1,・・・,M-L×(P-1))が格納される。
P番目の集約通信パケットSP[P,n]については、(M-L×(P-1))個の中間集計データRt[r,n]の後に、{L-(M-L×(P-1))}個のダミーの数値を追加し、全ての集約通信パケットが等しくL個のデータを格納するようにしてもよい。
また、各分散処理ノード1[n](n=1,・・・,N)の送信部14は、M個の集計データR[m](m=1,・・・,M)を、重みw[m]の番号mの順番にL個ずつP個の分配通信パケットに振り分けて、全ての分配通信パケットを送信し終えるまで、P個の分配通信パケットを順番に分散処理ノード1[n-](n-=n-1、ただしn=1の場合はn-=N)に送信する。すなわち、p番目(p=1,・・・,P)に送信する分配通信パケットDP[p,n]には、L個の集計データR[r](r=L×(p-1)+l、l=1,・・・,L)が格納される。
MがLで割り切れない条件では、P番目の分配通信パケットDP[p,n]には、(M-L×(P-1))個の集計データR[r](r=L×(P-1)+q、q=1,・・・,M-L×(P-1))が格納される。
P番目の分配通信パケットDP[P,n]については、(M-L×(P-1))個の集計データR[r]の後に、{L-(M-L×(P-1))}個のダミーの数値を追加し、全ての分配通信パケットが等しくL個のデータを格納するようにしてもよい。
各分散処理ノード1[n](n=1,・・・,N)の重み更新処理部20は、自ノードの受信部13によって取得された集計データR[m]に基づいて、自ノード内のニューラルネットワーク21の重みw[m]を更新する重み更新処理を行う(図4ステップS122)。
図7に、各分散処理ノード1[n](n=1,・・・,N)の処理の概要を示す。図8~図10に、各分散処理ノード1[n](n=1,・・・,N)間の中間集計データおよび集計データの通信(集約通信と分配通信)のシーケンスを示す。
なお、図9は、図8の80の部分の処理を示している。また、81は分散処理ノード1[1]におけるノード間集計処理を示している。同様に、図9の90,91,92は分散処理ノード1[α-1],1[α]、1[α+1](α=3,・・・,N-1)におけるノード間集計処理を示している。図10は、図8の82の部分の処理、すなわち分散処理ノード1[β+1],1[β]、1[β-1](β=N-1,・・・,3)の分配通信処理を示している。
以上のように、分散処理ノード1[1]を起点・終点とした分散処理ノード1[n](n=1,・・・,N)から分散処理ノード[n+](n+=n+1、ただしn=Nの場合はn+=1)への集約通信(中間集計データRt[m,n]を分散処理ノード[n+]に送信する処理)、分散処理ノード1[k](k=2,・・・,N)が行うノード間集計処理(受信した中間集計データRt[m,k-1]と自ノードで生成した分散データD[m,k]とに基づいて中間集計データRt[m,k]を計算する処理)、分散処理ノード1[1]を起点・終点とした分散処理ノード1[n](n=1,・・・,N)から分散処理ノード[n-](n-=n-1、ただしn=1の場合はn-=N)への分配通信(集計データR[m]を各分散処理ノード[n-]に分配する処理)、の全ては、前記の重みw[m]の番号mの順番に行われており、番号mを単位としたパイプライン化が可能である。
本実施例では、図8~図10に示すように、集約通信処理とノード間集計処理と分配通信処理とを、並行してほぼ同時に(番号mを単位としたパイプライン処理で)行うことが可能であり、各通信や各処理が終了するまで、次の処理を開始できなかった従来技術と比較したとき、処理時間の大幅な短縮が可能となる。
また、N個の分散処理ノード1[n](n=1,・・・,N)が同一ハードウェアを備えるノードであっても、1個の親ノード(分散処理ノード1[1])を定めて親ノードか否かに応じた設定を各ノードに対して行うことにより、上述する集約通信処理とノード間集計処理と分配通信処理とを実現することが可能となるので、各ノードに個別に設定を要するシステムと比較して、その管理が極めて簡易になる(1個の親ノードを除く各ノードに同じ設定を行えばよい)ので、システム管理に要するコストや管理上のミスを削減できる。
第1、第2の実施例で説明した各分散処理ノード1[n](n=1,・・・,N)は、CPU(Central Processing Unit)、記憶装置及びインタフェースを備えたコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。
このコンピュータの構成例を図11に示す。コンピュータは、CPU100と、記憶装置101と、インターフェース装置(以下、I/Fと略する)102とを備えている。I/F102には、例えば通信ポート10,11を含む通信回路が接続される。CPU100は、記憶装置101に格納されたプログラムに従って第1、第2の実施例で説明した処理を実行し、本発明の分散処理システムおよび分散処理方法を実現する。
本発明は、ニューラルネットワークの機械学習を行う技術に適用することができる。
1…分散処理ノード、2…通信路、10,11…通信ポート、12,14…送信部、13,15…受信部、16…サンプル入力部、17…勾配計算処理部、18…ノード内集計処理部、19…集計データ生成部、20…重み更新処理部、21…ニューラルネットワーク。

Claims (6)

  1. リング状に配置され、隣接するノードと通信路を介して互いに接続されたN個(Nは2以上の整数)の分散処理ノードを備え、
    n番目(n=1,・・・,N)の分散処理ノードは、n番目(n=n+1、ただしn=Nの場合はn=1)の分散処理ノードと双方向の通信が同時に可能な第1の通信ポートと、n番目(n=n-1、ただしn=1の場合はn=N)の分散処理ノードと双方向の通信が同時に可能な第2の通信ポートとを備え、
    各分散処理ノードは、学習対象のニューラルネットワークの学習用のサンプルデータが入力されたときに、前記ニューラルネットワークのM個(Mは2以上の整数)の重みw[m](m=1,・・・,M)の各々について、前記ニューラルネットワークの損失関数の勾配をサンプルデータ毎に計算し、サンプルデータ毎の前記勾配を集計した数値である分散データD[m,n](m=1,・・・,M)を重みw[m]毎生成し、
    N個の分散処理ノードのうち、予め指定された1番目の分散処理ノードは、自ノードで生成された前記分散データを第1の集計データとして、この第1の集計データを重みw[m]の番号mの順番にパケット化して、自ノードの前記第1の通信ポートから2番目の分散処理ノードに向けて送信し、
    N個の分散処理ノードのうち、前記1番目を除くk番目(k=2,・・・,N)の分散処理ノードは、(k-1)番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データと自ノードで生成された前記分散データとの和を、対応する重みw[m]毎に求めて更新後の第1の集計データを生成し、この第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk番目(k=k+1、ただしk=Nの場合はk=1)の分散処理ノードに向けて送信し、
    前記1番目の分散処理ノードは、N番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データを第2の集計データとして、この第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信し、
    前記k番目の分散処理ノードは、k番目の分散処理ノードから自ノードの前記第1の通信ポートを介して受信した第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信し、
    前記1番目の分散処理ノードは、2番目の分散処理ノードから自ノードの前記第1の通
    信ポートを介して第2の集計データを受信し、
    各分散処理ノードは、受信した前記第2の集計データに基づいて前記ニューラルネットワークの重みw[m]を更新することを特徴とする分散処理システム。
  2. 請求項1記載の分散処理システムにおいて、
    各分散処理ノードは、
    前記分散データを生成するノード内集計処理部と、
    自ノードが前記1番目の分散処理ノードとして機能する場合に、前記第1の集計データを重みw[m]の番号mの順番にパケット化して、自ノードの前記第1の通信ポートから2番目の分散処理ノードに向けて送信し、自ノードが前記k番目の分散処理ノードとして機能する場合に、前記更新後の第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk番目の分散処理ノードに向けて送信する第1の送信部と、
    自ノードの前記第2の通信ポートから受信するパケットから前記第1の集計データを取得する第1の受信部と、
    自ノードが前記1番目の分散処理ノードとして機能する場合に、前記第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信し、自ノードが前記k番目の分散処理ノードとして機能する場合に、受信した前記第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信する第2の送信部と、
    自ノードの前記第1の通信ポートから受信するパケットから前記第2の集計データを取得する第2の受信部と、
    自ノードが前記k番目の分散処理ノードとして機能する場合に、前記更新後の第1の集計データを生成する集計データ生成部と、
    受信した前記第2の集計データに基づいて前記ニューラルネットワークの重みw[m]を更新する重み更新処理部とを備えることを特徴とする分散処理システム。
  3. 請求項1または2記載の分散処理システムにおいて、
    各分散処理ノードは、前記1番目の分散処理ノードが前記第2の集計データを正常に受信できなかった場合に、前記第1の集計データの送信以降の処理を再度行うことを特徴とする分散処理システム。
  4. リング状に配置され、隣接するノードと通信路を介して互いに接続されたN個(Nは2以上の整数)の分散処理ノードを備え、n番目(n=1,・・・,N)の分散処理ノードが、n番目(n=n+1、ただしn=Nの場合はn=1)の分散処理ノードと双方向の通信が同時に可能な第1の通信ポートと、n番目(n=n-1、ただしn=1の場合はn=N)の分散処理ノードと双方向の通信が同時に可能な第2の通信ポートとを備えたシステムにおける分散処理方法であって、
    各分散処理ノードが、学習対象のニューラルネットワークの学習用のサンプルデータが入力されたときに、前記ニューラルネットワークのM個(Mは2以上の整数)の重みw[m](m=1,・・・,M)の各々について、前記ニューラルネットワークの損失関数の勾配をサンプルデータ毎に計算し、サンプルデータ毎の前記勾配を集計した数値である分散データD[m,n](m=1,・・・,M)を重みw[m]毎生成する第1のステップと、
    N個の分散処理ノードのうち、予め指定された1番目の分散処理ノードが、自ノードで生成された前記分散データを第1の集計データとして、この第1の集計データを重みw[m]の番号mの順番にパケット化して、自ノードの前記第1の通信ポートから2番目の分散処理ノードに向けて送信する第2のステップと、
    N個の分散処理ノードのうち、前記1番目を除くk番目(k=2,・・・,N)の分散
    処理ノードが、(k-1)番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データと自ノードで生成された前記分散データとの和を、対応する重みw[m]毎に求めて更新後の第1の集計データを生成し、この第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk番目(k=k+1、ただしk=Nの場合はk=1)の分散処理ノードに向けて送信する第3のステップと、
    前記1番目の分散処理ノードが、N番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データを第2の集計データとして、この第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信する第4のステップと、
    前記k番目の分散処理ノードが、k番目の分散処理ノードから自ノードの前記第1の通信ポートを介して受信した第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信する第5のステップと、
    前記1番目の分散処理ノードが、2番目の分散処理ノードから自ノードの前記第1の通信ポートを介して第2の集計データを受信する第6のステップと、
    各分散処理ノードが、受信した前記第2の集計データに基づいて前記ニューラルネットワークの重みw[m]を更新する第7のステップとを含むことを特徴とする分散処理方法。
  5. 請求項4記載の分散処理方法において、
    前記第3のステップは、前記k番目の分散処理ノードが、自ノードの前記第2の通信ポートから受信するパケットから前記第1の集計データを取得するステップと、前記更新後の第1の集計データを生成するステップと、前記更新後の第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk番目の分散処理ノードに向けて送信するステップとを含み、
    前記第4のステップは、前記1番目の分散処理ノードが、自ノードの前記第2の通信ポートから受信するパケットから前記第1の集計データを取得するステップと、取得した第1の集計データを第2の集計データとして、この第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信するステップとを含み、
    前記第5のステップは、前記k番目の分散処理ノードが、自ノードの前記第1の通信ポートから受信するパケットから前記第2の集計データを取得するステップと、受信した前記第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信するステップとを含み、
    前記第6のステップは、前記1番目の分散処理ノードが、自ノードの前記第1の通信ポートから受信するパケットから前記第2の集計データを取得するステップを含むことを特徴とする分散処理方法。
  6. 請求項4または5記載の分散処理方法において、
    各分散処理ノードは、前記第6のステップにおいて前記1番目の分散処理ノードが前記第2の集計データを正常に受信できなかった場合に、前記第2のステップ以降の処理を再度行うことを特徴とする分散処理方法。
JP2018198230A 2018-10-22 2018-10-22 分散処理システムおよび分散処理方法 Active JP7074017B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018198230A JP7074017B2 (ja) 2018-10-22 2018-10-22 分散処理システムおよび分散処理方法
PCT/JP2019/039449 WO2020085058A1 (ja) 2018-10-22 2019-10-07 分散処理システムおよび分散処理方法
US17/287,413 US20220004842A1 (en) 2018-10-22 2019-10-07 Distributed Processing System and Distributed Processing Method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018198230A JP7074017B2 (ja) 2018-10-22 2018-10-22 分散処理システムおよび分散処理方法

Publications (2)

Publication Number Publication Date
JP2020067687A JP2020067687A (ja) 2020-04-30
JP7074017B2 true JP7074017B2 (ja) 2022-05-24

Family

ID=70330326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018198230A Active JP7074017B2 (ja) 2018-10-22 2018-10-22 分散処理システムおよび分散処理方法

Country Status (3)

Country Link
US (1) US20220004842A1 (ja)
JP (1) JP7074017B2 (ja)
WO (1) WO2020085058A1 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04290155A (ja) * 1991-03-19 1992-10-14 Fujitsu Ltd 並列データ処理方式
JP3136088B2 (ja) * 1996-02-22 2001-02-19 シャープ株式会社 データ処理装置及びデータ処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SERGEEV, Alexander, DEL BALSO, Mike,"Horovod: fast and easy distributed deep learning in TensorFlow",arXiv,米国,arXiv,2018年02月21日,pp.1-10,https://arxiv.org/abs/1802.05799v3

Also Published As

Publication number Publication date
WO2020085058A1 (ja) 2020-04-30
US20220004842A1 (en) 2022-01-06
JP2020067687A (ja) 2020-04-30

Similar Documents

Publication Publication Date Title
JP6753874B2 (ja) 分散深層学習システム
JP6981329B2 (ja) 分散深層学習システム
CN108111335A (zh) 一种调度和链接虚拟网络功能的方法及系统
JP7010153B2 (ja) 分散処理システムおよび分散処理方法
WO2020003849A1 (ja) 分散深層学習システム、分散深層学習方法、およびコンピューティングインタコネクト装置
JP7135743B2 (ja) 分散処理システムおよび分散処理方法
CN106302170B (zh) 一种无线云计算系统的资源分配方法
JP7074017B2 (ja) 分散処理システムおよび分散処理方法
JP2015164245A (ja) フロー経路変更計算装置、フロー経路変更計算システムおよびフロートラヒック量計算装置
JP7192984B2 (ja) 分散処理システムおよび分散処理方法
WO2019159784A1 (ja) 分散処理システムおよび分散処理方法
JP7074018B2 (ja) 分散処理システムおよび分散処理方法
CN110300168A (zh) 一种基于多边缘服务器协作的并发任务优化方法
JP7135468B2 (ja) 分散処理システムおよび分散処理方法
KR101913745B1 (ko) 소프트웨어 정의 네트워크에서 데이터 평면 애플리케이션을 활용하여 전송 경로를 설정하는 장치 및 방법
JP7420228B2 (ja) 分散処理システムおよび分散処理方法
JP2020003860A (ja) 学習システム、処理装置、処理方法、およびプログラム
JP7272460B2 (ja) 分散深層学習システム
CN114626523A (zh) 训练深度学习模型的方法、装置、设备以及存储介质
JP7248110B2 (ja) 分散深層学習システム
US20220391666A1 (en) Distributed Deep Learning System and Distributed Deep Learning Method
TW202416188A (zh) 聯邦學習方法及系統
WO2021111491A1 (ja) 分散深層学習システムおよび分散深層学習方法
JP2023179168A (ja) サーバ装置
CN117763376A (zh) 一种数据聚合方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220425

R150 Certificate of patent or registration of utility model

Ref document number: 7074017

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150