JP7181264B2

JP7181264B2 - 深層学習処理装置、方法、デバイス及び記憶媒体

Info

Publication number: JP7181264B2
Application number: JP2020159513A
Authority: JP
Inventors: シャオヂャンゴン，; ジェンオウヤン，; ジンワン，; ウェイチー，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Kunlunxin Technology Beijing Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Kunlunxin Technology Beijing Co Ltd
Priority date: 2020-02-05
Filing date: 2020-09-24
Publication date: 2022-11-30
Anticipated expiration: 2040-09-24
Also published as: JP2021140733A; US20210241095A1; EP3862928A1; KR102642849B1; KR20210099991A; EP3862928B1; CN113222101A

Description

本開示の実施例は、概にデータ処理分野に関し、特に人工知能分野に関する。

深層学習は、人工ニューラルネットワークの研究方向の一つである。近年の人工知能分野のハードウェア及びソフトウェアがますます進歩するに伴い、深層学習技術は、飛躍的に発展している。深層学習技術は、例えば、コンピュータ視覚、自然言語処理、音声分析などの様々な分野に活用することができる。畳込みニューラルネットワーク（ＣＮＮ）は、深層学習技術において影響力のあるネットワークモデルであり、特に画像及びテキストデータに関するアプリケーションに適する。畳込みニューラルネットワークに関する演算は、主に、畳込み（Ｃｏｎｖｏｌｕｔｉｏｎ）演算、全結合（ＦＣ）演算、プーリング（Ｐｏｏｌｉｎｇ）演算、ベクトル演算、アクティベーション演算等を含み、そのうち最も主要なのは、畳込み演算である。ＣＮＮのトレーニングにおいて、モデル最適化のために、トレーニングデータを利用して、順伝播（ＦｏｒｗａｒｄＰｒｏｐａｇａｔｉｏｎ）演算に加え、逆伝播（ＢａｃｋｗａｒｄＰｒｏｐａｇａｔｉｏｎ）も実行することにより、モデルのパラメータ最適化を実現する。

ＣＮＮのトレーニングにおいて、畳込み層における大量の畳込み演算と畳込み逆演算とが実行される。いくつかのＣＮＮアーキテクチャでは、畳込み演算と畳込み逆演算は、アーキテクチャ演算全体の大部の計算リソースと時間を占める可能性がある。深層学習処理部は、深層学習演算の実行、又は、深層学習用ネットワークのトレーニングに利用される。深層学習処理部は、畳込み演算および／または畳込み逆演算をより高速でかつ効率的に処理することが期待される。これは、深層学習ネットワーク全体、特にＣＮＮのトレーニングの高速化に寄与する。

本開示の実施例によれば、深層学習処理を実行するための方案が提供される。

本開示の第１の態様によれば、深層学習処理装置であって、畳込みニューラルネットワーク（ＣＮＮ）における畳込み層の畳込みカーネルパラメータ値行列と第１の誤差勾配値行列との行列積和演算を実行して、複数の中間行列を得るように構成される、少なくとも一つの行列積和演算モジュールと、前記複数の中間行列の要素を再整形することなく、前記複数の中間行列を記憶するように構成される、記憶モジュールと、前記記憶モジュールから前記複数の中間行列を読み出し、前記畳込み層の畳込みスキームに従って並行して前記複数の中間行列に基づく行列累加演算を実行して、前記畳込み層に関する第２の誤差勾配値行列を得るように構成される、複数の行列累加演算モジュールと、を備える、深層学習処理装置を提供する。

本開示の第２の態様によれば、深層学習用処理を実行する方法であって、深層学習用処理装置の少なくとも1つの行列積和演算モジュールが、畳込みニューラルネットワーク（ＣＮＮ）における畳込み層の畳込みカーネルパラメータ値行列と第１の誤差勾配値行列との行列積和演算を実行して、複数の中間行列を得るステップと、前記複数の中間行列の要素を再整形することなく、前記複数の中間行列を記憶するステップと、前記記憶モジュールから前記複数の中間行列を読み出すステップと、深層学習用処理装置の複数の行列累加演算モジュールが、前記畳込み層の畳込みスキームに従って並行して前記複数の中間行列に基づく行列累加演算を実行して、前記畳込み層に関する第２の誤差勾配値行列を得るステップと、を含む方法を提供する。

本開示の第３の態様によれば、電子デバイスであって、第１の態様に記載の少なくとも１つの深層学習処理装置と、少なくとも1つの前記深層学習処理装置とカップリングされ、前記畳込みニューラルネットワークＣＮＮのトレーニングを実行するための指令を前記深層学習処理装置に提供する汎用処理装置と、を備える、電子デバイスを提供する。

本開示の第４態様によれば、コンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記コンピュータプログラムがプロセッサにより実行されると、第２の態様に記載の方法を実現させるコンピュータ読み取り可能な記録媒体を提供する。

本開示の第５態様によれば、プロセッサにより実行されると、第２態様に記載の方法を実現させるコンピュータプログラムを提供する。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。本発明のさらに他の目的は、後述することより容易に理解されることになる。

以下、本発明の実施の形態について図面を参照して詳細に説明するが、本開示の実施形態の上記および他の特徴、利点、および態様がより明らかになるであろう。なお、図中、同一または類似の符号は同一または類似の要素を示している。

畳込みニューラルネットワーク（ＣＮＮ）の構成を模式的に示すブロック図である。幾つかの実施例による処理構成を模式的に示すブロック図である。本開示の幾つかの実施例による深層学習処理装置の構成例を模式的に示すブロック図である。本開示の他の幾つかの実施例による深層学習処理装置の構成例を模式的に示すブロック図である。本開示の幾つかの実施例による深層学習処理装置の構成例を模式的に示すブロック図である。ＣＮＮの畳込み層の畳込み演算を示す模式図である。ＣＮＮの畳込み層の畳込み逆演算を示す模式図である。本開示の幾つかの実施例による行列累加演算処理を説明するための図である。本開示の他の幾つかの実施例による行列計算モジュールの構成例を示すブロック図である。本開示の他の幾つかの実施例による行列累加演算モジュールの構成例を示すブロック図である。本開示の例示的な実施例による処理タスクの実行方法を示すフローチャートである。本開示の様々な実施例を実施可能なコンピューティングデバイスのブロック図である。

以下、本発明の実施の形態について、図面を参照して詳細に説明する。本開示のいくつかの実施形態を図面に示したが、本開示は、様々な形態で実施されることが可能であり、また、本明細書に示した実施形態に限定して解釈されるべきではない。逆に、これらの実施形態は、本開示をより完全に理解するためのものである。なお、本開示の図面及び実施例は例示的な作用に用いられ、本開示の保護範囲を限定するものではない。

本開示の実施例の説明において、用語「含まれる」及びその類似の用語は、開放的な意味、すなわち、「含まれるが限定されない」として解釈すべきである。また、用語「基づき」は、「少なくとも一部に基づき」と解釈されるべきである。また、「一実施例」または「当該実施例」という用語は、「少なくとも1つの実施例」として解釈されるべきものである。なお、「第１」、「第２」等の用語は、異なるオブジェクトであるか、又は同一のオブジェクトであるかを示すために用いられる。また、以下に示すような明確的、又は暗黙的な定義を有する場合もある。

上述したように、畳込みニューラルネットワーク（ＣＮＮ）のトレーニングや推理の時、非常に複雑な動作、特に、畳込み層の畳込み演算や畳込み逆演算などを処理する必要がある。汎用的なプロセッサを用いてＣＮＮのトレーニングや推理を行うなら、非常に処理効率が低い。従来のいくつかの解決手段として、グラフィック処理ユニット（ＧＰＵ）によって、ＣＮＮの処理、特にＣＮＮのトレーニングを実現する。ＧＰＵは、計算速度を向上させるために、シングル指令マルチスレッド（ＳＩＭＴ）技術を利用し、多数のスレッドで、スケジューリング及び演算を行うようにする。しかし、ＧＰＵは、多くのレジスタスタック、複雑なスレッドスケジューリングメカニズム及び高速なキャッシュ管理を必要とし、消費電力が高くなり、演算の性能が悪い。当該問題点に鑑み、深層学習処理、特にＣＮＮに関する処理を実行するためのより効率的な深層学習処理装置を提供することが希望される。

ＣＮＮに関する処理を実行する処理装置について説明する前、先にＣＮＮについて簡単に説明する。ＣＮＮは、深層学習モデルの1つである。深層学習モデルにおいて、処理に用いられるパラメータセットの値は、トレーニングにより決定される。機械学習モデルは、トレーニングしたパラメータセットを用いて、受信された入力を対応する出力にマッピングする。したがって、機械学習モデルのトレーニング過程は、トレーニングデータから、入力から出力までのマッピングまたは関連関係を学習することと考えられる。

ＣＮＮは、一般的には入力層、畳込み層、プーリング層、活性化層、全結合層及び出力層を含むことができる。ＣＮＮにおける畳込み層、プーリング層、活性化層及び全結合層の数や、接続関係等は、具体的な処理タスクの要求及び設定に応じて変更可能である。図１は、ＣＮＮ１００の構造の一例を示す図であり、入力層１１０、畳込み層１２０、活性化層１３０、プーリング層１４０、……、全結合層１５０及び出力層１６０を含む。モデルによる処理対象となる入力を、入力層１１０としてＣＮＮ１００に供給して、処理する。順方向１０１の処理では、入力されたデータは、途中の複数の層による処理を経て、最終的に出力層１６０の出力結果が得られる。

ＣＮＮ１００のトレーニングにおいて、トレーニングデータは、順方向１０１の処理に加え、逆方向１０２の処理を実行される。逆方向１０２の処理では、通常、ＣＮＮ１００のパラメータセットの現在値の下で、入力されたトレーニングデータを処理して得られた出力と理想的な出力との誤差を算出し、その誤差を逆方向（すなわち、出力層１６０から入力層１１０に向かう方向）に伝播させる。逆伝播において、勾配降下法により、ＣＮＮ１００における各層のパラメータの現在値を調整することができる。複数回のトレーニングを経ると、ＣＮＮ１００の出力と理想的な出力との間の誤差はますます小さくなり、モデルが収束することになるまで、トレーニング処理が完了する。

なお、図１のＣＮＮの構成はただの一例である。実際の適用場面において、必要に応じて、ＣＮＮが他のネットワーク構成とされてもよく、より多くのネットワーク層、他の種類のネットワーク層、及び様々な種類のネットワーク層の異なる接続関係を有してもよい。本開示の実施形態は、この点に限定されるものではない。

いくつかの実施例において、専用の深層学習プロセッサを用いてＣＮＮのトレーニング関連動作を処理することができる。図２は、いくつかの実施形態に係る処理用アーキテクチャ２００の一例を示す模式図である。一例として、処理用アーキテクチャ２００は、汎用処理装置２１０と、それとカップリングされる深層学習処理装置２２０とを備える異種アーキテクチャとされる。

汎用処理装置２１０は、例えば、１又は複数の汎用プロセッサ（ＣＰＵ）コア、１又は複数のデジタルシグナルプロセッサ（ＤＳＰ）コア等を含むことができる。汎用処理装置２１０は、例えば、汎用のスカラー処理装置であってもよい。汎用処理装置２１０は、例えば、ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ（ＲＩＳＣ）タイプの指令などのような一般的なコンピュータ指令を実行することができるとともに、デプス学習処理に関するカスタマイズされた指令の解釈及び実行を行うことができる。汎用処理装置２１０は、深層学習処理装置２２０に、深層学習モデルの関連処理を実現するための、深層学習処理に関する指令を提供することができる。

深層学習処理装置２２０（深層学習処理装置、深層学習処理デバイスとも呼ばれる）は、例えば、深層学習演算を実現するためのソフトウェアコンポーネントとハードウェア回路とを含む専用の深層学習コプロセッサであってもよい。深層学習処理装置２２０は、例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）等により実現することができる。深層学習処理装置２２０は、複数のモジュールを有し、深層学習用に定義された関連指令により、複数のモジュールの動作をスケジューリングし、複数のモジュール間でデータのやり取りを行うことができる。深層学習処理装置２２０におけるモジュールは、実現しようとする深層学習処理タスクに応じて構成してもよい。また、いくつかの実施例において、深層学習処理装置２２０は、ＣＮＮのトレーニングタスクを実行するように構成されていてもよい。これにより、汎用処理装置２１０は、深層学習処理装置２２０に対して、ＣＮＮのトレーニングを実行するための指令を供給する。

上述したように、ＣＮＮのトレーニングでは、畳込み層による大量の畳込み演算及び畳込み逆演算が行われるため、かなり計算リソースと時間がかかる。それ故、畳込み演算および畳込み逆演算の面で改善することにより、ＣＮＮのトレーニングを大幅に高速化することができる。

本開示の実施例によれば、深層学習処理装置が提案される。この深層学習処理装置は、畳込み層による畳込み方向演算を実行することができる。この深層学習処理装置は、畳込みニューラルネットワーク（ＣＮＮ）における畳込み層の畳込みカーネルパラメータ値行列と第１の誤差勾配値行列との行列積和演算を実行して、複数の中間行列を得るように構成される、一つ又は複数の行列積和演算モジュールを備える。複数の中間行列は、要素の再整形がされず、記憶装置に記憶される。深層学習処理装置は、記憶モジュールから複数の中間行列を読み出し、畳込み層の畳込みスキームに従って並行して複数の中間行列に基づく行列累加演算を実行して、畳込み層に関する第２の誤差勾配値行列を得るように構成される、複数の行列累加演算モジュールをさらに備える。該解決手段によれば、ＣＮＮのトレーニングにおいて、行列積和演算及び行列累加演算は特定のモジュールによって実現され、複数の行列累加演算モジュールは、並行して演算を実行することができ、これにより、畳込み逆演算の計算効率を大幅に向上させることができ、計算速度及び消費電力を改善することができる。

図３Ａは、本開示のいくつかの実施例に係る深層学習処理装置の構成例を示している。この深層学習処理装置は、ＣＮＮの畳込み層における行列関連計算を実現する行列計算モジュール３０１を含む深層学習処理装置２２０であってもよい。行列計算モジュール３０１は、１つ又は複数の行列積和演算モジュール３１０－１、３１０－Ｎ…を含む（ただし、Ｎは１以上の整数であってもよい）。説明の便宜上、行列積和演算モジュール３１０－１、…３１０－Ｎを、行列積和演算モジュール３１０と総称する場合もあるし、個別に行列積和演算モジュール３１０と呼ぶ場合もある。１または複数の行列積和演算モジュール３１０は、ＣＮＮの畳込み層における畳込みカーネルパラメータ値行列と第１の誤差勾配値行列との行列積和演算を実現するように構成される。畳込み層の行列積和演算により、複数の中間行列が得られる。

行列計算モジュール３０１は、複数の行列累加演算モジュール３２０－１、……３２０－Ｍをさらに備える（ただし、Ｍは２以上の整数であってもよい）。説明の便宜上、行列累加演算モジュール３２０－１、…３２０－Ｍを行列累加演算モジュール３２０と総称する場合もあるし、個別に行列累加演算モジュール３２０と呼ぶ場合もある。これらの行列累加演算モジュール３２０は、畳込み層の畳込みスキームに従って並行して複数の中間行列に基づく行列累加演算を実行して、畳込み層に関する誤差勾配値行列を（「第２の誤差勾配値行列」ともいう）を得るように構成されている。

演算動作において、行列積和演算により生成された複数の中間行列は、深層学習処理装置２１０の記憶モジュール３３０に記憶される。記憶モジュール３３０は、例えば、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などのオンチップのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などのオンチップ記憶装置であってもよい。複数の中間行列が同時に生成されることはないため、行列積和演算モジュール３１０が対応する中間行列を生成するたびに、該中間行列は記憶モジュール３３０の対応する記憶位置に記憶される。いくつかの実施例において、行列積和演算モジュール３１０が複数存在する場合、複数の行列積和演算モジュール３１０は、並行的に畳込みカーネルパラメータ値行列と第１の誤差勾配値行列との行列積和演算を実行することができる。

いくつかの実施例において、行列計算モジュール３０１は、さらに行列計算モジュール３０１における各モジュールからの演算指令を受信するように構成される指令解析モジュール３４０を備えてもよい。このような指令セットは、例えば、ＣＮＮの畳込み層の畳込み方向演算動作に用いられる指令セットを含む、カスタマイズされた深層学習指令セットであってもよい。指令解析モジュール３４０は、例えば、深層学習処理装置２２０にカップリングされた汎用処理装置２１０から指令セットを取得することができる。指令解析モジュール３４０は、指令セットを深層学習処理装置２２０が実行可能な指令に解析することができる。

いくつかの実施例において、行列計算モジュール３０１は、さらに指令解析及び制御信号生成に関連するモジュールであってもよい。図３Ｂに示すように、行列計算モジュール３０１は、さらに制御信号生成モジュール３５０を備えてもよい。制御信号生成モジュール３５０は、解析された指令セットに基づいて少なくとも一つの行列積和演算モジュール３１０及び複数の行列累加演算モジュール３２０に対する制御信号を生成し、それにより少なくとも一つの行列積和演算モジュール３１０及び複数の行列累加演算モジュール３２０の対応する演算動作を制御する。図３Ｂの例では、制御信号生成モジュール３５０は、解析された指令セットに応じて、少なくとも１つの行列積和演算モジュール３１０及び複数の行列累加演算モジュール３２０に対する記憶モジュール３３０へのデータの読み書きを制御するための制御信号を読み書きするように構成される読み書き制御モジュール３５２を備える。制御信号生成モジュール３５０は、さらに、ループ制御モジュール３５４を備えてもよい。行列積和演算モジュール３１０により行列積和演算及び／又は行列累加演算モジュール３２０が行列積算を複数回繰り返す場合、ループ制御モジュール３５４は、解析された指令セットに基づいて、各行列積和演算モジュール３１０の行列積和演算及び／又は行列累加演算モジュール３２０の行列積算を制御するためのループ制御信号を生成する。

以上、図３Ａ～３Ｂを参照して、深層学習処理装置２２０における行列計算モジュール３０１のいくつかの実施例をまとめて説明した。いくつかの実施例において、深層学習処理装置２２０は、さらに、行列計算モジュール３０１と共にＣＮＮのトレーニングタスクを実現するために用いられる他のモジュールを備えてもよい。図３Ｃは、本開示のいくつかの実施形態に係る深層学習処理装置２２０の構成例を示している。図３Ｃに示すように、深層学習処理装置２２０は、行列計算モジュール３０１に加えて、さらに、データ読み書きモジュール３０２、データ変換モジュール３０３、ベクトル演算モジュール３０４、利用可能なプーリングモジュール３０５及び転置モジュール３０６を備える。行列計算モジュール３０１の他に、ベクトル演算モジュール３０４、利用可能なプーリングモジュール３０５、及び転置モジュール３０６は、何れも、記憶モジュール３３０にアクセスして処理対象のデータを読み出し、処理したデータを記憶モジュール３３０に書き込むことができる。したがって、記憶モジュール３３０は、共有記憶モジュール３３０と呼ばれる場合がある。

データ読み書きモジュール３０２は、深層学習処理装置２２０の外部の記憶装置／デバイス（オフチップ記憶装置／デバイスともいう）からＣＮＮのトレーニング処理に必要なデータを読み出し、記憶モジュール３３０に記憶するように構成される。データ変換モジュール３０３は、変換対象のデータを記憶モジュール３３０から読み出し、データ内の各要素の再整形（例えば、３次元以上の次元の行列から２次元の行列への変換、ベクトルへの変換）等のフォーマット変換を行う。変換したデータは、記憶モジュール３３０に再記憶される。

行列計算モジュール３０１は、ＣＮＮのトレーニングに係る行列計算を実行するように構成される。ベクトル演算モジュール３０４は、ＣＮＮのトレーニングに係るベクトル演算を実行するように構成されている。プーリングモジュール３０５は、ＣＮＮのプーリング層の関連動作を実行するように構成される。転置モジュール３０６は、ＣＮＮのトレーニングにおけるマトリクス転置動作を実行するように構成されている。いくつかの実施例において、プーリング層の関連動作及び転置動作は、対応する行列計算動作及びベクトル演算動作に変換することができ、それにより、行列計算モジュール３０１及びベクトル演算モジュール３０４により実行される。記憶モジュール３３０は、例えば、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のオンチップのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であってもよいし、その他のメモリであってもよい。行列計算モジュール３０１、ベクトル演算モジュール３０４、利用可能なプーリングモジュール３０５及び転置モジュール３０６は、何れも、記憶モジュール３３０にアクセスして処理対象のデータを読み出し、処理したデータを記憶モジュール３３０に書き込むことができる。したがって、記憶モジュール３３０は、共有記憶モジュール３３０と呼ばれる場合がある。

以下では、ＣＮＮの畳込み層による畳込み逆演算における行列計算モジュール３０１の行列積和演算モジュール３１０及び行列累加演算モジュール３２０による具体的な演算を分かり易くするために、図４を参照しながら、畳込み層の畳込み演算動作及び畳込み逆演算動作について簡単に説明する。

図４Ａは、畳込み層による畳込み演算動作を示している。畳込み演算は、ＣＮＮの順方向演算において行われる。ＣＮＮの１つの畳込み層について、前の層からの出力や、ＣＮＮの入力層からの出力を当該畳込み層の入力として処理する。畳込み層の入力は、通常、１つまたは複数の特徴マップ４１０を含み、各特徴マップを２次元マトリクスとして表すことができる。入力特徴マップ４１０の数は、入力チャネルの数（ｃ個のチャネルと想定する）である。

畳込み層は、畳込み操作を実現するために用いられる１つ又は複数の畳込みカーネル４２０を含む。畳込みカーネル４２０の数は、ＣＮＮ内で任意に設定することができる（畳込みカーネルの数を「ｋ」とすると想定する）。畳込みカーネル４２０のサイズは、ｃ*ｆ_ｈ*ｆ_ｗとし、ただし、ｃは、チャネル数を表し、ｆ_ｈ*ｆ_ｗは、畳込みカーネルの高さと幅を表す。即ち、それぞれの畳込みカーネル４２０は、ｃ*ｆ_ｈ*ｆ_ｗの畳込みカーネルパラメータ値行列として表すことができる。トレーニングの順方向処理において、畳込みカーネルパラメータ値行列は、トレーニングの現在段階で決定された値である。畳込み演算動作を実行する際に、各畳込みカーネル４２０は、畳込み層の入力特徴マップ４１０において、畳込み演算のスキームに従って移動し、例えば、特徴マップにおいて一定のペースで左から右へ、上から下へ移動することで、得られた要素に対して畳込み演算を実行し、最終的に畳込み層の出力特徴マップを得る。畳込み演算動作は、以下の式（１）により、表される。

ただし、Ｏ_ｈは、畳込み層の出力の高さを示し、Ｏ_Ｗは、畳込み層の出力の幅を示し、ｋは、畳込みカーネルの数を示す。式（１）によると、畳込み層の出力特徴マップのサイズは、ｋ*Ｏ_ｈ*Ｏ_Ｗであり、ｋ個の二次元行列Ｏ_ｈ*Ｏ_Ｗとして表すことができる。

畳込み演算は、毎回、入力特徴マップ４１０からｃ*ｆ_ｈ*ｆ_ｗの入力サブ行列（入力ウィンドウともいう）が抽出され、入力サブ行列には、ｋ個の畳込みカーネルの各畳込みカーネル４２０の畳込みカーネルパラメータ値行列（サイズはｃ*ｆ_ｈ*ｆ_ｗとなる）に乗算するための、ｋ個のｃ*ｆ_ｈ*ｆ_ｗの入力要素が含まれる。ｃ*ｆ_ｈ*ｆ_ｗ個の入力サブ行列とｃ*ｆ_ｈ*ｆ_ｗの畳込みカーネルパラメータ値行列との乗算は、入力要素のうちのｃ個のｆ_ｈ*ｆ_ｗの２次元行列と畳込みカーネルパラメータ値行列のうちのｃ個のｆ_ｈ*ｆ_ｗの２次元行列との行列乗算（もちろん、これら２つの３次元のサブ行列を他のサイズの２次元行列に変換してから行列乗算を実行するようにしてもよい）と表すことができる。

畳込み演算のスキームとして、畳込みカーネルが入力特徴マップ４１０においてＯ_ｈ*Ｏ_Ｗ個のウィンドウを抽出して畳込み演算を行うことが想定される。図４Ａには、ｃ個の入力特徴マップ４１０のうちの１つの特徴マップから抽出されたｃ*ｆ_ｈ*ｆ_ｗサイズの入力ウィンドウ４１２と、１つの畳込みカーネル４２０のｃ*ｆ_ｈ*ｆ_ｗサイズの畳込みカーネルパラメータ値行列とに対し、畳込み演算４３０を実行して、畳込み層の出力特徴マップのうちの１つの出力要素４４０を求めることが示されている。畳込みカーネル４２０が複数存在する場合、各畳込みカーネルは、同様の処理を行う。畳込み演算４３０は、行列積和演算であり、行列要素の乗算、累加に分解することができる。行列計算モジュール３０１は、行列積和演算モジュール３１０により畳込み演算を行うことができる。いくつかの実施例において、順方向畳込みにおいて、式（１）に示された畳込み層の畳込み演算を、対応する行列積和演算に分割し、行列積和演算モジュール３１０により実行するようにしてもよい。例えば、入力特徴マップ４１０におけるＯ_ｈ*Ｏ_Ｗ個の入力サブ行列と畳込みカーネルの畳込みカーネルパラメータ値行列との行列積和演算をＯ_ｈ次の計算に分解し、一回の計算により、畳込み層の出力特徴マップにおける１*Ｏ_Ｗ個の出力要素を得ることができる。

以上、積層膜の順方向畳込み演算について説明した。畳込み層による畳込み逆演算は、上述した畳込み演算の逆演算である。図４Ｂは、畳込み層による畳込み逆演算を示している。逆方向処理では、ＣＮＮ内の特定の畳込み層について、当該畳込み層の後段（ＣＮＮの順方向から見た後段、例え図１では、畳込み層２２０の後段が活性化層１３０である）の誤差勾配値行列（ここでは「第１の誤差勾配値行列」と呼ぶ）を算出する。第１の誤差勾配値行列のサイズは、畳込み層の出力特徴マップのサイズ、即ちｋ*Ｏ_ｈ*Ｏ_Ｗと同じである。畳込み逆演算は、第１の誤差勾配値行列と畳込み層の畳込みカーネルパラメータ値行列とに対し、畳込み逆演算（それは行列要素の乗算、累加に分解されてもよい）を実行して、複数の中間行列を得て、続いて複数の中間行列を、順に、畳込み層の入力特徴マップと対応する位置に重ねることで、現在の畳込み層に対する誤差勾配値行列（ここでは「第２の誤差勾配値行列」と呼ぶ）を得る。畳込み層の畳込みリバース動作は、以下の式（２）で表される。

ただし、Ｏ_ｈは、後段の層の第１の誤差勾配値行列の高さを表し、Ｏ_Ｗは、は、誤差勾配値行列の幅を表し、ｋは、誤差勾配値行列のチャネル数（すなわち、二次元行列Ｏ_ｈ*Ｏ_Ｗの数）を表す。式（２）によれば、各畳込みカーネルｃ*ｆ_ｈ*ｆ_ｗは、第１の誤差勾配値行列の中の対応する要素と乗算した後、ｋ個のチャネルの誤差勾配値の積を累加する必要がある。

畳込み逆演算では、１つの畳込みカーネル４２０に対して、毎回、第１の誤差勾配値行列から、ｃ*ｆ_ｈ*ｆ_ｗの畳込みカーネルパラメータ値行列と畳込み逆演算４６０を行うための１つの誤差勾配値４５０を抽出する。ｋ個の畳込みカーネル４２０について、畳込み逆演算４６０において、第１の誤差勾配値行列におけるｋ個のチャネルの誤差勾配と畳込みカーネルパラメータ値行列の積を累加して、中間行列４６２を得る。畳込み逆演算４６０は、行列積和演算モジュール３１０によって実現されてもよい。畳込み逆演算４６０は、行列積和演算の一種であると考えることもでき、行列要素の乗算、累加に分解することができる。

いくつかの実施例において、行列計算モジュール３０１は、複数の行列積和演算モジュール３１０を備える場合、畳込みカーネルパラメータ値行列と第１の誤差勾配値行列との行列積和演算を実行する際に、複数の行列積和演算モジュール３１０は、並行して行列積和演算を実行することができる。[Ｏ_ｈ*Ｏ_Ｗ,ｋ]*[ｋ,ｃ*ｆ_ｈ*ｆ_ｗ]の行列積和演算は、任意のサイズの２次元行列の行列積和演算に分解することができる。

行列積和演算を行った後、Ｏ_ｈ*Ｏ_Ｗ個のｃ*ｆ_ｈ*ｆ_ｗサイズの中間行列を含む複数の中間行列４６２を得ることを想定する。これらの中間行列は、畳込み逆演算の最終結果ではなく、畳込み層の畳込みスキームで累加を実行する必要がある。本発明の実施形態では、複数の中間行列の行列累加演算を複数の行列累加演算モジュール３２０が並行して実行する。具体的には、畳込み層の畳込みスキームは、畳込み層の入力特徴マップにおいて畳込みカーネルが入力ウィンドウを抽出する手法に依存するものであり、畳込みカーネルの移動方式（例えば、左から右、上から下）や、移動ペース（例えば、ウィンドウが１要素ずつ移動するか、または、一回に他の所定数の要素で移動するか）を含む。

図５は、複数の中間行列に対する累加演算の様子を示している。図５の例では、図示の便宜上、チャネル数ｃ＝１とする。図５は、複数の中間行列（ｆ_ｈ*ｆ_ｗサイズ）を第２の誤差勾配値行列に重ねることを示している。チャネル数が１よりも大きい場合には、チャネル毎に、Ｏ_ｈ*Ｏ_Ｗ個の２次元行列ｆ_ｈ*ｆ_ｗを重ねてチャネル行列を得ることができる。最後に得られたｃ個のチャネル行列を第２の誤差勾配値行列とする。

図５に示すように、行列積和演算モジュール３１０により第１の中間行列５１０が算出されると、第１の中間行列５１０が初期値を持つ第２の誤差勾配値行列５０２の一番目の位置（左上の角の位置）に累加される。中間行列５１０は、３×３個の要素からなる行列であるとすると、初期２次元行列５０２の左上の３×３個の要素のサブ行列に累加される。行列累加演算モジュール３２０による行列累加演算処理では、第２の誤差勾配値行列は、初期的には、すべてゼロの値をとり、記憶モジュール３３０の目標記憶位置に記憶される。行列累加演算モジュール３２０は、記憶モジュール３３０の目標記憶位置から第２の誤差勾配値行列５０２に累加される初期値を読み出し、中間行列５１０における各要素と第２の誤差勾配値行列５０２の初期値とを累加する。累加の結果は、記憶モジュール３３０の目標記憶位置に書き戻される。第２の誤差勾配値行列５０２の各要素は、記憶モジュール３３０での記憶位置は不変とされる。

第２の中間行列５２０は行列積和演算モジュール３１０により算出された場合、それは、行列累加演算モジュール３２０により第２の誤差勾配値行列の第２の位置に累加される。当該第２の位置は、第１の位置から、右一つの要素（畳込みカーネル４２０の歩幅を一つの要素と想定する）だけ右にシフトする位置である。中間行列５２０の一部の要素は、さらに、第２の誤差勾配値行列５０２において中間行列５１０に累加された一部の要素の要素と累加される一方、一部の要素は、第２の誤差勾配値行列の初期値（すなわち、ゼロ）と累加される。行列累加演算モジュール３２０は、記憶モジュール３３０から、第２の中間行列５２０に累加される要素を読み出すことができる。

第３の中間行列５３０は行列積和演算モジュール３１０により算出された場合、同様に、第２の誤差勾配値行列５０２の対応するサブ行列に累加される。中間行列５３０の各要素は、対応する位置の累加値または初期値に累加される。Ｏ_ｈ*Ｏ_Ｗ個のｆ_ｈ*ｆ_ｗサイズの中間行列を重ね合わせると、その重ね合わせた結果が最終的な第２の誤差勾配値行列となる。

本発明の実施例において、上記のように、行列積和演算モジュール３１０は中間行列を算出した後、中間行列における要素を再整形することなく、中間行列を記憶モジュール３３０に記憶することができ、即ち、中間行列は、行列積和演算モジュール３１０により生成された要素配列方式のまま記憶することができ、再整形又は他の表現方式に分割する必要はない。

幾つかの実施例において、行列累加演算モジュール３２０は、一回の行列累加に、1つの中間行列の累加を実行してもよく、複数の行列累加演算モジュール３２０は、並行して累加を実行してもよい。第２の誤差勾配値行列は、記憶モジュール３３０の特定の記憶位置に記憶されており、且つ、行列積和演算モジュール３１０により算出された中間行列は、記憶時に再整形する必要がないことで、行列累加演算モジュール３２０は、それぞれの中間行列が確定された時に、該中間行列と記憶モジュール３３０に記憶された第２の誤差勾配値行列の対応する行列要素の現在値を直接累加することができ、各中間行列を順次直列に累加する必要はない（ここでの順序は、畳込みカーネルの畳込みスキーム、即ち、畳込みカーネルの入力特徴マップにおける移動方式及びペースである）。例えば、図５の例では、第２の中間行列５２０が先に算出された場合、第１の中間行列５１０が累加されていなくても、第２の誤差勾配値行列５０２の対応する位置の初期値の要素に中間行列５２０が直接重なるようにする。

いくつかの実施例において、ループ制御モジュール３５４は、行列累加演算モジュール３２０の行列累加演算を制御するように構成され、これにより、複数の行列累加演算モジュール３２０が第２の誤差勾配値行列における同じ要素位置を同時に累加することを回避することができる。このように並行して行列累加を行うことにより、畳込み逆演算の演算速度をさらに向上させることができ、特に、行列積和演算モジュール３１０が複数存在し、これらの行列積和演算モジュール３１０が並行して行列積和演算を行う場合には、一部の行列積和演算モジュール３１０が中間行列をより高速に出力することが可能となる。

いくつかの実施例において、並行した行列累加において、畳込み層の入力が複数のチャネルを有する場合は、第２の誤差勾配値行列が、複数のチャネルに対する複数のチャネル行列（各チャネル行列は、一つの二次元行列であり、例えば、図５の一つの二次元行列５０２である）を含むことを意味し、複数の行列累加演算モジュール３２０は、複数のチャネルで並行して行列累加を実行するように構成されてもよい。複数の行列累加演算モジュール３２０は、複数のチャネルに対応する複数の並行経路を実現することができ、各並行経路に、行列累加演算を実行する行列累加演算モジュール３２０が１つ又は複数存在することができる。各並行経路上の行列累加演算モジュール３２０は、複数の中間行列のうち、複数のチャネルのうちの１つのチャネルに対応付けられた中間行列を累加することにより、当該チャネルのチャネル行列を得るように構成されている。

いくつかの実施例において、並行行列累加演算は、中間行列で実現でき、チャネルに分割することはしない。行列累加演算モジュール３２０は、毎回の累加時、複数のチャネル行列のうちの１つのチャネル行列の中間結果に、複数の中間行列のうちの１つの中間行列を累加するように構成されている。

いくつかの実施例において、行列計算モジュール３０１は、さらにキャッシュ領域（ここでは「第２のキャッシュ領域」と呼ぶこともある）を含むことができる。二つの行列の行列積和演算及び行列累加演算において、多くの中間演算結果が生成され、これらの中間演算結果は、後の演算において再び呼び出される。そのため、モジュール内のキャッシュ領域を設置することで、行列計算モジュール３０１と記憶モジュール３３０との間のデータ伝搬を効果的に低減させ、さらに、行列積和演算の演算速度を向上させ、消費電力を低減させる。図６は、このような実施例を示している。図６に示すように、行列計算モジュール３０１は、さらにキャッシュ領域６１０を含み、キャッシュ領域６１０は、少なくとも一つの行列積和演算モジュール３１０による行列積和演算において生成された中間演算結果（「第１の中間演算結果」と称する場合がある）、及び／又は複数の行列累加演算モジュール３２０による行列積算演算過程において生成された中間演算結果（「第２の中間演算結果」と称する場合がある）をキャッシュする。

行列積和演算モジュール３１０及び行列累加演算モジュール３２０による行列計算には、さらに、深層学習処理装置２２０のベクトル演算モジュール３０４のベクトル演算機能を利用するようにしてもよい。これにより、行列計算モジュール３１０において、係る機能に起因する複雑度の増加を回避することができる。また、ベクトル演算モジュール３０４は、図６に示すように、ベクトルレベルで行列計算モジュール３１０を補助して、キャッシュ領域６１０に対するゼロ化、データの読み書きをするように構成されていてもよい。

ある実施形態において、ベクトル演算モジュール３０４は、ベクトルレベルでキャッシュ領域６１０における行列積和演算モジュール３１０の中間演算結果及び／又は行列累加演算モジュール３２０の中間演算結果を記憶するために用いられる記憶領域をゼロにするように構成されてもよい。すなわち、ベクトル演算モジュール３０４は、中間演算結果に対応する記憶領域を行単位で０にしてもよいし、列単位で０にしてもよい。また、ベクトル演算モジュール３０４は、各行列累加演算モジュール３２０による行列累加演算の最終演算結果を、第２の誤差勾配値行列の少なくとも一部としてベクトルレベルで記憶モジュール３０４に選択的に書き込むように構成されていてもよい。これは、畳込み演算において、充填要素が増加する可能性がある問題を解決するためである。畳込み逆演算では、順方向に追加された充填要素を最終的な誤差勾配値行列の要素としないように削除する必要がある。ベクトル演算モジュール３０４は、よりよく、行列を行単位または列単位で、ベクトルレベルでフィルタリングすることができる。

ベクトル演算モジュール３０４の処理は、制御信号によって制御することができ、このような制御信号は、カスタマイズされた深層学習に関連する指令セットを解析することによって決定することができる。なお、他の実施例において、ベクトル演算モジュール３０４の機能によらず、行列計算モジュール３０１に対応する機能を配置して、キャッシュ領域のゼロ化とデータの選択的な書き込みを実現することができる。

いくつかの実施例において、行列累加演算モジュール３２０は、行列累加演算の実行時に記憶モジュール３３０を読み書きする必要があり、行列累加演算とデータ読み書きに一定の遅延があるため、「データハザード」の状況が発生する可能性がある。行列累加演算モジュール３２０は、データの累加を行う際に、複数の要素を順次累加し、累加の結果を記憶モジュール３３０の同一の記憶位置に記憶する必要がある場合がある。例えば、最終的に得られた第２の誤差勾配値行列の１つの要素は、２以上の中間行列の要素を累加した結果となる可能性がある。「データハザード」の場合とは、現在の２つの要素の累加を行うには、必ず、前の２つの要素の累加が完了するのを待たなければならないため、データ累加パイプラインが停止してしまう場合である。

いくつかの実施例において、行列累加演算モジュール３２０においてバイパスメカニズムを利用して「データハザード」問題を解決することが提案される。図７は、本開示の幾つかの実施例における行列累加演算モジュール３２０の構成例を示す図である。図７に示すように、行列累加演算モジュール３２０は、重ねられる行列の２つの要素の累加を行い、累加要素を得るように構成される累加部７１０を備える。累加部７１０は、例えば、浮動小数点数の累加部であってもよいし、その他の形式の累加部であってもよい。行列累加演算モジュール３２０は、さらに、累加部７１０により算出された累加要素を記憶モジュール３３０の対応する記憶位置に書き込むデータ書込部７２０を備える。また、行列累加演算モジュール３２０は、記憶モジュール３３０の各記憶位置から、次の要素との累加を継続するための累加要素を読み出すデータ読み出し部７４０を有する。

行列累加演算において、累加部７１０は、２つ以上の要素の累加を実行する必要があり、毎回の２つの要素の累加結果は、引き続き次の要素と累加し、全ての要素の累加が完了まで繰り返すようにする。累加される行列は、中間行列、又は、中間行列の中の第２の誤差勾配値行列に累加されるサブ行列である可能性があり、その行列要素が一般的に事前に計算されていた。しかし、データ書込部７２０から記憶モジュール３３０へのデータの読み書き、及び、累加部７１０の演算には、ある程度遅延があり、データ書込部７２０が、累加部７１０で算出された第１要素と第２要素とを累加した累加要素を記憶モジュール３３０に書き込んでいるところ、次に累加する第３要素が用意された場合がある。従来の解決手段では、データ書込部による累加要素の書込の完了を待つ必要があり、累加要素の書込の完了した後、データ読み出し部を活性化して、対応する記憶位置から該累加要素を読み出し、累加を実行する累加部に提供する。これは、「データハザード」という問題を引き起こし、大きな遅延を導入してしまう。

図７の例では、行列累加演算モジュール３２０は、累加部７１０で算出された累加要素を１つのキャッシュ領域７３２（「第１のキャッシュ領域」と称する場合がある）にキャッシュするバイパスモジュール７３０を備える。キャッシュ領域７３２の書き込み速度は、通常、記憶モジュール３３０の書き込み速度よりも大きい。「データハザード」が発生した場合、すなわち、累加部が第３の要素と前回の累加要素との累加を行う際に、記憶モジュール３３０の対応する記憶位置からまだ累加要素を読み出すことができないと判定された場合、バイパスモジュール７３０は、キャッシュ領域７３２にキャッシュされている累加要素を累加部７１０に供給するように構成されている。このように、累加部７１０は、第３の要素が使用可能な場合に、第３の要素と累加要素との更なる累加を迅速に行うことができる。また、「データハザード」が発生していないと判定された場合、すなわち、データ読み出し部７４０が記憶モジュール３３０から累加要素を即時に読み出すことができる場合には、バイパスモジュール７３０は、記憶モジュール３３０から読み出した累加要素を累加部７１０に供給して累加させてもよい。

キャッシュ領域７３２における累加要素のキャッシュされる時間は、深層学習処理装置２２０の複数のクロックサイクルであってもよい。キャッシュされる具体的な時間は、キャッシュ領域７３２のサイズ及び／又は「データハザード」を引き起こす可能性のある遅延長（すなわちキャッシュ時間は遅延長より大きくなる）に依存してもよい。この期間は、一般に、累加部７１０の演算レイテンシ、データ書込部７２０のデータ書込レイテンシ、データ読み出し部７４０のデータ読出時間に依存する。ある実施形態では、累加部７１０が第３の要素と累加要素との累加を行う際に記憶モジュール３３０から累加要素を読み出すことができないと判断することができるので、キャッシュ領域７３２内の累加要素を累加部７１０に入力してもよい。

以下、図８を参照して、本開示の実施形態のより詳細な説明を行う。図８は、本発明の実施形態に係る深層学習処理を実行する方法８００のフローチャートを模式的に示す図である。方法８００は、少なくとも一部が深層学習処理装置２２０により実現される。

８１０において、深層学習処理装置２２０は、少なくとも1つの行列積和演算モジュールにより、畳込みニューラルネットワーク（ＣＮＮ）における畳込み層の畳込みカーネルパラメータ値行列と第１の誤差勾配値行列との行列積和演算を実行して、複数の中間行列を得る。８２０において、深層学習処理装置２２０は、複数の中間行列の要素を再整形することなく、複数の中間行列を記憶する。８３０では、深層学習処理装置２２０は、記憶モジュールから複数の中間行列を読み出す。８４０では、深層学習処理装置２２０は、行列累加演算モジュールにより、前記畳込み層の畳込みスキームに従って並行して複数の中間行列に基づく行列累加演算を実行して、畳込み層に関する第２の誤差勾配値行列を得る。

幾つかの実施例において、複数の中間行列は、前記畳込み層の入力の複数のチャネルに関連付けられており、前記第２の誤差勾配値行列は、前記複数のチャネルに対応する複数のチャネル行列を有する。幾つかの実施例において、複数の行列累加演算モジュールが、畳込み層の畳込みスキームに従って並行して前記複数の中間行列に基づく行列累加演算を実行して、畳込み層に関する第２の誤差勾配値行列を得るステップは、複数の行列累加演算モジュールのそれぞれは、前記複数のチャネルに対応する複数の並行経路のうちの１つにおいて、複数の中間行列のうちの、複数のチャネルのうちの１つのチャネルに関連する中間行列を累加して、該チャネルに対応するチャネル行列を得ること、または、複数の行列累加演算モジュールのそれぞれは、毎回の累加時、複数の中間行列のうちの１つの中間行列を、前記複数のチャネル行列のうちの１つのチャネル行列についての中間結果に累加すること、のうちの少なくとも1つを含む。

幾つかの実施例において、複数の行列累加演算モジュールが、前記畳込み層の畳込みスキームに従って並行して前記複数の中間行列に基づく行列累加演算を実行して、前記畳込み層に関する第２の誤差勾配値行列を得るステップは、深層学習用処理装置の複数の行列累加演算モジュールが、第１の要素と前記第２の要素とを累加して累加要素を得ることと、累加要素を前記記憶モジュールに書き込むことと、累加要素を第１のキャッシュ領域にキャッシュすることであって、第１のキャッシュ領域は、前記記憶モジュールによりも書き込み速度が速くなり、前記累加要素は、前記第１のキャッシュ領域において複数のクロックサイクルキャッシュされる、ことと、累加部による前記第３の要素と前記累加要素との累加の実行時、前記記憶モジュールから前記累加要素を読み出すことができないと決定したことに応じて、第１のキャッシュ領域にキャッシュされた累加要素を第３の要素の累加のために供給することと、を実行することを含む。

いくつかの実施例において、深層学習処理装置２２０は、さらに少なくとも一つの行列積和演算モジュールによる行列積和演算において生成された第１の中間演算結果をキャッシュするとともに、複数の行列累加演算モジュールによる行列累加演算において生成された第２の中間演算結果をキャッシュする。

また、いくつかの実施形態では、深層学習処理装置２２０は、ベクトルレベルの上で、第２のキャッシュ領域における前記第１の中間演算結果及び前記第２の中間演算結果を記憶するための記憶領域をゼロ化する処理と、ベクトルレベルの上で、第２の誤差勾配値行列の少なくとも一部として、行列累加演算による最終演算結果を、選択的に記憶モジュールに書き込む処理と、の少なくとも一つの処理を実行する。

また、いくつかの実施形態では、深層学習処理装置２２０は、汎用処理装置から、ＣＮＮの前記畳込み層による畳込み方向操作に利用される指令セットを取得し、指令セットを解析し、解析された指令セットに基づいて、少なくとも１つの行列積和演算モジュール及び行列累加演算モジュールに対する制御信号を生成する。

いくつかの実施例において、少なくとも1つの行列積和演算モジュールは、複数の行列積和演算モジュールである、少なくとも１つの行列積和演算モジュールが、行列積和演算を実行させるステップは、複数の行列積和演算モジュールが、行列積和演算を並行して実行することを含む。

図９は、本開示の一実施形態に係るコンピューティングデバイス９００の概略構成を示すブロック図である。同図に示すように、デバイス９００は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２に記憶されているコンピュータプログラムの指示、または記憶部９０８からＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３にロードされたコンピュータプログラムの指示に従って、各種の動作および処理を実行する処理装置９０１を備える。処理装置９０１は、本発明に記載の１または複数の深層学習処理装置２２０を備えることができる。また、処理装置９０１は、１または複数の汎用処理装置２１０をさらに備えていてもよい。

また、ＲＡＭ９０３には、コンピューティングデバイス９００の動作に必要な各種プログラムやデータが記憶されている。処理装置９０１、ＲＯＭ９０２、およびＲＡＭ９０３は、バス９０４を介して相互に接続されている。バス９０４には、さらに、入出力インタフェース９０５が接続されている。

入出力インタフェース９０５には、キーボード、マウスなどよりなる入力部９０６、各種のディスプレイ、スピーカなどよりなる出力部９０７、磁気ディスク、光ディスクなどよりなる記憶部９０８、ネットワークカード、モデム、無線通信送受信機などよりなる通信部９０９が接続されている。通信部９０９は、インターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置との間で情報やデータのやり取りを行う。

処理装置９０１は、処理や演算機能を有する汎用的及び／又は専用の様々な処理コンポーネントであってよい。処理装置９０１の例としては、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用のＡＩ（ＡｓｙｍｍｅｔｒｉｃＩｎｔｅｌｌｉｔｅ）演算チップ、各種動作機械学習モデルアルゴリズムの演算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、および、プロセッサ、コントローラ、マイクロコントローラなどが挙げられるが、上記に限定されるものではない。処理装置９０１は、上述した各方法、処理、例えば、方法８００を実行する。例えば、実施の形態において、方法８００は、記憶部９０８等の機械可読媒体に格納されたコンピュータソフトウェアとして実現されてもよい。また、コンピュータプログラムの一部または全部を、ＲＯＭ９０２や通信部９０９を介して、装置９００にロードしたり、装置９００にインストールしたりすることも可能である。なお、上述した方法８００の各ステップは、コンピュータプログラムがＲＡＭ９０３にロードされて処理装置９０１により実行されることにより、１または複数実行されるようにしてもよい。また、他の実施の形態において、処理装置９０１は、ファームウェアを利用するなど、任意の適切な形態で実行方法８００として構成することができる。

なお、上述した各機能の少なくとも一部は、１または複数のハードウェアロジックによって実現されてもよい。例えば、限定的ではなく、使用可能な例示的なハードウェアロジック部品は以下を含む。フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、オンチップシステムのシステム（ＳＯＣ）、負荷プログラマブルロジックデバイス（ＣＰＬＤ）など。

本発明の方法を実施するためのプログラムコードは、１または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードを汎用コンピュータや専用コンピュータ等のプログラマブルデータ処理装置のプロセッサやコントローラに供給し、プロセッサやコントローラで実行することにより、フローチャート及び／又はブロック図で規定された機能・動作を実現することができる。また、プログラムコードは、機械上で完全に実行されるものであってもよいし、機械上で部分的に実行されるものであってもよいし、リモートマシン上で部分的に実行されるものであってもよいし、リモートマシンまたはサーバ上で完全に実行されるものであってもよい。

本発明において、機械可読媒体は、指令実行システム、装置又は装置が使用する、又は指令実行システム、装置又は装置と組み合わせて使用するプログラムを含む、又は記憶した有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体であってもよいし、機械可読記憶媒体であってもよい。機械可読媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、装置、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されるものではない。機械的に読み取り可能な記憶媒体のより具体的な例としては、１又は複数のラインに基づく電気的接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去及び書換可能なリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、携帯可能なＣＤ－ＲＯＭ、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせが挙げられる。

また、各動作は、ある順序で描画されているが、図示した順序、順序で実行されてもよいし、所望の結果が得られるように、全ての動作が実行されてもよい。ある環境において、マルチタスク及び並行処理が有利であると考えられる。同様に、上記においていくつかの具体的な実現詳細が含まれるが、これらは本開示の範囲を限定するものと解釈されるべきではない。また、各実施の形態の中で説明されている特徴のうち、一部の特徴を組み合わせて１つの実施の形態としてもよい。逆に、１つの実装形態で記述された様々な特徴は、単独でもよいし、任意の適切なサブコンビネーションで複数の実装形態で実装されてもよい。

以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。逆に、上述した特定の特徴や作用は、あくまでも特許請求の範囲を実現するための例示的なものに過ぎない。

Claims

深層学習処理装置であって、
畳込みニューラルネットワーク（ＣＮＮ）における畳込み層の畳込みカーネルパラメータ値行列と第１の誤差勾配値行列との行列積和演算を実行して、複数の中間行列を得るように構成される、少なくとも一つの行列積和演算モジュールと、
前記複数の中間行列の要素を再整形することなく、前記複数の中間行列を記憶するように構成される、記憶モジュールと、
前記記憶モジュールから前記複数の中間行列を読み出し、前記畳込み層の畳込みスキームに従って並行して前記複数の中間行列に基づく行列累加演算を実行して、前記畳込み層に関する第２の誤差勾配値行列を得るように構成される、複数の行列累加演算モジュールと、を備え、
前記複数の行列累加演算モジュールのうちの少なくとも一つは、
累加される行列における第１の要素と第２の要素とを入力として、前記第１の要素と前記第２の要素とを累加して累加要素を得るように構成される、累加部と、
前記累加要素を前記記憶モジュールに書き込むように構成される、データ書込部と、
前記累加要素をキャッシュするように構成される第１のキャッシュ領域であって、前記記憶モジュールによりも書き込み速度が速くなり、前記累加要素は、前記第１のキャッシュ領域において複数のクロックサイクルキャッシュされる、第１のキャッシュ領域と、
前記累加部による第３の要素と前記累加要素との累加の実行時、前記記憶モジュールから前記累加要素を読み出すことができないと決定したことに応じて、前記第１のキャッシュ領域にキャッシュされた前記累加要素を前記累加部に供給するバイパスモジュールと、
を備える、深層学習処理装置。
前記複数の中間行列は、前記畳込み層の入力の複数のチャネルに関連付けられており、前記第２の誤差勾配値行列は、前記複数のチャネルに対応する複数のチャネル行列を有し、
前記複数の行列累加演算モジュールのそれぞれは、
前記複数のチャネルに対応する複数の並行経路のうちの１つにおいて、前記複数の中間行列のうちの、前記複数のチャネルのうちの１つのチャネルに関連する中間行列を累加して、該チャネルに対応する前記チャネル行列を得る、或いは、
毎回の累加時、前記複数の中間行列のうちの１つの中間行列を、前記複数のチャネル行列のうちの１つのチャネル行列についての中間結果に累加する、ように構成される、
請求項１に記載の深層学習処理装置。
前記記憶モジュールは、前記第２の誤差勾配値行列を目標記憶位置に記憶するように配置され、前記第２の誤差勾配値行列は、前記行列累加演算の実行前にすべてゼロの初期値を持ち、
前記複数の行列累加演算モジュールは、並行して、前記複数の中間行列と前記目標記憶位置に記憶された前記初期値を持つ前記第２の誤差勾配値行列とを累加するように構成されている、
請求項１に記載の深層学習処理装置。
前記記憶モジュールは、オンチップのランダムアクセスメモリを備える、
請求項１記載の深層学習処理装置。
前記少なくとも一つの行列積和演算モジュールによる前記行列積和演算において生成された第１の中間演算結果をキャッシュするとともに、前記複数の行列累加演算モジュールによる前記行列累加演算において生成された第２の中間演算結果をキャッシュするように構成される、第２のキャッシュ領域を更に備える、請求項１に記載の深層学習処理装置。
ベクトル演算モジュールをさらに備え、
前記ベクトル演算モジュールは、
ベクトルレベルの上で、前記第２のキャッシュ領域における前記第１の中間演算結果及び前記第２の中間演算結果を記憶するための記憶領域をゼロ化する処理と、
ベクトルレベルの上で、前記第２の誤差勾配値行列の少なくとも一部として、前記行列累加演算による最終演算結果を、選択的に記憶モジュールに書き込む処理と、
の少なくとも一つの処理を実行するように構成される、
請求項５に記載の深層学習処理装置。
汎用処理装置から、前記ＣＮＮの前記畳込み層による畳込み逆演算に利用される指令セットを取得し、前記指令セットを解析するように構成される指令処理モジュールと、
解析された前記指令セットに基づいて、前記少なくとも１つの行列積和演算モジュール及び前記行列累加演算モジュールに対する制御信号を生成するように構成される制御信号生成モジュールと、
をさらに備える、請求項１乃至６のいずれか１項に記載の深層学習処理装置。
前記少なくとも1つの行列積和演算モジュールは、前記行列積和演算を並行して実行する複数の行列積和演算モジュールである、
請求項１乃至６のいずれか１項に記載の深層学習処理装置。
深層学習用処理を実行する方法であって、
深層学習用処理装置の少なくとも1つの行列積和演算モジュールが、畳込みニューラルネットワーク（ＣＮＮ）における畳込み層の畳込みカーネルパラメータ値行列と第１の誤差勾配値行列との行列積和演算を実行して、複数の中間行列を得るステップと、
前記複数の中間行列の要素を再整形することなく、前記複数の中間行列を記憶するステップと、
記憶モジュールから前記複数の中間行列を読み出すステップと、
深層学習用処理装置の複数の行列累加演算モジュールが、前記畳込み層の畳込みスキームに従って並行して前記複数の中間行列に基づく行列累加演算を実行して、前記畳込み層に関する第２の誤差勾配値行列を得るステップと、を含み、
深層学習用処理装置の複数の行列累加演算モジュールが、前記畳込み層の畳込みスキームに従って並行して前記複数の中間行列に基づく行列累加演算を実行して、前記畳込み層に関する第２の誤差勾配値行列を得るステップは、
深層学習用処理装置の複数の行列累加演算モジュールが、
累加される行列における第１の要素と第２の要素とを累加して累加要素を得ることと、
前記累加要素を前記記憶モジュールに書き込むことと、
前記累加要素を第１のキャッシュ領域にキャッシュすることであって、前記第１のキャッシュ領域は、前記記憶モジュールによりも書き込み速度が速くなり、前記累加要素は、前記第１のキャッシュ領域において複数のクロックサイクルキャッシュされる、ことと、
第３の要素と前記累加要素との累加の実行時、前記記憶モジュールから前記累加要素を読み出すことができないと決定したことに応じて、前記第１のキャッシュ領域にキャッシュされた前記累加要素を前記第３の要素の累加のために供給することと、
を実行することを含む、方法。
前記複数の中間行列は、前記畳込み層の入力の複数のチャネルに関連付けられており、前記第２の誤差勾配値行列は、前記複数のチャネルに対応する複数のチャネル行列を有し、
深層学習用処理装置の複数の行列累加演算モジュールが、前記畳込み層の畳込みスキームに従って並行して前記複数の中間行列に基づく行列累加演算を実行して、前記畳込み層に関する第２の誤差勾配値行列を得るステップは、
前記複数の行列累加演算モジュールのそれぞれは、前記複数のチャネルに対応する複数の並行経路のうちの１つにおいて、前記複数の中間行列のうちの、前記複数のチャネルのうちの１つのチャネルに関連する中間行列を累加して、該チャネルに対応する前記チャネル行列を得ること、または、
前記複数の行列累加演算モジュールのそれぞれは、毎回の累加時、前記複数の中間行列のうちの１つの中間行列を、前記複数のチャネル行列のうちの１つのチャネル行列についての中間結果に累加すること、
のうちの少なくとも1つを含む、
請求項９に記載の方法。
前記少なくとも一つの行列積和演算モジュールによる前記行列積和演算において生成された第１の中間演算結果をキャッシュするとともに、前記複数の行列累加演算モジュールによる前記行列累加演算において生成された第２の中間演算結果を第２のキャッシュ領域にキャッシュするステップを更に含む、請求項９に記載の方法。
前記深層学習用処理装置が、
ベクトルレベルの上で、前記第２のキャッシュ領域における前記第１の中間演算結果及び前記第２の中間演算結果を記憶するための記憶領域をゼロ化する処理と、
ベクトルレベルの上で、前記第２の誤差勾配値行列の少なくとも一部として、前記行列累加演算による最終演算結果を、選択的に記憶モジュールに書き込む処理と、の少なくとも一つの処理を実行する、ことを含む、請求項１１に記載の方法。
汎用処理装置から、前記ＣＮＮの前記畳込み層による畳込み逆演算に利用される指令セットを取得し、前記指令セットを解析するステップと、
解析された前記指令セットに基づいて、前記少なくとも１つの行列積和演算モジュール及び前記行列累加演算モジュールに対する制御信号を生成するステップと、
をさらに含む、請求項９乃至１２のいずれか一項に記載の方法。
前記少なくとも1つの行列積和演算モジュールは、複数の行列積和演算モジュールである、
前記少なくとも１つの行列積和演算モジュールが、前記行列積和演算を実行させるステップは、
前記複数の行列積和演算モジュールが、前記行列積和演算を並行して実行することを含む、
請求項９乃至１２のいずれか一項に記載の方法。
電子デバイスであって、
少なくとも１つの請求項１乃至８のいずれか１項に記載の深層学習処理装置と、
少なくとも1つの前記深層学習処理装置とカップリングされ、前記畳込みニューラルネットワークＣＮＮのトレーニングを実行するための指令を前記深層学習処理装置に提供する汎用処理装置と、
を備える、電子デバイス。
コンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項９～１４のいずれか１項に記載の方法を実現させるコンピュータ読み取り可能な記録媒体。
プロセッサにより実行されると、請求項９～１４のいずれか１項に記載の方法を実現させるコンピュータプログラム。