JP7062617B2

JP7062617B2 - 演算装置および演算方法

Info

Publication number: JP7062617B2
Application number: JP2019118757A
Authority: JP
Inventors: 耕一郎坂
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2022-05-06
Anticipated expiration: 2039-06-26
Also published as: US11423291B2; JP2021005227A; US20200410331A1

Description

本発明の実施形態は、演算装置および演算方法に関する。

ニューラルネットワークの演算に含まれる畳み込み処理と行列演算処理とを同じ演算装置で実行する技術が知られている。例えば、演算処理装置に含まれる畳込演算制御部および全結合演算制御部の処理を複数の入力スイッチおよび出力スイッチにより切り替える技術が提案されている。

特許第６３８７９１３号公報

NVDLA Unit Description (Fig.54)、 [online]、 retrieved from the Internet: <URL:http://nvdla.org/hw/v1/ias/unit_description.html>

しかしながら、従来技術では、特定の畳み込み処理および行列演算処理において処理速度が低下するという問題があった。例えば従来技術では、フィルタの形状が１×１である場合、および、Ｄｅｃｏｎｖｏｌｕｔｉｏｎなどの特定の処理では、演算処理装置内部の積和演算器の動作率が低下し、処理速度が低下するという問題があった。

実施形態の演算装置は、記憶部と制御部と演算部とを備える。記憶部は、Ｐ次元（Ｐは２以上の整数）の入力ベクトル、Ｐ×Ｎ次元（Ｎは２以上の整数）の行列、Ｎ次元の中間値ベクトル、および、Ｎ次元の出力ベクトルを記憶し、入力ベクトル、行列、中間値ベクトルの読み出し処理、および、出力ベクトルの書き込み処理のうち、少なくとも２つの処理を並行して実行可能である。制御部は、Ｄ次元（Ｄは３以上の整数）の処理ループを含む演算処理の中での、第１入力ベクトル、第１行列、および、第１中間値ベクトルの読み出しタイミングと、第１出力ベクトルの書き込みタイミングと、を設定する。演算部は、第１入力ベクトルと第１行列との積を演算し、第１中間値ベクトルと積との和を演算し、和を第１出力ベクトルとして記憶部に記憶させる。

実施形態の演算装置のブロック図。記憶部のブロック図。行列演算部の詳細な構成を示すブロック図。行列演算部に設定されるパラメータの構成例を示す図。行列演算部で実行される行列演算処理のフローチャート。第１処理から第８処理の例を示す図。第１処理から第８処理に対する処理の割り当てパターンを示す図。ＷＳに相当する演算処理の疑似プログラミングコードの一例を示す図。ＯＳ１に相当する演算処理の疑似プログラミングコードの一例を示す図。ＯＳ２に相当する演算処理の疑似プログラミングコードの一例を示す図。疑似プログラミングコードで用いられる変数および関数の定義を示す図。行列演算処理の他の例を示すフローチャート。行列演算処理の他の例を示すフローチャート。ＷＳに相当する演算処理の疑似プログラミングコードの一例を示す図。行列演算部による２次元の畳み込み処理のフローチャート。フィルタの処理順序の例を示した図。図１４のステップＳ４０２での処理の例を説明する図。図１４のステップＳ４０３での処理の例を説明する図。畳み込み処理と非線形演算を合わせて実行する場合のフローチャート。ＯＳ１での畳み込み処理の計算例を示す図。ＯＳ２での畳み込み処理の計算例を示す図。ＯＳ２での全結合層処理を説明する図。共有メモリの構成例を示す図。２ポートメモリを１ポートメモリで実現する構成例を示す図。中間メモリの構成例を示す図。共有メモリのアドレスの割り当ての構成例を示す図。共有メモリのアドレスの割り当ての他の構成例を示す図。５次元処理ループを用いる行列演算処理の一例を示すフローチャート。５次元処理ループを用いる行列演算処理の他の例を示すフローチャート。パラメータの例を示す図。処理の割り当てパターンの例を示す図。ＯＳ１での畳み込み処理の計算例を示す図。畳み込み処理の分割例を示す図。

以下に添付図面を参照して、この発明にかかる演算装置の好適な実施形態を詳細に説明する。

本実施形態の演算装置は、データを記憶する記憶部と、記憶部内のデータ転送を行うＤＭＡ（Direct Memory Access）部と、演算処理を行う行列演算部と、ＤＭＡ部および行列演算部に対してパラメータの設定および処理命令を行う制御部とを用いて、パラメータにより制御可能なＤ次元（Ｄは３以上の整数）のループ処理を行う。これにより、ニューラルネットワークなどで実行される演算処理を高効率（低消費電力、高速）に実行することができる。

Ｄ次元のループ（処理ループ）とは、繰り返し処理がＤ回入れ子（ネスト）となった処理である。例えば３次元の処理ループは、３重の多重ループ（３重ループ）であると言い換えることもできる。以下では、主に３次元（Ｄ＝３）の処理ループを用いる例を説明し、変形例として５次元（Ｄ＝５）の処理ループを用いる例を説明する。

また、以下では、Ｄ次元の処理ループの各次元それぞれでインクリメントされるカウンタの変化する方向を各座標軸とした座標を用いて、各カウンタの値を表現する場合がある。例えば座標（ｘ，ｙ，ｚ）は、３次元の処理ループの各次元それぞれでインクリメントされるカウンタをｘ、ｙ、ｚとし、ｘ、ｙ、ｚそれぞれの変化する方向をｘ軸（ｘ方向）、ｙ軸（ｙ方向）、ｚ軸（ｚ方向）としたときの座標を意味する。

図１は、本実施形態の演算装置１００の構成例を示すブロック図である。演算装置１００は、例えばＣＮＮ（Convolutional Neural Network）およびＲＮＮ（Recurrent Neural Network）などのニューラルネットワークの演算を行う装置であるが、これに限られるものではない。演算装置１００は、行列演算を含む演算処理を行う他の装置として実現されてもよい。

図１に示すように、演算装置１００は、記憶部６００と、ＤＭＡ部３００と、行列演算部４００（演算部の一例）と、制御部２００と、を備えている。

記憶部６００は、演算で用いられる各種データを記憶する。記憶部６００は、フラッシュメモリ、および、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

図２は、記憶部６００の構成例を示すブロック図である。記憶部６００は、共有メモリ６０１、中間メモリ６０２、および、命令メモリ６０３を有する。共有メモリ６０１、中間メモリ６０２、および、命令メモリ６０３のうち２つ以上のメモリは、物理的に同じメモリの中の異なるアドレス空間を割り当ててもよい。

命令メモリ６０３は、制御部２００の各機能を実現するプログラムコードを記憶する。制御部２００は、命令メモリ６０３に記憶されたプログラムコードを読み出し、読み出したプログラムコードに従って、行列演算部４００およびＤＭＡ部３００に対するパラメータ設定および処理命令を行う。共有メモリ６０１は、ＳＲＣベクトルおよび重み行列を記憶する。中間メモリ６０２は、ＤＳＴベクトル（ＯＵＴベクトル）を記憶する。

ＳＲＣベクトルは、演算の対象として行列演算部４００に入力されるベクトル形式のデータである（入力ベクトルの一例）。重み行列は、ＳＲＣベクトルに対して乗じられるデータとして行列演算部４００に入力される行列形式のデータである。ＤＳＴベクトルは、行列演算部４００による演算の結果を示すベクトル形式のデータである（中間値ベクトルの一例）。ＤＳＴベクトルは、次の処理ループの演算の結果に対する加算処理（和の演算）に用いられる場合がある。このため中間メモリ６０２がＤＳＴベクトルを記憶する。ＤＳＴベクトルは、最終的な演算結果として出力される場合がある。最終的な演算結果として出力されるＤＳＴベクトルをＯＵＴベクトル（出力ベクトルの一例）という場合がある。

図１に戻り、ＤＭＡ部３００は、記憶部６００内の各メモリ間のデータ転送を行う。例えばＤＭＡ部３００は、共有メモリ６０１から中間メモリ６０２へのデータ移動、および、中間メモリ６０２から共有メモリ６０１へのデータ移動を制御する。

行列演算部４００は、制御部２００からの処理命令に従い演算処理を実行する。制御部２００は、ＤＭＡ部３００および行列演算部４００に対して、パラメータの設定および処理命令を行う。例えば制御部２００は、Ｄ次元の処理ループを含む演算処理の中での、記憶部６００から読み出す各データ（ＳＲＣベクトル（第１入力ベクトル）、重み行列（第１行列）、および、ＤＳＴ（第１中間値ベクトル））のアドレス、各データの読み出しタイミング、記憶部６００に書き込むデータ（ＯＵＴベクトル（第１出力ベクトル））のアドレス、および、書き込むデータの書き込みタイミングを、パラメータの設定および処理命令により制御する。

例えば行列演算部４００は、制御部２００によって設定された読み出しタイミングに従って記憶部６００から読み出されたＳＲＣベクトルと重み行列との積を演算し、設定された読み出しタイミングに従って記憶部６００から読み出されたＤＳＴベクトルと演算により得られた積との和を演算し、演算した和をＯＵＴベクトルとして、設定された書き込みタイミングで記憶部６００に記憶させる。行列演算部４００および制御部２００の機能の詳細は後述する。

図１に示すように、制御部２００およびＤＭＡ部３００は、外部バスを経由して外部の機器およびメモリと接続されてもよい。

制御部２００は、例えば、ＤＭＡ部３００および行列演算部４００に対する専用の命令セットを備えるセントラルプロセッサユニット（ＣＰＵ）として実現できる。ＤＭＡ部３００および行列演算部４００は、それぞれ独立の、または、一体化したハードウェア回路などにより実現できる。制御部２００、ＤＭＡ部３００、および、行列演算部４００の一部または全部を、物理的に一体化したハードウェア回路により実現してもよい。

図３は、行列演算部４００の詳細な構成の一例を示すブロック図である。行列演算部４００は、制御部２００からのパラメータ設定および処理命令２０１に従って処理を行う。行列演算部４００は、メモリ制御部４０１と、行列積演算部４０２と、累積加算部４０３と、非線形演算部４０４と、累積レジスタ４１１と、レジスタ４１２と、を備えている。

メモリ制御部４０１は、記憶部６００からのデータの読み出し、および、記憶部６００に対するデータの書き込みを制御する。行列積演算部４０２は、記憶部６００から読み出された重み行列１１とＳＲＣベクトル１２との行列積を計算する。累積加算部４０３は、行列積演算部４０２による演算結果である出力ベクトルと、記憶部６００から読み出されたＤＳＴベクトル１３、または、累積レジスタ４１１に記憶されたベクトルとの加算を行う。

非線形演算部４０４は、累積加算部４０３による演算結果である出力ベクトルに対して非線形演算を適用し、演算結果である出力ベクトルをＯＵＴベクトル１４として記憶部６００に書き込む。非線形演算は、例えば、活性化関数を適用した演算、および、量子化などの演算であり、複数の処理をパイプライン化した演算でもよい。また、パラメータ設定を用いて複数の非線形演算を切り替える機能を有していてもよい。

累積レジスタ４１１は、累積加算部４０３による演算（加算）に用いるデータを記憶するレジスタである。累積レジスタ４１１には、累積する値の初期値（例えばゼロ）、または、記憶部６００から読み出された値などが設定される。

累積レジスタ４１１に記憶（代入）する値は、事前の最適化処理によってバッチ正規化処理を畳み込み処理に吸収した場合のバイアス値（畳み込み処理に吸収できない値に相当する）、および、行列演算部４００による演算結果に他の演算の演算結果を加算する場合の他の演算の演算結果などであってもよい。

レジスタ４１２は、ＤＭＡ部３００および行列演算部４００に対して設定するパラメータを記憶するためのレジスタである。レジスタ４１２に記憶されるパラメータの詳細は後述する。

累積レジスタ４１１およびレジスタ４１２は、行列演算部４００の外部に備えられてもよい。また、累積レジスタ４１１およびレジスタ４１２の一部または全部の代わりに、記憶部６００などの他の記憶装置を用いるように構成してもよい。

以上のような構成により、行列演算部４００は、制御部２００からのパラメータ設定および処理命令のオペランドに従って、様々な畳み込み処理および全結合層処理（ニューラルネットワークの全結合層の処理に相当）を実行することが可能となる。以下、行列演算部４００および制御部２００の機能の詳細について説明する。

ＳＲＣベクトルのサイズが１×Ｐ（Ｐ次元のベクトル）であり、重み行列のサイズがＰ×Ｎであるとすれば、ＤＳＴベクトルおよびＯＵＴベクトルのサイズは１×Ｎ（Ｎ次元のベクトル）となる。Ｐは、２以上の整数であり、例えば、共有メモリ６０１の記憶単位（ワード）のサイズに応じて決定される。また、Ｎは、２以上の整数であり、例えば、中間メモリ６０２の記憶単位のサイズに応じて決定される。

例えば、ＳＲＣベクトルは、特徴マップの一部分である（横幅，縦幅，チャネル数）＝（１，１，Ｐ）の要素に相当するベクトルである。特徴マップは、例えば、ＣＮＮの各畳み込み層による処理の入力となるデータである。例えば、２次元の画像データ（横方向および縦方向の画素ごとにＲＧＢの各チャネルの画素値を含むデータなど）、および、２次元の画像データを前段の畳み込み層で演算した結果であるデータが、特徴マップになりうる。

特徴マップのサイズ（横幅，縦幅，チャネル数）＝（Ｘ，Ｙ，Ｚ×Ｐ）は、例えば、（７，７，４×Ｐ）である。特徴マップのうち、横幅＝１、縦幅＝１、チャネル数＝Ｐの部分を取り出した情報は、Ｐ次元のベクトルとなる。ＳＲＣベクトルは、例えばこのような特徴マップの一部分の要素に相当するベクトルである。以下では、特徴マップのサイズの表現である（横幅，縦幅，チャネル数）に対応させて、ベクトルのサイズも（横幅，縦幅，チャネル数）＝（１，１，Ｐ）などと表現する場合がある。

Ｘ，Ｙ，Ｚは、それぞれｘ方向、ｙ方向、ｚ方向の処理サイズと解釈することができる。処理サイズは、例えば各次元の処理ループのカウンタの最大値に相当する。例えば、特徴マップの横方向および縦方向には１要素単位で処理が行われる。従って、ｘ方向およびｙ方向の処理サイズは、特徴マップの横幅および縦幅（上記例では、それぞれ７）と一致する。チャネル方向では、例えばＰ次元のＳＲＣベクトルが処理単位となるため、チャネル方向の処理サイズＺはチャネル数／Ｐ＝４となる。

重み行列は、例えば畳み込みフィルタの一部分を抽出して並べることにより得られるＰ×Ｎ次元の行列である。言い換えると、重み行列は、入力チャネル数がＰ、出力チャネル数がＮの行列である。特徴マップのサイズの表現に対応させると、重み行列は、（横幅，縦幅，入力チャネル数，出力チャネル数）＝（１，１，Ｐ，Ｎ）の行列であると解釈することもできる。

ＤＳＴベクトルは、Ｎ次元のベクトル、言い換えると、チャネル数がＮのベクトルである。特徴マップのサイズの表現に対応させると、ＤＳＴベクトルは、（横幅，縦幅，チャネル数）＝（１，１，Ｎ）のベクトルであると解釈することもできる。

行列演算部４００は、１回の処理命令に対して以下のような演算を行うと解釈することができる。それぞれのベクトルおよび行列の読み書きのタイミング、並びに、非線形関数（非線形演算）の適用の有無は、パラメータで制御される。
ＯＵＴベクトル＝非線形関数（ＳＲＣベクトル×重み行列＋ＤＳＴベクトル）

図４は、行列演算部４００に設定されるパラメータの構成例を示す図である。パラメータは、レジスタ４１２に設定するパラメータ、および、処理命令のオペランドに設定するパラメータに分類することができる。図４に示す分類方法は一例であり、他のどのような分類方法を適用してもよい。例えば、すべてのパラメータがレジスタ４１２に設定されてもよいし、すべてのパラメータがオペランドとして設定されてもよい。

パラメータによって、処理するデータのアドレスの範囲、データの処理順序、処理を行うタイミングなどを制御することができる。すなわち、行列演算部４００は、図４に示すパラメータに従う１回の処理命令で、１回の行列積を計算するのみでなく、指定された範囲のデータを用いた１回以上の積和演算を行うことができる。

図４の定義を用いると、３次元の処理ループでの座標（ｘ，ｙ，ｚ）における重み行列の読み出しアドレス（wadr）、ＳＲＣベクトルの読み出しアドレス（sadr）、および、ＤＳＴベクトルの読み出しアドレス（dadr）は、それぞれ例えば以下の式（１）、式（２）および式（３）ように書くことができる。ここでは、ＤＳＴベクトルの読み出しアドレス＝ＯＵＴベクトルの書き込みアドレスとしているが、両者を独立して定義してもよい。
wadr＝wadr0＋wadr_offset＋xΔwx＋yΔwy＋zΔwz ・・・（１）
sadr＝sadr0＋sadr_offset＋xΔsx＋yΔsy＋zΔsz ・・・（２）
dadr＝dadr0＋dadr_offset＋xΔdx＋yΔdy＋zΔdz ・・・（３）

図５は、１回の処理命令に対して行列演算部４００で実行される行列演算処理の一例を示すフローチャートである。図５に示すように、行列演算処理は、ｘ方向、ｙ方向、ｚ方向に相当する３重のループ処理になっている。例えば、ｘ方向、ｙ方向、および、ｚ方向は、それぞれ特徴マップの横方向、縦方向、および、チャネル方向に対応する。

行列演算部４００は、制御部２００からの処理命令に従い、行列演算処理を開始する。第１処理から第８処理（ステップＳ１０１、ステップＳ１０３、ステップＳ１０５、ステップＳ１０７、ステップＳ１０９、ステップＳ１１２、ステップＳ１１５、ステップＳ１１８）は、各タイミングでの処理が指定されている場合に実行される。第１処理から第８処理の具体例は後述する。

行列演算部４００は、３次元の各ループの前に、対応する変数を初期化する。例えば、行列演算部４００は、ｚ＝０（ステップＳ１０２）、ｙ＝０（ステップＳ１０４）、ｘ＝０（ステップＳ１０６）のようにｚ、ｙ、ｘを初期化する。

最も内側のループ内で、行列積演算部４０２および累積加算部４０３は、積和演算処理を実行する（ステップＳ１０８）。例えば行列積演算部４０２は、ここまでの処理で記憶部６００から読み出された重み行列とＳＲＣベクトルとの行列積を計算する。そして、累積加算部４０３は、行列積演算部４０２による演算結果である出力ベクトルと、記憶部６００から読み出されたＤＳＴベクトル、または、累積レジスタ４１１に記憶されたベクトルとを加算する。

各ループ内での処理が終了すると、行列演算部４００は、対応するカウンタ（ｘ、ｙまたはｚ）に１を加算する（ステップＳ１１０、ステップＳ１１３、ステップＳ１１６）。また、行列演算部４００は、カウンタが終了条件を満たすか否かを判定する。

例えば行列演算部４００は、最も内側の処理ループのカウンタｘがＸ（ｘ方向の処理サイズに相当）に達したか否かを判定し（ステップＳ１１１）、達していない場合（ステップＳ１１１：Ｎｏ）、ステップＳ１０７に戻り処理を繰り返す。達している場合（ステップＳ１１１：Ｙｅｓ）、行列演算部４００は、ステップＳ１１２以降の処理を実行する。

行列演算部４００は、中央の処理ループのカウンタｙがＹ（ｙ方向の処理サイズに相当）に達したか否かを判定し（ステップＳ１１４）、達していない場合（ステップＳ１１４：Ｎｏ）、ステップＳ１０５に戻り処理を繰り返す。達している場合（ステップＳ１１４：Ｙｅｓ）、行列演算部４００は、ステップＳ１１５以降の処理を実行する。

行列演算部４００は、最も外側の処理ループのカウンタｚがＺ（ｚ方向の処理サイズに相当）に達したか否かを判定し（ステップＳ１１７）、達していない場合（ステップＳ１１７：Ｎｏ）、ステップＳ１０３に戻り処理を繰り返す。達している場合（ステップＳ１１７：Ｙｅｓ）、行列演算部４００は、ステップＳ１１８以降の処理を実行する。

図６は、第１処理から第８処理の例を示す図である。図６の重み処理、ＳＲＣ処理、ＤＳＴ処理、ＯＵＴ処理の４つの処理は、図４の第１処理～第８処理のいずれかのタイミングで実行される。第１処理から第８処理のそれぞれは、図６の４つの処理のうち２つ以上の処理を含んでもよい。

図６に記載した初期条件は、例えば、累積する値の初期値を累積レジスタ４１１から読み出すかを判定するための条件である。初期条件の構成例を、以下の（ＩＮＩＴ１）～（ＩＮＩＴ４）に示す。なお、以下のような複数の初期条件から適用する初期条件を選択できるようなパラメータをさらに備えてもよい。また、以下の初期条件のうち一部の初期条件のみを適用してもよい。また、以下の初期条件内の変数ｘ、ｙ、ｚのうち一部または全部を用いない初期条件を適用してもよい。なおinit_cond_x、init_cond_y、および、init_cond_zは、初期条件が満たされる場合に実行される処理を適用するデータの範囲を制限する条件と解釈することができる。

（ＩＮＩＴ１）:
init_condition（init_flag，x，y，z）＝
（init_flag＝＝1）＆
（（x≦init_cond_x）＆（y≦init_cond_y）＆（z≦init_cond_z））
（ＩＮＩＴ２）：
init_condition（init_flag，x，y，z）＝
（init_flag＝＝1）＆
（（x≦init_cond_x）｜（y≦init_cond_y）｜（z≦init_cond_z））
（ＩＮＩＴ３）：
init_condition（init_flag，x，y，z）＝
（init_flag＝＝1）＆
（（x≧init_cond_x）＆（y≧init_cond_y）＆（z≧init_cond_z））
（ＩＮＩＴ４）：
init_condition（init_flag，x，y，z）＝
（init_flag＝＝1）＆
（（x≧init_cond_x）｜（y≧init_cond_y）｜（z≧init_cond_z））

図６に記載した最終条件は、例えば、出力ベクトル（ＯＵＴベクトル）に対して非線形演算を実行するかを判定するための条件である。最終条件の構成例を、以下の（ＬＡＳＴ１）～（ＬＡＳＴ４）に示す。以下のような複数の最終条件から適用する最終条件を選択できるようなパラメータをさらに備えてもよい。また、以下の最終条件のうち一部の最終条件のみを適用してもよい。また、以下の最終条件内の変数ｘ、ｙ、ｚのうち一部または全部を用いない最終条件を適用してもよい。なおlast_cond_x、last_cond_y、および、last_cond_zは、最終条件が満たされる場合に実行される処理（非線形演算など）を適用するデータの範囲を制限する条件と解釈することができる。

（ＬＡＳＴ１）：
last_condition（last_flag，x，y，z）＝
（last_flag＝＝1）＆
（（x≦last_cond_x）＆（y≦last_cond_y）＆（z≦last_cond_z））
（ＬＡＳＴ２）：
last_condition（last_flag，x，y，z）＝
（last_flag＝＝1）＆
（（x≦last_cond_x）｜（y≦last_cond_y）｜（z≦last_cond_z））
（ＬＡＳＴ３）：
last_condition（last_flag，x，y，z）＝
（last_flag＝＝1）＆
（（x≧last_cond_x）＆（y≧last_cond_y）＆（z≧last_cond_z））
（ＬＡＳＴ４）：
last_condition（last_flag，x，y，z）＝
（last_flag＝＝1）＆
（（x≧last_cond_x）｜（y≧last_cond_y）｜（z≧last_cond_z））

図７は、第１処理から第８処理に対する処理（図６の処理）の割り当てパターン（スケジューリング）の例を示す図である。第１処理から第８処理に処理を割り当てるか否か、および、どのような処理を割り当てるかによって、行列演算処理の対象とするデータおよびタイミングを変更することができる。

スケジューリングは、ＷＳ（Weight Stationary）、ＯＳ（Output Stationary）１、および、ＯＳ２を含む。ＷＳは、主としてＷＳアルゴリズムによる２次元の畳み込み処理を実行するための設定である。ＯＳ１は、主としてＯＳアルゴリズムによる２次元の畳み込み処理を実行するための設定である。ＯＳ２は、主として全結合層処理、すなわち、ベクトル×行列の積を演算するための設定である。

一般的に、パラメータを変えた複数回の処理命令（スケジューリング）を組み合わせることで、２次元の畳み込み処理を実現することができる。図７以外にも任意の組み合わせを用いることができる。

図８は、ＷＳに相当する演算処理の疑似プログラミングコードの一例を示す図である。図９は、ＯＳ１に相当する演算処理の疑似プログラミングコードの一例を示す図である。図１０は、ＯＳ２に相当する演算処理の疑似プログラミングコードの一例を示す図である。図１１は、図８から図１０の疑似プログラミングコードで用いられる変数および関数の定義を示す図である。

１回の処理命令に対して行列演算部４００で実行される行列演算処理の例は、図５に限られるものではない。図１２－１および図１２－２は、行列演算処理の他の例を示すフローチャートである。図５のフローチャートとの違いは、図６の各処理（重み処理、ＳＲＣ処理、ＤＳＴ処理、および、ＯＵＴ処理）を割り当てるタイミングを変えるのではなく、各処理を実行するか否かの判定条件が追加される点である。

まず行列演算部４００は、ｚ＝０、ｙ＝０、ｘ＝０のように各カウンタを初期化する（ステップＳ２０１、ステップＳ２０２、ステップＳ２０３）。行列演算部４００は、最も内側のループ内で、ループ内処理を実行する（ステップＳ２０４）。ループ内処理は図１２－２を用いて説明する。

最も内側のループ内での処理が終了すると、行列演算部４００は、対応するカウンタｘに１を加算する（ステップＳ２０５）。また、行列演算部４００は、カウンタｘが終了条件を満たすか否かを判定する（ステップＳ２０６）。終了条件を満たさない場合（ステップＳ２０６：Ｎｏ）、行列演算部４００は、ステップＳ２０４に戻り処理を繰り返す。終了条件を満たす場合（ステップＳ２０６：Ｙｅｓ）、行列演算部４００は、ステップＳ２０７以降の処理を実行する。

行列演算部４００は、中央の処理ループのカウンタｙに１を加算する（ステップＳ２０７）。また、行列演算部４００は、カウンタｙが終了条件を満たすか否かを判定する（ステップＳ２０８）。終了条件を満たさない場合（ステップＳ２０８：Ｎｏ）、行列演算部４００は、ステップＳ２０３に戻り処理を繰り返す。終了条件を満たす場合（ステップＳ２０８：Ｙｅｓ）、行列演算部４００は、ステップＳ２０９以降の処理を実行する。

行列演算部４００は、最も外側の処理ループのカウンタｚに１を加算する（ステップＳ２０９）。また、行列演算部４００は、カウンタｚが終了条件を満たすか否かを判定する（ステップＳ２１０）。終了条件を満たさない場合（ステップＳ２１０：Ｎｏ）、行列演算部４００は、ステップＳ２０２に戻り処理を繰り返す。終了条件を満たす場合（ステップＳ２１０：Ｙｅｓ）、行列演算処理が終了する。

ステップＳ２０４のループ内処理について図１２－２を用いて説明する。

行列演算部４００は、重み行列のアドレスを計算する（ステップＳ３０１）。行列演算部４００は、重み行列のアドレスが更新されたか否かを判定する（ステップＳ３０２）。更新された場合（ステップＳ３０２：Ｙｅｓ）、行列演算部４００は、更新されたアドレスから重み行列を読み出す（ステップＳ３０３）。重み行列のアドレスが更新されていない場合（ステップＳ３０２：Ｎｏ）、または、重み行列を読み出した後、行列演算部４００は、ＳＲＣベクトルのアドレス（ＳＲＣアドレス）を計算する（ステップＳ３０４）。

行列演算部４００は、ＳＲＣアドレスが更新されたか否かを判定する（ステップＳ３０５）。更新された場合（ステップＳ３０５：Ｙｅｓ）、行列演算部４００は、更新されたアドレスからＳＲＣベクトルを読み出す（ステップＳ３０６）。ＳＲＣアドレスが更新されていない場合（ステップＳ３０５：Ｎｏ）、または、ＳＲＣベクトルを読み出した後、行列演算部４００は、ＤＳＴベクトルのアドレス（ＤＳＴアドレス）を計算する（ステップＳ３０７）。

行列演算部４００は、ＤＳＴアドレスが更新されたか否かを判定する（ステップＳ３０８）。ＤＳＴアドレスが更新された場合（ステップＳ３０８：Ｙｅｓ）、行列演算部４００は、初期条件が満たされるか否かを判定する（ステップＳ３０９）。初期条件が満たされない場合（ステップＳ３０９：Ｎｏ）、行列演算部４００は、更新されたアドレスからＤＳＴベクトルを読み出す（ステップＳ３１０）。初期条件が満たされる場合（ステップＳ３０９：Ｙｅｓ）、行列演算部４００は、累積レジスタ（ＲＥＧ）の値を読み出し、ＤＳＴベクトルの値として設定する（ステップＳ３１１）。

ＤＳＴアドレスが更新されていない場合、または、ＤＳＴベクトルを読み出した後、行列演算部４００は、積和演算処理を実行する（ステップＳ３１２）。この積和演算処理は、図５のステップＳ１０８の処理と同様である。

行列演算部４００は、書き込み条件が満たされるか否かを判定する（ステップＳ３１３）。書き込み条件が満たされる場合（ステップＳ３１３：Ｙｅｓ）、行列演算部４００は、最終条件が満たされるか否かを判定する（ステップＳ３１４）。最終条件が満たされる場合（ステップＳ３１４：Ｙｅｓ）、行列演算部４００は、積和演算処理の演算結果に対して非線形演算処理を実行する（ステップＳ３１５）。

最終条件が満たされない場合（ステップＳ３１４：Ｎｏ）、または、非線形演算処理を実行後、行列演算部４００は、ここまでの処理の演算結果をＯＵＴベクトルとして記憶部６００に書き込む（ステップＳ３１６）。

書き込み条件を満たさない場合（ステップＳ３１３：Ｎｏ）、または、ＯＵＴベクトルを書き込み後、ループ内処理が終了する。

このように、図１２－１および図１２－２の例では、重み行列のアドレスの更新がある場合には重み行列の読み込み、ＳＲＣアドレスの更新がある場合にはＳＲＣベクトルの読み込み、ＤＳＴアドレスの更新がある場合にはＤＳＴベクトルの読み込みが実行される。この例も、図５のフローチャートと同様に３重の処理ループになっており、図５と同様の機能を実現できる。

図１３は、図１２－１および図１２－２のフローチャートに従って実行される場合の、ＷＳに相当する演算処理の疑似プログラミングコードの一例を示す図である。図１３中の記号「※」に示すように、各アドレスの３次元のインクリメント量を制御し、アドレスが更新されたか否かを判定することで、図５と実質的に同じ処理が実現できる。

図１２－２のステップＳ３０２、ステップＳ３０５、および、ステップＳ３０８で、重み行列、ＳＲＣベクトル、および、ＤＳＴベクトルそれぞれのアドレスが更新されたか判定する第１の方法は、過去のアドレス値をレジスタに記憶しておき、新たに計算したアドレス値と比較する方法である。この場合、初回の処理では原則としてアドレス値が更新されたとみなす。

アドレスが更新されたか判定する第２の方法は、３次元のアドレスのインクリメント値（Δwx，Δwy，Δwz，Δsx，Δsy，Δsz，Δdx，Δdy，Δdz）が非ゼロか否か、および、カウンタがインクリメントしたかを用いて判定する方法である。すなわち行列演算部４００は、ｘ方向のインクリメント値（Δwx、Δsx、Δdx）が非ゼロならｘがインクリメントしたときに対応するアドレスが更新されたと判定する。行列演算部４００は、ｙ方向のインクリメント値（Δwy、Δsy、Δdy）が非ゼロならｙがインクリメントしたときに対応するアドレスが更新されたと判定する。行列演算部４００は、ｚ方向のインクリメント値（Δwz、Δsz、Δdz）が非ゼロならｚがインクリメントしたときに対応するアドレスが更新されたと判定する。３次元のアドレスのインクリメント値（Δwx，Δwy，Δwz，Δsx，Δsy，Δsz，Δdx，Δdy，Δdz）は、対応するアドレスの値を処理ループ内で更新するか否かを定めるパラメータであると解釈することができる。この場合も、初回の処理では原則としてアドレス値が更新されたとみなす。

図１２－２のステップＳ３１３で書き込み条件を満たすかどうかの判定は、ＤＳＴアドレスが更新されたタイミングに関連付けて行うことができる。書き込み条件を満たすかどうか判定する第１の方法は、３次元のアドレスのインクリメント値が非ゼロか否か、および、３次元のアドレスの各次元が最大値かどうかを用いて以下のように書くことができる。

（書き込み条件を満たすかどうか判定する第１の方法）：
(Δdx！＝０)｜
(Δdx＝０＆Δdy！＝0＆x＝X-1)｜
(Δdx＝０＆Δdy＝０＆Δdz！＝０＆x＝X-1＆y＝Y-1)｜
(Δdx＝０＆Δdy＝０＆Δdz＝０＆x＝X-1＆y＝Y-1＆z＝Z-1)

上述のように、１回、または、複数回の行列演算処理（図５、または、図１２－１および図１２－２）を組み合わせることにより、例えばＣＮＮの畳み込み層の演算に相当する２次元の畳み込み処理、および、全結合層の演算に相当する処理を実現することができる。以下、２次元の畳み込み処理、および、全結合層処理の例について説明する。

図１４は、行列演算部４００による２次元の畳み込み処理のフローチャートの例である。２次元の畳み込み処理は、例えば、特徴マップの横方向および縦方向の２次元の方向に畳み込みフィルタをスライドさせて畳み込みを行う処理である。図１４は、横方向および縦方向のサイズが共に３である３×３の畳み込みフィルタ（３×３フィルタ）を用いる場合の例を示す。より具体的には、図１４の例では、畳み込みのパラメータは、（ｘ方向のストライド，ｙ方向のストライド）＝（１，１）、（上のパディングサイズ，下のパディングサイズ，左のパディングサイズ，右のパディングサイズ）＝（１，１，１，１）、（ｘ方向のフィルタサイズ，ｙ方向のフィルタサイズ）＝（３，３）である。

ステップＳ４０１は、制御部２００がレジスタにパラメータを設定する処理に相当する。例えば、制御部２００は、wadr0、sadr0、dadr0に、それぞれ重み行列、ＳＲＣベクトル、および、ＤＳＴベクトルの開始アドレスのベース値（基準値）を設定する。アドレスの３次元のインクリメント値、および、３次元の処理サイズのベース値（基準値）は、例えば図１４のステップＳ４０１内で示すような値に設定される。「scheduling（WS）」は、例えば図７のスケジューリング（割り当てパターン）のうち、ＷＳのスケジューリングを適用することを示す。図１４には示されていないが、初期条件および最終条件がステップＳ４０１で設定されてもよい。

ステップＳ４０２～ステップＳ４１０に示す命令それぞれが、図５、または、図１２－１および図１２－２で示した行列演算処理に対応する。例えば、ステップＳ４０２では、制御部２００は、図１４に示すようなオペランドを含む処理命令を発行し、行列演算部４００に処理命令に応じた処理を実行させる。ステップＳ４０２は、フィルタの中心画素に対する畳み込み処理に相当する。中心画素から開始した理由は、ｘ方向およびｙ方向の要素全体に対する演算処理が実行されるため、初期化（対応する初期値を累積レジスタ４１１から読み出す処理など）を１命令で実行することができるからである。

なお、中心画素に対する処理から開始しない場合は、初期化処理を適用する要素の範囲を各次元のいずれかで制限するような初期条件を、２つ以上のステップで設定する必要がある。例えば、上記の（ＩＮＩＴ１）～（ＩＮＩＴ４）に示すような初期条件のinit_cond_x、init_cond_y、init_cond_zを適切に設定することにより、初期条件を適用する各次元の要素の範囲を、２つ以上のステップに分割して（重複しないように）設定することができる。

ステップＳ４０３以降の各ステップでは、アドレスのオフセット、処理サイズのオフセット、初期フラグ、および、最終フラグなどのオペランドを変更することで、所望の行列演算処理を実行させることができる。

図１４に示すように、３×３フィルタを適用した２次元の畳み込み処理は、９個の処理命令（ステップＳ４０２～ステップＳ４１０）に相当する９回の行列演算処理によって実現できる。畳み込みフィルタのサイズが変更される場合は、そのサイズに応じた回数の行列演算処理によって２次元の畳み込み処理が実現される。

図１５は、図１４に示す２次元の畳み込み処理でのフィルタの処理順序の例を示した図である。図１５内の各数値は処理順序を示す。具体的には、数値の小さい要素から処理が実行されることを意味する。ｗ０～ｗ３５は、各フィルタ内の重みが、「ｗ」の後に付された数値の順序で適用されることを意味する。各数値（０～１９５）および重み（ｗ０～ｗ３５）が付された各矩形は、１×Ｐのベクトルまたは１×Ｎのベクトルに相当する。同じ数値が付された重みをＮカーネル分、抽出したＰ×Ｎの行列が重み行列に相当する。説明の便宜のため、右方向に並べたＮ個（Ｎカーネル分）のフィルタの重みに同じ符号（ｗ０など）を付しているが、これは重みの値が同じことを意味するのではなく、適用順序が同じであることを意味するのみである。

図１６は、図１４のステップＳ４０２での処理の例を説明する図である。図１６の例では、特徴マップのサイズ（Ｘ，Ｙ，Ｚ×Ｐ）＝（横幅，縦幅，チャネル数）＝（７，７，４×Ｐ）である。また、行列積演算部４０２へ入力される特徴マップに相当するＳＲＣベクトルは、（横幅，縦幅，チャネル数）＝（１，１，Ｐ）に相当する１×Ｐベクトルである。重み行列は、（横幅，縦幅，入力チャネル数，出力チャネル数）＝（１，１，Ｐ，Ｎ）のＰ×Ｎ行列である。

共有メモリ６０１に格納される１ワードのデータの形式は原則としてチャネル方向の要素を含むベクトルであり、横幅＝縦幅＝１である要素単位（画像の場合は画素単位）になっている。図１６の処理では、フィルタの中心画素と特徴マップの同一チャネルの全画素との積和演算が実行される。その結果、（横幅、縦幅、チャネル数）＝（１，１，Ｎ）であるＤＳＴベクトルが計算される。

すなわち、ｗ０に相当する重み行列と、０～４８の数値に相当する４９個のＳＲＣベクトルとの行列積が計算され、累積レジスタ４１１の値を初期値として４９個の行列積が順次加算され、加算結果が中間メモリ６０２に書き込まれる。次に、ｗ１に相当する重み行列と４９～９７の数値に相当する４９個のＳＲＣベクトルとの行列積が計算され、中間メモリ６０２からＤＳＴベクトルとして読み出したｗ０に対する計算結果に対して、４９個の行列積が順次加算され、加算結果が中間メモリ６０２に再度書き込まれる。

ｗ２に相当する重み行列と９８～１４６の数値に相当する４９個のＳＲＣベクトル、および、ｗ３に相当する重み行列と１４７～１９５の数値に相当する４９個のＳＲＣベクトルついても同様に行列積の計算および累積加算が行われる。ステップＳ４０２の処理によって畳み込み処理のうち、３×３フィルタ画素１つに相当する処理が完了する。

上述のようにフィルタの「ｗ」に続く数字は処理順序であり、読み出し順序と一致している。一般的にフィルタのデータは事前に用意できるため、共有メモリ６０１に格納する順序を所望の順序にすることは容易に実現できる。従って、重み行列にアクセスする際のアドレスは、単純な＋１のインクリメントで十分な場合が多い。

図１７は、図１４のステップＳ４０３での処理の例を説明する図である。図１７の例は、左下のフィルタ画素を使った処理の例である。中心画素の場合と違い、ＳＲＣベクトルおよびＤＳＴベクトルの処理範囲（処理サイズ）がｘ方向およびｙ方向の要素全体ではないことに注意する必要がある。図１７内の灰色の矩形は、計算に用いられない矩形を示す。この例では、処理サイズを７×７から６×６に小さくし、ＳＲＣベクトルの開始アドレスを７、ＤＳＴベクトルおよびＯＵＴベクトルの開始アドレスを１オフセットすることで所望の処理が実現される。

本実施形態では、処理サイズのオフセットおよびアドレスのオフセットなどのパラメータを設定レジスタおよび命令オペランドで制御することができる。

図１４のステップＳ４０４～ステップＳ４１０に示す、残りの７フィルタ画素の処理については、図１４のパラメータに従って同様の方法で計算を行えばよい。ステップＳ４１０の処理が終了後に、２次元の畳み込み処理が完了する。

なお図１４は、最終条件を考慮しない例、すなわち、非線形演算を適用しない例である。非線形演算を適用する例について以下に説明する。図１８は、畳み込み処理と非線形演算を合わせて実行する場合のフローチャートの例である。

畳み込み処理の後に続けて非線形演算を実行するために、最終フラグが使用される。しかし、例えば図１４の最後のステップＳ４１０で最終フラグ（last_flag）を１に設定するのみでは不十分である。フィルタの中心画素以外では、ＤＳＴベクトルのすべての要素を計算することはないため、一部の要素に非線形演算が適用されないからである。図１８のステップＳ５０１～ステップＳ５０８までは、図１４のステップＳ４０１～ステップＳ４０７と同じである。また、ステップＳ５１０とステップＳ４０９、および、ステップＳ５１２とステップＳ４１０は、最終フラグとして０を設定するか、１を設定するかが違うのみである。

図１８では、最終フラグの適用範囲を決めるパラメータを設定する処理（ステップＳ５０９、ステップＳ５１１）が追加される。具体的にはステップＳ５１１ではｚ＝３の場合にｘ方向およびｙ方向の要素全体に対して非線形演算が適用される。ステップＳ５０９では、（ｘ＝７）かつ（ｚ＝３）の場合に非線形演算が適用される。これらを合わせると、ｘ方向およびｙ方向の要素全体の各画素に対して非線形演算が適用されるようになる。このような処理により、２命令に分かれたデータに対してパイプライン的に追加の非線形演算を適用することができる。

図１８の例では、初期条件を１命令、最終条件を２命令に分割して処理していたが、初期命令を２命令に分割し、最終条件を１命令にして処理することも可能である。例えば、図１５に示すようなフィルタの処理順序を反対にして数字の大きい順から処理することを考える。この場合、最後にフィルタの中心（図１５の０）を処理するので、最終条件が１命令で実行できる。一方、この場合は、初期条件を２つの命令（図１５の８と７に対応する命令）に分割して設定する必要がある。

図１９は、行列演算部４００におけるＯＳ１での畳み込み処理の計算例を示す図である。図１９は、ＯＵＴベクトルの８番目の１要素を出力するための計算を行う例を示している。この例では以下のようにパラメータが設定される。
処理サイズ：（Ｘ，Ｙ，Ｚ）＝（３，３，４）
インクリメント値：
（Δwx，Δwy，Δwz）＝（１，３，９）
（Δsx，Δsy，Δsz）＝（１，７，４９）
（Δdx，Δdy，Δdz）＝（０，０，０）
オフセット：dadr0＋dadr_offset＝８

別の要素の計算は基本的にはＳＲＣベクトルの開始アドレスをsadr0またはsadr_offsetでインクリメントしていけばよい。ｘ方向およびｙ方向の端部の要素については、実際に計算に用いられるフィルタのサイズを必要に応じてX_offsetおよびY_offsetで縮小すればよい。また、それに合わせて重み行列の開始アドレスもwadr_offsetでオフセットすればよい。

一般的にＷＳの方が、ＯＳ１より少ない命令で畳み込み処理を記述できる場合が多い。上記例では、レジスタ設定に必要な命令を除くと、同じ畳み込み処理に対してＷＳが９命令で実現できるのに対して、ＯＳ１では４９命令が必要になる。

図２０は、行列演算部４００におけるＯＳ２での畳み込み処理の計算例を示す図である。図２０の例では、１命令で３×３フィルタをｘ方向（特徴マップの横方向）に５回スライドして演算が実行される。すなわち、スライド方向がｚ方向に相当し、ｚ方向の処理サイズがＺ＝５として設定される。この例では以下のようにパラメータが設定される。
処理サイズ：（Ｘ，Ｙ，Ｚ）＝（３，３，５）
インクリメント値：
（Δwx，Δwy，Δwz）＝（１，３，０）
（Δsx，Δsy，Δsz）＝（１，７，１）
（Δdx，Δdy，Δdz）＝（０，０，１）

図１９の例では（Ｘ，Ｙ，Ｚ）の３次元で数値の累積を行い、最後に一回書き込みを行っている。一方、図２０の例では（Ｘ，Ｙ）の２次元で数値の累積を行うことを、Ｚ回繰り返す計算になっている。

図２１は、行列演算部４００におけるＯＳ２での全結合層処理を説明する図である。全結合層処理では、処理対象とする全結合層の行列全体を、複数のＰ×Ｎ次元の行列（重み行列）に分割して処理するようにパラメータを設定する。例えば、全結合層の行列サイズを（ＰＸ）×（ＮＺ）と考えて、適切にパラメータ設定を行えばレジスタ設定を除いて１命令で全結合層の行列積全体を処理することができる。

この例では以下のようにパラメータが設定される。
処理サイズ：（Ｘ，Ｙ，Ｚ）＝（４，１，３）
インクリメント値：
（Δwx，Δwy，Δwz）＝（１，０，４）
（Δsx，Δsy，Δsz）＝（１，０，０）
（Δdx，Δdy，Δdz）＝（０，０，１）

このように、図２１の例では処理サイズ（Ｘ、Ｙ，Ｚ）＝（４，１，３）と考えることができる。全結合層の行列全体のサイズを（ＰＸ）×（ＮＺ）では正確に表現できない場合にはゼロパディングしてサイズを調整すればよい。

演算処理を高効率（低消費電力、高速）に実行するためには、記憶部６００からのデータの読み出しをより高速に実行可能とすることが望ましい。本実施形態では、ＳＲＣベクトルの読み出し処理、重み行列の読み出し処理、ＤＳＴベクトルの読み出し処理、および、ＯＵＴベクトルの書き込み処理のうち、少なくとも２つの処理を並行して実行可能な記憶部６００を用いるように構成する。

図２２は、このように構成される記憶部６００における共有メモリ６０１の構成例を示す図である。図２２に示すように、共有メモリ６０１は、例えばＮ個（図２２の例ではＮ＝８）の２ポートメモリと、列セレクタ６１２と、を含む。図２２の２ポートメモリ６２１～６２８の１ワードは、Ｐ個の要素を含むＳＲＣベクトルが格納できるサイズである。２ポートメモリ６２１～６２８は、例えばＱ個（Ｑは１以上の整数）のＰ次元のベクトルをそれぞれ記憶可能なメモリである。また、Ｐ×Ｎ次元の重み行列は、Ｎワード分のデータサイズに相当する。例えば重み行列は、１ワードごとにＮ個の２ポートメモリ６２１～６２８に分けられて記憶される。

共有メモリ６０１の任意のメモリアドレスへの書き込みおよび読み出しは、列セレクタ６１２を用いて行うことができる。図２２では列セレクタ６１２は１つであるが、複数の列セレクタ６１２が備えられてもよい。ＳＲＣベクトルの読み出しは、列セレクタ６１２経由で行う。重み行列の読み出しは、例えば、Ｎ個の２ポートメモリ６２１～６２８の同じアドレスから並行して行う。

記憶部６００外部からの重み行列のアドレスの指定方法としては、例えば一番左の２ポートメモリ６２１のアドレス（記憶部６００の外部から見たアドレス）を基準にする方法を適用できる。この場合、重み行列を指定するために必要なアドレスのビット数は、共有メモリ６０１全体のアドレス空間と比べてＬＯＧ２（Ｎ）ビット省略することができる。図２２の例で、２ポートメモリ６２１に０、８、１６・・・のようにアドレスが割り当てられ、このアドレスの指定により、他の２ポートメモリ６２２～６２８の対応する列のデータも読み出されるとする。この場合、必要なアドレスのビット数をＬＯＧ２（８）＝３ビット省略することができる。

このような記憶部６００の構成を用いることで、ＳＲＣベクトルと重み行列とを並行して読み出すこともでき、畳み込み処理および全結合層処理において高い動作率を維持することが可能になる。

図２３は、図２２の２ポートメモリ６２１を１ポートメモリの組み合わせで実現する構成例を示す図である。図２２は、２ポートメモリ６２１について記載しているが、他の２ポートメモリ６２２～６２８も同様に構成することができる。

図２３に示すように、２ポートメモリ６２１は、２つの１ポートメモリ６２１ａ、６２１ｂを含むように構成してもよい。例えば、２ポートメモリ６２１のワード数がＱである場合、Ｑ１＋Ｑ２＝ＱであるようなＱ１ワードの１ポートメモリ６２１ａと、Ｑ２ワードの１ポートメモリ６２１ｂと、行セレクタ６２１ｃ、６２１ｄと、を組み合わせた構成を用いることができる。ただし、１ポートメモリで構成した場合には、ＳＲＣベクトルと重み行列が同じ１ポートメモリ内にある場合には同時に読み出すことができないという制約が発生しうる。しかし、ＳＲＣベクトルが１ポートメモリ６２１ａに存在し、重み行列が１ポートメモリ６２１ｂに存在するような場合であれば、ＳＲＣベクトルと重み行列とを並行して読み出すことができる。

図２４は、中間メモリ６０２の構成例を示す図である。中間メモリ６０２は、複数（図の例では４個）の１Ｒ１Ｗメモリ６５１～６５４と、列セレクタ６５５と、を含む。１Ｒ１Ｗメモリ６５１～６５４それぞれの１ワードは、Ｎ要素からなるＤＳＴベクトルまたはＯＵＴベクトルを格納できるサイズになっている。複数のバンクにしている理由は、例えば行列演算部４００での演算を行いながら、ＤＭＡ命令を使ってデータを移動するなどの処理を行うためである。この例では、１つの読み出し（ＲＥＡＤ）と１つの書き込み（ＷＲＩＴＥ）を並行して処理できる１Ｒ１Ｗメモリ６５１～６５４が用いられている。外部から見て等価に扱えるのであれば、中間メモリ６０２は、２ポートメモリまたは１ポートメモリで構成されてもよい。列セレクタ６５５を用いて、複数の１Ｒ１Ｗメモリ６５１～６５４のいずれかにアクセスすることができる。

図２５は、共有メモリ６０１（２ポートメモリ６２１～６２８）のアドレスの割り当ての構成例を示す図である。数値がアドレスに相当する。図２５の構成例では、同一行の複数の２ポートメモリ６２１～６２８に対して連続するアドレスが割り当てられる。その後、２ポートメモリ６２１のワード方向に隣接する領域に１インクリメントしたアドレスが割り当てられ、以降、同様の割り当てが繰り返される。

図２６は、共有メモリ６０１（２ポートメモリ６２１～６２８）のアドレスの割り当ての他の構成例を示す図である。数値がアドレスに相当する。図２６の構成例では、同一の２ポートメモリ内でアドレスが連続するように割り当てられる。

図２６の割り当て方法がより一般的であると考えられるが、図２５の割り当て方法の方が、例えばＤＭＡ処理と行列演算処理が連続的なメモリアドレスにアクセスする際に、競合が発生する可能性を低減できる。

（変形例）
上記実施形態では、図５のフローチャートおよび図１２－１、図１２－２のフローチャートで示したように、３次元の処理ループを用いたが、４次元以上に拡張することも可能である。

図２７は、５次元の処理ループを用いる行列演算処理の一例を示すフローチャートである。図２７は、図５のフローチャートを３次元から５次元に拡張した例である。図２７のステップＳ６０５～ステップＳ６２２は、図５のステップＳ１０１～ステップＳ１１８と同様である。図２７では、ステップＳ６０５～ステップＳ６２２の処理ループの外側に、さらにＶ方向およびＷ方向の次元についての処理が追加される。第９処理から第１２処理（ステップＳ６２５、ステップＳ６２８、ステップＳ６０１、ステップＳ６０３）には、図６に示す４つの処理のいずれかを指定することができる。

行列演算部４００は、追加された次元の各ループの前に、対応する変数を初期化する。例えば、行列演算部４００は、ｗ＝０（ステップＳ６０２）、ｖ＝０（ステップＳ６０４）のようにｗ、ｖを初期化する。追加された各ループ内での処理が終了すると、行列演算部４００は、対応するカウンタ（ｖまたはｗ）に１を加算する（ステップＳ６２３、ステップＳ６２６）。また、行列演算部４００は、カウンタが終了条件を満たすか否かを判定する（ステップＳ６２４、ステップＳ６２７）。

図２８は、５次元の処理ループを用いる行列演算処理の他の例を示すフローチャートである。図２８は、図１２－１のフローチャートを３次元から５次元に拡張した図である。図２８のステップＳ７０３～ステップＳ７１２は、図１２－１のステップＳ２０１～ステップＳ２１０と同様である。図２８では、ステップＳ７０３～ステップＳ７１２の処理ループの外側に、さらにＶ方向およびＷ方向の次元についての処理が追加される。

行列演算部４００は、ｗ＝０、ｖ＝０のように追加された次元で用いる各カウンタを初期化する（ステップＳ７０１、ステップＳ７０２）。追加された各ループ内での処理が終了すると、行列演算部４００は、対応するカウンタ（ｖまたはｗ）に１を加算する（ステップＳ７１３、ステップＳ７１５）。また、行列演算部４００は、カウンタが終了条件を満たすか否かを判定する（ステップＳ７１４、ステップＳ７１６）。

なお、４次元の処理ループは、５次元の処理ループのサブセットであり、Ｖ方向またはＷ方向が存在しない処理とすればよい。

図２９は、処理ループの次元を３次元から５次元に拡張した場合に追加されるパラメータの例を示す図である。図４に示すパラメータと、図２９に示すパラメータとを合わせるとパラメータ全体が得られる。図２９に示すように、（ｘ，ｙ，ｚ）の３次元から、（ｖ，ｗ，ｘ，ｙ，ｚ）の５次元に拡張された分だけ、対応するパラメータが追加される。

式（１）から式（３）で定義されるアドレスは、それぞれ５次元の処理ループでは以下の式（４）から式（６）のように拡張すればよい。
wadr＝wadr0＋wadr_offset＋vΔwv＋wΔww＋xΔwx＋yΔwy＋zΔwz ・・・（４）
sadr＝sadr0＋sadr_offset＋vΔsv＋wΔsw＋xΔsx＋yΔsy＋zΔsz ・・・（５）
dadr＝dadr0＋dadr_offset＋vΔdv＋wΔdw＋xΔdx＋yΔdy＋zΔdz ・・・（６）

また、３次元処理での初期条件の構成例（ＩＮＩＴ１）～（ＩＮＩＴ４）および最終条件の構成例（ＬＡＳＴ１）～（ＬＡＳＴ４）は、それぞれ以下の（ＩＮＩＴ５）～（ＩＮＩＴ８）、および、（ＬＡＳＴ５）～（ＬＡＳＴ８）のように拡張すればよい。

（ＩＮＩＴ５）:
init_condition（init_flag，v，w，x，y，z）＝
（init_flag＝＝1）＆
（（v≦init_cond_v）＆（w≦init_cond_w）＆（x≦init_cond_x）＆（y≦init_cond_y）＆（z≦init_cond_z））
（ＩＮＩＴ６）:
init_condition（init_flag，v，w，x，y，z）＝
（init_flag＝＝1）＆
（（v≦init_cond_v）｜（w≦init_cond_w）｜（x≦init_cond_x）｜（y≦init_cond_y）｜（z≦init_cond_z））
（ＩＮＩＴ７）:
init_condition（init_flag，v，w，x，y，z）＝
（init_flag＝＝1）＆
（（v≧init_cond_v）＆（w≧init_cond_w）＆（x≧init_cond_x）＆（y≧init_cond_y）＆（z≧init_cond_z））
（ＩＮＩＴ８）:
init_condition（init_flag，v，w，x，y，z）＝
（init_flag＝＝1）＆
（（v≧init_cond_v）｜（w≧init_cond_w）｜（x≧init_cond_x）｜（y≧init_cond_y）｜（z≧init_cond_z））

（ＬＡＳＴ５）:
last_condition（last_flag，v，w，x，y，z）＝
（last_flag＝＝1）＆
（（v≦last_cond_v）＆（w≦last_cond_w）＆（x≦last_cond_x）＆（y≦last_cond_y）＆（z≦last_cond_z））
（ＬＡＳＴ６）:
last_condition（last_flag，v，w，x，y，z）＝
（last_flag＝＝1）＆
（（v≦last_cond_v）｜（w≦last_cond_w）｜（x≦last_cond_x）｜（y≦last_cond_y）｜（z≦last_cond_z））
（ＬＡＳＴ７）:
last_condition（last_flag，v，w，x，y，z）＝
（last_flag＝＝1）＆
（（v≧last_cond_v）＆（w≧last_cond_w）＆（x≧last_cond_x）＆（y≧last_cond_y）＆（z≧last_cond_z））
（ＬＡＳＴ８）:
last_condition（last_flag，v，w，x，y，z）＝
（last_flag＝＝1）＆
（（v≧last_cond_v）｜（w≧last_cond_w）｜（x≧last_cond_x）｜（y≧last_cond_y）｜（z≧last_cond_z））

また、３次元処理での書き込み条件を満たすかどうか判定する第１の方法は、以下の第２の方法のように拡張すればよい。
（書き込み条件を満たすかどうか判定する第２の方法）：
(Δdx！＝０)｜
(Δdx＝０＆Δdy！＝０＆x＝X-1)｜
(Δdx＝０＆Δdy＝０＆Δdz！＝０＆x＝X-1＆y＝Y-1)｜
(Δdx＝０＆Δdy＝０＆Δdz＝０＆Δdv！＝０＆x＝X-1＆y＝Y-1＆z＝Z-1)｜
(Δdx＝０＆Δdy＝０＆Δdz＝０＆Δdv＝０＆Δdw！＝０＆x＝X-1＆y＝Y-1＆z＝Z-1＆v＝V-1)｜
(Δdx＝０＆Δdy＝０＆Δdz＝０＆Δdv＝０＆Δdw＝０＆x＝X-1＆y＝Y-1＆z＝Z-1＆v＝V-1＆w＝W-1)

図３０は、図２７のフローチャートにおける処理の割り当てパターン（スケジューリング）の例を示す図である。基本的には図６をそのまま拡張した例となっている。３次元から５次元に拡張した分だけ割り当ての自由度を増加させることができる。

図３１は、行列演算部４００におけるＯＳ１での畳み込み処理の計算例を示す図である。図３１は、図１９に示す３次元での処理を５次元に拡張した例に相当する。この例では以下のようにパラメータが設定される。
処理サイズ：（Ｖ，Ｗ，Ｘ，Ｙ，Ｚ）＝（５，５，３，３，４）
インクリメント値：
（Δwv，Δww，Δwx，Δwy，Δwz）＝（０，０，１，３，９）
（Δsv，Δsw，Δsx，Δsy，Δsz）＝（１，７，１，７，４９）
（Δdv，Δdw，Δdx，Δdy，Δdz）＝（１，７，０，０，０）
オフセット：dadr0＋dadr_offset＝８

図１９の３次元の例では（Ｘ，Ｙ，Ｚ）方向に累積加算を実行していたため、ＯＵＴベクトルが変化する方向に対して自由度を割り当てることができず、１つのＯＵＴベクトルしか計算できなかった。

図３１の例では、さらに自由度が２次元追加されたため、（Ｘ，Ｙ，Ｚ）方向の累積加算に加えて、（Ｖ，Ｗ）方向でＯＵＴベクトルの出力座標を２次元的に動かすことも可能になる。図３１の例では、５次元処理にすることで２５アドレス（Ｗ×Ｖ＝５×５＝２５）の範囲の畳み込み処理を１命令で完成させることが可能になる。ただし、これら２５アドレス以外については、フィルタのサイズを３×３から縮小する必要があるため、別の命令で処理する必要がある。

図３２は、図３１に示す畳み込み処理の分割例を示す図である。図３２は７×７のＯＵＴベクトルの処理範囲を示しており、分割された９個の矩形それぞれが、１命令で処理できる範囲になる。処理範囲が同じであるフィルタを適用する範囲が、それぞれ１つの矩形として分割される。また、図３２の数値は、１命令で処理されるアドレス数を示す。図３１で示すＷ×Ｖ＝５×５の範囲に対応するアドレスが、図３２の中心に示す２５アドレスである。図３２に示す分割例では、合計で９命令に分割して処理することができる。

また、これまでは主に２次元の画像データに基づく特徴マップを処理する例を説明したが、３次元以上の画像データなど他の多次元のデータを処理対象としてもよい。３次元のデータは、例えばＣＴ（Computed Tomography）またはＭＲＩ（Magnetic Resonance Imaging）などを用いた３次元画像データである。

以上のように、本実施形態の演算装置１００によれば、データを記憶する記憶部６００と、メモリ間のデータ転送を行うＤＭＡ部３００と、演算処理を行う行列演算部４００と、ＤＭＡ部３００と行列演算部４００に対してパラメータの設定および処理命令を行う制御部２００、とを用いて、パラメータ制御可能なＤ次元処理を行うことができる。これにより、ニューラルネットワークなどで用いられる畳み込み処理および行列演算処理などの演算処理の動作率を低下させずに高速に実行することが可能となる。

本実施形態にかかる演算装置で実行されるプログラムは、記憶部６００(命令メモリ６０３)等に予め組み込まれて提供される。

本実施形態にかかる演算装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、本実施形態にかかる演算装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかる演算装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

本実施形態にかかる演算装置で実行されるプログラムは、コンピュータを上述した演算装置の各部として機能させうる。このコンピュータは、制御部２００がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００演算装置
２００制御部
３００ＤＭＡ部
４００行列演算部
４０１メモリ制御部
４０２行列積演算部
４０３累積加算部
４０４非線形演算部
４１１累積レジスタ
４１２レジスタ
６００記憶部
６０１共有メモリ
６０２中間メモリ
６０３命令メモリ

Claims

１個以上のＰ次元（Ｐは２以上の整数）の入力ベクトル、１個以上のＰ×Ｎ次元（Ｎは２以上の整数）の行列、１個以上のＮ次元の中間値ベクトル、および、１個以上のＮ次元の出力ベクトルを記憶し、前記入力ベクトルの読み出し処理、前記行列の読み出し処理、前記中間値ベクトルの読み出し処理、および、前記出力ベクトルの書き込み処理のうち、少なくとも２つの処理を並行して実行可能な記憶部と、
Ｄ次元（Ｄは３以上の整数）の処理ループを含む演算処理の中での、前記入力ベクトルのうち読み出す第１入力ベクトル、前記行列のうち読み出す第１行列、および、前記中間値ベクトルのうち読み出す第１中間値ベクトルの読み出しタイミングと、前記出力ベクトルのうち書き込む第１出力ベクトルの書き込みタイミングと、を設定する制御部と、
前記読み出しタイミングに従って前記記憶部から読み出された前記第１入力ベクトルと前記第１行列との積を演算し、前記読み出しタイミングに従って前記記憶部から読み出された前記第１中間値ベクトルと前記積との和を演算し、前記和を前記第１出力ベクトルとして、前記書き込みタイミングで前記記憶部に記憶させる演算部と、
を備える演算装置。
前記制御部は、前記第１入力ベクトルのアドレスの基準値、前記第１行列のアドレスの基準値、および、前記第１中間値ベクトルのアドレスの基準値と、Ｄ次元に含まれる各次元の処理ループ内での、前記第１入力ベクトルのアドレスのインクリメント値、前記第１行列のアドレスのインクリメント値、および、前記第１中間値ベクトルのアドレスのインクリメント値と、を設定し、
前記演算部は、前記第１入力ベクトル、前記第１行列、および、前記第１中間値ベクトルのアドレスを、対応する基準値およびインクリメント値に基づいて求める、
請求項１に記載の演算装置。
前記制御部は、前記第１入力ベクトルのアドレスの基準値に対するオフセット、前記第１行列のアドレスの基準値に対するオフセット、および、前記第１中間値ベクトルのアドレスの基準値に対するオフセットを設定し、
前記演算部は、前記第１入力ベクトル、前記第１行列、および、前記第１中間値ベクトルのアドレスを、対応するオフセットに基づいて求める、
請求項１に記載の演算装置。
前記制御部は、Ｄ次元に含まれる各次元の処理ループ内で処理する前記第１入力ベクトルの範囲、前記第１行列の範囲、および、前記第１中間値ベクトルの範囲と、前記第１入力ベクトルの範囲に対するオフセット、前記第１行列の範囲に対するオフセット値、および、前記第１中間値ベクトルの範囲に対するオフセット値と、を設定し、
前記演算部は、前記第１入力ベクトル、前記第１行列、および、前記第１中間値ベクトルの範囲を、対応する範囲およびオフセットに基づいて求める、
請求項１に記載の演算装置。
前記中間値ベクトルの初期値を記憶するレジスタをさらに備え、
前記演算部は、設定された初期条件が満たされる場合、前記レジスタから前記第１中間値ベクトルを読み出す、
請求項１に記載の演算装置。
前記初期条件は、前記初期条件が満たされる場合に実行される処理を適用するデータの範囲を制限する条件を含む、
請求項５に記載の演算装置。
前記演算部は、設定された最終条件が満たされる場合、前記出力ベクトルに対して非線形演算を実行し、前記非線形演算を実行した前記第１出力ベクトルを前記書き込みタイミングで前記記憶部に記憶させる、
請求項１に記載の演算装置。
前記最終条件は、前記最終条件が満たされる場合に実行される処理を適用するデータの範囲を制限する条件を含む、
請求項７に記載の演算装置。
前記制御部は、前記第１入力ベクトル、前記第１行列、および、前記第１中間値ベクトルを指定するアドレスの値を前記処理ループ内で更新するか否かを定めるパラメータにより前記読み出しタイミングを設定する、
請求項１に記載の演算装置。
前記記憶部は、Ｑ個（Ｑは１以上の整数）のＰ次元のベクトルをそれぞれ記憶可能であり、並行してアクセス可能な複数のメモリを含み、
前記入力ベクトル、前記中間値ベクトル、および、前記出力ベクトルは、複数の前記メモリのいずれかにそれぞれ記憶され、
前記行列は、Ｎ個の前記メモリに分けられて記憶される、
請求項１に記載の演算装置。
記憶部を備える演算装置で実行される演算方法であって、
前記記憶部は、１個以上のＰ次元（Ｐは２以上の整数）の入力ベクトル、１個以上のＰ×Ｎ次元（Ｎは２以上の整数）の行列、１個以上のＮ次元の中間値ベクトル、および、１個以上のＮ次元の出力ベクトルを記憶し、前記入力ベクトルの読み出し処理、前記行列の読み出し処理、前記中間値ベクトルの読み出し処理、および、前記出力ベクトルの書き込み処理のうち、少なくとも２つの処理を並行して実行可能であり、
Ｄ次元（Ｄは３以上の整数）の処理ループを含む演算処理の中での、前記入力ベクトルのうち読み出す第１入力ベクトル、前記行列のうち読み出す第１行列、および、前記中間値ベクトルのうち読み出す第１中間値ベクトルの読み出しタイミングと、前記出力ベクトルのうち書き込む第１出力ベクトルの書き込みタイミングと、を設定する制御ステップと、
前記読み出しタイミングに従って前記記憶部から読み出された前記第１入力ベクトルと前記第１行列との積を演算し、前記読み出しタイミングに従って前記記憶部から読み出された前記第１中間値ベクトルと前記積との和を演算し、前記和を前記第１出力ベクトルとして、前記書き込みタイミングで前記記憶部に記憶させる演算ステップと、
を含む演算方法。