JP7230744B2

JP7230744B2 - 畳込み演算方法及び演算処理装置

Info

Publication number: JP7230744B2
Application number: JP2019155433A
Authority: JP
Inventors: 智義船▲崎▼
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2023-03-01
Anticipated expiration: 2039-08-28
Also published as: JP2021033813A

Description

本発明は、畳込み演算方法及び演算処理装置に関する。

画像認識や音声認識などで活用されるＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）では、画像や音声信号の特徴量と重み係数との畳込み演算が繰り返し行われる。近年は、処理速度の向上やネットワークモデルのサイズ削減のため、特徴量や重み係数の低ビット化が進んでいる。ただし、低ビット化と認識性能にはトレードオフの関係があり、ネットワークやレイヤによって高精度演算と低精度演算とを使い分けて実行する混合精度の畳込み演算が必要となる。そこで、このような混合精度の畳込み演算の効率的な実行方法が求められている。

本発明に関連する技術として以下の先行技術がある。

特開平７－４４５３３号公報特開平７－１２１３５４号公報

図４５は、特許文献１に記載の演算装置による演算を模式化して示す図である。この演算装置は、２４ビットの高精度乗算器を用いて、高精度の演算を行う場合には、（ａ）に示すように、被乗数部と乗数部にそれぞれ２４ビットのデータを配置して乗算を行い、低精度の演算を行う場合には、（ｂ）に示すように、低精度の部分演算（Ｉｎｔ８×３×３）に分割して必要な演算部分だけが演算結果に出力されるように乗算器の出力を切り替えることで並列乗算を行う。

図４６は、特許文献２に記載の乗算器による演算を模式化して示す図である。この乗算器では、高精度（倍精度）乗算器を用いて、高精度（倍精度）の演算を行う場合には、（ａ）に示すように、被乗数部と乗数部にそれぞれ倍精度のデータを配置して乗算を行い、低精度（単精度）の演算を行う場合には、（ｂ）及び（ｃ）に示すように、被乗数部と乗数部の上位と下位にそれぞれ単精度のデータを配置し、不要な部分演算がゼロとなるように回路を切り替えることで単精度の並列乗算及び内積演算を行う。

しかしながら、特許文献１に記載の演算装置及び特許文献２に記載の乗算器は、低ビット化率（即ち、低精度時のビット長／高精度時のビット長）が１／Ｎのときに、演算効率は高々Ｎ倍程度にしかできない。

本発明は、上記の問題点を鑑みてなされたものであり、高精度、低精度を切り替えて畳込み演算でき、かつ、低精度の畳込み演算を効率的に行うことができることを目的とする

上記目的を達成するために、本発明に係る畳込み演算方法は、特徴量が１次元以上の格子状に配置された特徴マップに対して、重み係数が１次元以上の格子状に配置されたフィルタをスライドさせながら畳込み演算を行うための畳込み演算方法であって、乗算器の被乗数部及び乗数部の何れか一方に少なくとも１つの前記特徴量を配置し、前記乗算器の乗数部及び被乗数部の何れか他方に少なくとも１つの前記重み係数を配置して、前記特徴量と前記重み係数との乗算、及び乗算結果の加算を繰り返し実行して、前記畳込み演算を行うことを含み、前記被乗数部及び乗数部の何れか一方に配置される値は、前記被乗数部及び乗数部の何れか他方と同じビット幅の値であるか、又は、－１、０、及び＋１のいずれかである。

また、本発明に係る演算処理装置は、特徴量が１次元以上の格子状に配置された特徴マップに対して、重み係数が１次元以上の格子状に配置されたフィルタをスライドさせながら畳込み演算を行うための演算処理装置であって、被乗数部及び乗数部を備えた乗算器と、加算器と、乗算器の被乗数部及び乗数部の何れか一方に少なくとも１つの前記特徴量を配置し、前記乗算器の乗数部及び被乗数部の何れか他方に少なくとも１つの前記重み係数を配置して、前記特徴量と前記重み係数との乗算、及び乗算結果の加算を繰り返し実行して、前記畳込み演算を行うように、前記乗算器及び前記加算器を制御する制御部と、を含み、前記被乗数部及び乗数部の何れか一方に配置される値は、前記被乗数部及び乗数部の何れか他方と同じビット幅の値であるか、又は、－１、０、及び＋１のいずれかである。

本発明に係る畳込み演算方法及び演算処理装置によれば、高精度、低精度を切り替えて畳込み演算でき、かつ、低精度の畳込み演算を効率的に行うことができる。

本発明の実施の形態における高精度な特徴量と重み係数との畳込み演算の処理イメージを模式的に示す図である。本発明の実施の形態における低精度の畳込み演算を行う場合の処理イメージを模式的に示す図である。実行可能な演算パターンを説明するための図である。実行可能な演算パターンを説明するための図である。本発明の実施の形態に係る演算処理装置の構成を示すブロック図である。本発明の実施の形態に係る演算処理装置のデータ処理部の構成を示すブロック図である。乗数が高精度である場合の乗数部の動作を説明するための図である。エンコーダが出力するマルチプレクサへの選択信号を定めた表である。乗数が３値である場合の乗数部の動作を説明するための図である。エンコーダが出力するマルチプレクサへの選択信号を定めた表である。乗数が２値である場合の乗数部の動作を説明するための図である。エンコーダが出力するマルチプレクサへの選択信号を定めた表である。乗数のモード毎の選択信号、エンコーダシフト量、及び計算回数を示す表である。被乗数が高精度である場合の被乗数部の動作を説明するための図である。被乗数が低精度である場合の被乗数部の動作を説明するための図である。被乗数及び乗数が高精度である場合の加算部の動作を説明するための図である。加算部の具体的な構造を示すブロック図である。加算器の数を説明するための図である。乗数が低精度である場合の加算部の動作を説明するための図である。データ整形部の動作を説明するための図である。被乗数がＩｎｔ８であり、乗数が３値である場合の加算部の動作を説明するための図である。被乗数がＩｎｔ４であり、乗数が３値である場合の加算部の動作を説明するための図である。被乗数が２値であり、乗数が３値である場合の加算部の動作を説明するための図である。被乗数が２値であり、乗数が２値である場合の加算部の動作を説明するための図である。被乗数が１ｂｉｔであり、乗数が２値である場合の加算部の動作を説明するための図である。被乗数及び乗数がＩｎｔ８である場合の加算部の動作を説明するための図である。ＣＮＮのネットワーク構造の一例を示す図である。ＣＮＮにおける処理ループを説明するための図である。畳込み演算での並列処理の一例を示す図である。ＣＮＮの１層目の畳込み演算での並列処理の一例を示す図である。ＣＮＮの１層目の畳込み演算での並列処理の一例を示す図である。ＣＮＮの１層目の畳込み演算における処理の流れを示すタイムチャートである。畳込み演算での並列処理の一例を示す図である。ＣＮＮの２層目の畳込み演算での並列処理の一例を示す図である。ＣＮＮの２層目の畳込み演算での並列処理の一例を示す図である。ＣＮＮの２層目の畳込み演算における処理の流れを示すタイムチャートである。畳込み演算での逐次処理の一例を示す図である。ＣＮＮの８層目の畳込み演算での逐次処理の一例を示す図である。ＣＮＮの８層目の畳込み演算における処理の流れを示すタイムチャートである。本発明の実施の形態の他の例におけるデータ処理部の構成を示すブロック図である。本発明の実施の形態の他の例における加算部の動作を説明するための図である。加算器を削減する原理を説明するための図である。本発明の実施の形態の他の例における加算部の動作を説明するための図である。加算器を削減する原理を説明するための図である。（ａ）従来の演算装置による演算（高精度）を模式化して示す図、及び（ｂ）従来の演算装置による演算（低精度）を模式化して示す図である。（ａ）従来の乗算器による演算（倍精度）を模式化して示す図、及び（ｂ）従来の乗算器による演算（単精度）を模式化して示す図である。

＜本実施の形態の概要＞
以下、本発明に係る畳込み演算方法の実施の形態について図面を参照しながら説明する。図１は、本発明の実施の形態におけるＣＮＮにおける特徴量と重み係数との畳込み演算の処理イメージを模式的に示す図である。高精度の畳込み演算を行う場合には、被乗数部に高精度の特徴量Ａが配置され、乗数部に高精度の重み係数Ｂが配置され、乗算が実行され、乗算結果として、Ａ×Ｂが得られる。

図２は、低精度の畳込み演算を行う場合の処理イメージを模式的に示す図である。

畳込み演算において乗算結果を加算するときに隣の乗算結果と混じる部分がある場合には、正しい値が得られない。ここで、演算結果が混じる要因には２つある。一つは、乗算時の桁上げ（ひし形が重なりあった部分の加算）によるもので、もう一つは、加算時の桁上げ（異なるひし形同士の加算）によるものである。この両方の要因を解決すると演算効率を上げられる。

そこで、本実施の形態では、低精度の畳込み演算において、乗算時の桁上げ（ひし形が重なりあった部分の加算）により演算結果が混じるのを解決するために、乗数として２値、３値のみを対象とする。

また、加算時の桁上げ（異なるひし形同士の加算）により演算結果が混じるのを解決するために、各部分積間のシフト量の調整により、演算結果が混じるのを解決する。

ここで、図２中のＣの部分が０となるのはＢ－０・Ｂ－１にマッピングする値を｛＋１，－１，０｝に限定し、Ａ－０×Ｂ－１が、Ａ－０を「そのまま出す」、「符号反転」、「０」の３パターンのいずれかとなり、Ａ－０とビット幅が変わらないからである。

また、図２中のＤのシフト量は分割数によって決定できる。また、乗算時の桁上げを考える必要がないため、最終的な計算結果のビット幅を削減することができる。

また、本実施の形態では、図３に示すように、ＩｎｔＮ×ＩｎｔＮ（ＩｎｔＮは、Ｎビットで表される整数を示す）の高精度な乗算と、３値もしくは２値を乗数とした低精度な乗算とを含む複数の演算パターンを切り替えて行うことができる。例えば、実行可能な演算パターンが、図４に示すように、乗数及び被乗数の各々がＩｎｔ８（Ｉｎｔ８は、８ビットで表される整数を示す）の組み合わせ、乗数が３値と、被乗数が、Ｉｎｔ８、Ｉｎｔ４（Ｉｎｔ４は、４ビットで表される整数を示す）、３値、２値の各々との組み合わせ、並びに、乗数が２値と、被乗数が、Ｉｎｔ８、Ｉｎｔ４、３値、２値の各々との組み合わせの各パターンである。

このように、本実施の形態では、高精度な乗算と、低精度な乗算とを切り替えて行うと共に、回路面積の増加を抑えつつ高効率に畳込み演算が行える。

＜本実施の形態に係る演算処理装置の構成＞
次に、本実施の形態に係る演算処理装置の構成について説明する。図５に示すように、本実施の形態に係る演算処理装置１００は、制御部５０と、メモリ５２と、入力バッファ部５４と、データ処理部５６と、出力バッファ部５８とを備えている。制御部５０と、メモリ５２と、入力バッファ部５４と、データ処理部５６と、出力バッファ部５８とは、バス６０を介して相互に接続されている。なお、データ処理部５６は、乗算器の一例である。

データ処理部５６は、図６に示すように、被乗数部６２と、乗数部６４と、加算部６６とを備えている。

被乗数部６２は、被乗数を選択する選択回路であり、被乗数を格納するレジスタ７０と、被乗数の－２倍を出力する変換回路７２と、被乗数のビット反転を出力する変換回路７４と、０を出力する変換回路７６と、被乗数の１倍を出力する変換回路７８と、被乗数の２倍を出力する変換回路８０と、変換回路７２～変換回路８０の何れかの出力を部分積として選択するマルチプレクサ８２とを備えている。

乗数部６４は、Ｂｏｏｔｈエンコーダを改良した回路であり、乗数を格納するレジスタ８４と、出力部分をシフトさせながら乗数の一部を出力するシフト回路８６と、シフト回路８６の出力に応じて定まる、マルチプレクサ８２への選択信号を出力するエンコーダ８８とを備えている。

加算部６６は、複数の部分積の加算による桁上げを考慮して、部分積を整形すると共に、複数の部分積を加算する際の桁合わせのために、複数の部分積を、複数の加算器に分配するデータ整形部９０と、データ整形部９０の出力を加算する加算器９２と、レジスタ９４とを備えている。

制御部５０は、データ処理部５６の被乗数部６２及び乗数部６４の何れか一方に同じビット幅の少なくとも１つの特徴量を配置し、被乗数部６２及び乗数部６４の何れか他方に少なくとも１つの同じビット幅の重み係数を配置して、特徴量と重み係数との乗算及び乗算結果の加算を繰り返し実行して、畳込み演算を行うように、被乗数部６２、乗数部６４、及び加算部６６の各々を制御する。本実施の形態では、被乗数部６２に特徴量を配置し、乗数部６４に重み係数を配置する場合を例に説明する。

具体的には、制御部５０は、以下に説明する被乗数部６２、乗数部６４、及び加算部６６の各々の具体的な動作が行われるように制御する。

まず、乗数部６４の具体的な動作について、乗数が高精度（Ｉｎｔ８）である場合と、３値である場合と、２値である場合とに分けて説明する。

乗数が高精度（Ｉｎｔ８）である場合について説明する。従来既知のＢｏｏｔｈエンコーダを用いた方法と同様に、図７に示すように、レジスタ８４に格納された、８ビットで表される１つの乗数のうちの３ビットを、シフト回路８６により読み出して、エンコーダ８８に入力する。エンコーダ８８は、図８に示す表に従ってマルチプレクサ８２への選択信号を出力する。

また、シフト回路８６は、読み出す３ビットを２ビットずつシフトさせる。これにより、被乗数をＭとすると、マルチプレクサ８２により、例えば、＋Ｍ、－２Ｍ、＋２Ｍ、０、０が順次選択される。

次に、乗数が３値｛－１，０，＋１｝の場合について説明する。

図９に示すように、レジスタ８４に格納された、各々２ビットで表される４個の乗数のうちの３ビットを、シフト回路８６により読み出して、エンコーダ８８に入力する。エンコーダ８８は、図１０（Ｂ）に示す表に従ってマルチプレクサ８２の選択信号を出力する。なお、図１０（Ｂ）の表は、図１０（Ａ）に示す３値符号化に基づいて定められる。また、図１０（Ａ）、図１０（Ｂ）の表は、一例であり、これに限定されるものではない。また、図１０（Ｂ）における「Ｘ」は、ドントケアであること（０でも１でもよいこと）を示している。

また、シフト回路８６は、読み出す３ビットを２ビットずつシフトさせる。これにより、被乗数をＭとすると、マルチプレクサ８２により、例えば、＋Ｍ、－Ｍ、＋Ｍ、０が順次選択され、４サイクルで演算が完了する。

次に、乗数が２値｛－１，＋１｝の場合について説明する。

図１１に示すように、レジスタ８４に格納された、各々１ビットで表される８個の乗数のうちの３ビットを、シフト回路８６により読み出して、エンコーダ８８に入力する。エンコーダ８８は、図１２（Ｂ）に示す表に従ってマルチプレクサ８２への選択信号を出力する。なお、図１２（Ｂ）の表は、図１２（Ａ）に示す２値符号化に基づいて定められる。

また、シフト回路８６は、読み出す３ビットを２ビットずつシフトさせる。これにより、被乗数をＭとすると、マルチプレクサ８２により、例えば、－Ｍ、＋Ｍ、＋Ｍ、－Ｍ、－Ｍ、＋Ｍ、＋Ｍ、＋Ｍが順次選択され、８サイクルで演算が完了する。

制御部５０は、乗数のモードが、高精度（Ｉｎｔ８）モード、３値モード、２値モードの何れであるかに応じて、図１３に示すように、マルチプレクサ８２への選択信号、エンコーダシフト量、及び部分積の計算回数（計算段数）を変更することで、乗数の全モードに対応する。

また、実行時間は乗数のモードよって決定される。高精度（Ｉｎｔ８）モード、３値モード、２値モードの各々の実行サイクル数は、以下のようになる。

また、一般的に、高精度演算の乗数をＩｎｔＮ（Ｎは整数）とした場合の実行サイクル数は、以下のようになる。

次に、被乗数部６２の具体的な動作について、被乗数が高精度（Ｉｎｔ８）である場合と、低精度（Ｉｎｔ４）である場合とに分けて説明する。

被乗数が高精度（Ｉｎｔ８）である場合について説明する。

図１４に示すように、例えば、８ビットで表される被乗数である２５が、レジスタ７０に格納され、変換回路７２により、－２×２５が出力され、変換回路７４により、２５のビット反転が出力され、変換回路７６により、０が出力され、変換回路７８により、１×２５が出力され、変換回路８０により、２×２５が出力される。

マルチプレクサ８２は、入力される選択信号に応じて、－２×２５、２５のビット反転、０、１×２５、及び２×２５の何れかを加算部６６へ出力する。

ここで、２の補数である、数ｘの－１倍は、
－ｘ＝￣ｘ＋１
で計算できるため、後の加算器９２で＋１を行うようにして、変換回路７４では、－１倍を作るのではなく、ビット反転を行うようにする。これにより、変換回路７４では、ビット反転を行えば済むため、任意のビット幅に対して一括した演算が可能であり、変換回路７４の回路面積を小さくすることができる。ただし、「￣ｘ」は、ｘのビット反転を表す。

次に、被乗数が低精度（Ｉｎｔ４）である場合について説明する。乗数は、３値及び２値に限定されているものとする。

図１５に示すように、例えば、２つの被乗数のペアである（１、－７）が、レジスタ７０に格納され、変換回路７４により、（１のビット反転、－７のビット反転）が出力され、変換回路７６により、（０×１、０×－７）が出力され、変換回路７８により、（１×１、１×－７）が出力される。乗数が３値、２値に限定されているため、変換回路７２、８０は使用されない。

マルチプレクサ８２は、入力される選択信号に応じて、（１のビット反転、－７のビット反転）、（０×１、０×－７）、及び（１×１、１×－７）の何れかを加算部６６へ出力する。

ここで、２の補数である、数（ｘ、ｙ）の－１倍は
（－ｘ，－ｙ）＝（￣ｘ＋１，￣ｙ＋１）
で計算できる。

＋１の部分を後の加算器９２で行うようにするため、この部分で行う処理は（￣ｘ、￣ｙ）だけでよく、これは（ｘ，ｙ）をまとめてビット反転しても変わらない。

なお、被乗数が低精度（２値、３値）である場合については、被乗数がＩｎｔ４である場合と同様であるため、説明を省略する。

次に、加算部６６の具体的な動作について、被乗数及び乗数が高精度（Ｉｎｔ８）である場合と、低精度である場合とに分けて説明する。

被乗数及び乗数が高精度（Ｉｎｔ８）である場合には、図１６に示すように、部分積を加算するときの桁合わせのために、データ整形部９０により、２ビットシフトを行って、加算器９２により加算を行う。

乗数が低精度である場合の動作を説明する前に、加算部６６の具体的な構成について説明する。

図１７に示すように、加算部６６の加算器９２は、複数の加算器９５及び複数の選択回路９６を備えている。このように、複数の加算器９５に分割されており、加算器９５の数は、全ての演算パターンを考慮したときに必要な加算器の数の最大数である。

例えば、高精度の被乗数及び乗数がＩｎｔ８であるとすると、図１８に示すように、演算パターン毎に、加算器のビット数、加算器の数、全ビット数から、使用する加算器の構成が定められる。上記図１８の例では、被乗数が２値で、乗数が３値であるパターンと、被乗数が２値で、乗数が２値であるパターンとでは、４ビットの加算器を８個使用する。それ以外のパターンでは、４ビットの加算器を４個使用する。従って、４ビットの加算器を８個用意すれば、すべての演算パターンで実行が可能となる。

選択回路９６は、被乗数及び乗数が高精度（Ｉｎｔ８）である場合に、複数の加算器９５を大きな加算器として使用するためにキャリーを選択して、加算器９５間を接続する。

選択回路９６は、乗数が低精度であり、被乗数部６２において、対応する部分積に対してマルチプレクサ８２が、ビット反転を作る変換回路７４を選択した場合に、１を選択する。選択回路９６は、それ以外の場合に、０を選択する。

被乗数がＩｎｔ４、乗数が３値の場合には、図１９に示すように、データ整形部９０は、Ｉｎｔ４の２つの被乗数を、それぞれの加算器９５へ分配するように出力する。

Ｐ［７：４］はビットセレクトを示し、Ｐの７ビット目から４ビット目までを表すものとすると、例えば５つの加算器９５へ配分される被乗数ａ〔０〕～ａ〔４〕は、以下のように定められる。

ｐ１＝Ｐ［７：４］；ｐ０＝Ｐ［３：０］；
ａ〔ｄ＋１〕＝ｐ１；ａ〔ｄ〕＝ｐ０

ただし、ｄは０～３の加算（エンコーダ）実行回数である。すわなち、エンコーダ８８による選択信号の決定回数である。また、ａ〔ｎ〕は、複数の信号をまとめた信号におけるｎ番目の信号を表し、上記のａ〔ｄ〕は、４ビットの信号を表す。

具体的には、データ整形部９０は、エンコーダ８８によるｋ回目の選択信号により得られた部分積Ｐｋ、レジスタ７０に同時に格納される被乗数の数Ｍ、レジスタ８４に同時に格納される乗数の数Ｎ、及び加算器９５の数Ｄを用いて、ｄ番目の加算器９５へ出力する被乗数ａ〔ｄ〕を決定する。ただし、ｋ，Ｍ，Ｎ，Ｄ＞０である。また、それぞれの変数にはＤ＝Ｎ＋Ｍ－１の関係性がある。

データ整形部９０へ入力される被乗数Ｐｋが、Ｍ個の被乗数ｐＭ－１，．．．，ｐ０で構成される場合には、以下のように表される。
Ｐｋ＝（ｐＭ－１，．．．，ｐｍ，．．．，ｐ１，ｐ０）

Ｍ＋ｋ－１＞ｄ－１＞＝ｋ－１の場合、加算器９５へ出力する被乗数ａ〔ｄ〕は、以下のように定められる。

ａ〔ｄ－１〕＝ｐｋ－１
ａ〔ｄ〕＝ｐｋ
．．．
ａ〔Ｍ＋ｋ－２〕＝ｐｋ＋Ｍ－２

Ｍ＋ｋ－１＞ｄ－１＞＝ｋ－１でない場合には、加算器９５へ出力する被乗数ａ〔ｄ〕は、以下のように定められる。
ａ〔ｄ〕＝０

これにより、図２０に示すように、桁合わせのために、２分割した被乗数の出力先となる加算器９５が、順番に変更される。

そして、複数の加算器９５でそれぞれの部分積が加算される。

上述したように被乗数部６２、乗数部６４、及び加算部６６の各々が動作することにより、被乗数がＩｎｔ８であり、乗数が３値である場合には、図２１に示すように、部分積の計算単位が８ｂｉｔとなり、加算単位が３２ｂｉｔとなる。

この例のように、乗数が３値｛－１、０、＋１｝の場合には、被乗数の値と部分積のビット幅とが同じになるため、乗算時の桁上げが発生しない。このため、データ処理部５６の使用効率を向上させることができる。

なお、上記では、データ整形部９０は、複数の加算器９５に対して、部分積を分割し、それに合わせて桁上げを考慮して、分割した部分積を入力する加算器９５を選択することにより、分割した部分積を、複数の加算器９５に分配する場合を例に説明したが、これに限定されるものではない。例えば、データ整形部９０は、部分積を、細粒度で桁上げを考慮して１つの大きな加算器に入力するようにしてもよい。
具体的には、被乗数がＩｎｔ４であり、乗数が３値である場合には、図２２に示すように、部分積の計算単位が８ｂｉｔ（＝４ｂｉｔ×２）となり、加算単位が２５ｂｉｔ（＝５ｂｉｔ×５）となる。

この例でも、乗数が３値｛－１、０、＋１｝であり、被乗数の値と部分積のビット幅とが同じになるため、乗算時の桁上げが発生しないが、加算時の桁上げを考慮して、分割単位毎に、１ビットのスペースが挿入されている。

また、被乗数がＩｎｔ２であり、乗数が３値である場合には、図２３に示すように、部分積の計算単位が８ｂｉｔ（＝２ｂｉｔ×４）となり、加算単位が２８ｂｉｔ（＝４ｂｉｔ×７）となる。

この例でも、乗数が３値｛－１、０、＋１｝であり、被乗数の値と部分積のビット幅とが同じになるため、乗算時の桁上げが発生しないが、加算時の桁上げを考慮して、分割単位毎に、２ビットのスペースが挿入されている。

また、被乗数がＩｎｔ２であり、乗数が２値である場合には、図２４に示すように、部分積の計算単位が８ｂｉｔ（＝２ｂｉｔ×４）となり、加算単位が４４ｂｉｔ（＝４ｂｉｔ×１１）となる。

この例でも、乗数が２値｛－１、＋１｝であり、被乗数の値と部分積のビット幅とが同じになるため、乗算時の桁上げが発生しないが、加算時の桁上げを考慮して、分割単位毎に、２ビットのスペースが挿入されている。

また、被乗数がＩｎｔ１であり、乗数が２値である場合には、図２５に示すように、部分積の計算単位が８ｂｉｔ（＝１ｂｉｔ×８）となり、加算単位が６０ｂｉｔ（＝４ｂｉｔ×１５）となる。

この例でも、乗数が２値｛－１、＋１｝であり、被乗数の値と部分積のビット幅とが同じになるため、乗算時の桁上げが発生しないが、加算時の桁上げを考慮して、分割単位毎に、３ビットのスペースが挿入されている。

上記のように、加算時の桁上げを回避するためにスペースが挿入される。スペースの挿入位置とスペースの挿入量は、以下のように、レジスタ７０に格納される被乗数の個数とレジスタ８４に格納される乗数の個数による。

挿入位置＝１つの被乗数のビット幅
（被乗数がＩｎｔＮであり、乗数が３値の場合）
挿入量＝ｃｅｉｌ（ｌｏｇ２（レジスタ７０に格納される被乗数全体のビット幅／１つの被乗数のビット幅））
（被乗数が２値であり、乗数が３値の場合）
挿入量＝２
（被乗数が２値であり、乗数が２値の場合）
挿入量＝３

また、桁合わせのためのシフト量と、レジスタ９４のビット幅は、以下のように求められる。

シフト量＝１つの被乗数のビット幅＋挿入量

レジスタ９４のビット幅＝レジスタ７０に格納される被乗数全体のビット幅＋挿入量×（被乗数全体のビット幅／１つの被乗数のビット幅）＋シフト量の最大値

また、被乗数及び乗数がＩｎｔ８である場合には、図２６に示すように、全体で一つの値となり、重なり合った部分で桁上げを含めた加算が実行される。

＜適用例＞
上記実施形態の演算処理装置１００で、畳込みニューラルネットワークの計算を行う場合の適用例について説明する。

例えば、図２７に示すようなネットワーク構造のＣＮＮを用いた物体認識処理を行う場合を例に説明する。また、以下では、下記（例１）～（例３）の異なる種類の演算精度について詳しく処理手順を述べる。

（例１）１層目：Ｉｎｔ８×２値
（例２）２層目：２値×３値
（例３）８層目：Ｉｎｔ８×Ｉｎｔ８

ここで、ループの時間・空間方向の展開の考え方について説明する。

時間方向に展開する場合には、逐次実行が行われる。この場合には、回路面積が小さくなり、柔軟性が向上するものの、処理時間が増加する。

一方、空間方向に展開する場合には、並列実行が行われる。この場合には、回路面積が大きくなり、柔軟性が低下するものの、処理時間が短くなる。

図２８に示すように、ＣＮＮは、ループＬ１～ループＬ７の７重ループで処理を表せる。ループＬ１では、前層の入力が必要なので、逐次処理又はパイプライン処理が一般的である。ループＬ２では、出力を並列で出すために、演算ユニットを複数準備して並列処理することが多い。ループＬ３では、画像データを垂直方向に走査すると連続とならないため一般的に逐次処理が行われる。

このように、ＣＮＮの層によってループのどこを時間・空間方向に展開するが異なる。

次に、（例１）１層目Ｉｎｔ８×２値の処理について説明する。特徴マップの特徴量ｘをＩｎｔ８とし、重みＷを２値とし、入力チャネル数ｉｃｈ＝３、出力チャネル数ｏｃｈ＝６４の場合を例に説明する。

まず、以下の表３に示すように、出力チャネルに対するループＬ２で並列処理を行い、その他のループでは逐次処理を行う。

ここで、各記号について以下のように定義する（図２９参照）。

ｉｃｈ０：入力チャンネル０
ｏｃｈ０：出力チャンネル０
Ｗ０：出力チャンネル０の重み
ｗ０：入力チャンネル０の重み
Ｗ０ｗ０：出力チャンネル０入力チャンネル０の重み
ｘ＝０，ｙ＝０：入出力チャンネルの画素の座標
ｋｘ＝０，ｋｙ＝０：重みカーネルの座標（３×３の時は０≦ｋｘ，ｋｙ＜３）

ループＬ２の並列処理では、図２９に示すように、複数の出力チャネルに対して並列に畳込み演算の処理結果が出力されるように実行される。

具体的には、図３０に示すように、エンコーダ８８により出力される１回目の選択信号に応じて、出力チャネルｏｃｈ０～ｏｃｈ７のｘ＝０，ｙ＝０の一部を計算する。このとき、入力チャネルｉｃｈ０のｘ＝０，ｙ＝０で、出力チャネル０の重みＷ０のｗ０～出力チャネル７の重みＷ７のｗ０のｋｘ＝０，ｋｙ＝０を、データ処理部５６により並列に計算する。

そして、図３１に示すように、エンコーダ８８により出力される２回目の選択信号に応じて、出力チャネルｏｃｈ０～ｏｃｈ７のｘ＝０，ｙ＝０の一部を計算する。このとき、入力チャネルｉｃｈ１のｘ＝０，ｙ＝０で、出力チャネル０の重みＷ０のｗ１～出力チャネル７の重みＷ７のｗ１のｋｘ＝０，ｋｙ＝０を、データ処理部５６により並列に計算する。

１層目計算の全体のタイムチャートを、図３２に示す。

まず、レジスタ９４にバイアス項をロードしておく。そして、エンコーダ８８により出力される１回目～２１６回目の選択信号の各々に応じて以下のように計算される。

１回目：ｏｃｈ０～ｏｃｈ７のｘ＝０，ｙ＝０の一部を計算する。ｉｃｈ０のｘ＝０，ｙ＝０でＷ０のｗ０～Ｗ７のｗ０のｋｘ＝０，ｋｙ＝０を、並列に計算する（並列数は８）。
２回目：ｏｃｈ０～ｏｃｈ７のｘ＝０，ｙ＝０の一部を計算する。ｉｃｈ１のｘ＝０，ｙ＝０でＷ０のｗ１～Ｗ７のｗ１のｋｘ＝０，ｋｙ＝０を、並列に計算する（並列数は８）。
３回目：ｏｃｈ０～ｏｃｈ７のｘ＝０，ｙ＝０の一部を計算する。ｉｃｈ２のｘ＝０，ｙ＝０でＷ０のｗ２～Ｗ７のｗ２のｋｘ＝０，ｋｙ＝０を、並列に計算する（並列数は８）。
この時点でｏｃｈ０～７のｘ＝０，ｙ＝０の畳込みのｋｘ＝０，ｋｙ＝０の計算が終了する。
４回目：ｏｃｈ０～ｏｃｈ７のｘ＝０，ｙ＝０の一部を計算する。ｉｃｈ０のｘ＝１，ｙ＝０でＷ０のｗ０～Ｗ７のｗ０のｋｘ＝１，ｋｙ＝０を、並列に計算する（並列数は８）。
．．．
２７回目：ｏｃｈ０～ｏｃｈ７のｘ＝０，ｙ＝０の一部を計算する。ｉｃｈ２のｘ＝２，ｙ＝２でＷ０のｗ２～Ｗ７のｗ２のｋｘ＝２，ｋｙ＝２を、並列に計算する（並列数は８）。
この時点でｏｃｈ０～ｏｃｈ７のｘ＝０，ｙ＝０の計算が終了する。
．．．
２１６回目：ｉｃｈ２のｘ＝２，ｙ＝２でＷ５５のｗ２～Ｗ６３のｗ２のｋｘ＝２，ｋｙ＝２を並列に計算する（並列数は８）。

２１６（回）＝２７×６４／８（回）である。ｏｃｈ０～２のすべてのｘ＝０，ｙ＝０の計算が終了し、レジスタ９４をリセットする。

そして、上記と同様の処理を、出力画像のサイズ分繰り返し実行する。

次に、（例２）２層目：２値×３値の処理について説明する。特徴マップの特徴量ｘを２値とし、重みＷを３値とし、入力チャネル数ｉｃｈ＝６４，出力チャネル数ｏｃｈ＝６４の場合を例に説明する。

まず、以下の表４に示すように、出力画素横方向に対するループＬ４、及びフィルタ横方向に対するループＬ６で並列処理を行い、その他のループでは逐次処理を行う。

ループＬ４、Ｌ６の並列処理では、図３３に示すように、横方向に対して並列に畳込み演算の処理結果が出力されるように実行される。

具体的には、図３４に示すように、エンコーダ８８により出力される１回目の選択信号に応じて、出力チャネルｏｃｈ０のｘ＝０，ｙ＝０～ｘ＝１０の一部を計算する。このとき、入力チャネルｉｃｈ０のｘ＝０，ｙ＝０～ｘ＝７，ｙ＝０と、出力チャネル０の重みＷ０のｋｘ＝０，ｋｙ＝０とｋｘ＝１，ｋｙ＝０とｋｘ＝２，ｋｙ＝０とを、データ処理部５６により並列に計算する。

そして、図３５に示すように、エンコーダ８８により出力される２回目の選択信号に応じて、出力チャネルｏｃｈ０のｘ＝０，ｙ＝０～ｘ＝１０の一部を計算する。このとき、入力チャネルｉｃｈ０のｘ＝０，ｙ＝１～ｘ＝７，ｙ＝１と、出力チャネル０の重みＷ０のｋｘ＝０，ｋｙ＝０とｋｘ＝１，ｋｙ＝０とｋｘ＝２，ｋｙ＝０とを、データ処理部５６により並列に計算する。

２層目計算の全体のタイムチャートを、図３６に示す。

まず、レジスタ９４にバイアス項をロードしておく。そして、エンコーダ８８により出力される１回目～１２２８８回目の選択信号の各々に応じて以下のように計算される。

１回目：ｏｃｈ０ｘ＝０，ｙ＝０～ｘ＝１０の一部を計算する。ｉｃｈ０のｘ＝０，ｙ＝０～ｘ＝７，ｙ＝０とＷ０ｗ０のｋｘ＝０，ｋｙ＝０とｋｘ＝１，ｋｙ＝０とｋｘ＝２，ｋｙ＝０を、並列に計算する（並列数は１１）。
２回目：ｏｃｈ０ｘ＝０，ｙ＝０～ｘ＝１０の一部を計算する。ｉｃｈ０のｘ＝０，ｙ＝１～ｘ＝７，ｙ＝１とＷ０ｗ０のｋｘ＝０，ｋｙ＝１とｋｘ＝１，ｋｙ＝１とｋｘ＝２，ｋｙ＝１を、並列に計算する（並列数は１１）。
３回目：ｏｃｈ０ｘ＝０，ｙ＝０～ｘ＝１０の一部を計算する。ｉｃｈ０のｘ＝０，ｙ＝２～ｘ＝７，ｙ＝２とＷ０ｗ０のｋｘ＝０，ｋｙ＝２とｋｘ＝１，ｋｙ＝２とｋｘ＝２，ｋｙ＝２を、並列に計算する（並列数は１１）。
この時点でｏｃｈ０のｘ＝０，ｙ＝０～ｘ＝１０，ｙ＝０の畳込みのｗ０の計算が終了となる。
４回目：ｏｃｈ０ｘ＝０，ｙ＝０～ｘ＝１０の一部を計算する。ｉｃｈ１のｘ＝０，ｙ＝０～ｘ＝７，ｙ＝０とＷ０ｗ１のｋｘ＝０，ｋｙ＝０とｋｘ＝１，ｋｙ＝０とｋｘ＝２，ｋｙ＝０を、並列に計算する（並列数は１１）。
．．．
１９２回目：ｏｃｈ０ｘ＝０，ｙ＝０～ｘ＝１０の一部を計算する。ｉｃｈ６３のｘ＝０，ｙ＝０～ｘ＝７，ｙ＝０とＷ０ｗ６３のｋｘ＝０，ｋｙ＝２とｋｘ＝１，ｋｙ＝２とｋｘ＝２，ｋｙ＝２を、並列に計算する（並列数は１１）。
この時点でｏｃｈ０のｘ＝０，ｙ＝０～ｘ＝１０，ｙ＝０の畳込みが計算完了となる。レジスタ９４をリセットする。
１９３回目：ｏｃｈ１ｘ＝０，ｙ＝０～ｘ＝１０の一部を計算する。ｉｃｈ０のｘ＝０，ｙ＝０～ｘ＝７，ｙ＝０とＷ１ｗ０のｋｘ＝０，ｋｙ＝０とｋｘ＝１，ｋｙ＝０とｋｘ＝２，ｋｙ＝０を、並列に計算する（並列数は１１）。
．．．
１２２８８回目（３×６４×６４回目）：ｏｃｈ６３ｘ＝０，ｙ＝０～ｘ＝１０の一部を計算する。ｉｃｈ６３のｘ＝０，ｙ＝０～ｘ＝７，ｙ＝０とＷ６３ｗ６３のｋｘ＝０，ｋｙ＝２とｋｘ＝１，ｋｙ＝２とｋｘ＝２，ｋｙ＝２を、並列に計算する（並列数は１１）。
この時点で出力ｘ＝０，ｙ＝０～ｘ＝１０，ｙ＝０の畳込み計算が完了となる。

次に、（例３）８層目：Ｉｎｔ８×Ｉｎｔ８の処理について説明する。特徴マップの特徴量ｘをＩｎｔ８とし、重みＷをＩｎｔ８とし、入力チャネル数ｉｃｈ＝３２，出力チャネル数ｏｃｈ＝３２の場合を例に説明する。

まず、以下の表５に示すように、全てのループで逐次処理を行う。

高精度な演算であるため、図３７に示すように、畳込み演算の処理結果が逐次出力されるように実行される。

具体的には、図３８（Ａ）に示すように、エンコーダ８８により出力される１回目の選択信号に応じて、出力チャネルｏｃｈ０のｘ＝０，ｙ＝０の一部を計算する。このとき、入力チャネルｉｃｈ０のｘ＝０，ｙ＝０で、出力チャネル０の重みＷ０のｋｘ＝０，ｋｙ＝０を、データ処理部５６により計算する。

そして、図３８（Ｂ）に示すように、エンコーダ８８により出力される２回目の選択信号に応じて、出力チャネルｏｃｈ０のｘ＝０，ｙ＝０の一部を計算する。このとき、入力チャネルｉｃｈ１のｘ＝０，ｙ＝０で、出力チャネル０の重みＷ１のｋｘ＝０，ｋｙ＝０を、データ処理部５６により並列に計算する。

８層目計算の全体のタイムチャートを、図３９に示す。

まず、レジスタ９４にバイアス項をロードしておく。そして、エンコーダ８８により出力される１回目～２８９回目の選択信号の各々に応じて以下のように計算される。

１回目：ｏｃｈ０のｘ＝０，ｙ＝０の一部を計算する。ｉｃｈ０のｘ＝０，ｙ＝０でＷ０のｗ０のｋｘ＝０，ｋｙ＝０を計算する。
２回目：ｏｃｈ０のｘ＝０，ｙ＝０の一部を計算する。ｉｃｈ１のｘ＝０，ｙ＝０でＷ０のｗ１のｋｘ＝０，ｋｙ＝０を計算する。
．．．
３２回目：ｏｃｈ０のｘ＝０，ｙ＝０の一部を計算する。ｉｃｈ３１のｘ＝０，ｙ＝０でＷ０のｗ３１のｋｘ＝０，ｋｙ＝０を計算する。
この時点でｏｃｈ０のｘ＝０，ｙ＝０の一部の畳込みの（ｋｘ＝０，ｋｙ＝０）が終了となる。
３３回目：ｏｃｈ０のｘ＝０，ｙ＝０の一部を計算する。ｉｃｈ０の座標ｘ＝１，ｙ＝０でＷ０のｗ０のｋｘ＝１，ｋｙ＝０を計算する。
．．．
２８８回目：ｏｃｈ０のｘ＝０，ｙ＝０の一部を計算する。ｉｃｈ３１の座標ｘ＝２，ｙ＝２でＷ０のｗ２のｋｘ＝２，ｋｙ＝２を計算する。
ｏｃｈ０のｘ＝０，ｙ＝０の計算が終了となる。レジスタ９４をリセットする。
２８９回目：ｏｃｈ０のｘ＝１，ｙ＝０の一部を計算する。ｘ＝２，ｙ＝２でＷ５５のｗ２～Ｗ６３のｗ２のｋｘ＝２，ｋｙ＝２を計算する。

そして、上記と同様の処理を、ｏｃｈ分（６４回）×出力画像サイズ分繰り返しを行えば良い。

以上説明したように、本発明の実施の形態に係る演算処理装置によれば、ニューラルネットワークの層毎に、非乗数又は乗数の精度を、高精度又は低精度に切り替えて畳込み演算でき、かつ、低精度の畳込み演算を効率的に行うことができる。

また、実数・整数演算の乗算器を用いて、面積増加を抑えつつも従来の乗算だけでなく、２値・３値の乗算も効率的に行え、高精度・低精度の畳込み演算を可変して実行できる。

また、本発明の実施の形態に係る演算処理装置を用いることで、演算精度を変更し、必要な認識精度を維持しつつも、従来よりも省面積・高速にニューラルネットワークの計算が実行できる。

＜変形例１＞
特徴量および重み係数の部分積の計算を並列に行い、部分積すべてもしくは一部を前記特徴量および重み係数のビット幅より決定されるシフトを行った上で同時に加算するように構成してもよい。

例えば、図４０に示すように、乗数部６４のシフト回路８６及びエンコーダ８８を並列数分だけ設け、被乗数部６２のマルチプレクサ８２を並列数分だけ設け、加算部６６のデータ整形部９０を並列数だけ設けるように構成すればよい。

＜変形例２＞
また、図４１に示すように、加算計算が完了した部分積の和を、順次、記憶素子（例えば、入力バッファ部５４内のメモリ）へ書き出すように制御してもよい。これにより、加算器９２とレジスタ９４のビット幅を削減することができる。

例えば、図４２に示すように、エンコーダ８８によりｋ回目に決定された選択信号に応じて得られた部分積を加算するために使用される加算器９５（図４２の斜線部分及びドット部分）は一部であり、その他の加算器９５は未使用である。そこで、部分積の加算が完了した加算器９５（図４２のドット部分）のレジスタ９７の値を、記憶素子に書き出すようにする。これにより、加算器９５を節約できる。この例の場合には、加算器９５は２個（２分割）で十分である。

＜変形例３＞
上記変形例２で説明したように、加算計算が完了した部分積の和を、順次、記憶素子へ書き出すように制御した場合に、畳込み演算では、乗算と加算を複数回繰り返すため、図４３に示すように、記憶素子から必要な部分積の和を読み出すことで、加算器９２とレジスタ９４のビット幅を削減することができる。

例えば、前回までの部分積の和を、記憶素子から読み出して、予め、レジスタ９７に格納しておくことで、連続した実行でも加算器９５を削減することができる。具体的には、図４４に示すように、エンコーダ８８によりｋ＝１回目の選択信号を決定する前に、前回までの部分積の和（図４４の右下斜め方向の斜線部分）を読み出してレジスタ９７に格納しておく。ｋ＝２回目以降についても、直前までに、前回までの部分積の和（図４４の右下斜め方向の斜線部分）を読み出してレジスタ９７に格納しておく。

＜変形例４＞
変換回路７４が、ビット反転ではなく、－１倍を作る回路となるように構成してもよい。この場合には、変換回路７４を選んだ場合の後段の加算器９５での＋１が不要となる。

＜変形例５＞
被乗数部６２、乗数部６４、及び加算部６６を、Ｂｏｏｔｈエンコーダを用いて構成した場合を例に説明したが、これに限定されるものではなく、被乗数部６２、乗数部６４、及び加算部６６を、Ｂｏｏｔｈエンコーダを用いずに構成してもよい。例えば、被乗数部６２、乗数部６４、及び加算部６６を、Ｗａｌｌａｃｅツリーを用いて構成してもよい。

＜変形例６＞
上記実施の形態において、被乗数部６２及び乗数部６４を入れ替えるように構成してもよい。

＜変形例７＞
また、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

５０制御部
５２メモリ
５４入力バッファ部
５６データ処理部
５８出力バッファ部
６０バス
６２被乗数部
６４乗数部
６６加算部
７０レジスタ
７２、７４、７６、７８、８０変換回路
８２マルチプレクサ
８４、９４、９７レジスタ
８６シフト回路
８８エンコーダ
９０データ整形部
９２、９５加算器
９６選択回路
１００演算処理装置

Claims

特徴量が１次元以上の格子状に配置された特徴マップに対して、重み係数が１次元以上の格子状に配置されたフィルタをスライドさせながら畳込み演算を行うための畳込み演算方法であって、
乗算器の被乗数部及び乗数部の何れか一方に少なくとも１つの前記特徴量を配置し、前記乗算器の乗数部及び被乗数部の何れか他方に少なくとも１つの前記重み係数を配置して、前記特徴量と前記重み係数との乗算、及び乗算結果の加算を繰り返し実行して、前記畳込み演算を行うことを含み、
前記被乗数部及び乗数部の何れか一方に配置される値は、前記被乗数部及び乗数部の何れか他方と同じビット幅の値であるか、又は、－１、０、及び＋１のいずれかであり、
前記乗数部に配置される値のビット幅又は値の種類数に応じて、Ｂｏｏｔｈエンコーダの出力を切り替え、前記Ｂｏｏｔｈエンコーダの出力に応じて定まる、前記被乗数部に配置される値への係数と、前記被乗数部に配置された値とから求められる部分積を加算することを繰り返し実行することにより、前記畳込み演算を実行する
畳込み演算方法。
前記乗数部に配置された値の一部に応じて、前記被乗数部に配置された値の－２倍、ビット反転、０倍、１倍、及び２倍のいずれかから選択した部分積を求め、前記部分積を加算することを繰り返し実行することにより、前記畳込みを実行し、
前記ビット反転が選択された場合、前記部分積を加算する際に更に１を加算する請求項１記載の畳込み演算方法。
前記被乗数部に配置される複数の値と、前記乗数部に配置される値とから求められる複数の部分積を、少なくとも１つの加算器で同時に加算するために、前記複数の部分積を、前記少なくとも１つの加算器に分配すると共に、加算時の桁上げ出力に応じて、前記部分積毎に所定ビットのスペースを挿入して、前記加算器に入力する請求項１又は２記載の畳込み演算方法。
前記被乗数部に配置される複数の値と、前記乗数部に配置される値との部分積の計算を並列に行う請求項３記載の畳込み演算方法。
前記部分積の加算が完了した場合に、前記部分積の加算により求められた和を、順次、メモリへ書き出す請求項１～請求項４の何れか１項記載の畳込み演算方法。
前記部分積の計算、及び前記部分積の加算を繰り返し実行する場合において、順次、前記メモリから前記和を読み出し、
前記メモリから読み出した和に対して、前記部分積を加算する請求項５記載の畳込み演算方法。
特徴量が１次元以上の格子状に配置された特徴マップに対して、重み係数が１次元以上の格子状に配置されたフィルタをスライドさせながら畳込み演算を行うための演算処理装置であって、
被乗数部及び乗数部を備えた乗算器と、
加算器と、
乗算器の被乗数部及び乗数部の何れか一方に少なくとも１つの前記特徴量を配置し、前記乗算器の乗数部及び被乗数部の何れか他方に少なくとも１つの前記重み係数を配置して、前記特徴量と前記重み係数との乗算、及び乗算結果の加算を繰り返し実行して、前記畳込み演算を行うように、前記乗算器及び前記加算器を制御する制御部と、
を含み、
前記被乗数部及び乗数部の何れか一方に配置される値は、前記乗数部及び被乗数部の何れか他方と同じビット幅の値であるか、又は、－１、０、及び＋１のいずれかであり、
前記乗数部に配置される値のビット幅又は値の種類数に応じて、Ｂｏｏｔｈエンコーダの出力を切り替え、前記Ｂｏｏｔｈエンコーダの出力に応じて定まる、前記被乗数部に配置される値への係数と、前記被乗数部に配置された値とから求められる部分積を加算することを繰り返し実行することにより、前記畳込み演算を実行する
演算処理装置。
ニューラルネットワークを用いた画像処理の一部として、前記畳込み演算を行う請求項７記載の演算処理装置。