JP7033507B2

JP7033507B2 - ニューラルネットワーク用プロセッサ、ニューラルネットワーク用処理方法、および、プログラム

Info

Publication number: JP7033507B2
Application number: JP2018143466A
Authority: JP
Inventors: 真人松本; 康史石尾
Original assignee: MegaChips Corp
Current assignee: MegaChips Corp
Priority date: 2018-07-31
Filing date: 2018-07-31
Publication date: 2022-03-10
Anticipated expiration: 2038-07-31
Also published as: WO2020026475A1; JP2020021208A

Description

本発明は、ニューラルネットワークの技術に関する。

近年、ニューラルネットワーク技術の１つである、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いた多様な技術が開発されている（例えば、特許文献１を参照）。ＣＮＮの中でも、中間層を多く設けたＤＣＮＮ（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いた技術が、多様な分野で成果を上げているため、特に注目を集めている。

特開２０１５－１９７７０２号公報

ＤＣＮＮは、一般物体認識やセマンティックセグメンテーション等の様々なタスクにおいて高い認識性能を実現している。その一方で、ＤＣＮＮは、処理を実行するために必要な計算量とパラメータ数が非常に多いため、処理を実行するときに、膨大な処理時間と多大なメモリ量が必要となる。

また、ＤＣＮＮでは、層をより深くすることで認識精度が向上する傾向が見られ、これに伴い識別時間（処理時間）に加えモデルサイズも増加するという問題が発生する。組み込み機器やモバイル機器等の低スペックのデバイスでＤＣＮＮを使用するには、識別計算の高速化とモデルサイズの圧縮が大きな課題となる。

つまり、組み込み機器やモバイル機器等の低スペックのデバイス（例えば、エッジ端末）において、大規模システムで学習し取得した学習済みモデルをそのまま搭載することは困難であり、低スペックのデバイスにおいて、コンパクト化したモデルを構築する必要がある。

組み込み機器やモバイル機器等の低スペックのデバイス（例えば、エッジ端末）に、大規模システムで学習し取得した学習済みモデルを搭載するためには、低スペックのデバイスにおいて、当該学習済みモデルのコンパクト化したモデルを構築し、当該学習済みモデルに用いた学習用データを用いて、再度、コンパクト化したモデルにおいて、学習させる必要がある（この学習を「再学習」という）。

つまり、組み込み機器やモバイル機器等の低スペックのデバイス（例えば、エッジ端末）で、大規模システムで学習し取得した学習済みモデルを搭載するためには、再学習が必要となるという課題がある。

そこで、本発明は、上記課題に鑑み、再学習を必要とせず、組み込み機器やモバイル機器等の低スペックのデバイス（例えば、エッジ端末）において、高性能なコンパクト化したモデルを搭載することができるニューラルネットワーク用プロセッサ、ニューラルネットワーク用データ処理方法、および、プログラムを実現することを目的とする。

上記課題を解決するために、第１の発明は、畳み込み層の処理と全結合層の処理とを含む多値化ニューラルネットワーク用処理を実行するためのニューラルネットワーク用プロセッサであって、制御部と、量子化処理部と、内積処理部と、を備える。

制御部は、実数ベクトルデータであるスケーリング係数ベクトルを設定するとともに、多値データを要素とする多値基底行列を設定する。

量子化処理部は、畳み込み層に入力される特徴マップおよび全結合層に入力される特徴ベクトルに対して量子化処理を実行する。また、量子化処理部は、特徴マップの最小値および特徴ベクトルの最小値が所定の値よりも小さい値となるようにオフセット値を設定し、特徴マップおよび特徴ベクトルの最大値および最小値に基づいて取得される量子化幅を用いて量子化処理を実行する。

内積処理部は、（１）特徴マップおよび特徴ベクトルのノルムを算出するノルムモードと、（２）多値基底行列と量子化処理後の特徴マップまたは特徴ベクトルとを用いた内積演算処理を実行する内積演算モードとを有する。内積処理部は、ノルムモードの処理、および、内積演算モードを組み合わせた処理を実行することで、畳み込み層の処理と全結合層の処理とを実行する。

このニューラルネットワーク用プロセッサでは、畳み込み層の処理と、全結合層の処理において、同様の処理が実行される部分を共通化し、２つのモード（（１）ノルムモード、（２）内積演算モード）の処理を組み合わせた処理を実行することで、畳み込み層の処理と全結合層の処理とを実行することができる。したがって、このニューラルネットワーク用プロセッサでは、ハードウェア規模の増大を抑制しつつ、ニューラルネットワーク用処理を高速に実行することができる。

第２の発明は、第１の発明であって、内積処理部は、ノルムモード用マイクロコードと、内積演算モード用マイクロコードとを取得するマイクロコード取得部と、マイクロコードに基づいて、算術演算処理を実行する算術演算処理部と、を備える。
（１）ノルムモードに設定されている場合、
マイクロコード取得部は、ノルムモード用マイクロコードを取得し、算術演算処理部は、ノルムモード用マイクロコードに基づいて、算術演算処理を実行する。
（２）内積演算モードに設定されている場合、
マイクロコード取得部は、内積演算モード用マイクロコードを取得し、算術演算処理部は、内積演算モード用マイクロコードに基づいて、算術演算処理を実行する。

このニューラルネットワーク用プロセッサでは、畳み込み層の処理と、全結合層の処理において、同様の処理が実行される部分を共通化し、２つのモード（（１）ノルムモード、（２）内積演算モード）の処理を、各モードに対応するマイクロコードにより処理することで実行する。そして、このニューラルネットワーク用プロセッサでは、畳み込み層の処理と全結合層の処理とにおいて、相違する部分の処理を、上記の２つのモードの処理を適切な順序で組み合わせることで実現する。したがって、このニューラルネットワーク用プロセッサでは、ハードウェア規模の増大を抑制しつつ、ニューラルネットワーク用処理を高速に実行することができる。

第３の発明は、第１または第２の発明であって、内積処理部は、畳み込み層の処理を実行する場合、
（１）ノルムモードの処理を、処理対象の畳み込み層の特徴マップ数分繰り返し実行し、
（２）内積演算モードの処理を、各特徴マップについてノルムモードの処理が実行されるごとに、処理対象の畳み込み層の出力数分繰り返し実行する。

これにより、このニューラルネットワーク用プロセッサでは、２つのモードによる処理を組み合わせることで、畳み込み層の処理を実行することができる。

第４の発明は、第１から第３のいずれかの発明であって、内積処理部は、全結合層の処理を実行する場合、
（１）処理対象の全結合層につき、ノルムモードの処理を１回実行し、
（２）内積演算モードの処理を、処理対象の全結合層の出力数分繰り返し実行する。

これにより、このニューラルネットワーク用プロセッサでは、２つのモードによる処理を組み合わせることで、全結合層の処理を実行することができる。

第５の発明は、畳み込み層の処理と全結合層の処理とを含む多値化ニューラルネットワーク用処理を実行するためのニューラルネットワーク用処理方法であって、制御ステップと、量子化処理ステップと、内積処理ステップと、を備える。

制御ステップは、実数ベクトルデータであるスケーリング係数ベクトルを設定するとともに、多値データを要素とする多値基底行列を設定する。

量子化処理ステップは、畳み込み層に入力される特徴マップおよび全結合層に入力される特徴ベクトルに対して量子化処理を実行する。また、量子化処理ステップは、特徴マップの最小値および特徴ベクトルの最小値が所定の値よりも小さい値となるようにオフセット値を設定し、前記特徴マップおよび前記特徴ベクトルの最大値および最小値に基づいて取得される量子化幅を用いて量子化処理を実行する。

内積処理ステップは、（１）特徴マップおよび特徴ベクトルのノルムを算出するノルムモードと、（２）多値基底行列と量子化処理後の特徴マップまたは特徴ベクトルとを用いた内積演算処理を実行する内積演算モードとを有する。内積処理ステップは、ノルムモードの処理、および、内積演算モードを組み合わせた処理を実行することで、畳み込み層の処理と全結合層の処理とを実行する。

これにより、第１の発明と同様の効果を奏するニューラルネットワーク用処理方法を実現させることができる。

第６の発明は、第５の発明であるニューラルネットワーク用処理方法をコンピュータに実行させるためのプログラムである。

これにより、第１の発明と同様の効果を奏するニューラルネットワーク用処理方法をコンピュータに実行させるためのプログラムを実現させることができる。

本発明によれば、再学習を必要とせず、組み込み機器やモバイル機器等の低スペックのデバイス（例えば、エッジ端末）において、高性能なコンパクト化したモデルを搭載することができるニューラルネットワーク用プロセッサ、ニューラルネットワーク用処理方法、および、プログラムを実現することができる。

第１実施形態に係る二値化ニューラルネットワーク用プロセッサ１００の概略構成図。第１実施形態に係る内積処理部３の概略構成図。Ｏｆｆｓｅｔモードの処理を説明するための図。Ｎｏｒｍモードの処理を説明するための図。ＤＰモード（内積演算処理モード）の処理を説明するための図。ＣＰＵバス構成を示す図。

［第１実施形態］
第１実施形態について、図面を参照しながら、以下、説明する。

＜１．１：二値化ニューラルネットワーク用プロセッサの構成＞
図１は、第１実施形態に係る二値化ニューラルネットワーク用プロセッサ１００の概略構成図である。

図２は、第１実施形態に係る内積処理部３の概略構成図である。

二値化ニューラルネットワーク用プロセッサ１００は、図１に示すように、入出力インターフェースＩＦ１と、制御部ＣＰＵ１と、演算処理部ＰＬ１と、バスＢ１とを備える。入出力インターフェースＩＦ１と、制御部ＣＰＵ１と、演算処理部ＰＬ１とは、図１に示すように、バスＢ１により接続されており、必要なデータ、コマンド等を、バスＢ１を介して、入出力することができる。なお、上記機能部の一部または全部は、バス接続ではなく、必要に応じて、直接接続されるものであってもよい。

入出力インターフェースＩＦ１は、外部から処理対象となるデータＤｉｎを入力し、二値化ニューラルネットワーク用プロセッサにより処理結果を含むデータをデータＤｏｕｔとして外部に出力する。

制御部ＣＰＵ１は、二値化ニューラルネットワーク用プロセッサ１００の全体制御、各機能部の制御および二値化ニューラルネットワーク用処理に必要な処理を行う。制御部ＣＰＵ１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＣＰＵコアにより実現される。

制御部ＣＰＵ１は、例えば、大規模システムでの学習済みモデルのパラメータ（重み付けデータ）を近似するスケーリング係数ベクトルｖ＿ｃおよび二値基底行列Ｍを取得（設定）し、取得（設定）したスケーリング係数ベクトルｖ＿ｃおよび二値基底行列Ｍを、それぞれ、内部ＲＡＭＲ１の領域ＣＶ、および領域ＢｉｎＭｔｘ０／１に記憶保持させる。

なお、上記スケーリング係数ベクトルｖ＿ｃおよび二値基底行列Ｍは、入出力インターフェースＩＦ１を介して、外部から、二値化ニューラルネットワーク用プロセッサ１００に入力されるものであってもよい。

演算処理部ＰＬ１は、図１に示すように、ＤＭＡ制御部１と、量子化処理部２と、内積処理部３と、内部ＲＡＭＲ１と、を備える。

ＤＭＡ制御部１は、ＤＭＡ転送処理（ＤＭＡ：ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）を行う。

量子化処理部２は、ＤＣＮＮ（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）の畳み込み層の入力である特徴マップのデータに対して、量子化処理を行う。また、量子化処理部２は、ＤＣＮＮの全結合層の入力データに対して、量子化処理を行う。

内積処理部３は、図２に示すように、ＡＮＤ処理部３１と、セレクタ３２と、カウント処理部３３と、マイクロコード取得部３４と、ＡＬＵ３５（ＡＬＵ：ＡｒｉｔｈｍｅｔｉｃＬｏｇｉｃＵｎｉｔ）と、を備える。

ＡＮＤ処理部３１は、データＤ２（例えば、内部ＲＡＭＲ１（領域ＢｉｎＭｔｘ０／１）から取得される重みベクトルの整数部のデータ）とデータＤ３（例えば、内部ＲＡＭＲ１（領域ＢｉｎＩｎＴ）から取得されるデータであって、ビット分解され、さらに量子化処理が実行されたデータ）とを入力し、データＤ２とデータＤ３とに対してＡＮＤ処理を実行し、実行結果を含むデータをデータＤ４としてセレクタ３２に出力する。

セレクタ３２は、データＤ２とデータＤ４と、モードを指示する信号ｄｐ＿ｍｏｄｅとを入力する。セレクタ３２は、信号ｄｐ＿ｍｏｄｅに基づいて、データＤ２およびデータＤ４のいずれか一方を選択し、選択したデータをデータＤ５としてカウント処理部３３に出力する。

カウント処理部３３は、セレクタ３２から出力されるデータＤ５を入力し、データＤ５に対してカウント処理を実行する。そして、カウント処理部３３は、処理結果を含むデータをデータＤ６として、ＡＬＵ３５に出力する。

マイクロコード取得部３４は、マイクロコードμＣｏｄｅ（例えば、モードに応じたマイクロコード）を取得し、取得したマイクロコードμＣｏｄｅをＡＬＵ３５に出力する。モードとして、例えば、（１）Ｏｆｆｓｅｔモード、（２）Ｎｏｒｍモード、（３）ＤＰモードが設定される。
なお、「Ｏｆｆｓｅｔモード」は、畳み込み層に入力される特徴マップおよび全結合層に入力される特徴ベクトルに対して量子化処理を実行する場合において、特徴マップの最小値および特徴ベクトルの最小値が所定の値よりも小さい値となるように設定されるオフセット値を取得する処理を実行するためのモードである。
「Ｎｏｒｍモード」は、特徴マップおよび特徴ベクトルのノルムを算出する処理を実行するためのモードである。
「ＤＰモード」は、多値基底行列と量子化処理後の特徴マップまたは特徴ベクトルとを用いた内積演算処理を実行するためのモードである。

ＡＬＵ３５は、データＤ１（例えば、内部ＲＡＭＲ１（領域ＣＶ）から取得される重みベクトルの実数部のデータ（スケール係数ベクトル））と、カウント処理部３３から出力されるデータＤ６と、マイクロコード取得部３４から出力されるマイクロコードμＣｏｄｅとを入力する。ＡＬＵ３５は、マイクロコードμＣｏｄｅに基づいて、算術演算を行い、当該算術演算の結果を含むデータをデータＤｏとして出力する。

内部ＲＡＭＲ１は、二値化ニューラルネットワーク用処理を実行するために必要なデータを記憶保持するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）である。

＜１．２：二値化ニューラルネットワーク用プロセッサの動作＞
以上のように構成された二値化ニューラルネットワーク用プロセッサ１００の動作について、以下、説明する。

一般に、ＣＮＮでは、入力層と、畳み込み層（コンボリューション層）と、全結合層とを含む。例えば、二値化ニューラルネットワーク用プロセッサ１００の入出力インターフェースＩＦ１に、入力データＤｉｎとして、画像データが入力され、ＣＮＮによる画像認識処理が実行され、画像認識処理結果が出力データＤｏｕｔとして外部に出力される。

ＣＮＮでは、畳み込み層の処理、あるいは、全結合層の処理において、入力データに対して重み演算処理が実行され、当該処理結果に対して活性化関数（例えば、ランプ関数（ＲｅＬＵ：ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）、シグモイド関数、Ｓｏｆｔｍａｘ関数等）により処理が実行されることで、畳み込み層あるいは全結合層の出力が得られる。

また、下記先行技術文献Ａに開示されているように、Ｂｉｎａｒｉｚｅｄ－ＤＣＮＮ（ＤＣＮＮ：ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）（以下、「ＢＮＮ」という）では、Ｑｕａｎｔｉｚａｔｉｏｎｓｕｂ－ｌａｙｅｒと結合係数の二値分解を導入し、実数同士の内積計算を二値同士の内積計算に置換することで、既存のネットワークモデルに対して再学習なしに識別計算の高速化およびモデルサイズの圧縮を実現することができる。ＢＮＮの二値同士の演算は、ＸＯＲやＡＮＤ等の論理演算とビットカウントにより高速な演算が可能となる。
（先行技術文献Ａ）：
神谷龍司等 “Binarized-DCNNによる識別計算の高速化とモデル圧縮” 信学技報 116(366), 47-52, 2016-12-15 電子情報通信学会
上記先行技術文献Ａの開示に基づいて、ＢＮＮの識別計算の基本式を、下記（数式１）のように導出することができる。
（数式１）：
ｙ_ｉｊｎ＝ｃ_ｎ ^ＴＭ_ｎ ^ＴＢ_ｉｊｒ_ｉｊ＋ｍｉｎ（ｘ）Ｏｆｆｓｅｔ
ｙ_ｉｊｎ：ｎ番目の特徴マップの出力（特徴マップの座標（ｉ，ｊ）の出力値）
ｃ_ｎ ^Ｔ：ｎ番目の特徴マップのスケール係数ベクトルｃ_ｎの転置行列
Ｍ_ｎ ^Ｔ：ｎ番目の特徴マップの二値基底行列の転置行列
Ｂ_ｉｊｒ_ｉｊ：二値特徴マップ（量子化後の二値特徴マップ）
ｍｉｎ（ｘ）：ｎ番目の特徴マップの各要素の値のうちの最小値
Ｏｆｆｓｅｔ：Ｏｆｆｓｅｔモードで取得される結果
また、Ｍ_ｎ ^Ｔ∈｛－１，１｝とＢ_ｉｊｒ_ｉｊ∈｛－１，１｝とは二値であるため、下記（数式２）を用いて論理演算とビットカウントで計算することができる。
（数式２）：
Ｍ_ｎ ^ＴＢ_ｉｊｒ_ｉｊ
＝２×ＢＩＴＣＮＴ（ＡＮＤ（Ｍ_ｎ ^Ｔ，Ｂ_ｉｊｒ_ｉｊ））－Ｎｏｒｍ（ｚ）
ｚ＝Ｂ_ｉｊｒ_ｉｊ
Ｎｏｒｍ（ｚ）：ｚのノルムを取得する関数
ＢＩＴＣＮＴ（ｘ）：バイナリコードｘにおいて、「１」であるビット数をカウントする関数
二値化ニューラルネットワーク用プロセッサ１００では、畳み込み層の処理と、全結合層の処理において、同様の処理が実行される部分を共通化することで、ハードウェア規模の増大を抑制しつつ、高速処理を実現させる。

以下では、「畳み込み層の処理」と「全結合層の処理」とに分けて、二値化ニューラルネットワーク用プロセッサ１００の動作について説明する。

図３は、Ｏｆｆｓｅｔモードの処理を説明するための図である。

図４は、Ｎｏｒｍモードの処理を説明するための図である。

図５は、ＤＰモード（内積演算処理モード）の処理を説明するための図である。

二値化ニューラルネットワーク用プロセッサ１００では、（１）Ｏｆｆｓｅｔモード、（２）Ｎｏｒｍモード、（３）ＤＰモードの３つのモードを用いて、処理が実行される。

（１．２．１：畳み込み層の処理）
まず、畳み込み層の処理について、説明する。

二値化ニューラルネットワーク用プロセッサ１００の量子化処理部２は、第ｌ層（ｌ：自然数）におけるｍ番目（ｍ：自然数）の特徴マップｚ^ｌ _ｉｊｍにおける最大値－最小値間の量子化幅Δｄを、
Δｄ＝｛ｍａｘ（ｚ^ｌ _ｉｊｍ）－ｍｉｎ（ｚ^ｌ _ｉｊｍ）｝／（２^Ｑ－１）
ｍａｘ（ｘ）：ｘの最大値を取得する関数
ｍｉｎ（ｘ）：ｘの最小値を取得する関数
Ｑ：量子化ビット数
として取得する。

そして、量子化処理部２は、特徴マップの最小値が０となるように値をシフトさせる。つまり、量子化処理部２は、
ｚ^ｌ _ｉｊｍ’＝｛ｚ^ｌ _ｉｊｍ－ｍｉｎ（ｚ^ｌ _ｉｊｍ）｝／Ｑ
に相当する処理を実行し、さらに、上記数式により取得された値を四捨五入して整数値に丸め量子化する。さらに、量子化処理部２は、丸め量子化により取得された値に対して、二値化処理をすることで、バイナリコードｚ^ｌ _ｉｊｍ ^（ｂ）∈｛０，１｝を取得する。

上記のようにして取得されたバイナリコードｚ^ｌ _ｉｊｍ ^（ｂ）∈｛０，１｝（量子化処理後の特徴マップＢ_ｉｊｒ_ｉｊ）は、内部ＲＡＭの領域ＢｉｎＩｎＴに記憶保持される。

畳み込み層の処理において、以下のことが成り立つ。
（１）量子化処理後の特徴マップＢ_ｉｊｒ_ｉｊは、特徴マップごとに変化する（入れ替わる）。
（２）上記（数式１）の右辺の第２項、すなわち、ｍｉｎ（ｘ）Ｏｆｆｓｅｔの値は、特徴マップに関わらず、一定である。

二値化ニューラルネットワーク用プロセッサ１００では、上記を考慮して、畳み込み層の処理を以下の疑似コードに相当する処理により実行する。
≪畳み込み層の処理の擬似コード≫
For (出力数)
Operate_offset(); // オフセット復元処理
For (特徴マップ数)
Operate_Norm(); // ノルムの計算（数式２）の右辺の第２項に相当する処理
For (出力数)
Operate_dp(); // 内積計算
二値化ニューラルネットワーク用プロセッサ１００は、
（１）上記のオフセット復元処理をＯｆｆｓｅｔモードの処理で実行し、
（２）上記のノルム計算の処理をＮｏｒｍモードの処理で実行し、
（３）上記の内積計算の処理をＤＰモード（内積演算処理モード）の処理で実行する。

以下、これについて、説明する。

（１．２．１．１：Ｏｆｆｓｅｔモードの処理（畳み込み層の処理））
Ｏｆｆｓｅｔモードの処理について、説明する。

図３に示すように、データＤ２が、セレクタ３２に入力される。

セレクタ３２では、信号値が「０」に設定されたモード信号ｄｐ＿ｍｏｄｅが入力されており、セレクタ３２は、当該モード信号ｄｐ＿ｍｏｄｅに基づいて、データＤ２を選択し、データＤ５としてカウント処理部３３に出力する。

カウント処理部３３は、Ｏｆｆｓｅｔモードにおいて、入力データＤ５を、そのまま、データＤ６として、ＡＬＵ３５に出力する。

マイクロコード取得部３４は、Ｏｆｆｓｅｔモード用のマイクロコードμＣｏｄｅ（Ｏｆｆｓｅｔ＿ｍｏｄｅ）を取得し、ＡＬＵ３５に出力する。なお、Ｏｆｆｓｅｔモード用のマイクロコードμＣｏｄｅ（Ｏｆｆｓｅｔ＿ｍｏｄｅ）は、例えば、以下の処理をＡＬＵ３５に実行させるコードである。
（１）ｍｉｎ（ｘ）のロード（読み出し）
（２）データＤ１（＝ｃ_ｎ ^Ｔ）と、データＤ６（＝Ｍ_ｎ ^Ｔ）と、ｍｉｎ（ｘ）との乗算処理
なお、ｍｉｎ（ｘ）は、量子化処理が実行されるときに取得した値を、例えば、内部ＲＡＭＲ１に記憶保持しておき、マイクロコード取得部３４が、ｍｉｎ（ｘ）のデータを、内部ＲＡＭＲ１から読み出すようにしてもよい。

ＡＬＵ３５は、図３に示すように、データＤ１（＝ｃ_ｎ ^Ｔ）とデータＤ６（＝Ｍ_ｎ ^Ｔ）とを入力する。なお、データＤ１（＝ｃ_ｎ ^Ｔ）は、内部ＲＡＭの領域ＣＶに記憶保持されているスケール係数ベクトルのデータｃ_ｎ ^Ｔである。

また、ＡＬＵ３５は、マイクロコード取得部３４から出力されるＯｆｆｓｅｔモード用のマイクロコードμＣｏｄｅ（Ｏｆｆｓｅｔ＿ｍｏｄｅ）を入力し、当該Ｏｆｆｓｅｔモード用のマイクロコードμＣｏｄｅ（Ｏｆｆｓｅｔ＿ｍｏｄｅ）に従って演算を行う。

つまり、ＡＬＵ３５は、
（１）ｍｉｎ（ｘ）のロード（読み出し）
（２）データＤ１（＝ｃ_ｎ ^Ｔ）と、データＤ６（＝Ｍ_ｎ ^Ｔ）と、ｍｉｎ（ｘ）との乗算処理
を実行することで、出力データＤｏ（＝ｍｉｎ（ｘ）Ｏｆｆｓｅｔ）を取得する。

以上のように処理することで、上記（数式１）の右辺の第２項、すなわち、ｍｉｎ（ｘ）Ｏｆｆｓｅｔの値（オフセット値）を取得することができる。

畳み込み層の処理では、上記処理（オフセット復元処理）が、畳み込み層の出力数分、実行される。

（１．２．１．２：Ｎｏｒｍモードの処理（畳み込み層の処理））
Ｎｏｒｍモードの処理について、説明する。

図４に示すように、データＤ３（＝Ｂ_ｉｊｒ_ｉｊ）が、ＡＮＤ処理部３１に入力される。なお、データＤ３は、量子化処理後の特徴マップＢ_ｉｊｒ_ｉｊであり、内部ＲＡＭの領域ＢｉｎＩｎＴに記憶保持されている。

ＡＮＤ処理部３１は、Ｎｏｒｍモードでは、入力データＤ３を、そのまま、データＤ４として、セレクタ３２に出力する。

セレクタ３２では、信号値が「１」に設定されたモード信号ｄｐ＿ｍｏｄｅが入力されており、セレクタ３２は、当該モード信号ｄｐ＿ｍｏｄｅに基づいて、データＤ４を選択し、データＤ５としてカウント処理部３３に出力する。

カウント処理部３３は、入力データＤ５に対してカウント処理（ＢＩＴＣＮＴ関数による処理）を実行し、処理結果をデータＤ６（＝ＢＩＴＣＮＴ（Ｂ_ｉｊｒ_ｉｊ））としてＡＬＵ３５に出力する。

マイクロコード取得部３４は、Ｎｏｒｍモード用のマイクロコードμＣｏｄｅ（Ｎｏｒｍ＿ｍｏｄｅ）を取得し、ＡＬＵ３５に出力する。なお、Ｎｏｒｍモード用のマイクロコードμＣｏｄｅ（Ｎｏｒｍ＿ｍｏｄｅ）は、カウント処理部３３から入力されたデータをそのまま出力させる処理をＡＬＵ３５に実行させるコードである。

ＡＬＵ３５は、図４に示すように、カウント処理部３３から出力されるデータＤ６（＝ＢＩＴＣＮＴ（Ｂ_ｉｊｒ_ｉｊ））を入力する。

また、ＡＬＵ３５は、マイクロコード取得部３４から出力されるＮｏｒｍモード用のマイクロコードμＣｏｄｅ（Ｎｏｒｍ＿ｍｏｄｅ）を入力し、当該Ｎｏｒｍモード用のマイクロコードμＣｏｄｅ（Ｎｏｒｍ＿ｍｏｄｅ）に従って演算を行う。

つまり、ＡＬＵ３５は、カウント処理部３３から入力されたデータをそのまま出力させる処理を行い、データＤｏ（＝ＢＩＴＣＮＴ（Ｂ_ｉｊｒ_ｉｊ））を出力する。なお、ＢＩＴＣＮＴ（Ｂ_ｉｊｒ_ｉｊ）は、量子化処理後の特徴マップＢ_ｉｊｒ_ｉｊのノルムに相当する。

以上のように処理することで、上記（数式２）の右辺の第２項、すなわち、Ｎｏｒｍ（ｚ）（ｚ＝Ｂ_ｉｊｒ_ｉｊ）の値（ノルム）を取得することができる。

畳み込み層の処理では、上記処理（ノルム算出処理）が、処理対象となっている畳み込み層の特徴マップ数分、実行される。

（１．２．１．３：ＤＰモードの処理（畳み込み層の処理））
ＤＰモードの処理について、説明する。

図５に示すように、データＤ２（＝Ｍ_ｎ ^Ｔ）およびデータＤ３（＝Ｂ_ｉｊｒ_ｉｊ）が、ＡＮＤ処理部３１に入力される。

データＤ２は、内部ＲＡＭの領域ＢｉｎＭｔｘ０／１に記憶保持されている二値基底行列のデータＭ_ｎ ^Ｔである。

データＤ３は、量子化処理後の特徴マップＢ_ｉｊｒ_ｉｊであり、内部ＲＡＭの領域ＢｉｎＩｎＴに記憶保持されている。

ＡＮＤ処理部３１は、データＤ２およびデータＤ３に対してＡＮＤ処理を実行し、処理結果を含むデータをデータＤ４（＝ＡＮＤ（Ｍ_ｎ ^Ｔ，Ｂ_ｉｊｒ_ｉｊ））として、セレクタ３２に出力する。なお、ＡＮＤ処理は、要素の値が「－１」である場合、当該「－１」を「０」に置換して論理積をとる処理である。

カウント処理部３３は、入力データＤ５に対してカウント処理（ＢＩＴＣＮＴ関数による処理）を実行し、処理結果をデータＤ６（＝ＢＩＴＣＮＴ（ＡＮＤ（Ｍ_ｎ ^Ｔ，Ｂ_ｉｊｒ_ｉｊ）））としてＡＬＵ３５に出力する。

マイクロコード取得部３４は、ＤＰモード用のマイクロコードμＣｏｄｅ（ＤＰ＿ｍｏｄｅ）を取得し、ＡＬＵ３５に出力する。なお、ＤＰモード用のマイクロコードμＣｏｄｅ（ＤＰ＿ｍｏｄｅ）は、例えば、以下の処理をＡＬＵ３５に実行させるコードである。
（１）Ｄ６×２の処理（１ビット左にシフトさせる処理）
（２）上記（１）の結果からノルムを減算する処理
（３）上記（２）の結果に、データＤ１（＝ｃ_ｎ ^Ｔ）を乗算する処理
ＡＬＵ３５は、図５に示すように、データＤ１（＝ｃ_ｎ ^Ｔ）とデータＤ６（＝ＢＩＴＣＮＴ（ＡＮＤ（Ｍ_ｎ ^Ｔ，Ｂ_ｉｊｒ_ｉｊ）））とを入力する。なお、データＤ１（＝ｃ_ｎ ^Ｔ）は、内部ＲＡＭの領域ＣＶに記憶保持されているスケール係数ベクトルのデータｃ_ｎ ^Ｔである。

また、ＡＬＵ３５は、マイクロコード取得部３４から出力されるＤＰモード用のマイクロコードμＣｏｄｅ（ＤＰ＿ｍｏｄｅ）を入力し、当該ＤＰモード用のマイクロコードμＣｏｄｅ（ＤＰ＿ｍｏｄｅ）に従って演算を行う。

つまり、ＡＬＵ３５は、
（１）Ｄ６×２の処理（１ビット左にシフトさせる処理）
（２）上記（１）の結果からノルムを減算する処理（２×Ｄ６―Ｎｏｒｍ（ｚ））
（３）上記（２）の結果に、データＤ１（＝ｃ_ｎ ^Ｔ）を乗算する処理
を実行することで、出力データＤｏ（＝ｃ_ｎ ^ＴＭ_ｎ ^ＴＢ_ｉｊｒ_ｉｊ）を取得する。

つまり、上記により、下記に相当する処理が実行される。
Ｄｏ＝ｃ_ｎ ^ＴＭ_ｎ ^ＴＢ_ｉｊｒ_ｉｊ
Ｍ_ｎ ^ＴＢ_ｉｊｒ_ｉｊ＝２×ＢＩＴＣＮＴ（ＡＮＤ（Ｍ_ｎ ^Ｔ，Ｂ_ｉｊｒ_ｉｊ））－Ｎｏｒｍ（ｚ）
以上のように処理することで、上記（数式１）の右辺の第１項、すなわち、ｃ_ｎ ^ＴＭ_ｎ ^ＴＢ_ｉｊｒ_ｉｊの値を取得することができる。

畳み込み層の処理では、上記処理（内積演算処理）が、処理対象となっている畳み込み層の特徴マップごとに、当該畳み込み層の出力数分、実行される。上記の処理結果は、例えば、内部ＲＡＭＲ１の所定の領域に記憶保持される、あるいは、制御部ＣＰＵ１へ出力され、制御部ＣＰＵ１が当該処理結果を用いて所定の処理を実行する。

以上のように処理することで、二値化ニューラルネットワーク用プロセッサ１００では、畳み込み層の処理を実行することができる。すなわち、二値化ニューラルネットワーク用プロセッサ１００では、上記の３つのモードによる処理により、（数式１）のｙ_ｉｊｎを取得するために必要なデータを取得することができ、その結果、畳み込み層の処理を実行することができる。

（１．２．２：全結合層の処理）
次に、全結合層の処理について、説明する。

二値化ニューラルネットワーク用プロセッサ１００の量子化処理部２は、ｌ番目の全結合層への入力ベクトルｚ^ｌ _ｉにおける最大値－最小値間の量子化幅Δｄを、
Δｄ＝｛ｍａｘ（ｚ^ｌ _ｉ）－ｍｉｎ（ｚ^ｌ _ｉ）｝／（２^Ｑ－１）
ｍａｘ（ｘ）：ｘの最大値を取得する関数
ｍｉｎ（ｘ）：ｘの最小値を取得する関数
Ｑ：量子化ビット数
として取得する。

そして、量子化処理部２は、全結合層への入力ベクトルの最小値が０となるように値をシフトさせる。つまり、量子化処理部２は、
ｚ^ｌ _ｉ’＝｛ｚ^ｌ _ｉ－ｍｉｎ（ｚ^ｌ _ｉ）｝／Ｑ
に相当する処理を実行し、さらに、上記数式により取得された値を四捨五入して整数値に丸め量子化する。さらに、量子化処理部２は、丸め量子化により取得された値に対して、二値化処理をすることで、バイナリコードｚ^ｌ _ｉ ^（ｂ）∈｛０，１｝を取得する。

上記のようにして取得されたバイナリコードｚ^ｌ _ｉ ^（ｂ）∈｛０，１｝（量子化処理後の特徴ベクトルＢ_ｉｊｒ_ｉｊ）は、内部ＲＡＭの領域ＢｉｎＩｎＴに記憶保持される。

全結合層の処理において、以下のことが成り立つ。
（１）量子化処理後の特徴ベクトルは１つだけである。

二値化ニューラルネットワーク用プロセッサ１００では、上記を考慮して、全結合層の処理を以下の疑似コードに相当する処理により実行する。
≪全結合層の処理の擬似コード≫
Operate_Norm(); // ノルムの計算（数式２）の右辺の第２項に相当する処理
For (出力数)
Operate_offset(); // オフセット復元処理
Operate_dp(); // 内積計算
二値化ニューラルネットワーク用プロセッサ１００は、
（１）上記のノルム計算の処理をＮｏｒｍモードの処理で実行し、
（２）上記のオフセット復元処理をＯｆｆｓｅｔモードの処理で実行し、
（３）上記の内積計算の処理をＤＰモード（内積演算処理モード）の処理で実行する。

以下、これについて、説明する。

（１．２．２．１：Ｎｏｒｍモードの処理（全結合層の処理））
Ｎｏｒｍモードの処理について、説明する。

図４に示すように、データＤ３（＝Ｂ_ｉｊｒ_ｉｊ）が、ＡＮＤ処理部３１に入力される。なお、データＤ３は、量子化処理後の特徴ベクトルＢ_ｉｊｒ_ｉｊであり、内部ＲＡＭの領域ＢｉｎＩｎＴに記憶保持されている。

つまり、ＡＬＵ３５は、カウント処理部３３から入力されたデータをそのまま出力させる処理を行い、データＤｏ（＝ＢＩＴＣＮＴ（Ｂ_ｉｊｒ_ｉｊ））を出力する。なお、ＢＩＴＣＮＴ（Ｂ_ｉｊｒ_ｉｊ）は、量子化処理後の特徴ベクトルＢ_ｉｊｒ_ｉｊのノルムに相当する。

全結合層の処理では、上記処理（ノルム算出処理）が、処理対象となっている全結合層につき１回実行される。

（１．２．２．２：Ｏｆｆｓｅｔモードの処理（全結合層の処理））
Ｏｆｆｓｅｔモードの処理について、説明する。

全結合層の処理では、上記処理（オフセット復元処理）が、全結合層の出力数分、実行される。

（１．２．２．３：ＤＰモードの処理（全結合層の処理））
ＤＰモードの処理について、説明する。

全結合層の処理では、上記処理（内積演算処理）が、全結合層の出力数分、実行される。上記の処理結果は、例えば、内部ＲＡＭＲ１の所定の領域に記憶保持される、あるいは、制御部ＣＰＵ１へ出力され、制御部ＣＰＵ１が当該処理結果を用いて所定の処理を実行する。

以上のように処理することで、二値化ニューラルネットワーク用プロセッサ１００では、全結合層の処理を実行することができる。すなわち、二値化ニューラルネットワーク用プロセッサ１００では、上記の３つのモードによる処理により、（数式１）のｙ_ｉｊｎを取得するために必要なデータを取得することができ、その結果、全結合層の処理を実行することができる。

以上のように、二値化ニューラルネットワーク用プロセッサ１００では、畳み込み層の処理と、全結合層の処理において、同様の処理が実行される部分を共通化し、３つのモード（（１）Ｏｆｆｓｅｔモード、（２）Ｎｏｒｍモード、（３）ＤＰモード）の処理を、各モードに対応するマイクロコードにより処理することで実行する。そして、二値化ニューラルネットワーク用プロセッサ１００では、畳み込み層の処理と全結合層の処理とにおいて、相違する部分の処理を、上記の３つのモードの処理を適切な順序で組み合わせることで実現する。したがって、二値化ニューラルネットワーク用プロセッサ１００では、ハードウェア規模の増大を抑制しつつ、ＢＮＮの処理を高速に実行することができる。

［他の実施形態］
上記実施形態では、二値化ニューラルネットワーク用プロセッサ１００が二値化データをjsよりする場合について、説明したが、本発明はこれに限定されることなく、本発明の手法を多値化データに適用し、多値化ニューラルネットワーク用プロセッサを実現するようにしてもよい。

また、上記実施形態では、二値化ニューラルネットワーク用プロセッサ１００が、３つのモード（（１）Ｏｆｆｓｅｔモード、（２）Ｎｏｒｍモード、（３）ＤＰモード）により処理を実行する場合について説明したが、これに限定されることはない。例えば、二値化ニューラルネットワーク用プロセッサ１００は、（１）Ｎｏｒｍモード、（２）ＤＰモードにより処理を実行するようにし、このＤＰモードの処理に、上記実施形態で説明したＯｆｆｓｅｔモードの処理を含めるようにしてもよい。また、二値化ニューラルネットワーク用プロセッサ１００は、予め、Ｏｆｆｓｅｔモードで得られる値を演算により取得し、取得した値を保持しておき、ＤＰモード実行時にその値を使用して処理を実行するようにしてもよい。これにより、二値化ニューラルネットワーク用プロセッサ１００において、Ｎｏｒｍモードの処理とＤＰモードの処理とをＣＰＵの制御を介在せずに連続して実行することができる。

上記実施形態では、内積処理部がＢＮＮの処理の一部を実行する場合について説明したが、これに限定されることはなく、例えば、演算処理部ＰＬ１の内積処理部３において、活性化関数の処理（例えば、ＲｅＬＵ関数の処理）を実行するようにしてもよい。また、活性化関数の処理（例えば、ＲｅＬＵ関数の処理）は、内積処理部３および制御部ＣＰＵ１で実行されるものであってもよい。

上記実施形態では、内部ＲＡＭの個数については特に限定せず説明したが、内部ＲＡＭは、複数個のＲＡＭにより構成されるものであってもよいし、また、二値化ニューラルネットワーク用プロセッサの外部に設けたＲＡＭ（例えば、ＤＲＡＭ）等を用いて、上記実施形態の処理を実行するようにしてもよい。

上記実施形態において、スカラー、ベクトル、行列で表現したデータについては、一例であり、上記に限定されるものではない。ＢＮＮの処理に応じて、スカラー、ベクトル、テンソルのデータとして、二値化ニューラルネットワーク用プロセッサ１００が、上記と同様の処理を実行してもよい。

上記実施形態で説明した二値化ニューラルネットワーク用プロセッサ１００の各ブロック（各機能部）は、ＬＳＩなどの半導体装置により個別に１チップ化されても良いし、一部又は全部を含むように１チップ化されても良い。また、上記実施形態で説明した二値化ニューラルネットワーク用プロセッサ１００の各ブロック（各機能部）は、複数のＬＳＩなどの半導体装置により実現されるものであってもよい。

なお、ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

また、上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして、上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置（ＣＰＵ）により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ＲＯＭなどの記憶装置に格納されており、ＲＯＭにおいて、あるいはＲＡＭに読み出されて実行される。

また、上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア（ＯＳ（オペレーティングシステム）、ミドルウェア、あるいは、所定のライブラリとともに実現される場合を含む。）により実現してもよい。さらに、ソフトウェアおよびハードウェアの混在処理により実現しても良い。

例えば、上記実施形態（変形例を含む）の各機能部を、ソフトウェアにより実現する場合、図６に示したハードウェア構成（例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、入力部、出力部等をバスＢｕｓにより接続したハードウェア構成）を用いて、各機能部をソフトウェア処理により実現するようにしてもよい。

また、上記実施形態における処理方法の実行順序は、必ずしも、上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。

前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、大容量ＤＶＤ、次世代ＤＶＤ、半導体メモリを挙げることができる。

上記コンピュータプログラムは、上記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

また、文言「部」は、「サーキトリー（ｃｉｒｃｕｉｔｒｙ）」を含む概念であってもよい。サーキトリーは、ハードウェア、ソフトウェア、あるいは、ハードウェアおよびソフトウェアの混在により、その全部または一部が、実現されるものであってもよい。

なお、本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

１００二値化ニューラルネットワーク用プロセッサ
ＰＬ１演算処理部
１ＤＭＡ制御部
２量子化処理部
Ｒ１内部ＲＡＭ
３内積処理部
３４マイクロコード取得部
３５ＡＬＵ

Claims

畳み込み層の処理と全結合層の処理とを含む多値化ニューラルネットワーク用処理を実行するためのニューラルネットワーク用プロセッサであって、
実数ベクトルデータであるスケーリング係数ベクトルを設定するとともに、多値データを要素とする多値基底行列を設定する制御部と、
前記畳み込み層に入力される特徴マップおよび前記全結合層に入力される特徴ベクトルに対して量子化処理を実行する量子化処理部であって、前記特徴マップの最小値および前記特徴ベクトルの最小値が所定の値よりも小さい値となるようにオフセット値を設定し、前記特徴マップおよび前記特徴ベクトルの最大値および最小値に基づいて取得される量子化幅を用いて前記量子化処理を実行する前記量子化処理部と、
（１）前記特徴マップおよび前記特徴ベクトルのノルムを算出するノルムモードと、（２）前記多値基底行列と前記量子化処理後の前記特徴マップまたは前記特徴ベクトルとを用いた内積演算処理を実行する内積演算モードとを有し、前記ノルムモードの処理、および、前記内積演算モードを組み合わせた処理を実行することで、前記畳み込み層の処理と前記全結合層の処理とを実行する内積処理部と、
を備えるニューラルネットワーク用プロセッサ。
前記内積処理部は、
ノルムモード用マイクロコードと、内積演算モード用マイクロコードとを取得するマイクロコード取得部と、
マイクロコードに基づいて、算術演算処理を実行する算術演算処理部と、
を備え、
（１）ノルムモードに設定されている場合、
前記マイクロコード取得部は、前記ノルムモード用マイクロコードを取得し、
前記算術演算処理部は、前記ノルムモード用マイクロコードに基づいて、前記算術演算処理を実行し、
（２）内積演算モードに設定されている場合、
前記マイクロコード取得部は、前記内積演算モード用マイクロコードを取得し、
前記算術演算処理部は、前記内積演算モード用マイクロコードに基づいて、前記算術演算処理を実行する、
請求項１に記載のニューラルネットワーク用プロセッサ。
前記内積処理部は、
前記畳み込み層の処理を実行する場合、
（１）前記ノルムモードの処理を、処理対象の畳み込み層の特徴マップ数分繰り返し実行し、
（２）前記内積演算モードの処理を、各特徴マップについて前記ノルムモードの処理が実行されるごとに、処理対象の畳み込み層の出力数分繰り返し実行する、
請求項１または２に記載のニューラルネットワーク用プロセッサ。
前記内積処理部は、
前記全結合層の処理を実行する場合、
（１）処理対象の全結合層につき、前記ノルムモードの処理を１回実行し、
（２）前記内積演算モードの処理を、処理対象の全結合層の出力数分繰り返し実行する、
請求項１から３のいずれかに記載のニューラルネットワーク用プロセッサ。
畳み込み層の処理と全結合層の処理とを含む多値化ニューラルネットワーク用処理を実行するためのニューラルネットワーク用処理方法であって、
実数ベクトルデータであるスケーリング係数ベクトルを設定するとともに、多値データを要素とする多値基底行列を設定する制御ステップと、
前記畳み込み層に入力される特徴マップおよび前記全結合層に入力される特徴ベクトルに対して量子化処理を実行する量子化処理ステップであって、前記特徴マップの最小値および前記特徴ベクトルの最小値が所定の値よりも小さい値となるようにオフセット値を設定し、前記特徴マップおよび前記特徴ベクトルの最大値および最小値に基づいて取得される量子化幅を用いて前記量子化処理を実行する前記量子化処理ステップと、
（１）前記特徴マップおよび前記特徴ベクトルのノルムを算出するノルムモードと、（２）前記多値基底行列と前記量子化処理後の前記特徴マップまたは前記特徴ベクトルとを用いた内積演算処理を実行する内積演算モードとを有し、前記ノルムモードの処理、および、前記内積演算モードを組み合わせた処理を実行することで、前記畳み込み層の処理と前記全結合層の処理とを実行する内積処理ステップと、
を備えるニューラルネットワーク用処理方法。
請求項５に記載のニューラルネットワーク用処理方法をコンピュータに実行させるためのプログラム。