JP2021076900A

JP2021076900A - データ処理装置及びその動作方法、プログラム

Info

Publication number: JP2021076900A
Application number: JP2019200609A
Authority: JP
Inventors: 俊介奥村; Shunsuke Okumura; 浩一野瀬; Koichi Nose
Original assignee: Renesas Electronics Corp
Current assignee: Renesas Electronics Corp
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2021-05-20
Anticipated expiration: 2039-11-05
Also published as: US20210132866A1; JP7299134B2; CN112784957A

Abstract

【課題】ニューラルネットワークの推論処理において、積和演算に要するメモリ容量を抑制しつつ高い認識精度を実現する。
【解決手段】データ処理装置は、バイナリ化された入力データの各々について、予め決められた値であるか否かを判定する入力データ判定部と、複数の係数と、複数の係数が格納される係数アドレスに関する情報を含む係数アドレス情報と、を格納する記憶部と、入力データ判定部の判定結果に基づいて、記憶部から係数アドレスを読み出し、係数アドレスに基づいて記憶部から係数を読み出す制御部と、制御部が取得した係数に関して演算を行う演算部と、を具備する。
【選択図】図２

Description

本発明はデータ処理装置及びその動作方法とプログラムに関し、例えばニューラルネットワークによる処理で、浮動小数点の重み係数を用いて積和演算を行うデータ処理装置及びその動作方法とプログラムに関する。

近年、組み込み機器において人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）の推論処理を行わせるものがある。推論処理には、様々なニューラルネットワークが利用される。例えば、ニューラルネットワークには、ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ、ＤＮＮ）、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）、多層パーセプトロン（ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ）、リカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）などがある。ニューラルネットワークによる推論処理では、大量の積和演算を実行するために、大容量のメモリや演算リソースが必要とされる。

演算リソースに関して、乗算器は加算器と比較して回路規模が大きく、演算時の消費電力も大きい。そこで、ニューラルネットワークの演算などで用いる積和演算行列の入力データをいくつかのバイナリデータの組み合わせにすることで、計算量が大きい浮動小数点積和演算を浮動小数点加算にする方法が提案されている。

一方、メモリ容量に関しては、重みパラメータが浮動小数点データであるため、重みパラメータを保存するために大きなメモリ容量が必要になるとの問題がある。特にメモリ容量に制約がある組み込み向けマイコンやＳｏＣ（ＳｙｓｔｅｍＯｎＣｈｉｐ）では、大きな問題となる。

この点に関して、非特許文献１には、入力だけでなく重みパラメータについても、バイナリあるいは３値の基底行列と係数情報に分解することで、バイナリ化された入力データを基底行列の乗算（ビット演算）を行ってから係数情報を乗じる技術が開示されている。非特許文献１によれば、保存すべきメモリ量を削減できるとされる。

神谷龍司, 山下隆義, 安倍満, 佐藤育郎, 山内悠嗣, 藤吉弘亘, "Ｂｉｎａｒａｉｚｅｄ−ＤＣＮＮによる識別計算の高速化とモデル圧縮", パターン認識・メディア理解研究会, ２０１６

非特許文献１によれば、基底情報１ビットに対して１つの係数情報を与える。そして、Ｈ個（Ｈは自然数）の各係数情報に対して、１、もしくは−１の値を掛けた値の総和を取ることで、元々の重みパラメータを近似する。そのため、表現できる重みパラメータは、Ｈ個の係数の＋もしくは−の値の組み合わせの総和に限られてしまうという問題があった。例えば、基底情報の数がＨ個から２×Ｈ個へと２倍に増えても、取り得る係数情報は２倍にしか増加しない。また、表現できる重みパラメータは、Ｈ個の係数情報に＋１を乗ずるか、−１を乗じたものの総和に限られるため、重みパラメータの取り得る値の分布は＋側と−側で対称なものに限られる。特に歪んだ分布の入力値がニューラルネットワークに入力される場合には、積和演算の度に値の分布の歪みが蓄積し、推論処理における認識精度が低下するとの問題がある。

実施の形態の課題は、ニューラルネットワークをはじめとした機械学習の推論処理において、積和演算に要するメモリ容量を抑制しつつ高い認識精度を実現する点にある。その他の課題および新規な特徴は、本明細書の記述および図面の記載から明らかになるであろう。

一実施の形態に係るデータ処理装置は、バイナリ化された入力データの各々について、予め決められた値であるか否かを判定する入力データ判定部と、複数の係数と、複数の係数が格納される係数アドレスに関する情報を含む係数アドレス情報と、を格納する記憶部と、入力データ判定部の判定結果に基づいて、記憶部から係数アドレスを読み出し、係数アドレスに基づいて記憶部から係数を読み出す制御部と、制御部が取得した係数に関して演算を行う演算部と、を具備する。

他の実施の形態に係るデータ処理装置の動作方法は、演算部とメモリを具備するデータ処理装置の動作方法であって、バイナリ化された入力データが予め決められた値であるか否かを判定するステップと、複数の係数と、複数の係数が格納される係数アドレスに関する情報を含む係数アドレス情報と、をメモリに格納するステップと、判定するステップの判定結果に基づいて、メモリから係数アドレスを読み出すステップと、係数アドレスに基づいてメモリから係数を読み出すステップと、読み出された係数に基づいて演算部により演算するステップと、を含む。

他の実施の形態に係るプログラムは、ＣＰＵとメモリとを具備するデータ処理装置で実行されるニューラルネットワークモデルに関するプログラムであって、バイナリ化された入力データの各々が予め決められた値であるか否かを判定するステップと、複数の係数と、複数の係数が格納される係数アドレスに関する情報を含む係数アドレス情報と、をメモリに格納するステップと、メモリから係数アドレスを読み出すステップと、係数アドレスに基づいてメモリから係数を読み出すステップと、読み出された係数を累積加算するステップと、を実行させる。

一実施の形態によれば、データ処理装置は、ディープニューラルネットワークをはじめとした機械学習の推論処理において、メモリ容量を抑制しつつ高い認識精度を実現することができる。

図１は、実施の形態１に係るデータ処理装置の構成例を示すブロック図である。図２は、実施の形態１に係るデータ処理装置の推論部と記憶装置の構成例を示す回路図である。図３は、実施の形態１に係るデータ処理装置の入力データ保存部に格納されるバイナリ化された入力データを説明する図である。図４は、実施の形態１に係るデータ処理装置の推論部が行うニューラルネットワークの処理の一例を示す図である。図５は、実施の形態１に係るデータ処理装置による第１の入力データに対する積和演算の一例を示す図である。図６は、実施の形態１に係るデータ処理装置による第２の入力データに対する積和演算の一例を示す図である。図７は、実施の形態１に係るデータ処理装置による第３の入力データに対する積和演算の一例を示す図である。図８は、実施の形態１に係るデータ処理装置による第４の入力データに対する積和演算の一例を示す図である。図９は、実施の形態１に係るデータ処理装置が行う積和演算処理の一例を示す図である。図１０は、実施の形態１に係るデータ処理装置が行う積和演算処理の一例を示すフローチャートである。図１１は、実施の形態１に係る係数保存部が記憶する係数の一例を示す図である。図１２は、実施の形態１に係るデータ処理装置により、出力データの分布が改善される様子を示す図である。図１３は、実施の形態２に係るデータ処理装置の推論部と記憶装置の構成例を示す回路図である。図１４は、実施の形態２に係るデータ処理装置が行う積和演算処理の概要を説明する図である。図１５は、実施の形態３に係るデータ処理装置の推論部と記憶装置の構成例を示す回路図である。図１６は、実施の形態３に係るデータ処理装置が行う積和演算処理の概念を説明する図である。図１７は、実施の形態３に係るデータ処理装置が行う積和演算処理の一例を示すフローチャートである。図１８は、実施の形態４に係るデータ処理装置の推論部と記憶装置の構成例を示す回路図である。図１９は、実施の形態４に係る係数保存部が記憶する係数の一例を示す図である。図２０は、実施の形態４に係るデータ処理装置により、出力データの分布が改善される様子を示す図である。図２１は、実施の形態５に係るデータ処理装置の推論部と記憶装置の構成例を示す回路図である。図２２は、実施の形態５に係るデータ処理装置が最頻値係数アドレスに基づいて行う係数の調整を説明する図である。図２３は、実施の形態５に係るデータ処理装置が行う積和演算処理の一例を示すフローチャートである。図２４は、実施の形態６に関して、ニューラルネットワークの入力データを複数ビットに量子化する方法の一例を示す図である。図２５は、実施の形態６に係るデータ処理装置の推論部と記憶装置の構成例を示す回路図である。図２６は、実施の形態６に係るデータ処理装置が行う積和演算処理の概念を説明する図である。図２７は、実施の形態６に係るデータ処理装置が行う積和演算処理の一例を示すフローチャートである。図２８は、従来技術による場合の重みパラメータの分布を説明する図である。

説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。また、様々な処理を行う機能ブロックとして図面に記載される各要素は、ハードウェア的には、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、メモリ、その他の回路で構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。なお、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

また、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰＲＯＭ）、フラッシュＲＯＭ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

［実施の形態１］
（構成）
図１は、実施の形態１に係るデータ処理装置１の構成例を示すブロック図である。図１に示されるように、データ処理装置１は、プロセッサ１０と、ＲＯＭ１１と、バス１２と、ＲＡＭ１３と、推論部（Ｉｎｆｅｒｅｎｃｅｕｎｉｔ）１４と、を備える。例えば、データ処理装置１は、半導体装置として構成され得る。

プロセッサ１０は、バス１２を経由してＲＯＭ１１などから読み出されたプログラム（命令ストリーム）を実行して演算処理を行う処理回路である。例えば、プロセッサは、ＣＰＵやＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）等である。

ＲＯＭ１１は、プロセッサ１０に実行させるプログラムを格納する記憶装置である。例えば、ＲＯＭ１１には、ディープラーニングの機械学習を行わせて得たディープニューラルネットワークに係るプログラムや推論部１４を制御するためのプログラムが格納されている。図１ではＲＯＭ１１はデータ処理装置１に内蔵されているが、データ処理装置１は、データ処理装置１の外部に備えられた記憶装置からプログラムを読み込み、処理を実行しても良い。また、プログラムを格納する記憶装置は、データ処理装置１に内蔵されたＲＯＭ１１及びデータ処理装置１の外部に備えられた記憶装置に両者であっても良い。

バス１２は、プロセッサ１０、ＲＯＭ１１、ＲＡＭ１３、及び推論部１４間を接続し、データの授受を行うための信号経路である。プロセッサ１０及び推論部１４は、バス１２を経由して、ＲＯＭ１１またはＲＡＭ１３にアクセスする。

ＲＡＭ１３は、プロセッサ１０及び推論部１４が演算処理を行うためのデータを格納する記憶装置（記憶部）である。推論部１４は、ニューラルネットワークの演算に必要な一時データ等をＲＡＭ１３に記憶させることができる。

推論部（ＩｎｆｅｒｅｎｃｅＵｎｉｔ）１４は、ニューラルネットワークを用いて推論処理を行う。また、推論部１４が処理するニューラルネットワークの一例はディープニューラルネットワーク（ＤＮＮ）であるが、これに限られない。例えば、ニューラルネットワークは、ＣＮＮやＲＮＮであっても良い。

なお、図１には推論部１４を備える構成例が示されているが、データ処理装置１の構成はこれに限られない。即ち、データ処理装置１は推論部１４をソフトウェアとして実現してＲＯＭ１１にプログラムを格納するよう構成されても良い。また、推論部１４は、ＲＯＭ１１及びＲＡＭ１３とは別に、推論部１４内にＲＯＭまたはＲＡＭなどの記憶装置を具備しても良い。

図２は、実施の形態１に係る推論部１４及びＲＡＭ１３の構成例を示す図である。図２に示されるように、推論部１４は、入力データ判定部１４０と、浮動小数演算部（ＦｌｏａｔｉｎｇＰｏｉｎｔＵｎｉｔ、ＦＰＵ）１４１と、制御部１４２と、を備える。また、ＲＡＭ１３は、入力データ保存部１３０と、係数アドレス情報保存部１３１と、係数保存部１３２と、を備える。図２では、係数アドレス情報保存部１３１及び係数保存部１３２がＲＡＭ１３に備えられる構成が示されているが、係数アドレス情報保存部１３１及び係数保存部１３２の構成はこれに限られない。例えば、係数アドレス情報保存部１３１及び係数保存部１３２は、ＲＯＭ１１に備えられる構成であっても良い。

入力データ保存部１３０は、ニューラルネットワークで推論を行うためのバイナリ化された入力データを保存する記憶部である。ニューラルネットワークに入力されるデータは浮動小数点のデータである。入力された浮動小数点のデータは、図示しない量子化部で、１ビットのデジタル値に量子化され、バイナリ化された入力データとして入力データ保存部１３０に保存される。換言すると、ニューラルネットワークに入力された浮動小数点の入力データは、０または１のいずれかの値に量子化され、入力データ保存部１３０に保存される。図３は、浮動小数点の入力データを、バイナリ化された入力データに量子化する例を示す図である。図３に示される例では、入力値は０からｍａｘまでの値に分布している。図３に示される例では、０以上、かつ、ｔｈ＝ｍａｘ／２未満の値は０に、ｔｈ＝ｍａｘ／２以上かつ、ｍａｘ以下の値は１に量子化される。なお、図３に示される量子化の例では、バイナリ化するための閾値はｔｈ＝ｍａｘ／２とされているが、バイナリ化された入力データに量子化する方法は、これに限られない。例えば、閾値をｔｈ＝ｍａｘ／４として、入力データをバイナリデータに量子化することもできる。閾値をｔｈ＝ｍａｘ／４とする場合、０以上、かつ、ｔｈ＝ｍａｘ／４未満の値は０に、ｔｈ＝ｍａｘ／４以上かつ、ｍａｘ以下の値は１に量子化される。

再び図２を参照して、係数アドレス情報保存部１３１は、ニューラルネットワークの係数が格納されているアドレスである係数アドレスに関する情報（以下、「係数アドレス情報」と呼ぶ）を保存する記憶部である。ここで、係数アドレスは、係数保存部１３２に格納されている係数のアドレス値である。係数アドレスが、Ｋビット（Ｋは自然数）で構成される場合、最大で２^Ｋ個の異なる係数を識別することができる。換言すれば、推論部１４は、ニューラルネットワークの係数として最大で２^Ｋ個の異なる係数を用いることができる。一方、係数アドレス情報は、１または複数の係数アドレスを含み、１または複数の係数アドレスの使用順序（演算順序）に関する情報をも含む。換言すると、係数アドレス情報は、ニューラルネットワークに関する積和演算において、１または複数の入力データのそれぞれと、１または複数の重みパラメータのそれぞれと、を乗算することに対応して、１または複数の係数アドレスからなる情報を含む。したがって、係数アドレス情報は、１または複数の係数を、どの入力データに対して乗ずるかという情報を含んでいる。係数アドレス情報は、例えば、１または２以上の係数アドレスの配列として表現され得る。係数アドレス及び係数アドレス情報の具体例は、図５を用いて詳述する。

係数保存部１３２は、ニューラルネットワークの係数を保存する記憶部である。

入力データ判定部１４０は、バイナリ化された入力データが予め決められた値であるか否かを判定する。より具体的には、入力データ判定部１４０は、例えば、バイナリ化された入力データが予め決められた値である１であるか否かを判定する。

ＦＰＵ１４１は、浮動小数点に関する演算を行う演算回路である。後述するように、ＦＰＵ１４１は、係数保存部１３２から読み出される係数を累積加算することにより、入力データと係数との積和演算を実行する。

制御部１４２は、入力データ保存部１３０と、係数アドレス情報保存部１３１と、係数保存部１３２と、入力データ判定部１４０と、ＦＰＵ１４１との間で、バイナリ化された入力データ、係数アドレス、及び係数の送受信制御を行う制御回路である。より具体的には、制御部１４２は、入力データ保存部からバイナリ化された入力データを読み出して、読み出された入力データを入力データ判定部１４０に送信する。また、制御部１４２は、入力データ判定部１４０による、入力データが１であるとの判定結果に基づいて、係数アドレス情報保存部１３１から係数アドレスを読み出す。更に、制御部１４２は、読み出された係数アドレスに基づいて、係数保存部１３２から係数を読み出し、ＦＰＵ１４１に送信する。

制御部１４２は、全ての入力データを読み出し累積加算を行った後、ＦＰＵ１４１における累積加算の結果を積和演算結果としてＲＡＭ１３に保存する。

（動作）
実施の形態１に係るデータ処理装置１では、ニューラルネットワークによる推論処理に先立って学習データを用いて学習が行われ、最適な重みパラメータが求められる。実施の形態１に係るデータ処理装置１では、学習時に得られた重みパラメータの分布から代表的なＬ（Ｌは自然数）個の係数が選択される。選択されたＬ個の係数は、係数保存部１３２に保存される。ここで、Ｌ個の係数は、浮動小数点データである。また、実施の形態１に係るデータ処理装置１では、Ｌ個の係数の係数アドレスに関する情報である係数アドレス情報が係数アドレス情報保存部１３１に格納される。例えば、係数アドレスは、係数保存部１３２のベースアドレスに対する相対アドレスである。係数アドレスを相対アドレスの値とすることにより、より少ないビット数で、Ｌ個の係数アドレスを表現可能である。

実施の形態１に係るデータ処理装置１では、学習で得られた重みパラメータの分布から、代表的なＫ個の値が予め選択され、係数保存部１３２に保存される。このように、実施の形態１に係るデータ処理装置１では、浮動小数点データである重みパラメータは、係数保存部１３２に格納される係数と、係数アドレス情報保存部１３１に格納される係数アドレス情報の組み合わせを用いて表現される。

図４は、実施の形態１に係るデータ処理装置１が推論処理で用いる、ニューラルネットワークの一例を示す図である。図４に示されるニューラルネットワークは、推論部１４で処理される推論処理を表している。図４に示されるように、出力データy₁は、入力データと重みパラメータの積をとり、積の総和を計算して算出される。

このように、ニューラルネットワークでは、浮動小数点で表される入力データと、浮動小数点で表される係数を用いた積和演算（以下、「浮動小数点による積和演算」と呼ぶ）が大量に実行され、出力データが計算される。推論処理では大量の浮動小数点による積和演算を実行するため、浮動小数点データを格納する大容量のメモリが必要になる。そこで、実施の形態１に係るデータ処理装置１は、浮動小数点による積和演算に代えて、バイナリ化された入力データに基づいて係数の累積加算を行う。換言すると、実施の形態１に係るデータ処理装置１は、バイナリ化された入力データに基づいて係数の累積加算を行うことで、浮動小数点による積和演算に相当する演算を行うことができる。

図５ないし図８は、実施の形態１に係るデータ処理装置１において、ニューラルネットワークにおいて必要となる積和演算の概念を示す図である。図５ないし図８にはバイナリ化された入力データの例として、（１０１１）の４つのバイナリ化された入力データが示されている。また、図５ないし図８において、係数アドレスは、Ａ０ないしＡ７である。これに対し、係数アドレス情報は、図５ないし図８において、（Ａ０Ａ３Ａ２Ａ１）で表現される情報である。係数アドレスＡ０ないしＡ７のうち、図５ないし図８に示される積和演算で使用される係数アドレスは、Ａ０、Ａ１、Ａ２、及びＡ３である。係数アドレス情報は、個別具体的な積和演算において使用される係数に対応する係数アドレスの組み合わせの情報を含んでいる。更に、係数アドレス情報は、積和演算における係数の演算順序に対応して、係数アドレスの読み出し順序に関する情報をも含んでいる。換言すると、係数アドレス情報が複数の係数アドレスを含む場合、係数アドレス情報に含まれる複数の係数アドレスは、予め定められた順序に従って読み出されるよう配列されている。

図５ないし図８を用いて、より具体的に、係数アドレス情報を説明する。図５ないし図８において、係数アドレスＡ０は、（１０１１）の最左端の１（第１の入力データ）に対して乗算される係数を格納するアドレスである。係数アドレスＡ３は、（１０１１）の左端から２番目の０（第２の入力データ）に対して乗算される係数を格納するアドレスである。係数アドレスＡ２は、（１０１１）の左端から３番目の１（第３の入力データ）に対して乗算される係数を格納するアドレスである。係数アドレスＡ１は、（１０１１）の左端から４番目の１（第４の入力データ）に対して乗算される係数を格納するアドレスである。（Ａ０Ａ３Ａ２Ａ１）は、図４に示されるようなニューラルネットワークのモデルによって予め決められる。（１０１１）及び（Ａ０Ａ３Ａ２Ａ１）は、それぞれ、４個の要素を有する。以下、係数アドレス情報、即ち、係数アドレスの配列を行列と見立て、「係数アドレス行列」とも呼ぶ。例えば、（Ａ０Ａ３Ａ２Ａ１）は１×４の係数アドレス行列である。なお、図５ないし図８では、係数アドレス行列の例として１×４の係数アドレス行列が示されているが、係数アドレス行列の成分数はこれに限られない。係数アドレス行列は、１×Ｎ（Ｎは自然数）の行列であっても良い。

４つのバイナリ化された入力データと係数の積和演算を行う場合、図５に示されるように、制御部１４２は、まず、（１０１１）の最左端のバイナリ化された入力データである１を入力データ保存部１３０から読み出す。入力データ判定部１４０は、入力データ保存部１３０から読み出されたバイナリ化された入力データが、予め決められた値である１であると判定する。制御部１４２は、入力データ判定部１４０の判定結果に基づいて、係数アドレス情報保存部１３１から係数アドレスＡ０を読み出す。続いて、制御部１４２は、係数アドレスＡ０に基づいて、アドレスＡ０に対応する係数０．２８３を係数保存部１３２から読み出す。制御部によって係数保存部１３２から読み出された係数０．２８３は、制御部１４２によりＦＰＵ１４１に入力され、ＦＰＵ１４１で累積加算される。

次に、図６に示されるように、制御部１４２は、（１０１１）の左から２番目のバイナリ化された入力データである０を入力データ保存部１３０から読み出す。入力データ判定部１４０は、バイナリ化された入力データが、予め決められた値である１ではないと判定する。制御部１４２は、入力データ判定部１４０の判定結果に基づいて、係数アドレス情報保存部１３１から係数アドレス（Ａ３）を読み出さないとの制御を行う。

続いて、図７に示されるように、制御部１４２は、（１０１１）の左から３番目のバイナリ化された入力データである１を入力データ保存部１３０から読み出す。入力データ判定部１４０は、入力データ保存部１３０から読み出されたバイナリ化された入力データが、予め決められた値である１であると判定する。制御部１４２は、入力データ判定部１４０の判定結果に基づいて、係数アドレス情報保存部１３１から係数アドレスＡ２を読み出す。続いて、制御部１４２は、係数アドレスＡ２に基づいて、アドレスＡ２に対応する係数１．２３２を係数保存部１３２から読み出す。制御部１４２によって係数保存部１３２から読み出された係数１．２３２は、制御部１４２によりＦＰＵ１４１に入力され、ＦＰＵ１４１で累積加算される。

最後に、図８に示されるように、制御部１４２は、（１０１１）の左から４番目のバイナリ化された入力データである１を入力データ保存部１３０から読み出す。入力データ判定部１４０は、入力データ保存部１３０から読み出されたバイナリ化された入力データが、予め決められた値である１であると判定する。制御部１４２は、入力データ判定部１４０の判定結果に基づいて、係数アドレス情報保存部１３１から係数アドレスＡ１を読み出す。続いて、制御部１４２は、係数アドレスＡ１に基づいて、アドレスＡ１に対応する係数−０．３３２を係数保存部１３２から読み出す。制御部１４２によって係数保存部１３２から読み出された係数−０．３３２は、制御部１４２によりＦＰＵ１４１に入力され、ＦＰＵ１４１で累積加算される。

図５ないし図８に示されるＦＰＵ１４１による累積加算により、浮動小数点の入力データと浮動小数点の重みパラメータの積和演算が代替される。

図５ないし図８には、４つのバイナリ化された入力データ（１０１１）に関する積和演算の様子が示されている。ニューラルネットワークの推論処理において、データ処理装置１は、必要とされる数のバイナリ化された入力データを順次、入力データ保存部１３０から読み出し、上述した積和演算を繰り返す。

図９は、実施の形態１に係るデータ処理装置１が行う積和演算処理の一例を示す図である。図９を参照して、係数及び係数アドレス情報は、ニューラルネットワークの学習により得られた値であり、データ処理装置１による推論処理においては固定値である。入力データは、例えば、画像などの入力データである。入力データ判定部１４０は、入力データが予め決められた値である１ではないと判定すると、係数アドレス情報を取得しないため、入力データが０の場合、（入力データ）×（係数）の乗算結果は０と表されている。累積加算値は、ＦＰＵ１４１による積和演算の経過及び結果を表している。図９に示される積和演算では、最終的な積和演算結果として０．４６８１１６が得られている。

図１０は、実施の形態１に係るデータ処理装置１による積和演算処理の一例を示すフローチャートである。積和演算が開始されると、制御部１４２は、入力データ保存部１３０から、バイナリ化された入力データを読み出して、入力データ判定部１４０にバイナリ化された入力データを送信する（ステップＳ１０１）。

入力データ判定部１４０は、バイナリ化された入力データを受信すると、バイナリ化された入力データが予め決められた値（例えば１）であるか否かを判定する（ステップＳ１０２）。入力データ判定部１４０が、バイナリ化された入力データが０であると判定した場合（ステップＳ１０２：ＮＯ）、制御部１４２は、係数アドレス情報保存部１３１から係数アドレスを読み出さない。そして、制御部１４２は、次のバイナリ化された入力データを、入力データ保存部１３０から読み出す（ステップＳ１０１）。一方、入力データ判定部１４０が、バイナリ化された入力データが１であると判定した場合（ステップＳ１０２：ＹＥＳ）、制御部１４２は、係数アドレス情報保存部１３１から係数アドレスを取得する（ステップＳ１０３）。ここで、係数アドレスは、係数が格納されているアドレスに関する情報であり、整数のデータである。

続いて、制御部１４２は、係数アドレス情報保存部１３１から取得された係数アドレスに基づいて、係数保存部１３２にリードアクセスし、係数を取得する（ステップＳ１０４）。ここで、係数は浮動小数点のデータである。

ステップＳ１０４で取得された係数は、制御部１４２によって、ＦＰＵ１４１に送信される。ＦＰＵ１４１は係数が入力されると、浮動小数点データの累積加算を行う（ステップＳ１０５）。ＦＰＵ１４１による係数の累積加算により、浮動小数点形式の入力データと浮動小数点形式の係数についての乗算処理および加算処理が代替される。

ＦＰＵ１４１による係数の累積加算を行った後、制御部１４２は、入力データが最終の入力データであるか否かを判定する（ステップＳ１０６）。入力データが最終入力データである場合（ステップＳ１０６：ＹＥＳ）、積和演算処理は終了する。一方、入力データが最終入力データでない場合（ステップＳ１０６：ＮＯ）、制御部１４２は、入力データ保存部１３０から、次のバイナリ化された入力データをリードして、入力データ判定部１４０に、次のバイナリ化された入力データを送信する（ステップＳ１０１）。

（効果）
実施の形態１に係るデータ処理装置１は、係数アドレス情報保存部１３１と、係数保存部１３２と、入力データ判定部１４０と、ＦＰＵ１４１とを有する。データ処理装置１は、入力データ判定部１４０の判定結果に基づいて、係数アドレス情報保存部１３１から係数アドレスを取得する。更に、データ処理装置１は、取得された係数アドレスに基づいて、係数保存部１３２から係数を取得する。そして、データ処理装置１は、ＦＰＵ１４１により、取得された係数を累積加算することにより、浮動小数点データ同士の積和演算を代替できる。データ処理装置１は、Ｋビット（Ｋは自然数）の係数アドレスに基づいて２^Ｋ個の係数を参照することができるため、少ないメモリ容量を実現しつつ、ニューラルネットワークの推論処理において高い認識精度を実現することができる。

また、実施の形態１に係るデータ処理装置１では、表現可能な係数の分布が従来技術より多様になる。この点を、図２８、図１１、及び図１２を使って説明する。

図２８は、従来技術における重みパラメータの分布の様子を示す図である。また、図１１は、実施の形態１に係るデータ処理装置１において実現可能な係数の分布の一例を示す図である。図２８に示されるように、従来技術によれば、重みパラメータは１及び−１の２値を成分とする基底行列と、係数情報に分解される。そのため、実現される重みパラメータの分布は常に原点（０）に対して対称である。一方、図１１に示されるように、実施の形態１に係るデータ処理装置１では、係数は、係数アドレスを媒介して参照される。図１１に示されるように、実施の形態１に係るデータ処理装置１では、例えば、係数に一律に＋０．３を加えることも可能である。そのため、実施の形態１に係るデータ処理装置１では、実現される重みパラメータの分布は原点（０）に対して非対称にできる。このように、実施の形態１に係るデータ処理装置１では、係数保存部１３２に格納される係数は個別にバイアス値を加えるなどの独立な設定が可能である。

図１２は、図４に示されるようなニューラルネットワークに入力される入力値の分布と、重みパラメータの分布と、出力値の分布との関係を説明するための図である。図１２の上側は従来技術に対応し、図１２の下側は実施の形態１に対応する。図１２の上側にあるように、歪んだ分布の入力値が入ってきた場合、重みパラメータが＋側と−側で対称であると、出力値はより歪んだ分布となって出力される。出力値の分布がより歪む理由は、ニューラルネットワークでは積和演算を多数回行う必要があるため、積和演算の度に分布の歪みが大きくなるからである。その結果、分散が大きくなり、推論処理の精度劣化の原因となる。

一方、図１２の下側にあるように、重みパラメータにバイアス値を加え、＋側と−側で対称でない重みパラメータを表現する場合、出力値の分布の歪みを小さくすることができる。実施の形態１に係るデータ処理装置１では、係数にバイアス値を加えるなどの設定が可能だから、出力値の分散や平均値を補正するＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ処理も積和演算と同時に実行できる。

また、入力データ判定部１４０がバイナリ化された入力データが予め決められた値（例えば１）ではなく０であると判定した場合、データ処理装置１は、係数アドレス情報保存部１３１からの係数アドレスの取得、及び、係数保存部１３２からの係数の取得を行わない。したがって、不要なメモリアクセス、及び、浮動小数点演算を削減できる。換言すると、データ処理装置１は、ニューラルネットワークで必要とされる積和演算の高速化や低消費電力化を実現できる。

［実施の形態２］
次に実施の形態２について説明する。実施の形態２に係るデータ処理装置１は、実施の形態１に係るデータ処理装置１と比較して、積和演算の精度を上げるため、各入力データに対して乗じられる係数が１個からＭ個（Ｍは２以上の自然数）に拡張される点で異なる。各入力データに対して乗じられる係数が１個からＭ個（Ｍは２以上の自然数）に拡張されることに対応して、各入力データに対する係数アドレスも１個からＭ個に拡張される。１つのバイナリ化された入力データに対する係数アドレスの数が１個からＭ個に拡張される以外の構成および動作は、実施の形態１で説明したデータ処理装置１と同様であるので、同一の構成については同一の符号を付し、重複した説明は省略する。

（構成）
図１３は、実施の形態２に係る推論部１４及びＲＡＭ１３Ａの構成例を示す図である。図１３に示されるように、実施の形態２に係るＲＡＭ１３Ａは、実施の形態１に係る係数アドレス情報保存部１３１に代えて、係数アドレス情報保存部１３１Ａを具備する。

図１４は、実施の形態２に係るデータ処理装置が行う積和演算処理の概要を説明する図である。図１４に示されるように、実施の形態２に係るデータ処理装置１では、係数アドレス情報はＭ×Ｎの行列として表現され得る。図１４を参照して、Ｍ×Ｎの行列の各列に含まれるＭ個の係数アドレスは、Ｍ個の係数アドレスにより参照されるＭ個の係数の和が、元の重みパラメータにもっとも近くなるように、推論処理に先立って予め決定される。行列の最左端（第１列）を参照して、（係数アドレスＡ０で参照される係数の値）＋（係数アドレスＡ３で参照される係数の値）＋（係数アドレスＡ０で参照される係数の値）＋ … ＋（係数アドレスＡ１で参照される係数の値）は、量子化前の重みパラメータの第１成分（要素）とほぼ同等になるように調整されている。換言すると、量子化前の重みパラメータが、１または複数の係数の総和値とほぼ同等になるように分解されることに対応して、係数アドレス情報が定められる。係数アドレスの組み合わせの調整方法として、例えば、Ｍ個の係数アドレスの組み合わせから表現可能な重みパラメータの値のテーブルを予め生成し、元々の重みパラメータと最も近いテーブルの値が生成される係数アドレスＭ個の組み合わせを係数アドレス情報保存部１３１Ａに保存しておくことができる。

（効果）
実施の形態２によれば、データ処理装置１は、１つのバイナリ化された入力データに対し、複数個の係数アドレスを係数アドレス情報保存部１３１に格納する。そのため、実施の形態１に係るデータ処理装置１と比較して、重みパラメータをより高精度に近似することができる。したがって、実施の形態２に係るデータ処理装置１は、ニューラルネットワークの推論処理において、より高い認識精度を実現できる。

［実施の形態３］
（構成）
図１５は、実施の形態３に係るデータ処理装置１Ｂの推論部１４Ｂ及びＲＡＭ１３の構成例を示すブロック図である。実施の形態３に係るデータ処理装置１Ｂは、実施の形態２に係るデータ処理装置１Ａと比較して、推論部１４Ｂがアクセス回数蓄積部１４３を更に具備する点、及び、ＦＰＵ１４１Ｂがアクセス回数蓄積部１４３の蓄積した係数アドレスのアクセス回数に基づいて積和演算を行う点で異なる。これ以外の構成および動作については、実施の形態１で説明したデータ処理装置１と同様であるので、同一の構成については同一の符号を付し、重複した説明は省略する。

図１５を参照して、アクセス回数蓄積部１４３は、係数アドレス情報保存部１３１Ａに格納される複数の係数アドレスの各々について、各係数アドレスが参照される回数をカウントする回路である。より具体的には、アクセス回数蓄積部１４３は、入力データ判定部１４０により各係数アドレスを取得すると判定された回数を、１つの出力データを計算する処理の間カウントする。換言すると、アクセス回数蓄積部１４３は、複数の係数アドレスの各々について、参照される回数をカウントする回路である。

（動作）
図１６は、実施の形態３に係るデータ処理装置１Ｂにおいて、１つの出力データを得る場合のアクセス回数蓄積部１４３の動作の一例を示す図である。図１６を参照して、バイナリ化された４個の入力データに対して、４×４個の係数アドレスを成分とする係数アドレス行列により重みパラメータが表現されている。

図１６において、１番目のバイナリ化された入力データは、（１０１１）の左端で示される１である。そのため、入力データ判定部１４０は、制御部１４２Ｂにより係数アドレス情報保存部１３１Ａから係数アドレスを取得すると判定する。制御部１４２Ｂは、入力データ判定部１４０による判定結果に基づいて、係数アドレス情報保存部１３１Ａから４×４の係数アドレス行列の第１列に含まれる係数アドレスＡ０、Ａ３、Ａ０、及びＡ１を順次取得する。制御部１４２Ｂは、取得した係数アドレスＡ０、Ａ３、Ａ０、及びＡ１を順次、アクセス回数蓄積部１４３に送信する。アクセス回数蓄積部１４３は、係数アドレスＡ０の参照回数として２回、係数アドレスＡ１の参照回数として１回、及び係数アドレスＡ３の参照回数として１回との情報をカウントし、記憶する。

続いて、２番目のバイナリ化された入力データは、（１０１１）の左から２番目の０である。したがって、制御部１４２Ｂは、入力データ判定部１４０による判定結果に基づいて、係数アドレス情報保存部１３１Ａにアクセスしないとの制御を行う。したがって、アクセス回数蓄積部１４３が記憶するカウント値は更新されない。

次に、３番目のバイナリ化された入力データは、（１０１１）の左から３番目の１である。そのため、入力データ判定部１４０は、制御部１４２Ｂにより係数アドレス情報保存部１３１Ａから係数アドレスを取得すると判定する。制御部１４２Ｂは、入力データ判定部１４０による判定結果に基づいて、係数アドレス情報保存部１３１Ａから係数アドレスＡ２、Ａ０、Ａ２、及びＡ６を順次取得する。制御部１４２Ｂは、取得した係数アドレスＡ２、Ａ０、Ａ２、及びＡ６を順次、アクセス回数蓄積部１４３に送信する。アクセス回数蓄積部１４３は、係数アドレスＡ０の参照回数として３回、係数アドレスＡ１の参照回数として１回、係数アドレスＡ２の参照回数として２回、及び係数アドレスＡ３の参照回数として１回、及び係数アドレスＡ６の参照回数として１回との情報をカウントし、記憶する。

最後に、４番目のバイナリ化された入力データは、（１０１１）の左から４番目の１である。そのため、入力データ判定部１４０は、制御部１４２Ｂにより係数アドレス情報保存部１３１Ａから係数アドレスを取得すると判定する。

図１６に示されるように、最終的に、アクセス回数蓄積部１４３は、係数アドレスＡ０の参照回数として３回、係数アドレスＡ１の参照回数として３回、係数アドレスＡ２の参照回数として２回、係数アドレスＡ３の参照回数として２回、係数アドレスＡ４の参照回数として０回、係数アドレスＡ５の参照回数として０回、係数アドレスＡ６の参照回数として１回、及び、係数アドレスＡ７の参照回数として１回、との情報をカウント結果として記憶する。

実施の形態３に係るＦＰＵ１４１Ｂは、アクセス回数蓄積部１４３の蓄積結果と、係数保存部１３２に保存された係数に基づいて、入力データ（１０１１）に対する出力データを算出するための積和演算を行う。具体的には、出力データは、（係数アドレスＡ０の参照回数）×（係数アドレスＡ０に格納される係数）＋（係数アドレスＡ１の参照回数）×（係数アドレスＡ１に格納される係数）＋（係数アドレスＡ２の参照回数）×（係数アドレスＡ２に格納される係数）＋（係数アドレスＡ３の参照回数）×（係数アドレスＡ３に格納される係数）＋（係数アドレスＡ４の参照回数）×（係数アドレスＡ４に格納される係数）＋（係数アドレスＡ５の参照回数）×（係数アドレスＡ５に格納される係数）＋（係数アドレスＡ６の参照回数）×（係数アドレスＡ６に格納される係数）＋（係数アドレスＡ７の参照回数）×（係数アドレスＡ７に格納される係数）を計算することにより算出される。図１５の例では、出力データは、ＦＰＵ１４１Ｂにより、３×０．２８３＋３×（−０．３３２）＋２×１．２３２＋２×０．４３２＋０×（−０．５４３）＋０×０．１２３＋１×（−１．１２１）＋１×０．６３５を演算することにより算出される。

図１７は、実施の形態３に係るデータ処理装置１Ｂによる積和演算処理の一例を示すフローチャートである。積和演算が開始されると、制御部１４２Ｂは、入力データ保存部１３０から、バイナリ化された入力データを読み出す。制御部１４２Ｂは、取得したバイナリ化された入力データを、入力データ判定部１４０に送信する（ステップＳ１０１）。

入力データ判定部１４０がバイナリ化された入力データを受信すると、入力データ判定部１４０は、バイナリ化された入力データが予め決められた値である１であるか否かを判定する（ステップＳ１０２）。入力データ判定部１４０が、バイナリ化された入力データが０であると判定した場合（ステップＳ１０２：ＮＯ）、制御部１４２Ｂは、係数アドレス情報保存部１３１Ａから係数アドレスを読み出さない。そして、制御部１４２Ｂは、次のバイナリ化された入力データを入力データ保存部１３０から読み出す（ステップＳ１０１）。一方、入力データ判定部１４０が、バイナリ化された入力データが１であると判定した場合（ステップＳ１０２：ＹＥＳ）、制御部１４２Ｂは、係数アドレス情報保存部１３１Ａから係数アドレスを取得する（ステップＳ１０３）。ここで、係数アドレスは、係数が格納されているアドレス値であり、整数のデータである。

制御部１４２Ｂは、係数アドレス情報保存部１３１Ａから取得された係数アドレスをアクセス回数蓄積部１４３に送信する。アクセス回数蓄積部１４３は、受信した係数アドレスに基づいて、係数アドレスに係るカウント値を１だけカウントアップする（ステップＳ３０４）。アクセス回数蓄積部１４３でのカウント動作は整数の演算処理である。

ステップＳ３０４に続いて、制御部１４２は、バイナリ化された入力データが最終の入力データであるか否かを判定する（ステップＳ３０５）。入力データが最終入力データである場合（ステップＳ３０５：ＹＥＳ）、制御部１４２Ｂは、アクセス回数蓄積部１４３においてカウント値が１以上である係数を係数保存部１３２から取得する（ステップＳ３０６）。一方、バイナリ化された入力データが最終入力データでない場合（ステップＳ３０５：ＮＯ）、制御部１４２Ｂは、入力データ保存部１３０から、次のバイナリ化された入力データを読み出す（ステップＳ１０１）。

ステップＳ３０６で係数保存部１３２から取得された係数は、ＦＰＵ１４１Ｂに送信される。ステップＳ３０６に続いて、ＦＰＵ１４１Ｂは、アクセス回数蓄積部１４３がカウントした各係数の参照回数と、各係数との積を算出する（ステップＳ３０７）。更に、ＦＰＵ１４１Ｂは、ステップＳ３０７で算出された積の総和計算を行う（ステップＳ３０８）。ＦＰＵ１４１ＢによるステップＳ３０８の総和計算の完了により、積和演算が終了する。

（効果）
実施の形態３に係るデータ処理装置１Ｂは、実施の形態２に係るデータ処理装置１Ａと比較して、アクセス回数蓄積部１４３を更に具備する。アクセス回数蓄積部１４３は、係数アドレス情報保存部１３１Ａから読み出される係数アドレスについて、読み出しアクセスのあった回数をカウントする。換言すると、アクセス回数蓄積部１４３は、係数保存部１３２に格納される各係数を積和演算に使用する回数をカウントするため、ＦＰＵ１４１Ｂで各係数を累積加算する回数を知ることができる。そのため、データ処理装置１Ｂは、係数アドレス情報保存部１３１Ａから係数アドレスを取得する度に、係数アドレスに対応する係数を読み出すために係数保存部１３２にアクセスする必要がなくなる。即ち、データ処理装置１Ｂは、ＦＰＵ１４１Ｂでの積和演算のために、各係数について１度だけ係数保存部１３２をアクセスすれば良い。通常、参照回数のカウントに要する電力よりメモリアクセスに要する電力の方が大きいため、実施の形態３に係るデータ処理装置１Ｂは、ニューラルネットワークによる推論処理に要する電力を抑制できる。ニューラルネットワークでは積和演算処理に用いられる重みパラメータの数が大規模となるため、実施の形態３に係るデータ処理装置１Ｂによる電力抑制効果は大きい。

（変形例）
実施の形態３では、実施の形態２に対して、アクセス回数蓄積部１４３を更に具備する実施例について説明したが、アクセス回数蓄積部１４３の適用は実施の形態２に限られない。即ち、実施の形態１の推論部１４に、アクセス回数蓄積部１４３を更に具備することで、１×Ｎの係数アドレス行列を用いる場合についても、実施の形態３と同様の効果を得ることができる。

［実施の形態４］
実施の形態１ないし実施の形態３においては、バイナリ化された入力データが０または１であることを仮定していた。この仮定に基づいて、データ処理装置１及びデータ処理装置１Ａは、係数アドレス情報保存部１３１から係数アドレスを取得するか否かを入力データ判定部１４０により判定していた。ニューラルネットワークでは、各出力データに対して、活性化関数（ＡｃｔｉｖａｔｉｏｎＦｕｎｃｔｉｏｎ）として主にＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）というランプ関数を積算し、その結果を次段の入力に用いることが多い。ここで、ＲｅＬＵは、入力値が０以上であればその値を出力し、入力値が０未満であれば０を出力する関数である。そのため、入力データは０か正の値になるので、実施の形態１ないし実施の形態３において、バイナリ化された入力データは０か１であると仮定していた。

ところで、活性化関数としてＲｅＬＵ以外の関数を用いる場合もあり、その際には入力データが負の値になる場合もある。実施の形態４に係るデータ処理装置１は、このように入力データが正負の２つの値をとるものとしてバイナリ化されたデータである場合に好適な実施の形態である。

（構成）
図１８は、実施の形態４に係る推論部１４Ｃ及びＲＡＭ１３Ｃの構成例を示す図である。実施の形態４に係る推論部１４Ｃは、実施の形態１の制御部１４２に代えて、制御部１４２Ｃを具備する。また、実施の形態４に係るＲＡＭ１３Ｃは、係数アドレス情報保存部１３１に代えて、係数アドレス情報保存部１３１Ｃを具備する。実施の形態４に係るＲＡＭ１３Ｃは、更に、係数保存部１３２に代えて、係数保存部１３２Ｃを具備する。

図１９は実施の形態４に係る係数アドレス情報保存部１３１Ｃ、及び、係数保存部１３２Ｃの構成例を示す図である。実施の形態４に係るデータ処理装置１は、バイナリ化された入力データが正の場合と負の場合に対応するため、それぞれに対して係数を係数保存部１３２Ｃに格納しておく点で実施の形態１及び実施の形態２と異なる。バイナリ化された入力データが正の場合と負の場合に応じて制御部１４２Ｃが取得する係数が異なるため、係数アドレス情報保存部１３１Ｃも、入力データが正の場合と負の場合に応じて異なる係数アドレスを格納する。これ以外の構成および動作については、実施の形態１及び実施の形態２で説明したデータ処理装置１と同様であるので、同一の構成については同一の符号を付し、重複した説明は省略する。

図１９に示されるように、バイナリ化された入力データは、１及び−１という正負の２つの値をとり得る。入力データが１である場合、制御部１４２Ｃは、係数アドレスＡｎ（ｎは０以上７以下の整数）に代えて、係数アドレスＡｎ＿１を取得する。一方、入力データが−１である場合、制御部１４２Ｃは、係数アドレスＡｎ（ｎは０以上７以下の整数）に代えて、係数アドレスＡｎ＿−１を取得する。

（動作）
図１９の例では、バイナリ化された入力データとして（１ −１１１）が、入力データ保存部１３０から順次、読み出される。１番目のバイナリ化された入力データは、（１ −１１１）の左端の１である。１番目のバイナリ化された入力データは正の値なので、制御部１４２Ｃは、４×４の係数アドレス行列の第１列に対応して、Ａ０＿１、Ａ３＿１、Ａ０＿１、及びＡ１＿１の４つの係数アドレスを取得する。例えば、制御部１４２Ｃは、取得された係数アドレスＡ０＿１に基づいて、係数０．２８３を取得する。

一方、２番目のバイナリ化された入力データは、（１ −１１１）の左から２番目の−１である。２番目のバイナリ化された入力データは負の値なので、制御部１４２Ｃは、４×４の係数アドレス行列の第２列に対応して、Ａ０＿−１、Ａ１＿−１、Ａ０＿−１、及びＡ２＿−１の４つの係数アドレスを取得する。例えば、制御部１４２Ｃは、取得された係数アドレスＡ０＿−１に基づいて、係数−０．３３２を取得する。

（効果）
図２０には歪んだ分布の入力値がニューラルネットワークに入力された場合の出力値の分布の様子が例示されている。上述した通り、活性化関数としてＲｅＬＵ以外の関数を用いる場合があり、その際には入力データが負の値になる場合もある。このような場合、入力データと出力データが比例関係で良いのであれば、入力データの符号に応じて、参照された係数の正負の符号のみを変えるという方法でも対応可能である。しかし、図２０の上図に示されるように、入力値の分布が歪んでおり、かつ、重みパラメータが入力値と比例関係にある場合、出力値の分布の発散が大きくなり、ニューラルネットワークによる推論精度が劣化する。

一方、図２０の下図に示されるように、平均＝１及び分散＝１となるように重みパラメータやバイアス値を調整する処理（ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ）を行うことにより、入力値の分布の歪みを、出力値の分布では抑制できる。

実施の形態４に係る係数アドレス情報保存部１３１Ｃ及び係数保存部１３２Ｃは、バイナリ化された入力データの正負の符号に応じて、それぞれ係数アドレス情報及び係数を格納している。したがって、実施の形態４に係るデータ処理装置１Ｃでは、バイナリ化された入力データの正負に応じて異なる係数を累積加算できる。即ち、データ処理装置１Ｃは、累積加算と同時にＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎを行うことができる。その結果、データ処理装置１Ｃは、ニューラルネットワークによる推論精度の劣化を抑制できる。

［実施の形態５］
（構成）
図２１は、実施の形態５に係るデータ処理装置１Ｄの構成例を示すブロック図である。実施の形態５に係るデータ処理装置１Ｄは、実施の形態１に係るデータ処理装置１と比較して、最頻値インデックス判定部１４４を更に具備する点、制御部１４２Ｄが調整した係数をＦＰＵ１４１Ｄに出力する点、及び、制御部１４２ＤがＦＰＵ１４１Ｄに対してオフセット加算を行うよう制御する点、で異なる。これ以外の構成および動作については、実施の形態１で説明したデータ処理装置１と同様であるので、同一の構成については同一の符号を付し、重複した説明は省略する。

図２１に示されるように、実施の形態５に係る推論部１４Ｄは、入力データ判定部１４０と、最頻値インデックス判定部１４４と、ＦＰＵ１４１Ｄと、制御部１４２Ｄとを備える。

実施の形態５において、係数アドレス情報に含まれる係数アドレスのうち、最も出現頻度の高い係数アドレスを「最頻値係数アドレス」と呼ぶ。最頻値インデックス判定部１４４は、制御部１４２Ｄにより読み出された係数アドレスが最頻値係数アドレスであるか否かを判定するため、最頻値係数アドレスを記憶する。最頻値係数アドレスの決定方法は、後述する。最頻値インデックス判定部１４４は、制御部１４２Ｄが入力データ判定部１４０の判定結果に基づいて係数アドレス情報保存部１３１から係数アドレスを読み出した際、読み出された係数アドレスが最頻値係数アドレスであるか否かを判定する。また、最頻値インデックス判定部１４４は、最も出現頻度の高い係数アドレスが読み出された回数を、カウンタ（図示しない）でカウントする。

制御部１４２Ｄは、ＦＰＵ１４１Ｄに対して、最も出現頻度の高い係数アドレスに関するオフセット加算を行うよう制御する機能を更に有する点で、実施の形態１に係る制御部１４２と異なる。オフセット加算については図２２及び図２３を用いて後述する。

ＦＰＵ１４１Ｄは、推論処理に先立ち予め調整された係数に基づいて累積加算を行う点、及び、上述したオフセット加算を行う点で、実施の形態１に係るＦＰＵ１４１と異なる。

（動作）
図２２は、実施の形態５における係数の調整方法を説明する図である。図２２に示される係数の調整は、推論処理に先立ち予め行われる。換言すると、図２２に示される係数の調整は、積和演算に先立ち予め行われる。

係数を調整するため、まず、最頻値係数アドレスが決定される。制御部１４２Ｄは、積和演算に先立って、係数アドレス情報保存部１３１から係数アドレス情報を読み出し、最頻値インデックス判定部１４４に係数アドレス情報を送信する。最頻値インデックス判定部１４４は、係数アドレス情報保存部１３１から読み出された係数アドレス情報について、係数アドレスＡ０ないしＡ７が出現する頻度を、それぞれ、カウンタ（図示しない）によりカウントする。図２２の例では、係数アドレスＡ３が１６２回取得されており、係数アドレスＡ３に格納された係数が最も多く積和演算で使用されることが分かる。したがって、最頻値インデックス判定部１４４は、最頻値係数アドレスは係数アドレスＡ３であると決定する。なお、ここでは最頻値インデックス判定部１４４が最頻値係数アドレスを決定する例を説明したが、最頻値係数アドレスを決定する方法は、これに限られない。例えば、データ処理装置１Ｄの外部にあるパーソナルコンピュータ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）及びプログラムを用いて最頻値係数アドレスを決定しても良い。この場合、例えば、プロセッサ１０がプログラムを実行して、最頻値インデックス判定部１４４が有する最頻値係数アドレスを保持するレジスタ（図示しない）に、最頻値係数アドレスを書き込む。

最頻値係数アドレスが決定された後、係数を調整するため、制御部１４２Ｄは、係数アドレスＡ０ないしＡ７に基づいて、それぞれに格納されている係数を取得する。そして、最頻値インデックス判定部１４４から受信した係数アドレスＡ３が最頻値係数アドレスであるとの情報に基づいて、取得された係数の調整を行う。より具体的には、最も多く使用される係数の値を０となるように調整を行う。図２２の例では、制御部１４２Ｄは、係数アドレスＡ３に格納されている係数−０．１３を０．００に調整する。この調整に合わせて、制御部１４２Ｄは、係数アドレスＡ０に格納される係数−０．７９を、−０．７９＋０．１３＝−０．６６に調整する。同様に、係数アドレスＡ１に格納されている係数−０．４６を、−０．４６＋０．１３＝−０．３３に調整する。同様にして、制御部１４２Ｄは、係数アドレスＡ２、及び、Ａ４ないしＡ７に格納される係数のそれぞれに対して、＋０．１３をして調整を行う。

次に、実施の形態５に係るデータ処理装置１Ｄが推論処理を行うに先立って決定されるオフセット値について説明する。上述したように、最頻値インデックス判定部１４４は、最頻値係数アドレスを決定するとともに、係数アドレス情報に含まれる最頻値係数アドレスの出現回数をカウンタ（図示しない）でカウントする。オフセット値は、（オフセット値）＝（最頻値係数アドレスが読み出された回数）×（最も使用回数の多い係数）として算出され、係数保存部１３２に格納される。

推論処理が開始された後、実施の形態５に係るＦＰＵ１４１Ｄは、推論処理に先立ち予め調整されて係数保存部１３２に格納された調整後の係数に基づいて、積和演算のための累積加算を行う。ＦＰＵ１４１Ｄは、調整後の係数に基づく累積加算に続いて、係数保存部１３２から読み出されたオフセット値を、上記の累積加算結果に加算する。

図２３は、実施の形態５に係るデータ処理装置１Ｄによる積和演算処理の一例を示すフローチャートである。積和演算が開始されると、制御部１４２Ｄは、入力データ保存部１３０から、バイナリ化された入力データを読み出す。制御部１４２Ｄは、取得したバイナリ化された入力データを、入力データ判定部１４０に送信する（ステップＳ１０１）。

入力データ判定部１４０がバイナリ化された入力データを受信すると、入力データ判定部１４０は、バイナリ化された入力データが予め決められた値（例えば、１）であるか否かを判定する（ステップＳ１０２）。入力データ判定部１４０が、バイナリ化された入力データが０であると判定した場合（ステップＳ１０２：ＮＯ）、制御部１４２Ｄは、係数アドレス情報保存部１３１から係数アドレスを読み出さない。そして、制御部１４２Ｄは、次のバイナリ化された入力データを入力データ保存部１３０から読み出す（ステップＳ１０１）。一方、入力データ判定部１４０が、バイナリ化された入力データが１であると判定した場合（ステップＳ１０２：ＹＥＳ）、制御部１４２Ｄは、係数アドレス情報保存部１３１から係数アドレスを取得する（ステップＳ１０３）。

制御部１４２Ｄは、係数アドレス情報保存部１３１から取得された係数アドレスを最頻値インデックス判定部１４４に送信する。最頻値インデックス判定部１４４は、受信した係数アドレスが最頻値係数アドレスであるか否かを判定する（ステップＳ５０１）。受信した係数アドレスが最頻値係数アドレスでない場合（ステップＳ５０１：ＮＯ）、制御部１４２Ｄは、最頻値インデックス判定部１４４による判定結果に基づいて、係数保存部１３２から係数を読み出す（ステップＳ１０４）。一方、受信した係数アドレスが最頻値係数アドレスである場合（ステップＳ５０１：ＹＥＳ）、制御部１４２Ｄは、最頻値インデックス判定部１４４による判定結果に基づいて、係数保存部１３２から係数を読み出さず、次の入力データを読み込む（ステップＳ１０１）との制御を行う。

ステップＳ１０４で取得された係数は、制御部１４２Ｄによって、ＦＰＵ１４１Ｄに送信される。ＦＰＵ１４１Ｄは係数が入力されると、浮動小数点データの累積加算を行う（ステップＳ１０５）。ＦＰＵ１４１Ｄによる係数の累積加算により、浮動小数点形式の入力データと浮動小数点形式の係数についての乗算処理および加算処理が代替される。

ＦＰＵ１４１Ｄによる係数の累積加算を行った後、制御部１４２Ｄは、入力データが最終の入力データであるか否かを判定する（ステップＳ１０６）。入力データが最終入力データでない場合（ステップＳ１０６：ＮＯ）、制御部１４２Ｄは、入力データ保存部１３０から、次のバイナリ化された入力データをリードして、入力データ判定部１４０に、次のバイナリ化された入力データを送信する（ステップＳ１０１）。一方、入力データが最終入力データである場合（ステップＳ１０６：ＹＥＳ）、制御部１４２Ｄは、ＦＰＵ１４１Ｄに対して、ステップＳ１０５で算出した累積加算結果にオフセット値を加算するよう制御を行う（ステップＳ５０２）。ＦＰＵ１４１Ｄによりオフセット加算が行われると、１つの積和演算は終了する。

（効果）
実施の形態５に係るデータ処理装置１Ｄは、実施の形態１に係るデータ処理装置１と比較して、最頻値インデックス判定部１４４を更に具備する。最頻値インデックス判定部１４４は、積和演算時、係数アドレス情報保存部１３１から読み出された係数アドレスが最頻値係数アドレスか否かを判定する。ＦＰＵ１４１Ｄは０に調整された係数について累積加算を省略できるので、累積加算に要する消費電力及び実行時間を削減できる。

［実施の形態６］
実施の形態１ないし実施の形態５では、入力データは０と１、または、１と−１のように、２値であった。実施の形態６は、入力データが複数ビットからなる場合の積和演算処理に関する。

図２４は、入力データを複数ビットに量子化する方法の一例を示す図である。図２４において、入力値は、（入力値の最大値（ｍａｘ）−０）を８等分した区間のいずれに属するかにより、０００、００１、０１０、０１１、１００、１０１、１１０、または１１１に量子化される。

（構成）
図２５は、実施の形態６に係るデータ処理装置１Ｅの推論部１４ＥとＲＡＭ１３の構成例を示す図である。実施の形態６に係るデータ処理装置１Ｅは、実施の形態１に係るデータ処理装置１と比較して、整数変換部１４５と、ビット抽出部１４６と、カウンタ１４７と、を更に具備する点で異なる。更に、実施の形態６に係るデータ処理装置１Ｅは、制御部１４２及びＦＰＵ１４１に代えて、それぞれ、制御部１４２Ｅ及びＦＰＵ１４１Ｅを具備する点で実施の形態１と異なる。これ以外の構成および動作については、実施の形態１で説明したデータ処理装置１と同様であるので、同一の構成については同一の符号を付し、重複した説明は省略する。

図２４を参照して、整数変換部１４５は、浮動小数点データである入力データを予め決められたＬビット（Ｌは自然数）の整数に変換する。

ビット抽出部１４６は、整数変換部１４５により量子化して得られた整数データから、カウンタ１４７で示されるビットを抜き出す。

カウンタ１４７は、整数データの何ビット目を処理するかを決めるための回路である。積和演算開始時はカウンタ１４７の値は０であり、予め決められたビット数に至るまで、順次、１ずつカウントアップする。図２５において、カウンタ１４７は、Ｊ（０以上の整数）の値を１ずつカウントアップする。カウンタ１４７の示す値は、入力データ判定部１４０とビット抽出部１４６とに送信される。

（動作）
図２６は、実施の形態６に係るデータ処理装置１Ｅによる積和演算の演算方法を概念的に示す図である。図２６に示される積和演算の例では、３つの入力データ１．３、０．２、及び３．１が入力データ保存部１３０に格納されている。制御部１４２Ｅにより入力データ保存部１３０から読み出された浮動小数点のデータ１．３、０．２、及び３．１は、整数変換部１４５に送信される。整数変換部１４５は、入力データ１．３、０．２、及び３．１を、それぞれ１００、００１、及び１１０に量子化する。量子化された整数データ１００、００１、及び１１０から、それぞれのＬＳＢである０ビット目に当たる０、１、及び０が、ビット抽出部１４６により抽出される。抽出された０、１、及び０は制御部１４２Ｅを介して、入力データ判定部１４０に順次送信される。

入力データ判定部１４０は、入力された０、１、及び０に基づいて、係数アドレス情報保存部１３１から係数アドレスを取得する。最初に、入力データ判定部１４０は、１．３を量子化して得た整数１００の０ビット目が０であると判定する。制御部１４２Ｅは、入力データ判定部１４０の判定結果に応じて、係数アドレス情報保存部１３１からの係数アドレスの取得を省略する制御を行う。続いて、入力データ判定部１４０は、０．２を量子化して得た整数００１の０ビット目が１であると判定する。制御部１４２Ｅは、入力データ判定部１４０の判定結果に応じて、係数アドレス情報保存部１３１から係数アドレスＡ０を取得する。制御部１４２Ｅは、取得された係数アドレスＡ０に基づいて係数０．２８３を係数保存部１３２から取得する。ＦＰＵ１４１Ｅは、係数０．２８３を累積加算する。最後に、入力データ判定部１４０は、３．１を量子化して得た整数１１０の０ビット目が０であると判定する。制御部１４２Ｅは、入力データ判定部１４０の判定結果に応じて、係数アドレス情報保存部１３１からの係数アドレスの取得を省略する制御を行う。

０ビット目の処理が完了したとの制御部１４２Ｅからの情報に基づいて、カウンタ１４７は、Ｊの値を１だけカウントアップする。推論部１４Ｅは、量子化された整数１００、００１、及び１１０の１ビット目である０、０、及び１について、処理を行う。この際、入力データの１ビット目の値は、０ビット目のデータの２倍の値であることに着目して、ＦＰＵ１４１Ｅによる総和計算が行われる。より具体的には、制御部１４２Ｅは、カウンタ１４７の値に基づいて、Ｊビット目の累積加算の結果を、Ｊビット左シフト（２^Ｊ倍することと等価）した上で、ＦＰＵ１４１Ｅに総和計算させるよう制御を行う。

推論部１４Ｅは、（Ｌ−１）ビット目まで同様の処理を繰り返し行う。図２６の例では、Ｌ＝３であり、推論部１４Ｅは、２ビット目まで同様の処理を繰り返し行う。これにより、推論部１４Ｅは、複数ビットに量子化された入力データに対して積和演算を実行できる。

図２７は、実施の形態６に係るデータ処理装置１Ｅによる積和演算処理の一例を示すフローチャートである。積和演算開始時、カウンタ１４７のカウント値Ｊは、例えば０に初期化される（ステップＳ６００）。続いて、制御部１４２Ｅは、入力データ保存部１３０から、複数ビットに量子化された入力データのＪビット目の値を、バイナリ化された入力データとして読み出す（ステップＳ６０１）。制御部１４２Ｅは、入力データ判定部１４０に、取得したＪビット目の値を順次、バイナリ化された入力データとして送信する（ステップＳ６０２）。

入力データ判定部１４０は、バイナリ化された入力データを受信すると、バイナリ化された入力データが予め決められた値（例えば１）であるか否かを判定する（ステップＳ１０２）。入力データ判定部１４０が、バイナリ化された入力データが０であると判定した場合（ステップＳ１０２：ＮＯ）、制御部１４２Ｅは、係数アドレス情報保存部１３１から係数アドレスを読み出さない。そして、制御部１４２Ｅは、次のバイナリ化された入力データを、入力データ保存部１３０から読み出す（ステップＳ６０２）。一方、入力データ判定部１４０が、バイナリ化された入力データが１であると判定した場合（ステップＳ１０２：ＹＥＳ）、制御部１４２Ｅは、係数アドレス情報保存部１３１から係数アドレスを取得する（ステップＳ１０３）。

続いて、制御部１４２Ｅは、係数アドレス情報保存部１３１から取得された係数アドレスに基づいて、係数保存部１３２にリードアクセスし、係数を取得する（ステップＳ１０４）。

ステップＳ１０４で取得された係数は、制御部１４２Ｅによって、ＦＰＵ１４１Ｅに送信される。ＦＰＵ１４１Ｅは係数が入力されると、浮動小数点データの累積加算を行う（ステップＳ１０５）。ＦＰＵ１４１による係数の累積加算により、浮動小数点形式の入力データと浮動小数点形式の係数についての乗算処理および加算処理が代替される。

ＦＰＵ１４１Ｅによる係数の累積加算を行った後、制御部１４２Ｅは、入力データが最終の入力データであるか否かを判定する（ステップＳ１０６）。入力データが最終入力データでない場合（ステップＳ１０６：ＮＯ）、制御部１４２Ｅは、入力データ保存部１３０から、次のバイナリ化された入力データをリードして、入力データ判定部１４０に、次のバイナリ化された入力データを送信する（ステップＳ６０２）。一方、入力データが最終入力データである場合（ステップＳ１０６：ＹＥＳ）、Ｊビット目の積和演算処理は終了する。制御部１４２Ｅは、Ｊビット目の累積加算が終了する（ステップＳ１０６：ＹＥＳ）と、ＦＰＵ１４１Ｅに対し、累積加算の結果をＪビット左シフトする（２^Ｊ倍することと等価）よう指示する（ステップＳ６０７）。続いて、ＦＰＵ１４１Ｅは、（Ｊ−１）ビット目までの総和計算結果に、Ｊビット目の累積加算結果を加算して、Ｊビット目までの総和計算結果を算出する（ステップＳ６０８）。Ｊビット目までの総和計算結果を算出する（ステップＳ６０８）と、カウンタ１４７は、Ｊの値を１だけインクリメントする（ステップＳ６０９）。インクリメント後のＪの値がＬより小さい場合（ステップＳ６１０：ＹＥＳ）、制御部１４２Ｅは、インクリメント後のＪの値に基づいて、Ｊビット目の入力データを取り込む（ステップＳ６０１）。一方、インクリメント後のＪの値がＬ以上の場合（ステップＳ６１０：ＮＯ）、制御部１４２Ｅは、複数ビットに量子化された入力データに対する積和演算を終了する。

上記の説明では、浮動小数点の入力データを整数に変換した上で積和演算を行う手法を、実施の形態１に対して適用する場合について説明したが、適用できる実施の形態は実施の形態１に限られない。即ち、浮動小数点の入力データを整数に変換した上で積和演算を行う手法は、実施の形態２ないし５のいずれに対しても適用できる。

以上、本発明によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は既に述べた実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更され得る。例えば、実施の形態４は、実施の形態３と組み合わせることが可能である。

１、１Ａ、１Ｂ、１Ｃ、１Ｄ、１Ｅデータ処理装置
１０プロセッサ
１１ＲＯＭ
１２バス
１３、１３Ａ、１３ＣＲＡＭ
１４、１４Ｂ、１４Ｃ、１４Ｄ、１４Ｅ推論部
１３０入力データ保存部
１３１係数アドレス情報保存部
１３２係数保存部
１４０入力データ判定部
１４１、１４１Ｂ、１４１Ｄ、１４１ＥＦＰＵ
１４２、１４２Ｂ、１４２Ｃ、１４２Ｄ、１４２Ｅ制御部
１４３アクセス回数蓄積部
１４４最頻値インデックス判定部
１４５整数変換部
１４６ビット抽出部
１４７カウンタ

Claims

バイナリ化された入力データの各々について、予め決められた値であるか否かを判定する入力データ判定部と、
複数の係数と、前記複数の係数が格納される係数アドレスに関する情報を含む係数アドレス情報と、を格納する記憶部と、
前記入力データ判定部の判定結果に基づいて、前記記憶部から前記係数アドレスを読み出し、前記係数アドレスに基づいて前記記憶部から前記係数を読み出す制御部と、
前記制御部が取得した前記係数に関して演算を行う演算部と、
を具備するデータ処理装置。
前記演算部は、前記制御部が取得した前記係数を累積加算する、
請求項１に記載のデータ処理装置。
前記制御部は、前記入力データが前記予め決められた値であるとの前記入力データ判定部の判定結果に基づいて、前記係数アドレスを読み出す、
請求項１に記載のデータ処理装置。
前記係数アドレス情報は、１×Ｎ（Ｎは、１より大きい自然数）個の前記係数アドレスを含む、
請求項１に記載のデータ処理装置。
前記係数アドレス情報は、Ｍ×Ｎ個（Ｍ及びＮは、１より大きい自然数）の前記係数アドレスを含む、
請求項１に記載のデータ処理装置。
前記係数アドレスの各々が取得された回数をカウントするアクセス回数蓄積部を更に具備し、
前記演算部は、前記アクセス回数蓄積部のカウント値と前記係数に基づいて積和演算を行う、
請求項１に記載のデータ処理装置。
前記バイナリ化された入力データは、正の値と負の値の２値を含み、
前記係数アドレス情報は、前記正の値に対応する第１の係数アドレスと、前記負の値に対応する第２の係数アドレスと、を含む、
請求項１に記載のデータ処理装置。
前記バイナリ化された入力データが前記正の値である場合、前記制御部は、前記第１の係数アドレスを読み出し、
前記バイナリ化された入力データが前記負の値である場合、前記制御部は、前記第２の係数アドレスを読み出す、
請求項７に記載のデータ処理装置。
前記制御部は、前記係数アドレス情報に最も多く含まれる前記係数アドレスに基づいて、前記複数の係数の値を調整し、
前記演算部は、前記調整された複数の係数に関して累積加算を行う、
請求項１に記載のデータ処理装置。
演算部とメモリを具備するデータ処理装置の動作方法であって、
バイナリ化された入力データが予め決められた値であるか否かを判定するステップと、
複数の係数と、前記複数の係数が格納される係数アドレスに関する情報を含む係数アドレス情報と、を前記メモリに格納するステップと、
前記判定するステップの判定結果に基づいて、前記メモリから前記係数アドレスを読み出すステップと、
前記係数アドレスに基づいて前記メモリから前記係数を読み出すステップと、
前記読み出された係数に基づいて前記演算部により演算するステップと、
を含む、データ処理装置の動作方法。
前記係数アドレスを読み出すステップは、前記入力データが前記予め決められた値であるとの判定結果に基づいて、前記係数アドレスを読み出すステップを含み、
前記演算するステップは、前記係数を読み出すステップにより取得される係数を累積加算するステップを更に含む、
請求項１０に記載のデータ処理装置の動作方法。
前記判定するステップは、Ｎ（Ｎは、１より大きい自然数）個のバイナリ化された入力データの各々について、前記予め決められた値であるか否かを判定するステップを更に含み、
前記係数アドレスを読み出すステップは、１×Ｎ個の前記係数アドレスを読み出すステップを更に含む、
請求項１０に記載のデータ処理装置の動作方法。
前記係数アドレスを読み出すステップは、Ｍ×Ｎ個（Ｍは、１より大きい自然数）の前記係数アドレスを読み出すステップを更に含む、
請求項１０に記載のデータ処理装置の動作方法。
前記係数アドレスの各々が取得された回数をカウントするステップを更に具備し、
前記演算するステップは、前記カウントするステップのカウント結果と前記複数の係数に基づいて積和演算を行うステップを更に含む、
請求項１０に記載のデータ処理装置の動作方法。
前記判定するステップは、正の値または負の値を有する前記バイナリ化された入力データについて、前記予め決められた値であるか否かを判定するステップを更に含み、
前記係数アドレスを読み出すステップは、前記バイナリ化された入力データが前記正の値である場合に第１の係数アドレスを読み出すステップと、前記バイナリ化された入力データが前記負の値である場合に第２の係数アドレスを読み出すステップと、を更に含む、
請求項１０に記載のデータ処理装置の動作方法。
前記係数アドレス情報において最も多く含まれる係数アドレスに基づいて、前記複数の係数の値を調整するステップを更に含み、
前記演算するステップは、前記調整された複数の係数に関して累積加算するステップを更に含む、
請求項１０に記載のデータ処理装置の動作方法。
前記演算するステップは、ニューラルネットワークの推論処理に要する積和演算を行うステップを更に含む、
請求項１０に記載のデータ処理装置の動作方法。
前記判定するステップは、複数ビットのデータを構成する複数の前記バイナリ化された入力データについて、各々の前記バイナリ化された入力データが予め決められた値であるか否かを判定するステップを更に含み、
前記演算するステップは、前記複数ビットのデータ内での前記バイナリ化された入力データのビット位置に基づいて、前記演算するステップによる演算結果をシフトするステップを更に含む、
請求項１０に記載のデータ処理装置の動作方法。
ＣＰＵとメモリとを具備するデータ処理装置で実行されるニューラルネットワークモデルに関するプログラムであって、
バイナリ化された入力データの各々が予め決められた値であるか否かを判定するステップと、
複数の係数と、前記複数の係数が格納されるアドレスを含む係数アドレスに関する情報を含む係数アドレス情報と、をメモリに格納するステップと、
前記メモリから前記係数アドレスを読み出すステップと、
前記係数アドレスに基づいて前記メモリから前記係数を読み出すステップと、
前記読み出された係数を累積加算するステップと、
を実行させる、プログラム。
前記係数アドレスを読み出すステップは、前記入力データが前記予め決められた値であるとの前記判定するステップの判定結果に基づいて、前記係数アドレスを読み出すステップを更に含む、
請求項１９に記載のプログラム。