JP2016045721A

JP2016045721A - データ格納方法、三値内積演算回路、それを備えた半導体装置、及び、三値内積演算処理プログラム

Info

Publication number: JP2016045721A
Application number: JP2014169635A
Authority: JP
Inventors: 俊介奥村; Shunsuke Okumura
Original assignee: Renesas Electronics Corp
Current assignee: Renesas Electronics Corp
Priority date: 2014-08-22
Filing date: 2014-08-22
Publication date: 2016-04-04
Anticipated expiration: 2034-08-22
Also published as: US10133552B2; US20160054979A1; JP6324264B2

Abstract

【課題】複数の三値データ間の演算を効率よく処理することが可能なデータ格納方法、三値内積演算回路、それを備えた半導体装置、及び、三値内積演算処理プログラムを提供すること。【解決手段】一実施の形態によれば、データ格納方法は、下位ビットが１を示す場合に＋１を表し、上位ビットが１を示す場合に−１を表し、下位及び上位ビットが何れも０を示す場合に０を表す、複数の２ビット幅の三値データＸ０〜Ｘ７を１つのワードに格納する。【選択図】図４

Description

本発明はデータ格納方法、三値内積演算回路、それを備えた半導体装置、及び、三値内積演算処理プログラムに関する。

近年、車両に搭載された電子制御システムは、カメラ等によって取り込まれた画像を認識する画像認識用プロセッサを備えている。例えば、電子制御システムは、画像認識用プロセッサの認識結果に基づいて障害物が接近しているか否かを判断し、ブレーキの自動制御等を行う。

画像認識用プロセッサは、入力画像から得られた画素データの配列に基づいて、量子化されたデータ（所謂、特徴量データ）を作成する。例えば、画像認識用プロセッサは、入力画像から得られたエッジ画像の方向成分を角度ごとに表したヒストグラム（勾配方向ヒストグラム）を特徴量データとして作成する。そして、画像認識用プロセッサは、作成した特徴量データと、予め機械学習によって得られた辞書データと、の内積演算を行い、その演算結果に基づいて入力画像に検出対象が含まれるか否かの判断を行う。

ここで、画像認識用プロセッサは、電子制御システムの処理性能を向上させるため、内積演算を高精度かつ高速に処理することが求められている。

しかしながら、例えば、精度向上を目的として浮動小数点型データを用いて内積演算を行う構成とした場合、処理速度が低下してしまう。他方、処理速度向上を目的として１及び０で表される二値のデータ（以下、二値データとも称す）を用いて内積演算を行う構成とした場合、精度が低下してしまう。

そこで、近年では、＋１，０，−１の三値で表されるデータ（以下、三値データとも称す）を用いて内積演算を行う画像認識用プロセッサの開発が進められている。三値データを用いて内積演算を行う構成は、二値データを用いて内積演算を行う場合よりも精度を向上させることでき、かつ、浮動小数点型データを用いて内積演算を行う場合よりも処理速度を向上させることができる。なお、三値データ間の演算については、例えば、特許文献１にも開示されている。

特開２００２−１４８０４号公報

しかしながら、三値データを用いて内積演算を行う関連技術の構成では、多ビット幅の１つのワードに対して、２ビットで表現可能な１個の三値データが多ビット幅で表現されたうえで格納されるのが一般的である。そのため、関連技術の構成では、複数の三値データ間の演算を効率よく処理することができない、という問題があった。

なお、特許文献２の構成は、キャリー信号の伝搬遅延に伴う処理速度低下を防ぐために複数の全加算器を用いて三値データ間の演算を行うものであって、複数の三値データからなるデータ間の内積演算を行うことを想定していない。そのため、特許文献２の構成でも、複数の三値データ間の演算を効率よく処理することができない、という問題があった。

その他の課題と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。

一実施の形態によれば、データ格納方法は、第１ビットが第１値を示す場合に＋１を表し、第２ビットが第１値を示す場合に−１を表し、前記第１及び前記第２ビットが何れも第２値を示す場合に０を表す、複数の２ビット幅の三値データを１つのワードに格納する。

また、一実施の形態によれば、三値内積演算回路は、複数の２ビット幅の三値データを１つのワードに格納することで構成される第１及び第２入力データのそれぞれの複数の三値データ間の乗算を行う三値乗算部を備え、前記三値乗算部の乗算結果を構成する複数の三値データのうち＋１を表す三値データの数から−１を表す三値データの数を減算した数が内積演算結果として出力される。

また、一実施の形態によれば、三値内積演算処理プログラムは、複数の２ビット幅の三値データを１つのワードに格納することで構成される第１及び第２入力データのそれぞれの複数の三値データ間の乗算を行う乗算処理と、前記乗算結果を構成する複数の三値データのうち＋１を表す三値データの数をカウントする第１カウント処理と、前記乗算結果を構成する複数の三値データのうち−１を表す三値データの数をカウントする第２カウント処理と、＋１を表す前記三値データの数から−１を表す前記三値データの数を減算する減算処理と、をコンピュータに実行させる。

前記一実施の形態によれば、複数の三値データ間の演算を効率よく処理することが可能なデータ格納方法、三値内積演算回路、それを備えた半導体装置、及び、三値内積演算処理プログラムを提供することができる。

実施の形態１に係る画像認識装置を示すブロック図である。図１に示す画像認識装置に設けられた画像認識用プロセッサの動作を示すフローチャートである。特徴量データを三値データに変換してワードに格納するまでの流れを説明するための図である。実施の形態１に係る三値データ格納方法を示す図である。実施の形態１に係る三値データ格納方法の具体例を示す図である。実施の形態１に係る画像認識用プロセッサを示すブロック図である。図６に示す画像認識用プロセッサに設けられた三値乗算器を示すブロック図である。図６に示す画像認識用プロセッサに設けられた三値乗算器の具体例を示す回路図である。図６に示す画像認識用プロセッサによる三値内積演算処理に関するアセンブリプログラムである。図６に示す画像認識用プロセッサによる三値内積演算処理の具体例を示す図である。図１に示す画像認識装置及びそれに設けられた画像認識用プロセッサのハードウエア構成の一例を示すブロック図である。図１に示す画像認識装置の他の適用事例を示す図である。実施の形態２に係る画像認識用プロセッサを示すブロック図である。図１３に示す画像認識用プロセッサに設けられた三値用ビットカウンタを示すブロック図である。図１３に示す画像認識用プロセッサによる三値内積演算処理に関するアセンブリプログラムである。実施の形態３に係る画像認識用プロセッサを示すブロック図である。図１６に示す画像認識用プロセッサに設けられた三値用ビットカウンタを示すブロック図である。図１６に示す画像認識用プロセッサによる三値内積演算処理に関するアセンブリプログラムである。関連技術の三値データ格納方法を示す図である。関連技術の三値データ格納方法の具体例を示す図である。関連技術の画像認識用プロセッサを示すブロック図である。関連技術の三値内積演算処理に関するアセンブリプログラムである。

以下、図面を参照しつつ、実施の形態について説明する。なお、図面は簡略的なものであるから、この図面の記載を根拠として実施の形態の技術的範囲を狭く解釈してはならない。また、同一の要素には、同一の符号を付し、重複する説明は省略する。

以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、応用例、詳細説明、補足説明等の関係にある。また、以下の実施の形態において、要素の数等（個数、数値、量、範囲等を含む）に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。

さらに、以下の実施の形態において、その構成要素（動作ステップ等も含む）は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではない。同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数等（個数、数値、量、範囲等を含む）についても同様である。

＜実施の形態１＞
図１は、実施の形態１に係る画像認識装置（半導体装置）１を示す図である。
図１に示すように、画像認識装置１は、例えば車両に搭載され、ホストプロセッサ１１と、画像認識用プロセッサ（三値内積演算回路）１２と、メモリ１３と、を少なくとも備える。

ホストプロセッサ１１は、画像認識装置１における各種処理、画像認識用プロセッサ１２及びメモリ１３へのアクセス等、を制御する。例えば、ホストプロセッサ１１は、カメラ等によって取り込まれた画像をメモリ１３に記憶させたり、メモリ１３に記憶された画像を画像認識用プロセッサ１２によって認識させたりする。

画像認識用プロセッサ１２は、カメラ等によって取り込まれた画像を認識するプロセッサである。

図２は、画像認識用プロセッサ１２の動作を示すフローチャートである。
図２に示すように、まず、画像認識用プロセッサ１２は、カメラ等によって取り込まれた画像を受け取る（ステップＳ１０１）。

その後、画像認識用プロセッサ１２は、受け取った画像の中から特徴量データを作成する領域を選択する（ステップＳ１０２）。図２の例では、画像認識用プロセッサ１２は、画像の一端から他端にかけて順に領域を選択しているが、これに限られず、例えば、あるアルゴリズムに基づいて領域を選択してもよい。

その後、画像認識用プロセッサ１２は、選択領域の画像から得られた画素データの配列に基づいて、量子化されたデータ（所謂、特徴量データ）を作成する（ステップＳ１０３）。図２の例では、画像認識用プロセッサ１２は、選択領域の画像から得られたエッジ画像の方向成分を角度ごとに表したヒストグラム（勾配方向ヒストグラム）を特徴量データとして作成する。

そして、画像認識用プロセッサ１２は、作成した特徴量データと、予め機械学習によって得られた辞書データと、の内積演算を行い、その演算結果に基づいて入力画像に検出対象が含まれるか否かの判断を行う（ステップＳ１０４）。具体的には、例えば、障害物が接近しているか否かの判断を行う。

なお、ｆ（ｘ）を識別関数、ｘを特徴量データベクトル、ｗを辞書データベクトル、ｗ_０を辞書データとすると、以下の式（１）が成り立つ。

画像認識用プロセッサ１２の認識結果は、例えば、電子制御ユニット（ＥＣＵ）に伝えられる（ステップＳ１０５）。電子制御ユニットは、画像認識用プロセッサ１２の認識結果に基づいて障害物が接近しているか否かを判断し、ブレーキの自動制御等を行う。

ここで、画像認識用プロセッサ１２は、実数で表される特徴量データの各要素（勾配方向ヒストグラムの各方向成分）を２ビット幅の三値データに変換した後、複数の２ビット幅の三値データを纏めて１つのワードに格納する。

なお、本実施の形態では、画像認識用プロセッサ１２が、特徴量データの各要素を２ビット幅の三値データに変換した後、複数の２ビット幅の三値データを纏めて１つのワードに格納する場合を例に説明しているが、これに限られない。三値内積演算処理前に任意の手段で２ビット幅の三値データが纏めて１つのワードに格納されていればよい。

また、本実施の形態では、複数の２ビット幅の三値データが、１つのワードに対して割り当てられたレジスタ、に格納される場合について説明するが、これに限られない。例えば、アセンブリ等の言語レベルであれば、複数の２ビット幅の三値データは、各言語における任意のデータフォーマットに従い格納される。なお、ワードとは、画像認識用プロセッサ１２にて同時に処理されるデータ量の最小単位のことである。ワード長とは、ワードのビット数（ビット幅）のことである。

図３は、特徴量データを三値データに変換してワードに格納するまでの流れを説明するための図である。

図３に示すように、画像認識用プロセッサ１２は、実数で表される勾配方向ヒストグラムの各方向成分（特徴量データの各要素）と閾値ｔｈ１，ｔｈ２（但しｔｈ１＜ｔｈ２）とを比較して、閾値ｔｈ２以上の方向成分を値“＋１”、閾値ｔｈ１以上閾値ｔｈ２未満の方向成分を値“０”、閾値ｔｈ１未満の方向成分を値“−１”に変換する。この三値データ＋１，０，−１は、それぞれ２ビット幅の二進数値“０１”，“００”，“１０”で表現される。より詳細には、＋１を示す三値データの場合、２ビット幅の二進数値の下位ビットは１（第１値）を示す。−１を示す三値データの場合、２ビット幅の二進数値の上位ビットは１（第１値）を示す。０を示す三値データの場合、２ビット幅の二進数値の上位及び下位ビットは何れも０（第２値）を示す。そして、画像認識用プロセッサ１２は、複数の２ビット幅の三値データを纏めて１つのワードに格納する。

図３の例では、勾配方向ヒストグラムの方向成分が８個（要素数８個）、ワード長が１６ビットとなっている。したがって、８個の方向成分は、何れも２ビット幅の三値データに変換された後、１６ビット幅の１つのワードに纏めて格納される。

以下、本実施の形態に係る三値データ格納方法についてさらに詳細に説明する。

図４は、本実施の形態に係る三値データ格納方法を示す図である。
図４に示すように、入力データ（特徴量データ等）は、Ｎ（Ｎは１以上の整数）個の三値データ（要素）からなるデータ配列Ｘで表される。また、ワード長はＬ（Ｌは２以上の整数）ビットである。ここでは、２Ｎ≦Ｌである場合について説明する。

例えば、０番目の三値データＸ_０として、値＋１，０，−１に対応する２ビット幅の二進数値“０１”，“００”，“１０”の何れかが、ワードの０，１番目のビットｂ_０，ｂ_１に格納される。１番目の三値データＸ_１として、値＋１，０，−１に対応する２ビット幅の二進数値“０１”，“００”，“１０”の何れかが、ワードの２，３番目のビットｂ_２，ｂ_３に格納される。同様にして、２〜Ｎ−１番目の三値データＸ_２〜Ｘ_Ｎ−１として、各々、値＋１，０，−１に対応する２ビット幅の二進数値“０１”，“００”，“１０”の何れかが、ワードの対応する２ビットに格納される。このようにして、Ｎ個の２ビット幅の三値データがＬビット幅の１つのワードに纏めて格納される。

このように、複数の２ビット幅の三値データ（要素）を１つのワードに格納することで、当該複数の三値データを画像認識用プロセッサ１２にて同時に処理することが可能になる。それにより、画像認識用プロセッサ１２は、複数の三値データ間の演算（具体的には内積演算）を効率よく処理することが可能となる。

図５は、本実施の形態に係る三値データ格納方法の具体例を示す図である。ここでは、要素数Ｎ＝３２、ワード長Ｌ＝１６、即ち、２Ｎ＞Ｌである場合について説明する。

図５に示すように、入力データのデータ配列Ｘは、３２個の三値データＸ_０〜Ｘ_３１からなる。この場合、３２個の２ビット幅の三値データＸ_０〜Ｘ_３１は、４つの１６ビット幅のワードに分割して格納される。より具体的には、８個の２ビット幅の三値データＸ_０〜Ｘ_７が１つ目の１６ビット幅のワードに格納され、８個の２ビット幅の三値データＸ_８〜Ｘ_１５が２つ目の１６ビット幅のワードに格納され、８個の２ビット幅の三値データＸ_１６〜Ｘ_２３が３つ目の１６ビット幅のワードに格納され、８個の２ビット幅の三値データＸ_２４〜Ｘ_３１が４つ目の１６ビット幅のワードに格納される。

（関連技術のデータ格納方法）
図１９は、関連技術の三値データ格納方法を示す図である。
図１９に示すように、入力データは、Ｎ（Ｎは１以上の整数）個の三値データ（要素）からなるデータ配列Ｘで表される。また、ワード長はＬ（Ｌは２以上の整数）ビットである。

関連技術の構成では、ｉ（ｉは０〜Ｎ−１の任意の整数）番目の三値データＸｉとして、値＋１，０，−１に対応するＬビット幅の値“００…０００００００１”，“００…００００００００”，“１１…１１１１１１１１”の何れかが、Ｌビット幅の１つのワードに格納される。つまり、１つのワードに対して１つの三値データ（要素）のみが格納される。

図２０は、関連技術の三値データ格納方法の具体例を示す図である。ここでは、要素数Ｎ＝３２、ワード長Ｌ＝１６である場合について説明する。

図２０に示すように、入力データのデータ配列Ｘは、３２個の三値データＸ_０〜Ｘ_３１からなる。この場合、３２個の三値データＸ_０〜Ｘ_３１は、それぞれ３２個のワードに個別に格納される。このような構成では、複数の三値データを同時に処理することができないため、複数の三値データ間の演算（具体的には内積演算）を効率よく処理することができない。

（画像認識用プロセッサ１２の構成）
図６は、画像認識用プロセッサ１２の構成を示すブロック図である。
図６に示すように、画像認識用プロセッサ１２は、半導体基板上にＣＭＯＳ製造プロセスを用いて形成され、メモリ１３に記憶された入力データ（特徴量データ等）及び命令データに基づいて演算処理を実行して、演算結果（画像認識結果）を出力する。

具体的には、画像認識用プロセッサ１２は、制御部１２１と、ＡＬＵ（算術演算部）１２２と、三値乗算器（三値乗算部）１２３と、を少なくとも備える。また、制御部１２１は、複数のレジスタからなるレジスタ部１２４を有する。

制御部１２１は、メモリ１３から受け取った命令データをデコードし、ＡＬＵ１２２及び三値乗算器１２３の制御を行う。ＡＬＵ１２２は、乗算、加算、論理演算、ビットカウント等の機能を有する回路である。三値乗算器１２３は、指定されたアドレスのレジスタに格納された複数の２ビット幅の三値データ（要素）と、指定された別のアドレスに格納された複数の２ビット幅の三値データ（要素）と、をそれぞれ乗算する回路である。ＡＬＵ１２２及び三値乗算器１２３のそれぞれの演算結果は、レジスタ部１２４に書き込まれる。

（三値乗算器１１３の構成例）
図７は、三値乗算器１２３を示すブロック図である。ここでは、要素数Ｎ＝８，ワード長Ｌ＝１６である場合について説明する。

図７に示すように、三値乗算器１２３は、８個の２ビット幅の三値データ（要素）Ｘ_０〜Ｘ_７からなる１６ビット幅のデータｒｄ１と、８個の２ビット幅の三値データ（要素）Ｙ_０〜Ｙ_７からなる１６ビット幅のデータｒｄ２と、を受け取って、同じく８個の２ビット幅の三値データ（要素）Ｚ_０〜Ｚ_７からなる１６ビット幅のデータｒｄｏを出力する。

より具体的には、三値乗算器１２３は、Ｌ／２個の三値乗算回路を有する。ここでＬ＝１６であるから、三値乗算器１２３は、８個の三値乗算回路３ｍｕｌ２ｂ＿０〜３ｍｕｌ２ｂ＿７を有する。三値乗算回路３ｍｕｌ２ｂ＿０〜３ｍｕｌ２ｂ＿７は、それぞれ、データｒｄ１を構成する２ビット幅の三値データＸ_０〜Ｘ_７と、データｒｄ２を構成する２ビット幅の三値データＹ_０〜Ｙ_７と、を乗算して、データｒｄｏを構成する２ビット幅の三値データＺ_０〜Ｚ_７を出力する。

図８は、三値乗算回路３ｍｕｌ２ｂ＿０の具体例を示す回路図である。なお、三値乗算回路３ｍｕｌ２ｂ＿１〜３ｍｕｌ２ｂ＿７については、三値乗算回路３ｍｕｌ２ｂ＿０と同じ構成であるため、その説明を省略する。

図８に示すように、三値乗算回路３ｍｕｌ２ｂ＿０は、データｒｄ１に含まれる三値データＸ_０と、データｒｄ２に含まれる三値データＹ_０と、を乗算して、データｒｄｏに含まれる三値データＺ_０を出力する回路である。ここで、三値データＸ_０は、データｒｄ１の第０ビット（ｒｄ１［０］）及び第１ビット（ｒｄ１［１］）により構成される。三値データＹ_０は、データｒｄ２の第０ビット（ｒｄ２［０］）及び第１ビット（ｒｄ２［１］）により構成される。三値データＺ_０は、データｒｄｏの第０ビット（ｒｄｏ［０］）及び第１ビット（ｒｄｏ［１］）により構成される。

具体的には、三値乗算回路３ｍｕｌ２ｂ＿０は、論理積回路（以下、ＡＮＤ回路と称す）１５１〜１５３と、論理和回路（以下、ＯＲ回路と称す）１５４と、排他的論理和回路（以下、ＥＸＯＲ回路と称す）１５５，１５６と、を有する。

ＡＮＤ回路１５１は、データｒｄ１［０］と、データｒｄ１［１］と、の論理積を出力する。ＡＮＤ回路１５２は、データｒｄ２［０］と、データｒｄ２［１］と、の論理積を出力する。ＯＲ回路１５４は、ＡＮＤ回路１５１，１５２のそれぞれの出力の論理和をデータｒｄｏ［０］として出力する。

ＥＸＯＲ回路１５５は、データｒｄ１［０］と、データｒｄ１［１］と、の排他的論理和を出力する。ＥＸＯＲ回路１５６は、データｒｄ２［０］と、データｒｄ２［１］と、の排他的論理和を出力する。ＡＮＤ回路１５３は、ＥＸＯＲ回路１５５，１５６のそれぞれの出力の論理積をデータｒｄｏ［１］として出力する。

かかる構成により、三値乗算回路３ｍｕｌ２ｂ＿０は、三値データ＋１，０，−１をそれぞれ２ビット幅の２進数の値“０１”，“００”，“１０”で表した乗算結果を出力することが可能となる。

なお、各三値乗算回路３ｍｕｌ２ｂ＿０〜３ｍｕｌ２ｂ＿７は、上記構成に限られず、同等の機能を有する他の構成に適宜変更可能である。

（画像認識用プロセッサ１２の動作）
次に、図９及図１０を用いて、画像認識用プロセッサ１２の動作について説明する。
図９は、三値内積演算処理に関するアセンブリプログラムである。

制御部１２１は、メモリ１３に記憶された命令コードの一つである図９に示すアセンブリプログラムに基づいて、ＡＬＵ１２２及び三値乗算器１２３の処理を制御する。本例では、要素数Ｎ＝１２８、ワード長Ｌ＝１６である場合について説明する。したがって、１ワード当たり８個の２ビット幅の三値データを格納することができる。なお、レジスタ部１２４に設けられた各レジスタは、１ワード（即ち１６ビット）分のデータを格納することができるものとする。

図９に示すように、１サイクル目では、ロード命令によって、一方の入力データ（例えば特徴量データ）を構成する１２８個の要素のうちの８個の要素がメモリ１３から読み出されレジスタ部１１４に格納される。具体的には、レジスタｒ１に記憶されたメモリ１３の先頭アドレスに、レジスタｒ２に記憶されたアドレスオフセットを加算することで指定されたメモリ１３のアドレス、に記憶されている８個の２ビット幅の三値データ（例えば特徴量データの要素）が、レジスタアドレスｒ０のレジスタ（レジスタｒ０と称す）に格納される。

２サイクル目では、ロード命令によって、他方の入力データ（例えば辞書データ）を構成する１２８個の要素のうちの８個の要素がメモリ１３から読み出されレジスタ部１１４に格納される。具体的には、レジスタｒ４に記憶されたメモリ１３の先頭アドレスに、レジスタｒ２に記憶されたアドレスオフセットを加算することで指定されたメモリ１３のアドレス、に記憶されている８個の２ビット幅の三値データ（例えば辞書データの要素）が、レジスタアドレスｒ３のレジスタ（レジスタｒ３と称す）に格納される。

３サイクル目では、専用の三値乗算命令(mult3)によって、三値乗算器１２３による乗算が実行される。三値乗算器１２３は、一方の入力データの８要素と、他方の入力データの８要素と、をそれぞれ乗算する。具体的には、三値乗算器１２３は、レジスタｒ０に記憶された８個の２ビット幅の三値データと、レジスタｒ３に記憶された８個の２ビット幅の三値データと、をそれぞれ並列に乗算する。三値乗算器１２３の乗算結果（８個の２ビット幅の三値データ）は、レジスタｒ５に格納される。

４サイクル目では、レジスタｒ５に格納された三値乗算器１２３の乗算結果（８個の２ビット幅の三値データ）と、０ｂ０１０１０１０１０１０１０１０１（＝０ｘ５５５５）と、の論理積が実行され、その結果がレジスタｒ６に格納される。この論理演算は、各三値データの下位ビット（偶数ビット）の値をそのまま出力させて、上位ビット（奇数ビット）の値を０にマスクする、ビットマスク処理に相当する。ここで、＋１の二進数値は“０１”、０の二進数値は“００”、−１の二進数値は“１０”と表されていることから、＋１を示す三値データのみレジスタｒ６に格納されることになる。

５サイクル目では、レジスタｒ５に格納された三値乗算器１２３の乗算結果（８個の２ビット幅の三値データ）と、０ｂ１０１０１０１０１０１０１０１０（＝０ｘＡＡＡＡ）と、の論理積が実行され、その結果がレジスタｒ７に格納される。この論理演算は、各三値データの上位ビット（奇数ビット）の値をそのまま出力させて、下位ビット（偶数ビット）の値を０にマスクする、ビットマスク処理に相当する。ここで、＋１の二進数値は“０１”、０の二進数値は“００”、−１の二進数値は“１０”と表されていることから、−１を示す三値データのみレジスタｒ７に格納されることになる。

６サイクル目では、ビットカウント命令によって、レジスタｒ６に格納された＋１を示す三値データの数がカウントされる。具体的な処理としては、レジスタｒ６に格納されたデータを構成する１６ビットのうち１を示すビットの数がカウントされる。カウント結果は、レジスタｒ８に格納される。

７サイクル目では、ビットカウント命令によって、レジスタｒ７に格納された−１を示す三値データの数がカウントされる。具体的な処理としては、レジスタｒ７に格納されたデータを構成する１６ビットのうち１を示すビットの数がカウントされる。カウント結果は、レジスタｒ９に格納される。

８サイクル目では、レジスタｒ８に格納された＋１を示す三値データの数から、レジスタｒ９に格納された−１を示す三値データの数が、減算される。この減算結果は、要素８個分の内積演算結果に相当し、レジスタｒ１０に格納される。

図１０は、三値内積演算処理の具体例を示す図である。
図１０を参照すると、
１サイクル目にて、レジスタｒ０に
（＋１，＋１，０，０，０，−１，−１，−１）
＝（０１，０１，００，００，００，１０，１０，１０）が格納され、
２サイクル目にて、レジスタｒ３に
（−１，＋１，−１，０，＋１，−１，０，＋１）
＝（１０，０１，１０，００，０１，１０，００，０１）が格納される。

この場合、３サイクル目の三値乗算器１１３の乗算結果は、
（−１，＋１，０，０，０，＋１，０，−１）
＝（１０，０１，００，００，００，０１，００，１０）となる。

したがって、４サイクル目のビットマスク処理の結果は、
（００，０１，００，００，００，０１，００，００）となる。
また、５サイクル目のビットマスク処理の結果は、
（１０，００，００，００，００，００，００，１０）となる。

したがって、６サイクル目のビットカウントの結果、即ち、＋１を示す三値データの数は２個となる。７サイクル目のビットカウントの結果、即ち、−１を示す三値データの数は２個となる。

したがって、８サイクル目の減算結果、即ち、要素８個分の内積演算結果は、「＋１を示す三値データの数」−「−１を示す三値データの数」＝２−２＝０となる。

図９に戻り、９サイクル目では、レジスタｒ１０に格納された要素８個分の内積演算結果が、レジスタｒ１１の値（初期値は０）に累積加算される。

１０サイクル目では、レジスタｒ２に記憶されたオフセット値に１が加算される。それにより、次の８個の要素の読み出しが可能となる。

１１サイクル目では、レジスタｒ２に記憶されたオフセット値が所定値に達したか否かが判定される。つまり、各入力データを構成する１２８個の要素の全てについて内積が行われたか否かが判定される。全てについて内積が行われていなければ、１サイクル目に戻り、全てについて内積が行われていれば、次の処理に進む。本例では、要素数＝１２８，ワード長Ｌ＝１６であって、１ワード当たり８個の要素が格納されることから、合計１６（＝１２８／８））回、１〜１１サイクル目の処理が繰り返される。最終的に、レジスタｒ１１には、要素１２８個分の内積演算結果が格納されることとなる。

ここで、１〜１１サイクル目の処理が１６回繰り返されることから、合計サイクル数は、１１×１６＝１７６サイクルとなる。

（関連技術の構成）
図２１は、関連技術の画像認識用プロセッサ５２の構成を示すブロック図である。
図２１に示すように、画像認識用プロセッサ５２は、制御部５２１，ＡＬＵ５２２と、を備える。また、制御部５２１は、複数のレジスタからなるレジスタ部５２４を有する。

制御部５２１は、外部メモリから受け取った命令データをデコードし、ＡＬＵ５２２の制御を行う。ＡＬＵ５２２の演算結果は、レジスタ部５２４に書き込まれる。

（関連技術の動作）
次に、関連技術の画像認識用プロセッサ５２の動作について説明する。図２２は、関連技術の三値内積演算処理に関するアセンブリプログラムである。本例では、要素数Ｎ＝１２８、ワード長Ｌ＝１６である場合について説明する。ここで、関連技術の構成では、上述のように１ワード当たり１つの三値データのみ格納される。

図２２に示すように、１サイクル目では、ロード命令によって、一方の入力データ（例えば特徴量データ）を構成する１２８個の要素のうち１個の要素が外部メモリから読み出されレジスタ部５２４に格納される。具体的には、レジスタｒ１に記憶された外部メモリの先頭アドレスに、レジスタｒ２に記憶されたアドレスオフセットを加算することで指定された外部メモリのアドレス、に記憶されている１個の１６ビット幅の三値データ（例えば特徴量データの要素）が、レジスタｒ０に格納される。

２サイクル目では、ロード命令によって、他方の入力データ（例えば辞書データ）を構成する１２８個の要素のうち１個の要素が外部メモリから読み出されレジスタ部５２４に格納される。具体的には、レジスタｒ４に記憶された外部メモリの先頭アドレスに、レジスタｒ２に記憶されたアドレスオフセットを加算することで指定された外部メモリのアドレス、に記憶されている１個の１６ビット幅の三値データ（例えば辞書データの要素）が、レジスタｒ３に格納される。

３サイクル目では、一方の入力データの１要素と、他方の入力データの１要素と、の乗算が実行される。具体的には、レジスタｒ０に記憶された１個の三値データと、レジスタｒ３に記憶された１個の三値データと、の乗算が実行される。この乗算結果（１個の１６ビット幅の三値データ）は、要素１個分の内積演算結果に相当し、レジスタｒ５に格納される。

４サイクル目では、レジスタｒ５に格納された要素１個分の内積演算結果が、レジスタｒ６の値（初期値は０）に累積加算される。

５サイクル目では、レジスタｒ２に記憶されたオフセット値に１が加算される。それにより、次の１個の要素の読み出しが可能となる。

６サイクル目では、レジスタｒ２に記憶されたオフセット値が所定値に達したか否かがが判定される。つまり、各入力データを構成する１２８個の要素の全てについて内積が行われたか否かが判定される。全てについて内積が行われていなければ、１サイクル目に戻り、全てについて内積が行われていれば、次の処理に進む。本例では、要素数＝１２８，ワード長Ｌ＝１６であって、１ワード当たり１個の要素のみ格納されることから、合計１２８回、１〜６サイクル目の処理が繰り返される。最終的に、レジスタｒ６には、要素１２８個分の内積演算結果が格納されることとなる。

ここで、１〜６サイクル目の処理が１２８回繰り返されることから、合計サイクル数は、６×１２８＝７６８サイクルとなる。

このように、画像認識用プロセッサ１２は、関連技術の画像認識用プロセッサ５２の場合よりも、少ないサイクル数で効率よく２入力データ間の三値内積演算を実行することができる。

（画像認識用プロセッサ及び画像認識装置のハードウエア構成）
なお、画像認識用プロセッサ１２及びそれを備えた画像認識装置１は、例えば、汎用的なコンピュータシステムにより実現可能である。以下、図１１を用いて簡単に説明する。

図１１は、画像認識用プロセッサ１２及びそれを備えた画像認識装置１のハードウエア構成の一例を示すブロック図である。コンピュータ１００は、例えば、制御装置であるＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；画像認識用プロセッサ１２及びホストプロセッサ１１に相当）１０１と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０２と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０３と、外部とのインターフェースであるＩＦ（ＩｎｔｅｒＦａｃｅ）１０４と、不揮発性記憶装置の一例であるＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０５と、を備える。さらに、コンピュータ１００は、その他図示しない構成として、キーボードやマウス等の入力装置やディスプレイ等の表示装置を備えていても良い。

ＨＤＤ１０５には、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）（不図示）と、三値内積演算処理プログラム１０６と、が記憶されている。三値内積演算処理プログラム１０６は、本実施の形態に係る三値内積演算処理が実装されたコンピュータプログラムである。

ＣＰＵ１０１は、コンピュータ１００における各種処理、ＲＡＭ１０２，ＲＯＭ１０３，ＩＦ１０４及びＨＤＤ１０５へのアクセス等を制御する。コンピュータ１００は、ＣＰＵ１０１がＨＤＤ１０５に記憶されたＯＳ及び三値内積演算処理プログラム１０６を読み込み、実行する。これにより、コンピュータ１００は、本実施の形態にかかる画像認識用プロセッサ１２及びそれを備えた画像認識装置１を実現する。

（画像認識装置１の他の適用事例）
続いて、画像認識装置１の他の適用事例について説明する。
図１２は、画像認識装置１の適用事例を示す図である。

図１２に示すように、画像認識装置１は、車両に搭載される場合に限られず、ビデオ等で撮影された画像をパーソナルコンピュータに取り込む場合などにも適用可能である。

＜実施の形態２＞
図１３は、実施の形態２に係る画像認識用プロセッサ２２を示すブロック図である。
図１３に示すように、画像認識用プロセッサ２２は、制御部２２１と、ＡＬＵ２２２と、三値乗算器２２３と、三値用ビットカウンタ２２５と、を少なくとも備える。また、制御部２２１は、複数のレジスタからなるレジスタ部２２４を有する。なお、制御部２２１、ＡＬＵ２２２、三値乗算器２２３及びレジスタ部２２４は、それぞれ、制御部１２１、ＡＬＵ１２２、三値乗算器１２３及びレジスタ部１２４に対応する。

制御部２１１は、メモリ１３から受け取った命令データをデコードし、ＡＬＵ２２２、三値乗算器２２３及び三値用ビットカウンタ２２５の制御を行う。三値用ビットカウンタ２２５は、指定されたアドレスのレジスタに格納された複数の２ビット幅の三値データ（要素）のうち、＋１を示す三値データの数、及び、−１を示す三値データの数、を選択的にカウントする回路である。ＡＬＵ２２２及び三値乗算器２２３については、ＡＬＵ１２２及び三値乗算器１２３と同様であるため、その説明を省略する。ＡＬＵ２２２、三値乗算器２２３及び三値用ビットカウンタ２２５のそれぞれの演算結果は、レジスタ部２２４に書き込まれる。

（三値用ビットカウンタ２２５）
図１４は、三値用ビットカウンタ２２５を示すブロック図である。ここでは、要素数Ｎ＝８，ワード長Ｌ＝１６である場合について説明する。

図１４に示すように、三値用ビットカウンタ２２５は、８個の２ビット幅の三値データ（要素）Ｘ_０〜Ｘ_７からなる１６ビット幅のデータｒｄｉｎを受け取って、＋１を示す三値データの数、及び、−１を示す三値データの数、を選択的にカウントしてデータｒｄｏｕｔとして出力する。

より具体的には、三値用ビットカウンタ２２５は、Ｌ／２個のセレクタと、ビットカウント回路ＢＣ１と、を有する。ここでＬ＝１６であるから、三値用ビットカウンタ２２５は、８個のセレクタＳＥＬ０〜ＳＥＬ７を有する。セレクタＳＥＬ０〜ＳＥＬ７は、それぞれ、三値データＸ_０〜Ｘ_７の下位ビット（偶数ビット）、又は、三値データＸ_０〜Ｘ_７の上位ビット（奇数ビット）、を選択して出力する。ここで、＋１の二進数値は“０１”、０の二進数値は“００”、−１の二進数値は“１０”と表されていることから、三値データＸ_０〜Ｘ_７の下位ビット（偶数ビット）の値に基づいて当該三値データＸ_０〜Ｘ_７が＋１を示すか否か判別することができ、三値データＸ_０〜Ｘ_７の上位ビット（奇数ビット）の値に基づいて当該三値データＸ_０〜Ｘ_７が−１を示すか否か判別することができる。

ビットカウント回路ＢＣ１は、セレクタＳＥＬ０〜ＳＥＬ７のそれぞれの出力結果のうち１を示す出力結果の数をカウントする。つまり、セレクタＳＥＬ０〜ＳＥＬ７により三値データＸ_０〜Ｘ_７の下位ビットが選択されている場合には、ビットカウント回路ＢＣ１は、＋１を示す三値データＸ_０〜Ｘ_７の数をカウントする。他方、セレクタＳＥＬ０〜ＳＥＬ７により三値データＸ_０〜Ｘ_７の上位ビットが選択されている場合には、ビットカウント回路ＢＣ１は、−１を示す三値データＸ_０〜Ｘ_７の数をカウントする。そして、ビットカウント回路ＢＣ１は、カウント結果をデータｒｄｏｕｔとして出力する。

かかる構成により、三値用ビットカウンタ２２５は、８個の三値データのうち、＋１を示す三値データの数、及び、−１を示す三値データの数、を選択的にカウントして出力することができる。なお、三値用ビットカウンタ２２５は、上記構成に限られず、同等の機能を有する他の構成に適宜変更可能である。

（画像認識用プロセッサ２２の動作）
次に、図１５を用いて、画像認識用プロセッサ２２の動作について説明する。
図１５は、三値内積演算処理に関するアセンブリプログラムである。

制御部２２１は、メモリ１３に記憶された命令コードの一つである図１５に示すアセンブリプログラムに基づいて、ＡＬＵ２２２、三値乗算器２２３及び三値用ビットカウンタ２２５の処理を制御する。本例では、要素数Ｎ＝１２８、ワード長Ｌ＝１６である場合について説明する。したがって、１ワード当たり８個の２ビット幅の三値データを格納することができる。なお、レジスタ部２２４に設けられた各レジスタは、１ワード（即ち１６ビット）分のデータを格納することができるものとする。

図１５に示すように、１サイクル目では、８個の２ビット幅の三値データ（例えば特徴量データの要素）がレジスタｒ０に格納される。２サイクル目では、８個の２ビット幅の三値データ（例えば辞書データの要素）がレジスタｒ３に格納される。

３サイクル目では、専用の三値乗算命令(mult3)によって、三値乗算器２２３による乗算が実行される。具体的には、三値乗算器２２３は、レジスタｒ０に記憶された８個の２ビット幅の三値データと、レジスタｒ３に記憶された８個の２ビット幅の三値データと、をそれぞれ並列に乗算する。三値乗算器２２３の乗算結果（８個の２ビット幅の三値データ）は、レジスタｒ５に格納される。

４サイクル目では、専用のビットカウント命令(bcountE)によって、＋１を示す三値データの数が三値用ビットカウンタ２２５によりカウントされる。具体的には、三値用ビットカウンタ２２５は、レジスタｒ５に記憶された三値乗算器２２３の乗算結果のうち１を示す偶数ビットの数をカウントする。このカウント結果は、レジスタｒ６に格納される。

５サイクル目では、専用のビットカウント命令(bcountO)によって、−１を示す三値データの数が三値用ビットカウンタ２２５によりカウントされる。具体的には、三値用ビットカウンタ２２５は、レジスタｒ５に記憶された三値乗算器２２３の乗算結果のうち１を示す奇数ビットの数をカウントする。このカウント結果は、レジスタｒ７に格納される。

６サイクル目では、レジスタｒ６に格納された＋１を示す三値データの数から、レジスタｒ７に格納された−１を示す三値データの数が、減算される。この減算結果は、要素８個分の内積演算結果に相当し、レジスタｒ８に格納される。

７サイクル目では、レジスタｒ８に格納された要素８個分の内積演算結果が、レジスタｒ９の値（初期値は０）に累積加算される。

８サイクル目では、レジスタｒ２に記憶されたオフセット値に１が加算される。それにより、次の８個の要素の読み出しが可能となる。

９サイクル目では、レジスタｒ２に記憶されたオフセット値が所定値に達したか否かが判定される。つまり、各入力データを構成する１２８個の要素の全てについて内積が行われたか否かが判定される。全てについて内積が行われていなければ、１サイクル目に戻り、全てについて内積が行われていれば、次の処理に進む。本例では、要素数＝１２８，ワード長Ｌ＝１６であって、１ワード当たり８個の要素が格納されることから、合計１６（＝１２８／８））回、１〜９サイクル目の処理が繰り返される。最終的に、レジスタｒ９には、要素１２８個分の内積演算結果が格納されることとなる。

ここで、１〜９サイクル目の処理が１６回繰り返されることから、合計サイクル数は、９×１６＝１４４サイクルとなる。

このように、画像認識用プロセッサ２２は、画像認識用プロセッサ１２の場合よりも、さらに少ないサイクル数で効率よく２入力データ間の三値内積演算を実行することができる。

＜実施の形態３＞
図１６は、実施の形態３に係る画像認識用プロセッサ３２を示すブロック図である。
図１６に示すように、画像認識用プロセッサ３２は、制御部３２１と、ＡＬＵ３２２と、三値乗算器３２３と、三値用ビットカウンタ（乗算結果処理部）３２５と、を少なくとも備える。また、制御部３２１は、複数のレジスタからなるレジスタ部３２４を有する。なお、制御部３２１、ＡＬＵ３２２、三値乗算器３２３及びレジスタ部３２４は、それぞれ、制御部１２１、ＡＬＵ１２２、三値乗算器１２３及びレジスタ部１２４に対応する。

制御部３１１は、メモリ１３から受け取った命令データをデコードし、ＡＬＵ３２２、三値乗算器３２３及び三値用ビットカウンタ３２５の制御を行う。三値用ビットカウンタ３２５は、指定されたアドレスのレジスタに格納された複数の２ビット幅の三値データ（要素）のうち、＋１を示す三値データの数、及び、−１を示す三値データの数、をそれぞれカウントした後、＋１を示す三値データの数から−１を示す三値データの数を減算した結果を出力する回路である。ＡＬＵ３２２及び三値乗算器３２３については、ＡＬＵ１２２及び三値乗算器１２３と同様であるため、その説明を省略する。ＡＬＵ３２２、三値乗算器３２３及び三値用ビットカウンタ３２５のそれぞれの演算結果は、レジスタ部３２４に書き込まれる。

（三値用ビットカウンタ３２５）
図１７は、三値用ビットカウンタ３２５を示すブロック図である。ここでは、要素数Ｎ＝８，ワード長Ｌ＝１６である場合について説明する。

図１７に示すように、三値用ビットカウンタ３２５は、８個の２ビット幅の三値データ（要素）Ｘ_０〜Ｘ_７からなる１６ビット幅のデータｒｄｉｎを受け取って、＋１を示す三値データの数、及び、−１を示す三値データの数、をそれぞれカウントした後、これらの差を算出してデータｒｄｏｕｔ２として出力する。

より具体的には、三値用ビットカウンタ３２５は、ビットカウント回路（第１及び第２カウンタ）ＢＣ２，ＢＣ３と、減算回路ＳＵＢ１と、を有する。ビットカウント回路ＢＣ２は、三値データＸ_０〜Ｘ_７の上位ビット（奇数ビット）のうち１を示すビットの数をカウントする。ビットカウント回路ＢＣ３は、三値データＸ_０〜Ｘ_７の下位ビット（偶数ビット）のうち１を示すビットの数をカウントする。

ここで、＋１の二進数値は“０１”、０の二進数値は“００”、−１の二進数値は“１０”と表されていることから、三値データＸ_０〜Ｘ_７の上位ビット（奇数ビット）のうち１を示すビットの数に基づいて、−１を示す三値データＸ_０〜Ｘ_７の数を特定することができ、また、三値データＸ_０〜Ｘ_７の下位ビット（偶数ビット）のうち１を示すビットの数に基づいて、＋１を示す三値データＸ_０〜Ｘ_７の数を特定することができる。

そして、減算回路ＳＵＢ１は、＋１を示す三値データの数から、−１を示す三値データの数を減算して、減算結果をデータｒｄｏｕｔ２として出力する。この減算結果は、要素８個分の内積演算結果に相当する。

かかる構成により、三値用ビットカウンタ３２５は、８個の三値データのうち、＋１を示す三値データの数、及び、−１を示す三値データの数、をそれぞれカウントした後、これらの差を要素８個分の内積演算結果として出力することができる。なお、三値用ビットカウンタ３２５は、上記構成に限られず、同等の機能を有する他の構成に適宜変更可能である。

（画像認識用プロセッサ３２の動作）
次に、図１８を用いて、画像認識用プロセッサ３２の動作について説明する。
図１８は、三値内積演算処理に関するアセンブリプログラムである。

制御部３２１は、メモリ１３に記憶された命令コードの一つである図１８に示すアセンブリプログラムに基づいて、ＡＬＵ３２２、三値乗算器３２３及び三値用ビットカウンタ３２５の処理を制御する。本例では、要素数Ｎ＝１２８、ワード長Ｌ＝１６である場合について説明する。したがって、１ワード当たり８個の２ビット幅の三値データを格納することができる。なお、レジスタ部３２４に設けられた各レジスタは、１ワード（即ち１６ビット）分のデータを格納することができるものとする。

図１８に示すように、１サイクル目では、８個の２ビット幅の三値データ（例えば特徴量データの要素）がレジスタｒ０に格納される。２サイクル目では、８個の２ビット幅の三値データ（例えば辞書データの要素）がレジスタｒ３に格納される。

３サイクル目では、専用の三値乗算命令(mult3)によって、三値乗算器３２３による乗算が実行される。具体的には、三値乗算器３２３は、レジスタｒ０に記憶された８個の２ビット幅の三値データと、レジスタｒ３に記憶された８個の２ビット幅の三値データと、をそれぞれ並列に乗算する。三値乗算器３２３の乗算結果（８個の２ビット幅の三値データ）は、レジスタｒ５に格納される。

４サイクル目では、専用のビットカウント命令(bcount3)によって、三値用ビットカウンタ３２５による処理が行われる。具体的には、三値用ビットカウンタ３２５は、レジスタｒ５に記憶された三値乗算器３２３の乗算結果のうち、１を示す偶数ビットの数、及び、１を示す奇数ビットの数、をそれぞれカウントした後、１を示す偶数ビットの数から１を示す奇数ビットの数を減算する。この減算結果は、要素８個分の内積演算結果に相当し、レジスタｒ６に格納される。

５サイクル目では、レジスタｒ６に格納された要素８個分の内積演算結果が、レジスタｒ７の値（初期値は０）に累積加算される。

６サイクル目では、レジスタｒ２に記憶されたオフセット値に１が加算される。それにより、次の８個の要素の読み出しが可能となる。

７サイクル目では、レジスタｒ２に記憶されたオフセット値が所定値に達したか否かが判定される。つまり、各入力データを構成する１２８個の要素の全てについて内積が行われたか否かが判定される。全てについて内積が行われていなければ、１サイクル目に戻り、全てについて内積が行われていれば、次の処理に進む。本例では、要素数＝１２８，ワード長Ｌ＝１６であって、１ワード当たり８個の要素が格納されることから、合計１６（＝１２８／８））回、１〜７サイクル目の処理が繰り返される。最終的に、レジスタｒ７には、要素１２８個分の内積演算結果が格納されることとなる。

ここで、１〜７サイクル目の処理が１６回繰り返されることから、合計サイクル数は、７×１６＝１１２サイクルとなる。

このように、画像認識用プロセッサ３２は、画像認識用プロセッサ２２の場合よりも、さらに少ないサイクル数で効率よく２入力データ間の三値内積演算を実行することができる。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は既に述べた実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において種々の変更が可能であることはいうまでもない。

例えば、上記の実施の形態に係る半導体装置では、半導体基板、半導体層、拡散層（拡散領域）などの導電型（ｐ型もしくはｎ型）を反転させた構成としてもよい。そのため、ｎ型、及びｐ型の一方の導電型を第１の導電型とし、他方の導電型を第２の導電型とした場合、第１の導電型をｐ型、第２の導電型をｎ型とすることもできるし、反対に第１の導電型をｎ型、第２の導電型をｐ型とすることもできる。

１画像認識装置
１１ホストプロセッサ
１２画像認識用プロセッサ
１３メモリ
１２１制御部
１２２ＡＬＵ
１２３三値乗算器
１２４レジスタ部
３ｍｕｌ２ｂ＿０〜３ｍｕｌ２ｂ＿７三値乗算回路
１５１，１５２，１５３ＡＮＤ回路
１５４ＯＲ回路
１５５ＥＸＯＲ回路
２２画像認識用プロセッサ
２２１制御部
２２２ＡＬＵ
２２３三値乗算器
２２４レジスタ部
２２５三値用ビットカウンタ
３２画像認識用プロセッサ
３２１制御部
３２２ＡＬＵ
３２３三値乗算器
３２４レジスタ部
３２５三値用ビットカウンタ
ＢＣ１〜ＢＣ３ビットカウント回路
ＳＥＬ０〜ＳＥＬ７セレクタ
ＳＵＢ１減算回路

Claims

第１ビットが第１値を示す場合に＋１を表し、第２ビットが第１値を示す場合に−１を表し、前記第１及び前記第２ビットが何れも第２値を示す場合に０を表す、複数の２ビット幅の三値データを１つのワードに格納する、データ格納方法。
請求項１に記載のデータ格納方法を用いて第１及び第２入力データを構成し、
前記第１入力データを構成する複数の三値データと、前記第２入力データを構成する複数の三値データと、をそれぞれ乗算して複数の２ビット幅の三値データにより構成される乗算結果を出力し、
前記乗算結果を構成する前記複数の三値データのうち＋１を表す三値データの数から−１を表す三値データの数を減算した数を内積演算結果として出力する、三値内積演算方法。
前記乗算結果を構成する前記複数の三値データのうち第１ビットが第１値を示す三値データの数をカウントすることで、＋１を表す前記三値データの数を特定し、
前記乗算結果を構成する前記複数の三値データのうち第２ビットが第１値を示す三値データの数をカウントすることで、−１を表す前記三値データの数を特定し、
＋１を表す前記三値データの数から−１を表す前記三値データの数を減算した数を前記内積演算結果として出力する、請求項２に記載の三値内積演算方法。
第１ビットが第１値を示す場合に＋１を表し、第２ビットが第１値を示す場合に−１を表し、前記第１及び前記第２ビットが何れも第２値を示す場合に０を表す、複数の２ビット幅の三値データを１つのワードに格納することで構成される第１及び第２入力データのそれぞれの複数の三値データ間の乗算を行う三値乗算部を備え、
前記三値乗算部の乗算結果を構成する複数の三値データのうち＋１を表す三値データの数から−１を表す三値データの数を減算した数が内積演算結果として出力される、三値内積演算回路。
前記三値乗算部の乗算結果を構成する前記複数の三値データのうち、＋１を表す前記三値データの数、及び、−１を表す前記三値データの数、を選択的にカウントするカウンタをさらに備え、
前記カウンタによりカウントされた＋１を表す前記三値データの数から−１を表す前記三値データの数を減算した数が内積演算結果として出力される、請求項４に記載の三値内積演算回路。
前記カウンタは、前記三値乗算部の乗算結果を構成する前記複数の三値データのうち第１ビットが第１値を示す三値データの数をカウントすることで、＋１を表す前記三値データの数を特定するとともに、第２ビットが第１値を示す三値データの数をカウントすることで、−１を表す前記三値データの数を特定する、請求項５に記載の三値内積演算回路。
前記三値乗算部の乗算結果を構成する前記複数の三値データのうち＋１を表す前記三値データの数から−１を表す前記三値データの数を減算した数を内積演算結果として出力する乗算結果処理部をさらに備えた、請求項４に記載の三値内積演算回路。
前記乗算結果処理部は、
前記三値乗算部の乗算結果を構成する前記複数の三値データのうち＋１を表す前記三値データの数をカウントする第１カウンタと、
前記三値乗算部の乗算結果を構成する前記複数の三値データのうち−１を表す前記三値データの数をカウントする第２カウンタと、
前記第１カウンタのカウント結果から前記第２カウンタのカウント結果を減算する減算回路と、を有する、請求項７に記載の三値内積演算回路。
前記第１カウンタは、前記三値乗算部の乗算結果を構成する前記複数の三値データのうち第１ビットが第１値を示す三値データの数をカウントすることで、＋１を表す前記三値データの数を特定し、
前記第２カウンタは、前記三値乗算部の乗算結果を構成する前記複数の三値データのうち第２ビットが第１値を示す三値データの数をカウントすることで、−１を表す前記三値データの数を特定する、請求項８に記載の三値内積演算回路。
請求項４に記載の三値内積演算回路と、
前記三値内積演算回路に入力される前記第１及び前記第２入力データが記憶されるメモリと、を少なくとも備えた半導体装置。
第１ビットが第１値を示す場合に＋１を表し、第２ビットが第１値を示す場合に−１を表し、前記第１及び前記第２ビットが何れも第２値を示す場合に０を表す、複数の２ビット幅の三値データを１つのワードに格納することで構成される第１及び第２入力データのそれぞれの複数の三値データ間の乗算を行う乗算処理と、
前記乗算処理による乗算結果を構成する複数の三値データのうち＋１を表す三値データの数をカウントする第１カウント処理と、
前記乗算処理による乗算結果を構成する複数の三値データのうち−１を表す三値データの数をカウントする第２カウント処理と、
＋１を表す前記三値データの数から−１を表す前記三値データの数を減算する減算処理と、をコンピュータに実行させる三値内積演算処理プログラム。
前記第１カウント処理は、前記乗算結果を構成する前記複数の三値データのうち第１ビットが第１値を示す三値データの数をカウントすることで、＋１を表す前記三値データの数を特定し、
前記第２カウント処理は、前記乗算結果を構成する前記複数の三値データのうち第２ビットが第１値を示す三値データの数をカウントすることで、−１を表す前記三値データの数を特定する、請求項１１に記載の三値内積演算処理プログラム。