JPH0962653A

JPH0962653A - 積和演算装置、積和演算器集積回路装置及び累積加算器

Info

Publication number: JPH0962653A
Application number: JP7220513A
Authority: JP
Inventors: Kunihiko Hara; 邦彦原; Yutaka Arima; 裕有馬
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1995-08-29
Filing date: 1995-08-29
Publication date: 1997-03-07
Also published as: KR970012132A; US5764557A

Abstract

(57)【要約】【課題】従来例に比較して小さくでき、かつ演算時間
を短くでき、しかも低価格で製造できる積和演算装置、
積和演算器集積回路及び累積加算器を提供する。【解決手段】第２の入力データ１０６のビット状態が
１であるビット信号の桁位置データ６を出力するビット
位置エンコーダ２と、第１の入力データ１０５を桁位置
データ６の数だけ桁移動して出力するバレルシフタ１
と、バレルシフタ１から出力されるデータ３とマルチプ
レクサ１０４から出力されるデータ１１９とを加算して
出力する加算器１０２と、加算器１０２から出力される
データを一時保持した後、出力端子から出力する一方、
マルチプレクサ１０４に出力するレジスタと、第３の入
力データ１０７とレジスタ１０３から入力されるデータ
の一方を、加算器１０２に出力するマルチプレクサ１０
４を備え、第１と第２の入力データの積と第３の入力デ
ータの和を演算して出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、画像処理に適した
積和演算装置、積和演算器集積回路装置及び累積加算器
に関する。

【０００２】

【従来の技術】画像処理システムにおいては、一般に入
力された画像データから例えば輪郭などの特徴量を抽出
したり、ノイズを除去するために畳み込み積分（コンボ
ルーション）を行うことが不可欠である。この画像デー
タの畳み込み積分を実行するためには，大量の積和演算
を処理しなければならない。しかも、動画の実時間処理
を実現するためには極めて高速な演算処理が必要とな
る。現在の動画レートは、ＣＣＤレートで表すと、毎秒
３０フレーム程度である。また標準的な画素数は５１２
×５１２である。従って、サイズ１６×１６のカーネル
を用いた畳み込み積分を実行する場合の積和演算回数
は、毎秒約２０億回（２ＧＯＰＳ）であり、サイズ３２
×３２のカーネルを用いた場合には毎秒約８０億回（８
ＧＯＰＳ）の積和演算が必要となる。既存の装置でこの
処理性能を実現するためには、演算処理チップを数多く
用いる必要がある。一方、一般に、低コストの積和演算
装置を実現するためには、半導体集積回路技術を用いて
より小さなサイズのチップに積和演算回路を数多く集積
する必要があるが、現在の半導体集積回路技術では比較
的小さなチップの中で、前述の性能を実現することは極
めて困難である。従って、現実的なコストで、上述した
回数の積和演算を実行することができる積和演算装置を
実現することは困難である。また将来、ピクセルサイズ
やフレームレートはさらに大きくなり、益々の高速処理
が要求されることになる。この種の画像データの前処理
が低コストで実現できるようになれば、より有益な画像
処理システムを社会に普及させることができる。

【０００３】次に回路技術の観点から従来例の積和演算
装置を考察する。図３５は、第１の従来例の積和演算装
置の構成を示すブロック図である。当該積和演算装置
は、乗算器１０１と加算器１０２とレジスタ１０３とマ
ルチプレクサ１０４とを備えて構成され、第１の入力デ
ータ１０５と第２の入力データ１０６の積算を乗算器１
０１で行い、マルチプレクサ１０４で選択された、第３
の入力データ１０７もしくは蓄積加算結果データ１１１
と、乗算結果データ１０８とを加算器１０２で加算し、
その加算結果データ１１０をレジスタ１０３に保持する
ことで積和演算が実行できる。ここで、マルチプレクサ
１０４が蓄積加算結果データ１１１を常に選択した状態
で、第１の入力データ１０５と第２の入力データ１０６
を更新する度毎にレジスタ１０３に加算結果データ１１
０を保持することを繰り返すことで、複数の積算値の累
積加算を実行することができる。

【０００４】次に、積和演算装置の別の構成例である第
２の従来例の積和演算装置について、図３６を参照して
説明する。この例では、図３５の乗算器１０１の代わり
に１ビットシフタ１２１とアンドゲートアレイ１２４お
よびセレクタ１２３が用いられている。レジスタ１２２
は１ビットシフタ１２１の出力を保持するためのもの
で、第１の入力データ１０５を１ビットずつビットシフ
トした状態を一時的に保持するために用いる。この構成
例では、第２の入力データ１０６の各ビット毎にそのビ
ットの桁に合わせて第１の入力データ１０５をビットシ
フトしたデータ１１３と、セレクタ１２３で選択された
第２の入力データ１０６とのアンドゲートアレイ１２４
による部分積算結果１１６を、加算器１０２で累積加算
することで第１の入力データ１０５と第２の入力データ
１０６の積算を実行している。つまり、積算処理過程の
最初の処理では第１の入力データ１０５をマルチプレク
サ１２０によって選択し、そのときは１ビットシフタ
は、ビットシフトせずにそのままレジスタ１２２に保持
させる。そのときセレクタ１２３は第２の入力データ１
０６の最下位ビットを選択しており、そのビット信号値
とレジスタ１２２の保持データ１１４とのアンド結果を
加算器１０２で加算してその結果をレジスタ１０３に保
持する。そのあと、マルチプレクサ１２０によってレジ
スタ１２２の保持データ１１４を選択した状態で、１ビ
ットシフタ１２１でビットシフトしたデータ１１３をレ
ジスタ１２２に保持し、そのデータとセレクタ１２３で
選択した第２の入力データ１０６の次の桁のビット信号
とのアンド結果を加算し、その結果をレジスタ１０３に
保持する。以後この動作を第２の入力データ１０６の全
ビット選択が完了するまで繰り返す。この一連の操作で
第１の入力データ１０５と第２のデータ１０６の積算が
実行できる。第３の入力データ１０７との加算や累積加
算については第１の従来例と同様に実行する。

【０００５】また，図３７は、「ＰｅｔｅｒＡ．Ｒｕｅ
ｔｚ，“ＴｈｅＡｒｃｈｉｔｅｃｔｕｒｅｓａｎｄ
Ｄｅｓｉｇｎｏｆａ２０−ＭＨｚＲｅａｌ−
ＴｉｍｅＤＳＰＣｈｉｐＳｅｔ”，ＩＥＥＥＪ
ｏｕｒｎａｌｏｎＳｏｌｉｄ−ＳｔａｔｅＣｉｒ
ｃｕｉｔｓ，Ｖｏｌ．２４，Ｎｏ２，ｐｐ３３８−３４
８，１９８９年」に示された第３の従来例の積和演算装
置の構成を示すブロック図である。第３の従来例の積和
演算装置は、第１の入力端子１２５と第２の入力端子１
２６と演算結果出力端子１３１とを有し、レジスタ１２
７−１乃至１２７−６と乗算器１２９−１乃至１２９−
６と加算器１３０−１乃至１３０−５とを備えて構成さ
れる。

【０００６】次に、第３の従来例において、６×６の画
像データ｛Ｘ_i｝に対して３×２のカーネル｛Ｗ１，Ｗ
２，Ｗ３：Ｗ４，Ｗ５，Ｗ６｝を用いた畳み込み積分を
実行する場合の動作を説明する。画像データ｛Ｘ_i｝
（ｉ＝１，２，３，…）は、第１の入力端子１２５に入
力されてレジスタ１２７−１，１２７−２，１２７−３
に順次転送され、画像データ｛Ｘ_i+6｝（ｉ＝１，２，
３，…）は、第２の入力端子１２６に入力されてレジス
タ１２７−４，１２７−５，１２７−６に順次転送され
る。ここで、乗算器１２９−３に画像データ｛Ｘ_i｝が
入力されるとき、すなわちＷ１にＸ_iが乗じられるとき
には、乗算器１２９−２によってＷ２にはＸ_i+1が乗じ
られ、乗算器１２９−１によってＷ３にはＸ_i+2が乗じ
られる。また、このとき、乗算器１２９−６によってＷ
４にはＸ_i+6が乗じられ、乗算器１２９−５によってＷ
５にはＸ_i+7が乗じられ、さらに乗算器１２９−４によ
ってＷ６にはＸ_i+8が乗じられる。６つの乗算結果は加
算器１３０−１乃至１３０−５によって加算され、演算
結果出力端子１３１からＷ１Ｘ_i＋Ｗ２Ｘ_i+1＋Ｗ３Ｘ
_i+2＋Ｗ４Ｘ_i+6＋Ｗ５Ｘ_i+7＋Ｗ６Ｘ_i+8が出力される。
これによって、６×６の画像データ｛Ｘ_i｝に対して３
×２のカーネル｛Ｗ１，Ｗ２，Ｗ３：Ｗ４，Ｗ５，Ｗ
６｝を用いた畳み込み積分を実行することができる。上
記参考文献の中ではこの回路を利用してサイズ８×８の
カーネルを用いた畳み込み積分を実行する回路をＬＳＩ
化している。しかし、そのチップ面積は、比較的大きな
値である２２５ｍｍ²と報告されている。従って、低コ
ストが要求される分野においてこのような大きなチップ
を適用することは困難である。

【０００７】

【発明が解決しようとする課題】第１の従来例と第３の
従来例の積和演算装置に用いた乗算器１０１、１２９−
１乃至１２９−６は、入力データのビット幅の２乗に比
例してその回路規模が増大する。これに対して、加算器
１０２，１３０−１乃至１３０−５の回路規模は、入力
データのビット幅に比例する。従って、乗算器１０１、
１２９−１乃至１２９−６を用いて構成した第１と第３
の従来例の積和演算回路は、ビット幅が大きくなると、
乗算器を用いていない積和演算装置に比較して極めて大
きくなるという問題点があった。このために、第１の従
来例と第３の従来例の積和演算装置は、１チップ内にお
いて演算器を並列に動作させて処理の高速化を図ること
は困難であるという問題点があった。

【０００８】また、第２の従来例の積和演算装置は、占
有面積の大きい乗算器１０１を含んでいないので、第１
と第３の従来例に比較して高集積化には有効であるが、
前述のように乗算するために多くの処理を繰り返す必要
があるために、第１の従来例の積和演算装置の積算に要
する時間に比較すると、処理時間が長くなるという問題
点があった。一般的に、第２の従来例の積和演算装置に
おける演算時間は、第１の従来例の積和演算装置の演算
時間に、第２の入力データ１０６のビット幅を乗じた時
間になる。従って、演算時間が大幅に増大するので、高
速化が図れないという問題点があった。

【０００９】本発明の目的は、以上の問題点を解決し
て、第１と第３の従来例に比較して小さくでき、かつ第
２の従来例に比較して演算時間を短くでき、しかも比較
的低価格で製造することができる積和演算装置、積和演
算器集積回路装置及び累積加算器を提供することにあ
る。

【００１０】

【課題を解決するための手段】本発明に係る第１の態様
の積和演算装置は、第１の入力データと第２の入力デー
タとの積を累積加算して出力端子から出力する積和演算
装置であって、第１の入力データを、第２の入力データ
に基づいて所定のビット数だけ桁移動して出力するバレ
ルシフタと、上記バレルシフタから出力され加算器の一
方の入力端子に入力されるデータと加算器の他方の入力
端子から入力されるデータとを加算して出力する加算器
と、上記加算器から出力されるデータを一時保持した
後、保持したデータを上記加算器の他方の入力端子を介
して上記加算器に入力する一方、保持したデータを上記
出力端子から出力するレジスタとを備えたことを特徴と
する。

【００１１】また、第２の態様の積和演算装置は、上記
第１の態様の積和演算装置においてさらに、マルチプレ
クサの一方の入力端子から入力される第３の入力データ
とマルチプレクサの他方の入力端子から入力されるデー
タのうち一方を選択して、上記加算器の他方の入力端子
を介して上記加算器に出力するマルチプレクサを備え、
上記第１の入力データと上記第２の入力データとの積
と、上記第３の入力データとを加算して出力端子から出
力することを特徴とする。

【００１２】さらに、第３の態様の積和演算装置は、第
１又は第２の態様の積和演算装置においてさらに、上記
第２の入力データのビット状態が１であるビット信号の
桁位置を示す桁位置データを、上記バレルシフタに出力
するビット位置エンコーダを備え、上記バレルシフタ
は、上記第１の入力データを上記桁位置データに基づい
て桁移動して出力することを特徴とする。

【００１３】またさらに、第４の態様の積和演算装置
は、第３の態様の積和演算装置において、上記ビット位
置エンコーダは、シフトレジスタとエンコーダとを備
え、上記シフトレジスタは、第１の遅延型フリップフロ
ップと第２の遅延型フリップフロップと、上記第１と第
２の遅延型フリップフロップの間に、上記第２の入力デ
ータの各ビット信号に対応して設けられた複数の第３の
遅延型フリップフロップと、上記各ビット信号に対応し
て設けられ、対応するビット信号のビット状態が１の場
合には、上記第１の遅延型フリップフロップから出力さ
れる信号を当該ビット信号に対応する第３の遅延型フリ
ップフロップを介して伝送させ、対応するビット信号の
ビット状態が０の場合には、当該ビット信号に対応する
第３の遅延型フリップフロップを介しないで伝送させる
１対のセレクタとを備え、上記シフトレジスタは、上記
第１の遅延型フリップフロップから出力される信号を、
クロック信号に応答して、第２の入力データのビット状
態が１であるビット信号に対応する第３の遅延型フリッ
プフロップに順次転送し、かつ上記第１の遅延型フリッ
プフロップから出力された信号が転送された第３の遅延
型フリップフロップの位置を示す信号を出力し、上記エ
ンコーダは、上記シフトレジスタから出力される信号に
基づいて、第２の入力データのビット状態が１であるビ
ット信号の位置を検出して、当該位置を示す位置データ
を出力することを特徴とする。

【００１４】また、第５の態様の積和演算装置は、第３
又は第４の積和演算装置において、上記ビット位置エン
コーダは、上記第２の入力データのビット状態が１であ
るビット信号の数が所定の数以上の場合には、上記第２
の入力データの上位の桁から上記所定の数のビット状態
が１であるビット信号についてのみ位置を検出して、位
置データを出力することを特徴とする。

【００１５】さらに、第６の態様の積和演算装置は、第
５の態様の積和演算装置において、上記ビット位置エン
コーダは、上記クロック信号のパルスを計数して上記第
１の遅延型フリップフロップから出力される信号のシフ
ト回数を出力するカウンタと、上記シフト回数と入力さ
れるシフト回数指定値とを比較して上記シフト回数がシ
フト回数指定値より大きい場合には位置検出を終了させ
る信号を出力するコンパレータとを備え、上記ビットシ
フト回数がシフト回数指定値より大きい場合には位置検
出を終了することを特徴とする。

【００１６】また、第７の態様の積和演算装置は、第３
又は第４の態様の積和演算装置においてさらに、第２の
入力データをビット状態が１であるビット信号の数が第
２の入力データのビット幅より小さい所定の制限数以下
である圧縮データに変換して出力するデータ圧縮手段を
備え、上記ビット位置エンコーダは、上記圧縮データの
ビット状態が１であるビット信号の桁位置を示す桁位置
データを、上記バレルシフタに出力することを特徴とす
る。

【００１７】さらに、第８の態様の積和演算装置は、第
７の積和演算装置において、上記データ圧縮手段は、第
２の入力データを、第２の入力データと同一の桁数を有
し、かつビット状態が１であるビット信号の数が上記制
限数以下のデータであって、第２の入力データとの差が
最小となるように設定された圧縮データに変換して出力
することを特徴とする。

【００１８】またさらに、第９の態様の積和演算装置
は、第７の態様の積和演算装置において、上記データ圧
縮手段は、第２の入力データを、第２の入力データに比
べて１桁多い桁数を有し、かつビット状態が１であるビ
ット信号の数が上記制限数以下のデータであって、第２
の入力データとの差が最小となるように設定された圧縮
データに変換して出力することを特徴とする。

【００１９】また、第１０の態様の積和演算装置は、第
７、８又は９の態様の積和演算装置において、上記デー
タ圧縮手段はさらに、圧縮データのビット状態が１であ
るビット信号の数Ｆを示す数値データを上記ビット位置
エンコーダに出力し、上記ビット位置エンコーダは、上
記Ｆ個のビット状態が１であるビット信号の桁位置を示
す桁位置データを出力した後、次の圧縮データの処理を
開始することを特徴とする。

【００２０】さらに、第１１の態様の積和演算装置は、
第２の態様の積和演算装置と、データ変換手段とを備
え、上記データ変換手段は、第２の入力データを、絶対
値が２のべき乗である正及び負の数値を第２の入力デー
タのビット幅より小さい個数以下だけ加算したデータに
変換することを特徴とする。

【００２１】本発明に係る第１２の態様の積和演算器集
積回路装置は、第１又は第２の態様の少なくとも２つの
積和演算装置と、第２の入力データのビット状態が１で
あるビット信号の桁位置を示す桁位置データを、上記各
積和演算装置のバレルシフタに出力する１つのビット位
置エンコーダとを備え、上記各積和演算装置のバレルシ
フタは、上記第１の入力データを上記桁位置データに基
づいて桁移動して出力することを特徴とする。

【００２２】また、第１３の態様の積和演算器集積回路
装置は、データ変換手段と並置されて設けられた複数Ｎ
個の第２の態様の積和演算装置１乃至Ｎを備え、上記デ
ータ変換手段は、第２の入力データをビット状態が１で
あるビット信号の数が第２の入力データのビット幅より
小さい所定の制限数以下である圧縮データに変換して出
力するデータ圧縮手段と、上記圧縮データのビット状態
が１であるビット信号の桁位置を示す桁位置データを上
記バレルシフターに出力するビット位置エンコーダとか
らなり、上記桁位置データを各積和演算装置ｋに出力
し、初段の積和演算装置１は、上記桁位置データに基づ
いて第１の入力端子から入力されるデータと第２の入力
データとの間の積と、第３の入力データとの和を演算し
て出力し、積和演算装置ｋ（ｋ＝２，３，…，Ｎ−１）
はそれぞれ、上記桁位置データに基づいて、上記桁位置
データが入力される端子とは別の入力端子から入力され
るデータと第２の入力データとの積と、前段の積和演算
装置（ｋ−１）から出力される演算結果との和を演算し
て、後段の積和演算装置（ｋ＋１）に出力し、最終段の
積和演算装置Ｎは、上記桁位置データに基づいて、第Ｎ
の入力端子から入力されるデータと第２の入力データと
の積と、前段の積和演算装置Ｎ−１から出力される演算
結果との和を演算して出力することを特徴とする。

【００２３】さらに、第１４の態様の積和演算器集積回
路装置は、第１３の態様の積和演算器集積回路装置にお
いて、上記積和演算装置ｋと上記積和演算装置（ｋ＋
１）（ｋ＝１，２，…，Ｎ−１）との間の少なくとも１
カ所に、上記積和演算装置ｋから出力される演算結果を
一時保持して、上記積和演算装置（ｋ＋１）に出力する
記憶手段を備えたことを特徴とする。

【００２４】またさらに、第１５の態様の積和演算器集
積回路装置は、第１４の態様の積和演算器集積回路装置
において、上記記憶手段は、複数Ｍ個のデータを記憶す
ることができ、入力されるデータの数がＭ個を越えると
最初に入力されたデータから順次出力することを特徴と
する。

【００２５】また、第１６の態様の積和演算器集積回路
装置は、第１５の態様の積和演算器集積回路装置におい
て、上記記憶手段は、記憶できるデータ数Ｍ個を外部か
ら指定することができることを特徴とする。

【００２６】さらに、第１７の態様の積和演算器集積回
路装置は、第１３、１４、１５又は１６の態様の積和演
算器集積回路装置において、最終段の積和演算装置から
出力される演算結果を一時保持した後、出力する出力用
記憶手段を設けたことを特徴とする。

【００２７】またさらに、第１８の態様の積和演算器集
積回路装置は、複数ｂ個の第１７の態様の積和演算器集
積回路装置１乃至ｂを備え、上記積和演算器集積回路装
置ｋ（ｋ＝２，３，…，ｂ）の各出力用記憶手段から出
力される演算結果を後段の積和演算器集積回路装置ｋ＋
１に入力することを特徴とする。

【００２８】また、第１９の態様の積和演算器集積回路
装置は、２つの第１７の態様の積和演算器集積回路装置
と、加算器とを備え、上記加算器は上記各積和演算器集
積回路装置から出力される演算結果データを加算して出
力することを特徴とする。

【００２９】また、第２０の態様の積和演算器集積回路
装置は、複数ｃ個の第１７又は１８の態様のの積和演算
器集積回路装置ＰＭ１１ａ−１乃至ＰＭ１１ａ−ｃと、
（ｃ−１）個の加算器８９−１乃至８９−（ｃ−１）
と、（ｃ−２）個の接続用記憶手段９０−１乃至９０−
（ｃ−２）とを備え、加算器８９−１は、積和演算装置
ＰＭ１１ａ−１から出力される演算結果データと、積和
演算装置ＰＭ１１ａ−２から出力される演算結果データ
とを加算して加算データを出力し、加算器８９−ｋ（ｋ
＝２，３，…，ｃ−２）は、積和演算装置ＰＭ１１ａ−
（ｋ＋１）から出力される演算結果データと、接続用記
憶手段９０−（ｋ−１）から出力される保持データとを
加算して加算データを出力し、接続用記憶手段９０−ｋ
（ｋ＝１，２，…，ｃ−２）は、加算器８９−ｋから出
力される加算データを所定の周期だけ保持した後、加算
器８９−（ｋ＋１）に出力し、加算器８９−（ｃ−１）
は、積和演算装置ＰＭ１１ａ−ｃから出力される演算結
果データと、接続用記憶手段９０−（ｃ−２）から出力
される保持データとを加算して加算データを出力するこ
とを特徴とする。

【００３０】本発明に係る第２１の態様の累積加算器
は、それぞれキャリー入力端子とキャリー出力端子を有
し、２つの入力端子に入力される２つのデータを加算し
て加算結果のデータを出力端子から出力する複数個の加
算器と、レジスタを備えた累積加算器であって、各加算
器の出力端子から出力されるデータ、並びにキャリー出
力端子から出力されるキャリー信号はレジスタに入力さ
れ、各加算器の一方の入力端子にはレジスタを介して累
積加算器の一部のビット域のデータもしくは初期値のデ
ータを入力し、各加算器の他方の入力端子には各加算器
に対応する各ビット域のデータを入力し、各加算器のキ
ャリー入力端子には当該各加算器が処理するビット域の
下位側のビット域を処理する加算器のキャリー出力端子
から出力されるキャリー信号をレジスタを介して入力す
ることを特徴とする。

【００３１】また、第２２の態様の積和演算装置は、第
２１の態様の累積加算器と、第１の入力データをビット
状態が１であるビット信号の数が第１の入力データのビ
ット幅より小さい所定の制限数以下である圧縮データに
変換して出力するデータ圧縮手段と、上記圧縮データの
ビット状態が１であるビット信号の桁位置を示す桁位置
データを出力するビット位置エンコーダと、第２の入力
データを上記桁位置データに基づいて桁移動して、桁移
動したデータの上記各加算器に対応する各ビット域のデ
ータを当該各加算器の他方の入力端子に出力するバレル
シフタとを備えたことを特徴とする。

【００３２】

【発明の実施の形態】

実施の形態１本発明に係る実施の形態１の積和演算装置ＰＭ１につい
て図１を参照して説明する。実施の形態１の積和演算装
置ＰＭ１は、第１の入力データ１０５と第２の入力デー
タ１０６との積と、第３の入力データ１０７の和を演算
する積和演算回路であって、図１に示すように、バレル
シフタ１と、ビット位置エンコーダ２と、加算器１０２
と、レジスタ１０３と、マルチプレクサ１０４と、アン
ドゲートアレイ１２４とからなり、以下の特徴を有す
る。（１）ビット位置エンコーダ２は、ビット位置エンコー
ダシフト信号５（クロック信号）が与えられる度に、第
２の入力データ１０６のビット状態が”１”であるビッ
ト位置を、詳述後述するように下位または上位から順に
コード化して、第２の入力データ１０６のビット状態が
“１”であるビット位置を示すビット位置エンコードデ
ータ６（シフトビット幅制御信号）を、バレルシフタ１
に出力する一方、ビット位置エンコード非終了信号７を
アンドゲートアレイ１２４に出力する。（２）バレルシフタ１は、ビット位置エンコードデータ
６（シフトビット幅制御信号）で示される数だけ、第１
の入力データ１０５を桁移動して、第１の入力データ１
０５を桁移動したデータであるバレルシフトデータ３を
アンドゲートアレイ１２４に出力する。

【００３３】以下、実施の形態１の積和演算装置ＰＭ１
の構成について詳細に説明する。まず最初に、図２を参
照して、ビット位置エンコーダ２の構成を説明する。ビ
ット位置エンコーダ２は、図２に示すように、遅延型フ
リップフロップ（以下、Ｄフリップフロップという。）
１２−１乃至１２−Ｎ，１６，２９とセレクタ１７−１
乃至１７−Ｎ，２１，２２−１乃至２２−Ｎとオアゲー
ト２６とからなるシフトレジスタ２０と、アンドゲート
アレイ１１と、インバータ１０，２７と、エンコーダ２
８とを備える。

【００３４】インバータ１０は、入力されたビット位置
エンコーダリセット信号４の論理を反転させて、論理を
反転させたビット位置エンコーダリセット信号４ａを、
アンドゲートアレイ１１とセレクタ２１とに出力する。
アンドゲートアレイ１１は、ビット位置エンコーダリセ
ット信号４ａのビット状態が“１”の場合には、第２の
入力データ１０６を出力し、ビット位置エンコーダリセ
ット信号４ａのビット状態が“０”の場合には、すべて
のビット信号のビット状態が“０”である信号を出力す
る。ここで、アンドゲートアレイ１１は、出力するデー
タのうち最上位桁のビット信号ｙ１をセレクタ１７−１
とセレクタ２２−１に出力し、次の桁に位置するビット
信号ｙ２をセレクタ１７−２とセレクタ２２−２に出力
し、以下同様に最上位桁からｋ番目（ｋ＝３，４，…，
Ｎ）に位置するビット信号ｙｋをセレクタ１７−ｋとセ
レクタ２２−ｋに出力する。

【００３５】シフトレジスタ２０において、Ｄフリップ
フロップ２９は、クロック信号であるビット位置エンコ
ーダシフト信号５に応答して、記憶していた“１”又は
“０”のビット信号をセレクタ１７−１とセレクタ２２
−１とに出力する一方、入力されたビット位置エンコー
ダリセット信号４のビット信号を新たに記憶する。

【００３６】セレクタ１７−１は、アンドゲートアレイ
１１から入力されるビット信号ｙ１のビット状態に応じ
て、ビット信号ｙ１のビット状態が“１”の場合には、
Ｄフリップフロップ２９から入力されたビット信号をＤ
フリップフロップ１２−１に出力し、ビット信号ｙ１の
ビット状態が“０”の場合には、ビット状態が“０”で
あるビット信号をＤフリップフロップ１２−１に出力す
る。Ｄフリップフロップ１２−１は、ビット位置エンコ
ーダシフト信号５に応答して、記憶していたビット信号
をセレクタ２２−１とエンコーダ２８とに出力する一
方、セレクタ１７−１から入力されるビット信号を新た
に記憶する。セレクタ２２−１は、アンドゲートアレイ
１１から入力される最上位桁のビット信号ｙ１のビット
状態に応じて、ビット信号ｙ１のビット状態が“１”の
場合には、Ｄフリップフロップ１２−１から入力される
ビット信号をセレクタ１７−２とセレクタ２２−２とに
出力し、最上位のビット信号のビット状態が“０”の場
合には、Ｄフリップフロップ２９から入力される信号を
セレクタ１７−２とセレクタ２２−２とに出力する。す
なわち、１対のセレクタ１７−１とセレクタ２２−１
は、ビット信号ｙ１のビット状態が“１”の場合には、
Ｄフリップフロップ２９から出力されるビット信号をＤ
フリップフロップ１２−１を介して伝送させ、ビット信
号ｙ１のビット状態が“０”の場合には、Ｄフリップフ
ロップ２９から出力されるビット信号をＤフリップフロ
ップ１２−１を介さずに伝送させる。

【００３７】以下同様に、セレクタ１７−ｋ（ｋ＝２，
…，Ｎ）は、アンドゲートアレイ１１から入力される最
上位からｋ番目の桁のビット信号ｙｋのビット状態に応
じて、ビット信号ｙｋのビット状態が“１”の場合に
は、セレクタ２２−（ｋ−１）から入力されるビット信
号をＤフリップフロップ１２−ｋに出力し、ビット信号
ｙｋのビット状態が“０”の場合には、ビット状態が
“０”であるビット信号をＤフリップフロップ１２−ｋ
に出力する。Ｄフリップフロップ１２−ｋ（ｋ＝２，
…，Ｎ）は、ビット位置エンコーダシフト信号５に応答
して、記憶していたビット状態をセレクタ２２−ｋとエ
ンコーダ２８に出力する一方、セレクタ１７−ｋから入
力されるビット信号のビット状態を新たに記憶する。

【００３８】セレクタ２２−ｋ（ｋ＝２，…，Ｎ−１）
は、アンドゲートアレイ１１から入力されるビット信号
ｙｋのビット状態に応じて、ビット信号ｙｋのビット状
態が“１”の場合には、Ｄフリップフロップ１２−ｋか
ら入力されるビット信号をセレクタ１７−（ｋ＋１）と
セレクタ２２−（ｋ＋１）とに出力し、ビット信号ｙｋ
のビット状態が“０”の場合には、セレクタ２２−（ｋ
−１）から入力される信号をセレクタ１７−（ｋ＋１）
とセレクタ２２−（ｋ＋１）とに出力する。すなわち、
１対のセレクタ１７−ｋとセレクタ２２−ｋは、ビット
信号ｙｋのビット状態が“１”の場合には、Ｄフリップ
フロップ２９から出力されるビット信号をＤフリップフ
ロップ１２−ｋを介して伝送させ、ビット信号ｙｋのビ
ット状態が“０”の場合には、Ｄフリップフロップ２９
から出力されるビット信号をＤフリップフロップ１２−
ｋを介さずに伝送させる。

【００３９】セレクタ２２−Ｎは、アンドゲートアレイ
１１から入力されるビット信号ｙＮのビット状態に応じ
て、ビット信号ｙＮのビット状態が“１”の場合には、
Ｄフリップフロップ１２−Ｎから入力されるビット信号
をオアゲート２６に出力し、ビット信号ｙＮのビット状
態が“０”の場合には、セレクタ２２（Ｎ−１）から入
力されるビット信号をオアゲート２６に出力する。

【００４０】オアゲート２６は、セレクタ２２−Ｎから
出力されるビット信号とＤフリップフロップ１６から出
力されるビット信号のうち少なくとも一方の信号のビッ
ト状態が“１”の場合には、ビット状態が“１”のビッ
ト信号を出力し、共にビット状態が“０”の場合には、
ビット状態が“０”であるビット信号を出力する。セレ
クタ２１は、インバータ１０から入力されるビット位置
エンコーダリセット信号４ａのビット状態に応じて、ビ
ット位置エンコーダリセット信号４ａのビット状態が
“１”である場合には、オアゲート２６から出力される
ビット信号をＤフリップフロップ１６に出力する一方、
ビット位置エンコーダリセット信号４ａのビット状態が
“０”である場合には、ビット状態が“０”であるビッ
ト信号をＤフリップフロップ１６に出力する。Ｄフリッ
プフロップ１６は、セレクタ２１から出力される信号を
記憶して、ビット位置エンコーダシフト信号５に応答し
て、記憶していた信号をオアゲート２６とインバータ２
７とに出力する。

【００４１】以上のように構成されたシフトレジスタ２
０は、Ｄフリップフロップ２９から出力される信号を、
ビット位置エンコーダシフト信号５に応答して、ビット
状態が“１”であるビット信号ｙｋに対応するＤフリッ
プフロップ１２−ｋに順次転送し、かつＤフリップフロ
ップ２９から出力された信号が転送されたＤフリップフ
ロップ１２−ｋの位置を示す信号をエンコーダ２８に出
力するそして、シフトレジスタ２０は、Ｄフリップフロ
ップ２９から出力されたビット状態が“１”である信号
が、Ｄフリップフロップ１２−１乃至１２−Ｎのうちの
いずれかに転送されている間は、ビット位置エンコーダ
シフト信号５に応答して、ビット状態が“０”である信
号をインバータ２７に出力する。

【００４２】インバータ２７は、Ｄフリップフロップ１
６から出力されるビット信号の論理を反転させて、論理
を反転させた信号であるビット位置エンコード非終了信
号７をアンドゲートアレイ１２４に出力する。これによ
って、オアゲート２６，セレクター２１，Ｄフリップフ
ロップ１６およびインバータ２７で構成されるシフトレ
ジスタ２０の最終段の回路は、Ｄフリップフロップ１６
にビット状態が“１”である信号が転送されるまでは、
ビット位置エンコーダシフト信号５の各パルスに応答し
て、ビット状態が“１”であるビット位置エンコード非
終了信号７をアンドゲートアレイ１２４に出力し、Ｄフ
リップフロップ１６にビット状態が“１”である信号が
転送された以降のパルスに応答して、ビット状態が
“０”であるビット位置エンコード非終了信号７を出力
する。

【００４３】エンコーダ２８は、Ｄフリップフロップ１
７−１乃至１７−Ｎから出力される信号に基づいて、第
２の入力データのビット状態が“１”であるビット信号
の位置を検出して、当該ビット信号の位置を示す信号で
あるビット位置エンコードデータ６をバレルシフタ１に
出力する。以上のようにビット位置エンコーダ２は構成
される。

【００４４】バレルシフタ１は、ビット位置エンコーダ
２から出力されたビット位置エンコードデータ６で示さ
れた数だけ、入力される第１の入力データ１０５を上位
の方向に桁移動して、桁移動した信号であるバレルシフ
トデータ３をアンドゲートアレイ１２４に出力する。

【００４５】アンドゲートアレイ１２４は、ビット位置
エンコード非終了信号７のビット状態が“１”の場合に
は、バレルシフトデータ３と等しい加算入力データ１１
６を加算器１０２に出力する。マルチプレクサ１０４
は、入力される第３の入力データ１０７とレジスタ１０
３から入力される蓄積加算結果データ１１８のうちの一
方のデータを加算器１０２に出力する。加算器１０２
は、アンドゲートアレイ１２４から入力される加算入力
データ１１６とマルチプレクサ１０４から入力されるデ
ータとを加算して、加算された加算結果データ１１７を
レジスタ１０３に出力する。レジスタ１０３は、加算結
果データ１１７が入力されると、それまで記憶していた
蓄積加算結果データ１１８を外部回路とマルチプレクサ
１０４に出力して、入力された加算結果データ１１７を
記憶する。以上のようにして実施の形態１の積和演算装
置ＰＭ１は構成される。

【００４６】次に、以上のように構成された実施の形態
１の積和演算装置ＰＭ１の動作について説明する。図１
に示すように、当該積和演算装置ＰＭ１において、第１
の入力データ１０５はバレルシフタ１に入力され、第２
の入力データ１０６とビット位置エンコーダリセット信
号４とビット位置エンコーダシフト信号５とはビット位
置エンコーダ２に入力される。ここで、以下の説明で
は、ビット位置エンコード非終了信号７のビット状態が
“０”になるまで、第１の入力データ１０５と第２の入
力データ１０６は変化しないとする。

【００４７】まず、最初に、ビット状態が“１”である
ビット位置エンコーダリセット信号４とビット位置エン
コーダシフト信号５（クロック信号）とが与えられる
と、Ｄフリップフロップ２９には、ビット状態が“１”
であるビット位置エンコーダリセット信号４とビット位
置エンコーダシフト信号５（クロック信号）とが入力さ
れるので、Ｄフリップフロップ２９には、ビット状態
“１”が記憶される。また、アンドゲートアレイ１１に
は、インバータ１０によってビット位置エンコーダリセ
ット信号４の論理が反転されたビット状態が“０”であ
るビット位置エンコーダリセット信号４ａが入力される
ので、セレクタ１７−１乃至１７−Ｎには、ビット状態
が“０”である信号が入力される。これによって、Ｄフ
リップフロップ１２−１乃至１２−Ｎには、ビット状態
が“０”である信号が入力され、ビット状態が“０”が
記憶される。このようにして、シフトレジスタ２０は初
期状態に設定される。

【００４８】次に、ビット状態が“０”であるビット位
置エンコーダリセット信号４が入力され、アンドゲート
アレイ１１に第２の入力データ１０６が入力されると、
アンドゲートアレイ１１に、ビット状態が“１”である
ビット位置エンコーダリセット信号４ａが入力されるの
で、第２の入力データ１０６は、アンドゲートアレイ１
１から出力される。そして、第２の入力データ１０６の
うち最上位桁のビット信号ｙ１は、セレクタ１７−１と
セレクタ２２−１に入力され、次の桁に位置するビット
信号ｙ２は、セレクタ１７−２とセレクタ２２−２に入
力され、最上位桁からｋ番目（ｋ＝３，４，…，Ｎ）に
位置するビット信号ｙｋは、セレクタ１７−ｋとセレク
タ２２−ｋに入力される。これによって、ビット状態が
“１”であるビット信号に対応するセレクタ１７−ｋと
セレクタ２２−ｋは、信号をＤフリップフロップ１２−
ｋを介して伝送させ、ビット状態が“０”であるビット
信号に対応するセレクタ１７−ｋとセレクタ２２−ｋ
は、信号をＤフリップフロップ１２−ｋを介さずに伝送
させる。

【００４９】この状態で、クロック信号であるビット位
置エンコーダシフト信号５の２番目のパルスが入力され
ると、初期状態でＤフリップフロップ２９に記憶された
ビット状態“１”のビット信号は、最上位の桁から数え
て最初のビット状態が“１”のビット信号に対応するＤ
フリップフロップ１２−ｋ₁まで転送される。この時Ｄ
フリップフロップ１２−ｋ₁のみに、ビット状態が
“１”のビット信号が記憶され、それ以外のＤフリップ
フロップには、ビット状態が“０”のビット信号が記憶
される。

【００５０】次に、ビット位置エンコーダリセット信号
４のビット状態を“１”に保持した状態で、ビット位置
エンコーダシフト信号５の３番目のパルスが入力される
と、Ｄフリップフロップ１２−ｋ（ｋ＝１，２，…，
Ｎ）に記憶されているビット信号はそれぞれ、エンコー
ダ２８に出力される。そして、ビット状態が“１”であ
るビット信号を出力したＤフリップフロップ１２−ｋ₁
の位置が、エンコーダ２８によってコード化されて、最
上位の桁から数えて最初のビット状態“１”であるビッ
ト信号の位置を示すビット位置エンコードデータ６が出
力される。一方、セレクタ２２−ｋ₁に出力されたビッ
ト状態“１”のビット信号は、最上位の桁から数えて２
番目のビット状態“１”のビット信号に対応するＤフリ
ップフロップ１２−ｋ₂まで転送される。また、２番目
のパルスに応答して、Ｄフリップフロップ１６によっ
て、ビット状態が“０”のビット信号がインバータ２７
に出力されて、当該ビット信号はインバータ２７によっ
てビット状態が反転され、インバータ２７からビット状
態が“１”であるビット位置エンコード非終了信号７が
出力される。

【００５１】次に、４番目のパルスが入力されると、ビ
ット状態が“１”であるビット信号を出力したＤフリッ
プフロップ１２−ｋ₂の位置が、エンコーダ２８によっ
てコード化されて、最上位の桁からみて２番目に位置す
るビット状態“１”のビット信号の位置を示すビット位
置エンコードデータ６がエンコーダ２７から出力され
る。一方、セレクタ２２−ｋ₂に出力されたビット状態
“１”のビット信号は、最上位の桁から数えて３番目の
ビット状態“１”のビット信号に対応するＤフリップフ
ロップ１２−ｋ₃まで転送される。そして、インバータ
２７からビット状態が“１”であるビット位置エンコー
ド非終了信号７が出力される。

【００５２】以下同様にして、ビット位置エンコーダシ
フト信号５のパルスが入力される毎に、ビット状態
“１”のビット信号の位置を示すビット位置エンコード
データ６が、上位桁から順番にエンコーダ２８から出力
される一方、ビット状態が“１”であるビット位置エン
コード非終了信号７がインバータ２７から出力されて、
第２の入力データ１０６のうち最も下位に位置するビッ
ト状態が“１”のビット信号に対応するＤフリップフロ
ップ１２−ｋ_Lにビット状態が“１”のビット信号が転
送される。そして、次のパルスに応答して、最も下位に
位置するビット状態“１”のビット信号の位置を示すビ
ット位置エンコードデータ６が、エンコーダ２８から出
力される一方、ビット状態が“１”であるビット位置エ
ンコード非終了信号７がインバータ２７から出力され
る。この時、Ｄフリップフロップ１２−ｋ_Lから出力さ
れた信号は、セレクタ２２−ｋ_L乃至２２−Ｎを介し
て、オアゲート２６に入力され、ビット状態が“１”で
あるビット信号がオアゲート２６からセレクタ２１を介
してＤフリップフロップ１６に入力される。

【００５３】そして、次のビット位置エンコーダシフト
信号５のパルスに応答して、Ｄフリップフロップ１６に
記憶されていたビット状態“１”の信号がインバータ２
７に入力されて、インバータ２７によってビット状態が
反転されたビット状態が“０”であるビット位置エンコ
ード非終了信号７が出力される。そして、次にビット状
態が“１”であるビット位置エンコーダリセット信号４
が入力されるまで、Ｄフリップフロップ１６には、ビッ
ト状態“１”が保持されて、ビット状態が“０”である
ビット位置エンコード非終了信号７が出力される。

【００５４】すなわち、第２の入力データ１０６のビッ
ト状態が“１”である全てのビットの位置が検出される
と、シフトレジスタ２０の最終段のＤフリップフロップ
１６にビット状態“１”が転送され、次のビット位置エ
ンコーダシフト信号５が入力されたときに、ビット位置
エンコード非終了信号７が“０”となり、ビット列のビ
ット状態が“１”である全てのビットの位置の検出が終
了したことを知らせることができる。以後、ビット状態
が“１”であるビット位置エンコーダリセット信号４が
与えられるまでＤフリップフロップ１６にはビット状態
“１”が保持される。

【００５５】一方、バレルシフタ１に入力される第１の
入力データ１０５は、バレルシフタ１によって、各パル
ス毎に入力されるビット位置エンコードデータ６の数だ
け桁移動されて、桁移動されたバレルシフトデータ３
は、アンドゲートアレイ１２４に入力される。この時、
ビット状態が“１”であるビット位置エンコード非終了
データ７がアンドゲートアレイ１２４に入力されるの
で、バレルシフトデータ３と同一の加算入力データ１１
６が加算器１０２に入力される。ここで、ビット位置エ
ンコード非終了データ７のビット状態が“０”の場合に
は、各ビット信号がすべて“０”である加算入力データ
１１６が加算器１０２に出力される。

【００５６】また、マルチプレクサ１０４に入力された
第３の入力データ１０７と蓄積加算結果データ１１８の
うち、マルチプレクサ１０４によって選択された一方の
選択加算データ１１９は、加算器１０２に入力される。
加算入力データ１１６と選択加算データ１１９は、加算
器１０２によって加算されて、加算結果データ１１７
は、レジスタ１０３に入力されて記憶される。レジスタ
１０３に記憶された蓄積加算結果データ１１８は、外部
回路とマルチプレクサ１０４に入力される。

【００５７】ここで、マルチプレクサ１０４を、入力さ
れるデータのうち蓄積加算結果データ１１８を常に選択
して出力するように設定して動作させると、ビット位置
エンコーダシフト信号５が１クロック与えられる毎に、
第２の入力データ１０６の状態が“１”である次のビッ
ト信号の位置データによって第１の入力データ１０５が
ビットシフトされ累積加算されることを繰り返す。この
累積加算は、第２の入力データ１０６の状態が“１”で
ある全てのビットをスキャンし終ったところで、ビット
位置エンコード非終了信号７が“０”になることによ
り、アンドゲートアレイ１２４の出力は“０”となり、
累積加算の実質的処理は終了する。すなわち、この一連
の処理によって、第１の入力データ１０５と第２の入力
データ１０６の積算が実行できる。また、第１の入力デ
ータ１０５と第２の入力データ１０６とを積算が終了す
る毎に更新することによって、複数の積算値の累積加算
を実行することができる。

【００５８】以上詳述したように、ビット位置エンコー
ダ２とバレルシフタ１を備えた実施の形態１の積和演算
装置ＰＭ１によれば、第２の入力データ１０６のビット
状態が“１”である場合の処理のみを抜き出して累積加
算して積算を実行しているので、言い換えると第２の入
力データ１０６のビット状態が“０”である場合の無意
味な累積加算処理を省くことができるので、従来例に比
較して、積和演算処理を高速で実行することができる。

【００５９】また、一般にバレルシフタ１の回路面積
は、入力データのビット幅の２乗に比例して増大するも
のの、実用的な入力データのビット幅（８〜１６）にお
いては乗算器と比べて一桁以上も回路規模が小さくでき
るので、従来例に比較して、積和演算装置ＰＭ１の回路
面積を小さくできる。

【００６０】以上の実施の形態１の積和演算装置ＰＭ１
では、第２の入力データ１０６のビット状態が“１”で
あるビット信号の位置を上位の桁から順に検出をして当
該位置を示すデータを出力するようにビット位置エンコ
ーダ２を構成したが、本発明はこれに限らず、第２の入
力データ１０６のビット状態が“１”であるビット信号
の位置を下位の桁から順に検出をして当該位置を示すデ
ータを出力するように構成してもよい。以上のように構
成しても実施の形態１の積和演算装置ＰＭ１と同様の効
果を有する。

【００６１】実施の形態２次に、本発明に係る実施の形態２の積和演算装置ＰＭ２
について、図３を参照して説明する。実施の形態２の積
和演算装置ＰＭ２は、図１の実施の形態１の積和演算装
置ＰＭ１において、ビット位置エンコーダ２に代えて、
最大シフト回数を所定の値に制限する機能を有するビッ
ト位置エンコーダ８を用いて構成したことを特徴とす
る。

【００６２】実施の形態２の積和演算装置ＰＭ２のビッ
ト位置エンコーダ８は、図４に示すように、図２のビッ
ト位置エンコーダ２においてさらに、カウンタ３０とコ
ンパレータ３１とノアゲート３２とを備えて構成され
る。カウンタ３０は、ビット位置エンコーダリセット信
号４とビット位置エンコーダシフト信号５とが入力され
て、ビット状態が“１”であるビット位置エンコーダリ
セット信号４が入力された後のビット位置エンコーダシ
フト信号５のパルスを計数することによりビットシフト
回数を求めて、当該ビットシフト回数をコンパレータ３
１に出力する。コンパレータ３１は、入力されるビット
シフト回数と入力される最大シフト回数指定データ９と
を比較して、ビットシフト回数が最大シフト回数指定デ
ータ９以下の場合には、ビット状態が“０”である信号
をノアゲート３２に出力し、ビットシフト回数が最大シ
フト回数指定データ９より大きい場合には、ビット状態
が“１”である信号をノアゲート３２に出力する。ノア
ゲート３２は、Ｄフリップフロップ１６から出力される
信号と、コンパレータ３１から出力される信号のうちど
ちらか一方の信号のビット状態が“１”である場合に
は、ビット状態が“１”であるビット位置エンコード非
終了信号７を出力する。

【００６３】以上のように構成された実施の形態２の積
和演算装置ＰＭ２において、カウンタ３０によってビッ
ト位置エンコーダシフト信号５のパルスを計数すること
によりビットシフト回数を計数して、ビットシフト回数
と最大シフト回数指定データ９によって指定された最大
シフト回数とをコンパレータ３１で比較し、ビットシフ
ト回数が最大シフト回数を越えた場合には、ノアゲート
３２にビット状態が“１”である信号を与えて、強制的
にビット位置エンコード非終了信号７を“０”にする。

【００６４】従って、ビット位置エンコーダ８を備えた
実施の形態２の積和演算装置ＰＭ２は、第２の入力デー
タ１０６のビット状態が“１”である割合が大きくなっ
た場合には、一定数の処理を間引くことができので、高
速で積和演算処理を実行することができる。

【００６５】本発明者は、上述のように処理を間引くこ
とにより発生する演算結果の誤差を評価した。図５は、
第２の入力データ１０６のビット幅を８に設定したとき
の最大シフト回数に対する変換誤差の関係を示すグラフ
である。図５から明らかなように、最大シフト回数の低
下の程度に比べ変換誤差の増大は小さいことがわかる。

【００６６】最大シフト回数を制限しても変換誤差があ
まり大きくならない理由は、以下のように説明すること
ができる。Ｎビットの第２の入力データ１０６におい
て、ビット状態が“１”であるビットの数をＮ個より小
さい繰り返し回数ＮＵＭ個に制限した場合に、第２の入
力データ１０６が表現できる場合の数Ｂは、次の数１で
表わすことができる。これに対して、ビット状態が
“１”であるビットの数を制限しない場合に、第２の入
力データ１０６が表現できる場合の数Ｂ₀は、２^Nにな
る。例えば、ビット数Ｎ＝８に対して繰り返し回数ＮＵ
Ｍ＝５に設定したとき、場合の数Ｂは２５６から２１９
にしか減少しない。このように繰り返し回数ＮＵＭをビ
ット数Ｎより多少小さくしても場合の数Ｂは極端に減少
することなく、変換誤差を小さくできる。

【００６７】

【数１】

【００６８】以上詳述したように、本実施の形態２の積
和演算装置ＰＭ２は、ほとんど演算精度を犠牲にするこ
となく、実施の形態１の積和演算装置ＰＭ１に比較し
て、積和演算処理を高速で実行することができる。

【００６９】実施の形態３本発明に係る実施の形態３の積和演算器集積回路装置Ｐ
Ｓ３は、図６に示すように、１つのビット位置エンコー
ダ８に対して並列に設けられた複数Ｍ個の積和演算装置
ＰＭ１ａを備え、ビット位置エンコーダ８は、ビット位
置エンコードデータ６を各積和演算装置ＰＭ１ａのバレ
ルシフタ１に出力し、かつビット位置エンコード非終了
信号７を各積和演算装置ＰＭ１ａのアンドゲートアレイ
１２４に出力することを特徴とする。ここで、各積和演
算装置ＰＭ１ａはそれぞれ、実施の形態１の積和演算装
置ＰＭ１からビット位置エンコーダ２をとり除いて構成
され、各積和演算回路ＰＭ１ａにはそれぞれ、１つのビ
ット位置エンコーダ８からビット位置エンコードデータ
６とビット位置エンコード非終了信号７とが入力され
る。

【００７０】以上のように構成することにより、実施の
形態３の積和演算器集積回路装置ＰＳ３において、各積
和演算装置ＰＭ１ａはそれぞれ、入力される第１の入力
データ１０５と第２の入力データ１０６との積和演算を
並列に実行することができる。この場合、各積和演算装
置ＰＭ１ａに入力される第１の入力データ１０５として
互いに異なるデータを入力することにより、第２の入力
データ１０６と互いに異なる第１の入力データ１０５と
の積和演算を並列に実行することができる。

【００７１】以上のように構成された積和演算器集積回
路装置ＰＳ３において、１つのビット位置エンコーダ８
は、ビット位置エンコードデータ６とビット位置エンコ
ード非終了信号７を各積和演算装置ＰＭ１ａに出力す
る。従って、ビット位置エンコーダ８を各積和演算装置
ＰＭ１ａに個別に備えた場合に比較して、積和演算器集
積回路装置ＰＳ３の面積を小さくすることができる。以
上の実施の形態３では、ビット位置エンコーダ８を用い
て構成したが、本発明はこれに限らずビット位置エンコ
ーダ２を用いて構成してもよい。

【００７２】実施の形態４図７は、本発明に係る実施の形態４の積和演算装置ＰＭ
４の構成を示すブロック図である。積和演算装置ＰＭ４
は、図７に示すように、バレルシフタ４４と、加算器４
５とレジスタ４６とマルチプレクサ４７とからなる基本
演算器ＰＵと、データ圧縮回路４８とレジスタ５０とシ
フト量変換回路５１とからなるデータ変換器７２とを備
える。ここで、実施の形態４の積和演算装置ＰＭ４は、
第２の入力データ４１と同一の桁数を有しかつビット状
態が“１”であるビット信号の数が繰り返し回数ＮＵＭ
以下の圧縮データ４９に変換して出力するデータ圧縮回
路４８を備えたことを特徴とする。

【００７３】次に、図７を参照して実施の形態４の積和
演算装置ＰＭ４の構成について、詳細に説明する。実施
の形態４の積和演算装置ＰＭ４において、データ圧縮回
路４８は、入力端子Ｔ４１を介して入力される第２の入
力データ４１を、次のステップ１とステップ２の処理を
実行することによって、ビット幅が第２の入力データ４
１と同じでかつビット状態が“１”であるビット信号の
数が繰り返し回数ＮＵＭ以下の圧縮データ４９に変換し
て圧縮データ４９をレジスタ５０を介してシフト量変換
回路５１に出力する。

【００７４】＜ステップ１＞ビット状態が“１”である
ビット信号を、最上位桁から数えて、繰り返し回数ＮＵ
Ｍ個目にあたるビット信号の位置ｆを検出する。そし
て、最上位桁から位置ｆまでの圧縮データ４９ａの各ビ
ット信号を、第２の入力データ４１の各ビット信号と同
一に設定し、かつ圧縮データ４９ａの位置ｆから最下位
桁までの各ビットを、０に設定することによって、圧縮
データ４９ａを求める。

【００７５】＜ステップ２＞次の数２を満足するとき、
圧縮データ４９ａの位置ｆにあるビット信号ｃｏｎ
（ｆ）に１を加算してその加算結果データを圧縮データ
４９として出力し、数２を満足しないときは加算をしな
いで圧縮データ４９ａを圧縮データ４９として出力す
る。ただし、数２を満足しても、この加算によって、圧
縮データ４９がオーバーフローした場合は、ステップ２
を無効にする。すなわち、この加算は行わないで、圧縮
データ４９ａを圧縮データ４９として出力する。ここ
で、ｃｏｎ（ｆ）は圧縮データ４９ａの位置ｆにおける
ビット信号を表わす。

【００７６】

【数２】

【００７７】ここで、数２のなかで、｛｝・｛｝の・
は、論理積を表し、第２番目の｛｝内の＋は、論理和を
表わす。また、ｉｎ（ｋ）は、第２の入力データ４１の
位置ｋにおけるビット信号を表す。従って、数２を満足
する場合とは、位置ｆのビット信号のビット状態が
“１”であって、かつ位置ｆより下位に位置するビット
信号のうち少なくとも１つのビット信号のビット状態が
“１”である場合を意味する。

【００７８】上述のステップ１，２の処理を、具体例を
挙げて説明する。例えば第２の入力データ４１を８ビッ
トデータとし、かつ繰り返し回数ＮＵＭを４とする。ま
ず、第２の入力データ４１を１０１１１００１とする
と、ステップ１で圧縮データ４９ａは、１０１１１００
０となり、ステップ２では数２を満足しないので無処理
である。従って、この場合は、圧縮データ４９ａが、圧
縮データ４９としてデータ圧縮回路４８から出力され
る。また、第２の入力データ４１を１０１１１１０１と
すると、ステップ１で圧縮データ４９ａは１０１１１０
００となり、ステップ２では数２を満足するので０００
０１０００が加算されて、その結果データ１１００００
００が、圧縮データ４９としてデータ圧縮回路４８から
出力される。さらに、第２の入力データ４１を１１１１
１００１とすると、ステップ１で圧縮データ４９ａは、
１１１１００００となり、ステップ２では数２を満足す
るので０００１００００を加算するが、その結果データ
はオーバーフローする。従って、この場合は、圧縮デー
タ４９ａ＝１１１１００００が、圧縮データ４９として
データ圧縮回路４８から出力される。

【００７９】次に、図８を参照して、データ圧縮回路４
８の構成を説明する。データ圧縮回路４８は、図８に示
すように、フラグ生成モジュール５４と、マスク生成モ
ジュール５５と、マスク処理モジュール５６と、誤差チ
ェックモジュール５７と、マルチプレクサ５８と、加算
器５９と、マルチプレクサ６０とからなる。

【００８０】データ圧縮回路４８において、フラグ生成
モジュール５４は、第２の入力データ４１におけるビッ
ト状態が“１”であるビット信号を、最上位桁から数え
て繰り返し回数ＮＵＭ個目に位置するビット信号の位置
ｆを検出する。ここで、繰り返し回数ＮＵＭは、入力端
子Ｔ５３を介して入力される。そして、位置ｆに対応す
るビット信号が“１”であって、他のビット信号は
“０”であるフラグ信号を、マスク生成モジュール５５
と誤差チェックモジュール５７とマルチプレクサ５８に
出力する。例えば、第２の入力データ４１が１０１１１
００１であるとすると、繰り返し回数ＮＵＭが４の場合
には、フラグ信号は００００１０００になる。マスク生
成モジュール５５は、フラグ信号に応じてマスク信号を
生成して、当該マスク信号をマスク処理モジュール５６
と誤差チェックモジュール５７とに出力する。ここで、
例えばフラグ信号が００００１０００であれば、マスク
信号は１１１１１０００である。マスク処理モジュール
５６は、マスク信号と第２の入力データ４１のビット毎
の論理積を実行して、その結果データである圧縮データ
４９ａを加算器５９とマルチプレクサ６０とに出力す
る。例えば、第２の入力データ４１が１０１１１００１
であって、マスク信号が１１１１１０００であれば、マ
スク処理モジュール５６は１０１１１０００の圧縮デー
タ４９ａを出力する。すなわち、フラグ生成モジュール
５４とマスク生成モジュール５５とマスク処理モジュー
ル５６とによって、ステップ１の処理が実行される。

【００８１】誤差チェックモジュール５７は、第２の入
力データ４１が、数２を満足するか否かの判定を行い、
数２を満足するときは、マルチプレクサ５８にフラグ信
号を選択して出力する制御信号を入力し、数２を満足し
ないときにはマルチプレクサ５８にすべてのビット信号
が“０”である信号を出力する制御信号を出力する。加
算器５９は、マスク処理モジュール５６から出力される
データ信号とマルチプレクサ５８から出力されるデータ
信号とを加算して、マルチプレクサ６０に出力する。す
なわち、誤差チェックモジュール５７とマルチプレクサ
５８と加算器５９とによってステップ２の処理が実行さ
れる。

【００８２】マルチプレクサ６０は、加算器５９から出
力されるデータ信号にオーバーフローが生じていない場
合は、圧縮データ４９として、加算器５９から出力され
るデータ信号を選択的に出力し、加算器５９から出力さ
れるデータ信号にオーバーフローが生じたときは、圧縮
データ４９として、マスク処理モジュール５６から入力
される圧縮データ４９ａを出力する。以上のように構成
されたデータ圧縮回路４８は、第２の入力データ４１
を、ビット幅が第２の入力データ４１と同じでかつビッ
ト状態が“１”であるビット信号の数が繰り返し回数Ｎ
ＵＭ以下であって、しかも第２の入力データ４１との差
が最小になるように設定された圧縮データ４９に変換し
て出力する。

【００８３】また、図７のシフト量変換回路５１は、実
施の形態１におけるビット位置エンコーダ２と同様に構
成されて、圧縮データ４９のビット状態が“１”の位置
を表す変換データＺｉ（１），…，Ｚｉ（ＮＵＭ）を出
力する。例えば繰り返し回数ＮＵＭが４のときの圧縮デ
ータ４９を１０１１１０００とすると、Ｚｉ（０）＝０
１１（ビット３に対応），Ｚｉ（１）＝１００（ビット
４に対応），Ｚｉ（２）＝１０１（ビット５に対応），
Ｚｉ（３）＝１１１（ビット７に対応）がシフト量とし
て順次バレルシフタ４４に送られる。

【００８４】図７の基本演算器ＰＵにおいて、バレルシ
フタ４４は、データ変換器７２から出力される変換デー
タＺｉ［ｊ］（ｊ＝１，…，ＮＵＭ）に基づいて、入力
端子Ｔ４０を介して入力される第１の入力データ４０を
桁移動してバレルシフトデータ３として加算器４５に出
力する。マルチプレクサ４７は、バレルシフタ４４にＺ
ｉ［１］が入力されたときは、入力端子Ｔ４２を介して
入力される第３の入力データ４２を選択して加算器４５
に出力し、バレルシフタ４４にＺｉ［１］以外のデータ
が入力されたときはレジスタ４６から出力されるデータ
を選択して加算器４５に出力する。加算器４５は、バレ
ルシフトデータ３とマルチプレクサ４７から出力される
データを加算して、加算データをレジスタ４６に出力す
る。レジスタ４６は、入力される加算データを一時的に
保持して、保持した保持データをマルチプレクサ４７に
出力する一方、出力端子Ｔ４３を介して出力する。

【００８５】以上のように構成された実施の形態４の積
和演算装置ＰＭ４において、データ変換器７２に入力さ
れた第２の入力データ４１は、データ圧縮回路４８によ
って圧縮データ４９に変換され、圧縮データ４９は、シ
フト量変換回路５１によって変換データＺｉ［ｊ］（ｊ
＝１，…，ＮＵＭ）に変換されて、基本演算器ＰＵのバ
レルシフタ４４に出力される。一方、基本演算器ＰＵの
バレルシフタ４４に入力される第１の入力データ４０
は、データ変換器７２から入力された変換データＺｉ
［ｊ］（ｊ＝１，…，ＮＵＭ）に基づいて桁移動され
て、第１の入力データ４０が桁移動されたバレルシフト
データ３は、変換データＺｉ［ｊ］（ｊ＝１，…，ＮＵ
Ｍ）が入力される毎に加算器４５で累積加算される。こ
れによって、第１の入力データ４０と第２の入力データ
４１の乗算が実行される。ところで、この乗算の過程で
Ｚｉ［１］を用いて桁移動が行われたときには、第３の
入力データ４２が加算器４５の一方の入力に供給されて
いる。すなわち、乗算のための累積加算の初期値は第３
の入力データ４２である。以上のようにして、実施の形
態４の積和演算装置ＰＭ４によって、（第１の入力デー
タ４０）×（第２の入力データ４１）＋（第３の入力デ
ータ４２）を演算することができる。

【００８６】以上のように構成された実施の形態４の積
和演算装置ＰＭ４では、第２の入力データ４１を、第２
の入力データ４１との差が最小になるように設定された
圧縮データ４９を用いて演算している。これによって、
実施の形態２の積和演算装置ＰＭ２に比較して、演算の
精度を向上させることができる。例えば、実施の形態２
の積和演算装置ＰＭ２において、８ビットの第２の入力
データ４１を用いて、ビットシフト回数を４に設定し
て、演算した場合の平均変換誤差は１．２であるが、実
施の形態４の積和演算装置ＰＭ４において、繰り返し回
数ＮＵＭ＝４として演算した場合の平均変換誤差は０．
９５にできる。

【００８７】以上の実施の形態４の積和演算装置ＰＭ４
は、実施の形態２の積和演算装置ＰＭ２に比較して、演
算の精度を向上させることができるとともに、実施の形
態２の積和演算装置ＰＭ２と同様に、繰り返し回数ＮＵ
Ｍを変えることにより演算精度と演算時間を変えること
ができる。

【００８８】実施の形態５本発明に係る実施の形態５の積和演算装置ＰＭ５は、デ
ータ変換器７２ａと実施の形態４と同様に構成された基
本演算器ＰＵとからなる。データ変換器７２ａは、実施
の形態４のデータ変換器７２において、データ圧縮回路
４８に代えて、図９に示すデータ圧縮回路４８ａを用い
て構成される。データ圧縮回路４８ａは、図８のデータ
圧縮回路４８からマルチプレクサ６０を取り除いて構成
されている。そして、加算器５９のオーバーフロー端子
を圧縮データの最上位桁とすることにより、第２の入力
データ４１より１桁大きい圧縮データ４９が得られるよ
うに構成している。

【００８９】以上のように構成されたデータ圧縮回路４
８ａは、実施の形態４で説明したステップ１とステップ
２の処理を実行する。ここで、実施の形態５では、圧縮
データ４９のビット幅が第２の入力データ４１に比較し
て１桁大きいので、ステップ２においてオーバーフロー
が生じない。この点が、実施の形態４と異なる。従っ
て、データ圧縮回路４８ａは、第２の入力データ４１
を、ビット幅が第２の入力データ４１より１桁大きくか
つビット状態が“１”であるビット信号の数が繰り返し
回数ＮＵＭ以下であって、しかも第２の入力データ４１
との差が最小になるように設定された圧縮データ４９に
変換して出力する。

【００９０】図１０は、データ変換器７２ａにおける繰
り返し回数ＮＵＭと演算におけるデータ精度の関係を示
す。第２の入力データ４１のビット幅は８とし、データ
精度は数式｛８−ｌｏｇ２（１＋平均変換誤差）｝を用
いて求めた。一方、演算におけるシフト＋加算の回数は
繰り返し回数ＮＵＭに比例する。つまり演算時間は繰り
返し回数ＮＵＭに比例する。例えば繰り返し回数ＮＵＭ
＝４に設定すれば演算時間は半分になるが、データ精度
はわずかしか低下しない（８ビット→７．２ビット）。
逆に言えば、精度を１ビット程度低下させるだけで、２
倍の高速化が図れることを意味する。

【００９１】以上のように構成された実施の形態５の積
和演算装置ＰＭ５では、第２の入力データ４１を、ビッ
ト幅が第２の入力データ４１より１桁大きくかつビット
状態が“１”であるビット信号の数が繰り返し回数ＮＵ
Ｍ以下であって、しかも第２の入力データ４１との差が
最小になるように設定された圧縮データ４９を用いて演
算している。これによって、実施の形態２の積和演算装
置ＰＭ２に比較して、演算の精度を向上させることがで
きる。例えば、実施の形態２の積和演算装置ＰＭ２にお
いて、８ビットの第２の入力データ４１を用いて、ビッ
トシフト回数を４に設定して、演算した場合の平均変換
誤差は１．２であるが、実施の形態５の積和演算装置Ｐ
Ｍ５において、繰り返し回数ＮＵＭ＝４として演算した
場合の平均変換誤差は０．７にできる。

【００９２】実施の形態６図１１は、本発明に係る実施の形態６の積和演算器集積
回路装置ＰＳ６の構成を示すブロック図である。当該積
和演算器集積回路装置ＰＳ６は、図１１に示すように、
基本演算器ＰＵ１，ＰＵ２，ＰＵ３と、データ変換器７
２ａとからなる。ここで、基本演算器ＰＵ１，ＰＵ２，
ＰＵ３はそれぞれ、実施の形態５における基本演算器Ｐ
Ｕと同様に構成され、データ変換器７２ａは、実施の形
態５のデータ変換器７２ａと同様に構成される。そし
て、データ変換器７２ａは、入力端子Ｔ７１を介して入
力される第２の入力データＸ_iを圧縮変換するとともに
その圧縮データＹ_iのビット状態が“１”であるビット
信号の位置を示す変換データＺｉ（１），…，Ｚｉ（Ｎ
ＵＭ）をそれぞれ、基本演算器ＰＵ１，ＰＵ２，ＰＵ３
のバレルシフタ４４に出力する。基本演算器ＰＵ１は、
入力端子Ｔ７０−１を介して第１の入力データとして入
力される重みデータＷ１と第２の入力データＸ_iの圧縮
データＹ_iとの積と、入力端子Ｔ７５を介して第３の入
力データとして入力されるオフセットデータＯ₁との和
を演算して、その積和演算の結果データを基本演算器Ｐ
Ｕ２のマルチプレクサ４７に出力する。基本演算器ＰＵ
２は、入力端子Ｔ７０−２を介して第１の入力データと
して入力される重みデータＷ２と第２の入力データＸ_i
の圧縮データＹ_iとの積と基本演算器ＰＵ１から入力さ
れる演算結果データとの和を演算して、その演算結果デ
ータを基本演算器ＰＵ３のマルチプレクサ４７に出力す
る。基本演算器ＰＵ３は、入力端子Ｔ７０−３を介して
第１の入力データとして入力される重みデータＷ３と第
２の入力データＸ_iの圧縮データＹ_iとの積と、基本演算
器ＰＵ２から入力される演算結果データとの和を演算し
て出力する。

【００９３】次に、以上のように構成された積和演算器
集積回路装置ＰＳ６の動作を説明する。周期Ｔ＝ｉのと
きにデータ圧縮回路４８ａに入力された時系列信号であ
る第２の入力データＸ_iは、データ圧縮回路４８ａで第
２の入力データＸ_iより１桁大きく、かつビット状態が
“１”であるビットの数が繰り返し回数ＮＵＭ以下でか
つ第２の入力データＸ_iとの差が最も小さい圧縮データ
Ｙ_iに変換されて、レジスタ５０を介してシフト量変換
回路５１に入力される。圧縮データＹ_iはシフト量変換
回路５１でビット状態が“１”のビットの位置を表す変
換データＺｉ［１］，…，Ｚｉ［ＮＵＭ］に変換され
て、変換データＺｉ［１］，…，Ｚｉ［ＮＵＭ］は、基
本演算器ＰＵ１乃至ＰＵ３のバレルシフタ４４に入力さ
れる。

【００９４】基本演算器ＰＵ１のバレルシフタ４４に入
力される重みデータＷ１は、変換データＺｉ［ｊ］に基
づいてシフトされて加算器４５に入力される。加算器４
５に入力された重みデータＷ１のシフト値は、加算器４
５で、バレルシフタ４４にＺｉ［１］が入力されたとき
は第３の入力であるオフセットデータＯ₁が加算され、
バレルシフタ４４にＺｉ［１］以外のデータが入力され
たときはレジスタ４６のデータが加算されてレジスタ４
６を介して基本演算器ＰＵ２のマルチプレクサ４７に出
力される。

【００９５】基本演算器ＰＵ２のバレルシフタ４４に入
力される重みデータＷ２は、変換データＺｉ［ｊ］に基
づいてシフトされて加算器４５に入力される。加算器４
５に入力された重みデータＷ２のシフト値は、加算器４
５で、バレルシフタ４４にＺｉ［１］が入力されたとき
は基本演算器ＰＵ１から出力されたデータが加算され、
バレルシフタ４４にＺｉ［１］以外のデータが入力され
たときはレジスタ４６のデータが加算されてレジスタ４
６を介して基本演算器ＰＵ３のマルチプレクサ４７に出
力される。

【００９６】基本演算器ＰＵ３のバレルシフタ４４に入
力される重みデータＷ３は、変換データＺｉ［ｊ］に基
づいてシフトされて加算器４５に入力される。加算器４
５に入力された重みデータＷ３のシフト値は、加算器４
５で、バレルシフタ４４にＺｉ［１］が入力されたとき
は基本演算器ＰＵ２から出力されたデータが加算され、
バレルシフタ４４にＺｉ［１］以外のデータが入力され
たときはレジスタ４６のデータが加算されてレジスタ４
４を介して出力される。

【００９７】

【表１】

【００９８】すなわち、表１に示すように、周期Ｔ＝ｉ
の時には、基本演算器ＰＵ１において、バレルシフタ４
４におけるシフトと加算器４５における加算を計ＮＵＭ
回繰り返すことによって、Ｗ１Ｙ_i＋Ｏ₁が演算されて、
演算されたＷ１Ｙ_i＋Ｏ₁は基本演算器ＰＵ２のマルチプ
レクサ４７に出力される。そして、周期Ｔ＝ｉ＋１の時
に、基本演算器ＰＵ２において、バレルシフタ４４にお
けるシフトと加算器４５における加算を計ＮＵＭ回繰り
返すことによって、Ｗ２Ｙ_i+1＋（基本演算器ＰＵ１か
ら出力されたデータ）が計算されるので、Ｗ２Ｙ_i+1＋
Ｗ１Ｙ_i＋Ｏ₁が基本演算器ＰＵ３のマルチプレクサ４７
に出力される。周期Ｔ＝ｉ＋２のときには、基本演算器
ＰＵ３において、バレルシフタ４４におけるシフトと加
算器４５における加算を計ＮＵＭ回繰り返すことによっ
て、Ｗ３Ｙ_i+2＋Ｗ２Ｙ_i+1＋Ｗ１Ｙ_i＋Ｏ₁が出力され
る。

【００９９】以上のようにして、演算結果Ｗ３Ｙ_i+2＋
Ｗ２Ｙ_i+1＋Ｗ１Ｙ_i＋Ｏ₁（ｉ＝１，２，３，…）が出
力端子Ｔ７４から順に出力される。オフセットデータＯ
₁＝０の場合を考えると、圧縮データ（Ｙ₁，Ｙ₂，Ｙ₃，
…）とカーネル（Ｗ１，Ｗ２，Ｗ３）の畳み込み積分
（コンボルーション）を実行することができる。すなわ
ち、第２の入力データ（Ｘ₁，Ｘ₂，Ｘ₃，…）とカーネ
ル（Ｗ１，Ｗ２，Ｗ３）の畳み込み積分（コンボルーシ
ョン）を実行することができる。ただし、第２の入力デ
ータＸ_iを圧縮データＹ_iに変換してから演算するので、
演算結果Ｗ３Ｙ_i+2＋Ｗ２Ｙ_i+1＋Ｗ１Ｙ_i＋Ｏ₁＝演算結
果Ｗ３Ｙ_i+2＋Ｗ２Ｙ_i+1＋Ｗ１Ｙ_i＋Ｏ₁＋誤差Ｓにな
る。ここで、誤差Ｓは変換誤差によって生じる誤差であ
って、繰り返し回数ＮＵＭの値に応じて大きさが変化す
る。

【０１００】ここで、実施の形態６では、カーネルサイ
ズが３の場合について示したが、本発明はこれに限ら
ず、基本演算器をさらに直列に接続して構成しても良
い。これによって、さらに大きなカーネルを用いた畳み
込み積分を実行できるようにできる。

【０１０１】以上の実施の形態６の積和演算器集積回路
装置ＰＳ６では、演算精度を許容できる範囲に保って繰
り返し回数ＮＵＭを最小に設定することにより演算時間
を大幅に短縮できる。例えば、乗算器と加算器によって
構成される積和演算器集積回路装置では，精度８ビット
まで対応できるように回路を作製すると精度が７ビット
でよい場合でも演算時間はわずか数％短縮されるだけで
ある。一方、本実施の形態６の積和演算器集積回路装置
ＰＳ６では精度が７ビットで良い場合には、繰り返し回
数ＮＵＭ＝４に設定することができるので，演算時間は
半分に短縮できる。

【０１０２】実施の形態７図１２は実施の形態７の積和演算器集積回路装置ＰＳ７
の構成を示すブロック図である。図１２の積和演算器集
積回路装置ＰＳ７が、図１１の積和演算器装置ＰＳ６に
比較して異なる点は、基本演算器ＰＵ１と基本演算器Ｐ
Ｕ２との間にレジスタＲ１を設け、基本演算器ＰＵ２と
基本演算器ＰＵ３との間にレジスタＲ２を設けた点であ
る。ここで、レジスタＲ１は、基本演算器ＰＵ１から出
力される積和演算結果データをクロックの１周期の時間
だけ保持して基本演算器ＰＵ２に出力し、レジスタＲ２
は、基本演算器ＰＵ２から出力される積和演算結果デー
タをクロックの１周期の時間だけ保持して基本演算器Ｐ
Ｕ３に出力する。

【０１０３】次に、以上のように構成された積和演算器
集積回路装置ＰＳ７の動作を説明する。ここで、重みデ
ータＷ１，Ｗ２は、入力端子Ｔ７０−１を介して基本演
算器ＰＵ１のバレルシフタ４４に入力され、重みデータ
Ｗ３，Ｗ４は入力端子Ｔ７０−２を介して基本演算器Ｐ
Ｕ２のバレルシフタ４４に入力され、重みデータＷ５，
Ｗ６は、入力端子Ｔ７０−３を介して基本演算器ＰＵ２
に入力される。入力端子Ｔ７１を介してデータ変換器７
２に入力された第２の入力データＸ_iは、データ変換器
７２によって、図１２の積和演算装置ＰＭ６と同様に処
理されて、基本演算器ＰＵ１乃至ＰＵ３に入力される。

【０１０４】周期Ｔ＝２ｉ−１のとき第２の入力データ
Ｘ_iがデータ変換器７２ａに入力され、変換データＺｉ
［１］，…，Ｚｉ［ＮＵＭ］に変換されて、変換データ
Ｚｉ［ｊ］は周期Ｔ＝２ｉ−１と周期Ｔ＝２ｉのときに
それぞれ、変換データＺｉ［１］から順に変換データＺ
ｉ［ＮＵＭ］まで各基本演算器ＰＵのバレルシフタ４４
に入力される。

【０１０５】基本演算器ＰＵ１のバレルシフタ４４では
変換データＺｉ［ｊ］に応じて周期Ｔ＝２ｉ−１のとき
はＷ２，周期Ｔ＝２ｉのときはＷ１がシフトされ加算器
４５に入力される。加算器４５には、周期Ｔ＝２ｉの期
間でバレルシフタ４４にＺｉ［１］が入力されたときに
は第３の入力データであるオフセットデータＯ₁が入力
され、それ以外のときはレジスタ４６のデータが入力さ
れる。このバレルシフタ４４におけるシフトと加算器４
５における加算を各周期で計ＮＵＭ回繰り返すと周期Ｔ
＝２ｉ−１のときはＷ２Ｙ_i＋（周期Ｔ＝２（ｉ−１）
のときの演算結果）が出力され、周期Ｔ＝２ｉのときは
Ｗ１Ｙ_i＋Ｏ₁が出力される。

【０１０６】基本演算器ＰＵ２，ＰＵ３についても基本
演算器ＰＵ１と同様に動作し、レジスタＲ１は周期Ｔ＝
２ｉの最初に左側の基本演算器ＰＵ１の出力すなわちＷ
２Ｙ_i＋（周期Ｔ＝２（ｉ−１）のときの演算結果）を
取り込み、レジスタＲ２は周期Ｔ＝２ｉの最初に左側の
基本演算器ＰＵ１の出力すなわちＷ４Ｙ_i＋（周期Ｔ＝
２（ｉ−１）のときの演算結果）を取り込む。

【０１０７】次にデータの流れを表２を参照して説明す
る。ここで、以下の説明では、オフセットデータＯ₁＝
０とする。

【０１０８】

【表２】

【０１０９】周期Ｔ＝２ｉで基本演算器ＰＵ１ではＷ１
Ｙ_iが計算される。周期Ｔ＝２（ｉ＋１）−１では基本
演算器ＰＵ１でＷ２Ｙ_i+1＋Ｗ１Ｙ_iが計算される。周期
Ｔ＝２（ｉ＋１）でＷ２Ｙ_i+1＋Ｗ１Ｙ_iはレジスタＲ１
に取り込まれる。周期Ｔ＝２（ｉ＋２）−１のときはレ
ジスタＲ１に引き続き保持される。周期Ｔ＝２（ｉ＋
２）では基本演算器ＰＵ２でＷ３Ｙ_i+2＋Ｗ２Ｙ_i+1＋Ｗ
１Ｙ_iが計算される。周期Ｔ＝２（ｉ＋３）−１では基
本演算器ＰＵ２でＷ４Ｙ_i+3＋Ｗ３Ｙ_i+2＋Ｗ２Ｙ_i+1＋
Ｗ１Ｙ_iが計算される。周期Ｔ＝２（ｉ＋３）でＷ４Ｙ
_i+3＋Ｗ３Ｙ_i+2＋Ｗ２Ｙ_i+1＋Ｗ１Ｙ_iはレジスタＲ２に
取り込まれる。周期Ｔ＝２（ｉ＋４）−１のときは引き
続きレジスタＲ２に保持される。周期Ｔ＝２（ｉ＋４）
では基本演算器ＰＵ３でＷ５Ｙ_i+4＋Ｗ４Ｙ_i+3＋Ｗ３Ｙ
_i+2＋Ｗ２Ｙ_i+1＋Ｗ１Ｙ_iが計算される。周期Ｔ＝２
（ｉ＋５）−１では基本演算器ＰＵ３でＷ６Ｙ_i+5＋Ｗ
５Ｙ_i+4＋Ｗ４Ｙ_i+3＋Ｗ３Ｙ_i+2＋Ｗ２Ｙ_i+1＋Ｗ１Ｙ_i
が計算される。

【０１１０】表３と表４にはｉに数値を代入してデータ
の流れを示した。表４から明らかなようにＷ６Ｙ_i+5＋
Ｗ５Ｙ_i+4＋Ｗ４Ｙ_i+3＋Ｗ３Ｙ_i+2＋Ｗ２Ｙ_i+1＋Ｗ１Ｙ
_i（ｉ＝１，２，３，…）が出力端子Ｔ７４から順に出
力される。これは、圧縮データ（Ｙ₁，Ｙ₂，Ｙ₃，…）
とカーネル（Ｗ１，Ｗ２，Ｗ３，Ｗ４，Ｗ５，Ｗ６）の
畳み込み積分（コンボルーション）が実行できることを
意味する。従って、図１２の積和演算器集積回路装置Ｐ
Ｓ７によれば、第２の入力データ（Ｘ₁，Ｘ₂，Ｘ₃，
…）とカーネル（Ｗ１，Ｗ２，Ｗ３，Ｗ４，Ｗ５，Ｗ
６）の畳み込み積分（コンボルーション）が実行でき
る。

【０１１１】

【表３】

【０１１２】

【表４】

【０１１３】以上の実施の形態７の積和演算器集積回路
装置ＰＳ７では、カーネルサイズが６の場合を示した
が、基本演算器ＰＵｋとレジスタＲｋとをさらに直列に
接続して構成してもよい。以上のように構成することに
より、基本演算器ＰＵｋがｎ個のとき、カーネルサイズ
は２ｎにでき、さらにおおきなカーネルを用いた畳み込
み積分を実行することができる。このように、積和演算
器集積回路装置ＰＳ７によれば、ｎ個の基本演算器ＰＵ
ｋを備えた回路規模（コスト）で２ｎという大きなカー
ネルサイズの演算を実行することができる。

【０１１４】実施の形態８図１３は実施の形態８の積和演算器集積回路装置ＰＳ８
の構成を示すブロック図である。当該積和演算器集積回
路装置ＰＳ８は、基本演算器ＰＵ１乃至ＰＵ６と、デー
タ変換器７２ａと、ラインバッファ８２とを備える。こ
こで、当該積和演算器集積回路装置ＰＳ８は、基本演算
器ＰＵ３と基本演算器ＰＵ４との間にラインバッファ８
２を設けたことを特徴とする。

【０１１５】積和演算器集積回路装置ＰＳ８において、
データ変換器７２ａは、基本演算器ＰＵ１乃至ＰＵ６に
変換データＺｉ［ｊ］を出力する。基本演算器ＰＵ１
は、入力される変換データＺｉ［ｊ］に基づいて、入力
端子Ｔ７０−１を介して入力される重みデータＷ１と圧
縮データＹ_iとの積と、入力端子７５を介して入力され
るオフセットデータＯ₁との和を演算して、基本演算器
ＰＵ２に出力する。基本演算器ＰＵ２は、入力される変
換データＺｉ［ｊ］に基づいて、入力端子Ｔ７０−２を
介して入力される重みデータＷ２と圧縮データＹ_iとの
積と、基本演算器ＰＵ１から入力される演算結果データ
との和を演算して、基本演算器ＰＵ３に出力する。基本
演算器ＰＵ３は、入力される変換データＺｉ［ｊ］に基
づいて、入力端子Ｔ７０−３を介して入力される重みデ
ータＷ３と圧縮データＹ_iとの積と、基本演算器ＰＵ２
から入力される演算結果データとの和を演算して、ライ
ンバッファ８２に出力する。ラインバッファ８２は、基
本演算器ＰＵ３から入力されるクロック信号の３周期分
の演算結果データを保持して、保持データを基本演算器
ＰＵ４に入力する。

【０１１６】基本演算器ＰＵ４は、入力される変換デー
タＺｉ［ｊ］に基づいて、入力端子Ｔ７０−４を介して
入力される重みデータＷ４と圧縮データＹ_iとの積と、
ラインバッファ８２から入力されるデータとの和を演算
して、基本演算器ＰＵ５に出力する。基本演算器ＰＵ５
は、入力される変換データＺｉ［ｊ］に基づいて、入力
端子Ｔ７０−５を介して入力される重みデータＷ５と圧
縮データＹ_iとの積と、基本演算器ＰＵ４から入力され
る演算結果データとの和を演算して、基本演算器ＰＵ６
に出力する。基本演算器ＰＵ６は、入力される変換デー
タＺｉ［ｊ］に基づいて、入力端子Ｔ７０−６を介して
入力される重みデータＷ６と圧縮データＹ_iとの積と、
基本演算器ＰＵ５から入力される演算結果データとの和
を演算して出力端子７４から出力する。

【０１１７】図１４（ａ）はシフトレジスタを用いたラ
インバッファ８２の構成を示す。図１４（ａ）のライン
バッファ８２は、縦続接続されたレジスタＢＲ１，ＢＲ
２，…，ＢＲＬを備え、入力されたデータは順次所定の
クロック信号に応答して右のレジスタＢＲｋ（ｋ＝１，
２，…，Ｌ）に転送される。そして、入力データが長さ
Ｌを越えると最初に入力されたデータから順に出力され
る。

【０１１８】図１４（ｂ）は、ラインバッファ８２とは
異なるラインバッファ８２ａの構成を示すブロック図で
ある。ラインバッファ８２ａは、メモリ８３とアドレス
ループカウンタ８４とからなり、アドレスループカウン
タ８４は所定のアドレスａｄｒを示すアドレスデータを
アドレスバスを介してメモリ８３に入力し、メモリ８３
はアドレスループカウンタ８４から入力されるアドレス
データに基づいてアドレスａｄｒに記憶されたデータを
データバスを介して出力端子Ｔ８３ｂから出力するとと
もに入力端子Ｔ８３ａからデータバスを介して入力され
るデータをメモリ８３のアドレスａｄｒに記憶する。

【０１１９】次に、図１４（ｃ）のフローチャートを参
照して、図１４（ｂ）のラインバッファ８２ａの動作を
説明する。ステップＳ１でアドレスａｄｒを０に設定す
る。ステップＳ２で、積和演算器集積回路装置ＰＳ８の
演算処理が終了したか否かを判断して、終了した場合に
はステップＳ３に進みラインバッファ８２ａの処理を終
了させる。終了していない場合には、ステップＳ４に進
む。ステップＳ４では、アドレスａｄｒ＋１をアドレス
ａｄｒに代入してアドレスａｄｒを設定して、ステップ
Ｓ５に進む。ステップＳ５では、アドレスａｄｒ＜Ｌか
否かを判断して、アドレスａｄｒ＜Ｌの場合には、ステ
ップＳ７に進み、アドレスａｄｒ＜Ｌでない場合には、
ステップＳ６に進む。ステップＳ６では、０をアドレス
ａｄｒに代入してアドレスａｄｒを設定してステップＳ
７に進む。ステップＳ７では、メモリ８３のアドレスａ
ｄｒに記憶されたデータを読み出して出力端子Ｔ８３ｂ
から出力してステップＳ８に進む。ステップＳ８では、
入力端子Ｔ８３ａから入力されたデータをメモリ８３の
アドレスａｄｒに書き込んで記憶させて、ステップＳ２
に進む。以下、ステップＳ３乃至ステップＳ８を繰り返
すことにより、図１４（ａ）のラインバッファ８２と同
じ動作をさせることができる。従って、積和演算器集積
回路装置ＰＳ８では、図１４（ａ）のラインバッファ８
２に代えて、図１４（ｂ）のラインバッファ８２ａを用
いて構成してもよい。ここで、積和演算器集積回路装置
ＰＳ８では、ラインバッファ８２又はラインバッファ８
２ａの長さＬは３に設定される。これによって、ライン
バッファ８２は、クロック信号の３周期分のデータを保
持する。

【０１２０】次に、以上のように構成された図１３の積
和演算器集積回路装置ＰＳ８の動作を説明する。周期Ｔ
＝ｉのとき時系列信号の第２の入力データＸ_iが入力端
子７１を介してデータ変換器７２に入力され、データ変
換器７２で第２の入力データＸ_iより１桁大きく、かつ
ビット状態が“１”であるビット信号の数が繰り返し回
数ＮＵＭ以下でかつ第２の入力データＸ_iとの差が最も
小さい圧縮データＹ_iに圧縮され、さらに圧縮データＹ_i
はビット状態が“１”のビット信号の位置を表す変換デ
ータＺｉ［１］，…Ｚｉ［ＮＵＭ］に変換される。変換
データＺｉ［ｊ］（ｊ＝１，２，…，ＮＵＭ）は各基本
演算器ＰＵｋのバレルシフタ４４に順に入力される。各
基本演算器ＰＵｋでは周期Ｔ＝ｉのときＷｋＹ_i＋（第
３の入力）が出力として得られる。ここで、第３の入力
は、基本演算器ＰＵ１の場合には、入力端子Ｔ７５から
入力されるオフセットデータＯ₁であり、基本演算器Ｐ
Ｕｋ（ｋ＝２，３，４，５，６）の場合には、基本演算
器ＰＵ（ｋ−１）から出力される演算データである。た
だし、ＷｋＹ_i＝ＷｋＸ_i＋（変換誤差）であり、その変
換誤差は、繰り返し回数ＮＵＭの値に応じて変わる。

【０１２１】次に、図１５を参照して、この積和演算器
集積回路装置ＰＳ８におけるデータの流れを説明する。
ここで、図１５においては、オフセットデータＯ₁＝０
とした。図１５（ａ）に示すように周期Ｔ＝１のとき基
本演算器ＰＵ１でＷ１Ｙ₁が計算される。また、図１５
（ｂ）に示すように周期Ｔ＝２では、基本演算器ＰＵ２
でＷ２Ｙ₂＋（基本演算器ＰＵ１から出力されるデー
タ）、すなわちＷ２Ｙ₂＋Ｗ１Ｙ₁が計算される。さら
に、図１５（ｃ）に示すように周期Ｔ＝３では、基本演
算器ＰＵ３でＷ３Ｙ₃＋（基本演算器ＰＵ２から出力さ
れるデータ）、すなわちＷ３Ｙ₃＋Ｗ２Ｙ₂＋Ｗ１Ｙ₁が
計算される。またさらに、図１５（ｄ）に示すように周
期Ｔ＝４では、ラインバッファ８２のレジスタＢＲ１で
Ｗ３Ｙ₃＋Ｗ２Ｙ₂＋Ｗ１Ｙ₁が保持される。図１５
（ｅ）に示すように周期Ｔ＝５では、レジスタＢＲ１か
ら転送されたＷ３Ｙ₃＋Ｗ２Ｙ₂＋Ｗ１Ｙ₁がレジスタＢ
Ｒ２で保持される。図１５（ｆ）に示すように周期Ｔ＝
６では、レジスタＢＲ２から転送されたＷ３Ｙ₃＋Ｗ２
Ｙ₂＋Ｗ１Ｙ₁がレジスタＢＲ３で保持される。図１５
（ｇ）に示すように周期Ｔ＝７では、基本演算器ＰＵ４
でＷ４Ｙ₇＋（レジスタＢＲ３から出力されたデー
タ）、すなわちＷ４Ｙ₇＋Ｗ３Ｙ₃＋Ｗ２Ｙ₂＋Ｗ１Ｙ₁が
計算される。周期Ｔ＝８では、基本演算器ＰＵ５でＷ５
Ｙ₈＋（基本演算器ＰＵ４から出力されるデータ）、す
なわちＷ５Ｙ₈＋Ｗ４Ｙ₇＋Ｗ３Ｙ₃＋Ｗ２Ｙ₂＋Ｗ１Ｙ₁
が計算される。周期Ｔ＝９では、基本演算器ＰＵ６でＷ
６Ｙ₉＋（基本演算器ＰＵ５から出力されるデータ）、
すなわちＷ６Ｙ₉＋Ｗ５Ｙ₈＋Ｗ４Ｙ₇＋Ｗ３Ｙ₃＋Ｗ２Ｙ
₂＋Ｗ１Ｙ₁が計算され、演算結果として出力される。

【０１２２】このように出力端子Ｔ７４からは周期毎に
Ｗ６Ｙ_i+8＋Ｗ５Ｙ_i+7＋Ｗ４Ｙ_i+6＋Ｗ３Ｙ_i+2＋Ｗ２Ｙ
_i+1＋Ｗ１Ｙ_i（ｉ＝１，２，３，…）が順次出力され
る。以上のように動作する積和演算器集積回路装置ＰＳ
８は、２種類の演算を実行することができる。第１は第
２の入力データ（Ｘ₁，Ｘ₂，Ｘ₃，…）とカーネル（Ｗ
１，Ｗ２，Ｗ３，０，０，０，Ｗ４，Ｗ５，Ｗ６）の畳
み込み積分（コンボルーション）である。第２は図１６
（ａ）に示す幅６の２次元データ｛Ｘ_i｝と図１６
（ｂ）に示す３×２のカーネル（Ｗ１，Ｗ２，Ｗ３；Ｗ
４，Ｗ５，Ｗ６）の畳み込み積分（コンボルーション）
である。一般に画像のサイズをｍ×ｎ、カーネルサイズ
をａ×ｂとするとラインバッファの長さＬ＝ｍ−ａに設
定すればよい。

【０１２３】この積和演算器集積回路装置ＰＳ８の演算
では第２の入力データＸ_iではなく圧縮データＹ_iが用い
られている。そのため繰り返し回数ＮＵＭ＜（Ｘ_iのビ
ット幅）の場合、変換誤差が生じる。この変換誤差の画
像コンボルーションへの影響をシミュレーションにより
評価した。入力画像は８ビット精度、２５６×２４０画
素、カーネルは図１７に示す１６×１６のラプラシアン
フィルタを用いた。演算は繰り返し回数ＮＵＭ＝８すな
わち圧縮データＹ_i＝第２の入力データＸ_iの場合と繰り
返し回数ＮＵＭ＝４の場合について実行した。図１８
（ａ）は繰り返し回数ＮＵＭ＝８の場合の演算結果の各
画素の値の度数分布を表す。大きさは８ビット（２５
５）以内になるように規格化してある。図１８（ｂ）は
ＮＵＭ＝８のときとＮＵＭ＝４のときの各画素の値の差
の分布を表す。ＮＵＭ＝４としたことによる変換誤差の
画像コンボルーションへの影響は非常に小さいことが確
認できる。

【０１２４】以上の実施の形態８の積和演算器集積回路
装置ＰＳ８によれば、例えば、ラスタスキャンの画像に
対する畳み込み積分を外部にバッファメモリを設けなく
ても実行できる。これによって、積和演算器集積回路装
置ＰＳ８を用いた画像処理装置は、積和演算器集積回路
装置ＰＳ８を用いていない画像処理装置に比較して、低
価格にでき、かつボードへの実装を容易にできる。

【０１２５】実施の形態９図１９は実施の形態９の積和演算器集積回路装置ＰＳ９
の構成を示すブロック図である。当該積和演算器集積回
路装置ＰＳ９が図１３の積和演算器集積回路装置ＰＳ８
と比較して異なる所は、図１３の積和演算器集積回路装
置ＰＳ８におけるラインバッファ８２に代えてラインバ
ッファ８２ｂを用いて構成している点である。ここで、
ラインバッファ８２ｂは、図２０（ａ）に示すように、
ｎ個のレジスタＢＲ１乃至ＢＲｎが縦続接続されたシフ
トレジスタ８２ｂｓとマルチプレクサ８６とからなるい
わゆる可変長ラインバッファである。すなわち、ライン
バッファ８２ｂにおいて、シフトレジスタ８２ｂｓは所
定のクロック信号に同期して入力されるデータを順次後
段のレジスタＢＲｋに入力するとともに各レジスタＢＲ
ｋに記憶されたデータを後段の各レジスタＢＲ（ｋ＋
１）にシフトして記憶する。また、各レジスタＢＲｋは
記憶していたデータをマルチプレクサ８６に出力する。
マルチプレクサ８６は、各レジスタＢＲｋから入力され
たデータのうち、入力端子Ｔ８５を介して入力される長
さＬに基づいてレジスタＢＲＬから入力された１つのデ
ータを選択的に出力する。

【０１２６】当該ラインバッファ８２ｂにおいて、入力
されたデータは順次右のレジスタＢＲｋに転送され、マ
ルチプレクサ８６によって左からＬ本目のレジスタＢＲ
Ｌの信号が選択されて出力され、これによって、長さＬ
のラインバッファ８２ｂが実現できる。また、図２０
（ｂ）に示すラインバッファ８２ｃは、メモリ８３とア
ドレスループカウンタ８４とを備える。ラインバッファ
８２ｃが、図１４（ｂ）のラインバッファ８２ａと比べ
て異なる点は、アドレスループカウンタ８４に長さＬを
入力するための入力端子Ｔ８５を設けた点である。これ
によって、アクセスするメモリアドレスをループさせる
長さを外部から与えられる値に設定することができる。
すなわち、入力端子Ｔ８５に所定の長さＬを入力すれ
ば、長さＬのラインバッファ８２ｃが実現できる。従っ
て、実施の形態９の積和演算器集積回路装置ＰＳ９で
は、ラインバッファ８２ｂに代えて図２０（ｂ）のライ
ンバッファ８２ｃを用いて構成してもよい。

【０１２７】以上のように構成された積和演算器集積回
路装置ＰＳ９において、重みデータＷｉ（ｉ＝１，２，
…，６）は、入力端子Ｔ７０−ｉを介して基本演算器Ｐ
Ｕｉに入力され、入力端子Ｔ７１を介して第２の入力デ
ータＸ_iが入力される。また、ラインバッファ８２ｂに
は、ラインバッファの長さを設定するパラメータＬを示
す信号が入力端子Ｔ８５を介して入力される。ここで、
長さＬ＝３とすると、積和演算器集積回路装置ＰＳ９
は、第８の実施の形態と同様の動作をする。すなわち、
基本演算器ＰＵ６から周期毎にＷ６Ｙ_i+8＋Ｗ５Ｙ_i+7＋
Ｗ４Ｙ_i+6＋Ｗ３Ｙ_i+2＋Ｗ２Ｙ_i+1＋Ｗ１Ｙ_iが順次出力
端子Ｔ７４を介して出力される。幅６の２次元データで
ある第２の入力データ｛Ｘ_i｝と３×２のカーネル（Ｗ
１，Ｗ２，Ｗ３；Ｗ４，Ｗ５，Ｗ６）の畳み込み積分
（コンボルーション）が実行される。長さＬ＝０の場合
は、出力端子Ｔ７４から周期毎にＷ６Ｙ_i+5＋Ｗ５Ｙ_i+4
＋Ｗ４Ｙ_i+3＋Ｗ３Ｙ_i+2＋Ｗ２Ｙ_i+1＋Ｗ１Ｙ_iが順次出
力される。幅６の２次元データである第２の入力データ
｛Ｘ_i｝と６×１のカーネル（Ｗ１，Ｗ２，Ｗ３，Ｗ
４，Ｗ５，Ｗ６）の畳み込み積分（コンボルーション）
が実行される。

【０１２８】以上のように、実施の形態９の積和演算器
集積回路装置ＰＳ９によれば、長さＬの大きさを“０”
に設定することにより図２１（ａ）に示すカーネルの形
状を選択することができ、また、長さＬの大きさを“ｍ
−ａ”（この場合は６−３＝３）に設定することにより
図２１（ｂ）に示すカーネルの形状を選択することがで
きる。また、画像の大きさ（ｍ×ｎ）が変わっても、長
さＬ（＝ｍ−ａ）を変えることにより同じ積和演算器集
積回路装置ＰＳ９で対応できる。すなわち、１つの回路
（チップ）でいろいろな画像サイズ，カーネル形状に対
応できる。

【０１２９】実施の形態１０図２２は、本発明に係る実施の形態１０の積和演算器集
積回路装置ＰＳ１０の構成を示すブロック図である。当
該積和演算器集積回路装置ＰＳ１０が図１９の積和演算
器集積回路装置ＰＳ９と比較して異なる所は、基本演算
器ＰＵ６と、出力端子７４との間にラインバッファ８７
を設けて構成した点である。

【０１３０】以上のように構成された積和演算器集積回
路装置ＰＳ１０において、重みデータＷｉ（ｉ＝１，
２，…，６）は、入力端子Ｔ７０−ｉを介して基本演算
器ＰＵｉに入力され、入力端子Ｔ７１を介して第２の入
力データＸ_iが入力される。そして、基本演算器ＰＵ６
から出力された信号はラインバッファ８７の長さＬの分
だけ遅れて出力端子Ｔ７４を介して出力される。すなわ
ち、周期Ｔ＝ｉ＋５＋ＬのときにＷ６Ｙ_i+5＋Ｗ５Ｙ_i+4
＋Ｗ４Ｙ_i+3＋Ｗ３Ｙ_i+2＋Ｗ２Ｙ_i+1＋Ｗ１Ｙ_iが出力さ
れる。このようにラインバッファ８７により、演算結果
の出力のタイミング（遅延）の大きさが調整できる。こ
れによって、次の実施の形態１１で示すように、積和演
算器集積回路装置ＰＳ１０を複数個接続することができ
る。すなわち、出力タイミングが調整できるので他の素
子との接続を容易にできる。

【０１３１】実施の形態１１図２３は本発明に係る実施の形態１１の積和演算器集積
回路装置ＰＳ１１の構成を示すブロック図である。当該
積和演算器集積回路装置ＰＳ１１は、２つの積和演算器
集積回路装置ＰＳ９，ＰＳ１０を縦続接続して構成され
る。すなわち、積和演算器集積回路装置ＰＳ１０の出力
端子Ｔ７４と積和演算器集積回路装置ＰＳ９の入力端子
Ｔ７５とを接続して構成される。ここで、積和演算器集
積回路装置ＰＳ９は、実施の形態９と同様に構成され、
積和演算器集積回路装置ＰＳ１０は、実施の形態１０と
同様に構成される。また、積和演算器集積回路装置ＰＳ
９と積和演算器集積回路装置ＰＳ１０とには、同一の第
２の入力データＸ_iが入力される。

【０１３２】以上のように構成された積和演算器集積回
路装置ＰＳ１１の動作を説明する。ここで、第２の入力
データＸ_iはｍ×ｎの画像データとする。積和演算器集
積回路装置ＰＳ９，ＰＳ１０のラインバッファ８２ｂの
長さＬは０、積和演算器集積回路装置ＰＳ１０のライン
バッファ８７はの長さＬはｍ−６に設定される。積和演
算器集積回路ＰＳ１０の各基本演算器ＰＵ１乃至ＰＵ６
に入力される重みデータをそれぞれ、Ｗ１，…，Ｗ６と
すると、周期Ｔ＝ｍのときのＰＭ１０の出力端子Ｔ７４
からはＷ６Ｙ₆＋Ｗ５Ｙ₅＋…＋Ｗ１Ｙ₁が出力される。
この信号は積和演算器集積回路ＰＳ９の入力端子７５に
入力される。積和演算器集積回路装置ＰＳ９の基本演算
器ＰＵ１乃至ＰＵ６に入力される重みデータをそれぞ
れ、Ｗ７，…，Ｗ１２とすると、周期Ｔ＝ｍ＋６のとき
のＰＭ９からの出力はＷ１２Ｙ_m+6＋…＋Ｗ７Ｙ_m+1＋Ｗ
６Ｙ₆＋…＋Ｗ１Ｙ₁となる。これは第２の入力データ
｛Ｘ_ｉ｝と図２４に示す６×２のカーネル（Ｗ１，…，
Ｗ６；Ｗ７，…，Ｗ１２）の畳み込み積分（コンボルー
ション）結果である。

【０１３３】図２５の積和演算器集積回路装置ＰＳ１１
ａは、ｂ個の積和演算器集積回路装置ＰＳ１０−１乃至
ＰＳ１０−ｂを縦続接続したものである。ここで、積和
演算器集積回路装置ＰＳ１０−１乃至ＰＳ１０−ｂはそ
れぞれ、実施の形態１０の積和演算器集積回路装置ＰＳ
１０と同様に構成される。以上のように構成された積和
演算器集積回路装置ＰＳ１１ａは、６×ｂのカーネルを
用いた、畳み込み積分（コンボルーション）を実行する
ことができる。すなわち、ｂ個の積和演算器集積回路装
置ＰＳ１０−１乃至ＰＳ１０−ｂを接続することにより
演算できるカーネルサイズを１方向にｂ倍に拡大でき
る。また、積和演算器集積回路装置ＰＳ１０の間を直接
接続することができるので、他の素子は不要である。こ
れによって、マルチチップモジュール技術を用いた実装
に適する。

【０１３４】実施の形態１２図２６は、本発明に係る実施の形態１２の積和演算器集
積回路装置ＰＳ１２の構成を示すブロック図である。当
該積和演算器集積回路装置ＰＳ１２は、図２２の実施の
形態１０と同様に構成された２つの積和演算器集積回路
装置ＰＳ１０ａ，ＰＳ１０ｂと、積和演算器集積回路装
置ＰＳ１０ａ，ＰＳ１０ｂから出力される演算結果デー
タを加算する加算器８９とを備えて構成される。ここ
で、積和演算器集積回路装置ＰＳ１０ａと積和演算器集
積回路装置ＰＳ１０ｂとは、実施の形態１０の積和演算
器集積回路ＰＳ１０と同様に構成される。また、積和演
算器集積回路装置ＰＳ１０ａと積和演算器集積回路装置
ＰＳ１０ｂとには、同一の第２の入力データＸ_ｉが入力
される。

【０１３５】次に以上のように構成された積和演算器集
積回路装置ＰＳ１２の動作を説明する。積和演算器集積
回路装置ＰＳ１０ａ，ＰＳ１０ｂのラインバッファ８２
ｂの長さは０、ＰＭ１０ａのラインバッファ８７の長さ
Ｌは６、積和演算器集積回路装置ＰＳ１０ｂのラインバ
ッファ８７の長さＬは０とする。積和演算器集積回路Ｐ
Ｓ１０ａの基本演算器ＰＵ１乃至ＰＵ６に入力される重
みデータをそれぞれ、Ｗ１，…，Ｗ６とすると、周期Ｔ
＝１２のときの積和演算器集積回路装置ＰＳ１０ａの出
力端子７４ａからはＷ６Ｙ₆＋Ｗ５Ｙ₅＋…＋Ｗ１Ｙ₁が
出力される。一方、積和演算器集積回路装置ＰＳ１０ｂ
の基本演算器ＰＵ１乃至ＰＵ６に入力される重みデータ
をそれぞれ、Ｗ７，…，Ｗ１２とすると、周期Ｔ＝１２
のときの積和演算器集積回路装置ＰＳ１０ｂの出力端子
７４ｂからＷ１２Ｙ₁₂＋Ｗ１１Ｙ₁₁＋…＋Ｗ７Ｙ₇が出
力される。これを加算器８９で和を取ると、Ｗ１２Ｙ₁₂
＋…＋Ｗ１Ｙ₁が得られる。このようにして第２の入力
データ｛Ｘ_i｝と図２７に示す１２×１のカーネルとの
畳み込み積分（コンボルーション）が実行できる。

【０１３６】実施の形態１３図２８は、本発明に係る実施の形態１３の積和演算器集
積回路装置ＰＳ１３の構成を示すブロック図である。当
該積和演算器集積回路装置ＰＳ１３は、図２６の積和演
算器集積回路装置ＰＳ１２と、積和演算器集積回路装置
ＰＳ１２の加算器８９から出力されるデータをクロック
信号の６周期の時間だけ保持した後加算器８９ａに出力
する接続ラインバッファ９０と、積和演算器集積回路装
置ＰＳ１０ｃと、積和演算器集積回路装置ＰＳ１０ｃか
ら出力される信号と接続ラインバッファ９０から出力さ
れるデータとを加算する加算器８９ａとからなる。ここ
で、積和演算器集積回路装置ＰＳ１０ｃは、実施の形態
１０の積和演算器集積回路装置ＰＳ１０と同様に構成さ
れる。

【０１３７】次に、以上のように構成された積和演算器
集積回路装置ＰＳ１３の動作を説明する。積和演算器集
積回路装置ＰＳ１０ａ，ＰＳ１０ｂ，ＰＳ１０ｃのライ
ンバッファ８２ｂの長さＬはそれぞれ０に設定され、積
和演算器集積回路ＰＭ１０ａのラインバッファ８７の長
さＬは６、積和演算器集積回路ＰＭ１０ｂ，ＰＭ１０ｃ
のラインバッファ８７の長さＬは０に設定する。接続ラ
インバッファ９０の長さＬは６に設定する。積和演算器
集積回路装置ＰＳ１０ａの基本演算器ＰＵ１乃至ＰＵ６
に入力される重みデータをＷ１，…，Ｗ６とすると、周
期Ｔ＝１２のときの積和演算器集積回路装置ＰＳ１０ａ
からＷ６Ｙ₆＋Ｗ５Ｙ₅＋…＋Ｗ１Ｙ₁が出力される。一
方、積和演算器集積回路装置ＰＳ１０ｂの基本演算器Ｐ
Ｕ１乃至ＰＵ６に入力される重みデータをＷ７，…，Ｗ
１２とすると、周期Ｔ＝１２のとき、積和演算器集積回
路装置ＰＳ１０ｂからＷ１２Ｙ₁₂＋Ｗ１１Ｙ₁₁＋…＋Ｗ
７Ｙ₇が出力される。これを加算器８９で和を取ると、
Ｔ＝１２のときにＷ１２Ｙ₁₂＋…＋Ｗ１Ｙ₁が得られ
る。この値は接続ラインバッファ９０でクロック信号の
６周期の時間だけ保持されＴ＝１８のとき加算器８９ａ
に入力される。積和演算器集積回路装置ＰＳ１０ｃの基
本演算器ＰＵ１乃至ＰＵ６に入力される重みデータをＷ
１３，…，Ｗ１８とすると、Ｔ＝１８のとき、積和演算
器集積回路装置ＰＳ１０ｃからＷ１８Ｙ₁₈＋Ｗ１７Ｙ₁₇
＋…＋Ｗ１３Ｙ₁₃が出力される。その結果、加算器８９
ａのＴ＝１８のときの出力はＷ１８Ｙ₁₈＋…＋Ｗ１Ｙ₁
となる。このようにして第２の入力｛Ｘ_i｝と図２９に
示す１８×１のカーネルの畳み込み積分（コンボルーシ
ョン）が実行できる。

【０１３８】同様にして図３０に示すようにｃ個の積和
演算器集積回路装置ＰＳ１０−１乃至ＰＳ１０−ｃと、
（ｃ−２）個の接続ラインバッファ９０−１乃至９０−
（ｃ−２）と，（ｃ−１）個の加算器８９−１乃至８９
−（ｃ−２）を以下のように接続することにより、積和
演算器集積回路装置ＰＳ１３ａを構成することができ
る。

【０１３９】積和演算器集積回路装置ＰＳ１３ａにおい
て、積和演算器集積回路装置ＰＳ１０−１と積和演算器
集積回路装置ＰＳ１０−２はそれぞれ演算結果を加算器
８９−１に出力する。加算器８９−１は積和演算器集積
回路装置ＰＳ１０−１から出力された演算結果と積和演
算器集積回路装置ＰＳ１０−２から出力された演算結果
を加算して接続ラインバッファ９０−１に出力する。接
続ラインバッファ９０−１は加算器８９−１から出力さ
れたデータをクロック信号の６周期の時間保持して加算
器８９−２に出力する。積和演算器集積回路装置ＰＳ９
０−３は、演算結果を加算器８９−２に出力する。加算
器８９−２は接続ラインバッファ９０−１から出力され
たデータと積和演算器集積回路装置ＰＳ９０−３から出
力された演算結果とを加算して接続ラインバッファ９０
−２（図示せず）に出力する。

【０１４０】以下同様にして、接続演算器集積回路装置
ＰＳ−ｋ（ｋ＝４，５，…，ｃ）は、演算結果を加算器
８９−（ｋ−１）に出力する。また、加算器８９−ｋ
（ｋ＝３，４，…，ｃ−２）は、接続ラインバッファ９
０−（ｋ−１）から出力されるデータと積和演算器集積
回路装置ＰＳ１０−（ｋ＋１）から出力される演算結果
を加算して、接続ラインバッファ９０−ｋに出力する。
接続ラインバッファ９０−ｋ（ｋ＝２，３，…，ｃ−
２）は、加算器８９−ｋから出力されるデータをクロッ
ク信号の６周期の時間保持して加算器８９−（ｋ＋１）
に出力する。加算器８９−（ｃ−１）は、接続ラインバ
ッファ９０−（ｃ−２）から出力されるデータと積和演
算器集積回路装置ＰＳ１０−ｃから出力される演算結果
を加算して出力する。以上のように構成された積和演算
器集積回路装置ＰＳ１３ａは、（６×ｃ）×１のカーネ
ルを用いた畳み込み積分を実行することができる。

【０１４１】実施の形態１４図３１は本発明に係る実施の形態１４の積和演算器集積
回路装置ＰＳ１４の構成を示すブロック図である。積和
演算器集積回路装置ＰＳ１４はｃ個の積和演算器集積回
路装置ＰＳ１１ａ−１乃至ＰＳ１１ａ−ｃを備えたこと
を特徴とし、ｃ個の積和演算器集積回路装置ＰＳ１１ａ
−１乃至ＰＳ１１ａ−ｃと、（ｃ−１）個の加算器８９
−１乃至８９−（ｃ−１）と、（ｃ−２）個の接続ライ
ンバッファ９０−１乃至９０−（ｃ−２）とからなる。
ここで、積和演算器集積回路装置ＰＳ１１ａ−１乃至Ｐ
Ｓ１１ａ−ｃはそれぞれ、図２５の積和演算器集積回路
装置ＰＳ１１ａと同様に構成される。

【０１４２】積和演算器集積回路装置ＰＳ１４におい
て、積和演算器集積回路装置ＰＳ１１ａ−１と積和演算
器集積回路装置ＰＳ１１ａ−２とはそれぞれ、演算結果
を加算器８９−１に出力する。また、積和演算器集積回
路装置ＰＳ１１ａ−ｋ（ｋ＝３，４，…，ｃ）は、演算
結果を加算器８９−（ｋ−１）に出力する。加算器８９
−１は、積和演算器集積回路装置ＰＳ１１ａ−１ら出力
される演算結果データと、積和演算器集積回路装置ＰＳ
１１ａ−２から出力される演算結果データとを加算して
接続ラインバッファ９０−１に出力する。接続ラインバ
ッファ９０−１は、加算器８９−１から出力される加算
データをクロック信号の所定の周期の時間だけ保持した
後、加算器８９−２に出力する。加算器８９−２は、積
和演算器集積回路装置ＰＳ１１ａ−３から出力される演
算結果データと、接続ラインバッファ９０−１から出力
される保持データとを加算して加算結果データを出力す
る。

【０１４３】接続ラインバッファ９０−ｋ（ｋ＝２，
３，…，ｃ−２）は、加算器８９−ｋから出力される加
算データをクロック信号の所定の周期の時間だけ保持し
た後、加算器８９−（ｋ＋１）に出力する。加算器８９
−ｋ（ｋ＝３，４，…，ｃ−２）は、積和演算器集積回
路装置ＰＳ１１ａ−（ｋ＋１）から出力される演算結果
データと、接続ラインバッファ９０−（ｋ−１）から出
力される保持データとを加算して加算結果データを出力
する。加算器８９−（ｃ−１）は、積和演算器集積回路
装置ＰＳ１１ａ−ｃから出力される演算結果データと、
接続ラインバッファ９０−（ｃ−２）から出力される保
持データとを加算して加算結果データを、積和演算器集
積回路装置ＰＳ１４の出力として出力する。ここで、第
２の入力データ｛Ｘ_i｝はすべての積和演算器集積回路
装置ＰＳ１１ａ−１乃至ＰＳ１１ａ−ｃに入力される。

【０１４４】以上のように構成された積和演算器集積回
路装置ＰＳ１４は、実施の形態１２と１３の動作と同様
に、第２の入力データ｛Ｘ_i｝と（６×ｃ）×（ｂ）の
カーネルとの畳み込み積分（コンボルーション）を実行
することができる。

【０１４５】実施の形態１５図３２は、本発明に係る実施の形態１５の積和演算装置
ＰＭ１５の構成を示すブロック図である。当該積和演算
装置ＰＭ１５は、図７の実施の形態３の積和演算装置Ｐ
Ｍ３における基本演算器ＰＵと、データ変換器７２ｃを
用いて構成され、以下の特徴を有する。すなわち、デー
タ変換器７２ｃにおいて、データ圧縮回路４８ｂは、第
２の入力データＸ_iを圧縮データＹ_iに変換して、圧縮デ
ータＹ_iをレジスタ５０に出力する一方、圧縮データＹ_i
の中でビット状態が“１”のビット信号の数Ｆ（最大Ｎ
ＵＭ）をシフト量変換回路５１ａに出力する。そして、
シフト量変換回路５１ａは、圧縮データＹ_iを圧縮デー
タＹ_iの中でビット状態が“１”であるビット信号の位
置を示すＦ個の変換データＺｉ（１），…，Ｚｉ（Ｆ）
に変換して出力するが、データ圧縮回路４８ｂから数Ｆ
が入力されているので、最後の変換データＺｉ（Ｆ）の
変換出力が終了した後、待ち時間なく次の第２の入力デ
ータＸ_i+1の処理を開始する。

【０１４６】データ変換器７２ｃは、図３２に示すよう
に、データ圧縮回路４８ｂとレジスタ５０とシフト量変
換回路５１ａとからなる。データ圧縮回路４８ｂは、第
２の入力データＸ_iをビット状態が“１”のビット信号
の数がＮＵＭ以下であって、桁数が第２の入力データＸ
_iより１つ多く、かつ第２の入力データＸ_iとの差がもっ
と小さい圧縮データＹ_iに変換して、圧縮データＹ_iをレ
ジスタ５０に出力する一方、圧縮データＹ_iの中でビッ
ト状態が“１”のビット信号の数Ｆ（最大ＮＵＭ）をシ
フト量変換回路５１ａに出力する。ここで、繰り返し回
数ＮＵＭは入力端子Ｔ７６を介して入力される。シフト
量変換回路５１ａは、レジスタ５０に記憶された圧縮デ
ータＹ_iに応答して、当該圧縮データＹ_iをビット状態が
“１”であるビット信号の位置を示す変換データＺｉ
（１），…Ｚｉ（Ｆ）に変換してバレルシフタ４４に出
力する。ここで、シフト量変換回路５１ａは、データ圧
縮回路４８ｂから数Ｆが入力されているので、圧縮デー
タＹ_iの中でビット状態が“１”であるビット信号の位
置を示す最後の変換データＺｉ（Ｆ）の変換出力が終了
した後、待ち時間なく次の第２の入力データＸ_i+1の処
理を開始する。

【０１４７】次に動作を説明する。入力端子Ｔ６２を介
して入力される第２の入力データＸ_iはデータ圧縮回路
４８ｂでビット状態が“１”のビット信号の数がＮＵＭ
であって、桁数が第２の入力データＸ_iより１つ多く、
かつ第２の入力データＸ_iとの差がもっと小さい圧縮デ
ータＹ_iに変換される。このとき圧縮データＹ_iの中でビ
ット状態が“１”であるビット信号の数Ｆ（最大ＮＵ
Ｍ）も出力される。シフト量変換回路５１ａで、圧縮デ
ータＹ_iは圧縮データＹ_iのビット状態が“１”であるビ
ット信号の位置を表す変換データＺｉ（１），…Ｚｉ
（Ｆ）に変換されて、基本演算器ＰＵのバレルシフタ４
４に出力される。基本演算器ＰＵにおいては、実施の形
態３と同様に、この第２の入力データＸ_iから導かれた
変換データＺｉ（１），…Ｚｉ（Ｆ）と第１の入力デー
タ４０とから第１の入力データ４０と第２の入力データ
Ｘ_iとの積を演算し、その演算結果データと第３の入力
データ４２との和を演算して、すなわち、（第１の入力
データ４０）×（第２の入力データＸ_i）＋（第３の入
力データ４２）を演算して出力端子Ｔ４６を介して出力
する。

【０１４８】実施の形態４乃至実施の形態１４では、繰
り返し回数ＮＵＭ回シフトと加算を行うのに必要な時間
を１回の演算時間としているので、変換後の圧縮データ
Ｙ_iにおけるビット状態が“１”であるビット信号の数
が繰り返し回数ＮＵＭよりも小さい場合は待ち時間が生
じることになる。これに対し、本実施の形態１５の積和
演算装置ＰＭ１５では変換後のデータにおける“１”の
数Ｆを検出することにより待ち時間をのぞくことができ
る。従って、実施の形態１５の積和演算装置ＰＭ１５に
よれば、第２の入力データＸ_iに応じてシフト回数と加
算の回数とを必要な最小の回数に設定できるので、演算
時間を短縮できる。

【０１４９】実施の形態１６図３３は本発明に係る実施の形態１６の積和演算装置Ｐ
Ｍ１６の構成を示すブロック図である。積和演算装置Ｐ
Ｍ１６は、データ変換器７２ｄとバレルシフタ６５とイ
クスクルーシブオアゲートアレイ（以下、ＥＸオアゲー
トアレイと称する。）９３と加算器６６とレジスタ６７
とマルチプレクサ６８とからなり以下の特徴を有する。
データ変換器７２ｄは、第２の入力データＸ_iをΣＡｊ
２^j−ΣＢｊ２^jに変換して、Ａｊが状態“１”であれば
ｊをシフト量としてバレルシフタ６５に出力する一方、
符号信号“０”をＥＸオアゲートアレイ９３と加算器６
６の入力キャリー端子に出力し、Ｂｊが状態“１”であ
ればｊをシフト量としてバレルシフタ６５に出力する一
方、符号信号“１”をＥＸオアゲートアレイ９３の各ゲ
ートの一入力と加算器６６の入力キャリー端子に出力す
る。

【０１５０】積和演算装置ＰＭ１６において、データ変
換器７２ｄは、第２の入力データＸ_iをΣＡｊ２^j−ΣＢ
ｊ２^jに変換する。ここで、Σはｊ＝０からｊ＝Ｍ−１
までｊを繰り返したときの積和である。ここで、Ｍは第
２の入力データＸ_iのビット数である。また、Ａｊ，Ｂ
ｊは“０”または“１”であるが、その決定方法の一例
を以下に示す。まず、第２の入力データＸ_iの最上位桁
から最初のビット状態が“１”である位置（以下、位置
ｊ_topと称する。）を検出し、次に位置ｊ_topから（繰り
返し回数ＮＵＭ−１）個目のビット状態が“０”の位置
（以下、位置ｊ_limitと称する。）を検出し、さらに位
置ｊ_topから位置ｊ_limitの間で最も下位にあるビット状
態が“１”である位置（以下、位置ｊ_bottomと称す
る。）を検出する。そして、位置ｊ_topから位置ｊ
_bottomの間におけるビット状態が“１”であるビット信
号の数（以下、数Ｓ１と称する。）とビット状態が
“０”であるビット信号の数（以下、数Ｓ０と称す
る。）とを求める。そして、繰り返し回数ＮＵＭ＝１又
は（Ｓ０＋３）≦Ｓ１の場合には、実施の形態４で示し
たステップ１とステップ２の処理を実行することによっ
て、第２の入力データＸ_iを圧縮データＹ_iに変換して、
圧縮データＹ_iのビット状態が“１”であるビット信号
に対応するＡｊを１に設定し、圧縮データＹ_iのビット
状態が“０”であるビット信号に対応するＡｊを０に設
定し、Ｂｊをすべて０に設定する。繰り返し回数ＮＵＭ
≠１かつ（Ｓ０＋３）＞Ｓ１の場合には、ｊ＝ｊ_top＋
１に対応するＡｊのみを１に設定しそれ以外のＡｊを０
に設定し、かつｊ＝ｊ_bottomに対応するＢｊと第２の入
力データＸ_iのうち位置ｊ_topと位置ｊ_bottomの間でビッ
ト状態が“０”のビット信号に対応するＢｊを１に設定
しそれ以外のＢｊを０に設定する。以上のようにＡｊ，
Ｂｊを設定することにより、Ａｊ，Ｂｊの中で“１”の
合計数は繰り返し回数ＮＵＭ以下になる条件で、変換誤
差が小さくなるように、第２の入力データＸ_iはΣＡｊ
２^j−ΣＢｊ２^jに変換される。言い換えると、データ変
換器７２ｄは、第２の入力データＸ_iを絶対値が２のべ
き乗である正及び負の数値を第２の入力データＸ_iのビ
ット幅より小さい個数以下だけ加算したデータに変換す
る。そして、Ａｊが状態“１”であればｊをシフト量と
してバレルシフタ６５に出力する一方、符号信号“０”
をＥＸオアゲートアレイ９３の各ゲートの一入力と加算
器６６の入力キャリー端子に転送する。次にＢｊが状態
“１”であればｊをシフト量としてバレルシフタ６５に
出力する一方、符号信号“１”をＥＸオアゲートアレイ
９３の各ゲートの一入力と加算器６６の入力キャリー端
子に転送する。

【０１５１】バレルシフタ６５は第１の入力データＷｉ
を、入力されるシフト量ｊだけ桁移動して、ＥＸオアゲ
ートアレイ９３に出力する。ＥＸオアゲートアレイ９３
は、符号信号が“０”のときには、バレルシフタ６５か
ら出力されるバレルシフトデータをそのまま加算器６６
に出力し、符号信号が“１”のときは、バレルシフタ６
５から出力されるバレルシフトデータを反転させて加算
器６６に出力する。加算器６６は、ＥＸオアゲートアレ
イ９３から出力されるデータとマルチプレクサ６８から
入力されるデータとを加算してレジスタ６７に出力す
る。レジスタ６７は、加算器６６から出力される加算デ
ータをクロック信号の所定の周期の時間だけ保持して、
マルチプレクサ６８と出力端子６４から出力する。

【０１５２】次に動作を説明する。入力端子Ｔ６２を介
して入力される第２の入力データＸ_iはデータ変換器７
２ｄによってΣＡｊ２^j−ΣＢｊ２^jに変換される。ここ
で、Ａｊ，Ｂｊはそれぞれ“０”または“１”である。
Ａｊ，Ｂｊの中で“１”の合計数は繰り返し回数ＮＵＭ
以下になる条件で、変換誤差が小さくなるように変換さ
れる。ここで、繰り返し回数ＮＵＭは、入力端子Ｔ７６
を介して入力される。次にＡｊが状態“１”であればｊ
がシフト量としてバレルシフタ６５に入力され、符号信
号“０”がＥＸオアゲートアレイ９３の各ゲートの一入
力と加算器６６の入力キャリー端子に転送される。バレ
ルシフタ６５では入力端子Ｔ６１を介して入力される第
１の入力Ｗｉがシフトされたのち、ＥＸオアゲートアレ
イ９３に送られる。ＥＸオアゲートアレイ９３の各ゲー
トの片方の入力である符号信号は“０”なので、バレル
シフタ６５の出力がそのまま加算器６６に入力される。
状態“１”のすべてのＡｊに対し順次実行されて、加算
器６６の出力として、ＷｉΣＡｊ２^j が出力される。
次にＢｊが状態“１”であればｊがシフト量としてバレ
ルシフタ６５に出力され、符号信号“１”がＥＸオアゲ
ートアレイ９３の各ゲートの一入力と加算器６６の入力
キャリー端子に転送される。バレルシフタ６５では第１
の入力Ｗｉがシフトされたのち、ＥＸオアゲートアレイ
９３に送られる。ＥＸオアゲートアレイ９３の各ゲート
の片方の入力である符号信号は“１”なので、バレルシ
フタ６５の出力データの反転が加算器６６に入力され
る。また加算器６６の入力キャリー端子にも“１”が入
力される。このとき加算器６６ではバレルシフタ６５の
出力の２の補数と加算器６６の他方の入力との加算が実
行される。このときの結果は−ＷｉＢｊ２^j＋（レジス
タ６７のデータ）である。状態“１”のすべてのＢｊに
対し順次実行すれば、加算器６６の出力として、最終的
にＷｉ（ΣＡｊ２^j−ΣＢｊ２^j）が得られる。これはＷ
ｉＸ_iが演算されることを意味する。

【０１５３】以上の実施の形態１６の積和演算装置ＰＭ
１６によれば、正負のべき乗の加算値に変換するので正
のみの加算に比べ変換誤差が低減できる。

【０１５４】実施の形態１７図３４は本発明に係る実施の形態１７の積和演算装置Ｐ
Ｍ１７の構成を示すブロック図である。実施の形態１７
の積和演算装置ＰＭ１７は、図７の実施の形態４の積和
演算装置ＰＭ４において、加算器４５に代えて、累積加
算器ＰＫ１７の出力データの下位８ビット用の加算器４
５ａと累積加算器ＰＫ１７の出力データの中位８ビット
用の加算器４５ｂと累積加算器ＰＫ１７の上位８ビット
用の加算器４５ｃとを備え、加算器４５ａ，４５ｂ，４
５ｃにより累積加算することを特徴とする。ここで、累
積加算器ＰＫ１７は、加算器４５ａと加算器４５ｂと加
算器４５ｃとレジスタ４６とマルチプレクサ４７とから
なる。

【０１５５】図３４の積和演算装置ＰＭ１７において、
データ変換器７２は、入力端子Ｔ４１を介して入力され
る８ビットデータの第２の入力データＸ_iを変換データ
Ｚｉ［ｊ］（ｊ＝１，…，ＮＵＭ）に変換してバレルシ
フタ４４に出力する。バレルシフタ４４は、変換データ
Ｚｉ［ｊ］に基づいて、入力端子Ｔ４０を介して入力さ
れる８ビットデータである重みデータＷｉを桁移動し
て、桁移動した１６ビットデータであるバレルシフトデ
ータ（ｂ０−ｂ１５）の下位８ビットデータ（ｂ０−ｂ
７）２０３を加算器４５ａの一方の入力端子に入力し、
バレルシフトデータ（ｂ０−ｂ１５）の上位８ビットデ
ータ（ｂ８−ｂ１５）２０４を加算器４５ｂの一方の入
力端子に入力する。

【０１５６】加算器４５ａは、バレルシフタ４４から入
力される下位８ビットデータ（ｂ０−ｂ７）２０３とマ
ルチプレクサ４７から入力されるデータとを加算して加
算結果のデータを累積加算器ＰＫ１７の下位８ビットデ
ータとしてレジスタ４６に出力する一方、下位キャリー
信号２０８をキャリー出力端子２０２ａからレジスタ４
６に出力する。ここで、加算器４５ａは、加算結果のデ
ータに桁あふれが生じた場合にはビット状態が“１”で
ある下位キャリー信号２０８をレジスタ４６に出力し、
加算結果のデータに桁あふれが生じていない場合にはビ
ット状態が“０”である下位キャリー信号２０８をレジ
スタ４６に出力する。

【０１５７】加算器４５ｂは、キャリー入力端子２０１
ｂから入力されるキャリー信号に基づいて、バレルシフ
タ４４から入力される上位８ビットデータ（ｂ８−ｂ１
５）２０４とマルチプレクサ４７から入力されるデータ
とを加算して加算結果のデータを累積加算器ＰＫ１７の
中位８ビットデータとしてレジスタ４６に出力する一
方、中位キャリー信号２０９をキャリー出力端子２０２
ｂからレジスタ４６に出力する。ここで、加算器４５ｂ
は、入力されるキャリー信号のビット状態が“１”の場
合には、上位８ビットデータ（ｂ８−ｂ１５）２０４と
マルチプレクサ４７から入力されるデータとの加算デー
タの最下位桁にさらに１を加算して加算結果のデータと
してレジスタ４６に出力し、キャリー信号のビット状態
が“０”の場合には、上位８ビットデータ（ｂ８−ｂ１
５）２０４とマルチプレクサ４７から入力されるデータ
との加算データをそのまま加算結果のデータとしてレジ
スタ４６に出力する。また、加算器４５ｂは、加算結果
のデータに桁あふれが生じた場合にはビット状態が
“１”である中位キャリー信号２０９をレジスタ４６に
出力し、加算結果のデータに桁あふれが生じていない場
合にはビット状態が“０”である中位キャリー信号２０
９をレジスタ４６に出力する。

【０１５８】加算器４５ｃは、キャリー入力端子２０１
ｃから入力されるキャリー信号に基づいて、キャリー信
号のビット状態が“１”の場合には、マルチプレクサ４
７から入力されるデータの最下位桁に１を加算して加算
結果のデータとしてレジスタ４６に出力し、当該キャリ
ー信号のビット状態が“０”の場合には、マルチプレク
サ４７から入力されるデータをそのまま加算結果のデー
タとしてレジスタ４６に出力する。ここで、加算器４５
ｃの一方の入力端子は接地され、当該入力端子には常に
０のデータが入力される。レジスタ４６は、加算器４５
ａから入力される加算結果のデータと、下位キャリー信
号２０８と、加算器４５ｂから入力される加算結果のデ
ータと、中位キャリー信号２０９と、加算器４５ｃから
入力される加算結果のデータとをクロックの１周期の時
間だけ保持してマルチプレクサ４７に出力する。

【０１５９】マルチプレクサ４７は、入力端子Ｔ４２を
介して入力されるデータとレジスタ４６から入力される
データとを切り替えて出力する。すなわち、マルチプレ
クサ４７は、第１番目のクロックに応答して入力端子Ｔ
４２を介して入力される０である第３の入力データ４２
を選択的に加算器４５ａの他方の入力端子と、加算器４
５ｂのキャリー入力端子２０１ｂと、加算器４５ｂの他
方の入力端子と、加算器４５ｃのキャリー入力端子２０
１ｃと、加算器４５ｃの他方の入力端子とに出力する。
また、マルチプレクサ４７は、第２番目以降のクロック
に応答して、レジスタ４６から入力される各データを各
加算器４５ａ，４５ｂ，４５ｃに以下のように入力す
る。マルチプレクサ４７は、加算器４５ａから出力され
る加算結果のデータを加算器４５ａの他方の入力端子に
入力し、加算器４５ａから出力される下位キャリー信号
２０８を加算器４５ｂのキャリー入力端子２０１ｂに入
力し、加算器４５ｂから出力される加算結果のデータを
加算器４５ｂの他方の入力端子に入力し、加算器４５ｂ
から出力される中位キャリー信号２０９を加算器４５ｃ
のキャリー入力端子２０１ｃに入力し、加算器４５ｃか
ら出力される加算結果のデータを加算器４５ｃの他方の
入力端子に入力する。

【０１６０】以上のように構成された積和演算装置ＰＭ
１７において、入力端子Ｔ４１を介して入力される８ビ
ットデータの第２の入力データＸ_iは、データ圧縮回路
４８でビット状態が“１”であるビット信号の数が繰り
返し回数ＮＵＭ以下であってかつ変換誤差が小さくなる
ように変換された８ビットデータの圧縮データＹ_iに変
換される。圧縮データＹ_iはシフト量変換回路５１によ
って変換データＺｉ［ｊ］（ｊ＝１，…，ＮＵＭ）に変
換されてバレルシフタ４４に入力される。そして、バレ
ルシフトデータ（ｂ０−ｂ１５）の下位８ビットデータ
（ｂ０−ｂ７）２０３は加算器４５ａに入力され、上位
８ビツトデータ（ｂ８−ｂ１５）２０４は加算器４５ｂ
に入力される。

【０１６１】加算器４５ａに入力された下位８ビットデ
ータ（ｂ０−ｂ７）２０３は、加算器４５ａで累積加算
器ＰＫ１７の出力データの積和結果下位８ビットデータ
（ｓ０−ｓ７）Ａ２０５と加算され、積和結果下位８ビ
ットデータ（ｓ０−ｓ７）２０５と下位キャリー信号２
０８がレジスタ４６に入力される。ここで、積和結果下
位８ビットデータ（ｓ０−ｓ７）Ａ２０５は、１周期前
のクロックに応答して加算器４５ａから出力された積和
結果下位８ビットデータ（ｓ０−ｓ７）２０５である。
積和結果下位８ビットデータ（ｓ０−ｓ７）２０５は、
レジスタ４６でクロックの１周期の時間だけ保持され
て、マルチプレクサ４７を介して加算器４５ａに入力さ
れる。下位キャリー信号２０８は、レジスタ４６でクロ
ックの１周期の時間だけ保持されてマルチプレクサ４７
を介して加算器４５ｂのキャリー入力端子２０１ｂに入
力される。

【０１６２】加算器４５ｂに入力された下位８ビットデ
ータ（ｂ８−ｂ１５）２０４は、累積加算器ＰＫ１７の
出力データの積和結果中位８ビットデータ（ｓ８−ｓ１
５）Ａ２０６と加算され、下位キャリー信号Ａ２０８に
基づいて、下位キャリー信号Ａ２０８のビット状態が
“１”の場合には、最下位桁にさらに１が加算されて、
積和結果中位８ビットデータ（ｓ８−ｓ１５）２０６と
中位キャリー信号２０９がレジスタ４６に入力される。
ここで、積和結果中位８ビットデータ（ｓ８−ｓ１５）
Ａ２０６は、１周期前のクロックに応答して加算器４５
ｂから出力された積和結果中位８ビットデータ（ｓ８−
ｓ１５）２０６であり、下位キャリー信号Ａ２０８は、
１周期前のクロックに応答して加算器４５ａから出力さ
れた下位キャリー信号２０８である。積和結果中位８ビ
ットデータ（ｓ−ｓ）２０６は、レジスタ４６でクロッ
クの１周期の時間だけ保持されてマルチプレクサ４７を
介して加算器４５ｂに入力される。中位キャリー信号２
０９は、レジスタ４６でクロックの１周期の時間だけ保
持されてマルチプレクサ４７を介して加算器４５ｃに入
力される。

【０１６３】加算器４５ｃに入力された累積加算器ＰＫ
１７の出力データの積和結果上位８ビットデータ（ｓ−
ｓ）Ａ２０７は、中位キャリー信号Ａ２０９のビット状
態が“１”の場合には、最下位桁に１が加算され積和結
果上位８ビットデータ（ｓ１６−ｓ２３）２０７として
レジスタ４６に出力され、中位キャリー信号Ａ２０９の
ビット状態が“０”の場合には、積和結果上位８ビット
データ（ｓ１６−ｓ２３）Ａ２０７がそのまま積和結果
上位８ビットデータ（ｓ１６−ｓ２３）２０７としてレ
ジスタ４６に出力される。ここで、積和結果上位８ビッ
トデータ（ｓ１６−ｓ２３）Ａ２０７は、１周期前のク
ロックに応答して加算器４５ｃから出力された積和結果
上位８ビットデータ（ｓ１６−ｓ２３）２０７であり、
中位キャリー信号Ａ２０９は、１周期前のクロックに応
答して加算器４５ｂから出力された中位キャリー信号２
０９である。積和結果上位ビツト（ｓ１６−ｓ２３）２
０７は、レジスタ４６でクロックの１周期の時間だけ保
持されて加算器４５ｃに入力される。

【０１６４】以上の動作を最後の変換データＺｉ［ＮＵ
Ｍ］に対応する下位８ビットデータ（ｂ０−ｂ７）２０
３と上位８ビットデータ（ｂ８−ｂ１５）２０４とがそ
れぞれ加算器４５ａと加算器４５ｂで加算されるまで繰
り返し、その後、バレルシフタ４４の出力を０にして、
加算器４５ａ，４５ｂ，４５ｃにおいてさらに２回の加
算を実行する。これによって、変換データＺｉ［ｊ］
（ｊ＝１，…，ＮＵＭ）に対応し、最後に残る下位キャ
リー信号２０８と中位キャリー信号２０９に基づいた加
算を含む累積加算を実行することができるので、重みデ
ータＷ_iと圧縮データＹ_iとの乗算、すなわち重みデータ
Ｗｉと第２の入力データＸ_iとの乗算を実行して出力端
子Ｔ４３を介して出力することができる。さらに、重み
データＷｉと第２の入力データＸ_iとを更新して、上述
の動作を繰り返すことにより、複数個の重みデータＷｉ
と第２の入力データＸ_iの積和演算を実行することがで
きる。

【０１６５】以上の実施の形態１７の積和演算装置ＰＭ
１７は、３つの８ビットの加算器４５ａ，４５ｂ，４５
ｃとレジスタ４６とを備えることにより２４ビットの加
算器を構成し、加算器４５ａの下位キャリー信号２０８
と加算器４５ｂの中位キャリー信号２０９とをそれぞれ
レジスタ４６でクロックの１周期の時間だけ保持した
後、すなわち次のクロックの加算時に上位側の加算器４
５ｂ，４５ｃに伝搬されるように構成している。これに
よって、１回の加算におけるキャリー伝搬が短くなるの
でその遅延時間が短くなる。従って、実施の形態１７の
積和演算装置ＰＭ１７は、累積加算の終了後、加算器４
５ａ，４５ｂ，４５ｃにおいてさらに２回の加算を実行
する必要があるが、累積数が大きい場合には、１回の加
算時間を短くできるので積和演算時間を短くすることが
できる。

【０１６６】以上の実施の形態１７の積和演算装置ＰＭ
１７では、３つの加算器４５ａ，４５ｂ，４５ｃを備え
て構成したが、本発明はこれに限らず少なくとも２つの
加算器を備えて構成してもよいし、３つ以上の加算器を
用いて構成してもよい。以上のように構成しても実施の
形態１７と同様の効果を有する。

【０１６７】

【発明の効果】この発明は、以上説明したように構成さ
れているので、以下に示すような効果を奏する。

【０１６８】本発明に係る第１の態様の積和演算装置
は、上記バレルシフタと上記加算器と上記レジスタを備
えて積和演算装置を構成しているので、乗算器を用いた
従来例の積和演算装置に比較して、回路面積を小さくで
きる。

【０１６９】また、第２の態様の積和演算装置は、第１
の態様の積和演算装置においてさらに、マルチプレクサ
を備えることにより、第１の入力データと第２の入力デ
ータとの積と、第３の入力データとを加算して出力でき
る。

【０１７０】さらに、第３の態様の積和演算装置は、第
１又は第２の態様の積和演算装置においてさらに、上記
ビット位置エンコーダを備え、第２の入力データのビッ
ト状態が０であるビット信号に対応する演算を間引くこ
とができるので、上記ビット位置エンコーダを備えてい
ない積和演算装置に比較して、演算処理時間を短くでき
る。

【０１７１】またさらに、第４の態様の積和演算装置に
おいて、上記ビット位置エンコーダは、上記第１と第２
と第３の遅延型フリップフロップと、上記１対のセレク
タと、上記エンコーダとを備え、第２の入力データのビ
ット状態が１であるビット信号の位置を検出して、当該
位置を示す位置データを出力できる。

【０１７２】また、第５の態様の積和演算装置は、上記
ビット位置エンコーダを上記第２の入力データの上位の
桁から所定の数のビット状態が１であるビット信号の位
置を検出して、位置データを出力するように構成してい
るので、上記第２の入力データのビット信号のうち下位
に位置する比較的演算結果への影響の少ないビット信号
に対応する演算処理を間引くことができ、演算処理時間
を短縮することができる。

【０１７３】さらに、第６の態様の積和演算装置におい
て、上記ビット位置エンコーダは、上記カウンタと上記
コンパレータとを備え、シフト回数がシフト回数指定値
より大きい場合には、位置検出を終了するように構成さ
れる。これによって、第６の態様の積和演算装置は、上
記第２の入力データのビット信号のうち下位に位置する
比較的演算結果への影響の少ないビット信号に対応する
演算処理を間引くことができる。

【０１７４】またさらに、第７の態様の積和演算装置
は、上記データ圧縮手段を備え、第２の入力データをビ
ット状態が１であるビット信号の数が第２の入力データ
のビット幅より小さい所定の制限数以下である圧縮デー
タに変換して演算を実行するので、演算速度を速くでき
る。

【０１７５】また、第８の態様の積和演算装置におい
て、上記データ圧縮手段は、第２の入力データを、第２
の入力データと同一の桁数を有し、かつビット状態が１
であるビット信号の数が上記制限数以下であって、第２
の入力データとの差が最小となるように設定された圧縮
データに変換して出力する。これによって、第８の態様
の積和演算装置は、演算誤差を小さくできかつ演算速度
を速くできる。

【０１７６】さらに、第９の態様の積和演算装置におい
て、上記データ圧縮手段は、第２の入力データを、第２
の入力データに比べて１桁多い桁数を有し、かつビット
状態が１であるビット信号の数が上記制限数以下であっ
て、第２の入力データとの差が最小となるように設定さ
れた圧縮データに変換して出力する。これによって、第
９の態様の積和演算装置は、第８の態様の積和演算装置
と同様に演算速度を速くでき、第８の態様の積和演算装
置に比較して演算誤差を小さくできる。

【０１７７】さらにまた、第１０の態様の積和演算装置
において、上記データ圧縮手段は圧縮データのビット状
態が１であるビット信号の数Ｆを出力し、上記ビット位
置エンコーダは、上記Ｆ個のビット状態が１であるビッ
ト信号の桁位置を示す桁位置データを出力した後、次の
圧縮データの処理を開始する。これによって、上記ビッ
ト位置エンコーダは、待ち時間なく処理を実行すること
ができ、第１０の態様の積和演算装置は演算速度を速く
できる。

【０１７８】また、第１１の態様の積和演算装置におい
て、上記データ変換手段は、絶対値が２のべき乗である
正及び負の数値を加算したデータに変換して演算する。
これによって、第１１の態様の積和演算装置は、変換誤
差を小さくできる。

【０１７９】また、第１２の態様の積和演算装置は、１
つのビット位置エンコーダと複数の積和演算装置を備
え、上記ビット位置エンコーダを各積和演算装置に桁位
置データを出力するように構成しているので、回路面積
を小さくできる。

【０１８０】また、第１３の態様の積和演算器集積回路
装置は、データ変換手段と複数の積和演算装置とを備え
る。そして、上記データ変換手段は、桁位置データを各
積和演算装置に出力し、各積和演算装置は、当該積和演
算装置における乗算結果と前段の積和演算装置から出力
される演算結果とを加算して出力する。これによって、
第１３の態様の積和演算器集積回路装置によれば、演算
時間を大幅に短縮できる積和演算器集積回路装置を提供
することができる。

【０１８１】また、第１４の態様の積和演算器集積回路
装置は記憶手段を備え、回路規模（コスト）を大きくす
ることなく演算できるカーネルサイズを大きくすること
ができる。

【０１８２】さらに、第１５の態様の積和演算器集積回
路装置において、上記記憶手段は、複数Ｍ個のデータを
記憶することができる。これによって、外部にバッファ
メモリを設ける必要のない積和演算器集積回路装置を提
供できる。

【０１８３】またさらに、第１６の態様の積和演算器集
積回路装置において、上記記憶手段の記憶できるデータ
の個数Ｍを外部から指定することができる。これによっ
て、演算することができるデータの大きさを変化させる
ことができる。

【０１８４】また、第１７の態様の積和演算器集積回路
装置は、第１３，１４，１５又は１６の積和演算器集積
回路装置において、出力用記憶手段を備えているので、
出力タイミングが調整できる。これによって、他の素子
との接続を容易にできる。

【０１８５】またさらに、第１８の態様の積和演算器集
積回路装置は、第１７の態様の複数ｂ個の積和演算器集
積回路装置を備え、演算することができる第１の入力デ
ータのサイズを、第１７の態様の積和演算器集積回路装
置の演算することができるデータのサイズを一方向にｂ
倍に拡大できる。

【０１８６】また、第１９の態様の積和演算器集積回路
装置は、２個の第１７の態様の積和演算器集積回路装置
と上記各積和演算器集積回路装置から出力される演算結
果データを加算する加算器とを備え、演算することがで
きる第１の入力データのサイズを、第１７の態様の積和
演算器集積回路装置の演算することができるデータのサ
イズを第１８の態様とは異なる方向に２倍に拡大でき
る。

【０１８７】また、第２０の態様の積和演算器集積回路
装置は、複数ｃ個の第１７又は第１８の態様の積和演算
器集積回路装置ＰＭ１１ａ−１乃至ＰＭ１１ａ−ｃを備
え、演算することができる第１の入力データのサイズを
上記積和演算器集積回路装置ＰＭ１１ａ−１乃至ＰＭ１
１ａ−ｃの演算することができるデータのサイズのｃ倍
に拡大できる。

【０１８８】さらに、第２１の態様の累積加算器は、複
数個の加算器とレジスタとを備え、各加算器のキャリー
入力端子には当該各加算器が処理するビット域の下位側
のビット域を処理する加算器のキャリー出力端子から出
力されるキャリー信号をレジスタを介して入力するよう
に構成される。これによって、１回の加算時間が短くで
きので、累積加算時間を短くできる。

【０１８９】またさらに、第２２の態様の積和演算装置
は、上記累積加算器を備え、加算時間を短くできるので
積和演算時間を短くすることができる。

【図面の簡単な説明】

【図１】本発明に係る実施の形態１の積和演算装置Ｐ
Ｍ１の構成を示すブロック図である。

【図２】図１のビット位置エンコーダ２の構成を示す
ブロック図である。

【図３】本発明に係る実施の形態２の積和演算装置Ｐ
Ｍ２の構成を示すブロック図である。

【図４】図２の制限機能を有するビット位置エンコー
ダ８の構成を示すブロック図である。

【図５】図３の実施の形態２の積和演算装置における
最大シフト回数に対する変換誤差を示したグラフであ
る。

【図６】本発明に係る実施の形態３の積和演算器集積
回路装置ＰＳ３の構成を示すブロック図である。

【図７】本発明に係る実施の形態４の積和演算装置Ｐ
Ｍ４の構成を示すブロック図である。

【図８】図７のデータ圧縮回路４８の構成を示すブロ
ック図である。

【図９】本発明に係る実施の形態５におけるデータ圧
縮回路４８ａの構成を示すブロック図である。

【図１０】実施の形態５における繰り返し回数ＮＵＭ
に対するデータ精度を示すグラフである。

【図１１】本発明に係る実施の形態６の積和演算器集
積回路装置ＰＳ６の構成を示すブロック図である。

【図１２】本発明に係る実施の形態７の積和演算器集
積回路装置ＰＳ７の構成を示すブロック図である。

【図１３】本発明に係る実施の形態８の積和演算器集
積回路装置ＰＳ８の構成を示すブロック図である。

【図１４】（ａ）はラインバッファ８２の構成を示す
図であり、（ｂ）はラインバッファ８２ａの構成を示す
図であり、（ｃ）は（ｂ）のラインバッファ８２ａの動
作を示すフローチャートである。

【図１５】図１３の積和演算器集積回路装置ＰＳ８に
おけるデータの流れを示す図であって、（ａ）は周期Ｔ
＝１における基本演算器ＰＵ１の演算結果を示す図であ
り、（ｂ）は周期Ｔ＝２における基本演算器ＰＵ２の演
算結果を示す図であり、（ｃ）は周期Ｔ＝３における基
本演算器ＰＵ３の演算結果を示す図であり、（ｄ）は周
期Ｔ＝４におけるレジスタＢＲ１の記憶データを示す図
であり、（ｅ）は周期Ｔ＝５におけるレジスタＢＲ２の
記憶データを示す図であり、（ｆ）は周期Ｔ＝６におけ
るレジスタＢＲ３の記憶データを示す図であり、（ｇ）
は周期Ｔ＝７における基本演算器ＰＵ４の演算結果を示
す図である。

【図１６】（ａ）は図１３の積和演算器集積回路装置
ＰＳ８における入力画像データを示す図であり、（ｂ）
はカーネルを示す図である。

【図１７】図１３の積和演算器集積回路装置ＰＳ８に
おいて、変換誤差の画像コンボルーションへの影響を評
価するためにカーネルとして用いたラプラシアンフィル
タを示す図である。

【図１８】（ａ）は繰り返し回数ＮＵＭ＝８の場合の
演算結果の各画素の値の度数分布を示すグラフであり、
（ｂ）は繰り返し回数ＮＵＭ＝８のときと繰り返し回数
ＮＵＭ＝４のときの各画素の値の差の度数分布を示す図
である。

【図１９】本発明に係る実施の形態９の積和演算器集
積回路装置ＰＳ９の構成を示すブロック図である。

【図２０】（ａ）は図１９のラインバッファ８２ｂの
構成を示すブロック図であり、（ｂ）は、（ａ）のライ
ンバッファ８２ｂとは異なるラインバッファ８２ｃを示
すブロック図である。

【図２１】（ａ）は図１９の積和演算器集積回路装置
ＰＳ９において、ラインバッファ８２ｂの長さＬを３に
設定したときに選択できるカーネルを示す図であり、
（ｂ）は図１９の積和演算器集積回路装置ＰＳ９におい
て、ラインバッファ８２ｂの長さＬを０に設定したとき
に選択できるカーネルを示す図である。

【図２２】本発明に係る実施の形態１０の積和演算器
集積回路装置ＰＳ１０の構成を示すブロック図である。

【図２３】本発明に係る実施の形態１１の積和演算器
集積回路装置ＰＳ１１の構成を示すブロック図である。

【図２４】図２３の積和演算器集積回路装置ＰＳ１１
の動作の説明に用いた６×２のカーネルを示す図であ
る。

【図２５】図２２の積和演算器集積回路装置ＰＳ１０
をｂ個接続して構成した積和演算装置ＰＭ１１ａを示す
ブロック図である。

【図２６】本発明に係る実施の形態１２の積和演算器
集積回路装置ＰＳ１２の構成を示すブロック図である。

【図２７】図２６の積和演算器集積回路装置ＰＳ１２
の動作の説明に用いた１２×１のカーネルを示す図であ
る。

【図２８】本発明に係る実施の形態１３の積和演算器
集積回路装置ＰＳ１３の構成を示すブロック図である。

【図２９】図２８の積和演算器集積回路装置ＰＳ１３
の動作の説明に用いた１８×１のカーネルを示す図であ
る。

【図３０】図２８の積和演算器集積回路装置ＰＳ１３
の変形例の積和演算装置ＰＭ１３ａの構成を示すブロッ
ク図である。

【図３１】本発明に係る実施の形態１４の積和演算器
集積回路装置ＰＳ１４の構成を示すブロック図である。

【図３２】本発明に係る実施の形態１５の積和演算装
置ＰＭ１５の構成を示すブロック図である。

【図３３】本発明に係る実施の形態１６の積和演算装
置ＰＭ１６の構成を示すブロック図である。

【図３４】本発明に係る実施の形態１７の積和演算装
置ＰＭ１７の構成を示すブロック図である。

【図３５】第１の従来例の積和演算装置の構成を示す
ブロック図である。

【図３６】第２の従来例の積和演算装置の構成を示す
ブロック図である。

【図３７】第３の従来例の積和演算装置の構成を示す
ブロック図である。

【符号の説明】

ＰＭ１，ＰＭ１ａ，ＰＭ２，ＰＭ４，ＰＭ１５，ＰＭ１
６積和演算装置、ＰＵ，ＰＵ１，ＰＵ２，ＰＵ３，Ｐ
Ｕ４，ＰＵ５，ＰＵ６基本演算器、１，４４，６５
バレルシフタ、Ｒ１，Ｒ２，４６，５０，６７，７９，
８１，１０３レジスタ、２，８ビット位置エンコー
ダ、ＰＳ３，ＰＳ５，ＰＳ６，ＰＳ７，ＰＳ８，ＰＳ
９，ＰＳ１０，ＰＳ１１，ＰＳ１１ａ−１乃至ＰＳ１１
ａ−ｃ，ＰＳ１２，ＰＳ１３，ＰＳ１４積和演算器集
積回路装置、１０，２７インバータ、１１，１２４
アンドゲートアレイ、１２−１乃至１２−Ｎ，１６，２
９Ｄフリップフロップ、１７−１乃至１７−Ｎ，２
１，２２−１乃至２２−Ｎセレクタ、ＰＫ１７累積
加算器、２０シフトレジスタ、２６オアゲート、２
８エンコーダ、３０カウンタ、３１コンパレータ、
３２ノアゲート、４５，４５ａ，４５ｂ，４５ｃ，５
９，６６，８９，８９ａ，８９−１乃至８９−（ｃ−
１），１０２加算器、４７，５８，６０，６８，８
６，１０４マルチプレクサ、４８，４８ａデータ圧
縮回路、５１，５１ａシフト量変換回路、５４フラ
グ生成モジュール、５５マスク生成モジュール、５６
マスク処理モジュール、５７誤差チェックモジュー
ル、Ｔ７０−１乃至Ｔ７０−６，Ｔ７１，Ｔ７５，Ｔ８
５入力端子、７２，７２ａ，７２ｃ，７２ｄデータ
変換器、Ｔ７４出力端子、８２，８２ａ，８２ｂ，８
２ｃ，８５，８７ラインバッファ、８３メモリ、８
４アドレスループカウンタ、９０，９０−１乃至９０
−（ｃ−２）接続ラインバッファ、９３イクスクル
ーシブオアゲートアレイ、２０１ｂ，２０１ｃキャリ
ー入力端子、２０２ａ，２０２ｂキャリー出力端子。

Claims

【特許請求の範囲】

【請求項１】第１の入力データと第２の入力データと
の積を累積加算して出力端子から出力する積和演算装置
であって、第１の入力データを、第２の入力データに基づいて所定
のビット数だけ桁移動して出力するバレルシフタと、上記バレルシフタから出力され加算器の一方の入力端子
に入力されるデータと加算器の他方の入力端子から入力
されるデータとを加算して出力する加算器と、上記加算器から出力されるデータを一時保持した後、保
持したデータを上記加算器の他方の入力端子を介して上
記加算器に入力する一方、保持したデータを上記出力端
子から出力するレジスタとを備えたことを特徴とする積
和演算装置。
【請求項２】上記積和演算装置はさらに、マルチプレクサの一方の入力端子から入力される第３の
入力データとマルチプレクサの他方の入力端子から入力
されるデータのうち一方を選択して、上記加算器の他方
の入力端子を介して上記加算器に出力するマルチプレク
サを備え、上記第１の入力データと上記第２の入力データとの積
と、上記第３の入力データとを加算して出力端子から出
力することを特徴とする請求項１記載の積和演算装置。
【請求項３】上記積和演算装置はさらに、上記第２の
入力データのビット状態が１であるビット信号の桁位置
を示す桁位置データを、上記バレルシフタに出力するビ
ット位置エンコーダを備え、上記バレルシフタは、上記第１の入力データを上記桁位
置データに基づいて桁移動して出力することを特徴とす
る請求項１又は２記載の積和演算装置。
【請求項４】上記ビット位置エンコーダは、シフトレ
ジスタとエンコーダとを備え、上記シフトレジスタは、第１の遅延型フリップフロップ
と第２の遅延型フリップフロップと、上記第１と第２の遅延型フリップフロップの間に、上記
第２の入力データの各ビット信号に対応して設けられた
複数の第３の遅延型フリップフロップと、上記各ビット信号に対応して設けられ、対応するビット
信号のビット状態が１の場合には、上記第１の遅延型フ
リップフロップから出力される信号を当該ビット信号に
対応する第３の遅延型フリップフロップを介して伝送さ
せ、対応するビット信号のビット状態が０の場合には、
当該ビット信号に対応する第３の遅延型フリップフロッ
プを介しないで伝送させる１対のセレクタとを備え、上記シフトレジスタは、上記第１の遅延型フリップフロ
ップから出力される信号を、クロック信号に応答して、
第２の入力データのビット状態が１であるビット信号に
対応する第３の遅延型フリップフロップに順次転送し、
かつ上記第１の遅延型フリップフロップから出力された
信号が転送された第３の遅延型フリップフロップの位置
を示す信号を出力し、上記エンコーダは、上記シフトレジスタから出力される
信号に基づいて、第２の入力データのビット状態が１で
あるビット信号の位置を検出して、当該位置を示す位置
データを出力することを特徴とする請求項３記載の積和
演算装置。
【請求項５】上記ビット位置エンコーダは、上記第２
の入力データのビット状態が１であるビット信号の数が
所定の数以上の場合には、上記第２の入力データの上位
の桁から上記所定の数のビット状態が１であるビット信
号についてのみ位置を検出して、位置データを出力する
ことを特徴とする請求項３又は４記載の積和演算装置。
【請求項６】上記ビット位置エンコーダは、上記クロ
ック信号のパルスを計数して上記第１の遅延型フリップ
フロップから出力される信号のシフト回数を出力するカ
ウンタと、上記シフト回数と入力されるシフト回数指定
値とを比較して上記シフト回数がシフト回数指定値より
大きい場合には位置検出を終了させる信号を出力するコ
ンパレータとを備え、上記ビットシフト回数がシフト回
数指定値より大きい場合には位置検出を終了することを
特徴とする請求項５記載の積和演算装置。
【請求項７】上記積和演算装置はさらに、第２の入力
データをビット状態が１であるビット信号の数が第２の
入力データのビット幅より小さい所定の制限数以下であ
る圧縮データに変換して出力するデータ圧縮手段を備
え、上記ビット位置エンコーダは、上記圧縮データのビット
状態が１であるビット信号の桁位置を示す桁位置データ
を、上記バレルシフタに出力することを特徴とする請求
項３又は４記載の積和演算装置。
【請求項８】上記データ圧縮手段は、第２の入力デー
タを、第２の入力データと同一の桁数を有し、かつビッ
ト状態が１であるビット信号の数が上記制限数以下のデ
ータであって、第２の入力データとの差が最小となるよ
うに設定された圧縮データに変換して出力することを特
徴とする請求項７記載の積和演算装置。
【請求項９】上記データ圧縮手段は、第２の入力デー
タを、第２の入力データに比べて１桁多い桁数を有し、
かつビット状態が１であるビット信号の数が上記制限数
以下のデータであって、第２の入力データとの差が最小
となるように設定された圧縮データに変換して出力する
ことを特徴とする請求項７記載の積和演算装置。
【請求項１０】上記データ圧縮手段はさらに、圧縮デ
ータのビット状態が１であるビット信号の数Ｆを示す数
値データを上記ビット位置エンコーダに出力し、上記ビット位置エンコーダは、上記Ｆ個のビット状態が
１であるビット信号の桁位置を示す桁位置データを出力
した後、次の圧縮データの処理を開始することを特徴と
する請求項７、８又は９記載の積和演算装置。
【請求項１１】請求項２記載の上記積和演算装置と、
データ変換手段とを備え、上記データ変換手段は、第２の入力データを、絶対値が
２のべき乗である正及び負の数値を第２の入力データの
ビット幅より小さい個数以下だけ加算したデータに変換
することを特徴とする積和演算装置。
【請求項１２】請求項１又は２記載の少なくとも２つ
の積和演算装置と、第２の入力データのビット状態が１
であるビット信号の桁位置を示す桁位置データを、上記
各積和演算装置のバレルシフタに出力する１つのビット
位置エンコーダとを備え、上記各積和演算装置のバレルシフタは、上記第１の入力
データを上記桁位置データに基づいて桁移動して出力す
ることを特徴とする積和演算器集積回路装置。
【請求項１３】データ変換手段と並置されて設けられ
た複数Ｎ個の請求項２記載の積和演算装置１乃至Ｎを備
え、上記データ変換手段は、第２の入力データをビット状態
が１であるビット信号の数が第２の入力データのビット
幅より小さい所定の制限数以下である圧縮データに変換
して出力するデータ圧縮手段と、上記圧縮データのビッ
ト状態が１であるビット信号の桁位置を示す桁位置デー
タを上記バレルシフターに出力するビット位置エンコー
ダとからなり、上記桁位置データを各積和演算装置ｋに
出力し、初段の積和演算装置１は、上記桁位置データに基づいて
第１の入力端子から入力されるデータと第２の入力デー
タとの間の積と、第３の入力データとの和を演算して出
力し、積和演算装置ｋ（ｋ＝２，３，…，Ｎ−１）はそれぞ
れ、上記桁位置データに基づいて、上記桁位置データが
入力される端子とは別の入力端子から入力されるデータ
と第２の入力データとの積と、前段の積和演算装置（ｋ
−１）から出力される演算結果との和を演算して、後段
の積和演算装置（ｋ＋１）に出力し、最終段の積和演算装置Ｎは、上記桁位置データに基づい
て、第Ｎの入力端子から入力されるデータと第２の入力
データとの積と、前段の積和演算装置Ｎ−１から出力さ
れる演算結果との和を演算して出力することを特徴とす
る積和演算器集積回路装置。
【請求項１４】上記積和演算装置ｋと上記積和演算装
置（ｋ＋１）（ｋ＝１，２，…，Ｎ−１）との間の少な
くとも１カ所に、上記積和演算装置ｋから出力される演
算結果を一時保持して、上記積和演算装置（ｋ＋１）に
出力する記憶手段を備えたことを特徴とする請求項１３
記載の積和演算器集積回路装置。
【請求項１５】上記記憶手段は、複数Ｍ個のデータを
記憶することができ、入力されるデータの数がＭ個を越
えると最初に入力されたデータから順次出力することを
特徴とする請求項１４記載の積和演算器集積回路装置。
【請求項１６】上記記憶手段は、記憶できるデータ数
Ｍ個を外部から指定することができることを特徴とする
請求項１５記載の積和演算器集積回路装置。
【請求項１７】上記積和演算器集積回路はさらに、最
終段の積和演算装置から出力される演算結果を一時保持
した後、出力する出力用記憶手段を設けたことを特徴と
する請求項１３、１４、１５又は１６記載の積和演算器
集積回路装置。
【請求項１８】複数ｂ個の請求項１７記載の積和演算
器集積回路装置１乃至ｂを備え、上記積和演算器集積回
路装置ｋ（ｋ＝２，３，…，ｂ）の各出力用記憶手段か
ら出力される演算結果を後段の積和演算器集積回路装置
ｋ＋１に入力することを特徴とする積和演算器集積回路
装置。
【請求項１９】２つの請求項１７記載の積和演算器集
積回路装置と、加算器とを備え、上記加算器は上記各積
和演算器集積回路装置から出力される演算結果データを
加算して出力することを特徴とする積和演算器集積回路
装置。
【請求項２０】複数ｃ個の請求項１７又は１８記載の
積和演算器集積回路装置ＰＭ１１ａ−１乃至ＰＭ１１ａ
−ｃと、（ｃ−１）個の加算器８９−１乃至８９−（ｃ
−１）と、（ｃ−２）個の接続用記憶手段９０−１乃至
９０−（ｃ−２）とを備え、加算器８９−１は、積和演算装置ＰＭ１１ａ−１から出
力される演算結果データと、積和演算装置ＰＭ１１ａ−
２から出力される演算結果データとを加算して加算デー
タを出力し、加算器８９−ｋ（ｋ＝２，３，…，ｃ−２）は、積和演
算装置ＰＭ１１ａ−（ｋ＋１）から出力される演算結果
データと、接続用記憶手段９０−（ｋ−１）から出力さ
れる保持データとを加算して加算データを出力し、接続用記憶手段９０−ｋ（ｋ＝１，２，…，ｃ−２）
は、加算器８９−ｋから出力される加算データを所定の
周期だけ保持した後、加算器８９−（ｋ＋１）に出力
し、加算器８９−（ｃ−１）は、積和演算装置ＰＭ１１ａ−
ｃから出力される演算結果データと、接続用記憶手段９
０−（ｃ−２）から出力される保持データとを加算して
加算データを出力することを特徴とする積和演算器集積
回路装置。
【請求項２１】それぞれキャリー入力端子とキャリー
出力端子を有し、２つの入力端子に入力される２つのデ
ータを加算して加算結果のデータを出力端子から出力す
る複数個の加算器と、レジスタを備えた累積加算器であ
って、各加算器の出力端子から出力されるデータ、並びにキャ
リー出力端子から出力されるキャリー信号はレジスタに
入力され、各加算器の一方の入力端子にはレジスタを介して累積加
算器の一部のビット域のデータもしくは初期値のデータ
を入力し、各加算器の他方の入力端子には各加算器に対応する各ビ
ット域のデータを入力し、各加算器のキャリー入力端子には当該各加算器が処理す
るビット域の下位側のビット域を処理する加算器のキャ
リー出力端子から出力されるキャリー信号をレジスタを
介して入力することを特徴とする累積加算器。
【請求項２２】請求項２１記載の累積加算器と、第１の入力データをビット状態が１であるビット信号の
数が第１の入力データのビット幅より小さい所定の制限
数以下である圧縮データに変換して出力するデータ圧縮
手段と、上記圧縮データのビット状態が１であるビット信号の桁
位置を示す桁位置データを出力するビット位置エンコー
ダと、第２の入力データを上記桁位置データに基づいて桁移動
して、桁移動したデータの上記各加算器に対応する各ビ
ット域のデータを当該各加算器の他方の入力端子に出力
するバレルシフタとを備えたことを特徴とする積和演算
装置。