JP2000132539A

JP2000132539A - 演算装置

Info

Publication number: JP2000132539A
Application number: JP10307355A
Authority: JP
Inventors: Takeshi Nakamura; 中村　　剛; Masahiro Ohashi; 政宏大橋
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-10-28
Filing date: 1998-10-28
Publication date: 2000-05-12

Abstract

(57)【要約】【課題】部分内積の値の有効桁が削減される演算処理
における演算精度の劣化を改善する。【解決手段】複数の入力データの各桁に対応するビッ
トスライスに基づいて、ルックアップテーブルから該ビ
ットスライスの数値配列に対応する部分内積を検出して
出力する部分内積出力手段３０２と、該部分内積を初期
値あるいは中間累算値に対して加算して加算出力値を出
力する加算手段３０３と、該加算出力値の下位側の切捨
てビットの数値を保持するビット保持手段３０８とを備
え、上記加算手段での加算処理を入力データの桁数分に
対応するサイクル繰り返して得られる最終累算結果の値
に、上記ビット保持手段で保持している最終加算サイク
ルから所定サイクル前までの切捨てビットの数値を付加
するようにした。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は演算装置に関し、特
に、空間領域信号を周波数領域信号に変換する離散余弦
変換（ＤＣＴ：Ｄiscrete Ｃosine Ｔransform）、及び
周波数領域信号を空間領域信号に変換する逆離散余弦変
換（ＩＤＣＴ：Ｉnverse Ｄiscrete Ｃosine Ｔransfo
rm) をDistributed Arithmetic演算によって実現する装
置に関するものである。

【０００２】

【従来の技術】現在、画像信号の高能率符号化処理の主
流は変換符号化方式であり、この変換符号化方式で用い
られる代表的な変換処理がＤＣＴ処理である。このＤＣ
Ｔ処理あるいはその逆変換処理であるＩＤＣＴ処理を実
現する装置は、Distributed Arithmetic演算（以下、Ｄ
Ａ法ともいう。）とDecimation-In-Frequency （以下、
ＤＦ法ともいう。）を組み合わせて用いるものが多い。
ここで、ＤＡ法は、ベクトルの内積（２つのベクトルの
対応する成分の積を各成分毎に加算したもの）を、乗算
処理を行うことなく、ルックアップテーブルに記述され
た部分内積（以下、部分積ともいう。）の値を使用して
求める演算法である。また、上記ＤＦ法は、上記ルック
アップテーブルのサイズ（つまりテーブルの要素の個
数）を削減するための手法である。ただしこのＤＦ法が
ＤＡ法に使用できるのは、その内積を求められるべき各
ベクトルの成分の数が２のベキ乗個である場合に限られ
る。

【０００３】以下まず、ＤＣＴ処理として行われるｍ×
ｎの２次元ＤＣＴ演算について説明する。このｍ×ｎの
２次元ＤＣＴ演算は、具体的には、画素（ピクセル）を
垂直方向にｍ（自然数）個，水平方向にｎ（自然数）個
配列してなる画像空間（以下ｍ×ｎブロックともい
う。）に対して画素値のＤＣＴ処理を施すための演算で
ある。

【０００４】図２１は上記ｍ×ｎブロックに対するＤＣ
Ｔ処理を説明するための図であり、図２１(a) は、ｍ×
ｎブロックＤにおける画素の配列を示しており、該ブロ
ックＤには、画素がｍ行ｎ列，つまり垂直方向にｍ個，
水平方向にｎ個配列されている。なお、図中、ｄ_ijは上
記ｍ×ｎブロックにおけるｉ行ｊ列の交差位置に位置す
る画素の画素値である。

【０００５】そしてｍ×ｎの２次元ＤＣＴ演算は、まず
図２１(a) に示すｍ×ｎブロックＤに対するｍ×１の１
次元ＤＣＴ処理、該１次元ＤＣＴ処理後のトランスポー
ズ，つまりｍ×１の１次元ＤＣＴ処理が施されたｍ×ｎ
ブロックＤにて水平画素列と垂直画素列との間で対応す
る画素値を入れ替える処理、及び該トランスポーズ後の
ｎ×ｍブロックに対するｎ×１の１次元ＤＣＴ処理を順
次行うことにより実現される。すなわち、上記ｍ×ｎブ
ロックＤに対するｍ×１の１次元ＤＣＴ処理は、次の行
列式（１）で示す演算を、ｊを０とするものからｊをｎ
−１とするものまで繰り返すことにより行われる。

【０００６】

【数１】

【０００７】なお、この行列式（１）では、上記ｍ×ｎ
ブロックＤにおける１つの列（ｊ列）の成分（画素値）
ｄ_ij（０≦ｉ≦（ｍ−１））に対するベクトル内積ｆ_ij
（０≦ｉ≦（ｍ−１））を求める演算が示されている。
また、上記行列式（１）におけるｍ行ｍ列の行列（固定
係数行列）Ｃｍの各成分ｃ₀₀〜ｃ_(m-1)(m-1)は、上記ｍ
×１の１次元ＤＣＴ処理に用いる、直交変換のための固
定係数である。上記のようなｍ×ｎブロックＤに対する
ｍ×１の１次元ＤＣＴ処理により、図２１(b) に示す、
１次元ＤＣＴ処理済みの画素値ｆ_ij（０≦ｉ≦（ｍ−
１），０≦ｊ≦（ｎ−１））からなるｍ×ｎブロックＦ
が得られる。

【０００８】次にトランスポーズにより、つまりｍ×ｎ
ブロックＦにおける画素値を水平画素列と垂直画素列の
間で入れ替えることにより、図２１(c) に示す、画素値
ｆ′_ij（０≦ｉ≦（ｎ−１），０≦ｊ≦（ｍ−１））か
らなるｎ×ｍブロックＦ′を生成する。ここで画素値
ｆ′_ijは、ｆ′_ij＝ｆ_jiとなっている。その後、上記ｎ
×ｍブロックＦ′に対するｎ×１の１次元ＤＣＴ処理
が、次の式（２）で示す演算を、ｊを０とするものから
ｊをｍ−１とするものまで繰り返すことにより行われ
る。

【０００９】

【数２】

【００１０】なお、この行列式（２）により、上記ｍ×
ｎブロックＤにおける１つの列（ｊ列）の画素値ｆ
_ij（０≦ｉ≦（ｍ−１））に対するベクトル内積ｇ
_ij（０≦ｉ≦（ｍ−１））が求められる。また、上記行
列式（２）におけるｎ行ｎ列の行列（固定係数行列）Ｃ
ｎの各成分ｃ₀₀〜ｃ_(n-1)(n-1)は、上記ｎ×１の１次元
ＤＣＴ処理に用いる、直交変換のための固定係数であ
る。

【００１１】上記のようなｍ×ｎブロックＦ′に対する
ｎ×１の１次元ＤＣＴ処理により、図２１(d) に示す、
２次元ＤＣＴ処理済みの画素値（周波数成分）ｇ_ijから
なるｍ×ｎブロックＧが得られる。

【００１２】ところで、上記行列式（１）あるいは
（２）で示す演算はそれぞれ、複数の成分（行列式
（１）ではｍ個の成分、行列式（２）ではｎ個の成分）
に対する１次元ＤＣＴ処理を実現するものであるが、上
記各行列式による演算における、固定係数を示す行列の
１つの行成分と、ｍ×ｎブロックあるいはｎ×ｍブロッ
クの１つの列成分とのベクトル内積は、次式（３）によ
り示される２つのベクトルＡ及びベクトルＸの内積と同
一である。

【００１３】

【数３】

【００１４】以下この（３）式を用いて内積の算術演算
について説明する。この（３）式は、Ｍ個の成分
（ａ₀，ａ₁，・・・，ａ_k，・・・，ａ_M-1）を有す
るベクトルＡと、Ｍ個の成分（ｘ₀，ｘ₁，・・・，ｘ
_k，・・・，ｘ_M- ₁）を有するベクトルＸとの内積を求
める一般的な式である。

【００１５】この（３）式が、上記ＤＣＴ処理の、固定
係数を示す行列の１つの行の成分とｍ×ｎブロックの１
つの列の成分の内積演算を示すものである場合、（３）
式に示す成分ａ_k（０≦ｋ≦（Ｍ−１））は、具体的に
は上記固定係数となり、（３）式に示す成分ｘ_k（０≦
ｋ≦（Ｍ−１））は、具体的には−１≦ｘ_k＜１の範囲
内に納まるようスケーリングにより正規化された入力デ
ータ（画素値）としての小数点数となる。

【００１６】ここで、上記小数点数（成分）ｘ_kを、２
の補数表現を用いて二進数により表され、かつ、最上位
ビット（ＭＳＢ）としての符号ビットとその１つ下位側
のビットとの間に小数点が位置するＮビット長の固定小
数点数とすると、この固定小数点数ｘ_kは、２⁰，
２^-1，・・・，２^-p，・・・，２^-(N-2)，２^-(N-1)の各
位の数を、それぞれｂ_k(N-1)，ｂ_k(N-2)，・・・，ｂ
_k(N-1-p)，・・・，ｂ_k1，ｂ_k0として、次の（４）式に
より表される。

【００１７】

【数４】

【００１８】なお、ｂ_k3，ｂ_k2，ｂ_k1，ｂ_k0がそれぞれ
０，１，０，１である４桁の固定小数点数「０１０１
₍₂₎」に対応する十進数の値「０．６２５₍₁₀₎」は、次
の（５ａ）式により、また、ｂ_k3，ｂ_k2，ｂ_k1，ｂ_k0が
それぞれ０，１，１，０である４桁の固定小数点数「０
１１０₍₂₎」に対応する十進数の値「０．６２５₍₁₀₎」
は、次の（５ｂ）式により、さらに、ｂ_k3，ｂ_k2，
ｂ_k1，ｂ_k0がそれぞれ１，１，０，１である４桁の固定
小数点数「１１０１₍₂₎」に対応する十進数の値「−
０．３７５₍₁₀₎」は、次の（５ｃ）式により求められ
る。

【００１９】

【数５】

【００２０】従って、上記ベクトル内積を求める（３）
式に、（４）式で示す固定小数点数を代入することによ
り、固定係数と固定小数点数（つまり正規化された入力
データ）との内積の値ｙを、ＤＡ法により，つまり固定
小数点数の各位毎に分けて演算して、求めるための演算
式が次の（６）式として得られる。

【００２１】

【数６】

【００２２】この（６）式では、上記ベクトル内積の値
ｙ、つまり１次元ＤＣＴ処理により得られるｍ×ｎブロ
ックにおける１つの成分の値は、固定係数行列における
１つの行のｍ個の成分と、入力データとしての固定小数
点数の所定の位の値をｍ個の入力データの各々について
取り出して得られるｍ個の成分との内積（部分内積）
を、上記固定小数点数のビット長Ｎに相当する数だけ加
算した値として表されている。以下、入力データの値
（固定小数点数）における１つの位（ビット）に対応す
る数値をすべての入力データについてまとめたものをビ
ットスライスという。

【００２３】なお、図２２は、上記Ｍ個の入力データを
上記固定小数点数により表示した場合におけるビットス
ライスＢ_(N-1)，Ｂ_(N-2)，・・・，Ｂ_(N-1-P)，・・
・，Ｂ₁，Ｂ₀を示している。例えば、上記ビットスラ
イスＢ_(N-1)は、Ｎビットの入力データｘ₀〜ｘ_(M-1)
における最上位ビットｂ_0(N-1)〜ｂ_(M-1)(N-1)からな
り、上記ビットスライスＢ_(N-2)は、入力データｘ₀〜
ｘ_(M-1)における最上位ビットより１つ下位のビットｂ
_0(N-2)〜ｂ_(M-1)(N-2)からなる。また、上記ビットスラ
イスＢ_(N-1-p)は、入力データｘ₀〜ｘ_(M-1)における
最上位ビットからｐ番目のビットｂ_0(N-1-p)〜ｂ
_(M-1)(N-1-p)からなる。さらに上記ビットスライスＢ₁
は、入力データｘ₀〜ｘ_(M-1)における最下位ビットの
１つ上位のビットｂ₀₁〜ｂ_(M-1)1からなり、上記ビット
スライスＢ₀は、入力データｘ₀〜ｘ_(M-1 ₎における最
下位ビットｂ₀₀〜ｂ_(M-1)0からなる。

【００２４】そこで、上記（６）式の最終結果の第１項
及び第２項に示される部分積の値を、それぞれ（７ａ）
式及び（７ｂ）式に示すように、Ｒ（Ｂ_(N-1)），Ｒ
（Ｂ_(N _-1-p)）として、ＲＯＭテーブルに格納すること
により、（７ｃ）式に示すように、ベクトル内積の値を
二進演算により、乗算処理を行うことなく、ＲＯＭテー
ブルに記述された部分積（部分内積）の値Ｒ
（Ｂ_(N-1)），Ｒ（Ｂ_(N-1-p)）を使用して求めること
ができる。

【００２５】

【数７】

【００２６】ところで以下に示す表１は、上記ｍ×ｎブ
ロックに対する１次元のＩＤＣＴ処理に必要となるＲＯ
Ｍテーブルに記述された部分積の値Ｒ（Ｂ_(N-1)），Ｒ
（Ｂ_(N-1-p)）のダイナミックレンジを、水平ピクセル
長（つまりｍ×ｎブロックにおける列の数）ｎ毎に区分
して示している。ただし、上記表１では、ｍ，ｎは２以
上８以下の整数としている。

【００２７】

【表１】

【００２８】例えば、上記表１における水平ピクセル長
ｎ（ｎ＝８）に対応する部分積の値のダイナミックレン
ジの欄には、上記（６）式により、８個の固定係数（ａ
_k：ａ₀〜ａ₇）と８個の入力データ（画素値）
（ｘ_k：ｘ₀〜ｘ₇）とのベクトル内積を求める際に必
要となる部分積の値Ｒ（Ｂ_(N-1)），Ｒ（Ｂ_(N-1-p)）
の最大値Ｒ_MAXが示されている。

【００２９】なお、各ビットスライスＢ_(N-1)，Ｂ
_(N-1-p)に対応する部分積の値Ｒ（Ｂ_(N _-1)），Ｒ（Ｂ
_(N-1-p)）（Ｎ＝８，１≦ｐ≦７）は、各ビットスライ
スを構成するビットの値に応じて０から上記最大値Ｒ
_MAXの範囲で変動するものであるが、ビットスライスを
構成するビットの配列パターンが同じであれば、同じ値
となるため、ＲＯＭテーブルには、部分積としては、ビ
ットスライスを構成するビットの配列パターンに対応す
るものを格納すればよい。言い換えると、ＲＯＭテーブ
ルには、部分積の値が、ビットスライスにおけるビット
配列パターンの数だけ格納されることとなる。

【００３０】ところで、−１．０≦ｘ＜１．０の固定小
数点数の数体系を扱う累算器においでは、水平ピクセル
長ｎ（ｎ＝２）以外の水平ピクセル長に対応する部分積
の値を記述したルックアップテーブルを使用した場合に
は、表１から分かるように、オーバーフローが発生する
可能性が極めて高いため、ルックアップテーブルを用い
た累算処理は実用的ではない。

【００３１】そこで、累算器の語長にガードビットをビ
ット設けて、ダイナミックレンジを減衰する方法が考え
られるが、累算器の語長にガードビットを１ビット設け
て、ダイナミックレンジを−６ｄＢ減衰した場合には、
水平ピクセル長ｎ（ｎ＝７，６，５）に対応する部分積
の値を記述したルックアップテーブルについては、まだ
オーバーフローの発生する可能性がある。このため、水
平ピクセル長ｎ（ｎ＝７，６，５）についての演算に
は、累算器の語長にガードビットを２ビット設けて、ダ
イナミックレンジを−１２ｄＢ減衰する必要がある。

【００３２】ところが、従来の固定小数点数の数体系を
扱う累算器では、小数点位置の管理は困難があるため、
全ての水平ピクセル長に対応する部分積の値のダイナミ
ックレンジを均一に減衰して累算を行う方法か、また
は、各水平ピクセル長の間で部分積の値のダイナミック
レンジを不均一にしたままで累算を行い、累算完了後に
水平ピクセル長ｎ（ｎ＝７，６，５）についての演算結
果は汎用シフタまたは乗算器を用いてそのダイナミック
レンジを補正するという方法が考えられる。以下、表２
に示す不均一なダイナミックレンジのルックアップテー
ブルを使用して行う累算処理について説明する。

【００３３】

【表２】

【００３４】図２３は、上記（７ｃ）式に示すベクトル
内積ｙを求める累算処理を模式的に示している。この累
算処理は、ＤＦ法が使用できない場合、即ち、水平ピク
セル長Ｎが２のベキ乗でない場合のＤＡ法による演算の
一例である。なお、この累算処理では、Ｌビットの第１
入力値とＬビットの第２入力値との加算により（Ｌ＋
１）ビットの加算出力値が算出される。また、この累算
処理では累算器にはガードビットとして２ビットが設け
られている。

【００３５】まず、１サイクル目の累算処理では、累算
の初期値１９００を累算器の第１入力値とし、０番目の
ビットスライスＢ₀（図２２参照）に対応するテーブル
値（部分積の値）１９０１を累算器の第２入力値として
これらを加算して、演算結果としての加算出力値１９０
２を算出する。

【００３６】続く、２サイクル目の累算処理では、１サ
イクル目の加算出力値１９０２のＬＳＢを切捨てて得ら
れる中間累算値を累算器の第１入力値とし、１番目のビ
ットスライスＢ₁（図２２参照）に対応するテーブル値
（部分積の値）を累算器の第２入力値としてこれらの入
力値が加算される。

【００３７】つまり、ｉサイクル目の累算処理では、
（ｉ−１）サイクル目の加算出力値１９０３のＬＳＢを
切捨てて得られる中間累算値を累算器の第１入力値と
し、（ｉ−１）番目のビットスライスＢ_(i-1)に対応す
るテーブル値（部分積の値）１９０４を累算器の第２入
力値としてこれらを加算し、ｉサイクル目の加算結果と
しての加算出力値１９０５を算出する。この加算出力値
１９０５は、そのＬＳＢとしての１ビットが切捨てられ
て、ｉサイクル目の累算処理における累算器の第１入力
値となる。

【００３８】さらに、（Ｎ−２）サイクル目の累算処理
では、（Ｎ−３）サイクル目の加算出力値１９０６のＬ
ＳＢを切捨てて得られる中間累算値を累算器の第１入力
値とし、（Ｎ−３）番目のビットスライスＢ_(N-3)に対
応するテーブル値（部分積の値）１９０７を累算器の第
２入力値としてこれらを加算し、（Ｎ−２）サイクル目
の加算結果としての加算出力値１９０８を算出する。続
く、（Ｎ−１）サイクル目の累算処理では、（Ｎ−２）
サイクル目の加算出力値１９０８のＬＳＢを切捨てて得
られる中間累算値を累算器の第１入力値とし、（Ｎ−
２）番目のビットスライスＢ_(N-2)（図２２参照）に対
応するテーブル値（部分積の値）１９０９を累算器の第
２入力値としてこれらの入力値が加算され、（Ｎ−１）
サイクル目の加算結果としての加算出力値１９１０が算
出される。

【００３９】そして、Ｎサイクル目の累算処理では、
（Ｎ−１）サイクル目の加算出力値１９１０のＬＳＢを
切捨てて得られる中間累算値を累算器の第１入力値と
し、（Ｎ−１）番目のビットスライスＢ_(N-1)（図２２
参照）に対応するテーブル値（部分積の値）に対する２
の補数１９１１を累算器の第２入力値としてこれらが加
算され、Ｎサイクル目の加算結果としての加算出力値１
９１２を算出する。

【００４０】だたし、このＮサイクル目の加算結果とし
ての加算出力値１９１２は、ガードビットを２ビットと
する累算処理の最終結果であるため、２ビット左論理シ
フトしてレンジを元のスケールに戻して出力語長１９１
４として出力される。なお、上記出力語長におけるＬＳ
Ｂ側の２ビット（２桁）の値は０となっている。

【００４１】このようなＮサイクルの累算処理をｍ回行
うことにより、ｍ×ｎブロックＤの１列分の画素値に対
する処理が完了し、さらにＮサイクルの累算処理をｍ回
行う演算をｎ回行うことにより、ｍ×ｎブロックＤ全体
に対する１次元ＤＣＴが完了する。

【００４２】その後は、ｍ×ｎブロックＤに対する１次
元ＤＣＴ処理により得られるｍ×ｎブロックＦに対し
て、マトリクス状に配列された成分の縦列と横列とを置
換するトランスポーズ処理を施して、これにより得られ
るｎ×ｍブロックＦ′に対して、同様に１次元ＤＣＴ処
理を施して、ｍ×ｎブロックＦに対する２次元ＤＣＴ処
理を実現する。これにより空間領域の画素値ｄ_ijに対応
する周波数領域における画素値ｇ_ijからなるｍ×ｎブロ
ックＧが得られる。

【００４３】以下、上記２次元ＤＣＴ処理について３行
３列の画素からなる画像空間（３×３ブロック）を用い
て具体的に説明する。図２４は、上記３×３ブロックに
対する２次元ＤＣＴ処理（３×３の２次元ＤＣＴ処理）
を説明するための図である。まず、図２４(a) に示す３
×３ブロックＤ₃₃に対する３×１の１次元ＤＣＴ処理
が、次の行列式（８）で示す演算を、上記３×３ブロッ
クＤ₃₃の各列の画素値に対して繰り返すことにより行わ
れる。

【００４４】

【数８】

【００４５】つまり、行列式（８）では、３×３ブロッ
クＤ₃₃の第１列目の画素値に対するベクトル内積を求め
る演算が示されており、ここでは、ｄ₀₀，ｄ₁₀，ｄ₂₀は
それぞれｄ₀₀＝0101₍₂₎＝ 0.625₍₁₀₎，ｄ₁₀＝0110₍₂₎
＝ 0.750₍₁₀₎，ｄ₂₀＝1011₍₂ ₎＝-0.625₍₁₀₎としてい
る。また上記行列式（８）における３行３列の行列（固
定係数行列）Ｃ₃₃の各成分ｃ₀₀〜ｃ₃₃は、上記３×１の
１次元ＤＣＴ処理に用いる、直交変換のための固定係数
であり、ここでは、ｃ₀₀，ｃ₀₁，ｃ₀₂はそれぞれｃ₀₀＝
1.00，ｃ₀₁＝0.50，ｃ₀₂＝0.25となっている。

【００４６】上記のような３×３ブロックＤ₃₃に対する
３×１の１次元ＤＣＴ処理により、図２４(b) に示す、
１次元ＤＣＴ処理済みの画素値ｆ₀₀〜ｆ₃₃からなる３×
３ブロックＦ₃₃が得られる。

【００４７】次にトランスポーズにより、つまり３×３
ブロックＦ₃₃における画素値を水平画素列と垂直画素列
の間で入れ替えることにより、図２４(c) に示す、画素
値ｆ′₀₀〜ｆ′₃₃からなる３×３ブロックＦ′₃₃を生成
する。ここで３×３ブロックＦ′₃₃における各画素値
ｆ′₀₀〜ｆ′₃₃は、ｆ′₀₀＝ｆ₀₀，ｆ′₁₀＝ｆ₀₁，ｆ′
₂₀＝ｆ₀₂，ｆ′₀₁＝ｆ₁₀，ｆ′₁₁＝ｆ₁₁，ｆ′₂₁＝
ｆ₁₂，ｆ′₀₂＝ｆ₂₀，ｆ′₁₂＝ｆ₂₁，ｆ′₂₂＝ｆ₂₂とな
っている。その後、上記３×３ブロックＦ′₃₃に対する
３×１の１次元ＤＣＴ処理が、次の行列式（９）で示す
演算を、上記３×３ブロックＦ′₃₃の各列の画素値に対
して繰り返すことにより行われる。

【００４８】

【数９】

【００４９】つまり、行列式（９）では、３×３ブロッ
クＦ′₃₃の第１列目の画素値ｆ′₀₀，ｆ′₁₀，ｆ′₂₀に
対するベクトル内積を求める演算が示されている。また
上記行列式（９）における３行３列の行列の各成分ｃ₀₀
〜ｃ₃₃は、上記３×１の１次元ＤＣＴ処理に用いる、直
交変換のための固定係数であり、上記行列式（８）にお
けるものと同様、ｃ₀₀，ｃ₀₁，ｃ₀₂はそれぞれｃ₀₀＝1.
00，ｃ₀₁＝0.50，ｃ₀₂＝0.25となっている。

【００５０】上記のような３×３ブロックＦ′₃₃に対す
る３×１の１次元ＤＣＴ処理により、図２４(d) に示
す、２次元ＤＣＴ処理済みの画素値ｇ₀₀〜ｇ₃₃からなる
３×３ブロックＧ₃₃が得られる。

【００５１】ところで、上記３×３ブロックに対する２
次元ＤＣＴ処理では、上記行列式（８）における内積ｆ
₀₀の具体的な値は、次の（１０）式から0.84375 とな
る。

【００５２】

【数１０】

【００５３】また、図２５(a) は、上記行列式（８）に
おける画素値ｄ₀₀，ｄ₁₀，ｄ₂₀として上記二進固定小数
点数ｄ₀₀＝0101₍₂₎（＝ 0.625₍₁₀₎），ｄ₁₀＝0110₍₂₎
（＝0.750₍₁₀₎），ｄ₂₀＝1011₍₂₎（＝-0.625₍₁₀₎）を
代入した式を示している。そして計算式（１１）は、上
記計算式（１０）による内積ｆ₀₀を求める計算を、上記
二進固定小数点数の各位（ビット）毎に分けて行う計算
を示している。

【００５４】

【数１１】

【００５５】つまり、上記内積ｆ₀₀は、計算式（１１）
に示すように、ビットスライスＢ₀，Ｂ₁，Ｂ₂，Ｂ₃
（つまり、二進数で表された３つの画素値ｄ₀₀，ｄ₁₀，
ｄ₂₀における各桁（ビット）の数値のグループ）に対応
する部分内積ｆ_cy1，ｆ_cy2，ｆ_cy3，ｆ_cy4の和とな
る。なお、各部分内積ｆ_cy1，ｆ_cy2，ｆ_cy3，ｆ_cy4
は、計算式（１１ａ）〜（１１ｄ）により求められ、そ
れぞれｆ_cy1＝0.15625 ，ｆ_cy2＝0.1875，ｆ_cy3＝0.7
50 ，ｆ_cy4＝-0.250となる。

【００５６】但し、実際の累算は、上記ビットスライス
Ｂ₀，Ｂ₁，Ｂ₂，Ｂ₃に対応する部分内積ｆ_cy1，ｆ
_cy2，ｆ_cy3，ｆ_cy4として、ＲＯＭテーブルに格納さ
れたテーブル値が用いられる。ここで、テーブル値Ｔ
_cy1，Ｔ_cy2，Ｔ_cy3，Ｔ_cy4としては、最上位ビット
（ＭＳＢ）としての符号ビットとその１つ下位側のビッ
トとの間に小数点が位置する、２の補数表現を用いて二
進数により表される４ビット長の固定小数点数を用いて
いる。このため、図２５(b) に示すように、上記部分内
積ｆ_cy1＝0.15625 ₍₁₀₎＝0.00101 ₍₂₎に対するテーブ
ル値Ｔ_cy1は（０１０１）となり、部分内積ｆ_cy2＝0.
1875₍₁₀₎＝0.0011₍₂₎に対するテーブル値Ｔ_cy2は（０
０１１）となる。また、部分内積ｆ_cy3＝0.750 ₍₁₀₎＝
0.110 ₍₂₎に対するテーブル値Ｔ_cy3は（０１１０）で
あり、さらに部分内積ｆ_cy4＝-0.1250 ₍₁₀₎＝-0.001
₍₂₎に対するテーブル値Ｔ_cy4は（１１１１）となる。

【００５７】図２６は、上記ベクトル内積ｆ₀₀を累算器
によりテーブル値を用いて求める具体的な累算処理を示
している。この累算処理では累算器にはガードビットと
して１ビットが設けられている。以下簡単に説明する
と、まず、１サイクル目の累算処理では、累算の初期値
２０００を累算器の第１入力値「００１０」とし、０番
目のビットスライスＢ₀に対応するテーブル値２００１
を累算器の第２入力値「０１０１」としてこれらを加算
して、１サイクル目の加算結果２００２としての加算出
力値「００１１１」を算出する。

【００５８】続く、２サイクル目の累算処理では、１サ
イクル目の加算出力値「００１１１」のＬＳＢを切捨て
て得られる中間累算値を累算器の第１入力値「００１
１」とし、１番目のビットスライスＢ₁に対応するテー
ブル値２００３を累算器の第２入力値「００１１」とし
てこれらの入力値を加算して、２サイクル目の加算結果
２００４としての加算出力値「００１１０」を算出す
る。

【００５９】さらに、３サイクル目の累算処理では、２
サイクル目の加算出力値「００１１０」のＬＳＢを切捨
てて得られる中間累算値を累算器の第１入力値「００１
１」とし、２番目のビットスライスＢ₂に対応するテー
ブル値２００５を累算器の第２入力値「０１１０」とし
てこれらの入力値を加算して、３サイクル目の加算結果
２００６としての加算出力値「０１００１」を算出す
る。

【００６０】そして、最終サイクルの累算処理では、３
サイクル目の加算出力値「０１００１」のＬＳＢを切捨
てて得られる中間累算値を累算器の第１入力値「０１０
０」とし、３番目のビットスライスＢ₃に対応するテー
ブル値に対する２の補数２００７を累算器の第２入力値
「１１１１」としてこれらの入力値を加算して、最終サ
イクルの加算結果２００８としての加算出力値「００１
１」を算出する。

【００６１】この最終サイクルの累算結果としての累算
出力値「００１１」は、ガードビットを１ビットとする
累算処理の最終結果であるため、この値「００１１」
を、１ビット左論理シフトしてレンジを元のスケールに
戻した値「０１１Ｘ」（左１ビットシフト値２０１０）
とし、さらにそのＬＳＢ側の１ビット（１桁）Ｘの値を
０とし、最終演算結果２０１１である上記ベクトル内積
ｆ₀₀の値「０１１０」（＝「0.750 ₍₁₀₎」）を得る。

【００６２】なお、このような累算器によるベクトル内
積ｆ₀₀の演算結果「0.750 ₍₁₀₎」に対して、上記計算式
（１０）により示す実際のベクトル内積ｆ₀₀の演算結果
は「0.84375 ₍₁₀₎」であり、累算器による演算誤差は、
「0.09375 ₍₁₀₎」となってい。

【００６３】

【発明が解決しようとする課題】以上のように従来の累
算器では、ｍ×ｎブロック（ｍ，ｎ＝８〜２、ｍ，ｎは
整数）を構成する各ピクセル（画素）の画素値に対する
ＤＣＴまたはＩＤＣＴ処理を行う場合、ＤＡ法に必要な
部分積のダイナミックレンジを水平ピクセル長に拘わら
ず、均一にする必要があり、このため、減衰する必要の
ない水平ピクセル長に対応するルックアップテーブルの
値（つまり部分積のダイナミックレンジ）まで精度を劣
化させてしまうことになる。

【００６４】また、部分積の値にガードビットを設けて
いるテーブルを利用する場合は、水平ピクセル長によっ
て部分積のダイナミックレンジが異なるため、ルックア
ップテーブル間で部分積のダイナミックレンジが不均一
となり、また、部分積の値にガードビットを設けている
テーブルについては、そのガードビットに相当する分だ
け、部分積のダイナミックレンジの有効桁が削減される
こととなって、当然変換精度の劣化が生ずる。上記のよ
うな累算器による画素値の変換精度劣化の課題は、累算
器の演算語長を拡大することで解決されると考えられ
る。

【００６５】ところが、一般的にＤＣＴ演算装置は高速
処理が求められるため、並列処理が行なわれる。そのた
め並列に機能する累算器は複数個備えており、演算語長
の拡大は回路規模の大幅な増大を招くこととなり、回路
規模への大きな影響を及ぼすこととなる。また、演算語
長の拡大は、累算器の中の加算器のキャリー（桁上げ信
号）またはボロー（桁下げ信号）の伝搬時間の増大を招
くため、演算語長を拡大した場合、高い動作周波数で高
速動作させるにはタイミングを配慮した複雑な回路設計
が必要になるという課題が新たに発生する。本発明は上
記のような問題点を解決するためになされたもので、累
算の演算語長を拡大することなく、わずかな回路を付加
するだけで変換精度の向上を図るこができる演算装置を
得ることを目的とする。

【００６６】

【課題を解決するための手段】この発明（請求項１）に
係る演算装置は、所定語長を有する複数の入力データか
らなる入力ベクトルと複数の定数データからなる定数ベ
クトルの内積を、上記入力データの各桁に対応する部分
内積を被加算値に対して加算する演算を複数サイクル繰
り返して算出する演算装置であって、上記部分内積の値
を複数記述したテーブルを含み、上記複数の入力データ
の同一桁の数値を配列してなるビットスライスにおける
数値配列に応じて、各桁のビットスライスに対応する部
分内積の値を該テーブルから検出して出力する部分内積
出力手段と、上記被加算値としての初期値に、あるいは
上記被加算値としての、前演算サイクルの加算出力値か
らその下位側の切捨てビットを除いて得られる中間累算
値に、上記部分内積出力手段から出力された部分内積の
値を加算して現演算サイクルに対応する加算出力値を出
力する加算手段と、上記加算手段から出力される現演算
サイクルの加算出力値の下位側の切捨てビットの値を最
終演算サイクルから少なくとも第１演算サイクルを除く
一定サイクル前まで保持するビット保持手段と、上記加
算手段から出力される最終演算サイクルの加算出力値
を、その最下位ビット側に上記保持手段にて保持されて
いる切捨てビットの値を付加して修正累算出力値として
出力するビット付加手段とを備えたものである。

【００６７】この発明（請求項２）は、請求項１記載の
演算装置において、上記ビット付加手段から出力される
修正累算出力値を構成する各桁の数値を上位側あるいは
下位側に所定桁数シフトして、その出力語長を制御する
出力語長制御手段を備えたものである。

【００６８】この発明（請求項３）は、請求項２記載の
演算装置において、上記初期値として所定語長の初期値
を発生するとともに、該発生される初期値に対する語長
の制御を、上記出力語長制御手段による修正累算出力値
の出力語長の制御と連動して行う初期値発生手段を備え
たものである。

【００６９】この発明（請求項４）は、請求項１ないし
３のいずれかに記載の演算装置において、上記部分内積
出力手段を、上記各桁のビットスライスにおける数値配
列に応じて上記テーブルから検出された部分内積の値を
構成する各桁の数値を、上位側あるいは下位側に所定桁
数シフトして、そのダイナミックレンジを調整するダイ
ナミックレンジ調整手段を備えた構成としたものであ
る。

【００７０】この発明（請求項５）は、請求項１ないし
４のいずれかに記載の演算装置において、部分内積出力
手段を、上記入力データの語長に相当する個数設けたも
のである。

【００７１】この発明（請求項６）は、請求項１ないし
５のいずれかに記載の演算装置において、上記部分内積
出力手段を、上記部分内積の値を記述したテーブルを格
納したテーブルメモリとして、上記内積の演算に用いる
定数データの値に応じたものを複数備え、該各テーブル
メモリに対する、上記ビットスライスの入力端子を共通
なものとするとともに、上記複数のテーブルメモリの一
つを選択するメモリ選択手段を備え、該選択されたテー
ブルメモリから出力される部分内積の値を上記加算手段
に出力する構成としたものである。

【００７２】この発明（請求項７）は、請求項１ないし
６のいずれかに記載の演算装置において、上記複数の入
力データを一定期間保持し、該保持した複数の入力デー
タを複数サイクル繰り返して出力するデータ保持手段を
有し、該複数の入力データの各桁に対応するビットスラ
イスを順次出力する処理を、複数サイクル繰り返すビッ
トスライス生成手段を備えたものである。

【００７３】この発明（請求項８）は、請求項６記載の
演算装置において、上記加算手段の出力である加算出力
値を保持する、複数段のレジスタからなる第１のレジス
タ群と、上記加算手段の加算出力値を受け、上記加算手
段にて実行されている現演算サイクルの１サイクル前の
加算出力値における切捨てビットを上記加算手段での加
算処理のサイクルと同期して順次格納する、複数段のレ
ジスタからなる第２のレジスタ群と、上記第２のレジス
タ群の出力を受け、上記加算手段にて実行されている現
演算サイクルの２サイクル前の加算出力値における切捨
てビットを上記加算手段での加算処理のサイクルと同期
して順次格納する、複数段のレジスタからなる第３のレ
ジスタ群とを備え、上記加算手段での所定サイクルの演
算処理が完了した後、上記加算手段の加算出力値の最下
位桁側に、第１，第２のレジスタ群の出力値を付加し
て、上記複数の入力データに対応するベクトル内積を順
次出力するものである。

【００７４】

【発明の実施の形態】実施の形態１．図１は本発明の実
施の形態１による演算装置を説明するためのブロック図
である。この実施の形態１の演算装置１０００ａは、図
２４(a) に示す３×３ブロックＤ₃₃に対する１次元ＤＣ
Ｔ処理を、行列式（８）に示す演算により行うものであ
る。ここでは、該演算装置１０００ａは、入力データＤ
inとして４ビットの固定小数点数（二進数表示）を扱う
ものとする。

【００７５】なお、行列式（８）は、３行３列の固定係
数行列ｃ_ij（０≦ｉ，ｊ≦２）と、上記３×３ブロック
Ｄ₃₃における第１列の画素値（ｄ₀₀，ｄ₁₀，ｄ₂₀）から
なる３行１列の行列との積を表している。具体的には、
上記入力データＤ_inとしての画素値ｄ₀₀，ｄ₁₀，ｄ₂₀に
対応する固定小数点数は、従来技術で説明したように、
それぞれ０１０１，０１１０，１０１１である。

【００７６】上記演算装置１０００ａは、上記入力デー
タとして、４ビットの画素値ｄ₀₀，ｄ₁₀，ｄ₂₀を受け、
図２５(a) に示す上記ビットスライスＢ₀〜Ｂ₃を生成
するビットスライス生成手段１３００と、該ビットスラ
イスＢ₀〜Ｂ₃に基づいて、１次変換画素値ｆ₀₀を求め
るための累算を行う第１の累算器１３０１と、該ビット
スライスＢ₀〜Ｂ₃に基づいて、１次変換画素値ｆ₁₀を
求めるための累算を行う第２の累算器１３０２と、該ビ
ットスライスＢ₀〜Ｂ₃に基づいて、１次変換画素値ｆ
₂₀を求めるための累算を行う第３の累算器１３０３とを
有している。ここで、上記各累算器１３０１〜１３０３
は、入力データのビット長に相当するサイクル（ここで
は４サイクル）の累算処理を行い、各サイクルの加算出
力値のＬＳＢの値（ＬＳＢ信号）１３０７〜１３０９を
出力するとともに、上記各サイクルの加算出力値のＬＳ
Ｂの１つ上のビットからＭビット目までの値を、Ｍビッ
トの有効累算出力値１３０４〜１３０６として出力する
構成となっている。

【００７７】また、上記演算装置１０００ａは、各累算
器から出力されるＬＳＢの値（ＬＳＢ信号）１３０７〜
１３０９を格納する第１〜第３のレジスタ１３１０〜１
３１２を有しており、各レジスタには、対応する累算器
にて行われている累算サイクルの１つ前の累算サイクル
におけるＬＳＢ信号が格納されるようになっている。

【００７８】さらに、上記演算装置１０００ａは、各累
算器から出力されるＭビット有効累算出力値１３０４〜
１３０６の１つを選択して出力する第１のセレクタ１３
１３と、上記各レジスタ１３１０〜１３１２の出力のう
ちの、上記第１のセレクタ１３１３で選択された有効累
算出力値に対応するものを選択して出力する第２のセレ
クタ１３１６と、上記第１のセレクタ１３１３の出力を
１ビット左シフトするシフタ１３１４と、該シフタ１３
１４の出力をその第１入力とし、上記第２のセレクタ１
３１６の出力を第２入力として、該第１入力及び第２入
力の論理和を出力する論理和手段１３１５とを有してい
る。

【００７９】この論理和手段１３１５の出力が上記行列
式（８）により示す１次元ＤＣＴ、あるいはこれに対応
する逆変換である１次元ＩＤＣＴの演算結果の一つ（具
体的には、１次元ＤＣＴ画素値ｆ₀₀，ｆ₁₀，ｆ₂₀のうち
の１つ）となる。

【００８０】図２は上記演算装置１０００ａを構成する
ビットスライス生成手段１３００の詳細な構成を説明す
るための図である。このビットスライス生成手段１３０
０は、４ビットの入力データＤ_inを格納する第１，第
２，第３のシフトレジスタ１３０ａ，１３０ｂ，１３０
ｃと、連続してパラレル入力される３つの入力データＤ
_in（具体的には画素値ｄ₀₀，ｄ₁₀，ｄ₂₀）を、該画素値
ｄ₀₀が第１のシフトレジスタ１３０ａに、該画素値ｄ₀₀
が第２のシフトレジスタ１３０ｂに、該画素値ｄ₀₀が第
３のシフトレジスタ１３０ｃに格納されるよう選択する
セレクタ１３１とを有している。

【００８１】ここで、第１のシフトレジスタ１３１ａ
は、１ビットのレジスタ１３０を６段直列に接続してな
るものであり、上記セレクタ１３１で選択された４ビッ
トの画素値ｄ₀₀がＬＳＢ側から順次格納され、第２，第
３のシフトレジスタ１３０ｂ，１３０ｃにセレクタ１３
１の出力のＬＳＢビットが入力されたときに、格納され
た４ビットの画素値ｄ₀₀が１ビットづつ出力側にシフト
する構成となっている。

【００８２】また、第２のシフトレジスタ１３１ｂは、
１ビットのレジスタ１３０を５段直列に接続してなるも
のであり、上記セレクタ１３１で選択された４ビットの
画素値ｄ₁₀がＬＳＢ側から順次格納され、第３のシフト
レジスタ１３０ｃにセレクタ１３１の出力のＬＳＢビッ
トが入力されたときに、格納された４ビットの画素値ｄ
₁₀が１ビット出力側にシフトする構成となっている。

【００８３】さらに、第３のシフトレジスタ１３１ｃ
は、１ビットのレジスタ１３０を４段直列に接続してな
るものであり、上記セレクタ１３１で選択された４ビッ
トの画素値ｄ₂₀がＬＳＢ側から順次格納されるようにな
っている。

【００８４】そして、上記ビットスライス生成手段１３
００は、上記第３のシフトレジスタ１３１ｃに画素値が
格納された後、上記３つの画素値における同一桁のビッ
ト値がＬＳＢ側から順にビットスライスＢ₀，Ｂ₁，Ｂ
₂，Ｂ₃としてそれぞれ一定時間ｔだけ出力される構成
となっている。なお、この場合、すべてのビットスライ
スの出力に要する時間Ｔｂは４ｔとなる。

【００８５】図３は上記演算装置１０００ａを構成する
累算器の詳細な構成を説明するための図である。ここで
は、上記演算装置１０００ａにおける各累算器１３０１
〜１３０４はすべて同一構成となっているため、累算器
１００ａとして説明する。この累算器１００ａは、Ｌビ
ットの初期値を発生する初期値発生手段１００と、この
Ｌビットの初期値と、（Ｌ＋１）ビットの加算出力値の
ＬＳＢ（最下位ビット）を切り捨てて得られるＬビット
の中間累算値との一方を選択するセレクタ１０４と、上
記各ビットスライスを受け、それぞれに対応するＬビッ
トの部分積の値を発生する部分積発生手段１０２とを有
している。

【００８６】ここで、上記初期値発生手段１００は上記
初期値として、最終累算結果の出力有効桁の最下位ビッ
ト（ＬＳＢ）の右隣のビットに１が加算されるような
値、また最終サイクルの加算信号値をビット反転して得
られる値を２の補数に変換するために加算する値を発生
するよう構成されている。

【００８７】また、上記部分積発生手段１０２は、図４
(a) に示すように、部分積の値を記述したルックアップ
テーブルを格納したＲＯＭ２００を有し、入力されるビ
ットスライスに対応する部分積の値を、ルックアップテ
ーブルから検出して出力する構成となっている。なお、
この部分積発生手段１０２は、図４(b) に示すように、
部分積の値を記述したルックアップテーブルを格納した
ＲＯＭ２００に加えて、該ＲＯＭから出力される部分積
の値のダイナミックレンジを外部からの制御信号Ｄｃに
基づいて調整するダイナミックレンジ調整手段２０１を
有する構成としてもよい。

【００８８】また、上記累算器１００ａは、上記セレク
タ１０４からのＬビットの出力と、上記Ｌビットの部分
積の値とを加算して、（Ｌ＋１）ビットの加算出力値を
出力する加算器１０３と、該加算出力値を保持するレジ
スタ１０６とを有している。

【００８９】そして、この累算器１００ａは、上記レジ
スタ１０６の出力である（Ｌ＋１）ビット加算出力値の
ＬＳＢを切り捨てて得られるＬビットの中間累算値１０
５が上記セレクタ１０４に出力され、該Ｌビット中間累
算値のＬＳＢ１０７と、該Ｌ中間累算値１０５における
ＬＳＢ側のＭ（Ｍ＜Ｌ＋１）ビットに相当する信号がＭ
ビット有効累算器出力値１０８として外部に出力される
構成となっている。

【００９０】次に動作について説明する。上記演算装置
１０００ａでは、上記行列式（８）に示すベクトル内積
を求める演算が行われる。行列式（８）には、３行３列
の固定係数行列Ｃ₃₃と３行１列の入力画素値行列Ｉの積
を求める演算式が示されている。この式（８）により示
される行列の積の演算は、ベクトル内積を求める演算を
３つ含んでいる。

【００９１】つまり、第１のベクトル内積ｆ₀₀は、ベク
トル内積ｆ₀₀＝（ｃ₀₀，ｃ₀₁，ｃ₀₂）・（ｄ₀₀，ｄ₁₀，
ｄ₂₀）であり、第２のベクトル内積ｆ₁₀は、ベクトル内
積ｆ₁₀＝（ｃ₁₀，ｃ₁₁，ｃ₁₂）・（ｄ₀₀，ｄ₁₀，ｄ₂₀）
であり、第３のベクトル内積ｆ₂₀は、ベクトル内積ｆ₂₀
＝（ｃ₂₀，ｃ₂₁，ｃ₂₂）・（ｄ₀₀，ｄ₁₀，ｄ₂₀）であ
る。

【００９２】そして上記ベクトル内積ｆ₀₀を求めるため
の演算は第１の累算器１３０１により、第２のベクトル
内積ｆ₁₀を求めるための演算は第２の累算器１３０２に
より、さらにベクトル内積ｆ₂₀を求めるための演算は第
３の累算器１３０３により行われる。

【００９３】すなわち、入力データＤ_inとし、４ビット
の画素値ｄ₀₀，ｄ₁₀，ｄ₂₀が上記演算装置１０００ａに
入力されると、各画素値はビットスライス生成手段１３
００にて、各ビット毎にまとめられてビットスライスと
してＬＳＢ側のものから出力される。具体的には、４ビ
ットの画素値ｄ₀₀，ｄ₁₀，ｄ₂₀はそれぞれ、対応するシ
フトレジスタ１３０ａ，１３０ｂ，１３０ｃに順次格納
される。上記画素値ｄ₀₀がＬＳＢ側からシフトレジスタ
１３０ａに格納された後、画素値ｄ₁₀のＬＳＢがシフト
レジスタ１３０ｂに格納されるとき、画素値ｄ₀₀がシフ
トレジスタ１３０ａ内で１ビット出力側にシフトされ、
その後、画素値ｄ₂₀のＬＳＢがシフトレジスタ１３０ｃ
に格納されるとき、画素値ｄ₀₀，ｄ₁₀がそれぞれシフト
レジスタ１３０ａ，１３０ｂ内で１ビット出力側にシフ
トされる。そして、画素値ｄ₂₀の全てのビットがシフト
レジスタ１３０ｃに格納されると、各画素値ｄ₀₀，
ｄ₁₀，ｄ₂₀の各ビットの値が、対応するシフトレジスタ
から順次、ビットスライスＢ₀，Ｂ₁，Ｂ₂，Ｂ₃とし
て各累算器１３０１，１３０２，１３０３へ出力され
る。

【００９４】各累算器では、それぞれのルックアップテ
ーブルを参照して、各ビットスライスと固定係数との部
分内積を初期値あるいは中間累算値に加算する演算処理
をビットスライスの数だけ繰り返し行う。各累算器から
は、各加算サイクルの加算出力値のＬＳＢ値（切捨てビ
ットの値）１３０７，１３０８，１３０９が出力される
とともに、該加算出力値におけるＬＳＢの次のビットか
らＭビット分のＭビットの有効累算出力値１３０４，１
３０５，１３０６が出力される。このとき、各レジスタ
１３１０，１３１１，１３１２は、所定サイクルのＬＳ
Ｂ信号１３０７，１３０８，１３０９を、次の加算サイ
クルのＬＳＢ信号１３０７，１３０８，１３０９が出力
されるまで保持することとなる。

【００９５】各累算器にて最終サイクルの加算処理が完
了すると、セレクタ１３１３では、各累算器からのＭビ
ット有効累算出力値１３０４，１３０５，１３０６を順
次選択してシフタ１３１４に出力する。するとシフタ１
３１４では、セレクタ１３１３にて選択されたＭビット
有効累算出力値を１ビット左シフトして論理和手段１３
１５に出力する。このときセレクタ１３１６では、上記
レジスタ１３１０，１３１１，１３１２からのＬＳＢ信
号１３０７，１３０８，１３０９のうち、上記セレクタ
１３１３にて選択されたものと対応するものを選択して
論理和手段１３１５に出力する。

【００９６】該論理和手段１３１５では、シフタ１３１
４の出力であるＭビット有効累算出力値とセレクタ１３
１６からのＬＳＢ信号に対してその入力順に論理和処理
を施して、順次上記ベクトル内積ｆ₀₀，ｆ₁₀，ｆ₂₀を出
力する。

【００９７】以下、図３に示す累算器１００ａにてベク
トル内積ｆ₀₀を求める演算処理を、上記固定係数行列Ｃ
₃₃の第１行の成分（ｃ₀₀，ｃ₀₁，ｃ₀₂）が（１．００，
０．５０，０．２５）であり、上記画素値行列Ｉの列成
分（ｄ₀₀，ｄ₁₀，ｄ₂₀）が（０．６２５，０．７５０，
−０．６２５）であるとして、具体的に説明する。な
お、上記画素値行列の成分ｄ₀₀，ｄ₁₀，ｄ₂₀は、最上位
ビットを符号ビットとする、二進固定小数点数で表す
と、それぞれ「０１０１」，「０１１０」，「１０１
１」となる。

【００９８】また、本実施の形態１のルックアップテー
ブルでは、表３に示すように減衰量０ｄＢの場合、それ
ぞれ、ビットスライスの値

〔０００〕，〔００１〕，
〔０１０〕，〔０１１〕，〔１００〕，〔１０１），
〔１１０〕，〔１１１〕に対応する部分積の値は、０．
００，０．２５，０．５０，０．７５，１．００，１．
２５，１．５０，１．７５となる。

【００９９】

【表３】

【０１００】ところで、最上位ビット（ＭＳＢ：Most S
ignificant Bit）が符号ビットであり、その右隣に小数
点が位置する固定小数点数Ｘを扱うプロセッサにおいて
は、Ｘの範囲が−１．０≦Ｘ＜１．０（Ｘ：データ）以
外のデータは扱えないため、ルックアップテーブルにお
ける全ての部分積を１ビット右シフトにより−６ｄＢ減
衰して、全ての部分積の値が−１．０≦Ｘ＜１．０の範
囲に納まるよう正規化を行う。

【０１０１】正規化した場合、表３に示すように、ビッ
トスライスの値

〔０００〕，〔００１〕，〔０１０〕，
〔０１１〕，〔１００〕，〔１０１），〔１１０〕，
〔１１１〕に対応する値は、それぞれ０．０００（００
００），０．１２５（０００１），０．２５０（００１
０），０．３７５（００１１），０．５００（０１０
０），０．６２５（０１０１），０．７５０（０１１
０），０．８７５（０１１１）となる。ここで、テーブ
ルにおける部分積の語長は４ビットであり、（）内の数
値は２進数表現によるものである。

【０１０２】図５は、累算の演算語長を４ビットとし、
ルックアップテーブルにおける４ビットの部分積の値
（減衰量−６ｄＢ）を用いたＤＡ法によりベクトル内積
ｆ₀₀を求める演算を模式的に示している。

【０１０３】１サイクル目の加算処理では、累算器１３
０１のセレクタ１０４では、初期値と中間累算値のうち
の初期値が選択され、該累算器の加算器１０３にて、初
期値２０００と０番目のビットスライスＢ₀のテーブル
値２００１の加算が行われる。ここで、上記初期値２０
００は、最終加算結果のＬＳＢの右のビットに１が加算
されるような値「００１０」であり、また、ビットスラ
イスＢ₃が〔１０１〕であるので、これに対応する部分
積の値は、表３におけるテーブル値２００１としての
「０１０１」（減衰量−６ｄＢ）である。これにより上
記累算器１３０１からは、上記１サイクル目の加算結果
２００２として加算出力値「００１１１」が出力され、
レジスタ１０６に格納される。

【０１０４】この１サイクル目の加算出力値は、切り捨
てられるＬＳＢ（１ビット）値１０７と、次のサイクル
の加算に用いられるそれ以外ビットからなる中間累算値
（４ビット）１０５とに分けられ、さらに中間累算値の
うちのＬＳＢ側の所定ビットの有効累算出力値（ここで
は４ビットすべて）１０８が上記ＬＳＢ１０７とともに
出力される。このＬＳＢ値１０７は図３のレジスタ１３
１０に保持される。

【０１０５】２サイクル目の加算処理では、累算器１３
０１のセレクタ１０４にて、初期値と、１サイクル目の
加算結果のＬＳＢを切り捨てて得られる中間累算値２０
０２とのうちの中間累算値２００２が選択され、加算器
１０３では、この中間累算値２００２と、１番目のビッ
トスライスＢ₁のテーブル値２００３の加算が行われ
る。この場合、ビットスライスＢ₁が〔０１１〕である
ので、ビットスライスＢ₁のテーブル値２００３として
は、表３より値「００１１」が得られる。

【０１０６】この２サイクル目の加算結果も１サイクル
目の加算結果と同様、切り捨てられるＬＳＢ（１ビッ
ト）１０７と、次のサイクルの加算に用いられるそれ以
外ビットからなる中間累算値（４ビット）１０５とに分
けられ、さらに中間累算値のうちのＬＳＢ側の所定ビッ
トの有効累算出力値（ここでは４ビットすべて）１０８
が上記ＬＳＢ値１０７とともに出力される。このＬＳＢ
値１０７は図３のレジスタ１３１０に保持される。

【０１０７】３サイクル目の加算処理では、累算器１３
０１のセレクタ１０４にて、初期値と、２サイクル目の
加算結果のＬＳＢを切り捨てて得られる中間累算値２０
０４とのうちの中間累算値２００４が選択され、加算器
１０３にて、この中間累算値２００４と、２番目のビッ
トスライスＢ₂のテーブル値２００５の加算が行われ
る。この場合、ビットスライスＢ₂が〔１１０〕である
ので、ビットスライスＢ₂のテーブル値２００６として
は、表３より値「０１１０」が得られる。

【０１０８】この３サイクル目の加算結果も２サイクル
目の加算結果と同様、切り捨てられるＬＳＢ（１ビッ
ト）１０７と、次のサイクルの加算に用いられるそれ以
外ビットからなる中間累算値（４ビット）１０５とに分
けられ、さらに中間累算値のうちのＬＳＢ側の所定ビッ
トの有効累算出力値（ここでは４ビットすべて）１０８
が上記ＬＳＢ値１０７とともに出力される。このＬＳＢ
信号１０７は図３のレジスタ１３１０に保持される。

【０１０９】４サイクル目（最終サイクル）の加算処理
では、累算器１３０１のセレクタ１０４では、初期値
と、３サイクル目の累算結果のＬＳＢを切り捨てて得ら
れる中間累算値２００６とのうちの中間累算値２００６
が選択され、加算器１０３では、この中間累算値２００
６と、３番目のビットスライスＢ₃のテーブル値に対す
る２の補数２００７の加算が行われる。この場合、ビッ
トスライスＢ₃が〔０１１〕であるので、ビットスライ
スＢ₃のテーブル値に対する２の補数２００７として
は、表３より値「１１１１」が得られる。

【０１１０】この４サイクル目の加算結果は、切り捨て
られるＬＳＢ（１ビット）１０７と、それ以外ビットか
らなる中間累算値（４ビット）１０５とに分けられ、さ
らに中間累算値のうちのＬＳＢ側の所定ビットの有効累
算出力値（ここでは４ビットすべて）１０８が最終累算
結果２００８として出力される。この４サイクル目の累
算結果すなわち累算最終結果２００８は「００１１」と
なる。

【０１１１】なお、この累算最終結果２００８は、図１
に示す累算器１３０１の出力信号１３０４としてセレク
タ１３１３を経由して、図１に示すシフタ１３１４に出
力される。このシフタ１３１４では、上記最終累算結果
２００８であるＭビット有効累算出力値１３０４は、１
ビット左シフトにより元のダイナミックレンジに復元さ
れる。つまり、上記Ｍビット信号１３０４を１ビット左
シフトさせて得られる値２０１０は、上記「００１１」
を＋６ｄＢ増幅させた「０１１０」となる。この値２０
１０のＬＳＢの値は０とされる。

【０１１２】さらにセレクタ１３１６を経由して得られ
る、図１に示すレジスタ１３１０に保持していた値２０
０９である「１」と、上記値２０１０としての「０１１
０」との論理和が、図１に示す論理和手段１３１５によ
って演算され、実効累算出力値として、論理和結果２０
１１である「０１１１」が得られる。この値がベクトル
内積ｆ₀₀となっている。

【０１１３】また、図１に示す累算器１３０２及び１３
０３においても上記と同様に累算器１３０１と並列にベ
クトル内積ｆ₁₀及びｆ₂₀の演算処理が行われ、その第１
の出力であるＭビット有効累算出力値がセレクタ１３１
３により、その第２の出力であるＬＳＢ値がセレクタ１
３１６によって選択され、Ｍビット有効累算出力値とＬ
ＳＢ値の論理和が実効累算出力値（つまりベクトル内積
ｆ₁₀及びｆ₂₀の値）として順番に出力される。

【０１１４】以上のようにして得られたベクトル内積ｆ
₀₀の累算器１３０１による演算結果である「０１１１」
は、１０進数で表現すると０．８７５であり、演算式
（１０）に基づいて得られる実際のベクトル内積ｆ₀₀の
値「０．８４３７５」との誤差は、「０．０３１２５」
となる。

【０１１５】これに対し、従来の累算器においては切り
捨てビットを保持する機構は備えていないため、ベクト
ル内積ｆ₀₀の演算値は、最終加算サイクルにて得られる
有効累算出力値を左１ビットシフトした段階の値（図２
０に示す演算処理における値２０１０），つまり「０１
１０」である。これは、１０進数で表現すると０．７５
であり、演算式（１０）に基づいて得られる実際のベク
トル内積ｆ₀₀の値「０．８４３７５」との誤差は、「−
０．０９３７５」となっている。

【０１１６】このように本実施の形態１の累算器による
ベクトル内積の演算値と実際のベクトル内積の値との誤
差は、＋０．０３１２５であり、従来の累算器によるベ
クトル内積の演算値と実際のベクトル内積の値の誤差
は、−０．０９３７５であることから明らかに本実施の
形態１の累算器の方が変換精度の劣化が少ないことがわ
かる。

【０１１７】また、精度劣化の改善のために付加する回
路構成としては、累算器内では切り捨てビットを累算器
の外部に出力する信号線だけでよく、累算器の外部には
切り捨てビットを保持する１ビットのレジスタを累算器
の個数分付加すればよい。セレクタは従来のＤＣＴまた
はＩＤＣＴ演算を実現する装置にも備わっており、ま
た、シフタ及び論理和手段は汎用の算術論理演算ユニッ
ト（ＡＬＵ：Arithmetic and Logic Unit ）で実現でき
るため、付加する回路は小規模である。実際、ＤＳＰ
（Digital Signal Processor）等で上記ＤＣＴ処理を行
う場合には、ＤＣＴ演算とＡＬＵを組み合わせた命令セ
ットを用意し、さらに実行をパイプライン化することで
効率良い処理が可能となる。

【０１１８】このように本実施の形態１では、部分積の
有効桁が削減されている演算においては累算の中間結果
の切捨てビット信号を保持し、この切捨てビットを累算
最終結果に反映するようにしたので、累算の演算語長の
拡大をぜずに、わずかな回路を付加するだけで変換精度
の劣化を抑えることができる。

【０１１９】実施の形態２．図６は本発明の実施の形態
２による演算装置を説明するための図である。この実施
の形態２の演算装置１０００ｂは、ＤＣＴまたはＩＤＣ
Ｔ演算等に使用される行列の積を算出するものである。
ここでは、説明を簡単にするため、この演算装置は、行
列式（８）に示す３×３の固定係数行列Ｃ₃₃と３×１の
画素値行列Ｉの積を実現するための構成を示している。

【０１２０】すなわち、上記演算装置１０００ｂは、実
施の形態１の演算装置１０００ａにおけるビットスライ
ス生成手段１３００と同一構成のビットスライス生成手
段１４００と、該ビットスライス生成手段１４００から
出力されるビットスライスＢ₀，Ｂ₁，Ｂ₂，Ｂ₃に基
づいて、上記（８）式に示す演算を行う累算器１４０
１，１４０２，１４０３と、各累算器からの出力１４０
４，１４０５，１４０６を順次選択して、１次元ＤＣＴ
画素値ｆ₀₀，ｆ₁₀，ｆ₂₀を順次出力するセレクタ１４０
７とを有している。

【０１２１】次に上記演算装置１０００ｂを構成する累
算器の構成について説明する。なお、上記累算器１４０
１〜１４０３は同一構成となっているため、ここでは、
これらの累算器を累算器１００ｂとして説明する。

【０１２２】図７(a) は、上記累算器１００ｂの構成を
示すブロック図である。この累算器１００ｂは、実施の
形態１の演算装置１０００ａを構成する累算器１００ａ
と同様、初期値発生手段３００，セレクタ３０４，部分
積発生手段３０２，加算器３０３，レジスタ３０６を備
えており、これは、上記実施の形態１の累算器１００ａ
の対応するものと同一構成となっている。

【０１２３】また、上記累算器１００ｂは、これらの構
成に加えて、（Ｌ＋１）ビットの加算結果における、切
り捨てられるＬＳＢを１演算サイクルの期間だけ保持す
る切り捨てビット保持手段３０８を備えており、上記所
定サイクルに対応するＭビットの有効累算出力値３０９
と、その１サイクル前の切り捨てビット３１０とを配線
の構成により組み合わせて、（Ｍ＋１）ビットの実効累
算出力値３１１として出力する構成となっている。

【０１２４】ここで、上記切捨てビット保持手段３０８
は、図７(b) に示すように上記レジスタ３０６からのＬ
ＳＢ値３０７を格納するレジスタ４００により構成され
ており、上記加算器３０３での演算サイクルの１サイク
ル前の切捨てビットを保持するよう構成されている。こ
のような構成の切捨てビット保持手段は、累算器にて、
ガードビットを１ビット設けて、その入力値として減衰
量−６ｄＢの値を扱う場合には有効なものとなる。

【０１２５】次に作用効果について説明する。このよう
な構成の実施の形態２の演算装置１０００ｂでは、各累
算器１４０１〜１４０３からは、実施の形態１の論理和
手段１３１５の出力に相当する（Ｍ＋１）ビットの実効
累算出力値が出力され、各累算器の出力かセレクタ１４
０７により順次選択されて、１次元ＤＣＴ画素値ｆ₀₀，
ｆ₁₀，ｆ₂₀が順次出力されることとなる。

【０１２６】つまり、上記累算器１４０１では、各演算
サイクルの加算結果がレジスタ３０６に保持され、該レ
ジスタの出力が、その切り捨てビット（ＬＳＢ）３０７
とそれ以外のＬビットの中間累算値３０５とに分けら
れ、該切り捨てビット（ＬＳＢ）３０７が切り捨てビッ
ト保持手段３０８にて保持される。そして、上記中間累
算値３０５のうちのＬＳＢ側のＭビットの有効累算出力
値３０９に、ビット保持手段３０８の出力が配線の構成
により付加されて、（Ｍ＋１）ビットの実効累算出力値
３１１が出力される。その他の累算器１４０２，１４０
３においても、上記累算器１４０１と同様の累算処理が
行われる。

【０１２７】このような構成の実施の形態２では、中間
累算値３０５のうちのＬＳＢ側のＭビットの有効累算出
力値３０９に、ビット保持手段３０８の出力を配線の構
成により付加して、（Ｍ＋１）ビットの実効累算出力値
を１次元ＤＣＴ画素値として出力するようにしているの
で、実施の形態１のものと比べて回路構成を小規模なも
とのできる効果がある。

【０１２８】つまり、上記実施の形態１においては、最
終累算結果２００８の１ビット左シフトを行うシフタを
累算器外部に設け、この１ビット左シフトした値と切捨
てビット保持手段からの１ビットの出力信号２００９と
の論理和を行う論理和手段を設けているが、本実施の形
態２では、累算器にて上記シフタによるシフト処理と論
理和手段による論理演算処理を配線で実現している。

【０１２９】このため、本実施の形態２では、実施の形
態１と同様に精度劣化の改善効果があり、さらに実施の
形態１で必要としたシフタ１３１４及び論理和手段１３
１５は不要であるため、回路の小規模化が図れる。

【０１３０】なお、本実施の形態においては、３×３の
固定係数行列Ｃ₃₃と３×１の画素値行列Ｉの積を例にし
たが、一般的にＮ×Ｎの行列の積を行なう場合には、図
６に示す演算装置１０００ｂにおける累算器の個数をＮ
個にすればよい。

【０１３１】実施の形態３．図８は本発明の実施の形態
３による演算装置を説明するための図であり、該演算装
置を構成する累算器（図(a) ）、及び該累算器を構成す
る切り捨てビット保持手段（図(b) ）を示している。こ
の実施の形態３の演算装置における累算器１００ｃは、
上記実施の形態２の累算器１００ｂにおける切り捨てビ
ット保持手段３０８に代えて、レジスタ７００ａ及び７
００ｂを二段直列に接続してなる切り捨てビット保持手
段３０８ａに置き換えたものである。

【０１３２】このビット保持手段３０８ａは、１サイク
ル前の切り捨てビットと２サイクル前の切捨てビットを
保持し、１サイクル前の切り捨てビットと２サイクル前
の切捨てビットを２ビットの切捨てビットとして出力す
る構成となっている。このような構成の切捨てビット保
持手段３０８ａは、累算器にてガードビットを２ビット
設けて−１２ｄＢ減衰した値を扱う場合には有効であ
る。

【０１３３】次に作用効果について説明する。このよう
な構成の切り捨てビット保持手段３０８ａを用いた累算
器１００ｃでは、図８に示すレジスタ３０６からの（Ｌ
＋１）ビットの加算結果のＬＳＢ側の２ビットを切り捨
てて得られる（Ｌ−１）ビットの中間累算値から、その
ＬＳＢ側の（Ｍ−１）ビットが有効累算出力値３０９と
して出力され、上記（Ｌ＋１）ビットの加算結果のＬＳ
Ｂ側の２ビットが切り捨てビット保持手段３０８に保持
される。そして、上記（Ｍ−１）ビットの有効累算出力
値３０９に、切捨てビット保持手段３０８からの２ビッ
トの切捨て値３１０が付加されて、（Ｍ＋１）ビットの
修正累算出力３１１が得られる。

【０１３４】以下、図９及び図２３を用いて本実施の形
態３の累算器の動作を詳述する。なお、この累算処理で
は、Ｌビットの第１入力値とＬビットの第２入力値との
加算により（Ｌ＋１）ビットの加算出力値が算出され
る。また、この累算処理では、累算器にはガードビット
が２ビット設けられている。

【０１３５】まず、１サイクル目の累算処理では、累算
の初期値１８００を累算器の第１入力値とし、１番目の
ビットスライスＢ_(N-1)に対応するテーブル値（部分積
の値）１８０１を累算器の第２入力値としてこれらを加
算して、加算結果としての加算出力値１８０２を算出す
る。そして、ｉサイクル目の累算処理では、（ｉ−１）
サイクル目の累算出力値１８０３のＬＳＢを切捨てて得
られる中間累算値を累算器の第１入力値とし、（ｉ−
１）番目のビットスライスＢ_(N-i+1)に対応するテーブ
ル値（部分積の値）１８０４を累算器の第２入力値とし
てこれらを加算し、ｉサイクル目の加算結果としての加
算出力値１８０５を算出する。この加算出力値１８０５
は、そのＬＳＢとしての１ビットが切捨てられて、ｉサ
イクル目の加算処理における累算器の第１入力値とな
る。

【０１３６】さらに、（Ｎ−２）サイクル目の累算処理
では、（Ｎ−３）サイクル目の加算出力値１８０６のＬ
ＳＢを切捨てて得られる中間累算値を累算器の第１入力
値とし、（Ｎ−３）番目のビットスライスＢ₂に対応す
るテーブル値（部分積の値）１８０７を累算器の第２入
力値としてこれらを加算し、（Ｎ−２）サイクル目の加
算結果としての加算出力値１８０８を算出する。このと
き加算出力値１８０８の切り捨てビットはレジスタ７０
０に保持される。

【０１３７】続く、（Ｎ−１）サイクル目の加算処理で
は、（Ｎ−２）サイクル目の加算出力値１８０８のＬＳ
Ｂを切捨てて得られる中間累算値を累算器の第１入力値
とし、（Ｎ−２）番目のビットスライスＢ₁に対応する
テーブル値（部分積の値）１８０９を累算器の第２入力
値としてこれらの入力値が加算され、（Ｎ−１）サイク
ル目の加算結果としての加算出力値１８１０が算出され
る。このときレジスタ７００に保持されている値は、レ
ジスタ７０１に移動し、レジスタ７００には加算出力値
１８１０の切り捨てビットが保持される。

【０１３８】そして、Ｎサイクル目の加算処理では、
（Ｎ−１）サイクル目の加算出力値１８１０のＬＳＢを
切捨てて得られる中間累算値を累算器の第１入力値と
し、（Ｎ−１）番目のビットスライスＢ₀に対応するテ
ーブル値（部分積の値）に対する２の補数１８１１を累
算器の第２入力値としてこれらを加算し、Ｎサイクル目
の加算結果としての最終加算出力値１８１２を算出す
る。

【０１３９】だたし、このＮサイクル目の加算結果とし
ての最終加算出力値１８１２は、ガードビットを２ビッ
トとする累算処理の最終結果であるため、Ｎサイクル目
の加算処理における第１入力値と第２入力値との加算値
を、２ビット左論理シフトしてレンジを元のスケールに
戻した値となっており、ＬＳＢ側の２ビット（２桁）に
は、その上位側にレジスタ７００の値が、その下位側の
１ビットにレジスタ７０１の値が設定される。

【０１４０】上記Ｎサイクルの加算処理をｍ回行うこと
により、ｍ×ｎブロックＤの１列分の画素値に対する処
理が完了し、さらにＮサイクルの加算処理をｍ回行う演
算をｎ回行うことにより、ｍ×ｎブロックＤ全体に対す
る１次元ＤＣＴが完了する。

【０１４１】その後は、ｍ×ｎブロックＤに対する１次
元ＤＣＴ処理により得られるｍ×ｎブロックＦに対し
て、マトリクス状に配列された成分の縦列と横列とを置
換するトランスポーズ処理を施して、これにより得られ
るｎ×ｍブロックＦｔに対して、同様に１次元ＤＣＴ処
理を施して、ｍ×ｎブロックＦに対する２次元ＤＣＴ処
理を実現する。これにより周波数空間における画素値か
らなるｍ×ｎブロックＧが得られる。

【０１４２】本実施の形態３の累算器では、累算器にガ
ードビットを２ビット設けて減衰量−１２ｄＢの値を演
算する場合にも精度劣化を改善することが可能である。
また、この実施の形態３の累算器の構成は、上記実施の
形態２の累算器の構成に切捨てビットを保持するレジス
タを１つ付加して、切り捨てビット保持手段をシフトレ
ジスタからなる構成とするだけでよい。なお、累算器に
おけるガードビットが３以上ある場合には、切捨てビッ
ト保持手段３０８ａを構成するシフトレジスタの段数を
ガードビット数と同数にすれば精度劣化の改善が可能で
ある。

【０１４３】実施の形態４．図１０は本発明の実施の形
態４による演算装置を説明するための図であり、該演算
装置を構成する累算器の構成を示している。この累算器
１００ｄは、実施の形態２の演算装置１０００ｂを構成
する累算器１００ｂと同様、初期値発生手段５００，セ
レクタ５０４，部分積発生手段５０２，加算器５０３，
レジスタ５０６を備えており、これらは、上記実施の形
態２の累算器１００ｂの対応するものと同一構成となっ
ている。

【０１４４】また、この累算器１００ｄは、上記実施の
形態２の切り捨てビット保持手段３０８に代えて、加算
器での加算演算のＫサイクル分に相当する切捨てビット
を保持可能な構成の切り捨てビット保持手段５０８を備
え、さらにレジスタ５０６からの（Ｌ＋１）ビットの中
間累算値から分離されたＭビット有効累算出力値５０９
のＬＳＢ側に上記切り捨てビット保持手段からのＫビッ
トの切り捨てビットを付加して得られる（Ｍ＋Ｋ）ビッ
トの修正累算出力値を、（Ｋ−１）ビット右シフトし
て、スケールの調整を行う出力ビット調整手段５１２
と、テーブルにおける部分積の値に設定されているガー
ドビットの数に応じて、上記初期値発生手段５００及び
出力ビット調整手段５１２を制御する制御手段５２０と
を備えたものである。

【０１４５】上記初期値発生手段５００は上記制御手段
５２０からの制御信号により、部分積発生手段５０２か
ら出力される部分積の値の減衰量に対応するよう初期値
の設定を行う構成となっている。

【０１４６】また、上記出力ビット調整手段５１２は、
上記制御手段５２０からの制御信号により、部分積発生
手段５０２から出力される部分積の値の減衰量と、切り
捨てビットのビット数とに応じて、修正累算出力値５１
１の左ビットシフトを行う構成となっている。

【０１４７】例えば、累算器にガードビットを１ビット
設けて減衰量−６ｄＢの値を演算する場合、切捨てビッ
ト保持手段５０８からの出力５１０が２ビットであれ
ば、出力ビット調整手段５１２で、修正累算出力値５１
１の１ビット左シフトを行なう。

【０１４８】このような構成の実施の形態４の演算装置
における累算器では、部分積発生手段における、各水平
ピクセル長に対応するＲＯＭテーブルの間で、その部分
積の値の減衰量（ガードビット）に応じて、初期値発生
手段での初期値の設定、及び出力ビット調整手段での左
シフトビットの量を調整するようにしたので、部分積発
生手段における、各水平ピクセル長に対応するＲＯＭテ
ーブルの間で、その部分積の値の減衰量（ガードビッ
ト）のバラツキがあっても、バラツキに合わせて精度劣
化の改善を行ない、かつ累算の出力を元のレンジに戻す
ことが可能である。

【０１４９】実施の形態５．図１１は本発明の実施の形
態５による演算装置を説明するための図であり、図１１
(a) は、該演算装置を構成する累算器の構成を示してい
る。この実施の形態５の累算器１００ｅは、Ｌビットの
初期値を発生する初期値発生手段８００と、このＬビッ
トの初期値と、（Ｌ＋２）ビットの加算出力値のＬＳＢ
側の２ビットを切り捨てて得られるＬビットの中間累算
値との一方を選択するセレクタ５０４と、上記ビットス
ライスを受け、これに対応するＬビットの部分積の値を
発生する第１，第２の部分積発生手段８０３，８０４と
を有している。

【０１５０】ここで、上記初期値発生手段８００は上記
初期値として、最終加算結果の出力有効桁の最下位ビッ
ト（ＬＳＢ）の右隣のビットに１が加算されるような
値、また最終加算出力値をビット反転した値を２の補数
に変換するために加算する値を発生するよう構成されて
いる。また、上記第１，第２の部分積発生手段８０３，
８０４はそれぞれ、図４(a) に示すように、部分積の値
を記述したルックアップテーブルを格納したＲＯＭ２０
０を有し、入力されるビットスライスに対応する部分積
の値を、ルックアップテーブルから検出して出力する構
成となっている。

【０１５１】また、上記累算器１００ｅは、上記セレク
タ８０５からのＬビットの出力と、上記各部分積発生手
段８０３及び８０４からのＬビットの部分積の値とを加
算して、（Ｌ＋２）ビットの加算結果（（Ｌ＋２）加算
出力値）を出力する加算器８０７と、上記（Ｌ＋２）加
算出力値を保持するレジスタ８０８とを有しており、該
レジスタ８０８の出力である（Ｌ＋２）加算出力値のＬ
ＳＢ側の２ビットを切り捨てて得られるＬビット中間累
算値１０５が上記セレクタ８０４に出力されるようにな
っている。

【０１５２】そして、この累算器１００ｅは、上記（Ｌ
＋２）中間累算値のＬＳＢ側の２ビット８０９を切捨て
値として格納する切り捨てビット保持手段８１０と、上
記（Ｌ＋２）中間累算値のＬＳＢ側の２ビットを切り捨
てて得られるＭビット有効累算出力値８１１のＬＳＢ側
に、該保持手段８１０に格納された２ビットの切捨て値
を付加して得られる（Ｍ＋２）修正累算出力値８１３を
受け、該（Ｍ＋２）ビット修正累算出力値８１３を所定
ビット左シフトして実効累算出力値８１５として出力す
る出力ビット調整手段８１４とを有している。

【０１５３】また、図１１(b) は、この実施の形態５の
演算装置を構成するビットスライス生成手段を説明する
ための図である。このビットスライス生成手段１９００
は、４ビットの入力データＤ_inを格納する第１，第２，
第３のシフトレジスタ１９０ａ，１９０ｂ，１９０ｃ
と、連続してパラレル入力される３つの入力データＤ_in
（具体的には画素値ｄ₀₀，ｄ₁₀，ｄ₂₀）を、該画素値ｄ
₀₀が第１のシフトレジスタ１９０ａに、該画素値ｄ₀₀が
第２のシフトレジスタ１９０ｂに、該画素値ｄ₀₀が第３
のシフトレジスタ１９０ｃに格納されるよう選択するセ
レクタ１９１とを有している。

【０１５４】ここで、第１のシフトレジスタ１９１ａ
は、１ビットのレジスタ１９０を８段直列に接続してな
るものであり、上記セレクタ１９１で選択された４ビッ
トの画素値ｄ₀₀がＬＳＢ側から順次格納され、第２，第
３のシフトレジスタ１９０ｂ，１９０ｃにセレクタ１９
１の出力のＬＳＢビットが入力されたときに、格納され
た４ビットの画素値ｄ₀₀が２ビットづつ出力側にシフト
する構成となっている。

【０１５５】また、第２のシフトレジスタ１９１ｂは、
１ビットのレジスタ１９０を６段直列に接続してなるも
のであり、上記セレクタ１６１で選択された４ビットの
画素値ｄ₁₀がＬＳＢ側から順次格納され、第３のシフト
レジスタ１９０ｃにセレクタ１９１の出力のＬＳＢビッ
トが入力されたときに、格納された４ビットの画素値ｄ
₁₀が２ビット出力側にシフトする構成となっている。

【０１５６】さらに、第３のシフトレジスタ１９１ｃ
は、１ビットのレジスタ１９０を４段直列に接続してな
るものであり、上記セレクタ１９１で選択された４ビッ
トの画素値ｄ₂₀がＬＳＢ側から順次格納されるようにな
っている。

【０１５７】そして、上記ビットスライス生成手段１９
００は、上記第３のシフトレジスタ１９１ｃに画素値が
格納された後、上記３つの画素値における同一桁のビッ
ト値がＬＳＢ側から２桁づつ順に出力される構成となっ
ている。つまり、各レジスタの出力段側から２段目のレ
ジスタの値はビットスライスＢ₁，Ｂ₃として上記部分
積発生手段８０２に、各レジスタの出力段側から１段目
のレジスタの値はビットスライスＢ₀，Ｂ₂として、上
記部分積発生手段８０２に出力される。

【０１５８】次に作用効果について説明する。まず、入
力データＤ_inとし、４ビットの画素値ｄ₀₀，ｄ₁₀，ｄ₂₀
が上記本実施の形態５の演算装置に入力されると、各画
素値はビットスライス生成手段１９００にて、各ビット
毎にまとめられてビットスライスとしてＬＳＢ側のもの
から出力される。具体的には、４ビットの画素値ｄ₀₀，
ｄ₁₀，ｄ₂₀はそれぞれ、対応するシフトレジスタ１９０
ａ，１９０ｂ，１９０ｃに順次格納される。上記画素値
ｄ₀₀がＬＳＢ側からシフトレジスタ１９０ａに格納され
た後、画素値ｄ₁₀のＬＳＢがシフトレジスタ１９０ｂに
格納されるとき、画素値ｄ₀₀がシフトレジスタ１９０ａ
内で２ビット出力側にシフトされ、その後、画素値ｄ₂₀
のＬＳＢがシフトレジスタ１９０ｃに格納されるとき、
画素値ｄ₀₀，ｄ₁₀がそれぞれシフトレジスタ１９０ａ，
１９０ｂ内で２ビット出力側にシフトされる。そして、
画素値ｄ₂₀の全てのビットがシフトレジスタ１９０ｃに
格納されると、各画素値ｄ₀₀，ｄ₁₀，ｄ₂₀の各ビットの
値が、対応するシフトレジスタから２ビットづつ順次各
累算器（図１の累算器１３０１，１３０２，１３０３に
対応するもの）へ出力される。

【０１５９】各累算器では、それぞれのルックアップテ
ーブルを参照して、各ビットスライスと固定係数との部
分内積を初期値あるいは中間累算値に加算する演算処理
をビットスライスの数だけ繰り返し行う。

【０１６０】以下、図１２を用いて本実施の形態５の累
算器の動作を説明する。なお、この累算処理では、Ｌビ
ットの第１，第２，第３入力値の加算により（Ｌ＋２）
ビットの加算出力が算出される。また、ここでは、累算
器のガードビットは２ビットとしている。

【０１６１】まず、１サイクル目の累算処理では、累算
の初期値１７００を累算器の第１入力値とし、０番目の
ビットスライスＢ₀に対応するテーブル値（部分積の
値）１７０１を累算器の第２入力値とし、１番目のビッ
トスライスＢ₁に対応するテーブル値（部分積の値）１
７０２を累算器の第３入力値としてこれらを加算して、
（Ｌ＋２）ビットの加算結果の値（（Ｌ＋２）ビット加
算出力値）を出力する。

【０１６２】そして、ｉサイクル目の加算処理では、
（ｉ−１）サイクル目の加算出力値１７０４のＬＳＢ側
の２ビットを切捨てて得られる値を累算器の第１入力値
とし、（２ｉ−１）番目のビットスライスＢ_2i-1に対応
するテーブル値（部分積の値）１７０５を累算器の第２
入力値とし、２ｉ番目のビットスライスＢ_2iに対応する
テーブル値（部分積の値）１７０６を累算器の第３入力
値としてこれらを加算し、ｉサイクル目の加算結果とし
て（Ｌ＋２）ビット加算出力値１７０７を出力する。こ
の加算出力値１７０７は、そのＬＳＢとしての２ビット
が切捨てられて、（ｉ＋１）サイクル目の加算処理にお
ける累算器の第１入力値となる。

【０１６３】さらに、（Ｎ−２）／２サイクル目の加算
処理では、（Ｎ−４）／２サイクル目の加算出力値１７
０８のＬＳＢ側の２ビットを切捨てて得られる中間累算
値を累算器の第１入力値とし、（Ｎ−４）番目のビット
スライスＢ_N-4に対応するテーブル値（部分積の値）１
７０９を累算器の第２入力値とし、（Ｎ−３）番目のビ
ットスライスＢ_N-3に対応するテーブル値（部分積の
値）１７１０を累算器の第３入力値としてこれらを加算
し、（Ｎ−２）／２サイクル目の加算結果として（Ｌ＋
２）ビット加算出力値１７１１を出力する。このとき加
算出力値１７１１のＬＳＢ側の２ビットは切捨てビット
として切捨てビット保持手段８１０に保持される。

【０１６４】続く、Ｎ／２サイクル目の累算処理では、
（Ｎ−２）／２サイクル目の（Ｌ＋２）ビット加算出力
値１７１１のＬＳＢ側の２ビットを切捨てて得られる中
間累算値を累算器の第１入力値とし、（Ｎ−２）番目の
ビットスライスＢ_(N-2)に対応するテーブル値（部分積
の値）１７１２を累算器の第２入力値とし、（Ｎ−１）
番目のビットスライスＢ_(N-1)に対応するテーブル値
（部分積の値）に対する２の補数１７１３を累算器の第
３入力値としてこれらの入力値が加算され、Ｎ／２サイ
クル目の加算結果として、（Ｌ＋２）ビット加算出力値
１７１４が算出される。

【０１６５】この（Ｌ＋２）ビット加算出力値１７１４
のＬＳＢ側の２ビットを切り捨てて得られるＬビット中
間累算値のうちの、ＬＳＢ側のＭビットは、有効累算出
力として、上記切捨てビット保持手段８１０における最
終加算サイクルの１つ前のサイクルに対応する切捨てビ
ットが付加され、（Ｍ＋２）ビットの修正累算出力値８
１３となる。この修正累算出力値８１３は、出力ビット
調整手段８１４にて減衰量が復元されるよう所定ビット
左シフトされて、実効累算出力値８１５として出力され
る。

【０１６６】上記Ｎ／２サイクルの累算処理をｍ回行う
ことにより、ｍ×ｎブロックＤの１列分の画素値に対す
る処理が完了し、さらにＮサイクルの累算処理をｍ回行
う演算をｎ回行うことにより、ｍ×ｎブロックＤ全体に
対する１次元ＤＣＴが完了する。

【０１６７】その後は、ｍ×ｎブロックＤに対する１次
元ＤＣＴ処理により得られるｍ×ｎブロックＦに対し
て、マトリクス状に配列された成分の縦列と横列とを置
換するトランスポーズ処理を施して、これにより得られ
るｎ×ｍブロックＦ′に対して、同様に１次元ＤＣＴ処
理を施して、ｍ×ｎブロックＦに対する２次元ＤＣＴ処
理を実現する。これにより周波数空間における画素値か
らなるｍ×ｎブロックＧが得られる。

【０１６８】図１３は、７×７ブロックを構成するピク
セルに対するＩＤＣＴ演算を、ランダムな１０，０００
ブロックについて行った結果を用いて、演算精度を、本
実施の形態５の累算器を用いた場合と従来の累算器を用
いた場合とで対比して示している。

【０１６９】基準値は、６４ビットの浮動小数点の精度
で演算した結果である。図１３に示す評価座標では、横
軸には評価手法が、縦軸には評価値が示されている。Ｍ
ＳＱ（ａｐ）は、各ピクセルの平均２乗誤差のピーク
値、ＭＳＱ（ｏａ）は、全ピクセルの平均２乗誤差、Ｍ
ＥＡＮ（ａｐ）は、各ピクセルの平均誤差のピーク値、
ＭＥＡＮ（ｏａ）は、全ピクセルの平均誤差であり、そ
れぞれ以下の評価式（１２ａ）〜（１２ｄ）により求め
られる。

【０１７０】

【数１２】

【０１７１】ここで、Ｘｂ（ａ）は評価値、Ｒｂ（ａ）
は基準値であり、ａはブロック内画素番号（７×７ブロ
ックの場合はａは１〜４９の整数）であり、ｂはブロッ
ク番号（１〜１００００の整数）である。グラフＡは従
来の累算器に対する評価を示し、グラフＢは本実施の形
態５の累算器に対する評価を示している。ここで評価値
は、誤差の量を表すものであるため、その値が小さい方
が精度が良いことになる。本実施の形態５では、３入力
加算を行なうことで処理量を半減させることが可能あ
り、しかも図１３からも分かるように精度劣化の改善も
可能である。

【０１７２】実施の形態６．図１４は、本発明の実施の
形態６による演算装置を説明するためのブロック図であ
る。この実施の形態６の演算装置１０００ｆは、入力デ
ータとして、４ビット画素値ｄ₀₀，ｄ₁₀，ｄ₂₀を受け、
図２４(a) に示すビットスライスＢ₀，Ｂ₁，Ｂ₂，Ｂ
₃を生成するビットスライス生成手段１５００と、ビッ
トスライスＢ₀，Ｂ₁，Ｂ₂，Ｂ₃に基づいて、１次元
ＤＣＴ画素値ｆ₀₀，ｆ₁₀，ｆ₂₀を順次出力する累算器１
５０１とを有しており、その出力は、ＤＣＴまたはＩＤ
ＣＴ等における変換処理の行列積の演算結果の一つとな
る。

【０１７３】図１５は上記ビットスライス生成手段１５
００の構成を示すブロック図である。このビットスライ
ス生成手段１５００は、４ビットの入力データＤ_inを格
納する第１，第２，第３のシフトレジスタ１５０ａ，１
５０ｂ，１５０ｃと、連続してパラレル入力される３つ
の入力データＤ_in（具体的には画素値ｄ₀₀，ｄ₁₀，
ｄ₂₀）を、該画素値ｄ₀₀が第１のシフトレジスタ１５０
ａに、該画素値ｄ₀₀が第２のシフトレジスタ１５０ｂ
に、該画素値ｄ₀₀が第３のシフトレジスタ１５０ｃに格
納されるよう選択するセレクタ１５１とを有している。

【０１７４】そして、上記ビットスライス生成手段１５
００は、上記第３のシフトレジスタ１５１ｃに画素値が
格納された後、上記３つの画素値における同一桁のビッ
ト値がＬＳＢ側から順にビットスライスＢ₀，Ｂ₁，Ｂ
₂，Ｂ₃としてそれぞれ一定時間ｔ′だけ出力される構
成となっている。なお、この実施の形態６では、上記ビ
ットスライス生成手段１５００から各ビットスライスが
出力されるタイミングの間隔ｔ′は、実施の形態１にお
ける時間ｔの３倍となっており、すべてのビットスライ
スの出力に要する時間Ｔｂ′も上記実施の形態１におけ
る時間Ｔｂの３倍となっている。

【０１７５】また、図１６は本実施の形態６の演算装置
を構成する累算器の構成を示している。この実施の形態
６の累算器１００ｆは、上記実施の形態２の累算器１０
０ｂにおけるレジスタ３０６に代えて、（Ｌ＋１）ビッ
ト加算出力値を保持する出力値保持手段として、３段の
レジスタ９０６〜９０８からなるレジスタ群を備え、ま
た上記実施の形態２における切捨てビット保持手段３０
８に代えて、（Ｌ＋１）ビット加算出力値の切捨てビッ
トを保持する、６段のレジスタ１２００〜１２０５から
なる切捨てビット保持手段９１０を備えている。そして
さらに、この累算器１００ｆは、上記レジスタ群から出
力される加算出力値のうちのＭビット有効累算値９１１
に上記切捨てビット保持手段９１０からの切捨てビット
９１２を付加して得られる（Ｍ＋１）ビット修正累算出
力値９１３を１ビット左シフトして実効累算出力９１５
を出力する出力ビット調整手段９１４を有している。

【０１７６】ここで、上記切捨てビット保持手段９１０
は、図１７(c) に示すように、レジスタ１２０２の出力
を上位側としてこれにレジスタ１２０５の出力を付加
し、２ビットの切捨てビットをその出力ノードｂ１に出
力する構成となっている。

【０１７７】また、上記部分積発生手段９０２は、図１
７(a) に示すように、部分積の値が記述されたルックア
ップテーブルを格納したＲＯＭ１０００〜１００２、及
び各ＲＯＭの出力を選択して出力するセレクタ１００３
とから構成されている。

【０１７８】なお、この部分積発生手段９０２は、図１
７(b) に示すように、部分積の値が記述されたルックア
ップテーブルを格納したＲＯＭ１１００〜１１０２と、
各ＲＯＭの出力を選択して出力するセレクタ１１０３
と、該セレクタ１１０３の出力のダイナミックレンジを
調整するダイナミックレンジ調整手段１１０４とから構
成してもよい。

【０１７９】その他の構成は、上記実施の形態２の累算
器１００ｂと同一であり、初期値発生手段９００，セレ
クタ９０３，部分積発生手段９０２，加算器９０４は、
実施の形態２の累算器１００ｂにおける対応するものと
同一構成となっている。

【０１８０】次に動作について説明する。ここでは、説
明を簡単にするため、上記行列式（８）に示す３×３の
固定係数行列と３×１の画素値行列の積を例に挙げて説
明する。上記式（８）で示す行列の積の演算は、３つの
ベクトル内積で構成されており、ベクトル内積ｆ₀₀＝
（ｃ₀₀，ｃ₀₁，ｃ₀₂）・（ｄ₀₀，ｄ₁₀，ｄ₂₀）の演算に
使用する部分積の値を記述したルックアップテーブル
は、上記ＲＯＭ１０００に格納されており、ベクトル内
積ｆ₁₀＝（ｃ₁₀，ｃ₁₁，ｃ₁₂）・（ｄ₀₀，ｄ₁₀，ｄ₂₀）
の演算に使用する部分積の値を記述したルックアップテ
ーブルは、ＲＯＭ１００１に格納されており、さらにベ
クトル内積ｆ₂₀＝（ｃ₂₀，ｃ₂₁，ｃ₂₂）・（ｄ₀₀，
ｄ₁₀，ｄ₂₀）の演算に使用する部分積の値を記述したル
ックアップテーブルは、ＲＯＭ１００２に格納されてい
る。

【０１８１】各ＲＯＭ１００１〜１００３からの出力
は、セレクタ１００３によって、ＲＯＭ１０００，ＲＯ
Ｍ１００１，ＲＯＭ１００２出力の順に一定周期（ｔ′
／３）で選択される。上記ビットスライス生成手段１５
００からは、各ベクトル内積に対応する１つのビットス
ライスに対応する部分積の値（テーブル値）が上記一定
周期（以下、テーブル値出力周期という。）で出力され
る。

【０１８２】以下、累算処理の流れを順に説明する。ま
ず、０番目のビットスライスＢ₀がビットスライス生成
手段１５００より出力され、部分積発生手段９０２に入
力される。すると、テーブル値出力の１サイクル目に
は、ＲＯＭ１０００の値と初期値発生手段９００からの
初期値とが加算器９０４にて加算される。その加算結果
は、レジスタ９０６に保持される。テーブル値出力の２
サイクル目には、ＲＯＭ１００１の値と初期値発生手段
９００からの初期値とが上記加算器９０４にて加算され
る。このときレジスタ９０６の値は、レジスタ９０７に
移動し、２サイクル目の加算結果は、レジスタ９０６に
保持される。さらにテーブル値出力の３サイクル目に
は、ＲＯＭ１００２の値と初期値発生手段９００からの
初期値とが加算器９０４にて加算される。このときレジ
スタ９０７の値は、レジスタ９０８に移動し、レジスタ
９０６の値は、レジスタ９０７に移動し、３サイクル目
の加算結果は、レジスタ９０６に保持される。

【０１８３】次に、１番目のビットスライスＢ₁がビッ
トスライス生成手段１５００より出力され、部分積発生
手段９０２に入力される。テーブル出力の４サイクル目
には、ＲＯＭ１００１の値とレジスタ９０８のＬＳＢの
１ビットを切捨てて得られる中間累算器値９０５とが加
算器９０４にて加算される。レジスタ９０８の値は１サ
イクル目の結果であるので、１サイクル目の加算に対す
る続きの加算を行なっていることになる。このときレジ
スタ９０７の値は、レジスタ９０８に移動し、レジスタ
９０６の値は、レジスタ９０７に移動し、４サイクル目
の加算結果は、レジスタ９０６に保持される。

【０１８４】すなわち、レジスタ９０６〜９０８には、
ベクトル内積ｆ₀₀〜ｆ₂₀に対する中間累算値が循環しな
がら保持される。このようにして最終サイクル，つまり
３番目のビットスライスＢ₃に対応する最後のテーブル
値出力サイクルまで、同様の累算処理が繰り返される。

【０１８５】この際、切捨てビット保持手段９１０にお
ける、切捨てビットの上位ビットを保持するレジスタ１
２００〜１２０２と、下位ビットを保持するレジスタ１
２０３〜１２０５には、ベクトル内積ｆ₀₀〜ｆ₂₀の中間
累算器の切捨てビットが循環しながら保持される。

【０１８６】具体的には、レジスタ９０８にベクトル内
積ｆ₀₀に対する、最終サイクルの（Ｌ＋１）ビット中間
累算値が保持された時点では、レジスタ１２０２には最
終サイクルから１サイクル前のベクトル内積ｆ₀₀の中間
累算値の切捨てビットが保持され、レジスタ１２０５に
は最終サイクルから２サイクル前のベクトル内積ｆ₀₀の
中間累算値の切捨てビットが保持されている。

【０１８７】レジスタ９０８からの出力９１１に、レジ
スタ１２０２及びレジスタ１２０５の出力（すなわち切
捨てビット保持手段９１０の出力信号９１２）を付加し
て得られる（Ｍ＋１）ビット修正累算出力９１３が出力
ビット調整手段９１４によって所定ビット左シフトさ
れ、このシフトによるレンジ調整により得られる実効累
算出力９１５がベクトル内積ｆ₀₀の値として出力され
る。次のテーブル値出力サイクルでは同様にベクトル内
積ｆ₁₀の結果出力され、さらにその次のテーブル値出力
サイクルでとベクトル内積ｆ₂₀が出力される。

【０１８８】このように本実施の形態６では、累算器１
つで、全ベクトルの内積の演算を行うので、大幅な回路
削減となる。さらに、精度劣化の改善も可能である。な
お、本実施の形態６では、３行３列の固定係数行列と３
行１列の画素値行列の積を例に挙げて説明したが、Ｎ行
Ｎ列の行列とＮ行１列の行列の積を演算する場合には、
（Ｌ＋１）ビット加算出力値を保持するレジスタ群にお
けるレジスタの数をＮ個にし、切捨てビット保持手段を
構成する、上位側切捨てビットを保持するレジスタ群の
レジスタの個数をＮ個、下位側切捨てビットを保持する
レジスタ群のレジスタの個数をＮ個にすればよい。

【０１８９】実施の形態７．図１８は、本発明の実施の
形態７による演算装置を説明するためのブロック図であ
る。この実施の形態７の演算装置１０００ｇは、入力デ
ータとして、４ビット画素値ｄ₀₀，ｄ₁₀，ｄ₂₀を受け、
図２４(a) に示すビットスライスＢ₀，Ｂ₁，Ｂ₂，Ｂ
₃を生成するビットスライス生成手段１６００と、ビッ
トスライスＢ₀，Ｂ₁，Ｂ₂，Ｂ₃に基づいて、１次変
換画素値ｆ₀₀，ｆ₁₀，ｆ₂₀を順次出力する累算器１６０
１とを有しており、その出力は、ＤＣＴまたはＩＤＣＴ
等における変換処理の行列積の演算結果の一つとなる。

【０１９０】図１９は上記ビットスライス生成手段１６
００の構成を示すブロック図である。このビットスライ
ス生成手段１６００は、４ビットの入力データＤ_inを所
定の個数（ここでは３つ）だけ一定時間保持し、この一
定時間内に該３つの入力データを一定の繰り返し周期で
出力するデータ保持手段１７０と、該データ保持手段か
ら順次出力される入力データを格納する第１，第２，第
３のシフトレジスタ１６０ａ，１６０ｂ，１６０ｃと、
連続してパラレル入力される３つの入力データＤ_in（具
体的には画素値ｄ₀₀，ｄ₁₀，ｄ₂₀）を、該画素値ｄ₀₀が
第１のシフトレジスタ１６０ａに、該画素値ｄ₀₀が第２
のシフトレジスタ１６０ｂに、該画素値ｄ₀₀が第３のシ
フトレジスタ１６０ｃに格納されるよう選択するセレク
タ１６１とを有している。

【０１９１】上記データ保持手段１７０は、パラレル入
力される４ビットの入力データを格納する三段のレジス
タ１７２ａ〜１７２ｃと、最終段のレジスタ１７２ｃの
出力と入力データとを選択するセレクタ１７１とから構
成されている。このセレクタ１７１は、まず、連続する
３つの入力データが各段のレジスタに格納されるまで
は、入力データを選択し、該３つの入力データが格納さ
れた後、これらの入力データの出力が３サイクル行われ
るデータ循環期間（上記一定時間）の間は最終段のレジ
スタ１７２ｃの出力を選択し、その後は、上記のような
タイミングで入力データの選択と最終段のレジスタ出力
の選択とを繰り返す構成となっている。

【０１９２】そして、上記ビットスライス生成手段１６
００は、上記第３のシフトレジスタ１６１ｃに画素値が
格納された後、上記３つの画素値における同一桁のビッ
ト値がＬＳＢ側から順にビットスライスＢ₀，Ｂ₁，Ｂ
₂，Ｂ₃としてそれぞれ一定時間ｔ′だけ出力される構
成となっている。なお、この実施の形態７では、上記ビ
ットスライス生成手段１６００から各ビットスライスが
出力されるタイミングの間隔ｔ_gは、実施の形態１にお
ける時間ｔと同一となっているが、各ベクトル内積
ｆ₀₀，ｆ₁₀，ｆ₂₀を求める累算処理がシリアルに行われ
るため、全てのベクトル内積に対する累算処理が完了す
るまでに要する時間（Ｔc1＋Ｔc2＋Ｔc3）は、上記実施
の形態１における所要時間Ｔｂの３倍となる。

【０１９３】また、図２０(a) は本実施の形態７の演算
装置を構成する累算器の構成を示している。この実施の
形態７の累算器１００ｇは、上記実施の形態３の累算器
１００ｃにおける部分積発生手段３０２に代えて、上記
実施の形態６の累算器１００ｆにおける部分積発生手段
９０２と同一構成の部分積発生手段３０２ｇを有してお
り、さらに、この累算器１００ｇでは、上記レジスタ３
０６から出力される（Ｌ＋１）ビット加算出力値のうち
のＭビット有効累算値３０９に上記切捨てビット保持手
段３０８ａからの切捨てビット３１０を付加して得られ
る（Ｍ＋２）ビット修正累算出力３１１を１ビット左シ
フトして実効累算出力３２０ａを出力する出力ビット調
整手段３２０を有している。

【０１９４】ここで、上記切捨てビット保持手段３０８
ａは、図２０(b) に示すように、切捨てビットを保持す
る前段レジスタ７００及び後段レジスタ７０１からな
り、前段レジスタの出力が上位側の切捨てビット、後段
レジスタの出力が下位側の切捨てビットとして、上記Ｍ
ビット有効累算値３０９に付加されるようになってい
る。その他の構成は、上記実施の形態３の累算器１００
ｃと同一である。

【０１９５】次に動作について説明する。ここでは、説
明を簡単にするため、上記行列式（８）に示す３×３の
固定係数行列と３×１の画素値行列の積を例に挙げて説
明する。まず、この演算装置に入力データとして、連続
する３つの画素値ｄ₀₀，ｄ₁₀，ｄ₂₀が入力されると、こ
れらは入力データ保持手段における３段のレジスタ１７
２ａ〜１７２ｃにそのセレクタ１７１を介して順次格納
される。

【０１９６】すると、セレクタ１７１は、入力データを
選択する状態から最終段のレジスタ１７２ｃの出力する
状態に切り替わり、各レジスタに格納されている画素値
ｄ₀₀，ｄ₁₀，ｄ₂₀が順次一定の周期で出力される。この
とき、４ビットの画素値ｄ₀₀，ｄ₁₀，ｄ₂₀はそれぞれ、
対応するシフトレジスタ１６０ａ，１６０ｂ，１６０ｃ
に順次格納される。また、部分積発生手段３０２ａで
は、ＲＯＭ１０００の出力が選択される。

【０１９７】その後は、実施の形態３の累算器１００ｃ
の動作と同様にして、上記（Ｍ−１）ビット有効累算出
力値３０９に、切捨てビット保持手段３０８からの２ビ
ット出力信号３１０が付加されて、（Ｍ＋１）ビット修
正累算出力３１１が得られる。この実施の形態７では、
上記修正累算出力３１１が出力ビット調整手段３２０に
て１ビット左シフトされて、ベクトル内積ｆ₀₀として実
効累算出力３２０ａが出力される。

【０１９８】そして、再度、各レジスタに格納されてい
る画素値ｄ₀₀，ｄ₁₀，ｄ₂₀が順次一定の周期で出力され
る。このとき、４ビットの画素値ｄ₀₀，ｄ₁₀，ｄ₂₀はそ
れぞれ、対応するシフトレジスタ１６０ａ，１６０ｂ，
１６０ｃに順次格納されると同時に、部分積発生手段３
０２ｇでは、ＲＯＭ１００１の出力が選択される。その
後は、上記ベクトル内積ｆ₀₀の累算処理と同様にして、
ベクトル内積ｆ₁₀として実効累算出力３２０ａが出力さ
れる。

【０１９９】すると、さらに、各レジスタに格納されて
いる画素値ｄ₀₀，ｄ₁₀，ｄ₂₀が順次一定の周期で出力さ
れて４ビットの画素値ｄ₀₀，ｄ₁₀，ｄ₂₀がそれぞれ、対
応するシフトレジスタ１６０ａ，１６０ｂ，１６０ｃに
順次格納されると同時に、部分積発生手段３０２ｇで
は、ＲＯＭ１００２の出力が選択され、上記ベクトル内
積ｆ₀₀の累算処理と同様にして、ベクトル内積ｆ₂₀とし
て実効累算出力３２０ａが出力される。その後は、上記
入力データ保持手段１７０では、セレクタ１７１が、入
力データを選択する状態となり、次の３つの入力データ
の格納処理を開始する。

【０２００】このように本実施の形態７では、上記実施
の形態６と同様に、累算器１つで、全ベクトルの内積の
演算を行うので、大幅な回路削減となる。さらに、精度
劣化の改善も可能である。

【０２０１】なお、本実施の形態７では、３行３列の行
列と３行１列の行列の積を例に挙げて説明したが、Ｎ行
Ｎ列の行列とＮ行１列の行列の積を演算する場合には、
（Ｌ＋１）ビット加算出力値を保持するレジスタ群にお
けるレジスタの数をＮ個にし、切捨てビット保持手段を
構成する、上位側切捨てビットを保持するレジスタ群の
レジスタの個数をＮ個、下位側切捨てビットを保持する
レジスタ群のレジスタの個数をＮ個にすればよい。

【０２０２】

【発明の効果】この発明（請求項１）に係る演算装置に
よれば、複数の入力データの各桁に対応するビットスラ
イスに基づいて、ルックアップテーブルから該ビットス
ライスの数値配列に対応する部分内積を検出して出力す
る部分内積出力手段と、該部分内積を初期値あるいは中
間累算値に対して加算して加算出力値を出力する加算手
段と、該加算出力値の下位側の切捨てビットの数値を保
持するビット保持手段とを備え、上記加算手段での加算
処理を入力データの桁数分に対応するサイクル繰り返し
て得られる最終累算結果の値に、上記ビット保持手段で
保持している最終加算サイクルから所定サイクル前まで
の切捨てビットの数値を付加するようにしたので、部分
内積の値の有効桁が削減される演算処理における演算精
度の劣化を改善することができる。

【０２０３】この発明（請求項２）によれば、請求項１
記載の演算装置において、上記ビット付加手段から出力
される修正累算出力値を構成する各桁の数値を上位側あ
るいは下位側に所定桁数シフトして、その出力語長を制
御する出力語長制御手段を備えたので、上記部分内積の
値としてダイナミックレンジを減衰した値を用いる場合
でも、最終演算結果のダイナミックレンジを、元のレン
ジに復元することができる。

【０２０４】この発明（請求項３）によれば、請求項２
記載の演算装置において、上記初期値を発生する手段と
して、初期値に対応する語長制御を、上記出力語長制御
手段による修正累算出力値の制御と連動して行うものを
備えたので、上記部分内積の値としてそのダイナミック
レンジを減衰した値を用いる場合には、初期値も、これ
に対応してダイナミックレンジを減衰したものとするこ
とができる。

【０２０５】この発明（請求項４）によれば、請求項１
ないし３のいずれかに記載の演算装置において、上記部
分内積出力手段を、上記各桁のビットスライスにおける
数値配列に応じて、上記テーブルから検出された部分内
積の値を構成する各桁の数値を、上位側あるいは下位側
に所定桁数シフトして、そのダイナミックレンジを調整
するダイナミックレンジ調整手段を備えた構成としたの
で、テーブルには部分内積の値として、そのダイナミッ
クレンジを減衰したものを複数格納する必要がなくな
り、テーブルサイズを小さくすることができる。

【０２０６】この発明（請求項５）によれば、請求項１
ないし４のいずれかに記載の演算装置において、上記部
分内積出力手段を、上記入力データの語長に相当する個
数設けたので、複数のビットスライスに対応する部分内
積の値を１サイクルで同時に加算することが可能とな
り、演算処理の高速化を図ることができる。

【０２０７】この発明（請求項６）によれば、請求項１
ないし５のいずれかに記載の演算装置において、上記部
分内積出力手段を、部分内積の値を記述したテーブルを
格納したテーブルメモリとして、上記内積の演算に用い
る定数データの値に応じたものを複数備え、該各テーブ
ルメモリに対する、上記ビットスライスの入力端子を共
通なものとするとともに、上記複数のテーブルメモリの
一つを選択するメモリ選択手段を備え、該選択されたテ
ーブルメモリから出力される部分内積の値を上記加算手
段に出力する構成としたので、複数の内積の演算に用い
る部分内積の値を、１つの部分内積出力手段から出力す
ることができる。具体的には、部分内積の値を累算する
１つの累算器により、複数の内積の値を求めることがで
きる。

【０２０８】この発明（請求項７）は、請求項１ないし
６のいずれかに記載の演算装置において、上記複数の入
力データを一定期間保持し、該保持した複数の入力デー
タを複数サイクル繰り返して出力するデータ保持手段を
有し、該複数の入力データの各桁に対応するビットスラ
イスを順次出力する処理を、複数サイクル繰り返すビッ
トスライス生成手段を備えたので、複数の内積を、上記
部分内積の値の累算処理を行う１つの回路構成により算
出することができる。

【０２０９】この発明（請求項８）によれば、請求項６
記載の演算装置において、上記加算手段の出力である加
算出力値を保持する第１のレジスタ群と、上記加算手段
における現演算サイクルの１サイクル前の加算出力値に
おける切捨てビットを格納する第２のレジスタ群と、該
現演算サイクルの２サイクル前の加算出力値における切
捨てビットを格納する第３のレジスタ群とを備え、上記
加算手段での所定サイクルの演算処理が完了した後、上
記加算手段の加算出力値の最下位桁側に、第１，第２の
レジスタ群の出力値を付加して、複数の入力データに対
応するベクトル内積を順次出力するので、複数の内積
を、上記部分内積の値の累算処理を行う１つの回路構成
により算出することができ、しかもビットスライス生成
手段としては、各内積の演算を並列して行うものと同一
の構成のものを用いることができる。

【図面の簡単な説明】

【図１】本発明の実施の形態１による演算装置を説明す
るためのブロック図である。

【図２】上記実施の形態１の演算装置１０００ａを構成
するビットスライス生成手段１３００の詳細な構成を説
明するための図である。

【図３】上記実施の形態１の演算装置１０００ａを構成
する累算器の詳細な構成を説明するための図である。

【図４】上記実施の形態１の累算器を構成する部分積発
生手段の構成（図(a) ）及びその変形例（図(b) ）を示
す図である。

【図５】上記実施の形態１における具体的な演算処理と
して、累算の演算語長を４ビットとし、４ビットのテー
ブル値を用いたＤＡ法によりベクトル内積ｆ₀₀を求める
演算を示す模式図である。

【図６】本発明の実施の形態２による演算装置を説明す
るための図である。

【図７】上記実施の形態２の演算装置における累算器の
構成（図(a) ）及び該累算器における部分積発生手段の
構成（図(b) ）を示す図である。

【図８】本発明の実施の形態３による演算装置を説明す
るための図であり、該演算装置における累算器を構成す
る切り捨てビット保持手段を示している。

【図９】上記実施の形態３の累算器の動作を説明するた
めの図である。

【図１０】本発明の実施の形態４による演算装置を説明
するための図であり、該演算装置を構成する累算器の構
成を示している。

【図１１】本発明の実施の形態５による演算装置を説明
するための図であり、該演算装置を構成する累算器の構
成を示している。

【図１２】本実施の形態５の累算器の動作を説明するた
めの図である。

【図１３】７×７ブロックを構成するピクセルに対する
ＩＤＣＴ演算の精度を、本実施の形態５の累算器を用い
た場合と従来の累算器を用いた場合とで対比して示す図
である。

【図１４】本発明の実施の形態６による演算装置を説明
するためのブロック図である。

【図１５】上記実施の形態６の演算装置におけるビット
スライス生成手段１５００の構成を示すブロック図であ
る。

【図１６】本実施の形態６の演算装置を構成する累算器
の構成を示している。

【図１７】上記実施の形態６の累算器における部分積発
生手段の構成（図(a) ）及びその変形例（図(b) ）、並
びに該累算器における切捨てビット保持手段の構成（図
(c) ）を示す図である。

【図１８】本発明の実施の形態７による演算装置を説明
するためのブロック図である。

【図１９】上記実施の形態７の演算装置におけるビット
スライス生成手段１６００の構成を示すブロック図であ
る。

【図２０】本実施の形態７の演算装置を構成する累算器
の構成（図(a) ）、及び該累算器における切捨てビット
保持手段の構成（図(b) ）を示す図である。

【図２１】ｍ×ｎブロック（ｍ行ｎ列の画素からなる画
像空間）に対する２次元ＤＣＴ処理を説明するための図
であり、ｍ×ｎブロックＤにおける画素ｄ_ijの配列（図
(a) ）、１次元ＤＣＴ処理済みブロックＦにおける画素
ｆ_ijの配列（図(b) ）、トランスポーズ済みブロック
Ｆ′における画素ｆ′_ijの配列（図(c) ）、２次元ＤＣ
Ｔ処理済みブロックＧにおける画素ｇ_ijの配列（図(d)
）を示している。

【図２２】Ｍ個の入力データを二進表示の固定小数点数
により表示した場合におけるビットスライスＢ_(N-1-P)
（ｐ：０〜Ｎ−１の整数）を示す図である。

【図２３】演算式（７ｃ）に示すベクトル内積ｙをルッ
クアップテーブルを用いてＤＡ法により求める累算処理
を説明するための模式図である。

【図２４】３×３ブロック（３行３列の画素からなる画
像空間）に対する２次元ＤＣＴ処理を説明するための図
であり、３×３ブロックＤ₃₃における画素配列（図(a)
）、１次元ＤＣＴ処理済みブロックＦ₃₃における画素
配列（図(b) ）、トランスポーズ済みのブロックＦ′₃₃
における画素配列（図(c) ）、２次元ＤＣＴ処理済みブ
ロックＧ₃₃における画素配列（図(d) ）を示している。

【図２５】行列式（８）における画素値ｄ₀₀，ｄ₁₀，ｄ
₂₀として二進表示による固定小数点数を代入した式を示
す模式図（図(a) ）、及びビットスライスＢ₀〜Ｂ₃に
対応する部分内積ｆ_cy1〜ｆ_cy4と、ＲＯＭテーブルの
値Ｔ_cy1〜Ｔ_cy4との対応関係を示す図（図(b) ）であ
る。

【図２６】上記ベクトル内積ｆ₀₀を累算器により具体的
なテーブル値を用いて求める累算処理を示す模式図であ
る。

【符号の説明】

１００、３００、５００、８００、９００初期値発生
手段１００ａ〜１００ｇ累算器１０２、３０２、３０２ｇ、５０２、８０３、８０４、
９０２、９０２ａ部分積発生手段１０３、３０３、５０３、８０７、９０４加算器１０４、１３１、１５１、１６１、１７１、１９１、３
０４、５０４、８０５、９０３、１００３、１１０３、
１３１３、１３１６、１４０７セレクタ１０６、１３０、１５０、１６０、１７２ａ〜１７２
ｃ、１９０、３０６、４００、５０６、７００、７０
１、８０８、９０６〜９０８、１２００〜１２０５、１
３１０〜１３１２レジスタ１３０ａ〜１３０ｃ、１５０ａ〜１５０ｃ、１６０ａ〜
１６０ｃ、１９０ａ〜１９０ｃシフトレジスタ１７０データ保持手段３０８、３０８ａ、５０８、８１０、９１０切捨てビ
ット保持手段５１２、８１４、９１４出力ビット調整手段５２０制御手段６０１、１１０４部分積テーブル値のダイナミックレ
ンジ調整手段１３００、１４００、１５００、１６００ビットスラ
イス生成手段１００ａ〜１００ｇ，１３０１〜１３０３、１４０１
〜１４０３、１５０１、１６０１累算器１０００ａ，１０００ｂ，１０００ｆ，１０００ｆ演
算装置１３１５論理和手段

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B022 AA00 BA02 CA01 CA06 EA04 FA06 5B056 AA00 BB31 BB71 BB74 BB83 FF02 FF08 HH03

Claims

【特許請求の範囲】

【請求項１】所定語長を有する複数の入力データから
なる入力ベクトルと複数の定数データからなる定数ベク
トルの内積を、上記入力データの各桁に対応する部分内
積を被加算値に対して加算する演算を複数サイクル繰り
返して算出する演算装置であって、上記部分内積の値を複数記述したテーブルを含み、上記
複数の入力データの同一桁の数値を配列してなるビット
スライスにおける数値配列に応じて、各桁のビットスラ
イスに対応する部分内積の値を該テーブルから検出して
出力する部分内積出力手段と、上記被加算値としての初期値に、あるいは上記被加算値
としての、前演算サイクルの加算出力値からその下位側
の切捨てビットを除いて得られる中間累算値に、上記部
分内積出力手段から出力された部分内積の値を加算して
現演算サイクルに対応する加算出力値を出力する加算手
段と、上記加算手段から出力される現演算サイクルの加算出力
値の下位側の切捨てビットの値を最終演算サイクルから
少なくとも第１演算サイクルを除く一定サイクル前まで
保持するビット保持手段と、上記加算手段から出力される最終演算サイクルの加算出
力値を、その最下位ビット側に上記保持手段にて保持さ
れている切捨てビットの値を付加して修正累算出力値と
して出力するビット付加手段とを備えたことを特徴とす
る演算装置。
【請求項２】請求項１記載の演算装置において、上記ビット付加手段から出力される修正累算出力値を構
成する各桁の数値を上位側あるいは下位側に所定桁数シ
フトして、その出力語長を制御する出力語長制御手段を
備えたことを特徴とする演算装置。
【請求項３】請求項２記載の演算装置において、上記初期値として所定語長の初期値を発生するととも
に、該発生される初期値に対する語長の制御を、上記出
力語長制御手段による修正累算出力値の出力語長の制御
と連動して行う初期値発生手段を備えたことを特徴とす
る演算装置。
【請求項４】請求項１ないし３のいずれかに記載の演
算装置において、上記部分内積出力手段は、上記各桁のビットスライスに
おける数値配列に応じて上記テーブルから検出された部
分内積の値を構成する各桁の数値を、上位側あるいは下
位側に所定桁数シフトして、そのダイナミックレンジを
調整するダイナミックレンジ調整手段を備えたことを特
徴とする演算装置。
【請求項５】請求項１ないし４のいずれかに記載の演
算装置において、上記部分内積出力手段は、上記入力データの語長に相当
する個数設けられていることを特徴とする演算装置。
【請求項６】請求項１ないし５のいずれかに記載の演
算装置において、上記部分内積出力手段は、上記部分内積の値を記述したテーブルを格納したテーブ
ルメモリとして、上記内積の演算に用いる定数データの
値に応じたものを複数備え、該各テーブルメモリに対す
る、上記ビットスライスの入力端子を共通なものとする
とともに、上記複数のテーブルメモリの一つを選択するメモリ選択
手段を備え、該選択されたテーブルメモリから出力される部分内積の
値を上記加算手段に出力する構成としたものであること
を特徴とする演算装置。
【請求項７】請求項１ないし６のいずれかに記載の演
算装置において、上記複数の入力データを一定期間保持し、該保持した複
数の入力データを複数サイクル繰り返して出力するデー
タ保持手段を有し、該複数の入力データの各桁に対応す
るビットスライスを順次出力する処理を、複数サイクル
繰り返すビットスライス生成手段を備えたことを特徴と
する演算装置。
【請求項８】請求項６記載の演算装置において、上記加算手段の出力である加算出力値を保持する、複数
段のレジスタからなる第１のレジスタ群と、上記加算手段の加算出力値を受け、上記加算手段にて実
行されている現演算サイクルの１サイクル前の加算出力
値における切捨てビットを上記加算手段での加算処理の
サイクルと同期して順次格納する、複数段のレジスタか
らなる第２のレジスタ群と、上記第２のレジスタ群の出力を受け、上記加算手段にて
実行されている現演算サイクルの２サイクル前の加算出
力値における切捨てビットを上記加算手段での加算処理
のサイクルと同期して順次格納する、複数段のレジスタ
からなる第３のレジスタ群とを備え、上記加算手段での所定サイクルの演算処理が完了した
後、上記加算手段の加算出力値の最下位桁側に、第１，
第２のレジスタ群の出力値を付加して、上記複数の入力
データに対応するベクトル内積を順次出力することを特
徴とする演算装置。