JP4963220B2

JP4963220B2 - フィルタ演算器及び動き補償装置

Info

Publication number: JP4963220B2
Application number: JP2006314037A
Authority: JP
Inventors: 陽一片山
Original assignee: Renesas Electronics Corp
Current assignee: Renesas Electronics Corp
Priority date: 2006-11-21
Filing date: 2006-11-21
Publication date: 2012-06-27
Anticipated expiration: 2026-11-21
Also published as: JP2008131336A

Description

本発明は、動画の圧縮符号化復号に使用される動き補償処理におけるフィルタ演算を実行するために好適なフィルタ処理装置及びこれを具備する動き補償処理装置に関する。

次世代ＤＶＤ（Digital Versatile Disk）やＤＴＶ（デジタルテレビ）に採用が決定しているＨ．２６４／ＡＶＣやＶＣ−１といった新しいコーデックがある。これらの復号装置においては、動き補償部での動き補償予測フィルタのフィルタ演算をブースのアルゴリズムを適用した乗算器で構成される場合がある。

乗算器の演算時間は、部分積加算をするために必要とする時間と桁上げ信号吸収をするために必要な時間の総和であり、演算速度を高速にする上でこれらの処理時間の短縮が問題となる。その対策として加算回路を減らすために部分積の数そのものを削減する必要がある。そのためには乗数の連続する複数ビットを一まとめのグループにして、このグループに対応した部分積を生成すれば部分積を削減することができる。そこで部分積数削減のために用いられるのが２次のブースである。２次のブースとは、乗数を２ビットごとに区切り、各組と下位組の最上位ビットの計３ビットをひとまとめにするというアルゴリズムを適用した部分積削減の手法である。

しかしながら、上記のようなコーデックのフィルタ演算を行なう際、これをブースのアルゴリズムを適用した乗算器で構成すると、多数の乗算器が必要となり回路規模が増大する。また、同様にＨ．２６４の画面内予測における予測画像の生成に使用されるフィルタ演算をブースのアルゴリズムを適用した乗算器で適用すると回路規模は増大する。

ところで、特許文献１には、乗算器の数を極力少なくし、回路規模を小さくした離散コサイン変換器が開示されている。図１３は、特許文献１に記載の離散コサイン変換器を示す図である。この離散コサイン変換器は、加算器６１２、６４０、６４２、差分器６１０、レジスタ６１４、マルチプレクサ６１６、６５２、マルチプレクサ乗算器６１８、６２０、６２２、６３４、バタフライ加算器６２６、６２８、６３０、６３２、６４４、６４６、６４８、６５０、乗算器６２４、６３６、６３８、及び量子化器６５４を有する。画像データの交流成分として差分器６１０による差分データを得て、これに対しＤＣＴを行う。そして、差分についてのＤＣＴとすることによって、必要な係数の数が少なくなるため、乗算器の数を減少できる。さらに、同一の係数を異なるデータに対し乗算する場合にはマルチプレクサ乗算器６１８、６２０、６２２、６３４を用い、時分割で乗算を行う。このため、乗算器の数をさらに減少することができる。また、乗算すべき係数を量子化器６５４の量子化テーブルに対し予め乗算しておくため、乗算回数を減少することができる。このように、特許文献１に記載の離散コサイン変換器は、離散コサイン変換の特性を利用し、乗算とバタフライ演算を利用して高速に同演算を実行するものである。

また、特許文献２には、空間フィルタリング等の画像信号処理を時系列的に行なう信号処理装置が開示されている。この信号処理装置は、同じ部分積乗算器を繰り返し用いることで乗算器の回路規模を削減するものである。図１４は、特許文献２に記載の情報処理装置におけるプロセッサ、レジスタ回路及び係数レジスタを示す図である。情報処理装置は、入出力バッファ回路７４０、５個の係数Ｗ_１〜Ｗ_５を保持する係数レジスタ７１１、及びプロセッサ７１０を有する。入出力バッファ回路７４０は、バス８２０に、５行分の画素データを保持するＲＡＭ７４６、及び画素データＤ_１〜Ｄ_５をそれぞれ保持する５個のレジスタ７４１〜７４５を有する。プロセッサ７１０は、２個の乗算器７１０ａ、７１０ｂ、加算器７１０ｃ、レジスタ７１０ｄ、ゲート回路７１０ｅ、データ入力側のマルチプレクサ７１０ｆ、７１０ｇ、及び係数入力側のマルチプレクサ７１０ｈ、７１０ｉを有する。

この情報処理装置においては、乗算器７１０ａ、７１０ｂにてそれぞれ部分積Ｐ_１＝Ｗ_１×Ｄ_１、Ｐ_２＝Ｗ_２×Ｄ_２を計算する。部分積Ｐ_１、Ｐ_２及びレジスタ７１０ｄの値がゲート回路７１０ｅを解して加算器７１０ｃに入力され、和が求められ、その結果がレジスタ７１０ｄに保持される。ゲート回路７１０ｅには図示しない制御回路からゲート信号が印加されレジスタ７１０ｄの値が部分積と加算される。次に乗算器７１０ａ、７１０ｂにてそれぞれ部分積Ｐ_３＝Ｗ_３×Ｄ_３、Ｐ_４＝Ｗ_４×Ｄ_４を計算し、前回の部分積の和に加算される。さらに、乗算器７１０ａにて部分積Ｐ_５＝Ｗ_５×Ｄ_５が計算され、乗算器７１０ｂには零が入力される。よって、Ｐ_５のみ前回までの部分積の和に加算され、レジスタ７１０ｄに保持される。レジスタ７１０ｄの内容をゲート７１７及びバス８１０を解して図示せぬメモリセル部に保存する。こうして注目データＤ_３について隣接するデータＤ_２、Ｄ_１、Ｄ_４、Ｄ_５についての５次のベクトルコンボリューションインテグラルを得ることができる。このように、特許文献２に記載の情報処理装置においては、ベクトルコンボリューションの次数５に対し２個の乗算器７１０ａ、７１０ｂとすることができる。
特開平６−４４２９１号公報特開昭６２−１０５２８７号公報

しかしながら、特許文献１に記載の離散コサイン変換器においては、高速に乗算を実施するために、大規模な乗算器を使用するため回路規模が大きいという問題点がある。また汎用的に処理させるために、特に画像の性質を利用するものではないため、演算精度が求められる場合には、その分だけ演算器も演算精度分だけ回路規模も大きくなり、消費電力増大につながる。

また、特許文献２に記載の情報処理装置においては、プロセッサ内においては、乗算器を５つ設ける場合に比して演算時間が３倍となってしまうという問題点がある。

本発明に係るフィルタ演算器は、入力データとフィルタ係数とをブースアルゴリズムを用いて積和演算するフィルタ演算器であって、現在のデータと前回のデータとの差分を求める減算器と、前記減算器からの減算結果とフィルタ係数とを乗算する部分積乗算部と、前記減算結果に基づき前記部分積乗算部での繰り返し演算回数を決定する回数決定部と、前記前回のデータまでの累積結果と前記現在のデータの乗算結果とを加算する累積加算器とを有するものである。

本発明にかかる動き補償処理装置は、予測画像を生成する動き補償処理装置であって、垂直方向の入力データに対してフィルタ演算を行なう第１フィルタ演算部と、水平方向の入力データに応じてフィルタ演算を行なう第２フィルタ演算部と、前記第１及び第２フィルタ演算部の演算結果又は第１及び第２のフィルタ演算に入力する入力データに対して重み付けを行なう重み付け演算部とを有し、前記第１及び第２フィルタ演算部は、入力データとフィルタ係数とをブースアルゴリズムを用いて積和演算するフィルタ演算器であって、現在のデータと前回のデータとの差分を求める減算器と、前記減算器からの減算結果とフィルタ係数とを乗算する部分積乗算部と、前記減算結果に基づき前記部分積乗算部での繰り返し演算回数を決定する回数決定部と、前記前回のデータまでの累積結果と前記現在のデータの乗算結果とを加算する累積加算器とを有するものである。

本発明においては、現在のデータと前回のデータとの差分を求め、この差分を、一の部分積乗算部を繰り返し使用してフィルタ演算する。部分積乗算器を繰り返し使用することで、演算回路規模を大幅に削減し、差分信号を使用することで、繰り返し回数を最小限として演算処理時間の短縮化を図ることができる。

本発明によれば、ハードウェア量及び消費電力を削減することができるブースアルゴリズムを利用したフィルタ演算器及び動き補償装置を提供することができる。

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。本実施の形態は、ブースアルゴリズムを利用したフィルタ演算器において、繰り返し演算することで演算器の規模を劇的に小さくするものである。また、画像の性質を利用し、隣接画素間の画素値の差分量が小さいことを利用して繰り返し演算を行なっても演算処理時間を短縮化する。

先ず、本実施の形態にかかるフィルタ演算器を適用することができる画像復号装置について説明する。ここでは、一例として、Ｈ.２６４及びＶＣ−１における動き補償処理におけるフィルタ演算を実行するフィルタ演算器に適用した場合について説明する。なお、本発明は、Ｈ．２６４及びＶＣ−１の両規格におけるフィルタ演算が可能な動き補償回路について説明するが、Ｈ．２６４のみのフィルタ演算を行なう動き補償回路、ＶＣ−１のみのフィルタ演算を行なう動き補償回路、又はその他ＭＰＥＧ（Moving Picture Experts Group）２、４等のフィルタ演算器にも適用可能であることは勿論である。

先ず、Ｈ.２６４、ＶＣ−１の画像復号装置について説明する。図１及び図２は、それぞれＨ.２６４及びＶＣ−１に準拠して符号化された圧縮画像を復号する復号装置を示すブロック図である。Ｈ．２６４は、ＭＰＥＧ４ＡＶＣ（Advanced Video Coding）とも呼ばれ、データ圧縮率は、ＭＰＥＧ−２の２倍以上、ＭＰＥＧ−４の１．５倍以上とすることができる圧縮符号化方式である。また、ＶＣ−１（Windows Media Video（ＷＭＶ）９）（登録商標）はマイクロソフト社が開発した動画圧縮技術であり、Ｈ．２６４と同程度のデータ圧縮率を有する。これらのアドバンスドコーデック（高圧縮コーデック）は、ＨＤＤＶＤ（High Definition DVD）、又はブルーレイディスク等の次世代ＤＶＤ規格に適用される。

図１に示すように、Ｈ.２６４の画像復号装置１００は、可変長復号部１０２と、逆量子化部１０３と、逆アダマール変換部１０４と、加算器１０５と、デブロッキングフィルタ１０６と、動き補償部１１２と、重み付け予測部１１１と、画面内予測部１１０と、復号画像１０８を表示するモニタ１０９を有する。

可変長復号部１０２は、圧縮データ１０１が入力され可変長符号化された圧縮データを、変換テーブルに基づき可変長復号する。そして、可変長復号された復号データは、逆量子化部１０３にて逆量子化され、逆アダマール変換部１０４にて逆アダマール変換され加算器１０５へ送られる。加算器１０５の出力は、デブロッキングフィルタ１０６によりブロック歪を除去され、復号画像１０８とされ、モニタ１０９を介して表示される。

ここで、加算器１０５の出力が画面内予測部１１０にも入力され、予測画像１１３が生成される。また、復号画像が動き補償部１１２にて動き補償処理が行なわれ、重み付け予測部１１１にて重み付けされて予測画像１１３が生成される。加算器１０５は、Ｉフレーム処理の際には画面内予測部１１０からの予測画像１１３に予測誤差を加算し出力する。一方、Ｐ、Ｂフレーム処理の際には、切替部１０７にて切り替え、重み付け予測部１１１から送られる予測画像１１３に予測誤差を加算して出力する。

また、図２に示すように、ＶＣ−１の画像復号装置２００も、画像復号装置１００とほぼ同様に構成され、可変長復号部２０２、逆量子化部２０３、逆ＤＣＴ変換部２０４、加算器２０５、ループフィルタ２０６、重み付け予測部２０９、動き補償部２１０、及び復号画像２０７を表示するモニタ２０８を有する。ＶＣ−１の画像復号装置２００は、画面内予測を行なわない点、重み付け予測を行なってから動き補償処理を行う点、デブロッキングフィルタ１０６の代わりにループフィルタ２０６が使用される点が異なる。
（３−２）動き補償部

図３は、Ｈ.２６４及びＶＣ−１の規格に準拠したフィルタ演算を含む動き補償処理を実行する動き補償（ＭＣ）部を示すブロック図である。この動き補償部３００は、Ｈ．２６４及びＶＣ−１のいずれの動き補償部でも使用可能な構成とされている。すなわち、両規格にて共有できる。この動き補償部３００は、フィルタ演算部３０２、３０３と、セレクタ３０１、３０４、３０７、３１０、３１３と、乗算器３０４、３１２、加算器３０６、３０８、３１１と、ラインメモリ３０９とを有する。

Ｈ．２６４では、フィルタ演算部３０２、３０３にてフィルタ演算施した後、上述した重み付け係数を使用してオフセット付き重み補間信号を求め、予測画像２１３を得る。ここで、入力ＩＮから入力された参照ピクチャＲ０の画素値が、フィルタ演算部３０２にて垂直方向フィルタによるフィルタ演算が実行され、フィルタ演算部３０３にて水平方向フィルタによるフィルタ演算が施される。そして、生成されたフィルタ演算済みのデータがラインメモリ３０９に格納される。次に、参照ピクチャＲ１の画素値が入力ＩＮから入力されると、同様に、フィルタ演算部３０２、３０３にてフィルタ演算が施され、フィルタ演算済みのデータに乗算器３０５にて重み係数を乗算し、加算器３０６にてオフセット値を加算する。一方、ラインメモリに格納されているデータがセレクタ３１３を介して乗算器３１２にて重み付き係数と乗算され、これらが加算器３０８にて加算され、オフセット付き重み補間信号Ｗ_０Ｘ_０＋Ｗ_１Ｘ_１＋Ｄを生成する。生成されたデータは、ラインメモリ３０９を経て出力ＯＵＴから出力される。

ＶＣ−１の場合は、入力ＩＮからのデータがセレクタ３１３、セレクタ３１０を介し、更にセレクタ３０４から乗算器３０５、加算器３０６を介し、そしてセレクタ３０１を介してフィルタ演算部３０２、３０３に入力される。フィルタ演算部３０３の結果は、セレクタ３０４、セレクタ３０７を介してそのままラインメモリ３０９へ格納され、出力ＯＵＴから出力される。乗算器３１２、加算器３１１、乗算器３０５、加算器３０６では、以下の重み付けが実行される。
Ｈ＝（ｉＳｃａｌｅ×Ｆ＋ｉＳｈｉｆｔ＋３２）＞＞６
ここで、Ｆは入力値、ｉＳｃａｌｅ、ｉＳｈｉｆｔは重み係数を示す。

このように構成された動き補償部３００は、セレクタ３０１、３０４、３０７、３１０、３１３にてフィルタ演算部３０２、３０３への入力、出力を適宜選択するため、重み付けをフィルタ演算後に実行するＨ．２６４であっても、重み付けをフィルタ演算前に実行するＶＣ−１であっても、いずれの演算にも適用可能である。

次に、このような動き補償部等に使用することができるフィルタ演算部について詳細に説明する。なお、上記においては、Ｈ．２６４やＶＣ−１を例にとって説明したが、本実施の形態にかかるフィルタ演算器は、ＭＰＥＧ４、２などにおけるフィルタ演算部としても使用することが可能である。図４は、フィルタ演算部３０２、３０３の詳細を示す図であって、本実施の形態にかかるフィルタ演算器を示すブロック図である。フィルタ演算部３０２、３０３は同様の構成のため、ここではフィルタ演算部３０２について説明する。また、下記表１は、Ｈ．２６４及びＶＣ−１における輝度信号Ｇｙ、色差信号Ｇｃに対するフィルタ係数を示す。

この表１に示すように、Ｈ．２６４は、輝度信号Ｇｙが６タップフィルタ、色差信号Ｇｃは２タップフィルタのフィルタ演算となる。また、ＶＣ−１の輝度信号Ｇｙが４タップフィルタ、色差信号Ｇｃは２タップフィルタのフィルタ演算となる。このため、図４に示に示すフィルタ演算部３０２は、例えば６個のフィルタ演算器１０ａ、１０ｂ、１０ｃ、・・・を有する。なお、フィルタ演算器を１つとして繰り返し演算を行なうようにしてもよい。フィルタ演算部１０ａ、１０ｂ、１０ｃ、・・・の各演算結果は加算器３０にて加算され出力される。フィルタ演算器１０ａ、１０ｂ、１０ｃ、・・・は同じ構成のため、以下では、フィルタ演算器１０として説明する。

図５は、フィルタ演算器１０を示すブロック図である。本実施の形態にかかるフィルタ演算器１０は、ブースデコーダ及び部分積生成部からなる回路部分を１つとし、これを繰り返し使用することで回路規模を削減する。また、減算器１３により、現在の画像データと１つ前の画像データとの差分をとってフィルタ演算することで演算量を低減し、これにより、演算時間を短縮化するものである。

ここで、本実施の形態にかかるフィルタ演算器は、ブースのアルゴリズムを使用して乗算を行うフィルタ演算器である。そこで、本実施の形態にかかるフィルタ演算器の理解を容易とするため、先ず、２次のブースアルゴリズムを利用した乗算器について説明する。

乗数Ｙを符号付き８ビット整数
Ｙ＝−ｙ[７]・２^７＋ｙ[６]・２^６＋ｙ[５]・２^５＋ｙ[４]・２^４＋ｙ[３]・２^３＋ｙ[２]・２^２＋ｙ[１]・２^１＋ｙ[０]・２^０
とすると、任意整数である被乗数Ｘとの積Ｐ＝Ｘ×Ｙは以下のようになる。

この（−２・ｙ[２ｉ＋１]＋ｙ[２ｉ]＋ｙ[２ｉ-１]）を算出するものをブースデコーダ、Ｘ×（−２・ｙ[２ｉ＋１}＋ｙ[２ｉ]＋ｙ[２ｉ-１])×２^２ｉを部分積という。ここで、本明細書においては、ブースデコーダにより求められるデコード値（−２・ｙ[２ｉ＋１]＋ｙ[２ｉ]＋ｙ[２ｉ-１]）を符号データということとする。また、Ｘ×（−２・ｙ[２ｉ＋１}＋ｙ[２ｉ]＋ｙ[２ｉ-１])×２^２ｉ（部分積）を生成する回路を部分積生成ユニット、Ｘ×（−２・ｙ[２ｉ＋１}＋ｙ[２ｉ]＋ｙ[２ｉ-１])×２^２ｉのうち、各ｉに対応した部分積を生成する回路を部分積生成部、符号データ（−２・ｙ[２ｉ＋１]＋ｙ[２ｉ]＋ｙ[２ｉ-１]）を求める回路をブースデコーダ、符号データ×被乗数からなる演算を行ない部分積を求める回路を乗算部、部分積のうち、×２^２ｉの演算を実行する部分をビットシフト部ということとする。

ここで、下記表２に示すように、符号データ（−２・ｙ[２ｉ＋１]＋ｙ[２ｉ]＋ｙ[２ｉ-１]）の値の組み合わせは８通りしかなく、０、±１、±２の値のみしかとらない。よって、乗算器は、０、±Ｘ、±２Ｘに２^２ｉを乗算した値（部分積）を算出して加算する値の組み合わせの対応（真理値表）として書ける。また、符号データの値は８通りしかないため、ブースデコーダは、単なる組み合わせ論理回路により得ることができる。

０、±Ｘ、±２Ｘのうち、２Ｘの生成は１ビットのシフトで行なうことができる。一方、負数の生成は被乗数Ｘが２の補数表現であるのでＸの各ビットを反転させ最下位ビットに１を加えればよい。これを実現するために、例えば、符号データ（−２・ｙ[２ｉ＋１]＋ｙ[２ｉ]＋ｙ[２ｉ-１]）を生成する回路（ブースデコーダ）は、乗数Ｙの入力に対して部分積の絶対値（０、Ｘ、２Ｘ）を選択するための２つの信号と反転を選択するための１つの信号とからなる３つの信号を生成する。また、乗算部は、この３つの信号を受けて、絶対値が０の場合は０を、Ｘの場合は被乗数Ｘを、２Ｘの場合は被乗数Ｘを１ビットシフトしたものを選択し、さらに、反転が必要な場合はその値を反転させて部分積を生成することができる。さらに、×２^２ｉを実行するビットシフト部は、単純にビット線を２ｉだけシフトさせればよい。

図６は、このような２次のブースのアルゴリズムに従って乗算を実行する乗算器を示すブロック図である。乗算器４００は、被乗数Ｘを出力するレジスタＦ０と、乗数Ｙを出力するレジスタＦ７を有する。更に、乗数Ｙ及び被乗数Ｘが入力され部分積を生成する部分積生成ユニット４０１と、部分積生成ユニット４０１にて生成された部分積を加算する加算器４５０とを有する。部分積生成ユニット４０１は、４つの部分積生成部４１０、４２０、４３０、４４０を有する。

各部分積生成部は、上述したように、乗数Ｙのうち所定ビットが入力され、ブースのアルゴリズムに従って符号データ（０、±１、±２）を生成するブースデコーダと、得られた符号データと被乗数Ｘとの乗算結果を出力する乗算部と、乗算部の演算結果のビットシフトを行なうビットシフト部とから構成されるものとする。

各部分積生成部は、Ｘ×（−２・ｙ[２ｉ＋１}＋ｙ[２ｉ]＋ｙ[２ｉ-１])×２^２ｉの"ｉ"に対応したものとなっており、例えば乗数Ｙが８ビット（ｙ_０〜ｙ_７とする）であれば、ｉ＝０〜３であり、それぞれＸ×（−２・ｙ_１＋ｙ_０＋０)×２^０、Ｘ×（−２・ｙ_３＋ｙ_２＋ｙ_１）×２^２、Ｘ×（−２・ｙ_５＋ｙ_４＋ｙ_３）×２^４、Ｘ×（−２・ｙ_７＋ｙ_６＋ｙ_５)×２^６を求める。図６においては、これらの部分積を求める部分積生成部を、それぞれ４１０、４２０、４３０、４４０としている。なお、本実施の形態においては、ブースデコーダでデコードする乗数Ｙが８ビットを例にとって説明するが、これ未満、又は以上であってもよいことは勿論である。その場合は、部分積生成部の個数を適宜調整すればよい。

次に、実際の演算を例にとって、この乗算器４００の動作について説明する。８ビットの乗数Ｙは、図７（ａ）のように表すことができる。乗数を２ビットごとに区切り、各組と下位組の最上位ビットの計３ビット（ただしｙ_−１＝０）のデータから符号データが得られる。これらに被乗数Ｘを乗算し、対応するビットシフト（×２^ｉ）を演算することで部分積を生成することができる。このため、図７（ｂ）に示すように、レジスタＦ７は８ビットを出力するシフトレジスタからなり、乗数Ｙ｛ｙ_０〜ｙ_７｝を出力する。このとき部分積生成部４１０には、乗数Ｙのうち下位２ビット{ｙ_０、ｙ_１}、部分積生成部４２０、４３０、４４０にはそれぞれ、{ｙ_１、ｙ_２、ｙ_３}、{ｙ_３、ｙ_４、ｙ_５}、{ｙ_５、ｙ_６、ｙ_７}を入力する。部分積生成部４１０は、入力されたこれらの所定ビットから符号データを生成するブースデコーダ４１１と、得られた符号データと被乗数Ｘとの乗算を行なう乗算部４１２と、乗算結果を所定ビットシフトするビットシフト部４１３とを有する。他の部分積生成部４２０、４３０、４４０も同様に構成される。ここでは、被乗数Ｘ＝３５８（１６６Ｈ）、乗数Ｙ＝１２３（７ＢＨ）の乗算について説明する。下記表３は、演算工程における各出力値を示す。

Ｘ×Ｙ＝３５８×１２３＝４４０３４（ＡＣ０２Ｈ）
Ｙ＝１２３（７ＢＨ）
＝(−２・０＋１＋１)・２^６
＋（−２・１＋１＋１）・２^４
＋（−２・１＋０＋１）・２^２
＋（−２・１＋１＋０）・２^０
＝２・２^６＋０・２^４＋（−１）・２^２＋（−１）・２^０
よって、下記となる。
Ｘ×Ｙ＝{（２×３５８）×２^６} ・・・部分積生成部４１０にて演算
＋{（０×３５８）×２^４} ・・・部分積生成部４２０にて演算
＋{（−１×３５８）×２^２} ・・・部分積生成部４３０にて演算
＋{（−１×３５８）×２^０} ・・・部分積生成部４４０にて演算

先ず、被乗数入力部Ｆ０からは"３５８"が各部分積生成部４１０、４２０、４３０、４４０に入力される。乗数入力部Ｆ７からは、各部分積生成部４１０、４２０、４３０、４４０に、それぞれ{ｙ_０、ｙ_１}＝{１、１}、{ｙ_１、ｙ_２、ｙ_３}＝{１、０、１}、{ｙ_３、ｙ_４、ｙ_５}＝{１、１、１}、{ｙ_５、ｙ_６、ｙ_７}＝{１、１、０}が入力される。ブースデコーダ４１１、４２１、４３１、４４１は入力された所定ビットから、それぞれ（−２・ｙ[２ｉ＋１}＋ｙ[２ｉ]＋ｙ[２ｉ-１])＝（−２・ｙ_１＋ｙ_０＋０)、（−２・ｙ_３＋ｙ_２＋ｙ_１）、（−２・ｙ_５＋ｙ_４＋ｙ_３）、（−２・ｙ_７＋ｙ_６＋ｙ_５)の演算に対応する符号データを出力する。上記の式より本例では、各ブースデコーダ４１１、４２１、４３１、４４１は、それぞれ、"−１"、"−１"、"０"、"２"を出力する。

各乗算部４１２、４２２、４３２、４４２は、上記符号データ×被乗数Ｘを演算して、それぞれビットシフト部４１３、４２３、４３３、４４３へ入力する。ビットシフト部４１３はそのまま加算器４５０へ出力する。なお、本例においては説明の明確のためビットシフト部４１３を設けているが設ける必要はない。ビットシフト部４２３、４３３、４４３は、受け取った結果をそれぞれ２ビット、４ビット、６ビットシフトさせた後、加算器４５０へ入力する。

本例の加算器４５０は、全加算器（フルアダー）４５１、４５２と、半加算器（ハーフアダー）４５３と、結果を受け取るレジスタ４５４とを有する。各ビットシフト部４１３、４２３、４３３、４４３から入力された値は、加算器４５０にて加算され、乗算結果Ｐとして出力される。

このように、２次のブースのアルゴリズムを使用すると、乗数を、０、±１、±２の符号データ×２^２ｉとし、被乗数と演算を行なわせるので、部分積の個数が略半分となる。よって加算器にて加算する部分積の個数を略半減させることができるので、乗算器を小型化することができる。

このような部分積生成ユニットを使用すると図５に示すフィルタ演算器は図８に示すような演算回路となる。図８は、従来の構成のフィルタ演算器を示す図である。すなわち上述したように、例えば８ビットであれば４つの部分積生成部を要し、例えば１０ビットであれば５つの部分積生成部を要する。なお、図８には簡単のため３つの部分積生成部のみを示している。

図８を簡単に説明すると、フィルタ演算器５０１はレジスタ（フリップフロップ：ＦＦ）５０２、５１０、５１１、５１３、５１６、部分積生成部５０３〜５０５、加算器５０９、加算器５１２、５１４、リミッタ回路５１５を有する。部分積生成部５０３〜５０５はそれぞれブースデコーダ５０６〜５０８を有する。画素データが乗数Ｙとして入力されＦＦ５０２に保持される。ＦＦ５０２から、各ビットに応じた部分積生成部５０６〜５０８へ値が入力され部分積が生成される。加算器５０９はそれを加算し、上位ビットと下位ビットをそれぞれＦＦ５１２、５１１に入力する。加算器５１２はＦＦ５１０及びＦＦ５１１からの値を加算してＦＦ５１３に出力する加算器５１４はＦＦ５１３からの値とフィルタ係数Ｂとを加算し、リミッタ回路５１５は加算器５１４の値を例えば０〜２５５の範囲に制限してＦＦ５１６へ出力する。

このフィルタ演算器は、
[出力画素]＝Ｌｉｍ（[入力画素]×Ａ＋Ｂ）
の演算を実行する。ここで、Ａはフィルタ係数を示す。Ｂは各フィルタ演算において必要に応じて加算される所定の定数である。従来のフィルタ演算器においては、外部のメモリ等から読み出したデータは、バースト的に読み出される。この際、通常、高速演算する場合は、大規模な乗算器によりパイプライン処理する方式になっている。このため、例えば入力画素データが１０ビットであれば部分積生成部が５つ必要となり、回路規模が大きく、よって消費電力も大きい。

これに対し、本実施の形態においては、これら部分積生成部５０６〜５０８を１つの部分積生成部とし、１つの部分積生成部を繰り返し使用することで回路規模を縮小し、消費電力を削減する。図５に戻って、本実施の形態にかかるフィルタ演算器１は、前データとの差分をとるためにデータを保持するレジスタ（ＦＦ）１１、現データと前データとの差分をとる減算器１３、この減算器１３からの出力結果から部分積生成部１８による乗算回数を決定する繰り返し回数決定部１５、減算器１３からの減算結果とある係数Ａと乗算する部分積生成部１８、前データまでの累算結果と現部分乗算結果の出力を加算する累算加算器２０、乗算結果に対しある定数Ｂを加算する加算器２３、及びリミッタ回路２４を有する。本フィルタ演算器１では以下演算を行う。
[出力画素]＝Ｌｉｍ（[入力画素]×Ａ＋Ｂ）

このフィルタ演算器１は、通常外部メモリからのデータはバースト的に転送されてくるため、必ずしも常に連続にデータが入力されるとは限らない。また画像データは隣同士の画素同士には比較的相関関係があるため、画素同士の差分も比較的小さい。以上の特徴を利用することで、小規模な部分積生成部を使用し回路規模を大幅に削減させることができる。同時に前データとの差分が少ない場合にはほぼ連続的にデータを出力させ、例外的に差分が大きくなり乗算時間が伸びてもバーストデータ間に若干の時間があるため、それほどの性能劣化を伴わずに処理を可能にすることができる。更に、回路規模削減により消費電力を削減することも可能である。

以下、本実施の形態にかかるフィルタ演算器１について更に詳細に説明する。減算器１３は、入力される現在の画像データからＦＦ１１に保持されている１つ前の画像データを減算して差分データを求める。この理由について説明する。図９は、画像について水平方向の隣り合った画素間の差信号の振幅分布を示す図である（画像情報圧縮、テレビジョン学会偏、Ｐ７１）。横軸は振幅、縦軸は周波数を示す。差信号は０近傍の狭い範囲に集中する。よって、減算器１３により差信号を求めることで、０に近い値とすることができる。差分データとして入力を０に近い値とすることで、後述する繰り返し演算回数を最小限とすることができ、演算処理時間を短縮化することができる。この値はＦＦ１４に保持される。

次に、ＦＦ１４の値に基づき繰り返し回数決定部１５が部分積生成部１８における繰り返し演算回数を決定する。繰り返し回数決定部１５の繰り返し回数決定方法について説明する。図１０は、１０ビットの画像データを示す模式図、図１１は繰り返し回数決定部１５の構成を示す図である。先ず、図１０に示すように、画像データは、ｙ_０〜ｙ_９（ただし、ｙ_９は符号ビット（Sign））の１０ビットとする。ここで、上述したように、ブースのアルゴリズムにおいては、画像データ（乗数Ｙ）を２ビットごとに区切り、各組と下位組の最上位ビットの計３ビットのデータ群（グループ）Ｓ０〜Ｓ４から符号データが得られる。ｙ_０、ｙ_１の組は、ｙ_−１＝０としたビットを仮定してデータ群（グループ）Ｓ０とする。

１０ビットのデータは、例えば−１は（ｙ_９ｙ_８ｙ_７ｙ_６ｙ_５ｙ_４ｙ_３ｙ_２ｙ_１ｙ_０ｙ_−１）＝(１１１１１１１１１１０)であり、−２は（１１１１１１１１１００）である。

符号データは、ｙ_２ｉ−１＋ｙ_２ｉ−２ｙ_２ｉ＋１で求まるが、データ群を構成する３ビットが全て同じ符号、すなわち（１１１）又は（０００）であれば、符号データは"０"となる。すなわち、ブースデコーダ１７から出力される値が"０"となるため部分積は必ず"０"となり、演算する必要がない。本実施の形態においては、この符号データが"０"となるデータ群の演算を省くことで部分積生成部の繰り返し演算回数を削減するのである。

繰り返し回数の決定方法としては、以下に説明する方法がある。例えば、繰り返し回数は、１０ビットの並びに応じて決定するが、予め１０ビットの並びに応じた繰り返し回数が対応付けられたテーブルを用意し、図１１（ａ）に示すように、このテーブル４１を参照して繰り返し回数を出力する方法がある。

また、他の方法としては、上位ビットから符号を判定していき、符号の変化点を検出する方法がある。例えば、−１であれば、図１０に示すように、上位ビットｙ_９からｙ_０までは全て１であり、ｙ_−１で０となるため、変化点はデータ群Ｓ０に含まれる。この場合は、データ群Ｓ０の演算のみを行なえばよく、繰り返し回数は１回である。−２であれば、上位ビットｙ_９からｙ_１までは全て１であり、ｙ_０で０となるため、変化点はデータ群Ｓ０に含まれる。この場合も、データ群Ｓ０の演算のみを行なえばよく、繰り返し回数は１回である。また、６５であれば、上位ビットｙ_９からｙ_７までは全て０であり、ｙ_６で１となるため、変化点はデータ群Ｓ３に含まれる。この場合は、データ群Ｓ０からデータ群Ｓ３までの４グループの演算を行えばよく、繰り返し回数は４回である。

さらに他の方法として、同じく６５において、変化点が検出されてもさらに最下位ビットまで全ビットをサーチを続ける方法がある。この場合、さらにｙ_６とｙ_５の間に変化点があり、ｙ_５からｙ_１はまでは０である。そして、ｙ_１とｙ_０の間、ｙ_０とｙ_−１との間に変化点がある。この場合、変化点を含むデータ群は、データ群Ｓ３、Ｓ０のみである。よって繰り返し回数を２とすることができる。上述の場合は、変化点が発見された時点で繰り返し回数を決定するので早く繰り返し回数を決定することができる。一方、最上位ビットから最下位ビットまで全ビットをサーチして変化点を検出する方法であると、より繰り返し回数を減らすことができる。この場合、上位ビットから始めたが、最後まで変化点を検出する場合は下位ビットから検出してもよい。例えば−１２８であれば、ｙ_−１からｙ_６までは"０"であり、ｙ_７からｙ_９までは"１"であり、ｙ_６とｙ_７の間に変化点がある。この場合は、データ群Ｓ３のみの演算を行なえばよい。

さらにまた、他の方法としては、データ群毎に、データ群が（０００）又は（１１１）であるか否かを検出するようにしてもよい。理由は、２次のブースデコード結果を０にするためである。この場合は、上位ビット側からであっても下位ビット側からであっても、又は全ビット同時に行なうようにしてもよい。例えば１２７であれば、データ群Ｓ０、Ｓ３が演算対象であり繰り返し回数は２回である。２であれば、データ群Ｓ０のみが演算対象であり繰り返し回数は１である。また１であれば、データ群Ｓ０のみが演算対象であり繰り返し回数は１である。

図１１（ｂ）は、データ群毎に（０００）又は（１１１）であるか否かを検出する回路の一例を示す図である。１０ビットのデータをデータ群Ｓ０〜Ｓ４に分け、それぞれ判定部５１〜５５に入力し、（０００）又は（１１１）であるか否かを判定する。例えば、（０００）又は（１１１）であれば０を、そうでなければ１を出力する。テーブル５６は判定部５１〜５５の出力に応じて繰り返し回数を出力する。このとき、どのデータ群の演算を行なうかの情報（以下データ群情報という。）を一緒に出力する。

図１１（ｃ）は、変化点がどの位置にあるかを検出することで繰り返し回数を決定する具体的な回路の一例を示す図である。上位ビットからＦＦ６１に画像データを入力する。ＦＦ６１に保持された上位のビットと次に入力されるそれより下位のビットとを比較器６２で比較し、一致であれば例えば"０"、不一致であれば例えば"１"を出力する。カウンタ６３はダウンカウンタでありカウント値を９から０までカウントする。回数決定部６４は、"１"が入力されたときのカウンタ値に基づき、繰り返し回数をＭＵＸ１６、１９へ出力する。

以上のようにして、繰り返し回数決定部１５は、少なくとも繰り返し回数を出力する。また、全データ群について（０００）又は（１１１）であるか否かを検出するような場合は、繰り返し回数と、どのデータ群で演算が必要かを示すデータ群情報とをＭＵＸ１６、１９へ出力する。

ＭＵＸ１６は、繰り返し回数のみが入力される場合は、繰り返し回数に応じたデータ群を部分積生成部１８へ出力する。たとえば繰り返し回数が３の場合、先ず、（ｙ_１，ｙ_０，０）を入力し、次のタイミングで（ｙ_３，ｙ_２，ｙ_１）を入力し、次のタイミングで（ｙ_５，ｙ_４，ｙ_３）を入力する。

また、繰り返し回数とデータ群情報が入力される場合には、データ群情報に基づきデータ群を部分積生成部１８へ出力する。例えば上述の６５の場合であれば、データ群Ｓ０、及びＳ３にて変化点が検出される。この場合、最初のタイミングで（ｙ_１，ｙ_０，０）を入力し、次のタイミングで（ｙ_７，ｙ_６，ｙ_５）を入力する。

部分積生成部１８及びブースデコーダ１７は、上述した演算を行なう。すなわち、ブースデコーダ１７はデータ群から符号データを求め、部分積生成部が符号データにフィルタ係数Ａを乗算する。ここでビットシフトは行なわず、ＭＵＸ１９へ出力する。

ＭＵＸ１９にも、ＭＵＸ１６と同様に繰り返し回数が入力されている。したがって、繰り返し回数が１のときはビットシフトを行なわず（×１のため）そのまま加算器２０へ出力する。繰り返し回数２のときは、２ビットシフト（×２^２のため）し、加算器２０へ出力する。同様に、繰り返し回数が３のときは４ビットシフト（×２^４のため）、繰り返し回数が４のときは６ビットシフト（×２^６のため）、繰り返し回数が５のときは８ビットシフト（×２^８のため）して加算器２０へ出力する。

また、ＭＵＸ１９、ＭＵＸ１６に繰り返し回数及びデータ群情報が入力されている場合は、データ群情報に基づきビットシフトを行なう。例えば上述の６５の場合であれば、データ群Ｓ０の演算結果に対してはビットシフトせずに出力し、次のタイミングのデータ群Ｓ３の演算の際は、６ビットシフトした値を加算器２０へ出力する。なお、ＭＵＸ１６、部分積生成部１８及びＭＵＸ１９により、減算器からの減算結果とフィルタ係数とを乗算する部分積乗算部を構成する。

加算器２０は、ＭＵＸ１９からの出力と、ＦＦ２１に保持されている前回出力した値とを加算し、繰り返し演算が終了するまで再度ＦＦ２１に保存する。セレクタ２２は、初回の繰り返し演算の際には０を選択し、その他はＦＦ２１の値を選択出力する。この加算器２０は、各データ群Ｓ０〜Ｓ４から得られた部分積を加算すると共に、前回の加算結果に今回の加算結果を加算することで、現在の画素データのフィルタ演算結果を得ることができる。すなわち、前回の加算結果及び今回の加算結果はいずれも差分データにフィルタ係数Ａを乗算した部分積和からなるため、これらを加算することで、差分データではない画素データのフィルタ演算結果を求めることができる。

加算器２３は、必要であれば係数Ｂを加算し、演算結果をリミッタ回路２４へ出力する。リミッタ回路２４は、例えば０〜２５５までの間に演算結果がおさまるよう制限してＦＦ２５に出力する。

図１２は、本実施の形態にかかるフィルタ演算器の効果を説明する図である。図１２（ａ）は、本実施の形態にかかるフィルタ演算器の演算タイミングを示している。図１２（ｂ）は、図８に示す従来のフィルタ演算器の演算タイミングを示す。図１２（ｂ）に示すように、従来のフィルタ演算器は、繰り返し演算を行なわないため、入力から出力まで所定のタイミングですばやく演算することができる。一方、図１２（ａ）に示すように、本実施の形態にかかるフィルタ演算器は、例えばデータＦ００では４回の繰り返し演算をおこなうため、従来の４倍の演算時間を要している。一方、上述したように、画像データは差分信号とすると０近傍にデータが集まるため、最初の数回以降の演算においては０近傍のデータが多くなる。このため、上述した方法で繰り返し演算回数を決定しても、繰り返し演算回数は１乃至２回程度となり演算処理時間が長期化しない。

さらに、例えば画像データをＳＤＲＡＭから読み出す場合、ＣＡＳレイテンシやＲＡＳレイテンシのために画像データと画像データの入力タイミングの間に、図１２（ｂ）に示すように、待ち時間Ｔが生じてしまう。本実施の形態にかかるフィルタ演算器は、繰り返し演算を行なう場合もあるが、差分画像信号を使用することに加え、このような待ち時間を有効に使用することで、繰り返し演算を行なわない従来のフィルタ演算器と比べても演算処理時間をそれほど長時間化させることがない。

本実施の形態においては、画像データは隣同士の画素同士には比較的相関関係があるため、画素同士の差分も比較的小さい。このことを利用し、入力画像データについて現在のデータと次のデータとの差分をとってフィルタ係数と乗算し、それを加算してフィルタ演算を行なう。このとき、差分をとった入力データは０近傍の値となるため、繰り返し回数を激減させることができる。また、通常外部メモリからのデータはバースト的に転送されてくるため、常に連続にデータが入力されない。すなわち、データ入力の待ち時間があるため、たとえ繰り返し演算が含まれても待ち時間の間に行なうことができる。

したがって、小規模な部分積生成部を使用し回路規模を大幅に削減させることができる。また、前データとの差分が少ない場合にはほぼ連続的にデータを出力することができ、また、例外的に差分が大きくなり繰り返し演算回数が多くなってもデータ転送間の待ち時間を利用することで処理時間をそれほど長期化させることがない。更に、回路規模削減により消費電力を削減することができる。

なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。例えば、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、ＣＰＵ（Central Processing Unit）にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。

Ｈ.２６４に準拠して符号化された圧縮画像を復号する復号装置を示すブロック図である。ＶＣ−１に準拠して符号化された圧縮画像を復号する復号装置を示すブロック図である。Ｈ.２６４及びＶＣ−１の規格に準拠したフィルタ演算を含む動き補償処理を実行する動き補償（ＭＣ）部を示すブロック図である。本発明の実施の形態にかかるフィルタ演算器を示すブロック図である。本発明の実施の形態にかかるフィルタ演算器の詳細を示すブロック図である。２次のブースのアルゴリズムに従って乗算を実行する乗算器を示すブロック図である。（ａ）は、ブースのアルゴリズムにより符号データ生成に使用されるビットを説明する図、（ｂ）は、図１に示す乗算器の部分積生成ユニットの詳細を示す図である。従来のフィルタ演算器を示す図である。画像について水平方向の隣り合った画素間の差信号の振幅分布を示す図である。１０ビットの画像データを示す模式図である。本発明の実施の形態にかかるフィルタ演算器における繰り返し回数決定部の構成を示す図である。（ａ）は、本実施の形態にかかるフィルタ演算器の演算タイミングを示す図、（ｂ）は、図８に示す従来のフィルタ演算器の演算タイミングを示す図である。特許文献１に記載の離散コサイン変換器を示す図である。特許文献２に記載の情報処理装置におけるプロセッサ、レジスタ回路及び係数レジスタを示す図である。

符号の説明

１、１０フィルタ演算器
１３減算器
１５回数決定部
１７、４１１、４２１、４３１、４４１ブースデコーダ
１８、４１０、４２０、４３０、４４０部分積生成部
２０、２３、３０、１０５、２０５、３０６、３０８、３１１、４５０加算器
２１、２５、６１、４５４レジスタ
２２、３０１、３０４、３０７、３１０、３１３セレクタ
２４リミッタ回路
４１、５６テーブル
５１−５５判定部
６２比較器
６３カウンタ
６４回数決定部
１００、２００画像復号装置
１０１圧縮データ
１０２、２０２可変長復号部
１０３、２０３逆量子化部
１０４逆アダマール変換部
１０６デブロッキングフィルタ
１０７切替部
１０８、２０７復号画像
１０９、２０８モニタ
１１０画面内予測部
１１１、２０９重み付け予測部
１１２、２１０３００動き補償部
１１３予測画像
２０４逆ＤＣＴ変換部
２０６ループフィルタ
３０２、３０３フィルタ演算部
３０４、３０５、３１２乗算器
３０９ラインメモリ
４０１部分積生成ユニット
４１２、４２２、４３２、４４２乗算部
４１３、４２３、４３３、４４３ビットシフト部

Claims

入力データとフィルタ係数とをブースアルゴリズムを用いて積和演算するフィルタ演算器であって、
現在のデータと前回のデータとの差分を求める減算器と、
前記減算器からの減算結果とフィルタ係数とを乗算する部分積乗算部と、
前記減算結果に基づき前記部分積乗算部での繰り返し演算回数を決定する回数決定部と、
前記前回のデータまでの累積結果と前記現在のデータの乗算結果とを加算する累積加算器とを有するフィルタ演算器。
前記回数決定部は、前記減算結果の上位ビットから、ビットの値に変化がある位置をサーチし、当該サーチ結果に基づき乗算回数を決定する
ことを特徴とする請求項１記載のフィルタ演算器。
前記回数決定部は、前記減算結果の下位ビットから上位ビットまでの全ビットについて、ビットの値に変化がある位置をサーチし、当該サーチ結果に基づき乗算回数を決定する
ことを特徴とする請求項１記載のフィルタ演算器。
前記回数決定部は、前記減算結果を下位から２ビットごとに区切り、各組と下位組の最上位ビットの計３ビット毎のグループとし、各グループについて、全てのビットの値が同一か否かを判定し、当該判定結果に基づき乗算回数を決定する
ことを特徴とする請求項１記載のフィルタ演算器。
前記回数決定部は、前記減算結果を下位から２ビットごとに区切り、各組と下位組の最上位ビットの計３ビット毎のグループとし、前記減算結果の下位ビットから上位ビットまでの全ビットについて、前記各グループ内でビットの値に変化があるか否かをサーチし、当該サーチ結果に基づき乗算回数を決定する
ことを特徴とする請求項１記載のフィルタ演算器。
前記回数決定部は、前記乗算回数と共に、前記減算結果を下位から２ビットごとに区切り、各組と下位組の最上位ビットの計３ビット毎のグループとした場合、当該グループを構成する３ビットの値が同一でないグループが下位から何番目のグループかを示す順序情報を出力する
ことを特徴とする請求項１乃至５のいずれか１項記載のフィルタ演算器。
前記部分積乗算部は、前記乗算回数が入力されるデータ選択部と、前記データ選択部により選択されたデータに基づき部分積を演算する部分積生成部と、前記部分積生成部が生成した部分積を所定ビットシフトするビットシフト部とを有する
ことを特徴とする請求項１記載のフィルタ演算器。
予測画像を生成する動き補償処理装置であって、
垂直方向の入力データに対してフィルタ演算を行なう第１フィルタ演算部と、
水平方向の入力データに応じてフィルタ演算を行なう第２フィルタ演算部と、
前記第１及び第２フィルタ演算部の演算結果又は第１及び第２のフィルタ演算に入力する入力データに対して重み付けを行なう重み付け演算部とを有し、
前記第１及び第２フィルタ演算部は、入力データとフィルタ係数とをブースアルゴリズムを用いて積和演算するフィルタ演算器であって、
現在のデータと前回のデータとの差分を求める減算器と、
前記減算器からの減算結果とフィルタ係数とを乗算する部分積乗算部と、
前記減算結果に基づき前記部分積乗算部での繰り返し演算回数を決定する回数決定部と、
前記前回のデータまでの累積結果と前記現在のデータの乗算結果とを加算する累積加算器とを有する動き補償処理装置。