JP4844741B2

JP4844741B2 - 動画像符号化装置及び動画像復号装置と、その方法及びプログラム

Info

Publication number: JP4844741B2
Application number: JP2006514585A
Authority: JP
Inventors: 崇博木本
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-06-11
Filing date: 2005-06-10
Publication date: 2011-12-28
Anticipated expiration: 2025-06-10
Also published as: CN1969559A; JPWO2005122591A1; EP1768417A4; WO2005122591A1; JP2011193531A; US8340178B2; US20080049835A1; EP1768417A1

Description

本発明は動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置およびコンピュータプログラムに関する。

サブバンド符号化は画像信号を周波数分割してそれぞれの周波帯域の信号（サブバンド信号）について符号化処理を行う方法である。サブバンド符号化は、離散コサイン変換などのブロックベース直交変換と異なり原理上ブロック歪みが発生しない上、低域成分を再帰的に分割することで容易に階層符号化を実現できるという特徴がある。静止画像では、国際標準の符号化方法であるJPEG2000にウェーブレット変換を用いたサブバンド符号化が採用されている。

動画像符号化にサブバンド符号化を適用する場合、信号の空間方向の相関だけでなく時間方向の相関も考慮する必要がある。旧来より、原信号をサブバンド分割した後、サブバンド領域毎に動き補償を行って時間方向の相関を取り除くサブバンドＭＣ（Motion Compensation）の研究が行われて生きた。しかし、サブバンドＭＣには高域サブバンドにおける予測効率が悪く、符号化性能が低いという問題があった。これに対し、原画像に対して空間領域で動き補償を伴う時間フィルタリングを行って時間方向の相関を取り除いた後に各フレームにサブバンド符号化を行う三次元ウェーブレット符号化が開発された。

以下に、代表的な三次元ウェーブレット符号化方法の技術を説明する（例えば、非特許文献１）。

図１８から図２１は非特許文献１に示される三次元ウェーブレット符号化を説明する図である。図１８は三次元ウェーブレット符号化における符号化器の構成を示すブロック図である。以下に、図１８を用い三次元ウェーブレット符号化の処理の流れを説明する。

N(Nは2のべき乗)枚の連続するフレームからなる入力画像信号2000に対し、時間方向フィルタリング201は、動き補償を伴う時間方向へのウェーブレット変換を行い、N/2枚の時間低域サブバンド信号2001とN/2枚の時間高域サブバンド信号2002と動き情報2003とを生成する。このうち時間低域サブバンド信号2001に対し、時間フィルタリング201を再帰的に行う。多段の時間フィルタリング処理によって生成された1枚の時間低域サブバンド信号2004とN-1枚の時間高域サブバンド信号2002はそれぞれ空間方向にサブバンド分割される。

空間サブバンド分割部202は、時間高域サブバンド信号2002を水平垂直それぞれ二つにサブバンド分割し、１つの時間高域空間低域サブバンド2005と３つの時間高域空間高域サブバンド2006とを生成する。このうち時間高域空間低域サブバンド2005は、空間サブバンド分割202によって再帰的に分割される。こうして規定回数だけ空間方向にサブバンド分割を行った後、時間高域空間低域サブバンド信号2005と時間高域空間高域サブバンド信号2006とは、量子化部204によって量子化される。

時間低域サブバンド信号2004についても、空間サブバンド分割203によって多段階に空間サブバンド分割され、時間低域空間低域サブバンド信号2007と時間低域空間高域サブバンド信号2008とが量子化部204によって量子化される。量子化されたそれぞれの信号はエントロピー符号化部205によってエントロピー符号化される。

また、時間フィルタリング201で生成された動き情報2003は動き情報符号化部206によって符号化される。それぞれ符号化された信号は多重化部207によって多重化されビットストリーム2010として出力される。

図１９は、三次元ウェーブレット符号化における高次の時間方向および空間方向のサブバンド分割を示す概念図である。入力信号2011は３段の時間フィルタリングによって３次の時間低域サブバンド信号2015と３次の時間高域サブバンド信号2016、２次の時間高域サブバンド信号2014、１次の時間高域サブバンド信号2016に分割される。

３次の時間低域サブバンド信号2015は、３段階の空間サブバンド分割によって、３次の時間低域空間低域サブバンド信号2017、３次の時間低域空間高域サブバンド信号2018,2019,2020、２次の時間低域空間高域サブバンド信号2021,2022,2023、１次の時間低域空間高域サブバンド信号2024,2025,2026に分割される。

時間高域サブバンド信号は、３段階の空間サブバンド分割によって、３次の時間高域空間低域サブバンド信号2027、３次の時間高域空間高域サブバンド信号2028,2029,2030、２次の時間高域空間高域サブバンド信号2031,2032,2033、１次の時間高域空間高域サブバンド信号2034,2035,2036に分割される。

ビットストリームから入力画像信号と異なる空間解像度もしくはフレームレートの画像信号を再構成する場合、復号器はビットストリームに含まれる複数のサブバンド信号の符号化データのうちの一部のみを復号する。

図１９に従って、サブバンドの符号化データの抽出処理を説明する。

フレームレートが２分の1の動画を再構成するには、復号器は時間低域サブバンド2015と時間高域サブバンド2016,2014に対応する符号化データを復号する。解像度が２分の1の動画を再構成するには、復号器は時間低域サブバンド信号のうち１次の時間低域空間高域サブバンドを除いたサブバンド、すなわち時間低域空間低域サブバンド信号2017と時間低域空間高域サブバンド信号2018から2023を復号する。

また、時間高域サブバンド信号のうち１次の時間高域空間高域サブバンドを除いたサブバンド、すなわち時間高域空間低域サブバンド信号2027と時間高域空間高域サブバンド信号2028から2033を復号する。

図２０は、三次元ウェーブレット符号化によって生成したビットストリームから縮小画像に相当する符号化データを抽出する符号化データ抽出装置と動画像復号装置の構成を示すブロック図である。

符号化データ抽出装置は、ビットストリーム2010より低次の空間高域サブバンド信号2038を破棄し、適切なサブバンドの符号化データからなるビットストリーム2037を生成して動画像復号装置209に送る。動画像復号装置209はビットストリーム2037に含まれるサブバンド信号を合成し、復号画像信号2047を出力する。

図２１は、動画像復号装置209の構成を示すブロック図である。図２１を用い三次元ウェーブレット符号化における復号処理の流れを説明する。

逆多重化部210はビットストリーム2037からサブバンドの符号化データを切り出し、エントロピー復号部211および逆量子化部212を通じて、時間高域空間高域サブバンド信号2039、時間高域空間低域サブバンド信号2040、時間高域空間高域サブバンド信号2041、時間高域空間低域サブバンド信号2042を生成する。

空間サブバンド合成213は、時間高域空間高域サブバンド信号2039および時間高域空間低域サブバンド信号2040を再帰的にサブバンド合成し、時間高域サブバンド信号2043を生成する。

空間サブバンド合成214は、時間低域空間高域サブバンド信号2041および時間低域空間低域サブバンド信号2042を再帰的にサブバンド合成し、時間低域サブバンド信号2044を生成する。ここで空間サブバンド合成処理の回数は、符号化器で行われた空間サブバンド分割処理の回数よりも少なく、その数は符号化データ抽出装置208によって破棄された空間高域サブバンド信号によって決まる。

また、動き情報復号部215は逆多重化部210の出力した動き情報の符号を復号し、動き情報2045を生成する。ベクトル縮小部216は動き情報2045を符号化時の入力信号と復号器の出力する復号画像信号との解像度比に従ってベクトルの長さを縮小する。この比率は、抽出器208によって破棄された空間高域サブバンド信号の数によって決まる。例えば最低次の空間高域サブバンド信号が破棄された場合には、ベクトル長は1/2に縮小される。

その後、時間方向逆フィルタリング217は、ベクトル縮小部216の出力した動き情報2046に従い、時間高域サブバンド信号2043と時間低域サブバンド信号2044に対して符号化時の時間フィルタリングの逆変換を行い、復号信号2047を生成する。

J.-R. Ohm, "Three-dimensional subband coding with motion compensation", IEEE Trans, Image Processing, vol. 3, pp. 559-571, Sept. 1999

従来技術である三次元ウェーブレット符号化では、空間スケーラビリティを適用して得られる縮小解像度画像の画質が、予め縮小した画像を入力として符号化したときの画質に比べて劣るという問題があった。その理由は３つある。

第１の理由は、動き補償のミスマッチである。図１８に示す動画像符号化装置の時間方向フィルタリング201と、図２１に示す動画像復号装置の時間方向逆フィルタリングには、動き情報をもとにしたブロック単位の動き補償予測処理が含まれる。動き情報の精度が小数の場合、予測処理で得られる画素値は隣接画素からの内挿処理で得られる。復号器において縮小画像を生成するとき、動き補償予測時の内挿処理は空間低域サブバンド信号に対して縮小したベクトルに基づいて行われる。このときの内挿フィルタは、符号化時において時間フィルタリング201の行う内挿処理および空間サブバンド分割203における低域通過フィルタに無関係に決められている。符号化時の入力信号に内挿処理をした後にサブサンプルした結果と、サブサンプルされた空間低域サブバンド信号に内挿処理をした結果とは一般に一致しない。符号化装置と復号装置での動き補償における予測処理の不一致は、復号信号における歪みを発生させる。この歪みは、時間方向フィルタリングを多段にするほどに蓄積される。

図２２と図２３は動き補償の内挿処理とサブサンプル処理とが可換でないことを説明するため一次元の画素配列と各画素に乗ずるフィルタ係数を図示した概念図の具体例である。以下の説明においてサブサンプル処理にハールウェーブレットを用い、内挿処理に6タップのフィルタを用いるとする。

図２２と図２３において横軸上の印であるp0からp11およびp0'からp5'が画素を表し、各座標から伸びる縦軸上の印が乗じられるフィルタ値を表す。図２２の上の図では画素p4から1/2だけずれた位置の画素値q4と、画素p5から1/2だけずれた位置の画素値q5の算出に用いるフィルタ値についてそれぞれ表している。内挿フィルタをB0からB6とすると、
q4 = B0*p2 + B1*p3 + B2*p4 + B3*p5 + B4*p6 + B5*p7
q5 = B0*p3 + B1*p4 + B2*p5 + B3*p6 + B4*p7 + B5*p8
となる。q4とq5からサブサンプル処理によって得られる縮小解像度での内挿値は図22の下の図のように、
(q4+q5)/2 = B0/2 * p2 + (B0+B1)/2 * p3 + (B1+B2)/2 * p4 + (B2+B3)/2 * p5 + (B3+B4/2 * p6 + (B4+B5)/2 * p7 + B5/2 * p8
となる。

図23の上の図ではp0からp11にサブサンプル処理を行って得られた画素p0'からp5'に対して、画素p2'から1/4だけずれた位置の画素値q2'の算出に用いるフィルタ値について表している。内挿フィルタをC0からC6とすると、
q2' = C0*p0' + C1*p1' + C2*p2' + C3*p3' + C4*p4' + C5*p5'
となる。ここで
p2' = (p4 +p5) / 2
などのようにサブサンプル処理が行われていたとする。

図２３の下の図のようにp2'をp0からp11を用いて表すと、
q2' = C0/2 * p0 + C0/2 * p1 + C1/2 * p2 + C1/2 * p3 + C2/2 * p4 + C2/2 * p5 + C3/2 * p6 + C3/2 * p7 + C4/2 * p8 + C4/2 * p9 + C5/2 * p10 + C5/2 * p11
となる。一般に内挿フィルタはサブサンプル処理と独立に定められているので、(q4+q5)/2 とq2'は一致しない。

第２の理由は、動き情報のオーバヘッドである。図２１における動画像復号装置において、動き情報は符号化時に生成したものと同じ必要がある。縮小解像度上でも同じ動き情報を割り当てるため、動き補償処理の単位となる符号化ブロックの大きさと動き情報の精度が必要以上に細かくなる。図２０において符号化データ抽出装置から動画像復号装置への伝送レートが限られている場合、動き情報に要する符号量が多くを占め、係数情報に最低限の符号量を割り当てることが出来なくなることがある。

図２４は動き情報のオーバヘッドを説明する概念図である。図２４において、フレームB0とC0について動き推定を行って得られた動き情報群をMV0、フレームB0,C0をそれぞれサブサンプルしたフレームB1,C1について動き推定を行って得られた動き情報群をMV1と呼ぶ。動き推定では動き情報を割り当てるブロックの最小サイズと、動き情報の精度が決められている。動き情報群MV0をフレームB1,C1に適合するように1/2に縮小した場合、ブロックの最小サイズが1/2となり動き情報の精度が2倍になる。動き情報群MV1に比べて縮小した動き情報群MV0は動き情報の数が多く、かつ個々の動き情報を表すのに必要な符号量も多い。

第３の理由として、スケーラビリティの問題である。三次元ウェーブレット符号化では、符号化器において用いたパラメータや処理モジュールが、スケーラビリティの適用によって得られる全ての異なる解像度やフレームレートにおけるビットストリームで同一である。高能率に符号化しようとするとこれらのパラメータによって決まる遅延や処理モジュールによって決まる演算量は大きくなる。そのように生成した符号化データの一部をスケーラビリティの適用により、例えばモバイル端末に配信しようとした場合、遅延や演算量が大きな制約となる。逆に低レートでのアプリケーションを考慮してパラメータや処理モジュールを決定すると、高レートでの符号化性能が大きく低下してしまう。

そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、階層化されている符号化データにおいて、すべての階層での復号信号が単一階層で符号化した場合の復号画像と同等の画質を持つ動画像符号化装置及び動画像復号装置とその方法とその制御プログラムを提供することにある。

上記課題を解決する本発明は、動画像信号を階層化する時間空間分割フィルタリング部と、前記階層化された信号を符号化する信号符号化処理部とを備える動画像符号化装置であって、前記時間空間分割フィルタリング部が、前記動画像信号を時間階層化して得られる時間低域成分と、前記動画像信号を時間階層化して得られる時間高域成分を空間階層化して得られる空間高域成分と、前記時間低域成分及び前記時間高域成分を用いて前記時間高域成分に対応する前記動画像信号を再構成した後に、前記再構成結果に縮小処理を施した縮小画像信号とを生成することを特徴とする。

上記課題を解決する本発明は、動画像信号を階層化する時間空間分割フィルタリング部と、前記階層化された信号を符号化する信号符号化処理部とを備える動画像符号化装置であって、前記時間空間分割フィルタリング部が、前記動画像信号を時間階層化して時間低域成分と時間高域成分とを得て、前記時間高域成分を空間階層化して空間高域成分を得て、前記時間低域成分及び前記時間高域成分とを用いて時間高域成分に対応する前記動画像信号を再構成した後に、前記再構成結果に縮小処理を施した縮小画像信号を生成することを特徴とする。

上記課題を解決する本発明は、動画像信号を階層化する時間空間分割フィルタリングと、前記階層化された信号を符号化する信号符号化処理とを備える動画像符号化方法であって、前記時間空間分割フィルタリングが、前記動画像信号を時間階層化して得られる時間低域成分と、前記動画像信号を時間階層化して得られる時間高域成分を空間階層化して得られる空間高域成分と、前記時間低域成分及び前記時間高域成分を用いて前記時間高域成分に対応する前記動画像信号を再構成した後に、前記再構成結果に縮小処理を施した縮小画像信号とを生成することを特徴とする。

上記課題を解決する本発明は、動画像信号を階層化する時間空間分割フィルタリングと、前記階層化された信号を符号化する信号符号化処理とを備える動画像符号化方法であって、前記時間空間分割フィルタリングが、前記動画像信号を時間階層化して時間低域成分と時間高域成分とを得て、前記時間高域成分を空間階層化して空間高域成分を得て、前記時間低域成分及び前記時間高域成分とを用いて時間高域成分に対応する前記動画像信号を再構成した後に、前記再構成結果に縮小処理を施した縮小画像信号を生成することを特徴とする。

上記課題を解決する本発明は、コンピュータを、動画像信号を階層化する時間空間分割フィルタリング手段と、前記階層化された信号を符号化する信号符号化処理手段として機能させるためのプログラムであって、前記プログラムは、前記時間空間分割フィルタリング手段を、前記動画像信号を時間階層化して得られる時間低域成分と、前記動画像信号を時間階層化して得られる時間高域成分を空間階層化して得られる空間高域成分と、前記時間低域成分及び前記時間高域成分を用いて前記時間高域成分に対応する前記動画像信号を再構成した後に、前記再構成結果に縮小処理を施した縮小画像信号とを生成する手段として機能させるためのプログラムである。

上記課題を解決する本発明は、コンピュータを、動画像信号を階層化する時間空間分割フィルタリング手段と、前記階層化された信号を符号化する信号符号化処理手段として機能させるためのプログラムであって、前記プログラムは、前記時間空間分割フィルタリング手段を、前記動画像信号を時間階層化して時間低域成分と時間高域成分とを得て、前記時間高域成分を空間階層化して空間高域成分を得て、前記時間低域成分及び前記時間高域成分とを用いて時間高域成分に対応する前記動画像信号を再構成した後に、前記再構成結果に縮小処理を施した縮小画像信号を生成する手段として機能させるためのプログラムである。

本願発明の特徴である動画像符号化における時間空間分割フィルタリングの概要を、図２５を用いて説明する。

時間空間分割フィルタリングにおいて最初に、ある解像度階層の動画像信号10を時間階層化して時間低域信号11と時間高域信号12とに分割する。

次に、時間低域信号11と時間高域信号12とを用い、時間高域信号12に対応する動画像信号を再構成した動画像信号21を生成する。動画像信号21に縮小処理を施した縮小画像信号14を生成する。

また、時間高域信号12に対して空間階層化による高域生成処理を行い、時間高域空間高域信号13を生成する。

その後、時間低域信号11と縮小画像信号14と時間高域空間高域信号13とを分割結果として出力する。時間低域信号11を一段時間解像度の低い動画像信号とみなし、縮小画像信号14を一段空間解像度の低い動画像信号とみなし、時間空間分割フィルタリングを再帰的に行うことで多段階に動画像信号を階層化する。

次に、本願発明による動画像復号化について説明する。

本願発明による動画像復号化は、階層符号化された動画像信号の符号化データを復号し、階層化された信号を生成する信号復号処理と階層化された信号とを合成する時間空間合成フィルタリングを備える。

時間空間合成フィルタリングの概要を、図２６を用いて説明する。

時間空間合成フィルタリングにおいて合成対象となる信号は、復号画像信号15、時間低域信号16、時間高域空間高域信号18である。ここで、復号画像信号15は、上述した縮小画像信号14に対応する。

まず、ある空間解像度における低域成分である復号画像信号15と、時間解像度における低域成分である時間低域信号16を用い、時間低域信号16に対応する時間高域信号12の空間低域成分である時間高域空間低域信号17を再構成する。

時間高域空間低域信号17と時間高域空間高域信号18とに対して空間方向の階層合成処理を行い、時間高域信号19を得る。その後、時間高域信号19と時間低域信号16に対して時間方向の階層合成処理を行い、一段高解像度階層の復号画像信号20を生成する。

復号画像信号20を時間低域信号16もしくは復号画像信号15とみなし、時間空間合成フィルタリングを再帰的に行うことで多段階の階層合成を実現する。

次に、本願発明の第２の動画像符号化における第２の時間空間分割フィルタリングについて説明する。

上述した時間空間分割フィルタリングでは、時間低域成分と時間高域成分とを用い、時間高域成分に対応する動画像信号を再構成後、この再構成結果に縮小処理を施すことにより、動画像の縮小画像信号を生成した。しかしながら、この方法に限らず、動画像の縮小画像信号を生成することが可能である。

そこで、本願発明の特徴である動画像符号化における第２の時間空間分割フィルタリングの概要を、図４３を用いて説明する。

時間空間分割フィルタリングにおいて最初に、ある解像度階層の動画像信号10を時間階層化して時間低域信号11と時間高域信号12とに分割する。これまでは、上述した時間空間分割フィルタリングと同様である。

次に、時間低域信号11を低域生成処理することにより、時間低域空間低域信号22を生成する。

一方、時間高域信号12を低域生成処理することにより、時間高域空間低域信号23を生成すると共に、時間高域信号12を高域生成処理することにより、時間高域空間高域信号13を生成する。そして、時間低域空間低域信号22と時間高域空間低域信号23とを、時間階層合成することにより、縮小画像信号14を生成する。

その後、時間低域信号11と縮小画像信号14と時間高域空間高域信号13とを分割結果として出力する。時間低域信号11を一段時間解像度の低い動画像信号とみなし、縮小画像信号14を一段空間解像度の低い動画像信号とみなし、時間空間分割フィルタリングを再帰的に行うことで多段階に動画像信号を階層化する。尚、復号については、図２６で示した復号方法と同様である。

本発明によれば、階層符号化を行った場合の時空間高域信号が、従来技術である三次元ウェーブレット符号化方式と同等でありながら、時間高域空間低域信号の代わりに縮小画像信号における時間方向フィルタリングの結果を符号化している。すなわち、時空間高域信号を従来技術と同じく高能率に符号化した上で、時空間高域信号とは独立に縮小画像信号を符号化する。これにより、従来技術の課題であった動き補償のミスマッチと動き情報のオーバーヘッドとが解消され、縮小画像信号の符号化効率が大きく向上する。

また、本発明によれば、階層化されている符号化データにおいて、すべての階層での復号信号が、単一階層で符号化した場合の復号画像と同等の画質を実現することが可能である。

また、本発明によれば、入力となる解像度での符号化データと縮小解像度での符号化データにおいて、遅延や演算量などアプリケーションにおいて制約となるパラメータや処理モジュールを独立に定めることが可能である。すなわち符号化効率を低下させることなく、異なる配信条件を持つ複数の端末に同時に配信することのできる階層符号化を実現することができる。

更に、復号処理において時間空間合成フィルタリングの際に時間高域空間低域信号を再構成する直前に重み付け処理を行い、このときの重み付け係数を、符号化処理において縮小画像信号を生成する際の重み付けに等しくすれば、縮小画像信号の符号化時に重畳する歪みが空間方向合成フィルタリングの後にも増大しながら伝播することなく、結果として復号画像の劣化を低減することができる。

更に、縮小画像信号の符号化の前処理として、また、復号化の前処理として、ノイズ低減などのフィルタリングを行うようにすれば、復号した縮小画像信号における符号化歪みがより大きな解像度の復号画像信号において影響を及ぼすのを低減することができる。

図１は本発明の実施例１の動画像符号化装置の構成を示すブロック図である。図２は時間空間周波数分割部101の構成を示すブロック図である。図３は時間空間周波数分割部101における時間方向および空間方向のサブバンド分割を示す概念図である。図４は時間空間二分割フィルタリング部107の構成を示すブロック図である。図５は時間方向フィルリング部109の構成を示すブロック図である。図６は縮小画像生成部110の構成を示すブロック図である。図７は実施例２における第２の縮小画像生成部110の構成を示すブロック図である。図８は縮小画像信号符号化部102の構成を示すブロック図である。図９は時空間高域信号符号化部103の構成を示すブロック図である。図１０は本発明の実施例１の動画像復号装置の構成を示すブロック図である。図１１は縮小画像信号復号部151の構成を示すブロック図である。図１２は時空間高域信号復号部152の構成を示すブロック図である。図１３は時間空間周波数合成部154の構成を表すブロック図である。図１４は時間空間合成フィルタリング部168の構成を示すブロック図である。図１５は図６に示す縮小画像生成部に対応する時間高域空間低域信号再構成部170の構成を表す図である。図１６は図７に示す第２の縮小画像生成部110に対応する時間高域空間低域信号再構成部170の構成図である。図１７は時間方向逆フィルタリングの構成を示すブロック図である。図１８は従来技術を説明する為の図である。図１９は従来技術を説明する為の図である。図２０は従来技術を説明する為の図である。図２１は従来技術を説明する為の図である。図２２は動き補償の内挿処理とサブサンプル処理とが可換でないことを説明するため一次元の画素配列と各画素に乗ずるフィルタ係数を図示した概念図である。図２３は動き補償の内挿処理とサブサンプル処理とが可換でないことを説明するため一次元の画素配列と各画素に乗ずるフィルタ係数を図示した概念図である。図２４は動き情報のオーバヘッドを説明する概念図である。図２５は本願発明の特徴である動画像符号化における時間空間分割フィルタリングの概要を説明する為の図である。図２６は本願発明の特徴である時間空間合成フィルタリングの概要を説明する為の図である。図２７はそれぞれの信号に重畳される量子化歪みが復号画像にどのように影響するかを説明する概念図である。図２８は時間空間二分割フィルタリングの処理を示すフローチャートである。図２９は実施例３における縮小画像生成部の構成を示すブロック図である。図３０は実施例３における動画像復号装置における時間高域空間低域信号再構成部の構成を示すブロック図である。図３１は、実施例２で説明した第２の縮小画像生成部に重み付け部を追加した第２の縮小画像生成部の構成を示すブロック図である。図３２は、実施例２の動画像復号装置に対応する第２の時間高域空間低域信号再構成部の構成を示すブロック図である。図３３は実施例４における縮小画像生成部の構成を示すブロック図である。図３４は実施例４における時間高域空間低域信号再構成部の構成を示すブロック図である。図３５は実施例４における第２の縮小画像生成部の構成を示すブロック図である。図３６は実施例４における第２の時間高域空間低域信号再構成部の構成を示すブロック図である。図３７は時間空間合成フィルタリングの処理を示すフローチャートである。図３８は実施例５の動画像符号化装置を示すブロック図である。図３９は実施例５における第２の縮小画像生成部の構成を示すブロック図である。図４０は実施例５における時間高域空間低域信号再構成部の構成を示すブロック図である。図４１は実施例５における第２の時間高域空間低域信号再構成部の構成を示すブロック図である。図４２は、本発明による動画像符号化装置をインプリメントした情報処理システムの一般的ブロック構成図である。図４３は本願発明の他の特徴である動画像符号化における時間空間分割フィルタリングの概要を説明する為の図である。

符号の説明

１０１時間空間周波数分割部
１０２縮小画像信号符号化部
１０３時空間高域信号符号化部
１０４動き情報符号化部
１０５多重化部
１５０逆多重化部
１５１縮小画像信号復号部
１５２時空間高域信号復号部
１５３動き情報復号部
１５４時間空間周波数合成部

本発明の特徴である動画像符号化における時間空間二分割フィルタリングを実現する時間空間二分割フィルタリング部の構成について説明する。

時間空間二分割フィルタリング部は、図４に示される如く、時間方向フィルタリング部109と、縮小画像生成部110と、高域信号生成部111とから構成される。ここで、時間空間二分割フィルタリング部107への入力となる入力画像信号1000、縮小画像信号1001および時間低域信号1010を統合して分割対象信号1013と呼ぶことにする。尚、入力画像信号1000は図２５における動画像信号10に対応し、縮小画像信号1001は図２５における縮小画像信号14に対応し、時間低域信号1010は図２５における時間低域信号11に対応する。また、時間高域空間高域信号1002は、図２５における時間高域空間高域信号13に対応する。

このような構成における時間空間二分割フィルタリングの処理を、図２８のフローチャートを用いて説明する。

分割対象信号1013は、時間方向フィルタリング部109による時間階層化によって、時間低域信号1010と時間高域信号1014とに分割するのと同時に、動き補償に用いた動き情報1003を出力する（Ｓｔｅｐ１００）。更に、縮小画像生成部110により、時間低域信号1010と時間高域信号1014と動き情報1003とに基づいて、縮小画像信号1001を生成する（Ｓｔｅｐ１０１）。

一方、高域信号生成部111により、時間高域信号1014に基づいて高域信号生成処理を行い、時間高域空間高域信号1002を生成する（Ｓｔｅｐ１０２）。

そして、縮小画像信号1001、時間低域信号1010、時間高域空間高域信号1002を分割結果として出力する（Ｓｔｅｐ１０３）。

次に、本発明の特徴である動画像復号における時間空間合成フィルタリングを実現する時間空間合成フィルタリング部の構成について説明する。

時間空間合成フィルタリング部は、図１４に示す如く、時間高域空間低域信号再構成部170と、空間合成フィルタリング部171と、時間方向逆フィルタリング部172とから構成される。ここで、図１４の縮小画像信号1073は図２６における縮小画像信号15に対応し、時間低域信号1072は図２６における時間低域信号16に対応し、時空間高域信号1074は図２６における時間高域空間高域信号18に対応し、時間高域空間低域信号1076は図２６における時間高域空間低域信号17に対応し、時間高域信号1077は図２６における時間高域信号19に対応し、復号画像信号1075は図２６における復号画像信号20に対応する。

このような構成における時間空間合成フィルタリングの処理を、図３７のフローチャートを用いて説明する。

縮小画像信号1073、時間低域信号1072、時空間高域信号1074を合成対象とし（Ｓｔｅｐ２００）、時間高域空間低域信号再構成部170により、時間低域信号1072と縮小画像信号1073と動き情報1056とに基づいて、時間高域空間低域信号1076を再構成する（Ｓｔｅｐ２０１）。

続いて、空間合成フィルタリング部171により、時間高域空間低域信号1076と時空間高域信号1074とを合成して時間高域信号1077を生成する（Ｓｔｅｐ２０２）。

そして、時間方向逆フィルタリング部172により、時間高域信号1077と時間低域信号1072とについて、動き情報1056をもとに図４における時間方向フィルタリング部109の逆変換を行うことで復号画像信号1075を生成する（Ｓｔｅｐ２０３）。

尚、時間高域空間低域信号再構成部170は、図４の縮小画像生成部110に対応する形で実現される。

次に、本発明の特徴である動画像符号化における第２の時間空間二分割フィルタリング部の構成について説明する。

上述した実施の形態では、縮小画像生成部110において、時間低域成分と時間高域成分とを用い、時間高域成分に対応する動画像信号を再構成後、この再構成結果に縮小処理を施すことにより、動画像の縮小画像信号を生成した。しかしながら、この方法に限らず、動画像の縮小画像信号を生成することが可能である。そこで、上述の実施の形態とは異なる第２の縮小画像生成部110の構成を、図7を用いて説明する。尚、他の構成は上述した実施の形態と同様なので、詳細な説明は省略する。

低域信号生成部123及び低域信号生成部124は、時間低域信号1010及び時間高域信号1014の低域信号となる時間低域空間低域信号1023及び時間高域空間低域信号1024を生成する。

動き情報変換部125は、動き情報1003を低域信号生成による解像度の比に応じて縮小した動き情報1025を生成する。動き補償部126は時間低域空間低域信号1023に対して動き情報1025をもとに動き補償処理を行い、予測信号1026を生成する。時間高域信号逆変換部127は、時間高域空間低域信号1024と予測信号1026に対し、時間高域信号生成部114における高域信号生成フィルタ処理の逆変換を行い、縮小画像信号1001を生成する。

ここで、時間低域信号1010は図４３における時間低域信号11に対応し、時間高域信号1014は図４３における時間高域信号12に対応し、時間低域空間低域信号1023は図４３における時間低域空間低域信号22に対応し、時間高域空間低域信号1024は図４３における時間高域空間低域信号23に対応する。尚、予測信号1026は、図４３における時間階層合成時使用される信号である。

次に、上述の縮小画像生成部110に対応する復号化装置の時間高域空間低域信号再構成部170について説明する。尚、上述した時間高域空間低域信号再構成部170と異なる部分についてのみ説明する。

図１６において、低域信号生成部176は、時間低域信号1072の空間低域成分である時間低域空間低域信号1082を生成する。動き情報変換部177は、動き情報1056を低域信号生成による解像度の比に応じて縮小した動き情報1083を生成する。動き補償部178は、時間低域空間低域信号1082に対し、動き情報1083をもとに動き補償処理を行い、予測信号1084を生成する。時間高域信号生成部179は、縮小画像信号1073と予測信号1084とに対し、図５における時間高域信号生成部114と同じ高域信号生成フィルタ処理を行い、時間高域空間低域信号1076を出力する。

以下、本発明の特徴である時間空間二分割フィルタリング及び時間空間合成フィルタリングを用いた動画像符号化装置及び動画像復号装置の具体的な実施例を説明する。

本発明の実施例１である動画像符号化装置における時間空間分割フィルタリングおよびその再帰的な実行の手順、信号符号化処理の実現方法を、図１から図９を用いて説明する。

図１は、本発明の実施例１の動画像符号化装置の構成を示すブロック図である。図１において動画像符号化装置は、時間空間周波数分割部101、縮小画像信号符号化部102、時空間高域信号符号化部103、動き情報符号化部104、多重化部105からなる。図１を用いて実施例となる符号化装置の処理の流れを説明する。

まず、時間空間周波数分割部101は入力画像信号1000を入力とし、入力画像信号1000を構成する各フレームを縮小した縮小画像信号1001と、入力画像信号1000から縮小画像信号1001との相関を除いた高域信号に対してさらに時間方向の相関を除いた時空間高域信号1002と、動き情報1003とを生成する。

縮小画像信号1001は再帰的に時間空間周波数分割部101に入力される、もしくは縮小画像信号符号化部102に出力される。時間空間周波数分割部101の再帰動作回数は、本発明技術に基づく空間スケーラビリティの階層数から決まる。例えば空間スケーラビリティの階層数を３とすれば、時間空間周波数分割部101への再帰動作回数は２となる。そのたびに、縮小画像信号1001、時間高域空間高域信号1002、動き情報1003が生成される。

図２は、時間空間周波数分割部101の構成を示すブロック図である。図２を用いて時間空間周波数分割部101の処理の流れについて説明する。

入力画像信号1000あるいは時間空間周波数分割部101の出力である縮小画像信号1001を統合して処理対象信号1009と呼ぶ。連続するN枚（Nは2のべき乗）のフレームからなる処理対象信号1009から時間空間二分割フィルタリング部107は、N/2枚のフレームに相当する時空間高域信号1002および縮小画像信号1001と、N/2枚のフレームに相当する時間低域信号1010とを生成する。このうち時間低域信号1010を改めて入力である処理対象信号とみなし時間空間二分割フィルタリングが行われる。この繰り返し処理は時間低域信号1010を構成するフレーム数が１枚になるまで行われる。その後、時間低域信号1010は、空間分割フィルタリング部108によって空間方向に周波数分割され、時間低域空間低域信号1011と時間低域空間高域信号1012が生成される。空間低域信号1011は縮小画像信号1001、空間高域信号1012は時空間高域信号1002として出力される。

空間分割フィルタリング部108で行われる低域生成処理には、ウェーブレット変換に代表されるサブバンド分割フィルタのほか、解像度を縮小する任意のフィルタが用いられる。前者の場合高域生成処理には低域生成処理に対応するサブバンド分割フィルタが用いられる。後者の場合、縮小された信号をアップサンプルしたものを入力となる信号から引いた差分が用いられる。

図３は、時間空間周波数分割部101における時間方向および空間方向のサブバンド分割を示す概念図である。

入力画像信号2011は、時間空間二分割フィルタリング部107によって１回の時間空間二分割フィルタリングが行われ、時間低域信号2041、時空間高域信号2042、縮小画像信号2043に分割される。時間低域信号2041は、時間空間二分割フィルタリング部107によって１回の時間空間二分割フィルタリングが行われ、時間低域信号2044、時空間高域信号2045、縮小画像信号2046に分割される。時間低域信号2044は１回の時間空間二分割フィルタリング107によって時間低域信号2047、時空間高域信号2048、縮小画像信号2049に分割される。時間低域信号2047は空間分割フィルタリング108によって空間低域信号2050、空間高域信号2051に分割される。時空間高域信号2042,2045,2048と空間高域信号2051が時間空間周波数分割部101の出力である時空間高域信号1002であり、縮小画像信号2043,2046,2049と空間低域信号2050が時間空間周波数分割部101の出力である縮小画像信号1001である。

図４は、時間空間二分割フィルタリング部107の構成を示すブロック図である。図４を用いて時間空間二分割フィルタリング部107の処理の流れについて説明する。

時間空間二分割フィルタリング部107への入力となる入力画像信号1000、縮小画像信号1001および時間低域信号1010を統合して分割対象信号1013と呼ぶことにする。時間方向フィルタリング部109は、分割対象信号1013を時間低域信号1010と時間高域信号1014とに分割するのと同時に、動き補償に用いた動き情報1003を出力する。縮小画像生成部110は時間低域信号1010と時間高域信号1014と動き情報1003とから縮小画像信号1001を生成する。高域信号生成部111は、時間高域信号1014を入力として時間高域空間高域信号1002を生成する。高域信号生成部111における高域分割は図２で示した空間分割フィルタリングにおける高域生成処理と同等である。尚、図４に示した時間空間二分割フィルタリング部107が、図２５に示した本願発明の特徴である時間空間分割フィルタリングの実現する回路構成の一例である。図２５における動画像信号10、時間低域信号11、時間高域信号12、時間高域空間高域信号13、縮小画像信号14はそれぞれ、図４の分割対象信号1013、時間低域信号1010、時間高域信号1014、時間高域空間高域信号1014、縮小画像信号1001に対応づけられる。

図５は時間方向フィルリング部109の構成を示すブロック図である。図５を用いて時間方向フィルタリングの処理の流れについて説明する。

分割対象信号1013は時間方向フィルタリングにおいて、時間低域信号に変換される分割対象信号1015と、時間高域信号に変換される分割対象信号1016とに分けられる。動き推定部112は、分割対象信号1015と分割対象信号1016との動き補償を規定する動き情報1003を生成する。

動き補償部113は、分割対象信号1015を参照信号として動き補償予測を行い、分割対象信号1016に対する予測信号1017を生成する。時間高域信号生成部114は、分割対象信号1016と予測信号1017について画素ごとに高域信号生成フィルタ処理を行い、時間高域信号1014を生成する。

動き補償部115は動き情報1003を元に時間高域信号1014に動き補償処理を行い、分割対象信号1015上の個々の画素に対応づけられた動き補償時間高域信号1018を生成する。

時間低域信号生成部116は、分割対象信号1015と動き補償時間高域信号1018について画素ごとに低域信号生成フィルタ処理を行い、時間低域信号1010を生成する。高域信号生成フィルタ処理および低域信号生成フィルタ処理として、ハールウェーブレットや5-3タップのウェーブレット変換が用いられる。もしくは、高域信号生成フィルタ処理として差分生成、低域信号生成フィルタ処理として分割対象信号を無変換で出力する従来のフレーム間予測符号化処理が用いられる。

図６は、縮小画像生成部110の構成を示すブロック図である。図６を用いて縮小画像生成部110の処理の流れを説明する。

動き補償部120は、図５における動き補償部113と同等の動き補償処理を時間低域信号1010に対して行い、予測信号1021を生成する。

時間高域信号逆変換部121は、時間高域信号1014と予測信号1021とから動画像信号1022を生成する。時間高域信号逆変換部121における処理は、図５における時間高域信号生成部114における高域信号生成フィルタ処理の逆変換である。図５における分割対象信号1015と時間低域信号1010とが等しくない場合、動画像信号1022は図５における分割対象信号1016と等しくない。低域信号生成部122は動画像信号1022をダウンサンプルし、縮小画像信号1001を生成する。

以上で、図２における時間空間周波数分割101についての説明を終え、更に、図１を用い、本願発明となる符号化処理の流れについて続けて説明する。

時間空間周波数分割101によって生成された動き情報1003は動き情報符号化部104によって符号化される。図４及び５において説明したように動き情報1003は、異なる解像度を持つ画像信号、すなわち入力画像信号1000もしくは縮小画像信号1001に対する動き補償を規定する。

動き情報符号化部104は、異なる解像度の動き情報を符号化する際、空間方向に隣接するブロックの動き情報間の相関性を用いる、もしくは異なる解像度における動き情報間の相関を用い、情報の冗長性を低減させる。

時間空間周波数分割101によって生成された縮小画像信号1001および時空間高域信号1002はそれぞれ、テクスチャ信号符号化部102,103によって符号化される。

動き情報符号化部104の生成した動き情報符号化データ1006およびテクスチャ信号符号化部102,103の生成したテクスチャ信号符号化データ1004,1005は多重化部105によって多重化され、符号化データ1007として出力される。

図８は、縮小画像信号符号化部102の構成を示すブロック図である。図８を用いて縮小画像信号符号化部の処理の流れについて説明する。縮小画像信号1001は、時間方向フィルタリング部130によって時間方向の冗長性を取り除いたテクスチャ信号1030に変換される。時間方向フィルタリングとして、図５に示すような動き補償を伴う時間方向への周波数変換、もしくは動き補償フレーム間予測符号化が用いられる。

テクスチャ信号1030は周波数変換部131によって変換され周波数変換係数1031が生成される。周波数変換部131における処理として、離散コサイン変換に代表されるブロック単位での変換処理もしくはウェーブレット変換に代表されるサブバンド分割処理があげられる。周波数変換係数1031は、量子化部132によって量子化され、量子化変換係数1032が生成される。量子化部132における処理として、単一の量子化ステップに基づく量子化の他、ある量子化ステップで量子化した後に入力となる周波数変換係数との誤差をより細かい量子化ステップで量子化する階層量子化、あるいは各周波数変換係数を二値化して高い位の値から低い位の値へと順次出力するビットプレーン符号化があげられる。量子化変換係数1032はエントロピー符号化部133によってエントロピー符号化され縮小画像信号符号化データ1004が生成される。エントロピー符号化として、予め定めたハフマンテーブルに従って符号化する可変長符号化(VariableLength Coding, VLC)の他、算術符号化が用いられる。なお、時間方向フィルタリング130を省略しても構わない。また周波数変換部131、量子化部132を省略しても構わない。

図９は、時空間高域信号符号化部103の構成を示すブロック図である。時空間高域信号1002は周波数変換部134によって変換され周波数変換係数1033が生成される。周波数変換係数1033は、量子化部135によって量子化され、量子化変換係数1034が生成される。量子化変換係数1034はエントロピー符号化部136によってエントロピー符号化され縮小画像信号符号化データ1005が生成される。尚、周波数変換部134、量子化部135を省略しても構わない。

また、図９における周波数変換部134、量子化部135、エントロピー符号化部136は、図8における周波数変換部131、量子化部132、エントロピー符号化部133と異なるものを用いてもよい。すなわち、縮小画像符号化部102、時空間高域信号符号化部103ともに、周波数変換に離散コサイン変換、量子化部に単一の量子化ステップに基づく量子化を行う非スケーラブルな符号化方式を用いても構わない。あるいは、縮小画像信号符号化部102では、周波数変換に離散コサイン変換、量子化部に単一の量子化ステップに基づく量子化を、時空間高域信号符号化部102では、周波数変換にウェーブレット変換、量子化部にビットプレーン符号化を行うスケーラブル符号化方式を用いても構わない。

次に、上述の如く、符号化された動画像の動画像復号装置について説明する。

本発明の実施例１である動画像復号装置における時間空間合成フィルタリングおよびその再帰的な実行の手順、信号復号処理の実現方法を、図１０から図１７を用いて説明する。

図１０は、本発明の実施例１の動画像復号装置の構成を示すブロック図である。図１０において動画像復号装置は、逆多重化部150、縮小画像信号復号部151、時空間高域信号復号部152、動き情報復号部153、時間空間周波数合成部154とからなる。図１０を用いて実施例１の復号装置の処理の流れを説明する。

まず、逆多重化部150は符号化データ1050を低域信号符号化データ1051、高域信号符号化データ1052、動き情報符号化データ1053とに分割する。

縮小画像信号復号部151および時空間高域信号復号部152はそれぞれ、低域信号符号化データ1051および高域信号符号化データ1052を復号し、縮小画像信号1054および時空間高域信号1055を得る。

動き情報復号部153は動き情報符号化データ1053を復号し、動き情報1056を得る。

時間空間周波数合成部154は縮小画像信号1054および時空間高域信号1055に対し、動き情報1056によって規定される動き補償を伴った時間方向の逆フィルタリングと空間方向の周波数合成を組み合わせて行い復号画像信号1057を生成する。もしくは、復号画像信号1057を縮小画像信号とみなし、対応する時空間高域信号1055と時間空間周波数合成154を再帰的に行うことで、より高解像度の復号画像信号1057を生成する。

図１１は縮小画像信号復号部151の構成を示すブロック図である。

縮小画像信号符号化データ1051は、エントロピー復号部160によって量子化変換係数1060に復号される。

量子化変換係数1060が逆量子化部161によって逆量子化され、出力である周波数変換係数1061を周波数逆変換部162が周波数逆変換を行い、テクスチャ信号1063を生成する。

時間方向逆フィルタリング部163は、図８に示す時間方向フィルタリング部130の逆変換を行い、縮小画像信号1054を生成する。

エントロピー復号部160、逆量子化部161、周波数逆変換部162、時間方向逆フィルタリング部163は、図８におけるエントロピー符号化部133,量子化部132、周波数変換部131、時間方向フィルタリング部130にそれぞれ対応している。

縮小画像符号化部102が量子化部132、周波数変換部131、時間方向フィルタリング部130のいずれかを省略している場合には図11の逆量子化部161、周波数逆変換部162、時間方向逆フィルタリング部163も同様に省略される。

図１２は時空間高域信号復号部152の構成を示すブロック図である。

時空間高域信号符号化データ1052は、エントロピー復号部164によって量子化変換係数1063に復号される。量子化変換係数1063が逆量子化部165によって逆量子化され、出力である周波数変換係数1064を周波数逆変換部166が周波数逆変換を行い、時空間高域信号1055を生成する。エントロピー復号部164、逆量子化部165、周波数逆変換部166は、図９におけるエントロピー符号化部136,量子化部135、周波数変換部134にそれぞれ対応している。

縮小画像符号化部102が量子化部135、周波数変換部134のいずれかを省略している場合には図１２の逆量子化部165、周波数逆変換部166も同様に省略される。

図１３は時間空間周波数合成部154の構成を表すブロック図である。図１３を用いて時間空間周波数合成の処理の流れについて説明する。

空間合成フィルタリング部167は、連続するN枚のフレーム分の縮小画像信号1054と時空間高域信号1055のうち、時間方向で最も低周波数域となる１フレーム分の信号をそれぞれ時間低域空間低域信1070および時間低域空間高域信号1071とみなし、空間合成フィルタリングを行う。

空間合成フィルタリング部167の出力である時間低域信号1072および、時間低域信号1072と対になる時間高域信号に対応する縮小画像信号1073と時空間高域信号1074を、動き情報1056に基づく動き補償を伴った時間空間合成フィルタリング部168によって合成し、2フレーム分の復号画像信号1075を得る。この復号画像信号を時間低域信号1072とみなし、対となる縮小画像信号1073および時空間高域信号1074について時間空間合成フィルタリングを再帰的に行う。

以上の処理を、連続するN枚の復号画像信号1057が得られるまで繰り返す。尚、空間合成フィルタリング部167の空間合成フィルタリングは、図２における空間分割フィルタリング部108の空間分割フィルタリングの逆変換に相当する。

図１４は時間空間合成フィルタリング部168の構成を示すブロック図である。図１４を用いて時間空間合成フィルタリングの処理の流れを説明する。

時間高域空間低域信号再構成部170は、時間低域信号1072と縮小画像信号1073と動き情報1056とから時間高域空間低域信号1076を再構成する。

空間合成フィルタリング部171は、時間高域空間低域信号1076と時空間高域信号1074とを合成して時間高域信号1077を生成する。

時間方向逆フィルタリング部172は、時間高域信号1077と時間低域信号1072について動き情報1056をもとに図４における時間方向フィルタリング部109の逆変換を行うことで復号画像信号1075を生成する。

尚、図１４に示す時間空間合成フィルタリング部168が、図２６に示した本願発明の特徴である時間空間合成フィルタリングを実現する回路構成の一例である。図２６における復号画像信号15、時間低域信号16、時間高域空間低域信号17、時間高域空間高域信号18、時間高域信号19、復号画像信号20はそれぞれ、図１４の縮小画像信号1073、時間低域信号1072、時間高域空間低域信号1076、時空間高域信号1074、時間高域信号1077、復号画像信号1075に対応づけられる。

時間高域空間低域信号再構成部170は、図４の縮小画像生成部110に対応する形で実現される。

図１５は、図６に示す縮小画像生成部に対応する時間高域空間低域信号再構成部170の構成を表す。図１５に従って時間広域空間低域信号再構成部170の処理の流れを説明する。

動き補償部173は、時間低域信号1072に対し動き情報1056に基づいて動き補償処理を行い、予測信号1080を生成する。低域信号生成部174は、予測信号1080の空間低域成分である空間低域予測信号1081を生成する。時間高域信号生成部175は縮小画像信号1073と空間低域予測信号1081に対し、図４における時間高域信号逆変換部121と逆の変換を行い、出力となる時間高域空間低域信号1076を生成する。

図１７は時間方向逆フィルタリング部172の構成を示すブロック図である。図１７を用いて時間方向逆フィルタリング部172の処理の流れを説明する。

動き補償部181は動き情報1056を元に時間高域信号1077に動き補償処理を行い、動き補償時間高域信号1081を生成する。

時間低域信号逆変換部182は、時間低域信号1072と動き補償時間高域信号1081について画素ごとに低域信号生成フィルタ処理の逆変換を行い、復号画像信号1082を生成する。

動き補償部183は、復号画像信号1082を参照信号として動き補償予測を行い、予測信号1083を生成する。

時間高域信号逆変換部184は、時間高域信号1077と予測信号1083について画素ごとに高域信号生成フィルタ処理の逆変換を行い、復号画像信号1084を生成する。復号画像信号1082,1084を表示時刻順に並べたものが出力となる復号画像信号1075である。

以上で本願発明の実施例１の動画像符号化装置および動画像復号装置の説明を終える。

実施例に示した動画像復号装置は、動画像符号化装置の生成した符号化データを復号して入力画像信号を再構成する。また、図２０に示すように、符号化データ抽出装置208が符号化データのうち一部の時空間高域信号の符号化データを取り除いた後に、動画像復号装置209が残った符号化データを復号することも可能である。この場合、残った符号化データに含まれる縮小画像信号符号化データおよび時空間高域信号符号化データに基づいた空間解像度とフレームレートを持つ画像信号が復号される。あるいは、残った符号化データに時空間高域信号符号化データが全く含まれていない場合、動画像復号装置は、縮小画像符号化データを復号した結果を出力する。

尚、本願発明は、空間方向へのスケーラビリティをもつ階層符号化において、空間高域成分については時間方向フィルタリングを行った後に空間方向の周波数分割を行って生成し、空間低域成分については縮小画像について時間方向のフィルタリングを行うことを特徴とする。縮小画像生成は、元解像度の時間方向フィルタリングを考慮して行われるため、従来技術のＭＣミスマッチのような原理的な歪みが生じない。図８および図９で説明したように、本願発明は縮小画像信号および時空間高域信号の符号化時に異なる周波数変換やエントロピー符号化を用いた場合にも適用できる。

また、本願発明では、図２および図３に示す通り、N枚の画像信号が一回の時間方向フィルタリングでN/2枚の時間低域信号とN/2枚の時間高域信号に分割し、時間低域信号に対して再帰的に時間方向フィルタリングを行うが、他の参照関係に基づく時間方向フィルタリングにも適用可能である。例えば、N枚の画像信号が一回の時間方向フィルタリングでN/3枚の時間低域信号と2N/3枚の時間高域信号に分割される場合などである。

上述した実施例１では、縮小画像生成部110において、時間低域成分と時間高域成分とを用い、時間高域成分に対応する動画像信号を再構成後、この再構成結果に縮小処理を施すことにより、動画像の縮小画像信号を生成した。しかしながら、この方法に限らず、動画像の縮小画像信号を生成することが可能である。そこで、実施例２では、実施例１とは異なる第２の縮小画像生成部110の構成を説明する。尚、他の構成は実施例１と同様なので、詳細な説明は省略する。

図７は、実施例２における第２の縮小画像生成部110の構成を示すブロック図である。図7に示す縮小画像生成部110の処理の流れを説明する。

動き情報変換部125は、動き情報1003を低域信号生成による解像度の比に応じて縮小した動き情報1025を生成する。

動き補償部126は時間低域空間低域信号1023に対して動き情報1025をもとに動き補償処理を行い、予測信号1026を生成する。

時間高域信号逆変換部127は、時間高域空間低域信号1024と予測信号1026に対し、図５における時間高域信号生成部114における高域信号生成フィルタ処理の逆変換を行い、縮小画像信号1001を生成する。

次に、上述の縮小画像生成部110に対応する復号化装置の時間高域空間低域信号再構成部170について説明する。

図１６は、図７に示す第２の縮小画像生成部110に対応する時間高域空間低域信号再構成部170の構成を表す。

図１６において、低域信号生成部176は、時間低域信号1072の空間低域成分である時間低域空間低域信号1082を生成する。

動き情報変換部177は、動き情報1056を低域信号生成による解像度の比に応じて縮小した動き情報1083を生成する。

動き補償部178は、時間低域空間低域信号1082に対し、動き情報1083をもとに動き補償処理を行い、予測信号1084を生成する。

時間高域信号生成部179は、縮小画像信号1073と予測信号1084とに対し、図５における時間高域信号生成部114と同じ高域信号生成フィルタ処理を行い、時間高域空間低域信号1076を出力する。

本発明の実施例３を説明する。

上述した実施例１及び実施例２では、画像によっては、縮小画像信号生成時の重み付けに基づく符号化歪みが増大してしまう場合がある。以下に具体例を上げて説明する。

本発明の特徴は、図２６に示すように縮小解像度上での縮小画像信号15と、時間低域成分16から動き補償と縮小処理によって得られる予測画像信号とから、時間高域空間低域信号17を再構成する点にある。

縮小画像信号15は、図２５に示す、動画像信号２１に縮小処理を行った縮小画像信号14を再構成したものであり、時間低域成分16は図２５における時間低域成分11を再構成したものである。復号時には、これらの信号に量子化による歪みが発生する場合がある。

図２７はそれぞれの信号に重畳される量子化歪みが復号画像にどのように影響するかを説明する概念図である。

縮小画像信号3000、時間低域信号3001、時空間高域信号3002にそれぞれ量子化ステップΔに基づく歪み量3004、3005、3006が重畳し、動画像復号装置300内で縮小復号画像3007、時間低域信号3008、時空間高域信号3009として再構成されているとする。ここで縮小画像信号3000の生成において低域信号生成処理の直後に正規化処理などのために1/αの重み付けが行われているとする。図２７において、時間低域信号3008に対して動き補償と低域信号生成の処理を行った後、1/αの重み付け処理301を行い、縮小解像度上での予測画像信号3010が得られる。時間高域空間低域信号3011を再構成するためには、縮小復号画像信号3007と予測画像信号3010との間で時間方向フィルタリングの逆変換を行った後、重み付け処理301によってαの重み付けを行う必要がある。この重み付けによって時間高域空間低域信号3011に含まれる歪みは量子化ステップΔにαを掛けた量となる。

そこで、実施例３では、上述のような符号化歪みを防ぐように構成した動画像符号化装置について、図面を用いて説明する。

まず、実施例１の動画像符号化装置及び動画像復号装置に対応する構成の実施例について説明する。

実施例３の動画像符号化装置は、図４に示す縮小画像生成部が異なる以外は実施例１と同じ構成を持つ。図２９は実施例３における縮小画像生成部の構成を示すブロック図である。図２９に示す縮小画像生成部は図６に示す縮小画像生成部と比較して、時間高域信号1014が重み付け部159によって重み付けされた後、その出力1078が時間高域信号逆変換部121に入力される点が異なる。

この重み付け部159は、入力となる信号に対して低域信号生成処理に含まれる重み付けの逆数を乗ずる。また、重み付け部159は、時間高域信号1014に応じて画素毎もしくは動き補償の単位となるブロック毎に重み付けを調節する。すべての画素について等しく重み付けをした場合、時間高域信号1014のパワーの大きい画素に対し出力となる縮小画像信号1001の劣化が著しくなる。そのため、時間高域信号1014のパワーの大きな画素についてのみ重み付けを低減する。重み付け低減の判定情報は符号化側と復号側で一致する必要がある。そのための方法として予め定めた閾値に基づく、閾値を付加情報として符号化する、画素毎もしくはブロック毎に判定情報を符号化する、などが考えられる。

続いて、上述の動画像符号化装置で符号化された動画像を復号する動画像復号装置について、図３０を用いて説明する。

実施例３の動画像復号装置は、実施例１の時間高域空間低域信号再構成部170が異なる以外は、実施例１の動画像復号装置と同じ構成を持つ。図３０は実施例３における動画像復号装置における時間高域空間低域信号再構成部の構成を示すブロック図である。図３０に示す時間高域空間低域信号再構成部は、図１５に示す時間高域空間低域信号再構成部と比較して時間高域信号生成部175の出力1090が重み付け部190によって重み付けされた後、時間高域信号1076として出力される点が異なる。重み付け部190では図２９における重み付け部159における重み付け係数の逆数が重み付けされる。

次に、実施例２の動画像符号化装置及び動画像復号装置に対応する構成の実施例について説明する。図３１は、実施例２で説明した第２の縮小画像生成部に重み付け部を追加した第２の縮小画像生成部の構成を示すブロック図である。

図３１に示す第２の縮小画像生成部は図７に示す縮小画像生成部と比較して、図２９と同じく重み付け部159が追加されている点が異なる。この重み付け部159は、低域信号生成部124の出力である時間高域空間低域信号124に対して重み付け処理を行い、結果である時間高域空間低域信号1079を時間高域信号逆変換部127に出力する。重み付け部159では図２９における重み付け部159と同等の重み付け処理がなされる。

また、図３２は、実施例２の動画像復号装置に対応する第２の時間高域空間低域信号再構成部の構成を示すブロック図である。図３２に示す時間高域空間低域信号再構成部は図１６に示す時間高域空間低域信号再構成部と比較して、図３０と同じく重み付け部190が追加されている点が異なる。時間高域信号生成部179の出力1091は重み付け部190によって重み付けされた後、時間高域信号1076として出力される。重み付け部190では図３１における重み付け部159における重み付け係数の逆数が重み付けされる。

実施例３によれば、復号処理において時間空間合成フィルタリングの際に時間高域空間低域信号を再構成する直前に、重み付け処理を行う。この重み付け処理は、実施例１および２において、復号時に空間方向合成フィルタリングによって時間高域信号を合成する際の重み付けによって、縮小画像信号の符号化歪みが時間高域信号に強調されて伝播するという課題を解決する。これにより復号画像の劣化を低減することができる。

本発明の実施例４について説明する。

上述した第１及び第２の実施例では、画像によっては、縮小画像信号の符号化歪みがより大きな解像度の復号画像に伝播する場合があった。例えば、図１に示すような構成を持つ動画像符号化装置は、縮小画像信号符号化データ1004と時空間高域信号符号化データ1005との間の符号量割り当てを最適化することで、復号画像の画質をある程度調整できる。

しかし、復号した縮小画像信号に発生するブロック歪みやリンギングなどの符号化歪みを、時空間高域信号によって完全に低減することはできない。

そこで、上述の課題を解決する実施例４の動画像符号化装置及び動画像復号装置を説明する。

まず、実施例１の動画像符号化装置及び動画像復号装置に対応する実施例４の動画像符号化装置及び動画像復号装置について説明する。

実施例４の動画像符号化装置は、図４に示す縮小画像生成部が異なる以外は、実施例１の動画像符号化装置と同じ構成を持つ。

図３３は、実施例４における縮小画像生成部の構成を示すブロック図である。図３３に示す縮小画像生成部は図６に示す縮小画像生成部と比較して時間高域信号1014がフィルタ200によって処理された後、その出力1078が時間高域信号逆変換部121に入力される点が異なる。フィルタ200は入力となる信号に対して平滑化やノイズ除去などを行う。

続いて、上述の動画像符号化装置で符号化された動画像を復号する動画像復号装置について説明する。

実施例４の動画像復号装置は、図１５に示す時間高域空間低域信号再構成部が異なる以外は実施例１の動画像復号装置と同じ構成を持つ。

図３４は、実施例４における時間高域空間低域信号再構成部の構成を示すブロック図である。図３４に示す時間高域空間低域信号再構成部は図１５に示す時間高域空間低域信号再構成部と比較して時間高域信号生成部の出力1090がフィルタ201によって処理された後、時間高域信号1076として出力される点が異なる。フィルタ201ではデリンギングやブロック歪み除去など縮小復号画像信号における歪みもしくはノイズを低減する。

次に、実施例２の動画像符号化装置及び動画像復号装置に対応する実施例４の動画像符号化装置及び動画像復号装置を説明する。

図３５は、実施例４における第２の縮小画像生成部の構成を示すブロック図である。図３５に示す縮小画像生成部は図７に示す縮小画像生成部と比較して、フィルタ202が追加されている点が異なる。フィルタ202は、低域信号生成部124の出力である時間高域空間低域信号124に対して図３３におけるフィルタ200と同様の処理を行い、結果である時間高域空間低域信号1079を時間高域信号逆変換部127に出力する。

実施例４の動画像復号装置は、図１６に示す時間高域空間低域信号再構成部が異なる以外は実施例２の動画像復号装置と同じ構成を持つ。

図３６は、実施例４における第２の時間高域空間低域信号再構成部の構成を示すブロック図である。図３６に示す時間高域空間低域信号再構成部は、図１６に示す時間高域空間低域信号再構成部と比較して、フィルタ203が追加されている点が異なる。時間高域信号生成部179の出力1091はフィルタ203によって処理された後、時間高域信号1076として出力される。フィルタ203では図３４におけるフィルタ201と同様の処理が行われる。

実施例４によれば、縮小画像信号の符号化の前処理として、また復号化の前処理としてノイズ低減などのフィルタリングを行う。これによって、復号した縮小画像信号における符号化歪みがより大きな解像度の復号画像信号において影響を及ぼすのを低減することができる。

動画像信号の階層符号化では、画像信号を周波数分割したときに低域信号にパワーを集中させることが高能率に符号化するのに必要である。本願発明における縮小画像生成部において同様の周波数分割を行うと、縮小画像信号の細密さが高くなるため縮小画像信号単体の符号化が困難となる場合があった。逆に縮小画像信号の細密さを適度に調節した低域信号生成フィルタリングでは信号全体の符号化効率が低下するという問題があった。実施例５では、この課題を解決する実施例について述べる。

実施例５の動画像符号化装置について、図３８を用いて説明する。実施例５の動画像符号化装置は、図４に示す縮小画像生成部が異なる以外は実施例１と同じ構成を持つ。図３８は実施例５の縮小画像生成部の構成を示すブロック図である。

図３８に示す縮小画像生成部は、図６に示す縮小画像生成部と比較して時間低域信号1010がフィルタ300によって処理された後、その出力1079が動き補償部120に入力される点が異なる。フィルタ300は入力となる信号に対して平滑化やぼかしなどを行う。

図３９は実施例５における第２の縮小画像生成部の構成を示すブロック図である。図３９に示す縮小画像生成部は、図７に示す縮小画像生成部と比較して、図３８と同じくフィルタ301が追加されている点が異なる。時間低域信号1010がフィルタ300によって処理された後、その出力1079が動き補償部120に入力される。フィルタ300は図３８におけるフィルタ300と同様の処理を行う。

次に、上述した動画像符号化装置に対する動画像復号装置について図４０および図４１を用いて説明する。

実施例５の動画像復号装置は、図１４に示す時間高域空間低域信号再構成部が異なる以外は、実施例１の発明と同じ構成を持つ。図４０は実施例５における時間高域空間低域信号再構成部の構成を示すブロック図である。図４０に示す時間高域空間低域信号再構成部は、図１５に示す時間高域空間低域信号再構成部と比較して時間低域信号1072がフィルタ400によって処理された後、動き補償部173に入力される点が異なる。フィルタ400では図３８におけるフィルタ300と同様の処理が行われる。

図４１は実施例５における第２の時間高域空間低域信号再構成部の構成を示すブロック図である。図４１に示す時間高域空間低域信号再構成部は、図１６に示す時間高域空間低域信号再構成部と比較して、図４０と同じくフィルタ400が追加されている点が異なる。時間低域信号1072はフィルタ400によって処理された後、動き補償部173に入力される。フィルタ400では図３９におけるフィルタ300と同様の処理が行われる。

このような構成によれば、縮小画像信号を生成する際に時間低域信号に平滑化などのフィルタリングを行う。これにより時間空間高域信号を変えることなく、縮小画像信号自体の符号化を容易にすることができる。復号時には時間高域空間低域信号再構成部において、時間低域信号にも同等のフィルタリングが行われる。そのため生成される時間高域空間低域信号の精度が落ちることはない。

本発明の実施例６について説明する。

本発明による動画像符号化装置及び動画像復号装置は、以上の説明からも明らかなように、ハードウェアで構成することも可能であるが、コンピュータプログラムにより実現することも可能である。

図４２は、本発明による動画像符号化装置をインプリメントした情報処理システムの一般的ブロック構成図である。

図４２に示す情報処理システムは、プロセッサ500、プログラムメモリ501、記憶媒体502および503からなる。記憶媒体502および503は、別個の記憶媒体であってもよいし、同一の記憶媒体からなる記憶領域であってもよい。記憶媒体としては、ハードディスク等の磁気記憶媒体を用いることができる。

プログラムメモリ501には、上述した実施例１から実施例５の動画像符号化装置における時間空間周波数分割部101、縮小画像信号符号化部102、時空間高域信号符号化部103、動き情報符号化部104、多重化部105としての処理を、プロセッサ500に行わせるプログラムが格納されており、このプログラムによってプロセッサ500は動作し、結果を記憶媒体502又は503に格納する。

また、プログラムメモリ501には、上述した実施例１から実施例５の動画像復号装置における逆多重化部150、縮小画像信号復号部151、時空間高域信号復号部152、動き情報復号部153、時間空間周波数合成部154としての処理を、プロセッサ500に行わせるプログラムが格納されており、このプログラムによってプロセッサ500は動作し、結果を記憶媒体502又は503に格納する。

以上の説明からも明らかなように、ハードウェアの全部又は一部を、コンピュータプログラムにより実現することも可能である。

Claims

動画像信号を階層化する時間空間分割フィルタリング部と、前記階層化された信号を符号化する信号符号化処理部とを備える動画像符号化装置であって、
前記時間空間分割フィルタリング部が、前記動画像信号を時間階層化して得られる時間低域成分と、前記動画像信号を時間階層化して得られる時間高域成分を空間階層化して得られる空間高域成分と、前記時間低域成分及び前記時間高域成分を用いて前記時間高域成分に対応する前記動画像信号を再構成した後に、前記再構成結果に縮小処理を施した縮小画像信号とを生成することを特徴とする動画像符号化装置。
動画像信号を階層化する時間空間分割フィルタリング部と、前記階層化された信号を符号化する信号符号化処理部とを備える動画像符号化装置であって、
前記時間空間分割フィルタリング部が、前記動画像信号を時間階層化して時間低域成分と時間高域成分とを得て、前記時間高域成分を空間階層化して空間高域成分を得て、前記時間低域成分及び前記時間高域成分とを用いて時間高域成分に対応する前記動画像信号を再構成した後に、前記再構成結果に縮小処理を施した縮小画像信号を生成することを特徴とする動画像符号化装置。
動画像信号を階層化する時間空間分割フィルタリングと、前記階層化された信号を符号化する信号符号化処理とを備える動画像符号化方法であって、
前記時間空間分割フィルタリングが、前記動画像信号を時間階層化して得られる時間低域成分と、前記動画像信号を時間階層化して得られる時間高域成分を空間階層化して得られる空間高域成分と、前記時間低域成分及び前記時間高域成分を用いて前記時間高域成分に対応する前記動画像信号を再構成した後に、前記再構成結果に縮小処理を施した縮小画像信号とを生成することを特徴とする動画像符号化方法。
動画像信号を階層化する時間空間分割フィルタリングと、前記階層化された信号を符号化する信号符号化処理とを備える動画像符号化方法であって、
前記時間空間分割フィルタリングが、前記動画像信号を時間階層化して時間低域成分と時間高域成分とを得て、前記時間高域成分を空間階層化して空間高域成分を得て、前記時間低域成分及び前記時間高域成分とを用いて時間高域成分に対応する前記動画像信号を再構成した後に、前記再構成結果に縮小処理を施した縮小画像信号を生成することを特徴とする動画像符号化方法。
コンピュータを、動画像信号を階層化する時間空間分割フィルタリング手段と、前記階層化された信号を符号化する信号符号化処理手段として機能させるためのプログラムであって、
前記プログラムは、前記時間空間分割フィルタリング手段を、前記動画像信号を時間階層化して得られる時間低域成分と、前記動画像信号を時間階層化して得られる時間高域成分を空間階層化して得られる空間高域成分と、前記時間低域成分及び前記時間高域成分を用いて前記時間高域成分に対応する前記動画像信号を再構成した後に、前記再構成結果に縮小処理を施した縮小画像信号とを生成する手段として機能させるためのプログラム。
コンピュータを、動画像信号を階層化する時間空間分割フィルタリング手段と、前記階層化された信号を符号化する信号符号化処理手段として機能させるためのプログラムであって、
前記プログラムは、前記時間空間分割フィルタリング手段を、前記動画像信号を時間階層化して時間低域成分と時間高域成分とを得て、前記時間高域成分を空間階層化して空間高域成分を得て、前記時間低域成分及び前記時間高域成分とを用いて時間高域成分に対応する前記動画像信号を再構成した後に、前記再構成結果に縮小処理を施した縮小画像信号を生成する手段として機能させるためのプログラム。