JP4051799B2 - Image decoding apparatus and image decoding method - Google Patents
Image decoding apparatus and image decoding method Download PDFInfo
- Publication number
- JP4051799B2 JP4051799B2 JP04373599A JP4373599A JP4051799B2 JP 4051799 B2 JP4051799 B2 JP 4051799B2 JP 04373599 A JP04373599 A JP 04373599A JP 4373599 A JP4373599 A JP 4373599A JP 4051799 B2 JP4051799 B2 JP 4051799B2
- Authority
- JP
- Japan
- Prior art keywords
- pixel
- orthogonal transform
- image data
- field
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、8×8画素からなる直交変換ブロック単位で直交変換することによる圧縮符号化をした第1の解像度の圧縮画像データを復号する画像復号装置及び画像復号方法に関し、特に、第1の解像度の圧縮画像データを復号して、この第1の解像度よりも低い第2の解像度の動画像データに縮小する画像復号装置及び画像復号方法に関するものである。
【0002】
【従来の技術】
MPEG2(Moving Picture Experts Group phase2)等の画像圧縮方式を用いたデジタルテレビジョン放送の規格化が進められている。デジタルテレビジョン放送の規格には、標準解像度画像(例えば垂直方向の有効ライン数が576本)に対応した規格、高解像度画像(例えば垂直方向の有効ライン数が1152本)に対応した規格等がある。そのため、近年、高解像度画像の圧縮画像データを復号するとともにこの圧縮画像データを1/2の解像度に縮小することにより、標準解像度画像の画像データを生成して、この画像データを標準解像度に対応したテレビジョンモニタに表示するダウンデコーダが求められている。
【0003】
高解像度画像に対して動き予測による予測符号化及び離散コサイン変換による圧縮符号化をしたMPEG2等のビットストリームを、復号するとともに標準解像度画像にダウンサンプリングするダウンデコーダが、文献「低域ドリフトのないスケーラブル・デコーダ」(岩橋・神林・貴家:信学技報 CS94-186,DSP94-108,1995-01)に提案されている(以下、この文献を文献1と呼ぶ。)。この文献1には、以下の第1から第3のダウンデコーダが示されている。
【0004】
第1のダウンデコーダは、図8に示すように、高解像度画像のビットストリームに対して8(水平方向のDC成分から数えた係数の数)×8(垂直方向のDC成分から数えた係数の数)の逆離散コサイン変換をする逆離散コサイン変換装置101と、離散コサイン変換がされた高解像度画像と動き補償がされた参照画像とを加算する加算装置102と、参照画像を一時記憶するフレームメモリ103と、フレームメモリ103が記憶した参照画像に1/2画素精度で動き補償をする動き補償装置104と、フレームメモリ103が記憶した参照画像を標準解像度の画像に変換するダウンサンプリング装置105とを備えている。
【0005】
この第1のダウンデコーダでは、逆離散コサイン変換を行い高解像度画像として復号した出力画像を、ダウンサンプリング装置105で縮小して標準解像度の画像データを出力する。
【0006】
第2のダウンデコーダは、図9に示すように、高解像度画像のビットストリームのDCT(Discrete Cosine Transform)ブロックの高周波成分の係数を0に置き換えて8×8の逆離散コサイン変換をする逆離散コサイン変換装置111と、離散コサイン変換がされた高解像度画像と動き補償がされた参照画像とを加算する加算装置112と、参照画像を一時記憶するフレームメモリ113と、フレームメモリ113が記憶した参照画像に1/2画素精度で動き補償をする動き補償装置114と、フレームメモリ113が記憶した参照画像を標準解像度の画像に変換するダウンサンプリング装置115とを備えている。
【0007】
この第2のダウンデコーダでは、DCTブロックの全ての係数のうち高周波成分の係数を0に置き換えて逆離散コサイン変換を行い高解像度画像として復号した出力画像を、ダウンサンプリング装置105で縮小して標準解像度の画像データを出力する。
【0008】
第3のダウンデコーダは、図10に示すように、高解像度画像のビットストリームのDCTブロックの低周波成分の係数のみを用いて例えば4×4の逆離散コサイン変換をして標準解像度画像に復号する縮小逆離散コサイン変換装置121と、縮小逆離散コサイン変換がされた標準解像度画像と動き補償がされた参照画像とを加算する加算装置122と、参照画像を一時記憶するフレームメモリ123と、フレームメモリ123が記憶した参照画像に1/4画素精度で動き補償をする動き補償装置124とを備えている。
【0009】
この第3のダウンデコーダでは、DCTブロックの全ての係数のうち低周波成分の係数のみを用いて逆離散コサイン変換を行い、高解像度画像から標準解像度画像として復号する。
【0010】
ここで、上記第1のダウンデコーダでは、DCTブロック内の全ての係数に対して逆離散コサイン変換を行い高解像度画像を復号しているため、高い演算処理能力の逆離散コサイン変換装置101と高容量のフレームメモリ103とが必要となる。また、上記第2のダウンデコーダでは、DCTブロック内の係数のうち高周波成分を0として離散コサイン変換を行い高解像度画像を復号しているため、逆離散コサイン変換装置111の演算処理能力は低くて良いが、やはり高容量のフレームメモリ113が必要となる。これら第1及び第2のダウンデコーダに対し、第3のダウンデコーダでは、DCTブロック内の全ての係数うち低周波成分の係数のみを用いて逆離散コサイン変換をしているため逆離散コサイン変換装置121の演算処理能力が低くてよく、さらに、標準解像度画像の参照画像を復号しているのでフレームメモリ123の容量も少なくすることができる。
【0011】
ところで、テレビジョン放送等の動画像の表示方式には、順次走査方式と飛び越し走査方式とがある。順次走査方式は、フレーム内の全ての画素を同じタイミングでサンプリングした画像を、順次表示する表示方式である。飛び越し走査方式は、フレーム内の画素を水平方向の1ライン毎に異なるタイミングでサンプリングした画像を、交互に表示する表示方式である。
【0012】
この飛び越し走査方式では、フレーム内の画素を1ライン毎に異なるタイミングでサンプリングした画像のうちの一方を、トップフィールド(第1フィールドともいう。)といい、他方をボトムフィールド(第2のフィールドともいう。)という。フレームの水平方向の先頭ラインが含まれる画像がトップフィールドとなり、フレームの水平方向の2番目のラインが含まれる画像がボトムフィールドとなる。従って、飛び越し走査方式では、1つのフレームが2つのフィールドから構成されることとなる。
【0013】
MEPG2では、飛び越し走査方式に対応した動画像信号を効率良く圧縮するため、画面の圧縮単位であるピクチャにフレームを割り当てて符号化するだけでなく、ピクチャにフィールドを割り当てて符号化することもできる。
【0014】
MPEG2では、ピクチャにフィールドが割り当てられた場合には、そのビットストリームの構造をフィールド構造と呼び、ピクチャにフレームが割り当てられた場合には、そのビットストリームの構造をフレーム構造と呼ぶ。また、フィールド構造では、フィールド内の画素からDCTブロックが形成され、フィールド単位で離散コサイン変換がされる。このフィールド単位で離散コサイン変換を行う処理モードのことをフィールドDCTモードと呼ぶ。また、フレーム構造では、フレーム内の画素からDCTブロックが形成され、フレーム単位で離散コサイン変換がされる。このフレーム単位で離散コサイン変換を行う処理モードのことをフレームDCTモードと呼ぶ。さらに、フィールド構造では、フィールド内の画素からマクロブロックが形成され、フィールド単位で動き予測がされる。このフィールド単位で動き予測を行う処理モードのことをフィールド動き予測モードと呼ぶ。また、フレーム構造では、フレーム内の画素からマクロブロックが形成され、フレーム単位で動き予測がされる。フレーム単位で動き予測を行う処理モードのことをフレーム動き予測モードと呼ぶ。
【0015】
ところで、上記文献1に示された第3のダウンデコーダを利用して、飛び越し走査方式に対応した圧縮画像データを復号する画像復号装置が、例えば文献「A Compensation Method of Drift Errors in Scalability」(N.OBIKANE,K.TAHARA and J.YONEMITSU,HDTV Work Shop'93)に提案されている(以下、この文献を文献2と呼ぶ)。
【0016】
この文献2に示された従来の画像復号装置は、図11に示すように、高解像度画像をMPEG2で圧縮したビットストリームが供給され、このビットストリームを解析するビットストリーム解析装置131と、データの発生頻度に応じた符号長を割り当てる可変長符号化がされたビットストリームを復号する可変長符号復号装置132と、DCTブロックの各係数に量子化ステップを掛ける逆量子化装置2033と、DCTブロックの全ての係数のうち低周波成分の係数のみを用いて例えば4×4の逆離散コサイン変換をして標準解像度画像を復号する縮小逆離散コサイン変換装置134と、縮小逆離散コサイン変換がされた標準解像度画像と動き補償がされた参照画像とを加算する加算装置135と、参照画像を一時記憶するフレームメモリ136と、フレームメモリ136が記憶した参照画像に1/4画素精度で動き補償をする動き補償装置137とを備えている。
【0017】
この文献2に示された従来の画像復号装置の縮小逆離散コサイン変換装置134は、DCTブロック内の全ての係数のうち低周波成分の係数のみを用いて逆離散コサイン変換をするが、フレームDCTモードとフィールドDCTモードとで、逆離散コサイン変換を行う係数の位置が異なっている。
【0018】
具体的には、縮小逆離散コサイン変換装置134は、フィールドDCTモードの場合には、図12に示すように、DCTブロック内の8×8個のうち、低域の4×4個の係数のみに逆離散コサイン変換を行う。それに対し、縮小逆離散コサイン変換装置134は、フレームDCTモードの場合には、図13に示すように、DCTブロック内の8×8個の係数のうち、4×2個+4×2個の係数のみに逆離散コサイン変換を行う。
【0019】
また、この文献2に示された従来の画像復号装置の動き補償装置137は、 高解像度画像に対して行われた動き予測の情報(動きベクトル)に基づき、フィールド動き予測モード及びフレーム動き予測モードのそれぞれに対応した1/4画素精度の動き補償を行う。すなわち、通常MPEG2では1/2画素精度で動き補償が行われることが定められているが、高解像度画像から標準解像度画像を復号する場合には、ピクチャ内の画素数が1/2に間引かれるため、動き補償装置137では動き補償の画素精度を1/4画素精度として動き補償を行っている。
【0020】
従って、動き補償装置137では、高解像度画像に対応した動き補償を行うため、標準解像度の画像としてフレームメモリ136に格納された参照画像の画素に対して線形補間して、1/4画素精度の画素を生成している。
【0021】
具体的に、フィールド動き予測モード及びフレーム動き予測モードの場合の垂直方向の画素の線形補間処理を、図14及び図15を用いて説明する。なお、図面中には、縦方向に垂直方向の画素の位相を示し、表示画像の各画素が位置する位相を整数で示している。
【0022】
まず、フィールド動き予測モードで動き予測がされた画像の補間処理について、図14を用いて説明する。高解像度画像(上位レイヤー)に対しては、図14(a)に示すように、各フィールドそれぞれ独立に、1/2画素精度で動き補償がされる。これに対し、標準解像度画像(下位レイヤー)に対しては、図14(b)に示すように、整数精度の画素に基づきフィールド内で線形補間をして、垂直方向に1/4画素、1/2画素、3/4画素分の位相がずれた画素を生成し、動き補償がされる。すなわち、標準解像度画像(下位レイヤー)では、トップフィールドの整数精度の各画素に基づきトップフィールドの1/4画素精度の各画素が線形補間により生成され、ボトムフィールドの整数精度の各画素に基づきボトムフィールドの1/4画素精度の各画素が線形補間により生成される。例えば、垂直方向の位相が0の位置にあるトップフィールドの画素の値をa、垂直方向の位相が1の位置にあるトップフィールドの画素の値をbとする。この場合、垂直方向の位相が1/4の位置にあるトップフィールドの画素は(3a+b)/4となり、垂直方向の位相が1/2の位置にあるトップフィールドの画素は(a+b)/2となり、垂直方向の位相が3/4の位置にあるトップフィールドの画素は(a+3b)/4となる。
【0023】
続いて、フレーム動き予測モードで動き予測がされた画像の補間処理について、図15を用いて説明する。高解像度画像(上位レイヤー)に対しては、図15(a)に示すように、各フィールド間で補間処理がされ、すなわち、ボトムフィールドとトップフィールドとの間で補間処理がされ、1/2画素精度で動き補償がされる。標準解像度画像(下位レイヤー)に対しては、図15(b)に示すように、トップフィールド及びボトムフィールドの2つのフィールドの整数精度の各画素に基づき、垂直方向に1/4画素、1/2画素、3/4画素分の位相がずれた画素が線形補間により生成され、動き補償がされる。例えば、垂直方向の位相が−1の位置にあるボトムフィールドの画素の値をa、垂直方向の位相が0の位置にあるトップフィールドの画素の値をb、垂直方向の位相が1の位置にあるボトムフィールドの画素の値をc、垂直方向の位相が2の位置にあるトップフィールドの画素の値をd、垂直方向の位相が3の位置にあるボトムフィールドの画素の値をeとする。この場合、垂直方向の位相が0〜2の間にある1/4画素精度の各画素は、以下のように求められる。
【0024】
垂直方向の位相が1/4の位置にある画素は(a+4b+3c)/8となる。垂直方向の位相が1/2の位置にある画素は(a+3c)/4となる。垂直方向の位相が3/4の位置にある画素は(a+2b+3c+2d)/8となる。垂直方向の位相が5/4の位置にある画素は(2b+3c+2d+e)/8となる。垂直方向の位相が3/2の位置にある画素は(3c+e)/4となる。垂直方向の位相が7/4の位置にある画素は(3c+4d+e)/8となる。
【0025】
以上のように上記文献2に示された従来の画像復号装置は、飛び越し走査方式に対応した高解像度画像の圧縮画像データを、標準解像度画像データに復号することができる。
【0026】
しかしながら、上記文献2に示された従来の画像復号装置では、フィールドDCTモードで得られる標準解像度画像の各画素と、フレームDCTモードで得られる標準解像度の各画素との位相がずれる。具体的には、フィールドDCTモードでは、図16に示すように、下位レイヤーのトップフィールドの各画素の垂直方向の位相が1/2、5/2・・・となり、下位レイヤーのボトムフィールドの各画素の垂直方向の位相が1、3・・・となる。それに対して、フレームDCTモードでは、図17に示すように、下位レイヤーのトップフィールドの各画素の垂直方向の位相が0、2・・・となり、下位レイヤーのボトムフィールドの各画素の垂直方向の位相が1、3・・・となる。そのため、位相が異なる画像がフレームメモリ136に混在し、出力する画像の画質が劣化する。
【0027】
また、上記文献2に示された従来の画像復号装置では、フィールド動き予測モードとフレーム動き予測モードとで位相ずれの補正がされていない。そのため、出力する画像の画質が劣化する。
【0028】
【発明が解決しようとする課題】
このような問題を解決するための画像復号装置が、特願平10−208385号により提案されている。
【0029】
つぎに、特願平10−208385で提案された画像復号装置について説明する。
【0030】
図18に示す特願平10−208385号で提案した画像復号装置200は、垂直方向の有効ライン数が例えば1152本の高解像度画像をMPEG2で画像圧縮したビットストリームが入力され、この入力されたビットストリームを復号するとともに1/2の解像度に縮小して、垂直方向の有効ライン数が例えば576本の標準解像度画像を出力する装置である。
【0031】
なお、以下、高解像度画像のことを上位レイヤーとも呼び、標準解像度画像のことを下位レイヤーとも呼ぶものとする。また、通常、8×8の離散コサイン係数を有するDCTブロックを逆離散コサイン変換した場合8×8の画素から構成される復号データを得ることができるが、例えば、8×8の離散コサイン係数を復号して4×4の画素から構成される復号データを得るような、逆離散コサイン変換をするとともに解像度を縮小する処理を、縮小逆離散コサイン変換という。
【0032】
この画像復号装置200は、圧縮された高解像度画像のビットストリームが供給され、このビットストリームを解析するビットストリーム解析装置201と、データの発生頻度に応じた符号長を割り当てる可変長符号化がされた上記ビットストリームを復号する可変長符号復号装置202と、DCTブロックの各係数に量子化ステップを掛ける逆量子化装置203と、フィールドDCTモードで離散コサイン変換がされたDCTブロックに対して縮小逆離散コサイン変換をして標準解像度画像を生成するフィールドモード用縮小逆離散コサイン変換装置204と、フレームDCTモードで離散コサイン変換がされたDCTブロックに対して縮小逆離散コサイン変換をして標準解像度画像を生成するフレームモード用縮小逆離散コサイン変換装置205と、縮小逆離散コサイン変換がされた標準解像度画像と動き補償がされた参照画像とを加算する加算装置206と、参照画像を一時記憶するフレームメモリ207と、フレームメモリ207が記憶した参照画像にフィールド動き予測モードに対応した動き補償をするフィールドモード用動き補償装置208と、フレームメモリ207が記憶した参照画像にフレーム動き予測モードに対応した動き補償をするフレームモード用動き補償装置209と、フレームメモリ207が記憶した画像に対してポストフィルタリングをすることにより、画枠変換をするとともに画素の位相ずれを補正してテレビジョンモニタ等に表示するための標準解像度の画像データを出力する画枠変換・位相ずれ補正装置210とを備えている。
【0033】
フィールドモード用縮小逆離散コサイン変換装置204は、入力されたビットストリームのマクロブロックが、フィールドDCTモードで離散コサイン変換されている場合に用いられる。フィールドモード用縮小逆離散コサイン変換装置204は、フィールドDCTモードで離散コサイン変換がされたマクロブロック内の8×8個の係数が示されたDCTブロックに対して、図12で示したような、低域の4×4の係数のみに逆離散コサイン変換を行う。すなわち、水平方向及び垂直方向の低域の4点の離散コサイン係数に基づき縮小逆離散コサイン変換を行う。このフィールドモード用縮小逆離散コサイン変換装置204では、以上のような縮小逆離散コサイン変換を行うことにより、1つのDCTブロックが4×4の画素から構成される標準解像度画像を復号することができる。この復号された画像データの各画素の位相は、図19に示すように、トップフィールドの各画素の垂直方向の位相が1/2、5/2・・・となり、ボトムフィールドの各画素の垂直方向の位相が1、3・・・となる。すなわち、復号された下位レイヤーのトップフィールドでは、先頭画素(位相が1/2の画素)の位相が上位レイヤーのトップフィールドの先頭から1番目と2番目の画素(位相が0と2の画素)の中間位相となり、先頭から2番目の画素(位相が5/2の画素)の位相が上位レイヤーのトップフィールドの先頭から3番目と4番目の画素(位相が4と6の画素)の中間位相となる。また、復号された下位レイヤーのボトムフィールドでは、先頭画素(位相が1の画素)の位相が上位レイヤーのボトムフィールドの先頭から1番目と2番目の画素(位相が1と3の画素)の中間位相となり、先頭から2番目の画素(位相が3の画素)の位相が上位レイヤーのボトムフィールドの先頭から3番目と4番目の画素(位相が5と7の画素)の中間位相となる。
【0034】
フレームモード用縮小逆離散コサイン変換装置205は、入力されたビットストリームのマクロブロックが、フレームDCTモードで離散コサイン変換されている場合に用いられる。フレームモード用縮小逆離散コサイン変換装置205は、フレームDCTモードで離散コサイン変換がされたマクロブロック内の8×8個の係数が示されたDCTブロックに対して、縮小逆離散コサイン変換を行う。そして、フレームモード用縮小逆離散コサイン変換装置205では、1つのDCTブロックが4×4の画素から構成される解像度画像を復号するとともに、フィールドモード用縮小逆離散コサイン変換装置204で生成した標準解像度画像の画素の位相と同位相の画像を生成する。すなわち、フレームモード用縮小逆離散コサイン変換装置205で復号された画像データの各画素の位相は、図19に示すように、トップフィールドの各画素の垂直方向の位相が1/2、5/2・・・となり、ボトムフィールドの各画素の垂直方向の位相が1、3・・・となる。
【0035】
なお、このフレームモード用縮小逆離散コサイン変換装置205の処理については、その詳細を後述する。
【0036】
加算装置206は、フィールドモード用縮小逆離散コサイン変換装置204又はフレームモード用縮小逆離散コサイン変換装置205により縮小逆離散コサイン変換されたマクロブロックがイントラ画像の場合には、そのイントラ画像をそのままフレームメモリ207に格納する。また、加算装置206は、フィールドモード用縮小逆離散コサイン変換装置204又はフレームモード用縮小逆離散コサイン変換装置205により縮小逆離散コサイン変換されたマクロブロックがインター画像である場合には、そのインター画像に、フィールドモード用動き補償装置208或いはフレームモード用動き補償装置209により動き補償がされた参照画像を合成して、フレームメモリ207に格納する。
【0037】
フィールドモード用動き補償装置208は、マクロブロックの動き予測モードがフィールド動き予測モードの場合に用いられる。フィールドモード用動き補償装置208は、フレームメモリ207に記憶されている標準解像度画像の参照画像に対して、トップフィールドとボトムフィールドとの間の位相ずれ成分を考慮した形で1/4画素精度で補間処理を行い、フィールド動き予測モードに対応した動き補償をする。このフィールドモード用動き補償装置208により動き補償がされた参照画像は、加算装置206に供給され、インター画像に合成される。
【0038】
フレームモード用動き補償装置209は、マクロブロックの動き予測モードがフレーム動き予測モードの場合に用いられる。フレームモード用動き補償装置209は、フレームメモリ207に記憶されている標準解像度画像の参照画像に対して、トップフィールドとボトムフィールドとの間の位相ずれ成分を考慮した形で1/4画素精度で補間処理を行い、フレーム動き予測モードに対応した動き補償をする。このフレームモード用動き補償装置209により動き補償がされた参照画像は、加算装置206に供給され、インター画像に合成される。
【0039】
画枠変換・位相ずれ補正装置210は、フレームメモリ207が記憶した標準解像度の参照画像或いは加算装置206が合成した画像が供給され、この画像をポストフィルタリングにより、トップフィールドとボトムフィールドとの間の位相ずれ成分を補正するとともに画枠を標準解像度のテレビジョンの規格に合致するように変換する。すなわち、画枠変換・位相ずれ補正装置210は、トップフィールドの各画素の垂直方向の位相が1/2、5/2・・・となり、ボトムフィールドの各画素の垂直方向の位相が1、3・・・となる標準解像度画像を、例えば、トップフィールドの各画素の垂直方向の位相が0、2、4・・・となり、ボトムフィールドの各画素の垂直方向の位相が1、3、5・・・となるように補正する。また、画枠変換・位相ずれ補正装置210は、高解像度のテレビジョン規格の画枠を、1/4に縮小して標準解像度のテレビジョン規格の画枠に変換する。
【0040】
特願平10−208385で提案した画像復号装置200では、以上のような構成を有することにより、高解像度画像をMPEG2で画像圧縮したビットストリームを、復号するとともに解像度を1/2に縮小して、標準解像度画像を出力することができる。
【0041】
つぎに、上記フレームモード用縮小逆離散コサイン変換装置205の処理内容について、さらに詳細に説明する。
【0042】
フレームモード用縮小逆離散コサイン変換装置205には、図20に示すように、高解像度画像を圧縮符号化したビットストリームが、1つのDCTブロック単位で入力される。
【0043】
まず、ステップS1において、この1つのDCTブロックの離散コサイン係数y(DCTブロックの全ての離散コサイン係数のうち垂直方向の係数をy1〜y8として図中に示す。)に対して、8×8の逆離散コサイン変換(IDCT8×8)を行う。逆離散コサイン変換をすることにより、8×8の復号された画素データx(DCTブロックの全ての画素データのうち垂直方向の画素データをx1〜x8として図中に示す。)を得ることができる。
【0044】
続いて、ステップS2において、この8×8の画素データxを、垂直方向に1ライン毎交互に取り出して、飛び越し走査に対応した4×4のトップフィールドの画素ブロックと、飛び越し走査に対応した4×4のボトムフィールドの画素ブロックの2つの画素ブロックに分離する。すなわち、垂直方向に1ライン目の画素データx1と、3ライン目の画素データx3と、5ライン目の画素データx5と、7ライン目の画素データx7とを取り出して、トップフィールドに対応した画素ブロックを生成する。また、垂直方向に2ライン目の画素データx2と、4ライン目の画素データx4と、6ライン目の画素データx6と、8ライン目の画素データx8とを取り出して、ボトムフィールドに対応した画素ブロックを生成する。なお、DCTブロックの各画素を飛び越し走査に対応した2つの画素ブロックに分離する処理を、以下フィールド分離という。
【0045】
続いて、ステップS3において、フィールド分離した2つの画素ブロックそれぞれに対して4×4の離散コサイン変換(DCT4×4)をする。
【0046】
続いて、ステップS4において、4×4の離散コサイン変換をして得られたトップフィールドに対応する画素ブロックの離散コサイン係数z(トップフィールドに対応する画素ブロックの全ての係数のうち垂直方向の離散コサイン係数をz1,z3,z5,z7として図中に示す。)の高域成分を間引き、2×2の離散コサイン係数から構成される画素ブロックとする。また、4×4の離散コサイン変換をして得られたボトムフィールドに対応する画素ブロックの離散コサイン係数z(ボトムフィールドに対応する画素ブロックの全ての係数のうち垂直方向の離散コサイン係数をz2,z4,z6,z8として図中に示す。)の高域成分を間引き、2×2の離散コサイン係数から構成される画素ブロックとする。
【0047】
続いて、ステップS5において、高域成分の離散コサイン係数を間引いた画素ブロックに対して、2×2の逆離散コサイン変換(IDCT2×2)を行う。2×2の逆離散コサイン変換をすることにより、2×2の復号された画素データx′(トップフィールドの画素ブロックの全ての画素データのうち垂直方向の画素データをx′1,x′3として図中に示し、また、ボトムフィールドに対応する画素ブロックの全ての画素データのうち垂直方向の画素データをx′2,x′4として図中に示す。)を得ることができる。
【0048】
続いて、ステップS6において、トップフィールドに対応する画素ブロックの画素データと、ボトムフィールドに対応する画素ブロックの画素データとを、垂直方向に1ラインずつ交互に合成して、4×4の画素データから構成される縮小逆離散コサイン変換をしたDCTブロックを生成する。なお、トップフィールドとボトムフィールドに対応した2つの画素ブロックの各画素を垂直方向に交互に合成する処理を、以下フレーム合成という。
【0049】
以上のステップS1からステップS6を行うことにより、フレームモード用縮小逆離散コサイン変換装15では、図19で示したような、フィールドモード用縮小逆離散コサイン変換装置204で生成した標準解像度画像の画素の位相と同位相の画素から構成される4×4のDCTブロックを生成することができる。
【0050】
つぎに、フィールドモード用動き補償装置208及びフレームモード用動き補償装置209について、さらに詳細に説明する。
【0051】
まず、フィールドモード用動き補償装置208が行う補間処理について説明する。このフィールドモード用動き補償装置208では、以下に説明するように、高解像度画像の1/2画素精度の動き補償に対応するように、フレームメモリ207に記憶されている標準解像度画像の画素を補間して、1/4画素精度の画素を生成する。
【0052】
水平方向の画素に対しては、整数精度の画素をフレームメモリ207からとりだして2つの画素を線形補間し、1/2画素精度の画素、及び、1/4精度の画素を生成する。
【0053】
垂直方向の画素に対しては、まず、図21(a)に示すように、トップフィールドの各画素の垂直方向の位相が1/2、5/2・・・となり、ボトムフィールドの各画素の垂直方向の位相が1、3・・・となるような、トップフィールドとボトムフィールドとのフィールド間で位相ずれを含む標準解像度画像の整数精度の画素を、フレームメモリ207から取り出す。
【0054】
続いて、垂直方向の画素に対しては、図21(b)に示すように、線形補間フィルタを用いて、フィールド内で、フレームメモリ207から取り出した整数精度の画素から1/2画素精度の画素を生成する。すなわち、トップフィールドの整数精度の画素に基づきトップフィールドの1/2画素精度の画素を生成し、ボトムフィールドの整数精度の画素に基づきボトムフィールドの1/2画素精度の画素を生成する。例えば、この図21(b)に示すように、垂直方向の位相が7/2の位置にあるトップフィールドの画素は、5/2,9/2の位置にあるトップフィールドの画素から線形補間をされて生成される。また、垂直方向の位相が4の位置にあるボトムフィールドの画素は、3,5の位置にあるボトムフィールドの画素から線形補間をされて生成される。なお、この1/2画素精度の画素の生成は、線形補間フィルタではなく、ハーフバンドフィルタのような2倍補間フィルタを用いても良い。
【0055】
続いて、垂直方向の画素に対しては、図21(c)に示すように、線形補間フィルタを用いて、フィールド内で、1/2画素精度の画素から1/4画素精度の画素を生成する。すなわち、トップフィールドの1/2画素精度の画素に基づきトップフィールドの1/4画素精度の画素を生成し、ボトムフィールドの1/2画素精度の画素に基づきボトムフィールドの1/4画素精度の画素を生成する。例えば、この図21(c)に示すように、垂直方向の位相が9/4の位置にあるトップフィールドの画素は、2,5/2の位置にあるトップフィールドの画素から線形補間をされて生成される。また、垂直方向の位相が10/4の位置にあるボトムフィールドの画素は、9/4,11/4の位置にあるボトムフィールドの画素から線形補間をされて生成される。
【0056】
なお、2段階で線形補間を行わずに、4倍の線形補間フィルタを用いて整数精度の画素から直接1/4精度の画素を生成しても良い。
【0057】
つぎに、フレームモード用動き補償装置209が行う補間処理について説明する。このフレームモード用動き補償装置209では、以下に説明するように、高解像度画像の1/2画素精度の動き補償に対応するように、フレームメモリ207に記憶されている標準解像度画像の画素を補間して、1/4画素精度の画素を生成する。
【0058】
水平方向の画素に対しては、上述したフィールドモード用動き補償装置208と同様に、整数精度の画素をフレームメモリ207からとりだして2つの画素を線形補間し、1/2画素精度の画素、及び、1/4精度の画素を生成する。
【0059】
垂直方向の画素に対しては、まず、図22(a)に示すように、トップフィールドの各画素の垂直方向の位相が1/2、5/2・・・となり、ボトムフィールドの各画素の垂直方向の位相が1、3・・・となるような、トップフィールドとボトムフィールドとのフィールド間で位相ずれを含む標準解像度画像の整数精度の画素を、フレームメモリ207から取り出す。
【0060】
続いて、垂直方向の画素に対しては、図22(b)に示すように、線形補間フィルタを用いて、フィールド内で、フレームメモリ207から取り出した整数精度の画素から1/2画素精度の画素を生成する。すなわち、トップフィールドの整数精度の画素に基づきトップフィールドの1/2画素精度の画素を生成し、ボトムフィールドの整数精度の画素に基づきボトムフィールドの1/2画素精度の画素を生成する。例えば、この図22(b)に示すように、垂直方向の位相が7/2の位置にあるトップフィールドの画素は、5/2,9/2の位置にあるトップフィールドの画素から線形補間をされて生成される。また、垂直方向の位相が4の位置にあるボトムフィールドの画素は、3,5の位置にあるボトムフィールドの画素から線形補間をされて生成される。
【0061】
続いて、垂直方向の画素に対しては、図22(c)に示すように、線形補間フィルタを用いて、トップフィールドとボトムフィールドの2つのフィールド間で、1/2画素精度の画素から1/4画素精度の画素を生成する。例えば、この図22(c)に示すように、垂直方向の位相が1/4の位置にある画素は、0の位置にあるトップフィールドの画素と、1/2の位置にあるボトムフィールドの画素から線形補間をされて生成される。また、垂直方向の位相が3/4の位置にある画素は、1/2の位置にあるボトムフィールドの画素と1の位置にあるトップフィールドの画素から線形補間をされて生成される。
【0062】
以上のような処理を行うフィールドモード用動き補償装置208及びフレームモード用動き補償装置209のブロック構成を図23に示す。
【0063】
フィールドモード用動き補償装置208及びフレームモード用動き補償装置209は、この図23に示すように、アドレス生成装置222と、入力メモリ223と、垂直方向補間処理部224と、垂直方向フィルタ係数格納メモリ225と、中間メモリ226と、水平方向補間処理部227と、水平方向フィルタ係数格納メモリ228とを備えている。
【0064】
アドレス生成部222には、動きベクトル情報が入力される。アドレス生成部222は、この動きベクトル情報に基づき、補間する画素の垂直方向及び水平方向の位置を示すアドレス情報を生成する。アドレス生成部222は、生成したアドレス情報に基づき、標準解像度画像の整数精度の画素をフレームメモリ207から取り出し、入力メモリ223に送る。
【0065】
また、アドレス生成部222は、入力された動きベクトル情報を垂直方向フィルタ係数格納メモリ225及び水平方向フィルタ係数格納メモリ228に送る。
【0066】
垂直方向フィルタ係数格納メモリ225には、フィールドモード用動き補償装置208の場合4通りの1次元フィルタ係数がされ、フレームモード用動き補償装置209の場合4通りの1次元フィルタ係数が格納されている。これは、本装置では、フィールド動き予測モードの場合には図21(c)に示したように参照画像に対して位相が0,0.25,0.5,0.75となる画素を生成し、1/4画素精度の動き補償を行い、フレーム動き予測モードの場合には図22(c)に示したように参照画像に対して位相が0,0.25,0.5,0.75,1,1.25,1.5,1.75となる画素を生成し、1/4画素精度の動き補償を行うためである。
【0067】
水平方向フィルタ係数格納メモリ228には、フィールドモード用動き補償装置208とフレームモード用動き補償装置209との違いに拘わらず、4通りの1次元フィルタ係数が格納されている。
【0068】
垂直方向フィルタ係数格納メモリ225及び水平方向フィルタ係数格納メモリ228は、送られた動きベクトル情報に応じたフィルタ係数を垂直方向補間処理部224及び水平方向補間処理部227に送る。
【0069】
垂直方向補間処理部224は、入力メモリ223に格納された整数精度の画素データ(参照画像のマクロブロック)に対して、送られたフィルタ係数を用いて、垂直方向の1次元の画素補間を行う。垂直方向の画素補間が行われた参照画像のマクロブロックは、中間メモリ226に格納される。
【0070】
水平方向補間処理部227は、中間メモリ226に格納された垂直方向の画素補間が行われた画素データに対して、送られたフィルタ係数を用いて、水平方向の1次元の画素補間を行う。水平方向の画素補間が行われた参照画像のマクロブロックは、動き補償がされた参照画像として加算装置206に送られ、縮小逆離散コサイン変換がされた圧縮画像データの加算がされる。
【0071】
以上のような特願平10−208385で提案された画像復号装置200では、水平方向及び垂直方向に対して1/4画素精度で動き補償を行うことにより、トップフィールドとボトムフィールドとの間で位相ずれが生じず、いわゆるフィールド反転やフィールドミックスを防ぐことができ、動き補償に伴う画質の劣化を防止することができる。
【0072】
ところで、以上のような特願平10−208385号で提案した画像復号装置200では、以下のような問題があった。
【0073】
この画像復号装置200では、動き補償を行う場合、垂直方向の画素補間と水平方向の画素補間とを分けて行っている。そのため、この画像復号装置200では、中間結果をメモリに格納して再び読み出さなくてはならなく、余分なメモリ領域が必要となってしまい、さらに、メモリへのアクセス量が増え処理時間が増加してしまっていた。
【0074】
本発明は、このような実情を鑑みてなされたものであり、飛び越し走査画像が有するインタレース性を損なうことなくフィールド直交変換モードとフレーム直交変換モードとによる画素の位相ずれをなくすことが可能な、高解像度画像の圧縮画像データから標準解像度の画像データを復号する画像復号装置及び画像復号方法であって、動き補償の際に簡易な構成で処理を簡略化した画像復号装置及び画像復号方法を提供することを目的とする。
【0075】
【課題を解決するための手段】
本発明にかかる画像復号装置は、所定の画素ブロック(マクロブロック)単位で動き予測をすることによる予測符号化、及び、所定の画素ブロック(直交変換ブロック)単位で直交変換をすることによる圧縮符号化をした第1の解像度の圧縮画像データから、上記第1の解像度より低い第2の解像度の動画像データを復号する画像復号装置であって、飛び越し走査に対応した直交変換方式(フィールド直交変換モード)により直交変換がされた上記圧縮画像データの直交変換ブロックに対して、逆直交変換をする第1の逆直交変換手段と、順次走査に対応した直交変換方式(フレーム直交変換モード)により直交変換がされた上記圧縮画像データの直交変換ブロックに対して、逆直交変換をする第2の逆直交変換手段と、上記第1の逆直交変換手段又は上記第2の逆直交変換手段により逆直交変換がされた圧縮画像データと動き補償がされた参照画像データとを加算して、第2の解像度の動画像データを出力する加算手段と、上記加算手段から出力される動画像データを参照画像データとして記憶する記憶手段と、上記記憶手段が記憶している参照画像データのマクロブロックの垂直方向及び水平方向に対して1/4画素精度の動き補償をする動き補償手段とを備え、上記第1の逆直交変換手段は、上記直交変換ブロックの各係数のうち低周波成分の係数に対して逆直交変換をし、上記第2の逆直交変換手段は、上記直交変換ブロックの全周波数成分の係数に対して逆直交変換をし、逆直交変換をした直交変換ブロックの各画素を飛び越し走査に対応した2つの画素ブロックに分離し、分離した2つの画素ブロックに対してそれぞれ直交変換をし、直交変換をした2つの画素ブロックの各係数のうち低周波成分の係数に対して逆直交変換をし、逆直交変換をした2つの画素ブロックを合成して直交変換ブロックを生成し、上記動き補償手段は、飛び越し走査に対応した動き予測方式(フィールド動き予測モード)により動き予測がされた参照画像データのマクロブロックに対して垂直方向及び水平方向の1/4画素精度の画素補間をするフィールド用2次元フィルタ係数群、及び、順次走査に対応した動き予測方式(フレーム動き予測モード)により動き予測がされた参照画像データのマクロブロックに対して垂直方向及び水平方向の1/4画素精度の画素補間をするフレーム用2次元フィルタ係数群を格納するフィルタ格納部を有し、上記第1の逆直交変換手段又は上記第2の逆直交変換手段により逆直交変換がされた圧縮画像データの動きベクトルに基づき上記フィルタ格納部に格納された所定の2次元フィルタ係数を指定し、指定された2次元フィルタ係数を用いて上記記憶手段が記憶している参照画像データのマクロブロックを補間することを特徴とする。
【0076】
また、本発明にかかる画像復号装置では、上記フレーム用2次元フィルタ係数群は、上記記憶手段が記憶している参照画像データのマクロブロックの水平方向の各画素に対して、1つのフィールド内で4倍補間を行い、上記記憶手段が記憶している参照画像データのマクロブロックの垂直方向の各画素に対して、1つのフィールド内で2倍補間を行い、1つのフィールド内で2倍補間をした各画素に対してトップフィールドとボトムフィールドとの間で線形補間をする複数のフィルタ係数からなり、上記フィールド用2次元フィルタ係数群は、上記記憶手段が記憶している参照画像データのマクロブロックの水平方向の各画素に対して、1つのフィールド内で4倍補間を行い、上記記憶手段が記憶している参照画像データのマクロブロックの垂直方向の各画素に対して、1つのフィールド内で2倍補間をし、1つのフィールド内で2倍補間をした各画素に対して線形補間をする複数のフィルタ係数からなることを特徴とする。
【0077】
例えば、上記フレーム用2次元フィルタ係数群は、同一のフィルタ係数が共通化されて用いられる。また、上記動き補償手段は、上記フレーム用2次元フィルタ係数群を垂直方向の係数の対象性及び0係数を用いてグループ化し、補間処理を行う。
【0078】
本発明にかかる画像復号方法は、所定の画素ブロック(マクロブロック)単位で動き予測をすることによる予測符号化、及び、所定の画素ブロック(直交変換ブロック)単位で直交変換をすることによる圧縮符号化をした第1の解像度の圧縮画像データから、上記第1の解像度より低い第2の解像度の動画像データを復号する画像復号方法であって、飛び越し走査に対応した直交変換方式(フィールド直交変換モード)により直交変換がされた上記圧縮画像データの直交変換ブロックに対して、逆直交変換をする第1の逆直交変換工程と、順次走査に対応した直交変換方式(フレーム直交変換モード)により直交変換がされた上記圧縮画像データの直交変換ブロックに対して、逆直交変換をする第2の逆直交変換工程と、上記第1の逆直交変換工程又は上記第2の逆直交変換工程により逆直交変換がされた圧縮画像データと動き補償がされた参照画像データとを加算して、第2の解像度の動画像データを出力する加算工程と、上記加算工程で出力される動画像データを参照画像データとして記憶する記憶工程と、上記記憶工程で記憶している参照画像データのマクロブロックの垂直方向及び水平方向に対して1/4画素精度の動き補償をする動き補償工程とを備え、上記第1の逆直交変換工程では、上記直交変換ブロックの各係数のうち低周波成分の係数に対して逆直交変換をし、上記第2の逆直交変換工程では、上記直交変換ブロックの全周波数成分の係数に対して逆直交変換をし、逆直交変換をした直交変換ブロックの各画素を飛び越し走査に対応した2つの画素ブロックに分離し、分離した2つの画素ブロックに対してそれぞれ直交変換をし、直交変換をした2つの画素ブロックの各係数のうち低周波成分の係数に対して逆直交変換をし、逆直交変換をした2つの画素ブロックを合成して直交変換ブロックを生成し、上記動き補償工程では、飛び越し走査に対応した動き予測方式(フィールド動き予測モード)により動き予測がされた参照画像データのマクロブロックに対して垂直方向及び水平方向の1/4画素精度の画素補間をするフィールド用2次元フィルタ係数群、及び、順次走査に対応した動き予測方式(フレーム動き予測モード)により動き予測がされた参照画像データのマクロブロックに対して垂直方向及び水平方向の1/4画素精度の画素補間をするフレーム用2次元フィルタ係数群を格納したフィルタ格納部の中から、上記第1の逆直交変換工程又は上記第2の逆直交変換工程により逆直交変換がされた圧縮画像データの動きベクトルに基づき格納された所定の2次元フィルタ係数を指定し、指定された2次元フィルタ係数を用いて記憶している参照画像データのマクロブロックを補間することを特徴とする。
【0079】
本発明にかかる画像復号方法では、上記フレーム用2次元フィルタ係数群は、上記記憶工程で記憶している参照画像データのマクロブロックの水平方向の各画素に対して、1つのフィールド内で4倍補間を行い、上記記憶工程で記憶している参照画像データのマクロブロックの垂直方向の各画素に対して、1つのフィールド内で2倍補間を行い、1つのフィールド内で2倍補間をした各画素に対してトップフィールドとボトムフィールドとの間で線形補間をする複数のフィルタ係数からなり、上記フィールド用2次元フィルタ係数群は、上記記憶工程で記憶している参照画像データのマクロブロックの水平方向の各画素に対して、1つのフィールド内で4倍補間を行い、上記記憶工程で記憶している参照画像データのマクロブロックの垂直方向の各画素に対して、1つのフィールド内で2倍補間をし、1つのフィールド内で2倍補間をした各画素に対して線形補間をする複数のフィルタ係数からなることを特徴とする。
【0080】
例えば、上記フレーム用2次元フィルタ係数群は、同一のフィルタ係数が共通化されて用いられる。また、上記動き補償工程では、上記フレーム用2次元フィルタ係数群を垂直方向の係数の対象性及び0係数を用いてグループ化し、補間処理を行う。
【0081】
以上のような本発明では、1/4画素精度の画素補間をする際に、垂直方向及び水平方向の画素補間を2次元フィルタにより一括して行う。そして、フレーム動き予測モードに用いる複数の2次元フィルタのうち、同一のマトリクスとなるフィルタを共通化してもちいる。さらに、垂直方向の係数の対象性及び0係数を用いてグループ化し、処理を簡略化する。
【0082】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照しながら説明する。
【0083】
図1に本発明の実施の形態の画像復号装置のブロック構成図を示す。
【0084】
図1に示す画像復号装置10は、垂直方向の有効ライン数が例えば1152本の高解像度画像をMPEG2で画像圧縮したビットストリームが入力され、この入力されたビットストリームを復号するとともに1/2の解像度に縮小して、垂直方向の有効ライン数が例えば576本の標準解像度画像を出力する装置である。
【0085】
この画像復号装置10は、圧縮された高解像度画像のビットストリームが供給され、このビットストリームを解析するビットストリーム解析装置11と、データの発生頻度に応じた符号長を割り当てる可変長符号化がされた上記ビットストリームを復号する可変長符号復号装置12と、DCTブロックの各係数に量子化ステップを掛ける逆量子化装置13と、フィールドDCTモードで離散コサイン変換がされたDCTブロックに対して縮小逆離散コサイン変換をして標準解像度画像を生成するフィールドモード用縮小逆離散コサイン変換装置14と、フレームDCTモードで離散コサイン変換がされたDCTブロックに対して縮小逆離散コサイン変換をして標準解像度画像を生成するフレームモード用縮小逆離散コサイン変換装置15と、縮小逆離散コサイン変換がされた標準解像度画像と動き補償がされた参照画像とを加算する加算装置16と、参照画像を一時記憶するフレームメモリ17と、フレームメモリ17が記憶した参照画像に動き補償をする動き補償装置18と、フレームメモリ17が記憶した画像に対してポストフィルタリングをすることにより、画枠変換をするとともに画素の位相ずれを補正してテレビジョンモニタ等に表示するための標準解像度の画像データを出力する画枠変換・位相ずれ補正装置20とを備えている。
【0086】
フィールドモード用縮小逆離散コサイン変換装置14は、入力されたビットストリームのマクロブロックが、フィールドDCTモードで離散コサイン変換されている場合に用いられる。フィールドモード用縮小逆離散コサイン変換装置14は、フィールドDCTモードで離散コサイン変換がされたマクロブロック内の8×8個の係数が示されたDCTブロックに対して、図12で示したような、低域の4×4の係数のみに逆離散コサイン変換を行う。すなわち、水平方向及び垂直方向の低域の4点の離散コサイン係数に基づき縮小逆離散コサイン変換を行う。このフィールドモード用縮小逆離散コサイン変換装置14では、以上のような縮小逆離散コサイン変換を行うことにより、1つのDCTブロックが4×4の画素から構成される標準解像度画像を復号することができる。この復号された画像データの各画素の位相は、図19に示すように、トップフィールドの各画素の垂直方向の位相が1/2、5/2・・・となり、ボトムフィールドの各画素の垂直方向の位相が1、3・・・となる。すなわち、復号された下位レイヤーのトップフィールドでは、先頭画素(位相が1/2の画素)の位相が上位レイヤーのトップフィールドの先頭から1番目と2番目の画素(位相が0と2の画素)の中間位相となり、先頭から2番目の画素(位相が5/2の画素)の位相が上位レイヤーのトップフィールドの先頭から3番目と4番目の画素(位相が4と6の画素)の中間位相となる。また、復号された下位レイヤーのボトムフィールドでは、先頭画素(位相が1の画素)の位相が上位レイヤーのボトムフィールドの先頭から1番目と2番目の画素(位相が1と3の画素)の中間位相となり、先頭から2番目の画素(位相が3の画素)の位相が上位レイヤーのボトムフィールドの先頭から3番目と4番目の画素(位相が5と7の画素)の中間位相となる。
【0087】
フレームモード用縮小逆離散コサイン変換装置15は、入力されたビットストリームのマクロブロックが、フレームDCTモードで離散コサイン変換されている場合に用いられる。フレームモード用縮小逆離散コサイン変換装置15は、フレームDCTモードで離散コサイン変換がされたマクロブロック内の8×8個の係数が示されたDCTブロックに対して、縮小逆離散コサイン変換を行う。そして、フレームモード用縮小逆離散コサイン変換装置15では、1つのDCTブロックが4×4の画素から構成される解像度画像を復号するとともに、フィールドモード用縮小逆離散コサイン変換装置14で生成した標準解像度画像の画素の位相と同位相の画像を生成する。すなわち、フレームモード用縮小逆離散コサイン変換装置15で復号された画像データの各画素の位相は、図19に示すように、トップフィールドの各画素の垂直方向の位相が1/2、5/2・・・となり、ボトムフィールドの各画素の垂直方向の位相が1、3・・・となる。
【0088】
なお、このフレームモード用縮小逆離散コサイン変換装置15の処理内容は、上述した特願平10−208385号で提案した画像復号装置200のフレームモード用縮小逆離散コサイン変換装置205と同一であるので、その詳細は省略する。
【0089】
加算装置16は、フィールドモード用縮小逆離散コサイン変換装置14又はフレームモード用縮小逆離散コサイン変換装置15により縮小逆離散コサイン変換されたマクロブロックがイントラ画像の場合には、そのイントラ画像をそのままフレームメモリ17に格納する。また、加算装置16は、フィールドモード用縮小逆離散コサイン変換装置14又はフレームモード用縮小逆離散コサイン変換装置15により縮小逆離散コサイン変換されたマクロブロックがインター画像である場合には、そのインター画像に、動き補償装置18により動き補償がされた参照画像を合成して、フレームメモリ17に格納する。
【0090】
動き補償装置18は、フレームメモリ17に記憶されている標準解像度画像の参照画像に対して、トップフィールドとボトムフィールドとの間の位相ずれ成分を考慮した形で1/4画素精度で補間処理を行い、フィールド動き予測モードに対応した動き補償をする。この動き補償装置18により動き補償がされた参照画像は、加算装置16に供給され、インター画像に合成される。この動き補償装置18の処理については、その詳細を後述する。
【0091】
画枠変換・位相ずれ補正装置20は、フレームメモリ17が記憶した標準解像度の参照画像或いは加算装置16が合成した画像が供給され、この画像をポストフィルタリングにより、トップフィールドとボトムフィールドとの間の位相ずれ成分を補正するとともに画枠を標準解像度のテレビジョンの規格に合致するように変換する。すなわち、画枠変換・位相ずれ補正装置20は、トップフィールドの各画素の垂直方向の位相が1/2、5/2・・・となり、ボトムフィールドの各画素の垂直方向の位相が1、3・・・となる標準解像度画像を、例えば、トップフィールドの各画素の垂直方向の位相が0、2、4・・・となり、ボトムフィールドの各画素の垂直方向の位相が1、3、5・・・となるように補正する。また、画枠変換・位相ずれ補正装置20は、高解像度のテレビジョン規格の画枠を、1/4に縮小して標準解像度のテレビジョン規格の画枠に変換する。
【0092】
画像復号装置10では、以上のような構成を有することにより、高解像度画像をMPEG2で画像圧縮したビットストリームを、復号するとともに解像度を1/2に縮小して、標準解像度画像を出力することができる。
【0093】
つぎに、動き補償装置18について、さらに詳細に説明する。
【0094】
この動き補償装置18では、以下に説明するように、高解像度画像の1/2画素精度の動き補償に対応するように、フレームメモリ17に記憶されている標準解像度画像の画素を補間して、1/4画素精度の画素を生成する。
【0095】
この動き補償装置18は、垂直方向の画素補間と水平方向の画素補間とを、1つの2次元フィルタ係数を用いて処理を行っている。もっとも、この動き補償装置18の処理結果生成された画素の位相、すなわち、この動き補償装置18によりフィルタリングした結果生成された画素の位相は、上述した特願平10−208385で提案された画像復号装置200の動き補償装置で処理した結果と同一となる。
【0096】
すなわち、この動き補償装置18では、フィールド動き予測モードの場合には、以下のように処理を行う。
【0097】
水平方向の画素に対しては、整数精度の2つの画素を線形補間し、1/2画素精度の画素、及び、1/4精度の画素を生成する。
【0098】
垂直方向の画素に対しては、まず、トップフィールドの各画素の垂直方向の位相が1/2、5/2・・・となり、ボトムフィールドの各画素の垂直方向の位相が1、3・・・となるような、トップフィールドとボトムフィールドとのフィールド間で位相ずれを含む標準解像度画像の整数精度の画素を、フレームメモリ17から取り出す。
【0099】
続いて、垂直方向の画素に対して、フィールド内で、フレームメモリ17から取り出した整数精度の画素から1/2画素精度の画素を生成する。すなわち、トップフィールドの整数精度の画素に基づきトップフィールドの1/2画素精度の画素を生成し、ボトムフィールドの整数精度の画素に基づきボトムフィールドの1/2画素精度の画素を生成する。
【0100】
続いて、垂直方向の画素に対して、フィールド内で、1/2画素精度の画素から1/4画素精度の画素を生成する。すなわち、トップフィールドの1/2画素精度の画素に基づきトップフィールドの1/4画素精度の画素を生成し、ボトムフィールドの1/2画素精度の画素に基づきボトムフィールドの1/4画素精度の画素を生成する。
【0101】
以上のようなフィールド動き予測モードの場合の1/4画素精度の画素補間を図面に表すと、図2に示すようになる。この図2において、●はトップフィールドの整数画素精度の画素の位相位置を示し、▲はトップフィールドの1/2画素精度の画素の位相位置を示し、■はトップフィールドの1/4画素精度の画素の位相位置を示している。また、○はボトムフィールドの整数画素精度の画素の位相位置を示し、△はトップフィールドの1/2画素精度の画素の位相位置を示し、□はトップフィールドの1/4画素精度の画素の位相位置を示している。
【0102】
動き補償装置18は、以上のようなフィールド動き予測モードにおける画素補間処理を、1つの2次元補間フィルタを用いて行い、整数精度の画素から直接1/4精度の画素を生成する
また、この動き補償装置18では、フレーム動き予測モードの場合には、以下のように処理を行う。
【0103】
水平方向の画素に対しては、整数精度の画素の2つの画素を線形補間し、1/2画素精度の画素、及び、1/4精度の画素を生成する。
【0104】
垂直方向の画素に対しては、まず、トップフィールドの各画素の垂直方向の位相が1/2、5/2・・・となり、ボトムフィールドの各画素の垂直方向の位相が1、3・・・となるような、トップフィールドとボトムフィールドとのフィールド間で位相ずれを含む標準解像度画像の整数精度の画素を、フレームメモリ17から取り出す。
【0105】
続いて、垂直方向の画素に対して、フィールド内で、フレームメモリ17から取り出した整数精度の画素から1/2画素精度の画素を生成する。すなわち、トップフィールドの整数精度の画素に基づきトップフィールドの1/2画素精度の画素を生成し、ボトムフィールドの整数精度の画素に基づきボトムフィールドの1/2画素精度の画素を生成する。
【0106】
続いて、垂直方向の画素に対して、トップフィールドとボトムフィールドの2つのフィールド間で、1/2画素精度の画素から1/4画素精度の画素を生成する。例えば、垂直方向の位相が1/4の位置にある画素は、0の位置にあるトップフィールドの画素と、1/2の位置にあるボトムフィールドの画素から線形補間をされて生成される。また、垂直方向の位相が3/4の位置にある画素は、1/2の位置にあるボトムフィールドの画素と1の位置にあるトップフィールドの画素から線形補間をされて生成される。
【0107】
以上のようなフレーム動き予測モードの場合の1/4画素精度の画素補間を図面に表すと、図3に示すようになる。この図3において、●はトップフィールドの整数画素精度の画素の位相位置を示し、▲はトップフィールドの1/2画素精度の画素の位相位置を示し、■はトップフィールドの1/4画素精度の画素の位相位置を示している。また、○はボトムフィールドの整数画素精度の画素の位相位置を示し、△はトップフィールドの1/2画素精度の画素の位相位置を示し、□はトップフィールドの1/4画素精度の画素の位相位置を示している。
【0108】
動き補償装置18は、以上のようなフレーム動き予測モードにおける画素補間処理を、1つの2次元補間フィルタを用いて行い、整数精度の画素から直接1/4精度の画素を生成する。
【0109】
つぎに、動き補償装置18のブロック構成を図4に示し、この動き補償装置18の回路構成及び画素補間の為のフィルタリング処理内容について、具体的に説明する。
【0110】
動き補償装置18は、この図4に示すように、アドレス生成装置21と、入力メモリ22と、フィルタ係数格納メモリ23と、2次元補間処理部24とを備えている。
【0111】
アドレス生成部21には、動きベクトル情報及びモード情報が入力される。モード情報とは、マクロブロックの動き補償のモードがフィールド動き予測モードであるか、フレーム動き予測モードであるかを示す情報である。
【0112】
アドレス生成部21は、この動きベクトル情報に基づき、補間する画素の垂直方向及び水平方向の位置を示すアドレス情報を生成する。アドレス生成部21は、生成したアドレス情報に基づき、標準解像度画像の整数精度の画素をマクロブロック単位でフレームメモリ17から取り出し、入力メモリ22に送る。
【0113】
また、アドレス生成部21は、入力された動きベクトル情報及びモード情報をフィルタ係数格納メモリ23に送る。
【0114】
フィルタ係数格納メモリ23は、フィールド動き予測モードに対応した複数の2次元フィルタ係数を格納している。図5に、線形フィルタを用いた場合の16通りの2次元フィルタ係数を示す。図5に示す各フィルタ係数は、垂直方向(V)の位相0,0.25,0.5,0.75と、水平方向(H)の位相0,0.25,0.5,0.75との組み合わせの数だけ存在する。すなわち、フィールド動き予測モードに対応した、垂直方向4係数×水平方向4係数の合計16個のマトリクス係数を格納している。
【0115】
また、フィルタ係数格納メモリ23は、フレーム動き予測モードに対応した複数の2次元フィルタ係数も格納している。ここで、フレーム動き予測モードの場合、垂直方向(V)の位相0,0.25,0.5,0.75,1,1.25,1.5,1.75と、水平方向(H)の位相0,0.25,0.5,0.75との組み合わせの数だけ、すなわち、垂直方向8係数×水平方向4係数の合計32個のフィルタ係数が通常であれば存在することとなる。しかしながら、このフィルタ係数格納メモリ23には、マトリクスが同一となるフィルタ係数は共通化して用い、メモリ容量の効率化を図っている。
【0116】
具体的には、以下のように共通化して、フレーム動き予測モードに対応したフィルタ係数の削減を図っている。
【0117】
フレーム動き予測モードに対応したフィルタ係数は、図6に示すように、垂直方向の位相が0のトップフィールド、垂直方向の位相が0のボトムフィールド、垂直方向の位相が0.5のトップフィールド、垂直方向の位相が1.5のボトムフィールドは、全て同一のフィルタ係数となる(グループ1)。垂直方向の位相が0.25のトップフィールド、垂直方向の位相が1.75のボトムフィールドは、全て同一のフィルタ係数となる(グループ2)。垂直方向の位相が0.5のボトムフィールド、垂直方向の位相が1のトップフィールド、垂直方向の位相が1のボトムフィールド、垂直方向の位相が1.5のトップフィールドは、全て同一のフィルタ係数となる(グループ3)。垂直方向の位相が0.25のボトムフィールド、垂直方向の位相が0.75のトップフィールド、垂直方向の位相が1.25のボトムフィールド、垂直方向の位相が1.75のトップフィールドは、全て同一のフィルタ係数となる(グループ4)。垂直方向の位相が0.75のボトムフィールド、垂直方向の位相が1.25のトップフィールドは、全て同一のフィルタ係数となる(グループ5)。そして、このような同一のフィルタ係数をグループ化して共通化して画素補間に用いる。
【0118】
このようにフィルタ係数を共通化して用いることによって、本来であれば、8×4の32通りのフィルタ係数となるところを、5×4の20通りのフィルタ係数に縮小している。
【0119】
図7に、線形フィルタを用いたフレーム動き予測モード用の2次元フィルタ係数を示す。図7に示す各フィルタ係数は、図6に示したグループ1からグループ5の5個のグループと、水平方向(H)の位相0,0.25,0.5,0.75との組み合わせの数、すなわち、5グループ×水平方向の4係数=20通りの存在する。
【0120】
フィルタ係数格納メモリ23は、送られた動きベクトル情報及びモード情報に応じて、図5に示した16通りのフィルタ係数、又は、図7に示した20通りのフィルタ係数のうち、1つのフィルタ係数を2次元補間処理部24に送る。
【0121】
2次元補間処理部24は、フィールド動き予測モードの場合、送られたフィルタ係数を用いて、以下の式1の内積演算を行いマクロブロックに対して画素補間を行う。
【0122】
【数1】
【0123】
この式1において、cは、図5に示したフィルタ係数(2次元マトリクス)である。xは、入力されたマクロブロックの画素データである。
【0124】
そして、この式1により内積演算がされた結果(y)が、1/4画素精度で動き補償がされた画素データとして、図1に示す加算装置16に供給される。
【0125】
また、2次元補間処理部24は、フレーム動き予測モードの場合、送られたフィルタ係数を用いて、以下の式2の内積演算を行いマクロブロックに対して画素補間を行う。
【0126】
【数2】
【0127】
ここで、グループ1に含まれるフィルタ係数は、入力データのサンプル点に一致するデータを出力する演算を行うものである。グループ2は、異なるフィールドの同一ライン間で補間されたデータを出力する演算を行うものである。グループ3は、同一のフィールドの2ライン間で補間されたデータを出力する演算を行うものである。グループ4は、あるフィールドの2ライン間で補間されたデータと他のフィールドの1ラインのデータとの間で補間されたデータを出力する演算を行うものである。グループ5は、あるフィールドの2ライン間で補間されたデータと、他のフィールドの2ライン間で補間されたデータとの間で補間されたデータを出力する演算を行うものである。
【0128】
ところで、フレーム動き予測モードにおいて、フィールド動き予測モードと同様に式1を用いて内積演算を行うことも可能であるが、上記式2に示すように演算を行うことにより、垂直方向の係数の対象性や0係数の並びによるグループ化して、乗算の数を少なくすることができる。この式2に示す内積演算式は、予め垂直方向に必要なライン数を加算し、水平方向のみに乗算を行い内積演算を行う。
【0129】
このことにより、グループ2とグループ3とは、2ラインが0係数なので、垂直方向の2ラインの加算のみを行えばよい。このグループ2とグループ3は、演算するラインが異なるが、アドレス生成回路21が演算するラインを指定することにより、同一のフィルタ係数を用いることができる。また、グループ4は、第1ラインと第3ラインが第2ラインの1/2の係数となっており、この対象性を利用して、2×c×xという演算を、c×(x+x)というように分解して演算することが可能である。すなわち、垂直方向の係数の加算結果は、グループ4とグループ5とで同一となる。このように分解することにより、グループ4とグループ5とで同一のフィルタ係数を用いることができる。
【0130】
以上のように本発明の実施の形態の画像復号装置10では、水平方向及び垂直方向に対して1/4画素精度で動き補償を行うことにより、トップフィールドとボトムフィールドとの間で位相ずれが生じず、いわゆるフィールド反転やフィールドミックスを防ぐことができ、動き補償に伴う画質の劣化を防止することができる。
【0131】
さらに、この画像復号装置10では、1/4画素精度の動き補償の際に2次元のフィルタ演算をするので、中間結果を格納するためのメモリを削減することができる。また、この画像復号装置10では、1/4画素精度の動き補償の際にメモリへのアクセス量を減らすことができ、処理時間が短縮する。また、この画像復号装置10では、フレーム動き予測モードの際のフィルタ係数をグループ化することにより、フレーム予測の際のコードサイズを最小限に抑え、キャッシュミス等を防止することができる。
【0132】
なお、本発明の実施の形態の画像復号装置10では、動き補償を2次元の線形補間フィルタを用いて行った例を示したが、例えば、フィルタのタップ数を増やしたハーフバンドフィルタ等の他のフィルタを用いてもよい。
【0133】
【発明の効果】
本発明にかかる画像復号装置及び画像復号方法では、フレーム直交変換モードにより直交変換がされた直交変換ブロックの全周波数成分の係数に対して逆直交変換をして飛び越し走査に対応した2つの画素ブロックに分離し、分離した2つの画素ブロックに対してそれぞれ直交変換をして低周波成分の係数に対して逆直交変換をし、逆直交変換をした2つの画素ブロックを合成する。また、本発明では、記憶している参照画像データのマクロブロックの各画素に対して補間をして、1/4画素精度の画素から構成されるマクロブロックを生成する。そして、この画像復号方法では、第1の解像度より低い第2の解像度の動画像データを出力する。
【0134】
このことにより、本発明では、復号に必要な演算量及び記憶容量を少なくすることができ、フィールド動き予測モードとフレーム動き予測モードとによる動き補償の際の画素の位相ずれをなくし、動き補償に起因する画質の劣化を防止することができる。
【0135】
さらに本発明では、1/4画素精度の画素補間をする際に、垂直方向及び水平方向の画素補間を2次元フィルタにより一括して行う。そして、フレーム動き予測モードに用いる複数の2次元フィルタのうち、同一のマトリクスとなるフィルタを共通化してもちいる。さらに、垂直方向の係数の対象性及び0係数を用いてグループ化し、処理を簡略化する。
【0136】
このことにより、本発明では、1/4画素精度の動き補償の際の中間結果を格納するためのメモリを削減することができる。また、本発明では、1/4画素精度の動き補償の際にメモリへのアクセス量を減らすことができ、処理時間が短縮する。また、本発明では、フレーム予測の際のコードサイズを最小限に抑え、キャッシュミス等を防止することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態の画像復号装置のブロック図である。
【図2】フィールド動き予測モードの場合の1/4画素精度の画素補間を説明するための図である。
【図3】フィールド動き予測モードの場合の1/4画素精度の画素補間を説明するための図である。
【図4】上記画像復号装置の動き補償装置のブロック図である。
【図5】フィールド動き予測モードに対応した2次元フィルタ係数の一例を示す図である。
【図6】フレーム動き予測モードに対応した2次元フィルタ係数のグループ分けを説明するための図である。
【図7】フレーム動き予測モードに対応した2次元フィルタ係数の一例を示す図である。
【図8】従来の第1のダウンデコーダを示すブロック図である。
【図9】従来の第2のダウンデコーダを示すブロック図である。
【図10】従来の第3のダウンデコーダを示すブロック図である。
【図11】従来の画像復号装置のブロック図である。
【図12】上記従来の画像復号装置のフィールドDCTモードにおける縮小逆離散コサイン変換処理を説明するための図である。
【図13】上記従来の画像復号装置のフィールドDCTモードにおける縮小逆離散コサイン変換処理を説明するための図である。
【図14】上記従来の画像復号装置のフィールド動き予測モードにおける線形補間処理を説明するための図である。
【図15】上記従来の画像復号装置のフレーム動き予測モードにおける線形補間処理を説明するための図である。
【図16】上記従来の画像復号装置のフィールドDCTモードの結果得られる画素の位相を説明するための図である。
【図17】上記従来の画像復号装置のフレームDCTモードの結果得られる画素の位相を説明するための図である。
【図18】特願平10−208385で提案された画像復号装置のブロック図である。
【図19】上記特願平10−208385で提案された画像復号装置のフレームメモリに格納される参照画像の垂直方向の画素の位相を説明するための図である。
【図20】上記特願平10−208385で提案された画像復号装置のフレームモード用縮小逆離散コサイン変換装置の1ブロック処理の内容を説明するための図である。
【図21】上記特願平10−208385で提案された画像復号装置のフィールド動き予測モードの際の1/4画素補間処理を説明するための図である。
【図22】上記特願平10−208385で提案された画像復号装置のフレーム動き予測モードの際の1/4画素補間処理を説明するための図である。
【図23】上記特願平10−208385で提案された画像復号装置の動き補償装置の部ルック図である。
【符号の説明】
10 画像復号装置、14 縮小逆離散コサイン変換装置、15 フレームモード用縮小逆離散コサイン変換装置、17 フレームメモリ、18 動き補償装置、21 アドレス生成部、22 入力メモリ、23 フィルタ係数格納メモリ、24 2次元補間処理部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an image decoding apparatus and an image decoding method for decoding compressed image data having a first resolution that has been compression-encoded by performing orthogonal transform in units of orthogonal transform blocks each consisting of 8 × 8 pixels. The present invention relates to an image decoding apparatus and an image decoding method for decoding compressed image data having a resolution and reducing the moving image data to a second resolution lower than the first resolution.
[0002]
[Prior art]
The standardization of digital television broadcasting using an image compression method such as MPEG2 (Moving Picture Experts Group phase 2) is underway. Standards for digital television broadcasting include standards corresponding to standard resolution images (for example, 576 effective lines in the vertical direction), standards corresponding to high resolution images (for example, 1152 effective lines in the vertical direction), and the like. is there. Therefore, in recent years, by decoding compressed image data of a high resolution image and reducing the compressed image data to 1/2 resolution, image data of a standard resolution image is generated, and this image data corresponds to the standard resolution. There is a need for a down decoder for display on a television monitor.
[0003]
A down-decoder that decodes a bit stream such as MPEG2 that has been subjected to predictive coding by motion prediction and compression coding by discrete cosine transform on a high-resolution image and down-samples it into a standard-resolution image is described in the document “No low frequency drift” "Scalable Decoder" (Iwahashi, Kamibayashi, Takaya: IEICE Tech. Reports CS94-186, DSP94-108, 1995-01) (hereinafter referred to as Document 1). The
[0004]
As shown in FIG. 8, the first down-decoder uses 8 (the number of coefficients counted from the DC component in the horizontal direction) × 8 (the number of coefficients counted from the DC component in the vertical direction) for the bit stream of the high-resolution image. The inverse discrete
[0005]
In the first down decoder, an output image obtained by performing inverse discrete cosine transform and decoded as a high-resolution image is reduced by the down-
[0006]
As shown in FIG. 9, the second down decoder replaces the coefficient of the high frequency component of the DCT (Discrete Cosine Transform) block of the bit stream of the high resolution image with 0 and performs inverse discrete cosine transform of 8 × 8. A
[0007]
In this second down decoder, the output image decoded as a high resolution image by performing inverse discrete cosine transform by replacing the coefficient of the high frequency component among all the coefficients of the DCT block with 0 is reduced by the
[0008]
As shown in FIG. 10, the third down decoder performs, for example, 4 × 4 inverse discrete cosine transform using only the low frequency component coefficient of the DCT block of the bit stream of the high resolution image and decodes it to the standard resolution image. A reduced inverse discrete
[0009]
In the third down decoder, inverse discrete cosine transform is performed using only the coefficients of the low frequency component among all the coefficients of the DCT block, and the high resolution image is decoded as the standard resolution image.
[0010]
Here, since the first down decoder performs inverse discrete cosine transform on all the coefficients in the DCT block and decodes the high-resolution image, the first down decoder and the inverse discrete
[0011]
By the way, there are a sequential scanning method and an interlaced scanning method as a moving image display method such as television broadcasting. The sequential scanning method is a display method that sequentially displays images obtained by sampling all pixels in a frame at the same timing. The interlaced scanning method is a display method that alternately displays images obtained by sampling pixels in a frame at different timings for each line in the horizontal direction.
[0012]
In this interlaced scanning method, one of images obtained by sampling pixels in a frame at different timings for each line is called a top field (also called a first field), and the other is called a bottom field (also called a second field). Say.) An image including the top line in the horizontal direction of the frame is a top field, and an image including the second line in the horizontal direction of the frame is a bottom field. Therefore, in the interlace scanning method, one frame is composed of two fields.
[0013]
In MPEG2, in order to efficiently compress a moving image signal corresponding to the interlace scanning method, not only can a frame be assigned to a picture, which is a compression unit of a screen, but also a field can be assigned to a picture for encoding. .
[0014]
In MPEG2, when a field is assigned to a picture, the structure of the bit stream is called a field structure, and when a frame is assigned to a picture, the structure of the bit stream is called a frame structure. In the field structure, a DCT block is formed from pixels in the field, and discrete cosine transform is performed on a field basis. A processing mode in which discrete cosine transform is performed on a field basis is called a field DCT mode. In the frame structure, a DCT block is formed from pixels in the frame, and discrete cosine transform is performed on a frame basis. A processing mode in which discrete cosine transformation is performed in units of frames is called a frame DCT mode. Furthermore, in the field structure, a macroblock is formed from pixels in the field, and motion prediction is performed in field units. A processing mode in which motion prediction is performed in units of fields is referred to as field motion prediction mode. In the frame structure, a macro block is formed from pixels in the frame, and motion prediction is performed on a frame basis. A processing mode in which motion prediction is performed in units of frames is called a frame motion prediction mode.
[0015]
By the way, an image decoding apparatus that decodes compressed image data corresponding to the interlace scanning method using the third down decoder shown in the above-mentioned
[0016]
As shown in FIG. 11, the conventional image decoding device shown in this
[0017]
The reduced inverse discrete
[0018]
Specifically, in the case of the field DCT mode, the reduced inverse discrete
[0019]
In addition, the
[0020]
Therefore, in order to perform motion compensation corresponding to the high resolution image, the
[0021]
Specifically, the linear interpolation processing of pixels in the vertical direction in the field motion prediction mode and the frame motion prediction mode will be described with reference to FIGS. 14 and 15. In the drawing, the phase of pixels in the vertical direction is shown in the vertical direction, and the phase in which each pixel of the display image is located is shown as an integer.
[0022]
First, an interpolation process for an image subjected to motion prediction in the field motion prediction mode will be described with reference to FIG. For a high-resolution image (upper layer), as shown in FIG. 14A, motion compensation is performed with a 1/2 pixel accuracy independently for each field. On the other hand, for a standard resolution image (lower layer), as shown in FIG. 14B, linear interpolation is performed in the field based on integer precision pixels, and 1/4 pixel, 1 / 2 pixels and 3/4 pixels out of phase are generated and motion compensation is performed. In other words, in the standard resolution image (lower layer), each pixel having the ¼ pixel accuracy of the top field is generated by linear interpolation based on each pixel having the integer accuracy of the top field, and the bottom of each pixel having the integer accuracy of the bottom field is generated. Each pixel with 1/4 pixel accuracy of the field is generated by linear interpolation. For example, the value of the pixel in the top field where the vertical phase is 0 is a, and the value of the pixel in the top field where the vertical phase is 1 is b. In this case, the top field pixel whose vertical phase is 1/4 is (3a + b) / 4, and the top field pixel whose vertical phase is 1/2 is (a + b) / 2. The pixel in the top field at the position where the vertical phase is 3/4 is (a + 3b) / 4.
[0023]
Next, an interpolation process for an image subjected to motion prediction in the frame motion prediction mode will be described with reference to FIG. For the high resolution image (upper layer), as shown in FIG. 15A, interpolation processing is performed between the fields, that is, interpolation processing is performed between the bottom field and the top field, and 1/2 Motion compensation is performed with pixel accuracy. For the standard resolution image (lower layer), as shown in FIG. 15B, based on the integer precision pixels of the two fields of the top field and the bottom field, 1/4 pixel, 1 / Pixels whose phases are shifted by 2 pixels and 3/4 pixels are generated by linear interpolation, and motion compensation is performed. For example, the value of the bottom field pixel whose vertical phase is -1 is set to a, the value of the top field pixel whose vertical phase is 0 is set to b, and the vertical phase is set to 1 Let c be the value of a pixel in a certain bottom field, d be the value of a pixel in the top field where the vertical phase is at
[0024]
The pixel whose vertical phase is ¼ is (a + 4b + 3c) / 8. A pixel having a vertical phase of 1/2 is (a + 3c) / 4. A pixel whose vertical phase is 3/4 is (a + 2b + 3c + 2d) / 8. A pixel having a vertical phase of 5/4 is (2b + 3c + 2d + e) / 8. A pixel whose vertical phase is 3/2 is (3c + e) / 4. A pixel whose vertical phase is 7/4 is (3c + 4d + e) / 8.
[0025]
As described above, the conventional image decoding apparatus disclosed in
[0026]
However, in the conventional image decoding device shown in the above-mentioned
[0027]
Further, in the conventional image decoding device disclosed in the above-mentioned
[0028]
[Problems to be solved by the invention]
An image decoding apparatus for solving such a problem has been proposed in Japanese Patent Application No. 10-208385.
[0029]
Next, the image decoding apparatus proposed in Japanese Patent Application No. 10-208385 will be described.
[0030]
The
[0031]
Hereinafter, the high resolution image is also referred to as an upper layer, and the standard resolution image is also referred to as a lower layer. In general, when a DCT block having 8 × 8 discrete cosine coefficients is subjected to inverse discrete cosine transform, decoded data composed of 8 × 8 pixels can be obtained. For example, 8 × 8 discrete cosine coefficients are The process of performing inverse discrete cosine transform and reducing the resolution so as to obtain decoded data composed of 4 × 4 pixels by decoding is called reduced inverse discrete cosine transform.
[0032]
The
[0033]
The reduced inverse discrete
[0034]
The reduced inverse discrete
[0035]
Details of the processing of the reduced inverse discrete
[0036]
When the macroblock subjected to the reduced inverse discrete cosine transform 204 by the field mode reduced inverse discrete
[0037]
The field mode
[0038]
The frame mode
[0039]
The image frame conversion / phase
[0040]
The
[0041]
Next, the processing contents of the reduced inverse discrete
[0042]
As shown in FIG. 20, a bit stream obtained by compressing and encoding a high-resolution image is input to the reduced inverse discrete cosine transform device for
[0043]
First, in step S1, the discrete cosine coefficient y of this one DCT block (the coefficient in the vertical direction of all the discrete cosine coefficients of the DCT block is expressed as y 1 ~ Y 8 As shown in the figure. ) Is subjected to 8 × 8 inverse discrete cosine transform (IDCT 8 × 8). By performing inverse discrete cosine transform, 8 × 8 decoded pixel data x (vertical pixel data of all the pixel data of the DCT block is converted to x 1 ~ X 8 As shown in the figure. ) Can be obtained.
[0044]
Subsequently, in step S2, the 8 × 8 pixel data x is alternately extracted for each line in the vertical direction, and a 4 × 4 top field pixel block corresponding to interlaced scanning and 4 corresponding to interlaced scanning. The pixel block of the x4 bottom field is separated into two pixel blocks. That is, the pixel data x of the first line in the vertical direction 1 And pixel data x on the third line Three And pixel data x on the fifth line Five And pixel data x of the seventh line 7 And a pixel block corresponding to the top field is generated. Also, pixel data x of the second line in the vertical direction 2 And pixel data x on the fourth line Four And pixel data x of the sixth line 6 And pixel data x of the eighth line 8 And a pixel block corresponding to the bottom field is generated. The process of separating each pixel of the DCT block into two pixel blocks corresponding to interlaced scanning is hereinafter referred to as field separation.
[0045]
Subsequently, in step S3, 4 × 4 discrete cosine transform (DCT4 × 4) is performed on each of the two pixel blocks separated in the field.
[0046]
Subsequently, in step S4, the discrete cosine coefficient z of the pixel block corresponding to the top field obtained by performing the 4 × 4 discrete cosine transform (the discrete in the vertical direction among all the coefficients of the pixel block corresponding to the top field) The cosine coefficient is z 1 , Z Three , Z Five , Z 7 As shown in the figure. ) Is a pixel block composed of 2 × 2 discrete cosine coefficients. Also, the discrete cosine coefficient z of the pixel block corresponding to the bottom field obtained by the 4 × 4 discrete cosine transform (the discrete cosine coefficient in the vertical direction among all the coefficients of the pixel block corresponding to the bottom field is z 2 , Z Four , Z 6 , Z 8 As shown in the figure. ) Is a pixel block composed of 2 × 2 discrete cosine coefficients.
[0047]
Subsequently, in step S5, 2 × 2 inverse discrete cosine transform (IDCT2 × 2) is performed on the pixel block obtained by thinning out the discrete cosine coefficients of the high frequency components. By performing 2 × 2 inverse discrete cosine transform, 2 × 2 decoded pixel data x ′ (vertical pixel data of all pixel data of the top field pixel block is converted to x ′ 1 , X ′ Three In the figure, the pixel data in the vertical direction among all the pixel data of the pixel block corresponding to the bottom field is x ′. 2 , X ′ Four As shown in the figure. ) Can be obtained.
[0048]
Subsequently, in step S6, the pixel data of the pixel block corresponding to the top field and the pixel data of the pixel block corresponding to the bottom field are alternately synthesized one line at a time in the vertical direction to obtain 4 × 4 pixel data. A DCT block having a reduced inverse discrete cosine transform composed of The process of alternately synthesizing the pixels of the two pixel blocks corresponding to the top field and the bottom field in the vertical direction is hereinafter referred to as frame synthesis.
[0049]
By performing the above steps S1 to S6, the reduced inverse discrete
[0050]
Next, the field mode
[0051]
First, the interpolation processing performed by the field mode
[0052]
For pixels in the horizontal direction, an integer precision pixel is taken out from the
[0053]
For the pixels in the vertical direction, as shown in FIG. 21A, the vertical phase of each pixel in the top field is 1/2, 5/2. The pixels of integer resolution of the standard resolution image including the phase shift between the top field and the bottom field such that the vertical phase is 1, 3,... Are extracted from the
[0054]
Subsequently, for the pixels in the vertical direction, as shown in FIG. 21 (b), a linear interpolation filter is used to reduce the pixel accuracy of ½ pixel from the integer accuracy pixel extracted from the
[0055]
Subsequently, for vertical pixels, as shown in FIG. 21C, a linear interpolation filter is used to generate 1/4 pixel accuracy pixels from 1/2 pixel accuracy pixels within the field. To do. That is, a pixel having a ¼ pixel accuracy in the top field is generated based on the pixel having a ½ pixel accuracy in the top field, and a pixel having a ¼ pixel accuracy in the bottom field is generated based on the ½ pixel accuracy pixel in the bottom field. Is generated. For example, as shown in FIG. 21 (c), the top field pixel whose vertical phase is at 9/4 is linearly interpolated from the top field pixel at 2, 5/2. Generated. Also, the bottom field pixel whose vertical phase is at the position of 10/4 is generated by linear interpolation from the bottom field pixel at the position of 9/4, 11/4.
[0056]
Instead of performing linear interpolation in two steps, a 1/4 precision pixel may be generated directly from integer precision pixels using a quadruple linear interpolation filter.
[0057]
Next, an interpolation process performed by the frame mode
[0058]
For pixels in the horizontal direction, as in the field mode
[0059]
For the pixels in the vertical direction, first, as shown in FIG. 22A, the vertical phase of each pixel in the top field becomes 1/2, 5/2. The pixels of integer resolution of the standard resolution image including the phase shift between the top field and the bottom field such that the vertical phase is 1, 3,... Are extracted from the
[0060]
Subsequently, for the pixels in the vertical direction, as shown in FIG. 22 (b), using a linear interpolation filter, the pixels of integer precision extracted from the
[0061]
Subsequently, as shown in FIG. 22 (c), for a pixel in the vertical direction, a linear interpolation filter is used to change the pixel from a pixel with 1/2 pixel accuracy between two fields of the top field and the bottom field. A pixel with / 4 pixel accuracy is generated. For example, as shown in FIG. 22C, a pixel whose vertical phase is ¼ is a top field pixel at a 0 position and a bottom field pixel at a ½ position. Is generated by linear interpolation. Also, a pixel whose vertical phase is 3/4 is generated by linear interpolation from a bottom field pixel at 1/2 position and a top field pixel at 1 position.
[0062]
FIG. 23 shows a block configuration of the field mode
[0063]
As shown in FIG. 23, the field mode
[0064]
The
[0065]
Further, the
[0066]
The vertical direction filter
[0067]
Regardless of the difference between the field mode
[0068]
The vertical filter
[0069]
The vertical direction
[0070]
The horizontal direction
[0071]
In the
[0072]
Incidentally, the
[0073]
In the
[0074]
The present invention has been made in view of such circumstances, and can eliminate the pixel phase shift between the field orthogonal transform mode and the frame orthogonal transform mode without impairing the interlaced property of the interlaced scanning image. An image decoding apparatus and an image decoding method for decoding standard resolution image data from compressed image data of a high resolution image, the image decoding apparatus and the image decoding method simplifying the processing with a simple configuration at the time of motion compensation The purpose is to provide.
[0075]
[Means for Solving the Problems]
The image decoding apparatus according to the present invention includes predictive coding by performing motion prediction in units of predetermined pixel blocks (macroblocks), and compressed code by performing orthogonal transform in units of predetermined pixel blocks (orthogonal transform blocks). An image decoding apparatus for decoding moving image data having a second resolution lower than the first resolution from compressed compressed image data having a first resolution, and an orthogonal transform method (field orthogonal transform) corresponding to interlaced scanning The first inverse orthogonal transform means that performs inverse orthogonal transform on the orthogonal transform block of the compressed image data that has been orthogonally transformed by the mode) and the orthogonal transform method (frame orthogonal transform mode) that supports sequential scanning. A second inverse orthogonal transform unit that performs inverse orthogonal transform on the orthogonal transform block of the compressed image data that has been transformed; and the first inverse orthogonal transform. Or adding means for adding the compressed image data subjected to inverse orthogonal transformation by the second inverse orthogonal transformation means and the reference image data subjected to motion compensation, and outputting moving image data of the second resolution; Storage means for storing moving image data output from the adding means as reference image data, and 1/4 pixel precision with respect to the vertical and horizontal directions of the macroblock of the reference image data stored in the storage means Motion compensation means for performing motion compensation, wherein the first inverse orthogonal transform means performs inverse orthogonal transform on a coefficient of a low frequency component among the coefficients of the orthogonal transform block, and performs the second inverse orthogonal transform. The transform means performs inverse orthogonal transform on the coefficients of all frequency components of the orthogonal transform block, and separates each pixel of the orthogonal transform block subjected to inverse orthogonal transform into two pixel blocks corresponding to interlaced scanning. The two separated pixel blocks are each subjected to orthogonal transformation, and each of the coefficients of the two pixel blocks subjected to orthogonal transformation is subjected to inverse orthogonal transformation with respect to the low-frequency component coefficient, and then subjected to inverse orthogonal transformation. The pixel block is synthesized to generate an orthogonal transform block, and the motion compensation means is perpendicular to the macroblock of the reference image data subjected to motion prediction by a motion prediction method (field motion prediction mode) corresponding to interlaced scanning. And a field two-dimensional filter coefficient group that performs pixel interpolation with 1/4 pixel accuracy in the horizontal direction, and a macroblock of reference image data that has been subjected to motion prediction by a motion prediction method (frame motion prediction mode) that supports sequential scanning A filter case for storing a two-dimensional filter coefficient group for a frame that performs pixel interpolation with 1/4 pixel accuracy in the vertical and horizontal directions A predetermined two-dimensional image stored in the filter storage unit based on a motion vector of compressed image data that has a storage unit and is inversely orthogonally transformed by the first inverse orthogonal transform unit or the second inverse orthogonal transform unit A filter coefficient is designated, and the macroblock of the reference image data stored in the storage means is interpolated using the designated two-dimensional filter coefficient.
[0076]
In the image decoding device according to the present invention, the two-dimensional filter coefficient group for the frame is within one field for each pixel in the horizontal direction of the macroblock of the reference image data stored in the storage unit. Perform quadruple interpolation, perform double interpolation within one field for each pixel in the vertical direction of the macroblock of the reference image data stored in the storage means, and perform double interpolation within one field A plurality of filter coefficients for performing linear interpolation between the top field and the bottom field for each pixel, and the field two-dimensional filter coefficient group is a macroblock of reference image data stored in the storage means For each horizontal pixel in the horizontal direction, four-times interpolation is performed within one field, and the macroblock of the reference image data stored in the storage means is stored. It is characterized by comprising a plurality of filter coefficients for performing double interpolation within one field for each pixel in the straight direction and linear interpolation for each pixel subjected to double interpolation within one field. .
[0077]
For example, in the frame two-dimensional filter coefficient group, the same filter coefficient is used in common. The motion compensation means groups the frame two-dimensional filter coefficient group using the objectivity of the coefficient in the vertical direction and the zero coefficient, and performs an interpolation process.
[0078]
The image decoding method according to the present invention includes predictive coding by performing motion prediction in units of predetermined pixel blocks (macroblocks), and compressed code by performing orthogonal transform in units of predetermined pixel blocks (orthogonal transform blocks). An image decoding method for decoding moving image data having a second resolution lower than the first resolution from compressed compressed image data having a first resolution, and an orthogonal transform method (field orthogonal transform) corresponding to interlaced scanning The first inverse orthogonal transform process that performs inverse orthogonal transform on the orthogonal transform block of the compressed image data that has been orthogonally transformed by the mode) and the orthogonal transform method (frame orthogonal transform mode) that supports sequential scanning. A second inverse orthogonal transform process for performing inverse orthogonal transform on the orthogonal transform block of the compressed image data that has been transformed, and the first inverse orthogonal transform. Adding the compressed image data subjected to the inverse orthogonal transform in the step or the second inverse orthogonal transform step and the reference image data subjected to motion compensation, and outputting moving image data of the second resolution; A storage step of storing the moving image data output in the addition step as reference image data, and a 1/4 pixel accuracy with respect to the vertical and horizontal directions of the macroblock of the reference image data stored in the storage step A motion compensation step for performing motion compensation, wherein the first inverse orthogonal transform step performs inverse orthogonal transform on the low-frequency component coefficient among the coefficients of the orthogonal transform block, and the second inverse orthogonal transform In the conversion step, inverse orthogonal transformation is performed on the coefficients of all frequency components of the orthogonal transformation block, and each pixel of the orthogonal transformation block subjected to inverse orthogonal transformation is divided into two pixel blocks corresponding to interlaced scanning. Then, each of the two separated pixel blocks is subjected to orthogonal transformation, and each of the coefficients of the two orthogonally transformed pixel blocks is subjected to inverse orthogonal transformation with respect to the low frequency component coefficient, and then subjected to inverse orthogonal transformation. Two pixel blocks are synthesized to generate an orthogonal transform block. In the motion compensation step, the block is perpendicular to the macroblock of the reference image data subjected to motion prediction by a motion prediction method (field motion prediction mode) corresponding to interlaced scanning. A field two-dimensional filter coefficient group that performs pixel interpolation with ¼ pixel accuracy in the horizontal and horizontal directions, and a macro of reference image data that has undergone motion prediction by a motion prediction method (frame motion prediction mode) that supports sequential scanning A filter that stores a group of two-dimensional filter coefficients for frames that perform pixel interpolation with 1/4 pixel accuracy in the vertical and horizontal directions for the block. Specifies a predetermined two-dimensional filter coefficient stored based on the motion vector of the compressed image data that has been inversely orthogonal transformed by the first inverse orthogonal transformation step or the second inverse orthogonal transformation step. Then, the macroblock of the stored reference image data is interpolated using the designated two-dimensional filter coefficient.
[0079]
In the image decoding method according to the present invention, the two-dimensional filter coefficient group for the frame is four times in one field with respect to each pixel in the horizontal direction of the macroblock of the reference image data stored in the storing step. Interpolation is performed, and for each pixel in the vertical direction of the macroblock of the reference image data stored in the storage step, double interpolation is performed in one field, and double interpolation is performed in one field. The field two-dimensional filter coefficient group is composed of a plurality of filter coefficients for performing linear interpolation between a top field and a bottom field with respect to a pixel. For each pixel in the direction, quadruple interpolation is performed within one field, and the vertical direction of the macroblock of the reference image data stored in the above storage step For each pixel, and a two-fold interpolation within one field, characterized in that it consists of a plurality of filter coefficients of linear interpolation for each pixel in which the two-fold interpolation within a single field.
[0080]
For example, in the frame two-dimensional filter coefficient group, the same filter coefficient is used in common. Also, in the motion compensation step, the frame two-dimensional filter coefficient group is grouped using the objectivity of the coefficient in the vertical direction and the zero coefficient, and interpolation processing is performed.
[0081]
In the present invention as described above, when performing pixel interpolation with 1/4 pixel accuracy, pixel interpolation in the vertical direction and the horizontal direction is collectively performed by the two-dimensional filter. Of the plurality of two-dimensional filters used in the frame motion prediction mode, the same matrix is used. Further, the processing is simplified by grouping using the objectivity of the coefficient in the vertical direction and the zero coefficient.
[0082]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0083]
FIG. 1 shows a block configuration diagram of an image decoding apparatus according to an embodiment of the present invention.
[0084]
The image decoding apparatus 10 shown in FIG. 1 receives a bitstream obtained by compressing an MPEG2 high-resolution image having, for example, 1152 effective lines in the vertical direction, decodes the input bitstream, and reduces it to ½. This is a device that reduces the resolution and outputs a standard resolution image having, for example, 576 effective lines in the vertical direction.
[0085]
The image decoding apparatus 10 is supplied with a bit stream of a compressed high-resolution image, and performs a variable-length encoding that assigns a code length according to the frequency of data generation, and a bit
[0086]
The reduced inverse discrete
[0087]
The frame mode reduced inverse discrete
[0088]
The processing content of the reduced inverse discrete
[0089]
When the macroblock subjected to the reduced inverse discrete cosine transform 14 by the field mode reduced inverse discrete
[0090]
The
[0091]
The frame conversion / phase
[0092]
With the above-described configuration, the image decoding apparatus 10 can decode a bitstream obtained by compressing a high-resolution image with MPEG2 and reduce the resolution to 1/2 to output a standard-resolution image. it can.
[0093]
Next, the
[0094]
In this
[0095]
The
[0096]
That is, the
[0097]
For pixels in the horizontal direction, two pixels with integer precision are linearly interpolated to generate ½ pixel precision pixels and ¼ precision pixels.
[0098]
For vertical pixels, first, the vertical phase of each pixel in the top field is 1/2, 5/2..., And the vertical phase of each pixel in the bottom field is 1, 3,. The integer precision pixels of the standard resolution image including the phase shift between the top field and the bottom field such that
[0099]
Subsequently, with respect to the pixels in the vertical direction, a pixel with 1/2 pixel accuracy is generated from the integer accuracy pixels extracted from the
[0100]
Subsequently, with respect to the pixels in the vertical direction, a pixel with 1/4 pixel accuracy is generated from a pixel with 1/2 pixel accuracy within the field. That is, a pixel having a ¼ pixel accuracy in the top field is generated based on the pixel having a ½ pixel accuracy in the top field, and a pixel having a ¼ pixel accuracy in the bottom field is generated based on the ½ pixel accuracy pixel in the bottom field. Is generated.
[0101]
FIG. 2 shows pixel interpolation with 1/4 pixel accuracy in the case of the field motion prediction mode as described above. In FIG. 2, ● indicates the phase position of the top field integer pixel accuracy pixel, ▲ indicates the
[0102]
The
Further, in the
[0103]
For the pixels in the horizontal direction, two pixels of integer precision pixels are linearly interpolated to generate 1/2 pixel precision pixels and 1/4 precision pixels.
[0104]
For vertical pixels, first, the vertical phase of each pixel in the top field is 1/2, 5/2..., And the vertical phase of each pixel in the bottom field is 1, 3,. The integer precision pixels of the standard resolution image including the phase shift between the top field and the bottom field such that
[0105]
Subsequently, with respect to the pixels in the vertical direction, a pixel with 1/2 pixel accuracy is generated from the integer accuracy pixels extracted from the
[0106]
Subsequently, with respect to the pixels in the vertical direction, a pixel with 1/4 pixel accuracy is generated from a pixel with 1/2 pixel accuracy between the two fields of the top field and the bottom field. For example, a pixel whose phase in the vertical direction is 1/4 is generated by linear interpolation from a top field pixel at 0 position and a bottom field pixel at 1/2 position. Also, a pixel whose vertical phase is 3/4 is generated by linear interpolation from a bottom field pixel at 1/2 position and a top field pixel at 1 position.
[0107]
FIG. 3 shows pixel interpolation with 1/4 pixel accuracy in the case of the frame motion prediction mode as described above. In FIG. 3, ● indicates the phase position of the top field integer pixel accuracy pixel, ▲ indicates the
[0108]
The
[0109]
Next, the block configuration of the
[0110]
As shown in FIG. 4, the
[0111]
The
[0112]
Based on the motion vector information, the
[0113]
The
[0114]
The filter
[0115]
The filter
[0116]
Specifically, the filter coefficients corresponding to the frame motion prediction mode are reduced in common as follows.
[0117]
As shown in FIG. 6, the filter coefficients corresponding to the frame motion prediction mode include a top field with a vertical phase of 0, a bottom field with a vertical phase of 0, a top field with a vertical phase of 0.5, All the bottom fields whose vertical phase is 1.5 have the same filter coefficient (group 1). The top field with a vertical phase of 0.25 and the bottom field with a vertical phase of 1.75 all have the same filter coefficient (group 2). The bottom field with a vertical phase of 0.5, the top field with a vertical phase of 1, the bottom field with a vertical phase of 1, and the top field with a vertical phase of 1.5 all have the same filter coefficient. (Group 3). A bottom field with a vertical phase of 0.25, a top field with a vertical phase of 0.75, a bottom field with a vertical phase of 1.25, and a top field with a vertical phase of 1.75 are all It becomes the same filter coefficient (group 4). The bottom field having a vertical phase of 0.75 and the top field having a vertical phase of 1.25 all have the same filter coefficient (group 5). Then, the same filter coefficients are grouped and used in common for pixel interpolation.
[0118]
Thus, by using the filter coefficients in common, the original 8 × 4 32 filter coefficients are reduced to 5 × 4 20 filter coefficients.
[0119]
FIG. 7 shows a two-dimensional filter coefficient for a frame motion prediction mode using a linear filter. Each filter coefficient shown in FIG. 7 is a combination of five
[0120]
The filter
[0121]
In the case of the field motion prediction mode, the two-dimensional
[0122]
[Expression 1]
[0123]
In
[0124]
Then, the result (y) obtained by performing the inner product calculation according to
[0125]
Further, in the case of the frame motion prediction mode, the two-dimensional
[0126]
[Expression 2]
[0127]
Here, the filter coefficient included in the
[0128]
By the way, in the frame motion prediction mode, it is possible to perform the inner product
[0129]
As a result, since 2 lines have 0 coefficients in
[0130]
As described above, in the image decoding apparatus 10 according to the embodiment of the present invention, a phase shift is generated between the top field and the bottom field by performing motion compensation with 1/4 pixel accuracy in the horizontal direction and the vertical direction. It does not occur, so-called field inversion and field mix can be prevented, and image quality deterioration due to motion compensation can be prevented.
[0131]
Furthermore, since the image decoding apparatus 10 performs a two-dimensional filter operation at the time of motion compensation with 1/4 pixel accuracy, it is possible to reduce the memory for storing intermediate results. Further, in the image decoding apparatus 10, the access amount to the memory can be reduced at the time of motion compensation with 1/4 pixel accuracy, and the processing time is shortened. Further, in this image decoding apparatus 10, by grouping the filter coefficients in the frame motion prediction mode, it is possible to minimize the code size at the time of frame prediction and prevent a cache miss or the like.
[0132]
In the image decoding device 10 according to the embodiment of the present invention, an example in which motion compensation is performed using a two-dimensional linear interpolation filter has been described. However, for example, other than a half-band filter or the like having an increased number of filter taps. These filters may be used.
[0133]
【The invention's effect】
In the image decoding apparatus and the image decoding method according to the present invention, two pixel blocks corresponding to interlaced scanning by performing inverse orthogonal transformation on the coefficients of all frequency components of the orthogonal transformation block which has been orthogonally transformed by the frame orthogonal transformation mode. Then, the two separated pixel blocks are orthogonally transformed to perform inverse orthogonal transformation on the low frequency component coefficients, and the two pixel blocks subjected to inverse orthogonal transformation are synthesized. In the present invention, each pixel of the macroblock of the stored reference image data is interpolated to generate a macroblock composed of 1/4 pixel precision pixels. In this image decoding method, moving image data having a second resolution lower than the first resolution is output.
[0134]
As a result, the present invention can reduce the amount of computation and the storage capacity required for decoding, eliminate the phase shift of the pixels during motion compensation in the field motion prediction mode and the frame motion prediction mode, and achieve motion compensation. It is possible to prevent the deterioration of the image quality caused by it.
[0135]
Further, in the present invention, when performing pixel interpolation with 1/4 pixel accuracy, pixel interpolation in the vertical direction and horizontal direction is performed collectively by a two-dimensional filter. Of the plurality of two-dimensional filters used in the frame motion prediction mode, the same matrix is used. Further, the processing is simplified by grouping using the objectivity of the coefficient in the vertical direction and the zero coefficient.
[0136]
As a result, according to the present invention, it is possible to reduce the memory for storing the intermediate result in the motion compensation with ¼ pixel accuracy. Further, according to the present invention, the amount of access to the memory can be reduced at the time of motion compensation with 1/4 pixel accuracy, and the processing time is shortened. Further, according to the present invention, the code size at the time of frame prediction can be minimized and a cache miss or the like can be prevented.
[Brief description of the drawings]
FIG. 1 is a block diagram of an image decoding apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram for explaining pixel interpolation with ¼ pixel accuracy in the case of a field motion prediction mode.
FIG. 3 is a diagram for explaining pixel interpolation with ¼ pixel accuracy in the case of a field motion prediction mode.
FIG. 4 is a block diagram of a motion compensation device of the image decoding device.
FIG. 5 is a diagram illustrating an example of a two-dimensional filter coefficient corresponding to a field motion prediction mode.
FIG. 6 is a diagram for explaining grouping of two-dimensional filter coefficients corresponding to a frame motion prediction mode.
FIG. 7 is a diagram illustrating an example of a two-dimensional filter coefficient corresponding to a frame motion prediction mode.
FIG. 8 is a block diagram showing a conventional first down decoder.
FIG. 9 is a block diagram showing a conventional second down decoder.
FIG. 10 is a block diagram showing a conventional third down decoder.
FIG. 11 is a block diagram of a conventional image decoding device.
FIG. 12 is a diagram for explaining a reduced inverse discrete cosine transform process in the field DCT mode of the conventional image decoding apparatus.
FIG. 13 is a diagram for explaining a reduced inverse discrete cosine transform process in a field DCT mode of the conventional image decoding apparatus.
FIG. 14 is a diagram for describing linear interpolation processing in a field motion prediction mode of the conventional image decoding apparatus.
FIG. 15 is a diagram for describing linear interpolation processing in a frame motion prediction mode of the conventional image decoding apparatus.
FIG. 16 is a diagram for explaining a phase of a pixel obtained as a result of a field DCT mode of the conventional image decoding device.
FIG. 17 is a diagram for explaining a phase of a pixel obtained as a result of a frame DCT mode of the conventional image decoding device.
FIG. 18 is a block diagram of an image decoding apparatus proposed in Japanese Patent Application No. 10-208385.
FIG. 19 is a diagram for explaining the phase of a pixel in the vertical direction of a reference image stored in the frame memory of the image decoding apparatus proposed in Japanese Patent Application No. 10-208385.
FIG. 20 is a diagram for explaining the contents of one block processing of the frame mode reduced inverse discrete cosine transform device of the image decoding device proposed in Japanese Patent Application No. 10-208385.
FIG. 21 is a diagram for explaining a ¼ pixel interpolation process in the field motion prediction mode of the image decoding apparatus proposed in Japanese Patent Application No. 10-208385.
FIG. 22 is a diagram for explaining a ¼ pixel interpolation process in the frame motion prediction mode of the image decoding apparatus proposed in Japanese Patent Application No. 10-208385.
FIG. 23 is a partial look diagram of the motion compensation device of the image decoding device proposed in Japanese Patent Application No. 10-208385.
[Explanation of symbols]
10 image decoding device, 14 reduced inverse discrete cosine transform device, 15 frame mode reduced inverse discrete cosine transform device, 17 frame memory, 18 motion compensation device, 21 address generation unit, 22 input memory, 23 filter coefficient storage memory, 24 2 Dimension interpolation processing unit
Claims (2)
飛び越し走査に対応した直交変換方式(フィールド直交変換モード)により直交変換がされた上記圧縮画像データの直交変換ブロックに対して、逆直交変換をする第1の逆直交変換手段と、
順次走査に対応した直交変換方式(フレーム直交変換モード)により直交変換がされた上記圧縮画像データの直交変換ブロックに対して、逆直交変換をする第2の逆直交変換手段と、
上記第1の逆直交変換手段又は上記第2の逆直交変換手段により逆直交変換がされた圧縮画像データと動き補償がされた参照画像データとを加算して、第2の解像度の動画像データを出力する加算手段と、
上記加算手段から出力される動画像データを参照画像データとして記憶する記憶手段と、
上記記憶手段が記憶している参照画像データのマクロブロックの垂直方向及び水平方向に対して1/4画素精度の動き補償をする動き補償手段とを備え、
上記第1の逆直交変換手段は、上記直交変換ブロックの各係数のうち低周波成分の係数に対して逆直交変換をし、
上記第2の逆直交変換手段は、上記直交変換ブロックの全周波数成分の係数に対して逆直交変換をし、逆直交変換をした直交変換ブロックの各画素を飛び越し走査に対応した2つの画素ブロックに分離し、分離した2つの画素ブロックに対してそれぞれ直交変換をし、直交変換をした2つの画素ブロックの各係数のうち低周波成分の係数に対して逆直交変換をし、逆直交変換をした2つの画素ブロックを合成して直交変換ブロックを生成し、
上記動き補償手段は、飛び越し走査に対応した動き予測方式(フィールド動き予測モード)により動き予測がされた参照画像データのマクロブロックに対して垂直方向及び水平方向の1/4画素精度の画素補間をするフィールド用2次元フィルタ係数群、及び、順次走査に対応した動き予測方式(フレーム動き予測モード)により動き予測がされた参照画像データのマクロブロックに対して垂直方向及び水平方向の1/4画素精度の画素補間をするフレーム用2次元フィルタ係数群を格納するフィルタ格納部を有し、上記第1の逆直交変換手段により逆直交変換がされた圧縮画像データに対してはその動きベクトルに基づき上記フィルタ格納部に格納されたフィールド用2次元フィルタ係数群を指定して、指定されたフィールド用2次元フィルタ係数群を用いて上記記憶手段が記憶している参照画像データのマクロブロックを補間し、上記第2の逆直交変換手段により逆直交変換がされた圧縮画像データに対してはその動きベクトルに基づき上記フィルタ格納部に格納されたフレーム用2次元フィルタ係数群を指定し、指定されたフレーム用2次元フィルタ係数群を用いて上記記憶手段が記憶している参照画像データのマクロブロックを補間することを特徴とする画像復号装置。Prediction coding by performing motion prediction in units of predetermined pixel blocks (macroblocks), and compression of the first resolution by compression encoding by performing orthogonal transform in units of predetermined pixel blocks (orthogonal transform blocks) In an image decoding apparatus for decoding moving image data having a second resolution lower than the first resolution from image data,
First inverse orthogonal transform means for performing inverse orthogonal transform on the orthogonal transform block of the compressed image data that has been orthogonally transformed by an orthogonal transform method (field orthogonal transform mode) corresponding to interlaced scanning;
A second inverse orthogonal transform unit that performs inverse orthogonal transform on the orthogonal transform block of the compressed image data that has been orthogonally transformed by the orthogonal transform method (frame orthogonal transform mode) corresponding to progressive scanning;
The compressed image data obtained by inverse orthogonal transformation by the first inverse orthogonal transformation unit or the second inverse orthogonal transformation unit and the reference image data subjected to motion compensation are added to obtain moving image data having a second resolution. Adding means for outputting
Storage means for storing moving image data output from the adding means as reference image data;
Motion compensation means for performing motion compensation with 1/4 pixel accuracy in the vertical and horizontal directions of the macroblock of the reference image data stored in the storage means,
The first inverse orthogonal transform means performs an inverse orthogonal transform on a coefficient of a low frequency component among the coefficients of the orthogonal transform block,
The second inverse orthogonal transform means performs two orthogonal transforms on each pixel of the orthogonal transform block subjected to the inverse orthogonal transform by performing an inverse orthogonal transform on the coefficients of all frequency components of the orthogonal transform block, and corresponding to the interlaced scanning. The two separated pixel blocks are orthogonally transformed, and the inverse frequency transformation is performed on the low frequency component coefficients of the coefficients of the two orthogonally transformed pixel blocks, and the inverse orthogonal transformation is performed. The two transformed pixel blocks are combined to generate an orthogonal transform block,
The motion compensation means performs pixel interpolation with 1/4 pixel accuracy in the vertical direction and the horizontal direction on the macroblock of the reference image data subjected to motion prediction by a motion prediction method (field motion prediction mode) corresponding to interlaced scanning. Two-dimensional filter coefficient group for field to be used, and 1/4 pixels in the vertical and horizontal directions with respect to the macroblock of the reference image data subjected to motion prediction by a motion prediction method (frame motion prediction mode) corresponding to progressive scanning A filter storage unit for storing a frame two-dimensional filter coefficient group for performing pixel interpolation with high accuracy, and the compressed image data subjected to inverse orthogonal transform by the first inverse orthogonal transform unit is based on the motion vector. the filter storage stored two-dimensional filter coefficient group for field unit by specifying a two-dimensional Fi for the specified field Using data coefficient group by interpolating the macroblocks of the reference image data in which the storage means stores, for inverse orthogonal transform compressed image data by the second inverse orthogonal transform means to the motion vector Based on the two-dimensional filter coefficient group for the frame stored in the filter storage unit, the macroblock of the reference image data stored in the storage means is interpolated using the specified two-dimensional filter coefficient group for the frame. An image decoding apparatus characterized by that.
飛び越し走査に対応した直交変換方式(フィールド直交変換モード)により直交変換がされた上記圧縮画像データの直交変換ブロックに対して、逆直交変換をする第1の逆直交変換工程と、
順次走査に対応した直交変換方式(フレーム直交変換モード)により直交変換がされた上記圧縮画像データの直交変換ブロックに対して、逆直交変換をする第2の逆直交変換工程と、
上記第1の逆直交変換工程又は上記第2の逆直交変換工程により逆直交変換がされた圧縮画像データと動き補償がされた参照画像データとを加算して、第2の解像度の動画像データを出力する加算工程と、
上記加算工程で出力される動画像データを参照画像データとして記憶する記憶工程と、
上記記憶工程で記憶している参照画像データのマクロブロックの垂直方向及び水平方向に対して1/4画素精度の動き補償をする動き補償工程とを備え、
上記第1の逆直交変換工程では、上記直交変換ブロックの各係数のうち低周波成分の係数に対して逆直交変換をし、
上記第2の逆直交変換工程では、上記直交変換ブロックの全周波数成分の係数に対して逆直交変換をし、逆直交変換をした直交変換ブロックの各画素を飛び越し走査に対応した2つの画素ブロックに分離し、分離した2つの画素ブロックに対してそれぞれ直交変換をし、直交変換をした2つの画素ブロックの各係数のうち低周波成分の係数に対して逆直交変換をし、逆直交変換をした2つの画素ブロックを合成して直交変換ブロックを生成し、
上記動き補償工程では、飛び越し走査に対応した動き予測方式(フィールド動き予測モード)により動き予測がされた参照画像データのマクロブロックに対して垂直方向及び水平方向の1/4画素精度の画素補間をするフィールド用2次元フィルタ係数群、及び、順次走査に対応した動き予測方式(フレーム動き予測モード)により動き予測がされた参照画像データのマクロブロックに対して垂直方向及び水平方向の1/4画素精度の画素補間をするフレーム用2次元フィルタ係数群を格納したフィルタ格納部の中から、上記第1の逆直交変換工程により逆直交変換がされた圧縮画像データに対してはその動きベクトルに基づき上記フィルタ格納部に格納されたフィールド用2次元フィルタ係数群を指定して、指定されたフィールド用2次元フィルタ係数群を用いて上記記憶手段が記憶している参照画像データのマクロブロックを補間し、上記第2の逆直交変換工程により逆直交変換がされた圧縮画像データに対してはその動きベクトルに基づき格納されたフレーム用2次元フィルタ係数群を指定し、指定されたフレーム用2次元フィルタ係数群を用いて記憶している参照画像データのマクロブロックを補間することを特徴とする画像復号方法。Prediction coding by performing motion prediction in units of predetermined pixel blocks (macroblocks), and compression of the first resolution by compression encoding by performing orthogonal transform in units of predetermined pixel blocks (orthogonal transform blocks) In an image decoding method for decoding moving image data having a second resolution lower than the first resolution from image data,
A first inverse orthogonal transform step for performing an inverse orthogonal transform on the orthogonal transform block of the compressed image data subjected to the orthogonal transform by the orthogonal transform method (field orthogonal transform mode) corresponding to interlaced scanning;
A second inverse orthogonal transform step for performing an inverse orthogonal transform on the orthogonal transform block of the compressed image data subjected to the orthogonal transform by the orthogonal transform method (frame orthogonal transform mode) corresponding to the progressive scanning;
Moving image data having the second resolution is obtained by adding the compressed image data subjected to inverse orthogonal transformation in the first inverse orthogonal transformation step or the second inverse orthogonal transformation step and the reference image data subjected to motion compensation. An adding step for outputting
A storage step of storing the moving image data output in the addition step as reference image data;
A motion compensation step of performing motion compensation with 1/4 pixel accuracy in the vertical and horizontal directions of the macroblock of the reference image data stored in the storage step,
In the first inverse orthogonal transform step, an inverse orthogonal transform is performed on a coefficient of a low frequency component among the coefficients of the orthogonal transform block,
In the second inverse orthogonal transform step, two pixel blocks corresponding to interlaced scanning are performed on each pixel of the orthogonal transform block that has been subjected to inverse orthogonal transform on the coefficients of all the frequency components of the orthogonal transform block and subjected to inverse orthogonal transform. The two separated pixel blocks are orthogonally transformed, and the inverse frequency transformation is performed on the low frequency component coefficients of the coefficients of the two orthogonally transformed pixel blocks, and the inverse orthogonal transformation is performed. The two transformed pixel blocks are combined to generate an orthogonal transform block,
In the motion compensation step, pixel interpolation with 1/4 pixel accuracy in the vertical direction and the horizontal direction is performed on the macroblock of the reference image data subjected to motion prediction by the motion prediction method (field motion prediction mode) corresponding to interlaced scanning. Two-dimensional filter coefficient group for field to be used, and 1/4 pixels in the vertical and horizontal directions with respect to the macroblock of the reference image data subjected to motion prediction by a motion prediction method (frame motion prediction mode) corresponding to progressive scanning Based on the motion vector of the compressed image data subjected to inverse orthogonal transformation in the first inverse orthogonal transformation step from the filter storage unit storing the two-dimensional filter coefficient group for the frame that performs pixel interpolation with high accuracy. the two-dimensional filter coefficient group for field stored in the filter storage unit by specifying a two-dimensional for the specified field Using filter coefficient group by interpolating the macroblocks of the reference image data in which the storage means stores, for the above-mentioned second compressed image data inverse orthogonal transform is by an inverse orthogonal transform process on the motion vector image decoding method characterized by based specify the two-dimensional filter coefficient group for the stored frame, interpolating the macroblocks of the reference image data stored using the two-dimensional filter coefficient group for the specified frame.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04373599A JP4051799B2 (en) | 1999-02-22 | 1999-02-22 | Image decoding apparatus and image decoding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04373599A JP4051799B2 (en) | 1999-02-22 | 1999-02-22 | Image decoding apparatus and image decoding method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000244917A JP2000244917A (en) | 2000-09-08 |
JP4051799B2 true JP4051799B2 (en) | 2008-02-27 |
Family
ID=12672053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04373599A Expired - Fee Related JP4051799B2 (en) | 1999-02-22 | 1999-02-22 | Image decoding apparatus and image decoding method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4051799B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002305746A (en) | 2001-04-05 | 2002-10-18 | Nec Corp | Image decoding processing unit and image decoding processing method |
KR100809686B1 (en) | 2006-02-23 | 2008-03-06 | 삼성전자주식회사 | Method and apparatus for resizing images using discrete cosine transform |
US11032550B2 (en) * | 2016-02-25 | 2021-06-08 | Mediatek Inc. | Method and apparatus of video coding |
-
1999
- 1999-02-22 JP JP04373599A patent/JP4051799B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000244917A (en) | 2000-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3975629B2 (en) | Image decoding apparatus and image decoding method | |
JP4026238B2 (en) | Image decoding apparatus and image decoding method | |
US6748018B2 (en) | Picture decoding method and apparatus | |
US6175592B1 (en) | Frequency domain filtering for down conversion of a DCT encoded picture | |
JP4346114B2 (en) | MPEG decoder providing multiple standard output signals | |
WO1998041011A9 (en) | Hdtv downconversion system | |
WO1998041012A9 (en) | Mpeg decoder providing multiple standard output signals | |
JP4361987B2 (en) | Method and apparatus for resizing an image frame including field mode encoding | |
KR20000077135A (en) | Apparatus and method for deriving an enhanced decoded reduced-resolution video signal from a coded high-definition video signal | |
JP2001285863A (en) | Device and method for converting image information | |
JP3937599B2 (en) | Image decoding apparatus and image decoding method | |
US6493391B1 (en) | Picture decoding method and apparatus | |
JP4051772B2 (en) | Image decoding apparatus and image decoding method | |
US6532309B1 (en) | Picture decoding method and apparatus | |
JP4051799B2 (en) | Image decoding apparatus and image decoding method | |
JP4016166B2 (en) | Image decoding apparatus and image decoding method | |
JP3937632B2 (en) | Image decoding apparatus and image decoding method | |
KR100518477B1 (en) | HDTV Down Conversion System | |
JP2000041253A (en) | Image decoder and image decoding method | |
JP2000059777A (en) | Picture decoder and its decoding method therefor | |
JP2001285875A (en) | Device and method for converting image information | |
JP2000041254A (en) | Device and method for decoding image | |
JP2002034046A (en) | Method and device for converting image information | |
JP2002034041A (en) | Method and device for converting image information | |
KR20000010957A (en) | Mpeg decoder providing multiple standard output signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070306 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070416 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070529 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070730 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070918 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071126 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101214 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101214 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111214 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |