JP4153774B2 - Video encoding method, decoding method thereof, and apparatus thereof - Google Patents
Video encoding method, decoding method thereof, and apparatus thereof Download PDFInfo
- Publication number
- JP4153774B2 JP4153774B2 JP2002320771A JP2002320771A JP4153774B2 JP 4153774 B2 JP4153774 B2 JP 4153774B2 JP 2002320771 A JP2002320771 A JP 2002320771A JP 2002320771 A JP2002320771 A JP 2002320771A JP 4153774 B2 JP4153774 B2 JP 4153774B2
- Authority
- JP
- Japan
- Prior art keywords
- prediction
- band
- inter
- frame
- frequency band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/004—Predictors, e.g. intraframe, interframe coding
Description
【0001】
【発明の属する技術分野】
本発明は、動画像を効率よく伝送、蓄積するための符号化および復号化に関する。
【0002】
【従来の技術】
動画像の代表的な符号化法として、
(1)MPEGに代表される動き補償とDCTを用いた手法。
【0003】
(2)MotionJPEG2000に代表されるウェーブレット変換を用いた手法。
はよく知られている。
【0004】
動き補償とDCTを用いた手法はこれまで数々のモデルが提案され、フレーム間相関とフレーム相関を効率よく除去することにより高い符号化効率を実現している。
【0005】
一方、MotionJPEG2000など、ウェーブレットを用いた手法は、動き補償とDCTを用いた手法にはない空間・時間・SNRスケーラビリティなど様々な有効な機能を持つ。
【0006】
しかしながら、MotionJPEG2000はフレーム内相関のみを利用するため、動き補償とDCTを用いた手法よりも符号化効率が劣ることが知られている。ウェーブレットを用いて、かつフレーム間相関を除去し、符号化効率を改善した方法としては、時空間適応予測がある(例えば、非特許文献1参照)。
【0007】
この方法は、可逆符号化として提案された手法であるが、非可逆符号化にも適用可能な手法であり、効率よくフレーム間相関を除去することが可能である。
【0008】
【非特許文献1】
仲地孝之、澤邊知子、藤井竜也、藤井哲郎、“解像度スケーラビリティーを有する動画像可逆符号化法の検討”、第16回ディジタル信号処理シンポジウム講演論文集、pp.439-444,2001年11月
【0009】
【発明が解決しようとする課題】
時空間予測符号化は、ウェーブレット係数領域において非線形予測を適用することによってフレーム間相関を除去する。ウェーブレット変換を用いているため空間スケーラビリティ機能が実現でき、かつフレーム間相関も除去しているため符号化効率も高い方式である。
【0010】
しかしながら、時空間予測を行う帯域が固定のために、必ずしも種々の画像に適した方式とはなっていない。また、帯域を可変としたモデルも提案されている(例えば、非特許文献1)。しかし、この手法では、付加情報量が必要であり効率的ではない。
【0011】
本発明の目的は、付加情報量を増加させることなく、画像の統計的性質に応じて適応的にフレーム間相関を除去する帯域を変化させ、符号化効率を改善した時空間予測による動画像符号化方法とその復号化方法、およびそれらの装置を提供することにある。
【0012】
【課題を解決するための手段】
上記の問題を解決するため、本発明は、以下の動画像符号化方法、動画像復号化方法、およびそれらの装置を特徴とする。
【0013】
(1)動画像を対象とする符号化において、原画像を帯域分割し、分割した帯域ごとにイントラフレーム処理(2次元予測)を行う2次元予測器とインターフレーム処理(3次元予測)を行う3次元予測器を切り替えるために、現フレームと参照フレームの被符号化対象画素近傍の復号済み信号の相関係数を計算し、相関係数が大きい場合にはインターフレーム処理(3次元予測)を行い、それ以外の場合にはイントラフレーム処理(2次元予測)を行う時空間適応予測において、最低周波数帯域から空間的に同一方向の帯域間に相関があることを利用して該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域のフレーム間相関が高い場合には該帯域を時空間適応予測にて符号化し、フレーム間相関が低い場合には直接符号化することを特徴とする。
【0014】
(2)動画像を出力とする復号化において、上記(1)記載の動画像符号化方法により符号化された信号を、該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域のフレーム間相関が高い場合には該帯域を時空間適応予測にて復号化し、フレーム間相関が低い場合には直接復号化することを特徴とする。
【0015】
(3)上記(1)記載の動画像符号化方法において、該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域のインターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して高い場合には該帯域を時空間適応予測にて符号化し、インターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して低い場合には直接符号化することを特徴とする。
【0016】
(4)動画像を出力とする復号化において、上記(3)記載の動画像符号化方法により符号化された信号を、該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域のインターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して高い場合には該帯域を時空間適応予測にて復号化し、インターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して低い場合には直接復号化することを特徴とする。
【0017】
(5)動画像を対象とする符号化において、原画像を帯域分割し、分割した帯域ごとにイントラフレーム処理(2次元予測)を行う2次元予測器とインターフレーム処理(3次元予測)を行う3次元予測器を切り替えるために、現フレームと参照フレームの被符号化対象画素近傍の復号済み信号の相関係数を計算し、相関係数が大きい場合にはインターフレーム処理(3次元予測)を行い、それ以外の場合にはイントラフレーム処理(2次元予測)を行う時空間適応予測において、時空間適応予測を行うか直接符号化を行うかを小ブロック単位に判断し、該帯域の小ブロックが該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域における空間的に同一位置にある小ブロックのフレーム間相関が大きい場合には時空間適応予測にて符号化し、フレーム間相関が低い場合には直接符号化することを特徴とする。
【0018】
(6)動画像を出力とする復号化において、上記(5)記載の動画像符号化方法により符号化された信号を、時空間適応予測復号を行うか直接復号を行うかを小ブロック単位に判断し、該帯域の小ブロックが該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域における空間的に同一位置にある小ブロックのフレーム間相関が大きい場合には時空間適応予測にて復号化し、フレーム間相関が低い場合には直接復号化することを特徴とする。
【0019】
(7)上記(5)記載の動画像符号化方法において、該帯域の小ブロックが該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域における空間的に同一位置にある小ブロック内のインターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して高い場合には時空間適応予測にて符号化し、インターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して低い場合には直接符号化することを特徴とする。
【0020】
(8)動画像を出力とする復号化において、上記(7)記載の動画像符号化方法により符号化された信号を、該帯域の小ブロックが該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域における空間的に同一位置にある小ブロック内のインターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して高い場合には時空間適応予測にて復号化し、インターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して低い場合には直接復号化することを特徴とする。
【0021】
(9)動画像を対象とする符号化において、原画像を帯域分割し、分割した帯域ごとにイントラフレーム処理(2次元予測)を行う2次元予測器とインターフレーム処理(3次元予測)を行う3次元予測器を切り替えるために、現フレームと参照フレームの被符号化対象画素近傍の復号済み信号の相関係数を計算し、相関係数が大きい場合にはインターフレーム処理(3次元予測)を行い、それ以外の場合にはイントラフレーム処理(2次元予測)を行う時空間適応予測において、最低周波数帯域から空間的に同一方向の帯域間に相関があることを利用して該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域のフレーム間相関が高い場合には該帯域を時空間適応予測にて符号化する手段と、フレーム間相関が低い場合には直接符号化する手段を有することを特徴とする。
【0022】
(10)動画像を出力とする復号化において、上記(9)記載の動画像符号化装置により符号化された信号を、該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域のフレーム間相関が高い場合には該帯域を時空間適応予測にて復号化する手段と、フレーム間相関が低い場合には直接復号化する手段を有することを特徴とする。
【0023】
(11)上記(9)記載の動画像符号化において、該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域のインターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して高い場合には該帯域を時空間適応予測にて符号化する手段と、インターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して低い場合には直接符号化する手段を有することを特徴とする。
【0024】
(12)動画像を出力とする復号化において、上記(11)記載の動画像符号化装置により符号化された信号を、該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域のインターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して高い場合には該帯域を時空間適応予測にて復号化する手段と、インターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して低い場合には直接復号化する手段を有することを特徴とする。
【0025】
(13)動画像を対象とする符号化において、原画像を帯域分割し、分割した帯域ごとにイントラフレーム処理(2次元予測)を行う2次元予測器とインターフレーム処理(3次元予測)を行う3次元予測器を切り替えるために、現フレームと参照フレームの被符号化対象画素近傍の復号済み信号の相関係数を計算し、相関係数が大きい場合にはインターフレーム処理(3次元予測)を行い、それ以外の場合にはイントラフレーム処理(2次元予測)を行う時空間適応予測において、時空間適応予測を行うか直接符号化を行うかを小ブロック単位に判断し、該帯域の小ブロックが該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域における空間的に同一位置にある小ブロックのフレーム間相関が大きい場合には時空間適応予測にて符号化する手段と、フレーム間相関が低い場合には直接符号化する手段を有することを特徴とする。
【0026】
(14)動画像を出力とする復号化において、上記(13)記載の動画像符号化装置により符号化された信号を、時空間適応予測復号を行うか直接復号を行うかを小ブロック単位に判断し、該帯域の小ブロックが該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域における空間的に同一位置にある小ブロックのフレーム間相関が大きい場合には時空間適応予測にて復号化する手段と、フレーム間相関が低い場合には直接復号化する手段を有することを特徴とする。
【0027】
(15)上記(13)記載の動画像符号化において、該帯域の小ブロックが該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域における空間的に同一位置にある小ブロック内のインターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して高い場合には時空間適応予測にて符号化する手段と、インターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して低い場合には直接符号化する手段を有することを特徴とする。
【0028】
(16)動画像を出力とする復号化において、上記(15)記載の動画像符号化装置により符号化された信号を、該帯域の小ブロックが該帯域から最低周波数帯域へ向かって1レベル低い周波数帯域における空間的に同一位置にある小ブロック内のインターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して高い場合には時空間適応予測にて復号化する手段と、インターフレーム処理(3次元予測)の割合がイントラフレーム処理(2次元予測)に対して低い場合には直接復号化する手段を有することを特徴とする。
【0029】
【発明の実施の形態】
(第1実施形態)
図1及び図2に時空間適応予測による動画像符号化装置および方法を実現するための基本構成図を示す。図1は非可逆符号化用、図2は可逆符号化用であり、本発明による時空間適応予測符号化法は可逆および非可逆のどちらにも適用可能である。
【0030】
図1または図2において、10は帯域分割部、11〜14は分割された帯域ごとに設けた時空間適応予測処理部、16はエントロピー符号化部である。非可逆符号化の場合には、量子化部15においてウェーブレット係数または時空間適応予測による差分信号を量子化する。さらに、非可逆符号化の場合には、エントロピー符号化として、JPEG2000で用いられているEBCOTを用いることにより、空間およびSNRスケーラビリティを実現できる。可逆符号化においては、量子化を行わず、ウェーブレット係数または時空間適応予測による差分信号を直接エントロピー符号化する。
【0031】
入力された原画像は、帯域分割部10において複数の空間解像度の帯域に分割される。この帯域分割には、図3に示すオクターブ分割を用いる。オクターブ分割では、1次元の2分割フィルタを用いて低帯域方向に次々に分割することによって、入力信号を複数の帯域に分割することができる。この処理を、水平方向および垂直方向にそれぞれ施す。
【0032】
次に、分割された各帯域において時空間適応予測により符号化を行う。まず、最低周波数帯域LL(n)に対して(nは、帯域分割レベル数)適応予測符号化を行う。ここで、適応予測符号化は、前記非特許文献1に示される方法を利用することができる。この方法を説明すると、時空間適応予測符号化法では、2次元予測器と3次元予測器を用意し、画像信号の局所的性質により予測器を切り替える。この2次元予測器と3次元予測器を切り替えるために、現フレームと参照フレームの被符号化対象画素近傍の復号済み信号の相関係数を計算する。この計算で、相関係数が大きい場合、すなわち現フレーム内信号と参照フレーム内信号の波形が似ている場合には、予測精度が向上すると考えられることから、3次元予測を行い、それ以外の場合には2次元予測を行う。これにより、画像の局所的性質に適応することができ、予測精度が向上する。
【0033】
次に、最低周波数帯域における適応予測符号化が終了後、フレーム間相関判定部17で現フレームと参照フレームの最低周波数帯域におけるフレーム間相関を計算する。フレーム間相関が大きいか小さいかを判断するにはいくつかの方法が考えられるが、一例を後の(第5実施形態)として示す。
【0034】
まず、最低周波数帯域におけるフレーム間相関の大きさによって、隣接する帯域LH(n)、HL(n)、HH(n)において、適応予測符号化を行うかどうか決定する。
【0035】
・フレーム間相関が大きい場合
時空間適応予測符号化処理し、高帯域への処理に移る。
【0036】
・フレーム間相関が小さい場合
ウェーブレット係数を直接符号化し、残りの高帯域のウェーブレット係数も全て直接符号化して処理終了する。
【0037】
この理由は、最低周波数帯域の信号と隣接する帯域LH(n)、HL(n)、HH(n)の信号には相関が存在することを利用している。すなわち、最低周波数帯域においてフレーム間相関が大きい場合は、隣接する3つの帯域においてもフレーム間相関が強いことが予想される。この手法では、隣接する帯域LH(n)、HL(n)、HH(n)において時空間適応予測を行うかどうかは最低周波数帯域によって決定され、エンコーダおよびデコーダで共有した情報を利用できるため、新たな付加情報量も必要としない。
【0038】
フレーム間相関が大きい場合、引き続く高周波数帯域では以下のように処理を進める。ウェーブレットにおいては、最低周波数帯域から見て同一方向の周波数帯域間には相関が存在することが知られている。すなわち、
LH(n)、LH(n−1)、…、LH(1)
の帯域間には相関が存在し、同様にHL方向間、HH方向間、すなわち
HL(n)、HL(n−1)、…、HL(1)の間
HH(n)、HH(n−1)、…、HH(1)の間
に、それぞれ相関は存在する。この性質を利用して、各帯域において時空間適応予測を行うか行わないかを、それぞれの周波数帯域の1レベル低い周波数帯域のフレーム間相関の大きさによって判断する。すなわち、
・フレーム間相関が大きい場合
時空間適応予測符号化処理し、高帯域への処理に移る。
【0039】
・フレーム間相関が小さい場合
ウェーブレット係数を直接符号化し、残りの高帯域のウェーブレット係数も全て直接符号化し、処理終了する。
【0040】
以上の処理を高帯域へ向かって行い、フレーム間相関が小さいか、最高周波数帯域LH(1)まで処理を終了するか、いずれかの条件を満足するとLH方向の処理は終了する。
【0041】
以上のLH(n−1)、LH(n−2)、…、LH(1)帯域部の処理を図示したのが図4であり、フレーム間相関の計算処理23、24、…の計算結果の大きさによりLH方向の帯域時空間適応予測処理21〜22を行うか行わないかを判断する。HL方向およびHH方向の処理も同様に行うことができる。図5は、それぞれの帯域の相関関係を図示したもので、矢印の方向に向かって以上に示した処理を進める。また、図6には分割レベルが2レベルの場合の帯域時空間適応予測処理のフローチャートを示し、LL(2)での予測処理でフレーム間の相関が大きい場合に、HL(2)とLH(2)およびHH(2)について予測処理を行い、さらにフレーム間相関の大小からHL(1)とLH(1)およびHH(1)での予測処理を行うか行わないかを判定する。
【0042】
以上の方法においては、帯域時空間適応予測処理を行うかどうかは1レベル低い周波数帯域のフレーム間相関の大きさによって決定されるため、この処理においてもエンコーダおよびデコーダで共有した情報を利用でき、新たな付加情報量も必要としない、
上記までの処理終了後、図1または図2のエントロピー符号化部16においては、適応予測符号化出力の残差信号またはウェーブレット係数、および動き推定ベクトルを符号化し、符号化ビットストリームを生成する。
【0043】
(第2実施形態)
図7および図8に、上記の第1実施形態例で符号化されたデータを復号するための動画像復号化装置および方法を実現するための基本構成図を示す。図7は非可逆復号化用、図8は可逆復号化用である。図7または図8において、30はエントロピー復号化部、31〜34は分割された帯域ごとに設けた時空間適応予測復号化部、35は帯域合成部、37はフレーム間相関判定部である。
【0044】
最初にエントロピー復号化部30において符号化ビットストリームから残差信号またはウェーブレット係数、および動きベクトルを復号する。引き続き、非可逆符号化の場合には、逆量子化部35においてウェーブレット係数または時空間適応予測による差分信号を逆量子化する。最低周波数帯LL(n)の時空間適応予測復号化部31の処理は、例えば、前記の非特許文献1に示す方法を利用することができる。この方法を説明すると、時空間適応予測復号化においては、時空間適応予測符号化と同様に、現フレームと参照フレームの被符号化対象画素近傍の復号済み信号の相関係数を計算して予測器を選択する。この計算で、相関係数が大きい場合には3次元予測を行い、小さい場合には2次元予測を行う。得られた予測値に、差分信号を逆量子化した信号を加えることにより、最低周波数帯域の信号が復元される。
【0045】
次に、時空間適応予測復号化部31は、引き続く高周波数帯域の復号を時空間予測復号化で行うか、直接ウェーブレット係数を復号するか判断するために、フレーム間相関判定部37で最低周波数帯LL(n)におけるフレーム間相関を計算する。この計算で、
・フレーム間相関が大きい場合
時空間適応予測復号化処理し、高帯域への処理に移る。
【0046】
・フレーム間相関が小さい場合
ウェーブレット係数を直接復号化し、残りの高帯域のウェーブレット係数も全て直接復号化して処理終了する。
【0047】
フレーム間相関が大きい場合、引き続く高周波数帯域では以下のように処理を進める。
【0048】
LH方向、HL方向、HH方向の各帯域間で、それぞれ低周波帯域から高周波数帯域へ向かって、1レベル低い周波数帯域におけるフレーム間相関を計算する。この計算で、
・フレーム間相関が大きい場合
時空間適応予測復号化処理し、高帯域への処理に移る。
【0049】
・フレーム間相関が小さい場合
ウェーブレット係数を直接復号化し、残りの高帯域のウェーブレット係数も全て直接復号化し、処理終了する。
【0050】
なお、LH(n−1)、LH(n−2)、…、LH(1)帯域部の処理を図示したのが図9であり、フレーム間相関判定部43、44、…によりの計算により、LH方向の帯域時空間適応予測復号化処理40〜42を行うか行わないかを判断し、フレーム間相関が小さいか、または最高周波数帯域LH(1)の処理を終了するか、いずれかの条件を満足するとLH方向の処理は終了する。HL方向およびHH方向の処理も同様に行うことができる。図10には分割レベルが2レベルの場合の帯域時空間適応予測復号化処理のフローチャートを示し、LL(2)での予測処理でフレーム間の相関が大きい場合に、HL(2)とLH(2)およびHH(2)について予測処理を行い、さらにフレーム間相関の大小からHL(1)とLH(1)およびHH(1)での予測処理を行うか行わないかを判定する。
【0051】
上記までの処理終了後、図7または図8の帯域合成部35においては、各帯域の出力を合成して画像を復号化する。
【0052】
(第3実施形態)
前記の第1実施形態例においては、適応予測符号化を行うかウェーブレット係数を直接符号化するかは各周波数帯域で帯域ごとに行っていた。本実施形態例では、最低周波数帯域以外において適応予測符号化を行うかウェーブレット係数を直接符号化するかの判断を小ブロック単位で行う。小ブロック単位の処理によって、より画像の局所的性質に適応した符号化が可能となり、符号化効率が向上する。
【0053】
ウェーブレットにおいては、同じ空間位置に対応する各周波数成分は互いに相関があることが知られている、この性質を利用して、図11に示すように各周波数帯域の同じ空間位置に対応する小ブロック単位で処理を行う。
【0054】
まず、最低周波数帯域は、すべて第1実施形態例と同様に、すべて時空間適応予測符号化を施す。
【0055】
次に、最低周波数帯域をL×L画素の小ブロック単位に分割する。図の左から右、上から下の方向へ向かうラスタースキャンの順で、それぞれの小ブロックのフレーム間相関を計算する。それぞれの小ブロックのフレーム間相関によって、隣接する帯域LH(n)、HL(n)、HH(n)の対応する空間位置の小ブロックにおいて適応予測符号化を行うかどうか決定する。すなわち、
・フレーム間相関が大きい場合
小ブロック内を時空間適応予測符号化処理し、高帯域への処理に移る。
【0056】
・フレーム間相関が小さい場合
ウェーブレット係数を直接符号化し、残りの高帯域のウェーブレット係数も全て直接符号化し、処理終了する。
【0057】
フレーム間相関が大きい場合、引き続く高周波数帯域で、ブロック単位で同様な処理を進める。ラスタースキャン順序で全ての小ブロックに関して、以上の処理を行う。図12には分割レベルが2レベルの場合の帯域適応処理のフローチャートを示し、LL(2)の小ブロックMB(n)についての予測処理でフレーム間の相関が大きい場合に、HL(2)MB(n)とLH(2)MB(n)およびHH(2)MB(n)について予測処理を行い、さらにフレーム間相関の大小からHL(1)MB(n)とLH(1)MB(n)およびHH(1)MB(n)での予測処理を行うか行わないかを判定する。
【0058】
エントロピー符号化においては、適応予測符号化出力の残差信号またはウェーブレット係数、および動き推定ベクトルを符号化し、符号化ビットストリームを生成する。
【0059】
(実施形態4)
本実施形態例では、前記の第3実施形態例による小ブロック単位処理により符号化された信号の復号化方法を示す。基本構成は、図7または図8に示す第3実施形態例に等しいが、最低周波数帯域以外の処理が小ブロック単位になる点が異なる。
【0060】
最初にエントロピー復号化部30において符号化ビットストリームから残差信号またはウェーブレット係数、および動きベクトルを復号する。引き続き、非可逆符号化の場合には、逆量子化部35においてウェーブレット係数または時空間適応予測による差分信号を逆量子化する。
【0061】
最低周波数帯LL(n)の時空間適応予測復号化部31の処理は、第3実施形態例に全く等しく、前記の非特許文献1に示す方法を利用することができる。
【0062】
次に、復号化された最低周波数帯域の信号をL×L画素の小ブロック単位に分割する。図の左から右、上から下の方向へ向かうラスタースキャンの順で、それぞれの小ブロックのフレーム間相関を計算する。それぞれの小ブロックのフレーム間相関の大きさによって、隣接する帯域LH(n)、HL(n)、HH(n)の対応する空間位置の小ブロックにおいて適応予測復号化化を行うかどうか決定する。すなわち、
フレーム間相関が大きい場合
小ブロック内を時空間適応予測復号化処理し、高帯域への処理に移る。
【0063】
・フレーム間相関が小さい場合
ウェーブレット係数を直接復号化し、残りの高帯域のウェーブレット係数も全て直接復号化し、処理終了する。
【0064】
フレーム間相関が大きい場合、引き続く高周波数帯域で、小ブロック単位で同様な処理を進める。ラスタースキャン順序で全ての小ブロックに関して、これらの処理を行う。図13には分割レベルが2レベルの場合の帯域時空間適応予測復号化処理のフローチャートを示し、LL(2)の小ブロックMB(n)についての予測処理でフレーム間の相関が大きい場合に、HL(2)MB(n)とLH(2)MB(n)およびHH(2)MB(n)について予測処理を行い、さらにフレーム間相関の大小からHL(1)MB(n)とLH(1)MB(n)およびHH(1)MB(n)での予測処理を行うか行わないかを判定する。
【0065】
これら判定処理後、帯域合成部36においては、各帯域の出力を合成して画像を復号化する。
【0066】
(第5実施形態)
本実施形態例では、前記の第1実施形態において、フレーム間相関の大きさとして、以下に示すフレーム間の相関係数Rinterを用いた場合の動画像符号化装置および方法の実施形態を示す。
【0067】
Rinter=Inter/(Inter+Intra)
ここで、Interはインターフレーム処理(3次元予測)の処理回数、Intraはイントラフレーム処理(2次元予測)の処理回数を表す。インターフレーム処理を行うかイントラフレーム処理を行うかは、被符号化画素近傍の2枚の連続するフレーム間の信号値の相関係数によって決定され、相関係数が大きい場合にはインターフレーム処理、小さい場合にはフレーム内処理を行う。
【0068】
したがって、Rinterが大きい場合、すなわち、インターフレーム処理の処理回数が多い場合には、フレーム間相関が大きいと判断する。この最低周波数帯域でのRinter値によって、隣接する帯域LH(n)、HL(n)、HH(n)において適応予測符号化を行うかどうか決定する。すなわち、
・Rinter>=THの場合
時空間適応予測符号化処理し、高帯域への処理に移る。
【0069】
・Rinter<THの場合
ウェーブレット係数を直接符号化し、残りの高帯域のウェーブレット係数も全て直接符号化し、処理終了する。
【0070】
ここで、THは閾値であり、0=<TH=<1の値をとる。
【0071】
Rinter>=THの場合、引き続く高周波数帯域では以下のように処理を進める。
【0072】
・Rinter>=THの場合
時空間適応予測符号化処理し、高帯域への処理に移る。
【0073】
・Rinter<THの場合
ウェーブレット係数を直接符号化し、残りの高帯域のウェーブレット係数も全て直接符号化し、処理終了する。
【0074】
以上の処理を高帯域へ向かって行い、Rinter<THの条件を満足するか、最高周波数帯域HL(1)まで処理を終了するか、いずれかの条件を満足するとLH方向の処理は終了する。以上のLH(n−1)、LH(n−2)、…、LH(1)帯域部の処理を図示したのが図14であり、Rinterによる相関判定部25、26、…の計算結果の大きさによりLH方向の帯域時空間適応予測処理21〜22を行うか行わないかを判断する。HL方向およびHH方向の処理も同様に行うことができる。図15には分割レベルが2レベルの場合の帯域時空間適応予測処理のフローチャートを示し、LL(2)での予測処理でRinter値がTH以上に大きい場合に、HL(2)とLH(2)およびHH(2)について予測処理を行い、さらにRinter値とTHとの大小からHL(1)とLH(1)およびHH(1)での予測処理を行うか行わないかを判定する。
【0075】
以上の方法においては、時空間適応予測を行うかどうかは1レベル低い周波数帯域のRinter値によって決定されるため、この処理においてもエンコーダおよびデコーダで共有した情報を利用でき、新たな付加情報量も必要としない。
【0076】
(第6実施形態)
本実施形態例では、第2実施形態において、フレーム間相関の大きさとして、Rinterを用いた場合の動画像復号化装置および方法の実施形態を示す。Rinterによる相関判定部25、26において最低周波数帯LH(n)におけるRinter値を計算する。この結果で、
・Rinter>=THの場合
時空間適応予測復号化処理し、高帯域への処理に移る。
【0077】
・Rinter<THの場合、ウェーブレット係数を直接復号化し、残りの高帯域のウェーブレット係数も全て直接復号化し、処理終了する。
【0078】
Rinter>=THの場合、引き続く高周波数帯域では以下のように処理を進める。
【0079】
LH方向、HL方向、HH方向の各帯域間で、それぞれ低周波帯域から高周波数帯域へ向かって、1レベル低い周波数帯域におけるRinter値を計算し、その値が、
・Rinter>=THの場合
時空間適応予測復号化処理し、高帯域への処理に移る。
【0080】
・Rinter<THの場合
ウェーブレット係数を直接復号化し、残りの高帯域のウェーブレット係数も全て直接復号化し、処理終了する。
【0081】
なお、LH(n−1)、LH(n−2)、…、LH(1)帯域部の処理例を図16に示した。Rinter<THの条件を満足するかまたは最高周波数帯域LH(1)の処理を終了するか、いずれかの条件を満足すると、LH方向の処理は終了する。HL方向およびHH方向の処理も同様に行うことができる。図17には分割レベルが2レベルの場合の帯域時空間適応復号化処理のフローチャートを示し、LL(2)での予測処理でRinter値がTHより大きい場合に、HL(2)とLH(2)およびHH(2)について予測処理を行い、さらにRinterの大小からHL(1)とLH(1)およびHH(1)での予測処理を行うか行わないかを判定する。
【0082】
(第7実施形態)
本実施形態例では、第3実施形態において、フレーム間相関の大きさとして、Rinterを用いた場合の動画像符号化装置および方法の実施形態を示す。図11の左から右、上から下の方向へ向かうラスタースキャンの順で、それぞれの小ブロックのRinter値を計算する。それぞれの小ブロックのRinter値によって、隣接する帯域LH(n)、HL(n)、HH(n)の対応する空間位置の小ブロックにおいて適応予測符号化を行うかどうか決定する。すなわち、
・Rinter>=THの場合
小ブロック内を時空間適応予測符号化処理し、高帯域への処理に移る。
【0083】
・Rinter<THの場合
ウェーブレット係数を直接符号化し、残りの高帯域のウェーブレット係数も全て直接符号化し、処理終了する。
【0084】
Rinter>=THの場合、引き続く高周波数帯域で、ブロック単位で同様な処理を進める。ラスタースキャン順序で全ての小ブロックに関して、以上の処理を行う。図18には分割レベルが2レベルの場合の帯域時空間適応符号化処理のフローチャートを示し、LL(2)MB(n)での予測処理でRinter値がTHより大きい場合に、HL(2)MB(n)とLH(2)MB(n)およびHH(2)MB(n)について予測処理を行い、さらにRinterの大小からHL(1)MB(n)とLH(1)MB(n)およびHH(1)MB(n)での予測処理を行うか行わないかを判定する。
【0085】
(第8実施形態)
本実施形態例では、第4実施形態において、フレーム間相関の大きさとして、Rinterを用いた場合の動画像復号化装置および方法の実施形態を示す。図11の左から右、上から下の方向へ向かうラスタースキャンの順で、それぞれの小ブロックのRinter値を計算する。それぐれの小ブロックのRinter値によって、隣接する帯域LH(n)、HL(n)、HH(n)の対応する空間位置の小ブロックにおいて適応予測復号化化を行うかどうか決定する。すなわち、
・Rinter>=THの場合
小ブロック内を時空間適応予測復号化処理し、高帯域への処理に移る。
【0086】
・Rinter<THの場合
ウェーブレット係数を直接復号化し、残りの高帯域のウェーブレット係数も全て直接復号化し、処理終了する。
【0087】
Rinter>=THの場合、引き続く高周波数帯域で、小ブロック単位で同様な処理を進める。ラスタースキャン順序で全ての小ブロックに関して、これらの処理を行う。図19には分割レベルが2レベルの場合の帯域時空間適応復号化処理のフローチャートを示し、LL(2)MB(n)での予測処理でRinter値がTHより大きい場合に、HL(2)MB(n)とLH(2)MB(n)およびHH(2)MB(n)について予測処理を行い、さらにRinterの大小からHL(1)MB(n)とLH(1)MB(n)およびHH(1)MB(n)での予測処理を行うか行わないかを判定する。
【0088】
【発明の効果】
以上の説明で明らかなように、本発明によれば、動画像の効率の良い非可逆符号化および可逆符号化ができ、少ないディスク容量で保存が可能となる。さらに、空間解像度スケーラビリティーを有するために、画像表示機器の性能や用途に応じた空間解像度で画像を復号することが可能である。
【0089】
また、低域から任意の帯域まで復号すると原画像よりも低い空間解像度の画像を再生でき、全てのデータを復号すると、原画像と同じ解像度の画像が再生される。画像表示機器の性能や用途に応じて、原画像よりも低い空間解像度の画像を再生したい場合は、必要な帯域までに対応する符号化データの復号のみで済む。原画像と同じ解像度の画像を再生して解像度変換を行うよりも処理時間が短く、また符号化ビットストリームを伝送する場合は必要なデータのみを伝送すれば良いため、伝送レートも小さくなる。
【図面の簡単な説明】
【図1】本発明の第1実施形態における動画像符号化装置・方法の基本構成図(非可逆符号化用)。
【図2】本発明の第1実施形態における動画像符号化装置・方法の基本構成図(可逆符号化用)。
【図3】オクターブ分割による帯域分割の模式図。
【図4】帯域時空間適応予測符号化処理の要部構成図。
【図5】分割帯域のフレーム間相関関係図。
【図6】フレーム間相関による帯域時空間適応予測符号化処理のフローチャート。
【図7】本発明の第2実施形態における動画像復号化装置・方法の基本構成図(非可逆符号化用)。
【図8】本発明の第2実施形態における動画像符号化装置・方法の基本構成図(可逆符号化用)。
【図9】帯域時空間適応予測復号化処理の要部構成図。
【図10】フレーム間相関による帯域時空間適応予測復号処理のフローチャート。
【図11】小ブロック分割帯域のフレーム間相関関係図。
【図12】小ブロックによる帯域時空間適応予測符号化処理のフローチャート。
【図13】小ブロックによる帯域時空間適応予測復号化処理のフローチャート。
【図14】相関係数Rinterによる帯域時空間適応予測符号化処理の要部構成図。
【図15】相関係数Rinterによる帯域時空間適応予測符号化処理のフローチャート。
【図16】相関係数Rinterによる帯域時空間適応予測復号化処理の要部構成図。
【図17】相関係数Rinterによる帯域時空間適応予測復号化処理のフローチャート。
【図18】小ブロックと相関係数Rinterによる帯域時空間適応予測符号化処理のフローチャート。
【図19】小ブロックと相関係数Rinterによる帯域時空間適応予測復号化処理のフローチャート。
【符号の説明】
10…帯域分割部
11〜14、20〜22…帯域時空間適応予測部
15…量子化部
16…エントロピー符号化部
17…フレーム間相関判定部
23、24…フレーム間相関判定部
25、26…Rinterによる相関判定部
30…エントロピー復号化部
31〜34…帯域時空間適応予測復号化部
35…逆量子化部
36…帯域合成部
37…フレーム間相関判定部
40〜42…帯域時空間適応予測復号化部
43、44…フレーム間相関判定部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to encoding and decoding for efficiently transmitting and storing moving images.
[0002]
[Prior art]
As a typical encoding method for moving images,
(1) A technique using motion compensation represented by MPEG and DCT.
[0003]
(2) A technique using wavelet transform represented by Motion JPEG2000.
Is well known.
[0004]
As a method using motion compensation and DCT, various models have been proposed so far, and high encoding efficiency is realized by efficiently removing inter-frame correlation and frame correlation.
[0005]
On the other hand, methods using wavelets, such as Motion JPEG 2000, have various effective functions such as space, time, and SNR scalability that are not available in methods using motion compensation and DCT.
[0006]
However, since Motion JPEG 2000 uses only intra-frame correlation, it is known that the encoding efficiency is inferior to the method using motion compensation and DCT. Spatio-temporal adaptive prediction is available as a method that improves the coding efficiency by using wavelets and eliminating inter-frame correlation (see, for example, Non-Patent Document 1).
[0007]
This method is a method proposed as lossless encoding, but can also be applied to lossy encoding, and can efficiently eliminate correlation between frames.
[0008]
[Non-Patent Document 1]
Takayuki Nakachi, Tomoko Sawazaki, Tatsuya Fujii, Tetsuro Fujii, “Study of lossless video coding with resolution scalability”, Proceedings of the 16th Digital Signal Processing Symposium, pp.439-444, November 2001
[0009]
[Problems to be solved by the invention]
Spatio-temporal predictive coding removes inter-frame correlation by applying nonlinear prediction in the wavelet coefficient domain. Since the wavelet transform is used, the spatial scalability function can be realized and the correlation between frames is also removed, so that the coding efficiency is high.
[0010]
However, since the band for performing spatiotemporal prediction is fixed, it is not always a method suitable for various images. A model with variable bandwidth has also been proposed (for example, Non-Patent Document 1). However, this method requires an additional amount of information and is not efficient.
[0011]
An object of the present invention is to change the band for removing the inter-frame correlation adaptively according to the statistical properties of the image without increasing the amount of additional information, and to improve the coding efficiency for the moving image code based on space-time prediction. And a decoding method thereof, and an apparatus thereof.
[0012]
[Means for Solving the Problems]
In order to solve the above problems, the present invention is characterized by the following moving picture coding method, moving picture decoding method, and apparatuses thereof.
[0013]
(1) In encoding for moving images, the original image is band-divided, and for each divided band In order to switch between a two-dimensional predictor that performs intra-frame processing (two-dimensional prediction) and a three-dimensional predictor that performs inter-frame processing (three-dimensional prediction), a decoded signal in the vicinity of the encoding target pixel of the current frame and the reference frame is used. If the correlation coefficient is large, inter-frame processing (three-dimensional prediction) is performed, otherwise intra-frame processing (two-dimensional prediction) is performed. In spatio-temporal adaptive prediction, when there is a correlation between bands in the same direction spatially from the lowest frequency band, when the inter-frame correlation in the frequency band one level lower from the band toward the lowest frequency band is high The band is encoded by spatio-temporal adaptive prediction, and is directly encoded when the inter-frame correlation is low.
[0014]
(2) In decoding using a moving image as an output, a signal encoded by the moving image encoding method described in (1) above is used for inter-frame correlation in a frequency band that is one level lower from the band toward the lowest frequency band. If the frequency is high, the band is decoded by spatio-temporal adaptive prediction, and if the correlation between frames is low, it is directly decoded.
[0015]
(3) In the moving picture coding method according to (1), the inter-frame processing in a frequency band that is one level lower from the band toward the lowest frequency band (3D prediction) Percentage of intra-frame processing (2D prediction) If the frequency is higher than that, the band is encoded by spatio-temporal adaptive prediction, and interframe processing is performed. (3D prediction) Percentage of intra-frame processing (2D prediction) However, it is characterized in that it is directly encoded when it is low.
[0016]
(4) In decoding using a moving image as an output, the inter-frame processing of the signal encoded by the moving image encoding method described in (3) above in a frequency band one level lower from the band toward the lowest frequency band (3D prediction) Percentage of intra-frame processing (2D prediction) If the frequency is higher than the above, the band is decoded by spatio-temporal adaptive prediction, and interframe processing is performed. (3D prediction) Percentage of intra-frame processing (2D prediction) If it is lower than the above, the decoding is performed directly.
[0017]
(5) In encoding for moving images, the original image is band-divided, and for each divided band In order to switch between a two-dimensional predictor that performs intra-frame processing (two-dimensional prediction) and a three-dimensional predictor that performs inter-frame processing (three-dimensional prediction), a decoded signal in the vicinity of the encoding target pixel of the current frame and the reference frame is used. If the correlation coefficient is large, inter-frame processing (three-dimensional prediction) is performed, otherwise intra-frame processing (two-dimensional prediction) is performed. In spatiotemporal adaptive prediction, Spatio-temporal adaptive prediction Between the frames of small blocks in the same spatial position in the frequency band that is one level lower from the band toward the lowest frequency band. When the correlation is large, encoding is performed by spatio-temporal adaptive prediction, and when the correlation between frames is low, encoding is directly performed.
[0018]
(6) In decoding using a moving image as an output, a signal encoded by the moving image encoding method described in (5) above, Spatio-temporal adaptive prediction Whether to perform decoding or direct decoding is determined in units of small blocks, and the small blocks in the band are between the frames of the small blocks in the same spatial position in the frequency band one level lower from the band toward the lowest frequency band. If the correlation is large Spatio-temporal adaptive prediction It is characterized in that when the correlation between frames is low, it is directly decoded.
[0019]
(7) In the moving picture coding method according to (5), the inter-frame in a small block in which the small block in the band is spatially at the same position in a frequency band that is one level lower from the band toward the lowest frequency band. processing (3D prediction) Percentage of intra-frame processing (2D prediction) If it is higher than, it is encoded by spatio-temporal adaptive prediction and interframe processing (3D prediction) Percentage of intra-frame processing (2D prediction) However, it is characterized in that it is directly encoded when it is low.
[0020]
(8) In decoding using a moving image as an output, a signal encoded by the moving image encoding method described in (7) above is one level lower in the small block of the band from the band toward the lowest frequency band. Inter-frame processing in small blocks at the same spatial position in the frequency band (3D prediction) Percentage of intra-frame processing (2D prediction) If it is higher than the value, it is decoded by spatio-temporal adaptive prediction and interframe processing (3D prediction) Percentage of intra-frame processing (2D prediction) If it is lower than the above, the decoding is performed directly.
[0021]
(9) In encoding for moving images, the original image is band-divided, and for each divided band In order to switch between a two-dimensional predictor that performs intra-frame processing (two-dimensional prediction) and a three-dimensional predictor that performs inter-frame processing (three-dimensional prediction), a decoded signal in the vicinity of the encoding target pixel of the current frame and the reference frame is used. If the correlation coefficient is large, inter-frame processing (three-dimensional prediction) is performed, otherwise intra-frame processing (two-dimensional prediction) is performed. In spatio-temporal adaptive prediction, when there is a correlation between bands in the same direction spatially from the lowest frequency band, when the inter-frame correlation in the frequency band one level lower from the band toward the lowest frequency band is high It is characterized by having means for encoding the band by spatio-temporal adaptive prediction and means for directly encoding when the inter-frame correlation is low.
[0022]
(10) In decoding using a moving image as an output, a signal encoded by the moving image encoding device according to (9) is correlated with the inter-frame correlation in a frequency band one level lower from the band toward the lowest frequency band. It is characterized by having means for decoding the band by spatio-temporal adaptive prediction when the frequency is high and means for directly decoding when the inter-frame correlation is low.
[0023]
(11) In the moving picture coding described in (9) above, inter-frame processing in a frequency band that is one level lower from the band toward the lowest frequency band (3D prediction) Percentage of intra-frame processing (2D prediction) Means for encoding the band by spatio-temporal adaptive prediction, and interframe processing (3D prediction) Percentage of intra-frame processing (2D prediction) In contrast, it is characterized by having a means for direct encoding when the value is low.
[0024]
(12) In decoding using a moving image as an output, the signal encoded by the moving image encoding device according to (11) is subjected to interframe processing in a frequency band one level lower from the band toward the lowest frequency band. (3D prediction) Percentage of intra-frame processing (2D prediction) Means for decoding the band by spatio-temporal adaptive prediction, and interframe processing (3D prediction) Percentage of intra-frame processing (2D prediction) In contrast, it is characterized by having a means for direct decoding when it is low.
[0025]
(13) In encoding for moving images, the original image is band-divided, and for each divided band In order to switch between a two-dimensional predictor that performs intra-frame processing (two-dimensional prediction) and a three-dimensional predictor that performs inter-frame processing (three-dimensional prediction), a decoded signal in the vicinity of the encoding target pixel of the current frame and the reference frame is used. If the correlation coefficient is large, inter-frame processing (three-dimensional prediction) is performed, otherwise intra-frame processing (two-dimensional prediction) is performed. In spatiotemporal adaptive prediction, Spatio-temporal adaptive prediction Whether to perform direct encoding or direct encoding, and determine the band Small block When the inter-frame correlation of small blocks located in the same spatial position in the frequency band that is one level lower from the band toward the lowest frequency band is large, means for encoding by spatio-temporal adaptive prediction, If it is low, it has a means for direct encoding.
[0026]
(14) In decoding using a moving image as an output, the signal encoded by the moving image encoding device described in (13) above, Spatio-temporal adaptive prediction Whether to perform decoding or direct decoding is determined in units of small blocks, and the small blocks in the band are between the frames of the small blocks in the same spatial position in the frequency band one level lower from the band toward the lowest frequency band. It is characterized by having means for decoding by spatio-temporal adaptive prediction when the correlation is large and means for directly decoding when the correlation between frames is low.
[0027]
(15) In the moving picture coding according to (13), the inter-frame processing in the small block in which the small block in the band is spatially at the same position in the frequency band one level lower from the band toward the lowest frequency band. (3D prediction) Percentage of intra-frame processing (2D prediction) If it is higher than the above, means for encoding by spatio-temporal adaptive prediction and interframe processing (3D prediction) Percentage of intra-frame processing (2D prediction) In contrast, it is characterized by having a means for direct encoding when the value is low.
[0028]
(16) In decoding using a moving image as an output, the signal encoded by the moving image encoding device described in (15) is one level lower in the small block of the band from the band toward the lowest frequency band. Inter-frame processing in small blocks at the same spatial position in the frequency band (3D prediction) Percentage of intra-frame processing (2D prediction) When it is higher than the above, means for decoding by spatio-temporal adaptive prediction and interframe processing (3D prediction) Percentage of intra-frame processing (2D prediction) In contrast, it is characterized by having a means for direct decoding when it is low.
[0029]
DETAILED DESCRIPTION OF THE INVENTION
(First embodiment)
1 and 2 show a basic configuration diagram for realizing a moving picture coding apparatus and method based on space-time adaptive prediction. FIG. 1 is for lossy encoding, and FIG. 2 is for lossless encoding. The space-time adaptive predictive encoding method according to the present invention can be applied to both lossless and lossy encoding.
[0030]
In FIG. 1 or FIG. 2, 10 is a band dividing unit, 11 to 14 are spatiotemporal adaptive prediction processing units provided for each divided band, and 16 is an entropy coding unit. In the case of irreversible encoding, the
[0031]
The input original image is divided into a plurality of spatial resolution bands by the
[0032]
Next, encoding is performed by space-time adaptive prediction in each divided band. First, adaptive prediction coding is performed on the lowest frequency band LL (n) (n is the number of band division levels). Here, the adaptive prediction encoding can use the method disclosed in
[0033]
Next, after the adaptive prediction coding in the lowest frequency band is completed, the interframe
[0034]
First, it is determined whether to perform adaptive predictive coding in adjacent bands LH (n), HL (n), and HH (n) according to the magnitude of inter-frame correlation in the lowest frequency band.
[0035]
・ When correlation between frames is large
The space-time adaptive predictive encoding process is performed, and the process moves to a higher band.
[0036]
・ When correlation between frames is small
The wavelet coefficients are directly encoded, all the remaining high-band wavelet coefficients are directly encoded, and the process is terminated.
[0037]
The reason for this is that there is a correlation between signals in the lowest frequency band and signals in adjacent bands LH (n), HL (n), and HH (n). That is, when the inter-frame correlation is large in the lowest frequency band, it is expected that the inter-frame correlation is strong also in the three adjacent bands. In this method, whether space-time adaptive prediction is performed in adjacent bands LH (n), HL (n), and HH (n) is determined by the lowest frequency band, and information shared by the encoder and decoder can be used. A new amount of additional information is not required.
[0038]
When the inter-frame correlation is large, the process proceeds as follows in the subsequent high frequency band. In wavelets, it is known that there is a correlation between frequency bands in the same direction as seen from the lowest frequency band. That is,
LH (n), LH (n-1), ..., LH (1)
There is a correlation between the bands of HL, and similarly between HL directions, between HH directions,
Between HL (n), HL (n-1), ..., HL (1)
Between HH (n), HH (n-1), ..., HH (1)
Each has a correlation. Using this property, whether or not the spatio-temporal adaptive prediction is performed in each band is determined based on the magnitude of the inter-frame correlation in the frequency band one level lower than each frequency band. That is,
・ When correlation between frames is large
The space-time adaptive predictive encoding process is performed, and the process moves to a higher band.
[0039]
・ When correlation between frames is small
The wavelet coefficients are directly encoded, and all the remaining high-band wavelet coefficients are directly encoded, and the process ends.
[0040]
The above processing is performed toward the high band, and when the inter-frame correlation is small or the processing is terminated up to the maximum frequency band LH (1), or when either condition is satisfied, the processing in the LH direction is terminated.
[0041]
FIG. 4 illustrates the processing of the LH (n−1), LH (n−2),..., LH (1) band part, and the calculation results of inter-frame
[0042]
In the above method, whether or not to perform the band spatio-temporal adaptive prediction process is determined by the magnitude of the inter-frame correlation in the frequency band one level lower, so that information shared by the encoder and decoder can be used in this process, No additional amount of additional information is required,
After the above processing is completed, the
[0043]
(Second Embodiment)
FIGS. 7 and 8 show basic configuration diagrams for realizing the moving picture decoding apparatus and method for decoding the data encoded in the first embodiment. FIG. 7 is for lossy decoding, and FIG. 8 is for lossless decoding. 7 or 8, 30 is an entropy decoding unit, 31 to 34 are space-time adaptive prediction decoding units provided for each divided band, 35 is a band synthesis unit, and 37 is an interframe correlation determination unit.
[0044]
First, the
[0045]
Next, the spatio-temporal adaptive
・ When correlation between frames is large
The space-time adaptive predictive decoding process is performed, and the process moves to a higher band.
[0046]
・ When correlation between frames is small
The wavelet coefficients are directly decoded, all the remaining high-band wavelet coefficients are also directly decoded, and the process ends.
[0047]
When the inter-frame correlation is large, the process proceeds as follows in the subsequent high frequency band.
[0048]
An inter-frame correlation in a frequency band that is one level lower is calculated from the low frequency band to the high frequency band among the LH direction, HL direction, and HH direction bands. In this calculation,
・ When correlation between frames is large
The space-time adaptive predictive decoding process is performed, and the process moves to a higher band.
[0049]
・ When correlation between frames is small
The wavelet coefficients are directly decoded, and all the remaining high-band wavelet coefficients are also directly decoded, and the process ends.
[0050]
FIG. 9 illustrates the processing of the LH (n−1), LH (n−2),..., LH (1) band part, and the calculation by the inter-frame
[0051]
After the above processing is completed, the
[0052]
(Third embodiment)
In the first embodiment, whether to perform adaptive predictive coding or directly encode wavelet coefficients is performed for each frequency band in each frequency band. In the present embodiment example, it is determined in units of small blocks whether adaptive predictive coding is performed outside the lowest frequency band or whether wavelet coefficients are directly encoded. By processing in units of small blocks, encoding adapted to the local nature of the image can be performed, and encoding efficiency is improved.
[0053]
In the wavelet, it is known that each frequency component corresponding to the same spatial position has a correlation with each other. Using this property, as shown in FIG. 11, a small block corresponding to the same spatial position in each frequency band. Process in units.
[0054]
First, all the lowest frequency bands are subjected to space-time adaptive prediction encoding, as in the first embodiment.
[0055]
Next, the lowest frequency band is divided into small block units of L × L pixels. The inter-frame correlation of each small block is calculated in the order of raster scanning from left to right and from top to bottom in the figure. Whether to perform adaptive predictive coding on the small blocks at the corresponding spatial positions in the adjacent bands LH (n), HL (n), and HH (n) is determined based on the inter-frame correlation of each small block. That is,
・ When correlation between frames is large
The space-time adaptive predictive coding process is performed in the small block, and the process moves to a high band.
[0056]
・ When correlation between frames is small
The wavelet coefficients are directly encoded, and all the remaining high-band wavelet coefficients are directly encoded, and the process ends.
[0057]
When the correlation between frames is large, the same processing is performed in units of blocks in the subsequent high frequency band. The above processing is performed for all small blocks in the raster scan order. FIG. 12 shows a flowchart of the band adaptation process when the division level is two. When the correlation between frames is large in the prediction process for the small block MB (n) of LL (2), HL (2) MB (N) and LH (2) MB (n) and HH (2) MB (n) are predicted, and HL (1) MB (n) and LH (1) MB (n ) And HH (1) MB (n) are determined whether or not to perform the prediction process.
[0058]
In entropy coding, a residual signal or wavelet coefficient of an adaptive predictive coding output and a motion estimation vector are coded to generate a coded bit stream.
[0059]
(Embodiment 4)
In this embodiment, a method for decoding a signal encoded by small block unit processing according to the third embodiment will be described. The basic configuration is the same as that of the third embodiment shown in FIG. 7 or FIG. 8, except that processing other than the lowest frequency band is performed in units of small blocks.
[0060]
First, the
[0061]
The processing of the spatio-temporal adaptive
[0062]
Next, the decoded signal of the lowest frequency band is divided into small block units of L × L pixels. The inter-frame correlation of each small block is calculated in the order of raster scanning from left to right and from top to bottom in the figure. Depending on the magnitude of the inter-frame correlation of each small block, it is determined whether or not to perform adaptive predictive decoding in the small block at the corresponding spatial position in the adjacent bands LH (n), HL (n), and HH (n). . That is,
When the correlation between frames is large
Spatio-temporal adaptive predictive decoding processing is performed in the small block, and the processing shifts to high bandwidth.
[0063]
・ When correlation between frames is small
The wavelet coefficients are directly decoded, and all the remaining high-band wavelet coefficients are also directly decoded, and the process ends.
[0064]
When the inter-frame correlation is large, the same processing is performed in units of small blocks in the subsequent high frequency band. These processes are performed for all small blocks in the raster scan order. FIG. 13 shows a flowchart of the band spatio-temporal adaptive predictive decoding process when the division level is two. When the correlation between frames is large in the prediction process for the small block MB (n) of LL (2), HL (2) MB (n), LH (2) MB (n) and HH (2) MB (n) are subjected to prediction processing, and HL (1) MB (n) and LH ( 1) It is determined whether or not to perform the prediction process for MB (n) and HH (1) MB (n).
[0065]
After these determination processes, the
[0066]
(Fifth embodiment)
In the present embodiment example, the correlation coefficient R between frames shown below is used as the magnitude of the correlation between frames in the first embodiment. inter 1 shows an embodiment of a moving picture encoding apparatus and method when using a video.
[0067]
R inter = Inter / (Inter + Intra)
Here, Inter represents the number of times of inter-frame processing (three-dimensional prediction), and Intra represents the number of times of intra-frame processing (two-dimensional prediction). Whether to perform inter-frame processing or intra-frame processing is determined by the correlation coefficient of the signal value between two consecutive frames in the vicinity of the encoded pixel. If the correlation coefficient is large, inter-frame processing is performed. If it is smaller, intra-frame processing is performed.
[0068]
Therefore, R inter Is large, that is, when the number of inter-frame processing is large, it is determined that the inter-frame correlation is large. R in this lowest frequency band inter Depending on the value, whether to perform adaptive predictive coding in adjacent bands LH (n), HL (n), and HH (n) is determined. That is,
・ R inter > = TH
The space-time adaptive predictive encoding process is performed, and the process moves to a higher band.
[0069]
・ R inter <If TH
The wavelet coefficients are directly encoded, and all the remaining high-band wavelet coefficients are directly encoded, and the process ends.
[0070]
Here, TH is a threshold value and takes a value of 0 = <TH = <1.
[0071]
R inter If> = TH, the process proceeds as follows in the subsequent high frequency band.
[0072]
・ R inter > = TH
The space-time adaptive predictive encoding process is performed, and the process moves to a higher band.
[0073]
・ R inter <If TH
The wavelet coefficients are directly encoded, and all the remaining high-band wavelet coefficients are directly encoded, and the process ends.
[0074]
The above processing is performed toward the high band, and R inter <When the condition of TH is satisfied, or the process is terminated up to the maximum frequency band HL (1), or when either condition is satisfied, the process in the LH direction is terminated. FIG. 14 illustrates the processing of the LH (n−1), LH (n−2),..., LH (1) band section. inter It is determined whether or not to perform the band spatiotemporal adaptive prediction processes 21 to 22 in the LH direction according to the magnitude of the calculation result of the
[0075]
In the above method, whether space-time adaptive prediction is performed or not is determined by R in a frequency band one level lower. inter Since it is determined by the value, information shared by the encoder and the decoder can be used in this process, and a new amount of additional information is not required.
[0076]
(Sixth embodiment)
In the present embodiment example, in the second embodiment, as the magnitude of the inter-frame correlation,
・ R inter > = TH
The space-time adaptive predictive decoding process is performed, and the process moves to a higher band.
[0077]
・ R inter If <TH, the wavelet coefficients are directly decoded, all the remaining high-band wavelet coefficients are also directly decoded, and the process ends.
[0078]
R inter If> = TH, the process proceeds as follows in the subsequent high frequency band.
[0079]
R in a frequency band that is one level lower from the low frequency band to the high frequency band among the bands in the LH direction, the HL direction, and the HH direction. inter Calculate the value, and the value is
・ R inter > = TH
The space-time adaptive predictive decoding process is performed, and the process moves to a higher band.
[0080]
・ R inter <If TH
The wavelet coefficients are directly decoded, and all the remaining high-band wavelet coefficients are also directly decoded, and the process ends.
[0081]
In addition, the processing example of LH (n-1), LH (n-2), ..., LH (1) band part was shown in FIG. R inter If the condition of <TH is satisfied or the processing of the highest frequency band LH (1) is terminated, or if any of the conditions is satisfied, the processing in the LH direction is terminated. Processing in the HL direction and the HH direction can be performed in the same manner. FIG. 17 shows a flowchart of the band spatio-temporal adaptive decoding process when the division level is two levels. In the prediction process in LL (2), R inter If the value is greater than TH, a prediction process is performed for HL (2), LH (2), and HH (2), and R inter It is determined whether or not to perform the prediction processing with HL (1), LH (1), and HH (1).
[0082]
(Seventh embodiment)
In the present embodiment example, in the third embodiment,
・ R inter > = TH
The space-time adaptive predictive coding process is performed in the small block, and the process moves to a high band.
[0083]
・ R inter <If TH
The wavelet coefficients are directly encoded, and all the remaining high-band wavelet coefficients are directly encoded, and the process ends.
[0084]
R inter When> = TH, the same processing is performed in units of blocks in the subsequent high frequency band. The above processing is performed for all small blocks in the raster scan order. FIG. 18 shows a flowchart of the band spatio-temporal adaptive encoding process when the division level is two levels. In the prediction process in LL (2) MB (n), R inter When the value is greater than TH, prediction processing is performed for HL (2) MB (n), LH (2) MB (n), and HH (2) MB (n), and R inter It is determined whether or not the prediction processing is performed for HL (1) MB (n), LH (1) MB (n), and HH (1) MB (n).
[0085]
(Eighth embodiment)
In the present embodiment example, in the fourth embodiment, as the magnitude of the inter-frame correlation,
・ R inter > = TH
Spatio-temporal adaptive predictive decoding processing is performed in the small block, and the processing shifts to high bandwidth.
[0086]
・ R inter <If TH
The wavelet coefficients are directly decoded, and all the remaining high-band wavelet coefficients are also directly decoded, and the process ends.
[0087]
R inter If> = TH, the same processing is performed in units of small blocks in the subsequent high frequency band. These processes are performed for all small blocks in the raster scan order. FIG. 19 shows a flowchart of the band spatio-temporal adaptive decoding process when the division level is 2 levels. inter When the value is greater than TH, prediction processing is performed for HL (2) MB (n), LH (2) MB (n), and HH (2) MB (n), and R inter It is determined whether or not the prediction processing is performed for HL (1) MB (n), LH (1) MB (n), and HH (1) MB (n).
[0088]
【The invention's effect】
As is apparent from the above description, according to the present invention, efficient lossy encoding and lossless encoding of moving images can be performed, and storage with a small disk capacity is possible. Furthermore, since it has spatial resolution scalability, it is possible to decode an image with a spatial resolution in accordance with the performance and application of the image display device.
[0089]
In addition, when decoding from a low band to an arbitrary band, an image having a lower spatial resolution than the original image can be reproduced, and when all data is decoded, an image having the same resolution as the original image is reproduced. If it is desired to reproduce an image having a lower spatial resolution than the original image according to the performance and application of the image display device, it is only necessary to decode the encoded data corresponding to the necessary band. The processing time is shorter than when the resolution conversion is performed by reproducing an image having the same resolution as the original image, and only the necessary data needs to be transmitted when transmitting the encoded bit stream, so the transmission rate is also reduced.
[Brief description of the drawings]
FIG. 1 is a basic configuration diagram (for lossy encoding) of a moving image encoding apparatus and method according to a first embodiment of the present invention.
FIG. 2 is a basic configuration diagram (for lossless encoding) of a moving image encoding apparatus and method according to the first embodiment of the present invention.
FIG. 3 is a schematic diagram of band division by octave division.
FIG. 4 is a block diagram of the main part of a band space-time adaptive predictive coding process.
FIG. 5 is a correlation diagram between frames of divided bands.
FIG. 6 is a flowchart of bandwidth spatio-temporal adaptive prediction encoding processing based on inter-frame correlation.
FIG. 7 is a basic configuration diagram (for lossy encoding) of a moving picture decoding apparatus and method according to a second embodiment of the present invention.
FIG. 8 is a basic configuration diagram (for lossless encoding) of a moving image encoding apparatus and method according to a second embodiment of the present invention.
FIG. 9 is a block diagram of the main part of a band space-time adaptive predictive decoding process.
FIG. 10 is a flowchart of bandwidth spatio-temporal adaptive prediction decoding processing based on inter-frame correlation.
FIG. 11 is a correlation diagram between frames in a small block division band.
FIG. 12 is a flowchart of bandwidth spatio-temporal adaptive prediction encoding processing using small blocks.
FIG. 13 is a flowchart of band space-time adaptive predictive decoding processing using small blocks.
FIG. 14 Correlation coefficient R inter The principal part block diagram of the band spatio-temporal adaptive prediction encoding process by A.
FIG. 15: Correlation coefficient R inter The flowchart of the band spatio-temporal adaptive prediction encoding process by.
FIG. 16: correlation coefficient R inter The principal part block diagram of the band spatio-temporal adaptive prediction decoding process by this.
FIG. 17: correlation coefficient R inter 7 is a flowchart of band spatio-temporal adaptive predictive decoding processing according to FIG.
FIG. 18: small block and correlation coefficient R inter The flowchart of the band spatio-temporal adaptive prediction encoding process by.
FIG. 19: small block and correlation coefficient R inter 7 is a flowchart of band spatio-temporal adaptive predictive decoding processing according to FIG.
[Explanation of symbols]
10: Band division unit
11-14, 20-22 ... Band space-time adaptive prediction unit
15 ... Quantization part
16: Entropy encoding unit
17: Inter-frame correlation determination unit
23, 24 ... Inter-frame correlation determination unit
25, 26 ... R inter Correlation judgment part by
30: Entropy decoding unit
31-34: Band space-time adaptive predictive decoding unit
35 ... Inverse quantization section
36. Band synthesis unit
37 ... Inter-frame correlation determination unit
40 to 42: Band space-time adaptive predictive decoding unit
43, 44 ... Inter-frame correlation determination unit
Claims (16)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002320771A JP4153774B2 (en) | 2002-11-05 | 2002-11-05 | Video encoding method, decoding method thereof, and apparatus thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002320771A JP4153774B2 (en) | 2002-11-05 | 2002-11-05 | Video encoding method, decoding method thereof, and apparatus thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004158946A JP2004158946A (en) | 2004-06-03 |
JP4153774B2 true JP4153774B2 (en) | 2008-09-24 |
Family
ID=32801518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002320771A Expired - Fee Related JP4153774B2 (en) | 2002-11-05 | 2002-11-05 | Video encoding method, decoding method thereof, and apparatus thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4153774B2 (en) |
-
2002
- 2002-11-05 JP JP2002320771A patent/JP4153774B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004158946A (en) | 2004-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101972407B1 (en) | Apparatus and method for image coding and decoding | |
KR102051083B1 (en) | Video encoding apparatus for performing intra-prediction based on directionality of neighboring block, video decoding apparatus and video decoding method for performing the same | |
RU2615323C2 (en) | Video encoding method and apparatus and video decoding method and apparatus | |
JP5197630B2 (en) | Image encoding device, image decoding device, image encoding method, and image decoding method | |
KR20100017453A (en) | A method and an apparatus for processing a video signal | |
JP2008522537A (en) | Multi-layer video encoding method, decoding method and apparatus using the method | |
KR20110065089A (en) | Method and apparatus for encoding video, and method and apparatus for decoding video | |
KR20130098122A (en) | Device and method for encoding/decoding | |
KR20060119736A (en) | Method for encoding video signal | |
KR101700410B1 (en) | Method and apparatus for image interpolation having quarter pixel accuracy using intra prediction modes | |
KR100809603B1 (en) | Method and Apparatus for video coding on pixel-wise prediction | |
EP1841235A1 (en) | Video compression by adaptive 2D transformation in spatial and temporal direction | |
WO2014084674A2 (en) | Intra prediction method and intra prediction apparatus using residual transform | |
JP4762486B2 (en) | Multi-resolution video encoding and decoding | |
JP4153774B2 (en) | Video encoding method, decoding method thereof, and apparatus thereof | |
JP4522951B2 (en) | Moving picture encoding method and apparatus, decoding method and apparatus, moving picture processing program, and computer-readable recording medium | |
KR101562343B1 (en) | Method and apparatus for image interpolation having quarter pixel accuracy using intra prediction modes | |
KR102111437B1 (en) | Method and apparatus for image interpolation having quarter pixel accuracy using intra prediction modes | |
JP4113696B2 (en) | Lossless video encoding method, decoding method thereof, and apparatus thereof | |
KR101934840B1 (en) | Method and apparatus for image interpolation having quarter pixel accuracy using intra prediction modes | |
KR101810198B1 (en) | Method and apparatus for image interpolation having quarter pixel accuracy using intra prediction modes | |
KR101700411B1 (en) | Method and apparatus for image interpolation having quarter pixel accuracy using intra prediction modes | |
JP4511607B2 (en) | Lossless video encoding method, decoding method thereof, and program thereof | |
KR20140129418A (en) | Method for intra-prediction using residual transform, and apparatus thereof | |
KR20190084929A (en) | Method and apparatus for image interpolation having quarter pixel accuracy using intra prediction modes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080408 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080606 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080701 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080704 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110711 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120711 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130711 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |