JP2009506710A

JP2009506710A - エントロピコーディングの性能向上方法および装置、前記方法を利用したビデオコーディング方法および装置

Info

Publication number: JP2009506710A
Application number: JP2008528961A
Authority: JP
Inventors: リー，ベ−グン; ハン，ウ−ジン
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2005-09-26
Filing date: 2006-09-25
Publication date: 2009-02-12
Also published as: EP1929782A4; WO2007035070A1; EP1929782A1

Abstract

本発明はビデオ圧縮技術に関するものであって、より詳細には多階層基盤のコーデックにおいて、エントロピコーディングの性能を改善する方法および装置に関するものである。
本発明の一実施形態によるＦＧＳ階層の第１係数を無損失符号化する可変長符号化方法は、前記第１係数が属する所定の単位領域に含まれた０の比率を算出する段階と、前記比率が所定の臨界値を越えるのかの可否にしたがって複数のグループ化単位のうち一つを選択する段階と、前記第１係数の絶対値を前記選択されたグループ化単位でグループ化する段階と、前記選択されたグループ化単位に相応するＶＬＣテーブルを参照して前記グループ化された第１係数の絶対値をマッピングされるコードワードに変換する段階で成される。

Description

本発明はビデオ圧縮技術に関するものであって、より詳細には多階層基盤のコーデックにおいて、エントロピコーディングの性能を改善する方法および装置に関するものである。

インターネットを含む情報通信技術が発達するにともない文字、音声だけでなく画像通信が増加している。既存の文字中心の通信方式では消費者の多様な欲求を充足させるには足りず、これに伴い文字、映像、音楽など多様な形態の特性を受容できるマルチメディアサービスが増加している。マルチメディアデータはその量が膨大であり、大容量の保存媒体を必要とし伝送時に広い帯域幅を必要とする。したがって文字、映像、オーディオを含んだマルチメディアデータを伝送するためには圧縮コーディング技法を使用することが必須的である。

データを圧縮する基本的な原理はデータの重複（ｒｅｄｕｎｄａｎｃｙ）要素を除去する過程である。イメージで同一な色やオブジェクトが反復されるような空間的重複や動画フレームにおいて隣接したフレームの変化がほとんどない場合やオーディオにおいて同じ音が継続して反復されるような時間的重複、または人間の視覚および知覚能力が高い周波数に鈍感であることを考慮した心理視覚重複を除去することによってデータを圧縮することができる。一般的なビデオコーディング方法において、時間的重複はモーション補償に基づいた時間的フィルタリング（ｔｅｍｐｏｒａｌｆｉｌｔｅｒｉｎｇ）によって除去し、空間的重複は空間的変換（ｓｐａｔｉａｌｔｒａｎｓｆｏｒｍ）によって除去する。

データの重複を除去した結果は改めて量子化過程をとおし所定の量子化ステップにしたがって損失符号化される。前記量子化された結果は最終的にエントロピ符号化（ｅｎｔｒｏｐｙｃｏｄｉｎｇ）をとおし、最終的に無損失符号化される。

現在、ＩＳＯ／ＩＥＣ（ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ／ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ）とＩＴＵ（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ）のビデオ専門家の集いであるＪＶＴ（ＪｏｉｎｔＶｉｄｅｏＴｅａｍ）で進行中のスケーラブルビデオ符号化（以下、ＳＶＣという）草案（ｄｒａｆｔ）では、既存のＨ．２６４を基盤とした多階層基盤のコーディング技術に関する研究が活発に進行されている。

現在Ｈ．２６４標準で使用されるエントロピ符号化技術としては、ＣＡＶＬＣ（Ｃｏｎｔｅｘｔ−ＡｄａｐｔｉｖｅＶａｒｉａｂｌｅＬｅｎｇｔｈＣｏｄｉｎｇ）、ＣＡＢＡＣ（Ｃｏｎｔｅｘｔ−ＡｄａｐｔｉｖｅＢｉｎａｒｙＡｒｉｔｈｍｅｔｉｃＣｏｄｉｎｇ）、Ｅｘｐ＿Ｇｏｌｏｍｂ（ｅｘｐｏｎｅｎｔｉａｌＧｏｌｏｍｂ）等がある。

次の表（１）はＨ．２６４標準でコーディングされるパラメータごとに使用されるエントロピ符号化技法の分類を示す。

前記表（１）によればｅｎｔｒｏｐｙ＿ｃｏｄｉｎｇ＿ｍｏｄｅフラッグが０である場合には、該当マクロブロックがインター予測モードであるのかイントラ予測モードであるのかを表すマクロブロック類型（ｍａｃｒｏｂｌｏｃｋｔｙｐｅ）、マクロブロックを構成するサブブロックの形態を表すマクロブロックパターン（ｍａｃｒｏｂｌｏｃｋｐａｔｔｅｒｎ）、量子化ステップ（ｑｕａｎｔｉｚａｔｉｏｎｓｔｅｐ）を決定するインデックスである量子化パラメータ（ｑｕａｎｔｉｚａｔｉｏｎｐａｒａｍｅｔｅｒ）、インター予測モードで参照されるフレームの番号を表す参照フレームインデックス、およびモーションベクタはＥｘｐ＿Ｇｏｌｏｍｂによって符号化される。そして、元のイメージと予測イメージ間の差異を表す残差データ（ｒｅｓｉｄｕａｌｄａｔａ）はＣＡＶＬＣによって符号化される。

反面、前記ｅｎｔｒｏｐｙ＿ｃｏｄｉｎｇ＿ｍｏｄｅフラッグが１である場合には、前記すべてのパラメータはＣＡＢＡＣでコーディングされる。

ＣＡＢＡＣは高い複雑性（ｈｉｇｈｃｏｍｐｌｅｘｉｔｙ）を有するパラメータで良い性能を表す。したがって、ＣＡＶＬＣなどのＶＬＣ（ＶａｒｉａｂｌｅＬｅｎｇｔｈＣｏｄｉｎｇ）基盤のエントロピコーディングは基礎的なプロファイルとして設定される。

ＪＲｉｄｇｅおよびＭ．Ｋａｒｃｚｅｗｉｃｚによって１６番目のＪＶＴミーティングで提出された文書“ＶａｒｉａｂｌｅｌｅｎｇｔｈｃｏｄｅｆｏｒＳＶＣ”（ＪＶＴ−Ｐ０５６、Ｐｏｚｎａｎ、１６−ｔｈＪＶＴｍｅｅｔｉｎｇ；以下ＪＶＴ−Ｐ０５６という）にはＳＶＣの特性を考慮したＣＡＶＬＣ技法を提示している。ＪＶＴ−Ｐ０５６は、離散階層（ｄｉｓｃｒｅｔｅｌａｙｅｒ）では既存のＨ．２６４と同一な処理過程にしたがうが、ＦＧＳ階層（ＦｉｎｅＧｒａｎｕｌａｒＳｃａｌａｂｉｌｉｔｙｌａｙｅｒ）では別途の統計的特性にともなうＶＬＣ技法を使用する。

現在、ＪＳＶＭ（ＪｏｉｎｔＳｃａｌａｂｌｅＶｉｄｅｏＭｏｄｅｌ）では、ＦＧＳエンコーディングのため、３種類のスキャニングパス（ｓｃａｎｎｉｎｇｐａｓｓ）を支援しているが、それは重要パス（ｓｉｇｎｉｆｉｃａｎｃｅｐａｓｓ）、リファインメントパス（ｒｅｆｉｎｅｍｅｎｔｐａｓｓ）、および残余パス（ｒｅｍａｉｎｄｅｒｐａｓｓ）である。それぞれのスキャニングパスに対し、その統計的特性によって互いに異なる方法が適用される。例えば、リファインメントパスではエントロピコーディングにおいて“０”値がより好まれるという事実に基づいて得られる一つのＶＬＣテーブルを利用される。

ＪＶＴ−Ｐ０５６ではＦＧＳ階層のためＶＬＣ技法を提示する。前記技法は離散階層では従来のＣＡＶＬＣ技法をそのまま使用するが、ＦＧＳ階層での統計的特性を利用した別途の技法を使用する。ところで、ＪＶＴ−Ｐ０５６は前記３つのスキャニングパスのうち、リファインメントパスでリファインメント係数（リファインメントビット）をコーディングするにおいて、４個のリファインメントビットを単位でグループ化（ｇｒｏｕｐｉｎｇ）してシンボルを形成し、前記シンボルを一つのＶＬＣテーブルを利用する符号化する技法を提示している。しかし、複数のＦＧＳ階層は階層別に互いに異なる“０”の分布を有していることを考慮すれば、固定された個数（４個）でグループ化されたシンボルを符号化することは効率的な方法であるとはいえない。

図１はリファインメントパスにおいて単一ＶＬＣテーブルを使用する場合にＦＧＳ階層別に０ではない係数の比率を表したのである。図１から見れば、ＦＧＳ階層が増加するほどコーディングされるブロックのうち０ではない数は最大１５％まで増加（０は最大１５％まで減少）される特性がある。したがって、０の数が多いものと仮定して４個単位でリファインメント係数をグループ化する方法が、たとえ第１ＦＧＳ階層では効率的に適用され得るとしても、その上位ＦＧＳ階層でも相変らず効率的に適用され得ると期待しがたいものである。むしろ、各ＦＧＳ階層ごとに互いに異なるグループ化単位（ｇｒｏｕｐｉｎｇｕｎｉｔ）およびこれに適合したＶＬＣテーブルを適応的に（ａｄａｐｔｉｖｅｌｙ）適用した方がコーディングの効率面でより有利であろう。

本発明は前記した必要性を考慮して考案されたものであって、スキャニングパスのうちリファインメントパス（ｒｅｆｉｎｅｍｅｎｔｐａｓｓ）において、各ＦＧＳ格別特性にしたがって適応的にグループ化単位およびこれに相応するＶＬＣテーブルを選択できるようにすることによって、エントロピコーディングの性能を向上させる方法および装置を提供することを目的とする。

本発明の目的は前記言及した目的に制限されず、言及されていないまた他の目的は次の記載から当業者に明確に理解され得るであろう。

前記した目的を達成するために、一つの離散階層と少なくとも一つ以上のＦＧＳ階層から成る係数のうち前記ＦＧＳ階層の第１係数を無損失符号化する可変長符号化方法において、前記第１係数が属する所定の単位領域に含まれた０の比率を算出する段階、前記比率が所定の臨界値を越えるのかの可否にしたがって複数のグループ化単位のうち一つを選択する段階、前記第１係数の絶対値を前記選択されたグループ化単位でグループ化する段階、および前記選択されたグループ化単位に相応するＶＬＣテーブルを参照し、前記グループ化された第１係数の絶対値をマッピングされるコードワード（ｃｏｄｅｗｏｒｄ）に変換する段階を含む。

前記した目的を達成するため、入力されたビットストリームのうちＦＧＳ階層の第１ビットストリームを無損失復号化して前記ＦＧＳ階層に対する第１係数を復元する可変長復号化方法において、前記第１係数が属する所定の単位領域に含まれた既復元された第２係数のうち０の比率を算出する段階、前記比率が所定の臨界値を越えるのかの可否にしたがって複数のグループ化単位のうち一つを選択する段階、および前記選択されたグループ化単位に相応するＶＬＣテーブルを参照し、前記第１ビットストリームに含まれたコードワードから前記第１係数を復元する段階を含む。

前記した目的を達成するため、入力されたビットストリームのうちＦＧＳ階層の第１ビットストリームを無損失復号化して前記ＦＧＳ階層に対するリファインメントビット（ｒｅｆｉｎｅｍｅｎｔｃｏｅｆｆｉｃｉｅｎｔｓ）を復元する可変長復号化方法において、前記第１ビットストリームに所定の単位領域ごとに挿入されているグループ化単位に関する情報を判読する段階、前記グループ化単位に相応するＶＬＣテーブルをローディングする段階、および前記ローディングされたＶＬＣテーブルを参照し、前記第１ビットストリームに含まれたコードワードから前記第１係数を復元する段階を含む。

前記した目的を達成するため、一つの離散階層と少なくとも一つ以上のＦＧＳ階層から成る係数のうち前記ＦＧＳ階層の第１係数を無損失符号化する可変長符号化装置において、前記第１係数が属する所定の単位領域に含まれた０の比率を算出する手段、前記比率が所定の臨界値を越えるのかの可否にしたがって複数のグループ化単位のうち一つを選択する手段、前記第１係数の絶対値を前記選択されたグループ化単位でグループ化する手段、および前記選択されたグループ化単位に相応するＶＬＣテーブルを参照して、前記グループ化された第１係数の絶対値をマッピングされるコードワードに変換する手段を含む。

前記した目的を達成するため、入力されたビットストリームのうちＦＧＳ階層の第１ビットストリームを無損失復号化して前記ＦＧＳ階層に対する第１係数を復元する可変長復号化装置において、前記第１係数が属する所定の単位領域に含まれた既復元された第２係数のうち０の比率を算出する手段、前記比率が所定の臨界値を越えるのかの可否にしたがって複数のグループ化単位のうち一つを選択する手段、および前記選択されたグループ化単位に相応するＶＬＣテーブルを参照し、前記第１ビットストリームに含まれたコードワードから前記第１係数を復元する手段を含む。

以下、添付された図面を参照して本発明の好ましい実施形態を詳細に説明する。本発明の利点および特性、そしてそれらを達成する方法は添付される図面と共に詳細に後述されている実施形態を参照すれば明確になるだろう。しかし本発明は以下で開示される実施形態に限定されるものではなく互いに異なる多様な形態で具現されるものであり、単に本実施形態は本発明の開示を完全にし、本発明が属する技術分野で通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであり、本発明は請求項の範囲によってのみ定義される。明細書全体にかけて同一参照符号は同一構成要素を指称する。

一般的に、複数のＦＧＳ階層のうち上位階層に行くほど、０の個数は増加し、同一なＦＧＳ階層内でもフレーム、スライス（ｓｌｉｃｅ）、マクロブロック、またはブロック別に前記０の個数の分布が同一なものであると見がたい。したがって、本発明は一つの単位領域（フレーム、スライス、マクロブロック、またはブロック）に含まれる０の個数を基準に、互いに異なるグループ化単位（ｇｒｏｕｐｉｎｇｕｎｉｔ）およびこれに相応するＶＬＣテーブルを選択することが可能であるようにする。前記グループ化単位とは、シンボル（ｓｙｍｂｏｌ）を形成するリファインメントビットの数を意味する。

図２は量子化係数が一つの離散階層と複数のＦＧＳ階層に分離され表示される例を図示する図である。図２において、各階層は４×４単位の係数から成るブロックで表示されている。対応される位置にある数字は組み合わせられ一つの量子化係数を表す。ビット率を減らすためには、前記階層を上位階層から切り出せば（ｔｒｕｎｃａｔｉｏｎ）できる。もちろん一つの階層のうち一部の数字だけを切り捨てることもできる。

例えば、各階層で４×４ブロックのうち１行の２列に位置する係数は各々３、−１、１である。この位置に対応される量子化係数を正しく復元するためにはこれらの係数すべてが必要とされるが、状況によっては１または、１および−１は切り出され得て、デコーダ段では相対的に重要な下位階層の係数だけで前記量子化係数を復元するようになる（もちろん、損失が発生する）。

ＦＧＳ階層は離散階層とはその特性が非常に相異なる。なぜなら、離散階層は多少ラフ（ｒｏｕｇｈ）であるが、元のイメージを表現していることに反して、ＦＧＳ階層は差分（ｄｉｆｆｅｒｅｎｃｅ）概念を有する値で構成されているからである。また、離散階層では０、１、−１以外の他の値も表れる反面、ＦＧＳ階層ではその特性上０、１、−１だけで表現されるのが一般的である。

重要パスでコーディングされるＦＧＳ階層の係数はその対応される離散階層の係数が０である時であり、リファインメントパスでコーディングされるＦＧＳ階層上の係数はその対応される離散階層の係数が０ではない時である。例えば、第１ＦＧＳ階層で陰影で表示されたビット（リファインメントビット）はリファインメントパスでコーディングされる。

本発明による階層別適応的ＶＬＣ技法は特に、前記リファインメントパスに適用するに適している。離散階層の係数をＶＬＣコーディングする場合には、Ｌｅｖｅｌ、ＴｒａｉｌｉｎｇＯｎｅｓなどをすべて考慮してコーディングするのが好ましい。しかしリファインメント係数の場合にはこれらを考慮する必要がないため、より簡単なＶＬＣコーディング技法が必要である。

図３は本発明の一実施形態によるリファインメント係数エンコーダ１００の構成を図示するブロック図である。
選択部１２０は既コーディングされた単位領域のリファインメントビットを参照し、グループ化部１１０で使用されるグループ化単位を決定する。前記単位領域は前記入力リファインメントビットが属するフレーム、スライス、マクロブロック、またはブロックと成り得る。

一旦、現在リファインメントビットが属する単位領域が決まれば、選択部１２０は前記単位領域に属するビットのうち０の個数をカウントする。それで、前記ビットのうち０が占める比率が所定の臨界値を越えれば、従来のＪＶＴ−Ｐ０５６で提示したとおり、グループ化単位を４とする。しかし前記比率が前記臨界値を越えなければグループ化単位を３とする。

コーディングするビットのうち０の個数が多ければ、いくつかの０をまとめ一つの短いコードワードで表現することができるため、グループ化単位を大きくした方が有利である。反面、０の個数が小さければ相対的にグループ化単位を小さくした方が有利である。
本発明において、選択部１２０でグループ化単位を調節することは、このような点を考慮したものである。

以上の例では１個の臨界値および２個のグループ化単位を使用するものを例にあげたが、本発明はこれに限らない。一般的に、ｎ（ｎは自然数）個の臨界値およびｎ＋１個のグループ化単位を使用できることは当業者ならば十分に理解できるであろう。前記臨界値は経験的または実験的に決定され得る値として、例えば、７／８、３／４、２／３等で決定され得る。

選択部１２０はこのように、グループ化単位を決定すれば、テーブル保存部１４０に保存されたＶＬＣテーブルのうちそれに相応するＶＬＣテーブルをサイズコーディング部１３０に提供する。グループ化単位が異なればそれに応じてＶＬＣテーブルも当然変わらなければならないからである。

グループ化単位が４である場合には従来のＪＶＴ−Ｐ０５６で提示した次の表（２）のようなＶＬＣテーブルがサイズコーディング部１３０に提供され、グループ化単位が３である場合には本発明で例示する次の表（３）のようなＶＬＣテーブルがサイズコーディング部１３０に提供される。表（２）および表（３）でシンボルは４個ずつグループ化されたリファインメントビット列の絶対値であり、コードワードは前記シンボルがマッピングされる結果値である。

一方、コーディングしようとする入力リファインメントビットはグループ化部１１０に入力される。グループ化部１１０は入力されたリファインメントビットを選択部１２０から提供されたグループ化単位でグループ化する。そして、グループ化されたリファインメントビットの絶対値（１または０）はサイズコーディング部１３０に提供し、その符号（ｓｉｇｎ）（０を除いたリファインメントビットの符号）は符号コーディング部１５０に提供する。

テーブル保存部１４０はＶＬＣテーブルを保存し、選択部１２０で選択されたグループ化単位に対応されるＶＬＣテーブルをサイズコーディング部１３０に提供する。テーブル保存部１４０はロム（ＲＯＭ）、プログラマブルロム（ＰＲＯＭ）、消去可能ロム（ＥＰＲＯＭ）、電気的消去可能ロム（ＥＥＰＲＯＭ）、フラッシュメモリのような非揮発性メモリ素子またはラム（ＲＡＭ）のような揮発性メモリ素子、ハードディスクのような保存媒体、またはその他該当分野で知られている任意の他の形態で具現され得る。

サイズコーディング部１３０はテーブル保存部１４０から提供されるＶＬＣテーブルを参照し、グループ化部１１０から提供されるグループ化されたリファインメントビットの絶対値すなわち、シンボルをコードワードに変換する。

符号コーディング部１５０はグループ化部１１０から提供される符号を１ビットの符号コードでコーディングする。通常、前記符号コードは陽の符号の場合は０であり、陰の符号の場合は１である。

最後に、Ｍｕｘ（ｍｕｌｔｉｐｌｅｘｅｒ；３６０）はサイズコーディング部１３０から出力されるコードワードの集合と、符号コーディング部１５０から出力される符号コードの集合を多重化（ｍｕｌｔｉｐｌｅｘｉｎｇ）してビットストリームを生成する。

例えば、現在コーディングするリファインメントビットの集合が｛−１、０、１、１、０、０、１、−１｝とし、リファインメント係数エンコーディング過程を説明する。選択部１２０は単位領域のリファインメントビットのうち０が占める比率が所定の臨界値を越えない場合にはグループ化単位を３に選択する。この時、グループ化部１１０は前記リファインメントビットの集合を３個ずつグループ化し、その絶対値である１０１、１００、および１１０（１１の次に追加された０は単位を合わせるためのものである）はサイズコーディング部１３０に、その符号である｛−＋＋＋−｝は符号コーディング部１５０に提供する。

サイズコーディング部１３０はテーブル保存部１４０から前記表（３）のようなＶＬＣテーブルを提起され、これを参照して前記１０１、１００、および１１０を対応されるコードワードに変換する。変換した結果、サイズコーディング部１３０から出力されＭｕｘ１６０に入力される値は１０１１００１１０１となる。一方、符号コーディング部１５０は前記符号｛−＋＋＋−｝を１０００１に変換する。前記変換された１０００１に対して、ラン−レベル（ｒｕｎ−ｌｅｖｅｌ）コーディング方式を追加的に適用することも可能である。そうすれば、Ｍｕｘ１６０は前記１０１１００１１０１および前記１０００１を結合して出力する。

一方、選択部１２０は単位領域のリファインメントビットのうち０が占める比率が所定の臨界値を越える場合にはグループ化単位を４と選択する。この時、グループ化部１１０は前記リファインメントビットの集合を４個ずつグループ化して、その絶対値である１０１１、および００１１はサイズコーディング部１３０に、その符号である｛−＋＋＋−｝は符号コーディング部１５０に提供する。

サイズコーディング部１３０はテーブル保存部１４０から前記表（２）のようなＶＬＣテーブルを提起され、これを参照して前記１０１１および００１１を対応されるコードワードに変換する。変換した結果、サイズコーディング部１３０から出力されてＭｕｘ１６０に入力される値は１１１１０１１１０００となる。一方、符号コーディング部１５０は前記符号｛−＋＋＋−｝を１０００１に変換する。前記変換された１０００１に対してラン−レベル（ｒｕｎ−ｌｅｖｅｌ）コーディング方式を追加的に適用することも可能である。そうすれば、Ｍｕｘ１６０は前記１１１１０１１１０００および前記１０００１を結合して出力する。

図４は図３のリファインメント係数エンコーダ１００に対応されるリファインメント係数デコーダ２００の構成を図示するブロック図である。入力されたビットストリームはＤｅｍｕｘ（ｄｅｍｕｌｔｉｐｌｅｘｅｒ；４１０）によってコードワードの集合と、符号コードの集合に分離される。前記コードワードの集合はサイズデコーディング部２３０に前記符号コードの集合は符号デコーディング部２５０に各々提供される。

前記エンコーダ１００と同様に、選択部２２０は既復元された単位領域に含まれたリファインメントビットのうち０が占める比率を計算してそれが前記臨界値を越えるのかの可否にしたがって２個のグループ化単位のうち一つを選択する。もちろん、ここでも複数の臨界値を設定し、３個以上のグループ化単位のうち一つを選択することも可能である。

サイズデコーディング部２３０は前記選択されたグループ化単位に相応するＶＬＣテーブル表（２）または表（３）をテーブル保存部２４０から読み込んだ後、前記ＶＬＣテーブルのコードワードと同一な値が表れる時まで、前記コードワードの集合を構成するビットを追加的に読み込む。もし、読み込んだいかなる個数の前記ビットが前記選択されたＶＬＣテーブルに含まれたいかなるコードワードと一致すれば、前記一致したコードワードはそれに対応されるシンボルを復元する。

前記復元されたシンボルは符号デコーディング部２５０に提供される。符号デコーディング部２５０はＤｅｍｕｘ２１０から提供された符号コードを一つずつ読み込み、サイズデコーディング部２３０から提供されるシンボルのうち０ではない値（すなわち、１）に順に前記符号コードに値する符号を付与する。これで、前記ビットストリームから現在リファインメントビットが復元される。

例えば、デコーダ２００に入力されるビットストリームが１１１１０１１１０００１０００１であると仮定しよう。Ｄｅｍｕｘ２１０は前記ビットストリームで１１１１０１１１０００および１０００１を分離し、前者はサイズデコーディング部２３０に提供し、後者は符号デコーディング部２５０に提供する。一方、選択部２２０は既復元された単位領域のリファインメントビットのうち０の個数が臨界値を越えることを確認し、テーブル保存部２４０をして表（２）のＶＬＣテーブルをデコーディング部２３０に提供するようにする。

サイズデコーディング部２３０は前記１１１１０１１１０００を１ビットずつ読み込み、表（２）のコードワードのうち一致するコードワードがあるかを確認する。１１１１０までは一致するコードワードがないため、その次に１１１１０１を確認するが、このコードワードが前記表（２）に存在するため、これと対応されるシンボル１０１１を復元する。同様に残りビット１１０００から００１１を復元する。したがって、サイズデコーディング部２３０から出力されて符号デコーディング部２５０に入力される値は１０１１００１１である。

符号デコーディング部２５０は提供された１０００１に対応される符号である−＋＋＋−を復元した後、これを前記入力される１０１１００１１のうち０ではない値に付与する。その結果、最初にエンコーダ１００に入力されたリファインメントビットの集合である｛−１、０、１、１、０、０、１、−１｝が復元される。

以上では、リファインメント係数デコーダ２００においても前記エンコーダ１００と同様の過程を経て複数のグループ化単位のうち一つを選択することで説明した。ところで、ＦＧＳ階層はデコーダ２００に伝達される時、一部が切られて（ｔｒｕｎｃａｔｅｄ）伝送されることもあるため、現在ブロックが含まれる単位領域内の周辺特性を利用する場合、エンコーダとデコーダ間に互いに異なるグループ化単位が選択される可能性がなくもない。

したがって、本発明の他の実施形態において、リファインメント係数エンコーダ１００から選択されたグループ化単位をビットストリームに含み、リファインメント係数デコーダ２００に伝達する。前記グループ化単位は単位領域、すなわちフレーム、スライス、マクロブロック、またはブロック単位で選択されるが、あまりにも細かい単位でＶＬＣテーブルを選択する場合、伝送時オーバーヘッドが大きくなり得るため、前記単位領域はスライスまたはマクロブロックの程度が適当である。この場合前記選択されたＶＬＣテーブルを指示するトークンはスライスヘッダーまたはマクロブロックヘッダーに含まれて伝送され得る。

前記トークンが含まれたビットストリームを受信したリファインメント係数デコーダ２００は前記グループ化単位に該当するＶＬＣテーブルをテーブル保存部２４０から直ちに持って来ることができるため、選択部２２０は省略され得る。

図５は図３でのようなエントロピエンコーダが適用され得る多階層基盤のビデオエンコーダ１０００の構成を図示するブロック図である。

元来のビデオシーケンスは向上階層エンコーダ６００に入力され、同時にダウンサンプリング部５５０によってダウンサンプリング（階層間に解像度の変化がある場合に限る）された後、基礎階層エンコーダ５００に入力される。

予測部６１０は現在マクロブロックで所定の方法で予測されたイメージを差分することによって残差信号を求める。前記予測方法では方向的イントラ予測、インター予測、イントラベース予測、および残差予測などがある。

変換部６２０は前記求めた残差信号をＤＣＴ、ウェーブレット変換など空間的変換技法を利用して変換し、変換係数を生成する。

量子化部６３０は前記変換係数を所定の量子化ステップで量子化して（量子化ステップが大きいほどデータの損失ないし圧縮率が高い）量子化係数を生成する。

向上階層エンコーダ６００と同様に、基礎階層エンコーダ５００も同一な機能の予測部５１０、変換部５２０、および量子化部５３０を含む。ただし、予測部５１０はイントラベース予測や残差予測は使用することができないであろう。

エントロピエンコーダ６４０は前記量子化係数を無損失符号化して向上階層ビットストリームを出力し、同様にエントロピエンコーダ５４０は基礎階層ビットストリームを出力する。Ｍｕｘ６５０は向上階層ビットストリームと基礎階層ビットストリームを結合してビデオデコーダ段に伝送するビットストリームを生成する。

前記エントロピエンコーダ６４０は図３のリファインメント係数エンコーダ１００を含み得る。リファインメント係数エンコーダ１００として動作されるエントロピエンコーダ６４０は、ＦＧＳ階層の量子化係数中でも対応される離散階層の係数が０である係数、すなわちリファインメントビットを無損失符号化する。この時、エントロピエンコーダ６４０は量子化部６３０から単位領域に含まれるリファインメントビットを提起される。

図６は図４でのようなエントロピデコーダが適用され得る多階層基盤のビデオデコーダ（２０００）の構成を図示するブロック図である。

入力されるビットストリームはＤｅｍｕｘ８６０をとおし向上階層ビットストリームおよび基礎階層ビットストリームに分離され向上階層エンコーダ８００および基礎階層デコーダ７００に各々提供される。

エントロピデコーダ８１０はエントロピエンコーダ６４０と対応される方式で無損失復号化を遂行して量子化係数を復元する。

逆量子化部８２０は前記復元された量子化係数を量子化部６３０で使用された量子化ステップで逆量子化する。
逆変換部８３０は前記逆量子化された結果を逆ＤＣＴ変換、逆ウェーブレット変換などの逆空間的変換技法を使用して逆変換する。

逆例側部８４０は予測部６１０で求めた予測イメージを同一な方式で求め、前記求めた予測イメージを前記逆変換された結果と加算することによってビデオシーケンスを復元する。

向上階層デコーダ８００と同様に、基礎階層デコーダ７００も同一な機能のエントロピデコーダ７１０、逆量子化部７２０、逆変換部７３０、および逆予測部７４０を含む。

前記エントロピデコーダ８１０は図４のリファインメント係数デコーダ２００を含み得る。リファインメント係数デコーダ２００として動作されるエントロピデコーダ８１０は、ＦＧＳ階層の量子化係数中でも対応される離散階層の係数が０である係数、すなわちリファインメントビットを無損失符号化する。この時、エントロピデコーダ８１０は既エントロピデコーディングされた単位領域に含まれるリファインメントビットを利用する。

今まで図２ないし図６の各構成要素はメモリ上の所定領域で遂行されるタスク（ｔａｓｋ）、クラス（ｇｌａｓｓ）、サブルーチン（ｓｕｂ−ｒｏｕｔｉｎｅ）、プロセス（ｐｒｏｃｅｓｓ）、オブジェクト（ｏｂｊｅｃｔ）、実行スレッド（ｅｘｅｃｕｔｉｏｎｔｈｒｅａｄ）、プログラム（ｐｒｏｇｒａｍ）のようなソフトウェア（ｓｏｆｔｗａｒｅ）や、ＦＰＧＡ（ｆｉｅｌｄ−ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）やＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）のようなハードウェア（ｈａｒｄｗａｒｅ）で具現されることができ、また前記ソフトウェアおよびハードウェアの組合せで形成され得る。前記構成要素はコンピュータで判読可能な保存媒体に含まれることもあり、複数のコンピュータにその一部が分散されて分布され得る。

以上添付された図面を参照して本発明の実施形態を説明したが、本発明が属する技術分野で通常の知識を有する者は本発明がその技術的思想や必須の特性を変更せず、他の具体的な形態で実施され得ることを理解できるであろう。したがって以上で記述した実施形態はすべての面で例示的なものであり、限定的ではないものとして理解しなければならない。

前記した本発明の構成によれば、多階層基盤のビデオコーデックにおいてエントロピコーディングの性能を向上させることができる。これによって、与えられたビット内でより向上したビデオ画質を提供することができる。

単一ＶＬＣテーブルを使用する場合、０ではない係数の比率を各ＦＧＳ階層別に示す図である。量子化係数が一つの離散階層と少なくとも一つ以上のＦＧＳ階層で分離して表示される例を図示した図である。本発明の一実施形態によるリファインメント係数エンコーダの構成を図示したブロック図である。本発明の一実施形態によるリファインメント係数デコーダの構成を図示したブロック図である。図３のようなエントロピエンコーダが適用され得る多階層基盤のビデオエンコーダの構成を図示したブロック図である。図４のようなエントロピデコーダが適用され得る多階層基盤のビデオデコーダの構成を図示したブロック図である。

Claims

一つの離散階層と少なくとも一つ以上のＦＧＳ階層から成る係数のうち前記ＦＧＳ階層の第１係数を無損失符号化する可変長符号化方法において、
前記第１係数が属する所定の単位領域に含まれた０の比率を算出する段階と、
前記比率が所定の臨界値を越えるのかの可否にしたがって複数のグループ化単位のうち一つを選択する段階と、
前記第１係数の絶対値を前記選択されたグループ化単位でグループ化する段階、および
前記選択されたグループ化単位に相応するＶＬＣテーブルを参照し、前記グループ化された第１係数の絶対値をマッピングされるコードワードに変換する段階を含む前記方法。
前記第１係数と対応される前記離散階層の係数は０ではない請求項１に記載の前記方法。
前記第１係数は、
−１、０、または１のうちの一つの値を有する請求項２に記載の前記方法。
前記第１係数のうち０ではない係数の符号をコーディングする段階をさらに含む請求項１に記載の前記方法。
前記複数のグループ化単位の数は前記臨界値の個数に比べて１がより大きい請求項１に記載の前記方法。
前記変換されたコードワードから成るビットストリームに前記選択されたグループ化単位を挿入する段階をさらに含む請求項１に記載の前記方法。
前記単位領域は、
フレーム、スライス、マクロブロック、およびブロックのうち一つである請求項１に記載の前記方法。
前記複数のグループ化単位は３および４を含む請求項１に記載の前記方法。
入力されたビットストリームのうちＦＧＳ階層の第１ビットストリームを無損失復号化して、前記ＦＧＳ階層に対する第１係数を復元する可変長復号化方法において、
前記第１係数が属する所定の単位領域に含まれた既復元された第２係数のうち０の比率を算出する段階と、
前記比率が所定の臨界値を越えるのかの可否にしたがって複数のグループ化単位のうち一つを選択する段階、および
前記選択されたグループ化単位に相応するＶＬＣテーブルを参照し、前記第１ビットストリームに含まれたコードワードから前記第１係数を復元する段階を含む前記方法。
前記復元する段階は、
前記コードワードに対応される前記第１係数の絶対値を復元する段階、および
前記第１ビットストリームに含まれた符号コードから符号を復元し、前記復元された符号を前記第１係数の絶対値に付加することによって前記第１係数の符号を復元する段階を含む請求項９に記載の前記方法。
前記第１係数はリファインメントビットである請求項９に記載の前記方法。
前記第１係数は、
−１、０、または１のうち一つの値を有する請求項９に記載の前記方法。
前記複数のグループ化単位の数は前記臨界値の個数に比べて１だけ大きい請求項９に記載の前記方法。
前記単位領域は、
フレーム、スライス、マクロブロック、およびブロックのうち一つの請求項９に記載の前記方法。
入力されたビットストリームのうちＦＧＳ階層の第１ビットストリームを無損失復号化し、前記ＦＧＳ階層に対するリファインメントビットを復元する可変長復号化方法において、
前記第１ビットストリームに所定の単位領域ごとに挿入されているグループ化単位に関する情報を判読する段階と、
前記グループ化単位に相応するＶＬＣテーブルをローディングする段階、および
前記ローディングされたＶＬＣテーブルを参照し、前記第１ビットストリームに含まれたコードワードから前記第１係数を復元する段階を含む前記方法。
前記単位領域は、
フレーム、スライス、マクロブロック、およびブロックのうち一つの請求項１５に記載の前記方法。
一つの離散階層と少なくとも一つ以上のＦＧＳ階層から成る係数のうち前記ＦＧＳ階層の第１係数を無損失符号化する可変長符号化装置において、
前記第１係数が属する所定の単位領域に含まれた０の比率を算出する手段と、
前記比率が所定の臨界値を越えるのかの可否にしたがって複数のグループ化単位のうち一つを選択する手段と、
前記第１係数の絶対値を前記選択されたグループ化単位でグループ化する手段、および
前記選択されたグループ化単位に相応するＶＬＣテーブルを参照し、前記グループ化された第１係数の絶対値をマッピングされるコードワードに変換する手段を含む前記装置。
入力されたビットストリームのうちＦＧＳ階層の第１ビットストリームを無損失復号化して前記ＦＧＳ階層に対する第１係数を復元する可変長復号化装置において、
前記第１係数が属する所定の単位領域に含まれた既復元された第２係数のうち０の比率を算出する手段と、
前記比率が所定の臨界値を越えるのかの可否にしたがって複数のグループ化単位のうち一つを選択する手段、および
前記選択されたグループ化単位に相応するＶＬＣテーブルを参照し、前記第１ビットストリームに含まれたコードワードから前記第１係数を復元する手段を含む前記装置。