JP2004505520A - ウェーブレット分解を用いたビデオ符号化方法 - Google Patents
ウェーブレット分解を用いたビデオ符号化方法 Download PDFInfo
- Publication number
- JP2004505520A JP2004505520A JP2002515027A JP2002515027A JP2004505520A JP 2004505520 A JP2004505520 A JP 2004505520A JP 2002515027 A JP2002515027 A JP 2002515027A JP 2002515027 A JP2002515027 A JP 2002515027A JP 2004505520 A JP2004505520 A JP 2004505520A
- Authority
- JP
- Japan
- Prior art keywords
- pixels
- list
- context
- type
- lip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 230000002123 temporal effect Effects 0.000 claims description 17
- 238000000638 solvent extraction Methods 0.000 claims description 7
- 230000003750 conditioning effect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/62—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding by frequency transforming in three dimensions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/186—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/187—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/63—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/63—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
- H04N19/64—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by ordering of coefficients or of bits for transmission
- H04N19/647—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by ordering of coefficients or of bits for transmission using significance based coding, e.g. Embedded Zerotrees of Wavelets [EZW] or Set Partitioning in Hierarchical Trees [SPIHT]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Color Television Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
ビデオシーケンスをスケーラビリティの制約下で圧縮するために、ウェーブレット分解のスケールに亘る有意情報の欠如の予測に基づく公知の2D又は3DのSPIHTは、異なる解像度における同一画像に対応する画素の集合を有意水準と称される値と比較する。何れの場合も、変換係数は、有意な集合のリスト(LIS)、有意でない画素のリスト(LIP)及び有意な画素のリスト(LSP)の3つの順序リストで表わされる画素に関連する大きさのテストで順序付けられる。元のビデオシーケンスでは、画素の値はそれを囲む画素の値に依存する。dの先行ビットによって与えられるシンボルの確率の推定は、条件付け事象の数が増加するにつれ困難となる。本発明はビットストリームに寄与する情報ソースの作用の変化を反映する効率的なビデオ符号化方法を提供することを目的とし、即ち、有意性の各水準におけるリスト中の0及び1の発生の確率の推定のために、4つの文脈ツリーによって表わされる4つのモデルが考えられ、これらのモデルはLIS、LIP、LSPに対応し、輝度の係数のモデルとクロミナンスのモデルは識別される。
Description
【0001】
本発明は、連続する所定の数の解像度レベルを生じさせる3次元(3D)ウェーブレット変換によりフレーム群(groups of frames)へ分割されたビデオシーケンスを圧縮するための符号化方法に関連し、この方法は、ビデオシーケンスの元の画素集合から2値形式で符号化されたウェーブレット変換係数を生じさせる「集合分割階層ツリー(set partitioning in hierarchical trees:SPIHT)」と称される階層サブバンド符号化処理に基づく方法であり、ウェーブレット変換係数は、有意でない集合のリスト(LIS)、有意でない画素のリスト(LIP)及び有意な画素のリスト(LSP)と称される3つの順序付けリストによって表わされる画素を用いた大きさについてのテストによって、ツリーの形に編成され、各有意水準に対応する分割部分集合へ順序付けされ、テストは、夫々の有意な係数が2値表現で符号化されるまで続けられる分割処理によって元の画素集合を分割部分集合へ分割するために行われ、送信される出力ビットストリームにはサインビットも付される。
【0002】
従来のビデオ圧縮スキームは、4つの主なモジュール、即ち、動きの推定及び補償、係数の変換(例えば離散コサイン変換又はウェーブレット分解)、係数の定量化及び符号化、並びに、エントロピー符号化を含むと考えることができる。更に、ビデオ符号化器がスケーラブルでなくてはならない場合は、低いビットレートから高いビットレートへ、ビットレートと共にビデオの質を高めつつ、画像を符号化することが可能でなくてはならない。画像の階層的な表現を自然に与えることにより、ウェーブレット分解による変換は、従来の離散コサイン変換(DCT)と比較して、スケーラブルなスキームに良く適すると思われる。
【0003】
ウェーブレット分解により、元の入力信号が一組のサブバンド信号によって示されることが可能となる。実際に、各サブバンドは、所与の解像度で特定の周波数範囲内で元の信号を表わす。このような互いに関連しないサブバンドへの分解は、一般的には一組の単次元フィルタバンクを、まず現在画像のラインに適用し、次にフィルタ処理によって得られたカラムに適用することによって行われる。この例は、S.S.Gohによる”Displacements in wavelet decomposition of images”, Signal Processing, vol. 44, no 1, June 1995, pp. 27−38に記載されている。実際は、画像の低周波成分と高周波成分とを分割するために、2つのフィルタ、即ち低域通過フィルタと高域通過フィルタが用いられる。この操作は、まずラインに対して行われ、続いて2倍でサブサンプリング操作が行われ、続いてサブサンプリングされた画像のカラムに対して行われ、得られた画像は2倍でダウンサンプリングされる。このようにして、元の画像の4分の1の大きさの4つの画像が得られる。即ち、当該の元の画像の最初の内容の主な部分を含み当該画像を近似する画像を表わす1つの低周波数のサブ画像(又は「平滑化された画像」)と、当該元の画像の水平、垂直、及び斜めの細部のみを含む3つの高周波数のサブ画像とが得られる。この分解処理は、最後の平滑化された画像から更なる有用な情報が得られないことが明らかとなるまで続けられる。
【0004】
2次元(2D)ウェーブレット分解を用いた画像圧縮のための計算的に簡単な技術については、A. Said and W.A. Pearlmanによる”A new, fast and efficient image codec based on set partitioning in hierarchical trees (=SPIHT)”, IEEE Transactions on Circuits and Systems for Video Technology, vol. 6, no 3, June 1996, pp. 243−250)に記載されている。この文献に記載されているように、元の画像は、x及びyを画素座標とすると一組の画素値p(x,y)として定義され、階層サブバンド変換によって符号化され、これは以下の式(1)、
c(x,y)=Ω(p(x,y)) (1)
によって表わされ、式中、Ωは変換を表し、各要素c(x,y)は「画素座標(x,y)についての変換係数」と称される。
【0005】
すると、主な目的は、最初に送信されるべき最も重要な情報を選択することであるため、上記の変換係数をその大きさに従って順序付けすることとなる(大きさの大きい係数は大きな情報内容を有し、最初に送信されるか、少なくともその最上位ビットが最初に送信されるべきである)。順序情報が復号化器へ明示的に送信される場合、画素座標の比較的小さい部分が送信されるとすぐにかなり良い質の画像が復元されうる。順序情報が明示的に送信されない場合、符号化アルゴリズムの実行パスが分岐点における比較の結果によって定義され、同じソートアルゴリズムを有する復号化器は大きさの比較の結果を受信すれば符号化器の実行パスを再現できると考えられる。順序情報は、実行パスから復元されうる。
【0006】
上述のソートアルゴリズムの1つの重要な点は、全ての係数をソートする必要はなく、パス毎にnをデクリメントさせつつ、2n≦|cx,y|<2n+1の係数のみをソートすればよいことである。nが所与であり、|cx,y|≧2nであれば(2n=有意水準と称する)、係数は有意であるといい、そうでなければ有意でないという。ソートアルゴリズムは、画素の集合を分割部分集合Tmへ分割し、以下の大きさについてのテスト(2)、即ち、
【0007】
【数1】
を実行する。
【0008】
復号化器が「否定(no)」を受け取ると(当該の部分集合全体が有意でない)、この部分集合Tmに含まれる全ての係数が有意でないことがわかる。テストの結果が「肯定(yes)」であれば(部分集合が有意である)、符号化器と復号化器によって共用される所定の規則を用いてTmが新しい部分集合m,lへ分割され、更にこれらの新しい部分集合に対して有意性のテストが適用される。この集合分割処理は、夫々の有意な係数を同定し2値形式で符号化することを可能とするために、全ての単一座標の有意な部分集合に対して大きさのテストが行われるまで続く。
【0009】
送信される大きさの比較の数(即ちメッセージビット数)を減少させるため、サブバンドピラミッドによって定義される階層における期待順序を用いる集合分割規則を定義してもよい。これは、有意でないと期待される部分集合が多数の要素を含み、有意であると期待される部分集合が1つの要素のみを含むよう、新しい分割規則を作ることを目的とする。大きさの比較とメッセージビットとの間の関係を明らかとするため、座標の部分集合Tの有意性を示すために、以下の式、
【0010】
【数2】
が用いられる。
【0011】
更に、サブバンド間には空間的な自己相似性があることが知られており、空間的に同じ向きでピラミッドを1つ下に移動した場合に、係数は大きさによってより良く順序付けられると期待される。例えば、ピラミッドの最も高いレベルにおいて低いアクティビティの領域が同定されると期待されるとき、これらの低いアクティビティの領域は空間的に同じ位置でより低いレベルに複製される。空間的方向ツリーと称されるツリー構造は、ウェーブレット分解の階層ピラミッドに空間的な関係を定義する。図1は、反復的な4サブバンド分割を用いて構築されたピラミッドに、どのように空間的な方向ツリーが定義されるかを示す図である。ツリーの各ノードは、各ノードが子(葉)を全く有さないか4つの子を有し、常に2×2の隣接画素を形成するような、空間的に同じ向きの画素に対応する。図1中、矢印は親ノードからその子に向いている。ピラミッドの最も高いレベルにある画素は、ツリーの根であり、やはり2×2の隣接する画素としてまとめられる。しかしながら、子の分岐規則は異なり、各グループのうちの1つ(図1中は星印で示す)は全く子孫を有さない。
【0012】
以下の座標の集合は、この符号化方法を表わすために用いられ、(x,y)は係数の位置を表わし、即ち、
0(x,y):ノード(x,y)の全ての子の座標の集合;
D(x,y):ノード(x,y)の全ての子孫の座標の集合;
H:全ての空間的な方向ツリーの根(ピラミッドの最も高いレベルのノード)の座標の集合;
L(x,y)=D(x,y)−0(x,y)
である。
【0013】
上述のように、部分集合の有意性についてテストする順序が重要であり、実際上は、有意な情報は3つの順序付けリスト、即ち、有意でない集合のリスト(LIS)、有意でない画素のリスト(LIP)、有意な画素のリスト(LSP)として格納される。これらの全てのリストにおいて、各エントリは、座標(i,j)によって同定され、これらはLIP及びLSPの場合は個々の画素を表わし、LISの場合は集合D(i,j)又はL(i,j)を表わす(これらを区別するため、LISのエントリは、D(i,j)を表わす場合はタイプA、L(i,j)を表わす場合はタイプBであるとする)。SPIHTアルゴリズムは、実際に、3つのリストLIS、LIP、LSPの操作に基づく。
【0014】
2次元SPIHTアルゴリズムは、重要な概念に基づいており、即ち、自然画像に内在する自己相似性を用いることによってウェーブレット分解のスケールに亘って重要な情報の欠如を予測することに基づく。これは、ウェーブレット分解の最も低いスケールにおいて係数が有意でなければ、他のスケールにおいて同じ領域に対応する係数もまた有意でない可能性が高いことを意味する。基本的に、SPIHTアルゴリズムは、異なる解像度で同じ画像領域に対応する画素の集合を「有意水準」と称する値と比較する。
【0015】
3次元SPIHTアルゴリズムは、2次元SPIHTアルゴリズムとあまり異なるものではない。3次元ウェーブレット分解は、フレーム群(group of frames:GOF)に対して行われる。時間的な方向に沿って、動き補償及び時間的なフィルタリングが行われる。空間的な集合(2次元)の代わりに、3次元の空間的・時間的な集合があり、空間的・時間的に同じ向きを有し親・子関係で関連付けられる係数を有するツリーを定義することもできる。図2は、3次元の場合のこれらの関係を示す図である。ツリーの根は最も低い解像度(「根」サブバンド)における近似サブバンドの画素で形成される。3次元SPIHTアルゴリズムでは、葉以外の全てのサブバンドにおいて、各画素は8つの子画素を有し、互いに、各画素は1つの親のみを有する。この規則では1つの例外があり、根の場合は8つのうち1つの画素は子を有さない。
【0016】
2次元の場合と同様、空間的・時間的な方向ツリーは、階層的ウェーブレット分解についての空間的・時間的な関係を自然に定義し、以下の座標の組が用いられる。
【0017】
0(x,y,z,クロマ):ノードの全ての子(x,y,z,クロマ)の座標の集合;
D(x,y,z,クロマ):ノードの全ての子孫(x,y,z,クロマ)の座標の集合;
H(x,y,z,クロマ):全ての空間的・時間的な方向ツリーの根(ピラミッドの最も高いレベルのノード)の座標の集合;
L(x,y,z,クロマ):D(x,y,z,クロマ)−0(x,y,z,クロマ);
但し、(x,y,z)は座標の位置を表わし、「クロマ」はY,U又はVを示す。3つの順序リスト、即ち、LIS(有意でない集合のリスト)、LIP(有意でない画素のリスト)、LSP(有意な画素のリスト)もまた定義される。これら全てのリストにおいて、各エントリは座標(x,y,z,クロマ)で識別され、LIP及びLSPのときは個々の画素を表わし、LISのときはD(x,y,z,クロマ)集合又はL(x,y,z,クロマ)集合を表わす。これらを区別するために、LISエントリは、D(x,y,z,クロマ)を表わす場合はタイプA、L(x,y,z,クロマ)を表わす場合はタイプBであるとする。2次元の場合について上述したように、3次元SPIHTはこれらの3つのリストLIS、LIP及びLSPの操作に基づく。
【0018】
しかしながら、サブバンド間の冗長性を利用するSPIHTアルゴリズムは、各サブバンド内の近傍画素間の依存性を失わせてしまう。一組の論理条件によって行われるリストLIS、LIP、LSPの操作は、実際に、画素の順序の操作を殆ど予測可能でなくしてしまう。同じ3次元の子のツリーに属するが異なる空間的・時間的なサブバンドの画素は、符号化されリスト内で前後に配置され、それにより外部からのサブバンドの画素を混ぜる効果を有する。このように、同一のサブバンドの画素間の地理的な相互依存性は失われる。更に、空間的・時間的なサブバンドは時間的又は空間的なフィルタリングから生ずるため、フレームは細部の向きを与える特別な軸に沿ってフィルタリングされる。SPIHTアルゴリズムが適用される場合は、走査は地理的な順序に従わないため、この向き依存性は失われる。走査の順序を改善し同一のサブバンドの画素間に近傍の関係を再び確立するために、LISの特別な初期編成と子を読み取るための特定の順序とが提案されている。
【0019】
係数の地理的な走査を部分的に再び確立することを可能とし、本願の出願人によって2000年4月4日に出願された欧州特許出願第00400932.0号に記載された方法は、連続する所定の数の解像度レベルを生じさせる3次元(3D)ウェーブレット変換によりフレーム群(groups of frames)へ分割されたビデオシーケンスを圧縮するための符号化方法であって、方法は、ビデオシーケンスの元の画素集合から2値形式で符号化されたウェーブレット変換係数を生じさせる「集合分割階層ツリー(set partitioning in hierarchical trees:SPIHT)」と称される階層サブバンド符号化処理に基づく方法であり、ウェーブレット変換係数は、有意でない集合のリスト(LIS)、有意でない画素のリスト(LIP)及び有意な画素のリスト(LSP)と称される3つの順序付けリストによって表わされる画素を用いた大きさについてのテストによって、ツリーの形に編成され、各有意水準に対応する分割部分集合へ順序付けされ、テストは、夫々の有意な係数が2値表現で符号化されるまで続けられる分割処理によって元の画素集合を分割部分集合へ分割するために行われる符号化方法に関する。
【0020】
より正確には、上述の特許出願明細書に記載された方法は、以下の段階を有することを特徴とする。
【0021】
(A)3次元ウェーブレット変換から生ずる空間的・時間的近似サブバンドは、z=0及びz=1で示される時間的近似サブバンド中の2つのフレーム空間的近似サブバンドを含み、各画素はxについて0からsize_xまで、yについて0からsize_yまで変化する座標(x,y,z)を有し、リストLISは、z=0(mod2),x=0(mod2)及びy=0(mod2)の形の座標を有する係数以外は上記の空間的・時間的近似サブバンドの係数で初期化され、LISの初期化順序は、以下の通り、
(a)輝度成分Yについて、次にクロミナンス成分U及びVについて、x=0(mod.2)及びy=0(mod.2)及びz=1を確実とする全ての画素をリストに入れ、
(b)Yについて、次にU及びVについて、x=1(mod.2)及びy=0(mod.2)及びz=0を確実とする全ての画素をリストに入れ、
(c)Yについて、次にU及びVについて、x=1(mod.2)及びy=1(mod.2)及びz=0を確実とする全ての画素をリストに入れ、
(d)Yについて、次にU及びVについて、x=0(mod.2)及びy=1(mod.2)及びz=0を確実とする全ての画素をリストに入れる。
【0022】
(B)ウェーブレット分解の階層的サブバンドピラミッドにおける空間的・時間的な関係を定義する空間的・時間的な方向ツリーは、最も低い解像度レベルから最も高い解像度レベルへ近傍画素をまとめたままで細部の向きを考慮に入れつつ調べられ、この子係数を調べる処理は、4つの子の群について水平方向に次の群へ進むとき、4つの子の群のとき、また、最も低く微細な解像度レベルのときは、水平及び斜めの細部サブバンドの場合に係数の走査順序によって行われる。
【0023】
エントロピー符号化モジュールでは、算術符号化は、得られる符号長が最適な長さに非常に近く、方法が特に適応モデルに適し(ソースの統計的な値が進行中に推定され)、2つの独立のモジュール(モデル化モジュール及び符号化モジュール)へ分割されうるため、ビデオ圧縮を行う場合に、ハフマン符号化よりも有効であり広く用いられている技術である。以下の説明は、主に、モデル化に関連し、一定のソース・ストリング事象及びそれらの文脈を決定すること(文脈は当該のソース・ストリングの完全な集合の冗長性を得るためのものである)と、それらの関連する統計的な値を推定する方法とを含む。
【0024】
元のビデオシーケンスでは、画素の値は実際にそれを囲む画素の値に依存する。ウェーブレット分解の後、各時間的・空間的なサブバンドにおいて同じ性質の「幾何学的な」相互依存性が成り立つ。係数がそれらの依存性を維持するような順序で送られる場合、”A universal finite memory source”, by M.J. Weinberger and al., IEEE Transactions on Information Theory, vol. 41, no3, May 1995, pp. 634−652といった文献に記載されているように、囲まれたメモリツリーソースのユニバーサル符号化の枠組みにおいて「地理的」情報を有利に用いることが可能である。有限メモリツリーソースは、次のシンボルの確率が最も最近のシンボル(文脈)の有限数の実際の値に依存するという性質を有する。有限メモリツリーソースについての2値逐次ユニバーサルソース符号化手順は、各ストリング(文脈)について当該の文脈が与えられている場合のゼロと1の発生回数を含む文脈ツリーを用いることが多い。このツリーは、dの先行するビットが与えられている場合に、シンボルの確率を推定することを可能とし、これは、
【0025】
【数3】
で表わされ、但しxnは推定されたビットの値であり、xn−1...xn−dは文脈、即ちdのビットの先行するシーケンスを表わす。条件付け事象の数が増加した場合は、文脈希釈の問題又はモデルの費用により、推定は困難なタスクとなる。モデルの冗長性を減少させると共に適当な複雑性を維持してこの問題を解決する方法は、例えば”The context−tree weighting method: basic properties”, by F.M.J. Willems and al., IEEE Transactions on Information Theory, vol. 41, no3, May 1995, pp. 653−664に記載される文脈ツリー重み付け方法(context−tree weighting method:CTW)である。
【0026】
最終的な符号の長さを減少させるためのこの方法の原理は、調べたビットについて最も有効な文脈を用いて重み付けされた確率を推定することである(ビットを符号化するために短い文脈を用いるほうがよい場合がある。即ち、文脈の最後のビットが現在のビットに対して何らの影響も与えない場合はこれらを考慮に入れなくともよい)。ビットのソースシーケンスを
【0027】
【数4】
と表わし、符号化器と復号化器のいずれもが先行するdのシンボル
【0028】
【外1】
にアクセスしうると想定する場合、CTW方法は、2値シンボルの長さkのストリングを表わす文脈ツリーの各ノードsに対して、ツリーの葉から開始することによりノードの内在的な確率
【0029】
【外2】
に対してその2つの子で重み付けすることによって反復的に推定される重み付けされた確率
【0030】
【外3】
を関連付け、これは以下の式、
【0031】
【数5】
によって表わされる。このような重み付けされたモデルは、モデルの冗長性を最小限とすることが確かめられる。先行するシーケンス
【0032】
【外4】
によって与えられるシンボル0及び1の条件付き確率は、以下の式、
【0033】
【数6】
を用いて推定され、式中、n0及びn1は夫々、シーケンス
【0034】
【外5】
中の0及び1のカウントである。このCTW方法は、算術符号化モジュールによって必要とされる確率を推定するために使用される。
【0035】
本発明は、ビットストリームに寄与する情報ソースの作用の変化を反映するより効率的なビデオ符号化方法を提案することを目的とする。
【0036】
このために、本発明は、本願の冒頭の段落に記載される符号化方法であって、各有意水準においてリスト中のシンボル0及び1の発生の確率を推定するために、4つの文脈ツリーによって表わされるLIS、LIP、LSP、及びサインに対応する4つのモデルが考えられ、更に、U係数とV係数と区別することなく輝度係数のモデルとクロミナンス係数のモデルとが更に識別される符号化方法に関する。
【0037】
以下、添付の図面を参照して本発明について詳述する。SPIHTアルゴリズムを連続して実行する間、画素の座標は3つのリストLIS、LIP、LSPのうちの1つからそのうちの他のリストへ動かされ、有意なビットが出力される。サイン(sign)ビットもまた、係数のビットを送る前にビットストリームに入れられる。統計的な観点から、3つのリストの作用及びサインビットマップの作用はかなり異なる。例えばリストLIPは有意でない画素の集合を表わし、画素が有意でない画素によって囲まれる場合、その画素も有意でない可能性が高い。逆に、リストLSPについては、所与の有意水準において画素の近傍のリファインメントビットが1(又はゼロ)であれば、調べられた画素のリファインメントビットもまた1(又はゼロ)であると想定するのは難しい。各有意水準においてこれらのリストでのシンボル0及び1の発生の推定確率を調べると、上述の仮定が証明されることがわかる。このことから、サインに対して与えられる追加的な独立なモデルについて考えねばならない。ここで、確率の推定のために4つの文脈ツリーによって表わされLIS、LIP、LSP及びサインに対応する4つの異なるモデルがあり、即ち、
LIS→LIS_TYPE
LIP→LIP_TYPE
LSP→LSP_TYPE
SIGN→SIGN_TYPE
である。輝度の係数についてのモデルとクロミナンスの係数についてのモデルとの間で他の識別がされねばならないが、クロミナンスの係数間でU平面とV平面とは区別されないようにされねばならない。即ち、これらの2つの色平面に属する係数は、共通の統計的な性質を共有するため、確率を推定するために同じ文脈ツリーが使用される。また、別個のモデルが考えられる場合、確率を正しく推定するのに十分な値はないであろう(U及びVについてばらばらのモデルで行った実験は、より低い圧縮率を与える)。最終的に、8つの文脈ツリー(白黒ビデオでは4つのみである)が得られる。
【0038】
図3に示すように、異なるビット平面上でのシンボルの発生の確率を考える場合、それらの間の差が観察され、予備的な実験により各ビット平面においてモデルを再初期化することにより更に良い圧縮結果が得られ、これによりビット平面毎に1つのモデルについて考えることについて正当化される。しかしながら、共通の特性を共用する幾つかのビット平面に対して同じモデルを用いることで、計算上の複雑さが減少され、符号化方法のパフォーマンスが改善されうる。
【0039】
2×4のモデル(文脈ツリーによって表わされ条件付き確率を推定するために使用される)を識別すると、文脈(現在のものに先行し最も最近に読まれたdのビットの単純なシーケンスである)に対して少なくとも同じことを行なう必要がある。しかしながら、U係数及びV係数の文脈は、ここでは識別される。実際は、U画像とV画像が同じ統計的な作用を有する(従って、Y画像のものとは異なる同じ文脈ツリーを有する)という基本的な仮定がなされるが、各文脈はただ1つの色平面からのビットを含まねばならない。U係数とV係数に対して同じ文脈を使用することは、2つの異なる画像を混ぜる効果を有するが(同じシーケンスは、U画像とV画像に属する混合されたビットを含む)、これは回避できる。文脈に対する同じ識別は、各時間的サブバンドのフレームに対して行うことができる。これらは同一の統計的なモデルに従うと想定できる(この仮定はかなり強い仮定であるが、各時間的なサブバンドに対するモデル間の補足的な識別により、文脈ツリーの先行する集合を時間的なサブバンドの数で乗算することとなるため、膨大な記憶空間が必要となる)。
【0040】
従って、文脈の集合は、Y、U、V係数について、また、空間的・時間的な分解における各フレームについて識別される。実施のために、dのビットで形成されるこれらの文脈は、以下の構造に従って形成され、かかる構造は、
LIS、LIP、LSPから生ずる、又はサインビットマップから生ずるシンボルの種類;
色平面(Y又は、U又は、V);
時間的サブバンド中のフレーム、
である。これらの全ての要素の簡単な表現は、夫々の場合に最後のdのビットのシーケンスで埋められた3次元構造CONTEXTである。
【0041】
TYPEがLIP_TYPE、TIP_TYPE、TSP_TYPE又はSIGN_TYPEであり、クロマがY、U又はVのとき、CONTEXT[TYPE][クロマ][フレーム番号]。
【0042】
SPIHTアルゴリズムの実行が終了するたびに(有意水準を低下させる前であり、ビット平面の変化と共に)統計的モデルの変化を反映するために、文脈と文脈ツリーは再初期化され、これは各文脈ツリーについての確率のカウント及び文脈の配列の全てのエントリをゼロにリセットすることによって行われる。上述の変化を反映するために必要なこの段階は、実験によって確かめられており、即ち、実行が終了するたびに再初期化が行われた場合により良いレートが得られる。
【図面の簡単な説明】
【図1】
2次元の場合の空間な方向ツリーにおける親・子依存性の例を示す図である。
【図2】
3次元の場合の空間的・時間的な方向ツリーにおける親・子依存性の例を示す図である。
【図3】
例えば30のビデオシーケンスに対して推定を行った場合に各モデルのタイプについてビット平面レベルに従ったシンボル1の発生の確率を示す図である。
本発明は、連続する所定の数の解像度レベルを生じさせる3次元(3D)ウェーブレット変換によりフレーム群(groups of frames)へ分割されたビデオシーケンスを圧縮するための符号化方法に関連し、この方法は、ビデオシーケンスの元の画素集合から2値形式で符号化されたウェーブレット変換係数を生じさせる「集合分割階層ツリー(set partitioning in hierarchical trees:SPIHT)」と称される階層サブバンド符号化処理に基づく方法であり、ウェーブレット変換係数は、有意でない集合のリスト(LIS)、有意でない画素のリスト(LIP)及び有意な画素のリスト(LSP)と称される3つの順序付けリストによって表わされる画素を用いた大きさについてのテストによって、ツリーの形に編成され、各有意水準に対応する分割部分集合へ順序付けされ、テストは、夫々の有意な係数が2値表現で符号化されるまで続けられる分割処理によって元の画素集合を分割部分集合へ分割するために行われ、送信される出力ビットストリームにはサインビットも付される。
【0002】
従来のビデオ圧縮スキームは、4つの主なモジュール、即ち、動きの推定及び補償、係数の変換(例えば離散コサイン変換又はウェーブレット分解)、係数の定量化及び符号化、並びに、エントロピー符号化を含むと考えることができる。更に、ビデオ符号化器がスケーラブルでなくてはならない場合は、低いビットレートから高いビットレートへ、ビットレートと共にビデオの質を高めつつ、画像を符号化することが可能でなくてはならない。画像の階層的な表現を自然に与えることにより、ウェーブレット分解による変換は、従来の離散コサイン変換(DCT)と比較して、スケーラブルなスキームに良く適すると思われる。
【0003】
ウェーブレット分解により、元の入力信号が一組のサブバンド信号によって示されることが可能となる。実際に、各サブバンドは、所与の解像度で特定の周波数範囲内で元の信号を表わす。このような互いに関連しないサブバンドへの分解は、一般的には一組の単次元フィルタバンクを、まず現在画像のラインに適用し、次にフィルタ処理によって得られたカラムに適用することによって行われる。この例は、S.S.Gohによる”Displacements in wavelet decomposition of images”, Signal Processing, vol. 44, no 1, June 1995, pp. 27−38に記載されている。実際は、画像の低周波成分と高周波成分とを分割するために、2つのフィルタ、即ち低域通過フィルタと高域通過フィルタが用いられる。この操作は、まずラインに対して行われ、続いて2倍でサブサンプリング操作が行われ、続いてサブサンプリングされた画像のカラムに対して行われ、得られた画像は2倍でダウンサンプリングされる。このようにして、元の画像の4分の1の大きさの4つの画像が得られる。即ち、当該の元の画像の最初の内容の主な部分を含み当該画像を近似する画像を表わす1つの低周波数のサブ画像(又は「平滑化された画像」)と、当該元の画像の水平、垂直、及び斜めの細部のみを含む3つの高周波数のサブ画像とが得られる。この分解処理は、最後の平滑化された画像から更なる有用な情報が得られないことが明らかとなるまで続けられる。
【0004】
2次元(2D)ウェーブレット分解を用いた画像圧縮のための計算的に簡単な技術については、A. Said and W.A. Pearlmanによる”A new, fast and efficient image codec based on set partitioning in hierarchical trees (=SPIHT)”, IEEE Transactions on Circuits and Systems for Video Technology, vol. 6, no 3, June 1996, pp. 243−250)に記載されている。この文献に記載されているように、元の画像は、x及びyを画素座標とすると一組の画素値p(x,y)として定義され、階層サブバンド変換によって符号化され、これは以下の式(1)、
c(x,y)=Ω(p(x,y)) (1)
によって表わされ、式中、Ωは変換を表し、各要素c(x,y)は「画素座標(x,y)についての変換係数」と称される。
【0005】
すると、主な目的は、最初に送信されるべき最も重要な情報を選択することであるため、上記の変換係数をその大きさに従って順序付けすることとなる(大きさの大きい係数は大きな情報内容を有し、最初に送信されるか、少なくともその最上位ビットが最初に送信されるべきである)。順序情報が復号化器へ明示的に送信される場合、画素座標の比較的小さい部分が送信されるとすぐにかなり良い質の画像が復元されうる。順序情報が明示的に送信されない場合、符号化アルゴリズムの実行パスが分岐点における比較の結果によって定義され、同じソートアルゴリズムを有する復号化器は大きさの比較の結果を受信すれば符号化器の実行パスを再現できると考えられる。順序情報は、実行パスから復元されうる。
【0006】
上述のソートアルゴリズムの1つの重要な点は、全ての係数をソートする必要はなく、パス毎にnをデクリメントさせつつ、2n≦|cx,y|<2n+1の係数のみをソートすればよいことである。nが所与であり、|cx,y|≧2nであれば(2n=有意水準と称する)、係数は有意であるといい、そうでなければ有意でないという。ソートアルゴリズムは、画素の集合を分割部分集合Tmへ分割し、以下の大きさについてのテスト(2)、即ち、
【0007】
【数1】
を実行する。
【0008】
復号化器が「否定(no)」を受け取ると(当該の部分集合全体が有意でない)、この部分集合Tmに含まれる全ての係数が有意でないことがわかる。テストの結果が「肯定(yes)」であれば(部分集合が有意である)、符号化器と復号化器によって共用される所定の規則を用いてTmが新しい部分集合m,lへ分割され、更にこれらの新しい部分集合に対して有意性のテストが適用される。この集合分割処理は、夫々の有意な係数を同定し2値形式で符号化することを可能とするために、全ての単一座標の有意な部分集合に対して大きさのテストが行われるまで続く。
【0009】
送信される大きさの比較の数(即ちメッセージビット数)を減少させるため、サブバンドピラミッドによって定義される階層における期待順序を用いる集合分割規則を定義してもよい。これは、有意でないと期待される部分集合が多数の要素を含み、有意であると期待される部分集合が1つの要素のみを含むよう、新しい分割規則を作ることを目的とする。大きさの比較とメッセージビットとの間の関係を明らかとするため、座標の部分集合Tの有意性を示すために、以下の式、
【0010】
【数2】
が用いられる。
【0011】
更に、サブバンド間には空間的な自己相似性があることが知られており、空間的に同じ向きでピラミッドを1つ下に移動した場合に、係数は大きさによってより良く順序付けられると期待される。例えば、ピラミッドの最も高いレベルにおいて低いアクティビティの領域が同定されると期待されるとき、これらの低いアクティビティの領域は空間的に同じ位置でより低いレベルに複製される。空間的方向ツリーと称されるツリー構造は、ウェーブレット分解の階層ピラミッドに空間的な関係を定義する。図1は、反復的な4サブバンド分割を用いて構築されたピラミッドに、どのように空間的な方向ツリーが定義されるかを示す図である。ツリーの各ノードは、各ノードが子(葉)を全く有さないか4つの子を有し、常に2×2の隣接画素を形成するような、空間的に同じ向きの画素に対応する。図1中、矢印は親ノードからその子に向いている。ピラミッドの最も高いレベルにある画素は、ツリーの根であり、やはり2×2の隣接する画素としてまとめられる。しかしながら、子の分岐規則は異なり、各グループのうちの1つ(図1中は星印で示す)は全く子孫を有さない。
【0012】
以下の座標の集合は、この符号化方法を表わすために用いられ、(x,y)は係数の位置を表わし、即ち、
0(x,y):ノード(x,y)の全ての子の座標の集合;
D(x,y):ノード(x,y)の全ての子孫の座標の集合;
H:全ての空間的な方向ツリーの根(ピラミッドの最も高いレベルのノード)の座標の集合;
L(x,y)=D(x,y)−0(x,y)
である。
【0013】
上述のように、部分集合の有意性についてテストする順序が重要であり、実際上は、有意な情報は3つの順序付けリスト、即ち、有意でない集合のリスト(LIS)、有意でない画素のリスト(LIP)、有意な画素のリスト(LSP)として格納される。これらの全てのリストにおいて、各エントリは、座標(i,j)によって同定され、これらはLIP及びLSPの場合は個々の画素を表わし、LISの場合は集合D(i,j)又はL(i,j)を表わす(これらを区別するため、LISのエントリは、D(i,j)を表わす場合はタイプA、L(i,j)を表わす場合はタイプBであるとする)。SPIHTアルゴリズムは、実際に、3つのリストLIS、LIP、LSPの操作に基づく。
【0014】
2次元SPIHTアルゴリズムは、重要な概念に基づいており、即ち、自然画像に内在する自己相似性を用いることによってウェーブレット分解のスケールに亘って重要な情報の欠如を予測することに基づく。これは、ウェーブレット分解の最も低いスケールにおいて係数が有意でなければ、他のスケールにおいて同じ領域に対応する係数もまた有意でない可能性が高いことを意味する。基本的に、SPIHTアルゴリズムは、異なる解像度で同じ画像領域に対応する画素の集合を「有意水準」と称する値と比較する。
【0015】
3次元SPIHTアルゴリズムは、2次元SPIHTアルゴリズムとあまり異なるものではない。3次元ウェーブレット分解は、フレーム群(group of frames:GOF)に対して行われる。時間的な方向に沿って、動き補償及び時間的なフィルタリングが行われる。空間的な集合(2次元)の代わりに、3次元の空間的・時間的な集合があり、空間的・時間的に同じ向きを有し親・子関係で関連付けられる係数を有するツリーを定義することもできる。図2は、3次元の場合のこれらの関係を示す図である。ツリーの根は最も低い解像度(「根」サブバンド)における近似サブバンドの画素で形成される。3次元SPIHTアルゴリズムでは、葉以外の全てのサブバンドにおいて、各画素は8つの子画素を有し、互いに、各画素は1つの親のみを有する。この規則では1つの例外があり、根の場合は8つのうち1つの画素は子を有さない。
【0016】
2次元の場合と同様、空間的・時間的な方向ツリーは、階層的ウェーブレット分解についての空間的・時間的な関係を自然に定義し、以下の座標の組が用いられる。
【0017】
0(x,y,z,クロマ):ノードの全ての子(x,y,z,クロマ)の座標の集合;
D(x,y,z,クロマ):ノードの全ての子孫(x,y,z,クロマ)の座標の集合;
H(x,y,z,クロマ):全ての空間的・時間的な方向ツリーの根(ピラミッドの最も高いレベルのノード)の座標の集合;
L(x,y,z,クロマ):D(x,y,z,クロマ)−0(x,y,z,クロマ);
但し、(x,y,z)は座標の位置を表わし、「クロマ」はY,U又はVを示す。3つの順序リスト、即ち、LIS(有意でない集合のリスト)、LIP(有意でない画素のリスト)、LSP(有意な画素のリスト)もまた定義される。これら全てのリストにおいて、各エントリは座標(x,y,z,クロマ)で識別され、LIP及びLSPのときは個々の画素を表わし、LISのときはD(x,y,z,クロマ)集合又はL(x,y,z,クロマ)集合を表わす。これらを区別するために、LISエントリは、D(x,y,z,クロマ)を表わす場合はタイプA、L(x,y,z,クロマ)を表わす場合はタイプBであるとする。2次元の場合について上述したように、3次元SPIHTはこれらの3つのリストLIS、LIP及びLSPの操作に基づく。
【0018】
しかしながら、サブバンド間の冗長性を利用するSPIHTアルゴリズムは、各サブバンド内の近傍画素間の依存性を失わせてしまう。一組の論理条件によって行われるリストLIS、LIP、LSPの操作は、実際に、画素の順序の操作を殆ど予測可能でなくしてしまう。同じ3次元の子のツリーに属するが異なる空間的・時間的なサブバンドの画素は、符号化されリスト内で前後に配置され、それにより外部からのサブバンドの画素を混ぜる効果を有する。このように、同一のサブバンドの画素間の地理的な相互依存性は失われる。更に、空間的・時間的なサブバンドは時間的又は空間的なフィルタリングから生ずるため、フレームは細部の向きを与える特別な軸に沿ってフィルタリングされる。SPIHTアルゴリズムが適用される場合は、走査は地理的な順序に従わないため、この向き依存性は失われる。走査の順序を改善し同一のサブバンドの画素間に近傍の関係を再び確立するために、LISの特別な初期編成と子を読み取るための特定の順序とが提案されている。
【0019】
係数の地理的な走査を部分的に再び確立することを可能とし、本願の出願人によって2000年4月4日に出願された欧州特許出願第00400932.0号に記載された方法は、連続する所定の数の解像度レベルを生じさせる3次元(3D)ウェーブレット変換によりフレーム群(groups of frames)へ分割されたビデオシーケンスを圧縮するための符号化方法であって、方法は、ビデオシーケンスの元の画素集合から2値形式で符号化されたウェーブレット変換係数を生じさせる「集合分割階層ツリー(set partitioning in hierarchical trees:SPIHT)」と称される階層サブバンド符号化処理に基づく方法であり、ウェーブレット変換係数は、有意でない集合のリスト(LIS)、有意でない画素のリスト(LIP)及び有意な画素のリスト(LSP)と称される3つの順序付けリストによって表わされる画素を用いた大きさについてのテストによって、ツリーの形に編成され、各有意水準に対応する分割部分集合へ順序付けされ、テストは、夫々の有意な係数が2値表現で符号化されるまで続けられる分割処理によって元の画素集合を分割部分集合へ分割するために行われる符号化方法に関する。
【0020】
より正確には、上述の特許出願明細書に記載された方法は、以下の段階を有することを特徴とする。
【0021】
(A)3次元ウェーブレット変換から生ずる空間的・時間的近似サブバンドは、z=0及びz=1で示される時間的近似サブバンド中の2つのフレーム空間的近似サブバンドを含み、各画素はxについて0からsize_xまで、yについて0からsize_yまで変化する座標(x,y,z)を有し、リストLISは、z=0(mod2),x=0(mod2)及びy=0(mod2)の形の座標を有する係数以外は上記の空間的・時間的近似サブバンドの係数で初期化され、LISの初期化順序は、以下の通り、
(a)輝度成分Yについて、次にクロミナンス成分U及びVについて、x=0(mod.2)及びy=0(mod.2)及びz=1を確実とする全ての画素をリストに入れ、
(b)Yについて、次にU及びVについて、x=1(mod.2)及びy=0(mod.2)及びz=0を確実とする全ての画素をリストに入れ、
(c)Yについて、次にU及びVについて、x=1(mod.2)及びy=1(mod.2)及びz=0を確実とする全ての画素をリストに入れ、
(d)Yについて、次にU及びVについて、x=0(mod.2)及びy=1(mod.2)及びz=0を確実とする全ての画素をリストに入れる。
【0022】
(B)ウェーブレット分解の階層的サブバンドピラミッドにおける空間的・時間的な関係を定義する空間的・時間的な方向ツリーは、最も低い解像度レベルから最も高い解像度レベルへ近傍画素をまとめたままで細部の向きを考慮に入れつつ調べられ、この子係数を調べる処理は、4つの子の群について水平方向に次の群へ進むとき、4つの子の群のとき、また、最も低く微細な解像度レベルのときは、水平及び斜めの細部サブバンドの場合に係数の走査順序によって行われる。
【0023】
エントロピー符号化モジュールでは、算術符号化は、得られる符号長が最適な長さに非常に近く、方法が特に適応モデルに適し(ソースの統計的な値が進行中に推定され)、2つの独立のモジュール(モデル化モジュール及び符号化モジュール)へ分割されうるため、ビデオ圧縮を行う場合に、ハフマン符号化よりも有効であり広く用いられている技術である。以下の説明は、主に、モデル化に関連し、一定のソース・ストリング事象及びそれらの文脈を決定すること(文脈は当該のソース・ストリングの完全な集合の冗長性を得るためのものである)と、それらの関連する統計的な値を推定する方法とを含む。
【0024】
元のビデオシーケンスでは、画素の値は実際にそれを囲む画素の値に依存する。ウェーブレット分解の後、各時間的・空間的なサブバンドにおいて同じ性質の「幾何学的な」相互依存性が成り立つ。係数がそれらの依存性を維持するような順序で送られる場合、”A universal finite memory source”, by M.J. Weinberger and al., IEEE Transactions on Information Theory, vol. 41, no3, May 1995, pp. 634−652といった文献に記載されているように、囲まれたメモリツリーソースのユニバーサル符号化の枠組みにおいて「地理的」情報を有利に用いることが可能である。有限メモリツリーソースは、次のシンボルの確率が最も最近のシンボル(文脈)の有限数の実際の値に依存するという性質を有する。有限メモリツリーソースについての2値逐次ユニバーサルソース符号化手順は、各ストリング(文脈)について当該の文脈が与えられている場合のゼロと1の発生回数を含む文脈ツリーを用いることが多い。このツリーは、dの先行するビットが与えられている場合に、シンボルの確率を推定することを可能とし、これは、
【0025】
【数3】
で表わされ、但しxnは推定されたビットの値であり、xn−1...xn−dは文脈、即ちdのビットの先行するシーケンスを表わす。条件付け事象の数が増加した場合は、文脈希釈の問題又はモデルの費用により、推定は困難なタスクとなる。モデルの冗長性を減少させると共に適当な複雑性を維持してこの問題を解決する方法は、例えば”The context−tree weighting method: basic properties”, by F.M.J. Willems and al., IEEE Transactions on Information Theory, vol. 41, no3, May 1995, pp. 653−664に記載される文脈ツリー重み付け方法(context−tree weighting method:CTW)である。
【0026】
最終的な符号の長さを減少させるためのこの方法の原理は、調べたビットについて最も有効な文脈を用いて重み付けされた確率を推定することである(ビットを符号化するために短い文脈を用いるほうがよい場合がある。即ち、文脈の最後のビットが現在のビットに対して何らの影響も与えない場合はこれらを考慮に入れなくともよい)。ビットのソースシーケンスを
【0027】
【数4】
と表わし、符号化器と復号化器のいずれもが先行するdのシンボル
【0028】
【外1】
にアクセスしうると想定する場合、CTW方法は、2値シンボルの長さkのストリングを表わす文脈ツリーの各ノードsに対して、ツリーの葉から開始することによりノードの内在的な確率
【0029】
【外2】
に対してその2つの子で重み付けすることによって反復的に推定される重み付けされた確率
【0030】
【外3】
を関連付け、これは以下の式、
【0031】
【数5】
によって表わされる。このような重み付けされたモデルは、モデルの冗長性を最小限とすることが確かめられる。先行するシーケンス
【0032】
【外4】
によって与えられるシンボル0及び1の条件付き確率は、以下の式、
【0033】
【数6】
を用いて推定され、式中、n0及びn1は夫々、シーケンス
【0034】
【外5】
中の0及び1のカウントである。このCTW方法は、算術符号化モジュールによって必要とされる確率を推定するために使用される。
【0035】
本発明は、ビットストリームに寄与する情報ソースの作用の変化を反映するより効率的なビデオ符号化方法を提案することを目的とする。
【0036】
このために、本発明は、本願の冒頭の段落に記載される符号化方法であって、各有意水準においてリスト中のシンボル0及び1の発生の確率を推定するために、4つの文脈ツリーによって表わされるLIS、LIP、LSP、及びサインに対応する4つのモデルが考えられ、更に、U係数とV係数と区別することなく輝度係数のモデルとクロミナンス係数のモデルとが更に識別される符号化方法に関する。
【0037】
以下、添付の図面を参照して本発明について詳述する。SPIHTアルゴリズムを連続して実行する間、画素の座標は3つのリストLIS、LIP、LSPのうちの1つからそのうちの他のリストへ動かされ、有意なビットが出力される。サイン(sign)ビットもまた、係数のビットを送る前にビットストリームに入れられる。統計的な観点から、3つのリストの作用及びサインビットマップの作用はかなり異なる。例えばリストLIPは有意でない画素の集合を表わし、画素が有意でない画素によって囲まれる場合、その画素も有意でない可能性が高い。逆に、リストLSPについては、所与の有意水準において画素の近傍のリファインメントビットが1(又はゼロ)であれば、調べられた画素のリファインメントビットもまた1(又はゼロ)であると想定するのは難しい。各有意水準においてこれらのリストでのシンボル0及び1の発生の推定確率を調べると、上述の仮定が証明されることがわかる。このことから、サインに対して与えられる追加的な独立なモデルについて考えねばならない。ここで、確率の推定のために4つの文脈ツリーによって表わされLIS、LIP、LSP及びサインに対応する4つの異なるモデルがあり、即ち、
LIS→LIS_TYPE
LIP→LIP_TYPE
LSP→LSP_TYPE
SIGN→SIGN_TYPE
である。輝度の係数についてのモデルとクロミナンスの係数についてのモデルとの間で他の識別がされねばならないが、クロミナンスの係数間でU平面とV平面とは区別されないようにされねばならない。即ち、これらの2つの色平面に属する係数は、共通の統計的な性質を共有するため、確率を推定するために同じ文脈ツリーが使用される。また、別個のモデルが考えられる場合、確率を正しく推定するのに十分な値はないであろう(U及びVについてばらばらのモデルで行った実験は、より低い圧縮率を与える)。最終的に、8つの文脈ツリー(白黒ビデオでは4つのみである)が得られる。
【0038】
図3に示すように、異なるビット平面上でのシンボルの発生の確率を考える場合、それらの間の差が観察され、予備的な実験により各ビット平面においてモデルを再初期化することにより更に良い圧縮結果が得られ、これによりビット平面毎に1つのモデルについて考えることについて正当化される。しかしながら、共通の特性を共用する幾つかのビット平面に対して同じモデルを用いることで、計算上の複雑さが減少され、符号化方法のパフォーマンスが改善されうる。
【0039】
2×4のモデル(文脈ツリーによって表わされ条件付き確率を推定するために使用される)を識別すると、文脈(現在のものに先行し最も最近に読まれたdのビットの単純なシーケンスである)に対して少なくとも同じことを行なう必要がある。しかしながら、U係数及びV係数の文脈は、ここでは識別される。実際は、U画像とV画像が同じ統計的な作用を有する(従って、Y画像のものとは異なる同じ文脈ツリーを有する)という基本的な仮定がなされるが、各文脈はただ1つの色平面からのビットを含まねばならない。U係数とV係数に対して同じ文脈を使用することは、2つの異なる画像を混ぜる効果を有するが(同じシーケンスは、U画像とV画像に属する混合されたビットを含む)、これは回避できる。文脈に対する同じ識別は、各時間的サブバンドのフレームに対して行うことができる。これらは同一の統計的なモデルに従うと想定できる(この仮定はかなり強い仮定であるが、各時間的なサブバンドに対するモデル間の補足的な識別により、文脈ツリーの先行する集合を時間的なサブバンドの数で乗算することとなるため、膨大な記憶空間が必要となる)。
【0040】
従って、文脈の集合は、Y、U、V係数について、また、空間的・時間的な分解における各フレームについて識別される。実施のために、dのビットで形成されるこれらの文脈は、以下の構造に従って形成され、かかる構造は、
LIS、LIP、LSPから生ずる、又はサインビットマップから生ずるシンボルの種類;
色平面(Y又は、U又は、V);
時間的サブバンド中のフレーム、
である。これらの全ての要素の簡単な表現は、夫々の場合に最後のdのビットのシーケンスで埋められた3次元構造CONTEXTである。
【0041】
TYPEがLIP_TYPE、TIP_TYPE、TSP_TYPE又はSIGN_TYPEであり、クロマがY、U又はVのとき、CONTEXT[TYPE][クロマ][フレーム番号]。
【0042】
SPIHTアルゴリズムの実行が終了するたびに(有意水準を低下させる前であり、ビット平面の変化と共に)統計的モデルの変化を反映するために、文脈と文脈ツリーは再初期化され、これは各文脈ツリーについての確率のカウント及び文脈の配列の全てのエントリをゼロにリセットすることによって行われる。上述の変化を反映するために必要なこの段階は、実験によって確かめられており、即ち、実行が終了するたびに再初期化が行われた場合により良いレートが得られる。
【図面の簡単な説明】
【図1】
2次元の場合の空間な方向ツリーにおける親・子依存性の例を示す図である。
【図2】
3次元の場合の空間的・時間的な方向ツリーにおける親・子依存性の例を示す図である。
【図3】
例えば30のビデオシーケンスに対して推定を行った場合に各モデルのタイプについてビット平面レベルに従ったシンボル1の発生の確率を示す図である。
Claims (3)
- 連続する所定の数の解像度レベルを生じさせる3次元(3D)ウェーブレット変換によりフレーム群(groups of frames)へ分割されたビデオシーケンスを圧縮するための符号化方法であって、
上記方法は、上記ビデオシーケンスの元の画素集合から2値形式で符号化されたウェーブレット変換係数を生じさせる「集合分割階層ツリー(set partitioning in hierarchical trees:SPIHT)」と称される階層サブバンド符号化処理に基づくものであり、
上記ウェーブレット変換係数は、有意でない集合のリスト(LIS)、有意でない画素のリスト(LIP)及び有意な画素のリスト(LSP)と称される3つの順序付けリストによって表わされる画素を用いた大きさについてのテストによって、ツリーの形に編成され、各有意水準に対応する分割部分集合へ順序付けされ、
上記テストは、夫々の有意な係数が上記2値表現で符号化されるまで続けられる分割処理によって上記元の画素集合を上記分割部分集合へ分割するために行われ、
送信される出力ビットストリームにはサインビットも付され、
各有意水準において上記リスト中のシンボル0及び1の発生の確率を推定するために、4つの文脈ツリーによって表わされるLIS、LIP、LSP、及びサインに対応する4つのモデルが考えられ、更に、U係数とV係数と区別することなく輝度係数のモデルとクロミナンス係数のモデルとが更に識別される、符号化方法。 - 各ビットを符号化するために、現在ビットに先行するdのビットで形成され上記現在ビットについて考えられるモデルに従えば異なった文脈が用いられ、上記文脈は、U平面とV平面とを区別すると共に輝度係数とクロミナンス係数について識別され、また、空間的・時間的分解のときは各フレームについて識別され、これらの文脈は、色平面Y、U又はV上で、及び、時間的なサブバンド中のフレーム上で、LIS、LIP、LSPから生ずるシンボル又はサインビットマップから生ずるシンボルの種類に従った構造へとまとめられる、
請求項1記載の符号化方法。 - 上記文脈の表現は、夫々の場合に調べられたdの最後のビットのシーケンスで埋められた3次元構造CONTEXTであり、
CONTEXT[TYPE][クロマ][フレーム番号]
と表わされ、
種類を表わすTYPEは、LIP_TYPE、TIP_TYPE、TSP_TYPE又はSIGN_TYPEであり、
クロマは、Y、U又はVである、請求項2記載の符号化方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00402124 | 2000-07-25 | ||
PCT/EP2001/008343 WO2002009438A2 (en) | 2000-07-25 | 2001-07-18 | Video encoding method using a wavelet decomposition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004505520A true JP2004505520A (ja) | 2004-02-19 |
Family
ID=8173784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002515027A Pending JP2004505520A (ja) | 2000-07-25 | 2001-07-18 | ウェーブレット分解を用いたビデオ符号化方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20020064231A1 (ja) |
EP (1) | EP1305952A2 (ja) |
JP (1) | JP2004505520A (ja) |
KR (1) | KR20020064786A (ja) |
CN (1) | CN1197381C (ja) |
WO (1) | WO2002009438A2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007295503A (ja) * | 2006-04-26 | 2007-11-08 | Sios Technology Inc | 階層符号化方法を用いた画像圧縮方法及び画像圧縮装置 |
JP2009506606A (ja) * | 2005-08-26 | 2009-02-12 | エレクトロソニック リミティド | 画像データ処理方法 |
US9992252B2 (en) | 2015-09-29 | 2018-06-05 | Rgb Systems, Inc. | Method and apparatus for adaptively compressing streaming video |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1515561B1 (en) * | 2003-09-09 | 2007-11-21 | Mitsubishi Electric Information Technology Centre Europe B.V. | Method and apparatus for 3-D sub-band video coding |
JP2008507170A (ja) * | 2004-07-13 | 2008-03-06 | フランス テレコム エス アー | ビデオ画像配列の符号化方法および装置 |
CN1312933C (zh) * | 2004-10-28 | 2007-04-25 | 复旦大学 | 一种基于树状结构的视频图像压缩编码方法 |
US8760572B2 (en) * | 2009-11-19 | 2014-06-24 | Siemens Aktiengesellschaft | Method for exploiting structure in sparse domain for magnetic resonance image reconstruction |
KR101584480B1 (ko) | 2010-04-13 | 2016-01-14 | 지이 비디오 컴프레션, 엘엘씨 | 평면 간 예측 |
KR102166520B1 (ko) | 2010-04-13 | 2020-10-16 | 지이 비디오 컴프레션, 엘엘씨 | 샘플 영역 병합 |
ES2549734T3 (es) | 2010-04-13 | 2015-11-02 | Ge Video Compression, Llc | Codificación de vídeo que usa subdivisiones multi-árbol de imágenes |
CN106454371B (zh) | 2010-04-13 | 2020-03-20 | Ge视频压缩有限责任公司 | 解码器、数组重建方法、编码器、编码方法及存储介质 |
US20140294314A1 (en) * | 2013-04-02 | 2014-10-02 | Samsung Display Co., Ltd. | Hierarchical image and video codec |
EP3608876A1 (en) * | 2016-09-13 | 2020-02-12 | Dassault Systèmes | Compressing a signal that represents a physical attribute |
US10735736B2 (en) * | 2017-08-29 | 2020-08-04 | Google Llc | Selective mixing for entropy coding in video compression |
DE102018122297A1 (de) * | 2018-09-12 | 2020-03-12 | Arnold & Richter Cine Technik Gmbh & Co. Betriebs Kg | Verfahren zur Kompression und Dekompression von Bilddaten |
US11432018B2 (en) * | 2020-05-11 | 2022-08-30 | Tencent America LLC | Semi-decoupled partitioning for video coding |
CN113282776B (zh) * | 2021-07-12 | 2021-10-01 | 北京蔚领时代科技有限公司 | 用于图形引擎资源文件压缩的数据处理系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6674911B1 (en) * | 1995-09-14 | 2004-01-06 | William A. Pearlman | N-dimensional data compression using set partitioning in hierarchical trees |
EP0956701B1 (en) * | 1997-02-03 | 2005-11-23 | Sharp Kabushiki Kaisha | An embedded image coder with rate-distortion optimization |
US6671413B1 (en) * | 2000-01-24 | 2003-12-30 | William A. Pearlman | Embedded and efficient low-complexity hierarchical image coder and corresponding methods therefor |
-
2001
- 2001-07-18 WO PCT/EP2001/008343 patent/WO2002009438A2/en not_active Application Discontinuation
- 2001-07-18 CN CNB018028594A patent/CN1197381C/zh not_active Expired - Fee Related
- 2001-07-18 JP JP2002515027A patent/JP2004505520A/ja active Pending
- 2001-07-18 KR KR1020027003862A patent/KR20020064786A/ko not_active Application Discontinuation
- 2001-07-18 EP EP01969432A patent/EP1305952A2/en not_active Withdrawn
- 2001-07-24 US US09/912,130 patent/US20020064231A1/en not_active Abandoned
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009506606A (ja) * | 2005-08-26 | 2009-02-12 | エレクトロソニック リミティド | 画像データ処理方法 |
US9204170B2 (en) | 2005-08-26 | 2015-12-01 | Rgb Systems, Inc. | Method for image data processing utilizing multiple transform engines |
US9924199B2 (en) | 2005-08-26 | 2018-03-20 | Rgb Systems, Inc. | Method and apparatus for compressing image data using compression profiles |
US9930364B2 (en) | 2005-08-26 | 2018-03-27 | Rgb Systems, Inc. | Method and apparatus for encoding image data using wavelet signatures |
US10051288B2 (en) | 2005-08-26 | 2018-08-14 | Rgb Systems, Inc. | Method and apparatus for compressing image data using a tree structure |
US10244263B2 (en) | 2005-08-26 | 2019-03-26 | Rgb Systems, Inc. | Method and apparatus for packaging image data for transmission over a network |
JP2007295503A (ja) * | 2006-04-26 | 2007-11-08 | Sios Technology Inc | 階層符号化方法を用いた画像圧縮方法及び画像圧縮装置 |
US9992252B2 (en) | 2015-09-29 | 2018-06-05 | Rgb Systems, Inc. | Method and apparatus for adaptively compressing streaming video |
Also Published As
Publication number | Publication date |
---|---|
EP1305952A2 (en) | 2003-05-02 |
CN1428050A (zh) | 2003-07-02 |
US20020064231A1 (en) | 2002-05-30 |
CN1197381C (zh) | 2005-04-13 |
WO2002009438A2 (en) | 2002-01-31 |
WO2002009438A3 (en) | 2002-04-25 |
KR20020064786A (ko) | 2002-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6735342B2 (en) | Video encoding method using a wavelet transform | |
JP3970521B2 (ja) | 画像圧縮における埋込みクワッドツリーウェーブレット | |
US6597739B1 (en) | Three-dimensional shape-adaptive wavelet transform for efficient object-based video coding | |
JP2004505520A (ja) | ウェーブレット分解を用いたビデオ符号化方法 | |
US20010041015A1 (en) | System and method for encoding a video sequence using spatial and temporal transforms | |
US7302105B2 (en) | Moving image coding apparatus, moving image decoding apparatus, and methods therefor | |
JPH08506226A (ja) | 情報を圧縮するための装置及び方法 | |
JP2001346047A (ja) | 画像処理装置及び画像処理方法 | |
EP0905651A2 (en) | Image processing apparatus and method | |
US6795505B2 (en) | Encoding method for the compression of a video sequence | |
EP1285535B1 (en) | Encoding method for the compression of a video sequence | |
JP2002094991A (ja) | 関心領域符号化方法 | |
JP2005535155A (ja) | ビデオシーケンスの圧縮のための符号化方法 | |
JP4726040B2 (ja) | 符号化処理装置、復号処理装置、符号化処理方法、復号処理方法、プログラム及び情報記録媒体 | |
JPH11225075A (ja) | 符号化方法及び装置 | |
JP3990949B2 (ja) | 画像符号化装置及び画像符号化方法 | |
Jayanthi et al. | Multi Wavelet Based Image Compression for Tele-Medical Applications | |
JPH11103460A (ja) | 画像処理装置及び方法及び記憶媒体 | |
Wu et al. | Dilation-run wavelet image coding | |
JP2001285865A (ja) | 画像処理装置及びその方法、コンピュータ可読メモリ | |
JP2004056575A (ja) | 動画像符号化装置及び動画像復号装置並びにそれらの方法 | |
JP2007173940A (ja) | 画像処理装置及び画像処理システム |