JP3876227B2 - 任意の形状のオブジェクトのテクスチャに適用される前処理方法 - Google Patents
任意の形状のオブジェクトのテクスチャに適用される前処理方法 Download PDFInfo
- Publication number
- JP3876227B2 JP3876227B2 JP2002563705A JP2002563705A JP3876227B2 JP 3876227 B2 JP3876227 B2 JP 3876227B2 JP 2002563705 A JP2002563705 A JP 2002563705A JP 2002563705 A JP2002563705 A JP 2002563705A JP 3876227 B2 JP3876227 B2 JP 3876227B2
- Authority
- JP
- Japan
- Prior art keywords
- opaque
- pixels
- coefficient
- texture
- dct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/40—Filling a planar surface by adding surface attributes, e.g. colour or texture
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/649—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding the transform being applied to non rectangular image segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
- H04N19/21—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with binary alpha-plane coding for video objects, e.g. context-based arithmetic encoding [CAE]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、任意の形状のオブジェクトを表す画素(ピクセル)に対応する入力データを前処理する方法であって、前記入力データは各オブジェクトについて、前記オブジェクトの前記ピクセルの値に対応するテクスチャ部分と、前記入力データを前記テクスチャ部分内の完全に又は部分的に不透明なピクセルと透明なピクセルとにそれぞれ対応するデータの第1の及び第2のサブセットに細分するオブジェクトマスクとを有し、該前処理方法が、前記不透明なピクセルに対応するDCT(離散コサイン変換)係数を決定するために提供されており、各考慮されたオブジェクトに対して、
(1) オブジェクト平面を2次元のブロックに分割するステップと、
(2) 元のピクセル値の推定を基底ベクトルの線形結合として表すために選択された前記基底ベクトルの組を、前記ブロックによって規定される前記画面領域に導入するステップと、
(3) 前記ピクセル値の前記元の表現とこの元の表現の前記推定との間の歪みを測定する費用関数ψを規定するステップと、
(4) 前記費用関数ψを最小化することを可能にする前記係数を求めるステップと、
を有する方法に関する。
【0002】
任意の形状のテクスチャを効率的にエンコーディングすることを目的とする本発明は、特にMPEG-4規格との関連で役立つが、このような適用に制限されるものではない。
【0003】
【従来の技術】
1999年に発行されたMPEG-4規格は、自然の及び合成の画像中の視覚的オブジェクトを効率的にエンコードするための統一された手段を提案することを目的とされた。これらのオブジェクト(一般に幾つかの層でできており、これらの層は任意の形状のオブジェクトを含み得る)を処理しなければならないエンコーダに対して、これらのオブジェクトは2つの構成要素として供給される。これらは、バイナリであるか又はグレーレベルのピクセルから構成されていてよく、また、場面の構成のためにデコーダによって使用されるアルファチャンネル値を表すことができる、オブジェクトマスクと、テクスチャ部分、即ち、オブジェクトのピクセルの値(マスク中の白いピクセルは、テクスチャ部分の対応するピクセルは不透明であり、従って、そのピクセルの後ろにある如何なる他のオブジェクトのピクセルをも置換するものであるということを意味し、黒いピクセルは、テクスチャ部分の対応するピクセルは完全に透明である、即ち見えないということを意味する)とである。本発明は、特にテクスチャ部分のエンコーディング動作を対象とする。
【0004】
MPEG-4エンコーダにおいて動くテクスチャをエンコードするためには、従来の方法は、画像ブロックに対してDCT変換(離散コサイン変換)を使用することである。より正確に言うと、エンコードされるべき平面は、大きさ16x16ピクセルのマクロブロックに分割され、16x16輝度情報は、2次元の8x8 DCT変換によってエンコードされた4つの8x8ブロックに更に分割される(U及びVクロミナンス情報を含む2つの8x8ブロックに対して同じ2D変換が再び用いられる)。任意の形状のオブジェクトに対して、いかなる8x8ブロックも、次の3つのカテゴリに分類されることができる:即ち、ブロックが透明なピクセルのみを含む(このときテクスチャ情報をエンコードする必要はない)か、不透明なピクセルのみを含む(テクスチャ情報をエンコードするために標準の長方形の8x8 DCTが用いられる)か、又は、少なくとも不透明なピクセル及び透明なピクセルを含む。この第3の状況で解決されるべき問題は、この部分的なテクスチャ情報の、ビット消費に関して効率的なエンコーディングである。
【0005】
最初に、テクスチャ境界ピクセルを延長することによって空の空間が埋められた(不透明な領域の境界にある各サンプルは、透明な領域を置換するために左又は右の方向に水平に複製され、同じプロセスが垂直方向に繰り返され、得られたパディングピクセルは、デコーダがオブジェクトマスクを知っているため、デコーダによって後で除去される)後、テクスチャは、長方形のマクロブロックとして古典的にDCTエンコーディングされることができる。しかし、このパディング方法は、周波数スペクトルの観点からは最適ではない可能性のあるパターンを導入する(これらパターンは、水平方向に平坦であり垂直方向にランダムに変化している可能性があり、マクロブロックがDCTエンコーディングされるときにより多くのビットを消費する望まれない周波数成分を生じさせる)。
【0006】
MPEG-4規格において正規化される他の解法は、図1のパターン(説明として与えられる)をエンコードするように2つのステップで進行するいわゆる形状適応DCTである。図2に示すように、全ての不透明なピクセルは、最初に、エンコードされるべきブロック中の最も上の位置へ移動され、次に、適応1次元n-DCTが各列に適用される。ここでnは、前記列中の不透明なピクセルの数である(図2の例においては左から右の順で1、4、7、5、7で、垂直方向に1-DCTがそれぞれ適用される)。次に、得られた垂直DCT係数が同様に、ブロックの最も左の位置へ移動され、これは図3のパターンを与える。同様に1次元n-DCTが各行に適用される(nは考慮される列の不透明なピクセルの数である)。残念なことに、この方法は、(完全に不透明なブロックに用いられる古典的な8x8DCTアルゴリズムとは反対に)関連するMPEG-4デコーダに特別な機能を必要とし、移動動作は、空間的に分離されておりそのためほとんど相関のないピクセル又は係数を連結するので、一般に高周波を導入することになる。
【0007】
【発明が解決しようとする課題】
従って、本発明の目的は、このような望ましくない周波数を導入することを防止して、より良い符号化効率につながる前処理方法を提案することである。
【0008】
【課題を解決するための手段】
このために、本発明は、本説明の序言の部分に規定される方法において、
(a) 前記費用関数ψは、次の関係によって与えられ:
【数10】
ここでfは考慮されているブロックのピクセルの列ベクトルであり、((bi), i∈(1〜64))は8x8 DCTの基底ベクトルであり、fopaqueはfの前記ブロックの前記不透明なピクセルへの制限であり、((bopaque),i∈(1〜64))は、前記基底ベクトルの、前記ブロックの前記不透明なピクセルの位置への制限であり、
【数11】
はfopaqueの再構成と呼ばれる、ことと、
(b) 前記求めるステップ自身は、
- 以下のパラメータ、即ち、
繰返しパラメータk = 0と、
最初の推定fopaque E = 0と、
最初の再構成係数ci 0 = 0とを含むパラメータの初期化と、
- 前記不透明なピクセルに制限される前記基底ベクトルの抽出及び投射係数の以下のような算出と、
【数12】
(ここで{}は相互相関関数を表し、iは1から64まで変化し、(bopaque)は、前記制限された基底ベクトルである)
- 繰り返しであって、当該繰り返しの各々が、
[a] 前記費用関数を最小化するのに最も寄与する前記基底ベクトルの添え字i*を求めるサブステップと、
[b] 以下の関係に従ってfopaque Eの前記再構成を更新するサブステップと、
【数13】
[c] 再構成係数ci k+1 = ci k(i≠i*)及び
【数14】
並びに投射係数
【数15】
を更新するサブステップと、
を実行するように提供される繰返しと、
- 前記費用関数ψが所与の閾値を下回るか、又は所定の数の繰返しが到達された場合の、前記繰返しの中断と、
の動作を有することとを更に特徴とする方法に関する。
【0009】
【発明の実施の形態】
ここで本発明は、添付の図面を参照して例示により説明される。
【0010】
本発明による前処理方法は、MPEG-4規格に記載の既存のデコーダ構造を利用するために、古典的8x8 DCT変換に基づいているが、当該方法は、ゼロでない係数の数を最小化すると同時に、透明なピクセルに関係なく不透明なピクセルを最もよく再構成するDCT係数を計算することによってより良い符号化効率を提供する。前記方法は、J.H.Chang他による、「A projection onto the overcomplete basis approach for block loss recovery」、Proceedings ICIP-97, October 26-29, 1997, Santa Barbara, Calif., USA, vol.II, pp.93-96において説明される方法の適応である。この文書において説明されたこの提案された適応は、元々、破壊されたMPEG-4ビデオストリーム(このような場合、このようなストリーム中の小さなエラーですらも多数のブロックに伝播し、損傷した画像ブロックを識別して回復することが必要である)の失われた情報の隠蔽技術になるよう意図されたものであるが、基本的な考えは、オーバーコンプリート基準を導入して、層ブロックの推定を基底ベクトルの線形結合として表し、歪み測度を最小化するためにベースベクトルの投射係数を得ることにより、一連の損傷していない値から損傷していない元のピクセル値の推定を得ることである。以下の表記法により、
D =損傷したブロック
N =損傷していない前記ブロックの近傍
U = D及びNの結合(=より大きいブロック)
損傷していない近傍情報Nから、考慮されている損傷したブロックDを含むより大きいブロックUを推定することが、実際に提案されている。従って、f =(fi,j(i,j))∈Uが損傷していない元のピクセル値を示す場合(i,j∈Nのとき)、課題はfを推定することである。Nのピクセル値が既知であるので、fの推定fEの歪みの測度は予測されることができ、歪み測度は以下の二乗差として規定される:
【数16】
(b)l=(bi,j l)がUの基準であり、基底ベクトルの組が元のfを基底ベクトルの線形結合として表すよう選択されたら、ブロック間相関のため、また、何らかの関連した推定を考慮して、損傷したブロック及び該ブロックの近傍は類似したスペクトル特性を有する可能性が高い。それゆえに、投射係数:
【数17】
は元の係数の良い推定であり得るので、
【数18】
である。
従って、al’Sが、
【数19】
がfNの良い近似になるようなものであれば、
【数20】
はfUの良い推定になる(下付き文字N及びUはベクトルのドメインを表す)。
【0011】
このとき損傷したブロックを回復させる問題は、ψを最小化することを可能にするこれらの係数al'sを得ることであり、これは本明細書にて説明される反復アルゴリズムによって可能である。本発明の目的である前処理方法によれば、問題はここで修正された表記法及び考察によって再公式化される:
- このときfは、エンコードされるべきマクロブロックのピクセルの列ベクトルである;
- fopaqueは、前記マクロブロックの不透明なピクセルに対するfの制限である;
- Bは、8x8 DCT変換の基準式を表わす:B =(bi), i∈(1〜64);
- Bopaque =(bopaque(i)), i∈(1〜64)は、不透明なピクセルの位置に対するこれらの基底ベクトルの制限を示す。
前記問題は、このとき、最大数のゼロ係数を有する費用関
【数21】
を最小化することによって、最小平均自乗でfopaqueを再構成する係数(ci)の小さな組を求めることである。
【0012】
マクロブロックfが完全に不透明な場合、全てのピクセルを再構成することができるDCT係数の固有の組合せが存在するだろう(これは、長方形の8x8 DCTである)。しかし、fの特定の部分の再構成が求められているのみであれば、同じ不透明なピクセルを含むブロックを再構成することができる無限のDCT係数が存在する。実際は、正しいDCT係数(係数の最も小さな組)の決定は明確でない。なぜなら、不透明なピクセルの位置に制限されると、DCT変換の基底関数はもはや正規直交でないからである。費用関数ψを最小化する係数を得るために、最大のエネルギーを有する投射係数を順に検索する以下の反復的なアルゴリズムが、ここで提案される(図4に表される):即ち、
(1) 第1のステップ(初期化INIT)と:
k = 0(繰返しの数)
fopaque E = 0(fopaqueの最初の推定)
ci 0 = 0(最初の再構成係数)
(2) 投射係数
【数22】
が計算され、ここで{}は相互相関関数を表し、iは1から64まで変化し、(bopaq ue(i))は不透明ピクセルに限定された抽出された8x8DCT(形状マスクMにより区切られる、テクスチャを有するピクセルPWT)である、第2のステップ(抽出副ステップEXTR及び算出副ステップCALC)と、
(3) 推定についてのk回繰返しであって、各繰返し(例えばk番目の繰り返し)自身は、
(a) 残余の最大のエネルギーを得る基底ベクトルの添え字i*を求めるステップ(サブステップFIND)と、
【数23】
(b) fopaque Eの再構成を以下の関係に従って更新するステップ(サブステップUPDA中)と、
【数24】
(c) 再構成係数
【数25】
及び
【数26】
を更新するステップ(サブステップUPDA中)と、
(d) 以下の残留の投射係数を更新するステップ(サブステップUPDA中)と、
【数27】
を有する第3のステップと、
(4) 反復的なアルゴリズムの中断試験又はサブステップTESTであって、残留が所与の閾値ε:
【数28】
より下の場合、又は、所定の数の繰返しkmaxが到達された場合、反復プロセスは停止する(試験に対する応答YES)一方、これらの条件のいずれも満たされない限り、第3のステップ(3)の繰り返しにより反復プロセスは続く(試験に対する応答NO)第4のステップとを有するアルゴリズムである。アルゴリズムの実行の終わりには、ci kは任意の形状の不透明なピクセルを製作する8x8 DCT係数である。
【0013】
このとき、このように説明された前処理方法に、テクスチャエンコーディングのために一般に提供される通常の動作が続いてもよい:即ち、量子化、(必要ならば)該係数のエントロピーを更に低減するための個々の係数予測、スキャニング及び従来のMPEG符号化方策において完全に不透明なブロックのDCT係数のために提供されるような係数の可変長エンコーディングである。本発明はMPEG-4規格の特定の例との関連で説明されたが、本発明はこれに限定又は制限されることを意図されるものではないということが理解されるであろう。本発明は、得られた出力ビットストリームにこのとき使用されるいかなる特定の符号化方策にも限定されるものではない。
【図面の簡単な説明】
【図1】 任意の形状のオブジェクトのテクスチャピクセルをエンコードするために用いる従来技術の方法(形状適応DCT)を示す。
【図2】 任意の形状のオブジェクトのテクスチャピクセルをエンコードするために用いる従来技術の方法(形状適応DCT)を示す。
【図3】 任意の形状のオブジェクトのテクスチャピクセルをエンコードするために用いる従来技術の方法(形状適応DCT)を示す。
【図4】 本発明による前処理方法の主要なステップを与えるフローチャートを示す。
【発明の属する技術分野】
本発明は、任意の形状のオブジェクトを表す画素(ピクセル)に対応する入力データを前処理する方法であって、前記入力データは各オブジェクトについて、前記オブジェクトの前記ピクセルの値に対応するテクスチャ部分と、前記入力データを前記テクスチャ部分内の完全に又は部分的に不透明なピクセルと透明なピクセルとにそれぞれ対応するデータの第1の及び第2のサブセットに細分するオブジェクトマスクとを有し、該前処理方法が、前記不透明なピクセルに対応するDCT(離散コサイン変換)係数を決定するために提供されており、各考慮されたオブジェクトに対して、
(1) オブジェクト平面を2次元のブロックに分割するステップと、
(2) 元のピクセル値の推定を基底ベクトルの線形結合として表すために選択された前記基底ベクトルの組を、前記ブロックによって規定される前記画面領域に導入するステップと、
(3) 前記ピクセル値の前記元の表現とこの元の表現の前記推定との間の歪みを測定する費用関数ψを規定するステップと、
(4) 前記費用関数ψを最小化することを可能にする前記係数を求めるステップと、
を有する方法に関する。
【0002】
任意の形状のテクスチャを効率的にエンコーディングすることを目的とする本発明は、特にMPEG-4規格との関連で役立つが、このような適用に制限されるものではない。
【0003】
【従来の技術】
1999年に発行されたMPEG-4規格は、自然の及び合成の画像中の視覚的オブジェクトを効率的にエンコードするための統一された手段を提案することを目的とされた。これらのオブジェクト(一般に幾つかの層でできており、これらの層は任意の形状のオブジェクトを含み得る)を処理しなければならないエンコーダに対して、これらのオブジェクトは2つの構成要素として供給される。これらは、バイナリであるか又はグレーレベルのピクセルから構成されていてよく、また、場面の構成のためにデコーダによって使用されるアルファチャンネル値を表すことができる、オブジェクトマスクと、テクスチャ部分、即ち、オブジェクトのピクセルの値(マスク中の白いピクセルは、テクスチャ部分の対応するピクセルは不透明であり、従って、そのピクセルの後ろにある如何なる他のオブジェクトのピクセルをも置換するものであるということを意味し、黒いピクセルは、テクスチャ部分の対応するピクセルは完全に透明である、即ち見えないということを意味する)とである。本発明は、特にテクスチャ部分のエンコーディング動作を対象とする。
【0004】
MPEG-4エンコーダにおいて動くテクスチャをエンコードするためには、従来の方法は、画像ブロックに対してDCT変換(離散コサイン変換)を使用することである。より正確に言うと、エンコードされるべき平面は、大きさ16x16ピクセルのマクロブロックに分割され、16x16輝度情報は、2次元の8x8 DCT変換によってエンコードされた4つの8x8ブロックに更に分割される(U及びVクロミナンス情報を含む2つの8x8ブロックに対して同じ2D変換が再び用いられる)。任意の形状のオブジェクトに対して、いかなる8x8ブロックも、次の3つのカテゴリに分類されることができる:即ち、ブロックが透明なピクセルのみを含む(このときテクスチャ情報をエンコードする必要はない)か、不透明なピクセルのみを含む(テクスチャ情報をエンコードするために標準の長方形の8x8 DCTが用いられる)か、又は、少なくとも不透明なピクセル及び透明なピクセルを含む。この第3の状況で解決されるべき問題は、この部分的なテクスチャ情報の、ビット消費に関して効率的なエンコーディングである。
【0005】
最初に、テクスチャ境界ピクセルを延長することによって空の空間が埋められた(不透明な領域の境界にある各サンプルは、透明な領域を置換するために左又は右の方向に水平に複製され、同じプロセスが垂直方向に繰り返され、得られたパディングピクセルは、デコーダがオブジェクトマスクを知っているため、デコーダによって後で除去される)後、テクスチャは、長方形のマクロブロックとして古典的にDCTエンコーディングされることができる。しかし、このパディング方法は、周波数スペクトルの観点からは最適ではない可能性のあるパターンを導入する(これらパターンは、水平方向に平坦であり垂直方向にランダムに変化している可能性があり、マクロブロックがDCTエンコーディングされるときにより多くのビットを消費する望まれない周波数成分を生じさせる)。
【0006】
MPEG-4規格において正規化される他の解法は、図1のパターン(説明として与えられる)をエンコードするように2つのステップで進行するいわゆる形状適応DCTである。図2に示すように、全ての不透明なピクセルは、最初に、エンコードされるべきブロック中の最も上の位置へ移動され、次に、適応1次元n-DCTが各列に適用される。ここでnは、前記列中の不透明なピクセルの数である(図2の例においては左から右の順で1、4、7、5、7で、垂直方向に1-DCTがそれぞれ適用される)。次に、得られた垂直DCT係数が同様に、ブロックの最も左の位置へ移動され、これは図3のパターンを与える。同様に1次元n-DCTが各行に適用される(nは考慮される列の不透明なピクセルの数である)。残念なことに、この方法は、(完全に不透明なブロックに用いられる古典的な8x8DCTアルゴリズムとは反対に)関連するMPEG-4デコーダに特別な機能を必要とし、移動動作は、空間的に分離されておりそのためほとんど相関のないピクセル又は係数を連結するので、一般に高周波を導入することになる。
【0007】
【発明が解決しようとする課題】
従って、本発明の目的は、このような望ましくない周波数を導入することを防止して、より良い符号化効率につながる前処理方法を提案することである。
【0008】
【課題を解決するための手段】
このために、本発明は、本説明の序言の部分に規定される方法において、
(a) 前記費用関数ψは、次の関係によって与えられ:
【数10】
ここでfは考慮されているブロックのピクセルの列ベクトルであり、((bi), i∈(1〜64))は8x8 DCTの基底ベクトルであり、fopaqueはfの前記ブロックの前記不透明なピクセルへの制限であり、((bopaque),i∈(1〜64))は、前記基底ベクトルの、前記ブロックの前記不透明なピクセルの位置への制限であり、
【数11】
はfopaqueの再構成と呼ばれる、ことと、
(b) 前記求めるステップ自身は、
- 以下のパラメータ、即ち、
繰返しパラメータk = 0と、
最初の推定fopaque E = 0と、
最初の再構成係数ci 0 = 0とを含むパラメータの初期化と、
- 前記不透明なピクセルに制限される前記基底ベクトルの抽出及び投射係数の以下のような算出と、
【数12】
(ここで{}は相互相関関数を表し、iは1から64まで変化し、(bopaque)は、前記制限された基底ベクトルである)
- 繰り返しであって、当該繰り返しの各々が、
[a] 前記費用関数を最小化するのに最も寄与する前記基底ベクトルの添え字i*を求めるサブステップと、
[b] 以下の関係に従ってfopaque Eの前記再構成を更新するサブステップと、
【数13】
[c] 再構成係数ci k+1 = ci k(i≠i*)及び
【数14】
並びに投射係数
【数15】
を更新するサブステップと、
を実行するように提供される繰返しと、
- 前記費用関数ψが所与の閾値を下回るか、又は所定の数の繰返しが到達された場合の、前記繰返しの中断と、
の動作を有することとを更に特徴とする方法に関する。
【0009】
【発明の実施の形態】
ここで本発明は、添付の図面を参照して例示により説明される。
【0010】
本発明による前処理方法は、MPEG-4規格に記載の既存のデコーダ構造を利用するために、古典的8x8 DCT変換に基づいているが、当該方法は、ゼロでない係数の数を最小化すると同時に、透明なピクセルに関係なく不透明なピクセルを最もよく再構成するDCT係数を計算することによってより良い符号化効率を提供する。前記方法は、J.H.Chang他による、「A projection onto the overcomplete basis approach for block loss recovery」、Proceedings ICIP-97, October 26-29, 1997, Santa Barbara, Calif., USA, vol.II, pp.93-96において説明される方法の適応である。この文書において説明されたこの提案された適応は、元々、破壊されたMPEG-4ビデオストリーム(このような場合、このようなストリーム中の小さなエラーですらも多数のブロックに伝播し、損傷した画像ブロックを識別して回復することが必要である)の失われた情報の隠蔽技術になるよう意図されたものであるが、基本的な考えは、オーバーコンプリート基準を導入して、層ブロックの推定を基底ベクトルの線形結合として表し、歪み測度を最小化するためにベースベクトルの投射係数を得ることにより、一連の損傷していない値から損傷していない元のピクセル値の推定を得ることである。以下の表記法により、
D =損傷したブロック
N =損傷していない前記ブロックの近傍
U = D及びNの結合(=より大きいブロック)
損傷していない近傍情報Nから、考慮されている損傷したブロックDを含むより大きいブロックUを推定することが、実際に提案されている。従って、f =(fi,j(i,j))∈Uが損傷していない元のピクセル値を示す場合(i,j∈Nのとき)、課題はfを推定することである。Nのピクセル値が既知であるので、fの推定fEの歪みの測度は予測されることができ、歪み測度は以下の二乗差として規定される:
【数16】
(b)l=(bi,j l)がUの基準であり、基底ベクトルの組が元のfを基底ベクトルの線形結合として表すよう選択されたら、ブロック間相関のため、また、何らかの関連した推定を考慮して、損傷したブロック及び該ブロックの近傍は類似したスペクトル特性を有する可能性が高い。それゆえに、投射係数:
【数17】
は元の係数の良い推定であり得るので、
【数18】
である。
従って、al’Sが、
【数19】
がfNの良い近似になるようなものであれば、
【数20】
はfUの良い推定になる(下付き文字N及びUはベクトルのドメインを表す)。
【0011】
このとき損傷したブロックを回復させる問題は、ψを最小化することを可能にするこれらの係数al'sを得ることであり、これは本明細書にて説明される反復アルゴリズムによって可能である。本発明の目的である前処理方法によれば、問題はここで修正された表記法及び考察によって再公式化される:
- このときfは、エンコードされるべきマクロブロックのピクセルの列ベクトルである;
- fopaqueは、前記マクロブロックの不透明なピクセルに対するfの制限である;
- Bは、8x8 DCT変換の基準式を表わす:B =(bi), i∈(1〜64);
- Bopaque =(bopaque(i)), i∈(1〜64)は、不透明なピクセルの位置に対するこれらの基底ベクトルの制限を示す。
前記問題は、このとき、最大数のゼロ係数を有する費用関
【数21】
を最小化することによって、最小平均自乗でfopaqueを再構成する係数(ci)の小さな組を求めることである。
【0012】
マクロブロックfが完全に不透明な場合、全てのピクセルを再構成することができるDCT係数の固有の組合せが存在するだろう(これは、長方形の8x8 DCTである)。しかし、fの特定の部分の再構成が求められているのみであれば、同じ不透明なピクセルを含むブロックを再構成することができる無限のDCT係数が存在する。実際は、正しいDCT係数(係数の最も小さな組)の決定は明確でない。なぜなら、不透明なピクセルの位置に制限されると、DCT変換の基底関数はもはや正規直交でないからである。費用関数ψを最小化する係数を得るために、最大のエネルギーを有する投射係数を順に検索する以下の反復的なアルゴリズムが、ここで提案される(図4に表される):即ち、
(1) 第1のステップ(初期化INIT)と:
k = 0(繰返しの数)
fopaque E = 0(fopaqueの最初の推定)
ci 0 = 0(最初の再構成係数)
(2) 投射係数
【数22】
が計算され、ここで{}は相互相関関数を表し、iは1から64まで変化し、(bopaq ue(i))は不透明ピクセルに限定された抽出された8x8DCT(形状マスクMにより区切られる、テクスチャを有するピクセルPWT)である、第2のステップ(抽出副ステップEXTR及び算出副ステップCALC)と、
(3) 推定についてのk回繰返しであって、各繰返し(例えばk番目の繰り返し)自身は、
(a) 残余の最大のエネルギーを得る基底ベクトルの添え字i*を求めるステップ(サブステップFIND)と、
【数23】
(b) fopaque Eの再構成を以下の関係に従って更新するステップ(サブステップUPDA中)と、
【数24】
(c) 再構成係数
【数25】
及び
【数26】
を更新するステップ(サブステップUPDA中)と、
(d) 以下の残留の投射係数を更新するステップ(サブステップUPDA中)と、
【数27】
を有する第3のステップと、
(4) 反復的なアルゴリズムの中断試験又はサブステップTESTであって、残留が所与の閾値ε:
【数28】
より下の場合、又は、所定の数の繰返しkmaxが到達された場合、反復プロセスは停止する(試験に対する応答YES)一方、これらの条件のいずれも満たされない限り、第3のステップ(3)の繰り返しにより反復プロセスは続く(試験に対する応答NO)第4のステップとを有するアルゴリズムである。アルゴリズムの実行の終わりには、ci kは任意の形状の不透明なピクセルを製作する8x8 DCT係数である。
【0013】
このとき、このように説明された前処理方法に、テクスチャエンコーディングのために一般に提供される通常の動作が続いてもよい:即ち、量子化、(必要ならば)該係数のエントロピーを更に低減するための個々の係数予測、スキャニング及び従来のMPEG符号化方策において完全に不透明なブロックのDCT係数のために提供されるような係数の可変長エンコーディングである。本発明はMPEG-4規格の特定の例との関連で説明されたが、本発明はこれに限定又は制限されることを意図されるものではないということが理解されるであろう。本発明は、得られた出力ビットストリームにこのとき使用されるいかなる特定の符号化方策にも限定されるものではない。
【図面の簡単な説明】
【図1】 任意の形状のオブジェクトのテクスチャピクセルをエンコードするために用いる従来技術の方法(形状適応DCT)を示す。
【図2】 任意の形状のオブジェクトのテクスチャピクセルをエンコードするために用いる従来技術の方法(形状適応DCT)を示す。
【図3】 任意の形状のオブジェクトのテクスチャピクセルをエンコードするために用いる従来技術の方法(形状適応DCT)を示す。
【図4】 本発明による前処理方法の主要なステップを与えるフローチャートを示す。
Claims (4)
- 任意の形状のオブジェクトを表す画素(ピクセル)に対応する入力データを前処理する方法であって、前記入力データは前記各オブジェクトについて、前記オブジェクトの前記ピクセルの値に対応するテクスチャ部分と、前記入力データを前記テクスチャ部分内の完全に又は部分的に不透明なピクセルと透明なピクセルとにそれぞれ対応するデータの第1の及び第2のサブセットに細分するオブジェクトマスクとを有し、該前処理方法は、前記不透明なピクセルに対応するDCT(離散コサイン変換)係数を決定するために提供されており、各考慮されたオブジェクトに対して、
(1) オブジェクト平面を2次元のブロックに分割するステップと、
(2) 元のピクセル値の推定を基底ベクトルの線形結合として表すために選択された前記基底ベクトルの組を、前記ブロックによって規定される前記画面領域に導入するステップと、
(3) 前記ピクセル値の前記元の表現とこの元の表現の前記推定との間の歪みを測定するための費用関数ψを規定するステップと、
(4) 前記費用関数ψを最小化することを可能にする係数を求めるステップと、
を有する方法において、
(a) 前記費用関数ψは、次の関係によって与えられ:
(b) 前記求めるステップ自身は、
- 以下のパラメータ、即ち、
繰返しパラメータk = 0と、
最初の推定fopaque E= 0と、
最初の再構成係数ci 0= 0とを含むパラメータの初期化と、
- 前記不透明なピクセルに制限される前記基底ベクトルの抽出及び投射係数の以下のような算出と、
- 繰り返しであって、当該繰り返しの各々が、
[a] 前記費用関数を最小化するのに最も寄与する前記基底ベクトルの添え字i*を求めるサブステップと、
[b] 以下の関係に従ってfopaque Eの前記再構成を更新するサブステップと、
を実行するように提供される繰返しと、
- 前記費用関数ψが所与の閾値を下回るか、又は所定の数の繰返しが到達された場合の、前記繰返しの中断と、
の動作を有することとを特徴とする方法。 - 任意の形状のオブジェクトのテクスチャに対応する入力データを符号化する方法であって、前記テクスチャ入力データのDCT変換と、前記変換から得られる係数の量子化と、符号化されるべき前記データの差分予測と、前記量子化された係数の可変長エンコーディング動作とを少なくとも含む方法において、前記DCT係数は、請求項1による前処理方法の実行によって得られる前記係数ci kであると共に前記任意の形状のオブジェクトの不透明なピクセルに対応することを特徴とする方法。
- 任意の形状のオブジェクトのテクスチャに対応する入力データを符号化するためのエンコーディング装置であって、前記テクスチャ入力データのDCT変換と、前記変換から得られる係数の量子化と、符号化されるべき前記データの差分予測と、前記量子化された係数の可変長エンコーディング動作とを実行するための手段を少なくとも含むエンコーディング装置において、前記DCT係数は、請求項1による前処理方法の実行によって得られる係数ci kであると共に前記任意の形状のオブジェクトの前記不透明なピクセルに対応することを特徴とするエンコーディング装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01400288 | 2001-02-06 | ||
PCT/IB2002/000288 WO2002063883A1 (en) | 2001-02-06 | 2002-01-29 | Preprocessing method applied to textures of arbitrarily shaped objects |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004519155A JP2004519155A (ja) | 2004-06-24 |
JP3876227B2 true JP3876227B2 (ja) | 2007-01-31 |
Family
ID=8182615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002563705A Expired - Fee Related JP3876227B2 (ja) | 2001-02-06 | 2002-01-29 | 任意の形状のオブジェクトのテクスチャに適用される前処理方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6768495B2 (ja) |
EP (1) | EP1360841A1 (ja) |
JP (1) | JP3876227B2 (ja) |
KR (1) | KR20020087957A (ja) |
CN (1) | CN1215720C (ja) |
WO (1) | WO2002063883A1 (ja) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7042948B2 (en) * | 2001-03-05 | 2006-05-09 | Intervideo, Inc. | Systems and methods for management of data in a ring buffer for error resilient decoding of a video bitstream |
US6977659B2 (en) | 2001-10-11 | 2005-12-20 | At & T Corp. | Texture replacement in video sequences and images |
US7606435B1 (en) | 2002-02-21 | 2009-10-20 | At&T Intellectual Property Ii, L.P. | System and method for encoding and decoding using texture replacement |
US7260269B2 (en) * | 2002-08-28 | 2007-08-21 | Seiko Epson Corporation | Image recovery using thresholding and direct linear solvers |
US8824553B2 (en) * | 2003-05-12 | 2014-09-02 | Google Inc. | Video compression method |
US7953152B1 (en) | 2004-06-28 | 2011-05-31 | Google Inc. | Video compression and encoding method |
WO2006008725A1 (en) * | 2004-07-23 | 2006-01-26 | Dublin City University | Power-efficient shape adaptive discrete cosine transformation |
US7409099B1 (en) * | 2004-08-10 | 2008-08-05 | On2 Technologies, Inc. | Method of improved image/video compression via data re-ordering |
GB0505800D0 (en) * | 2005-03-22 | 2005-04-27 | Univ Sheffield | Control of processes |
US8744198B1 (en) * | 2007-11-20 | 2014-06-03 | Lucasfilm Entertainment Company Ltd. | Image compression and decompression |
US8325796B2 (en) * | 2008-09-11 | 2012-12-04 | Google Inc. | System and method for video coding using adaptive segmentation |
US8311111B2 (en) * | 2008-09-11 | 2012-11-13 | Google Inc. | System and method for decoding using parallel processing |
US8326075B2 (en) | 2008-09-11 | 2012-12-04 | Google Inc. | System and method for video encoding using adaptive loop filter |
US8638863B1 (en) | 2010-05-18 | 2014-01-28 | Google Inc. | Apparatus and method for filtering video using extended edge-detection |
US9210442B2 (en) | 2011-01-12 | 2015-12-08 | Google Technology Holdings LLC | Efficient transform unit representation |
US9380319B2 (en) | 2011-02-04 | 2016-06-28 | Google Technology Holdings LLC | Implicit transform unit representation |
US8938001B1 (en) | 2011-04-05 | 2015-01-20 | Google Inc. | Apparatus and method for coding using combinations |
US9154799B2 (en) | 2011-04-07 | 2015-10-06 | Google Inc. | Encoding and decoding motion via image segmentation |
US8780971B1 (en) | 2011-04-07 | 2014-07-15 | Google, Inc. | System and method of encoding using selectable loop filters |
US8780996B2 (en) | 2011-04-07 | 2014-07-15 | Google, Inc. | System and method for encoding and decoding video data |
US8781004B1 (en) | 2011-04-07 | 2014-07-15 | Google Inc. | System and method for encoding video using variable loop filter |
US8885706B2 (en) | 2011-09-16 | 2014-11-11 | Google Inc. | Apparatus and methodology for a video codec system with noise reduction capability |
US9100657B1 (en) | 2011-12-07 | 2015-08-04 | Google Inc. | Encoding time management in parallel real-time video encoding |
US9262670B2 (en) | 2012-02-10 | 2016-02-16 | Google Inc. | Adaptive region of interest |
US9131073B1 (en) | 2012-03-02 | 2015-09-08 | Google Inc. | Motion estimation aided noise reduction |
US9344729B1 (en) | 2012-07-11 | 2016-05-17 | Google Inc. | Selective prediction signal filtering |
US9219915B1 (en) | 2013-01-17 | 2015-12-22 | Google Inc. | Selection of transform size in video coding |
US9544597B1 (en) | 2013-02-11 | 2017-01-10 | Google Inc. | Hybrid transform in video encoding and decoding |
US9967559B1 (en) | 2013-02-11 | 2018-05-08 | Google Llc | Motion vector dependent spatial transformation in video coding |
US9674530B1 (en) | 2013-04-30 | 2017-06-06 | Google Inc. | Hybrid transforms in video coding |
US11425395B2 (en) | 2013-08-20 | 2022-08-23 | Google Llc | Encoding and decoding using tiling |
US10102613B2 (en) | 2014-09-25 | 2018-10-16 | Google Llc | Frequency-domain denoising |
US9565451B1 (en) | 2014-10-31 | 2017-02-07 | Google Inc. | Prediction dependent transform coding |
US9769499B2 (en) | 2015-08-11 | 2017-09-19 | Google Inc. | Super-transform video coding |
US10277905B2 (en) | 2015-09-14 | 2019-04-30 | Google Llc | Transform selection for non-baseband signal coding |
US9807423B1 (en) | 2015-11-24 | 2017-10-31 | Google Inc. | Hybrid transform scheme for video coding |
US9794574B2 (en) | 2016-01-11 | 2017-10-17 | Google Inc. | Adaptive tile data size coding for video and image compression |
US10542258B2 (en) | 2016-01-25 | 2020-01-21 | Google Llc | Tile copying for video compression |
US11122297B2 (en) | 2019-05-03 | 2021-09-14 | Google Llc | Using border-aligned block functions for image compression |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69718951T2 (de) * | 1996-05-17 | 2003-10-02 | Matsushita Electric Ind Co Ltd | Bewegungskompensierter Videodekoder |
US5974172A (en) * | 1997-02-14 | 1999-10-26 | At&T Corp | Method and apparatus for coding segmented regions which may be transparent in video sequences for content-based scalability |
JPH11205788A (ja) * | 1998-01-13 | 1999-07-30 | Matsushita Electric Ind Co Ltd | 画像圧縮装置、および画像伸張装置 |
US6058214A (en) * | 1998-01-20 | 2000-05-02 | At&T Corp. | Compression of partially masked still images |
-
2002
- 2002-01-29 KR KR1020027013368A patent/KR20020087957A/ko not_active Application Discontinuation
- 2002-01-29 WO PCT/IB2002/000288 patent/WO2002063883A1/en not_active Application Discontinuation
- 2002-01-29 CN CNB028002237A patent/CN1215720C/zh not_active Expired - Fee Related
- 2002-01-29 EP EP02715671A patent/EP1360841A1/en not_active Withdrawn
- 2002-01-29 JP JP2002563705A patent/JP3876227B2/ja not_active Expired - Fee Related
- 2002-02-01 US US10/061,084 patent/US6768495B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20020168114A1 (en) | 2002-11-14 |
KR20020087957A (ko) | 2002-11-23 |
US6768495B2 (en) | 2004-07-27 |
WO2002063883A1 (en) | 2002-08-15 |
CN1215720C (zh) | 2005-08-17 |
CN1456014A (zh) | 2003-11-12 |
JP2004519155A (ja) | 2004-06-24 |
EP1360841A1 (en) | 2003-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3876227B2 (ja) | 任意の形状のオブジェクトのテクスチャに適用される前処理方法 | |
JP6851429B2 (ja) | 画像復号装置、画像復号方法、画像符号化装置及び画像符号化方法 | |
JP6091584B2 (ja) | 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法および符号化データ | |
US11159789B2 (en) | Generative adversarial network based intra prediction for video coding | |
KR101500781B1 (ko) | 이미지들을 처리하기 위한 방법 및 그 대응하는 전자 장치 | |
CA3052608C (en) | Image coding device, image decoding device, image coding method, and image decoding method | |
JP4804342B2 (ja) | オーバーコンプリート基底変換ベースの、動き残差フレーム符号化方法およびビデオ圧縮用装置 | |
KR101711680B1 (ko) | 대표 패치들을 이용하는 텍스처 세밀화를 갖는 이미지 코딩 | |
Chen et al. | Lossless bit-plane compression of images with context tree modeling | |
CN113840146B (zh) | 一种视频信息隐藏方法及系统 | |
van der Schaar et al. | Interactivity Support: Coding ofObjects with Arbitrary Shapes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041221 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061030 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |