JP2001502504A

JP2001502504A - 立体視ビデオを符号化及び複号する装置及び方法

Info

Publication number: JP2001502504A
Application number: JP10518671A
Authority: JP
Inventors: チャン，ティハオ; ヅァン，ヤ―チン
Original assignee: サーノフコーポレイション
Priority date: 1996-10-11
Filing date: 1997-10-10
Publication date: 2001-02-20
Also published as: WO1998017068A1; EP0931420A1; US6144701A; EP0931420A4

Abstract

(57)【要約】ビデオの立体視符号化を達成するためにアフィン変換（２４５、２５５）を適用する装置と方法。

Description

【発明の詳細な説明】立体視ビデオを符号化及び複号する装置及び方法本出願は、１９９６年１０月１１日出願の米国出願第６０／０２７，９３４号の利益を主張する。本発明は、ディジタルビデオを符号化し、また複号するための装置及び付随の方法に関する。更に詳細には、本発明は、ビデオの立体視符号化を達成するためにアフィン変換を適用する装置及び方法に関する。発明の背景ビデオの圧縮方式と標準化努力とＶＬＳＩ実現とにおける最近の進展に伴って、立体視ディジタルビデオの符号化が注目を集めている。立体視ビデオに関しては幾つかの用途がある。例えば立体視情報源に基づいて３次元の動きと形の情報を評価することは、コンピュータビジョンでは一般的である。立体視画像表現はまた、ロボットの遠隔誘導にとっても有利である。医療用画像形成に関しては、ＣＴ（コンピュータ断層撮影）とＭＲＩ（磁気共鳴イメージング）とを使って奥行き情報の立体視表現を持つことが望ましい。ヨーロッパではＤＩＳＴＩＭＡ（ Digital Stereoscopic Imaging & Applications：ディジタル立体視画像の形成と応用）プロジェクトが、現在、衛星放送に基づく立体視ビデオの互換可能な伝送方式を調査している（国際標準化機構（ＩＳＯ），「多視点映像へのＭＰＥＧ２適用に関する特別グループの報告」，ＩＳＯ／ＩＥＣＪＴＣ／ＳＣ２９／ＷＧＩＩＮｏ．８６１，１９９５年３月）。立体視ＲＡＤＡＲイメージングもまた、重要な用途であることが分かってきた。立体視ビデオの適用の重要性の観点から、動画像専門家グループ（Motion Pic tures Experts Group：ＭＰＥＧ）委員会は、マルチビュープロファイル（ＭＶＰ）と呼ばれる新しいプロファイルを定義するために特別グループの結成を決定した（国際標準化機構（ＩＳＯ），「多視点映像の検討に関する状況報告」，ＩＳＯ／ＩＥＣＪＴＣ／ＳＣ２９／ＷＧＩＩＮｏ．９０６，１９９５年３月）。その目的は、現在の単視点ＭＰＥＧ圧縮方式に、後方互換性を保持しながら多視点能力を有する圧縮方式を提供することである。発明の要約本発明は、ビデオの立体視符号化を達成するためにアフィン変換を適用する。図面の簡単な説明本発明の教示内容は、以下の添付図面と合わせて下記の詳細な説明を考察することによって容易に理解することができる。図１は、ディスパリティ（パリティ外れ）分析を用いる立体視ビデオ符号化のブロック図である。図２は、本発明の一実施形態を用いる立体視ビデオ符号化のブロック図である。図３Ａと３Ｂは、アフィンパラメータを得るための一実施形態の説明図である。図４は、アフィンパラメータを評価する方法の流れ図を図示している。理解を容易にするために、各図に共通な同じ要素を示すためには、できるだけ同じ参照符号を用いた。詳細な説明立体視ビデオ符号化のために一般に使われる手法は、ディスパリティと動きとの分析を含んでおり、図１に図示する。符号化のシンタックス（論理構成）は、ＭＰＥＧ２の中の時間的にスケーラブルなプロファイルシンタックスに基づいている。立体視ビデオ列は、二つのビデオ列から構成されており、その一方は左チャネル１００を表し、他方は右チャネル１１０を表す。各チャネルからのフレームは同時に捕捉され、また異なる観察角を有している。従ってこれら二つのチャネルは同じ瞬間における同じ物体のスナップ撮影を異なる透視（perspective）によって表しているので、これら二つのチャネル間には固有の冗長性が存在する。こうしてわれわれは、スケーラブルな手法を使って、立体視ビデオ列を層構造で表現する。ベース層の符号器１０５は、左チャネルだけを圧縮する。符号化された左チャネル列は、一連の画像フレームからなっており、ベース層のビットストリームとしてマルチプレクサ（ＭＵＸ）１２０に入力される。符号化方式には、通常、離散コサイン変換（ＤＣＴ）と量子化とランレングス符号化（ＲＬＣ）とが含まれる。各符号化済み左チャネル画像はまた、符号器１０５によって複号され、複号済みビットストリームは、ディスパリテイ評価器（disparity estimator）１１５に与えられる。右ビデオ列１１０も一連の画像からなっており、またディスパリティ評価器１１５に入力される。ディスパリティ評価器１１５は、対応する右チャネル画像内のブロックと対をなす左チャネル複号済み画像内のブロックを探して、左チャネル符号器１０５によってディスパリティ評価器１１５に入力された左チャネル複号済み画像を探索する。ディスパリティ評価器１１５は、右チャネル画像内のブロックと、これと対をなす左チャネル画像内のブロックとの間の相対的変位またはディスパリティを定義するディスパリティベクトルを生成する。ディスパリティ評価器１１５は、ディスパリティベクトルと左チャネル複号済み画像とを右チャネル符号器１２５に入力する。符号器１２５は、これらのディスパリティベクトルを複号済み左チャネル画像に与えることによってディスパリティ補償された基準画像を生成する。この符号器は、差分画像あるいは残余画像を得るために右チャネル画像からこのディスパリティ補償された左チャネル画像を減算する。符号器１２５は、この残余画像とディスパリティベクトル（「補助信号」）とを符号化して送信する。符号化は、通常ＤＣＴと、量子化と、ＲＬＣとが含まれる。代替の実施形態では、ディスパリティ評価器は、ディスパリティ補償画像と差分画像とを生成する。受信側では、デマルチプレクサ（ＤＭＵＸ）１３０が符号化された左チャネル画像を受信して、それを左チャネル複号器１３５に与える。左チャネル複号器１３５は、複号済み左チャネル画像を出力し、一連のこの複号済み左チャネル画像が複号済み左チャネル列１４０を画成する。この複号済み左チャネル列はまた、複号器１５０に入力される。複号器１５０は、ＤＭＵＸ１３０から符号化されたディスパリティベクトル（「補助信号」）を受信する。複号器１５０は、符号化されたディスパリティベクトルと残余画像とを複号する。これら複号済みディスパリティベクトルは、ディスパリティ補償された左チャネル画像を供給するために複号済み左チャネル画像に与えられる。符号器１２５によって行われた減算とは実質的に反対の処理で、複号器１５０は、複号済み右チャネル画像を提供するためにディスパリティ補償済み左チャネル画像に残余画像を加算し、一連のこの複号済み右チャネル画像列が右チャネル列１６０を画成する。このような層構造は、異なる表示能力と帯域幅とを有する種々のユーザにサービスを提供する際に非常に望ましいものである。例えばスケーラビリティは、異なる空間解像度間及び走査フォーマット間での互換性を提供することができる。上述の手法では、観察角の変化は、ディスパリティ分析を用いて補償されるゼロ時間のカメラの動きと見なされる。動き補償を使って閉塞状態が拡大される。このような表現は、２チャネルには十分であるが、多数のチャネルと視点とに対してこの手法を一般化することは不便で非効率である。例えば変形と奥行き短縮とが考慮されていない。立体視ビデオ列が利用可能であるから、より良い予測モデルを得る際に、両チャネルに基づく３次元の動きの評価が可能である。本発明の一実施形態のディジタル画像変形手法を使って透視点の動きをこの評価器に含ませることができる。アフィン変換又は２次変換のいずれかを使う実施形態がある。図２は、本発明の一実施形態の立体視符号器と立体視複号器のブロック図である。一連の左チャネル画像からなる左チャネル列２００は、左チャネル符号器２０５に与えられる。通常、符号化には離散コサイン変換（ＤＣＴ）と量子化とＲＬＣとが含まれる。符号化された左チャネル列は、ＭＵＸ２２０に入力される。符号器２０５からの複号された画像は、ディスパリティ評価器２１５とアフィン変換器２５５とに与えられる。ディスパリティ評価器２１５は、例えば従来技術のディスパリティベクトルの代わりに一組のアフィンパラメータを生成する。生成されたアフィンパラメータは、立体視チャネル列の左画像と右画像間との透視点の見かけの変化を精確にモデル化する。アフィンパラメータを生成するためにディスパリティ評価器２１５に与えられる左チャネル列２００からの複号済み左チャネル画像は、右チャネル列２１０からの画像と比較される。特に、左チャネル画像からの非正方四辺形ブロックは、右チャネル画像内の正方形ブロックに整合させられる。通常、ブロックマッチング法（ＢＭＭ）を使って非正方四辺形ブロックへの変形のために最初に正方形の左チャネルブロックが得られる。このブロックの選択の後では、非正方形ブロックへの変形は、どの辺に沿ってでも発生することが可能であり、また勾配型ガウスニュートン最適化手法を使って監視することができる。変形が終了した後に、望ましくは右画像内の選択されたブロックに最もよくマッチする変形ブロックは、一組６個のアフィンパラメータを提供する。これら６個のアフィンパラメータは、そのブロックの形状を定義する。各ブロック毎にこの一組のアフィンパラメータがアフィン変換器２５５に与えられる。各ブロックのアフィンパラメータは、符号器２２５によって、あるいはアフィン変換器２５５内で符号化されてＭＵＸ２２０に送られる。アフィン変換器２５５は、一つの変換済み画像を互いに共同して形成する複数の変形済みブロックを与えるために、各ブロックについてアフィンパラメータを処理する。変形済み画像は、差分画像あるいは残余画像を与えるために、右チャネル画像から減算される。この減算は、アフィン変換器２５５あるいは符号器２２５内で行うことができる。残余画像は、ＤＣＴ圧縮、量子化圧縮、ＲＬＣ圧縮などにより符号器２２５によって符号化されて、ＭＵＸ２２０に送られる。受信側ではＤＥＭＵＸ２３０が、符号化された左チャネル画像を受信して、それらを複号器２３５に伝送する。複号器２３５は、その左チャネル画像を複号して左チャネル列２４０を生成する。補助信号、すなわちアフィンパラメータは、ＤＭＵＸ２３０から受け取られ、複号器２３５等によって複号され、そしてアフィン変換器２４５に入力される。複号済み左チャネル画像はまた、複号器２３５からアフィン変換器２４５に入力される。アフィン変換器２４５は、送信側のアフィン変換器２５５の処理機能と同等の処理機能を含んでいる。これらのアフィンパラメータを使ってアフィン変換器２４５は、複号器２３５から入力された複号済み左チャネル画像を１ブロックずつ変換して、変換済み左チャネル画像を生成する。この変換済み左チャネル画像は、アフィン変換器２４５または複号器２５０内で組み立てることができる。いずれの場合にも複号器２５０は、変換済み左チャネル画像を得る。複号器２５０は、ＤＭＵＸ２３０から残余画像を受け取る。残余画像は、複号器２５０によって複号され、変換済み左チャネル画像に加算されて右チャネル画像を生成する。当業者は、一連の画像フレームについて上述の処理を繰り返した結果、右チャネル列２６０が生成されるということを理解するであろう。前述の実施形態は、左チャネルと右チャネルとの間の透視視点差を更によく再生するものである。符号器は視点の変化が考慮されるようにベース層列を操作する。アフィンパラメータの定式化を以下に説明する。より一般的な場合、１２個のパラメータと回転を表す３ｘ３マトリックスと平行移動を表す３ｘ１ベクトルとが必要とされる。例えば３次元空間では視点の変化は、回転と平行移動との組合せとしてモデル化できる。ここで変数ｒは回転を定義し、変数ｔは平行移動を定義するものである。対応点は下記のように求められる。Ｘ,Ｙは、元の座標。ｚは、奥行き情報。このような表現は、奥行き情報ｚの精確な評価を必要とする。もし奥行き情報が見つかれば、完全なモデルを使うことができる。しかしながらこの定式化は、もし１２個のパラメータの、あるパターンが仮定されると、あまり巧妙でない手法になってしまうことがある。特にこれは、ｒ７とｒ８とｔ１とｔ２とｔ3をゼロに設定し、ｒ９を１に設定すること等により、ある条件下でのアフィン透視変換になってしまうことがある。これは、平行移動が無視されるようにカメラがあまり動かなかったということを仮定している。これは一般に、二つのカメラ間の距離が小さい場合の立体視アプリケーションでは真である。アフィン変換を使用することの利点は、他の一般的な方法に比べて複雑さが最も小さいということである。こうして、この定式化は下記の方程式で記述されるようなアフィン変換にすることができる。ここでｒ１とｒ２とｒ４とｒ５は画像平面内での回転であり、ｒ３とｒ６は画像平面内での平行移動である（物理的には奥行き変化として明示される）。対応関係は下記の通りであるこれは例えばアフィン変換器２５５、２４５内に格納される。この定式化は、もしｔ１とｔ２とｔ３とがゼロに設定されれば、透視変換に一般化できる。各パラメータの適切な設定によって、同じ定式化が示される。この対応関係は、次のようになっている。しかしながらこの透視変換に関する計算上の負荷と複雑さは、アフィン変換に関するものよりも遙かに大きい。アフィンパラメータを取得するときは、最初によい開始点を見つけることが重要である。反復勾配型手法は、もしこの開始点が正しく選択されないと、簡単に発散してしまうことがある。アフィンパラメータを評価する際によい開始点を見つけるためのピラミッド方式を以下に論ずる。もし収束解が見つからなければ、評価器はディスパリティ分析に戻るであろう。こうして、われわれはディスパリティ分析によって、少なくとも性能がより低く制限されることができることを保証することができる。６個のアフィンパラメータを評価する精確で効率的な方法について説明する。この方法は、アフィン変換に限定されるものではない。計算上の複雑さを低減するためにこの評価用に空間的なピラミッドを使うことが望ましい。このピラミッド手法はまた、評価処理がローカル最小値あるいは発散に陥ることを防止することができる。前述のようにこの手法は、ブロックマッチング法（ＢＭＭ）と勾配型ガウスニュートン最適化探索との考えを巧く組み合わせたものである。このようなハイブリッド手法の利点は、計算をあまり複雑にすることなしにグローバル最小値を得ることができるということである。左画像と右ビデオ列の両者が先ず、水平垂直両方向に半分だけ解像度を減らされた４層にサブサンプル化される。これらの画像は４層にサンプル化されるが、本発明はこの層数に限定されないことを理解すべきである。特定の実施形態によっては、追加の層を追加あるいは削除することができる。各層に対して、評価器は、図４に示す下記のステップに従う。右チャネル画像内の事前設定ブロックに最もよくマッチするブロックを識別するブロックマッチング法を使って左チャネル画像内の所定の領域を探索することによって、開始点が決定される。最もよくマッチするブロックは、２乗誤差和（ＳＳＥ）を最小にするであろう。従って選択された右チャネルブロックにマッチする左チャネルブロックを見つけることができる。これは、アフィンパラメータを評価するための安定な開始点を与える。この処理を図３Ａに示す。更に明確に、アフィンパラメータを評価する方法４００の流れ図を図４に示す。アフィンパラメータは、ガウスニュートン最適化法を用いて評価される。すなわち、前の開始点に基づいてこの方法は、例えば左チャネル信号を右チャネル信号に向けて変形させるように新しい開始ブロックを更に又は異なるように変形させることによって、新しいアフィンパラメータを与える差分増分を見つけることができる。これを図３Ｂに示す。この繰り返しを続行すべきかどうかを決定するために、２乗誤差和（ＳＳＥ）の評価が行われる。もしＳＳＥの減少が観察されれば、ガウスニュートン法の繰り返しがもう一回行われる。ＳＳＥが有意に減少しなくなるか、ＳＳＥが発散しはじめるかどちらかの時点でこの反復は停止される。発散の場合は、これらのパラメータは発散する反復の直前のパラメータ値にリセットすることができる。こうしてピラミッドの一つのレベルの評価は完了する。各層で取得されたすべての情報は、最適化のための最初の開始点としてその次の層に渡される。ピラミッド手法が使われることによって、計算の負荷はかなり減少する。有用な収束解を見つける可能性は高い。発散解の場合は評価器は常に、ＢＭＭ手法を用いて取得した解に戻ることができる。これは、対象とする領域が遙かに小さなサイズに縮小される場合には特に重要である。このような場合、ガウスニュートン反復は、領域サイズが１６ｘ１６ピクセルから３２ｘ３２ピクセルの領域範囲に縮小される時のように、良好な開始点が必要である。図４を参照すれば、方法４００はステップ４０５から始めて、ステップ４１０に進み、ここではブロックマッチング法を使って、例えばフレーム全体について１マクロブロックずつ平行移動パラメータｒ３とｒ６とを評価する。最初にこれらのパラメータは、次のように設定される。図４は単一の層のアフィンパラメータを評価する方法を示していることに注目すべきである。こうして方法４００は、空間的ピラミッドの各層に適用される。ブロックマッチング法の結果として得られた２乗誤差和（ＳＳＥ_BMM）は、後の使用のために格納される。ステップ４２０で、カウンタは初期化される。すなわち“ｉ”は、ゼロ（０）に等しく設定されるが、ここでｉはガウスニュートン評価法を適用する反復の回数を表す。ウスニュートン評価法を適用する。２乗誤差和（ＳＳＥ_i）が計算されて格納される。ステップ４３０で方法４００は、ｉ＝１であるかどうかを問い合わせる。もしこの問合せが肯定的に応答されれば、方法４００は第２の評価を行うためにステップ４２５に戻る。もしこの問合せが否定的に応答されれば、方法４００はステップ４３５に進む。ステップ４３５で方法４００は、ＳＳＥ_i-1がＳＳＥ_iよりも大きいかどうかを問い合わせる。もしこの問合せが肯定的に応答されれば、方法４００はステップ４４０に進む。もしこの問合せが否定的に応答されれば、方法４００はステップ４４５に進む。すなわちガウスニュートン評価法からの結果は、発散しており、追加の反復は行われない。ステップ４４５で方法４００は、ＳＳＥ_BMMがＳＳＥ_GN _‘よりも小さいかどうかを問い合わせる。ここでＳＳＥ_GNはＳＳＥ_i-1に等しく設定される。すなわちガウスニュートン評価法からの結果がブロックマッチング法と比較される。もしこの問合せが肯定的に応答されれば、方法４００はステップ４５５に進む。こもしこの問合せが否定的に応答されれば、方法４００はステップ４５０に進む。ここでガウスニュートン法で評価されたアフィンパラメータが渡される。ステップ４６０で本方法は、その次の層に進む。ステップ４４０で方法４００は、（ＳＳＥ_i-1）−ＳＳＥ_iがしきい値εよりも小さいかどうかを問い合わせる。このしきい値は好ましくは１０^-４に設定される。しかしながら、異なる用途では他のしきい値を使うこともできる。もしこの問合せが否定的に応答されれば、方法４００はステップ４２５に進む。ここでガウスニュートン評価法が再び実行される。もしこの問合せが肯定的に応答されれば、方法４００はステップ４７０に進む。またＳＳＥ_GNはＳＳＥ_iに等しく設定される。ステップ４７５、４８０、４８５、４９０で方法４００は再びガウスニュートン評価法からの結果をブロックマッチング法と比較する。ここで、ステップ４７５、４８０、４８５、４９０はそれぞれ、ステップ４４５、４５０、４５５、４６０と同じである。このようにステップ４７５、４８０、４８５、４９０に関する説明は、上述した。従来技術のディスパリティ分析か、本発明の一実施形態のディスパリティ分析とアフィン変換とのハイブリッドかのどちらかに基づいて評価器を比較するために実験が実施された。実験の結果を下記の表２に示す。ここで各値は、信号対雑音比のピークをｄＢで示している。左チャネルから来る予測は、「マネージ」列と「トンネル」列についてそれぞれ０．６６ｄＢと０．７７ｄＢだけ改善されていることが見られる。ガウスニュートン法についての最大反復回数は、各１６ｘ１６マクロブロックについて単に４回だけであった。このように計算の負荷は最小である。もしアフィン変換の評価が発散するならば、この評価器は、平均２乗誤差測定を使ってそれを観測してディスパリティ分析モードに戻るであろう。こうして予測性能は、ディスパリティ分析手法によって、より低く限定される。本発明は、これらの処理を実用化するためにコンピュータ化された処理と装置の形で実現することができる。本発明はまた、フロッピーディスケット、ＣＤ− ＲＯＭ、ハードドライブ、その他どのようなものでもコンピュータ読取り可能な記憶媒体といった具体的な媒体において実現されるコンピュータプログラムコードの形で実現することができる。この場合、コンピュータプログラムコードがコンピュータにロードされて実行されるときには、このコンピュータが本発明を実施する装置となる。本発明はまた例えば、記憶媒体に格納され、コンピュータにロードされ、そして／またはコンピュータによって実行されるか、あるいは電線や電気ケーブルの上を、あるいは光ファイバを通って、または電磁放射を介してといった何らかの伝送媒体上を伝送されるといったコンピュータプログラムコードの形でも実現可能である。この場合、コンピュータプログラムコードがコンピュータにロードされて実行されるときには、このコンピュータが本発明を実施する装置となる。汎用マイクロプロセッサ上に実現されたときに、このコンピュータプログラムコードセグメントは、所定の論理回路を生成するようにそのマイクロプロセッサを構成する。本発明の本質を説明するために記述し図示してきた部分の細部と素材と配置とに関する種々の変更が、本発明の原理と範囲とから逸脱することなく、本技術に精通する人々によって可能であるということは理解されるべきである。

Claims

【特許請求の範囲】１．第１のチャネルの画像を受信するための第１の符号器と、第２のチャネルの画像を受信するための第２の符号器と、前記第１及び第２の符号器に連結された、アフィンパラメータを生成するためのディスパリティ評価器と、前記ディスパリティ評価器に連結された、変換された画像を生成するためのアフィン変換器と、を含む立体視符号器。２．前記変換された画像の各々は、前記第１のチャネルからの前記画像の各々を減算して残余画像を形成する請求項１に記載の立体視符号器。３．前記一方のチャネルは右チャネルであって、前記第２のチャネルは左チャネルである請求項１に記載の立体視符号器。４．前記アフィンパラメータはガウスニュートン評価を用いて生成される請求項１に記載の立体視符号器。５．第１のチャネルの、符号化された残余画像を受信するための第１の複号器と、第２のチャネルの、符号化された画像を複号するための第２の複号器と、前記複号器に連結された、複号された変換済み画像を生成するためのアフィン変換器と、を含む立体視複号器。６．二つのチャネルの画像を符号化する方法であって、（ａ）第１の複号器によって第１のチャネルの画像を受信するステップと、（ｂ）第２の複号器によって第２のチャネルの画像を受信するステップと、（ｃ）前記複号器からの画像を使ってアフィンパラメータを生成するステップと、（ｄ）変換された画像を生成するためにアフィン変換器を使用するステップと、を含む方法。