JP2011525657A

JP2011525657A - 動き補償を用いた画像の奥行き抽出のためのシステムおよび方法

Info

Publication number: JP2011525657A
Application number: JP2011514554A
Authority: JP
Inventors: ザン，ドン−チン; アイザット，アイザット; ヨーン，ヤンシク
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2008-06-24
Filing date: 2008-06-24
Publication date: 2011-09-22
Anticipated expiration: 2028-06-24
Also published as: CN102077246A; EP2300987A1; US20110110583A1; WO2009157895A1; EP2300987B1; US8422766B2; JP5153940B2; CA2729106A1

Abstract

画像の空間時間的奥行き抽出のためのシステムおよび方法が提供される。システムおよび方法は、シーンからの画像のシーケンスを取得し（５０２）、前記シーケンスは画像の複数の相続くフレームを含み、少なくとも一つのフレームについて、第一の画像中の少なくとも一つの点の第二の画像中の少なくとも一つの対応する点との視差を推定し（５０４、５０６）、前記第一の画像中の前記少なくとも一つの点の動きを推定し（６０５）、前記シーケンスの前方方向の少なくとも一つの前のフレームの推定された視差に基づいて、前記少なくとも一つの次の後続フレームの視差を推定し（５０８）、ここで、前記推定視差は推定された動きを用いて補償され、前記シーケンスの後方方向の少なくとも一つの前のフレームの推定された視差に基づいて、前記複数の相続くフレームのそれぞれの推定された視差を最小化する（５１２）ことを含む。

Description

本開示は概括的にはコンピュータ・グラフィクス処理およびディスプレイ・システムに、より詳細には前方および後方奥行き予測による画像の奥行き抽出のためのシステムおよび方法に関する。

立体視イメージング（stereoscopic imaging）は、わずかに異なる視点から取られた、シーンの少なくとも二つの画像を視覚的に組み合わせて三次元的な奥行きの錯覚を生じる過程である。この技法は、人間の両目がいくらかの距離離間しており、そのため完全に同じシーンを見るのではないという事実に依拠している。それぞれの目に異なるパースペクティブからの画像を与えることにより、見る者の目はだまされて奥行きを知覚する。典型的には、二つの相異なるパースペクティブが与えられる場合、成分画像は「左」および「右」の画像と称される。これは参照画像および補足画像としても知られる。しかしながら、当業者は、立体視像を形成するために三つ以上の視点が組み合わされてもよいことを認識するであろう。

三次元（3D）ポスト・プロダクション、視覚効果（VFX: visual effects）作業フローおよび3Dディスプレイ・アプリケーションにおいて、重要なプロセスは、左眼視および右眼視の画像からなる立体視画像から奥行きマップを推定することである。たとえば、最近商業化された裸眼立体視3Dディスプレイは、画像に加えて奥行きマップからなる入力フォーマットを要求する。それにより、ディスプレイは複数の閲覧角をサポートするために異なる3Dビューを生成できる。

立体画像対から奥行きマップを生成するプロセスは、コンピュータ視覚の研究分野ではステレオマッチング（stereo matching）と呼ばれる。ピクセルまたはブロックのマッチングを使って左眼および右眼のビュー画像における対応する点を見出すからである。より最近では、3Dディスプレイ業界では、奥行きマップを推定するプロセスは奥行き抽出（depth extraction）としても知られている。奥行き値は、シーン中の同じ点に対応する画像内の二つのピクセルの間の相対距離から推定される。

デジタル画像のステレオマッチングは、多くのコンピュータ視覚アプリケーション（たとえば、コンピュータ援用製図（CAD: computer-aided drafting）のための高速オブジェクト・モデリングおよびプロトタイピング、人間とコンピュータの対話（HCI: human-computer interaction）のためのオブジェクト・セグメンテーションおよび検出、ビデオ圧縮および視覚的監視などの）において3D奥行き情報を与えるために幅広く使われている。ステレオマッチングは、シーン内の異なる位置および配向に置かれた二つ以上のカメラからシーンの画像を取得する。これらのデジタル画像は、ほぼ同じ時刻および点において各カメラから取得され、それらの画像のそれぞれは空間中のある3D点に対応してマッチングされる。一般に、異なる画像からの点は、それらの画像の一部を探索し制約条件（エピポーラー制約条件のような）を使って一つの画像中の点を別の画像中の点と相関付けることによってマッチングされる。

奥行きマップ抽出に対してかなりの研究がなされてきた。奥行き抽出に対する従前の研究の多くは、動画ではなく単一の立体視画像対に焦点を当てている。しかしながら、画像〔イメージ〕ではなく動画〔ビデオ〕が消費者電子製品の世界では主要なメディアとなっている。ビデオについては、単一画像対ではなく立体視画像対のシーケンスが用いられる。従来技術では、各フレーム対に対して静的な奥行き抽出アルゴリズムが適用される。たいていの場合、出力奥行きマップの品質は3D再生のために十分であるが、大量のテクスチャーのあるフレームについては、画像対のシーケンスについて奥行きマップが時間方向に、すなわち時間期間にわたって厳密に整列されないので、時間的なジッタリング・アーチファクト（jittering artifacts）が見られることがある。従来のシステムは、画像シーケンスに対してなめらかさの制約条件を強制することによって時間方向に沿って奥行きマップ抽出プロセスを安定化させることを提案している。しかしながら、シーンの大きな動きがある場合、時間方向に沿って奥行きマップを正確に予測するためには、オブジェクトの動きを考慮に入れる必要がある。

したがって、時間的なジッタリング・アーチファクトを軽減するよう時間方向に沿って奥行きマップ抽出プロセスを安定化させる技法が必要とされている。さらに、時間にわたるあるいは画像シーケンスにわたるオブジェクトの動きを考慮に入れる奥行きマップ抽出技法が必要とされている。

前方および後方奥行き予測による、画像の空間時間的奥行き抽出のためのシステムおよび方法が提供される。本開示のシステムおよび方法は、時間方向に沿って奥行きマップ抽出プロセスを安定させる一方、オブジェクトの動きを考慮に入れ、きわめて正確な奥行きマップを与える。

本開示のある側面によれば、少なくとも二つの画像をステレオマッチングする方法が提供される。本方法は、シーンからの第一の画像および第二の画像のシーケンスを取得する段階であって、前記シーケンスは前記第一および第二の画像の複数の相続くフレームを含む、段階と、少なくとも一つのフレームについて、前記第一の画像中の少なくとも一つの点の前記第二の画像中の少なくとも一つの対応する点との視差（disparity）を推定する段階と、前記少なくとも一つのフレームから少なくとも一つの次の後続フレームにかけての前記第一の画像中の前記少なくとも一つの点の動きを推定する段階と、前記シーケンスの第一の方向の少なくとも一つの前のフレームの推定された視差に基づいて、前記少なくとも一つの次の後続フレームの視差を推定する段階であって、前記少なくとも一つの次の後続フレームの推定視差は前記推定された動きによって補償される、段階と、前記シーケンスの第二の方向の少なくとも一つの前のフレームの推定された視差に基づいて、前記複数の相続くフレームのそれぞれの推定された視差を最小化する段階とを含む。前記第一の画像は左眼視画像を含み、前記第二の画像は立体視対の右眼視画像を含む。

本開示のもう一つの側面によれば、少なくとも二つの画像をステレオマッチングするシステムが提供される。本システムは、シーンからの第一の画像および第二の画像を取得する手段であって、前記シーケンスは前記第一および第二の画像の複数の相続くフレームを含む、手段と、少なくとも一つのフレームから少なくとも一つの後続フレームにかけての前記第一の画像中の少なくとも一つの点の動きを推定する動き補償器と、少なくとも一つのフレームについて、前記第一の画像中の前記少なくとも一つの点の前記第二の画像中の少なくとも一つの対応する点との視差を推定し、前記シーケンスの第一の方向の少なくとも一つの前のフレームの推定された視差に基づいて、前記少なくとも一つの次の後続フレームの視差を推定し、ここで、前記少なくとも一つの次の後続フレームの推定された視差は前記推定された動きによって補償され、前記シーケンスの第二の方向の少なくとも一つの前のフレームの推定された視差に基づいて、前記複数の相続くフレームのそれぞれの推定された視差を最小化するよう構成された視差推定器とを有する。

本開示のさらなる側面によれば、少なくとも二つの画像をステレオマッチングする方法ステップを実行するために機械によって実行可能な命令のプログラムを有形的に具現する、機械によって読み取り可能なプログラム記憶デバイスが提供される。前記方法は、シーンからの第一の画像および第二の画像のシーケンスを取得する段階であって、前記シーケンスは前記第一および第二の画像の複数の相続くフレームを含む、段階と、少なくとも一つのフレームについて、前記第一の画像中の少なくとも一つの点の前記第二の画像中の少なくとも一つの対応する点との視差を推定する段階と、前記少なくとも一つのフレームから少なくとも一つの次の後続フレームにかけての前記第一の画像中の前記少なくとも一つの点の動きを推定する段階と、前記シーケンスの第一の方向の少なくとも一つの前のフレームの推定された視差に基づいて、前記少なくとも一つの次の後続フレームの視差を推定する段階であって、前記少なくとも一つの次の後続フレームの推定視差は前記推定された動きによって補償される、段階と、前記シーケンスの第二の方向の少なくとも一つの前のフレームの推定された視差に基づいて、前記複数の相続くフレームのそれぞれの推定された視差を最小化する段階とを含む。

本開示のこれらおよびその他の側面、特徴および利点は、付属の図面との関連で読まれるべき好ましい実施形態の以下の詳細な説明において記述され、これから明白と成るであろう。

図面において、同様の参照符号は諸図を通じて同様の要素を表す。

本開示のある側面に基づく、少なくとも二つの画像をステレオマッチングするシステムの例示的な図解である。本開示のある側面に基づく、少なくとも二つの画像をステレオマッチングする例示的な方法の流れ図である。シーンにおける関心のある点について取られる二つの画像の間のエピポーラー幾何学を示す図である。視差と奥行きの間の関係を示す図である。本開示のある側面に基づく、少なくとも二つの画像の視差を推定する例示的な方法の流れ図である。本開示のある側面に基づく、オブジェクト動き補償を用いた奥行き抽出の例示的な方法の流れ図である。立体視画像の相続くフレームのシーケンスについての奥行きマップを向上させるための前方および後方予測プロセスを示す図である。本開示のある側面に基づく、前方動き場を使った前方および後方歪め（warping）を示す図である。

図面は本開示の概念を理解する目的のためであり、必ずしも本開示を例解する唯一可能な構成ではないことは理解しておくべきである。

図面に示される要素はハードウェア、ソフトウェアまたはその組み合わせのさまざまな形で実装されうることは理解しておくべきである。好ましくは、これらの要素はハードウェアおよびソフトウェアの、一つまたは複数の適切にプログラムされた汎用デバイス上での組み合わせにおいて実装される。汎用デバイスはプロセッサ、メモリおよび入出力インターフェースを含んでいてもよい。

本記述は、本開示の原理を例解するものである。よって、当業者が、本稿において明示的に記述または図示されていなくても、本開示の原理を具現し、その精神および範囲内に含まれるさまざまな構成を考案できるであろうことは理解されるであろう。

本稿で記載されるあらゆる例および条件付きの言辞は、読者が、本開示の原理および当該技術を進歩させる発明者によって寄与される概念を理解するのを支援するという教育目的のために意図されているのであって、そのような個別的に記載されている例および条件に限定することなく解釈されるものである。

さらに、本開示の原理、側面および実施形態ならびにその個別的な例を記載する本稿におけるあらゆる陳述は、その構造的および機能的な等価物の両方を包含することが意図されている。さらに、そのような等価物は、現在知られている等価物および将来開発される等価物、すなわち構造にかかわりなく同じ機能を実行する任意の開発された要素の両方を含むことが意図されている。

よって、たとえば、当業者は、本稿に呈示されるブロック図が本開示の原理を具現する例示的な回路の概念図を表すものであることを理解するであろう。同様に、フローチャート、流れ図、状態遷移図、擬似コードなどはいずれも、コンピュータ可読媒体において実質的に表現され、コンピュータまたはプロセッサによって実行されうるさまざまなプロセスを表すことが理解されるであろう。これはそのようなコンピュータまたはプロセッサが明示的に示されているかどうかにはよらない。

図面に示されるさまざまな要素の機能は、専用ハードウェアの使用を通じて提供されても、適切なソフトウェアとの関連でソフトウェアを実行することのできるハードウェアの使用を通じて提供されてもよい。プロセッサによって提供されるとき、機能は単一の専用プロセッサによって、単一の共有されるプロセッサによって、あるいは一部が共有されていてもよい複数の個別プロセッサによって提供されうる。さらに、用語「プロセッサ」または「コントローラ」の明示的な使用は、ソフトウェアを実行することのできるハードウェアのみを指すものと解釈されるべきではなく、暗黙的に、限定なしに、デジタル信号プロセッサ（「DSP」）ハードウェア、ソフトウェアを記憶するための読み出し専用メモリ（「ROM」）、ランダム・アクセス・メモリ（「RAM」）および不揮発性記憶装置を含みうる。

通常のものおよび／またはカスタムのものを含め他のハードウェアも含まれてもよい。同様に、図面に示されるスイッチがあったとしても、それは単に概念的なものである。その機能はプログラム論理の動作を通じて、専用論理を通じて、プログラム制御と専用論理の相互作用を通じて、あるいはさらに手動で実行されてもよい。特定の技法は、コンテキストからより個別に理解されるように実装者によって選択可能である。

本願の請求項では、特定の機能を実行する手段として表現されたいかなる要素も、その機能を実行するいかなる仕方をも、たとえばａ）その機能を実行する回路素子の組み合わせまたはｂ）任意の形の、したがってファームウェア、マイクロコードなどを含む、当該機能を実行するソフトウェアを実行するための適切な回路と組み合わされたソフトウェアを包含することが意図されている。そのような請求項によって定義される本開示は、前記さまざまな記載される手段によって提供される機能性が請求項が記載する仕方で組み合わされ、一緒にされるという事実にある。よって、これらの機能性を提供できる任意の手段が本稿で示されている手段と等価であると見なされる。

ステレオマッチングは、立体視画像、たとえば左眼視画像および右眼視画像から奥行きマップを推定する標準的な方法である。従来の裸眼立体視ディスプレイ上での3D再生は、奥行きマップのなめらかさが、結果として得られる3D再生の見え方に著しく影響することを示している。なめらかでない奥行きマップは、しばしば、3D再生におけるジグザグのエッジにつながる。これは、より低精度の奥行き値をもつなめらかな奥行きマップの再生よりも視覚的には悪い。したがって、奥行きマップのなめらかさは、3Dディスプレイおよび再生アプリケーションのためには奥行き精度よりも重要である。さらに、3Dディスプレイ・アプリケーションでは、奥行き推定について、グローバルな最適化に基づくアプローチが必要である。本開示は、奥行きマップのなめらかさを改善するために時間的情報を取り入れる奥行き抽出技法を提起する。多くの立体視技術は、空間的一貫性〔コヒーレンス〕およびデータとの整合性〔コンシステンシー〕を強制するコスト関数を最適化する。画像シーケンスについては、抽出される奥行きマップの精度を改善するために時間成分が重要である。さらに、シーンまたは画像シーケンスにおいてオブジェクトの大きな動きがある場合、時間方向に沿って奥行きマップを正確に予測するためにオブジェクトの動きが考慮に入れられる。

動き補償のある、画像の空間時間的奥行き抽出のためのシステムおよび方法が提供される。本開示のシステムおよび方法は、奥行きマップのなめらかさを改善するために時間的情報を取り入れる奥行き抽出技法を提供する。本開示の技法は、前方および後方パスを取り入れる。ここでは、画像シーケンスのあるフレームの前の奥行きマップが、現在フレームの奥行き抽出を初期化または予測するために使われる。これは計算をより高速に、より正確にする。本システムおよび方法はさらに、奥行き予測の精度を上げるためにオブジェクトの動き補償を用いる。すると、奥行きマップまたは視差マップは、3D再生のために、立体視画像対とともに利用できる。本開示の技法は、2D＋奥行きのディスプレイにおける3D再生の、奥行きマップの不安定性に起因する時間的ジッタリング・アーチファクトの問題を解決するのに有効である。

ここで図面を参照する。図１には、本開示のある実施形態に基づく例示的なシステム・コンポーネント１００が示されている。フィルム・プリント１０４、たとえばカメラ・オリジナルのフィルム・ネガをスキャンしてデジタル・フォーマット、たとえばCineonフォーマットまたは映画テレビ技術者協会（SMPTE: Society of Motion Picture and Television Engineers）のデジタル画像交換（DPX: Digital Picture Exchange）ファイルにするスキャン装置１０３が設けられていてもよい。スキャン装置１０３は、たとえば、テレシネ（telecine）またはフィルムからビデオ出力を生成する任意の装置、たとえばビデオ出力のあるArri LocPro（商標）を有していてもよい。あるいはまた、ポスト・プロダクション工程またはデジタル・シネマからのファイル１０６（たとえばすでにコンピュータ可読な形になっているファイル）を直接使うこともできる。コンピュータ可読ファイルの潜在的な源は、AVID（商標）エディタ、DPXファイル、D5テープなどである。

フィルム・プリントをスキャンしたものは後処理装置１０２、たとえばコンピュータに入力される。このコンピュータは、一つまたは複数の中央処理ユニット（CPU）、ランダム・アクセス・メモリ（RAM）および／または読み出し専用メモリ（ROM）のようなメモリならびにキーボード、カーソル制御装置（たとえばマウスまたはジョイスティック）および表示装置といった入出力（I/O）ユーザー・インターフェース（単数または複数）１１２のようなハードウェアを有するさまざまな既知のコンピュータ・プラットフォームの任意のもので実装される。コンピュータ・プラットフォームはまた、オペレーティング・システムおよびマイクロ命令コードを含む。本稿に記載されるさまざまなプロセスおよび機能は、マイクロ命令コードの一部、あるいはオペレーティング・システムを介して実行されるソフトウェア・アプリケーション・プログラム（またはその組み合わせ）の一部であってもよい。ある実施形態では、ソフトウェア・アプリケーション・プログラムはプログラム記憶デバイス上で有形的に具現され、後処理装置１０２のような任意の好適な機械によってアップロードおよび実行されうる。さらに、さまざまな他の周辺装置がコンピュータ・プラットフォームに、さまざまなインターフェースおよびパラレル・ポート、シリアル・ポートまたはユニバーサル・シリアル・バス（USB）といったバス構造によって接続されてもよい。他の周辺装置は、追加的な記憶装置１２４およびプリンタ１２８を含んでいてもよい。プリンタ１２８は、フィルムの修正版１２６、たとえばそのフィルムの立体視バージョンをプリントするために用いられてもよい。立体視バージョンでは、シーンまたは複数のシーンが以下に記載される技術の結果として3Dモデリングされたオブジェクトを使って変更または置換されていてもよい。

あるいはまた、すでにコンピュータ読み取り可能な形になっているファイル／フィルム・プリント１０６（たとえば、外部ハード・ドライブ１２４などに記憶されていてもよいデジタル・シネマ）がコンピュータ１０２に直接入力されてもよい。本稿において使われる「フィルム（film）」の用語は、フィルム・プリント（film print）またはデジタル・シネマ（digital cinema）のいずれをも指しうることを注意しておく。

ソフトウェア・プログラムは、第一の画像中の少なくとも一つの点を、第二の画像中の少なくとも一つの対応する点とマッチングする、メモリ１１０内に記憶されているステレオマッチング・モジュール１１４を含む。ステレオマッチング・モジュール１１４はさらに、立体視画像対のエピポーラー線を、該エピポーラー線が厳密に画像の水平走査線になるよう調整するよう構成されている画像歪め器（image warper）１１６を含む。

ステレオマッチング・モジュール１１４はさらに、前記第一の画像中の前記少なくとも一つの点の、前記第二の画像中の前記少なくとも一つの対応する点との視差を推定し、前記第一の画像中の前記少なくとも一つの点のそれぞれについての、前記第二の画像中の前記少なくとも一つの対応する点との推定された視差から、視差マップを生成するよう構成された視差推定器１１８を含む。視差推定器１１８は、第一および第二の画像中のピクセルをマッチングするよう構成されたピクセル・マッチング・コスト関数１３２と、視差推定になめらかさの制約条件を適用するなめらかさコスト関数１３４と、時間にわたって生成された視差マップのシーケンスを整列させるよう構成された時間的コスト関数１３６とを含む。画像中のブロックを画像シーケンスにわたってマッチングさせるための動き場アルゴリズムまたは機能を用いる動き補償器１３７が設けられる。視差推定器１１８はさらに、推定された視差を最小にする信頼伝搬（belief propagation［ビリーフ・プロパゲーション］）アルゴリズムまたは機能１３８と、信頼伝搬機能１３８を高速化するために第一および第二の画像に適用された決定論的マッチング関数の結果で信頼伝搬関数１３８を初期化する動的プログラミング・アルゴリズムまたは機能１４０とを含む。

ステレオマッチング・モジュール１１４はさらに、視差マップの視差値を逆を取る（inverting）ことによって、視差マップを奥行きマップに変換する奥行きマップ生成器１２０を含む。

図２は、本開示のある側面に基づく少なくとも二つの二次元（2D）画像のステレオマッチングのための例示的な方法の流れ図である。まず、ステップ２０２において、後処理装置１０２は少なくとも二つの2D画像、たとえば左眼および右眼のビューをもつ立体画像対を取得する。後処理装置１０２は、コンピュータ可読フォーマットのデジタル・マスター画像ファイルを取得することによって、前記少なくとも二つの2D画像を取得してもよい。デジタル・ビデオ・ファイルは、デジタル・カメラで動画の時間的シーケンスを捕捉することによって取得されてもよい。あるいはまた、従来のフィルム式カメラによってビデオ・シーケンスが捕捉されてもよい。このシナリオでは、フィルムはスキャン装置１０３によりスキャンされる。

フィルムがスキャンされるのであれすでにデジタル・フォーマットになっているのであれ、フィルムのデジタル・ファイルがフレームの位置についての指標または情報、たとえばフレーム番号、フィルム先頭からの時間などを含むであろうことは理解しておくべきである。デジタル画像ファイルの各フレームは一つの画像、たとえばI₁、I₂、…、I_nを含む。

立体視画像は、同じセッティングをもつ二つのカメラによって撮影できる。それらのカメラが同じ焦点距離、焦点高さおよび平行な焦点面をもつよう較正されているか、そうでなければ画像を既知のカメラ・パラメータに基づいて、あたかも平行な焦点面をもつカメラによって撮影されたかのように歪める必要がある（ステップ２０４）。この歪め工程は、カメラ較正（calibration）（ステップ２０６）およびカメラ矯正（rectification）（ステップ２０８）を含む。較正および矯正工程は、立体視画像のエピポーラー線を調整して、該エピポーラー線がちょうど画像の水平走査線になるようにする。図３を参照するに、O_LおよびO_Rは二つのカメラの焦点を表し、Pは両方のカメラの関心のある点を表し、p_Lおよびp_Rは点Pが画像平面上のどこに投影されるかを表す。各焦点面上の交差点はエピポールと呼ばれる（E_LおよびE_Rと表される）。右のエピポーラー線、たとえばE_R-p_Rは、焦点中心と左画像上の諸点をつなぐ射線（rays）の、右画像上の投影である。よって、左画像上の点に対応する右画像上の点は右画像上でエピポーラー線に位置されるべきである。左エピポーラー線、たとえばE_L-p_Lについても同様である。対応点の発見は、エピポーラー線に沿って起こるので、矯正プロセスは、対応探索を、走査線に沿ってのみの探索に単純化する。これは、計算コストを大幅に削減する。対応点とは、同じシーン点に対応する画像中のピクセルである。

再び図２を参照するに、ステップ２１０で、視差マップがシーン内のすべての点について推定される。ひとたび対応点が見出されると、すべてのシーン点についての視差が、左眼と右眼の画像におけるマッチした点の相対距離として計算される。たとえば、図２と関連して図４を参照するに、左眼画像中の点４０２の水平座標がxであり、右眼画像中の対応する点４０４の水平座標がx′であるとすると、視差d＝x′−xとなる。次いで、ステップ２１２において、シーン点４０６についての視差値dが奥行き値z、シーン点４０６（収束点ともいう）からカメラ４０８、４１０までの距離に、公式z＝Bf/dを使って変換される。ここで、Bは二つのカメラ４０８、４１０の間の距離で、基線長（baseline）とも呼ばれ、fはカメラの焦点距離（focal length）である。その証明は図４に示されている。

図５を参照するに、本開示に基づく、上でステップ２１０として同定された視差マップ推定の方法が提供される。まず、立体視用の画像対が取得される（ステップ５０２）。視差コスト関数が計算される。これは、ピクセル・コスト関数の計算（ステップ５０４）、なめらかさコスト関数の計算（ステップ５０６）および時間的コスト関数の計算（ステップ５０８）を含む。低コスト・ステレオマッチング最適化、たとえば動的プログラミング（dynamic programming）が実行され、二つの画像のステレオマッチングの初期の決定論的結果が得られる（ステップ５１０）。シーケンスの最初のフレームについて視差コスト関数を最小化するための信頼伝搬関数を高速化するために、前記低コスト最適化の結果が信頼伝搬関数を初期化するために使われる（５１２）。シーケンスのその後のフレームについては予測奥行きマップが信頼伝搬関数を初期化するために使われる。

図５に示される視差推定およびその定式化についてこれからより詳細に述べる。視差推定は、上記の作業フローにおいて最も重要なステップである。問題は、左眼画像と右眼画像におけるピクセルをマッチさせる、すなわち、同じシーン点に対応する左右の画像中のピクセルを見出すことにある。視差マップがなめらかであると考えることによって、ステレオマッチング問題は数学的に次のように定式化できる。

C(d(.))＝C_p(d(.))＋λC_s(d(.)) (1)
ここで、d(.)は視差場であり、d(x,y)は座標(x,y)をもつ左眼画像中の点の視差値を与え、Cは全体的なコスト関数であり、C_pはピクセル・マッチング・コスト関数であり、C_sはなめらかさコスト関数である。なめらかさコスト関数は、視差マップのなめらかさを強制するために使われる関数である。最適化プロセスの間に、上記のコスト関数はすべての視差場に関して最小化される。局所的な最適化のためには、なめらかさの項C_sは落とされる。よって、なめらかさは該最適化プロセスの間は考慮に入れられない。C_pは、種々の形の中でも、ピクセル強度の平均平方差
C_p(d(.))＝Σ_x,y［I(x,y)−I′(x−d(x,y),y)］² (2)
としてモデル化できる。

なめらかさの制約条件は、縦方向のなめらかさが強制されるかどうかに依存して異なる仕方で書くことができる。水平方向および垂直方向のなめらかさの制約条件が両方とも強制される場合には、なめらかさコスト関数は、次の平均平方誤差関数
C_s(d(.))＝Σ_x,y［d(x,y)−d(x＋1,y)］²＋［d(x,y)−d(x,y＋1)］² (3)
としてモデル化できる。

次に、時間的制約条件が図６に示されるようにコスト関数において考慮に入れられる。i番目のフレームにおける現在奥行きマップを予測するために、（i−1)番目のフレームにおける前の奥行きマップが使われる。それにより、現在の奥行きマップの推定が直前の奥行きマップによって制約されることができる。ステップ６０２では、(i−1)番目の左画像６０４および(i−1)番目の右画像６０６から(i−1)番目のフレームにおいて推定された奥行きマップがd_i-1(.)と表されるとする。i番目のフレームにおける奥行きマップを予測するために、予測奥行きマップd⁺(.)が使用される。予測奥行きマップd⁺(.)は、ステップ６０８で、(i−1)番目のフレームにおける奥行きマップをi番目のフレームに補間することによって計算される。ある実施形態では、動き情報を考えることなく、予測奥行きマップが(i−1)番目のフレームにおける奥行きマップに等しい、すなわちd⁺(.)＝d_i-1(.)である単純な補間プロセスが使われる。この予測奥行きマップを考慮に入れると、全体的な奥行きコスト関数における時間的な予測項は次のように構築できる。

C_t(d(.))＝Σ_x,y［d(x,y)−d⁺(x,y)］² (4)
ステップ６１０では、現在フレームについてコスト関数が、二つの入力画像、すなわちi番目の左画像６１２およびi番目の右画像６１４から計算される。ステップ６１６で、コスト関数を最小化して最終的な奥行きマップ結果を得る。ステップ６１８では、（式4に示されるように）計算を高速化するよう予測奥行きマップ（ステップ６０８で決定された）を使って最小化プロセス（最小化ブロック６１６）を初期化する。

したがって、全体的なコスト関数は
C(d(.))＝C_p(d(.))＋λC_s(d(.))＋μC_t(d(.)) (5)
となる。ここで、μは全体的なコスト関数において時間的な予測コスト関数に重み付けする重み付け因子である。μは経験的に決定できる。

上記の予測プロセスの主たる問題は、大きな動きがある場合に予測が不正確になるということである。したがって、本開示のシステムおよび方法は、予測の際にオブジェクトの動きを補償する仕組みを提供する。これについて以下に述べる。

ステップ６０５において、左眼シーケンスにおける相続くフレーム（たとえば、(i−1)番目の左画像６０４およびi番目の左画像６１２）の間の動き場を推定するために、動きアルゴリズムまたは機能が用いられる。そのような動き場は、それぞれ動きの水平成分および垂直成分に対応するスカラー場U(x,y)およびV(x,y)で表せる。ここで、xおよびyは、図８の（ａ）に示されるようなピクセルの座標である。たとえば、U(2,3)＝10、V(2,3)＝6であれば、(i−1)番目の左眼画像中の座標(2,3)におけるピクセルは、i番目のフレームでは水平方向に10ピクセル、垂直方向に6ピクセル動く。

動き場U(x,y)およびV(x,y)が与えられ、(i−1)番目のフレームにおいて奥行きマップがd_i-1(.)として推定されているとすると、動き補償された予測奥行きマップ（ステップ６０８で決定される）は
d⁺ _M(.)＝Warp(d_i-1(.),U(.),V(.)) (6)
と表すことができる。ここで、Warp(.)は、ステップ６０７で(i−1)番目の奥行きマップに適用される動きベクトル場を使って前の奥行きマップを歪める（または変形する）歪めアルゴリズムまたは機能である。奥行きマップを歪める仕方は、予測の方向に依存する。これについて後述する。

オブジェクトの動きを考慮に入れることによって、時間的予測項は、全体的な奥行きコスト関数において、次のように構築できる。

C_t(d(.))＝Σ_x,y［d(x,y)−d⁺ _M(x,y)］² (7)
ここで、d⁺ _Mは動き補償された予測奥行きマップである。

上記の方法の欠点は、シーケンスの最初のフレームにおいてエラーがあると、そのエラーが、シーケンスの終わりまで、残りのフレームに伝搬するということである。さらに、実験では、シーケンスの最後のフレームにおける奥行きマップがシーケンスの最初の奥行きマップよりもずっとなめらかになることが観察されている。これは、平滑化の効果が時間的制約条件をもつ最適化の際に、諸フレームにわたって蓄積されるからである。

上記の問題を解決するため、図７に示されるように、マルチパスの前方および後方プロセスが提供される。前方および後方プロセスはまず、前方方向〔前向き〕での、すなわちシーケンス中の最初のフレームから最後のフレーム、すなわちN番目のフレームに向けての時間的予測をもって、第一のパス７０２を実行する。次のパス７０４では、時間的予測は最後のフレームから出発して、最初のフレームまで後ろ向きに、たとえば(N−1)番目のフレーム、(N−2)番目のフレーム、(N−3)番目のフレーム、……1番目のフレームと進む。前方および後方予測の複数のパスをもつよう、同じ手順を繰り返すことができる。

動き補償のない前方および後方プロセスでは、前方パス７０２については予測奥行きマップはd⁺(.)＝d_i-1(.)として設定され、後方パス７０４については予測奥行きマップはd⁺(.)＝d_i+1(.)として設定される。動き補償を考慮に入れると、前方パス（forward pass）７０２については予測奥行きマップは
d⁺ _M(.)＝Warp_f(d_i-1(.),U(.),V(.)) (8)
として設定される。ここで、Warp_f(.)は前方歪め演算子である。画像Iの前方歪めは、（図８の（ｂ）に示されるように）、Iの画像平面上の各(x,y)について、次式
I(x,y)＝I_w(x＋U(x,y),y＋V(x,y)) (9)
で定義される。すなわち、前方歪めのもとでは、画像I中のピクセルは動きベクトル場U(.)およびV(.)を使ってI_wに移される。ここでは基準画像はIである。

同様に、後方（backward）予測７０４パスについては予測奥行きマップは
d⁺ _M(.)＝Warp_b(d_i+1(.),U(.),V(.)) (10)
として設定される。ここで、Warp_b(.)は後方歪め演算子である。後方歪めを使うことによって、歪められた画像は、（図８の（ｃ）に示されるように）、I_wの画像平面上の各(x,y)について、次式
I_w(x,y)＝I (x−U(x,y),y−V(x,y)) (11)
で定義される。すなわち、後方歪めのもとでは、画像I中のピクセルは動き場U(.)およびV(.)を使ってI_wに移し戻される。ここでは基準画像はI_wである。前方歪めと後方歪めの間に差がある理由は、動きベクトル場U(.)およびV(.)は常に前向きだということである。すなわち、動きベクトル(U(x,y),V(x,y))は常に(i−1)番目の画像から出発してi番目の画像で終わるのである（図８の（ａ）に示されるように）。

式5に示される全体的なコスト関数は、推定奥行きマップを得るために、種々の方法を使って最小化できる。ある実施形態では、式5のコスト関数を最小化するために信頼伝搬関数が使われる。信頼伝搬（belief propagation）は、コンピュータ視覚および機械学習において使用される高品質の最適化アルゴリズムである。信頼伝搬関数またはアルゴリズムを高速化するために、低コストの最適化アルゴリズム、たとえば動的プログラミング関数を使って、まず低品質の奥行きマップを得る。次いで、この低品質の奥行きマップを使って信頼伝搬関数またはアルゴリズムを初期化する。

あるさらなる実施形態では、低品質奥行きマップを使って信頼伝搬関数を初期化する代わりに、動き補償された予測奥行きマップd⁺ _M(.)を信頼伝搬関数を初期化するのに用いることができる。すなわち、前方予測の際には、奥行きマップd_i(.)が推定されるとき、d_i-1(.)の動き補償された奥行きマップが信頼伝搬関数を初期化するために用いられる。同様に、後方予測の際には、奥行きマップd_i(.)が推定されるとき、d_i+1(.)の動き補償された奥行きマップが信頼伝搬関数を初期化するために用いられる。この実施形態では、画像のシーケンスについて、低品質の奥行き初期化はシーケンス中の最初の画像フレームについてのみ使用される。シーケンス中の残りのフレームについては、予測奥行きマップが信頼伝搬関数またはアルゴリズムを初期化するために使われる。

図２に戻って参照するに、ステップ２１２において各シーン点についての視差値dは奥行き値z、シーン点からカメラまでの距離に、次の公式z＝Bf/dを使って変換される。ここで、Bは二つのカメラの間の距離で基線長とも呼ばれ、fはカメラの焦点距離である。少なくとも一つの画像のそれぞれ、たとえば左眼視画像についての奥行き値が、奥行きマップに記憶される。対応する画像および関連付けられた奥行きマップはたとえば記憶装置１２４中に記憶され、3D再生のために取り出されてもよい（ステップ２１４）。さらに、モーション・ピクチャーまたはビデオ・クリップのすべての画像が関連付けられた奥行きマップと一緒に、そのモーション・ピクチャーまたはクリップの立体視バージョンを表す単一のデジタル・ファイル１３０に記憶されることができる。デジタル・ファイル１３０はのちの取得のために、たとえばもとのフィルムの立体視バージョンをプリントするために、記憶装置１２４中に記憶されてもよい。

本開示の教示を組み込む諸実施形態が本稿において詳細に示され、記述されてきたが、当業者は、数多くの他の変形した、それでいてこれらの教示を取り込んでいる実施形態を容易に考案できる。前方および後方奥行き予測ならびに動き補償を用いた画像の空間時間的奥行き抽出のためのシステムおよび方法についての好ましい実施形態（これは限定するのではなく例解することを意図したものである）を記載してきたが、上記の教示に照らして当業者は修正および変更ができることを注意しておく。したがって、付属の請求項によって記載される本開示の範囲内で、本開示の個別的な実施形態に変更をなしうることは理解しておくものとする。

Claims

少なくとも二つの画像をステレオマッチングする方法であって：
シーンからの第一の画像および第二の画像のシーケンスを取得する段階であって、前記シーケンスは前記第一および第二の画像の複数の相続くフレームを含む、段階と；
少なくとも一つのフレームについて、前記第一の画像中の少なくとも一つの点の前記第二の画像中の少なくとも一つの対応する点との視差を推定する段階と；
前記少なくとも一つのフレームから少なくとも一つの次の後続フレームにかけての前記第一の画像中の前記少なくとも一つの点の動きを推定する段階と；
前記シーケンスの第一の方向の少なくとも一つの前のフレームの推定された視差に基づいて、前記少なくとも一つの次の後続フレームの視差を推定する段階であって、前記少なくとも一つの次の後続フレームの推定視差は前記推定された動きを用いて補償される、段階と；
前記シーケンスの第二の方向の少なくとも一つの前のフレームの推定された視差に基づいて、前記複数の相続くフレームのそれぞれの推定された視差を最小化する段階とを含む、
方法。
前記第一の画像は左眼視画像を含み、前記第二の画像は立体視対の右眼視画像を含む、請求項１記載の方法。
前記少なくとも一つの次の後続フレームの視差を推定する段階が、時間的コスト関数を計算する段階を含む、請求項２記載の方法。
請求項３記載の方法であって、前記時間的コスト関数を計算する段階がさらに：
前記少なくとも一つの前のフレームの推定された視差から現在フレームについての視差を予測する段階と；
前記現在フレームの第一の画像および第二の画像から前記現在フレームの視差を推定する段階と；
前記現在フレームの推定された視差を最小化する段階とを含み、前記最小化する段階は前記現在フレームについての予測された視差を用いて初期化される、
方法。
請求項４記載の方法であって、前記現在フレームについての視差を予測する段階がさらに：
前記少なくとも一つの前のフレームから前記現在フレームへの動き場を推定する段階と；
推定された動き場を用いて前記少なくとも一つの前のフレームの推定された視差を歪める段階とを含む、
方法。
請求項５記載の方法であって、前記シーケンスの第二の方向の推定された視差を最小化する段階がさらに：
推定された動き場を用いて少なくとも一つの前のフレームへ前記現在フレームの推定された視差を歪める段階を含む、
方法。
請求項１記載の方法であって、信頼伝搬機能を使って前記少なくとも一つのフレームについての推定された視差を最小化する段階をさらに含み、前記信頼伝搬機能は、低コストの最適化機能によって決定された前記少なくとも一つのフレームの推定された視差を用いて初期化される、方法。
請求項７記載の方法であって、信頼伝搬機能を使って前記少なくとも一つの後続フレームの推定された視差を最小化する段階をさらに含み、前記信頼伝搬機能は、前記少なくとも一つの前のフレームの動き補償された推定された視差を用いて初期化される、方法。
請求項３記載の方法であって、前記視差を推定する段階がピクセル・マッチング・コスト関数を計算する段階を含む、方法。
請求項３記載の方法であって、前記視差を推定する段階がなめらかさコスト関数を計算する段階を含む、方法。
少なくとも二つの画像をステレオマッチングするシステムであって：
シーンからの第一の画像および第二の画像を取得する手段であって、前記シーケンスは前記第一および第二の画像の複数の相続くフレームを含む、手段と；
少なくとも一つのフレームから少なくとも一つの後続フレームにかけての前記第一の画像中の少なくとも一つの点の動きを推定する動き補償器と；
少なくとも一つのフレームについて、前記第一の画像中の前記少なくとも一つの点の前記第二の画像中の少なくとも一つの対応する点との視差を推定し、前記シーケンスの第一の方向の少なくとも一つの前のフレームの推定された視差に基づいて、前記少なくとも一つの次の後続フレームの視差を推定し、ここで、前記少なくとも一つの次の後続フレームの推定された視差は前記推定された動きを用いて補償され、前記シーケンスの第二の方向の少なくとも一つの前のフレームの推定された視差に基づいて、前記複数の相続くフレームのそれぞれの推定された視差を最小化するよう構成された視差推定器とを有する、
システム。
前記第一の画像は左眼視画像を含み、前記第二の画像は立体視対の右眼視画像を含む、請求項１１記載のシステム。
前記視差推定器が、時間的コスト関数を含む、請求項１１記載のシステム。
請求項１７記載のシステムであって、前記視差推定器がさらに、前記少なくとも一つの前のフレームの推定された視差から現在フレームについての視差を予測し、前記現在フレームの第一の画像および第二の画像から前記現在フレームの視差を推定し、前記現在フレームの推定された視差を最小化するよう構成されており、前記最小化する段階は前記現在フレームについての予測された視差を用いて初期化される、システム。
請求項１４記載のシステムであって、前記動き補償器がさらに、前記少なくとも一つの前のフレームから前記現在フレームへの動き場を推定するよう構成されており、前記視差推定器がさらに、推定された動き場を用いて前記少なくとも一つの前のフレームの推定された視差を歪めるよう構成されている、システム。
請求項１５記載のシステムであって、前記視差推定器がさらに、前記シーケンスの第二の方向の推定された視差を最小化するのを、推定された動き場を用いて少なくとも一つの前のフレームへ前記現在フレームの推定された視差を歪める段階を含む、システム。
請求項１１記載のシステムであって、前記視差推定器がさらに、信頼伝搬機能を使って前記少なくとも一つのフレームについての推定された視差を最小化するよう構成されており、前記信頼伝搬機能は、低コストの最適化機能によって決定された前記少なくとも一つのフレームの推定された視差を用いて初期化される、システム。
請求項１７記載のシステムであって、前記視差推定器がさらに、信頼伝搬機能を使って前記少なくとも一つの後続フレームの推定された視差を最小化するよう構成されており、前記信頼伝搬機能は、前記少なくとも一つの前のフレームの動き補償された推定された視差を用いて初期化される、システム。
請求項１３記載のシステムであって、前記視差推定器がピクセル・マッチング・コスト関数を含む、システム。
請求項１３記載のシステムであって、前記視差推定器がなめらかさコスト関数を含む、システム。
少なくとも二つの画像をステレオマッチングするための方法ステップを実行するために機械によって実行可能な命令のプログラムを有形的に具現する、機械によって読み取り可能なプログラム記憶デバイスが提供であって、前記方法は：
シーンからの第一の画像および第二の画像のシーケンスを取得する段階であって、前記シーケンスは前記第一および第二の画像の複数の相続くフレームを含む、段階と；
少なくとも一つのフレームについて、前記第一の画像中の少なくとも一つの点の前記第二の画像中の少なくとも一つの対応する点との視差を推定する段階と；
前記少なくとも一つのフレームから少なくとも一つの次の後続フレームにかけての前記第一の画像中の前記少なくとも一つの点の動きを推定する段階と；
前記シーケンスの第一の方向の少なくとも一つの前のフレームの推定された視差に基づいて、前記少なくとも一つの次の後続フレームの視差を推定する段階であって、前記少なくとも一つの次の後続フレームの推定視差は前記推定された動きを用いて補償される、段階と；
前記シーケンスの第二の方向の少なくとも一つの前のフレームの推定された視差に基づいて、前記複数の相続くフレームのそれぞれの推定された視差を最小化する段階とを含む、
プログラム記憶デバイス。
前記少なくとも一つの次の後続フレームの視差を推定する段階が、時間的コスト関数を計算する段階を含む、請求項２１記載のプログラム記憶デバイス。
請求項２２記載のプログラム記憶デバイスであって、前記時間的コスト関数を計算する段階がさらに：
前記少なくとも一つの前のフレームの推定された視差から現在フレームについての視差を予測する段階と；
前記現在フレームの第一の画像および第二の画像から前記現在フレームの視差を推定する段階と；
前記現在フレームの推定された視差を最小化する段階とを含み、前記最小化する段階は前記現在フレームについての予測された視差を用いて初期化される、
プログラム記憶デバイス。
請求項２３記載のプログラム記憶デバイスであって、前記現在フレームについての視差を予測する段階がさらに：
前記少なくとも一つの前のフレームから前記現在フレームへの動き場を推定する段階と；
推定された動き場を用いて前記少なくとも一つの前のフレームの推定された視差を歪める段階とを含む、
プログラム記憶デバイス。
請求項２４記載のプログラム記憶デバイスであって、前記シーケンスの第二の方向の推定された視差を最小化する段階がさらに：
推定された動き場を用いて少なくとも一つの前のフレームへの前記現在フレームの推定された視差を歪める段階を含む、
プログラム記憶デバイス。