JP2010506482A

JP2010506482A - ビデオストリームの視差回復方法及びフィルタ

Info

Publication number: JP2010506482A
Application number: JP2009530985A
Authority: JP
Inventors: バウフホルベル，ファイサル
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2006-10-02
Filing date: 2007-09-28
Publication date: 2010-02-25
Also published as: WO2008041167A3; WO2008041167A2; CN101523436A; US20090316994A1

Abstract

本発明は、画像間の視差（ｄｉ，ｋ）のデータをデジタルフィルタリング処理により生成するように、画素のラインにより形成されたデジタル画像を含むビデオストリームのデジタル画像（１，２；１０，２０）中の視差（ｄｉ，ｋ）を、デジタルフィルタリング処理により回復する方法に関する。本方法は、深度を特定する画像サイト（ｉ，ｊ）を決定する初期ステージを含み、前記フィルタリングは、前記サイト（ｉ，ｊ）の画素の特性（ｃｉ，１、ｃｊ，１）により、及び前記サイト（ｊ）と前記サイトに近いサイト（ｊ′）との間の画像類似性により、同時に決まる重み付け平均化（ωｉ，ｋ）に基づき前記画像（１，２；１０，２０）の前記サイト（ｉ，ｊ）間の視差（ｄｉ，ｋ）を計算する。前記フィルタリングの収束品質は、各繰り返し（ｋ）において、小さなランダムな励起（εｉ，ｋ）を前記視差（ｄｉ，ｋ）から求めた深度推定（δｉ，ｋ）に加えることにより改善される。

Description

本発明は画像視差の回復に関し、例えば少なくとも２つの同期ステレオ画像ストリームからのリリーフ（relief）の回復、または連続する画像ストリームの画像分析による動きの回復に関する。

ステレオ画像によるレリーフ（relief）の光学的補償（optical restitution）の原理は当業者には周知である。この補償（restitution）は、例えば、２つのビデオカメラのレンズの位置に見る者の目の位置を一致させる双眼スペクタクル（binocular spectacles）の使用により得られる。これらの画像のシーンに表れる様々なオブジェクトやキャラクターは、異なる点にある。何故なら，ｉ）カメラの視点が異なり、ｉｉ）シーン、オブジェクト、またはキャラクターはカメラからの距離が異なり、または深度が異なり、見る者の脳がシーンのレリーフ（relief）の印象を回復するからである。

しかし、単なる印象ではなく、ここで問題となるのは、デジタル化したステレオ画像データから深度を回復して、シーンにおけるオブジェクトやキャラクターの深度を精密に数量化することである。

かかる回復を行うにあたり、同時に撮ったピクチャを、すなわち、予め分かっているだろうカメラ間の（固定された）位置的オフセットやカメラ系の動的な動き以外の２つの画像間のシーンにおける物や人の動きが原理的に無いピクチャを、処理することになる。

しかし、一定の明確に定められた時間間隔で、相次いで撮ったシーンの２つの連続するピクチャ間のオブジェクトやキャラクターの動きを回復したい場合もある。

この２つの場合の後者のように時間領域でも、または前者のように空間領域でも、解決すべき問題は同じであり、原理的に、連続してまたは同時に撮った２つの画像間の物や人の動き（shift）を決定するという問題である。

簡単に言えば、動的セッティングにおけるレリーフを回復したとき、カメラシステムのシフト（shifting）と、シーン中のオブジェクトの動き（movement）によるシフトと、深度に起因する画像中の相対的なシフトとを同時に考慮しなければならない。これらのシフトはすべて等しく、画像間の視差を生じ、正確に数量化する必要がある。後工程の計算により、深度から動き及び／またはシフトを識別でき、または動き及び／またはシフトから深度を識別することができる。

Tian及びBarron著「A quantitative comparison of ４ algorithms for recovering dense accurate depth」、Proceedings of the Second Canadian Conference on Computer and Robot Vision、IEEE ６/０５に記載されているように、視差を回復するにはカルマンフィルタベースの計算法を使用せざるを得ないが、これはリアルタイムの場合には困難である。

カルマンフィルタは、推定すべき変数（adopted representation of the variables）がマルコフ的であると仮定した予測再帰統計的フィルタである。この仮説により、各繰り返しで、観測の前後に各変数の推定に生じたエラーの共分散を計算でき、その共分散からその後の観測に適用すべきゲインや重みを求めることができる。フィルタは再帰的であり、過去の観測地を保持する必要はない。

このフィルタは、多くの分野でよく使われており、推定すべき変数の数が十分少なく、または観測間の利用可能時間が十分大きく、関与する変数の数を計算できるリアルタイムのアプリケーションでよく使われている。ステレオ画像の深度を計算する場合、変数の数は画像の画素数と同じオーダーであり、２つの観測間の時間は最大でも数１０ミリ秒であり、ビデオストリームの連続した画像間の繰り返し数を計算する。現在、フィルタの各繰り返しにおいてすべての変数の共分散を計算することは不可能であり、この動作がカルマンフィルタのゲインの計算で重要である。

出願人は、３次元レンズ状モニターで３次元合成画像の即時補正や、航空または宇宙写真によるレリーフの即時決定などのアプリケーションの実現を開始し、動的設定及びリアルタイムでの画像視差の回復の問題に行き当たった。

この状況において、出願人は、カルマンフィルタの使用を提案する方法より直接的な計算方法を探した。カルマンフィルタの使用は、３次元の可視化アプリケーションには適用できない。

以上を念頭に置いて、本発明は、画像間の視差のデータをデジタルフィルタリング処理により生成するように、画素のラインにより形成されたデジタル画像を含むビデオストリームのデジタル画像中の視差を、デジタルフィルタリング処理により回復する方法に関する。前記方法は、深度を特定する画像サイトを決定する初期ステージを含み、前記フィルタリングは、サイト画素の特性により、及び前記サイトと前記サイトに近いサイトとの間の画像類似性により同時に決定される重み付け平均化に基づき、前記画像の前記サイト間の視差を計算する反復フィルタリングである。有利にも、フィルタの収束品質は、各繰り返しにおいて深度推定に小さなランダムな励起を加えることにより、再帰的フィルタの計算の各繰り返しにおいて改善することができる。

重み付けは、すぐ近傍で行われる観測だけにより決まる。共分散の計算はしなくてよい。

本発明による、ビデオストリームの画像のレリーフと動きを回復する再帰的フィルタリングプロセスすなわち処理の以下の説明と、添付した図面とを考慮すれば、本発明をよりよく理解できるであろう。
繰り返しループ中に２つの画像の再帰的フィルタリングを実行する深度回復手順を示す図である。本発明による再帰的フィルタを示す機能的フローチャートである。

発明の詳細な説明

異なる視点からの撮った同一のシーンのデジタル画像を、同時にピクチャを撮る２つのカメラシステム（図示せず）（この場合ビデオカメラ）により供給する。視点が異なるので、ビデオ画像はステレオ画像（a set of stereo images）を構成する。単純化のため、後述する処理により画像１、２を供給する２つのシステムのみを考える。この処理は、より複雑な複数のシステムにも、例えばシステムのペアに対してこの処理を実行することにより適用することも可能である。

各デジタル画像は、基本的には、画素のラインごとに１．．．ｉ、ｊ．．．と線形にインデックスされた所定の画素集合により表される。画素は、複数の８ビット（octet）で決まる色や強さの特性ｃｉ、ｃｊを有し、１つの８ビットでグレーレベルを表し、３つの８ビットでそれぞれ基本色レベル（ＲＧＢまたはＣＭＹ）を表す。

以下の処理では、インデックスされた各ピクセルの周囲にある所定範囲の近傍領域（neighborhoods）を決めると都合がよい。近傍領域のサイズは、画素数として表され、回復する深度の角度分解能として構成する。この決定は、１つのサイト決定ステージでだけ行われる。

例えば、ｉ，ｊ．．．と付番された各近傍領域は、図１に示したように方向付けされた、１辺がピクセルｉを中心とする２Ｎ＋１個の画素を有する正方形で構成され、各近傍領域すなわちサイトは隣接する４つのサイトと連続している。すなわち、ある画素ラインのｉ及びｉ＋１とインデックスされた画素は、Ｐ＝２Ｎ＋１画素のピッチだけ離れ、インデックスされた画素のラインも同様にＰ個のインデックスされていない画素のピッチだけ離れている。

しかし、オーバーラップしたサイト、すなわちＰが２Ｎ＋１より小さい場合を想定してもよい。または半径Ｎであり、ＰがＮ×√２より小さい円形サイトを想定してもよい。

換言すると、本回復方法は、マップ１０、２０、３０に適用する深度を特定する、画像のサイト（ｉ，ｊ）を決定する最初のステージを含む。

これらの近傍領域すなわちサイトｉ，ｊの完全な集合は、各画像１，２に対して、サイト１１．．．１９，２１．．．が特定されたサイトｉ，ｊのマップ１０、２０を構成する。図面を簡単にするために、各マップではサイトは９個に任意的に限定されている。２つの画像１０，２０間のアルゴリズムにより、同様にサイト３１．．．のマップ３０を提供する。これはオブジェクトやキャラクターの位置の違いを示し、以下に説明する。

２つの画像１、２間の違いや視差や動きを回復する処理は、再帰的フィルタリングであり、図１と図２を参照して以下に説明する。

フィルタの各繰り返しｋにおいて、マップ１０の座標ｉ，ｊの各サイトと、マップ２０のサイトｊ′とについて、次式（１）により各サイトｉとｊの間の重みωｉ，ｊを計算する。

この式（１）では、ｃｉ，１とｃｊ，１は、上記の、マップ１０のサイトｉとｊの特性ｃｉとｃｊであり、ｃｊ′，２はマップ２０のサイトｊ′の特性である。

ωｉ，ｊは２つの項により決まる：

この第１の項（図１に示した）は、マップ１０の２つのサイトｉとｊの間の画像特性の違いにペナルティを与える。

この第２の項は、画像２０のサイトｊとｊ′、及び結局２つの画像１０と２０との間における局所的かつ平均的な一致を確保し、色の相対的な類似性による深度のロス（ブリーディング）と、色が一様なオブジェクトの平坦化の問題を解決する。

係数αとβは事前に較正し、再帰的フィルタの共分散がよくなるように調整する。

この場合、指数型の重みωｉ，ｊを選択するが、単調減少する重みであれば他のどんなものを用いても良い。計算の複雑性を、必ずしも収束性を損なわずに低減することができる。

マップ２０のインデックスｊ′は、式（２）により前の繰り返しｋ−１の計算結果に基づき計算される視差ｄｊ，ｋのマップ３０における計算と更新後の、マップ１０のインデックスｊに対応する。

より具体的には、図２において、フィルタリング処理の収束の繰り返しｋにおいて、一方では画像１のサイトｉの特性ｃｉ，１と、他方では前の繰り返しｋ−１の出力１０６において得られた視差ｄｉ，ｋ−１を、式（２）による視差ｄｉ，ｋの計算の第１のステージ１００の入力１０１及び１０３にそれぞれ送る。

マップ３０の視差の初期値ｄｉ，ｏは乱数でも一様な値であってもよい。

この繰り返しｋにおいて、繰り返しｋ−１の出力１０６で得られた視差ｄｉ，ｋ−１と、画像２のサイトｊの特性ｃｊ，２を、それぞれ、画像補償ステージ２００の入力１０３と１０２に送り、画像補償ステージ２００は、現在の補償推定を用いて画像２の画素を直接シフトする。実際には、この実施形態は、画像２そのものをハング（hanging）する必要はなく、画像２から画素の動き補償されたフェッチを行うことにより実現できる。ステージ２００により、出力１０４において、画像２のサイトｊに対する画像２のサイトｊ′の新しい推定が得られる。

マップ１０と２０（または画像１と２）は変化しない。マップ３０だけが各繰り返しで更新される。

出力１０４は、視差ｄｉ，ｋを計算する計算ステージ１００の入力に送られる。

これは、ステージ１００において、入力１０１、１０３及び１０４を考慮して式（１）により重みωｉ，ｊを計算し、ωｉ，ｊが分かったら、式（２）によりｄｉ，ｋを計算し、これからサイトｉの深度δｉ，ｋを当業者には周知の式により求めることにより行う。

換言すると、本回復方法は、画像１と２のサイトｉとｊの間の視差（ｄｉ，ｋ）の計算に、２つのステージ１００と２００を有する再帰的フィルタリングを適用する。これらのサイトの計算結果は、重みωｉ，ｋにより重み付けされた式（２）の平均化の後に、マップ１０と２０に格納される。重みωｉ，ｋは、係数αによりサイトｉとｊの画素の特性ｃｉ，１とｃｊ，１により、及び係数βによりサイトｊとそれに隣接するサイトｊ′間の画像の類似性により、式（２）を通じて同時に決定される。

フィルタの収束品質は、ステージ１００の出力１０５に、各計算の繰り返しｋにおいて、ステージ３００をさらに含めることにより改善される。ステージ３００において、求めた深度推定δｉ，ｋに、小さなランダムな励起εｉ，ｋを加える。

実際、特に最初の視差マップ３０で一様な値を用いた場合、ランダムな励起は収束のために有用なステップである。

ステージ１００、２００、３００はすべてのサイトｉについて上記の手順に従って繰り返され、インデックスｉの繰り返しを、再帰的フィルタが十分に収束する値Ｋになるまで、収束繰り返しインデックスｋによりグローバルに繰り返す。

有限回Ｋの繰り返し後に収束し、この数はフットプリントＰに反比例することが分かる。繰り返し回数を、実験的に決めた閾値Ｋに制限してもよい。所定の停止基準を使うこともできる。例えば、サイトｉの全体にわたる差異｜δｉ，ｋ−δｉ，ｋ−１｜の最大値を所定の収束閾値Ｓと比較する。最初、可能性のある、一様な、またはランダムな視差ｄｉ，ｏのマップ３０から始める。ただし、これらの最後のものが好ましい。他の方法で準備された、改善された視差のマップから開始してもよい。

全体的なプロセスは、十分高速であり、カメラにより撮ったステレオビデオピクチャの全ての（または十分な数の）ペアに「オンザフライ（on the fly）」かつリアルタイムに実行でき、収束後に視差ｄｉ，Ｋの、または同じ事であるがインデックスされた画素の深度の、対応する連続したマップ３０をリアルタイムで提供する。

このフィルタリングは、例えば、奇数にランキングされた画像よりなる録画を偶数にランキングされた続きの画像（ensuing images）よりなる録画と比較することにより、１つのカメラである期間にわたり（over time）録画したシーンにおける人の動きの検出及び数量化でも機能する。これにより、人のシフトと動きの速さを正確に数量化できる。

再度、本発明によるフィルタリング処理は、プロセッサ４００を有する再帰的デジタルフィルタにより実行される。プロセッサ４００は、式（２）に対応する視差計算プログラムが記憶され実行される、視差ｄｉ，ｋを計算する第１のモジュール１００で画像１のデータを受け取り、視差補正を計算する第２のモジュール２００で画像２のデータを受け取り、第２のモジュール２００の出力１０４は視差１００を計算する第１のモジュールの入力に接続され、第１のモジュールの出力は両方のモジュール１００と２００の入力１０３にループされている。

実際、モジュール１００の出力１０５は、モジュール３００の入力に接続され、モジュール１００の出力の深度推定と小さなランダムな励起を加え、フィルタの収束品質を改善する。モジュール３００の出力１０６は、両方のモジュール１００と２００の入力１０３にループされる。

式（１）による重み計算プログラムもモジュール１００に記憶され実行される。

本発明を、図面と上記の説明に詳しく示し説明したが、かかる例示と説明は例であり限定ではなく、本発明は開示した実施形態には限定されない。請求項に記載した発明を実施する際、図面、本開示、及び添付した特許請求の範囲を研究して、開示した実施形態のその他のバリエーションを、当業者は理解して実施することができるであろう。

請求項において、「有する（comprising）」という用語は他の要素やステップを排除するものではなく、「１つの（"a" or "an"）」という表現は複数ある場合を排除するものではない。単一のプロセッサまたはその他のアイテムが請求項に記載した複数のユニットの機能を満たすこともできる。相異なる従属クレームに手段が記載されているからといって、その手段を組み合わせて有利に使用することができないということではない。コンピュータプログラムは、光記憶媒体や他のハードウェアとともに、またはその一部として供給される固体媒体などの適切な媒体に記憶／配布することができ、インターネットや有線または無線の電気通信システムなどを介して他の形式で配信することもできる。請求項に含まれる参照符号は、その請求項の範囲を限定するものと解してはならない。

Claims

画像間の視差のデータをデジタルフィルタリング処理により生成するように、画素のラインにより形成されたデジタル画像を含むビデオストリームのデジタル画像中の視差を、デジタルフィルタリング処理により回復する方法であって、
前記方法は、
深度を特定する画像サイトを決定する初期ステージを含み、前記フィルタリングは、前記サイトの画素の特性により、及び前記サイトと前記サイトに近いサイトとの間の画像類似性により、同時に決まる重み付け平均化に基づき前記画像の前記サイト間の視差を計算する方法。
前記フィルタリングの収束品質は、各繰り返しにおいて、小さなランダムな励起を前記視差から求めた深度推定に加えることにより改善される、請求項１に記載の方法。
前記重み付けは指数型である、請求項１または２に記載の方法。
前記重み付けは

により計算される、請求項３に記載の方法。
前記再帰的フィルタリングの繰り返しの総数は、事前に実験的に決定される閾値に制限される、請求項１または２に記載の方法。
前記フィルタリングの停止に収束基準を用いる、請求項１または２に記載の方法。
前記フィルタリングの初期視差はランダムな視差である、請求項１または２に記載の方法。
請求項１に記載のビデオストリームのデジタル画像における視差を回復する方法を実行する再帰的デジタルフィルタであって、
視差計算プログラムが記憶され実行される、視差を計算する第１のモジュールと、視差補正を計算する第２のモジュールと、を有し、前記第２のモジュールの出力は前記第１のモジュールの入力に接続され、前記第１のモジュールの出力は前記第１と第２のモジュールの入力にループされる再帰的デジタルフィルタ。
前記第１のモジュールは重み計算プログラムも含む、請求項７に記載のフィルタ。
前記第１のモジュールの出力は、前記フィルタの収束品質を改善する第３の加算器モジュールに接続される、請求項７に記載のフィルタ。