JP2004526266A

JP2004526266A - 複数のビューを合成する方法

Info

Publication number: JP2004526266A
Application number: JP2002588087A
Authority: JP
Inventors: リー，ミ−スエン; ブロドスキー，トマス; ウェインシャル，ダフナ; トライコヴィッチ，ミロスラフ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-05-08
Filing date: 2002-04-24
Publication date: 2004-08-26
Also published as: CN1462561A; CN1241419C; US6965379B2; KR100950169B1; WO2002091754A1; ATE318483T1; DE60209365D1; EP1393581B1; DE60209365T2; EP1393581A1; KR20030019559A; US20020167512A1

Abstract

単眼入力画像は、少なくとも２つの出力画像を形成することにより、単眼入力画像に、高められた３次元の様相が与えられるよう変換される。前景対象物と背景対象物は、入力画像においてセグメント化されて、互いに異なるように変換されて、それにより、前景対象物は背景から飛び出すように見えるようにされる。入力画像のシーケンスが与えられると、前景対象物は、出力画像において、背景対象物から異なるように動くように見える。

Description

【０００１】
本発明は、ビデオ材料の合成、特に、ビデオ材料の３次元的な様相を高めるための合成の分野に係る。
【０００２】
任意の視点からカメラにより捕捉されたかのように３Ｄシーンの画像を合成することは、周知の研究課題であり、幾つか異なるアプローチが提案されている。完全な３Ｄモデルが与えられて、任意の視点からシーンをレンダリングすることができる。レンダリング技術は、コンピュータグラフィックスの分野では公知である（例えば、Ｊ．Ｄ．フォーレイ（Ｆｏｌｅｙ）、Ａ・バンダム（ｖａｎＤａｍｍ）、Ｓ．Ｋ．フェイナー（Ｆｅｉｎｅｒ）、及び、Ｊ．Ｆ．ヒューゴス（Ｈｕｇｈｅｓ）による、「Computer Graphics - Principles and Practice」（アディソン・ウェズリー（Addison Wesley）、１９９２年、第２版、第１４章）に説明される）。しかし、モデルの生成は時間がかかって退屈であり、間違いを起こしやすく、労働集約的である。
【０００３】
一方、一部の研究者は、画像から直接３Ｄ情報を推測することを試みている。画像シーケンスから対象物の形状とカメラ動作の両方を回収する様々な方法が考え出されている（例えば、Ｏ・ファーゲラス（Ｆａｕｇｅｒａｓ）による、「Three-Dimensional Computer Vision: a Geometric Viewpoint」、ＭＩＴプレス、１９９３年）。これらの方法は一般的に、計算集約的である。さらに、多くの場合、入力シーケンスは、パン−チルト−ズームカメラにより捕捉され、このことは、シーンの３Ｄモデルの再生を阻止する。
【０００４】
別のアプローチは、画像に基づいたレンダリングを行うことである（Ｌ．マクミラン：「An Image Based Approach to Three-Dimensional Computer Graphics」、博士論文、University of North Carolina、１９９７年）。このアプローチでは、対象物及び環境の明示的な３Ｄモデルを必要としない。これらの方法は、投影的な制約と不変量を用いることによって３Ｄにおける推論を回避している。
【０００５】
本発明は、単眼画像シーケンスから始めてシーンの複数のビューを合成することを目的とする。
【０００６】
このことは、各入力画像に対し、シーンの２つ以上の新しいビューが生成されることにより達成される。このようなビューは、３Ｄ−ＴＶ装置又は任意の他の好適なビューイング機器上で表示するのに適している。入力画像は、動く対象物と、静止した背景とにセグメント化される。背景は更に、複数の領域にセグメント化され得る。各領域に適切な変換を適用することにより、新しいビューが生成される。画像シーケンスから必要な情報が入手できない場合でも、簡単なドメイン知識を用いて、ビューの良好な近似が作成されて有利である。
【０００７】
更なる目的及び利点は、以下において明らかとなる。
【０００８】
本発明は、以下の添付図面を参照しながら、非制限的な例によって説明する。
【０００９】
図１は、時として、バーチャルリアリティ装置とも称する一般的な３Ｄ画像ビューイング機器を示す。この装置は、プロセッサ１０１と、メモリ１０３と、選択的に、ディスプレイ１０２、ネットワーク接続１０４といった様々な周辺機器、又は、プリンタ、キーボード、マウス、マイクロホン、スピーカ、カメラ、及び／又は遠隔制御器といった図示しない他の種類の周辺機器を含む。接続は、有線でも無線でもよい。プロセッサは、ＰＣ、テレビジョン、又はセットトップボックスに組み込まれるような任意のタイプであり得る。この装置は、ネットワーク接続１０４を介して追加の処理又はメモリ出力にアクセスし得る。ネットワーク接続１０４は、インターネット、ケーブルテレビジョン、及び／又は、ローカルエリアネットワーク（ＬＡＮ）といった任意の好適なネットワーク接続である。一般的に、３Ｄ効果は、ビューイング装置１０５を用いて達成されるが、ビューイング装置１０５は、目視者の２つの目のそれぞれに示される画像間の差が３次元の幻覚を与えて、ステレオ画像を形成する。
【００１０】
図２は、本発明の方法のフローチャートを示す。本発明の方法は、プロセッサ１０１によって、又は、ネットワーク接続１０４を介してアクセスされる遠隔プロセッサにおいて実行され得る。好適な実施例は、ソフトウェアとして説明するが、当業者によって、ハードウェアにおいても同等に実施可能である。
【００１１】
本発明は、更に、図３の概略図に関して説明する。図３は、テニスの試合を示す。二人の選手３０３、３０２が、観客が座るスタンド３０１の前にあるコート３０４で試合をしている。コート３０４及びスタンド３０１は、テニスの試合に対応する知識ドメインのうちの既知のタイプの対象物である。
【００１２】
入力は、例えば、テニスの試合中に撮られた画像シーケンスＩ_１、Ｉ_２、Ｉ_３、・・・である。図２は、シーンの２つの立体的なビューを生成するために適用される段階を示す。文字「Ｌ」は、立体出力の左のビューに関する画像及び変換を言及するために用い、文字「Ｒ」は、右のビューに関する画像及び変換を言及するために用いる。
【００１３】
段階２０１において、動く対象物が、静止した背景からセグメント化される。ここでは、選手３０２及び３０３がセグメント化される。このセグメンテーション方法の詳細は、図４を参照しながら説明する。次に、段階２０２において、ドメイン知識を用いて、背景を個々の領域に更にセグメント化する。段階２０２の詳細については、図５を参照しながら説明する。
【００１４】
段階２０３において、新しいビューが選択される。詳細は、図６を参照しながら説明する。段階２０２及び２０３の演算は、並列で行われ得る。段階２０４において、各領域ｍに対し、変換ＴＬ_ｍ及びＴＲ_ｍが計算される。図７に、この方法を示す。
【００１５】
次に、段階２０５において、セグメント領域は、変換ＴＬ_ｍを用いて、左のビューを形成するようワープされる。領域は更に、変換ＴＲ_ｍを用いて、右のビューを形成するようワープされる。詳細は、図８を参照しながら説明する。
【００１６】
動く対象物のセグメンテーション
図４は、段階２０１において行われる更なる段階を示すフローチャートである。段階４０２、４０５、及び、４０９において、記号「・」は、画像へのホモグラフィの適用を示す。
４ａ．段階４０１において、各入力画像Ｉ_ｋに対し、ホモグラフィ変換Ｈ_ｋを予測し、それにより、Ｈ_ｋがフレームＩ_ｋに適用されるとき、変換されたフレームにおけるテニスコートの画像は、第１のフレームＩ_１におけるテニスコートの画像と位置合わせされる。
【００１７】
ホモグラフィは、３×３マトリクスＨによって表され、これは、画像中の点（ｘ，ｙ）を、図９の式（１）により表される点にマッピングする。図９の式（１）において、ｈ_ｉｊホモグラフィパラメータは、ホモグラフィマトリクスＨからの値である。このことは、例えば、上述した、Ｏ・ファーゲラスによる「Three-dimensional Computer Vision」におけるように当該技術において周知である。
【００１８】
入力画像の位置合わせは、画像シーケンスの空間−時間的な導関数を計算し、通常のフローを予測し、更に、ホモグラフィパラメータを線形予測することにより行われる。このことを達成する１つの方法は、Ｒ．プレス（Ｐｌｅｓｓ）外による「Detecting Independent Motion: The Statistics of Temporal Continuity」（ＩＥＥＥＰＡＭＩ報告書、第２２巻、第８号、２０００年８月）に記載される。
【００１９】
あるいは、バート（Ｂｕｒｔ）外に発行された米国特許第５，６２９，９８８号に示すように、特徴点（例えば、コーナ）及び／又はラインを見つけ出して、入力画像とマッチングされることが可能であり、また、ホモグラフィは、マッチングされた特徴から予測することができる。
【００２０】
段階４０２において、Ｊ_ｋは、変換Ｈ_ｋを、画像Ｉ_ｋに適用した結果を表す。
４ｂ．ドメイン知識から、多くのテニスシーケンスにおいて、カメラは、パンする、チルトする、及びズームすることが可能にされるが、そうでなければ、コートの周りを動かないことが知られている。パン−チルト−ズームカメラに対し、段階４０１において計算された変換は、テニスコートのみならず、シーン中の任意の他の静止特徴と位置合わせされる。動く選手だけが位置合わせされない。
【００２１】
段階１からの変換された画像Ｊ_ｋは、段階４０３において、シーンのモザイクを形成するよう組合されることができる。モザイクにおける各画素に対し、画像Ｊ_ｋからの１つ以上の画素がある。動く対象物（選手）を取り除くためには、各画素における複数の値にメディアンフィルタが適用され、モザイクＭに中央値が入れられる。
【００２２】
中央値は、以下のように計算される。特定の画素に対し、値ｘ_１、ｘ_２、…、ｘ_ｋがあるとする。これらの値はソートされ、ソートされた値は、ｙ_１、ｙ_２、…、ｙ_ｋと示され、ただし、ｙ_１＜＝ｙ_２＜＝…＜＝ｙ_ｋである。その場合、中央値は、ｙ_ｋ／２である。
【００２３】
モザイクを作成する代替の方法は、米国特許第５，６２９，９８８号に記載される。
４ｃ．逆変換（Ｈ_ｋ ^−１）が、モザイクＭに適用され、結果が適切にクロッピングされると、背景画像Ｂ_ｋが、段階４０５にて得られる。背景画像は、動く対象物が取り除かれ、且つ、他のビューから見えた背景からの画素によって置換されること以外は、入力画像Ｉ_ｋと同じである。
４ｄ．次に、入力画像Ｉ_ｋは、対応する背景画像Ｂ_ｋと比較されて、段階４０６において、マスク画像Ｍ_ｋを形成する。マスク画像Ｍ_ｋの画素値は、Ｉ_ｋとＢ_ｋとの差が閾値より大きいと１であり、閾値より小さければ０である。次に、段階４０７において、画像Ｉ_ｋから、マスク画像Ｍ_ｋにおいて１と設定される画素が引かれ、残りの画素は、黒となるよう設定される。結果として、動く対象物の画像Ｆ_ｋが得られる。
【００２４】
静止背景のセグメンテーション
図５は、段階２０２の展開を示す。ドメイン識別情報は、段階５０１において、電子番組ガイドデータから、又は、ブロードキャストビデオ中のクローズドキャプションデータを分析することにより得られる。ドメイン識別情報が入手可能でなくても、他と区別する特徴を検出する（段階５０２）ことによって、入力ビデオが正しいドメインからであるか否かをテストすることができる。予期される特徴が検出されると、処理は、ドメイン識別情報無しでも進めることができる。
【００２５】
ドメイン知識は、更に、デジタルＴＶブロードキャスト内から入手可能であるＭＰＥＧストリームメタデータを介しても供給され得る。ドメイン識別情報のみが伝送される場合、そのドメイン知識は、あらかじめメモリ１０３内に格納されなければならない。
【００２６】
図３の例では、ドメイン知識は、コート３０５の形状、センターネット３０４が垂直であるという事実、及び、スタンド３０１の形状に関するいくつかの想定を含み得る。
【００２７】
段階５０２において、ドメインの他と区別する特徴が検出される。テニスの試合の場合、他と区別する特徴は、コート３０５のラインであり得る。追加の特徴は、テニスコートの色は一様であるという知識であり得る。特徴は、以下の通りに検出される。
５ａ．画像中のラインを見つける。例えば、画像中のラインを検出する周知の方法は多数ある。
５ｂ．一様の色を有する大きい領域を見つけ、この大きい領域内における、段階５ａにて見つけたラインのみを選択する。
５ｃ．検出したラインと格納されるモデルにおけるラインセグメントをマッチングする。このことは、２つ以上の検出したラインセグメントをランダムに選択し、且つ、それらを、モデル中のすべてのセグメントとマッチングすることにより行われる。各マッチングは、画像とモデル間の変換を決める（この変換はホモグラフィであり、というのは、コートは平面だからである）。
５ｄ．段階５ｃで得た各ホモグラフィについて、その変換を入力画像に適用し、モデルにおけるラインセグメントとマッチングする、変換された画像におけるラインセグメントの数と、マッチングするセグメントがどれだけ良好に合わさるのかを見つける。
５ｅ．段階５ｃ及び５ｄが繰り返されて、最終変換が選択される。最終変換のもとで、ほとんどのセグメントはマッチングされ、変換された入力とモデルとの間に最高の位置合わせを有する。
【００２８】
段階５０３において、背景は更に、テニスコートと他の領域にセグメント化される。テニスの試合の場合、これらの特徴には、ネット、審判スタンド、及び、観客スタンド３０１を含み得る。これらの領域は、ドメイン知識に基づいてセグメント化される。例えば、ネットは、コート上のラインに対し既知の位置にある。審判スタンドは、コート自体にあり、その色はコートの色とは異なることが知られており、従って、審判スタンドは、色に基づいてセグメント化することができる。必要なセグメンテーションの種類に関する詳細は、ビシブジット・Ｓ．ナルワ（ＶｉｓｈｖｊｉｔＳ．Ｎａｌｗａ）による「A Guided Tour of Computer Vision」（アディソン・ウェズリー（Addison-Wesley）、１９９３年）の第３章３節「Image Segmentation」に記載される。
【００２９】
この段階の結果、各領域に対し１つのマスク画像（段階４０６にて得られるマスク画像に類似する）が得られる。各領域について、領域における画素に対応するマスク画素は、１に設定され、それ以外の画素は、０に設定される。
【００３０】
テニスコートの変換の決定
図６において、テニスコートの画像に適用される変換が決定される。ここでいうテニスコートとは、グランドのみを意味する。他のセグメント化された背景領域についての変換は、次のセッションである「他の領域の変換の決定」にて決定する。コートは平面なので、変換は、ホモグラフィである。ＨＬとＨＲを決めるために、２つの選択的な方法がある。
６ａ．モデルと入力画像との間にマッチングが利用可能である場合（段階６０１、段階５０２から）段階６０２において、（コートに対する）本質的な及び非本質的な較正パラメータを決定することができる。これを行うための公知の技術があり、例えば、エマニュエル・トリュッコ（ＥｍａｎｕｅｌｅＴｒｕｃｃｏ）、アレッサンドロ・ヴェリ（ＡｌｅｓｓａｎｄｒｏＶｅｒｒｉ）による「Introductory techniques for 3-D Computer Vision」（プレンティスホール（Prentice Hall）、１９９８年）に記載される。
６ｂ．完全に較正される場合、段階６０３において、任意の新しい所望のカメラ位置を選択することができる。例えば、新しいカメラをコートの近くに置いて、３Ｄ認識を高めることができる。ホモグラフィＨＬ及びＨＲは、段階６０４において、閉じた形で、古いカメラパラメータ及び新しいカメラパラメータから決定することができる。どのようにこれを行うのかは、上述したトリュッコ及びヴェリの本に記載される。
６ｃ．システムが完全に較正されない場合（較正が所望されない）、ヒューリスティック６０５を用いてＨＬ及びＨＲが決定される。この特定の例では、ネットと遠くのベースラインが、入力画像において略水平であると仮定する。ネットの下の縁に対し、Ｙ座標は、ｙ_１とし、画像の幅は、ｗ_１とする。遠くのベースラインに対し、ｙ座標は、ｙ_２とし、幅は、ｗ_２とする。
【００３１】
この２つのラインセグメントは、３Ｄの世界では同じ長さを有するので、ｗ_１／ｗ_２の比は、式（１３）に従い、２つのラインの相違（ｄｉｓｐａｒｉｔｙ）の比と同じである。
【００３２】
同様に、画像中の下の走査線のＹ座標は、ｙ_Ｂとする。各ビューイング装置について、相違は、ｄ_ＭＡＸとする特定の最大値より小さいべきである。最大値ｄ_ＭＡＸは、例えば、２０画素であり得る。
【００３３】
式（４）を用いて、ｓ_Ｌ、ｓ_Ｒ、ｄ_Ｌ、及びｄ_Ｒの値を導き出し得る。当然のことながら、これは、可能な解のセットのうちのたった１つである。段階６０６において、ｓ_Ｒ＝０とｄ_Ｒ＝０を選択することによって、右のビューを入力ビューと同一にすることができる。ｓ_Ｌ及びｄ_Ｌを得るには、（１４）に示す２つの一次方程式が解かれ、１つは式（１３）から得られ、１つは最大の相違の制約から得られる。
【００３４】
ｙ_１、ｙ_２、ｗ_１、ｗ_２、及びｙ_Ｂの値は、入力画像における測定値であり、ｄ_ＭＡＸは、ビューイングシステムの既知のパラメータである。従って、ｓ_Ｌ及びｄ_Ｌは、上述の式において唯一の未知数である。
【００３５】
従って、図９のホモグラフィの式（２）及び（３）を、段階６０７にて用いることができる。
【００３６】
これらの２つのホモグラフィは、Ｙ座標を変化せず、従って、修正されたステレオビューを形成し、このビューでは、対応する特徴は、両方の画像において同じ走査線上にある。
【００３７】
上述したヒューリスティックは、一例に過ぎない。コートの他の既知の特徴を検出することができる場合、類似の方法を用いて、好適なホモグラフィＨＬ及びＨＲを決定することができる。
【００３８】
他の領域の変換の決定
テニスコートに加えて、シーンは、動く対象物（段階４０７においてセグメント化される）と、背景のセグメント化された部分（段階５０３から）を含む。図７を参照しながら、これらの領域に対し、変換ＴＬｍ及びＴＲｍを得る方法を説明する。説明は、セグメント化された選手の領域の処理に関してするが、同一の（又は非常に類似する）処理を、他の領域にも適用することができる。
【００３９】
新しいビューが、オリジナルのビューに類似する（これは、一般的にそうである）場合、選手は、前−平行平面（ｆｒｏｎｔｏ−ｐａｒａｌｌｅｌｐｌａｎｅ）にあるとして近似される。これは、選手とカメラとの間の距離を考慮に入れる有効な近似である。ＴＬｍ変換は、前景対象物３０３を含む領域の周りの境界矩形７０１に対し決められる。左下の角をＡとし、右下の角をＢとし、ＡとＢとの間の中間点をＣとする。選手３０３は、コート上に立っているものと想定されるので、境界矩形７０１の下の線は、グランドの中にあることが想定される。テニスコートは、ホモグラフィＨＬにより変換される。具体的には、ホモグラフィＨＬは、点Ａ、Ｂ、及びＣを、新しいビューにおける点Ａ’、Ｂ’、及びＣ’にそれぞれ変換する。
【００４０】
ＴＬｍは、ＨＬと対応していなければならない。点Ｃは、点Ｃ’に変換されるべきであり、変換された点Ａと点Ｂとの間の水平距離は、点Ａ’と点Ｂ’との間の水平距離と等しいべきである。最後に、境界矩形のアスペクト比（幅割る高さ）は、一定のままにされるべきである。従って、式（５）が得られる。
【００４１】
図９の式（６）、（７）、（８）、（９）、（１０）、及び（１１）は、図１０の式（１２）の変数の定義である。各式（６）−（１１）において、ｘ及びｙ座標は、図７における点及びそれらの点の変換に対し決められる。
【００４２】
式（１８）に従って、右のビューの変換ＴＲｍは、同じように導き出すことができる。ＴＲの式に現れる変数は、式（１９）にて決められる。これらの変数は、ホモグラフィＨＲは、点Ａ、Ｂ、及びＣを、点Ａ’’、Ｂ’’、及びＣ’’に変換するという前提から得られる。点Ａ’’、Ｂ’’、及びＣ’’は、それぞれ、式（１５）、（１６）、及び（１７）にて決められる。
【００４３】
対象物（例えば、テニス選手）は、「飛び出す」ように見える。なぜなら、この対象物は、テニスコート（グランド）とは異なるように変換されるからである。テニスコートの変換（ＨＬ及びＨＲホモグラフィ）は、画像の高いほうにある点は、目視者から遠くにあるように見えるように設定される。それに対し、テニス選手上の全ての点は、目視者から略同じ距離に現れる。
【００４４】
変換ＴＬｍ及びＴＲｍは、テニスコートのグランド部分に適用される変換ＨＬ及びＨＲとは異なる。従って、テニス選手は、背景から「飛び出して」見える。より具体的には、ＨＬ及びＨＲ変換は、一般的に、コートの遠い方の点は、小さい相違を有し、従って、目視者からは遠くに見えるように構成される。これは、コートの正確な、傾斜した様相を形成する。それに対し、ＴＬｍ及びＴＲｍ変換は、テニス選手の全ての点が略同一の距離にあるように見えさせる。
【００４５】
選手の足は、コートの付近の点と略同一の相違を有する。更に、選手の頭部の相違も、略同じである。しかし、選手の頭部の付近にあるコートの点は、より小さい相違を有し、このことは、選手が背景から「飛び出す」ようにさせる。審判スタンドといった他の特徴も、テニス選手と同じように変換され、従って、背景から「飛び出す」ように見える。
【００４６】
新しいビューの作成
図８に説明するように、新しいビューが作成される。前の段階では、入力画像は複数の領域にセグメント化され、各領域に対し変換が計算された。図８には２つの経路がある。左の経路は、左のビューの生成に対応し、右の経路は、右のビューの生成に対応する。２つの経路は、並列に実行されるかのように示すが、これらは、直列に実行されることも同等に可能である。
【００４７】
段階８０１において、各左ビュー変換ＴＬｍが、画像領域Ｉ_ｋ及び各マスクＭ_ｋに適用されて、変換された画像領域ＩＬｍと変換されたマスクＭＬｍを得る。ＨＬも、段階４０５において作成される背景モザイクＢ_ｋに適用される。テニスコートのグランド部分に対し、変換ＴＬｍはホモグラフィＨＬである。段階８０２において、変換された領域は、新しい左のビューを作成するよう組合される。変換されたマスクＭＬｍにおける画素が１であるときは常に、ＩＬｍにおける対応する画素は、出力画像にコピーされる。
【００４８】
段階８０３において、対象物が重なる結果生じるコンフリクトを解決する。
【００４９】
一部のａ、ｂについて、対象物が重なると、即ち、ＭＬａ（画素）＝１及びＭＬｂ（画素）＝１となると、Ｌ_ｋ（画素）は、以下に決められるような対象物の順序付けで、最も近い対象物からの画素ＩＬ（画素）に設定されるべきである。
【００５０】
対象物の順序付け
各対象物に対し、下の縁は、基準平面におけるその対象物の位置を得るために考慮に入れられるべきである。近い対象物は、入力画像におけるより低い下の縁を有する。基準平面（テニスコート）は、最も離れた対象物として順序付けされる。
【００５１】
更に、段階８０４において、選択的に、セグメント化された対象物によってカバーされない画素である穴が埋められ得る。黒の画素が境界上にある場合、それらはそのままにされるべきである。何故なら、黒の画素は、シーン中の絶対に見られない場所に十中八九相当するからである。その一方で、背景モザイクからの適切な値は、そのような値がある場合には、画像中の穴を埋めることができる。
【００５２】
段階８０１’、８０２’、８０３’、及び８０４’は、段階８０１−８０４にそれぞれ類似し、ただし、Ｌ、即ち、左のビューの代わりに、Ｒ、即ち、右のビューとなる。
【００５３】
図４−８の例は、ステレオ画像を用いて３Ｄ効果を形成する装置に関して考えられた。しかし、この方法は、任意の数のビューでの実施にも拡張可能である。右のビューの計算、つまり、ＨＲ、ＴＲｍ等の計算は、左のビューの計算（ＨＬ、ＴＬｍ等）とは完全に独立していた。従って、アルゴリズムを、Ｎ回繰り返すことによって、シーンのＮ個の異なるビューを生成することは簡単である。一般的に、Ｎ個のビューは、特定の表示装置の要件に応じて生成される。
【００５４】
背景画素の変換の別の実施例
背景領域を処理するための別の実施例は、同じシーンの第２の画像を用いることから導き出すことができる。以下において、動く対象物は既に画像からセグメント化されているものと仮定する。以下の演算は、以下に応じて、基準平面（テニスコート）上ではない静止対象物の様相を予測するよう用いられ得る。
１．最初に、２つの画像における画素間の対応が、手動で、又は、自動的に確立される。オリビア・ファーゲラスによる「Three Dimensional Computer Vision」（ＭＩＴプレス、１９９３年）の第６章「Stereo Vision」を参照されたい。
２．第１の画像が、アフィン変換のために位置合わせされる。
【００５５】
ａ．平面上の２つの対応する平行線対が、式（２０）及び（２１）に応じて識別される。線の対を、ＰＬ１＝［Ｌ１１，Ｌ１２］及びＰＬ２＝［Ｌ２１，Ｌ２２］とし、ただし、Ｌ１１、Ｌ１２、Ｌ２１、及び、Ｌ２２は、端点Ｌ_ｉｊ＝［（ｓｘ_ｉｊ，ｓｙ_ｉｊ），（ｅｘ_ｉｊ，ｅｙ_ｉｊ）］により決められる。
【００５６】
ｂ．各平行線対についての（同次座標における）消点は、式（２０）及び（２１）に従って計算される。ただし、ａとｂの外積の表記を、式（２２）に示す。
【００５７】
ｃ．ｖｐ_１＝［ｘ_１ｙ_１ｗ_１］及びｖｐ_２＝［ｘ_２ｙ_２ｗ_２］を無限に動かす変換Ｈ_ａは、式（２３）に従って計算される。
【００５８】
ｄ．Ｈ_ａを画像全体に適用し、即ち、式（２４）に従う画素は、式（２５）に従い動かされる。
３．第１の画像における平面上の４つ以上の点と、第２の画像におけるそれらの対応点を見つける。式（２６）に従い、変換Ｈ_ｂが計算される。この変換は、第２の画像における点ｑ_１、ｑ_２、ｑ_３、ｑ_４、・・・を、（Ｈ_ａを適用した後に）第１の画像における点ｑ_１’、ｑ_２’、ｑ_３’、ｑ_４’、・・・と合わせるように動かす。
【００５９】
その後、Ｈ_ｂは、画像全体に適用され、即ち、式（２）に従う画素は、式（２８）に従う画素に動かされる。
４．第１の画像における対応点ｐ_ａ’及びｐ_ｂ’と第２の画像における対応点ｑ_ａ’及びｑ_ｂ’からなる２つの対を用いて、変換された入力画像と出力画像との間のエピポールが計算される。ｅ１２が、入力画像間のエピポールを示すとすると、ｅ１２’は、変換された第１の画像と出力画像との間のエピポールを示し、ｅ２２’’は、変換された第２の画像と出力画像との間のエピポールを示す。次に、同次座標において、式（２９）及び（３０）が得られる。これらは、実際の座標における式（３１）に対応し、ただし、ｗは比率である。
５．変換された第１の画像における各対応点ｐ_ｉと変換された第２の画像における各対応点ｑ_ｉに対し、場所ｒ_ｉ‘が、新しいビューにおける点について、式（３２）に従って、同次座標において計算される。
６．すべての点ｒ_ｉ‘は、式（３３）に従い、点ｒ_ｉに動かされ、ただし、ｅ_１２’＝［ｅｘ_１２’，ｅｙ_１２’］であり、ｄは定数である。
【００６０】
従って、２つの画像が用いられる場合、静止背景の各画素に対し別個の変換が効果的にある。一方で、最初に説明した実施例では、背景は、１つ以上の変換でカバーされ、各変換は、多数の画素が関連する。
【００６１】
位置合わせされる画像における相違は、２つのカメラの中心間の並進のみに依存する。新しいビューを生成する際に、相違を、新しいカメラの中心の場所に対する並進と合うよう変更することができる。このような変換は、Ｍ．イラニ（Ｉｒａｎｉ）、Ｐ．アナンダン（Ａｎａｎｄａｎ）、Ｄ．ウエインシャル（Ｗｅｉｎｓｈａｌｌ）による「From Reference Frames to Reference Planes: A New Framework for 3D Scene Analysis」（プロシーディング：第５回欧州コンピュータビジョン会議、フライブルグ、１９９８年６月）に記載される。
【００６２】
本発明の開示を読むことにより、当業者には他の変形も明らかであろう。そのような変形は、設計、製造、及び、仮想現実タイプのシステムにおいて既に知られる他の特徴を含み、これらは、本願で説明した特徴の代わりに、又は、追加して用いられ得る。本願の請求項は、特徴の特定の組合せに対し形成されるが、本出願の開示の範囲は、本願に明示的又は暗示的に開示される新規の特徴又は新規の特徴の組合せ、又は、それらの一般化を、それが、本発明と同一の技術的問題を緩和するか否かに関わらず、含むことを理解するものとする。出願人は、本出願又は本出願から導き出される任意の更なる出願の手続きの際に、そのような特徴に対し新しい請求項を形成し得ることを明記する。特に、本出願では、請求項は方法に対し形成されるが、出願人は、将来において、装置及びソフトウェアの請求項を追加する権利を保持するものである。
【００６３】
本願で用いる「含む」という用語は、追加の構成要素を排除すると考えるべきではない。また、単数形で示す構成要素も、その構成要素が複数あることを排除すると考えるべきではない。
【図面の簡単な説明】
【００６４】
【図１】本発明を用いることのできるシステムを示す図である。
【図２】本発明のフローチャートである。
【図３】本発明に従って処理される画像を示す図である。
【図４】動く対象物のセグメンテーションを説明する図である。
【図５】ドメイン知識の利用及び静止背景の複数の領域への更なるセグメンテーションに関するフローチャートである。
【図６】新しいカメラ位置がどのように得られるのかを示す面である。
【図７】セグメント化された対象物の変換がどのように計算されるのかを説明する図である。
【図８】新しいビューが形成される方法を説明する図である。
【図９】好適な実施例の説明に用いられる幾つかの式を示す図である。
【図１０】好適な実施例の説明に用いられる幾つかの式を示す図である。
【図１１】好適な実施例の説明に用いられる幾つかの式を示す図である。
【図１２】好適な実施例の説明に用いられる幾つかの式を示す図である。
【図１３】好適な実施例の説明に用いられる幾つかの式を示す図である。

Claims

データ処理装置上で用いる画像処理方法であって、
少なくとも１つの単眼ビデオ入力画像を受信する段階と、
上記入力画像から、少なくとも１つの前景対象物をセグメント化する段階と、
複数の出力画像のそれぞれのために、各セグメント化された対象物と背景に、少なくとも１つの変換を適用する段階と、
各変換の結果から、上記複数の出力画像を導き出す段階と、
を含む方法。
上記入力画像から、少なくとも１つの背景対象物をセグメント化する第２のセグメント化段階と、
上記複数の出力画像のそれぞれのために、上記セグメント化された背景対象物のそれぞれに、変換を適用する段階と、
を更に含む請求項１記載の方法。
２つの出力画像があり、
各セグメント化された対象物に、２つの変換が適用され、
上記背景に、２つの変換が適用されて、上記２つの出力画像を形成する、請求項１記載の方法。
上記複数の出力画像が、高められた３次元の様相を有する１つの画像としてユーザによって知覚可能であるよう、上記複数の出力画像を組合せ装置にて表示する段階を更に含む請求項１記載の方法。
上記前景対象物に適用される上記変換は、上記前景対象物を上記背景から飛び出すようにさせる請求項１記載の方法。
上記受信段階は、複数の単眼入力画像を受信する段階を含み、
上記導き出す段階は、各単眼入力画像に対し複数の出力画像をそれぞれ導き出す段階を含み、
本発明は更に、
上記複数の出力画像のそれぞれが、動作の幻覚を与え、且つ、高められた３次元の様相を有する１つの画像のシーケンスとしてユーザによって知覚可能であるよう、上記複数の出力画像のそれぞれを、組合せ装置にて表示する段階を含み、
上記１つの画像のシーケンスでは、上記少なくとも１つの前景対象物は、上記少なくとも１つの背景対象物とは別個に動く、請求項５記載の方法。
上記少なくとも１つの前景対象物は、上記出力画像において動くように見え、一方で、上記画像の残りの少なくとも一部は、動かないように見える、請求項６記載の方法。
上記セグメント化段階及び上記適用段階は、上記単眼入力画像において予期される対象物の位置を認識し、且つ、上記出力画像における対象物の位置を導き出すために、ドメイン知識を用いる段階を含む請求項１記載の方法。
背景画素のための各変換は、１つのシーンの少なくとも２つの単眼入力画像を比較することにより導き出す請求項１記載の方法。
上記変換を適用する段階の前に、前−平行平面に現れるときの、各セグメント化される対象物の位置を近似する段階を更に含む請求項１記載の方法。
データ及び命令を格納する少なくとも１つのメモリと、
請求項１乃至１０のうちいずれか一項記載の方法を行わせる演算を実行する少なくとも１つのプロセッサと、
上記方法により生成される画像を供給する少なくとも１つの表示装置と、
を含むデータ処理装置。
請求項１乃至１０のうちいずれか一項記載の演算を実行させるソフトウェア。