JP2009539155A

JP2009539155A - 動的に変化する３次元のシーンに関する３次元表現を生成するための方法およびシステム

Info

Publication number: JP2009539155A
Application number: JP2009512386A
Authority: JP
Inventors: ウルムリン，シュテファン; ニエデルベルゲル，クリストフ
Original assignee: イジュノシッヒテクニッヒホッフシューラチューリッヒ
Priority date: 2006-06-02
Filing date: 2007-05-24
Publication date: 2009-11-12
Also published as: ES2712375T3; WO2007140638A1; EP2492870B1; ES2585903T3; EP2492870A3; EP2024937A1; EP1862969A1; US9406131B2; EP2024937B1; US20090315978A1; EP2492870A2

Abstract

３次元シーンの動的な変化に対する３次元表現を生成する方法が、異なる場所に配置され、同じ３次元シーン（１０２）を観察している少なくとも２台のカメラから得られる、少なくとも２つの合成されたビデオストリーム（１２０）を取得するステップと、前記少なくとも２台のカメラ（１０３）に関し、方向およびズーム設定を含むカメラパラメータを決定するステップと、少なくとも２つのビデオストリーム（１０４）内のオブジェクト（３１０ａ，ｂ、３１２ａ，ｂ、３３０ａ，ｂ、３３１ａ，ｂ、３３２ａ，ｂ、４１０ａ，ｂ、４１１ａ，ｂ、４３０ａ，ｂ、４３１ａ，ｂ、４２０ａ，ｂ、４２１ａ，ｂ）の動きをトラッキングするステップと、少なくとも２つのビデオストリーム（１０５）内における前記オブジェクトの固有性を決定するステップと、少なくとも２つのビデオストリーム（１０６）から得られる情報を結合することによって、オブジェクトの３次元位置を決定するステップと、を含んでいる。そして、少なくとも２つのビデオストリーム内のオブジェクトの動きをトラッキングするステップ（１０４）は、１つ以上の先行する瞬間にオブジェクトの３次元位置から得られる位置情報を使用する。これにより、ビデオストリーム内の２次元トラッキングにおける質、スピードおよびロバスト性を改善できる。

Description

本発明の分野
本発明は、ビデオ処理および仮想画像生成の分野に関し、例えば、試合状況に対するビデオベースの３次元再構築を用いた、スポーツのテレビ放送に適用できるものである。本発明は、対応する独立請求項の前提部分に記載したような、動的に変化する３次元のシーンに関する３次元表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を生成するための、方法およびシステムに関する。

本発明の背景
「ビデオベースのサッカーの試合に対する３次元再構築（ＡＶｉｄｅｏ−Ｂａｓｅｄ
３Ｄ−ＲｅｃｏｎｓｔｒｕｃｔｉｏｎｏｆＳｏｃｃｅｒＧａｍｅｓ）；Ｔ．ＢｅｂｉｅａｎｄＨ．Ｂｉｅｒｉ，ＥＵＲＯＧＲＡＰＨＩＣＳ２０００，Ｖｏｌ．１９（２０００），Ｎｏ．３」という論文がある。この論文には、サッカーの試合の一場面に関し、２つの同期されたビデオシーケンスからアニメーション化された仮想３次元映像を生成するように設計された、再構築システムが開示されている。与えられたシーンに対する３次元再構築を生成するには、（１）両方のシーケンスにおける全フレームのカメラパラメータを演算する（カメラキャリブレーション）、（２）ビデオシーケンスから、競技場のテクスチャを抽出する、（３）いくつかのキーフレームにおけるボールおよび選手の頭の画像位置を手動で特定した後、これらボールおよび選手の頭の軌跡を演算する、（４）ビデオから自動的に選手のテクスチャを抽出する、（５）衝突しているまたは隠れている選手の姿を自動的に分離する、（６）映像化のために、仮想空間内に適切に配された長方形に対して選手の姿をテクスチュアマッピングする、というようなステップが実行される。なお、ビデオシーケンスが処理されている間、カメラは、同じ位置に保持されているとみなされる。

欧州公開特許公報第１，４６５，１１５号（Ａ２）には、選択した視点から望ましい映像を生成することが開示されている。ここでは、異なる視点から、複数のカメラによってシーン画像を得るようになっている。そして、少なくとも１つの画像から選択したオブジェクトを特定し、選択したオブジェクトの位置を推定する。望ましい視点を得られた場合、その望ましい映像における選択したオブジェクトの位置を判断し、選択したオブジェクトの映像を、カメラから得られる画像データを用いてレンダリングする。

以下に、従来技術に関して、公開されている他の参照文献について示す。
−「多数のカメラによるフットボール選手のトラッキングに関する基本設計およびアルゴリズム（Ａｒｃｈｉｔｅｃｔｕｒｅａｎｄａｌｇｏｒｉｔｈｍｓｆｏｒｔｒａｃｋｉｎｇｆｏｏｔｂａｌｌｐｌａｙｅｒｓｗｉｔｈｍｕｌｔｉｐｌｅｃａｍｅｒａｓ；Ｍ．Ｘｕ，Ｊ．ＯｒｗｅｌｌａｎｄＤ．Ｔｈｉｒｄｅ；ＩＥＥＰｒｏｃｅｅｄｉｎｇｓ−Ｖｉｓｉｏｎ，Ｉｍａｇｅ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ−Ａｐｒｉｌ２００５−Ｖｏｌｕｍｅ１５２，Ｉｓｓｕｅ２，ｐ．２３２−２４１）」。この文献には、固定カメラからの与えられたビデオ画像から、フットボール選手の位置、および、ボールの３次元位置を抽出することについて開示されている。しかしながら、３次元表現の合成については示されていない。

−「互いに干渉しあい遮蔽されている人間の動きに対する多重カメラトラッキング（Ｍｕｌｔｉｐｌｅｃａｍｅｒａｔｒａｃｋｉｎｇｏｆｉｎｔｅｒａｃｔｉｎｇａ
ｎｄｏｃｃｌｕｄｅｄｈｕｍａｎｍｏｔｉｏｎ：Ｄｏｃｋｓｔａｄｅｒ，Ｓ．ａｎｄＴｅｋａｌｐ，Ａ．Ｍ．；２００１ａ．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ８９，１４４１−１４５５）」。この文献は、多数のカメラ画像を用いて、動いて相互に干渉している多数の人物をトラッキングすることに関する。３次元表現の合成、および、カメラの位置および／または方向のキャリブレーションについては示されていない。

−「多重映像ビデオを用いたスポーツシーンの分析および映像化（Ｓｐｏｒｔｓｓｃｅｎｅａｎａｌｙｓｉｓａｎｄｖｉｓｕａｌｉｚａｔｉｏｎｆｒｏｍｍｕｌｔｉｐｌｅ−ｖｉｅｗｖｉｄｅｏ；ＨｉｄｅｏＳａｉｔｏ，ＮａｈｏＩｎａｍｏｔｏ，ＳａｃｈｉｋｏＩｗａｓｅ；Ｉｎｔ．ＣｏｎｆＭｕｌｔｉｍｅｄｉａａｎｄＥｘｐｏ（ＩＣＭＥ）２００４：１３９５−１３９８）」。この文献には、多数のカメラ映像を用いた、サッカーのシーンに対する自由視点映像化について開示されている。

−「多数の映像における多数のフィーチャを用いた、スポーツ選手に対するロバストトラッキング（ＲｏｂｕｓｔＴｒａｃｋｉｎｇｏｆＡｔｈｌｅｔｅｓＵｓｉｎｇＭｕｌｔｉｐｌｅＦｅａｔｕｒｅｓｏｆＭｕｌｔｉｐｌｅＶｉｅｗｓ；ＴｏｓｈｉｈｉｋｏＭｉｓｕ，ＳｅｉｉｃｈｉＧｏｈｓｈｉ，ＹｏｓｈｉｎｏｒｉＩｚｕｍｉ，ＹｏｓｈｉｈｉｒｏＦｕｊｉｔａ，ＭａｓａｈｉｄｅＮａｅｍｕｒａ；ＰｒｏｃｅｅｄｉｎｇｓｏｆＷＳＣＧ’２００４．ｐｐ．２８５−２９２）。２次元画像中で動いているオブジェクトをトラッキングするために、多数のプラグインを使用して多数のフィーチャ、すなわち、テクスチャ、色、動きおよび範囲を観察し、次いで、分散しているプラグインからの情報を結合し、各プラグインによって得られた信頼性測定に従って、情報に対して適切に重みづけするようになっている。

−「サッカースタジアムにおけるライブ混合リアリティ（Ｌｉｖｅｍｉｘｅｄ−ｒｅａｌｉｔｙ３Ｄｖｉｄｅｏｉｎｓｏｃｃｅｒｓｔａｄｉｕｍ；Ｋｏｙａｍａ，Ｔ．Ｋｉｔａｈａｒａ，Ｉ．Ｏｈｔａ，Ｙ．；ＭｉｘｅｄａｎｄＡｕｇｍｅｎｔｅｄ
Ｒｅａｌｉｔｙ，２００３．ＴｈｅＳｅｃｏｎｄＩＥＥＥａｎｄＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎｍｉｘｅｄａｎｄａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ（ＩＳＭＡＲ）；７−１０Ｏｃｔ．２００３；ｐａｇｅ（ｓ）：１７８− １８６）」。多数のビデオ画像から単純な３次元モデルを再構築し、選択したビデオ情報をモデルに投影する。選手の位置を判断するために、球技場の上に垂直に設置された専用カメラが必要になる。他のカメラの位置をキャリブレーションするために、レーザ測量機器も必要になる。

−「現実のスタジアムモデルにおける仮想的なサッカーの試合に対する、没入型観察（ＩｍｍｅｒｓｉｖｅＯｂｓｅｒｖａｔｉｏｎｏｆＶｉｒｔｕａｌｉｚｅｄＳｏｃｃｅｒＭａｔｃｈａｔＲｅａｌＳｔａｄｉｕｍＭｏｄｅｌ；ＮａｈｏＩｎａｍｏｔｏ，ＨｉｄｅｏＳａｉｔｏ；ＴｈｅＳｅｃｏｎｄＩＥＥＥａｎｄＡＣＭ
ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎｍｉｘｅｄａｎｄａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ（ＩＳＭＡＲ）；７−１０Ｏｃｔ．２００３；ｐａｇｅｓ１８８−１９７）」。仮想的なサッカーのシーンの表現を、現実の画像を用いて生成し、ヘッドマウント装置（ｈｅａｄｍｏｕｎｔｅｄｄｅｖｉｃｅ；ＨＭＤ）を装着した人に表示する。

本発明の説明
本発明の目的は、最初に述べた種類の動的に変化する３次元のシーンに関する３次元表
現を生成するための、既知のシステムに比して進歩した方法およびシステムを作り出すことである。ここで生成される表現とは、３次元表現自体、すなわち、モデルオブジェクトの３次元位置および方向についての情報を含むシーンのモデルであると理解されるものである。これは、２次元画像に対する操作および分析（例えば、オブジェクトの特定）がなされる２次元表現と対照的なものである。また、この操作および分析は、オブジェクトの３次元位置を決定することなく、１つ以上のオブジェクトの動きをトラッキングすることによって実施される。

これらの目的は、対応する独立請求項にかかる、動的に変化する３次元のシーンに関する３次元表現を生成する方法およびシステムによって達成される。

動的に変化する３次元のシーンに関する３次元表現を生成する方法は、以下のステップを含む。

・異なる場所に配置され、同じ３次元シーンを観察している少なくとも２台のカメラから得られる、少なくとも２つの、好ましくは合成されたビデオストリームを取得するステップ、
・前記少なくとも２台のカメラに関し、位置、方向、および内部パラメータ（例えばズーム設定）を含むカメラパラメータを決定するステップ、
・少なくとも２つのビデオストリーム内のオブジェクトの動きをトラッキングするステップ、
・少なくとも２つのビデオストリーム内における前記オブジェクトの固有性を決定するステップ、
・少なくとも２つのビデオストリームから得られる情報を結合することによって、オブジェクトの３次元位置を決定するステップ。

上記列挙したステップにおける少なくとも１つのステップは、後続のステップの１つによって少なくとも２つのビデオストリームから得られる情報に依拠している。

これにより、情報のフィードバックループを実行できる。すなわち、情報処理ステップのシーケンスにおける特定のステップにおいて、この処理における１つ以上の後続のステップにおいて得られた情報を使用するようになっている。この情報は、典型的には、先行するある瞬間に生成されたビデオ情報から得られるものである。このような演繹的な情報を使用することで、上記した特定のステップの結果における質および信頼性を向上することが可能となる。本発明の好ましい実施形態では、少なくとも１つのオブジェクトにおける３次元位置を、オブジェクトに関する少なくとも２つの先行する３次元位置から推定する。

本発明の好ましい実施形態では、少なくとも２つのビデオストリームにおけるオブジェクトの動きをトラッキングするステップは、後続するステップの１つにおいて少なくとも２つのビデオストリームから得られる、１つ以上の先行する瞬間に生じる情報を使用する。

本発明のさらに好ましい実施形態では、１つ以上の先行する瞬間に得られる情報は、オブジェクトの３次元位置である。

これにより、ビデオストリームにおける２次元トラッキングの質およびロバスト性を向上することが可能となる。技術水準によれば、ビデオストリーム内のトラッキングは、ビデオストリーム自身から得られる情報だけに基づくようになっている。これは、ビデオストリーム内で２つのオブジェクトが衝突したときまたは重なり合ったときに、不明瞭さを
招来する。オブジェクトの３次元位置とカメラキャリブレーション情報とが与えられれば、オブジェクトの３次元位置における画像への逆投影を使用することで、画像空間に投影されたオブジェクトの動きを、より正確に予測することが可能となる。さらに、同一の画像における異なる解釈の間に生じる不明瞭さを解消することも可能となる。オブジェクトの３次元位置を画像に投影することで、トラッキングアルゴリズムによって、衝突／重なり合っているオブジェクトを検出し、両オブジェクトが再び分離した後にも正確に特定し続けることが可能となる。

本発明の好ましい変化形では、少なくとも１つのオブジェクトの３次元位置は、先行する少なくとも２つのオブジェクトの３次元位置から推定される。これは、例えば数画像フレーム前のオブジェクトの過去の軌道に対する第１の補間、あるいは、より高次の補間によって実施される。「オブジェクト」という語句は、ここでは、カメラによって視認されるシーンに関与している、移動しているオブジェクトをすぐに示す。スポーツ設定では、オブジェクトは、例えば選手、ボール、および審判となる。他のキー画像要素は、背景である。この背景は、本質的に静的なものであり、一方では、ピッチすなわち競技場、ラインや他のピッチ上のマークといった特徴、および、ピッチの周囲の壁および周囲環境（例えばスタジアム）を含むものである。必要に応じて、これらを「背景オブジェクト」と称するようにしてもよい。周囲環境にいる観客は、動くものではあるけれど、本出願の目的に関しては「移動するオブジェクト」とはみなされない。一般に、「２次元」とは、ビデオ画像におけるオブジェクトあるいはフィーチャ（ｆｅａｔｕｒｅ）の位置あるいは形状を指す。一方、「３次元位置」は、シーンにおける演算された３次元モデルでのオブジェクトの位置のことである。本発明の好ましい実施形態では、このような３次元モデルを維持し、動的に更新するようになっている。さまざまなビデオフィード（ｖｉｄｅｏｆｅｅｄ）から得られるビデオ画像あるいはテクスチャ情報は、この３次元モデルによって規定される表面にレンダリングされる。これにより、追加的な合成ビデオフィードあるいは仮想的なビデオフィードを生成し、３次元モデルにおける動的な映像を任意に合成することが可能となる。

ここでおよび本出願の残部では、「レンダリング（ｒｅｎｄｅｒｉｎｇ）」という語句は、コンピュータグラフィックスにおいて普通に使われているように、画像のコンポーネントに対するより高いレベルの表現から画像の画素を形成するプロセスのことを意味する。この場合、より高いレベルの表現とは、３次元モデルとそれに関連するテクスチャ情報との組み合わせである。そして、レンダリングについては、テクスチャ情報を３次元モデルにマッピングし、仮想カメラによって３次元モデル内に視認されるものを決定することによって実施することが可能である。

本発明の好ましい変化形では、カメラキャリブレーションは、参照フィーチャのトラッキングに基づいて実施される。トラッキングプロセスを初期化するために、ビデオフィードごとに、参照フィーチャの数を特定することが必要になる。これは、すなわち、固有の識別子によってこれらの１つ１つを関連付けることによる。各参照フィーチャは、３次元空間におけるシーン（例えば、位置、ライン、コーナー、サークルなど）のフィーチャに関連付けられる。これらのフィーチャおよびビデオ映像内に見られるような参照フィーチャの投影を得ることによって、カメラパラメータ、特に位置、方向、およびズーム設定、および、場合によりカメラの他の光学パラメータを決定する。これらのパラメータのセット全体について、これ以降、「カメラパラメータ」と称することとする。これらのパラメータを決定するステップは、カメラキャリブレーションと呼ばれるものであり、典型的には、処理されている各ビデオフィードの各フレームについて実行される。このために、各ビデオストリーム内の参照フィーチャの動きについては、当技術分野で知られている適切なトラッキング方法およびトラッキングシステムによって、トラッキングすることが可能である。

本発明の好ましい変化形では、ビデオ画像の１つにおける参照フィーチャの予想画像位置は、参照フィーチャにおける既知の３次元位置から演算される。これが特に有用となるのは、表示を移動したりズームしたりした後に、しばらく視認されていなかった参照フィーチャが再び視認されるようになったときである。３次元モデルおよび与えられた現在のカメラパラメータから、特定の参照フィーチャ（既知の固有性を有する）が現在のフレームにおける予想位置において視認されるべきであることを判断する。そして、予想位置の近傍において、フィーチャの抽出が実施される。画像内で見いだされたフィーチャ（予想参照フィーチャと同じ種類のフィーチャであることが好ましい）は、自動的に、予想参照フィーチャの固有性に関連付けられる。

本発明の好ましい変化形では、ビデオ画像のみに基づいて、キャリブレーションが取得される。カメラキャリブレーションのステップについては、カメラの位置、方向およびズーム設定を決定することによって、（電気）機械的な測定手段によって、あるいは、これらのパラメータを制御している制御システムから対応する値を抽出することによって、選択的に実行するようにしてもよい。

本発明のさらに好ましい変化形では、各ビデオストリームに関し、参照フィーチャに、参照画像内において各自の固有性が割り当てられる。典型的なスポーツ設定では、参照フィーチャは、ラインおよび他のピッチ上のマークとなる。これらは、ビデオ静止画像において、ユーザが、以下のことを行なうことによって特定される。

・図形入力装置を用いて、ピッチの概略的な表現における同一の参照フィーチャの表現を提示し、そして、参照フィーチャの前記表現を選択する、
・図形入力装置を用いて、ビデオ静止画像に見られるような特定の参照フィーチャを指定し、そして、前記参照フィーチャを選択する、
・参照フィーチャの表現における固有性を、静止画像に見られる参照フィーチャに関連付ける。

表現あるいはフィーチャを選択する機能は、ユーザのコマンドあるいは入力（例えば、マウスキーをクリックする、あるいは、その表現あるいはフィーチャをポイントした後に所定のキーを叩く）によって有効となる。参照フィーチャの選択順序（第１あるいは第２）およびその概略表現（第２あるいは第１）については、変更することが可能である。参照フィーチャの表現およびビデオ画像については、異なる画面に表示してもよいし、同一の画面における異なるウィンドウ内に表示するようにしてもよい。このような、画像フィーチャとモデルフィーチャとの間の関連付けを初期化するための方法によれば、システムを迅速にセットアップすることが可能となる。

本発明の他の好ましい変化形では、ビデオ静止画像内の前記参照フィーチャを選択するステップは、ビデオ静止画像内の参照フィーチャの正確な位置を判断するために、以下のサブステップを実行する。すなわち、以下のステップを実行する。

・ユーザによって選択された位置の近傍において、フィーチャの抽出、および、特に、ライン、交叉点、およびコーナーの抽出を自動的に実行するステップ、
・抽出されたフィーチャ、特に、ピッチの概略表現内で選択されたものと同じ種類のフィーチャの１つの位置となるような参照フィーチャの位置を決定するステップ。

これにより、フィーチャの最適位置の選択を、ビデオフレームから決定されたかのように、自動的に「スナップ」することが可能となる。このため、ユーザがフィーチャをポイントする際に形成される、小さい位置エラーを修正することができる。また、初期化プロ
セスを単純化および高速化することが可能となる。

本発明のさらに好ましい実施形態では、オブジェクトの動きをトラッキングするステップは、トラッキング機能によってカメラパラメータの変化を補償できるように、カメラパラメータを動的に変更する機能をトラッキング機能に取り込むステップを含む。このステップにより、トラッキングされている特定のオブジェクトの場所を探すステップのそれぞれに関し、その予想される位置、および、それだけでなく、好ましくはその位置に基づくサイズ、および、好ましくは先行するフレームでのサイズが演算される。しかし、前記予想位置およびサイズについては、カメラ設定（先行するビデオフレームと現在のビデオフレームとの間のズーミングを含む）に対する既知の変更に応じて修正する。この修正は、カメラを動かす（パンする、および傾ける）ことによって画像内での予想位置の変更を確認する一方、ズーミングの程度がオブジェクトの予想サイズを左右することを意味する。これにより、トラッキング方法の全体にかかる処理時間を増加するトラッキングアルゴリズムに関し、より正確な予測が可能となる。

トラッキング機能における補償ステップあるいは修正ステップにおいて考慮されるカメラパラメータは、以下のいずれかである。

・トラッキングの実施されたビデオフレームと同じビデオフレームに関して実行されたカメラ・キャリブレーション・ステップによって決定されるカメラパラメータ、
・１つ以上の先行するビデオフレームに関して実行されたカメラ・キャリブレーション・ステップによって決定されるカメラパラメータ。

前者の場合、トラッキングステップを実行する前に、カメラキャリブレーションの終了を待つ必要がある。後者の場合、トラッキングステップおよびキャリブレーションステップを平行して実施することが可能である。後者では、任意的に、カメラパラメータを推測するようにしてもよい。これは、例えば、２つ以上先行するカメラパラメータのセットからの線型の補間、あるいはより高次の補間によって実施することが可能である。

本発明のさらに好ましい変化形では、オブジェクトの特定情報を初期化するために以下のステップを実行する。すなわち、以下のステップを実行する。

・ユーザによって、最初のビデオストリームにおける第１の静止画像から１つのオブジェクトを選択し、それを固有の識別子に関連付けるステップ、
・少なくとも１つの他のビデオストリームにおける他の静止映像から、同一の固有性を有するオブジェクトを自動的に決定するステップ。

この「自動的特定支援」によれば、静止画像の各セットにおいて各オブジェクトを特定する労力を低減することが可能である（各ビデオストリームに１つずつ、および、全ての画像を同時に取得するという前提条件の下で）。画像内でオブジェクトを特定するということの意味は、画像に見られるオブジェクトを、「審判」あるいは「ボール」あるいは「ブルームフォンデル（Ｖｒｏｏｍｆｏｎｄｅｌ）選手」あるいは他の選手などに関連付けることにある。オブジェクトの特定については、１つだけの静止画像内でオブジェクトをクリックする（あるいは選択する）ことによって実施できることが理想的である。全てのオブジェクトが競技場のレベルにあると仮定すると、カメラからカメラに視認されるオブジェクト位置まで延びるベクトルを競技場の平面と交叉させることで、競技場の上で選択されたオブジェクトの３次元位置を決定できる。オブジェクトが競技場のレベルにあると仮定しない場合、上記したベクトルの全てに最も近い３次元ポイントを、オブジェクトの位置として演算することが可能である。このポイントから、他の静止画内の予想位置を演算できる。他のビデオ静止画のそれぞれに関し、オブジェクトが推定位置にある場合には
、その固有性を、第１の静止画像内のオブジェクトの固有性と同一に設定する。このシステムでは、前記固有性の視覚的表現を含んでいる他の静止画像を表示し、ユーザが、前記固有性の関連付けを確認あるいは拒否できることが好ましい。また、１つ以上の静止画像内でオブジェクトが重なり合った場合、例えば、領域全体、形状ヒストグラムあるいは色ヒストグラムなどが予想通りでなかった場合にこれを自動的に検出できることがある。このような場合、ユーザにその旨を知らせる。そして、ユーザが、各画像におけるオブジェクトの固有性を手動で設定する。他の場合には、同一のビデオストリームから得られる他のフレーム（オブジェクトを他のオブジェクトから容易に分離できる他のフレーム）において、オブジェクトを特定する必要の生じる可能性がある。

オブジェクト（典型的には選手）がどのビデオフィードにも映っておらず、このためにトラッキングできなくなるような事態の生じる可能性もある。その結果、オブジェクトが再びビデオストリームの１つに現れたときに、その固有性がもやは失われてしまう。この場合、システムは、以下のステップを実行するようになっている。

・動いている未確認のオブジェクトが存在していることをユーザに警告するステップ、
・ユーザがオブジェクトに識別子を関連付けることに許可するステップ。

動いているオブジェクトを検出するステップでは、フレーム間における大きな動きの存在を検出し（概要を上記したように、カメラパラメータの変更を補償し）、既にトラッキングしているオブジェクトを無視するようになっている。残りの移動領域については、オブジェクトが再進入している可能性がある。オブジェクトのサイズに関する、および、例えば、既知のオブジェクトのセットにおける統計上のモデルに関する適合基準に関する所定の閾値を超えたときに、オブジェクトが存在していることがユーザに提示される。

本発明の他の好ましい変化形では、オブジェクトの完全な固有性を維持する必要がない。すなわち、オブジェクトＸが「ブルームフォンデル選手」を表現していることを知ることは重要ではない。オブジェクトが特定のカテゴリ（例えば、チームＡの選手）に属していることを知れば十分である。これについては、オブジェクトの色から、あるいは単純に選手から、自動的に決定することが可能である。この設定に関し、動いている未確認のオブジェクトを、自動的に、システムによって生成される固有の識別子に関連付けるようになっていることが好ましい。これにより、手作業での介入を要することなく、３次元再構築および三次元表現を継続的に生成することが可能となる。

動作トラッキングの過程では、オブジェクトを、通常、境界ボックスに関連付ける。これは、長方形の画素領域であり、その中にオブジェクトのあることを知っている、あるいは予想しているような領域である。より一般的な意味では、境界ボックスを、オブジェクトの周囲にある異なる形状のシルエットに変えるようにしてもよい。境界ボックス（あるいはシルエット）については、トラッキングによって生成し、後続のセグメンテーション・ステップによって改良することが好ましい（これについては後述する）。

また、本発明のさらに好ましい実施形態では、１つ以上の俯瞰カメラを配置し、これにより、競技場の全体を常にカバーする。これらは、移動もしないしズームもしない。これらのカメラによる表示により、オブジェクトがフィールドから出ない限り、全てのオブジェクトをトラッキングできる。そして、固有性を失ってしまったオブジェクトを特定する必要もなくなる。このカメラについては、最終的に放映されるテレビ画像を生成するために使用されるカメラよりも、コストの低いカメラを使用することが可能である。

動いているオブジェクトの位置を探すステップを、１つ以上のＲＦ（無線周波数）発信装置をオブジェクトに取り付け、それらの位置をＲＦ探索システムによって測定すること
によって、実施する、あるいは補佐することも可能である。これにより、各瞬間におけるオブジェクトの固有性および位置を、正確に知ることが可能である。

本発明の好ましい変化形では、オブジェクトを、少なくとも２つのカテゴリのうち１つに属するように分類する。これらのカテゴリは、好ましくはガウシアン混合モデルなどの統計上のモデルに基づくものである。そして、このカテゴリは、第１のチーム、第２のチーム、第１のチームのゴールキーパー、第２のチームのゴールキーパー、ボール、および審判のうちの少なくとも２つを含んでいる。統計上のモデルによって組み込まれたパラメータは、オブジェクトの色であることが好ましい。例えば、チームＡのユニフォームが第１の色セットである一方、チームＢのユニフォームが第２の色セットであり、チームのゴールキーパーは両方のチームと異なる色を有しており、審判は主に黒あるいは他の色で、背景が緑、白およびさまざまな他の色（芝、マーキング、ゴールポストおよび観客の色）であることが知られている。このように、背景からオブジェクトを分離することだけで画像を区分するわけではなく、オブジェクトを異なるセットに分類するようになっている。この統計上のモデルは、１つのカメラから得られる静止画から生成され、全てのカメラのビデオストリームに適用されることが好ましい。この統計上のモデルについては、オブジェクトの各カテゴリに関して、ポインティング装置、および、前記カテゴリに属するさまざまなポイントに応じた経路に従う参照マークを用いた、ユーザの動作によって生成される。統計上のモデルの生成においては、前記経路上のポイントの色によって、前記カテゴリを表現するサンプルを形成する。

各ビデオフィード内のビデオフレームに対するセグメンテーション時に、オブジェクトを背景から分離して互いに区別する際に、
・各画像要素あるいは画素に対し、画素がオブジェクトの一部あるいは背景の一部となっている可能性を表現する値を割り当てるためのアルファチャンネル整合を使用するステップ、を含むことが好ましい。

このような値は、アルファ値として知られており、例えば、画像あるいはストリームに関連付けられたアルファチャンネル情報に保存されている。これにより、オブジェクトの周囲の境界が明確（２値）でなくなり、後のレンダリングステップの質を改善することが可能となる。このレンダリングステップは、オブジェクトの画像を結合する、および／または、３次元表面にマッピングするステップである。

本発明のさらに好ましい実施形態では、セグメンテーションステップにおいて、背景からオブジェクトを切り取った後に、画像修復によって、背景に残った対応する欠損を充填する。これについては、例えば、「映像合成のための表示補間（ＶｉｅｗＩｎｔｅｒｐｏｌａｔｉｏｎｆｏｒＩｍａｇｅＳｙｎｔｈｅｓｉｓ）；ＣｈｅｎａｎｄＷｉｌｌｉａｍｓ，ＡＣＭＳＩＧＧＲＡＰＨ１９９３，ｐｐ．２７９−２８８」を参照されたい。このように修復された画像要素は、合成画像データであることを示すマークが付される。これは、充填されるべき画像内の修復された画素ごとに、対応するビットを設定することによって実行される。あるいは、ビデオフィードを、前記マーキング情報を有する他のチャネルに関連付けることによって実行することもできる。この追加的な情報により、本発明の方法のより後の段階において、現実の画像データが有効になっている画像要素に関し、合成画像データを無視することが可能となる。

「合成画像データ」と対比されるような「合成表示」、「画像合成」などの語句については、何かちがうもの、すなわち、本発明に従って生成される３次元シーンの仮想画像あるいは仮想表示を示していることに注意されたい。また、これらは、現実の画像データおよび合成画像データの双方に基づくものである。

このように、３次元のシーン内の表面位置あるいは表面パッチに関連している「現実の画像データ」は、典型的には、１つ以上のビデオストリームから得られる画像情報であって、その瞬間に表現されている上記のパッチを視認することによって得られるものである。対照的に、「合成画像データ」は、例えば、以下のようなことによって生成される画像情報である。

−２次元技術による修復、例えば、境界から始まる、境界における色あるいはパターンによる欠損の補充、
−同一の表面パッチから得られる画像データ（他の瞬間においてビデオストリームから得られるものを除く）の使用、
−同一の表面パッチから得られる画像データ（同一の瞬間および他の瞬間において、他のビデオストリームから得られるものを除く）の使用、
−同一の瞬間にビデオストリームから得られる画像データ（他の表面パッチから得られるものを除く）の使用、
−３次元技術による修復、例えば、充填された表面パッチおよび充填に使用された表面パッチにおける３次元配置を考慮した、欠損の周囲のシーンのパターンを用いた欠損の補充。

以下、合成（背景）画像データを生成するための、好ましい方法について説明する。この方法は、典型的には、最後の２つのポイントの態様を結合するものである。このような３次元修復では、欠損の近傍から得られる欠損を充填するための画像パッチを使用するだけでなく、表面パッチ間の空間的な（すなわち３次元の）関係についての知識も考慮する。すなわち、「宛先パッチ」の画像データを充填するための「ソースパッチ」から得られる画像データを使用するとき、これらのパッチ間の空間的な関係が考慮される。この関係は、回転および／または異なる視点を含んでいる。

目的は、欠損を実際の予想画像にできるだけ近似する色あるいはテクスチャによって充填することにある。既知のアプローチは、欠損の境界上を延びており、このために、画像の既知の部分と未知の部分とを含んでいる、宛先パッチを選択することである。この場合、ソースパッチを見つけるために、既知の部分に整合するソースパッチの一部を用いて、検索を実行する。また、ソースパッチの残部については、複写によって未知の部分を充填するために使用される。しかしながら、この検索および複写は、ビデオ画像の平面上だけで実施される。

本発明によれば、ソースパッチを検索するときに、および、ソース画像データを宛先パッチに複写するときに、３次元空間におけるソースパッチと宛先パッチとの既知の位置および／または方向を使用する。

本発明のさらに好ましい実施形態では、ランドマークの配置に関する情報を、修復の指針として使用する。ランドマークは、特徴的な、動かない背景フィーチャである。典型的には、印ばかりの位置として知られる競技場の上にある直線や輪状線などの、線状に延びるフィーチャである。このアプローチは、競技場にあるラインの配置および方向を含むフィールドモデルから得られる知識を組み込んでいることが好ましい。また、これについては、ランドマークに沿ったパッチの配置に関する３次元情報と結合されていることが好ましい。

例えば、以下に示すアプローチの１つ以上を実施することが好ましい。
−宛先パッチがランドマークの一部を含んでいる場合、ランドマークに沿ってソースパッチを検索する。そして、ランドマークがあると予想される欠損の内部の位置にソース−パッチをマッピングする。

−宛先パッチがサークル内にある場合には、サークルに沿って存在する潛在的なソースパッチに対して宛先パッチを比較する（あるいはその逆の比較をする）前に、宛先パッチを変形する（例えば、回転および拡大・縮小する。典型的には、アスペクト比を保存しない）。同様に、ソースパッチを宛先パッチにコピーするときにも、ソースパッチを変形する。

−宛先パッチが直線に沿って存在する場合には、ラインに沿って（カメラの視点から）より離れた位置にある潛在的なソースパッチに対して宛先パッチを比較する前に、宛先パッチを拡大・縮小する（典型的には、そのアスペクト比を保存する）。同様に、ソースパッチを宛先パッチにコピーする場合、ソースパッチを縮小する。

修復については、複数のビデオストリームについて個々に実行することが好ましい。これにより、ビデオストリームのセットによって、異なる視点から視認される（動いている）オブジェクトではなく、同一の背景シーンを表示することが可能となる。処理におけるより後の段階において、これらの修正された背景画像を、３次元背景モデルに対する着色あるいは「ペイント」するために使用する。しかしながら、本発明の他の実施形態では、３次元背景モデルが着色されたときに修復を実行するようになっている。すなわち、まず、１つ以上のビデオストリームから得られる背景画像情報に従って、背景モデルを着色する。そして、３次元モデルにおける残りの未着色のパッチのいずれをも、上記したのと同様の方法で（すなわち、他の位置あるいは瞬間に得られた画像情報を用いて）、ペイントする。

上記した欠損充填方法については、本明細書に示した本発明の他の態様とは無関係に（特に、３次元オブジェクトのトラッキングおよび特定、カメラキャリブレーションなどのステップとは無関係に）、実施するようにしてもよい。

セグメンテーションステップについては、境界ボックスの位置およびサイズを改良するステップを含めることが好ましい。これにより、オブジェクトの周囲の境界ボックスを、オブジェクトトラッキングによってこれらを出力できるように、セグメンテーション情報に従って適合させることが可能となる。すなわち、標準的なトラッキングアルゴリズムの質は、動いているオブジェクトの周囲に形成された境界ボックスが、しばしば、実際のオブジェクト位置から遅れる傾向にあるか、あるいは、サイズが大きくなってしまう傾向にあるという点で限定されるため、理に適っている。このため、境界ボックスは、画像セグメンテーションの後に、オブジェクトを含むように適合される。これにより、オブジェクトの位置を、良好に適合させることが可能となる。なお、オブジェクトの位置は、中央部分の下方（あるいは、これに代えて、境界ボックスにおける所定の一角）となるように規定されていることが好ましい。

本発明の好ましい変化形では、現実のカメラの位置とは異なる仮想視点から得られるシーンを表示する合成表示を提供するようになっている。そして、この変化形は、以下のステップを含んでいる。

・仮想カメラのカメラパラメータを準備するステップ、
・仮想カメラによって視認されるような背景画像を決定するステップ、
・仮想カメラに対する各オブジェクトの投影を決定し、これを背景画像に重ねるステップ、
・保存あるいは他の処理のために、結合画像を出力あるいは保存するステップ。

これにより、ビデオストリームからの入力に基づいて、シーン全体に関する広範囲の３
次元表現を維持し、動的に更新することが可能となる。ビデオストリームから得られるビデオ情報あるいは画像情報については、３次元表現にレンダリングする。これにより、ソースビデオフィードを供給するカメラにおける実際の物理的な位置とは異なる視点からの画像を、生成することが可能となる。この点は、従来技術とは対照的である。従来技術では、孤立した長方形を３次元空間に配置し、これらの長方形に画像をテクスチャマッピングするだけのものであり、ピッチおよび残存している背景オブジェクトを考慮しないものである。

ここでおよび本出願の残部では、「テクスチャ（ｔｅｘｔｕｒｅ）」という語句は、現実の（あるいは、コンピュータで生成された）オブジェクトの表面から得られる画像データあるいはピクチャデータを意味するものである。テクスチャデータは、例えば、１つ以上のカメラによって視認されるか、あるいは、データベースから読み出される。そして、幾何学的に変形することが可能であり、３次元モデル内でオブジェクトの表面にマッピングすることで、レンダリングすることも可能である。

本発明のさらに他の変化形では、仮想カメラによって視認されるような背景画像を決定するステップが、以下のステップを含んでいる。

・各背景画像要素について、同一の背景位置に対応する異なるビデオストリームから得られる画像情報を合成するステップ、
・合成画像データとなるようにマークされていない画像情報に優先権を与えるステップ
・背景を表現する１つ以上の表面、すなわち、背景オブジェクトを含んでいる背景モデル上に画像情報をレンダリングするステップ。

これにより、現実の画像データが有効になっているときには常に、有効な現実データから得られる合成色によって、背景を色付けすることが可能となる。これは、現実のデータに、合成データに対する優先権を与えているからである。現実のデータが有効でない場合に限って、セグメンテーションの後に、異なるビデオフィードから得られる１つ以上の背景から得られる合成データによって、３次元モデル内の背景を着色する。

本発明の好ましい変化形では、背景を表現する表面は、競技場すなわちピッチを表現している表面である。そして、任意的に、この表面に、周囲環境モデルを表現する表面を含ませている。この周囲環境モデルは、例えば周囲環境データモジュールに保存されているものである。この周囲環境モデルについては、どのような周囲環境にも適合する単純な包括的モデルであってもよい。また、実際の周囲環境のＣＡＤデータから得られる周囲環境モデルであってもよい。本発明の他の好ましい変化形では、仮想カメラによって視認されるような背景画像を決定するステップが、さらに、背景モデル上の所定の画像データをレンダリングするステップと、それをビデオストリームから得られる画像情報に重ねる、あるいは画像情報と入れ替えるステップとを含んでいる。

本発明の他の好ましい変化形では、仮想カメラに対する各オブジェクトの投影を決定するステップが、レンダリングオブジェクトの位置および方向を決定し、さらに、異なるビデオフィードから抽出されるビデオ情報であって、レンダリングオブジェクトに対して上記のオブジェクトに関連付けられているビデオ情報を、レンダリングするステップを含んでいる。

本発明の１つの好ましい実施形態では、レンダリングオブジェクトが、いわゆるビルボード、すなわち、ピッチ上に立っている垂直面となっている。ビルボードのサイズおよび方向については、１つのビデオフィードから得られる上記のオブジェクトに関する境界ボックスに従って決定される。また、ビルボードの位置については、上記したオブジェクト
における、演算された３次元位置によって規定される。この３次元位置を境界ボックスの投影と結合することで、３次元の長方形における３次元的な４つの頂点を生成することが可能となる。このために、長方形の法線を、境界ボックスを生成した現実のカメラあるいは仮想カメラのいずれかによって規定される、光学軸あるいは表示法平面と等しくしている。前者の場合、現実のカメラにそれぞれ対応する各オブジェクトに関して、多数のビルボードを使用することが可能である。最終的にレンダリングされた画像は、多数のビルボードにレンダリングされた画像を結合したものから構成される。この結合については、仮想カメラの位置に依存して制御される。

本発明の他の好ましい変化形では、ビルボードを、ハイトフィールド（ｈｅｉｇｈｔ−ｆｉｅｌｄ）によって増補するようになっている。このハイトフィールドは、オブジェクトの配置を粗く規定するものである。すなわち、ハイトフィールドは、２つ以上の現実のカメラ表示から決定される。これは、例えば、シルエットによる復元（ｓｈａｐｅ−ｆｒｏｍ−ｓｉｌｈｏｕｅｔｔｅ）、あるいは、ステレオ方法による復元（ｓｈａｐｅ−ｆｒｏｍ−ｓｔｅｒｅｏｍｅｔｈｏｄｓ）を用いて実施される。これについては、例えば、「コンピュータビジョンにおける多重表示配置（ＭｕｌｔｉｐｌｅＶｉｅｗＧｅｏｍｅｔｒｙｉｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）」；ＲｉｃｈａｒｄＨａｒｔｌｅｙａｎｄＡｎｄｒｅｗＺｉｓｓｅｒｍａｎ，ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，２０００に記載されている。これらのハイトフィールドについては、オブジェクトレンダリングの最終的な質を改善するために使用することが好ましい。ビルボードについては、オブジェクトの配置に関するより詳細な事項を表現する置換マップ（ｄｉｓｐｌａｃｅｍｅｎｔ−ｍａｐ）を用いて増補することも可能である。後者は、より高速なレンダリングを実施するために有用なものである。

本発明のさらに好ましい変化形では、アルファブレンディングによって、オブジェクトの投影と背景画像とを仮想カメラにおいて重ね合わせるようになっている。オブジェクトビルボードのアルファチャンネルにおける値については、直接に使用するようにしてもよいし、さらに重み付けするようにしてもよい。この重み付けは、現実のカメラと仮想カメラとの光学特性の間における、角度の類似性、解像度あるいは視野に基づくものである。

・参照フィーチャを特定するためのピッチの概略的な表現における参照フィーチャの表現の使用方法、
・参照フィーチャ特定プロセスにおいて抽出されたフィーチャの１つの位置に対する参照フィーチャの位置のスナップ方法、
・カメラパラメータの変更に従うトラッキング補償およびトラッキング訂正の方法、
・自動的特定支援方法、
・ユーザに未確認オブジェクトの存在を警告する方法、
・画像要素を、背景の一部、または少なくとも２つのカテゴリの１つであると分類する方法、
・アルファチャンネル整合を使用する方法、
・修復された画像要素を合成画像データとしてマークをつける方法、
・３次元技術による修復方法、
・セグメンテーションの結果に基づく、オブジェクトの周囲にある境界ボックスの位置およびサイズの改良方法、
・３次元背景モデルへのビデオ情報のレンダリング方法。

上記のそれぞれについては、原則的に、オブジェクトの３次元位置から得られる位置情報を用いた、少なくとも２つのビデオストリームにおけるオブジェクトの動きに対するトラッキングを組み込んでいないシステムにおいて実行されてもよい。

本発明にかかるシステムは、生成実体（ｐｒｏｄｕｃｉｎｇｅｎｔｉｔｙ）からビデオストリームの供給を受ける、データ収集モジュールを備えている。さらに、このシステムは、カメラ・キャリブレーション・モジュール、２次元トラッキングモジュール、オブジェクト特定モジュール、３次元結合および３次元オブジェクト位置演算モジュールを備えている。そして、好ましくは、このシステムは、オブジェクト切り取りモジュール、および、ビデオデータを消費者に提供する画像合成モジュールを備えている。

本発明に従って、動的に変化する３次元のシーンに関する３次元表現を生成するためのコンピュータプログラム製品は、デジタルコンピュータの内部メモリに読み込まれるものであって、コンピュータ・プログラム・コード手段を備えている。このコンピュータ・プログラム・コード手段は、前記コンピュータ・プログラム・コード手段がコンピュータに読み込まれたときに、コンピュータに、本発明にかかる方法を実行させるためのものである。本発明の好ましい実施形態では、このコンピュータプログラム製品は、コンピュータ読み取り可能な媒体を含んでいる。この媒体は、コンピュータ・プログラム・コード手段を記録したものである。

さらに好ましい実施形態については、従属請求項によって明確となる。方法の請求項の特徴については、システムの請求項の特徴と組み合わせてもよくその逆も同様である。

本発明の主題について、添付図面によって示される好ましい例示的な実施形態を参照しながら、以下の文章においてより詳細に説明する。

本発明にかかるシステムの構造および方法の概観を示す概略図である。キャリブレーション方法におけるユーザ・インタラクション・フェーズにおいて使用される画像を示す概略図である。トラッキング方法を例示する画像を示す概略図である。２つ（あるいはそれより多くの）オブジェクトに関し、１つのカメラのビデオ画像内における２次元投影においてはこれらが衝突している一方、他のカメラに関しては衝突していない状況を示す概略図である。２次元オブジェクトの位置およびサイズ構造、境界ボックスの一実施形態を示す概略図である。境界ボックスの改良を示す概略図である。周辺機器を伴う本発明のシステムの全体を示す概略図である。充填されるべき欠損、および、ランドマークによって貫かれた欠損を含む画像を示す概略図である。投影されたサークルおよびパッチの回転を示す概略図である。ランドマークの投射投影、および、ランドマークに関する画素位置の配置を示す概略図である。３次元の周囲環境モデルを示す概略図である。本発明に従って生成された再構築画像を示す図である。

図面において用いられている符号およびその意味については、符号の説明にまとめて記載している。原則的には、図面において、同一の部材には同一の符号を付している。

［好ましい実施形態に対する詳細な説明］
図１に、システム１００およびこれに対応する方法の概要を、システムの部材および対応する部分的な方法とともに概略的に図示する。これらの部材は、インターフェイス、すなわちデータの入出力装置を介してリンクされている。このため、この図は、一方では、
部材あるいはモジュールと、これらのモジュール間のメインデータフローを示すものである。また他方では、モジュールは、システムによって実行される方法の方法ステップに対応している。従って、これらのモジュールは、文脈に応じて、方法として参照されることもある。

システム１００およびその部材については、個々の部材における実際のプロセス要求に応じて、ソフトウェアモジュールおよび／または専用のハードウェアモジュールによって実現することが可能である。従って、システム１００については、汎用のデータ処理装置あるいはコンピュータによって実現することが可能である。これらは、処理ユニット、データ記憶ユニット、および、ディスプレイ、キーボード、ポイント装置およびデータ通信インターフェイスなどの入出力装置を備えるものである。

このシステムは、生成実体１０１からビデオストリームの供給を受ける、データ収集モジュール１０２を備えている。さらに、このシステムは、カメラ・キャリブレーション・モジュール１０３、２次元トラッキングモジュール１０４、オブジェクト特定モジュール１０５、オブジェクト切り取りモジュール１０６、３次元結合および３次元オブジェクト位置演算モジュール１０７、および、画像合成モジュール１０８を備えている。この画像合成モジュール１０８は、ビデオデータを消費者１０９に提供するものである。システム１００は、さらに、リソース・データ・モジュール１１０および周囲環境データモジュール１１３を備えるか、あるいは、これらにリンクしている構成とすることも可能である。モジュール間に設けられたインターフェイスを介して流れている、異なる種類のデータについては、符号の説明欄に一覧表示している。

図１において、上から下に向かうシーケンスは、情報処理の順方向を示している（２次元トラッキングステップ１０４に先行するカメラ・キャリブレーション・ステップ１０３、および、これらのステップに先行する他の全てのステップについて以下に示す）。１つのステップは、図示した順序に従って先行するいずれかのステップに続くステップとみなされる。３次元オブジェクト位置演算１０７から延びる矢印は、３次元オブジェクト位置１３０を示している。この位置は、２次元トラッキングモジュール１０４および／またはオブジェクト特定モジュール１０５などの先行するステップに提供される。従って、３次元オブジェクト位置１３０は、情報処理における通常の実行方向に逆行するように流れるようになっており、情報のフィードバックを構成する。

本発明は、好ましい実施形態において、次に示すような方法で機能する。すなわち、２つ以上のビデオストリーム１２０が１０１によって生成され、リアルタイムでシステム１００に供給される。通常、この入力は、ハードウェアケーブルと、その内部でのＳＤＩ（ＳｅｒｉａｌＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）フォーマットされたデータとを介して供給される。これらは、ビデオ送信のための生産現場において、テレビのプロデューサによって通常に使用されているシステムである。このフォーマットあるいはハードウェアは、本発明の本質ではなく、他の実施形態に変更することも可能である。

最初のステップにおいて、データ取得方法１０２では、既製のハードウェア部材を使用することが好ましい。この部材は、これら２つ以上のビデオストリーム１２０を、コンピュータの内部メモリに捕獲する（デジタル化する）ものである。この方法では、上記のデータフォーマットを、後の処理のために、ＲＧＢ、ＹＵＶあるいはその他の画像表現フォーマットに追加的に変換することも可能である。さらに、この方法における付加的なステップとして、標準的な方法を用いた順次走査変換（ｄｅ−ｉｎｔｅｒｌａｃｉｎｇ）方法を含むようにしてもよい。この方法については、「順次走査変換：走査周波数の変換に関するキーテクノロジー（Ｄｅ−Ｉｎｔｅｒｌａｃｉｎｇ：ＡＫｅｙＴｅｃｈｎｏｌｏｇｙｆｏｒＳｃａｎＲａｔｅＣｏｎｖｅｒｓｉｏｎ）」：Ｂｅｌｌａｒｓａｎ
ｄＤｅＨａａｎ，Ｅｌｓｅｖｉｅｒ，２０００を参照されたい。方法１０２の出力は、全てのフレームについて入力される全てのビデオストリームにおける、デジタル化された色テクスチャデータ（ｃｏｌｏｒｔｅｘｔｕｒｅｄａｔａ）１２１である。

次に、カメラキャリブレーション方法１０３は、各カメラの位置、方向および内部パラメータ１２２を決定するために用いられるものである。この内部パラメータ１２２は、他の方法において使用されるものである。図２は、このキャリブレーション方法に支障の生じた場合に、これを初期化あるいは訂正するために使用されるユーザインタラクションの概略図である。初期化時間（例えば、ｔ＿ｉｎｉｔ）に対応する各ビデオ入力のフレームでは、ユーザは、正確な２次元位置２０３ａ，ｂ、２次元ライン２０３ｃ、２次元サークル２０３ｄとなることのできるフィーチャ、あるいは他の周知のフィーチャを特定する。このプロセスは、「スナッピング」方法によって補助される。この方法は、周知の方法を用いて、ライン、サークルなどの画像のフィーチャを特定する方法である。これについては、例えば、「オープンソースのコンピュータ版図書館（ｏｐｅｎｓｏｕｒｃｅｃｏｍｐｕｔｅｒｖｉｓｉｏｎｌｉｂｒａｒｙ）ｈｔｔｐ：／／ｗｗｗ．ｉｎｔｅｌ．ｃｏｍ／ｔｅｃｈｎｏｌｏｇｙ／ｃｏｍｐｕｔｉｎｇ／ｏｐｅｎｃｖ／」によって取得することが可能である。

ユーザ入力装置（マウスポインタ）をそのフィーチャの近くに配すると、入力装置が、画像内においてフィーチャ上に位置を変えることで、そのフィーチャを「スナップ」する。ビデオイメージ２０１内でフィーチャ２０３ａ〜ｄに対する選択（クリックする、キーを押すなどによる）をした後、ユーザは、概略図２０２内での対応するフィーチャ２０４ａ〜ｄを選択する。フィーチャ２０３ａ〜ｄのいくつかが選択され、それに対応する概略表現２０４ａ〜ｄが選択された後、キャリブレーション演算アルゴリズムが、他ならぬこのフレームのために、キャリブレーション情報として知られているカメラの位置方向および初期パラメータを演算する。このキャリブレーション演算アルゴリズムとしては、例えば、「カメラキャリブレーションに関する順応的新技術（Ａｆｌｅｘｉｂｌｅｎｅｗ
ｔｅｃｈｎｉｑｕｅｆｏｒｃａｍｅｒａｃａｌｉｂｒａｔｉｏｎ）：Ｚ．Ｚｈａｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓ
ａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２２（１１）：１３３０−１３３４，２０００」が挙げられる。これらのステップは、時間ｔ＿ｉｎｉｔにおける各カメラの初期化フレームについて実施される。

継続するフレーム（時間ｔ（ｋ）＝ｔ＿ｉｎｉｔ＋１、ｔ＿ｉｎｉｔ＋２、…）に関し、および、各ビデオストリームに関して、このキャリブレーション方法は、自動的に、２次元画像内で特定のフィーチャをトラッキングする。これは、トラッキングアルゴリズムを用いて行われる。このトラッキングアルゴリズムの例としては、「視覚トラッキングに関する凝縮−条件付き密度プログラム（Ｃｏｎｄｅｎｓａｔｉｏｎ−ｃｏｎｄｉｔｉｏｎａｌｄｅｎｓｉｔｙｐｒｏｐａｇａｔｉｏｎｆｏｒｖｉｓｕａｌｔｒａｃｋｉｎｇ）：ＩｓａｒｄａｎｄＢｌａｋｅ，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２９，１，５−２８，１９９８」が挙げられる。

キャリブレーション方法１０３と平行して、あるいはその後に、トラッキング方法１０４が、デジタル化された色テクスチャデータ１２１、カメラ・キャリブレーション・データ、推定した３次元オブジェクト位置１３１を使用して、色テクスチャデータ１２１のセット毎に、視認されている全てのオブジェクトにおける２次元の位置および形状を判断する。なお、上記のカメラ・キャリブレーション・データは、実際のデータ、および／または、先行するステップ１３１のデータである（平行処理か否かで変わる）。

ｔ＿ｉｎｉｔにおける初期化フレームでは、ユーザは、全てのカメラにおけるビデオ画像ごとに、オブジェクトの位置を特定することが好ましい。このプロセスのために、自動的な方法によって候補を提示することが可能である。この方法における１つの好ましい実施形態では、ユーザは、マウス入力装置および／またはキーボードを用いて、２次元の長方形（いわゆる境界ボックス５０１）を特定する。この長方形５０１については、マウスおよび／またはキーボードを用いて、後のいずれの時間においても、位置５０９での画素位置（ｐｉｘｅｌ−ｗｉｓｅ）およびサイズ（幅５１０、高さ５１１）を変更することが可能である。他の好ましい実施形態では、ユーザは、各オブジェクトをクリックまたはポイントし、自動的な方法によって、境界ボックス５０１あるいは他の形状の表示を（準）自動的に決定する。これについては、後述するオブジェクト切り取り方法１０６の微調整方法において使用されるものと同様の方法によって、実行することが可能である。

他のフレームに関しては、トラッキング方法は自動的に実行される。基本的に、適切な（そして、リアルタイムの）トラッキング方法（例えば「視覚トラッキングに関する凝縮−条件付き密度プログラム（Ｃｏｎｄｅｎｓａｔｉｏｎ−ｃｏｎｄｉｔｉｏｎａｌｄｅｎｓｉｔｙｐｒｏｐａｇａｔｉｏｎｆｏｒｖｉｓｕａｌｔｒａｃｋｉｎｇ）；ＩｓａｒｄａｎｄＢｌａｋｅ，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２９，１，５−２８，１９９８」）は、以下に示すように機能する。

１．前段の状態に基づく画像内のオブジェクトの２次元状態を推定する。
２．推定した２次元位置の周囲を検索する。この検索については、オブジェクトのフィーチャと検索サンプルのフィーチャとを比較することによって実行する。このようなサンプルフィーチャ比較は、色ヒストグラム、ガウシアン混合モデルあるいは同様のモデルに基づいて実行することが可能である（パターン分類（ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ）：Ｄｕｄａ，Ｈａｒｔ，ａｎｄＳｔｏｒｋ，ＷｉｌｅｙＩｎｔｅｒｓｃｉｅｎｃｅ，２０００）。

３．現在の状態として、１つ以上の検索サンプルを選択する。
図３に、本明細書において説明する、我々によって改善されたトラッキング方法を概略的に示す。３次元オブジェクト位置演算方法１０７から、キャリブレーション方法１０３によって、全てのオブジェクトに関する３次元オブジェクト位置を推定する。この推定については、シーン３０３における３次元モデルにおいて実行される。このシーン３０３では、例えば、先行するフレーム３３１ａ，ｂから、および、先行するフレーム３３０ａ，ｂの前のフレームから得られる３次元位置を、現在のフレーム３３２ａ，ｂの３次元オブジェクト位置に対する線型補間スキームあるいは高次補間スキームに基づく推定に使用する。

なお、図３には、単一のビデオフレームを表示しているわけではなく、説明のために、２つの異なるフレームのオブジェクト３１０ａ，ｂ、３１２ａ，ｂ、…の位置を重ねて表示している。実際のビデオストリームでは、最初に、オブジェクト３１０ａと３１０ｂが表示され、その後、オブジェクト３１１ａと３１１ｂが表示される。実際のビデオフレームでは、これらのオブジェクトは、以下に示すような、トラッキングおよびセグメンテーションによって決定される画像区分に対応している。

技術水準のトラッキングアルゴリズムは、ある単一のビデオシーケンス中のオブジェクトをトラッキングするだけなので、オブジェクトは２次元画像空間に残存している。オブジェクトＡ，Ｂに関し、トラッキングされているオブジェクトの２次元軌道（トラッキングされている２次元での位置だけに基づくもの）を、矢印３１１ａ，ｂによって示す。これにより、これらのオブジェクトの２次元位置は、先行するフレーム３０１（他のトラッ
キングアルゴリズムがこのオブジェクトに対する検索を開始したフレーム）において予測された、２次元位置３１２ａ，ｂとなる。

我々の方法では、カメラについては固定する必要がない。従って、カメラの向きや内部パラメータ（ズームなど）を時間とともに変更することが可能である。従って、現在のフレーム（フレーム３０２）でのシーンを、従前（フレーム３０１）と異なるように表示することが可能となる。他のトラッキングアルゴリズムによって得られる２次元位置だけを考慮する場合、このトラッキング方法については、先行するフレーム３１２ａ，ｂに示されていたものと同じ２次元位置３２１ａ，ｂから開始することになる。キャリブレーション方法１０３によって得られる実際のあるいは推定したキャリブレーションデータ１３１、および、３次元オブジェクト位置演算方法１０７から得られる推定した３次元オブジェクト位置１３０を使用して、推定した３次元投影の投影における２次元位置、および、実際の画像における位置３２０ａｂを演算する。これは、オブジェクトの２次元位置に対する推定に影響するだけでなく、ビデオ画像中のオブジェクトのサイズあるいは形状にも影響する。従って、トラッキング検索ステップについては、改善された２次元の位置および形状を推定しながら開始することになる。これにより、検索空間をより小さくすることが可能となり、トラッキング方法における計算量を権限することができる。

このトラッキング方法の他の改善点は、オブジェクトの３次元位置をわかっている場合には、このオブジェクトがカメラの視認領域に入ったりこの領域から出たりした場合に、それを簡単に検出できることにある。全てのオブジェクトに関して推定した３次元オブジェクト位置１３０を２次元画像に投影することによって、フレームの境界内にある全ての２次元位置が、トラッキング中に考慮されるはずでる。これについては、状況および有用なビデオ情報に従って、この方法によって自動的に実行することが可能であるし、これに代えて、ユーザの補助を受けて実行するようにしてもよい。

このトラッキング方法の他の改善点としては、図４に概略的に示すように、２次元画像空間内のオブジェクトの衝突に関する取り扱いにある。このシーン４０３に関する概略図では、オブジェクトＡ，Ｂの３次元位置を、前の時間ｔ（ｋ−１）４３０ａ，ｂおよび現在の時間ｔ（ｋ）４３１ａ，ｂの間に表示している。１台のカメラの表示４０１では両方のオブジェクト４１１ａ，ｂが２次元において衝突している状態のように見えている一方、他のカメラの表示４０２では同じオブジェクト４２１ａ，ｂが衝突していない状態のように見えている。これにより、トラッキング方法に関し、２種類の付加的な情報を得ることができる。

１．このトラッキング方法は、ある表示４０１内で２つ以上のオブジェクトが衝突しているという情報を使用することが可能である。このために、単独の２次元画像からは「１つのオブジェクト」だけを認識しているけれども、２つ以上のオブジェクトがある、ということを知ることが可能となる。

２．このトラッキング方法は、衝突後のオブジェクトに対するトラッキングを容易に維持することが可能である。これは、３次元空間におけるオブジェクトのある場所あるいは予想される場所、および、それに応じた２次元表示での場所についても知ることが可能であり、このために、個々にそして正確に、各オブジェクトのトラッキングを続けられるからである。

最後に、このトラッキング方法は、全てのカメラの全てのフレームに視認されている全てのオブジェクトに関する２次元オブジェクト位置および形状１２３を判断し、オブジェクト特定モジュール１０５に伝達する。

上記のトラッキング方法に続いて、各ビデオストリームにおいて視認されている各オブジェクトに関して、色テクスチャデータ１２３におけるオブジェクトの２次元の位置および形状を、現実のオブジェクト（例えば、選手、ゴールキーパー、審判、ボールなど）に関連付ける。この関連付けは、キャリブレーションデータ１２２、ソース・データ・モジュール（単にリソースとも称する）１１０に含まれている現実世界のオブジェクト１３２の情報、および、可能であれば、全てのカメラの全てのフレームにおける実質的に全てのオブジェクトに関する推定三次元オブジェクト位置１３０および２次元の位置および形状１２３（トラッキング方法１０４によって伝達されたもの）に基づいて実行される。この場合において、および他の場合においても、「全て」というのは、「実質的に全て」ということを意味する。すなわち、不備のあるもの、不健全なもの、あるいは不具合のあるもの（オブジェクトについても、カメラについても）は含まれない。

時間ｔ＿ｉｎｉｔのフレームを初期化する過程においては、ユーザは、１台のカメラにおける各２次元の位置および形状情報１２３を、リソース１１０を用いて、特定の現実世界のオブジェクト（既に知られているような全てのオブジェクト；例えば、選手の名前、ゴールキーパーの名前、審判、ボールなど）１３２に関連付ける。時間ｔ＿ｉｎｉｔにおける他の全てのカメラのフレームに関して、このオブジェクト特定方法によって以下のステップを実行することにより、自動的に、特定情報（名前など）を提示するようになっていることが好ましい。
１．全ての特定されたオブジェクトに関して、
（ａ）推定１３０を通じて有用な３次元位置を得られなかった場合に、３次元位置の近似値を演算する（３次元演算方法１０７において示したような、グランドレベル（ｇｒｏｕｎｄ−ｌｅｖｅｌ）の条件を使用する）。

（ｂ）キャリブレーションデータ１２２を用いて上記の３次元位置を各カメラフレーム画像に投影することによって、２次元位置を演算する。

（ｃ）それぞれのカメラにおけるフレーム境界内にある上記した全ての２次元位置に関して、
（ｉ）上記の２次元位置の近くに位置する２次元の位置および形状情報１２３を決定する。

（ｉｉ）距離に関してユーザの特定したある閾値内に１つの２次元位置しかない場合には、上記の２次元の位置および形状情報１２３を、上記の特定されたオブジェクトに関連付けられた現実世界のオブジェクトに対して関連付ける。

（ｉｉｉ）上記の閾値内に１つ以上の２次元位置がある場合には、ユーザに対して、距離に応じて並べられたリストを提示する。このリストは、ユーザが積極的に自分の手で第２の距離あるいはより多くの距離を選択するために用いられる。ユーザが何の行動もしない場合には、第１の距離が選択されたまま維持される。対応する２次元の位置および形状情報１２３を、上記の選択されたオブジェクトに関連付けられた現実世界のオブジェクトに関連付ける。

（ｄ）各カメラにおける全ての２次元の位置および形状（上記のいずれのステップにおいても現実世界のオブジェクトに関連付けられていないもの）に関し、以下のステップによって、可能性のある候補のリストを提示する。

（ｉ）上記のカメラフレームにおける２次元の位置および形状情報１２３に既に関連付けられた現実世界のオブジェクトを除去する。

（ｉｉ）３次元位置に関する画像への２次元投影（１（ｂ）参照）の距離の増加に応じて、残存している候補を整理する。

（ｉｉｉ）まだ演算できる状態ではない３次元位置を有するオブジェクトを、ユーザの設定に応じて、リストの前あるいは後に配置する。

後続する全てのフレームに関して、オブジェクト特定法は、以下のステップを実行する。

１．２次元オブジェクトの位置および形状情報１２３が、これまでのフレームにおいて既に特定され関連付けられている場合、一致した情報１３２を再び使用する。

２．２次元オブジェクトの位置および形状情報１２３が、トラッキング方法におけるこれまでのステップで特定されていない場合、未確認のオブジェクトに関するフレームの初期化中と同一のステップを実行する。

３．２次元オブジェクトの位置および形状情報１２３が、まだ現実世界のオブジェクト情報１３２に関連付けられていない場合、ユーザインタラクションを要求するように、該当フレームにマークをつける。

４．トラッキング方法１０４によって、不明瞭でなく特定されている全ての２次元オブジェクトの位置および形状情報１２３を見いだすことのできた全てのフレームに関して、さらなるユーザインタラクションを要求せずに実行されるように、これらのフレームにマークをつける。

その後、ユーザは、可能性のある候補のリストを用いて、ユーザインタラクションを要求するマークをつけられた全てのフレーム内の２次元オブジェクトの位置および形状情報１２３を関連付ける。これは、全てのフレームについて、全ての２次元オブジェクトの位置および形状情報１２３を不明瞭でなく特定できるまで実行される。

オブジェクト特定方法１０５によって、全てのビデオストリームにおける全てのフレームにおいてトラッキング方法１０４に見いだされた全ての２次元の位置および形状に関して、２次元オブジェクトの位置および形状とオブジェクトの特定情報１２４とを得られる。

データ収集１０２およびオブジェクト特定１０５によって得られるデータ、すなわち、色テクスチャデータ１２１および２次元オブジェクトの位置および形状（オブジェクトの特定情報１２４を含む）は、オブジェクト切り取り方法１０６に入力される。

この方法では、前景（オブジェクト）画素と背景画素との間にあるオブジェクトの位置およびサイズによって規定される領域内における、色テクスチャデータに対するセグメンテーションあるいは切り取り（いわゆるアルファマスク）を演算する。従って、オブジェクト切り取り方法の１つの出力は、アルファマスク１２６に関連付けられたオブジェクトのテクスチャデータとなる。

図５は境界ボックス５０１内における、２次元オブジェクトの位置およびサイズ構造の一実施形態を示す概略図である。また、図５は、前景５０２と背景５０３との間の差異、および、切り取りあるいはセグメンテーション方法によって得られるアルファマスク値５０５についても示している。

境界ボックス５０１がオブジェクトの全体を含んでいなかったり境界ボックスを横切っていたりした場合、境界ボックス５０１が演繹的に推定できるものであるか、あるいはユーザによって規定できるものであるなら、境界ボックスを、特定のサイズまで拡大することが可能である。この拡大については、ユーザによって実行するようにしても、固定値に従うようにしても、あるいは境界ボックス５０１を分析する自動処理によって実行するようにしてもよい。

この方法では、オブジェクトは、まず、少なくとも２つのカテゴリに従って分類される。これらのカテゴリは、統計上のフィーチャモデルに基づいていることが好ましい。このモデルとしては、例えば、ヒストグラム、ガウシアン混合モデル、あるいは同様のモデル（「パターン分類（ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ）：Ｄｕｄａ，Ｈａｒｔ，ａｎｄＳｔｏｒｋ，ＷｉｌｅｙＩｎｔｅｒｓｃｉｅｎｃｅ，２０００」）が挙げられる。好ましいフィーチャは、色およびエッジを含んでいる（ただしこれらに限るわけではない）。処理に先立って、全てのオブジェクトのカテゴリに関する統計上のモデルを構築する。カテゴリは、１つ以上のカメラから得られる静止画を用いて構築され、全てのカメラのビデオストリームに適用される。オブジェクトの各カテゴリに関する統計上のモデルについては、ポインティング装置、および、このカテゴリに属するさまざまなポイントに応じた経路に従う参照マークを用いたユーザの動作によって生成される。統計上のモデルの生成においては、上記の経路上のポイントにおけるフィーチャによって、上記のカテゴリを表現するサンプルを形成する。オブジェクトの各カテゴリに関して、参照マークによって、ポイントあるいは画像要素（画素）を背景あるいは前景に属するものとして分類する。ユーザは、背景が現実に見えている範囲内ではなく、境界ボックス５０１の外部および境界ボックス５０１の内部の画素に関して、背景にマークをつけることが好ましい。ユーザは、前景の属する範囲内の境界ボックスの内部の部分に関する前景にマークをつける。このモデルについては、１つあるいは多数の入力画像１０２を用いて生成することが好ましい。

その後、このモデルを、使用しているモデルにとって好ましい方法を用いて生成する。この方法としては、例えば、ｋ−平均クラスタリング法、あるいは、期待値最大化法が挙げられる（「パターン分類（ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ）：Ｄｕｄａ，Ｈａｒｔ，ａｎｄＳｔｏｒｋ，ＷｉｌｅｙＩｎｔｅｒｓｃｉｅｎｃｅ，２０００」を参照されたい）。このモデルについては、多数の統計上のパラメータによって規定することが好ましい。例えば、平均値、分散あるいは共分散マトリクスを用いて規定することが可能である。切り取りについては、対応した統計上のモデルのパラメータを用いて、境界ボックス内の全ての画素を処理することによって実行する。このとき、以下の点を考慮する。

１．データの類似性。すなわち、モデルパラメータとデータサンプルとの間の尤度を演算することによる、データサンプルの色とカラーモデルとの一致性に関する計測。

２．近傍あるいは従前との類似性。すなわち、空間的および時間的に隣接しているサンプル間の色の差に対する評価。これにより、大きな色偏差を不利にするとともに、選択処理における空間的および時間コヒーレンスを確保する。

切り取りの実行に関して、セグメンテーションについては、最小カット方法を使用した解決法を生み出すグラフラベリング問題のように解釈することが好ましい。例えば、定式化および解決法については、「画像におけるエネルギー最小化のための最小カット最大フローアルゴリズムの実験比較（Ａｎｅｘｐｅｒｉｍｅｎｔａｌｃｏｍｐａｒｉｓｏｎ
ｏｆｍｉｎ−ｃｕｔ／ｍａｘ−ｆｌｏｗａｌｇｏｒｉｔｈｍｓｆｏｒｅｎｅｒｇｙｍｉｎｉｍｉｚａｔｉｏｎｉｎｖｉｓｉｏｎ）：ＢｏｙｋｏｖａｎｄＫｏ
ｌｍｏｇｏｒｏｖ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ２６，９，１１２４-１１３７，２００４」に記載されている。切り取りの結果、境界ボックス５０１を、前景５０４と背景５０３との２値のセグメンテーションに区分（標識化）できる（すなわち、０（背景）および１（前景））。

後処理方法において、アルファ値５０５を、前景５０８の画素と背景５０６の画素との間の境界の近傍における、全ての画素（中間値５０７をもつ画素を含む）に割り当てることが好ましい。これらの中間値は、オブジェクトのなめらかな境界を示す値である。中間値については、例えば、「ベイズ理論に基づくデジタルマッティングの手法（ＡＢａｙｅｓｉａｎＡｐｐｒｏａｃｈｔｏＤｉｇｉｔａｌＭａｔｔｉｎｇ）：Ｃｈｕａｎｇ，Ｃｕｒｌｅｓｓ，Ｓａｌｅｓｉｎ，ａｎｄＳｚｅｌｉｓｋｉ．，ＩＥＥＥＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，Ｖｏｌ．ＩＩ，２６４−２７１，２００１」を用いて演算することが可能である。

アルファマスクを用いると、オブジェクトの２次元の位置および形状を改良できるとともに、これらをオブジェクト切り取り方法１０６の追加的な出力１２７として供給することが可能となる。

図６に、上記したような境界ボックスの改良点を概略的に示す。この目的を達成するために、最初に得られた境界ボックス６０１（破線）に関して、アルファマスクを横に移動して、前景画素の存在する画像の外形の両方（水平および垂直（ｕ方向、ｖ方向））における最小値および最大値を演算する。これにより、境界ボックス６０１のサイズが減少し（実線）、実際のオブジェクト６０２の形状によりよく整合するようになる。境界ボックスの新しい位置として最小値を採用し、各方向における最大値と最小値との差を、境界ボックスの新しい幅（ｕ方向）および高さ（ｖ方向）として使用する。そして、３次元位置演算方法のための参照ポイント（あるいはアンカーポイント）６０４を設定する。この設定の位置については、例えば、ｕ方向に関しては最大値と最小値との中間点とする一方、ｖ方向においては、最小値とする。

最後に、この方法によって、ビデオストリーム１２１における色テクスチャデータ内において、全ての前景領域（１組の画素）を決定する。この決定については、各ビデオストリームにおいて全てのオブジェクトを横に移動することによって、そして、色テクスチャデータ内においてフラグを用いて前景としてラベル表示されている画素にマークをつけることによって実行する。前景オブジェクトおよび欠損を含まない背景テクスチャデータを得るために、上記の領域を、画像修復方法を用いて充填する。これについては、例えば、「画像合成のための表示補間（ＶｉｅｗＩｎｔｅｒｐｏｌａｔｉｏｎｆｏｒＩｍａｇｅＳｙｎｔｈｅｓｉｓ）；ＣｈｅｎａｎｄＷｉｌｌｉａｍｓ，ＡＣＭＳＩＧＧＲＡＰＨ１９９３，ｐｐ．２７９−２８８」を参照されたい。この方法では、引き続いて、欠損の境界線上の各欠損画素に関して、画像中のマークのつけられていない領域から最も類似しているパッチを選択する。そして、対応する値を上記の境界画素に割り当てる。これにより、境界から中間点までの欠損を充填することが可能となる。これらの合成的に生成された画素の全てについては、各画素に関連付けられたフラグを用いて「修復済」であることを示す特別のマークが付される。これにより、充填されフラグの付された背景テクスチャデータ１２５からなる、切り取り方法における追加的な出力を得られる。

要約すれば、切り取りモジュール１０６の出力は、以下のものをを備えている。
・充填されフラグの付された背景テクスチャデータ１２５
・各カメラに関するオブジェクトテクスチャおよびアルファマスク、および、現実世界のオブジェクト、例えば、セグメンテーション情報１２６
・現実世界のオブジェクトの特定情報を有する、改良されたオブジェクトの２次元の位置および形状１２７
この３次元オブジェクト位置演算方法１０７は、現実世界の情報１２７を伴う改良された２次元位置およびサイズ情報と、（全ての）カメラのカメラ・キャリブレーション・データ１２２を使用して、（全ての）オブジェクトの３次元位置を決定するようになっている。この方法では、以下のステップが実行される。

１．現実世界の各オブジェクトに関連付けられた、２次元位置および形状情報を収集する。

２．カメラで視認されていないオブジェクトに関し、１次あるいは高次の補間スキームを用いて、先行するステップ（使える場合）の３次元位置を推定する。

３．１台のカメラだけに視認されているオブジェクトに関し、このオブジェクトがグランドレベルに配されていると仮定し、このために、投影された２次元画像における２次元位置を貫いてカメラ位置から延びるベクトルを地面と交叉させる。これにより、オブジェクトの３次元位置を得る。

４．２台以上のカメラによって視認されているオブジェクトに関し、２つの異なる方法を使用する。

（ａ）１つの方法では、全てのオブジェクトがグランドレベルに配されていると仮定し、このために、上記したものと同じ方法を使用する。これにより、そのオブジェクトに関する最終的な３次元位置になるような平均値（ｍｅａｎｏｒａｖｅｒａｇｅ）を演算するための、グランドレベルにおける２つ以上の３次元位置が得られる。

（ｂ）他の方法では、オブジェクトがグランドレベルに配されていると仮定せず、標準的な技術を用いて、上記のベクトルに最も近いポイントを演算する。これについては、例えば、「３次元空間での２本のラインの交叉（Ｉｎｔｅｒｓｅｃｔｉｏｎｏｆｔｗｏｌｉｎｅｓｉｎｔｈｒｅｅ−ｓｐａｃｅ）；Ｇｏｌｄｍａｎ，ＩｎＡｎｄｒｅｗＧｌａｓｓｎｅｒ，ｅｄｉｔｏｒ，“ＧｒａｐｈｉｃｓＧｅｍｓ”，ｐａｇｅ３０４．ＡｃａｄｅｍｉｃＰｒｅｓｓ，１９９０」を参照されたい。

以上のように、３次元位置演算方法１０７は、モデル化された各オブジェクトを各時間（ビデオフレーム）に関する３次元位置にあてはめる。そして、全てのオブジェクトの３次元位置１２８を出力する。これらの３次元位置は、後のステップにおける他の方法によって取り扱えるものであり、これによって、フィードバックループを維持するという効果を得られる。なお、上記した「後の」とは、時間的な意味を示す表現であって、これらのステップについては、システム１００の構造に関する文脈で用いた「先行するステップ」のことである。

・上記の補間画像合成方法１０８では、現在のフレーム１２８の情報を使用する。
・上記したトラッキング方法１０４では、１つ以上の先行するフレームから推定した３次元オブジェクト位置情報１３０を使用することが好ましい。

・上記したオブジェクト特定方法１０５では、２次元オブジェクトの位置および形状情報１２３を対応する現実世界のオブジェクト情報１３２に関連付けるために、情報１３０を使用するようになっていることが好ましい。

補間画像合成方法１０８は、シーンの合成表示を生成するものである。この方法への入
力は、オブジェクト１２８の３次元位置、カメラ・キャリブレーション・データ１２２、オブジェクトテクスチャおよびアルファマスク１２６、および、充填されフラグを付された背景テクスチャデータ１２５である。さらに、この入力には、周囲環境の３次元再構築データ１３５が含まれている。この３次元再構築データ１３５は、周囲環境データモジュール１１３、および／または、オブジェクトの形状から得られるものである。

画像合成方法は、以下のステップを含んでいる。
１．仮想表示から得られるオブジェクトをレンダリングする。このレンダリングについては、シーンにおける特定の３次元表現を用いて、および、オブジェクトテクスチャ１２６および固定されたアルファ値（切り取りステップ１０６から得られる）あるいは表示に依存したアルファ値のいずれかを用いて実施する。この際、角度、解像度および視野に関する類似点を考慮する。キャリブレーションデータ１２２を用いた投影テクスチャリングを使用して、テクスチャマッピングを得ることが好ましい。角度の類似性は、仮想表示の光軸から相当に離れている光軸を有する表示を不利にする。解像度の類似性は、例えば、ターゲットの配置状態からかなり離れているカメラ、あるいは、一般的に低い解像度を有するカメラを不利にする。視野の類似性は、仮想表示におけるターゲットの配置状態を視認していないカメラ表示からのデータを不利にする。

２．既にレンダリングされているオブジェクトを用いたアルファ合成および深度バッファ（ｄｅｐｔｈｂｕｆｆｅｒｉｎｇ）によって、および、１つ以上の欠損の充填された背景テクスチャ１２５を合成することによって、背景の配置状態をレンダリングする。この際、合成中にフラグの付されたデータサンプルを考慮する。キャリブレーションデータ１２２を用いた投影テクスチャリングを使用して、テクスチャマッピングを得ることが好ましい。

１．のステップでは、特定の３次元表現として、１つ以上のビルボード、ハイトフィールドの強調されたビルボード、凸凹マップ（ｄｉｓｐｌａｃｅｍｅｎｔ−ｍａｐ）の強調されたビルボード、あるいは、オブジェクトの完全３次元モデルを用いることが好ましい。

２．のステップに関して、競技場（すなわちピッチ）だけを表現する表面によって、背景の配置状態をモデル化してもよい。また、多少なりとも複雑なスタジアムモデルなどの周囲環境についての表現を上記の表面に含めたものを用いて、上記のモデル化を実施してもよい。このように、レンダリングするにあたって、ビルボード、深度マップを強調したビルボードあるいは完全な３次元モデルを使用することが可能である。

図１１に、３次元周囲環境モデルを示す。このモデルは、ピッチを示す平面９０１、および、ピッチを取り囲むスタジアムを示す他の（傾斜した）表面９０２を含むものである。図１２に、本発明に従って生成された再構築画像を示す。ビルボード９０３（通常は図示しない）については、説明の便宜上、強調して示している。

合成中にフラグの付されたデータサンプルを考慮するということは、以下の事項を意味する。すなわち、同一の背景表面に関する複数の表示のある場所、および、少なくとも１つの表示内に修復されたもの（すなわち合成データ）であることを示す表面パッチがマークされており、かつ、少なくとも１つの他の表示内に修復されていないもの（すなわち実際のデータ）であることを示す同一のパッチがマークされているような場所では、合成データを無視し、実際のデータだけを使用する。複数のソースから得られる実際のデータが有効な場合には、そのデータを合成してもよいし、また、１つのソースのみから得られるデータを合成してもよい。

さらに、３次元シーンにおける任意の表面に対して、所定の静的あるいは動的な画像をレンダリングすることによって、この表面を色付けするようにしてもよい。画像合成１０８は、自動的に、上記の画像を示す表示を生成する。これは、上記の画像を、対応するモデル化された表面にペイントしたようになされる。この方法では、ユーザによって決定されるデータ（例えば、ロゴ、広告、後援、相互注釈、選手の統計データなど）を３次元のシーンに挿入し、これらを合成２次元表示に投影する。

最後に、補間画像合成方法１０８の出力、特に、同期補間ビデオストリーム１２９については、宛先である消費者１０９に伝達される。この伝達は、消費者にとって便利なフォーマットに変換された後に実施される。このフォーマットとしては、例えば、入力されるビデオストリーム１２０に使用されているような、標準的なＳＤＩフォーマットが挙げられる。

図７に、本発明のシステム１００（周辺機器を含む）の全体図を概略的に示す。この周辺機器とは、すなわち、競技場７０１内に配されている少なくとも２台のカメラ７０２（黒で示している）、コンテンツの製作者の制御ユニット７０４である。この制御ユニット７０４は、多数のビデオストリームを収集管理し、アンテナ７０６のような放送ユニットに接続されているメディア配信ユニット７０５に対して伝達するためのものである。システム１００は、少なくとも２つの入力ビデオストリームを受信し、少なくとも１つの出力ビデオストリームを生成するように構成されている。出力ビデオストリームについては、図示しているように、配信ユニット７０５に出力するようにしてもよいし、制御ユニット７０４に出力するようにしてもよい。システム１００は、実際のカメラのない位置および方向に配された、仮想カメラ７０３（輪郭だけで示している）に対応する表示を生成するようになっている。

＜欠損充填／画像補間＞
図８に、充填されるべき欠損、および、ランドマークの貫通している欠損を含む画像を概略的に示す。この画像は背景のものであり、既知のテクスチャを用いて、背景部分８０１（「既知の領域」とも呼ばれる）および「未知の領域」すなわち欠損８０２に原画像をセグメンテーションすることによって生成されたものである。この欠損８０２は、オブジェクトが特定されて背景の外に切り取られた領域内の欠損である。本発明の好ましい実施形態では、背景内の欠損８０２を充填するステップは、以下のステップを反復適用するようになっていることが好ましい。

−「宛先パッチ」８０３ａ、８０３ｂ、…を選択する。これらのパッチの領域については、部分的に既知であるものと、部分的に未知であるものとがある。

−「ソースパッチ」８０４ａ、８０４ｂ…を選択する。これらのパッチは、既知の色値を有する少なくとも１つの画素（すなわち既知の領域８０１から得られる画素）を含んでいる。

−未知の宛先パッチの領域（すなわち欠損８０２内の領域）に関し、ソースパッチから得られる画像データ（あるいはテクスチャ）を、宛先パッチ内の対応する位置にコピーする。その結果、欠損８０２の領域が減少する。

例えば、「断片を用いた画像補間（Ｆｒａｇｍｅｎｔ−ｂａｓｅｄｉｍａｇｅｃｏｍｐｌｅｔｉｏｎ）；Ｄｒｏｒｉ，Ｉ，Ｃｏｈｅｎ−Ｏｒ，Ｄ．，ａｎｄＹｅｓｈｕｒｕｎ，Ｈ．，２００３．．ＡＣＭＴｒａｎｓ．Ｇｒａｐｈ．２２，３（ＪｕＩ．２００３），ｐｐ．３０３−３１２」あるいは「構造プログラムを用いた画像補間（Ｉｍａｇｅ
ｃｏｍｐｌｅｔｉｏｎｗｉｔｈｓｔｒｕｃｔｕｒｅｐｒｏｐａｇａｔｉｏｎ）；
Ｓｕｎ，Ｊ．，Ｙｕａｎ，Ｌ．，Ｊｉａ，Ｊ．，ａｎｄＳｈｕｍ，Ｈ．，２００５，ＩｎＡＣＭＳＩＧＧＲＡＰＨ２００５Ｐａｐｅｒｓ．Ｊ．Ｍａｒｋｓ，Ｅｄ．ＳＩＧＧＲＡＰＨ ‘０５．ＡＣＭＰｒｅｓｓ，ＮｅｗＹｏｒｋ，ＮＹ，ｐｐ．８６１−８６８」を参照されたい。上記のようなパッチについては、矩形のあるいは円形の形状を有していることが好ましい。多数の宛先パッチ８０３ａ、８０ｂが、互いに重なっていることも好ましい。本発明の好ましい実施形態では、重なり合っている宛先パッチが、共通の領域８０５内で合成されている。

背景画像の欠損を充填するステップに関する好ましい実施形態では、宛先パッチ８０３ａ、８０３ｂ、…が、ソースパッチ８０４ａと同一のサイズおよび同一の方向となっている。そして、ソースパッチから得られる画素情報を、直接に複写できるようになっている。他の好ましい実施形態では、ソースパッチおよび宛先パッチが、サイズ、形状、方向の点で、パッチ８０４ｂと異なっている。これらのような場合、対応する色値を探す必要のある場所であるソースパッチの位置に宛先パッチの位置をマップする機能を、簡単に生成できる。また、上記のコピー時に、ソースパッチ画像（例えば８０４ｂ）を回転および／または拡大・縮小するようにしてもよい。

本発明の好ましい実施形態では、ソースパッチ８０４ａ、８０４ｂ、…を選択するステップにおいて、潛在的に可能なソースパッチと、宛先パッチ８０３ａ、８０３ｂ、…とを比較する。これは、宛先パッチにおける既知の画素値に対応する画素値を有するソースパッチを見つけるためになされる。宛先パッチにおける既知の領域を詳しく検討することで、全ての潛在的に整合するソースパッチと既知の領域との画素位置比較（これにより画素値の差異を得られる）を実行することが可能となる。これは、良好に整合するソースパッチを見つけるためになされる。パッチの全体的な比較値を算出するために、これらの差異の和をとることも好ましい。画素値の差異については、ＲＧＢ、ＨＳＶあるいは画素の他のカラーシステム値に基づくものとすることが可能である（ただし、これらに限るわけではない）。

本発明の好ましい実施形態では、既知の背景８０１における欠損８０２を充填するステップを、背景上のランドマーク８０６ａ、８０６ｂ、…に関する従前の知識を考慮して実行する。このようなランドマークとしては、例えば、サッカーピッチ上のラインおよびサークルを使用できる。これらのランドマークは、シーンに対する知覚および認識を修正するために重要である。カメラ・キャリブレーション・ステップからカメラキャリブレーションを知ることができるために、また、通常、ランドマークの位置を、試合規則によって十分に規定することができるために、３次元空間背景から得られるランドマークをビデオ画像に投影することが可能となる。その結果、ビデオ画像内のランドマーク（例えばラインや投影されたサークル）の２次元位置を知ることができる。この知識を用いて、ランドマークに関連する全ての位置（例えば画素）を詳しく検討し、かつ、欠損８０２の存在をチェックすることによって、投影されたランドマーク上で未知の領域（例えば欠損）を検知することが可能となる。特定された未知の領域８０７を伴うランドマークに関し、ランドマークにおける失われた部分を再創造することが可能となる。これは、残存している欠損を充填する前に、これとは独立に実行される。これにより、宛先パッチ８０３ｃ、８０３ｄを、ランドマークに沿って漏れなく選択することが可能となる。パッチの中間地点については、常に、画像内においてランドマークが背景投影される位置上にあることが好ましい。そして、ソースパッチについては、ランドマーク８０４ｃ、８０４ｄの既知の領域に沿って検索されることが好ましい。対応するソースパッチが、ほぼ確実に、これらに含まれているランドマークと同一の構造、色あいおよび方向を有しているために、より速くより高質に欠損内のランドマークを回復することが可能である。

上記のようなソースパッチの反復適用によって、欠損内のランドマークの画像を再創造
するようにしてもよい。この実施形態では、パッチのサイズを、ランドマークにおける少なくとも１つの最大幅をカバーできるように選択することが好ましい。

図９に、投影されたサークルおよびパッチの回転を概略的に示す。本発明の好ましい実施形態では、ランドマークに関する従前の知識を用いて背景の欠損を充填するステップにおいて、ソースパッチ８０４ｅと宛先パッチ８０３ｅとの間の回転角度を決定する。これは、非直線（すなわち、まっすぐでないライン）のランドマーク８０６ｂ（例えばサークルなど）を取り扱うときに実施される。この回転角度については、投影されたランドマーク上のパッチ位置における基準値８０８ａ、８０８ｂ（すなわち、ある位置におけるランドマークに垂直な線）の間の角度８０９から演算することが可能である。ソースパッチと宛先パッチとを比較する前に、回転角度をマッピング関数と一体化する。これにより、サークルにおける離れた位置から得られるソースパッチを、方向を修正された宛先パッチと比較して、これに適用することが可能となる。これにより、視認できるような不自然さの発生頻度を減少することができる。

本発明の好ましい実施形態では、ソースパッチの検索を、より遠い位置にあるソースパッチを考慮する前に、宛先パッチにおける局所的な近傍から開始する。この実施形態では、閾値を規定するようにしてもよい。この閾値は、これよりも小さい整合値を有するソースパッチが見つかったときに検索を中止するために用いられるものである（ここでは、「小さい」ほどよい整合値になると仮定している）。従って、このアルゴリズムでは、良好な（しかし最高でなくてもよい）ソースパッチを見つけるまでの間だけ、検索を実行することになる。

本発明の他の好ましい実施形態では、ランドマークの両方の終端の間に欠損がある場合（例えば、欠損の両側においてラインの一部が見えている場合）には、宛先パッチの選択を、欠損の両方の側の間で交互に切り換える。この実施形態では、ランドマークの長さ１０に沿って欠損の中心に到達するまで、欠損の両方の側８０３ｃ、８０３ｄの宛先パッチに対して発見されたソースパッチを交互に適用する。これにより、欠損を充填する、あるいは、欠損の境界から内側を成長させる。従って、欠損の離れた側に対して一方向に充填する場合に比して、欠損の両側における未知の画素を、周囲の既知の画素によりよく近似させられる。このようにパッチを交互に適用する場合、ソースパッチを、適用ステップごとに異なるものにすることが可能となる。あるいは、複数の交互のステップ間で同一のソースパッチを使用するようにしてもよい。

本発明のさらに他の好ましい実施形態では、現在選択されているソースパッチの画素を、現在の宛先パッチに適用する前に、過去に適用されたソースパッチの少なくとも１つに含まれている画素と結合（例えば合成）する。合成ファクタは、距離８０１に依存する。この距離８０１は、現実の宛先パッチ８０３ｃから宛先パッチ８０３ｄが過去に存在した位置までの距離である。例えば、距離８０１が大きい場合、適用前のソースパッチを修正しない。しかしながら、この距離が小さい場合には、ソースパッチを修正して、すぐそばにある過去の宛先パッチと類似のものに見えるようにする。従って、現在の宛先パッチと他の宛先パッチとの間の画素位置の差を、距離とともに減少することができる。これにより、欠損の中央における重なり合った部分を継ぎ目のない状態とすることが可能となる。

図１０に、直線のランドマークの投射投影、および、ランドマークに関する画素位置の配置を概略的に示す。本発明のさらに好ましい実施形態では、ソースパッチの画素から宛先パッチの画素まで（およびその逆も）に関するマッピング関数に組み入れる倍率を決定するために、既知のカメラパラメータを使用する。ランドマークは、比較的にカメラに近いポイント８０６ｃから始まり、離れたポイント８０６ｄにおいて終わっている。このため、投射投影に起因して遠く離れている位置８０４ｇに対応するソースパッチよりも大き
い、カメラに近い位置８０４ｆに対応するソースパッチを要求するランドマークを投影することになる。投影幾何計算を用いると、パッチの比較および適用中に、ソースパッチ８０４ｆ、８０４ｇと宛先パッチ８０３ｆとの間の倍率を決定して適用することが可能となる。この倍率については、ソースパッチおよび宛先パッチのそれぞれのサイズを選択する際にも使用することが好ましい。

本発明のさらに好ましい実施形態では、ランドマークを、線あるいは一次元の要素（例えば、点、直線あるいはサークル）としてみなさずに、主方向に垂直の追加的な次元に関連付けるようになっている（例えば線の幅）。実際のランドマークの幅については、その場で測定することが可能であるし、また、経験に基づいて推測することも簡単である。これにより、単にラインあるいはサークル８０６ｃによるというよりも、むしろ、２つの境界８１１によって区切られる領域によってランドマークを記述することになる。画像投影されたランドマークでは、画素、あるいはより一般的にいえば画像部分については、ランドマーク８１３に属するものでもランドマーク８１４に部分的に属するものでもなく、ランドマーク８１２に属するものとして分類される。パッチをよりよく比較するために、比較関数がこの認識を完全なものにすることが好ましい。また、宛先パッチに対するソースパッチの適用によっても、この認識を完全なものにできることが好ましい。

本発明の好ましい実施形態では、ランドマークを再創造するステップにおいて、少なくとも２つのランドマークが欠損内で互いに交叉あるいは結合しているような領域に対して特別の処置をとるようになっている。このような領域については、異なる方法で再生成するべきである。これは、上記したパッチ適用によって視覚的な不自然さを招来することもあるためである。これらの領域の再生成については、ランドマーク８１３に属するものでもランドマーク８１４に部分的に属するものでもなく、ランドマーク８１２に属するものとして画素を分類した上で実行することが好ましい。この場合、ソースパッチのランドマークに属する画素については、これらが宛先パッチのランドマークに属する画素に対してマップされる場合（およびその逆の場合）に限って、比較適用されることになる。言い換えると、ランドマークが予定されている欠損領域については、パッチ・マッチング・アルゴリズムでは、ランドマークの一部を形成する画素だけを考慮することになる。このような実施形態は、ランドマークに部分的に属するものとして分類されている画素を、例えば最も確実な画素を合成あるいは選択することによって結合するために、特別の処置を有していることが好ましい。

本発明について、本発明における当面の好ましい実施形態を用いて説明してきたが、本発明はこれらに限定されるわけではない。本発明は、特許請求の範囲内において、さまざまに具体化され実施される、ということを明確に理解するべきである。

１０１少なくとも２つのビデオストリーム（１２０）の発信元（製作者）
１０２少なくとも２つのビデオストリーム（１２０）に対する内部メモリへの収集
１０３キャリブレーション方法
１０４トラッキング方法
１０５オブジェクト特定方法
１０６オブジェクト切り取り方法
１０７３次元オブジェクト位置演算方法
１０８補間画像合成方法
１０９結果として得られるビデオストリームの宛先（消費者）
１１０現実世界のオブジェクト（選手、ゴールキーパー、審判、ボール）に関する情報（チーム、名前、メンバーなど）を含むリソース（ファイル、データベースなど）
１１３周囲環境（３次元、ＣＡＤなど）に関する情報を提供するリソース（ファイル、データベース、モデルなど）
１２０少なくとも２つの孤立したビデオストリーム
１２１色テクスチャデータ
１２２カメラ・キャリブレーション・データ
１２３オブジェクトの２次元位置および形状
１２４オブジェクトの２次元位置および形状、および、現実世界のオブジェクトの特定情報
１２５充填されフラグを付された背景テクスチャデータ
１２６オブジェクトテクスチャ、および、カメラおよび現実世界のオブジェクトごとのアルファマスク（例えばセグメンテーション情報）
１２７現実世界のオブジェクトの特定情報を有する改良されたオブジェクトの２次元の位置および形状
１２８オブジェクトの３次元位置
１２９同期補間ビデオストリーム
１３０オブジェクトの推定３次元位置
１３１現実のあるいは推定したカメラ・キャリブレーション・データ
１３２（１１０）に保存されているような現実世界のオブジェクトに関する情報
１３５周囲環境に関する３次元モデル、データあるいは同様の情報
２０１遠近法によって何らかのフィーチャを表示するビデオストリームにおける第１の画像
２０２フィーチャを伴うシーンの概略図
２０３ａ〜ｄビデオ画像内のマークを付されたフィーチャ
２０４ａ〜ｄ概略図中における対応するフィーチャ
３０１時間ｔ−ｎ（ｎ＞０）におけるビデオストリームのフレーム
３０２時間ｔにおけるビデオストリームのフレーム
３０３さまざまな時間におけるシーンの３次元状態の概略図
３１０ａ，ｂフレーム３０１におけるオブジェクトＡ，Ｂの２次元位置
３１１ａ，ｂオブジェクトＡ，Ｂにおける、現実の軌道および推定した軌道
３１２ａ，ｂフレーム３１０（画像空間）におけるオブジェクトＡ，Ｂの推定２次元位置
３２０ａ，ｂフレーム３０２におけるオブジェクトＡ，Ｂの現実の２次元位置
３２１ａ，ｂフレーム３０２（同一の画像空間配置）における３１２ａ，ｂとまさに同一の２次元位置
３３０ａ，ｂ時間ｔ−２ｎにおけるオブジェクトＡ，Ｂの既知の３次元位置
３３１ａ，ｂ時間ｔ−ｎにおけるオブジェクトＡ，Ｂの既知の３次元位置
３３２ａ，ｂ時間ｔにおけるオブジェクトＡ，Ｂの推定３次元位置
４０１２次元で衝突している２つのオブジェクトＡ，Ｂに関するシーンに対するカメラの表示
４０２他のカメラによって表示されている、４０１のものと同一のシーン
４０３３次元でのシーンの概略図（俯瞰図）
４１０ａ，ｂ４０１における時間ｔ０でのオブジェクトＡ，Ｂの２次元位置
４１１ａ，ｂ４０１における時間ｔ１でのオブジェクトＡ，Ｂの２次元位置
４２０ａ，ｂ４０２における時間ｔ０でのオブジェクトＡ，Ｂの２次元位置
４２１ａ，ｂ４０２における時間ｔ１でのオブジェクトＡ，Ｂの２次元位置
４３０ａ，ｂ時間ｔ０でのオブジェクトＡ，Ｂの３次元位置
４３１ａ，ｂ時間ｔ１でのオブジェクトＡ，Ｂの３次元位置
５０１境界ボックス
５０２境界ボックスの内部に完全に納まっているオブジェクト
５０３境界ボックスの背景部分の一部
５０４境界ボックスの前景部分の一部（オブジェクトに属するもの）
５０５画素から構成されている前景と配置との間の境界部分の拡大図
５０６１００％の背景として分類することのできる画素の一部
５０７１００％の背景あるいは１００％の前景として分類することはできないものの、例えば５７％の前景であると分類できる画素の一部
５０８１００％の前景として分類することのできる画素の一部
５０９左下の角でその位置を規定されている境界ボックス
５１０ …およびその幅…
５１１ …およびその高さ…
６０１（１２３）および（１２４）によって得られる境界ボックスであって、オブジェクトの境界と比較して大きすぎる境界ボックス
６０２オブジェクト切り取り方法（１０６）を経て改良された境界ボックス
６０３（１２３）および（１２４）によって得られる境界ボックスであって、オブジェクトの境界と交叉している境界ボックス
６０４３次元位置演算方法（１０７）に関する、境界ボックスのアンカーポイント
８０１画像における既知の領域
８０２画像における未知の領域（すなわち欠損）
８０３ａ，ｂ重なり合っている宛先パッチ
８０３ｃ，ｄ欠損の両側においてランドマーク（８０６ａ）上にある宛先パッチ
８０４ａソースパッチ
８０４ｂ異なるサイズおよび方向を有するソースパッチ
８０４ｃ，ｄランドマーク（８０６ａ）上のソースパッチ
８０５宛先パッチの重なり合った領域
８０６ａ投影されたライン状のランドマーク
８０６ｂ投影されたサークル状のランドマーク
８０６ｃランドマークの方向に垂直な幅を有するランドマーク
８０７ランドマークにおける、欠損の内部に位置する部分
８０８ａ，ｂ投影されたサークル状のランドマークの基準値
８０９パッチに対応した２つの基準値間の角度
８１０ランドマークにおける、欠損の内部に位置する部分の長さ
８１１幅によって規定されるランドマーク（８０６ｃ）の境界
８１２ランドマーク（８０６ｃ）に属するように分類された画素
８１３ランドマーク（８０６ｃ）に属しないように分類された画素
８１４ランドマーク（８０６ｃ）に部分的に属するように分類された画素
９０１ピッチ、競技場
９０２３次元のスタジアムモデル
９０３ビルボード

Claims

動的に変化する３次元のシーンに関する３次元表現を生成する方法であって、
（ａ）異なる場所に配置され、同じ３次元シーン（７０１）を観察している少なくとも２台のカメラ（７０２）から得られる、少なくとも２つのビデオストリーム（１２０）を取得するステップ（１０２）と、
（ｂ）前記少なくとも２台のカメラ（７０２）に関し、位置、方向、および内部パラメータを含むカメラパラメータ（１２２）を決定するステップ（１０３）と、
（ｃ）前記少なくとも２つのビデオストリーム内のオブジェクト（３１０ａ，ｂ、３１２ａ，ｂ、３３０ａ，ｂ、３３１ａ，ｂ、３３２ａ，ｂ、４１０ａ，ｂ、４１１ａ，ｂ、４３０ａ，ｂ、４３１ａ，ｂ、４２０ａ，ｂ、４２１ａ，ｂ）の動きをトラッキングするステップ（１０４）と、
（ｄ）前記少なくとも２つのビデオストリーム内における前記オブジェクトの固有性を決定するステップ（１０５）と、
（ｅ）前記少なくとも２つのビデオストリームから得られる情報を結合することによって、オブジェクトの３次元位置を決定するステップ（１０７）とを備え、
上記列挙したステップ（１０３、１０４、１０５）の少なくとも１つが、後続のステップ（１０７）の１つによって前記少なくとも２つのビデオストリームから得られる情報に依拠していることを特徴とする方法。
（ｆ）ビデオストリーム内のオブジェクトに対応する３次元レンダリングされたオブジェクト（９０３）の位置および方向を決定するステップをさらに備え、３次元レンダリングされたオブジェクト（９０３）は、シーンの３次元表現を生成するときに、１つ以上のビデオストリームから得られる画像情報のレンダリングに用いられる、請求項１に記載の方法。
少なくとも１つのオブジェクトの３次元位置は、当該オブジェクト（３３２ａ，ｂ）の先行する少なくとも２つの３次元位置から推定される、請求項１または２に記載の方法。
前記少なくとも２つのビデオストリーム（１２）内のオブジェクト（３１０ａ，ｂ、３１２ａ，ｂ、３３０ａ，ｂ、３３１ａ，ｂ、３３２ａ，ｂ、４１０ａ，ｂ、４１１ａ，ｂ、４３０ａ，ｂ、４３１ａ，ｂ、４２０ａ，ｂ、４２１ａ，ｂ）の動きをトラッキングするステップ（１０４）は、前記後続のステップ（１０７）の１つにおいて、前記少なくとも２つのビデオストリームから得られる、先行する１つ以上の瞬間に生じる情報を使用する、上記した請求項のいずれか１つに記載の方法。
前記先行する１つ以上の瞬間に得られる情報は、オブジェクト（１３０）の３次元位置である、請求項４に記載の方法。
前記少なくとも２つのビデオストリーム（１２０）内におけるオブジェクトの固有性を決定するステップ（１０５）は、前記後続のステップ（１０７）の１つにおいて、前記少なくとも２つのビデオストリーム（１２０）から得られる、先行する１つ以上の瞬間に生じる情報を使用する、上記した請求項のいずれか１つに記載の方法。
前記先行する１つ以上の瞬間に得られる情報は、オブジェクト（１３０）の３次元位置である、請求項６に記載の方法。
前記カメラパラメータ（１２２）の決定（１０３）に使用される参照フィーチャは、競技場の上のフィーチャであり、ビデオ静止画像内でユーザが以下のことを行なうことによって特定する、
・図形入力装置を用いて、競技場（２０４ａ〜ｄ）の概略的な表現における同一の参照フィーチャの表現を提示するとともに、参照フィーチャの前記表現を選択し、
・図形入力装置を用いて、ビデオ静止画像（２０３ａ〜ｄ）に見られるような特定の参照フィーチャを指定するとともに、前記参照フィーチャを選択し、
・参照フィーチャの表現における固有性を、静止画像に見られる参照フィーチャに関連付ける、
上記した請求項のいずれか１つに記載の方法。
ビデオ静止画像（２０３ａ〜ｄ）内で前記参照フィーチャを選択する際、以下のステップによって、ビデオ静止画像内での参照フィーチャの正確な位置を決定する、
・ユーザによって選択された位置の近傍において、フィーチャの抽出、および、特に、ライン（２０３ｃ）、交叉点、およびコーナー（２０３ａ、２０３ｂ）の抽出を自動的に実行するステップ、
・抽出されたフィーチャ、特に、競技場の概略表現内で選択されたものと同じ種類のフィーチャの１つの位置となるような参照フィーチャの位置を決定するステップ、
請求項８に記載の方法。
前記オブジェクトの動きをトラッキングするステップ（１０４）は、トラッキング機能（１０４）によってカメラパラメータ（１３１）の変化を補償できるように、カメラパラメータ（１３１）を動的に変更する機能をトラッキング機能（１０４）に取り込むステップを含む、上記した請求項のいずれか１つに記載の方法。
トラッキング機能において考慮されるカメラパラメータは、トラッキングが実行されるものと同一のビデオフレームについて実施されるカメラ・キャリブレーション・ステップ（１０３）によって決定されるカメラパラメータ（１３１）である、請求項１０に記載の方法。
トラッキング機能において考慮されるカメラパラメータは、先行する１つ以上のビデオフレームについて実施されるカメラ・キャリブレーション・ステップ（１０３）によって決定され、かつ任意的に推定されるカメラパラメータ（１３１）である、請求項１０に記載の方法。
オブジェクトの特定情報を初期化するために、以下のステップを実行する、
・ユーザによって、１つのビデオストリームの静止画像において１つのオブジェクトを選択し、固有の識別子を割り当てるステップ、
・少なくとも１つの他のビデオストリームにおける他の静止画像において、同一の固有性を有するオブジェクトを自動的に決定するステップ、
上記した請求項のいずれか１つに記載の方法。
特定されていないオブジェクト、あるいは特定できないオブジェクトが、ビデオストリームの１つに出現した場合に、以下のステップを実行する、
・未確認のオブジェクトが存在していることをユーザに警告するステップ、
・ユーザが識別子をオブジェクトに関連付けることに同意するステップ、
請求項１３に記載の方法。
前記オブジェクトは、少なくとも２つのカテゴリの１つに属するように分類され、これらのカテゴリは、好ましくは統計上のモデルに基づいており、第１のチーム、第２のチーム、ボール、および審判の少なくとも２つを含む、上記した請求項のいずれか１つに記載の方法。
前記方法は、オブジェクトを背景から分離するセグメンテーションステップ（１０６）を備え、このステップは、
・各画像要素に対して、画素がオブジェクトあるいは背景の一部である可能性を表現する値を割り当てるためにアルファチャンネル整合を使用するステップ、
を含む、上記した請求項のいずれか１つに記載の方法。
前記方法は、オブジェクトを背景から分離するセグメンテーションステップ（１０６）を備え、このステップは、
・オブジェクトを除去した後に、対応する欠損あるいは背景に残存する未知の部分を画像修復によって充填し、このように修復された画像要素に対して、合成画像データであることを示すマークをつけるステップ、
を含む、上記した請求項のいずれか１つに記載の方法。
セグメンテーションステップ（１０６）は、オブジェクトの周囲にある境界ボックス（５０１、６０１、６０２、６０３）の位置およびサイズをより正確にするステップを含む、請求項１６あるいは１７に記載の方法。
背景の欠損を充填するステップは、
・欠損（８０２）を充填するために、現実の画像データを含んでいるソースパッチ（８０４ａ、８０４ｂ、８０４ｃ、８０４ｄ）に対応する画像データを、画像の未知の部分を含んでいる宛先パッチ（８０３ａ、８０３ｂ、８０３ｃ、８０３ｄ）にマッピングするステップを含み、前記マッピングするステップは、複数のパッチを、これらの空間的な関係に応じて変形するステップを含む、請求項１７あるいは１８に記載の方法。
前記方法は、
・現実の画像データを含んでいるソースパッチ（８０４ｃ、８０４ｄ）に対応する画像データを、画像の未知の部分を含んでいる宛先パッチ（８０３ｃ、８０３ｄ）にマッピングするステップを備え、これにより欠損（８０２）が充填され、画像の未知の部分がランドマークフィーチャ（８０７）を含むことが知られており、
・宛先パッチ（８０３ｃ、８０３ｄ）を選択することによって、ランドマークフィーチャ（８０７）の少なくとも一部をカバーするとともに、既知の画像を検索することによって、ランドマーク（８０６ａ）に沿ったソースパッチ（８０４ｃ、８０４ｄ）を整合するステップを備える、請求項１７〜１９のいずれか１つに記載の方法。
前記方法は、
・サークル状のランドマーク（８０６ｂ）の部分を含んでいる欠損を充填するために、前記サークル状のランドマーク（８０６ｂ）に沿った位置に応じて宛先パッチ（８０３ｅ）をパッチを変形、好ましくは回転、拡大・縮小することによって、当該宛先パッチ（８０３ｅ）をソースパッチ（８０４ｅ）に（およびその逆に）マップするステップを備える、請求項２０に記載の方法。
前記方法は、
・直線状のランドマークの部分を含む欠損を充填するために、直線状のランドマークに沿った位置に応じて宛先パッチを変形、好ましくは拡大・縮小することによって、当該宛先パッチをソースパッチに（およびその逆に）マップするステップを備える、請求項２０に記載の方法。
前記方法は、
・線状のランドマークを線幅に関連付けるステップと、
・前記線幅に従って、ソースパッチおよび／または宛先パッチ内の画像要素を、ランド
マーク（８１２）の一部となるように、あるいは、ランドマーク（８１３）の一部とならないように分類するステップと、
・ソースパッチ（８０４ｃ、８０４ｄ）を整合するために既知の画像を検索するとき、および、ソースパッチ（８０４ｃ、８０４ｄ）を宛先パッチ（８０３ｃ、８０３ｄ）にコピーするときに、ランドマークの一部となっている画像要素だけを考慮するステップと、を備える、請求項２０〜２２のいずれか１つに記載の方法。
前記方法は、以下のステップを行なうことで、カメラ位置とは異なる仮想視点から得られる合成表示を提供するステップ（１０８）を備える、
・仮想カメラ（７０３）のカメラパラメータを準備するステップ、
・背景モデル（９０１、９０２）上の仮想カメラ（７０３）によって視認されるような背景画像を決定するステップ、
・仮想カメラ（７０３）に対する各オブジェクトの投影を決定し、これを背景画像に重ねるステップ、
・保存あるいは他の処理のために結合画像を出力するステップ、
上記した請求項のいずれか１つに記載の方法。
仮想カメラ（７０３）によって視認されるような背景画像を決定するステップは、
・各背景画像要素について、同一の背景位置に対応する異なるビデオストリームから得られる画像情報を合成するステップと、
・合成画像データとなるようにマークされていない画像情報に優先権を与えるステップと、
・背景を表現する１つ以上の表面（９０１、９０２）を含んでいる背景モデル上に画像情報をレンダリングするステップとを含む、請求項２４に記載の方法。
背景モデル内において背景を表現する表面は、競技場あるいは競技場（７０１）を表現する表面（９０１）となっており、任意的に、３次元の周囲環境モデルを表現する表面（９０２）を含む、請求項２５に記載の方法。
前記仮想カメラ（７０３）によって視認されるような背景画像を決定するステップは、
・背景モデル（９０１、９０２）上に所定の画像データをレンダリングし、それをビデオストリームによって得られる画像情報に重ねるか、あるいは、この画像情報と入れ替えるステップ、をさらに含んでいる、請求項１８〜２０のいずれか１つに記載の方法。
仮想カメラ（７０３）に対する各オブジェクトの投影を決定するステップは、
・３次元背景モデル（９０１、９０２）に配された３次元レンダリングされたオブジェクト（９０３）上に、１つ以上のビデオストリームから得られる画像情報をレンダリングするステップを含む、請求項２４〜２７のいずれか１つに記載の方法。
動的に変化する３次元のシーンに関する３次元表現を生成するためのデータ処理システムであって、
（ａ）異なる場所に配置され、同じ３次元シーンを観察している少なくとも２台のカメラから得られる、少なくとも２つのビデオストリームを取得するデータ収集モジュール（１０２）と、
（ｂ）前記少なくとも２台のカメラに関し、位置、方向、および内部パラメータを含むカメラパラメータを決定するカメラ・キャリブレーション・モジュール（１０３）と、
（ｃ）前記少なくとも２つのビデオストリーム内のオブジェクトの動きをトラッキングする２次元トラッキングモジュール（１０４）と、
（ｄ）前記少なくとも２つのビデオストリーム内における前記オブジェクトの固有性を決定するオブジェクト特定モジュール（１０５）と、
（ｅ）前記少なくとも２つのビデオストリームから得られる情報を結合することによって、オブジェクトの３次元位置（１２８）を決定する３次元結合および３次元オブジェクト位置演算モジュール（１０７）とを備え、
上記列挙したモジュール（１０３、１０４、１０５）の少なくとも１つのが、後続のステップ（１０７）の１つによって前記少なくとも２つのビデオストリームから得られる情報に依拠するように構成されていることを特徴とするデータ処理システム。
前記３次元結合および３次元オブジェクト位置演算モジュール（１０７）は、
（ｆ）ビデオストリーム内のオブジェクトに対応する３次元レンダリングされたオブジェクト（９０３）の位置および方向を決定する機能を提供するように構成されており、３次元レンダリングされたオブジェクト（９０３）は、シーンの３次元表現を生成するときに、１つ以上のビデオストリームから得られる画像情報のレンダリングに用いられる、請求項２３に記載のデータ処理システム。
前記データ処理システムは、以下のことを決定するためのオブジェクト切り取りモジュール（１０６）を備える、
・現実の画像データから特定の画像パッチあるいは特定の画素を得られるか、あるいは、これらを合成によって生成したことを示すフラグを含んでいる、充填されるべき背景テクスチャデータ（１２５）、
・各ビデオストリームおよびトラッキングされている各オブジェクトに関するオブジェクトテクスチャおよびアルファマスク（１２６）、
・トラッキングされている各オブジェクトに関し、オブジェクトの２次元の位置および形状、および、現実世界のオブジェクトの特定情報（１２７）、
請求項３０に記載のデータ処理システム。
オブジェクトの３次元位置（１２８）から、充填されるべき背景テクスチャデータ（１２５）およびオブジェクトテクスチャとアルファマスク（１２６）、ビデオデータとを、消費者（１０９）に供給するための、画像合成モジュール（１０８）を備える、請求項３１に記載のデータ処理システム。