JP2006527945A

JP2006527945A - ３ｄモデルを使用するピクチャシーケンスの表現方法、対応する信号、および対応する装置

Info

Publication number: JP2006527945A
Application number: JP2006516305A
Authority: JP
Inventors: バルター，ラファエル; ジョイア，パトリック
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2003-06-18
Filing date: 2004-06-18
Publication date: 2006-12-07
Also published as: FR2856548A1; WO2004114669A2; EP1654882A2; BRPI0411506A; WO2004114669A3; KR20060015755A; CN1806443A; CA2528709A1

Abstract

本発明は、グループ・オブ・ピクチャ（ＧＯＰ）として既知の少なくとも２つの連続ピクチャを備えるセットにグループ化されたピクチャシーケンスを表現するための方法に関し、これによってテクスチャ化メッシュ化３次元モデルが該ＧＯＰの各々と関連付けられる。本発明によると、頂点は共通の頂点として既知であり、ｎレベルのＧＯＰと関連した３次元モデルが、ｎ−１レベルのＧＯＰと関連した３次元モデルを表現する少なくとも１つの不規則メッシュの少なくとも１つの該頂点を考慮する不規則メッシュによって表現される。

Description

本発明の分野は、ピクチャ（つまり画像）シーケンスの符号化である。より具体的には、３次元モデル、つまり３Ｄモデルのストリームによるピクチャシーケンスの符号化技術に関する。

３Ｄモデルによるビデオ符号化は、１つ以上のテクスチャ化３Ｄモデルによってビデオシーケンスを表現する点であることが想起されるであろう。ピクチャシーケンスの符号器に送信される情報は、３Ｄモデルと、これと関連したテクスチャのピクチャと、シーケンスをフィルム化したカメラのパラメータとからなる。

従って、このタイプの符号化は、ビデオシーケンスが一般的に１セットの画素によって表現される従来の符号化技術よりも低いビットレートの達成を可能にする。しかし、これは送信にかなりのコストがかかる。

さらに、従来の符号化技術と比較して、３Ｄモデルによるこのような符号化技術は、再構築されたシーケンスへの一定の機能の追加を可能にする。従って、シーンの照明を変更し、立体表示を得て、（ビデオシーケンスである場合には）シーケンスを安定化させ、シーンにオブジェクトを追加し、あるいはシーンのフリーナビゲーションをシミュレーションするために視点を変更したりすることが可能である（フリーナビゲーションはオリジナル経路に対するカメラの経路の変更として画定されてもよい）。

従って、３Ｄモデルをビデオシーケンスから抽出する方法に対してピクチャ符号化マーケットにおいて主要な需要がある。事実、リアルな３Ｄシーンを開始すると、３Ｄモデリングは、過去に想定されていた合成方法によって得られたものよりかなり写真に近い描写のコンテンツを得るために使用される。さらに、上記機能を使用すると、リアルなシーンの仮想モデルの取得によって、ｅコマース、ビデオゲーム、シミュレーション、特殊効果または地理的局所化における用途など多数の用途を想定することができる。

現在、ビデオピクチャから３Ｄモデルを構築するための複数の技術が知られている。

能動的技術として知られている特定の技術はリアルシーンのライティングの制御を必要とし、一般的に、複数の角度のビューと深度に関する多量のデータとを取得するためにレーザー技術や多数のカメラを使用する。

受動的技術として知られている他の技術はその一部について、高度計算アルゴリズムに依存しており、またピクチャ間の関係性またはシルエットのいずれかに基づいている。これらは主に必要な較正レベルおよび可能な双方向度によって相互に異なる。これらは１セットの写真やピクチャから１つの３Ｄ情報を再構築することからなり、また主に以下の２つの問題に直面する。
対応性を確立または判断することである。これは所与のピクチャのゾーンについて、他のピクチャにおける対応するゾーンを見つけることである（このゾーンはピクチャのポイントまで縮小されてもよい）。
ピクチャ成形パラメータ（つまり、（焦点距離などの）カメラの内在的パラメータとその外在的パラメータ（シーケンスの異なるピクチャを取得するためのカメラ位置など））の推定からなるカメラを較正することである。

対応性を確立することは、一般的に、Ｖ．Ｍ．Ｂｏｖｅａｎｄａｌ．によって「Ｓｅｍｉ−ａｕｔｏｍａｔｉｃ３Ｄ−ｍｏｄｅｌｅｘｔｒａｃｔｉｏｎｆｒｏｍｕｎｃａｌｉｂｒａｔｅｄ２Ｄｃａｍｅｒａｖｉｅｗｓ」．ＰｒｏｃｅｅｄｉｎｇｓＶｉｓｕａｌＤａｔａＥｘｐｌｏｒａｔｉｏｎａｎｄＡｎａｌｙｓｉｓ，１９９５に説明されるようにマニュアルで実行される。

その較正は面倒なプロセスであり、これと関連した計算アルゴリズムはしばしば不安定である。従って、多数の方法が、「ターンテーブル」（Ｗ．Ｎｉｅｍ、「ＲｏｂｕｓｔａｎｄＦａｓｔＭｏｄｅｌｉｎｇｏｆ３ＤＮａｔｕｒａｌＯｂｊｅｃｔｓｆｒｏｍＭｕｌｔｉｐｌｅＶｉｅｗｓ」，ｖｃｉｐ１９９４，１９９４）やモバイルロボットの使用（Ｊ．Ｗｉｎｇｂｅｒｍｕｈｌｅ、「ＡｕｔｏｍａｔｉｃＲｅｃｏｎｓｔｒｕｃｔｉｏｎｏｆ３ＤＯｂｊｅｃｔＵｓｉｎｇａＭｏｂｉｌｅＭｏｎｏｓｃｏｐｉｃＣａｍｅｒａ」，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｅｃｅｎｔＡｄｖａｎｃｅｓｉｎ３ＤＩｍａｇｉｎｇａｎｄＭｏｄｅｌｉｎｇ、Ｏｔｔａｗａ、Ｃａｎａｄａ、１９９７）に応じて、人手による動作（Ｅ．Ｂｏｙｅｒａｎｄａｌ．，「ＣａｌｉｂｒａｇｅｅｔＲｅｃｏｎｓｔｒｕｃｔｉｏｎａｌ’ａｉｄｅｄｅＰａｒａｌｌｅｌｅｐｉｐｅｄｅｓｅｔｄｅＰａｒａｌｌｅｌｏｇｒａｍｍｅｓ」（ＣａｌｉｂｒａｔｉｏｎａｎｄＲｅｃｏｎｓｔｒｕｃｔｉｏｎｔｈｒｏｕｇｈＰａｒａｌｌｅｌｅｐｉｐｅｄｓａｎｄＰａｒａｌｌｅｌｏｇｒａｍｓ）Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１３^th ＦｒｅｎｃｈＳｐｅａｋｅｒｓ’ ＣｏｎｇｒｅｓｓｏｎＳｈａｐｅＲｅｃｏｇｎｉｔｉｏｎａｎｄＡｒｔｉｆｉｃｉａｌＩｎｔｅｒｌｌｉｇｅｎｃｅ，２００２）または複雑な取得システムのいずれかを必要とする較正済みシーケンスに依拠している。

特定の他の自動または半自動方法において、対応性の確立はマニュアルで管理されない。例えば、Ａ．Ｆｉｔｚｇｉｂｂｏｎａｎｄａｌ．，（「ＡｕｔｏｍａｔｉｃＬｉｎｅＭａｔｃｈｉｎｇａｎｄ３ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎｏｆＢｕｉｌｄｉｎｇｆｒｏｍＭｕｌｔｉｐｌｅＶｉｅｗｓ」，ＩＡＰＲＳ，Ｍｕｎｉｃｈ，Ｇｅｒｍａｎｙ，１９９９）またはＣ．Ｚｅｌｌｅｒａｎｄａｌ．，（「３−ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎｏｆＵｒｂａｎＳｃｅｎｅｆｒｏｍＳｅｑｕｅｎｃｅｏｆＩｍａｇｅｓ」，ＩＮＲＩＡ，ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ２５７２、１９９５）によって説明された技術を参照してもよい。

しかしながら、これらの半自動または自動方法は、再構築されるシーンについて多数の想定がなされることを必要としており、例えば、アーキテクチャシーンにのみ適用可能である。

従来、自動３Ｄ再構築方法は以下のステップを実現する。
特定のポイントまたはラインを検出するステップと、ピクチャ間の対応性を確立するステップと、ここで、このステップにおいて、ビデオシーケンスに沿って前のステップで抽出された特定のポイントやラインがある、ステップと、異なるピクチャを相互に関連付けるステップと、３Ｄポイントを投影再構築するステップと、必要ならば測定基準の３Ｄモデルを目的として自動較正したり較正を改良したりするステップと（事実、モデルの双方向性操作はユークリッド空間で実行される）、テクスチャ化３Ｄモデルを推定するステップとである。

上記アルゴリズムに基づいた特定のアプローチは、単眼カメラによって付与されたデータから３Ｄモデルを動きについて再構築することを可能にする（つまり、カメラ、または再構築されるシーンの内在的または外在的パラメータのいずれかについての先験的な（ａｐｒｉｏｒｉ）な知識はない）。例えば、Ｐ．Ｄｅｂｅｖｅｃａｎｄａｌ．によって「ＰａｎｅｌＳｅｓｓｉｏｎｏｎＶｉｓｕａｌＳｃｅｎｅＲｅｐｒｅｓｅｎｔａｔｉｏｎ」，Ｓｍｉｌｅ２０００，２０００において、あるいはＧ．Ｃｒｏｓｓａｎｄａｌ．，の「ＶＨＳｔｏＶＲＭＬ：３ＤＧｒａｐｈｉｃａｌＭｏｄｅｌｓｆｒｏｍＶｉｄｅｏＳｅｑｕｅｎｃｅｓ」，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａＣｏｍｐｕｔｉｎｇａｎｄＳｙｓｔｅｍ，Ｆｌｏｒｅｎｃｅ，１９９９によって説明された技術を参照してもよい。

「ＭｏｄｅｌｉｎｇＳｔｒｕｃｔｕｒｅｄＥｎｖｉｒｏｎｍｅｎｔｓｂｙａＳｉｎｇｌｅＭｏｖｉｎｇＣａｍｅｒａ」，ＳｅｃｏｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ３−ＤＩｍａｇｉｎｇａｎｄＭｏｄｅｌｉｎｇ，１９９９においてＪ．Ｒｏｎｉｎｇａｎｄａｌ．は、検出された輪郭および拡張Ｋａｌｍａｎフィルタから第１のモデルを推定する方法を提案している。しかしながら、この方法は、輪郭に大きく左右され、また複雑なシーンに不適切であるとうい欠点を有する。

「ＶＨＳｔｏＶＲＭ：３ＤＧｒａｐｈｉｃａｌＭｏｄｅｌｓｆｒｏｍＶｉｄｅｏＳｅｑｕｅｎｃｅｓ」，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａＣｏｍｐｕｔｉｎｇａｎｄＳｙｓｔｅｍ，Ｆｌｏｒｅｎｃｅ，１９９９において、Ｇ．Ｃｒｏｓｓａｎｄａｌ．はＨａｒｒｉｓ法によってポイントを検出して、幾何学推定と同時に異なるビュー間の対応性を確立するための方法を提供する。ポイントは、２つのビュー間のエピポーラ幾何学、または３つのビュー間の３焦点幾何学と結びつけられたクロス相関によって対応付けられ、これによってガイドマッチングが可能になる。そして対応性の事例はシーケンスに拡張され、またバンドル調整によって最適化される。そして３^*４投影マトリックスおよび（自動較正による）３Ｄユークリッド構成が得られ、これにはオリジナルピクチャのテクスチャがある。これは幾何学の不完全性をマスクする。

しかしながら、この方法の欠点は、２つの連続ピクチャ間の動きが相対的に小さくなければならず、またピクチャシーケンスは合理的なサイズでなければならないという点である。従って、本方法はいずれのピクチャシーケンスにもふさわしくない。

また２つのアプローチがＵｎｉｖｅｒｓｉｔｙｏｆＬｏｕｖａｉｎで提案されている。

第１のアプローチ（Ｍ．Ｐｏｌｌｅｆｅｙｓ，「Ｔｕｔｏｒｉａｌｏｎ３ＤＭｏｄｅｌｉｎｇｆｒｏｍＩｍａｇｅｓ」，ｅｃｃｖ２０００，２０００）によると、検出されたピクチャの特定のポイントまたはラインが抽出されて、（上記文献に説明された）Ｔｏｒｒのアルゴリズムによって対応付けられる。同時に、較正と矛盾する対応性の排除を可能にするために、制限較正が評価される。Ｂｅａｒｄｓｌｅｙの方法（Ｍ．Ｐｏｌｌｅｆｅｙｓ，「Ｔｕｔｏｒｉａｌｏｎ３ＤＭｏｄｅｌｉｎｇｆｒｏｍＩｍａｇｅｓ」，ｅｃｃｖ２０００，２６Ｊｕｎｅ２０００，Ｄｕｂｌｉｎ，Ｉｒｅｌａｎｄ）が、最初の２つのピクチャおよび他のビューの投影マトリックスに対する粗い投影再構築を得るために使用される。ある未知数をそのデフォルト値に固定し、絶対的円錐曲線の概念を適用する際に、自動較正は、測定基準の表現に移動するためにカメラの内部パラメータを検索することを可能にする。そして複数の情報は、較正時に計算された格差および回転マップから、複数のピクチャで相互に対応するポイントを連結させる方法（下向き鎖および上向き鎖）で共通の３Ｄモデルに統合される。大きなオブジェクトについては、多重解像度アプローチが提案されている。

しかしながら、この技術の欠点は、大きなオブジェクトについて提案された多重解像度アプローチが、ビュー全体だけでなく詳細部分にもアクセスするために、同一シーンの複数のビデオシーケンスの使用可能性を要するという点である。

第２の技術（Ｇｏｏｌａｎｄａｌ．，「Ｆｒｏｍｉｍａｇｅｓｅｑｕｅｎｃｅｓｔｏ３Ｄｍｏｄｅｌｓ」，ＴｈｉｒｄＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＡｕｔｏｍａｔｉｃＥｘｔｒａｃｔｉｏｎｏｆＭａｎ−ｍａｄｅＯｂｊｅｃｔｓｆｒｏｍＡｅｒｉａｌａｎｄＳｐａｃｅＩｍａｇｅｓ，２００１）によると、ピクチャの特定のポイントやラインは、（Ｍ．ｐｏｌｌｅｆｅｙｓによって、「Ｔｕｔｏｒｉａｌｏｎ３ＤＭｏｄｅｌｉｎｇｆｒｏｍＩｍａｇｅｓ」，ｅｃｃｖ２０００，２６Ｊｕｎｅ２０００，Ｄｕｂｌｉｎ，Ｉｒｅｌａｎｄにおいて説明された）ＨａｒｒｉｓまたはＳｈｉおよびＴｏｍａｓａｉ方法によって検出される。そしてこれらの特徴は対応付けられ、あるいはピクチャまたはビデオシーケンスのいずれに関するかによって、異なるビュー間にある。これらの対応性から、ビュー間の関連性が、ＴｏｒｒやＦｉｓｈｅｒおよびＢｏｌｌｅｓの方法などのロバスト方法によって算出される。投影再構築について、２つの画像またはピクチャが、内在的パラメータに対する投影マトリックスおよび近似回転マトリックスを判断する際に、かつ三角測量によって初期再構築を得るために選択される。そして他のビューに対応するカメラの位置はエピポーラ幾何学によって判断される。そして構成はポイントごとに拡張された（Ｍ．Ｐｏｌｌｅｆｅｙｓによって、「Ｔｕｔｏｒｉａｌｏｎ３ＤＭｏｄｅｌｉｎｇｆｒｏｍＩｍａｇｅｓ」，ｅｃｃｖ２０００，２６Ｊｕｎｅ２０００，Ｄｕｂｌｉｎ，Ｉｒｅｌａｎｄにおいて説明された）Ｋａｌｍａｎフィルタの使用によって改良される。構成および動きがシーケンス全体について得られると、バンドル調整が実行される。自動較正によって、投影再構築からユークリッド再構築までの移動が実行される。そして仮想３Ｄモデルが、深度が使用可能でないポイントを排除する際に、シーケンスのピクチャのうちの１つに三角形メッシュを上げることによって得られる。

本方法の欠点は、単純なシーン以外では良好な結果を付与せず、複雑なシーンにはふさわしくないという点である。

より一般的には、上記の従来技術の全ては、（例えばカメラのパラメータに関する）ピクチャシーケンスの取得および／またはシーンのコンテンツやシーケンスの長さについてなされる推定を簡略化する必要があるという欠点を有する。すなわち、これらの異なる方法は、不特定な、場合によっては複雑なシーンおよびピクチャシーケンスにはふさわしくない。

符号化本位の方法である最終的方法が、ＦｒａｎｃｋＧａｌｐｉｎによって、「Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ３Ｄｄｅｓｅｑｕｅｎｃｅｖｉｄｅｏ：Ｓｃｈｅｍａｄ’ｅｘｔｒａｃｔｉｏｎａｕｔｏｍａｔｉｑｕｅｄ’ｕｎｆｌｕｘｄｅｍｏｄｅｌｅｓ３Ｄ，ａｐｐｌｉｃａｔｉｏｎｓａｌａｃｏｍｐｒｅｓｓｉｏｎｅｔａｌａｒｅａｌｉｔｅｖｉｒｔｕｅｌｌｅ」（３Ｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｖｉｄｅｏｓｅｑｕｅｎｃｅｓ：ｓｃｈｅｍｅｆｏｒｔｈｅａｕｔｏｍａｔｉｃｅｘｔｒａｃｔｉｏｎｏｆａｓｔｒｅａｍｏｆ３Ｄｍｏｄｅｌｓ，ａｐｐｌｉｃａｔｉｏｎｃｏｍｐｒｅｓｓｉｏｎａｎｄｔｏｖｉｒｔｕａｌｒｅａｌｉｔｙ），ＵｎｉｖｅｒｓｉｔｙｏｆＲｅｎｎｅｓ１，２００２において提案されている。ピクチャシーケンス全体について単一の３Ｄモデルを再構築することが考えられている従来技術の他の方法とは異なって、ＦｒａｎｃｋＧａｌｐｉｎの方法の主要な考えは、各々がＧＯＰ（つまりグループ・オブ・ピクチャ）として知られているシーケンスの１セクションについて有効である複数のモデルを得るためのビデオシーケンスの区分的処理である。

シーンは静的であり（つまり、動きの意味でセグメント化されており）、また単眼カメラによって動きをフィルム化されており、取得パラメータ（カメラの内在的および外在的パラメータ）は未知であり、カメラの焦点距離は一定であり、またシーンは全くまたはほとんど鏡面を含んでいないと想定される。シーンのコンテンツとカメラの動きは、不特定のコンテンツおよび動きであるとされる。

シーケンスのリモートピクチャ（つまりＧＯＰを区別するキーピクチャ）間の推定を可能にするために、光学フローの等化または変形可能な２Ｄメッシュに基づいて動きの緻密な推定がなされる。キーピクチャは並行して選択され、３Ｄモデルの推定のサポートとして作用する。カメラの内在的および外在的パラメータのロバスト算出もまたキーピクチャについて実行され、スライディングウィンドウバンドル調整の方法によって３Ｄ幾何学と同時に改良される。中間ピクチャの位置は、図１に示されるように、オリジナルシーケンスの再構築を可能にするために、Ｄｅｍｅｎｔｈｏｎによる局所化によって推定される（特にＦｒａｎｃｋＧａｌｐｉｎ「Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ３Ｄｄｅｓｅｑｕｅｎｃｅｖｉｄｅｏ：ｓｃｈｅｍａｄ’ｅｘｔｒａｃｔｉｏｎａｕｔｏｍａｔｉｑｕｅｄ’ｕｎｆｌｕｘｄｅｍｏｄｅｌｅｓ３Ｄ，ａｐｐｌｉｃａｔｉｏｎａｌａｃｏｍｐｒｅｓｓｉｏｎｅｔａｌａｒｅａｌｉｔｅｖｉｒｔｕｅｌｌｅ」（３Ｄｒｅｐｒｅｓｅｎｔａｉｏｎｏｆｖｉｄｅｏｓｅｑｕｅｎｃｅｓ：ｓｃｈｅｍｅｆｏｒｔｈｅａｕｔｏｍａｔｉｃｅｘｔｒａｃｔｉｏｎｏｆａｓｔｒｅａｍｏｆ３Ｄｍｏｄｅｌｓ，ａｐｐｌｉｃａｔｉｏｎｃｏｍｐｒｅｓｓｉｏｎａｎｄｔｏｖｉｒｔｕａｌｒｅａｌｉｔｙ），ＵｎｉｖｅｒｓｉｔｙｏｆＲｅｎｎｅｓ１，Ｊａｎｕａｒｙ２００２を参照）。

初期シーケンスは、ＧＯＰと称されるピクチャグループに合成された複数の連続ピクチャＩ_kを含む。従って、ピクチャＩ₀〜Ｉ₅は、１と称され、かつこれと関連した３ＤモデルＭ₀を有する第１のＧＯＰ内に共にグループ化される。ピクチャＩ₅〜Ｉ₁₃は、２と称され、かつこれと関連した第２のモデルＭ₁を有する第の２ＧＯＰ内に組み立てられる。

この最後に述べた従来技術の方法は、この文書に上述された他の方法によって付与されるよりも良好な結果を符号化に関して得るために使用可能である。図２ａ〜２ｅは、一方では本技術に従って、他方ではＨ２６Ｌ技術に従って、低ビットレートで得られた結果を示している。より具体的には、図２ａは、ＰＳＮＲの展開を示しており、図２ｂおよび２ｃはそれぞれ、８２ｋｂ／ｓのビットレートについてＨ２６技術（つまり、Ｈ２６４技術、特に「Ｓｌｉｄｉｎｇａｄｊｕｓｔｍｅｎｔｆｏｒ３Ｄｖｉｄｅｏｒｅｐｒｅｓｅｎｔａｉｏｎ」，ＦｒａｎｃｋＧａｌｐｉｎおよびＬｕｃｅＭｏｒｉｎ、ｅｕｒａｓｉｐ２０００，ｐａｇｅｓ１０８８〜２００１を参照）に従って得られたピクチャと、このピクチャの詳細なゾーンとを示しており、図２ｄおよび２ｅは、ＦｒａｎｃｋＧａｌｐｉｎによる３Ｄモデルのストリームを使用する方法に従って得られた同一ピクチャを示している。

図２ａにおいて、第１の曲線（図面の最上）は、ＦｒａｎｃｋＧａｌｐｉｎの方法に従って３Ｄモデルをテクスチャ空間に再投影することによって得られた、つまり幾何学的ひずみを考慮していない再構築シーケンスの客観的品質に関する。図２ａの他の２つの曲線は、ＦｒａｎｃｋＧａｌｐｉｎの方法によって、かつピクチャ空間のＨ２６４符号器によって得られた、再構築シーケンスの客観的品質を示している。

客観的測定（すなわち、ＰＳＮＲつまりピーク信号対雑音比）に関して、得られた性能はＦｒａｎｃｋＧａｌｐｉｎ符号器およびＨ２６Ｌ符号器に類似しているが、視覚的観点から、得られた品質は、特に詳細に対する忠実度およびブロック効果の欠如などに関して３Ｄモデルストリームに基づいた符号器によってより高いことに注目すべきである。

さらに、３Ｄモデルストリームに基づいた本符号化技術は、図３ａ〜３ｃに示されるように、十分な視覚的品質によって極めて低いビットレートを得るために使用可能であり、図面はそれぞれ、１６ｋｂ／ｓのビットレートに対する、ＰＳＮＲの展開と、本技術に従って得られたピクチャと、このピクチャの詳細な領域とを示している。

３Ｄモデルストリームの抽出に応じて、ＦｒａｎｃｋＧａｌｐｉｎの方法は、上記の単一の３Ｄモデルを抽出する方法に固有の特定の欠点を示していないが、特定の問題に直面している。

特に、この従来技術の欠点は、ピクチャシーケンスについて得られた３Ｄモデルの全てが部分的にのみ冗長的である点であり、本技術を、１シーンのフリーナビゲーションの適用にふさわしくないものとしている。

事実、得られた異なる３Ｄモデルは異なる参照システムで表され、（ドリフト、および異常ポイントなどに関して）多数の不完全性を示している。

この従来技術の別の欠点は、（上記の他のアプローチとは異なり）符号化を目的としているが、幾何学の観点からではなく、ピクチャのテクスチャの観点からのみスケーリング可能であるという点である。

従って、本方法は、極めて多様な処理能力を有するディスプレイ端末での実現や、可変ビットレートの送信ネットワークにふさわしくない、つまり不適合である。

本発明は特に、従来技術のこれらの欠点を克服することを目的としている。

より具体的には、本発明の目的は、複雑なものを含む、固定的または静的ピクチャやシーンの任意のタイプのシーケンスに適した３Ｄモデルによってピクチャシーケンスを表現するための技術を提供することである。特に、本発明の目的は、想定がなされず、かつ特徴も動きも既知ではない大規模消費者製品である装置によって取得されたシーンの再構築を可能にする種類の技術を実現することである。

本発明の別の目的は、シーケンスの取得に使用されたカメラのオリジナル経路から離れた動きがある場合でも、高い視覚的品質の再投影によって生成されたシーケンスを得るために使用可能な種類の技術を実現することである。

本発明のさらに別の目的は、低い、かつ極めて低いビットレートに適した種類の技術を提供することである。

本発明の目的はまた、大型シーンに特に十分適した種類の技術を実現することである。

本発明のさらに別の目的は、符号化および仮想ナビゲーションの適用に適した種類の技術を提供することである。

本発明のさらに別の目的は、特にポータブル用途について異なるビットレートでネットワーク上の送信を可能にするために、ピクチャシーケンスのスケーリング可能な表現を得るために使用可能な種類の技術を実現することである。

本発明のさらに別の目的は、上記のＦｒａｎｃｋＧａｌｐｉｎの技術よりも高い視覚的品質のシーンを同一のビットレートで表現するために使用可能な種類の技術を提供することである。

また本発明の目的は、同一の視覚的品質のピクチャシーケンスを表現する場合に、上記のＦｒａｎｃｋＧａｌｐｉｎの技術と比較して低いビットレートを得るために使用可能な種類の技術を実現することである。

これらの目的ならびに、以下に見られる他の目的は、ＧＯＰと称される少なくとも２つの連続ピクチャのセットにグループ化されたピクチャシーケンスを表現するための方法であって、テクスチャ化メッシュ化３Ｄモデルは該ＧＯＰの各々と関連している方法の手段によって達成される。

本発明によると、レベルｎのＧＯＰと関連した３Ｄモデルは、レベルｎ−１のＧＯＰと関連した３Ｄモデルを表現する少なくとも１つの不規則メッシュの少なくとも１つの頂点を考慮する不規則メッシュによって表現され、該頂点は共通の頂点と称される。

従って、本発明は、３Ｄモデルによるピクチャシーケンスの表現に対する完全に新規のかつ発明的アプローチに依拠している。事実、ＦｒａｎｃｋＧａｌｐｉによって提案された方法の場合のように、本発明は、各々がＧＯＰと称されるグループ・オブ・ピクチャと関連した、シーケンスの全ピクチャに対する一意の３Ｄモデルの抽出ではなく、３Ｄモデルのストリームの抽出に依拠するアプローチを提案している。

さらに、本発明は、特にその冗長性を増大させるために、ＧＯＰの各々と関連した異なる３Ｄモデル間の対応性を設定することによってＦｒａｎｃｋＧａｌｐｉｎの技術の発明的改良を提案している。従って、本発明は好都合なことに、双方向ナビゲーションタイプの適用を可能にする。

連続３Ｄモデル間のこの種類の対応性は、ピクチャの特異性に特に十分適したピクチャの不規則メッシュの使用によって可能になる。従って、３Ｄモデルの不規則メッシュは前の３Ｄ頂点の不規則メッシュの少なくとも１つの特異な頂点（あるいは、より具体的にはピクチャの特定のポイントまたはライン）を考慮する。

従って、同等の視覚的品質に対して、本発明は、異なる３Ｄモデル間の冗長性ゆえに、ピクチャシーケンスの送信のビットレートを削減する。また同一ビットレートについて、連続３Ｄモデル間のピクチャの特異性を追跡することによって、ピクチャシーケンスの表現のより良好な視覚的品質を得ることを可能にする。

本発明の有利な特徴によると、少なくとも２つの連続３Ｄモデルはまた、これと関連して、該少なくとも２つの３Ｄモデルに共通の該頂点から構築された基本モデルを有する。

ピクチャシーケンスの本質に応じて、シーケンスと関連した３Ｄモデルの全てが、これらに対応する同一の基本メッシュを有することが可能である。この基本メッシュ、つまり異なる３Ｄモデルが改良を構成する粗いメッシュは、これと関連した全３Ｄモデルに共通の幾何学的構成に対応する。

好ましくは、該３Ｄモデルの１つから別のモデルへの移動は、第１のセットのウェーブレット係数を使用するウェーブレット変換によって実行される。

好都合なことに、該３次元モデルの１つは、第２のセットのウェーブレット係数を使用するウェーブレット変換によって該関連基本モデルから得られる。

従って、本発明は、ネットワークの特徴やディスプレイ端末の関数として適合可能なピクチャシーケンスのスケーリング可能な送信を可能にする。シーケンスの再構築に対して送信される要素は、カメラのパラメータに加えて、第１に基本メッシュであり、第２に、異なる３Ｄモデルを再構築するために使用された異なるウェーブレット係数である。不特定多数のウェーブレット係数の送信は、送信ネットワークのビットレートやディスプレイ端末の容量に適合された不特定な高い再構築品質を付与する。

好ましくは、レベルｎの該不規則メッシュは、レベルｎの該ＧＯＰのピクチャのうちの１つの２次元不規則メッシュである。

好都合なことに、該メッシュ化ピクチャは、レベルｎの該ＧＯＰの第１のピクチャである。

好ましくは、該３次元モデルの各々は、これを表現する該不規則メッシュの仰角によって得られる。

従って、深度情報は、仰角によってメッシュ化深度マップを得るために２Ｄメッシュと組み合わされる。

本発明の第１の有利な変形例によると、該不規則２次元メッシュは、該ピクチャの規則的三角形メッシュの連続簡略化によって得られる。

例えば、動作はサイド１によって三角形から開始し、ピクチャの全ポイントをカバーする。

本発明の第２の有利な変形例によると、該不規則２次元メッシュは、該ピクチャの所定の対象ポイントのＤｅｌａｕｎａｙメッシュから得られる。

これらの対象ポイントは、例えばＨａｒｒｉｓおよびＳｔｅｐｈｅｎアルゴリズムによって事前に検出される。

好ましくは、２つの連続ＧＯＰは少なくとも１つの共通なピクチャを有する。

従って、ＧＯＰの最後のピクチャは次のＧＯＰの最初のピクチャでもある。

本発明の有利な特徴によると、該レベルｎ−１およびｎに共通の該頂点は、レベルｎ−１の該ＧＯＰの最初のピクチャと、レベルｎの該ＧＯＰの最初のピクチャとの間の動きの推定によって検出される。

好都合なことに、この種の方法は、該検出された共通の頂点を記憶するためのステップを含む。

そして、これらの記憶された共通の頂点は、次のＧＯＰと関連したモデルの構築について使用されてもよい。

好ましくは、レベルｎのＧＯＰと関連した該モデルを表現する該不規則メッシュは、レベルｎ＋１のＧＯＰと関連したモデルを表現する少なくとも１つの不規則メッシュの少なくとも１つの頂点を考慮する。

このように双方向に作用することによって、再構築時に視覚的品質はさらに上がる。

好都合なことに、該第２のセットのウェーブレット係数は、該関連３次元モデルの半規則的再メッシュ化について少なくとも１つの解析フィルタを適用することによって生成される。

半規則的メッシュは、６個の隣接する頂点を有していない頂点がメッシュ上で分離されるための（つまり、相互に隣接するメッシュではない）メッシュである点が想起されるであろう。

好ましくは、該ウェーブレットは第二世代ウェーブレットである。

好ましくは、該ウェーブレットは、区分的アフィンウェーブレットと、多項式ウェーブレットと、バタフライ再分割スキームに基づいたウェーブレットとを備えるグループに属する。

本発明はまた、ＧＯＰと称される少なくとも２つの連続ピクチャのセットにグループ化されたピクチャシーケンスを表現する信号であって、テクスチャ化メッシュ化３Ｄモデルは該ＧＯＰの各々に関連している信号に関する。

本発明によると、このような信号は、少なくとも２つの不規則メッシュに共通の頂点から構築された基本モデルを含む少なくとも１つのフィールドであって、各々が３次元モデルを表現しており、該少なくとも２つの３次元モデルは少なくとも２つの連続ＧＯＰと関連している、少なくとも１つのフィールドと、該基本モデルからのウェーブレット変換によって、該ＧＯＰのうちの１つと関連した少なくとも１つの３次元モデルの構築に使用された１セットのウェーブレット係数を含む少なくとも１つのフィールドと、該３次元モデルのうちの１つと関連した少なくとも１つのテクスチャを含む少なくとも１つのフィールドと、少なくとも１つのカメラ位置パラメータを含む少なくとも１つのフィールドとを備えている。

本発明はまた、上記表現方法を実現するピクチャシーケンスを表現するための装置に関する。

本発明はまた、ＧＯＰと称される少なくとも２つの連続ピクチャのセットにグループ化されたピクチャシーケンスを表現するための装置であって、テクスチャ化メッシュ化３Ｄモデルは該ＧＯＰの各々と関連している装置に関する。

本発明によると、このような装置は、２つの連続３次元モデルを表現する少なくとも２つの不規則メッシュに共通な頂点から作成された少なくとも１つの基本モデルのウェーブレット変換によって該３次元モデルを構築するための手段と、該３次元モデルから、テクスチャの少なくとも１つのピクチャから、かつ少なくとも１つのカメラ位置パラメータからシーケンスの該ピクチャを表現するための手段とを備えている。

本発明はまた、ＧＯＰと称される少なくとも２つの連続ピクチャのセットに組み立てられたピクチャシーケンスを符号化するための装置であって、テクスチャ化メッシュ化３Ｄモデルは該ＧＯＰの各々と関連している装置に関する。

本発明によると、この種の符号化装置は、レベルｎのＧＯＰと関連した３次元モデルを符号化するための手段を備えており、該３次元モデルは、レベルｎ−１のＧＯＰと関連した３次元モデルを表現する少なくとも１つの不規則メッシュの少なくとも１つの頂点を考慮する不規則メッシュによって表現される。

本発明の他の特徴および利点は、例証や非制限的例および添付の図面によって付与される好ましい実施形態に関する以下の説明からより明確になる。

本発明の一般原理は、シーケンスのピクチャのコンテンツに適した、かつ前の３Ｄモデルの不規則メッシュの頂点の対応性を考慮する、不規則メッシュが関連した３Ｄモデルのストリームの抽出に基づいている。

図４を参照すると、３次元モデルによるビデオシーケンスの再構築の一般原理を簡単に想起することができる。

現実のシーン、この場合はカメラ４３によってフィルム化された（４２）オブジェクト４１（ここではティーポット）を考える。大規模消費者製品であってもよいこのカメラの本質についても、ビデオシーケンスの取得パラメータについても想定されない。

ビデオシーケンスのディジタル化４４の後、オリジナルシーケンスと称されるべきピクチャシーケンス４５が得られる。

このオリジナルシーケンスの解析４６によって、少なくとも１つの３Ｄモデル４７が構築され（本発明に従った複数の３Ｄモデル）、これによって、ピクチャシーケンス４９を、ディスプレイ端末で表示するために再構築する（４８）ことが可能になる。

次に図５を参照して、第１にテクスチャ化メッシュ化３Ｄモデルのストリームに、第２のウェーブレット変換の実現に基づく本発明の一般原理を示す。

各３Ｄモデルはオリジナルのピクチャシーケンスの一部、すなわちＧＯＰ（つまりグループ・オブ・ピクチャ）に対応する。考慮された３Ｄモデルは制限的に不規則にメッシュ化された不規則メッシュ化仰角マップであり、これによって前のモデルの頂点の対応性は考慮される。この制限は、連続モデルの頂点間の正確な対応性を保証する。

モデル間を移動するために使用された変換はウェーブレットに分解され、従って、ウェーブレットの本質的なスケーリング性によって、変換の正確さがビットレートに適合される。

さらに本発明は、図４に示されるように、１つ以上の連続ＧＯＰと関連した基本モデルの再構築に依存している。

オリジナルのピクチャシーケンスは連続ピクチャＩ_kによって構成される。図４はピクチャＩ₀、Ｉ₃、Ｉ₅、Ｉ₁₀、Ｉ₂₀、Ｉ₃₀、Ｉ₄₀、Ｉ₅₀およびＩ₆₀をより具体的に示している。このシーケンスは不特定な長さであってもよく、制限的な前提は本発明に必要ない。

ピクチャシーケンスＩ_kは、ＧＯＰと称される連続ピクチャグループに分割される。従って、第１のＧＯＰ５０はＩ₀〜Ｉ₅と称されたピクチャを含み、第２のＧＯＰ５１はピクチャＩ₅〜Ｉ₂₀を含み、（ｋ＋１）番目のＧＯＰ５２は特にピクチャＩ₃₀〜Ｉ₄₀を含み、（ｋ＋２）番目のＧＯＰ５３はピクチャＩ₄₀〜Ｉ₆₀を含む。図４の好ましい実施形態において、ＧＯＰの最後のピクチャは次のＧＯＰの最初のピクチャでもあることに注目する。従って、ピクチャＩ₅は、例えば第１のＧＯＰ５０および第２のＧＯＰ５１に属する。

これらのＧＯＰ５０〜５３の各々について、３ＤモデルＭ_kが構築される。３ＤモデルＭ₀はＧＯＰ５０と関連しており、３ＤモデルＭ₁はＧＯＰ５１と関連している。

その３ＤモデルＭ_kが改良を構成する、ＭＢ_kと称される１セットの基本モデルもまた構築される。従って、図４において、基本モデルＭＢ₀は３ＤモデルＭ₀〜Ｍ_kと関連しており、基本モデルＭＢ₁は３ＤモデルＭ_k、Ｍ_k+1およびこれらに続く３Ｄモデルと関連している。

１セットの所定の特定ポイントがある全ＧＯＰの３Ｄモデルに、このような粗いモデルＭＢ_kを関連付けるように選択される。これらのポイントのいくつかが次の３Ｄモデルにもはや現れない場合には、新たな基本モデルＭＢ_k+1に移動するように選択される。

従って、別個に得られているが全て同一の基本メッシュ、つまり関連した共通の粗いモデルのそれに基づいている、異なる３ＤモデルＭ_kをウェーブレットに分解することが可能である。

オリジナルシーケンスのピクチャの本質、および多数のこれらのピクチャ間の共通のゾーンの存在に応じて、基本メッシュＭＢ_kは不特定多数のＧＯＰに対して、場合によってはピクチャシーケンス全体に対して有効である。

従って、これらの基本モデルＭＢ_kを介して、第１にこれに対応する基本メッシュによって、第２に１セットのウェーブレット係数によって各推定済み３ＤモデルＭ_kを表すことができる。

この表現は図６の図面に要約されており、ここで係数

は３ＤモデルＭ_kから次への移動の変換に関するウェーブレット係数を表しており、係数

は、基本モデルＭＢ_kと関連３ＤモデルＭ_k間の改良に関するウェーブレット係数を表している。

従って、ウェーブレット係数

は、モデルＭ_kから３ＤモデルＭ_k+1に移動するために使用される。そのうちのウェーブレット係数

は、３ＤモデルＭ_kから関連基本モデル（この場合はモデルＭＢ₁）への移動を示している。

従って、第１のセットのウェーブレット係数

は異なるモデルＭ_k間のリンクを画定し、これによって、対応性間の線形補間によって、またはウェーブレットによって絶対的に、モデル間の移動および中間モデルの生成を可能にする。

第２のセットのウェーブレット

は異なるモデルの（ビットレートに関して）漸次的かつ効果的な送信を提供する。従って、本発明の技術は、その処理能力に関係なく全タイプの端末に、またそのビットレートに関係なく全タイプの送信ネットワークに適合可能である。

以下図７を参照して、オリジナルのピクチャシーケンスを表現するためのモデルおよび関連テクスチャの符号化時に本発明に従って実現された異なるステップを示す。

アルゴリズムの入力において、図４を参照してここに示されたように、現実世界のシーンまたはオブジェクトから撮られた異なるショットに対応する１セットの自然ピクチャＩ_n〜Ｉ_mがある。本発明の好ましい実施形態において、ピクチャはｐｐｍフォーマットおよびｐｇｍフォーマットである。本発明は当然、他のピクチャフォーマットにも適用可能である。

まず、ピクチャＩ_nおよびＩ_n+p間の動きフィールドＣ_n、_n+pならびに３Ｄ情報の推定に対する全サポートポイント、つまりＨａｒｒｉｓおよびＳｔｅｐｈｅｎ検出器による最高スコアを有し、かつ規則的に破棄されるピクチャＩ_nおよびＩ_n+p間の動き推定に使用されたメッシュの頂点のセットε_n、_n+pを判断するために、動き推定７１がオリジナルシーケンスの異なるピクチャ間で実行される。

次いで、シーケンスの異なるＧＯＰを区別するオリジナルシーケンスのキーピクチャＫ_kの選択が実行される（７２）。

オリジナルシーケンスがビデオシーケンスである場合、ＧＯＰを判断するキーピクチャＫ_kの選択７２が、ＦｒａｎｃｋＧａｌｐｉｎａｎｄａｌ．によって、「ＳｌｉｄｉｎｇＡｄｊｕｓｔｍｅｎｔｆｏｒ３ＤＶｉｄｅｏＲｅｐｒｅｓｅｎｔａｔｉｏｎ」ＥＵＲＡＳＩＰＪｏｕｒｎａｌｏｎＡｐｐｌｉｅｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｇ２００２：１０に展開されたアルゴリズムに従って実行される（特に段落５．１．ＳｅｌｅｃｔｉｏｎＣｒｉｔｅｒｉａを参照のこと）。従って、開始および終了ＧＯＰのこの選択７２は３つの基準の妥当性に左右される。
３Ｄ情報の再構築に十分な平均的な動きと、ＧＯＰの２つの最遠ピクチャ間の共通ポイントの比較的高いパーセンテージと、（エピポーラ残余によって評価された）推定幾何学の妥当性とである。

第１の選択されたキーピクチャはオリジナルシーケンスの第１のピクチャＩ₀である。

３ＤモデルＭ_kの抽出、つまり基本マトリックスの推定と投影マトリックスおよびカメラ位置の推定７３はまた、ＦｒａｎｃｋＧａｌｐｉｎによって「Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ３Ｄｄｅｓｅｑｕｅｎｃｅｓｖｉｄｅｏ：Ｓｃｈｅｍａｄ’ｅｘｔｒａｃｔｉｏｎａｕｔｏｍａｔｉｑｕｅｄ’ｕｎｆｌｕｘｄｅｍｏｄｅｌｅｓ３Ｄ，ａｐｐｌｉｃａｔｉｏｎｓａｌａｃｏｍｐｒｅｓｓｉｏｎａｎｄａｌａｒｅａｌｉｔｅｖｉｒｔｕｅｌｌｅ」（３Ｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｖｉｄｅｏｓｅｑｕｅｎｃｅｓ：ｓｃｈｅｍｅｆｏｒｔｈｅａｕｔｏｍａｔｉｃｅｘｔｒａｃｔｉｏｎｏｆａｓｔｒｅａｍｏｆ３Ｄｍｏｄｅｌｓ，ａｐｐｌｉｃａｔｉｏｎｃｏｍｐｒｅｓｓｉｏｎａｎｄｔｏｖｉｒｔｕａｌｒｅａｌｉｔｙ）、ＵｎｉｖｅｒｓｉｔｙｏｆＲｅｎｎｅｓ１，２０００および「ＳｌｉｄｉｎｇＡｄｊｕｓｔｍｅｎｔｆｏｒ３ＤＶｉｄｅｏＲｅｐｒｅｓｅｎｔａｔｉｏｎ」ＥＵＲＡＳＩＰＪｏｕｒｎａｌｏｎＡｐｐｌｉｅｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ２００２：１０に展開された技術を利用する。技術はまた、３Ｄモデリングのクラシックアルゴリズムに依存する。

ビデオシーケンスではなくて１セットのピクチャの場合、原理は３Ｄ情報の抽出と同じである。しかしながら、この推定の基本は、次のピクチャの対応性がブロックマッチングによって検索される、（「ＡＣｏｍｂｉｎｅｄＣｏｒｎｅｒａｎｄＥｄｇｅＤｅｔｅｃｔｏｒ」，Ｐｒｏｃ．４ｔｈＡｌｖｅｙＶｉｓｉｏｎＣｏｎｆ．，１９９８に説明された）ＨａｒｒｉｓおよびＳｔｅｐｈｅｎ検出器に対して高スコアを有する現在のピクチャの１セットの特定ポイントである。さらに、送信されるモデル数は、オリジナルシーケンスの再構築について考慮されるピクチャの選択７２を実現することによって制限される。この選択７２は、ビデオシーケンスの場合は、キーピクチャの選択と同じ基準に基づいている。

従って、ＧＯＰｋのキーピクチャＫ_kの選択７２の後、ＧＯＰｋと関連した動きフィールドＣ_kは、ＧＯＰｋの開始および終了ピクチャ間の動きフィールドであると判断される。

較正７５もまた、ピクチャシーケンスの取得に使用されたカメラの内在的および外在的パラメータの全て、特にピクチャＩ_kと関連したカメラの位置Ｐ_kを判断するために実行される。

第１にこの位置Ｐ_kによって、第２に既知のＧＯＰｋと関連した動きフィールドＣ_kによって、推定（７４）は、ＧＯＰｋと関連した深度マップＺ_kからなる。

ＧＯＰｋと関連したオリジナルシーケンスのキーピクチャＫ_kの全てもまた記憶される（７６）。
図７で７１〜７６と称されたブロックのより具体的な動作モードについて上記参照された、ＦｒａｎｃｋＧａｌｐｉｎによる２つの公報を参照してもよい。

再構築を目的として、２次元不規則メッシュ７７が強制的に深度マップＺ_kから作成され、ここでは、ピクチャＫ_kに含まれる前のＧＯＰと関連したモデルの頂点の対応性が考慮される。

この２Ｄメッシュは２通りの方法で算出されてもよい。サイド１による三角形の規則的メッシュからの連続簡略化によるもの（つまりピクチャの全ポイント）と、事前に検出された対象ポイントのＤｅｌａｕｎａｙメッシュによるものとである。

メッシュがレベルｎで判断された場合、推定（７８）は、（これもまた本発明の好ましい実施形態において、ＧＯＰｎ＋１の第１のピクチャである）ＧＯＰｎの最後のピクチャのこれらのポイントの対応性の動きフィールドＣ_nによって実行される。対応する頂点のこのリストもまた記憶され（７８）、ＧＯＰｎ＋１と関連したモデルのメッシュ化７７時に使用される。

簡略化によって得られた２Ｄメッシュの場合、制約が課され、これによってこのリスト７８のポイントは最終メッシュに存在する。

Ｄｅｌａｕｎａｙメッシュの場合、Ｄｅｌａｕｎａｙ三角測量によって得られたＧＯＰｎ＋１と関連したメッシュの頂点は、ＨａｒｒｉｓおよびＳｔｅｐｈｅｎアルゴリズム、（「ＡＣｏｍｂｉｎｅｄＣｏｒｎｅｒａｎｄＥｄｇｅＤｅｔｅｃｔｏｒ」，Ｐｒｏｃ．４ｔｈＡｌｖｅｙＶｉｓｉｏｎＣｏｎｆ．，１９８８）、またはＧＯＰｎ＋１のキーピクチャＫ_n+1上の対象ポイントの他の適切な検出器によって検出された特定ポイントと、ＧＯＰｎと関連したメッシュの頂点の対応性とである。

レベルｎで算出された対応性Ｃ（Ｅ_n）のリストは、ＧＯＰｎ＋１のキーピクチャにおいてＨａｒｒｉｓによって検出された頂点間にはないＧＯＰｎのモデルの頂点を考慮するために使用可能である。

これは、１つのモデルの頂点の対応性が次のモデルに存在することを保証し、これによってこれら２つのモデル間のリンク７９を極めて容易にする。事実、モデル間の対応性７９は、動きフィールドによって正確に得られる。

本発明の一代替実施形態において、より正確な変換７９を得るために、この研究は強制的に現在のモデルのメッシュを置くことによって双方向になされ、これによって、考慮されるのは前のモデルの頂点だけではなく、次のモデルの頂点でもある。

ＧＯＰを表現する３Ｄモデルの幾何学に対応する３ＤメッシュＭ_kは、８０と称されるブロックで示されるような推定２Ｄメッシュの仰角によって得られる。

２つの連続モデルの頂点間の対応性７８のセットアップは、ウェーブレット係数によってモデルＭ_kからモデルＭ_k+1に移動するために使用される変換７９を表す。

波長によってこの変換を表すことの有用性は、変換の正確さが、ウェーブレットの自然なスケーリング可能性によってビットレートに適合可能であるという点にある。

分解に使用されたウェーブレットは第二世代ウェーブレットである、つまりこれらはベクター空間構成を全く有していないセットで画定可能である。この場合、図６の表記によって、ウェーブレットは基本モデルＭＢ₀、ＭＢ₁などに画定される。

基本メッシュＭＢ_iと、ＭＢ_iおよび３ＤモデルＭ_i間の幾何学的対応性の使用可能性
によって、ウェーブレット係数は、Ｍ_iの半規則的再メッシュ化に解析フィルタを適用することによって生成される。ウェーブレット係数ｄは以下の線形システムの解像度である。
Ｔｄ＝ｃ
ここでＴは全合成のマトリックスであり、ｃはＭ_iの半規則的再メッシュ化での頂点の位置のセットである。

Ｔは使用されたウェーブレットのタイプに左右される。３つのスキームが本発明において優先される。区分的アフィンウェーブレットと、多項式ウェーブレット（特にループウェーブレット）と、バタフライ再分割スキームに基づいたウェーブレット（Ｊ．Ｗａｒｒｅｎａｎｄａｌ．，「ＭｕｌｔｉｒｅｓｏｌｕｔｉｏｎＡｎａｌｙｓｉｓｆｏｒＳｕｒｆａｃｅｓｏｆＡｒｂｉｔｒａｒｙＴｏｐｏｌｏｇｉｃａｌＴｙｐｅ」，ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ，ｖｏｌ．１６，ｐｐ．３４−７３、１９９７）である。

従って、マトリックスＴは、
Ｔ＝（ＰＱ）
というフォームを有する。
ここでＰは再分割スキームのみを表現するサブマトリックスであり（アフィン、ループ、バタフライ、・・・）、サブマトリックスＱはウェーブレット係数の幾何学的解釈である。

本発明の好ましい実施形態において、Ｑは、ウェーブレット係数がゼロモーメントを有するように選択される。一般的に、Ｔは可逆的なので、ＰおよびＱは任意であってもよい。

図７は、ＧＯＰｋについて説明されたアプローチを要約している。以下の表記が本図面で使用される。Ｉ_n〜Ｉ_mは入力ピクチャであることと、Ｃ_n、_n+pはピクチャＩ_nおよびＩ_n+p間の動きフィールドであることと、Ｃ_kはＧＯＰｋと関連した動きフィールドであることと、Ｃ（Ｖ）は動きフィールドによって見つけられたセットＶのポイントの対応性のセットであることと、ε_mは３Ｄ情報の推定のサポートポイントのセットであることと（ＨａｒｒｉｓおよびＳｔｅｐｈｅｎ検出器による最高スコアを有しかつ規則的に破棄される、動き推定に使用されたメッシュの頂点）、Ｅ_kはＧＯＰｋと関連した３Ｄモデルの頂点のセットであることと、Ｚ_kはＧＯＰｋと関連した深度マップであることと、Ｋ_kはＧＯＰｋと関連したキーピクチャに対応するオリジナルシーケンスのピクチャであることと、Ｍ_kはＧＯＰｋと関連した３Ｄモデルであることと、Ｐ_mはピクチャＩ_mと関連したカメラ位置であることと、θ_kはＭ_kおよびＭ_k+1間の移動の変換を画定するウェーブレット係数のセットであることと、Ｖ_kはモデルＭ_kに対応するメッシュの頂点のセットであることである。

符号器８１は、オリジナルシーケンスの異なるピクチャＩ_kに対するカメラの位置Ｐ_k、テクスチャ化３Ｄモデルの推定Ｍ_k、およびモデルＭ_k-1からモデルＭ_kへの変換を可能にするウェーブレット係数の入力を受け取る。

図７に示されたＧＯＰｋの各々の３ＤモデルＭ_kの推定と同時に、複数の連続ＧＯＰに有効な基本モデルＭＢ_iが構築される。

このために、算出された動きフィールドＣ_kによって、ＧＯＰｋの第１のピクチャで検出された特定ポイントのセットがシーケンスの複数のピクチャに沿ってある。より正確には、複数の連続ＧＯＰに沿ったこれらのポイントの対応性の存在は、解析されたピクチャに含まれる対応性の数が所定の閾値未満になるまで検出される。この閾値は、再構築の可能性（つまり、基本マトリックスの推定）を保証するように選択されなければならない。例えばこれは７以下である。ＧＯＰで検出された特定ポイント数が閾値未満である場合、このことから、このＧＯＰは前のＧＯＰと同じ基本モデルＭＢ_iと関連していないことが推論される。

ＧＯＰからＧＯＰへと追跡された特定ポイントのこのサブセットから、その頂点が全て、これらのポイントが追跡されたＧＯＰと関連したモデルＭ_kに存在する基本モデルＭＢ_iを再構築する。

そして、これらの基本モデルつまり粗いモデルＭＢ_iは個々にウェーブレットに分解される。これは、同じ基本メッシュに依存する際に、Ｐ．Ｇｉｏｉａによって、「Ｒｅｄｕｃｉｎｇｔｈｅｎｕｍｂｅｒｏｆｗａｖｅｌｅｔｃｏｅｆｆｉｃｉｅｎｔｓｂｙｇｅｏｍｅｔｒｉｃｐａｒｔｉｔｉｏｎｉｎｇ」，Ｃｏｍｐｕｔａｔｉｏｎａｌｇｅｏｍｅｔｒｙ，Ｔｈｅｏｒｙａｎｄａｐｐｌｉｃａｔｉｏｎｓ，ｖｏｌ．１４，１９９９に説明されている方法を実現することによって達成される。各３ＤモデルＭ_kは粗い基本モデルＭＢ_iの改良であると考えられる。

従って、図６の係数

は以下のように得られる。同じＧＯＰからの基本メッシュは同一であり、再分割後これらは同一の半規則的メッシュを生成する。結果的に、係数

は、ｋが同一ＧＯＰにおいて変化する場合に同一の幾何学的頂点によってインデックス化される。従って、中間ｋごとに、係数

および

間の差をこれらの頂点の各々に対応させる関数ｆ^kを画定することができる。次いで、この関数ｆ^kは前述のように、係数

であるウェーブレット係数に分解される。

従って、本発明は、一方では基本メッシュが、他方では異なるモデルと関連したウェーブレット係数が送信されるために、低コストで、オリジナルシーケンスと関連したモデルの幾何学の送信を可能にする。

本発明の文脈において想定可能な用途は多数である。本発明はまた、特に（１セットの独立ピクチャかビデオシーケンスであってもよい）同一の固定シーンを表現するピクチャの符号化に適用可能である。このタイプの表現によって達成された圧縮レートは（通常２０ｋｂｉｔｓ／ｓの範囲で）低いかつ極めて低いビットレートにふさわしく、それゆえにポータブル用途を想定することが可能である。

さらに、（復号化の際の）再投影によって得られた仮想シーケンスは、照明の変化、シーケンスの安定化、フリーナビゲーションおよびオブジェクトの追加などの、３Ｄによって可能にされた全ての機能を有する。

すでに従来技術を参照して言及されている通り、３Ｄモデルのストリームによるビデオシーケンスの再構築の原理を示す。（ａ）すでに従来技術を参照して言及されている通り、一方でＨ２６Ｌタイプの技術に従って、他方で図１の符号化技術に従って得られた視覚的結果の比較を示す。（ｂ）すでに従来技術を参照して言及されている通り、一方でＨ２６Ｌタイプの技術に従って、他方で図１の符号化技術に従って得られた視覚的結果の比較を示す。（ｃ）すでに従来技術を参照して言及されている通り、一方でＨ２６Ｌタイプの技術に従って、他方で図１の符号化技術に従って得られた視覚的結果の比較を示す。（ｄ）すでに従来技術を参照して言及されている通り、一方でＨ２６Ｌタイプの技術に従って、他方で図１の符号化技術に従って得られた視覚的結果の比較を示す。（ｅ）すでに従来技術を参照して言及されている通り、一方でＨ２６Ｌタイプの技術に従って、他方で図１の符号化技術に従って得られた視覚的結果の比較を示す。（ａ）すでに従来技術を参照して言及されている通り、１６ｋｂ／ｓの低ビットレートについて、図１の技術に従って得られた結果を示す。（ｂ）すでに従来技術を参照して言及されている通り、１６ｋｂ／ｓの低ビットレートについて、図１の技術に従って得られた結果を示す。（ｃ）すでに従来技術を参照して言及されている通り、１６ｋｂ／ｓの低ビットレートについて、図１の技術に従って得られた結果を示す。３Ｄモデルからのビデオシーケンスの再構築の一般原理を示す。各々が１つ以上の３Ｄモデルに共通の基本モデルと関連した３Ｄモデルのストリームの抽出に応じた、本発明の一般原理を示す。図４の３Ｄモデルの符号化に使用された異なるウェーブレット係数を示す。シーケンスのピクチャを符号化するために、本発明に従って実現された異なるステップのブロック図である。

Claims

ＧＯＰと称される、少なくとも２つの連続ピクチャのセットにグループ化されたピクチャのシーケンスを表現する方法であって、テクスチャ化メッシュ化３次元モデルが前記ＧＯＰの各々と関連している、ここで、頂点は共通の頂点と称され、レベルｎのＧＯＰと関連した３次元モデルが、レベルｎ−１のＧＯＰと関連した３次元モデルを表現する少なくとも１つの不規則メッシュの少なくとも１つの前記頂点を考慮する不規則メッシュによって表現される、方法。
少なくとも２つの連続３次元モデルはまた、これと関連した、前記少なくとも２つの３次元モデルに共通の前記頂点から構築された基本モデルを有する請求項１に記載の表現方法。
前記３次元モデルのうちの１つから別の１つへの移動が、第１のセットのウェーブレット係数を使用するウェーブレット変換によって実行される請求項１および２のいずれかに記載の表現方法。
前記３次元モデルの１つが、第２のセットのウェーブレット係数を使用するウェーブレット変換によって前記関連基本モデルから得られる請求項１〜３のいずれかに記載の表現方法。
レベルｎの前記不規則メッシュは、レベルｎの前記ＧＯＰのピクチャのうちの１つの２次元不規則メッシュである請求項１〜４のいずれかに記載の表現方法。
前記メッシュ化ピクチャがレベルｎの前記ＧＯＰの第１のピクチャである請求項５に記載の表現方法。
前記３次元モデルの各々がこれを表現する前記不規則メッシュの仰角によって得られる請求項１〜６のいずれかに記載の表現方法。
前記不規則２次元メッシュが前記ピクチャの規則的三角形メッシュの連続簡略化によって得られる請求項５〜７のいずれかに記載の表現方法。
前記不規則２次元メッシュが前記ピクチャの所定の対象ポイントのＤｅｌａｕｎａｙメッシュから得られる請求項５〜７のいずれかに記載の表現方法。
２つの連続ＧＯＰは少なくとも１つの共通ピクチャを有する請求項１〜９のいずれかに記載の表現方法。
前記レベルｎ−１およびｎに共通の前記頂点が、レベルｎ−１の前記ＧＯＰの第１のピクチャと、レベルｎの前記ＧＯＰの第１のピクチャとの間の動きの推定によって検出される請求項１〜１０のいずれかに記載の表現方法。
前記検出された共通の頂点を記憶するためのステップを含む請求項１１に記載の表現方法。
レベルｎのＧＯＰと関連した前記モデルを表現する前記不規則メッシュはまた、レベルｎ＋１のＧＯＰと関連したモデルを表現する少なくとも１つの不規則メッシュの少なくとも１つの頂点を考慮する請求項１〜１２のいずれかに記載の表現方法。
前記第２のセットのウェーブレット係数が、前記関連３次元モデルの半規則的再メッシュ化に少なくとも１つの解析フィルタを適用することによって生成される請求項４〜１３のいずれかに記載の表現方法。
前記ウェーブレットが第二世代ウェーブレットである請求項３〜１４のいずれかに記載の表現方法。
前記ウェーブレットが、区分的アフィンウェーブレットと、多項式ウェーブレットと，バタフライ再分割スキームに基づいたウェーブレットとを備えるグループに属する請求項３〜１５のいずれかに記載の表現方法。
ＧＯＰと称される、少なくとも２つの連続ピクチャのセットにグループ化されたピクチャのシーケンスを表現する信号であって、テクスチャ化メッシュ化３次元モデルが前記ＧＯＰの各々と関連している、ここで、前記信号が、
少なくとも２つの不規則メッシュに共通の頂点から構築された基本モデルを含む少なくとも１つのフィールドであって、各々は３次元モデルを表現しており、前記少なくとも２つの３次元モデルは少なくとも２つの連続ＧＯＰと関連している、少なくとも１つのフィールドと、
前記基本モデルからのウェーブレット変換によって、前記ＧＯＰのうちの１つと関連した少なくとも１つの３次元モデルの構築に使用された１セットのウェーブレット係数を含む少なくとも１つのフィールドと、
前記３次元モデルのうちの１つと関連した少なくとも１つのテクスチャを含む少なくとも１つのフィールドと、
少なくとも１つのカメラ位置パラメータを含む少なくとも１つのフィールドと
を備える、信号。
請求項１〜１６のいずれかの表現方法を実現する、ピクチャシーケンスを表現するための装置。
ＧＯＰと称される、少なくとも２つの連続ピクチャのセットにグループ化されたピクチャのシーケンスを表現するための装置であって、テクスチャ化メッシュ化３次元モデルが前記ＧＯＰの各々と関連している、ここで、前記装置が、
２つの連続３次元モデルを表現する少なくとも２つの不規則メッシュに共通な頂点から作成された少なくとも１つの基本モデルのウェーブレット変換によって前記３次元モデルを構築するための手段と、
前記３次元モデルから、テクスチャの少なくとも１つのピクチャおよび少なくとも１つのカメラ位置パラメータから、シーケンスの前記ピクチャを表現するための手段と
を備える、装置。
ＧＯＰと称される、少なくとも２つの連続ピクチャのセットにグループ化されたピクチャのシーケンスを符号化する装置であって、テクスチャ化メッシュ化３次元モデルが前記ＧＯＰの各々と関連している、ここで、前記装置が、
レベルｎのＧＯＰと関連した３次元モデルを符号化するための手段を備え、前記３次元モデルが、レベルｎ−１のＧＯＰと関連した３次元モデルを表現する少なくとも１つの不規則メッシュの少なくとも１つの頂点を考慮する不規則メッシュによって表現される、装置。