JP2006527945A - 3dモデルを使用するピクチャシーケンスの表現方法、対応する信号、および対応する装置 - Google Patents

3dモデルを使用するピクチャシーケンスの表現方法、対応する信号、および対応する装置 Download PDF

Info

Publication number
JP2006527945A
JP2006527945A JP2006516305A JP2006516305A JP2006527945A JP 2006527945 A JP2006527945 A JP 2006527945A JP 2006516305 A JP2006516305 A JP 2006516305A JP 2006516305 A JP2006516305 A JP 2006516305A JP 2006527945 A JP2006527945 A JP 2006527945A
Authority
JP
Japan
Prior art keywords
model
gop
picture
mesh
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006516305A
Other languages
English (en)
Other versions
JP2006527945A5 (ja
Inventor
バルター,ラファエル
ジョイア,パトリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2006527945A publication Critical patent/JP2006527945A/ja
Publication of JP2006527945A5 publication Critical patent/JP2006527945A5/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/27Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding involving both synthetic and natural picture components, e.g. synthetic natural hybrid coding [SNHC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/29Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding involving scalability at the object level, e.g. video object layer [VOL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)

Abstract

本発明は、グループ・オブ・ピクチャ(GOP)として既知の少なくとも2つの連続ピクチャを備えるセットにグループ化されたピクチャシーケンスを表現するための方法に関し、これによってテクスチャ化メッシュ化3次元モデルが該GOPの各々と関連付けられる。本発明によると、頂点は共通の頂点として既知であり、nレベルのGOPと関連した3次元モデルが、n−1レベルのGOPと関連した3次元モデルを表現する少なくとも1つの不規則メッシュの少なくとも1つの該頂点を考慮する不規則メッシュによって表現される。

Description

本発明の分野は、ピクチャ(つまり画像)シーケンスの符号化である。より具体的には、3次元モデル、つまり3Dモデルのストリームによるピクチャシーケンスの符号化技術に関する。
3Dモデルによるビデオ符号化は、1つ以上のテクスチャ化3Dモデルによってビデオシーケンスを表現する点であることが想起されるであろう。ピクチャシーケンスの符号器に送信される情報は、3Dモデルと、これと関連したテクスチャのピクチャと、シーケンスをフィルム化したカメラのパラメータとからなる。
従って、このタイプの符号化は、ビデオシーケンスが一般的に1セットの画素によって表現される従来の符号化技術よりも低いビットレートの達成を可能にする。しかし、これは送信にかなりのコストがかかる。
さらに、従来の符号化技術と比較して、3Dモデルによるこのような符号化技術は、再構築されたシーケンスへの一定の機能の追加を可能にする。従って、シーンの照明を変更し、立体表示を得て、(ビデオシーケンスである場合には)シーケンスを安定化させ、シーンにオブジェクトを追加し、あるいはシーンのフリーナビゲーションをシミュレーションするために視点を変更したりすることが可能である(フリーナビゲーションはオリジナル経路に対するカメラの経路の変更として画定されてもよい)。
従って、3Dモデルをビデオシーケンスから抽出する方法に対してピクチャ符号化マーケットにおいて主要な需要がある。事実、リアルな3Dシーンを開始すると、3Dモデリングは、過去に想定されていた合成方法によって得られたものよりかなり写真に近い描写のコンテンツを得るために使用される。さらに、上記機能を使用すると、リアルなシーンの仮想モデルの取得によって、eコマース、ビデオゲーム、シミュレーション、特殊効果または地理的局所化における用途など多数の用途を想定することができる。
現在、ビデオピクチャから3Dモデルを構築するための複数の技術が知られている。
能動的技術として知られている特定の技術はリアルシーンのライティングの制御を必要とし、一般的に、複数の角度のビューと深度に関する多量のデータとを取得するためにレーザー技術や多数のカメラを使用する。
受動的技術として知られている他の技術はその一部について、高度計算アルゴリズムに依存しており、またピクチャ間の関係性またはシルエットのいずれかに基づいている。これらは主に必要な較正レベルおよび可能な双方向度によって相互に異なる。これらは1セットの写真やピクチャから1つの3D情報を再構築することからなり、また主に以下の2つの問題に直面する。
対応性を確立または判断することである。これは所与のピクチャのゾーンについて、他のピクチャにおける対応するゾーンを見つけることである(このゾーンはピクチャのポイントまで縮小されてもよい)。
ピクチャ成形パラメータ(つまり、(焦点距離などの)カメラの内在的パラメータとその外在的パラメータ(シーケンスの異なるピクチャを取得するためのカメラ位置など))の推定からなるカメラを較正することである。
対応性を確立することは、一般的に、V.M.Bove and al.によって「Semi−automatic 3D−model extraction from uncalibrated 2D camera views」.Proceedings Visual Data Exploration and Analysis,1995に説明されるようにマニュアルで実行される。
その較正は面倒なプロセスであり、これと関連した計算アルゴリズムはしばしば不安定である。従って、多数の方法が、「ターンテーブル」(W.Niem、「Robust and Fast Modeling of 3D Natural Objects from Multiple Views」,vcip1994,1994)やモバイルロボットの使用(J.Wingbermuhle、「Automatic Reconstruction of 3D Object Using a Mobile Monoscopic Camera」,Proceedings of the International Conference on Recent Advances in 3D Imaging and Modeling、Ottawa、Canada、1997)に応じて、人手による動作(E.Boyer and al.,「Calibrage et Reconstruction a l’aide de Parallelepipedes et de Parallelogrammes」(Calibration and Reconstruction through Parallelepipeds and Parallelograms)Proceedings of the 13th French Speakers’ Congress on Shape Recognition and Artificial Interlligence,2002)または複雑な取得システムのいずれかを必要とする較正済みシーケンスに依拠している。
特定の他の自動または半自動方法において、対応性の確立はマニュアルで管理されない。例えば、A.Fitzgibbon and al.,(「Automatic Line Matching and 3D Reconstruction of Building from Multiple Views」,IAPRS,Munich,Germany,1999)またはC.Zeller and al.,(「3−D Reconstruction of Urban Scene from Sequence of Images」,INRIA,Information Technology 2572、1995)によって説明された技術を参照してもよい。
しかしながら、これらの半自動または自動方法は、再構築されるシーンについて多数の想定がなされることを必要としており、例えば、アーキテクチャシーンにのみ適用可能である。
従来、自動3D再構築方法は以下のステップを実現する。
特定のポイントまたはラインを検出するステップと、ピクチャ間の対応性を確立するステップと、ここで、このステップにおいて、ビデオシーケンスに沿って前のステップで抽出された特定のポイントやラインがある、ステップと、異なるピクチャを相互に関連付けるステップと、3Dポイントを投影再構築するステップと、必要ならば測定基準の3Dモデルを目的として自動較正したり較正を改良したりするステップと(事実、モデルの双方向性操作はユークリッド空間で実行される)、テクスチャ化3Dモデルを推定するステップとである。
上記アルゴリズムに基づいた特定のアプローチは、単眼カメラによって付与されたデータから3Dモデルを動きについて再構築することを可能にする(つまり、カメラ、または再構築されるシーンの内在的または外在的パラメータのいずれかについての先験的な(a priori)な知識はない)。例えば、P.Debevec and al.によって「Panel Session on Visual Scene Representation」,Smile2000,2000において、あるいはG.Cross and al.,の「VHS to VRML:3D Graphical Models from Video Sequences」,IEEE International Conference on Multimedia Computing and System,Florence,1999によって説明された技術を参照してもよい。
「Modeling Structured Environments by a Single Moving Camera」,Second International Conference on 3−D Imaging and Modeling,1999においてJ.Roning and al.は、検出された輪郭および拡張Kalmanフィルタから第1のモデルを推定する方法を提案している。しかしながら、この方法は、輪郭に大きく左右され、また複雑なシーンに不適切であるとうい欠点を有する。
「VHS to VRM:3D Graphical Models from Video Sequences」,IEEE International Conference on Multimedia Computing and System,Florence,1999において、G.Cross and al.はHarris法によってポイントを検出して、幾何学推定と同時に異なるビュー間の対応性を確立するための方法を提供する。ポイントは、2つのビュー間のエピポーラ幾何学、または3つのビュー間の3焦点幾何学と結びつけられたクロス相関によって対応付けられ、これによってガイドマッチングが可能になる。そして対応性の事例はシーケンスに拡張され、またバンドル調整によって最適化される。そして3*4投影マトリックスおよび(自動較正による)3Dユークリッド構成が得られ、これにはオリジナルピクチャのテクスチャがある。これは幾何学の不完全性をマスクする。
しかしながら、この方法の欠点は、2つの連続ピクチャ間の動きが相対的に小さくなければならず、またピクチャシーケンスは合理的なサイズでなければならないという点である。従って、本方法はいずれのピクチャシーケンスにもふさわしくない。
また2つのアプローチがUniversity of Louvainで提案されている。
第1のアプローチ(M.Pollefeys,「Tutorial on 3D Modeling from Images」,eccv2000,2000)によると、検出されたピクチャの特定のポイントまたはラインが抽出されて、(上記文献に説明された)Torrのアルゴリズムによって対応付けられる。同時に、較正と矛盾する対応性の排除を可能にするために、制限較正が評価される。Beardsleyの方法(M.Pollefeys,「Tutorial on 3D Modeling from Images」,eccv2000,26 June 2000,Dublin,Ireland)が、最初の2つのピクチャおよび他のビューの投影マトリックスに対する粗い投影再構築を得るために使用される。ある未知数をそのデフォルト値に固定し、絶対的円錐曲線の概念を適用する際に、自動較正は、測定基準の表現に移動するためにカメラの内部パラメータを検索することを可能にする。そして複数の情報は、較正時に計算された格差および回転マップから、複数のピクチャで相互に対応するポイントを連結させる方法(下向き鎖および上向き鎖)で共通の3Dモデルに統合される。大きなオブジェクトについては、多重解像度アプローチが提案されている。
しかしながら、この技術の欠点は、大きなオブジェクトについて提案された多重解像度アプローチが、ビュー全体だけでなく詳細部分にもアクセスするために、同一シーンの複数のビデオシーケンスの使用可能性を要するという点である。
第2の技術(Gool and al.,「From image sequences to 3D models」,Third International Workshop on Automatic Extraction of Man−made Objects from Aerial and Space Images,2001)によると、ピクチャの特定のポイントやラインは、(M.pollefeysによって、「Tutorial on 3D Modeling from Images」,eccv2000,26June 2000,Dublin,Irelandにおいて説明された)HarrisまたはShiおよびTomasai方法によって検出される。そしてこれらの特徴は対応付けられ、あるいはピクチャまたはビデオシーケンスのいずれに関するかによって、異なるビュー間にある。これらの対応性から、ビュー間の関連性が、TorrやFisherおよびBollesの方法などのロバスト方法によって算出される。投影再構築について、2つの画像またはピクチャが、内在的パラメータに対する投影マトリックスおよび近似回転マトリックスを判断する際に、かつ三角測量によって初期再構築を得るために選択される。そして他のビューに対応するカメラの位置はエピポーラ幾何学によって判断される。そして構成はポイントごとに拡張された(M.Pollefeysによって、「Tutorial on 3D Modeling from Images」,eccv2000,26June 2000,Dublin,Irelandにおいて説明された)Kalmanフィルタの使用によって改良される。構成および動きがシーケンス全体について得られると、バンドル調整が実行される。自動較正によって、投影再構築からユークリッド再構築までの移動が実行される。そして仮想3Dモデルが、深度が使用可能でないポイントを排除する際に、シーケンスのピクチャのうちの1つに三角形メッシュを上げることによって得られる。
本方法の欠点は、単純なシーン以外では良好な結果を付与せず、複雑なシーンにはふさわしくないという点である。
より一般的には、上記の従来技術の全ては、(例えばカメラのパラメータに関する)ピクチャシーケンスの取得および/またはシーンのコンテンツやシーケンスの長さについてなされる推定を簡略化する必要があるという欠点を有する。すなわち、これらの異なる方法は、不特定な、場合によっては複雑なシーンおよびピクチャシーケンスにはふさわしくない。
符号化本位の方法である最終的方法が、Franck Galpinによって、「Representation 3D de sequence video:Schema d’extraction automatique d’un flux de modeles 3D,applications a la compression et a la realite virtuelle」(3D representation of video sequences:scheme for the automatic extraction of a stream of 3D models,application compression and to virtual reality),University of Rennes 1,2002において提案されている。ピクチャシーケンス全体について単一の3Dモデルを再構築することが考えられている従来技術の他の方法とは異なって、Franck Galpinの方法の主要な考えは、各々がGOP(つまりグループ・オブ・ピクチャ)として知られているシーケンスの1セクションについて有効である複数のモデルを得るためのビデオシーケンスの区分的処理である。
シーンは静的であり(つまり、動きの意味でセグメント化されており)、また単眼カメラによって動きをフィルム化されており、取得パラメータ(カメラの内在的および外在的パラメータ)は未知であり、カメラの焦点距離は一定であり、またシーンは全くまたはほとんど鏡面を含んでいないと想定される。シーンのコンテンツとカメラの動きは、不特定のコンテンツおよび動きであるとされる。
シーケンスのリモートピクチャ(つまりGOPを区別するキーピクチャ)間の推定を可能にするために、光学フローの等化または変形可能な2Dメッシュに基づいて動きの緻密な推定がなされる。キーピクチャは並行して選択され、3Dモデルの推定のサポートとして作用する。カメラの内在的および外在的パラメータのロバスト算出もまたキーピクチャについて実行され、スライディングウィンドウバンドル調整の方法によって3D幾何学と同時に改良される。中間ピクチャの位置は、図1に示されるように、オリジナルシーケンスの再構築を可能にするために、Dementhonによる局所化によって推定される(特にFranck Galpin「Representation 3D de sequence video:schema d’extraction automatique d’un flux de modeles 3D,application a la compression et a la realite virtuelle」(3D representaion of video sequences:scheme for the automatic extraction of a stream of 3D models,application compression and to virtual reality),University of Rennes 1,January 2002を参照)。
初期シーケンスは、GOPと称されるピクチャグループに合成された複数の連続ピクチャIkを含む。従って、ピクチャI0〜I5は、1と称され、かつこれと関連した3DモデルM0を有する第1のGOP内に共にグループ化される。ピクチャI5〜I13は、2と称され、かつこれと関連した第2のモデルM1を有する第の2GOP内に組み立てられる。
この最後に述べた従来技術の方法は、この文書に上述された他の方法によって付与されるよりも良好な結果を符号化に関して得るために使用可能である。図2a〜2eは、一方では本技術に従って、他方ではH26L技術に従って、低ビットレートで得られた結果を示している。より具体的には、図2aは、PSNRの展開を示しており、図2bおよび2cはそれぞれ、82kb/sのビットレートについてH26技術(つまり、H264技術、特に「Sliding adjustment for 3D video representaion」,Franck GalpinおよびLuce Morin、eurasip 2000,pages 1088〜2001を参照)に従って得られたピクチャと、このピクチャの詳細なゾーンとを示しており、図2dおよび2eは、Franck Galpinによる3Dモデルのストリームを使用する方法に従って得られた同一ピクチャを示している。
図2aにおいて、第1の曲線(図面の最上)は、Franck Galpinの方法に従って3Dモデルをテクスチャ空間に再投影することによって得られた、つまり幾何学的ひずみを考慮していない再構築シーケンスの客観的品質に関する。図2aの他の2つの曲線は、Franck Galpinの方法によって、かつピクチャ空間のH264符号器によって得られた、再構築シーケンスの客観的品質を示している。
客観的測定(すなわち、PSNRつまりピーク信号対雑音比)に関して、得られた性能はFranck Galpin符号器およびH26L符号器に類似しているが、視覚的観点から、得られた品質は、特に詳細に対する忠実度およびブロック効果の欠如などに関して3Dモデルストリームに基づいた符号器によってより高いことに注目すべきである。
さらに、3Dモデルストリームに基づいた本符号化技術は、図3a〜3cに示されるように、十分な視覚的品質によって極めて低いビットレートを得るために使用可能であり、図面はそれぞれ、16kb/sのビットレートに対する、PSNRの展開と、本技術に従って得られたピクチャと、このピクチャの詳細な領域とを示している。
3Dモデルストリームの抽出に応じて、Franck Galpinの方法は、上記の単一の3Dモデルを抽出する方法に固有の特定の欠点を示していないが、特定の問題に直面している。
特に、この従来技術の欠点は、ピクチャシーケンスについて得られた3Dモデルの全てが部分的にのみ冗長的である点であり、本技術を、1シーンのフリーナビゲーションの適用にふさわしくないものとしている。
事実、得られた異なる3Dモデルは異なる参照システムで表され、(ドリフト、および異常ポイントなどに関して)多数の不完全性を示している。
この従来技術の別の欠点は、(上記の他のアプローチとは異なり)符号化を目的としているが、幾何学の観点からではなく、ピクチャのテクスチャの観点からのみスケーリング可能であるという点である。
従って、本方法は、極めて多様な処理能力を有するディスプレイ端末での実現や、可変ビットレートの送信ネットワークにふさわしくない、つまり不適合である。
本発明は特に、従来技術のこれらの欠点を克服することを目的としている。
より具体的には、本発明の目的は、複雑なものを含む、固定的または静的ピクチャやシーンの任意のタイプのシーケンスに適した3Dモデルによってピクチャシーケンスを表現するための技術を提供することである。特に、本発明の目的は、想定がなされず、かつ特徴も動きも既知ではない大規模消費者製品である装置によって取得されたシーンの再構築を可能にする種類の技術を実現することである。
本発明の別の目的は、シーケンスの取得に使用されたカメラのオリジナル経路から離れた動きがある場合でも、高い視覚的品質の再投影によって生成されたシーケンスを得るために使用可能な種類の技術を実現することである。
本発明のさらに別の目的は、低い、かつ極めて低いビットレートに適した種類の技術を提供することである。
本発明の目的はまた、大型シーンに特に十分適した種類の技術を実現することである。
本発明のさらに別の目的は、符号化および仮想ナビゲーションの適用に適した種類の技術を提供することである。
本発明のさらに別の目的は、特にポータブル用途について異なるビットレートでネットワーク上の送信を可能にするために、ピクチャシーケンスのスケーリング可能な表現を得るために使用可能な種類の技術を実現することである。
本発明のさらに別の目的は、上記のFranck Galpinの技術よりも高い視覚的品質のシーンを同一のビットレートで表現するために使用可能な種類の技術を提供することである。
また本発明の目的は、同一の視覚的品質のピクチャシーケンスを表現する場合に、上記のFranck Galpinの技術と比較して低いビットレートを得るために使用可能な種類の技術を実現することである。
これらの目的ならびに、以下に見られる他の目的は、GOPと称される少なくとも2つの連続ピクチャのセットにグループ化されたピクチャシーケンスを表現するための方法であって、テクスチャ化メッシュ化3Dモデルは該GOPの各々と関連している方法の手段によって達成される。
本発明によると、レベルnのGOPと関連した3Dモデルは、レベルn−1のGOPと関連した3Dモデルを表現する少なくとも1つの不規則メッシュの少なくとも1つの頂点を考慮する不規則メッシュによって表現され、該頂点は共通の頂点と称される。
従って、本発明は、3Dモデルによるピクチャシーケンスの表現に対する完全に新規のかつ発明的アプローチに依拠している。事実、Franck Galpiによって提案された方法の場合のように、本発明は、各々がGOPと称されるグループ・オブ・ピクチャと関連した、シーケンスの全ピクチャに対する一意の3Dモデルの抽出ではなく、3Dモデルのストリームの抽出に依拠するアプローチを提案している。
さらに、本発明は、特にその冗長性を増大させるために、GOPの各々と関連した異なる3Dモデル間の対応性を設定することによってFranck Galpinの技術の発明的改良を提案している。従って、本発明は好都合なことに、双方向ナビゲーションタイプの適用を可能にする。
連続3Dモデル間のこの種類の対応性は、ピクチャの特異性に特に十分適したピクチャの不規則メッシュの使用によって可能になる。従って、3Dモデルの不規則メッシュは前の3D頂点の不規則メッシュの少なくとも1つの特異な頂点(あるいは、より具体的にはピクチャの特定のポイントまたはライン)を考慮する。
従って、同等の視覚的品質に対して、本発明は、異なる3Dモデル間の冗長性ゆえに、ピクチャシーケンスの送信のビットレートを削減する。また同一ビットレートについて、連続3Dモデル間のピクチャの特異性を追跡することによって、ピクチャシーケンスの表現のより良好な視覚的品質を得ることを可能にする。
本発明の有利な特徴によると、少なくとも2つの連続3Dモデルはまた、これと関連して、該少なくとも2つの3Dモデルに共通の該頂点から構築された基本モデルを有する。
ピクチャシーケンスの本質に応じて、シーケンスと関連した3Dモデルの全てが、これらに対応する同一の基本メッシュを有することが可能である。この基本メッシュ、つまり異なる3Dモデルが改良を構成する粗いメッシュは、これと関連した全3Dモデルに共通の幾何学的構成に対応する。
好ましくは、該3Dモデルの1つから別のモデルへの移動は、第1のセットのウェーブレット係数を使用するウェーブレット変換によって実行される。
好都合なことに、該3次元モデルの1つは、第2のセットのウェーブレット係数を使用するウェーブレット変換によって該関連基本モデルから得られる。
従って、本発明は、ネットワークの特徴やディスプレイ端末の関数として適合可能なピクチャシーケンスのスケーリング可能な送信を可能にする。シーケンスの再構築に対して送信される要素は、カメラのパラメータに加えて、第1に基本メッシュであり、第2に、異なる3Dモデルを再構築するために使用された異なるウェーブレット係数である。不特定多数のウェーブレット係数の送信は、送信ネットワークのビットレートやディスプレイ端末の容量に適合された不特定な高い再構築品質を付与する。
好ましくは、レベルnの該不規則メッシュは、レベルnの該GOPのピクチャのうちの1つの2次元不規則メッシュである。
好都合なことに、該メッシュ化ピクチャは、レベルnの該GOPの第1のピクチャである。
好ましくは、該3次元モデルの各々は、これを表現する該不規則メッシュの仰角によって得られる。
従って、深度情報は、仰角によってメッシュ化深度マップを得るために2Dメッシュと組み合わされる。
本発明の第1の有利な変形例によると、該不規則2次元メッシュは、該ピクチャの規則的三角形メッシュの連続簡略化によって得られる。
例えば、動作はサイド1によって三角形から開始し、ピクチャの全ポイントをカバーする。
本発明の第2の有利な変形例によると、該不規則2次元メッシュは、該ピクチャの所定の対象ポイントのDelaunayメッシュから得られる。
これらの対象ポイントは、例えばHarrisおよびStephenアルゴリズムによって事前に検出される。
好ましくは、2つの連続GOPは少なくとも1つの共通なピクチャを有する。
従って、GOPの最後のピクチャは次のGOPの最初のピクチャでもある。
本発明の有利な特徴によると、該レベルn−1およびnに共通の該頂点は、レベルn−1の該GOPの最初のピクチャと、レベルnの該GOPの最初のピクチャとの間の動きの推定によって検出される。
好都合なことに、この種の方法は、該検出された共通の頂点を記憶するためのステップを含む。
そして、これらの記憶された共通の頂点は、次のGOPと関連したモデルの構築について使用されてもよい。
好ましくは、レベルnのGOPと関連した該モデルを表現する該不規則メッシュは、レベルn+1のGOPと関連したモデルを表現する少なくとも1つの不規則メッシュの少なくとも1つの頂点を考慮する。
このように双方向に作用することによって、再構築時に視覚的品質はさらに上がる。
好都合なことに、該第2のセットのウェーブレット係数は、該関連3次元モデルの半規則的再メッシュ化について少なくとも1つの解析フィルタを適用することによって生成される。
半規則的メッシュは、6個の隣接する頂点を有していない頂点がメッシュ上で分離されるための(つまり、相互に隣接するメッシュではない)メッシュである点が想起されるであろう。
好ましくは、該ウェーブレットは第二世代ウェーブレットである。
好ましくは、該ウェーブレットは、区分的アフィンウェーブレットと、多項式ウェーブレットと、バタフライ再分割スキームに基づいたウェーブレットとを備えるグループに属する。
本発明はまた、GOPと称される少なくとも2つの連続ピクチャのセットにグループ化されたピクチャシーケンスを表現する信号であって、テクスチャ化メッシュ化3Dモデルは該GOPの各々に関連している信号に関する。
本発明によると、このような信号は、少なくとも2つの不規則メッシュに共通の頂点から構築された基本モデルを含む少なくとも1つのフィールドであって、各々が3次元モデルを表現しており、該少なくとも2つの3次元モデルは少なくとも2つの連続GOPと関連している、少なくとも1つのフィールドと、該基本モデルからのウェーブレット変換によって、該GOPのうちの1つと関連した少なくとも1つの3次元モデルの構築に使用された1セットのウェーブレット係数を含む少なくとも1つのフィールドと、該3次元モデルのうちの1つと関連した少なくとも1つのテクスチャを含む少なくとも1つのフィールドと、少なくとも1つのカメラ位置パラメータを含む少なくとも1つのフィールドとを備えている。
本発明はまた、上記表現方法を実現するピクチャシーケンスを表現するための装置に関する。
本発明はまた、GOPと称される少なくとも2つの連続ピクチャのセットにグループ化されたピクチャシーケンスを表現するための装置であって、テクスチャ化メッシュ化3Dモデルは該GOPの各々と関連している装置に関する。
本発明によると、このような装置は、2つの連続3次元モデルを表現する少なくとも2つの不規則メッシュに共通な頂点から作成された少なくとも1つの基本モデルのウェーブレット変換によって該3次元モデルを構築するための手段と、該3次元モデルから、テクスチャの少なくとも1つのピクチャから、かつ少なくとも1つのカメラ位置パラメータからシーケンスの該ピクチャを表現するための手段とを備えている。
本発明はまた、GOPと称される少なくとも2つの連続ピクチャのセットに組み立てられたピクチャシーケンスを符号化するための装置であって、テクスチャ化メッシュ化3Dモデルは該GOPの各々と関連している装置に関する。
本発明によると、この種の符号化装置は、レベルnのGOPと関連した3次元モデルを符号化するための手段を備えており、該3次元モデルは、レベルn−1のGOPと関連した3次元モデルを表現する少なくとも1つの不規則メッシュの少なくとも1つの頂点を考慮する不規則メッシュによって表現される。
本発明の他の特徴および利点は、例証や非制限的例および添付の図面によって付与される好ましい実施形態に関する以下の説明からより明確になる。
本発明の一般原理は、シーケンスのピクチャのコンテンツに適した、かつ前の3Dモデルの不規則メッシュの頂点の対応性を考慮する、不規則メッシュが関連した3Dモデルのストリームの抽出に基づいている。
図4を参照すると、3次元モデルによるビデオシーケンスの再構築の一般原理を簡単に想起することができる。
現実のシーン、この場合はカメラ43によってフィルム化された(42)オブジェクト41(ここではティーポット)を考える。大規模消費者製品であってもよいこのカメラの本質についても、ビデオシーケンスの取得パラメータについても想定されない。
ビデオシーケンスのディジタル化44の後、オリジナルシーケンスと称されるべきピクチャシーケンス45が得られる。
このオリジナルシーケンスの解析46によって、少なくとも1つの3Dモデル47が構築され(本発明に従った複数の3Dモデル)、これによって、ピクチャシーケンス49を、ディスプレイ端末で表示するために再構築する(48)ことが可能になる。
次に図5を参照して、第1にテクスチャ化メッシュ化3Dモデルのストリームに、第2のウェーブレット変換の実現に基づく本発明の一般原理を示す。
各3Dモデルはオリジナルのピクチャシーケンスの一部、すなわちGOP(つまりグループ・オブ・ピクチャ)に対応する。考慮された3Dモデルは制限的に不規則にメッシュ化された不規則メッシュ化仰角マップであり、これによって前のモデルの頂点の対応性は考慮される。この制限は、連続モデルの頂点間の正確な対応性を保証する。
モデル間を移動するために使用された変換はウェーブレットに分解され、従って、ウェーブレットの本質的なスケーリング性によって、変換の正確さがビットレートに適合される。
さらに本発明は、図4に示されるように、1つ以上の連続GOPと関連した基本モデルの再構築に依存している。
オリジナルのピクチャシーケンスは連続ピクチャIkによって構成される。図4はピクチャI0、I3、I5、I10、I20、I30、I40、I50およびI60をより具体的に示している。このシーケンスは不特定な長さであってもよく、制限的な前提は本発明に必要ない。
ピクチャシーケンスIkは、GOPと称される連続ピクチャグループに分割される。従って、第1のGOP50はI0〜I5と称されたピクチャを含み、第2のGOP51はピクチャI5〜I20を含み、(k+1)番目のGOP52は特にピクチャI30〜I40を含み、(k+2)番目のGOP53はピクチャI40〜I60を含む。図4の好ましい実施形態において、GOPの最後のピクチャは次のGOPの最初のピクチャでもあることに注目する。従って、ピクチャI5は、例えば第1のGOP50および第2のGOP51に属する。
これらのGOP50〜53の各々について、3DモデルMkが構築される。3DモデルM0はGOP50と関連しており、3DモデルM1はGOP51と関連している。
その3DモデルMkが改良を構成する、MBkと称される1セットの基本モデルもまた構築される。従って、図4において、基本モデルMB0は3DモデルM0〜Mkと関連しており、基本モデルMB1は3DモデルMk、Mk+1およびこれらに続く3Dモデルと関連している。
1セットの所定の特定ポイントがある全GOPの3Dモデルに、このような粗いモデルMBkを関連付けるように選択される。これらのポイントのいくつかが次の3Dモデルにもはや現れない場合には、新たな基本モデルMBk+1に移動するように選択される。
従って、別個に得られているが全て同一の基本メッシュ、つまり関連した共通の粗いモデルのそれに基づいている、異なる3DモデルMkをウェーブレットに分解することが可能である。
オリジナルシーケンスのピクチャの本質、および多数のこれらのピクチャ間の共通のゾーンの存在に応じて、基本メッシュMBkは不特定多数のGOPに対して、場合によってはピクチャシーケンス全体に対して有効である。
従って、これらの基本モデルMBkを介して、第1にこれに対応する基本メッシュによって、第2に1セットのウェーブレット係数によって各推定済み3DモデルMkを表すことができる。
この表現は図6の図面に要約されており、ここで係数
Figure 2006527945
は3DモデルMkから次への移動の変換に関するウェーブレット係数を表しており、係数
Figure 2006527945
は、基本モデルMBkと関連3DモデルMk間の改良に関するウェーブレット係数を表している。
従って、ウェーブレット係数
Figure 2006527945
は、モデルMkから3DモデルMk+1に移動するために使用される。そのうちのウェーブレット係数
Figure 2006527945
は、3DモデルMkから関連基本モデル(この場合はモデルMB1)への移動を示している。
従って、第1のセットのウェーブレット係数
Figure 2006527945
は異なるモデルMk間のリンクを画定し、これによって、対応性間の線形補間によって、またはウェーブレットによって絶対的に、モデル間の移動および中間モデルの生成を可能にする。
第2のセットのウェーブレット
Figure 2006527945
は異なるモデルの(ビットレートに関して)漸次的かつ効果的な送信を提供する。従って、本発明の技術は、その処理能力に関係なく全タイプの端末に、またそのビットレートに関係なく全タイプの送信ネットワークに適合可能である。
以下図7を参照して、オリジナルのピクチャシーケンスを表現するためのモデルおよび関連テクスチャの符号化時に本発明に従って実現された異なるステップを示す。
アルゴリズムの入力において、図4を参照してここに示されたように、現実世界のシーンまたはオブジェクトから撮られた異なるショットに対応する1セットの自然ピクチャIn〜Imがある。本発明の好ましい実施形態において、ピクチャはppmフォーマットおよびpgmフォーマットである。本発明は当然、他のピクチャフォーマットにも適用可能である。
まず、ピクチャInおよびIn+p間の動きフィールドCnn+pならびに3D情報の推定に対する全サポートポイント、つまりHarrisおよびStephen検出器による最高スコアを有し、かつ規則的に破棄されるピクチャInおよびIn+p間の動き推定に使用されたメッシュの頂点のセットεnn+pを判断するために、動き推定71がオリジナルシーケンスの異なるピクチャ間で実行される。
次いで、シーケンスの異なるGOPを区別するオリジナルシーケンスのキーピクチャKkの選択が実行される(72)。
オリジナルシーケンスがビデオシーケンスである場合、GOPを判断するキーピクチャKkの選択72が、Franck Galpin and al.によって、「Sliding Adjustment for 3D Video Representation」EURASIP Journal on Applied Signal Processig 2002:10に展開されたアルゴリズムに従って実行される(特に段落5.1.Selection Criteriaを参照のこと)。従って、開始および終了GOPのこの選択72は3つの基準の妥当性に左右される。
3D情報の再構築に十分な平均的な動きと、GOPの2つの最遠ピクチャ間の共通ポイントの比較的高いパーセンテージと、(エピポーラ残余によって評価された)推定幾何学の妥当性とである。
第1の選択されたキーピクチャはオリジナルシーケンスの第1のピクチャI0である。
3DモデルMkの抽出、つまり基本マトリックスの推定と投影マトリックスおよびカメラ位置の推定73はまた、Franck Galpinによって「Representation 3D de sequences video:Schema d’extraction automatique d’un flux de modeles 3D,applications a la compression and a la realite virtuelle」(3D representation of video sequences:scheme for the automatic extraction of a stream of 3D models,application compression and to virtual reality)、University of Rennes 1,2000および「Sliding Adjustment for 3D Video Representation」EURASIP Journal on Applied Signal Processing 2002:10に展開された技術を利用する。技術はまた、3Dモデリングのクラシックアルゴリズムに依存する。
ビデオシーケンスではなくて1セットのピクチャの場合、原理は3D情報の抽出と同じである。しかしながら、この推定の基本は、次のピクチャの対応性がブロックマッチングによって検索される、(「A Combined Corner and Edge Detector」,Proc.4th Alvey Vision Conf.,1998に説明された)HarrisおよびStephen検出器に対して高スコアを有する現在のピクチャの1セットの特定ポイントである。さらに、送信されるモデル数は、オリジナルシーケンスの再構築について考慮されるピクチャの選択72を実現することによって制限される。この選択72は、ビデオシーケンスの場合は、キーピクチャの選択と同じ基準に基づいている。
従って、GOP kのキーピクチャKkの選択72の後、GOP kと関連した動きフィールドCkは、GOP kの開始および終了ピクチャ間の動きフィールドであると判断される。
較正75もまた、ピクチャシーケンスの取得に使用されたカメラの内在的および外在的パラメータの全て、特にピクチャIkと関連したカメラの位置Pkを判断するために実行される。
第1にこの位置Pkによって、第2に既知のGOP kと関連した動きフィールドCkによって、推定(74)は、GOP kと関連した深度マップZkからなる。
GOP kと関連したオリジナルシーケンスのキーピクチャKkの全てもまた記憶される(76)。
図7で71〜76と称されたブロックのより具体的な動作モードについて上記参照された、Franck Galpinによる2つの公報を参照してもよい。
再構築を目的として、2次元不規則メッシュ77が強制的に深度マップZkから作成され、ここでは、ピクチャKkに含まれる前のGOPと関連したモデルの頂点の対応性が考慮される。
この2Dメッシュは2通りの方法で算出されてもよい。サイド1による三角形の規則的メッシュからの連続簡略化によるもの(つまりピクチャの全ポイント)と、事前に検出された対象ポイントのDelaunayメッシュによるものとである。
メッシュがレベルnで判断された場合、推定(78)は、(これもまた本発明の好ましい実施形態において、GOPn+1の第1のピクチャである)GOP nの最後のピクチャのこれらのポイントの対応性の動きフィールドCnによって実行される。対応する頂点のこのリストもまた記憶され(78)、GOP n+1と関連したモデルのメッシュ化77時に使用される。
簡略化によって得られた2Dメッシュの場合、制約が課され、これによってこのリスト78のポイントは最終メッシュに存在する。
Delaunayメッシュの場合、Delaunay三角測量によって得られたGOP n+1と関連したメッシュの頂点は、HarrisおよびStephenアルゴリズム、(「A Combined Corner and Edge Detector」,Proc.4th Alvey Vision Conf.,1988)、またはGOP n+1のキーピクチャKn+1上の対象ポイントの他の適切な検出器によって検出された特定ポイントと、GOP nと関連したメッシュの頂点の対応性とである。
レベルnで算出された対応性C(En)のリストは、GOP n+1のキーピクチャにおいてHarrisによって検出された頂点間にはないGOP nのモデルの頂点を考慮するために使用可能である。
これは、1つのモデルの頂点の対応性が次のモデルに存在することを保証し、これによってこれら2つのモデル間のリンク79を極めて容易にする。事実、モデル間の対応性79は、動きフィールドによって正確に得られる。
本発明の一代替実施形態において、より正確な変換79を得るために、この研究は強制的に現在のモデルのメッシュを置くことによって双方向になされ、これによって、考慮されるのは前のモデルの頂点だけではなく、次のモデルの頂点でもある。
GOPを表現する3Dモデルの幾何学に対応する3DメッシュMkは、80と称されるブロックで示されるような推定2Dメッシュの仰角によって得られる。
2つの連続モデルの頂点間の対応性78のセットアップは、ウェーブレット係数によってモデルMkからモデルMk+1に移動するために使用される変換79を表す。
波長によってこの変換を表すことの有用性は、変換の正確さが、ウェーブレットの自然なスケーリング可能性によってビットレートに適合可能であるという点にある。
分解に使用されたウェーブレットは第二世代ウェーブレットである、つまりこれらはベクター空間構成を全く有していないセットで画定可能である。この場合、図6の表記によって、ウェーブレットは基本モデルMB0、MB1などに画定される。
基本メッシュMBiと、MBiおよび3DモデルMi間の幾何学的対応性の使用可能性
によって、ウェーブレット係数は、Miの半規則的再メッシュ化に解析フィルタを適用することによって生成される。ウェーブレット係数dは以下の線形システムの解像度である。
Td=c
ここでTは全合成のマトリックスであり、cはMiの半規則的再メッシュ化での頂点の位置のセットである。
Tは使用されたウェーブレットのタイプに左右される。3つのスキームが本発明において優先される。区分的アフィンウェーブレットと、多項式ウェーブレット(特にループウェーブレット)と、バタフライ再分割スキームに基づいたウェーブレット(J.Warren and al.,「Multiresolution Analysis for Surfaces of Arbitrary Topological Type」,ACM Transactions on Graphics,vol.16,pp.34−73、1997)である。
従って、マトリックスTは、
T=(PQ)
というフォームを有する。
ここでPは再分割スキームのみを表現するサブマトリックスであり(アフィン、ループ、バタフライ、・・・)、サブマトリックスQはウェーブレット係数の幾何学的解釈である。
本発明の好ましい実施形態において、Qは、ウェーブレット係数がゼロモーメントを有するように選択される。一般的に、Tは可逆的なので、PおよびQは任意であってもよい。
図7は、GOPkについて説明されたアプローチを要約している。以下の表記が本図面で使用される。In〜Imは入力ピクチャであることと、Cnn+pはピクチャInおよびIn+p間の動きフィールドであることと、CkはGOP kと関連した動きフィールドであることと、C(V)は動きフィールドによって見つけられたセットVのポイントの対応性のセットであることと、εmは3D情報の推定のサポートポイントのセットであることと(HarrisおよびStephen検出器による最高スコアを有しかつ規則的に破棄される、動き推定に使用されたメッシュの頂点)、EkはGOP kと関連した3Dモデルの頂点のセットであることと、ZkはGOP kと関連した深度マップであることと、KkはGOP kと関連したキーピクチャに対応するオリジナルシーケンスのピクチャであることと、MkはGOPkと関連した3Dモデルであることと、PmはピクチャImと関連したカメラ位置であることと、θkはMkおよびMk+1間の移動の変換を画定するウェーブレット係数のセットであることと、VkはモデルMkに対応するメッシュの頂点のセットであることである。
符号器81は、オリジナルシーケンスの異なるピクチャIkに対するカメラの位置Pk、テクスチャ化3Dモデルの推定Mk、およびモデルMk-1からモデルMkへの変換を可能にするウェーブレット係数の入力を受け取る。
図7に示されたGOP kの各々の3DモデルMkの推定と同時に、複数の連続GOPに有効な基本モデルMBiが構築される。
このために、算出された動きフィールドCkによって、GOPkの第1のピクチャで検出された特定ポイントのセットがシーケンスの複数のピクチャに沿ってある。より正確には、複数の連続GOPに沿ったこれらのポイントの対応性の存在は、解析されたピクチャに含まれる対応性の数が所定の閾値未満になるまで検出される。この閾値は、再構築の可能性(つまり、基本マトリックスの推定)を保証するように選択されなければならない。例えばこれは7以下である。GOPで検出された特定ポイント数が閾値未満である場合、このことから、このGOPは前のGOPと同じ基本モデルMBiと関連していないことが推論される。
GOPからGOPへと追跡された特定ポイントのこのサブセットから、その頂点が全て、これらのポイントが追跡されたGOPと関連したモデルMkに存在する基本モデルMBiを再構築する。
そして、これらの基本モデルつまり粗いモデルMBiは個々にウェーブレットに分解される。これは、同じ基本メッシュに依存する際に、P.Gioiaによって、「Reducing the number of wavelet coefficients by geometric partitioning」,Computational geometry,Theory and applications,vol.14,1999に説明されている方法を実現することによって達成される。各3DモデルMkは粗い基本モデルMBiの改良であると考えられる。
従って、図6の係数
Figure 2006527945
は以下のように得られる。同じGOPからの基本メッシュは同一であり、再分割後これらは同一の半規則的メッシュを生成する。結果的に、係数
Figure 2006527945
は、kが同一GOPにおいて変化する場合に同一の幾何学的頂点によってインデックス化される。従って、中間kごとに、係数
Figure 2006527945
および
Figure 2006527945
間の差をこれらの頂点の各々に対応させる関数fkを画定することができる。次いで、この関数fkは前述のように、係数
Figure 2006527945
であるウェーブレット係数に分解される。
従って、本発明は、一方では基本メッシュが、他方では異なるモデルと関連したウェーブレット係数が送信されるために、低コストで、オリジナルシーケンスと関連したモデルの幾何学の送信を可能にする。
本発明の文脈において想定可能な用途は多数である。本発明はまた、特に(1セットの独立ピクチャかビデオシーケンスであってもよい)同一の固定シーンを表現するピクチャの符号化に適用可能である。このタイプの表現によって達成された圧縮レートは(通常20kbits/sの範囲で)低いかつ極めて低いビットレートにふさわしく、それゆえにポータブル用途を想定することが可能である。
さらに、(復号化の際の)再投影によって得られた仮想シーケンスは、照明の変化、シーケンスの安定化、フリーナビゲーションおよびオブジェクトの追加などの、3Dによって可能にされた全ての機能を有する。
すでに従来技術を参照して言及されている通り、3Dモデルのストリームによるビデオシーケンスの再構築の原理を示す。 (a)すでに従来技術を参照して言及されている通り、一方でH26Lタイプの技術に従って、他方で図1の符号化技術に従って得られた視覚的結果の比較を示す。(b)すでに従来技術を参照して言及されている通り、一方でH26Lタイプの技術に従って、他方で図1の符号化技術に従って得られた視覚的結果の比較を示す。(c)すでに従来技術を参照して言及されている通り、一方でH26Lタイプの技術に従って、他方で図1の符号化技術に従って得られた視覚的結果の比較を示す。(d)すでに従来技術を参照して言及されている通り、一方でH26Lタイプの技術に従って、他方で図1の符号化技術に従って得られた視覚的結果の比較を示す。(e)すでに従来技術を参照して言及されている通り、一方でH26Lタイプの技術に従って、他方で図1の符号化技術に従って得られた視覚的結果の比較を示す。 (a)すでに従来技術を参照して言及されている通り、16kb/sの低ビットレートについて、図1の技術に従って得られた結果を示す。(b)すでに従来技術を参照して言及されている通り、16kb/sの低ビットレートについて、図1の技術に従って得られた結果を示す。(c)すでに従来技術を参照して言及されている通り、16kb/sの低ビットレートについて、図1の技術に従って得られた結果を示す。 3Dモデルからのビデオシーケンスの再構築の一般原理を示す。 各々が1つ以上の3Dモデルに共通の基本モデルと関連した3Dモデルのストリームの抽出に応じた、本発明の一般原理を示す。 図4の3Dモデルの符号化に使用された異なるウェーブレット係数を示す。 シーケンスのピクチャを符号化するために、本発明に従って実現された異なるステップのブロック図である。

Claims (20)

  1. GOPと称される、少なくとも2つの連続ピクチャのセットにグループ化されたピクチャのシーケンスを表現する方法であって、テクスチャ化メッシュ化3次元モデルが前記GOPの各々と関連している、ここで、頂点は共通の頂点と称され、レベルnのGOPと関連した3次元モデルが、レベルn−1のGOPと関連した3次元モデルを表現する少なくとも1つの不規則メッシュの少なくとも1つの前記頂点を考慮する不規則メッシュによって表現される、方法。
  2. 少なくとも2つの連続3次元モデルはまた、これと関連した、前記少なくとも2つの3次元モデルに共通の前記頂点から構築された基本モデルを有する請求項1に記載の表現方法。
  3. 前記3次元モデルのうちの1つから別の1つへの移動が、第1のセットのウェーブレット係数を使用するウェーブレット変換によって実行される請求項1および2のいずれかに記載の表現方法。
  4. 前記3次元モデルの1つが、第2のセットのウェーブレット係数を使用するウェーブレット変換によって前記関連基本モデルから得られる請求項1〜3のいずれかに記載の表現方法。
  5. レベルnの前記不規則メッシュは、レベルnの前記GOPのピクチャのうちの1つの2次元不規則メッシュである請求項1〜4のいずれかに記載の表現方法。
  6. 前記メッシュ化ピクチャがレベルnの前記GOPの第1のピクチャである請求項5に記載の表現方法。
  7. 前記3次元モデルの各々がこれを表現する前記不規則メッシュの仰角によって得られる請求項1〜6のいずれかに記載の表現方法。
  8. 前記不規則2次元メッシュが前記ピクチャの規則的三角形メッシュの連続簡略化によって得られる請求項5〜7のいずれかに記載の表現方法。
  9. 前記不規則2次元メッシュが前記ピクチャの所定の対象ポイントのDelaunayメッシュから得られる請求項5〜7のいずれかに記載の表現方法。
  10. 2つの連続GOPは少なくとも1つの共通ピクチャを有する請求項1〜9のいずれかに記載の表現方法。
  11. 前記レベルn−1およびnに共通の前記頂点が、レベルn−1の前記GOPの第1のピクチャと、レベルnの前記GOPの第1のピクチャとの間の動きの推定によって検出される請求項1〜10のいずれかに記載の表現方法。
  12. 前記検出された共通の頂点を記憶するためのステップを含む請求項11に記載の表現方法。
  13. レベルnのGOPと関連した前記モデルを表現する前記不規則メッシュはまた、レベルn+1のGOPと関連したモデルを表現する少なくとも1つの不規則メッシュの少なくとも1つの頂点を考慮する請求項1〜12のいずれかに記載の表現方法。
  14. 前記第2のセットのウェーブレット係数が、前記関連3次元モデルの半規則的再メッシュ化に少なくとも1つの解析フィルタを適用することによって生成される請求項4〜13のいずれかに記載の表現方法。
  15. 前記ウェーブレットが第二世代ウェーブレットである請求項3〜14のいずれかに記載の表現方法。
  16. 前記ウェーブレットが、区分的アフィンウェーブレットと、多項式ウェーブレットと,バタフライ再分割スキームに基づいたウェーブレットとを備えるグループに属する請求項3〜15のいずれかに記載の表現方法。
  17. GOPと称される、少なくとも2つの連続ピクチャのセットにグループ化されたピクチャのシーケンスを表現する信号であって、テクスチャ化メッシュ化3次元モデルが前記GOPの各々と関連している、ここで、前記信号が、
    少なくとも2つの不規則メッシュに共通の頂点から構築された基本モデルを含む少なくとも1つのフィールドであって、各々は3次元モデルを表現しており、前記少なくとも2つの3次元モデルは少なくとも2つの連続GOPと関連している、少なくとも1つのフィールドと、
    前記基本モデルからのウェーブレット変換によって、前記GOPのうちの1つと関連した少なくとも1つの3次元モデルの構築に使用された1セットのウェーブレット係数を含む少なくとも1つのフィールドと、
    前記3次元モデルのうちの1つと関連した少なくとも1つのテクスチャを含む少なくとも1つのフィールドと、
    少なくとも1つのカメラ位置パラメータを含む少なくとも1つのフィールドと
    を備える、信号。
  18. 請求項1〜16のいずれかの表現方法を実現する、ピクチャシーケンスを表現するための装置。
  19. GOPと称される、少なくとも2つの連続ピクチャのセットにグループ化されたピクチャのシーケンスを表現するための装置であって、テクスチャ化メッシュ化3次元モデルが前記GOPの各々と関連している、ここで、前記装置が、
    2つの連続3次元モデルを表現する少なくとも2つの不規則メッシュに共通な頂点から作成された少なくとも1つの基本モデルのウェーブレット変換によって前記3次元モデルを構築するための手段と、
    前記3次元モデルから、テクスチャの少なくとも1つのピクチャおよび少なくとも1つのカメラ位置パラメータから、シーケンスの前記ピクチャを表現するための手段と
    を備える、装置。
  20. GOPと称される、少なくとも2つの連続ピクチャのセットにグループ化されたピクチャのシーケンスを符号化する装置であって、テクスチャ化メッシュ化3次元モデルが前記GOPの各々と関連している、ここで、前記装置が、
    レベルnのGOPと関連した3次元モデルを符号化するための手段を備え、前記3次元モデルが、レベルn−1のGOPと関連した3次元モデルを表現する少なくとも1つの不規則メッシュの少なくとも1つの頂点を考慮する不規則メッシュによって表現される、装置。
JP2006516305A 2003-06-18 2004-06-18 3dモデルを使用するピクチャシーケンスの表現方法、対応する信号、および対応する装置 Withdrawn JP2006527945A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0307375A FR2856548A1 (fr) 2003-06-18 2003-06-18 Procede de representation d'une sequence d'images par modeles 3d, signal et dispositifs correspondants
PCT/FR2004/001542 WO2004114669A2 (fr) 2003-06-18 2004-06-18 Procede de representation d’une sequence d’images par modeles 3d, signal et dispositifs correspondants

Publications (2)

Publication Number Publication Date
JP2006527945A true JP2006527945A (ja) 2006-12-07
JP2006527945A5 JP2006527945A5 (ja) 2007-08-09

Family

ID=33484549

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006516305A Withdrawn JP2006527945A (ja) 2003-06-18 2004-06-18 3dモデルを使用するピクチャシーケンスの表現方法、対応する信号、および対応する装置

Country Status (8)

Country Link
EP (1) EP1654882A2 (ja)
JP (1) JP2006527945A (ja)
KR (1) KR20060015755A (ja)
CN (1) CN1806443A (ja)
BR (1) BRPI0411506A (ja)
CA (1) CA2528709A1 (ja)
FR (1) FR2856548A1 (ja)
WO (1) WO2004114669A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010518667A (ja) * 2007-02-01 2010-05-27 フランス・テレコム 多次元テクスチャを表すデータを符号化するための方法、符号化デバイス、ならびに対応する復号方法およびデバイス、信号およびソフトウェア
JP2019530386A (ja) * 2016-09-21 2019-10-17 カカドゥ アール アンド ディー ピーティーワイ リミテッド ビデオ及びマルチビュー・イマジェリーの圧縮及びアップサンプリングのためのベース固定モデル及び推論
JP2020526076A (ja) * 2017-06-29 2020-08-27 株式会社ソニー・インタラクティブエンタテインメント ビデオ生成方法および装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE554601T1 (de) * 2007-04-18 2012-05-15 Univ Hannover Skalierbare komprimierung zeitkonsistenter 3d- netzwerksequenzen
CN104243958B (zh) * 2014-09-29 2016-10-05 联想(北京)有限公司 三维网格数据的编码、解码方法以及编码、解码装置
WO2021100681A1 (ja) * 2019-11-20 2021-05-27 パナソニックIpマネジメント株式会社 三次元モデル生成方法及び三次元モデル生成装置
CN111862305A (zh) 2020-06-30 2020-10-30 北京百度网讯科技有限公司 处理图像的方法、装置和计算机存储介质
JP2024008743A (ja) * 2022-07-09 2024-01-19 Kddi株式会社 メッシュ復号装置、メッシュ符号化装置、メッシュ復号方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010518667A (ja) * 2007-02-01 2010-05-27 フランス・テレコム 多次元テクスチャを表すデータを符号化するための方法、符号化デバイス、ならびに対応する復号方法およびデバイス、信号およびソフトウェア
JP2019530386A (ja) * 2016-09-21 2019-10-17 カカドゥ アール アンド ディー ピーティーワイ リミテッド ビデオ及びマルチビュー・イマジェリーの圧縮及びアップサンプリングのためのベース固定モデル及び推論
JP7279939B2 (ja) 2016-09-21 2023-05-23 カカドゥ アール アンド ディー ピーティーワイ リミテッド ビデオ及びマルチビュー・イマジェリーの圧縮及びアップサンプリングのためのベース固定モデル及び推論
JP2020526076A (ja) * 2017-06-29 2020-08-27 株式会社ソニー・インタラクティブエンタテインメント ビデオ生成方法および装置
JP7128217B2 (ja) 2017-06-29 2022-08-30 株式会社ソニー・インタラクティブエンタテインメント ビデオ生成方法および装置

Also Published As

Publication number Publication date
FR2856548A1 (fr) 2004-12-24
WO2004114669A2 (fr) 2004-12-29
EP1654882A2 (fr) 2006-05-10
BRPI0411506A (pt) 2006-07-25
WO2004114669A3 (fr) 2005-03-10
KR20060015755A (ko) 2006-02-20
CN1806443A (zh) 2006-07-19
CA2528709A1 (en) 2004-12-29

Similar Documents

Publication Publication Date Title
Schwarz et al. Emerging MPEG standards for point cloud compression
Magnor et al. Multi-view coding for image-based rendering using 3-D scene geometry
Zhang et al. A survey on image-based rendering—representation, sampling and compression
KR101195942B1 (ko) 카메라 보정 방법 및 이를 이용한 3차원 물체 재구성 방법
Tang et al. Deep implicit volume compression
US6351572B1 (en) Method of reconstruction of tridimensional scenes and corresponding reconstruction device and decoding system
US7324594B2 (en) Method for encoding and decoding free viewpoint videos
US9165401B1 (en) Multi-perspective stereoscopy from light fields
Pavez et al. Dynamic polygon clouds: representation and compression for VR/AR
Zhang et al. Light field sampling
Würmlin et al. 3D Video Recorder: a System for Recording and Playing Free‐Viewpoint Video
KR101817140B1 (ko) 평면 모델링을 통한 깊이 영상의 부호화 방법 및 부호화 장치
Pavez et al. Dynamic polygon cloud compression
Chou et al. Dynamic polygon clouds: Representation and compression for VR/AR
Hornung et al. Interactive pixel‐accurate free viewpoint rendering from images with silhouette aware sampling
JP2006527945A (ja) 3dモデルを使用するピクチャシーケンスの表現方法、対応する信号、および対応する装置
Malassiotis et al. Object-based coding of stereo image sequences using three-dimensional models
Evers‐Senne et al. Image based interactive rendering with view dependent geometry
Park et al. A mesh-based disparity representation method for view interpolation and stereo image compression
Waschbüsch et al. 3d video billboard clouds
US20070064099A1 (en) Method of representing a sequence of pictures using 3d models, and corresponding devices and signals
Chai et al. A depth map representation for real-time transmission and view-based rendering of a dynamic 3D scene
Sandberg et al. Model-based video coding using colour and depth cameras
Magnor et al. Multiview image coding with depth maps and 3D geometry for prediction
Würmlin et al. Image-space free-viewpoint video

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070614

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070614

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080728

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080728