JP2012094144A

JP2012094144A - ビデオの３−ｄ情報および他の情報用の一元管理データベース

Info

Publication number: JP2012094144A
Application number: JP2011232857A
Authority: JP
Inventors: Steven Osman; オスマンスティーブン; Stamate Vlad; ステイメイトブラッド
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2010-10-25
Filing date: 2011-10-24
Publication date: 2012-05-17
Also published as: EP2444971A3; CN103635899A; WO2012060938A3; US20120102023A1; US9542975B2; CN103635899B; EP2444971A2; WO2012060938A2

Abstract

【課題】ビデオの３−Ｄ情報および他の情報用の一元管理データベースのための方法および装置を提供する。
【解決手段】オブジェクトおよび音声の追加、削除を含むビデオの編集のために照会および使用されうる、カメラデータ、光データ、音声データ、オブジェクトデータ、深度データ、注記データ等のビデオメタデータを、一元管理データベースが格納する。一元管理データベースに記録されているメタデータは大衆に公開されており、投稿者メタデータを受け付けることができる。
【選択図】図１

Description

（関連出願への相互参照）
本願は、２０１０年１０月２５日出願の米国特許出願第１２／９１１，６８８号（代理人整理番号９０６１９−７８６１５２（００８０００ＵＳ）、旧０２６３４０−００８０００ＵＳ））の継続出願であり、その利益を主張し、その全体を、あらゆる目的のために本願明細書に援用する。

本発明は、一般に、ビデオメタデータの記録および共有に関し、より詳細には、３−Ｄ画像の生成、適切な光および音声効果を用いたシーンに対するオブジェクトの追加または削除、注記の提供、シーンの編集に使用される、カメラデータ、光データ、音声データ、オブジェクトデータ、深度データ、注記データなどのビデオメタデータを記録する一元管理サーバに関する。このメタデータは、ビデオに関わる関係者によって、あるいはインターネットユーザなどの無関係の投稿者によって提供されうる。

ビデオ作成技術では、現在のところ、潜在的にキャプチャされたメタデータを記録したり、これを利用可能にすることができない。

また、ビデオ編集技術は手動で行われることが多く、例えば、ブルーバックの背景で撮影したオブジェクトの必要な光質を推定して、このオブジェクトを既存のビデオに挿入している。

本発明の一実施形態は、ビデオ識別子を含む、ディスプレイに表示させるビデオデータを受信するステップと、サーバに記録されており、前記ビデオデータをキャプチャしたカメラに対する光源の位置を記述するビデオ光位置メタデータを含むビデオメタデータを、前記ビデオメタデータを識別する前記ビデオ識別子を使用して、前記サーバに照会するステップと、前記サーバから前記ビデオメタデータを受信し、前記受信したビデオ光位置メタデータにより前記ビデオデータを編集して、前記ビデオ光位置メタデータと整合させて前記ビデオデータに光を再適用する編集済みビデオデータを生成するステップと、前記ディスプレイに前記編集済みビデオデータを出力するステップと、を有する方法を対象としている。

本発明の別の実施形態は、ビデオメタデータを使用してシーンを編集する方法を対象としており、前記メタデータは、光データ、音声データ、カメラデータ、オブジェクト切り出しデータ、深度マップデータ、および注記データを含む。

本発明の例示の実施形態は、前記ビデオデータからオブジェクトを削除する方法を対象としており、前記ビデオデータの残り部分の前記光位置メタデータと整合する、前記削除するオブジェクトの背景を決定するために、前記ビデオ光位置メタデータが適用される。

本発明の例示の実施形態は、前記ビデオデータにオブジェクトを追加する方法を対象としており、前記追加するオブジェクトが前記光源によって照らされているように見えるように、前記追加するオブジェクトに前記ビデオ光位置メタデータが適用される。

本発明の例示の実施形態は、方法を対象としており、前記ビデオデータの前記編集は、同じシーンに対して２台以上のカメラによってキャプチャした前記ビデオデータを結合して、三次元画像を表現するための立体画像の対を生成するために、前記カメラデータと前記位置データとを解析する。

本発明の例示の実施形態は、方法を対象としており、前記ビデオの前記編集は前記ビデオから音声を削除し、前記削除する音声が前記音声データと整合するように、前記ビデオメタデータが適用される。

本発明の例示の実施形態は、方法を対象としており、前記削除するオブジェクトを識別するためにオブジェクト切り出しデータ、深度マップデータおよび注記データが使用される。

本発明の例示の実施形態は、ディスプレイに表示させる、ビデオ識別子を含むビデオデータを受信し、ビデオメタデータを識別する前記ビデオ識別子を使用して、前記サーバに前記ビデオメタデータを照会し、前記サーバから前記ビデオメタデータを受信し、受信したビデオ光位置メタデータにより前記ビデオデータを編集して、前記ビデオ光位置メタデータと整合させて前記ビデオデータに光を再適用する編集済みビデオデータを生成するプレーヤと、前記ビデオデータをキャプチャしたカメラに対する光源の位置を記述する前記ビデオ光位置メタデータを含む前記ビデオメタデータを記録するサーバと、前記編集済みビデオを表示するためのディスプレイと、を有するシステムを対象としている。

本発明の例示の実施形態は、映画メタデータデータベースを改訂する方法に関し、前記方法は、第１の投稿者からビデオシーン用の第１のメタデータ投稿を受信するステップと、前記第１のメタデータ投稿をビデオメタデータデータベースに記録するステップと、前記第１のメタデータ投稿を受信した後に、第２の投稿者からビデオシーン用の第２のメタデータ投稿を受信するステップと、前記第２のメタデータ投稿が前記第１のメタデータ投稿よりも正確であることを決定するステップと、前記ビデオメタデータデータベースに記録されている前記第１のメタデータ投稿の少なくとも一部を、前記第２のメタデータ投稿で置換するステップと、を有する。

例示の実施形態による、ビデオメタデータ用の一元管理データベースシステムのブロック図である。例示の実施形態による、一元管理データベースに記録されているビデオメタデータのタイプおよび構造のブロック図である。例示の実施形態による、ビデオメタデータがキャプチャおよび記録される場所と時点のセッティングを示す設定の例である。３Ｄ画像を生成するために、所定時間に収集される２つの２−Ｄ画像の組合せを示す図である。例示の実施形態によるシーンの図である。例示の実施形態による、要素が追加および削除されている図５Ａのシーンの図である。例示の実施形態による、ビデオにオブジェクトを追加するプロセスフローである。例示の実施形態による、ビデオからオブジェクトを削除するプロセスフローである。例示の実施形態による、シーンを編集するプロセスフローである。本発明の実施形態と使用するために適したコンピュータシステムの例である。

本発明の性質および利点については、添付の図面を参照することにより更に深く理解することができる。添付の図面においては、同様の構成要素または特徴には、同じ参照符号が付されていることがある。

ここで図面を使用して、本発明に係る異なる実施形態を示す。図面は、実施形態の特定の例であり、実施形態を限定するものと解釈すべきではなく、例示的な形態および手順を示すものである。

コンパクトディスクに記録されている音楽アルバムはアルバム識別子を含んでおり、このアルバム識別子を使用して、一元管理音楽アルバムデータベースに照会し、アルバム名、個々の曲名、アーティスト情報などの音楽アルバムメタデータにアクセスすることができる。その後、この音楽アルバムメタデータがユーザまたは聞き手に表示されうる。同様に、ビデオも、ビデオメタデータの照会に使用できるビデオ識別子によって識別することができる。ビデオメタデータは、音楽メタデータよりもはるかに大量のデータを含み、ビデオの編集や３−Ｄ画像の生成などの異なる目的に使用することができる。このため、ビデオの３−Ｄ情報および他の情報用の一元管理データベースのための技術が求められている。ビデオメタデータは、愛好家が自分で編集するか、ビデオプレーヤが映画をリアルタイムに編集するために、愛好家やビデオプレーヤによってアクセスされうる。

ビデオメタデータ用の一元管理データベースにより、ユーザまたは視聴者が、有益なビデオ情報を提供するメタデータを照会し、これを受信して、ビデオを、元のビデオの特性と整合するように編集または表示することが可能となる。例えば、シーンに追加したオブジェクトに対して、残りのシーンの光を記述しているビデオメタデータに従って、光を再適用（リライト：relight）すること、あるいは再度光をあてることができる。一元管理データベースは、注記データと、ビデオの作製に関わる関係者あるいは無関係の投稿者から提供されるデータとを格納してもよい。

シーン内のオブジェクトに対するカメラの位置およびカメラの移動と、これらの移動とに関するビデオメタデータにより、三次元画像およびビデオの生成が可能となる。また、光および音声メタデータにより、適切な光および音声効果によるオブジェクトおよび音声の追加と削除とが可能となる。また、ビデオメタデータにより、明るさ、コントラストなどのビデオの各種属性の編集が可能となる。また、オブジェクトメタデータを使用して、シーン内のオブジェクトおよびキャラクタが識別されてもよく、これらは、編集に、あるいは注記の提供に使用されうる。３−Ｄ効果を更に拡張したり、ビデオ編集を支援するために、深度メタデータ、オブジェクト切り出しデータおよび他のビデオメタデータが使用されうる。

例示の実施形態では、所定期間におけるシーン内のオブジェクトに対するカメラの移動を記述するメタデータを使用して２つの画像が生成され、これらの画像の一方は前の時点のオブジェクトの画像であり、もう一方はわずかに後の時点の同じオブジェクトの画像である。この２つの画像は、わずかに異なっており、三次元画像の基礎となる立体画像の対を生成するために、メタデータと一緒に使用されて、カメラおよびシーン内の他のオブジェクトに対するオブジェクトの移動が決定される。別の実施形態では、光の種類、光の強度およびシーンに対する光源の位置などの光データにより、デジタル処理によって生成されるオブジェクトなどの新しいオブジェクトを、適切な光でシーンに追加することが可能となる。また、新しいオブジェクトをシーンに追加して、新しい音声を適切に作り出すための音声データを組み込むこともできる。シーンからオブジェクトまたは音声を削除したり、あるいは、シーンの光および音質を編集するために、同様の技術を使用することができる。

別の実施形態では、未知の形状のオブジェクトに光を再適用して、基準画像の組（そのオブジェクトは静止しているが、照明光源が回転している）から、当該オブジェクトのビジュアルハル（visual hull）を生成することができる。この技術では、オブジェクトの複数の基準画像（複数の静止写真など）を結合して、合成画像が生成される。各基準画像内では、光源がわずかに異なる場所に移動される。その後、この基準画像の組が併合されて、光源の位置、および異なる光条件下でのオブジェクトの反射率に関する情報を格納する合成画像ファイルが生成される。この光メタデータによって、オブジェクトがどのように光に応答するかをマップし、オブジェクトに仮想的に光を再適用することが可能となる。この合成画像は画像を表示し、光源を画像内で移動可能にし、光源の移動をアニメーション化して示す。この技術により、色、テクスチャ、マークを鮮明化することができる。例示の実施形態では、合成画像を生成するために、多項式テクスチャマップが使用される。別の実施形態では、合成画像はパラメトリック写真である。オブジェクトに光を再適用するために、双方向反射率分布関数を使用することができる。

また、オブジェクトのビジュアルハルは、シルエットからの形状復元法を使用する幾何学的近似法によって決定できる。これらの方法は、任意の視点におけるオブジェクトのシルエットが、３−Ｄ空間内の円錐に再投影するという事実を利用するものである。オブジェクトによって占有される全ての空間は、円錐内に存在している必要がある。全ての可能な視点から全ての円錐を交差させた後に、本発明者らはオブジェクトの形状の慎重な概算を取得し、これはビジュアルハルと呼ばれる。

例示の実施形態では、ビデオは、高ダイナミックレンジレンダリングによりキャプチャされる。この方式では、シーンが、高ダイナミックレンジでキャプチャされたのち、低コントラスト比で詳細を維持するために後から結合される。例えば、１つのシーンが、ダイナミックレンジの高いカメラとダイナミックレンジの低いカメラの２台のカメラで記録されうる。同じシーンのビデオが、より詳しい詳細を示すために、後で結合されうる。

例示の実施形態では、ビデオメタデータが、ビデオマッティングプロセスで使用される。フィルムベースのブルーバックマッティング技術は、広く普及しているが、厳密に制御された均一な色の背景を使用する必要がある。しかし、自然画像マッティングなどの他の技術では、オブジェクトの輪郭を定義すれば、前景のオブジェクトを通常の画像から抽出できることがわかっている。ビデオメタデータはオブジェクトの輪郭を識別することができ、追加処理を行うことでオブジェクト自体を識別することができる。別の実施形態では、オプティカルフロー技術を使用して、前景、背景および未知の領域を詳細に描写する手描きのトリマップを、時間にわたって適用することができる。これらの技術は、前景のオブジェクトの識別を補助するためにメタデータを使用しうる。

一元管理データベースは、ビデオのキャプチャに関わる関係者によって提供されるメタデータを使用して作製されうる。例えば、ビデオの撮影に関わる製作会社が、自社のカメラによってキャプチャされ、自社の文書から利用可能なメタデータを、一元管理データベースに直接提供してもよい。カメラおよび他の装置の位置が、トラッキングデバイスによってキャプチャされうる。別の実施形態では、一元管理データベースは、投稿者の入力を受け付けもよく、この場合、投稿者は、ビデオの撮影と無関係の者でもよい。ビデオの視聴者などのビデオの撮影と無関係の者が、シーン内のキャラクタやオブジェクトを識別するメタデータなどのメタデータを、データベースに提供することができる。例示の実施形態では、投稿者は、インターネットを介してメタデータを提供することができる。ビデオのメタデータは、例えば「ｗｉｋｉ」フォーマットを使用してコミュニティによって編成されうる。メタデータは、投稿者のコミュニティによって編成され、更新されうる。ビデオメタデータｗｉｋｉは、どのユーザも編集することができる。このため、個々の投稿されたものは、コミュニティがより正確であると判断した、後の投稿されたものに置き換えられうる。

この説明は、例示のみを行うものであり、本発明の範囲、利用可能性または構成を限定することを意図するものではない。逆に、以下の実施形態の説明は、当業者に、本発明の実施形態を実装するための実施可能な説明を与えるものである。本発明の趣旨ならびに範囲から逸脱することなく、要素の機能および構成をさまざまに変更することができる。

このため、各種実施形態では、適宜、さまざまな手順または構成要素を省略したり、置き換えたり、追加することができる点を強調する必要がある。例えば、代替の実施形態では、方法が記載した順序と異なる順序で実行され、さまざまなステップを追加、省略したり組み合わせてもよい点に留意すべきである。また、特定の実施形態に関して記載した特徴を、さまざまな他の実施形態に組み合わせてもよい。実施形態の異なる態様および要素を、同様に組み合わせてもよい。

また、以下のシステム、方法およびソフトウェアが個々にあるいは集合的に、より大きなシステムの構成要素でもよく、その場合、本発明の適用を変更するために、他の手順が優先されても、何らかの方法で変更されてもよいことを理解すべきである。また、以下の実施形態の前、間、後、あるいはそれと同時に、複数のステップが必要とされてもよい。

図１は、例示の実施形態による、ビデオメタデータ用の一元管理データベースシステム１００のブロック図である。データベース１０４は、３−Ｄ情報や他のビデオ情報などのビデオメタデータを含むデータ１０６を記録するための一元管理サーバである。ビデオメタデータは、カメラデータ、光データ、音声データ、オブジェクトデータおよび深度データを含んでも良い。また、ビデオメタデータは、製作または編集データ、クレジット情報および注記データを含んでもよい。例示の実施形態では、ビデオメタデータは、投稿者によって提供されたデータを含んでもよい。また、データ１０６は、複数台のカメラの位置およびビデオ、ならびに立体画像の対を記述するデータなどの三次元データを含んでもよい。

データベース１０４に記録されているデータ１０６は、サーバ１０２を介してアクセスされうる。サーバ１０２は、ウェブサーバ、ＦＴＰサーバ、サーバホスティングＡＰＩ、あるいは、ネットワーク１１２に接続され、ネットワーク１１２を介してデータを提供するサーバなどである。例示の実施形態において、ネットワーク１１２は、インターネット、イントラネット、エクストラネット、モバイルネットワークまたは電気通信網などである。プレーヤ１１０は、ディスプレイ１０８に送られて表示されうるビデオデータを処理する。
プレーヤ１１０は、デジタルビデオディスク（ＤＶＤ）プレーヤ、３−Ｄプロセッサ、ゲームコンソール、ハンドヘルドデバイス、携帯電話、またはビデオデータを処理して表示させることができる任意のデバイスなどである。プレーヤ１１０によって処理されたビデオ情報は、ディスプレイ１０８に表示される。プレーヤ１１０は、ディスプレイ１０８に接続されうる。ディスプレイ１０８は、テレビ、プラズマスクリーン、携帯電話、コンピュータスクリーン、画面付きのポータブル演算デバイス、またはビデオを表示可能な任意のデバイスなどである。
プレーヤ１１０は、ネットワーク１１２を介してサーバ１０２と通信しうる。プレーヤ１１０は、プレーヤ１１０が処理しているビデオに関連するデータ１０６について、サーバ１０２に照会し、データベース１０４にアクセスしうる。
例示の実施形態では、プレーヤ１１０は、プレーヤ１１０が再生しており、ビデオ識別子によって識別されるビデオに関連するビデオメタデータにアクセスするために、サーバ１０２にビデオ識別子を送信する。プレーヤ１１０は、データベース１０４またはサーバ１０２から取得したビデオメタデータを、ディスプレイ１０８に送信しうる。例示の実施形態では、プレーヤ１１０は、サーバ１０２から受信したビデオメタデータを処理して、ビデオを拡張または編集しうる。
例示の実施形態では、プレーヤ１１０は、データディスク１１４からビデオデータを取得しうる。データディスク１１４は、データベース１０４に記録されているデータ１０６の一部を格納しており、ビデオデータと、サーバ１０２への照会に使用されるおよびビデオ識別子とを格納していてもよい。プレーヤ１１０は、データディスク１１４に記録されているデータと、データベース１０４から取得したデータとを同時に表示することができる。また、データ１０６には、ダウンロードまたはストリーミングされるデータが含まれてもよい。

例示の実施形態では、個々の投稿者１１６が、ネットワーク１１２を介してサーバ１０２と通信して、ビデオメタデータの投稿を提供することができる。投稿者１１６は、ビデオの作成と関係のない個々の視聴者でも、ビデオの作成に直接関わっている関係者でもよい。投稿者１１６は、サーバ１０２と通信することによって（例えばウェブインタフェイスを介して投稿を提供することによって）、メタデータを追加することができる。メタデータ投稿は、後から取り出すことができるようにデータベース１０４に記録されうる。提供されたメタデータは、プレーヤ１１０あるいは他の投稿者１１６によって取得されうる。例示の実施形態では、データベース１０４に記録されているデータ１０６は、ネットワーク１１２を介して、例えばウェブサイトのインターネットユーザからアクセス可能でもよい。メタデータは、一般のインターネットユーザ、または事前に選択されているインターネットユーザの集合に公開されている、すなわち、これらのユーザからアクセス可能でもよい。
例示の実施形態では、投稿者１１６は、注記またはコメントを提供することができる。注記およびコメントは、ビデオの所定の時間の特定のシーンに関するものでも、ビデオ全体について記述するものでもよい。投稿者１１６は、シーン内のオブジェクトを識別するメタデータ、または、光、音声および他のデータを識別するメタデータなどを提供することができる。また、サーバ１０２にデータを直接入力するなど、データベース１０４にデータを投稿する他の方法も存在してもよい。例示の実施形態では、ビデオメタデータの投稿は、推定または近似であり、後からより正確なデータに置き換えられてもよい。

図２は、例示の実施形態による、一元管理データベース２００に記録されているビデオメタデータのタイプおよび構造のブロック図である。一元管理サーバによって記録されている３Ｄおよびビデオメタデータ２０１は、カメラデータ２０２、光データ２０４、音声データ２０６、オブジェクト切り出しデータ２０８、深度マップデータ２１０および注記データ２１１を含んでもよい。ビデオメタデータは、１フレームの粒度で記録されうる。ビデオメタデータは粗くてもよく、例示の実施形態では、最小粒度は１フレームである。

例示の実施形態では、カメラデータ２０２は、時間データ２１２を含んでもよい。時間データ２１２は、特定のシーン、フレームまたはビデオがキャプチャされた正確な時点または複数の時点を示すことができる。時間データ２１２は、日、月、時、分、秒および年を示すことができる。また、時間データ２１２は、タイムゾーンデータ、季節データ、ビデオの長さ、およびビデオの残り時間を含んでもよい。時間データ２１２は、映画のシーンの長さ、ビデオのチャプタを記述するなど、ビデオおよびフレームを相互に解析するために使用されてもよく、他のメタデータと一緒に使用されてもよい。

別の実施形態では、カメラデータ２０２は、レンズパラメータデータ２１４を含んでもよい。レンズパラメータデータ２１４は、カメラのレンズがビデオまたは画像をキャプチャした際のその属性を記述するものであってもよい。例えば、レンズパラメータデータ２１４は、レンズのズーム、アパーチャのサイズすなわち開口、シャッタ速度（存在する場合）、レンズが広角またはマクロかどうか、画像安定機能の状態、レンズのブランドおよびモデル、ならびに他のレンズパラメータおよび構成などを記述することができる。シーンの編集により、そのシーンが、同様のパラメータを有するレンズで撮影されたように見えるように、レンズパラメータデータ２１４が解析されうる。

例示の実施形態では、カメラデータ２０２は、仕様データ２１６を含んでもよい。仕様データ２１６は、カメラがビデオまたは画像をキャプチャした際のその属性を記述するものであってもよい。例えば、仕様データ２１６は、ホワイトバランス、ＩＳＯ、フレームレート、ガンマ、シャープネス、明るさ、コントラスト、データ圧縮形式、カメラのブランドおよびモデル、ならびに他の設定を含んでもよい。仕様データ２１６は、カメラの設定、およびセンサの品質を記述するものでもよい。シーンの編集により、そのシーンが、同様の設定を有するカメラで撮影されたように見えるように、仕様データ２１６が解析されうる。

別の実施形態では、カメラデータ２０２は、位置データ２１８を含んでもよい。位置データ２１８は、カメラがビデオデータをキャプチャした際の、カメラの位置について記述することができる。例えば、位置データ２１８は、ＧＰＳデータ、経度および緯度の座標でも、住所や場所の名称（例えば、「セントラルパーク」）などの特定の場所を記述するデータでもよい。位置データ２１８は、「崖の背後１０フィート」など、他のオブジェクトに対する位置を記述してもよい。位置データ２１８は、ピントをあわせたオブジェクトに対してなど、シーンの内外に存在するオブジェクトに対して記述されても、あるいは、シーンに対して記述されてもよい。例えば、位置データ２１８は、カメラとシーン内のオブジェクトとの両方が、特定の方向に特定の速度で動いていることを記述してもよい。

また、カメラデータ２０２は、視点データ２２０を含んでもよい。視点データ２２０は、特定の位置でのカメラの視点を記述することができる。例えば、視点データ２２０は、カメラが向いている方向および角度を記述することができる。視点データ２２０は、カメラのＸ軸、Ｙ軸およびＺ軸における角度を記述することができる。このようなデータは、カメラの高さ、カメラが向いている方向、カメラが上下のいずれを向いているかを記述してもよい。視点データ２２０は、複数の方法で記述することができ、例えば、東西南北の値、あるいは、角度または回転度によって記述することができる。

上記のカメラデータ２０２は、所定の期間キャプチャされうる。例えば、カメラの位置データ２１８と視点データ２２０とが所定の期間キャプチャされ、移動を示すために時間データ２１２と組み合わせられうる。また、レンズパラメータデータ２１４、カメラ仕様データ２１６などの他のカメラデータ点が所定期間キャプチャされて、例えば、１０分の映画でこれらのパラメータがどう変化したかが記録されてもよい。時間ベースのデータから、カメラの速度および加速度２２２を得ることができる。例えば、カメラを、特定の速度および加速度でＡ点からＢ点に移動したのち、別の速度および加速度でＢ点からＣ点に移動して測定することができる。また、カメラデータ２０２が、複数台のカメラを記述してもよい。例えば、２台以上のカメラの位置および設定が経時的に記録されてもよい。

３Ｄおよびビデオメタデータ２０１は、光データ２０４を含むことができる。光データ２０４は時間データ２２４を含むことができ、このデータは、カメラの時間データ２１２のフォーマットと似ているが、光源に対するものである。時間データ２２４は、特定の時点の光源を記述しており、後からシーンを編集するのに光源をトラッキングするために使用されうる。また、時間データ２２４は、フレームのシーケンス内の特定のフレームに対して光源を記述することもできる。例えば、時間データは、光源の経時的な変化をトラッキングすることができる。例示の実施形態では、光データ２０４は位置データ２２６を含むことができ、このデータは、カメラの位置データ２１８のフォーマットと似ているが、光源に対するものである。位置データ２２６は、光源の位置を記述しており、後からシーンを編集するために使用されうる。例えば、位置データ２２４は、経度および緯度の座標で記述されても、あるいは、ＧＰＳデータによって記述されてもよい。位置データ２２４は、シーンに対する位置でも、シーンの内外のオブジェクトに対する位置でもよい。例えば、光源は、主カメラの背後１０フィート、左１０フィートのように記述されうる。

光データ２０４は、強度データ２２８、種類データ２３０および視点データ２３２を含んでもよい。強度データ２２８は、特定の光源の明るさまたはワット数を記述することができる。タイプデータ２２８は、光の種類、ならびに光源の他の品質を記述することができ、これには、プールライトの色、温度、焦点、サイズ、スロー長、暗さレベル、焦点があっているオブジェクト、シャッタ、遮光ドア、他のデバイスなどの任意のマスキングデバイスの使用がある。視点データ２３２は、ある位置における光源の視点を、カメラの視点データ２２０と同様のフォーマットで記述することができる。視点データ２３２は、カメラの視点データ２２０のフォーマットと同様に、光源の角度および方向を記述することができる例示の実施形態では、視点データ２３２は、Ｘ軸、Ｙ軸およびＺ軸で記述されてもよい。各種の光データ２０４が時間データ２２４と組み合わされて、速度および加速度を求めるなど、光源が経時的に解析されうる。また、光データ２０４が、複数の光源を記述してもよい。例えば、２以上の光源の位置および属性が、経時的に記録されてもよい。また、光データ２０４は、例えば合成画像、多項式テクスチャマップまたはパラメトリック写真を生成するなど、固定のオブジェクトに対する光源の位置を記述することもできる。また、光データ２０４は、高ダイナミックレンジのレンダリングデータも記述することができる。

また、３Ｄおよびビデオメタデータ２０１は、音声データ２０６を含むことができる。音声データ２０６は、ビデオ内の音声を記述することができる。例示の実施形態では、音声データ２０６は、カメラの時間データ２１２と同様のフォーマットの時間データ２３４を含む。時間データ２３４は、役者の口、車のクラクションの位置などの音源、または録音デバイスを経時的に記録することができる。時間データ２３４は、音源と録音デバイスとの両方を記述することができる。また、時間データ２３４は、フレームのシーケンス内の特定のフレームに対して音源または記録デバイスを記述することもできる。例示の実施形態では、音声データ２０６は、カメラの位置データ２１８と同様のフォーマットの位置データ２３６を含むことができる。位置データ２３６は、マイクロフォン等の記録デバイス、あるいは音源の位置を記述することができる。位置データ２３６は、ＧＰＳ座標データ、経度および緯度で、あるいは、シーン内の他のオブジェクトに対して記述することができる。音声データ２０６は、カメラの視点データ２２０のフォーマットと同様の視点データ２３８を含むことができる。音声視点データ２３８は、例えばＸ軸、Ｙ軸およびＺ軸で測定された音源の角度および方向を記述する。例えば、音声視点データ２３８と音声位置データ２３６とは、音源が主カメラの背後の上から来ていることを示すことができる。例示の実施形態では、音声データ２０６は、音声属性データ２４０を含んでもよい。音声特性データ２４０は、記録された音声の質を記述することができ、例えば、ピッチ、ラウドネス、位相、方向、距離、音色、音声がモノラル、ステレオ、サラウンドサウンドのいずれか、エコー、あるいは他の音声出力設定などである。また、音声特性データ２４０は、録音デバイスの特性も記述することができる。各種の音声データ２０６が時間データ２３４と組み合わされて、速度および加速度を求めるなど、音源または録音デバイスが経時的に解析されうる。また、音声データ２０２は、複数の音源または録音デバイスを記述することもできる。例えば、２台以上のマイクロフォンの位置および特性が、経時的に記録されてもよい。また、音声データ２０６は、曲名、アーティスト、サウンドトラックおよびスコアデータ、著作権、再生中の音符、再生中の楽器および歌詞など、音楽について記述してもよい。また、音声データ２０６は、例えばサブタイトルなど、音声の内容を記述することもできる。例示の実施形態では、一部の音声は、ナレーションの声など発生源を持たないものがある。また、音声データ２０６は、言語データを記述したり、２．１オーディオシステム、５．１オーディオシステムおよび７．１オーディオシステムなど、複数のスピーカシステムへの出力方法をマップすることもできる。

また、３Ｄおよびビデオメタデータ２０１は、オブジェクト切り出しデータ２０８を含むことができる。オブジェクト切り出しデータ２０８は、シーン内の特定のオブジェクトを記述および識別することができる。例えば、オブジェクト切り出しデータ２０８は、二次元シーン内の特定の黄色のピクセルの集まりが、黄色の電話であることを記述することができる。このようなオブジェクト切り出しデータは、画像処理の結果得られても、あるいは、デジタルビデオがレンダリングされる前の元の三次元のオブジェクトから推定されてもよい。例示の実施形態では、個々の投稿者が、ビデオを視聴して、ビデオ内のオブジェクトを識別するデータを一元管理データベースに提供することができる。例えば、ビデオの視聴者が、ビデオ内のオブジェクトを識別して、その識別情報を一元管理ビデオメタデータデータベースにアップロードすることができる。オブジェクトは、名前、年齢、略歴、生年月日および他のデータによって識別されることができる。オブジェクト切り出しデータ２０８は、シーンからオブジェクトを削除したり、シーンにオブジェクトを追加したり、またはシーンを編集するために使用されうる。また、オブジェクト切り出しデータ２０８が、複数のオブジェクトを記述してもよい。オブジェクト切り出しデータ２０８は、オブジェクトの輪郭の識別など、ユーザが投稿したオブジェクトの識別情報を含むことができる。また、ビジュアルハルも記述しうる。

３Ｄおよびビデオメタデータ２０１は、深度マップデータ２１０を含むことができる。深度マップデータ２１０は、カメラに対するシーンのオブジェクトの距離を識別する。例えば、深度マップデータ２１０は、シーン内の木が１００メートル離れているが、カップは１００センチメートルしか離れていないことを記述しうる。例示の実施形態では、深度データ２１０は、複数台のカメラからキャプチャまたは挿間されても、投稿者によって追加されてもよい。深度マップデータ２１０は、３−Ｄ画像の表現時に、あるいは、シーンの編集時に使用されうる。深度マップデータ２１０は、複数のオブジェクトを記述することができる。

また、３Ｄおよびビデオメタデータ２０１は、注記データ２１１を含むことができる。注記データ２１１は、シーン、ビデオセグメントまたはシーン内のオブジェクトの注記、コメント、記述、概要および説明を含むことができる。注記データ２１１は、ビデオを作製した関係者によって提供されても、ビデオの製作と無関係の投稿者によって提供されてもよい。注記データ２１１は、一元管理データベースに照会することによって、視聴者に提示されうる。また、３Ｄおよびビデオメタデータ２０１は、メタデータを編成するための他の形式および手段を有してもよい。

また、３Ｄおよびビデオメタデータ２０１は、コンポジショニングデータ２１３を含むことができる。コンポジショニングデータ２１３は、複数のレイヤを組み合わせて生成されるビデオをサポートする。例えば、コンポジショニングデータ２１３は、シーンの背景および前景を別個の層として記述することができ、これらが後から結合されて最終的なビデオが生成される。このため、前景からオブジェクトを削除する場合、背景を記述するコンポジショニングデータ２１３を使用してシーンを編集することができる。例示の実施形態では、３Ｄおよびビデオメタデータ２０１は、双方向反射率分布関数データと、シーンに含まれないオブジェクトおよび設定を記述するデータとも含んでもよい。

図３は、例示の実施形態による、ビデオメタデータがキャプチャおよび記録される場所のセッティング３００の例である。このセッティングでは、破線の長方形で示すシーン３０２が、第１のカメラ３０４がキャプチャしている画像またはビデオの寸法を表している。シーン３０２の前景では、人物３０６がシーン３０２の右端に向って走っている。人物３０６に続いて、野獣３０７が、シーン３０２の右に向って、人物３０６よりも高速で移動している。人物３０６および野獣３０７の若干背後に、静止している木３０８が存在する。シーン３０２の背景には、同じく静止している太陽３０９が存在し、シーン３０２内のオブジェクト（人物３０６、野獣３０７および木３０８）を照らしている。

また、２つの光源３１０，３１２も、シーンを照明している。各光源３１０，３１２は、位置が異なり、シーン３０２からの距離も、傾きの角度も、高さも異なる。また、これらの光源３１０，３１２は、ワット数、タイプ、光効果および他の光属性および設定も同様に異なってもよい。光源３１０はシーンの右に移動している。

第１のカメラ３０４もシーン３０２の右端に移動している。第１のカメラ３０４は、人物３０６または野獣３０７と同じ速度で移動しても、異なる速度で移動してもよい。第２のカメラ３０５は、第１のカメラ３０４とわずかに異なる角度から、同じシーン３０２をキャプチャしている。第２のカメラ３０５は、位置と角度とが異なり、静止している。また、第２のカメラ３０５は、高さが異なっても、異なるレンズパラメータおよびカメラの設定を使用してもよい。

マイクロフォンなどの２台の記録デバイス３１４，３１６が音源を記録する。２台の記録デバイス３１４，３１６は、異なる位置に存在しても、高さが異なっていても、異なる視点および角度に位置していても、異なる設定を使用してもよい。記録デバイス３１４，３１６は、人物３０６または野獣３０７などのさまざまな音源からの音声を録音しうる。記録デバイス３１４，３１６と音源３０６，３０７とは、時間と共に移動してもよい。この例では、記録デバイス３１６が右に移動している。

このセッティング３００は、ビデオメタデータによって記述されうるデータの種類を示す。例えば、カメラメタデータは、シーン３０２内のオブジェクトに対する第１のカメラ３０４の位置を記述することができる。また、メタデータは、第１のカメラ３０４の移動を、時間データと位置データとを使用して、速度および加速度などの属性によって記述することができる。また、カメラメタデータは、第１のカメラ３０４およびシーン３０２内のオブジェクトに対する、第２のカメラ３０５の位置と、その経時的な場所も記述することができる。視点メタデータは、例えばＸ軸、Ｙ軸およびＺ軸における、カメラ３０４，３０５の角度、高さおよび回転を記述することができる。また、カメラメタデータは、ビデオを録画しているカメラ３０４，３０５とレンズとの設定および属性も記録することができる。

光メタデータは、一般に、光源３１０，３１２および太陽３０９の互いに対する位置と、シーン３０２内のオブジェクトに対する位置とを記述することができる。時間データと位置データとは、光源３１０，３１２および太陽３０９の移動と、速度および加速度などの属性とを決定するために使用されうる。また、光メタデータは、光源３０９，３１０，３１２の、光の種類および強度などの属性および設定もキャプチャすることができる。また、光メタデータは、太陽３０９などの自然光源、反射、または間接光源もキャプチャすることができる。

音声メタデータは、一般に、記録デバイス３１４，３１６および音源３０６，３０７の互いに対する位置と、シーン３０２内のオブジェクトに対する位置とを記述することができる。例えば、足音が、人物３０６が踏んでいる地面から到来することが決定されうる。時間データと位置データとは、第２の記録デバイス２１６および音源３０６，３０７の移動と、速度および加速度などの属性とを決定するために使用されうる。また、音声メタデータは、感度など、記録デバイス３１４，３１６の特性もキャプチャすることができる。

オブジェクト切り出しデータは、シーン３０２内のオブジェクトを識別することができる。例えば、オブジェクト切り出しデータは、人物３０６、野獣３０７、木３０８および太陽３０９を相互に認識することが可能である。また、オブジェクト切り出しデータは、人物３０６の腕や脚など、各オブジェクトの要素も記述することができる。オブジェクト切り出しデータは、例えば、人物３０６と野獣３０７とがシーン３０２を走っているときに人物３０６と野獣３０７とを認識するなど、所定期間にわたってオブジェクトをトラッキングしてもよい。深度マップデータは、記録しているカメラからのオブジェクトの距離を記述することができる。例えば、深度マップは、人物３０６と野獣３０７の両方がカメラから２０フィート離れており、木３０８がカメラから３００フィート離れていることを示すことができる。

図４は、３Ｄ画像を生成するために、所定時間に収集される２つの２−Ｄ画像の組合せを示す図である。左の画像４０２は、時点Ｔにおける人物のオブジェクトの画像である。左画像４０４は、時点Ｔ＋Δにおける同じ人物のオブジェクトの画像である。オブジェクトが時間Δの間に移動したので、左の画像４０２と右の画像４０４とはわずかに異なる。画像４０２と画像４０４とは、三次元画像を生成するための立体画像の対として使用されうる。例示の実施形態では、三次元画像を生成するために、ビデオメタデータが使用されうる。例えば、三次元の画像を適切に生成するために、位置データ、時間データおよびオブジェクトデータが使用され、シーン内のオブジェクトと、その移動の方向とが識別されうる。また、カメラに対する、シーン内のオブジェクトの速度および加速度が使用されてもよい。例えば、５０マイル／時で移動している車に搭載されたカメラが、時速５５マイルで同じ方向に移動している電車を撮影している場合、電車は前に進んでいるが、背景が二次元のまま表示されるように、３次元効果を表示させる必要がある。

例示の実施形態では、同じシーンを撮影する２台以上のカメラからの２つの画像を結合することによっても、２つの立体画像を作成することができる。例えば、ビデオメタデータが、同じシーンを撮影している２台のカメラが２０°離れていることを示すことができる。ビデオメタデータを使用することにより、この２台のカメラから立体画像の対を挿間することができる。例示の実施形態では、オブジェクト切り出しデータ、深度データなどのビデオメタデータが使用され、三次元画像が生成されうる。離間角度は小さくてもよく、３台以上のカメラと組み合わせて複数の３−Ｄ画像を生成することもできる。

例示の実施形態では、二次元のビデオを三次元のビデオに変換するプロセスも、ビデオメタデータを解析してもよい。例えば、シーン内のオブジェクトを識別し、三次元レンダリングを較正するために、光データとカメラデータとが考慮されうる。また、オブジェクトデータと深度データとを使用して、三次元に投射する必要のあるオブジェクトが識別されてもよい。

図５Ａは、例示の実施形態によるシーン５０７の図である。このシーンでは野獣５０２が人物５０４を追いかけている。背景に、静止している木５０６と、シーンを照らしている太陽５０８とが存在する。例示の実施形態では、撮影されたシーンに関するメタデータが、ビデオメタデータ用の一元管理データベースに記録されうる。

図５Ｂは、例示の実施形態による、要素が追加および削除されている図５Ａのシーンの図である。一元管理データベースと共に記録されているメタデータを使用して、シーンまたはビデオが編集されうる。この例では、元のシーン５０７の人物５０４が、現在のシーン５０８では削除されている。シーンからオブジェクトを適切に削除するために、ビデオメタデータが使用されうる。例示の実施形態では、時間情報と位置情報とを使用して、別の時点におけるこのシーンの画像を特定することによって、シーン内の削除した人物５０４の背景の内容が判断または決定されうる。例えば、以前のフレームが、人物５０４が存在しない同じ背景を含んでおり、この以前のフレームのカメラの位置および視点が同じであり、光データも同じであることをメタデータが示しており、この背景を、新しいシーン５０８にそのまま適用することができる。例示の実施形態では、以前のフレームが、（例えば、カメラまたはレンズパラメータ、あるいは光データまたは位置データが異なるなど）質がわずかに異なる背景を含むことを、ビデオメタデータが示すことがある。この場合、メタデータを使用して、以前のフレームが、現在のフレームのビデオメタデータの設定に最も近くなり、これと適合するように調整されうる。例えば、以前のフレームでは新しいシーン５０８よりも光源が１つ少ない場合、ビデオメタデータを使用して、前のシーンの背景が、シミュレートした追加の光源を用いて光が再適用されうる。別の実施形態では、わずかに異なる視点から撮影された同じ背景が、位置メタデータを使用して編集されて、新しいシーン５０８に適合するように外挿されてもよい。また、光データとカメラデータとを使用して、影を削除し、オブジェクトを削除した後に残った空洞が適切に埋められてもよい。また、オブジェクト切り出しデータと深度マップデータとは、シーンから削除するオブジェクトの識別を支援しうる。

音声データを使用して、走っている人物５０４の音声など、オブジェクトが発する音声が削除されうる。例示の実施形態では、削除する人物の足が着地する時点に対応する音声が、ビデオから削除されうる。例示の実施形態では、人物５０４に関連する音源に関する音声データが、識別されて削除されうる。

また、左に向って走る小人５１４がシーンに追加されている。ビデオメタデータは、シーンにオブジェクトを追加するためにも使用することができる。例えば、シーンに追加するオブジェクトがコンピュータによって生成される場合、カメラ、光および音声に対応するビデオメタデータを使用して、元のシーン５０７と同様の光で照らされ、同様の装置および同様の条件で記録されたように見えるように、新しいオブジェクトがレンダリングされうる。また、新しいオブジェクト５１４が発する音声が、同じ記録デバイスによって記録されたかのように、既存のサウンドトラックと一致するように処理されうる。

新しいシーン５０８の太陽５１６が、発光量が多くなるように調整されてもよい。例示の実施形態では、シーンに光が再適用される。ここで、太陽５１６である光源を記述するメタデータが、明るく調整されうる。このような調整では、シーン５０８に光を再適用するために、深度データ、オブジェクト切り出しデータ、他のデータなどの他のメタデータも呼び出されうる。

図６は、例示の実施形態による、ビデオにオブジェクトを追加するプロセスフローである。操作６０２において、サーバに対して、ビデオメタデータの照会が行われる。ビデオメタデータに対するサーバへの照会には、ビデオ識別子が含まれうる。例示の実施形態では、ビデオ識別子は、一意なビデオメタデータエントリを識別する一意の英数字文字列またはＧＵＩＤなどである。操作６０４において、ビデオメタデータが受信される。操作６０６において、受信したビデオメタデータを参照して、ビデオに追加しようとするオブジェクトが編集される。例示の実施形態では、光データを使用して、オブジェクトが適切に光で照らされうる。例えば、光データに定義されている光源が、新しいオブジェクトを照らす光を発しているように見えるように、新しいオブジェクトが編集されうる。また、新しいオブジェクトが、音声データに対して比較されうる音声を発してもよい。その場合、新しいオブジェクトが発する音声が元の記録デバイスによって記録されたかのように、ビデオの音声に新しいオブジェクトの音声が組み込まれうる。この新しい音声は、サラウンドサウンド特性を維持することができる。オブジェクトデータと深度データとを使用して、視点または陰影効果を保持するなど、ビデオ内の他のオブジェクトのコンテキストに新しいオブジェクトが配置されうる。また、新たに追加されたオブジェクトは、ビデオメタデータデータベースにも追加されうる。操作６０８において、新しいオブジェクトがビデオに追加される。

図７は、例示の実施形態による、ビデオからオブジェクトを削除するプロセスフローである。操作７０２において、サーバに対して、ビデオメタデータの照会が行われる。ビデオメタデータに対するサーバへの照会には、ビデオ識別子が含まれうる。例示の実施形態では、ビデオ識別子は、一意なビデオメタデータエントリを識別する一意の英数字文字列またはＧＵＩＤなどである。操作７０４において、ビデオメタデータが受信される。操作７０６において、ビデオからオブジェクトが削除される。例示の実施形態では、このオブジェクトはメタデータを使用して識別されうる。例えば、オブジェクトデータ、深度データ、コンポジショニングデータまたは注記データが、二次元または三次元表示のピクセル群など、シーン内の特定のオブジェクトを識別することができる。操作７０８において、オブジェクトを削除した後に残された空き領域が埋められる。ビデオが、残りのシーンと整合する新しい背景を用いて編集されうる。例えば、削除するオブジェクトの背景を、ビデオの以前のフレームから決定することができる。正確に置換を行うことができない場合には、カメラ、光、コンポジショニングおよび他のメタデータを使用して、背景が外挿されうる。例示の実施形態では、削除するオブジェクトが発する音声を削除するためにも、メタデータが解析されうる。例えば、特定の対話または音声が削除するオブジェクトに関連している場合、これらがサウンドトラックから削除されうる。

例示の実施形態では、ビデオメタデータを利用して前景のオブジェクトを識別するビデオマッティング技術を使用することで、シーンから削除すべきオブジェクトが識別されてもよい。

図８は、例示の実施形態による、シーンを編集するプロセスフローである。操作８０２において、サーバに対して、ビデオメタデータの照会が行われる。ビデオメタデータに対するサーバへの照会には、ビデオ識別子が含まれうる。例示の実施形態では、ビデオ識別子は、一意なビデオメタデータエントリを識別する一意の英数字文字列またはＧＵＩＤなどである。操作８０４において、ビデオメタデータが受信される。操作８０６において、ビデオメタデータを使用してビデオが編集される。ビデオの編集では、編集内容がビデオに均一かつ矛盾なく適用されるように、ビデオメタデータが解析しうる。例えば、光の調整がビデオ内の全てのオブジェクトに適用され、オブジェクトデータ、深度データなどの要因が考慮されうる。

例示の実施形態では、合成画像、パラメトリック画像または多項式テクスチャマッピングを使用して、シーンに光が再適用されうる。ビデオメタデータを使用して、画像およびビデオの高ダイナミックレンジのレンダリングを実現することができる。また、オブジェクトの輪郭に光を再適用するために、ビジュアルハルを記述しているビデオメタデータが処理されうる。シーンに対し、同じシーンを記述している異なる時点のメタデータを使用して光が再適用されうる。例えば、メタデータが、昼間と夜間に同じシーンを記述することができる。夜間のデータを使用して、昼間のシーンに光が再適用されて夜間のシーンが生成されうる。

図９は、本発明の実施形態と使用するために適したコンピュータシステムの例である。このブロック図は、パーソナルコンピュータ、ビデオゲームコンソールおよび関連するディスプレイ（例えば、図１のサーバ１０２およびプレーヤ１１０）、個人情報端末または本発明の実施形態を実施するために適切な他のデジタルデバイスなどのコンピュータシステム１３００を示す。コンピュータシステム１３００は、ソフトウェアアプリケーション、および任意選択でオペレーティングシステムを実行するための中央処理装置（ＣＰＵ）１３０５を備える。ＣＰＵ１３０５は、１つ以上の同種または異種の処理コアから構成されうる。メモリ１３１０は、ＣＰＵ１３０５によって使用されるアプリケーションおよびデータを記録する。ストレージ１３１５は、アプリケーションおよびデータのための不揮発性ストレージおよびその他のコンピュータ可読媒体を提供し、固定ディスクドライブ、リムーバブルディスクドライブ、フラッシュメモリデバイス、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ブルーレイ、ＨＤ−ＤＶＤ、またはその他の光ストレージデバイスのほか、信号伝送および記録媒体などを備えうる。ユーザ入力デバイス１３２０は、一人以上のユーザからのユーザ入力をコンピュータシステム１３００に伝達するものであり、その例として、キーボード、マウス、ジョイスティック、タッチパッド、タッチスクリーン、静止カメラ、ビデオカメラおよび／またはマイクロフォンなどが挙げられる。ネットワークインタフェース１３２５は、コンピュータシステム１３００が、電子通信ネットワークを介して他のコンピュータシステムと通信できるようにし、これには、ローカルエリアネットワーク、あるいはインターネット等の広域ネットワークを介した有線通信または無線通信などが挙げられる。音声プロセッサ１３３０は、ＣＰＵ１３０５、メモリ１３１０および／またはストレージ１３１５によって提供される命令および／またはデータからアナログまたはデジタルの音声出力を生成するように適合されている。ＣＰＵ１３０５、メモリ１３１０、データストレージ１３１５、ユーザ入力デバイス１３２０、ネットワークインタフェース１３２５および音声プロセッサ１３３０などのコンピュータシステム１３００の構成要素は、１本以上のデータバス１３３５を介して接続されている。

データバス１３３５およびコンピュータシステム１３００の構成要素に、グラフィックサブシステム１３４０が更に接続されている。グラフィックサブシステム１３４０は、グラフィック処理装置（ＧＰＵ）１３４５およびグラフィックメモリ１３５０を備える。グラフィックメモリ１３５０は、出力画像のピクセルごとにピクセルデータを記録するために使用されるディスプレイメモリ（例えば、フレームバッファ）を備える。グラフィックメモリ１３５０は、ＧＰＵ１３４５と同じデバイスに一体化されても、別個のデバイスとしてＧＰＵ１３４５と接続されても、メモリ１３１０内に実装されてもよい。ピクセルデータは、ＣＰＵ１３０５からグラフィックメモリ１３５０に直接提供されうる。別の実施形態では、ＣＰＵ１３０５は、所望の出力画像を定義しているデータおよび／または命令をＧＰＵ１３４５に提供し、ＧＰＵ１３４５が、これらから１つ以上の出力画像のピクセルデータを生成する。所望の出力画像を定義しているデータまたは命令は、メモリ１３１０および／またはグラフィックメモリ１３５０に記録されうる。一実施形態では、ＧＰＵ１３４５は、シーンの形状、照明、陰影、テクスチャリング、移動および／またはカメラパラメータを定義する命令およびデータから、出力画像のピクセルデータを生成するための３Ｄレンダリング機能を備える。ＧＰＵ１３４５は、シェーダープログラムを実行することができる１つ以上のプログラム可能な実行ユニットを更に備えうる。

グラフィックサブシステム１３４０は、グラフィックメモリ１３５０からの画像をディスプレイ装置１３５５に表示させるために、ピクセルデータを周期的に出力する。ディスプレイ装置１３５５はコンピュータシステム１３００からの信号を受けて、視覚的情報を表示することができる装置であればどのようなものであってもよく、ＣＲＴ、ＬＣＤ、プラズマディスプレイおよびＯＬＥＤディスプレイなどを備える。コンピュータシステム１３００は、ディスプレイ装置１３５５にアナログまたはデジタルの信号を提供しうる。

各種実施形態によれば、ＣＰＵ１３０５は、１つ以上の処理コアを有する１つ以上の汎用マイクロプロセッサである。別の実施形態は、メディアアプリケーションおよびインタラクティブエンタテインメントアプリケーションなどの高度にパラレルであり、演算量の多いアプリケーションに特に適合されたマイクロプロセッサアーキテクチャを備えた１つ以上のＣＰＵを使用して実装することができる。

上記の方法、システムおよびデバイスは単に例示に過ぎないという点に留意すべきである。各種実施形態では、適宜、さまざまな手順または構成要素を省略したり、置き換えたり、追加することができる点を強調する必要がある。例えば、別の実施形態では、方法が記載した順序と異なる順序で実行され、さまざまなステップを追加、省略したり組み合わせてもよい点に留意すべきである。また、特定の実施形態に関して記載した特徴を、さまざまな他の実施形態に組み合わせてもよい。実施形態の異なる態様および要素を、同様に組み合わせてもよい。また、技術は進歩するため、構成要素の多くは例であり、本発明の範囲を限定するものと解釈されるべきでないという点を強調する必要がある。

実施形態を完全に理解できるように、本説明において特に詳細に記載した。しかし、このような特定の事項がなくても実施形態を実施することができることは、当業者であれば理解するであろう。例えば、実施形態を曖昧にするのを避けるために、公知の回路、プロセス、アルゴリズム、構造および技術については不要な詳細な記載を行わなかった。

また、実施形態が、フローチャートまたはブロック図として図示されるプロセスとして記載することができる点に留意されたい。これらはそれぞれ、操作を逐次的なプロセスとして記載するものであるが、操作の多くは、並列に実行したり、あるいは同時に実行することができる。また、操作の順序を並び替えることもできる。図示されていない追加のステップがプロセスに含まれてもよい。

また、ここに開示するように、「メモリ」または「メモリユニット」との用語は、データを記録するための１つ以上のデバイスを表すことができ、これには、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ＲＡＭ、コアメモリ、磁気ディスク記録媒体、光メモリ媒体、フラッシュメモリデバイス、あるいは、情報を記録するための他のコンピュータ可読媒体などがある。「コンピュータ可読媒体」との用語は、ポータブルまたは固定ストレージデバイス、光ストレージデバイス、無線チャネル、シムカード、その他のスマートカード、あるいは、命令またはデータを記録、格納または実行することができる他の各種媒体を含むが、これらに限定されない。

更に、実施形態は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはその任意の組合せによって実装することができる。ソフトウェア、ファームウェア、ミドルウェアまたはマイクロコードにおいて実装される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントが、記録媒体などのコンピュータ可読媒体に記録されうる。プロセッサが必要なタスクを実行しうる。

いくつかの実施形態を記載したが、本発明の趣旨を逸脱しない範囲で、さまざまな変更、代替の構造および均等物を使用することができることを、当業者は認めるであろう。例えば、上記の要素が、単に、より大きなシステムの構成要素であり、他の規則が優先されても、本発明の用途を変更するために、別の方法で変更されてもよい。また、上記の要素の前、間、またはその後に実行される複数のステップを考察することができる。したがって、上記の説明は、本発明の範囲を限定するものとして解釈すべきではない。

１００一元管理データベースシステム
１０２サーバ
１０４データベース
１０６データ
１０８ディスプレイ
１１０プレーヤ
１１２ネットワーク
１１４データディスク
１１６投稿者
２００一元管理データベース
２０１ビデオメタデータ
２０２カメラデータ
２０４光データ
２０６音声データ
２０８データ
２１０深度マップデータ
２１１注記データ
２１２時間データ
２１４レンズパラメータデータ
２１６記録デバイス
２１８位置データ
２２０視点データ
２２２加速度
２２４位置データ
２２６位置データ
２４０音声特性データ
３００セッティング
３０２シーン
３０４カメラ
３０５カメラ
３０６音源
３０７野獣
３０８木
３０９太陽
３１０光源
３１４記録デバイス
１３００コンピュータシステム
１３１０メモリ
１３１５データストレージ
１３２０ユーザ入力デバイス
１３２５ネットワークインタフェース
１３３０音声プロセッサ
１３３５データバス
１３４０グラフィックサブシステム
１３５０グラフィックメモリ
１３５５ディスプレイ装置

Claims

ビデオ識別子を含む、ディスプレイに表示させるビデオデータを受信するステップと、
サーバに記録されており、前記ビデオデータをキャプチャしたカメラに対する光源の位置を記述するビデオ光位置メタデータを含むビデオメタデータを、前記ビデオメタデータを識別する前記ビデオ識別子を使用して、前記サーバに照会するステップと、
前記サーバから前記ビデオメタデータを受信し、前記受信したビデオ光位置メタデータにより前記ビデオデータを編集して、前記ビデオ光位置メタデータと整合させて前記ビデオデータに光を再適用する編集済みビデオデータを生成するステップと、
前記ディスプレイに前記編集済みビデオデータを出力するステップと、を有する方法。
前記ビデオメタデータは、光データ、音声データ、カメラデータ、オブジェクト切り出しデータ、深度マップデータ、コンポジションデータ、および注記データを含む請求項１に記載の方法。
前記ビデオデータの前記編集は前記ビデオデータからオブジェクトを削除し、前記ビデオデータの残り部分の前記光位置メタデータと整合する、前記削除するオブジェクトの背景を決定するために、前記ビデオ光位置メタデータが適用される請求項１に記載の方法。
前記ビデオデータの前記編集は前記ビデオデータにオブジェクトを追加し、前記追加するオブジェクトが前記光源によって照らされているように見えるように、前記追加するオブジェクトに前記ビデオ光位置メタデータが適用される請求項１に記載の方法。
前記ビデオデータの前記編集は、前記ビデオデータを光で照らすために、前記ビデオ光位置メタデータを前記光源に関して解析することによって、前記ビデオデータに光を再適用する請求項１に記載の方法。
前記ビデオデータの前記編集は、同じシーンに対して２台以上のカメラによってキャプチャした前記ビデオデータを結合して、三次元画像を表現するための立体画像の対を生成するために、前記カメラデータと前記位置データとを解析する請求項２に記載の方法。
前記ビデオの前記編集は前記ビデオから音声を削除し、前記削除する音声が前記音声データと整合するように、前記ビデオメタデータが適用される請求項２に記載の方法。
前記削除するオブジェクトを識別するためにオブジェクト切り出しデータ、深度マップデータおよび注記データが使用される請求項３に記載の方法。
ディスプレイに表示させる、ビデオ識別子を含むビデオデータを受信し、前記ビデオ識別子を使用して、サーバにビデオメタデータを照会し、前記サーバから前記ビデオメタデータを受信し、受信したビデオ光位置メタデータにより前記ビデオデータを編集して、前記ビデオ光位置メタデータと整合させて前記ビデオデータに光を再適用する編集済みビデオデータを生成するプレーヤと、
前記ビデオデータをキャプチャしたカメラに対する光源の位置を記述する前記ビデオ光位置メタデータを含む前記ビデオメタデータを記録するサーバと、
前記編集済みビデオを表示するためのディスプレイと、を有するシステム。
前記ビデオメタデータは、光データ、音声データ、カメラデータ、オブジェクト切り出しデータ、深度マップデータ、および注記データを含む請求項９に記載のシステム。
前記プレーヤは、前記ビデオデータからオブジェクトを削除するために前記ビデオデータを編集し、前記ビデオデータの残り部分の前記光位置メタデータと整合する、前記削除するオブジェクトの背景を決定するために、前記ビデオ光位置メタデータが適用される請求項９に記載のシステム。
前記プレーヤは、前記ビデオデータにオブジェクトを追加するために前記ビデオデータを編集し、前記追加するオブジェクトが前記光源によって照らされているように見えるように、前記追加するオブジェクトに前記ビデオ光位置メタデータが適用される請求項９に記載のシステム。
前記プレーヤは、前記ビデオデータを光で照らすために、前記ビデオ光位置メタデータを前記光源に関して解析することによって、前記ビデオデータに光を再適用する請求項９に記載のシステム。
前記プレーヤは、同じシーンに対して２台以上のカメラによってキャプチャした前記ビデオデータを結合して、三次元画像を表現するための立体画像の対を生成するために、前記カメラデータと前記位置データとを解析することにより前記ビデオデータを編集する請求項１０に記載のシステム。
前記プレーヤは、前記ビデオから音声を削除するために前記ビデオデータを編集し、前記削除する音声が前記音声データと整合するように、前記ビデオメタデータが適用される請求項１０に記載のシステム。
前記プレーヤは、オブジェクト切り出しデータ、深度マップデータおよび注記データを解析して、前記削除するオブジェクトを識別する請求項１１に記載のシステム。
第１の投稿者からビデオの第１のメタデータ投稿を受信するステップと、
前記第１のメタデータ投稿をビデオメタデータデータベースに記録するステップと、
前記第１のメタデータ投稿を受信した後に、第２の投稿者からビデオの第２のメタデータ投稿を受信するステップと、
前記第２のメタデータ投稿が、前記ビデオの記述において前記第１のメタデータ投稿よりも正確であると決定するステップと、
前記ビデオメタデータデータベースに記録されている前記第１のメタデータ投稿の少なくとも一部を、前記第２のメタデータ投稿で置換するステップと、を有する方法。
前記第１の投稿者および前記第２の投稿者はインターネットユーザである請求項１７に記載の方法。
前記ビデオメタデータデータベースに記録されている前記メタデータは、インターネットユーザがアクセス可能である請求項１７に記載の方法。
前記ビデオメタデータデータベースに記録されている前記メタデータは、カメラデータ、光データ、音声データ、オブジェクト切り出しデータ、深度マップデータ、および注記データを含む請求項１７に記載の方法。