JP2010508691A5

JP2010508691A5 -

Info

Publication number: JP2010508691A5
Application number: JP2009534035A
Authority: JP
Filing date: 2007-10-26
Publication date: 2013-03-07
Anticipated expiration: 2027-10-26

Description

ビデオ深度マップ調整

本発明はビデオ深度マップ調整に関する。より詳細には、本発明は、編集や他の処理によって１次ビデオ・シーケンスから得た２次ビデオ・シーケンスの深度マップを生成する方法及びシステムに関する。

動画又は他の画像シーケンスのようなビデオ・シーケンスの深度マップを生成することが良く知られており、当該深度マップは、２次元(２Ｄ)画像を３次元(３Ｄ)画像に変換することを可能にする深度情報を提供する。

特許文献１（ＩＢＭ）は、コンピューター・ネットワーク上の３次元幾何学モデルから成る、合成コンテンツを生成し、配信するシステムを開示している。このシステムはサーバー・コンピューターとクライアント・コンピューターを用い、ビデオ・ストリームは、サーバーのレンダリング対象のための時間依存深度マップを含むこともある。ビデオ・シーケンスはサーバーからクライアントへローカル・レンダリングのために送られ、深度マップは、クライアントが３Ｄ機能を有していない場合は送信されない。

幾つかのアプリケーションでは、ビデオ・シーケンスはクライアントで既に利用可能な場合もある。そして、深度マップは後で追加されることもある。これは、ユーザーが２次元動画の録画されたバージョンを持っていて、３次元動画を得るために深さを追加したい場合にあり得る。この動画の録画されたバージョンは、例えば、ＤＶＤ（デジタル・ヴァーサタイル・ディスク）、ハードディスク・レコーダー、又はコンピューターのハードディスクに録画され得る。（リモート・）サーバーから動画と関連付けられた深度マップを得ることが可能である。しかし、この録画されたバージョンは、標準的には元のバージョンと同一である。この録画されたバージョンは、例えば、テレビから録画され得る。元のバージョンと対比すると、動画のテレビ・バージョンは、暴力的な場面が削除される一方で、コマーシャルを含むことがある。更に、録画時間はテレビ放送の時間と正確には一致しないかもしれない。そして、ユーザーはその人自身のバージョンを編集したかもしれない。これらの理由により、サーバーから利用可能な深度マップは、標準的には録画されたビデオ・シーケンスとは適合せず、望ましくない深度の不適合を生じるだろう。

もちろん、サーバーからビデオ・シーケンスの元のバージョン（深度マップと適合しているバージョン）を得ること、及び、深度マップの正しい調整が得られるように１次(元の)ビデオ・シーケンスと２次（変更された）ビデオ・シーケンスを合わせることが可能である。しかし、サーバー上の元のビデオ・シーケンスのほとんどといったかなりの量を複製することによって、クライアント上の変更された（例えば、編集された）ビデオ・シーケンスと一致するとはいえ、元の又は変更されたビデオ・シーケンスのいずれかを送信することは、比較的大きな帯域を要求する。

米国特許第６３７７２５７号明細書

本発明の目的は、従来技術の上述の及び他の問題を克服し、２次ビデオ・シーケンスの深度マップを生成する方法及びシステムを提供することである。当該方法及びシステムでは、２次ビデオ・シーケンスは元の又は１次ビデオ・シーケンスから導出される。当該方法及びシステムは、１次又は２次ビデオ・シーケンスのいずれかの送信を回避すると同時に、深度マップと２次ビデオ・シーケンスとの優れた適合を提供する。

本発明は方法を提供する。前記方法は、２次ビデオ・シーケンスの２次深度マップを生成し、前記２次ビデオ・シーケンスは、１次深度マップを有する１次ビデオ・シーケンスから導出され、前記２次ビデオ・シーケンスは、クライアントで利用可能であり、前記１次深度マップは、サーバーで利用可能であり、前記クライアント及びサーバーは、ネットワークにより結合され、前記方法は：
−前記１次深度マップを前記サーバーから前記クライアントへ送信する段階；
−調整情報を生成するために、前記クライアントで、前記１次深度マップを前記２次ビデオ・シーケンスに合わせる段階；
−前記クライアントで、前記２次深度マップを前記１次深度マップから前記調整情報を用いて導出する段階；を有する。

調整情報を生成するためにクライアントで１次深度マップを２次ビデオ・シーケンスと合わせること、及び１次深度マップと前記調整情報とに基づき２次深度マップを導出することにより、２次深度マップは、１次ビデオ・シーケンスを送信することなく得られる。２次深度マップは、標準的に、２次ビデオ・シーケンスと完全に合わせられるので、如何なるアーチファクトも導入することなく、２次ビデオ・シーケンスを完全に補完する。１次深度マップ（及び１次ビデオ・シーケンスを有する任意の追加データ）を送信することのみによって、有意に帯域を節約できる。

１次深度マップの２次ビデオ・シーケンスへの調整は、深度マップの画像をビデオ・シーケンスの画像と照合させ、個々の画像の対応を示す調整情報を生成することを含む。当該対応は、個々の画像に又はそれらの画像の特徴に適用される相互相関のような類似点測定を用いて決定されうる。調整情報は、例えば、（１次）深度マップのどの画像が（２次）ビデオ・シーケンスの画像と対応するかを、例えば関連画像番号を列挙することにより、示してよい。画像番号の代わりに、特定時点からの時間期間、タイムスタンプ等のような他の指標又はマーカーを用いてもよい。

調整情報を用いて２次深度マップを１次深度マップから導出する段階は、例えば、画像番号又は調整情報に含まれる他の指標を用い、１次深度マップから対応するセクションを選択し、選択したセクションを２次ビデオ・シーケンスに対応する２次深度マップにコンパイルする段階を有してよい。

クライアントで、１次深度マップを２次ビデオ・シーケンスに合わせる段階は、
−２次ビデオ・シーケンスから特徴を抽出する段階、
−１次深度マップから特徴を抽出する段階、及び
−前記抽出した特徴を照合させる段階、を有する。

２次ビデオ・シーケンスと１次深度マップの両方から特徴を抽出することにより、比較的簡単に調整を達成できる。抽出した特徴は、ショット・カット（つまり、場面の変化）、色、及び／又は明るさの統計（輝度ヒストグラムのような）、エッジ・マップ等を有してよい。照合させる段階は、相互相関、距離等のような類似点測定を有してよい。

１次深度マップを２次ビデオ・シーケンスに合わせる段階は、
−２次ビデオ・シーケンスから予備の２次深度マップを導出する段階、及び
−前記予備の２次深度マップと前記１次深度マップを照合させる段階、を有する。

本実施例では、予備の２次深度マップは、クライアントで、２次ビデオ・シーケンスから、それ自体知られた技術を用いて導出される。この予備の２次深度マップは、次に、サーバーから受信した１次深度マップと照合される。特徴抽出段階は、照合させる段階の前に行われる。本実施例では、深度マップが、標準的に当該深度マップが導出されるビデオ・シーケンスよりも少ない情報しか有さないので、調整段階でデータ量が削減される。

上述の実施例では、調整はクライアントで行われる。しかし、本発明はそれに限定されない。代替の実施例では、調整はサーバーで行われる。

従って、本発明は方法も提供する。当該方法は、２次ビデオ・シーケンスの２次深度マップを生成し、前記２次ビデオ・シーケンスは、１次深度マップを有する１次ビデオ・シーケンスから導出され、前記２次ビデオ・シーケンスは、クライアントで利用可能であり、前記１次ビデオ・シーケンスと前記１次深度マップは、サーバーで利用可能であり、前記クライアント及びサーバーは、ネットワークにより結合され、前記方法は：
−前記サーバーで、前記１次ビデオ・シーケンスから１次特徴を抽出する段階；
−前記クライアントで、前記２次ビデオ・シーケンスから２次特徴を抽出する段階；
−前記２次特徴を前記クライアントから前記サーバーへ送信する段階；
−前記サーバーで、調整情報を生成するために、前記１次特徴を前記２次特徴と揃える段階；
−前記サーバーで、前記調整情報を用いて、前記１次深度マップから前記２次深度マップを導出する段階；及び
−前記２次深度マップを前記サーバーから前記クライアントへ送信する段階；を有する。

クライアントで、２次ビデオ・シーケンスから特徴を抽出することにより、サーバーにおいて、２次ビデオ・シーケンスを送信することなく調整を実行することが可能である。代わりに、抽出した特徴が送信され、結果として帯域幅の要求は、２次ビデオ・シーケンス自体を送信するよりも低くなる。特徴の抽出、２次深度マップの調整及び導出は、これらの段階がクライアントで実行される第１の実施例の対応する部分と同様であってよい。サーバーでこれらの段階を実行することは、サーバーが標準的にクライアントより高い処理能力を有しているので、結果として方法の段階をより高速に実行するという利点を有する。

理解されるべき点は、この第２の実施例と上述の第１の実施例は、１次ビデオ・シーケンスも２次ビデオ・シーケンスも送信しないので、帯域幅が節約されるという利点を有する。

第３の実施例では、前記サーバーで抽出する段階は、前記１次ビデオ・シーケンスからではなく、前記１次深度マップから特徴を抽出する段階を有する。本実施例では、従って、１次特徴は１次深度マップに基づき、２次ビデオ・シーケンスから抽出した２次特徴と比較される。この第３の実施例は、深度マップが標準的に対応するビデオ・シーケンスよりも少ない情報しか有さないので、必要とされる処理能力が少ないという利点を有する。

本発明は、ビデオ・シーケンス内のコマーシャル又は他の追加された場面を検出する方法及びシステムも提供する。２次深度マップを生成することに代えて又はそれに追加して、２次ビデオ・シーケンスのどの部分が元の１次ビデオ・シーケンスに存在していないかを示す調整情報が用いられうる。

本発明は、上述の方法を実行するコンピューター・プログラムも提供する。コンピューター・プログラムは、ＣＤ又はＤＶＤのようなデータ担体に格納された、コンピューターが実行可能な命令のセットを有して良い。コンピューターが実行可能な命令のセットは、プログラム可能なコンピューターに以上に定められた方法を実行させ、またリモートサーバーからの、例えばインターネットを介したダウンロードに利用可能であって良い。

本発明はシステムを更に提供する。前記システムは、２次ビデオ・シーケンスの２次深度マップを生成し、前記２次ビデオ・シーケンスは、１次深度マップを有する１次ビデオ・シーケンスから導出され、前記２次ビデオ・シーケンスは、クライアントで利用可能であり、前記１次深度マップは、サーバーで利用可能であり、前記クライアント及びサーバーは、ネットワークにより結合され、前記システムでは、前記サーバーは：
−前記１次深度マップを前記クライアントへ送信する送信ユニット；を有し、前記クライアントは：
−調整情報を生成するために、前記１次深度マップを前記２次ビデオ・シーケンスに合わせる調整ユニット；
−前記調整情報を用いて、前記２次深度マップを前記１次深度マップから導出する導出ユニット；を有する。

当該システムは、対応する方法と同様の利点を有する。

本発明によるシステムの第２の実施例では、クライアントは、２次特徴を２次ビデオ・シーケンスから抽出するクライアント抽出ユニット、及び抽出した２次特徴をサーバーへ送信する送信ユニット、を有し、サーバーは、特徴を１次ビデオ・シーケンスから抽出するサーバー抽出ユニット、及びサーバーに設置された調整ユニット、を有し、２次深度マップをサーバーで生成する。この第２の実施例では、サーバー送信ユニットは、１次深度マップの代わりに、２次深度マップをクライアントへ送信する。

本発明によるシステムの第３の実施例では、前記サーバー抽出ユニットは、前記１次ビデオ・シーケンスからではなく、前記１次深度マップから特徴を抽出する。

本発明は、ビデオ・シーケンス内のコマーシャル又は他の追加された場面を検出するコマーシャル検出システムとしても用いられてよい。

本発明は、上述のシステムで用いられるクライアント・ユニット及びサーバー・ユニットを更に提供する。クライアント・ユニットは、コンピューター・システム、デジタル・テレビジョン装置、ハードディスク・レコーダー、又は如何なる他の適切な装置を有してもよい。サーバー・ユニットは、本発明の方法の段階を実行するのに適切なソフトウェア・プログラムを備えられた専用の又は汎用のコンピューター・システムを有してよい。

本発明は、例である図示された実施例を参照し、以下に更に説明される。

本発明の方法の第１の実施例を図示する。本発明の方法の第２の実施例を図示する。本発明の方法の第３の実施例を図示する。本発明の方法の第４の実施例を図示する。本発明によるビデオ分配システムを図示する。本発明によって軽減された元のビデオ・シーケンスと録画されたビデオ・シーケンスとの相違を図示する。本発明による方法及びシステムで用いられるクライアント・ユニットを図示する。本発明による方法及びシステムで用いられるサーバー・ユニットを図示する。

図１に単なる非限定的な例として示された本発明の方法は、クライアントＣ及びネットワークＮを介して接続された又は接続可能なサーバーＳを含んでいる。図５に示すように、クライアントＣは、ハードディスク・レコーダー並びにテレビ装置及び／又はそれと同等な装置（コンピューター・システムのような）を有して良い。一方、サーバーＳは、専用のコンピューター・システム又は適切なソフトウェア・プログラムを実行している汎用目的のコンピューター・システムを有して良い。ネットワークＮは、インターネット、POTＳ（アナログ電話サービス）ネットワーク、ＩＳＤＮネットワーク、ＬＡＮ(ローカル・エリア・ネットワーク)、ケーブルでの直接接続、及び／又は、サーバーＳとクライアントＣとの他の適切なリンクを有して良い。

サーバーＳでは、元の又は１次ビデオ・シーケンスＭが利用可能である。１次ビデオ・シーケンスは、例えば、動画やビデオ・クリップであるが、これは、サーバー自身のハードディスク若しくは他の記憶装置、又は、そのサーバーに接続された外部記憶装置に格納されてよい。１次ビデオ・シーケンスＭに対応する元の又は１次深度マップも、サーバー上で利用可能である。この深度マップＤは、適切なビデオ・レンダリング装置がビデオ・シーケンスＭの３次元レンダリングを生成することを可能とする情報を含む。換言すると、深度マップＤは、追加深度情報を含んでいる。前記深度情報は、それぞれのビデオ・シーケンス画像毎に与えられてもよいが、標準的には、所要データ量を低減するために画像セット（例えば、５、１０又は２０のシーケンスの連続する画像のセット）毎に与えられ、クライアントＣでのビデオ・レンダリング装置は、ビデオ・シーケンスの個々の画像毎に深度情報を生成するために深度情報を補間する及び／又は推定することが可能である。

クライアントＣは、ビデオ・シーケンスの変更したバージョンＭ＊を保存する。この変更した又は２次ビデオ・シーケンスＭ＊は編集、エラー発生中の複製、その他によって、１次ビデオ・シーケンスから導出されうる。これは図６に示されており、図６は、図５のシステムにおけるサーバーに格納された元の（１次）ビデオ・シーケンスＭが長さＬを有していることを示す。この元のビデオ・シーケンスＭは、放送されない又はレンタル若しくはダウンロードのバージョンからは削除されたかもしれない不適切な表現がある場面を含みうる。

２次ビデオ・シーケンスＭ＊は、放送を録画すること、ＤＶＤ（デジタル・ヴァーサタイル・ディスク）を複製すること、又は、インターネットからダウンロードすることによって得られうる。放送バージョンは、標準的にはコマーシャルＹを含む。

ユーザーが放送ビデオ・シーケンスを録画するとき、録画開始時間と放送開始時間に相違があり得る。その結果、実際のビデオ・シーケンスの前及び後ろにそれぞれ追加期間Ｘ及びＺが生じる。結果的に、当該変更された（２次）ビデオ・シーケンスＭ＊は、元の長さＬよりも長い長さＬ＊を有する。コマーシャルＹ並びに追加部分Ｘ及びＺが削除された場合でさえ、元のビデオ・シーケンスＭと録画されたビデオ・シーケンスＭ＊には相違が残存する。

この相違は、例えばアナログ・ソース（アナログ・テレビ又はＶＨＳビデオ・テープ）からの録画によって品質の如何なる損失によっても一層ひどくなりうる。結果的に、元の深度マップＤは、録画されたビデオ・シーケンスＭ＊には適合せず、画像の歪み及び不要なアーチファクトをもたらすこととなる。この問題を解決するため、元のビデオ・シーケンスをサーバーからクライアントへ（再）送信することは、もちろん可能である。

しかし、これはかなりの量の帯域幅（データ送信能力）を必要とし、結局ビデオ・データの複製となる。更に、例えばクライアントがアナログのビデオ・レコーダーを用いるときは、クライアントが元のビデオ・シーケンスの厳密な複製を保存することが可能でない場合がありうる。

本発明によると、元のビデオ・シーケンスＭは送信又は再送信されない。代わりに、元の（１次）深度マップＤが、クライアントで変更された（２次）深度マップＤ＊を生成する（図１及び２）ために送信される、又は、変更された（２次）ビデオ・シーケンスＭ＊の特徴が、サーバーで変更された（２次）深度マップＤ＊を生成する（図３及び４）ために送信される。深度マップは、対応するビデオ・シーケンスより標準的には有意に少ない情報しか含まないので、ビデオ・シーケンスの代わりに深度マップを送信することはかなりの帯域幅削減につながることが理解されるだろう。同様に、ビデオ・シーケンスの特徴もまた、標準的にはビデオ・シーケンス自体より有意に少ない情報しか含まないので、この場合も、かなりの帯域幅削減が達成されうる。

図１に、本発明の第１の実施例の方法の段階を図示する。サーバーＳ上で、１次ビデオ・シーケンスＭとそれに関連付けられた深度マップＤは利用可能であり、一方、２次ビデオ・シーケンスＭ＊はクライアントＣで利用可能である。留意すべき点は、本発明を実行する時、サーバーでの１次ビデオ・シーケンスＭの利用可能性は必須ではないことである。

本発明によると、１次深度マップＤは、クライアントで２次深度マップＤ＊を導出するために、サーバーからネットワークＮを介してクライアントＣへ送信される。一方、元のビデオ・シーケンスＭは送信されない（留意すべき点は、元のビデオ・シーケンスＭはより早い段階では送信される場合があり、結果的に変更されたビデオ・シーケンスＭ＊をもたらすことである。本発明は、２次ビデオ・シーケンスＭ＊がクライアントで利用可能な状況に特に適用される。）。上述のように、ネットワークＮは、１本のケーブルより構成されてよいが、標準的には、インターネット及び／又は電話ネットワークにより構成される。

クライアントＣ上で、２次ビデオ・シーケンスＭ＊は、シーケンスＭ＊とマップＤの調整（又はマッチング）を表す調整情報ＡＩを生成するために、１次深度マップＤと揃えられる(段階ＡＬ)。前記調整情報ＡＩは、その後、クライアントの２次ビデオ・シーケンスＭ＊と合う２次（調整された）深度マップＤ＊を導出するために、１次深度マップＤを調整又は編集（段階ＥＤ）するために用いられる。前記２次深度マップＤ＊及び前記２次ビデオ・シーケンスＭ＊は、３Ｄテレビ・セットのような３次元視聴に適したレンダリング装置に入力されうる。

図１の実施例において、１次深度マップの特徴FＤ及び２次ビデオ・シーケンスの特徴FＭ＊をそれぞれ生成する任意の特徴抽出(ＦＥ)段階が、１次深度マップＤと２次ビデオ・シーケンスＭ＊との調整（段階ＡＬ）の前に行われる。

従来の特徴抽出は、含まれるデータ量を削減することによって調整を実現する。

種々の特徴は、別個に又は組み合わせて抽出され、調整に使われてよい。ショット・カット検出方法がよく知られているように、非常に適している特徴は、ショット・カット（場面切り替え）である。その他の特徴は、色（色統計を含む）、明るさ（輝度ヒストグラムを含む）、エッジ・マップ、山及び／又は谷、その他を含む。ビデオ・シーケンスがオーディオ・シーケンスを伴っている場合は、例えば、無音期間のような音声の特徴も用いられてよい。原則的に、１次深度マップＤと２次ビデオ・シーケンスＭ＊の画像（のセット）の対応を決めることを可能にする如何なる特徴が用いられてもよい。

調整（ＡＬ）段階は、近似文字列照合といった周知のテクニックを有してよい。特徴を用いることに代えて、又はそれに加えて、ピクセル相関テクニックを用いてもよい。

編集（ＥＤ）段階は、２次深度マップＤ＊を導出するために、調整情報ＡＩと１次深度マップＤの両方を含む。この編集段階は、調整情報によって示された深度マップＤの選択された部分を復号することを含んでよい。これらの部分は、次に、２次深度マップＤ＊を生成するために再符号化される。

図２の実施例では、調整（ＡＬ）段階の前に、深度マップ推定（ＤＭE）段階が行われる。深度マップ推定（ＤＭE）段階は、２次ビデオ・シーケンスＭ＊から導出された予備２次深度マップＤ＊＊をもたらす。深度マップ生成技術は、それ自体知られている。

予備２次深度マップＤ＊＊は、１次深度マップに直接合わせられてもよいし、又は、図２に示されているような個々の特徴抽出（ＦＥ）段階を介して合わせられてもよい。深度マップからの特徴抽出は、ビデオ・シーケンスからの特徴抽出と一致し得る。

１次深度マップＤに加え、１次ビデオ・シーケンスＭに関連付けられたメタデータが、サーバーＳからクライアントＣへ送信されうる。適切なメタデータはタイムスタンプ、ショット・カット表示、エントリー・ポイント等を有してよい。

図１及び図２の実施例では、調整と２次深度マップＤ＊の生成が、クライアントＣで実行される。図３及び４の代替の実施例では、これらの段階はサーバーＳで実行される。

図３に示すように、２次ビデオ・シーケンスＭ＊の特徴FＭ＊は、特徴抽出（ＦＥ）段階において、クライアントＣで最初に抽出される。この段階は、サーバーＳに送信されるデータ量を有意に削減する。サーバー上では、１次ビデオ・シーケンスＭの特徴FＭも抽出され、特徴FＭ及びFＭ＊の調整（ＡＬ）が可能となり、その結果、調整情報ＡＩが生成される。編集（ＥＤ）段階では、この調整情報ＡＩは、２次深度マップＤ＊を生成するため、１次深度マップＤを「編集」するのに利用される。２次深度マップＤ＊は、その後、クライアントＣに送信される。これらの段階は、図１の実施例の段階と密接に対応することが分かる。

図４の実施例は、サーバー上で機能抽出を行うことを除いて、図３の実施例と基本的に同一である。図３の実施例では、１次ビデオ・シーケンスＭの特徴ＦＥがサーバー上で抽出されるのに対して、図４の実施例では、１次深度マップＤの特徴FＤが抽出される（段階ＦＥ）。これにより、１次ビデオ・シーケンスＭがサーバーＳ上に存在する必要がなくなる。

図７に、クライアント・ユニット１０の例である実施例を示す。図７の単なる例であり、非限定的な実施例では、クライアント・ユニット１０は、第１の特徴抽出（ＦＥ）ユニット１１、第２の特徴抽出（ＦＥ）ユニット１２、調整（ＡＬ）ユニット１３、編集（ＥＤ）ユニット１４、組合せ（ＣＯ）ユニット１５、記憶（ＳＴ）ユニット１６、インターフェース（ＩＦ）ユニット１７及び任意の深度マップ推定（ＤＭE）ユニット１８を有する。クライアント・ユニット１０は、例えば送信ユニットのような、説明図の明確化のために示していない更なるコンポーネントを有してよい。

記憶ユニット１６は、２次ビデオ・シーケンスＭ＊を格納する。２次ビデオ・シーケンスＭ＊は、直接又は任意の深度マップ推定ユニット１８を介して、第１特徴抽出ユニット１１へ入力される。インターフェース・ユニット１７は、サーバー（図１のＳ）から１次深度マップＤを受信し、この深度マップＤを第２特徴抽出ユニット１２に入力する。この抽出された特徴は、調整ユニット１３で揃えられ（つまり、照合され）、結果として生じた調整情報が、１次深度マップＤとともに編集ユニット１４へと入力される。編集ユニット１４で生成された２次深度マップＤ＊は、組合せユニット１５へ入力され、組合せユニット１５で２次ビデオ・シーケンスと組み合わされ、３Ｄテレビ装置のような適切なレンダリング装置に送信される。

図８に、サーバー・ユニット２０の例である実施例を示す。図８の単なる例であり、非限定的な実施例では、サーバー・ユニット２０は、特徴抽出（ＦＥ）ユニット２１、調整（ＡＬ）ユニット２３、編集（ＥＤ）ユニット２４、記憶（ＳＴ）ユニット２６、インターフェース（ＩＦ）ユニット２７及び送信（ＴＲ）ユニット２９を有する。サーバー・ユニット２０は、説明図の明確化のために示していない更なるコンポーネントを有してよい。

１次深度マップＤ及び（任意の）１次ビデオ・シーケンスＭは、記憶ユニット２６に格納される。記憶ユニット２６は、深度マップＤを編集ユニット２４に入力し、深度マップＤ又は１次ビデオ・シーケンスＭを特徴抽出ユニット２１に供給する。インターフェース・ユニット２７は、クライアントＣから、２次ビデオ・シーケンスから抽出された特徴FＭ＊を受信し、これらの特徴を調整ユニット２３へと送る。調整ユニット２３は、抽出ユニット２１で抽出された特徴も受け取る。その結果生成される調整情報及び１次深度マップが、２次深度マップＤ＊を生成するために、編集ユニット２４で用いられる。２次深度マップは、送信ユニット２９によってクライアントへ送信される。

本発明は、コマーシャル検出に利用されてもよい。図６に示すように、コマーシャルＹは、元のビデオ・シーケンスＭに割り込みうる。これらのコマーシャル中、１次深度マップＤは、もはや２次ビデオ・シーケンスＭ＊に適合しなくなる。より詳細には、コマーシャル中は調整が不可能である。結果的に、調整情報(図１乃至４のＡＩ)は、コマーシャル及び(１次)ビデオ・シーケンスの同様の割り込みの存在又は不在を表す。

本発明は、２次ビデオ・シーケンスの２次深度マップを生成する方法として要約されうる。当該方法では、２次ビデオ・シーケンスは１次深度マップを有している１次ビデオ・シーケンスから前もって導出され、２次ビデオ・シーケンスはクライアント上で利用可能であり、１次ビデオ・シーケンス及び１次深度マップはサーバーで利用可能である。クライアントとサーバーはネットワークで接続され、当該方法はサーバー及びクライアント間のビデオ・シーケンスの送信の段階を排除する。

本発明は、１次ビデオ・シーケンスから又は２次ビデオ・シーケンスから特徴を抽出すること、並びに、１次深度マップ及び抽出された特徴から２次深度マップを生成することによってビデオ・シーケンスの送信が回避できるという見識に基づく。

留意すべき点は、本願明細書で用いられた如何なる語も、本発明の範囲を限定するものと見なされるべきでないことである。特に「有する」の語は、詳細に記載されない如何なる要素を排除することを意味しない。単数の（回路）要素は、複数の（回路）要素又はそれらの等価物で代用されてよい。

当業者には、本発明は以上に説明された例である実施例に限定されず、複数の変形及び変更が請求の範囲に定められた本発明の範囲内で可能であることが明らかであろう。

Claims

方法であって、２次ビデオ・シーケンスの２次深度マップを生成し、前記２次ビデオ・シーケンスは、１次深度マップを有する１次ビデオ・シーケンスから導出され、前記１次ビデオ・シーケンスは元のビデオ・シーケンスであり、前記２次ビデオ・シーケンスは前記元のビデオ・シーケンスの変更されたバージョンであり、前記２次ビデオ・シーケンスは、クライアントで利用可能であり、前記１次深度マップは、サーバーで利用可能であり、前記クライアント及びサーバーは、ネットワークにより結合され、前記方法は：
−前記１次深度マップを前記サーバーから前記クライアントへ送信する段階；
−前記クライアントで、前記１次深度マップの画像を前記２次ビデオ・シーケンスの画像と照合させ、前記１次深度マップの画像と前記２次ビデオ・シーケンスの画像との間の対応を示す調整情報を生成する段階；
−前記クライアントで、前記２次深度マップを前記１次深度マップから前記調整情報を用いて導出する段階；を有する方法。
前記照合は：
−前記２次ビデオ・シーケンスから特徴を抽出する段階、
−前記１次深度マップから特徴を抽出する段階、
−前記抽出した特徴を照合させる段階、を有し、前記抽出した特徴は、ショット・カット、エッジ・マップ、色統計、及び／又は明るさの統計を有する、請求項１記載の方法。
前記照合は：
−前記２次ビデオ・シーケンスから予備の２次深度マップを抽出する段階、及び
−前記予備の２次深度マップと前記１次深度マップを照合させる段階、を有する、請求項１記載の方法。
前記１次ビデオ・シーケンスは、前記サーバーでも利用可能である、請求項１記載の方法。
方法であって、２次ビデオ・シーケンスの２次深度マップを生成し、前記２次ビデオ・シーケンスは、１次深度マップを有する１次ビデオ・シーケンスから導出され、前記１次ビデオ・シーケンスは元のビデオ・シーケンスであり、前記２次ビデオ・シーケンスは前記元のビデオ・シーケンスの変更されたバージョンであり、前記２次ビデオ・シーケンスは、クライアントで利用可能であり、前記１次ビデオ・シーケンスと前記１次深度マップは、サーバーで利用可能であり、前記クライアント及びサーバーは、ネットワークにより結合され、前記方法は：
−前記サーバーで、前記１次ビデオ・シーケンスから１次特徴を抽出する段階；
−前記クライアントで、前記２次ビデオ・シーケンスから２次特徴を抽出する段階；
−前記２次特徴を前記クライアントから前記サーバーへ送信する段階；
−前記サーバーで、前記１次特徴を前記２次特徴と照合させ、前記１次深度マップの画像と前記２次ビデオ・シーケンスの画像との間の対応を示す調整情報を生成する段階；
−前記サーバーで、前記調整情報を用いて、前記１次深度マップから前記２次深度マップを導出する段階；及び
−前記２次深度マップを前記サーバーから前記クライアントへ送信する段階；を有し、
前記抽出した特徴は、ショット・カット、エッジ・マップ、色統計、及び／又は明るさの統計を有する、方法。
前記サーバーで抽出する段階は、前記１次ビデオ・シーケンスからではなく、前記１次深度マップから特徴を抽出する段階を有する、請求項５記載の方法。
前記照合は、前記サーバーから前記クライアントへ送信されたメタデータを更に有する、請求項１記載の方法。
コンピューター・プログラムであって、請求項１又は５記載の方法を実行するコンピューター・プログラム。
システムであって、２次ビデオ・シーケンスの２次深度マップを生成し、前記２次ビデオ・シーケンスは、１次深度マップを有する１次ビデオ・シーケンスから導出され、前記１次ビデオ・シーケンスは元のビデオ・シーケンスであり、前記２次ビデオ・シーケンスは前記元のビデオ・シーケンスの変更されたバージョンであり、前記２次ビデオ・シーケンスは、クライアントで利用可能であり、前記１次深度マップは、サーバーで利用可能であり、前記クライアント及びサーバーは、ネットワークにより結合され、前記クライアント及びサーバーは、それぞれクライアント・ユニット及びサーバー・ユニットを有し、
前記サーバー・ユニットは：
−前記１次深度マップを前記クライアントへ送信する送信ユニット；を有し、
前記クライアント・ユニットは：
−前記１次深度マップの画像を前記２次ビデオ・シーケンスの画像と照合させ、前記１次深度マップの画像と前記２次ビデオ・シーケンスの画像との間の対応を示す調整情報を生成する照合ユニット；
−前記調整情報を用い、前記２次深度マップを前記１次深度マップから導出する導出ユニット；を有する、システム。
前記クライアント・ユニットは：
−前記２次ビデオ・シーケンスから特徴を抽出する第１の抽出ユニット、
−前記１次深度マップから特徴を抽出する第２の抽出ユニット、及び
−前記抽出した特徴を合わせる調整ユニット、を有し、前記抽出した特徴は、ショット・カット、エッジ・マップ、色統計、及び／又は明るさの統計を有する、請求項９記載のシステム。
前記クライアント・ユニットは：
−前記２次ビデオ・シーケンスから予備の２次深度マップを抽出する更なる導出ユニットを有し、
−前記照合ユニットは、前記予備の２次深度マップと前記１次深度マップを照合する、請求項９記載のシステム。
−前記予備の２次深度マップから特徴を抽出する第１の抽出ユニット、
−前記１次深度マップから特徴を抽出する第２の抽出ユニット、を更に有し、前記抽出した特徴は、ショット・カット、エッジ・マップ、色統計、及び／又は明るさの統計を有する、請求項１１記載のシステム。
システムであって、２次ビデオ・シーケンスの２次深度マップを生成し、前記２次ビデオ・シーケンスは、１次深度マップを有する１次ビデオ・シーケンスから導出され、前記１次ビデオ・シーケンスは元のビデオ・シーケンスであり、前記２次ビデオ・シーケンスは前記元のビデオ・シーケンスの変更されたバージョンであり、前記２次ビデオ・シーケンスは、クライアントで利用可能であり、前記１次ビデオ・シーケンスと前記１次深度マップは、サーバーで利用可能であり、前記クライアント及びサーバーは、ネットワークにより結合され、前記システムにおいて、
前記クライアントは：
−前記２次ビデオ・シーケンスから２次特徴を抽出するクライアント抽出ユニット、
−前記２次特徴を前記サーバーへ送信するクライアント送信ユニット、を有し、
前記サーバーは：
−前記１次ビデオ・シーケンスから１次特徴を抽出するサーバー抽出ユニット、
−前記１次特徴を前記２次特徴と照合させ、前記１次深度マップの画像と前記２次ビデオ・シーケンスの画像との間の対応を示す調整情報を生成する照合ユニット、
−前記調整情報を用いて、前記１次深度マップから前記２次深度マップを導出する導出ユニット、及び
−前記２次深度マップを前記クライアントへ送信するサーバー送信ユニット、を有し、前記抽出した特徴は、ショット・カット、エッジ・マップ、色統計、及び／又は明るさの統計を有する、システム。
クライアント・ユニットであって、請求項９又は１３に記載のシステムで用いられるクライアント・ユニット。
サーバー・ユニットであって、請求項９又は１３に記載のシステムで用いられるサーバー・ユニット。