JP7378465B2

JP7378465B2 - ビデオストリームを生成及びレンダリングするための装置及び方法

Info

Publication number: JP7378465B2
Application number: JP2021516630A
Authority: JP
Inventors: バルトロメウスウィルヘルムスダミアヌスソンヴェルト; クリスティアンヴァーエカンプ
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2018-09-25
Filing date: 2019-09-16
Publication date: 2023-11-13
Anticipated expiration: 2039-09-16
Also published as: CN112753224A; US20220053222A1; TW202027510A; TWI824016B; EP3857898A1; CN112753224B; EP3857898B1; JP2022514140A; WO2020064376A1; BR112021005361A2; KR20210065151A; US11317124B2; EP3629584A1

Description

本発明は、ビデオストリームの生成及びレンダリングに関し、特に、限定はしないが、仮想現実アプリケーションのためのビデオストリームの生成及びレンダリングに関する。

画像及びビデオアプリケーションの多様性及び範囲が、近年大幅に増加しており、ビデオを利用及び消費する新しいサービス及びやり方が、継続的に開発され導入されている。

例えば、人気が高まっている１つのサービスは、視聴者がシステムと能動的に及び動的に対話してレンダリングのパラメータを変更することができるようなやり方で画像シーケンスを提供することである。多くのアプリケーションの非常に魅力的な機能は、視聴者の有効な視聴位置及び視聴方向を変更する機能、例えば、提示されているシーン内で視聴者が移動し「見回す」ことができることなどである。

そのような機能により、具体的に、仮想現実体験をユーザに提供することができる。これにより、ユーザは、仮想環境を（比較的）自由に動き回り、自身の位置と、自身が見ている場所とを動的に変更することができる。一般に、そのような仮想現実アプリケーションはシーンの３次元モデルに基づき、このモデルは、特定の要求されたビューを提供するために動的に評価される。この手法は、例えば、一人称シューティングゲームのカテゴリなどにおけるコンピュータ及びコンソール用のゲームアプリケーションからよく知られている。

さらに、特に仮想現実アプリケーションでは、提示されている画像が３次元画像であることが望ましい。実際は、視聴者の没入を最適化するために、一般に、ユーザが、提示されたシーンを３次元シーンとして体験することが好ましい。実際、仮想現実体験により、好ましくは、ユーザは、仮想世界に関して、ユーザ自身の位置、カメラ視点、及び時点を選択することができる。

一般に、仮想現実アプリケーションは、それがシーンの所定のモデルに基づいており、一般に仮想世界の人工モデルに基づいているという点で本質的に限定される。現実世界のキャプチャに基づいて仮想現実体験を提供できれば望ましい。しかしながら、多くの場合、そのような手法は、非常に制限されるか、又は現実世界の仮想モデルを現実世界のキャプチャから構築することを必要とする傾向がある。次いで、仮想現実体験は、このモデルを評価することによって生成される。

しかしながら、現在の手法は、最適ではない傾向があり、多くの場合、高い計算又は通信リソース要件を有し、及び／又は例えば品質が低下した又は自由が制限された最適ではないユーザ体験を提供する傾向がある。

アプリケーションの一例として、仮想現実メガネが市場に参入した。これらのメガネにより、視聴者は、キャプチャされた３６０度（パノラマ）又は１８０度ビデオを体験することができる。これらの３６０度ビデオは、多くの場合、カメラリグを使用して事前にキャプチャされており、個々の画像は、単一球状マッピングに一緒にスティッチされる。１８０又は３６０ビデオの普通のステレオフォーマットは、上／下及び左／右である。非パノラマステレオテレビと同様に、左目及び右目の画像は、単一のＨ．２６４ビデオストリームの一部として圧縮される。単一のフレームを復号化した後、視聴者は、頭を回して、視聴者のまわりの世界を見る。一例は、視聴者が、３６０度ルックアラウンド効果を体験し、異なる位置から記録されたビデオストリーム間を離散的に切り替えることができる記録である。切り替えるとき、別のビデオストリームがロードされ、体験が中断される。

ステレオパノラマビデオ手法の１つの欠点は、視聴者が仮想世界の位置を変更できないことである。パノラマステレオビデオに加えてパノラマ深度マップの符号化及び送信は、クライアント側の視聴者の小さい並進モーションの補償を可能にするが、そのような補償は、本質的に、小さい変動及び動きに限定され、没入型で自由な仮想現実体験を提供することができない。

関連する技術は、深度マップをもつ多数のビューポイントが符号化され、単一のビデオストリームで送信される自由視点ビデオである。しかしながら、そのような手法は、高いビットレートを必要とし、生成される画像に関して制限がある。

自由視点視覚化のためのキャプチャ及び再生システムの一例が、図１に示される。キャプチャ側（サーバ側ＳＲＶ）において、シーン１０１は１次元又は２次元カメラアレイ１０３によってキャプチャされる。各カメラは、異なる基準／アンカ位置を有し、わずかに異なる観点からシーンを観察する。リモート再生側（クライアント側ＣＬＮＴ）において、視聴者１０４は、キャプチャされたコンテンツを３Ｄディスプレイ１０７で又は仮想現実メガネを使用して見る。視聴者の目の位置、それゆえに、視聴の観点は、例えば、アイトラッカ１０９を使用して測定される。対応するカメラ信号が、ネットワーク１１１を介してコンテンツをストリーミングするサーバ１０５から選択され取り出される。コンテンツは、ライブで送られるか、又はサーバのファイルシステム上から送られる。クライアント側（ＣＬＮＴ）において、受信器１１３は、受信したコンテンツ／画像／ビデオストリームを復号化して、復号化されたストリームを生成するデコーダを含む。次いで、ディスプレイコントローラ１１５が、適切なビュー画像を生成し、それらをディスプレイ１０７上にレンダリングする。システムにおいて、視聴者の検出された観点／ポーズに応じて、カメラストリームのサブセットが選択及び使用されて、レンダリングされた画像が生成される。

提示されたビューが頭の動作に対応して動的に変化する手法は、「モーション視差」と呼ばれる。モーション視差は、各々の目がシーンの異なる遠近ビューを受け取る３Ｄ立体視と一致していることが好ましい。カメラのビューデータに深度（又は視差推定）情報が伴う場合、実際のカメラ視点の間にある視点が合成される。これは、円滑な再生のために使用される。それはまた、キャプチャされた視点を越えて限定的な外挿を可能にする。図１のシステムにおいて、データは、サーバ１０５からネットワーク１１１を介して１つ又は複数のクライアントに移送される。これを効率的に行うために、画像及び深度マップの（マルチビュー）ビデオ符号化が使用される。

説明されるアプリケーションは対話型システムである。カメラストリームは、視聴者の頭のモーションに応じて選択される。対話部分の待ち時間は、知覚されるビューを遅れさせ、視覚体験を劣化させる。深度ベースビュー合成を使用することによって、小さい待ち時間を補償することができる。

対話性（ビュー切替え）に影響を及ぼす２つの主要な待ち時間成分が考慮される。
１．ネットワーク送信待ち時間
「選択」信号が、サーバへとアップストリームに送られ、正しいカメラビューが、視聴サイトへとダウンストリームに送信される。そのとき、チャネル又はネットワークのラウンドトリップ遅延は、待ち時間の最初の部分を決定する。
２．復号化待ち時間
効率的な符復号器は、多数の時系列ビデオフレームのセットを「グループ・オブ・ピクチャ」（ＧＯＰ）で差動的に一緒に符号化する。そのとき、一部のフレームは、前に送信されたフレームを参照する必要がある。大きいＧＯＰには、符号化の効率（帯域幅）の利点がある。但し、大きいＧＯＰはまた、復号化の待ち時間を増加させる。それは、符号化されたストリーム間の瞬時切替えを妨げる。

差動符号化は、ビデオ符号化でよく知られており、時間的及び空間的差動符号化の両方が可能である多くの異なるやり方で適用される。例えば、画像全体を独立して（フレーム内で）符号化するのではなく、他の時間インスタンスからのフレームに対する差分のみが符号化される。例えば、高効率ビデオ符号化（ＨＥＶＣ）規格及びその前のものは、これを広範囲に使用している。他のカメラ視点からのフレームは、同様に、差動的に符号化される。これは、例えば、ＨＥＶＣのマルチビュー拡張であるＭＶ－ＨＥＶＣに説明されている。

ネットワーク送信待ち時間は、ほとんどの場合、アプリケーションによって容易に修正することができない所与のパラメータである。ネットワーク送信待ち時間は、例えばネットワーク負荷に応じて、経時的に変化する。他方、符号化待ち時間は、設計で考慮すべき事項である。小さいＧＯＰサイズを選ぶと、待ち時間は減少するが、同時に符号化効率が低下する。

改善されたユーザ体験を提供するために、及び、特に、動的に適応できる体験を提供するために、可能な限り待ち時間を減少させることが望ましい。この待ち時間の問題を解決するための簡単な手法は、すべてのカメラビューを一緒に又は別個のストリームとして符号化し送信することである。視聴サイトでは、次いで、どのビューを使用するかを瞬時に決定する。しかしながら、そのような手法は、データレートが非常に高くなり、ネットワークの高い帯域が必要とされ、それは、多くのアプリケーションでは極めて望ましくない。実際、この手法は、多分、シナリオによっては、少数のカメラでは実現可能であるが、多数のストリーム／カメラまでの十分な拡張性がなく、多くのアプリケーションで実用的でない。さらに、復号器の待ち時間のために、すべてのビューは継続的に復号化されなければならず、これはクライアントにおいて高い計算リソースを必要とする。

したがって、改善された手法は有利である。特に、操作の改善、柔軟性の向上、データレートの低減、分散の促進、複雑性の低減、実装の簡単化、計算要件の低減、待ち時間の減少、ユーザ体験の改善、及び／又は性能及び／又は操作の改善を可能にする手法は、有利である。

したがって、本発明は、好ましくは、上記の欠点のうちの１つ又は複数を単独で又は組合せで軽減するか、緩和するか、又は除去しようとする。

本発明の一態様によれば、出力ビデオストリームを生成するための装置が提供され、この装置は、複数の基準ビデオストリームをシーンの複数の基準視点に提供するためのプロセッサと、リモートクライアントからの視点要求を受信するための受信器であって、視点要求が、出力ビデオストリームに対してシーンの要求された視点を示す、受信器と、第１の視点のための複数の基準ビデオストリームのうちの第１の基準ビデオストリームからの第１の出力フレームを含む第１のビデオストリーム、及び第２の基準視点のための複数の基準ビデオストリームのうちの第２の基準ビデオストリームからの第２の出力フレームを含む第２のビデオストリームを含む出力ビデオストリームを生成するための発生器であって、第２の出力フレームが第１の出力フレームを基準にして差動的に符号化され、第１の出力フレームが第２の出力フレームを基準にして差動的に符号化されない、発生器と、視点要求に応じて、第１の視点及び第２の視点を複数の基準視点の視点として決定するためのコントローラとを含み、コントローラが、出力ビデオストリームの生成中に、基準を満たす視点要求の変化を検出したことに応じて、複数の基準視点のうちの第１の基準視点である第１の視点及び複数の基準視点のうちの第２の基準視点である第２の視点から第２の基準視点である第１の視点及び第１の基準視点である第２の視点に変更するように構成され、この装置が、いくつかの追加のビデオストリームを出力ビデオストリームに含めるように構成され、各追加のビデオストリームが、第１の出力フレームを基準にして差動的に符号化された複数の基準ビデオストリームの追加の基準ビデオストリームからの出力フレームを含み、コントローラが、視点要求の変動尺度、及び出力ビデオストリームを送信するための通信チャネルの待ち時間尺度のうちの少なくとも１つに応じて追加のビデオストリームの数を決定するように構成される。

本発明は、シーンを表すビデオストリームの改善された及び／又は有用な生成を提供する。それは、出力ビデオストリームに基づいて画像のリモート合成をサポートするか又は容易にする追加の又は冗長な情報を提供する。この手法は、ＶＲサービスの効率的なサポートを可能にし、及び／又はリモート画像合成のための高度の柔軟性を維持しながら全データレートを低減する。

この手法は、例えば、改善されたクライアントサーバベースのＶＲサービスをサポートし、画像の最終合成は、クライアント側で実行される。

この手法は、特に、異なるアンカ視点間を切り替えるとき移行アーチファクトを低減する。例えば、あるアンカ視点から別のアンカ視点に切り替える場合、両方のアンカビデオストリームは、切り替えの前に、間に、及び後に、これらの符号化の変更のみに継続的に提供される。

システムは、出力ビデオストリームの動的な適応を提供するために操作を動的に実行するように構成される。

本発明のオプションの特徴によれば、第１の出力フレームは、第１の視点以外の基準視点のフレームを参照することなく符号化される。

これは、多くの実施形態において改善された動作を提供する。

本発明のオプションの特徴によれば、第１の出力フレームはイントラ符号化される。

これは、多くの実施形態において改善された動作を提供し、具体的には、復号化待ち時間が低減されるので待ち時間を低減する。イントラ符号化されたフレームは、すべての他のフレームと無関係に符号化されたフレームである。

本発明のオプションの特徴によれば、第１の出力フレームの一部は、第１の出力フレームの他のフレームを基準にして差動的に符号化される。

これは、多くの実施形態において改善された性能を提供し、具体的には、出力ビデオストリームの全データレートを低減する。

本発明のオプションの特徴によれば、出力発生器は、第１の出力フレームを基準にして第２の基準ビデオストリームからのフレームを差動的に符号化することによって、第２の出力フレームを生成するように構成される。

これは、効率的で適応性のある動作を提供し、特に、実時間マルチキャストアプリケーションなどの実時間アプリケーションに適する。

本発明のオプションの特徴によれば、プロセッサは、複数の基準ビデオストリームの少なくとも一部の差動的に符号化されたバージョンを格納するように構成され、基準ビデオストリームの差動的に符号化されたバージョンは、別の基準ビデオストリームのフレームに対して差動的に符号化されたフレームを含む。発生器は、第１の基準ビデオストリームのフレームを基準にして差動的に符号化されたフレームを含む第２のビデオストリームのバージョンである第２の基準ビデオストリームの差動的に符号化されたバージョンを取り出すことに応じて、第２のビデオストリームを生成するように構成される。

これは、多くの実施形態において効率的な動作を提供し、具体的には、計算複雑性及びリソース要件を低減する。それは、装置が多数のクライアントのための異なる出力ビデオストリームを生成するアプリケーションに特に適する。

いくつかの実施形態では、プロセッサは、複数のアンカビデオストリームと、他の視点のビデオストリームを基準にして差動的に符号化されている複数のビデオストリームのうちの少なくとも１つに関してのいくつかの差動的に符号化されたアンカビデオストリームとを格納するように構成される。発生器は、視点要求に基づいて複数のビデオストリームから選択された、取り出されたビデオストリームから第１のビットストリームを生成し、取り出されたビデオストリームの視点に対して差動的に符号化されている、取り出された差動的に符号化されたビデオストリームから第２のビットストリームを生成するように構成される。

本発明のオプションの特徴によれば、プロセッサは、複数の基準ビデオストリームをファイルとして格納するように構成され、コントローラは、視点要求のファイル取出し要求に応じて、第１の基準ビデオストリーム及び第２の基準ビデオストリームを選択するように構成され、ファイル取出し要求は、基準ビデオストリームを含む格納されたファイルを示す。

これは、多くの実施形態において、効率的で複雑性の低い実施態様を提供する。

本発明のオプションの特徴によれば、コントローラは、要求された視点と複数の基準視点との間の距離に応じて第１の視点を変更するように構成される。

これは、多くの実施形態において非常に有利な動作を提供する。

本発明のオプションの特徴によれば、コントローラは、要求された視点の変化率に応じて第１の視点を変更するように構成される。

本発明のオプションの特徴によれば、コントローラは、待ち時間尺度に応じて第１の視点を変更するように構成される。

待ち時間尺度は、出力ビデオストリームを送信するための通信チャネルの待ち時間尺度を示す。待ち時間尺度は、装置の処理の待ち時間を示し、視点要求を受信することと、その視点要求に基づいて出力ビデオストリームを適応させることとの間の遅延を示す。

この装置は、いくつかの追加のビデオストリームを出力ビデオストリームに含めるように構成され、各追加のビデオストリームは、第１の出力フレームを基準にして差動的に符号化された複数の基準ビデオストリームの追加の基準ビデオストリームからの出力フレームを含み、コントローラは、出力ビデオストリームを送信するための通信チャネルの待ち時間尺度に応じて、追加のビデオストリームの数を決定するように構成される。

これは、多くの実施形態において改善された性能を提供し、具体的には、現在の状態にデータレートの改善された動的な適応を提供する。

この装置は、いくつかの追加のビデオストリームを出力ビデオストリームに含めるように構成され、各追加のビデオストリームは、第１の出力フレームを基準にして差動的に符号化された複数の基準ビデオストリームの追加の基準ビデオストリームからの出力フレームを含み、コントローラは、視点要求の変動尺度に応じて、追加のビデオストリームの数を決定するように構成される。

ビデオストリームをレンダリングするための装置は、ビデオストリームを受信するための受信器であって、ビデオストリームが、シーンの第１の視点のフレームを表す第１のフレームを含む第１のビデオストリームと、第２の視点からのシーンの第２のフレームを含む第２のビデオストリームとを含み、第２のフレームが第１のフレームを基準にして差動的に符号化され、第１のフレームが第２のフレームを基準にして差動的に符号化されない、受信器と、第１のビデオフレーム及び第２のビデオフレームに応じて視点の出力ビュー画像をレンダリングするためのレンダラと、第１の基準視点に対応する第１の視点及び第２の基準視点に対応する第２の視点から第２の基準視点に対応する第１の視点及び第１の基準視点に対応する第２の視点へのビデオストリームの変化を検出するための検出器と、その検出に応じてレンダリングを適応させるためのアダプタとを含む。

レンダラは、第１のフレーム及び第２のフレームのうちの少なくとも１つに適用された視点シフトを使用してビュー画像を合成するように構成される。

アダプタは、第１のフレーム及び第２のフレームのうちの少なくとも１つの視点の変化を補償するように視点シフトを適応させるように構成される。

本発明の一態様によれば、出力ビデオストリームを生成する方法が提供され、この方法は、複数の基準ビデオストリームをシーンの複数の基準視点に提供するステップと、リモートクライアントからの視点要求を受信するステップであって、視点要求が、出力ビデオストリームに対してシーンの要求された視点を示す、受信するステップと、第１の視点のための複数の基準ビデオストリームのうちの第１の基準ビデオストリームからの第１の出力フレームを含む第１のビデオストリーム、及び第２の基準視点のための複数の基準ビデオストリームのうちの第２の基準ビデオストリームからの第２の出力フレームを含む第２のビデオストリームを含む出力ビデオストリームを生成するステップであって、第２の出力フレームが第１の出力フレームを基準にして差動的に符号化され、第１の出力フレームが第２の出力フレームを基準にして差動的に符号化されない、生成するステップと、視点要求に応じて、第１の視点及び第２の視点を複数の基準視点の視点として決定するステップとを有し、第１の視点及び第２の視点を決定するステップが、出力ビデオストリームの生成中に、基準を満たす視点要求の変化を検出したことに応じて、複数の基準視点のうちの第１の基準視点である第１の視点及び複数の基準視点のうちの第２の基準視点である第２の視点から第２の基準視点である第１の視点及び第１の基準視点である第２の視点に変更するステップを有し、この方法は、いくつかの追加のビデオストリームを出力ビデオストリームに含めるステップであって、各追加のビデオストリームが、第１の出力フレームを基準にして差動的に符号化された複数の基準ビデオストリームの追加の基準ビデオストリームからの出力フレームを含む、含めるステップと、視点要求の変動尺度、及び出力ビデオストリームを送信するための通信チャネルの待ち時間尺度のうちの少なくとも１つに応じて追加のビデオストリームの数を決定するステップとをさらに有する。

ビデオストリームをレンダリングする方法は、ビデオストリームを受信するステップであって、ビデオストリームが、シーンの第１の視点のフレームを表す第１のフレームを含む第１のビデオストリームと、第２の視点からのシーンの第２のフレームを含む第２のビデオストリームとを含み、第２のフレームが第１のフレームを基準にして差動的に符号化され、第１のフレームが第２のフレームを基準にして差動的に符号化されない、受信するステップと、第１のビデオフレーム及び第２のビデオフレームに応じて視点の出力ビュー画像をレンダリングするステップと、第１の基準視点に対応する第１の視点及び第２の基準視点に対応する第２の視点から第２の基準視点に対応する第１の視点及び第１の基準視点に対応する第２の視点へのビデオストリームの変化を検出するステップと、その検出に応じてレンダリングを適応させるステップとを有する。

本発明のこれらの及び他の態様、特徴、及び利点は、以下で説明される実施形態から明らかになり、それを参照して解明される。

本発明の実施形態は、図面を参照して、単に例として、説明される。

自由な視点の視覚化ためのキャプチャ及び再生システムの一例を示す図である。仮想現実体験を提供するためのクライアントサーバ構成の一例を示す図である。本発明のいくつかの実施形態によるサーバ装置の要素の一例を示す図である。本発明のいくつかの実施形態によるクライアント装置の要素の一例を示す図である。本発明のいくつかの実施形態によるサーバ装置によって生成されたビデオストリームのための符号化手法の一例を示す図である。本発明のいくつかの実施形態によるサーバ装置によって生成されたビデオストリームのための符号化手法の一例を示す図である。

ユーザが仮想世界を動き回ることができる仮想体験は、人気が高まってきており、サービスは、そのような要求を満たすために開発されている。しかしながら、特に、体験が完全に仮想的に生成された人工世界ではなく現実世界の環境のキャプチャに基づくべきである場合、効率的な仮想現実サービスの提供は非常に困難である。

多くの仮想現実アプリケーションでは、視聴者ポーズ入力は、仮想シーンの仮想視聴者のポーズを反映して決定される。次いで、仮想現実装置／システム／アプリケーションは、視聴者のポーズに対応する視聴者のための仮想のシーンのビュー及びビューポートに対応する１つ又は複数の画像を生成する。

一般に、仮想現実アプリケーションは、左目及び右目に対して別個のビュー画像の形態で３次元出力を生成する。次いで、これらは、適切な手段、例えば、一般に、ＶＲヘッドセットの個々の左目ディスプレイ及び右目ディスプレイなどによってユーザに提示される。他の実施形態では、１つ又は複数のビュー画像は、例えば、裸眼立体視ディスプレイに提示されるか、又は、実際、いくつかの実施形態では、単一の２次元画像のみが生成される（例えば、従来の２次元のディスプレイを使用して）。

視聴者ポーズ入力は、様々なアプリケーションで様々なやり方で決定される。多くの実施形態では、ユーザの物理的な動きが直接追跡される。例えば、ユーザ区域を調査するカメラは、ユーザの頭（又はさらに目）を検出し追跡する。多くの実施形態において、ユーザはＶＲヘッドセットを着用し、ＶＲヘッドセットは外部手段及び／又は内部手段によって追跡される。例えば、ヘッドセットは、ヘッドセットの、したがって頭の動き及び回転に関する情報を提供する加速度計及びジャイロスコープを含む。いくつかの例では、ＶＲヘッドセットは、信号を送信するか、又は外部センサがＶＲヘッドセットの位置を決定することができる（例えば、視覚）識別子を含む。

いくつかのシステムでは、視聴者のポーズは、手動手段によって、例えば、ユーザがジョイスティック又は類似した手動入力を手動で制御するによって提供される。例えば、ユーザは、一方の手で第１のアナログジョイスティックを制御し、他方の手で第２のアナログジョイスティックを手動で移動させることにより仮想視聴者が見ている方向を手動で制御することによって仮想シーン内で仮想視聴者を手動で動き回らせる。

いくつかのアプリケーションでは、手動手法と自動手法の組合せを使用して、入力視聴者のポーズが生成される。例えば、ヘッドセットは、頭の方位を追跡し、シーン内の視聴者の動き／位置が、ジョイスティックを使用してユーザによって制御される。

画像の生成は、仮想世界／環境／シーンの適切な表現に基づく。多くのシステムにおいて、シーンは、異なるキャプチャポーズからキャプチャされたビューに対応する画像データによって表される。例えば、複数のキャプチャポーズに対して、画像又はビデオシーケンスが、キャプチャされるか又は格納される。一例として、スポーツイベントは、仮想現実体験としてブロードキャストするために（又はそのような体験をサポートするために）、複数のカメラが異なる位置（又はポーズ）からイベントをキャプチャし、キャプチャされたビデオシーケンスを生成することによってキャプチャされる。ビデオシーケンスのセットは、実時間でブロードキャストされるか、又は、例えば、後の段階で取り出すために格納される。シーンが個別の基準視点／位置／ポーズのために格納されたビューデータによって記述／参照されるシステムでは、これらは、当分野では、アンカ視点／位置／ポーズとも呼ばれ、以下では、基準及びアンカという用語は、等価／同一として使用される。一般に、現実世界の環境が、異なる点／位置／ポーズから画像をキャプチャすることによってキャプチャされた場合、これらのキャプチャ点／位置／ポーズは、基準／アンカポイント／位置／ポーズでもある。

当分野では、配置及びポーズという用語は、位置及び／又は方向／方位の一般的な用語として使用される。例えば、対象物、カメラ、頭、又はビューの位置及び方向／方位の組合せは、ポーズ又は配置と呼ばれる。視点という用語がまた、一般に、ビューの起点を示すために当技術分野で使用される。この用語は、多くの場合、位置を示すために使用され、その位置から、ビューが見られるが、ビューはまた、一般に方位を含み、実際には、方位のみである場合もある。したがって、ビュー又は画像の基礎を提供するポーズ又は配置は、一般に、ビュー又は画像の視点と呼ばれる。

したがって、対象物の配置又はポーズの指標は、６つの値／成分／自由度を含み、各値／成分は、一般に、対応する対象物の位置／場所又は方位／方向の個々の特性を記述する。対象物が、ビューの基礎である、例えば、カメラ又は視聴者（仮想又は現実）を表す場合、対象物の視点は、対象物の対応ポーズ又は配置によって表される。

当然、多くの状況において、配置、ポーズ、又は視点は、例えば、１つ又は複数の成分が固定又は無関係であると見なされる場合、少ない成分で考慮又は表される（例えば、すべての対象物が、同じ高さであって、水平方位を有すると見なされる場合、４つの成分が対象物のポーズの完全な表現を提供する）。以下において、ポーズ及び視点という用語は、１つから６つの値（可能な最大の自由度に対応する）によって表される位置及び／又は方位を指すために使用される。

視聴者に最大の自由度を提供することに基づくシステム又はエンティティは、一般に、６つの自由度（６ＤｏＦ）を有すると称される。多くのシステム及びエンティティは、方位又は位置のみを提供し、これらは、一般に、３つの自由度（３ＤｏＦ）を有するとして知られている。

多くの実施態様では、ＶＲアプリケーションは、様々なエンティティ／デバイスにわたって分散され、具体的には、クライアントサーバ構成を使用して実施される。例えば、ユーザの近くにあるデバイスは、動き／ポーズデータを検出／受信し、それは処理されて視聴者のポーズが生成され、次いで、リモートデバイスに送信される。次いで、リモートデバイスは、シーンデータを記述するシーンデータに基づいて視聴者のポーズに対する好適なビュー画像を生成する。例えば、リモートデバイスは、視聴者のポーズに最も近いアンカポイントのうちの１つを選択し、これをローカルクライアントデバイスに送信し、ローカルクライアントデバイスは、多分、受信したビデオストリームを直接提示する。

サーバは、シーンを表すビデオストリームへのアクセス権を与える特定の場合などに、ネットワーク内の集中型リソース又はサービスへのアクセスを管理する機能、プロセス、方法、装置、コンピュータ、又はコンピュータプログラムと見なされる。クライアントは、シーンを表すビデオストリームを取得する特定の場合などに、サーバからの情報及びアプリケーションを取得することができる機能、プロセス、方法、装置、コンピュータ、又はコンピュータプログラムと見なされる。

図２は、ＶＲシステムのそのような一例を示し、リモートＶＲサーバ２０３は、例えば、インターネットなどのネットワーク２０５を介してクライアントＶＲデバイス２０１と連絡を取る。リモートＶＲサーバ２０３は、潜在的に多数のクライアントＶＲデバイス２０１を同時にサポートするように構成される。図１のシステムは、具体的には、図１の手法を実施するために使用され、以下の説明は、そのようなシステムに基づく。

図２のものなどの手法は、多くのシナリオにおいて、例えば、様々なデバイス、通信要件などに対する複雑性とリソース要求との間の改善されたトレードオフを提供する。例えば、視聴者の現在の視点及び対応するシーンデータは、実時間の低い遅れの体験を提供するために、ローカルデバイスが視点及び受信したシーンデータをローカルで処理することにより、大きい時間間隔で送信される。これは、例えば、シーンデータを中央で格納、生成、維持できるようにしながら、必要な通信帯域幅を実質的に低減する。それは、例えば、例えばＶＲ放送サービスなどの、ＶＲ体験が複数のリモートデバイスに提供されるアプリケーションに、又はユーザが位置を変えることができるＶＲサービスとしての、例えばスポーツイベントの放送などのアプリケーションに適する。

しかしながら、前に説明したように、そのようなシステムは待ち時間を導入する可能性がある。例えば、視点が、第１のアンカポーズの近くから第２のアンカポーズに変わる場合、これにより、サーバは、第１のアンカポーズのビデオストリームの提供から第２のアンカポーズのビデオストリームへと変わることになる。しかしながら、クライアントの視点からは、あるビデオストリームから別のビデオストリームへの変化は、ネットワーク（ラウンドトリップ）遅延並びに復号遅延の両方に依存する待ち時間を伴って生じる。そのような遅延はかなりのものであって、ひどく知覚できる場合がある。例えば、ユーザの視点をあるアンカポーズから別のアンカポーズにシフトさせるように移動する場合、シフトは、実際には、かなり大きい知覚可能な遅延を伴って生じる場合がある。ローカルビューシフトが、現在の視点及び受信したビデオストリーム（及びこれのポーズ）に基づいて実行される手法においてさえ、必要とされるビューシフトの増加は、品質低下を引き起こすことになる。サーバが多数のビデオストリームを送信することによって待ち時間の問題に対処すると、帯域幅及びリソース使用量が大幅に増加する。

以下では、多くのシナリオにおいて低い帯域幅及びリソース要件を維持しながら待ち時間を減少させる手法が、図２（及び図１）を参照して説明される。この手法は、具体的には、待ち時間と帯域幅／リソース要件との間のトレードオフを改善するために、動的な適応符号化手法を用いた冗長なビデオストリームを利用する。

図３はサーバ２０１の要素の例を示し、図４はそのような一実施形態のクライアント２０３の要素の例を示す。

この例では、サーバ２０１は、所与のシーンの複数のアンカ視点の複数のアンカビデオストリームを提供するためのプロセッサ３０１を含む。したがって、複数のアンカ視点の各々に対して、プロセッサ３０１は、その視点からのシーンのビューを表すアンカビデオストリームを提供する。当分野におけるアンカという用語は、単に、複数のビデオストリームを指す以外の意味を有していないラベルである（すなわち、それは、プロセッサ３０１が所与のシーンの複数の視点の複数のビデオストリームを提供できること、及び、実際、アンカという用語が、例えば、「第１の」という用語などの別のラベルと置き換えることができることを記述することに対応する）ことを理解されよう。しかしながら、多くの実施形態において、アンカ視点とビデオストリームとは、キャプチャ視点と、キャプチャ視点からビデオストリームをキャプチャすることによって生成されたキャプチャビデオストリームとである。それは、具体的には、実時間イベントをキャプチャするカメラの視点である。

サーバ２０１は、シーンを表すビデオを含む出力ビデオ（データ）ストリームを生成するように構成された出力発生器３０３をさらに含む。出力ビデオストリームは、クライアント２０３に送信され、クライアント２０３は、多分、受信した出力ビデオストリームを直接レンダリングすることによって、（又は、多分、例えばいくつかの視点シフトを実行することなどのいくつかの操作を最初に実行した後に）シーンのビデオをレンダリングすることに進む。

サーバ２０１は、クライアント２０３からの視点要求を受信するように構成された受信器３０５をさらに含み、視点要求は、出力ビデオストリームに対してシーンの要求された視点を示す。したがって、クライアント２０３は、シーンを見ることが望ましい視点、すなわち、レンダリングされた画像が生成されるべき視点を動的に決定する。次いで、視点要求が、所望の視点を示すために生成され、次いで、視点要求が、所望の視点を示すサーバ２０１に送信される。

サーバ２０１は、受信した視点要求に応じて出力ビデオストリームを生成するように構成される。具体的には、装置はコントローラ３０７を含み、コントローラ３０７は、受信器３０５、出力発生器３０３、及びプロセッサ３０１に結合される。コントローラ３０７は、具体的には、視点要求に応じて複数のアンカビデオストリームからアンカビデオストリームを選択し、出力ビデオストリームにおけるこれらの表現を制御するように構成される。

図２のサーバ２０１は、アンカビデオストリームのうちの少なくとも２つを含むように出力ビデオストリームを動的に生成するように構成され、アンカビデオストリームのうちの一方は他方に対して相対的に符号化される。具体的には、出力ビデオストリームは、アンカビデオストリームの第１のものからのフレームと、アンカビデオストリームの第２のものからのフレームとを含むように生成され、第２のアンカビデオストリームからのフレームは第１のビデオストリームからのフレームを基準として符号化される。しかしながら、第１のアンカビデオストリームからのフレームは、第２のアンカビデオストリームからのフレームを基準にして符号化されない（第１のアンカビデオストリームからのフレームは、いくつかの実施形態では、第１のアンカビデオストリーム自体からの他のフレームを基準にして、又はさらに別のアンカビデオストリームからのフレームを基準にして符号化されるけれども）。

出力ビデオストリームは、特に、多くの実施形態において、いかなる他のビデオ（データ／ビット）ストリームも基準にすることなく符号化された第１のビデオ（データ／ビット）ストリームを含む、すなわち、出力ビデオストリームに含まれるいかなる他のビデオストリームに対しても非差動的に符号化されるように、生成される。この第１のビデオストリームは、メインビデオストリームと呼ばれる。加えて、出力ビデオストリームは、メインビデオストリームを基準にして符号化された少なくとも第２のビデオストリームを含むように生成される。このビデオストリームは、差動ビデオストリームと呼ばれ、具体的には、メインビデオストリームを基準にして差動的に符号化されたビデオストリームである。いくつかの実施形態では、出力ビデオストリームは、追加のビデオストリームを含み、具体的には、メインビットストリームを基準にして符号化された追加の差動ビデオストリームを含む。

差動ビットストリームを差動的に符号化するための様々な手法が様々な実施形態で使用されることが理解されよう。特定の低い複雑性の例として、残差フレームは、符号化されるべきフレームからメインビデオストリームの対応フレームをピクセル単位で減算することによって、差動ビデオストリームに対して生成される。次いで、結果として生じる残差又はエラーフレームが符号化される。残差値は、オリジナル値よりも著しく小さくなる傾向があるので（フレームは、多くの場合比較的近い視点から同じシーンを見ているから互いに非常によく似ている可能性が高いので）、符号化は、著しく低減したデータレートで実行される。

最も実用的な差動符号化方式では、例えば、異なるフレームのセグメントを照合すること、合致するセグメントを減算することによって残差値を決定することなどを含む高度な手法が使用されることを理解されよう。そのような手法は、例えば、効率的な符号化を提供するために、アンカビデオストリーム間の視差シフトを反映するのに使用される。符号化されたデータは、残差値に加えて、異なるセグメント（例えば、ベクトルによって表された）間の相対オフセットに関する情報を含む。

コントローラ３０７は、メインビデオストリームを生成するためにアンカビデオストリームの第１のものを動的に選択するように構成される。一般に、コントローラ３０７は、視点要求に最も密接に対応するアンカ視点に対するアンカビデオストリームを選択する。メインビデオストリームは、選択された第１のアンカビデオストリームのフレームを含むように生成され、具体的には、選択された第１のアンカビデオストリームを出力ビデオストリームに直接含めることによって生成されるが、いくつかの実施形態では、フレームが修正され（例えば、ダイナミックレンジ又は分解能の変更）、いくつかの実施形態では、メインビデオストリームが、選択された第１のアンカビデオストリームよりも多い又は少ないフレームを有するように生成される（例えば、補間又はサブセット選択によって）ことを理解されよう。

加えて、コントローラ３０７は、差動ビデオストリームを生成するためにアンカビデオストリームの第２のものを動的に選択する（又は、いくつかの実施形態では、異なる差動ビデオストリームに対して複数のアンカビデオストリームを選択する）。一般に、コントローラ３０７は、第１のアンカビデオストリーム（メインビデオストリームのために選択された）の隣接として第２のアンカビデオストリームを選択する。

その結果、差動ビデオストリームは、第２のアンカビデオストリームからのフレームを含むように生成される。メインビデオストリームに関しては、いくつかの修正（フレームレート変換、ダイナミックレンジ変更、又は分解能など）が導入されるが、ほとんどの実施形態では、差動ビデオストリームのフレームは、一般に、第２のアンカビデオストリームのフレームに直接対応するように生成される。

しかしながら、差動ビデオストリームのフレームは、メインビデオストリームからのフレームを基準として符号化される。したがって、第２のアンカビデオストリームからのフレームは、第１のアンカビデオストリームからのフレームに関して差動的に符号化されたフォーマットで出力ビデオストリームに含まれる。第１のアンカビデオストリームは、第１のアンカ視点向けであって、第２のアンカビデオストリームは、第２のアンカ視点向けであって、したがって、出力ビデオストリームは、第１のアンカ視点に対応するメインビデオストリームと、第２のアンカ視点に対応する差動的に符号化されたフレームをもつ差動ビデオストリームとを用いて生成される。

したがって、コントローラ３０７は、動的に、視点要求に応じて、アンカビデオストリームのどれがメイン（非差動的に符号化された）ビデオストリームとして符号化されるか、及びアンカビデオストリームのどれがメインビデオストリームに対して差動的に符号化されるかを選択するように構成される。

さらに、コントローラ３０７は、視点要求の変化に応じて変化するように、選択を動的に適応させるように構成される。具体的には、第１のアンカ視点が視点要求に最も近いアンカ視点であるので、コントローラ３０７は、最初に、メインビデオストリームが第１のアンカビデオストリームになるようにキャプチャビデオストリームを選択する。さらに、第２のアンカビデオストリームは、差動ビデオストリームに対して選択され、その理由は、第２の視点が、第１の視点の隣接視点であって、一般に、最も近い隣接である（又は所定の数の隣接のセットに属する、例えば、１列に配置されたアンカ視点では、２つの最も近い視点が差動ビデオストリームの生成のために選択される）からである。

しかしながら、視点要求が、今、第２の視点により近くなるように変化する場合、コントローラ３０７は、ある時点で、メインビデオストリームが第２の視点に対応するように選択される、すなわち、第２のアンカビデオストリームがメインビデオストリームに使用されるように切り替える。このように、コントローラ３０７は、メインビデオストリームを第１のアンカビデオストリームから第２のアンカビデオストリームに切り替え、それによって、メインビデオストリームを、現在要求されている視点に近く、その結果、クライアント２０３でのレンダリングに良好な基礎を提供するアンカビデオストリームに切り替える。加えて、コントローラ３０７は、差動ビデオストリームを、第２の視点のアンカビデオストリームに基づくことから、第１の視点のアンカビデオストリームに基づくことに切り替える。このように、コントローラ３０７は、キャプチャビデオストリームのどれが非差動的に符号化されたビデオストリームとして提供されるかと、どれが相対的ビデオストリームとして符号化されるかとの間を効果的に切り替える。

したがって、サーバ２０１は、変更の間、継続的に、同じ２つのアンカ視点にビデオストリームを提供できるが、これらのどれが差動的に表されるかを変更する。したがって、出力ビデオストリームは、移行の間、継続的に、初期のアンカビデオストリームと移動先アンカビデオストリームとの両方を含むように生成されるが、これらは、メインビデオストリームであることと差動ビデオストリームであることとの間を切り替える、すなわち、差動的に符号化されることと非差動的に符号化されることとの間を切り替える。出力ビデオストリーム内に両方のビデオストリームが存在することを維持するが、どちらがメインビデオストリームであって、どちらが差動ビデオストリームであるかを切り替える手法は、多くの実施形態において改善された性能を提供する。特に、それにより、クライアント側で、一貫性が向上し、レンダリングが改善され及び／又は容易になる。実際、レンダリングでは、同じビデオストリームが継続的に存在し、したがって、ビュー合成レンダリングのための同じ基礎が利用可能である。例えば、視点が、１つのビデオストリームの視点から隣接ビデオストリームの視点までゆっくりと徐々に移動している場合、ビデオストリーム間を切り替えるときに一般に知覚可能な副作用なしに、非常に円滑で効率的な移行が達成される。

図４は、クライアント２０３の要素の一例を示す。クライアント２０３は、この例では、サーバ２０１から受信した画像を動的にレンダリングするように構成されたクライアントデバイスに実装される。

クライアント２０３は、サーバ２０１からの出力ビデオストリームを受信するように構成された受信器４０１を含む。１つの視点のフレームを含む少なくともメインビデオストリームと、第２の視点のフレームを含む差動ビデオストリームであって、フレームがメインビデオストリームのフレームに対して差動的に符号化される、差動ビデオストリームとを含むビデオストリームが受信される。

クライアントは、受信したビデオストリームに基づいて出力ビュー画像をレンダリングするように構成されたレンダラ４０３をさらに含む。出力ビュー画像は、具体的には、適切なディスプレイに直接表示できるフォーマットで提供される。例えば、出力ビュー画像は、適切な規格に従って、例えば、ＨＤＭＩ（登録商標）又はＤｉｓｐｌａｙＰｏｒｔ規格などに従って生成され、ビットストリームに含まれる。

レンダラ４０３は、レンダリング視点に対応する出力ビュー画像を生成するように構成される。レンダリング視点は、一般に、受信したビデオストリームのうちの１つからの視点に直接対応せず、それゆえに、レンダラ４０３は、ほとんどの実施形態では、画像合成を実行するように構成された機能を含み、レンダリング視点の画像／フレームは、メインビデオストリーム及び差動ビデオストリームのフレームの少なくとも１つから、すなわち、メインアンカ視点又は差動アンカ視点からの画像フレームに基づいて、生成される。一般に、画像は、両方の視点からの画像／フレームに基づいて、すなわち、メインビデオストリーム及び差動ビデオストリームの両方に基づいて合成される。

したがって、レンダラ４０３は、新しい視点からの画像を合成するために、視点シフトなどを実行するように構成される。当業者はそのようなビューシフト／合成のための多くの異なる手法及びアルゴリズムを認識していること、及び適切な手法が使用されてもよいことを理解されよう。

レンダラ４０３は、受信した出力ビデオストリームと、必要に応じて、メインビデオストリーム及び差動ビデオストリームとを復号化するための手段をさらに含む。したがって、具体的には、レンダラ４０３は、メインビデオストリームのフレームに基づいて差動ビデオストリームのフレームを生成するために差動復号化を実行するように構成される。

ほとんどの実施形態では、レンダリング視点は動的に変化し、クライアント２０３は視点入力部４０５を含み、視点入力部４０５は、入力を受信し、レンダリング視点を生成する。入力は、一般に、レンダリング視点を手動で動的に変更し制御するためにユーザによって使用されるユーザ入力デバイス、例えばゲームコントローラからの手動入力などのユーザ入力である。別の例として、視点入力部４０５は、視線追跡機能を含むか、又は、例えば、ＶＲヘッドセットから動き情報を受け取り、それに応じて、レンダリング視点を生成する。

したがって、レンダリング視点は、ユーザの所望の視点の変化を反映するために、例えば、ユーザの動きに従うように適合させることによって、継続的に更新及び変更される。レンダリング視点データは、レンダラ４０３に送り込まれ、その結果、これは、現在のレンダリング視点に対応する出力画像を生成するように動的に変化する。

視点入力部４０５は、送信器４０７にさらに結合され、送信器４０７は、視点要求を生成し、これをサーバ２０１に送信するように構成される。多くの実施形態において、送信器４０７は、現在のレンダリング視点をサーバ２０１に単に直接送信するように構成される。次いで、サーバ２０１は、それぞれメインビデオストリーム及び差動ビデオストリームのアンカ視点を選択するために、このレンダリング視点をアンカ視点と直接比較する。

他の実施形態では、クライアント２０３は、例えば、アンカビデオストリームのうちの１つをメインアンカビデオストリームとして直接要求し、サーバ２０１は、要求されたアンカビデオストリームをメインビデオストリームとして直接提供し、必要に応じて、それを差動ビデオストリームで補足する。例えば、サービスが設定された場合、サーバ２０１は、クライアント２０３にすべてのアンカ視点のデータを提供し、クライアントは、現在のレンダリング視点をアンカ視点と比較し、最も近いアンカ視点のアンカビデオストリームを要求することに進む。

したがって、クライアント２０３は、メインビデオストリームと、少なくとも１つの差動ビデオストリームとを含む出力ビデオストリームを受信し、これに基づいて、現在のレンダリング視点の出力画像をローカルに生成する。しかしながら、前に説明したように、メインビデオストリーム及び差動ビデオストリームのアンカビデオストリームの選択は、固定されるのではなく、動的に変化することがある。

したがって、クライアント２０３は、検出器４０９を含み、検出器４０９は、サーバ２０１によって、メインビデオストリームのために選択されたアンカビデオストリームと、差動ビデオストリームのために選択された第２のアンカビデオストリームとが変化するときを検出するように構成される。

一般に、受信した出力ビデオストリームは、どのアンカビデオストリーム又はアンカ視点がそれぞれメインビデオストリーム及び差動ビデオストリームに対して選択されているかを示すデータを含み、検出器４１５は、変化が生じるときを検出するためにそのようなメタデータを単に評価する。他の実施形態では、そのようなデータは提供されず、検出器４１５は、例えば、視差シフトに対応する画像の突然のシフトを検出するように構成される。例えば、クライアント２０３が１つのアンカビデオストリームをメインビデオストリームとして直接要求する一実施形態では、検出器４１５は、新しいアンカビデオストリームが要求されたとき、送信器４０７によって通知される。次いで、それは、メインビデオストリーム及び／又は差動ビデオストリームのフレームをモニタして、画像オブジェクト／セグメントが連続するフレーム間で突然シフトするように見えるときを検出することに進む。その理由は、これが、視点の変化が生じるときの視差の変化を示すからである。検出は、具体的には、２つのストリームの突然のシフトが互いに対応しているが、反対符号を有する状況を検出するために、メインビデオストリームと差動ビデオストリームの両方を考慮する。その理由は、これが、２つのビデオストリームの視点が入れ替わるときメインビデオストリームの視差シフトが差動ビデオストリームの反対であることを反映しているからである。

ビュー選択ロジックがクライアント２０３に実装されている実施形態では、検出器４１５は、ローカル情報のみに基づいて変化を暗黙的に決定する。その場合、クライアント２０３は、アンカ位置ポーズに対するクライアント２０３の位置／ポーズが分かり、その位置／ポーズに応じてサーバ２０１から異なるデータを単に取り出す。その場合、切替えは、クライアントに完全に実装され、サーバデータについて想定される唯一のことは、クライアント２０３が適切なビデオストリームを選択できるようにする区域を準備する（例えば、冗長なサイドビューにより）方法である。そのような場合、検出器４１５は、クライアント２０３自体が新しいビデオストリームを要求することに応じて、例えば、ラウンドトリップ遅延を反映する遅延を伴って、変化を直接検出する。

検出器４０９はアダプタ４１１に結合され、アダプタ４１１はレンダラ４０３にさらに結合される。アダプタ４１１は、メインビデオストリームと差動ビデオストリームの視点に変化が生じたことの検出に応じてレンダリングを適応させるように構成される。具体的には、それは、メインビデオストリームと差動ビデオストリームの視点が変化したことを考慮に入れるように合成操作を適応させるように構成される。それは、例えば、これを、差動ビデオストリームではなくメインビデオストリームに基づくようにレンダリング／合成を切り替えることによって行う。

これは、具体的には、多くの実施形態において、差動ビデオストリームに基づく視点シフトの実行からメインビデオストリームに基づくものへの切替えに対応する。例えば、レンダリング視点が、メインビデオストリームの視点、例えば、視点２から差動ビデオストリームの視点、例えば、視点３の方に徐々に移動する場合、レンダラ４０３は、ある時点で、メインビデオストリームのフレームから画像を合成することから、差動ビデオストリームのフレームが近い視点からのものであるのでそれに基づいて画像を合成することに切り替えることになる。その結果、それは、メインビデオストリーム（これが差動ビデオストリームを復号化するためにまだ必要とされるので）の復号化に加えて差動ビデオストリームを復号化し始める。

サーバ２０１は、さらに、視点要求が、今では、メインビデオストリームの視点（視点２）ではなく差動ビデオストリームの視点（視点３）に近い視点を示していることを検出する。その結果、それは、メインビデオストリームが、直ちに、視点３のアンカビデオストリームのフレームから生成されるように切り替える。さらに、差動ビデオストリームは、視点２のアンカビデオストリームのフレームから生成される。

検出器４０９は、この変化がクライアント２０３に達したときを検出し、この検出に応じて、アダプタ４１１は、差動ビデオストリームに基づいて出力画像を合成することからメインビデオストリームに基づくことに切り替えるようにレンダラ４０３を制御する。さらに、差動ビデオストリームは、現在、前の視点（視点２）に対応しているので、このアンカビデオストリームは、依然として、差動ビデオストリームによってクライアント２０３に提供されており、したがって、所望のレンダリング視点が視点２の方に逆戻りされる場合、容易に取り出される。

したがって、このシステムにおいて、コントローラ３０７は、複数の基準視点のうちの第１の基準視点である第１の視点及び複数の基準視点のうちの第２の基準視点である第２の視点から第２の基準視点である第１の視点及び第１の基準視点である第２の視点に変更するように構成される。コントローラ３０７は、出力ビデオストリームの生成中に、基準を満たす視点要求の変化を検出したことに応じてこの変化を達成するように構成される。

説明した手法は、どのビデオストリーム／視点がメインビデオストリーム／視点として使用されるかと、どれが差動ビデオストリーム／視点として使用されるかとを切り替えるための基準を用いて使用されることを理解されよう。

多くの実施形態において、基準は、基準視点と（現在の）視点要求との間の距離の考慮を含む。具体的には、いくつかの実施形態では、視点要求は、直接、基準視点のうちの１つを識別する要求であって、メイン視点／ビデオストリームと差動視点／ビデオストリームとの間の変化は、単に、視点要求が異なる視点を要求するように変化したことから生じる。

多くの実施形態において、視点要求は、基準視点も含む座標系（例えば、仮想現実シーンの座標系）における位置としての視点の指標である。そのような実施形態では、基準は、基準視点の各々までの距離の考慮を含み、コントローラ３０７は、適切な距離基準に従って最も近い基準視点を現在選択するように構成される。したがって、コントローラ３０７がメイン視点として最も近い基準視点を継続的に選択する場合、メイン視点を変更するための基準は、単に、要求された視点が異なる基準視点に近いことである。

多くの実施形態において、コントローラ３０７は、メイン視点を選択するための基準又はルールを適用することを含むアルゴリズムを実行する。基準を満たす視点要求の変化の検出は、メイン視点を選択するための基準により、異なる視点がメイン視点として選択される結果となったことの検出に対応する。言い換えれば、視点要求の変化が生じており、基準視点の変更が実行されるべきであることを検出するために使用される基準は、基準視点を選択する基準により、異なる視点が選択される結果となったかどうかを評価することである。具体的には、視点要求を考慮した所与の基準又はアルゴリズムに基づいて現在の基準視点を継続的に選択し使用することは、本質的に、基準視点に対して選択された視点の変更が第１の視点から第２の視点に変更されるべきであるときを検出するための基準でもある。

したがって、多くの実施形態において、メイン視点及び差動視点の選択及び変更は、（空間的）近接性に基づくか又は考慮する。例えば、次の簡単な基準が使用される。視聴者の目（視点要求によって示されるような）が、基準視点Ｂよりも基準視点Ａに空間的に近い場合、視点Ａが第１の基準として選択され、視点Ｂは視点Ａを基準にして符号化される。

いくつかの実施形態では、複雑なアルゴリズムが考慮に入れられる。

例えば、予測モデルが、視点要求に基づいて生成され、目の動きの妥当なモデルを使用して、ユーザの視点の変化の方向が予測される。そのとき、切替えは、オリジナルの観察された位置測定ではなくそのような予測に基づく。これは、高速でプリエンプティブな切替えを提供する。

いくつかの実施形態では、切替えの基準は、視点要求の変化率の考慮を含む。例えば、目が高速で動く場合、これは視点要求の高い変化率をもたらす。この場合、今後の視点要求を予測することが望ましく、速度が速いために、切替えは早く行われる。

いくつかの実施形態では、システム／通信待ち時間が考慮に入れられる。待ち時間は、間接的な役割を果たし、選択／切替え基準で考慮に入れられる。これは、一般に、視点要求の現在の位置及び現在の変化率の考慮と組み合わされる。

例えば、３つのビデオストリームが使用され、第２のもの及び第３のものが第１のビデオストリームに対して違うように符号化されるシナリオでは、送信待ち時間は、十分に速い視点切替えを可能にするように高くすべきである。帯域幅が高くなるのを犠牲にして、システムは、代わりに、５つ、７つ、９つ以上の多くのビューを送るように決定することができる。今や、単に、復号化ハードウェアが十分に高速である必要があるが、データは既に受信されている。そのような状況では、基準ビデオストリームの切替えは、低い通信待ち時間が検出された場合よりも高い通信待ち時間が検出された場合にはそれほど頻繁ではない。

この手法は、一方では、データレート、帯域幅、リソース要件と、レンダリング視点の変更のための可能なレンダリング品質との間のトレードオフの改善を提供する。

システムは、冗長ビデオストリームを（少なくとも部分的に）使用して、クライアント側の待ち時間問題を解決する。それは、メインビューごとに差動的に符号化された隣接するアンカビューを提供して、送信及び復号遅延を補償する。隣接するビューは、ビュー間を切り替えるときに復号ステップの数（復号化複雑性）が低くなるような構造で、互いに対して差動的に符号化される。この手法は、帯域幅の使用量を制御しながら、サーバ側のマルチビュー符号化効率を犠牲にしてクライアント側の待ち時間を減少させる。

この手法の一例が、図５を参照して説明される。この例では、メインビデオストリームは、メインビデオストリームの各フレームが、同じ視点に対するか又は別の視点からかにかかわらず他のフレームを参照することなく復号化されるように、イントラ符号化される。この例は、直線で配置されているアンカ視点のセット（具体的には、シーンがキャプチャされたときのカメラ位置である）に基づいている。

この例では、ビデオパケットは、アンカビデオストリームからフレーム及びビデオパケットを選択することによって生成される。コントローラ３０７は、カメラ／キャプチャ視点のうちの１つをメイン視点として選択する。具体的には、それは、視点要求に最も近い視点を動的に選択する。このメイン視点のビデオパケットは、イントラ符号化されたパケット／フレーム（図５にＩで示されている）として、すなわち、メインビデオストリームとして出力ビデオストリームに含まれる。加えて、２つの隣接する視点は、差動視点として選択され、２つの対応するアンカビデオストリームからのビデオパケット／フレームは、差動ビデオストリームとして出力ビデオストリームにさらに含まれる。しかしながら、これらの視点に対して、符号化されたビデオパケット／フレームは、メイン視点のビデオパケット／フレームに対して差動的に符号化される（図５にＤで示されている）。その結果、時間的の代わりに空間的である（図５において垂直に示される）グループオブピクチャーズ（ＧＯＰ）構造が生成される。それにより、これらの視点／ビデオストリームは、効率的に符号化されたビデオストリームによって表される。

メイン視点、結果として、差動視点の選択が、受信した視点要求の変化を反映するように動的に更新される。例えば、図５において、初期状況（ｔ＝ｔ０）は、クライアント２０３が視点２に対応する視点を要求するものである。その結果、それは、視点２のイントラ符号化されたフレームと、視点１及び３の差動的に符号化されたフレームとを受信する。視点１及び３の差動符号化は視点２に対して相対的である。これにより、これらのためのデータがサーバ２０１から出力ビデオストリームの一部として提供されることから、追加の復号ステップのみがビュー１又は３の画像を生成するのに必要とされるので、低い待ち時間の視点切替えが可能になる。

この例では、所望の視点は、視点２から視点３に（又は視点２の近くから視点３の近くに）切り替わる。図５の例では、視点２から視点３への変化が、ｔ１で生じ、その結果、サーバ２０１に送信される視点要求は、視点２の要求から視点３の要求に変化する。

サーバ２０１がこの変更された視点要求を受信すると、サーバ２０１は、続けて、アンカ視点３をメイン視点として選択する。その結果、それは、メインビデオストリームが今では視点２ではなく視点３のアンカビデオストリームに対応し、それにより、視点３のビデオパケット／フレームが今ではイントラ符号化されたビデオパケット／フレームとして出力ビデオストリームに含まれるように切り替わる。しかしながら、加えて、以前のメイン視点は、今では、差動視点のうちの１つとして選択されており、視点２のビデオパケット／フレームは、依然として、出力ビデオストリームに含まれるが、今では、視点３のビデオパケット／フレームに対して差動的に符号化されている。したがって、２つのストリームは、イントラ符号化されることと、相対的／差動的に符号化されることとの間で切り替わっている。加えて、コントローラ３０７は、視点１の代わりに差動視点として視点４を選択するように切り替わる。その結果、変更の後、メインビデオストリームは視点３に対応し、差動ビデオストリームは視点２及び４に対応する。

しかしながら、ラウンドトリップネットワーク遅延のために、変更は、遅い時刻ｔ２までクライアント２０３に到達しない。しかしながら、これは、必要とされるビデオストリーム、すなわち、視点３のためのビデオストリームが、受信データに基づいて、最初に視点２のフレームを復号化し、次いで、視点３の差動パケットを差動的に復号化することにより視点３のフレームを生成することによって再作成されるので、大きい問題ではない。次いで、視点３の第１のイントラ符号化されたフレームがｔ２で受信されると、クライアント２０３は、２段階復号化プロセスを必要とすることなしに、視点３のフレームを直接復号化することに進むように切り替わる。

したがって、この手法は、異なるアンカビデオストリーム及びアンカ視点間の円滑で効率的な移行を可能にする。シフトに関連するネットワーク待ち時間は、差動復号化を実行することによって緩和される。さらに、示される視点は、ビデオデータをすべてのアンカポイントに送信する必要なしに効率的で円滑な移行が行われるように、注意深く選択される。この手法は、データレートと性能との間に非常に効率的なトレードオフを提供する。２つのアンカ視点間の移行は、移行の全体にわたって一貫性があるように特別に実行される。両方の視点のビデオストリームは、移行全体にわたってクライアント２０３で利用可能であって、実際、両方のビデオストリームは、移行の前に、間に、及び後にクライアント２０３に提供される。変更は、ビデオストリームのうちのどれがクライアント２０３に提供されるかではなく、これらがどのように符号化されるかにある。多くの実用システム及び使用における一般的な振る舞いは、ユーザが、しばしば、異なる位置間を行き来し、したがって、しばしば、２つの特定の視点間で繰り返しの変更があるシナリオが生じることである。説明した手法は、両方のビデオストリームをクライアント２０３に継続的に提供するのでそのようなシナリオで特に有利である。

上述の例では、メインビデオストリーム及び視点のフレームは、第１の視点以外の視点のフレームを参照することなく、実際、他のフレームを参照することなく、符号化される。むしろ、メインビデオストリームの各フレームは、そのフレーム内の情報にのみ基づいて個別に符号化される（イントラ符号化される）。

しかしながら、いくつかの実施形態では、メインビデオストリームのフレームの予測が使用され、実際、メインビデオストリームのフレームの一部が差動的に符号化される。いくつかの実施形態では、差動符号化は、多分、出力ビデオストリームの他のビデオストリームのフレームに関連するが、差動ビデオストリームのフレームに対して差動的に符号化されない。したがって、空間的予測及び差動符号化は、いくつかの実施形態では、メインビデオストリームのフレームに対しても使用されるが、ほとんどの実施形態は、他のビデオストリームに基づくメインビデオストリームのフレームの差動符号化を含まない、すなわち、メインビデオストリームのフレームの空間的差動符号化は、一般に、含まれない。

多くの実施形態において、メインビデオストリームのフレームの一部は、メインビデオストリームの他のフレームを基準にして差動的に符号化される。そのような例では、メインビデオストリームは、例えば、いくつかのイントラ符号化されたフレームと、イントラ符号化されたフレームに対して差動的に符号化されたいくつかの差動的に符号化されたフレームとを用いて符号化される。差動ビデオストリームのフレームは、メインビデオストリームのフレームに対して、このフレームがそれ自体差動的に符号化されている場合でさえ、同じ時点に依然として差動的に符号化される。具体的には、出力発生器３０３は、最初に、メインビデオストリームのフレームを差動的に符号化する。次いで、それは、その符号化に基づいて、生成された符号化データを復号化することによって復号化された基準フレームを生成する。次いで、このフレーム（クライアント２０３で生成されるフレームと直接一致する）は、同時に、差動ビデオストリームを差動符号化するための基準フレームとして使用される。

そのような手法の一例が図６に示される。したがって、この例では、メインビデオストリームのフレームの一部は、さらに、結果として生じるビットレートを低減するためにインター符号化される。

これらのフレームを復号化するには、以前のイントラ符号化されたフレームが、エンコーダで利用可能でなければならない。これは、Ｉフレームが新しいメインビデオストリームのために受信され、その後、これが復号化される必要があるので、追加の待ち時間を導入する。この追加の待ち時間は、例えば、多くの隣接するビューを含めることによって補償される。図６の例では、出力ビデオストリームは、１つのメインビデオストリームと４つの差動ビデオストリームとを含むように生成される。図示のように、多くのフレームを含み、空間的拡張と時間的拡張の両方を有するＧＯＰが作り出される。

多くの実施形態において、装置は、出力ビデオストリームを動的に符号化するように構成される。例えば、プロセッサ３０１は、アンカビデオストリームを実時間で受信し、これらは、出力発生器３０３に送り込まれ、１つのアンカビデオストリームがコントローラ３０７の制御下でメインビデオストリームとして選択される。次いで、選択されたメインビデオストリームは符号化される、例えば、すべてのフレームはイントラ符号化されたフレームであるか、又はいくつかのフレームはメインビデオストリームの他のフレームに基づいて予測される。いくつかの実施形態では、メインビデオストリームのこの符号化は、アンカビデオストリームが、異なる符号化フォーマットである場合、トランス符号化であって、又はいくつかの実施形態では、メインビデオストリームは、再符号化なしにアンカビデオストリームとして直接生成される。

コントローラ３０７は、さらに、差動ビデオストリームとして符号化された第２のアンカビデオストリームを選択する。したがって、このアンカビデオストリームのフレームは、動的に実時間で、メインビデオストリームのフレームを基準にして差動的に符号化される。この差動符号化は、例えば、最初に、アンカビデオストリームを復号化して、復号化されたビデオストリームを生成し、次いで復号化されたビデオストリームがメインビデオストリームのフレームを基準にして差動的に符号化されることを含む。

この手法は、例えば、ＶＲ体験をサポートする実時間ブロードキャストサーバを効率的に実現する。

他の実施形態では、アンカビデオストリームは格納され、プロセッサ３０１は、選択されたアンカビデオストリームを取り出すように構成され、出力発生器３０３は、取り出されたビデオストリームを、実時間実施態様で説明したものと同様にやり方で符号化する（トランス符号化する）。

いくつかの実施形態では、異なるビデオストリームの符号化は、動作中に動的に実行されるのではなくて、前もって実行される。具体的には、プロセッサ３０１は、すべてのアンカビデオストリームを格納する。加えて、プロセッサ３０１は、アンカビデオストリームの差動的に符号化されたバージョンを格納する。

例えば、アンカビデオストリームごとに、プロセッサ３０１は、アンカビデオストリームの非差動的に符号化されたバージョン、並びに各バージョンが１つの他のアンカビデオストリームに対して差動的に符号化されているいくつかの差動的に符号化されたバージョンを格納する。例えば、出力ビデオストリームが１つのメインビデオストリームと２つの差動ビデオストリームとを含むように生成される場合、プロセッサ３０１は、アンカビデオストリームごとに、非差動的に符号化されたバージョンに加えて、ある方向で最も近い隣接アンカビデオストリームに対して差動的に符号化された１つのバージョンと、他の方向で最も近い隣接アンカビデオストリームに対して差動的に符号化された１つのバージョンとを格納する（アンカ視点が直線上にある一例では）。

そのような例では、出力発生器３０３は、アンカビデオストリームを選択的に符号化することによって出力ビデオストリームを生成するのではなくて、適切な格納されたバージョンを直接取り出し、それを出力ビデオストリームに含める。具体的には、出力発生器３０３は、メインビデオストリームのために現在選択されているアンカビデオストリームに対して非差動的に符号化されたバージョンを取り出し、差動ビデオストリームのセットに対して、メインビデオストリームのために選択されたアンカビデオストリームに対して差動的に符号化されている選択されたアンカビデオストリームのバージョンを抽出する。次いで、これらのバージョンは、出力ビデオストリームに直接含められる。

例えば、メインビデオストリームが視点２に対して生成される場合、プロセッサ３０１は、視点２のアンカビデオストリームの非差動的に符号化されたバージョンと、視点２のアンカ視点に対して差動的に符号化されている視点１及び３のアンカビデオストリームの差動的に符号化されたバージョンとを抽出する。

そのような手法は、多くの実施形態において非常に効率的な性能を提供し、特に、サーバ２０１が例えばブロードキャストサービスなどのために多数のクライアントをサポートしている手法に適している。

アンカビデオストリームがファイルに格納されている（異なるバージョンであるかどうかにかかわらず）実施形態では、クライアント２０３から受信した視点要求は、メインビデオストリームとして提供されるように要求されている特定のファイルを直接示す。

例えば、クライアント２０３が現在のレンダリング視点の指標を継続的に送り、サーバ２０１が最も近いアンカ視点を識別する代わりに、クライアント２０３は、ファイル／アンカビデオストリームを直接決定し要求する。例えば、サービスが開始されるとき、サーバ２０１は、アンカビデオストリームがサーバ２０１に格納されているアンカ視点の情報を送信する。次いで、クライアント２０３は、レンダリング視点を動的に評価し、レンダリング視点に対応する画像をローカルで生成するために現在望まれるアンカビデオストリームを決定する。次いで、クライアント２０３は、所望のファイルを直接示す視点要求を生成する。サーバ２０１は、それに応じて、選択されたファイルを取り出す。それは、さらに、要求されたアンカビデオストリームを基準にして差動的に符号化された隣接するアンカビデオストリームのファイルを取り出し、これを出力ビデオストリームに含める。

そのような手法は、多くの実施形態において、非常に効率的な手法を提供する。例えば、継続的に送信され更新されるべき動的な視点要求を必要とするのではなく、クライアント２０３は、選択されたアンカビデオストリームの変更が必要とされるときのみ、新しい視点／ファイル要求を送信する。

前の例では、サーバ２０１は、具体的には、２つ又は４つの最も近い隣接（図５及び図６の例において）などの所定の数の差動ビデオストリームを含む出力ビデオストリームを生成するように構成される。

しかしながら、いくつかの実施形態では、サーバ２０１は、差動ビデオストリームの数を動的に適応させるように構成される。したがって、メインビデオストリームを基準にして差動的に符号化されたものとして出力ビデオストリームに含まれるように選択されるアンカビデオストリームの数は、動作条件に応じて変化する。

いくつかの実施形態では、差動ビデオストリームの数は、出力ビデオストリームを送信するために使用される通信チャネルの待ち時間尺度に応じて、具体的には、サーバ２０１とクライアント２０３との間の待ち時間に応じて適合される。待ち時間は、通信遅延として、具体的にはネットワーク遅延として決定される。

ネットワーク遅延は、例えば、クライアント２０３に送信されるデータパケットがタイムスタンプを付けられ、クライアント２０３がタイムスタンプを受信時刻と比較することによって遅延を決定することにより決定される。別の例として、クライアント２０３は、選択されたメインアンカ視点の変化をもたらす視点要求を送信してから変化が検出されるまでの時間を測定し、この遅延が待ち時間尺度として使用される。次いで、決定された待ち時間尺度はサーバ２０１に送信され、その結果、サーバ２０１は、差動ビデオストリームの数を決定する。

多くの実施形態において、サーバ２０１は、待ち時間の増加に対して差動ビデオストリームの数を増加させるように構成される。例えば、サーバ２０１は、待ち時間と、待ち時間の増加に対して増加する差動ビデオストリームの数との間に所定の関数（単調に増加する関数）を使用する。

そのような手法は、データレートを現在の状態に柔軟に適応させることができる。待ち時間が大きい場合、現在のメインアンカ視点からさらに離れたアンカビデオストリームを必要とするようにレンダリング視点が変化する確率が増加し、実際、変化が速い場合、提供されるアンカビデオストリームの変化は十分に速くないことがある。例えば、レンダリング視点が、ラウンドトリップ遅延時間中に、例えば２つのアンカ視点の距離だけ変化する場合、最初の最も近い隣接アンカビデオストリームだけでなく次に最も近い隣接アンカビデオストリームが出力ビデオストリームに含まれる必要がある。

いくつかの実施形態では、サーバ２０１は、視点要求の変動尺度に応じて追加のビデオストリームの数を決定するように構成される。

例えば、多くのそして大きい変動がある視点要求では、所与の時間にクライアント２０３で必要とされるアンカビデオストリームが実際にこれに提供される可能性を高めるために、変動が少ない場合よりも多くの差動ビデオストリームを含むことが望ましい。

サーバ２０１は、具体的には、視点要求の変動／変化の速度に応じて差動ビデオストリームの数を適応させるように構成される。具体的には、視点要求が、速く変化する視点を示している場合、サーバ２０１は、視点要求が遅い変動を示す場合と比べて含まれる差動ビデオストリームの数を増加させる。

したがって、この手法は、データレートを現在の状態に可変的に適応させることを可能にする。

明確にするための上述の説明は、異なる機能回路、ユニット、及びプロセッサを参照して本発明の実施形態を説明していることを理解されよう。しかしながら、異なる機能回路、ユニット、又はプロセッサの間での機能の適切な分配が本発明を損なうことなく使用されてもよいことが明らかであろう。例えば、別個のプロセッサ又はコントローラによって実行されるように示されている機能は、同じプロセッサ又はコントローラによって実行されてもよい。したがって、特定の機能ユニット又は回路への言及は、単に、厳密な論理的又は物理的な構造又は組織を示すのではなく記載された機能を提供するための好適な手段への言及と見なされるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組合せを含む適切な形態で実現される。本発明は、オプションとして、少なくとも部分的に、１つ又は複数のデータプロセッサ及び／又はデジタル信号プロセサ上で動作するコンピュータソフトウェアとして実現される。本発明の一実施形態の要素及び構成要素は、適切なやり方で物理的に、機能的に、及び論理的に実現される。実際、機能は、単一のユニット、複数のユニット、又は他の機能ユニットの一部として実現される。そのため、本発明は、単一のユニットで実現されてもよく、又は異なるユニット、回路、及びプロセッサの間で物理的に及び機能的に分散されてもよい。

本発明が、いくつかの実施形態に関連して記載されているが、本明細書に記載された特定の形態に限定されるものではない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。加えて、ある特徴が特定の実施形態に関連して記載されているように見えるが、当業者は、記載された実施形態の様々な特徴が本発明に従って組み合わされてもよいことを認識するであろう。特許請求の範囲において、備えている、含んでいる、有しているという用語は、他の要素又はステップの存在を排除しない。

さらに、個別にリストされているが、複数の手段、要素、回路、又は方法のステップは、例えば、単一の回路、ユニット、又はプロセッサによって実施されてもよい。加えて、個々の特徴が異なる特許請求の範囲に含まれることがあるが、これらは、多分、有利に組み合わされてもよく、異なる請求項に含まれるものは、特徴の組合せが実現可能でない及び／又は有利でないことを意味しない。さらに、特許請求の範囲の１つのカテゴリに特徴が含まれることは、このカテゴリへの限定を意味するのではなくて、むしろ、その特徴が必要に応じて他の請求項のカテゴリに等しく適用可能であることを示している。さらに、特許請求の範囲における特徴の順序は、その特徴を機能させなければならない特定の順序を意味せず、特に、方法の請求項における個々のステップの順序は、ステップがこの順序で実行されなければならないことを意味しない。むしろ、ステップは、任意の適切な順序で実行されてもよい。加えて、単数の言及は複数を排除しない。したがって、「１つの」、「第１の」、「第２の」などは、複数を排除しない。特許請求の範囲における参照符号は、単に、例の明確化として提供され、決して特許請求の範囲を限定するものとして解釈されるべきでない。

本発明のいくつかの実施形態に従って、以下が提供される。
１．出力ビデオストリームを生成するための装置であって、この装置は、
複数の基準ビデオストリームをシーンの複数の基準視点に提供するためのプロセッサ（３０１）と、
リモートクライアントからの視点要求を受信するための受信器（３０５）であって、視点要求が、出力ビデオストリームに対してシーンの要求された視点を示す、受信器（３０５）と、
第１の視点のための複数の基準ビデオストリームのうちの第１の基準ビデオストリームからの第１の出力フレームを含む第１のビデオストリーム、及び第２の基準視点のための複数の基準ビデオストリームのうちの第２の基準ビデオストリームからの第２の出力フレームを含む第２のビデオストリームを含む出力ビデオストリームを生成するための発生器（３０３）であって、第２の出力フレームが第１の出力フレームを基準にして差動的に符号化され、第１の出力フレームが第２の出力フレームを基準にして差動的に符号化されない、発生器（３０３）と、
視点要求に応じて、第１の視点及び第２の視点を複数の基準視点の視点として決定するためのコントローラ（３０７）とを含み、
コントローラ（３０７）は、出力ビデオストリームの生成中に、基準を満たす視点要求の変化を検出したことに応じて、複数の基準視点のうちの第１の基準視点である第１の視点及び複数の基準視点のうちの第２の基準視点である第２の視点から第２の基準視点である第１の視点及び第１の基準視点である第２の視点に変更するように構成される。

すべてではなくいくつかの実施形態では、第１の出力フレームは、第１の視点以外の基準視点のフレームを参照することなく符号化される。

すべてではなくいくつかの実施形態では、第１の出力フレームはイントラ符号化される。

すべてではなくいくつかの実施形態では、第１の出力フレームの一部は、第１の出力フレームの他のフレームを基準にして差動的に符号化される。

すべてではなくいくつかの実施形態では、出力発生器（３０３）は、第１の出力フレームを基準にして第２の基準ビデオストリームからのフレームを差動的に符号化することによって、第２の出力フレームを生成するように構成される。

すべてではなくいくつかの実施形態では、プロセッサ（３０１）は、複数の基準ビデオストリームの少なくとも一部の差動的に符号化されたバージョンを格納するように構成され、基準ビデオストリームの差動的に符号化されたバージョンは、別の基準ビデオストリームのフレームに対して差動的に符号化されたフレームを含み、発生器（３０３）は、第１の基準ビデオストリームのフレームを基準にして差動的に符号化されたフレームを含む第２のビデオストリームのバージョンである第２の基準ビデオストリームの差動的に符号化されたバージョンを取り出すことに応じて、第２のビデオストリームを生成するように構成される。

すべてではなくいくつかの実施形態では、プロセッサ（３０１）は、複数の基準ビデオストリームをファイルとして格納するように構成され、コントローラ（３０７）は、視点要求のファイル取出し要求に応じて、第１の基準ビデオストリーム及び第２の基準ビデオストリームを選択するように構成され、ファイル取出し要求は、基準ビデオストリームを含む格納されたファイルを示す。

すべてではなくいくつかの実施形態では、装置は、いくつかの追加のビデオストリームを出力ビデオストリームに含めるようにさらに構成され、各追加のビデオストリームは、第１の出力フレームを基準にして差動的に符号化された複数の基準ビデオストリームのうちの追加の基準ビデオストリームからの出力フレームを含み、コントローラ（３０７）は、出力ビデオストリームを送信するための通信チャネルの待ち時間尺度に応じて、追加のビデオストリームの数を決定するように構成される。

すべてではなくいくつかの実施形態では、装置は、いくつかの追加のビデオストリームを出力ビデオストリームに含めるようにさらに構成され、各追加のビデオストリームは、第１の出力フレームを基準にして差動的に符号化された複数の基準ビデオストリームのうちの追加の基準ビデオストリームからの出力フレームを含み、コントローラ（３０７）は、視点要求の変動尺度に応じて、追加のビデオストリームの数を決定するように構成される。

ビデオストリームをレンダリングするための装置であって、この装置は、
ビデオストリームを受信するための受信器（４０１）であって、ビデオストリームが、シーンの第１の視点のフレームを表す第１のフレームを含む第１のビデオストリームと、第２の視点からのシーンの第２のフレームを含む第２のビデオストリームとを含み、第２のフレームが第１のフレームを基準にして差動的に符号化され、第１のフレームが第２のフレームを基準にして差動的に符号化されない、受信器（４０１）と、
第１のビデオフレーム及び第２のビデオフレームに応じて視点の出力ビュー画像をレンダリングするためのレンダラ（４０３）と、
第１の基準視点に対応する第１の視点及び第２の基準視点に対応する第２の視点から第２の基準視点に対応する第１の視点及び第１の基準視点に対応する第２の視点へのビデオストリームの変化を検出するための検出器（４０９）と、
その検出に応じてレンダリングを適応させるためのアダプタ（４１１）とを含む。

すべてではなくいくつかの実施形態では、レンダラ（４０３）は、第１のフレーム及び第２のフレームのうちの少なくとも１つに適用された視点シフトを使用してビュー画像を合成するように構成される。

すべてではなくいくつかの実施形態では、アダプタは、第１のフレーム及び第２のフレームのうちの少なくとも１つの視点の変化を補償するように視点シフトを適応させるように構成される。

出力ビデオストリームを生成する方法であって、この方法は、
複数の基準ビデオストリームをシーンの複数の基準視点に提供するステップと、
リモートクライアントからの視点要求を受信するステップであって、視点要求が、出力ビデオストリームに対してシーンの要求された視点を示す、受信するステップと、
第１の視点のための複数の基準ビデオストリームのうちの第１の基準ビデオストリームからの第１の出力フレームを含む第１のビデオストリーム、及び第２の基準視点のための複数の基準ビデオストリームのうちの第２の基準ビデオストリームからの第２の出力フレームを含む第２のビデオストリームを含む出力ビデオストリームを生成するステップであって、第２の出力フレームが第１の出力フレームを基準にして差動的に符号化され、第１の出力フレームが第２の出力フレームを基準にして差動的に符号化されない、生成するステップと、
視点要求に応じて、第１の視点及び第２の視点を複数の基準視点の視点として決定するステップとを有し、
第１の視点及び第２の視点を決定するステップが、出力ビデオストリームの生成中に、基準を満たす視点要求の変化を検出したことに応じて、複数の基準視点のうちの第１の基準視点である第１の視点及び複数の基準視点のうちの第２の基準視点である第２の視点から第２の基準視点である第１の視点及び第１の基準視点である第２の視点に変更するステップと
を有する。

ビデオストリームをレンダリングする方法であって、この方法は、
ビデオストリームを受信するステップであって、ビデオストリームが、シーンの第１の視点のフレームを表す第１のフレームを含む第１のビデオストリームと、第２の視点からのシーンの第２のフレームを含む第２のビデオストリームとを含み、第２の出力フレームが第１の出力フレームを基準にして差動的に符号化され、第１の出力フレームが第２の出力フレームを基準にして差動的に符号化されない、受信するステップと、
第１のビデオフレーム及び第２のビデオフレームに応じて視点の出力ビュー画像をレンダリングするステップと、
第１の基準視点に対応する第１の視点及び第２の基準視点に対応する第２の視点から第２の基準視点に対応する第１の視点及び第１の基準視点に対応する第２の視点へのビデオストリームの変化を検出するステップと、
その検出に応じてレンダリングを適応させるステップとを有する。

Claims

出力ビデオストリームを生成するための装置であって、前記装置は、
複数の基準ビデオストリームをシーンの複数の基準視点に提供するためのプロセッサと、
リモートクライアントからの視点要求を受信するための受信器であって、前記視点要求が、前記出力ビデオストリームに対して前記シーンの要求された視点を示す、受信器と、
第１の視点のための前記複数の基準ビデオストリームのうちの第１の基準ビデオストリームからの第１の出力フレームを含む第１のビデオストリーム、及び第２の基準視点のための前記複数の基準ビデオストリームのうちの第２の基準ビデオストリームからの第２の出力フレームを含む第２のビデオストリームを含む出力ビデオストリームを生成するための発生器であって、前記第２の出力フレームが前記第１の出力フレームを基準にして差動的に符号化され、前記第１の出力フレームが前記第２の出力フレームを基準にして差動的に符号化されない、発生器と、
前記視点要求に応じて、前記第１の視点及び第２の視点を前記複数の基準視点の視点として決定するためのコントローラと
を含み、
前記コントローラが、前記出力ビデオストリームの生成中に、基準を満たす前記視点要求の変化を検出したことに応じて、前記複数の基準視点のうちの第１の基準視点である前記第１の視点及び前記複数の基準視点のうちの第２の基準視点である前記第２の視点から前記第２の基準視点である前記第１の視点及び前記第１の基準視点である前記第２の視点に変更する装置において、
前記装置が、いくつかの追加のビデオストリームを前記出力ビデオストリームに含め、各追加のビデオストリームが、前記第１の出力フレームを基準にして差動的に符号化された前記複数の基準ビデオストリームの追加の基準ビデオストリームからの出力フレームを含み、前記コントローラが、
前記視点要求の変動尺度、及び
前記出力ビデオストリームを送信するための通信チャネルの待ち時間尺度
のうちの少なくとも１つに応じて追加のビデオストリームの数を決定する
ことを特徴とする、装置。
前記第１の出力フレームが、前記第１の視点以外の基準視点のフレームを参照することなく符号化される、請求項１に記載の装置。
前記第１の出力フレームがイントラ符号化される、請求項２に記載の装置。
前記第１の出力フレームの一部が、前記第１の出力フレームの他のフレームを基準にして差動的に符号化される、請求項２に記載の装置。
前記発生器が、前記第１の出力フレームを基準にして前記第２の基準ビデオストリームからのフレームを差動的に符号化することによって、前記第２の出力フレームを生成する、請求項１から４のいずれか一項に記載の装置。
前記プロセッサが、前記複数の基準ビデオストリームの少なくとも一部の差動的に符号化されたバージョンを格納し、基準ビデオストリームの差動的に符号化されたバージョンが、別の基準ビデオストリームのフレームに対して差動的に符号化されたフレームを含み、前記発生器が、前記第１の基準ビデオストリームのフレームを基準にして差動的に符号化されたフレームを含む前記第２のビデオストリームのバージョンである前記第２の基準ビデオストリームの差動的に符号化されたバージョンを取り出すことに応じて、前記第２のビデオストリームを生成する、請求項１から５のいずれか一項に記載の装置。
前記プロセッサが、前記複数の基準ビデオストリームをファイルとして格納し、前記コントローラが、前記視点要求のファイル取出し要求に応じて、前記第１の基準ビデオストリーム及び前記第２の基準ビデオストリームを選択し、前記ファイル取出し要求が、基準ビデオストリームを含む格納されたファイルを示す、請求項１から６のいずれか一項に記載の装置。
前記コントローラが、前記要求された視点と前記複数の基準視点との間の距離に応じて前記第１の視点を変更する、請求項１から７のいずれか一項に記載の装置。
前記コントローラが、前記要求された視点の変化率に応じて前記第１の視点を変更する、請求項１から８のいずれか一項に記載の装置。
前記コントローラが、待ち時間尺度に応じて前記第１の視点を変更する、請求項１から９のいずれか一項に記載の装置。
出力ビデオストリームを生成する方法であって、前記方法が、
複数の基準ビデオストリームをシーンの複数の基準視点に提供するステップと、
リモートクライアントからの視点要求を受信するステップであって、前記視点要求が、前記出力ビデオストリームに対して前記シーンの要求された視点を示す、受信するステップと、
第１の視点のための前記複数の基準ビデオストリームのうちの第１の基準ビデオストリームからの第１の出力フレームを含む第１のビデオストリーム、及び第２の基準視点のための前記複数の基準ビデオストリームのうちの第２の基準ビデオストリームからの第２の出力フレームを含む第２のビデオストリームを含む出力ビデオストリームを生成するステップであって、前記第２の出力フレームが前記第１の出力フレームを基準にして差動的に符号化され、前記第１の出力フレームが前記第２の出力フレームを基準にして差動的に符号化されない、生成するステップと、
前記視点要求に応じて、前記第１の視点及び第２の視点を前記複数の基準視点の視点として決定するステップと
を有し、
前記第１の視点及び前記第２の視点を決定するステップが、前記出力ビデオストリームの生成中に、基準を満たす前記視点要求の変化を検出したことに応じて、前記複数の基準視点のうちの第１の基準視点である前記第１の視点及び前記複数の基準視点のうちの第２の基準視点である前記第２の視点から前記第２の基準視点である前記第１の視点及び前記第１の基準視点である前記第２の視点に変更するステップを有し、
前記方法が、
いくつかの追加のビデオストリームを前記出力ビデオストリームに含めるステップであって、各追加のビデオストリームが、前記第１の出力フレームを基準にして差動的に符号化された前記複数の基準ビデオストリームの追加の基準ビデオストリームからの出力フレームを含む、含めるステップと、
前記視点要求の変動尺度、及び
前記出力ビデオストリームを送信するための通信チャネルの待ち時間尺度
のうちの少なくとも１つに応じて追加のビデオストリームの数を決定するステップと
をさらに有する、方法。
プログラムがコンピュータで実行されるとき請求項１１に記載の方法のすべてのステップを実行するコンピュータプログラムコード手段を含む、コンピュータプログラム。