JP7295851B2

JP7295851B2 - 仮想現実アプリケーションのためのオーディオ配信の最適化

Info

Publication number: JP7295851B2
Application number: JP2020520204A
Authority: JP
Inventors: ムルタザ・アドリアン; フックス・ハラルド; ツェルハン・ベルント; プログシュティーズ・ヤン; アニエッリ・マッテオ; ホフマン・インゴ
Original assignee: フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2017-10-12
Filing date: 2018-10-11
Publication date: 2023-06-21
Anticipated expiration: 2038-10-11
Also published as: US20200278828A1; CA3078858A1; ZA202208364B; TW201924362A; AR125882A2; CN111466122B; KR20230130729A; US11354084B2; CN111466122A; CA3230310A1; EP3695613B1; CN116193215A; CN116193212A; CA3230304A1; AR125880A2; KR20200078537A; CA3230205A1; JP2020537418A; SG10202106080XA; BR112020008073A2

Description

仮想現実（ＶＲ）環境、あるいは同様に拡張現実（ＡＲ）または複合現実（ＭＲ）または３６０度のビデオ環境では、ユーザーは通常、例えばヘッドマウントディスプレイ（ＨＭＤ）を使用して３６０度のコンテンツ全体を視覚化して、ヘッドフォンで（または同様に、その位置に応じて正しいレンダリングを含むスピーカーで）聴くことができる。

単純な使用事例では、コンテンツは、ある瞬間に１つのオーディオ／ビデオシーン（例えば、３６０度のビデオ）だけが再生されるように作成される。オーディオ／ビデオシーンは固定された位置（例えば、ユーザーが中心に位置する球など）を有し、ユーザーはシーン内を移動できず、頭を様々な方向（ヨー、ピッチ、ロール）に回転させることしかできない。この場合、ユーザーの頭の向きに基づいて、異なるビデオとオーディオが再生される（異なるビューポートが表示される）。

ビデオの場合、ビデオコンテンツは、レンダリングプロセスを記述するためのメタデータ（例えば、ステッチ情報、プロジェクションマッピングなど）と共に、３６０度のシーン全体について配信され、現在のユーザーのビューポートに基づいて選択されるが、オーディオの場合、コンテンツはシーン全体で同じである。メタデータに基づいて、オーディオコンテンツが現在のユーザーのビューポートに適合される（例えば、オーディオオブジェクトは、ビューポート／ユーザーの向きの情報に基づいて異なってレンダリングされる）。３６０度コンテンツとは、ユーザーが（例えば、ユーザーの頭の向きまたはリモートコントロールデバイスにより）選択することができる、同時に複数の視野角で構成される任意のタイプのコンテンツを指すことに留意されたい。

より複雑なシナリオでは、ユーザーがＶＲシーン内を移動したり、あるシーンから次のシーンに「ジャンプ」したりすると、オーディオコンテンツも変化する可能性がある（例えば、１つのシーンで聞こえないオーディオソースが次のシーンで聞こえるようになる－「ドアが開く」）。既存のシステムでは、完全なオーディオシーンを１つのストリームにエンコードし、必要に応じて（メインストリームに応じて）追加のストリームにエンコードすることができる。このようなシステムは、次世代オーディオシステム（例えば、ＭＰＥＧ－Ｈ３Ｄオーディオなど）として公知である。このような使用事例は、以下を含むことができる。

・例１：ユーザーが新しい部屋に入室することを選択し、オーディオ／ビデオシーン全体が変化する
・例２：ユーザーがＶＲシーン内を移動し、ドアを開けて通り抜ける場合、１つのシーンから次のシーンへのオーディオの移行が必要であることを意味する
このシナリオを説明する目的で、様々なオーディオ／ビデオコンテンツが利用可能な空間（またはＶＲ環境）の離散的な位置として、空間内の離散的なビューポイントの概念が導入されている。

「ストレートフォワード」ソリューションは、ユーザーの位置／向きに関する再生デバイスからのフィードバックに基づいてエンコーディング（オーディオ要素の数、空間情報など）を変更するリアルタイムエンコーダを用意することである。このソリューションは、例えば、ストリーミング環境では、クライアントとサーバーとの間の非常に複雑な通信を意味する。

・クライアント（通常は単純なロジックのみを使用すると想定されている）は、様々なストリームに対する要求だけでなく、ユーザーの位置に基づいて適切なコンテンツの処理を可能にするエンコードの詳細に関する複雑な情報も伝達するための高度なメカニズムを必要とする。

・メディアサーバーには通常、様々なストリーム（「セグメントごとの」配信を可能にする特定の形式でフォーマットされている）が予め入力されており、サーバーの主な機能は、利用可能なストリームに関する情報を提供し、要求されたときに配信を行うことである。再生デバイスからのフィードバックに基づいてエンコードを可能にするシナリオを有効にするために、メディアサーバーは、複数のライブメディアエンコーダとの高度な通信リンク、およびリアルタイムで変化することができるすべてのシグナリング情報（例えば、メディアプレゼンテーション記述）をオンザフライで作成する機能を必要とする。

そのようなシステムは想像することができるが、その複雑さと計算の要件は、現在利用可能な、あるいは今後数十年で開発されるであろう機器およびシステムの機能および特徴を超えている。

あるいは、完全なＶＲ環境（「完全な世界」）を表すコンテンツを常に配信することもできる。これで問題は解決するが、利用可能な通信リンクの容量を超える巨大なビットレートが必要になる。

これはリアルタイム環境では複雑であり、利用可能なシステムを使用してこのような使用事例を可能にするために、この機能を低い複雑度で可能にする代替ソリューションが提案されている。

２．用語および定義
以下の用語がこの技術分野で使用されている。

・オーディオ要素：例えば、オーディオオブジェクト、オーディオチャネル、シーンベースのオーディオ（高次アンビソニックス－ＨＯＡ）、またはすべての任意の組み合わせとして表すことができるオーディオ信号。

・関心領域（ＲＯＩ）：ある時点でユーザーが関心をもつビデオコンテンツ（または表示またはシミュレーションされた環境）の１つの領域。これは通常、例えば球上の領域、または２Ｄマップからの多角形の選択である。ＲＯＩは特定の目的のために特定の領域を識別し、考慮中のオブジェクトの境界を定義する。

・ユーザー位置情報：位置情報（例えば、ｘ、ｙ、ｚ座標）、方位情報（ヨー、ピッチ、ロール）、移動方向、移動速度など。

・ビューポート：現在表示され、ユーザーが閲覧している全天球ビデオの一部。

・ビューポイント：ビューポートの中心点。

・３６０度ビデオ（没入型ビデオまたは全天球ビデオとしても公知である）：このドキュメントのコンテキストでは、同時に一方向に複数のビュー（ビューポート）を含むビデオコンテンツを表す。そのようなコンテンツは、例えば、全方位カメラまたはカメラの集合を使用して作成することができる。再生中に、視聴者は視聴方向を制御することができる。

・メディアプレゼンテーション記述（ＭＰＤ）は、例えばＸＭＬなどの構文であり、メディアセグメント、それらの関係、およびそれらを選択するために必要な情報に関する情報を含む。

・アダプテーションセットには、メディアストリームまたはメディアストリームのセットが含まれる。最も単純なケースでは、コンテンツのすべてのオーディオとビデオを含む１つのアダプテーションセットであるが、帯域幅を減らすために、各ストリームを異なるアダプテーションセットに分割することができる。一般的な事例は、１つのビデオアダプテーションセットと複数のオーディオアダプテーションセットを（サポートされる言語ごとに１つ）有することである。アダプテーションセットは、字幕または任意のメタデータを含むこともできる。

・表現により、アダプテーションセットに異なる方法でエンコードされた同じコンテンツを含めることができる。ほとんどの場合、表現は複数のビットレートで提供される。これにより、クライアントはバッファリングを待たずに再生することができる最高品質のコンテンツを要求することができる。表現は様々なコーデックでエンコードすることもできるため、サポートされている様々なコーデックを有するクライアントをサポートすることができる。

このアプリケーションのコンテキストでは、アダプテーションセットの概念がより一般的に使用され、実際に表現を参照することもある。また、メディアストリーム（オーディオ／ビデオストリーム）は通常、最初にクライアント（例えば、ＤＡＳＨクライアント）によって再生される実際のメディアファイルであるメディアセグメントにカプセル化される。メディアセグメントには、ＭＰＥＧ－４コンテナフォーマットに類似したＩＳＯベースメディアファイルフォーマット（ＩＳＯＢＭＦＦ）またはＭＰＥＧ－２トランスポートストリーム（ＴＳ）などの、様々なフォーマットを使用することができる。メディアセグメントへのカプセル化および様々な表現／アダプテーションセットでのカプセル化は、ここで説明する方法とは無関係であり、本方法はすべての様々なオプションに適用される。

さらに、この文書における方法の説明はＤＡＳＨサーバーとクライアントの通信を中心にしているが、本方法はＭＭＴ、ＭＰＥＧ－２ＴＳ、ＤＡＳＨ－ＲＯＵＴＥ、ファイル再生のためのファイルフォーマットなどの他の配信環境で機能するのに十分に一般的である。

一般的に、アダプテーションセットはストリームに対して上位のレイヤにあり、メタデータ（例えば、位置に関連付けられた）を含むことができる。ストリームは複数のオーディオ要素を含むことができる。オーディオシーンは、複数のアダプテーションセットの一部として配信される複数のストリームに関連付けることができる。

３．現在の解決策
現在の解決策は次の通りである。

［１］．ＩＳＯ／ＩＥＣ２３００８－３：２０１５，Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ－－Ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｃｏｄｉｎｇａｎｄｍｅｄｉａｄｅｌｉｖｅｒｙｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｅｎｖｉｒｏｎｍｅｎｔｓ－－Ｐａｒｔ３：３Ｄａｕｄｉ

［２］．Ｎ１６９５０，ＳｔｕｄｙｏｆＩＳＯ／ＩＥＣＤＩＳ２３０００－２０ＯｍｎｉｄｉｒｅｃｔｉｏｎａｌＭｅｄｉａＦｏｒｍａｔ
現在の解決策は制限されており、１つの固定された場所で独立したＶＲエクスペリエンスを提供することができるため、ユーザーは向きを変えることができるが、ＶＲ環境内では移動することができない。

ＩＳＯ／ＩＥＣ２３００８－３：２０１５，Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ－－Ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｃｏｄｉｎｇａｎｄｍｅｄｉａｄｅｌｉｖｅｒｙｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｅｎｖｉｒｏｎｍｅｎｔｓ－－Ｐａｒｔ３：３ＤａｕｄｉｏＮ１６９５０，ＳｔｕｄｙｏｆＩＳＯ／ＩＥＣＤＩＳ２３０００－２０ＯｍｎｉｄｉｒｅｃｔｉｏｎａｌＭｅｄｉａＦｏｒｍａｔ

一実施形態によれば、仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステムは、メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成されてもよく、システムは、ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境シーンをユーザーに表現するためにビデオストリームからビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、少なくとも１つのオーディオストリームからのオーディオ信号をデコードするように構成された少なくとも１つのオーディオデコーダと、を含んでもよく、システムは、少なくともユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データに基づいて、少なくとも１つのオーディオストリームおよび／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバーに要求するように構成されてもよい。

一態様によれば、システムは、少なくとも１つのオーディオストリームおよび／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバーから取得するために、サーバーにユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データを提供するように構成されてもよい。

一実施形態は、少なくとも１つのシーンは、少なくとも１つのオーディオ要素に関連付けられ、各オーディオ要素は、オーディオ要素が可聴である視覚環境内の位置および／または領域に関連付けられ、シーン内の様々なユーザーの位置および／またはビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データに、様々なオーディオストリームが提供されるように構成されてもよい。
別の態様によれば、システムは、オーディオストリームの少なくとも１つのオーディオ要素および／または１つのアダプテーションセットを、シーンにおける現在のユーザーのビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置に対して再生するかどうかを決定するように構成されてもよく、システムは、現在のユーザーの仮想位置で少なくとも１つのオーディオ要素を要求および／または受信するように構成されてもよい。

一態様によれば、システムは、少なくともユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データに基づいて、オーディオストリームの少なくとも１つのオーディオ要素および／または１つのアダプテーションセットが、関連性があり、かつ／または可聴であるようになるかどうかを予測的に決定するように構成されてもよく、システムは、シーンにおける予測されたユーザーの動きおよび／またはインタラクションの前に、特定のユーザーの仮想位置で少なくとも１つのオーディオ要素および／またはオーディオストリームおよび／またはアダプテーションセットを要求および／または受信するように構成されてもよく、システムは、受信すると、少なくとも１つのオーディオ要素および／またはオーディオストリームを、シーンにおけるユーザーの動きおよび／またはインタラクション後の特定のユーザーの仮想位置で再生するように構成されてもよい。

システムの一実施形態は、シーンにおけるユーザーの動きおよび／またはインタラクションの前のユーザーの仮想位置で、より低いビットレートおよび／または品質レベルで少なくとも１つのオーディオ要素を要求および／または受信するように構成されてもよく、システムは、シーンにおけるユーザーの動きおよび／またはインタラクションの後のユーザーの仮想位置で、より高いビットレートおよび／または品質レベルで少なくとも１つのオーディオ要素を要求および／または受信するように構成されてもよい。

一態様によれば、システムは、少なくとも１つのオーディオ要素が少なくとも１つのシーンに関連付けられ、各オーディオ要素がシーンに関連付けられた視覚環境内の位置および／または領域に関連付けられるように構成されてもよく、システムは、ユーザーからより遠いオーディオ要素よりもユーザーにより近いオーディオ要素に対して、より高いビットレートおよび／または品質でストリームを要求および／または受信するように構成されてもよい。

システムの一態様によれば、少なくとも１つのオーディオ要素は、少なくとも１つのシーンに関連付けられ、少なくとも１つのオーディオ要素は、シーンに関連付けられた視覚環境内の位置および／または領域に関連付けられてもよく、システムは、シーンにおける各ユーザーの仮想位置での関連性および／または監査能力レベルに基づいて、オーディオ要素の異なるビットレートおよび／または品質レベルで異なるストリームを要求するように構成されてもよく、システムは、現在のユーザーの仮想位置でより関連性があり、かつ／または可聴性がより高いオーディオ要素に対して、より高いビットレートおよび／または品質レベルでオーディオストリームを要求するように構成されてもよく、および／または現在のユーザーの仮想位置で関連性がより低く、かつ／または可聴性がより低いオーディオ要素に対して、より低いビットレートおよび／または品質レベルでオーディオストリームを要求するように構成されてもよい。

システムの一実施形態では、少なくとも１つのオーディオ要素は、シーンに関連付けられてもよく、各オーディオ要素は、シーンに関連付けられた視覚環境内の位置および／または領域に関連付けられ、システムは、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データをサーバーに定期的に送信するように構成されてもよく、それにより、第１の位置では、より高いビットレートおよび／または品質のストリームがサーバーから提供され、第２の位置では、より低いビットレートおよび／または品質のストリームがサーバーから提供され、第１の位置は、第２の位置よりも少なくとも１つのオーディオ要素に近い。

一実施形態では、システムは、複数のシーンが隣接および／または近接する環境などの複数の視覚環境に対して定義されてもよく、第１の現在のシーンに関連付けられた第１のストリームが提供され、ユーザーが第２のさらなるシーンに移行した場合には、第１のシーンに関連付けられたストリームと第２のシーンに関連付けられた第２のストリームの両方が提供される。

一実施形態では、システムは、複数のシーンが第１および第２の視覚環境に対して定義されてもよく、第１および第２の環境は、隣接および／または近接する環境であり、第１のシーンに関連付けられた第１のストリームは、ユーザーの位置または仮想位置が第１のシーンに関連付けられた第１の環境にある場合の第１のシーンの再生のために、サーバーから提供され、第２のシーンに関連付けられた第２のストリームは、ユーザーの位置または仮想位置が第２のシーンに関連付けられた第２の環境にある場合の第２のシーンの再生のために、サーバーから提供され、ユーザーの位置または仮想位置が第１のシーンと第２のシーンとの間の移行位置にある場合に、第１のシーンに関連付けられた第１のストリームと第２のシーンに関連付けられた第２のストリームの両方が提供される。

一実施形態では、システムは、複数のシーンが、隣接および／または近接する環境である第１および第２の視覚環境に対して定義されてもよく、システムは、ユーザーの仮想位置が第１の環境にある場合の第１のシーンの再生のために、第１の環境に関連付けられた第１のシーンに関連付けられた第１のストリームを要求および／または受信するように構成され、システムは、ユーザーの仮想位置が第２の環境にある場合の第２のシーンの再生のために、第２の環境に関連付けられた第２のシーンに関連付けられた第２のストリームを要求および／または受信するように構成されてもよく、システムは、ユーザーの仮想位置が第１の環境と第２の環境との間の移行位置にある場合に、第１のシーンに関連付けられた第１のストリームと第２のシーンに関連付けられた第２のストリームの両方を要求および／または受信するように構成されてもよい。

一態様によれば、システムは、第１のシーンに関連付けられた第１のストリームが、ユーザーが第１のシーンに関連付けられた第１の環境にいるときに、より高いビットレートおよび／または品質で取得されるように構成されてもよく、一方、第２の環境に関連付けられた第２のシーンに関連付けられた第２のストリームは、ユーザーが第１のシーンから第２のシーンへの移行位置の始まりにいるときに、より低いビットレートおよび／または品質で取得され、ユーザーが第１のシーンから第２のシーンへの移行位置の終わりにいるときに、第１のシーンに関連付けられた第１のストリームは、より低いビットレートおよび／または品質で取得され、第２のシーンに関連付けられた第２のストリームは、より高いビットレートおよび／または品質で取得され、より低いビットレートおよび／または品質は、より高いビットレートおよび／または品質よりも低い。

一態様によれば、システムは、複数のシーンが、隣接および／または近隣環境などの複数の環境に対して定義されるように構成されてもよく、システムは、第１の現在の環境に関連付けられた第１の現在のシーンに関連付けられたストリームを取得してもよく、シーンの境界からのユーザーの位置または仮想位置の距離が所定のしきい値より小さい場合には、システムは、第２のシーンに関連付けられた第２の隣接および／または近接する環境に関連付けられたオーディオストリームをさらに取得してもよい。

一態様によれば、システムは、複数の視覚環境に対して複数のシーンが定義され得るように構成されてもよく、システムは、より高いビットレートおよび／または品質で現在のシーンに関連付けられたストリーム、ならびにより低いビットレートおよび／または品質で第２のシーンに関連付けられたストリームを要求および／または取得し、より低いビットレートおよび／または品質は、より高いビットレートおよび／または品質よりも低い。

一態様によれば、システムは、複数のＮ個のオーディオ要素が定義され得るように構成されてもよく、これらのオーディオ要素の位置または領域までのユーザーの距離が所定のしきい値よりも大きい場合に、Ｎ個のオーディオ要素は、Ｎ個のオーディオ要素の位置または領域に近い位置または領域に関連付けられたより小さい数Ｍ（Ｍ＜Ｎ）個のオーディオ要素を取得するように処理され、それによって、Ｎ個のオーディオ要素の位置または領域までのユーザーの距離が所定のしきい値よりも小さい場合に、Ｎ個のオーディオ要素に関連付けられた少なくとも１つのオーディオストリームをシステムに提供する、またはＮ個のオーディオ要素の位置または領域までのユーザーの距離が所定のしきい値よりも大きい場合に、Ｍ個のオーディオ要素に関連付けられた少なくとも１つのオーディオストリームをシステムに提供する。

一態様によれば、システムは、少なくとも１つの視覚環境シーンが、少なくとも１つの複数のＮ個のオーディオ要素（Ｎ＞＝２）に関連付けられ、各オーディオ要素は、視覚環境内の位置および／または領域に関連付けられるように構成されてもよく、少なくとも１つの複数のＮ個のオーディオ要素は、高いビットレートおよび／または品質レベルで少なくとも１つの表現で提供され、少なくとも１つの複数のＮ個のオーディオ要素は、低いビットレートおよび／または品質レベルで少なくとも１つの表現で提供され、少なくとも１つの表現は、Ｎ個のオーディオ要素を処理して、Ｎ個のオーディオ要素の位置または領域に近い位置または領域に関連付けられたより少ない数Ｍ（Ｍ＜Ｎ）個のオーディオ要素を取得することによって取得され、システムは、オーディオ要素がシーンでの現在のユーザーの仮想位置でより関連性があり、かつ／または可聴性がより高い場合に、オーディオ要素についてより高いビットレートおよび／または品質レベルで表現を要求するように構成されてもよく、システムは、オーディオ要素がシーンでの現在のユーザーの仮想位置でより関連性が低く、かつ／または可聴性がより低い場合に、オーディオ要素についてより低いビットレートおよび／または品質レベルで表現を要求するように構成されてもよい。

一態様によれば、システムは、ユーザーの距離および／または関連性および／または可聴レベルおよび／または角度の向きが所定のしきい値よりも低い場合に、異なるストリームが異なるオーディオ要素について取得されるように構成されてもよい。

一実施形態では、システムは、シーンにおけるユーザーの向きおよび／またはユーザーの動きの方向および／またはユーザーのインタラクションに基づいて、ストリームを要求および／または取得するように構成されてもよい。

一実施形態では、システムのビューポートは、位置および／または仮想位置および／または動きのデータおよび／または頭部に関連付けられてもよい。

一態様によれば、システムは、異なるオーディオ要素が異なるビューポートで提供されるように構成されてもよく、システムは、１つの第１のオーディオ要素がビューポート内にある場合に、ビューポート内にない第２のオーディオ要素よりも高いビットレートの第１のオーディオ要素を要求および／または受信するように構成されてもよい。

一態様によれば、システムは、第１のオーディオストリームと第２のオーディオストリームを要求および／または受信するように構成されてもよく、第１のオーディオストリームの第１のオーディオ要素は、第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、第１のオーディオストリームは、第２のオーディオストリームのビットレートおよび／または品質よりも高いビットレートおよび／または品質で要求および／または受信される。

一態様によれば、システムは、少なくとも２つの視覚環境シーンが定義されるように構成されてもよく、少なくとも１つの第１および第２のオーディオ要素は、第１の視覚環境に関連付けられた第１のシーンに関連付けられ、少なくとも１つの第３のオーディオ要素は、第２の視覚環境に関連付けられた第２のシーンに関連付けられ、システムは、少なくとも１つの第２のオーディオ要素が第２の視覚環境シーンにさらに関連付けられていることを記述するメタデータを取得するように構成されてもよく、システムは、ユーザーの仮想位置が第１の視覚環境にある場合に、少なくとも第１および第２のオーディオ要素を要求および／または受信するように構成されてもよく、システムは、ユーザーの仮想位置が第２の視覚環境シーンにある場合に、少なくとも第２および第３のオーディオ要素を要求および／または受信するように構成されてもよく、システムは、ユーザーの仮想位置が第１の視覚環境シーンと第２の視覚環境シーンとの間で移行している場合に、少なくとも第１および第２および第３のオーディオ要素を要求および／または受信するように構成されてもよい。

システムの一実施形態は、少なくとも１つの第１のオーディオ要素が、少なくとも１つのオーディオストリームおよび／またはアダプテーションセットで提供されるように構成されてもよく、少なくとも１つの第２のオーディオ要素は、少なくとも１つの第２のオーディオストリームおよび／またはアダプテーションセットで提供され、少なくとも１つの第３のオーディオ要素は、少なくとも１つの第３のオーディオストリームおよび／またはアダプテーションセットで提供され、少なくとも第１の視覚環境シーンは、少なくとも第１および第２のオーディオストリームおよび／またはアダプテーションセットを必要とする完全なシーンとしてメタデータによって記述され、第２の視覚環境シーンは、少なくとも第３のオーディオストリームおよび／またはアダプテーションセット、ならびに少なくとも第１の視覚環境シーンに関連付けられた少なくとも第２のオーディオストリームおよび／またはアダプテーションセットを必要とする不完全なシーンとしてメタデータによって記述され、システムは、ユーザーの仮想位置が第２の視覚環境にある場合に、メタデータを操作して、第１の視覚環境に属する第２のオーディオストリームと、第２の視覚環境に関連付けられた第３のオーディオストリームと、を新しい単一のストリームにマージすることを可能にするように構成されたメタデータプロセッサを含む。

一態様によれば、システムは、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データに基づいて、少なくとも１つのオーディオデコーダの前に少なくとも１つのオーディオストリーム内のメタデータを操作するように構成されたメタデータプロセッサを含む。

一態様によれば、メタデータプロセッサは、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データに基づいて、少なくとも１つのオーディオデコーダの前に少なくとも１つのオーディオストリーム内の少なくとも１つのオーディオ要素を有効および／または無効にするように構成されてもよく、システムが、現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データの結果として、オーディオ要素がもう再生されないと決定した場合に、メタデータプロセッサは、少なくとも１つのオーディオデコーダの前に少なくとも１つのオーディオストリーム内の少なくとも１つのオーディオ要素を無効にするように構成されてもよく、システムが、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データの結果として、オーディオ要素が再生されると決定した場合に、メタデータプロセッサは、少なくとも１つのオーディオデコーダの前に少なくとも１つのオーディオストリーム内の少なくとも１つのオーディオ要素を有効にするように構成されてもよい。

一態様によれば、システムは、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置に基づいて選択されたオーディオ要素のデコードを無効にするように構成されてもよい。

一態様によれば、システムは、現在のオーディオシーンに関連付けられた少なくとも１つの第１のオーディオストリームを、隣接し、近接する、および／または将来のオーディオシーンに関連付けられた少なくとも１つのストリームにマージするように構成されてもよい。

一態様によれば、システムは、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データに関する統計データまたは集計データを取得および／または収集して、統計データまたは集計データに関連付けられたサーバーに要求を送信するように構成されてもよい。

一態様によれば、システムは、少なくとも１つのストリームに関連付けられたメタデータに基づいて、かつ、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データに基づいて、少なくとも１つのストリームのデコードおよび／または再生を非アクティブ化するように構成されてもよい。

一態様によれば、システムは、少なくともユーザーの現在または推定のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データに基づいて、選択したオーディオストリームのグループに関連付けられたメタデータを操作して、再生されるオーディオシーンを構成するオーディオ要素を選択および／または有効化および／またはアクティブ化する、および／または選択されたすべてのオーディオストリームを単一のオーディオストリームにマージすることを可能にするように構成されてもよい。

一態様によれば、システムは、異なるシーンに関連付けられた隣接および／または近接する環境の境界からのユーザーの位置の距離、あるいは、現在の環境でのユーザーの位置または将来の環境での予測に関連付けられた他のメトリックに基づいて、サーバーへの少なくとも１つのストリームの要求を制御するように構成されてもよい。

システムの一態様によれば、各オーディオ要素またはオーディオオブジェクトについて、サーバーシステムから情報が提供されてもよく、情報は、サウンドシーンまたはオーディオ要素がアクティブである場所についての記述情報を含む。

一態様によれば、システムは、現在または将来またはビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置および／またはユーザーの選択に基づいて、１つのシーンの再生と、少なくとも２つのシーンの合成、ミキシング、多重化、重ね合わせ、または結合との間で選択するように構成されてもよく、２つのシーンは異なる隣接および／または近接する環境に関連付けられている。

一態様によれば、システムは、少なくともアダプテーションセットを作成または使用するように構成されてもよく、いくつかのアダプテーションセットが１つのオーディオシーンに関連付けられ、および／または各アダプテーションセットを１つのビューポイントまたは１つのオーディオシーンに関連付ける追加情報が提供され、および／または１つのオーディオシーンの境界に関する情報、および／または１つのアダプテーションセットと１つのオーディオシーンとの関係に関する情報（例えば、オーディオシーンは、３つのアダプテーションセットにカプセル化された３つのストリームにエンコードされる）、および／またはオーディオシーンの境界と複数のアダプテーションセットとの間の接続に関する情報を含むことができる追加情報が提供される。

一態様によれば、システムは、隣接または近接する環境に関連付けられたシーンのストリームを受信し、２つの環境間の境界の移行の検出時に、隣接または近接する環境のストリームのデコードおよび／または再生を開始するように構成されてもよい。

一態様によれば、システムは、クライアントと、メディア消費デバイスで再生されるビデオおよび／またはオーディオストリームを配信するように構成されたサーバーとして動作するように構成されてもよい。

一態様によれば、システムは、少なくとも１つの第１のオーディオシーンに関連付けられた少なくとも１つのオーディオストリームを含む少なくとも１つの第１のアダプテーションセットを要求および／または受信し、少なくとも１つの第１のオーディオシーンを含む少なくとも２つのオーディオシーンに関連付けられた少なくとも１つの第２のオーディオストリームを含む少なくとも１つの第２のアダプテーションセットを要求および／または受信し、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データに関して利用可能なメタデータ、ならびに／あるいは少なくとも１つの第１のアダプテーションセットの少なくとも１つの第１のオーディオシーンへの関連付けおよび／または少なくとも１つの第２のアダプテーションセットの少なくとも１つの第１のオーディオシーンへの関連付けを記述する情報に基づいて、少なくとも１つの第１のオーディオストリームと少なくとも１つの第２のオーディオストリームとを、デコードされる新しいオーディオストリームにマージすることを可能にするように構成されてもよい。

一態様によれば、システムは、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データに関する情報、ならびに／あるいはユーザーのアクションによってトリガーされた変化を特徴付ける情報を受信し、アダプテーションセットの利用可能性に関する情報と、少なくとも１つのシーンおよび／またはビューポイントおよび／またはビューポートおよび／または位置および／または仮想位置および／または動きのデータおよび／または向きに対する少なくとも１つのアダプテーションセットの関連付けを記述する情報と、を受信するように構成されてもよい。

一態様によれば、システムは、少なくとも１つのストリームに埋め込まれた少なくとも１つのオーディオシーンからの少なくとも１つのオーディオ要素と、少なくとも１つの追加ストリームに埋め込まれた少なくとも１つの追加オーディオシーンからの少なくとも１つの追加オーディオ要素と、を再生するかどうかを決定し、肯定的な決定の場合に、追加オーディオシーンの少なくとも１つの追加のストリームを少なくとも１つのオーディオシーンの少なくとも１つのストリームにマージまたは合成または多重化または重ね合わせまたは結合する操作を行うように構成されてもよい。

一態様によれば、システムは、少なくともユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データに基づいて、選択されたオーディオストリームに関連付けられたオーディオメタデータを操作して、再生するように決定されたオーディオシーンを構成するオーディオ要素を選択および／または有効化および／またはアクティブ化し、選択されたすべてのオーディオストリームを単一のオーディオストリームにマージすることを可能にするように構成されてもよい。

一態様によれば、仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのオーディオおよびビデオストリームをクライアントに配信するためのサーバーが提供されてもよく、ビデオおよびオーディオストリームはメディア消費デバイスで再生され、サーバーは、視覚環境を記述するビデオストリームを、エンコードするためのエンコーダおよび／または格納するための記憶装置を含んでもよく、視覚環境はオーディオシーンに関連付けられ、サーバーは、クライアントに配信される複数のストリームおよび／またはオーディオ要素および／またはアダプテーションセットを、エンコードするためのエンコーダおよび／または格納するための記憶装置をさらに含んでもよく、ストリームおよび／またはオーディオ要素および／またはアダプテーションセットは、少なくとも１つのオーディオシーンに関連付けられ、サーバーは、クライアントからの要求に基づいてビデオストリームを選択して配信し、ビデオストリームは環境に関連付けられ、クライアントからの要求に基づいて、オーディオストリームおよび／またはオーディオ要素および／またはアダプテーションセットを選択し、要求は、少なくともユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ、ならびに環境に関連付けられたオーディオシーンに関連付けられ、オーディオストリームをクライアントに配信するように構成される。

一態様によれば、ストリームはアダプテーションセットにカプセル化されてもよく、各アダプテーションセットは、同じオーディオコンテンツの異なるビットレートおよび／または品質で、異なる表現に関連付けられた複数のストリームを含み、選択されたアダプテーションセットは、クライアントからの要求に基づいて選択される。

一態様によれば、システムは、クライアントおよびサーバーとして動作してもよい。

一態様によれば、システムはサーバーを含んでもよい。

一態様によれば、メディア消費デバイス（例えば、再生デバイス）で再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のための方法が提供されてもよく、ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境シーンのユーザーへの表現のためにビデオストリームからビデオ信号をデコードするステップと、オーディオストリームからオーディオ信号をデコードするステップと、ユーザーの現在のビューポートおよび／または位置データおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データおよび／またはメタデータに基づいて、少なくとも１つのオーディオストリームを、サーバーに要求し、および／またはサーバーから取得するステップと、を含む。

一態様によれば、プロセッサによって実行されると、プロセッサに上記の方法を実行させる命令を含むコンピュータプログラムが提供されてもよい。

発明の例を示す図である。発明の例を示す図である。発明の例を示す図である。発明の例を示す図である。発明の例を示す図である。発明の例を示す図である。発明の例を示す図である。発明の例を示す図である。発明のシナリオを示す図である。発明のシナリオを示す図である。発明のシナリオを示す図である。発明のシナリオを示す図である。発明のシナリオを示す図である。発明の方法を示す図である。発明の方法を示す図である。発明の方法を示す図である。発明の方法を示す図である。

本明細書の以下（例えば、図１．１以降）には、本発明の態様によるシステムの例が開示されている。

本発明のシステムの例（以下に開示する異なる例によって具体化されてもよい）は、まとめて符号１０２で示されている。システム１０２は、例えば、ユーザーへのオーディオシーンおよび／または視覚環境の表現のためにサーバーシステム（例えば、１２０）オーディオおよび／またはビデオストリームから取得することができるので、クライアントシステムであってもよい。クライアントシステム１０２はまた、例えば、オーディオおよび／またはビデオストリームに関するサイドおよび／または補助情報を提供するメタデータをサーバーシステム１２０から受信してもよい。

システム１０２は、実際にオーディオおよび／またはビデオ信号をユーザーに再生するメディア消費デバイス（ＭＣＤ）に関連付けられてもよい（またはいくつかの例ではそれを含んでもよい）。いくつかの例では、ユーザーはＭＣＤを着用してもよい。

システム１０２は、サーバーシステム１２０への要求を実行することができ、この要求は、少なくとも１人のユーザーの現在のビューポートおよび／または頭の向き（例えば、角度の向き）および／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ１１０に関連付けられる。（いくつかのメトリックが提供されてもよい）。ビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ１１０は、ＭＣＤからクライアントシステム１０２へのフィードバックで提供されてもよく、このフィードバックに基づいて、クライアントシステム１０２は、サーバーシステム１２０に要求を提供してもよい。

場合によっては、要求（符号１１２で示される）には、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ１１０（またはその表示または処理されたバージョン）が含まれる場合がある。ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ１１０に基づいて、サーバーシステム１２０は必要なオーディオおよび／またはビデオストリームおよび／またはメタデータを提供する。この場合、サーバーシステム１２０は、（例えば、仮想環境における）ユーザーの位置の知識を有することができ、正しいストリームをユーザーの位置に関連付けることができる。

他の場合では、クライアントシステム１０２からの要求１１２は、特定のオーディオおよび／またはビデオストリームの明示的な要求を含むことができる。この場合、要求１１２は、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ１１０に基づくことができる。クライアントシステム１０２は、クライアントシステム１０２が必要なストリームをその中に格納していない場合でも、ユーザーにレンダリングする必要があるオーディオおよびビデオ信号の知識を有している。クライアントシステム１０２は、例では、サーバーシステム１２０内の特定のストリームを対象にすることができる。

クライアントシステム１０２は、メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステムであってもよく、
システム１０２は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境シーンをユーザーに表現するためにビデオストリームからビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
少なくとも１つのオーディオストリーム１０６からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ１０４と、を含み、
システム１０２は、少なくともユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ１１０に基づいて、少なくとも１つのオーディオストリーム１０６および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー１２０に要求１１２するように構成される。

ＶＲ、ＡＲ、ＭＲ環境では、ユーザー１４０は、特定の環境（例えば、特定の部屋）にいることを意味する場合があることに留意されたい。環境は、例えばサーバー側（必ずしもサーバーシステム１２０を含まないが、その後サーバー１２０のストレージに格納されたビデオストリームを以前にエンコードした別のエンコーダを含むサーバーシステム１２０の側）でエンコードされたビデオ信号で記述される。各瞬間に、いくつかの例では、ユーザーは一部のビデオ信号（例えば、ビューポート）のみを楽しむことができる。

一般的に、各環境は特定のオーディオシーンに関連付けられてもよい。オーディオシーンは、特定の環境で、特定の期間にわたってユーザーに再生されるすべての音の集まりとして理解することができる。

従来、環境は離散した数で理解されてきた。したがって、環境の数は有限であると理解されてきた。同じ理由で、オーディオシーンの数は有限であると理解されてきた。したがって、従来技術では、ＶＲ、ＡＲ、ＭＲシステムは次のように設計されている。
－ユーザーは、常に１つの環境にいることを目的としている。したがって、環境ごとに：
ｏクライアントシステム１０２は、単一の環境に関連付けられたビデオストリームのみをサーバーシステム１２０に要求する。

ｏクライアントシステム１０２は、単一のシーンに関連付けられたオーディオストリームのみをサーバーシステム１２０に要求する。

この手法は不便なものになっている。

例えば、すべてのオーディオストリームは、シーン／環境ごとにクライアントシステム１０２にまとめて配信され、ユーザーが別の環境に移動すると、完全に新しいオーディオストリームを配信する必要がある（例えば、ユーザーがドアを通過するとき、環境／シーンの伝達を意味する）。

さらに、場合によっては不自然なエクスペリエンスが発生する場合もある。例えば、ユーザーが壁（仮想部屋の仮想壁など）に近い場合、壁の反対側から音が聞こえるはずである。しかし、このエクスペリエンスは従来の環境では不可能である。現在のシーンに関連付けられているオーディオストリームの集合には、隣接する環境／シーンに関連付けられているストリームが明らかに含まれていない。

一方、オーディオストリームのビットレートを上げると、通常、ユーザーエクスペリエンスが向上する。これにより、さらに問題が発生する可能性がある。ビットレートが高いほど、サーバーシステムがクライアントシステム１０２に配信する必要があるペイロードが高くなる。例えば、オーディオシーンに複数のオーディオソース（オーディオ要素として伝達される）が含まれている場合、それらのいくつかはユーザーの位置の近くにあり、他はユーザーの位置から遠くにある場合、遠くにあるサウンドソースは聞こえにくくなる。したがって、すべてのオーディオ要素を同じビットレートまたは品質レベルで配信すると、ビットレートが非常に高くなる可能性がある。これは、非効率的なオーディオストリーム配信を意味する。サーバーシステム１２０が可能な限り最高のビットレートでオーディオストリームを配信する場合には、低い可聴レベルまたは全体のオーディオシーンとの関連性が低いにもかかわらず、ユーザーの近くで生成された関連するサウンドと同様に高いビットレートを必要とするので、非効率的な配信が発生する。したがって、１つのシーンのすべてのオーディオストリームが最高のビットレートで配信される場合には、サーバーシステム１２０とクライアントシステム１０２との間の通信は、不必要にペイロードを増加させるであろう。１つのシーンのすべてのオーディオストリームがより低いビットレートで配信される場合には、ユーザーのエクスペリエンスは満足のいくものにはならない。

通信の問題は、上で説明した不便さを悪化させる。ユーザーがドアを通過すると、環境／シーンを瞬時に変化させることになり、サーバーシステム１２０がすべてのストリームをクライアントシステム１０２に瞬時に提供する必要がある。

したがって、従来は上記の問題を解決することはできなかった。

しかしながら、本発明により、これらの問題を解決することが可能である。クライアントシステム１０２は、サーバーシステム１２０に要求をするが、それはユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データに基づいてもよい（および環境／シーンに基づくだけではない）。したがって、サーバーシステム１２０は、各瞬間に、例えば、ユーザーの位置ごとにレンダリングされるオーディオストリームを提供することができる。

例えば、ユーザーが壁に近づかない場合には、クライアントシステム１０２が隣接環境のストリームを要求する必要はない（例えば、ユーザーが壁に近づいたときにのみクライアントシステム１０２が要求してもよい）。さらに、壁の外から来るストリームは、小音量で聞こえてもよいので、ビットレートが低下してもよい。特に、より関連性の高いストリーム（例えば、現在の環境内のオーディオオブジェクトからのストリーム）は、サーバーシステム１２０からクライアントシステム１０２に、最高のビットレートおよび／または最高の品質レベルで配信される（その結果、関連性の低いストリームは、ビットレートや品質レベルが低いため、関連性の高いストリームのために空き帯域を残す）。

より低い品質レベルは、例えば、ビットレートを下げるか、送信する必要のあるデータが減るようにオーディオ要素を処理することで取得することができるが、オーディオ信号あたりの使用ビットレートは一定に保たれる。例えば、１０個のオーディオオブジェクトがすべてユーザーから遠く離れた様々な位置にある場合には、これらのオブジェクトは、ユーザーの位置に基づいて、より少ない数の信号に混合することができる。

－ユーザーの位置から非常に離れた位置（例えば、第１のしきい値より高い位置）では、オブジェクトが２つの信号に混合され（空間位置とセマンティックに基づいて他の数も可能）、２つの「仮想オブジェクト」として配信される。

－ユーザーの位置に近い位置（例えば、第１のしきい値よりも低いが、第１のしきい値よりも小さい第２のしきい値よりも高い）では、オブジェクトは５つの信号に混合され（それらの空間位置とセマンティックに基づいて）、５つの（他の数が可能）「仮想オブジェクト」として配信される。

－ユーザーの位置に非常に近い位置（第１および第２のしきい値より低い位置）では、１０個のオブジェクトが最高の品質を提供する１０個のオーディオ信号として配信される。

最高品質のオーディオ信号はすべて非常に重要で可聴であると考えられるかもしれないが、ユーザーは各オブジェクトを個別に特定することが可能であってもよい。遠く離れた位置での品質レベルがより低い場合、一部のオーディオオブジェクトは関連性が低くなるか聞こえなくなる可能性があり、したがって、ユーザーは空間内のオーディオ信号を個別にローカライズできなくなり、したがって、これらのオーディオ信号を配信するための品質レベルを下げても、ユーザーのエクスペリエンスの品質が低下することにはならない。

別の例は、ユーザーがドアを越えたときである。移行位置（例えば、２つの異なる環境／シーン間の境界）では、サーバーシステム１２０は、両方のシーン／環境の両方のストリームを提供するが、より低いビットレートである。これは、ユーザーが２つの異なる環境（元々異なるシーン／環境に関連付けられていた異なるオーディオストリームからサウンドがマージされてもよい）からのサウンドを体験し、各サウンドソース（またはオーディオ要素）の最高品質レベルが必要ないためである。

上記に鑑みて、本発明は、離散的な数の視覚環境およびオーディオシーンの従来の手法を超えることを可能にするが、異なる環境／シーンの漸進的な表現を可能にし、ユーザーにより現実的なエクスペリエンスを与える。

以下では、各視覚環境（例えば、仮想環境）は、オーディオシーンに関連付けられているとみなす（環境の属性は、シーンの属性でもあり得る）。各環境／シーンは、例えば、幾何学的座標系（仮想的な幾何学的座標系であってもよい）に関連付けられ得る。環境／シーンには境界がある場合があるため、ユーザーの位置（例えば仮想位置）が境界を超えると、別の環境／シーンに到達する。境界は、使用される座標系に基づいてもよい。環境は、環境／シーンのいくつかの特定の座標に配置され得るオーディオオブジェクト（オーディオ要素、サウンドソース）を含んでもよい。例えば、オーディオオブジェクト（オーディオ要素、サウンドソース）に対するユーザーの相対位置および／または向きに関して、クライアントシステム１０２は異なるストリームを要求することができ、かつ／またはサーバーシステム１２０は異なるストリームを（例えば、距離および／または方向に応じてより高い／より低いビットレートおよび／または品質レベルで）提供することができる。

より一般的には、クライアントシステム１０２は、可聴性および／または関連性に基づいて、異なるストリーム（例えば、異なるビットレートおよび／または品質レベルでの同じ音の異なる表現）をサーバーシステム１２０に要求し、および／またはそれから取得することができる。可聴性および／または関連性は、例えば、少なくともユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データに基づいて決定されてもよい。

いくつかの例では、異なるストリームをマージする可能性がある。いくつかの場合では、少なくとも２つのシーンを合成、ミキシング、多重化、重ね合わせ、または結合する可能性がある。例えば、ミキサーおよび／またはレンダラー（例えば、複数のデコーダの下流で使用され、それぞれが少なくとも１つのオーディオストリームをデコードする）を使用する、または、例えばストリームの復号化の上流などのストリームの多重化操作を実行する可能性がある。他の場合では、様々なストリームをデコードして、様々なスピーカー設定でそれらをレンダリングする可能性があってもよい。

本発明は、必ずしも視覚環境やオーディオシーンの概念を拒否するものではないことに留意されたい。特に、本発明では、特定のシーン／環境に関連付けられたオーディオおよびビデオストリームは、ユーザーが環境／シーンに入ったときに、サーバーシステム１２０からクライアントシステム１０２に配信されてもよい。それにもかかわらず、同じ環境／シーン内で、異なるオーディオストリームおよび／またはオーディオオブジェクトおよび／またはアダプテーションセットが要求され、アドレスされ、および／または配信される場合がある。特に、次の可能性がある。

－視覚環境に関連付けられたビデオデータの少なくとも一部は、ユーザーのシーンへの入り口でサーバー１２０からクライアント１０２に配信される、および／または
－少なくとも一部のオーディオデータ（ストリーム、オブジェクト、アダプテーションセットなど）は、現在（または将来）のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置および／またはユーザーの選択／インタラクションに基づいてのみクライアントシステム１０２に配信される、および／または
－（場合によっては）、（現在または将来の位置、ビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置および／またはユーザーの選択に関係なく）、現在のシーンに基づいて、いくつかのオーディオデータがクライアントシステム１０２に配信され、一方、残りのオーディオデータは、現在または将来のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置および／またはユーザーの選択に基づいて配信される。

様々な要素（サーバーシステム、クライアントシステム、ＭＣＤなど）は、異なるハードウェアデバイスまたは同じものの要素を表すことができることに留意されたい（例えば、クライアントとＭＣＤは同じ携帯電話の一部として実装することができ、または、同様にクライアントは、ＭＣＤを構成する二次画面に接続されたＰＣに配置することができる）。

実施例
図１．１に示すシステム１０２（クライアント）の一実施形態は、ビデオおよびオーディオシーン（以下、シーン１５０と呼ぶ）に関連付けられていると理解することができる環境（例えば、仮想環境）内の定義された位置に基づいて（オーディオ）ストリーム１０６を受信するように構成される。同じシーン１５０内の異なる位置は、一般に、システム１０２のオーディオデコーダ１０４に（例えば、メディアサーバー１２０から）提供される異なるストリーム１０６またはストリーム１０６に関連付けられた異なるメタデータを意味する。システム１０２は、メディア消費者デバイス（ＭＣＤ）に接続され、そこから、同じ環境におけるユーザーの位置および／または仮想位置に関連付けられたフィードバックを受信する。以下では、環境内でのユーザーの位置は、ユーザーが楽しむ特定のビューポートに関連付けられてもよい（例えば、ビューポートは、ユーザーに表示される、球に投影された長方形の表面として仮定された表面であると意図される）。

例示的なシナリオでは、ユーザーがＶＲ、ＡＲ、および／またはＭＲシーン１５０内を移動するとき、オーディオコンテンツは、変化する可能性がある１つまたは複数のオーディオソース１５２によって仮想的に生成されると想像することができる。オーディオソース１５２は、仮想環境内の位置を指し得るという意味で、仮想オーディオソースとして理解することができる。各オーディオソースのレンダリングは、ユーザーの位置に適合される（例えば、簡略化された例では、オーディオソースのレベルは、ユーザーがオーディオソースの位置に近いほど高く、ユーザーがオーディオソースから離れているほど低くなる）。それにも関わらず、各オーディオ要素（オーディオソース）は、デコーダに提供されるオーディオストリームにエンコードされる。オーディオストリームは、シーン内の様々な位置および／または領域に関連付けることができる。例えば、あるシーンでは聞こえないオーディオソース１５２は、例えば、ＶＲ、ＡＲおよび／またはＭＲシーン１５０のドアが開かれると、次のシーンで聞こえるようになるかもしれない。次に、ユーザーは、新しいシーン／環境１５０（例えば、部屋）に入ることを選択することができ、オーディオシーン全体が変化する。このシナリオを説明する目的で、異なるオーディオコンテンツが利用可能な空間（またはＶＲ環境）の離散的位置として、空間の離散的ビューポイントの用語を使用することができる。

一般的に言えば、メディアサーバー１２０は、シーン１５０内のユーザーの位置に基づいて、特定のシーン１５０に関連付けられたストリーム１０６を提供することができる。ストリーム１０６は、少なくとも１つのエンコーダ１５４によってエンコードされ、メディアサーバー１２０に提供され得る。メディアサーバー１２０は、通信１１３を用いて（例えば、通信ネットワークを介して）ストリーム１１３を送信することができる。ストリーム１１３の提供は、（例えば、仮想環境における）ユーザーの位置１１０に基づいてシステム１０２によって設定された要求１１２に基づいてもよい。ユーザーの位置１１０はまた、ユーザーが楽しむビューポート（各位置に関して、表される単一の長方形が１つある）およびビューポイント（ビューポイントはビューポートの中心である）に関連付けられていると理解することもできる。したがって、ビューポートの提供は、いくつかの例では、位置の提供と同じであってもよい。

図１．２に示すシステム１０２は、クライアント側の別の構成に基づいて（オーディオ）ストリーム１１３を受信するように構成される。この例示的な実施態様では、符号化側で、複数のメディアエンコーダ１５４が設けられ、それらを用いて１つのビューポイントの１つのサウンドシーン部分に関連付けられた利用可能なシーン１５０ごとに１つまたは複数のストリーム１０６を作成することができる。

メディアサーバー１２０は、異なるビットレートでの同じオーディオおよびビデオストリームの異なるエンコードを含む複数のオーディオおよびビデオアダプテーションセット（図示せず）を格納することができる。さらに、メディアサーバーには、作成されたすべてのアダプテーションセットの利用可能性を含む、すべてのアダプテーションセットの記述情報が含まれてもよい。アダプテーションセットはまた、１つの特定のオーディオシーンおよび／またはビューポイントへの１つのアダプテーションセットの関連付けを記述する情報を含んでもよい。このようにして、各アダプテーションセットを、利用可能なオーディオシーンの１つに関連付けることができる。

アダプテーションセットは、例えば、完全なオーディオシーンまたは単に個々のオーディオオブジェクトを含み得る、各オーディオシーンおよび／またはビューポイントの境界を記述する情報をさらに含んでもよい。１つのオーディオシーンの境界は、例えば、球の幾何学的座標（例えば、中心および半径）として定義されてもよい。

クライアント側のシステム１０２は、現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／またはユーザーの仮想位置またはユーザーの行動によって引き起こされる変化を特徴付ける任意の情報に関する情報を受信することができる。さらに、システム１０２はまた、すべてのアダプテーションセットの利用可能性に関する情報、ならびに１つのオーディオシーンおよび／またはビューポイントへの１つのアダプテーションセットの関連付けを記述する情報、ならびに／あるいは各オーディオシーンおよび／またはビューポイントの「境界」を記述する情報（例えば、完全なオーディオシーンまたは個別のオブジェクトのみを含むことができる）も受信することができる。例えば、そのような情報は、ＤＡＳＨ配信環境の場合、メディアプレゼンテーション記述（ＭＰＤ）ＸＭＬ構文の一部として提供することができる。

システム１０２は、コンテンツ消費に使用されるメディア消費デバイス（ＭＣＤ）にオーディオ信号を提供することができる。また、メディア消費デバイスは、ユーザーの位置および／または向きおよび／または移動方向に関する収集情報（またはユーザーのアクションによってトリガーされた変化を特徴付ける情報）を位置および移行データ１１０として収集する役割を果たす。

ビューポートプロセッサ１２３２は、メディア消費デバイス側から位置および移行データ１１０を受信するように構成されてもよい。ビューポートプロセッサ１２３２はまた、メタデータでシグナリングされたＲＯＩおよび受信端（システム１０２）で利用可能なすべての情報に関する情報を受信することができる。次に、ビューポートプロセッサ１２３２は、受信されたおよび／または利用可能なメタデータから受信および／または導出されたすべての情報に基づいて、特定の瞬間にどのオーディオビューポイントを再生すべきかを決定することができる。例えば、ビューポートプロセッサ１２３２は、１つの完全なオーディオシーンを再生するように決定することができ、１つの新しいオーディオシーン１０８は、すべての利用可能なオーディオシーンから作成しなければならず、例えば、複数のオーディオシーンの一部のオーディオ要素のみが再生されるが、一方、これらのオーディオシーンの他の残りのオーディオ要素は再生されない。ビューポートプロセッサ１２３２はまた、２つ以上のオーディオシーン間の移行を再生する必要があるかどうかを決定することができる。

選択部分１２３０は、ビューポートプロセッサ１２３２から受信された情報に基づいて、受信端によって受信された情報でシグナリングされた利用可能なアダプテーションセットから１つまたは複数のアダプテーションセットを選択するために設けることができ、選択されたアダプテーションセットは、ユーザーの現在の場所で再生されるべきオーディオシーンを完全に記述する。このオーディオシーンは、エンコード側で定義された１つの完全なオーディオシーンであってもよく、すべての利用可能なオーディオシーンから新しいオーディオシーンを作成する必要があってもよい。

さらに、ビューポートプロセッサ１２３２の指示に基づいて、２つ以上のオーディオシーン間の移行が生じようとしている場合、選択部分は、受信端によって受信された情報でシグナリングされた利用可能なアダプテーションセットから１つまたは複数のアダプテーションセットを選択するように構成することができ、選択されたアダプテーションセットは、近い将来に再現する必要があるオーディオシーンを完全に記述する（例えば、ユーザーが次のオーディオシーンの方向に特定の速度で歩く場合、次のオーディオシーンが必要になることが予測され、再生に先立って選択される）。

さらに、隣接する場所に対応するいくつかのアダプテーションセットが、最初により低いビットレートおよび／またはより低い品質レベルで選択され、例えば、より低いビットレートでエンコードされた表現が１つのアダプテーションセットで利用可能な表現から選択され、そして、位置の変化に基づいて、それらの特定のアダプテーションセットに対してより高いビットレートを選択することにより品質が向上する、例えば、より高いビットレートでエンコードされた表現が１つのアダプテーションセットで利用可能な表現から選択される。

選択部分から受信した指示に基づいて、メディアサーバーからの利用可能なアダプテーションセットのうちの１つまたは複数のアダプテーションセットを要求するために、ダウンロードおよびスイッチング部分１２３４が設けられてもよく、メディアサーバーから利用可能なアダプテーションセットから１つまたは複数のアダプテーションセットを受信し、受信したすべてのオーディオストリームからメタデータ情報を抽出するように構成される。

メタデータプロセッサ１２３６は、受信されたオーディオストリームについてのダウンロードおよびスイッチング情報から、受信された各オーディオストリームに対応するオーディオメタデータを含むことができる情報を受信するために提供されてもよい。メタデータプロセッサ１２３６はまた、ビューポートプロセッサ１２３２によって示されるように、新しいオーディオシーンを構成する必要なオーディオ要素１５２を選択／有効化するために、ユーザーの位置および／または向きおよび／または移動方向１１０に関する情報を含むことができるビューポートプロセッサ１２３２から受信した情報に基づいて、各オーディオストリーム１１３に関連するオーディオメタデータを処理および操作して、すべてのオーディオストリーム１１３を単一のオーディオストリーム１０６にマージできるように構成されてもよい。

ストリームマクサー／マージャー１２３８は、メタデータプロセッサ１２３６から受信され、受信したすべてのオーディオストリーム１１３に対応する変更および処理されたオーディオメタデータを含むことができる情報に基づいて、選択されたすべてのオーディオストリームを１つのオーディオストリーム１０６にマージするように構成されてもよい。

メディアデコーダ１０４は、ユーザーの位置および／または向きおよび／または移動方向に関する情報に基づいて、ビューポートプロセッサ１２３２によって示されるように、新しいオーディオシーンの再生のための少なくとも１つのオーディオストリームを受信およびデコードするように構成される。

別の実施形態では、図１．７に示すシステム１０２は、異なるオーディオビットレートおよび／または品質レベルでオーディオストリーム１０６を受信するように構成されてもよい。この実施形態のハードウェア構成は、図１．２のものと同様である。少なくとも１つの視覚環境シーン１５２は、少なくとも１つの複数のＮ個のオーディオ要素（Ｎ＞＝２）に関連付けることができ、各オーディオ要素は、視覚環境内の位置および／または領域に関連付けられる。少なくとも１つの複数のＮ個のオーディオ要素１５２は、高いビットレートおよび／または品質レベルで少なくとも１つの表現で提供され、少なくとも１つの複数のＮ個のオーディオ要素１５２は、低いビットレートおよび／または品質レベルで少なくとも１つの表現で提供され、少なくとも１つの表現は、Ｎ個のオーディオ要素１５２を処理して、Ｎ個のオーディオ要素１５２の位置または領域に近い位置または領域に関連付けられたより少ない数Ｍ（Ｍ＜Ｎ）個のオーディオ要素１５２を取得することによって取得される。

Ｎ個のオーディオ要素１５２の処理は、例えば、オーディオ信号の単純な追加であってもよいし、あるいはそれらの空間位置１１０に基づくアクティブなダウンミックス、またはそれらの空間位置を使用してオーディオ信号の間に位置する新しい仮想位置へのオーディオ信号のレンダリングであってもよい。システムは、オーディオ要素がシーンでの現在のユーザーの仮想位置でより関連性があり、かつ／または可聴性がより高い場合に、オーディオ要素についてより高いビットレートおよび／または品質レベルで表現を要求するように構成されてもよく、システムは、オーディオ要素がシーンでの現在のユーザーの仮想位置でより関連性が低く、かつ／または可聴性がより低い場合に、オーディオ要素についてより低いビットレートおよび／または品質レベルで表現を要求するように構成される。

図１．８は、システム（システム１０２であってもよい）の一例を示し、メディア消費デバイスで再生されるビデオストリーム１８００およびオーディオストリーム１０６を受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム１０２を示しており、
システム１０２は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム１８００からビデオ信号１８０８をデコードするように構成された少なくとも１つのメディアビデオデコーダ１８０４と、
少なくとも１つのオーディオストリーム１０６からのオーディオ信号１０８をデコードするように構成された少なくとも１つのオーディオデコーダ１０４と、を含んでもよい。

システム１０２は、少なくともユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ１１０（例えば、メディア消費デバイス１８０からのフィードバックとして提供されるに基づいて、少なくとも１つのオーディオストリーム１０６および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（例えば１２０）に要求する（１１２）ように構成されてもよい。

システム１０２は、図１．１～図１．７のシステム１０２と同じであってもよく、および／または図２ａ以降のシナリオを取得してもよい。

本例はまた、メディア消費デバイス［例えば、再生デバイス］で再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のための方法を指し、本方法は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境シーンのユーザーへの表現のためにビデオストリームからビデオ信号をデコードするステップと、
オーディオストリームからオーディオ信号をデコードするステップと、
ユーザーの現在のビューポートおよび／または位置データおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データおよび／またはメタデータに基づいて、少なくとも１つのオーディオストリームを、サーバーに要求し、および／またはサーバーから取得するステップと、を含む。

事例１
異なるシーン／環境１５０は、一般に、サーバー１２０からの異なるストリーム１０６の受信を意味する。しかしながら、オーディオデコーダ１０４によって受信されたストリーム１０６はまた、同じシーン１５０におけるユーザーの位置によって条件付けられてもよい。

図２ａに示す第１の（開始）時点（ｔ＝ｔ_１）で、ユーザーは、例えば、シーン１５０内に配置され、ＶＲ環境（またはＡＲ環境、またはＭＲ環境）内で第１の定義された位置を有する。デカルトＸＹＺ座標系（例えば水平など）では、ユーザーの第１のビューポート（位置）１１０’が座標ｘ’_ｕとｙ’_ｕに関連付けられている（軸Ｚはここでは用紙から出るように向けられている）。この第１のシーン１５０では、２つのオーディオ要素１５２－１および１５２－１が配置され、オーディオ要素１（１５２－１）の座標ｘ’_１およびｙ’_１、ならびにオーディオ要素２（１５２－２）のｘ’_２およびｙ’_２をそれぞれ有する。ユーザーのオーディオ要素１（１５２－１）までの距離ｄ’_１は、ユーザーのオーディオ要素２までの距離ｄ’_２（１５２－１）よりも小さい。すべてのユーザー位置（ビューポート）データは、ＭＣＤからシステム１０２に送信される。

図２ｂに示す第２の例示的な時点（ｔ＝ｔ_２）で、ユーザーは、例えば同じシーン１５０内であるが、第２の異なる位置に配置される。デカルトＸＹ座標系では、ユーザーの第２のビューポート（位置）１１０”が新しい座標ｘ”_ｕおよびｙ”_ｕに関連付けられている（軸Ｚはここでは用紙から出るように向けられている）。ここで、オーディオ要素１（１５２－１）からのユーザーの距離ｄ”_１は、オーディオ要素２（１５２－２）からのユーザーの距離ｄ”_２よりも大きい。すべてのユーザー位置（ビューポート）データは、ＭＣＤからシステム１０２に再び送信される。

３６０度環境内の特定のビューポートを視覚化するための前記ＭＣＤを装備したユーザーは、例えば、ヘッドフォンで聞いていてもよい。ユーザーは、同じシーン１５０の図２ａおよび図２ｂに示す異なる位置についての異なる音の再生を楽しむことができる。

例えば図２ａから図２ｂのシーン内の任意の位置および／または移行および／またはビューポートおよび／または仮想位置および／または頭の向きおよび／または動きのデータは、信号１１０として、ＭＣＤからシステム１０２（クライアント）に周期的に（例えば、フィードバックで）送信することができる。クライアントは、位置および移行データ１１０’または１１０”（例えば、ビューポートデータ）をサーバー１２０に再送信することができる。クライアント１０２またはサーバー１２０は、位置および移行データ１１０’または１１０”（例えば、ビューポートデータ）に基づいて、現在のユーザー位置で正しいオーディオシーンを再生するために必要なオーディオストリーム１０６を決定することができる。クライアントは、対応するオーディオストリーム１０６についての要求１１２を決定して送信することができ、サーバー１２０は、クライアント（システム１０２）によって提供される位置情報に応じてストリーム１０６を適宜配信するように構成することができる。あるいは、サーバー１２０は、クライアント（システム１０２）によって提供された位置情報に応じて、それに応じてストリーム１０６を決定し、配信してもよい。

クライアント（システム１０２）は、シーン１５０を表すためにデコードされるストリームの送信を要求することができる。いくつかの例では、システム１０２は、ＭＣＤで再現される最高品質レベルに関する情報を送信することができる（他の例では、シーン内のユーザーの位置に基づいて、ＭＣＤで再生される品質レベルを決定するのはサーバー１２０である）。それに応じて、サーバー１２０は、表現されるオーディオシーンに関連付けられた多数の表現の１つを選択して、ユーザーの位置１１０’または１１０”に従って少なくとも１つのストリーム１０６を配信することができる。したがって、クライアント（システム１０２）は、例えば、オーディオデコーダ１０４を介して、オーディオ信号１０８をユーザーに配信し、ユーザーの実際の（有効な）位置１１０’または１１０”に関連する音を再生するように構成されてもよい（アダプテーションセット１１３が使用されてもよい。例えば、異なるビットレートでの同じストリームの異なる変形がユーザーの異なる位置に使用されてもよい）。

ストリーム１０６（事前処理またはオンザフライで生成されてもよい）をクライアント（システム１０２）に送信することができ、特定のサウンドシーンに関連付けられた多数のビューポイントのために構成することができる。

（例えば、仮想）環境におけるユーザーの特定の位置（例えば、１１０’または１１０”）に従って、異なるストリーム１０６に対して異なる品質（例えば、異なるビットレート）が提供されてもよいことに留意されたい。例えば、複数のオーディオソース１５２－１および１５２－２の場合、各オーディオソース１５２－１および１５２－２は、シーン１５０内の特定の位置に関連付けられてもよい。ユーザーの位置１１０’または１１０’が第１のオーディオソース１５２－１に近いほど、第１のオーディオソース１５２－２に関連付けられたストリームの必要な解像度および／または品質が高くなる。この例示的な事例は、図２ａのオーディオ要素１（１５２－１）ならびに図２ｂのオーディオ要素２（１５２－２）に適用することができる。第２のオーディオソース１５２－２からユーザーの位置１１０が離れているほど、第２のオーディオソース１５２－２に関連付けられたストリーム１０６の必要な解像度は低くなる。この例示的な事例は、図２ａのオーディオ要素２（１５２－２）ならびに図２ｂのオーディオ要素１（１５２－１）に適用することができる。

実際、第１に、近いオーディオソースはより高いレベルで聞こえて（したがって、より高いビットレートで提供される）、第２に、遠いオーディオソースはより低いレベルで聞こえる（より低い解像度を要求することを可能にすることができる）ということである。

したがって、クライアント１０２によって提供される環境における位置１１０’または１１０”に基づいて、サーバー１２０は、異なるビットレート（または他の品質）で異なるストリーム１０６を提供することができる。遠くにあるオーディオ要素は高品質レベルを必要としないという事実に基づいて、より低いビットレートまたは品質レベルで配信された場合でも、全体的なユーザー品質のエクスペリエンスが維持される。

したがって、エクスペリエンスの品質を維持しながら、異なるユーザーの位置にあるいくつかのオーディオ要素に異なる品質レベルを使用することができる。

このソリューションがなければ、すべてのストリーム１０６はサーバー１２０からクライアントに最高のビットレートで提供され、これにより、サーバー１２０からクライアントへの通信チャネルのペイロードが増加する。

事例２
図３（事例２）は、別の例示的なシナリオの一実施形態を示し（空間ＸＹＺの垂直平面ＸＺで表され、軸Ｙは用紙に入るように表される）、ユーザーが第１のＶＲ、ＡＲ、および／またはＭＲシーンＡ（１５０Ａ）で移動し、ドアを開いて、ドアを通って歩く（移行１５０ＡＢ）と、これは、時刻ｔ_１の第１のシーン１５０Ａから時刻ｔ_２の一時的な位置（１５０ＡＢ）を介して時刻ｔ_３の次の（第２の）シーンＢ（１５０Ｂ）へのオーディオの移行を意味する。

時点ｔ_１では、ユーザーは、第１のＶＲ、ＡＲおよび／またはＭＲシーンのｘ方向の位置ｘ_１にいてもよい。時点ｔ_３では、ユーザーは、位置ｘ_３で異なる第２のＶＲ、ＡＲおよび／またはＭＲシーンＢ（１５０Ｂ）にいてもよい。瞬間ｔ_２で、ユーザーは、ドア（例えば、仮想ドア）を開いて通り抜けている間、移行位置１５０ＡＢにいてもよい。したがって、移行は、第１のシーン１５０Ａから第２のシーン１５０Ｂへのオーディオ情報の移行を意味する。

この状況では、ユーザーは自分の位置１１０を、例えば第１のＶＲ環境（図１．１に示すように第１のビューポイント（Ａ）で特徴付けられる）から第２のＶＲ環境（図１．１に示すように第２のビューポイント（Ｂ）で特徴付けられる）に変化させている。特定の場合、例えば、ｘ方向の位置ｘ_２にあるドアを通る移行の間に、いくつかのオーディオ要素１５２Ａおよび１５２Ｂが、両方のビューポイント（位置ＡおよびＢ）に存在してもよい。

ユーザー（ＭＣＤを備えている）は位置１１０（ｘ_１－ｘ_３）をドアの方に変化させており、これは、移行位置ｘ_２で、オーディオ要素が第１のシーン１５０Ａと第２のシーン１５０Ｂの両方に属していることを意味する。ＭＣＤは、新しい位置および移行データ１１０をクライアントに送信し、クライアントはそれをメディアサーバー１２０に再送信する。ユーザーは、第１の位置ｘ_１と第２の位置ｘ_３との間の中間位置ｘ_２によって定義される適切なオーディオソースを聞くことが可能になり得る。

第１の位置（ｘ_１）から第２の位置（ｘ_３）への任意の位置と移行は、ＭＣＤからクライアントに定期的（例えば、連続的）に送信される。クライアント１０２は、位置および移行データ１１０（ｘ_１～ｘ_３）をメディアサーバー１２０に再送信することができ、メディアサーバー１２０は、受信した位置と移行データ１１０（ｘ_１～ｘ_３）に応じて、実際のアダプテーションセット１１３’の形で前処理されたストリーム１０６の新しいセットなどの１つの専用アイテムを配信するように構成される。

メディアサーバー１２０は、最高のビットレートを表示するＭＣＤの機能に関するだけでなく、１つの位置から別の位置への移動中のユーザーの位置および移行データ１１０（ｘ_１－ｘ_３）にも関する、前述の情報に関連付けられた多数の表現のうちの１つを選択することができる。（この状況では、アダプテーションセットを使用することができる。メディアサーバー１２０は、ＭＣＤのレンダリング能力を妨げることなく、どのアダプテーションセット１１３’がユーザーの仮想移行を最適に表すかを決定することができる。）
したがって、メディアサーバー１２０は、位置の移行に従って（例えば、新しいアダプテーションセット１１３’として）専用ストリーム１０６を配信することができる。クライアント１０２は、それに応じて、例えば、メディアオーディオデコーダ１０４を介して、オーディオ信号１０８をユーザー１４０に配信するように構成されてもよい。

ストリーム１０６（オンザフライで生成され、かつ／または前処理された）は、定期的（例えば、連続的）に実現されたアダプテーションセット１１３’でクライアント１０２に送信することができる。

ユーザーがドアを通って歩くと、サーバー１２０は、第１のシーン１５０Ａのストリーム１０６および第２のシーン１５０Ｂのストリーム１０６の両方を送信することができる。これは、これらのストリーム１０６を同時に混合または多重化または構成または再生して、ユーザーにリアルな印象を与えるためである。したがって、ユーザーの位置１１０（例えば、「ドアに対応する位置」）に基づいて、サーバー１２０は、異なるストリーム１０６をクライアントに送信する。

この場合でも、異なるストリーム１０６が同時に聞かれるので、それらは異なる解像度を有し、異なる解像度でサーバー１２０からクライアントに送信されてもよい。ユーザーが移行を完了し、第２の（位置）シーン１５０Ａにいるとき（そしてユーザーの後ろのドアを閉じたとき）には、サーバー１２０が第１のシーン１５０のストリーム１０６を送信することを減らすかまたは控えることができる（サーバー１２０がすでにクライアント１０２にストリームを提供している場合、クライアント１０２はそれらを使用しないように決定することができる）。

事例３
図４（事例３）は、別の例示的なシナリオ（空間ＸＹＺの垂直平面ＸＺで表され、軸Ｙは用紙に入るように表される）を伴う一実施形態を示し、ユーザーがＶＲ、ＡＲおよび／またはＭＲシーン１５０Ａ内を移動すると、時間ｔ_１における１つの第１の位置から時間ｔ_２における第１のシーン１５０Ａ内の第２の位置へのオーディオの移行を意味する。第１の位置にいるユーザーは、時刻ｔ_１では壁から距離ｄ_１で壁から遠く離れていてもよく、時刻ｔ_２では壁からの距離ｄ_２で壁に近くてもよい。ここで、ｄ_１＞ｄ_２である。距離ｄ_１では、ユーザーはシーン１５０Ａのソース１５２Ａのみを聞くが、壁を越えたシーン１５０Ｂのソース１５２Ｂも聞くことができる。

ユーザーが第２の位置（ｄ_２）にいるとき、クライアント１０２は、ユーザーの位置１１０（ｄ_２）に関するデータをサーバー１２０に送信し、サーバー１２０から、第１のシーン１５０Ａのオーディオストリーム１０６だけでなく、第２のシーン１５０Ｂのオーディオストリーム１０６も受信する。例えば、サーバー１２０によって提供されるメタデータに基づいて、クライアント１０２は、例えば、デコーダ１０４を介して、（壁を越えて）第２のシーン１５０Ｂのストリーム１０６を小さい音量で再生させる。

この場合でも、第２のシーン１５０Ｂのストリーム１０６のビットレート（品質）は低くてもよく、したがって、サーバー１２０からクライアントへの送信ペイロードを減らす必要がある。特に、クライアント（および／またはビューポート）の位置１１０（ｄ_１、ｄ_２）は、サーバー１２０によって提供されるオーディオストリーム１０６を定義する。

例えば、システム１０２は、第１の現在の環境に関連付けられた第１の現在のシーン（１５０Ａ）に関連付けられたストリームを取得するように構成されてもよく、そして、シーンの境界（例えば、壁に対応する）からのユーザーの位置または仮想位置の距離が所定のしきい値より小さい（例えば、ｄ_２＜ｄ_しきい値）場合、システム１０２はさらに、第２のシーン（１５０Ｂ）に関連する第２の、隣接および／または近接する環境に関連するオーディオストリームを取得する。

事例４
図５ａおよび図５ｂは、別の例示的なシナリオを伴う一実施形態を示し（空間ＸＹＺの水平面ＸＹで表され、軸Ｚは用紙から出るように表される）、ユーザーは、同一のＶＲ、ＡＲ、および／またはＭＲシーン１５０に位置しているが、例えば２つのオーディオ要素までの異なる距離で異なる瞬間に配置される。

図５ａに示す第１の瞬間ｔ＝ｔ_１において、ユーザーは、例えば、第１の位置に配置される。この第１の位置では、第１のオーディオ要素１（１５２－１）および第２のオーディオ要素２（１５２－２）は、ＭＣＤを備えたユーザーからの距離ｄ_１およびｄ_２にそれぞれ（例えば、実質的に）配置される。この場合、距離ｄ_１およびｄ_２の両方が定義されたしきい値距離ｄ_しきい値よりも大きい場合があり、したがって、システム１０２は、両方のオーディオ要素を単一の仮想ソース１５２－３にグループ化するように構成される。単一の仮想ソースの位置とプロパティ（空間的な範囲など）は、例えば、２つのソースによって生成された元の音場をできるだけよく模倣するような方法で、元の２つのソースの位置に基づいて計算することができる（例えば、２つのよく局所化されたポイントソースは、それらの間の距離の中央に単一のソースとして再生することができる）。ユーザー位置データ１１０（ｄ_１、ｄ_２）は、ＭＣＤからシステム１０２（クライアント）に送信され、続いてサーバー１２０に送信することができ、サーバー１２０は、サーバーシステム１２０によってレンダリングされる適切なオーディオストリーム１０６を送信することを決定することができる（他の実施形態では、サーバー１２０から送信されるストリームを決定するのはクライアント１０２である）。両方のオーディオ要素を単一の仮想ソース１５２－３にグループ化することにより、サーバー１２０は、前述の情報に関連付けられた多数の表現のうちの１つを選択することができる。（例えば、それに応じて専用ストリーム１０６、それに応じて例えば１つの単一チャネルに関連付けられたアダプテーションセット１１３’を配信することが可能である。）したがって、ユーザーは、ＭＣＤを介して、実際のオーディオ要素１（１５２－１）と２（１５２－２）との間に配置された単一の仮想オーディオ要素１５２－３から送信されたオーディオ信号を受信することができる。

図５ｂに示す第２の瞬間ｔ＝ｔ_２で、ユーザーは、例えば、同じシーン１５０内に配置され、図５ａと同じＶＲ環境に第２の定義された位置を有する。この第２の位置では、２つのオーディオ要素１５２－１および１５２－２は、ユーザーからの距離ｄ_３およびｄ_４にそれぞれ（例えば、実質的に）配置される。距離ｄ_３およびｄ_４は両方とも、しきい値距離ｄ_しきい値より短くてもよく、したがって、オーディオ要素１５２－１および１５２－２の単一の仮想ソース１５２－３へのグループ化はもはや使用されない。ユーザー位置データは、ＭＣＤからシステム１０２に送信され、続いてサーバー１２０に送信され、サーバー１２０は、システムサーバー１２０によってレンダリングされる別の適切なオーディオストリーム１０６を送信することを決定することができる（他の実施形態では、この決定はクライアント１０２によって行われる）。オーディオ要素をグループ化することを回避することにより、サーバー１２０は、前述の情報に関連付けられた異なる表現を選択して、それに応じて、オーディオ要素ごとに異なるチャネルに関連付けられたアダプテーションセット１１３’を備えた専用ストリーム１０６を配信することができる。その結果、ユーザーは、ＭＣＤを介して、２つの異なるオーディオ要素１（１５２－１）および２（１５２－２）から送信されるオーディオ信号１０８を受信することができる。したがって、ユーザーの位置１１０がオーディオソース１（１５２－１）および２（１５２－２）に近いほど、オーディオソースに関連付けられたストリームの必要な品質レベルを高く選択する必要がある。

実際、図５ｂに示すように、オーディオソース１（１５２－１）および２（１５２－２）がユーザーに対して近くにあるほど、レベルを高く調整する必要があるため、オーディオ信号１０８はより高い品質レベルでレンダリングされる。対照的に、図５ｂに表されている遠隔に配置されたオーディオソース１および２は、単一の仮想ソースによって再生されるときの、より低いレベルで聞かれる必要があるため、例えばより低い品質レベルでレンダリングされる。

同様の構成では、多数のオーディオ要素がユーザーの前に配置され、それらのすべてがユーザーからのしきい値距離よりも大きい距離に配置されている。一実施形態では、５つのオーディオ要素の２つのグループがそれぞれ２つの仮想ソースに結合されてもよい。ユーザー位置データは、ＭＣＤからシステム１０２に送信され、続いてサーバー１２０に送信され、サーバー１２０は、システムサーバー１２０によってレンダリングされる適切なオーディオストリーム１０６を送信することを決定することができる。１０個のオーディオ要素すべてを２つの単一の仮想ソースのみにグループ化することにより、サーバー１２０は、前述の情報に関連付けられた多数の表現のうちの１つを選択して、それに応じて例えば２つの単一のオーディオ要素に関連付けられたアダプテーションセット１１３’を備えた専用ストリーム１０６を配信することができる。その結果、ユーザーは、ＭＣＤを介して、実際のオーディオ要素と同じ配置領域に配置された２つの異なる仮想オーディオ要素から送信されたオーディオ信号を受信することができる。

その後の瞬間に、ユーザーは多数（１０個）のオーディオ要素に接近している。この後続のシーンでは、すべてのオーディオ要素は、しきい値距離ｄ_しきい値より小さい距離に配置されているので、システム１０２は、オーディオ要素のグループ化を終了するように構成される。新しいユーザー位置データは、ＭＣＤからシステム１０２に送信され、続いてサーバー１２０に送信され、サーバー１２０は、サーバーシステム１２０によってレンダリングされる別の適切なオーディオストリーム１０６を送信することを決定することができる。オーディオ要素をグループ化しないことにより、サーバー１２０は、前述の情報に関連付けられた異なる表現を選択して、それに応じて、オーディオ要素ごとに異なるチャネルに関連付けられたアダプテーションセット１１３’を備えた専用ストリーム１０６を配信することができる。その結果、ユーザーはＭＣＤを介して、１０個の異なるオーディオ要素から送信されたオーディオ信号を受信することができる。したがって、ユーザーの位置１１０がオーディオソースに近いほど、オーディオソースに関連付けられているストリームの必要な解像度を高く選択する必要がある。

事例５
図６（事例５）は、例示的な３つの異なる方向（それぞれが異なるビューポート１６０－１、１６０－２、１６０－３に関連付けられる）に向けられ得るメディア消費者デバイス（ＭＣＤ）を着用する単一のシーン１５０の１つの位置にあるユーザー１４０を示す。図６に示すこれらの方向は、極座標系および／またはデカルトＸＹ座標系で、図６の下部の例えば１８０°にある第１のビューポイント８０１、図６の右側の例えば９０°に位置する第２のビューポイント８０２、および図６の上部の例えば０°に位置する第３のビューポイント８０３を指す方向（例えば、角度方向）を有してもよい。これらの各ビューポイントは、メディア消費者デバイス（ＭＣＤ）を装着しているユーザー１４０の向きに関連付けられており、中央に位置しているユーザーには、ＭＣＤの向きに従って対応するオーディオ信号１０８をレンダリングするＭＣＤによって表示される特定のビューポートが提供される。

この特定のＶＲ環境では、第１のオーディオ要素ｓ１（１５２）は例えば１８０°に位置するビューポイントの近傍である第１のビューポート１６０－１に位置しており、第２のオーディオ要素ｓ２（１５２）は、例えば１８０°に位置するビューポイントの近傍である第３のビューポート１６０－３に位置している。自分の向きを変化させる前に、ユーザー１４０は、ビューポイント８０１（ビューポート１６０－１）に向かう第１の向きで、ユーザーの実際の（有効な）位置に関連付けられた音は、オーディオ要素ｓ２からよりもオーディオ要素ｓ１からの方が大きくなることを体験する。

ユーザーの向きを変化させることにより、ユーザー１４０は、ビューポイント８０２に向かう第２の向きで、ユーザーの実際の位置１１０に関連付けられた音は、両方のオーディオ要素ｓ１およびｓ２からほぼ同じ音量で横から来ることを体験する。

最後に、ユーザーの向きを変化させることにより、ユーザー１４０は、ビューポイント８０１（ビューポート１６０－３）に向かう第３の向きで、オーディオ要素２に関連付けられた音を、オーディオ要素ｓ１に関連付けられた音よりも大きく体験することができる（実際には、オーディオ要素２からの音は前方から到達し、オーディオ要素１からの音は後方から到達する）。

したがって、異なるビューポートおよび／または向きおよび／または仮想位置データは、異なるビットレートおよび／または品質に関連付けることができる。

その他の事例および実施例
図７Ａは、図中の一連の動作ステップの形で、システムによるオーディオストリームを受信するための方法の一実施形態を示す。任意の瞬間に、システム１０２のユーザーは、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置に関連付けられる。特定の瞬間に、システムは、図７Ａのステップ７０１で、現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置に基づいて再生されるオーディオ要素を決定することができる。したがって、次のステップ７０３で、各オーディオ要素の関連性および可聴性レベルを決定することができる。図６で上述したように、ＶＲ環境は、特定のシーン１５０内に、ユーザーの近くに、またはさらに遠くに配置された異なるオーディオ要素を有することができるが、周囲３６０度の中で特定の向きを有する場合もある。これらのすべての要因が、各オーディオ要素の関連性と可聴性のレベルを決定する。

次のステップ７０５で、システム１０２は、メディアサーバー１２０からのオーディオ要素のそれぞれについて決定された関連性および可聴レベルに従ってオーディオストリームを要求することができる。

次のステップ７０７で、システム１０２は、メディアサーバー１２０によって適宜準備されたオーディオストリーム１１３を受信することができ、異なるビットレートのストリームは、前述のステップで決定された関連性および可聴レベルを反映することができる。

次のステップ７０９で、システム１０２（例えば、オーディオデコーダ）は、受信されたオーディオストリーム１１３をデコードすることができ、それによって、ステップ７１１で、現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置に従って、特定のシーン１５０が（例えば、ＭＣＤによって）再現される。

図７Ｂは、前述の一連の動作図による、メディアサーバー１２０とシステム１０２との間のインタラクションを示す。特定の瞬間において、メディアサーバーは、前述のシーン１５０の関連するオーディオ要素の前述で決定されたより低い関連性および可聴レベルに従って、より低いビットレートでオーディオストリーム７５０を送信することができる。システムは、後続の瞬間７５２で、インタラクションまたは位置データの変化が発生したと判断することができる。そのようなインタラクションは、例えば、同じシーン１５０における位置データの変化から、または、例えば、ドアハンドルによって提供されるドアによってユーザーが第１のシーンから分離された第２のシーンに入ろうとする間にドアハンドルをアクティブにすることから生じ得る。

現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置の変化は、システム１０２によってメディアサーバー１２０に送信される要求７５４をもたらすことができる。この要求は、後続のシーン１５０に対して決定された関連するオーディオ要素のより高い関連性と可聴性レベルを反映することができる。要求７５４への応答として、メディアサーバーはより高いビットレートでストリーム７５６を送信し、システム１０２による現在のユーザーの仮想位置でのシーン１５０のもっともらしい現実的な再生を可能にする。

図８Ａは、システムによってオーディオストリームを受信するための方法の別の実施形態を、図中の一連の動作ステップの形でも示す。特定の瞬間８０１で、第１の現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置の決定が実行され得る。肯定的な場合を差し引くことによって、低ビットレートによって定義された第１の位置に関連付けられたストリームの要求が準備され、ステップ８０３でシステム１０２によって送信され得る。

３つの異なる結果を有する決定ステップ８０５が、後続の瞬間に実行され得る。定義された１つまたは２つのしきい値は、このステップで、例えば後続のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置に関する予測決定を決定するために関連付けられてもよい。したがって、第２の位置への変化の確率に関して、第１および／または第２のしきい値との比較を実行することができ、その結果、例えば、３つの異なる後続のステップが実行される。

例えば非常に低い確率（例えば、上記の第１の所定のしきい値との比較に関連付けられる）を反映する結果では、新しい比較ステップ８０１が実行される。

低い確率（例えば、第１の所定のしきい値より高いが、例では、第１のしきい値より高く、第２の所定のしきい値より低い）を反映する結果では、低ビットレートのオーディオストリーム１１３に対する要求がステップ８０９で生じ得る。

高い確率（例えば、第２の所定のしきい値より高い）を反映する結果では、ステップ８０７で、高ビットレートのオーディオストリーム１１３に対する要求を実行することができる。したがって、ステップ８０７または８０９を実行した後に実行される後続のステップは、やはり決定ステップ８０１であり得る。

図８Ｂは、前述の動作図のシーケンスのうちの１つだけによる、メディアサーバー１２０とシステム１０２との間のインタラクションを示す。特定の瞬間に、メディアサーバーは、前述のシーン１５０のオーディオ要素の前述の決定された低い関連性および可聴レベルに従って、低ビットレートでオーディオストリーム８５０を送信することができる。システムは、後続の瞬間８５２において、インタラクションが予測的に発生することになると判断することができる。現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置の予測的変化は、システム１０２によってメディアサーバー１２０に送信される適切な要求８５４をもたらすことができる。この要求は、それぞれの後続のシーン１５０に必要なオーディオ要素の可聴レベルに応じて、高ビットレートに関連付けられた第２の位置に到達する可能性が高いという上記の事例のうちの１つを反映することができる。応答として、メディアサーバーはより高いビットレートでストリーム８５６を送信し、システム１０２による現在のユーザーの仮想位置でのシーン１５０のもっともらしい現実的な再生を可能にする。

図１．３に示すシステム１０２は、クライアント側での別の構成に基づいてオーディオストリーム１１３を受信するように構成され、システムアーキテクチャは、複数のオーディオデコーダ１３２０、１３２２を使用するソリューションに基づいて離散的なビューポイントを使用することができる。クライアント側では、システム１０２は、例えば、追加的または代替的に複数のオーディオデコーダ１３２０、１３２２を備える図１．２に記載されたシステムの部分を具現化することができ、これは、例えば、いくつかのオーディオ要素が非アクティブ化された状態で、メタデータプロセッサ１２３６によって示されるように、個々のオーディオストリームをデコードするように構成され得る。

ユーザーの位置および／または向きおよび／または動きの方向に関する情報に基づいて最終的なオーディオシーンを再生するように構成されているミキサー／レンダラー１２３８が、システム１０２に設けられてもよく、すなわち、例えば、その特定の場所で聞こえない一部のオーディオ要素は無効にするか、レンダリングしないようにする。

図１．４、図１．５および図１．６に示す以下の実施形態は、柔軟なアダプテーションセットを有する離散的なビューポイントのための独立したアダプテーションセットに基づく。ユーザーがＶＲ環境内を移動する場合、オーディオシーンが継続的に変化することがある。優れたオーディオエクスペリエンスを確保するために、特定の時点でオーディオシーンを構成するすべてのオーディオ要素を、メディアデコーダで使用できるようにする必要があり、メディアデコーダは最終的なオーディオシーンを作成するために位置情報を利用することができる。

コンテンツが予めエンコードされている場合には、予め定義されたいくつかの場所で、これらのオーディオシーンが重複せず、ユーザーが１つの場所から次の場所へ「ジャンプ／切り替え」できるという前提の下で、システムはこれらの特定の場所のオーディオシーンを正確に再生することができる。

しかし、ユーザーがある場所から次の場所に「歩く」場合、２つ（またはそれ以上）のオーディオシーンのオーディオ要素を同時に聞くことができる。この使用事例の解決策は、複数のオーディオストリームを（単一のメディアデコーダを備えたマクサーまたは追加のミキサー／レンダラーを備えた複数のメディアデコーダのいずれかを使用して）デコードするために提供されたメカニズムに依存しない、以前のシステムの例で提供されていて、完全なオーディオシーンを記述するオーディオストリームをクライアントに提供する必要がある。

複数のオーディオストリーム間で共通のオーディオ要素の概念を導入することにより、最適化が以下で提供される。

態様と実施例に関する説明
解決策１：離散的位置（ビューポイント）の独立したアダプテーションセット。

上記の問題を解決する１つの方法は、場所ごとに完全に独立したアダプテーションセットを使用することである。この解決策をよりよく理解するために、シナリオ例として図１．１を使用する。この例では、３つの異なる個別のビューポイント（３つの異なるオーディオシーンで構成される）を使用して、ユーザーが移動することができる完全なＶＲ環境を作成する。したがって、
・いくつかの独立した、または重複するオーディオシーンは、いくつかのオーディオストリームにエンコードされる。オーディオシーンごとに、１つのメインストリームを使用することも、使用事例に応じて１つのメインストリームと追加の補助ストリームを使用することもできる（例えば、異なる言語を含む一部のオーディオオブジェクトは、効率的な配信のために独立したストリームにエンコードすることができる）。提供されている例では、オーディオシーンＡは２つのストリーム（Ａ１およびＡ２）にエンコードされ、オーディオシーンＢは３つのストリーム（Ｂ１、Ｂ２およびＢ３）にエンコードされ、オーディオシーンＣは３つのストリーム（Ｃ１、Ｃ２およびＣ３）にエンコードされる。オーディオシーンＡとオーディオシーンＢは、いくつかの共通要素（この例では２つのオーディオオブジェクト）を共有していることに留意されたい。すべてのシーンは完全で独立している必要があるため（例えば、非ＶＲ再生デバイスでの独立した再生の場合）、共通の要素を各シーンで２回エンコードする必要がある。

・すべてのオーディオストリームは異なるビットレート（すなわち、異なる表現）でエンコードされているため、ネットワーク接続に応じて効率的なビットレート適応が可能である（すなわち、高速接続を使用しているユーザーには高速ビットレートコード化バージョンが提供され、低速ネットワーク接続のユーザーにはより低いビットレートのバージョンが配信される）。

・オーディオストリームはメディアサーバーに格納され、各オーディオストリームについて、異なるビットレート（つまり異なる表現）の異なるエンコーディングが１つのアダプテーションセットにグループ化され、適切なデータが作成されたすべてのアダプテーションセットの利用可能性を通知する。

・さらに、メディアサーバーは、アダプテーションセットに加えて、各オーディオシーンの「境界」の位置と、各アダプテーションセット（例えば、完全なオーディオシーンまたは個別のオブジェクトのみを含む）との関係に関する情報を受信する。このようにして、各アダプテーションセットは、利用可能なオーディオシーンの１つに関連付けられ得る。１つのオーディオシーンの境界は、例えば、球の幾何学的座標（例えば、中心および半径）として定義されてもよい。

ｏ各アダプテーションセットには、サウンドシーンまたはオーディオ要素がアクティブである場所に関する記述情報も含まれている。例えば、１つの補助ストリームに１つまたは複数のオブジェクトが含まれている場合、アダプテーションセットには、オブジェクトが聞こえる場所（例えば、球の中心の座標と半径）などの情報を含めることができる。

・メディアサーバーは、各アダプテーションセットに関連付けられた「境界」の場所に関する情報をクライアント（ＤＡＳＨクライアントなど）に提供する。例えば、ＤＡＳＨ配信環境の場合、これはメディアプレゼンテーション記述（ＭＰＤ）ＸＭＬ構文に埋め込まれてもよい。

・クライアントは、ユーザーの位置および／または向きおよび／または移動方向に関する情報（またはユーザーのアクションによってトリガーされた変化を特徴付ける情報）を受信する。

・クライアントは、各アダプテーションセットに関する情報を受信し、これと、ユーザーの位置および／または向きおよび／または移動の方向（または、ｘ、ｙ、ｚ座標やヨー、ピッチ、ロールの値など、ユーザーのアクションによってトリガーされた変化を特徴付ける情報）に基づいて、クライアントは、ユーザーの現在の場所で再生されるオーディオシーンを完全に記述する１つまたは複数のアダプテーションセットを選択する。

・クライアントは１つまたは複数のアダプテーションセットを要求する
ｏさらに、クライアントは、複数のオーディオシーンを完全に記述するより多くのアダプテーションセットを選択し、複数のオーディオシーンに対応するオーディオストリームを使用して、ユーザーの現在の場所で再生する必要がある新しいオーディオシーンを作成する。例えば、ユーザーがＶＲ環境内を歩いていて、ある時点でその間に（または２つのオーディオシーンが聞こえる効果がある場所に）いる。

ｏオーディオストリームが利用可能になると、複数のメディアデコーダを使用して個々のオーディオストリームをデコードし、追加のミキサー／レンダラー１２３８を使用して、ユーザーの位置および／または向きおよび／または移動方向に関する情報に基づいて最終的なオーディオシーンを再生することができる（すなわち、例えば、その特定の場所で聞こえないオーディオ要素の一部は無効にするか、レンダリングしない）。

ｏあるいは、メタデータプロセッサ１２３６を使用して、ユーザーの位置および／または向きおよび／または動きの方向に関する情報に基づいて、すべてのオーディオストリームに関連付けられたオーディオメタデータを操作することにより、
・新しいオーディオシーンを構成する必要なオーディオ要素１５２を選択／有効化する。

・また、すべてのオーディオストリームを単一のオーディオストリームにマージできるようにする。

・メディアサーバーは必要なアダプテーションセットを配信する。

・あるいは、クライアントはユーザーの位置決めに関する情報をメディアサーバーに提供し、メディアサーバーは必要なアダプテーションセットに関する指示を提供する。

図１．２は、このようなシステムの別の実装例を示している。

・エンコード側
ｏ１つのビューポイントの１つのサウンドシーン部分に関連付けられた利用可能な各オーディオシーンに対して１つまたは複数のオーディオストリームを作成するために使用することができる複数のメディアエンコーダ
ｏ１つのビューポイントの１つのビデオシーンパーツに関連付けられた使用可能な各ビデオシーンの１つまたは複数のビデオストリームを作成するために使用することができる複数のメディアエンコーダ。簡略化のため、ビデオエンコーダは図に表示されていない。

ｏ異なるビットレート（つまり、異なる表現）で同じオーディオおよびビデオストリームの異なるエンコーディングを含む複数のオーディオおよびビデオアダプテーションセットを格納するメディアサーバー。さらに、メディアサーバーは、すべてのアダプテーションセットの記述情報を格納し、それは以下を含むことができる。

・作成されたすべてのアダプテーションセットの利用可能性。

・１つのアダプテーションセットと１つのオーディオシーンおよび／またはビューポイントとの関連付けを記述する情報。このようにして、各アダプテーションセットは、利用可能なオーディオシーンの１つに関連付けられ得る。

・各オーディオシーンおよび／またはビューポイントの「境界」を記述する情報（例えば、完全なオーディオシーンまたは個別のオブジェクトのみを含んでもよい）。１つのオーディオシーンの境界は、例えば、球の幾何学的座標（例えば、中心および半径）として定義されてもよい。

・クライアント側では、以下のいずれかを含むシステム（クライアントシステム）。

ｏ以下を受信することができる受信側、
・ユーザーの位置および／または向きおよび／または移動方向に関する情報（またはユーザーのアクションによってトリガーされた変化を特徴付ける情報）
・すべてのアダプテーションセットの利用可能性に関する情報、ならびに１つのアダプテーションセットと１つのオーディオシーンおよび／またはビューポイントとの関連付けを記述する情報、ならびに／あるいは各オーディオシーンおよび／またはビューポイントの「境界」を記述する情報（例えば、完全なオーディオシーンまたは個別のオブジェクトのみを含んでもよい）。例えば、そのような情報は、ＤＡＳＨ配信環境の場合、メディアプレゼンテーション記述（ＭＰＤ）ＸＭＬ構文の一部として提供されてもよい。

ｏコンテンツ消費（例えば、ＨＭＤに基づく）に使用されるメディア消費デバイス側。また、メディア消費デバイスは、ユーザーの位置および／または向きおよび／または移動方向に関する収集情報（またはユーザーのアクションによってトリガーされた変化を特徴付ける情報）を収集する役割を果たす。

ｏビューポートプロセッサ１２３２は以下のように構成することができる。

・メディア消費デバイス側から、ユーザーの位置および／または向きおよび／または移動方向を含む現在のビューポートに関する情報（またはユーザーのアクションによってトリガーされた変更を特徴付ける情報）を受信する。

・メタデータ（ＯＭＡＦ仕様で通知されたビデオビューポート）で通知されたＲＯＩに関する情報を受信する。

・受信側で利用可能なすべての情報を受信する。

・受信したおよび／または利用可能なメタデータから受信したおよび／または導出されたすべての情報に基づいて、特定の瞬間にどのオーディオ／ビデオビューポイントを再生するかを決定する。例えば、ビューポートプロセッサ１２３２は次のように決定する。

・１つの完全なオーディオシーンが再現される。

・使用可能なすべてのオーディオシーンから１つの新しいオーディオシーンを作成する必要がある（例えば、複数のオーディオシーンの一部のオーディオ要素のみが再生され、これらのオーディオシーンの他の残りのオーディオ要素は再生されない）。

・２つ以上のオーディオシーン間の移行を再現する必要がある。

ｏビューポートプロセッサ１２３２から受信した情報に基づいて、受信端によって受信された情報で通知された利用可能なアダプテーションセットから１つまたは複数のアダプテーションセットを選択するように構成された選択部分１２３０。選択されたアダプテーションセットは、ユーザーの現在の場所で再生されるオーディオシーンを完全に記述する。このオーディオシーンは、エンコード側で定義された１つの完全なオーディオシーンであるか、または利用可能なすべてのオーディオシーンから新しいオーディオシーンを作成する必要がある。

さらに、ビューポートプロセッサ１２３２の指示に基づいて、２つ以上のオーディオシーン間の移行が生じようとしている場合、選択部分１２３０は、受信端によって受信された情報でシグナリングされた利用可能なアダプテーションセットから１つまたは複数のアダプテーションセットを選択するように構成することができ、選択されたアダプテーションセットは、近い将来に再現する必要があるオーディオシーンを完全に記述する（例えば、ユーザーが次のオーディオシーンの方向に特定の速度で歩く場合、次のオーディオシーンが必要になることが予測され、再生に先立って選択される）。

・さらに、隣接する場所に対応するいくつかのアダプテーションセットは、最初に低いビットレートで選択されてもよく（つまり、低いビットレートでエンコードされた表現が、１つのアダプテーションセットで利用可能な表現から選択される）、そして、位置の変化に基づいて、これらの特定のアダプテーションセットに対してより高いビットレートを選択することにより、品質が向上する（つまり、より高いビットレートでエンコードされた表現が、１つのアダプテーションセットで利用可能な表現から選択される）。

ｏ次のように構成できるダウンロードおよびスイッチング部分、
・選択部分１２３０から受信した指示に基づいて、メディアサーバー１２０から利用可能なアダプテーションセットのうちの１つまたは複数のアダプテーションセットを要求する。

・メディアサーバー１２０から利用可能な適応セットから１つまたは複数の適応セット（すなわち、各適応セット内で利用可能なすべての表現のうちの１つの表現）を受け取る。

・受信したすべてのオーディオストリームからメタデータ情報を抽出
次のように構成できるメタデータプロセッサ１２３６、
・受信されたオーディオストリームについてのダウンロードおよびスイッチング情報から、受信された各オーディオストリームに対応するオーディオメタデータを含むことができる情報を受信する。

・ユーザーの位置および／または向きおよび／または移動方向に関する情報を含むことができるビューポートプロセッサ１２３２から受信した情報に基づいて、各オーディオストリームに関連するオーディオメタデータを処理および操作することにより、
・ビューポートプロセッサ１２３２によって示されるように、新しいオーディオシーンを構成する必要なオーディオ要素１５２を選択／有効化する。

・すべてのオーディオストリームを単一のオーディオストリームにマージすることができる。

ｏストリームマクサー／マージャー１２３８は、メタデータプロセッサ１２３６から受信され、受信したすべてのオーディオストリームに対応する変更および処理されたオーディオメタデータを含むことができる情報に基づいて、選択されたすべてのオーディオストリームを１つのオーディオストリームにマージするように構成されてもよい。

ｏメディアデコーダは、ユーザーの位置および／または向きおよび／または移動方向に関する情報に基づいて、ビューポートプロセッサ１２３２によって示されるように、新しいオーディオシーンの再生のための少なくとも１つのオーディオストリームを受信およびデコードするように構成される。

図１．３は、クライアント側で、例えば図１．２で説明したシステムの一部を具体化できるシステム（クライアントシステム）を含むシステムを示し、それはさらにまたは代わりに以下を含む。

・複数のメディアデコーダは、メタデータプロセッサ１２３６によって示されるように個々のオーディオストリームをデコードするように構成することができる（例えば、いくつかのオーディオ要素が非アクティブ化される）。

・ミキサー／レンダラー１２３８は、ユーザーの位置および／または向きおよび／または動きの方向に関する情報に基づいて最終的なオーディオシーンを再生するように構成することができる（すなわち、例えば、その特定の場所で聞こえない一部のオーディオ要素は無効にするか、レンダリングしない）。

解決策２
図１．４、図１．５、および図１．６は、本発明の解決策２に基づく例を示す（これは、図１．１および／または図１．２および／または図１．３の例の実施形態であってもよい）：柔軟なアダプテーションセットを有する離散的位置（ビューポイント）の独立したアダプテーションセット。

ユーザーがＶＲ環境内を移動する場合、オーディオシーン１５０は連続的に変化することがある。優れたオーディオエクスペリエンスを確保するために、特定の時点でオーディオシーン１５０を構成するすべてのオーディオ要素１５２を、メディアデコーダで使用できるようにする必要があり、メディアデコーダは最終的なオーディオシーンを作成するために位置情報を利用することができる。

しかし、ユーザーがある場所から次の場所に「歩く」場合、２つ（またはそれ以上）のオーディオシーン１５０のオーディオ要素１５２を同時に聞くことができる。この使用事例の解決策は、複数のオーディオストリームを（単一のメディアデコーダを備えたマクサーまたは追加のミキサー／レンダラー１２３８を備えた複数のメディアデコーダのいずれかを使用して）デコードするために提供されたメカニズムに依存しない、以前のシステムの例で提供されていて、完全なオーディオシーン１５０を記述するオーディオストリームをクライアント／システム１０２に提供する必要がある。

複数のオーディオストリーム間で共通のオーディオ要素１５２の概念を導入することにより、以下で最適化が提供される。

図１．４は、異なるシーンが少なくとも１つのオーディオ要素（オーディオオブジェクト、サウンドソースなど）を共有する例を示している。したがって、クライアント１０２は、例えば、１つのシーンＡのみに関連付けられ（例えば、ユーザーが現在いる環境に関連付けられている）、オブジェクト１５２Ａに関連付けられた１つのメインストリーム１０６Ａと、異なるシーンＢによって共有され（例えば、ユーザーが現在いるシーンＡとオブジェクト１５２Ｂを共有する隣接または隣接するストリームＢとの間の境界内のストリーム）、オブジェクト１５２Ｂに関連付けられた１つの補助ストリーム１０６Ｂと、を受信することができる。

したがって、図１．４に示すように、
・いくつかの独立した、または重複するオーディオシーンは、いくつかのオーディオストリームにエンコードされる。オーディオストリーム１０６は、次のような方法で作成される。

ｏ各オーディオシーン１５０について、それぞれのオーディオシーンの一部であるオーディオ要素１５２のみを含み、他のオーディオシーンの一部ではない１つのメインストリームを作成することができる。および／または
ｏオーディオ要素１５２を共有するすべてのオーディオシーン１５０について、共通のオーディオ要素１５２は、オーディオシーンの１つにのみ関連付けられた補助オーディオストリームでのみエンコードされ、他のオーディオシーンとの関連付けを示す適切なメタデータ情報が作成される。または別の言い方をすると、追加のメタデータは、一部のオーディオストリームが複数のオーディオシーンと一緒に使用される可能性を示している。および／または
ｏ使用事例によっては、追加の補助ストリームが作成される場合がある（例えば、異なる言語を含む一部のオーディオオブジェクトは、効率的な配信のために独立したストリームにエンコードされる場合がある）。

ｏ提供された実施形態では、
・オーディオシーンＡは以下にエンコードされている：
・メインオーディオストリーム（Ａ１、１０６Ａ）、
・補助オーディオストリーム（Ａ２、１０６Ｂ）
・オーディオシーンＡの一部のオーディオ要素１５２ＢがこれらのオーディオストリームＡではなく、異なるオーディオシーン（オーディオシーンＢ）に属する補助ストリームＡ２（１０６Ｂ）にエンコードされていることを示すことができるメタデータ情報
・オーディオシーンＢは以下にエンコードされている：
・メインオーディオストリーム（Ｂ１、１０６Ｃ）、
・補助オーディオストリーム（Ｂ２）、
・補助オーディオストリーム（Ｂ３）、
・オーディオストリームＢ２からのオーディオ要素１５２Ｂが、オーディオシーンＡにも属する一般的なオーディオ要素１５２Ｂであることを示すことができるメタデータ情報。

・オーディオシーンＣは３つのストリーム（Ｃ１、Ｃ２、およびＣ３）にエンコードされる。

・オーディオストリーム１０６（１０６Ａ、１０６Ｂ、１０６Ｃ…）は、異なるビットレート（つまり、異なる表現）でエンコードされ、例えばネットワーク接続に応じて、効率的なビットレート適応が可能になる（つまり、高速接続を使用しているユーザーには高ビットレートのコード化バージョンが配信され、低速ネットワーク接続を使用しているユーザーには低ビットレートのバージョンが配信される）。

・オーディオストリーム１０６はメディアサーバー１２０に格納され、各オーディオストリームについて、異なるビットレート（つまり異なる表現）の異なるエンコーディングが１つのアダプテーションセットにグループ化され、適切なデータが作成されたすべてのアダプテーションセットの利用可能性を通知する。（同じオーディオ信号に関連付けられているストリームの複数の表現が、異なるビットレートおよび／または品質および／または解像度で、同じアダプテーションセットに存在してもよい。）
・さらに、メディアサーバー１２０は、アダプテーションセットに加えて、各オーディオシーンの「境界」の位置と、各アダプテーションセット（例えば、完全なオーディオシーンまたは個別のオブジェクトのみを含む）との関係に関する情報を受信することができる。このようにして、各アダプテーションセットは、利用可能なオーディオシーン１５０のうちの１つまたは複数に関連付けられ得る。１つのオーディオシーンの境界は、例えば、球の幾何学的座標（例えば、中心および半径）として定義されてもよい。

ｏ各アダプテーションセットは、サウンドシーンまたはオーディオ要素１５２がアクティブである場所に関する記述情報も含んでもよい。例えば、１つの補助ストリーム（例えば、Ａ２、１０６Ｂ）に１つまたは複数のオブジェクトが含まれている場合、アダプテーションセットには、オブジェクトが聞こえる場所（例えば、球の中心の座標と半径）などの情報を含めることができる。

ｏ追加または代替として、各アダプテーションセット（例えば、シーンＢに関連付けられたアダプテーションセット）は、記述情報（例えば、メタデータ）を含むことができ、それは、１つのオーディオシーン（例えばＢ）のオーディオ要素（例えば１５２Ｂ）が（また、あるいはさらに）別のオーディオシーン（例えばＡ）に属するオーディオストリーム（例えば１０６Ｂ）にエンコードされることを示すことができる。

・メディアサーバー１２０は、各アダプテーションセットに関連付けられた「境界」の位置に関する情報を、システム１０２（クライアント）、例えば、ＤＡＳＨクライアントに提供することができる。例えば、ＤＡＳＨ配信環境の場合、これはメディアプレゼンテーション記述（ＭＰＤ）ＸＭＬ構文に埋め込まれてもよい。

・システム１０２（クライアント）は、ユーザーの位置および／または向きおよび／または移動方向に関する情報（またはユーザーのアクションによってトリガーされた変化を特徴付ける情報）を受信することができる。

・システム１０２（クライアント）は、各アダプテーションセットに関する情報を受信することができ、これおよび／またはユーザーの位置および／または向きおよび／または移動の方向（または、ｘ、ｙ、ｚ座標やヨー、ピッチ、ロールの値など、ユーザーのアクションによってトリガーされた変化を特徴付ける情報）に基づいて、システム１０２（クライアント）は、ユーザー１４０の現在の場所で再生されるオーディオシーン１５０を完全にまたは部分的に記述する１つまたは複数のアダプテーションセットを選択することができる。

・システム１０２（クライアント）は、１つまたは複数のアダプテーションセットを要求することができる。

ｏさらに、システム１０２（クライアント）は、複数のオーディオシーン１５０を完全にまたは部分的に記述する１つまたは複数のアダプテーションセットを選択し、複数のオーディオシーン１５０に対応するオーディオストリーム１０６を使用して、ユーザー１４０の現在の場所で再生される新しいオーディオシーン１５０を作成することができる。

ｏオーディオ要素１５２が複数のオーディオシーン１５０の一部であることを示すメタデータに基づいて、共通のオーディオ要素１５２は、新しいオーディオシーンを作成するために、完全なオーディオシーンごとに、２回要求する代わりに１回だけ要求することができる。

ｏオーディオストリームがクライアントシステム１０２で利用可能になると、例では、１つまたは複数のメディアデコーダ（１０４）を使用して、個々のオーディオストリームをデコードし、および／または追加のミキサー／レンダラーを使用して、ユーザーの位置および／または向きおよび／または移動方向に関する情報に基づいて最終的なオーディオシーンを再生することができる（すなわち、例えば、その特定の場所で聞こえないオーディオ要素の一部は無効にするか、レンダリングしない）。

ｏ代替的または追加的に、メタデータプロセッサを使用して、ユーザーの位置および／または向きおよび／または移動方向に関する情報に基づいて、すべてのオーディオストリームに関連付けられたオーディオメタデータを操作することにより、
・新しいオーディオシーンを構成する必要なオーディオ要素１５２（１５２Ａ－１５２ｃ）を選択／有効化する。および／または
・すべてのオーディオストリームを単一のオーディオストリームにマージできるようにする。

・メディアサーバー１２０は必要なアダプテーションセットを配信することができる。

・あるいは、システム１０２（クライアント）は、ユーザー１４０の位置決めに関する情報をメディアサーバー１２０に提供し、メディアサーバーは必要なアダプテーションセットについての指示を提供する。

図１．５は、このようなシステムの別の例示的な実施態様を示している。

・エンコード側
１つのビューポイントの１つのサウンドシーン部分に関連付けられた１つまたは複数の利用可能なオーディオシーン１５０からオーディオ要素１５２を埋め込む１つまたは複数のオーディオストリーム１０６を作成するために使用することができる複数のメディアエンコーダ１５４。

・各オーディオシーン１５０について、それぞれのオーディオシーン１５０の一部であるオーディオ要素１５２のみを含み、他のオーディオシーンの一部ではない１つのメインストリームを作成することができる。

・同じオーディオシーンに対して追加の補助ストリームを作成することができる（例えば、異なる言語を含む一部のオーディオオブジェクトは、効率的な配信のために独立したストリームにエンコードすることができる）。

・以下を含む追加の補助ストリームを作成することができる。

・複数のオーディオシーン１５０に共通のオーディオ要素１５２。

・この補助ストリームと、共通のオーディオ要素１５２を共有する他のすべてのオーディオシーン１５０との関連付けを示すメタデータ情報。または別の言い方をすると、メタデータは、一部のオーディオストリームが複数のオーディオシーンと一緒に使用され得る可能性を示している。

ｏ１つのビューポイントの１つのビデオシーン部分に関連付けられた使用可能な各ビデオシーンの１つまたは複数のビデオストリームを作成するために使用することができる複数のメディアエンコーダ。簡略化のため、ビデオエンコーダは図に表示されていない。

ｏ異なるビットレート（つまり、異なる表現）で同じオーディオおよびビデオストリームの異なるエンコーディングを含む複数のオーディオおよびビデオアダプテーションセットを格納するメディアサーバー１２０。さらに、メディアサーバー１２０は、すべてのアダプテーションセットの記述情報を格納し、それは以下を含むことができる。

・少なくとも１つの共通のオーディオ要素を共有する、１つのアダプテーションセットと複数のオーディオシーンの関連付けを示す情報。

・受信側で利用可能なすべての情報を受信する。

・１つの完全なオーディオシーンが再現される
・使用可能なすべてのオーディオシーンから１つの新しいオーディオシーンを作成する必要がある（例えば、複数のオーディオシーンの一部のオーディオ要素のみが再生され、これらのオーディオシーンの他の残りのオーディオ要素は再生されない）。

・２つ以上のオーディオシーン間の移行を再現する必要がある
ｏビューポートプロセッサ１２３２から受信した情報に基づいて、受信端によって受信された情報で通知された利用可能なアダプテーションセットから１つまたは複数のアダプテーションセットを選択するように構成された選択部分１２３０。選択されたアダプテーションセットは、ユーザーの現在の場所で再生されるべきオーディオシーンを完全または部分的に記述する。このオーディオシーンは、エンコード側で定義された１つまたは一部が完全なオーディオシーンであるか、使用可能なすべてのオーディオシーンから新しいオーディオシーンを作成する必要がある。

・さらに、複数のオーディオシーンに属するオーディオ要素１５２が、少なくとも１つのアダプテーションセットと、同じオーディオ要素１５２を含む複数のオーディオシーンとの関連付けを示す情報に基づいて選択された場合。

図１．６は、クライアント側で、例えば図５で説明したシステムの一部を具体化できるシステム（クライアントシステム）を含むシステムを示し、それはさらにまたは代わりに以下を含む。

ファイル再生のためのファイルフォーマットの更新
ファイル形式の使用事例の場合、複数のメインストリームと補助ストリームを個別のトラックとして単一のＩＳＯＢＭＦＦファイルにカプセル化することができる。このようなファイルの単一のトラックは、前述のように単一のオーディオ要素を表す。正しいプレイアウトに必要な情報を含むＭＰＤは利用できないため、例えば、特定のファイルフォーマットボックスまたはトラックおよび映画レベルの特定のファイルフォーマットボックスを提供／導入することにより、情報をファイルフォーマットレベルで提供する必要がある。使用事例に応じて、カプセル化されたオーディオシーンの正しいレンダリングを可能にするために必要な様々な情報があるが、以下の情報のセットは基本的なものであり、常に存在しなければならない。

・含まれているオーディオシーンに関する情報、例えば「場所の境界」
・利用可能なすべてのオーディオ要素、特にどのオーディオ要素がどのトラックにカプセル化されているかに関する情報
・カプセル化されたオーディオ要素の場所に関する情報
・１つのオーディオシーンに属するすべてのオーディオ要素のリスト、１つのオーディオ要素が複数のオーディオシーンに属してもよい。

この情報があれば、追加のメタデータプロセッサや共有エンコーディングを使用する場合も含め、言及されているすべての使用事例がファイルベースの環境でも機能するはずである。

上記の例に関するさらなる考慮事項
例（例えば、図１．１～図６のうちの少なくとも１つ）では、少なくとも１つのシーンは、少なくとも１つのオーディオ要素（オーディオソース１５２）に関連付けることができ、各オーディオ要素は、オーディオ要素が聞こえる視覚環境における位置および／または領域に関連付けられ、その結果、シーン内の異なるユーザーの位置および／またはビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データについて、異なるオーディオストリームがサーバーシステム１２０からクライアントシステム１０２に提供される。

例では、クライアントシステム１０２は、オーディオストリーム（例えば、Ａ１、Ａ２）の少なくとも１つのオーディオ要素１５２および／または１つのアダプテーションセットを、シーンにおける現在のユーザーのビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置の存在下で再生するかどうかを決定するように構成されてもよく、システム１０２は、現在のユーザーの仮想位置で少なくとも１つのオーディオ要素を要求および／または受信するように構成される。

例では、クライアントシステム（例えば１０２）は、少なくともユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、オーディオストリームの少なくとも１つのオーディオ要素（１５２）および／または１つのアダプテーションセットが、関連性があり、かつ／または可聴であるようになるかどうかを予測的に決定するように構成されてもよく、システムは、シーンにおける予測されたユーザーの動きおよび／またはインタラクションの前に、特定のユーザーの仮想位置で少なくとも１つのオーディオ要素および／またはオーディオストリームおよび／またはアダプテーションセットを要求および／または受信するように構成され、システムは、受信すると、少なくとも１つのオーディオ要素および／またはオーディオストリームを、シーンにおけるユーザーの動きおよび／またはインタラクション後の特定のユーザーの仮想位置で再生するように構成される。例えば、上記の図８Ａおよび図８Ｂを参照されたい。いくつかの例では、システム１０２または１２０の動作の少なくとも１つは、予測データおよび／または統計データおよび／または集計データに基づいて実行され得る。

例では、クライアントシステム（例えば１０２）は、シーンにおけるユーザーの動きおよび／またはインタラクションの前のユーザーの仮想位置で、より低いビットレートおよび／または品質レベルで少なくとも１つのオーディオ要素（例えば１５２）を要求および／または受信するように構成されてもよく、システムは、シーンにおけるユーザーの動きおよび／またはインタラクションの後のユーザーの仮想位置で、より高いビットレートおよび／または品質レベルで少なくとも１つのオーディオ要素を要求および／または受信するように構成される。例えば、図７Ｂを参照されたい。

例では、少なくとも１つのオーディオ要素は、少なくとも１つのシーンに関連付けられ、少なくとも１つのオーディオ要素は、シーンに関連付けられた視覚環境内の位置および／または領域に関連付けられてもよく、システムは、シーンにおける各ユーザーの仮想位置での関連性および／または監査能力レベルに基づいて、オーディオ要素の異なるビットレートおよび／または品質レベルで異なるストリームを要求するように構成され、システムは、現在のユーザーの仮想位置でより関連性があり、かつ／または可聴性がより高いオーディオ要素に対して、より高いビットレートおよび／または品質レベルでオーディオストリームを要求するように構成され、および／または現在のユーザーの仮想位置で関連性がより低く、かつ／または可聴性がより低いオーディオ要素に対して、より低いビットレートおよび／または品質レベルでオーディオストリームを要求するように構成される。一般的には、図７Ａを参照されたい。また、図２ａおよび図２ｂ（より関連性の高いおよび／またはより可聴性の高いソースがユーザーに近い可能性がある）、図３（より関連性の高いおよび／またはより可聴性の高いソースは、ユーザーが位置ｘ_１にあるときのシーン１５０ａのソースであり、より関連性がありおよび／またはより可聴性の高いソースは、ユーザーが位置ｘ_３にあるときのシーン１５０ｂのソースである）、図４（時刻ｔ_２において、より関連性の高いおよび／またはより可聴性の高いソースは、第１のシーンのものであり得る）、図６（より可聴性の高いソースは、ユーザーが正面から見るものであり得る）を参照されたい。

例では、少なくとも１つのオーディオ要素（１５２）は、シーンに関連付けられ、各オーディオ要素は、シーンに関連付けられた視覚環境内の位置および／または領域に関連付けられ、クライアントシステム１０２は、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）をサーバーシステム１２０に定期的に送信するように構成され、それにより、少なくとも１つのオーディオ要素（１５２）に近い位置では、サーバーからより高いビットレートおよび／または品質が提供され、少なくとも１つのオーディオ要素（１５２）からより離れた位置では、より低いビットレートおよび／または品質のストリームがサーバーから提供される。例えば、図２ａおよび図２ｂを参照されたい。

例では、複数のシーン（例えば１５０Ａ、１５０Ｂ）が隣接および／または近接する環境などの複数の視覚環境に対して定義されてもよく、第１の現在のシーン（例えば１５０Ａ）に関連付けられた第１のストリームが提供され、ユーザーが第２のさらなるシーン（例えば１５０Ｂ）に移行（１５０ＡＢ）した場合には、第１のシーンに関連付けられたストリームと第２のシーンに関連付けられた第２のストリームの両方が提供される。例えば、図３を参照されたい。

例では、複数のシーンが第１および第２の視覚環境に対して定義され、第１および第２の環境は、隣接および／または近接する環境であり、第１のシーンに関連付けられた第１のストリームは、ユーザーの仮想位置が第１のシーンに関連付けられた第１の環境にある場合の第１のシーンの再生のために、サーバーから提供され、第２のシーンに関連付けられた第２のストリームは、ユーザーの仮想位置が第２のシーンに関連付けられた第２の環境にある場合の第２のシーンの再生のために、サーバーから提供され、ユーザーの仮想位置が第１のシーンと第２のシーンとの間の移行位置にある場合に、第１のシーンに関連付けられた第１のストリームと第２のシーンに関連付けられた第２のストリームの両方が提供される。例えば、図３を参照されたい。

例では、第１のシーンに関連付けられた第１のストリームは、ユーザーが第１のシーンに関連付けられた第１の環境にいるときに、より高いビットレートおよび／または品質で取得され、一方、第２の環境に関連付けられた第２のシーン環境に関連付けられた第２のストリームは、ユーザーが第１のシーンから第２のシーンへの移行位置の始まりにいるときに、より低いビットレートおよび／または品質で取得され、ユーザーが第１のシーンから第２のシーンへの移行位置の終わりにいるときに、第１のシーンに関連付けられた第１のストリームは、より低いビットレートおよび／または品質で取得され、第２のシーンに関連付けられた第２のストリームは、より高いビットレートおよび／または品質で取得される。これは、例えば、図３の場合である。

例では、複数のシーン（例えば、１５０Ａ、１５０Ｂ）は、複数の視覚環境（例えば、隣接する環境）に対して定義され、システム１０２は、より高いビットレートおよび／または品質で現在のシーンに関連付けられたストリームと、より低いビットレートおよび／または品質で第２のシーンに関連付けられたストリームと、を要求および／または取得することができる。例えば、図４を参照されたい。

例では、複数のＮ個のオーディオ要素が定義され、これらのオーディオ要素の位置または領域までのユーザーの距離が所定のしきい値よりも大きい場合に、Ｎ個のオーディオ要素は、Ｎ個のオーディオ要素の位置または領域に近い位置または領域に関連付けられたより小さい数Ｍ（Ｍ＜Ｎ）個のオーディオ要素を取得するように処理され、それによって、Ｎ個のオーディオ要素の位置または領域までのユーザーの距離が所定のしきい値よりも小さい場合に、Ｎ個のオーディオ要素に関連付けられた少なくとも１つのオーディオストリームをシステムに提供する、またはＮ個のオーディオ要素の位置または領域までのユーザーの距離が所定のしきい値よりも大きい場合に、Ｍ個のオーディオ要素に関連付けられた少なくとも１つのオーディオストリームをシステムに提供する。例えば、図１．７を参照されたい。

例では、少なくとも１つの視覚環境シーンは、少なくとも１つの複数のＮ個のオーディオ要素（Ｎ＞＝２）に関連付けられ、各オーディオ要素は、視覚環境内の位置および／または領域に関連付けられ、少なくとも１つの複数のＮ個のオーディオ要素は、高いビットレートおよび／または品質レベルで少なくとも１つの表現で提供されてもよく、少なくとも１つの複数のＮ個のオーディオ要素は、低いビットレートおよび／または品質レベルで少なくとも１つの表現で提供され、少なくとも１つの表現は、Ｎ個のオーディオ要素を処理して、Ｎ個のオーディオ要素の位置または領域に近い位置または領域に関連付けられたより少ない数Ｍ（Ｍ＜Ｎ）個のオーディオ要素を取得することによって取得され、システムは、オーディオ要素がシーンでの現在のユーザーの仮想位置でより関連性があり、かつ／または可聴性がより高い場合に、オーディオ要素についてより高いビットレートおよび／または品質レベルで表現を要求するように構成され、システムは、オーディオ要素がシーンでの現在のユーザーの仮想位置でより関連性が低く、かつ／または可聴性がより低い場合に、オーディオ要素についてより低いビットレートおよび／または品質レベルで表現を要求するように構成される。例えば、図１．７を参照されたい。

例では、ユーザーの距離および／または関連性および／または可聴レベルおよび／または角度の向きが所定のしきい値よりも低い場合に、異なるストリームが異なるオーディオ要素について取得される。例えば、図１．７を参照されたい。

例では、異なるオーディオ要素が異なるビューポートで提供されるため、１つの第１のオーディオ要素が現在のビューポート内にある場合、第１のオーディオ要素は、ビューポート内にない第２のオーディオ要素よりも高いビットレートで取得される。例えば、図６を参照されたい。

例では、少なくとも２つの視覚環境シーンが定義され、少なくとも１つの第１および第２のオーディオ要素は、第１の視覚環境に関連付けられた第１のシーンに関連付けられ、少なくとも１つの第３のオーディオ要素は、第２の視覚環境に関連付けられた第２のシーンに関連付けられ、システム１０２は、少なくとも１つの第２のオーディオ要素が第２の視覚環境シーンにさらに関連付けられていることを記述するメタデータを取得するように構成され、システムは、ユーザーの仮想位置が第１の視覚環境にある場合に、少なくとも第１および第２のオーディオ要素を要求および／または受信するように構成され、システムは、ユーザーの仮想位置が第２の視覚環境シーンにある場合に、少なくとも第２および第３のオーディオ要素を要求および／または受信するように構成され、システムは、ユーザーの仮想位置が第１の視覚環境シーンと第２の視覚環境シーンとの間で移行している場合に、少なくとも第１および第２および第３のオーディオ要素を要求および／または受信するように構成される。例えば、図１．４を参照されたい。これは、図３にも適用される。

例では、少なくとも１つの第１のオーディオ要素は、少なくとも１つのオーディオストリームおよび／またはアダプテーションセットで提供されてもよく、少なくとも１つの第２のオーディオ要素は、少なくとも１つの第２のオーディオストリームおよび／またはアダプテーションセットで提供され、少なくとも１つの第３のオーディオ要素は、少なくとも１つの第３のオーディオストリームおよび／またはアダプテーションセットで提供され、少なくとも第１の視覚環境シーンは、少なくとも第１および第２のオーディオストリームおよび／またはアダプテーションセットを必要とする完全なシーンとしてメタデータによって記述され、第２の視覚環境シーンは、少なくとも第３のオーディオストリームおよび／またはアダプテーションセット、ならびに少なくとも第１の視覚環境シーンに関連付けられた少なくとも第２のオーディオストリームおよび／またはアダプテーションセットを必要とする不完全なシーンとしてメタデータによって記述され、システムは、ユーザーの仮想位置が第２の視覚環境にある場合に、メタデータを操作して、第１の視覚環境に属する第２のオーディオストリームと、第２の視覚環境に関連付けられた第３のオーディオストリームと、を新しい単一のストリームにマージすることを可能にするように構成されたメタデータプロセッサを含む。例えば、図１．２～図１．３、図１．５、および図１．６を参照されたい。

例では、システム１０２は、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データに基づいて、少なくとも１つのオーディオデコーダの前に少なくとも１つのオーディオストリーム内のメタデータを操作するように構成されたメタデータプロセッサ（例えば１２３６）を含んでもよい。

例では、メタデータプロセッサ（例えば１２３６）は、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データに基づいて、少なくとも１つのオーディオデコーダの前に少なくとも１つのオーディオストリーム内の少なくとも１つのオーディオ要素を有効および／または無効にするように構成されてもよく、システムが、現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データの結果として、オーディオ要素がもう再生されないと決定した場合に、メタデータプロセッサは、少なくとも１つのオーディオデコーダの前に少なくとも１つのオーディオストリーム内の少なくとも１つのオーディオ要素を無効にするように構成されてもよく、システムが、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データの結果として、オーディオ要素が再生されると決定した場合に、メタデータプロセッサは、少なくとも１つのオーディオデコーダの前に少なくとも１つのオーディオストリーム内の少なくとも１つのオーディオ要素を有効にするように構成されてもよい。

サーバー側
ここでは、仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのオーディオおよびビデオストリームをクライアントに配信するためのサーバー（１２０）も参照され、ビデオおよびオーディオストリームはメディア消費デバイスで再生され、サーバー（１２０）は、視覚環境を記述するビデオストリームを、エンコードするためのエンコーダおよび／または格納するための記憶装置を含み、視覚環境はオーディオシーンに関連付けられ、サーバーは、クライアントに配信される複数のストリームおよび／またはオーディオ要素および／またはアダプテーションセットを、エンコードするためのエンコーダおよび／または格納するための記憶装置をさらに含み、ストリームおよび／またはオーディオ要素および／またはアダプテーションセットは、少なくとも１つのオーディオシーンに関連付けられ、サーバーは、
クライアントからの要求に基づいてビデオストリームを選択して配信し、
ビデオストリームは環境に関連付けられ、クライアントからの要求に基づいて、オーディオストリームおよび／またはオーディオ要素および／またはアダプテーションセットを選択し、要求は、少なくともユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ、ならびに環境に関連付けられたオーディオシーンに関連付けられ、
オーディオストリームをクライアントに配信するように構成される。

さらなる実施形態および変形例
特定の実施態様に応じて、実施例はハードウェアで実施することができる。実施態様は、例えば、フロッピーディスク、デジタル多用途ディスク（ＤＶＤ）、ブルーレイディスク、コンパクトディスク（ＣＤ）、読み取り専用メモリ（ＲＯＭ）、プログラム可能な読み取り専用メモリ（ＰＲＯＭ）、消去およびプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）またはフラッシュメモリなど、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）電子的に読み取り可能な制御信号が格納されているデジタル記憶媒体を使用して実行することができる。したがって、デジタル記憶媒体はコンピュータで読み取り可能であってもよい。

一般に、実施例は、プログラム命令を含むコンピュータプログラム製品として実施されてもよく、プログラム命令は、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の１つを実行するように動作する。プログラム命令は、例えば、機械可読媒体に格納されてもよい。

他の実施例は、機械可読なキャリアに格納された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。言い換えれば、したがって、方法の一例は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラム命令を有するコンピュータプログラムである。

したがって、方法のさらなる例は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含み、それが記録されたデータキャリア媒体（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア媒体、デジタルストレージ媒体、または記録された媒体は、無形で一時的な信号ではなく、有形および／または非一時的なものである。

さらなる例は、本明細書に記載されている方法の１つを実行する処理ユニット、例えばコンピュータ、またはプログラム可能な論理デバイスを含む。

さらなる例は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

さらなる例は、本明細書で説明される方法の１つを実行するためのコンピュータプログラムを受信機に（例えば、電子的または光学的に）転送する装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバーを含んでもよい。

いくつかの例では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能の一部またはすべてを実行してもよい。いくつかの例では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の１つを実行するためにマイクロプロセッサと協働してもよい。一般に、本方法は、任意の適切なハードウェア装置によって実行されてもよい。

上記の例は、上で説明した原理を例示するものである。本明細書に記載の配置および詳細の修正および変更は明らかであることを理解されたい。したがって、本明細書の実施例の記述および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によって限定されることが意図されている。

Claims

メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
複数のオーディオシーン（１５０Ａ、１５０Ｂ）は、隣接および／または近接するビデオ環境としての複数のビデオ環境に対して定義され、
第１の現在のオーディオシーンに関連付けられた第１のストリームが提供され、ユーザーが第２のさらなるオーディオシーンに移行した場合には、前記第１のオーディオシーンに関連付けられた前記オーディオストリームと前記第２のオーディオシーンに関連付けられた前記第２のオーディオストリームの両方が提供される、システム（１０２）。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のための少なくとも１つのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、少なくとも１つのオーディオストリーム（１０６）をサーバー（１２０）に要求する（１１２）ように構成され、
前記システム（１０２）は、異なるオーディオシーンに関連する隣接および／または近接するビデオ環境の境界からの前記ユーザーの位置の距離に基づいて、前記サーバー（１２０）への前記少なくとも１つのオーディオストリームの前記要求を制御するように構成される、システム（１０２）。
前記少なくとも１つのオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットを前記サーバー（１２０）から取得するために、前記サーバー（１２０）に前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）を提供するように構成される、請求項２に記載のシステム。
少なくとも１つのオーディオシーンは、少なくとも１つのオーディオ要素（１５２）に関連付けられ、各オーディオ要素は、前記オーディオ要素が可聴である前記ビデオ環境内の位置および／または領域に関連付けられ、オーディオシーン内の様々なユーザーの位置および／またはビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データに、様々なオーディオストリームが提供される、請求項１または２に記載のシステム。
オーディオストリームの少なくとも１つのオーディオ要素および／または１つのアダプテーションセットを、オーディオシーンにおける現在のユーザーのビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置に対して再生するかどうかを決定するように構成され、
前記システムは、前記現在のユーザーの仮想位置で前記少なくとも１つのオーディオ要素を要求および／または受信するように構成される、請求項１または２に記載のシステム。
少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、オーディオストリームの少なくとも１つのオーディオ要素（１５２）および／または１つのアダプテーションセットが、関連性があり、かつ／または可聴であるようになるかどうかを予測的に決定するように構成され、
前記システムは、オーディオシーンにおける予測されたユーザーの動きおよび／またはインタラクションの前に、特定のユーザーの仮想位置で前記少なくとも１つのオーディオ要素および／またはオーディオストリームおよび／またはアダプテーションセットを要求および／または受信するように構成され、
前記システムは、受信すると、前記少なくとも１つのオーディオ要素および／またはオーディオストリームを、オーディオシーンにおける前記ユーザーの動きおよび／またはインタラクション後の前記特定のユーザーの仮想位置で再生するように構成される、請求項１または２に記載のシステム。
ユーザーのインタラクションの前の前記ユーザーの仮想位置で、より低いビットレートで前記少なくとも１つのオーディオ要素（１５２）を要求および／または受信するように構成され、前記インタラクションは、同じオーディオシーン（１５０）での位置データの変化、または現在のシーンから分離された次のシーンに入ることのいずれかによって生じ、
前記システムは、オーディオシーンにおける前記ユーザーのインタラクションの後の前記ユーザーの仮想位置で、より高いビットレートで前記少なくとも１つのオーディオ要素を要求および／または受信するように構成される、請求項４に記載のシステム。
少なくとも１つのオーディオシーンに関連付けられた少なくとも１つのオーディオ要素（１５２）は、オーディオシーンに関連付けられた前記ビデオ環境内の位置および／または領域に関連付けられ、
前記システムは、前記ユーザーからより遠いオーディオ要素よりも前記ユーザーにより近いオーディオ要素に対して、より高いビットレートでストリームを要求および／または受信するように構成される、請求項１または２に記載のシステム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
少なくとも１つのオーディオ要素（１５２）は、少なくとも１つのオーディオシーンに関連付けられ、前記少なくとも１つのオーディオ要素は、ビデオ環境内の位置および／または領域に関連付けられ、
前記システムは、オーディオシーンにおける各ユーザーの仮想位置での関連性に基づいて、オーディオ要素の異なるビットレートで異なるストリームを要求するように構成され、
前記システムは、ユーザーの現在の仮想位置でより関連性があり、かつ／または可聴性がより高いオーディオ要素に対して、より高いビットレートでオーディオストリームを要求するように構成される、システム。
少なくとも１つのオーディオ要素（１５２）は、オーディオシーンに関連付けられ、各オーディオ要素は、オーディオシーンに関連付けられた前記ビデオ環境内の位置および／または領域に関連付けられ、
前記システムは、前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）を前記サーバーに定期的に送信するように構成され、それにより、
第１の位置では、より高いビットレートのストリームが前記サーバーから提供され、
第２の位置では、より低いビットレートのストリームが前記サーバーから提供され、
前記第１の位置は、前記第２の位置よりも前記少なくとも１つのオーディオ要素（１５２）に近い、請求項１または２に記載のシステム。
複数のオーディオシーン（１５０Ａ、１５０Ｂ）は、隣接および／または近接するビデオ環境としての複数のビデオ環境に対して定義され、
第１の現在のオーディオシーンに関連付けられた第１のストリームが提供され、ユーザーが第２のさらなるオーディオシーンに移行した場合には、前記第１のオーディオシーンに関連付けられた前記オーディオストリームと前記第２のオーディオシーンに関連付けられた第２のストリームの両方が提供される、請求項２に記載のシステム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
複数のオーディオシーン（１５０Ａ、１５０Ｂ）は、第１および第２のビデオ環境に対して定義され、前記第１および第２のビデオ環境は、隣接および／または近接するビデオ環境であり、
第１のオーディオシーンに関連付けられた第１のストリームは、前記ユーザーの位置または仮想位置が前記第１のオーディオシーンに関連付けられた第１のビデオ環境にある場合の前記第１のオーディオシーンの再生のために、前記サーバーから提供され、
第２のオーディオシーンに関連付けられた第２のストリームは、前記ユーザーの位置または仮想位置が前記第２のオーディオシーンに関連付けられた第２のビデオ環境にある場合の前記第２のオーディオシーンの再生のために、前記サーバーから提供され、
前記ユーザーの位置または仮想位置が前記第１のオーディオシーンと前記第２のオーディオシーンとの間の移行位置にある場合に、前記第１のオーディオシーンに関連付けられた第１のストリームと前記第２のオーディオシーンに関連付けられた第２のストリームの両方が提供される、システム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
複数のオーディオシーン（１５０Ａ、１５０Ｂ）は、隣接および／または近接する環境である第１および第２のビデオ環境に対して定義され、
前記システムは、前記ユーザーの仮想位置が前記第１のビデオ環境にある場合の第１のオーディオシーン（１５０Ａ）の再生のために、前記第１のビデオ環境に関連付けられた前記第１のオーディオシーンに関連付けられた第１のストリームを要求および／または受信するように構成され、
前記システムは、前記ユーザーの仮想位置が前記第２のビデオ環境にある場合の前記第２のオーディオシーン（１５０Ｂ）の再生のために、前記第２のビデオ環境に関連付けられた第２のオーディオシーンに関連付けられた第２のストリームを要求および／または受信するように構成され、
前記システムは、前記ユーザーの仮想位置が前記第１のビデオ環境と前記第２のビデオ環境との間の移行位置（１５０ＡＢ）にある場合に、前記第１のオーディオシーンに関連付けられた第１のストリームと前記第２のオーディオシーンに関連付けられた第２のストリームの両方を要求および／または受信するように構成される、システム。
前記第１のオーディオシーンに関連付けられた前記第１のストリームは、前記ユーザーが前記第１のオーディオシーンに関連付けられた前記第１のビデオ環境にいるときに、より高いビットレートで取得され、
一方、前記第２のビデオ環境に関連付けられた前記第２のオーディオシーンに関連付けられた前記第２のストリームは、前記ユーザーが前記第１のオーディオシーンから前記第２のオーディオシーンへの移行位置の始まりにいるときに、より低いビットレートで取得され、
前記ユーザーが前記第１のオーディオシーンから前記第２のオーディオシーンへの移行位置の終わりにいるときに、前記第１のオーディオシーンに関連付けられた前記第１のストリームは、より低いビットレートで取得され、前記第２のオーディオシーンに関連付けられた前記第２のストリームは、より高いビットレートで取得され、
前記より低いビットレートは、前記より高いビットレートよりも低い、請求項１３に記載のシステム。
複数のオーディオシーン（１５０Ａ、１５０Ｂ）は、隣接および／または近隣環境の複数の環境に対して定義され、
前記システムは、第１の現在の環境に関連付けられた第１の現在のオーディオシーンに関連付けられた前記オーディオストリームを取得するように構成され、
オーディオシーンの境界からの前記ユーザーの位置または仮想位置の距離が所定のしきい値より小さい場合には、前記システムは、第２のオーディオシーンに関連付けられた第２の隣接および／または近接するビデオ環境に関連付けられたオーディオストリームをさらに取得する、請求項１または２に記載のシステム。
複数のビデオ環境に対して複数のオーディオシーン（１５０Ａ、１５０Ｂ）が定義され、
前記システムは、より高いビットレートで現在のオーディオシーンに関連付けられた前記オーディオストリームと、より低いビットレートで第２のオーディオシーンに関連付けられた前記オーディオストリームと、を要求および／または取得し、
前記より低いビットレートは前記より高いビットレートよりも低い、請求項１または２に記載のシステム。
複数のＮ個のオーディオ要素が定義され、これらのオーディオ要素の位置または領域までの前記ユーザーの距離が所定のしきい値よりも大きい場合に、前記Ｎ個のオーディオ要素は、前記Ｎ個のオーディオ要素の前記位置または領域に近い位置または領域に関連付けられたより小さい数Ｍ個のオーディオ要素を取得するように処理され、それによって、
前記Ｎ個のオーディオ要素の前記位置または領域までの前記ユーザーの距離が所定のしきい値よりも小さい場合に、前記Ｎ個のオーディオ要素に関連付けられた少なくとも１つのオーディオストリームを前記システムに提供する、または
前記Ｎ個のオーディオ要素の前記位置または領域までの前記ユーザーの距離が所定のしきい値よりも大きい場合に、前記Ｍ個のオーディオ要素に関連付けられた少なくとも１つのオーディオストリームを前記システムに提供する、請求項１または２に記載のシステム。
少なくとも１つのビデオ環境は、少なくとも１つの複数のＮ個のオーディオ要素に関連付けられ、各オーディオ要素は、前記ビデオ環境内の位置および／または領域に関連付けられ、
前記少なくとも１つの複数のＮ個のオーディオ要素は、高いビットレートで少なくとも１つの表現で提供され、
前記少なくとも１つの複数のＮ個のオーディオ要素は、低いビットレートで少なくとも１つの表現で提供され、前記少なくとも１つの表現は、前記Ｎ個のオーディオ要素を処理して、前記Ｎ個のオーディオ要素の前記位置または領域に近い位置または領域に関連付けられたより少ない数Ｍ個のオーディオ要素を取得することによって取得され、
前記システムは、前記オーディオ要素がオーディオシーンでの前記ユーザーの現在の仮想位置でより関連性があり、かつ／または可聴性がより高い場合に、前記オーディオ要素についてより高いビットレートで前記表現を要求するように構成され、
前記システムは、前記オーディオ要素がオーディオシーンでの前記現在のユーザーの仮想位置でより関連性が低く、かつ／または可聴性がより低い場合に、前記オーディオ要素についてより低いビットレートで前記表現を要求するように構成される、請求項１または２または１７に記載のシステム。
前記ユーザーの距離が所定の距離しきい値よりも低い場合、または前記関連性が所定の関連性しきい値よりも低い場合、または可聴性レベルが所定の距離しきい値よりも、所定のしきい値よりも低い場合に、異なるオーディオ要素に対して異なるオーディオストリームが取得される、請求項１８に記載のシステム。
オーディオシーンにおける前記ユーザーの向きおよび／または前記ユーザーの動きの方向および／またはユーザーのインタラクションに基づいて、前記オーディオストリームを要求および／または取得するように構成される、請求項１または２に記載のシステム。
前記ビューポートは、前記位置および／または仮想位置および／または動きのデータおよび／または頭の向きに関連付けられる、請求項２に記載のシステム。
異なるオーディオ要素が異なるビューポートで提供され、前記システムは、１つの第１のオーディオ要素（Ｓ１）がビューポート（１６０－１）内にある場合に、前記ビューポート内にない第２のオーディオ要素（Ｓ２）よりも高いビットレートの第１のオーディオ要素を要求および／または受信するように構成される、請求項１または２または２１に記載のシステム。
第１のオーディオストリームと第２のオーディオストリームを要求および／または受信するように構成され、前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、
前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信される、請求項２に記載のシステム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
少なくとも２つの視覚環境シーンが定義され、少なくとも１つの第１および第２のオーディオ要素（１５２Ａ、１５２Ｂ）は、第１のビデオ環境に関連付けられた第１のオーディオシーンに関連付けられ、少なくとも１つの第３のオーディオ要素（１５２Ｃ）は、第２のビデオ環境に関連付けられた第２のオーディオシーンに関連付けられ、
前記システムは、前記少なくとも１つの第２のオーディオ要素（１５２Ｂ）が前記第２のビデオ環境にさらに関連付けられていることを記述するインタラクションメタデータを取得するように構成され、
前記システムは、前記ユーザーの仮想位置が前記第１のビデオ環境にある場合に、前記少なくとも１つの第１および第２のオーディオ要素（１５２Ａ、１５２Ｂ）を要求および／または受信するように構成され、
前記システムは、前記ユーザーの仮想位置が前記第２のビデオ環境にある場合に、前記少なくとも１つの第２および第３のオーディオ要素（１５２Ｂ、１５２Ｃ）を要求および／または受信するように構成され、
前記システムは、前記ユーザーの仮想位置が前記第１のビデオ環境と第２のビデオ環境との間で移行している場合に、前記少なくとも１つの第１および第２および第３のオーディオ要素（１５２Ａ、１５２Ｂ、１５２Ｃ）を要求および／または受信するように構成される、システム。
前記少なくとも１つの第１のオーディオ要素（１５２）は、少なくとも１つのオーディオストリーム（Ａ１、１０６Ａ）および／またはアダプテーションセットで提供され、前記少なくとも１つの第２のオーディオ要素（１５２Ｂ）は、少なくとも１つの第２のオーディオストリーム（Ａ２、１０６Ｂ）および／またはアダプテーションセットで提供され、前記少なくとも１つの第３のオーディオ要素（１５２Ｃ）は、少なくとも１つの第３のオーディオストリーム（Ｂ１、１０Ｃ）および／またはアダプテーションセットで提供され、前記少なくとも１つの第１のビデオ環境は、前記少なくとも１つの第１および第２のオーディオストリーム（Ａ１、Ａ２、１０６Ａ、１０６Ｂ）および／またはアダプテーションセットを必要とするオーディオシーンとしてインタラクションメタデータによって記述され、前記第２のビデオ環境は、前記少なくとも１つの第３のオーディオストリーム（Ｂ１、１０６Ｃ）および／またはアダプテーションセット、ならびに前記少なくとも１つの第１のビデオ環境に関連付けられた前記少なくとも１つの第２のオーディオストリーム（Ａ２、１５２Ｂ）および／またはアダプテーションセットを必要とするオーディオシーンとしてインタラクションメタデータによって記述され、
前記システムは、前記ユーザーの仮想位置が前記第２のビデオ環境にある場合に、前記インタラクションメタデータを操作して、前記第１のビデオ環境に属する前記第２のオーディオストリーム（Ａ２、１５２Ｂ）と、前記第２のビデオ環境に関連付けられた前記第３のオーディオストリーム（Ｂ１、１５２Ｃ）と、を新しい単一のストリームにマージするように構成されたメタデータプロセッサ（１２３６）を含む、請求項２４に記載のシステム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
前記システムは、前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データに基づいて、前記少なくとも１つのオーディオデコーダ（１０４）の前に少なくとも１つのオーディオストリーム内のメタデータを操作するように構成されたメタデータプロセッサ（１２３６）を含む、システム。
前記メタデータプロセッサ（１２３６）は、前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データに基づいて、前記少なくとも１つのオーディオデコーダ（１０４）の前に少なくとも１つのオーディオストリーム（１０６Ａ－１０６Ｃ）内の少なくとも１つのオーディオ要素（１５２Ａ－１５２Ｃ）を有効および／または無効にするように構成され、
前記システムが、現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データの結果として、前記オーディオ要素（１５２Ａ－１５２Ｃ）がもう再生されないと決定した場合に、前記メタデータプロセッサ（１２３６）は、前記少なくとも１つのオーディオデコーダ（１０４）の前に少なくとも１つのオーディオストリーム（１０６Ａ－１０６Ｃ）内の少なくとも１つのオーディオ要素（１５２Ａ－１５２Ｃ）を無効にするように構成され、
前記システムが、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データの結果として、前記オーディオ要素（１５２Ａ－１５２Ｃ）が再生されると決定した場合に、前記メタデータプロセッサ（１２３６）は、前記少なくとも１つのオーディオデコーダの前に少なくとも１つのオーディオストリーム内の少なくとも１つのオーディオ要素（１５２Ａ－１５２Ｃ）を有効にするように構成される、請求項２６に記載のシステム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置に基づいて選択されたオーディオ要素（１５２Ａ－１５２Ｃ）のデコードを無効にするように構成される、システム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
現在のオーディオシーンに関連付けられた少なくとも１つの第１のオーディオストリーム（１０６Ａ）を、隣接し、近接する、および／または将来のオーディオシーンに関連付けられた少なくとも１つのストリーム（１０６Ｃ）にマージするように構成される、システム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データに関する統計データまたは集計データを取得および／または収集して、前記統計データまたは集計データに関連付けられた前記サーバー（１２０）に前記要求を送信するようにさらに構成される、システム。
前記少なくとも１つのオーディオストリームに関連付けられたメタデータに基づいて、かつ、前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データに基づいて、少なくとも１つのストリームのデコードおよび／または再生を非アクティブ化するように構成される、請求項２に記載のシステム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
少なくとも前記ユーザーの現在または推定のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データに基づいて、選択したオーディオストリーム（１０６Ａ－１０６Ｃ）のグループに関連付けられたメタデータを操作して、
再生されるオーディオシーンを構成するオーディオ要素（１５２Ａ－１５２Ｃ）を選択および／またはアクティブ化する、および／または
選択されたすべてのオーディオストリームを単一のオーディオストリームにマージするようにさらに構成される、システム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
各オーディオ要素（１５２Ａ－１５２Ｃ）またはオーディオオブジェクトについて、前記サーバー（１２０）から情報が提供され、前記情報は、オーディオシーンまたは前記オーディオ要素がアクティブである場所についての記述情報を含む、システム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
前記現在または将来またはビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置および／またはユーザーの選択に基づいて、１つのオーディオシーンの再生と、少なくとも２つのオーディオシーンの合成、ミキシング、多重化、重ね合わせ、または結合との間で選択するように構成され、前記２つのオーディオシーンは異なる隣接および／または近接する環境に関連付けられている、システム。
少なくともアダプテーションセットを作成または使用するように構成され、
いくつかのアダプテーションセットが１つのオーディオシーンに関連付けられ、および／または
各アダプテーションセットを１つのビューポイントまたは１つのオーディオシーンに関連付ける追加情報が提供され、および／または
１つのオーディオシーンの前記境界に関する情報、および／または
１つのアダプテーションセットと１つのオーディオシーンとの関係に関する情報
を含む追加情報が提供される、請求項２に記載のシステム。
隣接または近接する環境に関連付けられたオーディオシーンのストリームを受信し、
２つの環境間の境界の前記移行の検出時に、前記隣接または近接する環境の前記オーディオストリームのデコードおよび／または再生を開始する、
ように構成される、請求項１、１１または２４に記載のシステム。
クライアントとして動作するように構成された、請求項１から３５のいずれか一項に記載の前記システム（１０２）と、メディア消費デバイスで再生されるビデオおよび／またはオーディオストリームを配信するように構成されたサーバー（１２０）と、を含むシステム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリームと第２のオーディオストリームおよび／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
前記システムは、
少なくとも１つの第１のオーディオシーンに関連付けられた少なくとも１つのオーディオストリーム（１０６Ａ）を含む少なくとも１つの第１のアダプテーションセットを要求および／または受信し、
前記少なくとも１つの第１のオーディオシーンを含む少なくとも２つのオーディオシーンに関連付けられた少なくとも１つの第２のオーディオストリーム（１０６Ｂ）を含む少なくとも１つの第２のアダプテーションセットを要求および／または受信し、
ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データに関して利用可能なメタデータ、ならびに／あるいは前記少なくとも１つの第１のアダプテーションセットの前記少なくとも１つの第１のオーディオシーンへの関連付けおよび／または前記少なくとも１つの第２のアダプテーションセットの前記少なくとも１つの第１のオーディオシーンへの関連付けを記述する情報に基づいて、前記第１のオーディオストリーム（１０６Ａ）と前記少なくとも１つの第２のオーディオストリーム（１０６Ｂ）とを、デコードされる新しいオーディオストリームにマージする、
ようにさらに構成される、システム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データに関する情報、ならびに／あるいは前記ユーザーのアクションによってトリガーされた変化を特徴付ける情報を受信し、
アダプテーションセットの利用可能性に関する情報と、少なくとも１つのオーディオシーンおよび／またはビューポイントおよび／またはビューポートおよび／または位置および／または仮想位置および／または動きのデータおよび／または向きに対する少なくとも１つのアダプテーションセットの関連付けを記述する情報と、を受信する、
ように構成される、システム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
少なくとも１つのオーディオストリームに埋め込まれた少なくとも１つのオーディオシーンからの少なくとも１つのオーディオ要素（１５２）と、少なくとも１つの追加オーディオストリーム（１０６Ｂ）に埋め込まれた少なくとも１つの追加オーディオシーンからの少なくとも１つの追加オーディオ要素（１５２Ｂ）と、を再生するかどうかを決定し、
肯定的な決定の場合に、前記追加オーディオシーンの前記少なくとも１つの追加ストリーム（１０６Ｂ）を前記少なくとも１つのオーディオシーンの前記少なくとも１つのオーディオストリーム（１０６Ａ）にマージまたは合成または多重化または重ね合わせまたは結合する操作を行う、
ように構成される、システム。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム（１０２）であって、
前記システム（１０２）は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境をユーザーに表現するためにビデオストリーム（１８００）からビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
オーディオシーンの表現のためのオーディオストリーム（１０６）からのオーディオ信号（１０８）をデコードするように構成された少なくとも１つのオーディオデコーダ（１０４）と、を含み、
前記システム（１０２）は、少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ（１１０）に基づいて、第１のオーディオストリーム（１０６）と第２のオーディオストリーム（１０６）および／またはオーディオストリームの１つのオーディオ要素および／または１つのアダプテーションセットをサーバー（１２０）に要求する（１１２）ように構成され、
前記第１のオーディオストリームの第１のオーディオ要素は、前記第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データに基づいて、選択されたオーディオストリームに関連付けられたオーディオメタデータを操作して、
再生するように決定されたオーディオシーンを構成する前記オーディオ要素を選択および／または有効化および／またはアクティブ化し、
選択されたすべてのオーディオストリームを単一のオーディオストリームにマージすることを可能にする、
ように構成される、システム。
仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのオーディオおよびビデオストリームをクライアントに配信するためのサーバー（１２０）であって、前記ビデオおよびオーディオストリームはメディア消費デバイスで再生され、
前記サーバー（１２０）は、ビデオ環境を記述するビデオストリームを、エンコードするためのエンコーダおよび／または格納するための記憶装置を含み、前記ビデオ環境はオーディオシーンに関連付けられ、
前記サーバーは、前記クライアントに配信される複数のストリームおよび／またはオーディオ要素および／またはアダプテーションセットを、エンコードするためのエンコーダ（１５４）および／または格納するための記憶装置をさらに含み、前記オーディオストリームおよび／またはオーディオ要素および／またはアダプテーションセットは、少なくとも１つのオーディオシーンに関連付けられ、
前記サーバー（１２０）は、
前記クライアントからの要求に基づいてビデオストリーム（１０６）を選択して配信し、前記ビデオストリームは環境に関連付けられ、
前記クライアント（１０２）からの要求に基づいて、オーディオストリーム（１０６）および／またはオーディオ要素および／またはアダプテーションセットを選択し、前記要求は、少なくともユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ、ならびに環境に関連付けられたオーディオシーンに関連付けられ、
前記オーディオストリーム（１０６）を前記クライアントに配信する、
ように構成され、
前記要求は、異なるオーディオシーンに関連付けられた隣接および／または近接するビデオ環境の境界からの前記ユーザーの位置の距離に基づく、サーバー（１２０）。
仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのオーディオおよびビデオストリームをクライアントに配信するためのサーバー（１２０）であって、前記ビデオおよびオーディオストリームはメディア消費デバイスで再生され、
前記サーバー（１２０）は、ビデオ環境を記述するビデオストリームを、エンコードするためのエンコーダおよび／または格納するための記憶装置を含み、前記ビデオ環境はオーディオシーンに関連付けられ、
前記サーバーは、前記クライアントに配信される複数のオーディオストリームおよび／またはオーディオ要素および／またはアダプテーションセットを、エンコードするためのエンコーダおよび／または格納するための記憶装置をさらに含み、前記オーディオストリームおよび／またはオーディオ要素および／またはアダプテーションセットは、少なくとも１つのオーディオシーンに関連付けられ、
前記サーバーは、
前記クライアントからの要求に基づいてビデオストリームを選択して配信し、前記ビデオストリームは環境に関連付けられ、
前記クライアントからの要求に基づいて、オーディオストリームおよび／またはオーディオ要素および／またはアダプテーションセットを選択し、前記要求は、少なくともユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはインタラクションメタデータおよび／または仮想位置データ、ならびに環境に関連付けられたオーディオシーンに関連付けられ、
前記オーディオストリームを前記クライアントに配信する、
ように構成され、
第１のオーディオストリームの第１のオーディオ要素は、第２のオーディオストリームの第２のオーディオ要素よりも関連性があり、かつ／または可聴性が高く、前記第１のオーディオストリームは、前記第２のオーディオストリームのビットレートよりも高いビットレートで要求および／または受信され、
前記オーディオストリームはアダプテーションセットにカプセル化され、各アダプテーションセットは、同じオーディオコンテンツの異なるビットレートで、異なる表現に関連付けられた複数のストリームを含み、
前記選択されたアダプテーションセットは、前記クライアントからの前記要求に基づいて選択される、サーバー（１２０）。
前記オーディオストリームはアダプテーションセットにカプセル化され、各アダプテーションセットは、同じオーディオコンテンツの異なるビットレートで、異なる表現に関連付けられた複数のストリームを含み、
前記選択されたアダプテーションセットは、前記クライアントからの前記要求に基づいて選択される、請求項４２に記載のサーバー。
メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のための方法であって、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境シーンのユーザーへの表現のためにビデオストリームからビデオ信号をデコードするステップと、
オーディオシーンの前記表現のためにオーディオストリームからのオーディオ信号をデコードするステップと、
前記ユーザーの現在のビューポートおよび／または位置データおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または仮想位置データおよび／またはメタデータに基づいて、少なくとも１つのオーディオストリームを、サーバー（１２０）に要求し、および／または前記サーバーから取得するステップと、
異なるオーディオシーンに関連する隣接および／または近接するビデオ環境の境界からの前記ユーザーの位置の距離に基づいて、前記サーバー（１２０）への前記少なくとも１つのオーディオストリームの前記要求を制御するステップと、
を含む方法。
プロセッサによって実行されると、前記プロセッサに請求項４５に記載の方法を実行させる命令を含むコンピュータプログラム。