JP7421594B2

JP7421594B2 - 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置

Info

Publication number: JP7421594B2
Application number: JP2022077477A
Authority: JP
Inventors: ムルタザ・アドリアン; フックス・ハラルド; ツェルハン・ベルント; プログシュティーズ・ヤン
Original assignee: フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2017-10-12
Filing date: 2022-05-10
Publication date: 2024-01-24
Anticipated expiration: 2038-10-10
Also published as: ZA202208716B; JP7072649B2; CN117714733A; AU2023274169A1; US11617016B2; CA3227626A1; ZA202208713B; ZA202208714B; US11006181B2; CN117692673A; EP3695306B1; ES2892407T3; US20230370684A1; CA3227600A1; US11949957B2; US20210306683A1; SG11202003222QA; CA3227601A1; TWI701945B; AU2018348713B2

Description

１．導入
多くのアプリケーションでは、可聴メッセージの配信により、メディア消費中のユーザーエクスペリエンスを向上させることができる。このようなメッセージの最も関連性の高いアプリケーションの１つは、仮想現実（ＶＲ）コンテンツによって提供される。ＶＲ環境、または同様に拡張現実（ＡＲ）または複合現実（ＭＲ）または３６０度のビデオ環境では、ユーザーは通常、例えばヘッドマウントディスプレイ（ＨＭＤ）を使用して３６０度のコンテンツ全体を視覚化し、それをヘッドフォンで（または、スピーカーの位置に応じた正しいレンダリングを含むスピーカーで同様に）聞くことができる。ユーザーは通常、ＶＲ／ＡＲ空間で移動するか、少なくとも視聴方向を変更することができるが、これはビデオのいわゆる「ビューポート」である。ＨＭＤの代わりに従来の再生システム（ワイドディスプレイ画面）を使用する３６０度ビデオ環境では、リモートコントロールデバイスを使用して、シーン内のユーザーの動きをエミュレートでき、同様の原理が適用される。３６０度コンテンツとは、ユーザーが（例えば、ユーザーの頭の向きによって、またはリモートコントロールデバイスを使用して）選択することができる、同時に複数の視野角で構成される任意のタイプのコンテンツを指すことができることに留意されたい。

従来のコンテンツ消費と比較して、ＶＲの場合、コンテンツ作成者は、ユーザーが視覚化するものを様々な時点で現在のビューポートで制御することができなくなる。ユーザーは、許可されたビューポートまたは利用可能なビューポートから、時間のインスタンスごとに異なるビューポートを自由に選択することができる。

ＶＲコンテンツの消費に関する一般的な問題は、ビューポートの選択が間違っているため、ユーザーがビデオシーンの重要なイベントを見逃してしまうリスクである。この問題に対処するために、関心領域（ＲＯＩ）の概念が導入され、ＲＯＩを通知するためのいくつかの概念が検討されている。ＲＯＩは通常、推奨されたビューポートを含む領域をユーザーに示すために使用されるが、他の目的で使用することもでき、例えば、シーン内の新しいキャラクター／オブジェクトの存在を示し、シーン内のオブジェクトに関連付けられたアクセシビリティ機能、基本的に、ビデオシーンを構成する要素に関連付けることができる機能を示すことを含む。例えば、視覚的なメッセージ（例えば、「頭を左に向けてください」）を使用して、現在のビューポートにオーバーレイすることができる。あるいは、ＲＯＩの位置で再生することにより、自然音または合成音の可聴音を使用することができる。これらの音声メッセージは「イアコン」として知られている。

このアプリケーションの場面では、イアコンの概念を使用して、ＲＯＩを通知するために伝達されるオーディオメッセージを特徴付けるが、提案された通知と処理は、ＲＯＩを通知する以外の目的で一般的なオーディオメッセージにも使用することができる。そのような音声メッセージの一例は、対話型ＡＲ／ＶＲ／ＭＲ環境でユーザーが持つ様々なオプションの情報／表示を伝えるためのオーディオメッセージ（例えば、「部屋Ｘに入るには、ボックスの左側を飛び越えてください」）によって提供される。さらに、ＶＲの例を使用するが、この文書で説明するメカニズムは、あらゆるメディア消費環境に適用される。

２．用語および定義
以下の用語がこの技術分野で使用されている。

・オーディオ要素：例えば、オーディオオブジェクト、オーディオチャネル、シーンベースのオーディオ（高次アンビソニックス－ＨＯＡ）、またはすべての任意の組み合わせとして表すことができるオーディオ信号。

・関心領域（ＲＯＩ）：ある時点でユーザーが関心をもつビデオコンテンツ（または表示またはシミュレーションされた環境）の１つの領域。これは通常、例えば球上の領域、または２Ｄマップからの多角形の選択である。ＲＯＩは特定の目的のために特定の領域を識別し、考慮中のオブジェクトの境界を定義する。

・ユーザー位置情報：位置情報（例えば、ｘ、ｙ、ｚ座標）、方位情報（ヨー、ピッチ、ロール）、移動方向、移動速度など。

・ビューポート：現在表示され、ユーザーが閲覧している全天球ビデオの一部。

・ビューポイント：ビューポートの中心点。

・３６０度ビデオ（没入型ビデオまたは全天球ビデオとしても公知である）：この文書の場面では、同時に一方向に複数のビュー（ビューポート）を含むビデオコンテンツを表す。そのようなコンテンツは、例えば、全方位カメラまたはカメラの集合を使用して作成することができる。再生中に、視聴者は視聴方向を制御することができる。

・アダプテーションセットには、メディアストリームまたは一組のメディアストリームが含まれる。最も単純なケースでは、コンテンツのすべてのオーディオとビデオを含む１つのアダプテーションセットであるが、帯域幅を減らすために、各ストリームを異なるアダプテーションセットに分割することができる。一般的な事例は、１つのビデオアダプテーションセットと複数のオーディオアダプテーションセットを（サポートされる言語ごとに１つ）有することである。アダプテーションセットは、字幕または任意のメタデータを含むこともできる。

・表現により、アダプテーションセットに異なる方法でエンコードされた同じコンテンツを含めることができる。ほとんどの場合、表現は複数のビットレートで提供される。これにより、クライアントはバッファリングを待たずに再生することができる最高品質のコンテンツを要求することができる。表現は様々なコーデックでエンコードすることもできるため、サポートされている様々なコーデックを有するクライアントをサポートすることができる。

・メディアプレゼンテーション記述（ＭＰＤ）は、メディアセグメントに関する情報、それらの関係、およびそれらを選択するために必要な情報を含むＸＭＬ構文である。

このアプリケーションの場面では、アダプテーションセットの概念がより一般的に使用され、実際に表現を参照することもある。また、メディアストリーム（オーディオ／ビデオストリーム）は通常、最初にクライアント（例えば、ＤＡＳＨクライアント）によって再生される実際のメディアファイルであるメディアセグメントにカプセル化される。メディアセグメントには、ＭＰＥＧ－４コンテナフォーマットに類似したＩＳＯベースメディアファイルフォーマット（ＩＳＯＢＭＦＦ）およびＭＰＥＧ－ＴＳなどの、様々なフォーマットを使用することができる。メディアセグメントへのカプセル化および様々な表現／アダプテーションセットでのカプセル化は、ここで説明する方法とは無関係であり、本方法はすべての様々なオプションに適用される。

さらに、この文書における方法の説明は、ＤＡＳＨサーバーとクライアントの通信を中心とすることができるが、本方法はＭＭＴ、ＭＰＥＧ－２トランスポートストリーム、ＤＡＳＨ－ＲＯＵＴＥ、ファイル再生用のファイルフォーマットなどの他の配信環境で機能するのに十分に一般的である。

３．現在の解決策
現在の解決策は次の通りである。

［１］．ＩＳＯ／ＩＥＣ２３００８－３：２０１５，Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ－－Ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｃｏｄｉｎｇａｎｄｍｅｄｉａｄｅｌｉｖｅｒｙｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｅｎｖｉｒｏｎｍｅｎｔｓ－－Ｐａｒｔ３：３ＤＡｕｄｉ

［２］．Ｎ１６９５０，ＳｔｕｄｙｏｆＩＳＯ／ＩＥＣＤＩＳ２３０００－２０ＯｍｎｉｄｉｒｅｃｔｉｏｎａｌＭｅｄｉａＦｏｒｍａ

［３］．Ｍ４１１８４，ＵｓｅｏｆＥａｒｃｏｎｓｆｏｒＲＯＩＩｄｅｎｔｉｆｉｃａｔｉｏｎｉｎ３６０－ｄｅｇｒｅｅＶｉｄｅｏ。

３６０度コンテンツの配信メカニズムは、ＩＳＯ／ＩＥＣ２３０００－２０、ＯｍｎｉｄｉｒｅｃｔｉｏｎａｌＭｅｄｉａＦｏｒｍａｔ［２］によって提供される。この規格は、全方位画像、ビデオ、および関連付けられたオーディオのコーディング、ストレージ、配信、およびレンダリングのためのメディアフォーマットを指定する。それは、オーディオとビデオの圧縮に使用されるメディアコーデックに関する情報と、３６０度のＡ／Ｖコンテンツを正しく使用するための追加のメタデータ情報を提供する。それはまた、ＤＡＳＨ／ＭＭＴ経由のストリーミングやファイルベースの再生など、配信チャネルの制約と要件も指定する。

イアコンの概念は、Ｍ４１１８４で最初に導入された「ＵｓｅｏｆＥａｒｃｏｎｓｆｏｒＲＯＩＩｄｅｎｔｉｆｉｃａｔｉｏｎｉｎ３６０－ｄｅｇｒｅｅＶｉｄｅｏ」［３］であり、イアコンオーディオデータをユーザーに通知するメカニズムを提供する。

しかし、一部のユーザーは、これらのシステムの期待外れのコメントを報告している。多くの場合、大量のイアコンが煩わしくなる。設計者がイアコンの数を減らすと、一部のユーザーは重要な情報を失った。特に、各ユーザーは自分の知識と経験レベルを有しているため、自分に適したシステムを好む。例を挙げれば、各ユーザーはイアコンを（例えば、他のオーディオ信号に使用されているボリュームとは無関係に）好ましいボリュームで再生することを好む。システム設計者にとって、すべての可能なユーザーに満足のいくレベルを提供するシステムを入手することは困難であることが証明されている。したがって、ほとんどすべてのユーザーの満足度を高めることができる解決策が求められてきた。

さらに、設計者であってもシステムを再構成することは難しいことが証明されている。例えば、オーディオストリームの新しいリリースを準備したり、イアコンを更新したりするのが困難であった。

さらに、制限されたシステムでは、イアコンを１つのオーディオストリームに正確に特定することができないなど、機能に特定の制限が課される。さらに、イアコンは常にアクティブである必要があり、不要なときに再生するとユーザーに迷惑をかける可能性がある。

さらに、イアコン空間情報は、例えば、ＤＡＳＨクライアントによって信号を送ったり、変更したりすることはできない。システムレベルでこの情報に簡単にアクセスすることができるため、ユーザーエクスペリエンスを向上させる追加機能を有効にすることができる。

さらに、様々なタイプのイアコン（例えば、自然な音、合成音、ＤＡＳＨクライアントで生成される音など）に対応する柔軟性がない。

これらの問題はすべて、ユーザーのエクスペリエンス品質の低下につながる。したがって、より柔軟なアーキテクチャが望まれる。

ＩＳＯ／ＩＥＣ２３００８－３：２０１５，Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ－－Ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｃｏｄｉｎｇａｎｄｍｅｄｉａｄｅｌｉｖｅｒｙｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｅｎｖｉｒｏｎｍｅｎｔｓ－－Ｐａｒｔ３：３ＤａｕｄｉｏＮ１６９５０，ＳｔｕｄｙｏｆＩＳＯ／ＩＥＣＤＩＳ２３０００－２０ＯｍｎｉｄｉｒｅｃｔｉｏｎａｌＭｅｄｉａＦｏｒｍａｔＭ４１１８４，ＵｓｅｏｆＥａｒｃｏｎｓｆｏｒＲＯＩＩｄｅｎｔｉｆｉｃａｔｉｏｎｉｎ３６０－ｄｅｇｒｅｅＶｉｄｅｏ

４．本発明
例によれば、仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステムが提供され、システムは、
オーディオおよびビデオシーンに関連付けられた少なくとも１つのビデオストリームを受信し、
再生されるオーディオおよびビデオシーンに関連付けられた少なくとも１つの第１のオーディオストリームを受信するように構成され、
システムは、
ユーザーへのオーディオおよびビデオシーンの表現のために、少なくとも１つのビデオストリームからの少なくとも１つのビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
ユーザーへのオーディオおよびビデオシーンの表現のために、少なくとも１つの第１のオーディオストリームから少なくとも１つのオーディオ信号をデコードするように構成された少なくとも１つのメディアオーディオデコーダと、
関心領域ＲＯＩプロセッサと、を含み、関心領域ＲＯＩプロセッサは、
少なくともユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはビューポートメタデータおよび／またはオーディオ情報メッセージメタデータに基づいて、少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するかどうかを決定し、オーディオ情報メッセージは、少なくとも１つのビデオ信号および少なくとも１つのオーディオ信号から独立しており、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生する、ように構成される。

例によれば、仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステムが提供され、システムは、
少なくとも１つのビデオストリームを受信し、
少なくとも１つの第１のオーディオストリームを受信するように構成され、
システムは、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境シーンをユーザーに表現するために、少なくとも１つのビデオストリームから少なくとも１つのビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
ユーザーへのオーディオシーンの表現のために、少なくとも１つの第１のオーディオストリームから少なくとも１つのオーディオ信号をデコードするように構成された少なくとも１つのメディアオーディオデコーダと、
関心領域ＲＯＩプロセッサと、を含み、関心領域ＲＯＩプロセッサは、
ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはビューポートメタデータおよび／またはオーディオ情報メッセージメタデータに基づいて、少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するかどうかを決定し、オーディオ情報メッセージはイアコンであり、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生する、ように構成される。

システムは、
オーディオ情報メッセージメタデータを受信および／または処理および／または操作して、情報メッセージを再生することを決定したときに、オーディオ情報メッセージメタデータに従ってオーディオ情報メッセージを再生するように構成されたメタデータプロセッサをさらに含んでもよい。

ＲＯＩプロセッサは、
ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータおよび／または他のユーザー関連データを受信し、
少なくとも１つのビデオストリームから少なくとも１つのビデオ信号に関連付けられたビューポートメタデータを受信し、ビューポートメタデータは少なくとも１つのＲＯＩを定義し、
ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータおよびビューポートメタデータのうちの少なくとも１つに基づいて、少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するかどうかを決定する、ように構成されてもよい。

システムは、
オーディオ情報メッセージを記述するオーディオ情報メッセージメタデータおよび／または少なくとも１つのオーディオストリームにエンコードされた少なくとも１つのオーディオ信号を記述するオーディオメタデータおよび／またはビューポートメタデータを受信および／または処理および／または操作して、オーディオ情報メッセージメタデータおよび／または少なくとも１つのオーディオストリームにエンコードされた少なくとも１つのオーディオ信号を記述するオーディオメタデータおよび／またはビューポートメタデータに従って、オーディオ情報メッセージを再生するように構成されたメタデータプロセッサをさらに含んでもよい。

ＲＯＩプロセッサは、
少なくとも１つのＲＯＩがユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータの外側にある場合には、少なくとも１つのオーディオ信号の再生に加えて、少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生し、
少なくとも１つのＲＯＩがユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ内にある場合には、少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージの再生を不許可および／または非アクティブにする、ように構成されてもよい。

システムは、
少なくとも１つのオーディオ情報メッセージがエンコードされている少なくとも１つの追加のオーディオストリームを受信するようにさらに構成されてもよく、
システムは、
メタデータプロセッサおよび／またはＲＯＩプロセッサおよび／または別のプロセッサの制御下で、少なくとも１つの追加のオーディオストリームのパケットを、１つのストリーム内の少なくとも１つの第１のオーディオストリームのパケットとマージし、ＲＯＩプロセッサによって提供された、少なくとも１つのオーディオ情報メッセージを再生するという決定に基づいて、オーディオシーンに加えて、オーディオ情報メッセージを再生する、少なくとも１つのマクサーまたはマルチプレクサをさらに含む。

システムは、
少なくとも１つのオーディオストリームにエンコードされた少なくとも１つのオーディオ信号を記述する少なくとも１つのオーディオメタデータを受信し、
少なくとも１つのオーディオストリームから少なくとも１つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータを受信し、
情報メッセージを再生することが決定されると、少なくとも１つのオーディオ信号の再生に加えて、オーディオ情報メッセージメタデータを変更してオーディオ情報メッセージの再生を可能にする、ように構成されてもよい。

システムは、
少なくとも１つのオーディオストリームにエンコードされた少なくとも１つのオーディオ信号を記述する少なくとも１つのオーディオメタデータを受信し、
少なくとも１つのオーディオストリームから少なくとも１つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータを受信し、
オーディオ情報メッセージを再生することが決定されると、少なくとも１つのオーディオ信号の再生に加えて、オーディオ情報メッセージメタデータを変更して少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージの再生を可能にし、
少なくとも１つのオーディオ信号を記述するオーディオメタデータを変更して、少なくとも１つの第１のオーディオストリームと少なくとも１つの追加のオーディオストリームとのマージを可能にする、ように構成されてもよい。

システムは、
少なくとも１つのオーディオストリームにエンコードされた少なくとも１つのオーディオ信号を記述する少なくとも１つのオーディオメタデータを受信し、
少なくとも１つのオーディオストリームから少なくとも１つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータを受信し、
オーディオ情報メッセージを再生することが決定されると、オーディオ情報メッセージメタデータを合成オーディオジェネレータに提供して、合成オーディオストリームを作成し、オーディオ情報メッセージメタデータを合成オーディオストリームに関連付けて、合成オーディオストリームおよびオーディオ情報メッセージメタデータをマルチプレクサまたはマクサーに提供して、少なくとも１つのオーディオストリームと合成オーディオストリームとのマージを可能にする、ように構成されてもよい。

システムは、
オーディオ情報メッセージがエンコードされている少なくとも１つの追加のオーディオストリームからオーディオ情報メッセージメタデータを取得するように構成されてもよい。

システムは、
少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するという決定に基づいて、オーディオ情報メッセージメタデータを生成するように構成されたオーディオ情報メッセージメタデータジェネレータを含んでもよい。

システムは、
将来の使用のために、オーディオ情報メッセージメタデータおよび／またはオーディオ情報メッセージストリームを格納するように構成されてもよい。

システムは、
少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージメタデータに基づいて、オーディオ情報メッセージを合成するように構成された合成オーディオジェネレータを含んでもよい。

メタデータプロセッサは、オーディオメタデータおよび／またはオーディオ情報メッセージメタデータに基づいて、少なくとも１つのオーディオストリームへのオーディオ情報メッセージの追加を得るために、オーディオ情報メッセージストリームのパケットを１つのストリームにおける少なくとも１つの第１のオーディオストリームのパケットとマージするために、マクサーまたはマルチプレクサを制御するように構成されてもよい。

オーディオ情報メッセージメタデータは、構成フレームおよび／またはデータフレームにエンコードされてもよく、データフレームは、
識別タグ、
オーディオ情報メッセージメタデータの再生を一意的に識別する整数、
メッセージのタイプ、
ステータス
シーンからの依存性／非依存性の表示、
位置データ、
ゲインデータ、
関連付けられたテキストラベルの存在の表示、
利用可能な言語の数、
オーディオ情報メッセージの言語、
データテキストの長さ、
関連付けられたテキストラベルのデータテキスト、および／または
オーディオ情報メッセージの記述のうちの少なくとも１つを含む。

メタデータプロセッサおよび／またはＲＯＩプロセッサは、
ストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、オーディオ情報メッセージをアクティブ化し、および／またはその位置を設定し／変化させ、
メタデータをストリームに埋め込み、
ストリームを追加のメディアデコーダに供給し、
少なくとも１つの第１のオーディオストリームからオーディオメタデータを抽出し、
追加のストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、オーディオ情報メッセージをアクティブ化し、および／またはその位置を設定し／変化させ、
オーディオ情報メッセージの存在を考慮に入れてマージすることができるように、少なくとも１つの第１のオーディオストリームのオーディオメタデータを変更し、
ＲＯＩプロセッサから受信した情報に基づいてそれらをマルチプレクスまたは多重化するために、マルチプレクサまたはマクサーにストリームを供給する、操作のうちの少なくとも１つを実行するように構成されてもよい。

ＲＯＩプロセッサは、オーディオ情報メッセージがエンコードされている追加のオーディオストリームおよび／またはオーディオ情報メッセージメタデータのローカル検索を実行し、検索することができない場合には、追加のオーディオストリームおよび／またはオーディオ情報メッセージメタデータをリモートエンティティに対して要求するように構成されてもよい。

ＲＯＩプロセッサは、追加のオーディオストリームおよび／またはオーディオ情報メッセージメタデータのローカル検索を実行し、検索することができない場合には、合成オーディオジェネレータに対してオーディオ情報メッセージストリームおよび／またはオーディオ情報メッセージメタデータを生成させるように構成されてもよい。

システムは、
少なくとも１つのＲＯＩに関連付けられた少なくとも１つのオーディオ情報メッセージが含まれる少なくとも１つの追加のオーディオストリームを受信し、
ＲＯＩプロセッサが、少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生することを決定した場合には、少なくとも１つの追加のオーディオストリームをデコードする、ように構成されてもよい。

システムは、
少なくとも１つの第１のオーディオストリームからの少なくとも１つのオーディオ信号をデコードするための少なくとも１つの第１のオーディオデコーダと、
追加のオーディオストリームからの少なくとも１つのオーディオ情報メッセージをデコードするための少なくとも１つの追加のオーディオデコーダと、
少なくとも１つの追加のオーディオストリームからのオーディオ情報メッセージを、少なくとも１つの第１のオーディオストリームからの少なくとも１つのオーディオ信号と混合および／または重畳するための少なくとも１つのミキサーおよび／またはレンダラーと、を含んでもよい。

システムは、オーディオ情報メッセージの再生に関連付けられた履歴データおよび／または統計データに関連付けられたメトリックの追跡を保持して、メトリックが所定のしきい値を超えた場合にオーディオ情報メッセージの再生を無効にするように構成されてもよい。

ＲＯＩプロセッサの決定は、ＲＯＩの位置との関係におけるユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータの予測に基づいてもよい。

システムは、少なくとも１つの第１のオーディオストリームを受信し、情報メッセージを再生することが決定されると、リモートエンティティからのオーディオメッセージ情報ストリームを要求するように構成されてもよい。

システムは、２つのオーディオ情報メッセージを同時に再生するか、またはより優先度の低いオーディオ情報メッセージに対して優先的に再生されるより優先度の高いオーディオ情報メッセージを選択するかを確立するように構成されてもよい。

システムは、オーディオストリームのオーディオ情報メッセージのアドレスおよび／または位置に基づいて、１つの追加のオーディオストリームにエンコードされた複数のオーディオ情報メッセージの中から、オーディオ情報メッセージを識別するように構成されてもよい。

オーディオストリームは、ＭＰＥＧ－Ｈ３Ｄオーディオストリームフォーマットでフォーマットされてもよい。

システムは、
複数のアダプテーションセットの利用可能性に関するデータを受信し、利用可能なアダプテーションセットは、少なくとも１つの第１のオーディオストリームの少なくとも１つのオーディオシーンのアダプテーションセットと、少なくとも１つのオーディオ情報メッセージを含む少なくとも１つの追加のオーディオストリームの少なくとも１つのオーディオメッセージのアダプテーションセットと、を含み、システムは、
ＲＯＩプロセッサの決定に基づいて、アダプテーションセットのうちのどれを検索するかを特定する選択データを作成し、利用可能なアダプテーションセットは、少なくとも１つのオーディオシーンのアダプテーションセットおよび／または少なくとも１つのオーディオメッセージのアダプテーションセットを含み、
選択データによって特定されたアダプテーションセットのデータを要求および／または検索し、
各アダプテーションセットは、異なるビットレートの異なるエンコーディングをグループ化する、ように構成されてもよい。

システムは、その要素の少なくとも１つは、ＨＴＴＰ、ＤＡＳＨ、クライアントを介したダイナミックアダプティブストリーミングを含み、および／またはＩＳＯベースメディアファイルフォーマットＩＳＯＢＭＦＦ、またはＭＰＥＧ－２トランスポートストリームＭＰＥＧ－２ＴＳを使用して、アダプテーションセットの各々についてデータを検索するように構成されてもよい。

ＲＯＩプロセッサは、ＲＯＩが現在のビューポートに表現されているかどうかをチェックするために、ＲＯＩと現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータとの対応をチェックし、ＲＯＩが現在のビューポートおよび／または位置および／または頭の向きおよび／または移動データの外側にある場合には、ＲＯＩの存在をユーザーに音声で通知するように構成されてもよい。

ＲＯＩプロセッサは、ＲＯＩが現在のビューポートに表現されているかどうかをチェックするために、ＲＯＩと現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータとの対応をチェックし、ＲＯＩが現在のビューポートおよび／または位置および／または頭の向きおよび／または移動データ内にある場合には、ＲＯＩの存在をユーザーに音声で通知することを抑えるように構成されてもよい。

システムは、リモートエンティティから、ビデオ環境シーンに関連付けられた少なくとも１つのビデオストリームと、オーディオシーンに関連付けられた少なくとも１つのオーディオストリームと、を受信するように構成されてもよく、オーディオシーンはビデオ環境シーンに関連付けられている。

ＲＯＩプロセッサは、再生される複数のオーディオ情報メッセージの中から、第２のオーディオ情報メッセージの前の１つの第１のオーディオ情報メッセージの再生を選択するように構成されてもよい。

システムは、リモートエンティティから受信した、または合成的に生成されたオーディオ情報メッセージを格納し、異なる時間インスタンスでオーディオ情報メッセージを再利用するためのキャッシュメモリを含んでもよい。

オーディオ情報メッセージはイアコンであってもよい。

少なくとも１つのビデオストリームおよび／または少なくとも１つの第１のオーディオストリームは、それぞれ、現在のビデオ環境シーンおよび／またはビデオオーディオシーンの一部であってもよく、現在のビデオ環境シーンおよび／またはビデオオーディオシーンにおけるユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータから独立していてもよい。

システムは、少なくとも１つの第１のオーディオストリームおよび／または少なくとも１つのビデオストリームを、それぞれオーディオストリームおよび／またはビデオ環境ストリームに関連付けられたリモートエンティティに要求し、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータに基づいて、少なくとも１つのオーディオ情報メッセージを再生するように構成されてもよい。

システムは、少なくとも１つの第１のオーディオストリームおよび／または少なくとも１つのビデオストリームを、それぞれオーディオストリームおよび／またはビデオ環境ストリームに関連付けられたリモートエンティティに要求し、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータに基づいて、少なくとも１つのオーディオ情報メッセージをリモートエンティティに要求するように構成されてもよい。

システムは、少なくとも１つの第１のオーディオストリームおよび／または少なくとも１つのビデオストリームを、それぞれオーディオストリームおよび／またはビデオ環境ストリームに関連付けられたリモートエンティティに要求し、ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータに基づいて、少なくとも１つのオーディオ情報メッセージを合成するように構成されてもよい。

システムは、オーディオ情報メッセージの再生のための追加の基準のうちの少なくとも１つをチェックするように構成されてもよく、基準はユーザーの選択および／またはユーザーの設定をさらに含んでもよい。

システムは、オーディオ情報メッセージの再生のための追加の基準のうちの少なくとも１つをチェックするように構成されてもよく、基準はシステムの状態をさらに含む。

システムは、オーディオ情報メッセージの再生のための追加の基準のうちの少なくとも１つをチェックするように構成されてもよく、基準は、既に実行されたオーディオ情報メッセージの再生の数をさらに含む。

システムは、オーディオ情報メッセージの再生のための追加の基準のうちの少なくとも１つをチェックするように構成されてもよく、基準は、リモートエンティティから取得されたデータストリーム内のフラグをさらに含む。

一態様によれば、上記および／または下記の例のいずれかのシステムとして構成されたクライアントと、少なくとも１つのビデオストリームおよび少なくとも１つのオーディオストリームを配信するためのサーバーとして構成されたリモートエンティティと、を含むシステムが提供される。

リモートエンティティは、データベース、イントラネット、インターネット、および／または地理的ネットワークにおいて、少なくとも１つの追加のオーディオストリームおよび／またはオーディオ情報メッセージメタデータを検索し、検索された場合に、少なくとも１つの追加のオーディオストリームおよび／またはオーディオ情報メッセージメタデータを配信するように構成されてもよい。

リモートエンティティは、少なくとも１つの追加のオーディオストリームを合成し、および／またはオーディオ情報メッセージメタデータを生成するように構成されてもよい。

一態様によれば、仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のための方法が提供されてもよく、方法は、
ユーザーに対して再生される少なくとも１つのビデオおよびオーディオシーンからの少なくとも１つのビデオ信号をデコードするステップと、
再生されるビデオおよびオーディオシーンからの少なくとも１つのオーディオ信号をデコードするステップと、
ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータに基づいて、少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するかどうかを決定するステップであって、オーディオ情報メッセージは、少なくとも１つのビデオ信号および少なくとも１つのオーディオ信号から独立している、ステップと、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生するステップと、を含む。

一態様によれば、仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のための方法が提供されてもよく、方法は、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境シーンをユーザーに表現するために、少なくとも１つのビデオストリームからの少なくとも１つのビデオ信号をデコードするステップと、
ユーザーへのオーディオシーンの表現のために、少なくとも１つの第１のオーディオストリームからの少なくとも１つのオーディオ信号をデコードするステップと、
ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータに基づいて、少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するかどうかを決定するステップであって、オーディオ情報メッセージはイアコンである、ステップと、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生するステップと、
を含む。

上記および／または下記の方法は、
情報メッセージを再生することが決定されると、オーディオ情報メッセージがオーディオシーンの一部であるように、メタデータに従ってオーディオ情報メッセージを再生するために、メタデータを受信および／または処理および／または操作するステップを含んでもよい。

上記および／または下記の方法は、
オーディオおよびビデオシーンを再生するステップと、
ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータに基づいて、オーディオ情報メッセージをさらに再生するように決定するステップと、を含んでもよい。

上記および／または下記の方法は、
オーディオおよびビデオシーンを再生するステップと、
少なくとも１つのＲＯＩがユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータの外側にある場合には、少なくとも１つのオーディオ信号の再生に加えて、少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生し、および／または
少なくとも１つのＲＯＩがユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ内にある場合には、少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージの再生を不許可および／または非アクティブにするステップと、を含んでもよい。

例によれば、仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステムが提供され、システムは、
少なくとも１つのビデオストリームを受信し、
少なくとも１つの第１のオーディオストリームを受信するように構成され、
システムは、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境シーンをユーザーに表現するために、少なくとも１つのビデオストリームから少なくとも１つのビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
ユーザーへのオーディオシーンの表現のために、少なくとも１つの第１のオーディオストリームから少なくとも１つのオーディオ信号をデコードするように構成された少なくとも１つのメディアオーディオデコーダと、
関心領域ＲＯＩプロセッサと、を含み、関心領域ＲＯＩプロセッサは、
ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータおよび／またはメタデータに基づいて、少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するかどうかを決定し、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生する、ように構成される。

例では、仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステムが提供され、システムは、
少なくとも１つのビデオストリームを受信し、
少なくとも１つの第１のオーディオストリームを受信するように構成され、
システムは、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境シーンをユーザーに表現するために、少なくとも１つのビデオストリームから少なくとも１つのビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダと、
ユーザーへのオーディオシーンの表現のために、少なくとも１つの第１のオーディオストリームから少なくとも１つのオーディオ信号をデコードするように構成された少なくとも１つのメディアオーディオデコーダと、
ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータおよび／またはメタデータおよび／または他の基準に基づいて、少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するかどうかを決定するように構成された関心領域ＲＯＩプロセッサと、
メタデータを受信および／または処理および／または操作して、情報メッセージを再生することを決定したときに、オーディオ情報メッセージがオーディオシーンの一部であるように、メタデータに従ってオーディオ情報メッセージを再生するように構成されたメタデータプロセッサと、を含む。

一態様によれば、プロセッサによって実行されると、プロセッサに上記および／または下記の方法を実行させる命令を含む、非過渡的記憶ユニットが提供される。

５．図面の説明

実施態様の例を示す図である。実施態様の例を示す図である。実施態様の例を示す図である。実施態様の例を示す図である。実施態様の例を示す図である。実施態様の例を示す図である。実施態様の例を示す図である。一例による方法を示す図である。実施態様の一例を示す図である。

６．例
６．１一般的な例
図１は、仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステム１００の一例を示す。システム１００は、例えば、コンテンツ消費デバイス（例えば、ヘッドマウントディスプレイなど）に関連付けられてもよく、これは、ユーザーの頭に密接に関連付けられた球形または半球形ディスプレイで視覚データを再生する。

システム１００は、少なくとも１つのメディアビデオデコーダ１０２および少なくとも１つのメディアオーディオデコーダ１１２を含むことができる。システム１００は、ＶＲ、ＡＲ、ＭＲまたは３６０度ビデオ環境シーン１１８ａをユーザーに表現するためにビデオ信号がエンコードされている少なくとも１つのビデオストリーム１０６を受信することができる。システム１００は、少なくとも１つの第１のオーディオストリーム１１６を受信することができ、その中で、オーディオ信号は、ユーザーに対するオーディオシーン１１８ｂの表現のためにエンコードされている。

システム１００は、関心領域ＲＯＩプロセッサ１２０も含むことができる。ＲＯＩプロセッサ１２０は、ＲＯＩに関連付けられたデータを処理することができる。一般的に言えば、ＲＯＩの存在は、ビューポートメタデータ１３１で通知されてもよい。ビューポートメタデータ１３１は、ビデオストリーム１０６でエンコードされてもよい（他の例では、ビューポートメタデータ１３１は他のストリームでエンコードされてもよい）。ビューポートメタデータ１３１は、例えば、ＲＯＩに関連付けられた位置情報（例えば、座標情報）を含むことができる。例えば、ＲＯＩは、例では、長方形として理解することができる（球面ビデオ内の長方形の４つの頂点のうちの１つの頂点の位置および長方形の辺の長さなどの座標によって識別される）。ＲＯＩは通常、球面ビデオに投影される。ＲＯＩは通常、（特定の構成に従って）ユーザーの関心があると考えられる可視要素に関連付けられる。例えば、ＲＯＩは、コンテンツ消費デバイスによって表示される（または、何らかの形でユーザーに見える）長方形の領域に関連付けられてもよい。

ＲＯＩプロセッサ１２０は、とりわけ、メディアオーディオデコーダ１１２の動作を制御することができる。

ＲＯＩプロセッサ１２０は、ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きに関連付けられたデータ１２２を取得することができる（仮想位置に関連付けられた仮想データも、いくつかの例では、データ１２２の一部として理解することができる）。これらのデータ１２２は、例えば、コンテンツ消費デバイスによって、または位置決め／検出ユニットによって、少なくとも部分的に提供されてもよい。

ＲＯＩプロセッサ１２０は、ＲＯＩとユーザーの現在のビューポートおよび／または位置（実際または仮想）および／または頭の向きおよび／または動きのデータ１２２（例えば、他の基準が使用されてもよい）との間の対応をチェックすることができる。例えば、ＲＯＩプロセッサは、ＲＯＩが現在のビューポートに表現されているかどうかをチェックすることができる。ＲＯＩが（例えば、ユーザーの頭の動きに基づいて）ビューポートで部分的にしか表現されていない場合には、例えば、ＲＯＩの最小パーセンテージが画面に表示されているかどうかを判定することができる。いずれの場合でも、ＲＯＩプロセッサ１２０は、ＲＯＩが表現されていないか、またはユーザーに見えていないかどうかを認識することができる。

ＲＯＩがユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ１２２の外側にあると考えられる場合には、ＲＯＩプロセッサ１２０は、ＲＯＩの存在をユーザーに音声で知らせることができる。例えば、ＲＯＩプロセッサ１２０は、少なくとも１つの第１のオーディオストリーム１１６からデコードされたオーディオ信号に加えて、オーディオ情報メッセージ（イアコン）の再生を要求することができる。

ＲＯＩがユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ１２２内にあると考えられる場合、ＲＯＩプロセッサは、オーディオ情報メッセージの再生を回避することを決定することができる。

オーディオ情報メッセージは、オーディオストリーム１４０（オーディオ情報メッセージストリーム）にエンコードされてもよく、これは、オーディオストリーム１１６と同じであっても、異なるストリームであってもよい。オーディオストリーム１４０は、システム１００によって生成されてもよく、または外部エンティティ（例えば、サーバー）から取得されてもよい。オーディオ情報メッセージメタデータ１４１などのオーディオメタデータは、オーディオ情報ストリーム１４０のプロパティを記述するために定義することができる。

オーディオ情報メッセージは、オーディオストリーム１１６でエンコードされた信号に重畳される（または混合されるか、多重化されるか、マージされるか、結合されるか、構成される）か、あるいは、例えば単にＲＯＩプロセッサ１２０の決定に基づいて選択されなくてもよい。ＲＯＩプロセッサ１２０は、ビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ１２２、メタデータ（ビューポートメタデータ１３１または他のメタデータなど）および／または他の基準（例えば、選択、システムの状態、既に実行されたオーディオ情報メッセージの再生の数、特定の機能および／または操作、イアコンの使用を無効にすることができるユーザーの好みの設定など）に基づいてその決定を行うことができる。

メタデータプロセッサ１３２が実装されてもよい。メタデータプロセッサ１３２は、例えば、ＲＯＩプロセッサ１２０（これによってメタデータプロセッサ１３２が制御され得る）とメディアオーディオデコーダ１１２（メタデータプロセッサから制御され得る）との間に挿入することができる。例では、メタデータプロセッサは、ＲＯＩプロセッサ１２０の一部である。メタデータプロセッサ１３２は、オーディオ情報メッセージメタデータ１４１を受信、生成、処理、および／または操作することができる。メタデータプロセッサ１３２はまた、例えば、オーディオストリーム１１６をオーディオ情報メッセージストリーム１４０と多重化するために、オーディオストリーム１１６のメタデータを処理および／または操作することができる。さらにまたは代わりに、メタデータプロセッサ１３２は、例えば、サーバー（例えば、リモートエンティティ）から、オーディオストリーム１１６のメタデータを受信することができる。

したがって、メタデータプロセッサ１３２は、オーディオシーンの再生を変更し、オーディオ情報メッセージを特定の状況および／または選択および／または状態に適合させることができる。

ここでは、いくつかの実施態様のいくつかの利点について説明する。

オーディオ情報メッセージは、例えば、オーディオ情報メッセージメタデータ１４１を使用して正確に識別され得る。

オーディオ情報メッセージは、例えば、（例えば、メタデータプロセッサ１３２により）メタデータを変更することにより、容易にアクティブ化／非アクティブ化することができる。オーディオ情報メッセージは、例えば、現在のビューポートおよびＲＯＩ情報（および達成される特別な機能または効果）に基づいて有効／無効にすることができる。

オーディオ情報メッセージ（例えば、ステータス、タイプ、空間情報などを含む）は、例えばＨＴＴＰ（ＤＡＳＨ）クライアントを介したダイナミックアダプティブストリーミングなどの一般的な機器によって簡単に通知および変更することができる。

したがって、システムレベルでオーディオ情報メッセージ（ステータス、タイプ、空間情報などを含む）に簡単にアクセスすることができるため、ユーザーエクスペリエンスを向上させるための追加機能を有効にすることができる。したがって、システム１００は容易にカスタマイズすることができ、システム１００の設計者から独立した要員が実行できるさらなる実施態様（例えば、特定のアプリケーション）を可能にすることができる。

さらに、様々なタイプのオーディオ情報メッセージ（例えば、自然音、合成音、ＤＡＳＨクライアントで生成された音など）への対処において柔軟性が実現される。

その他の利点（以下の例でも明らかになる）：
・メタデータ内のテキストラベルの使用（何かを表示したりイアコンを生成したりするための基礎として）
・デバイスに基づくイアコンの位置の調整（ＨＭＤの場合には正確な位置が必要になる、スピーカーの場合には別の位置を使用する方が良いかもしれない－１つのスピーカーに直接）。

・異なるデバイスクラス：
・イアコンメタデータは、イアコンがアクティブであることを通知する方法で作成することができる。

・一部のデバイスは、メタデータを解析してイアコンを再生する方法のみを認識する
・より良いＲＯＩプロセッサを備えた一部の新しいデバイスは、不要な場合にそれを非アクティブにすることを決定することができる
・アダプテーションセットのさらなる情報と追加の図。

したがって、ＶＲ／ＡＲ環境では、ユーザーは通常、例えばヘッドマウントディスプレイ（ＨＭＤ）を使用して３６０度のコンテンツ全体を視覚化し、ヘッドフォンで聞くことができる。ユーザーは通常、ＶＲＪＡＲ空間で移動するか、少なくとも表示方向を変更することができ、これは、ビデオのいわゆる「ビューポート」である。従来のコンテンツ消費と比較して、ＶＲの場合、コンテンツ作成者は、ユーザーが視覚化するものを様々な時点で現在のビューポートで制御することができなくなる。ユーザーは、許可されたビューポートまたは利用可能なビューポートから、時間のインスタンスごとに異なるビューポートを自由に選択することができる。関心領域（ＲＯＩ）をユーザーに示すために、ＲＯＩの位置で再生することにより、可聴音（自然音または合成音）を使用することができる。これらのオーディオメッセージは「イアコン」として知られている。本発明は、そのようなメッセージの効率的な配信のための解決策を提案し、ユーザーエクスペリエンスおよびコンテンツ消費に影響を与えることなくイアコンを利用するための最適化された受信機動作を提案する。これにより、エクスペリエンスの品質が向上する。これは、最終的なシーンでイアコンを有効または無効にするために、システムレベルで専用のメタデータおよびメタデータ操作メカニズムを使用することで実現することができる。

メタデータプロセッサ１３２は、メタデータ１４１を受信および／または処理および／または操作して、情報メッセージを再生するという決定において、メタデータ１４１に従ってオーディオ情報メッセージを再生するように構成することができる。オーディオ信号（例えば、シーンを表現するためのもの）は、オーディオシーン（例えば、リモートサーバーからダウンロードされたオーディオシーン）の一部であると理解することができる。オーディオ信号は一般にオーディオシーンにとって意味論的に意味があり、一緒に存在するすべてのオーディオ信号はオーディオシーンを構成する。オーディオ信号は、１つのオーディオビットストリームにまとめてエンコードすることができる。オーディオ信号は、コンテンツ作成者によって作成されてもよく、および／または特定のシーンに関連付けられてもよく、および／またはＲＯＩから独立していてもよい。

オーディオ情報メッセージ（例えば、イアコン）は、オーディオシーンにとって意味論的に意味がないと理解されてもよい。録音された音や人のレコーダーの声など、人為的に生成することができる独立した音として理解することができる。それはまた、デバイスに依存する場合もある（例えば、リモコンのボタンを押すと生成されるシステムサウンド）。オーディオ情報メッセージ（例えば、イアコン）は、シーンの一部ではなく、シーン内でユーザーを案内することを意味するものとして理解されてもよい。

オーディオ情報メッセージは、上記のようにオーディオ信号から独立していてもよい。異なる例によれば、それは、同じビットストリームに含まれるか、または別個のビットストリームで送信されるか、またはシステム１００によって生成されてもよい。

複数のオーディオ信号で構成されるオーディオシーンの例は次の通りである。

－オーディオシーン５つのオーディオ信号を含むコンサートルーム：
－－－オーディオ信号１：ピアノの音
－－－オーディオ信号２：歌手の声
－－－オーディオ信号３：聴衆の一部である人１の声
－－－オーディオ信号４：聴衆の一部である人２の声
－－－オーディオ信号５：壁の時計により生成される音
オーディオ情報メッセージは、例えば、「ピアノ奏者に目を向ける」（ピアノがＲＯＩである）のような録音された音声であってもよい。ユーザーが既にピアノ奏者を見ている場合には、オーディオメッセージは再生されない。

別の例：ユーザーの背後にあるドア（例えば仮想ドア）が開き、新しい人が部屋に入ってくる。ユーザーはそこを見ていない。イアコンが、これ（仮想位置などのＶＲ環境に関する情報）に基づいてトリガーされ、ユーザーの背後で何かが発生したことをユーザーに通知することができる。

例では、ユーザーが環境を変更すると、各シーン（例えば、関連付けられたオーディオストリームとビデオストリームなど）がサーバーからクライアントに送信される。

オーディオ情報メッセージは柔軟であってもよい。特に：
－オーディオ情報メッセージは、再生されるシーンに関連付けられた同じオーディオストリームに配置することができる。

－オーディオ情報メッセージは、追加のオーディオストリームに配置することができる。

－オーディオ情報メッセージは完全に欠落している可能性があるが、イアコンを説明するメタデータのみがストリームに存在でき、オーディオ情報メッセージはシステムで生成することができる。

－オーディオ情報メッセージとオーディオ情報メッセージを説明するメタデータが完全に欠落している可能性があるが、その場合、システムはストリーム内のＲＯＩに関する他の情報に基づいて両方（イアコンとメタデータ）を生成する。

オーディオ情報メッセージは、一般に、オーディオシーンのオーディオ信号部分から独立しており、オーディオシーンの表現には使用されない。

システム１００を具現化するまたは部分を含むシステムの例を以下に提示する。

６．２図２の例
図２は、ここではサーバー側２０２、メディア配信側２０３、クライアント側２０４、および／またはメディア消費デバイス側２０６に細分されるものとして表されるシステム２００（少なくとも一部の実施システム１００を含むことができる）を示す。側２０２、２０３、２０４、および２０６の各々は、システム自体であり、他のシステムと組み合わせて別のシステムを取得することができる。ここでは、任意の種類のオーディオ情報メッセージに一般化することが可能であっても、オーディオ情報メッセージをイアコンと呼ぶ。

クライアント側２０４は、サーバー側２０２からメディア配信側２０３を介して少なくとも１つのビデオストリーム１０６および／または少なくとも１つのオーディオストリーム１１６を受信することができる。

配信側２０３は、例えば、クラウドシステム、ネットワークシステム、地理的通信ネットワークまたは周知のメディアトランスポートフォーマット（ＭＰＥＧ－２ＴＳトランスポートストリーム、ＤＡＳＨ、ＭＭＴ、ＤＡＳＨＲＯＵＴＥなど）などの通信システムあるいはファイルベースのストレージに基づくことができる。配信側２０３は、（例えば、ケーブル、無線などで）電気信号の形で、および／または（例えば、特定の通信プロトコルに従って）オーディオおよびビデオ信号がエンコードされているビットストリームでデータパケットを配信することにより、通信を実行することができる。しかしながら、配信側２０３は、ポイントツーポイントリンク、シリアルまたはパラレル接続などによって具体化されてもよい。配信側２０３は、例えば、ＷｉＦｉ、ブルートゥースなどのプロトコルに従って、無線接続を実行することができる。

クライアント側２０４は、例えばユーザーが頭を挿入することができるＨＮＤなどのメディア消費デバイスに関連付けることができる（ただし、他のデバイスを使用してもよい）。したがって、ユーザーは、サーバー側２０２によって提供されるビデオおよびオーディオデータに基づいて、クライアント側２０４によって準備されるビデオおよびオーディオシーン（例えば、ＶＲシーン）を体験することができる。ただし、他の実施態様も可能である。

サーバー側２０２は、ここでは、（ビデオエンコーダ、オーディオエンコーダ、字幕エンコーダなどをカバーすることができる）メディアエンコーダ２４０を有するものとして表されている。このエンコーダ２４０は、例えば、表現されるオーディオおよびビデオシーンに関連付けられてもよい。オーディオシーンは、例えば、環境を再生するためのものであってもよく、少なくとも１つのオーディオおよびビデオデータストリーム１０６、１１６に関連付けられ、これらは、ＶＲ、ＡＲ、ＭＲ環境においてユーザーが到達した位置（または仮想位置）に基づいてエンコードされてもよい。一般的には、ビデオストリーム１０６は球面画像をエンコードし、その一部（ビューポート）のみがその位置と動きに従ってユーザーに表示される。オーディオストリーム１１６は、オーディオシーン表現に参加し、ユーザーによって聞かれることが意図されているオーディオデータを含む。例によれば、オーディオストリーム１１６は、オーディオメタデータ２３６（これは、オーディオシーン表現に参加することを目的とする少なくとも１つのオーディオ信号を指す）および／またはイアコンメタデータ１４１（これは、場合によっては、再生されるイアコンのみを記述してもよい）を含んでもよい。

システム１００は、ここではクライアント側２０４にあるものとして表されている。簡単にするために、メディアビデオデコーダ１１２は図２には表されていない。

イアコン（または他のオーディオ情報メッセージ）の再生を準備するために、イアコンメタデータ１４１を使用することができる。イアコンメタデータ１４１は、イアコンに関連付けられた属性を記述および提供するメタデータ（オーディオストリームにエンコードされてもよい）として理解することができる。したがって、イアコン（再生される場合）は、イアコンメタデータ１４１の属性に基づくことができる。

有利には、メタデータプロセッサ１３２は、イアコンメタデータ１４１を処理するために特に実装されてもよい。例えば、メタデータプロセッサ１３２は、イアコンメタデータ１４１の受信、処理、操作、および／または生成を制御することができる。イアコンメタデータは、処理されると、変更されたイアコンメタデータ２３４として表される。例えば、イアコンメタデータを操作して、特定の効果を取得し、ならびに／あるいはマルチプレクスまたは多重化などのオーディオ処理操作を実行し、オーディオシーンで表現されるオーディオ信号にイアコンを追加することができる。

メタデータプロセッサ１３２は、少なくとも１つのストリーム１１６に関連付けられたオーディオメタデータ２３６の受信、処理、操作を制御することができる。処理されると、オーディオメタデータ２３６は、変更されたオーディオメタデータ２３８として表すことができる。

変更されたメタデータ２３４、２３８は、ユーザーへのオーディオシーン１１８ｂの再生のために、メディアオーディオデコーダ１１２（またはいくつかの例では複数のデコーダ）に提供することができる。

例では、オプションの構成要素として、合成オーディオジェネレータおよび／または記憶デバイス２４６が提供されてもよい。ジェネレータは、（例えば、ストリームにエンコードされていないイアコンを生成するために）オーディオストリームを合成することができる。記憶デバイスは、ジェネレータによって生成され、かつ／または受信されたオーディオストリームで取得されたイアコンストリームを（例えば将来の使用のために）（例えば、キャッシュメモリに）格納することを可能にする。

したがって、ＲＯＩプロセッサ１２０は、ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ１２２に基づいて、イアコンの表現を決定することができる。しかし、ＲＯＩプロセッサ１２０はまた、他の態様を含む基準に基づいてその決定を行ってもよい。

例えば、ＲＯＩプロセッサは、例えば、ユーザーの選択や上位層の選択など、他の条件に基づいて、例えば、消費されることを意図した特定のアプリケーションに基づいて、イアコンの再生を有効／無効にすることができる。例えば、ビデオゲームアプリケーションの場合、イアコンやその他のオーディオ情報メッセージは、ビデオゲームレベルが高い場合は回避することができる。これは、メタデータプロセッサによって、イアコンメタデータのイアコンを無効にすることで簡単に取得することができる。

さらに、システムの状態に基づいてイアコンを無効にすることができる。例えば、イアコンが既に再生されている場合、その繰り返しは禁止される。例えば、あまりにも速い繰り返しを避けるために、タイマーを使用してもよい。

ＲＯＩプロセッサ１２０はまた、例えば、ユーザーが見ることができる要素についてユーザーに指示するために、一連のイアコン（例えば、シーン内のすべてのＲＯＩに関連付けられたイアコン）の制御された再生を要求することができる。メタデータプロセッサ１３２は、この動作を制御することができる。

ＲＯＩプロセッサ１２０はまた、イアコン位置（すなわち、シーン内の空間的位置）またはイアコンタイプを変更することができる。例えば、イアコンとしてＲＯＩの正確な場所／位置で特定のサウンドを再生することを好むユーザーもいれば、ＲＯＩが位置する場所を音声で示すように、イアコンを常に１つの固定位置（例えば、中央または上部の「神の声」など）で再生することを好むユーザーもいる。

イアコンの再生のゲインを変更する（例えば、異なるボリュームを取得する）ことができる。この決定は、例えば、ユーザーの選択に従ってもよい。特に、ＲＯＩプロセッサの決定に基づいて、メタデータプロセッサ１３２は、イアコンに関連付けられたイアコンメタデータのうち、ゲインに関連付けられた特定の属性を変更することによって、ゲイン変更を実行する。

ＶＲ、ＡＲ、ＭＲ環境の元の設計者も、イアコンが実際にどのように再生されるかを認識していない可能性がある。例えば、ユーザーの選択により、イアコンの最終的なレンダリングが変更される場合がある。そのような動作は、例えば、ＲＯＩプロセッサの決定に基づいてイアコンメタデータ１４１を変更することができるメタデータプロセッサ１３２によって制御することができる。

したがって、イアコンに関連付けられたオーディオデータに対して実行される操作は、原則として、オーディオシーンを表現するために使用される少なくとも１つのオーディオストリーム１１６とは独立しており、異なる方法で管理することができる。イアコンは、オーディオおよびビデオシーンを構成するオーディオおよびビデオストリーム１０６、１１６とは別に生成することもでき、異なる独立した起業家グループによって生成することもできる。

したがって、この例はユーザーの満足度を高めることを可能にする。例えば、ユーザーは、例えば、オーディオ情報メッセージのボリュームを変更することにより、オーディオ情報メッセージを無効にすることなどにより、ユーザー自身の選択を行うことができる。したがって、各ユーザーは自分の好みにより適したエクスペリエンスを得ることができる。さらに、取得したアーキテクチャはより柔軟である。オーディオ情報メッセージは、例えば、オーディオストリームとは独立してメタデータを変更することによって、および／またはメタデータとメインオーディオストリームとは独立してオーディオ情報メッセージストリームを変更することによって、簡単に更新することができる。

得られたアーキテクチャは、レガシーシステムとも互換性があり、例えば、レガシーオーディオ情報メッセージストリームは、新しいオーディオ情報メッセージメタデータに関連付けることができる。適切なオーディオ情報メッセージストリームが存在しない場合には、例では、後者は容易に合成することができる（そして、例えば、その後の使用のために格納することができる）。

ＲＯＩプロセッサは、オーディオ情報メッセージの再生に関連付けられた履歴データおよび／または統計データに関連付けられたメトリックの追跡を保持して、メトリックが所定のしきい値を超えた場合にオーディオ情報メッセージの再生を無効にすることができる（これは基準として使用することができる）。

ＲＯＩプロセッサの決定は、基準として、ＲＯＩの位置との関係におけるユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ１２２の予測に基づいてもよい。

ＲＯＩプロセッサは、少なくとも１つの第１のオーディオストリーム１１６を受信し、情報メッセージを再生することが決定されると、リモートエンティティからのオーディオメッセージ情報ストリームを要求するようにさらに構成されてもよい。

ＲＯＩプロセッサおよび／またはメタデータジェネレータは、２つのオーディオ情報メッセージを同時に再生するか、またはより優先度の低いオーディオ情報メッセージに対して優先的に再生されるより優先度の高いオーディオ情報メッセージを選択するかを確立するようにさらに構成されてもよい。この決定を実行するために、オーディオ情報メタデータを使用することができる。優先度は、例えば、オーディオ情報メッセージメタデータ内の値に基づいてメタデータプロセッサ１３２によって取得することができる。

いくつかの例では、メディアエンコーダ２４０は、リモートエンティティは、データベース、イントラネット、インターネット、および／または地理的ネットワークにおいて、追加のオーディオストリームおよび／またはオーディオ情報メッセージメタデータを検索し、検索された場合に、追加のオーディオストリームおよび／またはオーディオ情報メッセージメタデータを配信するように構成されてもよい。例えば、クライアント側の要求に基づいて検索を実行してもよい。

上記で説明したように、イアコンメッセージをオーディオコンテンツと共に効率的に配信するための解決策がここで提案されている。ユーザーエクスペリエンスおよびコンテンツ消費に影響を与えずにオーディオ情報メッセージ（例えばイアコン）を利用するために、最適化された受信機動作が得られる。これにより、エクスペリエンスの品質が向上する。

これは、最終的なオーディオシーンでオーディオ情報メッセージを有効または無効にするために、システムレベルで専用のメタデータおよびメタデータ操作メカニズムを使用することで実現することができる。メタデータは、任意のオーディオコーデックと共に使用することができ、次世代オーディオコーデックメタデータ（例えばＭＰＥＧ－Ｈオーディオメタデータ）を適切に補完する。

配信メカニズムは様々であり得る（例えば、ＤＡＳＨ／ＨＬＳを介したストリーミング、ＤＡＳＨ－ＲＯＵＴＥ／ＭＭＴ／ＭＰＥＧ－２ＴＳを介したブロードキャスト、ファイル再生など）。このアプリケーションでは、ＤＡＳＨ配信が考慮されているが、他の配信オプションについてもすべての概念が有効である。

ほとんどの場合、オーディオ情報メッセージは時間領域で重複しない。つまり、特定の時点で、ＲＯＩが１つだけ定義される。しかし、例えばユーザーが選択／移動に基づいてコンテンツを変更することができるインタラクティブな環境など、より高度な使用事例を考慮すると、複数のＲＯＩを必要とする使用事例もあり得る。この目的のために、一度に複数のオーディオ情報メッセージが必要になる場合がある。したがって、すべての異なる使用事例をサポートするための一般的な解決策について説明する。

オーディオ情報メッセージの配信と処理は、次世代オーディオの既存の配信方法を補完するものでなければならない。

時間領域で独立している複数のＲＯＩの複数のオーディオ情報メッセージを伝達する１つの方法は、異なる時間インスタンスで各オーディオ情報メッセージの空間位置を記述する関連付けられたメタデータを用いて、すべてのオーディオ情報メッセージを１つのオーディオ要素（例えば、オーディオオブジェクトなど）に混合することである。オーディオ情報メッセージは時間的に重複しないため、１つの共有オーディオ要素で個別にアドレス指定することができる。このオーディオ要素は、オーディオ情報メッセージの間に、つまりオーディオ情報メッセージがない場合は常に、無音（またはオーディオデータがない）を含むことができる。この場合、次のメカニズムが適用される。

・共通のオーディオ情報メッセージであるオーディオ要素は、関連付けられたオーディオシーンと同じ基本ストリーム（ＥＳ）で配信するか、１つの補助ストリーム（メインストリームに依存または非依存）で配信することができる。

・イアコンオーディオ要素がメインストリームに依存する補助ストリームで配信される場合には、クライアントは視覚シーンに新しいＲＯＩが存在するときはいつでも追加のストリームを要求することができる。

・クライアント（例えば、システム１００）は、例えば、イアコンを必要とするシーンの前にストリームを要求することができる。

・クライアントは、例では、現在のビューポートに基づいてストリームを要求することができる。つまり、現在のビューポートがＲＯＩと一致する場合には、クライアントは追加のイアコンストリームを要求しないことを決定することができる。

・イアコンオーディオ要素がメインストリームとは独立した補助ストリームで配信される場合には、クライアントは、以前と同様に、視覚シーンに新しいＲＯＩが存在するときはいつでも追加のストリームを要求することができる。さらに、２つの（またはそれ以上の）ストリームは、２つのメディアデコーダと、デコードされたイアコンオーディオデータを最終的なオーディオシーンにミキシングするための共通のレンダリング／ミキシングステップを使用して処理することができる。あるいは、メタデータプロセッサを使用して２つのストリームのメタデータを変更し、「ストリームマージャー」を使用して２つのストリームをマージすることもできる。このようなメタデータプロセッサとストリームマージャーの可能な実施態様について、以下で説明する。

代替的な例では、別の例では、時間領域で独立している、または時間領域で重複している、いくつかのＲＯＩの複数のイアコンを複数のオーディオ要素（オーディオオブジェクトなど）で配信して、メインオーディオシーンと一緒に１つの基本ストリームに埋め込むか、複数の補助ストリーム、例えば、１つのＥＳ内の各イアコンまたは共有プロパティ（例えば、左側にあるすべてのイアコンは１つのストリームを共有する）に基づく１つのＥＳ内のイアコンのグループに埋め込むことができる。

・すべてのイアコンオーディオ要素がメインストリームに依存するいくつかの補助ストリームで配信される場合（例えば、ストリームごとに１つのイアコンまたはストリームごとのイアコンのグループ）には、クライアントは、そのイアコンに関連付けられたＲＯＩが視覚シーンに存在するときは常に、例えば、目的のイアコンを含む１つの追加ストリームを要求することができる。

・クライアントは、例えば、イアコンを必要とするシーンの前に、イアコンでストリームを要求することができる（例えば、ユーザーの動きに基づいて、ＲＯＩプロセッサ１２０は、ＲＯＩがまだシーンの一部でなくても決定を行うことができる）。

・クライアントは、例では、現在のビューポートに基づいてストリームを要求することができ、現在のビューポートがＲＯＩと一致する場合には、クライアントは追加のイアコンストリームを要求しないことを決定することができる。

・１つのイアコンオーディオ要素（またはイアコンのグループ）がメインストリームとは独立した補助ストリームで配信される場合には、クライアントは、例えば、以前と同様に、視覚シーンに新しいＲＯＩが存在するときはいつでも追加のストリームを要求することができる。さらに、２つの（またはそれ以上の）ストリームは、２つのメディアデコーダと、デコードされたイアコンオーディオデータを最終的なオーディオシーンにミキシングするための共通のレンダリング／ミキシングステップを使用して処理することができる。あるいは、メタデータプロセッサを使用して２つのストリームのメタデータを変更し、「ストリームマージャー」を使用して２つのストリームをマージすることもできる。このようなメタデータプロセッサとストリームマージャーの可能な実施態様について、以下で説明する。

あるいは、１つの共通（汎用）イアコンを使用して、１つのオーディオシーン内のすべてのＲＯＩを通知することができる。これは、異なる時間インスタンスのオーディオコンテンツに関連付けられた異なる空間情報を持つ同じオーディオコンテンツを使用することで実現することができる。この場合、ＲＯＩプロセッサ１２０は、シーン内のＲＯＩに関連するイアコンを収集し、（例えば、ユーザーの選択時または上位層のアプリケーション要求時に）イアコンの再生を順番に制御するようにメタデータプロセッサ１３２に要求することができる。

あるいは、１つのイアコンを１回だけ送信して、クライアントにキャッシュすることもできる。クライアントは、１つのオーディオシーン内のすべてのＲＯＩに再利用でき、異なる時間インスタンスのオーディオコンテンツに関連付けられた異なる空間情報を使用することができる。

あるいは、イアコンオーディオコンテンツをクライアントで合成して生成することもできる。それと併せて、メタデータジェネレータを使用して、イアコンの空間情報を通知するために必要なメタデータを作成することができる。例えば、イアコンオーディオコンテンツを圧縮して、メインオーディオコンテンツと新しいメタデータと共に１つのメディアデコーダに供給するか、メディアデコーダの後に最終的なオーディオシーンに混合するか、複数のメディアデコーダを使用することができる。

あるいは、イアコンオーディオコンテンツは、例えば、イアコンを記述するメタデータが既にストリームに埋め込まれている間に、クライアントで（例えば、メタデータプロセッサ１３２の制御下で）合成的に生成することができる。メタデータは、エンコーダでイアコンタイプの特定の通知を使用して、イアコンの空間情報、「デコーダで生成されたイアコン」の特定の単一化を含むことができるが、イアコンのオーディオデータを含むことはできない。

あるいは、イアコンオーディオコンテンツをクライアントで合成して生成し、メタデータジェネレータを使用して、イアコンの空間情報を通知するために必要なメタデータを作成することができる。例えば、イアコンオーディオコンテンツは
・メインオーディオコンテンツと新しいメタデータと共に圧縮され、１つのメディアデコーダに供給される。

・または、メディアデコーダの後に最終的なオーディオシーンに混合することができる。

・または複数のメディアデコーダを使用することができる。

６．３オーディオ情報メッセージ（例えばイアコン）のメタデータの例
上述のように、オーディオ情報メッセージ（イアコン）メタデータ１４１の例をここに提示する。

イアコンプロパティを記述するための１つの構造と、これらの値を簡単に調整する可能性を提供する。

表の各識別子は、イアコンメタデータ１３２の属性に関連付けられるように意図されている。

ここでは、意味論について説明する。

ｎｕｍＥａｒｃｏｎｓ－このフィールドは、ストリームで利用可能なイアコンオーディオ要素の数を指定する。

Ｅａｒｃｏｎ＿ｉｓＩｎｄｅｐｅｎｄｅｎｔ－このフラグは、イアコンオーディオ要素が任意のオーディオシーンから独立しているかどうかを定義する。Ｅａｒｃｏｎ＿ｉｓＩｎｄｅｐｅｎｄｅｎｔ＝＝１の場合、イアコンオーディオ要素はオーディオシーンから独立している。Ｅａｒｃｏｎ＿ｉｓＩｎｄｅｐｅｎｄｅｎｔ＝＝０の場合、イアコンオーディオ要素はオーディオシーンの一部であり、Ｅａｒｃｏｎ＿ｉｄはオーディオ要素に関連付けられたｍａｅ＿ｇｒｏｕｐＩＤと同じ値を有する必要がある。

ＥａｒｃｏｎＴｙｐｅ－このフィールドはイアコンのタイプを定義する。次の表は、許容値を示している。

ＥａｒｃｏｎＡｃｔｉｖｅこのフラグは、イアコンがアクティブかどうかを定義する。ＥａｒｃｏｎＡｃｔｉｖｅ＝＝１の場合、イアコンオーディオ要素がデコードされ、オーディオシーンにレンダリングされる。

ＥａｒｃｏｎＰｏｓｉｔｉｏｎこのフラグは、イアコンに利用可能な位置情報があるかどうかを定義する。Ｅａｒｃｏｎ＿ｉｓＩｎｄｅｐｅｎｄｅｎｔ＝＝０の場合、ｄｙｎａｍｉｃ＿ｏｂｊｅｃｔ＿ｍｅｔａｄａｔａ（）またはｉｎｔｒａｃｏｄｅｄ＿ｏｂｊｅｃｔ＿ｍｅｔａｄａｔａ＿ｅｆｆｉｃｉｅｎｔ（）構造体で指定されたオーディオオブジェクトメタデータの代わりに、この位置情報が使用される。

Ｅａｒｃｏｎ＿ａｚｉｍｕｔｈ方位角の絶対値。

Ｅａｒｃｏｎ＿ｅｌｅｖａｔｉｏｎ仰角の絶対値。

Ｅａｒｃｏｎ＿ｒａｄｉｕｓ半径の絶対値。

ＥａｒｃｏｎＨａｓＧａｉｎこのフラグは、イアコンのゲイン値が異なるかどうかを定義する。

Ｅａｒｃｏｎ＿ｇａｉｎこのフィールドは、イアコンのゲインの絶対値を定義する。

ＥａｒｃｏｎＨａｓＴｅｘｔＬａｂｅｌこのフラグは、イアコンにテキストラベルが関連付けられているかどうかを定義する。

Ｅａｒｃｏｎ＿ｎｕｍＬａｎｇｕａｇｅｓこのフィールドは、説明テキストラベルの利用可能な言語の数を指定する。

Ｅａｒｃｏｎ＿Ｌａｎｇｕａｇｅこの２４ビットのフィールドは、イアコンの説明テキストの言語を識別する。それはＩＳＯ６３９－２で指定されている３文字コードを含む。ＩＳＯ６３９－２／ＢとＩＳＯ６３９－２／Ｔの両方を使用することができる。各文字は、ＩＳＯ／ＩＥＣ８８５９－１に従って８ビットにコード化され、２４ビットフィールドに順番に挿入される。例：Ｆｒｅｎｃｈには３文字のコード「ｆｒｅ」があり、「０１１００１１００１１１００１００１１００１０１」のようにコード化される。

Ｅａｒｃｏｎ＿ＴｅｘｔＤａｔａＬｅｎｇｔｈこのフィールドは、ビットストリーム内の次のグループ記述の長さを定義する。

Ｅａｒｃｏｎ＿ＴｅｘｔＤａｔａこのフィールドには、イアコンの説明、つまり高いレベルの説明によってコンテンツを説明する文字列が含まれる。フォーマットは、ＩＳＯ／ＩＥＣ１０６４６に従ってＵＴＦ－８に従う必要がある。

システムレベルでイアコンを識別し、それらを既存のビューポートに関連付けるための１つの構造。次の２つの表は、様々な実施態様で使用することができるこのような構造を実現する２つの方法を示している。
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＥａｒｃｏｎＳａｍｐｌｅ（）ｅｘｔｅｎｄｓＳｐｈｅｒｅＲｅｇｉｏｎＳａｍｐｌｅ｛
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｒｅｇｉｏｎｓ；ｉ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（７）ｒｅｓｅｒｖｅｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｈａｓＥａｒｃｏｎ；
ｉｆ（ｈａｓＥａｒｃｏｎ＝＝１）｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｎｕｍＲｅｇｉｏｎＥａｒｃｏｎｓ；
ｆｏｒ（ｎ＝０；ｎ＜ｎｕｍＲｅｇｉｏｎＥａｒｃｏｎｓ；ｎ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）Ｅａｒｃｏｎ＿ｉｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）Ｅａｒｃｏｎ＿ｔｒａｃｋ＿ｉｄ；
｝
｝
｝
｝
または代わりに：
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＥａｒｃｏｎＳａｍｐｌｅ（）ｅｘｔｅｎｄｓＳｐｈｅｒｅＲｅｇｉｏｎＳａｍｐｌｅ｛
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｒｅｇｉｏｎｓ；ｉ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）Ｅａｒｃｏｎ＿ｔｒａｃｋ＿ｉｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）Ｅａｒｃｏｎ＿ｉｄ；
｝
｝
意味論：
ｈａｓＥａｒｃｏｎは、１つの領域でイアコンデータが利用可能かどうかを指定する。

ｎｕｍＲｅｇｉｏｎＥａｒｃｏｎｓは、１つの領域で利用可能なイアコンの数を指定する。

Ｅａｒｃｏｎ＿ｉｄは、球体領域に関連付けられた１つのイアコン要素のＩＤを一意的に定義する。イアコンがオーディオシーンの一部である場合（つまり、イアコンが１つのｍａｅ＿ｇｒｏｕｐＩＤによって識別される要素の１つのグループの一部である場合）には、Ｅａｒｃｏｎ＿ｉｄはｍａｅ＿ｇｒｏｕｐＩＤと同じ値を持つ必要がある。Ｅａｒｃｏｎ＿ｉｄは、オーディオファイル／トラックでの識別に使用することができ、例えば、ＤＡＳＨ配信の場合、ＭＰＤのＥａｒｃｏｎＣｏｍｐｏｎｅｎｔ

ｔａｇ要素が含まれるＡｄａｐｔａｔｉｏｎＳｅｔはＥａｒｃｏｎ＿ｉｄと等しい。

Ｅａｒｃｏｎ＿ｔｒａｃｋ＿ｉｄは、１つのプレゼンテーションのライフタイム全体にわたって球体領域に関連付けられた１つのイアコントラックを一意的に識別する整数である。つまり、イアコントラックが同じＩＳＯＢＭＦＦファイルで配信される場合、Ｅａｒｃｏｎ＿ｔｒａｃｋ＿ｉｄはイアコントラックの対応するｔｒａｃｋ＿ｉｄを表す。イアコンが同じＩＳＯＢＭＦＦファイル内で配信されない場合には、この値はゼロに設定する必要がある。

ＭＰＤレベルでイアコントラックを簡単に識別するために、次の属性／要素をＥａｒｃｏｎＣｏｍｐｏｎｅｎｔ

ｔａｇとして使用することができる。

ＭＰＥＧ－Ｈオーディオに関連付けられたＭＰＤ要素と属性の概

ＭＰＥＧ－Ｈオーディオの場合、これは、例では、ＭＨＡＳパケットを使用して実施することができる。

・イアコンに関する情報を運ぶための新しいＭＨＡＳパケットを定義することができる：ＥａｒｃｏｎＩｎｆｏ（）構造体を運ぶＰＡＣＴＹＰ＿ＥＡＲＣＯＮ；
・ＥａｒｃｏｎＩｎｆｏ（）構造体を運ぶための、一般的なＭＨＡＳＭＥＴＡＤＡＴＡＭＨＡＳパケットの新しい識別フィールド。

メタデータに関して、メタデータプロセッサ１３２は、以下の機能のうちの少なくともいくつかを有することができる：
ストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、オーディオ情報メッセージをアクティブ化し、および／またはその位置を設定し／変化させ、および／またはオーディオ情報メッセージのテキストラベルを書き込み／変更し、
メタデータをストリームに埋め込み、
ストリームを追加のメディアデコーダに供給し、
少なくとも１つの第１のオーディオストリーム（１１６）からオーディオメタデータを抽出し、
追加のストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、オーディオ情報メッセージをアクティブ化し、および／またはその位置を設定し／変化させ、および／またはオーディオ情報メッセージのテキストラベルを書き込み／変更し、
オーディオ情報メッセージの存在を考慮に入れてマージできるように、少なくとも１つの第１のオーディオストリーム（１１６）のオーディオメタデータを変更し、
ＲＯＩプロセッサから受信した情報に基づいてそれらをマルチプレクスまたは多重化するために、マルチプレクサまたはマクサーにストリームを供給する。

６．４図３の例
図３は、クライアント側２０４において、例えば、システム１００または２００を具現化することができるシステム３０２（クライアントシステム）を含むシステム３００を示す。

システム３０２は、ＲＯＩプロセッサ１２０、メタデータプロセッサ１３２、複数のデコーダ１１２によって形成されたデコーダグループ３１３を含むことができる。

この例では、異なるオーディオストリームがデコードされ（それぞれメディアオーディオデコーダ１１２によって）、続いて一緒に混合および／またはレンダリングされて、最終的なオーディオシーンが提供される。

ここで、少なくとも１つのオーディオストリームは、２つのストリーム１１６、３１６を含むものとして表されている（他の例は、図２のように１つの単一のストリーム、または３つ以上のストリームを提供することができる）。これらは、ユーザーが体験することが期待されているオーディオシーンを再生するためのオーディオストリームである。ここでは、イアコンを参照しているが、オーディオ情報メッセージの概念を一般化することも可能である。

さらに、イアコンストリーム１４０は、メディアエンコーダ２４０によって提供されてもよい。ユーザーの動きと、ビューポートメタデータ１３１および／またはその他の基準に示されているＲＯＩに基づいて、ＲＯＩプロセッサは、イアコンストリーム１４０からイアコンを再生する（オーディオストリーム１１６、３１６に追加されているため、追加のオーディオストリームとしても示されている）。

特に、イアコンの実際の表現は、イアコンメタデータ１４１およびメタデータプロセッサ１３２によって実行された変更に基づいている。

例では、ストリームは、必要な場合に、システム３０２（クライアント）によってメディアエンコーダ２４０（サーバー）に要求することができる。例えば、ＲＯＩプロセッサは、ユーザーの動きに基づいて、特定のイアコンがすぐに必要になると判断し、したがって、適切なイアコンストリーム１４０をメディアエンコーダ２４０に要求することができる。

この例の次の態様に留意することができる。

・使用事例：オーディオデータは１つまたは複数のオーディオストリーム１１６、３１６（例えば、１つのメインストリームと補助ストリーム）で配信されるが、イアコンは１つまたは複数の追加のストリーム１４０（メインオーディオストリームに依存またはそれから独立）で配信される。

・クライアント側２０４の１つの実施態様では、ＲＯＩプロセッサ１２０とメタデータプロセッサ１３２が、イアコン情報を効率的に処理するために使用される。

・ＲＯＩプロセッサ１２０は、（例えば、ＨＭＤに基づいて）コンテンツ消費に使用されるメディア消費デバイス側２０６から、現在のビューポートに関する情報１２２（ユーザーの向きの情報）を受信することができる。ＲＯＩプロセッサは、メタデータで通知されたＲＯＩとＲＯＩを受信することもできる（ビデオビューポートはＯＭＡＦのように通知される）。

・この情報に基づいて、ＲＯＩプロセッサ１２０は、イアコンオーディオストリーム１４０に含まれる１つ（または複数）のイアコンをアクティブ化することを決定することができる。さらに、ＲＯＩプロセッサ１２０は、（例えば、コンテンツが消費される現在の空間におけるイアコンのより正確な表現のために）イアコンの異なる場所および異なるゲイン値を決定することができる。

・ＲＯＩプロセッサ１２０は、この情報をメタデータプロセッサ１３２に提供する。

・メタデータプロセッサ１３２は、イアコンオーディオストリームに含まれるメタデータを解析し、
・イアコンを有効にし（その再生を許可するため）
・そして、ＲＯＩプロセッサ１２０によって要求された場合には、それに応じて、イアコンメタデータ１４１に含まれる空間位置およびゲイン情報を変更することができる。

・各オーディオストリーム１１６、３１６、１４０は（ユーザーの位置情報に基づいて）独立してデコードおよびレンダリングされ、すべてのメディアデコーダの出力は、ミキサーまたはレンダラー３１４によって最終ステップとして一緒に混合される。別の実施態様では、圧縮された音声のみをデコードし、デコードされたオーディオデータとメタデータをすべてのオーディオ要素（イアコンを含む）の最終レンダリング用の一般共通レンダラーに提供することができる。

・さらに、ストリーミング環境では、ＲＯＩプロセッサ１２０は同じ情報に基づいて、事前にイアコンストリーム１４０を要求することを決定することができる（例えば、ＲＯＩが有効になる数秒前にユーザーが間違った方向を覗き込んだ場合）。

６．５図４の例
図４は、クライアント側２０４において、例えば、システム１００または２００を具現化することができるシステム４０２（クライアントシステム）を含むシステム４００を示す。ここでは、イアコンを参照しているが、オーディオ情報メッセージの概念を一般化することも可能である。

システム４０２は、ＲＯＩプロセッサ１２０、メタデータプロセッサ１３２、ストリームマルチプレクサまたはマクサー４１２を含むことができる。マルチプレクサまたはマクサー４１２が存在する例では、ハードウェアによって実行される操作の数は、複数のデコーダおよび１つのミキサーまたはレンダラーが使用されるときに実行される操作の数に対して有利に低減される。

この例では、要素４１２でのメタデータと多重化またはマルチプレクスに基づいて、異なるオーディオストリームが処理される。

ここで、少なくとも１つのオーディオストリームは、２つのストリーム１１６、３１６を含むものとして表されている（他の例は、図２のように１つの単一のストリーム、または３つ以上のストリームを提供することができる）。これらは、ユーザーが体験することが期待されているオーディオシーンを再生するためのオーディオストリームである。

さらに、イアコンストリーム１４０は、メディアエンコーダ２４０によって提供されてもよい。ユーザーの動きと、ビューポートメタデータ１３１および／またはその他の基準に示されているＲＯＩに基づいて、ＲＯＩプロセッサ１２０は、イアコンストリーム１４０からイアコンを再生する（オーディオストリーム１１６、３１６に追加されているため、追加のオーディオストリームとしても示されている）。

各オーディオストリーム１１６、３１６、１４０は、それぞれメタデータ２３６、４１６、１４１を含むことができる。これらのメタデータの少なくとも一部は、オーディオストリームのパケットが一緒にマージされるストリームマクサーまたはマルチプレクサ４１２に提供されるように操作および／または処理される。したがって、イアコンはオーディオシーンの一部として表すことができる。

したがって、ストリームマクサーまたはマルチプレクサ４１２は、変更されたオーディオメタデータ２３８および変更されたイアコンメタデータ２３４を含むオーディオストリーム４１４を提供することができ、これがオーディオデコーダ１１２に提供されてデコードされ、ユーザーに対して再生することができる。

この例の次の態様に留意することができる。

・使用事例：オーディオデータは１つまたは複数のオーディオストリーム１１６、３１６で配信される（例えば、１つのメインストリーム１１６と補助ストリーム３１６が提供されるが、単一のオーディオストリームも提供され得る）が、イアコンは１つまたは複数の追加のストリーム１４０（メインオーディオストリーム１１６に依存またはそれから独立）で配信される。

・クライアント側２０４の１つの実施態様では、ＲＯＩプロセッサ１２０とメタデータプロセッサ１３２はイアコン情報を効率的に処理するために使用される。

・ＲＯＩプロセッサ１２０は、コンテンツ消費のために使用されるメディア消費デバイス（例えば、ＨＭＤ）から現在のビューポートに関する情報１２２（ユーザーの向きの情報）を受信することができる。ＲＯＩプロセッサ１２０はまた、イアコンメタデータ１４１で通知されたＲＯＩに関する情報を受信することができる（ビデオビューポートは、ＯｍｎｉｄｉｒｅｃｔｉｏｎａｌＭｅｄｉａＡｐｐｌｉｃａｔｉｏｎＦｏｒｍａｔ、ＯＭＡＦで通知することができる）。

・この情報に基づいて、ＲＯＩプロセッサ１２０は、追加のオーディオストリーム１４０に含まれる１つ（または複数）のイアコンをアクティブ化することを決定することができる。さらに、ＲＯＩプロセッサ１２０は、（例えば、コンテンツが消費される現在の空間におけるイアコンのより正確な表現のために）イアコンの異なる場所および異なるゲイン値を決定することができる。

・ＲＯＩプロセッサ１２０は、この情報をメタデータプロセッサ１３２に提供することができる。

・メタデータプロセッサ１３２は、イアコンオーディオストリームに含まれるメタデータを解析し、
・イアコンを有効にし
・また、ＲＯＩプロセッサから要求された場合は、イアコンメタデータに含まれる空間位置および／またはゲイン情報および／またはテキストラベルを適宜変更することができる。

・メタデータプロセッサ１３２は、すべてのオーディオストリーム１１６、３１６のオーディオメタデータ２３６、４１６も解析し、イアコンをオーディオシーンの一部として使用することができるようにオーディオ固有情報を操作することができる（例えば、オーディオシーン５．１チャネルベッドと４つのオブジェクトがあり、イアコンオーディオ要素が第５のオブジェクトとしてシーンに追加される。すべてのメタデータフィールドはそれに応じて更新される）。

・各ストリーム１１６、３１６のオーディオデータと変更されたオーディオメタデータとイアコンメタデータは、これに基づいて、一組のメタデータ（変更されたオーディオメタデータ２３８および変更されたイアコンメタデータ２３４）を有する１つのオーディオストリーム４１４を生成できるストリームマクサーまたはマルチプレクサに提供される。

・このストリーム４１４は、ユーザー位置情報１２２に基づいて単一のメディアオーディオデコーダ１１２によってデコードされてもよい。

６．６図５の例
図５は、クライアント側２０４において、例えば、システム１００または２００を具現化することができるシステム５０２（クライアントシステム）を含むシステム５００を示す。ここでは、イアコンを参照しているが、オーディオ情報メッセージの概念を一般化することも可能である。

システム５０２は、ＲＯＩプロセッサ１２０、メタデータプロセッサ１３２、ストリームマルチプレクサまたはマクサー４１２を含むことができる。

この例では、イアコンストリームはリモートエンティティによって（クライアント側で）提供されていないが、合成オーディオジェネレータ２３６によって生成される（これは、後で再利用するために、または保存された圧縮／非圧縮バージョンの自然音を使用する）。イアコンメタデータ１４１は、リモートエンティティによって、例えばオーディオストリーム３１６（イアコンストリームではない）で提供される。したがって、合成オーディオジェネレータ２３６は、イアコンメタデータ１４１の属性に基づいてオーディオストリーム１４０を作成するためにアクティブ化され得る。例えば、属性は合成音声のタイプ（自然音、合成音、音声テキストなど）および／またはテキストラベルを参照することができる（イアコンは、メタデータのテキストに基づいて合成音を作成することにより生成することができる）。例では、イアコンストリームが作成された後に、同じものが将来の再利用のために格納される。あるいは、合成音は、デバイスに永続的に保存された一般的な音であってもよい。

ストリームマクサーまたはマルチプレクサ４１２を使用して、オーディオストリーム１１６のパケット（および、補助オーディオストリーム３１６などの他のストリームの場合も）を、ジェネレータ２３６によって生成されたイアコンストリームのパケットとマージすることができる。その後に、変更されたオーディオメタデータ２３８および変更されたイアコンメタデータ２３４に関連付けられているオーディオストリーム４１４を取得することができる。オーディオストリーム４１４は、デコーダ１１２によってデコードされ、メディア消費デバイス側２０６でユーザーに再生されてもよい。

この例の次の態様に留意することができる。

・使用事例：
・音声データは、１つまたは複数の音声ストリームで配信される（例えば、１つのメインストリームと補助ストリーム）。

・リモートデバイスからイアコンは配信されないが、イアコンメタデータ１４１はメインオーディオストリームの一部として配信される（イアコンにオーディオデータが関連付けられていないことを示すために特定の通知が使用されてもよい）。

・クライアント側の一実施態様では、ＲＯＩプロセッサ１２０およびメタデータプロセッサ１３２は、イアコン情報を効率的に処理するために使用される。

・ＲＯＩプロセッサ１２０は、コンテンツ消費デバイス側２０６（例えば、ＨＭＤ）で使用されるデバイスから現在のビューポートに関する情報（ユーザーの向きの情報）を受信することができる。ＲＯＩプロセッサ１２０は、メタデータで通知されたＲＯＩとＲＯＩを受信することもできる（ビデオビューポートはＯＭＡＦのように通知される）。

・この情報に基づいて、ＲＯＩプロセッサ１２０は、ストリーム１１６に存在しない１つ（または複数）のイアコンをアクティブ化することを決定することができる。さらに、ＲＯＩプロセッサ１２０は、（例えば、コンテンツが消費される現在の空間におけるイアコンのより正確な表現のために）イアコンの異なる場所および異なるゲイン値を決定することができる。

・メタデータプロセッサ１２０は、オーディオストリーム１１６に含まれるメタデータを解析し、
・イアコンを有効にする
・そして、ＲＯＩプロセッサ１２０によって要求された場合には、それに応じてイアコンメタデータ１４１に含まれる空間位置をおよびゲイン情報を変更することができる。

・メタデータプロセッサ１３２は、すべてのオーディオストリーム（１１６、３１６）のオーディオメタデータ（例えば２３６、４１７）も解析し、イアコンをオーディオシーンの一部として使用することができるようにオーディオ固有情報を操作することができる（例えば、オーディオシーン５．１チャネルベッドと４つのオブジェクトがあり、イアコンオーディオ要素が第５のオブジェクトとしてシーンに追加される。すべてのメタデータフィールドはそれに応じて更新される）。

・変更されたイアコンメタデータおよびＲＯＩプロセッサ１２０からの情報は、合成オーディオジェネレータ２４６に提供される。合成オーディオジェネレータ２４６は、受信した情報に基づいて合成音を作成することができる（例えば、イアコンの空間的位置に基づいて、音声信号が生成されて位置を綴る）。また、イアコンメタデータ１４１は、生成されたオーディオデータと関連付けられて、新しいストリーム４１４になる。

・同様に、以前のように、各ストリームのオーディオデータ（１１６、３１６）および変更されたオーディオメタデータとイアコンメタデータは、ストリームマクサーに提供されて、ストリームマクサーが、一組のメタデータ（オーディオとイアコン）を有するこの１つのオーディオストリームに基づいて生成することができる。

・このストリーム４１４は、ユーザーの位置情報に基づいて単一のメディアオーディオデコーダ１１２によりデコードされる。

・代わりにまたはさらに、イアコンのオーディオデータは（例えば、以前のイアコンの使用から）クライアントで現金化することができる。

・あるいは、合成オーディオジェネレータ２４６の出力は非圧縮オーディオとすることができ、最終的なレンダリングされたシーンに混合することができる。

・さらに、ストリーミング環境では、同じ情報に基づいて、ＲＯＩプロセッサ１２０は、事前にイアコンストリームを要求することを決定することができる（例えば、ＲＯＩが有効になる数秒前にユーザーが間違った方向を覗き込んだ場合）。

６．７図６の例
図６は、クライアント側２０４において、例えば、システム１００または２００を具現化することができるシステム６０２（クライアントシステム）を含むシステム６００を示す。ここでは、イアコンを参照しているが、オーディオ情報メッセージの概念を一般化することも可能である。

システム６０２は、ＲＯＩプロセッサ１２０、メタデータプロセッサ１３２、ストリームマルチプレクサまたはマクサー４１２を含むことができる。

この例では、イアコンストリームはリモートエンティティによって（クライアント側で）提供されていないが、合成オーディオジェネレータ２３６によって生成される（これは、後で再利用するためにストリームを格納することができる）。

この例では、イアコンメタデータ１４１はリモートエンティティによって提供されない。イアコンメタデータは、メタデータプロセッサ１３２によって使用される（例えば、処理、操作、変更される）イアコンメタデータを生成することができるメタデータジェネレータ４３２によって生成される。イアコンメタデータジェネレータ４３２によって生成されたイアコンメタデータ１４１は、前の例で説明したイアコンメタデータと同じ構造および／またはフォーマットおよび／または属性を有してもよい。

メタデータプロセッサ１３２は、図５の例のように動作することができる。イアコンメタデータ１４１の属性に基づいて、オーディオストリーム１４０を作成するために、合成オーディオジェネレータ２４６をアクティブ化することができる。例えば、属性は、合成音声のタイプ（自然音、合成音、音声テキストなど）、および／またはゲイン、および／またはアクティブ化／非アクティブ化状態などを参照することができる。例では、イアコンストリーム１４０が作成された後に、同じものが将来再利用されるために格納（例えば、キャッシュ）されてもよい。イアコンメタデータジェネレータ４３２によって生成されたイアコンメタデータを格納（例えばキャッシュ）することもできる。

ストリームマクサーまたはマルチプレクサ４１２を使用して、オーディオストリーム１１６のパケット（および、補助オーディオストリーム３１６などの他のストリームの場合も）を、ジェネレータ２４６によって生成されたイアコンストリームのパケットとマージすることができる。その後に、変更されたオーディオメタデータ２３８および変更されたイアコンメタデータ２３４に関連付けられているオーディオストリーム４１４を取得することができる。オーディオストリーム４１４は、デコーダ１１２によってデコードされ、メディア消費デバイス側２０６でユーザーに再生されてもよい。

この例の次の態様に留意することができる。

・使用事例：
・オーディオデータは、１つまたは複数のオーディオストリームで配信される（例えば、１つのメインストリーム１１６と補助ストリーム３１６）。

・クライアント側２０２からイアコンは配信されない、
・クライアント側２０２からイアコンメタデータは配信されない。

・この使用事例は、イアコンなしで作成されたレガシーコンテンツに対してイアコンを有効にするための解決策を表すことができる。

・クライアント側の一実施態様では、ＲＯＩプロセッサ１２０およびメタデータプロセッサ２３２は、イアコン情報を効率的に処理するために使用される。

・ＲＯＩプロセッサ１２０は、コンテンツ消費デバイス側２０６（例えば、ＨＭＤ）で使用されるデバイスから現在のビューポートに関する情報１２２（ユーザーの向きの情報）を受信することができる。ＲＯＩプロセッサ２１０は、メタデータで通知されたＲＯＩとＲＯＩを受信することもできる（ビデオビューポートはＯＭＡＦのように通知される）。

・この情報に基づいて、ＲＯＩプロセッサ１２０は、ストリーム（１１６、３１６）に存在しない１つ（または複数）のイアコンをアクティブ化することを決定することができる。

・さらに、ＲＯＩプロセッサ１２０は、イアコンの位置およびゲイン値に関する情報をイアコンメタデータジェネレータ４３２に提供することができる。

・ＲＯＩプロセッサ１２０は、この情報をメタデータプロセッサ２３２に提供することができる。

・メタデータプロセッサ２３２は、イアコンオーディオストリーム（存在する場合）に含まれるメタデータを解析し、
・イアコンを有効にし
・ＲＯＩプロセッサ１２０により要求された場合には、それに応じてイアコンメタデータに含まれる空間位置およびゲイン情報を変更することができる。

・メタデータプロセッサはまた、すべてのオーディオストリーム１１６、３１６のオーディオメタデータ２３６、４１７も解析し、イアコンをオーディオシーンの一部として使用することができるようにオーディオ固有情報を操作することができる（例えば、オーディオシーン５．１チャネルベッドと４つのオブジェクトがあり、イアコンオーディオ要素が第５のオブジェクトとしてシーンに追加される。すべてのメタデータフィールドはそれに応じて更新される）。

・変更されたイアコンメタデータ２３４およびＲＯＩプロセッサ１２０からの情報は、合成オーディオジェネレータ２４６に提供される。合成オーディオジェネレータ２４６は、受信した情報に基づいて合成音を作成することができる（例えば、イアコンの空間的位置に基づいて、音声信号が生成されて位置を綴る）。また、イアコンメタデータは、生成されたオーディオデータと関連付けられて、新しいストリームになる。

・同様に、以前のように、各ストリームのオーディオデータおよび変更されたオーディオメタデータとイアコンメタデータは、この１つのオーディオストリーム４１４に基づいて一組のメタデータ（オーディオとイアコン）に基づいて生成することができるストリームマクサーまたはマルチプレクサ４１２に提供される。

・このストリーム４１４は、ユーザー位置情報に基づいて単一のメディアオーディオデコーダによってデコードされる。

・あるいは、イアコンのオーディオデータをクライアントで現金化することができる（例えば、以前のイアコンの使用から）。

・あるいは、合成オーディオジェネレータの出力は非圧縮オーディオで、最終的なレンダリングされたシーンに混合することができる
・さらに、ストリーミング環境では、ＲＯＩプロセッサ１２０は同じ情報に基づいて、事前にイアコンストリームを要求することを決定することができる（例えば、ＲＯＩが有効になる数秒前にユーザーが間違った方向を覗き込んだ場合）。

６．８ユーザーの位置に基づく例
ユーザーがＲＯＩを表示しない場合にのみイアコンを再生することができる機能を実施することができる。

ＲＯＩプロセッサ１２０は、例えば、ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ１２２を定期的にチェックすることができる。ＲＯＩがユーザーに表示される場合には、イアコンの再生は行われない。

ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータから、ＲＯＩがユーザーには見えないとＲＯＩプロセッサが判断した場合には、ＲＯＩプロセッサ１２０はイアコンの再生を要求することができる。この場合、ＲＯＩプロセッサ１２０は、メタデータプロセッサ１３２にイアコンの再生を準備させることができる。メタデータプロセッサ１３２は、上記の例について説明された技法のうちの１つを使用することができる。例えば、メタデータは、サーバー側２０２によって配信されるストリームで取得でき、イアコンメタデータジェネレータ４３２によって生成することができる。イアコンメタデータの属性は、ＲＯＩプロセッサの要求および／または様々な条件に基づいて容易に変更することができる。例えば、ユーザーの選択によって以前にイアコンが無効にされていた場合には、ユーザーがＲＯＩを見ていなくても、イアコンは再生されない。例えば、（以前に設定された）タイマーがまだ期限切れになっていない場合には、ユーザーがＲＯＩを見ていなくても、イアコンは再生されない。

さらに、ＲＯＩプロセッサが、ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータから、ＲＯＩがユーザーから見えると判断した場合には、ＲＯＩプロセッサ１２０は、イアコンの再生が行われないことを要求することができ、特にイアコンメタデータに既にアクティブなイアコンの通知が含まれている場合には、そのようにすることができる。

この場合、ＲＯＩプロセッサ１２０は、メタデータプロセッサ１３２にイアコンの再生を無効にさせることができる。メタデータプロセッサ１３２は、上記の例について説明された技法のうちの１つを使用することができる。例えば、メタデータは、サーバー側２０２によって配信されるストリームで取得でき、イアコンメタデータジェネレータ４３２によって生成することができる。イアコンメタデータの属性は、ＲＯＩプロセッサの要求および／または様々な条件に基づいて容易に変更することができる。メタデータにイアコンを再生する必要があるという指示が既に含まれている場合、この場合には、メタデータはイアコンが非アクティブであり、再生することができないことを示すように変更される。

この例の次の態様に留意することができる。

・使用事例：
・オーディオデータは１つまたは複数のオーディオストリーム１１６、３１６（例えば、１つのメインストリームと補助ストリーム）で配信されるが、イアコンは、同じ１つまたは複数のオーディオストリーム１１６、３１６、あるいは１つまたは複数の追加のストリーム１４０（メインオーディオストリームに依存またはそれから独立）のいずれかで配信される。

・イアコンメタデータは、イアコンが常に特定の瞬間にアクティブになることを示すように設定されている。

・ＲＯＩプロセッサを含まない第１世代のデバイスは、イアコンメタデータを読み取り、ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータは、ＲＯＩがユーザーに可視であることを示すという事実とは無関係に、イアコンを再生させる。

・いずれかのシステムで説明されているＲＯＩプロセッサを含む新世代のデバイスは、ＲＯＩプロセッサの決定を利用する。ＲＯＩプロセッサが、ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータから、ＲＯＩがユーザーから見えると判断した場合には、ＲＯＩプロセッサ１２０は、イアコンの再生が行われないことを要求することができ、特にイアコンメタデータに既にアクティブなイアコンの通知が含まれている場合には、そのようにすることができる。この場合、ＲＯＩプロセッサ１２０は、メタデータプロセッサ１３２にイアコンの再生を無効にさせることができる。メタデータプロセッサ１３２は、上記の例について説明された技法のうちの１つを使用することができる。例えば、メタデータは、サーバー側２０２によって配信されるストリームで取得でき、イアコンメタデータジェネレータ４３２によって生成することができる。イアコンメタデータの属性は、ＲＯＩプロセッサの要求および／または様々な条件に基づいて容易に変更することができる。メタデータにイアコンを再生する必要があるという指示が既に含まれている場合、この場合には、メタデータはイアコンが非アクティブであり、再生することができないことを示すように変更される。

・さらに、再生デバイスによっては、ＲＯＩプロセッサがイアコンメタデータの変更を要求する場合がある。例えば、イアコンの空間情報は、サウンドがヘッドフォンまたはスピーカーを介して再生される場合、異なる方法で変更することができる。

したがって、ユーザーが体験する最終的なオーディオシーンは、メタデータプロセッサによって実行されるメタデータの変更に基づいて取得される。

６．９サーバークライアント通信に基づく例（図５ａ）
図５ａは、クライアント側２０４において、例えば、システム１００または２００または３００または４００または５００を具現化することができるシステム５５２（クライアントシステム）を含むシステム５５０を示す。ここでは、イアコンを参照しているが、オーディオ情報メッセージの概念を一般化することも可能である。

システム５５２は、ＲＯＩプロセッサ１２０、メタデータプロセッサ１３２、ストリームマルチプレクサまたはマクサー４１２を含むことができる。（例では、異なるオーディオストリームがデコードされ（それぞれメディアオーディオデコーダ１１２によって）、続いて一緒に混合および／またはレンダリングされて、最終的なオーディオシーンが提供される）。

さらに、イアコンストリーム１４０は、メディアエンコーダ２４０によって提供されてもよい。

オーディオストリームは、ネットワーク接続に応じて効率的なビットレート適応を可能にする様々なビットレートでエンコードすることができる（つまり、高速接続を使用しているユーザーには高いビットレートコード化バージョンが配信され、低速ネットワーク接続を使用しているユーザーには低いビットレートバージョンが配信される）。

オーディオストリームは、メディアサーバー５５４に格納されてもよく、各オーディオストリームについて、異なるビットレートでの異なるエンコーディングが、作成されたすべてのアダプテーションセットの利用可能性を通知する適切なデータと共に１つのアダプテーションセット５５６にグループ化される。オーディオアダプテーションセット５５６およびビデオアダプテーションセット５５７が提供され得る。

ユーザーの動きと、ビューポートメタデータ１３１および／またはその他の基準に示されているＲＯＩに基づいて、ＲＯＩプロセッサ１２０は、イアコンストリーム１４０からイアコンを再生する（オーディオストリーム１１６、３１６に追加されているため、追加のオーディオストリームとしても示されている）。

この例では：
・クライアント５５２は、サーバーから、すべてのアダプテーションセットの利用可能性に関するデータを受信するように構成されている。

・少なくとも１つのオーディオストリーム用の少なくとも１つのオーディオシーンアダプテーションセット。そして
・少なくとも１つのオーディオ情報メッセージを含む少なくとも１つの追加のオーディオストリーム用の少なくとも１つのオーディオメッセージアダプテーションセット
・他の例示的な実施態様と同様に、ＲＯＩプロセッサ１２０は、（例えば、ＨＭＤに基づいて）コンテンツ消費に使用されるメディア消費デバイス側２０６から現在のビューポートに関する情報１２２（ユーザーの向きの情報）を受信することができる。ＲＯＩプロセッサ１２０は、メタデータで通知されたＲＯＩとＲＯＩを受信することもできる（ビデオビューポートはＯＭＡＦのように通知される）。

・この情報に基づいて、ＲＯＩプロセッサ１２０は、イアコンオーディオストリーム１４０に含まれる１つ（または複数）のイアコンをアクティブ化することを決定することができる。

・さらに、ＲＯＩプロセッサ１２０は、（例えば、コンテンツが消費される現在の空間におけるイアコンのより正確な表現のために）イアコンの異なる場所および異なるゲイン値を決定することができる。

・ＲＯＩプロセッサ１２０は、この情報を選択データジェネレータ５５８に提供することができる。

・選択データジェネレータ５５８は、ＲＯＩプロセッサの決定に基づいて、どのアダプテーションセットを受信するかを特定する選択データ５５９を作成するように構成されてもよい。アダプテーションセットは、オーディオシーンアダプテーションセットとオーディオメッセージアダプテーションセットを含む。

・メディアサーバー５５４は、クライアント５５２に命令データを提供して、ストリーミングクライアントに、どのアダプテーションセットを受信するかを特定する選択データによって識別されるアダプテーションセット５５６、５５７のデータを検索させるように構成されてもよい。アダプテーションセットは、オーディオシーンアダプテーションセットとオーディオメッセージアダプテーションセットを含む。

・ダウンロードおよびスイッチングモジュール５６０は、どのアダプテーションセットを受信するかを特定する選択データに基づいて、メディアサーバー５５４から要求されたオーディオストリームを受信するように構成される。アダプテーションセットは、オーディオシーンアダプテーションセットとオーディオメッセージアダプテーションセットを含む。ダウンロードおよびスイッチングモジュール５６０は、オーディオメタデータおよびイアコンメタデータ１４１をメタデータプロセッサ１３２に提供するようにさらに構成されてもよい。

・メタデータプロセッサ１３２は、イアコンオーディオストリーム１４０に含まれるメタデータを解析し、
・イアコンを有効にし（その再生を許可するため）
・そして、ＲＯＩプロセッサ１２０によって要求された場合には、それに応じて、イアコンメタデータ１４１に含まれる空間位置およびゲイン情報を変更することができる。

・メタデータプロセッサ１３２は、すべてのオーディオストリーム１１６、３１６のオーディオメタデータも解析し、イアコンをオーディオシーンの一部として使用することができるようにオーディオ固有情報を操作することができる（例えば、オーディオシーン５．１チャネルベッドと４つのオブジェクトがあり、イアコンオーディオ要素が第５のオブジェクトとしてシーンに追加される。すべてのメタデータフィールドはそれに応じて更新されてもよい）。

・各ストリーム１１６、３１６のオーディオデータと変更されたオーディオメタデータとイアコンメタデータは、これに基づいて、一組のメタデータ（変更されたオーディオメタデータ２３８および変更されたイアコンメタデータ２３４）を有する１つのオーディオストリーム４１４を生成できるストリームマクサーまたはマルチプレクサに提供されてもよい。

・このストリームは、ユーザー位置情報１２２に基づいて単一のメディアオーディオデコーダ１１２によってデコードされてもよい。

アダプテーションセットは、それぞれのコンテンツの交換可能なバージョン、例えば、異なるオーディオビットレート（例えば、異なるビットレートの異なるストリーム）を含む一組の表現によって形成されてもよい。理論的には１つの表現で再生可能なストリームを提供するには十分であるが、複数の表現を使用すると、クライアントがメディアストリームを現在のネットワーク条件と帯域幅の要件に適合させ、スムーズな再生を保証することができる。

６．１０方法
上記のすべての例は、方法ステップによって実施することができる。ここで、方法７００（上記の例のいずれかによって実行され得る）は、完全に説明される。本方法は以下を含む。

ステップ７０２で、少なくとも１つのビデオストリーム（１０６）および少なくとも１つの第１のオーディオストリーム（１１６、３１６）を受信する。

ステップ７０４で、ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境シーン（１１８ａ）をユーザーに表現するために、少なくとも１つのビデオストリーム（１０６）からの少なくとも１つのビデオ信号をデコードする。

ステップ７０６で、ユーザーへのオーディオシーン（１１８ｂ）の表現のために、少なくとも１つの第１のオーディオストリーム（１１６、３１６）からの少なくとも１つのオーディオ信号をデコードし、
ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ（１２２）を受信する。

ステップ７０８で、少なくとも１つのビデオストリーム（１０６）から少なくとも１つのビデオ信号に関連付けられたビューポートメタデータ（１３１）を受信し、ビューポートメタデータは少なくとも１つのＲＯＩを定義する。

ステップ７１０で、ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ（１２２）およびビューポートメタデータおよび／または他の基準に基づいて、少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するかどうかを決定する。

ステップ７１２で、オーディオ情報メッセージがオーディオシーンの一部であるような方法で、オーディオ情報メッセージ属性に従ってオーディオ情報メッセージを再生するために、オーディオ情報メッセージを記述するオーディオ情報メッセージメタデータ（１４１）を受信、処理、および／または操作する。

特に、シーケンスも異なってもよい。例えば、受信ステップ７０２、７０６、７０８は、情報が配信される実際の順序に従って、異なる順序を有してもよい。

行７１４は、方法が繰り返されてもよいという事実に言及している。オーディオ情報メッセージを再生しないというＲＯＩプロセッサの決定の場合には、ステップ７１２はスキップされる。

６．１１その他の実施態様
図８は、システム（またはその構成要素）のうちの１つを実装するか、または方法７００を実行することができるシステム８００を示す。システム８００は、プロセッサ８０２と、プロセッサ８０２によって実行されたときに、プロセッサに少なくとも上記のストリーム処理操作および／または上記のメタデータ処理操作を実行させ得る命令を格納する非一時的メモリユニット８０６と、を含むことができる。システム８００は、外部デバイスとの接続のための入力／出力ユニット８０４を含むことができる。

システム８００は、ＲＯＩプロセッサ１２０、メタデータプロセッサ２３２、ジェネレータ２４６、マクサーまたはマルチプレクサ４１２、デコーダ１１２ｍ、イアコンメタデータジェネレータ４３２などの機能の少なくとも一部（またはすべて）を実装することができる。

特定の実施態様に応じて、実施例はハードウェアで実施することができる。実施態様は、例えば、フロッピーディスク、デジタル多用途ディスク（ＤＶＤ）、ブルーレイディスク、コンパクトディスク（ＣＤ）、読み取り専用メモリ（ＲＯＭ）、プログラム可能な読み取り専用メモリ（ＰＲＯＭ）、消去およびプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）またはフラッシュメモリなど、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）電子的に読み取り可能な制御信号が格納されているデジタル記憶媒体を使用して実行することができる。したがって、デジタル記憶媒体はコンピュータで読み取り可能であってもよい。

一般に、実施例は、プログラム命令を含むコンピュータプログラム製品として実施されてもよく、プログラム命令は、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の１つを実行するように動作する。プログラム命令は、例えば、機械可読媒体に格納されてもよい。

他の実施例は、機械可読なキャリアに格納された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。言い換えれば、したがって、方法の一例は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラム命令を有するコンピュータプログラムである。

したがって、本方法のさらなる例は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含み、それが記録されたデータキャリア媒体（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア媒体、デジタルストレージ媒体、または記録された媒体は、無形で一時的な信号ではなく、有形および／または非一時的なものである。

さらなる例は、本明細書に記載されている方法の１つを実行する処理ユニット、例えばコンピュータ、またはプログラム可能な論理デバイスを含む。

さらなる例は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

さらなる例は、本明細書で説明される方法の１つを実行するためのコンピュータプログラムを受信機に（例えば、電子的または光学的に）転送する装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバーを含んでもよい。

いくつかの例では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能の一部またはすべてを実行してもよい。いくつかの例では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の１つを実行するためにマイクロプロセッサと協働してもよい。一般に、本方法は、任意の適切なハードウェア装置によって実行されてもよい。

また、さらなる例は、
〔１〕
仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステムであって、前記システムは、
再生されるオーディオおよびビデオシーンに関連付けられた少なくとも１つのビデオストリーム（１０６）を受信し、
再生される前記オーディオおよびビデオシーンに関連付けられた少なくとも１つの第１のオーディオストリーム（１１６、３１６）を受信するように構成され、
前記システムは、
ユーザーへの前記オーディオおよびビデオシーンの表現のために、前記少なくとも１つのビデオストリーム（１０６）からの少なくとも１つのビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダ（１０２）と、
前記ユーザーへの前記オーディオおよびビデオシーンの表現のために、前記少なくとも１つの第１のオーディオストリーム（１１６、３１６）から少なくとも１つのオーディオ信号をデコードするように構成された少なくとも１つのメディアオーディオデコーダ（１１２）と、
関心領域ＲＯＩプロセッサ（１２０）と、を含み、前記関心領域ＲＯＩプロセッサ（１２０）は、
少なくとも前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータ（１２２）および／またはビューポートメタデータ（１３１）および／またはオーディオ情報メッセージメタデータ（１４１）に基づいて、前記少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するかどうかを決定し、前記オーディオ情報メッセージは、前記少なくとも１つのビデオ信号および前記少なくとも１つのオーディオ信号から独立しており、
前記情報メッセージを再生することが決定されると、前記オーディオ情報メッセージを再生する、
ように構成される、システムである。
また、さらなる例は、
〔２〕
仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のためのシステムであって、前記システムは、
少なくとも１つのビデオストリーム（１０６）を受信し、
少なくとも１つの第１のオーディオストリーム（１１６、３１６）を受信するように構成され、
前記システムは、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境シーン（１１８ａ）をユーザーに表現するために、前記少なくとも１つのビデオストリーム（１０６）から少なくとも１つのビデオ信号をデコードするように構成された少なくとも１つのメディアビデオデコーダ（１０２）と、
前記ユーザーへのオーディオシーン（１１８ｂ）の表現のために、前記少なくとも１つの第１のオーディオストリーム（１１６、３１６）から少なくとも１つのオーディオ信号をデコードするように構成された少なくとも１つのメディアオーディオデコーダ（１１２）と、
関心領域ＲＯＩプロセッサ（１２０）と、を含み、前記関心領域ＲＯＩプロセッサ（１２０）は、
前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータ（１２２）および／またはビューポートメタデータ（１３１）および／またはオーディオ情報メッセージメタデータ（１４１）に基づいて、前記少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するかどうかを決定し、前記オーディオ情報メッセージはイアコンであり、
前記情報メッセージを再生することが決定されると、前記オーディオ情報メッセージを再生する、
ように構成される、システムである。
また、さらなる例は、
〔３〕
オーディオ情報メッセージメタデータ（１４１）を受信および／または処理および／または操作して、前記情報メッセージを再生することを決定したときに、前記オーディオ情報メッセージメタデータ（１４１）に従って前記オーディオ情報メッセージを再生するように構成されたメタデータプロセッサ（１３２）をさらに含む、前記〔１〕または〔２〕に記載のシステムである。
また、さらなる例は、
〔４〕
前記ＲＯＩプロセッサ（１２０）は、
ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータおよび／または他のユーザー関連データ（１２２）を受信し、
前記少なくとも１つのビデオストリーム（１０６）から少なくとも１つのビデオ信号に関連付けられたビューポートメタデータ（１３１）を受信し、前記ビューポートメタデータ（１３１）は少なくとも１つのＲＯＩを定義し、
前記ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ（１２２）およびビューポートメタデータのうちの少なくとも１つに基づいて、前記少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するかどうかを決定する、
ように構成される、前記〔１〕から〔３〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔５〕
前記オーディオ情報メッセージを記述するオーディオ情報メッセージメタデータ（１４１）および／または少なくとも１つのオーディオストリーム（１１６）にエンコードされた少なくとも１つのオーディオ信号を記述するオーディオメタデータ（２３６）および／またはビューポートメタデータ（１３１）を受信および／または処理および／または操作して、前記オーディオ情報メッセージメタデータ（１４１）および／または少なくとも１つのオーディオストリーム（１１６）にエンコードされた前記少なくとも１つのオーディオ信号を記述するオーディオメタデータ（２３６）および／または前記ビューポートメタデータ（１３１）に従って、前記オーディオ情報メッセージを再生するように構成されたメタデータプロセッサ（１３２）をさらに含む、前記〔１〕から〔４〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔６〕
前記ＲＯＩプロセッサ（１２０）は、
前記少なくとも１つのＲＯＩが前記ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ（１２２）の外側にある場合には、前記少なくとも１つのオーディオ信号の再生に加えて、前記少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生し、
前記少なくとも１つのＲＯＩが前記ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ（１２２）内にある場合には、前記少なくとも１つのＲＯＩに関連付けられた前記オーディオ情報メッセージの再生を不許可および／または非アクティブにする、
ように構成される、前記〔１〕から〔５〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔７〕
前記少なくとも１つのオーディオ情報メッセージがエンコードされている前記少なくとも１つの追加のオーディオストリーム（１４０）を受信するようにさらに構成され、
前記システムは、
前記メタデータプロセッサ（１３２）および／または前記ＲＯＩプロセッサ（１２０）および／または別のプロセッサの制御下で、前記少なくとも１つの追加のオーディオストリーム（１４０）のパケットを、１つのストリーム（４１４）内の前記少なくとも１つの第１のオーディオストリーム（１１６、３１６）のパケットとマージし、前記ＲＯＩプロセッサ（１２０）によって提供された、前記少なくとも１つのオーディオ情報メッセージを再生するという前記決定に基づいて、前記オーディオシーンに加えて、前記オーディオ情報メッセージを再生する、少なくとも１つのマクサーまたはマルチプレクサ（４１２）をさらに含む、前記〔１〕から〔６〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔８〕
前記少なくとも１つのオーディオストリーム（１１６）にエンコードされた前記少なくとも１つのオーディオ信号を記述する少なくとも１つのオーディオメタデータ（２３６）を受信し、
少なくとも１つのオーディオストリーム（１１６）から少なくとも１つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータ（１４１）を受信し、
前記情報メッセージを再生することが決定されると、前記少なくとも１つのオーディオ信号の再生に加えて、前記オーディオ情報メッセージメタデータ（１４１）を変更して前記オーディオ情報メッセージの再生を可能にする、
ようにさらに構成される、前記〔１〕から〔７〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔９〕
前記少なくとも１つのオーディオストリーム（１１６）にエンコードされた前記少なくとも１つのオーディオ信号を記述する少なくとも１つのオーディオメタデータ（１４１）を受信し、
前記少なくとも１つのオーディオストリーム（１１６）から少なくとも１つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータ（１４１）を受信し、
前記オーディオ情報メッセージを再生することが決定されると、前記少なくとも１つのオーディオ信号の再生に加えて、前記オーディオ情報メッセージメタデータ（１４１）を変更して前記少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージの再生を可能にし、
前記少なくとも１つのオーディオ信号を記述する前記オーディオメタデータ（２３６）を変更して、前記少なくとも１つの第１のオーディオストリーム（１１６）と前記少なくとも１つの追加のオーディオストリーム（１４０）とのマージを可能にする、
ようにさらに構成される、前記〔１〕から〔８〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔１０〕
前記少なくとも１つのオーディオストリーム（１１６）にエンコードされた前記少なくとも１つのオーディオ信号を記述する少なくとも１つのオーディオメタデータ（２３６）を受信し、
少なくとも１つのオーディオストリーム（１１６）から少なくとも１つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータ（１４１）を受信し、
前記オーディオ情報メッセージを再生することが決定されると、前記オーディオ情報メッセージメタデータ（１４１）を合成オーディオジェネレータ（２４６）に提供して、合成オーディオストリーム（１４０）を作成し、前記オーディオ情報メッセージメタデータ（１４１）を前記合成オーディオストリーム（１４０）に関連付けて、前記合成オーディオストリーム（１４０）および前記オーディオ情報メッセージメタデータ（１４１）をマルチプレクサまたはマクサー（４１２）に提供して、前記少なくとも１つのオーディオストリーム（１１６）と前記合成オーディオストリーム（１４０）とのマージを可能にする、
ようにさらに構成される、前記〔１〕から〔９〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔１１〕
前記オーディオ情報メッセージがエンコードされている前記少なくとも１つの追加のオーディオストリーム（１４０）から前記オーディオ情報メッセージメタデータ（１４１）を取得するようにさらに構成される、前記〔１〕から〔１０〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔１２〕
前記少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するという前記決定に基づいて、オーディオ情報メッセージメタデータ（１４１）を生成するように構成されたオーディオ情報メッセージメタデータジェネレータ（４３２）をさらに含む、前記〔１〕から〔１１〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔１３〕
将来の使用のために、前記オーディオ情報メッセージメタデータ（１４１）および／または前記オーディオ情報メッセージストリーム（１４０）を格納するようにさらに構成される、前記〔１〕から〔１２〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔１４〕
前記少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージメタデータ（１４１）に基づいて、オーディオ情報メッセージを合成するように構成された合成オーディオジェネレータ（４３２）をさらに含む、
前記〔１〕から〔１３〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔１５〕
前記メタデータプロセッサ（１３２）は、前記オーディオメタデータおよび／またはオーディオ情報メッセージメタデータに基づいて、前記少なくとも１つのオーディオストリーム（１１６）への前記オーディオ情報メッセージの追加を得るために、前記オーディオ情報メッセージストリーム（１４０）のパケットを１つのストリーム（４１４）における前記少なくとも１つの第１のオーディオストリーム（１１６）のパケットとマージするために、マクサーまたはマルチプレクサ（４１２）を制御するように構成される、前記〔１〕から〔１４〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔１６〕
前記オーディオ情報メッセージメタデータ（１４１）は、構成フレームおよび／またはデータフレームにエンコードされ、前記データフレームは、
識別タグ、
前記オーディオ情報メッセージメタデータの再生を一意的に識別する整数、
前記メッセージのタイプ、
ステータス
前記シーンからの依存性／非依存性の表示、
位置データ、
ゲインデータ、
関連付けられたテキストラベルの存在の表示、
利用可能な言語の数、
前記オーディオ情報メッセージの言語、
データテキストの長さ、
前記関連付けられたテキストラベルのデータテキスト、および／または
前記オーディオ情報メッセージの記述のうちの少なくとも１つを含む、前記〔１〕から〔１５〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔１７〕
前記メタデータプロセッサ（１３２）および／または前記ＲＯＩプロセッサ（１２０）は、
ストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、前記オーディオ情報メッセージをアクティブ化し、および／またはその位置を設定し／変化させ、
メタデータをストリームに埋め込み、
前記ストリームを追加のメディアデコーダに供給し、
前記少なくとも１つの第１のオーディオストリーム（１１６）からオーディオメタデータを抽出し、
追加のストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、前記オーディオ情報メッセージをアクティブ化し、および／またはその位置を設定し／変化させ、
前記オーディオ情報メッセージの存在を考慮に入れてマージすることができるように、前記少なくとも１つの第１のオーディオストリーム（１１６）のオーディオメタデータを変更し、
前記ＲＯＩプロセッサから受信した前記情報に基づいてそれらをマルチプレクスまたは多重化するために、前記マルチプレクサまたはマクサーにストリームを供給する、操作のうちの少なくとも１つを実行するように構成される、前記〔１〕から〔１６〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔１８〕
前記ＲＯＩプロセッサ（１２０）は、前記オーディオ情報メッセージがエンコードされている追加のオーディオストリーム（１４０）および／またはオーディオ情報メッセージメタデータのローカル検索を実行し、検索することができない場合には、前記追加のオーディオストリーム（１４０）および／またはオーディオ情報メッセージメタデータをリモートエンティティに対して要求するように構成される、前記〔１〕から〔１７〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔１９〕
前記ＲＯＩプロセッサ（１２０）は、追加のオーディオストリーム（１４０）および／またはオーディオ情報メッセージメタデータのローカル検索を実行し、検索することができない場合には、合成オーディオジェネレータ（４３２）に対して前記オーディオ情報メッセージストリームおよび／またはオーディオ情報メッセージメタデータを生成させるように構成される、前記〔１〕から〔１８〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔２０〕
前記少なくとも１つのＲＯＩに関連付けられた少なくとも１つのオーディオ情報メッセージが含まれる前記少なくとも１つの追加のオーディオストリーム（１４０）を受信し、
前記ＲＯＩプロセッサが、前記少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生することを決定した場合には、前記少なくとも１つの追加のオーディオストリーム（１４０）をデコードする、
ようにさらに構成される、前記〔１〕から〔１９〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔２１〕
少なくとも１つの第１のオーディオストリーム（１１６）からの前記少なくとも１つのオーディオ信号をデコードするための少なくとも１つの第１のオーディオデコーダ（１１２）と、
追加のオーディオストリーム（１４０）からの前記少なくとも１つのオーディオ情報メッセージをデコードするための少なくとも１つの追加のオーディオデコーダ（１１２）と、
前記少なくとも１つの追加のオーディオストリーム（１４０）からの前記オーディオ情報メッセージを、前記少なくとも１つの第１のオーディオストリーム（１１６）からの前記少なくとも１つのオーディオ信号と混合および／または重畳するための少なくとも１つのミキサーおよび／またはレンダラー（３１４）と、
をさらに含む、前記〔２０〕に記載のシステムである。
また、さらなる例は、
〔２２〕
前記オーディオ情報メッセージの前記再生に関連付けられた履歴データおよび／または統計データに関連付けられたメトリックの追跡を保持して、前記メトリックが所定のしきい値を超えた場合に前記オーディオ情報メッセージの再生を無効にするようにさらに構成される、前記〔１〕から〔２１〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔２３〕
前記ＲＯＩプロセッサの決定は、前記ＲＯＩの位置との関係におけるユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ（１２２）の予測に基づく、前記〔１〕から〔２２〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔２４〕
前記少なくとも１つの第１のオーディオストリーム（１１６）を受信し、前記情報メッセージを再生することが決定されると、リモートエンティティからのオーディオメッセージ情報ストリームを要求するようにさらに構成される、前記〔１〕から〔２３〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔２５〕
２つのオーディオ情報メッセージを同時に再生するか、またはより優先度の低いオーディオ情報メッセージに対して優先的に再生されるより優先度の高いオーディオ情報メッセージを選択するかを確立するようにさらに構成される、前記〔１〕から〔２４〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔２６〕
オーディオストリームの前記オーディオ情報メッセージのアドレスおよび／または位置に基づいて、１つの追加のオーディオストリーム（１４０）にエンコードされた複数のオーディオ情報メッセージの中から、オーディオ情報メッセージを識別するようにさらに構成される、前記〔１〕から〔２５〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔２７〕
前記オーディオストリームは、ＭＰＥＧ－Ｈ３Ｄオーディオストリームフォーマットでフォーマットされる、前記〔１〕から〔２６〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔２８〕
複数のアダプテーションセット（５５６、５５７）の利用可能性に関するデータを受信し、前記利用可能なアダプテーションセットは、前記少なくとも１つの第１のオーディオストリーム（１１６、３１６）の少なくとも１つのオーディオシーンのアダプテーションセットと、少なくとも１つのオーディオ情報メッセージを含む前記少なくとも１つの追加のオーディオストリーム（１４０）の少なくとも１つのオーディオメッセージのアダプテーションセットと、を含み、
前記ＲＯＩプロセッサの決定に基づいて、前記アダプテーションセットのうちのどれを検索するかを特定する選択データ（５５９）を作成し、前記利用可能なアダプテーションセットは、少なくとも１つのオーディオシーンのアダプテーションセットおよび／または少なくとも１つのオーディオメッセージのアダプテーションセットを含み、
前記選択データによって特定された前記アダプテーションセットの前記データを要求および／または検索し、
各アダプテーションセットは、異なるビットレートの異なるエンコーディングをグループ化する、
ようにさらに構成される、前記〔１〕から〔２７〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔２９〕
その要素の少なくとも１つは、ＨＴＴＰ、ＤＡＳＨ、クライアントを介したダイナミックアダプティブストリーミングを含み、および／またはＩＳＯベースメディアファイルフォーマットＩＳＯＢＭＦＦ、またはＭＰＥＧ－２トランスポートストリームＭＰＥＧ－２ＴＳを使用して、前記アダプテーションセットの各々について前記データを検索するように構成される、前記〔２８〕に記載のシステムである。
また、さらなる例は、
〔３０〕
前記ＲＯＩプロセッサ（１２０）は、前記ＲＯＩが前記現在のビューポートに表現されているかどうかをチェックするために、前記ＲＯＩと前記現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ（１２２）との対応をチェックし、前記ＲＯＩが前記現在のビューポートおよび／または位置および／または頭の向きおよび／または移動データ（１２２）の外側にある場合には、前記ＲＯＩの存在を前記ユーザーに音声で通知するように構成される、前記〔１〕から〔２９〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔３１〕
前記ＲＯＩプロセッサ（１２０）は、前記ＲＯＩが前記現在のビューポートに表現されているかどうかをチェックするために、前記ＲＯＩと前記現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ（１２２）との対応をチェックし、前記ＲＯＩが前記現在のビューポートおよび／または位置および／または頭の向きおよび／または移動データ（１２２）内にある場合には、前記ＲＯＩの存在を前記ユーザーに音声で通知することを抑えるように構成される、前記〔１〕から〔３０〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔３２〕
リモートエンティティ（２０２）から、前記ビデオ環境シーンに関連付けられた前記少なくとも１つのビデオストリーム（１１６）と、前記オーディオシーンに関連付けられた前記少なくとも１つのオーディオストリーム（１０６）と、を受信するように構成され、前記オーディオシーンは前記ビデオ環境シーンに関連付けられている、前記〔１〕から〔３１〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔３３〕
前記ＲＯＩプロセッサ（１２０）は、再生される複数のオーディオ情報メッセージの中から、第２のオーディオ情報メッセージの前の１つの第１のオーディオ情報メッセージの再生を選択するように構成される、前記〔１〕から〔３２〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔３４〕
リモートエンティティ（２０４）から受信した、または合成的に生成されたオーディオ情報メッセージを格納し、異なる時間インスタンスで前記オーディオ情報メッセージを再利用するためのキャッシュメモリ（２４６）をさらに含む、前記〔１〕から〔３３〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔３５〕
前記オーディオ情報メッセージはイアコンである、前記〔１〕および〔３〕から〔３４〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔３６〕
前記少なくとも１つのビデオストリームおよび／または前記少なくとも１つの第１のオーディオストリームは、それぞれ、前記現在のビデオ環境シーンおよび／またはビデオオーディオシーンの一部であり、前記現在のビデオ環境シーンおよび／またはビデオオーディオシーンにおける前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータ（１２２）から独立している、前記〔１〕から〔３５〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔３７〕
前記少なくとも１つの第１のオーディオストリームおよび／または少なくとも１つのビデオストリームを、それぞれ前記オーディオストリームおよび／またはビデオ環境ストリームに関連付けられたリモートエンティティに要求し、前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータ（１２２）に基づいて、前記少なくとも１つのオーディオ情報メッセージを再生するように構成される、前記〔１〕から〔３６〕３６のいずれか一項に記載のシステムである。
また、さらなる例は、
〔３８〕
前記少なくとも１つの第１のオーディオストリームおよび／または少なくとも１つのビデオストリームを、それぞれ前記オーディオストリームおよび／またはビデオ環境ストリームに関連付けられたリモートエンティティに要求し、前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータ（１２２）に基づいて、前記少なくとも１つのオーディオ情報メッセージを前記リモートエンティティに要求するように構成される、前記〔１〕から〔３７〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔３９〕
前記少なくとも１つの第１のオーディオストリームおよび／または少なくとも１つのビデオストリームを、それぞれ前記オーディオストリームおよび／またはビデオ環境ストリームに関連付けられたリモートエンティティに要求し、前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータ（１２２）に基づいて、前記少なくとも１つのオーディオ情報メッセージを合成するように構成される、前記〔１〕から〔３８〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔４０〕
前記オーディオ情報メッセージの前記再生のための追加の基準のうちの少なくとも１つをチェックするように構成され、前記基準はユーザーの選択および／またはユーザーの設定をさらに含む、前記〔１〕から〔３９〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔４１〕
前記オーディオ情報メッセージの前記再生のための追加の基準のうちの少なくとも１つをチェックするように構成され、前記基準は前記システムの状態をさらに含む、前記〔１〕から〔４０〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔４２〕
前記オーディオ情報メッセージの前記再生のための追加の基準のうちの少なくとも１つをチェックするように構成され、前記基準は、既に実行されたオーディオ情報メッセージの再生の数をさらに含む、前記〔１〕から〔４１〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔４３〕
前記オーディオ情報メッセージの前記再生のための追加の基準のうちの少なくとも１つをチェックするように構成され、前記基準は、リモートエンティティから取得されたデータストリーム内のフラグをさらに含む、前記〔１〕から〔４２〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔４４〕
前記〔１〕から〔４３〕のいずれか一項に記載のシステムとして構成されたクライアントと、前記少なくとも１つのビデオストリーム（１０６）および前記少なくとも１つのオーディオストリーム（１１６）を配信するためのサーバーとして構成されたリモートエンティティ（２０２、２４０）と、を含むシステムである。
また、さらなる例は、
〔４５〕
前記リモートエンティティ（２０２、２４０）は、データベース、イントラネット、インターネット、および／または地理的ネットワークにおいて、前記少なくとも１つの追加のオーディオストリーム（１４０）および／またはオーディオ情報メッセージメタデータを検索し、検索された場合に、前記少なくとも１つの追加のオーディオストリーム（１４０）および／またはオーディオ情報メッセージメタデータを配信するように構成される、前記〔４４〕に記載のシステムである。
また、さらなる例は、
〔４６〕
前記リモートエンティティ（２０２、２４０）は、前記少なくとも１つの追加のオーディオストリーム（１４０）を合成し、および／または前記オーディオ情報メッセージメタデータを生成するように構成される、前記〔４５〕に記載のシステムである。
また、さらなる例は、
〔４７〕
仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のための方法であって、
ユーザーに対して再生される前記少なくとも１つのビデオおよびオーディオシーンからの少なくとも１つのビデオ信号をデコードするステップと、
再生される前記ビデオおよびオーディオシーンからの少なくとも１つのオーディオ信号をデコードするステップと、
前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータ（１２２）および／またはメタデータに基づいて、前記少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するかどうかを決定するステップであって、前記オーディオ情報メッセージは、前記少なくとも１つのビデオ信号および前記少なくとも１つのオーディオ信号から独立している、ステップと、
前記情報メッセージを再生することが決定されると、前記オーディオ情報メッセージを再生するステップと、
を含む方法である。
また、さらなる例は、
〔４８〕
仮想現実ＶＲ、拡張現実ＡＲ、複合現実ＭＲ、または３６０度ビデオ環境のための方法であって、
ＶＲ、ＡＲ、ＭＲ、または３６０度ビデオ環境シーン（１１８ａ）をユーザーに表現するために、前記少なくとも１つのビデオストリーム（１０６）からの少なくとも１つのビデオ信号をデコードするステップと、
前記ユーザーへのオーディオシーン（１１８ｂ）の表現のために、前記少なくとも１つの第１のオーディオストリーム（１１６、３１６）からの少なくとも１つのオーディオ信号をデコードするステップと、
前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータ（１２２）および／またはメタデータに基づいて、前記少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生するかどうかを決定するステップであって、前記オーディオ情報メッセージはイアコンである、ステップと、
前記情報メッセージを再生することが決定されると、前記オーディオ情報メッセージを再生するステップと、
を含む方法である。
また、さらなる例は、
〔４９〕
前記情報メッセージを再生することが決定されると、前記オーディオ情報メッセージが前記オーディオシーンの一部であるように、メタデータ（１４１）に従って前記オーディオ情報メッセージを再生するために、前記メタデータ（１４１）を受信および／または処理および／または操作するステップをさらに含む、前記〔４７〕または〔４８〕に記載の方法である。
また、さらなる例は、
〔５０〕
前記オーディオおよびビデオシーンを再生するステップと、
前記ユーザーの現在のビューポートおよび／または頭の向きおよび／または動きのデータ（１２２）および／またはメタデータに基づいて、前記オーディオ情報メッセージをさらに再生するように決定するステップと、
をさらに含む、前記〔４７〕から〔４９〕のいずれか一項に記載の方法である。
また、さらなる例は、
〔５１〕
前記オーディオおよびビデオシーンを再生するステップと、
前記少なくとも１つのＲＯＩが前記ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ（１２２）の外側にある場合には、前記少なくとも１つのオーディオ信号の再生に加えて、前記少なくとも１つのＲＯＩに関連付けられたオーディオ情報メッセージを再生し、および／または
前記少なくとも１つのＲＯＩが前記ユーザーの現在のビューポートおよび／または位置および／または頭の向きおよび／または動きのデータ（１２２）内にある場合には、前記少なくとも１つのＲＯＩに関連付けられた前記オーディオ情報メッセージの再生を不許可および／または非アクティブにするステップと、
をさらに含む、前記〔４７〕から〔５０〕のいずれか一項に記載の方法である。
また、さらなる例は、
〔５２〕
プロセッサによって実行されると、前記プロセッサに前記〔４７〕から〔５１〕のいずれか一項に記載の方法を実行させる命令を含む、非過渡的記憶ユニットである。
上記の例は、上で説明した原理を例示するものである。本明細書に記載の配置および詳細の修正および変更は明らかであることを理解されたい。したがって、本明細書の実施例の記述および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によって限定されることが意図されている。

Claims

システムであって、前記システムは、
再生されるオーディオシーンに関連付けられた少なくとも１つの第１のオーディオストリーム（１１６、３１６）を受信するように構成され、
前記システムは、
ユーザーへの前記オーディオシーンの表現のために、前記少なくとも１つの第１のオーディオストリーム（１１６、３１６）から少なくとも１つのオーディオ信号をデコードするように構成された少なくとも１つのオーディオデコーダ（１１２）と、
少なくとも１つのプロセッサ（１２０、１３２）と、を含み、前記プロセッサ（１２０、１３２）は、
少なくとも前記ユーザーの動きのデータ（１２２）および／またはメタデータ（１４１）および／またはユーザーの選択に基づいて、イアコンを再生するかどうかを決定し、
前記イアコンを再生することが決定されると、前記イアコンを再生する、
ように構成され、
前記システムは、イアコンメタデータを生成（２４６）および／または変更するように構成され、
前記システムは、前記イアコンがエンコードされた少なくとも１つの追加のオーディオストリーム（１４０）を生成するようにさらに構成される、
システム。
オーディオシーンに関連付けられた少なくとも１つの第１のオーディオストリーム（１１６、３１６）を再生するように構成されたシステムであって、前記システムは、
ユーザーへの前記オーディオシーンの表現のために、前記少なくとも１つの第１のオーディオストリーム（１１６、３１６）から少なくとも１つのオーディオ信号をデコードするように構成された少なくとも１つのオーディオデコーダ（１１２）と、
少なくとも１つのプロセッサ（１２０、１３２）と、を含み、前記プロセッサ（１２０，１３２）は、
少なくとも前記ユーザーの動きのデータ（１２２）および／またはメタデータ（１４１）および／またはユーザーの選択に基づいて、イアコンを再生するかどうかを決定し、
前記イアコンを再生することが決定されると、前記イアコンを再生する、
ように構成され、
前記システムは、
前記イアコンがエンコードされたオーディオストリームとイアコンメタデータとを受信し、
前記イアコンメタデータに基づいて、前記オーディオ信号および前記イアコンを、デコードおよび再生するようにさらに構成される、
システム。
前記少なくとも１つのプロセッサ（１２０、１３２）は、
ストリームからイアコンメタデータを抽出し、
イアコンメタデータを変更して、前記イアコンをアクティブ化し、および／またはその位置を設定し／変化させ、
メタデータをストリームに埋め込み、
前記少なくとも１つの第１のオーディオストリーム（１１６）からオーディオメタデータを抽出し、
前記追加のオーディオストリームからイアコンメタデータを抽出し、
イアコンメタデータを変更して、前記イアコンをアクティブ化し、および／またはその位置を設定し／変化させ、
前記イアコンの存在を考慮に入れてマージすることができるように、前記少なくとも１つの第１のオーディオストリーム（１１６）のオーディオメタデータを変更する、
操作のうちの少なくとも１つを実行するように構成される、請求項１または２に記載のシステム。
前記イアコンは、前記オーディオシーン内のオブジェクトに関連付けられたアクセシビリティ機能に関連付けられている、請求項１または２に記載のシステム。
前記少なくとも１つは、イアコンメタデータ（１４１）を操作して、前記イアコンを再生することを決定したときに、前記イアコンメタデータ（１４１）に従って前記イアコンを再生するように構成される、請求項１または２に記載のシステム。
前記イアコンメタデータ（１４１）は、構成フレームまたはデータフレームにエンコードされ、前記データフレームは、
識別タグ、
メッセージのタイプ、
前記オーディオシーンからの依存性／非依存性の表示、
関連付けられたテキストラベルの存在の表示、
前記イアコンの言語、
データテキストの長さ、
前記イアコンの記述のうちの少なくとも１つを含む、請求項１または２に記載のシステム。
前記イアコンメタデータ（１４１）は、構成フレームまたはデータフレームにエンコードされ、前記データフレームは、
ゲインデータを少なくとも含む、請求項１または２に記載のシステム。
前記少なくとも１つのプロセッサ（１２０、１３２）は、前記イアコンがエンコードされている追加のオーディオストリーム（１４０）および／またはイアコンメタデータのローカル検索を実行するように構成される、請求項１または２に記載のシステム。
前記少なくとも１つのプロセッサ（１２０、１３２）は、追加のオーディオストリーム（１４０）および／またはイアコンメタデータのローカル検索を実行し、検索することができない場合には、合成オーディオジェネレータ（４３２）に対して前記イアコンおよび／またはイアコンメタデータを生成させるように構成される、請求項１または２に記載のシステム。
前記イアコンのまたは前記イアコンメタデータの前記構成を変更するために、前記イアコンの前記再生に関連付けられた履歴データおよび／または統計データに関連付けられたメトリックの追跡を保持するようにさらに構成される、請求項１または２に記載のシステム。
２つのイアコンを同時に再生するか、またはより優先度の低いイアコンに対して優先的に再生されるより優先度の高いイアコンを選択するかを確立するようにさらに構成される、請求項１または２に記載のシステム。
前記オーディオストリームは、ＭＰＥＧ－Ｈ３Ｄオーディオストリームフォーマットでフォーマットされる、請求項１または２に記載のシステム。
複数のアダプテーションセット（５５６、５５７）の利用可能性に関するデータを受信し、前記利用可能なアダプテーションセットは、前記少なくとも１つの第１のオーディオストリーム（１１６、３１６）の少なくとも１つのオーディオシーンのアダプテーションセットと、イアコンを含む前記少なくとも１つの追加のオーディオストリーム（１４０）の少なくとも１つのオーディオメッセージのアダプテーションセットと、を含み、
前記アダプテーションセットのうちのどれを検索するかを特定する選択データ（５５９）を作成し、前記利用可能なアダプテーションセットは、少なくとも１つのオーディオシーンのアダプテーションセットおよび／または少なくとも１つのオーディオメッセージのアダプテーションセットを含み、
前記選択データによって特定された前記アダプテーションセットの前記データを要求および／または検索し、
各アダプテーションセットは、異なるビットレートの異なるエンコーディングをグループ化する、
ようにさらに構成される、請求項１または２に記載のシステム。
ＨＴＴＰ、ＤＡＳＨ、クライアントを介したダイナミックアダプティブストリーミングを含み、および／またはＩＳＯベースメディアファイルフォーマットＩＳＯＢＭＦＦ、またはＭＰＥＧ－２トランスポートストリームＭＰＥＧ－２ＴＳを使用して、前記アダプテーションセットの各々について前記データを検索するように構成される、請求項１３に記載のシステム。
エンコードされた前記少なくとも１つのオーディオ信号と、エンコードされた前記イアコンと、前記イアコンメタデータとを含む前記少なくとも１つの第１のオーディオストリームを受信し、
前記イアコンメタデータに基づいて、前記オーディオ信号と前記イアコンとをデコードおよび再生するように構成される、請求項１または２に記載のシステム。
前記デコードされたオーディオ信号を再生するためのメディア消費デバイス（２０６）をさらに備える、請求項１または２に記載のシステム。
前記イアコンがエンコードされる前記第１のオーディオストリームおよび前記追加のオーディオストリームが異なるオーディオストリームである、請求項１または２に記載のシステム。
前記イアコンメタデータは、前記イアコンが前記オーディオシーンに依存しているかまたは独立しているかを示す１ビットフラグを含む、請求項１または２に記載のシステム。
再生されるオーディオシーンに関連付けられた少なくとも１つのオーディオ信号をデコードするステップと、
ユーザーの動きのデータ（１２２）および／またはメタデータに基づいて、イアコンを再生するかどうかを決定するステップと、
前記イアコンを再生することが決定されると、前記イアコンを再生するステップと、
を含み、
イアコンメタデータを生成し（４３２）および／または変更し、
前記イアコンがエンコードされているか、または前記イアコンが圧縮されていない、少なくとも１つの追加のストリーム（１４０）を生成する、方法。
オーディオシーンに関連付けられた少なくとも１つの第１のオーディオストリーム（１１６、３１６）を再生するための方法であって、前記方法は、
前記ユーザーに前記オーディオシーンを表現するために、前記少なくとも１つの第１のオーディオストリーム（１１６、３１６）から少なくとも１つのオーディオ信号をデコードするステップと、
少なくとも前記ユーザーの動きのデータ（１２２）および／またはメタデータ（１４１）および／またはユーザーの選択に基づいて、イアコンを再生するかどうかを決定するステップと、
前記イアコンを再生することが決定されると、前記イアコンを再生するステップと、を含み、
前記方法は、
前記イアコンがエンコードされたオーディオストリームと前記イアコンメタデータとを受信するステップと、
前記イアコンメタデータに基づいて、前記オーディオ信号および前記イアコンをデコードおよび再生するステップとを含む、方法。
プロセッサによって実行されると、前記プロセッサに請求項１９または２０に記載の方法を実行させる命令を含む、非過渡的記憶ユニット。