JP2023044657A

JP2023044657A - イマーシブオーディオシーンレンダリングにおける通信オーディオ処理方法および装置

Info

Publication number: JP2023044657A
Application number: JP2022145812A
Authority: JP
Inventors: シャムスンダルマテスジート; Shyamsundar Mate Sujeet; アルットゥリレッパネンユッシ; Artturi Leppanen Jussi; ヨハンネスエロネンアンティ; Johannes Eronen Antti; ユハニラークソネンラッセ; Juhani Laaksonen Lasse; ユハニレフティニエミアルト; Juhani Lehtiniemi Arto
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2021-09-17
Filing date: 2022-09-14
Publication date: 2023-03-30
Also published as: EP4152770A1; US20230090246A1; GB2610845A

Abstract

【課題】本願の実施形態は、従来技術の課題に対処することを目的とする。【解決手段】イマーシブオーディオシーン内で通信オーディオ信号をレンダリングする装置であって、該装置は、イマーシブオーディオシーン内でレンダリングするための少なくとも１つの空間オーディオ信号を得ること、通信オーディオ信号および該通信オーディオ信号に関連する位置情報を得ること、通信オーディオ信号に関連するレンダリング処理パラメータを得ること、レンダリング処理パラメータに基づいてレンダリング方法を決定すること、決定したレンダリング方法のレンダリング処理における挿入ポイント、および／または、該レンダリング処理パラメータに基づく該決定したレンダリング方法用のレンダリング要素の選択、を実行可能に構成した手段を含む、装置。【選択図】図１

Description

本願は、拡張現実レンダリング内の通信オーディオ処理方法および装置に関するものであるが、拡張現実６自由度レンダリング内の通信オーディオ処理方法および装置に限定されるものではない。

ヘッドマウントデバイス（ＨＭＤ）を装着したユーザに対して仮想シーンを表現する拡張現実（ＡＲ）アプリケーション（および、複合現実（ＭＲ）や仮想現実（ＶＲ）等の他の類似の仮想シーン作成アプリケーション）は、時代とともに複雑かつ高度になってきている。アプリケーションは、ユーザに提示される視覚コンポーネント（または、オーバーレイ）およびオーディオコンポーネント（または、オーバーレイ）を含むデータを含んでよい。これらのコンポーネントは、拡張現実（ＡＲ）シーン内のユーザの位置および姿勢（６自由度アプリケーションの場合）に応じてユーザに提供される。

ＡＲシーンをレンダリングするためのシーン情報は、通常、２つの部分を含む。１つの部分は、コンテンツ作成中に（または、適切なキャプチャ装置またはデバイスによって）記述することができ、キャプチャされた（または、最初に生成された）シーンを表す仮想シーン情報である。仮想シーンは、エンコーダ入力フォーマット（ＥＩＦ）データフォーマットで提供されてもよい。ＥＩＦおよび（キャプチャまたは生成された）オーディオデータは、エンコーダによって使用され、シーン記述および空間オーディオメタデータ（およびオーディオ信号）を生成し、ビットストリームを介してレンダリング（再生）装置または機器に配信され得る。このように、ＡＲやＶＲのシーンのシーン記述は、コンテンツ作成段階でコンテンツ作成者によって指定される。ＶＲの場合、シーン全体が指定され、コンテンツ作成者のビットストリームで指定された通りにレンダリングされる。

ＡＲオーディオシーンのレンダリングの第２の部分は、リスナー（またはエンドユーザ）の物理的なリスニング空間（または、物理空間）に関連するものである。シーンまたはリスナの空間情報は、ＡＲレンダリング中（リスナーがコンテンツを利用しているとき）に取得することができる。したがって、ＶＲとは異なるＡＲの基本的な側面があり、オーディオシーンの音響特性は、（ＡＲの場合）コンテンツ利用中にのみ認識され、コンテンツの作成中には認識することも最適化することもできないことを意味する。

図１は、仮想シーンが物理的なリスニング空間内に配置されているＡＲシーンの例を示す。この例では、物理的なリスニング空間１０１内に位置するユーザ１０７が存在する。さらに、この例では、ユーザ１０９は、仮想シーン要素を有する６自由度（６ＤＯＦ）の仮想シーン１１３を体験している。この例では、仮想シーン１１３の要素は、２つのオーディオオブジェクト、第１のオブジェクト１０３（ギター奏者）および第２のオブジェクト１０５（ドラマー）、仮想遮蔽要素（例えば、仮想パーティション１１７として表される）、および仮想ルーム１１５（例えば、仮想シーン記述内で定義されているサイズ、位置、音響材料を有する壁）により表される。レンダラ（この例では、ハンドヘルド電子デバイスまたは装置１１１である）は、可聴化がユーザの物理的なリスニング空間（例えば、壁の位置および壁の音響材料特性）に対してもっともらしくなるように、レンダリングを実行するように構成される。レンダリングは、この例では、適切なヘッドフォンまたはヘッドセット１０９によってユーザ１０７に提示される。

したがって、ＡＲシーンの場合、コンテンツ作成者ビットストリームは、どのオーディオ要素およびシーンジオメトリ要素がリスニング空間のどのアンカーに対応するかについての情報を搬送する。その結果、オーディオ要素の位置、反射要素、遮蔽要素等の位置は、レンダリング中にのみ認識される。さらに、音響モデリングパラメータは、レンダリング中にのみ認識される。

ソーシャルＶＲ／ＡＲは、このようなシステムをさらに発展させたものである。このようなシステムは、仮想環境内の他のユーザからの音声やオーディオのレンダリングをサポートすることが想定されている。さらに、受信した音声やオーディオ通信をイマーシブオーディオ信号としてレンダリングすることが提案されている。

本願の実施形態は、従来技術の課題に対処することを目的とする。

第１の態様によれば、イマーシブオーディオシーン内でレンダリングするための少なくとも１つの空間オーディオ信号を取得し、通信オーディオ信号および通信オーディオ信号に関連する位置情報を取得し、通信オーディオ信号に関連するレンダリング処理パラメータを取得し、レンダリング処理パラメータに基づいてレンダリング方法を決定し、レンダリング処理パラメータに基づいて決定したレンダリング方法に対するレンダリング処理における挿入ポイント、および／または、決定したレンダリング方法のレンダリング要素の選択を決定する、ように構成されている手段を備える装置が提供される。

本手段は、決定されたレンダリング方法、決定されたレンダリング方法に対するレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法に対するレンダリング要素の選択に基づいて、少なくとも一つの空間オーディオ信号および通信オーディオ信号から、少なくとも一つの出力空間オーディオ信号を生成するようにさらに構成されてもよい。

本手段は、さらに、通信オーディオ信号に関連するオーディオフォーマット、許容遅延値、および通信オーディオ信号遅延のうちの少なくとも１つを決定するように構成されてもよい。

決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択を決定するように構成された手段は、さらに、レンダリング処理における挿入ポイントを、通信オーディオ信号に関連付けられたオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの少なくとも１つに基づいて、決定し、レンダリング方法および／または決定されたレンダリング方法のためのレンダリング要素の選択を、通信オーディオ信号に関連付けられたオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの少なくとも１つに基づいて、決定する、ことの少なくとも一方を行うように構成されてよい。

許容遅延値は、通信オーディオ信号を利用するために許容される遅延量であってもよく、通信オーディオ信号遅延は、エンドツーエンドの配信遅延および通信オーディオをレンダリングする遅延に基づいて決定された遅延値であってよい。

通信オーディオ信号に関連するオーディオフォーマットは、イマーシブシーン内のユーザ間の、一方向通信オーディオ信号、および、会話通信オーディオ信号のうちの１つを含んでもよい。

決定されたレンダリング方法、および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも１つの空間オーディオ信号と通信オーディオ信号から少なくとも１つの出力空間オーディオ信号を生成するよう構成された手段は、通信オーディオ信号を高次アンビソニックオーディオ信号として表現するよう構成されてもよい。

本手段は、ユーザ入力を取得するようにさらに構成されてよく、決定されたレンダリング方法、および、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および／または、決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも１つの空間オーディオ信号および通信オーディオ信号から、少なくとも１つの出力空間オーディオ信号を生成するように構成された手段は、ユーザ入力にさらに基づいて、少なくとも１つの空間オーディオ信号および通信オーディオ信号から、少なくとも１つの出力空間オーディオ信号を生成するように構成されてよく、ユーザ入力は、許可された通信オーディオ信号のタイプ、許可されたオーディオフォーマット、許可された遅延値、および、少なくとも１つの音響モデリングプリファレンスパラメータの少なくとも１つを定義するように構成されてよい。

本手段は、少なくとも１つの空間オーディオ信号に関連付けられた通信オーディオ信号タイプを取得するようにさらに構成され、決定されたレンダリング方法、および、決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも１つの空間オーディオ信号および通信オーディオ信号から少なくとも１つの出力空間オーディオ信号を生成するよう構成された手段が、少なくとも１つの空間オーディオ信号に関連付けられた少なくとも１つの通信オーディオ信号タイプにさらに基づいて、少なくとも１つの空間オーディオ信号および通信オーディオ信号から少なくとも１つの出力空間オーディオ信号を生成するように構成されてよい。

レンダリング処理および／またはレンダリング要素は、ドップラ処理、直接音処理、マテリアルフィルタ処理、初期反射処理、拡散後期残響処理、音源拡張処理、遮蔽処理、回折処理、音源変換処理、外在化レンダリング、およびインヘッドレンダリングのうちの一つまたは複数を含んでよい。

決定されたレンダリング方法のレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のレンダリング要素の選択を決定する手段は、レンダリングモードを決定するように構成されてよく、レンダリングモードは、通信オーディオ信号の挿入ポイントを示す値を含んでよい。

挿入ポイントを示す値は、通信オーディオ信号および少なくとも１つの空間オーディオ信号がレンダリング処理方法の開始時に挿入されることを示す第１のモード値、通信オーディオ信号がレンダリング処理をバイパスして、少なくとも１つの空間オーディオ信号に適用されるレンダリング処理の出力と直接混合されることを示す第２のモード値、および、少なくとも１つの空間オーディオ信号にレンダリング処理を完全に適用する一方で、通信オーディオ信号が部分的にレンダ処理されることを示す第３のモード値のうちの１つを含んでよい。

通信オーディオ信号が部分的にレンダリング処理されていることを示す第３のモード値は、通信オーディオ信号が、点音源の直接音レンダリングであり、かつ、ユーザ位置を基準とした両耳レンダリングであることを示す値であってもよい。

本手段は、レンダリング処理パラメータに基づいて、通信オーディオ信号のオーディオフォーマットタイプを決定するようにさらに構成されてもよい。

また、決定されたレンダリング方法のレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のレンダリング要素の選択を決定する手段は、オーディオフォーマットタイプに基づいて決定されたレンダリング方法内の通信オーディオ信号のレンダリング処理における挿入ポイントを決定するように構成されてよい。

オーディオフォーマットタイプに基づいて決定されたレンダリング方法内の通信オーディオ信号に対するレンダリング処理における挿入ポイントを決定するように構成された手段は、通信オーディオ信号がプリレンダリング空間オーディオフォーマットのオーディオフォーマットタイプを有する場合、レンダリング方法における挿入ポイントが、少なくとも１つの空間オーディオ信号に適用されるレンダリング処理の出力との直接混合にあると決定するように構成されてもよい。

第２の態様によれば、イマーシブオーディオシーン内で通信オーディオ信号をレンダリングする装置のための方法が提供され、本方法は、イマーシブオーディオシーン内でレンダリングするための少なくとも１つの空間オーディオ信号を取得し、通信オーディオ信号および通信オーディオ信号に関連する位置情報を取得し、通信オーディオ信号に関連するレンダリング処理パラメータを取得し、レンダリング処理パラメータに基づいてレンダリング方法を決定し、決定したレンダリング方法に対するレンダリング処理における挿入ポイントを決定し、および／または、レンダリング処理パラメータに基づいて決定したレンダリング方法のレンダリング要素を選択する、ことを含む。

本方法は、決定されたレンダリング方法および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも１つの空間オーディオ信号および通信オーディオ信号から、少なくとも１つの出力空間オーディオ信号を生成することをさらに含んでよい。

本方法は、通信オーディオ信号に関連するオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの少なくとも１つを決定することをさらに含んでよい。

決定されたレンダリング方法のためのレンダリング処理における挿入ポイントを決定すること、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素を選択することは、通信オーディオ信号に関連付けられたオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの決定された少なくとも１つにさらに基づいて、レンダリング処理における挿入ポイントを決定することと、通信オーディオ信号に関連付けられたオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの決定された少なくとも１つに基づいて決定されたレンダリング方法のためのレンダリング方法および／またはレンダリング要素を選択すること、のうちの少なくとも一方をさらに含んでよい。

通信オーディオ信号に関連するオーディオフォーマットは、イマーシブシーン内のユーザ間の、一方向通信オーディオ信号、および会話通信オーディオ信号のうちの１つを含んでもよい。

決定されたレンダリング方法および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも１つの空間オーディオ信号および通信オーディオ信号から、少なくとも１つの出力空間オーディオ信号を生成することは、通信オーディオ信号を高次アンビソニックオーディオ信号として表すことを含んでよい。

本方法は、ユーザ入力を取得することと、決定されたレンダリング方法および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも１つの空間オーディオ信号および通信オーディオ信号から、少なくとも１つの出力空間オーディオ信号を生成することと、をさらに含み、ユーザ入力にさらに基づいて、少なくとも１つの空間オーディオ信号および通信オーディオ信号から、少なくとも１つの出力空間オーディオ信号を生成することと、をさらに備えてもよく、ユーザ入力は、許可された通信オーディオ信号タイプ、許可されたオーディオフォーマット、許可された遅延値、および、少なくとも１つの音響モデリングプリファレンスパラメータの少なくとも１つを定めることを含んでよい。

本方法は、少なくとも１つの空間オーディオ信号に関連付けられた通信オーディオ信号タイプを取得することと、決定されたレンダリング方法および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも１つの空間オーディオ信号および通信オーディオ信号から、少なくとも１つの出力空間オーディオ信号を生成することと、をさらに含んでよく、少なくとも１つの空間オーディオ信号と関連する少なくとも１つの通信オーディオ信号タイプにさらに基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成することを含んでよい。

レンダリング処理および／またはレンダリング要素は、ドップラ処理、直接音処理、マテリアルフィルタ処理、初期反射処理、拡散後期残響処理、音源拡張処理、遮蔽処理、回折処理、音源変換処理、外在化レンダリング、および、インヘッドレンダリングのうちの１つまたは複数を含んでよい。

決定されたレンダリング方法のためのレンダリング処理における挿入ポイントを決定すること、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素を選択することは、レンダリングモードを決定することを含んでよく、レンダリングモードは、通信オーディオ信号の挿入ポイントを示す値を含む。

挿入ポイントを示す値は、通信オーディオ信号および少なくとも１つの空間オーディオ信号が、レンダリング処理方法の開始時に挿入されることを示す第１のモード値、通信オーディオ信号がレンダリング処理をバイパスして、少なくとも１つの空間オーディオ信号に適用されるレンダリング処理の出力と直接混合されることを示す第２のモード値、および、レンダリング処理が少なくとも１つの空間オーディオ信号に完全に適用される一方で、通信オーディオ信号が部分的にレンダリング処理されることを示す第３のモード値、のうちの１つを含んでよい。

通信オーディオ信号が部分的にレンダリング処理されていることを示す第３のモード値は、通信オーディオ信号が、点音源の直接音レンダリングであり、ユーザ位置を基準とした両耳レンダリングであることを示す値であってもよい。

本方法は、レンダリング処理パラメータに基づいて、通信オーディオ信号のオーディオフォーマットタイプを決定することをさらに含んでもよい。

決定されたレンダリング方法に対するレンダリング処理において挿入ポイントを決定すること、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法に対するレンダリング要素を選択することは、オーディオフォーマットタイプに基づいて決定されたレンダリング方法内の通信オーディオ信号に対するレンダリング処理における挿入ポイントを決定することを含んでよい。

オーディオフォーマットタイプに基づいて、決定されたレンダリング方法内の通信オーディオ信号のレンダリング処理における挿入ポイントを決定することは、通信オーディオ信号がプリレンダリング空間オーディオフォーマットのオーディオフォーマットタイプを有する場合、レンダリング方法における挿入ポイントが、少なくとも１つの空間オーディオ信号に適用されるレンダリング処理の出力との直接混合にあると決定することを含んでよい。

第３の態様によれば、少なくとも１つのプロセッサおよびコンピュータプログラムコードを含む少なくとも１つのメモリを備える装置であって、少なくとも１つのメモリおよびコンピュータプログラムコードは、少なくとも１つのプロセッサによって、装置に少なくとも、イマーシブオーディオシーン内でレンダリングするための少なくとも１つの空間オーディオ信号を取得することと、通信オーディオ信号および通信オーディオ信号に関連付けられた位置情報を取得することと、通信オーディオ信号に関連付けられたレンダリング処理パラメータを取得することと、レンダリング処理パラメータに基づいてレンダリング方法を決定することと、決定したレンダリング方法に対するレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定したレンダリング方法のレンダリング要素の選択を決定することと、を行わせるように構成される、装置が提供される。

装置は、さらに、決定されたレンダリング方法および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも１つの空間オーディオ信号および通信オーディオ信号から、少なくとも１つの出力空間オーディオ信号を生成するようにされていてよい。

装置は、さらに、通信オーディオ信号に関連するオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの少なくとも１つを決定するようにされてもよい。

決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択を決定するようにされる装置は、通信オーディオ信号に関連するオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの決定された少なくとも１つにさらに基づいて、レンダリング処理における挿入ポイントを決定することと、通信オーディオ信号に関連するオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの決定された少なくとも１つに基づいて、レンダリング方法および／または決定されたレンダリング方法のためのレンダリング要素の選択を決定することと、のうちの少なくとも１つをさらに行うようにされてよい。

決定されたレンダリング方法および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも１つの空間オーディオ信号と通信オーディオ信号から、少なくとも１つの出力空間オーディオ信号を生成させる装置は、通信オーディオ信号を高次アンビソニックオーディオ信号として表現するようにされてよい。

装置は、ユーザ入力を取得するようにさらにされてもよく、決定されたレンダリング方法および決定されたレンダリング方法に対するレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法に対するレンダリング要素の選択に基づいて、少なくとも１つの空間オーディオ信号および通信オーディオ信号から、少なくとも１つの出力空間オーディオ信号を生成するようにされる装置は、さらにユーザ入力に基づいて、少なくとも１つの空間オーディオ信号および通信オーディオ信号から、少なくとも１つの出力空間オーディオ信号を生成するようにされ、ユーザ入力は、少なくとも、許可された通信オーディオ信号のタイプ、許可されたオーディオフォーマット、許可された遅延値、および、少なくとも１つの音響モデリングプリファレンスパラメータの１つを定めるようにされてよい。

本装置は、少なくとも１つの空間オーディオ信号に関連付けられた通信オーディオ信号タイプを取得するようにされてもよく、決定されたレンダリング方法および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも１つの空間オーディオ信号および通信オーディオ信号から、少なくとも１つの出力空間オーディオ信号を生成するようにされる装置は、さらに、少なくとも１つの空間オーディオ信号と関連する少なくとも１つの通信オーディオ信号タイプに基づいて、少なくとも１つの空間オーディオ信号および通信オーディオ信号から、少なくとも１つの出力空間オーディオ信号を生成するようにされてよい。

決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択を決定するようにされた装置は、レンダリングモードを決定するようにされてよく、レンダリングモードは、通信オーディオ信号の挿入ポイントを示す値を含む。

挿入ポイントを示す値は、通信オーディオ信号および少なくとも１つの空間オーディオ信号がレンダリング処理方法の開始時に挿入されることを示す第１のモード値、通信オーディオ信号がレンダリング処理をバイパスして、少なくとも１つの空間オーディオ信号に適用されるレンダリング処理の出力と直接混合されることを示す第２のモード値、および、レンダリング処理が少なくとも１つの空間オーディオ信号に完全に適用される一方で、通信オーディオ信号が部分的にレンダ処理されることを示す第３のモード値のうちの１つを含んでよい。

通信オーディオ信号が部分的にレンダリング処理されることを示す第３のモード値は、通信オーディオ信号が、点音源の直接音レンダリングであり、ユーザ位置を基準とした両耳レンダリングであることを示す値であってもよい。

装置は、レンダリング処理パラメータに基づいて、通信オーディオ信号のオーディオフォーマット種別を決定することをさらに特徴としてもよい。

決定されたレンダリング方法のレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のレンダリング要素の選択を行う装置は、オーディオフォーマットタイプに基づいて決定されたレンダリング方法内の通信オーディオ信号のレンダリング処理における挿入ポイントを決定するようにされてよい。

オーディオフォーマットタイプに基づいて決定されたレンダリング方法内の通信オーディオ信号のレンダリング処理における挿入ポイントを決定させる装置は、通信オーディオ信号がプリレンダリングされた空間オーディオフォーマットのオーディオフォーマットタイプを有する場合、レンダリング方法における挿入ポイントが、少なくとも１つの空間オーディオ信号に適用されるレンダリング処理の出力との直接混合にあることを決定するようにされてよい。

第４の態様によれば、イマーシブオーディオシーン内でレンダリングするための少なくとも１つの空間オーディオ信号を取得する手段と、通信オーディオ信号および通信オーディオ信号に関連する位置情報を取得する手段と、通信オーディオ信号に関連するレンダリング処理パラメータを取得する手段と、レンダリング処理パラメータに基づいてレンダリング方法を決定する手段と、決定したレンダリング方法に対するレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定したレンダリング方法のレンダリング要素の選定を決定する手段と、を備える装置が提供される。

第５の態様によれば、装置に少なくとも、イマーシブオーディオシーン内でレンダリングするための少なくとも１つの空間オーディオ信号を取得し、通信オーディオ信号および通信オーディオ信号に関連付けられた位置情報を取得し、通信オーディオ信号に関連付けられたレンダリング処理パラメータを取得し、レンダリング処理パラメータに基づいてレンダリング方法を決定し、決定したレンダリング方法に対するレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定したレンダリング方法のレンダリング要素の選択を決定する、ことを実行させるための命令［または、プログラム命令を含むコンピュータ可読媒体］を含むコンピュータプログラムが提供される。

第６の態様によれば、装置に、少なくとも、イマーシブオーディオシーン内でレンダリングするための少なくとも１つの空間オーディオ信号を取得し、通信オーディオ信号および通信オーディオ信号に関連する位置情報を取得し、通信オーディオ信号に関連するレンダリング処理パラメータを取得し、レンダリング処理パラメータに基づいてレンダリング方法を決定し、決定したレンダリング方法に対するレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定したレンダリング方法のレンダリング要素の選択を決定する、ことを実行させるためのプログラム命令を含む非一時的コンピュータ可読媒体が提供される。

第７の態様によれば、イマーシブオーディオシーン内でレンダリングするための少なくとも１つの空間オーディオ信号を取得するように構成された取得回路と、通信オーディオ信号および通信オーディオ信号に関連付けられた位置情報を取得するように構成された取得回路と、通信オーディオ信号に関連付けられたレンダリング処理パラメータを取得するように構成された取得回路と、レンダリング処理パラメータに基づいてレンダリング方法を決定するように構成された決定回路と、決定レンダリング方法に対するレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のレンダリング要素の選択を決定するように構成された決定回路と、を備える装置が提供される。

第８の態様によれば、イマーシブオーディオシーン内でレンダリングするための少なくとも１つの空間オーディオ信号を取得し、通信オーディオ信号および通信オーディオ信号に関連付けられた位置情報を取得し、通信オーディオ信号に関連付けられたレンダリング処理パラメータを取得し、レンダリング処理パラメータに基づいてレンダリング方法を決定し、決定したレンダリング方法に対するレンダリング処理における挿入ポイント、および／または、レンダリング処理パラメータに基づいて決定したレンダリング方法のレンダリング要素の選択を決定する、ことを装置に少なくとも実行させるためのプログラム命令を含むコンピュータ読取可能媒体が提供される。

上記の方法の動作を実行するための手段を含む装置。

上記の方法の動作を実行するように構成された装置。

コンピュータに上記の方法を実行させるためのプログラム命令を含むコンピュータプログラム。

媒体に格納されたコンピュータプログラム製品は、装置に本明細書に記載の方法を実行させてもよい。

電子デバイスは、本明細書に記載された装置を含んでいてもよい。

チップセットは、本明細書に記載される装置を含んでもよい。

本出願をよりよく理解するために、ここで例として添付の図面を参照する。
図１は、物理的なリスニング空間内の仮想シーン要素の組み合わせの例を示す適切な環境を概略的に示す図である。図２は、いくつかの実施形態による、拡張現実シーンの例示的なキャプチャからレンダリングまでを実装するための装置のシステムを概略的に示す図である。図３は、いくつかの実施形態による、図２に示されるような装置のシステムの動作の流れ図を示す。いくつかの実施形態による、図２に示されるレンダラの例を概略的に示す図である。いくつかの実施形態による、図４に示されるシーン状態導出オーディオプロセッサの例を概略的に示す図である。いくつかの実施形態による、図５に示される例示的なシーン状態導出オーディオプロセッサ内の動作の流れ図を示す。いくつかの実施形態による、システム内で通信オーディオを実装する動作の流れ図を示す。図８は、図示された装置を実施するために適した例示的なデバイスを概略的に示す。

以下では、拡張（ＡＲ）シーン体験をレンダリングし、イマーシブオーディオ通信処理機能を提供するための適切な装置および可能なメカニズムについてさらに詳細に説明する

前述のように、「ソーシャルＶＲ」がＭＰＥＧ－Ｉ６ＤｏＦオーディオ標準化の要件として指定されることが想定されている。この要件は、システムが仮想環境内の他のユーザからの音声とオーディオのレンダリングをサポートすることであると想定されている。音声とオーディオはイマーシブであってよい。さらに、いくつかの実施形態では、装置および方法は、所与の仮想環境内のユーザ間の低遅延会話をサポートすることが想定されている。さらに、装置および方法は、所与の仮想環境内のユーザと所与の仮想環境外のユーザとの間の低遅延会話をサポートする必要がある。

さらに、装置および方法は、ユーザおよびシーンのオーディオおよびビデオの同期を可能にし、他のユーザからの音声／オーディオのレンダリングに関する制限および推奨事項を指定するメタデータをさらにサポートする必要がある（たとえば、配置とサウンドレベルについて）。

したがって、本明細書で説明する実施形態は、例えば、３ＧＰＰ（登録商標）ＥＶＳ／ＩＶＡＳ等の低遅延通信ソリューションを実装し、ＭＰＥＧ－Ｉ６ＤｏＦレンダリングとインターフェースするか、または、実装することができる。

６ＤｏＦシーンレンダリングで使用されるイマーシブオーディオ信号と通信オーディオ信号の違いは、復号とレンダリングの遅延、異なる配信メカニズム、および、異なる利用制約にある可能性がある。ストリーミングまたはコンテンツ配信の遅延（ＤＡＳＨで得られるもの等）は、６ＤｏＦイマーシブオーディオ配信で予想されるか、または、許容され、それは、これらは低遅延の配信方法ではないためである。一方、通信オーディオの場合は、通常、対話型または低遅延が要求される。

イマーシブオーディオシーン（ＭＰＥＧＩｍｍｅｒｓｉｖｅＡｕｄｉｏ）における通信オーディオのレンダリングは本質的に動的であるため，あらかじめ想定されたレンダリング特性が必ずしも十分でない場合がある．これは、通信オーディオの遅延バジェットがいくつかの要因に依存するためである。重要な要因のひとつはユースケース（通信が一方向の解説なのか、双方向の会話なのか、等）で、ユースケースによって異なる遅延制約が必要となる。もう１つの要因は、通信オーディオのネットワーク条件で、これは１つの仮想イマーシブオーディオ利用セッション内または異なる利用セッション内の異なる使用例で異なる場合がある。ネットワーク条件の変化により、実際のレンダリング遅延バジェットが異なる時間になる可能性がある。

これは、利用シーンが未知であるＡＲの状況に類似していると考えることができるが、通信オーディオの処理は、さらに動的であり、時間とともに大きく変化する可能性がある。したがって、通信オーディオについては、遅延バジェット（例えば、ＥＩＦで指定されるか、または任意の上位のモジュールを介して知られてもよい）は、コンテンツ作成中に知られているか、または推定され得る。しかしながら、通信オーディオの遅延パラメータは、ほとんど常に異なり（例えば、エンドツーエンド遅延、ジッタ等）、コンテンツ作成中に未知である。本発明の実施形態では、コンテンツ作成者遅延バジェットパラメータは、通信オーディオのレンダリングモードを示すことによって暗黙的にバジェットを知らせる形態にすることができる。例えば、０という値は、通信オーディオがイマーシブオーディオレンダリングパイプライン全体の開始点を経由することを示し、１という値は、通信オーディオがレンダリングパイプライン全体をバイパスして最終段階で直接混合されることを示し、２という値は、通信オーディオが最小レンダリング（例えば、点音源の直接音レンダリングおよび指定位置のバイノーラルレンダリング）を経由することを示す。

以下、実施形態でさらに詳細に説明するコンセプトは、６ＤｏＦシーンデータのストリーミングベースの利用中に有意に知覚されない様々な遅延、実装固有の遅延差がある場合でも、リスナまたはユーザにオーディオ信号を信頼できる方法でレンダリングするように構成された装置および方法に関するものである。これらの実施形態は、対話型使用シナリオを実装できるように構成される（ストリーミングベースの利用は対話型使用よりも遅延に敏感でないため）。

以下の説明では、許容遅延バジェットとは、受信した通信オーディオを利用するために許容される遅延の量である。通常、これはエンドツーエンドの配信遅延と、６ＤｏＦイマーシブオーディオシーンに通信オーディオをレンダリングするための遅延から構成される。以下では、この用語は許容遅延値と互換的に使用される。さらに、以下のネットワークバリエーションは、遅延、ジッタ等に基づくことができるエンドツーエンドのネットワーク配信の変化を指す。

以下で説明する実施形態は、６自由度（すなわち、リスナがシーン内で移動でき、リスナの位置および姿勢が追跡される）イマーシブオーディオシーン内での通信オーディオのレンダリングに関するものであり、ネットワーク変動およびイマーシブオーディオシーン依存特性による通信オーディオの動的性質にかかわらず、イマーシブオーディオシーン内で受信した通信オーディオの望ましい（例えば、プレーヤ、ユーザ、または、コンテンツ作成者が指定）レンダリングを確実にするよう構成されている装置および方法が説明されている。これは、いくつかの実施形態において、少なくとも１つの空間オーディオ信号に関連するビットストリームから、受信通信オーディオに関連する位置情報（これは、例えば、通信オーディオをどこに「配置」するかを示すＥＩＦのプレースホルダであり得る）を得ることによって達成され得る。別の実施形態では、通信オーディオのプレースホルダは、オーディオオブジェクトソース、チャネルソース、または、ＨＯＡソース等の任意のオーディオ要素に追加することができる。信号タイプ（ＨＯＡ、オブジェクト、チャネル）のそれぞれに関するオーディオ要素のプロパティは、そのような通信オーディオプレースホルダに追加することができる。いくつかの実施形態では、装置および方法は、さらに、通信オーディオに関連付けられた許容遅延バジェットを取得するように構成され得る（例えば、システムから、一方向もしくは双方向、または、ＥＩＦから取得される）。さらにいくつかの実施形態では、装置および方法は、許容された遅延に基づいて通信オーディオに関連付けられたオーディオフォーマットを取得するように構成される。実施形態はさらに、許容遅延、通信オーディオフォーマット、通信オーディオ遅延、および、オーディオレンダリングパイプライン宣言に基づいて、レンダリングパイプラインにおける適切な挿入ポイントを決定するように（換言すれば、通信オーディオが処理のためにオーディオ信号パイプラインのどこで受信されるかを導出するように）構成されてもよい。いくつかの実施形態による装置および方法は、決定された許容遅延、通信オーディオ遅延、および、オーディオフォーマットのうちの少なくとも１つに基づいて、通信オーディオのための少なくとも１つの処理方法および空間レンダリングパラメータを決定するようにさらに構成される。

したがって、いくつかの実施形態では、処理方法は、信号タイプ（例えば、信号タイプがオブジェクトフォーマット信号、ＨＯＡ信号、または、チャネルフォーマット信号であるかどうか）に応じた通信オーディオ処理の選択およびに関連し、レンダリングパラメータは、その後、適用すべきレンダリングアプローチの１つまたは複数を示すことを参照し得る。例えば、レンダリングパラメータは、レンダリングステージが直接音の点音源レンダリングおよびオーディオオブジェクトのバイノーラルレンダリングを採用することを示してよい。

いくつかのさらなる実施形態では、レンダリングパラメータは、レンダリングプロセスの他の要素を示すか、または制御するために使用され得る。例えば、いくつかの実施形態では、レンダリングパラメータは、レンダリングステージの選択またはスキップを示すために採用することができる。したがって、いくつかの実施形態では、レンダリング処理動作内のある挿入ポイントに基づいて、レンダリングの開始は、オーディオレンダリングパイプラインステージシーケンスに依存するあるシーケンスに従う。しかしながら、レンダリングパラメータは、レンダリング処理シーケンス内のいくつかの中間ステージのスキップを示すために採用することができる。

通信オーディオ信号が高次アンビソニックス（ＨＯＡ）フォーマットとして表されるいくつかの実施形態では、内部変換を伴うシングルポイントＨＯＡとしてレンダリングされるか、または３ＤｏＦＨＯＡとしてレンダリングされるかは、許容されるレンダリング遅延に依存する。いくつかの実施形態では、通信オーディオは、オーディオオブジェクトまたはチャネルとして実装され、オーディオオブジェクトに対して実行される音響モデリングの量は、ネットワーク遅延および許容される利用遅延に依存する。

いくつかの実施形態では、通信オーディオレンダリングは、イマーシブオーディオシーンプレーヤのプリファレンスに従って適合される。これらのプリファレンスは、以下の態様のうちの少なくとも1つを含む。
許可された通信オーディオタイプ（例えば、一方向、対話型、同一の６ＤｏＦシーンを利用するユーザ間、等）
許可された通信オーディオフォーマット（例えば、オーディオオブジェクト、チャンネル、３ＤｏＦＨＯＡ、変換を伴うシングルＨＯＡ）
通信オーディオのレンダリングに許容される遅延
音響モデリングプリファレンス

遅延のプリファレンスに依存するいくつかの実施形態では、通信オーディオは、６ＤｏＦオーディオレンダリングパイプラインを介して入力および処理されるか、または、別々に混合することができる。

例えば、イマーシブオーディオシーンに音響的なマージが最大となる通信オーディオ信号を置くように構成されているが、遅延バジェットが、回折、遮蔽等の特定の機能が不可能であることを要求する場合、レンダラは遮蔽や回折の発生を最小限に抑えるようにオーディオオブジェクト経路を判断する。

図２は、エンドツーエンドのＡＲ／ＸＲ６ＤｏＦオーディオシステムの概要を示す。例では、システムの３つの部分と、オーディオ情報および関連するメタデータを捕捉／生成し、保存／送信するように構成されたキャプチャ／ジェネレータ装置２０１と、オーディオ情報および関連するメタデータに基づいて適切に処理されたオーディオ信号を出力するように構成された拡張現実（ＡＲ）デバイス２０７と、が示されている。図２に示す例のＡＲデバイス２０７は、記憶／配信装置２０３から６ＤｏＦビットストリームを取得してレンダリングする６ＤｏＦオーディオプレーヤ２０５を有する。

図２に示すようないくつかの実施形態では、キャプチャ／ジェネレータ装置２０１は、エンコーダ入力フォーマット（ＥＩＦ）ジェネレータ２１１を有する。エンコーダ入力フォーマット（ＥＩＦ）ジェネレータ２１１（または、より一般的にはシーン定義器）は、６ＤｏＦオーディオシーンを定義するように構成される。いくつかの実施形態では、シーンは、ＥＩＦ（エンコーダ入力フォーマット）または他の任意の適切な６ＤｏＦシーン記述フォーマットによって記述され得る。ＥＩＦは、オーディオシーンを構成するオーディオデータも参照する。エンコーダ入力フォーマット（ＥＩＦ）ジェネレータ２１１は、コンテンツ作成者のシーン記述であるＥＩＦ（エンコーダ入力フォーマット）データを作成するように構成される。シーン記述情報には、オーディオ要素の位置等の仮想シーンの幾何学情報が含まれる。さらに、シーン記述情報は、指向性、サイズ、および他の音響的に関連する要素等の他の関連するメタデータを含んでよい。例えば、関連するメタデータは、仮想壁の位置およびそれらの音響特性、並びに、遮蔽物等の他の音響的に関連するオブジェクトを含むことができる。音響特性の例は、（周波数に依存する）吸収係数または反射係数、散乱エネルギーの量、または透過特性のような音響材料特性である。いくつかの実施形態では、仮想音響環境は、その（周波数に依存する）残響時間または拡散音－直接音比に従って記述され得る。いくつかの実施形態におけるＥＩＦジェネレータ２１１は、より一般的に仮想シーン情報ジェネレータとして知られている。ＥＩＦパラメータ２１４は、いくつかの実施形態において、適切な（ＭＰＥＧ－Ｉ）エンコーダ２１７に提供することができる。

いくつかの実施形態では、キャプチャ／ジェネレータ装置２０１は、オーディオコンテンツジェネレータ２１３を具備している。オーディオコンテンツジェネレータ２１３は、オーディオシーンに対応するオーディオコンテンツを生成するように構成されている。いくつかの実施形態におけるオーディオコンテンツジェネレータ２１３は、仮想シーンに関連するオーディオ信号を生成するか、または、あるいは取得するように構成されている。例えば、いくつかの実施形態において、これらのオーディオ信号は、適切なマイクロフォンまたはマイクロフォンのアレイを使用して取得またはキャプチャされてもよく、処理されたキャプチャ済みオーディオ信号に基づいてもよく、合成されてもよい。いくつかの実施形態では、オーディオコンテンツジェネレータ２１３は、さらに、仮想シーン内の位置、信号の指向性等のオーディオ信号に関連するオーディオパラメータを生成または取得するように構成される。オーディオ信号および／またはパラメータ２１２は、いくつかの実施形態において、適切な（ＭＰＥＧ－Ｉ）エンコーダ２１７に提供され得る。

いくつかの実施形態では、キャプチャ／ジェネレータ装置２０１は、通信オーディオ処理データジェネレータ２１５を具備している。通信オーディオ処理データジェネレータ２１５は、コンテンツ作成者ビットストリームで搬送される情報を生成して、この特定のイマーシブオーディオシーンに対してどのようなタイプ（例えば、対話型、一方向性等）の通信オーディオが許可されているかを示すように構成される。例えば、コンテンツ作成者によっては、任意の発信者からの通信オーディオの着信を許可し、同じ６ＤｏＦオーディオコンテンツを利用している他のユーザからの通信オーディオのみを許可し、任意の６ＤｏＦオーディオコンテンツを利用している任意の２人のユーザ間の通信オーディオを許可してよい。さらに、コンテンツ作成者のビットストリームは、どのレンダリングステージが許可され、どのステージが許可されないかに関する情報を搬送する。

いくつかの実装形態では、通信オーディオ処理パラメータは、デバイスプロファイルプリファレンス、アプリケーション設定、または、ユーザプリファレンス設定に依存し得る。

例えば、いくつかの実施形態では、パラメータは、ＯｂｊｅｃｔＳｏｕｒｃｅＣＡＳｔｒｕｃｔ（）等の構造内に実装され得る。ＯｂｊｅｃｔＳｏｕｒｃｅＣＡＳｔｒｕｃｔ（）構造は、オーディオオブジェクトメタデータの拡張である。いくつかの実施形態では、この構造は、オーディオオブジェクトメタデータ内の構造として現れ得る。以下の例では、オーディオオブジェクトについて説明するが、同様に、ＨＯＡやチャネル用の通信オーディオ構造に拡張できる。

aligned(8) ObjectSourceCAStruct()｛
unsigned int(16) object_audio_identifier;//object audio index
unsigned int(1) ca_prototype_flag;//commmunication audio prototype flag
unsigned int(1) active;//active or inactive flag
unsigned int(1) hasExtent;
unsigned int(32) gainDB;
unsigned int(32) referenceDistance;
bit(5) reserved = 0;
if(ca_prototype_flag)｛
unsigned int(1) exclude_clustering_flag;//communication audio is excluded from clustering
bit(7) reserved = 0;
CommunicationAudioIngestionStruct();
DynamicIndexStruct();
｝ else ｛
MPEGHDecodedAudioIndex;//index to obtain MPEG-H encoded audio stream
Location();
if(hasExtent)
ExtentStruct();
｝
｝

aligned(8) DynamicIndexStruct()｛
unsigned int(16) stream_identifier;//dynamic ID allocated by renderer/player for the communication audio
｝

aligned(8) Location()｛
signed int(32) pos_x;
signed int(32) pos_y;
signed int(32) pos_z;
signed int(32) orient_yaw;
signed int(32) orient_pitch;
signed int(32) orient_roll;
unsigned int(1) cspace;//with respect to listening space origin if 1 with respect to user if 0
bit(7) reserved = 0;
｝

ｃａ＿ｐｒｏｔｏｔｙｐｅ＿ｆｌａｇが１であることは、プレーヤに対して、通信オーディオを受信する準備をする必要があることを示す。通信オーディオ取込関連情報は、ＣｏｍｍｕｎｉｃａｔｉｏｎＡｕｄｉｏＩｎｇｅｓｔｉｏｎＳｔｒｕｃｔ（）によって記述され、これは、６ＤｏＦオーディオシーンに対して許容または許可される通信オーディオのタイプ（複数可）に関する情報をも有する。さらに、通信オーディオでクラスタリングが実行可能か否かを示すフラグｅｘｃｌｕｄｅ＿ｃｌｕｓｔｅｒｉｎｇ＿ｆｌａｇがある。このフラグがない場合、クラスタリングはデフォルトで無効となる。これらの通信オーディオタイプは、双方向、一方向、双方向、同じコンテンツを利用するユーザ間、異なるコンテンツを利用するユーザ間とすることができる。また、取込構造は、必要な（ＲｅｑｕｉｒｅｄＲｅｎｄｅｒｉｎｇＳｔａｇｅｓＳｔｒｕｃｔ（））および不許可の（ＤｉｓａｌｌｏｗｅｄＲｅｎｄｅｒｉｎｇＳｔａｇｅｓＳｔｒｕｃｔ（））レンダリングステージに関する情報を搬送する。さらに、ｒｅｎｄｅｒｉｎｇ＿ｍｏｄｅｓは、通信オーディオがイマーシブオーディオレンダリングパイプラインを介して処理される必要性、または、完全にバイパスされる必要性をコンパクトな方法で提示することもできる。後者の場合、通信オーディオはイマーシブレンダリングパイプラインの外側でレンダリングされ、イマーシブオーディオコンテンツレンダリングパイプラインの出力と混合される。ｒｅｎｄｅｒｉｎｇ＿ｍｏｄｅｓ＿ｐｒｅｓｅｎｔフラグ値がないか、または、０に等しい場合、通信オーディオ信号要素プロパティに従ってレンダリングが実行される。通常、ｃａ＿ｒｅｎｄｅｒｉｎｇ＿ｍｏｄｅｓ＿ｐｒｅｓｅｎｔ値が１である場合、ＲｅｑｕｉｒｅｄＲｅｎｄｅｒｉｎｇＳｔａｇｅｓＳｔｒｕｃｔ（）、ＤｉｓａｌｌｏｗｅｄＲｅｎｄｅｒｉｎｇＳｔａｇｅｓＳｔｒｕｃｔ（）、ｃａ＿ｒｅｎｄｅｒｉｎｇ＿ｍａｘ＿ｌａｔｅｎｃｙ等の他のデータ構造は存在する必要がない。

aligned(8) CommunicationAudioIngestionStruct()｛
unsigned int(1) ca_co_conversational_allowed;//bidirectional call with another user in the same 6DoF immersive audio scene
unsigned int(1) ca_co_oneway_allowed;//commentary from another user in the same 6DoF immersive audio scene
unsigned int(1) ca_conversational_allowed;//bidirectional call
unsigned int(1) ca_oneway_allowed;//commentary
if(ca_co_conversational_allowed)｛
unsigned int(1) ca_delay_threshold_present;
unsigned int(1) required_stages_present;
unsigned int(1) disallowed_rendering_stages_present;
unsigned int(1) ca_rendering_modes_present;
bit(4) reserved = 0;
if(ca_delay_threshold_present)
unsigned int(32) ca_rendering_maxlatency;
if(required_stages_present)
RequiredRenderingStagesStruct();
if(disallowed_stages_present)
DisallowedRenderingStagesStruct();
if(ca_rendering_modes_present)
unsigned int(8) rendering_modes_type;
｝

if(ca_co_oneway_allowed)｛
unsigned int(1) ca_delay_threshold_present;
unsigned int(1) required_stages_present;
unsigned int(1) disallowed_rendering_stages_present;
unsigned int(1) ca_rendering_modes_present;
bit(4) reserved = 0;
if(ca_delay_threshold_present)
unsigned int(32) ca_rendering_maxlatency;
if(required_stages_present)
RequiredRenderingStagesStruct();
if(disallowed_stages_present)
DisallowedRenderingStagesStruct();
if(ca_rendering_modes_present)
unsigned int(8) rendering_modes_type;
｝

if(ca_oneway_allowed)｛
unsigned int(1) ca_delay_threshold_present;
unsigned int(1) required_stages_present;
unsigned int(1) disallowed_rendering_stages_present;
unsigned int(1) ca_rendering_modes_present;
bit(4) reserved = 0;
if(ca_delay_threshold_present)
unsigned int(32) ca_rendering_maxlatency;
if(required_stages_present)
RequiredRenderingStagesStruct();
if(disallowed_stages_present)
DisallowedRenderingStagesStruct();
if(ca_rendering_modes_present)
unsigned int(8) rendering_modes_type;
｝
if(ca_conversational_allowed)｛
unsigned int(1) ca_delay_threshold_present;
unsigned int(1) required_stages_present;
unsigned int(1) disallowed_rendering_stages_present;
unsigned int(1) ca_rendering_modes_present;
bit(4) reserved = 0;
if(ca_delay_threshold_present)
unsigned int(32) ca_rendering_maxlatency;
if(required_stages_present)
RequiredRenderingStagesStruct();
if(disallowed_stages_present)
DisallowedRenderingStagesStruct();
if(ca_rendering_modes_present)
unsigned int(8) rendering_modes_type;
｝
｝

aligned(8) RequiredRenderingStagesStruct()｛
unsigned int(8) num_stages;
for(i=0;i<num_stages;i++)｛
unsigned int(8) rendering_stage_idx;
｝
｝

aligned(8) DisallowedRenderingStagesStruct()｛
unsigned int(8) num_stages;
for(i=0;i<num_stages;i++)｛
unsigned int(8) rendering_stage_idx;
｝
｝

実施態様では、レンダリングステージに加えて、ＭＰＥＧ－Ｉイマーシブオーディオシーンにおける通信オーディオレンダリングの許容遅延閾値を決定するために、ＭＰＥＧ－Ｈ復号遅延も考慮される。復号遅延は、ＭＰＥＧ－Ｉイマーシブオーディオシーンにおけるオーディオ要素のオーディオフォーマットに依存してよい。

いくつかの実施形態では、キャプチャ／ジェネレータ装置２０１は、エンコーダ２１７を具備している。エンコーダは、ＥＩＦパラメータ２１２、通信オーディオ処理パラメータ２１６、および、オーディオ信号／オーディオパラメータ２１４を受信し、これらを復号して適切なビットストリームを生成するように構成される。

エンコーダ２１７は、例えば、ＥＩＦパラメータ２１２、通信オーディオ処理パラメータ２１６、および、オーディオ信号／オーディオパラメータ２１４を使用して、ネットワーク上でのストリーミングに適し得るフォーマットで格納されるＭＰＥＧ－Ｉ６ＤｏＦオーディオシーンコンテンツを生成することができる。配信は、ＭＰＥＧ－ＤＡＳＨ（ＤｙｎａｍｉｃＡｄａｐｔｉｖｅＳｔｒｅａｍｉｎｇＯｖｅｒＨＴＴＰ）、ＨＬＳ（ＨＴＴＰＬｉｖｅＳｔｒｅａｍｉｎｇ）等、任意の適切なフォーマットであり得る。６ＤｏＦビットストリームは、ＭＰＥＧ－Ｈで符号化されたオーディオコンテンツ、および、ＭＰＥＧ－Ｉ６ＤｏＦビットストリームを搬送する。ＥＩＦおよびオーディオデータに基づいてエンコーダによって生成されたコンテンツ作成者ビットストリームは、ＭＨＡＳパケット（ＭＰＥＧ－Ｈ３Ｄオーディオストリーム）に類似する方法でフォーマット化およびカプセル化され得る。いくつかの実施形態における符号化されたビットストリームは、適切なコンテンツストレージモジュール２１９に渡される。例えば、図２に示すように、符号化されたビットストリームは、ＭＰＥＧ－Ｉ６ＤｏＦコンテンツ記憶モジュール２１９に渡される。この例ではエンコーダ２１７はキャプチャ／ジェネレータ装置２０１内に配置されているが、エンコーダ２１７はキャプチャ／ジェネレータ装置２０１から分離することができることが理解されよう。

いくつかの実施形態では、キャプチャ／ジェネレータ装置２０１は、コンテンツストレージモジュールを有する。例えば、図２に示すように、符号化されたビットストリームは、ＭＰＥＧ－Ｉ６ＤｏＦコンテンツストレージ２１９モジュールに渡される。このような実施形態では、オーディオ信号は、符号化されたパラメータとは別のデータストリームで送信される。いくつかの実施形態では、オーディオ信号およびパラメータは、単一のデータストリームまたはフォーマットとして記憶／送信される。

コンテンツストレージ２１９は、コンテンツ（通信オーディオ処理パラメータを有するＥＩＦ導出コンテンツ作成者ビットストリームを含む）を格納し、ＡＲデバイス２０７に提供するように構成される。

いくつかの実施形態では、ヘッドマウントデバイス（ＨＭＤ）を有するＡＲデバイス２０７は、６ＤｏＦオーディオシーンのＡＲ利用用の再生デバイスである。

いくつかの実施形態におけるＡＲデバイス２０７は、少なくとも１つのＡＲセンサ２２１を有する。少なくとも１つのＡＲセンサ２２１は、視覚カメラアレイ、深度センサ、ＬｉＤＡＲ等のマルチモーダルセンサを含んでよい。マルチモーダルセンサは、ＡＲ利用装置によって、リスニング空間の情報を生成するために使用される。この情報は、材料情報、関心のあるオブジェクト等を含み得る。このセンサ情報は、いくつかの実施形態では、ＡＲプロセッサ２２３に渡すことができる。

いくつかの実施形態におけるＡＲデバイス２０７は、少なくとも１つの位置／姿勢センサ２２７を備える。少なくとも１つの位置／姿勢センサ２２７は、物理的なリスニング空間内のリスナの位置および／または姿勢を決定するように構成された任意の適切な１つのセンサまたは複数のセンサを含んでよい。例えば、センサは、デジタルコンパス／ジャイロスコープ、位置決めビーコン等を含んでよい。いくつかの実施形態では、ＡＲセンサ２２１に採用されたセンサは、さらに、リスナの向きおよび／または姿勢を決定するために使用される。このセンサ情報は、いくつかの実施形態では、レンダラ２３５に渡すことができる。

いくつかの実施形態におけるＡＲデバイス２０７は、通信オーディオ２００を受信するように構成された入力を含んでいる。

さらに、いくつかの実施形態では、ＡＲデバイス２０７は、通信オーディオコントローラ２５３を有する。通信オーディオコントローラ２５３は、制御情報をレンダラ２３５に出力し、通信オーディオ２００とインタラクティブオーディオ（ビットストリーム２２０の一部であってもよい）の統合を制御するように構成される。いくつかの実施形態における通信オーディオコントローラ２５３は、以下に説明するフォーマットまたは他の任意の適切なフォーマットで情報を生成するように構成されている。いくつかの実施形態では、この情報は、後続のレンダリング処理に対して繰り返し処理または望ましくない出力を引き起こすことなく処理ステージのいずれかをスキップすることができるように、所望の順序を信号化することができるレンダリングステージ宣言の形態である。いくつかの実施形態におけるレンダリングパイプライン宣言は、シーン管理プロセッサに対して利用可能である。情報のための例示的な構造は、以下のようにすることができる。

aligned(8) RenderingStagesInfoStruct()｛
unsigned int(8) num_stages;
for(i=0;i<num_stages;i++)｛
unsigned int(8) render_stage_idx;
unsigned int(32) mean_delay_value;
unsigned int(32) sd_delay_value;
unsigned int(8) input_audio_type;
｝
｝

いくつかの実施形態では、可聴化パイプラインのレンダリングステージがリストされ、ｍｅａｎ＿ｄｅｌａｙ＿ｖａｌｕｅおよびｓｄ＿ｄｅｌａｙ＿ｖａｌｕｅの値が利用できない場合は－１である。

いくつかの実施形態では、通信オーディオコントローラ２５３は、通信オーディオのフォーマット、配信遅延、および、ジッタ等の制御情報を生成するように構成される。いくつかの実施形態では、この情報は、レンダラ内に格納される所定の値とすることができ、したがって、コントローラ２５３が存在しないか、または、この情報を提供しない場合、レンダラは、デフォルト値を使用するように構成される。例えば、クラスタイプの遅延値は、レンダラによって使用される所定のデフォルト値であり得る。いくつかの実施形態では、制御情報は、以下の構造で渡すことができる。

aligned(8) CommunicationAudioInfoStruct()｛
unsigned int(4) ca_class_type;
unsigned int(4) ca_format_type;
unsigned int(32) ca_delivery_latency;
｝

通信オーディオのフォーマットが０または１の場合、イマーシブオーディオレンダリングパイプラインによって通信オーディオとして入力される。しかしながら、プリレンダリングされた空間オーディオの場合、通信オーディオはミキサーブロックに直接入力される。

別の実施形態では、通信オーディオ処理は、オブジェクト、チャネル、および、ＨＯＡソースに対して指定されるオーディオ要素メタデータ内に埋め込まれる。その結果、通信オーディオは、通信オーディオ固有のプロパティを有する他のオーディオ要素としてＭＰＥＧ－Ｉレンダラによってレンダリングされ得る。これらの通信オーディオ固有のレンダリングプリファレンスは、１つ以上のレンダリングステージを選択および／または拒否するための制御データとして指定される。

aligned(8) ObjectSourceStruct()｛
unsigned int(16) index;//object audio index
unsigned int(1) ca_flag;//placeholder for rendering communication audio as audio object
unsigned int(1) active;//active or inactive flag
unsigned int(1) hasExtent;
unsigned int(32) gainDB;
unsigned int(32) referenceDistance;
bit(5) reserved = 0;
if(ca_flag)｛
CommunicationAudioRenderingStruct();
unsigned int(16) CommunicationAudioIndex;// Identifier to receive the communication audio stream
｝ else ｛
unsigned int(16) MPEGHDecodedAudioIndex;//index to obtain MPEG-H encoded audio stream
Location();//index to obtain MPEG-H encoded audio stream
｝
if(hasExtent)
ExtentStruct();
｝

aligned(8) CommunicationAudioRenderingStruct()｛
unsigned int(1) rendering_modes_present;
unsigned int(1) dynamic_modes_;
if(rendering_modes_present)｛
unsigned int(8) rendering_modes;
｝
bit(7) reserved = 0;
｝

ＯｂｊｅｃｔＳｏｕｒｃｅＳｔｒｕｃｔ（）、ＯｂｊｅｃｔＳｏｕｒｃｅＣＡＳｔｒｕｃｔ（）、または、それらの構成パラメータまたは構造のいずれかが、オーディオシーンの持続時間にわたって変化し得る。その結果、いくつかの実施形態における通信オーディオは、支配的なメタデータ情報に応じて、許可または不許可されてよい。さらに、レンダリングモードまたは挿入ポイントは、オーディオシーンの持続時間にわたって変化してよい。

さらに別の実施形態では、通信オーディオメタデータ、例えば、通信オーディオのプレースホルダである上述のオーディオ要素メタデータは、指示フラグｃｏｍｍｕｎｉｃａｔｉｏｎＡｕｄｉｏＲｅｎｄｅｒＩｍｍｅｄｉａｔｅＦｌａｇを搬送する。

ｃｏｍｍｕｎｉｃａｔｉｏｎＡｕｄｉｏＲｅｎｄｅｒＩｍｍｅｄｉａｔｅＦｌａｇ＝＝０の場合、通信オーディオは、追加の遅延なしに、レンダリングされたイマーシブオーディオシーンに直ちにレンダリングまたは混合される。

ｃｏｍｍｕｎｉｃａｔｉｏｎＡｕｄｉｏＲｅｎｄｅｒＩｍｍｅｄｉａｔｅＦｌａｇ＝＝１の場合、通信オーディオは、オーディオ要素に指定されたレンダリングメタデータおよびプロパティに従ってレンダリングされる。

通信オーディオのメタデータは、レンダラへの動的な更新として配信することも可能である。通信オーディオは、ＰＡＣＴＹＰ＿ＣＡＡＵＤＩＯＤＡＴＡを有する新しいＭＨＡＳパケットとして配信することができ、ラベルは、対応するメタデータおよびＰＡＣＴＹＰ＿ＣＡＡＵＤＩＯＤＡＴＡに適用される動的更新メタデータを示すために使用することができる。ＰＡＣＴＹＰ＿ＣＡＡＵＤＩＯＤＡＴＡパケットは、ペイロードのＯｂｊｅｃｔＳｏｕｒｃｅＳｔｒｕｃｔ（），ＨＯＡＳｏｕｒｃｅＳｔｒｕｃｔ（），ＣｈａｎｎｅｌＳｏｕｒｃｅＳｔｒｕｃｔ（）、または、それらの構造のサブセットを、通信オーディオレンダリングまたは取り込みパラメータと一緒に伝送する。

ある実装例では、ＰＡＣＴＹＰ＿ＣＡＡＵＤＩＯＤＡＴＡは、ＰＣＭの形態のオーディオデータを搬送する。その結果、ＰＡＣＴＹＰ＿ＣＡＡＵＤＩＯＤＡＴＡの後に、ＰＡＣＴＹＰ＿ＰＣＭＣＯＮＦＩＧおよびＰＡＣＴＹＰ＿ＰＣＭＤＡＴＡが続く。先行するＰＡＣＴＹＰ＿ＣＡＡＵＤＩＯＤＡＴＡパケットにより、レンダラは、通信オーディオデータに対応するＰＣＭデータを識別することができる。

いくつかの実施形態では、ＡＲデバイス２０７は、適切な出力デバイスを有する。図２に示す例では、出力装置は、レンダラ２３５によって生成された空間オーディオ出力２４０を受信するように構成されたヘッドフォン２４１として示されているが、任意の適切な出力トランスデューサを配置してよい。

いくつかの実施形態では、ＡＲデバイス２０７は、プレーヤ／レンダラ装置２０５を含んで構成される。プレーヤ／レンダラ装置２０５は、ＥＩＦ導出コンテンツ作成者ビットストリーム２２０、ＡＲセンサ情報、ユーザ位置、および／または、姿勢情報、通信オーディオ２２０、および、通信オーディオコントローラからの制御情報を含むビットストリームを受け取り、この情報から、図２においてヘッドフォン２４１として示されている適切な出力装置に渡すことができる適切な空間オーディオ出力２４０（ＡＲデバイス２０７の中に組み込まれていてもよい）を決定するよう構成される。

いくつかの実施形態では、プレーヤ／レンダラ装置２０５は、ＡＲプロセッサ２２３を具備する。ＡＲプロセッサ２２３は、少なくとも１つのＡＲセンサ２２１からセンサ情報を受信し、ＬＳＤＦジェネレータ２２５に渡され得る適切なＡＲ情報を生成するように構成される。例えば、いくつかの実施形態では、ＡＲプロセッサは、センサタイプのそれぞれからのセンサ情報の融合を実行するように構成されている。

いくつかの実施形態では、プレーヤ／レンダラ装置２０５は、リスニング空間記述ファイル（ＬＳＤＦ）ジェネレータ２２５を具備する。リスニング空間記述ファイル（ＬＳＤＦ）ジェネレータ２２５は、ＡＲプロセッサ２２３の出力を受信し、ＡＲ感知インターフェースから得られた情報から、ＡＲ利用のためのリスニング空間記述を生成するように構成される。リスニング空間のフォーマットは、任意の適切なフォーマットとすることができる。ＬＳＤＦの作成には、ＬＳＤＦフォーマットを使用することができる。この記述は、音響特性（例えば、メッシュ面の材料を含むリスニング空間を包むメッシュ）、リスニング空間記述においてアンカーと呼ばれるシーンの空間的に可変な要素を含むリスニング空間またはルーム情報を搬送する。ＬＳＤＦジェネレータは、このリスニングシーン記述情報をレンダラ２３５に出力するように構成されている。

いくつかの実施形態では、プレーヤ／レンダラ装置２０５は、コンテンツ作成者ビットストリーム（ＥＩＦ情報を含む）２２０を受信するように構成された受信バッファ２３１を具備する。バッファ２３１は、受信データを渡し、データをデコーダ２３３に渡すように構成される。

いくつかの実施形態では、プレーヤ／レンダラ装置２０５は、バッファ２３１から符号化ビットストリームを取得し、復号ＥＩＦ情報および通信オーディオ処理パラメータ（同じデータストリーム内にある場合は復号オーディオデータと共に）をレンダラ２３５に出力するように構成されたデコーダ２３３を有する。

いくつかの実施形態では、プレーヤ／レンダラ装置２０５は、通信レシーババッファおよびデコーダ２５１を有する。通信レシーババッファおよびデコーダ２５１は、通信オーディオ２００を受信し、符号化されたオーディオデータを復号してレンダラ２３５に渡すように構成される。

いくつかの実施形態では、プレーヤ／レンダラ装置２０５は、レンダラ２３５を具備する。レンダラ２３５は、復号されたＥＩＦ情報（同じデータストリーム内にある場合には、復号されたイマーシブオーディオデータを含む）、リスニングシーン記述情報、リスナ位置および／または姿勢情報、復号された通信オーディオ、および、通信オーディオ制御情報を受信するように構成される。レンダラ２３５は、空間オーディオ出力信号を生成し、図２にヘッドフォン２４１への空間オーディオ出力２４０で示すように、これらを出力デバイスに渡すように構成される。

図３に関して、図２に示したシステムの動作の一例を示す。

図３に示すように、ステップ３０１によって、通信オーディオ処理データが取得（または、生成）される。

本方法は、図３に示すように、ステップ３０３によって、ＥＩＦ情報を生成、または、あるいは、取得することを含んでよい。

さらに、図３に示すように、ステップ３０５によって、オーディオデータが取得（または、生成）される。

そして、図３に示すように、ステップ３０７によって、ＥＩＦ情報、通信オーディオ処理データ、および、オーディオデータが符号化される。

そして、図３に示すように、ステップ３０９によって、符号化されたデータが、記憶／取得、または、送信／受信される。

さらに、図３に示すように、ステップ３１１によって、ＡＲシーンデータが取得される。

図３に示すように、ステップ３１３によって、検出されたＡＲシーンデータから、リスニング空間記述（ファイル）情報が生成される。

さらに、図３に示すように、ステップ３１２によって、通信オーディオ制御情報が取得され得る。

また、図３に示すように、ステップ３１４によって、通信オーディオデータが取得される。

さらに、図３に示すように、ステップ３１５によって、リスナ／ユーザの位置および／または姿勢データを取得することができる。

そして、オーディオデータ、通信オーディオ制御情報、通信オーディオ、ＥＩＦ情報、ＬＳＤＦデータ、位置および／または姿勢データに基づいて、空間オーディオ信号がレンダリングされ得る。具体的には、レンダリングは、図３にステップ３１７で示すように、オーディオ信号の組み合わせを含む。

空間オーディオ信号をレンダリングした後、図３に示すように、ステップ３１９によって、これらはヘッドフォン等の適切な出力装置に出力され得る。

図４は、いくつかの実施形態を実装するのに適した例示的なレンダラ２３５を示し、融合されたオーディオ信号を実現するように構成され得る。

例えば、図４は、レンダラ２３５の前に、復号された６ＤｏＦビットストリームを受信するように構成されたビットストリームパーサ４０１があることを示す。そして、解析されたＥＩＦデータは、シーンマネージャ／プロセッサ４０３に渡され得る。

いくつかの実施形態におけるレンダラ２３５は、シーンマネージャ／プロセッサ４０３を有する。シーンマネージャ／プロセッサ４０３は、ビットストリームパーサ４０１から解析されたＥＩＦ、通信制御情報、例えば、遅延、ジッタ、および、通信オーディオデータ４０２のフォーマットを定義するパラメータを受信するように構成される。

いくつかの実施形態におけるシーンマネージャ／プロセッサ４０３は、通信オーディオ処理に関する（ビットストリームから得られる）コンテンツ作成者プリファレンス、遅延に対する通信オーディオ許容バジェット等の情報に従って、可聴化パイプライン（または、レンダリングのためのＤＳＰ処理）を制御するように構成されている通信オーディオ適応プロセッサ４１１を有する。

そして、シーン管理情報は、シーン状態導出オーディオプロセッサ４０５に渡され得る。

シーンマネージャ／プロセッサ４０３は、さらに、復号された６ＤｏＦオーディオ信号、処理されたシーン情報、および、リスナの位置および／または姿勢を取得し、これらから空間オーディオ信号出力を生成するように構成されてもよい。上記に示したように、シーンマネージャ／プロセッサ４０３の効果は、任意の既知のまたは適切な空間オーディオ処理実装を採用できるようなものである（可聴化パイプラインは、先のシーン処理に関わらない）。

いくつかの実施形態におけるレンダラ２３５は、シーン状態導出型オーディオプロセッサ（ＤＳＰ処理および可聴化）４０５を有する。シーン状態導出オーディオプロセッサ（ＤＳＰ処理および可聴化）４０５は、シーンマネージャ／プロセッサ４０３からの構成情報、復号イマーシブオーディオ（ＭＰＥＧ－Ｉオーディオ／復号ＭＰＥＧ－Ｈオーディオ）４００、および、復号通信オーディオ信号４５０を受信して、空間オーディオ信号を生成するよう構成される。

図５に関して、例示的なシーン状態導出オーディオプロセッサ（ＤＳＰ処理および可聴化）４０５を示す。シーン状態導出オーディオプロセッサは、可聴化パイプライン内の異なるレンダリングモジュールを介して復号されたイマーシブオーディオ（ＩＡ）および通信オーディオ（ＣＡ）フローを取得するよう構成される。いくつかの実施形態では、プロセッサ４０５は、ＩＡフォーマットタイプ（ＩＡ_１およびＩＡ_２）に基づいて、複数の処理経路を採用するように構成されている。同様に、通信オーディオ（ＣＡ）は、複数のパスを有してもよい（この例では、ＣＡフォーマットに従って、３つの候補パス、ＣＡ_１、ＣＡ_２、および、ＣＡ_３がある）。異なるレンダリングモジュールは、ＩＡまたはＣＡのための可能な挿入ポイントを示すインデックス番号で注釈される。さらに、本明細書に示す例示的なプロセッサ４０５は、２つの出力オプションを有する。ミキサを有する第１のオプション（Ｏ_２）と、ミキサを有しない他のオプション（Ｏ_１）である。

第１の経路ＩＡ_１－ＣＡ_１は、オーディオ信号に対して以下の処理動作を適用し、オーディオオブジェクトのモデリング処理を適用し得るように構成されている。

いくつかの実施形態では、シーン状態導出オーディオプロセッサ（ＤＳＰ処理および可聴化）４０５は、シーンマネージャ／プロセッサ４０３からの設定情報からの制御情報に基づいて、イマーシブオーディオ（ＩＡ）および通信オーディオ（ＣＡ）のドップラ処理を制御するように構成されたドップラープロセッサ５０１を有する。

いくつかの実施形態では、シーン状態導出オーディオプロセッサ（ＤＳＰ処理および可聴化）４０５は、シーンマネージャ／プロセッサ４０３からの設定情報の制御情報に基づいて、イマーシブオーディオ（ＩＡ）および通信オーディオ（ＣＡ）の直接音処理を制御するように構成された直接音プロセッサ５０３を有する。

いくつかの実施形態では、シーン状態導出オーディオプロセッサ（ＤＳＰ処理および可聴化）４０５は、シーンマネージャ／プロセッサ４０３からの設定情報の制御情報に基づいて、イマーシブオーディオ（ＩＡ）および通信オーディオ（ＣＡ）のマテリアルフィルタ処理を制御するように構成されているマテリアルフィルタプロセッサ５０５を有する。

いくつかの実施形態では、シーン状態導出オーディオプロセッサ（ＤＳＰ処理および可聴化）４０５は、シーンマネージャ／プロセッサ４０３からの設定情報からの制御情報に基づいて、イマーシブオーディオ（ＩＡ）および通信オーディオ（ＣＡ）の初期反射音処理を制御するように構成されている初期反射プロセッサ５０７を有する。

いくつかの実施形態では、シーン状態導出オーディオプロセッサ（ＤＳＰ処理および可聴化）４０５は、シーンマネージャ／プロセッサ４０３からの設定情報からの制御情報に基づいて、イマーシブオーディオ（ＩＡ）および通信オーディオ（ＣＡ）の後期残響処理を制御するように構成されている後期残響プロセッサ５０９を有する。

いくつかの実施形態では、シーン状態導出オーディオプロセッサ（ＤＳＰ処理および可聴化）４０５は、シーンマネージャ／プロセッサ４０３からの設定情報からの制御情報に基づいて、イマーシブオーディオ（ＩＡ）および通信オーディオ（ＣＡ）の拡張音処理を制御するように構成されている拡張プロセッサを有する。

上記の処理の順序は、任意の適切な順序とすることができることが理解されよう。オブジェクト処理プロセッサの出力は、より高次のアンビソニックスまたはスペイシャライザプロセッサ５４１に渡すことができる。

第２の経路ＩＡ_２－ＣＡ_２は、オーディオ信号に対して、以下の処理動作を適用し、より高次のアンビソンクス処理を適用するものであってもよい。

いくつかの実施形態では、シーン状態導出オーディオプロセッサ（ＤＳＰ処理および可聴化）４０５は、シーンマネージャ／プロセッサ４０３からの設定情報からの制御情報に基づいて、イマーシブオーディオ（ＩＡ）および通信オーディオ（ＣＡ）のＳＰ高次アンビソニクス処理を制御するように構成されたＳＰ高次アンビソニクスプロセッサ５２１を有する。

いくつかの実施形態では、シーン状態導出オーディオプロセッサ（ＤＳＰ処理および可聴化）４０５は、シーンマネージャ／プロセッサ４０３からの設定情報からの制御情報に基づいて、イマーシブオーディオ（ＩＡ）および通信オーディオ（ＣＡ）のＭＰ高次アンビソニック処理を制御するように構成されているＭＰ高次アンビソニックプロセッサ５２３を有する。

高次アンビソニックス処理の出力は、いくつかの実施形態では、スペイシャライザプロセッサ５４１の高次アンビソニックスに渡すことができる。

第１経路および第２経路は、スペイシャライザプロセッサ５４１の高次アンビソニックに行き、シーンマネージャ／プロセッサ４０３からの設定情報からの制御情報等のオーディオフォーマットに基づいて、出力Ｏ_１として、または、ミキサ５５１に出力する２経路のいずれかを選択するように構成されている。

第３経路ＣＡ_３は、オーディオ信号に対して、以下のような処理動作を適用し、レンダリング処理を適用したものであってもよい。

いくつかの実施形態では、シーン状態導出オーディオプロセッサ（ＤＳＰ処理および可聴化）４０５は、シーンマネージャ／プロセッサ４０３からの設定情報からの制御情報に基づいて、通信オーディオ（ＣＡ）の処理を制御するように構成された通信オーディオ出力レンダリングオーディオプロセッサ５３１を有する。

通信オーディオ出力レンダリングオーディオプロセッサ５３１の出力は、いくつかの実施形態において、ミキサ５５１に渡され得る。

いくつかの実施形態では、シーン状態導出オーディオプロセッサ（ＤＳＰ処理および可聴化）４０５は、通信オーディオ出力レンダリングオーディオプロセッサ５３１および高次アンビソニックスまたはスペイシャライザプロセッサ５４１の出力を受信し、これらをシーンマネージャ／プロセッサ４０３からの設定情報からの制御情報に基づいて、混合して混合出力Ｏ_２を生成するように構成されるミキサを有する。

図６に、いくつかの実施形態で示されるシーン状態導出オーディオプロセッサ（ＤＳＰ処理および可聴化）４０５の動作を示す例示的なフロー図が示される。

復号イマーシブオーディオ入力は、図６に示すように、ステップ６０１によって、リスニング空間記述から受信または取得される。

さらに、通信オーディオ入力は、図６に示すように、ステップ６０３によって、受信または取得される。

さらに、処理パイプラインが示されている。

空間化処理パイプラインをステップ６０５からステップ６１５によって示す。これらは、図６のステップ６０５で示すドップラ処理、図６のステップ６０７で示す直接音処理、図６のステップ６０９で示すマテリアルフィルタ処理、図６のステップ６１１で示す初期反射処理、図６のステップ６１３で示す後期残響処理、図６のステップ６１５で示す拡張処理である。

アンビソニックス処理パイプラインは、ステップ６２１および６２３によって示される。これらは、図６にステップ６２１で示す、ＳＰ高次アンビソニックス処理、および、図６にステップ６２３で示す、ＭＰ高次アンビソニックス処理である。

プリレンダリングされた通信オーディオ出力パイプラインは、図６に示すように、ステップ６３１によって、通信オーディオ出力レンダリングオーディオ処理によって示される。

さらに、図６に示すように、ステップ６２５によって、選択された空間化された、または、アンビソニックスパイプライン出力を示す。

いくつかの実施形態では、選択された空間化された、または、アンビソニックス処理パイプラインの出力、換言すれば、イマーシブオーディオレンダリングパイプラインの出力は、次に、図６に示すように、ステップ６２７によって、混合されていないオーディオ信号として出力される。

いくつかの実施形態では、選択された空間化された、または、アンビソニックス処理パイプライン出力、および、プリレンダリングされた通信オーディオ出力パイプラインは、図６に示すように、ステップ６４１によって、混合され、出力される。

図７は、通信オーディオのレンダリングのための適切なオーディオ挿入ポイントの決定、および、処理ステップの選択を決定する手順を説明するフロー図である。

本方法は、図７に示すように、ステップ７０１によって、通信オーディオ処理用コンテンツ作成者ビットストリームを受信するよう構成されている。これは、ＭＰＥＧ－Ｉ６ＤｏＦコンテンツの一部として取得することができる。

次に、現在利用されているイマーシブオーディオシーンにおいて、通信オーディオの利用が許可されているか否かを判断するためのチェックが行われる。このチェックは、図７にステップ７０３で示されている。

利用が許可され、かつ、サポートされている場合、次の動作が構成され、図７に示すように、ステップ７０５によって、通信オーディオ情報を回収する。

その後、図７に示されるように、ステップ７０７によって、許可された通信オーディオタイプ（例えば、解説、双方向性等）がサポートされているか否かを判断するために、さらなるチェックが実行され得る。チェックが、オーディオタイプが許可されていないと判断するいくつかの実施形態（図示せず）において、方法は、イマーシブオーディオシーンを一時停止し、通信オーディオを継続するか、または、切り替えるべきである。

タイプがサポートされる場合、図７に示されるように、ステップ７０９によって、レンダリングステージ宣言および関連する遅延情報が次に受信されるか、または、あるいは取得される。これにより、利用可能なレンダリングステージ、および、通信オーディオのための潜在的な挿入ポイントに関する情報が提供される。

いくつかの実施形態では、図７に示されるように、ステップ７１１によって、遅延閾値情報が存在するか否かを決定するために、さらなるチェック動作が続き得る。

遅延閾値情報が存在する場合、方法は、図７に示されるように、ステップ７１３によって、宣言されたレンダリングパイプラインからステージを選択するために、レンダリングステージの遅延を利用するように構成され得る。

いくつかの実施形態では、これは、
通信オーディオ遅延（ｃａ＿ｄｅｌｉｖｅｒｙ＿ｌａｔｅｎｃｙ）を遅延閾値から減算して、最新の遅延要件を取得することと、
通信オーディオフォーマットタイプを使用して、フォーマットタイプ（ｃａ＿ｆｏｒｍａｔ＿ｔｙｐｅ）に適用可能なレンダリングステージの候補を決定することと、
ＤｉｓａｌｌｏｗｅｄＲｅｎｄｅｒｉｎｇＳｔａｇｅｓＳｔｒｕｃｔ（）が存在する場合、その情報は、関連する宣言されたレンダリングパイプラインからステージを破棄するために使用されることが可能であり、
最新の遅延要件に準拠しながら、ＲｅｑｕｉｒｅｄＲｅｎｄｅｒｉｎｇＳｔａｇｅｓＳｔｒｕｃｔ（）に示されるレンダリングステージの包含を優先させることと、
上記動作により取得された最初のレンダリングステージにおける通信オーディオの挿入または入力を制御することと、
によって実装することができる。

遅延閾値情報が存在しない場合、方法は、コンテンツ作成者ビットストリームから要求され、かつ、許可されないステージ情報を使用して、宣言されたレンダリングパイプラインからステージを選択するように構成することができる。さらに、レンダリングモードが存在する場合、レンダリングモードに基づいて、レンダリングが実施されるように設定される。ステージの選択、および、存在する場合は、レンダリングモードに基づくレンダリングの設定が、図7にステップ715で示される。これは、例えば、以下の動作を用いることができる。
ｃａ＿ｄｅｌｉｖｅｒｙ＿ｌａｔｅｎｃｙとｃａ＿ｃｌａｓｓ＿ｔｙｐｅとの差を取得することによって導出される要件に基づいて、最新の遅延要件を取得すること、
通信オーディオフォーマットタイプに基づいて、ｃａ＿ｆｏｒｍａｔ＿ｔｙｐｅに適用可能なレンダリングステージ候補を決定することと、
ＤｉｓａｌｌｏｗｅｄＲｅｎｄｅｒｉｎｇＳｔａｇｅｓＳｔｒｕｃｔ（）が存在する場合、関連する宣言されたレンダリングパイプラインからステージを廃棄するために使用され、
最新の遅延要件に準拠しながら、ＲｅｑｕｉｒｅｄＲｅｎｄｅｒｉｎｇＳｔａｇｅｓＳｔｒｕｃｔ（）で示されるレンダリングステージを含めることを優先させることと、
上記動作により取得された最初のレンダリングステージに通信オーディオを挿入すること。

そして、図７に示すように、ステップ７１７によって、通信オーディオがレンダリングされる。

いくつかの実施形態では、次に、新たな通信オーディオ遅延が取得される。現在推定された遅延要件からの差が予め決められた閾値を超えて変化する場合、オーディオレンダリングパイプラインは修正される。これは、図７に示すように、ステップ７１９によって、通信オーディオ情報に変化があるか否かを決定するチェックステップが実行され、応答がイエスである場合、動作はステップ７０５に戻される。

オーディオオブジェクトフォーマットの通信オーディオシナリオの例としては、コンテンツ作成者のビットストリームがオーディオオブジェクトと同様の音響モデリングを指定した場合、フォーマットタイプがモノラルである通信オーディオ信号をオーディオオブジェクトとして扱うものがある。オーディオオブジェクトは、遅延要件が満たされる限り、レンダリングパイプラインで指定された音響処理ステップでレンダリングされる。しかしながら、別の例では、特定のレンダリング処理ステップ（たとえば、音源拡張、または、有意なレンダリング遅延を追加するそのようなステップ）が観察される場合、それが必要なステージメタデータの一部でない限り、その特定のレンダリングステップは省略される。

さらなる例は、ＨＯＡソース内の翻訳サポートでＨＯＡソースを示す、コンテンツ作成者ビットストリームを有するＨＯＡソースとして、通信オーディオが配信されるＨＯＡフォーマット通信オーディオである。レンダリングパイプラインがシングルＨＯＡソースレンダリングを含むように選択されている場合、遅延制約に基づいて、この処理に対応することができることが確認されている。同じシーンの別の例では、通信オーディオ遅延が大きすぎて、変換を伴うシングルポイントＨＯＡレンダリングができないことが確認されている。その結果、ＨＯＡソースの通信オーディオは、変換処理なしでレンダリングされるが、混合ブロックではイマーシブオーディオ出力と直接混合される。

図８に関して、上記の装置のいずれかを表すことができる例示的な電子装置である。本装置は、任意の適切な電子機器または装置であってよい。例えば、いくつかの実施形態では、装置１４００は、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置等であってよい。

いくつかの実施形態では、装置１４００は、少なくとも１つのプロセッサまたは中央処理装置１４０７を備える。プロセッサ１４０７は、本明細書に記載されるような方法等、様々なプログラムコードを実行するように構成され得る。

いくつかの実施形態では、装置１４００は、メモリ１４１１を備える。いくつかの実施形態では、少なくとも１つのプロセッサ１４０７は、メモリ１４１１に結合される。メモリ１４１１は、任意の適切な記憶手段であり得る。いくつかの実施形態では、メモリ１４１１は、プロセッサ１４０７に実装可能なプログラムコードを格納するためのプログラムコード部を具備する。さらに、いくつかの実施形態では、メモリ１４１１は、データ、例えば、本明細書に記載されるような実施形態に従って処理された、または、処理されるべきデータを記憶するための記憶データ部をさらに備えることができる。プログラムコード部内に格納された実装プログラムコード、および、格納データ部内に格納されたデータは、メモリ－プロセッサ結合を介して、必要なときにいつでもプロセッサ１４０７によって取り出され得る。

いくつかの実施形態では、装置１４００は、ユーザインタフェース１４０５を備える。ユーザインタフェース１４０５は、いくつかの実施形態では、プロセッサ１４０７に結合され得る。いくつかの実施形態では、プロセッサ１４０７は、ユーザインタフェース１４０５の動作を制御し、ユーザインタフェース１４０５から入力を受信することができる。いくつかの実施形態では、ユーザインタフェース１４０５は、ユーザが、例えば、キーパッドを介して、装置１４００に命令を入力することを可能にすることができる。いくつかの実施形態では、ユーザインタフェース１４０５は、ユーザが装置１４００から情報を取得することを可能にすることができる。例えば、ユーザインタフェース１４０５は、装置１４００からの情報をユーザに表示するように構成されたディスプレイを有してよい。ユーザインタフェース１４０５は、いくつかの実施形態において、装置１４００に情報を入力することを可能にし、さらに装置１４００のユーザに対して情報を表示することの両方が可能なタッチスクリーンまたはタッチインターフェースで構成されてよい。いくつかの実施形態では、ユーザインタフェース１４０５は、本明細書に記載されるように位置決定装置と通信するためのユーザインタフェースであってもよい。

いくつかの実施形態では、装置１４００は、入力／出力ポート１４０９を具備している。いくつかの実施形態における入力／出力ポート１４０９は、トランシーバを具備する。そのような実施形態におけるトランシーバは、プロセッサ１４０７に結合され、例えば、無線通信ネットワークを介して他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の適切なトランシーバまたは送信および／または受信手段は、いくつかの実施形態において、有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成され得る。

トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバは、適切なユニバーサル移動通信システム（ＵＭＴＳ）プロトコル、例えばＩＥＥＥ８０２．Ｘ等の無線ローカルエリアネットワーク（ＷＬＡＮ）プロトコル、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路（ＩＲＤＡ）を使用することができる。

トランシーバ入力／出力ポート１４０９は、適切なコードを実行するプロセッサ１４０７を使用して、信号を受信し、いくつかの実施形態では、本明細書に記載されるようにパラメータを決定するように構成されてもよい。

また、上記では例示的な実施形態について説明したが、本発明の範囲から逸脱することなく、開示された解決策にいくつかの変形および修正が可能であることを本明細書では指摘する。

一般に、様々な実施形態は、ハードウェアまたは特定用途回路、ソフトウェア、ロジック、またはそれらの任意の組み合わせで実装されてもよい。本開示のいくつかの態様はハードウェアで実装されてもよく、他の態様は、コントローラ、マイクロプロセッサ、または他のコンピューティング装置によって実行され得るファームウェアまたはソフトウェアで実装されてもよいが、本開示はこれに限定されない。本開示の様々な態様は、ブロック図、フローチャートとして、または他の何らかの図的表現を用いて図示および説明され得るが、本明細書に記載されるこれらのブロック、装置、システム、技術または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特定用途回路または論理、汎用ハードウェアまたはコントローラもしくは他のコンピューティング装置、またはこれらの組み合わせで実施され得ることが十分に理解されよう。

本願で使用する場合、「回路」という用語は、以下の１つ以上またはすべてを指す場合がある。
（ａ）ハードウェアのみの回路実装（アナログ回路および／またはデジタル回路のみにおける実装等）、および、
（ｂ）ハードウェア回路とソフトウェアの組み合わせ、例えば（該当する場合）、
（ｉ）アナログおよび／またはデジタルハードウェア回路とソフトウェア／ファームウェアとの組合せ、および、
（ｉｉ）携帯電話やサーバ等の機器に様々な機能を実行させるために協働するソフトウェア（デジタル信号プロセッサを含む）、ソフトウェア、およびメモリを有するハードウェアプロセッサの部分）、および、
（ｃ）マイクロプロセッサ（複数）またはマイクロプロセッサ（複数）の一部等のハードウェア回路およびプロセッサで、動作のためにソフトウェア（例えば、ファームウェア）を必要とするが、動作に必要ないときはソフトウェアが存在しない場合もあるもの。

この回路の定義は、あらゆる請求項を含む、本願におけるこの用語のすべての使用に適用される。さらなる例として、本願で使用されるように、回路という用語は、単にハードウェア回路またはプロセッサ（または複数のプロセッサ）またはハードウェア回路またはプロセッサの一部と、その（またはそれらの）付随するソフトウェアおよび／またはファームウェアの実装も対象とする。

また、回路という用語は、例えば、特定の請求項の要素に適用可能であれば、携帯端末用のベースバンド集積回路またはプロセッサ集積回路、あるいは、サーバ、セルラーネットワーク装置、または他のコンピューティング装置またはネットワーク装置の同様の集積回路を対象とする。

本開示の実施形態は、プロセッサエンティティ等のモバイルデバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、またはソフトウェアとハードウェアの組み合わせによって実装されてもよい。ソフトウェアルーチン、アプレットおよび／またはマクロを含む、プログラム製品とも呼ばれるコンピュータソフトウェアまたはプログラムは、任意の装置可読データ記憶媒体に格納されてもよく、それらは特定のタスクを実行するプログラム命令からなる。コンピュータプログラム製品は、プログラムが実行されると、実施形態を実行するように構成される１つ以上のコンピュータ実行可能な構成要素から構成されてもよい。１つ以上のコンピュータ実行可能な構成要素は、少なくとも１つのソフトウェアコードまたはその一部であってもよい。

さらに、この点で、図のような論理フローの任意のブロックは、プログラムステップ、または相互に接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組み合わせを表すことができることに留意されたい。ソフトウェアは、メモリチップ、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピーディスク等の磁気媒体、および例えばＤＶＤおよびそのデータ変種であるＣＤ等の光媒体等の物理媒体に格納されてもよい。物理媒体は、非一時的な媒体である。

メモリは、ローカル技術環境に適した任意のタイプであってよく、半導体ベースのメモリ装置、磁気メモリ装置およびシステム、光学メモリ装置およびシステム、固定メモリおよび着脱可能メモリ等、任意の適したデータ記憶技術を使用して実装することができる。データプロセッサは、ローカルの技術環境に適した任意のタイプであってよく、非限定的な例として、汎用コンピュータ、特殊用途コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特殊用途集積回路（ＡＳＩＣ）、ＦＰＧＡ、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサの１つ以上を含んでいてよい。

本開示の実施形態は、集積回路モジュール等の様々な部品において実施することができる。集積回路の設計は、概して、高度に自動化されたプロセスである。論理レベル設計を、半導体基板上にエッチングして形成する準備が整った半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。

本開示の様々な実施形態に求められる保護の範囲は、独立請求項によって規定される。独立請求項の範囲に該当しない本明細書に記載された実施形態および特徴（もしあれば）は、本開示の様々な実施形態を理解するために有用な例として解釈されるものとする。

上述の説明は、非限定的な例によって、本開示の例示的な実施形態の完全かつ有益な説明を提供した。しかしながら、添付の図面および添付の特許請求の範囲と併せて読むと、上述の説明に鑑みて、様々な修正および適応が関連技術の当業者には明らかになるであろう。しかしながら、本開示の教示の全てのそのようなおよび類似の修正は、やはり添付の特許請求の範囲で定義される本発明の範囲内に入るであろう。実際、１つ以上の実施形態と、先に説明した他の実施形態のいずれかとの組み合わせからなるさらなる実施形態が存在する。

Claims

イマーシブオーディオシーン内で通信オーディオ信号をレンダリングするための装置であって、前記装置は、
前記イマーシブオーディオシーン内でレンダリングするための少なくとも１つの空間オーディオ信号を取得し、
前記通信オーディオ信号および前記通信オーディオ信号に関連する位置情報を取得し、
前記通信オーディオ信号に関連するレンダリング処理パラメータを取得し、
前記レンダリング処理パラメータに基づいて、レンダリング方法を決定し、
前記決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および／または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のためのレンダリング要素の選択を決定する、
ように構成された手段を備える、装置。
前記手段は、前記決定されたレンダリング方法および前記決定されたレンダリング方法のための前記レンダリング処理における挿入ポイント、および／または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、前記少なくとも１つの空間オーディオ信号および前記通信オーディオ信号から、少なくとも１つの出力空間オーディオ信号を生成するようにさらに構成される、請求項１に記載の装置。
前記手段は、
前記通信オーディオ信号に関連するオーディオフォーマット、
許容遅延値、および、
通信オーディオ信号遅延、
のうちの少なくとも１つを決定するようにさらに構成される、請求項１または２に記載の装置。
前記決定されたレンダリング方法のレンダリング処理における挿入ポイント、および／または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のレンダリング要素の選択を決定するように構成された前記手段が、
前記通信オーディオ信号に関連付けられた前記オーディオフォーマット、前記許容遅延値、および、前記通信オーディオ信号遅延のうちの前記決定された少なくとも１つにさらに基づいて、前記レンダリング処理における前記挿入ポイントを決定することと、
前記通信オーディオ信号に関連付けられた前記オーディオフォーマット、前記許容遅延値、および、前記通信オーディオ信号遅延のうちの前記決定された少なくとも１つに基づいて、前記レンダリング方法、および／または、前記決定されたレンダリング方法のためのレンダリング要素の前記選択を決定することと、
のうちの少なくとも１つを行うようにさらに構成されている、請求項３に記載の装置。
前記許容遅延値は、前記通信オーディオ信号を利用するために許容される遅延量であり、前記通信オーディオ信号遅延は、エンドツーエンドの配信遅延および前記通信オーディオをレンダリングする遅延に基づいて決定された遅延値である、請求項４に記載の装置。
前記通信オーディオ信号に関連する前記オーディオフォーマットは、
一方向通信オーディオ信号と、
前記イマーシブシーン内のユーザ間の対話通信オーディオ信号と、
のうちの１つを含む、請求項３乃至５のいずれかに記載の装置。
前記決定されたレンダリング方法および前記決定されたレンダリング方法のための前記レンダリング処理における挿入ポイント、および／または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、前記少なくとも１つの空間オーディオ信号および前記通信オーディオ信号から、前記少なくとも１つの出力空間オーディオ信号を生成するよう構成された前記手段が、前記通信オーディオ信号を高次アンビソニックオーディオ信号として表現するよう構成されている、請求項２または請求項２に従属するいずれかの請求項に記載の装置。
前記手段は、さらに、ユーザ入力を取得するように構成され、前記決定されたレンダリング方法および前記決定されたレンダリング方法のための前記レンダリング処理における挿入ポイント、および／または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、前記少なくとも１つの空間オーディオ信号および前記通信オーディオ信号から、前記少なくとも１つの出力空間オーディオ信号を生成するよう構成された前記手段が、さらに前記ユーザ入力に基づいて、前記少なくとも１つの空間オーディオ信号および前記通信オーディオ信号から、前記少なくとも１つの出力空間オーディオ信号を生成するように構成され、前記ユーザ入力は、
許可された通信オーディオ信号タイプ、
許可されたオーディオフォーマット、
前記許容遅延値、
少なくとも１つの音響モデリングプリファレンスパラメータ、
のうちの少なくとも１つを定義するよう構成されている、請求項２または請求項２に従属する請求項のいずれかに記載の装置。
前記手段は、前記少なくとも１つの空間オーディオ信号に関連付けられた通信オーディオ信号タイプを取得するようにさらに構成され、前記決定されたレンダリング方法および前記決定されたレンダリング方法のための前記レンダリング処理における挿入ポイント、および／または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、前記少なくとも１つの空間オーディオ信号および前記通信オーディオ信号から、前記少なくとも１つの出力空間オーディオ信号を生成するよう構成された前記手段が、さらに、前記少なくとも１つの空間オーディオ信号に関連する前記少なくとも１つの通信オーディオ信号タイプに基づいて、前記少なくとも１つの空間オーディオ信号および前記通信オーディオ信号から、前記少なくとも１つの出力空間オーディオ信号を生成するよう構成されている、請求項２または請求項２に従属する請求項のいずれかに記載の装置。
前記レンダリング処理および／またはレンダリング要素は、
ドップラ処理、
直接音処理、
マテリアルフィルタ処理、
初期反射処理、
拡散後期残響処理、
音源拡張処理、
遮蔽処理、
回折処理、
音源変換処理、
外在化レンダリング、
インヘッドレンダリング、
のうちの１つまたは複数を含む、請求項１乃至９のいずれかに記載の装置。
前記決定されたレンダリング方法のレンダリング処理における挿入ポイント、および／または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のレンダリング要素の選択を決定するように構成された前記手段は、レンダリングモードを決定するように構成され、前記レンダリングモードが、前記通信オーディオ信号の前記挿入ポイントを示す値を含む、請求項１乃至１０のいずれかに記載の装置。
前記挿入ポイントを示す前記値は、
前記通信オーディオ信号および前記少なくとも１つの空間オーディオ信号が、前記レンダリング処理方法の前記開始時に挿入されることを示す第１のモード値、
前記通信オーディオ信号が前記レンダリング処理をバイパスし、かつ、前記少なくとも１つの空間オーディオ信号に適用される前記レンダリング処理の出力と直接混合されることを示す第２のモード値、
前記レンダリング処理が前記少なくとも１つの空間オーディオ信号に完全に適用される一方で、前記通信オーディオ信号が部分的にレンダリング処理されることを示す第３のモード値、
のうちの１つを含む、請求項１１に記載の装置。
前記通信オーディオ信号が部分的にレンダリング処理されていることを示す前記第３のモード値は、前記通信オーディオ信号が点音源に対する直接音レンダリングであり、かつ、ユーザ位置に対するバイノーラルレンダリングであることを示す値である、請求項１２に記載の装置。
前記手段は、前記レンダリング処理パラメータに基づいて、前記通信オーディオ信号のオーディオフォーマットタイプを決定するようにさらに構成される、請求項１乃至１３のいずれかに記載の装置。
前記決定されたレンダリング方法の前記レンダリング処理における挿入ポイント、および／または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のレンダリング要素の前記選択を決定するように構成された前記手段は、前記オーディオフォーマットタイプに基づいて前記決定されたレンダリング方法内の前記通信オーディオ信号の前記レンダリング処理における前記挿入ポイントを決定するように構成されている、請求項１４に記載の装置。
前記オーディオフォーマットタイプに基づいて前記決定されたレンダリング方法内の前記通信オーディオ信号に対する前記レンダリング処理における前記挿入ポイントを決定するように構成された前記手段は、前記通信オーディオ信号がプリレンダリングされた空間オーディオフォーマットのオーディオフォーマットタイプを有する場合、前記レンダリング方法における前記挿入ポイントが、前記少なくとも１つの空間オーディオ信号に適用される前記レンダリング処理の出力との直接混合にあると決定するように構成されている、請求項１５に記載の装置。
イマーシブオーディオシーン内で通信オーディオ信号をレンダリングするための装置のための方法であって、前記方法は、
前記イマーシブオーディオシーン内でレンダリングするための少なくとも１つの空間オーディオ信号を取得し、
前記通信オーディオ信号および前記通信オーディオ信号に関連する位置情報を取得し、
前記通信オーディオ信号に関連するレンダリング処理パラメータを取得し、
前記レンダリング処理パラメータに基づいて、レンダリング方法を決定し、
前記決定されたレンダリング方法のためのレンダリング処理における挿入ポイントを決定し、および／または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のためのレンダリング要素を選択する、
ことを含む方法。