JP2023044657A - イマーシブオーディオシーンレンダリングにおける通信オーディオ処理方法および装置 - Google Patents

イマーシブオーディオシーンレンダリングにおける通信オーディオ処理方法および装置 Download PDF

Info

Publication number
JP2023044657A
JP2023044657A JP2022145812A JP2022145812A JP2023044657A JP 2023044657 A JP2023044657 A JP 2023044657A JP 2022145812 A JP2022145812 A JP 2022145812A JP 2022145812 A JP2022145812 A JP 2022145812A JP 2023044657 A JP2023044657 A JP 2023044657A
Authority
JP
Japan
Prior art keywords
rendering
audio signal
communication
audio
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022145812A
Other languages
English (en)
Inventor
シャムスンダル マテ スジート
Shyamsundar Mate Sujeet
アルットゥリ レッパネン ユッシ
Artturi Leppanen Jussi
ヨハンネス エロネン アンティ
Johannes Eronen Antti
ユハニ ラークソネン ラッセ
Juhani Laaksonen Lasse
ユハニ レフティニエミ アルト
Juhani Lehtiniemi Arto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of JP2023044657A publication Critical patent/JP2023044657A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation

Abstract

【課題】本願の実施形態は、従来技術の課題に対処することを目的とする。【解決手段】イマーシブオーディオシーン内で通信オーディオ信号をレンダリングする装置であって、該装置は、イマーシブオーディオシーン内でレンダリングするための少なくとも1つの空間オーディオ信号を得ること、通信オーディオ信号および該通信オーディオ信号に関連する位置情報を得ること、通信オーディオ信号に関連するレンダリング処理パラメータを得ること、レンダリング処理パラメータに基づいてレンダリング方法を決定すること、決定したレンダリング方法のレンダリング処理における挿入ポイント、および/または、該レンダリング処理パラメータに基づく該決定したレンダリング方法用のレンダリング要素の選択、を実行可能に構成した手段を含む、装置。【選択図】図1

Description

本願は、拡張現実レンダリング内の通信オーディオ処理方法および装置に関するものであるが、拡張現実6自由度レンダリング内の通信オーディオ処理方法および装置に限定されるものではない。
ヘッドマウントデバイス(HMD)を装着したユーザに対して仮想シーンを表現する拡張現実(AR)アプリケーション(および、複合現実(MR)や仮想現実(VR)等の他の類似の仮想シーン作成アプリケーション)は、時代とともに複雑かつ高度になってきている。アプリケーションは、ユーザに提示される視覚コンポーネント(または、オーバーレイ)およびオーディオコンポーネント(または、オーバーレイ)を含むデータを含んでよい。これらのコンポーネントは、拡張現実(AR)シーン内のユーザの位置および姿勢(6自由度アプリケーションの場合)に応じてユーザに提供される。
ARシーンをレンダリングするためのシーン情報は、通常、2つの部分を含む。1つの部分は、コンテンツ作成中に(または、適切なキャプチャ装置またはデバイスによって)記述することができ、キャプチャされた(または、最初に生成された)シーンを表す仮想シーン情報である。仮想シーンは、エンコーダ入力フォーマット(EIF)データフォーマットで提供されてもよい。EIFおよび(キャプチャまたは生成された)オーディオデータは、エンコーダによって使用され、シーン記述および空間オーディオメタデータ(およびオーディオ信号)を生成し、ビットストリームを介してレンダリング(再生)装置または機器に配信され得る。このように、ARやVRのシーンのシーン記述は、コンテンツ作成段階でコンテンツ作成者によって指定される。VRの場合、シーン全体が指定され、コンテンツ作成者のビットストリームで指定された通りにレンダリングされる。
ARオーディオシーンのレンダリングの第2の部分は、リスナー(またはエンドユーザ)の物理的なリスニング空間(または、物理空間)に関連するものである。シーンまたはリスナの空間情報は、ARレンダリング中(リスナーがコンテンツを利用しているとき)に取得することができる。したがって、VRとは異なるARの基本的な側面があり、オーディオシーンの音響特性は、(ARの場合)コンテンツ利用中にのみ認識され、コンテンツの作成中には認識することも最適化することもできないことを意味する。
図1は、仮想シーンが物理的なリスニング空間内に配置されているARシーンの例を示す。この例では、物理的なリスニング空間101内に位置するユーザ107が存在する。さらに、この例では、ユーザ109は、仮想シーン要素を有する6自由度(6DOF)の仮想シーン113を体験している。この例では、仮想シーン113の要素は、2つのオーディオオブジェクト、第1のオブジェクト103(ギター奏者)および第2のオブジェクト105(ドラマー)、仮想遮蔽要素(例えば、仮想パーティション117として表される)、および仮想ルーム115(例えば、仮想シーン記述内で定義されているサイズ、位置、音響材料を有する壁)により表される。レンダラ(この例では、ハンドヘルド電子デバイスまたは装置111である)は、可聴化がユーザの物理的なリスニング空間(例えば、壁の位置および壁の音響材料特性)に対してもっともらしくなるように、レンダリングを実行するように構成される。レンダリングは、この例では、適切なヘッドフォンまたはヘッドセット109によってユーザ107に提示される。
したがって、ARシーンの場合、コンテンツ作成者ビットストリームは、どのオーディオ要素およびシーンジオメトリ要素がリスニング空間のどのアンカーに対応するかについての情報を搬送する。その結果、オーディオ要素の位置、反射要素、遮蔽要素等の位置は、レンダリング中にのみ認識される。さらに、音響モデリングパラメータは、レンダリング中にのみ認識される。
ソーシャルVR/ARは、このようなシステムをさらに発展させたものである。このようなシステムは、仮想環境内の他のユーザからの音声やオーディオのレンダリングをサポートすることが想定されている。さらに、受信した音声やオーディオ通信をイマーシブオーディオ信号としてレンダリングすることが提案されている。
本願の実施形態は、従来技術の課題に対処することを目的とする。
第1の態様によれば、イマーシブオーディオシーン内でレンダリングするための少なくとも1つの空間オーディオ信号を取得し、通信オーディオ信号および通信オーディオ信号に関連する位置情報を取得し、通信オーディオ信号に関連するレンダリング処理パラメータを取得し、レンダリング処理パラメータに基づいてレンダリング方法を決定し、レンダリング処理パラメータに基づいて決定したレンダリング方法に対するレンダリング処理における挿入ポイント、および/または、決定したレンダリング方法のレンダリング要素の選択を決定する、ように構成されている手段を備える装置が提供される。
本手段は、決定されたレンダリング方法、決定されたレンダリング方法に対するレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法に対するレンダリング要素の選択に基づいて、少なくとも一つの空間オーディオ信号および通信オーディオ信号から、少なくとも一つの出力空間オーディオ信号を生成するようにさらに構成されてもよい。
本手段は、さらに、通信オーディオ信号に関連するオーディオフォーマット、許容遅延値、および通信オーディオ信号遅延のうちの少なくとも1つを決定するように構成されてもよい。
決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択を決定するように構成された手段は、さらに、レンダリング処理における挿入ポイントを、通信オーディオ信号に関連付けられたオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの少なくとも1つに基づいて、決定し、レンダリング方法および/または決定されたレンダリング方法のためのレンダリング要素の選択を、通信オーディオ信号に関連付けられたオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの少なくとも1つに基づいて、決定する、ことの少なくとも一方を行うように構成されてよい。
許容遅延値は、通信オーディオ信号を利用するために許容される遅延量であってもよく、通信オーディオ信号遅延は、エンドツーエンドの配信遅延および通信オーディオをレンダリングする遅延に基づいて決定された遅延値であってよい。
通信オーディオ信号に関連するオーディオフォーマットは、イマーシブシーン内のユーザ間の、一方向通信オーディオ信号、および、会話通信オーディオ信号のうちの1つを含んでもよい。
決定されたレンダリング方法、および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも1つの空間オーディオ信号と通信オーディオ信号から少なくとも1つの出力空間オーディオ信号を生成するよう構成された手段は、通信オーディオ信号を高次アンビソニックオーディオ信号として表現するよう構成されてもよい。
本手段は、ユーザ入力を取得するようにさらに構成されてよく、決定されたレンダリング方法、および、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および/または、決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成するように構成された手段は、ユーザ入力にさらに基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成するように構成されてよく、ユーザ入力は、許可された通信オーディオ信号のタイプ、許可されたオーディオフォーマット、許可された遅延値、および、少なくとも1つの音響モデリングプリファレンスパラメータの少なくとも1つを定義するように構成されてよい。
本手段は、少なくとも1つの空間オーディオ信号に関連付けられた通信オーディオ信号タイプを取得するようにさらに構成され、決定されたレンダリング方法、および、決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から少なくとも1つの出力空間オーディオ信号を生成するよう構成された手段が、少なくとも1つの空間オーディオ信号に関連付けられた少なくとも1つの通信オーディオ信号タイプにさらに基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から少なくとも1つの出力空間オーディオ信号を生成するように構成されてよい。
レンダリング処理および/またはレンダリング要素は、ドップラ処理、直接音処理、マテリアルフィルタ処理、初期反射処理、拡散後期残響処理、音源拡張処理、遮蔽処理、回折処理、音源変換処理、外在化レンダリング、およびインヘッドレンダリングのうちの一つまたは複数を含んでよい。
決定されたレンダリング方法のレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のレンダリング要素の選択を決定する手段は、レンダリングモードを決定するように構成されてよく、レンダリングモードは、通信オーディオ信号の挿入ポイントを示す値を含んでよい。
挿入ポイントを示す値は、通信オーディオ信号および少なくとも1つの空間オーディオ信号がレンダリング処理方法の開始時に挿入されることを示す第1のモード値、通信オーディオ信号がレンダリング処理をバイパスして、少なくとも1つの空間オーディオ信号に適用されるレンダリング処理の出力と直接混合されることを示す第2のモード値、および、少なくとも1つの空間オーディオ信号にレンダリング処理を完全に適用する一方で、通信オーディオ信号が部分的にレンダ処理されることを示す第3のモード値のうちの1つを含んでよい。
通信オーディオ信号が部分的にレンダリング処理されていることを示す第3のモード値は、通信オーディオ信号が、点音源の直接音レンダリングであり、かつ、ユーザ位置を基準とした両耳レンダリングであることを示す値であってもよい。
本手段は、レンダリング処理パラメータに基づいて、通信オーディオ信号のオーディオフォーマットタイプを決定するようにさらに構成されてもよい。
また、決定されたレンダリング方法のレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のレンダリング要素の選択を決定する手段は、オーディオフォーマットタイプに基づいて決定されたレンダリング方法内の通信オーディオ信号のレンダリング処理における挿入ポイントを決定するように構成されてよい。
オーディオフォーマットタイプに基づいて決定されたレンダリング方法内の通信オーディオ信号に対するレンダリング処理における挿入ポイントを決定するように構成された手段は、通信オーディオ信号がプリレンダリング空間オーディオフォーマットのオーディオフォーマットタイプを有する場合、レンダリング方法における挿入ポイントが、少なくとも1つの空間オーディオ信号に適用されるレンダリング処理の出力との直接混合にあると決定するように構成されてもよい。
第2の態様によれば、イマーシブオーディオシーン内で通信オーディオ信号をレンダリングする装置のための方法が提供され、本方法は、イマーシブオーディオシーン内でレンダリングするための少なくとも1つの空間オーディオ信号を取得し、通信オーディオ信号および通信オーディオ信号に関連する位置情報を取得し、通信オーディオ信号に関連するレンダリング処理パラメータを取得し、レンダリング処理パラメータに基づいてレンダリング方法を決定し、決定したレンダリング方法に対するレンダリング処理における挿入ポイントを決定し、および/または、レンダリング処理パラメータに基づいて決定したレンダリング方法のレンダリング要素を選択する、ことを含む。
本方法は、決定されたレンダリング方法および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成することをさらに含んでよい。
本方法は、通信オーディオ信号に関連するオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの少なくとも1つを決定することをさらに含んでよい。
決定されたレンダリング方法のためのレンダリング処理における挿入ポイントを決定すること、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素を選択することは、通信オーディオ信号に関連付けられたオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの決定された少なくとも1つにさらに基づいて、レンダリング処理における挿入ポイントを決定することと、通信オーディオ信号に関連付けられたオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの決定された少なくとも1つに基づいて決定されたレンダリング方法のためのレンダリング方法および/またはレンダリング要素を選択すること、のうちの少なくとも一方をさらに含んでよい。
許容遅延値は、通信オーディオ信号を利用するために許容される遅延量であってもよく、通信オーディオ信号遅延は、エンドツーエンドの配信遅延および通信オーディオをレンダリングする遅延に基づいて決定された遅延値であってよい。
通信オーディオ信号に関連するオーディオフォーマットは、イマーシブシーン内のユーザ間の、一方向通信オーディオ信号、および会話通信オーディオ信号のうちの1つを含んでもよい。
決定されたレンダリング方法および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成することは、通信オーディオ信号を高次アンビソニックオーディオ信号として表すことを含んでよい。
本方法は、ユーザ入力を取得することと、決定されたレンダリング方法および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成することと、をさらに含み、ユーザ入力にさらに基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成することと、をさらに備えてもよく、ユーザ入力は、許可された通信オーディオ信号タイプ、許可されたオーディオフォーマット、許可された遅延値、および、少なくとも1つの音響モデリングプリファレンスパラメータの少なくとも1つを定めることを含んでよい。
本方法は、少なくとも1つの空間オーディオ信号に関連付けられた通信オーディオ信号タイプを取得することと、決定されたレンダリング方法および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成することと、をさらに含んでよく、少なくとも1つの空間オーディオ信号と関連する少なくとも1つの通信オーディオ信号タイプにさらに基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成することを含んでよい。
レンダリング処理および/またはレンダリング要素は、ドップラ処理、直接音処理、マテリアルフィルタ処理、初期反射処理、拡散後期残響処理、音源拡張処理、遮蔽処理、回折処理、音源変換処理、外在化レンダリング、および、インヘッドレンダリングのうちの1つまたは複数を含んでよい。
決定されたレンダリング方法のためのレンダリング処理における挿入ポイントを決定すること、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素を選択することは、レンダリングモードを決定することを含んでよく、レンダリングモードは、通信オーディオ信号の挿入ポイントを示す値を含む。
挿入ポイントを示す値は、通信オーディオ信号および少なくとも1つの空間オーディオ信号が、レンダリング処理方法の開始時に挿入されることを示す第1のモード値、通信オーディオ信号がレンダリング処理をバイパスして、少なくとも1つの空間オーディオ信号に適用されるレンダリング処理の出力と直接混合されることを示す第2のモード値、および、レンダリング処理が少なくとも1つの空間オーディオ信号に完全に適用される一方で、通信オーディオ信号が部分的にレンダリング処理されることを示す第3のモード値、のうちの1つを含んでよい。
通信オーディオ信号が部分的にレンダリング処理されていることを示す第3のモード値は、通信オーディオ信号が、点音源の直接音レンダリングであり、ユーザ位置を基準とした両耳レンダリングであることを示す値であってもよい。
本方法は、レンダリング処理パラメータに基づいて、通信オーディオ信号のオーディオフォーマットタイプを決定することをさらに含んでもよい。
決定されたレンダリング方法に対するレンダリング処理において挿入ポイントを決定すること、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法に対するレンダリング要素を選択することは、オーディオフォーマットタイプに基づいて決定されたレンダリング方法内の通信オーディオ信号に対するレンダリング処理における挿入ポイントを決定することを含んでよい。
オーディオフォーマットタイプに基づいて、決定されたレンダリング方法内の通信オーディオ信号のレンダリング処理における挿入ポイントを決定することは、通信オーディオ信号がプリレンダリング空間オーディオフォーマットのオーディオフォーマットタイプを有する場合、レンダリング方法における挿入ポイントが、少なくとも1つの空間オーディオ信号に適用されるレンダリング処理の出力との直接混合にあると決定することを含んでよい。
第3の態様によれば、少なくとも1つのプロセッサおよびコンピュータプログラムコードを含む少なくとも1つのメモリを備える装置であって、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサによって、装置に少なくとも、イマーシブオーディオシーン内でレンダリングするための少なくとも1つの空間オーディオ信号を取得することと、通信オーディオ信号および通信オーディオ信号に関連付けられた位置情報を取得することと、通信オーディオ信号に関連付けられたレンダリング処理パラメータを取得することと、レンダリング処理パラメータに基づいてレンダリング方法を決定することと、決定したレンダリング方法に対するレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定したレンダリング方法のレンダリング要素の選択を決定することと、を行わせるように構成される、装置が提供される。
装置は、さらに、決定されたレンダリング方法および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成するようにされていてよい。
装置は、さらに、通信オーディオ信号に関連するオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの少なくとも1つを決定するようにされてもよい。
決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択を決定するようにされる装置は、通信オーディオ信号に関連するオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの決定された少なくとも1つにさらに基づいて、レンダリング処理における挿入ポイントを決定することと、通信オーディオ信号に関連するオーディオフォーマット、許容遅延値、および、通信オーディオ信号遅延のうちの決定された少なくとも1つに基づいて、レンダリング方法および/または決定されたレンダリング方法のためのレンダリング要素の選択を決定することと、のうちの少なくとも1つをさらに行うようにされてよい。
許容遅延値は、通信オーディオ信号を利用するために許容される遅延量であってもよく、通信オーディオ信号遅延は、エンドツーエンドの配信遅延および通信オーディオをレンダリングする遅延に基づいて決定された遅延値であってよい。
通信オーディオ信号に関連するオーディオフォーマットは、イマーシブシーン内のユーザ間の、一方向通信オーディオ信号、および、会話通信オーディオ信号のうちの1つを含んでもよい。
決定されたレンダリング方法および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも1つの空間オーディオ信号と通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成させる装置は、通信オーディオ信号を高次アンビソニックオーディオ信号として表現するようにされてよい。
装置は、ユーザ入力を取得するようにさらにされてもよく、決定されたレンダリング方法および決定されたレンダリング方法に対するレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法に対するレンダリング要素の選択に基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成するようにされる装置は、さらにユーザ入力に基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成するようにされ、ユーザ入力は、少なくとも、許可された通信オーディオ信号のタイプ、許可されたオーディオフォーマット、許可された遅延値、および、少なくとも1つの音響モデリングプリファレンスパラメータの1つを定めるようにされてよい。
本装置は、少なくとも1つの空間オーディオ信号に関連付けられた通信オーディオ信号タイプを取得するようにされてもよく、決定されたレンダリング方法および決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成するようにされる装置は、さらに、少なくとも1つの空間オーディオ信号と関連する少なくとも1つの通信オーディオ信号タイプに基づいて、少なくとも1つの空間オーディオ信号および通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成するようにされてよい。
レンダリング処理および/またはレンダリング要素は、ドップラ処理、直接音処理、マテリアルフィルタ処理、初期反射処理、拡散後期残響処理、音源拡張処理、遮蔽処理、回折処理、音源変換処理、外在化レンダリング、および、インヘッドレンダリングのうちの1つまたは複数を含んでよい。
決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のためのレンダリング要素の選択を決定するようにされた装置は、レンダリングモードを決定するようにされてよく、レンダリングモードは、通信オーディオ信号の挿入ポイントを示す値を含む。
挿入ポイントを示す値は、通信オーディオ信号および少なくとも1つの空間オーディオ信号がレンダリング処理方法の開始時に挿入されることを示す第1のモード値、通信オーディオ信号がレンダリング処理をバイパスして、少なくとも1つの空間オーディオ信号に適用されるレンダリング処理の出力と直接混合されることを示す第2のモード値、および、レンダリング処理が少なくとも1つの空間オーディオ信号に完全に適用される一方で、通信オーディオ信号が部分的にレンダ処理されることを示す第3のモード値のうちの1つを含んでよい。
通信オーディオ信号が部分的にレンダリング処理されることを示す第3のモード値は、通信オーディオ信号が、点音源の直接音レンダリングであり、ユーザ位置を基準とした両耳レンダリングであることを示す値であってもよい。
装置は、レンダリング処理パラメータに基づいて、通信オーディオ信号のオーディオフォーマット種別を決定することをさらに特徴としてもよい。
決定されたレンダリング方法のレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のレンダリング要素の選択を行う装置は、オーディオフォーマットタイプに基づいて決定されたレンダリング方法内の通信オーディオ信号のレンダリング処理における挿入ポイントを決定するようにされてよい。
オーディオフォーマットタイプに基づいて決定されたレンダリング方法内の通信オーディオ信号のレンダリング処理における挿入ポイントを決定させる装置は、通信オーディオ信号がプリレンダリングされた空間オーディオフォーマットのオーディオフォーマットタイプを有する場合、レンダリング方法における挿入ポイントが、少なくとも1つの空間オーディオ信号に適用されるレンダリング処理の出力との直接混合にあることを決定するようにされてよい。
第4の態様によれば、イマーシブオーディオシーン内でレンダリングするための少なくとも1つの空間オーディオ信号を取得する手段と、通信オーディオ信号および通信オーディオ信号に関連する位置情報を取得する手段と、通信オーディオ信号に関連するレンダリング処理パラメータを取得する手段と、レンダリング処理パラメータに基づいてレンダリング方法を決定する手段と、決定したレンダリング方法に対するレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定したレンダリング方法のレンダリング要素の選定を決定する手段と、を備える装置が提供される。
第5の態様によれば、装置に少なくとも、イマーシブオーディオシーン内でレンダリングするための少なくとも1つの空間オーディオ信号を取得し、通信オーディオ信号および通信オーディオ信号に関連付けられた位置情報を取得し、通信オーディオ信号に関連付けられたレンダリング処理パラメータを取得し、レンダリング処理パラメータに基づいてレンダリング方法を決定し、決定したレンダリング方法に対するレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定したレンダリング方法のレンダリング要素の選択を決定する、ことを実行させるための命令[または、プログラム命令を含むコンピュータ可読媒体]を含むコンピュータプログラムが提供される。
第6の態様によれば、装置に、少なくとも、イマーシブオーディオシーン内でレンダリングするための少なくとも1つの空間オーディオ信号を取得し、通信オーディオ信号および通信オーディオ信号に関連する位置情報を取得し、通信オーディオ信号に関連するレンダリング処理パラメータを取得し、レンダリング処理パラメータに基づいてレンダリング方法を決定し、決定したレンダリング方法に対するレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定したレンダリング方法のレンダリング要素の選択を決定する、ことを実行させるためのプログラム命令を含む非一時的コンピュータ可読媒体が提供される。
第7の態様によれば、イマーシブオーディオシーン内でレンダリングするための少なくとも1つの空間オーディオ信号を取得するように構成された取得回路と、通信オーディオ信号および通信オーディオ信号に関連付けられた位置情報を取得するように構成された取得回路と、通信オーディオ信号に関連付けられたレンダリング処理パラメータを取得するように構成された取得回路と、レンダリング処理パラメータに基づいてレンダリング方法を決定するように構成された決定回路と、決定レンダリング方法に対するレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定されたレンダリング方法のレンダリング要素の選択を決定するように構成された決定回路と、を備える装置が提供される。
第8の態様によれば、イマーシブオーディオシーン内でレンダリングするための少なくとも1つの空間オーディオ信号を取得し、通信オーディオ信号および通信オーディオ信号に関連付けられた位置情報を取得し、通信オーディオ信号に関連付けられたレンダリング処理パラメータを取得し、レンダリング処理パラメータに基づいてレンダリング方法を決定し、決定したレンダリング方法に対するレンダリング処理における挿入ポイント、および/または、レンダリング処理パラメータに基づいて決定したレンダリング方法のレンダリング要素の選択を決定する、ことを装置に少なくとも実行させるためのプログラム命令を含むコンピュータ読取可能媒体が提供される。
上記の方法の動作を実行するための手段を含む装置。
上記の方法の動作を実行するように構成された装置。
コンピュータに上記の方法を実行させるためのプログラム命令を含むコンピュータプログラム。
媒体に格納されたコンピュータプログラム製品は、装置に本明細書に記載の方法を実行させてもよい。
電子デバイスは、本明細書に記載された装置を含んでいてもよい。
チップセットは、本明細書に記載される装置を含んでもよい。
本出願をよりよく理解するために、ここで例として添付の図面を参照する。
図1は、物理的なリスニング空間内の仮想シーン要素の組み合わせの例を示す適切な環境を概略的に示す図である。 図2は、いくつかの実施形態による、拡張現実シーンの例示的なキャプチャからレンダリングまでを実装するための装置のシステムを概略的に示す図である。 図3は、いくつかの実施形態による、図2に示されるような装置のシステムの動作の流れ図を示す。 いくつかの実施形態による、図2に示されるレンダラの例を概略的に示す図である。 いくつかの実施形態による、図4に示されるシーン状態導出オーディオプロセッサの例を概略的に示す図である。 いくつかの実施形態による、図5に示される例示的なシーン状態導出オーディオプロセッサ内の動作の流れ図を示す。 いくつかの実施形態による、システム内で通信オーディオを実装する動作の流れ図を示す。 図8は、図示された装置を実施するために適した例示的なデバイスを概略的に示す。
以下では、拡張(AR)シーン体験をレンダリングし、イマーシブオーディオ通信処理機能を提供するための適切な装置および可能なメカニズムについてさらに詳細に説明する
前述のように、「ソーシャルVR」がMPEG-I6DoFオーディオ標準化の要件として指定されることが想定されている。この要件は、システムが仮想環境内の他のユーザからの音声とオーディオのレンダリングをサポートすることであると想定されている。音声とオーディオはイマーシブであってよい。さらに、いくつかの実施形態では、装置および方法は、所与の仮想環境内のユーザ間の低遅延会話をサポートすることが想定されている。さらに、装置および方法は、所与の仮想環境内のユーザと所与の仮想環境外のユーザとの間の低遅延会話をサポートする必要がある。
さらに、装置および方法は、ユーザおよびシーンのオーディオおよびビデオの同期を可能にし、他のユーザからの音声/オーディオのレンダリングに関する制限および推奨事項を指定するメタデータをさらにサポートする必要がある(たとえば、配置とサウンドレベルについて)。
したがって、本明細書で説明する実施形態は、例えば、3GPP(登録商標) EVS/IVAS等の低遅延通信ソリューションを実装し、MPEG-I6DoFレンダリングとインターフェースするか、または、実装することができる。
6DoFシーンレンダリングで使用されるイマーシブオーディオ信号と通信オーディオ信号の違いは、復号とレンダリングの遅延、異なる配信メカニズム、および、異なる利用制約にある可能性がある。ストリーミングまたはコンテンツ配信の遅延(DASHで得られるもの等)は、6DoFイマーシブオーディオ配信で予想されるか、または、許容され、それは、これらは低遅延の配信方法ではないためである。一方、通信オーディオの場合は、通常、対話型または低遅延が要求される。
イマーシブオーディオシーン(MPEG Immersive Audio)における通信オーディオのレンダリングは本質的に動的であるため,あらかじめ想定されたレンダリング特性が必ずしも十分でない場合がある.これは、通信オーディオの遅延バジェットがいくつかの要因に依存するためである。重要な要因のひとつはユースケース(通信が一方向の解説なのか、双方向の会話なのか、等)で、ユースケースによって異なる遅延制約が必要となる。もう1つの要因は、通信オーディオのネットワーク条件で、これは1つの仮想イマーシブオーディオ利用セッション内または異なる利用セッション内の異なる使用例で異なる場合がある。ネットワーク条件の変化により、実際のレンダリング遅延バジェットが異なる時間になる可能性がある。
これは、利用シーンが未知であるARの状況に類似していると考えることができるが、通信オーディオの処理は、さらに動的であり、時間とともに大きく変化する可能性がある。したがって、通信オーディオについては、遅延バジェット(例えば、EIFで指定されるか、または任意の上位のモジュールを介して知られてもよい)は、コンテンツ作成中に知られているか、または推定され得る。しかしながら、通信オーディオの遅延パラメータは、ほとんど常に異なり(例えば、エンドツーエンド遅延、ジッタ等)、コンテンツ作成中に未知である。本発明の実施形態では、コンテンツ作成者遅延バジェットパラメータは、通信オーディオのレンダリングモードを示すことによって暗黙的にバジェットを知らせる形態にすることができる。例えば、0という値は、通信オーディオがイマーシブオーディオレンダリングパイプライン全体の開始点を経由することを示し、1という値は、通信オーディオがレンダリングパイプライン全体をバイパスして最終段階で直接混合されることを示し、2という値は、通信オーディオが最小レンダリング(例えば、点音源の直接音レンダリングおよび指定位置のバイノーラルレンダリング)を経由することを示す。
以下、実施形態でさらに詳細に説明するコンセプトは、6DoFシーンデータのストリーミングベースの利用中に有意に知覚されない様々な遅延、実装固有の遅延差がある場合でも、リスナまたはユーザにオーディオ信号を信頼できる方法でレンダリングするように構成された装置および方法に関するものである。これらの実施形態は、対話型使用シナリオを実装できるように構成される(ストリーミングベースの利用は対話型使用よりも遅延に敏感でないため)。
以下の説明では、許容遅延バジェットとは、受信した通信オーディオを利用するために許容される遅延の量である。通常、これはエンドツーエンドの配信遅延と、6DoFイマーシブオーディオシーンに通信オーディオをレンダリングするための遅延から構成される。以下では、この用語は許容遅延値と互換的に使用される。さらに、以下のネットワークバリエーションは、遅延、ジッタ等に基づくことができるエンドツーエンドのネットワーク配信の変化を指す。
以下で説明する実施形態は、6自由度(すなわち、リスナがシーン内で移動でき、リスナの位置および姿勢が追跡される)イマーシブオーディオシーン内での通信オーディオのレンダリングに関するものであり、ネットワーク変動およびイマーシブオーディオシーン依存特性による通信オーディオの動的性質にかかわらず、イマーシブオーディオシーン内で受信した通信オーディオの望ましい(例えば、プレーヤ、ユーザ、または、コンテンツ作成者が指定)レンダリングを確実にするよう構成されている装置および方法が説明されている。これは、いくつかの実施形態において、少なくとも1つの空間オーディオ信号に関連するビットストリームから、受信通信オーディオに関連する位置情報(これは、例えば、通信オーディオをどこに「配置」するかを示すEIFのプレースホルダであり得る)を得ることによって達成され得る。別の実施形態では、通信オーディオのプレースホルダは、オーディオオブジェクトソース、チャネルソース、または、HOAソース等の任意のオーディオ要素に追加することができる。信号タイプ(HOA、オブジェクト、チャネル)のそれぞれに関するオーディオ要素のプロパティは、そのような通信オーディオプレースホルダに追加することができる。いくつかの実施形態では、装置および方法は、さらに、通信オーディオに関連付けられた許容遅延バジェットを取得するように構成され得る(例えば、システムから、一方向もしくは双方向、または、EIFから取得される)。さらにいくつかの実施形態では、装置および方法は、許容された遅延に基づいて通信オーディオに関連付けられたオーディオフォーマットを取得するように構成される。実施形態はさらに、許容遅延、通信オーディオフォーマット、通信オーディオ遅延、および、オーディオレンダリングパイプライン宣言に基づいて、レンダリングパイプラインにおける適切な挿入ポイントを決定するように(換言すれば、通信オーディオが処理のためにオーディオ信号パイプラインのどこで受信されるかを導出するように)構成されてもよい。いくつかの実施形態による装置および方法は、決定された許容遅延、通信オーディオ遅延、および、オーディオフォーマットのうちの少なくとも1つに基づいて、通信オーディオのための少なくとも1つの処理方法および空間レンダリングパラメータを決定するようにさらに構成される。
したがって、いくつかの実施形態では、処理方法は、信号タイプ(例えば、信号タイプがオブジェクトフォーマット信号、HOA信号、または、チャネルフォーマット信号であるかどうか)に応じた通信オーディオ処理の選択およびに関連し、レンダリングパラメータは、その後、適用すべきレンダリングアプローチの1つまたは複数を示すことを参照し得る。例えば、レンダリングパラメータは、レンダリングステージが直接音の点音源レンダリングおよびオーディオオブジェクトのバイノーラルレンダリングを採用することを示してよい。
いくつかのさらなる実施形態では、レンダリングパラメータは、レンダリングプロセスの他の要素を示すか、または制御するために使用され得る。例えば、いくつかの実施形態では、レンダリングパラメータは、レンダリングステージの選択またはスキップを示すために採用することができる。したがって、いくつかの実施形態では、レンダリング処理動作内のある挿入ポイントに基づいて、レンダリングの開始は、オーディオレンダリングパイプラインステージシーケンスに依存するあるシーケンスに従う。しかしながら、レンダリングパラメータは、レンダリング処理シーケンス内のいくつかの中間ステージのスキップを示すために採用することができる。
通信オーディオ信号が高次アンビソニックス(HOA)フォーマットとして表されるいくつかの実施形態では、内部変換を伴うシングルポイントHOAとしてレンダリングされるか、または3DoF HOAとしてレンダリングされるかは、許容されるレンダリング遅延に依存する。いくつかの実施形態では、通信オーディオは、オーディオオブジェクトまたはチャネルとして実装され、オーディオオブジェクトに対して実行される音響モデリングの量は、ネットワーク遅延および許容される利用遅延に依存する。
いくつかの実施形態では、通信オーディオレンダリングは、イマーシブオーディオシーンプレーヤのプリファレンスに従って適合される。これらのプリファレンスは、以下の態様のうちの少なくとも1つを含む。
許可された通信オーディオタイプ(例えば、一方向、対話型、同一の6DoFシーンを利用するユーザ間、等)
許可された通信オーディオフォーマット(例えば、オーディオオブジェクト、チャンネル、3DoF HOA、変換を伴うシングルHOA)
通信オーディオのレンダリングに許容される遅延
音響モデリングプリファレンス
遅延のプリファレンスに依存するいくつかの実施形態では、通信オーディオは、6DoFオーディオレンダリングパイプラインを介して入力および処理されるか、または、別々に混合することができる。
例えば、イマーシブオーディオシーンに音響的なマージが最大となる通信オーディオ信号を置くように構成されているが、遅延バジェットが、回折、遮蔽等の特定の機能が不可能であることを要求する場合、レンダラは遮蔽や回折の発生を最小限に抑えるようにオーディオオブジェクト経路を判断する。
図2は、エンドツーエンドのAR/XR 6DoFオーディオシステムの概要を示す。例では、システムの3つの部分と、オーディオ情報および関連するメタデータを捕捉/生成し、保存/送信するように構成されたキャプチャ/ジェネレータ装置201と、オーディオ情報および関連するメタデータに基づいて適切に処理されたオーディオ信号を出力するように構成された拡張現実(AR)デバイス207と、が示されている。図2に示す例のARデバイス207は、記憶/配信装置203から6DoFビットストリームを取得してレンダリングする6DoFオーディオプレーヤ205を有する。
図2に示すようないくつかの実施形態では、キャプチャ/ジェネレータ装置201は、エンコーダ入力フォーマット(EIF)ジェネレータ211を有する。エンコーダ入力フォーマット(EIF)ジェネレータ211(または、より一般的にはシーン定義器)は、6DoFオーディオシーンを定義するように構成される。いくつかの実施形態では、シーンは、EIF(エンコーダ入力フォーマット)または他の任意の適切な6DoFシーン記述フォーマットによって記述され得る。EIFは、オーディオシーンを構成するオーディオデータも参照する。エンコーダ入力フォーマット(EIF)ジェネレータ211は、コンテンツ作成者のシーン記述であるEIF(エンコーダ入力フォーマット)データを作成するように構成される。シーン記述情報には、オーディオ要素の位置等の仮想シーンの幾何学情報が含まれる。さらに、シーン記述情報は、指向性、サイズ、および他の音響的に関連する要素等の他の関連するメタデータを含んでよい。例えば、関連するメタデータは、仮想壁の位置およびそれらの音響特性、並びに、遮蔽物等の他の音響的に関連するオブジェクトを含むことができる。音響特性の例は、(周波数に依存する)吸収係数または反射係数、散乱エネルギーの量、または透過特性のような音響材料特性である。いくつかの実施形態では、仮想音響環境は、その(周波数に依存する)残響時間または拡散音-直接音比に従って記述され得る。いくつかの実施形態におけるEIFジェネレータ211は、より一般的に仮想シーン情報ジェネレータとして知られている。EIFパラメータ214は、いくつかの実施形態において、適切な(MPEG-I)エンコーダ217に提供することができる。
いくつかの実施形態では、キャプチャ/ジェネレータ装置201は、オーディオコンテンツジェネレータ213を具備している。オーディオコンテンツジェネレータ213は、オーディオシーンに対応するオーディオコンテンツを生成するように構成されている。いくつかの実施形態におけるオーディオコンテンツジェネレータ213は、仮想シーンに関連するオーディオ信号を生成するか、または、あるいは取得するように構成されている。例えば、いくつかの実施形態において、これらのオーディオ信号は、適切なマイクロフォンまたはマイクロフォンのアレイを使用して取得またはキャプチャされてもよく、処理されたキャプチャ済みオーディオ信号に基づいてもよく、合成されてもよい。いくつかの実施形態では、オーディオコンテンツジェネレータ213は、さらに、仮想シーン内の位置、信号の指向性等のオーディオ信号に関連するオーディオパラメータを生成または取得するように構成される。オーディオ信号および/またはパラメータ212は、いくつかの実施形態において、適切な(MPEG-I)エンコーダ217に提供され得る。
いくつかの実施形態では、キャプチャ/ジェネレータ装置201は、通信オーディオ処理データジェネレータ215を具備している。通信オーディオ処理データジェネレータ215は、コンテンツ作成者ビットストリームで搬送される情報を生成して、この特定のイマーシブオーディオシーンに対してどのようなタイプ(例えば、対話型、一方向性等)の通信オーディオが許可されているかを示すように構成される。例えば、コンテンツ作成者によっては、任意の発信者からの通信オーディオの着信を許可し、同じ6DoFオーディオコンテンツを利用している他のユーザからの通信オーディオのみを許可し、任意の6DoFオーディオコンテンツを利用している任意の2人のユーザ間の通信オーディオを許可してよい。さらに、コンテンツ作成者のビットストリームは、どのレンダリングステージが許可され、どのステージが許可されないかに関する情報を搬送する。
いくつかの実装形態では、通信オーディオ処理パラメータは、デバイスプロファイルプリファレンス、アプリケーション設定、または、ユーザプリファレンス設定に依存し得る。
例えば、いくつかの実施形態では、パラメータは、ObjectSourceCAStruct()等の構造内に実装され得る。ObjectSourceCAStruct()構造は、オーディオオブジェクトメタデータの拡張である。いくつかの実施形態では、この構造は、オーディオオブジェクトメタデータ内の構造として現れ得る。以下の例では、オーディオオブジェクトについて説明するが、同様に、HOAやチャネル用の通信オーディオ構造に拡張できる。
aligned(8) ObjectSourceCAStruct(){
unsigned int(16) object_audio_identifier;//object audio index
unsigned int(1) ca_prototype_flag;//commmunication audio prototype flag
unsigned int(1) active;//active or inactive flag
unsigned int(1) hasExtent;
unsigned int(32) gainDB;
unsigned int(32) referenceDistance;
bit(5) reserved = 0;
if(ca_prototype_flag){
unsigned int(1) exclude_clustering_flag;//communication audio is excluded from clustering
bit(7) reserved = 0;
CommunicationAudioIngestionStruct();
DynamicIndexStruct();
} else {
MPEGHDecodedAudioIndex;//index to obtain MPEG-H encoded audio stream
Location();
if(hasExtent)
ExtentStruct();



aligned(8) DynamicIndexStruct(){
unsigned int(16) stream_identifier;//dynamic ID allocated by renderer/player for the communication audio


aligned(8) Location(){
signed int(32) pos_x;
signed int(32) pos_y;
signed int(32) pos_z;
signed int(32) orient_yaw;
signed int(32) orient_pitch;
signed int(32) orient_roll;
unsigned int(1) cspace;//with respect to listening space origin if 1 with respect to user if 0
bit(7) reserved = 0;
ca_prototype_flagが1であることは、プレーヤに対して、通信オーディオを受信する準備をする必要があることを示す。通信オーディオ取込関連情報は、CommunicationAudioIngestionStruct()によって記述され、これは、6DoFオーディオシーンに対して許容または許可される通信オーディオのタイプ(複数可)に関する情報をも有する。さらに、通信オーディオでクラスタリングが実行可能か否かを示すフラグexclude_clustering_flagがある。このフラグがない場合、クラスタリングはデフォルトで無効となる。これらの通信オーディオタイプは、双方向、一方向、双方向、同じコンテンツを利用するユーザ間、異なるコンテンツを利用するユーザ間とすることができる。また、取込構造は、必要な(RequiredRenderingStagesStruct())および不許可の(DisallowedRenderingStagesStruct())レンダリングステージに関する情報を搬送する。さらに、rendering_modesは、通信オーディオがイマーシブオーディオレンダリングパイプラインを介して処理される必要性、または、完全にバイパスされる必要性をコンパクトな方法で提示することもできる。後者の場合、通信オーディオはイマーシブレンダリングパイプラインの外側でレンダリングされ、イマーシブオーディオコンテンツレンダリングパイプラインの出力と混合される。rendering_modes_presentフラグ値がないか、または、0に等しい場合、通信オーディオ信号要素プロパティに従ってレンダリングが実行される。通常、ca_rendering_modes_present値が1である場合、RequiredRenderingStagesStruct()、DisallowedRenderingStagesStruct()、ca_rendering_max_latency等の他のデータ構造は存在する必要がない。
aligned(8) CommunicationAudioIngestionStruct(){
unsigned int(1) ca_co_conversational_allowed;//bidirectional call with another user in the same 6DoF immersive audio scene
unsigned int(1) ca_co_oneway_allowed;//commentary from another user in the same 6DoF immersive audio scene
unsigned int(1) ca_conversational_allowed;//bidirectional call
unsigned int(1) ca_oneway_allowed;//commentary
if(ca_co_conversational_allowed){
unsigned int(1) ca_delay_threshold_present;
unsigned int(1) required_stages_present;
unsigned int(1) disallowed_rendering_stages_present;
unsigned int(1) ca_rendering_modes_present;
bit(4) reserved = 0;
if(ca_delay_threshold_present)
unsigned int(32) ca_rendering_maxlatency;
if(required_stages_present)
RequiredRenderingStagesStruct();
if(disallowed_stages_present)
DisallowedRenderingStagesStruct();
if(ca_rendering_modes_present)
unsigned int(8) rendering_modes_type;


if(ca_co_oneway_allowed){
unsigned int(1) ca_delay_threshold_present;
unsigned int(1) required_stages_present;
unsigned int(1) disallowed_rendering_stages_present;
unsigned int(1) ca_rendering_modes_present;
bit(4) reserved = 0;
if(ca_delay_threshold_present)
unsigned int(32) ca_rendering_maxlatency;
if(required_stages_present)
RequiredRenderingStagesStruct();
if(disallowed_stages_present)
DisallowedRenderingStagesStruct();
if(ca_rendering_modes_present)
unsigned int(8) rendering_modes_type;


if(ca_oneway_allowed){
unsigned int(1) ca_delay_threshold_present;
unsigned int(1) required_stages_present;
unsigned int(1) disallowed_rendering_stages_present;
unsigned int(1) ca_rendering_modes_present;
bit(4) reserved = 0;
if(ca_delay_threshold_present)
unsigned int(32) ca_rendering_maxlatency;
if(required_stages_present)
RequiredRenderingStagesStruct();
if(disallowed_stages_present)
DisallowedRenderingStagesStruct();
if(ca_rendering_modes_present)
unsigned int(8) rendering_modes_type;

if(ca_conversational_allowed){
unsigned int(1) ca_delay_threshold_present;
unsigned int(1) required_stages_present;
unsigned int(1) disallowed_rendering_stages_present;
unsigned int(1) ca_rendering_modes_present;
bit(4) reserved = 0;
if(ca_delay_threshold_present)
unsigned int(32) ca_rendering_maxlatency;
if(required_stages_present)
RequiredRenderingStagesStruct();
if(disallowed_stages_present)
DisallowedRenderingStagesStruct();
if(ca_rendering_modes_present)
unsigned int(8) rendering_modes_type;



aligned(8) RequiredRenderingStagesStruct(){
unsigned int(8) num_stages;
for(i=0;i<num_stages;i++){
unsigned int(8) rendering_stage_idx;



aligned(8) DisallowedRenderingStagesStruct(){
unsigned int(8) num_stages;
for(i=0;i<num_stages;i++){
unsigned int(8) rendering_stage_idx;

Figure 2023044657000002
Figure 2023044657000003
実施態様では、レンダリングステージに加えて、MPEG-Iイマーシブオーディオシーンにおける通信オーディオレンダリングの許容遅延閾値を決定するために、MPEG-H復号遅延も考慮される。復号遅延は、MPEG-Iイマーシブオーディオシーンにおけるオーディオ要素のオーディオフォーマットに依存してよい。
いくつかの実施形態では、キャプチャ/ジェネレータ装置201は、エンコーダ217を具備している。エンコーダは、EIFパラメータ212、通信オーディオ処理パラメータ216、および、オーディオ信号/オーディオパラメータ214を受信し、これらを復号して適切なビットストリームを生成するように構成される。
エンコーダ217は、例えば、EIFパラメータ212、通信オーディオ処理パラメータ216、および、オーディオ信号/オーディオパラメータ214を使用して、ネットワーク上でのストリーミングに適し得るフォーマットで格納されるMPEG-I6DoFオーディオシーンコンテンツを生成することができる。配信は、MPEG-DASH(Dynamic Adaptive Streaming Over HTTP)、HLS(HTTP Live Streaming)等、任意の適切なフォーマットであり得る。6DoFビットストリームは、MPEG-Hで符号化されたオーディオコンテンツ、および、MPEG-I6DoFビットストリームを搬送する。EIFおよびオーディオデータに基づいてエンコーダによって生成されたコンテンツ作成者ビットストリームは、MHASパケット(MPEG-H 3Dオーディオストリーム)に類似する方法でフォーマット化およびカプセル化され得る。いくつかの実施形態における符号化されたビットストリームは、適切なコンテンツストレージモジュール219に渡される。例えば、図2に示すように、符号化されたビットストリームは、MPEG-I6DoFコンテンツ記憶モジュール219に渡される。この例ではエンコーダ217はキャプチャ/ジェネレータ装置201内に配置されているが、エンコーダ217はキャプチャ/ジェネレータ装置201から分離することができることが理解されよう。
いくつかの実施形態では、キャプチャ/ジェネレータ装置201は、コンテンツストレージモジュールを有する。例えば、図2に示すように、符号化されたビットストリームは、MPEG-I6DoFコンテンツストレージ219モジュールに渡される。このような実施形態では、オーディオ信号は、符号化されたパラメータとは別のデータストリームで送信される。いくつかの実施形態では、オーディオ信号およびパラメータは、単一のデータストリームまたはフォーマットとして記憶/送信される。
コンテンツストレージ219は、コンテンツ(通信オーディオ処理パラメータを有するEIF導出コンテンツ作成者ビットストリームを含む)を格納し、ARデバイス207に提供するように構成される。
いくつかの実施形態では、ヘッドマウントデバイス(HMD)を有するARデバイス207は、6DoFオーディオシーンのAR利用用の再生デバイスである。
いくつかの実施形態におけるARデバイス207は、少なくとも1つのARセンサ221を有する。少なくとも1つのARセンサ221は、視覚カメラアレイ、深度センサ、LiDAR等のマルチモーダルセンサを含んでよい。マルチモーダルセンサは、AR利用装置によって、リスニング空間の情報を生成するために使用される。この情報は、材料情報、関心のあるオブジェクト等を含み得る。このセンサ情報は、いくつかの実施形態では、ARプロセッサ223に渡すことができる。
いくつかの実施形態におけるARデバイス207は、少なくとも1つの位置/姿勢センサ227を備える。少なくとも1つの位置/姿勢センサ227は、物理的なリスニング空間内のリスナの位置および/または姿勢を決定するように構成された任意の適切な1つのセンサまたは複数のセンサを含んでよい。例えば、センサは、デジタルコンパス/ジャイロスコープ、位置決めビーコン等を含んでよい。いくつかの実施形態では、ARセンサ221に採用されたセンサは、さらに、リスナの向きおよび/または姿勢を決定するために使用される。このセンサ情報は、いくつかの実施形態では、レンダラ235に渡すことができる。
いくつかの実施形態におけるARデバイス207は、通信オーディオ200を受信するように構成された入力を含んでいる。
さらに、いくつかの実施形態では、ARデバイス207は、通信オーディオコントローラ253を有する。通信オーディオコントローラ253は、制御情報をレンダラ235に出力し、通信オーディオ200とインタラクティブオーディオ(ビットストリーム220の一部であってもよい)の統合を制御するように構成される。いくつかの実施形態における通信オーディオコントローラ253は、以下に説明するフォーマットまたは他の任意の適切なフォーマットで情報を生成するように構成されている。いくつかの実施形態では、この情報は、後続のレンダリング処理に対して繰り返し処理または望ましくない出力を引き起こすことなく処理ステージのいずれかをスキップすることができるように、所望の順序を信号化することができるレンダリングステージ宣言の形態である。いくつかの実施形態におけるレンダリングパイプライン宣言は、シーン管理プロセッサに対して利用可能である。情報のための例示的な構造は、以下のようにすることができる。
aligned(8) RenderingStagesInfoStruct(){
unsigned int(8) num_stages;
for(i=0;i<num_stages;i++){
unsigned int(8) render_stage_idx;
unsigned int(32) mean_delay_value;
unsigned int(32) sd_delay_value;
unsigned int(8) input_audio_type;

いくつかの実施形態では、可聴化パイプラインのレンダリングステージがリストされ、mean_delay_valueおよびsd_delay_valueの値が利用できない場合は-1である。
いくつかの実施形態では、通信オーディオコントローラ253は、通信オーディオのフォーマット、配信遅延、および、ジッタ等の制御情報を生成するように構成される。いくつかの実施形態では、この情報は、レンダラ内に格納される所定の値とすることができ、したがって、コントローラ253が存在しないか、または、この情報を提供しない場合、レンダラは、デフォルト値を使用するように構成される。例えば、クラスタイプの遅延値は、レンダラによって使用される所定のデフォルト値であり得る。いくつかの実施形態では、制御情報は、以下の構造で渡すことができる。
aligned(8) CommunicationAudioInfoStruct(){
unsigned int(4) ca_class_type;
unsigned int(4) ca_format_type;
unsigned int(32) ca_delivery_latency;
Figure 2023044657000004
Figure 2023044657000005
通信オーディオのフォーマットが0または1の場合、イマーシブオーディオレンダリングパイプラインによって通信オーディオとして入力される。しかしながら、プリレンダリングされた空間オーディオの場合、通信オーディオはミキサーブロックに直接入力される。
別の実施形態では、通信オーディオ処理は、オブジェクト、チャネル、および、HOAソースに対して指定されるオーディオ要素メタデータ内に埋め込まれる。その結果、通信オーディオは、通信オーディオ固有のプロパティを有する他のオーディオ要素としてMPEG-Iレンダラによってレンダリングされ得る。これらの通信オーディオ固有のレンダリングプリファレンスは、1つ以上のレンダリングステージを選択および/または拒否するための制御データとして指定される。
aligned(8) ObjectSourceStruct(){
unsigned int(16) index;//object audio index
unsigned int(1) ca_flag;//placeholder for rendering communication audio as audio object
unsigned int(1) active;//active or inactive flag
unsigned int(1) hasExtent;
unsigned int(32) gainDB;
unsigned int(32) referenceDistance;
bit(5) reserved = 0;
if(ca_flag){
CommunicationAudioRenderingStruct();
unsigned int(16) CommunicationAudioIndex;// Identifier to receive the communication audio stream
} else {
unsigned int(16) MPEGHDecodedAudioIndex;//index to obtain MPEG-H encoded audio stream
Location();//index to obtain MPEG-H encoded audio stream

if(hasExtent)
ExtentStruct();


aligned(8) CommunicationAudioRenderingStruct(){
unsigned int(1) rendering_modes_present;
unsigned int(1) dynamic_modes_;
if(rendering_modes_present){
unsigned int(8) rendering_modes;

bit(7) reserved = 0;
ObjectSourceStruct()、ObjectSourceCAStruct()、または、それらの構成パラメータまたは構造のいずれかが、オーディオシーンの持続時間にわたって変化し得る。その結果、いくつかの実施形態における通信オーディオは、支配的なメタデータ情報に応じて、許可または不許可されてよい。さらに、レンダリングモードまたは挿入ポイントは、オーディオシーンの持続時間にわたって変化してよい。
さらに別の実施形態では、通信オーディオメタデータ、例えば、通信オーディオのプレースホルダである上述のオーディオ要素メタデータは、指示フラグcommunicationAudioRenderImmediateFlagを搬送する。
communicationAudioRenderImmediateFlag==0の場合、通信オーディオは、追加の遅延なしに、レンダリングされたイマーシブオーディオシーンに直ちにレンダリングまたは混合される。
communicationAudioRenderImmediateFlag==1の場合、通信オーディオは、オーディオ要素に指定されたレンダリングメタデータおよびプロパティに従ってレンダリングされる。
通信オーディオのメタデータは、レンダラへの動的な更新として配信することも可能である。通信オーディオは、PACTYP_CAAUDIODATAを有する新しいMHASパケットとして配信することができ、ラベルは、対応するメタデータおよびPACTYP_CAAUDIODATAに適用される動的更新メタデータを示すために使用することができる。PACTYP_CAAUDIODATAパケットは、ペイロードのObjectSourceStruct(),HOASourceStruct(),ChannelSourceStruct()、または、それらの構造のサブセットを、通信オーディオレンダリングまたは取り込みパラメータと一緒に伝送する。
ある実装例では、PACTYP_CAAUDIODATAは、PCMの形態のオーディオデータを搬送する。その結果、PACTYP_CAAUDIODATAの後に、PACTYP_PCMCONFIGおよびPACTYP_PCMDATAが続く。先行するPACTYP_CAAUDIODATAパケットにより、レンダラは、通信オーディオデータに対応するPCMデータを識別することができる。
いくつかの実施形態では、ARデバイス207は、適切な出力デバイスを有する。図2に示す例では、出力装置は、レンダラ235によって生成された空間オーディオ出力240を受信するように構成されたヘッドフォン241として示されているが、任意の適切な出力トランスデューサを配置してよい。
いくつかの実施形態では、ARデバイス207は、プレーヤ/レンダラ装置205を含んで構成される。プレーヤ/レンダラ装置205は、EIF導出コンテンツ作成者ビットストリーム220、ARセンサ情報、ユーザ位置、および/または、姿勢情報、通信オーディオ220、および、通信オーディオコントローラからの制御情報を含むビットストリームを受け取り、この情報から、図2においてヘッドフォン241として示されている適切な出力装置に渡すことができる適切な空間オーディオ出力240(ARデバイス207の中に組み込まれていてもよい)を決定するよう構成される。
いくつかの実施形態では、プレーヤ/レンダラ装置205は、ARプロセッサ223を具備する。ARプロセッサ223は、少なくとも1つのARセンサ221からセンサ情報を受信し、LSDFジェネレータ225に渡され得る適切なAR情報を生成するように構成される。例えば、いくつかの実施形態では、ARプロセッサは、センサタイプのそれぞれからのセンサ情報の融合を実行するように構成されている。
いくつかの実施形態では、プレーヤ/レンダラ装置205は、リスニング空間記述ファイル(LSDF)ジェネレータ225を具備する。リスニング空間記述ファイル(LSDF)ジェネレータ225は、ARプロセッサ223の出力を受信し、AR感知インターフェースから得られた情報から、AR利用のためのリスニング空間記述を生成するように構成される。リスニング空間のフォーマットは、任意の適切なフォーマットとすることができる。LSDFの作成には、LSDFフォーマットを使用することができる。この記述は、音響特性(例えば、メッシュ面の材料を含むリスニング空間を包むメッシュ)、リスニング空間記述においてアンカーと呼ばれるシーンの空間的に可変な要素を含むリスニング空間またはルーム情報を搬送する。LSDFジェネレータは、このリスニングシーン記述情報をレンダラ235に出力するように構成されている。
いくつかの実施形態では、プレーヤ/レンダラ装置205は、コンテンツ作成者ビットストリーム(EIF情報を含む)220を受信するように構成された受信バッファ231を具備する。バッファ231は、受信データを渡し、データをデコーダ233に渡すように構成される。
いくつかの実施形態では、プレーヤ/レンダラ装置205は、バッファ231から符号化ビットストリームを取得し、復号EIF情報および通信オーディオ処理パラメータ(同じデータストリーム内にある場合は復号オーディオデータと共に)をレンダラ235に出力するように構成されたデコーダ233を有する。
いくつかの実施形態では、プレーヤ/レンダラ装置205は、通信レシーババッファおよびデコーダ251を有する。通信レシーババッファおよびデコーダ251は、通信オーディオ200を受信し、符号化されたオーディオデータを復号してレンダラ235に渡すように構成される。
いくつかの実施形態では、プレーヤ/レンダラ装置205は、レンダラ235を具備する。レンダラ235は、復号されたEIF情報(同じデータストリーム内にある場合には、復号されたイマーシブオーディオデータを含む)、リスニングシーン記述情報、リスナ位置および/または姿勢情報、復号された通信オーディオ、および、通信オーディオ制御情報を受信するように構成される。レンダラ235は、空間オーディオ出力信号を生成し、図2にヘッドフォン241への空間オーディオ出力240で示すように、これらを出力デバイスに渡すように構成される。
図3に関して、図2に示したシステムの動作の一例を示す。
図3に示すように、ステップ301によって、通信オーディオ処理データが取得(または、生成)される。
本方法は、図3に示すように、ステップ303によって、EIF情報を生成、または、あるいは、取得することを含んでよい。
さらに、図3に示すように、ステップ305によって、オーディオデータが取得(または、生成)される。
そして、図3に示すように、ステップ307によって、EIF情報、通信オーディオ処理データ、および、オーディオデータが符号化される。
そして、図3に示すように、ステップ309によって、符号化されたデータが、記憶/取得、または、送信/受信される。
さらに、図3に示すように、ステップ311によって、ARシーンデータが取得される。
図3に示すように、ステップ313によって、検出されたARシーンデータから、リスニング空間記述(ファイル)情報が生成される。
さらに、図3に示すように、ステップ312によって、通信オーディオ制御情報が取得され得る。
また、図3に示すように、ステップ314によって、通信オーディオデータが取得される。
さらに、図3に示すように、ステップ315によって、リスナ/ユーザの位置および/または姿勢データを取得することができる。
そして、オーディオデータ、通信オーディオ制御情報、通信オーディオ、EIF情報、LSDFデータ、位置および/または姿勢データに基づいて、空間オーディオ信号がレンダリングされ得る。具体的には、レンダリングは、図3にステップ317で示すように、オーディオ信号の組み合わせを含む。
空間オーディオ信号をレンダリングした後、図3に示すように、ステップ319によって、これらはヘッドフォン等の適切な出力装置に出力され得る。
図4は、いくつかの実施形態を実装するのに適した例示的なレンダラ235を示し、融合されたオーディオ信号を実現するように構成され得る。
例えば、図4は、レンダラ235の前に、復号された6DoFビットストリームを受信するように構成されたビットストリームパーサ401があることを示す。そして、解析されたEIFデータは、シーンマネージャ/プロセッサ403に渡され得る。
いくつかの実施形態におけるレンダラ235は、シーンマネージャ/プロセッサ403を有する。シーンマネージャ/プロセッサ403は、ビットストリームパーサ401から解析されたEIF、通信制御情報、例えば、遅延、ジッタ、および、通信オーディオデータ402のフォーマットを定義するパラメータを受信するように構成される。
いくつかの実施形態におけるシーンマネージャ/プロセッサ403は、通信オーディオ処理に関する(ビットストリームから得られる)コンテンツ作成者プリファレンス、遅延に対する通信オーディオ許容バジェット等の情報に従って、可聴化パイプライン(または、レンダリングのためのDSP処理)を制御するように構成されている通信オーディオ適応プロセッサ411を有する。
そして、シーン管理情報は、シーン状態導出オーディオプロセッサ405に渡され得る。
シーンマネージャ/プロセッサ403は、さらに、復号された6DoFオーディオ信号、処理されたシーン情報、および、リスナの位置および/または姿勢を取得し、これらから空間オーディオ信号出力を生成するように構成されてもよい。上記に示したように、シーンマネージャ/プロセッサ403の効果は、任意の既知のまたは適切な空間オーディオ処理実装を採用できるようなものである(可聴化パイプラインは、先のシーン処理に関わらない)。
いくつかの実施形態におけるレンダラ235は、シーン状態導出型オーディオプロセッサ(DSP処理および可聴化)405を有する。シーン状態導出オーディオプロセッサ(DSP処理および可聴化)405は、シーンマネージャ/プロセッサ403からの構成情報、復号イマーシブオーディオ(MPEG-Iオーディオ/復号MPEG-Hオーディオ)400、および、復号通信オーディオ信号450を受信して、空間オーディオ信号を生成するよう構成される。
図5に関して、例示的なシーン状態導出オーディオプロセッサ(DSP処理および可聴化)405を示す。シーン状態導出オーディオプロセッサは、可聴化パイプライン内の異なるレンダリングモジュールを介して復号されたイマーシブオーディオ(IA)および通信オーディオ(CA)フローを取得するよう構成される。いくつかの実施形態では、プロセッサ405は、IAフォーマットタイプ(IAおよびIA)に基づいて、複数の処理経路を採用するように構成されている。同様に、通信オーディオ(CA)は、複数のパスを有してもよい(この例では、CAフォーマットに従って、3つの候補パス、CA、CA、および、CAがある)。異なるレンダリングモジュールは、IAまたはCAのための可能な挿入ポイントを示すインデックス番号で注釈される。さらに、本明細書に示す例示的なプロセッサ405は、2つの出力オプションを有する。ミキサを有する第1のオプション(O)と、ミキサを有しない他のオプション(O)である。
第1の経路IA-CAは、オーディオ信号に対して以下の処理動作を適用し、オーディオオブジェクトのモデリング処理を適用し得るように構成されている。
いくつかの実施形態では、シーン状態導出オーディオプロセッサ(DSP処理および可聴化)405は、シーンマネージャ/プロセッサ403からの設定情報からの制御情報に基づいて、イマーシブオーディオ(IA)および通信オーディオ(CA)のドップラ処理を制御するように構成されたドップラープロセッサ501を有する。
いくつかの実施形態では、シーン状態導出オーディオプロセッサ(DSP処理および可聴化)405は、シーンマネージャ/プロセッサ403からの設定情報の制御情報に基づいて、イマーシブオーディオ(IA)および通信オーディオ(CA)の直接音処理を制御するように構成された直接音プロセッサ503を有する。
いくつかの実施形態では、シーン状態導出オーディオプロセッサ(DSP処理および可聴化)405は、シーンマネージャ/プロセッサ403からの設定情報の制御情報に基づいて、イマーシブオーディオ(IA)および通信オーディオ(CA)のマテリアルフィルタ処理を制御するように構成されているマテリアルフィルタプロセッサ505を有する。
いくつかの実施形態では、シーン状態導出オーディオプロセッサ(DSP処理および可聴化)405は、シーンマネージャ/プロセッサ403からの設定情報からの制御情報に基づいて、イマーシブオーディオ(IA)および通信オーディオ(CA)の初期反射音処理を制御するように構成されている初期反射プロセッサ507を有する。
いくつかの実施形態では、シーン状態導出オーディオプロセッサ(DSP処理および可聴化)405は、シーンマネージャ/プロセッサ403からの設定情報からの制御情報に基づいて、イマーシブオーディオ(IA)および通信オーディオ(CA)の後期残響処理を制御するように構成されている後期残響プロセッサ509を有する。
いくつかの実施形態では、シーン状態導出オーディオプロセッサ(DSP処理および可聴化)405は、シーンマネージャ/プロセッサ403からの設定情報からの制御情報に基づいて、イマーシブオーディオ(IA)および通信オーディオ(CA)の拡張音処理を制御するように構成されている拡張プロセッサを有する。
上記の処理の順序は、任意の適切な順序とすることができることが理解されよう。オブジェクト処理プロセッサの出力は、より高次のアンビソニックスまたはスペイシャライザプロセッサ541に渡すことができる。
第2の経路IA-CAは、オーディオ信号に対して、以下の処理動作を適用し、より高次のアンビソンクス処理を適用するものであってもよい。
いくつかの実施形態では、シーン状態導出オーディオプロセッサ(DSP処理および可聴化)405は、シーンマネージャ/プロセッサ403からの設定情報からの制御情報に基づいて、イマーシブオーディオ(IA)および通信オーディオ(CA)のSP高次アンビソニクス処理を制御するように構成されたSP高次アンビソニクスプロセッサ521を有する。
いくつかの実施形態では、シーン状態導出オーディオプロセッサ(DSP処理および可聴化)405は、シーンマネージャ/プロセッサ403からの設定情報からの制御情報に基づいて、イマーシブオーディオ(IA)および通信オーディオ(CA)のMP高次アンビソニック処理を制御するように構成されているMP高次アンビソニックプロセッサ523を有する。
高次アンビソニックス処理の出力は、いくつかの実施形態では、スペイシャライザプロセッサ541の高次アンビソニックスに渡すことができる。
第1経路および第2経路は、スペイシャライザプロセッサ541の高次アンビソニックに行き、シーンマネージャ/プロセッサ403からの設定情報からの制御情報等のオーディオフォーマットに基づいて、出力Oとして、または、ミキサ551に出力する2経路のいずれかを選択するように構成されている。
第3経路CAは、オーディオ信号に対して、以下のような処理動作を適用し、レンダリング処理を適用したものであってもよい。
いくつかの実施形態では、シーン状態導出オーディオプロセッサ(DSP処理および可聴化)405は、シーンマネージャ/プロセッサ403からの設定情報からの制御情報に基づいて、通信オーディオ(CA)の処理を制御するように構成された通信オーディオ出力レンダリングオーディオプロセッサ531を有する。
通信オーディオ出力レンダリングオーディオプロセッサ531の出力は、いくつかの実施形態において、ミキサ551に渡され得る。
いくつかの実施形態では、シーン状態導出オーディオプロセッサ(DSP処理および可聴化)405は、通信オーディオ出力レンダリングオーディオプロセッサ531および高次アンビソニックスまたはスペイシャライザプロセッサ541の出力を受信し、これらをシーンマネージャ/プロセッサ403からの設定情報からの制御情報に基づいて、混合して混合出力Oを生成するように構成されるミキサを有する。
図6に、いくつかの実施形態で示されるシーン状態導出オーディオプロセッサ(DSP処理および可聴化)405の動作を示す例示的なフロー図が示される。
復号イマーシブオーディオ入力は、図6に示すように、ステップ601によって、リスニング空間記述から受信または取得される。
さらに、通信オーディオ入力は、図6に示すように、ステップ603によって、受信または取得される。
さらに、処理パイプラインが示されている。
空間化処理パイプラインをステップ605からステップ615によって示す。これらは、図6のステップ605で示すドップラ処理、図6のステップ607で示す直接音処理、図6のステップ609で示すマテリアルフィルタ処理、図6のステップ611で示す初期反射処理、図6のステップ613で示す後期残響処理、図6のステップ615で示す拡張処理である。
アンビソニックス処理パイプラインは、ステップ621および623によって示される。これらは、図6にステップ621で示す、SP高次アンビソニックス処理、および、図6にステップ623で示す、MP高次アンビソニックス処理である。
プリレンダリングされた通信オーディオ出力パイプラインは、図6に示すように、ステップ631によって、通信オーディオ出力レンダリングオーディオ処理によって示される。
さらに、図6に示すように、ステップ625によって、選択された空間化された、または、アンビソニックスパイプライン出力を示す。
いくつかの実施形態では、選択された空間化された、または、アンビソニックス処理パイプラインの出力、換言すれば、イマーシブオーディオレンダリングパイプラインの出力は、次に、図6に示すように、ステップ627によって、混合されていないオーディオ信号として出力される。
いくつかの実施形態では、選択された空間化された、または、アンビソニックス処理パイプライン出力、および、プリレンダリングされた通信オーディオ出力パイプラインは、図6に示すように、ステップ641によって、混合され、出力される。
図7は、通信オーディオのレンダリングのための適切なオーディオ挿入ポイントの決定、および、処理ステップの選択を決定する手順を説明するフロー図である。
本方法は、図7に示すように、ステップ701によって、通信オーディオ処理用コンテンツ作成者ビットストリームを受信するよう構成されている。これは、MPEG-I6DoFコンテンツの一部として取得することができる。
次に、現在利用されているイマーシブオーディオシーンにおいて、通信オーディオの利用が許可されているか否かを判断するためのチェックが行われる。このチェックは、図7にステップ703で示されている。
利用が許可され、かつ、サポートされている場合、次の動作が構成され、図7に示すように、ステップ705によって、通信オーディオ情報を回収する。
その後、図7に示されるように、ステップ707によって、許可された通信オーディオタイプ(例えば、解説、双方向性等)がサポートされているか否かを判断するために、さらなるチェックが実行され得る。チェックが、オーディオタイプが許可されていないと判断するいくつかの実施形態(図示せず)において、方法は、イマーシブオーディオシーンを一時停止し、通信オーディオを継続するか、または、切り替えるべきである。
タイプがサポートされる場合、図7に示されるように、ステップ709によって、レンダリングステージ宣言および関連する遅延情報が次に受信されるか、または、あるいは取得される。これにより、利用可能なレンダリングステージ、および、通信オーディオのための潜在的な挿入ポイントに関する情報が提供される。
いくつかの実施形態では、図7に示されるように、ステップ711によって、遅延閾値情報が存在するか否かを決定するために、さらなるチェック動作が続き得る。
遅延閾値情報が存在する場合、方法は、図7に示されるように、ステップ713によって、宣言されたレンダリングパイプラインからステージを選択するために、レンダリングステージの遅延を利用するように構成され得る。
いくつかの実施形態では、これは、
通信オーディオ遅延(ca_delivery_latency)を遅延閾値から減算して、最新の遅延要件を取得することと、
通信オーディオフォーマットタイプを使用して、フォーマットタイプ(ca_format_type)に適用可能なレンダリングステージの候補を決定することと、
DisallowedRenderingStagesStruct()が存在する場合、その情報は、関連する宣言されたレンダリングパイプラインからステージを破棄するために使用されることが可能であり、
最新の遅延要件に準拠しながら、RequiredRenderingStagesStruct()に示されるレンダリングステージの包含を優先させることと、
上記動作により取得された最初のレンダリングステージにおける通信オーディオの挿入または入力を制御することと、
によって実装することができる。
遅延閾値情報が存在しない場合、方法は、コンテンツ作成者ビットストリームから要求され、かつ、許可されないステージ情報を使用して、宣言されたレンダリングパイプラインからステージを選択するように構成することができる。さらに、レンダリングモードが存在する場合、レンダリングモードに基づいて、レンダリングが実施されるように設定される。ステージの選択、および、存在する場合は、レンダリングモードに基づくレンダリングの設定が、図7にステップ715で示される。これは、例えば、以下の動作を用いることができる。
ca_delivery_latencyとca_class_typeとの差を取得することによって導出される要件に基づいて、最新の遅延要件を取得すること、
通信オーディオフォーマットタイプに基づいて、ca_format_typeに適用可能なレンダリングステージ候補を決定することと、
DisallowedRenderingStagesStruct()が存在する場合、関連する宣言されたレンダリングパイプラインからステージを廃棄するために使用され、
最新の遅延要件に準拠しながら、RequiredRenderingStagesStruct()で示されるレンダリングステージを含めることを優先させることと、
上記動作により取得された最初のレンダリングステージに通信オーディオを挿入すること。
そして、図7に示すように、ステップ717によって、通信オーディオがレンダリングされる。
いくつかの実施形態では、次に、新たな通信オーディオ遅延が取得される。現在推定された遅延要件からの差が予め決められた閾値を超えて変化する場合、オーディオレンダリングパイプラインは修正される。これは、図7に示すように、ステップ719によって、通信オーディオ情報に変化があるか否かを決定するチェックステップが実行され、応答がイエスである場合、動作はステップ705に戻される。
オーディオオブジェクトフォーマットの通信オーディオシナリオの例としては、コンテンツ作成者のビットストリームがオーディオオブジェクトと同様の音響モデリングを指定した場合、フォーマットタイプがモノラルである通信オーディオ信号をオーディオオブジェクトとして扱うものがある。オーディオオブジェクトは、遅延要件が満たされる限り、レンダリングパイプラインで指定された音響処理ステップでレンダリングされる。しかしながら、別の例では、特定のレンダリング処理ステップ(たとえば、音源拡張、または、有意なレンダリング遅延を追加するそのようなステップ)が観察される場合、それが必要なステージメタデータの一部でない限り、その特定のレンダリングステップは省略される。
さらなる例は、HOAソース内の翻訳サポートでHOAソースを示す、コンテンツ作成者ビットストリームを有するHOAソースとして、通信オーディオが配信されるHOAフォーマット通信オーディオである。レンダリングパイプラインがシングルHOAソースレンダリングを含むように選択されている場合、遅延制約に基づいて、この処理に対応することができることが確認されている。同じシーンの別の例では、通信オーディオ遅延が大きすぎて、変換を伴うシングルポイントHOAレンダリングができないことが確認されている。その結果、HOAソースの通信オーディオは、変換処理なしでレンダリングされるが、混合ブロックではイマーシブオーディオ出力と直接混合される。
図8に関して、上記の装置のいずれかを表すことができる例示的な電子装置である。本装置は、任意の適切な電子機器または装置であってよい。例えば、いくつかの実施形態では、装置1400は、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置等であってよい。
いくつかの実施形態では、装置1400は、少なくとも1つのプロセッサまたは中央処理装置1407を備える。プロセッサ1407は、本明細書に記載されるような方法等、様々なプログラムコードを実行するように構成され得る。
いくつかの実施形態では、装置1400は、メモリ1411を備える。いくつかの実施形態では、少なくとも1つのプロセッサ1407は、メモリ1411に結合される。メモリ1411は、任意の適切な記憶手段であり得る。いくつかの実施形態では、メモリ1411は、プロセッサ1407に実装可能なプログラムコードを格納するためのプログラムコード部を具備する。さらに、いくつかの実施形態では、メモリ1411は、データ、例えば、本明細書に記載されるような実施形態に従って処理された、または、処理されるべきデータを記憶するための記憶データ部をさらに備えることができる。プログラムコード部内に格納された実装プログラムコード、および、格納データ部内に格納されたデータは、メモリ-プロセッサ結合を介して、必要なときにいつでもプロセッサ1407によって取り出され得る。
いくつかの実施形態では、装置1400は、ユーザインタフェース1405を備える。ユーザインタフェース1405は、いくつかの実施形態では、プロセッサ1407に結合され得る。いくつかの実施形態では、プロセッサ1407は、ユーザインタフェース1405の動作を制御し、ユーザインタフェース1405から入力を受信することができる。いくつかの実施形態では、ユーザインタフェース1405は、ユーザが、例えば、キーパッドを介して、装置1400に命令を入力することを可能にすることができる。いくつかの実施形態では、ユーザインタフェース1405は、ユーザが装置1400から情報を取得することを可能にすることができる。例えば、ユーザインタフェース1405は、装置1400からの情報をユーザに表示するように構成されたディスプレイを有してよい。ユーザインタフェース1405は、いくつかの実施形態において、装置1400に情報を入力することを可能にし、さらに装置1400のユーザに対して情報を表示することの両方が可能なタッチスクリーンまたはタッチインターフェースで構成されてよい。いくつかの実施形態では、ユーザインタフェース1405は、本明細書に記載されるように位置決定装置と通信するためのユーザインタフェースであってもよい。
いくつかの実施形態では、装置1400は、入力/出力ポート1409を具備している。いくつかの実施形態における入力/出力ポート1409は、トランシーバを具備する。そのような実施形態におけるトランシーバは、プロセッサ1407に結合され、例えば、無線通信ネットワークを介して他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の適切なトランシーバまたは送信および/または受信手段は、いくつかの実施形態において、有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成され得る。
トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバは、適切なユニバーサル移動通信システム(UMTS)プロトコル、例えばIEEE802.X等の無線ローカルエリアネットワーク(WLAN)プロトコル、Bluetooth(登録商標)等の適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路(IRDA)を使用することができる。
トランシーバ入力/出力ポート1409は、適切なコードを実行するプロセッサ1407を使用して、信号を受信し、いくつかの実施形態では、本明細書に記載されるようにパラメータを決定するように構成されてもよい。
また、上記では例示的な実施形態について説明したが、本発明の範囲から逸脱することなく、開示された解決策にいくつかの変形および修正が可能であることを本明細書では指摘する。
一般に、様々な実施形態は、ハードウェアまたは特定用途回路、ソフトウェア、ロジック、またはそれらの任意の組み合わせで実装されてもよい。本開示のいくつかの態様はハードウェアで実装されてもよく、他の態様は、コントローラ、マイクロプロセッサ、または他のコンピューティング装置によって実行され得るファームウェアまたはソフトウェアで実装されてもよいが、本開示はこれに限定されない。本開示の様々な態様は、ブロック図、フローチャートとして、または他の何らかの図的表現を用いて図示および説明され得るが、本明細書に記載されるこれらのブロック、装置、システム、技術または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特定用途回路または論理、汎用ハードウェアまたはコントローラもしくは他のコンピューティング装置、またはこれらの組み合わせで実施され得ることが十分に理解されよう。
本願で使用する場合、「回路」という用語は、以下の1つ以上またはすべてを指す場合がある。
(a)ハードウェアのみの回路実装(アナログ回路および/またはデジタル回路のみにおける実装等)、および、
(b)ハードウェア回路とソフトウェアの組み合わせ、例えば(該当する場合)、
(i)アナログおよび/またはデジタルハードウェア回路とソフトウェア/ファームウェアとの組合せ、および、
(ii)携帯電話やサーバ等の機器に様々な機能を実行させるために協働するソフトウェア(デジタル信号プロセッサを含む)、ソフトウェア、およびメモリを有するハードウェアプロセッサの部分)、および、
(c)マイクロプロセッサ(複数)またはマイクロプロセッサ(複数)の一部等のハードウェア回路およびプロセッサで、動作のためにソフトウェア(例えば、ファームウェア)を必要とするが、動作に必要ないときはソフトウェアが存在しない場合もあるもの。
この回路の定義は、あらゆる請求項を含む、本願におけるこの用語のすべての使用に適用される。さらなる例として、本願で使用されるように、回路という用語は、単にハードウェア回路またはプロセッサ(または複数のプロセッサ)またはハードウェア回路またはプロセッサの一部と、その(またはそれらの)付随するソフトウェアおよび/またはファームウェアの実装も対象とする。
また、回路という用語は、例えば、特定の請求項の要素に適用可能であれば、携帯端末用のベースバンド集積回路またはプロセッサ集積回路、あるいは、サーバ、セルラーネットワーク装置、または他のコンピューティング装置またはネットワーク装置の同様の集積回路を対象とする。
本開示の実施形態は、プロセッサエンティティ等のモバイルデバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、またはソフトウェアとハードウェアの組み合わせによって実装されてもよい。ソフトウェアルーチン、アプレットおよび/またはマクロを含む、プログラム製品とも呼ばれるコンピュータソフトウェアまたはプログラムは、任意の装置可読データ記憶媒体に格納されてもよく、それらは特定のタスクを実行するプログラム命令からなる。コンピュータプログラム製品は、プログラムが実行されると、実施形態を実行するように構成される1つ以上のコンピュータ実行可能な構成要素から構成されてもよい。1つ以上のコンピュータ実行可能な構成要素は、少なくとも1つのソフトウェアコードまたはその一部であってもよい。
さらに、この点で、図のような論理フローの任意のブロックは、プログラムステップ、または相互に接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組み合わせを表すことができることに留意されたい。ソフトウェアは、メモリチップ、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピーディスク等の磁気媒体、および例えばDVDおよびそのデータ変種であるCD等の光媒体等の物理媒体に格納されてもよい。物理媒体は、非一時的な媒体である。
メモリは、ローカル技術環境に適した任意のタイプであってよく、半導体ベースのメモリ装置、磁気メモリ装置およびシステム、光学メモリ装置およびシステム、固定メモリおよび着脱可能メモリ等、任意の適したデータ記憶技術を使用して実装することができる。データプロセッサは、ローカルの技術環境に適した任意のタイプであってよく、非限定的な例として、汎用コンピュータ、特殊用途コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特殊用途集積回路(ASIC)、FPGA、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサの1つ以上を含んでいてよい。
本開示の実施形態は、集積回路モジュール等の様々な部品において実施することができる。集積回路の設計は、概して、高度に自動化されたプロセスである。論理レベル設計を、半導体基板上にエッチングして形成する準備が整った半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。
本開示の様々な実施形態に求められる保護の範囲は、独立請求項によって規定される。独立請求項の範囲に該当しない本明細書に記載された実施形態および特徴(もしあれば)は、本開示の様々な実施形態を理解するために有用な例として解釈されるものとする。
上述の説明は、非限定的な例によって、本開示の例示的な実施形態の完全かつ有益な説明を提供した。しかしながら、添付の図面および添付の特許請求の範囲と併せて読むと、上述の説明に鑑みて、様々な修正および適応が関連技術の当業者には明らかになるであろう。しかしながら、本開示の教示の全てのそのようなおよび類似の修正は、やはり添付の特許請求の範囲で定義される本発明の範囲内に入るであろう。実際、1つ以上の実施形態と、先に説明した他の実施形態のいずれかとの組み合わせからなるさらなる実施形態が存在する。

Claims (17)

  1. イマーシブオーディオシーン内で通信オーディオ信号をレンダリングするための装置であって、前記装置は、
    前記イマーシブオーディオシーン内でレンダリングするための少なくとも1つの空間オーディオ信号を取得し、
    前記通信オーディオ信号および前記通信オーディオ信号に関連する位置情報を取得し、
    前記通信オーディオ信号に関連するレンダリング処理パラメータを取得し、
    前記レンダリング処理パラメータに基づいて、レンダリング方法を決定し、
    前記決定されたレンダリング方法のためのレンダリング処理における挿入ポイント、および/または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のためのレンダリング要素の選択を決定する、
    ように構成された手段を備える、装置。
  2. 前記手段は、前記決定されたレンダリング方法および前記決定されたレンダリング方法のための前記レンダリング処理における挿入ポイント、および/または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、前記少なくとも1つの空間オーディオ信号および前記通信オーディオ信号から、少なくとも1つの出力空間オーディオ信号を生成するようにさらに構成される、請求項1に記載の装置。
  3. 前記手段は、
    前記通信オーディオ信号に関連するオーディオフォーマット、
    許容遅延値、および、
    通信オーディオ信号遅延、
    のうちの少なくとも1つを決定するようにさらに構成される、請求項1または2に記載の装置。
  4. 前記決定されたレンダリング方法のレンダリング処理における挿入ポイント、および/または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のレンダリング要素の選択を決定するように構成された前記手段が、
    前記通信オーディオ信号に関連付けられた前記オーディオフォーマット、前記許容遅延値、および、前記通信オーディオ信号遅延のうちの前記決定された少なくとも1つにさらに基づいて、前記レンダリング処理における前記挿入ポイントを決定することと、
    前記通信オーディオ信号に関連付けられた前記オーディオフォーマット、前記許容遅延値、および、前記通信オーディオ信号遅延のうちの前記決定された少なくとも1つに基づいて、前記レンダリング方法、および/または、前記決定されたレンダリング方法のためのレンダリング要素の前記選択を決定することと、
    のうちの少なくとも1つを行うようにさらに構成されている、請求項3に記載の装置。
  5. 前記許容遅延値は、前記通信オーディオ信号を利用するために許容される遅延量であり、前記通信オーディオ信号遅延は、エンドツーエンドの配信遅延および前記通信オーディオをレンダリングする遅延に基づいて決定された遅延値である、請求項4に記載の装置。
  6. 前記通信オーディオ信号に関連する前記オーディオフォーマットは、
    一方向通信オーディオ信号と、
    前記イマーシブシーン内のユーザ間の対話通信オーディオ信号と、
    のうちの1つを含む、請求項3乃至5のいずれかに記載の装置。
  7. 前記決定されたレンダリング方法および前記決定されたレンダリング方法のための前記レンダリング処理における挿入ポイント、および/または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、前記少なくとも1つの空間オーディオ信号および前記通信オーディオ信号から、前記少なくとも1つの出力空間オーディオ信号を生成するよう構成された前記手段が、前記通信オーディオ信号を高次アンビソニックオーディオ信号として表現するよう構成されている、請求項2または請求項2に従属するいずれかの請求項に記載の装置。
  8. 前記手段は、さらに、ユーザ入力を取得するように構成され、前記決定されたレンダリング方法および前記決定されたレンダリング方法のための前記レンダリング処理における挿入ポイント、および/または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、前記少なくとも1つの空間オーディオ信号および前記通信オーディオ信号から、前記少なくとも1つの出力空間オーディオ信号を生成するよう構成された前記手段が、さらに前記ユーザ入力に基づいて、前記少なくとも1つの空間オーディオ信号および前記通信オーディオ信号から、前記少なくとも1つの出力空間オーディオ信号を生成するように構成され、前記ユーザ入力は、
    許可された通信オーディオ信号タイプ、
    許可されたオーディオフォーマット、
    前記許容遅延値、
    少なくとも1つの音響モデリングプリファレンスパラメータ、
    のうちの少なくとも1つを定義するよう構成されている、請求項2または請求項2に従属する請求項のいずれかに記載の装置。
  9. 前記手段は、前記少なくとも1つの空間オーディオ信号に関連付けられた通信オーディオ信号タイプを取得するようにさらに構成され、前記決定されたレンダリング方法および前記決定されたレンダリング方法のための前記レンダリング処理における挿入ポイント、および/または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のためのレンダリング要素の選択に基づいて、前記少なくとも1つの空間オーディオ信号および前記通信オーディオ信号から、前記少なくとも1つの出力空間オーディオ信号を生成するよう構成された前記手段が、さらに、前記少なくとも1つの空間オーディオ信号に関連する前記少なくとも1つの通信オーディオ信号タイプに基づいて、前記少なくとも1つの空間オーディオ信号および前記通信オーディオ信号から、前記少なくとも1つの出力空間オーディオ信号を生成するよう構成されている、請求項2または請求項2に従属する請求項のいずれかに記載の装置。
  10. 前記レンダリング処理および/またはレンダリング要素は、
    ドップラ処理、
    直接音処理、
    マテリアルフィルタ処理、
    初期反射処理、
    拡散後期残響処理、
    音源拡張処理、
    遮蔽処理、
    回折処理、
    音源変換処理、
    外在化レンダリング、
    インヘッドレンダリング、
    のうちの1つまたは複数を含む、請求項1乃至9のいずれかに記載の装置。
  11. 前記決定されたレンダリング方法のレンダリング処理における挿入ポイント、および/または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のレンダリング要素の選択を決定するように構成された前記手段は、レンダリングモードを決定するように構成され、前記レンダリングモードが、前記通信オーディオ信号の前記挿入ポイントを示す値を含む、請求項1乃至10のいずれかに記載の装置。
  12. 前記挿入ポイントを示す前記値は、
    前記通信オーディオ信号および前記少なくとも1つの空間オーディオ信号が、前記レンダリング処理方法の前記開始時に挿入されることを示す第1のモード値、
    前記通信オーディオ信号が前記レンダリング処理をバイパスし、かつ、前記少なくとも1つの空間オーディオ信号に適用される前記レンダリング処理の出力と直接混合されることを示す第2のモード値、
    前記レンダリング処理が前記少なくとも1つの空間オーディオ信号に完全に適用される一方で、前記通信オーディオ信号が部分的にレンダリング処理されることを示す第3のモード値、
    のうちの1つを含む、請求項11に記載の装置。
  13. 前記通信オーディオ信号が部分的にレンダリング処理されていることを示す前記第3のモード値は、前記通信オーディオ信号が点音源に対する直接音レンダリングであり、かつ、ユーザ位置に対するバイノーラルレンダリングであることを示す値である、請求項12に記載の装置。
  14. 前記手段は、前記レンダリング処理パラメータに基づいて、前記通信オーディオ信号のオーディオフォーマットタイプを決定するようにさらに構成される、請求項1乃至13のいずれかに記載の装置。
  15. 前記決定されたレンダリング方法の前記レンダリング処理における挿入ポイント、および/または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のレンダリング要素の前記選択を決定するように構成された前記手段は、前記オーディオフォーマットタイプに基づいて前記決定されたレンダリング方法内の前記通信オーディオ信号の前記レンダリング処理における前記挿入ポイントを決定するように構成されている、請求項14に記載の装置。
  16. 前記オーディオフォーマットタイプに基づいて前記決定されたレンダリング方法内の前記通信オーディオ信号に対する前記レンダリング処理における前記挿入ポイントを決定するように構成された前記手段は、前記通信オーディオ信号がプリレンダリングされた空間オーディオフォーマットのオーディオフォーマットタイプを有する場合、前記レンダリング方法における前記挿入ポイントが、前記少なくとも1つの空間オーディオ信号に適用される前記レンダリング処理の出力との直接混合にあると決定するように構成されている、請求項15に記載の装置。
  17. イマーシブオーディオシーン内で通信オーディオ信号をレンダリングするための装置のための方法であって、前記方法は、
    前記イマーシブオーディオシーン内でレンダリングするための少なくとも1つの空間オーディオ信号を取得し、
    前記通信オーディオ信号および前記通信オーディオ信号に関連する位置情報を取得し、
    前記通信オーディオ信号に関連するレンダリング処理パラメータを取得し、
    前記レンダリング処理パラメータに基づいて、レンダリング方法を決定し、
    前記決定されたレンダリング方法のためのレンダリング処理における挿入ポイントを決定し、および/または、前記レンダリング処理パラメータに基づいて前記決定されたレンダリング方法のためのレンダリング要素を選択する、
    ことを含む方法。
JP2022145812A 2021-09-17 2022-09-14 イマーシブオーディオシーンレンダリングにおける通信オーディオ処理方法および装置 Pending JP2023044657A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB2113301.2 2021-09-17
GB2113301.2A GB2610845A (en) 2021-09-17 2021-09-17 A method and apparatus for communication audio handling in immersive audio scene rendering

Publications (1)

Publication Number Publication Date
JP2023044657A true JP2023044657A (ja) 2023-03-30

Family

ID=83152075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022145812A Pending JP2023044657A (ja) 2021-09-17 2022-09-14 イマーシブオーディオシーンレンダリングにおける通信オーディオ処理方法および装置

Country Status (4)

Country Link
US (1) US20230090246A1 (ja)
EP (1) EP4152770A1 (ja)
JP (1) JP2023044657A (ja)
GB (1) GB2610845A (ja)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4997022B2 (ja) * 2007-08-15 2012-08-08 ヤフー株式会社 仮想空間提供サーバ及びシステム
GB2543275A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
US10007482B2 (en) * 2015-09-16 2018-06-26 Hashplay Inc. Method and system for voice chat in virtual environment
EP3595337A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus and method of audio processing
EP3617871A1 (en) * 2018-08-28 2020-03-04 Koninklijke Philips N.V. Audio apparatus and method of audio processing
WO2020231883A1 (en) * 2019-05-15 2020-11-19 Ocelot Laboratories Llc Separating and rendering voice and ambience signals
GB2586126A (en) * 2019-08-02 2021-02-10 Nokia Technologies Oy MASA with embedded near-far stereo for mobile devices
GB202002900D0 (en) * 2020-02-28 2020-04-15 Nokia Technologies Oy Audio repersentation and associated rendering
CN111383653A (zh) * 2020-03-18 2020-07-07 北京海益同展信息科技有限公司 语音处理方法及装置、存储介质、机器人

Also Published As

Publication number Publication date
EP4152770A1 (en) 2023-03-22
US20230090246A1 (en) 2023-03-23
GB2610845A (en) 2023-03-22

Similar Documents

Publication Publication Date Title
JP7212622B2 (ja) コンピュータ媒介式の現実アプリケーションにおける送信器と受信器との間の通信を最適化する方法、装置およびシステム
JP6710675B2 (ja) オーディオ処理システムおよび方法
CN111630879B (zh) 用于空间音频播放的装置和方法
CN112673649B (zh) 空间音频增强
US20220383885A1 (en) Apparatus and method for audio encoding
CN113678198A (zh) 音频编解码器扩展
JP2023516303A (ja) オーディオ表現および関連するレンダリング
US20230028238A1 (en) Rendering audio
US11729574B2 (en) Spatial audio augmentation and reproduction
JP2023044657A (ja) イマーシブオーディオシーンレンダリングにおける通信オーディオ処理方法および装置
GB2575509A (en) Spatial audio capture, transmission and reproduction
US11902768B2 (en) Associated spatial audio playback
US20230123809A1 (en) Method and Apparatus for Efficient Delivery of Edge Based Rendering of 6DOF MPEG-I Immersive Audio
WO2024078809A1 (en) Spatial audio rendering
GB2593672A (en) Switching between audio instances
CN112689825A (zh) 实现远程用户访问介导现实内容的装置、方法、计算机程序

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240305