JP2023520019A

JP2023520019A - グリッド経路発見に基づく回折モデリング

Info

Publication number: JP2023520019A
Application number: JP2022559811A
Authority: JP
Inventors: テレンティフ，レオン; フィッシャー，ダニエル; フェルシュ，クリストフ; セティアワン，パンジ
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2020-04-03
Filing date: 2021-03-29
Publication date: 2023-05-15
Also published as: BR112022019746A2; CN115486097A; WO2021198152A1; KR20220162718A; EP4128822A1; US20230188920A1

Abstract

３次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理する方法であって、オーディオコンテンツはソース位置に音源を含み、３次元オーディオシーンのボクセル化表現であって、音が伝搬することができるボリューム要素と、音が遮られるボリューム要素とを示すボクセル化表現を取得することと、水平面に投影する投影動作をボクセル化表現に適用することによって、ボクセル化表現に基づいてオーディオシーンについての２次元投影マップを生成することと、仮想音源の仮想ソース位置からの仮想ソース信号をレンダリングすることによって、ソース位置における音源のソース信号に対する３次元オーディオシーンによる音響回折の影響を、シミュレートするために、ソース位置、リスナ位置、および投影マップに基づいて仮想ソース位置を示すパラメータを決定することとを含む方法が本明細書で説明される。さらに、対応する装置および対応するコンピュータプログラム製品が説明される。

Description

［関連出願への相互参照］
本出願は、以下の優先出願の優先権を主張する：２０２０年４月０３日に出願された米国仮出願第６３／００４，５３９号（参照：Ｄ２００１６ＵＳＰ１）および２０２０年４月０３日に出願された欧州特許出願第２０１６７９０７．３号（参照：Ｄ２００１６ＥＰ）、これらは参照により本明細書に組み込まれる。

［技術］
本開示は、概して、３次元オーディオシーンの要素によって引き起こされる回折効果を考慮に入れて、３次元オーディオシーンにおけるオーディオレンダリングのためにオーディオコンテンツを処理する方法に関する。特に、本開示は、グリッド経路発見に基づく（音響）回折モデリングの方法に関する。本開示はさらに、対応する装置およびコンピュータプログラム製品に関する。

いくつかの実施形態は、特にその開示を参照して本明細書で説明されるが、本開示はそのような使用分野に限定されず、より広い文脈で適用可能であることが理解されるであろう。

本開示全体にわたる背景技術のいかなる考察も、そのような技術が広く知られていること、または当技術分野における共通の一般知識の一部を形成することを認めるものと決してみなされるべきではない。

音響回折は、波が障害物またはオクルーダーの穴にぶつかったときに生じる様々な現象を指す。音響回折の音響心理学的な知覚は、音が障害物の周りで「曲がる」こと、または防音壁の小さな開口部を通り過ぎて「広がる」ことである。そのため、柱またはポールによって遮られていてもコンサートホール内で依然として音を良好に知覚することができたり、廊下にいるときにドアがわずかに開いいている部屋からの音を聞いたりすることができる。

音響回折は、自然に発生する現象であり、音響環境の正しい解釈を実現する上で重要な役割を果たしている。特に、それは、遮音壁および／またはそれらに小さな開口部が存在するときに知覚的に関連性がある。音響回折効果のシミュレーションがないと、サウンドシーンのリアルな再現が確実に損なわれる。

物理世界における音響回折の重要性にもかかわらず、仮想環境（例えば、仮想現実またはゲーム世界）における回折モデリングは見落とされがちである。音響回折効果のモデリングは、多くの場合、完全に破棄されるか、または直接的な信号伝搬アプローチによって置き換えられる。最先端のオーディオレンダリングソリューションでさえ、リアルな音響効果を３次元仮想環境においてリアルタイムで正確に再現することができる状態には未だ至っていない。その理由の1つは、回折効果の物理的に適切なモデリングが計算集約的なタスクであることである。これは、オクルージョン／回折関連のオブジェクトジオメトリ（例えば、壁および穴）の表現の複雑さ、オーディオレンダリングのための空間の次元数（例えば、３Ｄ仮想現実）、ならびにモデリングされる効果に関するリアリズムおよびコンテンツ作成者の意図に対する要件（例えば、可聴範囲）によるものである。

したがって、リアルであるが、計算的に実現可能な音響回折のモデリングが現在必要とされている。言い換えれば、（仮想）３次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理するための改善された方法および装置が必要とされている。

本開示の第１の態様によれば、３次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理する方法が提供される。３次元オーディオシーンは、仮想オーディオシーンであり得る。オーディオコンテンツはソース位置に音源を含み得る。方法は、３次元オーディオシーンのボクセル化表現を取得することを含み得る。ボクセル化表現は、音が伝搬することができるボリューム要素（例えば、ボクセル）と、音が遮られるボリューム要素（例えば、ボクセル）とを示し得る。したがって、ボクセル化表現は、３次元オーディオシーンの遮蔽ジオメトリの記述を含むと言える。いくつかの実施形態では、ボクセル化表現内のボリューム要素（例えば、ボクセル）は、所定の辺長、例えば、約１０センチメートルの立方体であり得る。他の実施形態では、ボリューム要素（例えば、ボクセル）は、適応サイズ、すなわち、適応辺長を有してもよい。音が伝搬する（例えば、自由に伝搬する）ことができるボリューム要素は、空気で満たされていると考えられ得る。いくつかの実装形態では、ボリューム要素は、自由音伝搬を示す係数値（例えば、０）から完全なオクルージョンを示す係数値（例えば、１）までの範囲の関連するオクルージョン係数を有し得る。方法は、オーディオシーンについての２次元投影マップを取得することをさらに含み得る。２次元投影マップは、水平面に投影する投影動作（projection operation）によってボクセル化表現に関連付けられてもよい。この投影マップは、グリッドを含み得、グリッドの各要素は、オーディオシーン内の水平位置を表すとともに、ボクセル化表現内のその水平位置にある（例えば、その上または下にある）少なくとも１つのボリューム要素が、音が伝搬することができるボリューム要素であるかどうかを示す。投影マップは、オクルージョンマップまたは伝搬マップと呼ばれることもある。方法は、仮想音源の仮想ソース位置からの仮想ソース信号をレンダリングすることによって、ソース位置における音源のソース信号に対する３次元オーディオシーンによる音響回折の影響を、シミュレートするために、ソース位置、リスナ位置、および投影マップに基づいて仮想ソース位置を示すパラメータを決定することをさらに含み得る。

３次元オーディオシーンのボクセル化表現を考慮することによって、表現の複雑さを大幅に軽減することができる。ボクセルサイズ（例えば、約１０センチメートルの辺長、または数センチメートルの辺長）の適切な選択により、リスニングエクスペリエンスの知覚可能な劣化なしにこれを達成することができる。２次元投影マップ上にさらに投影することによって、複雑さをさらに軽減することができ、それによって、２次元経路発見アルゴリズムを採用することが可能になる。経路発見アルゴリズムによって出力される経路は、元の３次元オーディオシーンにおける音の回折の影響をリアルにシミュレートする仮想ソース位置における仮想音源の生成に十分な情報を含む。提案された方法によって達成される複雑さの軽減のおかげで、合理的な計算労力で３次元オーディオシーンにおけるリアルなリスニングエクスペリエンスを提供することができる。特に、これは、仮想現実アプリケーションまたはコンピュータ／コンソールゲームのようなリアルタイムアプリケーションに対してさえ、３次元オーディオシーンにおけるリアルなサウンドレンダリングを可能にする。

いくつかの実施形態では、２次元投影マップを取得することは、水平面に投影する投影動作をボクセル化表現に適用することによって、ボクセル化表現に基づいて２次元投影マップを生成することを含み得る。ボリューム要素が、関連するオクルージョン係数を有する場合、投影マップを生成することは、これらの係数値のいずれかを２つの極値のうちの１つに（例えば、０または１に）マッピングする切捨てステップを伴い得る。状況（例えば、どれだけ頻繁にジオメトリが変化すると予想されるか）に応じて、ボクセル化表現および２次元投影マップは、（例えば、複数のサイズのボリューム要素について）事前計算されてもよく、必要なときにアクセスされてもよい。例えば、事前計算はエンコーダ側で実行され得、ボクセル化表現（複数可）および２次元投影マップ（複数可）は、ビットストリームの一部としてデコーダ側に提供され得る。これにより、デコーダ側の計算負荷がさらに軽減され得る。

いくつかの実施形態では、仮想ソース位置を示すパラメータを決定することは、ボクセル化表現内のそれぞれの水平位置における少なくとも１つのボリューム要素が、音が伝搬することができるボリューム要素であることを示すグリッド要素に沿って、ソース位置の２次元投影（例えば、ソース位置を含むグリッド要素）とリスナ位置の２次元投影（例えば、リスナ位置を含むグリッド要素）との間の投影マップ内の経路を決定するために、経路発見アルゴリズムを投影マップに適用することを含み得る。これらのグリッド要素は、非遮蔽グリッド要素と呼ばれることがある。

広範囲の信頼できる効率的な経路発見アルゴリズムが容易に利用可能であり、レンダリング環境の特定の要件に応じてその中から選択することができる。それによって、提案された方法は、経路発見アルゴリズムを適切に選択することによって、レンダリング側に存在する計算能力に特に合わせることができる。

いくつかの実施形態では、仮想ソース位置を示すパラメータを決定することは、３次元オーディオシーンにおけるソース位置とリスナ位置との間の見通し線を計算することを含み得る。上記決定することは、計算された見通し線が、音が遮られるボクセル化表現内のボリューム要素と交差し、かつ、見通し線の水平面への２次元投影が、ボクセル化表現内のその水平位置におけるボリューム要素のいずれもが、音が伝搬することができるボリューム要素ではないことを示す投影マップ内のグリッド要素と交差する場合、ボクセル化表現内のそれぞれの水平位置における少なくとも１つのボリューム要素が、音が伝搬することができるボリューム要素であることを示すグリッド要素に沿って、ソース位置の２次元投影とリスナ位置の２次元投影との間の投影マップ内の経路を決定するために経路発見アルゴリズムを適用することをさらに含み得る。上記の条件下で、上記決定することは、決定された経路に基づいて、仮想ソース位置を示すパラメータを決定することをさらに含み得る。決定するステップの上記のサブステップは、ボクセル化表現および／または投影マップ内に交差があるかどうかのそれぞれの決定ステップを暗示し得ることが理解される。

直接的な見通し線が、ボクセル化表現内の遮蔽ボクセルと交差するか、または投影マップ内の遮蔽グリッド要素と交差するかどうかに関してチェックを行うことで、処理するのが簡単な特殊ケースを識別して、特殊な処理を行い、それによって、全体的な計算負荷をさらに軽減することができる。

いくつかの実施形態では、方法は、経路発見アルゴリズムが、ソース位置の２次元投影とリスナ位置の２次元投影との間の投影マップ内の経路を識別できなかった場合、精緻化されたボクセル化表現および精緻化された２次元投影マップを取得するステップをさらに含み得る。上記の条件下で、方法は、精緻化されたボクセル化表現内のそれぞれの水平位置における少なくとも１つのボリューム要素が、音が伝搬することができるボリューム要素であることを示すグリッド要素に沿って、ソース位置の２次元投影とリスナ位置の２次元投影との間の精緻化された投影マップ内の経路を決定するために、経路発見アルゴリズムを適用することをさらに含み得る。精緻化された２次元投影マップは、水平面に投影する投影動作によって精緻化されたボクセル化表現に関連付けられ得る。さらに、精緻化されたボクセル化表現のボリューム要素は、ボクセル化表現のボリューム要素よりも短い辺長を有し得る。例えば、精緻化されたボクセル化表現のボリューム要素の辺長は、（初期／以前の）ボクセル化表現のボリューム要素の辺長の半分を有し得る。精緻化されたボクセル化表現および精緻化された２次元投影マップが取得されるか否かは、レンダリングプロシージャの現在のサイクル（例えば、期間）内に依然として時間（例えば、ＣＰＵ時間）があるかどうかに依存し得る。例えば、サイクル長は、オーディオレンダリングの所望の（例えば、所定の）リフレッシュレート（更新レート）に関係し得る。ＣＰＵ時間が利用可能である場合、表現は精緻化され得、そうでない場合で、経路が見つからなかった場合、音源からの音は全くレンダリングされなくてもよい。

それによって、表現の精度を順次高めることができる。「粗い」表現であっても、経路が発見され、仮想音源の仮想ソース位置の決定が可能であるという意味で、許容可能な結果をもたらすのであれば、粗い表現が維持され得る。一方、そのような経路が見つからない（かつＣＰＵ時間が利用可能である）場合、ボクセル化表現の粒度を精緻化して、より粗い粒度では識別されていないが、音源からの音がリスナ位置で知覚されることを可能にする開口部が遮蔽ジオメトリ内にあるかどうかをチェックする。その結果、提案された条件付き精緻化により、表現の精度と計算負荷の低減との間の最適なトレードオフを達成することができる。

いくつかの実施形態では、仮想ソース位置を示すパラメータを決定することは、決定された経路に基づいて、リスナ位置と仮想ソース位置との間の距離および方位角を決定することを含み得る。ここで、距離は、決定された経路の経路長に基づいて決定され得る。例えば、距離は、（完全な）決定された経路の経路長（例えば、経路の実際の長さ、または「マンハッタン」距離もしくは経路が交差するボクセルの重み付けされた数など、経路の推定値／近似）として決定され得る。代替的に、決定された経路の経路長を、リスナ位置の垂直座標とソース位置の垂直座標との差に基づいて、またはボクセル化表現への外挿に基づいて調整してもよい。方位角を決定することは、リスナ位置の２次元投影から開始して、決定された経路における最も近い方向変化を識別することを含み得る。方位角を決定することは、方位角を、リスナ位置の２次元投影と識別された最も近い方向変化との間の方位角として決定することをさらに含み得る。ここで、（最も近い）方向変化は、音が遮られるボリューム要素によって引き起こされることが理解される。

それによって、投影マップ内の決定された経路が、レンダリング時にリアルなリスニングエクスペリエンスを生み出す仮想ソース位置について.0の距離および方位角を効率的に決定するのに十分な情報を含むという事実が利用される。

いくつかの実施形態では、仮想ソース位置を示すパラメータを決定することは、決定された経路およびボクセル化表現に基づいて、リスナ位置と仮想ソース位置との間の仰角を決定することを含み得る。ここで、仰角を決定することは、リスナ位置の２次元投影から開始して、決定された経路における最も近い方向変化を識別することを含み得る。仰角を決定することは、識別された方向変化の水平位置において、ボクセル化表現内の、音が伝搬することができるボリューム要素を決定することをさらに含み得る。ここで、リスナ位置の垂直座標に最も近い垂直座標を有するか、リスナ位置と音源位置との間の直接的な見通し線までの距離が最小であるか、または音が伝搬することができるボクセルの最大連続サブセット内にある、決定された方向変化の水平位置において音が伝搬することができるボリューム要素が決定され得る。仰角を決定することは、仰角を、リスナ位置と決定されたボリューム要素との間の仰角として決定することをさらに含み得る。

それによって、投影マップ内の決定された経路が、ボクセル化表現とともに、レンダリング時にリアルなリスニングエクスペリエンスを生成する仮想ソース位置の仰角を効率的に決定するのに十分な情報を含むという事実が利用される。

いくつかの実施形態では、仮想ソース位置を示すパラメータを決定することは、３次元オーディオシーンにおけるソース位置とリスナ位置との間の見通し線を計算することを含み得る。仮想ソース位置を示すパラメータを決定することは、計算された見通し線が、音が遮られるボクセル化表現内のボリューム要素と交差し、かつ、見通し線の水平面への２次元投影が、ボクセル化表現内のその水平位置におけるボリューム要素のいずれもが、音が伝搬することができるボリューム要素ではないことを示す投影マップ内のグリッド要素と交差しない場合、見通し線の水平面への２次元投影に基づいて、リスナ位置と仮想ソース位置との間の距離および方位角を決定することをさらに含み得る。計算された見通し線が、音が遮られるボクセル化表現内のボリューム要素と交差しない場合（その場合、元のソース位置を使用することができる）、または投影マップ内の経路が見つからない場合（この場合、音を全くレンダリングする必要がない）、仮想ソース位置を決定する必要がないことが理解される。

それによって、特定の些細なケースを識別し、単純な方法で処理して、提案された方法によって生じる全体的な計算負荷をさらに軽減しつつも、依然としてリアルなリスニングエクスペリエンスを得ることができる。

いくつかの実施形態では、仮想ソース位置を示すパラメータを決定することは、見通し線およびボクセル化表現に基づいて、リスナ位置と仮想ソース位置との間の仰角を決定することをさらに含み得る。ここで、仰角を決定することは、リスナ位置から開始して、計算された見通し線が交差し、音が遮られる最も近いボリューム要素を識別することを含み得る。仰角を決定することは、識別されたボリューム要素の水平位置において、ボクセル化表現において音が伝搬することができるボリューム要素を決定することをさらに含み得る。仰角を決定することは、仰角を、リスナ位置と決定されたボリューム要素との間の仰角として決定することをさらに含み得る。

それによって、識別された特殊ケースにおいて、直接的な見通し線は、ボクセル化表現とともに、リアルなリスニングエクスペリエンスを生み出す仮想ソース位置の仰角を効率的に決定するのに十分な情報を含むという事実が利用される。

本開示の別の態様によれば、プロセッサのための命令を記憶するメモリに結合されたプロセッサを備える装置が提供される。プロセッサは、上記の態様およびその実施形態のいずれかによる方法を装置に実行させるように適合され得る。

本開示の別の態様によれば、命令を実行するプロセッサに、上記の第１の態様およびその実施形態のいずれかによる方法を実行させるための命令を含むコンピュータプログラムが提供される。

本開示のさらに別の態様によれば、前述の態様によるコンピュータプログラムを記憶するコンピュータ可読記憶媒体が提供される。

次に、本開示の例示的な実施形態を、添付の図面を参照して、単なる例として説明する。
図１Ａおよび図１Ｂは、それぞれ、３次元オーディオシーン内の遮蔽要素によって引き起こされる音響回折シナリオおよび２次元ボクセル化グリッド上のその２次元水平投影の例を示す。３次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理する方法の例のフロー図を示す。図３Ａおよび図３Ｂは、２次元投影マップにおける経路の例を示す。３次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理する方法の別の例のフロー図を示す。３次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理する方法を実装する装置の例を概略的に示す。

図１Ａは、３次元オーディオシーン１００の例を提供し、図１Ｂは、２次元投影面へのその水平投影を示す。このオーディオシーンは、ソース位置（ソースロケーション）１１０で発せられた音がリスナ位置（リスナロケーション）１２０において知覚されるときの音響回折の効果を示す。ソース位置１１０とリスナ位置１２０との間の直接経路１３０は、ソース位置１１０とリスナ位置１２０との間の壁または他の拡張要素など、オーディオシーン内の遮蔽要素１４０によって遮断されている。それでもなお、ソース位置１１０で発せられた音は、リスナ位置１２０で知覚される。これは、音響回折によるものであり、これにより、音は、遮蔽要素１４０の周りのすべての経路に沿ってリスナ位置１２０に到達することができる。最も短い「曲がった」経路１５０は、音響心理学的な観点から、支配的な経路と考えることができる。この効果は、遮蔽要素を含む（仮想）３次元オーディオシーンにおけるリアルなオーディオレンダリングを可能にするように適切にモデリングされる必要がある。

大まかに言えば、本開示は、３次元（オーディオ）シーンのボクセル化された遮蔽ジオメトリを表す等距離グリッドのための経路発見アルゴリズムに基づく音響回折モデリングの計算上効率的な方法を提案する。この目的を達成するために、本開示は、ボクセル化方法（例えば、適応ボクセル化方法）を使用して簡略化された（しかし、十分に正確な）ジオメトリ表現を利用する。さらに、本開示は、関連するジオメトリ表現の収縮による回折モデリングのために２次元空間を、場合によってはコンテンツ作成者およびエンコーダオペレータのための音響オクルージョン／回折現象を近似する音響効果を制御するための手段とともに使用する。

したがって、本開示による方法および装置は、動的かつインタラクティブな３次元仮想環境のための知覚的にリアルな音響オクルージョン／回折効果シミュレーションを可能にし、全体的なユーザエクスペリエンスの向上と、仮想現実（ＶＲ）アプリケーションのより広い展開の促進とを目的とする。ここでおよび以下において、「オクルージョン／回折のシミュレーション」は、オクルージョン／回折の知覚効果をモデリングするという意味で理解されてもよく、物理的効果の正確なシミュレーションを必ずしも意味しなくてもよい。

出発点として、本開示は、（仮想）３次元空間（例えば、３次元オーディオシーン）が、遮蔽ジオメトリ記述（すなわち、例えば、メッシュまたは幾何学的プリミティブ、および場合によってはそれらの面について取得されるかまたはそれらの面に割り当てられるオクルージョン係数に関して表される、オーディオシーン内の遮蔽要素に関する情報）を含むと仮定する。本開示はさらに、リスナ（複数可）／ユーザ（複数可）およびオーディオソース（複数可）の位置（ロケーション）、ならびにオーディオソース（複数可）によって発せられるオーディオ信号（複数可）（例えば、波形）を仮定する。これらの要素は、本開示の実施形態によって提案される方法への入力とみなされ得る。しかしながら、これらの方法は、同様に、遮蔽ジオメトリ記述の処理されたバージョンを受信することができることに留意されたい。例えば、方法は、入力として、３次元空間のボクセル化表現（例えば、３次元オーディオシーン）を受信し得る。

上記の仮定（すなわち、上記の入力）に基づいて、本開示の実施形態による方法および装置は、仮想ソース位置において仮想オーディオソース（仮想音源）を、場合によっては仮想ソース信号とともに提供する（例えば、決定または生成する）ことによって、音響オクルージョン／回折の知覚効果をシミュレートしようとする。ここで、仮想ソース位置は、距離（例えば、半径）および方向（例えば、方位角（角度）および仰角（角度））を含むその座標によって定義される。しかしながら、仮想ソース位置は、同様に、他の座標表現（例えば、デカルト座標系）を使用して定義されてもよく、本開示は、球面座標に限定されるものではないことに留意されたい。位置／ロケーションが、サウンドレンダリングに使用される座標系とは異なる座標系で表される場合、座標系間の適切な変換ステップが、例えばオーディオレンダリング時に実行され得る。仮想ソース信号は、ソース信号の元の波形に基づいて決定することができ、場合によっては修正（例えば、利得、フィルタなど）が加えられる。

図２は、３次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理する方法２００の例のフロー図を示す。オーディオコンテンツは、（音）ソース信号を発する、すなわち、ソース信号に基づいて音（例えば、ソース波形）を発するソース位置に音源を含む。

２０２において、シーンジオメトリが入力として受信される。シーンジオメトリは、３次元オーディオシーン（３次元オーディオ環境）のメッシュ化表現に関連し得る。メッシュ化表現は、例えば、３次元オーディオシーンにおけるローカルオクルーダー（例えば、障害物）またはグローバルオクルーダー（例えば、壁）などのオブジェクト（シーンの要素）の面を表すメッシュまたはメッシュのセットを含む。いくつかの実装形態では、各メッシュまたはメッシュ面は、関連するオクルージョン係数を有し得る。

２０４において、シーンジオメトリおよび／または対応するオクルージョンプロパティの更新が行われたかどうかが決定される。行われていた場合（Ｙｅｓ）、方法は２０６に進み、３次元オーディオシーンのボクセル化表現を決定するか、または（例えば、ボクセル化表現がすでに利用可能であり、シーンジオメトリの変化が比較的小さい場合）シーンジオメトリの更新されたサブパートに基づいてボクセル化表現のサブパートを少なくとも更新し、その後、２０８においてボクセル化表現の２次元投影マップを生成する。行われていなかった場合（Ｎｏ）、方法は２１４に進む。

２０６において、音響的に関連するジオメトリの選択が実行される。したがって、（オクルージョン／回折効果を引き起こすことができる／引き起こすはずである寸法およびタイプを有する）オブジェクトを表す音響関連データのサブセットが、すべての利用可能なシーンジオメトリ情報から選択される。このステップは任意選択であってもよい。

２０８において、ボクセル化（すなわち、ボクセル化方法／アルゴリズム）が、シーンジオメトリまたは音響的に関連するジオメトリ（例えば、オクルージョン／回折関連ジオメトリ）に適用されて、３次元オーディオシーンのボクセル化表現が生成される。ボクセル化表現は、規則的なサイズの複数のボクセル（ボリューム要素）を、規則的な３次元グリッドに配置されて含む。そのため、ボクセルは、所定の辺長、例えば、約１０センチメートルの立方体であってもよい。

例示的な一実装形態では、３次元オーディオシーンのメッシュ化表現にボクセル化アルゴリズムを適用して、ボクセル化表現を生成し得る。このステップは、３次元空間をボクセル（ボリューム要素）の２つの（抽象）クラス、すなわち、コンクリートまたは木材などのオクルーダーオブジェクト材料（ＯＭ）ボクセルと、空気または水などの音伝搬媒体（ＳＭ）ボクセルとに分割する３Ｄボクセル化方法／アルゴリズム（例えば、適応３Ｄボクセル化方法／アルゴリズム）によってジオメトリの表現複雑さを軽減することを含む。したがって、ボクセルの完全なセットＶＯＸは、ＯＭボクセルおよびＳＭボクセルのセットによって与えられる：

２１０において、回折モデリングのためのボクセルが抽出／選択される。この目的のために、ＯＭボクセルは、ボクセルの２つのグループ、すなわち、局所的に遮蔽する（ＬＯ）ボクセル（例えば、家具などの局所的に遮蔽する障害物に対応する）およびグローバルに遮蔽する（ＧＯ）ボクセル（例えば、壁などのグローバルに遮蔽する障壁に対応する）に分割される。局所的に遮蔽する障害物は、音伝搬の大規模な指向性に影響を与えないと仮定され、その結果、局所的に遮蔽する障害物の背後の音源からの音は、少なくとも局所的に遮蔽する障害物から十分な距離にわたって、元の音と同じ方向に、場合によってはいくらか減衰されて伝搬する。したがって、ＯＭボクセルのセットは、以下を介して分割される：

次いで、方法２００の後続のステップは、ＧＯボクセルのみを考慮し得る。したがって、別の言い方をすれば、ステップ２１０は、生成されたボクセル化表現から、ローカルオクルーダーに対応する任意のボクセルを除去することを伴い、ここで、ローカルオクルーダーは、音伝搬の大規模な指向性に影響を与えないと予想される３次元オーディオシーン内のオブジェクトを表す。例えば、３次元オーディオシーンの境界（例えば、壁）は、この時点で保持されるべきグローバルオクルーダーである。ローカルオクルーダーは、例えば、ローカルオクルーダーが適切な空間フィルタリングによって除去されると仮定して、生成されたボクセル化表現に画像処理技法（例えば、フィルタリングを含む）を適用することによって識別され得る。ローカルオクルーダーはまた、ＯＭボクセルの空間特性（例えば、遮蔽障害物を表すボクセルの数および／もしくはサイズ）ならびに／または周囲のＳＭボクセルとのそれらの関係（例えば、音伝搬のための自由体積）に基づいて識別され得る。同様に、ローカルオクルーダーは、対応するメタデータによって直接指定され、オーディオシーン作成者の意図を反映し得る。特に、ステップ２１０は任意選択であってもよい。

ステップ２０６、２０８、および２１０は、ジオメトリ要素によって引き起こされるオクルージョン／回折効果の強度に関してジオメトリ要素の重要性を決定することによって、３次元オーディオシーンのジオメトリ表現の複雑さを制御可能に軽減することを目的としていると言える。

いくつかの実装形態では、ステップ２０６、２０８、および２１０は、異なる方法で３次元オーディオシーンのボクセル化表現を取得すること、例えば外部ソースからボクセル化表現を受信することに置き換えられ得る。例えば、ボクセル化表現は、ストレージメモリから読み取られ得るか、またはビットストリームから抽出（例えば、復号）され得る。これらの場合、ステップ２０２も省略されるであろう。一般に、方法２００は、３次元オーディオシーンのボクセル化表現を取得するステップを含むと言え、ボクセル化表現は、音が伝搬することができるボリューム要素（例えば、ＳＭボクセル）と、音が遮られるボリューム要素（例えば、ＯＭボクセル）とを示す。音が伝搬する（例えば、自由に伝搬する）ことができるボクセルは、空気で満たされていると考えられ得る。いくつかの実装形態では、上記で説明したように、このステップは、ステップ２０６、２０８、および２１０によって実施され得る。３次元オーディオシーンのボクセル化表現を取得することは、３次元オーディオシーンの更新が行われたかどうかに左右され得る。

ステップ２１０においてボクセル化表現から除去される任意のボクセルの影響は、任意選択のステップ２３６において、リスナ位置に依存して、局所的な減衰モデリングを適用して、ローカルオクルーダーに対応する除去されたボクセルによる音の減衰をシミュレートすることによって考慮され得る。このステップで決定された任意の減衰利得またはフィルタは、２３０で決定され、以下で説明される仮想ソース信号に適用され得る。

２１２において、回折モデリングのための２次元投影マップ（または投影行列）が、ボクセル化表現から（例えば、ＧＯボクセルから）生成（例えば、計算）される。例えば、オーディオシーンについての２次元投影マップは、ボクセル化表現に投影動作を適用することによって、ボクセル化表現に基づいて生成され得る。投影動作は、水平（例えば、リスナ視点から水平である）面に投影する。その結果、投影マップはグリッドを含み、グリッドの各要素は、オーディオシーン内の水平位置を表すとともに、ボクセル化表現内のその水平位置にある（例えば、水平面の上、中、または下にある）少なくとも１つのボクセル（ボリューム要素）が、音が伝搬することができるボクセルである（例えば、ＳＭボクセルである、または同等に、ＧＯボクセルではない）かどうかを示す。したがって、投影マップは、伝搬マップまたはオクルージョンマップと呼ばれることもある。

いくつかの実装形態では、２次元投影マップ（投影行列）は、以下の縮約方法を使用して、３次元ボクセル化表現（３次元ボクセルグループ行列）、またはグローバルに遮蔽する障壁を表すその一部から取得され得る：

ここで、ＰＭおよびＧＯの値は、それぞれ、自由音伝搬（オクルージョンなし；例えば、値０）と完全なオクルージョン（例えば、値１）とを示す極値間の範囲に属し得る。例えば、ＰＭおよびＧＯの値は、範囲［０，１］に属し、以下に対応し得る：
０－オクルージョンなし
１－完全なオクルージョン

言うまでもなく、値を逆に割り当てることも実現可能であり、その場合、式（３）は、ｍｉｎをｍａｘで置き換えて適合させる必要があるであろう。

範囲［０，１］内のＰＭおよびＧＯの値については、以下のように、投影マップのエントリをブール型にレンダリングするために、投影マップを生成するコンテキストにおいて任意選択の切捨てステップが実行され得る：

ここで、γ∈（０，１）はオクルージョン閾値である。一般に、投影マップを生成することは、ボクセル化表現のボクセルのオクルージョン係数値のいずれかを２つの極値のうちの１つに（例えば、０または１に）マッピングする切捨てステップを伴い得る。別の言い方をすれば、２次元投影マップを生成することは、投影マップのグリッド要素が自由音伝搬（オクルージョンなし）または完全なオクルージョン（オクルージョン）のいずれかを示すような切捨て動作を伴い得る。

一方、ボクセル化表現のボクセルのオクルージョン係数値（例えば、ＧＯの値）がすでにブール型である場合も実現可能である。この場合、ＰＭ行列は次のように得られ得る：

ステップ２１２は、「壁および穴」の概念を表すためにＰＭ行列を導入することによって回折モデリングのための空間の次元を低減することを目的としていると言える。実際、所与の水平位置（すなわち、その水平位置におけるボクセルの「列」内）のボクセルのいずれかについて音伝搬が可能である場合、投影マップは、音伝搬がその水平位置（すなわち、そのグリッド要素）について可能であることを示し、したがって、少なくともその水平位置における「穴」を示す。

２次元投影マップを生成することは、３次元オーディオシーンの更新が行われたかどうかに左右され得る。

いくつかの実装形態では、ステップ２１２は、異なる方法で２次元投影マップを取得すること、例えば、外部ソースから２次元投影マップを受信することに置き換えられ得る。例えば、２次元投影マップは、ストレージメモリから読み取られ得るか、またはビットストリームから抽出（例えば、復号）され得る。一般に、方法２００は、オーディオシーンについての２次元投影マップであって、水平面に投影する投影動作によってボクセル化表現に関連付けられる２次元投影マップを取得するステップを含むと言える。投影マップはグリッドを含み、グリッドの各要素は、オーディオシーン内の水平位置を表すとともに、ボクセル化表現内のその水平位置にある少なくとも１つのボリューム要素が、音が伝搬することができるボリューム要素であるかどうかを示す。いくつかの実装形態では、上記で説明したように、このステップは、例えば、２次元投影マップを取得することが投影動作をボクセル化表現に適用することを含むという意味で、ステップ２１２によって実施され得る。それでもなお、２次元投影マップを取得することは、３次元オーディオシーンの更新が行われたかどうかに左右され得る。

２１４において、リスナ位置および／またはソース位置の更新が行われたかどうかが決定される。行われていた（Ｙｅｓ）、方法は２１６に進み、仮想音源の仮想ソース位置を示すパラメータを決定する。行われていなかった場合（Ｎｏ）、方法は、以前に決定された仮想ソース位置を使用して、２３０に進む。

一般に、仮想音源の仮想ソース位置を示すパラメータを決定することは、（元の）ソース位置、リスナ位置、および投影マップに基づいて実行される。場合によっては、決定はさらに、ボクセル化表現に基づき得る。仮想音源の仮想ソース位置を決定する目的は、仮想ソース位置からの仮想ソース信号をレンダリングすることによって、（元の）ソース位置における音源のソース信号に対する３次元オーディオシーンによる音響回折の影響をシミュレートすることである。

仮想ソース位置を示すパラメータを決定することは、以下で説明するステップ２１６、２１８、２２０、２２２、２２４、２２６、２２８、および２３４の一部または全部によって実施され得る。一般に、このステップは、ボクセル化表現内のそれぞれの水平位置における少なくとも１つのボリューム要素が、音が伝搬することができるボリューム要素（例えば、非遮蔽グリッド要素）であることを示すグリッド要素に沿って、ソース位置の２次元投影（例えば、その位置を含むグリッド要素）とリスナ位置の２次元投影（例えば、その位置を含むグリッド要素）との間の投影マップ内の経路を決定するために、経路発見アルゴリズムを投影マップに適用することを伴うと言える。

上記のように、仮想音源の仮想ソース位置を示すパラメータを決定することは、リスナ位置および／またはソース位置の更新が行われたかどうかに左右され得る。

２１６において、３次元オーディオシーンにおけるソース位置とリスナ位置との間の見通し線が計算される。この見通し線は、リスナツーソース（ユーザツーソース）の直視線とも呼ばれ得る。その計算は、一般的な幾何学的計算を伴い得る。いくつかの実装形態では、リスナ位置および／またはソース位置は、それらが位置するそれぞれのボクセルの中心に量子化され得る。見通し線は、３次元空間における見通し線であり得る。

２１８において、計算された見通し線が、ボクセル化表現内の、音が遮られるボクセル（例えば、ＧＯボクセル）と交差するかどうかがチェックされる。交差する場合（Ｙｅｓ）、方法は２２０に進む。交差しない場合（Ｎｏ）、方法は２３８に進む。後者の場合、音源とリスナとの間に直接的な見通し線が存在するので、回折モデリングは必要ない。

２２０において、（投影マップの）水平面への見通し線の２次元投影が、ボクセル化表現内のその水平位置におけるボリューム要素のいずれもが、音が伝搬することができるボリューム要素（例えば、ＰＭ_x,y＝１などのオクルージョンを示すＰＭ要素）ではないことを示す投影マップ内のグリッド要素と交差するかどうかがチェックされる。交差する場合（Ｙｅｓ）、方法は２２２に進む。交差しない場合（Ｎｏ）、方法は２３４に進む。後者の場合、ソース位置およびリスナ位置の２Ｄ投影の間に直接的な線（直線）が存在するので、投影マップにおける経路発見は必要ない。

ステップ２１８および２２０は、仮想ソース位置を示すパラメータを決定するのに必要な計算量を低減することを目的とする。これは、単純または些細なケースの特殊な処理によって達成される。ステップ２１８および２２０は、いくつかの実装形態では任意選択であってもよく、一般的な処理が単純または些細な場合についても合理的な結果をもたらすことに留意されたい。

２２２において、ボクセル化表現内のそれぞれの水平位置における少なくとも１つのボリューム要素が、音が伝搬することができるボリューム要素（例えば、非遮蔽グリッド要素）であることを示すグリッド要素に沿って、ソース位置の２次元投影とリスナ位置の２次元投影との間の投影マップ内の経路を決定するために、経路発見アルゴリズムが適用さされる。いくつかの実装形態では、リスナ位置および／またはソース位置は、それらがそれぞれ位置するボクセルの投影（例えば、グリッド要素）の中心に量子化され得る。例えば、Ａ＊およびＪＰＳを含む、任意の経路発見アルゴリズムが、このステップにおいて適用され得る。この意味で、提案されたモデルは、経路発見アルゴリズムに関してモジュール式である。

例示的な一実装形態では、ステップ２２２は、以下のサブステップを含み得る：
・リスナ（ユーザ）位置およびソース（オブジェクト）位置に対応するボクセルインデックス（ボクセル）の計算：ＶＯＸ_listenerおよびＶＯＸ_source。
・任意選択的に、ＶＯＸ_listener∈ＳＭ、ＶＯＸ_source∈ＳＭ（すなわち、リスナおよびソース位置が音伝搬材料内にあるかどうか）、ＶＯＸ_listener＝ＶＯＸ_source（この場合、空間オーディオレンダリングはスキップされ得る）、||ＶＯＸ_object－ＶＯＸ_user||＞Δ（この場合、ソースがリスナから離れすぎていて知覚されないと仮定して、空間オーディオレンダリングも同様にスキップされ得る）などをチェックし、対応する規則を適用する。
・経路発見アルゴリズム（例えば、Ａ＊、ＪＰＳなど）を実行して経路を取得する（例えば、ソースからリスナまでの最短軌道を近似する）。以下のパラメータが、その制御（例えば、加速および探索ループ終了）のために適用され得る。
－経路発見アルゴリズムのためのヒューリスティックパラメータ
－以前に検出された経路（例えば、動的シナリオの場合）
－計算時間および／またはリソースの数についての閾値（複数可）
－例えば、２Ｄグリッド要素（ボクセルの２Ｄ投影）の数、距離単位、音減衰、結果として生じるソースオブジェクト音レベルなどに関して表される最大経路長の閾値。

上述のように、ステップ２２２は、計算された見通し線が、音が遮られるボクセル化表現内のボリューム要素と交差し、かつ、見通し線の水平面への２次元投影が、ボクセル化表現内のその水平位置におけるボリューム要素のいずれもが、音が伝搬することができるボリューム要素ではない（例えば、遮蔽グリッド要素である）ことを示す投影マップ内のグリッド要素と交差する場合、実行される。

２２４において、ステップ２２２で経路が見つかったかどうかがチェックされる。経路が見つかった場合（Ｙｅｓ）、方法は２２６に進む。経路が見つからなかった場合（Ｎｏ）、方法は２３８に進み、仮想音源の仮想ソース位置を示すパラメータを決定しないであろう。次いで、方法は、現在のリスナ位置および現在のソース位置に対する回折モデリングおよび／またはオーディオレンダリングを完全にスキップし得る。経路が見つからない場合の代替処理を、図４を参照して以下に説明する。

ステップ２２６および２２８は、概して、ステップ２２２において決定された経路に基づいて仮想ソース位置を示すパラメータを決定することに関する。

より詳細には、２２６において、リスナ位置と仮想ソース位置との間の距離（すなわち、半径）および方位角（すなわち、水平方向成分）が、決定された経路に基づいて決定される。

距離は、決定された経路の経路長に基づいて決定され得る。例えば、距離は以下のように決定され得る：
－ステップ２２２で決定された投影マップ上の完全な経路の長さ、
－垂直座標（例えば、ｚ次元）におけるリスナ位置とソース位置との差（すなわち、水平面に対する高さ）にしたがって調整された、投影マップ上の完全な経路の長さ、または
－３次元オーディオシーンのボクセル化表現（例えば、ＧＯボクセル）に外挿されたリスナとソースとの間の完全な経路の長さ。

付随的に、仮想ソース位置とリスナ位置との間の決定された距離が、使用が意図されるレンダラの最大レンダラ距離を超える場合、仮想ソース位置は、最大レンダリング距離に設定され得、まだ考慮されていない任意の余剰距離は、仮想音源のための追加の減衰利得にカプセル化され得る。

方位角は、まず、リスナ位置の２次元投影から開始して、決定された経路における最も近い方向変化を識別することによって決定され得る。次いで、方位角は、リスナ位置の（投影マップへの）２次元投影と、識別された最も近い方向変化との間の方位角として決定され得る。例えば、方位角は、リスナ位置の２次元投影と識別された最も近い方向変化とが入る投影マップのそれぞれのグリッド要素の相対位置に基づいて決定され得る。別の言い方をすれば、方位角は、リスナ位置から開始するとき、決定された経路の方向に基づいて決定され得る。さらに言い換えれば、方位角は、リスナ位置から、決定された経路に対する最初の遮蔽グリッド要素への投影マップにおける方向に基づいて決定され得、その後、経路はその方向を変更する。方位角は、例えば、３次元オーディオシーンの座標系におけるｘ次元またはｙ次元などの所定の基準方向を参照して決定され得ることが理解される。

図３Ａは、仮想ソース位置の方位角を決定する例を概略的に示す。そこに示される投影マップ３０は、遮蔽グリッド要素５０（陰影部分、すなわち、オーディオシーン内のそれぞれの水平位置を表すとともに、ボクセル化表現内のその水平位置にあるボクセルのいずれもが、音が伝搬することができるボクセルでないことを示すグリッド要素）と、非遮蔽グリッド要素４０（すなわち、オーディオシーン内のそれぞれの水平位置を表すとともに、ボクセル化表現内のその水平位置にあるボクセルのうちの少なくとも１つが、音が伝搬することができるボクセルであることを示すグリッド要素）とを含む。説明のために、オーディオシーンの遮蔽要素１４０の水平投影も示されているが、これらの投影は投影マップ３０の一部ではない。ソース位置１０（の２次元投影）とリスナ位置２０（の２次元投影）との間の見通し線の投影マップ３０への２次元投影６０は、投影マップ３０の遮蔽グリッド要素５０の少なくとも１つによって遮蔽される。したがって、ソース位置１０とリスナ位置２０との間の経路７０は、経路発見アルゴリズムを用いて決定される。その経路７０は、遮蔽グリッド要素９０の背後でその方向を変える。したがって、経路７０の最も近い方向変化８０の位置が決定される。次いで、経路７０の識別された最も近い方向変化８０への方向９５を示すために方位角が決定される。この方向９５は、典型的に、直接的な見通し線（の２次元投影）の方向６０とは異なる。

２２８において、リスナ位置１２０と仮想ソース位置との間の仰角（すなわち、垂直方向成分）が、決定された経路およびボクセル化表現に基づいて決定される。特に、仰角は、まず、リスナ位置の２次元投影から開始して、決定された経路における最も近い方向変化を識別することによって決定され得る。これは、ステップ２２６と同様に進行してもよく、またはステップ２２６で識別された最も近い方向変化を再使用してもよい。次いで、音が伝搬することができるボクセル化表現内のボリューム要素が、識別された方向変化の水平位置において決定される。例えば、そのような（非遮蔽）ボクセルは、識別された最も近い方向変化を含むグリッド要素の水平位置にあるボクセルの列において決定され得る。特に、その（非遮蔽）ボクセルは、リスナ位置の垂直座標に最も近い垂直座標を有する識別された最も近い方向変化の水平位置において決定され得る。最後に、仰角は、リスナ位置と決定されたボクセルとの間の仰角として決定され得る。別の言い方をすれば、仰角は、３次元オーディオシーンへのボクセル化表現に外挿されるときに、リスナ位置から開始して、決定された経路の方向に基づいて決定され得る。仰角は、例えば、投影マップを生成するためにボクセル化表現が投影される水平面などの所定の基準面を参照して決定され得ることが理解される。

図３Ｂは、仮想ソース位置の仰角を決定する例を概略的に示す。特に、図３Ｂは、２次元投影マップのグリッドによって定義される２つの方向のいずれかと整列され、リスナ位置２０とソース位置１０との間の決定された経路７０の最も近い方向変化８０（リスナ位置２０の２次元投影に最も近い）のロケーション（例えば、ボクセル）と交差する垂直断面平面に沿ってボクセル化表現を通る（垂直）断面を示す。ソース位置１０およびリスナ位置が共通の水平ボクセルインデックスを有さない限り（すなわち、ボクセル化表現の同じ水平行に配置されない限り）、２次元投影マップのグリッドによって定義される方向のどちらの選択も適切である。２つの位置が水平インデックスを共有する場合、垂直断面平面は、ソース位置１０とリスナ位置２０との間の直接的な見通し線と交差するように選択されるべきである。垂直断面は、遮蔽垂直グリッド要素５５および非遮蔽垂直グリッド要素４５を含む。

本例では、垂直断面平面は、図３Ａの２次元投影マップに直交し、図３Ａのボクセルの底部水平行（すなわち、最も近い方向変化８０のボクセルを含むボクセルの水平行）を含む平面である。ソース位置１０、リスナ位置２０、および直接的な見通し線は、垂直断面平面上で、それぞれの垂直投影１５、２５、および８５に投影される。本例では、垂直断面は４つの垂直遮蔽グリッド要素５５を含み、これらは垂直列に配置され、図１Ａの右側への遮蔽要素１４０のベアリングアウトを表すボクセルに対応する。

仰角を決定するために、最も近い方向変化８０と同じ水平位置にある、垂直断面内の非遮蔽垂直グリッド要素４５が識別される。本例では、遮蔽垂直グリッド要素５５の列のすぐ下の非遮蔽垂直グリッド要素が識別される。一般に、最も近い方向変化８０の水平位置にあり、例えば、ａ）見通し線の垂直投影８５に最も近いか、ｂ）リスナ位置２０の垂直座標に最も近いか、またはｃ）非遮蔽ボクセルの最大連続サブセットの一部であるボクセルに対応する非遮蔽垂直グリッド要素が識別され得る。識別された非遮蔽垂直グリッド要素は、仰角を決定するために使用される。例えば、仮想ソース位置の垂直投影５とリスナ位置の垂直投影２５との間の仰角の垂直投影は、識別された非遮蔽垂直グリッド要素（例えば、その中心）とリスナ位置の垂直投影２５との間の水平距離および垂直距離に基づいて決定されることができる。次いで、方位角および仰角の垂直投影に基づいて、例えば、方位角方向と垂直断面平面の方向との間の差角に基づく三角変換を仰角の垂直投影に適用することによって、実際の仰角を決定することができる。

図３Ｂに示されるような仰角の決定は、ソース位置の垂直投影１５およびリスナ位置の垂直投影２５の実際の位置座標（ハッチングおよび破線の円によって示されるような）を使用し得るが、図３Ａに示されるような経路発見は、これらの位置を含むそれぞれのボクセル（ボクセルインデックス）のみを参照し得ることに留意されたい。

さらに、図３Ｂは、ソース位置の垂直投影１５よりもリスナ位置の垂直投影２５からより遠い距離にある仮想ソース位置の垂直投影５を示しており、これは、決定された経路７０の長さが直接的な見通し線６０の長さを超えるという事実によるものであり得ることに留意されたい。

要約すると、非遮蔽（すなわち、非ＧＯ）ボクセルは、識別された最も近い方向変化８０の水平位置で識別される。この非遮蔽ボクセルは、例えば、垂直座標（例えば、高さ）においてリスナ位置２０に最も近い非遮蔽ボクセル、または直接的な見通し線に最も近い非遮蔽ボクセル、または非遮蔽ボクセルの最大連続サブセットの一部である（例えば、壁の最大開口部に属する）非遮蔽ボクセルであり得る。次いで、識別された最も近い方向変化８０の水平位置における識別された非遮蔽ボクセルに基づいて、仰角が決定される。

重要なことに、方位角および仰角の上記の決定は、最も近い方向変化８０とリスナ位置２０との間の、決定された経路の最後のセグメントの知識のみを必要とする。経路の任意のさらなるセクションの知識は、これらの角度の決定に必要とされない（および関連性がない）。もしあれば、これらのさらなるセクションは、仮想ソース位置までの半径（または距離）を決定するために参照される。

上記のように、計算された見通し線が、音が遮られるボクセル化表現内のボクセル（例えば、ＧＯボクセル）と交差しない場合で、水平面への見通し線の２次元投影が、ボクセル化表現内のその水平位置にあるボリューム要素のいずれもが、音が伝搬することができるボリューム要素ではないことを示す投影マップ内のグリッド要素と交差しない場合、方法は２３４に進む。２３４において、リスナ位置と仮想ソース位置との間の距離（すなわち、半径）および方位角（すなわち、水平方向成分）が、水平面への見通し線の２次元投影に基づいて決定される。距離は、ステップ２２６と同じ方法で決定され得るが、決定された経路を見通し線の２次元投影に置き換える。方位角は、リスナ位置から見たときの見通し線の２次元投影の方向に基づいて決定され得る。その後、方法は、仰角が決定される２２８に進む。このとき、仰角は、計算された見通し線およびボクセル化表現に基づいて決定される。これは、以下の方法で行うことができる。最初に、見通し線と交差したボクセル化表現の遮蔽ボクセル（例えば、ＧＯボクセル）が識別される。交差する遮蔽ボクセルが２つ以上存在する場合、リスナ位置に最も近いボクセルが選択される。別の言い方をすれば、これは、リスナ位置から開始して、計算された見通し線によって交差され、音が遮られる最も近いボクセル（ボリューム要素）を識別することに相当する。次いで、その遮蔽ボクセルについて、同じ水平位置（例えば、遮蔽ボクセルの上または下）にある最も近い非遮蔽ボクセルが決定される。これは、識別されたボクセルの水平位置において、音が伝搬することができるボクセル化表現内のボリューム要素を決定することに相当し得る。最後に、仰角は、リスナ位置と決定された非遮蔽ボリューム要素との間の仰角として決定される。

２３０において、決定された仮想ソース位置における仮想ソースに対する仮想ソース信号（例えば、波形）が、音源のソース信号（例えば、波形）に基づいて決定される。例えば、仮想ソース信号は、修正（例えば、利得、フィルタなど）が課された元の波形（すなわち、ソース信号）であり得る。これらの修正は、以下のオプションの中から選択され得る：
－なし
－仮想ソースのローカル環境（例えば、遅い残響）の影響を受ける利得／フィルタ
－すべての環境の影響を受ける利得／フィルタ

別の言い方をすれば、元のソース信号が仮想ソース信号として使用され得るか、または、ソース信号に利得および／またはフィルタを適用することによって仮想ソース信号が生成され得る。ソース信号にフィルタを適用することは、例えば、（元の）ソース位置のエリアに対応するリバーブを適用すること、仮想ソース位置のエリアに対応するリバーブを適用すること、または一般に、決定された経路に沿った１つまたは複数のエリアに対応するリバーブを適用することを含み得る。

２３２において、レンダリング（例えば、３ＤｏＦレンダリング）が仮想ソース位置において仮想ソースに適用される。一般に、このステップは、仮想ソース位置からリスナ位置への仮想ソース信号をレンダリングすることを伴うと言える。さらに、任意の後処理ステップを含む、オーディオソースのための任意の従来の処理ステップが、この時点で実行され得る。

２３８において、計算された見通し線が、音が遮られるボクセル化表現内のボクセル（例えば、ＧＯボクセル）と交差しない場合、または投影マップ内に経路が見つからない場合に実行され、回折モデリングがスキップされる。ソース位置とリスナ位置との間に、いかなる遮蔽ボクセル（例えば、ＧＯボクセル）によっても遮蔽されない直接的な見通し線がある場合、３次元オーディオシーンにおける音伝搬のリアルなリスニングエクスペリエンスおよび実物そっくりの知覚を提供しようとするときに、３次元オーディオシーンによる音の回折を考慮に入れる必要はない。経路が見つからない場合、音源からの音は全くレンダリングされなくてもよい。

ステップ２１４から２３２のプロセスフローは、方法２００のステップ２３４、２３６、および２３８とともに、複数のソース位置および／またはリスナ位置の各々に対して（例えば、ソース位置およびリスナ位置の複数の対の各々に対して）実行され得ることが理解される。

上述した方法２００では、経路が見つからない場合（ステップ２２４でＮｏ）、仮想音源の仮想ソース位置を示すパラメータは決定されなくてもよい。次いで、方法２００は、現在のリスナ位置および現在のソース位置に対する回折モデリングおよび／またはオーディオレンダリングを完全にスキップし得る。経路が見つからない場合の代替処理を提供する方法４００について、図４を参照して説明する。

方法４００のステップ４０２、４０４、４０６、４０８、４１０、４１２、４１４、４１６、４１８、４２０、４２２、および４３４は、それぞれ、上述した方法２００のステップ２０２、２０４、２０６、２０８、２１０、２１２、２１４、２１６、２１８、２２０、２２２、および２３４と同様に進行することができ、上記で行われたそれぞれの記述は、ここでも適用することができる。

４２４において、ステップ４２２で経路が見つかったかどうかがチェックされる。経路が見つかった場合（Ｙｅｓ）、方法は４２６に進む。経路が見つからなかった場合（Ｎｏ）、方法は４４０に進む。

次に、方法４００のステップ４２６、４２８、４３０、および４３２は、それぞれ、上述した方法２００のステップ２２６、２２８、２３０、および２３２と同様に進行することができ、上述したそれぞれの説明は、ここでも適用することができる。同様に、ステップ４３６は、上述のステップ２３６と同じ方法で進行することができる。

４４０において、ＣＰＵ時間が利用可能であるかどうかがチェックされる。このステップは、例えばリアルタイムリソース管理アプリケーション（リアルタイムリソースマネージャ）によって実行されてもよい。仮想ソース位置を決定し、実際のレンダリングを実行するために、特定のサイクル（期間）が利用可能であると仮定され得る。このサイクルまたは時間期間は、レンダリングの更新レートまたはリフレッシュレートに関係し得る（例えば、それから導出可能であり得る）。次いで、各サイクルにおいて、ボクセル化の別の繰り返しおよび後続のステップを実行するのに十分な時間（ＣＰＵ時間）がそのサイクルにおいて利用可能であるかどうかがチェックされ得る。これは、例えば、３次元オーディオシーンの特性および／またはボクセル化の所与の粒度において必要とされる以前の時間量に基づく、そのような繰り返しに必要とされるであろう時間の推定値に基づき得る。ＣＰＵ時間が利用可能でないことが分かった場合（Ｎｏ）、方法は４３８に進み、このステップは、上述のステップ２３８と同じ方法で実行され得る。ＣＰＵ時間が利用可能であることが判明した場合（Ｙｅｓ）、方法は４４２に進む。

４４２では、ボクセル化の粒度が精緻化される。これは、ボクセルのサイズ（例えば、辺長）を低減することに対応する。例えば、ボクセルの辺長は、が次の繰り返しのために各ボクセル８つのより小さいボクセルに分割されるように、この時点で半分にされ得る。一般に、サイズ（例えば、辺長さ）は、所定の比率にしたがって低減され得る。その後、方法は４０８に戻って、精緻化された粒度を用いて３次元オーディオシーンのボクセル化を実行する。上記と同様に、このステップは、精緻化された粒度を有する３次元オーディオシーンのボクセル化表現を取得することに置き換えることができる。例えば、そのような精緻化されたボクセル化表現は、ストレージメモリから読み取られ得るか、または（場合によっては、例えば、エンコーダなどのソースデバイスに、適用可能な精緻化された粒度で精緻化されたボクセル化表現を要求した後に）ビットストリームから抽出され得る。

その後、残りのステップは上述したように進む。ここで、精緻化された２次元投影マップも、例えば、ストレージメモリからそれを読み取ること、または（場合によっては、例えば、エンコーダなどのソースデバイスに、適用可能な精緻化された粒度で精緻化された２次元投影マップを要求した後に）ビットストリームからそれを抽出するによって取得され得ることが理解される。

特に、ボクセル化の粒度の精緻化は、４２４において経路が見つからなかったと決定され、４４０においてＣＰＵ時間が利用可能であると判明している限り、（場合によっては複数回）繰り返され得る。この段階で適用され得るさらなる基準は、ボクセル化の所定の最小粒度に達したかどうかをチェックすることである。最小粒度に達している場合、方法は、ステップ４４０において、いずれのＣＰＵ時間も利用可能であると判明しなかったかのように進み得る。

さらに別の実装形態では、経路が見つかったか否かにかかわらず、ＣＰＵ時間が利用可能である限り、ボクセル化表現の粒度の精緻化が繰り返され（すなわち、反復的に実行すされ）得る。これは、ステップ４４０および４２４の順序を変更することによって、すなわち、最初に４４０においてＣＰＵ時間が利用可能であるかどうかをチェックし、いずれのＣＰＵ時間も利用可能であると判明しなかった（Ｙｅｓ）後にのみ、４２４において経路が見つかったかどうかをチェックすることによって実施され得る。この場合、ステップ４４０においていずれのＣＰＵ時間も利用可能であると判明しなかった場合（Ｎｏ）、方法はステップ４２４に進むことであろうことが理解される。次いで、ステップ４２４において、経路が見つからなかった場合（Ｎｏ）、方法はステップ４３８に進むであろう。ステップ４４０において適用され得るさらなる基準は、ボクセル化の所定の最小粒度に達したかどうかをチェックすることである。

ステップ４４２においてボクセル化の粒度を精緻化することに加えて、本実装形態は、ボクセル化のより粗い粒度において早期に発見された経路に基づいて経路発見アルゴリズムのパラメータ（例えば、開始位置および／または目標位置）を修正し得る。

ボクセル化の粒度（例えば、ボクセルのサイズまたは辺長）は、ステップ４０４においてジオメトリの更新が検出されるたびに、上記の実装形態において所定の（例えば、デフォルトの）値にリセットされ得る。いくつかの実装形態では、これは、ボクセル化の粒度がリセットされる（または一般に、粗くされる）唯一の事例であり得る。

オーディオコンテンツを処理する方法が上記で説明されたが、本開示は同様に、説明された方法を実行するように適合された装置およびデバイス（例えば、エンコーダ、デコーダ、レンダラ、再生デバイスなど）、処理能力を有するデバイスに説明された方法を実行させるのに適した命令を含むコンピュータプログラム、およびそのようなコンピュータプログラムを記憶するコンピュータ可読記憶媒体に関することが理解される。

図５は、説明される方法を実行するように適合された装置５００の例を示す。装置５００は、プロセッサ５１０と、プロセッサ５１０に結合され、プロセッサ５１０のための命令を記憶するメモリ５２０とを備える。プロセッサ５１０は、上述した方法（複数可）を実行するように適合される。装置５００は、例えば、オーディオコンテンツ（ソース信号およびソース位置の指示を含む）と、３次元オーディオシーンの指示とを含む入力５３０を受信し得、例えば、仮想ソース信号および仮想ソース位置の指示、またはレンダリングされたオーディオ信号を含む出力５４０を生成し得る。

提案された方法は、エンコーダまたはデコーダによって実行され得るか、またはエンコーダとデコーダとの間で分散され得ることに留意されたい。第１の場合、エンコーダは、レンダリングされた（仮想）サウンド信号の表現を出力として生成し得る。第２の場合、デコーダは、その計算能力が許す場合、自らボクセル化表現および２次元投影マップを生成し得る。代替的に、第３の場合、ボクセル化表現および２次元投影マップは、エンコーダによって（場合によっては異なる粒度のボクセル化で）生成されてもよく、例えばビットストリームの一部としてデコーダに提供されてもよい。次いで、デコーダは、例えば、ビットストリームからボクセル化表現および２次元投影マップを抽出することによって、ボクセル化表現および２次元投影マップを取得し、上述した方法（複数可）のさらなるステップに進む。また、ボクセル化表現が（例えば、エンコーダ側から）取得され、取得されたボクセル化表現に基づいて２次元投影マップがデコーダによって生成される混合ケースも実現可能である。

解釈
特に明記しない限り、以下の説明から明らかなように、本開示全体を通して、「処理」、「コンピューティング」、「計算」、「決定」、「分析」などの用語を利用した説明は、電子量などの物理量として表されるデータを、物理量として同様に表される他のデータに操作および／または変換するコンピュータもしくはコンピューティングシステム、または同様の電子コンピューティングデバイスの動作および／またはプロセスを指すことが理解される。

同様に、「プロセッサ」という用語は、例えば、レジスタおよび／またはメモリからの電子データを処理して、その電子データを、例えば、レジスタおよび／またはメモリに記憶され得る他の電子データに変換する、任意のデバイスまたはデバイスの一部を指し得る。「コンピュータ」または「コンピューティングマシン」または「コンピューティングプラットフォーム」は、１つまたは複数のプロセッサを含み得る。

本明細書で説明される方法のそれぞれの方法の例示的な一実施形態は、命令セット、例えば、１つまたは複数のプロセッサ、例えば、ウェブサーバ構成の一部である１つまたは複数のプロセッサ上で実行するためのコンピュータプログラムを搬送するコンピュータ可読キャリア媒体の形態である。したがって、当業者には理解されるように、本開示の例示的な実施形態は、方法、専用装置などの装置、データ処理システムなどの装置、またはコンピュータ可読キャリア媒体、例えばコンピュータプログラム製品として具現化され得る。コンピュータ可読キャリア媒体は、１つまたは複数のプロセッサ上で実行されたときに１つまたは複数のプロセッサに方法を実施させる命令のセットを含むコンピュータ可読コードを搬送する。したがって、本開示の態様は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、またはソフトウェア態様とハードウェア態様とを組み合わせた例示的な実施形態の形態をとり得る。さらに、本開示は、キャリア媒体に具現化されたコンピュータ可読プログラムコードを搬送するキャリア媒体（例えば、コンピュータ可読記憶媒体上のコンピュータプログラム製品）の形態をとってもよい。

本開示全体を通して、「例示的な一実施形態」、「いくつかの例示的な実施形態」または「例示的な実施形態」への言及は、例示的な実施形態に関連して説明される特定の特徴、構造または特性が、本開示の少なくとも１つの例示的な実施形態に含まれることを意味する。したがって、本開示全体を通して様々な場所で「例示的な一実施形態では」、「いくつかの例示的な実施形態では」、または「例示的な実施形態では」という表現の出現は、必ずしもすべてが同じ例示的な実施形態を参照しているわけではない。さらに、特定の特徴、構造または特性は、１つまたは複数の例示的な実施形態において、本開示から当業者には明らかであるように、任意の適切な方法で組み合わせられ得る。

本開示の例示的な実施形態の上記の説明において、本開示の様々な特徴は、本開示を合理化し、様々な発明の態様のうちの１つまたは複数の理解を助ける目的で、単一の例示的な実施形態、図、またはその説明において一緒にグループ化されることがあることを理解されたい。しかしながら、この開示方法は、特許請求の範囲が各請求項に明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、本発明の態様は、単一の前述の開示された例示的な実施形態のすべての特徴よりも少ない特徴にある。したがって、明細書に続く特許請求の範囲は、本明細書に明示的に組み込まれ、各請求項は、本開示の別個の例示的な実施形態として独立している。

さらに、本明細書で説明されるいくつかの例示的な実施形態は、他の例示的な実施形態に含まれる一部の特徴は含み他の特徴は含まないが、当業者によって理解されるように、異なる例示的な実施形態の特徴の組合せは、本開示の範囲内にあることが意図され、異なる例示的な実施形態を形成する。例えば、以下の特許請求の範囲では、特許請求される例示的な実施形態のいずれも、任意の組み合わせで使用可能である。

本開示の最良の形態であると考えられるものを説明してきたが、当業者であれば、本開示の趣旨から逸脱することなく、それに対して他のおよびさらなる修正を行うことができ、本開示の範囲内に入るそのような変更および修正のすべてを特許請求することが意図されていることを認識するであろう。例えば、上記で与えられた任意の式は、使用され得るプロシージャの単なる代表である。機能はブロック図に追加されてもそこから削除されてもよく、動作は機能ブロック間で交換されてもよい。ステップは、本開示の範囲内で、説明される方法に追加されてもそこから削除されてもよい。

Claims

３次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理する方法であって、前記オーディオコンテンツはソース位置に音源を含み、前記方法は、
前記３次元オーディオシーンのボクセル化表現であって、音が伝搬することができるボリューム要素と、音が遮られるボリューム要素とを示すボクセル化表現を取得することと、
前記オーディオシーンについての２次元投影マップであって、水平面に投影する投影動作によって前記ボクセル化表現に関連付けられる２次元投影マップを取得することと、
仮想音源の仮想ソース位置からの仮想ソース信号をレンダリングすることによって、前記ソース位置における前記音源のソース信号に対する前記３次元オーディオシーンによる音響回折の影響を、シミュレートするために、前記ソース位置、リスナ位置、および前記投影マップに基づいて前記仮想ソース位置を示すパラメータを決定することと
を含む方法。
前記２次元投影マップを取得することが前記投影動作を前記ボクセル化表現に適用することを含む、請求項１に記載の方法。
前記投影マップはグリッドを含み、前記グリッドの各要素は、前記オーディオシーン内の水平位置を表すとともに、前記ボクセル化表現内のその水平位置にある少なくとも１つのボリューム要素が、音が伝搬することができるボリューム要素であるかどうかを示す、請求項１または２に記載の方法。
前記仮想ソース位置を示す前記パラメータを決定することは、
前記ボクセル化表現内のそれぞれの水平位置における少なくとも１つのボリューム要素が、音が伝搬することができるボリューム要素であることを示すグリッド要素に沿って、前記ソース位置の２次元投影と前記リスナ位置の２次元投影との間の前記投影マップ内の経路を決定するために、経路発見アルゴリズムを前記投影マップに適用することと
請求項３に記載の方法。
前記仮想ソース位置を示す前記パラメータを決定することは、
前記３次元オーディオシーンにおける前記ソース位置と前記リスナ位置との間の見通し線を計算することと、
前記計算された見通し線が、音が遮られる前記ボクセル化表現内のボリューム要素と交差し、かつ、前記見通し線の前記水平面への２次元投影が、前記ボクセル化表現内のその水平位置における前記ボリューム要素のいずれもが、音が伝搬することができるボリューム要素ではないことを示す前記投影マップ内のグリッド要素と交差する場合、
前記ボクセル化表現内のそれぞれの水平位置における少なくとも１つのボリューム要素が、音が伝搬することができるボリューム要素であることを示すグリッド要素に沿って、前記ソース位置の２次元投影と前記リスナ位置の２次元投影との間の前記投影マップ内の経路を決定するために経路発見アルゴリズムを適用することと、
前記決定された経路に基づいて、前記仮想ソース位置を示す前記パラメータを決定することと
を含む、請求項３に記載の方法。
前記経路発見アルゴリズムが、前記ソース位置の前記２次元投影と前記リスナ位置の前記２次元投影との間の前記投影マップ内の経路を識別できなかった場合、
精緻化されたボクセル化表現および精緻化された２次元投影マップを取得することと、
前記精緻化されたボクセル化表現内のそれぞれの水平位置における少なくとも１つのボリューム要素が、音が伝搬することができるボリューム要素であることを示すグリッド要素に沿って、前記ソース位置の前記２次元投影と前記リスナ位置の前記２次元投影との間の前記精緻化された投影マップ内の経路を決定するために、前記経路発見アルゴリズムを適用することと
をさらに含み、
前記精緻化された２次元投影マップは、前記水平面に投影する前記投影動作によって前記精緻化されたボクセル化表現に関連付けられ、
前記精緻化されたボクセル化表現の前記ボリューム要素は、前記ボクセル化表現の前記ボリューム要素よりも短い辺長を有する、
請求項４または５に記載の方法。
前記仮想ソース位置を示す前記パラメータを決定することは、
前記決定された経路に基づいて、前記リスナ位置と前記仮想ソース位置との間の距離および方位角を決定することと
を含む、請求項４から６のいずれか一項に記載の方法。
前記距離は、前記決定された経路の経路長に基づいて決定される、および／または
前記方位角を決定することは、
前記リスナ位置の前記２次元投影から開始して、前記決定された経路における最も近い方向変化を識別することと、
前記方位角を、前記リスナ位置の前記２次元投影と前記識別された最も近い方向変化との間の方位角として決定することと
を含む、
請求項７に記載の方法。
前記仮想ソース位置を示す前記パラメータを決定することは、
前記決定された経路および前記ボクセル化表現に基づいて、前記リスナ位置と前記仮想ソース位置との間の仰角を決定すること
を含む、請求項４から８のいずれか一項に記載の方法。
前記仰角を決定することは、
前記リスナ位置の前記２次元投影から開始して、前記決定された経路における最も近い方向変化を識別することと、
前記識別された方向変化の前記水平位置において、前記ボクセル化表現内の、音が伝搬することができるボリューム要素を決定することと、
前記仰角を、前記リスナ位置と前記決定されたボリューム要素との間の仰角として決定することと
を含む、請求項９に記載の方法。
前記仮想ソース位置を示す前記パラメータを決定することは、
前記３次元オーディオシーンにおける前記ソース位置と前記リスナ位置との間の見通し線を計算することと、
前記計算された見通し線が、音が遮られる前記ボクセル化表現内のボリューム要素と交差し、かつ、前記見通し線の前記水平面への２次元投影が、前記ボクセル化表現内のその水平位置における前記ボリューム要素のいずれもが、音が伝搬することができるボリューム要素ではないことを示す前記投影マップ内のグリッド要素と交差しない場合、
前記見通し線の前記水平面への前記２次元投影に基づいて、前記リスナ位置と前記仮想ソース位置との間の距離および方位角を決定することと
を含む、請求項３に記載の方法。
前記仮想ソース位置を示す前記パラメータを決定することは、
前記見通し線および前記ボクセル化表現に基づいて、前記リスナ位置と前記仮想ソース位置との間の仰角を決定すること
をさらに含み、任意選択で、
前記仰角を決定することは、
前記リスナ位置から開始して、前記計算された見通し線が交差し、音が遮られる最も近いボリューム要素を識別することと、
前記識別されたボリューム要素の前記水平位置において、前記ボクセル化表現において音が伝搬することができるボリューム要素を決定することと、
前記仰角を、前記リスナ位置と前記決定されたボリューム要素との間の仰角として決定することと
を含む、請求項１１に記載の方法。
前記３次元オーディオシーンの前記ボクセル化表現を取得することは、
前記３次元オーディオシーンのメッシュ化表現を受信することと、
前記３次元オーディオシーンの前記メッシュ化表現にボクセル化アルゴリズムを適用して、前記ボクセル化表現を生成することと
を含み、任意選択で
前記３次元オーディオシーンの前記ボクセル化表現を取得することは、
前記生成されたボクセル化表現から、ローカルオクルーダーに対応する任意のボクセルを除去することをさらに含み、ここで、ローカルオクルーダーは、音伝搬の大規模な指向性に影響を与えないと予想される前記３次元オーディオシーン内のオブジェクトを表す、
請求項１から１２のいずれか一項に記載の方法。
前記音源の前記ソース信号から前記仮想ソース信号を決定することと、
前記仮想ソース位置から前記リスナ位置に前記仮想ソース信号をレンダリングすることと
をさらに含み、任意選択で、
前記仮想ソース信号を決定することは、
前記ソース信号を前記仮想ソース信号として使用すること、または
前記ソース信号にフィルタを適用して前記仮想ソース信号を生成すること
のうちの１つを含む、請求項１から１３のいずれか一項に記載の方法。
前記ボクセル化表現の前記ボリューム要素は、自由音伝搬を示す第１の値と完全なオクルージョンを示す第２の値との間の値を有するオクルージョン係数を示し、
前記２次元投影マップを生成することは、前記投影マップのグリッド要素が自由音伝搬または完全なオクルージョンのいずれかを示すような切捨て動作を含む、
請求項１から１４のいずれか一項に記載の方法。
前記ボクセル化表現を取得した後に前記投影マップを取得することは、前記３次元オーディオシーンの更新が発生するたびに実行され、および／または
前記仮想ソース位置を示す前記パラメータを決定することは、前記ソース位置または前記リスナ位置の更新が発生するたびに実行される、
請求項１から１５のいずれか一項に記載の方法。
プロセッサのための命令を記憶するメモリに結合されたプロセッサを備える装置であって、前記プロセッサは、前記装置に、請求項１から１６のいずれか一項に記載の方法を実行させるように適合される、装置。
命令を実行するプロセッサに、請求項１から１６のいずれか一項に記載の方法を実行させるための命令を含むコンピュータプログラム。
請求項１８に記載のコンピュータプログラムを記憶したコンピュータ可読記憶媒体。