JP2023520019A - グリッド経路発見に基づく回折モデリング - Google Patents
グリッド経路発見に基づく回折モデリング Download PDFInfo
- Publication number
- JP2023520019A JP2023520019A JP2022559811A JP2022559811A JP2023520019A JP 2023520019 A JP2023520019 A JP 2023520019A JP 2022559811 A JP2022559811 A JP 2022559811A JP 2022559811 A JP2022559811 A JP 2022559811A JP 2023520019 A JP2023520019 A JP 2023520019A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- determining
- source
- listener
- projection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 103
- 238000009877 rendering Methods 0.000 claims abstract description 33
- 230000000694 effects Effects 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000004590 computer program Methods 0.000 claims abstract description 11
- 230000008859 change Effects 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000004888 barrier function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/50—Controlling the output signals based on the game progress
- A63F13/54—Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/02—Synthesis of acoustic waves
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Stereophonic System (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
3次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理する方法であって、オーディオコンテンツはソース位置に音源を含み、3次元オーディオシーンのボクセル化表現であって、音が伝搬することができるボリューム要素と、音が遮られるボリューム要素とを示すボクセル化表現を取得することと、水平面に投影する投影動作をボクセル化表現に適用することによって、ボクセル化表現に基づいてオーディオシーンについての2次元投影マップを生成することと、仮想音源の仮想ソース位置からの仮想ソース信号をレンダリングすることによって、ソース位置における音源のソース信号に対する3次元オーディオシーンによる音響回折の影響を、シミュレートするために、ソース位置、リスナ位置、および投影マップに基づいて仮想ソース位置を示すパラメータを決定することとを含む方法が本明細書で説明される。さらに、対応する装置および対応するコンピュータプログラム製品が説明される。
Description
[関連出願への相互参照]
本出願は、以下の優先出願の優先権を主張する:2020年4月03日に出願された米国仮出願第63/004,539号(参照:D20016USP1)および2020年4月03日に出願された欧州特許出願第20167907.3号(参照:D20016EP)、これらは参照により本明細書に組み込まれる。
本出願は、以下の優先出願の優先権を主張する:2020年4月03日に出願された米国仮出願第63/004,539号(参照:D20016USP1)および2020年4月03日に出願された欧州特許出願第20167907.3号(参照:D20016EP)、これらは参照により本明細書に組み込まれる。
[技術]
本開示は、概して、3次元オーディオシーンの要素によって引き起こされる回折効果を考慮に入れて、3次元オーディオシーンにおけるオーディオレンダリングのためにオーディオコンテンツを処理する方法に関する。特に、本開示は、グリッド経路発見に基づく(音響)回折モデリングの方法に関する。本開示はさらに、対応する装置およびコンピュータプログラム製品に関する。
本開示は、概して、3次元オーディオシーンの要素によって引き起こされる回折効果を考慮に入れて、3次元オーディオシーンにおけるオーディオレンダリングのためにオーディオコンテンツを処理する方法に関する。特に、本開示は、グリッド経路発見に基づく(音響)回折モデリングの方法に関する。本開示はさらに、対応する装置およびコンピュータプログラム製品に関する。
いくつかの実施形態は、特にその開示を参照して本明細書で説明されるが、本開示はそのような使用分野に限定されず、より広い文脈で適用可能であることが理解されるであろう。
本開示全体にわたる背景技術のいかなる考察も、そのような技術が広く知られていること、または当技術分野における共通の一般知識の一部を形成することを認めるものと決してみなされるべきではない。
音響回折は、波が障害物またはオクルーダーの穴にぶつかったときに生じる様々な現象を指す。音響回折の音響心理学的な知覚は、音が障害物の周りで「曲がる」こと、または防音壁の小さな開口部を通り過ぎて「広がる」ことである。そのため、柱またはポールによって遮られていてもコンサートホール内で依然として音を良好に知覚することができたり、廊下にいるときにドアがわずかに開いいている部屋からの音を聞いたりすることができる。
音響回折は、自然に発生する現象であり、音響環境の正しい解釈を実現する上で重要な役割を果たしている。特に、それは、遮音壁および/またはそれらに小さな開口部が存在するときに知覚的に関連性がある。音響回折効果のシミュレーションがないと、サウンドシーンのリアルな再現が確実に損なわれる。
物理世界における音響回折の重要性にもかかわらず、仮想環境(例えば、仮想現実またはゲーム世界)における回折モデリングは見落とされがちである。音響回折効果のモデリングは、多くの場合、完全に破棄されるか、または直接的な信号伝搬アプローチによって置き換えられる。最先端のオーディオレンダリングソリューションでさえ、リアルな音響効果を3次元仮想環境においてリアルタイムで正確に再現することができる状態には未だ至っていない。その理由の1つは、回折効果の物理的に適切なモデリングが計算集約的なタスクであることである。これは、オクルージョン/回折関連のオブジェクトジオメトリ(例えば、壁および穴)の表現の複雑さ、オーディオレンダリングのための空間の次元数(例えば、3D仮想現実)、ならびにモデリングされる効果に関するリアリズムおよびコンテンツ作成者の意図に対する要件(例えば、可聴範囲)によるものである。
したがって、リアルであるが、計算的に実現可能な音響回折のモデリングが現在必要とされている。言い換えれば、(仮想)3次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理するための改善された方法および装置が必要とされている。
本開示の第1の態様によれば、3次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理する方法が提供される。3次元オーディオシーンは、仮想オーディオシーンであり得る。オーディオコンテンツはソース位置に音源を含み得る。方法は、3次元オーディオシーンのボクセル化表現を取得することを含み得る。ボクセル化表現は、音が伝搬することができるボリューム要素(例えば、ボクセル)と、音が遮られるボリューム要素(例えば、ボクセル)とを示し得る。したがって、ボクセル化表現は、3次元オーディオシーンの遮蔽ジオメトリの記述を含むと言える。いくつかの実施形態では、ボクセル化表現内のボリューム要素(例えば、ボクセル)は、所定の辺長、例えば、約10センチメートルの立方体であり得る。他の実施形態では、ボリューム要素(例えば、ボクセル)は、適応サイズ、すなわち、適応辺長を有してもよい。音が伝搬する(例えば、自由に伝搬する)ことができるボリューム要素は、空気で満たされていると考えられ得る。いくつかの実装形態では、ボリューム要素は、自由音伝搬を示す係数値(例えば、0)から完全なオクルージョンを示す係数値(例えば、1)までの範囲の関連するオクルージョン係数を有し得る。方法は、オーディオシーンについての2次元投影マップを取得することをさらに含み得る。2次元投影マップは、水平面に投影する投影動作(projection operation)によってボクセル化表現に関連付けられてもよい。この投影マップは、グリッドを含み得、グリッドの各要素は、オーディオシーン内の水平位置を表すとともに、ボクセル化表現内のその水平位置にある(例えば、その上または下にある)少なくとも1つのボリューム要素が、音が伝搬することができるボリューム要素であるかどうかを示す。投影マップは、オクルージョンマップまたは伝搬マップと呼ばれることもある。方法は、仮想音源の仮想ソース位置からの仮想ソース信号をレンダリングすることによって、ソース位置における音源のソース信号に対する3次元オーディオシーンによる音響回折の影響を、シミュレートするために、ソース位置、リスナ位置、および投影マップに基づいて仮想ソース位置を示すパラメータを決定することをさらに含み得る。
3次元オーディオシーンのボクセル化表現を考慮することによって、表現の複雑さを大幅に軽減 することができる。ボクセルサイズ(例えば、約10センチメートルの辺長、または数センチメートルの辺長)の適切な選択により、リスニングエクスペリエンスの知覚可能な劣化なしにこれを達成することができる。2次元投影マップ上にさらに投影することによって、複雑さをさらに軽減することができ、それによって、2次元経路発見アルゴリズムを採用することが可能になる。経路発見アルゴリズムによって出力される経路は、元の3次元オーディオシーンにおける音の回折の影響をリアルにシミュレートする仮想ソース位置における仮想音源の生成に十分な情報を含む。提案された方法によって達成される複雑さの軽減のおかげで、合理的な計算労力で3次元オーディオシーンにおけるリアルなリスニングエクスペリエンスを提供することができる。特に、これは、仮想現実アプリケーションまたはコンピュータ/コンソールゲームのようなリアルタイムアプリケーションに対してさえ、3次元オーディオシーンにおけるリアルなサウンドレンダリングを可能にする。
いくつかの実施形態では、2次元投影マップを取得することは、水平面に投影する投影動作をボクセル化表現に適用することによって、ボクセル化表現に基づいて2次元投影マップを生成することを含み得る。ボリューム要素が、関連するオクルージョン係数を有する場合、投影マップを生成することは、これらの係数値のいずれかを2つの極値のうちの1つに(例えば、0または1に)マッピングする切捨てステップを伴い得る。状況(例えば、どれだけ頻繁にジオメトリが変化すると予想されるか)に応じて、ボクセル化表現および2次元投影マップは、(例えば、複数のサイズのボリューム要素について)事前計算されてもよく、必要なときにアクセスされてもよい。例えば、事前計算はエンコーダ側で実行され得、ボクセル化表現(複数可)および2次元投影マップ(複数可)は、ビットストリームの一部としてデコーダ側に提供され得る。これにより、デコーダ側の計算負荷がさらに軽減され得る。
いくつかの実施形態では、仮想ソース位置を示すパラメータを決定することは、ボクセル化表現内のそれぞれの水平位置における少なくとも1つのボリューム要素が、音が伝搬することができるボリューム要素であることを示すグリッド要素に沿って、ソース位置の2次元投影(例えば、ソース位置を含むグリッド要素)とリスナ位置の2次元投影(例えば、リスナ位置を含むグリッド要素)との間の投影マップ内の経路を決定するために、経路発見アルゴリズムを投影マップに適用することを含み得る。これらのグリッド要素は、非遮蔽グリッド要素と呼ばれることがある。
広範囲の信頼できる効率的な経路発見アルゴリズムが容易に利用可能であり、レンダリング環境の特定の要件に応じてその中から選択することができる。それによって、提案された方法は、経路発見アルゴリズムを適切に選択することによって、レンダリング側に存在する計算能力に特に合わせることができる。
いくつかの実施形態では、仮想ソース位置を示すパラメータを決定することは、3次元オーディオシーンにおけるソース位置とリスナ位置との間の見通し線を計算することを含み得る。上記決定することは、計算された見通し線が、音が遮られるボクセル化表現内のボリューム要素と交差し、かつ、見通し線の水平面への2次元投影が、ボクセル化表現内のその水平位置におけるボリューム要素のいずれもが、音が伝搬することができるボリューム要素ではないことを示す投影マップ内のグリッド要素と交差する場合、ボクセル化表現内のそれぞれの水平位置における少なくとも1つのボリューム要素が、音が伝搬することができるボリューム要素であることを示すグリッド要素に沿って、ソース位置の2次元投影とリスナ位置の2次元投影との間の投影マップ内の経路を決定するために経路発見アルゴリズムを適用することをさらに含み得る。上記の条件下で、上記決定することは、決定された経路に基づいて、仮想ソース位置を示すパラメータを決定することをさらに含み得る。決定するステップの上記のサブステップは、ボクセル化表現および/または投影マップ内に交差があるかどうかのそれぞれの決定ステップを暗示し得ることが理解される。
直接的な見通し線が、ボクセル化表現内の遮蔽ボクセルと交差するか、または投影マップ内の遮蔽グリッド要素と交差するかどうかに関してチェックを行うことで、処理するのが簡単な特殊ケースを識別して、特殊な処理を行い、それによって、全体的な計算負荷をさらに軽減することができる。
いくつかの実施形態では、方法は、経路発見アルゴリズムが、ソース位置の2次元投影とリスナ位置の2次元投影との間の投影マップ内の経路を識別できなかった場合、精緻化されたボクセル化表現および精緻化された2次元投影マップを取得するステップをさらに含み得る。上記の条件下で、方法は、精緻化されたボクセル化表現内のそれぞれの水平位置における少なくとも1つのボリューム要素が、音が伝搬することができるボリューム要素であることを示すグリッド要素に沿って、ソース位置の2次元投影とリスナ位置の2次元投影との間の精緻化された投影マップ内の経路を決定するために、経路発見アルゴリズムを適用することをさらに含み得る。精緻化された2次元投影マップは、水平面に投影する投影動作によって精緻化されたボクセル化表現に関連付けられ得る。さらに、精緻化されたボクセル化表現のボリューム要素は、ボクセル化表現のボリューム要素よりも短い辺長を有し得る。例えば、精緻化されたボクセル化表現のボリューム要素の辺長は、(初期/以前の)ボクセル化表現のボリューム要素の辺長の半分を有し得る。精緻化されたボクセル化表現および精緻化された2次元投影マップが取得されるか否かは、レンダリングプロシージャの現在のサイクル(例えば、期間)内に依然として時間(例えば、CPU時間)があるかどうかに依存し得る。例えば、サイクル長は、オーディオレンダリングの所望の(例えば、所定の)リフレッシュレート(更新レート)に関係し得る。CPU時間が利用可能である場合、表現は精緻化され得、そうでない場合で、経路が見つからなかった場合、音源からの音は全くレンダリングされなくてもよい。
それによって、表現の精度を順次高めることができる。「粗い」表現であっても、経路が発見され、仮想音源の仮想ソース位置の決定が可能であるという意味で、許容可能な結果をもたらすのであれば、粗い表現が維持され得る。一方、そのような経路が見つからない(かつCPU時間が利用可能である)場合、ボクセル化表現の粒度を精緻化して、より粗い粒度では識別されていないが、音源からの音がリスナ位置で知覚されることを可能にする開口部が遮蔽ジオメトリ内にあるかどうかをチェックする。その結果、提案された条件付き精緻化により、表現の精度と計算負荷の低減との間の最適なトレードオフを達成することができる。
いくつかの実施形態では、仮想ソース位置を示すパラメータを決定することは、決定された経路に基づいて、リスナ位置と仮想ソース位置との間の距離および方位角を決定することを含み得る。ここで、距離は、決定された経路の経路長に基づいて決定され得る。例えば、距離は、(完全な)決定された経路の経路長(例えば、経路の実際の長さ、または「マンハッタン」距離もしくは経路が交差するボクセルの重み付けされた数など、経路の推定値/近似)として決定され得る。代替的に、決定された経路の経路長を、リスナ位置の垂直座標とソース位置の垂直座標との差に基づいて、またはボクセル化表現への外挿に基づいて調整してもよい。方位角を決定することは、リスナ位置の2次元投影から開始して、決定された経路における最も近い方向変化を識別することを含み得る。方位角を決定することは、方位角を、リスナ位置の2次元投影と識別された最も近い方向変化との間の方位角として決定することをさらに含み得る。ここで、(最も近い)方向変化は、音が遮られるボリューム要素によって引き起こされることが理解される。
それによって、投影マップ内の決定された経路が、レンダリング時にリアルなリスニングエクスペリエンスを生み出す仮想ソース位置について.0の距離および方位角を効率的に決定するのに十分な情報を含むという事実が利用される。
いくつかの実施形態では、仮想ソース位置を示すパラメータを決定することは、決定された経路およびボクセル化表現に基づいて、リスナ位置と仮想ソース位置との間の仰角を決定することを含み得る。ここで、仰角を決定することは、リスナ位置の2次元投影から開始して、決定された経路における最も近い方向変化を識別することを含み得る。仰角を決定することは、識別された方向変化の水平位置において、ボクセル化表現内の、音が伝搬することができるボリューム要素を決定することをさらに含み得る。ここで、リスナ位置の垂直座標に最も近い垂直座標を有するか、リスナ位置と音源位置との間の直接的な見通し線までの距離が最小であるか、または音が伝搬することができるボクセルの最大連続サブセット内にある、決定された方向変化の水平位置において音が伝搬することができるボリューム要素が決定され得る。仰角を決定することは、仰角を、リスナ位置と決定されたボリューム要素との間の仰角として決定することをさらに含み得る。
それによって、投影マップ内の決定された経路が、ボクセル化表現とともに、レンダリング時にリアルなリスニングエクスペリエンスを生成する仮想ソース位置の仰角を効率的に決定するのに十分な情報を含むという事実が利用される。
いくつかの実施形態では、仮想ソース位置を示すパラメータを決定することは、3次元オーディオシーンにおけるソース位置とリスナ位置との間の見通し線を計算することを含み得る。仮想ソース位置を示すパラメータを決定することは、計算された見通し線が、音が遮られるボクセル化表現内のボリューム要素と交差し、かつ、見通し線の水平面への2次元投影が、ボクセル化表現内のその水平位置におけるボリューム要素のいずれもが、音が伝搬することができるボリューム要素ではないことを示す投影マップ内のグリッド要素と交差しない場合、見通し線の水平面への2次元投影に基づいて、リスナ位置と仮想ソース位置との間の距離および方位角を決定することをさらに含み得る。計算された見通し線が、音が遮られるボクセル化表現内のボリューム要素と交差しない場合(その場合、元のソース位置を使用することができる)、または投影マップ内の経路が見つからない場合(この場合、音を全くレンダリングする必要がない)、仮想ソース位置を決定する必要がないことが理解される。
それによって、特定の些細なケースを識別し、単純な方法で処理して、提案された方法によって生じる全体的な計算負荷をさらに軽減しつつも、依然としてリアルなリスニングエクスペリエンスを得ることができる。
いくつかの実施形態では、仮想ソース位置を示すパラメータを決定することは、見通し線およびボクセル化表現に基づいて、リスナ位置と仮想ソース位置との間の仰角を決定することをさらに含み得る。ここで、仰角を決定することは、リスナ位置から開始して、計算された見通し線が交差し、音が遮られる最も近いボリューム要素を識別することを含み得る。仰角を決定することは、識別されたボリューム要素の水平位置において、ボクセル化表現において音が伝搬することができるボリューム要素を決定することをさらに含み得る。仰角を決定することは、仰角を、リスナ位置と決定されたボリューム要素との間の仰角として決定することをさらに含み得る。
それによって、識別された特殊ケースにおいて、直接的な見通し線は、ボクセル化表現とともに、リアルなリスニングエクスペリエンスを生み出す仮想ソース位置の仰角を効率的に決定するのに十分な情報を含むという事実が利用される。
本開示の別の態様によれば、プロセッサのための命令を記憶するメモリに結合されたプロセッサを備える装置が提供される。プロセッサは、上記の態様およびその実施形態のいずれかによる方法を装置に実行させるように適合され得る。
本開示の別の態様によれば、命令を実行するプロセッサに、上記の第1の態様およびその実施形態のいずれかによる方法を実行させるための命令を含むコンピュータプログラムが提供される。
本開示のさらに別の態様によれば、前述の態様によるコンピュータプログラムを記憶するコンピュータ可読記憶媒体が提供される。
次に、本開示の例示的な実施形態を、添付の図面を参照して、単なる例として説明する。
図1Aおよび図1Bは、それぞれ、3次元オーディオシーン内の遮蔽要素によって引き起こされる音響回折シナリオおよび2次元ボクセル化グリッド上のその2次元水平投影の例を示す。
3次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理する方法の例のフロー図を示す。
図3Aおよび図3Bは、2次元投影マップにおける経路の例を示す。
3次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理する方法の別の例のフロー図を示す。
3次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理する方法を実装する装置の例を概略的に示す。
図1Aは、3次元オーディオシーン100の例を提供し、図1Bは、2次元投影面へのその水平投影を示す。このオーディオシーンは、ソース位置(ソースロケーション)110で発せられた音がリスナ位置(リスナロケーション)120において知覚されるときの音響回折の効果を示す。ソース位置110とリスナ位置120との間の直接経路130は、ソース位置110とリスナ位置120との間の壁または他の拡張要素など、オーディオシーン内の遮蔽要素140によって遮断されている。それでもなお、ソース位置110で発せられた音は、リスナ位置120で知覚される。これは、音響回折によるものであり、これにより、音は、遮蔽要素140の周りのすべての経路に沿ってリスナ位置120に到達することができる。最も短い「曲がった」経路150は、音響心理学的な観点から、支配的な経路と考えることができる。この効果は、遮蔽要素を含む(仮想)3次元オーディオシーンにおけるリアルなオーディオレンダリングを可能にするように適切にモデリングされる必要がある。
大まかに言えば、本開示は、3次元(オーディオ)シーンのボクセル化された遮蔽ジオメトリを表す等距離グリッドのための経路発見アルゴリズムに基づく音響回折モデリングの計算上効率的な方法を提案する。この目的を達成するために、本開示は、ボクセル化方法(例えば、適応ボクセル化方法)を使用して簡略化された(しかし、十分に正確な)ジオメトリ表現を利用する。さらに、本開示は、関連するジオメトリ表現の収縮による回折モデリングのために2次元空間を、場合によってはコンテンツ作成者およびエンコーダオペレータのための音響オクルージョン/回折現象を近似する音響効果を制御するための手段とともに使用する。
したがって、本開示による方法および装置は、動的かつインタラクティブな3次元仮想環境のための知覚的にリアルな音響オクルージョン/回折効果シミュレーションを可能にし、全体的なユーザエクスペリエンスの向上と、仮想現実(VR)アプリケーションのより広い展開の促進とを目的とする。ここでおよび以下において、「オクルージョン/回折のシミュレーション」は、オクルージョン/回折の知覚効果をモデリングするという意味で理解されてもよく、物理的効果の正確なシミュレーションを必ずしも意味しなくてもよい。
出発点として、本開示は、(仮想)3次元空間(例えば、3次元オーディオシーン)が、遮蔽ジオメトリ記述(すなわち、例えば、メッシュまたは幾何学的プリミティブ、および場合によってはそれらの面について取得されるかまたはそれらの面に割り当てられるオクルージョン係数に関して表される、オーディオシーン内の遮蔽要素に関する情報)を含むと仮定する。本開示はさらに、リスナ(複数可)/ユーザ(複数可)およびオーディオソース(複数可)の位置(ロケーション)、ならびにオーディオソース(複数可)によって発せられるオーディオ信号(複数可)(例えば、波形)を仮定する。これらの要素は、本開示の実施形態によって提案される方法への入力とみなされ得る。しかしながら、これらの方法は、同様に、遮蔽ジオメトリ記述の処理されたバージョンを受信することができることに留意されたい。例えば、方法は、入力として、3次元空間のボクセル化表現(例えば、3次元オーディオシーン)を受信し得る。
上記の仮定(すなわち、上記の入力)に基づいて、本開示の実施形態による方法および装置は、仮想ソース位置において仮想オーディオソース(仮想音源)を、場合によっては仮想ソース信号とともに提供する(例えば、決定または生成する)ことによって、音響オクルージョン/回折の知覚効果をシミュレートしようとする。ここで、仮想ソース位置は、距離(例えば、半径)および方向(例えば、方位角(角度)および仰角(角度))を含むその座標によって定義される。しかしながら、仮想ソース位置は、同様に、他の座標表現(例えば、デカルト座標系)を使用して定義されてもよく、本開示は、球面座標に限定されるものではないことに留意されたい。位置/ロケーションが、サウンドレンダリングに使用される座標系とは異なる座標系で表される場合、座標系間の適切な変換ステップが、例えばオーディオレンダリング時に実行され得る。仮想ソース信号は、ソース信号の元の波形に基づいて決定することができ、場合によっては修正(例えば、利得、フィルタなど)が加えられる。
図2は、3次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理する方法200の例のフロー図を示す。オーディオコンテンツは、(音)ソース信号を発する、すなわち、ソース信号に基づいて音(例えば、ソース波形)を発するソース位置に音源を含む。
202において、シーンジオメトリが入力として受信される。シーンジオメトリは、3次元オーディオシーン(3次元オーディオ環境)のメッシュ化表現に関連し得る。メッシュ化表現は、例えば、3次元オーディオシーンにおけるローカルオクルーダー(例えば、障害物)またはグローバルオクルーダー(例えば、壁)などのオブジェクト(シーンの要素)の面を表すメッシュまたはメッシュのセットを含む。いくつかの実装形態では、各メッシュまたはメッシュ面は、関連するオクルージョン係数を有し得る。
204において、シーンジオメトリおよび/または対応するオクルージョンプロパティの更新が行われたかどうかが決定される。行われていた場合(Yes)、方法は206に進み、3次元オーディオシーンのボクセル化表現を決定するか、または(例えば、ボクセル化表現がすでに利用可能であり、シーンジオメトリの変化が比較的小さい場合)シーンジオメトリの更新されたサブパートに基づいてボクセル化表現のサブパートを少なくとも更新し、その後、208においてボクセル化表現の2次元投影マップを生成する。行われていなかった場合(No)、方法は214に進む。
206において、音響的に関連するジオメトリの選択が実行される。したがって、(オクルージョン/回折効果を引き起こすことができる/引き起こすはずである寸法およびタイプを有する)オブジェクトを表す音響関連データのサブセットが、すべての利用可能なシーンジオメトリ情報から選択される。このステップは任意選択であってもよい。
208において、ボクセル化(すなわち、ボクセル化方法/アルゴリズム)が、シーンジオメトリまたは音響的に関連するジオメトリ(例えば、オクルージョン/回折関連ジオメトリ)に適用されて、3次元オーディオシーンのボクセル化表現が生成される。ボクセル化表現は、規則的なサイズの複数のボクセル(ボリューム要素)を、規則的な3次元グリッドに配置されて含む。そのため、ボクセルは、所定の辺長、例えば、約10センチメートルの立方体であってもよい。
例示的な一実装形態では、3次元オーディオシーンのメッシュ化表現にボクセル化アルゴリズムを適用して、ボクセル化表現を生成し得る。このステップは、3次元空間をボクセル(ボリューム要素)の2つの(抽象)クラス、すなわち、コンクリートまたは木材などのオクルーダーオブジェクト材料(OM)ボクセルと、空気または水などの音伝搬媒体(SM)ボクセルとに分割する3Dボクセル化方法/アルゴリズム(例えば、適応3Dボクセル化方法/アルゴリズム)によってジオメトリの表現複雑さを軽減することを含む。したがって、ボクセルの完全なセットVOXは、OMボクセルおよびSMボクセルのセットによって与えられる:
210において、回折モデリングのためのボクセルが抽出/選択される。この目的のために、OMボクセルは、ボクセルの2つのグループ、すなわち、局所的に遮蔽する(LO)ボクセル(例えば、家具などの局所的に遮蔽する障害物に対応する)およびグローバルに遮蔽する(GO)ボクセル(例えば、壁などのグローバルに遮蔽する障壁に対応する)に分割される。局所的に遮蔽する障害物は、音伝搬の大規模な指向性に影響を与えないと仮定され、その結果、局所的に遮蔽する障害物の背後の音源からの音は、少なくとも局所的に遮蔽する障害物から十分な距離にわたって、元の音と同じ方向に、場合によってはいくらか減衰されて伝搬する。したがって、OMボクセルのセットは、以下を介して分割される:
次いで、方法200の後続のステップは、GOボクセルのみを考慮し得る。したがって、別の言い方をすれば、ステップ210は、生成されたボクセル化表現から、ローカルオクルーダーに対応する任意のボクセルを除去することを伴い、ここで、ローカルオクルーダーは、音伝搬の大規模な指向性に影響を与えないと予想される3次元オーディオシーン内のオブジェクトを表す。例えば、3次元オーディオシーンの境界(例えば、壁)は、この時点で保持されるべきグローバルオクルーダーである。ローカルオクルーダーは、例えば、ローカルオクルーダーが適切な空間フィルタリングによって除去されると仮定して、生成されたボクセル化表現に画像処理技法(例えば、フィルタリングを含む)を適用することによって識別され得る。ローカルオクルーダーはまた、OMボクセルの空間特性(例えば、遮蔽障害物を表すボクセルの数および/もしくはサイズ)ならびに/または周囲のSMボクセルとのそれらの関係(例えば、音伝搬のための自由体積)に基づいて識別され得る。同様に、ローカルオクルーダーは、対応するメタデータによって直接指定され、オーディオシーン作成者の意図を反映し得る。特に、ステップ210は任意選択であってもよい。
ステップ206、208、および210は、ジオメトリ要素によって引き起こされるオクルージョン/回折効果の強度に関してジオメトリ要素の重要性を決定することによって、3次元オーディオシーンのジオメトリ表現の複雑さを制御可能に軽減することを目的としていると言える。
いくつかの実装形態では、ステップ206、208、および210は、異なる方法で3次元オーディオシーンのボクセル化表現を取得すること、例えば外部ソースからボクセル化表現を受信することに置き換えられ得る。例えば、ボクセル化表現は、ストレージメモリから読み取られ得るか、またはビットストリームから抽出(例えば、復号)され得る。これらの場合、ステップ202も省略されるであろう。一般に、方法200は、3次元オーディオシーンのボクセル化表現を取得するステップを含むと言え、ボクセル化表現は、音が伝搬することができるボリューム要素(例えば、SMボクセル)と、音が遮られるボリューム要素(例えば、OMボクセル)とを示す。音が伝搬する(例えば、自由に伝搬する)ことができるボクセルは、空気で満たされていると考えられ得る。いくつかの実装形態では、上記で説明したように、このステップは、ステップ206、208、および210によって実施され得る。3次元オーディオシーンのボクセル化表現を取得することは、3次元オーディオシーンの更新が行われたかどうかに左右され得る。
ステップ210においてボクセル化表現から除去される任意のボクセルの影響は、任意選択のステップ236において、リスナ位置に依存して、局所的な減衰モデリングを適用して、ローカルオクルーダーに対応する除去されたボクセルによる音の減衰をシミュレートすることによって考慮され得る。このステップで決定された任意の減衰利得またはフィルタは、230で決定され、以下で説明される仮想ソース信号に適用され得る。
212において、回折モデリングのための2次元投影マップ(または投影行列)が、ボクセル化表現から(例えば、GOボクセルから)生成(例えば、計算)される。例えば、オーディオシーンについての2次元投影マップは、ボクセル化表現に投影動作を適用することによって、ボクセル化表現に基づいて生成され得る。投影動作は、水平(例えば、リスナ視点から水平である)面に投影する。その結果、投影マップはグリッドを含み、グリッドの各要素は、オーディオシーン内の水平位置を表すとともに、ボクセル化表現内のその水平位置にある(例えば、水平面の上、中、または下にある)少なくとも1つのボクセル(ボリューム要素)が、音が伝搬することができるボクセルである(例えば、SMボクセルである、または同等に、GOボクセルではない)かどうかを示す。したがって、投影マップは、伝搬マップまたはオクルージョンマップと呼ばれることもある。
ここで、PMおよびGOの値は、それぞれ、自由音伝搬(オクルージョンなし;例えば、値0)と完全なオクルージョン(例えば、値1)とを示す極値間の範囲に属し得る。例えば、PMおよびGOの値は、範囲[0,1]に属し、以下に対応し得る:
0 - オクルージョンなし
1 - 完全なオクルージョン
0 - オクルージョンなし
1 - 完全なオクルージョン
言うまでもなく、値を逆に割り当てることも実現可能であり、その場合、式(3)は、minをmaxで置き換えて適合させる必要があるであろう。
範囲[0,1]内のPMおよびGOの値については、以下のように、投影マップのエントリをブール型にレンダリングするために、投影マップを生成するコンテキストにおいて任意選択の切捨てステップが実行され得る:
ここで、γ∈(0,1)はオクルージョン閾値である。一般に、投影マップを生成することは、ボクセル化表現のボクセルのオクルージョン係数値のいずれかを2つの極値のうちの1つに(例えば、0または1に)マッピングする切捨てステップを伴い得る。別の言い方をすれば、2次元投影マップを生成することは、投影マップのグリッド要素が自由音伝搬(オクルージョンなし)または完全なオクルージョン(オクルージョン)のいずれかを示すような切捨て動作を伴い得る。
ステップ212は、「壁および穴」の概念を表すためにPM行列を導入することによって回折モデリングのための空間の次元を低減することを目的としていると言える。実際、所与の水平位置(すなわち、その水平位置におけるボクセルの「列」内)のボクセルのいずれかについて音伝搬が可能である場合、投影マップは、音伝搬がその水平位置(すなわち、そのグリッド要素)について可能であることを示し、したがって、少なくともその水平位置における「穴」を示す。
2次元投影マップを生成することは、3次元オーディオシーンの更新が行われたかどうかに左右され得る。
いくつかの実装形態では、ステップ212は、異なる方法で2次元投影マップを取得すること、例えば、外部ソースから2次元投影マップを受信することに置き換えられ得る。例えば、2次元投影マップは、ストレージメモリから読み取られ得るか、またはビットストリームから抽出(例えば、復号)され得る。一般に、方法200は、オーディオシーンについての2次元投影マップであって、水平面に投影する投影動作によってボクセル化表現に関連付けられる2次元投影マップを取得するステップを含むと言える。投影マップはグリッドを含み、グリッドの各要素は、オーディオシーン内の水平位置を表すとともに、ボクセル化表現内のその水平位置にある少なくとも1つのボリューム要素が、音が伝搬することができるボリューム要素であるかどうかを示す。いくつかの実装形態では、上記で説明したように、このステップは、例えば、2次元投影マップを取得することが投影動作をボクセル化表現に適用することを含むという意味で、ステップ212によって実施され得る。それでもなお、2次元投影マップを取得することは、3次元オーディオシーンの更新が行われたかどうかに左右され得る。
214において、リスナ位置および/またはソース位置の更新が行われたかどうかが決定される。行われていた(Yes)、方法は216に進み、仮想音源の仮想ソース位置を示すパラメータを決定する。行われていなかった場合(No)、方法は、以前に決定された仮想ソース位置を使用して、230に進む。
一般に、仮想音源の仮想ソース位置を示すパラメータを決定することは、(元の)ソース位置、リスナ位置、および投影マップに基づいて実行される。場合によっては、決定はさらに、ボクセル化表現に基づき得る。仮想音源の仮想ソース位置を決定する目的は、仮想ソース位置からの仮想ソース信号をレンダリングすることによって、(元の)ソース位置における音源のソース信号に対する3次元オーディオシーンによる音響回折の影響をシミュレートすることである。
仮想ソース位置を示すパラメータを決定することは、以下で説明するステップ216、218、220、222、224、226、228、および234の一部または全部によって実施され得る。一般に、このステップは、ボクセル化表現内のそれぞれの水平位置における少なくとも1つのボリューム要素が、音が伝搬することができるボリューム要素(例えば、非遮蔽グリッド要素)であることを示すグリッド要素に沿って、ソース位置の2次元投影(例えば、その位置を含むグリッド要素)とリスナ位置の2次元投影(例えば、その位置を含むグリッド要素)との間の投影マップ内の経路を決定するために、経路発見アルゴリズムを投影マップに適用することを伴うと言える。
上記のように、仮想音源の仮想ソース位置を示すパラメータを決定することは、リスナ位置および/またはソース位置の更新が行われたかどうかに左右され得る。
216において、3次元オーディオシーンにおけるソース位置とリスナ位置との間の見通し線が計算される。この見通し線は、リスナツーソース(ユーザツーソース)の直視線とも呼ばれ得る。その計算は、一般的な幾何学的計算を伴い得る。いくつかの実装形態では、リスナ位置および/またはソース位置は、それらが位置するそれぞれのボクセルの中心に量子化され得る。見通し線は、3次元空間における見通し線であり得る。
218において、計算された見通し線が、ボクセル化表現内の、音が遮られるボクセル(例えば、GOボクセル)と交差するかどうかがチェックされる。交差する場合(Yes)、方法は220に進む。交差しない場合(No)、方法は238に進む。後者の場合、音源とリスナとの間に直接的な見通し線が存在するので、回折モデリングは必要ない。
220において、(投影マップの)水平面への見通し線の2次元投影が、ボクセル化表現内のその水平位置におけるボリューム要素のいずれもが、音が伝搬することができるボリューム要素(例えば、PMx,y=1などのオクルージョンを示すPM要素)ではないことを示す投影マップ内のグリッド要素と交差するかどうかがチェックされる。交差する場合(Yes)、方法は222に進む。交差しない場合(No)、方法は234に進む。後者の場合、ソース位置およびリスナ位置の2D投影の間に直接的な線(直線)が存在するので、投影マップにおける経路発見は必要ない。
ステップ218および220は、仮想ソース位置を示すパラメータを決定するのに必要な計算量を低減することを目的とする。これは、単純または些細なケースの特殊な処理によって達成される。ステップ218および220は、いくつかの実装形態では任意選択であってもよく、一般的な処理が単純または些細な場合についても合理的な結果をもたらすことに留意されたい。
222において、ボクセル化表現内のそれぞれの水平位置における少なくとも1つのボリューム要素が、音が伝搬することができるボリューム要素(例えば、非遮蔽グリッド要素)であることを示すグリッド要素に沿って、ソース位置の2次元投影とリスナ位置の2次元投影との間の投影マップ内の経路を決定するために、経路発見アルゴリズムが適用さされる。いくつかの実装形態では、リスナ位置および/またはソース位置は、それらがそれぞれ位置するボクセルの投影(例えば、グリッド要素)の中心に量子化され得る。例えば、A*およびJPSを含む、任意の経路発見アルゴリズムが、このステップにおいて適用され得る。この意味で、提案されたモデルは、経路発見アルゴリズムに関してモジュール式である。
例示的な一実装形態では、ステップ222は、以下のサブステップを含み得る:
・ リスナ(ユーザ)位置およびソース(オブジェクト)位置に対応するボクセルインデックス(ボクセル)の計算:VOXlistenerおよびVOXsource。
・ 任意選択的に、VOXlistener∈SM、VOXsource∈SM(すなわち、リスナおよびソース位置が音伝搬材料内にあるかどうか)、VOXlistener=VOXsource(この場合、空間オーディオレンダリングはスキップされ得る)、||VOXobject-VOXuser||>Δ(この場合、ソースがリスナから離れすぎていて知覚されないと仮定して、空間オーディオレンダリングも同様にスキップされ得る)などをチェックし、対応する規則を適用する。
・ 経路発見アルゴリズム(例えば、A*、JPSなど)を実行して経路を取得する(例えば、ソースからリスナまでの最短軌道を近似する)。以下のパラメータが、その制御(例えば、加速および探索ループ終了)のために適用され得る。
-経路発見アルゴリズムのためのヒューリスティックパラメータ
-以前に検出された経路(例えば、動的シナリオの場合)
-計算時間および/またはリソースの数についての閾値(複数可)
-例えば、2Dグリッド要素(ボクセルの2D投影)の数、距離単位、音減衰、結果として生じるソースオブジェクト音レベルなどに関して表される最大経路長の閾値。
・ リスナ(ユーザ)位置およびソース(オブジェクト)位置に対応するボクセルインデックス(ボクセル)の計算:VOXlistenerおよびVOXsource。
・ 任意選択的に、VOXlistener∈SM、VOXsource∈SM(すなわち、リスナおよびソース位置が音伝搬材料内にあるかどうか)、VOXlistener=VOXsource(この場合、空間オーディオレンダリングはスキップされ得る)、||VOXobject-VOXuser||>Δ(この場合、ソースがリスナから離れすぎていて知覚されないと仮定して、空間オーディオレンダリングも同様にスキップされ得る)などをチェックし、対応する規則を適用する。
・ 経路発見アルゴリズム(例えば、A*、JPSなど)を実行して経路を取得する(例えば、ソースからリスナまでの最短軌道を近似する)。以下のパラメータが、その制御(例えば、加速および探索ループ終了)のために適用され得る。
-経路発見アルゴリズムのためのヒューリスティックパラメータ
-以前に検出された経路(例えば、動的シナリオの場合)
-計算時間および/またはリソースの数についての閾値(複数可)
-例えば、2Dグリッド要素(ボクセルの2D投影)の数、距離単位、音減衰、結果として生じるソースオブジェクト音レベルなどに関して表される最大経路長の閾値。
上述のように、ステップ222は、計算された見通し線が、音が遮られるボクセル化表現内のボリューム要素と交差し、かつ、見通し線の水平面への2次元投影が、ボクセル化表現内のその水平位置におけるボリューム要素のいずれもが、音が伝搬することができるボリューム要素ではない(例えば、遮蔽グリッド要素である)ことを示す投影マップ内のグリッド要素と交差する場合、実行される。
224において、ステップ222で経路が見つかったかどうかがチェックされる。経路が見つかった場合(Yes)、方法は226に進む。経路が見つからなかった場合(No)、方法は238に進み、仮想音源の仮想ソース位置を示すパラメータを決定しないであろう。次いで、方法は、現在のリスナ位置および現在のソース位置に対する回折モデリングおよび/またはオーディオレンダリングを完全にスキップし得る。経路が見つからない場合の代替処理を、図4を参照して以下に説明する。
ステップ226および228は、概して、ステップ222において決定された経路に基づいて仮想ソース位置を示すパラメータを決定することに関する。
より詳細には、226において、リスナ位置と仮想ソース位置との間の距離(すなわち、半径)および方位角(すなわち、水平方向成分)が、決定された経路に基づいて決定される。
距離は、決定された経路の経路長に基づいて決定され得る。例えば、距離は以下のように決定され得る:
-ステップ222で決定された投影マップ上の完全な経路の長さ、
-垂直座標(例えば、z次元)におけるリスナ位置とソース位置との差(すなわち、水平面に対する高さ)にしたがって調整された、投影マップ上の完全な経路の長さ、または
-3次元オーディオシーンのボクセル化表現(例えば、GOボクセル)に外挿されたリスナとソースとの間の完全な経路の長さ。
-ステップ222で決定された投影マップ上の完全な経路の長さ、
-垂直座標(例えば、z次元)におけるリスナ位置とソース位置との差(すなわち、水平面に対する高さ)にしたがって調整された、投影マップ上の完全な経路の長さ、または
-3次元オーディオシーンのボクセル化表現(例えば、GOボクセル)に外挿されたリスナとソースとの間の完全な経路の長さ。
付随的に、仮想ソース位置とリスナ位置との間の決定された距離が、使用が意図されるレンダラの最大レンダラ距離を超える場合、仮想ソース位置は、最大レンダリング距離に設定され得、まだ考慮されていない任意の余剰距離は、仮想音源のための追加の減衰利得にカプセル化され得る。
方位角は、まず、リスナ位置の2次元投影から開始して、決定された経路における最も近い方向変化を識別することによって決定され得る。次いで、方位角は、リスナ位置の(投影マップへの)2次元投影と、識別された最も近い方向変化との間の方位角として決定され得る。例えば、方位角は、リスナ位置の2次元投影と識別された最も近い方向変化とが入る投影マップのそれぞれのグリッド要素の相対位置に基づいて決定され得る。別の言い方をすれば、方位角は、リスナ位置から開始するとき、決定された経路の方向に基づいて決定され得る。さらに言い換えれば、方位角は、リスナ位置から、決定された経路に対する最初の遮蔽グリッド要素への投影マップにおける方向に基づいて決定され得、その後、経路はその方向を変更する。方位角は、例えば、3次元オーディオシーンの座標系におけるx次元またはy次元などの所定の基準方向を参照して決定され得ることが理解される。
図3Aは、仮想ソース位置の方位角を決定する例を概略的に示す。そこに示される投影マップ30は、遮蔽グリッド要素50(陰影部分、すなわち、オーディオシーン内のそれぞれの水平位置を表すとともに、ボクセル化表現内のその水平位置にあるボクセルのいずれもが、音が伝搬することができるボクセルでないことを示すグリッド要素)と、非遮蔽グリッド要素40(すなわち、オーディオシーン内のそれぞれの水平位置を表すとともに、ボクセル化表現内のその水平位置にあるボクセルのうちの少なくとも1つが、音が伝搬することができるボクセルであることを示すグリッド要素)とを含む。説明のために、オーディオシーンの遮蔽要素140の水平投影も示されているが、これらの投影は投影マップ30の一部ではない。ソース位置10(の2次元投影)とリスナ位置20(の2次元投影)との間の見通し線の投影マップ30への2次元投影60は、投影マップ30の遮蔽グリッド要素50の少なくとも1つによって遮蔽される。したがって、ソース位置10とリスナ位置20との間の経路70は、経路発見アルゴリズムを用いて決定される。その経路70は、遮蔽グリッド要素90の背後でその方向を変える。したがって、経路70の最も近い方向変化80の位置が決定される。次いで、経路70の識別された最も近い方向変化80への方向95を示すために方位角が決定される。この方向95は、典型的に、直接的な見通し線(の2次元投影)の方向60とは異なる。
228において、リスナ位置120と仮想ソース位置との間の仰角(すなわち、垂直方向成分)が、決定された経路およびボクセル化表現に基づいて決定される。特に、仰角は、まず、リスナ位置の2次元投影から開始して、決定された経路における最も近い方向変化を識別することによって決定され得る。これは、ステップ226と同様に進行してもよく、またはステップ226で識別された最も近い方向変化を再使用してもよい。次いで、音が伝搬することができるボクセル化表現内のボリューム要素が、識別された方向変化の水平位置において決定される。例えば、そのような(非遮蔽)ボクセルは、識別された最も近い方向変化を含むグリッド要素の水平位置にあるボクセルの列において決定され得る。特に、その(非遮蔽)ボクセルは、リスナ位置の垂直座標に最も近い垂直座標を有する識別された最も近い方向変化の水平位置において決定され得る。最後に、仰角は、リスナ位置と決定されたボクセルとの間の仰角として決定され得る。別の言い方をすれば、仰角は、3次元オーディオシーンへのボクセル化表現に外挿されるときに、リスナ位置から開始して、決定された経路の方向に基づいて決定され得る。仰角は、例えば、投影マップを生成するためにボクセル化表現が投影される水平面などの所定の基準面を参照して決定され得ることが理解される。
図3Bは、仮想ソース位置の仰角を決定する例を概略的に示す。特に、図3Bは、2次元投影マップのグリッドによって定義される2つの方向のいずれかと整列され、リスナ位置20とソース位置10との間の決定された経路70の最も近い方向変化80(リスナ位置20の2次元投影に最も近い)のロケーション(例えば、ボクセル)と交差する垂直断面平面に沿ってボクセル化表現を通る(垂直)断面を示す。ソース位置10およびリスナ位置が共通の水平ボクセルインデックスを有さない限り(すなわち、ボクセル化表現の同じ水平行に配置されない限り)、2次元投影マップのグリッドによって定義される方向のどちらの選択も適切である。2つの位置が水平インデックスを共有する場合、垂直断面平面は、ソース位置10とリスナ位置20との間の直接的な見通し線と交差するように選択されるべきである。垂直断面は、遮蔽垂直グリッド要素55および非遮蔽垂直グリッド要素45を含む。
本例では、垂直断面平面は、図3Aの2次元投影マップに直交し、図3Aのボクセルの底部水平行(すなわち、最も近い方向変化80のボクセルを含むボクセルの水平行)を含む平面である。ソース位置10、リスナ位置20、および直接的な見通し線は、垂直断面平面上で、それぞれの垂直投影15、25、および85に投影される。本例では、垂直断面は4つの垂直遮蔽グリッド要素55を含み、これらは垂直列に配置され、図1Aの右側への遮蔽要素140のベアリングアウトを表すボクセルに対応する。
仰角を決定するために、最も近い方向変化80と同じ水平位置にある、垂直断面内の非遮蔽垂直グリッド要素45が識別される。本例では、遮蔽垂直グリッド要素55の列のすぐ下の非遮蔽垂直グリッド要素が識別される。一般に、最も近い方向変化80の水平位置にあり、例えば、a)見通し線の垂直投影85に最も近いか、b)リスナ位置20の垂直座標に最も近いか、またはc)非遮蔽ボクセルの最大連続サブセットの一部であるボクセルに対応する非遮蔽垂直グリッド要素が識別され得る。識別された非遮蔽垂直グリッド要素は、仰角を決定するために使用される。例えば、仮想ソース位置の垂直投影5とリスナ位置の垂直投影25との間の仰角の垂直投影は、識別された非遮蔽垂直グリッド要素(例えば、その中心)とリスナ位置の垂直投影25との間の水平距離および垂直距離に基づいて決定されることができる。次いで、方位角および仰角の垂直投影に基づいて、例えば、方位角方向と垂直断面平面の方向との間の差角に基づく三角変換を仰角の垂直投影に適用することによって、実際の仰角を決定することができる。
図3Bに示されるような仰角の決定は、ソース位置の垂直投影15およびリスナ位置の垂直投影25の実際の位置座標(ハッチングおよび破線の円によって示されるような)を使用し得るが、図3Aに示されるような経路発見は、これらの位置を含むそれぞれのボクセル(ボクセルインデックス)のみを参照し得ることに留意されたい。
さらに、図3Bは、ソース位置の垂直投影15よりもリスナ位置の垂直投影25からより遠い距離にある仮想ソース位置の垂直投影5を示しており、これは、決定された経路70の長さが直接的な見通し線60の長さを超えるという事実によるものであり得ることに留意されたい。
要約すると、非遮蔽(すなわち、非GO)ボクセルは、識別された最も近い方向変化80の水平位置で識別される。この非遮蔽ボクセルは、例えば、垂直座標(例えば、高さ)においてリスナ位置20に最も近い非遮蔽ボクセル、または直接的な見通し線に最も近い非遮蔽ボクセル、または非遮蔽ボクセルの最大連続サブセットの一部である(例えば、壁の最大開口部に属する)非遮蔽ボクセルであり得る。次いで、識別された最も近い方向変化80の水平位置における識別された非遮蔽ボクセルに基づいて、仰角が決定される。
重要なことに、方位角および仰角の上記の決定は、最も近い方向変化80とリスナ位置20との間の、決定された経路の最後のセグメントの知識のみを必要とする。経路の任意のさらなるセクションの知識は、これらの角度の決定に必要とされない(および関連性がない)。もしあれば、これらのさらなるセクションは、仮想ソース位置までの半径(または距離)を決定するために参照される。
上記のように、計算された見通し線が、音が遮られるボクセル化表現内のボクセル(例えば、GOボクセル)と交差しない場合で、水平面への見通し線の2次元投影が、ボクセル化表現内のその水平位置にあるボリューム要素のいずれもが、音が伝搬することができるボリューム要素ではないことを示す投影マップ内のグリッド要素と交差しない場合、方法は234に進む。234において、リスナ位置と仮想ソース位置との間の距離(すなわち、半径)および方位角(すなわち、水平方向成分)が、水平面への見通し線の2次元投影に基づいて決定される。距離は、ステップ226と同じ方法で決定され得るが、決定された経路を見通し線の2次元投影に置き換える。方位角は、リスナ位置から見たときの見通し線の2次元投影の方向に基づいて決定され得る。その後、方法は、仰角が決定される228に進む。このとき、仰角は、計算された見通し線およびボクセル化表現に基づいて決定される。これは、以下の方法で行うことができる。最初に、見通し線と交差したボクセル化表現の遮蔽ボクセル(例えば、GOボクセル)が識別される。交差する遮蔽ボクセルが2つ以上存在する場合、リスナ位置に最も近いボクセルが選択される。別の言い方をすれば、これは、リスナ位置から開始して、計算された見通し線によって交差され、音が遮られる最も近いボクセル(ボリューム要素)を識別することに相当する。次いで、その遮蔽ボクセルについて、同じ水平位置(例えば、遮蔽ボクセルの上または下)にある最も近い非遮蔽ボクセルが決定される。これは、識別されたボクセルの水平位置において、音が伝搬することができるボクセル化表現内のボリューム要素を決定することに相当し得る。最後に、仰角は、リスナ位置と決定された非遮蔽ボリューム要素との間の仰角として決定される。
230において、決定された仮想ソース位置における仮想ソースに対する仮想ソース信号(例えば、波形)が、音源のソース信号(例えば、波形)に基づいて決定される。例えば、仮想ソース信号は、修正(例えば、利得、フィルタなど)が課された元の波形(すなわち、ソース信号)であり得る。これらの修正は、以下のオプションの中から選択され得る:
-なし
-仮想ソースのローカル環境(例えば、遅い残響)の影響を受ける利得/フィルタ
-すべての環境の影響を受ける利得/フィルタ
-なし
-仮想ソースのローカル環境(例えば、遅い残響)の影響を受ける利得/フィルタ
-すべての環境の影響を受ける利得/フィルタ
別の言い方をすれば、元のソース信号が仮想ソース信号として使用され得るか、または、ソース信号に利得および/またはフィルタを適用することによって仮想ソース信号が生成され得る。ソース信号にフィルタを適用することは、例えば、(元の)ソース位置のエリアに対応するリバーブを適用すること、仮想ソース位置のエリアに対応するリバーブを適用すること、または一般に、決定された経路に沿った1つまたは複数のエリアに対応するリバーブを適用することを含み得る。
232において、レンダリング(例えば、3DoFレンダリング)が仮想ソース位置において仮想ソースに適用される。一般に、このステップは、仮想ソース位置からリスナ位置への仮想ソース信号をレンダリングすることを伴うと言える。さらに、任意の後処理ステップを含む、オーディオソースのための任意の従来の処理ステップが、この時点で実行され得る。
238において、計算された見通し線が、音が遮られるボクセル化表現内のボクセル(例えば、GOボクセル)と交差しない場合、または投影マップ内に経路が見つからない場合に実行され、回折モデリングがスキップされる。ソース位置とリスナ位置との間に、いかなる遮蔽ボクセル(例えば、GOボクセル)によっても遮蔽されない直接的な見通し線がある場合、3次元オーディオシーンにおける音伝搬のリアルなリスニングエクスペリエンスおよび実物そっくりの知覚を提供しようとするときに、3次元オーディオシーンによる音の回折を考慮に入れる必要はない。経路が見つからない場合、音源からの音は全くレンダリングされなくてもよい。
ステップ214から232のプロセスフローは、方法200のステップ234、236、および238とともに、複数のソース位置および/またはリスナ位置の各々に対して(例えば、ソース位置およびリスナ位置の複数の対の各々に対して)実行され得ることが理解される。
上述した方法200では、経路が見つからない場合(ステップ224でNo)、仮想音源の仮想ソース位置を示すパラメータは決定されなくてもよい。次いで、方法200は、現在のリスナ位置および現在のソース位置に対する回折モデリングおよび/またはオーディオレンダリングを完全にスキップし得る。経路が見つからない場合の代替処理を提供する方法400について、図4を参照して説明する。
方法400のステップ402、404、406、408、410、412、414、416、418、420、422、および434は、それぞれ、上述した方法200のステップ202、204、206、208、210、212、214、216、218、220、222、および234と同様に進行することができ、上記で行われたそれぞれの記述は、ここでも適用することができる。
424において、ステップ422で経路が見つかったかどうかがチェックされる。経路が見つかった場合(Yes)、方法は426に進む。経路が見つからなかった場合(No)、方法は440に進む。
次に、方法400のステップ426、428、430、および432は、それぞれ、上述した方法200のステップ226、228、230、および232と同様に進行することができ、上述したそれぞれの説明は、ここでも適用することができる。同様に、ステップ436は、上述のステップ236と同じ方法で進行することができる。
440において、CPU時間が利用可能であるかどうかがチェックされる。このステップは、例えばリアルタイムリソース管理アプリケーション(リアルタイムリソースマネージャ)によって実行されてもよい。仮想ソース位置を決定し、実際のレンダリングを実行するために、特定のサイクル(期間)が利用可能であると仮定され得る。このサイクルまたは時間期間は、レンダリングの更新レートまたはリフレッシュレートに関係し得る(例えば、それから導出可能であり得る)。次いで、各サイクルにおいて、ボクセル化の別の繰り返しおよび後続のステップを実行するのに十分な時間(CPU時間)がそのサイクルにおいて利用可能であるかどうかがチェックされ得る。これは、例えば、3次元オーディオシーンの特性および/またはボクセル化の所与の粒度において必要とされる以前の時間量に基づく、そのような繰り返しに必要とされるであろう時間の推定値に基づき得る。CPU時間が利用可能でないことが分かった場合(No)、方法は438に進み、このステップは、上述のステップ238と同じ方法で実行され得る。CPU時間が利用可能であることが判明した場合(Yes)、方法は442に進む。
442では、ボクセル化の粒度が精緻化される。これは、ボクセルのサイズ(例えば、辺長)を低減することに対応する。例えば、ボクセルの辺長は、が次の繰り返しのために各ボクセル8つのより小さいボクセルに分割されるように、この時点で半分にされ得る。一般に、サイズ(例えば、辺長さ)は、所定の比率にしたがって低減され得る。その後、方法は408に戻って、精緻化された粒度を用いて3次元オーディオシーンのボクセル化を実行する。上記と同様に、このステップは、精緻化された粒度を有する3次元オーディオシーンのボクセル化表現を取得することに置き換えることができる。例えば、そのような精緻化されたボクセル化表現は、ストレージメモリから読み取られ得るか、または(場合によっては、例えば、エンコーダなどのソースデバイスに、適用可能な精緻化された粒度で精緻化されたボクセル化表現を要求した後に)ビットストリームから抽出され得る。
その後、残りのステップは上述したように進む。ここで、精緻化された2次元投影マップも、例えば、ストレージメモリからそれを読み取ること、または(場合によっては、例えば、エンコーダなどのソースデバイスに、適用可能な精緻化された粒度で精緻化された2次元投影マップを要求した後に)ビットストリームからそれを抽出するによって取得され得ることが理解される。
特に、ボクセル化の粒度の精緻化は、424において経路が見つからなかったと決定され、440においてCPU時間が利用可能であると判明している限り、(場合によっては複数回)繰り返され得る。この段階で適用され得るさらなる基準は、ボクセル化の所定の最小粒度に達したかどうかをチェックすることである。最小粒度に達している場合、方法は、ステップ440において、いずれのCPU時間も利用可能であると判明しなかったかのように進み得る。
さらに別の実装形態では、経路が見つかったか否かにかかわらず、CPU時間が利用可能である限り、ボクセル化表現の粒度の精緻化が繰り返され(すなわち、反復的に実行すされ)得る。これは、ステップ440および424の順序を変更することによって、すなわち、最初に440においてCPU時間が利用可能であるかどうかをチェックし、いずれのCPU時間も利用可能であると判明しなかった(Yes)後にのみ、424において経路が見つかったかどうかをチェックすることによって実施され得る。この場合、ステップ440においていずれのCPU時間も利用可能であると判明しなかった場合(No)、方法はステップ424に進むことであろうことが理解される。次いで、ステップ424において、経路が見つからなかった場合(No)、方法はステップ438に進むであろう。ステップ440において適用され得るさらなる基準は、ボクセル化の所定の最小粒度に達したかどうかをチェックすることである。
ステップ442においてボクセル化の粒度を精緻化することに加えて、本実装形態は、ボクセル化のより粗い粒度において早期に発見された経路に基づいて経路発見アルゴリズムのパラメータ(例えば、開始位置および/または目標位置)を修正し得る。
ボクセル化の粒度(例えば、ボクセルのサイズまたは辺長)は、ステップ404においてジオメトリの更新が検出されるたびに、上記の実装形態において所定の(例えば、デフォルトの)値にリセットされ得る。いくつかの実装形態では、これは、ボクセル化の粒度がリセットされる(または一般に、粗くされる)唯一の事例であり得る。
オーディオコンテンツを処理する方法が上記で説明されたが、本開示は同様に、説明された方法を実行するように適合された装置およびデバイス(例えば、エンコーダ、デコーダ、レンダラ、再生デバイスなど)、処理能力を有するデバイスに説明された方法を実行させるのに適した命令を含むコンピュータプログラム、およびそのようなコンピュータプログラムを記憶するコンピュータ可読記憶媒体に関することが理解される。
図5は、説明される方法を実行するように適合された装置500の例を示す。装置500は、プロセッサ510と、プロセッサ510に結合され、プロセッサ510のための命令を記憶するメモリ520とを備える。プロセッサ510は、上述した方法(複数可)を実行するように適合される。装置500は、例えば、オーディオコンテンツ(ソース信号およびソース位置の指示を含む)と、3次元オーディオシーンの指示とを含む入力530を受信し得、例えば、仮想ソース信号および仮想ソース位置の指示、またはレンダリングされたオーディオ信号を含む出力540を生成し得る。
提案された方法は、エンコーダまたはデコーダによって実行され得るか、またはエンコーダとデコーダとの間で分散され得ることに留意されたい。第1の場合、エンコーダは、レンダリングされた(仮想)サウンド信号の表現を出力として生成し得る。第2の場合、デコーダは、その計算能力が許す場合、自らボクセル化表現および2次元投影マップを生成し得る。代替的に、第3の場合、ボクセル化表現および2次元投影マップは、エンコーダによって(場合によっては異なる粒度のボクセル化で)生成されてもよく、例えばビットストリームの一部としてデコーダに提供されてもよい。次いで、デコーダは、例えば、ビットストリームからボクセル化表現および2次元投影マップを抽出することによって、ボクセル化表現および2次元投影マップを取得し、上述した方法(複数可)のさらなるステップに進む。また、ボクセル化表現が(例えば、エンコーダ側から)取得され、取得されたボクセル化表現に基づいて2次元投影マップがデコーダによって生成される混合ケースも実現可能である。
解釈
特に明記しない限り、以下の説明から明らかなように、本開示全体を通して、「処理」、「コンピューティング」、「計算」、「決定」、「分析」などの用語を利用した説明は、電子量などの物理量として表されるデータを、物理量として同様に表される他のデータに操作および/または変換するコンピュータもしくはコンピューティングシステム、または同様の電子コンピューティングデバイスの動作および/またはプロセスを指すことが理解される。
特に明記しない限り、以下の説明から明らかなように、本開示全体を通して、「処理」、「コンピューティング」、「計算」、「決定」、「分析」などの用語を利用した説明は、電子量などの物理量として表されるデータを、物理量として同様に表される他のデータに操作および/または変換するコンピュータもしくはコンピューティングシステム、または同様の電子コンピューティングデバイスの動作および/またはプロセスを指すことが理解される。
同様に、「プロセッサ」という用語は、例えば、レジスタおよび/またはメモリからの電子データを処理して、その電子データを、例えば、レジスタおよび/またはメモリに記憶され得る他の電子データに変換する、任意のデバイスまたはデバイスの一部を指し得る。「コンピュータ」または「コンピューティングマシン」または「コンピューティングプラットフォーム」は、1つまたは複数のプロセッサを含み得る。
本明細書で説明される方法のそれぞれの方法の例示的な一実施形態は、命令セット、例えば、1つまたは複数のプロセッサ、例えば、ウェブサーバ構成の一部である1つまたは複数のプロセッサ上で実行するためのコンピュータプログラムを搬送するコンピュータ可読キャリア媒体の形態である。したがって、当業者には理解されるように、本開示の例示的な実施形態は、方法、専用装置などの装置、データ処理システムなどの装置、またはコンピュータ可読キャリア媒体、例えばコンピュータプログラム製品として具現化され得る。コンピュータ可読キャリア媒体は、1つまたは複数のプロセッサ上で実行されたときに1つまたは複数のプロセッサに方法を実施させる命令のセットを含むコンピュータ可読コードを搬送する。したがって、本開示の態様は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、またはソフトウェア態様とハードウェア態様とを組み合わせた例示的な実施形態の形態をとり得る。さらに、本開示は、キャリア媒体に具現化されたコンピュータ可読プログラムコードを搬送するキャリア媒体(例えば、コンピュータ可読記憶媒体上のコンピュータプログラム製品)の形態をとってもよい。
本開示全体を通して、「例示的な一実施形態」、「いくつかの例示的な実施形態」または「例示的な実施形態」への言及は、例示的な実施形態に関連して説明される特定の特徴、構造または特性が、本開示の少なくとも1つの例示的な実施形態に含まれることを意味する。したがって、本開示全体を通して様々な場所で「例示的な一実施形態では」、「いくつかの例示的な実施形態では」、または「例示的な実施形態では」という表現の出現は、必ずしもすべてが同じ例示的な実施形態を参照しているわけではない。さらに、特定の特徴、構造または特性は、1つまたは複数の例示的な実施形態において、本開示から当業者には明らかであるように、任意の適切な方法で組み合わせられ得る。
本開示の例示的な実施形態の上記の説明において、本開示の様々な特徴は、本開示を合理化し、様々な発明の態様のうちの1つまたは複数の理解を助ける目的で、単一の例示的な実施形態、図、またはその説明において一緒にグループ化されることがあることを理解されたい。しかしながら、この開示方法は、特許請求の範囲が各請求項に明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、本発明の態様は、単一の前述の開示された例示的な実施形態のすべての特徴よりも少ない特徴にある。したがって、明細書に続く特許請求の範囲は、本明細書に明示的に組み込まれ、各請求項は、本開示の別個の例示的な実施形態として独立している。
さらに、本明細書で説明されるいくつかの例示的な実施形態は、他の例示的な実施形態に含まれる一部の特徴は含み他の特徴は含まないが、当業者によって理解されるように、異なる例示的な実施形態の特徴の組合せは、本開示の範囲内にあることが意図され、異なる例示的な実施形態を形成する。例えば、以下の特許請求の範囲では、特許請求される例示的な実施形態のいずれも、任意の組み合わせで使用可能である。
本開示の最良の形態であると考えられるものを説明してきたが、当業者であれば、本開示の趣旨から逸脱することなく、それに対して他のおよびさらなる修正を行うことができ、本開示の範囲内に入るそのような変更および修正のすべてを特許請求することが意図されていることを認識するであろう。例えば、上記で与えられた任意の式は、使用され得るプロシージャの単なる代表である。機能はブロック図に追加されてもそこから削除されてもよく、動作は機能ブロック間で交換されてもよい。ステップは、本開示の範囲内で、説明される方法に追加されてもそこから削除されてもよい。
Claims (19)
- 3次元オーディオシーンにおけるレンダリングのためにオーディオコンテンツを処理する方法であって、前記オーディオコンテンツはソース位置に音源を含み、前記方法は、
前記3次元オーディオシーンのボクセル化表現であって、音が伝搬することができるボリューム要素と、音が遮られるボリューム要素とを示すボクセル化表現を取得することと、
前記オーディオシーンについての2次元投影マップであって、水平面に投影する投影動作によって前記ボクセル化表現に関連付けられる2次元投影マップを取得することと、
仮想音源の仮想ソース位置からの仮想ソース信号をレンダリングすることによって、前記ソース位置における前記音源のソース信号に対する前記3次元オーディオシーンによる音響回折の影響を、シミュレートするために、前記ソース位置、リスナ位置、および前記投影マップに基づいて前記仮想ソース位置を示すパラメータを決定することと
を含む方法。 - 前記2次元投影マップを取得することが前記投影動作を前記ボクセル化表現に適用することを含む、請求項1に記載の方法。
- 前記投影マップはグリッドを含み、前記グリッドの各要素は、前記オーディオシーン内の水平位置を表すとともに、前記ボクセル化表現内のその水平位置にある少なくとも1つのボリューム要素が、音が伝搬することができるボリューム要素であるかどうかを示す、請求項1または2に記載の方法。
- 前記仮想ソース位置を示す前記パラメータを決定することは、
前記ボクセル化表現内のそれぞれの水平位置における少なくとも1つのボリューム要素が、音が伝搬することができるボリューム要素であることを示すグリッド要素に沿って、前記ソース位置の2次元投影と前記リスナ位置の2次元投影との間の前記投影マップ内の経路を決定するために、経路発見アルゴリズムを前記投影マップに適用することと
請求項3に記載の方法。 - 前記仮想ソース位置を示す前記パラメータを決定することは、
前記3次元オーディオシーンにおける前記ソース位置と前記リスナ位置との間の見通し線を計算することと、
前記計算された見通し線が、音が遮られる前記ボクセル化表現内のボリューム要素と交差し、かつ、前記見通し線の前記水平面への2次元投影が、前記ボクセル化表現内のその水平位置における前記ボリューム要素のいずれもが、音が伝搬することができるボリューム要素ではないことを示す前記投影マップ内のグリッド要素と交差する場合、
前記ボクセル化表現内のそれぞれの水平位置における少なくとも1つのボリューム要素が、音が伝搬することができるボリューム要素であることを示すグリッド要素に沿って、前記ソース位置の2次元投影と前記リスナ位置の2次元投影との間の前記投影マップ内の経路を決定するために経路発見アルゴリズムを適用することと、
前記決定された経路に基づいて、前記仮想ソース位置を示す前記パラメータを決定することと
を含む、請求項3に記載の方法。 - 前記経路発見アルゴリズムが、前記ソース位置の前記2次元投影と前記リスナ位置の前記2次元投影との間の前記投影マップ内の経路を識別できなかった場合、
精緻化されたボクセル化表現および精緻化された2次元投影マップを取得することと、
前記精緻化されたボクセル化表現内のそれぞれの水平位置における少なくとも1つのボリューム要素が、音が伝搬することができるボリューム要素であることを示すグリッド要素に沿って、前記ソース位置の前記2次元投影と前記リスナ位置の前記2次元投影との間の前記精緻化された投影マップ内の経路を決定するために、前記経路発見アルゴリズムを適用することと
をさらに含み、
前記精緻化された2次元投影マップは、前記水平面に投影する前記投影動作によって前記精緻化されたボクセル化表現に関連付けられ、
前記精緻化されたボクセル化表現の前記ボリューム要素は、前記ボクセル化表現の前記ボリューム要素よりも短い辺長を有する、
請求項4または5に記載の方法。 - 前記仮想ソース位置を示す前記パラメータを決定することは、
前記決定された経路に基づいて、前記リスナ位置と前記仮想ソース位置との間の距離および方位角を決定することと
を含む、請求項4から6のいずれか一項に記載の方法。 - 前記距離は、前記決定された経路の経路長に基づいて決定される、および/または
前記方位角を決定することは、
前記リスナ位置の前記2次元投影から開始して、前記決定された経路における最も近い方向変化を識別することと、
前記方位角を、前記リスナ位置の前記2次元投影と前記識別された最も近い方向変化との間の方位角として決定することと
を含む、
請求項7に記載の方法。 - 前記仮想ソース位置を示す前記パラメータを決定することは、
前記決定された経路および前記ボクセル化表現に基づいて、前記リスナ位置と前記仮想ソース位置との間の仰角を決定すること
を含む、請求項4から8のいずれか一項に記載の方法。 - 前記仰角を決定することは、
前記リスナ位置の前記2次元投影から開始して、前記決定された経路における最も近い方向変化を識別することと、
前記識別された方向変化の前記水平位置において、前記ボクセル化表現内の、音が伝搬することができるボリューム要素を決定することと、
前記仰角を、前記リスナ位置と前記決定されたボリューム要素との間の仰角として決定することと
を含む、請求項9に記載の方法。 - 前記仮想ソース位置を示す前記パラメータを決定することは、
前記3次元オーディオシーンにおける前記ソース位置と前記リスナ位置との間の見通し線を計算することと、
前記計算された見通し線が、音が遮られる前記ボクセル化表現内のボリューム要素と交差し、かつ、前記見通し線の前記水平面への2次元投影が、前記ボクセル化表現内のその水平位置における前記ボリューム要素のいずれもが、音が伝搬することができるボリューム要素ではないことを示す前記投影マップ内のグリッド要素と交差しない場合、
前記見通し線の前記水平面への前記2次元投影に基づいて、前記リスナ位置と前記仮想ソース位置との間の距離および方位角を決定することと
を含む、請求項3に記載の方法。 - 前記仮想ソース位置を示す前記パラメータを決定することは、
前記見通し線および前記ボクセル化表現に基づいて、前記リスナ位置と前記仮想ソース位置との間の仰角を決定すること
をさらに含み、任意選択で、
前記仰角を決定することは、
前記リスナ位置から開始して、前記計算された見通し線が交差し、音が遮られる最も近いボリューム要素を識別することと、
前記識別されたボリューム要素の前記水平位置において、前記ボクセル化表現において音が伝搬することができるボリューム要素を決定することと、
前記仰角を、前記リスナ位置と前記決定されたボリューム要素との間の仰角として決定することと
を含む、請求項11に記載の方法。 - 前記3次元オーディオシーンの前記ボクセル化表現を取得することは、
前記3次元オーディオシーンのメッシュ化表現を受信することと、
前記3次元オーディオシーンの前記メッシュ化表現にボクセル化アルゴリズムを適用して、前記ボクセル化表現を生成することと
を含み、任意選択で
前記3次元オーディオシーンの前記ボクセル化表現を取得することは、
前記生成されたボクセル化表現から、ローカルオクルーダーに対応する任意のボクセルを除去することをさらに含み、ここで、ローカルオクルーダーは、音伝搬の大規模な指向性に影響を与えないと予想される前記3次元オーディオシーン内のオブジェクトを表す、
請求項1から12のいずれか一項に記載の方法。 - 前記音源の前記ソース信号から前記仮想ソース信号を決定することと、
前記仮想ソース位置から前記リスナ位置に前記仮想ソース信号をレンダリングすることと
をさらに含み、任意選択で、
前記仮想ソース信号を決定することは、
前記ソース信号を前記仮想ソース信号として使用すること、または
前記ソース信号にフィルタを適用して前記仮想ソース信号を生成すること
のうちの1つを含む、請求項1から13のいずれか一項に記載の方法。 - 前記ボクセル化表現の前記ボリューム要素は、自由音伝搬を示す第1の値と完全なオクルージョンを示す第2の値との間の値を有するオクルージョン係数を示し、
前記2次元投影マップを生成することは、前記投影マップのグリッド要素が自由音伝搬または完全なオクルージョンのいずれかを示すような切捨て動作を含む、
請求項1から14のいずれか一項に記載の方法。 - 前記ボクセル化表現を取得した後に前記投影マップを取得することは、前記3次元オーディオシーンの更新が発生するたびに実行され、および/または
前記仮想ソース位置を示す前記パラメータを決定することは、前記ソース位置または前記リスナ位置の更新が発生するたびに実行される、
請求項1から15のいずれか一項に記載の方法。 - プロセッサのための命令を記憶するメモリに結合されたプロセッサを備える装置であって、前記プロセッサは、前記装置に、請求項1から16のいずれか一項に記載の方法を実行させるように適合される、装置。
- 命令を実行するプロセッサに、請求項1から16のいずれか一項に記載の方法を実行させるための命令を含むコンピュータプログラム。
- 請求項18に記載のコンピュータプログラムを記憶したコンピュータ可読記憶媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063004539P | 2020-04-03 | 2020-04-03 | |
EP20167907.3 | 2020-04-03 | ||
EP20167907 | 2020-04-03 | ||
US63/004,539 | 2020-04-03 | ||
PCT/EP2021/058105 WO2021198152A1 (en) | 2020-04-03 | 2021-03-29 | Diffraction modelling based on grid pathfinding |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023520019A true JP2023520019A (ja) | 2023-05-15 |
Family
ID=75267514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022559811A Pending JP2023520019A (ja) | 2020-04-03 | 2021-03-29 | グリッド経路発見に基づく回折モデリング |
Country Status (7)
Country | Link |
---|---|
US (1) | US20230188920A1 (ja) |
EP (1) | EP4128822A1 (ja) |
JP (1) | JP2023520019A (ja) |
KR (1) | KR20220162718A (ja) |
CN (1) | CN115486097A (ja) |
BR (1) | BR112022019746A2 (ja) |
WO (1) | WO2021198152A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11805380B2 (en) * | 2021-08-31 | 2023-10-31 | Qualcomm Incorporated | Augmented audio for communications |
CN115966213A (zh) * | 2021-10-12 | 2023-04-14 | 华为技术有限公司 | 一种声音处理方法及相关装置 |
WO2023169934A1 (en) * | 2022-03-09 | 2023-09-14 | Dolby International Ab | Methods, apparatus, and systems for processing audio scenes for audio rendering |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018128913A1 (en) * | 2017-01-09 | 2018-07-12 | Microsoft Technology Licensing, Llc | Control of audio effects using volumetric data |
US10251013B2 (en) * | 2017-06-08 | 2019-04-02 | Microsoft Technology Licensing, Llc | Audio propagation in a virtual environment |
US10602298B2 (en) * | 2018-05-15 | 2020-03-24 | Microsoft Technology Licensing, Llc | Directional propagation |
US11070933B1 (en) * | 2019-08-06 | 2021-07-20 | Apple Inc. | Real-time acoustic simulation of edge diffraction |
-
2021
- 2021-03-29 JP JP2022559811A patent/JP2023520019A/ja active Pending
- 2021-03-29 US US17/914,736 patent/US20230188920A1/en active Pending
- 2021-03-29 BR BR112022019746A patent/BR112022019746A2/pt unknown
- 2021-03-29 EP EP21714890.7A patent/EP4128822A1/en active Pending
- 2021-03-29 CN CN202180032211.1A patent/CN115486097A/zh active Pending
- 2021-03-29 KR KR1020227036459A patent/KR20220162718A/ko unknown
- 2021-03-29 WO PCT/EP2021/058105 patent/WO2021198152A1/en active Search and Examination
Also Published As
Publication number | Publication date |
---|---|
BR112022019746A2 (pt) | 2022-11-16 |
CN115486097A (zh) | 2022-12-16 |
WO2021198152A1 (en) | 2021-10-07 |
KR20220162718A (ko) | 2022-12-08 |
EP4128822A1 (en) | 2023-02-08 |
US20230188920A1 (en) | 2023-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023520019A (ja) | グリッド経路発見に基づく回折モデリング | |
US8139780B2 (en) | Using ray tracing for real time audio synthesis | |
US10679407B2 (en) | Methods, systems, and computer readable media for modeling interactive diffuse reflections and higher-order diffraction in virtual environment scenes | |
CN111095952B (zh) | 使用体积音频渲染和脚本化音频细节级别的3d音频渲染 | |
Laine et al. | Accelerated beam tracing algorithm | |
US20150131966A1 (en) | Three-dimensional audio rendering techniques | |
US7248701B2 (en) | Dynamic acoustic rendering | |
US10382881B2 (en) | Audio system and method | |
US20050182608A1 (en) | Audio effect rendering based on graphic polygons | |
Tsingos et al. | Soundtracks for computer animation: sound rendering in dynamic environments with occlusions | |
CN114177613B (zh) | 导航网格更新方法、装置、设备及计算机可读存储介质 | |
KR20150114767A (ko) | 멀티 프레임들의 동일한 영역을 연속으로 렌더링하는 방법 및 장치 | |
US10911885B1 (en) | Augmented reality virtual audio source enhancement | |
JP2005080124A (ja) | リアルタイム音響再現システム | |
JP2023503986A (ja) | 仮想音源を決定するための装置および方法 | |
TWI797587B (zh) | 基於柵格路徑尋找之繞射模型化 | |
CN117581297A (zh) | 音频信号的渲染方法、装置和电子设备 | |
WO2023051703A1 (zh) | 一种音频渲染系统和方法 | |
Cowan et al. | Interactive rate acoustical occlusion/diffraction modeling for 2D virtual environments & games | |
KR20120070824A (ko) | 다각형 중요도에 기반을 둔 교차 검사 가속화 자료 구조 구성 방법 | |
WO2023227544A1 (en) | Methods, apparatus, and systems for early reflection estimation for voxel-based geometry representation(s) | |
Siddiq | Real-time impulse response estimation based on mirrored virtual sound sources | |
WO2023169934A1 (en) | Methods, apparatus, and systems for processing audio scenes for audio rendering | |
KR20240039038A (ko) | 가상 오디오 소스 위치의 결정 | |
Manocha et al. | Interactive Sound Propagation and Rendering for Large Multi-Source Scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240228 |