JP2024525456A - 残響レベルの調整 - Google Patents

残響レベルの調整 Download PDF

Info

Publication number
JP2024525456A
JP2024525456A JP2023580550A JP2023580550A JP2024525456A JP 2024525456 A JP2024525456 A JP 2024525456A JP 2023580550 A JP2023580550 A JP 2023580550A JP 2023580550 A JP2023580550 A JP 2023580550A JP 2024525456 A JP2024525456 A JP 2024525456A
Authority
JP
Japan
Prior art keywords
sound source
reverberation
sound
audio signal
relative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023580550A
Other languages
English (en)
Inventor
ブライン, ワーナー デ
Original Assignee
テレフオンアクチーボラゲット エルエム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エルエム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エルエム エリクソン(パブル)
Publication of JP2024525456A publication Critical patent/JP2024525456A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

音源をレンダリングする方法(1000)が提供される。方法は、音源に対応する入力オーディオ信号を受信する工程(s1002)と、音源のオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信する工程(s1004)とを含む。方法は、(i)音源の第1指向性パターンに関連する相対ゲインと、(ii)音源の第1基準距離に関連する相対ゲインと、(iii)残響ユニットの第1構成に関連する相対ゲインと、(iv)残響音成分の第1制限時間に関連する相対ゲインと、のうちの1つ以上を導出する工程(s1006)とを更に有する。方法は、受信された入力オーディオ信号と、受信された残響パラメータと、上記導出された相対ゲイン(i)~(iv)のうちのいずれか1つ以上とを用いて、調整されたオーディオ信号を生成する工程(s1008)を更に有する。【選択図】 図10

Description

本開示は、残響レベルを調整するための方法および装置に関する。
拡張現実(仮想現実(VR)、拡張現実(AR)、および複合現実(MR)など)オーディオのためのMPEG-Iオーディオ標準は、音響環境における(後期)残響の相対レベルを指定する(仮想または実)音響環境のためのパラメータを定義する。
パラメータは、直接音成分のレベル(例えば、エネルギレベル)(または音源の放出エネルギ)と、音源が音響環境においてレンダリングされるときの音源の(後期)残響のレベルとの間の所望の比の形成を有しうる。パラメータを受信するオーディオレンダラは、リスナーが音響環境内の全ての可能なリスニング位置において、各音源について、レンダリングされたオーディオの直接音成分と残響音成分との間の正しいバランスを受信するよう、音響環境内に配置された音源をレンダリングすることが可能でありうる。オーディオレンダラは、(後期)残響を生成する処理ユニットの(相対)レベルを適切に設定することによって、これを達成することができる。
このパラメータの一例は、所定のタイプの音源(例えば、無指向性点音源)から所定の固定された距離(例えば、1m)において求められる、いわゆる、直接音対残響音エネルギ比(DRR)、あるいはその逆の、残響音対直接音エネルギ比(RDR)である。
この測定値(すなわち、パラメータ)について、ならびに、測定値を求め、測定値を用いてオーディオレンダラを較正して残響ユニットをセットアップするための概念的な方法についての一般的な説明は、後述する追加情報セクション(ISO/IEC JTC1/SC29/WG6 文書番号:M57352、2021年7月)に記載されている。
現状において、以下の課題が存在する。
残響ユニットの構成変更 - 後述の追加情報セクションに開示される、測定値(特定のタイプの音源から特定の固定された位置において求められたRDR)を求め、測定値を用いてオーディオレンダラを較正するための概念的な手順は、原則として、レンダラの残響ユニットのゲインを正しく設定するために(すなわち、較正が、測定値の受信された値によって指定される、直接音成分と残響音成分との間の所望のバランスをもたらすように)1回だけ実行されなければならない。したがって、個々の音源、個々のシーン、および音響環境の少なくともいずれかに対して、残響ユニットのゲインを再較正する必要はない。しかし、これは、例えば、異なるルームインパルス応答をロードすること、新たな残響時間を設定することなど、その入力/出力関係が変化するように残響ユニット自体の構成が変更される場合には当てはまらない。そのような状況においては、残響ユニットのゲインが新たな構成のために再較正される必要がある。
非無指向性音源(non-omnidirectional sources)のレンダリング - 測定値は、特定の固定された音源タイプ、すなわち、無指向性点音源に対して決定されるように定義され、レンダラの残響ユニットのゲインの較正は通常、同じタイプの音源で行われるので、非無指向性および非点状の少なくともいずれかの挙動を有する(すなわち、点音源の1/rの法則に従う距離減衰を有しない)レンダリング音源の場合、全てのリスニング位置での直接音成分と(後期)残響部分との間の正しいバランスを実現できないことがある。
直接音成分と残響音成分の定義の変化 - 後述の追加情報セクションで定義される測定値によれば、直接音成分と残響音成分の時間的境界を設定するためのさまざまな選択肢が可能である。オーサリング側(測定値の値を決定する)とレンダラ側で異なる選択を行うと、最適でない結果になる可能性がある。
距離減衰関数の異なる基準距離を用いた音源のレンダリング - MPEG-I Audio標準では、いわゆる「基準距離(reference distance)」の設定が可能である。「基準距離」は、音源の距離減衰量が1として定義される音源からの距離である。標準規格で指定されたデフォルト値とは異なる値を持つ「基準距離」で音源をレンダリングすると、音源のオーディオの直接音成分と残響音成分との間のバランスが不正確になる可能性がある。
したがって、一側面において、音源をレンダリングする方法が提供される。方法は、音源に対応する入力オーディオ信号を受信する工程と、音源のレンダリングされたオーディオの直接音成分と音源のレンダリングされたオーディオの残響音成分との目標エネルギ比を示す残響パラメータを受信する工程とを有する。方法は、残響ユニットの第1構成に関連する相対ゲインを導出する工程と、ここで、相対ゲインは、残響ユニットの基準構成に対するものであり、受信された入力オーディオ信号と受信された残響パラメータと導出された相対ゲインとを用いて、調整されたオーディオ信号を生成する工程と、を更に有する。
別の側面において、音源をレンダリングする方法が提供される。方法は、音源に対応する入力オーディオ信号を受信する工程と、音源のレンダリングされたオーディオの直接音成分と音源のレンダリングされたオーディオの残響音成分との目標エネルギ比を示す残響パラメータを受信する工程とを有する。方法は、音源の指向性パターンを取得する工程と、取得された指向性パターンに基づいて、音源の相対パワーレベルを導出する工程とを更に有し、ここで、相対パワーレベルは、無指向性音源のパワーレベルに対するものである。方法は、受信された入力オーディオ信号と残響パラメータと導出された相対パワーレベルとを用いて、調整されたオーディオ信号を生成する工程を更に有する。
別の側面において、音源をレンダリングする方法が提供される。方法は、音源に対応する入力オーディオ信号を受信する工程と、音源のレンダリングされたオーディオの直接音成分と音源のレンダリングされたオーディオの残響音成分との目標エネルギ比を示す残響パラメータを受信する工程とを有する。方法は、直接音成分の上限時間を示す第1変数と、残響音成分の下限時間を示す第2変数とを取得する工程と、受信された入力オーディオ信号と残響パラメータと取得された第1変数と取得された第2変数とを用いて、調整されたオーディオ信号を生成する工程とを更に有する。
別の側面において、音源をレンダリングする方法が提供される。方法は、音源に対応する入力オーディオ信号を受信する工程と、音源のレンダリングされたオーディオの直接音成分と音源のレンダリングされたオーディオの残響音成分との目標エネルギ比を示す残響パラメータを受信する工程とを有する。方法は、音源の第1関連基準距離に対応する相対ゲインを導出する工程と、ここで、相対ゲインは、デフォルト基準距離に関するものであり、受信された入力オーディオ信号と受信された残響パラメータと導出された相対ゲインとを用いて、調整されたオーディオ信号を生成する工程とを更に有する。
別の側面において、処理回路によって実行されると処理回路に上述の方法を実行させる命令を含むコンピュータプログラムが提供される。
別の側面において、メモリと、メモリに結合された処理回路とを備える装置が提供され、装置は、上述の方法を実行するように構成される。
別の側面において、音源をレンダリングする方法が提供される。方法は、音源に対応する入力オーディオ信号を受信する工程と、音源のオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信する工程と、(i)音源の第1指向性パターンに関連する相対ゲインと、(ii)音源の第1基準距離に関連する相対ゲインと、(iii)残響ユニットの第1構成に関連する相対ゲインと、(iv)残響音成分の第1制限時間に関連する相対ゲインと、のうちの1つ以上を導出する工程とを有する。方法は、受信された入力オーディオ信号と、受信された残響パラメータと、上記導出された相対ゲイン(i)~(iv)のうちのいずれか1つ以上とを用いて、調整されたオーディオ信号を生成する工程を更に有し、第1指向性パターンに関連する相対ゲインは、基準指向性パターンに関するものであり、第1基準距離に関連する相対ゲインは、デフォルト基準距離に関するものであり、第1構成に関連する相対ゲインは、残響ユニットの基準構成に関するものであり、第1制限時間に関連する相対ゲインは、残響音成分の第2制限時間に関するものである。
別の側面では、音源をレンダリングする方法が提供される。方法は、音源に対応する入力オーディオ信号を受信する工程と、音源のオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信する工程とを有する。方法は、音源の指向性パターンを取得する工程と、取得された指向性パターンに基づいて、音源の相対パワーレベルを導出する工程と、ここで、相対パワーレベルは、無指向性音源のパワーレベルに対するものであり、受信された入力オーディオ信号と残響パラメータと導出された相対パワーレベルとを用いて、調整されたオーディオ信号を生成する工程とを更に有する。
別の側面において、音源をレンダリングする方法が提供される。方法は、音源に対応する入力オーディオ信号を受信する工程と、音源のオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信する工程と、音源の第1関連基準距離に対応する相対ゲインを導出する工程と、受信された入力オーディオ信号と受信された残響パラメータと導出された相対ゲインとを用いて、調整されたオーディオ信号を生成する工程とを有する。
別の側面において、音源をレンダリングする方法が提供される。方法は、音源に対応する入力オーディオ信号を受信する工程と、音源のレンダリングされたオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信する工程と、残響音成分についての下限時間を示す変数を取得する工程と、受信された入力オーディオ信号と残響パラメータと取得された変数とを用いて、調整されたオーディオ信号を生成する工程とを有する。
別の側面において、音源をレンダリングする方法が提供される。方法は、音源に対応する入力オーディオ信号を受信する工程と、音源のレンダリングされたオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信する工程とを有する。方法は、残響ユニットの第1構成に関連する相対ゲインを導出する工程と、ここで、相対ゲインは、残響ユニットの基準構成に対するものであり、前記受信された入力オーディオ信号と受信された残響パラメータと導出された相対ゲインとを用いて、調整されたオーディオ信号を生成する工程とを更に有する。
異なる側面において、処理回路によって実行されると処理回路に上述の実施形態のうちの少なくとも1つによる方法を実行させる命令を含むコンピュータプログラムが提供される。
異なる側面において、処理回路とメモリとを備える装置が提供され、メモリは、処理回路によって実行可能な命令を含み、装置は、上述の実施形態のうちの少なくとも1つによる方法を実行するように動作可能である。
利点
本開示の実施形態によれば、音源のレンダリングされたオーディオの直接音成分と、音源のレンダリングされたオーディオの(後期)残響音成分との間の所望のバランスを提供する効率的な方法が提供される。
上記の利点を達成するために、本開示のいくつかの実施形態は、ユニットの入出力関係を変更する残響ユニットの構成に対する変更がある場合に、オーディオレンダラにおける残響ユニットのための正しい相対ゲインを決定および設定するための便利な方法を提供する。
他の実施形態では、直接音成分と残響音成分との間の取得されたバランスがそのような音源のすべてのリスニング位置において正しいように、非無指向性および非点音源の少なくともいずれかのような音源の残響のレンダリングを適応させるための方法が提供される。
さらなる実施形態では、取得された変数が残響パラメータを修正するために使用され、それによってオーディオレンダラにおいて、調整されたオーディオ信号を生成するように、残響パラメータと、残響音成分の下限を示す関連変数とをオーサリング側から取得するための方法が提供される。
本明細書に組み込まれ、本明細書の一部を形成する添付の図面は、様々な実施形態を示す。
ユーザにレンダリングされるオーディオの成分を示す図。
直接音成分の終了時間と残響音成分の開始時間を示す図。
いくつかの実施形態によるシステムを示す図。
いくつかの実施形態による処理を示す図。
いくつかの実施形態による処理を示す図。
いくつかの実施形態による処理を示す図。
いくつかの実施形態による処理を示す図。
いくつかの実施形態による処理を示す図。
いくつかの実施形態による装置を示す図。
エネルギ減衰曲線を示す図。
いくつかの実施形態による処理を示す図。
いくつかの実施形態による処理を示す図。
いくつかの実施形態による処理を示す図。
いくつかの実施形態による処理を示す図。
いくつかの実施形態による処理を示す図。
図1aは、音源102がどのようにユーザ104にレンダリングされうるかを示す。図1aに示されるように、音源102は、直接音成分112、初期反射音成分114、および後期反射音成分116を介してユーザ104にレンダリングされうる。
上述のように、および後述の追加の情報セクションにおいて、RDR(またはDRR)測定値の定義は、測定値を計算するために使用される直接音成分および残響音成分の時間的境界のための異なる選択を可能にする。時間的境界のための任意のそのような選択で得られる測定値は一般に、「直接音対残響音エネルギ比」と呼ばれうる。例えば、時間的境界のいくつかの選択では、直接音対残響音エネルギ比は、直接音成分112のエネルギと全ての反射音成分114および116のエネルギとの比を指す一方、時間的境界のいくつかの他の選択では、直接音対残響音エネルギ比は、直接音成分112のエネルギとルームインパルス応答の拡散成分のみ(すなわち、後期反射音成分116のみ)のエネルギとの比を指しうる。後者の場合、結果として得られるRDR(またはDRR)測定値は、「直接音対拡散音」エネルギ比と呼ばれうる。時間的境界のさらに他の選択のために、RDR(またはDRR)測定値で使用される残響音成分は、ルームインパルス応答の拡散部分が始まる前に到来する、一部の、しかし全てではない反射音成分を含みうる。簡単な説明のために、用語「直接音対残響音エネルギ比」、「直接音対拡散音エネルギ比」、RDRおよびDRRは、別段の記載がない限り、本開示では同義語として使用され、通常「エネルギ比」と呼ばれる。
したがって、上述のものおよびそれらの逆数を含むエネルギ比の任意の変形が、本開示の実施形態に適用可能である。例えば、後述の追加情報セクションにおける式(1)は、別個のパラメータt1およびt2を有することによって、「エネルギ比」の変化のいずれかの使用に対応し、t1はルームインパルス応答の直接音成分の終端を示し、t2はルームインパルス応答の「残響」部分の開始を示す。パラメータt2は、それが、ルームインパルス応答の非直接音成分の開始、ルームインパルス応答の拡散成分の開始(すなわち、「直接音対拡散音」比定義)、または「残響」成分の何らかの他の選択された開始時間(例えば、非直接音成分の開始とルームインパルス応答の拡散成分の開始との間のいずれかの時間)のいずれかをマークするように選択されうる。図1bには、パラメータt1およびt2が示されている。
t1で示される直接音成分の終端は、直接音成分がインパルス応答の直接音ピークのみを含むように選択されうる。あるいは、直接音成分の終端は、直接音成分が直接音ピークを含むだけでなく、ごく初期の反射も含むように選択されてもよい。直接音成分の終端は、知覚的にこれらのごく初期の反射音成分が直接音成分と一体化するので、いくつかのごく初期の反射を含むように選択されてもよい。直接音成分およびそれらのごく初期の反射音成分は、直接音の方向から1つの音響イベントとして知覚され、ここで、ごく初期の反射音成分は直接音のより高い知覚レベルをもたらす。
本開示の実施形態は、所定のタイプの音源から所定の距離で特定されるRDRを用いて説明されるが、実施形態は、パラメータt1およびt2(拡散音対直接音比など)のための異なる選択から、結果代替の関連する測定値に等しく適用可能である。同様に、本開示の実施形態は、(後述の追加情報セクションの式1に提供される)RDR測定値の分母における直接音エネルギ測定値に対する代替的な測定値、例えば、総放出音源エネルギ(すなわち、残響音/拡散音対放出音源エネルギ比をもたらす)を使用する測定値に適用可能である。言い換えれば、いくつかの実施形態では、RDR(またはDRR、直接音対残響音エネルギ比、直接音対拡散音エネルギ比)の代わりに、音源のオーディオの残響音成分に対する異なるエネルギ比、たとえば、音源によって放出される総エネルギと音源のオーディオの残響音成分に対応するエネルギとの間の比(たとえば、後期反射音成分116に対応するエネルギ、または初期反射音成分114と後期反射音成分116との組合せに対応するエネルギ)が使用されうる。要約すると、実施形態は、音源の、残響音成分と、レンダリングされたオーディオの非残響音成分との間のエネルギ比を示す、指標の「ファミリ」に適用される。
図2は、いくつかの実施形態によるシステム200を示す。システム200は、音源をレンダリングするために使用されうる。システム200は、直接音成分ユニット202と、初期反射音成分ユニット204と、後期反射音成分ユニット206と、コンバイナ208とを備えうる。本開示では、後期反射音成分ユニット206、または、初期反射音成分ユニット204と後期反射音成分ユニット206との組合せのいずれかを、残響ユニットという。同様に、後期反射音成分、または、初期反射音成分と後期反射音成分との組合せを、残響音成分という。
直接音成分ユニット202は、入力オーディオ信号を受信すると、受信された入力オーディオ信号に基づいて直接音成分信号を生成しうる。同様に、初期反射音成分ユニット204は、受信された入力オーディオ信号に基づいて初期反射音成分信号を生成し、後期反射音成分ユニット206は、受信された入力オーディオ信号に基づいて後期反射音成分信号を生成しうる。コンバイナ208は、生成された3つの信号を結合して出力オーディオ信号を得るように構成されうる。いくつかの実施形態では、生成された3つの信号の結合は、生成された3つの信号の重み付け結合でありうる。例えば、soutput=wdirectdirect+wearly-reflectedearly-reflected+wlate-reflectedlate-reflected
残響生成処理のために、残響ユニットにおいて異なる方法および/またはシステムを実装することができる。そのような方法および/またはシステムの例は、遅延ネットワーク(遅延線、フィルタ、およびフィードバック接続を用いて残響処理をシミュレートする)、畳み込みアルゴリズム(記録された、近似された、またはシミュレートされたルームインパルス応答(RIR)を用いてドライ入力信号を畳み込む)、計算音響学(指定されたジオメトリにおける音の伝播をシミュレートする)、および、仮想アナログモデル(以前は残響効果を生成するために使用されていた電気機械または電気デバイス(テープ、プレート、ばね)をシミュレートする)を含む。
以下で説明するいくつかの実施形態は、相対ゲインを用いて音源をレンダリングする方法を対象とする。ここで、相対ゲインとは、残響ユニットに関するゲインである。例えば、相対ゲインは、残響ユニット内で適用されるゲインでありうる。そのような例において、残響ユニット内でゲインを適用することによって、残響ユニットは調整された残響オーディオ信号を生成する。
別の例において、相対ゲインは、残響ユニットに提供される入力オーディオ信号に適用されるゲインでありうる。入力オーディオ信号にゲインを適用することによって、修正された入力オーディオ信号が残響ユニットに提供され、したがって、残響ユニットは、調整された残響オーディオ信号を生成する。異なる例において、相対ゲインは、残響ユニットから出力される出力オーディオ信号に適用されるゲインでありうる。そのような例では、出力オーディオ信号にゲインを適用することによって、調整された残響オーディオ信号が生成される。
以下では、異なる実施形態の各々において、相対ゲインがどのように導出されるかについての詳細に説明する。
1.残響ユニットの構成の変化に対する適応
後述の追加情報セクションのセクション4に記載される、オーディオレンダラを較正するための方法は、オーディオレンダラに含まれる残響ユニットの構成に変更がない限り、オーディオレンダラについて1回だけ実行されればよい。すなわち、1つの(例えば、任意の)音響環境に対して実行される1つの較正手順は、残響ユニットを用いて任意の音響環境内の任意の位置でレンダリングされる音源がRDRパラメータの所与の値によって指定されるように、直接音成分と残響音成分との間の所望のバランスをもたらすように、残響ユニットの相対ゲイン(例えば、エネルギゲイン)を設定するのに十分でありうる。
RDRパラメータの値が変更されるシナリオにおいても、所与のRDRパラメータによって指定されるような直接音成分と残響音成分との所望のバランスを達成するために、(オーディオレンダラに含まれる)残響ユニットの相対ゲインを調整することは簡単である。特に、RDRの値の変化と同じ量だけ残響ユニットの相対ゲインを変化させることにより、所望の結果が得られるであろう。
しかしながら、残響ユニットの入出力関係が変化するように残響ユニットの構成を変更する場合、直接音成分と残響音成分との所望のバランスを達成することは簡単ではない。残響ユニットの入出力関係を変化させるそのような変更の例は、異なるルームインパルス応答(RIR)をロードすること、異なる残響時間(RT、RT60)を設定すること、異なる吸収特性を設定することなどのうちの任意の1つまたは組合せである。
そのような場合、所与の入力オーディオ信号に応答する残響ユニットの出力は一般に、時間的および/またはスペクトル的態様(たとえば、残響応答の時間的長さ、反射の時間的密度、応答の時間的スペクトル形状など)に関して異なることになる。また、残響ユニットの入力-出力関係の変化によって、所与の入力信号に応答した残響ユニットの出力レベルが異なることになり、それによって、変化(直接音成分のレンダリングは変化しないと仮定する)の前と同様に、リスナー位置における直接音成分と残響音成分との比が異なることになる。
前述の問題を解決する1つの方法は、残響ユニットの新たな構成のために、後述の追加情報セクションのセクション4に記載されるように、残響ユニットを較正することである。しかし、これには較正手順を実行するのに時間がかかるという欠点があり、リアルタイムレンダリングアプリケーションにおいて望ましくないか、または受け入れられないことさえある。
残響ユニットが使用する有限セットの構成を有する場合、構成の各々について事前に較正をオフラインで行うことができ、構成の各々についての残響ユニットの対応する結果として生じる相対ゲインを記憶し、取り出し、必要に応じて適用することができる。
利用可能な構成の各々を較正することによって、残響ユニットの構成の各々についての残響ユニットの導出された相対ゲインは、残響ユニットの具体的な構成との入力-出力レベル関係と、他のレンダリングユニット(特に直接音レンダリングユニット)に対する残響ユニットのレベルとの両方を示す。
しかし、各構成について残響ユニットを較正することは厳密には必要ではなく、冗長情報を含む残響ユニットの相対ゲインをもたらす可能性がある。実際、残響ユニットのゲインの必要な補正を導出するために必要とされうる唯一の情報は、所与の入力信号に応答した残響ユニットの出力レベルの変化でありうる。
この関係が純粋に残響ユニットの特性であるので、出力レベルのこの変化はレンダラシステムの他の成分とは完全に独立決定することができる。
したがって、本開示の実施形態によれば、出力レベルの変化を導出するために、図3に示される方法300が使用されうる。
この方法は、工程s302から開始される。工程s302は、残響ユニットが基準構成で動作する場合、基準入力信号に対応する残響ユニットの第1出力レベル(例えば、エネルギレベル)を決定することを含む。
基準入力オーディオ信号は、残響ユニットの入力-出力エネルギレベル関係を決定するのに適した任意のオーディオ信号とすることができる。基準入力音声信号は、例えば定常ホワイトノイズ信号、ディラックパルス(dirac pulse)、正弦波スイープ信号、擬似ランダムノイズ(MLS(Maximum-Length Sequence))信号などである。
再び図3を参照すると、工程s304は、残響ユニットが基準構成とは異なる変更された構成で動作する場合、同じ基準入力信号に対応する残響ユニットの第2出力レベル(例えば、エネルギレベル)を決定することを含む。
工程s306は、第1出力レベルと第2出力レベルとの差を求めることを含む。
工程s308は、求められた差に基づいて、直接音成分と残響音成分との間の所望のバランスを取得することを含む。例えば、所望のバランスは、求められた差を、残響ユニットの元のゲインに対する、追加のゲインまたは減衰として適用することによって得ることができる。
後述の追加情報セクションのセクション4に記載されるように、オーディオレンダラが残響ユニットの基準構成に対して較正されている場合、上記の方法を用いて出力レベルの差が得られると、残響ユニットの相対ゲインを差で単に補償することによって、直接音成分と残響音成分との間の所望のバランスを、異なる構成の各々について取得する(達成する)ことができる。
以下のシナリオは、図3に示される方法300がどのように使用されうるかを示す。
残響ユニットを含むオーディオレンダラが、ルームインパルス応答RIR_Aと、-6dBの値を有する(すなわち、線形エネルギ比スケールで0.25の残響音対直接音エネルギ比を有する)RDRパラメータとを含む残響ユニット構成Aで較正されていると仮定する。
また、新たなシーンに関する情報が受信され、その情報が-10dBの指定された所望のRDR値(すなわち、線形エネルギ比スケールで0.1)を有する音響環境を含むと仮定する。直接音成分と残響音成分との所望の比を達成するために、残響ユニットの相対ゲインは、4dB(エネルギに関して2.5倍、または線形ゲインに関して1.6倍)だけ減少される必要がある。
さらに、構成Aから構成Bへの残響ユニットの構成変更が(シーン情報に含まれるメタデータによって、または他の何らかのトリガによって)トリガされる、すなわち、新たなルームインパルス応答RIR_Bがロードされる、と仮定する。
ここで、構成変更による残響ユニットの出力レベルの変更は、上述の処理を用いて決定され、変更は、例えば、+3dBであると決定される(すなわち、RIR_Bを有する新たな構成はRIR_Aを有する古い構成Aよりも3dB高い出力レベルをもたらす)。これは、直接音部分と残響音部分との正しい比率を維持するために、残響ユニットの相対ゲインを3dB減少させる必要があることを意味する。
あるいは、2つのRIR間で変更する特定の場合、入出力関係の変更は例えば、RIRの二乗を積分し、2つのRIRについて得られたエネルギを比較することによって、RIRのエネルギを計算することから直接導出されてもよい。いくつかの状況では、この方法が各RIRのエネルギが残響ユニットの相対ゲインに対する必要な調整を行うためにオーディオレンダラによって直接使用されうるメタデータとしてRIRとともに記憶されうるので、上述の処理よりも効率的でありうる。
上述の例を再び参照すると、2つの変更(RDRパラメータ値が-10dBのシーンへの変更、およびRIR_AからRIR_Bへの残響ユニットの構成変更)を組み合わせると、全体的にレンダリングされた出力における残響音成分(RDRパラメータの値で指定された)に対する直接音成分の所望の比(RDRパラメータで指定された)を得るために、残響ユニットの相対ゲインは、4+3=7dBだけ減少されるべきである。
構成変更の別の例は、残響ユニットの残響時間(RT60)が変更されるときである。残響ユニットに対してより短いRT60が設定される場合、これは典型的には残響ユニットに対してより低い出力レベルをもたらす(インパルス応答がより少ないエネルギを含むため)。この場合、残響ユニットの出力レベルの変化を求めるために、上記と同じ処理が使用されうる。
しかし、この特定の場合には、変化を求めるためのより単純でより直接的な方法も存在する。統計的音響公式から、線形スケールでは残響音対直接音エネルギ比はRT60に比例することを導出することができる。より具体的には、RT60がオーディオレンダラを較正するために使用されるRT60値と比較して半分にされる場合、結果として生じる残響音対直接音エネルギ比率も線形スケール上で半減(すなわち、デシベルスケールで3dB低減)される。
これは、RT60の変化と、直接音部分と残響音部分との間の正しい比率を得るために必要とされる残響ユニットの相対ゲインの変化との間に直接的な近似関係が存在することを意味する。したがって、この例では、正しいバランスを達成するためには、残響ユニットの相対ゲインが3dB(10・log(2))だけ増加されなければならない。
残響ユニットの他のパラメータの変化とその対応する出力レベルとの間の同様の直接的な関係が存在し、出力レベルの変化を決定するために、図3に示される方法300を使用する代わりに、決定論的関係が代わりに使用されうるように、有利に使用されうる。
RIRおよびRT60が例として使用されるが、構成の変化による出力レベルの変化を決定するための図3に示される方法300は、残響ユニットの構成に対する任意の他のタイプの変化に等しく適用される。
また、上記の例は、残響ユニットの構成に対する2つの分離された変更(RIRおよびRT60)を論じているが、構成間で切り替えるときに、いくつかの同時変更があり得る。そのような場合、図3に示される方法300は、好都合には残響ユニットの出力レベルの全体的な変化に対して1つの値をもたらすように、すべてのそれらの変化の効果を一緒にまとめることができる。
2.無指向性ではない、および/または、点音源ではない音源のレンダリング
RDRパラメータを導出し、RDRパラメータを用いてオーディオレンダラを較正するための、後述の追加情報セクションで説明するRDRパラメータおよび方法は、音源は、無指向性点音源、すなわち、全方向に均等に音を放射し、距離に反比例する距離減衰関数(例えば、f(r)=1/r)を有する音源、である、という仮定に基づいて決定される。
レンダリングされる音源が無指向性点音源のこれらの特性を有する場合、較正されたオーディオレンダラは、任意の音響環境における音源の位置とリスナー位置との任意の組合せに対して、オーディオの直接音部分とオーディオの残響音部分との間の正しいバランスを有するオーディオを生成する(残響ユニットの構成が上述のように変更されない限り)。
しかし、VRおよびARシステムでレンダリングされる多くの音源は、無指向点音源の特性を有していない。より具体的には、VRおよびARシステムにおいてレンダリングされる多くの音源は、(例えば、音源に付随するメタデータにおいて指定される)定義された非無指向性放射パターンを有する。このような音源を特別な測定値なしでレンダリングすると、オーディオの直接音部分と、一部の(またはすべての)リスニング位置でのオーディオの残響音部分との間の正しいバランスが得られない場合がある。
リアルワールドの状況においては、等しい音源振幅(またはオーディオレンダリングシステムに関して等しい音源信号レベル)を有し、同じ室内の同じ位置に配置される無指向性音源および指向性音源がある場合、音源の各々についてリスナー位置において知覚される直接音部分のレベルは、単にリスナー位置の方向における音源の各々のそれぞれの指向性パターンの値を見ることによって容易に決定されうる。
無指向性音源の場合、音源の指向性パターンの値は、全ての方向において1であると仮定され、一方、指向性音源の場合、音源の指向性パターンの値は、任意の方向において0と1との間の値を有すると仮定されうる(指向性パターンを定義および/または正規化するための異なる慣例が本開示の実施形態において使用されうる)。
任意の音源に対する音の(後期)残響成分のレベルは、音源が位置する部屋全体にわたって本質的に一定であり、音源の総放射パワーによって決定される。これは、指向性パターンが1に正規化された指向性音源は同じ音源振幅を有する正規化無指向性音源の総放射パワーと比較して、総放射パワーが低く、室内の残響が低くなることを意味する。より一般的に言えば(すなわち、1に正規化された指向性パターンに限定されない場合)、指向性音源は一般に、同じ音源振幅を有する無指向性音源と比較して、室内で異なるレベルの残響を生成する。
VRオーディオレンダリングシステムに、等しい音源信号レベルを有する無指向性音源および指向性音源がある場合(例えば、同じオーディオ入力信号が2つの音源の各々に送信される)、オーディオの直接音成分のレンダリングは、両方のタイプの音源に対して比較的簡単である。さらに、指向性音源の直接音成分のレンダリングは、リスナーの方向における指向性パターンの値によるオーディオ入力信号の振幅の単純なスケーリングを用いて達成されうる。
しかし、指向性音源の残響音成分の正確なレンダリングには、より注意深い処理を必要とする。後述の追加情報セクションで説明するRDRパラメータ、RDRパラメータを決定する方法、およびオーディオレンダラを較正する方法はすべて、音源が無指向性音源(および/または点音源)であるという仮定に基づいているので、指向性音源(および/または非点音源)の残響音成分は、(直接音成分に対する)適切な相対レベルでレンダリングされないことがある。
より具体的には、残響ユニットの相対ゲインが音源が無指向性音源(および/または点音源)であると仮定する較正手順に従って設定されるので、残響ユニットが無指向性音源(および/または点音源)の第1入力信号と、両方が同じ信号レベルを有する指向性音源(および/または非点音源)の第2入力信号とを供給される場合、残響ユニットは両方について同じ残響出力レベルを生成し、一方、出力レベルは2つの音源の異なる音源パワーを反映するように異なるべきである。
したがって、本開示のいくつかの実施形態では、指向性音源(および/または非点音源)の残響の相対レベルを補正するために、入力信号レベルがより低いまたは異なる音源パワーを有する指向性音源(および/または非点音源)に対応するという事実を考慮するために、指向性音源(および/または非点音源)の信号の残響ユニットの入力ゲインが修正されうる(すなわち、残響ユニットに入る入力オーディオ信号の信号レベルが変更されうる)。
無指向性音源(および/または点音源)に対する指向性音源(および/または非点音源)の相対音源パワーは、指向性音源(および/または非点音源)の指向性パターンから決定されうる。例えば、相対音源パワーは、指向性音源(例えば、それに付随する指向性メタデータにおいて指定されるような)の指向性パターン(パワーの単位で表現される)を単位球にわたって積分し、取得された音源パワーを、同じ方法で決定された無指向性音源の音源パワーで正規化することによって決定されうる。
したがって、指向性音源の指向性パターンが線形音源振幅pに関して指定される場合、(無指向性音源に対する)指向性音源の相対音源パワーは、単位球にわたって平均化された振幅pの二乗に等しいかまたは比例しうる。すなわち、相対音源パワー(relative source power)= ̄p2、である。
(無指向性音源および/または点音源と比較して)指向性音源(および/または非点音源)の取得された相対音源パワーを用いて、調整されたオーディオ信号260(図2に示される)を生成するための相対ゲインが生成されうる。相対ゲインを用いて調整されたオーディオ信号260を生成するための様々な方法がありうる。一実施形態において、相対ゲインを用いて、後期反射音成分ユニット206に提供される、指向性音源に対応する入力オーディオ信号256のレベルを調整し、それによって、調整されたオーディオ信号260を生成することができる。別の実施形態においては、相対ゲインを用いて、後期反射音成分ユニット206から出力される信号のレベルを調整し、それによって、調整されたオーディオ信号260を生成することができる。様々な実施形態において、相対ゲインは、調整されたオーディオ信号260をユニットが生成するように、後期反射音成分ユニット206の構成を調整するために使用されうる。
例えば、指向性音源の指向性パターンの平均化が指向性音源の相対パワーが無指向性点音源のパワーの半分であることを示す場合、残響ユニットに入る指向性音源の入力信号のレベルは3dB低減されるべきである。
非無指向性音源の上述の補正方法は、非点状の距離減衰挙動を有する、すなわち点音源の1/r距離則に従わない音源にも使用することができる。そのような音源の例は(1/sqrtの)距離減衰曲線を有する)線音源、面音源、または一般には体積音源である。米国特許出願第17/344,632号は、様々な次元における音源のサイズの関数として、これら全てのタイプの音源の距離減衰挙動を導出するためのモデルを開示している。これらの文献はこの引用により本明細書に組み込まれる。
無指向性音源でも点音源でもないリアルワールド(すなわち、非理想的)音源を用いてリアルワールド環境においてRDRパラメータの値が導出されなければならない場合がある拡張現実シナリオでは、指向性パターンおよび/または非点源挙動に対する上記の補正が、測定値から導出されるRDR値を補正するためにも適用され得る(後述の追加情報セクションのセクション3の脚注で、既定のものとは異なる測定距離に対する同様の補正を既に示唆している)。コンテンツオーサリング側において、RDRパラメータの値が規定された距離における無指向性点源を用いて得られなかったルームインパルス応答から導出されるユースケースにも、同じことが当てはまる。指向性パターン、測定距離、及び距離減衰関数が既知である限り、これらの全てを補正することができる。
3.オーディオレンダラに対する時間変数の提供
後述の追加情報セクションにおける式1は、2つの時間変数t1およびt2(図1bに示される)を含む。t1は直接音エネルギ成分112(分母)の積分上限(終了時間)を表し、t2は残響音エネルギ成分114または114と116の結合(分子)の積分下限(開始時間)を表す。図1bは、t1とt2が異なる値を有することを示しているが、それらは同じ値を有し得る。
異なるレンダラ実装形態は、拡散残響(または後期残響)の残響音成分および残響の初期反射音成分の生成およびレンダリングを異なるように分配することができる。例えば、一実装形態では、残響ユニットが残響の拡散音成分のみを生成し、別のユニットが残響の初期反射音成分を生成する。一方、別の実装形態では、残響ユニットがこれらの成分の両方を生成することができる。さらに他の実装形態では、レンダリングされた音源の音の残響部分の生成およびレンダリング(すなわち、直接音成分を除くすべてのもの)は、例えば、異なる数の処理ユニットにわたって、またはユニット間の異なる「ハンドオーバ」時間を用いて、異なる方法で分割されうる。これらの異なる実装形態は、後述の追加情報セクションの式1のパラメータt1およびt2を選択することによって適応されうる。
例えば、残響ユニットがすべての残響音を生成する場合、t1の値は直接音成分が終了する時間であってもよく、t2はt1に等しくてもよい(したがって、それらは時間的に接続される)。しかし、直接音成分がまた、いくつかのきわめて初期の反射を含む別の場合においては、(これらは実際の直接音成分と知覚的には統合されるので)t1の値が第1のケースよりも少し大きくてもよく、一方、t2は依然としてt1に等しい。さらに、残響ユニットが残響の拡散部分のみを生成する別のケースでは、t2の値が2つの間隔が時間的に接続しないように、t1よりも大きくてもよい。
(RDR測度の値が決定される)オーサリング側で選択されたパラメータt1およびt2の値が、レンダラ側で選択されたパラメータt1およびt2の値のいずれかまたは両方と異なる場合(直接音成分と残響音成分のバランスがRDRの受信値と一致するように設定される場合)、レンダラによって生成された直接音成分と残響音成分のバランスはクリエイター(例えば、音源を含む拡張現実(XR)シーンを作成したシーンクリエイター)によって意図されたバランスと完全には一致しない場合がある。
したがって、レンダラ側のパラメータt1およびt2の値は、オーサリング側で選択されたパラメータt1およびt2の値と同じになるように選択することが望ましい。したがって、本開示のいくつかの実施形態では、オーサリング側で選択されたパラメータt1および/またはt2の値がRDRパラメータとともにレンダラに送信される。オーサリング側で選択されたパラメータt1および/またはt2を受信することによって、レンダラはそのパラメータt1および/またはt2を、受信されたパラメータと同じに設定することができ、それによって、作成者によって意図されたバランスを生成する。
あるいは、レンダラは、オーサリング側で選択されたパラメータt1および/またはt2の異なる値と、レンダラ側で選択されたパラメータt1および/またはt2の値とを考慮するように、受信されたRDR(または上述した任意の他のエネルギ比)パラメータを修正し、修正されたRDRパラメータを用いて、作成者によって意図された直接音成分と残響音成分との間のバランスを生成するようにしてもよい。例えば、残響ユニットの相対ゲインは、RDRパラメータの値の変化と同じ量だけ変化させることができる。
具体的には、オーサリング側とレンダラ側との間のパラメータt2の異なる値を考慮するための修正が残響音の拡散場近似に基づくことができる。対数(dB)スケールでは、完全拡散音場のいわゆるエネルギ減衰曲線が-60/RT60(dB/s)の傾きを有する直線である(図9参照)。これは、拡散音場において、それぞれt2_1およびt2_2のパラメータt2の値で決定されるRDR値(dBで表される)間の差が次式で表されることを示している。
Figure 2024525456000002
ここで、RDRパラメータの値は、t2_1とt2_2の最小値の方が高くなる。ここで、それぞれレンダラおよび受信されたRDRパラメータに対応するt2パラメータの値であるようにt2_1およびt2_2を定義する場合、受信されたRDRパラメータ(dBで表される)は次式で表されるように、パラメータt2の異なる値を補正するように修正されうる。
Figure 2024525456000003
受信されたRDRパラメータのパラメータt2=t2_2がレンダラのパラメータt2=t2_1よりも大きい場合、修正の結果は受信されたRDR値が増加されることであり、一方、t2_2がt2_1よりも小さい場合には減少される。RDRが上記で使用される対数dBスケールではなく線形エネルギスケールで表される場合、式2は、受信されたRDRに補正係数を乗算する形態をとることに留意されたい。
説明されるように、受信されたRDRパラメータに対応するパラメータt2の値t2_2は、XRシーンのための追加のメタデータとしてレンダラによって受信されうる。あるいは、それは任意の他の方法で、例えば、受信されたRDR値が特定の定義に従って決定されたことが知られているという事実から暗黙的に(例えば、XRシーンが特定の既知の、例えば、標準化されたフォーマットであるので)取得されうる。この一例として、MPEG-Iエンコーダ入力フォーマット[ISO/IEC JTC1/SC29/WG6 文書番号N0054:“MPEG-I Immersive Audio Encoder input Format”]は、パラメータt2の値が音響環境の最長寸法に関連する音響飛行時間の4倍に等しいことを規定する。したがって、後者の例では、受信されたXRコンテンツがMPEG-I標準に従って符号化されているという事実から、レンダラは受信されたRDRパラメータに関連するパラメータt2の値をそれ自体で決定することができる。受信されたRDRパラメータに関連するパラメータt2が既知の固定値を有する場合(例えば、XRシーンがフォーマットされた規格がt2パラメータの固定値を規定するため)、受信されたRDRパラメータに関連するパラメータt2の値は、受信されたRDRパラメータに対する修正を計算するためにレンダラによって使用される式において「ベーク(baked in)」さえされうる。
上述のように、いくつかの実施形態では、残響ユニットの相対ゲインは、RDRパラメータの値の変化と同じ量だけ変更されうる。変更された相対ゲインが得られると、変更された相対ゲイン(以下、「相対ゲイン」)を用いて、調整されたオーディオ信号260を生成することができる。一実施形態では、受信されたRDR値を有する音源に対応する入力オーディオ信号256のレベルを調整するために、相対ゲインが使用され、それによって、調整されたオーディオ信号260を生成する。別の実施形態では、相対ゲインを用いて、後期反射音成分ユニット206から出力される信号のレベルを調整し、それによって、調整されたオーディオ信号260を生成することができる。様々な実施形態では、ユニットが調整されたオーディオ信号260を生成するように、後期反射音成分ユニット206の構成を調整するために相対ゲインが使用されうる。
4.距離減衰関数のための異なる基準距離を有する音源のレンダリング
現在開発されているMPEG-Iオーディオ規格は、音源の距離減衰が1であるべき音源からの距離を指定する、音源のいわゆる「基準距離」属性("refDistance")を設定することを可能にする。これは、とりわけ、シーンをレンダリングする異なるレンダラ間のある程度のレベル位置合わせを可能にする、音源の距離減衰関数の正規化として見ることができる。この属性のデフォルト値は1mであるが、コンテンツ作成者は必要に応じて音源の別の値を自由に選択できる。
音源の基準距離属性をデフォルト値とは異なる値に設定すると、音源の距離減衰関数は、デフォルト値が使用されるときとは異なる距離で1になるという事実が生じる。これはまた、一般に、音源のレンダリングされた直接音レベルがデフォルト値が使用される場合と比較して異なるという事実をもたらす(これは、実際には音源のために異なる値を設定するときのコンテンツ作成者の意図でありうる)。
一般に、音源の基準距離属性をデフォルトのRD_defではなく値RDに設定すると、RDおよびRD_defの関数である係数によって、音源の直接音のレンダリングされたレベルが、デフォルト値の対応するレベルと比較されて変更する。上述のように、これは、実際にはコンテンツ作成者の意図でありうる。
具体的には、点音源の基準距離属性をデフォルトのRD_defではなく値RDに設定すると、音源の直接音のレンダリングレベルがデフォルト値の対応するレベルと比較してRD/RD_defの係数だけ変更する。
例えば、点音源が、デフォルトの1mの代わりに2mの基準距離値を有する場合、音源のレンダリングされた直接音レベルは、同じ音源信号レベルを有するがデフォルトの基準距離値を有する同一の音源と比較して、どこでも2(2m/1m)(すなわち、6dB)の係数だけ効果的に上げられる。同様に、音源の基準距離が0.5の場合、そのレンダリングされた直接音レベルは、デフォルト値の1mが使用された場合よりも、どこでも6dB低くなる。
しかし、レンダラのRDR測度および較正はおそらく、基準距離のデフォルト値を有する無指向性点音源について決定されるので、基準距離の値を有する音源を、デフォルト値とは異なる値でレンダリングすることは、その音源の直接音成分と残響音成分との間の不正確なバランスをもたらしうる。なぜなら、直接音のレンダリングされたレベルは、デフォルトではない基準距離のために音源に対して変更されるが、音源の信号レベル(すなわち、音源に対して提供される信号のレベル)は変更されず、この信号は音源に対する残響成分を生成するために残響ユニットに提供される。
したがって、点音源の基準距離がデフォルトの1mの代わりに2mである例では、音源の直接音成分のレンダリングされたレベルが2倍(6dB)だけ上げられ、残響成分のレンダリングされたレベルは音源が基準距離のためのデフォルト値を有するのであろうときと同じである。したがって、残響のレベルは低すぎる、すなわち、RDRパラメータによって指定されるような直接音のレベルに対する正確なバランスを有しない。
したがって、いくつかの実施形態では、非デフォルト基準距離およびデフォルト基準距離の関数(たとえば、非デフォルト基準距離とデフォルト基準距離との間の比)に基づいて、調整されたオーディオ信号260(図2に示す)を生成するための相対ゲインが生成されうる。相対ゲインを用いて調整されたオーディオ信号260を生成するための様々な方法がありうる。一実施形態では、相対ゲインを用いて、後期反射音成分ユニット206に提供されるデフォルト値とは異なる基準距離の値を有する音源に対応する入力オーディオ信号256のレベルを調整し、それによって調整されたオーディオ信号260を生成することができる。別の実施形態では、相対ゲインを用いて、後期反射音成分ユニット206から出力される信号のレベルを調整し、それによって、調整されたオーディオ信号260を生成することができる。様々な実施形態では、ユニットが調整されたオーディオ信号260を生成するように、後期反射音成分ユニット206の構成を調整するために相対ゲインが使用されうる。
具体的には、残響ユニットに入る音源の入力信号レベルが音源の残響ユニットによって生成される残響音成分が直接音成分に対する正しいエネルギバランスを再び有するように調整されうる。例えば、点音源の場合、残響ユニットに入る音源の入力信号レベルは、RD/RD_def(線形スケール上)、または、dBスケール上で、20log10(RD/RD_def)の係数によって、調整されうる。
より一般的には、相対ゲインは、基準距離の特定の値をデフォルト値の代わりに使用することに起因する、音源に対する直接音成分のレベルの変化を補償する。直接音成分のレベルのこの変化は、デフォルトおよび特定の基準距離における音源に関連する距離減衰関数を評価し、差(ゲインが対数(dB)スケールで表される場合)または比(ゲインが線形スケールで表される場合)を計算することによって決定されうる。
例えば、1/r(ここでrは距離)に比例する距離減衰関数を有する点音源の場合、距離減衰関数の値は、デフォルトの基準距離値を使用する場合は1/RD_defであり、特定の基準距離値を使用する場合は1/RDである。したがって、これらの2つの値の比は、上述のように、点音源が残響ユニットに入るための入力信号レベルに適用されるべき相対ゲイン係数RD/RD_defをもたらす。
非点音源、すなわち、点源ではなく、および/または点音源の1/r関数とは異なる関連する距離減衰関数を有する音源の場合、非点音源に関連する特定の距離減衰関数を用いて、相対ゲイン係数を決定するための同じアプローチが使用されうる。
例えば、音源が1/sqrt(r)に比例する関連する距離減衰関数を有する無限に長い線音源である場合、相対ゲイン係数は、sqrt(RD/RD_def)として求められうる。別の例では、音源が一定の距離減衰関数を有する無限に大きい面音源である(すなわち、直接音成分のレベルが距離とともに変化しない)場合、RDおよびRD_defの値にかかわらず、相対ゲイン係数は1になる。
最も一般的な場合において、音源の距離減衰関数をDAFとすると、相対ゲイン係数は、DAF(RD_def)/DAF(RD)で求められる。米国特許出願第17/344,632号には、音源の距離減衰関数を、異なる次元における音源のサイズの関数として導出するためのモデルが開示されている。これらの文献は、引用により本明細書に組み込まれる。
図4は、本開示のいくつかの実施形態による、音源をレンダリングするための処理400を示す。処理400は、工程s402で開始されうる。
工程s402は、音源に対応する入力オーディオ信号を受信することを含む。
工程s404は、音源のレンダリングされたオーディオの直接音成分と音源のレンダリングされたオーディオの残響音成分との間の目標エネルギ比を示す残響パラメータを受信することを含む。
工程s406は、残響ユニットの第1構成に関連する相対ゲインを導出することを含む。相対ゲインは、残響ユニットの基準構成に対するものである。
工程s408は、受信された入力オーディオ信号と受信された残響パラメータと導出された相対ゲインとを用いて、調整されたオーディオ信号を生成することを含む。
いくつかの実施形態では、相対ゲインは、(i)基準構成に関連する残響ユニットの基準出力と、(ii)第1構成に関連する残響ユニットの第1出力との間の差に対応する。
いくつかの実施形態では、相対ゲインを導出することは、残響ユニットが基準構成により構成されている場合、基準入力オーディオ信号に対する残響ユニットの基準出力レベルを求めることと、残響ユニットが第1構成により構成されている場合、基準入力オーディオ信号に対する残響ユニットの第1出力レベルを求めることとを含む。更に、相対ゲインを導出することは、基準出力レベルと第1出力レベルとの間の差を計算することと、基準出力レベルと第1出力レベルとの間の計算された差に基づいて相対ゲインを導出することとを含む。いくつかの実施形態では、差は対数(dB)スケールを用いて表されうる。しかし、他の実施形態では、差は線形スケールを用いて表されてもよい。そのような実施形態では、差は基準出力レベルと第1出力レベルとの間の比に等しくてもよい。
いくつかの実施形態では、残響パラメータは、音源からの特定の距離における目標エネルギ比を示す。
いくつかの実施形態では、残響パラメータは、特定のタイプの音源に対する目標エネルギ比を示し、特定のタイプの音源は、点音源である無指向性音源である。
いくつかの実施形態では、基準構成は、音源から特定の距離において目標エネルギ比が得られるように、残響ユニットの出力レベルを較正するために使用される構成である。
いくつかの実施形態では、基準構成は、リファレンスルームインパルス応答と、基準残響時間設定と、基準周波数応答データと、基準吸収データとのうちのいずれか1つまたはそれらの組合せである。
図5は、本開示のいくつかの実施形態による、音源をレンダリングするための処理500を示す。処理500は、工程s502で開始されうる。
工程s502は、音源に対応する入力オーディオ信号を受信することを含む。
工程s504は、音源のレンダリングされたオーディオの直接音成分と音源のレンダリングされたオーディオの残響音成分との間の目標エネルギ比を示す残響パラメータを受信することを含む。
工程s506は、音源の指向性パターンを取得することを含む。
工程s508は、取得された指向性パターンに基づいて音源の相対パワーレベルを導出することを含む。相対パワーレベルは、無指向性音源のパワーレベルに対するものである。
工程s510は、受信された入力オーディオ信号と、残響パラメータと、導出された相対パワーレベルとを用いて、調整されたオーディオ信号を生成することを含む。
いくつかの実施形態では、音源は、非無指向性音源と、非点音源とのうちの少なくともいずれかである。
いくつかの実施形態では、指向性パターンは、音源の周囲の複数の方向のそれぞれにおいて音源によって放射される音の振幅またはパワーを示す。
いくつかの実施形態では、Piを、複数の方向に含まれる特定の方向に向かって音源によって放射された音のパワーとし、mを、上記複数の方向の数、とするとき、相対パワーレベルは、
Figure 2024525456000004
に基づいて計算される。
図6は、本開示のいくつかの実施形態による、音源をレンダリングするための処理600を示す。処理600は、工程s602で開始することができる。
工程s602は、音源に対応する入力オーディオ信号を受信することを含む。
工程s604は、音源のレンダリングされたオーディオの直接音成分と音源のレンダリングされたオーディオの残響音成分との間の目標エネルギ比を示す残響パラメータを受信することを含む。
工程s606は、直接音成分の上限時間を示す第1変数および残響音成分の下限時間を示す第2変数のうちの少なくともいずれかを取得することを含む。
工程s608は、受信された入力オーディオ信号と、残響パラメータと、取得された第1変数と、取得された第2変数とのうちの少なくともいずれかを用いて、調整されたオーディオ信号を生成することを含む。
いくつかの実施形態において、t1を第1変数、t2を第2変数、p(t)を時刻tにおける音響環境のルームインパルス応答の振幅とするとき、残響パラメータは、
Figure 2024525456000005
に基づいて計算される。
いくつかの実施形態では、方法は、受信された残響パラメータと、取得された第1変数および第2変数の少なくともいずれかとを用いて、修正された残響パラメータを計算することを更に含む。調整されたオーディオ信号は、受信された入力オーディオ信号および修正された残響パラメータを用いて生成される。
図7は、本開示のいくつかの実施形態による、音源をレンダリングするための処理700を示す。処理700は、工程s702で開始することができる。
工程s702は、音源に対応する入力オーディオ信号を受信することを含む。
工程s704は、音源のレンダリングされたオーディオの直接音成分と、音源のレンダリングされたオーディオの残響音成分との間の目標エネルギ比を示す残響パラメータを受信することを含む。
工程s706は、音源の第1関連基準距離に対応する相対ゲインを導出することを含み、相対ゲインは、デフォルト基準距離に対するものである。
工程s708は、受信された入力オーディオ信号と、受信された残響パラメータと、導出された相対ゲインとを用いて、調整されたオーディオ信号を生成することを含む。
いくつかの実施形態において、方法は、音源の第1関連基準距離を取得することを更に含む。第1関連基準距離は、音源に関連する距離減衰関数が1の値を有するときの音源からの距離を示す。相対ゲインは、第1関連基準距離とデフォルト基準距離との関数に基づいて導出される。
いくつかの実施形態では、相対ゲインは、第1関連基準距離とデフォルト基準距離との比に基づいて導出される。
図10は、音源をレンダリングする処理1000を示す。処理1000は、工程s1002から開始されうる。工程s1002は、音源に対応する入力オーディオ信号を受信することを含む。工程s1004は、音源のオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信することを含む。工程s1006は、(i)音源の第1指向性パターンに関連付けられた相対ゲインと、(ii)音源の第1基準距離に関連付けられた相対ゲインと、(iii)残響ユニットの第1構成に関連付けられた相対ゲインと、(iv)残響音成分の第1制限時間に関連付けられた相対ゲインとのうちの1つ以上を導出することを含む。工程s1008は、受信された入力オーディオ信号と、受信された残響パラメータと、上記の導出された相対ゲイン(i)~(iv)のうちのいずれか1つ以上とを用いて、調整されたオーディオ信号を生成することを含む。第1指向性パターンに関連付けられた相対ゲインは、基準指向性パターンに対するものであり、第1基準距離に関連付けられた相対ゲインは、デフォルト基準距離に対するものであり、第1構成に関連付けられた相対ゲインは、残響ユニットの基準構成に対するものであり、第1制限時間に関連付けられた相対ゲインは、残響音成分に対する第2制限時間に対するものである。
いくつかの実施形態では、目標エネルギ比は、音源のオーディオの直接音成分と音源のオーディオの残響音成分との間の目標エネルギ比である。
いくつかの実施形態では、目標エネルギ比は、音源によって放出される総エネルギと音源のオーディオの残響音成分に対応するエネルギとの目標エネルギ比である。
いくつかの実施形態では、調整されたオーディオ信号を生成することは、導出された相対ゲイン(i)~(iv)のうちの1つ以上に基づいて入力オーディオ信号を修正することと、残響ユニットが導出された相対ゲイン(i)~(iv)のうちの1つ以上に基づいて調整されたオーディオ信号を生成するように、残響ユニットの1つ以上の構成を修正することと、導出された相対ゲイン(i)~(iv)のうちの1つ以上に基づいて、残響ユニットからの出力信号を修正することと、のうちのいずれか1つまたは組合せを含む。
いくつかの実施形態では、第1指向性パターンは、非無指向性音源の指向性パターンと非点音源の指向性パターンとのうちの少なくともいずれかであり、基準指向性パターンは、無指向性音源の指向性パターンと点音源の指向性パターンとのうちの少なくともいずれかである。
いくつかの実施形態では、第1指向性パターンは、音源の周囲の複数の方向のそれぞれにおいて音源によって放射される音の振幅またはパワーを示す。
いくつかの実施形態では、Piを、上記複数の方向に含まれる特定の方向に向かって前記音源によって放射された音のパワー、mを、上記複数の方向の数、とするとき、音源の第1指向性パターンに関連する相対ゲインは、
Figure 2024525456000006
に基づいて計算される。
いくつかの実施形態では、第1基準距離は、音源の距離減衰関数は1の値を有するときの音源からの距離を示し、音源の第1基準距離に関連する相対ゲインは、第1基準距離およびデフォルト基準距離の関数に基づいて導出される。
いくつかの実施形態では、音源の第1基準距離に関連する相対ゲインは、第1基準距離とデフォルト基準距離との比に基づいて導出される。
いくつかの実施形態では、音源は、非無指向性音源および非点音源の少なくともいずれかである。
いくつかの実施形態では、第1制限時間は、受信された残響パラメータに関連付けられている。
いくつかの実施形態では、第1制限時間に関連する相対ゲインは、(i)残響音成分に関連する残響時間と、(ii)第1制限時間と第2制限時間との間の差または比、との少なくともいずれかに基づいて決定される。
いくつかの実施形態では、方法は、受信された残響パラメータと、第1制限時間に関連付けられた相対ゲインとに基づいて、更新された残響パラメータを計算することを更に有し、調整されたオーディオ信号は、更新された残響パラメータに基づいて生成される。
いくつかの実施形態では、第1構成に関連する相対ゲインは、第1構成に関連する残響ユニットの第1出力と、基準構成に関連する残響ユニットの基準出力との間の差または比に対応する。
いくつかの実施形態では、残響パラメータは、音源からの特定の距離における目標エネルギ比を示す。
いくつかの実施形態では、残響パラメータは、特定のタイプの音源に対する目標エネルギ比を示し、特定のタイプの音源は、点音源である無指向性音源である。
いくつかの実施形態では、基準構成は、音源から特定の距離において目標エネルギ比が得られるように、残響ユニットの出力レベルを較正するために使用される構成である。
いくつかの実施形態では、基準構成は、リファレンスルームインパルス応答と、基準残響時間設定と、基準周波数応答データと、基準吸収データとのうちのいずれか1つまたはそれらの組合せに関連する構成である。
図11は、音源をレンダリングする処理1100を示す。処理1100は、工程s1102から開始されうる。工程s1102は、音源に対応する入力オーディオ信号を受信することを含む。工程s1104は、音源のオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信することを含む。工程s1106は、音源の指向性パターンを取得することを含む。工程s1108は、取得された指向性パターンに基づいて音源の相対パワーレベルを導出することを含み、相対パワーレベルは、無指向性音源のパワーレベルに対するものである。工程s1110は、受信された入力オーディオ信号と、残響パラメータと、導出された相対パワーレベルとを用いて、調整されたオーディオ信号を生成することを含む。
いくつかの実施形態では、目標エネルギ比は、音源のオーディオの直接音成分と音源のオーディオの残響音成分との間にある。
いくつかの実施形態では、音源は、非無指向性音源および非点音源の少なくともいずれかである。
いくつかの実施形態では、指向性パターンは、音源の周囲の複数の方向のそれぞれにおいて音源によって放射された音の振幅またはマグニチュードを示す。
いくつかの実施形態では、Piを、特定の方向に向かって音源によって放射された音のマグニチュード、mを、上記複数の方向の数、とするとき、相対パワーレベルは、
Figure 2024525456000007
に基づいて計算される。
いくつかの実施形態では、Aiを、上記特定の方向に向かって音源によって放射された音のマグニチュードとすると、Pi=Ai 2である。
図12は、音源をレンダリングする処理1200を示す。処理1200は、工程s1202から開始されうる。工程s1202は、音源に対応する入力オーディオ信号を受信することを含む。工程s1204は、音源のオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信することを含む。工程s1206は、音源の第1関連基準距離に対応する相対ゲインを導出することを含む。工程s1208は、受信された入力オーディオ信号と、受信された残響パラメータと、導出された相対ゲインとを用いて、調整されたオーディオ信号を生成することを含む。
いくつかの実施形態では、相対ゲインは、デフォルト基準距離に関連するものである。
いくつかの実施形態では、方法は、音源の第1関連基準距離を取得することを更に有し、第1関連基準距離は、音源に関連する距離減衰関数が1の値を有するときの音源からの距離を示し、相対ゲインは、第1関連基準距離とデフォルト基準距離との関数に基づいて導出される。
いくつかの実施形態では、相対ゲインは、第1関連基準距離とデフォルト基準距離との比に基づいて導出される。
図13は、音源をレンダリングする処理1300を示す。処理1300は、工程s1302から開始されうる。工程s1302は、音源に対応する入力オーディオ信号を受信することを含む。工程s1304は、音源のレンダリングされたオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信することを含む。工程s1306は、残響音成分の下限時間を示す変数を取得することを含む。工程s1308は、受信された入力オーディオ信号と、残響パラメータと、取得された変数とを用いて、調整されたオーディオ信号を生成することを含む。
いくつかの実施形態では、方法は、受信された残響パラメータと取得された変数とを用いて、修正された残響パラメータを計算することを更に有し、調整されたオーディオ信号は、受信された入力オーディオ信号と修正された残響パラメータとを用いて生成される。
図14は、音源をレンダリングする処理1400を示す。処理1400は、工程s1402から開始されうる。工程s1402は、音源に対応する入力オーディオ信号を受信することを含む。工程s1404は、音源のレンダリングされたオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信することを含む。工程s1406は、残響ユニットの第1構成に関連する相対ゲインを導出することを含み、相対ゲインは、残響ユニットの基準構成に対するものである。工程s1408は、受信された入力オーディオ信号と、受信された残響パラメータと、導出された相対ゲインとを用いて、調整されたオーディオ信号を生成することを含む。
いくつかの実施形態では、相対ゲインは、(i)基準構成に関連付けられた残響ユニットの基準出力と、(ii)第1構成に関連付けられた残響ユニットの第1出力と、の間の差に対応する。
いくつかの実施形態では、相対ゲインを導出することは、残響ユニットが基準構成により構成されている場合、基準入力オーディオ信号に対する残響ユニットの基準出力レベルを求めることと、残響ユニットが第1構成により構成されている場合、基準入力オーディオ信号に対する残響ユニットの第1出力レベルを求めることと、基準出力レベルと第1出力レベルとの間の差を計算することと、基準出力レベルと第1出力レベルとの計算された差に基づいて相対ゲインを導出することとを含む。
いくつかの実施形態では、残響パラメータは、音源からの特定の距離における目標エネルギ比を示す。
いくつかの実施形態では、残響パラメータは、特定のタイプの音源に対する目標エネルギ比を示し、音源の特定のタイプは点音源である無指向性音源である。
いくつかの実施形態では、基準構成は、音源から特定の距離において目標エネルギ比が得られるように、残響ユニットの出力レベルを較正するために使用される構成である。
いくつかの実施形態では、基準構成は、リファレンスルームインパルス応答と、基準残響時間設定と、基準周波数応答データと、基準吸収データとのうちのいずれか1つまたはそれらの組合せに関連する構成である。
図8は、図2に示されるオーディオレンダラ200を実装するための、いくつかの実施形態による装置800のブロック図である。図8に示すように、装置800は、処理回路(PC)802を備えうる。ここで、処理回路(PC)802は、1つ以上のプロセッサ(P)855(例えば、汎用マイクロプロセッサおよび/または特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)などの1つ以上の他のプロセッサ)を含み、それらのプロセッサは、単一の筐体内または単一のデータセンタ内に共同配置されるか、あるいは地理的に分散されうる(すなわち、装置800は分散コンピューティング装置でありうる)。装置800は、少なくとも1つのネットワークインタフェース848を備える。各ネットワークインターフェース848は、装置800がネットワークインタフェース848が(直接的または間接的に)接続されるネットワーク110(例えば、インターネットプロトコル(IP)ネットワーク)に接続された他のノードとデータを送受信することを可能にするための、送信機(Tx)845および受信機(Rx)847を備える(例えば、ネットワークインタフェース848は、ネットワーク110に無線接続され、その場合、ネットワークインターフェース848はアンテナ構成に接続される。)。装置800は、1つ以上の不揮発性記憶装置および1つ以上の揮発性記憶装置の少なくともいずれかを含みうる1つ以上の記憶ユニット(別名「データ記憶システム」)808を含む。PC802がプログラマブルプロセッサを含む実施形態では、コンピュータプログラムプロダクト(CPP)841が提供されうる。CPP841は、コンピュータ読み取り可能な命令(CRI)844を含むコンピュータプログラム(CP)843を記憶するコンピュータ読み取り可能な媒体(CRM)842を含む。CRM842は、磁気媒体(例えばハードディスク)、光媒体、メモリデバイス(例えばランダムアクセスメモリ、フラッシュメモリ)等の、非一時的なコンピュータ読み取り可能な媒体でありうる。いくつかの実施形態では、コンピュータプログラム843のCRI844は、PC802によって実行されると装置800に、本明細書で説明する工程(例えば、フローチャートを参照して本明細書で説明する工程)を実行させるように構成される。他の実施形態では、装置800は、コードを必要とせずに、本明細書で説明する工程を実行するように構成されうる。すなわち、例えば、PC802は、1つ以上のASICのみから構成されうる。したがって、本明細書で説明される実施形態の特徴は、ハードウェアおよびソフトウェアのうちの少なくともいずれかによって実装されうる。
追加情報セクション
1.議論における測定値の目的および望ましい性質
議論中の測定値(ここではDDRという。)の目的は、室内の全ての位置における直接音のレベルに対して正しい(シーン制作者によって意図された意味での「正しい」)バランスを有するように、シーンをレンダリングする際の後期残響の相対的なレベルを設定することを可能にすることである。
この目的を考慮すると、好ましい測定値は、好ましくは以下の特性を有する。
- 測定値は、シーン制作者およびレンダラ実装者によって容易に理解できるもの、すなわち、それが表現するものを直感的に明確であるもの、であるべきである。好ましくは、測定値の値は、関連する音響測定において容易に解釈可能であるべきでもある。
- 測定値は、異なるシーンオーサリングシナリオにおいて導出可能であるべきであり、シーン制作者にとってこれをどのように行うことができるかが明らかであるべきである。
- RT60と同様に、測定値は、測定値を理解するために特定のアルゴリズムを使用する必要なしに、良好なレンダリング結果を達成するために測定値をどのように使用するかに関して、実装者に多くの自由度を残すことが望ましい。また、この測定値は、異なるタイプの残響生成技法の使用をサポートすべきである。
- 測定値は、音響環境の特性のみであるべきであり、例えば、測定値を求める際に任意の特定の音源の特性が何らかの役割を果たすべきではないことを意味する。
- 絶対レベルは無関係である。すべては2つのレベル/エネルギ間のバランスに関するものである。
本明細書で提案する測定値は、上記に列挙された全ての特性を有すると考えられる。理解および使用するのは簡単であり、(測定またはシミュレートされた)RIRがシーンの音響パラメータを求めるための基礎として使用されるオーサリングシナリオ、ならびに、アーティスティックベースでシーン制作者によって直接音と後期残響のバランスが調整されるより「サウンドデザイナ」手順が使用されるオーサリングシナリオの両方に適用可能である。同様に、提案された測定値は、多種多様なレンダリングシナリオをサポートする。
2. 提案する測定値の説明
後期残響の相対レベルのインジケータとして、一般的な直接音対残響音エネルギ比(DRR)またはその逆(RDR)を使用することが提案される。
RDRは一般に、所与の位置における後期残響音と直接音とのエネルギの比として定義される。この一般的な定義は、音場の異なる成分を別々に生成するオーディオシステム、ならびにルームインパルス応答(RIR)ベースの方法を使用するものの両方の環境下において、直観的かつ直接的な意味を有する。後者の場合、RDRは以下のように表すことができる。
Figure 2024525456000008
ここで、t=0は直接音の開始であり、t1およびt2は、目的に応じて適宜選択されるべき値である。
上述のRDRの一般的な定義は、音源までの距離および音源の放射特性に依存するため、我々は、使用される測定値を次のように、より具体的に定義することを提案する:無指向性点音源から1mの距離における、後期残響と直接音とのエネルギの比(RDR)。
音源までの距離を指定し、それを無指向性点音源として指定することによって、上記で定義された提案された測定値は、明確であり、加えて、室内の任意の位置における直接音と後期残響との比の推定を可能にする。これは、後期残響のレベルが(定義により)室内全体にわたって同じであり、無指向性点音源の直接音レベルが公知の1/r距離則に従うからである。
提案された測定値で指定された無指向点源について、直接音のエネルギは音源の総放出エネルギに正比例するので、提案された測定値は現在EIFにあるDDRの一般的定義と本質的に一致することに留意されたい。
また、音源-レシーバ距離についての追加の予め定義された情報は、EIFにおいて測定値として直接音対残響音比を使用するための過去の提案において欠けていたものであることに留意されたい。
3.提案された測定値を求めるための概念的な方法
シーンオーサリング側では、以下からなる簡単な概念的な手順によって、音響環境に対する提案された測定値の値を求めることができる。
- 音響環境内の合理的な位置に無指向性点音源(テスト音源)を配置する。
- 音源から所定の距離(1m)の合理的な位置に無指向性レシーバを配置する。
- 音源をレンダリングし、レシーバでの直接音と後期残響のエネルギを測定する。
上記の「合理的な」とは、例えば、測定値を求めるために使用される、音源位置とレシーバ位置との間の、または反射面のすぐ隣にある、いかなる遮蔽物も伴わないことを意味する。それ以外に、特別な要件はない。
この概念的な方法は、全ての関連するシーンオーサリングシナリオにおいて提案された測定値の値を得ることを可能にすると考えられる。具体的には、以下を許容する:
- 音響環境の(測定またはシミュレートされた)RIRから、(式1を用いて)提案された測定値を求めること(なお、RIR測定が異なる音源-レシーバ距離で行われたとしても、距離が既知であるか、または(例えば、直接音のTOAから)推定できる限り、これを補正することが可能である)。
- 直接音レンダリングモジュールおよび後期残響レンダリングモジュールのそれぞれのレンダリングされたレベルから、耳によって適切なバランスに調整された(サウンドデザイナアプローチ)、提案された測定値を求める。
4.レンダラ較正のための提案された測定値を使用するための概念的な方法
レンダリング側では、直接音と後期残響との間の所望のバランスが音響環境のどこでも得られるように、提案された測定値を導出するための上記と本質的に同じ概念的な方法がレンダラを較正するために使用される。
- 音響環境に無指向性点源を配置しレンダリングする。
- 音源から所定の距離に置かれた無指向性レシーバを用いて、直接音と後期残響とのエネルギ比を測定する。
このようにして得られたエネルギ比は、所望の値(音響環境のために提供された値)と直接比較することができ、それに応じて後期残響レンダリングモジュールの出力レベルを調整することができる。
レンダリング側でも、この概念的な方法は、全ての関連するシナリオ、特に、
- RIRベースのレンダリング(例えば、RIRのリアルタイム計算を行うことによる)、
- それぞれの出力が一緒にミックスされる、直接音用と後期残響用の別個レンダリングモジュール、
に適用可能であると考えられる。
上で説明した概念的なレンダラ較正手順は、レンダラの後期残響レンダリング段階の「マスター」レベルを正確に設定するために、原理的に1回だけ実行される必要があることに留意することが重要である。これが、任意の音響試験環境および提案された測定値に対して行われると、レンダリングされるべき任意の音響環境についての受信値と、所望のバランスを実現するために後期残響段階のレベルに対して行われる必要がある調整との間に、直接的な関係が存在する。言い換えれば、シーン毎の較正の必要性はない。
5.臨界距離としての代替定式化
上述のRDRベースの測定値に含まれるものと同じ情報を伝達するための代替的な同等の方法は、代わりに音響環境のための臨界距離(CD)(Critical Distance)を指定することである。
CDは、直接音と後期残響が等しい強さであるときの距離として定義される。したがって、CDは本質的に、異なる形態でRDRと同じ情報を伝達し、すなわち、所与の距離におけるRDRを指定する代わりに、RDRが0dBであるときの距離を指定する。実際、無指向性点音源については、2つの測定値の間に非常に単純な関係がある。
Figure 2024525456000009
ただし、drsは、音源とレシーバとの間の距離である。したがって、1mの所定の音源-レシーバ距離に対して、関係は更に単純化される。
Figure 2024525456000010
オーサリング側でCDを決定するために、上記のRDRについて説明したのと本質的に同じ概念的な方法を使用することができ、直接音と後期残響が等しい強さであるときの距離を見つけなければならないという差がある。しかし、上述のように、モノポール点音源についてのCDとRDRとの間には自明な関係があり、そのため、CDはRDRについて説明した方法を用いても得ることができる(逆もまた同様である)。
同様に、RDRについて上述したレンダラ較正のための概念的な方法は、同様の明白な修正(すなわち、指定された臨界距離でバランスを測定し、直接音および後期残響のエネルギが等しくなるように後期残響のレベルを調整すること)を伴って、CDのためにも使用されうる。

Claims (40)

  1. 音源をレンダリングする方法(1000)であって、
    前記音源に対応する入力オーディオ信号を受信する工程(s1002)と、
    前記音源のオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信する工程(s1004)と、
    (i)前記音源の第1指向性パターンに関連する相対ゲインと、(ii)前記音源の第1基準距離に関連する相対ゲインと、(iii)残響ユニットの第1構成に関連する相対ゲインと、(iv)前記残響音成分の第1制限時間に関連する相対ゲインと、のうちの1つ以上を導出する工程(s1006)と、
    前記受信された入力オーディオ信号と、前記受信された残響パラメータと、前記導出された相対ゲイン(i)~(iv)のうちのいずれか1つ以上とを用いて、調整されたオーディオ信号を生成する工程(s1008)と、
    を有し、
    前記第1指向性パターンに関連する前記相対ゲインは、基準指向性パターンに対するものであり、
    前記第1基準距離に関連する前記相対ゲインは、デフォルト基準距離に対するものであり、
    前記第1構成に関連する前記相対ゲインは、前記残響ユニットの基準構成に対するものであり、
    前記第1制限時間に関連する前記相対ゲインは、前記残響音成分の第2制限時間に対するものである、
    ことを特徴とする方法。
  2. 前記目標エネルギ比は、前記音源の前記オーディオの直接音成分と前記音源の前記オーディオの前記残響音成分との間の目標エネルギ比である、ことを特徴とする請求項1に記載の方法。
  3. 前記目標エネルギ比は、前記音源によって放出された総エネルギと、前記音源の前記オーディオの前記残響音成分に対応するエネルギとの間の目標エネルギ比である、ことを特徴とする請求項1に記載の方法。
  4. 前記調整された音声信号を生成する工程は、
    前記導出された相対ゲイン(i)~(iv)のうちの1つ以上に基づいて前記入力オーディオ信号を修正する工程と、
    前記残響ユニットが前記導出された相対ゲイン(i)~(iv)のうちの1つ以上に基づいて前記調整されたオーディオ信号を生成するように、前記残響ユニットの1つ以上の構成を修正する工程と、
    前記導出された相対ゲイン(i)~(iv)のうちの1つ以上に基づいて、前記残響ユニットからの出力信号を修正する工程と、
    のうちのいずれか1つまたは組合せを含む、ことを特徴とする請求項1から3のいずれか1項に記載の方法。
  5. 前記第1指向性パターンは、非無指向性音源の指向性パターンと、非点音源の指向性パターンとのうちの少なくともいずれかであり、
    前記基準指向性パターンは、無指向性音源の指向性パターンと、点音源の指向性パターンとのうちの少なくともいずれかである、
    ことを特徴とする請求項1から4のいずれか1項に記載の方法。
  6. 前記第1指向性パターンは、前記音源の周囲の複数の方向のそれぞれにおいて前記音源によって放射される音の振幅またはパワーを示す、ことを特徴とする請求項1から5のいずれか1項に記載の方法。
  7. iを、前記複数の方向に含まれる特定の方向に向かって前記音源によって放射された音のパワー、
    mを、前記複数の方向の数、とするとき、
    前記音源の前記第1指向性パターンに関連する前記相対ゲインは、
    Figure 2024525456000011
    に基づいて計算される、
    ことを特徴とする請求項6に記載の方法。
  8. 前記第1基準距離は、前記音源の距離減衰関数が1の値を有するときの前記音源からの距離を示し、
    前記音源の前記第1基準距離に関連する前記相対ゲインは、前記第1基準距離および前記デフォルト基準距離の関数に基づいて導出される、
    ことを特徴とする請求項1から7のいずれか1項に記載の方法。
  9. 前記音源の前記第1基準距離に関連する前記相対ゲインは、前記第1基準距離と前記デフォルト基準距離との比に基づいて導出される、ことを特徴とする請求項8に記載の方法。
  10. 前記音源は、非無指向性音源および非点音源の少なくともいずれかである、ことを特徴とする請求項8または9に記載の方法。
  11. 前記第1制限時間は、前記受信された残響パラメータに関連付けられている、ことを特徴とする請求項1から10のいずれか1項に記載の方法。
  12. 前記第1制限時間に関連する前記相対ゲインは、(i)前記残響音成分に関連する残響時間と、(ii)前記第1制限時間と前記第2制限時間との差、との少なくともいずれかに基づいて決定される、ことを特徴とする請求項11に記載の方法。
  13. 前記受信された残響パラメータと、前記第1制限時間に関連付けられた前記相対ゲインとに基づいて、更新された残響パラメータを計算する工程を更に有し、
    前記調整されたオーディオ信号は、前記更新された残響パラメータに基づいて生成される、ことを特徴とする請求項11または12に記載の方法。
  14. 前記第1構成に関連する前記相対ゲインは、前記第1構成に関連する前記残響ユニットの第1出力と、前記基準構成に関連する前記残響ユニットの基準出力との差または比に対応する、ことを特徴とする請求項1から13のいずれか1項に記載の方法。
  15. 前記残響パラメータは、前記音源からの特定の距離における前記目標エネルギ比を示す、ことを特徴とする請求項1から14のいずれか1項に記載の方法。
  16. 前記残響パラメータは、特定のタイプの音源に対する前記目標エネルギ比を示し、
    前記特定のタイプの音源は、点音源である無指向性音源である、
    ことを特徴とする請求項1から15のいずれか1項に記載の方法。
  17. 前記基準構成は、前記音源から特定の距離において前記目標エネルギ比が得られるように、前記残響ユニットの出力レベルを較正するために使用される構成である、ことを特徴とする請求項1から16のいずれか1項に記載の方法。
  18. 前記基準構成は、
    リファレンスルームインパルス応答と、
    基準残響時間設定と、
    基準周波数応答データと、
    基準吸収データと
    のうちのいずれか1つまたは組合せに関連する構成である、ことを特徴とする請求項1から17のいずれか1項に記載の方法。
  19. 音源をレンダリングする方法(1100)であって、
    前記音源に対応する入力オーディオ信号を受信する工程(s1102)と、
    前記音源のオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信する工程(s1104)と、
    前記音源の指向性パターンを取得する工程(s1106)と、
    前記取得された指向性パターンに基づいて、前記音源の相対パワーレベルを導出する工程(s1108)と、ここで、前記相対パワーレベルは、無指向性音源のパワーレベルに対するものであり、
    前記受信された入力オーディオ信号と前記残響パラメータと前記導出された相対パワーレベルとを用いて、調整されたオーディオ信号を生成する工程(s1110)と、
    を有することを特徴とする方法。
  20. 前記目標エネルギ比は、前記音源の前記オーディオの直接音成分と前記音源の前記オーディオの残響音成分との間にある、ことを特徴とする請求項19に記載の方法。
  21. 前記音源は、非無指向性音源および非点音源の少なくともいずれかである、ことを特徴とする請求項19または20に記載の方法。
  22. 前記指向性パターンは、前記音源の周囲の複数の方向のそれぞれにおいて前記音源によって放射された音の振幅またはマグニチュードを示す、ことを特徴とする請求項19から21のいずれか1項に記載の方法。
  23. iを、特定の方向に向かって前記音源によって放射された音のマグニチュード、
    mを、前記複数の方向の数、とするとき、
    前記相対パワーレベルは、
    Figure 2024525456000012
    に基づいて計算される、
    ことを特徴とする請求項22に記載の方法。
  24. iを、前記特定の方向に向かって前記音源によって放射された音のマグニチュードとすると、Pi=Ai 2である、ことを特徴とする請求項23に記載の方法。
  25. 音源をレンダリングする方法(1200)であって、
    前記音源に対応する入力オーディオ信号を受信する工程(s1202)と、
    前記音源のオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信する工程(s1204)と、
    前記音源の第1関連基準距離に対応する相対ゲインを導出する工程(s1206)と、
    前記受信された入力オーディオ信号と前記受信された残響パラメータと前記導出された相対ゲインとを用いて、調整されたオーディオ信号を生成する工程(s1208)と、
    を有することを特徴とする方法。
  26. 前記相対ゲインは、デフォルト基準距離に関連するものである、ことを特徴とする請求項25に記載の方法。
  27. 前記音源の前記第1関連基準距離を取得する工程を更に有し、前記第1関連基準距離は、前記音源に関連する距離減衰関数が1の値を有するときの前記音源からの距離を示し、
    前記相対ゲインは、前記第1関連基準距離と前記デフォルト基準距離との関数に基づいて導出される、
    ことを特徴とする請求項25または26に記載の方法。
  28. 前記相対ゲインは、前記第1関連基準距離と前記デフォルト基準距離との比に基づいて導出される、ことを特徴とする請求項27に記載の方法。
  29. 音源をレンダリングする方法(1300)であって、
    前記音源に対応する入力オーディオ信号を受信する工程(s1302)と、
    前記音源のレンダリングされたオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信する工程(s1304)と、
    前記残響音成分の下限時間を示す変数を取得する工程(s1306)と、
    前記受信された入力オーディオ信号と前記残響パラメータと前記取得された変数とを用いて、調整されたオーディオ信号を生成する工程(s1308)と、
    を有することを特徴とする方法。
  30. 前記受信された残響パラメータと前記取得された変数とを用いて、修正された残響パラメータを計算する工程を更に有し、
    前記調整されたオーディオ信号は、前記受信された入力オーディオ信号と前記修正された残響パラメータとを用いて生成される、
    ことを特徴とする請求項29に記載の方法。
  31. 音源をレンダリングする方法(1400)であって、
    前記音源に対応する入力オーディオ信号を受信する工程(s1402)と、
    前記音源のレンダリングされたオーディオの残響音成分に対する目標エネルギ比を示す残響パラメータを受信する工程(s1404)と、
    残響ユニットの第1構成に関連する相対ゲインを導出する工程(s1406)と、ここで、前記相対ゲインは、前記残響ユニットの基準構成に対するものであり、
    前記受信された入力オーディオ信号と前記受信された残響パラメータと前記導出された相対ゲインとを用いて、調整されたオーディオ信号を生成する工程(s1408)と、
    を有することを特徴とする方法。
  32. 前記相対ゲインは、(i)前記基準構成に関連付けられた前記残響ユニットの基準出力と、(ii)前記第1構成に関連付けられた前記残響ユニットの第1出力と、の差に対応する、ことを特徴とする請求項31に記載の方法。
  33. 前記相対ゲインを導出する工程は、
    前記残響ユニットが前記基準構成により構成されている場合、基準入力オーディオ信号に対する前記残響ユニットの基準出力レベルを求める工程と、
    前記残響ユニットが前記第1構成により構成されている場合、前記基準入力オーディオ信号に対する前記残響ユニットの第1出力レベルを求める工程と、
    前記基準出力レベルと前記第1出力レベルとの差を計算する工程と、
    前記基準出力レベルと前記第1出力レベルとの前記計算された差に基づいて前記相対ゲインを導出する工程と、
    を含むことを特徴とする請求項31または32に記載の方法。
  34. 前記残響パラメータは、前記音源からの特定の距離における前記目標エネルギ比を示す、ことを特徴とする請求項31から33のいずれか1項に記載の方法。
  35. 前記残響パラメータは、特定のタイプの音源に対する前記目標エネルギ比を示し、
    前記特定のタイプの音源は、点音源である無指向性音源である、
    ことを特徴とする請求項31から34のいずれか1項に記載の方法。
  36. 前記基準構成は、前記音源から特定の距離において前記目標エネルギ比が得られるように、前記残響ユニットの出力レベルを較正するために使用される構成である、ことを特徴とする請求項31から35のいずれか1項に記載の方法。
  37. 前記基準構成は、
    リファレンスルームインパルス応答と、
    基準残響時間設定と、
    基準周波数応答データと、
    基準吸収データと
    のうちのいずれか1つまたは組合せに関連する構成である、ことを特徴とする請求項31から36のいずれか1項に記載の方法。
  38. 処理回路(802)によって実行されると前記処理回路に請求項1から37の少なくとも1項に記載の方法を実行させる命令(844)を含む、ことを特徴とするコンピュータプログラム(843)。
  39. 請求項38に記載のコンピュータプログラムを含むキャリアであって、前記キャリアは、電気信号、光信号、無線信号、コンピュータ読み取り可能な記憶媒体のうちの1つである、ことを特徴とするキャリア。
  40. 処理回路(802)と、
    メモリ(841)と、
    を有し、前記メモリは、前記処理回路によって実行可能な命令を含み、前記装置は、請求項1から37の少なくとも1項に記載の方法を実行するように動作可能である、ことを特徴とする装置(800)。
JP2023580550A 2021-06-30 2022-06-30 残響レベルの調整 Pending JP2024525456A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163217076P 2021-06-30 2021-06-30
US63/217,076 2021-06-30
US202163273637P 2021-10-29 2021-10-29
US63/273,637 2021-10-29
PCT/EP2022/068015 WO2023275218A2 (en) 2021-06-30 2022-06-30 Adjustment of reverberation level

Publications (1)

Publication Number Publication Date
JP2024525456A true JP2024525456A (ja) 2024-07-12

Family

ID=82655342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023580550A Pending JP2024525456A (ja) 2021-06-30 2022-06-30 残響レベルの調整

Country Status (4)

Country Link
US (1) US20240137727A1 (ja)
EP (1) EP4364436A2 (ja)
JP (1) JP2024525456A (ja)
WO (1) WO2023275218A2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107071687B (zh) * 2012-07-16 2020-02-14 杜比国际公司 用于渲染音频声场表示以供音频回放的方法和设备
CN104768121A (zh) * 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
CN115334444A (zh) * 2018-04-11 2022-11-11 杜比国际公司 用于音频渲染的预渲染信号的方法、设备和系统

Also Published As

Publication number Publication date
WO2023275218A2 (en) 2023-01-05
WO2023275218A3 (en) 2023-02-23
EP4364436A2 (en) 2024-05-08
US20240137727A1 (en) 2024-04-25

Similar Documents

Publication Publication Date Title
US20210306792A1 (en) Audio rendering of audio sources
US10165381B2 (en) Audio signal processing method and device
US6421446B1 (en) Apparatus for creating 3D audio imaging over headphones using binaural synthesis including elevation
KR20240046581A (ko) 잔향 프로세서에 대한 파라미터 도출
JP2024525456A (ja) 残響レベルの調整
US20240196159A1 (en) Rendering Reverberation
ES2974833T3 (es) Aparato y método para generar una señal de reverberación difusa
CN117616782A (zh) 混响级别的调整
CN117676420B (zh) 家庭影院左右音箱音效校准方法、装置和计算机存储介质
US20240349007A1 (en) Rendering Reverberation for External Sources
US20240292179A1 (en) Late reverberation distance attenuation
EP4338433A1 (en) Sound reproduction system and method
AU2022379877A1 (en) An audio apparatus and method of operation therefor
WO2023135359A1 (en) Adjustment of reverberator based on input diffuse-to-direct ratio
US20230179947A1 (en) Adjustment of Reverberator Based on Source Directivity
WO2023161554A1 (en) Reverberation level compensation
KR20240089513A (ko) 볼륨 오디오 소스 렌더링
WO2023165800A1 (en) Spatial rendering of reverberation
KR20240073145A (ko) 크기를 갖는 오디오 요소를 렌더링하는 방법, 대응하는 장치 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240215