JP7513020B2

JP7513020B2 - 情報処理装置および方法、再生装置および方法、並びにプログラム

Info

Publication number: JP7513020B2
Application number: JP2021513568A
Authority: JP
Inventors: 実辻; 徹知念; 優樹山本; 彬人中井
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2019-04-11
Filing date: 2020-03-27
Publication date: 2024-07-09
Anticipated expiration: 2040-03-27
Also published as: EP3955590A4; EP3955590A1; US11974117B2; JPWO2020209103A1; US20220210597A1; BR112021019942A2; KR20210151792A; WO2020209103A1; CN113632501A

Description

本技術は、情報処理装置および方法、再生装置および方法、並びにプログラムに関し、特に、より簡単にゲイン補正を行うことができるようにした情報処理装置および方法、再生装置および方法、並びにプログラムに関する。

従来、MPEG（Moving Picture Experts Group）-H 3D Audio規格が知られている（例えば、非特許文献１および非特許文献２参照）。

MPEG-H 3D Audio規格等で扱われる3D Audioでは、３次元的な音の方向や距離、拡がりなどを再現することができ、従来のステレオ再生に比べ、より臨場感のあるオーディオ再生が可能となる。

ISO/IEC 23008-3, MPEG-H 3D Audio ISO/IEC 23008-3:2015/AMENDMENT3, MPEG-H 3D Audio Phase 2

しかしながら3D Audioでは、コンテンツ（3D Audioコンテンツ）の制作の時間的なコストが高くなってしまう。

例えば3D Audioでは、ステレオと比較してオブジェクトの位置情報、すなわち音源の位置情報の次元数が高い（3D Audioは３次元でステレオは２次元）。そのため、3D Audioでは、特にオブジェクトの位置を示す水平角度や垂直角度、距離、オブジェクトについてのゲインなどといったオブジェクトごとのメタデータを構成するパラメタを決定する作業において、時間的なコストが高くなってしまう。

また、3D Audioコンテンツはステレオコンテンツに比べて、コンテンツと制作者の両面で圧倒的に数が少ない。それゆえ、品質の高い3D Audioコンテンツが少ないのが現状である。

一方で、聴覚特性として、音の大きさの感じ方は、その音の到来方向によって異なる。すなわち、同じオブジェクトの音であっても、オブジェクトが聴取者に対して前方にある場合と側方にある場合、上方にある場合と下方にある場合で、それぞれ聴感上の音の大きさが異なるため、このような聴覚特性を踏まえたゲイン補正が必要である。

以上のことから、より簡単にゲイン補正を行い、これにより、短時間で十分な品質の3D Audioコンテンツを制作できるようにすることが望まれている。

本技術は、このような状況に鑑みてなされたものであり、より簡単にゲイン補正を行うことができるようにするものである。

本技術の第１の側面の情報処理装置は、聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定するゲイン補正値決定部を備え、前記ゲイン補正値決定部は、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する。

本技術の第１の側面の情報処理方法またはプログラムは、聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定するステップを含み、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する。

本技術の第１の側面においては、聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値が決定される。また、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値が決定されるか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値が決定される。

本技術の第２の側面の再生装置は、オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行うゲイン補正部と、前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成するレンダラ処理部とを備え、前記ゲイン補正部は、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する。

本技術の第２の側面の再生方法またはプログラムは、オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行い、前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成するステップを含み、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する。

本技術の第２の側面においては、オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値が決定され、前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正が行われ、前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理が行われ、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号が生成される。また、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値が決定されるか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値が決定される。

音の到来方向に対する聴覚特性について説明する図である。音の到来方向に対する聴覚特性について説明する図である。音の到来方向に対する聴覚特性について説明する図である。情報処理装置の構成例を示す図である。聴覚特性テーブルの例を示す図である。聴覚特性テーブルの例を示す図である。ゲイン値決定処理を説明するフローチャートである。コンテンツ制作ツールの表示画面例を示す図である。コンテンツ制作ツールの表示画面例を示す図である。コンテンツ制作ツールの表示画面例を示す図である。コンテンツ制作ツールの表示画面例を示す図である。情報処理装置の構成例を示す図である。テーブル生成処理を説明するフローチャートである。音声処理装置の構成例を示す図である。再生信号生成処理を説明するフローチャートである。聴覚特性テーブルの例を示す図である。ゲイン聴覚特性情報のシンタックス例を示す図である。音声処理装置の構成例を示す図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
本技術は聴取者から見たオブジェクトの方向に応じてゲイン補正値を決定することで、より簡単にゲイン補正を行うことができるようにし、これにより、より簡単に、すなわち短時間で十分に高い品質の3D Audioコンテンツを制作できるようにするものである。

特に、本技術は以下の特徴（Ｆ１）乃至特徴（Ｆ５）を有している。

特徴（Ｆ１）：オブジェクトのゲイン補正値を、音像の定位位置に対する３次元聴覚特性に応じて決定する
特徴（Ｆ２）：聴覚特性がテーブル等により与えられる場合、データのない定位位置に対するゲイン補正値は、隣接位置のゲイン補正値に基づく補間処理等により算出する
特徴（Ｆ３）：自動ミキシングにおいて、別途決定した位置情報からゲイン情報を決定する
特徴（Ｆ４）：オブジェクト位置に対するゲイン補正値を設定および調整するユーザインターフェースを提供する
特徴（Ｆ５）：聴取位置に対するオブジェクトの位置の変更に伴い、３次元聴覚特性に応じたゲイン補正値を適用する

まず、人間の３次元聴覚特性に基づくゲインパラメタの決定について説明する。

図１は、あるピンクノイズが聴取者の真正面で再生されたときの聴感上の音の大きさを基準として、同じピンクノイズを異なる方向から再生した際に、聴感上の音の大きさが同じに感じるようにピンクノイズのゲイン補正を行ったときのゲイン補正量を示している。換言すれば、図１は人が有する水平方向に対する聴覚特性を示している。

なお、図１において縦軸はゲイン補正量を示し、横軸は聴取者から見た音源位置を示す水平方向の角度であるAzimuth値（水平角度）を示している。

例えば、聴取者から見た真正面の方向を示すAzimuth値は0度であり、聴取者から見た真横の方向、つまり側方を示すAzimuth値は±90度であり、聴取者の後方、つまり真後ろの方向を示すAzimuth値は180度である。特に、聴取者から見て左方向がAzimuth値の正の方向となっている。

また、図１ではピンクノイズの再生時の垂直方向の位置は、聴取者と同じ高さとなっている。すなわち、聴取者から見た音源の垂直方向（仰角方向）の位置を示す垂直角度をElevation値とすると、図１はElevation値が0度における場合の例となっている。なお、聴取者から見て上方向がElevation値の正の方向となっている。

この例では、複数人の聴取者を対象として行われた実験の結果から得られた各Azimuth値に対するゲイン補正量の平均値を示しており、特に各Azimuth値において点線で表される範囲は95％の信頼区間を示している。

例えば側方（Azimuth値＝±90度，Elevation値＝0度）でピンクノイズを再生するときには、ゲインを少し下げることで、聴取者は正面方向でピンクノイズを再生したときと同じ大きさで音が聞こえるように感じることが分かる。

また、例えば後方（Azimuth値＝180度，Elevation値＝0度）でピンクノイズを再生するときには、ゲインを少し上げることで、聴取者は正面方向でピンクノイズを再生したときと同じ大きさで音が聞こえるように感じることが分かる。

すなわち、あるオブジェクト音源に対して、そのオブジェクト音源の定位位置が聴取者の側方にあるときにはオブジェクト音源の音のゲインを少し下げ、オブジェクト音源の定位位置が聴取者の後方にあるときにはオブジェクト音源の音のゲインを少し上げると、聴取者に同じ大きさで音が聞こえているように感じさせることができる。

また、例えば図２や図３に示すように、同じAzimuth値でもElevation値が変化すると、聴取者の聞こえ方も変化することが分かる。

なお、図２および図３において縦軸はゲイン補正量を示し、横軸は聴取者から見た音源位置を示すAzimuth値（水平角度）を示している。また、図２および図３では、各Azimuth値において点線で表される範囲は95％の信頼区間を示している。

図２は、Elevation値が30度である場合における各Azimuth値でのゲイン補正量を示している。

図２から、音源が聴取者よりも高い位置にある場合、音源が聴取者の正面や後方、斜め後方にあるときには音が小さく聞こえ、音源が聴取者の斜め前方にあるときには音が少し大きく聞こえることが分かる。

同様に、図３はElevation値が-30度である場合における各Azimuth値でのゲイン補正量を示している。

図３から、音源が聴取者よりも低い位置にある場合、音源が聴取者の正面や斜め前方にあるときには音が大きく聞こえ、音源が聴取者の後方や斜め後方にあるときには音が小さく聞こえることが分かる。

以上のような音の到来方向に対する聴覚特性から、オブジェクト音源の位置を示す位置情報と、聴取者の聴覚特性とに基づいて、オブジェクト音源に対するゲイン補正量を決定すれば、より簡単に適切なゲイン補正を行うことができることが分かる。

〈情報処理装置の構成例〉
図４は、本技術を適用した情報処理装置の一実施の形態の構成例を示す図である。

図４に示す情報処理装置１１は、3D Audioコンテンツを構成するオーディオオブジェクト（以下、単にオブジェクトと称する）の音を再生するためのオーディオ信号のゲイン補正のためのゲイン値を決定するゲイン決定装置として機能する。

このような情報処理装置１１は、例えば3D Audioコンテンツを構成するオーディオ信号のミキシングを行う編集装置などに設けられている。

情報処理装置１１は、ゲイン補正値決定部２１および聴覚特性テーブル保持部２２を有している。

ゲイン補正値決定部２１には、3D Audioコンテンツを構成するオブジェクトのメタデータとして、位置情報およびゲイン初期値が供給される。

ここで、オブジェクトの位置情報は、３次元空間内における基準位置から見たオブジェクトの位置を示す情報であり、ここでは位置情報はAzimuth値、Elevation値、およびRadius値からなる。なお、この例では聴取者の位置が基準位置となっている。

Azimuth値およびElevation値は、基準位置にいる聴取者（ユーザ）から見たオブジェクトの水平方向および垂直方向の各位置を示す角度であり、これらのAzimuth値およびElevation値は図１乃至図３における場合と同様である。

また、Radius値は３次元空間における基準位置にいる聴取者からオブジェクトまでの距離（半径）である。

このようなAzimuth値、Elevation値、およびRadius値からなる位置情報は、オブジェクトの音の音像の定位位置を示しているということができる。

また、ゲイン補正値決定部２１に供給されるメタデータに含まれるゲイン初期値は、オブジェクトのオーディオ信号のゲイン補正のためのゲイン値、つまりゲイン情報の初期値であり、このゲイン初期値は、例えば3D Audioコンテンツの制作者等により定められる。なお、ここでは説明を簡単にするため、ゲイン初期値は1.0であるものとする。

ゲイン補正値決定部２１は、供給されたメタデータとしての位置情報と、聴覚特性テーブル保持部２２に保持されている聴覚特性テーブルとに基づいて、オブジェクトのゲイン初期値を補正するゲイン補正量を示すゲイン補正値を決定する。

また、ゲイン補正値決定部２１は、決定したゲイン補正値に基づいて、供給されたゲイン初期値を補正し、その結果得られたゲイン値を、オブジェクトのオーディオ信号をゲイン補正するための最終的なゲイン補正量を示す情報とする。

換言すれば、ゲイン補正値決定部２１は位置情報により示される、聴取者から見たオブジェクトの方向（音の到来方向）に応じてゲイン補正値を決定することで、オーディオ信号のゲイン値を決定する。このようにして決定されたゲイン値と、供給された位置情報とがオブジェクトの最終的なメタデータとして後段に出力される。

聴覚特性テーブル保持部２２は、聴覚特性テーブルを保持しており、必要に応じて聴覚特性テーブルにより示されるゲイン補正値をゲイン補正値決定部２１に供給する。

ここで、聴覚特性テーブルは、音源であるオブジェクトから聴取者への音の到来方向、つまり聴取者から見た音源の方向と、その方向に応じたゲイン補正値とが対応付けられているテーブルである。

すなわち、より詳細には、聴覚特性テーブルは音源と聴取者との相対的な位置関係と、その位置関係に応じたゲイン補正値とが対応付けられているテーブルである。

聴覚特性テーブルにより示されるゲイン補正値は、例えば図１乃至図３に示したような音の到来方向に対する人の聴覚特性に応じて定められたものであり、特に音の到来方向によらず聴感上の音の大きさが一定になるようなゲイン補正量となっている。

すなわち、聴覚特性テーブルにより示されるゲイン補正値によりゲイン初期値を補正して得られたゲイン値を用いてオブジェクトのオーディオ信号をゲイン補正すれば、オブジェクトの位置によらず、同じオブジェクトの音は同じ大きさで聞こえるようになる。

ここで、図５に聴覚特性テーブルの例を示す。

図５に示す例ではAzimuth値、Elevation値、およびRadius値により定まるオブジェクトの位置、つまりオブジェクトの方向に対してゲイン補正値が対応付けられている。

特に、この例では全てのElevation値およびRadius値が0および1.0となっており、オブジェクトの垂直方向の位置は聴取者と同じ高さであり、かつ聴取者からオブジェクトまでの距離は常に一定であると想定されている。

図５の例では、例えばAzimuth値が180度である場合など、音源であるオブジェクトが聴取者の後方にある場合には、Azimuth値が0度や30度である場合など、オブジェクトが聴取者の前方にある場合よりもゲイン補正値が大きくなっている。

これに対して、例えばAzimuth値が90度である場合など、音源であるオブジェクトが聴取者の側方にある場合には、オブジェクトが聴取者の前方にある場合よりもゲイン補正値が小さくなっている。

さらに、聴覚特性テーブル保持部２２が図５に示す聴覚特性テーブルを保持している場合における、ゲイン補正値決定部２１によるゲイン初期値の補正の具体的な例について説明する。

例えばオブジェクトの位置を示すAzimuth値、Elevation値、およびRadius値が90度、0度、および1.0mであるとすると、図５からオブジェクトの位置に対応するゲイン補正値は-0.52dBとなる。

したがって、ゲイン補正値決定部２１は、聴覚特性テーブルから読み出したゲイン補正値「-0.52dB」と、ゲイン初期値「1.0」とに基づいて次式（１）の計算を行い、ゲイン値「0.94」を得る。

同様に、例えばオブジェクトの位置を示すAzimuth値、Elevation値、およびRadius値が-150度、0度、および1.0mであるとすると、図５からオブジェクトの位置に対応するゲイン補正値は0.51dBとなる。

したがって、ゲイン補正値決定部２１は、聴覚特性テーブルから読み出したゲイン補正値「0.51dB」と、ゲイン初期値「1.0」とに基づいて次式（２）の計算を行い、ゲイン値「1.06」を得る。

なお、図５では水平方向のみが考慮された２次元の聴覚特性に基づいて決定されたゲイン補正値を利用する例について説明した。つまり、２次元の聴覚特性に基づいて生成された聴覚特性テーブル（以下、２次元聴覚特性テーブルとも称する）を利用する例について説明した。

しかし、水平方向だけでなく垂直方向の特性も考慮された３次元の聴覚特性に基づいて決定されたゲイン補正値を利用してゲイン初期値を補正するようにしてもよい。

そのような場合、例えば図６に示す聴覚特性テーブルを利用することができる。

図６に示す例では、Azimuth値、Elevation値、およびRadius値により定まるオブジェクトの位置、つまりオブジェクトの方向に対してゲイン補正値が対応付けられている。

特に、この例では全てのAzimuth値およびElevation値の組み合わせにおいて、Radius値は1.0とされている。

以下では、図６に示すように音の到来方向に対する３次元の聴覚特性に基づいて生成された聴覚特性テーブルを、特に３次元聴覚特性テーブルとも称することとする。

ここで、聴覚特性テーブル保持部２２が図６に示す聴覚特性テーブルを保持している場合における、ゲイン補正値決定部２１によるゲイン初期値の補正の具体的な例について説明する。

例えばオブジェクトの位置を示すAzimuth値、Elevation値、およびRadius値が60度、30度、および1.0mであるとすると、図６からオブジェクトの位置に対応するゲイン補正値は-0.07dBとなる。

したがって、ゲイン補正値決定部２１は、聴覚特性テーブルから読み出したゲイン補正値「-0.07dB」と、ゲイン初期値「1.0」とに基づいて次式（３）の計算を行い、ゲイン値「0.99」を得る。

なお、以上において説明したゲイン値算出の具体例では、オブジェクトの位置（方向）に対して定まる聴覚特性に基づくゲイン補正値が予め用意されていた。すなわち、オブジェクトの位置情報に対応するゲイン補正値が聴覚特性テーブルに格納されている例について説明した。

しかしながら、オブジェクトの位置は、聴覚特性テーブルにおいて、対応するゲイン補正値が格納されている位置にあるとは限らない。

具体的には、例えば聴覚特性テーブル保持部２２に図６に示した聴覚特性テーブルが保持されており、位置情報としてのAzimuth値、Elevation値、およびRadius値が-120度、15度、および1.0mであるとする。

この場合、図６の聴覚特性テーブルには、Azimuth値「-120」、Elevation値「15」、およびRadius値「1.0」に対応するゲイン補正値は格納されていない。

そこで、聴覚特性テーブルに、位置情報により示される位置に対応するゲイン補正値がない場合には、その位置情報により示される位置に隣接する、対応するゲイン補正値が存在する複数の位置のデータ（ゲイン補正値）を用いて、ゲイン補正値決定部２１が補間処理等により所望の位置のゲイン補正値を算出するようにしてもよい。

換言すれば、聴取者から見たオブジェクトの方向（位置）に対応するゲイン補正値が聴覚特性テーブルに格納されていない場合には、そのゲイン補正値を、聴取者から見たオブジェクトの他の方向に対応するゲイン補正値に基づく補間処理等により求めてもよい。

例えば、ゲイン補正値の補間方法の１つとしてVBAP（Vector Base Amplitude Panning）がある。

VBAPは、オブジェクトごとに、オブジェクトのメタデータから再生環境の複数のスピーカのゲイン値を求めるためのものである。

ここで、再生環境の複数のスピーカを、複数のゲイン補正値に置き換えることで、所望の位置でのゲイン補正値を算出することができる。

具体的には、３次元空間内においてゲイン補正値が用意されている複数の位置でメッシュが区切られる。すなわち、例えば３次元空間内の３つの各位置のゲイン補正値が用意されているとすると、それらの３つの位置を頂点とする１つの３角形の領域が１つのメッシュとされる。

このようにして３次元空間が複数のメッシュに区切られると、ゲイン補正値を得ようとする所望の位置を注目位置として、その注目位置を内包するメッシュが特定される。

また、特定されたメッシュを構成する３つの頂点位置を示す位置ベクトルの乗加算により注目位置を示す位置ベクトルを表したときの３つの各頂点位置を示す位置ベクトルに乗算される係数が求められる。

そして、このようにして求められた３つの係数のそれぞれが、注目位置を内包するメッシュの３つの各頂点位置のゲイン補正値のそれぞれに乗算され、係数が乗算されたゲイン補正値の和が注目位置のゲイン補正値として算出される。

具体的には、注目位置を内包するメッシュの３つの各頂点位置を示す位置ベクトルがP₁乃至P₃であり、それらの各頂点位置のゲイン補正値がG₁乃至G₃であるとする。

このとき、注目位置を示す位置ベクトルがg₁P₁+g₂P₂+g₃P₃で表されるとする。この場合、注目位置のゲイン補正値は、g₁G₁+g₂G₂+g₃G₃となる。

なお、ゲイン補正値の補間方法はVBAPによる補間に限らず、他のどのような方法であってもよい。

例えば聴覚特性テーブルにおいてゲイン補正値が存在する位置のうち、注目位置の近傍にあるN個（例えばN＝5など）の位置のゲイン補正値の平均値を注目位置のゲイン補正値として用いてもよい。

また、例えば聴覚特性テーブルにおいてゲイン補正値が存在する位置のうち、注目位置から最も近い位置のゲイン補正値を注目位置のゲイン補正値として用いてもよい。

さらに、ここではゲイン補正値がデシベル値で求められる例について説明したが、ゲイン補正値はリニア値で求められるようにしてもよい。そのような場合、例えばVBAPによる補間によってリニア値でゲイン補正値を求めるときでも、上述したデシベル値における場合と同様の計算により任意の位置のゲイン補正値を得ることができる。

その他、オブジェクトの種類や優先度、音圧、音高などに基づいて、そのオブジェクトのメタデータとしての位置情報、すなわちAzimuth値、Elevation値、およびRadius値を決定する場合にも本技術は適用可能である。

この場合、例えばオブジェクトの種類や優先度等に基づいて決定された位置情報と、予め用意された３次元聴覚特性テーブルとに基づいてゲイン補正値が決定される。

〈ゲイン値決定処理の説明〉
続いて、情報処理装置１１の動作について説明する。すなわち、以下、図７のフローチャートを参照して、情報処理装置１１により行われるゲイン値決定処理について説明する。

ステップＳ１１においてゲイン補正値決定部２１は、外部からメタデータを取得する。

すなわち、ゲイン補正値決定部２１はAzimuth値、Elevation値、およびRadius値からなる位置情報とゲイン初期値とをメタデータとして取得する。

ステップＳ１２においてゲイン補正値決定部２１は、ステップＳ１１で取得した位置情報と、聴覚特性テーブル保持部２２に保持されている聴覚特性テーブルとに基づいてゲイン補正値を決定する。

すなわち、ゲイン補正値決定部２１は、取得した位置情報を構成するAzimuth値、Elevation値、およびRadius値に対応付けられているゲイン補正値を聴覚特性テーブルから読み出して、読み出したゲイン補正値を決定したゲイン補正値とする。

ステップＳ１３においてゲイン補正値決定部２１は、ステップＳ１１で取得したゲイン初期値と、ステップＳ１２で決定したゲイン補正値とに基づいてゲイン値を決定する。

すなわち、ゲイン補正値決定部２１は、ゲイン初期値およびゲイン補正値に基づいて式（１）と同様の計算を行ってゲイン初期値をゲイン補正値により補正することで、ゲイン値を得る。

このようにしてゲイン値が決定されると、ゲイン補正値決定部２１は、決定されたゲイン値を後段に出力し、ゲイン値決定処理は終了する。出力されたゲイン値は、後段においてオーディオ信号のゲイン補正（ゲイン調整）に用いられる。

以上のようにして情報処理装置１１は、聴覚特性テーブルを用いてゲイン補正値を決定し、そのゲイン補正値によりゲイン初期値を補正することでゲイン値を決定する。

このようにすることで、より簡単にゲイン補正を行うことができる。これにより、例えばより簡単に、すなわち短時間で十分に高い品質の3D Audioコンテンツを制作できるようになる。

〈第２の実施の形態〉
〈ユーザインターフェースについて〉
また、本技術によれば、以上において説明したゲイン補正値を設定したり調整したりするためのユーザインターフェースを提供することが可能である。

例えばユーザの入力により、または自動でオブジェクトの位置等を決定する3Dオーディオのコンテンツ制作ツールに本技術を適用することができる。

具体的には、3Dオーディオのコンテンツ制作ツールにおいて、例えば図８に示すユーザインターフェース（表示画面）により、聴取者から見たオブジェクトの方向に対する聴覚特性に基づくゲイン補正値（ゲイン値）の設定や調整を行うようにすることができる。

図８に示す例では、3Dオーディオのコンテンツ制作ツールの表示画面には、予めプリセットされた互いに異なる複数の聴覚特性のなかから所望の聴覚特性を選択するためのプルダウンボックスBX11が設けられている。

この例では、例えば男性の聴覚特性、女性の聴覚特性、ユーザ個人の聴覚特性など、複数の２次元の聴覚特性が予め用意されており、ユーザはプルダウンボックスBX11を操作することで、所望の聴覚特性を選択することができる。

ユーザにより聴覚特性が選択されると、図中、プルダウンボックスBX11の下側に設けられたゲイン補正値表示領域R11に、ユーザにより選択された聴覚特性に応じた各Azimuth値でのゲイン補正値が表示される。

特に、ゲイン補正値表示領域R11において縦軸はゲイン補正値を示しており、横軸はAzimuth値を示している。

また、曲線L11はAzimuth値が負の値、つまり聴取者から見て右方向についての各Azimuth値におけるゲイン補正値を示しており、曲線L12は聴取者から見て左方向についての各Azimuth値におけるゲイン補正値を示している。

このようなゲイン補正値表示領域R11を見れば、ユーザは直感的かつ瞬時に各Azimuth値におけるゲイン補正値を把握することができる。

さらに、ゲイン補正値表示領域R11の図中、下側には、ゲイン補正値表示領域R11に表示されたゲイン補正値を調整するためのスライダ等が表示されたスライダ表示領域R12が設けられている。

スライダ表示領域R12では、ユーザがゲイン補正値を調整可能な各Azimuth値について、そのAzimuth値を示す数字と、ゲイン補正値を示す目盛り、およびゲイン補正値を調整するためのスライダが表示されている。

例えばスライダSD11は、Azimuth値が30度におけるゲイン補正値を調整するためのものであり、ユーザはスライダSD11を上下に移動させることで、調整後のゲイン補正値として所望の値を指定することができる。

スライダSD11によりゲイン補正値が調整されると、その調整に応じてゲイン補正値表示領域R11の表示が更新される。すなわち、ここではスライダSD11に対する操作に応じて曲線L12が変化する。

このように図８に示す例では、聴取者から見た右側の各方向のゲイン補正値と、聴取者から見た左側の各方向のゲイン補正値とを独立して調整することが可能である。

特に、この例では予め用意された複数の聴覚特性のなかから任意のものを選択することで、所望の聴覚特性に応じたゲイン補正値、つまり聴覚特性テーブルを指定することができる。そして、スライダを操作することで、選択した聴覚特性に応じたゲイン補正値をさらに調整することができる。

例えば、予め用意された聴覚特性は平均的なものであるため、ユーザはスライダを操作することで、ユーザ個人の聴覚特性に応じたものとなるようにゲイン補正値を調整することができる。また、スライダを操作してゲイン補正値を調整すれば、後方のオブジェクトについては大きめのゲイン補正をして強調させるなどといったユーザの意図に沿った調整を行うこともできるようになる。

このようにして各Azimuth値におけるゲイン補正値が設定および調整され、例えば図示せぬ保存ボタン等が操作されると、ゲイン補正値表示領域R11に表示されたゲイン補正値と、各Azimuth値とが対応付けられた２次元聴覚特性テーブルが生成される。

なお、図８では、聴取者から見た右側と左側の各方向でゲイン補正値が異なる例、つまりゲイン補正値が左右非対称である例について説明した。しかし、ゲイン補正値は左右対称となるようにしてもよい。

そのような場合、例えば図９に示すようにゲイン補正値の設定や調整が行われる。なお、図９において図８における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図９は、3Dオーディオのコンテンツ制作ツールの表示画面を示しており、この例では表示画面にはプルダウンボックスBX11、ゲイン補正値表示領域R21、およびスライダ表示領域R22が表示されている。

ゲイン補正値表示領域R21には、図８のゲイン補正値表示領域R11と同様に各Azimuth値でのゲイン補正値が表示されるが、ここでは左右の各方向のゲイン補正値が共通であるため、ゲイン補正値を示す曲線が１つだけ表示されている。

例えば、左右の各方向のゲイン補正値の平均値を、左右で共通化されたゲイン補正値とするなどとすることができる。この場合、例えば図８の例におけるAzimuth値が90度および-90度のそれぞれのゲイン補正値の平均値が、図９の例におけるAzimuth値が±90度の共通のゲイン補正値とされる。

また、スライダ表示領域R22には、ゲイン補正値表示領域R21に表示されたゲイン補正値を調整するためのスライダ等が表示されている。

例えば、この例ではユーザはスライダSD21を上下に移動させることで、Azimuth値が±30度の共通のゲイン補正値を調整することができる。

さらに、例えば図１０に示すようにElevation値ごとに各Azimuth値でのゲイン補正値を調整できるようにしてもよい。なお、図１０において図８における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１０は3Dオーディオのコンテンツ制作ツールの表示画面を示しており、この例では表示画面にはプルダウンボックスBX11、ゲイン補正値表示領域R31乃至ゲイン補正値表示領域R33、およびスライダ表示領域R34乃至スライダ表示領域R36が表示されている。

図１０に示す例では、図９に示した例と同様にゲイン補正値が左右対称となっている。

ゲイン補正値表示領域R31には、Elevation値が30度であるときの各Azimuth値でのゲイン補正値が表示されており、ユーザはスライダ表示領域R34に表示されたスライダ等を操作することで、それらのゲイン補正値を調整することができる。

同様に、ゲイン補正値表示領域R32には、Elevation値が0度であるときの各Azimuth値でのゲイン補正値が表示されており、ユーザはスライダ表示領域R35に表示されたスライダ等を操作することで、それらのゲイン補正値を調整することができる。

また、ゲイン補正値表示領域R33には、Elevation値が-30度であるときの各Azimuth値でのゲイン補正値が表示されており、ユーザはスライダ表示領域R36に表示されたスライダ等を操作することで、それらのゲイン補正値を調整することができる。

このようにして各Azimuth値におけるゲイン補正値が設定および調整され、例えば図示せぬ保存ボタン等が操作されると、ゲイン補正値とElevation値およびAzimuth値とが対応付けられた３次元聴覚特性テーブルが生成される。

さらに、3Dオーディオのコンテンツ制作ツールの表示画面の他の例として、図１１に示すようにレーダーチャート型のゲイン補正値表示領域が設けられるようにしてもよい。なお、図１１において図１０における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１１の例では表示画面にはプルダウンボックスBX11、ゲイン補正値表示領域R41乃至ゲイン補正値表示領域R43、およびスライダ表示領域R34乃至スライダ表示領域R36が表示されている。この例では、図１０に示した例と同様にゲイン補正値が左右対称となっている。

ゲイン補正値表示領域R41には、Elevation値が30度であるときの各Azimuth値でのゲイン補正値が表示されており、ユーザはスライダ表示領域R34に表示されたスライダ等を操作することで、それらのゲイン補正値を調整することができる。

特にゲイン補正値表示領域R41では、レーダーチャートの各項目がAzimuth値となっているので、ユーザは各方向（Azimuth値）とそれらの方向のゲイン補正値だけでなく、各方向間のゲイン補正値の相対的な差も瞬時に把握することができる。

ゲイン補正値表示領域R41と同様に、ゲイン補正値表示領域R42には、Elevation値が0度であるときの各Azimuth値でのゲイン補正値が表示されている。また、ゲイン補正値表示領域R43には、Elevation値が-30度であるときの各Azimuth値でのゲイン補正値が表示されている。

〈情報処理装置の構成例〉
次に、図８等を参照して説明した3Dオーディオのコンテンツ制作ツールにより聴覚特性テーブルを生成する情報処理装置について説明する。

そのような情報処理装置は、例えば図１２に示すように構成される。

図１２に示される情報処理装置５１は、コンテンツ制作ツールを実現し、そのコンテンツ制作ツールの表示画面を表示装置５２に表示させる。

情報処理装置５１は、入力部６１、聴覚特性テーブル生成部６２、聴覚特性テーブル保持部６３、および表示制御部６４を有している。

入力部６１は、例えばマウスやキーボード、スイッチ、ボタン、タッチパネル等からなり、ユーザの操作に応じた入力信号を聴覚特性テーブル生成部６２に供給する。

聴覚特性テーブル生成部６２は、入力部６１から供給された入力信号、および聴覚特性テーブル保持部６３に保持されているプリセットされた聴覚特性の聴覚特性テーブルに基づいて新たな聴覚特性テーブルを生成し、聴覚特性テーブル保持部６３に供給する。

また、聴覚特性テーブル生成部６２は、聴覚特性テーブル生成時に適宜、表示制御部６４に対して表示装置５２における表示画面の表示の更新等を指示する。

聴覚特性テーブル保持部６３は、予めプリセットされた聴覚特性の聴覚特性テーブルを保持しており、その聴覚特性テーブルを適宜、聴覚特性テーブル生成部６２に供給するとともに、聴覚特性テーブル生成部６２から供給された聴覚特性テーブルを保持する。

表示制御部６４は、聴覚特性テーブル生成部６２の指示に従って表示装置５２による表示画面の表示を制御する。

なお、図１２に示した入力部６１、聴覚特性テーブル生成部６２、および表示制御部６４が図４に示した情報処理装置１１に設けられるようにしてもよい。

〈テーブル生成処理の説明〉
続いて、情報処理装置５１の動作について説明する。

すなわち、以下、図１３のフローチャートを参照して、情報処理装置５１により行われるテーブル生成処理について説明する。

ステップＳ４１において表示制御部６４は、聴覚特性テーブル生成部６２の指示に応じて、表示装置５２にコンテンツ制作ツールの表示画面を表示させる。

具体的には、例えば表示制御部６４は、表示装置５２に図８や図９、図１０、図１１などに示した表示画面を表示させる。

このとき、例えばユーザが入力部６１を操作してプリセットされた聴覚特性を選択した場合には、聴覚特性テーブル生成部６２は、入力部６１から供給される入力信号に応じて、ユーザにより選択された聴覚特性に対応する聴覚特性テーブルを聴覚特性テーブル保持部６３から読み出す。

そして聴覚特性テーブル生成部６２は、読み出した聴覚特性テーブルにより示される各Azimuth値のゲイン補正値が表示装置５２に表示されるように、ゲイン補正値表示領域の表示を表示制御部６４に指示する。表示制御部６４は、聴覚特性テーブル生成部６２の指示に応じて、表示装置５２における表示画面にゲイン補正値表示領域を表示させる。

表示装置５２にコンテンツ制作ツールの表示画面が表示されると、ユーザは適宜、入力部６１を操作して、スライダ表示領域に表示されたスライダ等を操作することにより、ゲイン補正値の変更（調整）を指示する。

すると、ステップＳ４２において聴覚特性テーブル生成部６２は、入力部６１から供給された入力信号に応じて聴覚特性テーブルを生成する。

すなわち、聴覚特性テーブル生成部６２は、聴覚特性テーブル保持部６３から読み出した聴覚特性テーブルを、入力部６１から供給された入力信号に応じて変更することで、新たな聴覚特性テーブルを生成する。すなわち、プリセットされた聴覚特性テーブルが、スライダ表示領域に表示されたスライダ等の操作に応じて変更（更新）される。

このようにしてスライダ等の操作に応じて各Azimuth値のゲイン補正値が調整（変更）され、新たな聴覚特性テーブルが生成されると、聴覚特性テーブル生成部６２は、その新たな聴覚特性テーブルに応じてゲイン補正値表示領域の表示の更新を表示制御部６４に指示する。

ステップＳ４３において表示制御部６４は、聴覚特性テーブル生成部６２の指示に従って表示装置５２を制御し、新たに生成された聴覚特性テーブルに応じた表示を行う。

具体的には、表示制御部６４は、表示装置５２における表示画面上のゲイン補正値表示領域の表示を、新たに生成された聴覚特性テーブルに応じて更新させる。

ステップＳ４４において聴覚特性テーブル生成部６２は、入力部６１から供給される入力信号に基づいて、処理を終了するか否かを判定する。

例えば聴覚特性テーブル生成部６２は、ユーザが入力部６１を操作して、表示装置５２に表示されている保存ボタン等を操作することで、入力信号として聴覚特性テーブルの保存を指示する旨の信号が供給された場合、処理を終了すると判定する。

ステップＳ４４において、まだ処理を終了しないと判定された場合、処理はステップＳ４２に戻り、上述した処理が繰り返し行われる。

これに対して、ステップＳ４４において処理を終了すると判定された場合、処理はステップＳ４５に進む。

ステップＳ４５において聴覚特性テーブル生成部６２は、最後に行ったステップＳ４２で得られた聴覚特性テーブルを、新たに生成された聴覚特性テーブルとして聴覚特性テーブル保持部６３に供給し、保持させる。

聴覚特性テーブル保持部６３に聴覚特性テーブルが保持されると、テーブル生成処理は終了する。

以上のようにして情報処理装置５１は、表示装置５２にコンテンツ制作ツールの表示画面を表示させ、ユーザの操作に応じてゲイン補正値を調整することで、新たな聴覚特性テーブルを生成する。

このようにすることで、ユーザは簡単かつ直感的に所望の聴覚特性に応じた聴覚特性テーブルを得ることができる。したがって、ユーザは、より簡単に、すなわち短時間で十分に高い品質の3D Audioコンテンツを制作することができる。

〈第３の実施の形態〉
〈音声処理装置の構成例〉
また、例えば自由視点のコンテンツでは、３次元空間における聴取者の位置を自由に移動させることができるため、聴取者の移動に伴って３次元空間におけるオブジェクトと聴取者の相対的な位置関係も変化する。

このように聴取者の位置を自由に移動させることができる場合に、聴取者の位置の変更に応じて音源位置を補正し、その結果得られた補正位置情報に基づいてレンダリング処理を行う技術が提案されている（例えば、国際公開第２０１５／１０７９２６号参照）。

本技術は、このような自由視点のコンテンツを再生する再生装置にも適用可能である。そのような場合、補正位置情報だけでなく、上述の３次元の聴覚特性も用いられてゲイン補正が行われる。

図１４は、本技術を適用した、自由視点のコンテンツを再生する再生装置として機能する音声処理装置の一実施の形態の構成例を示す図である。なお、図１４において図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１４に示す音声処理装置９１は、入力部１２１、位置情報補正部１２２、ゲイン／周波数特性補正部１２３、聴覚特性テーブル保持部２２、空間音響特性付加部１２４、レンダラ処理部１２５、および畳み込み処理部１２６を有している。

音声処理装置９１には、再生対象となるコンテンツのオーディオ情報として、オブジェクトごとに、オブジェクトのオーディオ信号と、オーディオ信号のメタデータとが供給される。なお、図１４では、情報処理装置９１に２つのオブジェクトのオーディオ信号およびメタデータが供給される例について説明するが、これに限らずオブジェクトの数はいくつであってもよい。

ここで、音声処理装置９１に供給されるメタデータは、オブジェクトの位置情報およびゲイン初期値である。

また、位置情報は上述したAzimuth値、Elevation値、およびRadius値からなり、３次元空間内における基準位置から見たオブジェクトの位置、すなわちオブジェクトの音の定位位置を示す情報である。なお、以下、３次元空間における基準位置を、特に標準聴取位置とも称することとする。

入力部１２１はマウスやボタン、タッチパネルなどからなり、ユーザにより操作されると、その操作に応じた信号を出力する。例えば入力部１２１は、ユーザによる想定聴取位置の入力を受け付け、ユーザにより入力された想定聴取位置を示す想定聴取位置情報を位置情報補正部１２２および空間音響特性付加部１２４に供給する。

ここで、想定聴取位置は、再現したい仮想の音場における、コンテンツを構成する音の聴取位置である。したがって、想定聴取位置は、予め定められた標準聴取位置を変更（補正）したときの変更後の位置を示しているということができる。

位置情報補正部１２２は、入力部１２１から供給された想定聴取位置情報と、外部から供給された聴取者の向きを示す方向情報とに基づいて、外部から供給されたオブジェクトのメタデータとしての位置情報を補正する。

位置情報補正部１２２は、位置情報の補正により得られた補正位置情報をゲイン／周波数特性補正部１２３およびレンダラ処理部１２５に供給する。

なお、方向情報は、例えばユーザ（聴取者）の頭部に設けられたジャイロセンサ等から得ることができる。また、補正位置情報は、想定聴取位置におり、方向情報により示される方向を向いている聴取者から見たオブジェクトの位置、つまりオブジェクトの音の定位位置を示す情報である。

ゲイン／周波数特性補正部１２３は、位置情報補正部１２２から供給された補正位置情報と、聴覚特性テーブル保持部２２に保持されている聴覚特性テーブルと、外部から供給されたメタデータとに基づいて、外部から供給されたオブジェクトのオーディオ信号のゲイン補正および周波数特性補正を行う。

ゲイン／周波数特性補正部１２３は、ゲイン補正および周波数特性補正により得られたオーディオ信号を空間音響特性付加部１２４に供給する。

空間音響特性付加部１２４は、入力部１２１から供給された想定聴取位置情報と、外部から供給されたオブジェクトの位置情報とに基づいて、ゲイン／周波数特性補正部１２３から供給されたオーディオ信号に空間音響特性を付加し、レンダラ処理部１２５に供給する。

レンダラ処理部１２５は、位置情報補正部１２２から供給された補正位置情報に基づいて、空間音響特性付加部１２４から供給されたオーディオ信号に対するレンダリング処理、すなわちマッピング処理を行い、２以上であるM個のチャンネルの再生信号を生成する。

すなわち、各オブジェクトのオーディオ信号から、Mチャンネルの再生信号が生成される。レンダラ処理部１２５は、生成されたMチャンネルの再生信号を畳み込み処理部１２６に供給する。

このようにして得られたMチャンネルの再生信号は、仮想的なM個のスピーカ（Mチャンネルのスピーカ）で再生することで、再現したい仮想の音場の想定聴取位置において聴取される、各オブジェクトから出力された音を再現するオーディオ信号である。

畳み込み処理部１２６は、レンダラ処理部１２５から供給されたMチャンネルの再生信号に対する畳み込み処理を行い、２チャンネルの再生信号を生成して出力する。

すなわち、この例ではコンテンツの再生側の機器はヘッドホンとされており、畳み込み処理部１２６では、ヘッドホンに設けられた２つのスピーカ（ドライバ）で再生される再生信号が生成され、出力される。

〈再生信号生成処理の説明〉
続いて、音声処理装置９１の動作について説明する。

すなわち、以下、図１５のフローチャートを参照して、音声処理装置９１により行われる再生信号生成処理について説明する。

ステップＳ７１において入力部１２１は、想定聴取位置の入力を受け付ける。

入力部１２１は、ユーザが入力部１２１を操作して想定聴取位置を入力すると、その想定聴取位置を示す想定聴取位置情報を位置情報補正部１２２および空間音響特性付加部１２４に供給する。

ステップＳ７２において位置情報補正部１２２は、入力部１２１から供給された想定聴取位置情報と、外部から供給されたオブジェクトの位置情報および方向情報とに基づいて補正位置情報を算出する。

位置情報補正部１２２は、各オブジェクトについて得られた補正位置情報を、ゲイン／周波数特性補正部１２３およびレンダラ処理部１２５に供給する。

ステップＳ７３において、ゲイン／周波数特性補正部１２３は、位置情報補正部１２２から供給された補正位置情報と、外部から供給されたメタデータと、聴覚特性テーブル保持部２２に保持されている聴覚特性テーブルとに基づいて、外部から供給されたオブジェクトのオーディオ信号のゲイン補正および周波数特性補正を行う。

具体的には、例えばゲイン／周波数特性補正部１２３は、聴覚特性テーブルから、補正位置情報を構成するAzimuth値、Elevation値、およびRadius値に対応付けられているゲイン補正値を読み出す。

また、ゲイン／周波数特性補正部１２３は、メタデータとして供給された位置情報のRadius値と、補正位置情報のRadius値との比をゲイン補正値に乗算することでゲイン補正値を補正し、その結果得られたゲイン補正値によりゲイン初期値を補正してゲイン値を得る。

これにより、想定聴取位置から見たオブジェクトの方向に応じたゲイン補正と、想定聴取位置からオブジェクトまでの距離に応じたゲイン補正とがゲイン値によるゲイン補正によって実現されることになる。

さらにゲイン／周波数特性補正部１２３は、メタデータとして供給された位置情報のRadius値と、補正位置情報のRadius値とに基づいてフィルタ係数を選択する。

このようにして選択されたフィルタ係数は、所望の周波数特性補正を実現するためのフィルタ処理に用いられる。より具体的には、例えばフィルタ係数は、想定聴取位置からオブジェクトまでの距離に応じて、再現したい仮想の音場の壁や天井によって、オブジェクトからの音の高域成分が減衰する特性を再現するためのものである。

ゲイン／周波数特性補正部１２３は、以上のようにして得られたフィルタ係数とゲイン値に基づいて、オブジェクトのオーディオ信号に対するゲイン補正およびフィルタ処理を行うことで、ゲイン補正と周波数特性補正を実現する。

ゲイン／周波数特性補正部１２３は、ゲイン補正および周波数特性補正により得られた各オブジェクトのオーディオ信号を空間音響特性付加部１２４に供給する。

ステップＳ７４において空間音響特性付加部１２４は、入力部１２１から供給された想定聴取位置情報と、外部から供給されたオブジェクトの位置情報とに基づいて、ゲイン／周波数特性補正部１２３から供給されたオーディオ信号に空間音響特性を付加し、レンダラ処理部１２５に供給する。

例えば空間音響特性付加部１２４は、オブジェクトの位置情報と想定聴取位置情報とから定まる遅延量およびゲイン量に基づいて、オーディオ信号に対してマルチタップディレイ処理やコムフィルタ処理、オールパスフィルタ処理を施すことで、空間音響特性の付加を行う。これにより、例えば空間音響特性として初期反射や残響特性などがオーディオ信号に付加される。

ステップＳ７５においてレンダラ処理部１２５は、位置情報補正部１２２から供給された補正位置情報に基づいて、空間音響特性付加部１２４から供給されたオーディオ信号に対するマッピング処理を行うことで、Mチャンネルの再生信号を生成し、畳み込み処理部１２６に供給する。

例えばステップＳ７５の処理では、VBAPにより再生信号が生成されるが、その他、どのような手法でMチャンネルの再生信号が生成されるようにしてもよい。

ステップＳ７６において畳み込み処理部１２６は、レンダラ処理部１２５から供給されたMチャンネルの再生信号に対する畳み込み処理を行うことで、２チャンネルの再生信号を生成し、出力する。例えば畳み込み処理としてBRIR（Binaural Room Impulse Response）処理が行われる。

２チャンネルの再生信号が生成されて出力されると、再生信号生成処理は終了する。

以上のようにして音声処理装置９１は、想定聴取位置情報に基づいて補正位置情報を算出するとともに、得られた補正位置情報や想定聴取位置情報に基づいて、各オブジェクトのオーディオ信号のゲイン補正や周波数特性補正を行ったり、空間音響特性を付加したりする。

これにより、より簡単に適切なゲイン補正や周波数特性補正を行うことができる。また、各オブジェクトから出力された音の任意の想定聴取位置での聞こえ方をリアルに再現することができる。したがって、ユーザはコンテンツの再生時に自身の嗜好に合わせて、自由に聴取位置を指定することができるようになり、より自由度の高いオーディオ再生を実現することができる。

なお、ステップＳ７３では、補正位置情報に基づいて、想定聴取位置からオブジェクトまでの距離に応じたゲイン補正と周波数特性補正が行われることに加え、聴覚特性テーブルが用いられて、３次元の聴覚特性に基づいたゲイン補正も行われる。

このとき、ステップＳ７３で用いられる聴覚特性テーブルは、例えば図１６に示すものなどとされる。

図１６に示す聴覚特性テーブルは、図６に示した聴覚特性テーブルにおけるゲイン補正値の符号を反転させることで得られたものとなっている。

このような聴覚特性テーブルを用いてゲイン初期値を補正すれば、同じオブジェクト（音源）であっても、そのオブジェクトからの音の到来方向によって聴感上の音の大きさが変化するという現象をゲイン補正により再現することができる。これにより、よりリアリティの高い音場再現を実現することができる。

一方で、再生条件によっては図１６に示した聴覚特性テーブルよりも、図６に示した聴覚特性テーブルを用いる方がより適切なゲイン補正を実現できることもある。

すなわち、例えばコンテンツの再生にヘッドホンが用いられるのではなく、３次元空間に配置された実スピーカを用いたスピーカ再生が行われる場合について考える。

この場合、音声処理装置９１では、レンダラ処理部１２５により得られたMチャンネルの再生信号が、それらのM個の各チャンネルに対応するスピーカに供給されてコンテンツの音が再生されることになる。

このような実スピーカを用いたコンテンツ再生では、実際に音源、つまりオブジェクトの音が想定聴取位置から見たオブジェクトの位置で再生される。

そのため、音の到来方向によって聴感上の音の大きさが変化するという現象を再現するようなゲイン補正は不要であり、むしろ音量バランスを変えないように、聴感上の音の大きさを変化させたくないこともある。

そのようなときには、ステップＳ７３において図６に示した聴覚特性テーブルを用いてゲイン補正値を決定し、そのゲイン補正値を用いてゲイン初期値を補正すればよい。そうすれば、オブジェクトのある方向によらず、聴感上の音の大きさが一定になるようなゲイン補正が行われる。

〈第３の実施の形態の変形例１〉
〈ゲイン聴覚特性情報の符号伝送について〉
ところで、オーディオ信号やメタデータなどが符号化されて符号化ビットストリームにより伝送されることがある。

そのような場合、例えばゲイン／周波数特性補正部１２３において、聴覚特性テーブルを用いたゲイン補正を行うか否かのフラグ情報等が含まれたゲイン聴覚特性情報を符号化ビットストリームにより伝送することもできる。

このとき、ゲイン聴覚特性情報にはフラグ情報だけでなく、聴覚特性テーブルや、複数の聴覚特性テーブルのうちのゲイン補正に用いる聴覚特性テーブルを示すインデックス情報なども含まれるようにすることができる。

このようなゲイン聴覚特性情報のシンタックスは、例えば図１７に示すようなものとすることができる。

図１７の例では、文字「numGainAuditoryPropertyTables」は、符号化ビットストリームにより伝送する聴覚特性テーブルの数、つまりゲイン聴覚特性情報に含まれている聴覚特性テーブルの数を示している。

また、文字「numElements[i]」は、ゲイン聴覚特性情報に含まれているi番目の聴覚特性テーブルを構成する要素の数を示している。

ここでいう要素とは、互いに対応付けられたAzimuth値、Elevation値、Radius値、およびゲイン補正値である。

さらに文字「azimuth[i][n]」、「elevation[i][n]」、および「radius[i][n]」は、i番目の聴覚特性テーブルのn番目の要素を構成するAzimuth値、Elevation値、およびRadius値を示している。

換言すれば、azimuth[i][n]、elevation[i][n]、およびradius[i][n]は、音源であるオブジェクトの音の到来方向、つまりオブジェクトの位置を示す水平角度、垂直角度、および距離（半径）を示している。

また、文字「gainCompensValue[i][n]」は、i番目の聴覚特性テーブルのn番目の要素を構成するゲイン補正値、すなわちazimuth[i][n]、elevation[i][n]、およびradius[i][n]により示される位置（方向）に対するゲイン補正値を示している。

さらに、文字「hasGainCompensObjects」は、聴覚特性テーブルを用いたゲイン補正を行うオブジェクトがあるか否かを示すフラグ情報である。

また、文字「num_objects」は、コンテンツを構成するオブジェクトの数（オブジェクト数）を示しており、このオブジェクト数num_objectsは、ゲイン聴覚特性情報とは別にコンテンツの再生側の装置、すなわち音声処理装置に伝送されているものとする。

フラグ情報hasGainCompensObjectsの値が、聴覚特性テーブルを用いたゲイン補正を行うオブジェクトがある旨の値である場合、ゲイン聴覚特性情報にはオブジェクト数num_objectsの分だけ文字「isGainCompensObject[o]」により示されるフラグ情報が含まれている。

フラグ情報isGainCompensObject[o]は、o番目のオブジェクトに対して、聴覚特性テーブルを用いたゲイン補正を行うか否かを示している。

さらに、フラグ情報isGainCompensObject[o]の値が、聴覚特性テーブルを用いたゲイン補正を行う旨の値である場合、ゲイン聴覚特性情報には文字「applyTableIndex[o]」により示されるインデックスが含まれている。

このインデックスapplyTableIndex[o]は、o番目のオブジェクトに対してゲイン補正を行うときに用いる聴覚特性テーブルを示す情報である。

例えば聴覚特性テーブルの数numGainAuditoryPropertyTablesが0である場合、聴覚特性テーブルは伝送されず、ゲイン聴覚特性情報にはインデックスapplyTableIndex[o]も含まれていない。すなわち、インデックスapplyTableIndex[o]は伝送されない。

そのような場合、例えば聴覚特性テーブル保持部２２に保持されている聴覚特性テーブルが用いられてゲイン補正が行われるようにしてもよいし、ゲイン補正が行われないようにしてもよい。

〈音声処理装置の構成例〉
以上のようなゲイン聴覚特性情報が符号化ビットストリームにより伝送される場合、音声処理装置は、例えば図１８に示すように構成される。なお、図１８において図１４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１８に示す音声処理装置１５１は、入力部１２１、位置情報補正部１２２、ゲイン／周波数特性補正部１２３、聴覚特性テーブル保持部２２、空間音響特性付加部１２４、レンダラ処理部１２５、および畳み込み処理部１２６を有している。

音声処理装置１５１の構成は、図１４に示した音声処理装置９１の構成と同じであるが、符号化ビットストリームから抽出されたゲイン聴覚特性情報から読み出された聴覚特性テーブル等がゲイン／周波数特性補正部１２３に供給される点で、音声処理装置９１とは異なる。

すなわち、音声処理装置１５１では、ゲイン／周波数特性補正部１２３にはゲイン聴覚特性情報から読み出された聴覚特性テーブル、フラグ情報hasGainCompensObjects、フラグ情報isGainCompensObject[o]、インデックスapplyTableIndex[o]などが供給される。

音声処理装置１５１においては、基本的には図１５を参照して説明した再生信号生成処理が行われる。

但し、ステップＳ７３ではゲイン／周波数特性補正部１２３は、聴覚特性テーブルの数numGainAuditoryPropertyTablesが0である場合、つまり外部から聴覚特性テーブルが供給されなかった場合、聴覚特性テーブル保持部２２に保持されている聴覚特性テーブルを用いてゲイン補正を行う。

これに対して、ゲイン／周波数特性補正部１２３は、外部から聴覚特性テーブルが供給された場合、その供給された聴覚特性テーブルを用いてゲイン補正を行う。

具体的には、ゲイン／周波数特性補正部１２３は、外部から供給された複数の聴覚特性テーブルのうち、インデックスapplyTableIndex[o]により示される聴覚特性テーブルを用いて、o番目のオブジェクトに対するゲイン補正を行う。

但し、ゲイン／周波数特性補正部１２３は、フラグ情報isGainCompensObject[o]の値が、聴覚特性テーブルを用いたゲイン補正を行わない旨の値であるオブジェクトについては、聴覚特性テーブルを用いたゲイン補正は行わない。

すなわち、ゲイン／周波数特性補正部１２３では、聴覚特性テーブルを用いたゲイン補正を行う旨の値のフラグ情報isGainCompensObject[o]が供給された場合、インデックスapplyTableIndex[o]により示される聴覚特性テーブルを用いたゲイン補正が行われる。

また、例えばゲイン／周波数特性補正部１２３は、フラグ情報hasGainCompensObjectsの値が、聴覚特性テーブルを用いたゲイン補正を行うオブジェクトがない旨の値である場合には、オブジェクトに対する聴覚特性テーブルを用いたゲイン補正は行わない。

以上のように、本技術によれば、オブジェクトオーディオの3Dミキシングや、自由視点のコンテンツの再生などにおいて、各オブジェクトのゲイン情報、すなわちゲイン値を簡単に決定することができる。これにより、より簡単にゲイン補正を行うことができる。

また、本技術によれば、聴取位置を変更したときの聴取者とオブジェクト（音源）の相対的な位置関係の変化に伴う聴感上の音量の変化を適切に補正することができる。

〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定するゲイン補正値決定部を備える
情報処理装置。
（２）
前記ゲイン補正値決定部は、音の到来方向に対する前記聴取者の３次元の聴覚特性に基づいて前記補正値を決定する
（１）に記載の情報処理装置。
（３）
前記ゲイン補正値決定部は、前記聴取者の向きに基づいて前記補正値を決定する
（１）または（２）に記載の情報処理装置。
（４）
前記ゲイン補正値決定部は、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定する
（１）乃至（３）の何れか一項に記載の情報処理装置。
（５）
前記ゲイン補正値決定部は、前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する
（１）乃至（４）の何れか一項に記載の情報処理装置。
（６）
前記ゲイン補正値決定部は、所定の前記方向に応じた前記補正値を、他の方向に応じた前記補正値に基づく補間処理により求めることで、前記所定の前記方向に応じた前記補正値を決定する
（１）乃至（５）の何れか一項に記載の情報処理装置。
（７）
前記ゲイン補正値決定部は、前記補間処理としてVBAPを行う
（６）に記載の情報処理装置。
（８）
前記ゲイン補正値決定部は、リニア値またはデシベル値で前記補正値を求める
（７）に記載の情報処理装置。
（９）
情報処理装置が、
聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定する
情報処理方法。
（１０）
聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定する
ステップを含む処理をコンピュータに実行させるプログラム。
（１１）
オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行うゲイン補正部と、
前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成するレンダラ処理部と
を備える再生装置。
（１２）
前記ゲイン補正部は、前記オーディオ信号のメタデータに含まれている前記ゲイン値を前記補正値により補正する
（１１）に記載の再生装置。
（１３）
前記ゲイン補正部は、前記ゲイン値の補正を行う旨のフラグが供給された場合、前記補正値により前記ゲイン値を補正する
（１１）または（１２）に記載の再生装置。
（１４）
前記ゲイン補正部は、前記聴取者から見た前記オーディオオブジェクトの方向と、前記補正値とが対応付けられた複数のテーブルのうち、供給されたインデックスにより示される前記テーブルを用いて前記補正値を決定する
（１３）に記載の再生装置。
（１５）
前記聴取者の位置を示す情報に基づいて、前記オーディオ信号のメタデータに含まれている前記位置情報を補正する位置情報補正部をさらに備え、
前記ゲイン補正部は、補正された前記位置情報に基づいて前記補正値を決定する
（１１）乃至（１４）の何れか一項に記載の再生装置。
（１６）
前記位置情報補正部は、前記聴取者の位置を示す情報、および前記聴取者の向きを示す方向情報に基づいて前記位置情報を補正する
（１５）に記載の再生装置。
（１７）
再生装置が、
オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、
前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行い、
前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成する
再生方法。
（１８）
オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、
前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行い、
前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成する
ステップを含む処理をコンピュータに実行させるプログラム。

１１情報処理装置，２１ゲイン補正値決定部，２２聴覚特性テーブル保持部，６２聴覚特性テーブル生成部，６４表示制御部，１２２位置情報補正部，１２３ゲイン／周波数特性補正部

Claims

聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定するゲイン補正値決定部を備え、
前記ゲイン補正値決定部は、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する
情報処理装置。
前記ゲイン補正値決定部は、音の到来方向に対する前記聴取者の３次元の聴覚特性に基づいて前記補正値を決定する
請求項１に記載の情報処理装置。
前記ゲイン補正値決定部は、前記聴取者の向きに基づいて前記補正値を決定する
請求項１に記載の情報処理装置。
前記ゲイン補正値決定部は、所定の前記方向に応じた前記補正値を、他の方向に応じた前記補正値に基づく補間処理により求めることで、前記所定の前記方向に応じた前記補正値を決定する
請求項１に記載の情報処理装置。
前記ゲイン補正値決定部は、前記補間処理としてVBAPを行う
請求項４に記載の情報処理装置。
前記ゲイン補正値決定部は、リニア値またはデシベル値で前記補正値を求める
請求項５に記載の情報処理装置。
情報処理装置が、
聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定する
ステップを含み、
前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する
情報処理方法。
聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定する
ステップを含む処理をコンピュータに実行させ、
前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する
プログラム。
オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行うゲイン補正部と、
前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成するレンダラ処理部と
を備え、
前記ゲイン補正部は、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する
再生装置。
前記ゲイン補正部は、前記オーディオ信号のメタデータに含まれている前記ゲイン値を前記補正値により補正する
請求項９に記載の再生装置。
前記ゲイン補正部は、前記ゲイン値の補正を行う旨のフラグが供給された場合、前記補正値により前記ゲイン値を補正する
請求項９に記載の再生装置。
前記ゲイン補正部は、前記聴取者から見た前記オーディオオブジェクトの方向と、前記補正値とが対応付けられた複数のテーブルのうち、供給されたインデックスにより示される前記テーブルを用いて前記補正値を決定する
請求項１１に記載の再生装置。
前記聴取者の位置を示す情報に基づいて、前記オーディオ信号のメタデータに含まれている前記位置情報を補正する位置情報補正部をさらに備え、
前記ゲイン補正部は、補正された前記位置情報に基づいて前記補正値を決定する
請求項９に記載の再生装置。
前記位置情報補正部は、前記聴取者の位置を示す情報、および前記聴取者の向きを示す方向情報に基づいて前記位置情報を補正する
請求項１３に記載の再生装置。
再生装置が、
オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、
前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行い、
前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成する
ステップを含み、
前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する
再生方法。
オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、
前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行い、
前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成する
ステップを含む処理をコンピュータに実行させ、
前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する
プログラム。