JP7513020B2 - 情報処理装置および方法、再生装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、再生装置および方法、並びにプログラム Download PDF

Info

Publication number
JP7513020B2
JP7513020B2 JP2021513568A JP2021513568A JP7513020B2 JP 7513020 B2 JP7513020 B2 JP 7513020B2 JP 2021513568 A JP2021513568 A JP 2021513568A JP 2021513568 A JP2021513568 A JP 2021513568A JP 7513020 B2 JP7513020 B2 JP 7513020B2
Authority
JP
Japan
Prior art keywords
correction value
gain
listener
value
audio object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021513568A
Other languages
English (en)
Other versions
JPWO2020209103A1 (ja
Inventor
実 辻
徹 知念
優樹 山本
彬人 中井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020209103A1 publication Critical patent/JPWO2020209103A1/ja
Application granted granted Critical
Publication of JP7513020B2 publication Critical patent/JP7513020B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本技術は、情報処理装置および方法、再生装置および方法、並びにプログラムに関し、特に、より簡単にゲイン補正を行うことができるようにした情報処理装置および方法、再生装置および方法、並びにプログラムに関する。
従来、MPEG(Moving Picture Experts Group)-H 3D Audio規格が知られている(例えば、非特許文献1および非特許文献2参照)。
MPEG-H 3D Audio規格等で扱われる3D Audioでは、3次元的な音の方向や距離、拡がりなどを再現することができ、従来のステレオ再生に比べ、より臨場感のあるオーディオ再生が可能となる。
ISO/IEC 23008-3, MPEG-H 3D Audio ISO/IEC 23008-3:2015/AMENDMENT3, MPEG-H 3D Audio Phase 2
しかしながら3D Audioでは、コンテンツ(3D Audioコンテンツ)の制作の時間的なコストが高くなってしまう。
例えば3D Audioでは、ステレオと比較してオブジェクトの位置情報、すなわち音源の位置情報の次元数が高い(3D Audioは3次元でステレオは2次元)。そのため、3D Audioでは、特にオブジェクトの位置を示す水平角度や垂直角度、距離、オブジェクトについてのゲインなどといったオブジェクトごとのメタデータを構成するパラメタを決定する作業において、時間的なコストが高くなってしまう。
また、3D Audioコンテンツはステレオコンテンツに比べて、コンテンツと制作者の両面で圧倒的に数が少ない。それゆえ、品質の高い3D Audioコンテンツが少ないのが現状である。
一方で、聴覚特性として、音の大きさの感じ方は、その音の到来方向によって異なる。すなわち、同じオブジェクトの音であっても、オブジェクトが聴取者に対して前方にある場合と側方にある場合、上方にある場合と下方にある場合で、それぞれ聴感上の音の大きさが異なるため、このような聴覚特性を踏まえたゲイン補正が必要である。
以上のことから、より簡単にゲイン補正を行い、これにより、短時間で十分な品質の3D Audioコンテンツを制作できるようにすることが望まれている。
本技術は、このような状況に鑑みてなされたものであり、より簡単にゲイン補正を行うことができるようにするものである。
本技術の第1の側面の情報処理装置は、聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定するゲイン補正値決定部を備え、前記ゲイン補正値決定部は、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する。
本技術の第1の側面の情報処理方法またはプログラムは、聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定するステップを含み、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する。
本技術の第1の側面においては、聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値が決定される。また、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値が決定されるか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値が決定される。
本技術の第2の側面の再生装置は、オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行うゲイン補正部と、前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成するレンダラ処理部とを備え、前記ゲイン補正部は、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する。
本技術の第2の側面の再生方法またはプログラムは、オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行い、前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成するステップを含み、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する。
本技術の第2の側面においては、オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値が決定され、前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正が行われ、前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理が行われ、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号が生成される。また、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値が決定されるか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値が決定される。
音の到来方向に対する聴覚特性について説明する図である。 音の到来方向に対する聴覚特性について説明する図である。 音の到来方向に対する聴覚特性について説明する図である。 情報処理装置の構成例を示す図である。 聴覚特性テーブルの例を示す図である。 聴覚特性テーブルの例を示す図である。 ゲイン値決定処理を説明するフローチャートである。 コンテンツ制作ツールの表示画面例を示す図である。 コンテンツ制作ツールの表示画面例を示す図である。 コンテンツ制作ツールの表示画面例を示す図である。 コンテンツ制作ツールの表示画面例を示す図である。 情報処理装置の構成例を示す図である。 テーブル生成処理を説明するフローチャートである。 音声処理装置の構成例を示す図である。 再生信号生成処理を説明するフローチャートである。 聴覚特性テーブルの例を示す図である。 ゲイン聴覚特性情報のシンタックス例を示す図である。 音声処理装置の構成例を示す図である。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
本技術は聴取者から見たオブジェクトの方向に応じてゲイン補正値を決定することで、より簡単にゲイン補正を行うことができるようにし、これにより、より簡単に、すなわち短時間で十分に高い品質の3D Audioコンテンツを制作できるようにするものである。
特に、本技術は以下の特徴(F1)乃至特徴(F5)を有している。
特徴(F1):オブジェクトのゲイン補正値を、音像の定位位置に対する3次元聴覚特性に応じて決定する
特徴(F2):聴覚特性がテーブル等により与えられる場合、データのない定位位置に対するゲイン補正値は、隣接位置のゲイン補正値に基づく補間処理等により算出する
特徴(F3):自動ミキシングにおいて、別途決定した位置情報からゲイン情報を決定する
特徴(F4):オブジェクト位置に対するゲイン補正値を設定および調整するユーザインターフェースを提供する
特徴(F5):聴取位置に対するオブジェクトの位置の変更に伴い、3次元聴覚特性に応じたゲイン補正値を適用する
まず、人間の3次元聴覚特性に基づくゲインパラメタの決定について説明する。
図1は、あるピンクノイズが聴取者の真正面で再生されたときの聴感上の音の大きさを基準として、同じピンクノイズを異なる方向から再生した際に、聴感上の音の大きさが同じに感じるようにピンクノイズのゲイン補正を行ったときのゲイン補正量を示している。換言すれば、図1は人が有する水平方向に対する聴覚特性を示している。
なお、図1において縦軸はゲイン補正量を示し、横軸は聴取者から見た音源位置を示す水平方向の角度であるAzimuth値(水平角度)を示している。
例えば、聴取者から見た真正面の方向を示すAzimuth値は0度であり、聴取者から見た真横の方向、つまり側方を示すAzimuth値は±90度であり、聴取者の後方、つまり真後ろの方向を示すAzimuth値は180度である。特に、聴取者から見て左方向がAzimuth値の正の方向となっている。
また、図1ではピンクノイズの再生時の垂直方向の位置は、聴取者と同じ高さとなっている。すなわち、聴取者から見た音源の垂直方向(仰角方向)の位置を示す垂直角度をElevation値とすると、図1はElevation値が0度における場合の例となっている。なお、聴取者から見て上方向がElevation値の正の方向となっている。
この例では、複数人の聴取者を対象として行われた実験の結果から得られた各Azimuth値に対するゲイン補正量の平均値を示しており、特に各Azimuth値において点線で表される範囲は95%の信頼区間を示している。
例えば側方(Azimuth値=±90度,Elevation値=0度)でピンクノイズを再生するときには、ゲインを少し下げることで、聴取者は正面方向でピンクノイズを再生したときと同じ大きさで音が聞こえるように感じることが分かる。
また、例えば後方(Azimuth値=180度,Elevation値=0度)でピンクノイズを再生するときには、ゲインを少し上げることで、聴取者は正面方向でピンクノイズを再生したときと同じ大きさで音が聞こえるように感じることが分かる。
すなわち、あるオブジェクト音源に対して、そのオブジェクト音源の定位位置が聴取者の側方にあるときにはオブジェクト音源の音のゲインを少し下げ、オブジェクト音源の定位位置が聴取者の後方にあるときにはオブジェクト音源の音のゲインを少し上げると、聴取者に同じ大きさで音が聞こえているように感じさせることができる。
また、例えば図2や図3に示すように、同じAzimuth値でもElevation値が変化すると、聴取者の聞こえ方も変化することが分かる。
なお、図2および図3において縦軸はゲイン補正量を示し、横軸は聴取者から見た音源位置を示すAzimuth値(水平角度)を示している。また、図2および図3では、各Azimuth値において点線で表される範囲は95%の信頼区間を示している。
図2は、Elevation値が30度である場合における各Azimuth値でのゲイン補正量を示している。
図2から、音源が聴取者よりも高い位置にある場合、音源が聴取者の正面や後方、斜め後方にあるときには音が小さく聞こえ、音源が聴取者の斜め前方にあるときには音が少し大きく聞こえることが分かる。
同様に、図3はElevation値が-30度である場合における各Azimuth値でのゲイン補正量を示している。
図3から、音源が聴取者よりも低い位置にある場合、音源が聴取者の正面や斜め前方にあるときには音が大きく聞こえ、音源が聴取者の後方や斜め後方にあるときには音が小さく聞こえることが分かる。
以上のような音の到来方向に対する聴覚特性から、オブジェクト音源の位置を示す位置情報と、聴取者の聴覚特性とに基づいて、オブジェクト音源に対するゲイン補正量を決定すれば、より簡単に適切なゲイン補正を行うことができることが分かる。
〈情報処理装置の構成例〉
図4は、本技術を適用した情報処理装置の一実施の形態の構成例を示す図である。
図4に示す情報処理装置11は、3D Audioコンテンツを構成するオーディオオブジェクト(以下、単にオブジェクトと称する)の音を再生するためのオーディオ信号のゲイン補正のためのゲイン値を決定するゲイン決定装置として機能する。
このような情報処理装置11は、例えば3D Audioコンテンツを構成するオーディオ信号のミキシングを行う編集装置などに設けられている。
情報処理装置11は、ゲイン補正値決定部21および聴覚特性テーブル保持部22を有している。
ゲイン補正値決定部21には、3D Audioコンテンツを構成するオブジェクトのメタデータとして、位置情報およびゲイン初期値が供給される。
ここで、オブジェクトの位置情報は、3次元空間内における基準位置から見たオブジェクトの位置を示す情報であり、ここでは位置情報はAzimuth値、Elevation値、およびRadius値からなる。なお、この例では聴取者の位置が基準位置となっている。
Azimuth値およびElevation値は、基準位置にいる聴取者(ユーザ)から見たオブジェクトの水平方向および垂直方向の各位置を示す角度であり、これらのAzimuth値およびElevation値は図1乃至図3における場合と同様である。
また、Radius値は3次元空間における基準位置にいる聴取者からオブジェクトまでの距離(半径)である。
このようなAzimuth値、Elevation値、およびRadius値からなる位置情報は、オブジェクトの音の音像の定位位置を示しているということができる。
また、ゲイン補正値決定部21に供給されるメタデータに含まれるゲイン初期値は、オブジェクトのオーディオ信号のゲイン補正のためのゲイン値、つまりゲイン情報の初期値であり、このゲイン初期値は、例えば3D Audioコンテンツの制作者等により定められる。なお、ここでは説明を簡単にするため、ゲイン初期値は1.0であるものとする。
ゲイン補正値決定部21は、供給されたメタデータとしての位置情報と、聴覚特性テーブル保持部22に保持されている聴覚特性テーブルとに基づいて、オブジェクトのゲイン初期値を補正するゲイン補正量を示すゲイン補正値を決定する。
また、ゲイン補正値決定部21は、決定したゲイン補正値に基づいて、供給されたゲイン初期値を補正し、その結果得られたゲイン値を、オブジェクトのオーディオ信号をゲイン補正するための最終的なゲイン補正量を示す情報とする。
換言すれば、ゲイン補正値決定部21は位置情報により示される、聴取者から見たオブジェクトの方向(音の到来方向)に応じてゲイン補正値を決定することで、オーディオ信号のゲイン値を決定する。このようにして決定されたゲイン値と、供給された位置情報とがオブジェクトの最終的なメタデータとして後段に出力される。
聴覚特性テーブル保持部22は、聴覚特性テーブルを保持しており、必要に応じて聴覚特性テーブルにより示されるゲイン補正値をゲイン補正値決定部21に供給する。
ここで、聴覚特性テーブルは、音源であるオブジェクトから聴取者への音の到来方向、つまり聴取者から見た音源の方向と、その方向に応じたゲイン補正値とが対応付けられているテーブルである。
すなわち、より詳細には、聴覚特性テーブルは音源と聴取者との相対的な位置関係と、その位置関係に応じたゲイン補正値とが対応付けられているテーブルである。
聴覚特性テーブルにより示されるゲイン補正値は、例えば図1乃至図3に示したような音の到来方向に対する人の聴覚特性に応じて定められたものであり、特に音の到来方向によらず聴感上の音の大きさが一定になるようなゲイン補正量となっている。
すなわち、聴覚特性テーブルにより示されるゲイン補正値によりゲイン初期値を補正して得られたゲイン値を用いてオブジェクトのオーディオ信号をゲイン補正すれば、オブジェクトの位置によらず、同じオブジェクトの音は同じ大きさで聞こえるようになる。
ここで、図5に聴覚特性テーブルの例を示す。
図5に示す例ではAzimuth値、Elevation値、およびRadius値により定まるオブジェクトの位置、つまりオブジェクトの方向に対してゲイン補正値が対応付けられている。
特に、この例では全てのElevation値およびRadius値が0および1.0となっており、オブジェクトの垂直方向の位置は聴取者と同じ高さであり、かつ聴取者からオブジェクトまでの距離は常に一定であると想定されている。
図5の例では、例えばAzimuth値が180度である場合など、音源であるオブジェクトが聴取者の後方にある場合には、Azimuth値が0度や30度である場合など、オブジェクトが聴取者の前方にある場合よりもゲイン補正値が大きくなっている。
これに対して、例えばAzimuth値が90度である場合など、音源であるオブジェクトが聴取者の側方にある場合には、オブジェクトが聴取者の前方にある場合よりもゲイン補正値が小さくなっている。
さらに、聴覚特性テーブル保持部22が図5に示す聴覚特性テーブルを保持している場合における、ゲイン補正値決定部21によるゲイン初期値の補正の具体的な例について説明する。
例えばオブジェクトの位置を示すAzimuth値、Elevation値、およびRadius値が90度、0度、および1.0mであるとすると、図5からオブジェクトの位置に対応するゲイン補正値は-0.52dBとなる。
したがって、ゲイン補正値決定部21は、聴覚特性テーブルから読み出したゲイン補正値「-0.52dB」と、ゲイン初期値「1.0」とに基づいて次式(1)の計算を行い、ゲイン値「0.94」を得る。
Figure 0007513020000001
同様に、例えばオブジェクトの位置を示すAzimuth値、Elevation値、およびRadius値が-150度、0度、および1.0mであるとすると、図5からオブジェクトの位置に対応するゲイン補正値は0.51dBとなる。
したがって、ゲイン補正値決定部21は、聴覚特性テーブルから読み出したゲイン補正値「0.51dB」と、ゲイン初期値「1.0」とに基づいて次式(2)の計算を行い、ゲイン値「1.06」を得る。
Figure 0007513020000002
なお、図5では水平方向のみが考慮された2次元の聴覚特性に基づいて決定されたゲイン補正値を利用する例について説明した。つまり、2次元の聴覚特性に基づいて生成された聴覚特性テーブル(以下、2次元聴覚特性テーブルとも称する)を利用する例について説明した。
しかし、水平方向だけでなく垂直方向の特性も考慮された3次元の聴覚特性に基づいて決定されたゲイン補正値を利用してゲイン初期値を補正するようにしてもよい。
そのような場合、例えば図6に示す聴覚特性テーブルを利用することができる。
図6に示す例では、Azimuth値、Elevation値、およびRadius値により定まるオブジェクトの位置、つまりオブジェクトの方向に対してゲイン補正値が対応付けられている。
特に、この例では全てのAzimuth値およびElevation値の組み合わせにおいて、Radius値は1.0とされている。
以下では、図6に示すように音の到来方向に対する3次元の聴覚特性に基づいて生成された聴覚特性テーブルを、特に3次元聴覚特性テーブルとも称することとする。
ここで、聴覚特性テーブル保持部22が図6に示す聴覚特性テーブルを保持している場合における、ゲイン補正値決定部21によるゲイン初期値の補正の具体的な例について説明する。
例えばオブジェクトの位置を示すAzimuth値、Elevation値、およびRadius値が60度、30度、および1.0mであるとすると、図6からオブジェクトの位置に対応するゲイン補正値は-0.07dBとなる。
したがって、ゲイン補正値決定部21は、聴覚特性テーブルから読み出したゲイン補正値「-0.07dB」と、ゲイン初期値「1.0」とに基づいて次式(3)の計算を行い、ゲイン値「0.99」を得る。
Figure 0007513020000003
なお、以上において説明したゲイン値算出の具体例では、オブジェクトの位置(方向)に対して定まる聴覚特性に基づくゲイン補正値が予め用意されていた。すなわち、オブジェクトの位置情報に対応するゲイン補正値が聴覚特性テーブルに格納されている例について説明した。
しかしながら、オブジェクトの位置は、聴覚特性テーブルにおいて、対応するゲイン補正値が格納されている位置にあるとは限らない。
具体的には、例えば聴覚特性テーブル保持部22に図6に示した聴覚特性テーブルが保持されており、位置情報としてのAzimuth値、Elevation値、およびRadius値が-120度、15度、および1.0mであるとする。
この場合、図6の聴覚特性テーブルには、Azimuth値「-120」、Elevation値「15」、およびRadius値「1.0」に対応するゲイン補正値は格納されていない。
そこで、聴覚特性テーブルに、位置情報により示される位置に対応するゲイン補正値がない場合には、その位置情報により示される位置に隣接する、対応するゲイン補正値が存在する複数の位置のデータ(ゲイン補正値)を用いて、ゲイン補正値決定部21が補間処理等により所望の位置のゲイン補正値を算出するようにしてもよい。
換言すれば、聴取者から見たオブジェクトの方向(位置)に対応するゲイン補正値が聴覚特性テーブルに格納されていない場合には、そのゲイン補正値を、聴取者から見たオブジェクトの他の方向に対応するゲイン補正値に基づく補間処理等により求めてもよい。
例えば、ゲイン補正値の補間方法の1つとしてVBAP(Vector Base Amplitude Panning)がある。
VBAPは、オブジェクトごとに、オブジェクトのメタデータから再生環境の複数のスピーカのゲイン値を求めるためのものである。
ここで、再生環境の複数のスピーカを、複数のゲイン補正値に置き換えることで、所望の位置でのゲイン補正値を算出することができる。
具体的には、3次元空間内においてゲイン補正値が用意されている複数の位置でメッシュが区切られる。すなわち、例えば3次元空間内の3つの各位置のゲイン補正値が用意されているとすると、それらの3つの位置を頂点とする1つの3角形の領域が1つのメッシュとされる。
このようにして3次元空間が複数のメッシュに区切られると、ゲイン補正値を得ようとする所望の位置を注目位置として、その注目位置を内包するメッシュが特定される。
また、特定されたメッシュを構成する3つの頂点位置を示す位置ベクトルの乗加算により注目位置を示す位置ベクトルを表したときの3つの各頂点位置を示す位置ベクトルに乗算される係数が求められる。
そして、このようにして求められた3つの係数のそれぞれが、注目位置を内包するメッシュの3つの各頂点位置のゲイン補正値のそれぞれに乗算され、係数が乗算されたゲイン補正値の和が注目位置のゲイン補正値として算出される。
具体的には、注目位置を内包するメッシュの3つの各頂点位置を示す位置ベクトルがP1乃至P3であり、それらの各頂点位置のゲイン補正値がG1乃至G3であるとする。
このとき、注目位置を示す位置ベクトルがg1P1+g2P2+g3P3で表されるとする。この場合、注目位置のゲイン補正値は、g1G1+g2G2+g3G3となる。
なお、ゲイン補正値の補間方法はVBAPによる補間に限らず、他のどのような方法であってもよい。
例えば聴覚特性テーブルにおいてゲイン補正値が存在する位置のうち、注目位置の近傍にあるN個(例えばN=5など)の位置のゲイン補正値の平均値を注目位置のゲイン補正値として用いてもよい。
また、例えば聴覚特性テーブルにおいてゲイン補正値が存在する位置のうち、注目位置から最も近い位置のゲイン補正値を注目位置のゲイン補正値として用いてもよい。
さらに、ここではゲイン補正値がデシベル値で求められる例について説明したが、ゲイン補正値はリニア値で求められるようにしてもよい。そのような場合、例えばVBAPによる補間によってリニア値でゲイン補正値を求めるときでも、上述したデシベル値における場合と同様の計算により任意の位置のゲイン補正値を得ることができる。
その他、オブジェクトの種類や優先度、音圧、音高などに基づいて、そのオブジェクトのメタデータとしての位置情報、すなわちAzimuth値、Elevation値、およびRadius値を決定する場合にも本技術は適用可能である。
この場合、例えばオブジェクトの種類や優先度等に基づいて決定された位置情報と、予め用意された3次元聴覚特性テーブルとに基づいてゲイン補正値が決定される。
〈ゲイン値決定処理の説明〉
続いて、情報処理装置11の動作について説明する。すなわち、以下、図7のフローチャートを参照して、情報処理装置11により行われるゲイン値決定処理について説明する。
ステップS11においてゲイン補正値決定部21は、外部からメタデータを取得する。
すなわち、ゲイン補正値決定部21はAzimuth値、Elevation値、およびRadius値からなる位置情報とゲイン初期値とをメタデータとして取得する。
ステップS12においてゲイン補正値決定部21は、ステップS11で取得した位置情報と、聴覚特性テーブル保持部22に保持されている聴覚特性テーブルとに基づいてゲイン補正値を決定する。
すなわち、ゲイン補正値決定部21は、取得した位置情報を構成するAzimuth値、Elevation値、およびRadius値に対応付けられているゲイン補正値を聴覚特性テーブルから読み出して、読み出したゲイン補正値を決定したゲイン補正値とする。
ステップS13においてゲイン補正値決定部21は、ステップS11で取得したゲイン初期値と、ステップS12で決定したゲイン補正値とに基づいてゲイン値を決定する。
すなわち、ゲイン補正値決定部21は、ゲイン初期値およびゲイン補正値に基づいて式(1)と同様の計算を行ってゲイン初期値をゲイン補正値により補正することで、ゲイン値を得る。
このようにしてゲイン値が決定されると、ゲイン補正値決定部21は、決定されたゲイン値を後段に出力し、ゲイン値決定処理は終了する。出力されたゲイン値は、後段においてオーディオ信号のゲイン補正(ゲイン調整)に用いられる。
以上のようにして情報処理装置11は、聴覚特性テーブルを用いてゲイン補正値を決定し、そのゲイン補正値によりゲイン初期値を補正することでゲイン値を決定する。
このようにすることで、より簡単にゲイン補正を行うことができる。これにより、例えばより簡単に、すなわち短時間で十分に高い品質の3D Audioコンテンツを制作できるようになる。
〈第2の実施の形態〉
〈ユーザインターフェースについて〉
また、本技術によれば、以上において説明したゲイン補正値を設定したり調整したりするためのユーザインターフェースを提供することが可能である。
例えばユーザの入力により、または自動でオブジェクトの位置等を決定する3Dオーディオのコンテンツ制作ツールに本技術を適用することができる。
具体的には、3Dオーディオのコンテンツ制作ツールにおいて、例えば図8に示すユーザインターフェース(表示画面)により、聴取者から見たオブジェクトの方向に対する聴覚特性に基づくゲイン補正値(ゲイン値)の設定や調整を行うようにすることができる。
図8に示す例では、3Dオーディオのコンテンツ制作ツールの表示画面には、予めプリセットされた互いに異なる複数の聴覚特性のなかから所望の聴覚特性を選択するためのプルダウンボックスBX11が設けられている。
この例では、例えば男性の聴覚特性、女性の聴覚特性、ユーザ個人の聴覚特性など、複数の2次元の聴覚特性が予め用意されており、ユーザはプルダウンボックスBX11を操作することで、所望の聴覚特性を選択することができる。
ユーザにより聴覚特性が選択されると、図中、プルダウンボックスBX11の下側に設けられたゲイン補正値表示領域R11に、ユーザにより選択された聴覚特性に応じた各Azimuth値でのゲイン補正値が表示される。
特に、ゲイン補正値表示領域R11において縦軸はゲイン補正値を示しており、横軸はAzimuth値を示している。
また、曲線L11はAzimuth値が負の値、つまり聴取者から見て右方向についての各Azimuth値におけるゲイン補正値を示しており、曲線L12は聴取者から見て左方向についての各Azimuth値におけるゲイン補正値を示している。
このようなゲイン補正値表示領域R11を見れば、ユーザは直感的かつ瞬時に各Azimuth値におけるゲイン補正値を把握することができる。
さらに、ゲイン補正値表示領域R11の図中、下側には、ゲイン補正値表示領域R11に表示されたゲイン補正値を調整するためのスライダ等が表示されたスライダ表示領域R12が設けられている。
スライダ表示領域R12では、ユーザがゲイン補正値を調整可能な各Azimuth値について、そのAzimuth値を示す数字と、ゲイン補正値を示す目盛り、およびゲイン補正値を調整するためのスライダが表示されている。
例えばスライダSD11は、Azimuth値が30度におけるゲイン補正値を調整するためのものであり、ユーザはスライダSD11を上下に移動させることで、調整後のゲイン補正値として所望の値を指定することができる。
スライダSD11によりゲイン補正値が調整されると、その調整に応じてゲイン補正値表示領域R11の表示が更新される。すなわち、ここではスライダSD11に対する操作に応じて曲線L12が変化する。
このように図8に示す例では、聴取者から見た右側の各方向のゲイン補正値と、聴取者から見た左側の各方向のゲイン補正値とを独立して調整することが可能である。
特に、この例では予め用意された複数の聴覚特性のなかから任意のものを選択することで、所望の聴覚特性に応じたゲイン補正値、つまり聴覚特性テーブルを指定することができる。そして、スライダを操作することで、選択した聴覚特性に応じたゲイン補正値をさらに調整することができる。
例えば、予め用意された聴覚特性は平均的なものであるため、ユーザはスライダを操作することで、ユーザ個人の聴覚特性に応じたものとなるようにゲイン補正値を調整することができる。また、スライダを操作してゲイン補正値を調整すれば、後方のオブジェクトについては大きめのゲイン補正をして強調させるなどといったユーザの意図に沿った調整を行うこともできるようになる。
このようにして各Azimuth値におけるゲイン補正値が設定および調整され、例えば図示せぬ保存ボタン等が操作されると、ゲイン補正値表示領域R11に表示されたゲイン補正値と、各Azimuth値とが対応付けられた2次元聴覚特性テーブルが生成される。
なお、図8では、聴取者から見た右側と左側の各方向でゲイン補正値が異なる例、つまりゲイン補正値が左右非対称である例について説明した。しかし、ゲイン補正値は左右対称となるようにしてもよい。
そのような場合、例えば図9に示すようにゲイン補正値の設定や調整が行われる。なお、図9において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図9は、3Dオーディオのコンテンツ制作ツールの表示画面を示しており、この例では表示画面にはプルダウンボックスBX11、ゲイン補正値表示領域R21、およびスライダ表示領域R22が表示されている。
ゲイン補正値表示領域R21には、図8のゲイン補正値表示領域R11と同様に各Azimuth値でのゲイン補正値が表示されるが、ここでは左右の各方向のゲイン補正値が共通であるため、ゲイン補正値を示す曲線が1つだけ表示されている。
例えば、左右の各方向のゲイン補正値の平均値を、左右で共通化されたゲイン補正値とするなどとすることができる。この場合、例えば図8の例におけるAzimuth値が90度および-90度のそれぞれのゲイン補正値の平均値が、図9の例におけるAzimuth値が±90度の共通のゲイン補正値とされる。
また、スライダ表示領域R22には、ゲイン補正値表示領域R21に表示されたゲイン補正値を調整するためのスライダ等が表示されている。
例えば、この例ではユーザはスライダSD21を上下に移動させることで、Azimuth値が±30度の共通のゲイン補正値を調整することができる。
さらに、例えば図10に示すようにElevation値ごとに各Azimuth値でのゲイン補正値を調整できるようにしてもよい。なお、図10において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図10は3Dオーディオのコンテンツ制作ツールの表示画面を示しており、この例では表示画面にはプルダウンボックスBX11、ゲイン補正値表示領域R31乃至ゲイン補正値表示領域R33、およびスライダ表示領域R34乃至スライダ表示領域R36が表示されている。
図10に示す例では、図9に示した例と同様にゲイン補正値が左右対称となっている。
ゲイン補正値表示領域R31には、Elevation値が30度であるときの各Azimuth値でのゲイン補正値が表示されており、ユーザはスライダ表示領域R34に表示されたスライダ等を操作することで、それらのゲイン補正値を調整することができる。
同様に、ゲイン補正値表示領域R32には、Elevation値が0度であるときの各Azimuth値でのゲイン補正値が表示されており、ユーザはスライダ表示領域R35に表示されたスライダ等を操作することで、それらのゲイン補正値を調整することができる。
また、ゲイン補正値表示領域R33には、Elevation値が-30度であるときの各Azimuth値でのゲイン補正値が表示されており、ユーザはスライダ表示領域R36に表示されたスライダ等を操作することで、それらのゲイン補正値を調整することができる。
このようにして各Azimuth値におけるゲイン補正値が設定および調整され、例えば図示せぬ保存ボタン等が操作されると、ゲイン補正値とElevation値およびAzimuth値とが対応付けられた3次元聴覚特性テーブルが生成される。
さらに、3Dオーディオのコンテンツ制作ツールの表示画面の他の例として、図11に示すようにレーダーチャート型のゲイン補正値表示領域が設けられるようにしてもよい。なお、図11において図10における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図11の例では表示画面にはプルダウンボックスBX11、ゲイン補正値表示領域R41乃至ゲイン補正値表示領域R43、およびスライダ表示領域R34乃至スライダ表示領域R36が表示されている。この例では、図10に示した例と同様にゲイン補正値が左右対称となっている。
ゲイン補正値表示領域R41には、Elevation値が30度であるときの各Azimuth値でのゲイン補正値が表示されており、ユーザはスライダ表示領域R34に表示されたスライダ等を操作することで、それらのゲイン補正値を調整することができる。
特にゲイン補正値表示領域R41では、レーダーチャートの各項目がAzimuth値となっているので、ユーザは各方向(Azimuth値)とそれらの方向のゲイン補正値だけでなく、各方向間のゲイン補正値の相対的な差も瞬時に把握することができる。
ゲイン補正値表示領域R41と同様に、ゲイン補正値表示領域R42には、Elevation値が0度であるときの各Azimuth値でのゲイン補正値が表示されている。また、ゲイン補正値表示領域R43には、Elevation値が-30度であるときの各Azimuth値でのゲイン補正値が表示されている。
〈情報処理装置の構成例〉
次に、図8等を参照して説明した3Dオーディオのコンテンツ制作ツールにより聴覚特性テーブルを生成する情報処理装置について説明する。
そのような情報処理装置は、例えば図12に示すように構成される。
図12に示される情報処理装置51は、コンテンツ制作ツールを実現し、そのコンテンツ制作ツールの表示画面を表示装置52に表示させる。
情報処理装置51は、入力部61、聴覚特性テーブル生成部62、聴覚特性テーブル保持部63、および表示制御部64を有している。
入力部61は、例えばマウスやキーボード、スイッチ、ボタン、タッチパネル等からなり、ユーザの操作に応じた入力信号を聴覚特性テーブル生成部62に供給する。
聴覚特性テーブル生成部62は、入力部61から供給された入力信号、および聴覚特性テーブル保持部63に保持されているプリセットされた聴覚特性の聴覚特性テーブルに基づいて新たな聴覚特性テーブルを生成し、聴覚特性テーブル保持部63に供給する。
また、聴覚特性テーブル生成部62は、聴覚特性テーブル生成時に適宜、表示制御部64に対して表示装置52における表示画面の表示の更新等を指示する。
聴覚特性テーブル保持部63は、予めプリセットされた聴覚特性の聴覚特性テーブルを保持しており、その聴覚特性テーブルを適宜、聴覚特性テーブル生成部62に供給するとともに、聴覚特性テーブル生成部62から供給された聴覚特性テーブルを保持する。
表示制御部64は、聴覚特性テーブル生成部62の指示に従って表示装置52による表示画面の表示を制御する。
なお、図12に示した入力部61、聴覚特性テーブル生成部62、および表示制御部64が図4に示した情報処理装置11に設けられるようにしてもよい。
〈テーブル生成処理の説明〉
続いて、情報処理装置51の動作について説明する。
すなわち、以下、図13のフローチャートを参照して、情報処理装置51により行われるテーブル生成処理について説明する。
ステップS41において表示制御部64は、聴覚特性テーブル生成部62の指示に応じて、表示装置52にコンテンツ制作ツールの表示画面を表示させる。
具体的には、例えば表示制御部64は、表示装置52に図8や図9、図10、図11などに示した表示画面を表示させる。
このとき、例えばユーザが入力部61を操作してプリセットされた聴覚特性を選択した場合には、聴覚特性テーブル生成部62は、入力部61から供給される入力信号に応じて、ユーザにより選択された聴覚特性に対応する聴覚特性テーブルを聴覚特性テーブル保持部63から読み出す。
そして聴覚特性テーブル生成部62は、読み出した聴覚特性テーブルにより示される各Azimuth値のゲイン補正値が表示装置52に表示されるように、ゲイン補正値表示領域の表示を表示制御部64に指示する。表示制御部64は、聴覚特性テーブル生成部62の指示に応じて、表示装置52における表示画面にゲイン補正値表示領域を表示させる。
表示装置52にコンテンツ制作ツールの表示画面が表示されると、ユーザは適宜、入力部61を操作して、スライダ表示領域に表示されたスライダ等を操作することにより、ゲイン補正値の変更(調整)を指示する。
すると、ステップS42において聴覚特性テーブル生成部62は、入力部61から供給された入力信号に応じて聴覚特性テーブルを生成する。
すなわち、聴覚特性テーブル生成部62は、聴覚特性テーブル保持部63から読み出した聴覚特性テーブルを、入力部61から供給された入力信号に応じて変更することで、新たな聴覚特性テーブルを生成する。すなわち、プリセットされた聴覚特性テーブルが、スライダ表示領域に表示されたスライダ等の操作に応じて変更(更新)される。
このようにしてスライダ等の操作に応じて各Azimuth値のゲイン補正値が調整(変更)され、新たな聴覚特性テーブルが生成されると、聴覚特性テーブル生成部62は、その新たな聴覚特性テーブルに応じてゲイン補正値表示領域の表示の更新を表示制御部64に指示する。
ステップS43において表示制御部64は、聴覚特性テーブル生成部62の指示に従って表示装置52を制御し、新たに生成された聴覚特性テーブルに応じた表示を行う。
具体的には、表示制御部64は、表示装置52における表示画面上のゲイン補正値表示領域の表示を、新たに生成された聴覚特性テーブルに応じて更新させる。
ステップS44において聴覚特性テーブル生成部62は、入力部61から供給される入力信号に基づいて、処理を終了するか否かを判定する。
例えば聴覚特性テーブル生成部62は、ユーザが入力部61を操作して、表示装置52に表示されている保存ボタン等を操作することで、入力信号として聴覚特性テーブルの保存を指示する旨の信号が供給された場合、処理を終了すると判定する。
ステップS44において、まだ処理を終了しないと判定された場合、処理はステップS42に戻り、上述した処理が繰り返し行われる。
これに対して、ステップS44において処理を終了すると判定された場合、処理はステップS45に進む。
ステップS45において聴覚特性テーブル生成部62は、最後に行ったステップS42で得られた聴覚特性テーブルを、新たに生成された聴覚特性テーブルとして聴覚特性テーブル保持部63に供給し、保持させる。
聴覚特性テーブル保持部63に聴覚特性テーブルが保持されると、テーブル生成処理は終了する。
以上のようにして情報処理装置51は、表示装置52にコンテンツ制作ツールの表示画面を表示させ、ユーザの操作に応じてゲイン補正値を調整することで、新たな聴覚特性テーブルを生成する。
このようにすることで、ユーザは簡単かつ直感的に所望の聴覚特性に応じた聴覚特性テーブルを得ることができる。したがって、ユーザは、より簡単に、すなわち短時間で十分に高い品質の3D Audioコンテンツを制作することができる。
〈第3の実施の形態〉
〈音声処理装置の構成例〉
また、例えば自由視点のコンテンツでは、3次元空間における聴取者の位置を自由に移動させることができるため、聴取者の移動に伴って3次元空間におけるオブジェクトと聴取者の相対的な位置関係も変化する。
このように聴取者の位置を自由に移動させることができる場合に、聴取者の位置の変更に応じて音源位置を補正し、その結果得られた補正位置情報に基づいてレンダリング処理を行う技術が提案されている(例えば、国際公開第2015/107926号参照)。
本技術は、このような自由視点のコンテンツを再生する再生装置にも適用可能である。そのような場合、補正位置情報だけでなく、上述の3次元の聴覚特性も用いられてゲイン補正が行われる。
図14は、本技術を適用した、自由視点のコンテンツを再生する再生装置として機能する音声処理装置の一実施の形態の構成例を示す図である。なお、図14において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図14に示す音声処理装置91は、入力部121、位置情報補正部122、ゲイン/周波数特性補正部123、聴覚特性テーブル保持部22、空間音響特性付加部124、レンダラ処理部125、および畳み込み処理部126を有している。
音声処理装置91には、再生対象となるコンテンツのオーディオ情報として、オブジェクトごとに、オブジェクトのオーディオ信号と、オーディオ信号のメタデータとが供給される。なお、図14では、情報処理装置91に2つのオブジェクトのオーディオ信号およびメタデータが供給される例について説明するが、これに限らずオブジェクトの数はいくつであってもよい。
ここで、音声処理装置91に供給されるメタデータは、オブジェクトの位置情報およびゲイン初期値である。
また、位置情報は上述したAzimuth値、Elevation値、およびRadius値からなり、3次元空間内における基準位置から見たオブジェクトの位置、すなわちオブジェクトの音の定位位置を示す情報である。なお、以下、3次元空間における基準位置を、特に標準聴取位置とも称することとする。
入力部121はマウスやボタン、タッチパネルなどからなり、ユーザにより操作されると、その操作に応じた信号を出力する。例えば入力部121は、ユーザによる想定聴取位置の入力を受け付け、ユーザにより入力された想定聴取位置を示す想定聴取位置情報を位置情報補正部122および空間音響特性付加部124に供給する。
ここで、想定聴取位置は、再現したい仮想の音場における、コンテンツを構成する音の聴取位置である。したがって、想定聴取位置は、予め定められた標準聴取位置を変更(補正)したときの変更後の位置を示しているということができる。
位置情報補正部122は、入力部121から供給された想定聴取位置情報と、外部から供給された聴取者の向きを示す方向情報とに基づいて、外部から供給されたオブジェクトのメタデータとしての位置情報を補正する。
位置情報補正部122は、位置情報の補正により得られた補正位置情報をゲイン/周波数特性補正部123およびレンダラ処理部125に供給する。
なお、方向情報は、例えばユーザ(聴取者)の頭部に設けられたジャイロセンサ等から得ることができる。また、補正位置情報は、想定聴取位置におり、方向情報により示される方向を向いている聴取者から見たオブジェクトの位置、つまりオブジェクトの音の定位位置を示す情報である。
ゲイン/周波数特性補正部123は、位置情報補正部122から供給された補正位置情報と、聴覚特性テーブル保持部22に保持されている聴覚特性テーブルと、外部から供給されたメタデータとに基づいて、外部から供給されたオブジェクトのオーディオ信号のゲイン補正および周波数特性補正を行う。
ゲイン/周波数特性補正部123は、ゲイン補正および周波数特性補正により得られたオーディオ信号を空間音響特性付加部124に供給する。
空間音響特性付加部124は、入力部121から供給された想定聴取位置情報と、外部から供給されたオブジェクトの位置情報とに基づいて、ゲイン/周波数特性補正部123から供給されたオーディオ信号に空間音響特性を付加し、レンダラ処理部125に供給する。
レンダラ処理部125は、位置情報補正部122から供給された補正位置情報に基づいて、空間音響特性付加部124から供給されたオーディオ信号に対するレンダリング処理、すなわちマッピング処理を行い、2以上であるM個のチャンネルの再生信号を生成する。
すなわち、各オブジェクトのオーディオ信号から、Mチャンネルの再生信号が生成される。レンダラ処理部125は、生成されたMチャンネルの再生信号を畳み込み処理部126に供給する。
このようにして得られたMチャンネルの再生信号は、仮想的なM個のスピーカ(Mチャンネルのスピーカ)で再生することで、再現したい仮想の音場の想定聴取位置において聴取される、各オブジェクトから出力された音を再現するオーディオ信号である。
畳み込み処理部126は、レンダラ処理部125から供給されたMチャンネルの再生信号に対する畳み込み処理を行い、2チャンネルの再生信号を生成して出力する。
すなわち、この例ではコンテンツの再生側の機器はヘッドホンとされており、畳み込み処理部126では、ヘッドホンに設けられた2つのスピーカ(ドライバ)で再生される再生信号が生成され、出力される。
〈再生信号生成処理の説明〉
続いて、音声処理装置91の動作について説明する。
すなわち、以下、図15のフローチャートを参照して、音声処理装置91により行われる再生信号生成処理について説明する。
ステップS71において入力部121は、想定聴取位置の入力を受け付ける。
入力部121は、ユーザが入力部121を操作して想定聴取位置を入力すると、その想定聴取位置を示す想定聴取位置情報を位置情報補正部122および空間音響特性付加部124に供給する。
ステップS72において位置情報補正部122は、入力部121から供給された想定聴取位置情報と、外部から供給されたオブジェクトの位置情報および方向情報とに基づいて補正位置情報を算出する。
位置情報補正部122は、各オブジェクトについて得られた補正位置情報を、ゲイン/周波数特性補正部123およびレンダラ処理部125に供給する。
ステップS73において、ゲイン/周波数特性補正部123は、位置情報補正部122から供給された補正位置情報と、外部から供給されたメタデータと、聴覚特性テーブル保持部22に保持されている聴覚特性テーブルとに基づいて、外部から供給されたオブジェクトのオーディオ信号のゲイン補正および周波数特性補正を行う。
具体的には、例えばゲイン/周波数特性補正部123は、聴覚特性テーブルから、補正位置情報を構成するAzimuth値、Elevation値、およびRadius値に対応付けられているゲイン補正値を読み出す。
また、ゲイン/周波数特性補正部123は、メタデータとして供給された位置情報のRadius値と、補正位置情報のRadius値との比をゲイン補正値に乗算することでゲイン補正値を補正し、その結果得られたゲイン補正値によりゲイン初期値を補正してゲイン値を得る。
これにより、想定聴取位置から見たオブジェクトの方向に応じたゲイン補正と、想定聴取位置からオブジェクトまでの距離に応じたゲイン補正とがゲイン値によるゲイン補正によって実現されることになる。
さらにゲイン/周波数特性補正部123は、メタデータとして供給された位置情報のRadius値と、補正位置情報のRadius値とに基づいてフィルタ係数を選択する。
このようにして選択されたフィルタ係数は、所望の周波数特性補正を実現するためのフィルタ処理に用いられる。より具体的には、例えばフィルタ係数は、想定聴取位置からオブジェクトまでの距離に応じて、再現したい仮想の音場の壁や天井によって、オブジェクトからの音の高域成分が減衰する特性を再現するためのものである。
ゲイン/周波数特性補正部123は、以上のようにして得られたフィルタ係数とゲイン値に基づいて、オブジェクトのオーディオ信号に対するゲイン補正およびフィルタ処理を行うことで、ゲイン補正と周波数特性補正を実現する。
ゲイン/周波数特性補正部123は、ゲイン補正および周波数特性補正により得られた各オブジェクトのオーディオ信号を空間音響特性付加部124に供給する。
ステップS74において空間音響特性付加部124は、入力部121から供給された想定聴取位置情報と、外部から供給されたオブジェクトの位置情報とに基づいて、ゲイン/周波数特性補正部123から供給されたオーディオ信号に空間音響特性を付加し、レンダラ処理部125に供給する。
例えば空間音響特性付加部124は、オブジェクトの位置情報と想定聴取位置情報とから定まる遅延量およびゲイン量に基づいて、オーディオ信号に対してマルチタップディレイ処理やコムフィルタ処理、オールパスフィルタ処理を施すことで、空間音響特性の付加を行う。これにより、例えば空間音響特性として初期反射や残響特性などがオーディオ信号に付加される。
ステップS75においてレンダラ処理部125は、位置情報補正部122から供給された補正位置情報に基づいて、空間音響特性付加部124から供給されたオーディオ信号に対するマッピング処理を行うことで、Mチャンネルの再生信号を生成し、畳み込み処理部126に供給する。
例えばステップS75の処理では、VBAPにより再生信号が生成されるが、その他、どのような手法でMチャンネルの再生信号が生成されるようにしてもよい。
ステップS76において畳み込み処理部126は、レンダラ処理部125から供給されたMチャンネルの再生信号に対する畳み込み処理を行うことで、2チャンネルの再生信号を生成し、出力する。例えば畳み込み処理としてBRIR(Binaural Room Impulse Response)処理が行われる。
2チャンネルの再生信号が生成されて出力されると、再生信号生成処理は終了する。
以上のようにして音声処理装置91は、想定聴取位置情報に基づいて補正位置情報を算出するとともに、得られた補正位置情報や想定聴取位置情報に基づいて、各オブジェクトのオーディオ信号のゲイン補正や周波数特性補正を行ったり、空間音響特性を付加したりする。
これにより、より簡単に適切なゲイン補正や周波数特性補正を行うことができる。また、各オブジェクトから出力された音の任意の想定聴取位置での聞こえ方をリアルに再現することができる。したがって、ユーザはコンテンツの再生時に自身の嗜好に合わせて、自由に聴取位置を指定することができるようになり、より自由度の高いオーディオ再生を実現することができる。
なお、ステップS73では、補正位置情報に基づいて、想定聴取位置からオブジェクトまでの距離に応じたゲイン補正と周波数特性補正が行われることに加え、聴覚特性テーブルが用いられて、3次元の聴覚特性に基づいたゲイン補正も行われる。
このとき、ステップS73で用いられる聴覚特性テーブルは、例えば図16に示すものなどとされる。
図16に示す聴覚特性テーブルは、図6に示した聴覚特性テーブルにおけるゲイン補正値の符号を反転させることで得られたものとなっている。
このような聴覚特性テーブルを用いてゲイン初期値を補正すれば、同じオブジェクト(音源)であっても、そのオブジェクトからの音の到来方向によって聴感上の音の大きさが変化するという現象をゲイン補正により再現することができる。これにより、よりリアリティの高い音場再現を実現することができる。
一方で、再生条件によっては図16に示した聴覚特性テーブルよりも、図6に示した聴覚特性テーブルを用いる方がより適切なゲイン補正を実現できることもある。
すなわち、例えばコンテンツの再生にヘッドホンが用いられるのではなく、3次元空間に配置された実スピーカを用いたスピーカ再生が行われる場合について考える。
この場合、音声処理装置91では、レンダラ処理部125により得られたMチャンネルの再生信号が、それらのM個の各チャンネルに対応するスピーカに供給されてコンテンツの音が再生されることになる。
このような実スピーカを用いたコンテンツ再生では、実際に音源、つまりオブジェクトの音が想定聴取位置から見たオブジェクトの位置で再生される。
そのため、音の到来方向によって聴感上の音の大きさが変化するという現象を再現するようなゲイン補正は不要であり、むしろ音量バランスを変えないように、聴感上の音の大きさを変化させたくないこともある。
そのようなときには、ステップS73において図6に示した聴覚特性テーブルを用いてゲイン補正値を決定し、そのゲイン補正値を用いてゲイン初期値を補正すればよい。そうすれば、オブジェクトのある方向によらず、聴感上の音の大きさが一定になるようなゲイン補正が行われる。
〈第3の実施の形態の変形例1〉
〈ゲイン聴覚特性情報の符号伝送について〉
ところで、オーディオ信号やメタデータなどが符号化されて符号化ビットストリームにより伝送されることがある。
そのような場合、例えばゲイン/周波数特性補正部123において、聴覚特性テーブルを用いたゲイン補正を行うか否かのフラグ情報等が含まれたゲイン聴覚特性情報を符号化ビットストリームにより伝送することもできる。
このとき、ゲイン聴覚特性情報にはフラグ情報だけでなく、聴覚特性テーブルや、複数の聴覚特性テーブルのうちのゲイン補正に用いる聴覚特性テーブルを示すインデックス情報なども含まれるようにすることができる。
このようなゲイン聴覚特性情報のシンタックスは、例えば図17に示すようなものとすることができる。
図17の例では、文字「numGainAuditoryPropertyTables」は、符号化ビットストリームにより伝送する聴覚特性テーブルの数、つまりゲイン聴覚特性情報に含まれている聴覚特性テーブルの数を示している。
また、文字「numElements[i]」は、ゲイン聴覚特性情報に含まれているi番目の聴覚特性テーブルを構成する要素の数を示している。
ここでいう要素とは、互いに対応付けられたAzimuth値、Elevation値、Radius値、およびゲイン補正値である。
さらに文字「azimuth[i][n]」、「elevation[i][n]」、および「radius[i][n]」は、i番目の聴覚特性テーブルのn番目の要素を構成するAzimuth値、Elevation値、およびRadius値を示している。
換言すれば、azimuth[i][n]、elevation[i][n]、およびradius[i][n]は、音源であるオブジェクトの音の到来方向、つまりオブジェクトの位置を示す水平角度、垂直角度、および距離(半径)を示している。
また、文字「gainCompensValue[i][n]」は、i番目の聴覚特性テーブルのn番目の要素を構成するゲイン補正値、すなわちazimuth[i][n]、elevation[i][n]、およびradius[i][n]により示される位置(方向)に対するゲイン補正値を示している。
さらに、文字「hasGainCompensObjects」は、聴覚特性テーブルを用いたゲイン補正を行うオブジェクトがあるか否かを示すフラグ情報である。
また、文字「num_objects」は、コンテンツを構成するオブジェクトの数(オブジェクト数)を示しており、このオブジェクト数num_objectsは、ゲイン聴覚特性情報とは別にコンテンツの再生側の装置、すなわち音声処理装置に伝送されているものとする。
フラグ情報hasGainCompensObjectsの値が、聴覚特性テーブルを用いたゲイン補正を行うオブジェクトがある旨の値である場合、ゲイン聴覚特性情報にはオブジェクト数num_objectsの分だけ文字「isGainCompensObject[o]」により示されるフラグ情報が含まれている。
フラグ情報isGainCompensObject[o]は、o番目のオブジェクトに対して、聴覚特性テーブルを用いたゲイン補正を行うか否かを示している。
さらに、フラグ情報isGainCompensObject[o]の値が、聴覚特性テーブルを用いたゲイン補正を行う旨の値である場合、ゲイン聴覚特性情報には文字「applyTableIndex[o]」により示されるインデックスが含まれている。
このインデックスapplyTableIndex[o]は、o番目のオブジェクトに対してゲイン補正を行うときに用いる聴覚特性テーブルを示す情報である。
例えば聴覚特性テーブルの数numGainAuditoryPropertyTablesが0である場合、聴覚特性テーブルは伝送されず、ゲイン聴覚特性情報にはインデックスapplyTableIndex[o]も含まれていない。すなわち、インデックスapplyTableIndex[o]は伝送されない。
そのような場合、例えば聴覚特性テーブル保持部22に保持されている聴覚特性テーブルが用いられてゲイン補正が行われるようにしてもよいし、ゲイン補正が行われないようにしてもよい。
〈音声処理装置の構成例〉
以上のようなゲイン聴覚特性情報が符号化ビットストリームにより伝送される場合、音声処理装置は、例えば図18に示すように構成される。なお、図18において図14における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図18に示す音声処理装置151は、入力部121、位置情報補正部122、ゲイン/周波数特性補正部123、聴覚特性テーブル保持部22、空間音響特性付加部124、レンダラ処理部125、および畳み込み処理部126を有している。
音声処理装置151の構成は、図14に示した音声処理装置91の構成と同じであるが、符号化ビットストリームから抽出されたゲイン聴覚特性情報から読み出された聴覚特性テーブル等がゲイン/周波数特性補正部123に供給される点で、音声処理装置91とは異なる。
すなわち、音声処理装置151では、ゲイン/周波数特性補正部123にはゲイン聴覚特性情報から読み出された聴覚特性テーブル、フラグ情報hasGainCompensObjects、フラグ情報isGainCompensObject[o]、インデックスapplyTableIndex[o]などが供給される。
音声処理装置151においては、基本的には図15を参照して説明した再生信号生成処理が行われる。
但し、ステップS73ではゲイン/周波数特性補正部123は、聴覚特性テーブルの数numGainAuditoryPropertyTablesが0である場合、つまり外部から聴覚特性テーブルが供給されなかった場合、聴覚特性テーブル保持部22に保持されている聴覚特性テーブルを用いてゲイン補正を行う。
これに対して、ゲイン/周波数特性補正部123は、外部から聴覚特性テーブルが供給された場合、その供給された聴覚特性テーブルを用いてゲイン補正を行う。
具体的には、ゲイン/周波数特性補正部123は、外部から供給された複数の聴覚特性テーブルのうち、インデックスapplyTableIndex[o]により示される聴覚特性テーブルを用いて、o番目のオブジェクトに対するゲイン補正を行う。
但し、ゲイン/周波数特性補正部123は、フラグ情報isGainCompensObject[o]の値が、聴覚特性テーブルを用いたゲイン補正を行わない旨の値であるオブジェクトについては、聴覚特性テーブルを用いたゲイン補正は行わない。
すなわち、ゲイン/周波数特性補正部123では、聴覚特性テーブルを用いたゲイン補正を行う旨の値のフラグ情報isGainCompensObject[o]が供給された場合、インデックスapplyTableIndex[o]により示される聴覚特性テーブルを用いたゲイン補正が行われる。
また、例えばゲイン/周波数特性補正部123は、フラグ情報hasGainCompensObjectsの値が、聴覚特性テーブルを用いたゲイン補正を行うオブジェクトがない旨の値である場合には、オブジェクトに対する聴覚特性テーブルを用いたゲイン補正は行わない。
以上のように、本技術によれば、オブジェクトオーディオの3Dミキシングや、自由視点のコンテンツの再生などにおいて、各オブジェクトのゲイン情報、すなわちゲイン値を簡単に決定することができる。これにより、より簡単にゲイン補正を行うことができる。
また、本技術によれば、聴取位置を変更したときの聴取者とオブジェクト(音源)の相対的な位置関係の変化に伴う聴感上の音量の変化を適切に補正することができる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図19は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定するゲイン補正値決定部を備える
情報処理装置。
(2)
前記ゲイン補正値決定部は、音の到来方向に対する前記聴取者の3次元の聴覚特性に基づいて前記補正値を決定する
(1)に記載の情報処理装置。
(3)
前記ゲイン補正値決定部は、前記聴取者の向きに基づいて前記補正値を決定する
(1)または(2)に記載の情報処理装置。
(4)
前記ゲイン補正値決定部は、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定する
(1)乃至(3)の何れか一項に記載の情報処理装置。
(5)
前記ゲイン補正値決定部は、前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する
(1)乃至(4)の何れか一項に記載の情報処理装置。
(6)
前記ゲイン補正値決定部は、所定の前記方向に応じた前記補正値を、他の方向に応じた前記補正値に基づく補間処理により求めることで、前記所定の前記方向に応じた前記補正値を決定する
(1)乃至(5)の何れか一項に記載の情報処理装置。
(7)
前記ゲイン補正値決定部は、前記補間処理としてVBAPを行う
(6)に記載の情報処理装置。
(8)
前記ゲイン補正値決定部は、リニア値またはデシベル値で前記補正値を求める
(7)に記載の情報処理装置。
(9)
情報処理装置が、
聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定する
情報処理方法。
(10)
聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定する
ステップを含む処理をコンピュータに実行させるプログラム。
(11)
オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行うゲイン補正部と、
前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成するレンダラ処理部と
を備える再生装置。
(12)
前記ゲイン補正部は、前記オーディオ信号のメタデータに含まれている前記ゲイン値を前記補正値により補正する
(11)に記載の再生装置。
(13)
前記ゲイン補正部は、前記ゲイン値の補正を行う旨のフラグが供給された場合、前記補正値により前記ゲイン値を補正する
(11)または(12)に記載の再生装置。
(14)
前記ゲイン補正部は、前記聴取者から見た前記オーディオオブジェクトの方向と、前記補正値とが対応付けられた複数のテーブルのうち、供給されたインデックスにより示される前記テーブルを用いて前記補正値を決定する
(13)に記載の再生装置。
(15)
前記聴取者の位置を示す情報に基づいて、前記オーディオ信号のメタデータに含まれている前記位置情報を補正する位置情報補正部をさらに備え、
前記ゲイン補正部は、補正された前記位置情報に基づいて前記補正値を決定する
(11)乃至(14)の何れか一項に記載の再生装置。
(16)
前記位置情報補正部は、前記聴取者の位置を示す情報、および前記聴取者の向きを示す方向情報に基づいて前記位置情報を補正する
(15)に記載の再生装置。
(17)
再生装置が、
オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、
前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行い、
前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成する
再生方法。
(18)
オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、
前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行い、
前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成する
ステップを含む処理をコンピュータに実行させるプログラム。
11 情報処理装置, 21 ゲイン補正値決定部, 22 聴覚特性テーブル保持部, 62 聴覚特性テーブル生成部, 64 表示制御部, 122 位置情報補正部, 123 ゲイン/周波数特性補正部

Claims (16)

  1. 聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定するゲイン補正値決定部を備え、
    前記ゲイン補正値決定部は、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する
    情報処理装置。
  2. 前記ゲイン補正値決定部は、音の到来方向に対する前記聴取者の3次元の聴覚特性に基づいて前記補正値を決定する
    請求項1に記載の情報処理装置。
  3. 前記ゲイン補正値決定部は、前記聴取者の向きに基づいて前記補正値を決定する
    請求項1に記載の情報処理装置。
  4. 前記ゲイン補正値決定部は、所定の前記方向に応じた前記補正値を、他の方向に応じた前記補正値に基づく補間処理により求めることで、前記所定の前記方向に応じた前記補正値を決定する
    請求項1に記載の情報処理装置。
  5. 前記ゲイン補正値決定部は、前記補間処理としてVBAPを行う
    請求項4に記載の情報処理装置。
  6. 前記ゲイン補正値決定部は、リニア値またはデシベル値で前記補正値を求める
    請求項5に記載の情報処理装置。
  7. 情報処理装置が、
    聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定する
    ステップを含み、
    前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する
    情報処理方法。
  8. 聴取者から見たオーディオオブジェクトの方向に応じて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値を決定する
    ステップを含む処理をコンピュータに実行させ、
    前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する
    プログラム。
  9. オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行うゲイン補正部と、
    前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成するレンダラ処理部と
    を備え、
    前記ゲイン補正部は、前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する
    再生装置。
  10. 前記ゲイン補正部は、前記オーディオ信号のメタデータに含まれている前記ゲイン値を前記補正値により補正する
    請求項9に記載の再生装置。
  11. 前記ゲイン補正部は、前記ゲイン値の補正を行う旨のフラグが供給された場合、前記補正値により前記ゲイン値を補正する
    請求項9に記載の再生装置。
  12. 前記ゲイン補正部は、前記聴取者から見た前記オーディオオブジェクトの方向と、前記補正値とが対応付けられた複数のテーブルのうち、供給されたインデックスにより示される前記テーブルを用いて前記補正値を決定する
    請求項11に記載の再生装置。
  13. 前記聴取者の位置を示す情報に基づいて、前記オーディオ信号のメタデータに含まれている前記位置情報を補正する位置情報補正部をさらに備え、
    前記ゲイン補正部は、補正された前記位置情報に基づいて前記補正値を決定する
    請求項9に記載の再生装置。
  14. 前記位置情報補正部は、前記聴取者の位置を示す情報、および前記聴取者の向きを示す方向情報に基づいて前記位置情報を補正する
    請求項13に記載の再生装置。
  15. 再生装置が、
    オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、
    前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行い、
    前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成する
    ステップを含み、
    前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する
    再生方法。
  16. オーディオオブジェクトの位置を示す位置情報に基づいて、前記オーディオオブジェクトのオーディオ信号をゲイン補正するためのゲイン値の補正値であって、聴取者から見た前記オーディオオブジェクトの方向に応じた補正値を決定し、
    前記補正値により補正された前記ゲイン値に基づいて前記オーディオ信号の前記ゲイン補正を行い、
    前記ゲイン補正により得られた前記オーディオ信号に基づいてレンダリング処理を行い、前記オーディオオブジェクトの音を再生するための複数のチャンネルの再生信号を生成する
    ステップを含む処理をコンピュータに実行させ、
    前記オーディオオブジェクトが前記聴取者の後方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が大きくなるように前記補正値を決定するか、または前記オーディオオブジェクトが前記聴取者の側方にある場合、前記オーディオオブジェクトが前記聴取者の前方にある場合よりも前記補正値が小さくなるように前記補正値を決定する
    プログラム。
JP2021513568A 2019-04-11 2020-03-27 情報処理装置および方法、再生装置および方法、並びにプログラム Active JP7513020B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019075369 2019-04-11
JP2019075369 2019-04-11
PCT/JP2020/014120 WO2020209103A1 (ja) 2019-04-11 2020-03-27 情報処理装置および方法、再生装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2020209103A1 JPWO2020209103A1 (ja) 2020-10-15
JP7513020B2 true JP7513020B2 (ja) 2024-07-09

Family

ID=72751102

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021513568A Active JP7513020B2 (ja) 2019-04-11 2020-03-27 情報処理装置および方法、再生装置および方法、並びにプログラム

Country Status (7)

Country Link
US (1) US11974117B2 (ja)
EP (1) EP3955590A4 (ja)
JP (1) JP7513020B2 (ja)
KR (1) KR20210151792A (ja)
CN (1) CN113632501A (ja)
BR (1) BR112021019942A2 (ja)
WO (1) WO2020209103A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024024468A1 (ja) * 2022-07-25 2024-02-01 ソニーグループ株式会社 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015126359A (ja) 2013-12-26 2015-07-06 ヤマハ株式会社 スピーカ装置
WO2015107926A1 (ja) 2014-01-16 2015-07-23 ソニー株式会社 音声処理装置および方法、並びにプログラム
WO2018096954A1 (ja) 2016-11-25 2018-05-31 ソニー株式会社 再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム
JP2018116299A (ja) 2015-06-17 2018-07-26 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5118267B2 (ja) * 2011-04-22 2013-01-16 パナソニック株式会社 音声信号再生装置、音声信号再生方法
EP3038385B1 (en) 2013-08-19 2018-11-14 Yamaha Corporation Speaker device and audio signal processing method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015126359A (ja) 2013-12-26 2015-07-06 ヤマハ株式会社 スピーカ装置
WO2015107926A1 (ja) 2014-01-16 2015-07-23 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2018116299A (ja) 2015-06-17 2018-07-26 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2018096954A1 (ja) 2016-11-25 2018-05-31 ソニー株式会社 再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
EP3955590A4 (en) 2022-06-08
EP3955590A1 (en) 2022-02-16
US11974117B2 (en) 2024-04-30
JPWO2020209103A1 (ja) 2020-10-15
US20220210597A1 (en) 2022-06-30
BR112021019942A2 (pt) 2021-12-07
KR20210151792A (ko) 2021-12-14
WO2020209103A1 (ja) 2020-10-15
CN113632501A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN107018460B (zh) 具有头部跟踪的双耳头戴式耳机呈现
JP6878458B2 (ja) 焦点距離に近い音源を強調する空間オーディオ処理
US5636283A (en) Processing audio signals
US8189824B2 (en) Apparatus and method for controlling a plurality of speakers by means of a graphical user interface
US8160280B2 (en) Apparatus and method for controlling a plurality of speakers by means of a DSP
JP4914124B2 (ja) 音像制御装置及び音像制御方法
JP2007266967A (ja) 音像定位装置およびマルチチャンネルオーディオ再生装置
US5798922A (en) Method and apparatus for electronically embedding directional cues in two channels of sound for interactive applications
JP2007274061A (ja) 音像定位装置およびavシステム
JP5437317B2 (ja) ゲーム音場生成装置
KR20200087130A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
KR20190083863A (ko) 오디오 신호 처리 방법 및 장치
JP7513020B2 (ja) 情報処理装置および方法、再生装置および方法、並びにプログラム
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치
JP3740780B2 (ja) マルチチャンネル再生装置
US11924623B2 (en) Object-based audio spatializer
US20240267696A1 (en) Apparatus, Method and Computer Program for Synthesizing a Spatially Extended Sound Source Using Elementary Spatial Sectors
KR102036893B1 (ko) 멀티레이어 바이노럴 컨텐츠 생성 방법 및 이를 위한 프로그램
US20230143857A1 (en) Spatial Audio Reproduction by Positioning at Least Part of a Sound Field
US20240284132A1 (en) Apparatus, Method or Computer Program for Synthesizing a Spatially Extended Sound Source Using Variance or Covariance Data
US20240135953A1 (en) Audio rendering method and electronic device performing the same
KR20160113036A (ko) 3차원 사운드를 편집 및 제공하는 방법 및 장치
JP2023066418A (ja) オブジェクトベースのオーディオ空間化器
WO2024013010A1 (en) Audio rendering suitable for reverberant rooms
KR20240096683A (ko) 잠재적 수정 객체에 대한 수정 데이터를 사용하여 공간 확장형 음원을 합성하는 장치, 방법 또는 컴퓨터 프로그램

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240610

R150 Certificate of patent or registration of utility model

Ref document number: 7513020

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150