JP2023122230A - 音響信号処理装置、および、プログラム - Google Patents

音響信号処理装置、および、プログラム Download PDF

Info

Publication number
JP2023122230A
JP2023122230A JP2022025810A JP2022025810A JP2023122230A JP 2023122230 A JP2023122230 A JP 2023122230A JP 2022025810 A JP2022025810 A JP 2022025810A JP 2022025810 A JP2022025810 A JP 2022025810A JP 2023122230 A JP2023122230 A JP 2023122230A
Authority
JP
Japan
Prior art keywords
spherical harmonic
sound
spectrum
sound source
ear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022025810A
Other languages
English (en)
Inventor
敦郎 伊藤
Atsuro Ito
陽 佐々木
Akira Sasaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2022025810A priority Critical patent/JP2023122230A/ja
Publication of JP2023122230A publication Critical patent/JP2023122230A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

Figure 2023122230000001
【課題】音源または受聴点が任意に移動する音を周波数領域でレンダリングする。
【解決手段】球面調和スペクトル算出部は、受聴点を基準とする音源位置での球面調和展開の基底関数から原点を基準とする音源位置での基底関数への変換係数を算出し、各耳について、頭部伝達関数の球面調和スペクトル、前記変換係数、および、音源信号に基づいて音場の球面調和スペクトルを算出し、バイノーラル信号生成部は、各耳について、前記音場の球面調和スペクトルを用いて前記基底関数を線形結合して音圧スペクトルを算出し、前記音圧スペクトルを時間領域の音響信号に変換する。
【選択図】図1

Description

本発明は、音響信号処理装置、および、プログラム、特に、バイノーラル再生を実現するための技術に関する。
AR(Augmented Reality,拡張現実)/VR(Virtual Reality,仮想現実)コンテンツは、映像オブジェクトや視聴者の動きに合わせて音をレンダリングして制作または提示されることがある。音響レンダリングは、効果的な臨場感の演出に用いられる。AR/VRコンテンツは、ヘッドホンまたはヘッドホン内蔵のヘッドマウンテッドディスプレイ(HMD:Head Mounted Display)を頭部に装着して提示されることを前提に制作されることがある。ヘッドホンを用いて立体的な音響空間を仮想的に再現する技術としてバイノーラル再生技術が採用されることがある。
バイノーラル再生は、任意の位置に設置された音源から放射された音波が受聴者両耳の外耳道入口に到達して得られる音圧を再現して実現される。バイノーラル再生では、ヘッドホン、イヤホンなど、左右各耳に近接した再生音源を用いて音を直接提示する。音源から左右各耳までの音の伝達特性には、受聴者本人の頭部、耳介、胴体、など(以下、「頭部等」と総称する)における音波の反射、回折、減衰等の影響が含まれる。バイノーラル再生により、仮想的に設定された位置に設置されたかかる伝達特性が付加された音を提示して、受聴者に対して高い臨場感をもたらすことができる。
バイノーラル再生では、空間内の音源位置から聴取位置(受聴点)までの伝達特性を示す特徴量として、頭部伝達関数(HRTF:Head Related Transfer Function)または頭部インパルス応答(HRIR:Head Related Impulse Response)が用いられる。HRTFは周波数領域で表現されるのに対し、HRIRはHRTFの時間領域表現に相当する。一般に、HRTFまたはHRIRは、無響室などの特殊な音響環境下で測定される。測定において、受聴者の周囲に配置したスピーカから測定信号に基づく音を放射し、受聴者の外耳道入口に設置したマイクロホンを用いて収音する。収音により得られた収音信号と既知の測定信号を用いてHRTFまたはHRIR(以下、「HRIR等」と総称する)が得られる。
バイノーラル信号は、入力される音響信号(以下、「入力信号」と呼ぶ)に左耳のHRIRを畳み込んで得られる左耳用の音響信号(以下、「左耳用信号」と呼ぶ)と、入力信号に右耳のHRIRを畳み込んで得られる右耳用信号を含む2チャネルの音響信号である。各耳用の音響信号(以下、「各耳用信号」と呼ぶ)yは、式(1)に例示されるように、入力信号にHRIRを畳み込み演算を行って得られる。式(1)において、y(t)、x(t)、h(t)は、それぞれ時刻tにおける各耳用信号、入力信号、HRIRのサンプル値を示す。
Figure 2023122230000002
各耳用信号y(t)は、式(2)に例示されるように入力信号のフーリエ変換X(ω)とHRTF H(ω)との積Y(ω)を算出し、積Y(ω)を逆フーリエ変換して求めることもできる。式(2)において、ωは、周波数を示す。
Figure 2023122230000003
上記のように、バイノーラル再生は、ヘッドホンを用いて各耳用信号に基づく音を、それぞれ対応する耳に提示して実現される。両耳の外耳道に提示される音の音圧は、HRIR等の測定時に用いた音源の音源位置から到来する音波による音圧と同等となる。そのため、受聴者は、その音源位置に仮想的な音像を知覚することができる。
近年では、三次元空間における音響表現技術として空間フーリエ級数展開に基づく音場の表記に注目されている。代表的な例として球面調和展開に基づく方法が知られている(例えば、非特許文献1)。この方法は、式(3)に示されるように三次元空間における音圧分布p(r,θ,φ,ω)は、球面調和展開の基底関数の線形結合で表現できることに基づく。言い換えれば、球面調和展開により、三次元空間における音圧分布が動径方向成分と角度方向成分に変数分離した形式で記述される。式(3)は、デカルト座標系で与えられる三次元の波動方程式を変数変換し、極座標系で与えられる三次元の波動方程式の一般解に相当する。式(3)において、(r,θ,φ)は、極座標系で表された三次元座標を示す。h (2)は、n次第二種球ハンケル関数を示す。第二種球ハンケル関数は、動径方向r成分の直交基底を与える。Y は、n次m位球面調和関数を示す。球面調和関数は角度方向の直交基底を与える。A は、球面調和スペクトルを示す。球面調和スペクトルは、第二種球ハンケル関数と球面調和関数の積を球面調和展開の基底関数に対する重み係数に相当し、音源の指向性などの音場の空間分布を表現することができる。これまで、球面調和スペクトルの仮想音源の任意方向への回転、任意位置への音圧の補間などの音場制御への応用が提案されている。
Figure 2023122230000004
この原理を用いた技術として、アンビソニックス(Ambisonics)(例えば、非特許文献2)が知られている。この技術は、次世代音声符号化方式であるMPEG-H 3DA(非特許文献3)でも採用され、規格化されている。また、三次元空間において測定されたHRTFを用いて、アンビソニックスを応用してバイノーラル信号をエンコードする方法も提案されている(特許文献1)。
特許第6067934号公報
羽田陽一, "音の波数領域信号処理," 電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review, 11巻, 4号, pp. 243-255, 2017. D. H. Cooper, T. Shiga, Discrete-matrix multichannel stereo. Journal of Audio Engineering Society 20(5), pp.346-360, 1972. ISO/IEC 23008-3:2019 「Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, Second edition」(2019) A. V. Oppenheim, R. W. Schafer, Digital signal processing, Englewood Cliffs, N.J.: Prentice-Hall, 1975. P. A. Martin, Multiple Scattering: Interaction of Time-Harmonic Waves with N obstacles, Cambridge university press, 2006.
HRIR等は、音響空間内の音源位置と受聴点の組に対して定まる。1組のHRIR等を用いたバイノーラル再生によれば、その受聴点に所在していることを仮定して、その音源位置に静止した音像が知覚される。音像または受聴者の動きを表現するためには、音源位置と受聴点の位置関係の変化に応じて、HRIR等を切り替えることが一般的である。しかしながら、HRIRの測定に係る音源位置と受聴点の組は有限個であるため、たとえ音源位置を固定しても表現できる音像の位置が限られる。HRIR等を切り替えるだけでは、任意の軌跡上で受聴点を移動させ、滑らかに移動する音像を受聴者に知覚させることは困難である。
HRTFを用いたバイノーラル再生では、音源信号をバッファ単位でフーリエ変換し、周波数領域でHRTFとの積をとってレンダリングがなされる。バッファごとに音源位置または受聴点が異なるHRTFが用いられる。少なくとも2個のバッファからの出力信号をミキシングした音を提示することで、音像の音源位置または受聴点がバッファ間で直線近似される。滑らかに移動する音像を知覚させるには、時間サンプル単位でレンダリングを行うことが望ましい。また、異なるHRTFに基づく出力信号を時間領域でミキシングすると、音像定位の手がかりとなる個々のHRTFが有する周波数特性が乱されるおそれがある。
本発明は、音源または受聴点が任意に移動する音を周波数領域でレンダリングすることを一つの課題とする。
[1]本発明の一態様は、受聴点を基準とする音源位置での球面調和展開の基底関数から原点を基準とする音源位置での基底関数への変換係数を算出し、各耳について、頭部伝達関数の球面調和スペクトル、前記変換係数、および、音源信号に基づいて音場の球面調和スペクトルを算出する球面調和スペクトル算出部と、各耳について、前記音場の球面調和スペクトルを用いて前記基底関数を線形結合して音圧スペクトルを算出し、前記音圧スペクトルを時間領域の音響信号に変換するバイノーラル信号生成部と、を備える音響信号処理装置である。
[1]の構成によれば、各耳について周波数領域において頭部伝達関数の球面調和スペクトルを再計算せずに受聴点における音場を表す球面調和スペクトルが算出される。算出された球面調和スペクトルを用いて球面調和展開における基底関数を線形結合することで、音源または受聴点が任意に移動する音を周波数領域でレンダリングすることができる。レンダリングにより、音源位置または受聴点の滑らかな変動に応じて音の周波数特性が連続的に変動する。
[2]本発明の一態様は、上述の音響信号処理装置であって、前記受聴点は、頭部位置であり、前記頭部伝達関数の取得に係る基準点は、前記頭部位置であってもよい。
[2]の構成によれば、頭部位置が受聴点として用いられることで、各耳の位置が用いられる場合よりも、レンダリングに係る受聴点による操作を簡素にすることができる。また、頭部位置が頭部伝達関数の取得に係る基準点として用いられることで、左右各耳に係る頭部伝達関数の一括した取得および管理が容易になる。
[3]本発明の一態様は、上述の音響信号処理装置であって、前記受聴点は、各耳の位置であり、前記頭部伝達関数の取得に係る基準点は、各耳の位置であってもよい。
[3]の構成によれば、各耳の位置が受聴点として用いられることで、その位置が頭部伝達関数の球面調和展開の展開中心として用いられる。そのため、頭部位置が受聴点として用いられる場合よりも、算出される音圧スペクトルの推定精度を向上させることができる。
[4]本発明の一態様は、コンピュータに上述の音響信号処理装置として機能させるためのプログラムであってもよい。
[4]の構成によれば、各耳の位置が受聴点として用いられることで、その位置が頭部伝達関数の球面調和展開の展開中心として用いられる。そのため、頭部中心が受聴点として用いられる場合よりも、算出される音圧スペクトルの推定精度を向上させることができる。
本発明によれば、音源または受聴点が任意に移動する音を周波数領域でレンダリングすることができる。
第1の実施形態に係る音響信号処理装置の機能構成例を示す概略ブロック図である。 第1の実施形態に係るグローバル座標系とローカル座標系を例示する図である。 第1の実施形態に係る音響信号処理を例示するフローチャートである。 第2の実施形態に係るグローバル座標系とローカル座標系を例示する図である。 第2の実施形態に係る音響信号処理を例示するフローチャートである。
<第1の実施形態>
以下、図面を参照しながら本発明の実施形態について説明する。まず、第1の実施形態に係る音響信号処理装置10の機能構成例について説明する。図1は、本実施形態に係る音響信号処理装置10の機能構成例を示す概略ブロック図である。
音響信号処理装置10には、左右各耳について、受聴点の座標と音源信号が入力される。音響信号処理装置10は、受聴点を基準とする音源位置での球面調和展開の基底関数から原点を基準とする音源位置での基底関数への変換係数を算出する。音響信号処理装置10は、各耳について、頭部伝達関数の球面調和スペクトル、変換係数、および、音源信号に基づいて音場の球面調和スペクトルを算出する。音響信号処理装置10は、各耳について、音場の球面調和スペクトルを用いて基底関数を線形結合して音圧スペクトルを算出し、音圧スペクトルを時間領域の音響信号に変換する。
音響信号処理装置10は、入力部110と、制御部120と、記憶部130と、出力部140と、を備える。
入力部110には、受聴点の座標を示す受聴点情報と、音源信号が入力される。入力部110は、受聴点情報と音源信号を制御部120に出力する。受聴点は、例えば、三次元空間における受聴者頭部の位置(以下、「頭部位置」と呼ぶ)である。頭部位置として、例えば、頭部の中心の位置が指示される。時刻ごとの受聴点の時系列は移動軌跡に相当する。入力部110は、時刻ごとに受聴点情報を入出力してもよいし、ある期間における移動軌跡を示す受聴点情報を入出力してもよい。入力部110は、時刻ごとに音源信号を取得してもよいし、その期間における音源信号を一括して取得してもよい。入力部110は、例えば、入力インタフェースである。
制御部120は、音響信号処理装置10の機能を実現するための処理を実行する。制御部120は、球面調和スペクトル算出部122と、バイノーラル信号生成部124と、球面調和展開部126とを備える。
球面調和スペクトル算出部122は、各時刻τについて受聴点として頭部位置[r(τ)]におけるn次m位の球面調和展開における基底関数から音源位置rにおけるν次μ位の基底関数への変換係数S ν μ([r(τ)])またはS’ ν μ([r(τ)])を周波数ごとに算出する。本文において[…]は、ベクトルを示す。但し、後述の数式では、ベクトルは太字で表される。頭部位置[r(τ)]は、三次元の球面座標[r(τ),θ(τ),φ(τ)]で表される。r(τ)、θ(τ)、φ(τ)は、それぞれ頭部位置の動径、極角、方位角を示す。変換係数S ν μ([r(τ)])、S’ ν μ([r(τ)])は、球ベッセル関数の加法定理を用いて(式(7)において後述)、頭部位置r(τ)におけるn次(nは、0以上N以下の整数、Nは予め定めた0以上の整数)球ベッセル関数j(kr(τ))(kは、波数)とn次m位(mは、‐n以上n以下の整数)球面調和関数Y θ(τ),φ(τ))の積であるn次m位の基底関数を、音場全体を網羅するグローバル座標系における音源位置rにおけるν次(νは、0以上N以下の整数)第二種球ハンケル関数hν (2)(kr)と第ν次μ位(μは、‐ν以上ν以下の整数)球面調和関数Yν μ(θ,φ)の積もしくはν次球ベッセル関数jν(kr)とν次μ位球面調和関数Yν μ(θ,φ)との積となる球面調和展開のν次μ位基底関数の次数ならびに位数間の加重和とが等しくなるように定まる重み係数に相当する。球面調和スペクトル算出部122は、r<r(τ)のとき変換係数S ν μを算出し、r>r(τ)のとき変換係数S’ ν μを算出する。r、rは、それぞれグローバル座標系における音源位置の動径、受聴点を基準とするローカル座標系における音源位置の動径を示す。即ち、変換係数S ν μ([r(τ)])、S’ ν μ([r(τ)])は、受聴点[r(τ)]を基準とする音源位置[r]での球面調和展開のn次m位基底関数から、原点を基準とする音源位置[r]でのν次μ位基底関数の加重和への変換における、個々の基底関数の寄与の度合いを示す。
球面調和スペクトル算出部122は、入力部110から入力される音源信号s(τ)に算出した変換係数S ν μ([r(τ)])またはS’ ν μ([r(τ)])を乗じて得られる変換音源信号z(t)(後述)に対してフーリエ変換を行い周波数領域の変換音源スペクトルZ ν μ(ω)に変換する。
球面調和スペクトル算出部122は、記憶部130から左右各耳についてHRTFの球面調和スペクトルα (ω)を読み出し、読み出したHRTFの球面調和スペクトルα (ω)を変換音源スペクトルに乗じて音場の球面調和スペクトルPν μ(ω)を算出する。音場の球面調和スペクトルPν μ(ω)は、式(13)(後述)を用いて算出される。球面調和スペクトル算出部122は、各耳について算出した音場の球面調和スペクトルPν μ(ω)をバイノーラル信号生成部124に出力する。
バイノーラル信号生成部124は、球面調和スペクトル算出部122から入力される音場の球面調和スペクトルPν μ(ω)を重み係数とし、球ベッセル関数jν(kr)と球面調和関数Yν μ(θ,φ)の積または第二種球ハンケル関数hν (2)(kr)と球面調和関数Yν μ(θ,φ)の積を基底関数とする加重和を音圧スペクトルP(r,ω)として算出する。音圧スペクトルP(r,ω)は、式(12)(後述)を用いて算出される。バイノーラル信号生成部124は、各耳について算出した周波数領域の音圧スペクトルP(r,ω)に対して逆フーリエ変換を行い時間領域の音響信号を各耳用信号として生成する。バイノーラル信号生成部124は、各耳用信号からなるバイノーラル信号を出力信号として出力部140を経由して出力する。
球面調和展開部126は、左右各耳に対し受聴点と音源位置の組ごとにHRTFを取得し、取得したHRTFに対して球面調和展開を行い、受聴点と音源位置の組に共通の球面調和スペクトルα (ω)を予め算出しておく。個々のHRTFは、式(6)(後述)に示すように球面調和展開により、n次第二種球ハンケル関数とn次m位球面調和関数の積を基底関数とする線形結合で表現される。球面調和展開部126は、動径方向への依存性がn次第二種球ハンケル関数で説明され、角度方向への依存性がn次m位球面調和関数で説明されるように、受聴点と音源位置の組間で共通の重み係数を球面調和スペクトルα (ω)として算出することができる。球面調和展開部126は、算出した球面調和スペクトルα (ω)を示すHRTFデータを記憶部130に記憶する。
記憶部130には、制御部120における処理に用いられるデータ、制御部120により取得されたデータが記憶される。記憶部130は、例えば、RAM(Random Access memory)、ROM(Read Only Memory)などの記憶媒体を含んで構成される。
出力部140は、バイノーラル信号生成部124から入力されるバイノーラル信号を外部に出力する。出力部140は、例えば、出力インタフェースである。出力部140は、入力部110と一体化し、入出力インタフェースとして構成されてもよい。
上記の手法によれば、ローカル座標系の原点である受聴点に基づくHRTFの球面調和スペクトルがグローバル座標系の原点に基づくHRTFの球面調和スペクトルに変換され、動径方向の成分と角度方向の成分に分離される。そして、ローカル座標系からグローバル座標系への基底関数の変換係数と音源信号から変換音源スペクトルが得られる。さらに、変換音源スペクトルと、音源位置と受聴点に共通のHRTFの球面調和スペクトルを用いて音圧スペクトルに変換される。そのため、HRTFが畳み込まれた音源信号が、任意の受聴点、音源位置に対して周波数領域で補間される。音像定位の手がかりとなる音の周波数特性(スペクトラルキュー、spectral cue)が演算により乱されないので、受聴者に対し、より確実な音源位置への音像定位が期待される。これに対し、非特許文献4に記載の重複加算法では、異なる目標方向に係るバイノーラル信号が時間領域で加算される。個々のバイノーラル信号に含まれるHRTFの位相差のために両者に干渉が生じる。干渉による周波数特性の乱れのため、目標方向への音像定位が実現できないことがあった。本実施形態は、かかる課題の解決手段となりうる。
次に、本実施形態に係る音響信号処理について、より詳細に説明する。本実施形態は、三次元空間におけるHRTFの球面調和展開に基づく。ここで、再生音源と受聴者を含む音場全体を網羅するグローバル座標系と、受聴者の頭部位置を原点とするローカル座標系のそれぞれについて図2を用いて説明する。グローバル座標系における原点Oから任意の位置Sを表すベクトルを[r]、任意の軌跡上を移動する頭部の時刻tにおける位置(以下、「頭部位置」と呼ぶことがある)Hを表すベクトルを[r(t)]、頭部位置Hを原点とするローカル座標系における任意の位置Sを表すベクトルを[r(t)]と表す。ベクトル[r]、[r(t)]、[r(t)]は、それぞれ三次元の球座標[r(t),θ(t),φ(t)]、[r(t),θ(t),φ(t)]、[r(t),θ(t),φ(t)]と表される。
HRTFの測定において位置Sが測定用のスピーカが設置される音源位置だと仮定すると、音源位置Sから頭部位置Hまでの音の周波数領域での伝達特性を示す伝達関数はHRTF、その伝達特性を時間領域で表現したインパルス応答がHRIRに相当する。本実施形態では、HRTFを球面調和関数で展開して得られる「球面調和スペクトルで表される指向性を有する頭部の移動」として、受聴点としての頭部位置Hの移動が記述される。なお、HRTFは音源と頭部の相対的な位置関係によって決まるため、受聴点に代え、目標点の移動とみなされてもよい。目標点は、仮想的に音源が設置され、音像定位の目標となる位置を指す。
グローバル座標系において受聴点Hが任意の軌道上を移動し、音源位置Sから音が放音される場合を仮定する。このとき、音源位置S(座標[r])からの時刻τにおける受聴点H(座標[r(τ)])までのインパルス応答g([r]‐[r(τ)])は時変インパルス応答となる。式(4)に示すように、時刻tにおけるバイノーラル信号p([r],t)は、音源信号s(t)にインパルス応答g([r]‐[r(τ)])を用いて畳み込み演算を行って得られる。周波数領域でのバイノーラル信号のスペクトルは、式(5)に示すように、時間領域でのバイノーラル信号p([r],t)をフーリエ変換して得られる。
Figure 2023122230000005
Figure 2023122230000006
HRTFは、頭部に設置されたマイクロホンを用いて測定されるため、頭部位置を原点とするローカル座標系で球面調和展開を行うことで頭部周りの分布として表現される。ローカル座標系における音源位置S(座標[r])から頭部位置H(座標[r])での周波数領域における伝達関数、即ち、HRTFは、G([r]‐[r(τ)],ω)と表される。球面調和展開によれば、式(6)に示すように、HRTFは、n次第二種球ハンケル関数とn次m位球面調和関数の積を基底関数とする線形結合、つまり、次数と位数を跨いだ加重和に変換される。そのため、HRTFは、個々の基底関数に対して乗じられる重み係数からなる球面調和スペクトルα (ω)で表現される。HRTFは、左耳と右耳とで別個に取得されるため、球面調和スペクトルα (ω)も左耳と右耳とで異なる。
Figure 2023122230000007
式(6)に示す球面調和展開によれば、展開中心とする頭部位置Hが時間経過に応じて変化する。そのため、直交基底関数である第二種球ハンケル関数と球面調和関数も頭部位置Hの移動の度に再計算する必要がある。そこで、本実施形態では、球ベッセル関数の加法定理を用いてグローバル座標系の原点に展開中心をシフトし、頭部位置Hに関わらず、固定の音源位置に係る直交基底関数を用いて音場を表す。球ベッセル関数の加法定理は、三次元座標[r](=[r、θ、φ])、[r](=[r、θ、φ])の間で[r]=[r]+[b](bは、三次元座標[r]、[r]間の座標)となるとき、式(7)に示す関係が成り立つことを指す。式(7)において、変換係数S ν μ([b])、S’ ν μ([b])は、それぞれ式(8)、(9)により与えられる。
Figure 2023122230000008
Figure 2023122230000009
Figure 2023122230000010
式(8)、(9)において、Y μ-m(θ,φ)は、球面調和関数Y μ-m(θ,φ)の複素共役を示す。W、Wは、式(10)のウィグナー(Wigner)の3j記号を示す。
Figure 2023122230000011
式(6)に示すHRTFに球ベッセル関数の加法定理を適用し、球面調和関数の展開中心をグローバル座標系の原点Oにシフトすることで、HRTFはグローバル座標系での音源位置に係る基底関数の線形結合で表される。具体的には、式(7)の三次元座標[r]、[b]にそれぞれグローバル座標系における原点Oを基準とする音源位置の座標[r]、頭部位置の座標[r(τ)]を代入して式(6)に適用することで、HRTFは、式(11)のように変形される。そして、式(11)で表されるHRTFを式(5)に代入すると、音圧スペクトルP([r],ω)が式(12)に示すように与えられる。
Figure 2023122230000012
Figure 2023122230000013
式(12)において、球ベッセル関数jν(kr)と球面調和関数Yν μ(θ,φ)との積となる基底関数に対して乗じられる音場の球面調和スペクトルPν μ(ω)は、式(13)により与えられる。上記の変換音源信号z(τ)は、式(13)の音源信号s(τ)と変換係数S ν μ(r(τ))との積に相当する。時間領域の変換音源信号z(τ)は、周波数領域の変換音源スペクトルZ ν μ(ω)に変換される。式(13)に示すように変換音源スペクトルZ ν μ(ω)は、さらにHRTFの球面調和スペクトルα (ω)に乗じられる。
音場の球面調和スペクトルPν μ(ω)は、グローバル座標系の原点Oを展開中心として与えられる。よって、球面調和スペクトル算出部122は、式(13)を用いてグローバル座標系で与えられる音源位置の座標[r]と受聴点の座標[r(τ)]に基づいて、逐次にHRTFの球面調和スペクトルα (ω)を算出せずに、音場の球面調和スペクトルPν μ(ω)を算出することができる。そして、バイノーラル信号生成部124は、式(12)で与えられるバイノーラル信号のスペクトルを逆フーリエ変換することで出力信号としてバイノーラル信号を生成することができる。
Figure 2023122230000014
次に、本実施形態に係る音響信号処理の例について説明する。図3は、本実施形態に係る音響信号処理を例示するフローチャートである。
(ステップS102)入力部110には、受聴点の座標と音源信号が入力される。
(ステップS104)球面調和スペクトル算出部122は、各時刻において、受聴点として頭部中心を基準とする音源位置での球面調和展開の基底関数から原点を展開中心として基準とする音源位置での基底関数への変換係数を周波数ごとに算出する。
(ステップS106)球面調和スペクトル算出部122は、各耳について、音源信号に変換係数を乗じて得られる変換音源信号を周波数領域の変換音源スペクトルに変換する。球面調和スペクトル算出部122は、式(13)に従い、変換した変換音源スペクトルにHRTFの球面調和スペクトルを乗じて音場の球面調和スペクトルを算出する。
(ステップS108)バイノーラル信号生成部124は、各耳について、式(12)に従い音場の球面調和スペクトルを用いて球面調和展開の基底関数を線形結合して音圧スペクトルを算出する。線形結合として、音場の球面調和スペクトルを重み係数とする球面調和展開の基底関数の加重和が音圧スペクトルとして得られる。
(ステップS110)バイノーラル信号生成部124は、各耳について、周波数領域の音圧スペクトルを時間領域の出力信号に変換し、変換した出力信号を出力部140に出力する。その後、図3に示す処理を終了する。
<第2の実施形態>
次に、第2の実施形態について説明する。以下の説明は、第1の実施形態との差異点を主とし、共通点については、第1の実施形態における説明を援用する。
球面調和展開によれば、展開中心に近接している位置ほど、高い精度で音場のスペクトルを推定することができる。通例、バイノーラル再生では、受聴者の頭部位置が受聴点として採用される。しかし、HRTFの測定点として、左右各耳の外耳道入口が用いられる。外耳道入口は、頭部位置から7~10cm程度離れた位置となる。この測定点の頭部位置からのずれは、音場スペクトルの精度の低下を招く原因になりうる。そこで、本実施形態では、球面調和展開の展開中心を各耳の位置とする。これにより、音場スペクトルの推定精度の向上が期待される。
図4は、本実施形態に係るグローバル座標系とローカル座標系の関係を示す。但し、左耳を例にする。
球面調和スペクトル算出部122には、入力部110を経由して頭部位置を示す受聴点情報が入力される。球面調和スペクトル算出部122は、例えば、頭部中心から所定距離離れ、所定の頭部方向に向かって左方の位置を左耳の位置として定めることができる。
ここで、頭部位置Hを基準とする左耳Eの位置を示すベクトルを[r](=[r,θ,φ])、左耳Eを基準とする音源位置Sのベクトルを[r’(τ)](=[r’(τ),θ’(τ),φ’(τ)])、グローバル座標系における原点Oを基準とする耳Eの位置のベクトルを[r’(τ)](=[r’(τ),θ’(τ),φ’(τ))と表す。球ベッセル関数の加法定理を用い、式(6)で表されるHRTFの球面調和展開において、展開中心を頭部位置Hから左耳Eにシフトすると、音源から左耳へのHRTF G([r’]‐[r’(τ)],ω)が式(14)に示すように与えられる。
Figure 2023122230000015
式(14)において、第二種球ハンケル関数jν (2)(kr’(τ))と球面調和関数Yν μ(θ’(τ),φ’(τ))との積となる基底関数に乗じられる左耳の球面調和スペクトルβν μ(ω)は、式(15)により与えられる。
左耳Eの座標[r]は、頭部中心からの距離と方向により予め定めておいてもよい。その場合、球面調和展開部126は、頭部位置Hを基準とする左耳Eの座標[r]に対する変換係数S ν μ([r])を、式(8)を用いて算出し、算出した変換係数S ν μ([r])と左耳のHRTFの球面調和スペクトルα (ω)を球面調和スペクトルβ (ω)に補正しておいてもよい。球面調和展開部126は、右耳についても同様の手法を用いて右耳のHRTFの球面調和スペクトルβ (ω)を補正することができる。球面調和展開部126は、各耳について補正した球面調和スペクトルβ (ω)を示すHRTFデータを予め記憶部130に記憶しておく。
Figure 2023122230000016
式(14)に式(15)の球面調和スペクトルβν μ(ω)を代入すると、左耳に係るHRTF G([r’]‐[r’(τ)],ω)は、式(16)に示すように変形される。変形されたHRTFは、式(6)におけるHRTFの球面調和スペクトルα (ω)に代え、補正された球面調和スペクトルβν μ(ω)が用いられる点を除き、式(6)に示すHRTFと同様の形式を有する。この球面調和スペクトルの補正は、HRTFの取得に係る基準点の頭部中心から左耳の位置へのシフトとみなすこともできる。
次に球面調和関数の加法定理を用い、式(16)においてHRTFの球面調和展開における展開中心をグローバル座標系における原点Oにシフトする。式(7)の三次元座標[r]、[b]にそれぞれグローバル座標系における原点Oを基準とする音源位置の座標[r]、左耳の位置の座標[r’(τ)」を代入して式(16)に適用することで、HRTFは式(17)のように変形される。そして、式(17)に表されるHRTFを式(5)に代入すると、式(18)に示すように左耳用信号の音圧スペクトルP([r],ω)が得られる。
Figure 2023122230000017
Figure 2023122230000018
Figure 2023122230000019
式(18)において、η次球ベッセル関数jη(kr)とη次ξ位球面調和関数Yη ξ(θ,φ)との積となるη次ξ位基底関数、または、η次第二種球ハンケル関数hη (2)(kr)とη次ξ位球面調和関数Yη ξ(θ,φ)との積となるη次ξ位基底関数に乗じて得られる音場の球面調和スペクトルPLη ξ(ω)は、式(19)に表される。
Figure 2023122230000020
よって、球面調和スペクトル算出部122は、グローバル座標系で与えられる音源位置Sの座標[r]、受聴点としての左耳Eの座標[r’(τ)]、および、記憶部130から読み出した左耳Eの球面調和スペクトルβν μ(ω)を用いて、音場の球面調和スペクトルPLη ξ(ω)を算出することができる。そして、バイノーラル信号生成部124は、式(18)で与えられる左耳用のスペクトルを逆フーリエ変換することで左耳用信号を生成することができる。
球面調和スペクトル算出部122は、右耳についても、左耳と同様の手法を用いて球面調和スペクトルPRη ξ(ω)を算出することができる。バイノーラル信号生成部124も、右耳についても、左耳と同様な手法を用いて球面調和スペクトルPRη ξ(ω)と音源信号s(τ)から右耳について音圧スペクトルを算出し、算出した音圧スペクトルを逆フーリエ変換することで右耳用信号を生成することができる。
次に、本実施形態に係る音響信号処理の例について説明する。図5は、本実施形態に係る音響信号処理を例示するフローチャートである。
(ステップS122)入力部110には、受聴点として頭部中心の座標と音源信号が入力される。
(ステップS124)球面調和スペクトル算出部122は、各時刻において、受聴点として各耳の位置を基準とする音源位置での球面調和展開の基底関数から原点を展開中心として基準とする音源位置での基底関数への変換係数を周波数ごとに算出する。
(ステップS126)球面調和スペクトル算出部122は、各耳について、音源信号に変換係数を乗じて得られる変換音源信号を周波数領域の変換音源スペクトルに変換する。球面調和スペクトル算出部122は、式(19)を用いて変換した変換音源スペクトルに補正された球面調和スペクトルを乗じて音場の球面調和スペクトルを算出する。
(ステップS128)バイノーラル信号生成部124は、各耳について、式(18)に従い音場の球面調和スペクトルを用いて球面調和展開の基底関数を線形結合して音圧スペクトルを算出する。
(ステップS130)バイノーラル信号生成部124は、各耳について、周波数領域の音圧スペクトルを時間領域の出力信号に変換し、変換した出力信号を出力部140に出力する。その後、図5に示す処理を終了する。
なお、上記の説明では、HRTFの測定の基準とする受聴点として頭部位置を用い、個々の頭部中心の位置に左右1組のHRTFが関連付けられている場合を前提とした。HRTFの測定の基準として、各耳について、その位置とその耳で測定されたHRTFが関連付けられる場合には、球面調和展開部126は、各耳について測定された音源位置ごとのHRTFに対して球面調和展開を行って、その耳に係るHRTFの球面調和スペクトルα (ω)を算出してもよい。その場合、球面調和スペクトルα (ω)は、その耳について補正された球面調和スペクトルβν μ(ω)に相当する。従って、ステップS124、S126において、球面調和スペクトル算出部122は、算出される球面調和スペクトルα (ω)を補正された球面調和スペクトルβν μ(ω)に代えて用いればよい。また、バイノーラル信号生成部124も、ステップS128において算出される球面調和スペクトルα (ω)を補正された球面調和スペクトルβν μ(ω)に代えて用いればよい。
一般に、HRTFは、音源位置と受聴点との相対的な位置関係により定まる。上記の説明では、受聴点が移動し、音源位置が静止している場合を例にしたが、これには限られない。本実施形態は、例えば、受聴点が静止し、音源位置が移動している場合にも適用することができる。
上記の説明では、球面調和スペクトル算出部122とバイノーラル信号生成部124が、1個の音源に対して1系統のバイノーラル信号を生成する場合を例にしたが、これには限られない。入力部110には、複数の音源のそれぞれについて、受聴点情報と音源信号を関連付けて入力されてもよい。入力部110には、さらに各音源の音源位置を示す音源位置情報を関連付けて入力されてもよい。そして、制御部120には個々の音源に対し音源位置が設定されてもよい。球面調和スペクトル算出部122とバイノーラル信号生成部124は、音源ごとに与えられる音源信号と音源位置に対してバイノーラル信号を生成し、生成したバイノーラル信号を音源間でミキシングして得られる音響信号を出力信号として出力部140を経由して出力してもよい。
制御部120は、外部機器から音源信号と受聴点情報を取得する際、入力部110を用いることに代え、予め記憶部130に記憶された音源信号と受聴点情報を読み出してもよい。また、制御部120は、出力信号を外部機器に出力部140を用いて出力することに代え、記憶部130に記憶してもよいし、音響信号処理装置10に設置または接続された再生部(スピーカ)に出力し、放音させてもよい。
音響信号処理装置10では、球面調和展開部126が省略されてもよい。記憶部130には、外部機器から取得したHRTFデータが予め記憶されてもよい。
以上に説明したように、本実施形態に係る音響信号処理装置10は、球面調和スペクトル算出部122とバイノーラル信号生成部124を備える。球面調和スペクトル算出部122は、受聴点を基準とする音源位置での球面調和展開の基底関数から原点を基準とする音源位置での基底関数への変換係数を算出し、各耳について、頭部伝達関数の球面調和スペクトル、変換係数、および、音源信号に基づいて音場の球面調和スペクトルを算出する。バイノーラル信号生成部124は、各耳について、音場の球面調和スペクトルを用いて基底関数を線形結合して出力信号の音圧スペクトルを算出し、音圧スペクトルを時間領域の出力信号に変換する。
この構成によれば、各耳について周波数領域において頭部伝達関数の球面調和スペクトルを再計算せずに受聴点における音場を表す球面調和スペクトルが算出される。算出された球面調和スペクトルを用いて球面調和展開における基底関数を線形結合することで、音源または受聴点が任意に移動する音を周波数領域でレンダリングすることができる。レンダリングにより、音源位置または受聴点の滑らかな変動に応じて音の周波数特性が連続的に変動する。また、時間領域における頭部伝達関数または頭部伝達関数を畳み込んだ音源信号の加算を伴わないため、音像定位の手がかりとなる周波数特性を乱さずに受聴点における音場の音圧スペクトルが推定される。そのため、その音源位置への音像定位が阻害されない。
また、受聴点と頭部伝達関数の取得に係る基準点は、それぞれ頭部位置であってもよい。
頭部位置が受聴点として用いられることで、各耳の位置が用いられる場合よりも、レンダリングに係る受聴点による操作を簡素にすることができる。また、頭部位置が頭部伝達関数の取得に係る基準点として用いられることで、左右各耳に係る頭部伝達関数の一括した取得および管理が容易になる。
また、受聴点と頭部伝達関数の取得に係る基準点は、それぞれ各耳の位置であってもよい。
各耳の位置が受聴点として用いられることで、その位置が頭部伝達関数の球面調和展開の展開中心として用いられる。そのため、頭部中心が受聴点として用いられる場合よりも、算出される音圧スペクトルの推定精度を向上させることができる。
なお、音響信号処理装置10は、専用の音響信号処理装置として実現されてもよいし、パーソナルコンピュータ、タブレット端末装置、などの情報端末装置のように、音響信号の処理を主機能としない装置として実現されてもよい。音響信号処理装置10は、各種のコンテンツの制作、編集、配信(放送を含む)に係る機器(例えば、ミキシングコンソールなど)の一部として実現されてもよい。
なお、上述の音響信号処理装置10の一部または全部は、専用の部材(集積回路など)を用いて構成されてもよいし、コンピュータで実現するようにしてもよい。例えば、球面調和スペクトル算出部122とバイノーラル信号生成部124のいずれか、または、それらの組み合わせは、CPU(Central Processing Unit)などの汎用の演算処理装置がROM(Read Only Memory)などの記憶媒体から読み出された所定のプログラムに記述された指令で指示される処理を実行して、その機能を実現してもよい。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
10…音響信号処理装置、110…入力部、120…制御部、122…球面調和スペクトル算出部、124…バイノーラル信号生成部、126…球面調和展開部、130…記憶部、140…出力部

Claims (4)

  1. 受聴点を基準とする音源位置での球面調和展開の基底関数から原点を基準とする音源位置での基底関数への変換係数を算出し、
    各耳について、頭部伝達関数の球面調和スペクトル、前記変換係数、および、音源信号に基づいて音場の球面調和スペクトルを算出する球面調和スペクトル算出部と、
    各耳について、前記音場の球面調和スペクトルを用いて前記基底関数を線形結合して音圧スペクトルを算出し、
    前記音圧スペクトルを時間領域の音響信号に変換するバイノーラル信号生成部と、を備える
    音響信号処理装置。
  2. 前記受聴点は、頭部位置であり、
    前記頭部伝達関数の取得に係る基準点は、前記頭部位置である
    請求項1に記載の音響信号処理装置。
  3. 前記受聴点は、各耳の位置であり、
    前記頭部伝達関数の取得に係る基準点は、各耳の位置である
    請求項1に記載の音響信号処理装置。
  4. コンピュータに請求項1から請求項3のいずれか一項に記載の音響信号処理装置として機能させるためのプログラム。
JP2022025810A 2022-02-22 2022-02-22 音響信号処理装置、および、プログラム Pending JP2023122230A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022025810A JP2023122230A (ja) 2022-02-22 2022-02-22 音響信号処理装置、および、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022025810A JP2023122230A (ja) 2022-02-22 2022-02-22 音響信号処理装置、および、プログラム

Publications (1)

Publication Number Publication Date
JP2023122230A true JP2023122230A (ja) 2023-09-01

Family

ID=87798855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022025810A Pending JP2023122230A (ja) 2022-02-22 2022-02-22 音響信号処理装置、および、プログラム

Country Status (1)

Country Link
JP (1) JP2023122230A (ja)

Similar Documents

Publication Publication Date Title
US10609504B2 (en) Audio signal processing method and apparatus for binaural rendering using phase response characteristics
EP3320692B1 (en) Spatial audio processing apparatus
KR102586089B1 (ko) 파라메트릭 바이너럴 출력 시스템 및 방법을 위한 머리추적
JP7544182B2 (ja) 信号処理装置および方法、並びにプログラム
JP2020017978A (ja) 音声処理装置および方法、並びにプログラム
CN104205878B (zh) 用于通过头相关传输函数的线性混合生成头相关传输函数的方法及系统
BR112020000775A2 (pt) aparelho para gerar uma descrição do campo sonoro, programa de computador, descrição do campo sonoro aprimorada e seu método de geração
KR20220023348A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
CN106797525A (zh) 用于生成和回放音频信号的方法和设备
JP7378575B2 (ja) 空間変換領域における音場表現を処理するための装置、方法、またはコンピュータプログラム
Rabenstein et al. Sound field reproduction
JP2023122230A (ja) 音響信号処理装置、および、プログラム
Koyama Boundary integral approach to sound field transform and reproduction
US11758348B1 (en) Auditory origin synthesis
RU2722391C2 (ru) Система и способ слежения за движением головы для получения параметрического бинаурального выходного сигнала
US20240163630A1 (en) Systems and methods for a personalized audio system
RU2818687C2 (ru) Система и способ слежения за движением головы для получения параметрического бинаурального выходного сигнала
KR20030002868A (ko) 삼차원 입체음향 구현방법 및 시스템
JP2022034267A (ja) バイノーラル再生装置およびプログラム