JP7276470B2

JP7276470B2 - 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム

Info

Publication number: JP7276470B2
Application number: JP2021543939A
Authority: JP
Inventors: 昌弘安田; 悠馬小泉
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-09-04
Filing date: 2020-02-04
Publication date: 2023-05-18
Anticipated expiration: 2040-02-04
Also published as: WO2021044647A1; WO2021044551A1; US11922965B2; US20220301575A1; JPWO2021044647A1

Description

特許法第３０条第２項適用（１）ウェブサイトの掲載日２０１９年１０月１０日ウェブサイトのアドレスｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１９１０．０４４１５

本発明は、音源到来方向（ＤＯＡ）推定に関し、到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラムに関する。

音源到来方向（ＤＯＡ）推定は、ＡＩ（人工知能）が周辺環境を理解するために重要な技術の一つである。例えば、自動運転車の実現には周囲環境を自律的に取得できる方法が不可欠であり（非特許文献１、２）、ＤＯＡ推定はその有力な手段である。また、ドローンに搭載されたマイクロホンアレイを用いたＤＯＡ推定器を、犯罪等の監視システムとして用いることも検討されている（非特許文献３）。

ＤＯＡ推定の手法は大きく分けて物理ベース（非特許文献４、５、６、７）と機械学習ベース（非特許文献８、９、１０、１１）の二つに分類できる。物理ベースの手法としては、到来時間差（TDOA）に基づく方法、位相変換を伴う一般化相互相関法（GCC-PHAT）、MUSIC等の部分空間法などが提案されている。機械学習ベースの方法としては、近年ＤＮＮを用いたものが多く提案されている。例えば、オートエンコーダーと識別器の組み合わせ（非特許文献８）や、畳み込み型ニューラルネットワーク（ＣＮＮ）と回帰型ニューラルネットワーク（ＲＮＮ）の組み合わせ（非特許文献９、１０、１１）が提案されている。

物理ベースとＤＮＮベースの両方の方法には、長所と短所がある。物理ベースの方法は一般に、音源数がわかっている場合において正確なＤＯＡ推定を行うことが可能である。実際、DCASE2019ChallangeのTask3においてもパラメトリックベースのＤＯＡ推定方法は低いDOAerror（ＤＥ）を示した（非特許文献１２）。しかし、これらの方法はＤＯＡ推定に多くの時間フレームを使用するため、時系列分析と角度推定の精度にトレードオフの関係がある。音響強度ベクトル（ＩＶ）（非特許文献６、７）を使用したＤＯＡ推定は、このトレードオフを解消し、良い角度分解能での時系列分析を可能にした。

Y. Xu, Q. Kong, W. Wang, and M. D. Plumbley, "Surrey-cvsspsystem for dcase2017 challenge task4, "inTech. report of De-tection and Classification of Acoustic Scenes and Events 2017(DCASE) Challange, 2017. D. Lee, S. Lee, Y. Han, and K. Lee, "Ensemble of convo-lutional neural networks for weakly-supervised sound eventdetection using multiple scale input, "inTech. report of De-tection and Classification of Acoustic Scenes and Events 2017(DCASE) Challange, 2017. X. Chang, C. Yang, X. Shi, P. Li, Z. Shi, and J. Chen, "Fea-ture extracted doa estimation algorithm using acoustic arrayfor drone surveillance, " inProc. of IEEE 87th Vehicular Tech-nology Conference, 2018. C. Knapp and G. Carter, "The generalized correlation methodfor estimation of time delay,"IEEE Transactions on Acoustics,Speech, and Signal Processing, vol. 24, pp. 320-327,1976. R. O. Schmidt, "Multiple emitter location and signal param-eter estimation,"IEEE Transactions On Antennas and propa-gation, vol. 34, pp. 276-280, 1986. J. Ahonen, V. Pulkki, and T. Lokki, "Teleconference appli-cation and b-format microphone array for directional audiocoding, "inProc. of AES 30th International Conference: In-telligent Audio Environments, 2007. S. Kitic and A. Guerin, "Tramp: Tracking by a real-timeambisonic-based particle filter, "inProc. of LOCATA Chal-lengeWorkshop, a satellite event of IWAENC, 2018. Z. M. Liu, C. Zhang, and P. S. Yu, "Direction-of-arrival esti-mation based on deep neural networks with robustness to arrayimperfections, "IEEE Transactions on Antennas and Propaga-tion, vol. 66, pp. 7315-7327, 2018. S. Adavanne, A. Politis, and T. Virtanen, "Direction of arrivalestimation for multiple sound sources using convolutional re-current neural network," inProc. of IEEE 26th European Sig-nal Processing Conference, 2018. S. Adavanne, A. Politis, J. ikunen, and T. Virtanen, "Sound event localization and detection of overlappingsources using convolutional recurrent neural networks, " arXiv:1807.00129v3, 2018. S. Adavanne, A. Politis, and T. Virtanen, " multi-room re-verberant dataset for sound event localization and detection," arXiv:1905.08546v2, 2019. T. N. T. Nguyen, D. L. Jones, R. Ranjan, S. Jayabalan, and W. S. Gan, "Dcase 2019 task 3: A two-step system for soundevent localization and detection, " inTech. report of Detec-tion and Classification of Acoustic Scenes and Events 2019(DCASE) Challange, 2019. S. Kapka and M. Lewandowski, "Sound source detection, lo-calization and classification using consecutive ensemble ofcrnn models, "inTech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange,2019. Y. Cao, T. Iqbal, Q. Kong, M. B. Galindo, W. Wang, and M. D.Plumbley, "Two-stage sound event localization and detec-tion using intensity vector and generalized crosscorrelation,"inTech. report of Detection and Classification of AcousticScenes and Events 2019 (DCASE) Challange, 2019. D. P. Jarrett, E. S. P. Habets, and P. A. Naylor, "3d sourcelocalization in the spherical harmonic domain using a pseu-dointensity vector, "inProc. of European Signal ProcessingConference, 2010. "DCASE2019ワークショップ－音響シーンとイベントの検出と分類に関するワークショップ"、[online]、［令和元年8月21日検索］、インターネット<URL:http://dcase.community/workshop2019/>

しかし、その精度は雑音と室内残響に対応する信号雑音比（ＳＮＲ）の影響を強く受ける。一方、ＤＮＮベースのＤＯＡ推定方法として、ＳＮＲに対してロバストなものが提案されている（非特許文献９、１３、１４）。

しかし、ＤＮＮによる音響処理はブラックボックスであるため、ＤＮＮモデルが学習によってどのような性質を獲得したかを知ることが出来ない。従って、学習モデルの適用範囲を決定することが困難である。

そこで本発明では、ＳＮＲに対してロバストかつ学習モデルの適用範囲が明確な到来方向推定を実現する到来方向推定装置を提供することを目的とする。

本発明の到来方向推定装置は、残響出力部と、雑音抑圧マスク出力部と、音源到来方向導出部を含む。残響出力部は、音響データの複素スペクトログラムから抽出された実数スペクトログラムと、複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された音響強度ベクトルの残響成分を出力する。雑音抑圧マスク出力部は、実数スペクトログラムと、残響成分が差し引かれた音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力する。音源到来方向導出部は、残響成分を差し引き済みの音響強度ベクトルに時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する。

本発明の到来方向推定装置によれば、ＳＮＲに対してロバストかつ学習モデルの適用範囲が明確な到来方向推定を実現できる。

実施例１のモデル学習装置の構成を示すブロック図。実施例１のモデル学習装置の動作を示すフローチャート。実施例１の到来方向推定装置の構成を示すブロック図。実施例１の到来方向推定装置の動作を示すフローチャート。実施例１の到来方向推定装置の推定結果、従来技術の推定結果を示す図。実施例２のモデル学習装置の構成を示すブロック図。実施例２のモデル学習装置の動作を示すフローチャート。実施例２の到来方向推定装置の構成を示すブロック図。実施例２の到来方向推定装置の動作を示すフローチャート。実施例２の到来方向推定装置の推定結果、従来技術の推定結果を示す図。コンピュータの機能構成例を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

実施例１のモデル学習装置、到来方向推定装置は、ＦＯＡフォーマットの信号から得られたＩＶによるＤＯＡ推定を、ＤＮＮを用いた残響除去と雑音抑圧によって精度改善する。実施例１のモデル学習装置、到来方向推定装置は３つのＤＮＮを組み合わせて用いる。音圧強度ベクトルの残響成分の推定モデル（RIVnet）、雑音抑圧のための時間周波数マスクの推定モデル（MASKnet）、音源有無の推定モデル（SADnet）である。なお、本実施例のモデル学習装置、到来方向推定装置は、同一時間区間内に複数の音源が同時に存在しない場合についてのＤＯＡ推定を行う。

＜準備＞
以下、実施例で用いられる従来技術について説明する。

＜音響強度ベクトルに基づくＤＯＡ推定＞
Ahonenらは、一次アンビソニックスＢフォーマットから計算されたＩＶを用いたＤＯＡ推定法を提案した（非特許文献６）。一次アンビソニックスＢフォーマットは４チャネルの信号で構成され、その短時間フーリエ変換（ＳＴＦＴ）の出力W_f,t,X_f,t,Y_f,t,Z_f,tは、０次および１次の球面調和関数に対応する。ここで、f∈{1,...,F}とt∈{1,...,T}は、それぞれＴ－Ｆドメインの周波数と時間のインデックスである。０次のW_f,tは無指向性音源に対応し、１次のX_f,t,Y_f,tおよびZ_f,tは、それぞれ各軸に沿った双極子に対応する。

W_f,t,X_f,t,Y_f,tおよびZ_f,tの空間応答（ステアリングベクトル）はそれぞれ次のように定義される。
H^(W)(φ,θ,f)=3^-1/2,
H^(X)(φ,θ,f)=cosφ*cosθ,
H^(Y)(φ,θ,f)=sinφ*cosθ,
H^(Z)(φ,θ,f)=sinθ
…(1)

ここで、φとθは、それぞれ方位角と仰角を表す。ＩＶは、音響粒子速度v=[v_x,v_y,v_z]^Tおよび音圧p_f,tによって決まるベクトルであり、Ｔ－Ｆ空間においては次のように表される。
I_f,t=1/2R(p^* _f,t・v_f,t)…(2)

ここで、R(・)は複素数の実部を表し、^*は複素共役を表す。実際には、空間上の全ての点において音響粒子速度と音圧の測定を行うことは不可能なため、式（２）をそのまま適用してＩＶを求めることは難しい。そこで、一次アンビソニックスＢフォーマットから得られた４チャネルのスペクトログラムを用いて、式（２）を次のように近似して式（３）とする（非特許文献１５）。

ＤＯＡ推定に対して有効な時間周波数領域を選び出すため、AhonenらはＩＶに対して次のような時間周波数マスクM_f,tを適用した。なお、ρ₀は空気密度、cは音速である。

このマスクは、信号強度であり大きな強度をもつ時間周波数ビンを選び出すものとなっている。したがって、目的信号が環境雑音よりも十分に大きな強度を持っていると仮定すれば、この時間周波数マスクはＤＯＡ推定に対して有効な時間周波数領域を選びだすものとなる。さらに、彼らは300-3400Hzの領域内の各バーク尺度ごとにＩＶの時系列を次のように計算している。

ここで、f_l、f_hは各バーク尺度の上限と下限を表す。最後に各時間フレームtにおける目的音源の方位角および仰角は、次のように計算される。

＜ＤＮＮに基づくＤＯＡ推定＞
Adavanneらは、ＤＮＮを用いたいくつかのＤＯＡ推定方法を提案した（非特許文献９、１０、１１）。このうち、２つの畳み込みニューラルネットワーク（ＣＮＮ）ベースのＤＮＮを組み合わせる方法について述べる。これはシグナル処理フレームワークとＤＮＮの組み合わせである。第１のＤＮＮでは、空間擬似スペクトル（ＳＰＳ）が回帰問題として推定される。入力特徴は、１次アンビソニックスＢフォーマットの４チャネル信号を短時間フーリエ変換（ＳＴＦＴ）することによって得られたスペクトログラムの振幅および位相である。２番目のＤＮＮでは、１０°間隔での分類タスクとしてＤＯＡが推定される。このネットワークの入力は、最初のＤＮＮで取得されたＳＰＳである。どちらのＤＮＮも、多層ＣＮＮと双方向ゲート付き再帰型ニューラルネットワーク（Ｂｉ－ＧＲＵ）の組み合わせで構成されているため、高次の特徴の抽出と時間構造のモデル化が可能である。

＜ＤＮＮを用いた残響除去と雑音抑圧を用いて精度改善するＤＯＡ推定＞
本実施例では、ＩＶに基づくＤＯＡ推定を、ＤＮＮを用いた残響除去と雑音抑圧を用いて精度改善するＤＯＡ推定を可能とするモデル学習装置、到来方向推定装置を提供する。一般に、時間領域の入力信号ｘは次のように表すことができる。
x=x^s+x^r+xⁿ…(7)

ここで、x^s,x^r,xⁿはそれぞれ、直接音、残響、雑音成分を表す。同様に時間周波数表現x_t,fも同様に直接音、残響、雑音成分の和として表すことが出来る。したがって、この表現を式（３）に適用することにより、次の表現が得られる。
I_f,t=I^s _f,t+I^r _f,t+Iⁿ _f,t…(8)

式（８）から分かるように、観測信号から得られるＩＶは３つの成分を含んでいるため、ここから導出されるＩＶの時系列I_tは直接音だけでなく残響と雑音の影響を受ける。これが、従来法が残響及び雑音に対してロバストではない理由の一つである。

従来法の欠点を克服するため、推定されたＩＶの残響成分I^^r _f,tの差し引きによる残響除去と、時間周波数マスクM_f,tの適用による雑音抑制を行った。この操作は次のように表すことが出来る。

本実施例では、ＩＶの残響成分I^^r _f,t及び、時間周波数マスクM_f,tを二つのＤＮＮによって推定した。

＜モデル学習装置１＞
以下、図１を参照して実施例１のモデル学習装置１の機能構成を説明する。同図に示すように、本実施例のモデル学習装置１は、入力データ記憶部１０１と、ラベルデータ記憶部１０２と、短時間フーリエ変換部２０１と、スペクトログラム抽出部２０２と、音響強度ベクトル抽出部２０３と、残響出力部３０１と、残響差し引き処理部３０２と、雑音抑圧マスク出力部３０３と、雑音抑圧マスク適用処理部３０４と、音源到来方向導出部３０５と、有音源区間推定部３０６と、音源到来方向出力部４０１と、有音源区間判定出力部４０２と、コスト関数計算部５０１を含む。以下、図２を参照して各構成要件の動作について説明する。

＜入力データ記憶部１０１＞
入力データとして、時刻毎の音源到来方向が既知である、学習に用いる一次アンビソニックスＢフォーマットの４チャネル音響データを用意し、入力データ記憶部１０１に予め記憶する。使用する音響データは、音声信号であってもよいし、音声信号以外の音響信号であってもよい。なお、使用する音響データは必ずしもアンビソニックス形式に限定する必要はなく、一般的なマイクアレイ信号であってもよい。本実施例では同一時間区間に複数の音源を含まないものを用いる。

＜ラベルデータ記憶部１０２＞
入力データ記憶部１０１の入力データに対応する、各音響イベントの音源到来方向及び時刻を示すラベルデータを用意し、ラベルデータ記憶部１０２に予め記憶する。

＜短時間フーリエ変換部２０１＞
短時間フーリエ変換部２０１は、入力データ記憶部１０１の入力データに対してＳＴＦＴを実行し、複素スペクトログラムを取得する（Ｓ２０１）。

＜スペクトログラム抽出部２０２＞
スペクトログラム抽出部２０２は、ステップＳ２０１で得られた複素スペクトログラムを用いて、ＤＮＮの入力特徴量として用いるための実数スペクトログラムを抽出する（Ｓ２０２）。スペクトログラム抽出部２０２は、例えば、対数メルスペクトログラムを用いることができる。

＜音響強度ベクトル抽出部２０３＞
音響強度ベクトル抽出部２０３は、ステップＳ２０１で得られた複素スペクトログラムを用いて、ＤＮＮの入力特徴量として用いるための音響強度ベクトルを式（３）に従って抽出する（Ｓ２０３）。

＜残響出力部３０１(RIVnet)＞
残響出力部３０１は、実数スペクトログラムと、音響強度ベクトルを入力とし、推定された音響強度ベクトルの残響成分を出力する（Ｓ３０１）。より詳細には、残響出力部３０１は、音響強度ベクトルの残響成分I^r _f,tの推定を、ＤＮＮベースの音圧強度ベクトルの残響成分推定モデル(RIVnet)によって行う（Ｓ３０１）。残響出力部３０１は、例えば、多層ＣＮＮと双方向長・短期記憶回帰型ニューラルネットワーク(Bi-STFT)を組み合わせたＤＮＮモデルを用いることができる。

＜残響差し引き処理部３０２＞
残響差し引き処理部３０２は、ステップＳ３０１で推定されたI^r _f,tを、ステップＳ２０３で得られた音響強度ベクトルから差し引く処理を行う（Ｓ３０２）。

＜雑音抑圧マスク出力部３０３(MASKnet)＞
雑音抑圧マスク出力部３０３は、実数スペクトログラムと、残響成分が差し引かれた音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力する（Ｓ３０３）。より詳細には、雑音抑圧マスク出力部３０３は、雑音抑制のための時間周波数マスクM_f,tの推定を、ＤＮＮベースの雑音抑圧のための時間周波数マスク推定モデル(MASKnet)によって行う（Ｓ３０３）。雑音抑圧マスク出力部３０３は、例えば、残響出力部３０１(RIVnet)と出力部を除き、同様の構造を持つＤＮＮモデルを用いることができる。

＜雑音抑圧マスク適用処理部３０４＞
雑音抑圧マスク適用処理部３０４は、ステップＳ３０３で得られた時間周波数マスクM_f,tを、ステップＳ３０２で得られた残響差し引き済みの音響強度ベクトルに掛ける（Ｓ３０４）。

＜音源到来方向導出部３０５＞
音源到来方向導出部３０５は、ステップＳ３０４で得られた残響成分を差し引き済みの音響強度ベクトルに時間周波数マスクを適用してなる音響強度ベクトルに基づいて、式（６）によって音源到来方向（ＤＯＡ）を導出する（Ｓ３０５）。

＜有音源区間推定部３０６(SADnet)＞
有音源区間推定部３０６は、有音源区間の推定を、ＤＮＮモデル(SADnet)によって行う（Ｓ３０６）。例えば有音源区間推定部３０６は、雑音抑圧マスク出力部３０３(MASKnet)の出力層を分岐させ、SADnetを実行すればよい。

＜音源到来方向出力部４０１＞
音源到来方向出力部４０１は、ステップＳ３０５で導出された音源到来方向（ＤＯＡ）を表す方位角φと仰角θの対の時系列データを出力する（Ｓ４０１）。

＜有音源区間判定出力部４０２（ＳＡＤ）＞
有音源区間推定部４０２は、有音源区間推定部３０６によって推定された有音源区間判定の結果であり、有音源区間において１、それ以外において０の値を取る時系列データを出力する（Ｓ４０２）。

＜コスト関数計算部５０１＞
コスト関数計算部５０１は、導出された音源到来方向と、ラベルデータ記憶部１０２に予め記憶されたラベルに基づいて、ＤＮＮモデルのパラメータを更新する（Ｓ５０１）。より詳細には、コスト関数計算部５０１は、ステップＳ４０１において導出された音源到来方向と、ステップＳ４０２における有音源区間判定の結果と、ラベルデータ記憶部１０２に予め記憶されたラベルに基づいて、ＤＮＮ学習のコスト関数を計算し、これが小さくなる方向にＤＮＮモデルのパラメータを更新する（Ｓ５０１）。

例えばコスト関数として、ＤＯＡ推定についてのコスト関数とＳＡＤ推定についてのコスト関数の和を用いることができる。ＤＯＡ推定については、真のＤＯＡと推定ＤＯＡの間のMean Absolute Error（ＭＡＥ）をコスト関数とし、ＳＡＤ推定については真のＳＡＤと推定ＳＡＤの間のBinary Cross Entropy（ＢＣＥ）をコスト関数とすることができる。

＜停止条件＞
図２のフローチャートは停止条件の表記を省略しているが、例えば停止条件を、10000回ＤＮＮパラメータが更新された時に学習を停止する、と設定してもよい。

＜到来方向推定装置２＞
図３に示すように、同様の構成で、学習装置ではなく、到来方向が未知な音響データの到来方向を推定する装置を実現できる。本実施例の到来方向推定装置２は、入力データ記憶部１０１と、短時間フーリエ変換部２０１と、スペクトログラム抽出部２０２と、音響強度ベクトル抽出部２０３と、残響出力部３０１と、残響差し引き処理部３０２と、雑音抑圧マスク出力部３０３と、雑音抑圧マスク適用処理部３０４と、音源到来方向導出部３０５と、音源到来方向出力部４０１を含む。モデル学習に必要な構成であるラベルデータ記憶部１０２と、有音源区間推定部３０６と、有音源区間判定出力部４０２と、コスト関数計算部５０１は、本装置からは割愛されている。また入力データとして、到来方向が未知な（ラベルを付与されていない）音響データを用意する点でモデル学習装置１と異なっている。

図４に示すように、到来方向推定装置２の各構成要件は、到来方向が未知な音響データに対して、既に説明したステップＳ２０１、Ｓ２０２、Ｓ２０３、Ｓ３０１、Ｓ３０２、Ｓ３０３、Ｓ３０４、Ｓ３０５、Ｓ４０１を実行して、音源到来方向を導出する。

＜ＤＯＡ推定の実験結果＞
図５に、本実施例の到来方向推定装置２により、時系列ＤＯＡ推定を行った実験結果を示す。図５は、横軸に時刻、縦軸に方位角及び仰角を取ったＤＯＡ推定結果である。破線で示した従来法の結果に比べて、実線で示した本実施例による結果が明らかに真のＤＯＡに近づいていることが分かる。

表１は、ＤＯＡ推定及び有音源区間検出の精度のスコアを示している。DOAError（ＤＥ）はＤＯＡ推定のエラー、FrameRecall（ＦＲ）は有音源区間検出の正解率を示していて、DCASE2019Task3と同様の評価尺度である（非特許文献１１、１６）。これを見るとＤＥについて従来法をはるかに上回る１°以下となっていて、有音源区間検出も高い精度で行われていることがわかる。これらの結果は、本実施例の到来方向推定装置２が有効に動作することを示している。

ＩＶに基づくＤＯＡ推定を、ＤＮＮを用いた雑音抑圧及び音源分離を用いて精度改善するＤＯＡ推定手法を開示する。一般に、Ｎ個の音源が存在するときの時間領域の入力信号ｘは次のように表すことができる。

ここで、s_iは音源i∈[1,...,N]の直接音、nは目的音源に無相関な雑音、εは目的音源に起因するその他の項(残響等)である。時間周波数領域においてもこれらの要素の和として目的信号は表せるので、この表現を式（３）に適用することにより、ＩＶを次のように表すことが出来る。

上述したように、I_tは音響強度ベクトル（ＩＶ）の時系列であり、I^si _f,tは音響強度ベクトル（ＩＶ）の音源iの直接音の成分、Iⁿ _f,tは音響強度ベクトル（ＩＶ）の目的音源に無相関な雑音の成分、I^ε _f,tは音響強度ベクトル（ＩＶ）の目的音源に起因する直接音以外の成分（残響など）を表す。式（１１）から分かるように、観測信号から得られるＩＶはある一つの音源iだけではなく、その他全ての成分を含んでいるため、ここから導出されるＩＶの時系列はこれらの項の影響を受ける。これが、ＩＶに基づく従来法の欠点であるＳＮＲの低下に弱い性質の要因の一つである。

従来法の欠点を克服するため、時間周波数マスクの乗算とベクトル減算による雑音抑圧及び音源分離を行うことで、Ｎ個の重複音の中から音源s_iの音響強度ベクトルI^siを取り出すことを考える。式（１１）の各要素が時間周波数空間上で十分に疎であり、重なりが少ないと考えれば、これらは時間周波数マスクによって分離出来ることが知られている（参考非特許文献１）。
参考非特許文献１：O.Yilmaz and S.Rickard,“Blind separation of speech mixtures via time-frequency masking, ”IEEE Trans. Signal Process., vol. 52, pp. 1830-1847, July. 2004.

実際にはこれは強い仮定であり、雑音項nは時間周波数空間で十分に疎であると仮定することは出来ない。そこで、本実施例では音源s_iを分離する時間周波数マスクM^si _f,tと、雑音項nを分離する時間周波数マスクMⁿ _f,tの組み合わせであるM^si _f,t(1-Mⁿ _f,t)を用いる。この処理は雑音抑圧と音源分離の二つの処理の組み合わせと考えることが出来る。また、εの項が残響である場合には、目的信号と時間周波数上での重なりが大きく時間周波数マスクでは除去出来ない。そこで、本実施例では、I^ε _f,tを直接推定しベクトルとして元の音響強度ベクトルから差し引いた。これらの操作は次のように表すことが出来る。

なお本実施例においては同時刻に存在する目的音の重複数が２以下の場合を扱うため、M^s2 _f,tの代わりに1-M^s1 _f,tを用いることが出来る。そこで我々は、時間周波数マスクMⁿ _f,t，M^s1 _f,t及び、ベクトル^I^ε _f,tを２つのＤＮＮを用いて推定する。

＜モデル学習装置３＞
以下、図６を参照して実施例２のモデル学習装置３の機能構成を説明する。同図に示すように、本実施例のモデル学習装置３は、入力データ記憶部１０１と、ラベルデータ記憶部１０２と、短時間フーリエ変換部２０１と、スペクトログラム抽出部２０２と、音響強度ベクトル抽出部２０３と、残響出力部６０１と、残響差し引き処理部６０２と、雑音抑圧マスク出力部６０３と、雑音抑圧マスク適用処理部６０４と、第１音源到来方向導出部６０５と、第１音源到来方向出力部６０６と、音源数推定部６０７と、音源数出力部６０８と、角度マスク抽出部６０９と、角度マスク乗算処理部６１０と、第２音源到来方向導出部６１１と、第２音源到来方向出力部６１２と、コスト関数計算部５０１を含む。

以下、図７を参照して各構成要件の動作について説明する。

＜入力データ記憶部１０１＞
入力データとして、時刻毎の音源到来方向が既知である、学習に用いる一次アンビソニックスＢフォーマットの４チャネル音響データを用意し、入力データ記憶部１０１に予め記憶する。なお、後述する到来方向推定装置４においては、音源到来方向が未知である音響データがあらかじめ記憶される。使用する音響データは、音声信号であってもよいし、音声信号以外の音響信号であってもよい。なお、使用する音響データは必ずしもアンビソニックス形式に限定する必要はなく、音響強度ベクトルを抽出することができるように収音されたマイクアレイ信号であってもよい。例えば、マイクロホンが同一球面上に配置されたマイクアレイで集音された音響信号であってもよい。さらに、所定の位置を基準とした上下左右前後の方向から到来した音を強調した音響信号の和差で合成されたアンビソニックス形式の信号を用いてもよい。この場合、参考特許文献１に記載された技術を用いてアンビソニックス形式の信号を合成すればよい。本実施例では、同時刻に存在する目的音の重複数が２以下のデータを用いる。
（参考特許文献１：特開２０１８－１２０００７号公報）

＜スペクトログラム抽出部２０２＞
スペクトログラム抽出部２０２は、ステップＳ２０１で得られた複素スペクトログラムを用いて、ＤＮＮの入力特徴量として用いるための実数スペクトログラムを抽出する（Ｓ２０２）。スペクトログラム抽出部２０２は、本実施例では、対数メルスペクトログラムを用いる。

＜残響出力部６０１＞
残響出力部６０１は、実数スペクトログラムと、音響強度ベクトルを入力とし、推定された音響強度ベクトルの残響成分を出力する（Ｓ６０１）。より詳細には、残響出力部６０１は、式（１１）におけるI^ε _f,t項（音響強度ベクトル（ＩＶ）の目的音源に起因する直接音以外の成分、残響成分）の推定を、ＤＮＮモデル(VectorNet)によって行う。本実施例では多層ＣＮＮと双方向長短期記憶回帰型ニューラルネットワーク（Bi-LSTM）を組み合わせたＤＮＮモデルを用いた。

＜残響差し引き処理部６０２＞
残響差し引き処理部６０２は、ステップＳ６０１で推定されたI^ε _f,t（音響強度ベクトル（ＩＶ）の目的音源に起因する直接音以外の成分、残響成分）を、ステップＳ２０３で得られた音響強度ベクトルから差し引く処理を行う（Ｓ６０２）。

＜雑音抑圧マスク出力部６０３＞
雑音抑圧マスク出力部６０３は、雑音抑制のための時間周波数マスク及び音源分離のための時間周波数マスクの推定及び出力を実行する（Ｓ６０３）。雑音抑圧マスク出力部６０３は、雑音抑制及び音源分離のための時間周波数マスクMⁿ _f,t,M^s1 _f,tの推定を、ＤＮＮモデル(MaskNet)によって行う。本実施例では、残響出力部６０１(VectorNet)と出力部を除き同様の構造を持つＤＮＮモデルを用いる。

＜雑音抑圧マスク適用処理部６０４＞
雑音抑圧マスク適用処理部６０４は、ステップＳ６０３で得られた時間周波数マスクMⁿ _f,t,M^s1 _f,tを、ステップＳ６０２で得られた音響強度ベクトルに掛ける。より詳細には、雑音抑圧マスク適用処理部６０４は、式（１２）を用いて、１から雑音抑圧のための時間周波数マスク（Mⁿ _f,t）を差し引いてなる時間周波数マスク（1-Mⁿ _f,t）と、音源分離のための時間周波数マスク（M^si _f,t）との積からなる時間周波数マスク（M^si _f,t(1-Mⁿ _f,t)）を残響成分を差し引き済みの音響強度ベクトル（I_f,t-^I^ε _f,t）に適用する。

ただし、ある時刻の音源数が１の場合はM^s1 _f,t=1とする。この音源数の情報は、モデル学習装置３ではラベルデータ記憶部１０２のラベルデータから、後述する到来方向推定装置４では後述の音源数出力部６０８から得る。

＜第１音源到来方向導出部６０５＞
第１音源到来方向導出部６０５は、ステップＳ６０４で得られた処理適用後の音響強度ベクトルに基づいて、式（６）によって音源到来方向（ＤＯＡ）を導出する。

＜第１音源到来方向出力部６０６＞
第１音源到来方向出力部６０６は、ステップＳ６０５で導出した音源到来方向（ＤＯＡ）である方位角φと仰角θの対の時系列データを出力する（Ｓ６０６）。

＜音源数推定部６０７＞
音源数推定部６０７は、音源数の推定を、ＤＮＮモデル(NoasNet)によって行う（Ｓ６０７）。本実施例では、雑音抑圧マスク出力部６０３(MaskNet)のBi-LSTM層以下を分岐させてNoasNetとする。

＜音源数出力部６０８＞
音源数出力部６０８は、音源数推定部６０７によって推定された音源数を出力する（Ｓ６０８）。音源数出力部６０８は、音源数の三つの状態０，１，２に対応する３次元のOne-Hotベクトルの形で出力する。最も大きい値を持つ状態をその時刻の音源数の出力とする。

＜角度マスク抽出部６０９＞
角度マスク抽出部６０９は、ステップＳ２０３で得られた音響強度ベクトルに基づいて、雑音抑圧及び音源分離を行わない状態で式（６）によって目的音源の方位角φ^aveを導出し、方位角φ^aveより大きい方位角を持つ時間周波数ビンを選び出す角度マスクM^angle _f,tを抽出する（Ｓ６０９）。入力音に含まれる主要な音源が２つの場合、M^angle _f,tは粗い音源分離マスクとなっている。本実施例ではこの角度マスクをＤＮＮ(MaskNet)の入力特徴量及び、コスト関数の正則化項の導出に用いる。

＜角度マスク乗算処理部６１０＞
角度マスク乗算処理部６１０は、ステップＳ６０９で得られた角度マスクM^angle _f,tを、ステップＳ６０２で得られた残響差し引き済みの音響強度ベクトルに掛ける（Ｓ６１０）。ただし、ある時刻の音源数が１の場合はM^angle _f,t=1とする。この音源数の情報は、ラベルデータ記憶部１０２のラベルデータから得る。

＜第２音源到来方向導出部６１１＞
第２音源到来方向導出部６１１は、ステップＳ６１０で得られた処理適用後の音響強度ベクトルを用いて、式（６）によって音源到来方向（ＤＯＡ）を導出する（Ｓ６１１）。

＜第２音源到来方向出力部６１２＞
第２音源到来方向出力部６１２は、ステップＳ６１１で導出されたＤＯＡであり、方位角φと仰角θの対の時系列データを出力する。ただし、ステップＳ６０６とは異なり、雑音抑圧マスク出力部６０３(MaskNet)の出力を使用せずに求められたＤＯＡであり、MaskNet非適用音源到来方向とも呼称する。この出力は後述のコスト計算部５０１において正則化項の導出に用いられる。

＜コスト関数計算部５０１＞
コスト関数計算部５０１は、ステップＳ６０６、Ｓ６０８、Ｓ６１２の出力及び、ラベルデータ記憶部１０２のラベルデータを用いてＤＮＮ学習のコスト関数を計算し、これが小さくなる方向にＤＮＮモデルのパラメータを更新する（Ｓ５０１）。本実施例では次のコスト関数を用いた。
L=L^DOA+λ₁L^NOAS+λ₂L^DOA'…(13)

ここでL^DOA、L^NOAS、L^DOA'はそれぞれ、ＤＯＡ推定、Ｎｏａｓ推定、および正則化項であり、λ₁,λ₂は正の定数である。L^DOAは、真のＤＯＡとステップＳ６０６の出力として得られた推定ＤＯＡの間のMean Absolute Error(MAE)であり、L^NOASは真のNoasとステップＳ６０８の出力として得られた推定Noasの間のBinary Cross Entropy(BCE)である。L^DOA'は、Ｓ６０６の出力の代わりにＳ６１２の出力を用いてL^DOAと同様に計算される。

＜停止条件＞
ステップＳ６０１～Ｓ６０８、Ｓ５０１は停止条件を満たすまで繰り返し実行される。本フローチャートには停止条件が指定されていないが、本実施例では120000回ＤＮＮパラメータが更新された時に学習を停止するものとする。

＜到来方向推定装置４＞
図８に到来方向推定装置４の機能構成を示す。同図に示すように、本実施例の到来方向推定装置４は、モデル学習装置３の機能構成から、パラメータ更新に関わる構成要件である、角度マスク乗算処理部６１０、第２音源到来方向導出部６１１、第２音源到来方向出力部６１２、コスト関数計算部５０１、ラベルデータ記憶部１０２を省略した構成である。この装置の動作は図９に示すように、モデル学習装置３の動作のうち、パラメータ更新に関わるステップＳ６１０、Ｓ６１１、Ｓ６１２、Ｓ５０１を削除したものである。

＜実行結果例＞
本実施例により時系列ＤＯＡ推定を行った実験結果を示す。図１０は、横軸に時刻、縦軸に方位角及び仰角を取ったＤＯＡ推定結果である。破線で示したのは従来のＩＶベースの手法によるＤＯＡ推定結果、実線で示したのが本実施例による結果である。これを見るとＩＶに対して式（１２）を適用することで、明らかに真のＤＯＡに近づいていることが分かる。表２は、ＤＯＡ推定及びＮｏａｓ推定の精度のスコアを示している。

参考非特許文献２：K. Noh, J. Choi, D. Jeon, and J. Chang,“Three-stage approach for sound event localization and detection, ”in Tech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange, 2019.

DOAError(DE)はＤＯＡ推定のエラー、FrameRecall(FR)はNoas推定の正解率を示していて、DCASE2019Task3と同様の評価尺度である（非特許文献１１、１６）。
従来手法（参考非特許文献２）はDCASE2019Task3において最も高いＤＯＡ推定精度を達成したモデルである。これを見るとＤＥについてこの従来法よりも低い値となっていて、最高性能を達成している。ＦＲについても高い精度を達成している。これらの結果は、本実施例の到来方向推定装置４が有効に動作することを示している。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

上述の各種の処理は、図１１に示すコンピュータの記録部１００２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部１００１０、入力部１００３０、出力部１００４０などに動作させることで実施できる。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electrically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力する残響出力部と、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力する雑音抑圧マスク出力部と、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する音源到来方向導出部を含む
到来方向推定装置。
請求項１に記載の到来方向推定装置であって、
前記残響出力部は、
ＤＮＮベースの音圧強度ベクトルの残響成分推定モデルに基づいて、前記音響強度ベクトルの残響成分の推定を実行し、
前記雑音抑圧マスク出力部は、
ＤＮＮベースの雑音抑圧のための時間周波数マスク推定モデルに基づいて、前記時間周波数マスクを推定する
到来方向推定装置。
請求項１または２に記載の到来方向推定装置であって、
前記雑音抑圧マスク出力部は、
前記雑音抑圧のための時間周波数マスクに加え、音源分離のための時間周波数マスクの推定及び出力を実行し、
前記音源到来方向導出部は、
前記残響成分を差し引き済みの前記音響強度ベクトルに、１から前記雑音抑圧のための時間周波数マスクを差し引いてなる時間周波数マスクと、前記音源分離のための時間周波数マスクとの積からなる時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する
到来方向推定装置。
音源到来方向が既知であって時刻毎の前記音源到来方向を示すラベルを有する音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力する残響出力部と、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力する雑音抑圧マスク出力部と、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する音源到来方向導出部と、
前記導出された音源到来方向と、前記ラベルに基づいてＤＮＮモデルのパラメータを更新するコスト関数計算部を含む
モデル学習装置。
請求項４に記載のモデル学習装置であって、
前記残響出力部は、
ＤＮＮベースの音圧強度ベクトルの残響成分推定モデルに基づいて、前記音響強度ベクトルの残響成分の推定を実行し、
前記雑音抑圧マスク出力部は、
ＤＮＮベースの雑音抑圧のための時間周波数マスク推定モデルに基づいて、前記時間周波数マスクを推定する
モデル学習装置。
請求項４または５に記載のモデル学習装置であって、
音源数を推定する音源数推定部を含み、
前記雑音抑圧マスク出力部は、
前記雑音抑圧のための時間周波数マスクに加え、音源分離のための時間周波数マスクの推定及び出力を実行し、
前記音源到来方向導出部は、
前記残響成分を差し引き済みの前記音響強度ベクトルに、１から前記雑音抑圧のための時間周波数マスクを差し引いてなる時間周波数マスクと、前記音源分離のための時間周波数マスクとの積からなる時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出し、
前記コスト関数計算部は、
前記導出された音源到来方向と、前記ラベルに加え、前記音源数に基づいてＤＮＮモデルのパラメータを更新する
到来方向推定装置。
音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力するステップと、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力するステップと、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出するステップを含む
到来方向推定方法。
音源到来方向が既知であって時刻毎の前記音源到来方向を示すラベルを有する音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力するステップと、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力するステップと、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出するステップと、
前記導出された音源到来方向と、前記ラベルに基づいてＤＮＮモデルのパラメータを更新するステップを含む
モデル学習方法。
コンピュータを請求項１から３の何れかに記載の到来方向推定装置として機能させるプログラム。
コンピュータを請求項４から６の何れかに記載のモデル学習装置として機能させるプログラム。