JP7276470B2 - 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム - Google Patents

到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム Download PDF

Info

Publication number
JP7276470B2
JP7276470B2 JP2021543939A JP2021543939A JP7276470B2 JP 7276470 B2 JP7276470 B2 JP 7276470B2 JP 2021543939 A JP2021543939 A JP 2021543939A JP 2021543939 A JP2021543939 A JP 2021543939A JP 7276470 B2 JP7276470 B2 JP 7276470B2
Authority
JP
Japan
Prior art keywords
arrival
time
sound
intensity vector
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021543939A
Other languages
English (en)
Other versions
JPWO2021044647A1 (ja
Inventor
昌弘 安田
悠馬 小泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021044647A1 publication Critical patent/JPWO2021044647A1/ja
Application granted granted Critical
Publication of JP7276470B2 publication Critical patent/JP7276470B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

特許法第30条第2項適用 (1)ウェブサイトの掲載日 2019年10月10日 ウェブサイトのアドレス https://arxiv.org/abs/1910.04415
本発明は、音源到来方向(DOA)推定に関し、到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラムに関する。
音源到来方向(DOA)推定は、AI(人工知能)が周辺環境を理解するために重要な技術の一つである。例えば、自動運転車の実現には周囲環境を自律的に取得できる方法が不可欠であり(非特許文献1、2)、DOA推定はその有力な手段である。また、ドローンに搭載されたマイクロホンアレイを用いたDOA推定器を、犯罪等の監視システムとして用いることも検討されている(非特許文献3)。
DOA推定の手法は大きく分けて物理ベース(非特許文献4、5、6、7)と機械学習ベース(非特許文献8、9、10、11)の二つに分類できる。物理ベースの手法としては、到来時間差(TDOA)に基づく方法、位相変換を伴う一般化相互相関法(GCC-PHAT)、MUSIC等の部分空間法などが提案されている。機械学習ベースの方法としては、近年DNNを用いたものが多く提案されている。例えば、オートエンコーダーと識別器の組み合わせ(非特許文献8)や、畳み込み型ニューラルネットワーク(CNN)と回帰型ニューラルネットワーク(RNN)の組み合わせ(非特許文献9、10、11)が提案されている。
物理ベースとDNNベースの両方の方法には、長所と短所がある。物理ベースの方法は一般に、音源数がわかっている場合において正確なDOA推定を行うことが可能である。実際、DCASE2019ChallangeのTask3においてもパラメトリックベースのDOA推定方法は低いDOAerror(DE)を示した(非特許文献12)。しかし、これらの方法はDOA推定に多くの時間フレームを使用するため、時系列分析と角度推定の精度にトレードオフの関係がある。音響強度ベクトル(IV)(非特許文献6、7)を使用したDOA推定は、このトレードオフを解消し、良い角度分解能での時系列分析を可能にした。
Y. Xu, Q. Kong, W. Wang, and M. D. Plumbley, "Surrey-cvsspsystem for dcase2017 challenge task4, "inTech. report of De-tection and Classification of Acoustic Scenes and Events 2017(DCASE) Challange, 2017. D. Lee, S. Lee, Y. Han, and K. Lee, "Ensemble of convo-lutional neural networks for weakly-supervised sound eventdetection using multiple scale input, "inTech. report of De-tection and Classification of Acoustic Scenes and Events 2017(DCASE) Challange, 2017. X. Chang, C. Yang, X. Shi, P. Li, Z. Shi, and J. Chen, "Fea-ture extracted doa estimation algorithm using acoustic arrayfor drone surveillance, " inProc. of IEEE 87th Vehicular Tech-nology Conference, 2018. C. Knapp and G. Carter, "The generalized correlation methodfor estimation of time delay,"IEEE Transactions on Acoustics,Speech, and Signal Processing, vol. 24, pp. 320-327,1976. R. O. Schmidt, "Multiple emitter location and signal param-eter estimation,"IEEE Transactions On Antennas and propa-gation, vol. 34, pp. 276-280, 1986. J. Ahonen, V. Pulkki, and T. Lokki, "Teleconference appli-cation and b-format microphone array for directional audiocoding, "inProc. of AES 30th International Conference: In-telligent Audio Environments, 2007. S. Kitic and A. Guerin, "Tramp: Tracking by a real-timeambisonic-based particle filter, "inProc. of LOCATA Chal-lengeWorkshop, a satellite event of IWAENC, 2018. Z. M. Liu, C. Zhang, and P. S. Yu, "Direction-of-arrival esti-mation based on deep neural networks with robustness to arrayimperfections, "IEEE Transactions on Antennas and Propaga-tion, vol. 66, pp. 7315-7327, 2018. S. Adavanne, A. Politis, and T. Virtanen, "Direction of arrivalestimation for multiple sound sources using convolutional re-current neural network," inProc. of IEEE 26th European Sig-nal Processing Conference, 2018. S. Adavanne, A. Politis, J. ikunen, and T. Virtanen, "Sound event localization and detection of overlappingsources using convolutional recurrent neural networks, " arXiv:1807.00129v3, 2018. S. Adavanne, A. Politis, and T. Virtanen, " multi-room re-verberant dataset for sound event localization and detection," arXiv:1905.08546v2, 2019. T. N. T. Nguyen, D. L. Jones, R. Ranjan, S. Jayabalan, and W. S. Gan, "Dcase 2019 task 3: A two-step system for soundevent localization and detection, " inTech. report of Detec-tion and Classification of Acoustic Scenes and Events 2019(DCASE) Challange, 2019. S. Kapka and M. Lewandowski, "Sound source detection, lo-calization and classification using consecutive ensemble ofcrnn models, "inTech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange,2019. Y. Cao, T. Iqbal, Q. Kong, M. B. Galindo, W. Wang, and M. D.Plumbley, "Two-stage sound event localization and detec-tion using intensity vector and generalized crosscorrelation,"inTech. report of Detection and Classification of AcousticScenes and Events 2019 (DCASE) Challange, 2019. D. P. Jarrett, E. S. P. Habets, and P. A. Naylor, "3d sourcelocalization in the spherical harmonic domain using a pseu-dointensity vector, "inProc. of European Signal ProcessingConference, 2010. "DCASE2019ワークショップ-音響シーンとイベントの検出と分類に関するワークショップ"、[online]、[令和元年8月21日検索]、インターネット<URL:http://dcase.community/workshop2019/>
しかし、その精度は雑音と室内残響に対応する信号雑音比(SNR)の影響を強く受ける。一方、DNNベースのDOA推定方法として、SNRに対してロバストなものが提案されている(非特許文献9、13、14)。
しかし、DNNによる音響処理はブラックボックスであるため、DNNモデルが学習によってどのような性質を獲得したかを知ることが出来ない。従って、学習モデルの適用範囲を決定することが困難である。
そこで本発明では、SNRに対してロバストかつ学習モデルの適用範囲が明確な到来方向推定を実現する到来方向推定装置を提供することを目的とする。
本発明の到来方向推定装置は、残響出力部と、雑音抑圧マスク出力部と、音源到来方向導出部を含む。残響出力部は、音響データの複素スペクトログラムから抽出された実数スペクトログラムと、複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された音響強度ベクトルの残響成分を出力する。雑音抑圧マスク出力部は、実数スペクトログラムと、残響成分が差し引かれた音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力する。音源到来方向導出部は、残響成分を差し引き済みの音響強度ベクトルに時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する。
本発明の到来方向推定装置によれば、SNRに対してロバストかつ学習モデルの適用範囲が明確な到来方向推定を実現できる。
実施例1のモデル学習装置の構成を示すブロック図。 実施例1のモデル学習装置の動作を示すフローチャート。 実施例1の到来方向推定装置の構成を示すブロック図。 実施例1の到来方向推定装置の動作を示すフローチャート。 実施例1の到来方向推定装置の推定結果、従来技術の推定結果を示す図。 実施例2のモデル学習装置の構成を示すブロック図。 実施例2のモデル学習装置の動作を示すフローチャート。 実施例2の到来方向推定装置の構成を示すブロック図。 実施例2の到来方向推定装置の動作を示すフローチャート。 実施例2の到来方向推定装置の推定結果、従来技術の推定結果を示す図。 コンピュータの機能構成例を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
実施例1のモデル学習装置、到来方向推定装置は、FOAフォーマットの信号から得られたIVによるDOA推定を、DNNを用いた残響除去と雑音抑圧によって精度改善する。実施例1のモデル学習装置、到来方向推定装置は3つのDNNを組み合わせて用いる。音圧強度ベクトルの残響成分の推定モデル(RIVnet)、雑音抑圧のための時間周波数マスクの推定モデル(MASKnet)、音源有無の推定モデル(SADnet)である。なお、本実施例のモデル学習装置、到来方向推定装置は、同一時間区間内に複数の音源が同時に存在しない場合についてのDOA推定を行う。
<準備>
以下、実施例で用いられる従来技術について説明する。
<音響強度ベクトルに基づくDOA推定>
Ahonenらは、一次アンビソニックスBフォーマットから計算されたIVを用いたDOA推定法を提案した(非特許文献6)。一次アンビソニックスBフォーマットは4チャネルの信号で構成され、その短時間フーリエ変換(STFT)の出力Wf,t,Xf,t,Yf,t,Zf,tは、0次および1次の球面調和関数に対応する。ここで、f∈{1,...,F}とt∈{1,...,T}は、それぞれT-Fドメインの周波数と時間のインデックスである。0次のWf,tは無指向性音源に対応し、1次のXf,t,Yf,tおよびZf,tは、それぞれ各軸に沿った双極子に対応する。
Wf,t,Xf,t,Yf,tおよびZf,tの空間応答(ステアリングベクトル)はそれぞれ次のように定義される。
H(W)(φ,θ,f)=3-1/2,
H(X)(φ,θ,f)=cosφ*cosθ,
H(Y)(φ,θ,f)=sinφ*cosθ,
H(Z)(φ,θ,f)=sinθ
…(1)
ここで、φとθは、それぞれ方位角と仰角を表す。IVは、音響粒子速度v=[vx,vy,vz]Tおよび音圧pf,tによって決まるベクトルであり、T-F空間においては次のように表される。
If,t=1/2R(p* f,t・vf,t)…(2)
ここで、R(・)は複素数の実部を表し、*は複素共役を表す。実際には、空間上の全ての点において音響粒子速度と音圧の測定を行うことは不可能なため、式(2)をそのまま適用してIVを求めることは難しい。そこで、一次アンビソニックスBフォーマットから得られた4チャネルのスペクトログラムを用いて、式(2)を次のように近似して式(3)とする(非特許文献15)。
Figure 0007276470000001
DOA推定に対して有効な時間周波数領域を選び出すため、AhonenらはIVに対して次のような時間周波数マスクMf,tを適用した。なお、ρ0は空気密度、cは音速である。
Figure 0007276470000002
このマスクは、信号強度であり大きな強度をもつ時間周波数ビンを選び出すものとなっている。したがって、目的信号が環境雑音よりも十分に大きな強度を持っていると仮定すれば、この時間周波数マスクはDOA推定に対して有効な時間周波数領域を選びだすものとなる。さらに、彼らは300-3400Hzの領域内の各バーク尺度ごとにIVの時系列を次のように計算している。
Figure 0007276470000003
ここで、fl、fhは各バーク尺度の上限と下限を表す。最後に各時間フレームtにおける目的音源の方位角および仰角は、次のように計算される。
Figure 0007276470000004
<DNNに基づくDOA推定>
Adavanneらは、DNNを用いたいくつかのDOA推定方法を提案した(非特許文献9、10、11)。このうち、2つの畳み込みニューラルネットワーク(CNN)ベースのDNNを組み合わせる方法について述べる。これはシグナル処理フレームワークとDNNの組み合わせである。第1のDNNでは、空間擬似スペクトル(SPS)が回帰問題として推定される。入力特徴は、1次アンビソニックスBフォーマットの4チャネル信号を短時間フーリエ変換(STFT)することによって得られたスペクトログラムの振幅および位相である。2番目のDNNでは、10°間隔での分類タスクとしてDOAが推定される。このネットワークの入力は、最初のDNNで取得されたSPSである。どちらのDNNも、多層CNNと双方向ゲート付き再帰型ニューラルネットワーク(Bi-GRU)の組み合わせで構成されているため、高次の特徴の抽出と時間構造のモデル化が可能である。
<DNNを用いた残響除去と雑音抑圧を用いて精度改善するDOA推定>
本実施例では、IVに基づくDOA推定を、DNNを用いた残響除去と雑音抑圧を用いて精度改善するDOA推定を可能とするモデル学習装置、到来方向推定装置を提供する。一般に、時間領域の入力信号xは次のように表すことができる。
x=xs+xr+xn…(7)
ここで、xs,xr,xnはそれぞれ、直接音、残響、雑音成分を表す。同様に時間周波数表現xt,fも同様に直接音、残響、雑音成分の和として表すことが出来る。したがって、この表現を式(3)に適用することにより、次の表現が得られる。
If,t=Is f,t+Ir f,t+In f,t…(8)
式(8)から分かるように、観測信号から得られるIVは3つの成分を含んでいるため、ここから導出されるIVの時系列Itは直接音だけでなく残響と雑音の影響を受ける。これが、従来法が残響及び雑音に対してロバストではない理由の一つである。
従来法の欠点を克服するため、推定されたIVの残響成分I^r f,tの差し引きによる残響除去と、時間周波数マスクMf,tの適用による雑音抑制を行った。この操作は次のように表すことが出来る。
Figure 0007276470000005
本実施例では、IVの残響成分I^r f,t及び、時間周波数マスクMf,tを二つのDNNによって推定した。
<モデル学習装置1>
以下、図1を参照して実施例1のモデル学習装置1の機能構成を説明する。同図に示すように、本実施例のモデル学習装置1は、入力データ記憶部101と、ラベルデータ記憶部102と、短時間フーリエ変換部201と、スペクトログラム抽出部202と、音響強度ベクトル抽出部203と、残響出力部301と、残響差し引き処理部302と、雑音抑圧マスク出力部303と、雑音抑圧マスク適用処理部304と、音源到来方向導出部305と、有音源区間推定部306と、音源到来方向出力部401と、有音源区間判定出力部402と、コスト関数計算部501を含む。以下、図2を参照して各構成要件の動作について説明する。
<入力データ記憶部101>
入力データとして、時刻毎の音源到来方向が既知である、学習に用いる一次アンビソニックスBフォーマットの4チャネル音響データを用意し、入力データ記憶部101に予め記憶する。使用する音響データは、音声信号であってもよいし、音声信号以外の音響信号であってもよい。なお、使用する音響データは必ずしもアンビソニックス形式に限定する必要はなく、一般的なマイクアレイ信号であってもよい。本実施例では同一時間区間に複数の音源を含まないものを用いる。
<ラベルデータ記憶部102>
入力データ記憶部101の入力データに対応する、各音響イベントの音源到来方向及び時刻を示すラベルデータを用意し、ラベルデータ記憶部102に予め記憶する。
<短時間フーリエ変換部201>
短時間フーリエ変換部201は、入力データ記憶部101の入力データに対してSTFTを実行し、複素スペクトログラムを取得する(S201)。
<スペクトログラム抽出部202>
スペクトログラム抽出部202は、ステップS201で得られた複素スペクトログラムを用いて、DNNの入力特徴量として用いるための実数スペクトログラムを抽出する(S202)。スペクトログラム抽出部202は、例えば、対数メルスペクトログラムを用いることができる。
<音響強度ベクトル抽出部203>
音響強度ベクトル抽出部203は、ステップS201で得られた複素スペクトログラムを用いて、DNNの入力特徴量として用いるための音響強度ベクトルを式(3)に従って抽出する(S203)。
<残響出力部301(RIVnet)>
残響出力部301は、実数スペクトログラムと、音響強度ベクトルを入力とし、推定された音響強度ベクトルの残響成分を出力する(S301)。より詳細には、残響出力部301は、音響強度ベクトルの残響成分Ir f,tの推定を、DNNベースの音圧強度ベクトルの残響成分推定モデル(RIVnet)によって行う(S301)。残響出力部301は、例えば、多層CNNと双方向長・短期記憶回帰型ニューラルネットワーク(Bi-STFT)を組み合わせたDNNモデルを用いることができる。
<残響差し引き処理部302>
残響差し引き処理部302は、ステップS301で推定されたIr f,tを、ステップS203で得られた音響強度ベクトルから差し引く処理を行う(S302)。
<雑音抑圧マスク出力部303(MASKnet)>
雑音抑圧マスク出力部303は、実数スペクトログラムと、残響成分が差し引かれた音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力する(S303)。より詳細には、雑音抑圧マスク出力部303は、雑音抑制のための時間周波数マスクMf,tの推定を、DNNベースの雑音抑圧のための時間周波数マスク推定モデル(MASKnet)によって行う(S303)。雑音抑圧マスク出力部303は、例えば、残響出力部301(RIVnet)と出力部を除き、同様の構造を持つDNNモデルを用いることができる。
<雑音抑圧マスク適用処理部304>
雑音抑圧マスク適用処理部304は、ステップS303で得られた時間周波数マスクMf,tを、ステップS302で得られた残響差し引き済みの音響強度ベクトルに掛ける(S304)。
<音源到来方向導出部305>
音源到来方向導出部305は、ステップS304で得られた残響成分を差し引き済みの音響強度ベクトルに時間周波数マスクを適用してなる音響強度ベクトルに基づいて、式(6)によって音源到来方向(DOA)を導出する(S305)。
<有音源区間推定部306(SADnet)>
有音源区間推定部306は、有音源区間の推定を、DNNモデル(SADnet)によって行う(S306)。例えば有音源区間推定部306は、雑音抑圧マスク出力部303(MASKnet)の出力層を分岐させ、SADnetを実行すればよい。
<音源到来方向出力部401>
音源到来方向出力部401は、ステップS305で導出された音源到来方向(DOA)を表す方位角φと仰角θの対の時系列データを出力する(S401)。
<有音源区間判定出力部402(SAD)>
有音源区間推定部402は、有音源区間推定部306によって推定された有音源区間判定の結果であり、有音源区間において1、それ以外において0の値を取る時系列データを出力する(S402)。
<コスト関数計算部501>
コスト関数計算部501は、導出された音源到来方向と、ラベルデータ記憶部102に予め記憶されたラベルに基づいて、DNNモデルのパラメータを更新する(S501)。より詳細には、コスト関数計算部501は、ステップS401において導出された音源到来方向と、ステップS402における有音源区間判定の結果と、ラベルデータ記憶部102に予め記憶されたラベルに基づいて、DNN学習のコスト関数を計算し、これが小さくなる方向にDNNモデルのパラメータを更新する(S501)。
例えばコスト関数として、DOA推定についてのコスト関数とSAD推定についてのコスト関数の和を用いることができる。DOA推定については、真のDOAと推定DOAの間のMean Absolute Error(MAE)をコスト関数とし、SAD推定については真のSADと推定SADの間のBinary Cross Entropy(BCE)をコスト関数とすることができる。
<停止条件>
図2のフローチャートは停止条件の表記を省略しているが、例えば停止条件を、10000回DNNパラメータが更新された時に学習を停止する、と設定してもよい。
<到来方向推定装置2>
図3に示すように、同様の構成で、学習装置ではなく、到来方向が未知な音響データの到来方向を推定する装置を実現できる。本実施例の到来方向推定装置2は、入力データ記憶部101と、短時間フーリエ変換部201と、スペクトログラム抽出部202と、音響強度ベクトル抽出部203と、残響出力部301と、残響差し引き処理部302と、雑音抑圧マスク出力部303と、雑音抑圧マスク適用処理部304と、音源到来方向導出部305と、音源到来方向出力部401を含む。モデル学習に必要な構成であるラベルデータ記憶部102と、有音源区間推定部306と、有音源区間判定出力部402と、コスト関数計算部501は、本装置からは割愛されている。また入力データとして、到来方向が未知な(ラベルを付与されていない)音響データを用意する点でモデル学習装置1と異なっている。
図4に示すように、到来方向推定装置2の各構成要件は、到来方向が未知な音響データに対して、既に説明したステップS201、S202、S203、S301、S302、S303、S304、S305、S401を実行して、音源到来方向を導出する。
<DOA推定の実験結果>
図5に、本実施例の到来方向推定装置2により、時系列DOA推定を行った実験結果を示す。図5は、横軸に時刻、縦軸に方位角及び仰角を取ったDOA推定結果である。破線で示した従来法の結果に比べて、実線で示した本実施例による結果が明らかに真のDOAに近づいていることが分かる。
Figure 0007276470000006
表1は、DOA推定及び有音源区間検出の精度のスコアを示している。DOAError(DE)はDOA推定のエラー、FrameRecall(FR)は有音源区間検出の正解率を示していて、DCASE2019Task3と同様の評価尺度である(非特許文献11、16)。これを見るとDEについて従来法をはるかに上回る1°以下となっていて、有音源区間検出も高い精度で行われていることがわかる。これらの結果は、本実施例の到来方向推定装置2が有効に動作することを示している。
IVに基づくDOA推定を、DNNを用いた雑音抑圧及び音源分離を用いて精度改善するDOA推定手法を開示する。一般に、N個の音源が存在するときの時間領域の入力信号xは次のように表すことができる。
Figure 0007276470000007
ここで、siは音源i∈[1,...,N]の直接音、nは目的音源に無相関な雑音、εは目的音源に起因するその他の項(残響等)である。時間周波数領域においてもこれらの要素の和として目的信号は表せるので、この表現を式(3)に適用することにより、IVを次のように表すことが出来る。
Figure 0007276470000008
上述したように、Itは音響強度ベクトル(IV)の時系列であり、Isi f,tは音響強度ベクトル(IV)の音源iの直接音の成分、In f,tは音響強度ベクトル(IV)の目的音源に無相関な雑音の成分、Iε f,tは音響強度ベクトル(IV)の目的音源に起因する直接音以外の成分(残響など)を表す。式(11)から分かるように、観測信号から得られるIVはある一つの音源iだけではなく、その他全ての成分を含んでいるため、ここから導出されるIVの時系列はこれらの項の影響を受ける。これが、IVに基づく従来法の欠点であるSNRの低下に弱い性質の要因の一つである。
従来法の欠点を克服するため、時間周波数マスクの乗算とベクトル減算による雑音抑圧及び音源分離を行うことで、N個の重複音の中から音源siの音響強度ベクトルIsiを取り出すことを考える。式(11)の各要素が時間周波数空間上で十分に疎であり、重なりが少ないと考えれば、これらは時間周波数マスクによって分離出来ることが知られている(参考非特許文献1)。
参考非特許文献1:O.Yilmaz and S.Rickard,“Blind separation of speech mixtures via time-frequency masking, ”IEEE Trans. Signal Process., vol. 52, pp. 1830-1847, July. 2004.
実際にはこれは強い仮定であり、雑音項nは時間周波数空間で十分に疎であると仮定することは出来ない。そこで、本実施例では音源siを分離する時間周波数マスクMsi f,tと、雑音項nを分離する時間周波数マスクMn f,tの組み合わせであるMsi f,t(1-Mn f,t)を用いる。この処理は雑音抑圧と音源分離の二つの処理の組み合わせと考えることが出来る。また、εの項が残響である場合には、目的信号と時間周波数上での重なりが大きく時間周波数マスクでは除去出来ない。そこで、本実施例では、Iε f,tを直接推定しベクトルとして元の音響強度ベクトルから差し引いた。これらの操作は次のように表すことが出来る。
Figure 0007276470000009
なお本実施例においては同時刻に存在する目的音の重複数が2以下の場合を扱うため、Ms2 f,tの代わりに1-Ms1 f,tを用いることが出来る。そこで我々は、時間周波数マスクMn f,t,Ms1 f,t及び、ベクトル^Iε f,tを2つのDNNを用いて推定する。
<モデル学習装置3>
以下、図6を参照して実施例2のモデル学習装置3の機能構成を説明する。同図に示すように、本実施例のモデル学習装置3は、入力データ記憶部101と、ラベルデータ記憶部102と、短時間フーリエ変換部201と、スペクトログラム抽出部202と、音響強度ベクトル抽出部203と、残響出力部601と、残響差し引き処理部602と、雑音抑圧マスク出力部603と、雑音抑圧マスク適用処理部604と、第1音源到来方向導出部605と、第1音源到来方向出力部606と、音源数推定部607と、音源数出力部608と、角度マスク抽出部609と、角度マスク乗算処理部610と、第2音源到来方向導出部611と、第2音源到来方向出力部612と、コスト関数計算部501を含む。
以下、図7を参照して各構成要件の動作について説明する。
<入力データ記憶部101>
入力データとして、時刻毎の音源到来方向が既知である、学習に用いる一次アンビソニックスBフォーマットの4チャネル音響データを用意し、入力データ記憶部101に予め記憶する。なお、後述する到来方向推定装置4においては、音源到来方向が未知である音響データがあらかじめ記憶される。使用する音響データは、音声信号であってもよいし、音声信号以外の音響信号であってもよい。なお、使用する音響データは必ずしもアンビソニックス形式に限定する必要はなく、音響強度ベクトルを抽出することができるように収音されたマイクアレイ信号であってもよい。例えば、マイクロホンが同一球面上に配置されたマイクアレイで集音された音響信号であってもよい。さらに、所定の位置を基準とした上下左右前後の方向から到来した音を強調した音響信号の和差で合成されたアンビソニックス形式の信号を用いてもよい。この場合、参考特許文献1に記載された技術を用いてアンビソニックス形式の信号を合成すればよい。本実施例では、同時刻に存在する目的音の重複数が2以下のデータを用いる。
(参考特許文献1:特開2018-120007号公報)
<ラベルデータ記憶部102>
入力データ記憶部101の入力データに対応する、各音響イベントの音源到来方向及び時刻を示すラベルデータを用意し、ラベルデータ記憶部102に予め記憶する。
<短時間フーリエ変換部201>
短時間フーリエ変換部201は、入力データ記憶部101の入力データに対してSTFTを実行し、複素スペクトログラムを取得する(S201)。
<スペクトログラム抽出部202>
スペクトログラム抽出部202は、ステップS201で得られた複素スペクトログラムを用いて、DNNの入力特徴量として用いるための実数スペクトログラムを抽出する(S202)。スペクトログラム抽出部202は、本実施例では、対数メルスペクトログラムを用いる。
<音響強度ベクトル抽出部203>
音響強度ベクトル抽出部203は、ステップS201で得られた複素スペクトログラムを用いて、DNNの入力特徴量として用いるための音響強度ベクトルを式(3)に従って抽出する(S203)。
<残響出力部601>
残響出力部601は、実数スペクトログラムと、音響強度ベクトルを入力とし、推定された音響強度ベクトルの残響成分を出力する(S601)。より詳細には、残響出力部601は、式(11)におけるIε f,t項(音響強度ベクトル(IV)の目的音源に起因する直接音以外の成分、残響成分)の推定を、DNNモデル(VectorNet)によって行う。本実施例では多層CNNと双方向長短期記憶回帰型ニューラルネットワーク(Bi-LSTM)を組み合わせたDNNモデルを用いた。
<残響差し引き処理部602>
残響差し引き処理部602は、ステップS601で推定されたIε f,t(音響強度ベクトル(IV)の目的音源に起因する直接音以外の成分、残響成分)を、ステップS203で得られた音響強度ベクトルから差し引く処理を行う(S602)。
<雑音抑圧マスク出力部603>
雑音抑圧マスク出力部603は、雑音抑制のための時間周波数マスク及び音源分離のための時間周波数マスクの推定及び出力を実行する(S603)。雑音抑圧マスク出力部603は、雑音抑制及び音源分離のための時間周波数マスクMn f,t,Ms1 f,tの推定を、DNNモデル(MaskNet)によって行う。本実施例では、残響出力部601(VectorNet)と出力部を除き同様の構造を持つDNNモデルを用いる。
<雑音抑圧マスク適用処理部604>
雑音抑圧マスク適用処理部604は、ステップS603で得られた時間周波数マスクMn f,t,Ms1 f,tを、ステップS602で得られた音響強度ベクトルに掛ける。より詳細には、雑音抑圧マスク適用処理部604は、式(12)を用いて、1から雑音抑圧のための時間周波数マスク(Mn f,t)を差し引いてなる時間周波数マスク(1-Mn f,t)と、音源分離のための時間周波数マスク(Msi f,t)との積からなる時間周波数マスク(Msi f,t(1-Mn f,t))を残響成分を差し引き済みの音響強度ベクトル(If,t-^Iε f,t)に適用する。
ただし、ある時刻の音源数が1の場合はMs1 f,t=1とする。この音源数の情報は、モデル学習装置3ではラベルデータ記憶部102のラベルデータから、後述する到来方向推定装置4では後述の音源数出力部608から得る。
<第1音源到来方向導出部605>
第1音源到来方向導出部605は、ステップS604で得られた処理適用後の音響強度ベクトルに基づいて、式(6)によって音源到来方向(DOA)を導出する。
<第1音源到来方向出力部606>
第1音源到来方向出力部606は、ステップS605で導出した音源到来方向(DOA)である方位角φと仰角θの対の時系列データを出力する(S606)。
<音源数推定部607>
音源数推定部607は、音源数の推定を、DNNモデル(NoasNet)によって行う(S607)。本実施例では、雑音抑圧マスク出力部603(MaskNet)のBi-LSTM層以下を分岐させてNoasNetとする。
<音源数出力部608>
音源数出力部608は、音源数推定部607によって推定された音源数を出力する(S608)。音源数出力部608は、音源数の三つの状態0,1,2に対応する3次元のOne-Hotベクトルの形で出力する。最も大きい値を持つ状態をその時刻の音源数の出力とする。
<角度マスク抽出部609>
角度マスク抽出部609は、ステップS203で得られた音響強度ベクトルに基づいて、雑音抑圧及び音源分離を行わない状態で式(6)によって目的音源の方位角φaveを導出し、方位角φaveより大きい方位角を持つ時間周波数ビンを選び出す角度マスクMangle f,tを抽出する(S609)。入力音に含まれる主要な音源が2つの場合、Mangle f,tは粗い音源分離マスクとなっている。本実施例ではこの角度マスクをDNN(MaskNet)の入力特徴量及び、コスト関数の正則化項の導出に用いる。
<角度マスク乗算処理部610>
角度マスク乗算処理部610は、ステップS609で得られた角度マスクMangle f,tを、ステップS602で得られた残響差し引き済みの音響強度ベクトルに掛ける(S610)。ただし、ある時刻の音源数が1の場合はMangle f,t=1とする。この音源数の情報は、ラベルデータ記憶部102のラベルデータから得る。
<第2音源到来方向導出部611>
第2音源到来方向導出部611は、ステップS610で得られた処理適用後の音響強度ベクトルを用いて、式(6)によって音源到来方向(DOA)を導出する(S611)。
<第2音源到来方向出力部612>
第2音源到来方向出力部612は、ステップS611で導出されたDOAであり、方位角φと仰角θの対の時系列データを出力する。ただし、ステップS606とは異なり、雑音抑圧マスク出力部603(MaskNet)の出力を使用せずに求められたDOAであり、MaskNet非適用音源到来方向とも呼称する。この出力は後述のコスト計算部501において正則化項の導出に用いられる。
<コスト関数計算部501>
コスト関数計算部501は、ステップS606、S608、S612の出力及び、ラベルデータ記憶部102のラベルデータを用いてDNN学習のコスト関数を計算し、これが小さくなる方向にDNNモデルのパラメータを更新する(S501)。本実施例では次のコスト関数を用いた。
L=LDOA1LNOAS2LDOA'…(13)
ここでLDOA、LNOAS、LDOA'はそれぞれ、DOA推定、Noas推定、および正則化項であり、λ12は正の定数である。LDOAは、真のDOAとステップS606の出力として得られた推定DOAの間のMean Absolute Error(MAE)であり、LNOASは真のNoasとステップS608の出力として得られた推定Noasの間のBinary Cross Entropy(BCE)である。LDOA'は、S606の出力の代わりにS612の出力を用いてLDOAと同様に計算される。
<停止条件>
ステップS601~S608、S501は停止条件を満たすまで繰り返し実行される。本フローチャートには停止条件が指定されていないが、本実施例では120000回DNNパラメータが更新された時に学習を停止するものとする。
<到来方向推定装置4>
図8に到来方向推定装置4の機能構成を示す。同図に示すように、本実施例の到来方向推定装置4は、モデル学習装置3の機能構成から、パラメータ更新に関わる構成要件である、角度マスク乗算処理部610、第2音源到来方向導出部611、第2音源到来方向出力部612、コスト関数計算部501、ラベルデータ記憶部102を省略した構成である。この装置の動作は図9に示すように、モデル学習装置3の動作のうち、パラメータ更新に関わるステップS610、S611、S612、S501を削除したものである。
<実行結果例>
本実施例により時系列DOA推定を行った実験結果を示す。図10は、横軸に時刻、縦軸に方位角及び仰角を取ったDOA推定結果である。破線で示したのは従来のIVベースの手法によるDOA推定結果、実線で示したのが本実施例による結果である。これを見るとIVに対して式(12)を適用することで、明らかに真のDOAに近づいていることが分かる。表2は、DOA推定及びNoas推定の精度のスコアを示している。
Figure 0007276470000010
参考非特許文献2:K. Noh, J. Choi, D. Jeon, and J. Chang,“Three-stage approach for sound event localization and detection, ”in Tech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange, 2019.
DOAError(DE)はDOA推定のエラー、FrameRecall(FR)はNoas推定の正解率を示していて、DCASE2019Task3と同様の評価尺度である(非特許文献11、16)。
従来手法(参考非特許文献2)はDCASE2019Task3において最も高いDOA推定精度を達成したモデルである。これを見るとDEについてこの従来法よりも低い値となっていて、最高性能を達成している。FRについても高い精度を達成している。これらの結果は、本実施例の到来方向推定装置4が有効に動作することを示している。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
上述の各種の処理は、図11に示すコンピュータの記録部10020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部10010、入力部10030、出力部10040などに動作させることで実施できる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electrically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (10)

  1. 音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力する残響出力部と、
    前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力する雑音抑圧マスク出力部と、
    前記残響成分を差し引き済みの前記音響強度ベクトルに前記時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する音源到来方向導出部を含む
    到来方向推定装置。
  2. 請求項1に記載の到来方向推定装置であって、
    前記残響出力部は、
    DNNベースの音圧強度ベクトルの残響成分推定モデルに基づいて、前記音響強度ベクトルの残響成分の推定を実行し、
    前記雑音抑圧マスク出力部は、
    DNNベースの雑音抑圧のための時間周波数マスク推定モデルに基づいて、前記時間周波数マスクを推定する
    到来方向推定装置。
  3. 請求項1または2に記載の到来方向推定装置であって、
    前記雑音抑圧マスク出力部は、
    前記雑音抑圧のための時間周波数マスクに加え、音源分離のための時間周波数マスクの推定及び出力を実行し、
    前記音源到来方向導出部は、
    前記残響成分を差し引き済みの前記音響強度ベクトルに、1から前記雑音抑圧のための時間周波数マスクを差し引いてなる時間周波数マスクと、前記音源分離のための時間周波数マスクとの積からなる時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する
    到来方向推定装置。
  4. 音源到来方向が既知であって時刻毎の前記音源到来方向を示すラベルを有する音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力する残響出力部と、
    前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力する雑音抑圧マスク出力部と、
    前記残響成分を差し引き済みの前記音響強度ベクトルに前記時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する音源到来方向導出部と、
    前記導出された音源到来方向と、前記ラベルに基づいてDNNモデルのパラメータを更新するコスト関数計算部を含む
    モデル学習装置。
  5. 請求項4に記載のモデル学習装置であって、
    前記残響出力部は、
    DNNベースの音圧強度ベクトルの残響成分推定モデルに基づいて、前記音響強度ベクトルの残響成分の推定を実行し、
    前記雑音抑圧マスク出力部は、
    DNNベースの雑音抑圧のための時間周波数マスク推定モデルに基づいて、前記時間周波数マスクを推定する
    モデル学習装置。
  6. 請求項4または5に記載のモデル学習装置であって、
    音源数を推定する音源数推定部を含み、
    前記雑音抑圧マスク出力部は、
    前記雑音抑圧のための時間周波数マスクに加え、音源分離のための時間周波数マスクの推定及び出力を実行し、
    前記音源到来方向導出部は、
    前記残響成分を差し引き済みの前記音響強度ベクトルに、1から前記雑音抑圧のための時間周波数マスクを差し引いてなる時間周波数マスクと、前記音源分離のための時間周波数マスクとの積からなる時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出し、
    前記コスト関数計算部は、
    前記導出された音源到来方向と、前記ラベルに加え、前記音源数に基づいてDNNモデルのパラメータを更新する
    到来方向推定装置。
  7. 音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力するステップと、
    前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力するステップと、
    前記残響成分を差し引き済みの前記音響強度ベクトルに前記時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出するステップを含む
    到来方向推定方法。
  8. 音源到来方向が既知であって時刻毎の前記音源到来方向を示すラベルを有する音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力するステップと、
    前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力するステップと、
    前記残響成分を差し引き済みの前記音響強度ベクトルに前記時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出するステップと、
    前記導出された音源到来方向と、前記ラベルに基づいてDNNモデルのパラメータを更新するステップを含む
    モデル学習方法。
  9. コンピュータを請求項1から3の何れかに記載の到来方向推定装置として機能させるプログラム。
  10. コンピュータを請求項4から6の何れかに記載のモデル学習装置として機能させるプログラム。
JP2021543939A 2019-09-04 2020-02-04 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム Active JP7276470B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/034829 WO2021044551A1 (ja) 2019-09-04 2019-09-04 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム
JPPCT/JP2019/034829 2019-09-04
PCT/JP2020/004011 WO2021044647A1 (ja) 2019-09-04 2020-02-04 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2021044647A1 JPWO2021044647A1 (ja) 2021-03-11
JP7276470B2 true JP7276470B2 (ja) 2023-05-18

Family

ID=74853080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021543939A Active JP7276470B2 (ja) 2019-09-04 2020-02-04 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム

Country Status (3)

Country Link
US (1) US11922965B2 (ja)
JP (1) JP7276470B2 (ja)
WO (2) WO2021044551A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113219404B (zh) * 2021-05-25 2022-04-29 青岛科技大学 基于深度学习的水声阵列信号二维波达方向估计方法
CN113903334B (zh) * 2021-09-13 2022-09-23 北京百度网讯科技有限公司 声源定位模型的训练与声源定位方法、装置
WO2023148965A1 (ja) * 2022-02-07 2023-08-10 日本電信電話株式会社 モデル学習装置、モデル学習方法、プログラム
CN114582367B (zh) * 2022-02-28 2023-01-24 镁佳(北京)科技有限公司 一种音乐混响强度估计方法、装置及电子设备
CN116131964B (zh) * 2022-12-26 2024-05-17 西南交通大学 一种微波光子辅助的空频压缩感知频率和doa估计方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013545382A (ja) 2010-10-28 2013-12-19 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 方向情報を取得する装置および方法、ならびにシステムおよびコンピュータプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2423702A1 (en) * 2010-08-27 2012-02-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for resolving ambiguity from a direction of arrival estimate

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013545382A (ja) 2010-10-28 2013-12-19 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 方向情報を取得する装置および方法、ならびにシステムおよびコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PEROTIN, Laureline et al.,CRNN-Based Multiple DoA Estimation Using Acoustic Intensity Features for Ambisonics Recordings,IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING,IEEE,2019年02月08日,VOL.13, NO.1,pp.22-33

Also Published As

Publication number Publication date
WO2021044647A1 (ja) 2021-03-11
WO2021044551A1 (ja) 2021-03-11
US11922965B2 (en) 2024-03-05
US20220301575A1 (en) 2022-09-22
JPWO2021044647A1 (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
JP7276470B2 (ja) 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム
TWI647961B (zh) 聲場的高階保真立體音響表示法中不相關聲源方向之決定方法及裝置
TW201234873A (en) Sound acquisition via the extraction of geometrical information from direction of arrival estimates
JP6591477B2 (ja) 信号処理システム、信号処理方法及び信号処理プログラム
Salvati et al. Exploiting a geometrically sampled grid in the steered response power algorithm for localization improvement
Traa et al. Multichannel source separation and tracking with RANSAC and directional statistics
Kitić et al. TRAMP: Tracking by a Real-time AMbisonic-based Particle filter
Padois et al. On the use of geometric and harmonic means with the generalized cross-correlation in the time domain to improve noise source maps
JP5986966B2 (ja) 音場収音再生装置、方法及びプログラム
Ding et al. Joint estimation of binaural distance and azimuth by exploiting deep neural networks
JP2018077139A (ja) 音場推定装置、音場推定方法、プログラム
JP3862685B2 (ja) 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム
EP3557576B1 (en) Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program
Bianchi et al. High resolution imaging of acoustic reflections with spherical microphone arrays
Grondin et al. A study of the complexity and accuracy of direction of arrival estimation methods based on GCC-PHAT for a pair of close microphones
Günel On the statistical distributions of active intensity directions
WO2022176045A1 (ja) モデル学習装置、到来方向推定装置、モデル学習方法、到来方向推定方法、プログラム
WO2019235194A1 (ja) 音響信号分離装置、学習装置、それらの方法、およびプログラム
Naqvi et al. Multimodal blind source separation for moving sources
Zhao et al. Attention-Based End-to-End Differentiable Particle Filter for Audio Speaker Tracking
Wu et al. Acoustic source tracking in reverberant environment using regional steered response power measurement
Biswas et al. Dual microphone sound source localization using reconfigurable hardware
Singh et al. A Novel Approach for Multi-pitch Detection with Gender Recognition
JP2018120129A (ja) 音場推定装置、方法及びプログラム
Varzandeh et al. Speech-Aware Binaural DOA Estimation Utilizing Periodicity and Spatial Features in Convolutional Neural Networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220112

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20220112

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20220112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230417

R150 Certificate of patent or registration of utility model

Ref document number: 7276470

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150