JP7276470B2 - 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム - Google Patents
到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム Download PDFInfo
- Publication number
- JP7276470B2 JP7276470B2 JP2021543939A JP2021543939A JP7276470B2 JP 7276470 B2 JP7276470 B2 JP 7276470B2 JP 2021543939 A JP2021543939 A JP 2021543939A JP 2021543939 A JP2021543939 A JP 2021543939A JP 7276470 B2 JP7276470 B2 JP 7276470B2
- Authority
- JP
- Japan
- Prior art keywords
- arrival
- time
- sound
- intensity vector
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 35
- 239000013598 vector Substances 0.000 claims description 79
- 230000001629 suppression Effects 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 30
- 238000000926 separation method Methods 0.000 claims description 13
- 238000009795 derivation Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 description 35
- 238000013500 data storage Methods 0.000 description 24
- 238000000605 extraction Methods 0.000 description 17
- 238000001514 detection method Methods 0.000 description 13
- 238000007796 conventional method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 230000004807 localization Effects 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012731 temporal analysis Methods 0.000 description 2
- 238000000700 time series analysis Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
以下、実施例で用いられる従来技術について説明する。
Ahonenらは、一次アンビソニックスBフォーマットから計算されたIVを用いたDOA推定法を提案した(非特許文献6)。一次アンビソニックスBフォーマットは4チャネルの信号で構成され、その短時間フーリエ変換(STFT)の出力Wf,t,Xf,t,Yf,t,Zf,tは、0次および1次の球面調和関数に対応する。ここで、f∈{1,...,F}とt∈{1,...,T}は、それぞれT-Fドメインの周波数と時間のインデックスである。0次のWf,tは無指向性音源に対応し、1次のXf,t,Yf,tおよびZf,tは、それぞれ各軸に沿った双極子に対応する。
H(W)(φ,θ,f)=3-1/2,
H(X)(φ,θ,f)=cosφ*cosθ,
H(Y)(φ,θ,f)=sinφ*cosθ,
H(Z)(φ,θ,f)=sinθ
…(1)
If,t=1/2R(p* f,t・vf,t)…(2)
Adavanneらは、DNNを用いたいくつかのDOA推定方法を提案した(非特許文献9、10、11)。このうち、2つの畳み込みニューラルネットワーク(CNN)ベースのDNNを組み合わせる方法について述べる。これはシグナル処理フレームワークとDNNの組み合わせである。第1のDNNでは、空間擬似スペクトル(SPS)が回帰問題として推定される。入力特徴は、1次アンビソニックスBフォーマットの4チャネル信号を短時間フーリエ変換(STFT)することによって得られたスペクトログラムの振幅および位相である。2番目のDNNでは、10°間隔での分類タスクとしてDOAが推定される。このネットワークの入力は、最初のDNNで取得されたSPSである。どちらのDNNも、多層CNNと双方向ゲート付き再帰型ニューラルネットワーク(Bi-GRU)の組み合わせで構成されているため、高次の特徴の抽出と時間構造のモデル化が可能である。
本実施例では、IVに基づくDOA推定を、DNNを用いた残響除去と雑音抑圧を用いて精度改善するDOA推定を可能とするモデル学習装置、到来方向推定装置を提供する。一般に、時間領域の入力信号xは次のように表すことができる。
x=xs+xr+xn…(7)
If,t=Is f,t+Ir f,t+In f,t…(8)
以下、図1を参照して実施例1のモデル学習装置1の機能構成を説明する。同図に示すように、本実施例のモデル学習装置1は、入力データ記憶部101と、ラベルデータ記憶部102と、短時間フーリエ変換部201と、スペクトログラム抽出部202と、音響強度ベクトル抽出部203と、残響出力部301と、残響差し引き処理部302と、雑音抑圧マスク出力部303と、雑音抑圧マスク適用処理部304と、音源到来方向導出部305と、有音源区間推定部306と、音源到来方向出力部401と、有音源区間判定出力部402と、コスト関数計算部501を含む。以下、図2を参照して各構成要件の動作について説明する。
入力データとして、時刻毎の音源到来方向が既知である、学習に用いる一次アンビソニックスBフォーマットの4チャネル音響データを用意し、入力データ記憶部101に予め記憶する。使用する音響データは、音声信号であってもよいし、音声信号以外の音響信号であってもよい。なお、使用する音響データは必ずしもアンビソニックス形式に限定する必要はなく、一般的なマイクアレイ信号であってもよい。本実施例では同一時間区間に複数の音源を含まないものを用いる。
入力データ記憶部101の入力データに対応する、各音響イベントの音源到来方向及び時刻を示すラベルデータを用意し、ラベルデータ記憶部102に予め記憶する。
短時間フーリエ変換部201は、入力データ記憶部101の入力データに対してSTFTを実行し、複素スペクトログラムを取得する(S201)。
スペクトログラム抽出部202は、ステップS201で得られた複素スペクトログラムを用いて、DNNの入力特徴量として用いるための実数スペクトログラムを抽出する(S202)。スペクトログラム抽出部202は、例えば、対数メルスペクトログラムを用いることができる。
音響強度ベクトル抽出部203は、ステップS201で得られた複素スペクトログラムを用いて、DNNの入力特徴量として用いるための音響強度ベクトルを式(3)に従って抽出する(S203)。
残響出力部301は、実数スペクトログラムと、音響強度ベクトルを入力とし、推定された音響強度ベクトルの残響成分を出力する(S301)。より詳細には、残響出力部301は、音響強度ベクトルの残響成分Ir f,tの推定を、DNNベースの音圧強度ベクトルの残響成分推定モデル(RIVnet)によって行う(S301)。残響出力部301は、例えば、多層CNNと双方向長・短期記憶回帰型ニューラルネットワーク(Bi-STFT)を組み合わせたDNNモデルを用いることができる。
残響差し引き処理部302は、ステップS301で推定されたIr f,tを、ステップS203で得られた音響強度ベクトルから差し引く処理を行う(S302)。
雑音抑圧マスク出力部303は、実数スペクトログラムと、残響成分が差し引かれた音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力する(S303)。より詳細には、雑音抑圧マスク出力部303は、雑音抑制のための時間周波数マスクMf,tの推定を、DNNベースの雑音抑圧のための時間周波数マスク推定モデル(MASKnet)によって行う(S303)。雑音抑圧マスク出力部303は、例えば、残響出力部301(RIVnet)と出力部を除き、同様の構造を持つDNNモデルを用いることができる。
雑音抑圧マスク適用処理部304は、ステップS303で得られた時間周波数マスクMf,tを、ステップS302で得られた残響差し引き済みの音響強度ベクトルに掛ける(S304)。
音源到来方向導出部305は、ステップS304で得られた残響成分を差し引き済みの音響強度ベクトルに時間周波数マスクを適用してなる音響強度ベクトルに基づいて、式(6)によって音源到来方向(DOA)を導出する(S305)。
有音源区間推定部306は、有音源区間の推定を、DNNモデル(SADnet)によって行う(S306)。例えば有音源区間推定部306は、雑音抑圧マスク出力部303(MASKnet)の出力層を分岐させ、SADnetを実行すればよい。
音源到来方向出力部401は、ステップS305で導出された音源到来方向(DOA)を表す方位角φと仰角θの対の時系列データを出力する(S401)。
有音源区間推定部402は、有音源区間推定部306によって推定された有音源区間判定の結果であり、有音源区間において1、それ以外において0の値を取る時系列データを出力する(S402)。
コスト関数計算部501は、導出された音源到来方向と、ラベルデータ記憶部102に予め記憶されたラベルに基づいて、DNNモデルのパラメータを更新する(S501)。より詳細には、コスト関数計算部501は、ステップS401において導出された音源到来方向と、ステップS402における有音源区間判定の結果と、ラベルデータ記憶部102に予め記憶されたラベルに基づいて、DNN学習のコスト関数を計算し、これが小さくなる方向にDNNモデルのパラメータを更新する(S501)。
図2のフローチャートは停止条件の表記を省略しているが、例えば停止条件を、10000回DNNパラメータが更新された時に学習を停止する、と設定してもよい。
図3に示すように、同様の構成で、学習装置ではなく、到来方向が未知な音響データの到来方向を推定する装置を実現できる。本実施例の到来方向推定装置2は、入力データ記憶部101と、短時間フーリエ変換部201と、スペクトログラム抽出部202と、音響強度ベクトル抽出部203と、残響出力部301と、残響差し引き処理部302と、雑音抑圧マスク出力部303と、雑音抑圧マスク適用処理部304と、音源到来方向導出部305と、音源到来方向出力部401を含む。モデル学習に必要な構成であるラベルデータ記憶部102と、有音源区間推定部306と、有音源区間判定出力部402と、コスト関数計算部501は、本装置からは割愛されている。また入力データとして、到来方向が未知な(ラベルを付与されていない)音響データを用意する点でモデル学習装置1と異なっている。
図5に、本実施例の到来方向推定装置2により、時系列DOA推定を行った実験結果を示す。図5は、横軸に時刻、縦軸に方位角及び仰角を取ったDOA推定結果である。破線で示した従来法の結果に比べて、実線で示した本実施例による結果が明らかに真のDOAに近づいていることが分かる。
参考非特許文献1:O.Yilmaz and S.Rickard,“Blind separation of speech mixtures via time-frequency masking, ”IEEE Trans. Signal Process., vol. 52, pp. 1830-1847, July. 2004.
以下、図6を参照して実施例2のモデル学習装置3の機能構成を説明する。同図に示すように、本実施例のモデル学習装置3は、入力データ記憶部101と、ラベルデータ記憶部102と、短時間フーリエ変換部201と、スペクトログラム抽出部202と、音響強度ベクトル抽出部203と、残響出力部601と、残響差し引き処理部602と、雑音抑圧マスク出力部603と、雑音抑圧マスク適用処理部604と、第1音源到来方向導出部605と、第1音源到来方向出力部606と、音源数推定部607と、音源数出力部608と、角度マスク抽出部609と、角度マスク乗算処理部610と、第2音源到来方向導出部611と、第2音源到来方向出力部612と、コスト関数計算部501を含む。
入力データとして、時刻毎の音源到来方向が既知である、学習に用いる一次アンビソニックスBフォーマットの4チャネル音響データを用意し、入力データ記憶部101に予め記憶する。なお、後述する到来方向推定装置4においては、音源到来方向が未知である音響データがあらかじめ記憶される。使用する音響データは、音声信号であってもよいし、音声信号以外の音響信号であってもよい。なお、使用する音響データは必ずしもアンビソニックス形式に限定する必要はなく、音響強度ベクトルを抽出することができるように収音されたマイクアレイ信号であってもよい。例えば、マイクロホンが同一球面上に配置されたマイクアレイで集音された音響信号であってもよい。さらに、所定の位置を基準とした上下左右前後の方向から到来した音を強調した音響信号の和差で合成されたアンビソニックス形式の信号を用いてもよい。この場合、参考特許文献1に記載された技術を用いてアンビソニックス形式の信号を合成すればよい。本実施例では、同時刻に存在する目的音の重複数が2以下のデータを用いる。
(参考特許文献1:特開2018-120007号公報)
入力データ記憶部101の入力データに対応する、各音響イベントの音源到来方向及び時刻を示すラベルデータを用意し、ラベルデータ記憶部102に予め記憶する。
短時間フーリエ変換部201は、入力データ記憶部101の入力データに対してSTFTを実行し、複素スペクトログラムを取得する(S201)。
スペクトログラム抽出部202は、ステップS201で得られた複素スペクトログラムを用いて、DNNの入力特徴量として用いるための実数スペクトログラムを抽出する(S202)。スペクトログラム抽出部202は、本実施例では、対数メルスペクトログラムを用いる。
音響強度ベクトル抽出部203は、ステップS201で得られた複素スペクトログラムを用いて、DNNの入力特徴量として用いるための音響強度ベクトルを式(3)に従って抽出する(S203)。
残響出力部601は、実数スペクトログラムと、音響強度ベクトルを入力とし、推定された音響強度ベクトルの残響成分を出力する(S601)。より詳細には、残響出力部601は、式(11)におけるIε f,t項(音響強度ベクトル(IV)の目的音源に起因する直接音以外の成分、残響成分)の推定を、DNNモデル(VectorNet)によって行う。本実施例では多層CNNと双方向長短期記憶回帰型ニューラルネットワーク(Bi-LSTM)を組み合わせたDNNモデルを用いた。
残響差し引き処理部602は、ステップS601で推定されたIε f,t(音響強度ベクトル(IV)の目的音源に起因する直接音以外の成分、残響成分)を、ステップS203で得られた音響強度ベクトルから差し引く処理を行う(S602)。
雑音抑圧マスク出力部603は、雑音抑制のための時間周波数マスク及び音源分離のための時間周波数マスクの推定及び出力を実行する(S603)。雑音抑圧マスク出力部603は、雑音抑制及び音源分離のための時間周波数マスクMn f,t,Ms1 f,tの推定を、DNNモデル(MaskNet)によって行う。本実施例では、残響出力部601(VectorNet)と出力部を除き同様の構造を持つDNNモデルを用いる。
雑音抑圧マスク適用処理部604は、ステップS603で得られた時間周波数マスクMn f,t,Ms1 f,tを、ステップS602で得られた音響強度ベクトルに掛ける。より詳細には、雑音抑圧マスク適用処理部604は、式(12)を用いて、1から雑音抑圧のための時間周波数マスク(Mn f,t)を差し引いてなる時間周波数マスク(1-Mn f,t)と、音源分離のための時間周波数マスク(Msi f,t)との積からなる時間周波数マスク(Msi f,t(1-Mn f,t))を残響成分を差し引き済みの音響強度ベクトル(If,t-^Iε f,t)に適用する。
第1音源到来方向導出部605は、ステップS604で得られた処理適用後の音響強度ベクトルに基づいて、式(6)によって音源到来方向(DOA)を導出する。
第1音源到来方向出力部606は、ステップS605で導出した音源到来方向(DOA)である方位角φと仰角θの対の時系列データを出力する(S606)。
音源数推定部607は、音源数の推定を、DNNモデル(NoasNet)によって行う(S607)。本実施例では、雑音抑圧マスク出力部603(MaskNet)のBi-LSTM層以下を分岐させてNoasNetとする。
音源数出力部608は、音源数推定部607によって推定された音源数を出力する(S608)。音源数出力部608は、音源数の三つの状態0,1,2に対応する3次元のOne-Hotベクトルの形で出力する。最も大きい値を持つ状態をその時刻の音源数の出力とする。
角度マスク抽出部609は、ステップS203で得られた音響強度ベクトルに基づいて、雑音抑圧及び音源分離を行わない状態で式(6)によって目的音源の方位角φaveを導出し、方位角φaveより大きい方位角を持つ時間周波数ビンを選び出す角度マスクMangle f,tを抽出する(S609)。入力音に含まれる主要な音源が2つの場合、Mangle f,tは粗い音源分離マスクとなっている。本実施例ではこの角度マスクをDNN(MaskNet)の入力特徴量及び、コスト関数の正則化項の導出に用いる。
角度マスク乗算処理部610は、ステップS609で得られた角度マスクMangle f,tを、ステップS602で得られた残響差し引き済みの音響強度ベクトルに掛ける(S610)。ただし、ある時刻の音源数が1の場合はMangle f,t=1とする。この音源数の情報は、ラベルデータ記憶部102のラベルデータから得る。
第2音源到来方向導出部611は、ステップS610で得られた処理適用後の音響強度ベクトルを用いて、式(6)によって音源到来方向(DOA)を導出する(S611)。
第2音源到来方向出力部612は、ステップS611で導出されたDOAであり、方位角φと仰角θの対の時系列データを出力する。ただし、ステップS606とは異なり、雑音抑圧マスク出力部603(MaskNet)の出力を使用せずに求められたDOAであり、MaskNet非適用音源到来方向とも呼称する。この出力は後述のコスト計算部501において正則化項の導出に用いられる。
コスト関数計算部501は、ステップS606、S608、S612の出力及び、ラベルデータ記憶部102のラベルデータを用いてDNN学習のコスト関数を計算し、これが小さくなる方向にDNNモデルのパラメータを更新する(S501)。本実施例では次のコスト関数を用いた。
L=LDOA+λ1LNOAS+λ2LDOA'…(13)
ステップS601~S608、S501は停止条件を満たすまで繰り返し実行される。本フローチャートには停止条件が指定されていないが、本実施例では120000回DNNパラメータが更新された時に学習を停止するものとする。
図8に到来方向推定装置4の機能構成を示す。同図に示すように、本実施例の到来方向推定装置4は、モデル学習装置3の機能構成から、パラメータ更新に関わる構成要件である、角度マスク乗算処理部610、第2音源到来方向導出部611、第2音源到来方向出力部612、コスト関数計算部501、ラベルデータ記憶部102を省略した構成である。この装置の動作は図9に示すように、モデル学習装置3の動作のうち、パラメータ更新に関わるステップS610、S611、S612、S501を削除したものである。
本実施例により時系列DOA推定を行った実験結果を示す。図10は、横軸に時刻、縦軸に方位角及び仰角を取ったDOA推定結果である。破線で示したのは従来のIVベースの手法によるDOA推定結果、実線で示したのが本実施例による結果である。これを見るとIVに対して式(12)を適用することで、明らかに真のDOAに近づいていることが分かる。表2は、DOA推定及びNoas推定の精度のスコアを示している。
従来手法(参考非特許文献2)はDCASE2019Task3において最も高いDOA推定精度を達成したモデルである。これを見るとDEについてこの従来法よりも低い値となっていて、最高性能を達成している。FRについても高い精度を達成している。これらの結果は、本実施例の到来方向推定装置4が有効に動作することを示している。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (10)
- 音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力する残響出力部と、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力する雑音抑圧マスク出力部と、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する音源到来方向導出部を含む
到来方向推定装置。 - 請求項1に記載の到来方向推定装置であって、
前記残響出力部は、
DNNベースの音圧強度ベクトルの残響成分推定モデルに基づいて、前記音響強度ベクトルの残響成分の推定を実行し、
前記雑音抑圧マスク出力部は、
DNNベースの雑音抑圧のための時間周波数マスク推定モデルに基づいて、前記時間周波数マスクを推定する
到来方向推定装置。 - 請求項1または2に記載の到来方向推定装置であって、
前記雑音抑圧マスク出力部は、
前記雑音抑圧のための時間周波数マスクに加え、音源分離のための時間周波数マスクの推定及び出力を実行し、
前記音源到来方向導出部は、
前記残響成分を差し引き済みの前記音響強度ベクトルに、1から前記雑音抑圧のための時間周波数マスクを差し引いてなる時間周波数マスクと、前記音源分離のための時間周波数マスクとの積からなる時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する
到来方向推定装置。 - 音源到来方向が既知であって時刻毎の前記音源到来方向を示すラベルを有する音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力する残響出力部と、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力する雑音抑圧マスク出力部と、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する音源到来方向導出部と、
前記導出された音源到来方向と、前記ラベルに基づいてDNNモデルのパラメータを更新するコスト関数計算部を含む
モデル学習装置。 - 請求項4に記載のモデル学習装置であって、
前記残響出力部は、
DNNベースの音圧強度ベクトルの残響成分推定モデルに基づいて、前記音響強度ベクトルの残響成分の推定を実行し、
前記雑音抑圧マスク出力部は、
DNNベースの雑音抑圧のための時間周波数マスク推定モデルに基づいて、前記時間周波数マスクを推定する
モデル学習装置。 - 請求項4または5に記載のモデル学習装置であって、
音源数を推定する音源数推定部を含み、
前記雑音抑圧マスク出力部は、
前記雑音抑圧のための時間周波数マスクに加え、音源分離のための時間周波数マスクの推定及び出力を実行し、
前記音源到来方向導出部は、
前記残響成分を差し引き済みの前記音響強度ベクトルに、1から前記雑音抑圧のための時間周波数マスクを差し引いてなる時間周波数マスクと、前記音源分離のための時間周波数マスクとの積からなる時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出し、
前記コスト関数計算部は、
前記導出された音源到来方向と、前記ラベルに加え、前記音源数に基づいてDNNモデルのパラメータを更新する
到来方向推定装置。 - 音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力するステップと、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力するステップと、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出するステップを含む
到来方向推定方法。 - 音源到来方向が既知であって時刻毎の前記音源到来方向を示すラベルを有する音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力するステップと、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルを入力とし、雑音抑制のための時間周波数マスクを出力するステップと、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出するステップと、
前記導出された音源到来方向と、前記ラベルに基づいてDNNモデルのパラメータを更新するステップを含む
モデル学習方法。 - コンピュータを請求項1から3の何れかに記載の到来方向推定装置として機能させるプログラム。
- コンピュータを請求項4から6の何れかに記載のモデル学習装置として機能させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/034829 WO2021044551A1 (ja) | 2019-09-04 | 2019-09-04 | 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム |
JPPCT/JP2019/034829 | 2019-09-04 | ||
PCT/JP2020/004011 WO2021044647A1 (ja) | 2019-09-04 | 2020-02-04 | 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021044647A1 JPWO2021044647A1 (ja) | 2021-03-11 |
JP7276470B2 true JP7276470B2 (ja) | 2023-05-18 |
Family
ID=74853080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021543939A Active JP7276470B2 (ja) | 2019-09-04 | 2020-02-04 | 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11922965B2 (ja) |
JP (1) | JP7276470B2 (ja) |
WO (2) | WO2021044551A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113219404B (zh) * | 2021-05-25 | 2022-04-29 | 青岛科技大学 | 基于深度学习的水声阵列信号二维波达方向估计方法 |
CN113903334B (zh) * | 2021-09-13 | 2022-09-23 | 北京百度网讯科技有限公司 | 声源定位模型的训练与声源定位方法、装置 |
WO2023148965A1 (ja) * | 2022-02-07 | 2023-08-10 | 日本電信電話株式会社 | モデル学習装置、モデル学習方法、プログラム |
CN114582367B (zh) * | 2022-02-28 | 2023-01-24 | 镁佳(北京)科技有限公司 | 一种音乐混响强度估计方法、装置及电子设备 |
CN116131964B (zh) * | 2022-12-26 | 2024-05-17 | 西南交通大学 | 一种微波光子辅助的空频压缩感知频率和doa估计方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013545382A (ja) | 2010-10-28 | 2013-12-19 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 方向情報を取得する装置および方法、ならびにシステムおよびコンピュータプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2423702A1 (en) * | 2010-08-27 | 2012-02-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for resolving ambiguity from a direction of arrival estimate |
-
2019
- 2019-09-04 WO PCT/JP2019/034829 patent/WO2021044551A1/ja active Application Filing
-
2020
- 2020-02-04 US US17/639,675 patent/US11922965B2/en active Active
- 2020-02-04 JP JP2021543939A patent/JP7276470B2/ja active Active
- 2020-02-04 WO PCT/JP2020/004011 patent/WO2021044647A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013545382A (ja) | 2010-10-28 | 2013-12-19 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 方向情報を取得する装置および方法、ならびにシステムおよびコンピュータプログラム |
Non-Patent Citations (1)
Title |
---|
PEROTIN, Laureline et al.,CRNN-Based Multiple DoA Estimation Using Acoustic Intensity Features for Ambisonics Recordings,IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING,IEEE,2019年02月08日,VOL.13, NO.1,pp.22-33 |
Also Published As
Publication number | Publication date |
---|---|
WO2021044647A1 (ja) | 2021-03-11 |
WO2021044551A1 (ja) | 2021-03-11 |
US11922965B2 (en) | 2024-03-05 |
US20220301575A1 (en) | 2022-09-22 |
JPWO2021044647A1 (ja) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7276470B2 (ja) | 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム | |
TWI647961B (zh) | 聲場的高階保真立體音響表示法中不相關聲源方向之決定方法及裝置 | |
TW201234873A (en) | Sound acquisition via the extraction of geometrical information from direction of arrival estimates | |
JP6591477B2 (ja) | 信号処理システム、信号処理方法及び信号処理プログラム | |
Salvati et al. | Exploiting a geometrically sampled grid in the steered response power algorithm for localization improvement | |
Traa et al. | Multichannel source separation and tracking with RANSAC and directional statistics | |
Kitić et al. | TRAMP: Tracking by a Real-time AMbisonic-based Particle filter | |
Padois et al. | On the use of geometric and harmonic means with the generalized cross-correlation in the time domain to improve noise source maps | |
JP5986966B2 (ja) | 音場収音再生装置、方法及びプログラム | |
Ding et al. | Joint estimation of binaural distance and azimuth by exploiting deep neural networks | |
JP2018077139A (ja) | 音場推定装置、音場推定方法、プログラム | |
JP3862685B2 (ja) | 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム | |
EP3557576B1 (en) | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program | |
Bianchi et al. | High resolution imaging of acoustic reflections with spherical microphone arrays | |
Grondin et al. | A study of the complexity and accuracy of direction of arrival estimation methods based on GCC-PHAT for a pair of close microphones | |
Günel | On the statistical distributions of active intensity directions | |
WO2022176045A1 (ja) | モデル学習装置、到来方向推定装置、モデル学習方法、到来方向推定方法、プログラム | |
WO2019235194A1 (ja) | 音響信号分離装置、学習装置、それらの方法、およびプログラム | |
Naqvi et al. | Multimodal blind source separation for moving sources | |
Zhao et al. | Attention-Based End-to-End Differentiable Particle Filter for Audio Speaker Tracking | |
Wu et al. | Acoustic source tracking in reverberant environment using regional steered response power measurement | |
Biswas et al. | Dual microphone sound source localization using reconfigurable hardware | |
Singh et al. | A Novel Approach for Multi-pitch Detection with Gender Recognition | |
JP2018120129A (ja) | 音場推定装置、方法及びプログラム | |
Varzandeh et al. | Speech-Aware Binaural DOA Estimation Utilizing Periodicity and Spatial Features in Convolutional Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220112 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20220112 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20220112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230417 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7276470 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |