JP2019211685A - 音響信号分離装置、学習装置、それらの方法、およびプログラム - Google Patents

音響信号分離装置、学習装置、それらの方法、およびプログラム Download PDF

Info

Publication number
JP2019211685A
JP2019211685A JP2018109327A JP2018109327A JP2019211685A JP 2019211685 A JP2019211685 A JP 2019211685A JP 2018109327 A JP2018109327 A JP 2018109327A JP 2018109327 A JP2018109327 A JP 2018109327A JP 2019211685 A JP2019211685 A JP 2019211685A
Authority
JP
Japan
Prior art keywords
acoustic signal
distance
microphones
emitted
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018109327A
Other languages
English (en)
Other versions
JP7024615B2 (ja
Inventor
悠馬 小泉
Yuma Koizumi
悠馬 小泉
櫻子 矢澤
Sakurako Yazawa
櫻子 矢澤
小林 和則
Kazunori Kobayashi
和則 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018109327A priority Critical patent/JP7024615B2/ja
Priority to PCT/JP2019/019833 priority patent/WO2019235194A1/ja
Priority to US15/734,473 priority patent/US11297418B2/en
Publication of JP2019211685A publication Critical patent/JP2019211685A/ja
Application granted granted Critical
Publication of JP7024615B2 publication Critical patent/JP7024615B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Abstract

【課題】音源からマイクロホンまでの距離の違いに基づいて音響信号を分離する。【解決手段】「複数のマイクロホン」で収音された信号に由来する第2音響信号から「所定の関数」を用いて得られる、「複数のマイクロホン」に近い距離から発せられた近距離音響信号の推定値に対応する値と遠い距離から発せられた遠距離音響信号の推定値に対応する値とを関連付けることで得られるフィルタを用い、「特定のマイクロホン」で収音された信号に由来する第1音響信号から、「特定のマイクロホン」に近い距離から発せられた音または遠い距離から発せられた音の少なくとも一方を表す所望の音響信号を取得する。ただし、「所定の関数」は、「複数のマイクロホン」に近い距離から発せられた音が球面波として遠い距離から発せられた音が平面波として収音されると近似されることを利用した関数である。【選択図】図3

Description

本発明は、音響信号を分離する技術に関し、特に、音源からマイクロホンまでの距離の違いに基づいて音響信号を分離する技術に関する。
音響信号分離は、目的音と雑音との何らかの信号的な性質の違いに基づいて音響信号を分離する手法である。代表的な音響信号分離手法には、音色の違いに基づいて分離を行う手法(DNN(Deep Neural Network)音源強調など)(例えば、非特許文献1等参照)や、音の方向の違いに基づいて分離を行う手法(インテリジェントマイクなど)がある。
小泉悠馬, "深層学習に基づく音源情報推定のための確率論的目的関数の研究",電気通信大学大学院情報理工学研究科,2017年9月
音源からマイクロホンまでの距離の違いに基づいて音響信号を分離するためには、音場の「空間的な情報」を精緻に得る必要がある。これを得るためには、通常、大量のマイクロホンが必要である。この場合、これまでのDNN音源強調のように、各マイクロホンで得られた観測信号の音響特徴量をそのままDNNの学習データとして用いると、学習データ量や学習時間が膨大なものとなってしまい、音響信号の分離を行うことが困難となる。音響特徴量を工夫するという方針もあり得るが、これまでの音響特徴量は、MFCC(mel-frequency-cepstrum-coefficient)やlog-mel-spectrumなどといった音色に関するものやビームフォーマの出力音などの方向に関するものが大半であり、音源からマイクロホンまでの距離の違いに基づいて音響信号を分離するために、どのような音響特徴量を用いるべきかについては未知である。
本発明はこのような点に鑑みてなされたものであり、音源からマイクロホンまでの距離の違いに基づいて音響信号を分離することを目的とする。
「複数のマイクロホン」で収音された信号に由来する第2音響信号から「所定の関数」を用いて得られる、「複数のマイクロホン」に近い距離から発せられた近距離音響信号の推定値に対応する値と、「複数のマイクロホン」から遠い距離から発せられた遠距離音響信号の推定値に対応する値と、を関連付けることで得られるフィルタを用い、「特定のマイクロホン」で収音された信号に由来する第1音響信号から、「特定のマイクロホン」に近い距離から発せられた音または「特定のマイクロホン」から遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号を取得する。ただし、「所定の関数」は、「複数のマイクロホン」に近い距離から発せられた音が球面波として、「複数のマイクロホン」から遠い距離から発せられた音が平面波として、「複数のマイクロホン」に収音されると近似されることを利用した関数である。
近距離音響信号の推定値に対応する値と遠距離音響信号の推定値に対応する値とを関連付けることで得られたフィルタを用いることで、音源からマイクロホンまでの距離の違いに基づいて音響信号を分離することが可能になる。
図1は実施形態の音響信号分離システムの機能構成を例示したブロック図である。 図2は実施形態の学習装置の機能構成を例示したブロック図である。 図3は実施形態の音響信号分離装置の機能構成を例示したブロック図である。 図4は実施形態の学習処理を説明するためのフロー図である。 図5は実施形態の分離処理を説明するためのフロー図である。
以下、図面を参照して本発明の実施形態を説明する。
[原理]
まず原理を説明する。
以下で説明する実施形態では、M+1本のマイクロホンで収音された信号から、当該マイクロホンの近くに位置する音源(近接音源)および当該マイクロホンの遠方に位置する音源(遠方音源)の少なくとも一方を分離する。なお、各マイクロホンから各近接音源までの距離は、各マイクロホンから各遠方音源までの距離よりも短い。例えば、各マイクロホンから各近接音源までの距離は30cm以下であり、各マイクロホンから各遠方音源までの距離は1m以上である。なお、Mは1以上の整数であり、好ましくはMは2以上の整数である。今、m∈{0,…,M}番目のマイクロホンで収音された時間領域の観測信号をサンプリングしてさらに時間周波数領域に変換して得られる、時間区間tおよび周波数fでの時間周波数領域の観測信号を
Figure 2019211685

とし、以下のように定義する。
Figure 2019211685

ここで、
Figure 2019211685

は、近接音源から発せられた近接音をm番目のマイクロホンで収音することで得られる近距離音響信号をサンプリングしてさらに時間周波数領域に変換して得られる、時間区間tおよび周波数fでの時間周波数領域の近距離音響信号に相当する成分である。
Figure 2019211685

は、遠方音源から発せられた遠方音をm番目のマイクロホンで収音することで得られる遠距離音響信号をサンプリングしてさらに時間周波数領域に変換して得られる、時間区間tおよび周波数fでの時間周波数領域の遠距離音響信号に相当する成分である。t∈{1,…,T}およびf∈{1,…,F}はそれぞれ、時間周波数領域における時間区間(フレーム)および周波数(離散周波数)のインデックスである。TおよびFは正整数であり、インデックスtに対応する時間区間を「時間区間t」と表し、インデックスfに対応する周波数を「周波数f」と表す。記載表記の制約上、以下の説明において、
Figure 2019211685

を、それぞれXt,f (m),St,f (m),Nt,f (m)と表記する場合がある。詳細は省略するが、St,f (m)は各近接音源の原信号と当該近接音源からm番目のマイクロホンまでの各伝達特性とに依存し、Nt,f (m)は各遠方音源の原信号と当該遠方音源からm番目のマイクロホンまでの各伝達特性とに依存する。時間周波数領域への変換は、例えば、高速フーリエ変換(FFT)などによって行うことができる。
<球面調和関数展開に基づく内部音場予測による近接音抽出>
まず、球の中心に置かれたマイクロホンとその球の球面上に等間隔に配置されたM個のマイクロホンとを含む球面マイクロホンアレイを用いる近接音収音方法を説明する。上述したM+1個のマイクロホンのうち、0番目のマイクロホンが球の中心に配置され、それ以外の1からM番目までのマイクロホンが球の球面上に等間隔に配置されているとする。この方法では、遠方音の音波はマイクロホンへ平面波として到来し、近接音の音波はマイクロホンへ球面波として到来する、と近似できることに着目する。半径r(rは正値)の球面よりも外側から到来する音のみがある場合、その球面上で観測された音圧分布の球面調和スペクトル(球面調和関数展開係数)から、半径r0(r0<r)の球面上の音圧が予測できる。ここで、球面上に置かれた1からM番目までのマイクロホンでの観測信号を用いて球の中心での音圧を予測し、予測した球の中心での音圧と球の中心に置かれたマイクロホンで観測した音圧との差分をとる。遠方音は平面波としての近似精度が良いため、この差分は0に近づく。一方、近接音の場合は平面波近似が困難であるため、近似誤差として近接音がこの差分となる。結果として近接音源強調(すなわち、マイクロホンに近い距離から発せられた近距離音響信号の推定値を観測信号から分離すること)が実現される。この処理は、以下のように記述できる(例えば、参考文献1等参照)。
Figure 2019211685

ここでJ(kr)は球ベッセル関数、kは周波数fに対応する波数である。式(2)の左辺は近距離音響信号の推定値を表し、記載表記の制約上、以下ではこれをS^t,f,Dと表記する場合がある。同様に、
Figure 2019211685

をXt,f,D (m)と表記する場合がある。下付き文字のDはダウンサンプリングされた信号であることを表す。すなわち、S^t,f,DはS^t,fをダウンサンプリングしたものであり、Xt,f,D (m)はXt,f (m)をダウンサンプリングしたものである。
[参考文献1]羽田陽一, 古家賢一, 小山翔一, 丹羽健太, "球面調和関数展開に基づく2種類の超接話マイクロホンアレイ," 電子情報通信学会論文誌 A, Vol. J97-A, No. 4, pp. 264-273, 2014.
式(2)で得られる近距離音響信号の推定値S^t,f,Dはダウンサンプリングされた信号である。これは上記の方法で分離できる音響信号の最大周波数が、球面マイクロホンアレイの半径rに依存するためである。例えば、半径r=5(cm)の球面マイクロホンアレイを用いた場合、3.4kHz付近に“spherical Bessel zero”と呼ばれる禁止周波数が存在する。そのため、分離前に、観測信号をそのナイキスト周波数以下までダウンサンプリングするか、禁止周波数以下の周波数だけを処理するようにアルゴリズムを設計しなくてはならない。一方、音声認識などの音響信号を扱うアプリケーションでは、4kHz以上の帯域の信号を利用する。ゆえに、上記の方法をそのまま、このようなアプリケーションの前処理として利用することはできない。
<深層学習を利用した時間周波数マスクの推定>
次に、他の音源分離方法である時間周波数マスク処理を説明する。時間周波数マスク処理では、以下の式で音響信号Xt,fから目的信号の推定値S^t,fを得る。
Figure 2019211685

ここでGt,fが時間周波数マスクである。また、記載表記の制約上、式(3)の左辺をS^t,fと表記する。目的信号が音響信号Xt,fに含まれる近距離音響信号であり、雑音信号が遠距離音響信号である場合、例えば、以下のようにGt,fが得られる。
Figure 2019211685

つまり、近距離音響信号St,f (0)および遠距離音響信号Nt,f (0)が既知であれば、時間周波数マスクGt,fは容易に得られる。しかし、近距離音響信号St,f (0)および遠距離音響信号Nt,f (0)は一般的に未知であり、何らかの形で時間周波数マスクGt,fを推定しなくてはならない。DNN(Deep Neural Network)を用いた深層学習(DL: deep learning)音源強調(「DNN音源強調」ともいう)では、時間区間tにおける各周波数f∈{1,…,F}の時間周波数マスクGt,1,…,Gt,Fを縦に並べたベクトルG=(Gt,1,…,Gt,Fを以下のように推定する(例えば、参考文献2等参照)。
Figure 2019211685

ここで、Mはニューラルネットワークを利用した回帰関数、φは観測信号から抽出した時間区間tにおける音響特徴量、Θはニューラルネットワークのパラメータ、・は・の転置を表す。また、0≦Gt,f≦1である。
[参考文献2]H. Erdogan, J. R. Hershey, S. Watanabe, and J. L. Roux, "Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks," in Proc. ICASSP, 2015.
DL音源強調において精緻にGを推定するためには、Gとの相互情報量が大きい音響特徴量φを用いる必要がある(例えば、参考文献3等参照)。言い換えれば、音響特徴量φは、近距離音響信号と遠距離音響信号とを見分けるための手がかり(情報)を含んだものである必要がある。
[参考文献3]Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi and H. Ohmuro, "Informative acoustic feature selection to maximize mutual information for collecting target sources," IEEE/ACM Trans. Audio, Speech and Language Processing, pp. 768-779, 2017.
前述したように、近距離音響信号は近接音源から発せられた原信号に対応し、遠距離音響信号は遠方音源から発せられた原信号に対応し、マイクロホンから近接音源および遠方音源までの距離は互いに相違する。そのため、音響特徴量φには、音源からマイクロホンまでの距離、または音場の空間的な特徴を表す音響特徴量を利用すべきである。しかし、DL音源強調において広く用いられるMFCC(mel-frequency-cepstrum-coefficient)やlog-mel-spectrumは音色に関する特徴量であり、音源からマイクロホンまでの距離や音場の空間的な情報は失われている。また空間的な特徴量は、部屋の残響や形状によって大きく変化するため、それをDL音源強調ための音響特徴量として用いることは難しいとされてきた。そのため、DL音源強調に基づいて、観測信号から近距離音響信号および遠距離音響信号の少なくとも一方を分離する近接/遠方音源分離を実現することは困難とされてきた。
<本実施形態の手法>
これに対し、以下に述べる実施形態では、球面調和関数解析で得られた音響特徴量を用いて、近接/遠方音源分離を実現する時間周波数マスクを深層学習で推定する。この方法により、(1)球面調和関数解析では不可能であった高域の周波数においても、近接/遠方音源分離を実現できるようになる。時間周波数マスクの学習には低域の周波数の音響特徴量しか利用できないとしても、学習によって得られた時間周波数マスクを高域の周波数で利用することは可能だからである。また、(2)球面調和関数解析で得られた音響特徴量を用いることで、DL音源強調では困難であった近接/遠方音源分離が可能な時間周波数マスクを推定できる。以下に詳細に説明する。
深層学習では、観測信号をそのまま特徴量としてニューラルネットワークに入力できることが知られている(例えば、参考文献4等参照)。
[参考文献4]Q. V. Le, K. Chen, G. S. Corrado, J. Dean, and A. Y. Ng, "Building High-level Features Using Large Scale Unsupervised Learning," in Proc. of ICML, 2012.
ゆえに、前述した球面マイクロホンアレイで収音された信号をそのまま音響特徴量としてニューラルネットワークに入力する方法が直感的に考えられる。しかし、この方法を採用することは、以下の理由により、現実的には困難である。球面マイクロホンアレイのマイクロホン数M+1は、一般のマイクロホンアレイよりも多いことがほとんどである(例えば、参考文献1では33本のマイクロホンを利用している)。深層学習を用いた音源強調では、前後5フレーム分程度の振幅スペクトルを結合して音響特徴量とすることが多い(例えば、参考文献2等参照)。そのため、33本のマイクロホンで得られた観測信号をサンプリングし、512点の高速フーリエ変換(FFT)を利用して時間周波数領域の観測信号を得、それらの時間周波数領域の観測信号をそのままニューラルネットワークの入力とする場合、入力の次元数は、
257 [点] × (1+5+5) [フレーム] × 33 [チャネル] = 93291 [次元] (6)
と膨大になる。一般に、ニューラルネットワークへの入力の次元数が増加すると、過適合を避けるために、膨大な学習データや計算時間が必要になる。ゆえに、近接/遠方音源分離を実現するためには、前述のGとの相互情報量が大きく、入力の次元数ができるだけ小さな音響特徴量を用いるべきである。そこで、式(2)の球面調和関数解析で得られた近距離音響信号の推定値S^t,f,Dを音響特徴量とすることが考えられる。なぜなら、式(2)で得られるS^t,f,Dは、遠方音に対応する成分が低減され、近接音に対応する成分が強調されており、近距離音響信号と遠距離音響信号とを見分けるための手がかりを含んでいると考えられるからである。しかしながら、S^t,f,Dには、式(2)によって消去しきれなかった遠方音に対応する成分(遠方音の残留ノイズ)が含まれており、ニューラルネットワークがこの遠方音の残留ノイズを近接音に対応する成分であると誤判定する可能性もある。
そこで、以下の方法で遠方音に対応する遠距離音響信号の推定値N^t,f,Dも計算する。
Figure 2019211685

ここで、|・|は・の絶対値を表す。さらに、式(2)で得られた近距離音響信号の推定値S^t,f,Dに対応する値と、式(7)で得られた遠距離音響信号の推定値N^t,f,Dに対応する値と、を関連付けた音響特徴量φを計算する。
Figure 2019211685

ただし、
Figure 2019211685

Figure 2019211685

である。ここで、Cはコンテキスト窓長を表す正整数であり、例えばC=5である。Abs[(・)]はベクトル(・)の各要素を各要素の絶対値に置き換える演算を表す。すなわち、Abs[(・)]の演算結果はベクトル(・)の各要素の絶対値を当該各要素とするベクトルとなる。Mel[(・)]はベクトル(・)にメル変換行列を乗じてB次元ベクトルを得る演算を表す。すなわち、Mel[(・)]の演算結果はベクトル(・)に対応するB次元ベクトルとなる。B=64である。ln(・)はベクトル(・)の各要素を当該各要素の自然対数に置き換える演算を表す。すなわち、ln(・)の演算結果はベクトル(・)の各要素の自然対数を各要素とするベクトルである。また、記載表記の制約上、式(9)の左辺をs^t,Dと表記し、式(10)の左辺をn^t,Dと表記する場合がある。
また、この音響特徴量φは、以下の手順で得られてもよい。
1.サンプリング周波数sf1(第1周波数)の観測信号Xt,f (m)をサンプリング周波数sf2(第2周波数)にダウンサンプリングしたXt,f,D (m)(m∈{0,…,M})を用い、式(2)(7)に従い、サンプリング周波数sf2にダウンサンプリングされたS^t,f,DおよびN^t,f,Dを計算する。ただし、sf2<sf1である。
2.S^t,f,DおよびN^t,f,Dをサンプリング周波数sf1のS^t,fおよびN^t,fにアップサンプリングする。
3.アップサンプリングされた状態で、S^t,f,DおよびN^t,f,Dに代えてS^t,fおよびN^t,fを用い、式(9)(10)に従って、s^t,Dおよびn^t,Dに代えてs^およびn^を計算する。さらに、s^からナイキスト周波数以下の帯域の要素だけを取り出したものをs^t,Lとし、n^からナイキスト周波数以下の帯域の要素だけを取り出したものをn^t,Lとする。
4.s^t,Dおよびn^t,Dに代えてn^t,Lおよびn^t,Lを用い、式(8)に従って音響特徴量φを計算する。
この場合、アップサンプリング後のサンプリング周波数sf1が16kHzである場合、音響特徴量φの次元数は以下のようになる。
40 [点] ×(1+5+5) [フレーム] × 2[近接+遠方の2チャンネル] = 880 [次元] (11)
前述のように、観測信号をそのままニューラルネットワークの入力とする場合には、音響特徴量の次元数がマイクロホンの個数M+1チャネル(式(6)の例では33チャネル)に対応し、非常に大きな値となる(式(6)の例では93291次元)。これに対し、式(8)のように近距離音響信号の推定値S^t,f,Dに対応する値と遠距離音響信号N^t,f,Dの推定値に対応する値とを関連付けた音響特徴量φの次元数は、マイクロホンM+1の数にかかわらず、S^t,f,DおよびN^t,f,Dの2チャネルに対応し、比較的小さな値となる(式(11)の例では880次元)。例えば、式(6)(11)を比較すると、式(8)の音響特徴量φの次元数は、観測信号をそのままニューラルネットワークの入力とする場合に比べて100分の1以下となる。
以上のように得られた音響特徴量φを学習データとして用い、前述した式(5)のパラメータΘを学習する。例えば、与えられた近距離音響信号St,f (0)および観測信号Xt,f (0)ならびに観測信号Xt,f (m)から得た音響特徴量φを学習データとして用い、以下の関数値J(Θ)を最小化するパラメータΘを学習する。
Figure 2019211685

ただし、
Figure 2019211685

Figure 2019211685

である。α○βはベクトルαおよびベクトルβの互いに同じ位置の要素を互いに乗じたものを要素とするベクトルを得る演算(要素ごとの乗算)を表す。すなわち、α=(α,…,αおよびβ=(β,…,βとすると、α○β=(αβ,…,αβである。また、||α||はLノルムである。
以上のように得られたパラメータΘを用いることで、新たにM+1個のマイクロホンで収音され、サンプリングされ、さらに時間周波数領域に変換して得られるXt,f (m)(m∈{0,…,M})に対する音響信号分離が可能となる。すなわち、パラメータΘと新たに得られたXt,f (m)から計算された音響特徴量φとを用い、式(5)に従ってG=(Gt,1,…,Gt,Fを得、さらに式(3)に従ってS^t,fを計算できる。
[第1実施形態]
第1実施形態を説明する。
<構成>
図1に例示するように、本実施形態の音響信号分離システム1は、学習装置11と音響信号分離装置12と球面マイクロホンアレイ13とを有する。
≪学習装置11≫
図2に例示するように、本実施形態の学習装置11は、設定部111、記憶部112、ランダムサンプリング部113、ダウンサンプリング部114−m(m∈{0,…,M})、関数演算部115,116、特徴量計算部117、学習部118、および制御部119を有する。
≪音響信号分離装置12≫
図3に例示するように、本実施形態の音響信号分離装置12は、設定部121、信号処理部123、ダウンサンプリング部124−m(m∈{0,…,M})、関数演算部125,126、特徴量計算部127、およびフィルタ部128を有する。
≪球面マイクロホンアレイ13≫
球面マイクロホンアレイ13は、半径rの球の中心に配置された0番目のマイクロホンと、当該球の球面上に等間隔に配置された1からM番目までのマイクロホンとを有する。
<学習処理>
次に、図4を用いて本実施形態の学習処理を説明する。
前処理として、単数または複数の任意の近接音源から発せられた近接音を球面マイクロホンアレイ13のM+1個のマイクロホンで収音することで得られた近距離音響信号をサンプリング周波数sf1でサンプリングし、さらに時間周波数領域に変換して得られた時間周波数領域の近距離音響信号St,f (m)(m∈{0,…,M})を得る。近接音源をランダムに選択しながらこのようなSt,f (m)を複数個取得し、それらからなる集合Sを構成する。同様に、単数または複数の任意の遠方音源から発せられた遠方音を球面マイクロホンアレイ13のM+1個のマイクロホンで収音することで得られた遠距離音響信号をサンプリング周波数sf1でサンプリングし、さらに時間周波数領域に変換して得られた時間周波数領域の遠距離音響信号Nt,f (m)(m∈{0,…,M})を得る。遠方音源をランダムに選択しながらこのようなNt,f (m)を複数個取得し、それらからなる集合Nを構成する。また、各種パラメータp(例えば、M,F,T,C,B,r,sf1,sf2や学習に必要なパラメータなど)が設定される。前処理で得られたS,N,pは学習装置11(図2)の設定部111に入力される。集合S,Nは記憶部112に格納され、各種パラメータpは学習装置11の各部に設定される(ステップS111)。
ランダムサンプリング部113は、記憶部112に格納された集合S,Nから、T+2C個以上の時間区間(フレーム)tについての近距離音響信号{St,f (0),…,St,f (M)}および遠距離音響信号{Nt,f (0),…,Nt,f (M)}をランダムに選択し(f∈{1,…,F})、それらを重畳することで観測信号{Xt,f (0),…,Xt,f (M)}を得るシミュレーションを行い、それによって得た観測信号Xt,f (m)(m∈{0,…,M})を出力する(ステップS113)。
ステップS113で得られた各観測信号Xt,f (m)は各ダウンサンプリング部114−mに入力される。ダウンサンプリング部114−mは、観測信号Xt,f (m)をサンプリング周波数sf2の観測信号Xt,f,D (m)(複数のマイクロホンで収音された信号に由来する第2音響信号)にダウンサンプリングして出力する(ステップS114)。
ステップS114で得られた観測信号Xt,f,D (0),…,Xt,f,D (M)は関数演算部115に入力される。関数演算部115は、式(2)(所定の関数)に従って、観測信号Xt,f,D (0),…,Xt,f,D (M)から近距離音響信号の推定値S^t,f,D(複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値)を得て出力する(ステップS115)。
ステップS114で得られた観測信号Xt,f,D (0)およびステップS115で得られた近距離音響信号の推定値S^t,f,Dは、関数演算部116に入力される。関数演算部116は、式(7)に従ってXt,f,D (0)およびS^t,f,Dから遠距離音響信号の推定値N^t,f,D(複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値)を得て出力する(ステップS116)。
ステップS115で得られた近距離音響信号の推定値S^t,f,DおよびステップS116で得られた遠距離音響信号の推定値N^t,f,Dは、特徴量計算部117に入力される。特徴量計算部117は、式(8)(9)(10)に従って、前述の音響特徴量φ(近距離音響信号の推定値S^t,f,Dに対応する値s^t,Dと、遠距離音響信号の推定値N^t,f,Dに対応する値n^t,Dと、を関連付けた音響特徴量)を計算して出力する(ステップS117)。
ステップS117で得られた音響特徴量φおよび当該音響特徴量φに対応するSt,f (0)およびXt,f (0)(t∈{1,…,T},f∈{1,…,F})が、学習データとして学習部118に入力される。学習部118は、これらを用い、公知の学習法を用いて、式(12)の関数値J(Θ)を最小化するようにパラメータΘ(フィルタに対応する情報)を学習する。学習法には、例えば、確率的最急降下法などを利用すればよく、その学習率は10−5程度に設定すればよい(ステップS118)。
制御部119は、収束判定を行い、収束条件を充足したか否かを判定する。収束条件の例は、一定回数(例えば、10万回)の学習を繰り返したこと、各学習で得られたパラメータΘの変化量が一定範囲内であったことなどである。制御部119が収束条件を充足していないと判定した場合、ステップS113の処理に戻る。一方、制御部119が収束条件を充足したと判定した場合、学習部118は収束条件を充足したパラメータΘを出力する。このパラメータΘと式(5)とを用いることで、未知の音響特徴量φに対応する時間周波数マスクGt,1,…,Gt,Fを得ることができる(ステップS119)。
<分離処理>
次に、図5を用いて本実施形態の分離処理を説明する。前処理として、パラメータp’(例えば、学習に必要なパラメータを除き、前述したパラメータpと同一)が設定部121に入力され、ステップS119で出力されたパラメータΘがフィルタ部128に入力される。パラメータp’は音響信号分離装置12の各部に設定され、パラメータΘはフィルタ部128に設定される。その後、各時間区間tについて以下の各処理が実行される。
単数または複数の任意の音源から発せられた音が球面マイクロホンアレイ13のM+1個(複数)のマイクロホンで収音され、それによって得られた信号が信号処理部123に送られる(ステップS121)。信号処理部123は、各m∈{0,…,M}番目のマイクロホンで取得された信号をサンプリング周波数sf1でサンプリングし、さらに時間周波数領域に変換して時間周波数領域の観測信号X’t,f (m)(m∈{0,…,M})(複数のマイクロホンで収音された信号に由来する第2音響信号)を得て出力する(ステップS123)。
ステップS123で得られた各観測信号X’t,f (m)は各ダウンサンプリング部124−mに入力される。ダウンサンプリング部124−mは、観測信号X’t,f (m)をサンプリング周波数sf2の観測信号X’t,f,D (m)(複数のマイクロホンで収音された信号に由来する第2音響信号)にダウンサンプリングして出力する(ステップS124)。
ステップS124で得られた観測信号X’t,f,D (0),…,X’t,f,D (M)は関数演算部125に入力される。関数演算部125は、
Figure 2019211685

(所定の関数)に従って、観測信号X’t,f,D (0),…,X’t,f,D (M)から近距離音響信号の推定値S^’t,f,D(複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値)を得て出力する。なお、記載表記の制約上、式(15)の左辺をS^’t,f,Dと表記する(ステップS125)。
ステップS124で得られた観測信号X’t,f,D (0)およびステップS125で得られた近距離音響信号の推定値S^’t,f,Dは、関数演算部126に入力される。関数演算部126は、
Figure 2019211685

に従ってX’t,f,D (0)およびS^’t,f,Dから遠距離音響信号の推定値N^’t,f,D(複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値)を得て出力する。なお、記載表記の制約上、式(16)の左辺をN^’t,f,Dと表記する(ステップS126)。
ステップS125で得られた近距離音響信号の推定値S^’t,f,DおよびステップS126で得られた遠距離音響信号の推定値N^’t,f,Dは、特徴量計算部127に入力される。特徴量計算部127は、以下の式(17)(18)(19)に従って、音響特徴量φ’(近距離音響信号の推定値S^’t,f,Dに対応する値s^’t,Dと、遠距離音響信号の推定値N^’t,f,Dに対応する値n^’t,Dと、を関連付けた音響特徴量)を計算して出力する。
Figure 2019211685

Figure 2019211685

Figure 2019211685

なお、記載表記の制約上、式(18)(19)の左辺をs^’t,D,n^’t,Dとそれぞれ表記する(ステップS127)。
ステップS123で得られた各観測信号X’t,f (0)、およびステップS127で得られた音響特徴量φ’はフィルタ部128に入力される。フィルタ部128は、前述のパラメータΘを用い、時間周波数マスクGt,1,…,Gt,Fを縦に並べたベクトルG=(Gt,1,…,Gt,Fを以下のように計算する。
Figure 2019211685

このように得られる時間周波数マスクGt,1,…,Gt,Fは、複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値S^t,f,D(S^’t,f,D)に対応する値s^t,D(s^’t,D)と、複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値N^t,f,D(N^’t,f,D)に対応する値n^t,D(n^’t,D)と、を関連付けることで得られるフィルタ(非線形フィルタ)である。さらにフィルタ部128は、時間周波数マスクGt,f(f∈{0,…,F})を用い、観測信号X’t,f (0)(特定のマイクロホンで収音された信号に由来する第1音響信号)から、以下のように、近距離音響信号の推定値S^’t,f(特定のマイクロホンに近い距離から発せられた音を表す所望の音響信号)を取得して出力する。
Figure 2019211685

なお、本形態では、時間周波数マスクGt,fのサンプリング周波数がsf2のままであるため、式(21)の計算を行う前に、時間周波数マスクGt,fをサンプリング周波数sf1またはその近傍にアップサンプリングすることが望ましい(ステップS128)。出力されたS^t,fは時間領域の信号に変換されてもよいし、時間領域の信号に変換されることなく他の処理に用いられてもよい。
[第1実施形態の変形例1]
第1実施形態のステップS128では、音響信号分離装置12のフィルタ部128が、時間周波数マスクGt,fを用い、観測信号X’t,f (0)から近距離音響信号の推定値S^t,fを取得して出力した(式(21))。しかし、音響信号分離装置12がフィルタ部128に代えてフィルタ部128’を備え、フィルタ部128’が時間周波数マスクGt,fを用い、以下のように観測信号X’t,f (0)から遠距離音響信号の推定値N^’t,f(特定のマイクロホンから遠い距離から発せられた音を表す所望の音響信号)を取得して出力してもよい。
Figure 2019211685
または、音響信号分離装置12がフィルタ部128に加えてフィルタ部128’を備え、フィルタ部128が前述のように式(21)に従って近距離音響信号の推定値S^t,fを取得して出力し、フィルタ部128’が上述のように式(22)に従って遠距離音響信号の推定値N^’t,fを取得して出力してもよい。または、フィルタ部128が距離音響信号の推定値S^’t,fを取得して出力するか、または、フィルタ部128’が遠距離音響信号の推定値N^’t,fを取得して出力するかが、入力に基づいて選択可能であってもよい(ステップS128’)。
[第1実施形態の変形例2]
第1実施形態のステップS118では、学習装置11の学習部118が式(12)の関数値J(Θ)を最小化するようにパラメータΘ(フィルタに対応する情報)を学習した。しかし、学習装置11が学習部118に代えて学習部118”を備え、学習部118”が、ステップS117で得られた音響特徴量φおよび当該音響特徴量φに対応するNt,f (0)およびXt,f (0)(t∈{1,…,T},f∈{1,…,F})を学習データとして用い、公知の学習法を用いて、以下のように関数値J(Θ)を最小化するようにパラメータΘ(フィルタに対応する情報)を学習してもよい(ステップS118”)。
Figure 2019211685

Figure 2019211685
この場合、音響信号分離装置12のフィルタ部128が時間周波数マスクGt,fを用い、以下のように観測信号X’t,f (0)から遠距離音響信号の推定値N^’t,fを取得して出力してもよい。
Figure 2019211685

または、音響信号分離装置12のフィルタ部128’が時間周波数マスクGt,fを用い、以下のように観測信号X’t,f (0)から近距離音響信号の推定値S^’t,fを取得して出力してもよい。
Figure 2019211685
または、音響信号分離装置12がフィルタ部128に加えてフィルタ部128’を備え、フィルタ部128が前述のように式(25)に従って遠距離音響信号の推定値N^’t,fを取得して出力し、フィルタ部128’が上述のように式(26)に従って近距離音響信号の推定値S^’t,fを取得して出力してもよい。または、フィルタ部128が遠距離音響信号の推定値N^’t,fを取得して出力するか、または、フィルタ部128’が近距離音響信号の推定値S^’t,fを取得して出力するかが、入力に基づいて選択可能であってもよい。
[第2実施形態]
第2実施形態を説明する。本実施形態は第1実施形態の変形例であり、音響特徴量の計算前にアップサンプリングが行われる点のみが第1実施形態と相違する。以下では第1実施形態との相違点を中心に説明を行い、第1実施形態と共通する事項については同じ参照番号を用いて説明を簡略化する。
<構成>
図1に例示するように、本実施形態の音響信号分離システム2は、学習装置21と音響信号分離装置22と球面マイクロホンアレイ13とを有する。
≪学習装置21≫
図2に例示するように、本実施形態の学習装置21は、設定部111、記憶部112、ランダムサンプリング部113、ダウンサンプリング部114−m(m∈{0,…,M})、関数演算部115,116、特徴量計算部217、学習部118、および制御部119を有する。
≪音響信号分離装置22≫
図3に例示するように、本実施形態の音響信号分離装置22は、設定部121、信号処理部123、ダウンサンプリング部124−m(m∈{0,…,M})、関数演算部125,126、特徴量計算部227、およびフィルタ部128を有する。
<学習処理>
次に、図4を用いて本実施形態の学習処理を説明する。第1実施形態の学習処理との相違点はステップS117が以下のステップS217に置換される点のみである。その他は、第1実施形態もしくは第1実施形態の変形例1または2の学習処理と同一である。
≪ステップS217≫
ステップS115で得られた近距離音響信号の推定値S^t,f,DおよびステップS116で得られた遠距離音響信号の推定値N^t,f,Dは、特徴量計算部217に入力される。特徴量計算部217は、S^t,f,DおよびN^t,f,Dをサンプリング周波数sf1のS^t,fおよびN^t,fにアップサンプリングする。その後、特徴量計算部217は、アップサンプリングされた状態で、S^t,f,DおよびN^t,f,Dに代えてS^t,fおよびN^t,fを用い、式(9)(10)に従って、s^t,Dおよびn^t,Dに代えてs^およびn^を計算する。さらに、特徴量計算部217は、s^からナイキスト周波数以下の帯域の要素だけを取り出したものをs^t,Lとし、n^からナイキスト周波数以下の帯域の要素だけを取り出したものをn^t,Lとする。特徴量計算部217は、s^t,Dおよびn^t,Dに代えてn^t,Lおよびn^t,Lを用い、式(8)に従って音響特徴量φ(近距離音響信号の推定値S^t,f,Dに対応する値s^t,Lと、遠距離音響信号の推定値N^t,f,Dに対応する値n^t,Lと、を関連付けた音響特徴量)を計算して出力する。
<分離処理>
次に、図5を用いて本実施形態の分離処理を説明する。第1実施形態の分離処理との相違点はステップS127が以下のステップS227に置換される点のみである。その他は、第1実施形態の分離処理と同一である。
≪ステップS227≫
ステップS125で得られた近距離音響信号の推定値S^’t,f,DおよびステップS126で得られた遠距離音響信号の推定値N^’t,f,Dは、特徴量計算部227に入力される。特徴量計算部227は、S^’t,f,DおよびN^’t,f,Dをサンプリング周波数sf1のS^’t,fおよびN^’t,fにアップサンプリングする。その後、特徴量計算部227は、アップサンプリングされた状態で、S^’t,f,DおよびN^’t,f,Dに代えてS’^t,fおよびN’^t,fを用い、式(18)(10)に従って、s^’t,Dおよびn^’t,Dに代えてs^’およびn^’を計算する。さらに、特徴量計算部227は、s^’からナイキスト周波数以下の帯域の要素だけを取り出したものをs^’t,Lとし、n^’からナイキスト周波数以下の帯域の要素だけを取り出したものをn^’t,Lとする。特徴量計算部227は、s^’t,Dおよびn^’t,Dに代えてn^’t,Lおよびn^’t,Lを用い、式(17)に従って音響特徴量φ’(近距離音響信号の推定値S^’t,f,Dに対応する値s^’t,Lと、遠距離音響信号の推定値N^’t,f,Dに対応する値n^’t,Lと、を関連付けた音響特徴量)を計算して出力する。
[まとめ]
第1,2実施形態およびそれらの変形例の学習装置は、「複数のマイクロホン」で収音された信号に由来する第2音響信号(観測信号Xt,f,D (m))から「所定の関数」(式(2))を用いて得られる、「複数のマイクロホン」に近い距離から発せられた近距離音響信号の推定値S^t,f,Dに対応する値と、「複数のマイクロホン」から遠い距離から発せられた遠距離音響信号の推定値N^t,f,Dに対応する値と、を関連付けた学習データ(音響特徴量φ)を用い、「特定のマイクロホン」で収音された信号に由来する第1音響信号(観測信号X’t,f (0))から、「特定のマイクロホン」に近い距離から発せられた音または特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号を分離するためのフィルタ(時間周波数マスクGt,1,…,Gt,F)に対応する情報(パラメータΘ)を学習した。なお、「マイクロホンに近い距離」は「マイクロホンから遠い距離」よりも短い。例えば、「マイクロホンに近い距離」は30cm以下の距離であり、「マイクロホンから遠い距離」は1m以上の距離である。例えば、近距離音響信号の推定値S^t,f,Dは、第2音響信号と「所定の関数」とを用いて得られ(式(2))、遠距離音響信号の推定値N^t,f,Dは、第2音響信号と近距離音響信号の推定値S^t,f,Dとを用いて得られる(式(7))。
また、第1音響信号(観測信号X’t,f (0))から所望の音響信号を分離する音響信号分離装置では、「複数のマイクロホン」で収音された信号に由来する第2音響信号(観測信号Xt,f,D (m),X’t,f (0))から「所定の関数」を用いて得られる、「複数のマイクロホン」に近い距離から発せられた近距離音響信号の推定値(S^t,f,D,S^’t,f,D)に対応する値と、複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値(N^t,f,D,N^’t,f,D)に対応する値と、を関連付けることで得られるフィルタ(近距離音響信号の推定値に対応する値と遠距離音響信号の推定値に対応する値とを関連付けた学習データを用いた学習によって得られる情報に基づくフィルタである、時間周波数マスクGt,1,…,Gt,F)を用い、「特定のマイクロホン」で収音された信号に由来する第1音響信号(観測信号X’t,f (0))から、「特定のマイクロホン」に近い距離から発せられた音または「特定のマイクロホン」から遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号(S^’t,fおよび/またはN^’t,f)を取得した。
前述のように、各実施形態で学習データとして用いる音響特徴量φの次元数は、近距離音響信号の推定値S^t,f,Dに対応する値と遠距離音響信号N^t,f,Dの推定値に対応する値とを関連付けたものであり、マイクロホンM+1の数にかかわらず、S^t,f,DおよびN^t,f,Dの2チャネルに対応するものとなる。そのため、各実施形態では、マイクロホンM+1での観測信号をそのまま学習データとして用いる場合に比べ、学習データの次元数を大幅に削減できる。その結果、マイクロホンM+1での観測信号をそのまま学習データとして用いる場合に比べ、学習データのデータ量を削減し、学習時間を大幅に短縮できる。また、音響特徴量φは「所定の関数」を用いて得られるが、この「所定の関数」は「複数のマイクロホン」に近い距離から発せられた音が球面波として、「複数のマイクロホン」から遠い距離から発せられた音が平面波として、「複数のマイクロホン」に収音されると近似されることを利用した関数である。このように得られる音響特徴量φは、近距離音響信号と遠距離音響信号とを見分けるための手がかりを含んだものであり、G=(Gt,1,…,Gt,Fとの相互情報量が大きい。そのため、このような音響特徴量φを学習データとして用いることで高精度でフィルタ(時間周波数マスクGt,1,…,Gt,F)を推定でき、音源からマイクロホンまでの距離の違いに基づいて高精度に音響信号を分離できる。また、フィルタ(時間周波数マスクGt,1,…,Gt,F)の学習には低域の周波数の音響特徴量しか利用できないとしても、学習によって得られたフィルタを高域の周波数で利用することは可能である。そのため、このようなフィルタを用いて得られた音響信号分離を、音声認識などの音響信号を扱うアプリケーションの前処理として利用することもできる。
第1音響信号(観測信号X’t,f (0))のサンプリング周波数はsf1(第1周波数)であり、第2音響信号(観測信号Xt,f,D (m))のサンプリング周波数はsf2(第2周波数)であり、sf2(第2周波数)はsf1(第1周波数)よりも低い。第2実施形態およびその変形例では、近距離音響信号の推定値S^t,f,Dおよび遠距離音響信号の推定値N^t,f,Dのサンプリング周波数はsf2(第2周波数)であるが、近距離音響信号の推定値S^t,f,Dに対応する値および遠距離音響信号の推定値N^t,f,Dに対応する値のサンプリング周波数はsf1(第1周波数)にアップサンプリングされている。そのため、学習に基づいて得られたフィルタ(時間周波数マスクGt,1,…,Gt,F)のサンプリング周波数を第1音響信号(観測信号X’t,f (0))に一致させることができ、フィルタリング処理を簡易化できる。なお、近距離音響信号の推定値S^t,f,Dおよび遠距離音響信号の推定値N^t,f,Dのサンプリング周波数がsf2(第2周波数)の近傍であってもよいし、近距離音響信号の推定値S^t,f,Dに対応する値および遠距離音響信号の推定値N^t,f,Dに対応する値のサンプリング周波数がsf1(第1周波数)の近傍にアップサンプリングされてもかまわない。
なお、本発明は上述の実施形態に限定されるものではない。例えば、DNN以外のモデルを用いてフィルタの学習および適用が行われてもよい。また、学習装置の機能と音響信号分離装置の機能とを含む単一の装置が設けられてもよい。上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上記の各装置は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
例えば、上述したマイクロホンに遠い距離から発せられた音を分離する技術をスマートスピーカーなどに適用した場合、スマートスピーカーなどがテレビの傍に置かれていたとしても、テレビの音声を抑圧して遠方の音声等を明確に抽出でき、音声認識や通話などの品質を向上させることができる。
例えば、上述したマイクロホンから近い距離から発せられた音を分離する技術を工場における異常音検知装置に適用し、この異常音検知装置を監視対象機器の傍に配置した場合、別のセクションなどから到来する雑音を抑圧し、監視対象機器の音だけを抽出できるようになり、異常音検知装置による検出精度を向上させることができる。
1 音響信号分離システム
11,21 学習装置
12,22 音響信号分離装置

Claims (8)

  1. 第1音響信号から所望の音響信号を分離する音響信号分離装置であって、
    複数のマイクロホンで収音された信号に由来する第2音響信号から所定の関数を用いて得られる、前記複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値に対応する値と、前記複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値に対応する値と、を関連付けることで得られるフィルタを用い、
    特定のマイクロホンで収音された信号に由来する前記第1音響信号から、
    前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す前記所望の音響信号を取得するフィルタ部を有し、
    前記所定の関数は、
    前記複数のマイクロホンに近い距離から発せられた音が球面波として、
    前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
    前記複数のマイクロホンに収音されると近似されることを利用した関数である
    音響信号分離装置。
  2. 請求項1の音響信号分離装置であって、
    前記近距離音響信号の推定値は、前記第2音響信号と前記所定の関数とを用いて得られ、
    前記遠距離音響信号の推定値は、前記第2音響信号と前記近距離音響信号の推定値とを用いて得られる、音響信号分離装置。
  3. 請求項1または2の音響信号分離装置であって、
    前記第1音響信号のサンプリング周波数は第1周波数であり、
    前記第2音響信号のサンプリング周波数は第2周波数であり、
    第2周波数は前記第1周波数よりも低く、
    前記近距離音響信号の推定値および前記遠距離音響信号の推定値のサンプリング周波数は、前記第2周波数または前記第2周波数の近傍であり、
    前記近距離音響信号の推定値に対応する値および前記遠距離音響信号の推定値に対応する値のサンプリング周波数は、前記第1周波数または前記第1周波数の近傍である、音響信号分離装置。
  4. 請求項1から3の何れかの音響信号分離装置であって、
    前記フィルタは、前記近距離音響信号の推定値に対応する値と前記遠距離音響信号の推定値に対応する値とを関連付けた学習データを用いた学習によって得られる情報に基づく、音響信号分離装置。
  5. 複数のマイクロホンで収音された信号に由来する第2音響信号から所定の関数を用いて得られる、前記複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値に対応する値と、前記複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値に対応する値と、を関連付けた学習データを用い、
    特定のマイクロホンで収音された信号に由来する第1音響信号から、前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号を分離するためのフィルタに対応する情報を学習する学習部を有し、
    前記所定の関数は、
    前記複数のマイクロホンに近い距離から発せられた音が球面波として、
    前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
    前記複数のマイクロホンに収音されると近似されることを利用した関数である
    学習装置。
  6. 第1音響信号から所望の音響信号を分離する音響信号分離方法であって、
    複数のマイクロホンで収音された信号に由来する第2音響信号から所定の関数を用いて得られる、前記複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値に対応する値と、前記複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値に対応する値と、を関連付けることで得られるフィルタを用い、
    特定のマイクロホンで収音された信号に由来する前記第1音響信号から、
    前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す前記所望の音響信号を取得するステップを有し、
    前記所定の関数は、
    前記複数のマイクロホンに近い距離から発せられた音が球面波として、
    前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
    前記複数のマイクロホンに収音されると近似されることを利用した関数である
    音響信号分離方法。
  7. 複数のマイクロホンで収音された信号に由来する第2音響信号から所定の関数を用いて得られる、前記複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値に対応する値と、前記複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値に対応する値と、を関連付けた学習データを用い、
    特定のマイクロホンで収音された信号に由来する第1音響信号から、前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号を分離するためのフィルタに対応する情報を学習するステップを有し、
    前記所定の関数は、
    前記複数のマイクロホンに近い距離から発せられた音が球面波として、
    前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
    前記複数のマイクロホンに収音されると近似されることを利用した関数である
    学習方法。
  8. 請求項1から4の何れかの音響信号分離装置または請求項5の学習装置としてコンピュータを機能させるためのプログラム。
JP2018109327A 2018-06-07 2018-06-07 音響信号分離装置、学習装置、それらの方法、およびプログラム Active JP7024615B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018109327A JP7024615B2 (ja) 2018-06-07 2018-06-07 音響信号分離装置、学習装置、それらの方法、およびプログラム
PCT/JP2019/019833 WO2019235194A1 (ja) 2018-06-07 2019-05-20 音響信号分離装置、学習装置、それらの方法、およびプログラム
US15/734,473 US11297418B2 (en) 2018-06-07 2019-05-20 Acoustic signal separation apparatus, learning apparatus, method, and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018109327A JP7024615B2 (ja) 2018-06-07 2018-06-07 音響信号分離装置、学習装置、それらの方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2019211685A true JP2019211685A (ja) 2019-12-12
JP7024615B2 JP7024615B2 (ja) 2022-02-24

Family

ID=68770233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018109327A Active JP7024615B2 (ja) 2018-06-07 2018-06-07 音響信号分離装置、学習装置、それらの方法、およびプログラム

Country Status (3)

Country Link
US (1) US11297418B2 (ja)
JP (1) JP7024615B2 (ja)
WO (1) WO2019235194A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024006516A1 (en) * 2022-06-30 2024-01-04 Google Llc Sound separation based on distance estimation using machine learning models

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006180392A (ja) * 2004-12-24 2006-07-06 Nippon Telegr & Teleph Corp <Ntt> 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
JP2008236077A (ja) * 2007-03-16 2008-10-02 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム
JP2009128906A (ja) * 2007-11-19 2009-06-11 Mitsubishi Electric Research Laboratories Inc 音響信号と雑音信号とを含む混成信号の雑音を除去するための方法およびシステム
JP2015164267A (ja) * 2014-02-28 2015-09-10 国立大学法人電気通信大学 収音装置および収音方法、並びにプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080175408A1 (en) * 2007-01-20 2008-07-24 Shridhar Mukund Proximity filter
KR101238362B1 (ko) * 2007-12-03 2013-02-28 삼성전자주식회사 음원 거리에 따라 음원 신호를 여과하는 방법 및 장치
US8737636B2 (en) * 2009-07-10 2014-05-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive active noise cancellation
US10433086B1 (en) * 2018-06-25 2019-10-01 Biamp Systems, LLC Microphone array with automated adaptive beam tracking
US10210882B1 (en) * 2018-06-25 2019-02-19 Biamp Systems, LLC Microphone array with automated adaptive beam tracking

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006180392A (ja) * 2004-12-24 2006-07-06 Nippon Telegr & Teleph Corp <Ntt> 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
JP2008236077A (ja) * 2007-03-16 2008-10-02 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム
JP2009128906A (ja) * 2007-11-19 2009-06-11 Mitsubishi Electric Research Laboratories Inc 音響信号と雑音信号とを含む混成信号の雑音を除去するための方法およびシステム
JP2015164267A (ja) * 2014-02-28 2015-09-10 国立大学法人電気通信大学 収音装置および収音方法、並びにプログラム

Also Published As

Publication number Publication date
JP7024615B2 (ja) 2022-02-24
WO2019235194A1 (ja) 2019-12-12
US20210219048A1 (en) 2021-07-15
US11297418B2 (en) 2022-04-05

Similar Documents

Publication Publication Date Title
CN110459241B (zh) 一种用于语音特征的提取方法和系统
US9971012B2 (en) Sound direction estimation device, sound direction estimation method, and sound direction estimation program
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
JP2018040848A (ja) 音響処理装置および音響処理方法
JP7176627B2 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
Christensen et al. Joint fundamental frequency and order estimation using optimal filtering
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
CN108369803B (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
JPWO2019171457A1 (ja) 音源分離装置、音源分離方法およびプログラム
Hadjahmadi et al. Robust feature extraction and uncertainty estimation based on attractor dynamics in cyclic deep denoising autoencoders
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
WO2019235194A1 (ja) 音響信号分離装置、学習装置、それらの方法、およびプログラム
KR20180079975A (ko) 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치
JP5705190B2 (ja) 音響信号強調装置、音響信号強調方法、およびプログラム
CN115116469B (zh) 特征表示的提取方法、装置、设备、介质及程序产品
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
JP2013186383A (ja) 音源分離装置、音源分離方法、およびプログラム
CN115938346A (zh) 音准评估方法、系统、设备及存储介质
US11676619B2 (en) Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program
Konduru et al. Multidimensional feature diversity based speech signal acquisition
Zeremdini et al. Multi-pitch estimation based on multi-scale product analysis, improved comb filter and dynamic programming
Therese et al. A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system
Dehghan Firoozabadi et al. A novel method for estimating the number of speakers based on generalized eigenvalue–vector decomposition and adaptive wavelet transform by using K-means clustering
JP2019090930A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220124

R150 Certificate of patent or registration of utility model

Ref document number: 7024615

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150