JP2019211685A

JP2019211685A - 音響信号分離装置、学習装置、それらの方法、およびプログラム

Info

Publication number: JP2019211685A
Application number: JP2018109327A
Authority: JP
Inventors: 悠馬小泉; Yuma Koizumi; 櫻子矢澤; Sakurako Yazawa; 小林　和則; Kazunori Kobayashi; 和則小林
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2019-12-12
Anticipated expiration: 2038-06-07
Also published as: JP7024615B2; WO2019235194A1; US20210219048A1; US11297418B2

Abstract

【課題】音源からマイクロホンまでの距離の違いに基づいて音響信号を分離する。【解決手段】「複数のマイクロホン」で収音された信号に由来する第２音響信号から「所定の関数」を用いて得られる、「複数のマイクロホン」に近い距離から発せられた近距離音響信号の推定値に対応する値と遠い距離から発せられた遠距離音響信号の推定値に対応する値とを関連付けることで得られるフィルタを用い、「特定のマイクロホン」で収音された信号に由来する第１音響信号から、「特定のマイクロホン」に近い距離から発せられた音または遠い距離から発せられた音の少なくとも一方を表す所望の音響信号を取得する。ただし、「所定の関数」は、「複数のマイクロホン」に近い距離から発せられた音が球面波として遠い距離から発せられた音が平面波として収音されると近似されることを利用した関数である。【選択図】図３

Description

本発明は、音響信号を分離する技術に関し、特に、音源からマイクロホンまでの距離の違いに基づいて音響信号を分離する技術に関する。

音響信号分離は、目的音と雑音との何らかの信号的な性質の違いに基づいて音響信号を分離する手法である。代表的な音響信号分離手法には、音色の違いに基づいて分離を行う手法（ＤＮＮ（Deep Neural Network）音源強調など）（例えば、非特許文献１等参照）や、音の方向の違いに基づいて分離を行う手法（インテリジェントマイクなど）がある。

小泉悠馬, "深層学習に基づく音源情報推定のための確率論的目的関数の研究"，電気通信大学大学院情報理工学研究科，２０１７年９月

音源からマイクロホンまでの距離の違いに基づいて音響信号を分離するためには、音場の「空間的な情報」を精緻に得る必要がある。これを得るためには、通常、大量のマイクロホンが必要である。この場合、これまでのＤＮＮ音源強調のように、各マイクロホンで得られた観測信号の音響特徴量をそのままＤＮＮの学習データとして用いると、学習データ量や学習時間が膨大なものとなってしまい、音響信号の分離を行うことが困難となる。音響特徴量を工夫するという方針もあり得るが、これまでの音響特徴量は、ＭＦＣＣ(mel-frequency-cepstrum-coefficient)やlog-mel-spectrumなどといった音色に関するものやビームフォーマの出力音などの方向に関するものが大半であり、音源からマイクロホンまでの距離の違いに基づいて音響信号を分離するために、どのような音響特徴量を用いるべきかについては未知である。

本発明はこのような点に鑑みてなされたものであり、音源からマイクロホンまでの距離の違いに基づいて音響信号を分離することを目的とする。

「複数のマイクロホン」で収音された信号に由来する第２音響信号から「所定の関数」を用いて得られる、「複数のマイクロホン」に近い距離から発せられた近距離音響信号の推定値に対応する値と、「複数のマイクロホン」から遠い距離から発せられた遠距離音響信号の推定値に対応する値と、を関連付けることで得られるフィルタを用い、「特定のマイクロホン」で収音された信号に由来する第１音響信号から、「特定のマイクロホン」に近い距離から発せられた音または「特定のマイクロホン」から遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号を取得する。ただし、「所定の関数」は、「複数のマイクロホン」に近い距離から発せられた音が球面波として、「複数のマイクロホン」から遠い距離から発せられた音が平面波として、「複数のマイクロホン」に収音されると近似されることを利用した関数である。

近距離音響信号の推定値に対応する値と遠距離音響信号の推定値に対応する値とを関連付けることで得られたフィルタを用いることで、音源からマイクロホンまでの距離の違いに基づいて音響信号を分離することが可能になる。

図１は実施形態の音響信号分離システムの機能構成を例示したブロック図である。図２は実施形態の学習装置の機能構成を例示したブロック図である。図３は実施形態の音響信号分離装置の機能構成を例示したブロック図である。図４は実施形態の学習処理を説明するためのフロー図である。図５は実施形態の分離処理を説明するためのフロー図である。

以下、図面を参照して本発明の実施形態を説明する。
［原理］
まず原理を説明する。
以下で説明する実施形態では、Ｍ＋１本のマイクロホンで収音された信号から、当該マイクロホンの近くに位置する音源（近接音源）および当該マイクロホンの遠方に位置する音源（遠方音源）の少なくとも一方を分離する。なお、各マイクロホンから各近接音源までの距離は、各マイクロホンから各遠方音源までの距離よりも短い。例えば、各マイクロホンから各近接音源までの距離は３０ｃｍ以下であり、各マイクロホンから各遠方音源までの距離は１ｍ以上である。なお、Ｍは１以上の整数であり、好ましくはＭは２以上の整数である。今、ｍ∈｛０，…，Ｍ｝番目のマイクロホンで収音された時間領域の観測信号をサンプリングしてさらに時間周波数領域に変換して得られる、時間区間ｔおよび周波数ｆでの時間周波数領域の観測信号を

とし、以下のように定義する。

ここで、

は、近接音源から発せられた近接音をｍ番目のマイクロホンで収音することで得られる近距離音響信号をサンプリングしてさらに時間周波数領域に変換して得られる、時間区間ｔおよび周波数ｆでの時間周波数領域の近距離音響信号に相当する成分である。

は、遠方音源から発せられた遠方音をｍ番目のマイクロホンで収音することで得られる遠距離音響信号をサンプリングしてさらに時間周波数領域に変換して得られる、時間区間ｔおよび周波数ｆでの時間周波数領域の遠距離音響信号に相当する成分である。ｔ∈｛１，…，Ｔ｝およびｆ∈｛１，…，Ｆ｝はそれぞれ、時間周波数領域における時間区間（フレーム）および周波数（離散周波数）のインデックスである。ＴおよびＦは正整数であり、インデックスｔに対応する時間区間を「時間区間ｔ」と表し、インデックスｆに対応する周波数を「周波数ｆ」と表す。記載表記の制約上、以下の説明において、

を、それぞれＸ_ｔ，ｆ ^（ｍ），Ｓ_ｔ，ｆ ^（ｍ），Ｎ_ｔ，ｆ ^（ｍ）と表記する場合がある。詳細は省略するが、Ｓ_ｔ，ｆ ^（ｍ）は各近接音源の原信号と当該近接音源からｍ番目のマイクロホンまでの各伝達特性とに依存し、Ｎ_ｔ，ｆ ^（ｍ）は各遠方音源の原信号と当該遠方音源からｍ番目のマイクロホンまでの各伝達特性とに依存する。時間周波数領域への変換は、例えば、高速フーリエ変換（ＦＦＴ）などによって行うことができる。

＜球面調和関数展開に基づく内部音場予測による近接音抽出＞
まず、球の中心に置かれたマイクロホンとその球の球面上に等間隔に配置されたＭ個のマイクロホンとを含む球面マイクロホンアレイを用いる近接音収音方法を説明する。上述したＭ＋１個のマイクロホンのうち、０番目のマイクロホンが球の中心に配置され、それ以外の１からＭ番目までのマイクロホンが球の球面上に等間隔に配置されているとする。この方法では、遠方音の音波はマイクロホンへ平面波として到来し、近接音の音波はマイクロホンへ球面波として到来する、と近似できることに着目する。半径ｒ（ｒは正値）の球面よりも外側から到来する音のみがある場合、その球面上で観測された音圧分布の球面調和スペクトル（球面調和関数展開係数）から、半径ｒ０（ｒ０＜ｒ）の球面上の音圧が予測できる。ここで、球面上に置かれた１からＭ番目までのマイクロホンでの観測信号を用いて球の中心での音圧を予測し、予測した球の中心での音圧と球の中心に置かれたマイクロホンで観測した音圧との差分をとる。遠方音は平面波としての近似精度が良いため、この差分は０に近づく。一方、近接音の場合は平面波近似が困難であるため、近似誤差として近接音がこの差分となる。結果として近接音源強調（すなわち、マイクロホンに近い距離から発せられた近距離音響信号の推定値を観測信号から分離すること）が実現される。この処理は、以下のように記述できる（例えば、参考文献１等参照）。

ここでＪ_０（ｋｒ）は球ベッセル関数、ｋは周波数ｆに対応する波数である。式（２）の左辺は近距離音響信号の推定値を表し、記載表記の制約上、以下ではこれをＳ＾_{ｔ，ｆ，Ｄ}と表記する場合がある。同様に、

をＸ_{ｔ，ｆ，Ｄ} ^（ｍ）と表記する場合がある。下付き文字のＤはダウンサンプリングされた信号であることを表す。すなわち、Ｓ＾_{ｔ，ｆ，Ｄ}はＳ＾_ｔ，ｆをダウンサンプリングしたものであり、Ｘ_{ｔ，ｆ，Ｄ} ^（ｍ）はＸ_ｔ，ｆ ^（ｍ）をダウンサンプリングしたものである。
［参考文献１］羽田陽一, 古家賢一, 小山翔一, 丹羽健太, "球面調和関数展開に基づく2種類の超接話マイクロホンアレイ," 電子情報通信学会論文誌 A, Vol. J97-A, No. 4, pp. 264-273, 2014.

式（２）で得られる近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}はダウンサンプリングされた信号である。これは上記の方法で分離できる音響信号の最大周波数が、球面マイクロホンアレイの半径ｒに依存するためである。例えば、半径ｒ＝５（ｃｍ）の球面マイクロホンアレイを用いた場合、３．４ｋＨｚ付近に“spherical Bessel zero”と呼ばれる禁止周波数が存在する。そのため、分離前に、観測信号をそのナイキスト周波数以下までダウンサンプリングするか、禁止周波数以下の周波数だけを処理するようにアルゴリズムを設計しなくてはならない。一方、音声認識などの音響信号を扱うアプリケーションでは、４ｋＨｚ以上の帯域の信号を利用する。ゆえに、上記の方法をそのまま、このようなアプリケーションの前処理として利用することはできない。

＜深層学習を利用した時間周波数マスクの推定＞
次に、他の音源分離方法である時間周波数マスク処理を説明する。時間周波数マスク処理では、以下の式で音響信号Ｘ_ｔ，ｆから目的信号の推定値Ｓ＾_ｔ，ｆを得る。

ここでＧ_ｔ，ｆが時間周波数マスクである。また、記載表記の制約上、式（３）の左辺をＳ＾_ｔ，ｆと表記する。目的信号が音響信号Ｘ_ｔ，ｆに含まれる近距離音響信号であり、雑音信号が遠距離音響信号である場合、例えば、以下のようにＧ_ｔ，ｆが得られる。

つまり、近距離音響信号Ｓ_ｔ，ｆ ^（０）および遠距離音響信号Ｎ_ｔ，ｆ ^（０）が既知であれば、時間周波数マスクＧ_ｔ，ｆは容易に得られる。しかし、近距離音響信号Ｓ_ｔ，ｆ ^（０）および遠距離音響信号Ｎ_ｔ，ｆ ^（０）は一般的に未知であり、何らかの形で時間周波数マスクＧ_ｔ，ｆを推定しなくてはならない。ＤＮＮ（Deep Neural Network）を用いた深層学習（DL: deep learning）音源強調（「ＤＮＮ音源強調」ともいう）では、時間区間ｔにおける各周波数ｆ∈｛１，…，Ｆ｝の時間周波数マスクＧ_ｔ，１，…，Ｇ_ｔ，Ｆを縦に並べたベクトルＧ_ｔ＝（Ｇ_ｔ，１，…，Ｇ_ｔ，Ｆ）^Ｔを以下のように推定する（例えば、参考文献２等参照）。

ここで、Ｍはニューラルネットワークを利用した回帰関数、φ_ｔは観測信号から抽出した時間区間ｔにおける音響特徴量、Θはニューラルネットワークのパラメータ、・^Ｔは・の転置を表す。また、０≦Ｇ_ｔ，ｆ≦１である。
［参考文献２］H. Erdogan, J. R. Hershey, S. Watanabe, and J. L. Roux, "Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks," in Proc. ICASSP, 2015.

ＤＬ音源強調において精緻にＧ_ｔを推定するためには、Ｇ_ｔとの相互情報量が大きい音響特徴量φ_ｔを用いる必要がある（例えば、参考文献３等参照）。言い換えれば、音響特徴量φ_ｔは、近距離音響信号と遠距離音響信号とを見分けるための手がかり（情報）を含んだものである必要がある。
［参考文献３］Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi and H. Ohmuro, "Informative acoustic feature selection to maximize mutual information for collecting target sources," IEEE/ACM Trans. Audio, Speech and Language Processing, pp. 768-779, 2017.

前述したように、近距離音響信号は近接音源から発せられた原信号に対応し、遠距離音響信号は遠方音源から発せられた原信号に対応し、マイクロホンから近接音源および遠方音源までの距離は互いに相違する。そのため、音響特徴量φ_ｔには、音源からマイクロホンまでの距離、または音場の空間的な特徴を表す音響特徴量を利用すべきである。しかし、ＤＬ音源強調において広く用いられるＭＦＣＣ(mel-frequency-cepstrum-coefficient)やlog-mel-spectrumは音色に関する特徴量であり、音源からマイクロホンまでの距離や音場の空間的な情報は失われている。また空間的な特徴量は、部屋の残響や形状によって大きく変化するため、それをＤＬ音源強調ための音響特徴量として用いることは難しいとされてきた。そのため、ＤＬ音源強調に基づいて、観測信号から近距離音響信号および遠距離音響信号の少なくとも一方を分離する近接/遠方音源分離を実現することは困難とされてきた。

＜本実施形態の手法＞
これに対し、以下に述べる実施形態では、球面調和関数解析で得られた音響特徴量を用いて、近接/遠方音源分離を実現する時間周波数マスクを深層学習で推定する。この方法により、(1)球面調和関数解析では不可能であった高域の周波数においても、近接/遠方音源分離を実現できるようになる。時間周波数マスクの学習には低域の周波数の音響特徴量しか利用できないとしても、学習によって得られた時間周波数マスクを高域の周波数で利用することは可能だからである。また、(2)球面調和関数解析で得られた音響特徴量を用いることで、ＤＬ音源強調では困難であった近接／遠方音源分離が可能な時間周波数マスクを推定できる。以下に詳細に説明する。

深層学習では、観測信号をそのまま特徴量としてニューラルネットワークに入力できることが知られている（例えば、参考文献４等参照）。
［参考文献４］Q. V. Le, K. Chen, G. S. Corrado, J. Dean, and A. Y. Ng, "Building High-level Features Using Large Scale Unsupervised Learning," in Proc. of ICML, 2012.
ゆえに、前述した球面マイクロホンアレイで収音された信号をそのまま音響特徴量としてニューラルネットワークに入力する方法が直感的に考えられる。しかし、この方法を採用することは、以下の理由により、現実的には困難である。球面マイクロホンアレイのマイクロホン数Ｍ＋１は、一般のマイクロホンアレイよりも多いことがほとんどである（例えば、参考文献１では３３本のマイクロホンを利用している）。深層学習を用いた音源強調では、前後５フレーム分程度の振幅スペクトルを結合して音響特徴量とすることが多い（例えば、参考文献２等参照）。そのため、３３本のマイクロホンで得られた観測信号をサンプリングし、５１２点の高速フーリエ変換（ＦＦＴ）を利用して時間周波数領域の観測信号を得、それらの時間周波数領域の観測信号をそのままニューラルネットワークの入力とする場合、入力の次元数は、
257 [点] × (1+5+5) [フレーム] × 33 [チャネル] = 93291 [次元] (6)
と膨大になる。一般に、ニューラルネットワークへの入力の次元数が増加すると、過適合を避けるために、膨大な学習データや計算時間が必要になる。ゆえに、近接/遠方音源分離を実現するためには、前述のＧ_ｔとの相互情報量が大きく、入力の次元数ができるだけ小さな音響特徴量を用いるべきである。そこで、式（２）の球面調和関数解析で得られた近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}を音響特徴量とすることが考えられる。なぜなら、式（２）で得られるＳ＾_{ｔ，ｆ，Ｄ}は、遠方音に対応する成分が低減され、近接音に対応する成分が強調されており、近距離音響信号と遠距離音響信号とを見分けるための手がかりを含んでいると考えられるからである。しかしながら、Ｓ＾_{ｔ，ｆ，Ｄ}には、式（２）によって消去しきれなかった遠方音に対応する成分（遠方音の残留ノイズ）が含まれており、ニューラルネットワークがこの遠方音の残留ノイズを近接音に対応する成分であると誤判定する可能性もある。

そこで、以下の方法で遠方音に対応する遠距離音響信号の推定値Ｎ＾_{ｔ，ｆ，Ｄ}も計算する。

ここで、｜・｜は・の絶対値を表す。さらに、式（２）で得られた近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}に対応する値と、式（７）で得られた遠距離音響信号の推定値Ｎ＾_{ｔ，ｆ，Ｄ}に対応する値と、を関連付けた音響特徴量φ_ｔを計算する。

ただし、

である。ここで、Ｃはコンテキスト窓長を表す正整数であり、例えばＣ＝５である。Ａｂｓ［（・）］はベクトル（・）の各要素を各要素の絶対値に置き換える演算を表す。すなわち、Ａｂｓ［（・）］の演算結果はベクトル（・）の各要素の絶対値を当該各要素とするベクトルとなる。Ｍｅｌ［（・）］はベクトル（・）にメル変換行列を乗じてＢ次元ベクトルを得る演算を表す。すなわち、Ｍｅｌ［（・）］の演算結果はベクトル（・）に対応するＢ次元ベクトルとなる。Ｂ＝６４である。ｌｎ（・）はベクトル（・）の各要素を当該各要素の自然対数に置き換える演算を表す。すなわち、ｌｎ（・）の演算結果はベクトル（・）の各要素の自然対数を各要素とするベクトルである。また、記載表記の制約上、式（９）の左辺をｓ＾_ｔ，Ｄと表記し、式（１０）の左辺をｎ＾_ｔ，Ｄと表記する場合がある。

また、この音響特徴量φ_ｔは、以下の手順で得られてもよい。
１．サンプリング周波数sｆ１（第１周波数）の観測信号Ｘ_ｔ，ｆ ^（ｍ）をサンプリング周波数sｆ２（第２周波数）にダウンサンプリングしたＸ_{ｔ，ｆ，Ｄ} ^（ｍ）（ｍ∈｛０，…，Ｍ｝）を用い、式（２）（７）に従い、サンプリング周波数sｆ２にダウンサンプリングされたＳ＾_{ｔ，ｆ，Ｄ}およびＮ＾_{ｔ，ｆ，Ｄ}を計算する。ただし、ｓｆ２＜ｓｆ１である。
２．Ｓ＾_{ｔ，ｆ，Ｄ}およびＮ＾_{ｔ，ｆ，Ｄ}をサンプリング周波数sｆ１のＳ＾_ｔ，ｆおよびＮ＾_ｔ，ｆにアップサンプリングする。
３．アップサンプリングされた状態で、Ｓ＾_{ｔ，ｆ，Ｄ}およびＮ＾_{ｔ，ｆ，Ｄ}に代えてＳ＾_ｔ，ｆおよびＮ＾_ｔ，ｆを用い、式（９）（１０）に従って、ｓ＾_ｔ，Ｄおよびｎ＾_ｔ，Ｄに代えてｓ＾_ｔおよびｎ＾_ｔを計算する。さらに、ｓ＾_ｔからナイキスト周波数以下の帯域の要素だけを取り出したものをｓ＾_ｔ，Ｌとし、ｎ＾_ｔからナイキスト周波数以下の帯域の要素だけを取り出したものをｎ＾_ｔ，Ｌとする。
４．ｓ＾_ｔ，Ｄおよびｎ＾_ｔ，Ｄに代えてｎ＾_ｔ，Ｌおよびｎ＾_ｔ，Ｌを用い、式（８）に従って音響特徴量φ_ｔを計算する。

この場合、アップサンプリング後のサンプリング周波数sｆ１が１６ｋＨｚである場合、音響特徴量φ_ｔの次元数は以下のようになる。
40 [点] ×(1+5+5) [フレーム] × 2[近接+遠方の２チャンネル] = 880 [次元] (11)
前述のように、観測信号をそのままニューラルネットワークの入力とする場合には、音響特徴量の次元数がマイクロホンの個数Ｍ＋１チャネル（式（６）の例では３３チャネル）に対応し、非常に大きな値となる（式（６）の例では９３２９１次元）。これに対し、式（８）のように近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}に対応する値と遠距離音響信号Ｎ＾_{ｔ，ｆ，Ｄ}の推定値に対応する値とを関連付けた音響特徴量φ_ｔの次元数は、マイクロホンＭ＋１の数にかかわらず、Ｓ＾_{ｔ，ｆ，Ｄ}およびＮ＾_{ｔ，ｆ，Ｄ}の２チャネルに対応し、比較的小さな値となる（式（１１）の例では８８０次元）。例えば、式（６）（１１）を比較すると、式（８）の音響特徴量φ_ｔの次元数は、観測信号をそのままニューラルネットワークの入力とする場合に比べて１００分の１以下となる。

以上のように得られた音響特徴量φ_ｔを学習データとして用い、前述した式（５）のパラメータΘを学習する。例えば、与えられた近距離音響信号Ｓ_ｔ，ｆ ^（０）および観測信号Ｘ_ｔ，ｆ ^（０）ならびに観測信号Ｘ_ｔ，ｆ ^（ｍ）から得た音響特徴量φ_ｔを学習データとして用い、以下の関数値Ｊ（Θ）を最小化するパラメータΘを学習する。

ただし、

である。α○βはベクトルαおよびベクトルβの互いに同じ位置の要素を互いに乗じたものを要素とするベクトルを得る演算（要素ごとの乗算）を表す。すなわち、α＝（α_１，…，α_Ｆ）^Ｔおよびβ＝（β_１，…，β_Ｆ）^Ｔとすると、α○β＝（α_１β_１，…，α_Ｆβ_Ｆ）^Ｔである。また、||α||_ｑはＬ_ｑノルムである。

以上のように得られたパラメータΘを用いることで、新たにＭ＋１個のマイクロホンで収音され、サンプリングされ、さらに時間周波数領域に変換して得られるＸ_ｔ，ｆ ^（ｍ）（ｍ∈｛０，…，Ｍ｝）に対する音響信号分離が可能となる。すなわち、パラメータΘと新たに得られたＸ_ｔ，ｆ ^（ｍ）から計算された音響特徴量φ_ｔとを用い、式（５）に従ってＧ_ｔ＝（Ｇ_ｔ，１，…，Ｇ_ｔ，Ｆ）^Ｔを得、さらに式（３）に従ってＳ＾_ｔ，ｆを計算できる。

［第１実施形態］
第１実施形態を説明する。
＜構成＞
図１に例示するように、本実施形態の音響信号分離システム１は、学習装置１１と音響信号分離装置１２と球面マイクロホンアレイ１３とを有する。

≪学習装置１１≫
図２に例示するように、本実施形態の学習装置１１は、設定部１１１、記憶部１１２、ランダムサンプリング部１１３、ダウンサンプリング部１１４−ｍ（ｍ∈｛０，…，Ｍ｝）、関数演算部１１５，１１６、特徴量計算部１１７、学習部１１８、および制御部１１９を有する。

≪音響信号分離装置１２≫
図３に例示するように、本実施形態の音響信号分離装置１２は、設定部１２１、信号処理部１２３、ダウンサンプリング部１２４−ｍ（ｍ∈｛０，…，Ｍ｝）、関数演算部１２５，１２６、特徴量計算部１２７、およびフィルタ部１２８を有する。

≪球面マイクロホンアレイ１３≫
球面マイクロホンアレイ１３は、半径ｒの球の中心に配置された０番目のマイクロホンと、当該球の球面上に等間隔に配置された１からＭ番目までのマイクロホンとを有する。

＜学習処理＞
次に、図４を用いて本実施形態の学習処理を説明する。
前処理として、単数または複数の任意の近接音源から発せられた近接音を球面マイクロホンアレイ１３のＭ＋１個のマイクロホンで収音することで得られた近距離音響信号をサンプリング周波数ｓｆ１でサンプリングし、さらに時間周波数領域に変換して得られた時間周波数領域の近距離音響信号Ｓ_ｔ，ｆ ^（ｍ）（ｍ∈｛０，…，Ｍ｝）を得る。近接音源をランダムに選択しながらこのようなＳ_ｔ，ｆ ^（ｍ）を複数個取得し、それらからなる集合Ｓを構成する。同様に、単数または複数の任意の遠方音源から発せられた遠方音を球面マイクロホンアレイ１３のＭ＋１個のマイクロホンで収音することで得られた遠距離音響信号をサンプリング周波数ｓｆ１でサンプリングし、さらに時間周波数領域に変換して得られた時間周波数領域の遠距離音響信号Ｎ_ｔ，ｆ ^（ｍ）（ｍ∈｛０，…，Ｍ｝）を得る。遠方音源をランダムに選択しながらこのようなＮ_ｔ，ｆ ^（ｍ）を複数個取得し、それらからなる集合Ｎを構成する。また、各種パラメータｐ（例えば、Ｍ，Ｆ，Ｔ，Ｃ，Ｂ，ｒ，ｓｆ１，ｓｆ２や学習に必要なパラメータなど）が設定される。前処理で得られたＳ，Ｎ，ｐは学習装置１１（図２）の設定部１１１に入力される。集合Ｓ，Ｎは記憶部１１２に格納され、各種パラメータｐは学習装置１１の各部に設定される（ステップＳ１１１）。

ランダムサンプリング部１１３は、記憶部１１２に格納された集合Ｓ，Ｎから、Ｔ＋２Ｃ個以上の時間区間（フレーム）ｔについての近距離音響信号｛Ｓ_ｔ，ｆ ^（０），…，Ｓ_ｔ，ｆ ^（Ｍ）｝および遠距離音響信号｛Ｎ_ｔ，ｆ ^（０），…，Ｎ_ｔ，ｆ ^（Ｍ）｝をランダムに選択し（ｆ∈｛１，…，Ｆ｝）、それらを重畳することで観測信号｛Ｘ_ｔ，ｆ ^（０），…，Ｘ_ｔ，ｆ ^（Ｍ）｝を得るシミュレーションを行い、それによって得た観測信号Ｘ_ｔ，ｆ ^（ｍ）（ｍ∈｛０，…，Ｍ｝）を出力する（ステップＳ１１３）。

ステップＳ１１３で得られた各観測信号Ｘ_ｔ，ｆ ^（ｍ）は各ダウンサンプリング部１１４−ｍに入力される。ダウンサンプリング部１１４−ｍは、観測信号Ｘ_ｔ，ｆ ^（ｍ）をサンプリング周波数sｆ２の観測信号Ｘ_{ｔ，ｆ，Ｄ} ^（ｍ）（複数のマイクロホンで収音された信号に由来する第２音響信号）にダウンサンプリングして出力する（ステップＳ１１４）。

ステップＳ１１４で得られた観測信号Ｘ_{ｔ，ｆ，Ｄ} ^（０），…，Ｘ_{ｔ，ｆ，Ｄ} ^（Ｍ）は関数演算部１１５に入力される。関数演算部１１５は、式（２）（所定の関数）に従って、観測信号Ｘ_{ｔ，ｆ，Ｄ} ^（０），…，Ｘ_{ｔ，ｆ，Ｄ} ^（Ｍ）から近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}（複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値）を得て出力する（ステップＳ１１５）。

ステップＳ１１４で得られた観測信号Ｘ_{ｔ，ｆ，Ｄ} ^（０）およびステップＳ１１５で得られた近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}は、関数演算部１１６に入力される。関数演算部１１６は、式（７）に従ってＸ_{ｔ，ｆ，Ｄ} ^（０）およびＳ＾_{ｔ，ｆ，Ｄ}から遠距離音響信号の推定値Ｎ＾_{ｔ，ｆ，Ｄ}（複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値）を得て出力する（ステップＳ１１６）。

ステップＳ１１５で得られた近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}およびステップＳ１１６で得られた遠距離音響信号の推定値Ｎ＾_{ｔ，ｆ，Ｄ}は、特徴量計算部１１７に入力される。特徴量計算部１１７は、式（８）（９）（１０）に従って、前述の音響特徴量φ_ｔ（近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}に対応する値ｓ＾_ｔ，Ｄと、遠距離音響信号の推定値Ｎ＾_{ｔ，ｆ，Ｄ}に対応する値ｎ＾_ｔ，Ｄと、を関連付けた音響特徴量）を計算して出力する（ステップＳ１１７）。

ステップＳ１１７で得られた音響特徴量φ_ｔおよび当該音響特徴量φ_ｔに対応するＳ_ｔ，ｆ ^（０）およびＸ_ｔ，ｆ ^（０）（ｔ∈｛１，…，Ｔ｝，ｆ∈｛１，…，Ｆ｝）が、学習データとして学習部１１８に入力される。学習部１１８は、これらを用い、公知の学習法を用いて、式（１２）の関数値Ｊ（Θ）を最小化するようにパラメータΘ（フィルタに対応する情報）を学習する。学習法には、例えば、確率的最急降下法などを利用すればよく、その学習率は１０^−５程度に設定すればよい（ステップＳ１１８）。

制御部１１９は、収束判定を行い、収束条件を充足したか否かを判定する。収束条件の例は、一定回数（例えば、１０万回）の学習を繰り返したこと、各学習で得られたパラメータΘの変化量が一定範囲内であったことなどである。制御部１１９が収束条件を充足していないと判定した場合、ステップＳ１１３の処理に戻る。一方、制御部１１９が収束条件を充足したと判定した場合、学習部１１８は収束条件を充足したパラメータΘを出力する。このパラメータΘと式（５）とを用いることで、未知の音響特徴量φ_ｔに対応する時間周波数マスクＧ_ｔ，１，…，Ｇ_ｔ，Ｆを得ることができる（ステップＳ１１９）。

＜分離処理＞
次に、図５を用いて本実施形態の分離処理を説明する。前処理として、パラメータｐ’（例えば、学習に必要なパラメータを除き、前述したパラメータｐと同一）が設定部１２１に入力され、ステップＳ１１９で出力されたパラメータΘがフィルタ部１２８に入力される。パラメータｐ’は音響信号分離装置１２の各部に設定され、パラメータΘはフィルタ部１２８に設定される。その後、各時間区間ｔについて以下の各処理が実行される。

単数または複数の任意の音源から発せられた音が球面マイクロホンアレイ１３のＭ＋１個（複数）のマイクロホンで収音され、それによって得られた信号が信号処理部１２３に送られる（ステップＳ１２１）。信号処理部１２３は、各ｍ∈｛０，…，Ｍ｝番目のマイクロホンで取得された信号をサンプリング周波数ｓｆ１でサンプリングし、さらに時間周波数領域に変換して時間周波数領域の観測信号Ｘ’_ｔ，ｆ ^（ｍ）（ｍ∈｛０，…，Ｍ｝）（複数のマイクロホンで収音された信号に由来する第２音響信号）を得て出力する（ステップＳ１２３）。

ステップＳ１２３で得られた各観測信号Ｘ’_ｔ，ｆ ^（ｍ）は各ダウンサンプリング部１２４−ｍに入力される。ダウンサンプリング部１２４−ｍは、観測信号Ｘ’_ｔ，ｆ ^（ｍ）をサンプリング周波数sｆ２の観測信号Ｘ’_{ｔ，ｆ，Ｄ} ^（ｍ）（複数のマイクロホンで収音された信号に由来する第２音響信号）にダウンサンプリングして出力する（ステップＳ１２４）。

ステップＳ１２４で得られた観測信号Ｘ’_{ｔ，ｆ，Ｄ} ^（０），…，Ｘ’_{ｔ，ｆ，Ｄ} ^（Ｍ）は関数演算部１２５に入力される。関数演算部１２５は、

（所定の関数）に従って、観測信号Ｘ’_{ｔ，ｆ，Ｄ} ^（０），…，Ｘ’_{ｔ，ｆ，Ｄ} ^（Ｍ）から近距離音響信号の推定値Ｓ＾’_{ｔ，ｆ，Ｄ}（複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値）を得て出力する。なお、記載表記の制約上、式（１５）の左辺をＳ＾’_{ｔ，ｆ，Ｄ}と表記する（ステップＳ１２５）。

ステップＳ１２４で得られた観測信号Ｘ’_{ｔ，ｆ，Ｄ} ^（０）およびステップＳ１２５で得られた近距離音響信号の推定値Ｓ＾’_{ｔ，ｆ，Ｄ}は、関数演算部１２６に入力される。関数演算部１２６は、

に従ってＸ’_{ｔ，ｆ，Ｄ} ^（０）およびＳ＾’_{ｔ，ｆ，Ｄ}から遠距離音響信号の推定値Ｎ＾’_{ｔ，ｆ，Ｄ}（複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値）を得て出力する。なお、記載表記の制約上、式（１６）の左辺をＮ＾’_{ｔ，ｆ，Ｄ}と表記する（ステップＳ１２６）。

ステップＳ１２５で得られた近距離音響信号の推定値Ｓ＾’_{ｔ，ｆ，Ｄ}およびステップＳ１２６で得られた遠距離音響信号の推定値Ｎ＾’_{ｔ，ｆ，Ｄ}は、特徴量計算部１２７に入力される。特徴量計算部１２７は、以下の式（１７）（１８）（１９）に従って、音響特徴量φ’_ｔ（近距離音響信号の推定値Ｓ＾’_{ｔ，ｆ，Ｄ}に対応する値ｓ＾’_ｔ，Ｄと、遠距離音響信号の推定値Ｎ＾’_{ｔ，ｆ，Ｄ}に対応する値ｎ＾’_ｔ，Ｄと、を関連付けた音響特徴量）を計算して出力する。

なお、記載表記の制約上、式（１８）（１９）の左辺をｓ＾’_ｔ，Ｄ，ｎ＾’_ｔ，Ｄとそれぞれ表記する（ステップＳ１２７）。

ステップＳ１２３で得られた各観測信号Ｘ’_ｔ，ｆ ^（０）、およびステップＳ１２７で得られた音響特徴量φ’_ｔはフィルタ部１２８に入力される。フィルタ部１２８は、前述のパラメータΘを用い、時間周波数マスクＧ_ｔ，１，…，Ｇ_ｔ，Ｆを縦に並べたベクトルＧ_ｔ＝（Ｇ_ｔ，１，…，Ｇ_ｔ，Ｆ）^Ｔを以下のように計算する。

このように得られる時間周波数マスクＧ_ｔ，１，…，Ｇ_ｔ，Ｆは、複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}（Ｓ＾’_{ｔ，ｆ，Ｄ}）に対応する値ｓ＾_ｔ，Ｄ（ｓ＾’_ｔ，Ｄ）と、複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値Ｎ＾_{ｔ，ｆ，Ｄ}（Ｎ＾’_{ｔ，ｆ，Ｄ}）に対応する値ｎ＾_ｔ，Ｄ（ｎ＾’_ｔ，Ｄ）と、を関連付けることで得られるフィルタ（非線形フィルタ）である。さらにフィルタ部１２８は、時間周波数マスクＧ_ｔ，ｆ（ｆ∈｛０，…，Ｆ｝）を用い、観測信号Ｘ’_ｔ，ｆ ^（０）（特定のマイクロホンで収音された信号に由来する第１音響信号）から、以下のように、近距離音響信号の推定値Ｓ＾’_ｔ，ｆ（特定のマイクロホンに近い距離から発せられた音を表す所望の音響信号）を取得して出力する。

なお、本形態では、時間周波数マスクＧ_ｔ，ｆのサンプリング周波数がｓｆ２のままであるため、式（２１）の計算を行う前に、時間周波数マスクＧ_ｔ，ｆをサンプリング周波数ｓｆ１またはその近傍にアップサンプリングすることが望ましい（ステップＳ１２８）。出力されたＳ＾_ｔ，ｆは時間領域の信号に変換されてもよいし、時間領域の信号に変換されることなく他の処理に用いられてもよい。

［第１実施形態の変形例１］
第１実施形態のステップＳ１２８では、音響信号分離装置１２のフィルタ部１２８が、時間周波数マスクＧ_ｔ，ｆを用い、観測信号Ｘ’_ｔ，ｆ ^（０）から近距離音響信号の推定値Ｓ＾_ｔ，ｆを取得して出力した（式（２１））。しかし、音響信号分離装置１２がフィルタ部１２８に代えてフィルタ部１２８’を備え、フィルタ部１２８’が時間周波数マスクＧ_ｔ，ｆを用い、以下のように観測信号Ｘ’_ｔ，ｆ ^（０）から遠距離音響信号の推定値Ｎ＾’_ｔ，ｆ（特定のマイクロホンから遠い距離から発せられた音を表す所望の音響信号）を取得して出力してもよい。

または、音響信号分離装置１２がフィルタ部１２８に加えてフィルタ部１２８’を備え、フィルタ部１２８が前述のように式（２１）に従って近距離音響信号の推定値Ｓ＾_ｔ，ｆを取得して出力し、フィルタ部１２８’が上述のように式（２２）に従って遠距離音響信号の推定値Ｎ＾’_ｔ，ｆを取得して出力してもよい。または、フィルタ部１２８が距離音響信号の推定値Ｓ＾’_ｔ，ｆを取得して出力するか、または、フィルタ部１２８’が遠距離音響信号の推定値Ｎ＾’_ｔ，ｆを取得して出力するかが、入力に基づいて選択可能であってもよい（ステップＳ１２８’）。

［第１実施形態の変形例２］
第１実施形態のステップＳ１１８では、学習装置１１の学習部１１８が式（１２）の関数値Ｊ（Θ）を最小化するようにパラメータΘ（フィルタに対応する情報）を学習した。しかし、学習装置１１が学習部１１８に代えて学習部１１８”を備え、学習部１１８”が、ステップＳ１１７で得られた音響特徴量φ_ｔおよび当該音響特徴量φ_ｔに対応するＮ_ｔ，ｆ ^（０）およびＸ_ｔ，ｆ ^（０）（ｔ∈｛１，…，Ｔ｝，ｆ∈｛１，…，Ｆ｝）を学習データとして用い、公知の学習法を用いて、以下のように関数値Ｊ（Θ）を最小化するようにパラメータΘ（フィルタに対応する情報）を学習してもよい（ステップＳ１１８”）。

この場合、音響信号分離装置１２のフィルタ部１２８が時間周波数マスクＧ_ｔ，ｆを用い、以下のように観測信号Ｘ’_ｔ，ｆ ^（０）から遠距離音響信号の推定値Ｎ＾’_ｔ，ｆを取得して出力してもよい。

または、音響信号分離装置１２のフィルタ部１２８’が時間周波数マスクＧ_ｔ，ｆを用い、以下のように観測信号Ｘ’_ｔ，ｆ ^（０）から近距離音響信号の推定値Ｓ＾’_ｔ，ｆを取得して出力してもよい。

または、音響信号分離装置１２がフィルタ部１２８に加えてフィルタ部１２８’を備え、フィルタ部１２８が前述のように式（２５）に従って遠距離音響信号の推定値Ｎ＾’_ｔ，ｆを取得して出力し、フィルタ部１２８’が上述のように式（２６）に従って近距離音響信号の推定値Ｓ＾’_ｔ，ｆを取得して出力してもよい。または、フィルタ部１２８が遠距離音響信号の推定値Ｎ＾’_ｔ，ｆを取得して出力するか、または、フィルタ部１２８’が近距離音響信号の推定値Ｓ＾’_ｔ，ｆを取得して出力するかが、入力に基づいて選択可能であってもよい。

［第２実施形態］
第２実施形態を説明する。本実施形態は第１実施形態の変形例であり、音響特徴量の計算前にアップサンプリングが行われる点のみが第１実施形態と相違する。以下では第１実施形態との相違点を中心に説明を行い、第１実施形態と共通する事項については同じ参照番号を用いて説明を簡略化する。

＜構成＞
図１に例示するように、本実施形態の音響信号分離システム２は、学習装置２１と音響信号分離装置２２と球面マイクロホンアレイ１３とを有する。

≪学習装置２１≫
図２に例示するように、本実施形態の学習装置２１は、設定部１１１、記憶部１１２、ランダムサンプリング部１１３、ダウンサンプリング部１１４−ｍ（ｍ∈｛０，…，Ｍ｝）、関数演算部１１５，１１６、特徴量計算部２１７、学習部１１８、および制御部１１９を有する。

≪音響信号分離装置２２≫
図３に例示するように、本実施形態の音響信号分離装置２２は、設定部１２１、信号処理部１２３、ダウンサンプリング部１２４−ｍ（ｍ∈｛０，…，Ｍ｝）、関数演算部１２５，１２６、特徴量計算部２２７、およびフィルタ部１２８を有する。

＜学習処理＞
次に、図４を用いて本実施形態の学習処理を説明する。第１実施形態の学習処理との相違点はステップＳ１１７が以下のステップＳ２１７に置換される点のみである。その他は、第１実施形態もしくは第１実施形態の変形例１または２の学習処理と同一である。

≪ステップＳ２１７≫
ステップＳ１１５で得られた近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}およびステップＳ１１６で得られた遠距離音響信号の推定値Ｎ＾_{ｔ，ｆ，Ｄ}は、特徴量計算部２１７に入力される。特徴量計算部２１７は、Ｓ＾_{ｔ，ｆ，Ｄ}およびＮ＾_{ｔ，ｆ，Ｄ}をサンプリング周波数sｆ１のＳ＾_ｔ，ｆおよびＮ＾_ｔ，ｆにアップサンプリングする。その後、特徴量計算部２１７は、アップサンプリングされた状態で、Ｓ＾_{ｔ，ｆ，Ｄ}およびＮ＾_{ｔ，ｆ，Ｄ}に代えてＳ＾_ｔ，ｆおよびＮ＾_ｔ，ｆを用い、式（９）（１０）に従って、ｓ＾_ｔ，Ｄおよびｎ＾_ｔ，Ｄに代えてｓ＾_ｔおよびｎ＾_ｔを計算する。さらに、特徴量計算部２１７は、ｓ＾_ｔからナイキスト周波数以下の帯域の要素だけを取り出したものをｓ＾_ｔ，Ｌとし、ｎ＾_ｔからナイキスト周波数以下の帯域の要素だけを取り出したものをｎ＾_ｔ，Ｌとする。特徴量計算部２１７は、ｓ＾_ｔ，Ｄおよびｎ＾_ｔ，Ｄに代えてｎ＾_ｔ，Ｌおよびｎ＾_ｔ，Ｌを用い、式（８）に従って音響特徴量φ_ｔ（近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}に対応する値ｓ＾_ｔ，Ｌと、遠距離音響信号の推定値Ｎ＾_{ｔ，ｆ，Ｄ}に対応する値ｎ＾_ｔ，Ｌと、を関連付けた音響特徴量）を計算して出力する。

＜分離処理＞
次に、図５を用いて本実施形態の分離処理を説明する。第１実施形態の分離処理との相違点はステップＳ１２７が以下のステップＳ２２７に置換される点のみである。その他は、第１実施形態の分離処理と同一である。

≪ステップＳ２２７≫
ステップＳ１２５で得られた近距離音響信号の推定値Ｓ＾’_{ｔ，ｆ，Ｄ}およびステップＳ１２６で得られた遠距離音響信号の推定値Ｎ＾’_{ｔ，ｆ，Ｄ}は、特徴量計算部２２７に入力される。特徴量計算部２２７は、Ｓ＾’_{ｔ，ｆ，Ｄ}およびＮ＾’_{ｔ，ｆ，Ｄ}をサンプリング周波数sｆ１のＳ＾’_ｔ，ｆおよびＮ＾’_ｔ，ｆにアップサンプリングする。その後、特徴量計算部２２７は、アップサンプリングされた状態で、Ｓ＾’_{ｔ，ｆ，Ｄ}およびＮ＾’_{ｔ，ｆ，Ｄ}に代えてＳ’＾_ｔ，ｆおよびＮ’＾_ｔ，ｆを用い、式（１８）（１０）に従って、ｓ＾’_ｔ，Ｄおよびｎ＾’_ｔ，Ｄに代えてｓ＾’_ｔおよびｎ＾’_ｔを計算する。さらに、特徴量計算部２２７は、ｓ＾’_ｔからナイキスト周波数以下の帯域の要素だけを取り出したものをｓ＾’_ｔ，Ｌとし、ｎ＾’_ｔからナイキスト周波数以下の帯域の要素だけを取り出したものをｎ＾’_ｔ，Ｌとする。特徴量計算部２２７は、ｓ＾’_ｔ，Ｄおよびｎ＾’_ｔ，Ｄに代えてｎ＾’_ｔ，Ｌおよびｎ＾’_ｔ，Ｌを用い、式（１７）に従って音響特徴量φ’_ｔ（近距離音響信号の推定値Ｓ＾’_{ｔ，ｆ，Ｄ}に対応する値ｓ＾’_ｔ，Ｌと、遠距離音響信号の推定値Ｎ＾’_{ｔ，ｆ，Ｄ}に対応する値ｎ＾’_ｔ，Ｌと、を関連付けた音響特徴量）を計算して出力する。

［まとめ］
第１，２実施形態およびそれらの変形例の学習装置は、「複数のマイクロホン」で収音された信号に由来する第２音響信号（観測信号Ｘ_{ｔ，ｆ，Ｄ} ^（ｍ））から「所定の関数」（式（２））を用いて得られる、「複数のマイクロホン」に近い距離から発せられた近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}に対応する値と、「複数のマイクロホン」から遠い距離から発せられた遠距離音響信号の推定値Ｎ＾_{ｔ，ｆ，Ｄ}に対応する値と、を関連付けた学習データ（音響特徴量φ_ｔ）を用い、「特定のマイクロホン」で収音された信号に由来する第１音響信号（観測信号Ｘ’_ｔ，ｆ ^（０））から、「特定のマイクロホン」に近い距離から発せられた音または特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号を分離するためのフィルタ（時間周波数マスクＧ_ｔ，１，…，Ｇ_ｔ，Ｆ）に対応する情報（パラメータΘ）を学習した。なお、「マイクロホンに近い距離」は「マイクロホンから遠い距離」よりも短い。例えば、「マイクロホンに近い距離」は３０ｃｍ以下の距離であり、「マイクロホンから遠い距離」は１ｍ以上の距離である。例えば、近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}は、第２音響信号と「所定の関数」とを用いて得られ（式（２））、遠距離音響信号の推定値Ｎ＾_{ｔ，ｆ，Ｄ}は、第２音響信号と近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}とを用いて得られる（式（７））。

また、第１音響信号（観測信号Ｘ’_ｔ，ｆ ^（０））から所望の音響信号を分離する音響信号分離装置では、「複数のマイクロホン」で収音された信号に由来する第２音響信号（観測信号Ｘ_{ｔ，ｆ，Ｄ} ^（ｍ），Ｘ’_ｔ，ｆ ^（０））から「所定の関数」を用いて得られる、「複数のマイクロホン」に近い距離から発せられた近距離音響信号の推定値（Ｓ＾_{ｔ，ｆ，Ｄ}，Ｓ＾’_{ｔ，ｆ，Ｄ}）に対応する値と、複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値（Ｎ＾_{ｔ，ｆ，Ｄ}，Ｎ＾’_{ｔ，ｆ，Ｄ}）に対応する値と、を関連付けることで得られるフィルタ（近距離音響信号の推定値に対応する値と遠距離音響信号の推定値に対応する値とを関連付けた学習データを用いた学習によって得られる情報に基づくフィルタである、時間周波数マスクＧ_ｔ，１，…，Ｇ_ｔ，Ｆ）を用い、「特定のマイクロホン」で収音された信号に由来する第１音響信号（観測信号Ｘ’_ｔ，ｆ ^（０））から、「特定のマイクロホン」に近い距離から発せられた音または「特定のマイクロホン」から遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号（Ｓ＾’_ｔ，ｆおよび／またはＮ＾’_ｔ，ｆ）を取得した。

前述のように、各実施形態で学習データとして用いる音響特徴量φ_ｔの次元数は、近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}に対応する値と遠距離音響信号Ｎ＾_{ｔ，ｆ，Ｄ}の推定値に対応する値とを関連付けたものであり、マイクロホンＭ＋１の数にかかわらず、Ｓ＾_{ｔ，ｆ，Ｄ}およびＮ＾_{ｔ，ｆ，Ｄ}の２チャネルに対応するものとなる。そのため、各実施形態では、マイクロホンＭ＋１での観測信号をそのまま学習データとして用いる場合に比べ、学習データの次元数を大幅に削減できる。その結果、マイクロホンＭ＋１での観測信号をそのまま学習データとして用いる場合に比べ、学習データのデータ量を削減し、学習時間を大幅に短縮できる。また、音響特徴量φ_ｔは「所定の関数」を用いて得られるが、この「所定の関数」は「複数のマイクロホン」に近い距離から発せられた音が球面波として、「複数のマイクロホン」から遠い距離から発せられた音が平面波として、「複数のマイクロホン」に収音されると近似されることを利用した関数である。このように得られる音響特徴量φ_ｔは、近距離音響信号と遠距離音響信号とを見分けるための手がかりを含んだものであり、Ｇ_ｔ＝（Ｇ_ｔ，１，…，Ｇ_ｔ，Ｆ）^Ｔとの相互情報量が大きい。そのため、このような音響特徴量φ_ｔを学習データとして用いることで高精度でフィルタ（時間周波数マスクＧ_ｔ，１，…，Ｇ_ｔ，Ｆ）を推定でき、音源からマイクロホンまでの距離の違いに基づいて高精度に音響信号を分離できる。また、フィルタ（時間周波数マスクＧ_ｔ，１，…，Ｇ_ｔ，Ｆ）の学習には低域の周波数の音響特徴量しか利用できないとしても、学習によって得られたフィルタを高域の周波数で利用することは可能である。そのため、このようなフィルタを用いて得られた音響信号分離を、音声認識などの音響信号を扱うアプリケーションの前処理として利用することもできる。

第１音響信号（観測信号Ｘ’_ｔ，ｆ ^（０））のサンプリング周波数はｓｆ１（第１周波数）であり、第２音響信号（観測信号Ｘ_{ｔ，ｆ，Ｄ} ^（ｍ））のサンプリング周波数はｓｆ２（第２周波数）であり、ｓｆ２（第２周波数）はｓｆ１（第１周波数）よりも低い。第２実施形態およびその変形例では、近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}および遠距離音響信号の推定値Ｎ＾_{ｔ，ｆ，Ｄ}のサンプリング周波数はｓｆ２（第２周波数）であるが、近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}に対応する値および遠距離音響信号の推定値Ｎ＾_{ｔ，ｆ，Ｄ}に対応する値のサンプリング周波数はｓｆ１（第１周波数）にアップサンプリングされている。そのため、学習に基づいて得られたフィルタ（時間周波数マスクＧ_ｔ，１，…，Ｇ_ｔ，Ｆ）のサンプリング周波数を第１音響信号（観測信号Ｘ’_ｔ，ｆ ^（０））に一致させることができ、フィルタリング処理を簡易化できる。なお、近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}および遠距離音響信号の推定値Ｎ＾_{ｔ，ｆ，Ｄ}のサンプリング周波数がｓｆ２（第２周波数）の近傍であってもよいし、近距離音響信号の推定値Ｓ＾_{ｔ，ｆ，Ｄ}に対応する値および遠距離音響信号の推定値Ｎ＾_{ｔ，ｆ，Ｄ}に対応する値のサンプリング周波数がｓｆ１（第１周波数）の近傍にアップサンプリングされてもかまわない。

なお、本発明は上述の実施形態に限定されるものではない。例えば、ＤＮＮ以外のモデルを用いてフィルタの学習および適用が行われてもよい。また、学習装置の機能と音響信号分離装置の機能とを含む単一の装置が設けられてもよい。上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

上記の各装置は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）およびＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

例えば、上述したマイクロホンに遠い距離から発せられた音を分離する技術をスマートスピーカーなどに適用した場合、スマートスピーカーなどがテレビの傍に置かれていたとしても、テレビの音声を抑圧して遠方の音声等を明確に抽出でき、音声認識や通話などの品質を向上させることができる。

例えば、上述したマイクロホンから近い距離から発せられた音を分離する技術を工場における異常音検知装置に適用し、この異常音検知装置を監視対象機器の傍に配置した場合、別のセクションなどから到来する雑音を抑圧し、監視対象機器の音だけを抽出できるようになり、異常音検知装置による検出精度を向上させることができる。

１音響信号分離システム
１１，２１学習装置
１２，２２音響信号分離装置

Claims

第１音響信号から所望の音響信号を分離する音響信号分離装置であって、
複数のマイクロホンで収音された信号に由来する第２音響信号から所定の関数を用いて得られる、前記複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値に対応する値と、前記複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値に対応する値と、を関連付けることで得られるフィルタを用い、
特定のマイクロホンで収音された信号に由来する前記第１音響信号から、
前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す前記所望の音響信号を取得するフィルタ部を有し、
前記所定の関数は、
前記複数のマイクロホンに近い距離から発せられた音が球面波として、
前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
前記複数のマイクロホンに収音されると近似されることを利用した関数である
音響信号分離装置。
請求項１の音響信号分離装置であって、
前記近距離音響信号の推定値は、前記第２音響信号と前記所定の関数とを用いて得られ、
前記遠距離音響信号の推定値は、前記第２音響信号と前記近距離音響信号の推定値とを用いて得られる、音響信号分離装置。
請求項１または２の音響信号分離装置であって、
前記第１音響信号のサンプリング周波数は第１周波数であり、
前記第２音響信号のサンプリング周波数は第２周波数であり、
第２周波数は前記第１周波数よりも低く、
前記近距離音響信号の推定値および前記遠距離音響信号の推定値のサンプリング周波数は、前記第２周波数または前記第２周波数の近傍であり、
前記近距離音響信号の推定値に対応する値および前記遠距離音響信号の推定値に対応する値のサンプリング周波数は、前記第１周波数または前記第１周波数の近傍である、音響信号分離装置。
請求項１から３の何れかの音響信号分離装置であって、
前記フィルタは、前記近距離音響信号の推定値に対応する値と前記遠距離音響信号の推定値に対応する値とを関連付けた学習データを用いた学習によって得られる情報に基づく、音響信号分離装置。
複数のマイクロホンで収音された信号に由来する第２音響信号から所定の関数を用いて得られる、前記複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値に対応する値と、前記複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値に対応する値と、を関連付けた学習データを用い、
特定のマイクロホンで収音された信号に由来する第１音響信号から、前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号を分離するためのフィルタに対応する情報を学習する学習部を有し、
前記所定の関数は、
前記複数のマイクロホンに近い距離から発せられた音が球面波として、
前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
前記複数のマイクロホンに収音されると近似されることを利用した関数である
学習装置。
第１音響信号から所望の音響信号を分離する音響信号分離方法であって、
複数のマイクロホンで収音された信号に由来する第２音響信号から所定の関数を用いて得られる、前記複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値に対応する値と、前記複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値に対応する値と、を関連付けることで得られるフィルタを用い、
特定のマイクロホンで収音された信号に由来する前記第１音響信号から、
前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す前記所望の音響信号を取得するステップを有し、
前記所定の関数は、
前記複数のマイクロホンに近い距離から発せられた音が球面波として、
前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
前記複数のマイクロホンに収音されると近似されることを利用した関数である
音響信号分離方法。
複数のマイクロホンで収音された信号に由来する第２音響信号から所定の関数を用いて得られる、前記複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値に対応する値と、前記複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値に対応する値と、を関連付けた学習データを用い、
特定のマイクロホンで収音された信号に由来する第１音響信号から、前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号を分離するためのフィルタに対応する情報を学習するステップを有し、
前記所定の関数は、
前記複数のマイクロホンに近い距離から発せられた音が球面波として、
前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
前記複数のマイクロホンに収音されると近似されることを利用した関数である
学習方法。
請求項１から４の何れかの音響信号分離装置または請求項５の学習装置としてコンピュータを機能させるためのプログラム。