JP6734237B2

JP6734237B2 - 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム

Info

Publication number: JP6734237B2
Application number: JP2017156812A
Authority: JP
Inventors: 卓哉樋口; 慶介木下; マークデルクロア; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-08-15
Filing date: 2017-08-15
Publication date: 2020-08-05
Anticipated expiration: 2037-08-15
Also published as: JP2019035851A

Description

本発明は、目的音源推定装置、目的音源推定方法及び目的音源推定プログラムに関する。

従来、音声認識などの応用に適用するため、１つ以上の目的音源から出た音響信号と、背景雑音や干渉音が混ざった観測信号とを基に、各目的音源を推定する装置が提案されている（例えば、非特許文献１〜３参照）。目的音源を最適に推定することによって、精度のよい音声認識が可能になり、また、観測した音を、人間の聞き取りやすい音にすることができる。

J. R. Hershey, Z. Chen, J. Le Roux, and S. Watanabe, "DEEP CLUSTERING: DISCRIMINATIVE EMBEDDINGS FOR SEGMENTATION AND SEPARATION", in Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016, pp.31-35. T. Higuchi, N. Ito, S. Araki, T. Yoshioka, M. Delcroix, & T. Nakatani, "Online MVDR Beamformer Based on Complex Gaussian Mixture Model With Spatial Prior for Noise Robust ASR"， IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017. 25(4), pp.780-793. N. Ito, S. Araki, M. Delcroix, and T. Nakatani, "PROBABILISTIC SPATIAL DICTIONARY BASED ONLINE ADAPTIVE BEAMFORMING FOR MEETING RECOGNITION IN NOISY AND REVERBERANT ENVIRONMENTS"， in Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE, 2017, pp.681-685.

従来の目的音源推定装置について説明する。図４は、従来の目的音源推定装置構成の一例を示すブロック図である。図４は、非特許文献１に記載された目的音源推定装置の機能構成を示す。図４に示すように、従来の目的音源推定装置１Ｐは、時間周波数分析部１１Ｐ、特徴量抽出部１２Ｐ、埋め込みベクトル推定部１３Ｐ、クラスタリング部１４Ｐ、マスク推定部１５Ｐ及び目的音源推定部１６Ｐを有する。

時間周波数分析部１１Ｐは、Ｎ（Ｎ＞０）個の目的音源に対応する音響信号が混在する状況において、一つのマイクで収録された観測信号を受け取り、観測信号に時間周波数解析を適用して時間周波数点ごとの観測音響信号を抽出する。特徴量抽出部１２Ｐは、観測音響信号を受け取り、音響特徴量を抽出する。埋め込みベクトル推定部１３Ｐは、音響特徴量を入力として、あらかじめ学習し保持しておいたニューラルネットワークを用いて非線形変換を繰り返すことで、時間周波数点ごとに、Ｄ（ただし、Ｄは整数）次元の埋め込みベクトルを出力する。

クラスタリング部１４Ｐは、埋め込みベクトルを受け取り、音源数Ｎが既知であることを仮定して、それぞれが目的音源のクラスタに対応するＮ個のクラスタに、埋め込みベクトルをクラスタリングする。クラスタリング部１４Ｐは、それぞれの埋め込みベクトルがどのクラスタに所属するかを示すクラスタインデックスを出力する。

マスク推定部１５Ｐは、クラスタインデックスを受け取り、時間周波数点ごとに、その時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを１とし、それ以外の音源のマスクを０とすることで、Ｎ個の目的音源に対応するマスクの推定値を計算する。目的音源推定部１６Ｐは、観測音響信号とマスクを各時間周波数成分において掛け合わせることで、目的音源に対応する目的音源を推定する。

ここで、短時間フーリエ変換などの時間周波数解析を用いて得られる観測音響信号をｙ_ｆ，ｔと表す。ｔとｆは、それぞれ時間と周波数の番号であり、ｔは、１〜Ｔの整数をとり、ｆは、０〜Ｆの整数をとる。非特許文献１では、目的音源はスパース性を有し、時間周波数点でたかだか１つの目的音源が含まれていると仮定されている。このため、各時間周波数点における観測音響信号ｙ_ｆ，ｔは、以下の（１）式でモデル化できるとされている。

ここで、ｘ^（ｎ） _ｆ，ｔは、ｎ番目の目的音源の時間周波数成分である。ｄ_ｆ，ｔはアクティブな音源を表すインデックスであり、ｄ_ｆ，ｔ＝ｎは、時間周波数点（ｆ，ｔ）でｎ番目の音源がアクティブであることを表している。この仮定に基づき、各時間周波数点の観測音響信号ｙ_ｆ，ｔを、各目的音源に対応するそれぞれのクラスタに識別し、それぞれのクラスタに属する成分のみ抽出することで、各クラスタに対応した目的音源を推定することができる。以上の流れで目的音源を推定するために、各時間周波数点の観測音響信号がどれだけ各クラスタに属しているらしいかを、以下の方法で推定する。

まず事前に、埋め込みベクトル推定部１３Ｐは、音響特徴量を入力として、時間周波数点ごとに、Ｄ次元の埋め込みベクトルを出力するニューラルネットワークを学習する。この結果、学習済みのニューラルネットワークに、観測音響信号から得られた音響特徴量を入力することで、時間周波数点ごとに埋め込みベクトルを得ることができる。

クラスタリング部１４Ｐは、得られた埋め込みベクトルを、既知の音源数に基づいてk-meansアルゴリズムを用いてクラスタリングすることで、それぞれが各音源に対応するクラスタを得る。マスク推定部１５Ｐは、この時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを１とし、それ以外の音源のマスクを０とすることで、音源ごとのマスクを時間周波数点ごとに計算することができる。目的音源推定部１６Ｐは、目的音源信号の推定値を、観測音響信号とマスクとを各時間周波数成分において掛け合わせることによって求める。

この従来の目的音源推定装置１Ｐは、上記のように、事前に目的音源数を求めておく必要がある。言い換えると、従来の目的音源推定装置１Ｐは、既知の目的音源数を用いてk-meansクラスタリングを行い、マスクを得ている。このため、従来の目的音源推定装置１Ｐは、音源数未知の環境下では使用できないという問題があった。

本発明は、上記に鑑みてなされたものであって、音源数が未知である条件下であっても目的音源の推定が可能である目的音源推定装置、目的音源推定方法及び目的音源推定プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る目的音源推定装置は、Ｎ（Ｎ＞０）個の目的音源に対応する音響信号が混在する状況において、一つのマイク或いは異なる位置の複数マイクで収録されたＭ（Ｍ≧１）個の観測信号を受け取り、各観測信号に時間周波数解析を適用して時間周波数点ごとの観測信号を抽出し、時間周波数点ごとに全ての観測音響信号をまとめたＭ次元縦ベクトルである観測ベクトルを構成する時間周波数分析部と、観測ベクトルを受け取り、音響特徴量を抽出する特徴量抽出部と、音響特徴量を受け取り、予め学習したニューラルネットワークを用いて非線形変換を繰り返すことで、時間周波数点ごとにＤ（ただし、Ｄは整数）次元の埋め込みベクトルを出力する埋め込みベクトル推定部と、埋め込みベクトルを受け取り、該埋め込みベクトルに基づいて音源数の推定値＾Ｎを求め出力する音源数推定部と、埋め込みベクトルと、音源数の推定値を受け取り、それぞれが目的音源のクラスタに対応する＾Ｎ個のクラスタに、埋め込みベクトルをクラスタリングし、それぞれの埋め込みベクトルがどのクラスタに所属するかを示すクラスタインデックスを出力するクラスタリング部と、クラスタインデックスを受け取り、時間周波数点ごとに、時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを所定値よりも大きな値とし、それ以外の音源のマスクを所定値よりも小さな値とすることで、＾Ｎ個の目的音源に対応するマスクの推定値を計算するマスク推定部と、観測ベクトルとマスクとを用いて目的音源を推定する目的音源推定部と、を有することを特徴とする。

本発明によれば、音源数が未知である条件下であっても目的音源の推定が可能である。

図１は、実施の形態に係る目的音源推定装置の構成の一例を示すブロック図である。図２は、図１に示す目的音源推定装置が実行する目的音源推定処理の処理手順を示すフローチャートである。図３は、プログラムが実行されることにより、目的音源推定装置が実現されるコンピュータの一例を示す図である。図４は、従来の目的音源推定装置構成の一例を示すブロック図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態］
まず、実施の形態に係る目的音源推定装置について、目的音源推定装置の概略構成、目的音源推定装置における処理の流れを説明する。なお、以下では、例えばＡが行列である場合には“行列Ａ”と表記し、例えばＡがスカラーである場合には単に“Ａ”と表記する。また、例えばＡが集合である場合には、“集合Ａ”と表記する。また、スカラーであるＡに対し、“＾Ａ”と記載する場合は「“Ａ”の直上に“＾”が記された記号」と同等であるとする。

まず、図１を参照して、本実施の形態に係る目的音源推定装置の構成について説明する。図１は、実施の形態に係る目的音源推定装置の構成の一例を示すブロック図である。図１に示すように、実施の形態に係る目的音源推定装置１は、時間周波数分析部１１、特徴量抽出部１２、埋め込みベクトル推定部１３、音源数推定部１４、クラスタリング部１５、マスク推定部１６及び目的音源推定部１７を有する。

時間周波数分析部１１は、Ｎ（Ｎ＞０）個の目的音源に対応する音響信号が混在する状況において、一つのマイク或いは異なる位置の複数マイクで収録されたＭ（Ｍ≧１）個の観測信号を受け取る。すなわち、時間周波数分析部１１は、多チャンネル観測信号或いは単チャネル観測信号を入力信号として受け取る。そして、時間周波数分析部１１は、各観測信号に時間周波数解析を適用して時間周波数点ごとの観測音響信号を抽出する。この後に、時間周波数分析部１１は、時間周波数点ごとに全ての観測音響信号をまとめたＭ次元縦ベクトルである観測ベクトルを構成する。言い換えると、時間周波数分析部１１は、２つ以上のマイクによって録音された音響信号を入力とし、短時間信号分布を適用して観測ベクトルを得る機能を有する。

特徴量抽出部１２は、観測ベクトルを受け取り、音響特徴量を抽出する。特徴量抽出部１２は、観測ベクトルのうち、予め設定された１つの要素（１つのマイクで録音された成分）の絶対値に対数をとることで、音響特徴量を抽出する。

埋め込みベクトル推定部１３は、音響特徴量を受け取り、予め学習したニューラルネットワークを用いて非線形変換を繰り返すことで、時間周波数点ごとにＤ（ただし、Ｄは整数）次元の埋め込みベクトルを出力する。

音源数推定部１４は、埋め込みベクトルを受け取り、該埋め込みベクトルに基づいて音源数の推定値＾Ｎを求め出力する。この場合、音源数推定部１４は、埋め込みベクトルの相関行列を計算し、該計算した相関行列のランクを求め、該求めた相関行列のランクを基に音源数の推定値＾Ｎを求める。具体的には、音源数推定部１４は、埋め込みベクトルの相関行列を計算した後、該計算した相関行列を固有値分解し、予め設定された閾値より大きい固有値の数を数えることで前記音源数の推定値＾Ｎを求める。

クラスタリング部１５は、埋め込みベクトルと音源数の推定値とを受け取り、それぞれが目的音源のクラスタに対応する＾Ｎ個のクラスタに、埋め込みベクトルをクラスタリングする。クラスタリング部１５は、それぞれの埋め込みベクトルがどのクラスタに所属するかを示すクラスタインデックスを出力する。

マスク推定部１６は、クラスタインデックスを受け取り、時間周波数点ごとに、時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを所定値よりも大きな値とし、それ以外の音源のマスクを所定値よりも小さな値とすることで、＾Ｎ個の目的音源に対応するマスクの推定値を計算する。

目的音源推定部１７は、観測ベクトルとマスクとを用いて、目的音源を推定する。目的音源推定部１７は、観測信号から目的信号だけを取り出すビームフォーマによって目的音源を推定する。

［目的音源推定装置の処理］
次に、目的音源推定装置１が実行する演算処理について説明する。まず、Ｎ個の目的音源から発せられた音響信号を、Ｍ個のマイクロホンで収録しているとする。この時、マイクロホンｍで収録された観測信号をｙ_ｍ，τと表す。観測信号ｙ_ｍ，τは、以下の（２）式に示すように、目的音源信号に由来する音響信号ｘ^（ｎ） _ｍ，τ（ｎ＝１，・・・，Ｎ）の和で構成される。

時間周波数分析部１１は、すべてのマイクロホンで収録された上記観測信号を受け取り、観測信号ｙ_ｍ，τごとに時間周波数解析を適用して時間周波数ごとの信号特徴量Ｙ_{ｍ，ｆ，ｔ}を求める。なお、ｔとｆは、それぞれ時間と周波数の番号であり、ｔは、１〜Ｔの整数をとり、ｆは、０〜Ｆの整数をとる。時間周波数解析としては、短時間離散フーリエ変換や短時間離散コサイン変換など様々な方法を用いることができる。

さらに、時間周波数分析部１１は、以下の（３）式のように、各時間周波数で得られた信号Ｙ^（ｍ）（ｆ，ｔ）を全てのマイクロホンに関してまとめたベクトルとして、観測ベクトルｙ_ｆ，ｔを構成する。

そして、特徴量抽出部１２は、観測ベクトルのうち、予め設定された１つの要素（１つのマイクで録音された成分）の絶対値に対数をとることで、音響特徴量を求める。

続いて、埋め込みベクトル推定部１３は、この音響特徴量を、事前に学習しておいたニューラルネットワークの一種であるbi-directional long short-term memory（BLSTM）に入力することで、時間周波数点ごとに埋め込みベクトルを得る。

すなわち、埋め込みベクトル推定部１３では、まず事前に、音響特徴量を入力として、時間周波数点ごとに、Ｄ次元の埋め込みベクトルを出力するニューラルネットワークを学習する。ここで、音響特徴量の集合を集合Ａ＝｛ａ_ｆ，ｔ；ｆ＝０，・・・，Ｆ，ｔ＝１，・・・，Ｔ｝、埋め込みベクトルの集合を集合Ｖ＝｛ｖ_ｆ，ｔ；ｆ＝０，・・・，Ｆ，ｔ＝１，・・・，Ｔ｝とする。そして、この両者の関係はニューラルネットワークによる変換ｆ（・）を用いて以下の（４）式のように表すことができる。

Θは、ニューラルネットワークのパラメータである。以下では、表記を単純化するため、時間周波数点（ｆ，ｔ）のインデックスをｋ（ただし、ｋ＝１，・・・，Ｔ×（Ｆ＋１）＝Ｋ）を用いて表記する。

ニューラルネットワークのパラメータΘは、トレーニングデータを用いて、以下の（５）式に示す目的関数を最小化することで、事前に得られる。

ｌ_ｋ，ｋ´は、時間周波数点ｋとｋ´とのペアに対して与えられる教師信号で、ｋとｋ´で同じ音源信号がアクティブであれば１、そうでなければ０となる。このように目的関数を設計することによって、埋め込みベクトルｖ_ｋが目的音源にごとにクラスタを形成するように、ニューラルネットワークを学習することができる。

このように、埋め込みベクトル推定部１３は、（５）式を用いて、ニューラルネットワークを学習しておく。そして、埋め込みベクトル推定部１３は、観測ベクトルを、（４）式に適用し、時間周波数点ごとに埋め込みベクトルを得る。

ここで、（５）式に基づいて学習されたニューラルネットワークによって推定された埋め込みベクトルは、理想的には、互いに直交あるいは平行しており、推定された埋め込みベクトルの方向の数が音源数に相当していると考えられる。したがって、下記のように埋め込みベクトルの外積を取り平均することによって得られる相関行列Ｂのランクが、音源数に相当していると考えられる。

このため、音源数推定部１４は、相関行列Ｂを固有値分解し、予め設定された閾値より大きい固有値の数を数えることで、音源数の推定値＾Ｎを求める。

クラスタリング部１５は、＾Ｎ個のクラスを用いて、埋め込みベクトルに対してk-means クラスタリングを行うことで、＾Ｎ個のクラスタを得る。マスク推定部１６は、時間周波数点ごとに、その時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを１とし、それ以外の音源のマスクを０とすることで、＾Ｎ個の目的音源に対応するマスクの推定値を得る。

そして、目的音源推定部１７は、マスクを観測ベクトルに掛けることで、目的音源の推定値を計算する。もちろん、目的音源推定部１７は、マスクと観測ベクトルとから推定した空間相関行列を用いて、ビームフォーミングによって、目的音源の推定値＾Ｎを求めてもよい。この場合、目的音源推定部１７は、非特許文献２などの手法と同様に、マスクを観測ベクトルの外積に掛けたのち重み付き和をとることで、ｎ番目の目的音源の空間相関行列と、ｎ番目の目的音源の干渉音の空間相関行列を計算し、ビームフォーマを設計する。そして、目的音源推定部１７は、各目的音源を、各周波において、観測ベクトルにビームフォーマを掛け合わせることで得ることができる。

［目的音源推定処理］
次に、目的音源推定装置１が実行する目的音源推定処理の処理手順について説明する。図２は、図１に示す目的音源推定装置１が実行する目的音源推定処理の処理手順を示すフローチャートである。

図２に示すように、まず、目的音源推定装置１では、時間周波数分析部１１が、Ｎ個の目的音源に対応する音響信号が混在する状況において、一つのマイク或いは異なる位置で収録されたＭ個の観測信号を入力信号として受け取る（ステップＳ１）。言い換えると、時間周波数分析部１１は、多チャンネル観測信号或いは単チャネル観測信号を入力信号として受け取る。そして、時間周波数分析部１１は、各観測信号に時間周波数解析を適用して時間周波数点ごとの観測音響信号を抽出する（ステップＳ２）。続いて、時間周波数分析部１１は、時間周波数点ごとに全ての観測音響信号をまとめた観測ベクトルを構成する（ステップＳ３）。

特徴量抽出部１２は、観測ベクトルを受け取り、音響特徴量を抽出する（ステップＳ４）。埋め込みベクトル推定部１３は、音響特徴量を受け取り、予め学習したニューラルネットワークを用いて非線形変換を繰り返すことで、時間周波数点ごとにＤ（ただし、Ｄは整数）次元の埋め込みベクトルを推定し（ステップＳ５）、出力する。

音源数推定部１４は、埋め込みベクトルを受け取り、該埋め込みベクトルに基づいて音源数の推定値＾Ｎを求める音源数の推定を行う（ステップＳ６）。具体的には、音源数推定部１４は、埋め込みベクトルの相関行列を計算した後、該計算した相関行列を固有値分解し、予め設定された閾値より大きい固有値の数を数えることで前記音源数の推定値＾Ｎを求める。

クラスタリング部１５は、埋め込みベクトルと音源数の推定値とを受け取り、それぞれが目的音源のクラスタに対応する＾Ｎ個のクラスタに、埋め込みベクトルをクラスタリングする（ステップＳ７）。クラスタリング部１５は、それぞれの埋め込みベクトルがどのクラスタに所属するかを示すクラスタインデックスを出力する。

マスク推定部１６は、クラスタインデックスを受け取り、時間周波数点ごとに、時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを所定値よりも大きな値とし、それ以外の音源のマスクを所定値よりも小さな値とすることで、＾Ｎ個の目的音源に対応するマスクの推定値を計算するマスク推定を行う（ステップＳ８）。

目的音源推定部１７は、観測ベクトルとマスクとを用いて、目的音源を推定する（ステップＳ９）、目的音源推定処理を終了する。

［確認実験］
本実施の形態に対し、確認実験を行った。確認実験では、６メートル（ｍ）×４ｍ×３ｍの大きさの部屋をシミュレートした多チャンネルのインパルス応答を畳み込むことで、擬似的に８個のマイクによって録音された多チャンネルの混合音声を得た。２音源と３音源との場合、それぞれ３０時間分（合計６０時間分）を学習データとした。そして、この学習データとは別の話者によって発せられた音声を用いたデータ（２音源と３音源とのそれぞれ５時間ずつのデータ）をテストデータとした。確認実験では、このテストデータに対する目的音源の推定性能を、信号対ひずみ比の改善量を用いて比較した。

ビームフォーマは、推定したマスクと観測ベクトルとを用いて、非特許文献３に記された方法で求めた。固有値の閾値は「０．０５」とした。埋め込みベクトルの次元数Ｄは４０とした。

非特許文献２で紹介された方法でビームフォーミングによって目的音源の推定を行った場合であり、音源数が既知である場合、信号対ひずみ比の改善量は、２音源については、11.48（dB）であり、３音源については、10.95（dB）であった。

本実施の形態に係る目的音源推定方法を用いて、音源数は未知であり、上記記載の方法を用いて音源数を推定し、ビームフォーマによって目的音源の推定を行った場合、信号対ひずみ比の改善量は、２音源については、11.51（dB）であり、３音源については、9.59（dB）であった。

したがって、音源数が未知である場合であっても、本実施の形態に係る目的音源推定方法を用いることによって、音源数が既知であることを仮定した非特許文献２の手法と同程度の目的音源の推定性能を実現していることがわかった。

［実施の形態の効果］
このように、本実施の形態によれば、音源数が未知である条件下であっても、埋め込みベクトルに基づいて音源数の推定値＾Ｎを求めることによって、埋め込みベクトルをクラスタリングする処理を実行することができ、適切な目的音源の推定を可能にする。

すなわち、本実施の形態では、埋め込みベクトルの相関行列を計算し、該計算した相関行列のランクを求め、該求めた相関行列のランクを基に音源数の推定値＾Ｎを求めている。具体的には、本実施の形態では、埋め込みベクトルの相関行列を計算した後、該計算した相関行列を固有値分解し、予め設定された閾値より大きい固有値の数を数えることで、音源数の推定値＾Ｎを求めている。このように、本実施の形態では、音源数が未知である条件下であっても、音源数を適切に推定することによって、適切な目的音源推定処理を実現することが可能になる。

したがって、本実施の形態によれば、確認実験の結果でも示したように、音源数が未知であっても、音源数が既知であることを仮定した従来法と同程度の目的音源の推定性能を実現することができる。

［システム構成等］
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
図３は、プログラムが実行されることにより、目的音源推定装置１が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、目的音源推定装置１の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、目的音源推定装置１における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１，１Ｐ目的音源推定装置
１１，１１Ｐ時間周波数分析部
１２，１２Ｐ特徴量抽出部
１３，１３Ｐ埋め込みベクトル推定部
１４音源数推定部
１５，１４Ｐクラスタリング部
１６，１５Ｐマスク推定部
１７，１６Ｐ目的音源推定部

Claims

Ｎ（Ｎ＞０）個の目的音源に対応する音響信号が混在する状況において、一つのマイク或いは異なる位置の複数マイクで収録されたＭ（Ｍ≧１）個の観測信号を受け取り、各観測信号に時間周波数解析を適用して時間周波数点ごとの観測信号を抽出し、時間周波数点ごとに全ての観測音響信号をまとめたＭ次元縦ベクトルである観測ベクトルを構成する時間周波数分析部と、
前記観測ベクトルを受け取り、音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を受け取り、予め学習したニューラルネットワークを用いて非線形変換を繰り返すことで、時間周波数点ごとにＤ（ただし、Ｄは整数）次元の埋め込みベクトルを出力する埋め込みベクトル推定部と、
前記埋め込みベクトルを受け取り、該埋め込みベクトルに基づいて音源数の推定値＾Ｎを求め出力する音源数推定部と、
前記埋め込みベクトルと、前記音源数の推定値を受け取り、それぞれが目的音源のクラスタに対応する＾Ｎ個のクラスタに、埋め込みベクトルをクラスタリングし、それぞれの埋め込みベクトルがどのクラスタに所属するかを示すクラスタインデックスを出力するクラスタリング部と、
前記クラスタインデックスを受け取り、時間周波数点ごとに、時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを所定値よりも大きな値とし、それ以外の音源のマスクを所定値よりも小さな値とすることで、＾Ｎ個の目的音源に対応するマスクの推定値を計算するマスク推定部と、
前記観測ベクトルと前記マスクとを用いて目的音源を推定する目的音源推定部と、
を有することを特徴とする目的音源推定装置。
前記目的音源推定部は、ビームフォーマによって目的音源を推定することを特徴とする請求項１に記載の目的音源推定装置。
前記埋め込みベクトル推定部は、bi-directional long short-term memoryによって構成されている前記ニューラルネットワークを有することを特徴とする請求項１または２に記載の目的音源推定装置。
前記音源数推定部は、前記埋め込みベクトルの相関行列を計算し、該計算した相関行列のランクを求め、該相関行列のランクを基に前記音源数の推定値＾Ｎを求めることを特徴とする請求項１〜３のいずれか一つに記載の目的音源推定装置。
前記音源数推定部は、前記埋め込みベクトルの相関行列を計算した後、該計算した相関行列を固有値分解し、予め設定された閾値より大きい固有値の数を数えることで前記音源数の推定値＾Ｎを求めることを特徴とする請求項１〜４のいずれか一つに記載の目的音源推定装置。
目的音源を推定する目的音源推定装置が実行する目的音源推定方法であって、
Ｎ（Ｎ＞０）個の目的音源に対応する音響信号が混在する状況において、一つのマイク或いは異なる位置の複数マイクで収録されたＭ（Ｍ≧１）個の観測信号を受け取り、各観測信号に時間周波数解析を適用して時間周波数点ごとの観測信号を抽出し、時間周波数点ごとに全ての観測音響信号をまとめたＭ次元縦ベクトルである観測ベクトルを構成する時間周波数分析工程と、
前記観測ベクトルを受け取り、音響特徴量を抽出する特徴量抽出工程と、
前記音響特徴量を受け取り、予め学習したニューラルネットワークを用いて非線形変換を繰り返すことで、時間周波数点ごとにＤ（ただし、Ｄは整数）次元の埋め込みベクトルを出力する埋め込みベクトル推定工程と、
前記埋め込みベクトルを受け取り、該埋め込みベクトルに基づいて音源数の推定値＾Ｎを求め出力する音源数推定工程と、
前記埋め込みベクトルと、前記音源数の推定値を受け取り、それぞれが目的音源のクラスタに対応する＾Ｎ個のクラスタに、埋め込みベクトルをクラスタリングし、それぞれの埋め込みベクトルがどのクラスタに所属するかを示すクラスタインデックスを出力するクラスタリング工程と、
前記クラスタインデックスを受け取り、時間周波数点ごとに、時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを所定値よりも大きな値とし、それ以外の音源のマスクを所定値よりも小さな値とすることで、＾Ｎ個の目的音源に対応するマスクの推定値を計算するマスク推定工程と、
前記観測ベクトルと前記マスクとを用いて、目的音源を推定する目的音源推定工程と、
を含んだことを特徴とする目的音源推定方法。
前記目的音源推定工程は、ビームフォーマによって目的音源を推定することを特徴とする請求項６に記載の目的音源推定方法。
コンピュータを、請求項１〜５のいずれか一つに記載の目的音源推定装置として機能させるための目的音源推定プログラム。