JP2019105681A

JP2019105681A - 推定装置、推定方法および推定プログラム

Info

Publication number: JP2019105681A
Application number: JP2017236811A
Authority: JP
Inventors: 卓哉樋口; Takuya Higuchi; 慶介木下; Keisuke Kinoshita; マークデルクロア; Marc Delcroix; 中谷　智広; Tomohiro Nakatani; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2019-06-27
Anticipated expiration: 2037-12-11
Also published as: JP6930408B2

Abstract

【課題】混合音と目的音源とが対になったトレーニングデータを用いずに学習して音源分離を行う。【解決手段】時間周波数分析部２１が、複数のマイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの観測信号で構成される観測ベクトルを生成する。特徴量抽出部２２が、生成された観測ベクトルから所定の音響特徴量を抽出する。目的音源推定部２３が、音響特徴量を用いて目的音源の音響信号の推定値を出力する分離器２４を学習により作成する際に、入力された目的音源の音響信号が真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器１１に入力した場合に、この識別器１１が真の目的音源の音響信号と識別するように、推定値を学習する。【選択図】図２

Description

本発明は、推定装置、推定方法および推定プログラムに関する。

従来、音声認識を行ったり観測した音を人間の聞き取り易い音に変換したりするため、目的音源の音響信号を背景雑音と分離する音源分離の技術が開示されている。このような従来の技術において、混合音と正解値としての目的音源の音響信号とが対になったトレーニングデータを用いた学習により、目的音源の音響信号の推定値が求められ音源分離が行われていた（非特許文献１，２参照）。なお、非特許文献３には、雑音を抑制して音声を強調するビームフォーミングの技術が開示されている。

Felix Weninger, Hakan Erdogan, Shinji Watanabe, Emmanuel Vincent, Jonathan Le Roux, John R.Hershey, Bjorn Schuller,"Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR", International Conference on Latent Variable Analysis and Signal Separation, Springer, 2015年, pp.91-99 Santiago Pascual, Antonio Bonafonte, Joan Serra, "SEGAN:Speech Enhancement Generative Adversarial Network", arXiv preprint arXiv:1703.09452v3, 2017年 T.Higuchi, N.Ito, S.Araki, T.Yoshioka, M.Delcroix, T.Nakatani, "Online MVDR Beamformer Based on Complex Gaussian Mixture Model With Spatial Prior for Noise Robust ASR", IEEE/ACM Transactions on Audio, Speech, and Language Processing, val.25, No.4, 2017年, pp.780-793

しかしながら、実際に録音されたデータには、対になる正解値としての目的音源のデータが得られない場合が多く、シミュレーションを用いて人工的に作成されたデータをトレーニングデータとして用いて学習せざるを得なかった。

本発明は、上記に鑑みてなされたものであって、混合音と目的音源とが対になったトレーニングデータを用いずに学習して音源分離を行うことを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る推定装置は、マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析部と、生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出部と、前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習部と、を備えることを特徴とする。

本発明によれば、混合音と目的音源とが対になったトレーニングデータを用いずに学習して音源分離を行うことが可能となる。

図１は、従来の推定装置の概略構成を示す模式図である。図２は、本実施形態に係る推定システムの概略構成を示す模式図である。図３は、本実施形態に係る推定装置の概略構成を示す模式図である。図４は、本実施形態の推定処理手順を示すフローチャートである。図５は、他の実施形態に係る推定装置の概略構成を示す模式図である。図６は、推定プログラムを実行するコンピュータの一例を示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［従来の推定処理］
まず、図１を参照して、従来の音源分離を行う推定処理について説明する。図１は、従来の推定装置の概略構成を示す模式図である。従来、音源分離を行う推定装置２００は、図１に示すように、時間周波数分析部２０１、特徴量抽出部２０２、目的音源推定部２０３を備える。まず、時間周波数分析部２０１が、Ｎ個の目的音源に対応する音響信号が混在する状況において、１つのマイクで収録された観測信号に短時間信号分析を適用し、時間周波数点ごとの観測音響信号を抽出する。

次に、特徴量抽出部２０２が、観測音響信号から音響特徴量を抽出する。また、目的音源推定部２０３は、音響特徴量を入力として、あらかじめ学習され保持されている分離器２０４を用いて非線形変換を繰り返すことにより、時間周波数点ごとにＮ個の目的音源を推定する。この分離器２０４はニューラルネットワークで実現され、あらかじめ混合音とそれに含まれる目的音源とが対になったトレーニングデータを用いて学習されたものであり、後述するように、この点が本実施形態の推定装置と異なる。

ここで、短時間フーリエ変換等の短時間信号分析を用いて得られる観測音響信号をｙ_ｆ，ｔと表す。ただし、ｔは１〜Ｔの整数で表される時間の番号であり、ｆは０〜Ｆの整数で表される周波数の番号である。ｎ個の音源信号が混合されて観測された場合に、各時間周波数点における観測音響信号ｙ_ｆ，ｔは、次式（１）のようにモデル化できる。

上記式（１）に示すように、ｎ個の目的音源の音響信号が混合された観測信号から、ニューラルネットワークを用いて、それぞれの目的音源の音響信号が推定される。まず、特徴量抽出処理により、観測音響信号から次式（２）に示す音響特徴量の集合が得られる。

次に、ニューラルネットワークによる変換ｆ（・）を用いて、次式（３）に示す目的音源の音響信号の推定値の集合が、次式（４）に示すように得られる。

ニューラルネットワークのパラメータは、混合音とそれぞれの目的音源とが対になったトレーニングデータを用いて、次式（５）に示す目的関数を最小化することにより、事前に得られる。

このように、目的音源推定部２０３が、混合音から推定された目的音源の音響信号の推定値と、混合音を構成する目的音源の正解値との間の距離を最小化することにより、ニューラルネットワークのパラメータを学習して、分離器２０４を作成する。

なお、目的音源の音響信号の推定値は、直接ニューラルネットワークの出力として得ることが可能である。あるいは、ニューラルネットワークで混合音に対する目的音源の割合を表す０〜１の間の値をとるマスクが得られる場合には、マスクを観測音響信号に掛け合わせることにより、目的音源の音響信号の推定値が得られる（非特許文献１参照）。

［推定システムの構成］
次に、図２を参照して、本実施形態に係る推定システム１について説明する。図２は、本実施形態に係る推定システム１の概略構成を示す模式図である。図２に示すように、推定システム１は、識別装置１０と推定装置２０とを含む。

この推定システム１において、識別装置１０は、識別器１１を備え、識別器１１の学習を行う。識別器１１は、入力された目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する。また、推定装置２０は、分離器２４を用いて、入力された観測信号から目的音源の音響信号を分離し、その推定値を出力する。また、推定装置２０は、識別器１１が、分離器２４によって推定された目的音源の音響信号が入力された場合に真の目的音源の音響信号と誤って識別するように、分離器２４の学習を行う。

［識別装置の構成］
本実施形態に係る識別装置１０は、ワークステーションやパソコン等の汎用コンピュータで実現され、ＣＰＵ（Central Processing Unit）等を用いて実現される制御部が、メモリに記憶された処理プログラムを実行することにより、図２に示すように、識別学習部１２および識別部１３として機能する。また、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される記憶部に、識別器１１が保持される。

識別器１１は、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する。

識別学習部１２は、識別器１１を学習により作成する。具体的には、識別学習部１２は、後述するように、推定装置２０が出力した目的音源の音響信号の推定値を識別器１１に入力した場合に、識別器１１が推定された目的音源の音響信号と識別するように学習する。

本実施形態において、識別器１１は、ニューラルネットワークの１種であるＢＬＳＴＭ（Bi-directional Long Short-Term Memory）で実現される。また、識別器１１は、目的音源用と背景雑音用とが別々に用意される。各識別器１１は、入力された音響信号が目的音源または背景雑音のみの場合、すなわち、真の目的音源または背景雑音の音響信号の場合に１を出力するように学習される。また、各識別器１１は、後述する推定装置２０の分離器２４によって推定された目的音源または背景雑音の音響信号の場合に０を出力するように学習される。

すなわち、識別学習部１２は、推定装置２０から出力された目的音源または背景雑音の音響信号の推定値が入力された場合に識別器１１が出力する識別値が０に近くなるように、識別器１１のパラメータを最適化する。また、識別学習部１２は、目的音源のデータセットに含まれる真の目的音源の音響データが入力された場合に識別器１１が出力する識別値が１に近くなるように、識別器１１のパラメータを最適化する。識別学習部１２は、学習の際には、ＲＭＳｐｒｏｐと呼ばれる最適化アルゴリズムを用いてパラメータを求め、記憶部に保持する。

また、識別部１３は、識別器１１を用いて、入力された音響信号が真の目的音源の音響信号か推定された目的音源の音響信号かを識別する。すなわち、識別部１３は、出力される識別値が１に近い場合に、真の目的音源の音響信号であることを示すラベル１を付与する。また、識別部１３は、出力される識別値が０に近い場合に、推定された偽の目的音源の音響信号であることを示すラベル０を付与する。

［推定装置の構成］
次に、図３を参照して、推定装置２０について説明する。図３は、本実施形態に係る推定装置２０の概略構成を示す模式図である。図３に示すように、推定装置２０は、ワークステーションやパソコン等の汎用コンピュータで実現され、ＣＰＵ等を用いて実現される制御部が、メモリに記憶された処理プログラムを実行することにより、図３に示すように、時間周波数分析部２１、特徴量抽出部２２、目的音源推定部２３として機能する。また、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される記憶部に、分離器２４が保持される。なお、記憶部に予め学習された上記の識別器１１が保持されてもよい。

時間周波数分析部２１は、マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの観測信号で構成される観測ベクトルを生成する。

以下の説明において、１個の目的音源の音響信号を、背景雑音下でＭ個（Ｍ≧１）のマイクロホンで収録するものとする。ここで、マイクロホンｍで収録された観測信号をｙ_ｍ，τとする。この場合に、次式（６）に示すように、観測信号をｙ_ｍ，τは、Ｎ個（Ｎ＞０）の各目的音源に由来する音響信号ｘ_ｍ，τ ^（ｎ）（ｎ＝１，…，Ｎ）の和で表される。

具体的には、まず、時間周波数分析部２１は、すべてのマイクロホンで収録された上記式（６）で表される観測信号の入力を受け付けて、各観測信号ｙ_ｍ，τごとに短時間信号分析を適用して時間周波数ごとの信号特徴量Ｙ_{ｍ，ｆ，ｔ}を算出する。その際、短時間信号分析は特に限定されず、例えば、短時間離散フーリエ変換、短時間離散コサイン変換等が適用される。

次に、時間周波数分析部２１は、各時間周波数点で得られた信号Ｙ^（ｍ）（ｆ，ｔ）を全てのマイクロホンに関してまとめ、次式（７）に示すＭ次元縦ベクトルである観測ベクトルｙ_ｆ，ｔを構成する。

特徴量抽出部２２は、生成された観測ベクトルから所定の音響特徴量を抽出する。具体的には、特徴量抽出部２２は、観測ベクトルのうち、あらかじめ決められた１つのマイクロホンで録音された成分である１つの要素の絶対値の対数をとり、音響特徴量とする。

目的音源推定部２３は、推定学習部として、音響特徴量を用いて目的音源の音響信号の推定値を出力する分離器２４を学習により作成する。その際に、目的音源推定部２３は、推定学習部として、分離器２４が出力した目的音源の音響信号の推定値を学習する手段であって、上記の識別器１１に入力した場合に、この識別器１１が真の目的音源の音響信号と識別するように、推定値を学習する。

具体的には、推定学習部としての目的音源推定部２３は、音響特徴量を分離器２４に入力することで、時間周波数点ごとに目的音源と背景雑音とのそれぞれに対して、混合音に対する割合を表す０から１の間の値で表されるマスクを得る。この分離器２４は、識別器１１と同様に、ＢＬＳＴＭで実現される。

目的音源推定部２３は、推定学習部として、以下に説明するように、学習により分離器２４を作成する。なお、目的音源推定部２３は、分離器２４によって推定されたマスクを時間周波数ごとの信号特徴量に掛け合わせることで、目的音源と背景雑音との音響信号の推定値を得る。

また、推定学習部としての目的音源推定部２３は、得られた目的音源または背景雑音の音響信号の推定値を識別器１１に入力した場合に、識別器１１が真の目的音源または背景雑音の音響信号と誤って識別して１を出力するように、分離器２４の学習を行う。すなわち、目的音源推定部２３は、得られた推定値を識別器１１に入力した場合に、識別器１１の出力が１に近くなるように、分離器２４のパラメータを最適化する。目的音源推定部２３は、学習の際に、ＲＭＳｐｒｏｐを用いて分離器２４のパラメータを求め、記憶部に保持する。

このように、推定システム１において、識別器１１と分離器２４との学習を交互に競わせるように行うことにより、分離器２４は、目的音源または背景雑音の音響信号と区別がつかないほどに近い音響信号を推定することが可能となる。

また、推定システム１において、混合音のデータセットと目的音源のデータセットとが対になっている必要はなく、混合音のデータセットとして実録音データを用いることも可能である。

また、目的音源推定部２３は、分離器２４を用いて、入力された観測信号に含まれる目的音源の音響信号の推定値を出力する。目的音源の音響信号の推定値は、例えば、分離器２４で得られたマスクを観測ベクトルに掛け合わせることにより得られる。また、目的音源の音響信号の推定値は、直接、分離器２４の出力として得ることも可能である。

あるいは、目的音源の音響信号の推定値は、分離器２４から得られたマスクと観測ベクトルから推定した空間相関行列を用いたビームフォーミングにより得ることも可能である（非特許文献３参照）。すなわち、目的音源推定部２３は、分離器２４から得られたマスクを観測ベクトルの外積に掛けた後に重み付き和をとることにより、ｎ番目の目的音源の空間相関行列と、ｎ番目の目的音源の干渉音の空間相関行列とを算出し、ビームフォーマを設計する。各目的音源の音響信号の推定値は、各周波数において、観測ベクトルにビームフォーマを掛け合わせることにより得られる。

［推定処理］
次に、図４を参照して、推定システム１の推定処理について説明する。図４は、本実施形態の推定処理手順を示すフローチャートである。図４のフローチャートは、例えば、処理の開始を指示する操作入力があったタイミングで開始される。

まず、時間周波数分析部２１が、マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付ける（ステップＳ１）。また、時間周波数分析部２１が短時間信号分析を行って、観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの観測信号で構成される観測ベクトルを生成する（ステップＳ２）。また、特徴量抽出部２２が、生成された観測ベクトルから所定の音響特徴量を抽出する（ステップＳ３）。

次に、目的音源推定部２３が、音響特徴量を用いて、目的音源の音響信号の推定値を出力する分離器２４を学習により作成する。その際に、目的音源推定部２３は、推定学習部として、分離器２４が出力した目的音源の音響信号の推定値を識別器１１に入力した場合に、識別器１１が真の目的音源の音響信号と識別するように、推定値を学習する（ステップＳ４）。

また、目的音源推定部２３は、分離器２４を用いて、入力された観測信号に含まれる目的音源の音響信号の推定値を出力する。これにより、一連の推定処理が終了する。

以上、説明したように、本実施形態の推定装置２０では、時間周波数分析部２１が、マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの観測信号で構成される観測ベクトルを生成する。また、特徴量抽出部２２が、生成された観測ベクトルから所定の音響特徴量を抽出する。また、目的音源推定部２３は、音響特徴量を用いて目的音源の音響信号の推定値を出力する分離器２４を学習により作成する。その際に、目的音源推定部２３は、分離器２４が出力した目的音源の音響信号の推定値を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器１１に入力した場合に、この識別器１１が真の目的音源の音響信号と識別するように、推定値を学習する。

これにより、推定装置２０は、混合音と目的音源とが対になったデータセットを用いる代わりに、実録音データを用いて分離器２４を学習することにより音源分離を行うことが可能となる。このように、本実施形態の推定装置２０は、混合音と目的音源とが対になったトレーニングデータを用いずに学習して音源分離を行うことができる。

また、推定システム１は、識別器１１を学習により作成する識別装置１０を備える。識別装置１０では、識別学習部１２が、分離器２４すなわち目的音源推定部２３が出力した目的音源の音響信号の推定値を識別器１１に入力した場合に、識別器１１が推定された目的音源の音響信号と識別するように学習する。このように、識別器１１と分離器２４との学習を交互に競わせるように行うことにより、分離器２４は、より高精度に音響信号を推定することが可能となる。

なお、図５は、他の実施形態に係る推定装置２０の概略構成を示す模式図である。図５に示すように、上記実施形態の識別装置１０は、推定装置２０と同一のハードウェアに実装されてもよい。この場合に、図５に示すように、推定装置２０は、上記実施形態の識別装置１０に相当する識別機能部１００を備える。識別機能部１００に含まれる各機能部および推定装置２０の他の機能部は、図２を参照して説明した上記実施形態と同一であるので、説明を省略する。

［実施例］
上記実施形態に係る推定システム１を用いて、バスの中やカフェ等の背景雑音が存在する環境において、一人の話者がタブレットに向かって文章を読み上げる音声を、タブレットに装着されたＭ＝６個のマイクで収録した場合に、音声認識性能を確認する実験を行った。ここで、ＲＭＳＰｒｏｐの学習率は１×１０^−３とした。また、学習時のバッチサイズは４０とした。

この場合に、推定システム１を用いずに音声認識を行った場合の単語認識誤差率は１５．６％であった。これに対し、推定システム１を用いてビームフォーミングにより音声強調を行った場合の単語認識誤差率は７．５８％であった。このように、本実施形態の推定システム１による推定処理の効果が確認できた。

［プログラム］
上記実施形態に係る推定システム１の識別装置１０および推定装置２０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、識別装置１０および推定装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記の推定処理を実行する推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の推定プログラムを情報処理装置に実行させることにより、情報処理装置を識別装置１０または推定装置２０として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）などの移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistants）などのスレート端末などがその範疇に含まれる。また、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の推定処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、推定装置２０は、観測信号を入力とし、推定値を出力する推定処理サービスを提供するサーバ装置として実装される。この場合、推定装置２０は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の推定処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。以下に、識別装置１０または推定装置２０と同様の機能を実現する推定プログラムを実行するコンピュータの一例を説明する。

図６は、推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。処理に使用される各テーブルは、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

また、推定プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した識別装置１０または推定装置２０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

また、推定プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、推定プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、推定プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

１推定システム
１０識別装置
１１識別器
１２識別学習部
１３識別部
２０，２００推定装置
２１，２０１時間周波数分析部
２２，２０２特徴量抽出部
２３，２０３目的音源推定部
２４，２０４分離器
１００識別機能部

Claims

マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析部と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習部と、
を備えることを特徴とする推定装置。
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析部と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習部と、
前記識別器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を前記識別器に入力した場合に、前記識別器が推定された目的音源の音響信号と識別するように学習する識別学習部と、
を備えることを特徴とする推定装置。
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析部と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習部と、
前記分離器を用いて、入力された前記観測信号に含まれる前記目的音源の音響信号の推定値を出力する目的音源推定部と、
を備えることを特徴とする推定装置。
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析部と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習部と、
前記分離器を用いて、入力された前記観測信号に含まれる前記目的音源の音響信号の推定値を出力する目的音源推定部と、
前記識別器を学習により作成する際に、前記目的音源推定部が出力した前記目的音源の音響信号の推定値を前記識別器に入力した場合に、前記識別器が推定された目的音源の音響信号と識別するように学習する識別学習部と、
前記識別器を用いて、入力された音響信号が真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別部と、
を備えることを特徴とする推定装置。
推定装置で実行される推定方法であって、
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析工程と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出工程と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する工程であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習工程と、
を含んだことを特徴とする推定方法。
推定装置で実行される推定方法であって、
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析工程と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出工程と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する工程であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習工程と、
前記識別器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を前記識別器に入力した場合に、前記識別器が推定された目的音源の音響信号と識別するように学習する識別学習工程と、
を含んだことを特徴とする推定方法。
推定装置で実行される推定方法であって、
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析工程と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出工程と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する工程であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習工程と、
前記分離器を用いて、入力された前記観測信号に含まれる前記目的音源の音響信号の推定値を出力する目的音源推定工程と、
を含んだことを特徴とする推定方法。
コンピュータを請求項１〜４のいずれか１項に記載の推定装置として機能させるための推定プログラム。