JP6517760B2

JP6517760B2 - マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム

Info

Publication number: JP6517760B2
Application number: JP2016160668A
Authority: JP
Inventors: 卓哉樋口; 拓也吉岡; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-08-18
Filing date: 2016-08-18
Publication date: 2019-05-22
Anticipated expiration: 2036-08-18
Also published as: JP2018028618A

Description

本発明は、マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラムに関する。

従来、環境に適応しながら音声認識を行う手法として、音声認識の前段処理として音声強調を行う手法（例えば非特許文献１を参照）や、音声認識器そのものを環境に適応させる手法（例えば非特許文献２を参照）が知られている。

N. Ito, S. Araki, T. Yoshioka, and T. Nakatani, "Relaxed disjointness based clustering for joint blind source separation and dereverberation," in Proc. Int. Worksh. Acoust. Echo, Noise Contr., pp. 268‐272, 2014. D. Yu and L. Deng, "Automatic speech recognition: a deep learning approach," Springer, 2015. T. Yoshioka, N. Ito, M. Delcroix, A. Ogawa, K. Kinoshita, M. Fujimoto, C. Yu, W. J. Fabian, M. Espi, T. Higuchi, S. Araki, and T. Nakatani, "The NTT CHiME-3 system: advances in speech enhancement and recognition for mobile multi-microphone devices," in Proc. Worksh. Automat. Speech Recognition, Understanding, 2015, pp.436‐443.

しかしながら、従来の環境に適応しながら音声認識を行う手法には、音声認識の精度を向上させるためには、大量の学習データが必要になる場合があるという問題があった。例えば、非特許文献２に記載された手法では、音声認識器のパラメータを環境に適応させることで音声認識の精度を向上させている。ここで、音声認識器は線形演算や非線形演算を複数回行うことで音素状態事後確率を計算するため、多くのパラメータによって構成されているため、全てのパラメータを環境に適応させるためには、大量の学習データが必要になる場合がある。

本発明のマスク推定用パラメータ推定装置は、目的音源に対応する１個の第１の音響信号と、雑音に対応するＮ−１個の第２の音響信号（ただし、Ｎは２以上の整数）と、を含んだＮ個の音響信号が混在する状況において、それぞれ異なる位置で収録されたＭ個の観測信号（ただし、Ｍは２以上の整数）のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、前記時間周波数点ごとの観測信号のＭ次元縦ベクトルである観測ベクトルを構成する時間周波数分析部と、前記観測ベクトルとマスク推定用のパラメータとに基づいて、前記Ｎ個の音響信号のそれぞれが、前記時間周波数点ごとに、前記観測ベクトルにどの程度の割合で含まれているかを表すマスクを推定するマスク推定部と、前記観測ベクトルと前記第１の音響信号についての前記マスクとを、前記時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する音声強調部と、学習データを用いて事前に学習した音声認識用のパラメータを用いて、前記強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する音声認識部と、前記音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるように前記マスク推定用のパラメータを推定するパラメータ推定部と、を有することを特徴とする。

また、本発明のマスク推定用パラメータ推定方法は、マスク推定用パラメータ推定装置で実行されるマスク推定用パラメータ推定方法であって、目的音源に対応する１個の第１の音響信号と、雑音に対応するＮ−１個の第２の音響信号と、を含んだＮ個の音響信号が混在する状況において、それぞれ異なる位置で収録されたＭ個の観測信号のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、前記時間周波数点ごとの観測信号のＭ次元縦ベクトルである観測ベクトルを構成する時間周波数分析工程と、前記観測ベクトルとマスク推定用のパラメータとに基づいて、前記Ｎ個の音響信号のそれぞれが、前記時間周波数点ごとに、前記観測ベクトルにどの程度の割合で含まれているかを表すマスクを推定するマスク推定工程と、前記観測ベクトルと前記第１の音響信号についての前記マスクとを、前記時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する音声強調工程と、学習データを用いて事前に学習した音声認識用のパラメータを用いて、前記強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する音声認識工程と、前記音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるように前記マスク推定用のパラメータを推定するパラメータ推定工程と、を含んだことを特徴とする。

本発明によれば、環境に適応しながら音声認識を行う際に、限られた学習データで音声認識の精度を向上させることができる。

図１は、第１の実施形態に係るマスク推定用パラメータ推定装置の構成の一例を示す図である。図２は、第１の実施形態に係るマスク推定用パラメータ推定装置のパラメータ推定部の構成の一例を示す図である。図３は、第１の実施形態に係るマスク推定用パラメータ推定装置の処理の流れを示すフローチャートである。図４は、第１の実施形態に係るマスク推定用パラメータ推定装置のパラメータ推定部の処理の流れを示すフローチャートである。図５は、プログラムが実行されることによりマスク推定用パラメータ推定装置が実現されるコンピュータの一例を示す図である。

以下に、本願に係るマスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラムの実施形態を図面に基づいて詳細に説明する。なお、この実施形態により本発明が限定されるものではない。

［第１の実施形態の構成］
まず、図１を用いて、第１の実施形態に係るマスク推定用パラメータ推定装置の構成について説明する。図１は、第１の実施形態に係るマスク推定用パラメータ推定装置の構成の一例を示す図である。図１に示すように、マスク推定用パラメータ推定装置１０は、時間周波数分析部１１、マスク推定部１２、音声強調部１３、音声認識部１４およびパラメータ推定部１５を有する。

第１の実施形態において、パラメータ推定部１５は、マスク推定部１２、音声強調部１３および音声認識部１４を１つの計算ネットワークとして解釈する。つまり、パラメータ推定部１５は、マスク推定部１２、音声強調部１３および音声認識部１４からなる計算ネットワークの出力に基づいて、マスク推定のためのパラメータを推定する。以下、各処理部について説明する。

時間周波数分析部１１は、目的音源に対応する１個の第１の音響信号と、雑音に対応するＮ−１個の第２の音響信号と、を含んだＮ個の音響信号が混在する状況において、それぞれ異なる位置で収録されたＭ個の観測信号のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、時間周波数点ごとの観測信号のＭ次元縦ベクトルである観測ベクトルを構成する。なお、雑音には干渉音や背景雑音が含まれる。

短時間フーリエ変換等の短時間信号分析を用いて得られる観測特徴量ベクトルをｙ_ｆ，ｔと表すとする。ただし、ｔとｆは、それぞれ時間と周波数の番号であり、ｔは１〜Ｔの整数、ｆは０〜Ｆの整数であることとする。このとき、目的音源および雑音はスパース性を有し、各時間周波数点において高々１つの目的音源だけが存在すると仮定し、各時間周波数点における観測ベクトルｙ_ｆ，ｔを、以下の式（１）または（２）のいずれかの形式でモデル化できることが知られている（例えば非特許文献１を参照）。

ここで、式（１）は当該時間周波数点において目的音源だけが存在する場合を表し、式（２）はｎ番目の雑音のみが存在する場合を表す。ｓ（ｆ，ｔ）は、第１の音響信号、すなわち目的音源に対応する音響信号の時間周波数成分である。また、ｖ_ｎ（ｆ，ｔ）は、Ｎ−１個のうちのｎ番目の第２の音響信号、すなわちｎ番目の雑音に対応する音響信号のうちの時間周波数成分である。

マスク推定部１２は、観測ベクトルとマスク推定用のパラメータとに基づいて、Ｎ個の音響信号のそれぞれが、時間周波数点ごとに、観測ベクトルｙ_ｆ，ｔにどの程度の割合で含まれているかを表すマスクを推定する。

具体的に、マスク推定部１２は、周波数ごとに、観測ベクトルｙ_ｆ，ｔの確率分布を、Ｎ個の音響信号のそれぞれに対応するＮ個の要素分布からなる混合分布でモデル化し、要素分布の事後確率を、Ｎ個の音響信号のそれぞれに対応するマスクとして推定する。

マスク推定部１２は、まず、各時間周波数点の観測ベクトルｙ_ｆ，ｔの確率分布を、式（３）で表す。

ここで、Θ^（ｓ）は、目的音源に対応する要素分布のパラメータである。また、Θ^（ｖｎ）は、ｎ番目の雑音に対応する要素分布のパラメータである。また、α_ｆ ^（ｓ）は、周波数ｆにおける目的音源に対応する要素分布の重みパラメータである。また、α_ｆ ^（ｖｎ）は、周波数ｆにおけるｎ番目の雑音に対応する要素分布の重みパラメータである。また、α_ｆ ^（ｓ）およびα_ｆ ^（ｖｎ）は、式（４）を満たす。

このとき、マスク推定部１２は、時間周波数点（ｆ，ｔ）における目的音源に対応するマスクλ_ｆ，ｔ ^（ｓ）を式（５）によって計算する。

式（５）は、この式は、観測ベクトルｙ_ｆ，ｔを入力として、内部パラメータΘ^(s)，Θ^(ｖ１)，…，Θ^{(ｖＮ−１)}，α_ｆ ^（ｓ） _，α_ｆ ^（ｖ１），…，α_ｆ ^{（ｖＮ−１）}を用いて、マスクλ_ｆ，ｔ ^（ｓ）を推定する計算ネットワークと解釈できるので、当該計算ネットワークによる演算は式（６）で表される。ただし、νはｓまたはｖ_ｎである。

音声強調部１３は、観測ベクトルｙ_ｆ，ｔと第１の音響信号についてのマスクとを、時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する。例えば、音声強調部１３は、式（７）に示すように、Ｍ個の観測信号のうちのｍ´番目の観測信号に対応する観測ベクトルｙ_ｆ，ｔ ^（ｍ´）とマスクλ_ｆ，ｔ ^（ｓ）とを時間周波数点において掛け合わせることで強調音声を得る。

ここで、式（７）の演算を、式（８）のように表す。

音声認識部１４は、学習データを用いて事前に学習した音声認識用のパラメータを用いて、強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する。ここで、音声認識部１４による音素状態事後確率の計算を式（９）のように表す。＾Ｉ_ｔは、時刻ｔにおけるＩ個の音素状態に対応する音素状態事後確率が並んだベクトルである。なお、以降の説明で、＾ａはａの上に＾が付された記号を表すこととする。

式（６）、（８）および（９）より、観測ベクトルを用いて音素状態事後確率を推定するプロセスは、１つの計算ネットワークとして記述できる。パラメータ推定部１５は、計算ネットワークのパラメータと構造を保持することで、音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるようにマスク推定用パラメータを推定する。

これにより、第１の実施形態のマスク推定用パラメータ推定装置１０は、マスク推定用のパラメータを環境に合わせて最適化することができる。また、マスク推定用パラメータ推定装置１０によって最適化されるパラメータは、本来尤度最大化基準に基づき少量のデータから推定されていたパラメータなので、比較的数が少なく、少量のデータを用いてパラメータ推定を行った場合でも、過学習を防ぎながらパラメータ推定を行うことができる。

［実施例］
マスク推定用パラメータ推定装置１０の処理を、実施例に基づいて説明する。実施例では、１個の目的音源から出た音響信号を、雑音下でＭ個のマイクロホンで収録していることとする。このとき、マイクロホンｍで収録された観測信号をｙ^（ｍ）（τ）とすると、式（１０）に示すように、ｙ^（ｍ）（τ）は、目的音源に対応する音響信号ｓ^（ｍ）（τ）と雑音に対応する音響信号ｖ^（ｍ）（τ）の和で表される。

時間周波数分析部１１は、全てマイクロホンで収録された上記観測信号を受け取り、各観測信号ｙ^（ｍ）（τ）ごとに短時間信号分析を適用して時間周波数ごとの信号特徴量Ｙ^（ｍ）（ｆ，ｔ）を求める。時間周波数分析部１１は、短時間信号分析の手法として、短時間離散フーリエ変換や短時間離散コサイン変換等の手法を用いることができる。時間周波数分析部１１は、さらに、各時間周波数で得られた信号Ｙ^（ｍ）（ｆ，ｔ）を、全てのマイクロホンに関してまとめたベクトルである観測ベクトルｙ_ｆ，ｔを、式（１１）のように構成する。

実施例においては、一般性を失わずに表記を簡略化するため、目的音源に対応する要素分布の重みパラメータをα^（ｓ）＝α^（ｖ１）＝…＝α^{（ｖＮ−１）}＝１／Ｎであるとする。マスク推定部１２は、各時間周波数点の観測ベクトルを、それぞれ目的音源と雑音に対する２つの正規分布の混合分布によってモデル化する。このとき、分布パラメータφ_ｆ，ｔ ^（ν）およびマスク推定用パラメータＲ_ｆ ^（ν）が与えられたとき、マスク推定部１２は、各正規分布に対応する事後確率を、式（１２）とする。

ここで、非特許文献１に記載されたパラメータφ_ｆ，ｔ ^（ν）の更新則を用いて、式（１２）は、式（１３）のように表すことができる。

式（５）と式（１３）より、マスク推定部１２は、マスク目的音源に対するマスクλ_ｆ，ｔ ^（ｓ）を、式（１４）のように計算する。

ただし、ｐ_ｆ，ｔ ^（ｓ）およびｐ_ｆ，ｔ ^（ｖ）は、それぞれ式（１５）および（１６）の通りである。

マスク推定部１２による演算は、Ｒ_ｆ ^（ν）を内部パラメータとして、観測ベクトルから目的音源に対応するマスクを計算するネットワークとして解釈できるので、当該計算ネットワークによる演算は式（１７）で表される。なお、式（１７）は、式（６）に対応している。

また、一例として、マスク推定部１２は、観測ベクトルｙ_ｆ，ｔの確率分布を、平均が０であるＮ個のＭ次元複素ガウス分布であって、共分散行列が、各時刻において異なる値を取るスカラーパラメータと時不変のパラメータとを要素にもつエルミート行列の積で表されるＭ次元複素ガウス分布からなる混合分布でモデル化する。例えば、式（１０）および（１１）におけるφ_ｆ，ｔ ^（ν）を各時刻において異なる値を取るスカラーパラメータ、Ｒ_ｆ ^（ν）を時不変のパラメータとすることができる。

音声強調部１３は、マスクを受け取り、式（１８）を用いて、参照マイクであるｍ´番目のマイクで録音された成分ｙ_ｆ，ｔ ^（ｍ´）に、マスクλ_ｆ，ｔ ^（ｓ）を乗算することで強調音声＾ｓ_ｆ，ｔを計算する。なお、音声強調部１３は、マスクλ_ｆ，ｔ ^（ｓ）をβ乗した値をｙ_ｆ，ｔ ^（ｍ´）に乗算することで強調音声＾ｓ_ｆ，ｔを計算してもよい。

音声認識部１４は、各周波数における強調音声が並んだベクトル＾ｓ_ｔ＝［＾ｓ_１，ｔ，…，＾ｓ_Ｆ，ｔ］を基に、事前に学習した音声認識用のパラメータを用いて、線形演算と非線形演算を複数回繰り返し、各時刻毎の音素状態事後確率＾Ｉ＝［＾Ｉ_１，ｔ，…，＾Ｉ_Ｋ，ｔ］を計算する。このときの音声認識部１４による演算を、式（１９）のように表す。

式（１７）〜（１９）により、マスク推定部１２、音声強調部１３および音声認識部１４は、観測ベクトルを入力とし、音素状態事後確率を出力とする１つの計算ネットワークと解釈することができる。ここで、パラメータ推定部１５によりマスク推定用のパラメータの推定について、図２を用いて説明する。図２は、第１の実施形態に係るマスク推定用パラメータ推定装置のパラメータ推定部の構成の一例を示す図である。図２に示すようにパラメータ推定部１５は、マスク推定用パラメータ初期化部１５１、勾配計算部１５２、パラメータ保持部１５３、パラメータ更新部１５４および収束判定部１５５を有する。

実施例では、音声強調を行わずに音声認識を行った場合の認識結果を、バイナリの参照ラベルとして用いる。このとき、パラメータ推定部１５において、パラメータ更新のための目的関数は、音素状態事後確率＾Ｉ_ｔと、参照ラベルＩ_ｔ＝［Ｉ_１，ｔ，…，Ｉ_Ｋ，ｔ］との間のクロスエントロピーとして、式（２０）のように定義することができる。

なお、式（２０）のクロスエントロピーは、パラメータ推定部１５が最小化する距離基準の一例である。マスク推定用パラメータ初期化部１５１は、マスク推定用パラメータＲ_ｆ ^（ν）の初期値および学習率γを決定する。マスク推定用パラメータＲ_ｆ ^（ν）には、Ｒ_ｆ ^（ｓ）およびＲ_ｆ ^（ｓ）が含まれる。なお、マスク推定用パラメータ初期化部１５１は、マスク推定用パラメータＲ_ｆ ^（ν）の初期値を単位行列としてもよいし、非特許文献1に記載された尤度最大化基準により求めてもよい。また、パラメータ保持部１５３は音声強調部１３のパラメータと、音声認識部１４のパラメータとを保持している。

パラメータ更新部１５４は、最急降下法の原理に基づき、式（２１）によってマスク推定用パラメータＲ_ｆ ^（ν）を更新する。なお、この場合、実際に更新されるのはマスク推定用パラメータＲ_ｆ ^（ν）の逆行列である。

ここで、前述の通り、マスク推定部１２、音声強調部１３および音声認識部１４は１つの計算ネットワークと解釈することができるため、勾配計算部１５２は、音素状態事後確率＾Ｉ_ｔ、参照ラベルＩ_ｔ、および、パラメータ保持部１５３によって保持されているパラメータを受け取り、式（２１）における勾配∂Ｌ（Ｉ_ｔ，＾Ｉ_ｔ）／∂｛Ｒ_ｆ ^{（ν）−１}｝^＊を、連鎖側を用いて式（２２）のように計算する。

収束判定部１５５は、パラメータ更新部１５４による更新の結果、目的関数が収束したか否かを判定する。収束判定部１５５が収束したと判定した場合、パラメータ推定部１５は、推定したマスク推定用パラメータを出力する。また、収束判定部１５５が収束していないと判定した場合、パラメータ推定部１５は、更新したマスク推定用パラメータを用い、勾配計算部１５２およびパラメータ更新部１５４による処理をさらに繰り返す。なお、収束判定部１５５は、所定回数だけ繰り返しが行われた場合に処理を収束したと判定することとしてもよい。

これにより、パラメータ推定部１５は、音素状態事後確率＾Ｉ_ｔと、参照ラベルＩ_ｔとの間のクロスエントロピーを局所最小化するようなマスク推定用パラメータを得ることができる。

また、音声認識部１４がニューラルネットワークにより構成されている場合、勾配計算部１５２は、式（２２）における勾配∂Ｌ（Ｉ_ｔ，＾Ｉ_ｔ）／∂＾ｓ_ｆ，ｔを、当該ニューラルネットワークのパラメータを推定する際に用いられるバックプロパゲーションに基づく手法を用いて計算することができる。例えば、勾配計算部１５２は、勾配∂＾ｓ_ｆ，ｔ／∂λ_ｆ，ｔ ^（ｘ）を、式（１８）に基づき、式（２３）として計算する。

また、例えば、勾配計算部１５２は、勾配∂λ_ｆ，ｔ ^（ｘ）／∂ｐ_ｆ，ｔ ^（ν）を、式（１４）に基づき、式（２４）または（２５）として計算する。

また、例えば、勾配計算部１５２は、勾配∂ｐ_ｆ，ｔ ^（ν）／∂｛Ｒ_ｆ ^{（ν）−１}｝^＊を、式（１５）および（１６）に基づき、式（２６）として計算する。

［第１の実施形態の処理］
図３を用いて、マスク推定用パラメータ推定装置１０の処理の流れについて説明する。図３は、第１の実施形態に係るマスク推定用パラメータ推定装置の処理の流れを示すフローチャートである。

図３に示すように、まず、マスク推定用パラメータ推定装置１０の時間周波数分析部１１は、目的音源と雑音に対応した音響信号に対し時間周波数分析を行い、観測ベクトルを取得する（ステップＳ１１）。次に、マスク推定部１２は、マスク推定用パラメータと観測ベクトルとを基に、音声強調のためのマスクを推定する（ステップＳ１２）。

音声強調部１３は、観測ベクトルと、マスク推定部１２によって推定されたマスクとを掛け合わせ、強調音声を取得する（ステップＳ１３）。そして、音声認識部１４は、強調音声と音声認識用のパラメータとを用いて、音声認識を行う（ステップＳ１４）。そして、パラメータ推定部１５は、マスク推定部１２、音声強調部１３および音声認識部１４を１つの計算ネットワークとし、音声認識結果が参照ラベルに近くなるようにマスク推定用パラメータの推定を行う（ステップＳ１５）。

次に、図４を用いて、パラメータ推定部１５の処理について説明する。図４は、第１の実施形態に係るマスク推定用パラメータ推定装置のパラメータ推定部の処理の流れを示すフローチャートである。図４に示すように、パラメータ推定部１５のマスク推定用パラメータ初期化部１５１は、マスク推定用パラメータの初期値を決定する（ステップＳ１５１）。次に、勾配計算部１５２は、音声状態事後確率と、参照ラベルと、音声強調部１３および音声認識部１４のパラメータとを受け取り、音声状態事後確率と参照ラベルとの間の距離基準の勾配を計算する（ステップＳ１５２）。パラメータ更新部１５４は、距離基準が小さくなるようにマスク推定用のパラメータを更新する（ステップＳ１５３）。

収束判定部１５５がマスク推定用のパラメータが収束したと判定した場合（ステップＳ１５４、Ｙｅｓ）、パラメータ推定部１５は処理を終了する。また、収束判定部１５５がマスク推定用のパラメータが収束していないと判定した場合（ステップＳ１５４、Ｎｏ）、パラメータ推定部１５は、処理をステップＳ１５２に戻し、更新したマスク推定用パラメータを用い、勾配計算部１５２およびパラメータ更新部１５４による処理をさらに繰り返す。

［第１の実施形態の効果］
時間周波数分析部１１は、目的音源に対応する１個の第１の音響信号と、雑音に対応するＮ−１個の第２の音響信号と、を含んだＮ個の音響信号が混在する状況において、それぞれ異なる位置で収録されたＭ個の観測信号のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、時間周波数点ごとの観測信号のＭ次元縦ベクトルである観測ベクトルを構成する。また、マスク推定部１２は、観測ベクトルとマスク推定用のパラメータとに基づいて、Ｎ個の音響信号のそれぞれが、時間周波数点ごとに、観測ベクトルにどの程度の割合で含まれているかを表すマスクを推定する。また、音声強調部１３は、観測ベクトルと第１の音響信号についてのマスクとを、時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する。また、音声認識部１４は、学習データを用いて事前に学習した音声認識用のパラメータを用いて、強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する。また、パラメータ推定部１５は、音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるようにマスク推定用のパラメータを推定する。

このように、第１の実施形態では、音声認識部１４による音声認識結果を、マスク推定用のパラメータの推定に反映させ、また、音声認識部１４のパラメータを更新する必要がないので、環境に適応しながら音声認識を行う際に、限られた学習データで音声認識の精度を向上させることができる。

マスク推定部１２は、周波数ごとに、観測ベクトルの確率分布を、Ｎ個の音響信号のそれぞれに対応するＮ個の要素分布からなる混合分布でモデル化し、要素分布の事後確率を、Ｎ個の音響信号のそれぞれに対応するマスクとして推定してもよい。これにより、目的音源および雑音に対応した音響信号のそれぞれに対し、マスクの推定を行うことが可能となる。

マスク推定部１２は、観測ベクトルの確率分布を、平均が０であるＮ個のＭ次元複素ガウス分布であって、共分散行列が、各時刻において異なる値を取るスカラーパラメータと時不変のパラメータとを要素にもつエルミート行列の積で表されるＭ次元複素ガウス分布からなる混合分布でモデル化してもよい。

一般的に、目的音源に対応する音響信号は、マイクロホンからみて音源方向から主に到来し、雑音はあらゆる方向から到来する。また、エルミート行列には、音源方向に対応する部分空間に最大の固有値を持ち、それ以外の部分空間の固有値は比較的小さな値を持つという性質があるため、エルミート行列を用いてモデル化することで、推定したマスクがどの音響信号に対応したものであるかが明確になる。

ここで、本発明の効果を確認するために行った、従来の方法および第１の実施形態を用いた確認実験について説明する。確認実験では、学習率γを１０^５、Ｒ_ｆ ^（ν）の初期値を非特許文献１に記載の尤度最大化基準で求めた値、更新則の反復回数を３０回とした。また、音声強調は、マスクをそのまま掛け合わせることで行った。

確認実験では、バスの中、カフェ等の背景雑音の存在する環境下において、１人の話者がタブレットに向かって文章を読み上げている状況で、タブレットに装着されたＭ＝６個のマイクで収録した信号に対する音声認識を行った。以下に、従来の方法を用いて音声認識を行った場合と第１の実施形態を用いて音声認識を行った場合の単語誤り率を示す。
（１）音声強調を行わず音声認識を行った場合：２４．６６（％）
（２）非特許文献１に記載の尤度最大化規準で分布パラメータを推定した後、マスキングによって音声強調を行ったうえで音声認識を行った場合：１９．８８（％）
（３）音声認識部のパラメータの一部を、非特許文献２に記載の方法で再推定したうえで音声認識を行った場合：２４．１０（％）
（４）第１の実施形態の方法で分布パラメータを推定し、マスキングによって音声強調を行ったうえで音声認識を行った場合：１８．３５（％）
確認実験の結果、（４）の場合が最も単語誤り率が小さくなった。これより、第１の実施形態によれば、従来の方法と比べて音声認識精度を向上させることができるといえる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、マスク推定用パラメータ推定装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記のマスク推定用パラメータ推定を実行するマスク推定用パラメータ推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のマスク推定用パラメータ推定プログラムを情報処理装置に実行させることにより、情報処理装置をマスク推定用パラメータ推定装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、マスク推定用パラメータ推定装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記のマスク推定用パラメータ推定に関するサービスを提供するマスク推定用パラメータ推定サーバ装置として実装することもできる。例えば、マスク推定用パラメータ推定サーバ装置は、計算ネットワークの各パラメータ、音声認識結果および参照ラベルを入力とし、マスク推定用パラメータを出力とするマスク推定用パラメータ推定サービスを提供するサーバ装置として実装される。この場合、マスク推定用パラメータ推定サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記のマスク推定用パラメータ推定に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図５は、プログラムが実行されることによりマスク推定用パラメータ推定装置が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、マスク推定用パラメータ推定装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、マスク推定用パラメータ推定装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤにより代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３およびプログラムデータ１０９４は、ネットワーク（ＬＡＮ、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３およびプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０マスク推定用パラメータ推定装置
１１時間周波数分析部
１２マスク推定部
１３音声強調部
１４音声認識部
１５パラメータ推定部
１５１マスク推定用パラメータ初期化部
１５２勾配計算部
１５３パラメータ保持部
１５４パラメータ更新部
１５５収束判定部

Claims

目的音源に対応する１個の第１の音響信号と、雑音に対応するＮ−１個の第２の音響信号（ただし、Ｎは２以上の整数）と、を含んだＮ個の音響信号が混在する状況において、それぞれ異なる位置で収録されたＭ個の観測信号（ただし、Ｍは２以上の整数）のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、前記時間周波数点ごとの観測信号のＭ次元縦ベクトルである観測ベクトルを構成する時間周波数分析部と、
前記観測ベクトルとマスク推定用のパラメータとに基づいて、前記Ｎ個の音響信号のそれぞれが、前記時間周波数点ごとに、前記観測ベクトルにどの程度の割合で含まれているかを表すマスクを推定するマスク推定部と、
前記観測ベクトルと前記第１の音響信号についての前記マスクとを、前記時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する音声強調部と、
学習データを用いて事前に学習した音声認識用のパラメータを用いて、前記強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する音声認識部と、
前記音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるように前記マスク推定用のパラメータを推定するパラメータ推定部と、
を有することを特徴とするマスク推定用パラメータ推定装置。
前記マスク推定部は、周波数ごとに、前記観測ベクトルの確率分布を、前記Ｎ個の音響信号のそれぞれに対応するＮ個の要素分布からなる混合分布でモデル化し、前記要素分布の事後確率を、前記Ｎ個の音響信号のそれぞれに対応するマスクとして推定することを特徴とする請求項１に記載のマスク推定用パラメータ推定装置。
前記マスク推定部は、前記観測ベクトルの確率分布を、平均が０であるＮ個のＭ次元複素ガウス分布であって、共分散行列が、各時刻において異なる値を取るスカラーパラメータと時不変のパラメータとを要素にもつエルミート行列の積で表されるＭ次元複素ガウス分布からなる混合分布でモデル化することを特徴とする請求項２に記載のマスク推定用パラメータ推定装置。
マスク推定用パラメータ推定装置で実行されるマスク推定用パラメータ推定方法であって、
目的音源に対応する１個の第１の音響信号と、雑音に対応するＮ−１個の第２の音響信号（ただし、Ｎは２以上の整数）と、を含んだＮ個の音響信号が混在する状況において、それぞれ異なる位置で収録されたＭ個の観測信号（ただし、Ｍは２以上の整数）のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、前記時間周波数点ごとの観測信号のＭ次元縦ベクトルである観測ベクトルを構成する時間周波数分析工程と、
前記観測ベクトルとマスク推定用のパラメータとに基づいて、前記Ｎ個の音響信号のそれぞれが、前記時間周波数点ごとに、前記観測ベクトルにどの程度の割合で含まれているかを表すマスクを推定するマスク推定工程と、
前記観測ベクトルと前記第１の音響信号についての前記マスクとを、前記時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する音声強調工程と、
学習データを用いて事前に学習した音声認識用のパラメータを用いて、前記強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する音声認識工程と、
前記音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるように前記マスク推定用のパラメータを推定するパラメータ推定工程と、
を含んだことを特徴とするマスク推定用パラメータ推定方法。
前記マスク推定工程は、周波数ごとに、前記観測ベクトルの確率分布を、前記Ｎ個の音響信号のそれぞれに対応するＮ個の要素分布からなる混合分布でモデル化し、前記要素分布の事後確率を、前記Ｎ個の音響信号のそれぞれに対応するマスクとして推定することを特徴とする請求項４に記載のマスク推定用パラメータ推定方法。
前記マスク推定工程は、前記観測ベクトルの確率分布を、平均が０であるＮ個のＭ次元複素ガウス分布であって、共分散行列が、各時刻において異なる値を取るスカラーパラメータと時不変のパラメータとを要素にもつエルミート行列の積で表されるＭ次元複素ガウス分布からなる混合分布でモデル化することを特徴とする請求項５に記載のマスク推定用パラメータ推定方法。
コンピュータを、請求項１から３のいずれか１項に記載のマスク推定用パラメータ推定装置として機能させるためのマスク推定用パラメータ推定プログラム。