JP2011191759A

JP2011191759A - 音声認識装置及び音声認識方法

Info

Publication number: JP2011191759A
Application number: JP2011053124A
Authority: JP
Inventors: Kazuhiro Nakadai; 一博中臺; Toru Takahashi; 徹高橋; Hiroshi Okuno; 博奥乃
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2010-03-11
Filing date: 2011-03-10
Publication date: 2011-09-29
Anticipated expiration: 2031-03-10
Also published as: JP5738020B2; US8577678B2; US20110224980A1

Abstract

【課題】環境の変化に対応することのできる構造を有したソフトマスクを使用した音声認識装置を提供する。
【解決手段】音声認識装置は、複数音源からの混合音を分離する音源分離部（１００）と、分離された音声信号の周波数のスペクトル成分ごとに、０から１の間の連続的な値をとりうるソフトマスクを、分離された音声信号の分離信頼度に対する音声信号及びノイズの分布を使用して生成するマスク生成部（４００）と、前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部（５００）と、を備えている。
【選択図】図１

Description

本発明は、複数音源の音声を同時認識する音声認識装置及び音声認識方法に関する。

複数音源の音声を同時認識する技術は、たとえば、ロボットが実環境で活動する際に重要な技術である。複数音源の音声を同時認識する音声認識システムは、音源ごとに音声を分離し、分離した音声の音響特徴量を使用して音声認識を行なう。ここで、音声認識を行なう際に、分離の信頼度に応じて音響特徴量ごとにマスクが使用される。このようなマスクとして、０または１の２値のハードマスクを使用する方法に加えて０から１の連続的な値を与えるソフトマスクを使用する方法も提案されている（特許文献１）。しかし、ソフトマスクを生成する従来の方法は、実験に基づくものであり、異なる環境ごとに実験を行ってソフトマスクの構造を定める必要があった。このように、従来、環境の変化に対応することのできる構造を有したソフトマスクを使用した音声認識装置及び音声認識方法は開発されていなかった。

特開２０１０−４９２４９号公報

したがって環境の変化に対応することのできる構造を有したソフトマスクを使用した音声認識装置及び音声認識方法に対するニーズがある。

本発明の第１の態様による音声認識装置は、複数音源からの混合音を分離する音源分離部と、分離された音声信号の周波数のスペクトル成分ごとに、０から１の間の連続的な値をとりうるソフトマスクを、分離された音声信号の分離信頼度に対する音声信号及びノイズの分布を使用して生成するマスク生成部と、前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部と、を備えている。

本態様によれば、マスク生成部が、分離された音声信号の分離信頼度に対する音声信号及びノイズの分布を使用してソフトマスクを生成するので、環境の変化に応じて適切なソフトマスクを生成することができる。その結果、高性能の音声認識装置が得られる。

本発明の第２の態様による音声認識方法は、音源分離部が、複数音源からの混合音を分離するステップと、マスク生成部が、分離された音声信号の分離信頼度を求めるステップと、マスク生成部が、音声信号とノイズを分離するステップと、マスク生成部が、分離信頼度に対する音声信号及びノイズの分布を求めるステップと、マスク生成部が、分離信頼度に対する音声信号及びノイズの分布から、分離された音声信号の周波数のスペクトル成分ごとにソフトマスクを作成するステップと、音声認識部が、該ソフトマスクを使用して音声を認識するステップと、を含む。

本態様によれば、マスク生成部が、分離された音声信号の分離信頼度に対する音声信号及びノイズの分布を使用してソフトマスクを生成するので、環境の変化に応じて適切なソフトマスクを生成することができる。その結果、高性能の音声認識方法が得られる。

本発明の実施形態による音声認識装置及び音声認識方法において、前記マスク生成部は、時系列入力信号の周波数スペクトルの成分ごとに生成された、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、指数移動平均の重みをつけた累積ヒストグラムを使用して、音声信号とノイズとを分離し、前記分離信頼度に対する音声信号の分布及びノイズの分布を求める。

本実施形態によれば、パワーに対する音声信号及びノイズの分布の特性から、音声信号とノイズとを明確に分離することができる。

本発明の実施形態による音声認識装置及び音声認識方法において、前記マスク生成部が、環境の変化に応じて適応的にソフトマスクを生成するように構成されている。

本実施形態によれば、環境の変化に常にソフトマスクを適応させることができる。

本発明の実施形態による音声認識装置及び音声認識方法において、前記マスク生成部が、前記分離信頼度を変数とする正規分布の確率密度関数を使用して前記ソフトマスクを生成する。

本実施形態によれば、簡単な手順でソフトマスクを生成することができる。

本発明の実施形態による音声認識装置及び音声認識方法において、前記ソフトマスクが、音声信号の静的特徴量と動的特徴量に対して、別個の重み係数を備える。

本実施形態によれば、静的特徴量の重み係数と動的特徴量の重み係数を別個に調整することにより、音声認識性能をより向上させることができる。

本発明の一実施形態による音声認識装置の構成を示す図である。マスク生成部の構成を示す図である。マスク生成部の音声・ノイズ分離処理部の構成を示す図である。マスク生成に関連する処理を説明するための流れ図である。累積ヒストグラム生成部によって作成される累積ヒストグラムを説明するための図である。累積ヒストグラム生成部及びノイズパワー推定部の動作を説明するための流れ図である。スピーカー及びロボットの配置を示す図である。スピーカーが、０度、９０度及び−９０度に設置された場合に、正面スピーカーに対して、パラメータｗ₁ 及びｗ₂の最適化の例を示す図である。正面スピーカーに対する平均した語正答率を示す図である。左側スピーカーに対する平均した語正答率を示す図である。右側スピーカーに対する平均した語正答率を示す図である。

図１は、本発明の一実施形態による音声認識装置の構成を示す図である。音声認識装置は、複数話者など複数音源の音声を同時認識する。音声認識装置は、音源分離部１００、多チャンネルポストフィルタ２００、音特徴抽出部３００、マスク生成部４００及び音声認識部５００から構成される。

音源分離部１００について説明する。Ｍ個の音源とＮ個（≧Ｍ）のマイクロフォンがあるとする。周波数ωにおけるＭ個の音源のスペクトルベクトルを、

で示し、周波数ωにおけるＮ個のマイクロフォンによってとらえられた信号のスペクトルベクトルを

で示す。ここで、Ｔは、転置オペレータである。
x(ω)
は、
x(ω) = H(ω)s(ω)
によって計算される。ここで、
H(ω)
は、伝達関数行列である。伝達関数行列の各コンポーネントＨｎｍは、ｍ番目の音源からｎ番目のマイクロフォンへの伝達関数を表す。音源分離は、一般的に以下の式によってあらわされる。
y(ω) = W(ω)x(ω)
ここで、
W(ω)
は、分離行列と呼ばれる。音源分離は、出力信号
y(ω)
が
s(ω)
と同じであるという条件を満足する
W(ω)
を見つけることとして定義される。

音源分離のアルゴリズムとして、Blind Source Separation (BSS)と beamforming の複合アルゴリズムであるGeometric Source Separation (GSS)( L. C. Parra and C. V. Alvino, “Geometric source separation: Mergin convolutive source separation with geometric beam forming,” IEEE Transactions on Speech and Audio Processing, vol. 10, no. 6, pp. 352−362, 2002.)を使用する。

多チャンネルポストフィルタ２００について説明する。多チャンネルポストフィルタ２００は、音源分離部１００の出力を強調するために使用される(S. Yamamoto, K. Nakadai, J.-M. Valin, J. Rouat, F. Michaud, K. Komatani, T. Ogata, and H. G. Okuno, “Making a robot recognize three simultaneous sentences in real-time,” in Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2005). IEEE, 2005, pp. 897−902.)。多チャンネルポストフィルタ２００は、文献(Y. Ephraim and D. Malah, “Speech enhancement using minimum mean-square error short-time spectral amplitude estimator,” IEEE Transactions on Acoustics, Speech and Signal Processing, vol. ASSP-32, no. 6, pp. 1109−1121, 1984.)に記載された最適ノイズ推定器を使用したスペクトルフィルタである。この方法は、スペクトル減算(S. F. Boll, “A spectral subtraction algorithm for suppression of acoustic noise in speech,” in Proceedings of 1979 International Conference on Acoustics, Speech, and Signal Processing (ICASSP-79). IEEE, 1979, pp. 200−203.)の一種であるが、時間及び周波数の寄与を考慮しているので、ミュージカルノイズ及びひずみの発生量は少ない。

多チャンネルポストフィルタ２００の入力は、音源分離部１００の出力ｙである。多チャンネルポストフィルタ２００の出力は、

であり、

と定義される。ここで、Ｇはスペクトルゲインである。Ｇの推定は、スペクトル振幅のＭＭＳＥ（minimum mean-square error）推定に基づいている。Ｇを推定するためにノイズ分散が推定される。

ノイズ分散推定値
λ_m
は、

と表現される。ここで、

は、周波数ｆに対するフレームｔにおける音源ｍに対するノイズの定常成分の推定値であり、

は、音源リークの推定値である。

定常ノイズ推定値

は、ＭＣＲＡ技法（I. Cohen and B. Berdugo, “Speech enhancement for non-stationary noise environments,” Signal Processing, vol. 81, no. 2, pp. 2403−2418, 2001.）を使用して計算した。

を推定するには、他の音源からの干渉は、係数η

によって減少すると仮定した。リーク推定値は、以下のように表現される。

ここで、Ｚ_ｉは、ｍ番目の音源ｙ_ｍの平滑化されたスペクトルであり、再帰的に定義される（S. Yamamoto, K. Nakadai, J.-M. Valin, J. Rouat, F. Michaud, K. Komatani, T. Ogata, and H. G. Okuno, “Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals,” in Proceedings of 19th International Conference on Industrial, Engineering, and Other Applications of Applied Intelligent Systems (IEA/AIE’06), vol. LNAI 4031. Springer-Verlag, 2006, pp. 207−217.）。

αは、０．７である。

音特徴抽出部３００について説明する。音特徴として、メル・スケール・ログ・スペクトル(Mel-Scale Log Spectrum (MSLS))を使用する。ＭＳＬＳは、メル周波数ケプストラム係数(Mel-Frequency Cepstral Coefficient (MFCC))( R. Plomp, L. Pols, and J. van de Geer, “Dimensional analysis of vowel spectra,” Acoustical Society of America, vol. 41, no. 3, pp. 707−712, 1967.)に逆離散コサイン変換を適用することによって得られる。その後、ノイズロバストな音特徴を得るために、３個の正規化プロセス、平均パワー正規化、スペクトルピーク強調及びスペクトル平均正規化を適用する。詳細は文献(Y. Nishimura, T. Shinozaki, K. Iwano, and S. Furui, “Noise-robust speech recognition using multi-band spectral features,” in Proceedings of 148th Acoustical Society of America Meetings, no. 1aSC7, 2004.)に記載されている。

特徴量は、静的スペクトル特徴量と動的スペクトル特徴量を含む。静的スペクトル特徴量をＭ（ｋ）とすると、動的スペクトル特徴量は以下の式によって定義される。

ここで、ｋ、ｉは時間のインデクスである。動的スペクトル特徴量は、リークノイズ及び静的背景ノイズに対してロバストである。その理由は、隣接する静的スペクトル特徴量の差として定義された動的スペクトル特徴量は、リークノイズ及び静的背景ノイズをキャンセルすることができるからである。静的スペクトル特徴量は、そのようなノイズに対して、動的スペクトル特徴量よりもロバストではない。したがって、動的スペクトル特徴量の寄与が、静的スペクトル特徴量の寄与よりも高い場合には、音声認識率が向上することが期待される。

音声認識部５００について説明する。音声認識部５００は、時間・周波数マップにおいて、音声認識を向上させるためにミッシングフィーチャ・マスク(以下に、ＭＦＭと呼称する)を使用する。ＭＦＭの中で、０または１の２値のものをハードＭＦＭまたはハードマスクと呼称し、０と１の間の連続的な値をとるものをソフトＭＦＭまたはソフトマスクと呼称する。各ＭＦＭは、特定の時間フレームにおいて周波数ビンに対するスペクトル値が信頼できるかどうかを特定する。予備処理におけるエラーによって生じた、信頼できない音特徴量は、ＭＦＭを使用して遮断され、信頼できる音特徴量だけが、音声認識デコーダにおける尤度計算に使用される。デコーダは、隠れマルコフモデル(Hidden Markov Model、ＨＭＭ)ベースの認識システムであり、従来の音声認識システムにおいて一般的に使用されている。音声認識部５００においては、デコーダにおける出力確率の推定プロセスが改良されている。

は、ｉ番目の音特徴量の信頼度を表すＭＦＭベクトルであるとする。出力確率

は、以下の式によって与えられる。

ここで、

は、確率オペレータである。また、Ｌは混合正規分布の混合数を表し、ｌは混合正規分布の混合数のインデクスを表す。

は、音特徴ベクトルであり、Ｎは音特徴ベクトルのサイズであり、

は、ｊ番目の状態である。

具体化するにあたり、Multiband Julian（Multiband Julius, “http://www.furui.cs.titech.ac.jp/mband julius/.”）を使用した。Multiband Julianは、Julian（the Japanese real-time large vocabulary speech recognition engine）（T. Kawahara and A. Lee, “Free software toolkit for Japanese large vocabulary continuous speech recognition,” in International Conference on Spoken Language Processing (ICSLP), vol. 4, 2000, pp. 476−479.）をベースとしている。

なお、ＭＦＭについては後で詳細に説明する。

マスク生成部４００について説明する。マスク生成部４００は、ソフトＭＦＭを生成する。

図２は、マスク生成部４００の構成を示す図である。マスク生成部４００は、定常ノイズ推定部４１０、分離信頼度演算部４２０、音声・ノイズ分離処理部４３０、及びマスク演算部４４０を備える。

定常ノイズ推定部４１０は、Ｎ個のマイクロフォンの信号から、ＭＣＲＡ技法（I. Cohen and B. Berdugo, “Speech enhancement for non-stationary noise environments,” Signal Processing, vol. 81, no. 2, pp. 2403−2418, 2001.）を使用して背景ノイズを推定する。

分離信頼度演算部４２０は、以下の式によって分離信頼度Ｒを計算する。

ここで、

は、多チャンネルポストフィルタ２００の出力であり、
y_m
は、音源分離部１００の出力である。
y_m
は、音声

と背景雑音
bn
とリークを足し合わせたものからなるため、リークがない場合（他の音源からの混ざりこみがなく、完全に分離できている場合）には分離信頼度Ｒが１となり、リークが大きくなるにつれて０に近い値をとるようになる。

音声・ノイズ分離処理部４３０は、分離信頼度Ｒ及び音源分離部１００の出力
y_m
を入力として、分離信頼度Ｒに対する音声信号及びノイズの分布を作成する。

図３は、マスク生成部４００の音声・ノイズ分離処理部４３０の構成を示す図である。音声・ノイズ分離処理部４３０は、累積ヒストグラム生成部４３１０、ノイズパワー推定部４３２０、音声・ノイズ分離部４３３０、音声分布作成部４３４０及びノイズ分布作成部４３５０を備える。

累積ヒストグラム生成部４３１０は、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、移動平均の重みをつけた累積ヒストグラムを、時系列入力信号の周波数スペクトルの成分ごとに生成する。移動平均の重みをつけた累積ヒストグラムについては後で説明する。ノイズパワー推定部４３２０は、入力信号の周波数スペクトルの成分ごとに、累積ヒストグラムからノイズパワーの推定値を求める。

図５は、累積ヒストグラム生成部４３１０によって作成される累積ヒストグラムを説明するための図である。図５の左側の図は、ヒストグラムを示す図である。横軸はパワーの大きさのインデクスであり縦軸は頻度である。図５の左側の図において、L₀はパワーの最小レベルを表し、L₁₀₀はパワーの最大レベルを表す。一般的に、ノイズのパワーのレベルは、話者による音声のレベルよりも小さい。また、ノイズの頻度は、話者による音声の頻度に比較してかなり多い。図５の右側の図は、累積ヒストグラムを示す図である。横軸はパワーの大きさのインデクスであり縦軸は累積頻度である。図５の右側の図において、L_xのｘは累積ヒストグラムの縦軸方向の位置を示し、たとえば、L₅₀は縦軸方向の５０に対応するメディアン（中間値）を示す。ノイズのパワーのレベルは、話者による音声のレベルよりも小さく、また、ノイズの頻度は、話者による音声の頻度に比較してかなり多いので、図５の右側の図において両矢印で示すように、所定の範囲のｘに対応するL_xの値は同じである。したがって、上記の所定の範囲のｘを定め、L_xを求めることによりノイズのパワーレベルを推定することができる。

図６は、累積ヒストグラム生成部４３１０及びノイズパワー推定部４３２０の動作を説明するための流れ図である。ここで、流れ図の説明に使用する符号は以下のとおりである。

図６のステップＳ２０１０において、累積ヒストグラム生成部４３１０が入力信号のパワーを以下の式によってインデクスに変換する。

パワーからインデクスへの変換は、計算時間を削減するため変換テーブルを使用して行われる。

図６のステップＳ２０２０において、累積ヒストグラム生成部４３１０が累積ヒストグラムを以下の式を使用して更新する。

ここで、αは時間減衰パラメータであり、時定数T_r及びサンプリング周波数F_sから以下の式によって定まる。

このようにして作成された累積ヒストグラムは、データの古さにしたがって重みが小さくなるように構成されている。このような累積ヒストグラムを移動平均の重みをつけた累積ヒストグラムと呼称する。式（６）においては、全てのインデクスにαを乗じ、インデクスI_y(t)のみに(1-α)を加算する。実際の計算においては、計算時間を削減するため式（６）を計算せずに直接式（７）を計算する。すなわち、式（７）において、全てのインデクスにαを乗じ、I_y(t)からI_maxまでのインデクスに（1-α）を加算する。さらに実際には、I_y(t)からI_maxまでのインデクスに（1-α）の代わりに指数的に増分した値
（1-α）α^-ｔを加算することによって、全てのインデクスにαを乗じる処理を避けることができ、さらに計算時間が削減される。しかし、この方法は、S(t,i)を指数的に増加させる。したがって、S(t,I_max)が変数の最大値に近づいた際に、S(t,i)の大きさを正規化する処理が必要である。

図６のステップＳ２０３０において、ノイズパワー推定部４３２０は、ｘに相当する累積ヒストグラムのインデクスを以下の式にしたがって求める。

ここで、argminは、 []内の値を最小値とするｉであることを意味する。１からI_maxまでの全てのインデクスについて式（８）の判定を行なう代わりに、前回検出されたインデクスI_x(t-1)から一方向の探索を行なうことによって計算時間が大幅に削減される。

図６のステップＳ２０４０において、ノイズパワー推定部４３２０は、ノイズパワーの推定値を以下の式にしたがって求める。

図６に示した方法は５個のパラメータを使用する。最小パワーレベルL_min、１ビンのパワーレベル幅L_step及び累積ヒストグラムの最大インデクスI_maxは、ヒストグラムの範囲及び急峻度を定める。これらのパラメータは、入力信号の範囲をカバーするように定めれば、ノイズの推定値に影響しない。一般的な値は以下のとおりである。
L_min=-100
L_step= 0.2
I_max= 1000
スペクトル成分の最大レベルは、９６ｄＢ（１Ｐａ）に正規化されるとした。

ｘ及びαは、ノイズ推定値に影響する主要なパラメータである。しかし、パラメータｘは、ノイズパワーのレベルが安定していれば、ノイズパワーの推定値L_xに敏感ではない。たとえば、図５において、ｘが３０％から７０％の範囲で変化しても、L_xの値は変化しない。不安定なノイズに対して、ノイズパワーのレベルの範囲の推定レベルを定める。実際には、時間周波数領域において、音声の信号はまばらであるので、音声出現頻度は、ほとんどの場合、ノイズ出現頻度の２０％よりも小さく、この値はＳＮ比及び周波数と無関係である。したがって、パラメータｘは、ＳＮ比または周波数ではなく、推定したいノイズのパワーのレベルのみに従って設定することができる。たとえば、音声出現頻度が２０％であれば、中間値のノイズパワーのレベルに対して、ｘ＝４０を設定し、最大値に対してｘ＝８０を設定する。

時定数T_rも、ＳＮ比または周波数にしたがって変化させる必要はない。時定数T_rは、ヒストグラム計算の等価平均時間を制御する。時定数T_rは、ノイズ及び音声の双方の長さに対して、十分大きい値に設定すべきである。質問及び回答のような一般的な繰り返し対話に対して、ほとんどの音声の発話期間は１０秒よりも小さいので、時定数T_rの一般的な値は１０秒である。

音声・ノイズ分離部４３３０は、ノイズパワー推定部４３２０によって定められたノイズ閾値を使用して、音源分離部１００の出力
y_m
を音声とノイズとに分離する。

音声分布作成部４３４０は、分離された音声と分離信頼度Ｒから、分離信頼度Ｒに対する音声の分布
d_s(R)
を作成する。ここで、音声の分布
d_s(R)
は正規分布と仮定する。正規分布の分布関数は以下の式によって定義される。

したがって、音声分布作成部４３４０は、平均値
μ_s
及び標準偏差
σ_s
を定めることによって音声分布
d_s(R)
を作成する。

ノイズ分布作成部４３５０は、分離されたノイズと分離信頼度Ｒから、分離信頼度Ｒに対するノイズの分布
d_n(R)
を作成する。ここで、ノイズの分布
d_n(R)
は正規分布と仮定する。したがって、ノイズ分布作成部４３５０は、平均値
μ_n
及び標準偏差
σ_n
を定めることによって
d_n(R)
を作成する。

マスク演算部４４０は、音声分布
d_s(R)
及びノイズの分布
d_n(R)
から以下の式にしたがって、音声の信頼度
B(R)
すなわち、ＭＦＭを求める。

静的音特徴量に対するＭＦＭは、以下の式によって得られる。

また、動的特徴量に対するＭＦＭは、以下の式によって得られる。

ここで、ｋは、フレーム・インデクスを表す。また、
ｗ₁ 及びｗ₂
は、静的特徴量及び動的特徴量の重み係数を表す。静的特徴量と動的特徴量に対して別個の重み係数を定めた点は、本例の特徴である。重み係数は、あらかじめ定めておく。重み係数の定め方の一例については後で説明する。

図４は、マスク生成に関連する処理を説明するための流れ図である。

図４のステップＳ１０１０において、音源分離部１００が音源分離処理を行う。音源分離部１００の出力は、
y_m
である。ここで、ｍは各音源を表す。

図４のステップＳ１０２０において、多チャンネルポストフィルタ２００が、音源分離部１００の出力
y_m
を強調する。多チャンネルポストフィルタ２００の出力は、

である。

図４のステップＳ１０３０において、マスク生成部４００の定常ノイズ推定部４１０が、定常ノイズ
bn
を推定する。

図４のステップＳ１０４０において、マスク生成部４００の分離信頼度演算部４２０が定常ノイズ
bn
音声分離部１００の出力
y_m
及び多チャンネルポストフィルタの出力

に基づいて分離信頼度Ｒを計算する。

図４のステップＳ１０５０において、マスク生成部４００の音声・ノイズ分離処理部４３０が、分離信頼度Ｒ及び音声分離部１００の出力
y_m
を使用して、分離信頼度Ｒに対する音声の分布
d_s(R)
及び分離信頼度Ｒに対するノイズの分布
d_n(R)
を求める。

図４のステップＳ１０６０において、マスク生成部４００のマスク演算部４４０が、分離信頼度Ｒに対する音声の分布
d_s(R)
及び分離信頼度Ｒに対するノイズの分布
d_n(R)
に基づいて、音声の信頼度
B(R)
を演算する。

ステップＳ１０１０乃至ステップＳ１０６０の処理は、時間ごとに実施される。したがって、時間に応じて環境が変化する場合にも、適応的にＭＦＭを作成することができる。

つぎに、静的特徴量及び動的特徴量の重み係数
ｗ₁ 及びｗ₂
の機能を確認するための実験について説明する。ここでは、簡単化の目的で、音声の信頼度
B(R)
を、パラメータａ及びｂを有するシグモイド関数によって近似した。静的音特徴量に対するＭＦＭは、以下の式で表せる。

x>b の場合

その他の場合

ここで

であり、ｋはフレーム・インデクスを表す。

また、動的音特徴量に対するＭＦＭは、以下の式で表せる。

ここで

である。

８個の全方位マイクロフォンを取り付けたロボットを使用して、３個の同時スピーチの認識性能を測定し、パラメータａ及びｂ、ならびにパラメータ
ｗ₁ 及びｗ₂
を最適化した。同時スピーチ信号は、反響時間が０．３５秒である部屋の中で記録した。３個の異なる単語は、ロボットから２メートル離れた３個のスピーカーから同じ大きさで発生させた。各単語は、国際電気通信基礎研究所（ＡＴＲ）による、２１６個の日本語の単語からなる音声的にバランスのとれた単語セットから選択した。

図７は、スピーカー及びロボットの配置を示す図である。１個のスピーカーは、ロボットの正面に配置した。他の２個のスピーカーは、ロボットの左側及び右側の、１０、２０、３０、４０、５０、６０、７０、８０又は９０度の角度に配置した。図７において右側の角度をθで示し、左側の角度を−θで示している。換言すれば、角度θを変えながら、９通りの構成で実験を行なった。それぞれの構成に対して、３つの異なる単語の２００個の組み合わせが実施された。

表１は、パラメータ・セット
p=(a,b,w₁,w₂)
の探索範囲を示す。

図８は、スピーカーが、０度、９０度及び−９０度に設置された場合に、正面スピーカーに対して、パラメータ
ｗ₁ 及びｗ₂
の最適化の例を示す図である。他の条件に対しても、パラメータ
ｗ₁ 及びｗ₂
の最適化について同様の傾向が得られた。パラメータａ及びｂの最適化を実施し、その結果は、各配置に対して共通の傾向を示すものであった。そこで、最適化されたパラメータ・セットを以下の式によって定義した。

ここで、
WC_θ、WR_θ 及びWL_θ
は、配置がそれぞれ、(０、θ、−θ)度であるとして、正面、右及び左スピーカーに対する、語正答率(word correct rate, WCR)を表す。

最終的にＭＦＭに対する最適化パラメータ・セット
P_opt= (40,0.5,0.1,0.2)
が得られた。

つぎに、別の実験により以下の３個の音声認識システムの性能を比較した。
１）ハードＭＦＭを使用した音声認識システム
静的音特徴量に対するハードＭＦＭは以下の式で定義される。
R>T_MFMの場合
ＨＭ_m(k)=1 (19)
その他の場合
ＨＭ_m(k)=0 (20)
ここで、
Ｔ_MFM
は閾値である。動的音特徴量に対するハードＭＦＭは以下の式で定義される。

ここで、ｋは、フレーム・インデクスを表す。
２）重みづけしないソフトＭＦＭを使用した音声認識システム
式（１５）及び式（１８）のソフトＭＦＭを使用する。重みは、
ｗ₁＝ｗ₂＝1
である。
３）最適化パラメータ・セットのソフトＭＦＭを使用した音声認識システム
式（１５）及び式（１８）のソフトＭＦＭを使用する。パラメータは、
P_opt= (40,0.5,0.1,0.2)
である。

実験の設定について説明する。３個のスピーカーが、３個のスピーチを同時に行うために使用される。１個のスピーカーはロボットの正面に固定され、他のスピーカーは、表２に示すように±３０°、±６０°、±９０°、±１２０°または±１５０°に配置される。ロボットと各スピーカーとの距離は１ｍである。表３に示すように、音源の４通りの組み合わせが使用される。このようにして、２０組のテストデータを作成した。各組のテストデータは、３つの異なる単語の２００個の組み合わせを含む。単語は、国際電気通信基礎研究所（ＡＴＲ）によって配布された、２１６個の音声的にバランスのとれた単語からランダムに選択した。

音声認識システムの音響モデルに対して、２７次元ＭＳＬＳ特徴量を使用して、隠れマルコフモデル(ＨＭＭ)に基づく、３状態及び１６混合のtriphoneモデルをトレーニングした。評価を公正にするためにオープンテストを行った。すなわち、音響モデルを、テストデータとは異なるスピーチ・コーパスによってトレーニングした。トレーニングデータとして、３００人のスピーカーによる４７，３０８の発語を含む、日本語ニュース記事スピーチ・データベースを使用した。スピーチデータに２０ｄＢの白色ノイズを加えた後、白色ノイズを加えたトレーニングデータで音響モデルをトレーニングした。この方法は、音声認識システム用の音響モデルのノイズ・ロバスト性を向上させるためのよく知られた技術である。

図９乃至図１１は、それぞれ、正面、左側及び右側スピーカーに対する平均した語正答率を示す図である。

正面スピーカーに対して、最適化パラメータ・セットのソフトＭＦＭは、音声認識の性能を顕著に向上させる。左側及び右側スピーカーに対して、向上量は正面スピーカーの向上量よりも小さい。しかし、特にスピーカーの間の間隔が狭い場合には、ある程度の向上がみられる。正面スピーカーからの音は、左側及び右側スピーカーの両方の影響を受ける。他方、左側または右側スピーカーは、主に正面スピーカーの影響を受ける。このように、正面スピーカーに対する時間・周波数コンポーネント(ＴＦ（Time-Frequency）コンポーネント)の重なりの数は、左側または右側スピーカーのものよりも大きい。また、正面スピーカーに対する、ＴＦコンポーネントの重なりの度合いは他のものよりも高い。このことは、最適化パラメータ・セットのソフトＭＦＭが、重なりの度合いが大きい場合でも、多数の重なっているＴＦコンポーネントをうまく処理することができることを示している。最適化パラメータ・セットのソフトＭＦＭの向上量は、三ケースを平均すると約１０％に達する。

重みづけしないソフトＭＦＭと最適化パラメータ・セットのソフトＭＦＭの差に注目すると、ソフトＭＦＭとハードＭＦＭの差と同様の傾向がみられる。すなわち、重みづけ係数の最適化は、２個のスピーカーが近付いた場合により有効である。このことは、重みづけ係数は、重なりの度合いが大きいＴＦコンポーネントを処理するように有効に機能することを意味する。

Claims

複数音源からの混合音を分離する音源分離部と、
分離された音声信号の周波数のスペクトル成分ごとに、０から１の間の連続的な値をとりうるソフトマスクを、分離された音声信号の分離信頼度に対する音声信号及びノイズの分布を使用して生成するマスク生成部と、
前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部と、を備えた音声認識装置。
前記マスク生成部は、時系列入力信号の周波数スペクトルの成分ごとに生成された、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、指数移動平均の重みをつけた累積ヒストグラムを使用して、音声信号とノイズとを分離し、前記分離信頼度に対する音声信号の分布及びノイズの分布を求める請求項１に記載の音声認識装置。
前記マスク生成部が、環境の変化に応じて適応的にソフトマスクを生成するように構成された請求項１または２に記載の音声認識装置。
前記マスク生成部が、前記分離信頼度を変数とする正規分布の確率密度関数を使用して前記ソフトマスクを生成する請求項１から３のいずれかに記載の音声認識装置。
前記ソフトマスクが、音声信号の静的特徴量と動的特徴量に対して、別個の重み係数を備える請求項１から４のいずれかに記載の音声認識装置。
音源分離部が、複数音源からの混合音を分離するステップと、
マスク生成部が、分離された音声信号の分離信頼度を求めるステップと、
マスク生成部が、音声信号とノイズを分離するステップと、
マスク生成部が、分離信頼度に対する音声信号及びノイズの分布を求めるステップと、
マスク生成部が、分離信頼度に対する音声信号及びノイズの分布から、分離された音声信号の周波数のスペクトル成分ごとにソフトマスクを作成するステップと、
音声認識部が、該ソフトマスクを使用して音声を認識するステップと、を含む音声認識方法。