JP5738020B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP5738020B2
JP5738020B2 JP2011053124A JP2011053124A JP5738020B2 JP 5738020 B2 JP5738020 B2 JP 5738020B2 JP 2011053124 A JP2011053124 A JP 2011053124A JP 2011053124 A JP2011053124 A JP 2011053124A JP 5738020 B2 JP5738020 B2 JP 5738020B2
Authority
JP
Japan
Prior art keywords
noise
mask
index
sound
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011053124A
Other languages
English (en)
Other versions
JP2011191759A (ja
Inventor
一博 中臺
一博 中臺
高橋 徹
徹 高橋
博 奥乃
博 奥乃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2011191759A publication Critical patent/JP2011191759A/ja
Application granted granted Critical
Publication of JP5738020B2 publication Critical patent/JP5738020B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、複数音源の音声を同時認識する音声認識装置及び音声認識方法に関する。
複数音源の音声を同時認識する技術は、たとえば、ロボットが実環境で活動する際に重要な技術である。複数音源の音声を同時認識する音声認識システムは、音源ごとに音声を分離し、分離した音声の音響特徴量を使用して音声認識を行なう。ここで、音声認識を行なう際に、分離の信頼度に応じて音響特徴量ごとにマスクが使用される。このようなマスクとして、0または1の2値のハードマスクを使用する方法に加えて0から1の連続的な値を与えるソフトマスクを使用する方法も提案されている(特許文献1)。しかし、ソフトマスクを生成する従来の方法は、実験に基づくものであり、異なる環境ごとに実験を行ってソフトマスクの構造を定める必要があった。このように、従来、環境の変化に対応することのできる構造を有したソフトマスクを使用した音声認識装置及び音声認識方法は開発されていなかった。
特開2010−49249号公報
したがって環境の変化に対応することのできる構造を有したソフトマスクを使用した音声認識装置及び音声認識方法に対するニーズがある。
本発明の第1の態様による音声認識装置は、複数音源からの混合音を分離する音源分離部と、分離された音声信号の周波数のスペクトル成分ごとに、0から1の間の連続的な値をとりうるソフトマスクを、分離された音声信号の分離信頼度に対する音声信号及びノイズの分布を使用して生成するマスク生成部と、前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部と、を備えている。
本態様によれば、マスク生成部が、分離された音声信号の分離信頼度に対する音声信号及びノイズの分布を使用してソフトマスクを生成するので、環境の変化に応じて適切なソフトマスクを生成することができる。その結果、高性能の音声認識装置が得られる。
本発明の第2の態様による音声認識方法は、音源分離部が、複数音源からの混合音を分離するステップと、マスク生成部が、分離された音声信号の分離信頼度を求めるステップと、マスク生成部が、音声信号とノイズを分離するステップと、マスク生成部が、分離信頼度に対する音声信号及びノイズの分布を求めるステップと、マスク生成部が、分離信頼度に対する音声信号及びノイズの分布から、分離された音声信号の周波数のスペクトル成分ごとにソフトマスクを作成するステップと、音声認識部が、該ソフトマスクを使用して音声を認識するステップと、を含む。
本態様によれば、マスク生成部が、分離された音声信号の分離信頼度に対する音声信号及びノイズの分布を使用してソフトマスクを生成するので、環境の変化に応じて適切なソフトマスクを生成することができる。その結果、高性能の音声認識方法が得られる。
本発明の実施形態による音声認識装置及び音声認識方法において、前記マスク生成部は、時系列入力信号の周波数スペクトルの成分ごとに生成された、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、指数移動平均の重みをつけた累積ヒストグラムを使用して、音声信号とノイズとを分離し、前記分離信頼度に対する音声信号の分布及びノイズの分布を求める。
本実施形態によれば、パワーに対する音声信号及びノイズの分布の特性から、音声信号とノイズとを明確に分離することができる。
本発明の実施形態による音声認識装置及び音声認識方法において、前記マスク生成部が、環境の変化に応じて適応的にソフトマスクを生成するように構成されている。
本実施形態によれば、環境の変化に常にソフトマスクを適応させることができる。
本発明の実施形態による音声認識装置及び音声認識方法において、前記マスク生成部が、前記分離信頼度を変数とする正規分布の確率密度関数を使用して前記ソフトマスクを生成する。
本実施形態によれば、簡単な手順でソフトマスクを生成することができる。
本発明の実施形態による音声認識装置及び音声認識方法において、前記ソフトマスクが、音声信号の静的特徴量と動的特徴量に対して、別個の重み係数を備える。
本実施形態によれば、静的特徴量の重み係数と動的特徴量の重み係数を別個に調整することにより、音声認識性能をより向上させることができる。
本発明の一実施形態による音声認識装置の構成を示す図である。 マスク生成部の構成を示す図である。 マスク生成部の音声・ノイズ分離処理部の構成を示す図である。 マスク生成に関連する処理を説明するための流れ図である。 累積ヒストグラム生成部によって作成される累積ヒストグラムを説明するための図である。 累積ヒストグラム生成部及びノイズパワー推定部の動作を説明するための流れ図である。 スピーカー及びロボットの配置を示す図である。 スピーカーが、0度、90度及び−90度に設置された場合に、正面スピーカーに対して、パラメータw1 及び w2の最適化の例を示す図である。 正面スピーカーに対する平均した語正答率を示す図である。 左側スピーカーに対する平均した語正答率を示す図である。 右側スピーカーに対する平均した語正答率を示す図である。
図1は、本発明の一実施形態による音声認識装置の構成を示す図である。音声認識装置は、複数話者など複数音源の音声を同時認識する。音声認識装置は、音源分離部100、多チャンネルポストフィルタ200、音特徴抽出部300、マスク生成部400及び音声認識部500から構成される。
音源分離部100について説明する。M個の音源とN個(≧M)のマイクロフォンがあるとする。周波数ωにおけるM個の音源のスペクトルベクトルを、
Figure 0005738020
で示し、周波数ωにおけるN個のマイクロフォンによってとらえられた信号のスペクトルベクトルを
Figure 0005738020
で示す。ここで、Tは、転置オペレータである。
x(ω)
は、
x(ω) = H(ω)s(ω)
によって計算される。ここで、
H(ω)
は、伝達関数行列である。伝達関数行列の各コンポーネントHnmは、m番目の音源からn番目のマイクロフォンへの伝達関数を表す。音源分離は、一般的に以下の式によってあらわされる。
y(ω) = W(ω)x(ω)
ここで、
W(ω)
は、分離行列と呼ばれる。音源分離は、出力信号
y(ω)

s(ω)
と同じであるという条件を満足する
W(ω)
を見つけることとして定義される。
音源分離のアルゴリズムとして、Blind Source Separation (BSS)と beamforming の複合アルゴリズムであるGeometric Source Separation (GSS)( L. C. Parra and C. V. Alvino, “Geometric source separation: Mergin convolutive source separation with geometric beam forming,” IEEE Transactions on Speech and Audio Processing, vol. 10, no. 6, pp. 352−362, 2002.)を使用する。
多チャンネルポストフィルタ200について説明する。多チャンネルポストフィルタ200は、音源分離部100の出力を強調するために使用される(S. Yamamoto, K. Nakadai, J.-M. Valin, J. Rouat, F. Michaud, K. Komatani, T. Ogata, and H. G. Okuno, “Making a robot recognize three simultaneous sentences in real-time,” in Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2005). IEEE, 2005, pp. 897−902.)。多チャンネルポストフィルタ200は、文献(Y. Ephraim and D. Malah, “Speech enhancement using minimum mean-square error short-time spectral amplitude estimator,” IEEE Transactions on Acoustics, Speech and Signal Processing, vol. ASSP-32, no. 6, pp. 1109−1121, 1984.)に記載された最適ノイズ推定器を使用したスペクトルフィルタである。この方法は、スペクトル減算(S. F. Boll, “A spectral subtraction algorithm for suppression of acoustic noise in speech,” in Proceedings of 1979 International Conference on Acoustics, Speech, and Signal Processing (ICASSP-79). IEEE, 1979, pp. 200−203.)の一種であるが、時間及び周波数の寄与を考慮しているので、ミュージカルノイズ及びひずみの発生量は少ない。
多チャンネルポストフィルタ200の入力は、音源分離部100の出力yである。多チャンネルポストフィルタ200の出力は、
Figure 0005738020
であり、
Figure 0005738020
と定義される。ここで、Gはスペクトルゲインである。Gの推定は、スペクトル振幅のMMSE(minimum mean-square error)推定に基づいている。Gを推定するためにノイズ分散が推定される。
ノイズ分散推定値
λm
は、
Figure 0005738020
と表現される。ここで、
Figure 0005738020
は、周波数fに対するフレームtにおける音源mに対するノイズの定常成分の推定値であり、
Figure 0005738020
は、音源リークの推定値である。
定常ノイズ推定値
Figure 0005738020
は、MCRA技法(I. Cohen and B. Berdugo, “Speech enhancement for non-stationary noise environments,” Signal Processing, vol. 81, no. 2, pp. 2403−2418, 2001.)を使用して計算した。
Figure 0005738020
を推定するには、他の音源からの干渉は、係数η
Figure 0005738020
によって減少すると仮定した。リーク推定値は、以下のように表現される。
Figure 0005738020
ここで、Zは、m番目の音源yの平滑化されたスペクトルであり、再帰的に定義される(S. Yamamoto, K. Nakadai, J.-M. Valin, J. Rouat, F. Michaud, K. Komatani, T. Ogata, and H. G. Okuno, “Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals,” in Proceedings of 19th International Conference on Industrial, Engineering, and Other Applications of Applied Intelligent Systems (IEA/AIE’06), vol. LNAI 4031. Springer-Verlag, 2006, pp. 207−217.)。
Figure 0005738020
αは、0.7である。
音特徴抽出部300について説明する。音特徴として、メル・スケール・ログ・スペクトル(Mel-Scale Log Spectrum (MSLS))を使用する。MSLSは、メル周波数ケプストラム係数(Mel-Frequency Cepstral Coefficient (MFCC))( R. Plomp, L. Pols, and J. van de Geer, “Dimensional analysis of vowel spectra,” Acoustical Society of America, vol. 41, no. 3, pp. 707−712, 1967.)に逆離散コサイン変換を適用することによって得られる。その後、ノイズロバストな音特徴を得るために、3個の正規化プロセス、平均パワー正規化、スペクトルピーク強調及びスペクトル平均正規化を適用する。詳細は文献(Y. Nishimura, T. Shinozaki, K. Iwano, and S. Furui, “Noise-robust speech recognition using multi-band spectral features,” in Proceedings of 148th Acoustical Society of America Meetings, no. 1aSC7, 2004.)に記載されている。
特徴量は、静的スペクトル特徴量と動的スペクトル特徴量を含む。静的スペクトル特徴量をM(k)とすると、動的スペクトル特徴量は以下の式によって定義される。
Figure 0005738020
ここで、k、iは時間のインデクスである。動的スペクトル特徴量は、リークノイズ及び静的背景ノイズに対してロバストである。その理由は、隣接する静的スペクトル特徴量の差として定義された動的スペクトル特徴量は、リークノイズ及び静的背景ノイズをキャンセルすることができるからである。静的スペクトル特徴量は、そのようなノイズに対して、動的スペクトル特徴量よりもロバストではない。したがって、動的スペクトル特徴量の寄与が、静的スペクトル特徴量の寄与よりも高い場合には、音声認識率が向上することが期待される。
音声認識部500について説明する。音声認識部500は、時間・周波数マップにおいて、音声認識を向上させるためにミッシングフィーチャ・マスク(以下に、MFMと呼称する)を使用する。MFMの中で、0または1の2値のものをハードMFMまたはハードマスクと呼称し、0と1の間の連続的な値をとるものをソフトMFMまたはソフトマスクと呼称する。各MFMは、特定の時間フレームにおいて周波数ビンに対するスペクトル値が信頼できるかどうかを特定する。予備処理におけるエラーによって生じた、信頼できない音特徴量は、MFMを使用して遮断され、信頼できる音特徴量だけが、音声認識デコーダにおける尤度計算に使用される。デコーダは、隠れマルコフモデル(Hidden Markov Model、HMM)ベースの認識システムであり、従来の音声認識システムにおいて一般的に使用されている。音声認識部500においては、デコーダにおける出力確率の推定プロセスが改良されている。
Figure 0005738020
は、i番目の音特徴量の信頼度を表すMFMベクトルであるとする。出力確率
Figure 0005738020
は、以下の式によって与えられる。
Figure 0005738020
ここで、
Figure 0005738020
は、確率オペレータである。また、Lは混合正規分布の混合数を表し、lは混合正規分布の混合数のインデクスを表す。
Figure 0005738020
は、音特徴ベクトルであり、Nは音特徴ベクトルのサイズであり、
Figure 0005738020
は、j番目の状態である。
具体化するにあたり、Multiband Julian(Multiband Julius, “http://www.furui.cs.titech.ac.jp/mband julius/.”)を使用した。Multiband Julianは、Julian(the Japanese real-time large vocabulary speech recognition engine)(T. Kawahara and A. Lee, “Free software toolkit for Japanese large vocabulary continuous speech recognition,” in International Conference on Spoken Language Processing (ICSLP), vol. 4, 2000, pp. 476−479.)をベースとしている。
なお、MFMについては後で詳細に説明する。
マスク生成部400について説明する。マスク生成部400は、ソフトMFMを生成する。
図2は、マスク生成部400の構成を示す図である。マスク生成部400は、定常ノイズ推定部410、分離信頼度演算部420、音声・ノイズ分離処理部430、及びマスク演算部440を備える。
定常ノイズ推定部410は、N個のマイクロフォンの信号から、MCRA技法(I. Cohen and B. Berdugo, “Speech enhancement for non-stationary noise environments,” Signal Processing, vol. 81, no. 2, pp. 2403−2418, 2001.)を使用して背景ノイズを推定する。
分離信頼度演算部420は、以下の式によって分離信頼度Rを計算する。
Figure 0005738020
ここで、
Figure 0005738020
は、多チャンネルポストフィルタ200の出力であり、
ym
は、音源分離部100の出力である。
ym
は、音声
Figure 0005738020
と背景雑音
bn
とリークを足し合わせたものからなるため、リークがない場合(他の音源からの混ざりこみがなく、完全に分離できている場合)には分離信頼度Rが1となり、リークが大きくなるにつれて0に近い値をとるようになる。
音声・ノイズ分離処理部430は、分離信頼度R及び音源分離部100の出力
ym
を入力として、分離信頼度Rに対する音声信号及びノイズの分布を作成する。
図3は、マスク生成部400の音声・ノイズ分離処理部430の構成を示す図である。音声・ノイズ分離処理部430は、累積ヒストグラム生成部4310、ノイズパワー推定部4320、音声・ノイズ分離部4330、音声分布作成部4340及びノイズ分布作成部4350を備える。
累積ヒストグラム生成部4310は、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、移動平均の重みをつけた累積ヒストグラムを、時系列入力信号の周波数スペクトルの成分ごとに生成する。移動平均の重みをつけた累積ヒストグラムについては後で説明する。ノイズパワー推定部4320は、入力信号の周波数スペクトルの成分ごとに、累積ヒストグラムからノイズパワーの推定値を求める。
図5は、累積ヒストグラム生成部4310によって作成される累積ヒストグラムを説明するための図である。図5の左側の図は、ヒストグラムを示す図である。横軸はパワーの大きさのインデクスであり縦軸は頻度である。図5の左側の図において、L0はパワーの最小レベルを表し、L100はパワーの最大レベルを表す。一般的に、ノイズのパワーのレベルは、話者による音声のレベルよりも小さい。また、ノイズの頻度は、話者による音声の頻度に比較してかなり多い。図5の右側の図は、累積ヒストグラムを示す図である。横軸はパワーの大きさのインデクスであり縦軸は累積頻度である。図5の右側の図において、Lxのxは累積ヒストグラムの縦軸方向の位置を示し、たとえば、L50は縦軸方向の50に対応するメディアン(中間値)を示す。ノイズのパワーのレベルは、話者による音声のレベルよりも小さく、また、ノイズの頻度は、話者による音声の頻度に比較してかなり多いので、図5の右側の図において両矢印で示すように、所定の範囲のxに対応するLxの値は同じである。したがって、上記の所定の範囲のxを定め、Lxを求めることによりノイズのパワーレベルを推定することができる。
図6は、累積ヒストグラム生成部4310及びノイズパワー推定部4320の動作を説明するための流れ図である。ここで、流れ図の説明に使用する符号は以下のとおりである。
Figure 0005738020
図6のステップS2010において、累積ヒストグラム生成部4310が入力信号のパワーを以下の式によってインデクスに変換する。
Figure 0005738020
パワーからインデクスへの変換は、計算時間を削減するため変換テーブルを使用して行われる。
図6のステップS2020において、累積ヒストグラム生成部4310が累積ヒストグラムを以下の式を使用して更新する。
Figure 0005738020
ここで、αは時間減衰パラメータであり、時定数Tr及びサンプリング周波数Fsから以下の式によって定まる。
Figure 0005738020
このようにして作成された累積ヒストグラムは、データの古さにしたがって重みが小さくなるように構成されている。このような累積ヒストグラムを移動平均の重みをつけた累積ヒストグラムと呼称する。式(6)においては、全てのインデクスにαを乗じ、インデクスIy(t)のみに(1-α)を加算する。実際の計算においては、計算時間を削減するため式(6)を計算せずに直接式(7)を計算する。すなわち、式(7)において、全てのインデクスにαを乗じ、Iy(t)からImaxまでのインデクスに(1-α)を加算する。さらに実際には、Iy(t)からImaxまでのインデクスに(1-α)の代わりに指数的に増分した値
(1-α)α-tを加算することによって、全てのインデクスにαを乗じる処理を避けることができ、さらに計算時間が削減される。しかし、この方法は、S(t,i)を指数的に増加させる。したがって、S(t,Imax)が変数の最大値に近づいた際に、S(t,i)の大きさを正規化する処理が必要である。
図6のステップS2030において、ノイズパワー推定部4320は、xに相当する累積ヒストグラムのインデクスを以下の式にしたがって求める。
Figure 0005738020
ここで、argmin(i下付き)は、 []内の値を最小値とするiであることを意味する。1からImaxまでの全てのインデクスについて式(8)の判定を行なう代わりに、前回検出されたインデクスIx(t-1)から一方向の探索を行なうことによって計算時間が大幅に削減される。
図6のステップS2040において、ノイズパワー推定部4320は、ノイズパワーの推定値を以下の式にしたがって求める。
Figure 0005738020
図6に示した方法は5個のパラメータを使用する。最小パワーレベルLmin、1ビンのパワーレベル幅Lstep及び累積ヒストグラムの最大インデクスImaxは、ヒストグラムの範囲及び急峻度を定める。これらのパラメータは、入力信号の範囲をカバーするように定めれば、ノイズの推定値に影響しない。一般的な値は以下のとおりである。
Lmin =-100
Lstep= 0.2
Imax = 1000
スペクトル成分の最大レベルは、96dB(1Pa)に正規化されるとした。
x及びαは、ノイズ推定値に影響する主要なパラメータである。しかし、パラメータxは、ノイズパワーのレベルが安定していれば、ノイズパワーの推定値Lxに敏感ではない。たとえば、図5において、xが30%から70%の範囲で変化しても、Lxの値は変化しない。不安定なノイズに対して、ノイズパワーのレベルの範囲の推定レベルを定める。実際には、時間周波数領域において、音声の信号はまばらであるので、音声出現頻度は、ほとんどの場合、ノイズ出現頻度の20%よりも小さく、この値はSN比及び周波数と無関係である。したがって、パラメータxは、SN比または周波数ではなく、推定したいノイズのパワーのレベルのみに従って設定することができる。たとえば、音声出現頻度が20%であれば、中間値のノイズパワーのレベルに対して、x=40を設定し、最大値に対してx=80を設定する。
時定数Trも、SN比または周波数にしたがって変化させる必要はない。時定数Trは、ヒストグラム計算の等価平均時間を制御する。時定数Trは、ノイズ及び音声の双方の長さに対して、十分大きい値に設定すべきである。質問及び回答のような一般的な繰り返し対話に対して、ほとんどの音声の発話期間は10秒よりも小さいので、時定数Trの一般的な値は10秒である。
音声・ノイズ分離部4330は、ノイズパワー推定部4320によって定められたノイズ閾値を使用して、音源分離部100の出力
ym
を音声とノイズとに分離する。
音声分布作成部4340は、分離された音声と分離信頼度Rから、分離信頼度Rに対する音声の分布
ds(R)
を作成する。ここで、音声の分布
ds(R)
は正規分布と仮定する。正規分布の分布関数は以下の式によって定義される。
Figure 0005738020
したがって、音声分布作成部4340は、平均値
μs
及び標準偏差
σs
を定めることによって音声分布
ds(R)
を作成する。
ノイズ分布作成部4350は、分離されたノイズと分離信頼度Rから、分離信頼度Rに対するノイズの分布
dn(R)
を作成する。ここで、ノイズの分布
dn(R)
は正規分布と仮定する。したがって、ノイズ分布作成部4350は、平均値
μn
及び標準偏差
σn
を定めることによって
dn(R)
を作成する。
マスク演算部440は、音声分布
ds(R)
及びノイズの分布
dn(R)
から以下の式にしたがって、音声の信頼度
B(R)
すなわち、MFMを求める。
Figure 0005738020
静的音特徴量に対するMFMは、以下の式によって得られる。
Figure 0005738020
また、動的特徴量に対するMFMは、以下の式によって得られる。
Figure 0005738020
ここで、kは、フレーム・インデクスを表す。また、
1 及び w2
は、静的特徴量及び動的特徴量の重み係数を表す。静的特徴量と動的特徴量に対して別個の重み係数を定めた点は、本例の特徴である。重み係数は、あらかじめ定めておく。重み係数の定め方の一例については後で説明する。
図4は、マスク生成に関連する処理を説明するための流れ図である。
図4のステップS1010において、音源分離部100が音源分離処理を行う。音源分離部100の出力は、
ym
である。ここで、mは各音源を表す。
図4のステップS1020において、多チャンネルポストフィルタ200が、音源分離部100の出力
ym
を強調する。多チャンネルポストフィルタ200の出力は、
Figure 0005738020
である。
図4のステップS1030において、マスク生成部400の定常ノイズ推定部410が、定常ノイズ
bn
を推定する。
図4のステップS1040において、マスク生成部400の分離信頼度演算部420が定常ノイズ
bn
音声分離部100の出力
ym
及び多チャンネルポストフィルタの出力
Figure 0005738020
に基づいて分離信頼度Rを計算する。
図4のステップS1050において、マスク生成部400の音声・ノイズ分離処理部430が、分離信頼度R及び音声分離部100の出力
ym
を使用して、分離信頼度Rに対する音声の分布
ds(R)
及び分離信頼度Rに対するノイズの分布
dn(R)
を求める。
図4のステップS1060において、マスク生成部400のマスク演算部440が、分離信頼度Rに対する音声の分布
ds(R)
及び分離信頼度Rに対するノイズの分布
dn(R)
に基づいて、音声の信頼度
B(R)
を演算する。
ステップS1010乃至ステップS1060の処理は、時間ごとに実施される。したがって、時間に応じて環境が変化する場合にも、適応的にMFMを作成することができる。
つぎに、静的特徴量及び動的特徴量の重み係数
1 及び w2
の機能を確認するための実験について説明する。ここでは、簡単化の目的で、音声の信頼度
B(R)
を、パラメータa及びbを有するシグモイド関数によって近似した。静的音特徴量に対するMFMは、以下の式で表せる。
Figure 0005738020
x>b の場合
Figure 0005738020
その他の場合
Figure 0005738020
ここで
Figure 0005738020
であり、kはフレーム・インデクスを表す。
また、動的音特徴量に対するMFMは、以下の式で表せる。
Figure 0005738020
ここで
Figure 0005738020
である。
8個の全方位マイクロフォンを取り付けたロボットを使用して、3個の同時スピーチの認識性能を測定し、パラメータa及びb、ならびにパラメータ
1 及び w2
を最適化した。同時スピーチ信号は、反響時間が0.35秒である部屋の中で記録した。3個の異なる単語は、ロボットから2メートル離れた3個のスピーカーから同じ大きさで発生させた。各単語は、国際電気通信基礎研究所(ATR)による、216個の日本語の単語からなる音声的にバランスのとれた単語セットから選択した。
図7は、スピーカー及びロボットの配置を示す図である。1個のスピーカーは、ロボットの正面に配置した。他の2個のスピーカーは、ロボットの左側及び右側の、10、20、30、40、50、60、70、80又は90度の角度に配置した。図7において右側の角度をθで示し、左側の角度を−θで示している。換言すれば、角度θを変えながら、9通りの構成で実験を行なった。それぞれの構成に対して、3つの異なる単語の200個の組み合わせが実施された。
表1は、パラメータ・セット
p=(a,b,w1,w2)
の探索範囲を示す。
Figure 0005738020
図8は、スピーカーが、0度、90度及び−90度に設置された場合に、正面スピーカーに対して、パラメータ
1 及び w2
の最適化の例を示す図である。他の条件に対しても、パラメータ
1 及びw2
の最適化について同様の傾向が得られた。パラメータa及びbの最適化を実施し、その結果は、各配置に対して共通の傾向を示すものであった。そこで、最適化されたパラメータ・セットを以下の式によって定義した。
Figure 0005738020
ここで、
WCθ、 WRθ 及びWLθ
は、配置がそれぞれ、(0、θ、−θ)度であるとして、正面、右及び左スピーカーに対する、語正答率(word correct rate, WCR)を表す。
最終的にMFMに対する最適化パラメータ・セット
Popt= (40,0.5,0.1,0.2)
が得られた。
つぎに、別の実験により以下の3個の音声認識システムの性能を比較した。
1)ハードMFMを使用した音声認識システム
静的音特徴量に対するハードMFMは以下の式で定義される。
R>TMFMの場合
HMm(k)=1 (19)
その他の場合
HMm(k)=0 (20)
ここで、
MFM
は閾値である。動的音特徴量に対するハードMFMは以下の式で定義される。
Figure 0005738020
ここで、kは、フレーム・インデクスを表す。
2)重みづけしないソフトMFMを使用した音声認識システム
式(15)及び式(18)のソフトMFMを使用する。重みは、
1=w2=1
である。
3)最適化パラメータ・セットのソフトMFMを使用した音声認識システム
式(15)及び式(18)のソフトMFMを使用する。パラメータは、
Popt = (40,0.5,0.1,0.2)
である。
実験の設定について説明する。3個のスピーカーが、3個のスピーチを同時に行うために使用される。1個のスピーカーはロボットの正面に固定され、他のスピーカーは、表2に示すように±30°、±60°、±90°、±120°または±150°に配置される。ロボットと各スピーカーとの距離は1mである。表3に示すように、音源の4通りの組み合わせが使用される。このようにして、20組のテストデータを作成した。各組のテストデータは、3つの異なる単語の200個の組み合わせを含む。単語は、国際電気通信基礎研究所(ATR)によって配布された、216個の音声的にバランスのとれた単語からランダムに選択した。
Figure 0005738020
Figure 0005738020
音声認識システムの音響モデルに対して、27次元MSLS特徴量を使用して、隠れマルコフモデル(HMM)に基づく、3状態及び16混合のtriphoneモデルをトレーニングした。評価を公正にするためにオープンテストを行った。すなわち、音響モデルを、テストデータとは異なるスピーチ・コーパスによってトレーニングした。トレーニングデータとして、300人のスピーカーによる47,308の発語を含む、日本語ニュース記事スピーチ・データベースを使用した。スピーチデータに20dBの白色ノイズを加えた後、白色ノイズを加えたトレーニングデータで音響モデルをトレーニングした。この方法は、音声認識システム用の音響モデルのノイズ・ロバスト性を向上させるためのよく知られた技術である。
図9乃至図11は、それぞれ、正面、左側及び右側スピーカーに対する平均した語正答率を示す図である。
正面スピーカーに対して、最適化パラメータ・セットのソフトMFMは、音声認識の性能を顕著に向上させる。左側及び右側スピーカーに対して、向上量は正面スピーカーの向上量よりも小さい。しかし、特にスピーカーの間の間隔が狭い場合には、ある程度の向上がみられる。正面スピーカーからの音は、左側及び右側スピーカーの両方の影響を受ける。他方、左側または右側スピーカーは、主に正面スピーカーの影響を受ける。このように、正面スピーカーに対する時間・周波数コンポーネント(TF(Time-Frequency)コンポーネント)の重なりの数は、左側または右側スピーカーのものよりも大きい。また、正面スピーカーに対する、TFコンポーネントの重なりの度合いは他のものよりも高い。このことは、最適化パラメータ・セットのソフトMFMが、重なりの度合いが大きい場合でも、多数の重なっているTFコンポーネントをうまく処理することができることを示している。最適化パラメータ・セットのソフトMFMの向上量は、三ケースを平均すると約10%に達する。
重みづけしないソフトMFMと最適化パラメータ・セットのソフトMFMの差に注目すると、ソフトMFMとハードMFMの差と同様の傾向がみられる。すなわち、重みづけ係数の最適化は、2個のスピーカーが近付いた場合により有効である。このことは、重みづけ係数は、重なりの度合いが大きいTFコンポーネントを処理するように有効に機能することを意味する。

Claims (7)

  1. 複数音源からの混合音を分離する音源分離部と、
    前記分離された音声信号のパワーをインデクスに変換し、前記分離された音声信号の周波数スペクトルの成分ごとに生成された、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、移動平均の重みをつけた累積ヒストグラムを更新し、下記数式(1)のχに相当する累積ヒストグラムのインデクスを求め、前記累積ヒストグラムの最小パワーレベルとパワーレベル幅と最大インデクスと前記χと時間減衰パラメータとを用いてノイズパワーを求め、前記ノイズパワーに基づくノイズ閾値を使用して、音声信号とノイズとを分離し、前記分離された音声信号の分離信頼度に対する音声信号の分布及びノイズの分布を求めることによって、前記分離された音声信号の周波数のスペクトル成分ごとに、0から1の間の連続的な値をとりうるソフトマスクを生成するマスク生成部と、
    前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部と、を備えた音声認識装置。
    Figure 0005738020
    ここで、
    t:時間ステップ、
    i:整数インデクス、
    S(t,i):累積頻度、
    max :累積ヒストグラムの最大インデクス
    argmin(i下付き):[]内の値を最小値とするi、
    x (t):χを求めるために計算される値。
  2. 前記マスク生成部が、環境の変化に応じて適応的にソフトマスクを生成するように構成された請求項1に記載の音声認識装置。
  3. 前記マスク生成部が、前記分離信頼度を変数とする正規分布の確率密度関数を使用して前記ソフトマスクを生成する請求項1または2に記載の音声認識装置。
  4. 前記ソフトマスクが、音声信号の静的特徴量と動的特徴量に対して、別個の重み係数を備える請求項1からのいずれかに記載の音声認識装置。
  5. 前記マスク生成部が、角度を変えて配置された前記音源の前記角度ごとの語正答率の平均を求めることにより最適化された前記別個の重み係数をそれぞれ求めて前記ソフトマスクを生成する請求項4に記載の音声認識装置。
  6. 前記マスク生成部が、下記数式(2)により、最適化された前記別個の重み係数をそれぞれ求めて前記ソフトマスクを生成する請求項4に記載の音声認識装置。
    Figure 0005738020
    ここで、
    opt :最適化されたパラメータセット、
    WC θ :配置が(0、θ、−θ)度であるとして、正面音源に対する語正答率、
    WR θ :配置が(0、θ、−θ)度であるとして、右音源に対する語正答率、
    WL θ :配置が(0、θ、−θ)度であるとして、左音源に対する語正答率、
    a、b:シグモイド関数のパラメータ、
    w1:静的特徴量の重み係数、
    w2:動的特徴量の重み係数。
  7. 音源分離部が、複数音源からの混合音を分離するステップと、
    マスク生成部が、
    分離された音声信号の分離信頼度を求めるステップと、
    前記分離された音声信号のパワーをインデクスに変換するステップと、
    前記分離された音声信号の周波数スペクトルの成分ごとに生成された、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、移動平均の重みをつけた累積ヒストグラムを更新するステップと、
    下記数式(3)のχに相当する累積ヒストグラムのインデクスを求めるステップと、
    前記累積ヒストグラムの最小パワーレベルとパワーレベル幅と最大インデクスと前記χと時間減衰パラメータとを用いてノイズパワーを求めるステップと、
    前記ノイズパワーに基づくノイズ閾値を使用して、音声信号とノイズを分離するステップと、
    前記分離された音声信号の分離信頼度に対する音声信号及びノイズの分布を求めるステップと、
    によって、前記分離された音声信号の周波数のスペクトル成分ごとに、0から1の間の連続的な値をとりうるソフトマスクを作成するステップと、
    音声認識部が、該ソフトマスクを使用して音声を認識するステップと、を含む音声認識方法。
    Figure 0005738020
    ここで、
    t:時間ステップ、
    i:整数インデクス、
    S(t,i):累積頻度、
    max :累積ヒストグラムの最大インデクス
    argmin(i下付き):[]内の値を最小値とするi、
    x (t):χを求めるために計算される値。
JP2011053124A 2010-03-11 2011-03-10 音声認識装置及び音声認識方法 Active JP5738020B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US31274010P 2010-03-11 2010-03-11
US61/312,740 2010-03-11

Publications (2)

Publication Number Publication Date
JP2011191759A JP2011191759A (ja) 2011-09-29
JP5738020B2 true JP5738020B2 (ja) 2015-06-17

Family

ID=44560792

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011053124A Active JP5738020B2 (ja) 2010-03-11 2011-03-10 音声認識装置及び音声認識方法

Country Status (2)

Country Link
US (1) US8577678B2 (ja)
JP (1) JP5738020B2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100834679B1 (ko) * 2006-10-31 2008-06-02 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법
US8577678B2 (en) * 2010-03-11 2013-11-05 Honda Motor Co., Ltd. Speech recognition system and speech recognizing method
JP5566846B2 (ja) * 2010-10-15 2014-08-06 本田技研工業株式会社 ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法
JP5662276B2 (ja) * 2011-08-05 2015-01-28 株式会社東芝 音響信号処理装置および音響信号処理方法
US20130085703A1 (en) * 2011-09-30 2013-04-04 Broadcom Corporation Histogram-Based Linearization of Analog-to-Digital Converters
JP6169849B2 (ja) * 2013-01-15 2017-07-26 本田技研工業株式会社 音響処理装置
JP2014145838A (ja) * 2013-01-28 2014-08-14 Honda Motor Co Ltd 音響処理装置及び音響処理方法
US10102850B1 (en) * 2013-02-25 2018-10-16 Amazon Technologies, Inc. Direction based end-pointing for speech recognition
JP6059130B2 (ja) * 2013-12-05 2017-01-11 日本電信電話株式会社 雑音抑圧方法とその装置とプログラム
US9747922B2 (en) 2014-09-19 2017-08-29 Hyundai Motor Company Sound signal processing method, and sound signal processing apparatus and vehicle equipped with the apparatus
US9792952B1 (en) * 2014-10-31 2017-10-17 Kill the Cann, LLC Automated television program editing
US9659578B2 (en) * 2014-11-27 2017-05-23 Tata Consultancy Services Ltd. Computer implemented system and method for identifying significant speech frames within speech signals
KR101647058B1 (ko) 2015-03-18 2016-08-10 서강대학교산학협력단 강인음성인식을 위한 손실특징 복원방법 및 장치
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
JP6501260B2 (ja) * 2015-08-20 2019-04-17 本田技研工業株式会社 音響処理装置及び音響処理方法
JP6543844B2 (ja) * 2015-08-27 2019-07-17 本田技研工業株式会社 音源同定装置および音源同定方法
JP6703460B2 (ja) * 2016-08-25 2020-06-03 本田技研工業株式会社 音声処理装置、音声処理方法及び音声処理プログラム
US10811000B2 (en) * 2018-04-13 2020-10-20 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for recognizing simultaneous speech by multiple speakers
CN110797021B (zh) * 2018-05-24 2022-06-07 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN110176226B (zh) * 2018-10-25 2024-02-02 腾讯科技(深圳)有限公司 一种语音识别、及语音识别模型训练方法及装置
CN110400575B (zh) * 2019-07-24 2024-03-29 腾讯科技(深圳)有限公司 通道间特征提取方法、音频分离方法和装置、计算设备
US11257510B2 (en) * 2019-12-02 2022-02-22 International Business Machines Corporation Participant-tuned filtering using deep neural network dynamic spectral masking for conversation isolation and security in noisy environments
CN112863480B (zh) * 2020-12-22 2022-08-09 北京捷通华声科技股份有限公司 端到端语音合成模型的优化方法及装置,电子设备
CN113314099B (zh) * 2021-07-28 2021-11-30 北京世纪好未来教育科技有限公司 语音识别置信度的确定方法和确定装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5485522A (en) * 1993-09-29 1996-01-16 Ericsson Ge Mobile Communications, Inc. System for adaptively reducing noise in speech signals
PL174216B1 (pl) * 1993-11-30 1998-06-30 At And T Corp Sposób redukcji w czasie rzeczywistym szumu transmisji mowy
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
US6098038A (en) * 1996-09-27 2000-08-01 Oregon Graduate Institute Of Science & Technology Method and system for adaptive speech enhancement using frequency specific signal-to-noise ratio estimates
SE515674C2 (sv) * 1997-12-05 2001-09-24 Ericsson Telefon Ab L M Apparat och metod för brusreducering
US7072831B1 (en) * 1998-06-30 2006-07-04 Lucent Technologies Inc. Estimating the noise components of a signal
US6519559B1 (en) * 1999-07-29 2003-02-11 Intel Corporation Apparatus and method for the enhancement of signals
JP3961290B2 (ja) * 1999-09-30 2007-08-22 富士通株式会社 雑音抑圧装置
US6804640B1 (en) * 2000-02-29 2004-10-12 Nuance Communications Signal noise reduction using magnitude-domain spectral subtraction
JP4157581B2 (ja) * 2004-12-03 2008-10-01 本田技研工業株式会社 音声認識装置
US7509259B2 (en) * 2004-12-21 2009-03-24 Motorola, Inc. Method of refining statistical pattern recognition models and statistical pattern recognizers
US7596231B2 (en) * 2005-05-23 2009-09-29 Hewlett-Packard Development Company, L.P. Reducing noise in an audio signal
JP4863713B2 (ja) * 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
US7664643B2 (en) * 2006-08-25 2010-02-16 International Business Machines Corporation System and method for speech separation and multi-talker speech recognition
CN101138507B (zh) * 2006-09-05 2010-05-12 深圳迈瑞生物医疗电子股份有限公司 多普勒血流声音信号的处理方法及装置
JP5041934B2 (ja) * 2006-09-13 2012-10-03 本田技研工業株式会社 ロボット
US8249271B2 (en) * 2007-01-23 2012-08-21 Karl M. Bizjak Noise analysis and extraction systems and methods
US8489396B2 (en) * 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
JP5642339B2 (ja) * 2008-03-11 2014-12-17 トヨタ自動車株式会社 信号分離装置及び信号分離方法
EP2151822B8 (en) * 2008-08-05 2018-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
JP5180928B2 (ja) * 2008-08-20 2013-04-10 本田技研工業株式会社 音声認識装置及び音声認識装置のマスク生成方法
EP2306449B1 (en) * 2009-08-26 2012-12-19 Oticon A/S A method of correcting errors in binary masks representing speech
US8577678B2 (en) * 2010-03-11 2013-11-05 Honda Motor Co., Ltd. Speech recognition system and speech recognizing method
BR112012031656A2 (pt) * 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa
US20120245927A1 (en) * 2011-03-21 2012-09-27 On Semiconductor Trading Ltd. System and method for monaural audio processing based preserving speech information

Also Published As

Publication number Publication date
US8577678B2 (en) 2013-11-05
US20110224980A1 (en) 2011-09-15
JP2011191759A (ja) 2011-09-29

Similar Documents

Publication Publication Date Title
JP5738020B2 (ja) 音声認識装置及び音声認識方法
Yoshioka et al. Making machines understand us in reverberant rooms: Robustness against reverberation for automatic speech recognition
Yamamoto et al. Enhanced robot speech recognition based on microphone array source separation and missing feature theory
US8392185B2 (en) Speech recognition system and method for generating a mask of the system
Valin et al. Robust recognition of simultaneous speech by a mobile robot
Hori et al. The MERL/SRI system for the 3rd CHiME challenge using beamforming, robust feature extraction, and advanced speech recognition
Xiao et al. The NTU-ADSC systems for reverberation challenge 2014
Nakatani et al. Dominance based integration of spatial and spectral features for speech enhancement
Delcroix et al. Speech recognition in living rooms: Integrated speech enhancement and recognition system based on spatial, spectral and temporal modeling of sounds
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
Omologo et al. Speech recognition with microphone arrays
Huang et al. Multi-microphone adaptive noise cancellation for robust hotword detection
JP5180928B2 (ja) 音声認識装置及び音声認識装置のマスク生成方法
Yamamoto et al. Making a robot recognize three simultaneous sentences in real-time
Shi et al. Phase-based dual-microphone speech enhancement using a prior speech model
Nakadai et al. A robot referee for rock-paper-scissors sound games
Yamamoto et al. Design and implementation of a robot audition system for automatic speech recognition of simultaneous speech
Yoshioka et al. Noise model transfer: Novel approach to robustness against nonstationary noise
Kundegorski et al. Two-Microphone dereverberation for automatic speech recognition of Polish
Himawan et al. Feature mapping using far-field microphones for distant speech recognition
Dat et al. A comparative study of multi-channel processing methods for noisy automatic speech recognition in urban environments
Yamamoto et al. Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals
Font Multi-microphone signal processing for automatic speech recognition in meeting rooms
Wang et al. Denoising autoencoder and environment adaptation for distant-talking speech recognition with asynchronous speech recording
Takahashi et al. Soft missing-feature mask generation for simultaneous speech recognition system in robots.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150414

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150421

R150 Certificate of patent or registration of utility model

Ref document number: 5738020

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150