JP5180928B2 - 音声認識装置及び音声認識装置のマスク生成方法 - Google Patents
音声認識装置及び音声認識装置のマスク生成方法 Download PDFInfo
- Publication number
- JP5180928B2 JP5180928B2 JP2009185164A JP2009185164A JP5180928B2 JP 5180928 B2 JP5180928 B2 JP 5180928B2 JP 2009185164 A JP2009185164 A JP 2009185164A JP 2009185164 A JP2009185164 A JP 2009185164A JP 5180928 B2 JP5180928 B2 JP 5180928B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- mask
- separation
- soft mask
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
1/(1+exp(−a(R−b)))
を使用して定められている。
R<μ1において S(R)=0
μ1≦R≦μ2において S(R)=f2(R)/f(R)
μ2<Rにおいて S(R)=1
とする。
R<μ1において
μ1<R<μ2
を満たすRの値をbとし、
1/(1+exp(−a(R−b)))
が
f2(R)/f(R)
とフィッティングするようにaを定めて、前記ソフトマスクの値をS(R)として、
S(R)=1/(1+exp(−a(R−b)))
とする。
音声認識部105は、ミッシングフィーチャ理論に基づいて、音響特徴量系列及び対応するマスク系列から音素列を出力する。ここで、音響特徴量及びマスクは時間フレームごとに計算される。時間フレームごとに計算された音響特徴量またはマスクを時間に沿って並べたものを系列と呼称する。音声認識部105は、隠れマルコフモデル(HMM)に基づいた認識装置であり、HMMは、従来の自動音声認識システムにおいても普通に使用されている。本実施形態の音声認識部105の自動音声認識方法と、従来の音声認識方法との差異は以下のとおりである。従来の音声認識方法において、最尤パスの推定は、HMMにおける状態遷移及び出力確率に基づいている。この出力確率を推定するプロセスが、本実施形態の音声認識部105において、以下のように修正されている。
図2は、音源分離部101の構成を示す図である。図2に示すように、音源分離部101は、多チャンネルポストフィルタを備えた、幾何学的音源分離(Geometric Sound Separation, GSS)(参考文献3、8及び11)を使用している。
48個の、スペクトルに関連した特徴量の特徴量ベクトルが使用される。ミッシングフィーチャ・マスク(MFM)は、24個の静的スペクトル特徴量及び24個の動的スペクトル特徴量に対応するベクトルである。ベクトルの各要素は、各特徴量の信頼性を表す。従来のMFM生成において、2値のMFM(すなわち、信頼性がある場合は1であり、信頼性がない場合は0である)が使用されていた。マスク生成部103は、そのベクトルの各要素が0.0から1.0の間であるソフトMFMを生成する。ここで、ソフトMFMを生成するとは、ソフトMFMの定義式にしたがって、その値を定めることをいう。
ym(f,t) 、出力
図4は、MFMを作成する第1の方法を説明するための図である。
R<μ1において S(R)=0
μ1≦R≦μ2において S(R)=f2(R)/f(R)
μ2<Rにおいて S(R)=1
とする。
図5は、MFMを作成する第2の方法を説明するための図である。
図6は、MFMを作成する第3の方法を説明するための図である。
μ1<R<μ2
を満たすRの値をbとし、
1/(1+exp(−a(R−b)))
が
f2(R)/f(R)
とフィッティングするようにaを定めて、MFMマスクの値をS(R)として、
S(R)=1/(1+exp(−a(R−b)))
とする。
本実施形態による音声認識装置の効率を評価するように、3つの同時音声信号について実験を行った。人間型ロボットに8個の全方位マイクロフォンを取り付けた。マイクロフォンは空中にないので、ロボットの体の伝達間数は、捉えた音に影響を与えた。
{w,θsoft,k}={0.3,0.2,140}
であった。ハードマスク及びソフトマスクに基づいた、中央のスピーカーからの最良の認識率は、それぞれ、93%及び97%であるので、ソフトマスクは、ハードマスクよりもよく機能している。
[1] Makio Kashino and Tatsuya Hirahara,“One, two, many-judging the number of concurrent talkers, ”Journal of Acoustic Society of America, vol.99, no.4, pp. Pt.2,2596, 1966.
[2] M. L. Seltzer, B. Raj, and R. M. Stern, “A Bayesian frame work for spectrographic mask estimation for missing feature speech recognition,” Speech Communication, vol.43, pp. 379-393, 2004.
[3] Shun’ichi Yamamoto, Jean-Marc Valin, Kazuhiro Nakadai, Jean Rouat, Francois Michaud, Tetsuya Ogata, and Hiroshi G. Okuno, “Enhanced Robot Speech Recognition Based on Microphone Array Source Separation and Missing Feature Theory,” in Proc. of IEEEI CRA-2005, pp. 1489-1494, 2005.
[4] J.Barker, L. Josifovski, M. P. Cooke and P. D. Green, “Soft decision in missing data techniques for robust automatic speech recognition,” Proc., ICSLP-2000, 2000.
[5] Yoshitaka Nishimura, Takahiro Shinozaki, Koji Iwano, and Sadaoki Furui, “Noise-Robust Speech Recognition Using Multi-Band Spectral Features,” in Proc., 148th Acoustical Society of America Meetings, No.1aSC7, 2004.
[6] Multiband Julius, “http://www.furui.cs.titech.ac.jp/mbandjulius/”.
[7] Tatsuya Kawahara and Akinobu Lee, “Free Software Toolkit for Japanese Large Vocabulary Continuous Speech Recognition,” in Proc. of ISCA ICSLP-2000, vol. 4, pp. 476-479, 2000.
[8] Shun’ichi Yamamoto, Kazuhiro Nakadai, Jean-Marc Valin, Jean Rouat, Francois Michaud, Kazunori Komatani, Tetsuya Ogata, and Hiroshi G. Okuno, “Making A Robot Recognize Three Simultaneous Sentences In Real-time,” in Proc. of IEEE/RSJIROS-2005, pp. 897-902, 2005.
[9] Lucas C. Parra and Cristopher V. Alvino, “Geometric Source Separation: Merging Convolutive Source Separation With Geometric Beamforming,” IEEE Trans. Speech and Audio Processing, vol. 10, no. 6, pp. 352-362, 2002.
[10] Israel Cohen and Baruch Berdugo, “Speech enhancement for non-stationary noise environments, ”Signal Processing, 81(2), pp. 2403-2418, 2001.
[11] Shun’ichi Yamamoto, Kazuhiro Nakadai, Mikio Nakano, Hiroshi Tsujino, Jean-Marc Valin, Ryu Takeda, Kazunori Komatani, Tetsuya Ogata, and Hiroshi G. Okuno, “Genetic Algorithm-Based Improvemen tof Robot Hearing Capabilities in Separating and Recognizing Simultaneous Speech Signals,” in Proc., IEA/AIE-2006 LNAI4031, 2006, pp. 207-217, Springer-Verlag.
[12] Y. Ephraim and D. Malah, “Speech Enchancement Using Min-imum Mean-Square Error Log-Spectral Amplitude Estimator,” IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-33, no. 2, pp. 443-445, 1985.
Claims (9)
- 複数音源からの混合音を分離する音源分離部と、
前記音源分離部が分離を行った際の分離信頼度に対応して、分離された音声ごとに、0から1の間の連続的な値をとりうるソフトマスクを生成するマスク生成部と、
前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部と、
を備え、
前記分離信頼度は、前記音源分離部により分離された音声毎に算出される、他の音源からの混ざり込みの程度を表わす数値であって、他の音源からの混ざり込みがなく完全に分離できている場合には1となり、混ざりこみが大きくなるにつれて0に近い値をとり、
前記マスク生成部は、前記算出された分離信頼度のヒストグラムに基づいて前記ソフトマスクを生成する、
音声認識装置。 - 前記ソフトマスクは、前記ヒストグラムから算出される、前記分離信頼度の確率分布を構成する2つの正規分布の確率密度関数に基づいて定められる、
請求項1に記載の音声認識装置 - 前記ソフトマスクが、Rを分離信頼度、a、bを定数として、Rのシグモイド関数
1/(1+exp(−a(R−b)))
を使用して定められ、
上記定数a及びbは、前記2つの正規分布の確率密度関数に基づいて定められる、
請求項2に記載の音声認識装置。 - 音声認識装置のソフトマスクを生成する方法であって、前記音声認識装置は、
複数音源からの混合音を分離する音源分離部と、
前記音源分離部が分離を行った際の分離信頼度に対応して、分離された音声ごとに、0から1の間の連続的な値をとりうるソフトマスクを生成するマスク生成部と、
前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部と、を備え、前記ソフトマスクは前記分離信頼度の関数を使用して定められており、
分離信頼度のヒストグラムを求めるステップと、
分離信頼度のヒストグラムに基づいて、前記関数が有する少なくとも一つのパラメータの値を定めるステップと、を含み、
前記分離信頼度は、前記音源分離部により分離された音声毎に算出される、他の音源からの混ざり込みの程度を表わす数値であって、他の音源からの混ざり込みがなく完全に分離できている場合には1となり、混ざりこみが大きくなるにつれて0に近い値をとる、
音声認識装置のソフトマスクを生成する方法。 - 前記関数が有する他の少なくとも一つのパラメータの探索範囲を定めるステップと、
前記定められた探索範囲内において、前記他の少なくとも一つのパラメータの値を変化させながら、前記音声認識装置の音声認識率を求めるステップと、
前記音声認識率が最大となる値を前記他の少なくとも一つのパラメータの値とするステップとを含む、
請求項4に記載の音声認識装置のソフトマスクを生成する方法。 - μ1、μ2(μ1<μ2)を平均値、σ1、σ2を標準偏差とし、分離信頼度をRとして、分離信頼度Rのヒストグラムを、(μ1,σ1)を有する第1の正規分布の確率密度関数f1(R)及び(μ2,σ2)を有する第2の正規分布の確率密度関数f2(R)でフィッティングすることによって、μ1、μ2、σ1及びσ2を推定し、f1(R)、f2(R)、μ1及びμ2を使用して前記ソフトマスクを生成する、請求項4に記載の音声認識装置のソフトマスクを生成する方法。
- 前記ソフトマスクの値をS(R)、f(R)=f1(R)+f2(R)として、
R<μ1において S(R)=0
μ1≦R≦μ2において S(R)=f2(R)/f(R)
μ2<Rにおいて S(R)=1
とする、請求項6に記載の音声認識装置のソフトマスクを生成する方法。 - f1(R)とf2(R)との交点で
μ1<R<μ2
を満たすRの値をbとし、
1/(1+exp(−a(R−b)))
が
f2(R)/f(R)
とフィッティングするようにaを定めて、前記ソフトマスクの値をS(R)として、
S(R)=1/(1+exp(−a(R−b)))
とする、請求項6に記載の音声認識装置のソフトマスクを生成する方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/543,759 US8392185B2 (en) | 2008-08-20 | 2009-08-19 | Speech recognition system and method for generating a mask of the system |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13622508P | 2008-08-20 | 2008-08-20 | |
US61/136,225 | 2008-08-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010049249A JP2010049249A (ja) | 2010-03-04 |
JP5180928B2 true JP5180928B2 (ja) | 2013-04-10 |
Family
ID=42066329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009185164A Active JP5180928B2 (ja) | 2008-08-20 | 2009-08-07 | 音声認識装置及び音声認識装置のマスク生成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5180928B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8577678B2 (en) * | 2010-03-11 | 2013-11-05 | Honda Motor Co., Ltd. | Speech recognition system and speech recognizing method |
JP5328744B2 (ja) * | 2010-10-15 | 2013-10-30 | 本田技研工業株式会社 | 音声認識装置及び音声認識方法 |
KR101726737B1 (ko) * | 2010-12-14 | 2017-04-13 | 삼성전자주식회사 | 다채널 음원 분리 장치 및 그 방법 |
US11894008B2 (en) | 2017-12-12 | 2024-02-06 | Sony Corporation | Signal processing apparatus, training apparatus, and method |
CN110364144B (zh) * | 2018-10-25 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法及装置 |
KR102259299B1 (ko) * | 2019-12-27 | 2021-06-01 | 한림대학교 산학협력단 | 책 다루는 소리의 기계 학습모델을 이용한 책 소리 분류 방법 |
-
2009
- 2009-08-07 JP JP2009185164A patent/JP5180928B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010049249A (ja) | 2010-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8392185B2 (en) | Speech recognition system and method for generating a mask of the system | |
EP3707716B1 (en) | Multi-channel speech separation | |
JP5738020B2 (ja) | 音声認識装置及び音声認識方法 | |
Žmolíková et al. | Learning speaker representation for neural network based multichannel speaker extraction | |
Hori et al. | The MERL/SRI system for the 3rd CHiME challenge using beamforming, robust feature extraction, and advanced speech recognition | |
Yamamoto et al. | Real-time robot audition system that recognizes simultaneous speech in the real world | |
Xiao et al. | The NTU-ADSC systems for reverberation challenge 2014 | |
Nakatani et al. | Dominance based integration of spatial and spectral features for speech enhancement | |
JP5180928B2 (ja) | 音声認識装置及び音声認識装置のマスク生成方法 | |
Yoshioka et al. | Impact of single-microphone dereverberation on DNN-based meeting transcription systems | |
Tsao et al. | An ensemble speaker and speaking environment modeling approach to robust speech recognition | |
Tu et al. | An information fusion framework with multi-channel feature concatenation and multi-perspective system combination for the deep-learning-based robust recognition of microphone array speech | |
Delcroix et al. | Speech recognition in living rooms: Integrated speech enhancement and recognition system based on spatial, spectral and temporal modeling of sounds | |
Huang et al. | Multi-microphone adaptive noise cancellation for robust hotword detection | |
Tu et al. | LSTM-based iterative mask estimation and post-processing for multi-channel speech enhancement | |
Xiong et al. | Channel selection using neural network posterior probability for speech recognition with distributed microphone arrays in everyday environments | |
Seltzer et al. | Speech-recognizer-based filter optimization for microphone array processing | |
Purushothaman et al. | 3-D acoustic modeling for far-field multi-channel speech recognition | |
Yamamoto et al. | Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals | |
Sun et al. | A two-stage single-channel speaker-dependent speech separation approach for chime-5 challenge | |
Himawan et al. | Feature mapping using far-field microphones for distant speech recognition | |
Takahashi et al. | Soft missing-feature mask generation for simultaneous speech recognition system in robots. | |
Feng et al. | The CMU-MIT REVERB challenge 2014 system: Description and results | |
Dat et al. | A comparative study of multi-channel processing methods for noisy automatic speech recognition in urban environments | |
Font | Multi-microphone signal processing for automatic speech recognition in meeting rooms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111124 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120518 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121009 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5180928 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |