JP4960845B2 - 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 - Google Patents
音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 Download PDFInfo
- Publication number
- JP4960845B2 JP4960845B2 JP2007321201A JP2007321201A JP4960845B2 JP 4960845 B2 JP4960845 B2 JP 4960845B2 JP 2007321201 A JP2007321201 A JP 2007321201A JP 2007321201 A JP2007321201 A JP 2007321201A JP 4960845 B2 JP4960845 B2 JP 4960845B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- acoustic model
- signal
- unit
- variance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
認識部97では、音声前処理部90から入力される特徴量集合X=[x1^,…,xt^,…]に対して音響モデルp(X|n)、発音辞書モデル記憶部98に記憶された発音辞書モデルp(n|W)、言語モデル記憶部99に記憶された言語モデルp(W)を用いて式(6)に示すように音声認識結果Wを出力する(ステップS97)。
Deng, L.,Droppo, J. and Acero, A.,"Dynamic compensation of HMM variances using the feature enhancement uncertainty computed from a parametric model of speech distortion,"IEEE Trans.SAP,vol. 13,no.3,pp.412-421,2005.
実施例の説明の前に、この発明の音声特徴量の分散を補正する方法の基本的な考え方について説明する。この発明は、式(8)に示すように分散補正された音響モデルの分散Σ′n,m,tを、フレームtに依存する動的成分行列ΣDと、フレームtに依存しない静的成分行列ΣSの組み合わせとして表現する。
式(11)の適切な関数系を示す。一般に関数系が複雑であればあるほど大量の学習データと長い学習時間が必要となるが、精度良く関数系を学習することができる。逆に、関数系をシンプルにすればするほど少量の学習データと短い学習時間で関数系を学習することができるが、その精度は一般的に複雑な関数系に比べて低くなる。従って、以降に示す関数系に関しては、学習データ量や学習時間等の応用上の条件に応じて適切に選択すればよい。以降では、学習によるパラメータの推定が前提となるため、簡単のためにe、x等の引数は省略する。式(11)の2項演算(+)の単純形として、式(12)に示す積表現と式(13)に示す和表現とが考えられる。
ここでA,B,C,Dは、特徴量次元の正方行列であり、他の部分のA〜Dとは異なる変数である。行列は任意の形でよい(対称、ブロック、帯、スカラー倍の単位行列)。以降では、分散のバイアス項の影響を無視し(B=0,D=0)、AとCの対角行列に対しての表現で説明する。AとCのi行i列の対角成分を√λiと√αiと表わすと、音響モデルの特徴量分散Σ′n、m、tの対角成分は式(17)で表わせる。つまり、音響モデルの分散をパラメトリック表現することができる。
一般に、学習においては教師信号が必要となる。教師信号(以降、ラベルと称する。)としては、各フレームにおけるラベル情報が必要になる。ラベルは単語情報や音素情報、HMM状態情報等がある。観測音声信号に予めラベルがふられている場合は、それをそのまま利用する。または、例えば、図示しない音声認識器もしくは音声区間検出器等を用いてラベルを付与すればよい。
上記説明した音声モデルパラメータ学習装置100を用いて音声認識装置150を構成することができる。図5に音声認識装置150の機能構成例を示す。動作フローを図6に示す。音声認識装置150は、背景技術を説明した従来の音声認識装置200の音声前処理部90と、音響モデル記憶部92と、分散動的補正部94とを、音声パラメータ学習装置100に置き換えたものである。他の構成は、音声認識装置200と同じである。音声パラメータ学習装置100は、フレーム毎に上記した説明済みの動作を行い観測音声信号のフレーム毎の音声特徴量xt^と、適応パラメータで補正された音響モデルのガウス分布の分散Σ′n,m,tと、音響モデルの平均パラメータμn,mとを出力する(ステップS10、図6)。認識部74は、説明済みの音声認識装置200と同様の動作により、適応パラメータで補正された音響モデルのガウス分布の分散Σ′n,m,tを用いて単語列Wを出力する(ステップS97)。つまり、音声認識装置150は、特定の音声強調手法に依存することなく、音声の歪みを抑圧した音声認識を実現することができる。また、後述するように高い認識性能を持った音声認識装置とすることができる。
この発明の音声パラメータ学習装置を用いた音声認識装置の単語誤り率(WER:Word Error Rate)を評価した。音声強調手法には、近年提案されたブラインド残響除去法を用いた。音声認識タスクとして、TI-Digit連続数字認識タスクを用いた。音響モデルは単語モデルを採用し、クリーン音声を用いて1単語当たり16状態、1状態当たり3ガウス分布の不特定話者音響モデルを構築した。サンプリング周波数は8kHz、音声特徴量に12次元のMFCCと0次のケプストラム及びそれらの差分成分と加速度成分を利用することにより39次元の特徴量ベクトルを10ms毎に用いた。なお、音声特徴量にCMN(Cepstral Mean Normalization)をかけた。
Claims (11)
- 適応用観測音声信号を入力とし、当該適応用観測音声信号のフレーム毎の音声特徴を強調した強調音声特徴量の集合と、上記強調音声特徴量のバラツキを表わす不確かさの集合とを生成する適応用音声前処理部と、
音響モデルを記憶した音響モデル記憶部と、
上記強調音声特徴量の集合と、上記不確かさの集合と、上記音響モデルと、教師信号とを入力とし、補正後の音響モデルのガウス分布の分散を上記フレームに依存する動的分散と上記フレームに依存しない静的分散との和とし、上記動的分散を動的分散適応パラメータと上記不正確さとの積とし、上記静的分散を静的分散適応パラメータと上記音響モデル中のガウス分布の分散の積とし、上記強調音声特徴量の集合と上記教師信号に基づく学習により動的分散適応パラメータと静的分散適応パラメータとを適応パラメータとして生成する適応パラメータ生成部と、
認識用観測音声信号を入力とし、上記認識用観測音声信号のフレーム毎の音声特徴量と、当該音声特徴量のバラツキを表わす不確かさを生成する認識用音声前処理部と、
上記認識用観測音声信号の音声特徴量の不確かさと、上記適応パラメータと、上記音響モデルから、上記フレーム毎に上記補正後の音響モデルのガウス分布の分散を算出する分散動的補正部と、
を具備する音声パラメータ学習装置。 - 請求項1記載の音声パラメータ学習装置であって、
上記適応用観測音声信号として、上記認識用観測音声信号を用いる
ことを特徴とする音声パラメータ学習装置。 - 請求項1または2記載の音声パラメータ学習装置において、
上記適応用音声前処理部は、
入力される観測音声信号のフレーム毎の音声特徴を強調した強調音声信号を生成する音声強調部と、
上記観測音声信号のフレーム毎の特徴量を算出する特徴量算出部と、
上記強調音声信号のフレーム毎の強調音声特徴量を算出して強調音声特徴量の集合を生成する強調音声特徴量算出部と、
上記強調音声信号の強調音声特徴量と上記観測音声信号の特徴量とから上記強調音声特徴量のバラツキを表わす不確かさを算出して強調音声特徴量の不確かさの集合を生成する不確かさ算出部とを備え、
上記適応パラメータ生成部は、
上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルと、教師信号とを入力とし、HMM状態n、混合成分mの占有確率を算出する占有確率算出部と、
上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルを入力とし、クリーンスピーチの分散を算出するクリーンスピーチ分散算出部と、上記クリーンスピーチの分散と上記占有確率とを入力とし、上記静的分散適応パラメータとしてスケーリング因子λを算出するスケーリング因子λ算出部と、
上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルとを入力とし、クリーン音声特徴と上記音声特徴量との差分の2乗値の期待値を算出する差分2乗値算出部と、
上記占有確率と上記差分の2乗値とを入力とし、上記動的分散適応パラメータとしてスケーリング因子αを生成するスケーリング因子α算出部とを備える、
ことを特徴とする音声パラメータ学習装置。 - 請求項1から3のいずれかに記載した音声パラメータ学習装置と、
上記音声パラメータ学習装置が出力する音声特徴量と、上記音声パラメータ学習装置において補正された音響モデルのガウス分布の分散とを入力とし、単語列を出力する認識部と、
を具備することを特徴とする音声認識装置。 - あらかじめ音響モデル記憶部に音響モデルを記憶しておき、
適応用音声前処理部が、適応用観測音声信号を入力として、当該適応用観測音声信号のフレーム毎の音声特徴を強調した強調音声特徴量の集合と、上記強調音声特徴量のバラツキを表わす不確かさの集合とを生成する適応用音声前処理過程と、
適応パラメータ生成部が、上記強調音声特徴量の集合と、上記不確かさの集合と、上記音響モデルと、教師信号とを入力とし、補正後の音響モデルのガウス分布の分散を上記フレームに依存する動的分散と上記フレームに依存しない静的分散との和とし、上記動的分散を動的分散適応パラメータと上記不正確さとの積とし、上記静的分散を静的分散適応パラメータと上記音響モデル中のガウス分布の分散の積とし、上記強調音声特徴量の集合と上記教師信号に基づく学習により動的分散適応パラメータと静的分散適応パラメータとを適応パラメータとして生成する適応パラメータ生成過程と、
認識用音声前処理部が、認識用観測音声信号を入力とし、上記認識用観測音声信号のフレーム毎の音声特徴量と、当該音声特徴量のバラツキを表わす不確かさを生成する認識用音声前処理過程と、
分散動的補正部が、上記認識用観測音声信号の音声特徴量の不確かさと、上記適応パラメータと、上記音響モデルから、上記フレーム毎に上記補正後の音響モデルのガウス分布の分散を算出する分散動的補正過程と、
を含む音声パラメータ学習方法。 - 請求項5記載の音声パラメータ学習方法であって、
上記適応用観測音声信号として、上記認識用観測音声信号を用いる
ことを特徴とする音声パラメータ学習方法。 - 請求項5または6記載の音声パラメータ学習方法において、
上記適応用音声前処理過程は、
音声強調部が、入力される観測音声信号のフレーム毎の音声特徴を強調した強調音声信号を生成する音声強調過程と、
特徴量算出部が、上記観測音声信号のフレーム毎の特徴量を算出する特徴量算出過程と、
強調音声特徴量算出部が、上記強調音声信号のフレーム毎の強調音声特徴量を算出して強調音声特徴量の集合を生成する強調音声特徴量算出過程と、
不確かさ算出部が、上記強調音声信号の強調音声特徴量と上記観測音声信号の特徴量とから上記強調音声特徴量のバラツキを表わす不確かさを算出して強調音声特徴量の不確かさの集合を生成する不確かさ算出過程とを含み、
上記適応パラメータ生成過程は、
占有確率算出部が、上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルと、教師信号とを入力としてHMM状態n、混合成分mの占有確率を算出する占有確率算出過程と、
クリーンスピーチ算出部が、上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルを入力としてクリーンスピーチの分散を算出するクリーンスピーチ分散算出過程と、
スケーリング因子λ算出部が、上記クリーンスピーチ分散と上記占有確率とからスケーリング因子λを算出するスケーリング因子λ算出過程と、
差分2乗値算出部が、上記強調音声特徴量の集合と、上記強調音声特徴量の不確かさの集合と、上記音響モデルとを入力としてクリーン音声特徴と上記音声特徴量との差分の2乗値の期待値を算出する差分2乗値算出過程とを含み、
スケーリング因子α算出部が、上記占有確率と、上記不確かさと、上記差分の2乗値とを入力として上記動的分散適応パラメータを生成するスケーリング因子α算出過程とを含む、
ことを特徴とする音声パラメータ学習方法。 - 請求項5から7のいずれかに記載した音声パラメータ学習方法と、
認識部が、上記音声パラメータ学習方法で生成された音声特徴量と、補正された音響モデルのガウス分布の分散とを入力とし、単語列を出力する認識過程と、
を含むことを特徴とする音声認識方法。 - 請求項1から3のいずれかに記載された音声パラメータ学習装置としてコンピュータを機能させるためのプログラム。
- 請求項4に記載された音声認識装置としてコンピュータを機能させるためのプログラム。
- 請求項9又は10に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007321201A JP4960845B2 (ja) | 2007-12-12 | 2007-12-12 | 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007321201A JP4960845B2 (ja) | 2007-12-12 | 2007-12-12 | 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009145499A JP2009145499A (ja) | 2009-07-02 |
JP4960845B2 true JP4960845B2 (ja) | 2012-06-27 |
Family
ID=40916185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007321201A Expired - Fee Related JP4960845B2 (ja) | 2007-12-12 | 2007-12-12 | 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4960845B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5694976B2 (ja) * | 2012-02-27 | 2015-04-01 | 日本電信電話株式会社 | 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム |
JPWO2017037830A1 (ja) * | 2015-08-31 | 2017-11-24 | 三菱電機株式会社 | 音声認識装置および音声認識処理方法 |
JP6725186B2 (ja) * | 2018-02-20 | 2020-07-15 | 三菱電機株式会社 | 学習装置、音声区間検出装置および音声区間検出方法 |
JP6998289B2 (ja) * | 2018-11-19 | 2022-01-18 | ヤフー株式会社 | 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム |
CN115662409B (zh) * | 2022-10-27 | 2023-05-05 | 亿铸科技(杭州)有限责任公司 | 一种语音识别方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3250604B2 (ja) * | 1996-09-20 | 2002-01-28 | 日本電信電話株式会社 | 音声認識方法および装置 |
JP2006171020A (ja) * | 2004-12-10 | 2006-06-29 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、音声特徴学習方法、それらの方法を用いた装置、プログラムおよびプログラムを記録した記録媒体 |
-
2007
- 2007-12-12 JP JP2007321201A patent/JP4960845B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009145499A (ja) | 2009-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
Cui et al. | Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR | |
US20080208577A1 (en) | Multi-stage speech recognition apparatus and method | |
US20120130716A1 (en) | Speech recognition method for robot | |
US7552049B2 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
US7505950B2 (en) | Soft alignment based on a probability of time alignment | |
JPH09160584A (ja) | 音声適応化装置および音声認識装置 | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
WO2010035892A1 (en) | Speech recognition method | |
US20100076759A1 (en) | Apparatus and method for recognizing a speech | |
JP4960845B2 (ja) | 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 | |
US8078462B2 (en) | Apparatus for creating speaker model, and computer program product | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP2006349723A (ja) | 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体 | |
CN109155128B (zh) | 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法 | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
Fauziya et al. | A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JPH0486899A (ja) | 標準パターン適応化方式 | |
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP5749186B2 (ja) | 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム | |
JP2005321660A (ja) | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 | |
Munteanu et al. | Robust Romanian language automatic speech recognizer based on multistyle training | |
Matassoni et al. | Optimizing DNN Adaptation for Recognition of Enhanced Speech. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100114 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120313 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120323 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150330 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |