JP5288378B2 - 音響モデルの話者適応装置及びそのためのコンピュータプログラム - Google Patents
音響モデルの話者適応装置及びそのためのコンピュータプログラム Download PDFInfo
- Publication number
- JP5288378B2 JP5288378B2 JP2009196757A JP2009196757A JP5288378B2 JP 5288378 B2 JP5288378 B2 JP 5288378B2 JP 2009196757 A JP2009196757 A JP 2009196757A JP 2009196757 A JP2009196757 A JP 2009196757A JP 5288378 B2 JP5288378 B2 JP 5288378B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- acoustic model
- objective function
- frame
- adaptation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
最初に、この実施の形態において、図2に示す変換に用いる変換行列Wをどのように推定するかについて、その原理を説明し、その後にその原理に従った実施の形態の装置の構成及び動作について説明する。
‐ソフトマージン推定
本実施の形態では、ソフトマージン推定により変換行列を推定する。図3を参照して、2つのクラス70及び72があり、これらを識別するための識別境界を推定する場合を考える。両者を識別するための識別境界として、図3に示す識別境界80,82,84,86,88及び90のように無数の候補が存在する。識別学習では、テストリスクを最小化するために、識別境界から学習サンプルまでの距離を最大化することを目標とする。
続いて、SMEを用いた線形回帰行列の推定について述べる。音響モデル中の平均ベクトルは、式(9)により変換される。ここでは、平均ベクトルに対する適応についてのみ述べる。
以下に述べる第1の実施の形態に係る話者適応装置は、汎用コンピュータと、その汎用コンピュータ上で実行されるコンピュータプログラムとにより実現することができる。図6は、そのためのプログラムの制御構造を示すフローチャートである。
この話者適応装置は以下のように動作する。予め、変換行列の初期値W0がMLLRにより得られているものとする。変換行列の初期値としてMLLRにより得られたものを使用することにより、SMELRの処理では少ない繰返し回数でも精度の高い話者適応を行なうことができる。適応データについては、全てフレームごとに音素ラベルが付され、音響特徴量などについても算出済でコンピュータ読取可能な記憶媒体に準備されているものとする。また、フレームマージンρ、フレームセレクションのための定数τ、経験リスクと汎化リスクとのバランスをとるための定数λについても決定されているものとする。
‐実験条件
我々は、SMELRにより話者適応された音響モデルの認識性能を調べるため、大語彙連続音声認識実験を行なった。実験に使用した音声コーパスは、新聞記事読み上げコーパス(JNAS)である。適応元の話者独立音響モデル(SI)として、男性125名、女性125名が発話した新聞記事25848文章を用い、性別に依存した 2つの音響モデルを最尤法により推定した。音響モデルの状態数は3000、混合数は4である。言語モデルには、毎日新聞記事コーパスの510M単語を用いて、単語バイグラム及び、単語トライグラムを推定した。辞書サイズは60kである。評価には、学習に用いなかった男性23名、女性23名の発話した50文を用いた。適応用文章として40文を準備した。
図9に、適応文章数10、20、及び40のときの実験結果を性別毎に示す。図9において、適応文章数0のグラフ250及び270は、適応元のSIモデルによる結果である。
上記した第1の実施の形態の装置により、話者独立な音響モデルを、比較的少ない適応データで、精度よく話者適応した音響モデルに変換することができる。しかし、適応データが極端に少ないときにも同様に精度が高いとは限らない。
以上に説明した第1及び第2の実施の形態のいずれも、汎用コンピュータ及びその上で実行されるコンピュータプログラムにより実現することができる。図12はこの実施の形態で用いられるコンピュータシステム550の外観を示し、図13はコンピュータシステム550のブロック図である。ここで示すコンピュータシステム550は単なる例であって、他の構成も利用可能である。
40 音響モデル
42 言語モデル
44 音声認識装置
46 入力音声
48 認識結果
60 変換行列
62 話者適応後の音響モデル
100 識別境界
Claims (6)
- 話者独立な音響モデルを、話者適応用のデータを用いた識別学習により、特定話者に適応させる話者適応装置であって、
話者適応のための変換行列及び前記話者適応用のデータを記憶するための記憶手段と、
前記話者独立な音響モデルに、前記変換行列を適用して、前記特定話者に適応した音響モデルを算出するための音響モデル変換手段と、
前記記憶手段に記憶された話者適応用データに含まれるフレームのうち、前記特定話者に適応した音響モデルにより算出された正解データの信頼度が所定範囲に存在するフレームを選択するためのフレーム選択手段と、
前記フレーム選択手段により選択されたフレームを用い、予め識別学習のために準備されたソフトマージン推定のための、経験リスクと汎化項との重み付き和からなる目的関数であって、前記変換行列の関数である目的関数の値を算出するための目的関数算出手段と、
所定の最適化アルゴリズムを用い、前記目的関数算出手段により算出される目的関数の値を極小化するよう、前記変換行列を更新するための更新手段と、
前記変換行列計算手段により更新された変換行列を新たな変換行列として、前記音響モデル変換手段、前記フレーム選択手段、前記目的関数算出手段、及び前記更新手段を所定の終了条件が充足されるまで繰返し動作させるための繰返し制御手段とを含む、話者適応装置。 - 前記信頼度は正解データのフレームの事後確率である、請求項1に記載の話者適応装置。
- 前記フレーム選択手段は、前記記憶手段に記憶された話者適応用データに含まれるフレームのうち、前記特定話者に適応した音響モデルにより算出された正解データの事後確率Pが所定のしきい値τより大きく、前記目的関数に含まれるソフトマージン値ρより小さな範囲に存在するフレームを選択するための手段を含む、請求項2に記載の話者適応装置。
- 前記音響モデル変換手段は、前記話者独立な音響モデルに含まれる正規分布確率密度関数の各々の平均ベクトルに前記変換行列を適用することにより、前記特定話者に適応した音響モデルを算出するための手段を含む、請求項1から請求項3のいずれかに記載の話者適応装置。
- コンピュータを、
話者適応のための変換行列及び話者適応用のデータを記憶するための記憶手段と、
話者独立な音響モデルに、前記変換行列を適用して、特定話者に適応した音響モデルを算出するための音響モデル変換手段と、
前記記憶手段に記憶された話者適応用データに含まれるフレームのうち、前記特定話者に適応した音響モデルにより算出された正解データの信頼度が所定範囲に存在するフレームを選択するためのフレーム選択手段と、
前記フレーム選択手段により選択されたフレームを用い、予め識別学習のために準備されたソフトマージン推定のための、経験リスクと汎化項との重み付き和からなる目的関数であって、前記変換行列の関数である目的関数の値を算出するための目的関数算出手段と、
所定の最適化アルゴリズムを用い、前記目的関数算出手段により算出される目的関数の値を極小化するよう、前記変換行列を更新するための更新手段と、
前記変換行列計算手段により更新された変換行列を新たな変換行列として、前記音響モデル変換手段、前記フレーム選択手段、前記目的関数算出手段、及び前記更新手段を所定の終了条件が充足されるまで繰返し動作させるための繰返し制御手段として機能させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009196757A JP5288378B2 (ja) | 2009-08-27 | 2009-08-27 | 音響モデルの話者適応装置及びそのためのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009196757A JP5288378B2 (ja) | 2009-08-27 | 2009-08-27 | 音響モデルの話者適応装置及びそのためのコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011048163A JP2011048163A (ja) | 2011-03-10 |
JP5288378B2 true JP5288378B2 (ja) | 2013-09-11 |
Family
ID=43834548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009196757A Active JP5288378B2 (ja) | 2009-08-27 | 2009-08-27 | 音響モデルの話者適応装置及びそのためのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5288378B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104795062A (zh) * | 2015-03-20 | 2015-07-22 | 中国人民解放军信息工程大学 | 一种基于压缩感知的说话人自适应方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5647159B2 (ja) * | 2012-02-28 | 2014-12-24 | 日本電信電話株式会社 | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム |
KR20170034227A (ko) * | 2015-09-18 | 2017-03-28 | 삼성전자주식회사 | 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법 |
US11161244B2 (en) * | 2019-01-22 | 2021-11-02 | Mitsubishi Electric Research Laboratories, Inc. | System and method for automatic error recovery in robotic assembly |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143486A (ja) * | 1997-11-10 | 1999-05-28 | Fuji Xerox Co Ltd | 話者適応装置および方法 |
JP2006133706A (ja) * | 2004-11-09 | 2006-05-25 | Canon Inc | 音声認識装置および方法 |
-
2009
- 2009-08-27 JP JP2009196757A patent/JP5288378B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104795062A (zh) * | 2015-03-20 | 2015-07-22 | 中国人民解放军信息工程大学 | 一种基于压缩感知的说话人自适应方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2011048163A (ja) | 2011-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
US8972253B2 (en) | Deep belief network for large vocabulary continuous speech recognition | |
Shannon | Optimizing expected word error rate via sampling for speech recognition | |
JP5229216B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP6110945B2 (ja) | 自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析の方法及びシステム | |
US20080077404A1 (en) | Speech recognition device, speech recognition method, and computer program product | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
US20080243503A1 (en) | Minimum divergence based discriminative training for pattern recognition | |
JP6884946B2 (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
Solera-Ureña et al. | Robust ASR using support vector machines | |
WO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
Williams | Knowing what you don't know: roles for confidence measures in automatic speech recognition | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
US20090094022A1 (en) | Apparatus for creating speaker model, and computer program product | |
JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Becerra et al. | A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish | |
JP2009003110A (ja) | 知識源を組込むための確率計算装置及びコンピュータプログラム | |
JP5170449B2 (ja) | 検出装置、音声認識装置、検出方法、及びプログラム | |
Homma et al. | Iterative unsupervised speaker adaptation for batch dictation | |
Hamaker | Sparse Bayesian Methods for Continuous Speech Recognition | |
Li et al. | AUC optimization based confidence measure for keyword spotting | |
Fabian | Confidence measurement techniques in automatic speech recognition and dialog management | |
Gibson et al. | Confidence-informed unsupervised minimum Bayes risk acoustic model adaptation | |
Pylkkönen | Investigations on discriminative training in large scale acoustic model estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130528 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5288378 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |