JP2011048163A - 音響モデルの話者適応装置及びそのためのコンピュータプログラム - Google Patents
音響モデルの話者適応装置及びそのためのコンピュータプログラム Download PDFInfo
- Publication number
- JP2011048163A JP2011048163A JP2009196757A JP2009196757A JP2011048163A JP 2011048163 A JP2011048163 A JP 2011048163A JP 2009196757 A JP2009196757 A JP 2009196757A JP 2009196757 A JP2009196757 A JP 2009196757A JP 2011048163 A JP2011048163 A JP 2011048163A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- acoustic model
- objective function
- frame
- adaptation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 92
- 238000004590 computer program Methods 0.000 title claims description 8
- 239000011159 matrix material Substances 0.000 claims abstract description 75
- 230000009466 transformation Effects 0.000 claims abstract description 49
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 73
- 230000003044 adaptive effect Effects 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 23
- 230000003252 repetitive effect Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 abstract 2
- 238000000034 method Methods 0.000 description 31
- 238000012545 processing Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 15
- 238000012417 linear regression Methods 0.000 description 14
- 238000012360 testing method Methods 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 8
- 238000007476 Maximum Likelihood Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000004065 semiconductor Substances 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000008571 general function Effects 0.000 description 3
- 238000002945 steepest descent method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Abstract
【解決手段】話者適応装置は、話者適応のための変換行列及び話者適応用データを記憶する記憶装置と、話者独立な音響モデルに変換行列を適用し、話者適応音響モデルを算出する音響モデル変換部150と、話者適応用データのうち正解データの事後確率が所定範囲に存在するフレームを選択するフレーム選択部142と、選択されたフレームを用い、ソフトマージン推定の目的関数の値を算出する目的関数算出部144、146と、最適化アルゴリズムを用い、目的関数の値を極小化するよう変換行列を更新する更新部148と、更新後の変換行列を用い、音響モデル変換部150、フレーム選択部142、目的関数算出部144,146、及び更新部150を終了条件が充足されるまで繰返し動作させる繰返し制御部154とを含む。
【選択図】 図6
Description
最初に、この実施の形態において、図2に示す変換に用いる変換行列Wをどのように推定するかについて、その原理を説明し、その後にその原理に従った実施の形態の装置の構成及び動作について説明する。
‐ソフトマージン推定
本実施の形態では、ソフトマージン推定により変換行列を推定する。図3を参照して、2つのクラス70及び72があり、これらを識別するための識別境界を推定する場合を考える。両者を識別するための識別境界として、図3に示す識別境界80,82,84,86,88及び90のように無数の候補が存在する。識別学習では、テストリスクを最小化するために、識別境界から学習サンプルまでの距離を最大化することを目標とする。
続いて、SMEを用いた線形回帰行列の推定について述べる。音響モデル中の平均ベクトルは、式(9)により変換される。ここでは、平均ベクトルに対する適応についてのみ述べる。
以下に述べる第1の実施の形態に係る話者適応装置は、汎用コンピュータと、その汎用コンピュータ上で実行されるコンピュータプログラムとにより実現することができる。図6は、そのためのプログラムの制御構造を示すフローチャートである。
この話者適応装置は以下のように動作する。予め、変換行列の初期値W0がMLLRにより得られているものとする。変換行列の初期値としてMLLRにより得られたものを使用することにより、SMELRの処理では少ない繰返し回数でも精度の高い話者適応を行なうことができる。適応データについては、全てフレームごとに音素ラベルが付され、音響特徴量などについても算出済でコンピュータ読取可能な記憶媒体に準備されているものとする。また、フレームマージンρ、フレームセレクションのための定数τ、経験リスクと汎化リスクとのバランスをとるための定数λについても決定されているものとする。
‐実験条件
我々は、SMELRにより話者適応された音響モデルの認識性能を調べるため、大語彙連続音声認識実験を行なった。実験に使用した音声コーパスは、新聞記事読み上げコーパス(JNAS)である。適応元の話者独立音響モデル(SI)として、男性125名、女性125名が発話した新聞記事25848文章を用い、性別に依存した 2つの音響モデルを最尤法により推定した。音響モデルの状態数は3000、混合数は4である。言語モデルには、毎日新聞記事コーパスの510M単語を用いて、単語バイグラム及び、単語トライグラムを推定した。辞書サイズは60kである。評価には、学習に用いなかった男性23名、女性23名の発話した50文を用いた。適応用文章として40文を準備した。
図9に、適応文章数10、20、及び40のときの実験結果を性別毎に示す。図9において、適応文章数0のグラフ250及び270は、適応元のSIモデルによる結果である。
上記した第1の実施の形態の装置により、話者独立な音響モデルを、比較的少ない適応データで、精度よく話者適応した音響モデルに変換することができる。しかし、適応データが極端に少ないときにも同様に精度が高いとは限らない。
以上に説明した第1及び第2の実施の形態のいずれも、汎用コンピュータ及びその上で実行されるコンピュータプログラムにより実現することができる。図12はこの実施の形態で用いられるコンピュータシステム550の外観を示し、図13はコンピュータシステム550のブロック図である。ここで示すコンピュータシステム550は単なる例であって、他の構成も利用可能である。
40 音響モデル
42 言語モデル
44 音声認識装置
46 入力音声
48 認識結果
60 変換行列
62 話者適応後の音響モデル
100 識別境界
Claims (6)
- 話者独立な音響モデルを、話者適応用のデータを用いた識別学習により、特定話者に適応させる話者適応装置であって、
話者適応のための変換行列及び前記話者適応用のデータを記憶するための記憶手段と、
前記話者独立な音響モデルに、前記変換行列を適用して、前記特定話者に適応した音響モデルを算出するための音響モデル変換手段と、
前記記憶手段に記憶された話者適応用データに含まれるフレームのうち、前記特定話者に適応した音響モデルにより算出された正解データの信頼度が所定範囲に存在するフレームを選択するためのフレーム選択手段と、
前記フレーム選択手段により選択されたフレームを用い、予め識別学習のために準備されたソフトマージン推定のための、経験リスクと汎化項との重み付き和からなる目的関数であって、前記変換行列の関数である目的関数の値を算出するための目的関数算出手段と、
所定の最適化アルゴリズムを用い、前記目的関数算出手段により算出される目的関数の値を極小化するよう、前記変換行列を更新するための更新手段と、
前記変換行列計算手段により更新された変換行列を新たな変換行列として、前記音響モデル変換手段、前記フレーム選択手段、前記目的関数算出手段、及び前記更新手段を所定の終了条件が充足されるまで繰返し動作させるための繰返し制御手段とを含む、話者適応装置。 - 前記信頼度は正解データのフレームの事後確率である、請求項1に記載の話者適応装置。
- 前記フレーム選択手段は、前記記憶手段に記憶された話者適応用データに含まれるフレームのうち、前記特定話者に適応した音響モデルにより算出された正解データの事後確率Pが所定のしきい値τより大きく、前記目的関数に含まれるソフトマージン値ρより小さな範囲に存在するフレームを選択するための手段を含む、請求項2に記載の話者適応装置。
- 前記音響モデル変換手段は、前記話者独立な音響モデルに含まれる正規分布確率密度関数の各々の平均ベクトルに前記変換行列を適用することにより、前記特定話者に適応した音響モデルを算出するための手段を含む、請求項1から請求項3のいずれかに記載の話者適応装置。
- コンピュータを、
話者適応のための変換行列及び話者適応用のデータを記憶するための記憶手段と、
話者独立な音響モデルに、前記変換行列を適用して、特定話者に適応した音響モデルを算出するための音響モデル変換手段と、
前記記憶手段に記憶された話者適応用データに含まれるフレームのうち、前記特定話者に適応した音響モデルにより算出された正解データの信頼度が所定範囲に存在するフレームを選択するためのフレーム選択手段と、
前記フレーム選択手段により選択されたフレームを用い、予め識別学習のために準備されたソフトマージン推定のための、経験リスクと汎化項との重み付き和からなる目的関数であって、前記変換行列の関数である目的関数の値を算出するための目的関数算出手段と、
所定の最適化アルゴリズムを用い、前記目的関数算出手段により算出される目的関数の値を極小化するよう、前記変換行列を更新するための更新手段と、
前記変換行列計算手段により更新された変換行列を新たな変換行列として、前記音響モデル変換手段、前記フレーム選択手段、前記目的関数算出手段、及び前記更新手段を所定の終了条件が充足されるまで繰返し動作させるための繰返し制御手段として機能させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009196757A JP5288378B2 (ja) | 2009-08-27 | 2009-08-27 | 音響モデルの話者適応装置及びそのためのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009196757A JP5288378B2 (ja) | 2009-08-27 | 2009-08-27 | 音響モデルの話者適応装置及びそのためのコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011048163A true JP2011048163A (ja) | 2011-03-10 |
JP5288378B2 JP5288378B2 (ja) | 2013-09-11 |
Family
ID=43834548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009196757A Active JP5288378B2 (ja) | 2009-08-27 | 2009-08-27 | 音響モデルの話者適応装置及びそのためのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5288378B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013178343A (ja) * | 2012-02-28 | 2013-09-09 | Nippon Telegr & Teleph Corp <Ntt> | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム |
JP2017058674A (ja) * | 2015-09-18 | 2017-03-23 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 |
JP2022509557A (ja) * | 2019-01-22 | 2022-01-20 | 三菱電機株式会社 | ロボットアームを制御するシステム及び方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104795062A (zh) * | 2015-03-20 | 2015-07-22 | 中国人民解放军信息工程大学 | 一种基于压缩感知的说话人自适应方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143486A (ja) * | 1997-11-10 | 1999-05-28 | Fuji Xerox Co Ltd | 話者適応装置および方法 |
JP2006133706A (ja) * | 2004-11-09 | 2006-05-25 | Canon Inc | 音声認識装置および方法 |
-
2009
- 2009-08-27 JP JP2009196757A patent/JP5288378B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143486A (ja) * | 1997-11-10 | 1999-05-28 | Fuji Xerox Co Ltd | 話者適応装置および方法 |
JP2006133706A (ja) * | 2004-11-09 | 2006-05-25 | Canon Inc | 音声認識装置および方法 |
Non-Patent Citations (4)
Title |
---|
JPN6013023124; Jinyu Li, et al.: '"Soft Margin Estimation of Hidden Markov Model Parameters"' Proceedings of INTERSPEECH2006-ICSLP , 200609, pp.2422-2425 * |
JPN6013023127; Jinyu Li, et al.: '"Approximate Test Risk Bound MinimizationThrough Soft Margin Estimation"' IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING Vol.15, No.8, 200711, pp.2393-2404 * |
JPN6013023130; Jinyu Li, et al.: '"A STUDY ON SOFT MARGIN ESTIMATION FOR LVCSR"' IEEE Workshop on ASRU2007 pp.268-271, 200712 * |
JPN6013023134; Jinyu Li, et al.: '"APPROXIMATE TEST RISK MINIMIZATION THROUGH SOFT MARGIN ESTIMATION"' Proceedings of ICASSP2007 , 200704, pp.IV-653 - IV-656 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013178343A (ja) * | 2012-02-28 | 2013-09-09 | Nippon Telegr & Teleph Corp <Ntt> | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム |
JP2017058674A (ja) * | 2015-09-18 | 2017-03-23 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 |
JP2022509557A (ja) * | 2019-01-22 | 2022-01-20 | 三菱電機株式会社 | ロボットアームを制御するシステム及び方法 |
JP7154432B2 (ja) | 2019-01-22 | 2022-10-17 | 三菱電機株式会社 | ロボットアームを制御するシステム及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5288378B2 (ja) | 2013-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
Shannon | Optimizing expected word error rate via sampling for speech recognition | |
US8972253B2 (en) | Deep belief network for large vocabulary continuous speech recognition | |
JP5229216B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP6110945B2 (ja) | 自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析の方法及びシステム | |
JP5223673B2 (ja) | 音声処理装置およびプログラム、並びに、音声処理方法 | |
US20080077404A1 (en) | Speech recognition device, speech recognition method, and computer program product | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
US20080243503A1 (en) | Minimum divergence based discriminative training for pattern recognition | |
JP6884946B2 (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
WO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
US8078462B2 (en) | Apparatus for creating speaker model, and computer program product | |
Williams | Knowing what you don't know: roles for confidence measures in automatic speech recognition | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
JP4861912B2 (ja) | 知識源を組込むための確率計算装置及びコンピュータプログラム | |
Becerra et al. | A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish | |
JP2000075886A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP5170449B2 (ja) | 検出装置、音声認識装置、検出方法、及びプログラム | |
Hamaker | Sparse Bayesian Methods for Continuous Speech Recognition | |
Li et al. | AUC optimization based confidence measure for keyword spotting | |
Fabian | Confidence measurement techniques in automatic speech recognition and dialog management | |
Abbas | Confidence Scoring and Speaker Adaptation in Mobile Automatic Speech Recognition Applications | |
Keshet | Large margin algorithms for discriminative continuous speech recognition | |
Pylkkönen | Investigations on discriminative training in large scale acoustic model estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130528 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5288378 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |