JP5079760B2 - 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム - Google Patents
音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム Download PDFInfo
- Publication number
- JP5079760B2 JP5079760B2 JP2009198362A JP2009198362A JP5079760B2 JP 5079760 B2 JP5079760 B2 JP 5079760B2 JP 2009198362 A JP2009198362 A JP 2009198362A JP 2009198362 A JP2009198362 A JP 2009198362A JP 5079760 B2 JP5079760 B2 JP 5079760B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- model parameter
- risk
- learning
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
図1に音声認識装置の機能構成例、図2に音声認識装置の処理フロー例を示す。音声認識装置700は、特徴抽出部730、単語列探索部750、記録部(図示していない)などから構成される。そして、あらかじめ音響モデル710、言語モデル720を記録部に記録している。音響モデル710は、音声の音響的特徴をモデル化したものである。言語モデル720は音素や単語といった多数のシンボル系列から構成されている。単語列探索部750は音響モデル710と言語モデル720を読み込む(S710、S720)。そして、特徴抽出部730が認識用音声データを読み込み(S910)、音声の特徴量を抽出する(S730)。特徴量とは、例えばパワーやメルフィルタバンクケプストラム係数などで構成される時系列特徴量ベクトルである。単語列探索部750は、例えば、音響モデル710を用いて時系列特徴量ベクトルに対するスコアを算出し、これと言語モデルを構成するすべてのシンボル系列に対するスコアとを比較して単語列探索を行う(S750)。そして、認識結果として単語列を出力する(S920)。
図3に音響モデル作成装置の機能構成例、図4に音響モデル作成装置の処理フロー例を示す。音響モデル作成装置800は、特徴抽出部730、音響モデルパラメータ学習部810、記録部(図示していない)などで構成される。そして、特徴抽出部730は、学習用音声データ930を読み込み(S930)、特徴量を抽出する(S731)。音響モデルパラメータ学習部810は、学習用音声データに対する教師ラベルを読み取り(S940)、特徴量と教師ラベルとを比較することにより、音響モデルパラメータΛを求める(S810)。より具体的には、教師ラベルにより得られる学習データ中の各音素に対応するデータ(例えば、時系列特徴量ベクトル)から、尤度または識別性能を最大化するように音響モデルパラメータΛ(HMMの状態遷移確率a、GMMの混合重み因子w、及びガウス分布の平均ベクトルパラメータμ、共分散行列パラメータΣ)を推定する。尤度を最大化する方法を最尤学習、識別性能を最大化する方法を識別学習と呼ぶ。なお、本発明では、識別性能の向上を目的とした識別学習に焦点を当てる。
パターン認識誤りの多くは、特徴量空間上で隣接する他シンボルとの境界周辺に位置するパターンの混同に起因する。これを抑制するために、学習の段階で正解シンボルに属する学習データが、隣接する正解以外のシンボルに属してしまうことを極力減らすようにモデルパラメータを推定することが有効である。このようにシンボル間識別能力の向上を積極的に図る枠組みは総称して識別的学習(Discriminative training)と呼ばれている。以下、識別的学習法の代表的な実現法のひとつである最大相互情報量学習(MMI:Maximum Mutual Information)(非特許文献1)を、シンボル系列を同定するパターン認識に適用する場合(非特許文献2)を例に取り説明する。MMI学習においては、後述のように入力パターンと正解シンボル系列の相互情報量を定式化し、その最大化を図る。相互情報量の基準の最大化と識別誤りの最小化は必ずしも一致しないが、通常の最尤学習よりもパターン認識システムの識別能力を上げる効果があることが知られている(非特許文献1)。パターン認識システムのデータ入力である特徴ベクトル系列Χを以下のように表現できる。
MMIを用いた識別学習は式(3)を最小にするようにパラメータΛを修正して行くプロセスである(図3、4ではこのプロセスは「音響モデルパラメータ学習部」と記している)。学習プロセスにおいて利用される最適化手法は,Extended Baum-Welch法や凸最適化法などの様々な方法がある(非特許文献1,2,3)。なお、本発明はこれらの個々の最適化手法のいずれにおいても利用することができる手法である。
最適化手法には、次式のような目的関数のシステムパラメータΛに対する微分に基づいているものもある。
危険度重み付きMMI(Boosted MMI)
非特許文献5の方法での目的関数は
まず、本発明の数学的な解析について説明する。危険度重み付きMMIの目的関数の危険度の重みσに関する微分は、式(9)のようになる。
図5に本発明の音響モデルパラメータ学習装置の機能構成例を、図6に音響モデルパラメータ学習装置の処理フローを示す。音響モデルパラメータ学習装置110は、音響モデル作成装置100に含まれる構成部である。音響モデル作成装置100は、さらに特徴抽出部730、音響モデルの初期値Λ0や平滑化パラメータψなどを記録する記録部718などから構成される。音響モデルパラメータ学習装置110は、記録部119、エラー値カウント部112、微分値算出部113、音響モデルパラメータ更新部114、収束判定部115を備える。記録部119は、危険度重み付きの目的関数111と複数のシンボル系列で構成された言語モデル720とを記録している。
実施例1では、微分値算出部113は微分値を求めた。この処理は、以下のような差分を求める処理としてもよい。具体的には、目的関数に、特徴量、教師ラベル、シンボル系列、初期値または更新後の音響モデルパラメータ、平滑化パラメータ、危険度、危険度の重みを代入した値である第1目的関数値を求める。また、目的関数に、特徴量、教師ラベル、シンボル系列、初期値または更新後の音響モデルパラメータ、危険度、平滑化パラメータ、符号を反転させた前記危険度の重みを代入した値である第2目的関数値を求める。そして、第1目的関数値と第2目的関数値との差分を求める。この場合、音響モデルパラメータ更新部114は、差分に応じた更新量だけ音響モデルパラメータを変更することで、音響モデルパラメータを更新する。変形例1も実質的に実施例1と同じなので、実施例1と同じ効果を得ることができる。
音声認識実験により誤り数(例:音声認識での単語または音素誤り数)を表さないMMIよりも、数値微分型目的関数を用いる提案法が識別性能の向上をさせる効果を確認した。音声認識評価実験では従来法(MMI)と本発明の方法を比較した。また、識別学習ではない最尤推定法(ML: Maximum Likelihood)も評価に加えている。本発明中の実装の設定としてΔσ=0.002を使用した(式(14))。マサチューセッツ工科大学の講演音声データベース(およそ100 時間分の音響データ)を利用して状態数2500のHMM、状態ごとに32混合ガウス分布のHMMを用意した音響モデルに対して、そのモデルパラメータをそれぞれの学習法により推定した。認識実験の際に使用した言語モデルの語彙数は16万単語である。認識結果(単語誤り率)は図7の通りである。図7は、最尤推定法(ML)、従来識別学習法(MMI)と本発明の方法(dMMI)に関する音声認識単語誤り率を示した図である。数値微分型目的関数を用いた提案法(dMMI,31.0%)は従来法(MMI,32.8%)よりも1.8%認識率を改善させることができた。これより、提案法は従来のMMIと同様の計算量ながらも十分な認識性能を示すことが実験的に確認できた。これは本発明の有効性を示すものである。
上述の処理フローは、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
112 エラー値カウント部 113 微分値算出部
114 音響モデルパラメータ更新部 115 収束判定部
119 記録部 700 音声認識装置
730 特徴抽出部 750 単語列探索部
800 音響モデル作成装置 810 音響モデルパラメータ学習部
Claims (7)
- 学習用音声データの特徴量、前記学習用音声データに対する教師ラベル、音響モデルパラメータの初期値、平滑化パラメータから、音響モデルパラメータを求める音響モデルパラメータ学習装置であって、
危険度重み付きの目的関数と複数のシンボル系列で構成された言語モデルとを記録した記録部と、
あらかじめ定めた粒度で、前記シンボル系列ごとに、前記教師ラベルとの相違度を危険度として求めるエラー値カウント部と、
危険度の重みで前記目的関数を微分し、危険度の重みを0とした関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記平滑化パラメータ、前記危険度を代入した値である微分値を求める微分値算出部と、
前記微分値に応じた更新量だけ前記音響モデルパラメータを変更することで、音響モデルパラメータを更新する音響モデルパラメータ更新部と、
音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、前記微分値算出部と前記音響モデルパラメータ更新部の処理を繰り返す収束判定部と、
を備える音響モデルパラメータ学習装置。 - 学習用音声データの特徴量、前記学習用音声データに対する教師ラベル、音響モデルパラメータの初期値、平滑化パラメータ、危険度の重みから、音響モデルパラメータを求める音響モデルパラメータ学習装置であって、
危険度重み付きの目的関数と複数のシンボル系列で構成された言語モデルとを記録した記録部と、
あらかじめ定めた粒度で、前記シンボル系列ごとに、前記教師ラベルとの相違度を危険度として求めるエラー値カウント部と、
前記目的関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記平滑化パラメータ、前記危険度、前記危険度の重みを代入した値である第1目的関数値と、前記目的関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記危険度、前記平滑化パラメータ、符号を反転させた前記危険度の重みを代入した値である第2目的関数値との差分を求める微分値算出部と、
前記差分に応じた更新量だけ前記音響モデルパラメータを変更することで、音響モデルパラメータを更新する音響モデルパラメータ更新部と、
音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、前記微分値算出部と前記音響モデルパラメータ更新部の処理を繰り返す収束判定部と、
を備える音響モデルパラメータ学習装置。 - 請求項1または2記載の音響モデルパラメータ学習装置であって、
前記粒度が音素以下の粒度であること
を特徴とする音響モデルパラメータ学習装置。 - 学習用音声データの特徴量、前記学習用音声データに対する教師ラベル、音響モデルパラメータの初期値、平滑化パラメータから、音響モデルパラメータを求める音響モデルパラメータ学習方法であって、
危険度重み付きの目的関数と複数のシンボル系列で構成された言語モデルとをあらかじめ記録しておき、
あらかじめ定めた粒度で、前記シンボル系列ごとに、前記教師ラベルとの相違度を危険度として求めるエラー値カウントステップと、
危険度の重みで前記目的関数を微分し、危険度の重みを0とした関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記平滑化パラメータ、前記危険度を代入した値である微分値を求める微分値算出ステップと、
前記微分値に応じた更新量だけ前記音響モデルパラメータを変更することで、音響モデルパラメータを更新する音響モデルパラメータ更新ステップと、
音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、前記微分値算出ステップと前記音響モデルパラメータ更新ステップを繰り返す収束判定ステップと、
を有する音響モデルパラメータ学習方法。 - 学習用音声データの特徴量、前記学習用音声データに対する教師ラベル、音響モデルパラメータの初期値、平滑化パラメータ、危険度の重みから、音響モデルパラメータを求める音響モデルパラメータ学習方法であって、
危険度重み付きの目的関数と複数のシンボル系列で構成された言語モデルとをあらかじめ記録しておき、
あらかじめ定めた粒度で、前記シンボル系列ごとに、前記教師ラベルとの相違度を危険度として求めるエラー値カウントステップと、
前記目的関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記平滑化パラメータ、前記危険度、前記危険度の重みを代入した値である第1目的関数値と、前記目的関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記危険度、前記平滑化パラメータ、符号を反転させた前記危険度の重みを代入した値である第2目的関数値との差分を求める微分値算出ステップと、
前記差分に応じた更新量だけ前記音響モデルパラメータを変更することで、音響モデルパラメータを更新する音響モデルパラメータ更新ステップと、
音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、前記微分値算出ステップと前記音響モデルパラメータ更新ステップを繰り返す収束判定ステップと、
を有する音響モデルパラメータ学習方法。 - 請求項4または5記載の音響モデルパラメータ学習方法であって、
前記粒度が音素以下の粒度であること
を特徴とする音響モデルパラメータ学習方法。 - 請求項1から3のいずれかに記載の音響モデルパラメータ学習装置としてコンピュータを動作させる音響モデルパラメータ学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009198362A JP5079760B2 (ja) | 2009-08-28 | 2009-08-28 | 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009198362A JP5079760B2 (ja) | 2009-08-28 | 2009-08-28 | 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011048262A JP2011048262A (ja) | 2011-03-10 |
JP5079760B2 true JP5079760B2 (ja) | 2012-11-21 |
Family
ID=43834627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009198362A Active JP5079760B2 (ja) | 2009-08-28 | 2009-08-28 | 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5079760B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5738216B2 (ja) * | 2012-02-27 | 2015-06-17 | 日本電信電話株式会社 | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム |
JP5694976B2 (ja) * | 2012-02-27 | 2015-04-01 | 日本電信電話株式会社 | 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム |
JP6121187B2 (ja) * | 2013-02-13 | 2017-04-26 | 日本電信電話株式会社 | 音響モデル補正パラメータ推定装置、その方法及びプログラム |
US10332028B2 (en) * | 2015-08-25 | 2019-06-25 | Qualcomm Incorporated | Method for improving performance of a trained machine learning model |
-
2009
- 2009-08-28 JP JP2009198362A patent/JP5079760B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011048262A (ja) | 2011-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Park et al. | A review of speaker diarization: Recent advances with deep learning | |
US7627474B2 (en) | Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons | |
WO2019151507A1 (ja) | 学習装置、学習方法及び学習プログラム | |
US20210166679A1 (en) | Self-training data selection apparatus, estimation model learning apparatus, self-training data selection method, estimation model learning method, and program | |
CN108520752A (zh) | 一种声纹识别方法和装置 | |
JP2014026455A (ja) | メディアデータ解析装置、方法、及びプログラム | |
JP5079760B2 (ja) | 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム | |
JP6121187B2 (ja) | 音響モデル補正パラメータ推定装置、その方法及びプログラム | |
Navratil | Recent advances in phonotactic language recognition using binary-decision trees. | |
JP4881357B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP5738216B2 (ja) | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム | |
JP4537970B2 (ja) | 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体 | |
JP2006201553A (ja) | 識別的学習方法、装置、プログラム、音声認識装置、プログラム、これらのプログラムを記録した記録媒体 | |
JP7279800B2 (ja) | 学習装置、推定装置、それらの方法、およびプログラム | |
JP4705535B2 (ja) | 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム | |
Seppi et al. | Data pruning for template-based automatic speech recognition. | |
JP5308102B2 (ja) | 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体 | |
JP2010250161A (ja) | 相違度利用型識別的学習装置とその方法、そのプログラム | |
JP5694976B2 (ja) | 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム | |
Wiesler | Optimization of discriminative models for speech and handwriting recognition | |
JP4801108B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
JP4801107B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
Senior et al. | Learning improved linear transforms for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110721 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110825 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120821 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120829 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150907 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5079760 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |