JP4705557B2 - 音響モデル生成装置、方法、プログラム及びその記録媒体 - Google Patents
音響モデル生成装置、方法、プログラム及びその記録媒体 Download PDFInfo
- Publication number
- JP4705557B2 JP4705557B2 JP2006317361A JP2006317361A JP4705557B2 JP 4705557 B2 JP4705557 B2 JP 4705557B2 JP 2006317361 A JP2006317361 A JP 2006317361A JP 2006317361 A JP2006317361 A JP 2006317361A JP 4705557 B2 JP4705557 B2 JP 4705557B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- learning data
- reinforcement
- model generation
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
音響モデル生成装置9は、音声データとこの音声データに音素等を対応付けたラベルとから構成される学習データが記録された学習データ記録部11、学習前の音響モデルであるベース音響モデルが記録されたベース音響モデル記録部12、学習部13、音響パラメータを計算するために必要な統計量である十分統計量が記録された十分統計量記録部14、モデル合成部15、学習後の音響モデルが記録される音響モデル記録部16から構成される。
モデル合成部15は、十分統計量記録部14から読み出した十分統計量を用いて学習後の音響モデルを生成する(ステップS92)。生成された音響モデルは音響モデル記録部16に記録される。学習部13の処理とモデル合成部15の処理は、例えば非特許文献2に詳しい。
中川聖一著,「確率モデルによる音声認識」,電子情報通信学会編,コロナ社,1988年7月 Lawrence Rabiner, Biing-Hwang Juang 共著,古井貞熙監訳,「音声認識の基礎(下)」,NTTアドバンステクノロジ、1995年
図1に例示するように、音響モデル生成装置1は、学習データ記録部11、ベース音響モデル記録部12、学習部13、音響パラメータを計算するために必要な統計量である十分統計量が記録された十分統計量記録部14、強化キーワードリスト記録部21、強化学習データ選択部22、強化学習データ記録部23、強化学習部24、強化十分統計量記録部25、強化モデル合成部26、学習後の音響モデルである音響モデルが記録される強化音響モデル記録部27、から構成される。
学習データ記録部11には、音声データとこの音声データに音素等を対応付けたラベルとから構成される学習データが複数予め格納されている。ベース音響モデルには、学習前の音響モデルであるベース音響モデルが予め格納されている。
学習部13は、学習データ記録部11から読み出した学習データと、ベース音響モデルから読み出したベース音響モデルとから、十分統計量を計算して十分統計量記録部14に格納する(ステップS1)。
なお、後述するように、十分統計量は、学習データ記録部11に記録された学習データ毎に計算される。
強化キーワードリスト記録部21には、所定のキーワードのリストが記録されている。所定のキーワードとは、例えば、認識性能を改善したいキーワードや、誤認識キーワードであり、ステップS2の処理に先立ち予め登録しておく。ここで、本発明において、キーワードとは、ひとつの単語に限らず、複数の単語から構成される分節や、キーフレーズをも意味することにする。
強化学習部24は、強化学習データ記録部23から読み出した強化学習データから、強化十分統計量を計算する(ステップS3)。計算された強化十分統計量は、強化十分統計量記録部25に格納される。
強化十分統計量は、強化学習データ記録部23から読み出した強化学習データに基づいて計算された十分統計量のことである。すなわち、十分統計量と強化十分統計量は、数式で表現した定義は同じであるが、十分統計量は学習データ記録部11から読み出した学習データに基づいて計算されたものであるのに対し、強化十分統計量は強化学習データ記録部23から読み出した強化学習データに基づいて計算されたものである点において異なる。強化十分統計量の計算方法は、ステップS1で説明した十分統計量の計算方法と同様である。
強化モデル合成部26は、十分統計量記録部14から読み出した十分統計量と、強化十分統計量記録部25から読み出した強化十分統計量に重みをかけたものとから強化音響モデルを生成する(ステップS4)。生成された強化音響モデルは、強化音響モデル記録部27に格納される。
ステップS1の処理において複数の学習データからG個の十分統計量が得られたとする。このとき、十分統計量は、g=1,…,Gとして、
図1に破線で示すように、生成された音響モデルの認識性能を評価する評価部41、強化十分統計量にかける適切な重みを計算する重み決定部40、評価対象データを近似した開発データが記録された開発データ記録部42を設けて、強化十分統計量にかける適切な重みを決定するようにしてもよい。
上記音響モデル生成装置1の処理機能をコンピュータによって実現することができる。この場合、音響モデル生成装置1の処理機能の内容はプログラムによって記述される。そして、このプログラムを、図5に示すようなコンピュータで実行することにより、上記音響モデル生成装置1の処理機能がコンピュータ上で実現される。
以上の各実施形態の他、本発明である音響モデル生成装置、方法、プログラム及びその記録媒体は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
学習データ全45264発話から、開発データにおける音声認識結果から誤認識となった6つのキーワードを含む2718発話を選択し、強化十分統計量の重みを50倍とし、ベースとなる十分統計量と統合(マージ)して作成した強化音響モデルを用いることで、キーワード再現率を82.4%から83.6%へと改善した(誤り削減率6.5%)。
9 音響モデル生成装置
11 学習データ記録部
12 ベース音響モデル記録部
13 学習部
14 十分統計量記録部
15 モデル合成部
16 音響モデル記録部
21 強化キーワードリスト記録部
22 強化学習データ選択部
23 強化学習データ記録部
24 強化学習部
25 強化十分統計量記録部
26 強化モデル合成部
27 強化音響モデル記録部
31 音素系列変換部
32 距離計算部
40 決定部
41 評価部
42 開発データ記録部
43 閾値決定部
Claims (10)
- 学習データ記録手段から読み出した学習データと、ベース音響モデルとから十分統計量を計算する学習手段と、
所定のキーワードと称呼が同一及び/又は類似のキーワードを含む学習データを上記学習データ記録手段から抽出して、強化学習データとする強化学習データ選択手段と、
上記強化学習データと上記ベース音響モデルから強化十分統計量を計算する強化学習手段と、
上記十分統計量と、上記強化十分統計量に重みをかけたものとから強化音響モデルを生成する強化モデル合成手段と、
を有する音響モデル生成装置。 - 請求項1に記載の音響モデル生成装置において、
上記強化学習データ選択手段は、
上記所定のキーワードを音素系列に変換し、上記変換された音素系列と他の音素系列を音素毎に一致しているかどうかを比較することにより、上記所定のキーワードと称呼が同一及び/又は類似のキーワードを含む学習データを抽出する手段である、
ことを特徴とする音響モデル生成装置。 - 請求項1に記載の音響モデル生成装置において、
上記強化学習データ選択手段は、
上記所定のキーワードと、類比判断の対象となるキーワードとについて音韻論上の音素間類似距離を求めることにより、上記所定のキーワードと称呼が同一及び/類似のキーワードを含む学習データを抽出する手段である、
ことを特徴とする音響モデル生成装置。 - 請求項1に記載の音響モデル生成装置において、
上記強化学習データ選択手段は、
上記所定のキーワードを音素系列に変換し、上記変換された音素系列と他の音素系列の、上記ベース音響モデルにおける音素毎の分布間距離の和を計算することにより、上記所定のキーワードと称呼が同一及び/又は類似のキーワードを含む学習データを抽出する手段である、
ことを特徴とする音響モデル生成装置。 - 請求項1から4の何れかに記載の音響モデル生成装置において、
上記所定のキーワードと称呼が同一のキーワードには、観念が異なるが称呼が共通しているキーワードが含まれる、
ことを特徴とする音響モデル生成装置。 - 請求項1から5の何れかに記載の音響モデル生成装置において、
上記強化モデル合成手段における、上記所定のキーワードと称呼が同一のキーワードを含む学習データから計算された強化十分統計量にかける重みの方が、上記所定のキーワードと称呼が類似のキーワードを含む学習データから計算された強化十分統計量にかける重みよりも大きい、
ことを特徴とする音響モデル生成装置。 - 請求項1から6の何れかに記載の音響モデル生成装置において、
請求項1から6の何れかに記載の音響モデル生成装置により複数の重みに基づいてそれぞれ生成された強化音響モデル毎に、評価対象データを近似したデータについての認識精度を調べ、最も良い認識精度が得られた強化音響モデルに対応した重みを、上記強化十分統計量にかける重みとする重み決定手段を有する、
ことを特徴とする音響モデル生成装置。 - 学習データ記録手段から読み出した学習データと、ベース音響モデルとから十分統計量を計算する学習ステップと、
所定のキーワードと称呼が同一及び/又は類似のキーワードを含む学習データを上記学習データ記録手段から抽出して、強化学習データとする強化学習データ選択ステップと、
上記強化学習データと上記ベース音響モデルから強化十分統計量を計算する強化学習ステップと、
上記十分統計量と、上記強化十分統計量に重みをかけたものとから強化音響モデルを生成する強化モデル合成ステップと、
を有する音響モデル生成方法。 - 請求項1から7に記載の何れかの音響モデル生成装置の各手段としてコンピュータを機能させるための音響モデル生成プログラム。
- 請求項9に記載の音響モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006317361A JP4705557B2 (ja) | 2006-11-24 | 2006-11-24 | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006317361A JP4705557B2 (ja) | 2006-11-24 | 2006-11-24 | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008129527A JP2008129527A (ja) | 2008-06-05 |
JP4705557B2 true JP4705557B2 (ja) | 2011-06-22 |
Family
ID=39555354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006317361A Expired - Fee Related JP4705557B2 (ja) | 2006-11-24 | 2006-11-24 | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4705557B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5155811B2 (ja) * | 2008-10-15 | 2013-03-06 | 日本電信電話株式会社 | 音響モデル作成方法、その装置、プログラム、その記録媒体 |
JP5376341B2 (ja) * | 2008-10-31 | 2013-12-25 | 日本電気株式会社 | モデル適応装置、その方法及びそのプログラム |
JP2020148593A (ja) * | 2019-03-13 | 2020-09-17 | 株式会社明電舎 | 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法 |
JP7098587B2 (ja) * | 2019-08-29 | 2022-07-11 | 株式会社東芝 | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム |
CN115831100B (zh) * | 2023-02-22 | 2023-05-05 | 深圳市友杰智新科技有限公司 | 语音命令词识别方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07104779A (ja) * | 1993-10-01 | 1995-04-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
JP2000352993A (ja) * | 1999-06-14 | 2000-12-19 | Oki Electric Ind Co Ltd | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 |
JP2002372987A (ja) * | 2001-06-13 | 2002-12-26 | Nec Corp | 音響モデル学習装置、音響モデル学習方法、およびそのプログラム |
JP2003099086A (ja) * | 2001-09-25 | 2003-04-04 | Nippon Hoso Kyokai <Nhk> | 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム |
JP2004317845A (ja) * | 2003-04-17 | 2004-11-11 | Nagoya Industrial Science Research Inst | モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法 |
-
2006
- 2006-11-24 JP JP2006317361A patent/JP4705557B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07104779A (ja) * | 1993-10-01 | 1995-04-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
JP2000352993A (ja) * | 1999-06-14 | 2000-12-19 | Oki Electric Ind Co Ltd | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 |
JP2002372987A (ja) * | 2001-06-13 | 2002-12-26 | Nec Corp | 音響モデル学習装置、音響モデル学習方法、およびそのプログラム |
JP2003099086A (ja) * | 2001-09-25 | 2003-04-04 | Nippon Hoso Kyokai <Nhk> | 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム |
JP2004317845A (ja) * | 2003-04-17 | 2004-11-11 | Nagoya Industrial Science Research Inst | モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2008129527A (ja) | 2008-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
US8290773B2 (en) | Information processing apparatus, method and recording medium for generating acoustic model | |
US8301450B2 (en) | Apparatus, method, and medium for dialogue speech recognition using topic domain detection | |
US7103544B2 (en) | Method and apparatus for predicting word error rates from text | |
JP5072206B2 (ja) | 音声分類および音声認識のための隠れ条件付確率場モデル | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
JP4571822B2 (ja) | テキストおよび音声の分類のための言語モデルの判別トレーニング | |
US8224648B2 (en) | Hybrid approach in voice conversion | |
JP2010170137A (ja) | 音声理解装置 | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
JP2004226982A (ja) | 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 | |
JP4705557B2 (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
US20030171931A1 (en) | System for creating user-dependent recognition models and for making those models accessible by a user | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
JP4881357B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP6542823B2 (ja) | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム | |
JP2007078943A (ja) | 音響スコア計算プログラム | |
JP6006678B2 (ja) | 音声モデル生成装置、方法、プログラム | |
JP4801107B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
JP5155811B2 (ja) | 音響モデル作成方法、その装置、プログラム、その記録媒体 | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110203 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110311 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |