JP2013182261A - 適応化装置、音声認識装置、およびそのプログラム - Google Patents
適応化装置、音声認識装置、およびそのプログラム Download PDFInfo
- Publication number
- JP2013182261A JP2013182261A JP2012048232A JP2012048232A JP2013182261A JP 2013182261 A JP2013182261 A JP 2013182261A JP 2012048232 A JP2012048232 A JP 2012048232A JP 2012048232 A JP2012048232 A JP 2012048232A JP 2013182261 A JP2013182261 A JP 2013182261A
- Authority
- JP
- Japan
- Prior art keywords
- data
- adaptation
- acoustic
- acoustic model
- alignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 210
- 238000012545 processing Methods 0.000 claims description 95
- 238000000034 method Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 24
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000013518 transcription Methods 0.000 description 28
- 230000035897 transcription Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Abstract
【解決手段】第1アライメント部は、音響モデルを読み込み、音響モデルに基づいて、読み込まれる音声データと音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含む第1アライメント結果データを生成する。第2アライメント部は、音声データの認識結果データを読み込み、音響モデルに基づいて、音声データと読み込んだ認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含む第2アライメント結果データを生成する。そして第1アライメント結果データと第2アライメント結果データの音響尤度データ同士を比較し、比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する。
【選択図】図1
Description
また、非特許文献2には、話者間の線形写像を用いて音響モデルを適応化する最尤線形回帰法(Maximum Likelihood Linear Regression,MLLR)が記載されている。
実際には、適応化に用いる音声データにおいて、認識率が例えば100%である(つまり、認識誤りのない)音声区間に比べて、認識誤りのある音声区間の方が教師あり話者適応化の効果が高いと考えられる。しかしながら、従来技術による教師あり話者適応化手法は、音声区間による認識誤りの有無を考慮せず、どの音声区間も同等に話者適応化を行っていた。
つまり、従来技術による手法では、音声データの各時刻で一様に話者適応化を行っていることにより、話者適応化による効果も十分に得られていなかったことが考えられる。
なお、第1アライメント部が音響モデルとのアライメントを行なう対象のテキストデータとしては、例えば、書き起こしデータ(教師データ)や、認識結果によるテキストデータ(但し、第2アライメント部がアライメントの対象とする認識結果とは異なるもの)や、その他、音声データに対応し得るテキストを用いる。
音響尤度データが数値データであり、尤度がより高いほどより大きい数値で表わされる場合には、対応する時刻において、第2アライメント結果データに含まれる音響尤度データの値から、第1アライメント結果データに含まれる音響尤度データの値を減じて、その結果が正である場合に、重点区間検出部は、その区間を重点適応区間として検出する。
これにより、第1アライメントデータに含まれる音響尤度をより高める方向への適応化を、より重点的に行なうこととなる。その結果、より高精度に、音響モデルを適応化することができる。
図1は、第1の実施形態による適応化装置の機能構成を示すブロック図である。図示するように、適応化装置1は、書き起こしデータ記憶部11と、認識結果記憶部14と、アライメント部15(第1アライメント部)と、アライメント部16(第2アライメント部)と、アライメント結果記憶部17および18と、重点区間検出部19と、適応化処理部20とを含んで構成される。
書き起こしデータ記憶部11は、適応化用音声データ13に対応する書き起こしデータを記憶する。書き起こしデータは、予め人手等によって書き起こされたテキストデータである。書き起こしデータは、基本的には適応化用音声データにおける発話内容を表わす正解データであるが、必ずしも完全な正解データでなくても良く、多少の誤りを含んでいても良い。また、言い換えれば、この書き起こしデータは学習用(適応化用)の教師データである。
次にステップS3において、重点区間検出部19は、時刻tにおける、認識結果と書き起こしデータとの間の音響尤度差を計算する。アライメントされた書き起こしデータによる、時刻tにおける音響尤度(アライメント結果記憶部17の、時刻tの行から読み出される値)をLR(t)とする。また、アライメントされた認識結果による、時刻tにおける音響尤度(アライメント結果記憶部18の、時刻tの行から読み出される値)をLH(t)とする。このとき、時刻tにおける音響尤度差ΔL(t)は、次の式(1)で計算される。
次にステップS5において、重点区間検出部19は、適応化用音声データ13を全てサーチし終えたか否かを判断する。全てサーチし終えた場合(ステップS5:YES)には、次のステップS6に進む。まだサーチし終えていない場合(ステップS5:NO)には、ステップS3に戻って次のフレームの処理を続ける。
図4は、本発明の第2の実施形態による音声認識装置の機能構成を示すブロック図である。本実施形態による音声認識装置2は、第1の実施形態で述べた適応化装置1を内部に備えている。そして、図示するように、音声認識装置2は、適応化装置1と、音響モデル記憶部112と、認識処理部153とを含んで構成される。
図5は、本発明の第3の実施形態による音声認識装置の機能構成を示すブロック図である。本実施形態による音声認識装置3は、第1の実施形態で述べた適応化装置1を内部に備えている。そして、図示するように、音声認識装置3は、適応化装置1と、音響モデル記憶部112と、認識処理部153と、認識結果記憶部154と、第1言語モデル記憶部161と、第2言語モデル記憶部162とを含んで構成される。
例えば、単独の話者ごとの音響モデルを適応化する代わりに、音響的に似た特徴を有する複数の話者で構成される話者クラスタごとに、音響モデルを適応化するようにしても良い。
また、αは、状況に応じて次の通りとした。
バイグラムの場合(上記(c))、初期の音響モデルの生成時には、MLLR適応ではα=10.0、MAP適応ではα=0.3とした。オンライン適応化時には、MLLR適応ではα=20.0、MAP適応ではα=0.6とした。
トライグラムの場合(上記(b))、初期の音響モデルの生成時には、MLLR適応ではα=20.0、MAP適応ではα=0.3とした。オンライン適応化時には、MLLR適応ではα=100.0、MAP適応ではα=1.5とした。
2,3 音声認識装置
11 書き起こしデータ記憶部
12 音響モデル
13 適応化用音声データ(音声データ)
14 認識結果記憶部
15 アライメント部(第1アライメント部,第1アライメント手段)
16 アライメント部(第2アライメント部,第2アライメント手段)
17 アライメント結果記憶部(第1アライメント結果データ)
18 アライメント結果記憶部(第2アライメント結果データ)
19 重点区間検出部(重点区間検出手段)
20 適応化処理部(適応化処理手段)
112 音響モデル記憶部
153 認識処理部
154 認識結果記憶部
161 第1言語モデル記憶部
162 第2言語モデル記憶部
Claims (8)
- 音素と音響特徴量との間の統計的関係を表わすデータを含んでなる音響モデルを読み込み、前記音響モデルに基づいて、読み込まれる音声データと前記音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第1アライメント結果データを生成する第1アライメント部と、
前記音声データの認識結果データを読み込み、前記音響モデルに基づいて、前記音声データと読み込んだ前記認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第2アライメント結果データを生成する第2アライメント部と、
前記時刻ごとに前記第1アライメント結果データに含まれる音響尤度データと前記第2アライメント結果データに含まれる音響尤度データとを比較する重点区間検出部と、
前記重点区間検出部による比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する適応化処理部と、
を具備することを特徴とする適応化装置。 - 前記重点区間検出部は、時刻ごとに、前記第1アライメント結果データに含まれる音響尤度データよりも、前記第2アライメント結果データに含まれる音響尤度データのほうが、より高い尤度を表わす場合に、当該時刻に関連付けられた区間を重点適応区間として検出する、
ことを特徴とする請求項1に記載の適応化装置。 - 前記適応化処理部は、前記音響モデルの適応化処理において、前記重点区間検出部が検出した前記重点適応区間に付与する重みを、重点適応区間ではない区間に付与する重みよりも大きくする、
ことを特徴とする請求項2に記載の適応化装置。 - 前記適応化処理部は、前記音響モデルの適応化処理において、前記第2アライメント結果データに含まれる音響尤度データが表わす尤度と前記第1アライメント結果データに含まれる音響尤度データが表わす尤度との差が大きい区間ほど、前記重点適応区間に付与する重みをより大きくする、
ことを特徴とする請求項3に記載の適応化装置。 - 請求項1から4までのいずれか一項に記載の適応化装置と、
前記音響モデルを記憶する音響モデル記憶部と、
前記音響モデルに記憶されている前記音響モデルを読み出して、入力される前記音声データの認識処理を行なう認識処理部と、
を具備し、
前記適応化装置が具備する前記第1アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記認識処理部による認識処理の対象となる前記音声データと前記テキストデータとを時間的にアラインし、
前記適応化装置が具備する前記第2アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記音声データと前記認識処理部による認識処理の結果得られる前記認識結果データとを時間的にアラインし、
前記適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを前記音響モデル記憶部に書き込む、
ことを特徴とする音声認識装置。 - 請求項1から4までのいずれか一項に記載の適応化装置と、
前記音響モデルを記憶する音響モデル記憶部と、
言語要素の出現頻度に関する統計的データを表わす第1言語モデルを記憶する第1言語モデル記憶部と、
言語要素の出現頻度に関する統計的データを表わし、前記第1言語モデルとは異なる第2言語モデルを記憶する第2言語モデル記憶部と、
前記音響モデル記憶部に記憶されている前記音響モデルを読み出すとともに、前記第1言語モデル記憶部から読み出した前記第1言語モデルあるいは前記第2言語モデル記憶部から読み出した前記第2言語モデルのいずれかを用いて、入力される前記音声データの認識処理を行なう認識処理部と、
を具備し、
前記適応化装置が具備する前記第1アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記認識処理部による認識処理の対象となる前記音声データと、前記認識処理部が前記第1言語モデルを用いて前記音声データを認識処理して得られた結果である前記テキストデータとを時間的にアラインし、
前記適応化装置が具備する前記第2アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記音声データと、前記認識処理部が前記第2言語モデルを用いて前記音声データを認識処理して得られた結果である前記認識結果データとを時間的にアラインし、
前記適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを前記音響モデル記憶部に書き込む、
ことを特徴とする音声認識装置。 - コンピューターを、
音素と音響特徴量との間の統計的関係を表わすデータを含んでなる音響モデルを読み込み、前記音響モデルに基づいて、読み込まれる音声データと前記音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第1アライメント結果データを生成する第1アライメント手段、
前記音声データの認識結果データを読み込み、前記音響モデルに基づいて、前記音声データと読み込んだ前記認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第2アライメント結果データを生成する第2アライメント手段、
前記時刻ごとに前記第1アライメント結果データに含まれる音響尤度データと前記第2アライメント結果データに含まれる音響尤度データとを比較する重点区間検出手段、
前記重点区間検出手段による比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する適応化処理手段、
として機能させるためのプログラム。 - コンピューターを、請求項5または請求項6のいずれかに記載の音声認識装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012048232A JP6027754B2 (ja) | 2012-03-05 | 2012-03-05 | 適応化装置、音声認識装置、およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012048232A JP6027754B2 (ja) | 2012-03-05 | 2012-03-05 | 適応化装置、音声認識装置、およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013182261A true JP2013182261A (ja) | 2013-09-12 |
JP6027754B2 JP6027754B2 (ja) | 2016-11-16 |
Family
ID=49272906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012048232A Active JP6027754B2 (ja) | 2012-03-05 | 2012-03-05 | 適応化装置、音声認識装置、およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6027754B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160059265A (ko) * | 2014-11-18 | 2016-05-26 | 에스케이텔레콤 주식회사 | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 |
CN111243574A (zh) * | 2020-01-13 | 2020-06-05 | 苏州奇梦者网络科技有限公司 | 一种语音模型自适应训练方法、系统、装置及存储介质 |
JPWO2021059968A1 (ja) * | 2019-09-27 | 2021-04-01 | ||
WO2023100999A1 (ja) * | 2021-12-03 | 2023-06-08 | パナソニックIpマネジメント株式会社 | 音声登録装置および音声登録方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000305591A (ja) * | 1999-04-26 | 2000-11-02 | Mitsubishi Electric Corp | 話者適応化音響モデル作成方法と音声認識装置 |
US6272462B1 (en) * | 1999-02-25 | 2001-08-07 | Panasonic Technologies, Inc. | Supervised adaptation using corrective N-best decoding |
JP2003162293A (ja) * | 2001-09-14 | 2003-06-06 | Fujitsu Ltd | 音声認識装置及び方法 |
US20040215457A1 (en) * | 2000-10-17 | 2004-10-28 | Carsten Meyer | Selection of alternative word sequences for discriminative adaptation |
JP2005091504A (ja) * | 2003-09-12 | 2005-04-07 | Chubu Electric Power Co Inc | 音声認識装置 |
-
2012
- 2012-03-05 JP JP2012048232A patent/JP6027754B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6272462B1 (en) * | 1999-02-25 | 2001-08-07 | Panasonic Technologies, Inc. | Supervised adaptation using corrective N-best decoding |
JP2000305591A (ja) * | 1999-04-26 | 2000-11-02 | Mitsubishi Electric Corp | 話者適応化音響モデル作成方法と音声認識装置 |
US20040215457A1 (en) * | 2000-10-17 | 2004-10-28 | Carsten Meyer | Selection of alternative word sequences for discriminative adaptation |
JP2003162293A (ja) * | 2001-09-14 | 2003-06-06 | Fujitsu Ltd | 音声認識装置及び方法 |
JP2005091504A (ja) * | 2003-09-12 | 2005-04-07 | Chubu Electric Power Co Inc | 音声認識装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160059265A (ko) * | 2014-11-18 | 2016-05-26 | 에스케이텔레콤 주식회사 | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 |
KR102199246B1 (ko) | 2014-11-18 | 2021-01-07 | 에스케이텔레콤 주식회사 | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 |
JPWO2021059968A1 (ja) * | 2019-09-27 | 2021-04-01 | ||
WO2021059968A1 (ja) * | 2019-09-27 | 2021-04-01 | 日本電気株式会社 | 音声認識装置、音声認識方法、およびプログラム |
JP7416078B2 (ja) | 2019-09-27 | 2024-01-17 | 日本電気株式会社 | 音声認識装置、音声認識方法、およびプログラム |
CN111243574A (zh) * | 2020-01-13 | 2020-06-05 | 苏州奇梦者网络科技有限公司 | 一种语音模型自适应训练方法、系统、装置及存储介质 |
WO2023100999A1 (ja) * | 2021-12-03 | 2023-06-08 | パナソニックIpマネジメント株式会社 | 音声登録装置および音声登録方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6027754B2 (ja) | 2016-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
US9099082B2 (en) | Apparatus for correcting error in speech recognition | |
US8731926B2 (en) | Spoken term detection apparatus, method, program, and storage medium | |
JP6437581B2 (ja) | 話者適応型の音声認識 | |
WO2014025682A2 (en) | Method and system for acoustic data selection for training the parameters of an acoustic model | |
US11705116B2 (en) | Language and grammar model adaptation using model weight data | |
JP2016062069A (ja) | 音声認識方法、及び音声認識装置 | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
AU2018271242A1 (en) | Method and system for real-time keyword spotting for speech analytics | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP2017045027A (ja) | 音声言語コーパス生成装置およびそのプログラム | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
JP5914119B2 (ja) | 音響モデル性能評価装置とその方法とプログラム | |
JP5738216B2 (ja) | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
KR100586045B1 (ko) | 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법 | |
JP2005091504A (ja) | 音声認識装置 | |
JP5694976B2 (ja) | 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム | |
GB2558629A (en) | Speaker-adaptive speech recognition | |
Pirhosseinloo et al. | A combination of maximum likelihood Bayesian framework and discriminative linear transforms for speaker adaptation | |
Chang et al. | Evaluation of multi-level context-dependent acoustic model for large vocabulary speaker adaptation tasks | |
JP2015018186A (ja) | 適応化装置およびプログラム | |
Jayasena et al. | Kathana-fluent speech recognition system based on hidden markov model for Sinhala language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160920 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6027754 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |