JP5982265B2 - 音声認識装置、音声認識方法、およびプログラム - Google Patents
音声認識装置、音声認識方法、およびプログラム Download PDFInfo
- Publication number
- JP5982265B2 JP5982265B2 JP2012251894A JP2012251894A JP5982265B2 JP 5982265 B2 JP5982265 B2 JP 5982265B2 JP 2012251894 A JP2012251894 A JP 2012251894A JP 2012251894 A JP2012251894 A JP 2012251894A JP 5982265 B2 JP5982265 B2 JP 5982265B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- acoustic
- phoneme
- model
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
第一実施形態の音声認識装置は、ある開発データセットに対して、正解データの音素ラベルと、各音響モデルが出力する認識仮説の音素ラベルの両方を用いて、それぞれの音素ラベルに対する音響尤度を算出する。そして、正解データの音素ラベルの音響尤度が認識仮説の音素ラベルの音響尤度以上となる音声データ数が最も多い音響モデルを最良音響モデルとして選択する。
開発音声データsk毎に正解音素尤度Lc(AMn,sk)と認識音素尤度Lr(AMn,sk)の差分は異なる。また、正解音素尤度Lc(AMn,sk)と認識音素尤度Lr(AMn,sk)の差分Lc(AMn,sk)-Lr(AMn,sk)の値が大きい方が、音素識別性能が高くより良い音響モデルであると言える。第一実施形態では音声データ数cnにより最良音響モデルAMmaxを判定したが、差分の大きさに関係なく音響モデルを選択するため、性能の高い音響モデルを正しく選択できない可能性があった。そこで、第二実施形態ではLc(AMn,sk)≧Lr(AMn,sk)である音声データ数cnではなく、音響尤度の差分Lc(AMn,sk)-Lr(AMn,sk)に基づいて最良音響モデルを選択する。
選択対象の音響モデルAM1,…,AMNで状態数や混合数などが異なっていると、出力する音響尤度のオーダーが異なる場合がある。この場合、オーダーの大きい音響モデルほど、正解音素尤度Lc(AMn,sk)と認識音素尤度Lr(AMn,sk)の差分Lc(AMn,sk)-Lr(AMn,sk)が大きくなる。第二実施形態では差分の値だけを考慮して音響モデルを選択するため、実際は最適な音響モデルではないにも関わらず、状態数や混合数の大きい音響モデルが常に選択されてしまう可能性があった。そこで第三実施形態では、正解音素尤度Lc(AMn,sk)および認識音素尤度Lr(AMn,sk)の値そのものではなく、各音素ラベルの事後確率の値を用いて比較を行う。
「正解音素ラベルの音響尤度<認識音素ラベルの音響尤度」となる正解音素の種類数、つまりその音響モデルが誤りを起こす音素の種類が多岐に渡るものは、より多くの音素で誤りを起こす可能性があり、性能の低い音響モデルであると考えられる。そこで第四実施形態では、誤りを起こす音素の種類数を利用し、音響モデル選択を行う。これにより、Lc(AMn,sk)≧Lr(AMn,sk)となる音声データ数や音響尤度の差分が、複数の音響モデル間で類似した値をとり、音響モデルの差別化が困難な場合に、より適した最良音響モデルを選択することができる。
認識音素ラベルは音声認識結果から生成するが、この音声認識結果は音響モデルAMnと言語モデルLMの両方の影響を受ける。そのため、1位の認識結果候補として出力される認識結果が、必ずしも最も音響尤度の高い認識結果ではなく、ほかの認識結果候補の中に1位の認識結果よりも音響尤度が高い認識結果候補が含まれている可能性がある。認識音素ラベルは、音声データに対して音響尤度が最大となる音素列であることが望ましいため、1位の認識結果のみ用いてしまうと、音響尤度が最大となる音素列が用いられないおそれがある。そこで第五実施形態では、認識結果候補のn-best中で音響尤度が最大になるものを、認識音素尤度Lr(AMn,sk)の算出に用いる認識結果とする。
開発音声データの中には、音質が悪く、正解音素尤度および認識音素尤度の値の信頼性が低いものが混在しているおそれがある。このような開発音声データを音響モデルの選出に用いるとノイズとなってしまい、本来は最適であるよいモデルを最良音響モデルとして選出できない可能性がある。そこで第六実施形態では、開発音声データの音質をあらかじめ判定しておき、音質が閾値以上であると判断された音声のみを、以降の処理で用いる。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
10−13 音響尤度算出部
20−22 モデル選択部
30 音声認識部
50 音響モデル記憶部
52 言語モデル記憶部
54 開発音声データ記憶部
56 正解音素ラベル記憶部
58 認識音素ラベル尤度記憶部
60 正解音素ラベル裕度記憶部
62 最良音響モデル記憶部
64 対象音声データ記憶部
66 認識結果記憶部
Claims (9)
- 複数の音響モデルと言語モデルと複数の開発音声データと前記開発音声データに対応する正解音素ラベルとを入力とし、音響モデル毎に当該音響モデルと前記言語モデルを用いて前記開発音声データを音声認識して得られた認識音素ラベルの音響尤度である認識音素尤度を求め、音響モデル毎に前記正解音素ラベルの音響尤度である正解音素尤度を求める音響尤度算出部と、
前記正解音素尤度と前記認識音素尤度とに基づいて、前記複数の音響モデルから最良音響モデルを選択するモデル選択部と、
を含む音声認識装置。 - 請求項1に記載の音声認識装置であって、
前記モデル選択部は、前記開発音声データ毎に前記正解音素尤度と前記認識音素尤度とを比較し、前記正解音素尤度が前記認識音素尤度以上である音声データ数が最大である音響モデルを前記最良音響モデルとして選択する
ことを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置であって、
前記モデル選択部は、前記開発音声データ毎に前記正解音素尤度と前記認識音素尤度との差分を計算し、前記差分の和が最大である音響モデルを前記最良音響モデルとして選択する
ことを特徴とする音声認識装置。 - 請求項3に記載の音声認識装置であって、
前記音響尤度算出部は、前記認識音素ラベルの事後確率の平均値を前記認識音素尤度として求め、前記正解音素ラベルの事後確率の平均値を前記正解音素尤度として求める
ことを特徴とする音声認識装置。 - 請求項1から4のいずれかに記載の音声認識装置であって、
前記モデル選択部は、前記正解音素尤度と前記認識音素尤度とあらかじめ定めた閾値とを用いて前記音響モデルから最良音響モデル候補を選択し、前記最良音響モデル候補毎に正解音素尤度が認識音素尤度未満である音素ラベルの種類を集計し、前記音素ラベルの種類の数が最小である音響モデルを前記最良音響モデルとして選択する
ことを特徴とする音声認識装置。 - 請求項1から5のいずれかに記載の音声認識装置であって、
前記音響尤度算出部は、前記開発音声データを音声認識して得られた複数の認識結果候補に対する音響尤度のうち最大の音響尤度を前記認識音素尤度とする
ことを特徴とする音声認識装置。 - 請求項1から6のいずれかに記載の音声認識装置であって、
前記音響尤度算出部は、前記開発音声データそれぞれのSN比を算出し、前記SN比があらかじめ定めた閾値以下である開発音声データを破棄する
ことを特徴とする音声認識装置。 - 音響尤度算出部が、複数の音響モデルと言語モデルと複数の開発音声データと前記開発音声データに対応する正解音素ラベルとを入力とし、音響モデル毎に当該音響モデルと前記言語モデルを用いて前記開発音声データを音声認識して得られた認識音素ラベルの音響尤度である認識音素尤度を求め、音響モデル毎に前記正解音素ラベルの音響尤度である正解音素尤度を求める音響尤度算出ステップと、
モデル選択部が、前記正解音素尤度と前記認識音素尤度とに基づいて、前記複数の音響モデルから最良音響モデルを選択するモデル選択ステップと、
を含む音声認識方法。 - 請求項1から7のいずれかに記載の音声認識装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012251894A JP5982265B2 (ja) | 2012-11-16 | 2012-11-16 | 音声認識装置、音声認識方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012251894A JP5982265B2 (ja) | 2012-11-16 | 2012-11-16 | 音声認識装置、音声認識方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014098874A JP2014098874A (ja) | 2014-05-29 |
JP5982265B2 true JP5982265B2 (ja) | 2016-08-31 |
Family
ID=50940906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012251894A Expired - Fee Related JP5982265B2 (ja) | 2012-11-16 | 2012-11-16 | 音声認識装置、音声認識方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5982265B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6006674B2 (ja) * | 2013-04-30 | 2016-10-12 | 日本電信電話株式会社 | 音響モデル選択装置とその方法とプログラム |
KR102492318B1 (ko) | 2015-09-18 | 2023-01-26 | 삼성전자주식회사 | 모델 학습 방법 및 장치, 및 데이터 인식 방법 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4295675B2 (ja) * | 2004-06-03 | 2009-07-15 | 日本電信電話株式会社 | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
JP2006139185A (ja) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
-
2012
- 2012-11-16 JP JP2012251894A patent/JP5982265B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014098874A (ja) | 2014-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11664020B2 (en) | Speech recognition method and apparatus | |
EP3770903B1 (en) | Scalable dynamic class language modeling | |
CN114097026A (zh) | 语音识别的上下文偏置 | |
US8965763B1 (en) | Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training | |
US20110218805A1 (en) | Spoken term detection apparatus, method, program, and storage medium | |
US9905224B2 (en) | System and method for automatic language model generation | |
WO2020166322A1 (ja) | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム | |
CN112825249A (zh) | 语音处理方法和设备 | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
JP7409381B2 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
CN112259084A (zh) | 语音识别方法、装置和存储介质 | |
Zhang et al. | Towards end-to-end speaker diarization with generalized neural speaker clustering | |
JP5982265B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
JP6716513B2 (ja) | 音声区間検出装置、その方法、及びプログラム | |
JP5852550B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
JP7348447B2 (ja) | テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム | |
KR20200102309A (ko) | 단어 유사도를 이용한 음성 인식 시스템 및 그 방법 | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
Qiu et al. | Context-aware neural confidence estimation for rare word speech recognition | |
JP2018132678A (ja) | ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 | |
JP6006674B2 (ja) | 音響モデル選択装置とその方法とプログラム | |
JP2017211513A (ja) | 音声認識装置、その方法、及びプログラム | |
US12125474B2 (en) | Learning apparatus, estimation apparatus, methods and programs for the same | |
JP4801107B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
CN111816164B (en) | Method and apparatus for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160801 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5982265 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |