JP5914119B2 - 音響モデル性能評価装置とその方法とプログラム - Google Patents
音響モデル性能評価装置とその方法とプログラム Download PDFInfo
- Publication number
- JP5914119B2 JP5914119B2 JP2012085332A JP2012085332A JP5914119B2 JP 5914119 B2 JP5914119 B2 JP 5914119B2 JP 2012085332 A JP2012085332 A JP 2012085332A JP 2012085332 A JP2012085332 A JP 2012085332A JP 5914119 B2 JP5914119 B2 JP 5914119B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- acoustic model
- evaluation
- stability
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
Claims (7)
- 音響モデル学習に用いる書き起こし付き音声データである学習セットを、M個(M≧2)の学習サブセットGSm(m=1〜Mの整数)に分割する学習セット分割部と、
ベース音響モデルと上記学習サブセットを用いて、学習サブセットを学習サブセット単位で増加させながら学習した音響モデルである上記学習サブセットの数に対応した逐次学習音響モデル群を出力する音響モデル逐次学習部と、
上記学習セットと異なる音声データを、N個(N≧2)の安定性評価セットASn(n=1〜Nの整数)に分割する安定性評価セット分割部と、
上記逐次学習音響モデル群と上記安定性評価セットASnを用いて、上記逐次学習音響モデル群の逐次学習音響モデル毎の信頼度を上記安定性評価セットASn毎に求め、当該信頼度のバラツキを表す安定性を算出する音響モデル性能評価部と、
を具備し、
上記音響モデル性能評価部は、上記安定性評価セットASn中の各フレームにおける音響特徴量を得、上記音響特徴量と上記逐次学習音響モデルと上記安定性評価セットAS n を用いて、各フレームにおいて、エントロピーを計算し、上記各フレームのエントロピーの平均値をm番目の逐次学習音響モデルAmを用いたときの安定性評価セットASnの信頼度とする、
音響モデル性能評価装置。 - 音響モデル学習に用いる書き起こし付き音声データである学習セットを、M個(M≧2)の学習サブセットGSm(m=1〜Mの整数)に分割する学習セット分割部と、
ベース音響モデルと学習サブセットを用いて、学習サブセットを学習サブセット単位で増加させながら学習した音響モデルである上記学習サブセットの数に対応した逐次学習音響モデル群を出力する音響モデル逐次学習部と、
上記学習セットと異なる音声データを、書き起こしが可能な時間長の音声に分割してN個の評価サブセットを生成し、N個の評価サブセットに対してベース音響モデルを用いてそれぞれ信頼度Cnを計算し、平均的な信頼度Caveの値に近い信頼度Cnの評価サブセットを認識精度評価セットとして選択し、当該認識精度評価セット以外のN−1個の評価サブセットを安定性評価セットASnとし、1個の上記認識精度評価セットとN−1個の上記安定性評価セットASnを出力する評価セット選択部と、
上記認識精度評価セットと当該認識精度評価セットの書き起こしである正解文と上記M個の逐次学習音響モデル群とN−1個の上記安定性評価セットASnとを入力として、上記逐次学習音響モデル群と上記安定性評価セットASnを用いて、上記逐次学習音響モデル群の逐次学習音響モデルAm毎の信頼度Cm,nを求め、当該信頼度Cm,nのバラツキを表す安定性Smを算出すると共に、上記認識精度評価セットをM個の逐次学習音響モデル群の逐次学習音響モデルAmを用いて音声認識した結果と当該認識精度評価セットの書き起こしである正解文とを用いて上記逐次学習音響モデルAm毎の認識率Rmを求め、当該認識率Rmと上記安定性Smの値を音響モデル性能として出力する音響モデル性能評価部と、
を具備し、
上記音響モデル性能評価部は、上記安定性評価セットASn中の各フレームにおける音響特徴量を得、上記音響特徴量と上記逐次学習音響モデルとA m 上記安定性評価セットAS n を用いて、各フレームにおいて、エントロピーを計算し、上記各フレームのエントロピーの平均値をm番目の逐次学習音響モデルAmを用いたときの安定性評価セットASnの信頼度とする、
音響モデル性能評価装置。 - 請求項2に記載した音響モデル性能評価装置において、
更に、上記認識精度評価セットの書き起こしを生成する認識精度評価書き起こし生成部を具備し、
当該認識精度評価書き起こし生成部は、上記評価セット選択部が出力する上記認識精度評価セットの音声データを入力とする2個以上の音声認識手段と、当該音声認識手段が出力する文字列間で一致する単語列を認識精度評価セットの書き起こしとして生成する書き起こし生成手段と、
を備えることを特徴とする音響モデル性能評価装置。 - 学習セット分割部が、音響モデル学習に用いる書き起こし付き音声データである学習セットを、M個(M≧2)の学習サブセットGSm(m=1〜Mの整数)に分割する学習セット分割過程と、
音響モデル逐次学習部が、ベース音響モデルと上記学習サブセットを用いて、学習サブセットを学習サブセット単位で増加させながら学習した音響モデルである上記学習サブセットの数に対応した逐次学習音響モデル群を出力する音響モデル逐次学習過程と、
安定性評価セット分割部が、上記学習セットと異なる音声データを、N個(N≧2)の安定性評価セットASn(n=1〜Nの整数)に分割する安定性評価セット分割過程と、
音響モデル性能評価部が、上記逐次学習音響モデル群と上記安定性評価セットASnを用いて、上記逐次学習音響モデル群の逐次学習音響モデル毎の信頼度を上記安定性評価セットASn毎に求め、当該信頼度のバラツキを表す安定性を算出する音響モデル性能評価過程と、
を備え、
上記音響モデル性能評価過程において、上記安定性評価セットASn中の各フレームにおける音響特徴量を得、上記音響特徴量と上記逐次学習音響モデルと上記安定性評価セットAS n を用いて、各フレームにおいて、エントロピーを計算し、上記各フレームのエントロピーの平均値をm番目の逐次学習音響モデルAmを用いたときの安定性評価セットASnの信頼度とする、
音響モデル性能評価方法。 - 学習セット分割部が、音響モデル学習に用いる書き起こし付き音声データである学習セットを、M個(M≧2)の学習サブセットGSm(m=1〜Mの整数)に分割する学習セット分割過程と、
音響モデル逐次学習部が、ベース音響モデルと学習サブセットを用いて、学習サブセットを学習サブセット単位で増加させながら学習した音響モデルである上記学習サブセットの数に対応した逐次学習音響モデル群を出力する音響モデル逐次学習過程と、
評価セット選択部が、上記学習セットと異なる音声データを、書き起こしが可能な時間長の音声に分割してN個の評価サブセットを生成し、N個の評価サブセットに対してベース音響モデルを用いてそれぞれ信頼度Cnを計算し、平均的な信頼度Caveの値に近い信頼度Cnの評価サブセットを認識精度評価セットとして選択し、当該認識精度評価セット以外のN−1個の評価サブセットを安定性評価セットASnとし、1個の上記認識精度評価セットとN−1個の上記安定性評価セットASnを出力する評価セット選択過程と、
音響モデル性能評価部が、上記認識精度評価セットと当該認識精度評価セットの書き起こしである正解文と上記M個の逐次学習音響モデル群とN−1個の上記安定性評価セットASnとを入力として、上記逐次学習音響モデル群と上記安定性評価セットASnを用いて、上記逐次学習音響モデル群の逐次学習音響モデルAm毎の信頼度Cm,nを求め、当該信頼度Cm,nのバラツキを表す安定性Smを算出すると共に、上記認識精度評価セットをM個の逐次学習音響モデル群の逐次学習音響モデルAmを用いて音声認識した結果と当該認識精度評価セットの書き起こしである正解文とを用いて上記逐次学習音響モデルAm毎の認識率Rmを求め、当該認識率Rmと上記安定性Smの値を音響モデル性能として出力する音響モデル性能評価過程と、
を備え、
上記音響モデル性能評価過程において、上記安定性評価セットASn中の各フレームにおける音響特徴量を得、上記音響特徴量と上記逐次学習音響モデルA m と上記安定性評価セットAS n を用いて、各フレームにおいて、エントロピーを計算し、上記各フレームのエントロピーの平均値をm番目の逐次学習音響モデルAmを用いたときの安定性評価セットASnの信頼度とする、
音響モデル性能評価方法。 - 請求項5に記載した音響モデル性能評価方法において、
更に、上記認識精度評価セットの書き起こしを生成する認識精度評価書き起こし生成過程を備え、
当該認識精度評価書き起こし生成過程は、上記評価セット選択部が出力する上記認識精度評価セットの音声データを入力とする2個以上の音声認識ステップと、当該音声認識手段が出力する文字列間で一致する単語列を認識精度評価セットの書き起こしとして生成する書き起こし生成ステップと、
を含むことを特徴とする音響モデル性能評価方法。 - 請求項1乃至3の何れかに記載した音響モデル性能評価装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012085332A JP5914119B2 (ja) | 2012-04-04 | 2012-04-04 | 音響モデル性能評価装置とその方法とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012085332A JP5914119B2 (ja) | 2012-04-04 | 2012-04-04 | 音響モデル性能評価装置とその方法とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013214016A JP2013214016A (ja) | 2013-10-17 |
JP5914119B2 true JP5914119B2 (ja) | 2016-05-11 |
Family
ID=49587367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012085332A Expired - Fee Related JP5914119B2 (ja) | 2012-04-04 | 2012-04-04 | 音響モデル性能評価装置とその方法とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5914119B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10930268B2 (en) | 2018-05-31 | 2021-02-23 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516972B (zh) * | 2021-01-12 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
KR20220118754A (ko) * | 2021-02-19 | 2022-08-26 | 삼성전자주식회사 | 음성 인식 결과를 분석하는 전자 장치 및 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10014337A1 (de) * | 2000-03-24 | 2001-09-27 | Philips Corp Intellectual Pty | Verfahren zum Erzeugen eines Sprachmodells und eines akustischen Modells für ein Spracherkennungssystem |
JP4779239B2 (ja) * | 2001-06-13 | 2011-09-28 | 日本電気株式会社 | 音響モデル学習装置、音響モデル学習方法、およびそのプログラム |
US6766294B2 (en) * | 2001-11-30 | 2004-07-20 | Dictaphone Corporation | Performance gauge for a distributed speech recognition system |
JP4829871B2 (ja) * | 2007-11-21 | 2011-12-07 | 日本電信電話株式会社 | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 |
-
2012
- 2012-04-04 JP JP2012085332A patent/JP5914119B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10930268B2 (en) | 2018-05-31 | 2021-02-23 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP2013214016A (ja) | 2013-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11664020B2 (en) | Speech recognition method and apparatus | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
KR100924399B1 (ko) | 음성 인식 장치 및 음성 인식 방법 | |
JP4657736B2 (ja) | ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法 | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
US9767790B2 (en) | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium | |
JP5229219B2 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム | |
JP6011565B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
US20230036020A1 (en) | Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score | |
US9754024B2 (en) | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium | |
JP5888356B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP5914119B2 (ja) | 音響モデル性能評価装置とその方法とプログラム | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP2004117503A (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP2009300716A (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP6078402B2 (ja) | 音声認識性能推定装置とその方法とプログラム | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP6680009B2 (ja) | 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム | |
JP5626558B2 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム | |
JP2015018186A (ja) | 適応化装置およびプログラム | |
JPWO2009122780A1 (ja) | 適応話者選択装置および適応話者選択方法並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150303 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150407 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151020 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160404 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5914119 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |