JP2006084966A - 発話音声の自動評定装置およびコンピュータプログラム - Google Patents
発話音声の自動評定装置およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2006084966A JP2006084966A JP2004271528A JP2004271528A JP2006084966A JP 2006084966 A JP2006084966 A JP 2006084966A JP 2004271528 A JP2004271528 A JP 2004271528A JP 2004271528 A JP2004271528 A JP 2004271528A JP 2006084966 A JP2006084966 A JP 2006084966A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- pronunciation
- automatic
- phoneme
- rating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】 発話音声の自動評定装置32は、入力される音声データ31から、ネイティブ話者の発話から作成した音響モデル、言語モデル、および音素継続長モデルに基づいて複数の音声特徴量を抽出する特徴抽出部40と、特徴抽出部40により抽出された複数の音声特徴量に基づいて、入力される音声データ31の文レベルでの発音の自動評定を行なう文評定部42と、特徴抽出部40により抽出された複数の音声特徴量に基づいて、入力される音声データ31の単語レベルでの発音誤り検出を行なう単語発音誤り検出部44とを含む。
【選択図】 図1
Description
S.M.ウィット他、「音素レベルでの発音スコアリングおよび対話的言語学習の評価」、音声コミュニケーション、第30巻、pp.95−108、2000年(S. M. Witt and S. J. Young. Phone-level pronunciation scoring and assessment for interactive language learning. Speech Communication, 30: 95-108, 2000.) H.フランコ他、「発音の質を自動評定するための機械スコアの組合せ」、音声コミュニケーション、第30巻、pp.121−130、2000年(H. Franco, L. Neumeyer, V. Digalakis, and O. Ronen. Combination of machine scores for automatic grading of pronunciation quality. Speech Communication, 30: 121-130, 2000.) N.ミネマツ、「発話音声に関するもう一つの音響的評価」、ICASSP予稿集、第1巻、pp.585−588、2004年(N. Minematsu. Yet another acoustic representation of speech sounds. In Proceedings of ICASSP, volume 1, pages 585-588, 2004.) C.テイセラ他、「テキストに依存しない、言語学習者の母語らしさの度合いについての自動評価のための韻律特徴」、ICSLP予稿集、2000年(C. Teixeira, H. Franco, E. Shriberg, K. Precoda, and K. Soenmez. Prosodic features for automatic text-independent evaluation of degree of nativeness for language learners. In Proceedings of ICSLP, 2000.) S.コックス他、「音声認識における信頼度評価への高度なアプローチ」、IEEEトランザクションズ・オン・スピーチ・アンド・オーディオ・プロセシング、第10(7)巻、pp.460−471、2002年(S. Cox and S. Dasmahapatra. High-level approaches to confidence estimation in speech recognition. IEEE Transactions on Speech and Audio Processing, 10(7): 460-471, 2002.) H.ニーマン、「用例分類、2 インターネット内の改訂版」、http://www5.infomatik.unierlangen.de/niemann/homeg.tht/homegli1.html, 2003年(H. Niemann. Klassifikation von Mustern, 2. ueberarbeitete Auflage im Internet. http://www5.informatik.unierlangen.de/niemann/homeg.tht/homegli1.html, 2003.) R.グルーン他、「複数種類アクセントの非ネイティブ英語データベース」、秋季日本音響学会予稿集、2004年(R. Gruhn, T. Cincarek, and S. Nakamura. A multi-accent non-native english databese. In Proceedings of Acoustical Society of Japan, September 2004.)
−構成−
図1は、本発明の第1の実施の形態に係る複合レベル発音評定装置32を含む英語の発話音声を自動評定するための発音自動評定システム20のブロック図である。図1を参照して、発音自動評定システム20は、評価対象となる音声データを格納するための音声データ記憶装置30と、音声データ記憶装置30から読出されたMFCC(メル周波数ケプストラム係数)形式の音声データ31から所定の発音特徴量を抽出し、この発音特徴量に基づく単語および文の両レベルにわたる発音評定の結果を示す文スコア34、および各単語の発音評定を「正しい、発音誤り、不確定」のいずれかで示す単語発音評定クラス情報36を出力するための複合レベル発音評定装置32とを含む。すなわち複合レベル発音評定装置32は、発話を単語という構成要素単位と文という構成要素単位との双方で評価する。
以上に構成を述べた第1の実施の形態に係る発音自動評定システム20は以下のように動作する。まず、特徴抽出部40のネイティブ音響モデル50、ネイティブ音素バイグラム言語モデル56、およびネイティブ音素継続長統計60、図3に示すガウシアン識別機82、および図4に示すガウシアンクラス識別機110、112、および114については学習が済み、所定の記憶装置にコンピュータ読取可能な形で準備されているものとする。
上記した第1の実施の形態では、文評定の結果得られるスコアは離散値である。しかし本発明はそのような実施の形態には限定されず、文評定の結果のスコアが連続値となるような構成をとることもできる。第2の実施の形態は、そのような構成を持つ。
上記した実施の形態の効果を確認するため、実験を行なった。
非母語話者96人(うち大多数は、日本人、ドイツ人、フランス人、中国人、インドネシア人)からTIMITのSX文章(48文、約400語)の読上げ音声を収録した。英語教師15人(北米出身)が文毎に1(最良)から5(最悪)までの離散的な発音習熟度を示すラベルを付けた。その上で、読み誤った単語をマークした。この評価において、全ての話者と教師を4つのグループに分けた。ラベルの信頼性に関しては非特許文献7を参照されたい。最終的な文の評価値としてラベルの平均値を用いた。単語のラベルの分類に関しては以下の2つの方法を用いた。
表2は文の自動評定の実験結果を示す。それによると、人間である教師にとって、発音習熟度に関して分節的な要素が一番大事である。教師に対する時間的要素の影響も大きい。6つの時間と分節的な発音特徴量を線形に組み合わせることで、教師と同様な確度で、文の発音自動評定が可能である。
この実施の形態の発音自動評定システム20は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図6はこのコンピュータシステム330の外観を示し、図7はコンピュータシステム330の内部構成を示す。
Claims (11)
- ある言語の発話に対し、発音の自動評定を行なう発話音声の自動評定装置であって、
予め前記ある言語のネイティブ話者の発話からそれぞれ作成した音響モデル、音素言語モデル、および音素継続長モデルをそれぞれ記憶するためのモデル記憶手段と、
入力される音声データから、前記音響モデル、前記音素言語モデル、および前記音素継続長モデルに基づいて所定の複数の音声特徴量を抽出するための特徴量抽出手段と、
前記特徴量抽出手段により抽出された複数の音声特徴量に基づいて、前記入力される音声データの第1の種類の構成要素単位での発音の自動評定を行なうための第1の自動評定手段と、
前記特徴量抽出手段により抽出された複数の音声特徴量に基づいて、前記入力される音声データの第2の種類の構成要素単位での発音の自動評定を行なうための第2の自動評定手段とを含む、発話音声の自動評定装置。 - 前記特徴量抽出手段は、
前記音響モデルを用い、前記入力される音声データに対する所定の音声単位での強制アライメントを行ない、前記音声単位に分離された音声データを出力するための強制アライメント手段と、
前記音響モデルを用い、前記入力される音声データに対する音声認識を行ない、所定の音声単位でのNベスト候補列を出力するための音声認識手段と、
前記強制アライメント手段の出力する前記音声単位に分離された音声データと、前記音声認識手段の出力する前記Nベスト候補列とに基づき、前記音素言語モデルと前記音素継続長モデルとを用いて、前記音声データの前記複数の特徴量を算出するための特徴量算出手段とを含む、請求項1に記載の発話音声の自動評定装置。 - 前記強制アライメント手段は、前記音響モデルを用い、前記入力される音声データに対する音素単位での強制アライメントを行ない、前記音素単位に分離された音声データを出力するための手段を含む、請求項2に記載の発話音声の自動評定装置。
- 前記音声認識手段は、前記音響モデルを用い、前記入力される音声データに対する単語単位での音声認識を行ない、単語単位でのNベスト単語列を出力するための単語音声認識手段を含む、請求項2または請求項3に記載の発話音声の自動評定装置。
- 前記特徴量算出手段は、前記強制アライメント手段の出力する前記音声単位に分離された音声データと、前記音声認識手段の出力する前記Nベスト単語列とに基づき、前記音素言語モデルと前記音素継続長モデルとを用いて、前記入力される音声データの特徴量として、音素尤度、音素尤度比、単語認識率、音素認識率、発声率、継続時間スコア、音素列確率からなる第1の群の発音特徴量の中の複数の発音特徴量と、音素継続時間比、音素混同尤度比、単語事後確率、発声率変動からなる第2の群の発音特徴量の中の1または複数の発音特徴量とを算出するための手段を含む、請求項1〜請求項4のいずれかに記載の発話音声の自動評定装置。
- 前記第1の自動評定手段は、前記算出するための手段により算出された前記第1の群の発音特徴量に基づいて、前記入力される音声データの第1の種類の構成要素単位での発音の自動評定を行なうための手段を含む、請求項5に記載の発話音声の自動評定装置。
- 前記特徴量抽出手段はさらに、前記強制アライメント手段の出力する前記音声単位に分離された音声データと、前記音声認識手段の出力する前記Nベスト候補列とに基づき、前記音素言語モデルと前記音素継続長モデルとを用いて、前記入力される音声データの特徴量として、単語間無音長を算出するための手段を含み、
前記自動評定を行なうための手段は、前記第1の群の発音特徴量と、前記単語間無音長とに基づいて、前記入力される音声データの第1の種類の構成要素単位での発音の自動評定を行なうための手段を含む、請求項6に記載の発話音声の自動評定装置。 - 前記第2の自動評定手段は、前記算出するための手段により算出された前記第1の群の発音特徴量および前記第2の群の発音特徴量に基づいて、前記入力される音声データの前記第2の種類の構成単位での発音の自動評定を行なうための手段を含む、請求項5〜請求項7のいずれかに記載の発話音声の自動評定装置。
- 前記第1の種類の構成要素単位は文である、請求項1〜請求項8のいずれかに記載の発話音声の自動評定装置。
- 前記第2の種類の構成要素単位は単語である、請求項1〜請求項9のいずれかに記載の発話音声の自動評定装置。
- コンピュータにより実行されると、当該コンピュータを請求項1〜請求項10のいずれかに記載の発話音声の自動評定装置として動作させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004271528A JP2006084966A (ja) | 2004-09-17 | 2004-09-17 | 発話音声の自動評定装置およびコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004271528A JP2006084966A (ja) | 2004-09-17 | 2004-09-17 | 発話音声の自動評定装置およびコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006084966A true JP2006084966A (ja) | 2006-03-30 |
Family
ID=36163512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004271528A Pending JP2006084966A (ja) | 2004-09-17 | 2004-09-17 | 発話音声の自動評定装置およびコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006084966A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007328311A (ja) * | 2006-06-07 | 2007-12-20 | Ind Technol Res Inst | マルチメディアデータ管理方法とその装置 |
JP2008242462A (ja) * | 2007-03-28 | 2008-10-09 | Harman Becker Automotive Systems Gmbh | 多言語の非ネイティブ音声の認識 |
WO2010133072A1 (zh) * | 2009-05-21 | 2010-11-25 | 无敌科技(西安)有限公司 | 发音评测装置及其方法 |
CN101739869B (zh) * | 2008-11-19 | 2012-03-28 | 中国科学院自动化研究所 | 一种基于先验知识的发音评估与诊断系统 |
JP2016042158A (ja) * | 2014-08-18 | 2016-03-31 | 公立大学法人秋田県立大学 | 外国語の難易度判定装置 |
JP2016045467A (ja) * | 2014-08-26 | 2016-04-04 | 日本放送協会 | 発話評価装置、発話評価方法、及びプログラム |
JP2016157097A (ja) * | 2015-02-24 | 2016-09-01 | ブラザー工業株式会社 | 音読評価装置、音読評価方法、及びプログラム |
JP2018031828A (ja) * | 2016-08-23 | 2018-03-01 | Kddi株式会社 | 学習者の口述音声から自動的に採点するプログラム、装置及び方法 |
WO2019065263A1 (ja) * | 2017-09-26 | 2019-04-04 | 日本電信電話株式会社 | 発音誤り検出装置、発音誤り検出方法、プログラム |
CN112951276A (zh) * | 2021-04-23 | 2021-06-11 | 北京一起教育科技有限责任公司 | 一种综合评价语音的方法、装置及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001265211A (ja) * | 2000-01-14 | 2001-09-28 | Atr Ningen Joho Tsushin Kenkyusho:Kk | 外国語学習装置、外国語学習方法および媒体 |
JP2002156897A (ja) * | 2000-11-17 | 2002-05-31 | Fuji Xerox Co Ltd | 発音学習装置 |
-
2004
- 2004-09-17 JP JP2004271528A patent/JP2006084966A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001265211A (ja) * | 2000-01-14 | 2001-09-28 | Atr Ningen Joho Tsushin Kenkyusho:Kk | 外国語学習装置、外国語学習方法および媒体 |
JP2002156897A (ja) * | 2000-11-17 | 2002-05-31 | Fuji Xerox Co Ltd | 発音学習装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007328311A (ja) * | 2006-06-07 | 2007-12-20 | Ind Technol Res Inst | マルチメディアデータ管理方法とその装置 |
JP4699954B2 (ja) * | 2006-06-07 | 2011-06-15 | 財団法人工業技術研究院 | マルチメディアデータ管理方法とその装置 |
JP2008242462A (ja) * | 2007-03-28 | 2008-10-09 | Harman Becker Automotive Systems Gmbh | 多言語の非ネイティブ音声の認識 |
KR101526918B1 (ko) * | 2007-03-28 | 2015-06-08 | 하만 베커 오토모티브 시스템즈 게엠베하 | 다언어 이국 음성 인식 |
CN101739869B (zh) * | 2008-11-19 | 2012-03-28 | 中国科学院自动化研究所 | 一种基于先验知识的发音评估与诊断系统 |
WO2010133072A1 (zh) * | 2009-05-21 | 2010-11-25 | 无敌科技(西安)有限公司 | 发音评测装置及其方法 |
JP2016042158A (ja) * | 2014-08-18 | 2016-03-31 | 公立大学法人秋田県立大学 | 外国語の難易度判定装置 |
JP2016045467A (ja) * | 2014-08-26 | 2016-04-04 | 日本放送協会 | 発話評価装置、発話評価方法、及びプログラム |
JP2016157097A (ja) * | 2015-02-24 | 2016-09-01 | ブラザー工業株式会社 | 音読評価装置、音読評価方法、及びプログラム |
JP2018031828A (ja) * | 2016-08-23 | 2018-03-01 | Kddi株式会社 | 学習者の口述音声から自動的に採点するプログラム、装置及び方法 |
WO2019065263A1 (ja) * | 2017-09-26 | 2019-04-04 | 日本電信電話株式会社 | 発音誤り検出装置、発音誤り検出方法、プログラム |
CN112951276A (zh) * | 2021-04-23 | 2021-06-11 | 北京一起教育科技有限责任公司 | 一种综合评价语音的方法、装置及电子设备 |
CN112951276B (zh) * | 2021-04-23 | 2024-02-20 | 北京一起教育科技有限责任公司 | 一种综合评价语音的方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112397091B (zh) | 中文语音综合评分及诊断系统和方法 | |
Barnard et al. | The NCHLT speech corpus of the South African languages | |
Gruhn et al. | Statistical pronunciation modeling for non-native speech processing | |
US7415411B2 (en) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers | |
Le et al. | Automatic speech recognition for under-resourced languages: application to Vietnamese language | |
US20090258333A1 (en) | Spoken language learning systems | |
US20050159949A1 (en) | Automatic speech recognition learning using user corrections | |
US20070239455A1 (en) | Method and system for managing pronunciation dictionaries in a speech application | |
Kasuriya et al. | Thai speech corpus for Thai speech recognition | |
Anumanchipalli et al. | Development of Indian language speech databases for large vocabulary speech recognition systems | |
Aggarwal et al. | Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I) | |
Demuynck et al. | A comparison of different approaches to automatic speech segmentation | |
Furui et al. | Analysis and recognition of spontaneous speech using Corpus of Spontaneous Japanese | |
JP2007155833A (ja) | 音響モデル開発装置及びコンピュータプログラム | |
Metze | Articulatory features for conversational speech recognition | |
JP2006084966A (ja) | 発話音声の自動評定装置およびコンピュータプログラム | |
Furui et al. | Why is the recognition of spontaneous speech so hard? | |
Kumar et al. | Automatic spontaneous speech recognition for Punjabi language interview speech corpus | |
Odriozola et al. | Basque Speecon-like and Basque SpeechDat MDB-600: speech databases for the development of ASR technology for Basque. | |
Pellegrini et al. | Automatic word decompounding for asr in a morphologically rich language: Application to amharic | |
Wester | Pronunciation variation modeling for Dutch automatic speech recognition | |
Levow | Adaptations in spoken corrections: Implications for models of conversational speech | |
Cincarek et al. | Development of preschool children subsystem for ASR and Q&A in a real-environment speech-oriented guidance task | |
Biczysko | Automatic Annotation of Speech: Exploring Boundaries within Forced Alignment for Swedish and Norwegian | |
Sahashi et al. | Robust lecture speech translation for speech misrecognition and its rescoring effect from multiple candidates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100629 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101214 |