JP2006084966A - 発話音声の自動評定装置およびコンピュータプログラム - Google Patents

発話音声の自動評定装置およびコンピュータプログラム Download PDF

Info

Publication number
JP2006084966A
JP2006084966A JP2004271528A JP2004271528A JP2006084966A JP 2006084966 A JP2006084966 A JP 2006084966A JP 2004271528 A JP2004271528 A JP 2004271528A JP 2004271528 A JP2004271528 A JP 2004271528A JP 2006084966 A JP2006084966 A JP 2006084966A
Authority
JP
Japan
Prior art keywords
speech
pronunciation
automatic
phoneme
rating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004271528A
Other languages
English (en)
Inventor
Cincarek Tobias
トビアス・ツィンツァレク
Gruhn Rainer
ライナー・グルーン
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004271528A priority Critical patent/JP2006084966A/ja
Publication of JP2006084966A publication Critical patent/JP2006084966A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】話者の発音の全体的な習熟度を高い信頼性で推定することと、より小さな単位での発音の評定とを同時に行なうこととが可能な発話音声の自動評定装置を提供する。
【解決手段】 発話音声の自動評定装置32は、入力される音声データ31から、ネイティブ話者の発話から作成した音響モデル、言語モデル、および音素継続長モデルに基づいて複数の音声特徴量を抽出する特徴抽出部40と、特徴抽出部40により抽出された複数の音声特徴量に基づいて、入力される音声データ31の文レベルでの発音の自動評定を行なう文評定部42と、特徴抽出部40により抽出された複数の音声特徴量に基づいて、入力される音声データ31の単語レベルでの発音誤り検出を行なう単語発音誤り検出部44とを含む。
【選択図】 図1

Description

この発明は発話の発音に関する発話音声自動評定装置に関し、特に、非母語話者の発音を母語話者の発音と比較して評定する発話音声の自動評定装置に関する。
言語の主要な目的の一つはコミュニケーションであり、特に音声を用いたコミュニケーションは日々の生活において非常に重要である。音声を用いたコミュニケーションでは、発音が大きな意味を持つ。ある単語の一部について発音が変わると、他の単語の発音と一致してしまったり、判別不能な音声となったりすることがあり、円滑なコミュニケーションが阻害される。そのため、人は成長過程で母語の発音を周囲の人の発音から学習し、異なる音声を聞き分けたり、区別して発音したりすることがほとんど無意識のうちにできるようになる。
一方、複数の言語を考えてみると、それら言語において使用される音素には共通するものもあるし、異なるものもある。ある言語に存在する音素であっても他の言語には存在しないこともある。ある言語を母語とする話者にとって、その母語に存在しない音素を有する他の言語の発音を習得するのは難しく、特に、その言語を母語とする話者と同様に発音することには大きな困難が伴う。
したがって、ある言語を学習しようとする場合、自己の発音がその言語を母語とする話者の発音と比較してどの程度異なっているかを知ることができれば、非常に有効である。通常、そうした発音の評価はその言語を母語とする教師によって行なわれる。しかしそのように教師とともに対話式で学習を行なうことが常に可能とは限らない。むしろそのような学習の機会をもてる者はまれで、通常は、TVまたはラジオ放送、テープ、CD−ROM、DVDなど、一方向の教材を用いて学習が行なわれる。その結果、自己の発音が正しいかどうかについて知ることは非常に難しい。
そこで、教師なしでもある言語の発音についての評価を自動的に行なう、いわゆる発音の自動評定方法が研究されている。発音の自動評定とは、非母語話者の音素および単語の発音、または文の発音が、母語話者の発音と比べてどの程度異なっているかを自動的に推定することをいう。
従来、発音の自動評定は、音素、文、文章という各レベルで別々に行なわれている(非特許文献1、2、3参照)。
S.M.ウィット他、「音素レベルでの発音スコアリングおよび対話的言語学習の評価」、音声コミュニケーション、第30巻、pp.95−108、2000年(S. M. Witt and S. J. Young. Phone-level pronunciation scoring and assessment for interactive language learning. Speech Communication, 30: 95-108, 2000.) H.フランコ他、「発音の質を自動評定するための機械スコアの組合せ」、音声コミュニケーション、第30巻、pp.121−130、2000年(H. Franco, L. Neumeyer, V. Digalakis, and O. Ronen. Combination of machine scores for automatic grading of pronunciation quality. Speech Communication, 30: 121-130, 2000.) N.ミネマツ、「発話音声に関するもう一つの音響的評価」、ICASSP予稿集、第1巻、pp.585−588、2004年(N. Minematsu. Yet another acoustic representation of speech sounds. In Proceedings of ICASSP, volume 1, pages 585-588, 2004.) C.テイセラ他、「テキストに依存しない、言語学習者の母語らしさの度合いについての自動評価のための韻律特徴」、ICSLP予稿集、2000年(C. Teixeira, H. Franco, E. Shriberg, K. Precoda, and K. Soenmez. Prosodic features for automatic text-independent evaluation of degree of nativeness for language learners. In Proceedings of ICSLP, 2000.) S.コックス他、「音声認識における信頼度評価への高度なアプローチ」、IEEEトランザクションズ・オン・スピーチ・アンド・オーディオ・プロセシング、第10(7)巻、pp.460−471、2002年(S. Cox and S. Dasmahapatra. High-level approaches to confidence estimation in speech recognition. IEEE Transactions on Speech and Audio Processing, 10(7): 460-471, 2002.) H.ニーマン、「用例分類、2 インターネット内の改訂版」、http://www5.infomatik.unierlangen.de/niemann/homeg.tht/homegli1.html, 2003年(H. Niemann. Klassifikation von Mustern, 2. ueberarbeitete Auflage im Internet. http://www5.informatik.unierlangen.de/niemann/homeg.tht/homegli1.html, 2003.) R.グルーン他、「複数種類アクセントの非ネイティブ英語データベース」、秋季日本音響学会予稿集、2004年(R. Gruhn, T. Cincarek, and S. Nakamura. A multi-accent non-native english databese. In Proceedings of Acoustical Society of Japan, September 2004.)
文または文章を評価対象とすると、より多くの音素および単語を用いて評定を行なうために、その話者の発音の習熟度を高い信頼性で推定できる。さらに、発音評定の一つの基準となる流暢さを推定することもできる。しかしその場合、学習者にとって最も重要な要素である、どの単語を読み誤ったか、どの音素の発音を向上させるべきか、という問題の発見が困難であり、したがってそうした問題を解決することが難しいという欠点がある。
一方、単語を評価対象とすることも考えられる。この場合には、文または文章を評価対象の利点および問題点をちょうど裏返した利点および問題点が生じる。すなわち、単語ごとの発音の評定では限られた音素が用いられるだけなので、話者の発音の習熟度を信頼性高く行なうことはできない。さらに、その性質上流暢さについての判定は不可能である。一方、単語の読み誤り、どの音素の発音を向上させるべきかという問題については文・文章を評価対象とする場合よりも有利である。
また音素を対象とする場合には、単語を対象とする場合よりもさらに対象が限定されるので、音素を対象とする評価だけでは話者の発音の習熟度を信頼性高く評価することはできない。しかし音素はまた、音声を構成する基本的な単位であって、その評価が全体の評価と関連していることも明らかである。
このように従来は、話者の発音の全体的な習熟度を高い信頼性で推定するとともに、より詳細な点に関する発音の評定を同時に行なうことが難しいという問題がある。
それゆえに本発明の一つの目的は、話者の発音の全体的な習熟度を高い信頼性で推定することと、より小さな単位での発音の評定とを同時に行なうこととが可能な発話音声の自動評定装置およびそのためのコンピュータプログラムを提供することである。
本発明の第1の局面によれば、発話音声の自動評定装置は、ある言語の発話に対し、発音の自動評定を行なう発話音声の自動評定装置であって、予めある言語のネイティブ話者の発話からそれぞれ作成した音響モデル、音素言語モデル、および音素継続長モデルをそれぞれ記憶するためのモデル記憶手段と、入力される音声データから、音響モデル、音素言語モデル、および音素継続長モデルに基づいて所定の複数の音声特徴量を抽出するための特徴量抽出手段と、特徴量抽出手段により抽出された複数の音声特徴量に基づいて、入力される音声データの第1の種類の構成要素単位での発音の自動評定を行なうための第1の自動評定手段と、特徴量抽出手段により抽出された複数の音声特徴量に基づいて、入力される音声データの第2の種類の構成要素単位での発音の自動評定を行なうための第2の自動評定手段とを含む。
予めモデル記憶手段にネイティブ話者の発話から作成した音響モデル、音素言語モデル、および音素継続長モデルを準備しておく。入力される音声データからこれらモデルに基づいて特徴量抽出手段が複数の音声特徴量を抽出する。第1の評定手段と第2の評定手段とにより、この特徴量を用いて、第1の種類の構成要素単位での発音の自動評定と、第2の種類の構成要素単位での自動評定とを同時に行なう。複数の特徴量を用いて第1の種類の構成要素単位での自動評定と第2の構成要素単位での自動評定とを同時に行なうことができるので、一つの構成要素単位で評定する場合と異なり、話者の発音の全体的な習熟度を推定する場合の信頼性を高くすることと、より小さな単位での発音の評定とを同時に行なうことができる。
好ましくは、特徴量抽出手段は、音響モデルを用い、入力される音声データに対する所定の音声単位での強制アライメントを行ない、音声単位に分離された音声データを出力するための強制アライメント手段と、音響モデルを用い、入力される音声データに対する音声認識を行ない、所定の音声単位でのNベスト候補列を出力するための音声認識手段と、強制アライメント手段の出力する音声単位に分離された音声データと、音声認識手段の出力するNベスト候補列とに基づき、音素言語モデルと音素継続長モデルとを用いて、音声データの複数の特徴量を算出するための特徴量算出手段とを含む。
ネイティブの音響モデルを用いた強制アライメントおよび音声認識とを行ない、その結果からやはりネイティブの音素言語モデルおよび音素継続長モデルを用いて特徴量を算出する。ネイティブの発音を基準として得られる特徴量により、ネイティブの発音を基準とした定量的な評定を行なうことができる。
より好ましくは、強制アライメント手段は、音響モデルを用い、入力される音声データに対する音素単位での強制アライメントを行ない、音素単位に分離された音声データを出力するための手段を含む。
強制アライメントにより、音素の継続時間と音響モデルに対する尤度とを算出し、それらを特徴量とすることができる。
さらに好ましくは、音声認識手段は、音響モデルを用い、入力される音声データに対する単語単位での音声認識を行ない、単語単位でのNベスト単語列を出力するための単語音声認識手段を含む。
単語単位で音声認識を行なうことにより、各単語と文全体の様々な発音特徴量を求め、特徴量として利用できる。
特徴量算出手段は、強制アライメント手段の出力する音声単位に分離された音声データと、音声認識手段の出力するNベスト単語列とに基づき、音素言語モデルと音素継続長モデルとを用いて、入力される音声データの特徴量として、音素尤度、音素尤度比、単語認識率、音素認識率、発声率、継続時間スコア、音素列確率からなる第1の群の発音特徴量の中の複数の発音特徴量と、音素継続時間比、音素混同尤度比、単語事後確率、発声率変動からなる第2の群の発音特徴量の中の1または複数の発音特徴量とを算出するための手段を含んでもよい。
第1の群の発音特徴量は主として文と単語との双方に関連する特徴量であり、第2の群の発音特徴量は主として単語のみに関する特徴量である。これらを組合せ、第1および第2の自動評定手段で使用することにより、文レベルと単語レベルとの発話音声の評価を行なうことができる。
好ましくは、第1の自動評定手段は、算出するための手段により算出された第1の群の発音特徴量に基づいて、入力される音声データの第1の種類の構成要素単位での発音の自動評定を行なうための手段を含む。
さらに好ましくは、特徴量抽出手段はさらに、強制アライメント手段の出力する音声単位に分離された音声データと、音声認識手段の出力するNベスト候補列とに基づき、音素言語モデルと音素継続長モデルとを用いて、入力される音声データの特徴量として、単語間無音長を算出するための手段を含み、自動評定を行なうための手段は、第1の群の発音特徴量と、単語間無音長とに基づいて、入力される音声データの第1の種類の構成要素単位での発音の自動評定を行なうための手段を含む。
単語間無音長は、発話の流暢さを表し、文レベルでの発音の習熟度を表す一つの特徴量である。これと第1の群の発音特徴量とをあわせて用いることで、高い信頼性で文単位の発音の自動評定を行なうことができる。
より好ましくは、第2の自動評定手段は、算出するための手段により算出された第1の群の発音特徴量および第2の群の発音特徴量に基づいて、入力される音声データの第2の種類の構成単位での発音の自動評定を行なうための手段を含む。
第1の群と第2の群との発音特徴量とは、いずれも単語レベルでの発音評価に関連する。これらの組合せを特徴量として用いることにより、単語単位での発音の自動評定を信頼性高く行なうことができる。
第1の種類の構成要素単位は文でもよい。また、第2の種類の構成要素単位は単語でもよい。
文と単語という二つのレベルで話者の発音を自動評定でき、文全体に関する話者の発音の習熟度を高い信頼性で推定することと、単語単位での話者の発音の評定とを同時に行なう。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの発話音声の自動評定装置として動作させるものである。
[第1の実施の形態]
−構成−
図1は、本発明の第1の実施の形態に係る複合レベル発音評定装置32を含む英語の発話音声を自動評定するための発音自動評定システム20のブロック図である。図1を参照して、発音自動評定システム20は、評価対象となる音声データを格納するための音声データ記憶装置30と、音声データ記憶装置30から読出されたMFCC(メル周波数ケプストラム係数)形式の音声データ31から所定の発音特徴量を抽出し、この発音特徴量に基づく単語および文の両レベルにわたる発音評定の結果を示す文スコア34、および各単語の発音評定を「正しい、発音誤り、不確定」のいずれかで示す単語発音評定クラス情報36を出力するための複合レベル発音評定装置32とを含む。すなわち複合レベル発音評定装置32は、発話を単語という構成要素単位と文という構成要素単位との双方で評価する。
複合レベル発音評定装置32は、音声データ記憶装置30から読出した発話データから所定の発音特徴量46を抽出するための特徴抽出部40と、発音特徴量46に基づき、文の発音の自動評定を行ない文スコア34を出力するための文評定部42と、発音特徴量46のうち、単語の発音に関連する所定の発音特徴量に基づき、単語の発音が上記した三つのクラスのいずれに属するかを判定し、単語発音評定クラス情報36を出力するための単語発音誤り検出部44とを含む。
図2に、特徴抽出部40のより詳細な構成を示す。図2を参照して、特徴抽出部40は、英語を母語とする話者(ネイティブ)による発話により学習したネイティブ音響モデル50と、音声データ31に対しネイティブ音響モデル50を用いた音素レベルでの強制アライメントを行なうための強制アライメント部52と、音声データ31に対して単語認識を行ない単語ごとに尤度の高い上位N個の単語認識候補からなるNベスト単語列を出力するためのNベスト単語認識装置54とを含む。
ネイティブ音響モデル50の学習は、WSJ(The Wall Street Journal(登録商標))コーパスを用いて行なった。
特徴抽出部40はさらに、強制アライメント部52により出力される各音素の継続時間およびスコア(すなわち音響モデルに対する尤度)とNベスト単語認識装置54から与えられるNベスト単語列およびその該当する音素列とを示す情報とから、表1に示す種々の発音特徴量46を出力するための発音特徴量抽出部58と、いずれも発音特徴量抽出部58が発音特徴量の抽出時に使用する、ネイティブ音素バイグラム言語モデル56、ネイティブ音素継続長統計60および音素混同行列61を記憶する記憶装置とを含む。なお、音声データ記憶装置30と、この記憶装置とが同じ記憶装置であってもよい。
Figure 2006084966
表1に示す特徴量のうち、特徴量1〜6は単語と文レベル双方、特徴量7〜10は単語レベルのみ、特徴量11は文レベルのみに対応する。特徴量2は非特許文献1で提案されたGOP(Goodness Of Pronunciation)スコアに基づいている。特徴量1〜5は発音の評価に適していることが非特許文献1、2に代表される従来の文献により示されている。特徴量1、2、5は音素レベルに対応するスコアであるが、各音素のスコアを累積することで、単語と文レベルのスコアとして用いた。本実施の形態では、これらは音素継続時間、音素数、および発声率の各々で正規化する。
ネイティブ音素バイグラム言語モデル56とネイティブ音素継続長統計60の分布の推定はLDC(Linguistic Data Consortium)のTIMITコーパスを用いて行なった。Nベスト単語認識装置54の認識エンジンにはHTK(HMM(隠れマルコフモデル)ツールキット)を用いている。
また音素混同行列61は二つの混同行列を含む。第1は正しい単語のための行列Aであり、第2は発音誤りの単語のための行列Bである。これらは予め非母語音声データで学習しておく。
対象となる言語の音素数をnとすると、行列A、Bはいずれもn×n行列である。行列の要素は音素混同確率p(a|b)である。ただしaは強制アライメントの分節のフレームレベルの音素ラベルを、bは認識結果のアライメントに該当する分節のフレームレベルの音素ラベルを、それぞれ表す。
図1に示す文評定部42のより詳細な構成を図3に示す。図3を参照して、文評定部42は、特徴抽出部40から与えられる発音特徴量46の中で、文レベルの評価に対応するものを選択するための特徴量選択部80と、予め発音習熟度ごとに発音特徴量のガウシアン分布を推定することで準備され、特徴量選択部80により選択された特徴量を受けて発音習熟度を示す文スコア(離散値)を出力するためのガウシアン識別機82とを含む。
図1に示す単語発音誤り検出部44のより詳細な構成を図4に示す。図4を参照して、単語発音誤り検出部44は、発音特徴量46のうち、単語発音誤りの検出に用いる特徴量を選択するための特徴量選択部100と、特徴量選択部100により選択された特徴量から、各単語の発音が上記した三つのクラス(正しい、発音誤り、不確定)のいずれに属するかを判定するためのガウシアン識別機102とを含む。
ガウシアン識別機102は、入力される単語認識結果がそれぞれ「正しい」、「不確定」、および「誤り」のクラスに属する尤度を出力するための第1、第2、および第3のガウシアンクラス識別機110、112および114と、これらガウシアンクラス識別機110、112および114から出力される尤度を受け、それらのうちで最も高い尤度のクラスを示す情報を選択して単語発音評定クラス情報36として出力するための選択部116とを含む。ガウシアンクラス識別機110、112および114はそれぞれ、各クラスに属する学習データに基づいて予め推定されたガウシアン分布を含む。
なお、「不確定」については、後述するように最終的に「正しい」として取扱うようにしてもよい。
−動作−
以上に構成を述べた第1の実施の形態に係る発音自動評定システム20は以下のように動作する。まず、特徴抽出部40のネイティブ音響モデル50、ネイティブ音素バイグラム言語モデル56、およびネイティブ音素継続長統計60、図3に示すガウシアン識別機82、および図4に示すガウシアンクラス識別機110、112、および114については学習が済み、所定の記憶装置にコンピュータ読取可能な形で準備されているものとする。
図1に示す特徴抽出部40は、音声データ記憶装置30から音声データ31を読出す。読出された音声データ31は図2に示す強制アライメント部52およびNベスト単語認識装置54に与えられる。
強制アライメント部52は、ネイティブ音響モデル50を用いて音声データ31を音素単位でアライメントし、各音素の継続時間およびスコア(音響モデルに対する尤度)を出力し発音特徴量抽出部58に与える。
Nベスト単語認識装置54は、ネイティブ音響モデル50を参照して音声データ31に対する単語レベルでのNベスト認識を行ない、Nベスト単語列と対応する音素列とをそれらの尤度とともに発音特徴量抽出部58に与える。
発音特徴量抽出部58は、強制アライメント部52から与えられる音素の継続時間およびスコア、ならびにNベスト単語認識装置54から与えられるNベスト単語列と音素列とに基づき、ネイティブ音素バイグラム言語モデル56とネイティブ音素継続長統計60と音素混同行列61とを参照して、前述した11種類の発音特徴量46を抽出し、図3に示す特徴量選択部80に与える。
特徴量選択部80は、発音特徴量46のうち、文習熟度の評定に関連する複数の特徴量(特徴量1〜6および特徴量11)を選択し、ガウシアン識別機82に与える。するとガウシアン識別機82は、これらの特徴量から、発音習熟度クラスごとに発音特徴量のガウシアン分布からこれら発音がどの発音習熟度クラスに属するかを判定し、文スコア34として出力する。この場合の文スコアはクラスを表す離散値である。
一方、発音特徴量46は図4に示す特徴量選択部100にも与えられる。特徴量選択部100は、与えられた特徴量のうち、単語レベルに関連する特徴量(特徴量1〜10)を選択し、ベクトル形式に変換してガウシアンクラス識別機110、112および114に与える。ガウシアンクラス識別機110、112および114はいずれも、与えられた単語レベルの特徴量がそれらに対応するクラスに属する尤度を出力し、選択部116に与える。選択部116は、与えられた尤度のうち最も高い尤度に対応する単語発音評定クラスを示す情報(単語発音評定クラス情報36)をこの単語の単語発音に対する判定として出力する。
以上のようにして、音声データ記憶装置30から読出した音声データ31につき、その発音習熟度が文レベルと単語レベルとの双方により包括的に判定される。従来のように別々に判定するものと比較して、より正確な判定結果を得ることができる。
なお、文の自動評定と発音誤りの検出とにおいて、定義した発音特徴量の組合せを検定するために、いわゆる「floating search」(非特許文献6参照)を適用した。この探索法は、逐次に特徴を加えながら識別機の性能を評価し、優れている特徴部分集合を出すものである。
[第2の実施の形態]
上記した第1の実施の形態では、文評定の結果得られるスコアは離散値である。しかし本発明はそのような実施の形態には限定されず、文評定の結果のスコアが連続値となるような構成をとることもできる。第2の実施の形態は、そのような構成を持つ。
図5に、本実施の形態に係る文評定部142の概略構成を示す。文評定部142は、図1において文評定部42に変えて用いることができる。
図5を参照して、この文評定部142は、第1の実施の形態におけるものと同様の特徴量選択部80(図3参照)と、特徴量選択部80から与えられる複数の特徴量に対し線形変換を行なってその値を出力するための線形変換部182と、線形変換部182における線形変換に用いられる係数を記憶するための係数記憶部184とを含む。係数記憶部184の記憶する係数は、予め学習データを用いた線形回帰で求めておく。
図5に示す文評定部142においては、第1の実施の形態におけるガウシアン識別機82のように分布に基づく推定結果ではなく、係数記憶部184に記憶された係数を用いた特徴量の線形変換を算出し、それを文スコアとして出力する。したがってこの場合、文スコアは連続値となる。
その他の点において第2の実施の形態の構成および動作は第1の実施の形態の構成および動作とそれぞれ同じである。したがってここではその詳細は繰返さない。
[実験]
上記した実施の形態の効果を確認するため、実験を行なった。
−データ−
非母語話者96人(うち大多数は、日本人、ドイツ人、フランス人、中国人、インドネシア人)からTIMITのSX文章(48文、約400語)の読上げ音声を収録した。英語教師15人(北米出身)が文毎に1(最良)から5(最悪)までの離散的な発音習熟度を示すラベルを付けた。その上で、読み誤った単語をマークした。この評価において、全ての話者と教師を4つのグループに分けた。ラベルの信頼性に関しては非特許文献7を参照されたい。最終的な文の評価値としてラベルの平均値を用いた。単語のラベルの分類に関しては以下の2つの方法を用いた。
・分類A:教師2人以上にマークされた単語をクラス「発音誤り」に、残った単語をクラス「正しい」に統一する。
・分類B:分類Aのクラス「正しい」を更に分け、一切マークされていない単語を新しいクラス「正しい」に、教師1人のみにマークされた単語をクラス「不確定」にまとめる。
実験において、3つのグループのデータを学習のために、1つのグループのデータを評価のために使用する。このようにして、最終的な実験を4交差検定で実施した。
−結果−
表2は文の自動評定の実験結果を示す。それによると、人間である教師にとって、発音習熟度に関して分節的な要素が一番大事である。教師に対する時間的要素の影響も大きい。6つの時間と分節的な発音特徴量を線形に組み合わせることで、教師と同様な確度で、文の発音自動評定が可能である。
Figure 2006084966
教師によって誤った発音であるとマークされた単語は、教師によって若干差異が見られた。教師3人のラベルで単語を方法Aによって分類して、残った教師1人で評価を行った。その評価を4つの可能な組み合わせのために繰返し、各混同行列を求める。表3はその交差検定の平均行列である。
Figure 2006084966
正しい単語の8%が発音誤りとして、発音が誤ったはずの単語の43%が正しい単語として判定された。後者の誤差は外国語学習者にとって好ましくなくても、発音の学習を損なわないと言えるだろう。一方、前者のような誤差は大きくなるにつれて、学習者に悪影響を与える。したがって、発音誤りの自動検出は、前者の誤差が小さくなるように設計しなくてはならない。
表4は自動検出の結果を示す。発音誤りを検出する性能は高いが、正しい単語の28%も発音誤りと判定された。
Figure 2006084966
そこで、分類法Bに沿って単語を3つのクラスに分類し、実施の形態1で説明したように識別機を設計した。表5にそれに該当する判別結果がまとめてある。
Figure 2006084966
最終的に「不確定」の判別結果を「正しい」と見なし、教師1人のみにマークされた単語を発音誤りとして扱えば、表6が得られる。
Figure 2006084966
このようにして、28%であった誤差は14%までも減少する。その一方、誤った単語の検出率は43%になる。教師の確度(表3)と比較すると、有望な性能であると言えるだろう。
なお、単語の発音誤りの検出において単独の特徴のみを用いた場合、特徴量9が最も優れており、特徴量1は2番目に優れていた。また、特徴量8のみを使用した場合にもよい結果を得た。
[コンピュータによる実現]
この実施の形態の発音自動評定システム20は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図6はこのコンピュータシステム330の外観を示し、図7はコンピュータシステム330の内部構成を示す。
図6を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
図7を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330に発音自動評定システム20としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340にこの実施の形態に係る発音自動評定システム20としての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)またはサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の発音自動評定システム20を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した発音自動評定システム20として機能を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
以上のように上記実施の形態によれば、文レベルと単語レベルという、互いに異なる構成要素単位での発話音声の評価をまとめて自動的に行なうことができる。さらに、単語の発音が正しいか誤りかを自動的に判定できる。その結果、例えば外国語を学習中の話者の、その外国語の発音の習熟度を高い信頼性で推定することと、単語単位での発音の評定とを同時に行なうこととが可能である。
なお、上記実施の形態では、英語を学習することを例として発音自動評定システム20の構成および動作を説明した。しかし本発明は英語を学習する際の発音の自動評定に適用可能なだけではなく、それ以外の言語についても適用可能であることはいうまでもない。また、上記実施の形態では、構成要素として文レベルおよび単語レベルでの自動評定を行なっている。しかし本発明はそのような実施の形態に限定されない。最初に述べたように構成要素としては、音素レベル、単語レベル、文レベル、および文章レベル等のうち任意の組合せによって得られる複数レベルで発音を評価する際にも、本発明を適用できる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の第1の実施の形態に係る発音自動評定システム20のブロック図である。 図1に示す特徴抽出部40のより詳細なブロック図である。 図1に示す文評定部42のより詳細なブロック図である。 図1に示す単語発音誤り検出部44のより詳細なブロック図である。 第2の実施の形態に係る音声データ記憶装置で用いられる文評定部142のブロック図である。 本発明の実施の形態に係る発音自動評定システム20を実現するコンピュータシステムの外観図である。 図6に示すコンピュータシステムのブロック図である。
符号の説明
20 発音自動評定システム、30 音声データ記憶装置、31 音声データ、32 複合レベル発音評定装置、34 文スコア、36 単語発音評定クラス情報、40 特徴抽出部、42,142 文評定部、44 単語発音誤り検出部、46 発音特徴量、50 ネイティブ音響モデル、52 強制アライメント部、54 Nベスト単語認識装置、56 ネイティブ音素バイグラム言語モデル、58 発音特徴量抽出部、60 ネイティブ音素継続長統計、80 特徴量選択部、82 ガウシアン識別機、100 特徴量選択部、102 ガウシアン識別機、110,112,114 ガウシアンクラス識別機、116 選択部、182 線形変換部、184 係数記憶部

Claims (11)

  1. ある言語の発話に対し、発音の自動評定を行なう発話音声の自動評定装置であって、
    予め前記ある言語のネイティブ話者の発話からそれぞれ作成した音響モデル、音素言語モデル、および音素継続長モデルをそれぞれ記憶するためのモデル記憶手段と、
    入力される音声データから、前記音響モデル、前記音素言語モデル、および前記音素継続長モデルに基づいて所定の複数の音声特徴量を抽出するための特徴量抽出手段と、
    前記特徴量抽出手段により抽出された複数の音声特徴量に基づいて、前記入力される音声データの第1の種類の構成要素単位での発音の自動評定を行なうための第1の自動評定手段と、
    前記特徴量抽出手段により抽出された複数の音声特徴量に基づいて、前記入力される音声データの第2の種類の構成要素単位での発音の自動評定を行なうための第2の自動評定手段とを含む、発話音声の自動評定装置。
  2. 前記特徴量抽出手段は、
    前記音響モデルを用い、前記入力される音声データに対する所定の音声単位での強制アライメントを行ない、前記音声単位に分離された音声データを出力するための強制アライメント手段と、
    前記音響モデルを用い、前記入力される音声データに対する音声認識を行ない、所定の音声単位でのNベスト候補列を出力するための音声認識手段と、
    前記強制アライメント手段の出力する前記音声単位に分離された音声データと、前記音声認識手段の出力する前記Nベスト候補列とに基づき、前記音素言語モデルと前記音素継続長モデルとを用いて、前記音声データの前記複数の特徴量を算出するための特徴量算出手段とを含む、請求項1に記載の発話音声の自動評定装置。
  3. 前記強制アライメント手段は、前記音響モデルを用い、前記入力される音声データに対する音素単位での強制アライメントを行ない、前記音素単位に分離された音声データを出力するための手段を含む、請求項2に記載の発話音声の自動評定装置。
  4. 前記音声認識手段は、前記音響モデルを用い、前記入力される音声データに対する単語単位での音声認識を行ない、単語単位でのNベスト単語列を出力するための単語音声認識手段を含む、請求項2または請求項3に記載の発話音声の自動評定装置。
  5. 前記特徴量算出手段は、前記強制アライメント手段の出力する前記音声単位に分離された音声データと、前記音声認識手段の出力する前記Nベスト単語列とに基づき、前記音素言語モデルと前記音素継続長モデルとを用いて、前記入力される音声データの特徴量として、音素尤度、音素尤度比、単語認識率、音素認識率、発声率、継続時間スコア、音素列確率からなる第1の群の発音特徴量の中の複数の発音特徴量と、音素継続時間比、音素混同尤度比、単語事後確率、発声率変動からなる第2の群の発音特徴量の中の1または複数の発音特徴量とを算出するための手段を含む、請求項1〜請求項4のいずれかに記載の発話音声の自動評定装置。
  6. 前記第1の自動評定手段は、前記算出するための手段により算出された前記第1の群の発音特徴量に基づいて、前記入力される音声データの第1の種類の構成要素単位での発音の自動評定を行なうための手段を含む、請求項5に記載の発話音声の自動評定装置。
  7. 前記特徴量抽出手段はさらに、前記強制アライメント手段の出力する前記音声単位に分離された音声データと、前記音声認識手段の出力する前記Nベスト候補列とに基づき、前記音素言語モデルと前記音素継続長モデルとを用いて、前記入力される音声データの特徴量として、単語間無音長を算出するための手段を含み、
    前記自動評定を行なうための手段は、前記第1の群の発音特徴量と、前記単語間無音長とに基づいて、前記入力される音声データの第1の種類の構成要素単位での発音の自動評定を行なうための手段を含む、請求項6に記載の発話音声の自動評定装置。
  8. 前記第2の自動評定手段は、前記算出するための手段により算出された前記第1の群の発音特徴量および前記第2の群の発音特徴量に基づいて、前記入力される音声データの前記第2の種類の構成単位での発音の自動評定を行なうための手段を含む、請求項5〜請求項7のいずれかに記載の発話音声の自動評定装置。
  9. 前記第1の種類の構成要素単位は文である、請求項1〜請求項8のいずれかに記載の発話音声の自動評定装置。
  10. 前記第2の種類の構成要素単位は単語である、請求項1〜請求項9のいずれかに記載の発話音声の自動評定装置。
  11. コンピュータにより実行されると、当該コンピュータを請求項1〜請求項10のいずれかに記載の発話音声の自動評定装置として動作させる、コンピュータプログラム。
JP2004271528A 2004-09-17 2004-09-17 発話音声の自動評定装置およびコンピュータプログラム Pending JP2006084966A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004271528A JP2006084966A (ja) 2004-09-17 2004-09-17 発話音声の自動評定装置およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004271528A JP2006084966A (ja) 2004-09-17 2004-09-17 発話音声の自動評定装置およびコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2006084966A true JP2006084966A (ja) 2006-03-30

Family

ID=36163512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004271528A Pending JP2006084966A (ja) 2004-09-17 2004-09-17 発話音声の自動評定装置およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2006084966A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007328311A (ja) * 2006-06-07 2007-12-20 Ind Technol Res Inst マルチメディアデータ管理方法とその装置
JP2008242462A (ja) * 2007-03-28 2008-10-09 Harman Becker Automotive Systems Gmbh 多言語の非ネイティブ音声の認識
WO2010133072A1 (zh) * 2009-05-21 2010-11-25 无敌科技(西安)有限公司 发音评测装置及其方法
CN101739869B (zh) * 2008-11-19 2012-03-28 中国科学院自动化研究所 一种基于先验知识的发音评估与诊断系统
JP2016042158A (ja) * 2014-08-18 2016-03-31 公立大学法人秋田県立大学 外国語の難易度判定装置
JP2016045467A (ja) * 2014-08-26 2016-04-04 日本放送協会 発話評価装置、発話評価方法、及びプログラム
JP2016157097A (ja) * 2015-02-24 2016-09-01 ブラザー工業株式会社 音読評価装置、音読評価方法、及びプログラム
JP2018031828A (ja) * 2016-08-23 2018-03-01 Kddi株式会社 学習者の口述音声から自動的に採点するプログラム、装置及び方法
WO2019065263A1 (ja) * 2017-09-26 2019-04-04 日本電信電話株式会社 発音誤り検出装置、発音誤り検出方法、プログラム
CN112951276A (zh) * 2021-04-23 2021-06-11 北京一起教育科技有限责任公司 一种综合评价语音的方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001265211A (ja) * 2000-01-14 2001-09-28 Atr Ningen Joho Tsushin Kenkyusho:Kk 外国語学習装置、外国語学習方法および媒体
JP2002156897A (ja) * 2000-11-17 2002-05-31 Fuji Xerox Co Ltd 発音学習装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001265211A (ja) * 2000-01-14 2001-09-28 Atr Ningen Joho Tsushin Kenkyusho:Kk 外国語学習装置、外国語学習方法および媒体
JP2002156897A (ja) * 2000-11-17 2002-05-31 Fuji Xerox Co Ltd 発音学習装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007328311A (ja) * 2006-06-07 2007-12-20 Ind Technol Res Inst マルチメディアデータ管理方法とその装置
JP4699954B2 (ja) * 2006-06-07 2011-06-15 財団法人工業技術研究院 マルチメディアデータ管理方法とその装置
JP2008242462A (ja) * 2007-03-28 2008-10-09 Harman Becker Automotive Systems Gmbh 多言語の非ネイティブ音声の認識
KR101526918B1 (ko) * 2007-03-28 2015-06-08 하만 베커 오토모티브 시스템즈 게엠베하 다언어 이국 음성 인식
CN101739869B (zh) * 2008-11-19 2012-03-28 中国科学院自动化研究所 一种基于先验知识的发音评估与诊断系统
WO2010133072A1 (zh) * 2009-05-21 2010-11-25 无敌科技(西安)有限公司 发音评测装置及其方法
JP2016042158A (ja) * 2014-08-18 2016-03-31 公立大学法人秋田県立大学 外国語の難易度判定装置
JP2016045467A (ja) * 2014-08-26 2016-04-04 日本放送協会 発話評価装置、発話評価方法、及びプログラム
JP2016157097A (ja) * 2015-02-24 2016-09-01 ブラザー工業株式会社 音読評価装置、音読評価方法、及びプログラム
JP2018031828A (ja) * 2016-08-23 2018-03-01 Kddi株式会社 学習者の口述音声から自動的に採点するプログラム、装置及び方法
WO2019065263A1 (ja) * 2017-09-26 2019-04-04 日本電信電話株式会社 発音誤り検出装置、発音誤り検出方法、プログラム
CN112951276A (zh) * 2021-04-23 2021-06-11 北京一起教育科技有限责任公司 一种综合评价语音的方法、装置及电子设备
CN112951276B (zh) * 2021-04-23 2024-02-20 北京一起教育科技有限责任公司 一种综合评价语音的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN112397091B (zh) 中文语音综合评分及诊断系统和方法
Barnard et al. The NCHLT speech corpus of the South African languages
Gruhn et al. Statistical pronunciation modeling for non-native speech processing
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
Le et al. Automatic speech recognition for under-resourced languages: application to Vietnamese language
US20090258333A1 (en) Spoken language learning systems
US20050159949A1 (en) Automatic speech recognition learning using user corrections
US20070239455A1 (en) Method and system for managing pronunciation dictionaries in a speech application
Kasuriya et al. Thai speech corpus for Thai speech recognition
Anumanchipalli et al. Development of Indian language speech databases for large vocabulary speech recognition systems
Aggarwal et al. Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I)
Demuynck et al. A comparison of different approaches to automatic speech segmentation
Furui et al. Analysis and recognition of spontaneous speech using Corpus of Spontaneous Japanese
JP2007155833A (ja) 音響モデル開発装置及びコンピュータプログラム
Metze Articulatory features for conversational speech recognition
JP2006084966A (ja) 発話音声の自動評定装置およびコンピュータプログラム
Furui et al. Why is the recognition of spontaneous speech so hard?
Kumar et al. Automatic spontaneous speech recognition for Punjabi language interview speech corpus
Odriozola et al. Basque Speecon-like and Basque SpeechDat MDB-600: speech databases for the development of ASR technology for Basque.
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
Wester Pronunciation variation modeling for Dutch automatic speech recognition
Levow Adaptations in spoken corrections: Implications for models of conversational speech
Cincarek et al. Development of preschool children subsystem for ASR and Q&A in a real-environment speech-oriented guidance task
Biczysko Automatic Annotation of Speech: Exploring Boundaries within Forced Alignment for Swedish and Norwegian
Sahashi et al. Robust lecture speech translation for speech misrecognition and its rescoring effect from multiple candidates

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101214