JP2006084966A

JP2006084966A - 発話音声の自動評定装置およびコンピュータプログラム

Info

Publication number: JP2006084966A
Application number: JP2004271528A
Authority: JP
Inventors: Cincarek Tobias; トビアス・ツィンツァレク; Gruhn Rainer; ライナー・グルーン; Satoru Nakamura; 哲中村
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-09-17
Filing date: 2004-09-17
Publication date: 2006-03-30

Abstract

【課題】話者の発音の全体的な習熟度を高い信頼性で推定することと、より小さな単位での発音の評定とを同時に行なうこととが可能な発話音声の自動評定装置を提供する。
【解決手段】発話音声の自動評定装置３２は、入力される音声データ３１から、ネイティブ話者の発話から作成した音響モデル、言語モデル、および音素継続長モデルに基づいて複数の音声特徴量を抽出する特徴抽出部４０と、特徴抽出部４０により抽出された複数の音声特徴量に基づいて、入力される音声データ３１の文レベルでの発音の自動評定を行なう文評定部４２と、特徴抽出部４０により抽出された複数の音声特徴量に基づいて、入力される音声データ３１の単語レベルでの発音誤り検出を行なう単語発音誤り検出部４４とを含む。
【選択図】図１

Description

この発明は発話の発音に関する発話音声自動評定装置に関し、特に、非母語話者の発音を母語話者の発音と比較して評定する発話音声の自動評定装置に関する。

言語の主要な目的の一つはコミュニケーションであり、特に音声を用いたコミュニケーションは日々の生活において非常に重要である。音声を用いたコミュニケーションでは、発音が大きな意味を持つ。ある単語の一部について発音が変わると、他の単語の発音と一致してしまったり、判別不能な音声となったりすることがあり、円滑なコミュニケーションが阻害される。そのため、人は成長過程で母語の発音を周囲の人の発音から学習し、異なる音声を聞き分けたり、区別して発音したりすることがほとんど無意識のうちにできるようになる。

一方、複数の言語を考えてみると、それら言語において使用される音素には共通するものもあるし、異なるものもある。ある言語に存在する音素であっても他の言語には存在しないこともある。ある言語を母語とする話者にとって、その母語に存在しない音素を有する他の言語の発音を習得するのは難しく、特に、その言語を母語とする話者と同様に発音することには大きな困難が伴う。

したがって、ある言語を学習しようとする場合、自己の発音がその言語を母語とする話者の発音と比較してどの程度異なっているかを知ることができれば、非常に有効である。通常、そうした発音の評価はその言語を母語とする教師によって行なわれる。しかしそのように教師とともに対話式で学習を行なうことが常に可能とは限らない。むしろそのような学習の機会をもてる者はまれで、通常は、ＴＶまたはラジオ放送、テープ、ＣＤ−ＲＯＭ、ＤＶＤなど、一方向の教材を用いて学習が行なわれる。その結果、自己の発音が正しいかどうかについて知ることは非常に難しい。

そこで、教師なしでもある言語の発音についての評価を自動的に行なう、いわゆる発音の自動評定方法が研究されている。発音の自動評定とは、非母語話者の音素および単語の発音、または文の発音が、母語話者の発音と比べてどの程度異なっているかを自動的に推定することをいう。

従来、発音の自動評定は、音素、文、文章という各レベルで別々に行なわれている（非特許文献１、２、３参照）。
Ｓ．Ｍ．ウィット他、「音素レベルでの発音スコアリングおよび対話的言語学習の評価」、音声コミュニケーション、第３０巻、ｐｐ．９５−１０８、２０００年（S. M. Witt and S. J. Young. Phone-level pronunciation scoring and assessment for interactive language learning. Speech Communication, 30: 95-108, 2000.）Ｈ．フランコ他、「発音の質を自動評定するための機械スコアの組合せ」、音声コミュニケーション、第３０巻、ｐｐ．１２１−１３０、２０００年（H. Franco, L. Neumeyer, V. Digalakis, and O. Ronen. Combination of machine scores for automatic grading of pronunciation quality. Speech Communication, 30: 121-130, 2000.）Ｎ．ミネマツ、「発話音声に関するもう一つの音響的評価」、ＩＣＡＳＳＰ予稿集、第１巻、ｐｐ．５８５−５８８、２００４年（N. Minematsu. Yet another acoustic representation of speech sounds. In Proceedings of ICASSP, volume 1, pages 585-588, 2004.）Ｃ．テイセラ他、「テキストに依存しない、言語学習者の母語らしさの度合いについての自動評価のための韻律特徴」、ＩＣＳＬＰ予稿集、２０００年（C. Teixeira, H. Franco, E. Shriberg, K. Precoda, and K. Soenmez. Prosodic features for automatic text-independent evaluation of degree of nativeness for language learners. In Proceedings of ICSLP, 2000.）Ｓ．コックス他、「音声認識における信頼度評価への高度なアプローチ」、ＩＥＥＥトランザクションズ・オン・スピーチ・アンド・オーディオ・プロセシング、第１０（７）巻、ｐｐ．４６０−４７１、２００２年（S. Cox and S. Dasmahapatra. High-level approaches to confidence estimation in speech recognition. IEEE Transactions on Speech and Audio Processing, 10(7): 460-471, 2002.）Ｈ．ニーマン、「用例分類、２インターネット内の改訂版」、http://www5.infomatik.unierlangen.de/niemann/homeg.tht/homegli1.html, ２００３年（H. Niemann. Klassifikation von Mustern, 2. ueberarbeitete Auflage im Internet. http://www5.informatik.unierlangen.de/niemann/homeg.tht/homegli1.html, 2003.）Ｒ．グルーン他、「複数種類アクセントの非ネイティブ英語データベース」、秋季日本音響学会予稿集、２００４年（R. Gruhn, T. Cincarek, and S. Nakamura. A multi-accent non-native english databese. In Proceedings of Acoustical Society of Japan, September 2004.）

文または文章を評価対象とすると、より多くの音素および単語を用いて評定を行なうために、その話者の発音の習熟度を高い信頼性で推定できる。さらに、発音評定の一つの基準となる流暢さを推定することもできる。しかしその場合、学習者にとって最も重要な要素である、どの単語を読み誤ったか、どの音素の発音を向上させるべきか、という問題の発見が困難であり、したがってそうした問題を解決することが難しいという欠点がある。

一方、単語を評価対象とすることも考えられる。この場合には、文または文章を評価対象の利点および問題点をちょうど裏返した利点および問題点が生じる。すなわち、単語ごとの発音の評定では限られた音素が用いられるだけなので、話者の発音の習熟度を信頼性高く行なうことはできない。さらに、その性質上流暢さについての判定は不可能である。一方、単語の読み誤り、どの音素の発音を向上させるべきかという問題については文・文章を評価対象とする場合よりも有利である。

また音素を対象とする場合には、単語を対象とする場合よりもさらに対象が限定されるので、音素を対象とする評価だけでは話者の発音の習熟度を信頼性高く評価することはできない。しかし音素はまた、音声を構成する基本的な単位であって、その評価が全体の評価と関連していることも明らかである。

このように従来は、話者の発音の全体的な習熟度を高い信頼性で推定するとともに、より詳細な点に関する発音の評定を同時に行なうことが難しいという問題がある。

それゆえに本発明の一つの目的は、話者の発音の全体的な習熟度を高い信頼性で推定することと、より小さな単位での発音の評定とを同時に行なうこととが可能な発話音声の自動評定装置およびそのためのコンピュータプログラムを提供することである。

本発明の第１の局面によれば、発話音声の自動評定装置は、ある言語の発話に対し、発音の自動評定を行なう発話音声の自動評定装置であって、予めある言語のネイティブ話者の発話からそれぞれ作成した音響モデル、音素言語モデル、および音素継続長モデルをそれぞれ記憶するためのモデル記憶手段と、入力される音声データから、音響モデル、音素言語モデル、および音素継続長モデルに基づいて所定の複数の音声特徴量を抽出するための特徴量抽出手段と、特徴量抽出手段により抽出された複数の音声特徴量に基づいて、入力される音声データの第１の種類の構成要素単位での発音の自動評定を行なうための第１の自動評定手段と、特徴量抽出手段により抽出された複数の音声特徴量に基づいて、入力される音声データの第２の種類の構成要素単位での発音の自動評定を行なうための第２の自動評定手段とを含む。

予めモデル記憶手段にネイティブ話者の発話から作成した音響モデル、音素言語モデル、および音素継続長モデルを準備しておく。入力される音声データからこれらモデルに基づいて特徴量抽出手段が複数の音声特徴量を抽出する。第１の評定手段と第２の評定手段とにより、この特徴量を用いて、第１の種類の構成要素単位での発音の自動評定と、第２の種類の構成要素単位での自動評定とを同時に行なう。複数の特徴量を用いて第１の種類の構成要素単位での自動評定と第２の構成要素単位での自動評定とを同時に行なうことができるので、一つの構成要素単位で評定する場合と異なり、話者の発音の全体的な習熟度を推定する場合の信頼性を高くすることと、より小さな単位での発音の評定とを同時に行なうことができる。

好ましくは、特徴量抽出手段は、音響モデルを用い、入力される音声データに対する所定の音声単位での強制アライメントを行ない、音声単位に分離された音声データを出力するための強制アライメント手段と、音響モデルを用い、入力される音声データに対する音声認識を行ない、所定の音声単位でのＮベスト候補列を出力するための音声認識手段と、強制アライメント手段の出力する音声単位に分離された音声データと、音声認識手段の出力するＮベスト候補列とに基づき、音素言語モデルと音素継続長モデルとを用いて、音声データの複数の特徴量を算出するための特徴量算出手段とを含む。

ネイティブの音響モデルを用いた強制アライメントおよび音声認識とを行ない、その結果からやはりネイティブの音素言語モデルおよび音素継続長モデルを用いて特徴量を算出する。ネイティブの発音を基準として得られる特徴量により、ネイティブの発音を基準とした定量的な評定を行なうことができる。

より好ましくは、強制アライメント手段は、音響モデルを用い、入力される音声データに対する音素単位での強制アライメントを行ない、音素単位に分離された音声データを出力するための手段を含む。

強制アライメントにより、音素の継続時間と音響モデルに対する尤度とを算出し、それらを特徴量とすることができる。

さらに好ましくは、音声認識手段は、音響モデルを用い、入力される音声データに対する単語単位での音声認識を行ない、単語単位でのＮベスト単語列を出力するための単語音声認識手段を含む。

単語単位で音声認識を行なうことにより、各単語と文全体の様々な発音特徴量を求め、特徴量として利用できる。

特徴量算出手段は、強制アライメント手段の出力する音声単位に分離された音声データと、音声認識手段の出力するＮベスト単語列とに基づき、音素言語モデルと音素継続長モデルとを用いて、入力される音声データの特徴量として、音素尤度、音素尤度比、単語認識率、音素認識率、発声率、継続時間スコア、音素列確率からなる第１の群の発音特徴量の中の複数の発音特徴量と、音素継続時間比、音素混同尤度比、単語事後確率、発声率変動からなる第２の群の発音特徴量の中の１または複数の発音特徴量とを算出するための手段を含んでもよい。

第１の群の発音特徴量は主として文と単語との双方に関連する特徴量であり、第２の群の発音特徴量は主として単語のみに関する特徴量である。これらを組合せ、第１および第２の自動評定手段で使用することにより、文レベルと単語レベルとの発話音声の評価を行なうことができる。

好ましくは、第１の自動評定手段は、算出するための手段により算出された第１の群の発音特徴量に基づいて、入力される音声データの第１の種類の構成要素単位での発音の自動評定を行なうための手段を含む。

さらに好ましくは、特徴量抽出手段はさらに、強制アライメント手段の出力する音声単位に分離された音声データと、音声認識手段の出力するＮベスト候補列とに基づき、音素言語モデルと音素継続長モデルとを用いて、入力される音声データの特徴量として、単語間無音長を算出するための手段を含み、自動評定を行なうための手段は、第１の群の発音特徴量と、単語間無音長とに基づいて、入力される音声データの第１の種類の構成要素単位での発音の自動評定を行なうための手段を含む。

単語間無音長は、発話の流暢さを表し、文レベルでの発音の習熟度を表す一つの特徴量である。これと第１の群の発音特徴量とをあわせて用いることで、高い信頼性で文単位の発音の自動評定を行なうことができる。

より好ましくは、第２の自動評定手段は、算出するための手段により算出された第１の群の発音特徴量および第２の群の発音特徴量に基づいて、入力される音声データの第２の種類の構成単位での発音の自動評定を行なうための手段を含む。

第１の群と第２の群との発音特徴量とは、いずれも単語レベルでの発音評価に関連する。これらの組合せを特徴量として用いることにより、単語単位での発音の自動評定を信頼性高く行なうことができる。

第１の種類の構成要素単位は文でもよい。また、第２の種類の構成要素単位は単語でもよい。

文と単語という二つのレベルで話者の発音を自動評定でき、文全体に関する話者の発音の習熟度を高い信頼性で推定することと、単語単位での話者の発音の評定とを同時に行なう。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの発話音声の自動評定装置として動作させるものである。

［第１の実施の形態］
−構成−
図１は、本発明の第１の実施の形態に係る複合レベル発音評定装置３２を含む英語の発話音声を自動評定するための発音自動評定システム２０のブロック図である。図１を参照して、発音自動評定システム２０は、評価対象となる音声データを格納するための音声データ記憶装置３０と、音声データ記憶装置３０から読出されたＭＦＣＣ（メル周波数ケプストラム係数）形式の音声データ３１から所定の発音特徴量を抽出し、この発音特徴量に基づく単語および文の両レベルにわたる発音評定の結果を示す文スコア３４、および各単語の発音評定を「正しい、発音誤り、不確定」のいずれかで示す単語発音評定クラス情報３６を出力するための複合レベル発音評定装置３２とを含む。すなわち複合レベル発音評定装置３２は、発話を単語という構成要素単位と文という構成要素単位との双方で評価する。

複合レベル発音評定装置３２は、音声データ記憶装置３０から読出した発話データから所定の発音特徴量４６を抽出するための特徴抽出部４０と、発音特徴量４６に基づき、文の発音の自動評定を行ない文スコア３４を出力するための文評定部４２と、発音特徴量４６のうち、単語の発音に関連する所定の発音特徴量に基づき、単語の発音が上記した三つのクラスのいずれに属するかを判定し、単語発音評定クラス情報３６を出力するための単語発音誤り検出部４４とを含む。

図２に、特徴抽出部４０のより詳細な構成を示す。図２を参照して、特徴抽出部４０は、英語を母語とする話者（ネイティブ）による発話により学習したネイティブ音響モデル５０と、音声データ３１に対しネイティブ音響モデル５０を用いた音素レベルでの強制アライメントを行なうための強制アライメント部５２と、音声データ３１に対して単語認識を行ない単語ごとに尤度の高い上位Ｎ個の単語認識候補からなるＮベスト単語列を出力するためのＮベスト単語認識装置５４とを含む。

ネイティブ音響モデル５０の学習は、ＷＳＪ（ＴｈｅＷａｌｌＳｔｒｅｅｔＪｏｕｒｎａｌ（登録商標））コーパスを用いて行なった。

特徴抽出部４０はさらに、強制アライメント部５２により出力される各音素の継続時間およびスコア（すなわち音響モデルに対する尤度）とＮベスト単語認識装置５４から与えられるＮベスト単語列およびその該当する音素列とを示す情報とから、表１に示す種々の発音特徴量４６を出力するための発音特徴量抽出部５８と、いずれも発音特徴量抽出部５８が発音特徴量の抽出時に使用する、ネイティブ音素バイグラム言語モデル５６、ネイティブ音素継続長統計６０および音素混同行列６１を記憶する記憶装置とを含む。なお、音声データ記憶装置３０と、この記憶装置とが同じ記憶装置であってもよい。

表１に示す特徴量のうち、特徴量１〜６は単語と文レベル双方、特徴量７〜１０は単語レベルのみ、特徴量１１は文レベルのみに対応する。特徴量２は非特許文献１で提案されたＧＯＰ（ＧｏｏｄｎｅｓｓＯｆＰｒｏｎｕｎｃｉａｔｉｏｎ）スコアに基づいている。特徴量１〜５は発音の評価に適していることが非特許文献１、２に代表される従来の文献により示されている。特徴量１、２、５は音素レベルに対応するスコアであるが、各音素のスコアを累積することで、単語と文レベルのスコアとして用いた。本実施の形態では、これらは音素継続時間、音素数、および発声率の各々で正規化する。

ネイティブ音素バイグラム言語モデル５６とネイティブ音素継続長統計６０の分布の推定はＬＤＣ（ＬｉｎｇｕｉｓｔｉｃＤａｔａＣｏｎｓｏｒｔｉｕｍ）のＴＩＭＩＴコーパスを用いて行なった。Ｎベスト単語認識装置５４の認識エンジンにはＨＴＫ（ＨＭＭ（隠れマルコフモデル）ツールキット）を用いている。

また音素混同行列６１は二つの混同行列を含む。第１は正しい単語のための行列Ａであり、第２は発音誤りの単語のための行列Ｂである。これらは予め非母語音声データで学習しておく。

対象となる言語の音素数をｎとすると、行列Ａ、Ｂはいずれもｎ×ｎ行列である。行列の要素は音素混同確率ｐ（ａ｜ｂ）である。ただしａは強制アライメントの分節のフレームレベルの音素ラベルを、ｂは認識結果のアライメントに該当する分節のフレームレベルの音素ラベルを、それぞれ表す。

図１に示す文評定部４２のより詳細な構成を図３に示す。図３を参照して、文評定部４２は、特徴抽出部４０から与えられる発音特徴量４６の中で、文レベルの評価に対応するものを選択するための特徴量選択部８０と、予め発音習熟度ごとに発音特徴量のガウシアン分布を推定することで準備され、特徴量選択部８０により選択された特徴量を受けて発音習熟度を示す文スコア（離散値）を出力するためのガウシアン識別機８２とを含む。

図１に示す単語発音誤り検出部４４のより詳細な構成を図４に示す。図４を参照して、単語発音誤り検出部４４は、発音特徴量４６のうち、単語発音誤りの検出に用いる特徴量を選択するための特徴量選択部１００と、特徴量選択部１００により選択された特徴量から、各単語の発音が上記した三つのクラス（正しい、発音誤り、不確定）のいずれに属するかを判定するためのガウシアン識別機１０２とを含む。

ガウシアン識別機１０２は、入力される単語認識結果がそれぞれ「正しい」、「不確定」、および「誤り」のクラスに属する尤度を出力するための第１、第２、および第３のガウシアンクラス識別機１１０、１１２および１１４と、これらガウシアンクラス識別機１１０、１１２および１１４から出力される尤度を受け、それらのうちで最も高い尤度のクラスを示す情報を選択して単語発音評定クラス情報３６として出力するための選択部１１６とを含む。ガウシアンクラス識別機１１０、１１２および１１４はそれぞれ、各クラスに属する学習データに基づいて予め推定されたガウシアン分布を含む。

なお、「不確定」については、後述するように最終的に「正しい」として取扱うようにしてもよい。

−動作−
以上に構成を述べた第１の実施の形態に係る発音自動評定システム２０は以下のように動作する。まず、特徴抽出部４０のネイティブ音響モデル５０、ネイティブ音素バイグラム言語モデル５６、およびネイティブ音素継続長統計６０、図３に示すガウシアン識別機８２、および図４に示すガウシアンクラス識別機１１０、１１２、および１１４については学習が済み、所定の記憶装置にコンピュータ読取可能な形で準備されているものとする。

図１に示す特徴抽出部４０は、音声データ記憶装置３０から音声データ３１を読出す。読出された音声データ３１は図２に示す強制アライメント部５２およびＮベスト単語認識装置５４に与えられる。

強制アライメント部５２は、ネイティブ音響モデル５０を用いて音声データ３１を音素単位でアライメントし、各音素の継続時間およびスコア（音響モデルに対する尤度）を出力し発音特徴量抽出部５８に与える。

Ｎベスト単語認識装置５４は、ネイティブ音響モデル５０を参照して音声データ３１に対する単語レベルでのＮベスト認識を行ない、Ｎベスト単語列と対応する音素列とをそれらの尤度とともに発音特徴量抽出部５８に与える。

発音特徴量抽出部５８は、強制アライメント部５２から与えられる音素の継続時間およびスコア、ならびにＮベスト単語認識装置５４から与えられるＮベスト単語列と音素列とに基づき、ネイティブ音素バイグラム言語モデル５６とネイティブ音素継続長統計６０と音素混同行列６１とを参照して、前述した１１種類の発音特徴量４６を抽出し、図３に示す特徴量選択部８０に与える。

特徴量選択部８０は、発音特徴量４６のうち、文習熟度の評定に関連する複数の特徴量（特徴量１〜６および特徴量１１）を選択し、ガウシアン識別機８２に与える。するとガウシアン識別機８２は、これらの特徴量から、発音習熟度クラスごとに発音特徴量のガウシアン分布からこれら発音がどの発音習熟度クラスに属するかを判定し、文スコア３４として出力する。この場合の文スコアはクラスを表す離散値である。

一方、発音特徴量４６は図４に示す特徴量選択部１００にも与えられる。特徴量選択部１００は、与えられた特徴量のうち、単語レベルに関連する特徴量（特徴量１〜１０）を選択し、ベクトル形式に変換してガウシアンクラス識別機１１０、１１２および１１４に与える。ガウシアンクラス識別機１１０、１１２および１１４はいずれも、与えられた単語レベルの特徴量がそれらに対応するクラスに属する尤度を出力し、選択部１１６に与える。選択部１１６は、与えられた尤度のうち最も高い尤度に対応する単語発音評定クラスを示す情報（単語発音評定クラス情報３６）をこの単語の単語発音に対する判定として出力する。

以上のようにして、音声データ記憶装置３０から読出した音声データ３１につき、その発音習熟度が文レベルと単語レベルとの双方により包括的に判定される。従来のように別々に判定するものと比較して、より正確な判定結果を得ることができる。

なお、文の自動評定と発音誤りの検出とにおいて、定義した発音特徴量の組合せを検定するために、いわゆる「ｆｌｏａｔｉｎｇｓｅａｒｃｈ」（非特許文献６参照）を適用した。この探索法は、逐次に特徴を加えながら識別機の性能を評価し、優れている特徴部分集合を出すものである。

［第２の実施の形態］
上記した第１の実施の形態では、文評定の結果得られるスコアは離散値である。しかし本発明はそのような実施の形態には限定されず、文評定の結果のスコアが連続値となるような構成をとることもできる。第２の実施の形態は、そのような構成を持つ。

図５に、本実施の形態に係る文評定部１４２の概略構成を示す。文評定部１４２は、図１において文評定部４２に変えて用いることができる。

図５を参照して、この文評定部１４２は、第１の実施の形態におけるものと同様の特徴量選択部８０（図３参照）と、特徴量選択部８０から与えられる複数の特徴量に対し線形変換を行なってその値を出力するための線形変換部１８２と、線形変換部１８２における線形変換に用いられる係数を記憶するための係数記憶部１８４とを含む。係数記憶部１８４の記憶する係数は、予め学習データを用いた線形回帰で求めておく。

図５に示す文評定部１４２においては、第１の実施の形態におけるガウシアン識別機８２のように分布に基づく推定結果ではなく、係数記憶部１８４に記憶された係数を用いた特徴量の線形変換を算出し、それを文スコアとして出力する。したがってこの場合、文スコアは連続値となる。

その他の点において第２の実施の形態の構成および動作は第１の実施の形態の構成および動作とそれぞれ同じである。したがってここではその詳細は繰返さない。

［実験］
上記した実施の形態の効果を確認するため、実験を行なった。

−データ−
非母語話者９６人（うち大多数は、日本人、ドイツ人、フランス人、中国人、インドネシア人）からＴＩＭＩＴのＳＸ文章（４８文、約４００語）の読上げ音声を収録した。英語教師１５人（北米出身）が文毎に１（最良）から５（最悪）までの離散的な発音習熟度を示すラベルを付けた。その上で、読み誤った単語をマークした。この評価において、全ての話者と教師を４つのグループに分けた。ラベルの信頼性に関しては非特許文献７を参照されたい。最終的な文の評価値としてラベルの平均値を用いた。単語のラベルの分類に関しては以下の２つの方法を用いた。

・分類Ａ：教師２人以上にマークされた単語をクラス「発音誤り」に、残った単語をクラス「正しい」に統一する。

・分類Ｂ：分類Ａのクラス「正しい」を更に分け、一切マークされていない単語を新しいクラス「正しい」に、教師１人のみにマークされた単語をクラス「不確定」にまとめる。

実験において、３つのグループのデータを学習のために、１つのグループのデータを評価のために使用する。このようにして、最終的な実験を４交差検定で実施した。

−結果−
表２は文の自動評定の実験結果を示す。それによると、人間である教師にとって、発音習熟度に関して分節的な要素が一番大事である。教師に対する時間的要素の影響も大きい。６つの時間と分節的な発音特徴量を線形に組み合わせることで、教師と同様な確度で、文の発音自動評定が可能である。

教師によって誤った発音であるとマークされた単語は、教師によって若干差異が見られた。教師３人のラベルで単語を方法Ａによって分類して、残った教師１人で評価を行った。その評価を４つの可能な組み合わせのために繰返し、各混同行列を求める。表３はその交差検定の平均行列である。

正しい単語の８％が発音誤りとして、発音が誤ったはずの単語の４３％が正しい単語として判定された。後者の誤差は外国語学習者にとって好ましくなくても、発音の学習を損なわないと言えるだろう。一方、前者のような誤差は大きくなるにつれて、学習者に悪影響を与える。したがって、発音誤りの自動検出は、前者の誤差が小さくなるように設計しなくてはならない。

表４は自動検出の結果を示す。発音誤りを検出する性能は高いが、正しい単語の２８％も発音誤りと判定された。

そこで、分類法Ｂに沿って単語を３つのクラスに分類し、実施の形態１で説明したように識別機を設計した。表５にそれに該当する判別結果がまとめてある。

最終的に「不確定」の判別結果を「正しい」と見なし、教師１人のみにマークされた単語を発音誤りとして扱えば、表６が得られる。

このようにして、２８％であった誤差は１４％までも減少する。その一方、誤った単語の検出率は４３％になる。教師の確度（表３）と比較すると、有望な性能であると言えるだろう。

なお、単語の発音誤りの検出において単独の特徴のみを用いた場合、特徴量９が最も優れており、特徴量１は２番目に優れていた。また、特徴量８のみを使用した場合にもよい結果を得た。

［コンピュータによる実現］
この実施の形態の発音自動評定システム２０は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図６はこのコンピュータシステム３３０の外観を示し、図７はコンピュータシステム３３０の内部構成を示す。

図６を参照して、このコンピュータシステム３３０は、ＦＤ（フレキシブルディスク）ドライブ３５２およびＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

図７を参照して、コンピュータ３４０は、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０とを含む。コンピュータシステム３３０はさらに、プリンタ３４４を含んでいる。

ここでは示さないが、コンピュータ３４０はさらにローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。

コンピュータシステム３３０に発音自動評定システム２０としての動作を行なわせるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０またはＦＤドライブ３５２に挿入されるＣＤ−ＲＯＭ３６２またはＦＤ３６４に記憶され、さらにハードディスク３５４に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＣＤ−ＲＯＭ３６２から、ＦＤ３６４から、またはネットワークを介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ３４０にこの実施の形態に係る発音自動評定システム２０としての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）またはサードパーティのプログラム、もしくはコンピュータ３４０にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の発音自動評定システム２０を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した発音自動評定システム２０として機能を実行する命令のみを含んでいればよい。コンピュータシステム３３０の動作は周知であるので、ここでは繰返さない。

以上のように上記実施の形態によれば、文レベルと単語レベルという、互いに異なる構成要素単位での発話音声の評価をまとめて自動的に行なうことができる。さらに、単語の発音が正しいか誤りかを自動的に判定できる。その結果、例えば外国語を学習中の話者の、その外国語の発音の習熟度を高い信頼性で推定することと、単語単位での発音の評定とを同時に行なうこととが可能である。

なお、上記実施の形態では、英語を学習することを例として発音自動評定システム２０の構成および動作を説明した。しかし本発明は英語を学習する際の発音の自動評定に適用可能なだけではなく、それ以外の言語についても適用可能であることはいうまでもない。また、上記実施の形態では、構成要素として文レベルおよび単語レベルでの自動評定を行なっている。しかし本発明はそのような実施の形態に限定されない。最初に述べたように構成要素としては、音素レベル、単語レベル、文レベル、および文章レベル等のうち任意の組合せによって得られる複数レベルで発音を評価する際にも、本発明を適用できる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

本発明の第１の実施の形態に係る発音自動評定システム２０のブロック図である。図１に示す特徴抽出部４０のより詳細なブロック図である。図１に示す文評定部４２のより詳細なブロック図である。図１に示す単語発音誤り検出部４４のより詳細なブロック図である。第２の実施の形態に係る音声データ記憶装置で用いられる文評定部１４２のブロック図である。本発明の実施の形態に係る発音自動評定システム２０を実現するコンピュータシステムの外観図である。図６に示すコンピュータシステムのブロック図である。

符号の説明

２０発音自動評定システム、３０音声データ記憶装置、３１音声データ、３２複合レベル発音評定装置、３４文スコア、３６単語発音評定クラス情報、４０特徴抽出部、４２，１４２文評定部、４４単語発音誤り検出部、４６発音特徴量、５０ネイティブ音響モデル、５２強制アライメント部、５４Ｎベスト単語認識装置、５６ネイティブ音素バイグラム言語モデル、５８発音特徴量抽出部、６０ネイティブ音素継続長統計、８０特徴量選択部、８２ガウシアン識別機、１００特徴量選択部、１０２ガウシアン識別機、１１０，１１２，１１４ガウシアンクラス識別機、１１６選択部、１８２線形変換部、１８４係数記憶部

Claims

ある言語の発話に対し、発音の自動評定を行なう発話音声の自動評定装置であって、
予め前記ある言語のネイティブ話者の発話からそれぞれ作成した音響モデル、音素言語モデル、および音素継続長モデルをそれぞれ記憶するためのモデル記憶手段と、
入力される音声データから、前記音響モデル、前記音素言語モデル、および前記音素継続長モデルに基づいて所定の複数の音声特徴量を抽出するための特徴量抽出手段と、
前記特徴量抽出手段により抽出された複数の音声特徴量に基づいて、前記入力される音声データの第１の種類の構成要素単位での発音の自動評定を行なうための第１の自動評定手段と、
前記特徴量抽出手段により抽出された複数の音声特徴量に基づいて、前記入力される音声データの第２の種類の構成要素単位での発音の自動評定を行なうための第２の自動評定手段とを含む、発話音声の自動評定装置。
前記特徴量抽出手段は、
前記音響モデルを用い、前記入力される音声データに対する所定の音声単位での強制アライメントを行ない、前記音声単位に分離された音声データを出力するための強制アライメント手段と、
前記音響モデルを用い、前記入力される音声データに対する音声認識を行ない、所定の音声単位でのＮベスト候補列を出力するための音声認識手段と、
前記強制アライメント手段の出力する前記音声単位に分離された音声データと、前記音声認識手段の出力する前記Ｎベスト候補列とに基づき、前記音素言語モデルと前記音素継続長モデルとを用いて、前記音声データの前記複数の特徴量を算出するための特徴量算出手段とを含む、請求項１に記載の発話音声の自動評定装置。
前記強制アライメント手段は、前記音響モデルを用い、前記入力される音声データに対する音素単位での強制アライメントを行ない、前記音素単位に分離された音声データを出力するための手段を含む、請求項２に記載の発話音声の自動評定装置。
前記音声認識手段は、前記音響モデルを用い、前記入力される音声データに対する単語単位での音声認識を行ない、単語単位でのＮベスト単語列を出力するための単語音声認識手段を含む、請求項２または請求項３に記載の発話音声の自動評定装置。
前記特徴量算出手段は、前記強制アライメント手段の出力する前記音声単位に分離された音声データと、前記音声認識手段の出力する前記Ｎベスト単語列とに基づき、前記音素言語モデルと前記音素継続長モデルとを用いて、前記入力される音声データの特徴量として、音素尤度、音素尤度比、単語認識率、音素認識率、発声率、継続時間スコア、音素列確率からなる第１の群の発音特徴量の中の複数の発音特徴量と、音素継続時間比、音素混同尤度比、単語事後確率、発声率変動からなる第２の群の発音特徴量の中の１または複数の発音特徴量とを算出するための手段を含む、請求項１〜請求項４のいずれかに記載の発話音声の自動評定装置。
前記第１の自動評定手段は、前記算出するための手段により算出された前記第１の群の発音特徴量に基づいて、前記入力される音声データの第１の種類の構成要素単位での発音の自動評定を行なうための手段を含む、請求項５に記載の発話音声の自動評定装置。
前記特徴量抽出手段はさらに、前記強制アライメント手段の出力する前記音声単位に分離された音声データと、前記音声認識手段の出力する前記Ｎベスト候補列とに基づき、前記音素言語モデルと前記音素継続長モデルとを用いて、前記入力される音声データの特徴量として、単語間無音長を算出するための手段を含み、
前記自動評定を行なうための手段は、前記第１の群の発音特徴量と、前記単語間無音長とに基づいて、前記入力される音声データの第１の種類の構成要素単位での発音の自動評定を行なうための手段を含む、請求項６に記載の発話音声の自動評定装置。
前記第２の自動評定手段は、前記算出するための手段により算出された前記第１の群の発音特徴量および前記第２の群の発音特徴量に基づいて、前記入力される音声データの前記第２の種類の構成単位での発音の自動評定を行なうための手段を含む、請求項５〜請求項７のいずれかに記載の発話音声の自動評定装置。
前記第１の種類の構成要素単位は文である、請求項１〜請求項８のいずれかに記載の発話音声の自動評定装置。
前記第２の種類の構成要素単位は単語である、請求項１〜請求項９のいずれかに記載の発話音声の自動評定装置。
コンピュータにより実行されると、当該コンピュータを請求項１〜請求項１０のいずれかに記載の発話音声の自動評定装置として動作させる、コンピュータプログラム。