JP4394752B2

JP4394752B2 - 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム

Info

Publication number: JP4394752B2
Application number: JP51691198A
Authority: JP
Inventors: ニユウメイヤー，レオナルド; フランコ，ホラシオ; ウエイントラウブ，ミツチエル; プライス，パテイ; デイガラキス，ヴアツシリオス
Original assignee: SRI International Inc
Current assignee: SRI International Inc
Priority date: 1996-10-02
Filing date: 1997-10-01
Publication date: 2010-01-06
Anticipated expiration: 2017-10-01
Also published as: JP2007171944A; EP1010170A1; ATE440359T1; DE69739545D1; JP2002515136A; EP1010170B1; EP1010170A4

Description

関連出願の説明
この特許出願は、１９９６年１０月２日付提出の米国仮出願第６０／０２７，６３８号による優先権を主張する。この仮出願の内容は、ここで文献として援用される。
著作権についての注意
この特許書類の明細書の一部は、著作権保護を受けるものを含む。著作権所有者は、特許書類又は特許明細書が特許商標庁の特許ファイル又は記録に入れられている間にそれを何人が複写、複製しても異論はないが、その他の場合にはどんな著作権も全て保有する。
発明の背景
本発明は、音声発音の質の自動評価に関する。例えば、コンピューター支援言語教育及び評価に適用される。
本発明の実施態様に関連する技術は、共に譲渡された米国出願第０８／３７５，９０８号、名称「個別話者に適応した音声認識の方法及び装置（METHOD AND APPARATUS FOR SPEECH RECOGNITION ADAPTED TO AN INDIVIDUAL SPEAKER）」、米国出願第０８／２７６，７４２号、名称「最適化部分混合結びを用いた音声認識の方法及び装置（METHOD AND APPARATUS FOR SPEECH RECOGNITION USING OPTIMIZED PARTIAL MIXTURE TYING）」、米国特許第５，６３４，０８６号、名称「ボイスインターラクティブ言語教育のための方法及び装置（METHOD AND APPARATUS FOR VOICE-INTERACTIVE LANGUAGE INSTRUCTION）」、及び米国特許第５，５８１，６５５号、名称「言語的に動機付けられた隠れマルコフモデルを用いて音声を認識する方法（METHOD FOR RECOGNIZING SPEECH USING LINGUISTICALLY-MOTIVATED HIDDEN MARKOV MODELS）」において説明されており、これらの出願及び特許は、ここで文献として援用される。
隠れマルコフモデルを用いた関連の音声認識技術は、Ｖ．Digalakis及びＨ．Murveitによる「GENONES: Generalized Mixture-Tying in Continuous Hidden-Markov-Model-Based Speech Recognizers」、IEEE Transactions on Speech and Audio Processing、Ｖｏｌ．４、１９９６年７月、にも記載されており、ここで文献として援用される。
言語学生の聞き取り及び読み取り理解技術を訓練するコンピューター支援言語教育システムが存在する。このようなシステムは有用的ではあるが、学生の言語生成技術も訓練できる能力をコンピューター利用言語教育システムに加えることが望ましい。特に、コンピューター利用言語教育システムが学生の発音の質を評価できることが望ましい。
自動発音評価に対する従来技術のアプローチが、本発明の譲受人により所有されている上記文献に記載されている。Bernstein他による「英語発音における自動評価及び訓練（Automatic Evaluation and Training in English Pronunciation）」、Internat. Conf. on Spoken Language Processing、１９９０年、神戸、日本、を参照のこと。この従来技術のアプローチは、事前選択されたスクリプトを読んでいる学生からの音声発話（speech utterances）を評価することに限定されており、このスクリプトに対して訓練データがネイティブ話者から収集されている。この従来技術のアプローチは、特定の語、句又は文に関する統計に基づくので、テキスト依存評価（text-dependent evaluation）と称される。
上記従来技術のアプローチは、評価システムを訓練するのに使用された訓練データに含まれない特定の発話の評価ができないので、有効性において大いに制限される。そのため、発音評価を要するために新しいスクリプトを加えなければならないときはいつでも、評価システムの再訓練が必要となる。
必要とされるのは、任意の発話、すなわち訓練データが無いか又は不完全な訓練データしか存在しないようなワードシーケンスにより構成された発話でさえグレード付けできる発音の質の自動評価方法及びシステムである。必要とされるこのタイプのグレード付けは、テキスト独立グレード付け（text-independent grading）と言われる。
従来技術のアプローチは、例えばスペクトル尤度スコアー（spectral likelihood score）のような特定タイプの評価スコアーのみを発生できる点において、さらに制限される。従来技術のアプローチは、その評価スコアーを用いて初歩レベルの性能を達成できるが、そのレベルは、人間の聴者により達成されるレベルと比べると相当制限されている。従って、また必要とされるものは、性能を向上できるより強力な評価スコアーを含む、発音の質を自動評価する方法及びシステムである。
用語解説
この技術では、しばしば同じ用語が、異なる文脈において非常に異なる意味で用いられる。明瞭にするため、この明細書では、文脈が他の意味を要求しない限り、以下の定義を適用する。
グレード（Grade）：人間のエキスパート聴者により使用されるようなグレードスケールに基づいた、話者又は音声発話の発音の質の評価。グレードは、人間又は機械により発生され得る。
スコアー（Score）：音声発話に適用されるようなスコアー化関数又はアルゴリズムに従って機械により発生される値。
音響特徴フレーム（A Frame of Acoustic Features）：後続の処理及び分析のために特徴抽出器により生成された短時間フレーム内の音声サウンドの特性化。例えば、シフトした２０ｍｓウインドウ内で１０ｍｓ毎に音響特徴を計算する特徴抽出器は、１０ｍｓ毎に１「音響特徴フレーム」を生成すると言われる。一般に、１つの音響特徴フレームはベクトルである。
音響セグメント（Acoustic Segments）：音声の時間セグメントであって、その境界（又は音長）が、音声の音響特性に基づいた音声セグメンター（segmenter）により決められる前記時間セグメント。本発明の実施態様では、音声セグメンターにより生成される音響セグメントの各々は、「単音（phone）」である。
単音（Phone）：所与の言語における基本音声サウンド単位。一般に、所与の言語における全ての音声発話は、言語に対する１セットの個別単音タイプから選ばれた単音により表され得る。個別単音タイプの数は、４０のオーダーである。
音響単位（Acoustic Units）：音声の時間セグメントであって、その音長は、発音の質を表すスコアーを発生するのに使用される前記時間セグメント。本発明の実施態様では、音響単位は、単に、音声セグメンターにより作られた音響セグメントである。別の実施態様では、音響単位は、音声セグメンターにより作られる音響セグメントの境界（又は音長）に基づいて音長が決められる「音節（syllables）」である。
発明の概要
本発明により、音響単位の音長と事後確率ベース評価を含んだ発話上の１以上のメトリクス（metrics）に基づいて、任意の音声発話の発音の質を評価するための方法及びシステムが与えられる。
本発明の特定の実施態様は、コンピューター化された音響セグメンテーションシステムを用いて学生の音声サンプルの発音を評価する方法である。この方法は、学生話者による口頭（すなわち話された）ワードシーケンスを含んだ学生音声サンプルを受け入れる工程、コンピュータ化された音響セグメンテーションシステムを操作し、セグメンテーションシステム内の音声音響モデルに基づいて学生音声サンプル内の音響単位を定める工程であって、音声音響モデルは、少なくとも１人の話者からの訓練音声データを用いて設定され、訓練音声データは、口頭ワードシーケンスを必ずしも含む必要はない前記工程、サンプル音響単位の音長を測定する工程、及びサンプル音響単位の音長をモデルの模範音響単位の音長と比較し、サンプル音響単位の音長と模範音響単位の音長の間の類似性を表す音長スコアーを計算する工程を含む。
別の特定実施態様では、音長スコアーは、グレードにさらに写像され、そのグレードが学生話者に示される。
別の特定実施態様では、口頭ワードのシーケンスは既知ではなく、コンピューター化された音声認識システムが操作されて、口頭ワードのシーケンスが求められる。
本発明の別の特定実施態様は、学生音声サンプルの発音をグレード付ける方法である。この方法は、学生話者により口頭ワードのシーケンスを含んだ学生音声サンプルを受け入れる工程、１セットの訓練された音声モデルを操作し、音声サンプルから少なくとも１つの事後確率を計算する工程であって、事後確率の各々は、学生音声サンプルの特定部分が特定の既知モデルが与えられた音声サンプルの特定部分に対応する確率である前記工程、及び事後確率から学生サンプルに対する発音の質の評価スコアー（ここでは、事後ベースの評価スコアーと称される。）を計算する工程を含む。
別の特定実施態様では、事後ベースのスコアーが、さらに、人間のグレーダー（grader）により割り当てられ得るグレードに写像され、そのグレードが学生話者に示される。
本発明のさらに別の特定実施態様は、学生話者による口頭ワードシーケンスを含んだ学生音声サンプルの発音を評価するシステムである。このシステムは、模範音声の訓練された音声音響モデル、及び訓練された音声モデルを用いて音声サンプルから少なくとも１つの事後確率を計算するよう構成された音響スコアラー（scorer）を含み、音響スコアラーは、事後確率から学生サンプルの発音の質の評価スコアーを計算するようにも構成され、事後確率の各々は、学生音声サンプルの特定部分が、音声サンプルの特定部分が与えられた特定の既知モデルに対応する確率である。
本発明のさらに別の特定実施態様は、学生にプロンプトを示してプロンプトにより引き出された学生音声を受け入れるクライアント処理が存在するクライアント／サーバー環境において発音訓練するためのシステムである。このシステムは、制御情報をクライアント処理に送り学生に示されるべきプロンプトを指定し、かつ、示されたプロンプトにより引き出される学生音声から導出された音声サンプルを受け取るサーバー処理、及び学生音声サンプルを分析するためサーバー処理によりインボーカブルな（invocable）発音評価器を含む。
本発明の特性及び効果は、明細書の残りの部分及び図面を参照してさらに理解され得る。
【図面の簡単な説明】
図１は、発音の質を評価するためのシステムのブロック図である。
図２は、図１の発音スコアラーのブロック図であり、これは本発明の実施態様に従って音響単位の音長に基づいて発音スコアーを生成する。
図３は、図２の音声セグメンターを示すブロック図であり、これは本発明の実施態様による隠れマルコフモデル（ＨＭＭ）音声認識器である。
図４は、サンプル入力音声に対する最尤経路の一部を示す図である。
図５は、本発明の実施態様に従って音響特徴１１１自身に直接基づいて音響スコアーを計算するためのシステムのブロック図である。
図６は、本発明の実施態様に従って異なる発音スコアーを結合するシステムのブロック図である。
図７は、人間のグレーダーにより作られ得る発音グレードに１以上のタイプの機械スコアーを写像する図６の写像関数を作るためのシステムのブロック図である。
図８は、発音の質を評価する言語教育分散システムのブロック図である。
特定実施態様の説明
Ｉ．自動発音評価
図１は、本発明の実施態様により発音の質を評価するためのシステム１０１のブロック図である。図１では、音声入力装置１０３が、話者１０５からの口頭（すなわち話された）ワードのシーケンスを機械読み取り可能な入力音声１０７に変換する。特徴抽出器１０９は、入力音声１０７を時間フレームに分割し、各時間フレームに対して、時間フレーム内の音声サウンドの識別特性を捕らえた音響特徴を計算する。このようにして、特徴抽出器１０９は、音響特徴フレーム１１１のシーケンスを作る。入力音声１０７及び音響特徴フレームのシーケンスは、両方とも話者１０５の音声を表し、従って、その各々が「学生音声サンプル」と称される。
発音スコアラー１１３は、入力音声１０７の発音の質を示す少なくとも１つの発音スコアー１１５を音響特徴１１１から計算する。発音スコアー１１５を計算する際、発音スコアラー１１３は、所望の、すなわち模範的な音声発音の種々の側面を特徴付ける音声モデル１１７を利用する。音声モデル１１７は、模範話者からの訓練音声を用いて設定される。
本発明の幾つかの実施態様では、オプションのスコアー−グレード写像器１１９が、発音スコアー１１５を受け入れ、人間のエキスパートのグレーダーにより与え得るような発音グレード１２１にそれらのスコアーを写像する。
発音評価システム１０１の動作中、入力音声１０７、音響特徴１１１、発音スコアー１１５、及び発音グレード１２１を含んだ種々のデータが、後に使用するため記憶装置に記憶され得る。
本発明の実施態様では、音響特徴１１１は、音声認識タスクにおいて使用される特徴を含み、これらは、当該技術では公知であり、例えば上記’発明の背景’セクションにて参照引用された引用文献に説明されている。例えば、本発明の一実施態様では、音響特徴１１１は、シフトした２０ｍｓウインドウ内において１０ｍｓ毎に計算された１２次メル−ケプストラム（mel-cepstra）特徴、及びこれらの特徴の近似微分（approximate derivatives）を含む。
本発明の一実施態様では、音声入力装置１０３は電話であり、入力された音声１０７は、電話ネットワークを通って特徴抽出器１０９に送られる。この実施態様により、学生が電話にアクセスするという条件で、学生の話した発音を本発明により評価することができる。
本発明の一実施態様では、音声入力装置１０３は、例えば、オーディオデジタル化用ハードウエアー及びソフトウエアーを含むリモート「クライアント」計算システムに接続されたマイクロフォンのようなデジタル化マイクロフォンシステムである。入力音声１０７は、デジタル形式にて（例えば、ストリーミングオーディオ又は圧縮されたオーディオファイルとして）デジタルネットワーク、例えばローカルエリアネットワーク及び／又はインターネットを通って、ローカル「サーバー」計算システム上に存在する特徴抽出器１０９に送られる。この実施態様により、学生がデジタルネットワークに接続されたデジタル化マイクロフォンシステムにアクセスするという条件で、学生が話した発音を本発明により評価することができる。
本発明の一実施態様では、音声入力装置１０３と特徴抽出器１０９は、少なくとも１つのリモート計算システム上に存在し、音響特徴１１１は、ネットワーク、例えばインターネットを通って、ローカル計算システムに存在する発音スコアラー１１３に送られる。この実施態様により、ネットワークを通って送られる必要のあるデータ量が低減される。というのは、一般に音響特徴１１１は、この実施態様での入力音声１０７自身よりもよりコンパクトな音声表現であるからである。この実施態様により、ローカル計算システムに要求される計算量もまた低減される。
ＩＩ．音響単位の音長を用いた発音のスコアー化
図２は、本発明の実施態様による図１の発音スコアラー１１３のブロック図であり、音響単位の音長に基づいて発音スコアー１１５を生成する。図２では、音声セグメンター２０３は、音響特徴１１１のシーケンスを受け入れ、それらから音響セグメントを特定する時間−セグメンテーション２０５を作る。音響セグメンテーション２０５は、音響セグメントの表現であり、それにより、それらの音長が決められ得る。一実施態様では、音響セグメンターション２０５は、各音響セグメントの時間−境界に加えて各音響セグメントの音長を含む。（一般に、セグメント境界は、音長を定め、音長のシーケンスは、シーケンス内に単一の境界が与えられたセグメント境界を定めることに留意されたい。従って、境界を使用するとして説明されたシステムコンポーネントは、一般に代替され得るが、音長、又は音長及び境界を用いるとして説明された等価物とし得る。）
音響単位音長抽出器２０７は、音響セグメンテーション２０５を受け入れる。音響セグメンテーション２０５から、音響単位音長抽出器２０７は、音響単位の音長２０９を回復又は計算する。
音響単位音長スコアラー２１１は、音響単位音長２０９を受け入れ、それらを模範音響単位音長のモデル２１３と比較する。このモデルは、模範話者からの訓練音声を用いて設定されたものである。この比較に基づいて、音響単位音長スコアラー２１１は、図１の発音スコアー１１５として音響単位音長スコアー１１５を計算する。音響単位音長モデル２１３は、図１の音声モデル１１７の一部を形成する。本発明の実施態様では、音響単位音長モデル２１３は、パラメトリックなモデル又は非パラメトリックなモデルとし得る。本発明の別の実施態様では、音響単位音長モデル２１３は、模範音声からの例音響単位音長を単に含む。
例えば電話回線を通して伝送される音声のように大きなノイズや歪みを加えるチャンネルを介して学生話者１０５の音声が受け取られるとき、音響単位音長スコアーは発音の質の特に重要な指標であることが分かった。
本発明の一実施態様では、音声入力装置１０３（図１）、特徴抽出器１０９（図１）、及び音声セグメンター２０３は、全て１以上のリモート計算システム上に存在し、音響セグメンテーション２０５のみ又は音響単位音長２０９のみが、例えばインターネットのようなネットワークを通って、ローカル計算機械上に存在する音響単位音長スコアラー２１１に送られる。この実施態様により、リモート計算システムにより多くの計算を実行するよう要求することで、ネットワークを通って送られる必要のあるデータ量、及びローカル計算システムに要求される計算量が著しく低減される。
本発明の実施態様では、音声セグメンター２０３は、音響特徴１１１を単音たる音響セグメントにセグメント化する。音声セグメンター２０３は、各単音のタイプを識別もする。音響セグメンテーション２０５は、例えば音響特徴１１１のシーケンス内へのインデックスとして表された単音境界や各単音の単音タイプラベルの形式のセグメント情報を含む。
ＩＩ．Ａ．単音の音長
本発明の特定実施態様では、単音音長に基づいて音長スコアー１１５が計算される。音声セグメンター２０３は、音響特徴１１１を単音たる音響セグメントにセグメント化する。音響単位音長抽出器２０７は、単に単音自身として音響単位を定める。従って、これらの実施態様における音響単位音長抽出器２０７は、音響単位音長２０９として単音音長を非常に単純に抽出する。特に、単音セグメンテーション２０５が明白に単音音長を含む実施態様では、音響単位音長抽出器２０７は、音響単位音長２０９として存在する単音音長を単に使用する。単音セグメンテーション２０５が単音境界のみを有する単音セグメンテーションを表す実施態様では、音響単位音長抽出器２０７は、単音境界から音響単位音長を計算する算術減算器である。
本発明の特定の単音−音長−スコアー化実施態様では、音響単位音長モデル２１３は、単音タイプｑが与えられた模範音声中の単音音長ｄの分離確率分布Ｐ_d（ｄ｜ｑ）を含む。例えば、所与の言語を規定する例えば４５個の単音タイプを用いるよう構成されたシステムは、４５個の確率分布を有し、その１つは各単音タイプに対する。
特定実施態様では、各単音タイプの音長確率分布は、例えばガウシアン分布のようなパラメトリック分布として表される。これらの分布のパラメータは、模範話者からの訓練音声にあるような各タイプの単音の音長を用いて、標準統計推定方法により推定される。
他の好適な実施態様では、各単音タイプの音長確率分布は、（非パラメトリック）確率マス（mass）関数として表される。これらの確率分布は、模範話者からの訓練音声にあるような各タイプの単音の音長を表にすることにより設定される。訓練音声の有限量のみが利用できるという条件でモデルのロバストネス（robustness）を維持するために、各確率マス関数が平滑化され、確率フロアー（floor）が導入される。訓練音声の単音音長は、テスト中に入力音声１０７の単音音長２０９が求められるのと同じ方法にて、訓練中に求められる。すなわち、特徴抽出器１０９、音声セグメンター２０３、及び音響単位音長抽出器２０７が使用される。
特定の単音−音長−スコアー化実施態様における音響単位音長スコアラー２１１は、各単音ｉの音長ｄ_iの対数確率ρ_iを次式により計算する。

ここで、ｑ_iは単音ｉの単音タイプである。
音響単位音長スコアラー２１１は、発話全体に対して、各単音ｉの音長の対数確率ρ_iの平均として音響単位音長スコアー１１５ ρを次式により計算する。

ここで、総和は、発話中の単音数Ｎに亘って取られる。
好適実施態様では、音響単位音長モデル２１３は、話者標準化された単音音長である単音音長ｄ’の確率分布Ｐ_d’（ｄ’｜ｑ）を含む。従って、音響単位音長スコアラー２１１は、発話全体に対して、各単音ｉの話者標準化音長ｄ’_iの対数確率の平均として音響単位音長スコアー１１５を計算する。
話者標準化単音音長は、問題の話者の音声速度が乗じられた単音音長である。音声速度（ＲＯＳ）は、話者により１秒当たり発話される単音数である。各模範話者の音声速度は、訓練音声から計算される。学生話者１０５の音声速度は、音響セグメンテーション自身を含めて話者の利用可能なデータから計算される。
以下の式は、好適実施態様における話者標準化された単音音長の使用をまとめたものである。

ＩＩ．Ｂ．音節の音長
本発明の特定実施態様では、「音節」の音長に基づいて音長スコアー１１５が計算される。音声速度の標準化（後に説明）の後でさえ音節音長が発音の質の良い指標であることの一つの説明は、言語学習者は、彼らのネイティブ言語のリズムを学習言語に課する傾向があることである。例えば、英語は、強勢拍である（stress-timed）傾向にあり（すなわち、強勢される音節は延ばされ、その他は短くされる傾向にある）、一方、スペイン語とフランス語は、音節拍である（syllable-timed）傾向にある。
これらの音節−音長−スコアー化実施態様では、音響単位音長抽出器２０７が、音声セグメンター２０３により特定されるような単音の音長に基づいて「音節」たる音響単位の音長を求める。特に、音響単位音長抽出器２０７は、音声内での母音単音の中心間の音長として音節音長を決める。
特定の音節−音長−スコアー化実施態様では、音響単位音長モデル２１３は、任意の音節の音節音長ｓｄの単一の確率分布Ｐ_sd（ｓｄ）を含む。この確率分布は、模範話者からの訓練音声にある全ての音節の音長を表にすることにより設定される。訓練音声の音節音長は、テスト中に求められる入力音声１０７の音節音長２０９と同様にして訓練中に求められる。すなわち、特徴抽出器１０９、音声セグメンター２０３、及び音響単位音長抽出器２０７が使用される。音長確率分布は、確率マス関数として表される。訓練音声の有限量のみが利用できるという条件で、モデルのロバストネスを維持するために、確率マス関数が平滑化され、確率フロアーが導入される。
好適実施態様では、各音節ｊに対する音節音長ｓｄ_jは、上記のように話者の音声速度（ＲＯＳ）を乗じることによりテスト及び訓練中に標準化され、話者標準化された音節音長ｓｄ’_jが得られる。以下の式は、好適な音節−音長−スコアー化実施態様において話者標準化された音節音長の使用をまとめたものである。

ＩＩ．Ｃ．特定音節を用いた音節音長
本発明の他の実施態様では、全ての音節に対して上記説明した方法に類似の方法にてスコアー化するために、特定音節の音節音長が使用される。これらの実施態様では、音響単位音長抽出器２０７は、音響セグメンテーション２０５から音節音長を回復する。音長スコアラーは、これらの音長を模範音声における音節音長モデル２１３と比較し、音節音長スコアー１１５を計算する。
音節音長モデル２１３は、言語中の音節の部分集合に対する音長の確率分布を含む。これらの音節は、音長分布を推定し得る十分な訓練音声データが存在したものである。音長スコアラーは、学生音声サンプルからの音節を音節音長モデル２１３と比較し、音長が音節音長モデル２１３内でモデル化される学生音声サンプルのそれらの音節に基づいて、音節音長発音スコアーを導出する。
ＩＩ．Ｄ．ワードの音長
本発明の他の実施態様では、音節に対して上記説明した方法と類似の方法にてスコアー化するために、ワード音長が使用される。これらの実施態様では、音響単位音長抽出器２０７は、音響セグメンテーション２０５からワード音長を回復する。音長スコアラーは、これらの音長を模範音声におけるワードモデル２１３と比較し、ワード音長スコアー１１５を計算する。
ワード音長モデル２１３は、言語におけるワードの部分集合に対する音長の確率分布を含む。これらのワードは、音長分布を推定し得る十分な訓練音声データが存在したものである。音長スコアラーは、学生音声サンプルからのワードをワード音長モデル２１３と比較し、音長がワード音長モデル２１３内でモデル化される学生音声サンプルのそれらのワードに基づいて、ワード音長発音スコアーを導出する。
ＩＩＩ．音響セグメンテーションのためのＨＭＭ音声認識器
図３は、図２の音声セグメンター２０３を示すブロック図であり、これは、本発明の特定実施態様ではＨＭＭ音声認識器２０３である。ＨＭＭ音声認識器は、当該技術において公知であり、例えば’発明の背景’セクションにおいて援用引用された文献に記載されている。
マルコフモデル（ＭＭ）は、方向付けされた遷移ブランチにより接続された状態のネットワークである。ＨＭＭ音声認識器２０３は、マルコフモデルを使用して音声サウンドの生成をモデル化する。ＨＭＭ認識器２０３は、言語中の各タイプの単音を、少数の接続状態により構成された単音モデルにより表す。（特定実施態様では、大抵の単音タイプに対して１単音モデル当たり３つの状態を使用する。）ＨＭＭ認識器２０３は、「三−単音（tri-phone）」モデルを含んだ追加的な文脈依存の単音モデルも与え、これは、特定の他の単音タイプが先行及び／又は後続するとき、各単音タイプを表す。ＨＭＭ認識器２０３は、休止単音をも含み、これは、音声中にワード間で発生する休止をモデル化する。文脈依存及び休止単音モデルを含む単音モデルは、ＨＭＭ認識器２０３内で音響モデル３０５を形成する。
音声ＨＭＭの各状態は、その状態にあるとき生成された音響特徴の関連確率分布を有する。（これらの出力分布は、遷移ブランチに関連しているように、文献中に代替的ではあるが等価的に記載されている。）出力分布は、文献中に記載されているように、ガウシアン分布、又はガウシアン分布などの重き付き混合であり得る。特定実施態様のＨＭＭ認識器２０３では、ガウシアン分布の重み付き結び混合（weighted tied mixtures）である出力分布が使用される。重み付き結び混合は、音声認識の技術においては公知である。特定実施態様のＨＭＭ認識器２０３を実現するよう構成され得る標準ＨＭＭ音声認識器は、メンロパーク（Menlo Park）、カリフォルニア、ＳＲＩ InternationalによるDECIPHERシステムである。
マルコフモデルにおける各遷移ブランチは、ブランチのソース状態からそのデスティネーション状態に遷移する確率を示す遷移確率を有する。所与の任意状態からの全遷移確率は、自己遷移確率を含めて、合計が１になる。
音声ＨＭＭにおける全ての状態に対する出力及び遷移確率分布は、前方−後方（Baum-Welch）アルゴリズムを含んだ標準ＨＭＭ訓練アルゴリズム及び技術を用いて、訓練音声データから設定される。このような訓練が実行され得る標準ＨＭＭベース音声認識器は、メンロパーク、カルフォルニア、ＳＲＩ InternationalによるDECIPHERシステムである。
本発明により、入力音声１０７にある口頭ワードシーケンスを含むために、訓練音声は必要とされない。入力音声１０７にある口頭ワードシーケンスからの個々のワードを含むためにさえ、これらの訓練音声は必要とされない。
辞書３０７は、言語におけるワードのカタログであり、各ワードを構成するコンポーネント単音タイプを定める。本発明の幾つかの実施態様では、辞書３０７は、各ワード内での単音タイプから単音タイプへの任意に割り当てられた遷移確率をも含む。文法３０９は、言語において許容されるワード対ワードの遷移を規定する。特定実施態様の文法３０９は、それぞれのワード対間の文脈フリーなワード対ワードの遷移確率を特定する「バイ−グラム（bi-gram）」である。また、文法３０９により、ワード間の選択休止単音が、音声中にワード間の可能な休止をモデル化することができる。文法３０９により、休止単音がスキップされ得る。文法３０９は、出力されたいずれの音響特徴にも対応しない遷移弧としてスキップを与える。
文法３０９と辞書３０７は共に、単音間の許容されうるリンク、従って、許容されうるワード及び文を特定する文法ネットワーク３１０を形成する。文法、辞書、及び文法ネットワークは、ＨＭＭ音声認識器の公知要素である。文法ネットワーク３１０と単音音響モデル３０５は、音声モデル１１７（図１）の一部を形成する。
全ての単音モデル３０５に加えて辞書３０７及び文法３０９は、巨大な仮想ネットワークと考えることができ、「ＨＭＭ」又は「認識ＨＭＭ」と称される。ＨＭＭ認識器２０３は、ＨＭＭ内の状態を通る経路を通過することにより生成されたような話されたあらゆる文をモデル化する。一般に、音響特徴のフレームは、この経路に沿って各時間ステップにて生成される。（しかしながら、例えば「スキップ」遷移のような幾つかの状態遷移は、時間を要さず、出力を生成しない。）経路は、通過された状態のシーケンスを識別する。経路は、シーケンスの各状態での消費時間の音長も識別し、それにより、文中の各単音及び各ワードの時間−音長を定める。別言すれば、経路は、ＨＭＭの対応する状態シーケンスに対するフレーム１１１のシーケンスの「整列（alignment）」を規定する。
図３では、ＨＭＭ音声認識器２０３は、単にその音声認識の通常の目的のためだけでなく、音声を成分単音に時間−セグメント化するためにも動作する。図３では、ＨＭＭ認識器２０３は、音響特徴１１１を受け入れる。ＨＭＭ認識器２０３は、単音音響モデル３０５、辞書３０７、及び文法３０９により特定される隠れマルコフモデル（ＨＭＭ）を含む。ＨＭＭ認識器２０３内のＨＭＭ検索エンジン３１１は、最尤経路３１３を計算する。
最尤経路は、隠れマルコフモデルを通る経路であり、ユーザーの音声から抽出される音響特徴シーケンス１１１を発生する最尤度を有する。最尤経路３１３は、通過された状態シーケンス３１４と各状態で費やされた時間の音長３１５を含む。最尤経路３１３は、単音シーケンスへの音響特徴の音響セグメンテーション２０５を定める。特定実施態様の音響セグメンテーション２０５は、時間境界（及び／又は音長）及び単音シーケンスの単音タイプラベルを含んだ経路情報３１３の部分集合である。図１及び図２に関して上記説明したように、本発明は、音響セグメンテーション２０５からの音長情報を用いて、発音の質を評価する。
ＨＭＭ検索エンジン３１１は、周知のヴィテルビ検索方法を用いる標準枝刈りＨＭＭ検索アルゴリズムに従って、その音声ＨＭＭを通る最尤経路を計算する。このＨＭＭ検索アルゴリズムは、例えば援用引用された技術や文献の他のところに記載されている。ヴィテルビアルゴリズムは、他の多くの文献、例えばＧ．Ｄ．Forney,Jr.による「ヴィテルビアルゴリズム（The Viterbi algorithm）」、Ｐｒｏｃ．ＩＥＥＥ、ｖｏｌ．６１，２６８〜２７８頁、１９７３年にも記載されている。
特定実施態様では、話者１０５からの口頭ワードのシーケンスは、発音評価システム１０１により事前に知り得る、又は知り得ない。もし口頭ワードシーケンスが事前に知られてないならば、ＨＭＭ認識器２０３は、音響セグメンテーション２０５に加えて、他に使用するために認識されたワードシーケンス３１７を出力する。例えば、認識されたワードシーケンス３１７は、特定実施態様に含まれる対話型言語教育システムにより使用され得る。この言語教育システムは、認識されたワードシーケンスの意味を決め、認識されたワードシーケンス３１７が、現在行われているレッスンに関して正しくかつ適切な発話であるか否かを決める。
もし口頭ワードシーケンスが事前に知られているならば、その既知のワードシーケンス３１９は、ＨＭＭエンジン３１１に送られ、ＨＭＭを通る可能な経路を劇的に制約する。この既知のワードシーケンス３１９は、文法ネットワーク３１０の一部を形成する付加情報を表す。例えば、言語教育システムは、話者１０５が既知のスクリプトを読むことを要求しているので、口頭ワードのシーケンスは、事前に知られ得る。追加的な制約として既知ワードシーケンス３１９を使用することにより、認識及びセグメンテーションのエラーを低減でき、また、ＨＭＭエンジン３１１により要求される計算量も低減できる。
図４は、本発明によるサンプル入力音声１０７に対する最尤経路３１３の一部を描いた図である。入力音声１０７は、その構成ワード４０３から構成され、これらは構成単音２０５に分類され、これらはそれら自身構成状態４０５に分類される。構成単音２０５は、各単音の音長を特定する情報はもとより単音タイプラベル４０７も含む。
ＩＶ．音響特徴を用いた発音のスコアー化
図５は、本発明の実施態様によるシステム１１３のブロック図であり、これは、音響単位音長よりもむしろ音響特徴１１１自身に直接基づいて音響スコアー１１５を計算する。
図５では、音声セグメンター２０３は、音響特徴１１１のシーケンスを受け入れ、それらから音響セグメントを特定する時間−セグメンテーション２０５を生成する。音響スコアラー５０３は、音響セグメンテーション２０５を受け入れ、また、音響特徴１１１のシーケンスも受け入れる。音響スコアラー５０３は、音響セグメンテーション２０５を用いて音響特徴１１１のシーケンスにインデックスを付ける。この様に、音響スコアラー５０３は、各音響セグメントに対応する音響特徴フレームを得る。
音響スコアラー５０３は、音響セグメントの音響特徴フレームを模範音響特徴フレームのモデル５０５と比較する。モデル５０５は、模範話者からの訓練音声を用いて設定された。この比較に基づいて、音響スコアラー５０３は、図１の発音スコアー１１５として音響スコアー１１５を計算する。音響モデル５０５は、図１の音声モデル１１７の一部を形成する。
図３に関して説明したように、本発明の特定の音響−スコアー化実施態様では、音声セグメンター２０３は、単音内の音響特徴１１１のシーケンスの音響セグメンテーション２０５を生成するＨＭＭ認識器２０３である。これらの特定実施態様の音響モデル５０５は、各単音タイプに対して音響特徴フレームの分離したモデルを含む。好適実施態様では、これらのモデルは、セグメンテーションのために使用されるＨＭＭ認識器２０３からのＨＭＭモデルである。
ＩＶ．Ａ．単音の対数事後確率スコアー
特定の音響−スコアー化実施態様では、単音タイプｑに対応する分離モデルの各々は、文脈独立の確率密度ｐ（ｙ｜ｑ）であり、ここで、変数ｙは音響特徴フレームを表す。音響スコアラー５０３は、単音タイプｑ_iの単音ｉ内での各フレームｙ_tに対して、観測された音響特徴フレームｙ_tが与えられた単音ｉのタイプのフレームベース事後確率Ｐ（ｑ_i｜ｙ_t）を次式により計算する。

ここで、ｐ（ｙ_t｜ｑ_i）は、単音タイプｑ_iに対応する分布に従ったフレームｙ_tの確率である。ｑに関する総和は、全ての単音タイプに亘って取られる。Ｐ（ｑ_i）は、単音タイプｑ_iの事前確率を表す。
特定実施態様の音響スコアラー５０３は、音響セグメンテーション２０５により定められる各単音ｉに対して、単音の事後スコアーρ_iを計算する。各単音ｉの単音事後スコアーは、単音ｉ内の全フレームのフレームベース事後確率Ｐ（ｑ_i｜ｙ_t）の対数平均である。各単音ｉの単音事後スコアーρ_iは、次式のように表し得る。

ここで、総和は、単音ｉの全ｄ_iフレームに亘って取られる。
特定実施態様の音響スコアラー５０３は、各単音ｉの単音事後スコアーρ_iの平均として、全体の発話に対する音響スコアー１１５ ρを次式により計算する。

ここで、総和は、発話内の単音数Ｎに亘って取られる。この音響スコアー１１５ρは、音響事後確率ベースのスコアーの一例である。
音響事後確率ベースのスコアー１１５ ρは、特定の話者の特徴又は音響チャンネルの変動を原因とするスペクトル一致（match）における変化により受ける影響を潜在的に少なくするように設計される。音響一致における変化は、表式（９）におけるのと同様に分子と分母の両方に影響を与えがちであり、それにより、音響スコアー１１５をそれらの変化に対してより不変にし、音声の質にさらに焦点が当てられる。
特定実施態様では、音響スコアラー５０３は、文脈独立隠れマルコフ単音モデルからの分布を用いて表式（９）に示された文脈独立確率密度ｐ（ｙ｜ｑ）の各々を計算する。表式（９）の分子において、Ｐ（ｙ_t｜ｑ_i）は、フレームｙ_tが単音タイプｑ_iのＨＭＭにおいて整列したＨＭＭ状態の出力分布を評価することにより計算される。表式（９）の分母中の全単音タイプに亘る総和は、各単音タイプの文脈独立ＨＭＭ内での最もありそうなＨＭＭ状態（フレームｙ_tに対して）の出力分布を用いて計算される。
特定実施態様では、各単音タイプｑのＨＭＭ内の各状態の出力分布は、ガウシアン分布の重み付けされた混合である。対角共分散（すなわち、共分散行列において非対角エントリがゼロに制約されている）を有する約１００個のガウシアン分布を用いると、良い結果が得られた。ガウシアン分布内のパラメータ値は、模範話者から収集された訓練音声データから標準推定技術を用いて設定される。
第１の代替の音響−スコアー化実施態様では、表式（９）の変形に従って文脈依存事後確率が計算される。この実施例では、表式（９）は、次の近似式により置換される。

ここで、ｃｔｘ_iは単音ｉの文脈クラス、すなわち、セグメンターＨＭＭ２０３により求められるような単音ｉの直前及び直後の単音の単音タイプを表す。
分子の項ｐ（ｙ_t｜ｑ_i，ｃｔｘ_i）が、フレームｙ_tが文脈依存（すなわち三−単音）ＨＭＭ単音モデルにおいて整列したＨＭＭ状態の出力分布から計算されるという点において、表式（１２）は、表式（９）と異なる。この項は、文脈ｃｔｘ_i内の単音タイプｑ_iが与えられたフレームｙ_tの出力すなわち「放出（emission）」確率である。分母は、特定実施態様のように、文脈独立単音に亘って取られる総和をなお使用する。
事後スコアーρ_iは、文脈依存スコアーρ’_iにより置換（近似）される。この文脈依存スコアーρ’_iは、セグメントのフレーム全てに亘る、フレームベース単音文脈依存事後確率の対数平均として次式により定義される。

ここで、ｄ_iは、単音ｉのフレームにおける音長である。
計算はさらに単純化され得る。すなわち、表式（１２）を用いて表式（１３）を次式により拡張する。

表式（１４）の第１項は、セグメンテーションに使用されるＨＭＭ認識器２０３から得られる最尤経路３１３に沿ったフレーム毎の対数確率により次式のように近似し得る。

表式（１２）の分子を計算するのに使用される文脈依存モデルは、テスト文に現れるとき包囲する単音の特定音声文脈における所与の単音タイプの現実を掴まえるので、文脈独立のものよりもより精密なモデルである。さらに、もし計算の近似法が使用されるならば特に、文脈依存スコアーは、文脈独立スコアーよりもより速く計算し得る。このことは事実である。というのは、文脈依存スコアーの成分の多くが、セグメンテーションに使用されるＨＭＭ認識器２０３の操作から既に存在しているからである。
表式（１０）において、表式（１２）により作られる文脈依存事後確率が、表式（９）により作られる文脈独立事後確率と代用される場合を除いて、単音及び文に対するスコアーは、特定実施態様と同様に計算される。
第２の代替の音響−スコアー化実施態様は、特定実施態様に類似しているが、音響スコアラー５０３は、文脈独立単音の部分集合のみに亘って総計することにより、表式（９）の分母を計算する。このことにより、計算が低減され、音響スコアーに同様の標準化効果を与えることができ、しかも、音響スコアーの有用性はほとんど低下させない。使用される単音は、音響空間のほとんどをカバーするべく選択される（すなわち、大きく非類似のサウンドが選ばれる）。
第３の代替の音響−スコアー化実施態様では、音響スコアラー５０３は、多層パーセプトロン（ＭＬＰ）を用いることにより直接的にフレームベース事後確率ｐ（ｑ_i｜ｙ_t）を発生する。多層パーセプトロンは、模範訓練データ上に強制された（すなわち、既知スクリプト制約された）整列を用いて訓練される。訓練手順は、標準逆伝搬管理訓練スキーム（standard backpropagation supervised training scheme）である。
訓練中、現在のフレーム−−及び適宜その包囲音響文脈フレーム−−は、所望の出力と共にＭＬＰの入力に与えられる。任意のフレームに対する所望の出力は、１オブＮ（1-of-N）ターゲットである（ターゲット１が、正しい単音タイプに対応する出力に設定され、ターゲット０がその他の出力に使用される）。相対エントロピー又は最小二乗誤差訓練基準を用いると、出力は、フレームベース事後確率ｐ（ｑ_i｜ｙ_t）に収束することが知られている。
ＭＬＰは当該技術では周知であり、例えば、Nelson Morgan及びHerve Bourlardによる「連続音声認識：ハイブリッドＨＭＭ−コネクショニストアプローチ（Continuous Speech Recognition: An introduction to the Hybrid HMM-Connectionist Approach）」、IEEE Signal Processing Magazine、Ｖｏｌ．１２、Ｎｏ．３、１９９５年５月、２５〜４２頁、に記載されており、これは、ここに文献として援用される。
表式（１０）において、ＭＬＰベース事後確率がＨＭＭ導出事後確率の代わりに使用されるのを除いて、単音及び文に対するスコアーが、特定実施態様と同様に計算される。
第４の代替の音響−スコアー化実施態様では、音響スコアラー５０３は、音響事後確率ベースのスコアーも発生する。しかしながら、表式（９）によりフレームベース事後確率を発生するよりもむしろ、音響スコアラー５０３は、単音ベース事後確率を直接発生する。この実施態様では、音響スコアラー５０３は、ＨＭＭエンジンを含む。音響スコアラー５０３は、ＨＭＭエンジンを操作し、ヴィテルビアルゴリズムを用いてあらゆる単音タイプｑの隠れマルコフ単音モデルに対して、単音ｉに対応する学生音声サンプルのフレームＹ_iの整列を発生する。音響スコアラー５０３は、音声認識の技術において公知の標準ＨＭＭバックトレース技術を用いて、単音タイプｑのＨＭＭに対する各整列用の音声Ｙ_iの音響対数尤度、ｌｏｇｐ（Ｙ_i｜ｑ）を計算する。これらの対数尤度を用いて、音響スコアラー５０３は、単音ｉに対する事後対数確率スコアーを次式により計算する。

音響スコアラー５０３は、発話全体の音響スコアー１１５ ρを、発話内の各単音ｉの単音事後スコアーρ_iの平均として表式（１１）に従って計算する。
ＩＶ．Ｂ．単音の対数尤度スコアー
代替の音響−スコアー化実施態様では、音響スコアラー５０３は、ＨＭＭ対数尤度を用い、尤度ベース発音スコアー１１５Ｌを導出する。模範話者から得られたＨＭＭを用いてヴィテルビアルゴリズムにより計算された音声データの尤度の対数は、模範音声と学生の音声の間の類似性（又は一致）の良い測度であることが仮定される。音響スコアラー５０３は、各単音に対して標準化された対数尤度ｌ’_iを次式により計算する。

ここで、ｌ_iは、単音ｉに対応する対数尤度であり、ｄ_iは、フレーム数で表したその音長である。単音の音長による標準化とは、対数尤度スコアー上へのそれらの効果の増強を短い音長の単音に与えることである。このことは、さもなければ、より長い単音により支配される。
音響スコアラー５０３は、発話全体の尤度ベーススコアー１１５Ｌを、各単音ｉに対する個々の標準化対数尤度スコアーｌ’_iの平均として次式により計算する。

ここで、総和は、発話内の単音数Ｎに亘って取られる。
Ｖ．スコアーの結合及び人間グレードへの写像
図６は、本発明の実施態様により異なるタイプの発音スコアーを結合するシステムのブロック図である。スコアーを結合することにより、各スコアー自身を用いるのと比較して全体として評価性能が向上する。
図６では、複数の発音スコアー１１５が、単一の発話の音響特徴１１１に対して計算される。これらのスコアーは、単音音長スコアー１１５、音節音長スコアー１１５、及び音響事後確率ベーススコアー１１５を含み、これらは既に別々に説明された。これらのスコアーは、３つの別々のスコアラー１１３により発生されるものとして示される。実際の実行においては、３つの別々のスコアラー１１３は、例えば音響セグメンター２０３（図２及び図５）のような多くの共通コンポーネントを共用する。
スコアー−グレード写像器１１９は、異なるスコアー１１５を受け入れ、これらのスコアー１１５に写像関数６０３を適用して単一のグレード１２１を導出する。
図７は、図６の写像関数６０３を作るためのシステム７０１のブロック図であり、１以上のタイプの機械スコアーを、人間聴者により生成され得る発音グレードに写像する。図７では、機械スコアー７０３は、訓練音声データの発展セットにおいて発話に対して発生される。人間発生スコアー７０５も、発展セットにおいて発話に対して収集される。発展セットは、熟達レベルを変える話者からの音声を含むようにアセンブルされる。
写像アナライザー７０７は、機械スコアー７０３及び対応する人間グレード７０５を処理し、スコアー−グレード写像６０３を発生する。
本発明の一実施態様では、写像アナライザー７０７は、線形回帰を使用し、各発話に対する２以上の機械スコアー（ｍ₁，．．．，ｍ_n）及びバイアス項を線形結合し、対応する人間スコアーｈを次式により近似する。

線形係数λ_jとバイアス項λ₀は、発展セットの発話に対する予測スコアー及び実際の人間スコアー間の平均二乗を最小にするべく最適化される。
本発明の別の実施態様では、写像アナライザー７０７は非線形回帰を用いる。結合されるべき機械スコアー７０３は、ニューラルネットワーク６０３への入力であり、ニューラルネットワーク６０３は、複数の機械スコアー７０３とその対応する人間スコアー７０５の間の写像を行う。写像アナライザーは、ターゲットとして実際の人間スコアー７０５を使用してニューラルネットワーク６０３内のパラメータを設定する。ネットワークは、１つの線形出力ユニットと１６個のＳ字状（sigmoidal）隠れユニットを有する。写像アナライザーは、訓練データの約１５％にクロス検証技術（cross-validation）を使用し、標準逆伝搬技術を用いてニューラルネットワークを訓練する。訓練は、クロス検証技術セット上で性能が低下すると、停止される。
本発明の別の実施態様では、写像アナライザー７０７は、測定された機械スコアーｍ₁，．．．，ｍ_nが与えられた実際の人間スコアーｈの条件付き期待値として予測人間スコアーｈ’を定める写像６０３を次式により計算する。

期待値を計算するためには、条件付き確率Ｐ（ｈ｜Ｍ₁，．．．，Ｍ_n）が必要とされる。写像アナライザー７０７は、この条件付き確率を次式により計算する。

ここで、分母の総和は、Ｇ個の可能なグレード全てに亘って取られ、Ｐ（ｈ）は、グレードｈの前の確率であり、条件付き分布は、機械スコアーのスカラー又はベクトル量子化に基づいた離散分布により近似的にモデル化される。量子化において使用されるビン（bin）数は、利用可能な訓練データ量により決められる。利用可能なデータが増えれば、より多くのビンが使用できる。
本発明のさらに別の実施態様では、写像アナライザー７０７は、決定木（decision tree）又は代替としてクラス確率木を使用する。
結合されるべき機械スコアーは、機械スコアー７０３とその対応する人間スコアー７０５間の写像を行う木への入力である。写像アナライザーは、当該技術で公知の決定木構築用アルゴリズムに従って、ターゲットクラスとして実際の人間スコアーを使用して、決定木（又は代替としてクラス確率木）内のパラメータを設定する。人間ターゲットの離散セットは、クラスとして定められ、これらのクラスは、入力機械スコアーをクラス化する決定又はクラス確率木により使用される。
ＶＩ．クライアント−サーバー環境での言語教育
図８は、言語教育のための分散システム８０１のブロック図であり、発音の質を評価する。図８では、リモートクライアントプロセッサー８０３は、クライアント処理を行う。クライアント処理は、学生１０５にプロンプトを示すソフトウエアー命令を実行する。それに応答して、学生１０５はマイクロフォン８０５に話す。さらに説明されるように、システム８０１は、発音評価器（図１にのみ１０１として示される）を含む。マイクロフォン８０５は、発音評価器の音声入力装置（図１にのみ１０３として示される）の少なくとも一部を形成する。
図８の一実施態様では、クライアント処理は、コンピューターディスプレイ８０７を使用してプロンプトを与える。プロンプトの一タイプは、学生１０５により読まれるよう表示されたスクリプトである。クライアント処理が、以前の発音評価システムより優れている点は、上記説明したように、それが、訓練データの無い又は不完全な訓練データしかないようなワードを含むスクリプトも使用できることである。これらのスクリプトは、システム８０１による実行中に動的に発生されたスクリプトを含む。クライアント処理が言葉の発話を引き出す別の新しい方法は、上記説明したように、どんなスクリプトを読むこともせずに、学生１０５が自然に答えるような自由形式（open-ended）の質問をすることである。よって、本発明によるシステム８０１により、発音評価のためのユニークなワードシーケンスを仮想的に無尽蔵にすぐに利用可能なように供給できる。
別の実施態様では、ディスプレイ８０７は、例えばスクリプトや質問のようなオーディオプロンプトを与えるスピーカー８０９により置換又は補完される。
ローカルサーバープロセッサー８１１は、サーバー処理を行い、これは、例えばローカルエリアネットワークやインターネットなどのようなネットワーク８１３を介してクライアントプロセッサー８０３上で実行されている言語教育レッスンを制御する。一実施態様では、サーバー処理は、動的に制御情報を送ることによりレッスンを制御し、この制御情報は、プロンプトが学生１０５に与えられる直前に例えばスクリプトや質問のような個々のプロンプトを含む又は特定する。別の実施態様では、サーバー処理は、制御情報をダウンロードすることによりより緩やかにレッスンを制御し、この制御情報は、クライアントプロセッサー８０３のローカル記憶８１５にて個々のレッスンに対するソフトウエアー（例えば、ＪＡＶＡ言語ソフトウエアー）を含み、このローカル記憶８１５は、ＲＡＭやハードディスクなどを含む。その後、クライアントプロセッサー８０３は、サーバープロセッサー８１１からの直接の管理がより少ない状況下で、レッスンソフトウエアーを実行する。
本発明の幾つかの実施態様では、サーバープロセッサー８１１は、発音評価器の最終ステージを含み、これは、学生の発音の評価グレードを発生する。このような一実施態様では、マイクロフォン８０５は、クライアントプロセッサー８０３に連結され８１７、音声を伝える。クライアント処理は、ネットワーク８１３を通じて学生音声サンプルをオーディオ受信器処理に中継し、このオーディオ受信器処理は、サーバー処理と関連して動作し、発音評価を要求する。オーディオ受信器処理は、サーバープロセッサー８１１上で行われる。
他のこのような実施態様では、マイクロフォン８０５は、クライアント処理の直接の制御下にない別のチャンネル８１９を通じて、学生音声サンプルをサーバー処理に中継する。これらの実施態様の一つにおける別チャンネル８１９は、例えば電話チャンネルのような物理的に分離したチャンネルである。これらの実施態様のうち別のものでは別チャンネル８１９は、仮想チャンネルである。これは、たとえクライアント−サーバー接続により共有された物理ラインをも使用して実行されていても、サーバー処理に対しては別チャンネルであるように見える。例えば、仮想チャンネルは、デジタル同時ボイスアンドデータ（Digital Simultaneous Voice and Data：ＤＳＶＤ）モデムのオーディオ仮想チャンネルを用いて実現し得る。このモデムのデータ仮想チャンネルは、クライアント−サーバー通信を扱う。
別の実施態様では、発音評価器（図１）はサーバープロセッサー８１１上には設けられない。代わりに、評価器は、クライアントプロセッサー８０３かどこかに設けられる。従って、発音評価は、音声サンプルをサーバー処理に送る必要性がなく、クライアント処理により制御される。これらの実施態様では、サーバープロセッサー８１１の計算リソースは、レッスンを制御することのみ必要であるので、浪費されない。この様に、サーバープロセッサー８１１は、マルチタスクにて同時に非常に多くのレッスンを制御できるようになる。
上述のように、クライアント処理とサーバー処理は、ネットワーク８１３を介して接続された別々のプロセッサー８０３及び８１１上で動作する。しかし、一般には、クライアント処理とサーバー処理は、マルチタスクにて単一のプロセッサー上で動作できる。
ここでは、本発明が特定の実施態様に関して説明されてきた。他の実施態様も、上記説明により当業者には明らかであろう。例えば、新聞広告として書かれたガイドブックや他の視覚又は聴覚形式のようなオフライン手段を介して、予め選ばれたスクリプトをユーザーに届けることができる。従って、添付請求の範囲により示されたものを除いて、この発明は制限されるものではない。
以下に、本発明の１組の実施態様を示す。
（１）自動音声処理システムにおいてコンピューター化音響セグメンテーションシステムを用いて学生音声サンプルの発音を評価するための方法であって、
学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入れる工程、
前記コンピューター化音響セグメンテーションシステムを操作し、前記セグメンテーションシステム内の音声音響モデルに基づいて前記学生音声サンプル内のサンプル音響単位を定める工程であって、前記音声音響モデルは、少なくとも１人の話者からの訓練音声データを用いて設定され、前記訓練音声データは、前記口頭ワードシーケンスを必ずしも含まない、前記工程、
前記サンプル音響単位の音長を測定する工程、及び
サンプル音響単位の前記音長を模範音響単位の音長モデルと比較し、前記サンプル音響単位音長と模範音響単位音長の間の類似性を示す音長スコアーを計算する工程、
を含む方法。
（２）前記模範音響単位の音長モデルが、少なくとも１人の模範話者からの音長訓練音声データを用いて設定され、前記音長訓練データは、前記口頭ワードシーケンスを必ずしも含まない、（１）に記載の方法。
（３）各音響単位は、前記口頭ワードの言語における最長ワードよりも音長が短い、（１）に記載の方法。
（４）前記音長スコアーをグレードに写像する工程、及び
前記グレードを学生に提示する工程
をさらに含む、（１）に記載の方法。
（５）前記音長スコアーをグレードに写像する工程が、
種々の熟達レベルの複数の言語学生から１セットの訓練音声サンプルを収集する工程、
前記訓練音声サンプルの各々に対して、訓練音長スコアーを計算する工程、
前記訓練音声サンプルの各々に対して、人間グレーダーから少なくとも１つの人間評価グレードを収集する工程、及び
前記人間評価グレードと前記訓練音長スコアーの間のエラー測定を最小にすることにより、写像において使用される係数を調節する工程、
を含む、（４）に記載の方法。
（６）写像工程が、
単独又は他の機械スコアーと結合された訓練音長スコアー、及び対応する人間評価グレードから、線形又は非線形回帰により得られる写像関数を用いる工程、を含み、
前記スコアーとグレードの全てが、学生音声の代表的訓練データベースに亘って収集される、（４）に記載の方法。
（７）前記写像関数が、ニューラルネットで実現される非線形回帰により得られ、このニューラルネットにより、機械スコアーから人間エキスパートグレードへの任意の写像が可能になる、（６）に記載の方法。
（８）写像工程が、パラメータが訓練音長スコアーを用いて設定された決定木又はクラス確率木を用いる工程を含む、（４）に記載の方法。
（９）前記音響セグメンテーションシステムを操作する工程が、
前記音声音響モデルから訓練された隠れマルコフモデル（ＨＭＭｓ）を通る経路を計算する工程であって、前記経路は、前記学生音声サンプルから観測された音響特徴シーケンスを発生する最尤度を有し得るＨＭＭｓを通る許容経路である前記工程、及び
前記経路から１音響単位の少なくとも１つの境界又は音長を決める工程、
を含む、（１）に記載の方法。
（１０）前記口頭ワードシーケンスが、既知スクリプトに従って話され、そして、
経路計算工程が、ＨＭＭｓを通る任意経路の許容度を定める際に前記スクリプトを使用する工程を含む、（９）に記載の方法。
（１１）前記口頭ワードシーケンスが未知であり、経路計算工程が、前記口頭ワードシーケンスを決めるコンピューター化音声認識システムを操作する工程を含む、（９）に記載の方法。
（１２）前記サンプル音響単位が音節であり、そして
少なくとも１つの音響単位の境界又は音長を決める工程が、
前記経路から少なくとも２つの単音の境界又は音長を抽出する工程、及び
少なくとも２つの単音の部分を結合し、音節音響単位の境界又は音長を得る工程、
を含む、（９）に記載の方法。
（１３）少なくとも２つの単音の部分を結合する工程が、前記単音から母音単音の中心間の時間差を測定して音節音響単位の音長を得る工程を含む、（１２）に記載の方法。
（１４）前記サンプル音響単位が単音である、（１）に記載の方法。
（１５）前記サンプル音響単位が音節である、（１）に記載の方法。
（１６）前記模範音響単位の音長分布モデルが、話者標準化された音響単位の音長モデルであり、音長測定工程が、
前記学生音声サンプルを分析し、学生話者標準化係数を決める工程、及び
前記学生話者標準化係数を用い、前記測定されたサンプル音響単位音長として話者標準化音長を測定する工程、
を含み、それにより、比較工程が、前記話者標準化されたサンプル音響単位の音長を、前記模範話者標準化された音響単位の音長分布モデルと比較する、（１）に記載の方法。
（１７）前記学生話者標準化係数が、音声速度である、（１６）に記載の方法。
（１８）前記セグメンテーションシステムを操作する工程が、分析からサイレンスを有する文脈内の音響単位を除外する、（１）に記載の方法。
（１９）前記セグメンテーションシステムを操作する工程が、前記音響セグメンテーションシステムとして音声認識システムを操作する工程を含む、（１）に記載の方法。
（２０）学生音声サンプルの発音を評価するためのシステムであって、前記学生音声サンプルは、学生話者による口頭ワードシーケンスから成り、該システムは、
少なくとも１人の話者からの訓練音声データを用いて設定された音声音響モデルであって、前記訓練音声データは、前記口頭ワードシーケンスを必ずしも含まない前記モデル、
前記音声音響モデルに基づいて前記学生音声サンプル内の音響単位を識別するよう構成されたコンピューター化音響セグメンテーションシステム、
前記サンプル音響単位の音長を測定するよう構成された音長抽出器、
模範音響単位の音長モデル、及び
前記サンプル音響単位の音長を模範音響単位の前記音長モデルと比較し、前記サンプル音響単位の音長と模範音声内の音響単位の音長の間の類似性を示す音長スコアーを計算するように構成された音長スコアラー、
を含むシステム。
（２１）自動音声処理システムにおいて、学生音声サンプルの発音をグレード付けするための方法であって、
学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入れる工程、
１セットの訓練された音声モデルを操作し、前記音声サンプルから少なくとも１つの事後確率を計算する工程であって、前記事後確率の各々は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率である前記工程、及び
前記事後確率から前記学生音声サンプルに対する発音の質の評価スコアー（ここでは事後ベース評価スコアーという。）を計算する工程、
を含む方法。
（２２）前記事後確率の各々は、前記特定既知モデルが前記学生音声サンプルの前記特定部分を発生した尤度を、個々のモデルが前記音声サンプルの前記特定部分を発生した尤度の総和で除することにより、モデル尤度から導出される、（２１）に記載の方法。
（２３）前記特定の既知モデルが、文脈依存モデルであり、そして
前記個々のモデルが、文脈依存又は文脈独立モデルである、（２１）に記載の方法。
（２４）前記訓練された音声モデルが、１セットの単音モデルを含み、
前記学生音声サンプルが、単音を含み、そして
前記音声モデルを操作する工程が、単音タイプｑ_iの単音ｉ内の各フレームｙ_tに対するフレームベース事後確率を次式

により計算する工程を含み、ここで、ｐ（ｙ_t｜ｑ_i，．．．）は、単音タイプｑ_iに対応するモデルに従ったフレームｙ_tの確率であり、
ｑについての総和は、全単音タイプに亘って取られ、そして
Ｐ（ｑ_i）は、単音タイプｑ_iの事前確率を表す、
（２１）に記載の方法。
（２５）フレームベース事後確率を計算する工程が、分子中の各単音タイプｑ_iに対応する文脈依存モデルを使用し、それにより、前記ｐ（ｙ_t｜ｑ_i，．．．）は、文脈依存尤度ｐ（ｙ_t｜ｑ_i，ｃｔｘ_i）であり、ここで、ｃｔｘ_iは、文脈を表す、（２４）に記載の方法。
（２６）前記学生音声サンプルに対して前記事後ベース評価スコアーを計算する工程が、前記単音ｉ内の全フレームのフレームベース事後確率の対数平均を単音ｉに対して計算する工程を含み、前記平均は、ここでは単音スコアーρ_iと称し、これは、次式

により表され、ここで、総和は、前記単音ｉの全てのｄ_iフレームに亘って取られる、（２４）に記載の方法。
（２７）前記学生音声サンプルに対する前記事後ベース評価スコアーが、前記学生音声サンプル内の各単音ｉに対する個々の単音スコアーρ_iの平均として次式

により定義され、ここで、総和は、前記学生音声サンプル内の単音数に亘って取られる、（２６）に記載の方法。
（２８）各単音タイプに対応するモデルが、ガウシアン混合単音モデルである、（２４）に記載の方法。
（２９）各単音タイプに対応するモデルが、文脈独立単音モデルである、（２４）に記載の方法。
（３０）各単音タイプに対応するモデルが、隠れマルコフモデルである、（２４）に記載の方法。
（３１）前記音声サンプルの前記特定部分が単音である、（２２）に記載の方法。
（３２）前記事後ベース評価スコアーを、人間聴者により割り当てられ得るようなグレードに写像する工程、及び
前記グレードを前記学生話者に提示する工程、
をさらに含む、（２１）に記載の方法。
（３３）前記事後ベース評価スコアーをグレードに写像する前記工程が、
種々の熟達レベルの複数の言語学生から１セットの訓練音声サンプルを収集する工程、
前記サンプルを聞く人間エキスパート聴者から、前記訓練サンプルの各々に対する１セットの人間評価グレードを収集する工程、及び
人間エキスパートグレードと前記評価スコアーの間の二乗誤差を最小にすることにより、写像で使用される係数を調節する工程、
を含む、（３２）に記載の方法。
（３４）前記学生音声サンプルが、音響特徴シーケンスから成り、
前記音声音響モデルから１セットの訓練された隠れマルコフモデル（ＨＭＭｓ）を通る経路を計算する工程であって、前記経路は、前記音響特徴シーケンスを発生する最尤度を有し得るＨＭＭｓを通る許容経路である前記工程、及び前記経路内の単音間の遷移を識別し、それにより単音を定める工程、
をさらに含む、（２１）に記載の方法。
（３５）経路計算工程が、ヴィテルビ検索技術を用いて実行される、（３４）に記載の方法。
（３６）前記口頭ワードシーケンスが未知であり、経路計算工程が、前記口頭ワードシーケンスを決めるコンピューター化音声認識システムを用いて実行される、（３４）に記載の方法。
（３７）サイレンスを有する文脈中のセグメントは、前記学生音声サンプルから、及び前記音声モデルを訓練するのに使用される訓練データから除外される、（２１）に記載の方法。
（３８）学生音声サンプルの発音を評価するためのシステムであって、前記学生音声サンプルは、学生話者による口頭ワードシーケンスから成り、該システムは、
模範音声の訓練された音声音響モデル、及び
前記訓練された音声モデルを用いて前記音声サンプルから少なくとも１つの事後確率を計算するように構成された音響スコアラーであって、前記音響スコアラーは、前記事後確率から前記学生サンプルの発音の質の評価スコアーを計算するようにも構成され、前記事後確率の各々は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率である前記音響スコアラー、
を含む、システム。
（３９）クライアント／サーバー環境における発音訓練用システムであって、学生にプロンプトを提示し且つ前記プロンプトにより引き出された学生音声を受け入れるためのクライアント処理が存在し、前記システムは、
制御情報を前記クライアント処理に送り、前記学生に提示されるプロンプトを指定し、且つ、前記提示されたプロンプトにより引き出された前記学生音声から導出される音声サンプルを受け取るサーバー処理、並びに
前記学生音声サンプルを分析するための、前記サーバー処理によりインボーカブルな発音評価器、
を含むシステム。
（４０）前記発音評価器が、訓練音声データを用いて設定され、そして
前記サーバー処理は、プロンプトを指定し、前記学生音声サンプルとして前記訓練音声データ内に必ずしも無いワードシーケンスを引き出すように適応される、（３９）に記載のシステム。
（４１）前記サーバー処理が、通信チャンネルとは別の音声チャンネル上で前記音声サンプルを受け取り、前記サーバー処理と前記クライアント処理は、前記通信チャンネルを介して通信する、（３９）に記載のシステム。
（４２）前記クライアント処理と前記サーバー処理が、２つの別々のコンピュータープロセッサー上に配置され、ネットワークを介して通信する、（３９）に記載のシステム。
さらに、本発明の別の１組の実施態様を以下に示す。
（１）自動音声処理システムにおいて、学生音声サンプルの発音をグレード付けするための方法であって、
学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入れる工程、
１セットの訓練された音声モデルを操作し、前記音声サンプルから少なくとも１つの事後確率を計算する工程であって、前記事後確率の各々は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率について、競合モデル及び音声サンプルに対応したモデルを含んだ１セットのモデルに対して標準化した確率である前記工程、及び
前記事後確率から前記学生音声サンプルに対する発音の質の評価スコアー（ここでは事後ベース評価スコアーという）を計算する工程
を含む方法。
（２）前記事後確率の各々は、前記特定既知モデルが前記学生音声サンプルの前記特定部分を発生した尤度を、個々の代替モデルが前記音声サンプルの前記特定部分を発生してしまっている尤度のうち最大のもので除することにより、モデル尤度から導出される、（１）に記載の方法。
（３）前記特定の既知モデルが、文脈依存モデルであり、そして
個々のモデルが、文脈依存又は文脈独立モデルである、（２）に記載の方法。
（４）前記事後ベース評価スコアーを、人間聴者により割り当てられ得るようなグレードに写像する工程、及び
前記グレードを前記学生話者に提示する工程、
をさらに含む、（２）に記載の方法。
（５）前記学生音声サンプルが、音響特徴シーケンスから成り、
前記訓練された音声モデルから１セットの訓練された隠れマルコフモデル（ＨＭＭｓ）を通る経路を計算する工程であって、前記経路は、前記音響特徴シーケンスを発生する最尤度を有し得るＨＭＭｓを通る許容経路である前記工程、及び前記経路内の単音間の遷移を識別し、それにより単音を定める工程、
をさらに含む、（２）に記載の方法。
（６）経路計算工程が、ヴィテルビ検索技術を用いて実行される、（５）に記載の方法。
（７）前記口頭ワードシーケンスが未知であり、経路計算工程が、前記口頭ワードシーケンスを決めるコンピューター化音声認識システムを用いて実行される、（５）に記載の方法。
（８）学生音声サンプルの発音を評価するためのシステムであって、前記学生音声サンプルは、学生話者による口頭ワードシーケンスから成り、該システムは、
模範音声の訓練された音声音響モデル、及び
前記訓練された音声モデルを用いて前記音声サンプルから少なくとも１つの事後確率を計算するように構成された音響スコアラーであって、前記音響スコアラーは、前記事後確率から前記学生サンプルの発音の質の評価スコアーを計算するようにも構成され、前記事後確率の各々は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率について、競合モデル及び音声サンプルに対応したモデルを含んだ１セットのモデルに対して標準化した確率である前記音響スコアラー、
を含む、システム。
（９）クライアント／サーバー環境における発音訓練用システムであって、学生にプロンプトを提示し且つ前記プロンプトにより引き出された学生音声を受け入れるためのクライアント処理が存在し、前記システムは、
制御情報を前記クライアント処理に送り、前記学生に提示されるプロンプトを指定し、且つ、前記提示されたプロンプトにより引き出された前記学生音声から導出される音声サンプルを受け取るサーバー処理、並びに
前記学生音声サンプルを分析するための、前記サーバー処理によりインボーカブルな発音評価器であって、前記学生音声サンプルの発音の質についての事後確率ベースの評価スコアーを計算するために音響モデルを用いることにより設定される前記発音評価器
を含むシステム。
（１０）前記サーバー処理が、通信チャンネルとは別の音声チャンネル上で前記音声サンプルを受け取り、前記サーバー処理と前記クライアント処理は、前記通信チャンネルを介して通信する、（９）に記載のシステム。
（１１）前記クライアント処理と前記サーバー処理が、２つの別々のコンピュータープロセッサー上に配置され、ネットワークを介して通信する、（９）に記載のシステム。

Claims

自動音声処理システムにおいてコンピューター化音響セグメンテーションシステムを用いて学生音声サンプルの発音を評価するための方法であって、
学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入れる工程、
前記コンピューター化音響セグメンテーションシステムを操作し、前記セグメンテーションシステム内の音声音響モデルに基づいて前記学生音声サンプル内のサンプル音響単位を定める工程であって、前記音声音響モデルは、少なくとも１人の話者からの訓練音声データの音声単位の音長を用いて設定され、前記音声単位の２つ以上が互いに異なる時間長を有し、前記訓練音声データは、前記口頭ワードシーケンスを含まない、前記工程、
前記サンプル音響単位の音長を測定する工程、及び
サンプル音響単位の前記音長を模範音響単位の音長モデルと比較し、前記サンプル音響単位音長と模範音響単位音長の間の類似性を示す音長スコアーを計算する工程、
を含む方法。
学生音声サンプルの発音を評価するためのシステムであって、前記学生音声サンプルは、学生話者による口頭ワードシーケンスから成り、該システムは、
少なくとも１人の話者からの訓練音声データの音声単位の音長を用いて設定された音声音響モデルであって、前記音声単位の２つ以上が互いに異なる時間長を有し、前記訓練音声データは、前記口頭ワードシーケンスを含まない前記モデル、
前記音声音響モデルに基づいて前記学生音声サンプル内の音響単位を識別するよう構成されたコンピューター化音響セグメンテーションシステム、
前記サンプル音響単位の音長を測定するよう構成された音長抽出器、
模範音響単位の音長モデル、及び
前記サンプル音響単位の音長を模範音響単位の前記音長モデルと比較し、前記サンプル音響単位の音長と模範音声内の音響単位の音長の間の類似性を示す音長スコアーを計算するように構成された音長スコアラー、
を含むシステム。