JP4394752B2 - 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム - Google Patents
言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム Download PDFInfo
- Publication number
- JP4394752B2 JP4394752B2 JP51691198A JP51691198A JP4394752B2 JP 4394752 B2 JP4394752 B2 JP 4394752B2 JP 51691198 A JP51691198 A JP 51691198A JP 51691198 A JP51691198 A JP 51691198A JP 4394752 B2 JP4394752 B2 JP 4394752B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- speech
- model
- sound
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 238000012549 training Methods 0.000 claims abstract description 67
- 230000011218 segmentation Effects 0.000 claims description 40
- 230000001755 vocal effect Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 abstract description 34
- 238000004321 preservation Methods 0.000 abstract 1
- 238000009826 distribution Methods 0.000 description 36
- 230000008569 process Effects 0.000 description 35
- 238000013507 mapping Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 16
- 230000007704 transition Effects 0.000 description 16
- 230000001419 dependent effect Effects 0.000 description 14
- 238000013515 script Methods 0.000 description 14
- 238000007476 Maximum Likelihood Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 239000000470 constituent Substances 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000013441 quality evaluation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000004886 process control Methods 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
この特許出願は、1996年10月2日付提出の米国仮出願第60/027,638号による優先権を主張する。この仮出願の内容は、ここで文献として援用される。
著作権についての注意
この特許書類の明細書の一部は、著作権保護を受けるものを含む。著作権所有者は、特許書類又は特許明細書が特許商標庁の特許ファイル又は記録に入れられている間にそれを何人が複写、複製しても異論はないが、その他の場合にはどんな著作権も全て保有する。
発明の背景
本発明は、音声発音の質の自動評価に関する。例えば、コンピューター支援言語教育及び評価に適用される。
本発明の実施態様に関連する技術は、共に譲渡された米国出願第08/375,908号、名称「個別話者に適応した音声認識の方法及び装置(METHOD AND APPARATUS FOR SPEECH RECOGNITION ADAPTED TO AN INDIVIDUAL SPEAKER)」、米国出願第08/276,742号、名称「最適化部分混合結びを用いた音声認識の方法及び装置(METHOD AND APPARATUS FOR SPEECH RECOGNITION USING OPTIMIZED PARTIAL MIXTURE TYING)」、米国特許第5,634,086号、名称「ボイスインターラクティブ言語教育のための方法及び装置(METHOD AND APPARATUS FOR VOICE-INTERACTIVE LANGUAGE INSTRUCTION)」、及び米国特許第5,581,655号、名称「言語的に動機付けられた隠れマルコフモデルを用いて音声を認識する方法(METHOD FOR RECOGNIZING SPEECH USING LINGUISTICALLY-MOTIVATED HIDDEN MARKOV MODELS)」において説明されており、これらの出願及び特許は、ここで文献として援用される。
隠れマルコフモデルを用いた関連の音声認識技術は、V.Digalakis及びH.Murveitによる「GENONES: Generalized Mixture-Tying in Continuous Hidden-Markov-Model-Based Speech Recognizers」、IEEE Transactions on Speech and Audio Processing、Vol.4、1996年7月、にも記載されており、ここで文献として援用される。
言語学生の聞き取り及び読み取り理解技術を訓練するコンピューター支援言語教育システムが存在する。このようなシステムは有用的ではあるが、学生の言語生成技術も訓練できる能力をコンピューター利用言語教育システムに加えることが望ましい。特に、コンピューター利用言語教育システムが学生の発音の質を評価できることが望ましい。
自動発音評価に対する従来技術のアプローチが、本発明の譲受人により所有されている上記文献に記載されている。Bernstein他による「英語発音における自動評価及び訓練(Automatic Evaluation and Training in English Pronunciation)」、Internat. Conf. on Spoken Language Processing、1990年、神戸、日本、を参照のこと。この従来技術のアプローチは、事前選択されたスクリプトを読んでいる学生からの音声発話(speech utterances)を評価することに限定されており、このスクリプトに対して訓練データがネイティブ話者から収集されている。この従来技術のアプローチは、特定の語、句又は文に関する統計に基づくので、テキスト依存評価(text-dependent evaluation)と称される。
上記従来技術のアプローチは、評価システムを訓練するのに使用された訓練データに含まれない特定の発話の評価ができないので、有効性において大いに制限される。そのため、発音評価を要するために新しいスクリプトを加えなければならないときはいつでも、評価システムの再訓練が必要となる。
必要とされるのは、任意の発話、すなわち訓練データが無いか又は不完全な訓練データしか存在しないようなワードシーケンスにより構成された発話でさえグレード付けできる発音の質の自動評価方法及びシステムである。必要とされるこのタイプのグレード付けは、テキスト独立グレード付け(text-independent grading)と言われる。
従来技術のアプローチは、例えばスペクトル尤度スコアー(spectral likelihood score)のような特定タイプの評価スコアーのみを発生できる点において、さらに制限される。従来技術のアプローチは、その評価スコアーを用いて初歩レベルの性能を達成できるが、そのレベルは、人間の聴者により達成されるレベルと比べると相当制限されている。従って、また必要とされるものは、性能を向上できるより強力な評価スコアーを含む、発音の質を自動評価する方法及びシステムである。
用語解説
この技術では、しばしば同じ用語が、異なる文脈において非常に異なる意味で用いられる。明瞭にするため、この明細書では、文脈が他の意味を要求しない限り、以下の定義を適用する。
グレード(Grade):人間のエキスパート聴者により使用されるようなグレードスケールに基づいた、話者又は音声発話の発音の質の評価。グレードは、人間又は機械により発生され得る。
スコアー(Score):音声発話に適用されるようなスコアー化関数又はアルゴリズムに従って機械により発生される値。
音響特徴フレーム(A Frame of Acoustic Features):後続の処理及び分析のために特徴抽出器により生成された短時間フレーム内の音声サウンドの特性化。例えば、シフトした20msウインドウ内で10ms毎に音響特徴を計算する特徴抽出器は、10ms毎に1「音響特徴フレーム」を生成すると言われる。一般に、1つの音響特徴フレームはベクトルである。
音響セグメント(Acoustic Segments):音声の時間セグメントであって、その境界(又は音長)が、音声の音響特性に基づいた音声セグメンター(segmenter)により決められる前記時間セグメント。本発明の実施態様では、音声セグメンターにより生成される音響セグメントの各々は、「単音(phone)」である。
単音(Phone):所与の言語における基本音声サウンド単位。一般に、所与の言語における全ての音声発話は、言語に対する1セットの個別単音タイプから選ばれた単音により表され得る。個別単音タイプの数は、40のオーダーである。
音響単位(Acoustic Units):音声の時間セグメントであって、その音長は、発音の質を表すスコアーを発生するのに使用される前記時間セグメント。本発明の実施態様では、音響単位は、単に、音声セグメンターにより作られた音響セグメントである。別の実施態様では、音響単位は、音声セグメンターにより作られる音響セグメントの境界(又は音長)に基づいて音長が決められる「音節(syllables)」である。
発明の概要
本発明により、音響単位の音長と事後確率ベース評価を含んだ発話上の1以上のメトリクス(metrics)に基づいて、任意の音声発話の発音の質を評価するための方法及びシステムが与えられる。
本発明の特定の実施態様は、コンピューター化された音響セグメンテーションシステムを用いて学生の音声サンプルの発音を評価する方法である。この方法は、学生話者による口頭(すなわち話された)ワードシーケンスを含んだ学生音声サンプルを受け入れる工程、コンピュータ化された音響セグメンテーションシステムを操作し、セグメンテーションシステム内の音声音響モデルに基づいて学生音声サンプル内の音響単位を定める工程であって、音声音響モデルは、少なくとも1人の話者からの訓練音声データを用いて設定され、訓練音声データは、口頭ワードシーケンスを必ずしも含む必要はない前記工程、サンプル音響単位の音長を測定する工程、及びサンプル音響単位の音長をモデルの模範音響単位の音長と比較し、サンプル音響単位の音長と模範音響単位の音長の間の類似性を表す音長スコアーを計算する工程を含む。
別の特定実施態様では、音長スコアーは、グレードにさらに写像され、そのグレードが学生話者に示される。
別の特定実施態様では、口頭ワードのシーケンスは既知ではなく、コンピューター化された音声認識システムが操作されて、口頭ワードのシーケンスが求められる。
本発明の別の特定実施態様は、学生音声サンプルの発音をグレード付ける方法である。この方法は、学生話者により口頭ワードのシーケンスを含んだ学生音声サンプルを受け入れる工程、1セットの訓練された音声モデルを操作し、音声サンプルから少なくとも1つの事後確率を計算する工程であって、事後確率の各々は、学生音声サンプルの特定部分が特定の既知モデルが与えられた音声サンプルの特定部分に対応する確率である前記工程、及び事後確率から学生サンプルに対する発音の質の評価スコアー(ここでは、事後ベースの評価スコアーと称される。)を計算する工程を含む。
別の特定実施態様では、事後ベースのスコアーが、さらに、人間のグレーダー(grader)により割り当てられ得るグレードに写像され、そのグレードが学生話者に示される。
本発明のさらに別の特定実施態様は、学生話者による口頭ワードシーケンスを含んだ学生音声サンプルの発音を評価するシステムである。このシステムは、模範音声の訓練された音声音響モデル、及び訓練された音声モデルを用いて音声サンプルから少なくとも1つの事後確率を計算するよう構成された音響スコアラー(scorer)を含み、音響スコアラーは、事後確率から学生サンプルの発音の質の評価スコアーを計算するようにも構成され、事後確率の各々は、学生音声サンプルの特定部分が、音声サンプルの特定部分が与えられた特定の既知モデルに対応する確率である。
本発明のさらに別の特定実施態様は、学生にプロンプトを示してプロンプトにより引き出された学生音声を受け入れるクライアント処理が存在するクライアント/サーバー環境において発音訓練するためのシステムである。このシステムは、制御情報をクライアント処理に送り学生に示されるべきプロンプトを指定し、かつ、示されたプロンプトにより引き出される学生音声から導出された音声サンプルを受け取るサーバー処理、及び学生音声サンプルを分析するためサーバー処理によりインボーカブルな(invocable)発音評価器を含む。
本発明の特性及び効果は、明細書の残りの部分及び図面を参照してさらに理解され得る。
【図面の簡単な説明】
図1は、発音の質を評価するためのシステムのブロック図である。
図2は、図1の発音スコアラーのブロック図であり、これは本発明の実施態様に従って音響単位の音長に基づいて発音スコアーを生成する。
図3は、図2の音声セグメンターを示すブロック図であり、これは本発明の実施態様による隠れマルコフモデル(HMM)音声認識器である。
図4は、サンプル入力音声に対する最尤経路の一部を示す図である。
図5は、本発明の実施態様に従って音響特徴111自身に直接基づいて音響スコアーを計算するためのシステムのブロック図である。
図6は、本発明の実施態様に従って異なる発音スコアーを結合するシステムのブロック図である。
図7は、人間のグレーダーにより作られ得る発音グレードに1以上のタイプの機械スコアーを写像する図6の写像関数を作るためのシステムのブロック図である。
図8は、発音の質を評価する言語教育分散システムのブロック図である。
特定実施態様の説明
I.自動発音評価
図1は、本発明の実施態様により発音の質を評価するためのシステム101のブロック図である。図1では、音声入力装置103が、話者105からの口頭(すなわち話された)ワードのシーケンスを機械読み取り可能な入力音声107に変換する。特徴抽出器109は、入力音声107を時間フレームに分割し、各時間フレームに対して、時間フレーム内の音声サウンドの識別特性を捕らえた音響特徴を計算する。このようにして、特徴抽出器109は、音響特徴フレーム111のシーケンスを作る。入力音声107及び音響特徴フレームのシーケンスは、両方とも話者105の音声を表し、従って、その各々が「学生音声サンプル」と称される。
発音スコアラー113は、入力音声107の発音の質を示す少なくとも1つの発音スコアー115を音響特徴111から計算する。発音スコアー115を計算する際、発音スコアラー113は、所望の、すなわち模範的な音声発音の種々の側面を特徴付ける音声モデル117を利用する。音声モデル117は、模範話者からの訓練音声を用いて設定される。
本発明の幾つかの実施態様では、オプションのスコアー−グレード写像器119が、発音スコアー115を受け入れ、人間のエキスパートのグレーダーにより与え得るような発音グレード121にそれらのスコアーを写像する。
発音評価システム101の動作中、入力音声107、音響特徴111、発音スコアー115、及び発音グレード121を含んだ種々のデータが、後に使用するため記憶装置に記憶され得る。
本発明の実施態様では、音響特徴111は、音声認識タスクにおいて使用される特徴を含み、これらは、当該技術では公知であり、例えば上記’発明の背景’セクションにて参照引用された引用文献に説明されている。例えば、本発明の一実施態様では、音響特徴111は、シフトした20msウインドウ内において10ms毎に計算された12次メル−ケプストラム(mel-cepstra)特徴、及びこれらの特徴の近似微分(approximate derivatives)を含む。
本発明の一実施態様では、音声入力装置103は電話であり、入力された音声107は、電話ネットワークを通って特徴抽出器109に送られる。この実施態様により、学生が電話にアクセスするという条件で、学生の話した発音を本発明により評価することができる。
本発明の一実施態様では、音声入力装置103は、例えば、オーディオデジタル化用ハードウエアー及びソフトウエアーを含むリモート「クライアント」計算システムに接続されたマイクロフォンのようなデジタル化マイクロフォンシステムである。入力音声107は、デジタル形式にて(例えば、ストリーミングオーディオ又は圧縮されたオーディオファイルとして)デジタルネットワーク、例えばローカルエリアネットワーク及び/又はインターネットを通って、ローカル「サーバー」計算システム上に存在する特徴抽出器109に送られる。この実施態様により、学生がデジタルネットワークに接続されたデジタル化マイクロフォンシステムにアクセスするという条件で、学生が話した発音を本発明により評価することができる。
本発明の一実施態様では、音声入力装置103と特徴抽出器109は、少なくとも1つのリモート計算システム上に存在し、音響特徴111は、ネットワーク、例えばインターネットを通って、ローカル計算システムに存在する発音スコアラー113に送られる。この実施態様により、ネットワークを通って送られる必要のあるデータ量が低減される。というのは、一般に音響特徴111は、この実施態様での入力音声107自身よりもよりコンパクトな音声表現であるからである。この実施態様により、ローカル計算システムに要求される計算量もまた低減される。
II.音響単位の音長を用いた発音のスコアー化
図2は、本発明の実施態様による図1の発音スコアラー113のブロック図であり、音響単位の音長に基づいて発音スコアー115を生成する。図2では、音声セグメンター203は、音響特徴111のシーケンスを受け入れ、それらから音響セグメントを特定する時間−セグメンテーション205を作る。音響セグメンテーション205は、音響セグメントの表現であり、それにより、それらの音長が決められ得る。一実施態様では、音響セグメンターション205は、各音響セグメントの時間−境界に加えて各音響セグメントの音長を含む。(一般に、セグメント境界は、音長を定め、音長のシーケンスは、シーケンス内に単一の境界が与えられたセグメント境界を定めることに留意されたい。従って、境界を使用するとして説明されたシステムコンポーネントは、一般に代替され得るが、音長、又は音長及び境界を用いるとして説明された等価物とし得る。)
音響単位音長抽出器207は、音響セグメンテーション205を受け入れる。音響セグメンテーション205から、音響単位音長抽出器207は、音響単位の音長209を回復又は計算する。
音響単位音長スコアラー211は、音響単位音長209を受け入れ、それらを模範音響単位音長のモデル213と比較する。このモデルは、模範話者からの訓練音声を用いて設定されたものである。この比較に基づいて、音響単位音長スコアラー211は、図1の発音スコアー115として音響単位音長スコアー115を計算する。音響単位音長モデル213は、図1の音声モデル117の一部を形成する。本発明の実施態様では、音響単位音長モデル213は、パラメトリックなモデル又は非パラメトリックなモデルとし得る。本発明の別の実施態様では、音響単位音長モデル213は、模範音声からの例音響単位音長を単に含む。
例えば電話回線を通して伝送される音声のように大きなノイズや歪みを加えるチャンネルを介して学生話者105の音声が受け取られるとき、音響単位音長スコアーは発音の質の特に重要な指標であることが分かった。
本発明の一実施態様では、音声入力装置103(図1)、特徴抽出器109(図1)、及び音声セグメンター203は、全て1以上のリモート計算システム上に存在し、音響セグメンテーション205のみ又は音響単位音長209のみが、例えばインターネットのようなネットワークを通って、ローカル計算機械上に存在する音響単位音長スコアラー211に送られる。この実施態様により、リモート計算システムにより多くの計算を実行するよう要求することで、ネットワークを通って送られる必要のあるデータ量、及びローカル計算システムに要求される計算量が著しく低減される。
本発明の実施態様では、音声セグメンター203は、音響特徴111を単音たる音響セグメントにセグメント化する。音声セグメンター203は、各単音のタイプを識別もする。音響セグメンテーション205は、例えば音響特徴111のシーケンス内へのインデックスとして表された単音境界や各単音の単音タイプラベルの形式のセグメント情報を含む。
II.A.単音の音長
本発明の特定実施態様では、単音音長に基づいて音長スコアー115が計算される。音声セグメンター203は、音響特徴111を単音たる音響セグメントにセグメント化する。音響単位音長抽出器207は、単に単音自身として音響単位を定める。従って、これらの実施態様における音響単位音長抽出器207は、音響単位音長209として単音音長を非常に単純に抽出する。特に、単音セグメンテーション205が明白に単音音長を含む実施態様では、音響単位音長抽出器207は、音響単位音長209として存在する単音音長を単に使用する。単音セグメンテーション205が単音境界のみを有する単音セグメンテーションを表す実施態様では、音響単位音長抽出器207は、単音境界から音響単位音長を計算する算術減算器である。
本発明の特定の単音−音長−スコアー化実施態様では、音響単位音長モデル213は、単音タイプqが与えられた模範音声中の単音音長dの分離確率分布Pd(d|q)を含む。例えば、所与の言語を規定する例えば45個の単音タイプを用いるよう構成されたシステムは、45個の確率分布を有し、その1つは各単音タイプに対する。
特定実施態様では、各単音タイプの音長確率分布は、例えばガウシアン分布のようなパラメトリック分布として表される。これらの分布のパラメータは、模範話者からの訓練音声にあるような各タイプの単音の音長を用いて、標準統計推定方法により推定される。
他の好適な実施態様では、各単音タイプの音長確率分布は、(非パラメトリック)確率マス(mass)関数として表される。これらの確率分布は、模範話者からの訓練音声にあるような各タイプの単音の音長を表にすることにより設定される。訓練音声の有限量のみが利用できるという条件でモデルのロバストネス(robustness)を維持するために、各確率マス関数が平滑化され、確率フロアー(floor)が導入される。訓練音声の単音音長は、テスト中に入力音声107の単音音長209が求められるのと同じ方法にて、訓練中に求められる。すなわち、特徴抽出器109、音声セグメンター203、及び音響単位音長抽出器207が使用される。
特定の単音−音長−スコアー化実施態様における音響単位音長スコアラー211は、各単音iの音長diの対数確率ρiを次式により計算する。
ここで、qiは単音iの単音タイプである。
音響単位音長スコアラー211は、発話全体に対して、各単音iの音長の対数確率ρiの平均として音響単位音長スコアー115 ρを次式により計算する。
ここで、総和は、発話中の単音数Nに亘って取られる。
好適実施態様では、音響単位音長モデル213は、話者標準化された単音音長である単音音長d’の確率分布Pd’(d’|q)を含む。従って、音響単位音長スコアラー211は、発話全体に対して、各単音iの話者標準化音長d’iの対数確率の平均として音響単位音長スコアー115を計算する。
話者標準化単音音長は、問題の話者の音声速度が乗じられた単音音長である。音声速度(ROS)は、話者により1秒当たり発話される単音数である。各模範話者の音声速度は、訓練音声から計算される。学生話者105の音声速度は、音響セグメンテーション自身を含めて話者の利用可能なデータから計算される。
以下の式は、好適実施態様における話者標準化された単音音長の使用をまとめたものである。
II.B.音節の音長
本発明の特定実施態様では、「音節」の音長に基づいて音長スコアー115が計算される。音声速度の標準化(後に説明)の後でさえ音節音長が発音の質の良い指標であることの一つの説明は、言語学習者は、彼らのネイティブ言語のリズムを学習言語に課する傾向があることである。例えば、英語は、強勢拍である(stress-timed)傾向にあり(すなわち、強勢される音節は延ばされ、その他は短くされる傾向にある)、一方、スペイン語とフランス語は、音節拍である(syllable-timed)傾向にある。
これらの音節−音長−スコアー化実施態様では、音響単位音長抽出器207が、音声セグメンター203により特定されるような単音の音長に基づいて「音節」たる音響単位の音長を求める。特に、音響単位音長抽出器207は、音声内での母音単音の中心間の音長として音節音長を決める。
特定の音節−音長−スコアー化実施態様では、音響単位音長モデル213は、任意の音節の音節音長sdの単一の確率分布Psd(sd)を含む。この確率分布は、模範話者からの訓練音声にある全ての音節の音長を表にすることにより設定される。訓練音声の音節音長は、テスト中に求められる入力音声107の音節音長209と同様にして訓練中に求められる。すなわち、特徴抽出器109、音声セグメンター203、及び音響単位音長抽出器207が使用される。音長確率分布は、確率マス関数として表される。訓練音声の有限量のみが利用できるという条件で、モデルのロバストネスを維持するために、確率マス関数が平滑化され、確率フロアーが導入される。
好適実施態様では、各音節jに対する音節音長sdjは、上記のように話者の音声速度(ROS)を乗じることによりテスト及び訓練中に標準化され、話者標準化された音節音長sd’jが得られる。以下の式は、好適な音節−音長−スコアー化実施態様において話者標準化された音節音長の使用をまとめたものである。
II.C.特定音節を用いた音節音長
本発明の他の実施態様では、全ての音節に対して上記説明した方法に類似の方法にてスコアー化するために、特定音節の音節音長が使用される。これらの実施態様では、音響単位音長抽出器207は、音響セグメンテーション205から音節音長を回復する。音長スコアラーは、これらの音長を模範音声における音節音長モデル213と比較し、音節音長スコアー115を計算する。
音節音長モデル213は、言語中の音節の部分集合に対する音長の確率分布を含む。これらの音節は、音長分布を推定し得る十分な訓練音声データが存在したものである。音長スコアラーは、学生音声サンプルからの音節を音節音長モデル213と比較し、音長が音節音長モデル213内でモデル化される学生音声サンプルのそれらの音節に基づいて、音節音長発音スコアーを導出する。
II.D.ワードの音長
本発明の他の実施態様では、音節に対して上記説明した方法と類似の方法にてスコアー化するために、ワード音長が使用される。これらの実施態様では、音響単位音長抽出器207は、音響セグメンテーション205からワード音長を回復する。音長スコアラーは、これらの音長を模範音声におけるワードモデル213と比較し、ワード音長スコアー115を計算する。
ワード音長モデル213は、言語におけるワードの部分集合に対する音長の確率分布を含む。これらのワードは、音長分布を推定し得る十分な訓練音声データが存在したものである。音長スコアラーは、学生音声サンプルからのワードをワード音長モデル213と比較し、音長がワード音長モデル213内でモデル化される学生音声サンプルのそれらのワードに基づいて、ワード音長発音スコアーを導出する。
III.音響セグメンテーションのためのHMM音声認識器
図3は、図2の音声セグメンター203を示すブロック図であり、これは、本発明の特定実施態様ではHMM音声認識器203である。HMM音声認識器は、当該技術において公知であり、例えば’発明の背景’セクションにおいて援用引用された文献に記載されている。
マルコフモデル(MM)は、方向付けされた遷移ブランチにより接続された状態のネットワークである。HMM音声認識器203は、マルコフモデルを使用して音声サウンドの生成をモデル化する。HMM認識器203は、言語中の各タイプの単音を、少数の接続状態により構成された単音モデルにより表す。(特定実施態様では、大抵の単音タイプに対して1単音モデル当たり3つの状態を使用する。)HMM認識器203は、「三−単音(tri-phone)」モデルを含んだ追加的な文脈依存の単音モデルも与え、これは、特定の他の単音タイプが先行及び/又は後続するとき、各単音タイプを表す。HMM認識器203は、休止単音をも含み、これは、音声中にワード間で発生する休止をモデル化する。文脈依存及び休止単音モデルを含む単音モデルは、HMM認識器203内で音響モデル305を形成する。
音声HMMの各状態は、その状態にあるとき生成された音響特徴の関連確率分布を有する。(これらの出力分布は、遷移ブランチに関連しているように、文献中に代替的ではあるが等価的に記載されている。)出力分布は、文献中に記載されているように、ガウシアン分布、又はガウシアン分布などの重き付き混合であり得る。特定実施態様のHMM認識器203では、ガウシアン分布の重み付き結び混合(weighted tied mixtures)である出力分布が使用される。重み付き結び混合は、音声認識の技術においては公知である。特定実施態様のHMM認識器203を実現するよう構成され得る標準HMM音声認識器は、メンロパーク(Menlo Park)、カリフォルニア、SRI InternationalによるDECIPHERシステムである。
マルコフモデルにおける各遷移ブランチは、ブランチのソース状態からそのデスティネーション状態に遷移する確率を示す遷移確率を有する。所与の任意状態からの全遷移確率は、自己遷移確率を含めて、合計が1になる。
音声HMMにおける全ての状態に対する出力及び遷移確率分布は、前方−後方(Baum-Welch)アルゴリズムを含んだ標準HMM訓練アルゴリズム及び技術を用いて、訓練音声データから設定される。このような訓練が実行され得る標準HMMベース音声認識器は、メンロパーク、カルフォルニア、SRI InternationalによるDECIPHERシステムである。
本発明により、入力音声107にある口頭ワードシーケンスを含むために、訓練音声は必要とされない。入力音声107にある口頭ワードシーケンスからの個々のワードを含むためにさえ、これらの訓練音声は必要とされない。
辞書307は、言語におけるワードのカタログであり、各ワードを構成するコンポーネント単音タイプを定める。本発明の幾つかの実施態様では、辞書307は、各ワード内での単音タイプから単音タイプへの任意に割り当てられた遷移確率をも含む。文法309は、言語において許容されるワード対ワードの遷移を規定する。特定実施態様の文法309は、それぞれのワード対間の文脈フリーなワード対ワードの遷移確率を特定する「バイ−グラム(bi-gram)」である。また、文法309により、ワード間の選択休止単音が、音声中にワード間の可能な休止をモデル化することができる。文法309により、休止単音がスキップされ得る。文法309は、出力されたいずれの音響特徴にも対応しない遷移弧としてスキップを与える。
文法309と辞書307は共に、単音間の許容されうるリンク、従って、許容されうるワード及び文を特定する文法ネットワーク310を形成する。文法、辞書、及び文法ネットワークは、HMM音声認識器の公知要素である。文法ネットワーク310と単音音響モデル305は、音声モデル117(図1)の一部を形成する。
全ての単音モデル305に加えて辞書307及び文法309は、巨大な仮想ネットワークと考えることができ、「HMM」又は「認識HMM」と称される。HMM認識器203は、HMM内の状態を通る経路を通過することにより生成されたような話されたあらゆる文をモデル化する。一般に、音響特徴のフレームは、この経路に沿って各時間ステップにて生成される。(しかしながら、例えば「スキップ」遷移のような幾つかの状態遷移は、時間を要さず、出力を生成しない。)経路は、通過された状態のシーケンスを識別する。経路は、シーケンスの各状態での消費時間の音長も識別し、それにより、文中の各単音及び各ワードの時間−音長を定める。別言すれば、経路は、HMMの対応する状態シーケンスに対するフレーム111のシーケンスの「整列(alignment)」を規定する。
図3では、HMM音声認識器203は、単にその音声認識の通常の目的のためだけでなく、音声を成分単音に時間−セグメント化するためにも動作する。図3では、HMM認識器203は、音響特徴111を受け入れる。HMM認識器203は、単音音響モデル305、辞書307、及び文法309により特定される隠れマルコフモデル(HMM)を含む。HMM認識器203内のHMM検索エンジン311は、最尤経路313を計算する。
最尤経路は、隠れマルコフモデルを通る経路であり、ユーザーの音声から抽出される音響特徴シーケンス111を発生する最尤度を有する。最尤経路313は、通過された状態シーケンス314と各状態で費やされた時間の音長315を含む。最尤経路313は、単音シーケンスへの音響特徴の音響セグメンテーション205を定める。特定実施態様の音響セグメンテーション205は、時間境界(及び/又は音長)及び単音シーケンスの単音タイプラベルを含んだ経路情報313の部分集合である。図1及び図2に関して上記説明したように、本発明は、音響セグメンテーション205からの音長情報を用いて、発音の質を評価する。
HMM検索エンジン311は、周知のヴィテルビ検索方法を用いる標準枝刈りHMM検索アルゴリズムに従って、その音声HMMを通る最尤経路を計算する。このHMM検索アルゴリズムは、例えば援用引用された技術や文献の他のところに記載されている。ヴィテルビアルゴリズムは、他の多くの文献、例えばG.D.Forney,Jr.による「ヴィテルビアルゴリズム(The Viterbi algorithm)」、Proc.IEEE、vol.61,268〜278頁、1973年にも記載されている。
特定実施態様では、話者105からの口頭ワードのシーケンスは、発音評価システム101により事前に知り得る、又は知り得ない。もし口頭ワードシーケンスが事前に知られてないならば、HMM認識器203は、音響セグメンテーション205に加えて、他に使用するために認識されたワードシーケンス317を出力する。例えば、認識されたワードシーケンス317は、特定実施態様に含まれる対話型言語教育システムにより使用され得る。この言語教育システムは、認識されたワードシーケンスの意味を決め、認識されたワードシーケンス317が、現在行われているレッスンに関して正しくかつ適切な発話であるか否かを決める。
もし口頭ワードシーケンスが事前に知られているならば、その既知のワードシーケンス319は、HMMエンジン311に送られ、HMMを通る可能な経路を劇的に制約する。この既知のワードシーケンス319は、文法ネットワーク310の一部を形成する付加情報を表す。例えば、言語教育システムは、話者105が既知のスクリプトを読むことを要求しているので、口頭ワードのシーケンスは、事前に知られ得る。追加的な制約として既知ワードシーケンス319を使用することにより、認識及びセグメンテーションのエラーを低減でき、また、HMMエンジン311により要求される計算量も低減できる。
図4は、本発明によるサンプル入力音声107に対する最尤経路313の一部を描いた図である。入力音声107は、その構成ワード403から構成され、これらは構成単音205に分類され、これらはそれら自身構成状態405に分類される。構成単音205は、各単音の音長を特定する情報はもとより単音タイプラベル407も含む。
IV.音響特徴を用いた発音のスコアー化
図5は、本発明の実施態様によるシステム113のブロック図であり、これは、音響単位音長よりもむしろ音響特徴111自身に直接基づいて音響スコアー115を計算する。
図5では、音声セグメンター203は、音響特徴111のシーケンスを受け入れ、それらから音響セグメントを特定する時間−セグメンテーション205を生成する。音響スコアラー503は、音響セグメンテーション205を受け入れ、また、音響特徴111のシーケンスも受け入れる。音響スコアラー503は、音響セグメンテーション205を用いて音響特徴111のシーケンスにインデックスを付ける。この様に、音響スコアラー503は、各音響セグメントに対応する音響特徴フレームを得る。
音響スコアラー503は、音響セグメントの音響特徴フレームを模範音響特徴フレームのモデル505と比較する。モデル505は、模範話者からの訓練音声を用いて設定された。この比較に基づいて、音響スコアラー503は、図1の発音スコアー115として音響スコアー115を計算する。音響モデル505は、図1の音声モデル117の一部を形成する。
図3に関して説明したように、本発明の特定の音響−スコアー化実施態様では、音声セグメンター203は、単音内の音響特徴111のシーケンスの音響セグメンテーション205を生成するHMM認識器203である。これらの特定実施態様の音響モデル505は、各単音タイプに対して音響特徴フレームの分離したモデルを含む。好適実施態様では、これらのモデルは、セグメンテーションのために使用されるHMM認識器203からのHMMモデルである。
IV.A.単音の対数事後確率スコアー
特定の音響−スコアー化実施態様では、単音タイプqに対応する分離モデルの各々は、文脈独立の確率密度p(y|q)であり、ここで、変数yは音響特徴フレームを表す。音響スコアラー503は、単音タイプqiの単音i内での各フレームytに対して、観測された音響特徴フレームytが与えられた単音iのタイプのフレームベース事後確率P(qi|yt)を次式により計算する。
ここで、p(yt|qi)は、単音タイプqiに対応する分布に従ったフレームytの確率である。qに関する総和は、全ての単音タイプに亘って取られる。P(qi)は、単音タイプqiの事前確率を表す。
特定実施態様の音響スコアラー503は、音響セグメンテーション205により定められる各単音iに対して、単音の事後スコアーρiを計算する。各単音iの単音事後スコアーは、単音i内の全フレームのフレームベース事後確率P(qi|yt)の対数平均である。各単音iの単音事後スコアーρiは、次式のように表し得る。
ここで、総和は、単音iの全diフレームに亘って取られる。
特定実施態様の音響スコアラー503は、各単音iの単音事後スコアーρiの平均として、全体の発話に対する音響スコアー115 ρを次式により計算する。
ここで、総和は、発話内の単音数Nに亘って取られる。この音響スコアー115ρは、音響事後確率ベースのスコアーの一例である。
音響事後確率ベースのスコアー115 ρは、特定の話者の特徴又は音響チャンネルの変動を原因とするスペクトル一致(match)における変化により受ける影響を潜在的に少なくするように設計される。音響一致における変化は、表式(9)におけるのと同様に分子と分母の両方に影響を与えがちであり、それにより、音響スコアー115をそれらの変化に対してより不変にし、音声の質にさらに焦点が当てられる。
特定実施態様では、音響スコアラー503は、文脈独立隠れマルコフ単音モデルからの分布を用いて表式(9)に示された文脈独立確率密度p(y|q)の各々を計算する。表式(9)の分子において、P(yt|qi)は、フレームytが単音タイプqiのHMMにおいて整列したHMM状態の出力分布を評価することにより計算される。表式(9)の分母中の全単音タイプに亘る総和は、各単音タイプの文脈独立HMM内での最もありそうなHMM状態(フレームytに対して)の出力分布を用いて計算される。
特定実施態様では、各単音タイプqのHMM内の各状態の出力分布は、ガウシアン分布の重み付けされた混合である。対角共分散(すなわち、共分散行列において非対角エントリがゼロに制約されている)を有する約100個のガウシアン分布を用いると、良い結果が得られた。ガウシアン分布内のパラメータ値は、模範話者から収集された訓練音声データから標準推定技術を用いて設定される。
第1の代替の音響−スコアー化実施態様では、表式(9)の変形に従って文脈依存事後確率が計算される。この実施例では、表式(9)は、次の近似式により置換される。
ここで、ctxiは単音iの文脈クラス、すなわち、セグメンターHMM203により求められるような単音iの直前及び直後の単音の単音タイプを表す。
分子の項p(yt|qi,ctxi)が、フレームytが文脈依存(すなわち三−単音)HMM単音モデルにおいて整列したHMM状態の出力分布から計算されるという点において、表式(12)は、表式(9)と異なる。この項は、文脈ctxi内の単音タイプqiが与えられたフレームytの出力すなわち「放出(emission)」確率である。分母は、特定実施態様のように、文脈独立単音に亘って取られる総和をなお使用する。
事後スコアーρiは、文脈依存スコアーρ’iにより置換(近似)される。この文脈依存スコアーρ’iは、セグメントのフレーム全てに亘る、フレームベース単音文脈依存事後確率の対数平均として次式により定義される。
ここで、diは、単音iのフレームにおける音長である。
計算はさらに単純化され得る。すなわち、表式(12)を用いて表式(13)を次式により拡張する。
表式(14)の第1項は、セグメンテーションに使用されるHMM認識器203から得られる最尤経路313に沿ったフレーム毎の対数確率により次式のように近似し得る。
表式(12)の分子を計算するのに使用される文脈依存モデルは、テスト文に現れるとき包囲する単音の特定音声文脈における所与の単音タイプの現実を掴まえるので、文脈独立のものよりもより精密なモデルである。さらに、もし計算の近似法が使用されるならば特に、文脈依存スコアーは、文脈独立スコアーよりもより速く計算し得る。このことは事実である。というのは、文脈依存スコアーの成分の多くが、セグメンテーションに使用されるHMM認識器203の操作から既に存在しているからである。
表式(10)において、表式(12)により作られる文脈依存事後確率が、表式(9)により作られる文脈独立事後確率と代用される場合を除いて、単音及び文に対するスコアーは、特定実施態様と同様に計算される。
第2の代替の音響−スコアー化実施態様は、特定実施態様に類似しているが、音響スコアラー503は、文脈独立単音の部分集合のみに亘って総計することにより、表式(9)の分母を計算する。このことにより、計算が低減され、音響スコアーに同様の標準化効果を与えることができ、しかも、音響スコアーの有用性はほとんど低下させない。使用される単音は、音響空間のほとんどをカバーするべく選択される(すなわち、大きく非類似のサウンドが選ばれる)。
第3の代替の音響−スコアー化実施態様では、音響スコアラー503は、多層パーセプトロン(MLP)を用いることにより直接的にフレームベース事後確率p(qi|yt)を発生する。多層パーセプトロンは、模範訓練データ上に強制された(すなわち、既知スクリプト制約された)整列を用いて訓練される。訓練手順は、標準逆伝搬管理訓練スキーム(standard backpropagation supervised training scheme)である。
訓練中、現在のフレーム−−及び適宜その包囲音響文脈フレーム−−は、所望の出力と共にMLPの入力に与えられる。任意のフレームに対する所望の出力は、1オブN(1-of-N)ターゲットである(ターゲット1が、正しい単音タイプに対応する出力に設定され、ターゲット0がその他の出力に使用される)。相対エントロピー又は最小二乗誤差訓練基準を用いると、出力は、フレームベース事後確率p(qi|yt)に収束することが知られている。
MLPは当該技術では周知であり、例えば、Nelson Morgan及びHerve Bourlardによる「連続音声認識:ハイブリッドHMM−コネクショニストアプローチ(Continuous Speech Recognition: An introduction to the Hybrid HMM-Connectionist Approach)」、IEEE Signal Processing Magazine、Vol.12、No.3、1995年5月、25〜42頁、に記載されており、これは、ここに文献として援用される。
表式(10)において、MLPベース事後確率がHMM導出事後確率の代わりに使用されるのを除いて、単音及び文に対するスコアーが、特定実施態様と同様に計算される。
第4の代替の音響−スコアー化実施態様では、音響スコアラー503は、音響事後確率ベースのスコアーも発生する。しかしながら、表式(9)によりフレームベース事後確率を発生するよりもむしろ、音響スコアラー503は、単音ベース事後確率を直接発生する。この実施態様では、音響スコアラー503は、HMMエンジンを含む。音響スコアラー503は、HMMエンジンを操作し、ヴィテルビアルゴリズムを用いてあらゆる単音タイプqの隠れマルコフ単音モデルに対して、単音iに対応する学生音声サンプルのフレームYiの整列を発生する。音響スコアラー503は、音声認識の技術において公知の標準HMMバックトレース技術を用いて、単音タイプqのHMMに対する各整列用の音声Yiの音響対数尤度、log p(Yi|q)を計算する。これらの対数尤度を用いて、音響スコアラー503は、単音iに対する事後対数確率スコアーを次式により計算する。
音響スコアラー503は、発話全体の音響スコアー115 ρを、発話内の各単音iの単音事後スコアーρiの平均として表式(11)に従って計算する。
IV.B.単音の対数尤度スコアー
代替の音響−スコアー化実施態様では、音響スコアラー503は、HMM対数尤度を用い、尤度ベース発音スコアー115 Lを導出する。模範話者から得られたHMMを用いてヴィテルビアルゴリズムにより計算された音声データの尤度の対数は、模範音声と学生の音声の間の類似性(又は一致)の良い測度であることが仮定される。音響スコアラー503は、各単音に対して標準化された対数尤度l’iを次式により計算する。
ここで、liは、単音iに対応する対数尤度であり、diは、フレーム数で表したその音長である。単音の音長による標準化とは、対数尤度スコアー上へのそれらの効果の増強を短い音長の単音に与えることである。このことは、さもなければ、より長い単音により支配される。
音響スコアラー503は、発話全体の尤度ベーススコアー115 Lを、各単音iに対する個々の標準化対数尤度スコアーl’iの平均として次式により計算する。
ここで、総和は、発話内の単音数Nに亘って取られる。
V.スコアーの結合及び人間グレードへの写像
図6は、本発明の実施態様により異なるタイプの発音スコアーを結合するシステムのブロック図である。スコアーを結合することにより、各スコアー自身を用いるのと比較して全体として評価性能が向上する。
図6では、複数の発音スコアー115が、単一の発話の音響特徴111に対して計算される。これらのスコアーは、単音音長スコアー115、音節音長スコアー115、及び音響事後確率ベーススコアー115を含み、これらは既に別々に説明された。これらのスコアーは、3つの別々のスコアラー113により発生されるものとして示される。実際の実行においては、3つの別々のスコアラー113は、例えば音響セグメンター203(図2及び図5)のような多くの共通コンポーネントを共用する。
スコアー−グレード写像器119は、異なるスコアー115を受け入れ、これらのスコアー115に写像関数603を適用して単一のグレード121を導出する。
図7は、図6の写像関数603を作るためのシステム701のブロック図であり、1以上のタイプの機械スコアーを、人間聴者により生成され得る発音グレードに写像する。図7では、機械スコアー703は、訓練音声データの発展セットにおいて発話に対して発生される。人間発生スコアー705も、発展セットにおいて発話に対して収集される。発展セットは、熟達レベルを変える話者からの音声を含むようにアセンブルされる。
写像アナライザー707は、機械スコアー703及び対応する人間グレード705を処理し、スコアー−グレード写像603を発生する。
本発明の一実施態様では、写像アナライザー707は、線形回帰を使用し、各発話に対する2以上の機械スコアー(m1,...,mn)及びバイアス項を線形結合し、対応する人間スコアーhを次式により近似する。
線形係数λjとバイアス項λ0は、発展セットの発話に対する予測スコアー及び実際の人間スコアー間の平均二乗を最小にするべく最適化される。
本発明の別の実施態様では、写像アナライザー707は非線形回帰を用いる。結合されるべき機械スコアー703は、ニューラルネットワーク603への入力であり、ニューラルネットワーク603は、複数の機械スコアー703とその対応する人間スコアー705の間の写像を行う。写像アナライザーは、ターゲットとして実際の人間スコアー705を使用してニューラルネットワーク603内のパラメータを設定する。ネットワークは、1つの線形出力ユニットと16個のS字状(sigmoidal)隠れユニットを有する。写像アナライザーは、訓練データの約15%にクロス検証技術(cross-validation)を使用し、標準逆伝搬技術を用いてニューラルネットワークを訓練する。訓練は、クロス検証技術セット上で性能が低下すると、停止される。
本発明の別の実施態様では、写像アナライザー707は、測定された機械スコアーm1,...,mnが与えられた実際の人間スコアーhの条件付き期待値として予測人間スコアーh’を定める写像603を次式により計算する。
期待値を計算するためには、条件付き確率P(h|M1,...,Mn)が必要とされる。写像アナライザー707は、この条件付き確率を次式により計算する。
ここで、分母の総和は、G個の可能なグレード全てに亘って取られ、P(h)は、グレードhの前の確率であり、条件付き分布は、機械スコアーのスカラー又はベクトル量子化に基づいた離散分布により近似的にモデル化される。量子化において使用されるビン(bin)数は、利用可能な訓練データ量により決められる。利用可能なデータが増えれば、より多くのビンが使用できる。
本発明のさらに別の実施態様では、写像アナライザー707は、決定木(decision tree)又は代替としてクラス確率木を使用する。
結合されるべき機械スコアーは、機械スコアー703とその対応する人間スコアー705間の写像を行う木への入力である。写像アナライザーは、当該技術で公知の決定木構築用アルゴリズムに従って、ターゲットクラスとして実際の人間スコアーを使用して、決定木(又は代替としてクラス確率木)内のパラメータを設定する。人間ターゲットの離散セットは、クラスとして定められ、これらのクラスは、入力機械スコアーをクラス化する決定又はクラス確率木により使用される。
VI.クライアント−サーバー環境での言語教育
図8は、言語教育のための分散システム801のブロック図であり、発音の質を評価する。図8では、リモートクライアントプロセッサー803は、クライアント処理を行う。クライアント処理は、学生105にプロンプトを示すソフトウエアー命令を実行する。それに応答して、学生105はマイクロフォン805に話す。さらに説明されるように、システム801は、発音評価器(図1にのみ101として示される)を含む。マイクロフォン805は、発音評価器の音声入力装置(図1にのみ103として示される)の少なくとも一部を形成する。
図8の一実施態様では、クライアント処理は、コンピューターディスプレイ807を使用してプロンプトを与える。プロンプトの一タイプは、学生105により読まれるよう表示されたスクリプトである。クライアント処理が、以前の発音評価システムより優れている点は、上記説明したように、それが、訓練データの無い又は不完全な訓練データしかないようなワードを含むスクリプトも使用できることである。これらのスクリプトは、システム801による実行中に動的に発生されたスクリプトを含む。クライアント処理が言葉の発話を引き出す別の新しい方法は、上記説明したように、どんなスクリプトを読むこともせずに、学生105が自然に答えるような自由形式(open-ended)の質問をすることである。よって、本発明によるシステム801により、発音評価のためのユニークなワードシーケンスを仮想的に無尽蔵にすぐに利用可能なように供給できる。
別の実施態様では、ディスプレイ807は、例えばスクリプトや質問のようなオーディオプロンプトを与えるスピーカー809により置換又は補完される。
ローカルサーバープロセッサー811は、サーバー処理を行い、これは、例えばローカルエリアネットワークやインターネットなどのようなネットワーク813を介してクライアントプロセッサー803上で実行されている言語教育レッスンを制御する。一実施態様では、サーバー処理は、動的に制御情報を送ることによりレッスンを制御し、この制御情報は、プロンプトが学生105に与えられる直前に例えばスクリプトや質問のような個々のプロンプトを含む又は特定する。別の実施態様では、サーバー処理は、制御情報をダウンロードすることによりより緩やかにレッスンを制御し、この制御情報は、クライアントプロセッサー803のローカル記憶815にて個々のレッスンに対するソフトウエアー(例えば、JAVA言語ソフトウエアー)を含み、このローカル記憶815は、RAMやハードディスクなどを含む。その後、クライアントプロセッサー803は、サーバープロセッサー811からの直接の管理がより少ない状況下で、レッスンソフトウエアーを実行する。
本発明の幾つかの実施態様では、サーバープロセッサー811は、発音評価器の最終ステージを含み、これは、学生の発音の評価グレードを発生する。このような一実施態様では、マイクロフォン805は、クライアントプロセッサー803に連結され817、音声を伝える。クライアント処理は、ネットワーク813を通じて学生音声サンプルをオーディオ受信器処理に中継し、このオーディオ受信器処理は、サーバー処理と関連して動作し、発音評価を要求する。オーディオ受信器処理は、サーバープロセッサー811上で行われる。
他のこのような実施態様では、マイクロフォン805は、クライアント処理の直接の制御下にない別のチャンネル819を通じて、学生音声サンプルをサーバー処理に中継する。これらの実施態様の一つにおける別チャンネル819は、例えば電話チャンネルのような物理的に分離したチャンネルである。これらの実施態様のうち別のものでは別チャンネル819は、仮想チャンネルである。これは、たとえクライアント−サーバー接続により共有された物理ラインをも使用して実行されていても、サーバー処理に対しては別チャンネルであるように見える。例えば、仮想チャンネルは、デジタル同時ボイスアンドデータ(Digital Simultaneous Voice and Data:DSVD)モデムのオーディオ仮想チャンネルを用いて実現し得る。このモデムのデータ仮想チャンネルは、クライアント−サーバー通信を扱う。
別の実施態様では、発音評価器(図1)はサーバープロセッサー811上には設けられない。代わりに、評価器は、クライアントプロセッサー803かどこかに設けられる。従って、発音評価は、音声サンプルをサーバー処理に送る必要性がなく、クライアント処理により制御される。これらの実施態様では、サーバープロセッサー811の計算リソースは、レッスンを制御することのみ必要であるので、浪費されない。この様に、サーバープロセッサー811は、マルチタスクにて同時に非常に多くのレッスンを制御できるようになる。
上述のように、クライアント処理とサーバー処理は、ネットワーク813を介して接続された別々のプロセッサー803及び811上で動作する。しかし、一般には、クライアント処理とサーバー処理は、マルチタスクにて単一のプロセッサー上で動作できる。
ここでは、本発明が特定の実施態様に関して説明されてきた。他の実施態様も、上記説明により当業者には明らかであろう。例えば、新聞広告として書かれたガイドブックや他の視覚又は聴覚形式のようなオフライン手段を介して、予め選ばれたスクリプトをユーザーに届けることができる。従って、添付請求の範囲により示されたものを除いて、この発明は制限されるものではない。
以下に、本発明の1組の実施態様を示す。
(1)自動音声処理システムにおいてコンピューター化音響セグメンテーションシステムを用いて学生音声サンプルの発音を評価するための方法であって、
学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入れる工程、
前記コンピューター化音響セグメンテーションシステムを操作し、前記セグメンテーションシステム内の音声音響モデルに基づいて前記学生音声サンプル内のサンプル音響単位を定める工程であって、前記音声音響モデルは、少なくとも1人の話者からの訓練音声データを用いて設定され、前記訓練音声データは、前記口頭ワードシーケンスを必ずしも含まない、前記工程、
前記サンプル音響単位の音長を測定する工程、及び
サンプル音響単位の前記音長を模範音響単位の音長モデルと比較し、前記サンプル音響単位音長と模範音響単位音長の間の類似性を示す音長スコアーを計算する工程、
を含む方法。
(2)前記模範音響単位の音長モデルが、少なくとも1人の模範話者からの音長訓練音声データを用いて設定され、前記音長訓練データは、前記口頭ワードシーケンスを必ずしも含まない、(1)に記載の方法。
(3)各音響単位は、前記口頭ワードの言語における最長ワードよりも音長が短い、(1)に記載の方法。
(4)前記音長スコアーをグレードに写像する工程、及び
前記グレードを学生に提示する工程
をさらに含む、(1)に記載の方法。
(5)前記音長スコアーをグレードに写像する工程が、
種々の熟達レベルの複数の言語学生から1セットの訓練音声サンプルを収集する工程、
前記訓練音声サンプルの各々に対して、訓練音長スコアーを計算する工程、
前記訓練音声サンプルの各々に対して、人間グレーダーから少なくとも1つの人間評価グレードを収集する工程、及び
前記人間評価グレードと前記訓練音長スコアーの間のエラー測定を最小にすることにより、写像において使用される係数を調節する工程、
を含む、(4)に記載の方法。
(6)写像工程が、
単独又は他の機械スコアーと結合された訓練音長スコアー、及び対応する人間評価グレードから、線形又は非線形回帰により得られる写像関数を用いる工程、を含み、
前記スコアーとグレードの全てが、学生音声の代表的訓練データベースに亘って収集される、(4)に記載の方法。
(7)前記写像関数が、ニューラルネットで実現される非線形回帰により得られ、このニューラルネットにより、機械スコアーから人間エキスパートグレードへの任意の写像が可能になる、(6)に記載の方法。
(8)写像工程が、パラメータが訓練音長スコアーを用いて設定された決定木又はクラス確率木を用いる工程を含む、(4)に記載の方法。
(9)前記音響セグメンテーションシステムを操作する工程が、
前記音声音響モデルから訓練された隠れマルコフモデル(HMMs)を通る経路を計算する工程であって、前記経路は、前記学生音声サンプルから観測された音響特徴シーケンスを発生する最尤度を有し得るHMMsを通る許容経路である前記工程、及び
前記経路から1音響単位の少なくとも1つの境界又は音長を決める工程、
を含む、(1)に記載の方法。
(10)前記口頭ワードシーケンスが、既知スクリプトに従って話され、そして、
経路計算工程が、HMMsを通る任意経路の許容度を定める際に前記スクリプトを使用する工程を含む、(9)に記載の方法。
(11)前記口頭ワードシーケンスが未知であり、経路計算工程が、前記口頭ワードシーケンスを決めるコンピューター化音声認識システムを操作する工程を含む、(9)に記載の方法。
(12)前記サンプル音響単位が音節であり、そして
少なくとも1つの音響単位の境界又は音長を決める工程が、
前記経路から少なくとも2つの単音の境界又は音長を抽出する工程、及び
少なくとも2つの単音の部分を結合し、音節音響単位の境界又は音長を得る工程、
を含む、(9)に記載の方法。
(13)少なくとも2つの単音の部分を結合する工程が、前記単音から母音単音の中心間の時間差を測定して音節音響単位の音長を得る工程を含む、(12)に記載の方法。
(14)前記サンプル音響単位が単音である、(1)に記載の方法。
(15)前記サンプル音響単位が音節である、(1)に記載の方法。
(16)前記模範音響単位の音長分布モデルが、話者標準化された音響単位の音長モデルであり、音長測定工程が、
前記学生音声サンプルを分析し、学生話者標準化係数を決める工程、及び
前記学生話者標準化係数を用い、前記測定されたサンプル音響単位音長として話者標準化音長を測定する工程、
を含み、それにより、比較工程が、前記話者標準化されたサンプル音響単位の音長を、前記模範話者標準化された音響単位の音長分布モデルと比較する、(1)に記載の方法。
(17)前記学生話者標準化係数が、音声速度である、(16)に記載の方法。
(18)前記セグメンテーションシステムを操作する工程が、分析からサイレンスを有する文脈内の音響単位を除外する、(1)に記載の方法。
(19)前記セグメンテーションシステムを操作する工程が、前記音響セグメンテーションシステムとして音声認識システムを操作する工程を含む、(1)に記載の方法。
(20)学生音声サンプルの発音を評価するためのシステムであって、前記学生音声サンプルは、学生話者による口頭ワードシーケンスから成り、該システムは、
少なくとも1人の話者からの訓練音声データを用いて設定された音声音響モデルであって、前記訓練音声データは、前記口頭ワードシーケンスを必ずしも含まない前記モデル、
前記音声音響モデルに基づいて前記学生音声サンプル内の音響単位を識別するよう構成されたコンピューター化音響セグメンテーションシステム、
前記サンプル音響単位の音長を測定するよう構成された音長抽出器、
模範音響単位の音長モデル、及び
前記サンプル音響単位の音長を模範音響単位の前記音長モデルと比較し、前記サンプル音響単位の音長と模範音声内の音響単位の音長の間の類似性を示す音長スコアーを計算するように構成された音長スコアラー、
を含むシステム。
(21)自動音声処理システムにおいて、学生音声サンプルの発音をグレード付けするための方法であって、
学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入れる工程、
1セットの訓練された音声モデルを操作し、前記音声サンプルから少なくとも1つの事後確率を計算する工程であって、前記事後確率の各々は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率である前記工程、及び
前記事後確率から前記学生音声サンプルに対する発音の質の評価スコアー(ここでは事後ベース評価スコアーという。)を計算する工程、
を含む方法。
(22)前記事後確率の各々は、前記特定既知モデルが前記学生音声サンプルの前記特定部分を発生した尤度を、個々のモデルが前記音声サンプルの前記特定部分を発生した尤度の総和で除することにより、モデル尤度から導出される、(21)に記載の方法。
(23)前記特定の既知モデルが、文脈依存モデルであり、そして
前記個々のモデルが、文脈依存又は文脈独立モデルである、(21)に記載の方法。
(24)前記訓練された音声モデルが、1セットの単音モデルを含み、
前記学生音声サンプルが、単音を含み、そして
前記音声モデルを操作する工程が、単音タイプqiの単音i内の各フレームytに対するフレームベース事後確率を次式
により計算する工程を含み、ここで、p(yt|qi,...)は、単音タイプqiに対応するモデルに従ったフレームytの確率であり、
qについての総和は、全単音タイプに亘って取られ、そして
P(qi)は、単音タイプqiの事前確率を表す、
(21)に記載の方法。
(25)フレームベース事後確率を計算する工程が、分子中の各単音タイプqiに対応する文脈依存モデルを使用し、それにより、前記p(yt|qi,...)は、文脈依存尤度p(yt|qi,ctxi)であり、ここで、ctxiは、文脈を表す、(24)に記載の方法。
(26)前記学生音声サンプルに対して前記事後ベース評価スコアーを計算する工程が、前記単音i内の全フレームのフレームベース事後確率の対数平均を単音iに対して計算する工程を含み、前記平均は、ここでは単音スコアーρiと称し、これは、次式
により表され、ここで、総和は、前記単音iの全てのdiフレームに亘って取られる、(24)に記載の方法。
(27)前記学生音声サンプルに対する前記事後ベース評価スコアーが、前記学生音声サンプル内の各単音iに対する個々の単音スコアーρiの平均として次式
により定義され、ここで、総和は、前記学生音声サンプル内の単音数に亘って取られる、(26)に記載の方法。
(28)各単音タイプに対応するモデルが、ガウシアン混合単音モデルである、(24)に記載の方法。
(29)各単音タイプに対応するモデルが、文脈独立単音モデルである、(24)に記載の方法。
(30)各単音タイプに対応するモデルが、隠れマルコフモデルである、(24)に記載の方法。
(31)前記音声サンプルの前記特定部分が単音である、(22)に記載の方法。
(32)前記事後ベース評価スコアーを、人間聴者により割り当てられ得るようなグレードに写像する工程、及び
前記グレードを前記学生話者に提示する工程、
をさらに含む、(21)に記載の方法。
(33)前記事後ベース評価スコアーをグレードに写像する前記工程が、
種々の熟達レベルの複数の言語学生から1セットの訓練音声サンプルを収集する工程、
前記サンプルを聞く人間エキスパート聴者から、前記訓練サンプルの各々に対する1セットの人間評価グレードを収集する工程、及び
人間エキスパートグレードと前記評価スコアーの間の二乗誤差を最小にすることにより、写像で使用される係数を調節する工程、
を含む、(32)に記載の方法。
(34)前記学生音声サンプルが、音響特徴シーケンスから成り、
前記音声音響モデルから1セットの訓練された隠れマルコフモデル(HMMs)を通る経路を計算する工程であって、前記経路は、前記音響特徴シーケンスを発生する最尤度を有し得るHMMsを通る許容経路である前記工程、及び 前記経路内の単音間の遷移を識別し、それにより単音を定める工程、
をさらに含む、(21)に記載の方法。
(35)経路計算工程が、ヴィテルビ検索技術を用いて実行される、(34)に記載の方法。
(36)前記口頭ワードシーケンスが未知であり、経路計算工程が、前記口頭ワードシーケンスを決めるコンピューター化音声認識システムを用いて実行される、(34)に記載の方法。
(37)サイレンスを有する文脈中のセグメントは、前記学生音声サンプルから、及び前記音声モデルを訓練するのに使用される訓練データから除外される、(21)に記載の方法。
(38)学生音声サンプルの発音を評価するためのシステムであって、前記学生音声サンプルは、学生話者による口頭ワードシーケンスから成り、該システムは、
模範音声の訓練された音声音響モデル、及び
前記訓練された音声モデルを用いて前記音声サンプルから少なくとも1つの事後確率を計算するように構成された音響スコアラーであって、前記音響スコアラーは、前記事後確率から前記学生サンプルの発音の質の評価スコアーを計算するようにも構成され、前記事後確率の各々は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率である前記音響スコアラー、
を含む、システム。
(39)クライアント/サーバー環境における発音訓練用システムであって、学生にプロンプトを提示し且つ前記プロンプトにより引き出された学生音声を受け入れるためのクライアント処理が存在し、前記システムは、
制御情報を前記クライアント処理に送り、前記学生に提示されるプロンプトを指定し、且つ、前記提示されたプロンプトにより引き出された前記学生音声から導出される音声サンプルを受け取るサーバー処理、並びに
前記学生音声サンプルを分析するための、前記サーバー処理によりインボーカブルな発音評価器、
を含むシステム。
(40)前記発音評価器が、訓練音声データを用いて設定され、そして
前記サーバー処理は、プロンプトを指定し、前記学生音声サンプルとして前記訓練音声データ内に必ずしも無いワードシーケンスを引き出すように適応される、(39)に記載のシステム。
(41)前記サーバー処理が、通信チャンネルとは別の音声チャンネル上で前記音声サンプルを受け取り、前記サーバー処理と前記クライアント処理は、前記通信チャンネルを介して通信する、(39)に記載のシステム。
(42)前記クライアント処理と前記サーバー処理が、2つの別々のコンピュータープロセッサー上に配置され、ネットワークを介して通信する、(39)に記載のシステム。
さらに、本発明の別の1組の実施態様を以下に示す。
(1)自動音声処理システムにおいて、学生音声サンプルの発音をグレード付けするための方法であって、
学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入れる工程、
1セットの訓練された音声モデルを操作し、前記音声サンプルから少なくとも1つの事後確率を計算する工程であって、前記事後確率の各々は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率について、競合モデル及び音声サンプルに対応したモデルを含んだ1セットのモデルに対して標準化した確率である前記工程、及び
前記事後確率から前記学生音声サンプルに対する発音の質の評価スコアー(ここでは事後ベース評価スコアーという)を計算する工程
を含む方法。
(2)前記事後確率の各々は、前記特定既知モデルが前記学生音声サンプルの前記特定部分を発生した尤度を、個々の代替モデルが前記音声サンプルの前記特定部分を発生してしまっている尤度のうち最大のもので除することにより、モデル尤度から導出される、(1)に記載の方法。
(3)前記特定の既知モデルが、文脈依存モデルであり、そして
個々のモデルが、文脈依存又は文脈独立モデルである、(2)に記載の方法。
(4)前記事後ベース評価スコアーを、人間聴者により割り当てられ得るようなグレードに写像する工程、及び
前記グレードを前記学生話者に提示する工程、
をさらに含む、(2)に記載の方法。
(5)前記学生音声サンプルが、音響特徴シーケンスから成り、
前記訓練された音声モデルから1セットの訓練された隠れマルコフモデル(HMMs)を通る経路を計算する工程であって、前記経路は、前記音響特徴シーケンスを発生する最尤度を有し得るHMMsを通る許容経路である前記工程、及び前記経路内の単音間の遷移を識別し、それにより単音を定める工程、
をさらに含む、(2)に記載の方法。
(6)経路計算工程が、ヴィテルビ検索技術を用いて実行される、(5)に記載の方法。
(7)前記口頭ワードシーケンスが未知であり、経路計算工程が、前記口頭ワードシーケンスを決めるコンピューター化音声認識システムを用いて実行される、(5)に記載の方法。
(8)学生音声サンプルの発音を評価するためのシステムであって、前記学生音声サンプルは、学生話者による口頭ワードシーケンスから成り、該システムは、
模範音声の訓練された音声音響モデル、及び
前記訓練された音声モデルを用いて前記音声サンプルから少なくとも1つの事後確率を計算するように構成された音響スコアラーであって、前記音響スコアラーは、前記事後確率から前記学生サンプルの発音の質の評価スコアーを計算するようにも構成され、前記事後確率の各々は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率について、競合モデル及び音声サンプルに対応したモデルを含んだ1セットのモデルに対して標準化した確率である前記音響スコアラー、
を含む、システム。
(9)クライアント/サーバー環境における発音訓練用システムであって、学生にプロンプトを提示し且つ前記プロンプトにより引き出された学生音声を受け入れるためのクライアント処理が存在し、前記システムは、
制御情報を前記クライアント処理に送り、前記学生に提示されるプロンプトを指定し、且つ、前記提示されたプロンプトにより引き出された前記学生音声から導出される音声サンプルを受け取るサーバー処理、並びに
前記学生音声サンプルを分析するための、前記サーバー処理によりインボーカブルな発音評価器であって、前記学生音声サンプルの発音の質についての事後確率ベースの評価スコアーを計算するために音響モデルを用いることにより設定される前記発音評価器
を含むシステム。
(10)前記サーバー処理が、通信チャンネルとは別の音声チャンネル上で前記音声サンプルを受け取り、前記サーバー処理と前記クライアント処理は、前記通信チャンネルを介して通信する、(9)に記載のシステム。
(11)前記クライアント処理と前記サーバー処理が、2つの別々のコンピュータープロセッサー上に配置され、ネットワークを介して通信する、(9)に記載のシステム。
Claims (2)
- 自動音声処理システムにおいてコンピューター化音響セグメンテーションシステムを用いて学生音声サンプルの発音を評価するための方法であって、
学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入れる工程、
前記コンピューター化音響セグメンテーションシステムを操作し、前記セグメンテーションシステム内の音声音響モデルに基づいて前記学生音声サンプル内のサンプル音響単位を定める工程であって、前記音声音響モデルは、少なくとも1人の話者からの訓練音声データの音声単位の音長を用いて設定され、前記音声単位の2つ以上が互いに異なる時間長を有し、前記訓練音声データは、前記口頭ワードシーケンスを含まない、前記工程、
前記サンプル音響単位の音長を測定する工程、及び
サンプル音響単位の前記音長を模範音響単位の音長モデルと比較し、前記サンプル音響単位音長と模範音響単位音長の間の類似性を示す音長スコアーを計算する工程、
を含む方法。 - 学生音声サンプルの発音を評価するためのシステムであって、前記学生音声サンプルは、学生話者による口頭ワードシーケンスから成り、該システムは、
少なくとも1人の話者からの訓練音声データの音声単位の音長を用いて設定された音声音響モデルであって、前記音声単位の2つ以上が互いに異なる時間長を有し、前記訓練音声データは、前記口頭ワードシーケンスを含まない前記モデル、
前記音声音響モデルに基づいて前記学生音声サンプル内の音響単位を識別するよう構成されたコンピューター化音響セグメンテーションシステム、
前記サンプル音響単位の音長を測定するよう構成された音長抽出器、
模範音響単位の音長モデル、及び
前記サンプル音響単位の音長を模範音響単位の前記音長モデルと比較し、前記サンプル音響単位の音長と模範音声内の音響単位の音長の間の類似性を示す音長スコアーを計算するように構成された音長スコアラー、
を含むシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US2763896P | 1996-10-02 | 1996-10-02 | |
US93541497A | 1997-09-23 | 1997-09-23 | |
US60/027,638 | 1997-09-23 | ||
US08/935,414 | 1997-09-23 | ||
PCT/US1997/017888 WO1998014934A1 (en) | 1996-10-02 | 1997-10-01 | Method and system for automatic text-independent grading of pronunciation for language instruction |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006316196A Division JP2007171944A (ja) | 1996-10-02 | 2006-11-22 | 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002515136A JP2002515136A (ja) | 2002-05-21 |
JP2002515136A5 JP2002515136A5 (ja) | 2005-03-10 |
JP4394752B2 true JP4394752B2 (ja) | 2010-01-06 |
Family
ID=26702729
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP51691198A Expired - Lifetime JP4394752B2 (ja) | 1996-10-02 | 1997-10-01 | 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム |
JP2006316196A Ceased JP2007171944A (ja) | 1996-10-02 | 2006-11-22 | 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006316196A Ceased JP2007171944A (ja) | 1996-10-02 | 2006-11-22 | 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1010170B1 (ja) |
JP (2) | JP4394752B2 (ja) |
AT (1) | ATE440359T1 (ja) |
DE (1) | DE69739545D1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4753412B2 (ja) * | 2005-01-20 | 2011-08-24 | 株式会社国際電気通信基礎技術研究所 | 発音評定装置、およびプログラム |
JP4811993B2 (ja) * | 2005-08-23 | 2011-11-09 | 株式会社国際電気通信基礎技術研究所 | 音声処理装置、およびプログラム |
JP5066668B2 (ja) * | 2005-11-08 | 2012-11-07 | 株式会社国際電気通信基礎技術研究所 | 音声認識装置、およびプログラム |
JP4962930B2 (ja) * | 2005-11-08 | 2012-06-27 | 株式会社国際電気通信基礎技術研究所 | 発音評定装置、およびプログラム |
CN1851779B (zh) * | 2006-05-16 | 2010-04-14 | 黄中伟 | 多种语言适用的聋哑人语音学习计算机辅助方法 |
CN105940395B (zh) | 2014-01-31 | 2019-07-16 | 谷歌有限责任公司 | 生成文档的矢量表示 |
KR102192678B1 (ko) * | 2015-10-16 | 2020-12-17 | 삼성전자주식회사 | 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치 |
JP2020187713A (ja) * | 2019-05-13 | 2020-11-19 | 知記 松田 | Ai先生 |
CN112951277B (zh) * | 2019-11-26 | 2023-01-13 | 新东方教育科技集团有限公司 | 评测语音的方法和装置 |
JP2022045256A (ja) * | 2020-09-08 | 2022-03-18 | 株式会社Screenホールディングス | 教師データ作成支援装置、教師データ作成支援システムおよび教師データ作成支援方法 |
CN116071764B (zh) * | 2023-03-28 | 2023-07-14 | 中国人民解放军海军工程大学 | 基于原型网络的手写汉字识别方法、装置、设备及介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4799261A (en) * | 1983-11-03 | 1989-01-17 | Texas Instruments Incorporated | Low data rate speech encoding employing syllable duration patterns |
JPH07117809B2 (ja) * | 1984-02-02 | 1995-12-18 | 松下電器産業株式会社 | 発音練習装置 |
JPS61118799A (ja) * | 1984-11-14 | 1986-06-06 | 富士通株式会社 | 発声訓練装置 |
JPS62299899A (ja) * | 1986-06-19 | 1987-12-26 | 富士通株式会社 | よう音・直音言い分け評価方式 |
JP2739950B2 (ja) * | 1988-03-31 | 1998-04-15 | 株式会社東芝 | パターン認識装置 |
JP2704216B2 (ja) * | 1988-09-29 | 1998-01-26 | 日本電信電話株式会社 | 発音評価法 |
JP2834471B2 (ja) * | 1989-04-17 | 1998-12-09 | 日本電信電話株式会社 | 発音評価法 |
GB9223066D0 (en) * | 1992-11-04 | 1992-12-16 | Secr Defence | Children's speech training aid |
JP2775140B2 (ja) * | 1994-03-18 | 1998-07-16 | 株式会社エイ・ティ・アール人間情報通信研究所 | パターン認識方法、音声認識方法および音声認識装置 |
-
1997
- 1997-10-01 JP JP51691198A patent/JP4394752B2/ja not_active Expired - Lifetime
- 1997-10-01 EP EP97945476A patent/EP1010170B1/en not_active Expired - Lifetime
- 1997-10-01 AT AT97945476T patent/ATE440359T1/de not_active IP Right Cessation
- 1997-10-01 DE DE69739545T patent/DE69739545D1/de not_active Expired - Lifetime
-
2006
- 2006-11-22 JP JP2006316196A patent/JP2007171944A/ja not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
JP2007171944A (ja) | 2007-07-05 |
EP1010170A1 (en) | 2000-06-21 |
ATE440359T1 (de) | 2009-09-15 |
DE69739545D1 (de) | 2009-10-01 |
JP2002515136A (ja) | 2002-05-21 |
EP1010170B1 (en) | 2009-08-19 |
EP1010170A4 (en) | 2008-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6055498A (en) | Method and apparatus for automatic text-independent grading of pronunciation for language instruction | |
JP2007171944A (ja) | 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム | |
US8209173B2 (en) | Method and system for the automatic generation of speech features for scoring high entropy speech | |
US6366883B1 (en) | Concatenation of speech segments by use of a speech synthesizer | |
Wei et al. | A new method for mispronunciation detection using support vector machine based on pronunciation space models | |
US8818813B2 (en) | Methods and system for grammar fitness evaluation as speech recognition error predictor | |
KR19980701676A (ko) | 음조 언어(tonal language) 인식을 위해 콘텍스트 의존형(context dependent) 부음절(sub-syllable) 모델을 생성하고 사용하기 위한 시스템 및 방법 | |
JPH09127972A (ja) | 連結数字の認識のための発声識別立証 | |
JPH10222190A (ja) | 発音測定装置および方法 | |
JP2002040926A (ja) | インターネット上での自動発音比較方法を用いた外国語発音学習及び口頭テスト方法 | |
JP5007401B2 (ja) | 発音評定装置、およびプログラム | |
Yusnita et al. | Malaysian English accents identification using LPC and formant analysis | |
Athanaselis et al. | Making assistive reading tools user friendly: A new platform for Greek dyslexic students empowered by automatic speech recognition | |
Kyriakopoulos et al. | A deep learning approach to assessing non-native pronunciation of English using phone distances | |
KR100362292B1 (ko) | 음성인식 기술을 이용한 영어 발음 학습 방법 및 시스템 | |
Chen et al. | Automatic pronunciation assessment for Mandarin Chinese | |
Yousfi et al. | Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation | |
JP4753412B2 (ja) | 発音評定装置、およびプログラム | |
Barczewska et al. | Detection of disfluencies in speech signal | |
Ridhwan et al. | Differential Qiraat Processing Applications using Spectrogram Voice Analysis | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
Xu | Evaluation of English Pronunciation Interaction Quality Based on Deep Learning | |
WO1994015330A1 (en) | Method and apparatus for automatic evaluation of pronunciation | |
Ibrahim et al. | Predicting regional accents of Bengali language using deep learning | |
Wade et al. | Acoustic-based fluency classification using LSTM-Attention with computationally-cheap data augmentation for an adaptive voicebot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040616 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060523 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060822 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20061006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061122 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070926 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20071129 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20080925 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20090611 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090624 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090813 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20090813 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091016 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121023 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121023 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131023 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |