JP2002515136A - 言語命令のための発音をテキスト独立自動グレード付けする方法及びシステム - Google Patents

言語命令のための発音をテキスト独立自動グレード付けする方法及びシステム

Info

Publication number
JP2002515136A
JP2002515136A JP51691198A JP51691198A JP2002515136A JP 2002515136 A JP2002515136 A JP 2002515136A JP 51691198 A JP51691198 A JP 51691198A JP 51691198 A JP51691198 A JP 51691198A JP 2002515136 A JP2002515136 A JP 2002515136A
Authority
JP
Japan
Prior art keywords
model
acoustic
student
sample
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP51691198A
Other languages
English (en)
Other versions
JP2002515136A5 (ja
JP4394752B2 (ja
Inventor
ニユウメイヤー,レオナルド
フランコ,ホラシオ
ウエイントラウブ,ミツチエル
プライス,パテイ
デイガラキス,ヴアツシリオス
Original Assignee
エス・アール・アイ・インターナシヨナル
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エス・アール・アイ・インターナシヨナル filed Critical エス・アール・アイ・インターナシヨナル
Priority claimed from PCT/US1997/017888 external-priority patent/WO1998014934A1/en
Publication of JP2002515136A publication Critical patent/JP2002515136A/ja
Publication of JP2002515136A5 publication Critical patent/JP2002515136A5/ja
Application granted granted Critical
Publication of JP4394752B2 publication Critical patent/JP4394752B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 音響特徴(111)が、入力音声(107)から抽出され(109)、事前保存モデル(117)と比較される。その結果が、ユーザーの発音(115)の審査に使用される。

Description

【発明の詳細な説明】 言語命令のための発音をテキスト独立自動グレード付けする方法及びシステム 関連出願の説明 この特許出願は、1996年10月2日付提出の米国仮出願第60/027, 638号による優先権を主張する。この仮出願の内容は、ここで文献として援用 される。 著作権についての注意 この特許書類の明細書の一部は、著作権保護を受けるものを含む。著作権所有 者は、特許書類又は特許明細書が特許商標庁の特許ファイル又は記録に入れられ ている間にそれを何人が複写、複製しても異論はないが、その他の場合にはどん な著作権も全て保有する。 発明の背景 本発明は、音声発音の質の自動評価に関する。例えば、コンピューター支援言 語命令及び評価に適用される。 本発明の実施態様に関連する技術は、共に譲渡された米国出願第08/375 ,908号、名称「個別話者に適応した音声認識の方法及び装置(METHOD AND AP PARATUS FOR SPEECH RECOGNITION ADAPTED TO AN INDIVIDUAL SPEAKER)」、米国 出願第08/276,742号、名称「最適化部分混合結びを用いた音声認識の 方法及び装置(METHOD AND APPARATUS FOR SPEECH RECOGNITION USING OPTIMIZED PARTIAL MIXTURE TYING)」、米国特許第5,634,086号、名称「ボイス インターラクティブ言語命令のための方法及び装置(METHOD AND APPARATUS FOR VOICE-INTERACTIVE LANGUAGE INSTRUCTION)」、及び米国特許第5,581,6 55号、名称「言語的に動機付けられた隠れマルコフモデルを用いて音声を認識 する方法(METHOD FOR RECOGNIZING SPEECH USING LINGUISTICALLY-MOTIVATED HI DDEN MARKOV MODELS)」において説明されており、これらの出願及び特許は、こ こで文献として援用される。 隠れマルコフモデルを用いた関連の音声認識技術は、V.Digalakis及びH.Mur veitによる「GENONES:Generalized Mixture-Tying in Continuous Hidden-Marko v-Model-Based Speech Recognizers」、IEEE Transactions on Speech and Audi o Processing 、Vol.4、1996年7月、にも記載されており、ここで文献 として援用される。 言語学生の聞き取り及び読み取り理解技術を訓練するコンピューター支援言語 命令システムが存在する。このようなシステムは有用的ではあるが、学生の言語 生成技術も訓練できる能力をコンピューター利用言語命令システムに加えること が望ましい。特に、コンピューター利用言語命令システムが学生の発音の質を評 価できることが望ましい。 自動発音評価に対する従来技術のアプローチが、本発明の譲受人により所有さ れている上記文献に記載されている。Bernstein他による「英語発音における自 動評価及び訓練(Automatic Evaluation and Training in English Pronunciatio n)」、Internat.Conf.on Spoken Language Processing、1990年、神戸、 日本、を参照のこと。この従来技術のアプローチは、事前選択されたスクリプト を読んでいる学生からの音声発話(speech utterances)を評価することに限定さ れており、このスクリプトに対して訓練データがネイティブ話者から収集されて いる。この従来技術のアプローチは、特定の語、句又は文に関する統計に基づく ので、テキスト依存評価(text-dependent evaluation)と称される。 上記従来技術のアプローチは、評価システムを訓練するのに使用された訓練デ ータに含まれない特定の発話の評価ができないので、有効性において大いに制限 される。そのため、発音評価を要するために新しいスクリプトを加えなければな らないときはいつでも、評価システムの再訓練が必要となる。 必要とされるのは、任意の発話、すなわち訓練データが無いか又は不完全な訓 練データしか存在しないようなワードシーケンスにより構成された発話でさえグ レード付けできる発音の質の自動評価方法及びシステムである。必要とされるこ のタイプのグレード付けは、テキスト独立グレード付け(text-independent grad ing)と言われる。 従来技術のアプローチは、例えばスペクトル尤度スコアー(spectral likeliho od score)のような特定タイプの評価スコアーのみを発生できる点において、さ らに制限される。従来技術のアプローチは、その評価スコアーを用いて初歩レベ ルの性能を達成できるが、そのレベルは、人間の聴者により達成されるレベルと 比べると相当制限されている。従って、また必要とされるものは、性能を向上で きるより強力な評価スコアーを含む、発音の質を自動評価する方法及びシステム である。 用語解説 この技術では、しばしば同じ用語が、異なる文脈において非常に異なる意味で 用いられる。明瞭にするため、この明細書では、文脈が他の意味を要求しない限 り、以下の定義を適用する。 グレード(Grade):人間のエキスパート聴者により使用されるようなグレード スケールに基づいた、話者又は音声発話の発音の質の評価。グレードは、人間又 は機械により発生され得る。 スコアー(Score):音声発話に適用されるようなスコアー化関数又はアルゴリ ズムに従って機械により発生される値。 音響特徴フレーム(AFrame of Acoustic Features):後続の処理及び分析のた めに特徴抽出器によ生成された短時間フレーム内の音声サウンドの特性化。例え ば、シフトした20msウインドウ内で10ms毎に音響特徴を計算する特徴抽 出器は、10ms毎に1「音響特徴フレーム」を生成すると言われる。一般に、 1つの音響特徴フレームはベクトルである。 音響セグメント(Acoustic Segments):音声の時間セグメントであって、その 境界(又は音長)が、音声の音響特性に基づいた音声セグメンター(segmenter) により決められる前記時間セグメント。本発明の実施態様では、音声セグメンタ ーにより生成される音響セグメントの各々は、「単音(phone)」である。 単音(Phone):所与の言語における基本音声サウンド単位。一般に、所与の言 語における全ての音声発話は、言語に対する1セットの個別単音タイプから選ば れた単音により表され得る。個別単音タイプの数は、40のオーダーである。音響単位(Acoustic Units):音声の時間セグメントであって、その音長は、発 音の質を表すスコアーを発生するのに使用される前記時間セグメント。本発明の 実施態様では、音響単位は、単に、音声セグメンターにより作られた音響セグメ ントである。別の実施態様では、音響単位は、音声セグメンターにより作られる 音響セグメントの境界(又は音長)に基づいて音長が決められる「音節(syllabl es)」である。 発明の概要 本発明により、音響単位の音長と事後確率ベース評価を含んだ発話上の1以上 のメトリクス(metrics)に基づいて、任意の音声発話の発音の質を評価するため の方法及びシステムが与えられる。 本発明の特定の実施態様は、コンピューター化された音響セグメンテーション システムを用いて学生の音声サンプルの発音を評価する方法である。この方法は 、学生話者による口頭(すなわち話された)ワードシーケンスを含んだ学生音声 サンプルを受け入れる工程、コンピュータ化された音響セグメンテーションシス テムを操作し、セグメンテーションシステム内の音声音響モデルに基づいて学生 音声サンプル内の音響単位を定める工程であって、音声音響モデルは、少なくと も1人の話者からの訓練音声データを用いて設定され、訓練音声データは、口頭 ワードシーケンスを必ずしも含む必要はない前記工程、サンプル音響単位の音長 を測定する工程、及びサンプル音響単位の音長をモデルの模範音響単位の音長と 比較し、サンプル音響単位の音長と模範音響単位の音長の間の類似性を表す音長 スコアーを計算する工程を含む。 別の特定実施態様では、音長スコアーは、グレードにさらに写像され、そのグ レードが学生話者に示される。 別の特定実施態様では、口頭ワードのシーケンスは既知ではなく、コンピュー ター化された音声認識システムが操作されて、口頭ワードのシーケンスが求めら れる。 本発明の別の特定実施態様は、学生音声サンプルの発音をグレード付ける方法 である。この方法は、学生話者により口頭ワードのシーケンスを含んだ学生音声 サンプルを受け入れる工程、1セットの訓練された音声モデルを操作し、音声サ ンプルから少なくとも1つの事後確率を計算する工程であって、事後確率の各々 は、学生音声サンプルの特定部分が特定の既知モデルが与えられた音声サンプル の特定部分に対応する確率である前記工程、及び事後確率から学生サンプルに対 する発音の質の評価スコアー(ここでは、事後ベースの評価スコアーと称される 。)を計算する工程を含む。 別の特定実施態様では、事後ベースのスコアーが、さらに、人間のグレーダー (grader)により割り当てられ得るグレードに写像され、そのグレードが学生話者 に示される。 本発明のさらに別の特定実施態様は、学生話者による口頭ワードシーケンスを 含んだ学生音声サンプルの発音を評価するシステムである。このシステムは、模 範音声の訓練された音声音響モデル、及び訓練された音声モデルを用いて音声サ ンプルから少なくとも1つの事後確率を計算するよう構成された音響スコアラー (scorer)を含み、音響スコアラーは、事後確率から学生サンプルの発音の質の評 価スコアーを計算するようにも構成され、事後確率の各々は、学生音声サンプル の特定部分が、音声サンプルの特定部分が与えられた特定の既知モデルに対応す る確率である。 本発明のさらに別の特定実施態様は、学生にプロンプトを示してプロンプトに より引き出された学生音声を受け入れるクライアント処理が存在するクライアン ト/サーバー環境において発音訓練するためのシステムである。このシステムは 、制御情報をクライアント処理に送り学生に示されるべきプロンプトを指定し、 かつ、示されたプロンプトにより引き出される学生音声から導出された音声サン プルを受け取るサーバー処理、及び学生音声サンプルを分析するためサーバー処 理によりインボ一カブルな(invocable)発音評価器を含む。 本発明の特性及び効果は、明細書の残りの部分及び図面を参照してさらに理解 され得る。 図面の簡単な説明 図1は、発音の質を評価するためのシステムのブロック図である。 図2は、図1の発音スコアラーのブロック図であり、これは本発明の実施態様 に従って音響単位の音長に基づいて発音スコアーを生成する。 図3は、図2の音声セグメンターを示すブロック図であり、これは本発明の実 施態様による隠れマルコフモデル(HMM)音声認識器である。 図4は、サンプル入力音声に対する最尤経路の一部を示す図である。 図5は、本発明の実施態様に従って音響特徴111自身に直接基づいて音響ス コアーを計算するためのシステムのブロック図である。 図6は、本発明の実施態様に従って異なる発音スコアーを結合するシステムの ブロック図である。 図7は、人間のグレーダーにより作られ得る発音グレードに1以上のタイプの 機械スコアーを写像する図6の写像関数を作るためのシステムのブロック図であ る。 図8は、発音の質を評価する言語命令分散システムのブロック図である。 特定実施態様の説明 I.自動発音評価 図1は、本発明の実施態様により発音の質を評価するためのシステム101の ブロック図である。図1では、音声入力装置103が、話者105からの口頭( すなわち話された)ワードのシーケンスを機械読み取り可能な入力音声107に 変換する。特徴抽出器109は、入力音声107を時間フレームに分割し、各時 間フレームに対して、時間フレーム内の音声サウンドの識別特性を捕らえた音響 特徴を計算する。このようにして、特徴抽出器109は、音響特徴フレーム11 1のシーケンスを作る。入力音声107及び音響特徴フレームのシーケンスは、 両方とも話者105の音声を表し、従って、その各々が「学生音声サンプル」と 称される。 発音スコアラー113は、入力音声107の発音の質を示す少なくとも1つの 発音スコアー115を音響特徴111から計算する。発音スコアー115を計算 する際、発音スコアラー113は、所望の、すなわち模範的な音声発音の種々の 側面を特徴付ける音声モデル117を利用する。音声モデル117は、模範話者 からの訓練音声を用いて設定される。 本発明の幾つかの実施態様では、オプションのスコアー−グレード写像器11 9が、発音スコアー115を受け入れ、人間のエキスパートのグレーダーにより 与え得るような発音グレード121にそれらのスコアーを写像する。 発音評価システム101の動作中、入力音声107、音響特徴111、発音ス コアー115、及び発音グレード121を含んだ種々のデータが、後に使用する ため記憶装置に記憶され得る。 本発明の実施態様では、音響特徴111は、音声認識タスクにおいて使用され る特徴を含み、これらは、当該技術では公知であり、例えば上記’発明の背景’ セクションにて参照引用された引用文献に説明されている。例えば、本発明の一 実施態様では、音響特徴111は、シフトした20msウインドウ内において1 0ms毎に計算された12次メルーセプストラム(mel-cepstra)特徴、及びこれ らの特徴の近似微分(approximate derivatives)を含む。 本発明の一実施態様では、音声入力装置103は電話であり、入力された音声 107は、電話ネットワークを通って特徴抽出器109に送られる。この実施態 様により、学生が電話にアクセスするという条件で、学生の話した発音を本発明 により評価することができる。 本発明の一実施態様では、音声入力装置103は、例えば、オーディオデジタ ル化用ハードウエアー及びソフトウエアーを含むリモート「クライアント」計算 システムに接続されたマイクロフォンのようなデジタル化マイクロフォンシステ ムである。入力音声107は、デジタル形式にて(例えば、ストリーミングオー ディオ又は圧縮されたオーディオファイルとして)デジタルネットワーク、例え ばローカルエリアネットワーク及び/又はインターネットを通って、ローカル「 サーバー」計算システム上に存在する特徴抽出器109に送られる。この実施態 様により、学生がデジタルネットワークに接続されたデジタル化マイクロフォン システムにアクセスするという条件で、学生が話した発音を本発明により評価す ることができる。 本発明の一実施態様では、音声入力装置103と特徴抽出器109は、少なく とも1つのリモート計算システム上に存在し、音響特徴111は、ネットワーク 、例えばインターネットを通って、ローカル計算システムに存在する発音スコア ラー113に送られる。この実施態様により、ネットワークを通って送られる必 要のあるデータ量が低減される。というのは、一般に音響特徴111は、この実 施態様での入力音声107自身よりもよりコンパクトな音声表現であるからであ る。この実施態様により、ローカル計算システムに要求される計算量もまた低減 される。 II.音響単位の音長を用いた発音のスコアー化 図2は、本発明の実施態様による図1の発音スコアラー113のブロック図で あり、音響単位の音長に基づいて発音スコアー115を生成する。図2では、音 声セグメンター203は、音響特徴111のシーケンスを受け入れ、それらから 音響セグメントを特定する時間−セグメンテーション205を作る。音響セグメ ンテーション205は、音響セグメントの表現であり、それにより、それらの音 長が決められ得る。一実施態様では、音響セグメンターション205は、各音響 セグメントの時間−境界に加えて各音響セグメントの音長を含む。(一般に、セ グメント境界は、音長を定め、音長のシーケンスは、シーケンス内に単一の境界 が与えられたセグメント境界を定めることに留意されたい。従って、境界を使用 するとして説明されたシステムコンポーネントは、一般に代替され得るが、音長 、又は音長及び境界を用いるとして説明された等価物とし得る。) 音響単位音長抽出器207は、音響セグメンテーション205を受け入れる。 音響セグメンテーション205から、音響単位音長抽出器207は、音響単位の 音長209を回復又は計算する。 音響単位音長スコアラー211は、音響単位音長209を受け入れ、それらを 模範音響単位音長のモデル213と比較する。このモデルは、模範話者からの訓 練音声を用いて設定されたものである。この比較に基づいて、音響単位音長スコ アラー211は、図1の発音スコアー115として音響単位音長スコアー115 を計算する。音響単位音長モデル213は、図1の音声モデル117の一部を形 成する。本発明の実施態様では、音響単位音長モデル213は、パラメトリック なモデル又は非パラメトリックなモデルとし得る。本発明の別の実施態様では、 音響単位音長モデル213は、模範音声からの例音響単位音長を単に含む。 例えば電話回線を通して伝送される音声のように大きなノイズや歪みを加える チャンネルを介して学生話者105の音声が受け取られるとき、音響単位音長ス コアーは発音の質の特に重要な指標であることが分かった。 本発明の一実施態様では、音声入力装置103(図1)、特徴抽出器109( 図1)、及び音声セグメンター203は、全て1以上のリモート計算システム上 に存在し、音響セグメンテーション205のみ又は音響単位音長209のみが、 例えばインターネットのようなネットワークを通って、ローカル計算機械上に存 在する音響単位音長スコアラー211に送られる。この実施態様により、リモー ト計算システムにより多くの計算を実行するよう要求することで、ネットワーク を通って送られる必要のあるデータ量、及びローカル計算システムに要求される 計算量が著しく低減される。 本発明の実施態様では、音声セグメンター203は、音響特徴111を単音た る音響セグメントにセグメント化する。音声セグメンター203は、各単音のタ イプを識別もする。音響セグメンテーション205は、例えば音響特徴111の シーケンス内へのインデックスとして表された単音境界や各単音の単音タイプラ ベルの形式のセグメント情報を含む。 II.A.単音の音長 本発明の特定実施態様では、単音音長に基づいて音長スコアー115が計算さ れる。音声セグメンター203は、音響特徴111を単音たる音響セグメントに セグメント化する。音響単位音長抽出器207は、単に単音自身として音響単位 を定める。従って、これらの実施態様における音響単位音長抽出器207は、音 響単位音長209として単音音長を非常に単純に抽出する。特に、単音セグメン テーション205が明白に単音音長を含む実施態様では、音響単位音長抽出器2 07は、音響単位音長209として存在する単音音長を単に使用する。単音セグ メンテーション205が単音境界のみを有する単音セグメンテーションを表す実 施態様では、音響単位音長抽出器207は、単音境界から音響単位音長を計算す る算術減算器である。 本発明の特定の単音−音長−スコアー化実施態様では、音響単位音長モデル2 13は、単音タイプqが与えられた模範音声中の単音音長dの分離確率分布Pd (d|q)を含む。例えば、所与の言語を規定する例えば45個の単音タイプを 用いるよう構成されたシステムは、45個の確率分布を有し、その1つは各単音 タイプに対する。 特定実施態様では、各単音タイプの音長確率分布は、例えばガウシアン分布の ようなパラメトリック分布として表される。これらの分布のパラメータは、模範 話者からの訓練音声にあるような各タイプの単音の音長を用いて、標準統計推定 方法により推定される。 他の好適な実施態様では、各単音タイプの音長確率分布は、(非パラメトリッ ク)確率マス(mass)関数として表される。これらの確率分布は、模範話者からの 訓練音声にあるような各タイプの単音の音長を表にすることにより設定される。 訓練音声の有限量のみが利用できるという条件でモデルのロバストネス(robustn ess)を維持するために、各確率マス関数が平滑化され、確率フロアー(floor)が 導入される。訓練音声の単音音長は、テスト中に入力音声107の単音音長20 9が求められるのと同じ方法にて、訓練中に求められる。すなわち、特徴抽出器 109、音声セグメンター203、及び音響単位音長抽出器207が使用される 。 特定の単音−音長−スコアー化実施態様における音響単位音長スコアラー21 1は、各単音iの音長diの対数確率ρiを次式により計算する。 ここで、qiは単音iの単音タイプである。 音響単位音長スコアラー211は、発話全体に対して、各単音iの音長の対数 確率ρiの平均として音響単位音長スコアー115 ρを次式により計算する。 ここで、総和は、発話中の単音数Nに亘って取られる。 好適実施態様では、音響単位音長モデル213は、話者標準化された単音音長 である単音音長d’の確率分布Pd'(d’|q)を含む。従って、音響単位音長 スコアラー211は、発話全体に対して、各単音iの話者標準化音長d'iの対数 確率の平均として音響単位音長スコアー115を計算する。 話者標準化単音音長は、問題の話者の音声速度が乗じられた単音音長である。 音声速度(ROS)は、話者により1秒当たり発話される単音数である。各模範 話者の音声速度は、訓練音声から計算される。学生話者105の音声速度は、音 響セグメンテーション自身を含めて話者の利用可能なデータから計算される。 以下の式は、好適実施態様における話者標準化された単音音長の使用をまとめ たものである。 II.B.音節の音長 本発明の特定実施態様では、「音節」の音長に基づいて音長スコアー115が 計算される。音声速度の標準化(後に説明)の後でさえ音節音長が発音の質の良 い指標であることの一つの説明は、言語学習者は、彼らのネイティブ言語のリズ ムを学習言語に課する傾向があることである。例えば、英語は、強勢拍である(s tress-timed)傾向にあり(すなわち、強勢される音節は延ばされ、その他は短く される傾向にある)、一方、スペイン語とフランス語は、音節拍である(syllabl e-timed)傾向にある。 これらの音節−音長−スコアー化実施態様では、音響単位音長抽出器207が 、音声セグメンター203により特定されるような単音の音長に基づいて「音節 」たる音響単位の音長を求める。特に、音響単位音長抽出器207は、音声内で の母音単音の中心間の音長として音節音長を決める。 特定の音節−音長−スコアー化実施態様では、音響単位音長モデル213は、 任意の音節の音節音長sdの単一の確率分布Psd(sd)を含む。この確率分布 は、模範話者からの訓練音声にある全ての音節の音長を表にすることにより設定 される。訓練音声の音節音長は、テスト中に求められる入力音声107の音節音 長209と同様にして訓練中に求められる。すなわち、特徴抽出器109、音声 セグメンター203、及び音響単位音長抽出器207が使用される。音長確率分 布は、確率マス関数として表される。訓練音声の有限量のみが利用できるという 条件で、モデルのロバストネスを維持するために、確率マス関数が平滑化され、 確率フロアーが導入される。 好適実施態様では、各音節jに対する音節音長sdjは、上記のように話者の 音声速度(ROS)を乗じることによりテスト及び訓練中に標準化され、話者標 準化された音節音長sd'jが得られる。以下の式は、好適な音節−音長−スコア ー化実施態様において話者標準化された音節音長の使用をまとめたものである。 II.C.特定音節を用いた音節音長 本発明の他の実施態様では、全ての音節に対して上記説明した方法に類似の方 法にてスコアー化するために、特定音節の音節音長が使用される。これらの実施 態様では、音響単位音長抽出器207は、音響セグメンテーション205から音 節音長を回復する。音長スコアラーは、これらの音長を模範音声における音節音 長モデル213と比較し、音節音長スコアー115を計算する。 音節音長モデル213は、言語中の音節の部分集合に対する音長の確率分布を 含む。これらの音節は、音長分布を推定し得る十分な訓練音声データが存在した ものである。音長スコアラーは、学生音声サンプルからの音節を音節音長モデル 213と比較し、音長が音節音長モデル213内でモデル化される学生音声サン プルのそれらの音節に基づいて、音節音長発音スコアーを導出する。 II.D.ワードの音長 本発明の他の実施態様では、音節に対して上記説明した方法と類似の方法にて スコアー化するために、ワード音長が使用される。これらの実施態様では、音響 単位音長抽出器207は、音響セグメンテーション205からワード音長を回復 する。音長スコアラーは、これらの音長を模範音声におけるワードモデル213 と比較し、ワード音長スコアー115を計算する。 ワード音長モデル213は、言語におけるワードの部分集合に対する音長の確 率分布を含む。これらのワードは、音長分布を推定し得る十分な訓練音声データ が存在したものである。音長スコアラーは、学生音声サンプルからのワードをワ ード音長モデル213と比較し、音長がワード音長モデル213内でモデル化さ れる学生音声サンプルのそれらのワードに基づいて、ワード音長発音スコアーを 導出する。 III.音響セグメンテーションのためのHMM音声認識器 図3は、図2の音声セグメンター203を示すブロック図であり、これは、本 発明の特定実施態様ではHMM音声認識器203である。HMM音声認識器は、 当該技術において公知であり、例えば’発明の背景’セクションにおいて援用引 用された文献に記載されている。 マルコフモデル(MM)は、方向付けされた遷移ブランチにより接続された状 態のネットワークである。HMM音声認識器203は、マルコフモデルを使用し て音声サウンドの生成をモデル化する。HMM認識器203は、言語中の各タイ プの単音を、少数の接続状態により構成された単音モデルにより表す。(特定実 施態様では、大抵の単音タイプに対して1単音モデル当たり3つの状態を使用す る。)HMM認識器203は、「三−単音(tri-phone)」モデルを含んだ追加的 な文脈依存の単音モデルも与え、これは、特定の他の単音タイプが先行及び/又 は後続するとき、各単音タイプを表す。HMM認識器203は、休止単音をも含 み、これは、音声中にワード間で発生する休止をモデル化する。文脈依存及び休 止単音モデルを含む単音モデルは、HMM認識器203内で音響モデル305を 形成する。 音声HMMの各状態は、その状態にあるとき生成された音響特徴の関連確率分 布を有する。(これらの出力分布は、遷移ブランチに関連しているように、文献 中に代替的ではあるが等価的に記載されている。)出力分布は、文献中に記載さ れているように、ガウシアン分布、又はガウシアン分布などの重き付き混合であ り得る。特定実施態様のHMM認識器203では、ガウシアン分布の重み付き結 び混合(weighted tied mixtures)である出力分布が使用される。重み付き結び混 合は、音声認識の技術においては公知である。特定実施態様のHMM認識器20 3を実現するよう構成され得る標準HMM音声認識器は、メンロパーク(Menlo P ark)、カリフォルニア、SRI InternationalによるDECIPHERシステムである。 マルコフモデルにおける各遷移ブランチは、ブランチのソース状態からそのデ スティネーション状態に遷移する確率を示す遷移確率を有する。所与の任意状態 からの全遷移確率は、自己遷移確率を含めて、合計が1になる。 音声HMMにおける全ての状態に対する出力及び遷移確率分布は、前方−後方 (Baum-Welch)アルゴリズムを含んだ標準HMM訓練アルゴリズム及び技術を用い て、訓練音声データから設定される。このような訓練が実行され得る標準HMM ベース音声認識器は、メンロパーク、カルフォルニア、SRI Internationalに よるDECIPHERシステムである。 本発明により、入力音声107にある口頭ワードシーケンスを含むために、訓 練音声は必要とされない。入力音声107にある口頭ワードシーケンスからの個 々のワードを含むためにさえ、これらの訓練音声は必要とされない。 辞書307は、言語におけるワードのカタログであり、各ワードを構成するコ ンポーネント単音タイプを定める。本発明の幾つかの実施態様では、辞書307 は、各ワード内での単音タイプから単音タイプへの任意に割り当てられた遷移確 率をも含む。文法309は、言語において許容されるワード対ワードの遷移を規 定する。特定実施態様の文法309は、それぞれのワード対間の文脈フリーなワ ード対ワードの遷移確率を特定する「バイーグラム(bi-gram)」である。また、 文法309により、ワード間の選択休止単音が、音声中にワード間の可能な休止 をモデル化することができる。文法309により、休止単音がスキップされ得る 。文法309は、出力されたいずれの音響特徴にも対応しない遷移弧としてスキ ップを与える。 文法309と辞書307は共に、単音間の許容されうるリンク、従って、許容 されうるワード及び文を特定する文法ネットワーク310を形成する。文法、辞 書、及び文法ネットワークは、HMM音声認識器の公知要素である。文法ネット ワーク310と単音音響モデル305は、音声モデル117(図1)の一部を形 成する。 全ての単音モデル305に加えて辞書307及び文法309は、巨大な仮想ネ ットワークと考えることができ、「HMMs」又は「認識HMM」と称される。 HMM認識器203は、HMMs内の状態を通る経路を通過することにより生成 されたような話されたあらゆる文をモデル化する。一般に、音響特徴のフレーム は、この経路に沿って各時間ステップにて生成される。(しかしながら、例えば 「スキップ」遷移のような幾つかの状態遷移は、時間を要さず、出力を生成しな い。)経路は、通過された状態のシーケンスを識別する。経路は、シーケンスの 各状態での消費時間の音長も識別し、それにより、文中の各単音及び各ワードの 時間−音長を定める。別言すれば、経路は、HMMsの対応する状態シーケンス に対するフレーム111のシーケンスの「整列(alignment)」を規定する。 図3では、HMM音声認識器203は、単にその音声認識の通常の目的のため だけでなく、音声を成分単音に時間−セグメント化するためにも動作する。図3 では、HMM認識器203は、音響特徴111を受け入れる。HMM認識器20 3は、単音音響モデル305、辞書307、及び文法309により特定される隠 れマルコフモデル(HMMs)を含む。HMM認識器203内のHMM検索エン ジン311は、最尤経路313を計算する。 最尤経路は、隠れマルコフモデルを通る経路であり、ユーザーの音声から抽出 される音響特徴シーケンス111を発生する最尤度を有する。最尤経路313は 、通過された状態シーケンス314と各状態で費やされた時間の音長315を含 む。最尤経路313は、単音シーケンスへの音響特徴の音響セグメンテーション 205を定める。特定実施態様の音響セグメンテーション205は、時間境界( 及び/又は音長)及び単音シーケンスの単音タイプラベルを含んだ経路情報31 3の部分集合である。図1及び図2に関して上記説明したように、本発明は、音 響セグメンテーション205からの音長情報を用いて、発音の質を評価する。 HMM検索エンジン311は、周知のヴィテルビ検索方法を用いる標準枝刈り HMM検索アルゴリズムに従って、その音声HMMsを通る最尤経路を計算する 。このHMM検索アルゴリズムは、例えば援用引用された技術や文献の他のとこ ろに記載されている。ヴィテルビアルゴリズムは、他の多くの文献、例えばG. D.Forney,Jr.による「ヴィテルビアルゴリズム(The Viterbi algorithm)」、 Proc.IEEE、vol.61,268〜278頁、1973年にも記載さ れている。 特定実施態様では、話者105からの口頭ワードのシーケンスは、発音評価シ ステム101により事前に知り得る、又は知り得ない。もし口頭ワードシーケン スが事前に知られてないならば、HMM認識器203は、音響セグメンテーショ ン205に加えて、他に使用するために認識されたワードシーケンス317を出 力する。例えば、認識されたワードシーケンス317は、特定実施態様に含まれ る対話型言語命令システムにより使用され得る。この言語命令システムは、認識 されたワードシーケンスの意味を決め、認識されたワードシーケンス317が、 現在行われているレッスンに関して正しくかつ適切な発話であるか否かを決める 。 もし口頭ワードシーケンスが事前に知られているならば、その既知のワードシ ーケンス319は、HMMエンジン311に送られ、HMMsを通る可能な経路 を劇的に制約する。この既知のワードシーケンス319は、文法ネットワーク3 10の一部を形成する付加情報を表す。例えば、言語命令システムは、話者10 5が既知のスクリプトを読むことを要求しているので、口頭ワードのシーケンス は、事前に知られ得る。追加的な制約として既知ワードシーケンス319を使用 することにより、認識及びセグメンテーションのエラーを低減でき、また、HM Mエンジン311により要求される計算量も低減できる。 図4は、本発明によるサンプル入力音声107に対する最尤経路313の一部 を描いた図である。入力音声107は、その構成ワード403から構成され、こ れらは構成単音205に分類され、これらはそれら自身構成状態405に分類さ れる。構成単音205は、各単音の音長を特定する情報はもとより単音タイプラ ベル407も含む。 IV.音響特徴を用いた発音のスコアー化 図5は、本発明の実施態様によるシステム113のブロック図であり、これは 、音響単位音長よりもむしろ音響特徴111自身に直接基づいて音響スコアー1 15を計算する。 図5では、音声セグメンター203は、音響特徴111のシーケンスを受け入 れ、それらから音響セグメントを特定する時間−セグメンテーション205を生 成する。音響スコアラー503は、音響セグメンテーション205を受け入れ、 また、音響特徴111のシーケンスも受け入れる。音響スコアラー503は、音 響セグメンテーション205を用いて音響特徴111のシーケンスにインデック スを付ける。この様に、音響スコアラー503は、各音響セグメントに対応する 音響特徴フレームを得る。 音響スコアラー503は、音響セグメントの音響特徴フレームを模範音響特徴 フレームのモデル505と比較する。モデル505は、模範話者からの訓練音声 を用いて設定された。この比較に基づいて、音響スコアラー503は、図1の発 音スコアー115として音響スコアー115を計算する。音響モデル505は、 図1の音声モデル117の一部を形成する。 図3に関して説明したように、本発明の特定の音響−スコアー化実施態様では 、音声セグメンター203は、単音内の音響特徴111のシーケンスの音響セグ メンテーション205を生成するHMM認識器203である。これらの特定実施 態様の音響モデル505は、各単音タイプに対して音響特徴フレームの分離した モデルを含む。好適実施態様では、これらのモデルは、セグメンテーションのた めに使用されるHMM認識器203からのHMMモデルである。 IV.A.単音の対数事後確率スコアー 特定の音響−スコアー化実施態様では、単音タイプqに対応する分離モデルの 各々は、文脈独立の確率密度p(y|q)であり、ここで、変数yは音響特徴フ レームを表す。音響スコアラー503は、単音タイプqiの単音i内での各フレ ームytに対して、観測された音響特徴フレームytが与えられた単音iのタイプ のフレームベース事後確率P(qi|yt)を次式により計算する。 ここで、p(yt|qi)は、単音タイプqiに対応する分布に従ったフレームyt の確率である。qに関する総和は、全ての単音タイプに亘って取られる。P(qi )は、単音タイプqiの事前確率を表す。 特定実施態様の音響スコアラー503は、音響セグメンテーション205によ り定められる各単音iに対して、単音の事後スコアーρiを計算する。各単音i の単音事後スコアーは、単音i内の全フレームのフレームベース事後確率P(qi |yt)の対数平均である。各単音iの単音事後スコアーρiは、次式のように 表し得る。 ここで、総和は、単音iの全diフレームに亘って取られる。 特定実施態様の音響スコアラー503は、各単音iの単音事後スコアーρiの 平均として、全体の発話に対する音響スコアー115 ρを次式により計算する 。 ここで、総和は、発話内の単音数Nに亘って取られる。この音響スコアー115 ρは、音響事後確率ベースのスコアーの一例である。 音響事後確率ベースのスコアー115 ρは、特定の話者の特徴又は音響チャ ンネルの変動を原因とするスペクトル一致(match)における変化により受ける影 響を潜在的に少なくするように設計される。音響一致における変化は、表式(9 )におけるのと同様に分子と分母の両方に影響を与えがちであり、それにより、 音響スコアー115をそれらの変化に対してより不変にし、音声の質にさらに焦 点が当てられる。 特定実施態様では、音響スコアラー503は、文脈独立隠れマルコフ単音モデ ルからの分布を用いて表式(9)に示された文脈独立確率密度p(y|q)の各 々を計算する。表式(9)の分子において、p(yt|qi)は、フレームytが 単音タイプqiのHMMにおいて整列したHMM状態の出力分布を評価すること により計算される。表式(9)の分母中の全単音タイプに亘る総和は、各単音タ イプの文脈独立HMM内での最もありそうなHMM状態(フレームytに対して )の出力分布を用いて計算される。 特定実施態様では、各単音タイプqのHMM内の各状態の出力分布は、ガウシ アン分布の重み付けされた混合である。対角共分散(すなわち、共分散行列にお いて非対角エントリがゼロに制約されている)を有する約100個のガウシアン 分布を用いると、良い結果が得られた。ガウシアン分布内のパラメータ値は、模 範話者から収集された訓練音声データから標準推定技術を用いて設定される。 第1の代替の音響−スコアー化実施態様では、表式(9)の変形に従って文脈 依存事後確率が計算される。この実施例では、表式(9)は、次の近似式により 置換される。 ここで、ctxiは単音iの文脈クラス、すなわち、セグメンターHMM203 により求められるような単音iの直前及び直後の単音の単音タイプを表す。 分子の項p(yt|qi,ctxi)が、フレームytが文脈依存(すなわち三− 単音)HMM単音モデルにおいて整列したHMM状態の出力分布から計算される という点において、表式(12)は、表式(9)と異なる。この項は、文脈ct xi内の単音タイプqiが与えられたフレームytの出力すなわち「放出(emission )」確率である。分母は、特定実施態様のように、文脈独立単音に亘って取られ る総和をなお使用する。 事後スコアーρiは、文脈依存スコアーρ'iにより置換(近似)される。この 文脈依存スコアーρ'iは、セグメントのフレーム全てに亘る、フレームベース単 音文脈依存事後確率の対数平均として次式により定義される。 ここで、diは、単音iのフレームにおける音長である。 計算はさらに単純化され得る。すなわち、表式(12)を用いて表式(13) を次式により拡張する。 表式(14)の第1項は、セグメンテーションに使用されるHMM認識器203 から得られる最尤経路313に沿ったフレーム毎の対数確率により次式のように 近似し得る。 表式(12)の分子を計算するのに使用される文脈依存モデルは、テスト文に 現れるとき包囲する単音の特定音声文脈における所与の単音タイプの現実を掴ま えるので、文脈独立のものよりもより精密なモデルである。さらに、もし計算の 近似法が使用されるならば特に、文脈依存スコアーは、文脈独立スコアーよりも より速く計算し得る。このことは事実である。というのは、文脈依存スコアーの 成分の多くが、セグメンテーションに使用されるHMM認識器203の操作から 既に存在しているからである。 表式(10)において、表式(12)により作られる文脈依存事後確率が、表 式(9)により作られる文脈独立事後確率と代用される場合を除いて、単音及び 文に対するスコアーは、特定実施態様と同様に計算される。 第2の代替の音響−スコアー化実施態様は、特定実施態様に類似しているが、 音響スコアラー503は、文脈独立単音の部分集合のみに亘って総計することに より、表式(9)の分母を計算する。このことにより、計算が低減され、音響ス コアーに同様の標準化効果を与えることができ、しかも、音響スコアーの有用性 はほとんど低下させない。使用される単音は、音響空間のほとんどをカバーする べく選択される(すなわち、大きく非類似のサウンドが選ばれる)。 第3の代替の音響−スコアー化実施態様では、音響スコアラー503は、多層 パーセプトロン(MLP)を用いることにより直接的にフレームベース事後確率 p(qi|yt)を発生する。多層パーセプトロンは、模範訓練データ上に強制さ れた(すなわち、既知スクリプト制約された)整列を用いて訓練される。訓練手 順は、標準逆伝搬管理訓練スキーム(standard backpropagation supervised tra ining scheme)である。 訓練中、現在のフレームー−及び適宜その包囲音響文脈フレームー−は、所望 の出力と共にMLPの入力に与えられる。任意のフレームに対する所望の出力は 、1オブN(1-of-N)ターゲットである(ターゲット1が、正しい単音タイプに対 応する出力に設定され、ターゲット0がその他の出力に使用される)。相対エン トロピー又は最小二乗誤差訓練基準を用いると、出力は、フレームベース事後確 率p(qi|yt)に収束することが知られている。 MLPは当該技術では周知であり、例えば、Nelson Morgan及びHerve Bourlar dによる「連続音声認識:ハイブリッドHMM−コネクショニストアプローチ(Co ntinuous Speech Recognition:An introduction to the Hybrid HMM-Connecti onist Approach)」、IEEE Signal Processing Magazine、Vol.12、No. 3、1995年5月、25〜42頁、に記載されており、これは、ここに文献と して援用される。 表式(10)において、MLPベース事後確率がHMM導出事後確率の代わり に使用されるのを除いて、単音及び文に対するスコアーが、特定実施態様と同様 に計算される。 第4の代替の音響−スコアー化実施態様では、音響スコアラー503は、音響 事後確率ベースのスコアーも発生する。しかしながら、表式(9)によりフレー ムベース事後確率を発生するよりもむしろ、音響スコアラー503は、単音ベー ス事後確率を直接発生する。この実施態様では、音響スコアラー503は、HM Mエンジンを含む。音響スコアラー503は、HMMエンジンを操作し、ヴィテ ルビアルゴリズムを用いてあらゆる単音タイプqの隠れマルコフ単音モデルに対 して、単音iに対応する学生音声サンプルのフレームYiの整列を発生する。音 響スコアラー503は、音声認識の技術において公知の標準HMMバックトレー ス技術を用いて、単音タイプqのHMMに対する各整列用の音声Yiの音響対数 尤度、log p(Yi|q)を計算する。これらの対数尤度を用いて、音響ス コアラー503は、単音iに対する事後対数確率スコアーを次式により計算する 。 音響スコアラー503は、発話全体の音響スコアー115 ρを、発話内の各 単音iの単音事後スコアーρiの平均として表式(11)に従って計算する。 IV.B.単音の対数尤度スコアー 代替の音響−スコアー化実施態様では、音響スコアラー503は、HMM対数 尤度を用い、尤度ベース発音スコアー115 Lを導出する。模範話者から得ら れたHMMsを用いてヴィテルビアルゴリズムにより計算された音声データの尤 度の対数は、模範音声と学生の音声の間の類似性(又は一致)の良い測度である ことが仮定される。音響スコアラー503は、各単音に対して標準化された対数 尤度l'iを次式により計算する。 ここで、liは、単音iに対応する対数尤度であり、diは、フレーム数で表した その音長である。単音の音長による標準化とは、対数尤度スコアー上へのそれら の効果の増強を短い音長の単音に与えることである。このことは、さもなけれは 、より長い単音により支配される。 音響スコアラー503は、発話全体の尤度ベーススコアー115 Lを、各単 音iに対する個々の標準化対数尤度スコアーl'iの平均として次式により計算す る。ここで、総和は、発話内の単音数Nに亘って取られる。 V.スコアーの結合及び人間グレードへの写像 図6は、本発明の実施態様により異なるタイプの発音スコアーを結合するシス テムのブロック図である。スコアーを結合することにより、各スコアー自身を用 いるのと比較して全体として評価性能が向上する。 図6では、複数の発音スコアー115が、単一の発話の音響特徴111に対し て計算される。これらのスコアーは、単音音長スコアー115、音節音長スコア ー115、及び音響事後確率ベーススコアー115を含み、これらは既に別々に 説明された。これらのスコアーは、3つの別々のスコアラー113により発生さ れるものとして示される。実際の実行においては、3つの別々のスコアラー11 3は、例えば音響セグメンター203(図2及び図5)のような多くの共通コン ポーネントを共用する。 スコアー−グレード写像器119は、異なるスコアー115を受け入れ、これ らのスコアー115に写像関数603を適用して単一のグレード121を導出す る。 図7は、図6の写像関数603を作るためのシステム701のブロック図であ り、1以上のタイプの機械スコアーを、人間聴者により生成され得る発音グレー ドに写像する。図7では、機械スコアー703は、訓練音声データの発展セット において発話に対して発生される。人間発生スコアー705も、発展セットにお いて発話に対して収集される。発展セットは、熟達レベルを変える話者からの音 声を含むようにアセンブルされる。 写像アナライザー707は、機械スコアー703及び対応する人間グレード7 05を処理し、スコアー−グレード写像603を発生する。 本発明の一実施態様では、写像アナライザー707は、線形回帰を使用し、各 発話に対する2以上の機械スコアー(m1,...,mn)及びバイアス項を線形 結合し、対応する人間スコアーhを次式により近似する。線形係数λiとバイアス項λ0は、発展セットの発話に対する予測スコアー及び実 際の人間スコアー間の平均二乗を最小にするべく最適化される。 本発明の別の実施態様では、写像アナライザー707は非線形回帰を用いる。 結合されるべき機械スコアー703は、ニューラルネットワーク603への入力 であり、ニューラルネットワーク603は、複数の機械スコアー703とその対 応する人間スコアー705の間の写像を行う。写像アナライザーは、ターゲット として実際の人間スコアー705を使用してニューラルネットワーク603内の パラメータを設定する。ネットワークは、1つの線形出力ユニットと16個のS 字状(sigmoidal)隠れユニットを有する。写像アナライザーは、訓練データの約 15%にクロス検証技術(cross-validation)を使用し、標準逆伝搬技術を用いて ニューラルネットワークを訓練する。訓練は、クロス検証技術セット上で性能が 低下すると、停止される。 本発明の別の実施態様では、写像アナライザー707は、測定された機械スコ アーm1,...,mnが与えられた実際の人間スコアーhの条件付き期待値と して予測人間スコアーh’を定める写像603を次式により計算する。 期待値を計算するためには、条件付き確率P(h|M1,...,Mn)が必要と される。写像アナライザー707は、この条件付き確率を次式により計算する。 ここで、分母の総和は、G個の可能なグレード全てに亘って取られ、P(h)は 、グレードhの前の確率であり、条件付き分布は、機械スコアーのスカラー又は ベクトル量子化に基づいた離散分布により近似的にモデル化される。量子化にお いて使用されるビン(bin)数は、利用可能な訓練データ量により決められる。利 用可能なデータが増えれば、より多くのビンが使用できる。 本発明のさらに別の実施態様では、写像アナライザー707は、決定木(decis ion tree)又は代替としてクラス確率木を使用する。 結合されるべき機械スコアーは、機械スコアー703とその対応する人間スコ アー705間の写像を行う木への入力である。写像アナライザーは、当該技術で 公知の決定木構築用アルゴリズムに従って、ターゲットクラスとして実際の人間 スコアーを使用して、決定木(又は代替としてクラス確率木)内のパラメータを 設定する。人間ターゲットの離散セットは、クラスとして定められ、これらのク ラスは、入力機械スコアーをクラス化する決定又はクラス確率木により使用され る。 VI.クライアントーサーバー環境での言語命令 図8は、言語命令のための分散システム801のブロック図であり、発音の質 を評価する。図8では、リモートクライアントプロセッサー803は、クライア ント処理を行う。クライアント処理は、学生105にプロンプトを示すソフトウ エアー命令を実行する。それに応答して、学生105はマイクロフォン805に 話す。さらに説明されるように、システム801は、発音評価器(図1にのみ1 01として示される)を含む。マイクロフォン805は、発音評価器の音声入力 装置(図1にのみ103として示される)の少なくとも一部を形成する。 図8の一実施態様では、クライアント処理は、コンピューターディスプレイ8 07を使用してプロンプトを与える。プロンプトの一タイプは、学生105によ り読まれるよう表示されたスクリプトである。クライアント処理が、以前の発音 評価システムより優れている点は、上記説明したように、それが、訓練データの 無い又は不完全な訓練データしかないようなワードを含むスクリプトも使用でき ることである。これらのスクリプトは、システム801による実行中に動的に発 生されたスクリプトを含む。クライアント処理が言葉の発話を引き出す別の新し い方法は、上記説明したように、どんなスクリプトを読むこともせずに、学生1 05が自然に答えるような自由形式(open-ended)の質問をすることである。よっ て、本発明によるシステム801により、発音評価のためのユニークなワードシ ーケンスを仮想的に無尽蔵にすぐに利用可能なように供給できる。 別の実施態様では、ディスプレイ807は、例えばスクリプトや質問のような オーディオプロンプトを与えるスピーカー809により置換又は補完される。 ローカルサーバープロセッサー811は、サーバー処理を行い、これは、例え ばローカルエリアネットワークやインターネットなどのようなネットワーク81 3を介してクライアントプロセッサー803上で実行されている言語命令レッス ンを制御する。一実施態様では、サーバー処理は、動的に制御情報を送ることに よりレッスンを制御し、この制御情報は、プロンプトが学生105に与えられる 直前に例えばスクリプトや質問のような個々のプロンプトを含む又は特定する。 別の実施態様では、サーバー処理は、制御情報をダウンロードすることによりよ り緩やかにレッスンを制御し、この制御情報は、クライアントプロセッサー80 3のローカル記憶815にて個々のレッスンに対するソフトウエアー(例えば、 JAVA言語ソフトウエアー)を含み、このローカル記憶815は、RAMやハ ードディスクなどを含む。その後、クライアントプロセッサー803は、サーバ ープロセッサー811からの直接の管理がより少ない状況下で、レッスンソフト ウエアーを実行する。 本発明の幾つかの実施態様では、サーバープロセッサー811は、発音評価器 の最終ステージを含み、これは、学生の発音の評価グレードを発生する。このよ うな一実施態様では、マイクロフォン805は、クライアントプロセッサー80 3に連結され817、音声を伝える。クライアント処理は、ネットワーク813 を通じて学生音声サンプルをオーディオ受信器処理に中継し、このオーディオ受 信器処理は、サーバー処理と関連して動作し、発音評価を要求する。オーディオ 受信器処理は、サーバープロセッサー811上で行われる。 他のこのような実施態様では、マイクロフォン805は、クライアント処理の 直接の制御下にない別のチャンネル819を通じて、学生音声サンプルをサーバ ー処理に中継する。これらの実施態様の一つにおける別チャンネル819は、例 えば電話チャンネルのような物理的に分離したチャンネルである。これらの実施 態様のうち別のものでは別チャンネル819は、仮想チャンネルである。これは 、たとえクライアントーサーバー接続により共有された物理ラインをも使用して 実行されていても、サーバー処理に対しては別チャンネルであるように見える。 例えば、仮想チャンネルは、デジタル同時ボイスアンドデータ(Digital Simult aneous Voice and Data:DSVD)モデムのオーディオ仮想チャンネルを用い て実現し得る。このモデムのデータ仮想チャンネルは、クライアント−サーバー 通信を扱う。 別の実施態様では、発音評価器(図1)はサーバープロセッサー811上には 設けられない。代わりに、評価器は、クライアントプロセッサー803かどこか に設けられる。従って、発音評価は、音声サンプルをサーバー処理に送る必要性 がなく、クライアント処理により制御される。これらの実施態様では、サーバー プロセッサー811の計算リソースは、レッスンを制御することのみ必要である ので、浪費されない。この様に、サーバープロセッサー811は、マルチタスク にて同時に非常に多くのレッスンを制御できるようになる。 上述のように、クライアント処理とサーバー処理は、ネットワーク813を介 して接続された別々のプロセッサー803及び811上で動作する。しかし、一 般には、クライアント処理とサーバー処理は、マルチタスクにて単一のプロセッ サー上で動作できる。 ここでは、本発明が特定の実施態様に関して説明されてきた。他の実施態様も 、上記説明により当業者には明らかであろう。例えば、新聞広告として書かれた ガイドブックや他の視覚又は聴覚形式のようなオフライン手段を介して、予め選 ばれたスクリプトをユーザーに届けることができる。従って、添付請求の範囲に より示されたものを除いて、この発明は制限されるものではない。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),JP (72)発明者 ウエイントラウブ,ミツチエル アメリカ合衆国カリフオルニア州94536 フレモント、コロナド・ドライヴ 36360 (72)発明者 プライス,パテイ アメリカ合衆国カリフオルニア州94025 メンロ・パーク、シヤーレイ・ウエイ 420 (72)発明者 デイガラキス,ヴアツシリオス ギリシア国キヤニア73100、エヌ.キドニ ア、カラマキ 11

Claims (1)

  1. 【特許請求の範囲】 1. 自動音声処理システムにおいてコンピューター化音響セグメンテーション システムを用いて学生音声サンプルの発音を評価するための方法であって、 学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入 れる工程、 前記コンピューター化音響セグメンテーションシステムを操作し、前記セグメ ンテーションシステム内の音声音響モデルに基づいて前記学生音声サンプル内の サンプル音響単位を定める工程であって、前記音声音響モデルは、少なくとも1 人の話者からの訓練音声データを用いて設定され、前記訓練音声データは、前記 口頭ワードシーケンスを必ずしも含まない、前記工程、 前記サンプル音響単位の音長を測定する工程、及び サンプル音響単位の前記音長を模範音響単位の音長モデルと比較し、前記サン プル音響単位音長と模範音響単位音長の間の類似性を示す音長スコアーを計算す る工程、 を含む方法。 2. 前記模範音響単位の音長モデルが、少なくとも1人の模範話者からの音長 訓練音声データを用いて設定され、前記音長訓練データは、前記口頭ワードシー ケンスを必ずしも含まない、請求の範囲第1項記載の方法。 3. 各音響単位は、前記口頭ワードの言語における最長ワードよりも音長が短 い、請求の範囲第1項記載の方法。 4. 前記音長スコアーをグルードに写像する工程、及び 前記グレードを学生に提示する工程 をさらに含む、請求の範囲第1項記載の方法。 5. 前記音長スコアーをグレードに写像する工程が、 種々の熟達レベルの複数の言語学生から1セットの訓練音声サンプルを収集す る工程、 前記訓練音声サンプルの各々に対して、訓練音長スコアーを計算する工程、 前記訓練音声サンプルの各々に対して、人間グレーダーから少なくとも1つの 人間評価グレードを収集する工程、及び 前記人間評価グレードと前記訓練音長スコアーの間のエラー測定を最小にする ことにより、写像において使用される係数を調節する工程、 を含む、請求の範囲第4項記載の方法。 6. 写像工程が、 単独又は他の機械スコアーと結合された訓練音長スコアー、及び対応する人間 評価グレードから、線形又は非線形回帰により得られる写像関数を用いる工程、 を含み、 前記スコアーとグレードの全てが、学生音声の代表的訓練データベースに亘っ て収集される、請求の範囲第4項記載の方法。 7. 前記写像関数が、ニューラルネットで実現される非線形回帰により得られ 、このニューラルネットにより、機械スコアーから人間エキスパートグレードへ の任意の写像が可能になる、請求の範囲第6項記載の方法。 8. 写像工程が、パラメータが訓練音長スコアーを用いて設定された決定木又 はクラス確率木を用いる工程を含む、請求の範囲第4項記載の方法。 9. 前記音響セグメンテーションシステムを操作する工程が、 前記音声音響モデルの一つから訓練された隠れマルコフモデル(HMMs)を 通る経路を計算する工程であって、前記経路は、前記学生音声サンプルから観測 された音響特徴シーケンスを発生する最尤度を有し得るHMMsを通る許容経路 である前記工程、及び 前記経路から1音響単位の少なくとも1つの境界又は音長を決める工程、 を含む、請求の範囲第1項記載の方法。 10. 前記口頭ワードシーケンスが、既知スクリプトに従って話され、そして 、 経路計算工程が、HMMsを通る任意経路の許容度を定める際に前記スクリプ トを使用する工程を含む、請求の範囲第9項記載の方法。 11. 前記口頭ワードシーケンスが未知であり、経路計算工程が、前記口頭ワ ードシーケンスを決めるコンピューター化音声認識システムを操作する工程を含 む、請求の範囲第9項記載の方法。 12. 前記サンプル音響単位が音節であり、そして 少なくとも1つの音響単位の境界又は音長を決める工程が、 前記経路から少なくとも2つの単音の境界又は音長を抽出する工程、及び 少なくとも2つの単音の部分を結合し、音節音響単位の境界又は音長を得る工 程、 を含む、請求の範囲第9項記載の方法。 13. 少なくとも2つの単音の部分を結合する工程が、前記単音の一つから母 音単音の中心間の時間差を測定して音節音響単位の音長を得る工程を含む、請求 の範囲第12項記載の方法。 14. 前記サンプル音響単位が単音である、請求の範囲第1項記載の方法。 15. 前記サンプル音響単位が音節である、請求の範囲第1項記載の方法。 16. 前記模範音響単位の音長分布モデルが、話者標準化された音響単位の音 長モデルであり、音長測定工程が、 前記学生音声サンプルを分析し、学生話者標準化係数を決める工程、及び 前記学生話者標準化係数を用い、前記測定されたサンプル音響単位音長として 話者標準化音長を測定する工程、 を含み、それにより、比較工程が、前記話者標準化されたサンプル音響単位の音 長を、前記模範話者標準化された音響単位の音長分布モデルと比較する、請求の 範囲第1項記載の方法。 17. 前記学生話者標準化係数が、音声速度である、請求の範囲第16項記載 の方法。 18. 前記セグメンテーションシステムを操作する工程が、分析からサイレン スを有する文脈内の音響単位を除外する、請求の範囲第1項記載の方法。 19. 前記セグメンテーションシステムを操作する工程が、前記音響セグメン テーションシステムとして音声認識システムを操作する工程を含む、請求の範囲 第1項記載の方法。 20. 学生音声サンプルの発音を評価するためのシステムであって、前記学生 音声サンプルは、学生話者による口頭ワードシーケンスから成り、該システムは 、 少なくとも1人の話者からの訓練音声データを用いて設定された音声音響モデ ルであって、前記訓練音声データは、前記口頭ワードシーケンスを必ずしも含ま ない前記モデル、 前記音声音響モデルに基づいて前記学生音声サンプル内の音響単位を識別する よう構成されたコンピューター化音響セグメンテーションシステム、 前記サンプル音響単位の音長を測定するよう構成された音長抽出器、 模範音響単位の音長モデル、及び 前記サンプル音響単位の音長を模範音響単位の前記音長モデルと比較し、前記 サンプル音響単位の音長と模範音声内の音響単位の音長の間の類似性を示す音長 スコアーを計算するように構成された音長スコアラー、 を含むシステム。 21. 自動音声処理システムにおいて、学生音声サンプルの発音をグレード付 けするための方法であって、 学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入 れる工程、 1セットの訓練された音声モデルを操作し、前記音声サンプルから少なくとも 1つの事後確率を計算する工程であって、前記事後確率の各々は、前記学生音声 サンプルの特定部分が、前記音声サンプルの前記特定部分が与えられた特定の既 知モデルに対応する確率である前記工程、及び 前記事後確率から前記学生音声サンプルに対する発音の質の評価スコアー(こ こでは事後ベース評価スコアーという。)を計算する工程、 を含む方法。 22. 前記事後確率の各々は、前記特定既知モデルが前記学生音声サンプルの 前記特定部分を発生した尤度を、個々のモデルが前記音声サンプルの前記特定部 分を発生した尤度の総和で除することにより、モデル尤度から導出される、請求 の範囲第21項記載の方法。 23. 前記特定の既知モデルが、文脈依存モデルであり、そして 前記個々のモデルが、文脈依存又は文脈独立モデルである、請求の範囲第21 項記載の方法。 24. 前記訓練された音声モデルが、1セットの単音モデルを含み、 前記学生音声サンプルが、単音を含み、そして 前記音声モデルを操作する工程が、単音タイプqiの単音i内の各フレームyt に対するフレームベース事後確率を次式 により計算する工程を含み、ここで、p(yt|qi,...)は、単音タイプqi に対応するモデルに従ったフレームytの確率であり、 qについての総和は、全単音タイプに亘って取られ、そして P(qi)は、単音タイプqiの事前確率を表す、 請求の範囲第21項記載の方法。 25. フレームベース事後確率を計算する工程が、分子中の各単音タイプqi に対応する文脈依存モデルを使用し、それにより、前記p(yt|qi,...) は、文脈依存尤度p(yt|qi,ctxi)であり、ここで、ctxiは、文脈を 表す、請求の範囲第24項記載の方法。 26. 前記学生音声サンプルに対して前記事後ベース評価スコアーを計算する 工程が、前記単音i内の全フレームのフレームベース事後確率の対数平均を単音 iに対して計算する工程を含み、前記平均は、ここでは単音スコアーρiと称し 、これは、次式 により表され、ここで、総和は、前記単音iの全てのdiフレームに亘って取ら れる、請求の範囲第24項記載の方法。 27. 前記学生音声サンプルに対する前記事後ベース評価スコアーが、前記学 生音声サンプル内の各単音iに対する個々の単音スコアーρiの平均として次式により定義され、ここで、総和は、前記学生音声サンプル内の単音数に亘って取 られる、請求の範囲第26項記載の方法。 28. 各単音タイプに対応するモデルが、ガウシアン混合単音モデルである、 請求の範囲第24項記載の方法。 29. 各単音タイプに対応するモデルが、文脈独立単音モデルである、請求の 範囲第24項記載の方法。 30. 各単音タイプに対応するモデルが、隠れマルコフモデルである、請求の 範囲第24項記載の方法。 31. 前記音声サンプルの前記特定部分が単音である、請求の範囲第22項記 載の方法。 32. 前記事後ベース評価スコアーを、人間聴者により割り当てられ得るよう なグレードに写像する工程、及び 前記グレードを前記学生話者に提示する工程、 をさらに含む、請求の範囲第21項記載の方法。 33. 前記事後ベース評価スコアーをグレードに写像する前記工程が、 種々の熟達レベルの複数の言語学生から1セットの訓練音声サンプルを収集す る工程、 前記サンプルを聞く人間エキスパート聴者から、前記訓練サンプルの各々に対 する1セットの人間評価グレードを収集する工程、及び 人間エキスパートグレードと前記評価スコアーの間の二乗誤差を最小にするこ とにより、写像で使用される係数を調節する工程、 を含む、請求の範囲第32項記載の方法。 34. 前記学生音声サンプルが、音響特徴シーケンスから成り、 前記音声音響モデルの一つから1セットの訓練された隠れマルコフモデル(H MMs)を通る経路を計算する工程であって、前記経路は、前記音響特徴シーケ ンスを発生する最尤度を有し得るHMMsを通る許容経路である前記工程、及び 前記経路内の単音間の遷移を識別し、それにより単音を定める工程、 をさらに含む、請求の範囲第21項記載の方法。 35. 経路計算工程が、ヴィテルビ検索技術を用いて実行される、請求の範囲 第34項記載の方法。 36. 前記口頭ワードシーケンスが未知であり、経路計算工程が、前記口頭ワ ードシーケンスを決めるコンピューター化音声認識システムを用いて実行される 、請求の範囲第34項記載の方法。 37. サイレンスを有する文脈中のセグメントは、前記学生音声サンプルから 、及び前記音声モデルを訓練するのに使用される訓練データから除外される、請 求の範囲第21項記載の方法。 38. 学生音声サンプルの発音を評価するためのシステムであって、前記学生 音声サンプルは、学生話者による口頭ワードシーケンスから成り、該システムは 、 模範音声の訓練された音声音響モデル、及び 前記訓練された音声モデルを用いて前記音声サンプルから少なくとも1つの事 後確率を計算するように構成された音響スコアラーであって、前記音響スコアラ ーは、前記事後確率から前記学生サンプルの発音の質の評価スコアーを計算する ようにも構成され、前記事後確率の各々は、前記学生音声サンプルの特定部分が 、前記音声サンプルの前記特定部分が与えられた特定の既知モデルに対応する確 率である前記音響スコアラー、 を含む、システム。 39. クライアント/サーバー環境における発音訓練用システムであって、学 生にプロンプトを提示し且つ前記プロンプトにより引き出された学生音声を受け 入れるためのクライアント処理が存在し、前記システムは、 制御情報を前記クライアント処理に送り、前記学生に提示されるプロンプトを 指定し、且つ、前記提示されたプロンプトにより引き出された前記学生音声から 導出される音声サンプルを受け取るサーバー処理、並びに 前記学生音声サンプルを分析するための、前記サーバー処理によりインボーカ ブルな発音評価器、 を含むシステム。 40. 前記発音評価器が、訓練音声データを用いて設定され、そして 前記サーバー処理は、プロンプトを指定し、前記学生音声サンプルとして前記 訓練音声データ内に必ずしも無いワードシーケンスを引き出すように適応される 、請求の範囲第39項記載のシステム。 41. 前記サーバー処理が、通信チャンネルとは別の音声チャンネル上で前記 音声サンプルを受け取り、前記サーバー処理と前記クライアント処理は、前記通 信チャンネルを介して通信する、請求の範囲第39項記載のシステム。 42. 前記クライアント処理と前記サーバー処理が、2つの別々のコンピュー タープロセッサー上に配置され、ネットワークを介して通信する、請求の範囲第 39項記載のシステム。
JP51691198A 1996-10-02 1997-10-01 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム Expired - Lifetime JP4394752B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US2763896P 1996-10-02 1996-10-02
US93541497A 1997-09-23 1997-09-23
US08/935,414 1997-09-23
US60/027,638 1997-09-23
PCT/US1997/017888 WO1998014934A1 (en) 1996-10-02 1997-10-01 Method and system for automatic text-independent grading of pronunciation for language instruction

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2006316196A Division JP2007171944A (ja) 1996-10-02 2006-11-22 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム

Publications (3)

Publication Number Publication Date
JP2002515136A true JP2002515136A (ja) 2002-05-21
JP2002515136A5 JP2002515136A5 (ja) 2005-03-10
JP4394752B2 JP4394752B2 (ja) 2010-01-06

Family

ID=26702729

Family Applications (2)

Application Number Title Priority Date Filing Date
JP51691198A Expired - Lifetime JP4394752B2 (ja) 1996-10-02 1997-10-01 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム
JP2006316196A Ceased JP2007171944A (ja) 1996-10-02 2006-11-22 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2006316196A Ceased JP2007171944A (ja) 1996-10-02 2006-11-22 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム

Country Status (4)

Country Link
EP (1) EP1010170B1 (ja)
JP (2) JP4394752B2 (ja)
AT (1) ATE440359T1 (ja)
DE (1) DE69739545D1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006201491A (ja) * 2005-01-20 2006-08-03 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム
JP2007057692A (ja) * 2005-08-23 2007-03-08 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2007133008A (ja) * 2005-11-08 2007-05-31 Advanced Telecommunication Research Institute International 音声認識装置、およびプログラム
JP2007133031A (ja) * 2005-11-08 2007-05-31 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム
JP2009537850A (ja) * 2006-05-16 2009-10-29 深チン大学 多種類言語に適用可能なコンピュータ使用による聾唖者の発音習得方法
KR20170045041A (ko) * 2015-10-16 2017-04-26 삼성전자주식회사 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105940395B (zh) * 2014-01-31 2019-07-16 谷歌有限责任公司 生成文档的矢量表示
JP2020187713A (ja) * 2019-05-13 2020-11-19 知記 松田 Ai先生
CN112951277B (zh) * 2019-11-26 2023-01-13 新东方教育科技集团有限公司 评测语音的方法和装置
JP2022045256A (ja) * 2020-09-08 2022-03-18 株式会社Screenホールディングス 教師データ作成支援装置、教師データ作成支援システムおよび教師データ作成支援方法
CN116071764B (zh) * 2023-03-28 2023-07-14 中国人民解放军海军工程大学 基于原型网络的手写汉字识别方法、装置、设备及介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4799261A (en) * 1983-11-03 1989-01-17 Texas Instruments Incorporated Low data rate speech encoding employing syllable duration patterns
JPH07117809B2 (ja) * 1984-02-02 1995-12-18 松下電器産業株式会社 発音練習装置
JPS61118799A (ja) * 1984-11-14 1986-06-06 富士通株式会社 発声訓練装置
JPS62299899A (ja) * 1986-06-19 1987-12-26 富士通株式会社 よう音・直音言い分け評価方式
JP2739950B2 (ja) * 1988-03-31 1998-04-15 株式会社東芝 パターン認識装置
JP2704216B2 (ja) * 1988-09-29 1998-01-26 日本電信電話株式会社 発音評価法
JP2834471B2 (ja) * 1989-04-17 1998-12-09 日本電信電話株式会社 発音評価法
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
JP2775140B2 (ja) * 1994-03-18 1998-07-16 株式会社エイ・ティ・アール人間情報通信研究所 パターン認識方法、音声認識方法および音声認識装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006201491A (ja) * 2005-01-20 2006-08-03 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム
JP2007057692A (ja) * 2005-08-23 2007-03-08 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2007133008A (ja) * 2005-11-08 2007-05-31 Advanced Telecommunication Research Institute International 音声認識装置、およびプログラム
JP2007133031A (ja) * 2005-11-08 2007-05-31 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム
JP2009537850A (ja) * 2006-05-16 2009-10-29 深チン大学 多種類言語に適用可能なコンピュータ使用による聾唖者の発音習得方法
KR20170045041A (ko) * 2015-10-16 2017-04-26 삼성전자주식회사 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치
KR102192678B1 (ko) 2015-10-16 2020-12-17 삼성전자주식회사 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치

Also Published As

Publication number Publication date
EP1010170A1 (en) 2000-06-21
DE69739545D1 (de) 2009-10-01
EP1010170B1 (en) 2009-08-19
JP2007171944A (ja) 2007-07-05
ATE440359T1 (de) 2009-09-15
JP4394752B2 (ja) 2010-01-06
EP1010170A4 (en) 2008-08-20

Similar Documents

Publication Publication Date Title
US6055498A (en) Method and apparatus for automatic text-independent grading of pronunciation for language instruction
JP2007171944A (ja) 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム
US8209173B2 (en) Method and system for the automatic generation of speech features for scoring high entropy speech
JP2006048065A (ja) 音声対話式言語指導法及び装置
JPH10222190A (ja) 発音測定装置および方法
JP2002040926A (ja) インターネット上での自動発音比較方法を用いた外国語発音学習及び口頭テスト方法
JP5007401B2 (ja) 発音評定装置、およびプログラム
Ahsiah et al. Tajweed checking system to support recitation
Neumeyer et al. Webgrader: a multilingual pronunciation practice tool
JP4753412B2 (ja) 発音評定装置、およびプログラム
US11636858B2 (en) Audio analysis system for automatic language proficiency assessment
Karhila et al. HMM-based speech synthesis adaptation using noisy data: Analysis and evaluation methods
US11250874B2 (en) Audio quality enhancement system
US11404051B2 (en) Textual analysis system for automatic language proficiency assessment
CN113990288B (zh) 一种语音客服自动生成部署语音合成模型的方法
WO1994015330A1 (en) Method and apparatus for automatic evaluation of pronunciation
JP5066668B2 (ja) 音声認識装置、およびプログラム
JP2007133227A (ja) ニューラルネット学習装置および感情判断装置
JP2007133031A (ja) 発音評定装置、およびプログラム
Landini A Pronunciation Scoring System for Second Language Learners
JP2005221679A (ja) 発話スタイル評価装置及び発話スタイル分類装置
JP2005221679A6 (ja) 発話スタイル評価装置及び発話スタイル分類装置
Xu Evaluation of English Pronunciation Interaction Quality Based on Deep Learning
Ellouze Pitch and energy contribution in emotion and speaking styles recognition enhancement
JP2001228890A (ja) 音声認識装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040616

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060523

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060822

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061122

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070926

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20071129

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080925

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20090611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090624

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090813

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20090813

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091016

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121023

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121023

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131023

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term